CN113114417B - 音频传输方法、装置、电子设备及存储介质 - Google Patents

音频传输方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113114417B
CN113114417B CN202110346002.6A CN202110346002A CN113114417B CN 113114417 B CN113114417 B CN 113114417B CN 202110346002 A CN202110346002 A CN 202110346002A CN 113114417 B CN113114417 B CN 113114417B
Authority
CN
China
Prior art keywords
audio
digital signal
signal
frame
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110346002.6A
Other languages
English (en)
Other versions
CN113114417A (zh
Inventor
唐军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Soyo Technology Development Co ltd
Original Assignee
Shenzhen Soyo Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Soyo Technology Development Co ltd filed Critical Shenzhen Soyo Technology Development Co ltd
Priority to CN202110346002.6A priority Critical patent/CN113114417B/zh
Publication of CN113114417A publication Critical patent/CN113114417A/zh
Application granted granted Critical
Publication of CN113114417B publication Critical patent/CN113114417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0041Arrangements at the transmitter end
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0045Arrangements at the receiver end
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0056Systems characterized by the type of code used
    • H04L1/0057Block codes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请实施例公开了一种音频传输方法、装置、电子设备及存储介质。该方法包括:采集音频信号;将所述音频信号进行数字转换,得到第一数字信号;对所述第一数字信号进行编码,得到第二数字信号;向接收端发送所述第二数字信号。本申请实施例有利于提高音频的传输距离和稳定性。

Description

音频传输方法、装置、电子设备及存储介质
技术领域
本申请涉及音频传输技术领域,具体涉及一种音频传输方法、电子设备、计算机设备及存储介质。
背景技术
随着无线音频技术的快速发展,技术更趋向于无线化和音频化,并且音频应用相关的产品层出不穷。这些无线音频应用借助于移动终端的麦克风和扬声器进行音频信号的传输,比如,通过麦克风和扬声器进行广播、消防演练。
然而,由于噪声的干扰,音频传输的距离都比短,比如,麦克风和扬声器只能在较近的范围内配套使用,一旦超过了这个范围,扬声器就无法接收到麦克风采集到的音频。因此,如何提高音频的传输距离是目前亟待解决的问题。
发明内容
本申请实施例提供了一种音频传输方法、电子设备、计算机设备及存储介质,提高音频的传输距离和稳定性。
第一方面,本申请实施例提供一种音频传输方法,应用于发送端,包括:
采集音频信号;
将所述音频信号进行数字转换,得到第一数字信号;
对所述第一数字信号进行编码,得到第二数字信号;
向接收端发送所述第二数字信号。
第二方面,本申请实施例提供一种音频传输方法,应用于接收端,包括:
从发送端接收第二数字信号;
对所述第二数字信号进行解码,得到第一数字信号;
将所述第一数字信号进行音频转换,得到音频信号;
播放所述音频信号。
第三方面,本申请实施例提供一种音频传输装置,包括:
收发模块,用于采集音频信号;
处理模块,用于将所述音频信号进行数字转换,得到第一数字信号;对所述第一数字信号进行编码,得到第二数字信号;
所述收发模块,还用于向接收端发送所述第二数字信号。
第四方面,本申请实施例提供一种音频传输装置,包括:
收发模块,用于从发送端接收第二数字信号;
处理模块,用于对所述第二数字信号进行解码,得到第一数字信号;将所述第一数字信号进行音频转换,得到音频信号;播放所述音频信号。
第五方面,本申请实施例提供一种电子设备,包括:处理器,所述处理器与存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行如第一方面所述的方法。
第六方面,本申请实施例提供一种电子设备,包括:处理器,所述处理器与存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行如第二方面所述的方法。
第七方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得计算机执行如第一方面所述的方法。
第八方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得计算机执行如第二方面所述的方法。
第九方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所述的方法。
第十方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第二方面所述的方法。
实施本申请实施例,具有如下有益效果:
可以看出,在本申请实施例中,在发送端采集到音频信号字后,将音频信号转化为数字信号,从而可以以电磁波的形式传输音频信号,进而提高了音频传输距离。此外,在将音频信号转化为第一数字信号之后,还对该第一数字信号进行编码,从而使数字信可以抵抗传输过程中噪声的干扰,进而提高音频信号传输的稳定性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种音频传输系统的架构示意图;
图2为本申请实施例提供的一种音频传输方法的流程示意图;
图3为本申请实施例提供的另一种音频传输方法的流程示意图;
图4为本申请实施例提供的另一种音频传输方法的流程示意图;
图5为本申请实施例提供的一种音频传输装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参阅图1,图1为本申请实施例提供的一种音频传输系统的架构图。音频传输系统包括发送端10和接收端20。应理解,发送端10包括编码模块,接收端包括解码模块。
基于图1所示的音频传输系统,发送端10采集音频信号,并将音频信号进行数字转换,得到第一数字信号;然后,通过编码模块对第一数字信号进行信道编码,得到第二数字信号,并向接收端20发送第二数字信号;接收端20通过解码模块,对第二数字信号进行信道解码,得到第一数字信号,对该第一数字信号进行音频转换,得到音频信号,最后,播放该音频信号。
可以看出,在本申请实施例中,在发送端采集到音频信号字后,将音频信号转化为数字信号,从而可以以电磁波的形式传输音频信号,进而提高了音频传输距离。此外,在将音频信号转化为第一数字信号之后,还对该第一数字信号进行信道编码,从而使数字信可以抵抗传输过程中噪声的干扰,进而提高音频信号传输的稳定性。
参阅图2,图2为本申请实施例提供的一种音频传输方法的流程示意图。该方法应用于音频传输系统。该方法包括以下步骤:
201:发送端采集音频信号。
示例性的,发送端可以为麦克风或者任意一种用户设备。因此,该音频信号可以是通过麦克风采集说话人的音频信号,也可以是在该发送端上预先设置存储的音频信号,在检测到预设操作的情况下,发送端自动获取该音频信号。
202:发送端将音频信号进行数字转换,得到第一数字信号。
示例性的,发送端对该音频信号进行傅里叶变换,得到音频信号的频域信号,其中,该傅里叶变换可以为短时傅里叶变换、快速傅里叶变换,等各种形式的傅里叶变换,本申请并不进行限定。然后,通过预设的时间窗口将该频域信号进行分帧,得到多个第一音频帧,比如,该时间窗口可以为10ms,也就是把时长为10ms的音频段当做一个第一音频帧;根据该多个第一音频帧中的每个第一音频帧上各个频点的幅值,对每个第一音频帧进行编码,得到每个第一音频帧对应的数字信号。示例性的,可以将每个第一音频帧的各个频点的幅值转化为预设比特位(比如,4位)的二进制数,将二进制数作为各个频点的数字信号;然后,按照时间的先后顺序将每个第一音频帧的各个频点的数字信号进行组合,得到每个第一音频帧的数字信号;最后,将多个第一音频帧的数字信号按照时间的先后顺序进行拼接,得到该音频信号对应的第一数字信号。
应理解,在对多个第一音频帧进行数字转换的过程中,由于数字转换依赖于各个频点的幅值,并且提前分割好了多个第一音频帧,因此,可以并行的对该多个第一音频帧进行数字转换,提高数字转换效率。
203:发送端对第一数字信号进行编码,得到第二数字信号。
示例性的,可以多该第一数字信号进行压缩编码,得到第三数字信号,比如,可以通过OPUS压缩编码对第一数字信号进行压缩编码,得到第三数字信号,其中,第三数字信号的内存小于第一数字信号;然后,对该第三数字信号进行信道编码,得到第二数字信号,比如,可以通过RS前向纠错编码对第三数字信号进行信道编码,得到第二数字信号。下面以RS前向纠错编码为前向纠错编码(Forward Error Correction,FEC)为例说明信道编码的过程。应理解,在实际应用中,还可以采用其他的压缩编码算法对第一数字信号进行压缩编码,以及采用其他的信道编码算法对第三数字信号进行信道编码。
示例性的,发送端对该第一数字信号进行进行FEC,得到第二数字信号。具体的,根据第一数字信号构建第一多项式,其中,该第一多项式中每项的系数即为该第一数字信号中的每个取值;然后,根据预设的本元多项式构建第二多项式,其中,该预设的本元多项式为发送端和接收端两端提前约定好的多项式,根据设定的纠错能力,构建该第二多项式;最后,根据该第一多项式和第二多项式对第一数字信号进行前向纠错编码,得到剩余多项式;将该剩余多项式中的各个系数作为前向纠错编码的冗余码,并将冗余码与该第一数字信号进行拼接,得到该第二数字信号。
其中,根据该第一多项式和第二多项式进行伽罗瓦运算,得到该剩余多项式,其中,伽罗瓦运算为公知技术,不再叙述。
204:发送端向接收端发送第二数字信号。
205:接收端对第二数字信号进行解码,得到第一数字信号。
示例性的,接收端对第二数字信号进行信道解码,得到第三数字信号;然后,再对该第三数字信号进行压缩解码,得到该第一数字信号。比如,在信道编码为FEC,则接收端对该第二数字信号进行向前纠错,得到该第三数字信号,即接收端根据前向纠错规则,对该第二数字信号中的错误比特进行纠错,得到该第三数字信号;在压缩编码为OPUS编码时,可以对该第三数字信号进行OPUS压缩解码,得到第一数字信号。
206:接收端对第一数字信号进行音频转换,得到音频信号。
示例性的,接收端根据预设的数字窗口对第一数字信号进行分段,得到多个数字信号段,其中,该多个数字信号段与多个第一音频帧一一对应。也就是说,通过预设的数字窗口从该第一数字信号中截取与发送端分割出的第一音频帧对应的数字信号段,比如,每个第一音频段对应的数字信号的比特为20位,则从该第一数字信号中依次截取20位的二进制比特,得到与每个第一音频帧对应的数字信号段。
然后,对多个数字信号段中的每个数字信号进行解码,得到每个数字信号段对应的第一音频帧中个频点的幅值。比如,已知每个频点的幅值是通过4位比特的二进制数编码,则从每个数字信号段中截取4位二进制比特进行解码,得到每个频点的幅值,即得到了每个第一音频帧中各个频点的幅值;然后,根据每个数字信号段对应的第一音频帧中各个频点的幅值,确定每个数字信号段对应的第一音频帧的频谱图;将每个数字信号段对应的第一音频帧的频谱图进行拼接,得到该音频信号的频域信号;最后,对该频域信号进行傅里叶反变换,得到该音频信号。
207:接收端播放音频信号。即接收端通过扬声器播放该音频信号。
可以看出,在本申请实施例中,在本申请实施例中,在发送端采集到音频信号字后,将音频信号转化为数字信号,从而可以以电磁波的形式传输音频信号,进而提高了音频传输距离。此外,在将音频信号转化为第一数字信号之后,还对该第一数字信号进行信道编码,从而使数字信可以抵抗传输过程中噪声的干扰,进而提高音频信号传输的稳定性。
在本申请的一个实施方式中,发送端还可以通过以下方式将音频信号进行数字转换。示例性的,发送端对所述音频信号进行语义分析,得到与所述音频信号对应的文本信息;对所述文本信息中的每个单词进行词嵌入,得到每个单词对应的词向量,然后,将每个单词对应的词向量进行二进制化处理,即将每个单词对应的词向量中每个维度的取值通过个N个二进制数表示,得到每个单词对应的数字信号;最后,将每个单词对应的数字信号进行拼接(即横向拼接),得到所述音频信号对应的第一数字信号。这样,接收端解析出第一数字信号后,可以根据解码出第一数字信号对应的文本信息,然后,对该文本信息进行播放,从而实现音频的传输。可以看出,在本实施方式中,通过语义分析,即对整个音频信号整体分析,即使有一部分音频信号缺失,基于语义之间的联系,也可以得到完整的文本信息,从而得到完整的第一数字信号,因此,不会受缺失的音频信号的干扰,提高了音频信号数字化的稳定性。
在本申请的一个实施方式中,发送端还可以通过以下方式将音频信号进行数字转换。发送端对音频信号进行重叠分帧,得到多个第三音频帧;然后,对每帧音频帧进行语义分析,得到每帧音频帧的语义信息;确定任意一帧音频帧的语义信息与位于该音频帧的前后两帧的音频帧的语义信息的连续性,在确定任意一帧音频帧的语义信息与前后两帧的音频帧的语义信息不连续的情况下(比如,该音频帧的语义信息丢失的情况下),根据位于该音频帧的前后两帧的音频帧的语义信息对该任意音频帧进行模拟,得到模拟音频帧,并使用该模拟音频帧替换该任意音频帧。比如,可以根据位于该音频帧的前后两帧的音频帧的语义信息模拟出该音频帧对应的语义信息,根据模拟出的该音频帧对应的语义信息以及位于该音频帧的前后两帧的音频帧的响度,得到该模拟音频帧。
可以看出,在本申请实施例中,对音频帧进行补全,这样可以解决由于环境的干扰,在某个时间段内用户说话了而没有采集到音频的情况,从而提高了音频传输的完整性和效率,避免重复传输。
参阅图3,图3为本申请实施例提供的另一种音频传输方法的流程示意图。该方法应用于音频传输系统。该实施例中与图2所示的实施例相同的内容,此处不再重复描述。本实施例的方法包括以下步骤:
301:发送端采集音频信号。
302:发送端将所述音频信号分割为多个音频段,其中,所述多个音频段中的任意两个相邻的音频段存在重叠,且每个音频段包括多个第二音频帧。
303:发送端将所述多个音频段中的每个音频段输入到人声过滤模型,得到所述每个音频段的第一人声概率序列。
其中,该人声过滤模型为预先训练好的用于从音频信号中过滤出人声的神经网络模型,比如,可以为Hoursglass模型,等等。
示例性的,所述第一人声概率序列用于表示所述每个音频段中的每个第二音频帧为人声的概率。比如,第一人声概率序列为[0.2,0.6,0.8],则分别表示三个第二音频帧为人声的概率分别为0.2,0.6,0.8。
304:发送端根据所述每个音频段的第一人声概率序列,确定所述任意两个相邻的音频段的重叠部分为人声的概率。
示例性的,由于在对音频信号进行分割过程中,是重叠分割的,所以任意两个音频段之间的存在重叠的第二音频帧。因此,可以将任意两个相邻的音频段的重叠的第二音频帧属于人声的概率求平均,作为该重叠的第二音频帧属于人声的概率。比如,第一个音频段中的第三个第二音频帧与第二个音频段的第一个音频帧重叠,且第一个音频段的人声概率序列为[0.2,0.6,0.8],第二个音频段的人声概率序列为[0.4,0.7,0.5],则该重叠的第二音频帧属于人声概率为0.6。
305:发送端根据所述每个音频段的第一人声概率序列,以及所述任意两个相邻的音频段的重叠部分为人声的概率,确定所述音频信号的第二人声概率序列。
示例性的,将每个音频段的第一人声概率序列以及重叠部分的人声的概率进行组合,得到该音频信号的第二人声概率序列。
306:发送端根据维特比算法以及所述第二人声概率序列确定所述音频信号的目标人声概率序列,根据所述目标人声概率序列滤除所述音频信号中非人声音频帧,并将滤除非人声音频帧的音频信号作为所述音频信号。
示例性的,通过维比特算法调整该第二人声概率序列,得到目标人声概率序列。比如,前三个第二音频帧为人声,后三个第二音频帧也为人声,中间一个第二音频帧为非人声,这样明显不符合说话人的逻辑,因此,将中间一个第二音频帧的人声概率进行调整,从而使中间一个第三音频帧也属于人声。
307:发送端将所述音频信号进行数字转换,得到第一数字信号。
308:发送端对所述第一数字信号进行编码,得到第二数字信号。
309:发送端向接收端发送所述第二数字信号。
310:接收端对所述第二数字信号进行解码,得到第一数字信号。
311:接收端将所述第一数字信号进行音频转换,得到音频信号。
312:接收端播放所述音频信号。
在本申请实施例中,在发送端采集到音频信号字后,将音频信号转化为数字信号,从而可以以电磁波的形式传输音频信号,进而提高了音频传输距离。此外,在将音频信号转化为第一数字信号之后,还对该第一数字信号进行信道编码,从而使数字信可以抵抗传输过程中噪声的干扰,进而提高音频信号传输的稳定性。并且,在对音频信号进行数字化转换之前,还对音频信号进行人声提取,从而过滤掉了噪声,进一步提高传输的稳定性,以及提高了传输效率。
参阅图4,图4为本申请实施例提供的另一种音频传输方法的流程示意图。该方法应用于音频传输系统。该实施例中与图2、图3所示的实施例相同的内容,此处不再重复描述。本实施例的方法包括以下步骤:
401:发送端采集音频信号。
402:发送端将所述音频信号分割为多个音频段,其中,所述多个音频段中的任意两个相邻的音频段存在重叠,且每个音频段包括多个第二音频帧。
403:发送端将所述多个音频段中的每个音频段输入到人声过滤模型,得到所述每个音频段的第一人声概率序列。
示例性的,所述第一人声概率序列用于表示所述每个音频段中的每个第二音频帧为人声的概率。
404:发送端根据所述每个音频段的第一人声概率序列,确定所述任意两个相邻的音频段的重叠部分为人声的概率。
405:发送端根据所述每个音频段的第一人声概率序列,以及所述任意两个相邻的音频段的重叠部分为人声的概率,确定所述音频信号的第二人声概率序列。
406:发送端根据维特比算法以及所述第二人声概率序列确定所述音频信号的目标人声概率序列,根。据所述目标人声概率序列滤除所述音频信号中非人声音频帧,并将滤除非人声音频帧的音频信号作为所述音频信号
407:发送端将所述音频信号进行数字转换,得到第一数字信号。
408:发送端对所述第一数字信号进行编码,得到第二数字信号。
409:发送端向接收端发送所述第二数字信号。
410:接收端对所述第二数字信号进行解码,得到第一数字信号。
411:接收端将所述第一数字信号进行音频转换,得到音频信号。
412:接收端获取周围环境的音量大小。
413:接收端根据所述周围环境的音量大小播放所述音频信号。
示例性的,接收端可根据周围环境的音量大小与播放音量之间的映射关系,确定该音频信号对应的播放音量,并通过该播放音量播放该音频信号。
可以看出,根据周围环境音量大小自动设置播放音量,无需用户手动调节,提高音频传输与播放的自动化。
上述本申请提供用于实现音频传输的实施例中,分别从发送端、接收端、以及发送端与接收端之间交互的角度对本申请实施例提供的方法进行了介绍。为了实现上述本申请实施例提供的方法中的各功能,发送端、接收端可以包括硬件结构和/或软件模块,以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能以硬件结构、软件模块、还是硬件结构加软件模块的方式来执行,取决于技术方案的特定应用和设计约束条件。
图5为本申请的实施例提供一种音频传输装置的结构示意图。这些频传输装置可以实现上述方法实施例中发送端或接收端的功能,因此也能实现上述方法实施例所具备的有益效果。在本申请实施例中,该频传输装置可以是如图2-图4对应的任一实施例中所示的发送端,也可以是接收端。
如图5所示,音频传输装置500包括收发模块501和处理模块502。频传输装置500可用于实现上述图2-图4对应的实施例中发送端或接收端的功能。
当音频传输装置500用于实现图2-图4任一方法实施例中的发送端的功能时:
收发模块501,用于采集音频信号;
处理模块502,用于将所述音频信号进行数字转换,得到第一数字信号;对所述第一数字信号进行编码,得到第二数字信号;向接收端发送所述第二数字信号。
在一些可能的实施方式中,在对所述第一数字信号进行编码,得到第二数字信号方面,处理模块502,具体用于:
对所述第一数字信号进行压缩编码,得到第三数字信号;
对所述第三数字信号进行信道编码,得到所述第二数字信号。
在一些可能的实施方式中,在将所述音频信号转化为第一数字信号方面,处理模块502,具体用于:
对所述音频信号进行傅里叶变换,得到所述音频信号的频域信号;
通过预设的时间窗口将所述频域信号进行分帧,得到多个第一音频帧;
根据所述多个第一音频帧中的每个第一音频帧上各个频点的幅值,对所述每个第一音频帧进行编码,得到所述每个第一音频帧对应的数字信号;
将所述多个第一音频帧对应的数字信号按照时间的先后顺序进行拼接,得到所述音频信号对应的第一数字信号。
在一些可能的实施方式中,在对所述第一数字信号进行信道编码,得到所述第二数字信号方面,处理模块502,具体用于:
根据所述第一数字信号构建第一多项式;
根据预设的本元多项式构建第二多项式;
根据所述第一多项式以及所述第二多项式对所述第一数字信号进行向前纠错编码,得到剩余多项式;
将所述剩余多项式中的系数作为向前纠错编码的冗余码,并将所述冗余码与所述第一数字信号进行拼接,得到所述第二数字信号。
在一些可能的实施方式中,在将所述音频信号进行数字转换,得到第一数字信号之前,处理模块502,还用于将所述音频信号分割为多个音频段,其中,所述多个音频段中的任意两个相邻的音频段存在重叠,且每个音频段包括多个第二音频帧;
将所述多个音频段中的每个音频段输入到人声过滤模型,得到所述每个音频段的第一人声概率序列,所述第一人声概率序列用于表示所述每个音频段中的每个音频帧为人声的概率;
根据所述每个音频段的第一人声概率序列,确定所述任意两个相邻的音频段的重叠部分为人声的概率;
根据所述每个音频段的第一人声概率序列,以及所述任意两个相邻的音频段的重叠部分为人声的概率,确定所述音频信号的第二人声概率序列;
根据维特比算法以及所述第二人声概率序列确定所述音频信号的目标人声概率序列;
根据所述目标人声概率序列滤除所述音频信号中非人声音频帧,并将滤除非人声音频帧的音频信号作为所述音频信号。
当音频传输装置500用于实现图2-图4任一方法实施例中的接收端的功能时:
收发模块501,用于从发送端接收第二数字信号;
处理模块502,用于对所述第二数字信号进行信道解码,得到第一数字信号;将所述第一数字信号进行音频转换,得到音频信号;播放所述音频信号。
在一些可能的实施方式中,在对所述第二数字信号进行信道解码,得到第一数字信号方面,处理模块502,具体用于:对所述第二数字信号进行向前纠错,得到第一数字信号。
在一些可能的实施方式中,在将所述第一数字信号进行音频转换,得到音频信号方面,处理模块502,具体用于:
根据预设的数字窗口对所述第一数字信号进行分段,得到多个数字信号段,其中,所述多个数字信号段与多个第一音频帧一一对应,所述多个第一音频帧是所述发送端通过预设的时间窗口将所述频域信号进行分割得到的,所述频域信号为所述发送端对采集到的音频信号进行频域变换得到的;
对所述多个数字信号段中的每个数字信号段进行解码,得到与所述每个数字信号段对应的第一音频帧中各个频点的幅值;
根据所述每个数字信号段对应的第一音频帧中各个频点的幅值,确定所述每个数字信号段对应的第一音频帧的频谱图;
将所述每个数字信号段对应的第一音频帧的频谱图进行拼接,得到所述频域信号;
对所述频域信号进行傅里叶反变换,得到所述音频信号。
参阅图6,图6为本申请实施例提供的一种电子设备的结构示意图。如图6所示,电子设备600包括收发器601、处理器602和存储器603。它们之间通过总线604连接。存储器603用于存储计算机程序和数据,并可以将存储器603存储的数据传输给处理器602。
当电子设备600用于实现图2-图4任一方法实施例中的发送端的功能时:
处理器602用于读取存储器603中的计算机程序执行以下操作:
控制收发器采集音频信号;
将所述音频信号进行数字转换,得到第一数字信号;对所述第一数字信号进行编码,得到第二数字信号;向接收端发送所述第二数字信号。
在一些可能的实施方式中,在将所述音频信号转化为第一数字信号方面,处理器602具体用于执行以下操作:
对所述音频信号进行傅里叶变换,得到所述音频信号的频域信号;
通过预设的时间窗口将所述频域信号进行分帧,得到多个第一音频帧;
根据所述多个第一音频帧中的每个第一音频帧上各个频点的幅值,对所述每个第一音频帧进行编码,得到所述每个第一音频帧对应的数字信号;
将所述多个第一音频帧对应的数字信号按照时间的先后顺序进行拼接,得到所述音频信号对应的第一数字信号。
在一些可能的实施方式中,在对所述第一数字信号进行编码,得到第二数字信号方面,处理器602具体用于执行以下操作:
对所述第一数字信号进行压缩编码,得到第三数字信号;
对所述第三数字信号进行信道编码,得到所述第二数字信号。
在一些可能的实施方式中,在对所述第一数字信号进行信道编码,得到所述第二数字信号方面,处理器602具体用于执行以下操作:
根据所述第一数字信号构建第一多项式;
根据预设的本元多项式构建第二多项式;
根据所述第一多项式以及所述第二多项式对所述第一数字信号进行向前纠错编码,得到剩余多项式;
将所述剩余多项式中的系数作为向前纠错编码的冗余码,并将所述冗余码与所述第一数字信号进行拼接,得到所述第二数字信号。
在一些可能的实施方式中,在将所述音频信号进行数字转换,得到第一数字信号之前,处理器602还用于读取存储器603中的计算机程序执行以下操作:将所述音频信号分割为多个音频段,其中,所述多个音频段中的任意两个相邻的音频段存在重叠,且每个音频段包括多个第二音频帧;
将所述多个音频段中的每个音频段输入到人声过滤模型,得到所述每个音频段的第一人声概率序列,所述第一人声概率序列用于表示所述每个音频段中的每个音频帧为人声的概率;
根据所述每个音频段的第一人声概率序列,确定所述任意两个相邻的音频段的重叠部分为人声的概率;
根据所述每个音频段的第一人声概率序列,以及所述任意两个相邻的音频段的重叠部分为人声的概率,确定所述音频信号的第二人声概率序列;
根据维特比算法以及所述第二人声概率序列确定所述音频信号的目标人声概率序列;
根据所述目标人声概率序列滤除所述音频信号中非人声音频帧,并将滤除非人声音频帧的音频信号作为所述音频信号。
当电子设备600用于实现图2-图4任一方法实施例中的接收端的功能时:
处理器602用于读取存储器603中的计算机程序执行以下操作:
控制收发器601从发送端接收第二数字信号;
对所述第二数字信号进行信道解码,得到第一数字信号;将所述第一数字信号进行音频转换,得到音频信号;播放所述音频信号。
在一些可能的实施方式中,在对所述第二数字信号进行信道解码,得到第一数字信号方面,处理器602具体用于执行以下操作:
对所述第二数字信号进行向前纠错,得到第一数字信号。
在一些可能的实施方式中,在将所述第一数字信号进行音频转换,得到音频信号方面,处理器602具体用于执行以下操作:
根据预设的数字窗口对所述第一数字信号进行分段,得到多个数字信号段,其中,所述多个数字信号段与多个第一音频帧一一对应,所述多个第一音频帧是所述发送端通过预设的时间窗口将所述频域信号进行分割得到的,所述频域信号为所述发送端对采集到的音频信号进行频域变换得到的;
对所述多个数字信号段中的每个数字信号段进行解码,得到与所述每个数字信号段对应的第一音频帧中各个频点的幅值;
根据所述每个数字信号段对应的第一音频帧中各个频点的幅值,确定所述每个数字信号段对应的第一音频帧的频谱图;
将所述每个数字信号段对应的第一音频帧的频谱图进行拼接,得到所述频域信号;
对所述频域信号进行傅里叶反变换,得到所述音频信号。
具体地,上述收发器601可为图5所述的实施例的音频传输装置500的收发模块501,上述处理器602可以为图5所述的实施例的音频传输装置500的处理模块502。
应理解,本申请中的电子设备可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(MobileInternet Devices,简称:MID)或穿戴式设备等。上述电子设备仅是举例,而非穷举,包含但不限于上述电子设备。在实际应用中,上述电子设备还可以包括:智能车载终端、计算机设备等等。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种音频传输方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种音频传输方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (6)

1.一种音频传输方法,其特征在于,应用于发送端,包括:
采集音频信号;
将所述音频信号进行数字转换,得到第一数字信号,具体包括:对所述音频信号进行傅里叶变换,得到频域信号;对所述频域信号进行重叠分帧,得到多个音频帧;对每帧音频帧进行语义分析,得到每帧音频帧的语义信息;确定任意一帧音频帧的语义信息与位于该音频帧的前后两帧的音频帧的语义信息的连续性,在确定任意一帧音频帧的语义信息与前后两帧的音频帧的语义信息不连续的情况下,根据位于该音频帧的前后两帧的音频帧的语义信息对该任意音频帧进行模拟,得到模拟音频帧,并使用该模拟音频帧替换该任意音频帧,得到多个第一音频帧;根据每个第一音频帧上各个频点的幅值,并行对每个第一音频帧进行编码,得到每个第一音频帧对应的数字信号;将多个第一音频帧的数字信号按照时间的先后顺序进行拼接,得到所述第一数字信号;
对所述第一数字信号进行编码,得到第二数字信号,具体包括:对所述第一数字信号进行压缩编码,得到第三数字信号;对所述第三数字信号进行前向纠错FEC编码,得到所述第二数字信号;
向接收端发送所述第二数字信号。
2.根据权利要求1所述的方法,其特征在于,在将所述音频信号进行数字转换,得到第一数字信号之前,所述方法还包括:
将所述音频信号分割为多个音频段,其中,所述多个音频段中的任意两个相邻的音频段存在重叠,且每个音频段包括多个第二音频帧;
将所述多个音频段中的每个音频段输入到人声过滤模型,得到所述每个音频段的第一人声概率序列,所述第一人声概率序列用于表示所述每个音频段中的每个音频帧为人声的概率;
根据所述每个音频段的第一人声概率序列,确定所述任意两个相邻的音频段的重叠部分为人声的概率;
根据所述每个音频段的第一人声概率序列,以及所述任意两个相邻的音频段的重叠部分为人声的概率,确定所述音频信号的第二人声概率序列;
根据维特比算法以及所述第二人声概率序列确定所述音频信号的目标人声概率序列;
根据所述目标人声概率序列滤除所述音频信号中非人声音频帧,并将滤除非人声音频帧的音频信号作为所述音频信号。
3.一种音频传输方法,其特征在于,应用于接收端,包括:
从发送端接收第二数字信号;
对所述第二数字信号进行解码,得到第一数字信号,具体包括:对所述第二数字信号进行FEC解码,得到第三数字信号;对所述第三数字信号进行压缩解码,得到所述第一数字信号;
将所述第一数字信号进行音频转换,得到音频信号,具体包括:对所述第一数字信号进行分段,得到多个数字信号段,其中,所述多个数字信号段与多个第一音频帧一一对应,所述多个第一音频帧是所述发送端通过对频域信号进行重叠分帧,且对分帧后的多个音频帧中任意一帧音频帧的语义信息与前后两帧的音频帧的语义信息不连续时,对该音频帧进行音频模拟后得到的;所述频域信号为所述发送端对采集到的音频信号进行频域变换得到的;对所述多个数字信号段中的每个数字信号段进行解码,得到与所述每个数字信号段对应的第一音频帧中各个频点的幅值;根据所述每个数字信号段对应的第一音频帧中各个频点的幅值,确定所述每个数字信号段对应的第一音频帧的频谱图;将所述每个数字信号段对应的第一音频帧的频谱图进行拼接,得到所述频域信号;对所述频域信号进行傅里叶反变换,得到所述音频信号;
播放所述音频信号。
4.一种音频传输装置,其特征在于,包括用于执行如权利要求1-3中的任一项所述方法的模块。
5.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器与所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行如权利要求1-3中任一项所述的方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-3任一项所述的方法。
CN202110346002.6A 2021-03-30 2021-03-30 音频传输方法、装置、电子设备及存储介质 Active CN113114417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110346002.6A CN113114417B (zh) 2021-03-30 2021-03-30 音频传输方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110346002.6A CN113114417B (zh) 2021-03-30 2021-03-30 音频传输方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113114417A CN113114417A (zh) 2021-07-13
CN113114417B true CN113114417B (zh) 2022-08-26

Family

ID=76712965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110346002.6A Active CN113114417B (zh) 2021-03-30 2021-03-30 音频传输方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113114417B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118509070B (zh) * 2024-07-19 2024-09-20 北京金风慧能技术有限公司 跨设备的数据传输方法、设备、系统及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1863039A (zh) * 2005-05-11 2006-11-15 北京大学 基于音频的隐藏通信系统和通信方法
CN107928673A (zh) * 2017-11-06 2018-04-20 腾讯科技(深圳)有限公司 音频信号处理方法、装置、存储介质和计算机设备
CN111968664A (zh) * 2020-08-21 2020-11-20 武汉大晟极科技有限公司 一种语音降噪方法及均衡滤波器

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004052296A1 (de) * 2004-10-27 2006-05-04 Sennheiser Electronic Gmbh & Co. Kg Sender und Empfänger für ein drahtloses Audio-Übertragungssystem
CN105208680A (zh) * 2014-06-10 2015-12-30 王中生 一种基于短距离无线传感网络音频数据传输的方法
CN110085251B (zh) * 2019-04-26 2021-06-25 腾讯音乐娱乐科技(深圳)有限公司 人声提取方法、人声提取装置及相关产品
CN110363148A (zh) * 2019-07-16 2019-10-22 中用科技有限公司 一种人脸声纹特征融合验证的方法
CN112435675B (zh) * 2020-09-30 2024-02-27 福建星网智慧科技有限公司 一种基于fec的音频编码方法、装置、设备和介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1863039A (zh) * 2005-05-11 2006-11-15 北京大学 基于音频的隐藏通信系统和通信方法
CN107928673A (zh) * 2017-11-06 2018-04-20 腾讯科技(深圳)有限公司 音频信号处理方法、装置、存储介质和计算机设备
CN111968664A (zh) * 2020-08-21 2020-11-20 武汉大晟极科技有限公司 一种语音降噪方法及均衡滤波器

Also Published As

Publication number Publication date
CN113114417A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN104081454B (zh) 用于避免削波假象的设备、方法和计算机程序
CN110364170B (zh) 语音传输方法、装置、计算机装置及存储介质
CN104995673B (zh) 帧错误隐藏
CN102479513A (zh) 子带已编码音频信号的错误隐藏
CN101421780A (zh) 音频编码和解码中的激励处理
EP4394765A1 (en) Audio encoding and decoding method and apparatus, electronic device, computer readable storage medium, and computer program product
CN113114417B (zh) 音频传输方法、装置、电子设备及存储介质
CN106170929B (zh) 具有改进的噪声抗扰性的通信系统、方法和设备
CN103347229A (zh) 音频信号处理设备
CN113707160A (zh) 一种回声延迟确定方法、装置、设备及存储介质
CN111246469A (zh) 人工智能保密通信系统及通信方法
CN107437967A (zh) 基于声波的数据传输方法、发送设备和接收设备
CN112367125B (zh) 信息传输方法、装置、通信设备和计算机可读存储介质
CN110189763B (zh) 一种声波配置方法、装置及终端设备
Dagan et al. Delivery of QR codes to cellular phones through data embedding in audio
CN115376538A (zh) 用于交互的语音降噪方法、系统、电子设备和存储介质
Samaali et al. Watermark-aided pre-echo reduction in low bit-rate audio coding
CN111028860B (zh) 音频数据处理方法、装置、计算机设备以及存储介质
CN114842857A (zh) 语音处理方法、装置、系统、设备及存储介质
CN112133279A (zh) 车载信息播报方法、装置及终端设备
US20240177721A1 (en) Audio signal encoding and decoding method and apparatus
US20240169998A1 (en) Multi-Channel Signal Encoding and Decoding Method and Apparatus
US20010056343A1 (en) Sound signal encoding apparatus and method
CN117789701A (zh) 数据传输方法、模型训练方法、装置、芯片及终端
CN114999455A (zh) 一种语音传输方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant