CN112291676B - 抑制音频信号拖尾的方法及系统、芯片、电子设备 - Google Patents
抑制音频信号拖尾的方法及系统、芯片、电子设备 Download PDFInfo
- Publication number
- CN112291676B CN112291676B CN202010421050.2A CN202010421050A CN112291676B CN 112291676 B CN112291676 B CN 112291676B CN 202010421050 A CN202010421050 A CN 202010421050A CN 112291676 B CN112291676 B CN 112291676B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- signal frame
- trailing
- neural network
- tailing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 319
- 238000000034 method Methods 0.000 title claims abstract description 96
- 230000002401 inhibitory effect Effects 0.000 title claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 147
- 238000012545 processing Methods 0.000 claims abstract description 54
- 230000005764 inhibitory process Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 114
- 230000001629 suppression Effects 0.000 claims description 58
- 206010019133 Hangover Diseases 0.000 claims description 41
- 210000004205 output neuron Anatomy 0.000 claims description 25
- 238000001514 detection method Methods 0.000 claims description 21
- 230000003321 amplification Effects 0.000 claims description 20
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 239000000126 substance Substances 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 description 37
- 210000002364 input neuron Anatomy 0.000 description 14
- 230000004913 activation Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 5
- 230000002829 reductive effect Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000002311 subsequent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R9/00—Transducers of moving-coil, moving-strip, or moving-wire type
- H04R9/02—Details
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R9/00—Transducers of moving-coil, moving-strip, or moving-wire type
- H04R9/06—Loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2209/00—Details of transducers of the moving-coil, moving-strip, or moving-wire type covered by H04R9/00 but not provided for in any of its subgroups
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2410/00—Microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及一种抑制音频信号拖尾的方法及拖尾抑制系统、音频处理芯片、电子设备和计算机可读介质,该方法包括:先计算声音信号中各所述音频信号帧的能量特征和最大幅值特征,然后将多个所述能量特征和多个所述最大幅值特征输入用于抑制音频信号拖尾的神经网络,得到所述当前音频信号帧发生拖尾的拖尾概率,并判断所述拖尾概率是否大于拖尾阈值,若是,则先计算抑制拖尾程度然后对当前音频信号帧进行拖尾抑制处理后再输出;否则直接输出当前音频信号帧。本发明能够抑制扬声器产生的拖尾音频,提升用户体验。
Description
技术领域
本发明涉及音频处理技术领域,具体涉及一种抑制音频信号拖尾的方法及拖尾抑制系统、用于抑制音频信号拖尾的神经网络的训练方法及训练系统、音频处理芯片、电子设备及计算机可读存储介质。
背景技术
在K歌系统、会议系统等设备中,扬声器是必不可少的部分。扬声器作为一种电声转换设备,将声音的电信号转换成声信号,常常和麦克风等拾音设备搭配使用。然而,扬声器存在瞬态响应差的问题,即当音频瞬间停止时,扬声器仍然会持续震动振膜、纸盆,产生一段衰减的拖尾音频,这个拖尾音频常常会被拾音设备采集到,进而经过放大电路,再次从扬声器输出,由于该拖尾音频经过了放大电路,因此从扬声器输出时被放大并延长,给用户带来较差的体验效果。
现有技术中,有的厂家通过改进扬声器自身的结构,以尽可能减少拖尾音频的产生。然而,这种结构上的改变,只能应用于新开发的扬声器,而对于已有的扬声器的拖尾音频仍无法解决;且这种方式,只能尽量减少拖尾音频的产生,对用户体验感的提升不明显,另外,对于新开发的扬声器也会增加制造成本。
发明内容
基于上述现状,本发明的主要目的在于提供一种抑制音频信号拖尾的方法及拖尾抑制系统、用于抑制音频信号拖尾的神经网络的训练方法及训练系统、音频处理芯片、电子设备及计算机可读存储介质,以抑制扬声器产生的拖尾音频,提升用户体验。
为实现上述目的,本发明采用的技术方案如下:
本发明的第一方面提供了一种抑制音频信号拖尾的方法,包括步骤:
S10:获取时域上的声音信号,所述声音信号包括当前音频信号帧和之前与其连续的多个音频信号帧;其中,所述音频信号帧均为数字信号;
S20:计算所述声音信号中各所述音频信号帧的能量特征和最大幅值特征;
S30:将多个所述能量特征和多个所述最大幅值特征输入用于抑制音频信号拖尾的神经网络,得到所述当前音频信号帧发生拖尾的拖尾概率;其中,所述神经网络的输出层包括一个输出神经元,为所述拖尾概率;
S40:判断所述拖尾概率是否大于拖尾阈值,若是,则执行S50;若否,则执行S60;
S50:计算当前音频信号帧的抑制拖尾程度G=(1-O)2,然后使用所述抑制拖尾程度与所述当前音频信号帧相乘,作为目标音频信号帧,然后执行S70;其中,O为所述拖尾概率;
S60:使用所述当前音频信号帧作为目标音频信号帧,然后执行S70;
S70:输出所述目标音频信号帧。
优选地,所述步骤S10中,所述声音信号包括N个音频信号帧,所述N大于等于8且小于等于12;
在所述步骤S30中,所述神经网络的隐藏层为一层或者两层,各所述隐藏层的节点数为4N+1。
优选地,所述步骤S20中,所述音频信号帧的能量特征为:所述音频信号帧中各样本的能量均值。
优选地,所述步骤S40中的拖尾阈值为0.6~0.9。
优选地,所述步骤S10之前还包括:
S00:接收时域上的当前信号帧,判断所述当前信号帧是否为数字信号,若是,则所述当前信号帧为所述当前音频信号帧,执行S10;若否,将所述当前信号帧转换为数字信号,将所述数字信号作为所述当前音频信号帧,执行S10。
优选地,所述步骤S70之后还包括步骤:
S80:将所述目标音频信号帧放大处理,得到当前音频信号帧对应的输出信号;
S90:输出所述输出信号。
本发明的第二方面提供了一种用于抑制音频信号拖尾的神经网络的训练方法,包括步骤:
S100:获取时域上的当前拖尾信号帧和之前与其连续的多个拖尾信号帧,形成拖尾音频信号;其中,所述拖尾信号帧均为数字信号;
S200:计算所述拖尾音频信号中各所述拖尾信号帧的能量特征和最大幅值特征;
S300:将多个所述能量特征和多个所述最大幅值特征输入初始神经网络,得到所述当前拖尾信号帧发生拖尾的拖尾概率;其中,所述初始神经网络的输出层包括一个输出神经元,为所述拖尾概率;
S400:计算所述拖尾概率和期望值的差值,根据所述差值判断所述初始神经网络是否收敛;若是,则执行S500;若否,则执行S600;
S500:将所述初始神经网络作为优化神经网络,执行S700;
S600:根据所述差值修正所述初始神经网络的参数;然后返回S100;
S700:输出所述优化神经网络;
其中,所述步骤S100至少执行十次;所述初始神经网络的收敛指至少连续十次或者十次以上的所述差值位于预设区间内。
优选地,所述步骤S200中,所述拖尾信号帧的能量特征具体为:
所述拖尾信号帧中各样本的能量均值。
优选地,所述拖尾音频信号包括N个拖尾信号帧,所述N大于等于8且小于等于12;
所述初始神经网络的隐藏层为一层或者两层,各隐藏层的节点数为4N+1。
优选地,所述步骤S100还包括:设置训练次数加1;
所述步骤S600具体包括:
S610:判断所述训练次数是否达到预设迭代次数,若是,则执行S500;若否,则执行S620:
S620:根据所述差值修正所述初始神经网络的参数;然后返回S100;
其中,所述训练次数的初始值为0;所述预设迭代次数为200~500。
本发明的第三方面提供了一种抑制音频信号拖尾的拖尾抑制系统,包括:
拖尾检测单元,用于获取时域上的声音信号,所述声音信号包括当前音频信号帧和其之前连续的多个音频信号帧,其中,所述音频信号帧均为数字信号;并用于计算所述声音信号中各所述音频信号帧的能量特征和最大幅值特征,然后将多个所述能量特征和多个所述最大幅值特征输入用于抑制音频信号拖尾的神经网络,得到所述当前音频信号帧发生拖尾的拖尾概率;其中,所述神经网络的输出层包括一个输出神经元,为所述拖尾概率;还用于判断所述拖尾概率是否大于拖尾阈值,若是,则将所述拖尾概率和所述当前音频信号帧发送给拖尾处理单元;若否,使用所述当前音频信号帧作为目标音频信号帧,并输出所述目标音频信号帧;
拖尾处理单元,用于计算当前音频信号帧的抑制拖尾程度G=(1-O)2,然后使用所述抑制拖尾程度与所述当前音频信号帧相乘,作为目标音频信号帧,然后输出所述目标音频信号帧;其中,O为所述拖尾概率;
其中,所述拖尾检测单元与所述拖尾处理单元连接。
优选地,所述拖尾检测单元具有音频存储区,所述音频存储区的大小为N个所述音频信号帧所需的空间大小,以用于存储所述声音信号,所述N大于等于8且小于等于12;
所述神经网络的隐藏层为一层或者两层,各所述隐藏层的节点数为4N+1。
优选地,所述音频信号帧的能量特征为:所述音频信号帧中各样本的能量均值。
优选地,所述拖尾阈值为0.6~0.9。
优选地,还包括:
音频放大模块,用于将所述目标音频信号帧放大处理,得到当前音频信号帧对应的输出信号;
音频输出模块,用于输出所述输出信号。
优选地,还包括:
模数转换单元,用于接收时域上的当前信号帧,判断所述当前信号帧是否为数字信号,若是,则所述当前信号帧为所述当前音频信号帧;若否,将所述当前信号帧转换为数字信号,将所述数字信号作为所述当前音频信号帧。
本发明的第四方面提供了一种用于抑制音频信号拖尾的神经网络的训练系统,包括训练单元,用于获取时域上的当前拖尾信号帧和之前与其连续的多个拖尾信号帧,形成拖尾音频信号;其中,所述拖尾信号帧均为数字信号;然后计算所述拖尾音频信号中各所述拖尾信号帧的能量特征和最大幅值特征;并将多个所述能量特征和多个所述最大幅值特征输入初始神经网络,得到所述当前拖尾信号帧发生拖尾的拖尾概率;之后计算所述拖尾概率和期望值的差值,根据所述差值判断所述初始神经网络是否收敛;若是,则将所述初始神经网络作为所述优化神经网络;若否,则根据所述差值修正所述初始神经网络的参数,返回重新获取拖尾音频信号;并用于输出所述优化神经网络;
其中,所述初始神经网络的输出层包括一个输出神经元,为所述拖尾概率;所述获取时域上的当前拖尾音频信号帧和之前与其连续的多个拖尾信号帧,形成拖尾音频信号至少执行十次;所述初始神经网络的收敛指至少连续十次或者十次以上的差值位于预设区间内。
优选地,所述拖尾信号帧的能量特征具体为:所述拖尾信号帧中各样本的能量均值。
优选地,所述训练单元具有拖尾存储区,所述拖尾存储区的大小为N个所述拖尾信号帧所需的空间大小,以用于存储N个拖尾信号帧,所述N大于等于8且小于等于12;
所述初始神经网络的隐藏层为一层或者两层,各隐藏层的节点数为4N+1。
优选地,所述训练单元还用于设置训练次数加1;并当所述初始神经网络不收敛时,继续判断所述训练次数是否达到预设迭代次数,若是,则将所述初始神经网络作为所述优化神经网络;若否,则根据所述差值修正所述初始神经网络的参数,然后返回重新获取拖尾音频信号;其中,所述训练次数的初始值为0;所述预设迭代次数为200~500。
本发明的第五方面提供了一种音频处理芯片,包括相互连接的训练系统和拖尾抑制系统,
所述训练系统能够执行上述任一项所述的训练方法,并将所述优化神经网络输出给所述拖尾抑制系统;
所述拖尾抑制系统能够执行上述任一项所述的抑制音频信号拖尾的方法;
其中,所述训练系统与所述拖尾抑制系统连接。
本发明的第六方面提供了一种电子设备,包括拾音装置和扬声装置,
所述拾音装置包括拾音单元和与之相连的上述所述的音频处理芯片,所述拾音单元与所述训练系统、所述拖尾抑制系统均连接;
所述扬声装置包括相互连接的音频放大模块和音频输出模块,所述拖尾抑制系统与所述音频放大模块连接。
优选地,所述电子设备包括K歌设备、会议设备、移动终端、交互设备中的至少一种。
本发明的第七方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上任一项所述的抑制音频信号拖尾的方法,和/或如上任一项所述的训练方法。
本发明的第八方面提供了一种音频处理芯片,其特征在于,所述芯片能够实现如上任一项所述的训练方法;或者实现如上任一项所述的抑制音频信号拖尾的方法。
本发明的抑制音频信号拖尾的方法,使用神经网络计算出当前音频信号帧发生拖尾的拖尾概率,并根据拖尾概率判断当前音频信号帧发生拖尾的可能性,若发生拖尾的可能性较大,则使用该拖尾概率计算拖尾抑制程度,使用该拖尾抑制程度对当前音频信号帧进行抑制,使拖尾数据尽可能消失。如此,在通过扬声器输出时,使用者就不会听到放大后的拖尾信号,从而提升用户体验;且这种处理方式,不论是新生产的扬声器,还是现有的扬声器,其产生的拖尾信号均适用,因此,这种方法更具有通用性,能够降低音频厂家的生产成本。
本发明的其他有益效果,将在具体实施方式中通过具体技术特征和技术方案的介绍来阐述,本领域技术人员通过这些技术特征和技术方案的介绍,应能理解所述技术特征和技术方案带来的有益技术效果。
附图说明
以下将参照附图对本发明的优选实施方式进行描述。图中:
图1为本发明所提供的电子设备的一种优选实施方式的系统图;
图2为本发明所提供的抑制音频信号拖尾的方法的一种优选实施方式的流程图;
图3为本发明所提供的用于抑制音频信号拖尾的神经网络的训练方法的一种优选实施方式的流程图。
图中,
10、拾音装置;11、拾音单元;12、音频处理芯片;121、训练系统;1211、训练单元;122、拖尾抑制系统;1221、拖尾检测单元;1222、拖尾处理单元;
20、扬声装置;21、音频放大模块;22、音频输出模块。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分,为了避免混淆本发明的实质,公知的方法、过程、流程、元件并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本发明提供了一种电子设备,该电子设备可以为K歌设备、会议设备、移动终端或者交互设备,参考图1,电子设备包括拾音装置10和扬声装置20,拾音装置10包括拾音单元11;扬声装置20包括相互连接的音频放大模块21和音频输出模块22;拾音单元11与音频放大模块21连接。工作时,拾音单元11采集音频信号(包括音频输出模块22输出的音频信号),发送给音频放大模块21,经音频放大模块21放大后,通过音频输出模块22输出。
然而,扬声装置20由于自身的物理特性,当音频瞬间停止时,仍然会持续震动振膜、纸盆,产生一段衰减的拖尾信号,这个直接发出的拖尾信号由于未经过音频放大模块21的放大,因此,使用者基本不会敏感到;然而,这段衰减的拖尾信号常常被拾音单元11采集后,经过音频放大模块21放大,再由音频输出模块22输出时,就会变得很明显,给使用者带来听感的不适。
针对上述问题,本发明提供了一种抑制音频信号拖尾的方法,以下简称为抑制方法,该抑制方法使用神经网络对当前音频信号帧的拖尾概率进行判断,并对拖尾概率较大的当前音频信号帧进行处理,以抑制当前音频信号帧发生拖尾。该抑制方法可以应用于上述电子设备,也可以应用于其他音频设备。
具体地,参考图2,抑制音频信号拖尾的方法包括步骤:
S10:获取时域上的声音信号,该声音信号包括当前音频信号帧和之前与其连续的多个音频信号帧,即声音信号包括多个连续的音频信号帧,且其最后的音频信号帧为当前音频信号帧;其中,这些音频信号帧均为时域信号,且为数字信号,这些音频信号帧中的各值实际上为音频信号帧中对应时刻的幅值,即声音的振幅;
S20:计算声音信号中各音频信号帧(包括当前音频信号帧和之前与其连续的多个音频信号帧)的能量特征和最大幅值特征;
S30:将多个能量特征和多个最大幅值特征输入用于抑制音频信号拖尾的神经网络,得到当前音频信号帧发生拖尾的拖尾概率,也就是说,将多个能量特征和多个最大幅值特征带入神经网络的各输入神经元之后,神经网络的输出神经元即可输出当前音频信号帧发生拖尾的拖尾概率,这个拖尾概率的大小为当前音频信号帧发生拖尾的可能性,因此,该拖尾概率是小于等于1的;
S40:判断该拖尾概率是否大于拖尾阈值,若是,则认为当前音频信号帧发生拖尾的可能性较大,即为拖尾音频帧,执行S50;若否,则认为当前音频信号帧发生拖尾的可能性较小,执行S60;
S50:计算当前音频信号帧的抑制拖尾程度G=(1-O)2,然后使用抑制拖尾程度与当前音频信号帧相乘,作为目标音频信号,即当前音频信号帧的值的个数与目标音频信号的值个数相等,且二者中的值一一对应,在一组对应的值中,目标音频信号帧的值等于当前音频信号帧中的值与G的乘积,然后执行S70;其中,O为拖尾概率,上述与当前音频信号帧的值指音频信号帧的幅值;
S60:使用当前音频信号帧作为目标音频信号帧,然后执行S70;
S70:输出目标音频信号帧。
本发明还提供了一种抑制音频信号拖尾的拖尾抑制系统122,可以用于执行上述方法,继续参考图1,该拖尾抑制系统122包括:拖尾检测单元1221和拖尾处理单元1222,拖尾检测单元1221用于执行上述步骤S10~S40以及S60和S70,即用于获取时域上的声音信号,声音信号为时域上的当前音频信号帧和其之前连续的多个音频信号帧;并用于计算声音信号中各音频信号帧的能量特征和最大幅值特征,然后将多个能量特征和多个最大幅值特征输入用于抑制音频信号拖尾的神经网络,得到当前音频信号帧发生拖尾的拖尾概率;然后判断该拖尾概率是否大于拖尾阈值,若是,则将拖尾概率和当前音频信号帧发送给拖尾处理单元;若否,使用当前音频信号帧作为目标音频信号帧,并输出目标音频信号帧。拖尾处理单元1222用于执行上述步骤S50和S70,即当当前音频信号帧被认为发生拖尾的可能性比较大,对当前音频信号帧进行处理,用于计算当前音频信号帧的抑制拖尾程度G=(1-O)2,然后使用抑制拖尾程度与当前音频信号帧相乘,作为目标音频信号帧,然后输出目标音频信号帧;其中,O为拖尾概率。其中,拖尾检测单元1221与拖尾处理单元1222连接,以用于信号传递。
本发明的抑制音频信号拖尾的方法及系统,使用神经网络计算出当前音频信号帧发生拖尾的拖尾概率,并根据拖尾概率判断当前音频信号帧发生拖尾的可能性,若可能性较大,则使用该拖尾概率计算拖尾抑制程度,然后将当前音频信号帧的各值均与拖尾抑制程度相乘,以尽可能消除当前音频信号帧中的拖尾数据,如此,当前音频信号帧中,由于拖尾的值本来就比较小,在通过与该拖尾抑制程度相乘,基本为零,而其余的值虽然在此时会减小,但是当通过扬声装置输出时,扬声装置中的音频放大模块会将其余的值再次放大,而由于此时的拖尾值已经为零,因此,即使通过音频放大模块也仍然为零,当然在通过扬声装置输出时,使用者就不会听到放大后的拖尾信号,从而提升用户体验;且这种处理方式,不论是新生产的扬声装置,还是现有的扬声装置,对其产生的拖尾信号均适用,因此,这种方法更具有通用性,能够降低音频器件声场厂家的生产成本。
进一步地,本发明中,当判断当前音频信号帧为拖尾音频帧后,没有直接使用一个固定的抑制拖尾程度作用于当前音频信号帧,而是根据拖尾概率对拖尾抑制程度进行调整,是考虑到拖尾概率越大,说明当前音频信号帧中的拖尾数据的值就越大,因此,需要将其值尽可能降低,需要作用其上的抑制程度尽可能小,即拖尾概率的变化趋势与拖尾抑制程度的变换趋势应该相反。发明人没有简单的使用(1-O)的算法计算拖尾抑制程度,而是经过创造性试验,发现(1-O)2的平方算法抑制拖尾,使得拖尾抑制程度较好,能够使拖尾值变得非常小,甚至为零,从而能够提高对音频信号拖尾的抑制能力;且没有显著增加计算负荷,实际输出效果最佳。
另一方面,本发明选用当前音频信号帧和其前面连续的多个音频信号帧作为神经网络的输入,即在计算当前音频信号帧的拖尾概率时,充分考虑了其之前的音频信号帧的特征,从而能够提高对当前音频信号帧的拖尾概率估算的准确性,且能够使修正后的目标音频信号帧与之前的音频信号帧具有更好地连续性,尽可能避免输出信号发生突然跳变,进而更好地提升用户体验。
其中,神经网络具有输入层、隐藏层和输出层,输入层包括多个输入神经元;隐藏层可以设置有一个或者多个,各隐藏层的隐藏神经元的个数相等;输出层包括一个输出神经元,为拖尾概率。在设置有K个隐藏层时,第一个隐藏层的输出可以通过公式(1)得到,第二隐藏层的输出可以通过公式(2)得到,输出神经元的值(即上述拖尾概率O)可以通过公式(3)得到;
其中,为第一个隐藏层的第j个隐藏神经元的输出;f1为隐藏神经元的激活函数;n1为输入神经元的个数;wij为第i个输入神经元与第一个隐藏层的第j个隐藏神经元的连接权值;xi为第i个输入神经元;为第一个隐藏层的第j个隐藏神经元的阈值;为第m个隐藏层的第f个隐藏神经元的输出;n2为隐藏神经元的个数;为第m-1个隐藏层的第j个隐藏神经元的输出;为第m-1个隐藏层的第j个隐藏神经元与第m个隐藏层的第f个隐藏神经元的连接权值;O为输出神经元的输出,f2为输出神经元的激活函数;wf为最后一个隐藏层(即第K个隐藏层)的第f个隐藏神经元与输出神经元的连接权值;为最后一个隐藏层(即第K个隐藏层)的第f个隐藏神经元的输出;b为输出神经元的阈值。需要说明的是,在仅设置有一个隐藏层时,上述K为1,可以省去公式(2),在公式(3)中,使用代替即可;在K大于1时,m=2,3,…,K。
考虑到运算量的问题,本发明中隐藏层优选设置有一层或者两层。其中,隐藏神经元和输出神经元可以分别选用ReLU激活函数或者Sigmoid激活函数,当然,也可以为其他激活函数。一种优选的实施例中,隐藏层的隐藏神经元选用ReLU激活函数,输出层的输出神经元采用Sigmoid激活函数。
上述各音频信号帧可以选用相同的采集频率,也可以选用不同的采集频率,在采集频率不同时,每一个音频信号帧中的样本数是不同的,在上述步骤S20中,可以选用整个音频信号帧的能量之和,本发明的一种优选实施例中,使用各音频信号帧中样本的能量均值,具体地,步骤S20中,音频信号帧的能量特征为:音频信号帧中各样本的能量均值,最大幅值特征为该音频信号帧中幅值最大的样本的幅值。具体地,音频信号帧的能量均值Ek和最大幅值特征magk可以使用下述公式(4)、(5)进行计算:
magk=max(yi); (9)
其中,k表示第k个音频信号帧;s为第k个音频信号帧的样本个数;yi为第k个音频信号帧中第i个样本的值,即前述数字信号中的各值,i=1、2、…、s。
上述各音频信号帧,可以每5~25ms为一帧,优选地,每10ms或者20ms为一帧。每个声音信号包括N个音频信号帧,N可以为2、4、5、8、10、15、20等等,优选地,N大于等于8且小于等于12,如8帧、9帧、10帧、11帧、12帧,更优选地,N为10,即每10个连续的音频信号帧形成一个声音信号。这样,由于每个音频信号帧选用能量特征和最大幅值特征作为输入神经元,因此,神经网络的输入神经元的个数为2N。进一步地,每一个隐藏层的隐藏神经元的个数选为4N+1,各隐藏层的隐藏神经元个数相等,如此,能够减小运算量,提高对音频信号拖尾抑制的处理效率。在该优选的实施例中,当N为10时,输入神经元的个数为20,隐藏神经元的个数为21,输出神经元的个数为1。
实际使用时,拖尾检测单元中,具有音频存储区,该音频存储区的大小为N个音频信号帧所需的空间大小,以用于存储上述声音信号。在初始化时,将音频存储区中的各值均设置为0,然后每次当前音频信号帧存入该存储区中的最后一个值,并连同其前面的各值一起读出,即为一个声音信号,然后将每一个音频信号帧向前移动一个位置;如此,每次获取的声音信号即为当前音频信号帧和其之前连续的多个音频信号帧。
为了更准确地判断采集到的音频信号是否为拖尾信号,步骤S7中的拖尾阈值优选为0.6~0.9,如0.6、0.7、0.8、0.9,更优选地,拖尾阈值优选为0.8。
可以理解地,在有些音频信号经过处理之后并不会直接通过扬声装置输出,还会先进行一些其他信号处理,而若将目标音频信号帧直接处理,则可能幅值太小,会影响处理效果,为了解决该问题,本发明的一种优选实施例中,步骤S70之后还包括步骤:
S80:将目标音频信号帧放大处理,得到当前音频信号帧对应的输出信号;
S90:输出输出音频。
相应地,在拖尾抑制系统122中,还包括音频放大模块和音频输出模块,音频放大模块用于将目标音频信号帧放大处理,得到当前音频信号帧对应的输出信号,即执行上述步骤S80;音频输出模块用于输出输出信号,即执行S90。
可以理解地,基于现有的拾音单元11有的是数字式的,有的是模拟式的,而步骤S10中的音频信号帧均为数字信号,本发明为了提高上述抑制方法和拖尾抑制系统的通用性,步骤S10之前还包括:
S00:接收时域上的当前信号帧,判断当前信号帧是否为数字信号,若是,则当前信号帧为S10中的当前音频信号帧,执行S10;若否,将当前信号帧转换为数字信号,将转换后的数字信号作为S10中的当前音频信号帧,执行S10。
相应地,在拖尾抑制系统122中,还包括模数转换单元(图中未示出),用于接收时域上的当前信号帧,判断所述当前信号帧是否为数字信号,若是,则当前信号帧为当前音频信号帧;若否,将当前信号帧转换为数字信号,将数字信号作为当前音频信号帧,即执行上述步骤S00。其中,模数转换单元与拖尾检测单元1221连接,在包括拾音单元11的实施例中,拾音单元11通过模数转换单元与拖尾检测单元1221连接
本发明还提供了一种用于抑制音频信号拖尾的神经网络的训练方法,该训练方法训练后的优化神经网络可以作为上述各抑制方法和拖尾抑制系统中的神经网络。其中,训练方法中的初始神经网络的架构与上述各实施例中的神经网络的架构一样,即输入神经元的个数、隐藏层的个数、隐藏神经元的个数、输出神经元的个数以及隐藏神经元的激活函数、输出神经元的激活函数等一样,这里就不再赘述了。参考图3,训练方法包括步骤:
S100:获取时域上的拖尾音频信号,该拖尾音频信号包括当前拖尾信号帧和之前与其连续的多个拖尾信号帧;其中,拖尾信号帧均为数字信号;
S200:计算拖尾音频信号中各拖尾信号帧的能量特征和最大幅值特征;
S300:将多个能量特征和多个最大幅值特征输入初始神经网络,得到当前拖尾信号帧发生拖尾的拖尾概率;其中,初始神经网络的输出层包括一个输出神经元,为拖尾概率;
S400:计算拖尾概率和期望值的差值,具体可以根据公式(6)进行计算,根据差值判断初始神经网络是否收敛;若是,则执行S500;若否,则执行S600;
e=Y-O; (6)
其中,e为差值,Y为期望值,O为输出神经元的值;
S500:将初始神经网络作为优化神经网络,执行S700;
S600:根据差值修正初始神经网络的参数;然后返回S100;
S700:输出优化神经网络,在实际使用时,可以直接使用该优化后的神经网络作为上述抑制音频信号拖尾的方法和系统中的神经网络,即可以直接输入到拖尾检测单元1221;
其中,步骤S100至少执行十次;初始神经网络的收敛指至少连续十次或者十次以上的差值位于预设区间内。也就是说,执行一次S100~S400算作训练了一次,在实际训练中,至少训练十次以上,可以是十一次、十五次、二十次、三十次、五十次、一百次、一百五十次、两百次、两百五十次、三百次、四百次、五百次、六百次等。
本发明还提供了一种用于抑制音频信号拖尾的神经网络的训练系统121,可以用于执行上述训练方法,该训练系统121包括训练单元1211,用于获取时域上的当前拖尾信号帧和之前与其连续的多个拖尾信号帧,形成拖尾音频信号;其中,拖尾信号帧均为数字信号;然后计算拖尾音频信号中各拖尾信号帧的能量特征和最大幅值特征;并将多个能量特征和多个最大幅值特征输入初始神经网络,得到当前拖尾信号帧发生拖尾的拖尾概率;之后计算拖尾概率和期望值的差值,根据该差值判断初始神经网络是否收敛(具体收敛的判断方法参考上述训练方法中的描述,这里就不再赘述);若是,则将初始神经网络作为优化神经网络;若否,则根据差值修正初始神经网络的参数,再重新获取拖尾音频信号进行下一次训练;训练单元1211还用于输出优化神经网络。
上述训练方法和训练系统,采用不同的拖尾音频信号对初始神经网络进行多次训练,进而得到优化神经网络,由于该优化神经网络是经过拖尾音频信号训练的,因此,若使用该优化神经网络对音频信号的拖尾进行抑制,更具有针对性,且抑制效果更好。这个过程可以在初期进行,如出厂前,这样,当设备出厂时其内部的优化神经网络已经是训练好的神经网络了,因此可以直接用这个优化神经网络进行音频信号的处理了。
其中,上述期望值为预设值,可以根据需要设置希望得到的理想值,在本发明的实施例中,由于初始神经网络的输出代表的是拖尾概率,即当前拖尾信号帧发生拖尾的可能性,而输入时选用的输入值均为拖尾信号帧,因此,期望值可以为0.98、0.99、1等,为了提高对初始神经网络训练的准确性,优选地,设置期望值为1,即希望输入拖尾音平信号后,初始神经网络输出的拖尾概率为1;预设区间可以选为-0.01~0.01,因此,上述步骤S400中对初始神经网络的收敛判断,实际上是判断初始神经网络是否连续十次以上的训练输出值趋于平稳,具体可以直接判断至少连续的十个或者十个以上的差值是否均位于预设区间内。
上述各拖尾音频信号中的拖尾信号帧形成拖尾数据库,该拖尾数据库中的各拖尾信号帧可以来自于同一个扬声装置,也可以来自于不同的扬声装置。当来自于同一个扬声装置时,将上述训练方法得到的优化神经网络应用于电子设备时,该电子设备采用上述抑制音频信号拖尾的方法处理音频信号时,优选该扬声装置为训练方法中拖尾信号帧的来源,从而使优化神经网络对该扬声装置具有更好地针对性,提高优化神经网络对来自于该扬声装置的音频信号处理准确性。当各训练信号帧来自于不同的扬声装置时,得到的优化神经网络具有更好地适应性,在上述抑制方法应用于上述电子设备时,可以选择不同的扬声装置,从而提高优化神经网络的通用性。但不论各训练信号帧为上述哪种来源,其均为拖尾信号帧。
可以理解地,对于拖尾音频数据库的获取,可以使用厂家购买扬声装置时配套的拖尾数据的检测软件得到,具体可以直接使用该检测软件对扬声装置的输出信号进行检测,如果是拖尾数据,则存入拖尾音频数据库中。
在实际使用时,训练单元1211具有拖尾存储区,拖尾存储区的大小为N个拖尾信号帧所需的空间大小。当在同一电子设备或者芯片(下文描述)执行上述训练方法和抑制音频信号拖尾的方法时,优选地,拖尾存储区与音频存储区共用同一空间,这种方式,拖尾存储区只有在训练的时候才使用,而在实际使用中,只需要音频存储区,因此,二者互不干涉,且能节省系统空间,提高系统的利用率。
有时候由于各种原因,虽然初始神经网络经过很次训练了,但仍然无法达到对初始神经网络的收敛要求,若一直进行无限次的训练,则增加系统的运算量,增加生产成本,为此,训练步骤中进一步增加对训练次数的判断,具体地,步骤S100还包括:设置训练次数加1;
步骤S600具体包括:
S610:判断训练次数是否达到预设迭代次数,若是,则执行S500;若否,则执行S620:
S620:根据差值修正初始神经网络的参数;然后返回S100;
其中,训练次数的初始值为0。
相应地,上述训练系统中,训练单元1211还用于设置训练次数加1,以及当初始神经网络不收敛时,继续判断训练次数是否达到预设迭代次数,若是,则将初始神经网络作为优化神经网络;若否,则根据差值修正初始神经网络的参数,然后重新获取拖尾音频信号进行下一次训练。
本实施例的训练方法,在一个拖尾音频信号对初始神经网络训练后,先判断当前的初始神经网络是否收敛,如果不收敛,不直接进行参数的更新,而是判断包括本次在内总共对初始神经网络训练的次数是否已经达到了迭代次数,如果达到迭代次数,则不需要对各参数进行更新,认为当前的初始神经网络可以作为优选神经网络了;如果没有达到迭代次数才进行各参数的更新,然后再进行下一次的训练。显然,这种方式能够减少训练的次数,提高对初始神经网络训练的效率。
进一步地,如果上述迭代次数太多,则影响对初始神经网络的训练效率;若迭代次数太少,则影响对初始神经网络的训练效果,进而影响后续对音频信号处理的效果。本发明的一种优选实施例中,上述迭代次数优选为200~500,如200、300、350、400、450、500等,以既能够提高初始神经网络的训练效率,又能够保证对初始神经网络的训练效果。当然,上述迭代次数也可以大于500或者小于200,如选为50、100、150、550等。
在上述步骤S600(或者S620)中,更新的初始神经网络的参数包括神经网络的各连接权值和阈值,可以按照下述公式进行修正。在隐藏层仅有一个的实施例中,可以分别按照下述公式(7)~(10)计算:
其中,为隐藏层的第j个隐藏神经元的阈值;wj为隐藏层的第j个隐藏神经元与输出神经元的连接权值;wij为输入层的第i个输入神经元与隐藏层的第j个隐藏神经元的连接权值,xi为第i个输入神经元;wf为隐藏层的第f个隐藏神经元与输出神经元的连接权值;为隐藏神经元的第f个隐藏神经元的输出;λ为预设的学习速率;公式中的其他参数可以参照公式(1)~(3)中的定义。
在隐藏层设有多层的实施例中,可以分别按照下述公式(11)~(18)计算:
其中,为最后一个隐藏层的第f个隐藏神经元返回的误差;wf为隐藏层的第f个隐藏神经元与输出神经元的连接权值;为隐藏神经元的第f个隐藏神经元的输出;为第m-1个层隐藏层的第j个隐藏神经元与第m个层隐藏层的第f个隐藏神经元的连接权值;为第m个隐藏层的第f个隐藏神经元的返回误差;为第m-1层的第f个神经元的返回误差;为隐藏层的第j个隐藏神经元的阈值;为输入层的第i个输入神经元与第一个隐藏层的第j个隐藏神经元的连接权值,xi为第i个输入神经元;为第一个隐藏层的第j个隐藏神经元的返回误差;λ为预设的学习速率;公式中的其他参数可以参照公式(1)~(3)中的定义。
学习效率λ具体可以根据迭代次数进行设置,考虑到学习效率越小,迭代次数会要求就越大,而迭代次数越大则可能导致初始神经网络无法收敛。为了解决该问题,本发明的一种优选实施例中,设置上述预设的学习效率λ为0.01~0.1,如0.01、0.04、0.08、0.01等。
如抑制方法中提到的一样,各拖尾信号帧可能选用的采集频率不同,每一个拖尾信号帧中的样本数是不同的。在上述抑制方法使用各音频信号帧中各样本的能量均值作为能量特征的实施例中,该训练方法中的能量特征也使用拖尾信号帧的能量均值,即上述步骤S200中拖尾信号帧的能量特征具体为:拖尾信号帧中各样本的能量均值。在上述抑制方法使用各音频信号帧中各样本的能量之和作为能量特征的实施例中,该训练方法中的能量特征也使用拖尾信号帧中各样本的能量之和作为拖尾信号帧的能量特征。训练方法中的最大幅值特征为该拖尾信号帧中幅值最大的样本的幅值。具体地,训练方法中的能量均值和最大幅值也可以使用上述公式(4)、(5)进行计算,只是此时的k表示第k个拖尾信号帧;s为第k个拖尾信号帧的样本个数;yi为第k个拖尾信号帧中第i个样本的值,这里的样本值也为样本的幅值。
同理,训练方法中的拖尾信号帧和抑制方法中音频信号帧的分帧采用相同的窗口,即二者每一信号帧的长度相等,因此,拖尾信号帧也可以每5~25ms为一帧,优选地,每10ms或者20ms为一帧,如拖尾信号帧和音频信号帧均选10ms为一帧。相应地,拖尾信号帧的个数N也与抑制方法中音频信号帧的个数相等,优选地,N大于等于8且小于等于12,如8帧、10帧、11帧、12帧,更优选地,N为10,具体地这里就不再一一列举了,可参考前述抑制方法中的描述。
本发明还提供了一种音频处理芯片12,记为第一芯片,如图1所示,该音频处理芯片包括相互连接的训练系统121和拖尾抑制系统122,训练系统121能够执行上述训练方法,并将优化神经网络输出给拖尾抑制系统122;拖尾抑制系统122能够执行上述的抑制音频信号拖尾的方法;其中,训练系统121与拖尾抑制系统122连接。
具体地,音频处理芯片12具有第一输入端口、第二输入端口和输出端口,音频处理芯片12通过第一输入端口获取拖尾信号帧,通过第二输入端口获取音频信号帧,通过输出端口输出目标音频信号帧。
一种实施例中,上述训练系统包括训练单元1211;拖尾抑制系统122包括拖尾检测单元1221和拖尾处理单元1222。此时,第一输入端口与训练单元1211连接,第二输入端口与拖尾检测单元1221连接,输出端口与拖尾检测单元1221和拖尾处理单元1222均连接。
上述训练系统、拖尾抑制系统以及音频处理芯片能够对音频信号中的拖尾数据进行抑制,因此其能够提高用户的体验,对于其具体地分析可参考上文处理方法中的分析,这里就不再赘述了。
当上述各实施例中的处理方法应用于电子设备时,可以将上述音频处理芯片12(即第一芯片)安装于电子设备内,也就是说,本发明的拾音装置10还包括音频处理芯片12,拾音单元11通过音频处理芯片12与音频放大模块21连接。具体地,拾音单元11与第二输入端口连接,以将拾音单元11采集的音频信号发送给音频处理芯片11(在包括模数转换单元时,拾音单元11通过模数转换单元与第二输入端口连接);输出端口与音频放大模块21连接,在包括有拖尾检测单元122与拖尾处理单元123时,这两个单元均通过输出端口与音频放大模块21连接,以用于将目标音频信号帧发送给扬声装置20,将目标音频信号帧通过扬声装置20输出。音频处理芯片12的第一输入端口可以供厂家在电子设备出厂前对内部的初始神经网络进行训练。需要说明的是,在包括有扬声装置的实施例中,拖尾抑制系统122不包括音频放大模块21和音频输出模块22。
本发明的电子设备在出厂前,厂家可以先通过第一输入端口使用拖尾信号帧对初始神经网络进行训练,得到优化神经网络。在电子设备工作时,拾音单元11采集音频信号帧,然后发送给音频处理芯片12,该音频处理芯片12能够判断拾音单元11采集的当前音频信号帧发生拖尾的可能性,并且在发生拖尾可能性(即拖尾概率)较大时对该当前音频信号帧进行处理,以抑制其拖尾数据,使拾音装置10输出的目标音频信号帧基本不含有拖尾数据,然后,目标音频信号帧经音频放大模块21放大后由音频输出模块22输出。
本发明还提供了另一种音频处理芯片,该音频处理芯片仅用于执行上述训练方法或者抑制音频信号拖尾的方法,也就是说该处理芯片仅包括训练系统121或者拖尾抑制系统122,用于执行上述训练方法的音频处理芯片可以记为第二芯片,用于执行抑制音频信号拖尾的方法的音频处理芯片可以记为第三芯片。
需要说明的是,电子设备也可以仅设置有第三芯片,在电子设备出厂前,只需要将训练好的优化神经网络植入该第三芯片或者电子设备的其他部件上即可。
此外,本发明还提供了一种计算机可读存储介质,如光盘、U盘、硬盘、闪存盘等,或者是其他各种类型的存储介质,其上存储有计算机程序,该计算机程序被执行时实现如上所述的抑制音频信号拖尾的方法,和/或上述所述的训练方法。其中,该计算机程序被执行时可以以demo可视对话框呈现,也可以直接为可执行的exe文件。
本领域的技术人员能够理解的是,在不冲突的前提下,上述各优选方案可以自由地组合、叠加。
应当理解,上述的实施方式仅是示例性的,而非限制性的,在不偏离本发明的基本原理的情况下,本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换,都将包含于本发明的权利要求范围内。
Claims (25)
1.一种抑制音频信号拖尾的方法,其特征在于,包括步骤:
S10:获取时域上的声音信号,所述声音信号包括当前音频信号帧和之前与其连续的多个音频信号帧;其中,所述音频信号帧均为数字信号;
S20:计算所述声音信号中各所述音频信号帧的能量特征和最大幅值特征;
S30:将多个所述能量特征和多个所述最大幅值特征输入用于抑制音频信号拖尾的神经网络,得到所述当前音频信号帧发生拖尾的拖尾概率;其中,所述神经网络的输出层包括一个输出神经元,为所述拖尾概率;
S40:判断所述拖尾概率是否大于拖尾阈值,若是,则执行S50;若否,则执行S60;
S60:使用所述当前音频信号帧作为目标音频信号帧,然后执行S70;
S70:输出所述目标音频信号帧。
2.根据权利要求1所述的方法,其特征在于,所述步骤S10中,所述声音信号包括N个音频信号帧,所述N大于等于8且小于等于12;
在所述步骤S30中,所述神经网络的隐藏层为一层或者两层,各所述隐藏层的节点数为4N+1。
3.根据权利要求1所述的方法,其特征在于,所述步骤S20中,所述音频信号帧的能量特征为:所述音频信号帧中各样本的能量均值。
4.根据权利要求1所述的方法,其特征在于,所述步骤S40中的拖尾阈值为0.6~0.9。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述步骤S10之前还包括:
S00:接收时域上的当前信号帧,判断所述当前信号帧是否为数字信号,若是,则所述当前信号帧为所述当前音频信号帧,执行S10;若否,将所述当前信号帧转换为数字信号,将所述数字信号作为所述当前音频信号帧,执行S10。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述步骤S70之后还包括步骤:
S80:将所述目标音频信号帧放大处理,得到当前音频信号帧对应的输出信号;
S90:输出所述输出信号。
7.一种用于抑制音频信号拖尾的神经网络的训练方法,其特征在于,包括步骤:
S100:获取时域上的当前拖尾信号帧和之前与其连续的多个拖尾信号帧,形成拖尾音频信号;其中,所述拖尾信号帧均为数字信号;
S200:计算所述拖尾音频信号中各所述拖尾信号帧的能量特征和最大幅值特征;
S300:将多个所述能量特征和多个所述最大幅值特征输入初始神经网络,得到所述当前拖尾信号帧发生拖尾的拖尾概率;其中,所述初始神经网络的输出层包括一个输出神经元,为所述拖尾概率;
S400:计算所述拖尾概率和期望值的差值,根据所述差值判断所述初始神经网络是否收敛;若是,则执行S500;若否,则执行S600;
S500:将所述初始神经网络作为优化神经网络,执行S700;
S600:根据所述差值修正所述初始神经网络的参数;然后返回S100;
S700:输出所述优化神经网络;
其中,所述步骤S100至少执行十次;所述初始神经网络的收敛指至少连续十次或者十次以上的所述差值位于预设区间内。
8.根据权利要求7所述的训练方法,其特征在于,所述步骤S200中,所述拖尾信号帧的能量特征具体为:
所述拖尾信号帧中各样本的能量均值。
9.根据权利要求7所述的训练方法,其特征在于,所述拖尾音频信号包括N个拖尾信号帧,所述N大于等于8且小于等于12;
所述初始神经网络的隐藏层为一层或者两层,各隐藏层的节点数为4N+1。
10.根据权利要求7-9任一项所述的训练方法,其特征在于,所述步骤S100还包括:设置训练次数加1;
所述步骤S600具体包括:
S610:判断所述训练次数是否达到预设迭代次数,若是,则执行S500;若否,则执行S620:
S620:根据所述差值修正所述初始神经网络的参数;然后返回S100;
其中,所述训练次数的初始值为0;所述预设迭代次数为200~500。
11.一种抑制音频信号拖尾的拖尾抑制系统,其特征在于,包括:
拖尾检测单元,用于获取时域上的声音信号,所述声音信号包括当前音频信号帧和其之前连续的多个音频信号帧,其中,所述音频信号帧均为数字信号;并用于计算所述声音信号中各所述音频信号帧的能量特征和最大幅值特征,然后将多个所述能量特征和多个所述最大幅值特征输入用于抑制音频信号拖尾的神经网络,得到所述当前音频信号帧发生拖尾的拖尾概率;其中,所述神经网络的输出层包括一个输出神经元,为所述拖尾概率;还用于判断所述拖尾概率是否大于拖尾阈值,若是,则将所述拖尾概率和所述当前音频信号帧发送给拖尾处理单元;若否,使用所述当前音频信号帧作为目标音频信号帧,并输出所述目标音频信号帧;
其中,所述拖尾检测单元与所述拖尾处理单元连接。
12.根据权利要求11所述的拖尾抑制系统,其特征在于,所述拖尾检测单元具有音频存储区,所述音频存储区的大小为N个所述音频信号帧所需的空间大小,以用于存储所述声音信号,所述N大于等于8且小于等于12;
所述神经网络的隐藏层为一层或者两层,各所述隐藏层的节点数为4N+1。
13.根据权利要求11所述的拖尾抑制系统,其特征在于,所述音频信号帧的能量特征为:所述音频信号帧中各样本的能量均值。
14.根据权利要求11所述的拖尾抑制系统,其特征在于,所述拖尾阈值为0.6~0.9。
15.根据权利要求11所述的拖尾抑制系统,其特征在于,还包括:
音频放大模块,用于将所述目标音频信号帧放大处理,得到当前音频信号帧对应的输出信号;
音频输出模块,用于输出所述输出信号。
16.根据权利要求11-15任一项所述的拖尾抑制系统,其特征在于,还包括:
模数转换单元,用于接收时域上的当前信号帧,判断所述当前信号帧是否为数字信号,若是,则所述当前信号帧为所述当前音频信号帧;若否,将所述当前信号帧转换为数字信号,将所述数字信号作为所述当前音频信号帧。
17.一种用于抑制音频信号拖尾的神经网络的训练系统,其特征在于,包括训练单元,用于获取时域上的当前拖尾信号帧和之前与其连续的多个拖尾信号帧,形成拖尾音频信号;其中,所述拖尾信号帧均为数字信号;然后计算所述拖尾音频信号中各所述拖尾信号帧的能量特征和最大幅值特征;并将多个所述能量特征和多个所述最大幅值特征输入初始神经网络,得到所述当前拖尾信号帧发生拖尾的拖尾概率;之后计算所述拖尾概率和期望值的差值,根据所述差值判断所述初始神经网络是否收敛;若是,则将所述初始神经网络作为优化神经网络;若否,则根据所述差值修正所述初始神经网络的参数,返回重新获取拖尾音频信号;并用于输出所述优化神经网络;
其中,所述初始神经网络的输出层包括一个输出神经元,为所述拖尾概率;所述获取时域上的当前拖尾音频信号帧和之前与其连续的多个拖尾信号帧,形成拖尾音频信号至少执行十次;所述初始神经网络的收敛指至少连续十次或者十次以上的差值位于预设区间内。
18.根据权利要求17所述的训练系统,其特征在于,所述拖尾信号帧的能量特征具体为:所述拖尾信号帧中各样本的能量均值。
19.根据权利要求17所述的训练系统,其特征在于,所述训练单元具有拖尾存储区,所述拖尾存储区的大小为N个所述拖尾信号帧所需的空间大小,以用于存储N个拖尾信号帧,所述N大于等于8且小于等于12;
所述初始神经网络的隐藏层为一层或者两层,各隐藏层的节点数为4N+1。
20.根据权利要求17-19任一项所述的训练系统,其特征在于,所述训练单元还用于设置训练次数加1;并当所述初始神经网络不收敛时,继续判断所述训练次数是否达到预设迭代次数,若是,则将所述初始神经网络作为所述优化神经网络;若否,则根据所述差值修正所述初始神经网络的参数,然后返回重新获取拖尾音频信号;其中,所述训练次数的初始值为0;所述预设迭代次数为200~500。
21.一种音频处理芯片,其特征在于,包括相互连接的训练系统和拖尾抑制系统,
所述训练系统能够执行权利要求7-10任一项所述的训练方法,并将所述优化神经网络输出给所述拖尾抑制系统;
所述拖尾抑制系统能够执行权利要求1-5任一项所述的抑制音频信号拖尾的方法;
其中,所述训练系统与所述拖尾抑制系统连接。
22.一种电子设备,其特征在于,包括拾音装置和扬声装置,
所述拾音装置包括拾音单元和与之相连的权利要求21所述的音频处理芯片,所述拾音单元与所述训练系统、所述拖尾抑制系统均连接;
所述扬声装置包括相互连接的音频放大模块和音频输出模块,所述拖尾抑制系统与所述音频放大模块连接。
23.根据权利要求22所述的电子设备,其特征在于,所述电子设备包括K歌设备、会议设备、移动终端、交互设备中的至少一种。
24.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1-6任一项所述的抑制音频信号拖尾的方法,和/或权利要求7-10任一项所述的训练方法。
25.一种音频处理芯片,其特征在于,包括训练系统或拖尾抑制系统,所述训练系统能够执行权利要求7-10任一项所述的训练方法;所述拖尾抑制系统能够执行权利要求1-6任一项所述的抑制音频信号拖尾的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010421050.2A CN112291676B (zh) | 2020-05-18 | 2020-05-18 | 抑制音频信号拖尾的方法及系统、芯片、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010421050.2A CN112291676B (zh) | 2020-05-18 | 2020-05-18 | 抑制音频信号拖尾的方法及系统、芯片、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112291676A CN112291676A (zh) | 2021-01-29 |
CN112291676B true CN112291676B (zh) | 2021-10-15 |
Family
ID=74420493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010421050.2A Active CN112291676B (zh) | 2020-05-18 | 2020-05-18 | 抑制音频信号拖尾的方法及系统、芯片、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112291676B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4395598A (en) * | 1978-11-16 | 1983-07-26 | Societe Audax | Electro-acoustic transducer causing sound waves to be in phase at any point by preventing reflection from the back end of the diaphragm to stress applying means |
CN105005977A (zh) * | 2015-07-14 | 2015-10-28 | 河海大学 | 一种基于像素流和时间先验信息的单视频帧率复原方法 |
CN106371098A (zh) * | 2016-08-30 | 2017-02-01 | 浙江工商大学 | 一种有阻尼自由振动超声波测距系统频率拐点判别方法 |
CN108613674A (zh) * | 2018-03-25 | 2018-10-02 | 哈尔滨工程大学 | 一种基于自适应差分进化bp神经网络的姿态误差抑制方法 |
CN109788400A (zh) * | 2019-03-06 | 2019-05-21 | 哈尔滨工业大学(深圳) | 一种用于数字助听器的神经网络啸叫抑制方法、系统及存储介质 |
US10587983B1 (en) * | 2017-10-04 | 2020-03-10 | Ronald L. Meyer | Methods and systems for adjusting clarity of digitized audio signals |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2619277T3 (es) * | 2007-08-27 | 2017-06-26 | Telefonaktiebolaget Lm Ericsson (Publ) | Detector de transitorio y método para soportar la codificación de una señal de audio |
CN107770683B (zh) * | 2017-10-12 | 2019-10-11 | 北京小鱼在家科技有限公司 | 一种回声场景下音频采集状态的检测方法及装置 |
-
2020
- 2020-05-18 CN CN202010421050.2A patent/CN112291676B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4395598A (en) * | 1978-11-16 | 1983-07-26 | Societe Audax | Electro-acoustic transducer causing sound waves to be in phase at any point by preventing reflection from the back end of the diaphragm to stress applying means |
CN105005977A (zh) * | 2015-07-14 | 2015-10-28 | 河海大学 | 一种基于像素流和时间先验信息的单视频帧率复原方法 |
CN106371098A (zh) * | 2016-08-30 | 2017-02-01 | 浙江工商大学 | 一种有阻尼自由振动超声波测距系统频率拐点判别方法 |
US10587983B1 (en) * | 2017-10-04 | 2020-03-10 | Ronald L. Meyer | Methods and systems for adjusting clarity of digitized audio signals |
CN108613674A (zh) * | 2018-03-25 | 2018-10-02 | 哈尔滨工程大学 | 一种基于自适应差分进化bp神经网络的姿态误差抑制方法 |
CN109788400A (zh) * | 2019-03-06 | 2019-05-21 | 哈尔滨工业大学(深圳) | 一种用于数字助听器的神经网络啸叫抑制方法、系统及存储介质 |
Non-Patent Citations (2)
Title |
---|
On the application of reverberation suppression to robust speech recognition;Roland;《ICASSP2012》;20121231;第297-300页 * |
如何控制扬声器的阻尼;林渊;《实用影音技术》;20101231;第80-84页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112291676A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9210504B2 (en) | Processing audio signals | |
US10657981B1 (en) | Acoustic echo cancellation with loudspeaker canceling beamformer | |
JP3789685B2 (ja) | マイクロホンアレイ装置 | |
US8238569B2 (en) | Method, medium, and apparatus for extracting target sound from mixed sound | |
CN1926911B (zh) | 啸叫抑制装置、程序、集成电路及啸叫抑制方法 | |
JP6090121B2 (ja) | 収音システム | |
CN107742522A (zh) | 基于麦克风阵列的目标语音获取方法及装置 | |
KR101601197B1 (ko) | 마이크로폰 어레이의 이득 조정 장치 및 방법 | |
CN106782584A (zh) | 音频信号处理设备、方法和电子设备 | |
CN206349145U (zh) | 音频信号处理设备 | |
JP2010232717A (ja) | 受音信号処理装置、方法およびプログラム | |
US9538288B2 (en) | Sound field correction apparatus, control method thereof, and computer-readable storage medium | |
JP2009288215A (ja) | 音響処理装置及びその方法 | |
CN111261179A (zh) | 回声消除方法及装置和智能设备 | |
CN112435683B (zh) | 基于t-s模糊神经网络的自适应噪声估计及语音降噪方法 | |
CN112562716A (zh) | 基于神经网络的语音增强方法、装置、终端和介质 | |
CN111951833A (zh) | 语音测试方法、装置、电子设备和存储介质 | |
CN112291676B (zh) | 抑制音频信号拖尾的方法及系统、芯片、电子设备 | |
CN111883153B (zh) | 一种基于麦克风阵列的双端讲话状态检测方法及装置 | |
JP2004078021A (ja) | 収音方法、収音装置、および収音プログラム | |
CN110021289B (zh) | 一种声音信号处理方法、装置及存储介质 | |
CN112997249B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
CN111885459B (zh) | 一种音频处理方法、音频处理装置、智能耳机 | |
US20230360662A1 (en) | Method and device for processing a binaural recording | |
JP6711205B2 (ja) | 音響信号処理装置、プログラム及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 519075 No. 333, Kexing Road, Xiangzhou District, Zhuhai City, Guangdong Province Applicant after: ZHUHAI JIELI TECHNOLOGY Co.,Ltd. Address before: Floor 1-107, building 904, ShiJiHua Road, Zhuhai City, Guangdong Province Applicant before: ZHUHAI JIELI TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |