CN112291676B

CN112291676B - 抑制音频信号拖尾的方法及系统、芯片、电子设备

Info

Publication number: CN112291676B
Application number: CN202010421050.2A
Authority: CN
Inventors: 肖强; 肖全之; 黄荣均; 方桂萍; 闫玉凤
Original assignee: Zhuhai Jieli Technology Co Ltd
Current assignee: Zhuhai Jieli Technology Co Ltd
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2021-10-15
Anticipated expiration: 2040-05-18
Also published as: CN112291676A

Abstract

本发明涉及一种抑制音频信号拖尾的方法及拖尾抑制系统、音频处理芯片、电子设备和计算机可读介质，该方法包括：先计算声音信号中各所述音频信号帧的能量特征和最大幅值特征，然后将多个所述能量特征和多个所述最大幅值特征输入用于抑制音频信号拖尾的神经网络，得到所述当前音频信号帧发生拖尾的拖尾概率，并判断所述拖尾概率是否大于拖尾阈值，若是，则先计算抑制拖尾程度然后对当前音频信号帧进行拖尾抑制处理后再输出；否则直接输出当前音频信号帧。本发明能够抑制扬声器产生的拖尾音频，提升用户体验。

Description

抑制音频信号拖尾的方法及系统、芯片、电子设备

技术领域

本发明涉及音频处理技术领域，具体涉及一种抑制音频信号拖尾的方法及拖尾抑制系统、用于抑制音频信号拖尾的神经网络的训练方法及训练系统、音频处理芯片、电子设备及计算机可读存储介质。

背景技术

在K歌系统、会议系统等设备中，扬声器是必不可少的部分。扬声器作为一种电声转换设备，将声音的电信号转换成声信号，常常和麦克风等拾音设备搭配使用。然而，扬声器存在瞬态响应差的问题，即当音频瞬间停止时，扬声器仍然会持续震动振膜、纸盆，产生一段衰减的拖尾音频，这个拖尾音频常常会被拾音设备采集到，进而经过放大电路，再次从扬声器输出，由于该拖尾音频经过了放大电路，因此从扬声器输出时被放大并延长，给用户带来较差的体验效果。

现有技术中，有的厂家通过改进扬声器自身的结构，以尽可能减少拖尾音频的产生。然而，这种结构上的改变，只能应用于新开发的扬声器，而对于已有的扬声器的拖尾音频仍无法解决；且这种方式，只能尽量减少拖尾音频的产生，对用户体验感的提升不明显，另外，对于新开发的扬声器也会增加制造成本。

发明内容

基于上述现状，本发明的主要目的在于提供一种抑制音频信号拖尾的方法及拖尾抑制系统、用于抑制音频信号拖尾的神经网络的训练方法及训练系统、音频处理芯片、电子设备及计算机可读存储介质，以抑制扬声器产生的拖尾音频，提升用户体验。

为实现上述目的，本发明采用的技术方案如下：

本发明的第一方面提供了一种抑制音频信号拖尾的方法，包括步骤：

S10：获取时域上的声音信号，所述声音信号包括当前音频信号帧和之前与其连续的多个音频信号帧；其中，所述音频信号帧均为数字信号；

S20：计算所述声音信号中各所述音频信号帧的能量特征和最大幅值特征；

S30：将多个所述能量特征和多个所述最大幅值特征输入用于抑制音频信号拖尾的神经网络，得到所述当前音频信号帧发生拖尾的拖尾概率；其中，所述神经网络的输出层包括一个输出神经元，为所述拖尾概率；

S40：判断所述拖尾概率是否大于拖尾阈值，若是，则执行S50；若否，则执行S60；

S50：计算当前音频信号帧的抑制拖尾程度G＝(1-O)²，然后使用所述抑制拖尾程度与所述当前音频信号帧相乘，作为目标音频信号帧，然后执行S70；其中，O为所述拖尾概率；

S60：使用所述当前音频信号帧作为目标音频信号帧，然后执行S70；

S70：输出所述目标音频信号帧。

优选地，所述步骤S10中，所述声音信号包括N个音频信号帧，所述N大于等于8且小于等于12；

在所述步骤S30中，所述神经网络的隐藏层为一层或者两层，各所述隐藏层的节点数为4N+1。

优选地，所述步骤S20中，所述音频信号帧的能量特征为：所述音频信号帧中各样本的能量均值。

优选地，所述步骤S40中的拖尾阈值为0.6～0.9。

优选地，所述步骤S10之前还包括：

S00：接收时域上的当前信号帧，判断所述当前信号帧是否为数字信号，若是，则所述当前信号帧为所述当前音频信号帧，执行S10；若否，将所述当前信号帧转换为数字信号，将所述数字信号作为所述当前音频信号帧，执行S10。

优选地，所述步骤S70之后还包括步骤：

S80：将所述目标音频信号帧放大处理，得到当前音频信号帧对应的输出信号；

S90：输出所述输出信号。

本发明的第二方面提供了一种用于抑制音频信号拖尾的神经网络的训练方法，包括步骤：

S100：获取时域上的当前拖尾信号帧和之前与其连续的多个拖尾信号帧，形成拖尾音频信号；其中，所述拖尾信号帧均为数字信号；

S200：计算所述拖尾音频信号中各所述拖尾信号帧的能量特征和最大幅值特征；

S300：将多个所述能量特征和多个所述最大幅值特征输入初始神经网络，得到所述当前拖尾信号帧发生拖尾的拖尾概率；其中，所述初始神经网络的输出层包括一个输出神经元，为所述拖尾概率；

S400：计算所述拖尾概率和期望值的差值，根据所述差值判断所述初始神经网络是否收敛；若是，则执行S500；若否，则执行S600；

S500：将所述初始神经网络作为优化神经网络，执行S700；

S600：根据所述差值修正所述初始神经网络的参数；然后返回S100；

S700：输出所述优化神经网络；

其中，所述步骤S100至少执行十次；所述初始神经网络的收敛指至少连续十次或者十次以上的所述差值位于预设区间内。

优选地，所述步骤S200中，所述拖尾信号帧的能量特征具体为：

所述拖尾信号帧中各样本的能量均值。

优选地，所述拖尾音频信号包括N个拖尾信号帧，所述N大于等于8且小于等于12；

所述初始神经网络的隐藏层为一层或者两层，各隐藏层的节点数为4N+1。

优选地，所述步骤S100还包括：设置训练次数加1；

所述步骤S600具体包括：

S610：判断所述训练次数是否达到预设迭代次数，若是，则执行S500；若否，则执行S620：

S620：根据所述差值修正所述初始神经网络的参数；然后返回S100；

其中，所述训练次数的初始值为0；所述预设迭代次数为200～500。

本发明的第三方面提供了一种抑制音频信号拖尾的拖尾抑制系统，包括：

拖尾检测单元，用于获取时域上的声音信号，所述声音信号包括当前音频信号帧和其之前连续的多个音频信号帧，其中，所述音频信号帧均为数字信号；并用于计算所述声音信号中各所述音频信号帧的能量特征和最大幅值特征，然后将多个所述能量特征和多个所述最大幅值特征输入用于抑制音频信号拖尾的神经网络，得到所述当前音频信号帧发生拖尾的拖尾概率；其中，所述神经网络的输出层包括一个输出神经元，为所述拖尾概率；还用于判断所述拖尾概率是否大于拖尾阈值，若是，则将所述拖尾概率和所述当前音频信号帧发送给拖尾处理单元；若否，使用所述当前音频信号帧作为目标音频信号帧，并输出所述目标音频信号帧；

拖尾处理单元，用于计算当前音频信号帧的抑制拖尾程度G＝(1-O)²，然后使用所述抑制拖尾程度与所述当前音频信号帧相乘，作为目标音频信号帧，然后输出所述目标音频信号帧；其中，O为所述拖尾概率；

其中，所述拖尾检测单元与所述拖尾处理单元连接。

优选地，所述拖尾检测单元具有音频存储区，所述音频存储区的大小为N个所述音频信号帧所需的空间大小，以用于存储所述声音信号，所述N大于等于8且小于等于12；

所述神经网络的隐藏层为一层或者两层，各所述隐藏层的节点数为4N+1。

优选地，所述音频信号帧的能量特征为：所述音频信号帧中各样本的能量均值。

优选地，所述拖尾阈值为0.6～0.9。

优选地，还包括：

音频放大模块，用于将所述目标音频信号帧放大处理，得到当前音频信号帧对应的输出信号；

音频输出模块，用于输出所述输出信号。

优选地，还包括：

模数转换单元，用于接收时域上的当前信号帧，判断所述当前信号帧是否为数字信号，若是，则所述当前信号帧为所述当前音频信号帧；若否，将所述当前信号帧转换为数字信号，将所述数字信号作为所述当前音频信号帧。

本发明的第四方面提供了一种用于抑制音频信号拖尾的神经网络的训练系统，包括训练单元，用于获取时域上的当前拖尾信号帧和之前与其连续的多个拖尾信号帧，形成拖尾音频信号；其中，所述拖尾信号帧均为数字信号；然后计算所述拖尾音频信号中各所述拖尾信号帧的能量特征和最大幅值特征；并将多个所述能量特征和多个所述最大幅值特征输入初始神经网络，得到所述当前拖尾信号帧发生拖尾的拖尾概率；之后计算所述拖尾概率和期望值的差值，根据所述差值判断所述初始神经网络是否收敛；若是，则将所述初始神经网络作为所述优化神经网络；若否，则根据所述差值修正所述初始神经网络的参数，返回重新获取拖尾音频信号；并用于输出所述优化神经网络；

其中，所述初始神经网络的输出层包括一个输出神经元，为所述拖尾概率；所述获取时域上的当前拖尾音频信号帧和之前与其连续的多个拖尾信号帧，形成拖尾音频信号至少执行十次；所述初始神经网络的收敛指至少连续十次或者十次以上的差值位于预设区间内。

优选地，所述拖尾信号帧的能量特征具体为：所述拖尾信号帧中各样本的能量均值。

优选地，所述训练单元具有拖尾存储区，所述拖尾存储区的大小为N个所述拖尾信号帧所需的空间大小，以用于存储N个拖尾信号帧，所述N大于等于8且小于等于12；

优选地，所述训练单元还用于设置训练次数加1；并当所述初始神经网络不收敛时，继续判断所述训练次数是否达到预设迭代次数，若是，则将所述初始神经网络作为所述优化神经网络；若否，则根据所述差值修正所述初始神经网络的参数，然后返回重新获取拖尾音频信号；其中，所述训练次数的初始值为0；所述预设迭代次数为200～500。

本发明的第五方面提供了一种音频处理芯片，包括相互连接的训练系统和拖尾抑制系统，

所述训练系统能够执行上述任一项所述的训练方法，并将所述优化神经网络输出给所述拖尾抑制系统；

所述拖尾抑制系统能够执行上述任一项所述的抑制音频信号拖尾的方法；

其中，所述训练系统与所述拖尾抑制系统连接。

本发明的第六方面提供了一种电子设备，包括拾音装置和扬声装置，

所述拾音装置包括拾音单元和与之相连的上述所述的音频处理芯片，所述拾音单元与所述训练系统、所述拖尾抑制系统均连接；

所述扬声装置包括相互连接的音频放大模块和音频输出模块，所述拖尾抑制系统与所述音频放大模块连接。

优选地，所述电子设备包括K歌设备、会议设备、移动终端、交互设备中的至少一种。

本发明的第七方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如上任一项所述的抑制音频信号拖尾的方法，和/或如上任一项所述的训练方法。

本发明的第八方面提供了一种音频处理芯片，其特征在于，所述芯片能够实现如上任一项所述的训练方法；或者实现如上任一项所述的抑制音频信号拖尾的方法。

本发明的抑制音频信号拖尾的方法，使用神经网络计算出当前音频信号帧发生拖尾的拖尾概率，并根据拖尾概率判断当前音频信号帧发生拖尾的可能性，若发生拖尾的可能性较大，则使用该拖尾概率计算拖尾抑制程度，使用该拖尾抑制程度对当前音频信号帧进行抑制，使拖尾数据尽可能消失。如此，在通过扬声器输出时，使用者就不会听到放大后的拖尾信号，从而提升用户体验；且这种处理方式，不论是新生产的扬声器，还是现有的扬声器，其产生的拖尾信号均适用，因此，这种方法更具有通用性，能够降低音频厂家的生产成本。

本发明的其他有益效果，将在具体实施方式中通过具体技术特征和技术方案的介绍来阐述，本领域技术人员通过这些技术特征和技术方案的介绍，应能理解所述技术特征和技术方案带来的有益技术效果。

附图说明

以下将参照附图对本发明的优选实施方式进行描述。图中：

图1为本发明所提供的电子设备的一种优选实施方式的系统图；

图2为本发明所提供的抑制音频信号拖尾的方法的一种优选实施方式的流程图；

图3为本发明所提供的用于抑制音频信号拖尾的神经网络的训练方法的一种优选实施方式的流程图。

图中，

10、拾音装置；11、拾音单元；12、音频处理芯片；121、训练系统；1211、训练单元；122、拖尾抑制系统；1221、拖尾检测单元；1222、拖尾处理单元；

20、扬声装置；21、音频放大模块；22、音频输出模块。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分，为了避免混淆本发明的实质，公知的方法、过程、流程、元件并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本发明提供了一种电子设备，该电子设备可以为K歌设备、会议设备、移动终端或者交互设备，参考图1，电子设备包括拾音装置10和扬声装置20，拾音装置10包括拾音单元11；扬声装置20包括相互连接的音频放大模块21和音频输出模块22；拾音单元11与音频放大模块21连接。工作时，拾音单元11采集音频信号(包括音频输出模块22输出的音频信号)，发送给音频放大模块21，经音频放大模块21放大后，通过音频输出模块22输出。

然而，扬声装置20由于自身的物理特性，当音频瞬间停止时，仍然会持续震动振膜、纸盆，产生一段衰减的拖尾信号，这个直接发出的拖尾信号由于未经过音频放大模块21的放大，因此，使用者基本不会敏感到；然而，这段衰减的拖尾信号常常被拾音单元11采集后，经过音频放大模块21放大，再由音频输出模块22输出时，就会变得很明显，给使用者带来听感的不适。

针对上述问题，本发明提供了一种抑制音频信号拖尾的方法，以下简称为抑制方法，该抑制方法使用神经网络对当前音频信号帧的拖尾概率进行判断，并对拖尾概率较大的当前音频信号帧进行处理，以抑制当前音频信号帧发生拖尾。该抑制方法可以应用于上述电子设备，也可以应用于其他音频设备。

具体地，参考图2，抑制音频信号拖尾的方法包括步骤：

S10：获取时域上的声音信号，该声音信号包括当前音频信号帧和之前与其连续的多个音频信号帧，即声音信号包括多个连续的音频信号帧，且其最后的音频信号帧为当前音频信号帧；其中，这些音频信号帧均为时域信号，且为数字信号，这些音频信号帧中的各值实际上为音频信号帧中对应时刻的幅值，即声音的振幅；

S20：计算声音信号中各音频信号帧(包括当前音频信号帧和之前与其连续的多个音频信号帧)的能量特征和最大幅值特征；

S30：将多个能量特征和多个最大幅值特征输入用于抑制音频信号拖尾的神经网络，得到当前音频信号帧发生拖尾的拖尾概率，也就是说，将多个能量特征和多个最大幅值特征带入神经网络的各输入神经元之后，神经网络的输出神经元即可输出当前音频信号帧发生拖尾的拖尾概率，这个拖尾概率的大小为当前音频信号帧发生拖尾的可能性，因此，该拖尾概率是小于等于1的；

S40：判断该拖尾概率是否大于拖尾阈值，若是，则认为当前音频信号帧发生拖尾的可能性较大，即为拖尾音频帧，执行S50；若否，则认为当前音频信号帧发生拖尾的可能性较小，执行S60；

S50：计算当前音频信号帧的抑制拖尾程度G＝(1-O)²，然后使用抑制拖尾程度与当前音频信号帧相乘，作为目标音频信号，即当前音频信号帧的值的个数与目标音频信号的值个数相等，且二者中的值一一对应，在一组对应的值中，目标音频信号帧的值等于当前音频信号帧中的值与G的乘积，然后执行S70；其中，O为拖尾概率，上述与当前音频信号帧的值指音频信号帧的幅值；

S60：使用当前音频信号帧作为目标音频信号帧，然后执行S70；

S70：输出目标音频信号帧。

本发明还提供了一种抑制音频信号拖尾的拖尾抑制系统122，可以用于执行上述方法，继续参考图1，该拖尾抑制系统122包括：拖尾检测单元1221和拖尾处理单元1222，拖尾检测单元1221用于执行上述步骤S10～S40以及S60和S70，即用于获取时域上的声音信号，声音信号为时域上的当前音频信号帧和其之前连续的多个音频信号帧；并用于计算声音信号中各音频信号帧的能量特征和最大幅值特征，然后将多个能量特征和多个最大幅值特征输入用于抑制音频信号拖尾的神经网络，得到当前音频信号帧发生拖尾的拖尾概率；然后判断该拖尾概率是否大于拖尾阈值，若是，则将拖尾概率和当前音频信号帧发送给拖尾处理单元；若否，使用当前音频信号帧作为目标音频信号帧，并输出目标音频信号帧。拖尾处理单元1222用于执行上述步骤S50和S70，即当当前音频信号帧被认为发生拖尾的可能性比较大，对当前音频信号帧进行处理，用于计算当前音频信号帧的抑制拖尾程度G＝(1-O)²，然后使用抑制拖尾程度与当前音频信号帧相乘，作为目标音频信号帧，然后输出目标音频信号帧；其中，O为拖尾概率。其中，拖尾检测单元1221与拖尾处理单元1222连接，以用于信号传递。

本发明的抑制音频信号拖尾的方法及系统，使用神经网络计算出当前音频信号帧发生拖尾的拖尾概率，并根据拖尾概率判断当前音频信号帧发生拖尾的可能性，若可能性较大，则使用该拖尾概率计算拖尾抑制程度，然后将当前音频信号帧的各值均与拖尾抑制程度相乘，以尽可能消除当前音频信号帧中的拖尾数据，如此，当前音频信号帧中，由于拖尾的值本来就比较小，在通过与该拖尾抑制程度相乘，基本为零，而其余的值虽然在此时会减小，但是当通过扬声装置输出时，扬声装置中的音频放大模块会将其余的值再次放大，而由于此时的拖尾值已经为零，因此，即使通过音频放大模块也仍然为零，当然在通过扬声装置输出时，使用者就不会听到放大后的拖尾信号，从而提升用户体验；且这种处理方式，不论是新生产的扬声装置，还是现有的扬声装置，对其产生的拖尾信号均适用，因此，这种方法更具有通用性，能够降低音频器件声场厂家的生产成本。

进一步地，本发明中，当判断当前音频信号帧为拖尾音频帧后，没有直接使用一个固定的抑制拖尾程度作用于当前音频信号帧，而是根据拖尾概率对拖尾抑制程度进行调整，是考虑到拖尾概率越大，说明当前音频信号帧中的拖尾数据的值就越大，因此，需要将其值尽可能降低，需要作用其上的抑制程度尽可能小，即拖尾概率的变化趋势与拖尾抑制程度的变换趋势应该相反。发明人没有简单的使用(1-O)的算法计算拖尾抑制程度，而是经过创造性试验，发现(1-O)²的平方算法抑制拖尾，使得拖尾抑制程度较好，能够使拖尾值变得非常小，甚至为零，从而能够提高对音频信号拖尾的抑制能力；且没有显著增加计算负荷，实际输出效果最佳。

另一方面，本发明选用当前音频信号帧和其前面连续的多个音频信号帧作为神经网络的输入，即在计算当前音频信号帧的拖尾概率时，充分考虑了其之前的音频信号帧的特征，从而能够提高对当前音频信号帧的拖尾概率估算的准确性，且能够使修正后的目标音频信号帧与之前的音频信号帧具有更好地连续性，尽可能避免输出信号发生突然跳变，进而更好地提升用户体验。

其中，神经网络具有输入层、隐藏层和输出层，输入层包括多个输入神经元；隐藏层可以设置有一个或者多个，各隐藏层的隐藏神经元的个数相等；输出层包括一个输出神经元，为拖尾概率。在设置有K个隐藏层时，第一个隐藏层的输出可以通过公式(1)得到，第二隐藏层的输出可以通过公式(2)得到，输出神经元的值(即上述拖尾概率O)可以通过公式(3)得到；

其中，

为第一个隐藏层的第j个隐藏神经元的输出；f₁为隐藏神经元的激活函数；n₁为输入神经元的个数；w_ij为第i个输入神经元与第一个隐藏层的第j个隐藏神经元的连接权值；x_i为第i个输入神经元；

为第一个隐藏层的第j个隐藏神经元的阈值；

为第m个隐藏层的第f个隐藏神经元的输出；n2为隐藏神经元的个数；

为第m-1个隐藏层的第j个隐藏神经元的输出；

为第m-1个隐藏层的第j个隐藏神经元与第m个隐藏层的第f个隐藏神经元的连接权值；O为输出神经元的输出，f₂为输出神经元的激活函数；w_f为最后一个隐藏层(即第K个隐藏层)的第f个隐藏神经元与输出神经元的连接权值；

为最后一个隐藏层(即第K个隐藏层)的第f个隐藏神经元的输出；b为输出神经元的阈值。需要说明的是，在仅设置有一个隐藏层时，上述K为1，可以省去公式(2)，在公式(3)中，使用

代替

即可；在K大于1时，m＝2，3，…，K。

考虑到运算量的问题，本发明中隐藏层优选设置有一层或者两层。其中，隐藏神经元和输出神经元可以分别选用ReLU激活函数或者Sigmoid激活函数，当然，也可以为其他激活函数。一种优选的实施例中，隐藏层的隐藏神经元选用ReLU激活函数，输出层的输出神经元采用Sigmoid激活函数。

上述各音频信号帧可以选用相同的采集频率，也可以选用不同的采集频率，在采集频率不同时，每一个音频信号帧中的样本数是不同的，在上述步骤S20中，可以选用整个音频信号帧的能量之和，本发明的一种优选实施例中，使用各音频信号帧中样本的能量均值，具体地，步骤S20中，音频信号帧的能量特征为：音频信号帧中各样本的能量均值，最大幅值特征为该音频信号帧中幅值最大的样本的幅值。具体地，音频信号帧的能量均值E_k和最大幅值特征mag_k可以使用下述公式(4)、(5)进行计算：

mag_k＝max(y_i)； (9)

其中，k表示第k个音频信号帧；s为第k个音频信号帧的样本个数；y_i为第k个音频信号帧中第i个样本的值，即前述数字信号中的各值，i＝1、2、…、s。

上述各音频信号帧，可以每5～25ms为一帧，优选地，每10ms或者20ms为一帧。每个声音信号包括N个音频信号帧，N可以为2、4、5、8、10、15、20等等，优选地，N大于等于8且小于等于12，如8帧、9帧、10帧、11帧、12帧，更优选地，N为10，即每10个连续的音频信号帧形成一个声音信号。这样，由于每个音频信号帧选用能量特征和最大幅值特征作为输入神经元，因此，神经网络的输入神经元的个数为2N。进一步地，每一个隐藏层的隐藏神经元的个数选为4N+1，各隐藏层的隐藏神经元个数相等，如此，能够减小运算量，提高对音频信号拖尾抑制的处理效率。在该优选的实施例中，当N为10时，输入神经元的个数为20，隐藏神经元的个数为21，输出神经元的个数为1。

实际使用时，拖尾检测单元中，具有音频存储区，该音频存储区的大小为N个音频信号帧所需的空间大小，以用于存储上述声音信号。在初始化时，将音频存储区中的各值均设置为0，然后每次当前音频信号帧存入该存储区中的最后一个值，并连同其前面的各值一起读出，即为一个声音信号，然后将每一个音频信号帧向前移动一个位置；如此，每次获取的声音信号即为当前音频信号帧和其之前连续的多个音频信号帧。

为了更准确地判断采集到的音频信号是否为拖尾信号，步骤S7中的拖尾阈值优选为0.6～0.9，如0.6、0.7、0.8、0.9，更优选地，拖尾阈值优选为0.8。

可以理解地，在有些音频信号经过处理之后并不会直接通过扬声装置输出，还会先进行一些其他信号处理，而若将目标音频信号帧直接处理，则可能幅值太小，会影响处理效果，为了解决该问题，本发明的一种优选实施例中，步骤S70之后还包括步骤：

S80：将目标音频信号帧放大处理，得到当前音频信号帧对应的输出信号；

S90：输出输出音频。

相应地，在拖尾抑制系统122中，还包括音频放大模块和音频输出模块，音频放大模块用于将目标音频信号帧放大处理，得到当前音频信号帧对应的输出信号，即执行上述步骤S80；音频输出模块用于输出输出信号，即执行S90。

可以理解地，基于现有的拾音单元11有的是数字式的，有的是模拟式的，而步骤S10中的音频信号帧均为数字信号，本发明为了提高上述抑制方法和拖尾抑制系统的通用性，步骤S10之前还包括：

S00：接收时域上的当前信号帧，判断当前信号帧是否为数字信号，若是，则当前信号帧为S10中的当前音频信号帧，执行S10；若否，将当前信号帧转换为数字信号，将转换后的数字信号作为S10中的当前音频信号帧，执行S10。

相应地，在拖尾抑制系统122中，还包括模数转换单元(图中未示出)，用于接收时域上的当前信号帧，判断所述当前信号帧是否为数字信号，若是，则当前信号帧为当前音频信号帧；若否，将当前信号帧转换为数字信号，将数字信号作为当前音频信号帧，即执行上述步骤S00。其中，模数转换单元与拖尾检测单元1221连接，在包括拾音单元11的实施例中，拾音单元11通过模数转换单元与拖尾检测单元1221连接

本发明还提供了一种用于抑制音频信号拖尾的神经网络的训练方法，该训练方法训练后的优化神经网络可以作为上述各抑制方法和拖尾抑制系统中的神经网络。其中，训练方法中的初始神经网络的架构与上述各实施例中的神经网络的架构一样，即输入神经元的个数、隐藏层的个数、隐藏神经元的个数、输出神经元的个数以及隐藏神经元的激活函数、输出神经元的激活函数等一样，这里就不再赘述了。参考图3，训练方法包括步骤：

S100：获取时域上的拖尾音频信号，该拖尾音频信号包括当前拖尾信号帧和之前与其连续的多个拖尾信号帧；其中，拖尾信号帧均为数字信号；

S200：计算拖尾音频信号中各拖尾信号帧的能量特征和最大幅值特征；

S300：将多个能量特征和多个最大幅值特征输入初始神经网络，得到当前拖尾信号帧发生拖尾的拖尾概率；其中，初始神经网络的输出层包括一个输出神经元，为拖尾概率；

S400：计算拖尾概率和期望值的差值，具体可以根据公式(6)进行计算，根据差值判断初始神经网络是否收敛；若是，则执行S500；若否，则执行S600；

e＝Y-O； (6)

其中，e为差值，Y为期望值，O为输出神经元的值；

S500：将初始神经网络作为优化神经网络，执行S700；

S600：根据差值修正初始神经网络的参数；然后返回S100；

S700：输出优化神经网络，在实际使用时，可以直接使用该优化后的神经网络作为上述抑制音频信号拖尾的方法和系统中的神经网络，即可以直接输入到拖尾检测单元1221；

其中，步骤S100至少执行十次；初始神经网络的收敛指至少连续十次或者十次以上的差值位于预设区间内。也就是说，执行一次S100～S400算作训练了一次，在实际训练中，至少训练十次以上，可以是十一次、十五次、二十次、三十次、五十次、一百次、一百五十次、两百次、两百五十次、三百次、四百次、五百次、六百次等。

本发明还提供了一种用于抑制音频信号拖尾的神经网络的训练系统121，可以用于执行上述训练方法，该训练系统121包括训练单元1211，用于获取时域上的当前拖尾信号帧和之前与其连续的多个拖尾信号帧，形成拖尾音频信号；其中，拖尾信号帧均为数字信号；然后计算拖尾音频信号中各拖尾信号帧的能量特征和最大幅值特征；并将多个能量特征和多个最大幅值特征输入初始神经网络，得到当前拖尾信号帧发生拖尾的拖尾概率；之后计算拖尾概率和期望值的差值，根据该差值判断初始神经网络是否收敛(具体收敛的判断方法参考上述训练方法中的描述，这里就不再赘述)；若是，则将初始神经网络作为优化神经网络；若否，则根据差值修正初始神经网络的参数，再重新获取拖尾音频信号进行下一次训练；训练单元1211还用于输出优化神经网络。

上述训练方法和训练系统，采用不同的拖尾音频信号对初始神经网络进行多次训练，进而得到优化神经网络，由于该优化神经网络是经过拖尾音频信号训练的，因此，若使用该优化神经网络对音频信号的拖尾进行抑制，更具有针对性，且抑制效果更好。这个过程可以在初期进行，如出厂前，这样，当设备出厂时其内部的优化神经网络已经是训练好的神经网络了，因此可以直接用这个优化神经网络进行音频信号的处理了。

其中，上述期望值为预设值，可以根据需要设置希望得到的理想值，在本发明的实施例中，由于初始神经网络的输出代表的是拖尾概率，即当前拖尾信号帧发生拖尾的可能性，而输入时选用的输入值均为拖尾信号帧，因此，期望值可以为0.98、0.99、1等，为了提高对初始神经网络训练的准确性，优选地，设置期望值为1，即希望输入拖尾音平信号后，初始神经网络输出的拖尾概率为1；预设区间可以选为-0.01～0.01，因此，上述步骤S400中对初始神经网络的收敛判断，实际上是判断初始神经网络是否连续十次以上的训练输出值趋于平稳，具体可以直接判断至少连续的十个或者十个以上的差值是否均位于预设区间内。

上述各拖尾音频信号中的拖尾信号帧形成拖尾数据库，该拖尾数据库中的各拖尾信号帧可以来自于同一个扬声装置，也可以来自于不同的扬声装置。当来自于同一个扬声装置时，将上述训练方法得到的优化神经网络应用于电子设备时，该电子设备采用上述抑制音频信号拖尾的方法处理音频信号时，优选该扬声装置为训练方法中拖尾信号帧的来源，从而使优化神经网络对该扬声装置具有更好地针对性，提高优化神经网络对来自于该扬声装置的音频信号处理准确性。当各训练信号帧来自于不同的扬声装置时，得到的优化神经网络具有更好地适应性，在上述抑制方法应用于上述电子设备时，可以选择不同的扬声装置，从而提高优化神经网络的通用性。但不论各训练信号帧为上述哪种来源，其均为拖尾信号帧。

可以理解地，对于拖尾音频数据库的获取，可以使用厂家购买扬声装置时配套的拖尾数据的检测软件得到，具体可以直接使用该检测软件对扬声装置的输出信号进行检测，如果是拖尾数据，则存入拖尾音频数据库中。

在实际使用时，训练单元1211具有拖尾存储区，拖尾存储区的大小为N个拖尾信号帧所需的空间大小。当在同一电子设备或者芯片(下文描述)执行上述训练方法和抑制音频信号拖尾的方法时，优选地，拖尾存储区与音频存储区共用同一空间，这种方式，拖尾存储区只有在训练的时候才使用，而在实际使用中，只需要音频存储区，因此，二者互不干涉，且能节省系统空间，提高系统的利用率。

有时候由于各种原因，虽然初始神经网络经过很次训练了，但仍然无法达到对初始神经网络的收敛要求，若一直进行无限次的训练，则增加系统的运算量，增加生产成本，为此，训练步骤中进一步增加对训练次数的判断，具体地，步骤S100还包括：设置训练次数加1；

步骤S600具体包括：

S610：判断训练次数是否达到预设迭代次数，若是，则执行S500；若否，则执行S620：

S620：根据差值修正初始神经网络的参数；然后返回S100；

其中，训练次数的初始值为0。

相应地，上述训练系统中，训练单元1211还用于设置训练次数加1，以及当初始神经网络不收敛时，继续判断训练次数是否达到预设迭代次数，若是，则将初始神经网络作为优化神经网络；若否，则根据差值修正初始神经网络的参数，然后重新获取拖尾音频信号进行下一次训练。

本实施例的训练方法，在一个拖尾音频信号对初始神经网络训练后，先判断当前的初始神经网络是否收敛，如果不收敛，不直接进行参数的更新，而是判断包括本次在内总共对初始神经网络训练的次数是否已经达到了迭代次数，如果达到迭代次数，则不需要对各参数进行更新，认为当前的初始神经网络可以作为优选神经网络了；如果没有达到迭代次数才进行各参数的更新，然后再进行下一次的训练。显然，这种方式能够减少训练的次数，提高对初始神经网络训练的效率。

进一步地，如果上述迭代次数太多，则影响对初始神经网络的训练效率；若迭代次数太少，则影响对初始神经网络的训练效果，进而影响后续对音频信号处理的效果。本发明的一种优选实施例中，上述迭代次数优选为200～500，如200、300、350、400、450、500等，以既能够提高初始神经网络的训练效率，又能够保证对初始神经网络的训练效果。当然，上述迭代次数也可以大于500或者小于200，如选为50、100、150、550等。

在上述步骤S600(或者S620)中，更新的初始神经网络的参数包括神经网络的各连接权值和阈值，可以按照下述公式进行修正。在隐藏层仅有一个的实施例中，可以分别按照下述公式(7)～(10)计算：

其中，

为隐藏层的第j个隐藏神经元的阈值；w_j为隐藏层的第j个隐藏神经元与输出神经元的连接权值；w_ij为输入层的第i个输入神经元与隐藏层的第j个隐藏神经元的连接权值，x_i为第i个输入神经元；w_f为隐藏层的第f个隐藏神经元与输出神经元的连接权值；

为隐藏神经元的第f个隐藏神经元的输出；λ为预设的学习速率；公式中的其他参数可以参照公式(1)～(3)中的定义。

在隐藏层设有多层的实施例中，可以分别按照下述公式(11)～(18)计算：

其中，

为最后一个隐藏层的第f个隐藏神经元返回的误差；w_f为隐藏层的第f个隐藏神经元与输出神经元的连接权值；

为隐藏神经元的第f个隐藏神经元的输出；

为第m-1个层隐藏层的第j个隐藏神经元与第m个层隐藏层的第f个隐藏神经元的连接权值；

为第m个隐藏层的第f个隐藏神经元的返回误差；

为第m-1层的第f个神经元的返回误差；

为隐藏层的第j个隐藏神经元的阈值；

为输入层的第i个输入神经元与第一个隐藏层的第j个隐藏神经元的连接权值，x_i为第i个输入神经元；

为第一个隐藏层的第j个隐藏神经元的返回误差；λ为预设的学习速率；公式中的其他参数可以参照公式(1)～(3)中的定义。

学习效率λ具体可以根据迭代次数进行设置，考虑到学习效率越小，迭代次数会要求就越大，而迭代次数越大则可能导致初始神经网络无法收敛。为了解决该问题，本发明的一种优选实施例中，设置上述预设的学习效率λ为0.01～0.1，如0.01、0.04、0.08、0.01等。

如抑制方法中提到的一样，各拖尾信号帧可能选用的采集频率不同，每一个拖尾信号帧中的样本数是不同的。在上述抑制方法使用各音频信号帧中各样本的能量均值作为能量特征的实施例中，该训练方法中的能量特征也使用拖尾信号帧的能量均值，即上述步骤S200中拖尾信号帧的能量特征具体为：拖尾信号帧中各样本的能量均值。在上述抑制方法使用各音频信号帧中各样本的能量之和作为能量特征的实施例中，该训练方法中的能量特征也使用拖尾信号帧中各样本的能量之和作为拖尾信号帧的能量特征。训练方法中的最大幅值特征为该拖尾信号帧中幅值最大的样本的幅值。具体地，训练方法中的能量均值和最大幅值也可以使用上述公式(4)、(5)进行计算，只是此时的k表示第k个拖尾信号帧；s为第k个拖尾信号帧的样本个数；y_i为第k个拖尾信号帧中第i个样本的值，这里的样本值也为样本的幅值。

同理，训练方法中的拖尾信号帧和抑制方法中音频信号帧的分帧采用相同的窗口，即二者每一信号帧的长度相等，因此，拖尾信号帧也可以每5～25ms为一帧，优选地，每10ms或者20ms为一帧，如拖尾信号帧和音频信号帧均选10ms为一帧。相应地，拖尾信号帧的个数N也与抑制方法中音频信号帧的个数相等，优选地，N大于等于8且小于等于12，如8帧、10帧、11帧、12帧，更优选地，N为10，具体地这里就不再一一列举了，可参考前述抑制方法中的描述。

本发明还提供了一种音频处理芯片12，记为第一芯片，如图1所示，该音频处理芯片包括相互连接的训练系统121和拖尾抑制系统122，训练系统121能够执行上述训练方法，并将优化神经网络输出给拖尾抑制系统122；拖尾抑制系统122能够执行上述的抑制音频信号拖尾的方法；其中，训练系统121与拖尾抑制系统122连接。

具体地，音频处理芯片12具有第一输入端口、第二输入端口和输出端口，音频处理芯片12通过第一输入端口获取拖尾信号帧，通过第二输入端口获取音频信号帧，通过输出端口输出目标音频信号帧。

一种实施例中，上述训练系统包括训练单元1211；拖尾抑制系统122包括拖尾检测单元1221和拖尾处理单元1222。此时，第一输入端口与训练单元1211连接，第二输入端口与拖尾检测单元1221连接，输出端口与拖尾检测单元1221和拖尾处理单元1222均连接。

上述训练系统、拖尾抑制系统以及音频处理芯片能够对音频信号中的拖尾数据进行抑制，因此其能够提高用户的体验，对于其具体地分析可参考上文处理方法中的分析，这里就不再赘述了。

当上述各实施例中的处理方法应用于电子设备时，可以将上述音频处理芯片12(即第一芯片)安装于电子设备内，也就是说，本发明的拾音装置10还包括音频处理芯片12，拾音单元11通过音频处理芯片12与音频放大模块21连接。具体地，拾音单元11与第二输入端口连接，以将拾音单元11采集的音频信号发送给音频处理芯片11(在包括模数转换单元时，拾音单元11通过模数转换单元与第二输入端口连接)；输出端口与音频放大模块21连接，在包括有拖尾检测单元122与拖尾处理单元123时，这两个单元均通过输出端口与音频放大模块21连接，以用于将目标音频信号帧发送给扬声装置20，将目标音频信号帧通过扬声装置20输出。音频处理芯片12的第一输入端口可以供厂家在电子设备出厂前对内部的初始神经网络进行训练。需要说明的是，在包括有扬声装置的实施例中，拖尾抑制系统122不包括音频放大模块21和音频输出模块22。

本发明的电子设备在出厂前，厂家可以先通过第一输入端口使用拖尾信号帧对初始神经网络进行训练，得到优化神经网络。在电子设备工作时，拾音单元11采集音频信号帧，然后发送给音频处理芯片12，该音频处理芯片12能够判断拾音单元11采集的当前音频信号帧发生拖尾的可能性，并且在发生拖尾可能性(即拖尾概率)较大时对该当前音频信号帧进行处理，以抑制其拖尾数据，使拾音装置10输出的目标音频信号帧基本不含有拖尾数据，然后，目标音频信号帧经音频放大模块21放大后由音频输出模块22输出。

本发明还提供了另一种音频处理芯片，该音频处理芯片仅用于执行上述训练方法或者抑制音频信号拖尾的方法，也就是说该处理芯片仅包括训练系统121或者拖尾抑制系统122，用于执行上述训练方法的音频处理芯片可以记为第二芯片，用于执行抑制音频信号拖尾的方法的音频处理芯片可以记为第三芯片。

需要说明的是，电子设备也可以仅设置有第三芯片，在电子设备出厂前，只需要将训练好的优化神经网络植入该第三芯片或者电子设备的其他部件上即可。

此外，本发明还提供了一种计算机可读存储介质，如光盘、U盘、硬盘、闪存盘等，或者是其他各种类型的存储介质，其上存储有计算机程序，该计算机程序被执行时实现如上所述的抑制音频信号拖尾的方法，和/或上述所述的训练方法。其中，该计算机程序被执行时可以以demo可视对话框呈现，也可以直接为可执行的exe文件。

本领域的技术人员能够理解的是，在不冲突的前提下，上述各优选方案可以自由地组合、叠加。

应当理解，上述的实施方式仅是示例性的，而非限制性的，在不偏离本发明的基本原理的情况下，本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换，都将包含于本发明的权利要求范围内。

Claims

1.一种抑制音频信号拖尾的方法，其特征在于，包括步骤：

S50：计算当前音频信号帧的抑制拖尾程度

然后使用所述抑制拖尾程度与所述当前音频信号帧相乘，作为目标音频信号帧，然后执行S70；其中，

为所述拖尾概率；

S70：输出所述目标音频信号帧。

2.根据权利要求1所述的方法，其特征在于，所述步骤S10中，所述声音信号包括N个音频信号帧，所述N大于等于8且小于等于12；

3.根据权利要求1所述的方法，其特征在于，所述步骤S20中，所述音频信号帧的能量特征为：所述音频信号帧中各样本的能量均值。

4.根据权利要求1所述的方法，其特征在于，所述步骤S40中的拖尾阈值为0.6~0.9。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述步骤S10之前还包括：

6.根据权利要求1-4任一项所述的方法，其特征在于，所述步骤S70之后还包括步骤：

S90：输出所述输出信号。

7.一种用于抑制音频信号拖尾的神经网络的训练方法，其特征在于，包括步骤：

S500：将所述初始神经网络作为优化神经网络，执行S700；

S700：输出所述优化神经网络；

8.根据权利要求7所述的训练方法，其特征在于，所述步骤S200中，所述拖尾信号帧的能量特征具体为：

所述拖尾信号帧中各样本的能量均值。

9.根据权利要求7所述的训练方法，其特征在于，所述拖尾音频信号包括N个拖尾信号帧，所述N大于等于8且小于等于12；

10.根据权利要求7-9任一项所述的训练方法，其特征在于，所述步骤S100还包括：设置训练次数加1；

所述步骤S600具体包括：

其中，所述训练次数的初始值为0；所述预设迭代次数为200~500。

11.一种抑制音频信号拖尾的拖尾抑制系统，其特征在于，包括：

拖尾处理单元，用于计算当前音频信号帧的抑制拖尾程度

然后使用所述抑制拖尾程度与所述当前音频信号帧相乘，作为目标音频信号帧，然后输出所述目标音频信号帧；其中，

为所述拖尾概率；

其中，所述拖尾检测单元与所述拖尾处理单元连接。

12.根据权利要求11所述的拖尾抑制系统，其特征在于，所述拖尾检测单元具有音频存储区，所述音频存储区的大小为N个所述音频信号帧所需的空间大小，以用于存储所述声音信号，所述N大于等于8且小于等于12；

13.根据权利要求11所述的拖尾抑制系统，其特征在于，所述音频信号帧的能量特征为：所述音频信号帧中各样本的能量均值。

14.根据权利要求11所述的拖尾抑制系统，其特征在于，所述拖尾阈值为0.6~0.9。

15.根据权利要求11所述的拖尾抑制系统，其特征在于，还包括：

音频输出模块，用于输出所述输出信号。

16.根据权利要求11-15任一项所述的拖尾抑制系统，其特征在于，还包括：

17.一种用于抑制音频信号拖尾的神经网络的训练系统，其特征在于，包括训练单元，用于获取时域上的当前拖尾信号帧和之前与其连续的多个拖尾信号帧，形成拖尾音频信号；其中，所述拖尾信号帧均为数字信号；然后计算所述拖尾音频信号中各所述拖尾信号帧的能量特征和最大幅值特征；并将多个所述能量特征和多个所述最大幅值特征输入初始神经网络，得到所述当前拖尾信号帧发生拖尾的拖尾概率；之后计算所述拖尾概率和期望值的差值，根据所述差值判断所述初始神经网络是否收敛；若是，则将所述初始神经网络作为优化神经网络；若否，则根据所述差值修正所述初始神经网络的参数，返回重新获取拖尾音频信号；并用于输出所述优化神经网络；

18.根据权利要求17所述的训练系统，其特征在于，所述拖尾信号帧的能量特征具体为：所述拖尾信号帧中各样本的能量均值。

19.根据权利要求17所述的训练系统，其特征在于，所述训练单元具有拖尾存储区，所述拖尾存储区的大小为N个所述拖尾信号帧所需的空间大小，以用于存储N个拖尾信号帧，所述N大于等于8且小于等于12；

20.根据权利要求17-19任一项所述的训练系统，其特征在于，所述训练单元还用于设置训练次数加1；并当所述初始神经网络不收敛时，继续判断所述训练次数是否达到预设迭代次数，若是，则将所述初始神经网络作为所述优化神经网络；若否，则根据所述差值修正所述初始神经网络的参数，然后返回重新获取拖尾音频信号；其中，所述训练次数的初始值为0；所述预设迭代次数为200~500。

21.一种音频处理芯片，其特征在于，包括相互连接的训练系统和拖尾抑制系统，

所述训练系统能够执行权利要求7-10任一项所述的训练方法，并将所述优化神经网络输出给所述拖尾抑制系统；

所述拖尾抑制系统能够执行权利要求1-5任一项所述的抑制音频信号拖尾的方法；

其中，所述训练系统与所述拖尾抑制系统连接。

22.一种电子设备，其特征在于，包括拾音装置和扬声装置，

所述拾音装置包括拾音单元和与之相连的权利要求21所述的音频处理芯片，所述拾音单元与所述训练系统、所述拖尾抑制系统均连接；

23.根据权利要求22所述的电子设备，其特征在于，所述电子设备包括K歌设备、会议设备、移动终端、交互设备中的至少一种。

24.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现如权利要求1-6任一项所述的抑制音频信号拖尾的方法，和/或权利要求7-10任一项所述的训练方法。

25.一种音频处理芯片，其特征在于，包括训练系统或拖尾抑制系统，所述训练系统能够执行权利要求7-10任一项所述的训练方法；所述拖尾抑制系统能够执行权利要求1-6任一项所述的抑制音频信号拖尾的方法。