CN114513723A

CN114513723A - 啸叫声抑制方法、装置、耳机及存储介质

Info

Publication number: CN114513723A
Application number: CN202210166826.XA
Authority: CN
Inventors: 周岭松
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-05-17

Abstract

本公开是关于一种啸叫声抑制方法、装置、耳机及存储介质，其中，啸叫声抑制方法包括：获取环境音频信号；根据预设的第一滤波器组对环境音频信号进行滤波，得到第一音频信号；控制扬声器播放所述第一音频信号；获取耳道音频信号；根据耳道音频信号以及预设的神经网络模型，确定预测音频信号；如果预测音频信号被检测到存在啸叫事件，则根据预设的第二滤波器组对后续获取的环境音频信号进行滤波，得到第二音频信号。该方法中，在啸叫发生前，可提前启动第二滤波器组，以更好地实现对啸叫声的规避，实现无啸叫的通透模式，提升使用体验。

Description

啸叫声抑制方法、装置、耳机及存储介质

技术领域

本公开涉及耳机技术领域，尤其涉及一种啸叫声抑制方法、装置、耳机及存储介质。

背景技术

在音频信息领域，对声音信号进行采集和输出的耳机多种多样。其中也包括应用在通透模式的耳机。通透模式指耳机采集环境音，对环境音滤波后输出，叠加泄露进人耳的声音，使人耳接收完整环境音。

当用户戴着耳机与其他人进行对话时，可以切换到通透模式，等同于摘下耳机的效果，实现与对方的清晰对话。随着具有通透模式的耳机的迅速普及，使得用户使用耳机的频次和使用时长都在上升。环境音的通透传输也在朝着越来越准确和自然的听感方向研究。

发明内容

为克服相关技术中存在的问题，本公开提供一种啸叫声抑制方法、装置、耳机及存储介质。

根据本公开实施例的第一方面，提供一种啸叫声抑制方法，应用于耳机，所述耳机包括扬声器、前馈麦克风和反馈麦克风，所述方法包括：

获取环境音频信号，其中，所述环境音频信号为所述前馈麦克风所采集的耳机周围环境中的声音信号；

根据预设的第一滤波器组对所述环境音频信号进行滤波，得到第一音频信号；

控制所述扬声器播放所述第一音频信号；

获取耳道音频信号，所述耳道音频信号为所述第一音频信号被所述扬声器播放并在耳道内传播时被所述反馈麦克风所采集到的声音信号；

根据所述耳道音频信号以及预设的神经网络模型，确定预测音频信号；

如果所述预测音频信号被检测到存在啸叫事件，则根据预设的第二滤波器组对后续获取的环境音频信号进行滤波，得到第二音频信号。

可选地，所述方法还包括：

所述第二滤波器组的系数对应的第一频响曲线的幅值均小于相应的所述第一滤波器组的系数对应的第二频响曲线的幅值。

可选地，所述耳道音频信号包括截止至当前帧的m帧的音频信号，所述预测音频信号包括n帧的音频信号，其中，m和n分别为大于或等于1的整数。

可选地，每一帧音频信号包括i个子音频信号，其中，i为大于或等于1的整数，

所述根据所述耳道音频信号以及预设的神经网络模型，确定预测音频信号，包括：

根据所述耳道音频信号以及预设的神经网络模型，确定所述预测音频信号中的i个子音频信号，以确定所述预测音频信号；

其中，在确定所述预测音频信号的第u个子音频信号时：

从所述耳道音频信号中，去除前u-1个子音频信号，得到第一输入信号，u为大于或等于1且小于或等于i的整数；

将所述预测音频信号的前u-1个子音频信号，确定为第二输入信号；

根据所述第一输入信号和所述第二输入信号，确定输入音频信号；

将所述输入音频信号输入所述神经网络模型，确定所述预测音频信号的第u个子音频信号。

可选地，所述神经网络模型通过以下方式得到：

构建多个训练样本对，每个所述训练样本对包括m*i+1个子音频信号样本，其中，前m*i个子音频信号样本构成所述训练样本对的输入样本，最后1个子音频信号样本构成所述训练样本对的输出样本；

根据所述多个训练样本对原始网络模型进行训练，确定所述神经网络模型。

可选地，每个子音频信号包括至少一个音频采样点。

根据本公开实施例的第二方面，提供一种啸叫声抑制装置，应用于耳机，所述耳机包括扬声器、前馈麦克风和反馈麦克风，所述装置包括：

获取模块，用于获取环境音频信号，其中，所述环境音频信号为所述前馈麦克风所采集的耳机周围环境中的声音信号；

确定模块，用于根据预设的第一滤波器组对所述环境音频信号进行滤波，得到第一音频信号；

控制模块，用于控制所述扬声器播放所述第一音频信号；

所述获取模块，还用于获取耳道音频信号，所述耳道音频信号为所述第一音频信号被所述扬声器播放并在耳道内传播时被所述反馈麦克风所采集到的声音信号；

所述确定模块，还用于根据所述耳道音频信号以及预设的神经网络模型，确定预测音频信号；

还用于如果所述预测音频信号被检测到存在啸叫事件，则根据预设的第二滤波器组对后续获取的环境音频信号进行滤波，得到第二音频信号。

可选地，

所述确定模块，还用于：

其中，在确定所述预测音频信号的第u个子音频信号时：

可选地，所述神经网络模型通过以下方式得到：

可选地，每个子音频信号包括至少一个音频采样点。

根据本公开实施例的第三方面，提供一种耳机，所述耳机包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如第一方面所述的方法。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由耳机的处理器执行时，使得耳机能够执行如第一方面所述的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：该方法中，可基于耳道音频信号确定后续的预测音频信号，在确定预测音频信号存在啸叫事件后，便可对后续的环境音频信号进行滤波处理，以抑制后续环境音频信号中的啸叫声。该方法中，在啸叫发生前便可启动第二滤波器组，以更好地实现对啸叫声的规避，实现无啸叫的通透模式，提升使用体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的啸叫声抑制方法的流程图。

图1a是根据一示例性实施例示出的原始频响曲线和原始处理频响曲线的示意图。

图1b是根据一示例性实施例示出的差异频响曲线的示意图。

图1c是根据一示例性实施例示出的差异频响曲线、第一频响曲线和第二频响曲线的示意图。

图2是根据一示例性实施例示出的啸叫声抑制装置的框图。

图3是根据一示例性实施例示出的耳机的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

对于具有通透模式的耳机的设计，一般在实验室中对耳机进行测量，设计出通透模式下的滤波器系数。但在实际生产中，因为MIC误差及结构腔体的组装差异，同样的滤波器参数，通透模式效果往往会具有一定的差异，会导致滤波器系数不适配，从而通透模式开启后产生啸叫。其中，MIC是Microphone缩写而来的词语，指麦克风。麦克风学名为传声器，是一件简单的用来拾取和传送声音的装置，可以将声音信号转换为电信号，俗称话筒。

相关技术中，一般先对反馈麦克风采集的耳道音频信号进行啸叫检测。若发现存在啸叫事件，则进行增益调整，然后将调整后的音频信号再次进行啸叫检测，若发现存在啸叫事件，则再次调整增益，输出调整后的音频信号。该方法中，在采集到的耳道音频信号中已经存在啸叫事件时，才能检测到啸叫事件，然后才能进行处理，但此时啸叫音已经产生并对用户造成了糟糕体验，导致用户体验较差。

本公开提供了一种啸叫声抑制方法，应用于耳机。该方法中，可基于耳道音频信号确定后续的预测音频信号，在确定预测音频信号存在啸叫事件后，便可对后续的环境音频信号进行滤波处理，以抑制后续环境音频信号中的啸叫声。该方法中，在啸叫发生前便可启动第二滤波器组，以更好地实现对啸叫声的规避，实现无啸叫的通透模式，提升使用体验。

在一个示例性实施例中，提供了一种啸叫声抑制方法，应用于耳机，耳机包括扬声器、前馈麦克风和反馈麦克风。参考图1所示，该方法包括：

S110、获取环境音频信号；

S120、根据预设的第一滤波器组对环境音频信号进行滤波，得到第一音频信号；

S130、控制扬声器播放所述第一音频信号；

S140、获取耳道音频信号；

S150、根据耳道音频信号以及预设的神经网络模型，确定预测音频信号；

S160、如果预测音频信号被检测到存在啸叫事件，则根据预设的第二滤波器组对后续获取的环境音频信号进行滤波，得到第二音频信号。

在步骤S110中，环境音频信号为前馈麦克风所采集的耳机周围环境中的声音信号。

其中，用户可通过相应的功能按键来开启耳机的通透模式，也可以通过语音控制的方式开启通透模式，在此不做限制。在耳机处于通透模式下，前馈麦克风采集到耳机周围环境中的声音信号后，可将其传输至耳机的处理器，以使得处理器获取环境音频信号。

在步骤S120中，第一滤波器组用于对环境音频信号进行滤波处理，以更好地实现耳机的通透体验。第一滤波器组对环境音频信号进行滤波处理后，便可得到第一音频信号，然后将第一音频信号传输至处理器，以使得处理器得到第一音频信号。

在步骤S130中，耳机的处理器得到第一音频信号后，便可将其传输至耳机的扬声器，扬声器便可播放第一音频信号，以使得用户得到通透体验。

在步骤S140中，耳道音频信号为第一音频信号被扬声器播放并在耳道内传播时被反馈麦克风所采集到的声音信号。

其中，扬声器播放第一音频信号后，第一音频信号便可在耳道内传播，耳机的反馈麦克风便可采集耳道内传播的声音信号，反馈麦克风便可得到耳道音频信号。反馈麦克风采集到耳道音频信号后，可将其传输至耳机的处理器，使得处理器得到耳道音频信号。

在步骤S150中，神经网络模型可预设于耳机，其可以是耳机出厂前设置的，也可以是耳机出厂后设置的，并且，神经网络模型设置完成后，后续可对其进行修改，以更好地满足用户的不同需求，进一步提升用户的使用体验。

其中，可将耳道音频信号输入神经网络模型，神经网络模型便可输出预测音频信号。当然，也可通过其他方式确定预测音频信号，对此不作限定。

在一些实施方式中，耳机的处理器预设有神经网络模型。在处理器中，可将反馈麦克风采集到的耳道音频信号作为神经网络模型的输入音频信号，然后将输入音频信号输入至神经网络模型，神经网络模型对输入音频信号进行处理后，便可输出预测音频信号，从而使得处理器确定后续的预测音频信号。

在步骤S160中，啸叫，本质上是一种回授音，其主要是由于声源与扩音设备之间因距离过近等问题导致能量发生自激而产生，例如，话筒与音箱同时使用、音响装置重放的声音能够通过空间传到话筒以及音箱发出的声音能量足够大，话筒的拾音灵敏度足够高，等等。啸叫的危害较大，不仅使得使用者的体验变差，更为严重的是容易损坏耳机，损伤使用者的听力。

其中，可通过频域峰值检测和能量检测等方法，判断预测音频信号是否存在啸叫。

在一些实施例中，若确定预测音频信号的全频带峰值点所在的预设局部频带范围内的局部峰谷差值满足第一条件，且确定预测音频信号的幅值变化情况满足第二条件，则确定预测音频信号存在啸叫。

其中，全频带峰值点为：在全频带范围内幅值最大的频点；局部峰谷差值为：预设局部频带范围内，预测音频信号中幅值最大的频点与幅值最小的频点之间的幅值差。

其中，全频带范围可为0-24kHz；预设局部频带范围可根据实际情况进行设定。在一些实施例中，预设局部频带范围可为：±1000Hz。

其中，可通过获取预测音频信号的频域特征和时域特征，根据预测音频信号的频域特征，确定预测音频信号的全频带峰值点所在的预设局部频带范围内的局部峰谷差值是否满足第一条件；在预测音频信号的全频带峰值点所在的预设局部频带范围内的局部峰谷差值满足第一条件的情况下，进一步根据预测音频信号的时域特征，确定预测音频信号的幅值变化情况是否满足第二条件，若预测音频信号满足第二条件，则确定预测音频信号存在啸叫。

其中，第一条件可包括：

局部峰谷差值大于第一阈值；

在本公开实施例中，通过对比局部峰谷差值和第一阈值，若局部峰谷差值大于第一阈值，则确定预测音频信号的全频带峰值点所在的预设局部频带范围内的局部峰谷差值满足第一条件。

其中，第一阈值的取值范围可为：25dB-35dB；在一些实施例中，第一阈值可为30dB。

需要说明的是，啸叫的频谱图中存在单一的、且固定不定的啸叫频率点对应的幅值远大于音频信号中其他频率点的幅值；故若预测音频信号的全频带峰值点所在的预设局部频带范围内的局部峰谷差值大于第一阈值，确定满足第一条件。

其中，第二条件，可包括：

预测音频信号的幅值的变化趋势为幅值在逐渐增大。

在本公开实施例中，可根据预测音频信号的时域特征，确定预测音频信号的幅值变化趋势，若预测音频信号的幅值变化趋势为幅值在逐渐增大(即呈增长趋势)，则确定预测音频信号的幅值变化情况满足第二条件。

在实际应用中，可通过以下方式确定预测音频信号的幅值的变化趋势是否为幅值在逐渐增大：计算每帧数据的幅值能量，统计多帧数据的幅值能量数据；根据多帧数据的幅值能量数据进行线性回归计算，根据线性回归结果确定斜率是否大于0；若斜率大于0，则表示预测音频信号的幅值的变化趋势为幅值在逐渐增大；反之，则表示预测音频信号的幅值的变化趋势为幅值在逐渐减小。

其中，第二条件，也可包括：

预测音频信号在预设时间范围内的幅值的变化趋势为幅值在逐渐增大。

其中，预设时间范围可根据实际需求进行设定。

需要说明的是，啸叫的时域波形是一个频率较为恒定的正弦波，其幅值会随着时间的增加而迅速增大，直至超出了功放放大区，进入饱和区和截止区时，产生削波现象。故所述啸叫的幅值在一定时间范围内呈增长趋势。

其中，也可利用声学事件检测的方法来确定是否存在啸叫，即，将啸叫当作一种声学事件，记为啸叫事件，然后使用声学事件检测的方法来判断是否存在啸叫事件，如果判断为存在啸叫事件，则说明播放预测音频信号对应的待播放音频信号时会发生啸叫；如果判断为不存在啸叫事件，则说明播放预测音频信号对应的待播放音频信号时不会发生啸叫。示例地，可基于深度学习模型的方式，利用卷积神经网络来判断预测音频信号是否存在啸叫事件。

当然，也可通过方式确定预测音频信号是否存在啸叫事件，对此不作限定。

其中，耳机中设置了两组滤波器组，分别记为第二滤波器组和第一滤波器组。第二滤波器组与第一滤波器组的系数(即滤波器组系数)不同，从而实现不同的滤波处理。第一滤波器组和第二滤波器组中的滤波器的数量均可以是6个。第一滤波器组和第二滤波器组均包括6个级联的滤波器。第二滤波器和第一滤波器均包含增益值。每个第一滤波器的增益值均小于对应的第二滤波器的增益值，可使得第二滤波器组在对环境音频信号进行滤波时，不仅可滤除环境音频信号中与绕过耳机泄露进人耳的环境音对应的音频信号外，还可滤波第一音频信号中引起耳机啸叫的干扰信号，从而抑制耳机产生啸叫。

其中，第一滤波器组的系数可记为第一滤波系数，第二滤波器组的系数可记为第二滤波系数。

第二滤波系数对应的频响曲线可记为第二频响曲线。环境音频信号经第二滤波器组的滤波处理后，得到第一音频信号，第一音频信号的频响曲线可记为第一处理频响曲线。原始频响曲线与第一处理频响曲线的差异即为第二频响曲线。

第一滤波系数对应的频响曲线可记为第一频响曲线，环境音频信号的频响曲线可记为原始频响曲线。环境音频信号经第一滤波器组的滤波处理后，得到第二音频信号，第二音频信号的频响曲线可记为第二处理频响曲线。原始频响曲线与第二处理频响曲线的差异即为第一频响曲线。

其中，在任意频率上，第二频响曲线的幅值均小于第一频响曲线的幅值。该耳机中，第一滤波器组仅仅可对环境音频信号进行通透滤波处理，以实现通透模式的功能。第二滤波器组可对环境音频信号进行通透滤波处理和啸叫滤波处理，不仅仅能够实现通透模式的功能，还可有效抑制啸叫的发生，进一步提升用户的使用体验。

示例地，第一频响曲线和第二频响曲线可通过以下方式确定。

参考图1a至图1c所示，每款耳机在开卖前，需要先拿样机在消音室进行声学特性测量。通过人工头可以采集空耳时的原始音频信号，从而得到原始频响曲线(参考图1a所示的曲线A)。为人工头佩戴耳机，从而采集戴上耳机被动降噪后的处理音频信号，该处理音频信号的频响曲线记为原始处理频响曲线(参考图1a所示的曲线B)。通过对比曲线A和曲线B，得到差异频响曲线(参考图1b和1c所示的曲线C)。曲线C表征曲线A与曲线B的差异。

该示例中，可使用6个级联的二阶IIR滤波器来逼近曲线C(通常关注的频率范围时1kHz～6kHz)。示例步骤为：首先每个IIR滤波器都有一个随机初始化值(初始滤波器系数)，然后随机更新频率、增益值、Q值，从而更新滤波器系数，再计算更新后的滤波器系数对应的曲线D(例如参考图1c所示)，比较曲线D与曲线C的差异，如果曲线D与曲线C的差异比上一次的差异小，则以当前滤波器系数为基准，继续更新频率、增益值、Q值。按此类推，进行多次迭代，直至曲线D与曲线C的差异稳定下来，从而确定稳定后的曲线D为第一频响曲线，该6个级联的二阶IIR滤波器构成第一滤波器组。

依据曲线D，设计出平均幅值递减的滤波器组，记为第二滤波器组。其中，第二滤波器组的第二滤波系数与第一滤波系数不同，使得在任意频率上，第二滤波系数对应的第二频响曲线(参考图1c所示的曲线E)的幅值均小于第一频响曲线的幅值。需要注意的是，一般情况下，第二滤波器组的增益值小于第一滤波器组的增益值。

在一些实施例中，每个第一滤波器的增益值均为对应的第二滤波器的增益值的1/3。1/3是本申请经过多次实验后的经验值。

在本申请中，第一滤波器组和第二滤波器组中的滤波器的数量变动时，各滤波器对应的增益值、频率值以及Q值可进行灵活调整。

在一些实施例中，每个所述第一滤波器的频率值均等于对应的所述第二滤波器的频率值，且每个所述第一滤波器的Q值均等于对应的所述第二滤波器的Q值。

需要说明的是，Q值表示品质因数。Q值＝中心频率÷滤波器带宽。Q值越大，滤波器带宽越窄，越小则滤波器带宽越宽。

该实施例中，第一滤波器组中各滤波器的滤波带宽与第二滤波器组中分别对应的滤波器的滤波带宽基本相同。例如，第一滤波器组中第六滤波器的带宽与第二滤波器组中第六滤波器的带宽相同，第一滤波器组中第五滤波器的带宽与第二滤波器组中第五滤波器的带宽相同等等，从而使得第一滤波器组和第二滤波器组对相同中心频率的音频信号具有相同的滤波带宽，从而有利于对同一带宽的环境音频信号的处理。

其中，在耳机出场前，将第一滤波系数和第二滤波系数烧录进耳机存储部件中，也可以通过后续升级将滤波系数更新至耳机。其中，存储部件可以是只读存储器(Read-OnlyMemory，ROM)或者快闪存储器(英语：flash memory)。当耳机的处理器需要使用第一滤波系数或第二滤波系数时，可直接从存储部件中提取。

该步骤中，由于预存音频信号被检测到存在啸叫事件，则说明后续的环境音频信号存在啸叫，便可控制第二滤波器组对后续的音频信号进行滤波处理，既能保证通透模式的通透效果，又可抑制待播放音频信号中的啸叫声。

其中，后续指的是得到存在啸叫事件这一检测结果的时间点之后。

例如，第一滤波器组对第一环境音频信号进行滤波，得到第一音频信号。扬声器播放第一音频信号时，反馈麦克风采集耳道内的声音信号，得到耳道音频信号。根据耳道音频信号确定预测音频信号，若确定预测音频信号被检测到存在啸叫事件，则使用第二滤波器组对第一环境音频信号之后的其他环境音频信号进行滤波处理。

在一些实施方式中，耳道音频信号包括截止至当前帧的m帧的音频信号，预测音频信号包括n帧的音频信号，其中，m和n分别为大于或等于1的整数。

其中，反馈麦克风可逐帧采集耳道中的声音信号，以确定得到每一帧的音频信号，其中，可将截止至当前帧的m帧的音频信号，确定为耳道音频信号。耳机可基于m帧的音频信号，确定当前帧之后的n帧的音频信号，并将所确定的n帧音频信号确定为预测音频信号。

其中，如果预测音频信号被检测到存在啸叫事件，则可控制第二滤波器组对后续n帧的环境音频信号进行滤波，得到第二音频信号，然后控制扬声器播放第二音频信号，以实现确保用户的通透体验，并可避免啸叫。

其中，n可小于或等于m。可以理解的，m越大，n越小，则说明耳道音频信号包括的子音频信号越多，预测音频信号包括的子音频信号越少，基于神经网络模型的特性，预测结果则越准确。

需要说明的是，如果预测音频信号被检测到不存在啸叫事件，则说明后续不会出现啸叫，便可继续控制第一滤波器组对后续的环境音频信号进行滤波处理，以确保通透模式的通透效果。

该方法中，该方法中，可基于耳道音频信号确定后续的预测音频信号，在确定预测音频信号存在啸叫事件后，便可对后续的环境音频信号进行滤波处理，以抑制后续环境音频信号中的啸叫声。该方法中，在啸叫发生前便可启动第二滤波器组，以更好地实现对啸叫声的规避，实现无啸叫的通透模式，提升使用体验

在一个示例性实施例中，提供了一种啸叫声抑制方法，应用于耳机，耳机包括扬声器、前馈麦克风和反馈麦克风。该方法中，每一帧音频信号包括i个子音频信号，其中，i为大于或等于1的整数。也就是，每一帧耳道音频信号包括i个子音频信号，每一帧预测音频信号也包括i个子音频信号，每一帧环境音频信号也包括i个子音频信号。

需要说明的是，反馈麦克风采集耳道音频信号时，每一帧的音频信号中包括的采样点数可记为h，h为大于或等于1的整数。也就是，每一帧的音频信号可采集到h个音频采样点，也即，h与反馈麦克风的采样频率有关，例如，h可以是48。其中，每个子音频信号可包括至少一个音频采样点。每一帧音频信号中，i个子音频信号可包括h个音频采样点。

该方法中，根据耳道音频信号以及预设的神经网络模型，确定预测音频信号，可包括：

S210、根据耳道音频信号以及预设的神经网络模型，确定预测音频信号中的i个子音频信号，以确定预测音频信号。

其中，可以逐个确定i个子音频信号，也可直接确定全部i个子音频信号。

在一些实施方式中，耳道音频信号可包括4帧的音频信号，每帧音频信号可包括48个子音频信号，每个子音频信号包括一个音频采样点。该实施方式中，可直接将截止至当前帧的4*48个子音频信号输入神经网络模型，神经网络模型便可输出48个预测的子音频信号，这48个预测的子音频信号便可构成预测音频信号。

该方法中，每帧音频信号可包括h个音频采样点，并将h个音频采样点分成i个子音频信号，然后基于m*i个子音频信号，预测下一帧的i个子音频信号，以得到预测音频信号，可以提升预测精度，进一步提升用户的使用体验。

在一个示例性实施例中，提供了一种啸叫声抑制方法，应用于耳机，耳机包括扬声器、前馈麦克风和反馈麦克风。其中，在确定预测音频信号的第u个子音频信号时，该方法可包括：

S310、从耳道音频信号中，去除前u-1个子音频信号，得到第一输入信号，u为大于或等于1且小于或等于i的整数；

S320、将预测音频信号的前u-1个子音频信号，确定为第二输入信号；

S330、根据第一输入信号和第二输入信号，确定输入音频信号；

S340、将输入音频信号输入神经网络模型，确定预测音频信号的第u个子音频信号。

其中，耳道音频信号中子音频信号的顺序可根据反馈麦克风的采样顺序确定。

在确定预测音频信号的第u个子音频信号时，可将耳道音频信号中的m*i个子音频信号中的前u-1个子音频信号去除，由剩余的子音频信号构成第一输入信号。并将预测音频信号中已确定的前u-1个子音频信号，确定为第二输入信号。然后由第一输入信号和第二输入信号按顺序构成输入音频信号。最后，将输入音频信号输入神经网络模型，神经网络模型便可输出预测音频信号的第u个子音频信号。

需要说明的是，在确定预测音频信号中的第1个子音频信号时，可从耳道音频信号中，去除前0个子音频信号，得到第一输入信号，并可将预测音频信号的前0个子音频信号，确定为第二输入信号。然后，可将第一输入信号和第二输入信号，确定为输入音频信号。也就是，在确定预测音频信号的第1个子音频信号时，可直接将耳道音频信号作为输入音频信号。

在一些实施方式中，m可以是4，i和h分别为48，即耳道音频信号包括4帧音频信号，每帧音频信号包括48个子音频信号，每个子音频信号包括1个音频采样点。该实施方式中，耳机处于通透模式下，反馈麦克风可以每帧采集48次的频率采集耳道中每一帧的音频信号，也就是，每一帧音频信号均采集得到48个音频采样点。反馈麦克风可将采集到的音频采样点传输至耳机的处理器。

在选择用于处理下一帧的环境音频信号的滤波器组时，处理器可将当前帧以及当前帧之前的3帧的音频信号确定为耳道音频信号，然后将其确定为输入音频信号，此输入音频信号可记为第一输入音频信号。也就是，将截止至当前帧的连续4*48个子音频信号确定为第一输入音频信号。

处理器可将上述第一输入音频信号输入神经网络模型，神经网络模型便可输出1个预测的子音频信号，处理器便可确定下一帧预测音频信号的第1个子音频信号。

在确定预测音频信号的第1个子音频信号后，处理器可将第一输入音频信号中的第1个子音频信号去除，得到第一输入信号，然后将预测音频信号中的第1个子音频信号确定为第二输入信号，并将第二输入信号添加至第一输入信号后侧中，形成新的输入音频信号，此输入音频信号可记为第二输入音频信号。此第二输入音频信号包括耳道音频信号中的后(4*48-1)个子音频信号以及预测音频信号中的第1前个子音频信号。

然后，处理器可将第二输入音频信号输入神经网络模型，神经网络模型便可输出1个预测的子音频信号，该子音频信号可确定为预测音频信号中的下一个子音频信号，也就是，该子音频信号可确定为预测音频信号中的第2个子音频信号。

在确定预测音频信号的第2个子音频信号后，处理器可将第二输入音频信号中的第1个子音频信号去除，得到第一输入信号，然后将上述第2个预测的子音频信号确定为第二输入信号，并将第二输入信号添加至第一输入信号之后中，形成新的输入音频信号，此输入音频信号可记为第三输入音频信号。此第三输入音频信号包括耳道音频信号中的后(4*48-2)个子音频信号以及预测音频信号中前2个子音频信号。

然后，处理器可将第三输入音频信号输入神经网络模型，神经网络模型便可输出1个预测的子音频信号，该子音频信号可确定为预测音频信号中的下一个子音频信号，也就是，该子音频信号可确定为预测音频信号中的第3个子音频信号。

依次类推，直至确定预测音频信号中的第i个子音频信号。至此，便可确定预测音频信号中的i个子音频信号，也就得到了整个预测音频信号。

该方法中，在确定预测音频信号时，基于以确定的预测音频信号的子音频信号确定预测音频信号中下一个子音频信号，以更好地确保预测音频信号的可靠性，提升本方法的可靠性。

在一个示例性实施例中，提供了一种啸叫声抑制方法，应用于耳机，耳机包括扬声器、前馈麦克风和反馈麦克风。该方法中，神经网络模型可通过以下方式得到：

S410、构建多个训练样本对，每个训练样本对包括m*i+1个子音频信号样本，其中，前m*i个子音频信号样本构成训练样本对的输入样本，最后1个子音频信号样本构成训练样本对的输出样本；

S420、根据多个训练样本对原始网络模型进行训练，确定神经网络模型。

在步骤S410中，该步骤中的子音频信号样本与步骤S310中的子音频信号的类型相同。即，若子音频信号包括的音频采样点的数量，与子音频信号样本中包括的音频采样点样本的数量相同。

示例地，可通过反馈麦克风以每帧采集h个音频采样点的采样频率采集耳道中的音频信号，然后将采集到的每帧音频信号分成i个子音频信号，作为一个子音频信号样本。根据采集到的连续的m+1帧音频信号样本确定一个训练样本对。其中，将前m*i个子音频信号确定为输入样本，并将最后1个子音频信号样本确定为输出样本。

需要注意的是，该步骤中，可通过实验的方式采集子音频信号样本，也可从网络上下载子音频信号样本，对此不作限定。

在步骤S420中，原始网络模型可包括LSTM(Long short-term memory)网络模型。

该步骤中，可使用多个训练样本对对LSTM(Long short-term memory)网络模型进行训练，以得到神经网络模型。

该方法可以得到优秀的神经网络模型，通过该神经网络模型，可以更加准确地基于连续的m*i个子音频信号，确定下一个的子音频信号，从而可以根据连续的m帧音频信号，更加准确地确定下一帧音频信号，以提升该方法的可靠性，更好地规避啸叫，提升用户的使用体验。

在一个示例性实施例中，提供了一种啸叫声抑制装置，应用于耳机，耳机包括扬声器、前馈麦克风和反馈麦克风。该装置用于实施上述的方法，示例地，参考图2所示，该装置可包括获取模块101、确定模块102和控制模块103。该装置在实施上述方法的过程中，

获取模块101，用于获取环境音频信号，其中，环境音频信号为前馈麦克风所采集的耳机周围环境中的声音信号；

确定模块102，用于根据预设的第一滤波器组对环境音频信号进行滤波，得到第一音频信号；

控制模块103，用于控制扬声器播放所述第一音频信号；

获取模块101，还用于获取耳道音频信号，耳道音频信号为第一音频信号被扬声器播放并在耳道内传播时被反馈麦克风所采集到的声音信号；

确定模块102，还用于根据耳道音频信号以及预设的神经网络模型，确定预测音频信号；

还用于如果预测音频信号被检测到存在啸叫事件，则根据预设的第二滤波器组对后续获取的环境音频信号进行滤波，得到第二音频信号。

在一个示例性实施例中，提供了一种啸叫声抑制装置，应用于耳机，耳机包括扬声器、前馈麦克风和反馈麦克风。该装置中，第二滤波器组的系数对应的第一频响曲线的幅值均小于相应的第一滤波器组的系数对应的第二频响曲线的幅值。

在一个示例性实施例中，提供了一种啸叫声抑制装置，应用于耳机，耳机包括扬声器、前馈麦克风和反馈麦克风。该装置中，耳道音频信号包括截止至当前帧的m帧的音频信号，预测音频信号包括n帧的音频信号，其中，m和n分别为大于或等于1的整数。

在一个示例性实施例中，提供了一种啸叫声抑制装置，应用于耳机，耳机包括扬声器、前馈麦克风和反馈麦克风。该装置中，每一帧音频信号包括i个子音频信号，其中，i为大于或等于1的整数，

参考图2所示，确定模块102，还用于：

根据耳道音频信号以及预设的神经网络模型，确定预测音频信号中的i个子音频信号，以确定预测音频信号；

其中，在确定预测音频信号的第u个子音频信号时：

从耳道音频信号中，去除前u-1个子音频信号，得到第一输入信号，u为大于或等于1且小于或等于i的整数；

将预测音频信号的前u-1个子音频信号，确定为第二输入信号；

根据第一输入信号和第二输入信号，确定输入音频信号；

将输入音频信号输入神经网络模型，确定预测音频信号的第u个子音频信号。

在一个示例性实施例中，提供了一种啸叫声抑制装置，应用于耳机，耳机包括扬声器、前馈麦克风和反馈麦克风。该装置中，神经网络模型通过以下方式得到：

构建多个训练样本对，每个训练样本对包括m*i+1个子音频信号样本，其中，前m*i个子音频信号样本构成训练样本对的输入样本，最后1个子音频信号样本构成训练样本对的输出样本；

根据多个训练样本对原始网络模型进行训练，确定神经网络模型。

在一个示例性实施例中，提供了一种啸叫声抑制装置，应用于耳机，耳机包括扬声器、前馈麦克风和反馈麦克风。该装置中，每个子音频信号包括至少一个音频采样点。

在一个示例性实施例中，提供了一种耳机，耳机包括扬声器、前馈麦克风和反馈麦克风。该耳机可包括第二滤波器组和第一滤波器组。该耳机可以是无线耳机，也可以是有线耳机，对此不作限定。

参考图3所示，耳机400还可以包括以下一个或多个组件：处理组件402，存储器404，电力组件406，多媒体组件408，音频信号组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制耳机400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在耳机400的操作。这些数据的示例包括用于在耳机400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储耳机或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件406为耳机400的各种组件提供电力。电力组件406可以包括电源管理系统，一个或多个电源，及其他与为耳机400生成、管理和分配电力相关联的组件。

多媒体组件408包括在耳机400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置相机模组和/或后置相机模组。当耳机400处于操作模式，如拍摄模式或视频模式时，前置相机模组和/或后置相机模组可以接收外部的多媒体数据。每个前置相机模组和后置相机模组可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频信号组件410被配置为输出和/或输入音频信号信号。例如，音频信号组件410包括一个麦克风(MIC)，当耳机400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号信号。所接收的音频信号信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频信号组件410还包括一个扬声器，用于输出音频信号信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为耳机400提供各个方面的状态评估。例如，传感器组件414可以检测到耳机400的打开/关闭状态，组件的相对定位，例如组件为耳机400的显示器和小键盘，传感器组件414还可以检测耳机400或耳机400一个组件的位置改变，用户与耳机400接触的存在或不存在，耳机400方位或加速/减速和耳机400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于耳机400和其他耳机之间有线或无线方式的通信。耳机700可以接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，耳机400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理耳机(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的方法。

在一个示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由耳机400的处理器420执行以完成上述方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储耳机等。当存储介质中的指令由耳机的处理器执行时，使得耳机能够执行上述实施例中示出的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求指出。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种啸叫声抑制方法，应用于耳机，所述耳机包括扬声器、前馈麦克风和反馈麦克风，其特征在于，所述方法包括：

控制所述扬声器播放所述第一音频信号；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述耳道音频信号包括截止至当前帧的m帧的音频信号，所述预测音频信号包括n帧的音频信号，其中，m和n分别为大于或等于1的整数。

4.根据权利要求3所述的方法，其特征在于，每一帧音频信号包括i个子音频信号，其中，i为大于或等于1的整数，

其中，在确定所述预测音频信号的第u个子音频信号时：

5.根据权利要求4所述的方法，其特征在于，所述神经网络模型通过以下方式得到：

6.根据权利要求4所述的方法，其特征在于，每个子音频信号包括至少一个音频采样点。

7.一种啸叫声抑制装置，应用于耳机，所述耳机包括扬声器、前馈麦克风和反馈麦克风，其特征在于，所述装置包括：

控制模块，用于控制所述扬声器播放所述第一音频信号；

8.根据权利要求7所述的装置，其特征在于，

9.根据权利要求7或8所述的装置，其特征在于，所述耳道音频信号包括截止至当前帧的m帧的音频信号，所述预测音频信号包括n帧的音频信号，其中，m和n分别为大于或等于1的整数。

10.根据权利要求9所述的装置，其特征在于，每一帧音频信号包括i个子音频信号，其中，i为大于或等于1的整数，

所述确定模块，还用于：

其中，在确定所述预测音频信号的第u个子音频信号时：

11.根据权利要求10所述的装置，其特征在于，所述神经网络模型通过以下方式得到：

12.根据权利要求10所述的装置，其特征在于，每个子音频信号包括至少一个音频采样点。

13.一种耳机，其特征在于，所述耳机包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如权利要求1-6任一项所述的方法。

14.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由耳机的处理器执行时，使得耳机能够执行如权利要求1-6任一项所述的方法。