CN114095817A

CN114095817A - 耳机的降噪方法、装置、耳机及存储介质

Info

Publication number: CN114095817A
Application number: CN202111122403.XA
Authority: CN
Inventors: 段爽; 张锐
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2022-02-25
Anticipated expiration: 2041-09-24
Also published as: CN114095817B

Abstract

本公开涉及一种耳机的降噪方法、装置、耳机及存储介质。耳机的降噪方法包括：获取音频信号，所述音频信号为耳机周围的环境声音；确定预设时间段内所述音频信号的目标特征，所述目标特征包括短时能量、过零率、子带平稳性和谱质心中的至少一种；根据预设时间段内所述音频信号的目标特征，得到所述音频信号的降噪等级；根据所述降噪等级，选择与所述降噪等级对应的降噪策略对所述耳机进行降噪。通过本公开，可实时确定耳机的降噪等级，降低耳机功耗提升耳机的续航能力，提升用户体验。

Description

耳机的降噪方法、装置、耳机及存储介质

技术领域

本公开涉及声音信号处理领域，尤其涉及一种耳机的降噪方法、装置、耳机及存储介质。

背景技术

近些年，随着科学技术的发展以及人们对于生活品质的要求逐步提升，使得原本用于航空领域的专业级降噪耳机，逐渐从小众工业级产品变成大众消费品。尤其是应用场景的逐渐适配、功能的不断强化与完善，例如拥有着主动降噪功能的真正的无线立体声TWS耳机已经成为了部分人的生活必需品，它能够让佩戴者沉浸专注在自己的学习、工作或游戏等环境中而免受外界的干扰。

目前市面上主流的主动降噪TWS耳机都提供了三档(深度、均衡和轻度)不同程度的降噪等级。然而要准确得到与当前环境匹配的降噪等级，往往需要更精准的信号采集器件(如麦克风、陀螺仪等)，同时还需要例如 SVM、DNN等复杂的算法支撑，但是这些复杂的算法需要拥有更高算力的芯片支持，这些无疑都会使得耳机的生产制造成本上升。

发明内容

为克服相关技术中存在的问题，本公开提供一种耳机的降噪方法、装置、耳机及存储介质。

根据本公开实施例的第一方面，提供一种耳机的降噪方法，包括：

获取音频信号，所述音频信号为耳机周围的环境声音；

确定预设时间段内所述音频信号的目标特征，所述目标特征包括短时能量、过零率、子带平稳性和谱质心中的至少一种；

根据预设时间段内所述音频信号的目标特征，得到所述音频信号的降噪等级；

根据所述降噪等级，选择与所述降噪等级对应的降噪策略对所述耳机进行降噪。

可选地，所述确定预设时间段内所述音频信号的目标特征，包括：

对所述预设时间段内的所述音频信号进行分帧处理，得到多帧音频信号；

确定每一帧所述音频信号的目标特征；

根据每一帧所述音频信号的目标特征计算得到均值，将所述均值确定为预设时间段内所述音频信号的目标特征。

可选地，每一帧所述音频信号包括多个音频信号采样时刻，所述确定每一帧所述音频信号的目标特征，包括：

将每一帧所述音频信号作为目标帧音频信号，获取所述目标帧音频信号中包括的每个所述音频信号采样时刻的音频信号值；

根据每个所述音频信号采样时刻的音频信号值，计算得到所述目标帧音频信号的目标特征值；

将所述目标帧音频信号的目标特征值确定为所述目标帧音频信号的目标特征。

可选地，所述根据预设时间段内所述音频信号的目标特征，得到所述音频信号的降噪等级，包括：

将所述目标特征输入预设的降噪判别模型进行分析，确定所述目标特征的降噪等级；其中，所述降噪判别模型为使用音频样本集通过机器学习训练得到，所述音频样本集包括多个音频样本，每个音频样本包括：音频特征样本和与所述音频特征样本对应的等级标签，所述等级标签包括类别参数和概率参数，所述概率参数用于表述所述音频特征样本属于所述类别参数的概率。

可选地，所述根据所述降噪等级，选择与所述降噪等级对应的降噪策略对所述耳机进行降噪，包括：

将所述降噪等级的概率值与对应降噪等级的置信度阈值进行比较，

确定所述降噪等级的概率值大于或者等于对应降噪等级的置信度阈值时，选择与所述降噪等级对应的降噪策略对所述耳机进行降噪。

根据本公开实施例的第二方面，提供一种耳机的降噪装置，包括：

获取模块，用于获取音频信号，所述音频信号为耳机周围的环境声音；

确定模块，用于确定预设时间段内所述音频信号的目标特征，所述目标特征包括短时能量、过零率、子带平稳性和谱质心中的至少一种；

处理模块，用于根据预设时间段内所述音频信号的目标特征，得到所述音频信号的降噪等级，并

可选地，所述确定模块采用如下方式确定预设时间段内所述音频信号的目标特征：

确定每一帧所述音频信号的目标特征；

可选地，每一帧所述音频信号包括多个音频信号采样时刻，所述确定模块采用如下方式确定每一帧所述音频信号的目标特征：

可选地，所述处理模块采用如下方式根据预设时间段内所述音频信号的目标特征，得到所述音频信号的降噪等级：

可选地，所述处理模块采用如下方式根据所述降噪等级，选择与所述降噪等级对应的降噪策略对所述耳机进行降噪：

根据本公开实施例的第三方面，提供一种耳机，包括：前馈麦克风和控制器；

所述前馈麦克风用于采集所述耳机周围的环境声音，得到音频信号；

所述控制器包括处理器和存储器；

所述存储器上存储有可执行的计算机程序指令；

所述处理器调用所述计算机程序指令，执行第一方面中任一项所述方法的步骤。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所提供的耳机的降噪方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：在获得音频信号之后，通过提取音频信号中恰当的目标特征(包括短时能量、过零率、子带平稳性和谱质心中的至少一种)，使得根据目标特征对音频的降噪等级进行预测时，可大幅度降低对目标特征的计算量，进而能够根据耳机的前馈麦克风实时采集的环境声音，实时确定耳机的降噪等级。并且由于对目标特征的计算量的大幅降低，使得能够显著降低耳机功耗，提升耳机的续航能力，提升用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种耳机的降噪方法的流程图。

图2是根据一示例性实施例示出的一种耳机的降噪装置的框图。

图3是根据一示例性实施例示出的一种用于耳机的降噪的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种耳机的降噪方法的流程图，如图1所示，耳机的降噪方法，包括以下步骤。

在步骤S11中，获取音频信号。

其中，音频信号为耳机周围的环境声音。

在步骤S12中，确定预设时间段内音频信号的目标特征，目标特征包括短时能量、过零率、子带平稳性和谱质心中的至少一种。

其中，短时能量反应的是一帧信号中所包含的能量大小。过零率反应每帧内信号通过零值的次数，其值越大表示信号变化的越快，反之则表示信号变化的越慢。子带平稳性反应通过一帧信号的特定频率子带的方差值来衡量该帧信号在该频带下的稳定性。谱质心反应音频信号其物理意义是频率成分的重心，表示的是在一定频带范围内通过能量加权平均的频率，单位是Hz。

实例地，目标特征包括短时能量、过零率、子带平稳性和谱质心四种目标特征。

一种实施方式中，例如可通过如下方式确定预设时间段内音频信号的目标特征：

对预设时间段内的音频信号进行预处理，即对预设时间段内的音频信号进行分帧处理，得到多帧音频信号，其中，每一帧音频信号包括多个音频信号采样时刻。并且为了平滑音频信号，第一时间段音频信号和相邻的第二时间段音频信号之间的可以是具有部分重叠的音频信号。

例如，每一帧的长度可以是32ms(包括512个采样点)，为了平滑相邻帧之间的音频信号，下一帧与当前帧的重叠长度为16ms即下一帧与当前帧重叠256个采样点。

确定每一帧音频信号的目标特征，根据每一帧音频信号的目标特征计算得到均值，将均值确定为预设时间段内音频信号的目标特征。

针对目标特征包括短时能量，可通过如下方算式(1)确定每一帧音频信号的短时能量e：

其中，x(m)表示的是一帧音频信号在m采样时刻的值，w(m)表示的是窗函数，例如窗函数是可以是汉宁窗。

针对目标特征包括过零率，可通过如下方算式(2)确定每一帧音频信号的过零率z：

其中，x(m)表示的是一帧音频信号在m采样时刻的值，T表示的是一帧音频信号序列的长(包括的采样点的数量)，c{}表示的是一种计算规则，该计算规则为：当括号内的内容为真时，c{}＝1；否则c{}＝0。

针对目标特征包括子带平稳性，可通过如下方算式(3)确定每一帧音频信号的子带平稳性t：

其中，x⁽ⁱ⁾表示的是第i帧音频信号，F[]表示的是对括号内的序列进行傅里叶变换，其中low表示的是频率子带的下限频率，high表示的是频率子带的上限频率，D[]表示的是对括号内的序列进行求方差操作。本公开中，例如low＝60HZ，high＝300HZ。

针对目标特征包括谱质心，可通过如下方算式(4)确定每一帧音频信号的谱质心s：

其中，f表示的是信号频率，E表示的是时域信号进行傅里叶变换后的对应频率能量。这里的n表示某一帧音频信号经过傅里叶变换后的第n个频点，N表示的是频点的总数。

在得到每一帧音频信号的目标特征(短时能量e、过零率z、子带平稳性t和谱质心s)之后，可将每一帧音频信号的目标特征短时能量e、过零率z、子带平稳性t和谱质心s分别进行平均值计算，将计算得到的均值确定为预设时间段内音频信号的目标特征。

例如，f_i＝[e_i，z_i，t_i，s_i]^T表示的是由第i帧音频信号的四个目标特征，初始化f＝[0，0，0,0]^T，N表示的是设定的帧数，例如可以设定N＝30，T表示的是一帧音频信号的长。对每个目标特征进行均值计算后得到特征向量 f＝[e,z,t,s]^T，之后将f＝[e,z,t,s]^T作为目标特征，输入到训练好的判别模型中，输出预测概率。

在步骤S13中，根据预设时间段内音频信号的目标特征，得到音频信号的降噪等级。

其中，根据降噪等级由高到低的顺序，降噪等级可以包括深度降噪、均衡降噪和轻度降噪。

一种实施方式中，可将目标特征输入降噪判别模型，通过降噪判别模型对目标特征进行降噪等级分析，输出降噪等级以及降噪等级的概率值。其中，其中，所述降噪判别模型为使用音频样本集通过机器学习训练得到，所述音频样本集包括多个音频样本，每个音频样本包括：音频特征样本和与所述音频特征样本对应的等级标签，所述等级标签包括类别参数和概率参数，所述概率参数用于表述所述音频特征样本属于所述类别参数的概率。

本公开中，降噪判别模型可以是采用softmax regression架构训练得到的降噪判别模型。

由于softmax regression架构比较简单，基于softmax regression架构得到的降噪判别模型，可以是只有前两层包含训练参数的网络架构，最后一层的输出是预测的概率，即将网络的输出结果归一化到[0,1]区间内。 Softmax的表达式如下方算式(5)所示：

式中，Z_i表示的是网络最后一层中第i个神经元的输出，P_i表示的是Z_i经过Softmax函数转换后的概率值。K表示的是最后一层神经元的数量，实际代表的是输出的类别(深度降噪、均衡降噪和轻度降噪)数量。

该降噪判别模型所采用的损失函数为交叉熵函数，其表达式如下方算式(6)所示：

式中J表示计算得到的损失值，y_i表示的是样本的标签，如果是类别i，则y_i＝1，否则y_i＝0；p_i表示的是将一个样本预测成第i类的概率。如果样本的标签是是深度降噪，则在模型的训练过程中采用了拟牛顿法即利用损失函数的二阶导数矩阵(海森矩阵)来迭代优化损失函数，使其损失值不断降低，直至收敛。

由此，由于本公开中的降噪判别模型可以是结构简单的模型，计算量小，因此减小了模型过拟合的风险，同时也提升了模型的泛化能力。

在步骤S14中，根据降噪等级，选择与降噪等级对应的降噪策略对耳机进行降噪。

为了提升降噪等级确定的鲁棒性与抗干扰能力，本公开给每一个降噪等级设置了一个置信区间。即将降噪等级的概率值与对应降噪等级的置信度阈值进行比较，确定降噪等级的概率值大于或者等于对应降噪等级的置信度阈值时，选择与降噪等级对应的降噪策略对耳机进行降噪。

例如，当判别模型输出预测的降噪等级为“深度降噪”时，与“深度降噪”等级对应的降噪策略为深度降噪策略，此时需要判断深度降噪的概率是否大于置信度阈值0.8，若深度降噪的概率大于0.8，则选择与“深度降噪”等级对应的降噪策略即深度降噪策略对耳机进行降噪。即发出“深度降噪”的指令，通过耳机帧的降噪模块根据该“深度降噪”的指令对耳机进行降噪。若深度降噪的概率小于0.8，则不对当前降噪等级进行切换变化。

相应地，针对预测结果为“轻度”或者“均衡”场景时，设置的置信度阈值为0.6，若输出的降噪等级为轻度降噪，且降噪等级大于0.6，则选择与“轻度降噪”等级对应的轻度降噪策略对耳机进行降噪。即发出“轻度降噪”的指令，通过耳机帧的降噪模块根据该“轻度降噪”的指令对耳机进行降噪。若轻度降噪的概率小于0.6，则不对当前降噪等级进行切换变化。

在本公开的示例性实施例中，在获得音频信号之后，通过提取音频信号中恰当的目标特征(包括短时能量、过零率、子带平稳性和谱质心中的至少一种)，使得根据目标特征对音频的降噪等级进行预测时，可大幅度降低对目标特征的计算量，进而能够根据耳机的前馈麦克风实时采集的环境声音，实时确定耳机的降噪等级。并且由于对目标特征的计算量的大幅降低，使得能够显著降低耳机功耗，提升耳机的续航能力，提升用户体验。

图2是根据一示例性实施例示出的一种耳机的降噪装置框图200。参照图2，该装置包括获取模块201、确定模块202和处理模块203。

其中，获取模块201，用于获取音频信号，所述音频信号为耳机周围的环境声音；

确定模块202，用于确定预设时间段内所述音频信号的目标特征，所述目标特征包括短时能量、过零率、子带平稳性和谱质心中的至少一种；

处理模块203，用于根据预设时间段内所述音频信号的目标特征，得到所述音频信号的降噪等级，并

可选地，所述确定模块202采用如下方式确定预设时间段内所述音频信号的目标特征：

确定每一帧所述音频信号的目标特征；

可选地，每一帧所述音频信号包括多个音频信号采样时刻，所述确定模块202采用如下方式确定每一帧所述音频信号的目标特征：

可选地，所述处理模块203采用如下方式根据预设时间段内所述音频信号的目标特征，得到所述音频信号的降噪等级：

可选地，所述处理模块203采用如下方式根据所述降噪等级，选择与所述降噪等级对应的降噪策略对所述耳机进行降噪：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开提供的耳机的降噪方法的步骤。

图3是根据一示例性实施例示出的一种用于耳机的降噪的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/ O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的耳机的降噪方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件 802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各类别型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器 (ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板 (TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810 包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到装置800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA) 技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路 (ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述耳机的降噪方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820 执行以完成上述耳机的降噪方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的耳机的降噪方法的代码部分。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种耳机的降噪方法，其特征在于，包括：

获取音频信号，所述音频信号为耳机周围的环境声音；

2.根据权利要求1所述的方法，其特征在于，所述确定预设时间段内所述音频信号的目标特征，包括：

确定每一帧所述音频信号的目标特征；

3.根据权利要求2所述的方法，其特征在于，每一帧所述音频信号包括多个音频信号采样时刻，所述确定每一帧所述音频信号的目标特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据预设时间段内所述音频信号的目标特征，得到所述音频信号的降噪等级，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述降噪等级，选择与所述降噪等级对应的降噪策略对所述耳机进行降噪，包括：

将所述降噪等级的概率值与对应降噪等级的置信度阈值进行比较；

6.一种耳机的降噪装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述确定模块采用如下方式确定预设时间段内所述音频信号的目标特征：

确定每一帧所述音频信号的目标特征；

8.根据权利要求7所述的装置，其特征在于，每一帧所述音频信号包括多个音频信号采样时刻，所述确定模块采用如下方式确定每一帧所述音频信号的目标特征：

9.一种耳机，其特征在于，包括：前馈麦克风和控制器；

所述控制器包括处理器和存储器；

所述存储器上存储有可执行的计算机程序指令；

所述处理器调用所述计算机程序指令，执行权利要求1～5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1～5中任一项所述方法的步骤。