CN115550791A

CN115550791A - 音频处理方法、装置、耳机及存储介质

Info

Publication number: CN115550791A
Application number: CN202211350214.2A
Authority: CN
Inventors: 周岭松
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2022-12-30

Abstract

本公开是关于一种音频处理方法、装置、耳机及存储介质。音频处理方法，应用于耳机，包括：获取第一声音信号，第一声音信号由耳机的扬声器播放；获取目标声音信号，其中，目标声音信号包括通过骨传导方式传输至耳道中的信号；目标声音信号中包含噪声信号时，在第一目标频段中，若第一声音信号的声能量参数小于或等于目标声音信号的声能量参数时，增大第一声音信号在第一目标频段的增益，经过增大增益后的第一声音信号的声能量参数大于目标声音信号的声能量参数，根据心理声学听觉掩蔽效应，增大增益后的第一声音信号会掩蔽目标声音信号，达到屏蔽噪声信号的效果，提升用户的听觉体验。

Description

音频处理方法、装置、耳机及存储介质

技术领域

本公开涉及音频信号处理技术领域，尤其涉及一种音频处理方法、装置、耳机及存储介质。

背景技术

用户佩戴入耳式耳机时，通过骨传导方式传导到耳朵内的声音，由于耳机的耳塞的阻挡无法扩散出去，导致声音在低频处有明显的声音增强效果，称为闭塞效应。当佩戴者在使用入耳式耳机听音乐或者看视频时，用户走路和地面的碰撞声，吃东西的咀嚼声以及佩戴者说话的震动声都会传到耳道内，经过闭塞效应增强后产生的杂音会影响用户的听音体验。

因此，如何降低由骨传导方式进入耳内的噪声是亟待解决的问题。

发明内容

为克服相关技术中存在的问题，本公开提供了一种音频处理方法、装置、耳机及存储介质。

根据本公开实施例的第一方面，提供了一种音频处理方法，应用于耳机，包括：

获取第一声音信号，所述第一声音信号由所述耳机的扬声器播放；

获取目标声音信号，其中，所述目标声音信号包括通过骨传导方式传输至耳道中的信号；

所述目标声音信号中包含噪声信号时，在第一目标频段中，若所述第一声音信号的声能量参数小于或等于所述目标声音信号的声能量参数时，增大所述第一声音信号在所述第一目标频段的增益，以使所述第一声音信号的声能量参数大于所述目标声音信号的声能量参数。

在一示例性实施例中，所述获取目标声音信号，包括：

获取第二声音信号，所述第二声音信号为佩戴者的耳道内除所述第一声音信号之外的声音信号；

获取第三声音信号，所述第三声音信号为所述佩戴者的耳道外环境中的声音信号；

所述第二声音信号和所述第三声音信号满足预设条件时，将所述第二声音信号作为所述目标声音信号。

在一示例性实施例中，所述第二声音信号和所述第三声音信号满足预设条件时，将所述第二声音信号作为所述目标声音信号，包括：

获得所述第二声音信号和所述第三声音信号在第二目标频段的声能量参数差值；

所述声能量参数差值大于或等于预设阈值时，将所述第二声音信号作为所述目标声音信号。

在一示例性实施例中，所述获取第二声音信号，包括：

获取第四声音信号，所述第四声音信号为所述佩戴者的耳道内的全部声音信号；

基于所述第一声音信号对所述第四声音信号进行滤波，获得所述第二声音信号。

在一示例性实施例中，还包括：

提取所述目标声音信号中的听觉频率特征；

基于预先存储的声音分类模型和所述听觉特征频率，对所述目标声音信号进行分类；其中，所述声音分类模型中的包含的声音类型包括骨传导语音信号和噪声信号。

在一示例性实施例中，还包括：

所述目标声音信号包含骨传导语音信号且未包含所述噪声信号时，继续播放所述第一声音信号。

在一示例性实施例中，还包括：

在所述第一目标频段中，若所述第一声音信号的声能量参数大于所述目标声音信号的声能量参数，保持所述第一声音信号在所述第一目标频段的增益不变。

根据本公开实施例的第二方面，提供了一种音频处理装置，应用于耳机，包括：

第一获取模块，被配置为获取第一声音信号，所述第一声音信号由所述耳机的扬声器播放；

第二获取模块，被配置为获取目标声音信号，其中，所述目标声音信号包括通过骨传导方式传输至耳道中的信号；

调节模块，被配置为所述目标声音信号中包含噪声信号时，在第一目标频段中，若所述第一声音信号的声能量参数小于或等于所述目标声音信号的声能量参数时，增大所述第一声音信号在所述第一目标频段的增益，以使所述第一声音信号的声能量参数大于所述目标声音信号的声能量参数。

在一示例性实施例中，所述第二获取模块还被配置为：

在一示例性实施例中，所述调节模块还被配置为：

提取所述目标声音信号中的听觉频率特征；

在一示例性实施例中，所述调节模块还被配置为：

根据本公开实施例的第三方面，提供了一种耳机，所述耳机包括壳体和设置于所述壳体上的前馈麦克风、反馈麦克风、扬声器以及控制器，所述控制器分别与所述前馈麦克风、所述反馈麦克风和所述扬声器通信连接；

所述前馈麦克风，用于采集佩戴者的耳道外的声音信号；

所述反馈麦克风，用于采集佩戴者的耳道内的声音信号；

所述扬声器用于播放第一声音信号；

所述控制器包括处理器和存储器，所述存储器存储有可被所述处理器执行的计算机程序指令，所述处理器被配置为调用所述计算机程序指令执行如本公开实施例的第一方面中所述的音频处理方法。

根据本公开实施例的第四方面，提供了一种非临时性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器调用时，执行如本公开实施例的第一方面中所述的音频处理方法。

采用本公开的上述方法，具有以下有益效果：本公开中在目标声音信号包含噪声信号时，当第一目标频段中的第一声音信号的声能量参数小于或等于目标声音信号的声能量参数时，通过增大第一声音信号在第一目标频段的增益，以使增大增益后的第一声音信号的声能量参数大于目标声音信号的声能量参数，利用心理声学听觉掩蔽效应，增大增益后的第一声音信号就会掩蔽目标声音信号，达到屏蔽噪声信号的效果，提升用户的听觉体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的音频处理方法的流程图；

图2是根据一示例性的实施例示出的耳机的结构示意图；

图3是根据一示例性实施例示出的音频处理方法的流程图；

图4是根据一示例性实施例示出的音频处理方法的流程图；

图5是根据一示例性实施例示出的音频处理方法的流程图；

图6是根据一示例性实施例示出的音频处理装置的框图；

图7是根据一示例性的实施例示出的一种耳机的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

相关技术中，为了降低由骨传导进入耳内的噪声，通常使用误差麦克风采集耳道内的声音信号，再使用反相滤波器处理获得反相噪声，通过扬声器播放反相噪声，反相噪声即可减弱或抵消闭塞效应引起的增强噪声。但是，在耳机内设置反相滤波器对耳机的硬件结构要求较高。另外，反相滤波器的设计与用户耳道的个体差异以及佩戴方式有关，固定模式的反相滤波器无法满足多个用户的不同使用场景，当反相滤波器的设计不符合用户使用场景时，则获得的反相噪声由于幅度或者相位不合理，导致不能抵消噪声的同时产生额外的噪声，严重影响用户体验。

为了克服相关技术中存在的问题，本公开提供了一种音频处理方法，分别获取第一声音信号以及目标声音信号，第一声音信号由耳机的扬声器播放，目标声音信号包括通过骨传导方式传输至耳道中的信号。当目标声音信号中包含噪声信号时，在第一目标频段中，如果第一声音信号的声能量参数小于或等于目标声音信号的声能量参数，增大第一声音信号在第一目标频段的增益，以使第一声音信号的声能量参数大于目标声音信号的声能量参数。本公开中采用心理声学听觉掩蔽效应，当目标声音信号中包含噪声信号时，通过增大第一声音信号的增益对噪声信号进行掩蔽，从而达到感知不到噪声的效果，提升用户的听觉体验。

本公开示例性的实施例中，提供了一种音频处理方法，应用于耳机，耳机包括入耳式蓝牙耳机、入耳式有线耳机等具有耳塞结构的入耳式耳机。图1是根据一示例性实施例示出的音频处理方法的流程图，如图1所示，音频处理方法包括以下步骤：

步骤S101，获取第一声音信号，第一声音信号由耳机的扬声器播放；

步骤S102，获取目标声音信号，其中，目标声音信号包括通过骨传导方式传输至耳道中的信号；

步骤S103，目标声音信号中包含噪声信号时，在第一目标频段中，若第一声音信号的声能量参数小于或等于目标声音信号的声能量参数时，增大第一声音信号在第一目标频段的增益，以使第一声音信号的声能量参数大于目标声音信号的声能量参数。

为了对本公开中的音频处理方法进行说明，首先对耳机的结构进行介绍。图2是根据一示例性的实施例示出的耳机的结构示意图，如图2所示，耳机的声学元器件主要包括前馈麦克风1、反馈麦克风2、扬声器3。前馈麦克风1置于佩戴者的耳廓外部，用于监测环境中的声音信号；反馈麦克风2置于佩戴者的耳道内侧，并处于扬声器附近，用于实时监测耳道内的声音信号；扬声器3与声音播放源连接，用于播放声音播放源中的声音信号。

本公开中的音频处理方法可以作为耳机的默认降噪模式，在用户佩戴耳机后自动触发，无需用户手动开启；也可以作为一种备选的降噪模式，在用户佩戴耳机后，在对应的耳机控制界面显示该降噪模式，需要用户手动开启，开启该模式后执行本公开中的音频处理方法。

在步骤S101中，当用户佩戴入耳式耳机时，如果与耳机相连接的电子设备播放音频信号，则播放源为电子设备中具有播放音频信号功能的应用程序，例如音乐软件或者视频软件等，播放源所播放的音频信号会通过耳机的扬声器播放至用户的耳道内并被用户听到。因此，通过耳机的扬声器获取与耳机连接的电子设备中播放的音频信号，即为获取当前正在播放的第一声音信号。获取第一声音信号时，通过耳机中的电信号采集模块获取基于当前正在播放的第一声音信号生成的扬声器时域信号，即在耳机扬声器播放第一声音信号时，采集该声音信号的电信号时域表示，第一声音信号的采样时长可以根据实际需求设定，再将采集到的第一声音信号的时域信号转换为频域信号，方便后续基于频域中的频段或者频率点对第一声音信号进行处理。

在步骤S102中，用户佩戴入耳式耳机时，用户运动、吃东西或者说话，与其他物体的碰撞声、肌肉骨骼之间的碰撞声、咀嚼声或者说话声音都会骨骼传导至耳道内，这种声音传导方式称为骨传导方式。如果想要对骨传导方式产生的噪声信号进行处理，需要获取包括通过骨传导方式传输至耳道中的声音信号，并将其作为目标声音信号，为了方便与第一声音信号进行划分，目标声音信号中不包括第一声音信号。获取目标声音信号时，基于与第一声音信号相同的采样时长，获取目标声音信号的时域信号，再将时域信号转换为频域信号。目标声音信号的获取，可以通过获取耳道内全部的声音信号，再基于第一声音信号进行滤波去除第一声音信号，也可以在采样时长内暂时关闭耳机的扬声器，获取耳道内的声音信号。

在步骤S103中，由于目标声音信号中包括用户与其他物体的碰撞声、肌肉骨骼之间的碰撞声、咀嚼声或者说话声音等声音信号，当耳道内同时存在目标声音信号和第一声音信号时，如果用户没有在说话，则用户期望只听到第一声音信号，不期望听到碰撞声、咀嚼声等其他声音信号，而如果用户在说话，即当目标声音信号中包括用户说话声音时，除了第一声音信号，用户也会期望听到自己的说话声音，同样不期望听到碰撞声、咀嚼声等其他声音信号。因此，目标声音信号中除了用户的说话声音外，即除了佩戴者的语音信号外，碰撞声、咀嚼声等其他由骨传导方式传输至耳道内的声音信号均视为噪声信号。在一些可能的实施例中，如果用户不希望耳机在播放第一声音信号时，在耳机中听到自身说话的声音，则可以将用户自己说话的声音同碰撞声、咀嚼声等一并归为噪声信号。

当目标声音信号中只有佩戴者的语音信号时，由于语音信号是用户期望听到的声音，因此不会对收听第一声音信号造成影响，此时无需调整第一声音信号，继续播放第一声音信号，播放时以当前状态播放即可，当前状态为步骤S101中获取到第一声音信号时的状态。当目标声音信号中包含噪声信号时，由于噪声信号不是用户期望听到的声音，因此在第一目标频段中，比较第一声音信号的声能量参数和目标声音信号的声能量参数，如果第一声音信号的声能量参数小于或等于的目标声音信号声能量参数，目标声音信号会掩蔽第一声音信号，从而影响用户对第一声音信号的听音体验，此时需要对第一声音信号进行调整，以保证对第一声信号的听音效果；如果第一声音信号的声能量参数大于目标声音信号的声能量参数，根据心理声学听觉掩蔽效应，此时经过调整后的第一声音信号会掩蔽目标声音信号，以使用户听不到目标声音信号中的噪声信号，获得更好的听觉体验。需要说明的是，当把用户自身说话的信号归为噪声信号时，则用户自己说话的声音也需要一并被掩蔽，以避免用户自身说话的信号通过骨传导方式传递至耳道中，影响第一声音信号的播放效果。

其中，第一目标频段为第一声音信号的全频段，可以以频率点为单位依次确定全频段中各个频率点处是否需要调整第一声音信号，也可以以预设频段为单位确定全频段中多个预设频段中是否需要调整第一声音信号，比如在骨传导声音容易被增强产生闭塞效应的低频频段。声能量参数为能够反映声音信号在各个频率点或者预设频段中的能量特征的参数，例如各个频率点对应的声音信号的能量值，或者预设频段中的平均能量值。在第一声音信号的全频段中，当第一声音信号的声能量参数小于或等于目标声音信号的声能量参数时，通过增大第一声音信号的增益能够增大第一声音信号的声能量参数，将第一声音信号的声能量参数增大至大于目标声音信号的声能量参数，根据心理声学听觉掩蔽效应，第一声音信号就会掩蔽目标声音信号，从而实现听不到噪声信号的技术效果。

在本公开示例性的实施例中，通过获取由耳机的扬声器播放的第一声音信号，以及包括通过骨传导方式传输至耳道中的目标声音信号，当目标声音信号中包含噪声信号时，在第一目标频段中，如果第一声音信号的声能量参数小于或等于目标声音信号的声能量参数，增大第一声音信号在第一目标频段的增益，以使第一声音信号的声能量参数大于目标声音信号的声能量参数，根据心理声学听觉掩蔽效应，增大增益后的第一声音信号就会掩蔽目标声音信号，达到屏蔽噪声信号的效果，提升用户的听觉体验。

本公开示例性的实施例中，提供了一种音频处理方法，应用于耳机。图3是根据一示例性实施例示出的音频处理方法的流程图，如图3所示，音频处理方法包括以下步骤：

步骤S301，获取第一声音信号，第一声音信号由耳机的扬声器播放；

步骤S302，获取第二声音信号，第二声音信号为佩戴者的耳道内除第一声音信号之外的声音信号；

步骤S303，获取第三声音信号，第三声音信号为佩戴者的耳道外环境中的声音信号；

步骤S304，第二声音信号和第三声音信号满足预设条件时，将第二声音信号作为目标声音信号；

步骤S305，目标声音信号中包含噪声信号时，在第一目标频段中，确定第一声音信号的声能量参数是否大于目标声音信号的声能量参数；

若是，执行步骤S307；若否，执行步骤S306；

步骤S306：增大第一声音信号在第一目标频段的增益，以使第一声音信号的声能量参数大于参数目标声音信号的声能量参数。

步骤S307：保持第一声音信号在第一目标频段的增益不变。

其中，步骤S301与步骤S201内容相同，步骤S305-S306是针对步骤S103的实施过程的进一步说明，技术内容与步骤S102中记载的内容实质相同，在此不再赘述。

在步骤S302中，获取第二声音信号时，基于与第一声音信号相同的采样时长，获取第二声音信号的时域信号，再将时域信号转换为频域信号。当用户佩戴如图2所示的入耳式耳机时，通过耳机中的反馈麦克风能够获取耳道内的全部声音信号，全部声音信号包括第一声音信号、通过骨传导方式传输至耳道中的声音信号以及外界环境中传输至耳道中的声音信号。通过反馈麦克风获取耳道内全部的声音信号后，基于第一声音信号对耳道内的全部声音信号进行滤波去除其中的第一声音信号，获得佩戴者的耳道内除第一声音信号之外的第二声音信号；也可以在采样时长内，暂时关闭耳机的扬声器，通过反馈麦克风获取耳道内除第一声音信号之外的第二声音信号。

在步骤S303中，当用户佩戴如图2所示的入耳式耳机时，通过耳机中的前馈麦克风能够获取耳道外环境中的声音信号，即第三声音信号。获取第三声音信号时，基于与第一声音信号相同的采样时长，通过前馈麦克风获取环境中声音信号的时域表示，再将时域信号转换为频域信号。

在步骤S304中，由于骨传导方式传输至耳道内的声音信号会在低频频段产生闭塞效应，造成声音信号增强，造成耳道内除第一声音信号之外的声音信号大于扩散到环境中的声音信号。预设条件为能够判断耳道内存在闭塞效应产生的声音信号的任意条件，当根据第二声音信号和第三声音信号能够确定耳道内存在闭塞效应产生的声音信号时，说明第二声音信号中包括通过骨传导方式传输至耳道中的信号，因此将第二声音信号作为目标声音信号。

在步骤S307中，由于在第一目标频段中，第一声音信号的声能量参数大于目标声音信号的声能量参数，此时，体现出来的效果是第一声音信号播放的响度大于目标声音信号，第一声音信号会掩蔽目标声音信号，因此用户听不到目标声音信号，则无需对第一声音信号进行调整，保持第一声音信号在第一目标频段的增益不变即可。

本实施例中，获取佩戴者耳道内除了第一声音信号之外的声音信号，并结合环境声音信号判断耳道中是否出现了闭塞效应，也即耳道中是否有通过骨传导方式传输的声音信号，如果出现了闭塞效应，且目标声音信号中存在噪声信号且噪声信号影响到了第一声音信号的播放时，则通过增大第一声音信号的增益的方式提升第一声音信号的播放效果，提升用户的听觉感受。

本公开示例性的实施例中，提供了一种音频处理方法，应用于耳机。图4是根据一示例性实施例示出的音频处理方法的流程图，如图4所示，音频处理方法包括以下步骤：

步骤S401，获取第一声音信号，第一声音信号由耳机的扬声器播放；

步骤S402，获取第四声音信号，第四声音信号为佩戴者的耳道内的全部声音信号；

步骤S403，基于第一声音信号对第四声音信号进行滤波，获得第二声音信号；

步骤S404，获取第三声音信号，第三声音信号为佩戴者的耳道外环境中的声音信号；

步骤S405，获得第二声音信号和第三声音信号在第二目标频段的声能量参数差值；

步骤S406，声能量参数差值大于或等于预设阈值时，将第二声音信号作为目标声音信号；

步骤S407，目标声音信号中包含噪声信号时，在第一目标频段中，确定第一声音信号的声能量参数是否大于目标声音信号的声能量参数；

若是，执行步骤S409；若否，执行步骤S408；

步骤S408：增大第一声音信号在第一目标频段的增益，以使第一声音信号的声能量参数大于目标声音信号的声能量参数。

步骤S409：保持第一声音信号在第一目标频段的增益不变。

其中，步骤S401、S404与步骤S301、S303内容相同，步骤S407-S409与步骤S305-S307内容相同，在此不再赘述。

在步骤S402中，当用户佩戴如图2所示的入耳式耳机时，通过耳机中的反馈麦克风能够获取耳道内的全部声音信号，即第四声音信号。获取第四声音信号时，基于与第一声音信号相同的采样时长，获取通过反馈麦克风获取耳道内全部声音信号的时域表示，再将时域信号转换为频域信号。

在步骤S403中，根据声音消除算法，基于第一声音信号对第四声音信号进行滤波，从耳道内的全部声音信号中去除第一声音信号，即可获得耳道内除第一声音信号之外的声音信号，即第二声音信号。声音消除算法是指能够滤除目标频率信号的滤波算法，只要能够实现滤除第四声音信号中包含的第一声音信号的算法均可以使用。

在步骤S405-S406中，由于只有在频段为200Hz～500Hz区间内才会产生闭塞效应，将闭塞效应产生的频率区间确定为第二目标频段，则第二目标频段为200Hz～500Hz。在第二目标频段内，分别获得第二声音信号的声能量参数和第三声音信号的声能量参数，并计算第二声音信号和第三声音信号在第二目标频段的声能量参数差值，当声能量参数差值大于或等于预设阈值时，说明耳道内存在闭塞效应产生的声音信号，即存在由骨传导方式传输至耳道内的信号，则将第二声音信号作为目标声音信号。其中，预设阈值为经验值，由闭塞效应产生的增强信号的声能量参数确定。例如在第二目标频段内的频率k处，将第二声音信号的声能量参数记为Gk，将第三声音信号的声能量参数记为Nk，将声能量参数差值记为D1，则D1＝Gk-Nk，将预设阈值记为D0，当D1≥D0时，将第二声音信号作为目标声音信号。

本公开示例性的实施例中，提供了一种音频处理方法，应用于耳机。图5是根据一示例性实施例示出的音频处理方法的流程图，如图5所示，音频处理方法包括以下步骤：

步骤S501，获取第一声音信号，第一声音信号由耳机的扬声器播放；

步骤S502，获取第四声音信号，第四声音信号为佩戴者的耳道内的全部声音信号；

步骤S503，基于第一声音信号对第四声音信号进行滤波，获得第二声音信号；

步骤S504，获取第三声音信号，第三声音信号为佩戴者的耳道外环境中的声音信号；

步骤S505，获得第二声音信号和第三声音信号在第二目标频段的声能量参数差值；

步骤S506，确定声能量参数差值是否大于或等于预设阈值；

若是，执行步骤S507；若否，执行步骤S511；

步骤S507，将第二声音信号作为目标声音信号；

步骤S508，提取目标声音信号中的听觉频率特征；

步骤S509，基于预先存储的声音分类模型和听觉特征频率，对目标声音信号进行分类；其中，声音分类模型中的包含的声音类型包括骨传导语音信号和噪声信号；

步骤S510，目标声音信号中是否包含噪声信号；

若目标声音信号包含噪声信号，执行步骤S512；若目标声音信号包含骨传导语音信号且未包含噪声信号，执行步骤S511；

步骤S511：继续播放第一声音信号。

步骤S512：在第一目标频段中，确定第一声音信号的声能量参数是否大于目标声音信号的声能量参数；

若是，执行步骤S514；若否，执行步骤S513；

步骤S513：增大第一声音信号在第一目标频段的增益，以使第一声音信号的声能量参数大于目标声音信号的声能量参数。

步骤S514：保持第一声音信号在第一目标频段的增益不变。

其中，步骤S501-S507与步骤S401-S406内容相同，步骤S513-S514与步骤S407-S409内容相同，在此不再赘述。

需要说明的是，在步骤S506中，当确定声能量参数差值小于预设阈值时，说明耳道内不存在闭塞效应产生的声音信号，即耳道内不存在由骨传导方式传输的信号，说明佩戴者此时没有在运动或者咀嚼或者说话等，佩戴者自身不会对第一声音信号造成影响，因此无需对第一声音信号进行处理，执行步骤S511，继续播放第一声音信号，播放时以当前状态播放即可，当前状态为步骤S501中获取到第一声音信号时的状态。

在步骤S507-S508中，目标声音信号中包括碰撞声、咀嚼声、说话声等骨传导声音信号，由于说话声是用户期望听到的声音信号，而碰撞声、咀嚼声等不是用户期望听到的声音信号，为噪声信号，为了判断目标声音信号中是否包含噪声信号，需要对目标声音信号进行声音分类。在实验室中分别获取碰撞声、咀嚼声、说话声等骨传导声音信号，并将骨传导声音信号作为训练数据集输入到声音分类模型中，对声音分类模型进行训练，声音分类模型可以为任一能够用于声音分类的神经网络模型，在训练时，声音分类模型提取不同声音信号的梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，MFCC)，并通过卷积神经网络进行处理，实现对不同声音信号的分类。将训练好的声音分类模型预先存储在耳机中，获取目标声音信号后，声音分类模型通过提取目标声音信号中的听觉频率特征，即MFCC，将目标声音信号中的碰撞声、咀嚼声、说话声等声音信号进行分类，将说话声标识为骨传导语音信号，将碰撞声、咀嚼声等其他声音信号标识为骨传导噪声信号。

步骤S509-S510中，由于用户期望听到自己的说话声，当目标声音信号中包含骨传导语音信号且未包含噪声信号时，语音信号不会影响用户对第一声音信号的听音体验，因此无需对第一声音信号进行调整，继续播放第一声音信号，播放时以当前状态播放即可，当前状态为步骤S501中获取到第一声音信号时的状态。

本公开示例性的实施例中，提供了一种音频处理装置，应用于耳机。图6是根据一示例性实施例示出的音频处理装置的框图，如图6所示，包括：

第一获取模块601，被配置为获取第一声音信号，第一声音信号由耳机的扬声器播放；

第二获取模块602，被配置为获取目标声音信号，其中，目标声音信号包括通过骨传导方式传输至耳道中的信号；

调节模块603，被配置为目标声音信号中包含噪声信号时，在第一目标频段中，若第一声音信号的声能量参数小于或等于目标声音信号的声能量参数时，增大第一声音信号在第一目标频段的增益，以使第一声音信号的声能量参数大于目标声音信号的声能量参数。

在一示例性实施例中，第二获取模块602还被配置为：

获取第二声音信号，第二声音信号为佩戴者的耳道内除第一声音信号之外的声音信号；

获取第三声音信号，第三声音信号为佩戴者的耳道外环境中的声音信号；

第二声音信号和第三声音信号满足预设条件时，将第二声音信号作为目标声音信号。

在一示例性实施例中，第二获取模块602还被配置为：

获得第二声音信号和第三声音信号在第二目标频段的声能量参数差值；

声能量参数差值大于或等于预设阈值时，将第二声音信号作为目标声音信号。

在一示例性实施例中，第二获取模块602还被配置为：

获取第四声音信号，第四声音信号为佩戴者的耳道内的全部声音信号；

基于第一声音信号对第四声音信号进行滤波，获得第二声音信号。

在一示例性实施例中，调节模块603还被配置为：

提取目标声音信号中的听觉频率特征；

基于预先存储的声音分类模型和听觉特征频率，对目标声音信号进行分类；其中，声音分类模型中的包含的声音类型包括骨传导语音信号和噪声信号。

在一示例性实施例中，调节模块603还被配置为：

目标声音信号包含骨传导语音信号且未包含噪声信号时，继续播放第一声音信号。

在一示例性实施例中，调节模块603还被配置为：

在第一目标频段中，若第一声音信号的声能量参数大于目标声音信号的声能量参数，保持第一声音信号在第一目标频段的增益不变。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开示例性的实施例中，提供了一种耳机，耳机包括壳体和设置于壳体上的前馈麦克风、反馈麦克风、扬声器以及控制器，控制器分别与前馈麦克风、反馈麦克风和扬声器通信连接；其中，前馈麦克风，用于采集佩戴者的耳道外环境中的声音信号；反馈麦克风，用于采集佩戴者的耳道内的声音信号；扬声器用于播放第一声音信号。控制器包括处理器和存储器，存储器存储有可被处理器执行的计算机程序指令，处理器被配置为调用计算机程序指令执行上述的音频处理方法。

图7是根据一示例性的实施例示出的一种耳机700的框图。

参照图7，耳机700可以包括以下一个或多个组件：处理组件702，存储器704，电源组件706，多媒体组件708，音频组件710，输入/输出(I/O)的接口712，传感器组件714，以及通信组件716。

处理组件702通常控制耳机700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理组件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在耳机700的操作。这些数据的示例包括用于在耳机700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件706为耳机700的各种组件提供电源。电源组件706可以包括电源管理系统，一个或多个电源，及其他与为耳机700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述耳机700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当耳机700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(MIC)，当耳机700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

I/O接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为耳机700提供各个方面的状态评估。例如，传感器组件714可以检测到耳机700的打开/关闭状态，组件的相对定位，例如所述组件为耳机700的显示器和小键盘，传感器组件714还可以检测耳机700或耳机700一个组件的位置改变，用户与耳机700接触的存在或不存在，耳机700方位或加速/减速和耳机700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件716被配置为便于耳机700和其他设备之间有线或无线方式的通信。耳机700可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件716还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，耳机700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述音频处理方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由耳机700的处理器720执行以完成上述音频处理方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器调用时，使得装置能够执行一种音频处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种音频处理方法，应用于耳机，其特征在于，包括：

2.根据权利要求1所述的音频处理方法，其特征在于，所述获取目标声音信号，包括：

3.根据权利要求2所述的音频处理方法，其特征在于，所述第二声音信号和所述第三声音信号满足预设条件时，将所述第二声音信号作为所述目标声音信号，包括：

4.根据权利要求2所述的音频处理方法，其特征在于，所述获取第二声音信号，包括：

5.根据权利要求1所述的音频处理方法，其特征在于，还包括：

提取所述目标声音信号中的听觉频率特征；

6.根据权利要求5所述的音频处理方法，其特征在于，还包括：

7.根据权利要求1所述的音频处理方法，其特征在于，还包括：

8.一种音频处理装置，应用于耳机，其特征在于，包括：

9.一种耳机，其特征在于，所述耳机包括壳体和设置于所述壳体上的前馈麦克风、反馈麦克风、扬声器以及控制器，所述控制器分别与所述前馈麦克风、所述反馈麦克风和所述扬声器通信连接；

所述前馈麦克风，用于采集佩戴者的耳道外环境中的声音信号；

所述反馈麦克风，用于采集佩戴者的耳道内的声音信号；

所述扬声器用于播放第一声音信号；

所述控制器包括处理器和存储器，所述存储器存储有可被所述处理器执行的计算机程序指令，所述处理器被配置为调用所述计算机程序指令执行如权利要求1-7中任一项所述的音频处理方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器调用时，执行如权利要求1-7任一项所述的音频处理方法。