CN116320872A

CN116320872A - 耳机的模式切换方法、装置、电子设备及存储介质

Info

Publication number: CN116320872A
Application number: CN202310288765.9A
Authority: CN
Inventors: 陶廉洁; 张锐; 李罡
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd; Xiaomi Technology Wuhan Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd; Xiaomi Technology Wuhan Co Ltd
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-06-23

Abstract

本公开提出一种耳机的模式切换方法、装置、电子设备及存储介质，方法包括：获取耳机的骨传导传感器采集的振动信号以及前馈或通话麦克风同步采集的第一音频信号；至少根据振动信号的能量值，识别耳机佩戴者存在说话行为的第一概率值；至少基于第一音频信号提取的幅度谱特征，预测耳机佩戴者存在说话行为的第二概率值；根据第一概率值和第二概率值，控制耳机在降噪模式和非降噪模式之间进行切换，由此，在耳机佩戴者存在说话行为时，控制耳机自动切换为非降噪模式，在耳机佩戴者不存在说话行为时，控制耳机自动切换为降噪模式，无需耳机佩戴者手动对耳机进行模式切换，改善了用户体验。

Description

耳机的模式切换方法、装置、电子设备及存储介质

技术领域

本公开涉及电子设备技术领域，尤其涉及一种耳机的模式切换方法、装置、电子设备及存储介质。

背景技术

目前，大多数真正无线立体声(True Wireless Stereo，简称TWS)耳机配备主动降噪(ANC)功能，该功能通过声波抵消的原理减少外界环境噪声和低频语音噪声，使耳机佩戴者持续处于安静状态。但当TWS耳机的佩戴者与他人对话时，需要手动摘下耳机或手动切换至通透模式，才能进行无障碍交流，该过程大大降低了用户体验。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本公开的第一个目的在于提出一种耳机的模式切换方法，以实现根据耳机的骨传导传感器采集的振动信号和前馈或通话麦克风同步采集的第一音频信号共同判断耳机佩戴者是否存在说话行为，在耳机佩戴者存在说话行为时，控制耳机自动切换为非降噪模式，在耳机佩戴者不存在说话行为时，控制耳机自动切换为降噪模式，无需耳机佩戴者手动对耳机进行模式切换，改善了用户体验。

本公开的第二个目的在于提出一种耳机的模式切换装置。

本公开的第三个目的在于提出一种电子设备。

本公开的第四个目的在于提出一种非瞬时计算机可读存储介质。

本公开的第五个目的在于提出一种计算机程序产品。

为达上述目的，本公开第一方面实施例提出了一种耳机的模式切换方法，包括：获取耳机的骨传导传感器采集的振动信号，以及获取所述耳机的前馈或通话麦克风同步采集的第一音频信号；至少根据所述振动信号的能量值，识别耳机佩戴者存在说话行为的第一概率值；对经过降噪处理的所述第一音频信号进行幅度谱的特征提取，并至少基于所述第一音频信号提取的幅度谱特征，预测所述耳机佩戴者存在说话行为的第二概率值；根据所述第一概率值和所述第二概率值，控制所述耳机在降噪模式和非降噪模式之间进行切换。

本公开实施例的耳机的模式切换方法，通过获取耳机的骨传导传感器采集的振动信号，以及获取耳机的前馈或通话麦克风同步采集的第一音频信号；至少根据振动信号的能量值，识别耳机佩戴者存在说话行为的第一概率值；对经过降噪处理的第一音频信号进行幅度谱的特征提取，并至少基于第一音频信号提取的幅度谱特征，预测耳机佩戴者存在说话行为的第二概率值；根据第一概率值和第二概率值，控制耳机在降噪模式和非降噪模式之间进行切换，由此，根据耳机的骨传导传感器采集的振动信号和前馈或通话麦克风同步采集的第一音频信号共同判断耳机佩戴者是否存在说话行为，提高了耳机佩戴者是否存在说话行为的识别准确性，在耳机佩戴者存在说话行为时，控制耳机自动切换为非降噪模式，在耳机佩戴者不存在说话行为时，控制耳机自动切换为降噪模式，无需耳机佩戴者手动对耳机进行模式切换，改善了用户体验。

为达上述目的，本公开第二方面实施例提出了一种耳机的模式切换装置，包括：获取模块，用于获取耳机的骨传导传感器采集的振动信号，以及获取所述耳机的前馈或通话麦克风同步采集的第一音频信号；识别模块，用于至少根据所述振动信号的能量值，识别耳机佩戴者存在说话行为的第一概率值；预测模块，用于对经过降噪处理的所述第一音频信号进行幅度谱的特征提取，并至少基于所述第一音频信号提取的幅度谱特征，预测所述耳机佩戴者存在说话行为的第二概率值；控制模块，用于根据所述第一概率值和所述第二概率值，控制所述耳机在降噪模式和非降噪模式之间进行切换。

为达上述目的，本公开第三方面实施例提出了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开第一方面实施例所述的耳机的模式切换方法。

为了实现上述目的，本公开第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开第一方面实施例所述的耳机的模式切换方法。

为了实现上述目的，本公开第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行本公开第一方面实施例所述的耳机的模式切换方法。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本公开实施例所提供的一种耳机的模式切换方法的流程示意图；

图2为本公开实施例所提供的另一种耳机的模式切换方法的流程示意图；

图3为本公开实施例所提供的另一种耳机的模式切换方法的流程示意图；

图4为本公开实施例所提供的降噪处理示意图；

图5为本公开实施例所提供的另一种耳机的模式切换方法的流程示意图；

图6为本公开实施例所提供的另一种耳机的模式切换方法的流程示意图；

图7为本公开实施例所提供的一种耳机的模式切换方法的流程示意图；

图8为本公开实施例所提供的一种耳机的模式切换装置的结构示意图；

图9是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

相关技术中，通过TWS耳机的骨传导传感器采集的振动信号和麦克风采集的音频信号，其中，麦克风可为前馈麦克风或通话麦克风。其次，利用回声消除技术对骨传导传感器采集的振动信号进行降噪处理以获取干净的语音信号。然后，通过快速傅里叶变换分别将骨传导传感器采集的振动信号和麦克风采集的音频信号转化为频域信号，统计骨传导传感器采集的振动信号的能量，并计算两信号的相关系数。最后根据骨传导传感器采集的振动信号的能量和信号间的相关系数决策完成耳机佩戴者的语音检测，如果检测到语音活动，自动切换至通透模式或语音增强模式。

但是，当用户处于听歌状态时，耳机扬声器放出的声音通过耳机腔体对骨传导传感器采集的振动信号形成较为强烈的干扰，使用回声消除算法虽然在一定程度上能够与消除扬声放出的声音对骨传导语音传感器信号的影响，但带来了巨大的功耗和算力要求；由于耳机的模式切换属于实时检测算法，对检测准确性有较高要求。常用的相关系数等决策模型误检率较高，特别在耳机佩戴者咳嗽、跑步等场景下具有高达30％-50％的误检率。

因此，针对上述问题，本公开提出一种耳机的模式切换方法、装置、电子设备及存储介质。

下面参考附图描述本公开实施例的耳机的模式切换方法、装置、电子设备及存储介质。

图1为本公开实施例所提供的一种耳机的模式切换方法的流程示意图。

如图1所示，该耳机的模式切换方法包括以下步骤：

步骤101，获取耳机的骨传导传感器采集的振动信号，以及获取耳机的前馈或通话麦克风同步采集的第一音频信号。

在本公开实施例中，耳机设置有骨传导传感器、前馈或通话麦克风和扬声器等，其中，骨传导传感器可采集经骨骼传播的振动信号，其中，振动信号比如可包括耳机佩戴者说话时声带的振动信号、脸颊的振动信号等。

同时，通过耳机的前馈或通话麦克风同步采集当前环境的第一音频信号，其中，第一音频信号可包括耳机所在环境的所有音频信号，如，第一音频信号可包括但不限于环境中所有人发出的声音如耳机佩戴者说话的声音以及环境中的声音，如风声、雨声、鸟叫声以及汽鸣声等。

步骤102，至少根据振动信号的能量值，识别耳机佩戴者存在说话行为的第一概率值。

在本公开实施例中，可至少根据振动信号的能量值，识别耳机佩戴者存在说话行为的第一概率值。

作为一种示例，可计算每一帧振动信号的能量值，根据每一帧振动信号的能量值，识别耳机佩戴者存在说话行为的第一概率值。

作为另一种示例，可计算每一帧振动信号的能量值以及耳机扬声器同步播放的每一帧的第二音频信号的能量值，根据每一帧振动信号的能量值和每一帧第二音频信号的能量值，识别耳机佩戴者存在说话行为的第一概率值。

步骤103，对经过降噪处理的第一音频信号进行幅度谱的特征提取，并至少基于第一音频信号提取的幅度谱特征，预测耳机佩戴者存在说话行为的第二概率值。

进一步地，为了提高耳机佩戴者是否存在说话行为的识别准确性，在第一概率值大于或等于概率阈值的情况下，可对第一音频信号进行降噪处理，得到经过降噪处理的第一音频信号，比如，可采用谱减法对第一音频信号进行降噪处理，并对降噪处理后的第一音频信号进行加窗分帧，获取对应的帧级时域信号，对帧级时域信号进行快速傅里叶变换得到第一音频信号对应的幅度谱，进而，对经过降噪处理的第一音频信号的幅度谱进行特征提取，得到幅度谱特征，可基于幅度谱特征进行语音激活检测，以预测耳机佩戴者存在说话行为的第二概率值。其中，幅度谱特征可包括：短时平均幅度差、倒谱系数以及对数梅尔频谱等，进行语音激活检测的方式可包括但不限于基于能量特征、基于模板匹配特征、端点检测、共振峰估计以及深度学习的方法等。

步骤104，根据第一概率值和第二概率值，控制耳机在降噪模式和非降噪模式之间进行切换。

为了准确地确定耳机佩戴者是否存在说话行为，在本公开实施例中，可根据耳机佩戴者存在说话行为的第一概率值和第二概率值，共同确定耳机佩戴者是否存在说话行为，在耳机佩戴者存在说话行为时，可控制耳机切换为非降噪模式，比如，可控制耳机切换为通透模式或语音增强模式，以便耳机佩戴者进行沟通。又比如，耳机佩戴者不存在说话行为时，可控制耳机切换为降噪模式，以便耳机佩戴者聆听音乐等。

综上，通过获取耳机的骨传导传感器采集的振动信号，以及获取耳机的前馈或通话麦克风同步采集的第一音频信号；至少根据振动信号的能量值，识别耳机佩戴者存在说话行为的第一概率值；对经过降噪处理的第一音频信号进行幅度谱的特征提取，并至少基于第一音频信号提取的幅度谱特征，预测耳机佩戴者存在说话行为的第二概率值；根据第一概率值和第二概率值，控制耳机在降噪模式和非降噪模式之间进行切换，由此，根据耳机的骨传导传感器采集的振动信号和前馈或通话麦克风同步采集的第一音频信号共同判断耳机佩戴者是否存在说话行为，提高了耳机佩戴者是否存在说话行为的识别准确性，并且在耳机佩戴者存在说话行为时，控制耳机自动切换为非降噪模式，在耳机佩戴者不存在说话行为时，控制耳机自动切换为降噪模式，无需耳机佩戴者手动对耳机进行模式切换，改善了用户体验。

为了清楚地说明上述实施例是如何至少根据振动信号的能量值，识别耳机佩戴者存在说话行为的第一概率值的，本公开提出另一种耳机的模式切换方法。

图2为本公开实施例所提供的另一种耳机的模式切换方法的流程示意图。

如图2所示，该耳机的模式切换方法包括以下步骤：

步骤201，获取耳机的骨传导传感器采集的振动信号，以及获取耳机的前馈或通话麦克风同步采集的第一音频信号。

步骤202，根据振动信号的能量值和耳机的扬声器同步播放的第二音频信号的能量值，识别耳机佩戴者存在说话行为的第一概率值。

作为一种示例，振动信号以及同步播放的第二音频信号均为多帧的情况下，确定符合设定条件的帧数，其中，设定条件包括振动信号的设定低频分量的能量值大于第一能量值，且同步播放的第二音频信号的能量值小于第二能量值。

也就是说，由于扬声器播放较大音量的声音可能引起骨骼振动对骨传导传感器采集的振动信号产生影响，因此，在设定条件包括振动信号的设定低频分量的能量值大于第一能量值，且同步播放的第二音频信号的能量值小于第二能量值，可排除由于扬声器播放较大音量的声音可能引起骨骼振动对骨传导传感器采集的振动信号产生的影响。从而，在振动信号以及同步播放的第二音频信号均为多帧的情况下，确定振动信号的设定低频分量的能量值大于第一能量值，且同步播放的第二音频信号的能量值小于第二能量值的帧数，比如，帧数大于或等于第一阈值数量，则说明耳机佩戴者可能存在说话行为，可确定耳机佩戴者存在说话行为的第一概率值为第一取值(如，1)，帧数小于第一阈值数量，则说明耳机佩戴者可能不存在说话行为，确定耳机佩戴者存在说话行为的第一概率值为第二取值(如，0)。

作为另一种示例，在振动信号为多帧的情况下，确定符合设定低频分量的能量值大于第一能量值的振动信号的帧数，在帧数大于或等于第一阈值数量，则确定第一概率值为第一取值；帧数小于第一阈值数量，则确定第一概率值为第二取值，其中，第二取值小于第一取值。

步骤203，对经过降噪处理的第一音频信号进行幅度谱的特征提取，并至少基于第一音频信号提取的幅度谱特征，预测耳机佩戴者存在说话行为的第二概率值。

步骤204，根据第一概率值和第二概率值，控制耳机在降噪模式和非降噪模式之间进行切换。

需要说明的是，步骤201、步骤203至204的执行过程可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。

综上，通过根据振动信号的能量值和耳机的扬声器同步播放的第二音频信号的能量值，识别耳机佩戴者存在说话行为的第一概率值，由此，根据振动信号的能量值和耳机扬声器同步播放的第二音频信号的能量值，共同识别耳机佩戴者存在说话行为的第一概率值，提高了识别耳机佩戴者存在说话行为的第一概率值的准确性，且无需采用回声消除模块，即使在听歌模式下也能够准确检测耳机佩戴者的是否存在说话行为，极大的降低了功耗和算力要求。

图3为本公开实施例所提供的另一种耳机的模式切换方法的流程示意图。

如图3所示，该耳机的模式切换方法包括以下步骤：

步骤301，获取耳机的骨传导传感器采集的振动信号，以及获取耳机的前馈或通话麦克风同步采集的第一音频信号。

步骤302，在振动信号为多帧的情况下，对多帧振动信号进行能量值的平滑处理。

作为一种示例，在振动信号为多帧的情况下，可计算多帧振动信号的低频能量值进行平滑处理，具体可表现为如下公式：

Psxf(m)＝(1-α)*Psxf(m-1)+α*Pxf(m)；

其中，Pxf(m)表示多帧振动信号的低频能量值，Psxf(m)表示平滑处理后的低频能量值，m表示帧数的索引，k表示频点的索引。Xf(m))表示第m帧振动信号的幅度谱，Xf(m,k)表示第m帧振动信号的幅度谱的第k个频点幅度值，R为信号中的低频截止频率，一般为800-1200Hz，α为平滑因子。

其中，需要说明的是，为了准确地确定多帧振动信号的能量值，可对骨传导传感器采集到的振动信号进行分帧、加窗等处理，以获取振动信号的帧级数据。比如，振动信号的采样频率可设置为48000Hz、44100Hz、16000Hz以及8000Hz等，在本公开实施例中，采样频率可设置为16000Hz。为了提高帧内的信号稳定性，一般帧长可设置为10-30ms，在本公开实施例中，帧长可设置为15ms，即240个采样点。帧移一般取帧长的25％、50％或75％，在本公开实施例中，帧移可设置为50％，即120个采样点。窗函数可使用汉宁窗、汉明窗以及凯撒窗等，在本公开实施例中，以窗函数为汉宁窗为例，其长度与帧长相同。分帧加窗的公式可表现为如下公式：

xt(m,n)＝xt((m-1)*inc+n)*w(n),0≤n≤(L-1)

其中，m表示帧数的索引，n表示音频采样点的索引，xt(m)表示骨传导传感器的第m帧的时域信号，xt(m,n)表示骨传导传感器的第m帧数据的第n个时域采样点。

进而，对帧级的骨传导传感器的时域信号xt(m,n)进行快速傅里叶变换，得到帧级的振动信号的幅度谱Xf(m)，具体可表现为如下公式：

其中，m表示帧数的索引，k表示频点的索引，Xf(m))表示第m帧振动信号的幅度谱，Xf(m,k)表示第m帧振动信号的幅度谱的第k个频点幅度值，快速傅里叶变换的频率分辨率为

其中fs为采样率，nfft为fft的点数。

步骤303，基于平滑后的能量值，从多帧中，确定出设定低频分量的能量值大于第一能量值的目标振动信号。

作为一种示例，根据平滑后的多帧振动信号的能量值，从多帧振动信号中，确定出设定低频分量的能量值大于第一能量值的目标振动信号。

作为另一种示例，为了进一步提高识别耳机佩戴者是否存在说话行为的准确性，可对扬声器同步播放的第二音频信号进行能量值的平滑处理，根据多帧振动信号平滑处理后的能量值和第二音频信号平滑处理后的能量值共同识别耳机佩戴者是否存在说话行为。比如，从多帧振动信号中，确定出设定低频分量的能量值大于第一能量值的目标振动信号，以及每帧第二音频信号的能量值小于第二能量值。

比如，首先可对第二音频信号进行分帧和加窗处理，具体可表现为如下公式：

st(m,n)＝st((m-1)*inc+n)*w(n),0≤n≤(L-1)

其中，st为扬声器的第二音频信号，st(m,n)表示扬声器的第m帧数据的第n个时域采样点，w(n)为汉宁窗。

进而，对每帧第二音频信号的能量值进行平滑处理，具体可表现为如下公式：

Ess(m)＝(1-α)*Ess(m-1)+α*Es(m)

其中，Es(m)为第m帧第二音频信号的能量值，st(m,i)表示第m帧第二音频信号的的第i个时域采样点，α为平滑因子。

步骤304，目标振动信号的帧数大于或等于第二阈值数量，则确定第一概率值为第一取值。

作为一种示例，目标振动信号的帧数大于或等于第二阈值数量时，可确定第一概率值取值为第一取值(比如，1)。

作为另一种示例，目标振动信号的帧数大于或等于第二阈值数量，且同步采集的各帧第二音频信号的能量值小于第二能量值，可确定第一概率值取值为第一取值。

步骤305，目标振动信号的帧数小于第二阈值数量，则确定第一概率值为第二取值。

其中，第二取值小于第一取值。

作为一种示例，目标振动信号的帧数小于第二阈值数量，则确定第一概率值为第二取值。

作为另一种示例，目标振动信号的帧数小于第二阈值数量，且同步采集的各帧第二音频信号的能量值大于第二能量值，可确定第一概率值取值为第二取值。

作为另一种示例，目标振动信号的帧数小于第二阈值数量，且同步采集的各帧第二音频信号的能量值小于第二能量值，可确定第一概率值取值为第二取值。

此外，还需要说明的是，为了提高实时识别耳机佩戴者是否存在说话行为准确性，在第一概率值大于或等于概率阈值的情况下，采用已有噪声谱对第一音频信号进行降噪处理，在第一概率值小于概率阈值的情况下，基于第一音频信号对噪声谱进行更新。

也就是说，在第一概率值大于或等于概率阈值的情况下，也就是耳机佩戴者可能存在说话行为时，可采用已有噪声谱对第一音频信号进行降噪处理；其中，可采用最小值跟踪方法获取已有噪声谱。

另外，在第一概率值小于概率阈值的情况下，也就是耳机佩戴者可能不存在说话行为时，前馈或通话麦克风采集到的第一音频信号则都被认定为噪声信号，基于第一音频信号对噪声谱进行更新，进而，如图4所示，基于更新后的噪声谱进行降噪处理。

步骤306，对经过降噪处理的第一音频信号进行幅度谱的特征提取，并至少基于第一音频信号提取的幅度谱特征，预测耳机佩戴者存在说话行为的第二概率值。

步骤307，根据第一概率值和第二概率值，控制耳机在降噪模式和非降噪模式之间进行切换。

需要说明的是，步骤301、步骤306至307的执行过程可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。

综上，通过在振动信号为多帧的情况下，对多帧振动信号进行能量值的平滑处理；基于平滑后的能量值，从多帧中，确定出设定低频分量的能量值大于第一能量值的目标振动信号；目标振动信号的帧数大于或等于第二阈值数量，则确定第一概率值为第一取值；目标振动信号的帧数小于第二阈值数量，则确定第一概率值为第二取值，由此，基于多帧振动信号平滑处理后的能量值，可有效地识别耳机佩戴者是否存在说话行为。

为了准确地说明上述实施例中是如何至少基于第一音频信号提取的幅度谱特征，预测耳机佩戴者存在说话行为的第二概率值的，本公开提出另一种耳机的模式切换方法。

图5为本公开实施例所提供的另一种耳机的模式切换方法的流程示意图。

如图5所示，该耳机的模式切换方法包括以下步骤：

步骤501，获取耳机的骨传导传感器采集的振动信号，以及获取耳机的前馈或通话麦克风同步采集的第一音频信号。

步骤502，至少根据振动信号的能量值，识别耳机佩戴者存在说话行为的第一概率值。

步骤503，对经过降噪处理的第一音频信号进行幅度谱的特征提取，将任一帧第一音频信号的幅度谱作为输入特征，进行语音激活检测，以识别语音边界。

作为一种示例，在第一概率值大于或等于概率阈值的情况下，采用已有噪声谱对第一音频信号进行降噪处理，得到经过降噪处理的第一音频信号，进而，对经过降噪处理的第一音频信号进行幅度谱的特征提取，并将任一帧第一音频信号的幅度谱特征输入深度学习模型进行语音激活检测(Voice Activity Detection，简称VAD)，以识别语音边界。其中，需要说明的是，进行语音激活检测的方式可包括但不限于基于能量特征、基于模板匹配特征、端点检测、共振峰估计以及深度学习的方法等，本公开仅以幅度谱特征输入深度学习模型进行语音激活检测进行示例。

在本公开实施例中，对经过降噪处理的第一音频信号，可先获取任一帧第一音频信号的幅度谱，比如，可对第一音频信号进行分帧和加窗处理，具体可表现为如下公式：

vt(m,n)＝vt((m-1)*inc+n)*w(n),0≤n≤(L-1)

其中，vt为前馈或通话麦克风的第一音频信号，vt(m,n)表示前馈或通话麦克风的第m帧数据的第n个时域采样点，w(n)为汉宁窗。

进而，对前馈或通话麦克风的时域信号vt(m,n)进行快速傅里叶变换，得到帧级的第一音频信号的幅度谱Vf(m)，具体可表现为如下公式：

其中，m表示帧数的索引，k表示频点的索引，Vf(m)表示骨传导的第m帧幅度谱，Vf(m,k)表示第m帧第一音频信号的幅度谱的第k个频点幅度值。

在本公开实施例中，可对任一帧第一音频信号的幅度谱进行特征提取，得到任一帧第一音频信号的幅度谱特征，并将任一帧第一音频信号的幅度谱特征作为输入特征，进行语音激活检测，以识别语音边界。

为了进一步提高识别耳机佩戴者是否存在说话行为的准确性，在本公开实施例中，还可对同步采集的振动信号的幅度谱进行特征提取，并将提取到的任一帧振动信号的幅度谱特征与同步的任一帧第一音频信号的幅度谱特征共同作为输入特征，进行语音激活检测。

步骤504，在从第一音频信号中识别出语音边界的情况下，则确定第二概率值为第一取值。

作为一种示例，在深度学习模型从第一音频信号中识别出语音边界的情况下，表示耳机佩戴者可能存在说话行为，则可确定耳机佩戴者存在说话行为的第二概率值为第一取值(比如，1)。

步骤505，在未从第一音频信号中识别出语音边界的情况下，则确定第二概率值为第二取值。

其中，第二取值小于第一取值。

作为另一种示例，在深度学习模型未从第一音频信号中识别出语音边界的情况下，表示耳机佩戴者可能不存在说话行为，则可确定耳机佩戴者存在说话行为的第二概率值为第二取值(比如，0)。

步骤506，根据第一概率值和第二概率值，控制耳机在降噪模式和非降噪模式之间进行切换。

需要说明的是，步骤501至502、步骤506的执行过程可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。

综上，通过将任一帧第一音频信号的幅度谱特征作为输入特征，进行语音激活检测，以识别语音边界；在从第一音频信号中识别出语音边界的情况下，则确定第二概率值为第一取值，在未从第一音频信号中识别出语音边界的情况下，则确定第二概率值为第二取值，由此，根据任一帧第一音频信号的幅度谱特征，识别第一音频信号是否存在语音边界，即耳机佩戴者是否存在说话行为，可有效地确定第二概率值的取值。

为了清楚地说明上述实施例是如何根据第一概率值和第二概率值，控制耳机在降噪模式和非降噪模式之间进行切换的，本公开提出另一种耳机的模式切换方法。

图6为本公开实施例所提供的另一种耳机的模式切换方法的流程示意图。

如图6所示，该耳机的模式切换方法包括以下步骤：

步骤601，获取耳机的骨传导传感器采集的振动信号，以及获取耳机的前馈或通话麦克风同步采集的第一音频信号。

步骤602，至少根据振动信号的能量值，识别耳机佩戴者存在说话行为的第一概率值。

步骤603，对经过降噪处理的第一音频信号进行幅度谱的特征提取，并至少基于第一音频信号提取的幅度谱特征，预测耳机佩戴者存在说话行为的第二概率值。

步骤604，对第一概率值，以及基于各帧第一音频信号预测出的第二概率值进行加权，以得到目标概率。

作为一种示例，基于第一概率值和第二概率值共同识别耳机佩戴者是否存在说话行为。在本公开实施例中，可对第一概率值，以及基于各帧第一音频信号预测出的第二概率值进行加权，以得到目标概率，具体可表现为如下公式：

Res(m)＝β*Res_x(m)+(1-β)*Res_v(m)

其中，Res(m)表示目标概率，m表示第m帧振动信号或第一音频信号，β为权重，其中，β可根据如下公式确定：

其中，Ess(m)表示扬声器同步播放的第二音频信号的能量值，SPK_THR1和SPK_THR2表示设定的能量阈值。

步骤605，在目标概率大于或等于切换阈值的情况下，控制耳机从降噪模式切换至非降噪模式。

作为一种示例，在目标概率大于或等于切换阈值的情况下，即表示耳机佩戴者可能存在说话行为，可控制耳机从降噪模式切换至非降噪模式，其中，切换阈值为预先设定的，非降噪模式可包括通透模式和/或语音增强模式。

步骤606，在目标概率小于切换阈值的情况下，控制耳机从非降噪模式切换至降噪模式。

其中，非降噪模式包括通透模式和/或语音增强模式。

作为另一种示例，在目标概率小于切换阈值的情况下，即表示耳机佩戴者可能不存在说话行为，可控制耳机从非降噪模式切换至降噪模式。

综上，通过对第一概率值，以及基于各帧第一音频信号预测出的第二概率值进行加权，以得到目标概率；在目标概率大于或等于切换阈值的情况下，控制耳机从降噪模式切换至非降噪模式；在目标概率小于切换阈值的情况下，控制耳机从非降噪模式切换至降噪模式，由此，根据第一概率值和第二概率值综合识别耳机佩戴者是否存在讲话行为，提高了识别耳机佩戴者是否存在讲话行为的准确性，并在耳机佩戴者可能存在讲话行为时，控制耳机切换至非降噪模式，在耳机佩戴者可能不存在讲话行为时，控制耳机切换至降噪模式，无需手动进行模式切换，提高了用户体验。

在本公开的任一实施例中，如图7所示，还可基于如下步骤实现本公开实施例的耳机的模式切换方法：

1、采集骨传导语音信号(振动信号)和通话麦克风信号(第一音频信号)；

2、声学信号前端处理；

(1)对骨传导语音信号(振动信号)和输入耳机的通话麦克风(或前馈麦克风，下文均使用通话麦克风进行举例说明)的信号(第一音频信号)进行加窗分帧，获取对应的帧级时域信号，对帧级的通话麦克风信号和骨传导语音信号进行快速傅里叶变换得到帧级的频域信号；

(2)骨传导语音信号的噪声谱估计：计算每一帧骨传导语音信号的中低频总能量，通过最小值跟踪等方法获取骨传导语音信号的噪声功率谱。

3、骨传导语音信号一级判断：当多帧骨传导语音信号的中低频能量持续大于设定阈值，则认为耳机佩戴者可能处于讲话状态，然后进入步骤5。如果多帧骨传导语音信号的中低频能量小于设定阈值，算法则认为耳机佩戴者无说话活动,然后进入步骤4；

4、通话麦克风信号噪声跟踪：当检测到耳机佩戴者处于无讲话状态时，通话麦克风采集到的信号则都被认定为噪声信号，则对通话麦克风采集的信号进行处理，更新通话麦克风的噪声谱；

5、音频信号特征提取：检测到耳机佩戴者可能处于讲话状态，分别提取骨传导语音信号特征和通话麦克风语音信号特征，其中，该特征包括但不限于“信号的短时能量”、“信号的短时过零率”、“信号的短时平均幅度差”、“信号的倒谱系数”以及“信号的对数梅尔频谱”等；

6、二级检测多帧决策模型：将多帧骨传导语音信号和多帧通话麦克风信号分别送入多帧决策模型进行决策完成二级检测；

7、模式切换：使用步骤6中的决策结果，当决策结果为有语音活动，则将耳机切换至通透模式或人声增强模式(语音增强模式)，反之，则保持原耳机状态。

为了实现上述实施例，本公开提出一种耳机的模式切换装置。

图8为本公开实施例所提供的一种耳机的模式切换装置的结构示意图。

如图8所示，该耳机的模式切换装置800包括：获取模块810、识别模块820、预测模块830和控制模块840。

其中，获取模块810，用于获取耳机的骨传导传感器采集的振动信号，以及获取耳机的前馈或通话麦克风同步采集的第一音频信号；识别模块820，用于至少根据振动信号的能量值，识别耳机佩戴者存在说话行为的第一概率值；预测模块830，用于对经过降噪处理的第一音频信号进行幅度谱的特征提取，并至少基于第一音频信号提取的幅度谱特征，预测耳机佩戴者存在说话行为的第二概率值；控制模块840，用于根据第一概率值和第二概率值，控制耳机在降噪模式和非降噪模式之间进行切换。

作为本公开实施例的一种可能的实现方式，识别模块820，具体用于：根据振动信号的能量值和耳机的扬声器同步播放的第二音频信号的能量值，识别耳机佩戴者存在说话行为的第一概率值。

作为本公开实施例的一种可能的实现方式，识别模块820，还用于：振动信号以及同步播放的第二音频信号均为多帧的情况下，确定符合设定条件的帧数，其中，设定条件包括振动信号的设定低频分量的能量值大于第一能量值，且同步播放的第二音频信号的能量值小于第二能量值；帧数大于或等于第一阈值数量，则确定第一概率值为第一取值；帧数小于第一阈值数量，则确定第一概率值为第二取值，其中，第二取值小于第一取值。

作为本公开实施例的一种可能的实现方式，识别模块820，具体用于：在振动信号为多帧的情况下，对多帧振动信号进行能量值的平滑处理；基于平滑后的能量值，从多帧中，确定出设定低频分量的能量值大于第一能量值的目标振动信号；目标振动信号的帧数大于或等于第二阈值数量，则确定第一概率值为第一取值；目标振动信号的帧数小于第二阈值数量，则确定第一概率值为第二取值，其中，第二取值小于第一取值。

作为本公开实施例的一种可能的实现方式，耳机的模式切换装置800还包括：降噪模块和更新模块。

其中，降噪模块，用于在第一概率值大于或等于概率阈值的情况下，采用已有噪声谱对第一音频信号进行降噪处理；更新模块，用于在第一概率值小于概率阈值的情况下，基于第一音频信号对所述噪声谱进行更新。

作为本公开实施例的一种可能的实现方式，预测模块830，具体用于：将任一帧第一音频信号的幅度谱特征作为输入特征，进行语音激活检测，以识别语音边界；在从第一音频信号中识别出语音边界的情况下，则确定第二概率值为第一取值；在未从第一音频信号中识别出语音边界的情况下，则确定第二概率值为第二取值，其中，第二取值小于第一取值。

作为本公开实施例的一种可能的实现方式，输入特征还包括同步采集的振动信号的幅度谱特征。

作为本公开实施例的一种可能的实现方式，控制模块840，具体用于：对第一概率值，以及基于各帧第一音频信号预测出的第二概率值进行加权，以得到目标概率；在目标概率大于或等于切换阈值的情况下，控制耳机从降噪模式切换至非降噪模式；在目标概率小于切换阈值的情况下，控制耳机从非降噪模式切换至降噪模式；其中，非降噪模式包括通透模式和/或语音增强模式。

本公开实施例的耳机的模式切换装置，通过获取耳机的骨传导传感器采集的振动信号，以及获取耳机的前馈或通话麦克风同步采集的第一音频信号；至少根据振动信号的能量值，识别耳机佩戴者存在说话行为的第一概率值；对经过降噪处理的第一音频信号进行幅度谱的特征提取，并至少基于第一音频信号提取的幅度谱特征，预测耳机佩戴者存在说话行为的第二概率值；根据第一概率值和第二概率值，控制耳机在降噪模式和非降噪模式之间进行切换，由此，根据耳机的骨传导传感器采集的振动信号和前馈或通话麦克风同步采集的第一音频信号共同判断耳机佩戴者是否存在说话行为，提高了耳机佩戴者是否存在说话的识别准确性，并且在耳机佩戴者存在说话行为时，控制耳机自动切换为非降噪模式，在耳机佩戴者不存在说话行为时，控制耳机自动切换为降噪模式，无需耳机佩戴者手动对耳机进行模式切换，改善了用户体验。

需要说明的是，前述对耳机的模式切换方法实施例的解释说明也适用于该实施例的耳机的模式切换装置，此处不再赘述。

为了实现上述实施例，本公开还提出一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实施例所述的耳机的模式切换方法。

为了实现上述实施例，本公开还提出一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使所述计算机执行上述实施例所述的耳机的模式切换方法。

为了实现上述实施例，本公开还提出一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现上述实施例所述的耳机的模式切换方法。

图9是根据一示例性实施例示出的一种电子设备的框图。例如，电子设备900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，电子设备900可以包括以下一个或多个组件：处理组件902，存储器904，电力组件906，多媒体组件908，音频组件910，输入/输出(I/O)接口912，传感器组件914，以及通信组件916。

处理组件902通常控制电子设备900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在电子设备900的操作。这些数据的示例包括用于在电子设备900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件906为电子设备900的各种组件提供电力。电力组件906可以包括电源管理系统，一个或多个电源，及其他与为电子设备900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述电子设备900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当电子设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当电子设备900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为电子设备900提供各个方面的状态评估。例如，传感器组件914可以检测到电子设备900的打开/关闭状态，组件的相对定位，例如所述组件为电子设备900的显示器和小键盘，传感器组件914还可以检测电子设备900或电子设备900一个组件的位置改变，用户与电子设备900接触的存在或不存在，电子设备900方位或加速/减速和电子设备900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于电子设备900和其他设备之间有线或无线方式的通信。电子设备900可以接入基于通信标准的无线网络，如WiFi，4G或5G，或它们的组合。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由电子设备900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种耳机的模式切换方法，其特征在于，包括：

获取耳机的骨传导传感器采集的振动信号，以及获取所述耳机的前馈或通话麦克风同步采集的第一音频信号；

至少根据所述振动信号的能量值，识别耳机佩戴者存在说话行为的第一概率值；

对经过降噪处理的所述第一音频信号进行幅度谱的特征提取，并至少基于所述第一音频信号提取的幅度谱特征，预测所述耳机佩戴者存在说话行为的第二概率值；

根据所述第一概率值和所述第二概率值，控制所述耳机在降噪模式和非降噪模式之间进行切换。

2.根据权利要求1所述的方法，其特征在于，所述至少根据所述振动信号的能量值，识别耳机佩戴者存在说话行为的第一概率值，包括：

根据所述振动信号的能量值和所述耳机的扬声器同步播放的第二音频信号的能量值，识别耳机佩戴者存在说话行为的所述第一概率值。

3.根据权利要求2所述的方法，其特征在于，所述根据所述振动信号的能量值和所述耳机的扬声器同步播放的第二音频信号的能量值，识别耳机佩戴者存在说话行为的所述第一概率值，包括：

所述振动信号以及同步播放的第二音频信号均为多帧的情况下，确定符合设定条件的帧数，其中，所述设定条件包括振动信号的设定低频分量的能量值大于第一能量值，且同步播放的所述第二音频信号的能量值小于第二能量值；

所述帧数大于或等于第一阈值数量，则确定所述第一概率值为第一取值；

所述帧数小于所述第一阈值数量，则确定所述第一概率值为第二取值，其中，所述第二取值小于所述第一取值。

4.根据权利要求1所述的方法，其特征在于，所述至少根据所述振动信号的能量值，识别耳机佩戴者存在说话行为的第一概率值，包括：

在所述振动信号为多帧的情况下，对多帧所述振动信号进行能量值的平滑处理；

基于平滑后的能量值，从多帧中，确定出设定低频分量的能量值大于第一能量值的目标振动信号；

所述目标振动信号的帧数大于或等于所述第二阈值数量，则确定所述第一概率值为第一取值；

所述目标振动信号的帧数小于所述第二阈值数量，则确定所述第一概率值为第二取值，其中，所述第二取值小于所述第一取值。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

在所述第一概率值大于或等于概率阈值的情况下，采用已有噪声谱对所述第一音频信号进行降噪处理；

在所述第一概率值小于所述概率阈值的情况下，基于所述第一音频信号对所述噪声谱进行更新。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述至少基于所述第一音频信号提取的幅度谱特征，预测所述耳机佩戴者存在说话行为的第二概率值，包括：

将任一帧第一音频信号的幅度谱特征作为输入特征，进行语音激活检测VAD，以识别语音边界；

在从所述第一音频信号中识别出语音边界的情况下，则确定所述第二概率值为第一取值；

在从所述第一音频信号中识别出语音边界的情况下，则确定所述第二概率值为第二取值，其中，所述第二取值小于所述第一取值。

7.根据权利要求6所述的方法，其特征在于，所述输入特征还包括同步采集的振动信号的幅度谱特征。

8.根据权利要求6所述的方法，其特征在于，所述根据所述第一概率值和所述第二概率值，控制所述耳机在降噪模式和非降噪模式之间进行切换，包括：

对所述第一概率值，以及基于各帧所述第一音频信号预测出的所述第二概率值进行加权，以得到目标概率；

在所述目标概率大于或等于切换阈值的情况下，控制所述耳机从所述降噪模式切换至所述非降噪模式；

在所述目标概率小于所述切换阈值的情况下，控制所述耳机从所述非降噪模式切换至所述降噪模式；其中，所述非降噪模式包括通透模式和/或语音增强模式。

9.一种耳机的模式切换装置，其特征在于，包括：

获取模块，用于获取耳机的骨传导传感器采集的振动信号，以及获取所述耳机的前馈或通话麦克风同步采集的第一音频信号；

识别模块，用于至少根据所述振动信号的能量值，识别耳机佩戴者存在说话行为的第一概率值；

预测模块，用于对经过降噪处理的所述第一音频信号进行幅度谱的特征提取，并至少基于所述第一音频信号提取的幅度谱特征，预测所述耳机佩戴者存在说话行为的第二概率值；

控制模块，用于根据所述第一概率值和所述第二概率值，控制所述耳机在降噪模式和非降噪模式之间进行切换。

10.根据权利要求9所述的装置，其特征在于，所述识别模块，具体用于：

11.根据权利要求10所述的装置，其特征在于，所述识别模块，还用于：

12.根据权利要求9所述的装置，其特征在于，所述识别模块，具体用于：

13.根据权利要求9-12任一项所述的装置，其特征在于，所述装置还包括：

降噪模块，用于在所述第一概率值大于或等于概率阈值的情况下，采用已有噪声谱对所述第一音频信号进行降噪处理；

更新模块，用于在所述第一概率值小于所述概率阈值的情况下，基于所述第一音频信号对所述噪声谱进行更新。

14.根据权利要求9-12任一项所述的装置，其特征在于，所述预测模块，具体用于：

在未从所述第一音频信号中识别出语音边界的情况下，则确定所述第二概率值为第二取值，其中，所述第二取值小于所述第一取值。

15.根据权利要求14所述的装置，其特征在于，所述输入还包括同步采集的振动信号的幅度谱特征。

16.根据权利要求15所述的装置，其特征在于，所述控制模块，具体用于：

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。