CN112017696B

CN112017696B - 耳机的语音活动检测方法、耳机及存储介质

Info

Publication number: CN112017696B
Application number: CN202010953526.7A
Authority: CN
Inventors: 陈国明
Original assignee: Goertek Techology Co Ltd
Current assignee: Goertek Techology Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2024-02-09
Anticipated expiration: 2040-09-10
Also published as: US20230352038A1; WO2022052244A1; CN112017696A

Abstract

本发明公开了一种耳机的语音活动检测方法，包括：将第一时域麦克信号转换成频域麦克信号，并将第一时域骨导信号转换成频域骨导信号；根据所述频域麦克信号以及所述频域骨导信号获取相干系数；根据所述频域骨导信号获取频谱能量；根据所述相干系数以及所述频谱能量确定所述耳机检测到语音或噪音。本发明还公开一种耳机以及存储介质。通过相干系数判断麦克信号与骨导信号的相关度，在判定在麦克信号与骨导信号的相关度高时，进一步根据频谱能量判定耳机获取到的音频为语音或噪音，防止将低能量的麦克信号判为语音，提高判定语音与噪音的准确度。

Description

耳机的语音活动检测方法、耳机及存储介质

技术领域

本发明涉及无线通讯技术领域、尤其涉及一种耳机的语音活动检测方法、耳机及存储介质。

背景技术

语音增强是解决噪声污染的有效方法，可从带噪语音中提取干净的语音信号，减少听众的听觉疲劳程度，目前被广泛应用于数字移动电话、汽车中Hands-free电话系统、电话会议以及为听力障碍者降低背景干扰等场合。

现有技术中通过VAD(Voice Activated Detection，语音激活检测)判断当前处理的信号帧属于语音信号还是噪音信号，通过VAD提取声音信号中的声音特征，根据声音特征判断声音信号是噪音还是语音，存在识别准确性低的问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明实施例的主要目的在于提供一种耳机的语音活动检测方法，旨在解决现有技术中通过VAD判断声音信号是噪音还是语音，存在识别准确性低的技术问题。

为解决上述问题，本发明实施例提供一种耳机的语音活动检测方法，包括以下内容：

将耳机的麦克风采集的第一时域麦克信号转换成频域麦克信号，并将所述耳机的骨声纹传感器采集的第一时域骨导信号转换成频域骨导信号，其中，所述第一时域麦克信号与所述第一时域骨导信号的采集时间段相同；

根据所述频域麦克信号以及所述频域骨导信号获取相干系数；

根据所述频域骨导信号获取频谱能量；

根据所述相干系数以及所述频谱能量确定所述耳机检测到语音或噪音。

可选地，所述根据所述频域麦克信号以及所述频域骨导信号获取相干系数的步骤包括：

获取所述频域麦克信号在第一预设频段中各个子带的子频域麦克信号；

获取所述频域骨导信号在第一预设频段中各个子带的子频域骨导信号；

根据各个所述子带的子频域麦克信号以及各个所述子带的子频域骨导信号获取所述相干系数。

可选地，所述根据各个所述子带的子频域麦克信号以及各个所述子带的子频域骨导信号获取所述相干系数的步骤包括：

根据各个所述子带的子频域麦克信号获取所述频域麦克信号在所述第一预设频段的麦克子带能量；

根据各个所述子带的子频域骨导信号获取所述频域骨导信号在所述第一预设频段的骨导子带能量；

根据同一所述子带对应的子频域麦克信号与子频域骨导信号获取各个所述子带的互相关系数；

根据各个所述子带的互相关系数、所述麦克子带能量以及所述骨导子带能量获取所述相干系数。

可选地，所述根据所述频谱骨导信号获取频谱能量的步骤还包括：

获取所述频域骨导信号在第二预设频段中各个子带的子频域骨导信号；

根据各个所述子频域骨导信号获取所述频谱能量。

可选地，所述根据所述相干系数以及所述频谱能量确定所述耳机检测到语音或噪音的步骤包括：

在所述相干系数大于或等于预设相干系数，且所述频谱能量大于或等于预设频谱能量时，确认所述耳机检测到语音；

在所述相干系数小于所述预设相干系数，或所述频谱能量小于所述预设频谱能量时，确认所述耳机检测到噪音。

可选地，所述确认所述耳机检测到语音的步骤之后，还包括：

分别对所述频域麦克信号以及所述频域骨导信号进行噪音消除；

将噪音消除后的所述频谱麦克信号转换成第二时域麦克信号，将噪音消除后的频域骨导信号转换成第二时域骨导信号；

对所述第二时域麦克信号以及所述第二时域骨导信号混合处理并输出。

可选地，所述分别对所述频域麦克信号以及所述频域骨导信号进行噪音消除的步骤包括：

获取所述耳机的历史麦克噪声功率谱密度以及历史骨导噪声功率谱密度；

根据所述频域麦克信号以及所述历史麦克噪声功率谱密度对所述频域麦克信号进行噪音消除；

根据所述频域骨导信号以及所述历史骨导噪声功率谱密度对所述频域骨导信号进行噪音消除。

可选地，获取相干系数以及频谱能量的步骤之后，所述根据所述相干系数以及所述频谱能量确定所述耳机检测到语音或噪音的步骤之后，所述耳机的语音活动检测方法还包括：

确认所述耳机检测到噪音时，根据所述历史麦克噪声功率谱密度以及所述频域麦克信号获取麦克噪声功率谱密度；

根据所述历史骨导噪声功率谱密度以及所述频域骨导信号获取骨导噪声功率谱密度；

将所述历史麦克噪声功率谱密度更新为所述麦克噪声功率谱密度；

将所述历史骨导噪声功率谱密度更新为所述骨导噪声功率谱密度。

此外，为解决上述问题，本发明实施例还提供一种耳机，所述耳机包括麦克风、骨声纹传感器、处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的耳机的语音活动检测程序，所述耳机的语音活动检测程序被所述处理器执行时实现如上所述的耳机的语音活动检测方法的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有耳机的语音活动检测程序，所述耳机的语音活动检测程序被处理器执行时实现如上所述的耳机的语音活动检测方法的步骤。

本发明实施例提出的一种耳机的语音活动检测方法，通过将第一时域麦克信号转换成频域麦克信号，将第一时域骨导信号转换成频域骨导信号，根据频域麦克信号以及频域骨导信号获取相干系数，根据频域骨导信号获取频域能量，根据相干系数、频域能量确认当前语音帧为语音或噪音，通过相干系数判断麦克信号与骨导信号的相关度，在判定在麦克信号与骨导信号的相关度高时，进一步参照频谱能量判定耳机检测到语音或噪音，防止将低能量的麦克信号判为语音，提高判定语音与噪音的准确度。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的耳机结构示意图；

图2为本发明耳机的语音活动检测方法第一实施例的流程示意图；

图3为图2中步骤S400之后涉及的流程示意图；

图4为本发明耳机的语音活动检测方法第二实施例的流程示意图；

图5为图4中步骤S230的细化流程示意图；

图6为本发明耳机的语音活动检测方法第三实施例的流程示意图；

图7为本发明耳机的语音活动检测方法第四实施例的流程示意图；

图8为本发明耳机的语音活动检测方法第五实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：耳机获取的音频经所述耳机的麦克风处理，由第一时域麦克信号转换成频域麦克信号，所述耳机获取的音频经所述耳机的骨声纹传感器处理，由第一时域骨导信号转换成频域骨导信号；根据所述频域麦克信号以及所述频域骨导信号获取相干系数；根据所述频域骨导信号获取频谱能量；根据所述相干系数以及所述频谱能量确定所述耳机检测到语音或噪音。

由于现有技术中通过VAD判断声音信号是噪音还是语音，存在识别准确性低的技术问题。

本发明实施例提供一种解决方案，通过将第一时域麦克信号转换成频域麦克信号，将第一时域骨导信号转换成频域骨导信号，根据频域麦克信号以及频域骨导信号获取相干系数，根据频域骨导信号获取频域能量，根据相干系数、频域能量确认当前语音帧为语音或噪音，通过相干系数判断麦克信号与骨导信号的相关度，在判定在麦克信号与骨导信号的相关度高时，进一步参照频谱能量判定耳机获取到的音频为语音或噪音，防止将低能量的麦克信号判为语音，提高判定语音与噪音的准确度。

如图1所示，图1为本发明实施例方案涉及的硬件运行环境的耳机结构示意图。

本发明实施例的执行主体可以是耳机。耳机可以是有线耳机、也可以是无线耳机如TWS(True Wireless Stereo，真正无线立体声)蓝牙耳机。

如图1所示，该耳机可以包括：处理器1001，例如CPU、IC芯片，通信总线1002，存储器1003，麦克风1004，以及骨声纹传感器1005。其中，通讯总线1002用于实现这些组件之间的连接通信。存储器1003可以是高速RAM存储器，也可以是稳定的存储器(non-volatilememory)，如磁盘存储器。存储器1003可选地还可以是独立于前述处理器1001的存储装置。麦克风1004用于采集通过空气传导的声音信号，采集的声音信号可用于实现通话以及降噪功能。骨声纹传感器1005用于采集通过颅骨、颌骨等传导的振动信号，采集的振动信号用于实现降噪功能。

进一步地，耳机还可以包括：电池组件、触碰组件、LED灯、传感器以及喇叭。电池组件则用来给耳机供电；触碰组件用于实现触碰功能，可以是按键；LED灯用于提示耳机的工作状态，如开机提示、充电提示、终端连接提示等；传感器可以包括重力加速度传感器、振动传感器以及陀螺仪等，用于检测耳机的状态，从而判断当前佩戴该耳机的用户的身体动作状态；对于喇叭，可以包括两个以上的喇叭，例如耳机的每只耳机均设置两个喇叭，一个动圈喇叭，一个动铁喇叭，动圈喇叭在中低频率响应较好，动铁喇叭在中高频部分响应比较好，两个喇叭同时使用，通过处理器的分频功能把动铁喇叭并联在动圈喇叭上，使人耳听到整个音频频段的声波。

本领域技术人员可以理解，图1示出的耳机的结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1003可以包括操作系统以及耳机的语音活动检测程序，而处理器1001可以用于调用存储器1003中存储的耳机的语音活动检测程序。

基于上述终端的结构，提出本发明第一实施例，参照图2，图2为本发明耳机的语音活动检测方法第一实施例的流程示意图，所述耳机的语音活动检测方法包括以下步骤：

步骤S100，将耳机的麦克风采集的第一时域麦克信号转换成频域麦克信号，并将所述耳机的骨声纹传感器采集的第一时域骨导信号转换成频域骨导信号，其中，所述第一时域麦克信号与所述第一时域骨导信号的采集时间段相同；

声波可通过两条路径传入内耳，包括空气传导和骨传导。空气传导是指声波经耳廓由外耳道传递到中耳，再经听耳链传到内耳，语音频谱成分比较丰富。骨传导是指声波通过颅骨、颌骨等振动传到内耳。在骨传导中，声波无需通过外耳和中耳也可以传递到内耳。

骨声纹传感器包括骨导麦克风，只能采集与骨导麦克风直接接触并产生振动的声音信号，不能采集通过空气传播的声音信号，不受环境噪音的干扰，适用于噪声环境下的语音传输。由于工艺影响，骨声纹传感器只能采集并传送频率较低的声音信号，导致声音听起来比较沉闷。

在本实施例中，耳机实时将耳机的麦克风采集的第一麦克时域信号转换成频域麦克信号，将耳机的骨声纹处理器采集的第一骨导时域信号转换成频域骨导信号。其中，耳机包括麦克风以及骨声纹传感器。麦克风采集的第一麦克频域信号与骨声纹传感器采集的第一时域骨导信号是在同一时间段采集的，且麦克风以及骨声纹传感器位于同一耳机，则两者采集的频域信号为耳机所在环境相同的声源发出的音频，即同一音频通过麦克风采集后转换为第一麦克时域信号，而通过骨声纹处理器采集后转换为第一骨导时域信号。

可选地，耳机可采用一个或多个麦克风实时采集通过空气传导的声音信号，包括耳机周围的环境噪声以及耳机佩戴者本身发出的通过空气传导的声音信号，得到第一时域麦克信号。耳机包括多个麦克风时，可将各个麦克风采集的麦克信号进行波束成形处理，得到第一时域麦克信号。

可选地，耳机通过骨声纹传感器实时采集通过颅骨、颌骨等传导的振动信号，得到第一时域骨导信号。第一时域麦克信号和第一时域骨导信号均由模拟信号转换而成的数字信号。

第一时域麦克信号经傅里叶变换由时域转换成频域，得到频域麦克信号。第一时域骨导信号经傅里叶变换由时域转换成频域，得到频域骨导信号。

步骤S200，根据所述频域麦克信号以及所述频域骨导信号获取相干系数；

相干系数用于反映频域麦克信号以及频域骨导信号之间的相关度，相干系数与相关度呈正相关，相干系数越大，相关度越高。

由于通过空气传导的声音信号，无可避免会受到环境噪音的污染，但通过骨声纹传感器采集的骨导信号，没有通过空气传导，不受环境的污染。对于语音而言，麦克信号与骨导信号之间的相关度较高，相干系数大；对于噪音而言，麦克信号中包含有空气传导的噪音，麦克信号与骨导信号之间的相关度较低，相干系数小。

可以理解的是，若当前获取到的频域麦克信号中的噪音信号占比较大，那么频域麦克信号与频域骨导信号之间的相关度较低，相干系数小；若当前获取到的频域麦克信号中的语音信号较纯净，那么频域麦克信号与频域骨导信号之间的相关度较高，相干系数大。

耳机可根据频域麦克信号以及频域骨导信号获取相干系数。

可选地，可根据频域麦克信号以及频域骨导信号获取频域麦克信号与频域骨导信号之间的互功率谱密度，可获取频域麦克信号的功率谱密度以及频域骨导信号的功率谱密度，根据互功率谱密度、频域麦克信号的功率谱密度以及频域骨导信号的功率谱密度计算出相干系数。

步骤S300，根据所述频域骨导信号获取频谱能量；

耳机可根据频域骨导信号获取频谱能量。频谱能量用于衡量频域骨导信号在低频段的能量大小。

步骤S400，根据所述相干系数以及所述频谱能量确定所述耳机检测到语音或噪音。

可根据相干系数判定频域麦克信号与频域骨导信号之间的相关度，在相关度低时，判定当前得到的频域麦克信号以及频域骨导信号为噪音，或者判定耳机检测到的音频信号为噪音；反之，进一步根据频谱能量的高低判断为语音或噪音，在频谱能量低时，判定当前得到的频谱麦克信号以及频谱骨导信号为噪音，或者判定耳机检测到的音频信号为噪音；在相关度高、频谱能量高时，判定当前得到的频谱麦克信号以及频谱骨导信号为语音，或者判定耳机检测到的音频信号为语音。

作为一种可选的实施方式，步骤S400包括：

预设相干系数以及预设频谱能量可根据实际需求或麦克风以及骨声纹传感器进行相应地调整，可由设计人员进行自定义。在相干系数大于或等于预设相干系数，且频谱能量大于或等于预设频谱能量时，可判定耳机当前检测到的音频信号为语音，分别对频谱麦克信号以及频谱骨导信号进行噪音消除。在相干系数小于预设相干系数，或频谱能量小于预设频谱能量时，可判定当前耳机检测到的音频信号为噪音。

对频谱麦克信号以及频谱骨导信号进行噪音消除可包括谱减法、维纳滤波、MMSE最小均方误差方法、子空间方法、小波变换方法以及基于神经网络的降噪算法等。

可选地，步骤S400之后，还包括：

确认所述耳机检测到噪音时，输出静音信号。

在相干系数小于预设相干系数，或频谱能量小预设频谱能量时，判定当前检测到的音频信号为噪音，直接输出静音信号，其中，静音信号对应的时域幅值为0。如此，可有效减少噪音对上行通话的影响。

作为一种可选的实施方式，参照图3，步骤S400之后，还包括：

步骤S500，分别对所述频域麦克信号以及所述频域骨导信号进行噪音消除；

步骤S600，将噪音消除后的所述频谱麦克信号转换成第二时域麦克信号，将噪音消除后的频域骨导信号转换成第二时域骨导信号；

步骤S700，对所述第二时域麦克信号以及所述第二时域骨导信号混合处理并输出。

对第二时域麦克信号以及第二时域骨导信号混合处理，得到混合声音信号，输出混合声音信号，以用于上行链路的通话。

将噪音消除后的频谱麦克信号经反傅里叶变换由频域转换成时域，得到第二时域麦克信号。将噪音消除后的频谱骨导信号经反傅里叶变换由频域转换成时域，得到第二时域骨导信号。

分别对频域麦克信号以及频域骨导信号进行噪音消除，消除环境噪声的同时，在强噪声条件下，骨声纹传感器低频信号保真度远好于麦克风的低频信号的保真度，从而提高上行语音频信号质量，提高低频信号的清晰度，使输出的上行链路通话具有更好的识别度的有益效果。

可选地，可采用高通滤波对第二时域麦克信号进行处理，并采用低通滤波对第二时域骨导信号进行处理；混合处理后的第二时域麦克信号以及处理后的第二时域骨导信号，得到混合声音信号，并输出混合声音信号。

采用高通滤波对第二时域麦克信号进行处理，以对第二时域麦克信号低频段的信号进行阻隔、减弱处理；采用低通滤波对第二时域骨导信号进行处理，以对第二时域骨导信号高频端的信号进行阻隔、减弱处理。将处理后的第二时频麦克信号以及处理后的第二时频骨导信号进行混合，得到混合声音信号，并输出混合声音信号，以用于上行链路的通话。

在本实施例中，通过将第一时域麦克信号转换成频域麦克信号，将第一时域骨导信号转换成频域骨导信号，根据频域麦克信号以及频域骨导信号获取相干系数，根据频域骨导信号获取频域能量，根据相干系数、频域能量确认当前语音帧为语音或噪音，通过相干系数判断麦克信号与骨导信号的相关度，在判定在麦克信号与骨导信号的相关度高时，进一步参照频谱能量判定耳机检测到语音或噪音，防止将低能量的麦克信号判为语音，提高判定语音与噪音的准确度。

基于上述第一实施例，参照图,4，图4为本发明耳机的语音活动检测方法第二实施例的流程示意图，步骤S200包括：

步骤S210，获取所述频域麦克信号在第一预设频段中各个子带的子频域麦克信号；

步骤S220，获取所述频域骨导信号在第一预设频段中各个子带的子频域骨导信号；

步骤S230，根据各个所述子带的子频域麦克信号以及各个所述子带的子频域骨导信号获取所述相干系数。

第一时域麦克信号以及第一时域骨导信号经傅里叶转换后，可得到预设带宽的频谱，如0-8000Hz。可将带宽划分成频率间隔相等的子带，如将0-8000Hz的带宽划分为128个子带，每个子带宽为62.5Hz。第一预设频段为预设带宽中的一部分，可根据需求或效果进行设置，如0-4000Hz，共64个子带。

获取频域麦克信号在第一预设频段中各个子带的子频域麦克信号；获取频域麦克信号在第一预设频段中各个子带的子频域骨导信号。根据各个子带的子频域麦克信号以及各个子带的子频域骨导信号获取相干系数。

作为一种可选的实施方式，参照图5，步骤S230包括：

步骤S231，根据各个所述子带的子频域麦克信号获取所述频域麦克信号在所述第一预设频段的麦克子带能量；

步骤S232，根据各个所述子带的子频域骨导信号获取所述频域骨导信号在所述第一预设频段的骨导子带能量；

步骤S233，根据同一所述子带对应的子频域麦克信号与子频域骨导信号获取各个所述子带的互相关系数；

步骤S234，根据各个所述子带的互相关系数、所述麦克子带能量以及所述骨导子带能量获取所述相干系数。

耳机根据各个子带的子频域麦克信号获取频域麦克信号在第一预设频段的麦克子带能量。进一步地，在第一预设频段的麦克子带能量等于各个子带的子频域麦克信号的模的平方和。

耳机根据各个子带的子频域骨导信号获取频域骨导信号在第一预设频段的骨导子带能量。进一步地，在第一预设频段的骨导子带能量等于各个子带的子骨导信号的模的平方和。

耳机根据同一子带对应的子频域麦克信号与子频域骨导信号获取第一预设频段中各个子带的互相关系数。进一步地，子带的互相关系数等于对应的子频域麦克信号与子频域骨导信号之积。

耳机根据各个子带的互相关系数、麦克子带能量以及骨导子带能量获取相干系数。进一步地，耳机可根据各个子带的互相关系数得到第一预设频段的互相关系数之和，其中，互相关系数之和等于各个子带的互相关系数之和。耳机可根据互相关系数之和、麦克子带能量以及骨导子带能量得到相干系数。

进一步地，相干系数等于互相关系数之和与(麦克子带能量以及骨导子带能量的平方根)的比值。

可选地，相干系数满足以下公式：

以第一预设频段为0-4000Hz，64个子带为例。Φ为相干系数，k为第一预设频段中子带序号，Y₁(k)为子带序号为k时，对应的子频域麦克信号；Y₂(k)为子带序号为k时，对应的子频域骨导信号。

在本实施例中，通过获取在第一预设频段中各个子带对应的子频域麦克信号以及子频域骨导信号，根据各个子带的子频域麦克信号以及子频域骨导信号获取相干系数，通过设置合适的第一预设频段，以及结合各个子带的子频域麦克信号与子频域骨导信号获取子频域麦克信号与子频域骨导信号之间的相关度，根据各个子带中子频域麦克信号与子频域骨导信号之间的相关度获取相干系数，使相干系数更具统计意义，得到的相干系数更加精准，用于判断噪音还是语音更加符合实际的有益效果。

基于上述任一实施例，参照图6，图6为本发明耳机的语音活动检测方法第三实施例的流程示意图，步骤S300包括：

步骤S310，获取所述频域骨导信号在第二预设频段中各个子带的子频域骨导信号；

步骤S320，根据各个所述子频域骨导信号获取所述频谱能量。

在本实施例中，第二预设频段可选取于第二实施例中的同一预设带宽，如0-8000Hz。第二预设频段为预设带宽中的一部分，可根据需求或实际效果进行设置，如0-2000Hz，共32个子带。

获取频域骨导信号在第二预设频段中各个子带的子频域骨导信号，根据各个子带的子频域骨导信号获取频谱能量。进一步地，频谱能量等于各个子带的子频域骨导信号的模的平方和。进一步地，可根据子频域骨导信号获取各个子带的子频域能量，根据各个子带的子频域能量获取频域能量，其中，子带的子频域能量等于该子带的子频域骨导信号的模的平方，频域能量等于各个子带的子频域能量之和。

可选地，频域能量满足以下公式：

以第一预设频段为0-2000Hz，32个子带为例。E_g为频谱能量，k为第一预设频段中子带序号，Y₂(k)为子带序号为k时，对应的子频域骨导信号。

在本实施例中，通过获取第二预设频段中各个子带的子频域骨导信号，根据各个子带的子频域骨导信号获取频谱能量，通过设置合适的第二预设频段，根据低频段中各个子带中子频域骨导信号获取频谱能量，使频谱能量的获取更具实际意义，同时更精准地反映频谱能量的大小，使语音识别更加精准；进一步地，由于声音信号的频率较低时，频域麦克信号与频域骨导信号的相干系数也可能较大，容易造成将噪音误判成语音，结合频谱能量可有效排除低能量时误判的有益效果。

基于上述任一实施例，参照图7，图7为本发明耳机的语音活动检测方法第四实施例的流程示意图，步骤S500包括：

步骤S510，获取所述耳机的历史麦克噪声功率谱密度以及历史骨导噪声功率谱密度；

步骤S520，根据所述频域麦克信号以及所述历史麦克噪声功率谱密度对所述频域麦克信号进行噪音消除；

步骤S530，根据所述频域骨导信号以及所述历史骨导噪声功率谱密度对所述频域骨导信号进行噪音消除。

耳机存储有上一次检测到的麦克噪声信号以及骨导噪声信号。历史麦克噪音功率谱密度可以是耳机识别的上一次麦克噪音信号；历史骨导噪音功率谱密度可以是耳机识别的上一次骨导噪音信号。

耳机可根据频谱麦克信号以及历史麦克噪音功率谱密度对频谱麦克信号进行消除以及增强。进一步地，可根据频域麦克信号以及历史麦克噪音功率谱密度获取对应的增益函数，根据增益函数以及频谱麦克信号对频域麦克信号进行噪音消除与增强。

耳机可根据频谱骨导信号以及历史骨导噪音功率谱密度对频谱骨导信号进行消除以及增强。进一步地，可根据频域骨导信号以及历史骨导噪音功率谱密度获取对应的增益函数，根据增益函数以及频谱骨导信号对频域骨导信号进行噪音消除与增强。

可选地，对频域麦克信号或频域骨导信号的消除以及增强满足以下公式：

其中，

其中，为噪声消除后的频域麦克信号或噪音消除后的频域骨导信号；H_t(k)为增益函数；γ_t(k)为后验信噪比；λ为过减因子，为一常数，如0.9；P_n(k,t-1)为历史麦克噪音功率谱密度或历史骨导噪音功率谱密度。

在本实施例中，通过获取历史麦克噪音功率谱密度以及历史骨导噪音功率谱密度，根据频域麦克信号以及历史麦克噪音功率谱密度对频域麦克信号进行消除以及增强，根据频域骨导信号以及历史骨导噪音功率谱密度对频域骨导信号进行消除以及增强，根据上一次检测到的噪音信号对当前声音信号进行消除，根据环境噪声以及骨声纹传感器的特点对声音信号进行噪音消除，具有更好的降噪效果，在强噪声条件下，骨声纹传感器低频信号保真度远好于麦克风的低频信号的保真度，从而提高上行语音频信号质量，提高低频信号的清晰度，使输出的上行链路通话具有更好的识别度的有益效果。

基于上述第四实施例，参照图8，图8为本发明耳机的语音活动检测方法第五实施例的流程示意图，步骤S400之后，还包括：

步骤S800，确认所述耳机检测到噪音时，根据所述历史麦克噪声功率谱密度以及所述频域麦克信号获取麦克噪声功率谱密度；

步骤S900，根据所述历史骨导噪声功率谱密度以及所述频域骨导信号获取骨导噪声功率谱密度；

步骤S1000，将所述历史麦克噪声功率谱密度更新为所述麦克噪声功率谱密度；

步骤S1100，将所述历史骨导噪声功率谱密度更新为所述骨导噪声功率谱密度。

在相干系数小于预设相干系数，或频谱能量小于预设频谱能量时，耳机检测到噪音，根据历史麦克噪音功率谱密度以及频域麦克信号获取麦克噪音功率谱密度，根据历史骨导噪音功率谱密度以及频谱骨导信号获取骨导噪音功率谱密度，

进一步地，根据频域麦克信号的模的平方以及历史麦克噪音功率谱密度获取麦克噪音功率谱密度；根据频域骨导信号的模的平方以及历史骨导噪音功率谱密度获取骨导噪音功率谱密度。

可选地，麦克噪音功率谱密度满足以下公式：

P_n1(k,t)＝β*P_n1(k,t-1)+(1-β)*|Y₁(k,t|²

其中，P_n1(k,t)为麦克噪音功率谱密度；P_n1(k,t-1)为历史麦克噪音功率谱密度；β为迭代因子，为一常数，如0.9；t为语音帧编号；k为子带序号。

可选地，骨导噪音功率谱密度满足以下公式：

P_n2(k,t)＝β*P_n2(k,t-1)+(1-β)*|Y₂(k,t)|

其中，P_n2(k,t)为骨导噪音功率谱密度；P_n1(k,t-1)为历史骨导噪音功率谱密度；β为迭代因子，为一常数，如0.9；t为语音帧编号；k为子带序号。

在获取到骨导噪音功率谱密度以及麦克噪音功率谱密度后，将历史麦克噪音功率谱密度更新为麦克噪音功率谱密度，将历史骨导噪音功率谱密度更新为骨导噪音功率谱密度。

在本实施例中，在耳机当前获取到的音频信号为噪音时，获取历史麦克噪音功率谱密度以及历史骨导噪音功率谱密度，根据频域麦克信号以及历史麦克噪音功率谱密度获取麦克噪音功率谱密度，根据频域骨导信号以及历史骨导噪音功率谱密度获取骨导噪音功率谱密度，并更新历史麦克噪音功率谱密度以及历史骨导噪音功率谱密度，及时更新噪音信号，以便根据环境噪声的变化对当前噪音进行消除或增强，以更好地进行降噪的有益效果。

此外，本发明实施例还提供一种耳机，所述耳机包括麦克风、骨声纹传感器、处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的耳机的语音活动检测程序，所述耳机的语音活动检测程序被所述处理器执行时实现如上所述的耳机的语音活动检测方法实施例的内容。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有耳机的语音活动检测程序，所述耳机的语音活动检测程序被处理器执行时实现如上所述的耳机的语音活动检测方法实施例的内容。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台耳机(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种耳机的语音活动检测方法，其特征在于，所述耳机的语音活动检测方法包括以下步骤：

根据所述频域骨导信号获取频谱能量；

根据所述相干系数以及所述频谱能量确定所述耳机检测到语音或噪音；

确认所述耳机检测到语音之后，分别对所述频域麦克信号以及所述频域骨导信号进行噪音消除；

将噪音消除后的所述频域麦克信号转换成第二时域麦克信号，将噪音消除后的频域骨导信号转换成第二时域骨导信号；

2.如权利要求1所述的耳机的语音活动检测方法，其特征在于，所述根据所述频域麦克信号以及所述频域骨导信号获取相干系数的步骤包括：

3.如权利要求2所述的耳机的语音活动检测方法，其特征在于，所述根据各个所述子带的子频域麦克信号以及各个所述子带的子频域骨导信号获取所述相干系数的步骤包括：

4.如权利要求1所述的耳机的语音活动检测方法，其特征在于，所述根据所述频域骨导信号获取频谱能量的步骤还包括：

根据各个所述子频域骨导信号获取所述频谱能量。

5.如权利要求1所述的耳机的语音活动检测方法，其特征在于，所述根据所述相干系数以及所述频谱能量确定所述耳机检测到语音或噪音的步骤包括：

6.如权利要求1所述的耳机的语音活动检测方法，其特征在于，所述分别对所述频域麦克信号以及所述频域骨导信号进行噪音消除的步骤包括：

7.如权利要求6所述的耳机的语音活动检测方法，其特征在于，所述根据所述相干系数以及所述频谱能量确定所述耳机检测到语音或噪音的步骤之后，所述耳机的语音活动检测方法还包括：

8.一种耳机，其特征在于，所述耳机包括麦克风、骨声纹传感器、处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的耳机的语音活动检测程序，所述耳机的语音活动检测程序被所述处理器执行时实现如权利要求1至7中任一项所述的耳机的语音活动检测方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有耳机的语音活动检测程序，所述耳机的语音活动检测程序被处理器执行时实现如权利要求1至7中的任一项所述的耳机的语音活动检测方法的步骤。