CN115841812A

CN115841812A - 语音激活检测模型的训练方法及电子设备和存储介质

Info

Publication number: CN115841812A
Application number: CN202211348068.XA
Authority: CN
Inventors: 李�诚; 张帅兴; 梅剑雄; 董芳芳
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-03-24

Abstract

本发明公开一种语音激活检测模型的训练方法、电子设备和存储介质，其中方法包括：获取语音信号中的音频训练集，利用LogFbank算法提取所述音频训练集中对应的频域特征，得到所述音频训练集对应的特征向量；将所述音频训练集输入支持向量机模型进行训练，得到与所述音频训练集对应的识别模型。本发明实施例通过利用算法来提取音频训练集中对应的特征向量，并将音频训练集输入支持向量机模型训练，获取最终的识别模型，该识别模型能够有效的解决检测模块的误触发，同时资源占用小，功耗低。

Description

语音激活检测模型的训练方法及电子设备和存储介质

技术领域

本发明属于语音激活检测技术领域，尤其涉及一种语音激活检测模型的训练方法及电子设备和存储介质。

背景技术

目前市面上已有真正无线立体声TWS(True Wireless Stereo)蓝牙耳机带有类似触发“对话模式”的功能，例如三星Galaxy Buds2 Pro。其它家的“对话模式”的检测模块主要是通过耳机内部的传感器检测佩戴者说话时的骨导震动信号能量强弱，判断佩戴者是否在说话，从而决策TWS耳机是否需要切换为“对话状态”，切换至对话状态时耳机可以通过关闭降噪模式等让用户可以不用摘耳机就能与他人对话。目前市面上大部分TWS耳机产品“对话模式”的检测模块是通过耳机内置硬件语音活动检测VAD(Voice Activity Detection)实现，通过判断硬件语音拾取骨骼传感器VPU(Voice Pick Up Bone Sensor)传递过来的信号强弱来判断佩戴者是否在说话。由于未对VPU语音信号频谱做详细分析，如果相应传感器本身对一定程度咳嗽、咀嚼等颌骨震动信号敏感，则其无法避免这类动作导致的误触发率，影响用户的使用感受。

在现有技术中主要使用方法为：选用硬件性能优秀的骨震动传感器；提供硬件VAD的阈值。当前高端的TWS耳机旗舰款越来越关注使用者的体验感受，特别是非通话时间平衡ANC(Automatic Noise Canceller)自动降噪深度和用户说话场景，所以部分高端耳机提出“对话模式”，结合耳机的骨震动传感器，让用户无需摘下耳机就可以和他人对话沟通，同时避免他人人声造成的误触发。但随着该功能的引入，真实用户在实际使用时发现：其在餐厅吃饭、耳机播放音乐时，“对话模式”有较高的本人误触发概率，反而让用户体验不是很美好。

发明人发现：现有技术中的产品的“对话模式”强依赖于硬件的拾音性能和检测的准确性，在佩戴者咀嚼等环境下时，存在较高的误触发率，同时现有的语音算法技术无法做到性能优秀的同时，资源占用小，功耗低。

发明内容

本发明实施例旨在至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音激活检测模型的训练方法，包括：获取语音信号中的音频训练集，利用LogFbank算法提取所述音频训练集中对应的频域特征，得到所述音频训练集对应的特征向量；将所述音频训练集输入支持向量机模型进行训练，得到与所述音频训练集对应的识别模型。

第二方面，本发明实施例提供一种语音激活检测方法，用于真正无线立体声耳机，所述耳机包括骨震动传感器，所述方法包括：利用上述的语音激活检测模型对所述骨震动传感器识别到的音频进行语音激活检测，确认所述音频中否包含人声信号；若所述音频中包含所述人声信号且所述人声信号的时长不小于预设时长，则判定所述耳机的佩戴者为说话状态。

第三方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项语音激活检测模型的训练方法。

第四方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音激活检测模型的训练方法。

第五方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音激活检测模型的训练方法。

本发明实施例通过利用算法来提取音频训练集中对应的特征向量，并将音频训练集输入支持向量机模型训练，获取最终的识别模型，该识别模型能够有效的解决检测模块的误触发，同时资源占用小，功耗低。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的语音激活检测模型的训练方法的一实施例的流程图；

图2为本发明的语音激活检测模型的训练方法的另一实施例的流程图；

图3为本发明的语音激活检测方法的一实施例的流程图；

图4为本发明的语音激活检测模型的训练方法中的特征提取实现流程图；

图5为本发明的语音激活检测模型的训练方法实现流程图；

图6为本发明的语音激活检测方法的实现流程图；

图7为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例提供一种语音激活检测模型的训练方法，该方法可以应用于电子设备。电子设备可以是电脑、服务器或者其他电子产品等，本发明对此不作限定。

请参考图1，其示出了本发明一实施例提供的一种语音激活检测模型的训练方法。

如图1所示，在步骤101中，获取语音信号中的音频训练集，利用LogFbank算法提取所述音频训练集中对应的频域特征，得到所述音频训练集对应的特征向量；

在步骤102中，将所述音频训练集输入支持向量机模型进行训练，得到与所述音频训练集对应的识别模型。

在本实施例中，对于步骤101，获取语音信号中的音频训练集，音频训练集包括纯净人声、干扰声、纯噪声的音频训练集；使用LogFbank算法对训练集提取相应的频域特征参数等信息，得到音频训练集对应的特征向量，其中logtBank特征提取算法是基于Bank特征提取结果的基础上再进行一些处理，LogFbank算法计算量较小，且特征的相关性较高,特征之间的相关性可以更好地被深度学习模型利用，以提高识别的准确率，降低计算量。

之后，对于步骤102，将获取到的音频训练集输入至支持向量机模型SVM(supportvector machines)进行训练，通过Hinge Loss损失函数学习纯净人声与其它音频间差异映射关系得到与音频训练集对应的识别模型，其中支持向量机SVM是一种二分类模型，适用于“判定耳机佩戴者是否在说话”的二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机。

本申请实施例的方法通过利用算法来提取音频训练集中对应的特征向量，并将音频训练集输入支持向量机模型训练，获取最终的识别模型，该识别模型能够有效的解决检测模块的误触发，同时资源占用小，功耗低。

在一些可选的实施例中，利用Hinge Loss函数学习纯净人声与其它音频间差异映射关系，得到与音频训练集对应的识别模型，例如，将训练集放入SVM模型进行训练，通过Hinge Loss函数学习纯净人声与其它音频间差异映射关系，得到相应的识别模型，SVM的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。SVM的学习算法就是求解凸二次规划的最优化算法。

在一些可选的实施例中，音频训练集包括纯净人声、干扰声、纯噪声的音频训练集，将获取到的音频中的纯人声、干扰声分别和纯噪声音频进行叠加混合，得到带噪音频，对得到的带噪音频、纯净人声、干扰声、纯噪声分别进行频域特征提取，来获取对应的特征向量，其中干扰人声可以是咳嗽、磕牙等非人声骨骼震动音。

请参考图2，其示出了本发明一实施例提供的另一种语音激活检测模型的训练方法。该流程图主要是对流程图图1中步骤101中“利用LogFbank算法提取所述音频训练集中对应的频域特征，得到所述音频训练集对应的特征向量”进一步限定的步骤的流程图。

如图2所示，在步骤201中，对所述音频训练集进行处理，得到时域信号，其中，所述处理包括分帧、预加重以及加窗；

在步骤202中，对所述时域信号进行快速傅里叶变换，得到与所述时域信号对应的复数矩阵，并获取所述复数矩阵的绝对值或平方值；

在步骤203中，利用Mel滤波获取Fbank特征，对所述Fbank特征进行对数运算，得到最终的特征向量。

在本实施例中，对于步骤201，对输入的音频训练集进行处理，处理包括分帧处理、预加重处理以及加窗处理，对输入的音频训练集进行处理后得到时域信号，其中分帧处理为根据语音信号变化迅速的特性，每一帧的时间长度一般取10-30毫秒，以保证一帧内有足够多的周期，且变化不会过于剧烈，由于原始音频文件是不定长，需要先将其按一定方法切分为固定长度的多个小片段，也就是分帧为了避免时间窗的边界导致信息遗漏的问题，因此，在对从信号中取每一帧的时间窗进行偏移的时候，帧和帧之间有一部分的重叠区域。这个时间窗的偏移量，一般取为帧长的一半，即每一步都偏移一帧的大约二分之一之后的位置，作为时间窗取下一帧的最终位置。这样做的好处是，避免了帧与帧之间的特性变化过大。在本申请中选取时间窗长度为25毫秒，时间窗的偏移量为10毫秒。

预加重处理为对语音信号进行预加重操作，其主要目的是加强语音信号的每一帧中高频部分的信号，以提高其高频信号的分辨率。采用如下公式的一阶高通滤波器进行预加重操作：

H(z)＝1-α×z^-1

其中，α是预加重的系数，其一般的取值范围是0.9＜α＜1.0，通常取0.97。n表示当前处理的是第n帧，其中，第一个n＝0的帧需要特别处理。

加窗处理为消除每个帧的短时信号在其两端边缘处出现的信号不连续性问题。选取的窗函数通常是汉明窗，预加重必须在加窗之前。

汉明窗的窗函数为：

加窗过程为：

S'(n)＝W(n)×S(n)

之后，对于步骤202，对得到的时域信号进行快速傅里叶变换，得到与时域信号对应的复数矩阵，在得到时域信号后，时域中可直接获取的语音信息量较少，在语音信号特征提取时，需要将每一帧的时域信号转换为

根据奈奎斯特定理，对于语音识别常用的16kHz采样率音频，傅里叶变换之后的频率范围为0到8kHz。在得到复数矩阵后计算复数矩阵的绝对值或平方值，在完成了快速傅里叶变换之后，得到的语音特征是一个复数矩阵。这是能量谱，其相位谱包含的信息量少，所以一般丢弃相位谱，保留幅度谱，通常对每一个复数求绝对值或者求平方值实现该步骤。

最后，对于步骤203，利用Mel滤波获取Fbank特征，并对获取的Fbank特征进行对数运算来获取最终的特征向量，Mel滤波的过程是Fbank特征的关键之一。Mel滤波器是由20个三角形带通滤波器组成的，将线性频率转换为非线性分布的Mel频率。

Mel倒谱公式：

Mel滤波器：

Mel滤波公式：

经过Mel滤波后，E_m即为得到的Fbank特征。

在得到Fbank特征后，由于人耳对声音的感受是成对数值增长的，所以需要将数值再进行一次对数运算，以模拟人耳的感受。对纵轴通过取对数进行缩放，可以放大低能量处的能量差异。

本申请实施例的方法通过利用LogFbank算法来提取音频训练集中对应的特征向量，来实现对语音激活检测模型的训练。鉴于本发明的应用对象为TWS耳机的骨震动传感器，其性能为拾取佩戴者的人声音频，频谱集中在50～2KHz间，所以本申请实施例的方法通过利用LogFbank算法来提取骨震动传感器音频训练集中对应的特征向量，尤其是低频细节的放大，来实现对功能激活检测模型的训练。

需要说明的是，logtBank特征提取算法类似于MFCC算法,都是基于Bank特征提取结果的基础上，再进行一些处理，但LogFbank跟MFCC算法的主要区别在于，是否再进行离散余弦变换。LogFbank算法计算量相对MFCC较小，且特征的相关性较高,特征之间的相关性可以更好地被深度学习模型利用，以提高识别的准确率，降低计算量,所以本发明采用LogFbank算法。

需要说明的是，考虑到“对话模式”检测模块的实现原理是通过检测骨震动传感器给出的持续人声信号来判断佩戴者是否在说话进行模式切换，本申请发明的公司在RTOS系统上的低功耗软件VAD模型有着非常丰富的经验。针对TWS耳机产品形态，决定用结合深度学习技术的软件VAD模型来精准检测骨震动传感器给出的语音中的人声信号。

再请参考图3，其示出了本发明一实施例提供的一种语音激活检测方法，用于真正无线立体声耳机，所述耳机包括骨震动传感器。

如图3所示，在步骤301中，根据本申请中上述的语音激活检测模型对所述骨震动传感器识别到的音频进行语音激活检测，确认所述音频中否包含人声信号；

在步骤302中，若所述音频中包含所述人声信号且所述人声信号的时长不小于预设时长，则判定所述耳机的佩戴者为说话状态。

在本实施例中，对于步骤301，将骨震动传感器识别到的音频发送至语音激活检测模型进行检测，该语音激活检测模型能够对传入的语音信号进行多方位分析，包括但不限于频谱、能量等。

对于步骤302，如果音频中包含人声信号且人声信号的时长不小于预设时长，则判定耳机的佩戴者为说话状态，若判定耳机的佩戴者为说话状态，将耳机切换至对话模式。例如，如果软件语音激活检测模块输出结果为真(即是人声信号)，且持续输出该结果1s及以上，则判断佩戴者为说话状态，将耳机调整为“智能对话模式”。

本申请实施例的方法通过语音激活检测模块来检测骨震动传感器给出的持续人声信号来判断佩戴者是否在说话，来实现对耳机的智能对话模式进行模式切换。

在一些可选的实施例中，如果语音激活检测模型对骨震动传感器识别到的音频中不包含人声信号或包含的人声信号，且人声信号时长小于预设时长，则舍弃语音激活检测输出的结果，耳机维持原状态不变。

需要说明的是，本申请提供的耳机上的语音激活检测方案，直接效果就是优化了“智能对话模式”检测性能的准确性，尤其是对佩戴者本人产生的部分干扰音。更深层次的，由于该模式性能的优化，拓展了其使用场景，改善用户对耳机使用感受。

请参考图4，其出示了本发明的语音激活检测模型的训练方法中的特征提取实现流程图。

如图4所示，logtBank特征提取算法类似于MFCC算法,都是基于Bank特征提取结果的基础上，再进行一些处理，但LogFbank跟MFCC算法的主要区别在于，是否再进行离散余弦变换。LogFbank算法计算量相对MFCC较小，且特征的相关性较高,特征之间的相关性可以更好地被深度学习模型利用，以提高识别的准确率。

请参考图5，其出示了本发明的语音激活检测模型的训练方法实现流程图。其中，Clean voice-纯人声，Other sound-干扰声，Noise-纯噪声，Data Augmentation-数据增强，Noisy-带噪音频。Data Augmentation操作是将纯人声、干扰声与纯噪声进行混合。

如图5所示：一、对纯人声、干扰声分别和纯噪声音频进行叠加混合，得到带噪音频；

二、对得到的带噪音频、纯净人声、干扰声(如咳嗽、磕牙等非人声骨骼震动音)、纯噪声分别进行频域特征提取，得到对应的特征向量；

三、将步骤二得到的训练集放入SVM模型进行训练，通过Hinge Loss函数学习纯净人声与其它音频间差异映射关系，得到相应的识别模型。

请参考图6，其出示了本发明的语音激活检测方法的实现流程图。

如图6所示，步骤1：骨震动传感器将语音传入软件VAD；

步骤2：软件VAD对传入语音进行多方位分析，包括但不限于频谱、能量等，判断是否包含人声信号；

步骤3：如果软件VAD输出结果为真(即是人声信号)，且持续输出该结果1s及以上，则判断佩戴者为说话状态，调整为“智能对话模式”；否则，则舍弃VAD输出结果，耳机维持原状态不变。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音激活检测模型的训练方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音激活检测模型的训练方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行语音激活检测模型的训练方法。

图7是本申请另一实施例提供的执行语音激活检测模型的训练方法的电子设备的硬件结构示意图，如图7所示，该设备包括：

一个或多个处理器710以及存储器720，图7中以一个处理器710为例。

执行语音激活检测模型的训练方法的设备还可以包括：输入装置730和输出装置740。

处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器720作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的语音激活检测模型的训练方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音激活检测模型的训练方法。

存储器720可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音激活检测模型的训练设备的使用所创建的数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器720可选包括相对于处理器710远程设置的存储器，这些远程存储器可以通过网络连接至语音激活检测模型的训练设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置730可接收输入的数字或字符信息，以及产生与语音激活检测模型的训练设备的用户设置以及功能控制有关的信号。输出装置740可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器720中，当被所述一个或者多个处理器710执行时，执行上述任意方法实施例中的语音激活检测模型的训练方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的机载电子装置，例如安装上车辆上的车机装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音激活检测模型的训练方法，包括：

获取语音信号中的音频训练集，利用LogFbank算法提取所述音频训练集中对应的频域特征，得到所述音频训练集对应的特征向量；

将所述音频训练集输入支持向量机模型进行训练，得到与所述音频训练集对应的识别模型。

2.根据权利要求1所述的方法，其中，所述将所述音频训练集输入SVM模型进行训练，得到与所述音频训练集对应的识别模型包括：

通过Hinge Loss函数学习纯净人声与其它音频间差异映射关系，得到与所述音频训练集对应的识别模型。

3.根据权利要求1所述的方法，所述音频训练集包括纯净人声、干扰声、纯噪声的音频训练集。

4.根据权利要求3所述的方法，其中，所述干扰声为非人声骨骼震动音，所述非人声骨骼震动音包括咳嗽和磕牙。

5.根据权利要求1所述的方法，其中，所述利用LogFbank算法提取所述音频训练集中对应的频域特征，得到所述音频训练集对应的特征向量包括：

对所述音频训练集进行处理，得到时域信号，其中，所述处理包括分帧、预加重以及加窗；

对所述时域信号进行快速傅里叶变换，得到与所述时域信号对应的复数矩阵，并获取所述复数矩阵的绝对值或平方值；

利用Mel滤波获取Fbank特征，对所述Fbank特征进行对数运算，得到最终的特征向量。

6.一种语音激活检测方法，用于真正无线立体声耳机，所述耳机包括骨震动传感器，所述方法包括：

利用权利要求1-5中任一项所述的语音激活检测模型对所述骨震动传感器识别到的音频进行语音激活检测，确认所述音频中否包含人声信号；

若所述音频中包含所述人声信号且所述人声信号的时长不小于预设时长，则判定所述耳机的佩戴者为说话状态。

7.根据权利要求6所述的方法，其中，所述方法还包括：

若所述音频中不包含所述人声信号或包含的人声信号时长小于所述预设时长，则舍弃语音激活检测结果，维持所述耳机的原状态不变。

8.根据权利要求6所述的方法，其中，所述则判定所述耳机的佩戴者为说话状态包括：

若判定所述耳机的佩戴者为说话状态，将所述耳机切换至对话模式。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。