CN115376494B

CN115376494B - 一种语音检测方法、装置、设备及介质

Info

Publication number: CN115376494B
Application number: CN202211042098.8A
Authority: CN
Inventors: 李晶晶
Original assignee: Goertek Techology Co Ltd
Current assignee: Goertek Techology Co Ltd
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2024-06-25
Anticipated expiration: 2042-08-29
Also published as: CN115376494A

Abstract

本申请公开了一种语音检测方法、装置、设备及介质，涉及声学技术领域。通过将音频采集装置采集的语音信息输入至语音识别网络中获取目标词；语音识别网络是通过不同噪声下的语音信息和对应的目标词训练的神经网络；依次通过语音识别网络的子网络：频域空间注意力子网络、目标词特征提取子网络和目标词识别子网络生成目标词的类别标签，获取类别标签的第一标签值与第一真实标签值的误差并反馈，以对语音识别网络进行参数调整，实现了三个子网络的联合训练，使得降噪后的语音信息最大可能保留可用于目标词识别的特征信息，实现低信噪比下芯片平台端的低计算成本语音目标词检测。

Description

一种语音检测方法、装置、设备及介质

技术领域

本申请涉及声学技术领域，特别是涉及一种语音检测方法、装置、设备及介质。

背景技术

在大多数情况下，我们在使用可穿戴设备(例如智能手表、手环、蓝牙耳机、智能眼镜或虚拟现实设备等)的语音目标词检测功能进行语音交互时，会处于周围环境嘈杂的情况下。一种明显的解决方案是对输入执行降噪处理，用以从数据信号中获取足够的人类语音能量，从而更加精准的检测出时序语音流中的预定义语音段。

但是，芯片平台端的访存以及计算资源通常很有限，且必须满足低耗电需求；然而，在对低信噪比的语音数据进行语音目标词检测时会导致语音目标词检测的计算成本升高，增加平台耗电量，所以低信噪比下芯片平台端语音目标词检测目前仍然非常困难。

鉴于上述问题，设计一种语音检测方法，能够实现在低信噪比的情况下的低计算成本语音目标词检测，是该领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种语音检测方法、装置、设备及介质，能够实现在低信噪比的情况下的低计算成本语音目标词检测。

为解决上述技术问题，本申请提供一种语音检测方法，应用于可穿戴设备，包括：

获取音频采集装置采集的语音信息；

将所述语音信息输入至语音识别网络中，以获取所述语音信息中目标词；

所述语音识别网络是通过不同噪声下的所述语音信息和对应的所述目标词训练得到的神经网络，包含频域空间注意力子网络、目标词特征提取子网络和目标词识别子网络；

其中，所述频域空间注意力子网络通过一层卷积结构对所述语音信息进行数据融合生成降噪后的特征向量；

所述目标词特征提取子网络通过预设尺寸的卷积核将所述频域空间注意力子网络输出的所述特征向量生成时频特征矩阵；

所述目标词识别子网络通过所述预设尺寸的卷积核将所述目标词特征提取子网络输出的所述时频特征矩阵生成所述目标词的类别标签，在得到所述类别标签后，将所述类别标签的第一标签值与第一真实标签值的第一误差值反馈至所述频域空间注意力子网络以便对所述语音识别网络进行参数调整。

优选地，所述语音识别网络的训练过程包括：

获取所述音频采集装置采集的无噪声环境下的语音数据；其中，所述语音数据包含目标词数据和未知语音数据；

获取所述音频采集装置采集的不同种类的背景噪声；

基于多种信噪比分别将所述背景噪声添加至所述语音数据中，以生成训练数据；

将所述训练数据和对应的所述目标词输入至神经网络中训练以得到所述语音识别网络。

优选地，所述频域空间注意力子网络通过一层卷积结构对所述语音信息进行数据融合生成降噪后的所述特征向量包括：

获取所述语音信息的Mel倒谱系数，以获取所述特征向量；

将所述特征向量输入至所述频域空间注意力子网络中，以生成降噪后的所述特征向量。

优选地，所述将所述类别标签的第一标签值与第一真实标签值的第一误差值反馈至所述频域空间注意力子网络以便对所述语音识别网络进行参数调整包括：

根据目标词损失函数获取所述类别标签的所述第一标签值和所述第一真实标签值的第一误差值；

根据所述第一误差值分别更新所述频域空间注意力子网络、所述目标词特征提取子网络和所述目标词识别子网络对应的网络权值参数。

优选地，在所述获取所述语音信息中目标词之后，还包括：

分别获取置信度通道中所述目标词识别子网络与未知语音识别子网络输出的置信度值；其中，所述未知语音识别子网络是通过不同噪声下的所述语音信息及其包含的预定义目标词训练的用于判断所述语音信息是否包含所述预定义目标词的神经网络；所述置信度通道的通道数目为所述预定义目标词的类别数目加1；

通过Kalman算法对所述置信度通道中的所述置信度值进行滤波处理；

根据所述滤波处理后的所述未知语音识别子网络输出的所述置信度值判断所述语音信息是否包含所述预定义目标词；

若否，则不进行任何操作；

若是，则根据所述目标词识别子网络输出的所述置信度值获取所述目标词的所述类别标签；

根据所述类别标签发送对应的信号，以实现相关控制操作。

优选地，所述未知语音识别子网络的训练过程包括：

获取所述目标词特征提取子网络输出的所述时频特征矩阵；

将所述时频特征矩阵输入至所述未知语音识别子网络中，以输出第二标签值；

根据交叉熵损失函数获取第二真实标签值与所述第二标签值的第二误差值；

根据所述第二误差值更新所述未知语音识别子网络的所述网络权值参数，以实现对所述未知语音识别子网络的训练。

优选地，所述音频采集装置为麦克风和骨传导传感器；

则所述频域空间注意力子网络通过一层卷积结构对所述语音信息进行数据融合生成降噪后的所述特征向量包括：

分别获取所述麦克风和所述骨传导传感器采集的所述语音信息的所述Mel倒谱系数，以得到两通道的所述特征向量；

将两通道的所述特征向量输入至所述频域空间注意力子网络中，以生成降噪后的一通道的所述特征向量。

为解决上述技术问题，本申请还提供一种语音检测装置，应用于可穿戴设备，包括：

获取模块，用于获取音频采集装置采集的语音信息；

输入模块，用于将所述语音信息输入至语音识别网络中，以获取所述语音信息中目标词；

为解决上述技术问题，本申请还提供一种可穿戴设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述的语音检测方法的步骤。

为解决上述技术问题，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的语音检测方法的步骤。

本申请所提供的语音检测方法，应用于可穿戴设备，通过获取音频采集装置采集的语音信息；将语音信息输入至语音识别网络中，以获取语音信息中目标词；语音识别网络是通过不同噪声下的语音信息和对应的目标词训练得到的神经网络，包含频域空间注意力子网络、目标词特征提取子网络和目标词识别子网络；其中，频域空间注意力子网络通过一层卷积结构对语音信息进行数据融合生成降噪后的特征向量；目标词特征提取子网络通过预设尺寸的卷积核将频域空间注意力子网络输出的特征向量生成时频特征矩阵；目标词识别子网络通过预设尺寸的卷积核将目标词特征提取子网络输出的时频特征矩阵生成目标词的类别标签，在得到类别标签后，将类别标签的第一标签值与第一真实标签值的第一误差值反馈至频域空间注意力子网络以便对语音识别网络进行参数调整。由此可知，上述方案通过将类别标签的第一标签值与第一真实标签值的第一误差值反馈至频域空间注意力子网络、目标词特征提取子网络和目标词识别子网络以进行参数调整，实现了语音识别网络中三个子网络的联合训练，使得降噪处理后的语音信息最大可能的保留可用于目标词识别的特征信息，更适合进行后续的目标词识别，是一种低计算成本的语音识别降噪优化策略，实现了低信噪比下芯片平台端的低计算成本语音目标词检测。

此外，本申请实施例还提供了一种语音检测装置、可穿戴设备及计算机可读存储介质，效果同上。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音检测方法的流程图；

图2为本申请实施例提供的另一种语音检测方法的流程图；

图3为本申请实施例提供的一种语音检测装置的结构示意图；

图4为本申请实施例提供的一种可穿戴设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本申请保护范围。

本申请的核心是提供一种语音检测方法、装置、设备及介质。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。

深度学习算法由于其高复杂度的计算很难在低计算资源的可穿戴设备的芯片端进行部署，所以仅可以运行极小规模的算法模型，但算法模型的规模直接影响算法的精准度，即算法模型的规模越大，理论上来说，对复杂数据的拟合能力越强，算法模型的推理计算效果越好。为了将深度学习算法模型部署入芯片端并能够进行音频数据的实时处理，通常以牺牲算法模型的效果为代价，精简算法模型的计算量。因此，为了实现了低信噪比下芯片平台端的低计算成本语音目标词检测，本申请提供了一种语音检测方法，应用于可穿戴设备，采用了低计算成本的深度学习语音降噪优化策略实现了目标词识别。图1为本申请实施例提供的一种语音检测方法的流程图。如图1所示，方法包括：

S10：获取音频采集装置采集的语音信息。

S11：将语音信息输入至语音识别网络中，以获取语音信息中目标词。

语音识别网络是通过不同噪声下的语音信息和对应的目标词训练得到的神经网络，包含频域空间注意力子网络、目标词特征提取子网络和目标词识别子网络；

其中，频域空间注意力子网络通过一层卷积结构对语音信息进行数据融合生成降噪后的特征向量；

目标词特征提取子网络通过预设尺寸的卷积核将频域空间注意力子网络输出的特征向量生成时频特征矩阵；

目标词识别子网络通过预设尺寸的卷积核将目标词特征提取子网络输出的时频特征矩阵生成目标词的类别标签，在得到类别标签后，将类别标签的第一标签值与第一真实标签值的第一误差值反馈至频域空间注意力子网络以便对语音识别网络进行参数调整。

在进行目标词识别中，首先获取音频采集装置采集的语音信息。可以理解的是，音频采集装置是用于采集语音信息的装置，可以包括但不限于麦克风、骨传导传感器以及其他采集装置；在具体的语音信息采集过程中可以通过一种装置去采集语音信息，还可以通过多种装置组合的方式去采集语音信息，对于音频采集装置的选取方式不做限制，根据具体的实施情况而定。而采集到的语音信息中可能包含目标词信息、其他语音信息以及噪声信息，为了对语音信息中可能包含的目标词进行识别，需要将语音信息输入至语音识别网络中，以获取语音信息中目标词。需要注意的是，目标词具体可为设置的特定词汇，还可为对可穿戴设备进行操作的命令词，本实施例中对于目标词的具体类型不做限制，根据具体的实施情况而定。

语音识别网络是通过不同噪声下的语音信息和对应的目标词训练得到的神经网络，向该网络输入语音信息后能够输出语音信息中的目标词。在本实施例中，对于目标词语音识别网络的具体训练过程不做限制，根据具体的实施情况而定。

需要注意的是，为了实现低计算成本的语音降噪优化策略，在本实施例中，语音识别网络中包含频域空间注意力子网络、目标词特征提取子网络和目标词识别子网络共三个子网络。具体地，频域空间注意力子网络通过一层卷积结构对语音信息进行数据融合生成降噪后的特征向量，在过程中对不同频域内的语音信息进行分析，对语音信息进行降噪处理，最大可能的保留了可用于目标词识别的特征信息，联合后端的目标词特征提取子网络、目标词识别子网络，使得降噪后的特征向量更适用于目标词识别。

进一步地，目标词特征提取子网络通过预设尺寸的卷积核将频域空间注意力子网络输出的特征向量生成时频特征矩阵；可以理解的是，为了实现芯片平台端的实时性与低功耗要求和精简最终的模型尺寸，目标词特征提取子网络的卷积核尺寸、网络层输出通道数都被约束在很小的范围，即对目标词特征提取子网络的结构进行了特别的设计：卷积计算采用预设尺寸的卷积核，例如3*3或者5*5尺寸的卷积核，方便芯片平台端调用硬件计算加速流程；批量归一化层可以在不增加芯片平台端计算成本情况下降低网络训练的难度，所以目标词特征提取子网络在每次卷积计算后都添加一层批量归一化处理；目标词特征提取子网络输入特征矩阵的行数和列数相差较大，即时间维度上存在大量的冗余信息，所以目标词特征提取子网络在时间维度上进行最大值池化计算以去除冗余。最终目标词特征提取子网络生成能够区分目标词的时频特征矩阵。

可以理解的是，由于得到的时频特征矩阵能够区分目标词，因此目标词识别子网络通过预设尺寸的卷积核将目标词特征提取子网络输出的时频特征矩阵生成目标词的类别标签。目标词的类别标签即为目标词的具体的类型，能够通过目标词的类别标签进行相应的控制操作。而在得到类别标签后，将类别标签的第一标签值与第一真实标签值的第一误差值反馈至频域空间注意力子网络，以便对语音识别网络进行参数调整，从而提高语音识别网络的目标词的识别能力。需要注意的是，在本实施例中对于第一标签值与第一真实标签值的第一误差值的获取方式不做限制值，根据具体的实施情况而定。

本实施例中，通过获取音频采集装置采集的语音信息；将语音信息输入至语音识别网络中，以获取语音信息中目标词；语音识别网络是通过不同噪声下的语音信息和对应的目标词训练得到的神经网络，包含频域空间注意力子网络、目标词特征提取子网络和目标词识别子网络；其中，频域空间注意力子网络通过一层卷积结构对语音信息进行数据融合生成降噪后的特征向量；目标词特征提取子网络通过预设尺寸的卷积核将频域空间注意力子网络输出的特征向量生成时频特征矩阵；目标词识别子网络通过预设尺寸的卷积核将目标词特征提取子网络输出的时频特征矩阵生成目标词的类别标签，在得到类别标签后，将类别标签的第一标签值与第一真实标签值的第一误差值反馈至频域空间注意力子网络以便对语音识别网络进行参数调整。由此可知，上述方案通过将类别标签的第一标签值与第一真实标签值的第一误差值反馈至频域空间注意力子网络、目标词特征提取子网络和目标词识别子网络以进行参数调整，实现了语音识别网络中三个子网络的联合训练，使得降噪处理后的语音信息最大可能的保留可用于目标词识别的特征信息，更适合进行后续的目标词识别，是一种低计算成本的语音识别降噪优化策略，实现了低信噪比下芯片平台端的低计算成本语音目标词检测。

在上述实施例的基础上：

作为一种优选的实施例，语音识别网络的训练过程包括：

获取音频采集装置采集的无噪声环境下的语音数据；其中，语音数据包含目标词数据和未知语音数据；

获取音频采集装置采集的不同种类的背景噪声；

基于多种信噪比分别将背景噪声添加至语音数据中，以生成训练数据；

将训练数据和对应的目标词输入至神经网络中训练以得到语音识别网络。

在上述实施例中，语音识别网络的具体训练过程不做限制，根据具体的实施情况而定。作为一种优选的实施例，为了实现语音识别网络的训练，首先需要获取音频采集装置采集的无噪声环境下的语音数据；其中，语音数据包含目标词数据和未知语音数据。可以理解的是，未知语音数据即为除目标词数据外的其他语音数据。进一步获取音频采集装置采集的不同种类的背景噪声。

需要注意的是，本实施例中采集语音数据和背景噪声的音频采集装置可以为一种也可以为多种。当使用多种音频采集装置进行语音数据和背景噪声的采集时，需要保证音频采集装置对语音信息的同步采集。

进一步地，基于多种信噪比分别将背景噪声添加至语音数据中，以生成训练数据。具体地，可以基于6种不同的固定信噪比分别将背景噪声添加入无噪声环境下音频采集装置采集的语音数据中从而生成训练数据，作为语音识别网络的输入，同对应的目标词进行训练，最终生成了语音识别网络。

本实施例中，通过获取音频采集装置采集的无噪声环境下的语音数据；其中，语音数据包含目标词数据和未知语音数据；获取音频采集装置采集的不同种类的背景噪声；基于多种信噪比分别将背景噪声添加至语音数据中，以生成训练数据；将训练数据和对应的目标词输入至神经网络中训练，实现了语音识别网络的训练。

在上述实施例的基础上：

作为一种优选的实施例，频域空间注意力子网络通过一层卷积结构对语音信息进行数据融合生成降噪后的特征向量包括：

获取语音信息的Mel倒谱系数，以获取特征向量；

将特征向量输入至频域空间注意力子网络中，以生成降噪后的特征向量。

可以理解的是，由音频采集装置采集到的语音数据的时序数据帧体量相对较大，如果直接输入进后续的语音识别网络的深度学习模型进行计算，那么会为芯片平台端的实时性、低功耗等带来很大的挑战。因此为了降低计算功耗，本实施例中采用Mel倒谱系数取代直接采集的时序数据帧作为深度学习模型的输入进行分析。

梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)就是组成梅尔频率倒谱的系数。它衍生自音讯片段的倒频谱(cepstrum)。倒谱和梅尔频率倒谱的区别在于，梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这样的非线性表示，可以在多个领域中使声音信号有更好的表示。具体地，例如语音信息的一帧数据特征点为480个点，16KHZ采样率下时长30毫秒，通过Mel倒谱系数计算能够将语音信息的一帧数据从480个特征点压缩为12个特征点，既确保了目标词识别的精准度，也为构建低参数量深度学习模型提供了可能。因此向频域空间注意力子网络中输入语音信息经过Mel倒谱系数计算后特征向量，能够生成降噪后的特征向量。

本实施例中，通过获取语音信息的Mel倒谱系数，以获取特征向量；将特征向量输入至频域空间注意力子网络中，以生成降噪后的特征向量。提高了语音识别网络的实时性，降低了计算功耗。

在上述实施例的基础上：

作为一种优选的实施例，将类别标签的第一标签值与第一真实标签值的第一误差值反馈至频域空间注意力子网络以便对语音识别网络进行参数调整包括：

根据目标词损失函数获取类别标签的第一标签值和第一真实标签值的第一误差值；

根据第一误差值分别更新频域空间注意力子网络、目标词特征提取子网络和目标词识别子网络对应的网络权值参数。

在上述实施例中对于第一标签值与第一真实标签值的第一误差值的获取方式不做限制值，根据具体的实施情况而定。作为一种优选的实施例，本实施例中，根据目标词损失函数获取类别标签的第一标签值和第一真实标签值的第一误差值。下列公式为目标词损失函数。

其中，m表示训练样本数量，n表示目标词类别标签的个数，x_i为目标词识别子网络中全连接层特征向量，c_yi为不同种类目标词相对应全连接层特征向量的中心特征向量，λ为将全连接层特征进行中心化聚类的权重，w、b为目标词识别子网络末端可训练的权值参数，q_i为目标词样本的类别标签的真实标签值。

因此，在将语音信息作为频域空间注意力子网络的输入，再经过目标词特征提取子网络、目标词识别子网络后输出目标词的类别标签，基于上述目标词损失函数计算真实标签值(即第一真实标签值)与前向推理输出的目标词的类别标签的第一标签值的第一误差值，反向传播至目标词识别子网络、目标词特征提取子网络、频域空间注意力子网络中完成相关网络权值参数的更新，达到联合训练频域空间注意力子网络、目标词特征提取子网络、目标词识别子网络的目的。

本实施例中，根据目标词损失函数获取类别标签的第一标签值和第一真实标签值的第一误差值；根据第一误差值分别更新频域空间注意力子网络、目标词特征提取子网络和目标词识别子网络对应的网络权值参数。达到了联合训练频域空间注意力子网络、目标词特征提取子网络、目标词识别子网络的目的，使得语音识别网络的准确率与实时性得到更好的权衡，且平衡了目标词不同类别间的准确率。

由于语音信息的时序语音数据流中会出现大量与目标词无关的未知语音，语音识别网络极容易将这些未知语音误识别为目标词，为了排除未知语音的影响，同时考虑到芯片端的实时性与低功耗需求，还需要对当前语音段是否为目标词的判断。图2为本申请实施例提供的另一种语音检测方法的流程图。如图2所示，在获取语音信息中目标词之后，还包括：

S12：分别获取置信度通道中目标词识别子网络与未知语音识别子网络输出的置信度值。

其中，未知语音识别子网络是通过不同噪声下的语音信息及其包含的预定义目标词训练的用于判断语音信息是否包含预定义目标词的神经网络；置信度通道的通道数目为预定义目标词的类别数目加1。

S13：通过Kalman算法对置信度通道中的置信度值进行滤波处理。

S14：根据滤波处理后的未知语音识别子网络输出的置信度值判断语音信息是否包含预定义目标词；若否，则进入步骤S15；若是，进入步骤S16。

S15：不进行任何操作。

S16：根据目标词识别子网络输出的置信度值获取目标词的类别标签。

S17：根据类别标签发送对应的信号，以实现相关控制操作。

可以理解的是，由于音频采集装置采集的语音信息的数据帧的间隔时间非常短暂，通常为15毫秒，所以目标词识别子网络会输出很多重复的结果，在这些重复的输出结果中也会出现少量的识别错误，所以需要对目标词识别子网络的输出置信度值进行处理。

具体地，首先分别获取置信度通道中目标词识别子网络与未知语音识别子网络输出的置信度值。其中，未知语音识别子网络是通过不同噪声下的语音信息及其包含的预定义目标词训练的神经网络，用于判断语音信息是否包含预定义目标词，在本实施例中对于未知语音识别子网络的具体训练过程不做限制，根据具体的实施情况而定。基于预定义目标词的类别个数C，设计(C+1)个通道用于评估最终语音目标词的识别结果；其中C个通道用于评估目标词识别的C类置信度值，多出的1个通道用于评估是否说过预定义目标词的置信度值，因此置信度通道的通道数目为预定义目标词的类别数目加1。

进一步地，通过Kalman算法对置信度通道中的置信度值进行滤波处理。Kalman算法是序贯数据同化的一种，是由Kalman针对随机过程状态估计提出的。其基本思想是利用前一时刻的状态估计值和当前时刻的观测值来获得动态系统当前时刻状态变量的最优估计，包括预报和分析两个步骤。采用Kalman算法分别对这(C+1)个通道内的置信度值进行平滑滤波，能够滤除偶然出现的识别错误。

根据Kalmal滤波后的未知语音识别子网络置信度值判断用户是否说过预定义目标词；如果并未说过预定义目标词，则不做任何处理；如果说过预定义目标词，则根据Kalman滤波后的目标词识别子网络的置信度值，获取用户所说目标词的类别标签，并基于此类别标签发送对应信号以实现相关的控制功能。

本实施例中，通过Kalman算法对置信度通道中的置信度值进行滤波处理。根据滤波处理后的未知语音识别子网络输出的置信度值判断语音信息是否包含预定义目标词；若否，不进行任何操作；若是，根据目标词识别子网络输出的置信度值获取目标词的类别标签，根据类别标签发送对应的信号，以实现相关控制操作。排除未知语音的影响，提高了目标词识别的准确性。

在上述实施例的基础上：

作为一种优选的实施例，未知语音识别子网络的训练过程包括：

获取目标词特征提取子网络输出的时频特征矩阵；

将时频特征矩阵输入至未知语音识别子网络中，以输出第二标签值；

根据交叉熵损失函数获取第二真实标签值与第二标签值的第二误差值；

根据第二误差值更新未知语音识别子网络的网络权值参数，以实现对未知语音识别子网络的训练。

在上述实施例中，对于未知语音识别子网络的具体训练过程不做限制，根据具体的实施情况而定。作为一种优选的实施例，本实施例中，未知语音识别子网络的初始的训练数据同语音识别网络的训练数据相同，但是在后续的训练过程中，将频域空间注意力子网络、目标词特征提取子网络、未知语音识别子网络联合训练，从而获取对当前语音是否为预定义目标词的判断。

需要注意的是，在训练未知语音识别子网络时冻结住频域空间注意力子网络和目标词特征提取子网络的网络权值参数。即频域空间注意力子网络、目标词特征提取子网络不参与训练，将目标词特征提取子网络输出的时频特征矩阵作为未知语音识别子网络的输入从而输出第二标签值。

具体地，基于交叉熵损失函数计算第二真实标签值与未知语音识别子网络输出的第二标签值间的第二误差值。交叉熵是信息论中一个重要概念，主要用于度量两个概率分布间的差异性信息。在得到第二误差值后反向传播至未知语音识别子网络以完成对未知语音识别子网络中网络权值参数的更新，达到训练未知语音识别子网络的目的。

本实施例中，通过获取目标词特征提取子网络输出的时频特征矩阵；将时频特征矩阵输入至未知语音识别子网络中，以输出第二标签值；根据交叉熵损失函数获取第二真实标签值与第二标签值的第二误差值；根据第二误差值更新未知语音识别子网络的网络权值参数，实现了对未知语音识别子网络的训练。

在上述实施例的基础上：

作为一种优选的实施例，音频采集装置为麦克风和骨传导传感器；

则频域空间注意力子网络通过一层卷积结构对语音信息进行数据融合生成降噪后的特征向量包括：

分别获取麦克风和骨传导传感器采集的语音信息的Mel倒谱系数，以得到两通道的特征向量；

将两通道的特征向量输入至频域空间注意力子网络中，以生成降噪后的一通道的特征向量。

可以理解的是，一般低参数量模型容易发生欠拟合，模型表现差，但推理计算的速度快，易于进行芯片端部署。为了提高低参数量模型(即频域空间注意力子网络)的表现，作为一种优选的实施例，音频采集装置为麦克风和骨传导传感器。也就是说通过麦克风和骨传导传感器采集两通道的语音信息并输入至频域空间注意力子网络中，即保障了低参数量也提高了对目标词特征的拟合能力。

骨传导传感器仅对佩戴者所说语音进行采集，而对位于佩戴者旁边的非佩戴者所说语音不进行采集，这与麦克风所采集的数据有差别，省去了声纹识别认证佩戴者身份的操作，保障了穿戴式产品用户的私密性。但骨传导传感器采集到的数据主要集中在低频部分，会丧失数据的高频信息，从而为语音识别带来困难，但抗噪能力优越，可以阻隔住大部分的噪声。麦克风采集的数据频域完整，但抗噪能力差，由噪声引起的语音识别困难也很常见。所以可以利用麦克风与骨传导传感器的优势，基于麦克风与骨传导双通道实时数据进行降噪后再进行目标词的识别。

因此，频域空间注意力子网络通过一层卷积结构对语音信息进行数据融合生成降噪后的特征向量具体为：分别获取麦克风和骨传导传感器采集的语音信息的Mel倒谱系数，以得到两通道的特征向量。其中，骨传导传感器与麦克风的采样率、语音信息的数据帧时间长度以及数据帧时间间隔被预设为相同。再将两通道的特征向量输入至频域空间注意力子网络中进行分析，以生成降噪后的一通道的特征向量，由于频域空间注意力子网络联合后端的目标词特征提取子网络、目标词识别子网络训练，使得降噪后的特征向量更适用于目标词识别。

需要注意的是，在芯片平台端实时处理骨传导与麦克风的时序数据流时，需要以当前时间点为终点结合过往的骨传导数据与麦克风数据，方可以实现用户是否已经说过目标词的检测，所以需要对过往时间内的骨传导数据流和麦克风数据流进行计算、保存。具体地，分别计算骨传导数据帧与麦克风数据帧的Mel倒谱系数，然后将其放入内存缓冲区，仅保存距离当前时间点固定时间长度的骨传导与麦克风的声学特征，距离当前时间点距离大于固定时间长度的数据则移除出内存缓存区；将缓存区中固定时间长度内同步计算的两通道的特征向量输入频域空间注意力子网络。

本实施例中，音频采集装置为麦克风和骨传导传感器；则频域空间注意力子网络通过一层卷积结构对语音信息进行数据融合生成降噪后的特征向量包括：分别获取麦克风和骨传导传感器采集的语音信息的Mel倒谱系数，以得到两通道的特征向量；将两通道的特征向量输入至频域空间注意力子网络中，以生成降噪后的一通道的特征向量。保障了低参数量，也提高了对目标词特征的拟合能力。

在上述实施例中，对于语音检测方法进行了详细描述，本申请还提供语音检测装置对应的实施例。

图3为本申请实施例提供的一种语音检测装置的结构示意图。如图3所示，语音检测装置应用于可穿戴设备，具体包括：

获取模块10，用于获取音频采集装置采集的语音信息；

输入模块11，用于将语音信息输入至语音识别网络中，以获取语音信息中目标词；

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

图4为本申请实施例提供的一种可穿戴设备的结构示意图。如图4所示，可穿戴设备包括：

存储器20，用于存储计算机程序；

处理器21，用于执行计算机程序时实现如上述实施例中所提到的语音检测方法的步骤。

本实施例提供的可穿戴设备可以包括但不限于智能手表、手环、蓝牙耳机、智能眼镜或虚拟现实(Virtual Reality，VR)设备等。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理器(Digital Signal Processor，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(CentralProcessing Unit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有图形处理器(Graphics Processing Unit，GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括人工智能(Artificial Intelligence，AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器20可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器20至少用于存储以下计算机程序201，其中，该计算机程序被处理器21加载并执行之后，能够实现前述任一实施例公开的语音检测方法的相关步骤。另外，存储器20所存储的资源还可以包括操作系统202和数据203等，存储方式可以是短暂存储或者永久存储。其中，操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于语音检测方法涉及到的数据。

在一些实施例中，可穿戴设备还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。

本领域技术人员可以理解，图4中示出的结构并不构成对可穿戴设备的限定，可以包括比图示更多或更少的组件。

最后，本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。

可以理解的是，如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本申请所提供的一种语音检测方法、装置、设备及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种语音检测方法，应用于可穿戴设备，其特征在于，包括：

获取音频采集装置采集的语音信息；

2.根据权利要求1所述的语音检测方法，其特征在于，所述语音识别网络的训练过程包括：

获取所述音频采集装置采集的不同种类的背景噪声；

3.根据权利要求1所述的语音检测方法，其特征在于，所述频域空间注意力子网络通过一层卷积结构对所述语音信息进行数据融合生成降噪后的所述特征向量包括：

获取所述语音信息的Mel倒谱系数，以获取所述特征向量；

4.根据权利要求3所述的语音检测方法，其特征在于，所述将所述类别标签的第一标签值与第一真实标签值的第一误差值反馈至所述频域空间注意力子网络以便对所述语音识别网络进行参数调整包括：

根据目标词损失函数获取所述类别标签的所述第一标签值和所述第一真实标签值的所述第一误差值；

5.根据权利要求4所述的语音检测方法，其特征在于，在所述获取所述语音信息中目标词之后，还包括：

若否，则不进行任何操作；

根据所述类别标签发送对应的信号，以实现相关控制操作。

6.根据权利要求5所述的语音检测方法，其特征在于，所述未知语音识别子网络的训练过程包括：

获取所述目标词特征提取子网络输出的所述时频特征矩阵；

7.根据权利要求3至6任意一项所述的语音检测方法，其特征在于，所述音频采集装置为麦克风和骨传导传感器；

8.一种语音检测装置，应用于可穿戴设备，其特征在于，包括：

获取模块，用于获取音频采集装置采集的语音信息；

9.一种可穿戴设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的语音检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音检测方法的步骤。