CN112634882B

CN112634882B - 端到端实时语音端点检测神经网络模型、训练方法

Info

Publication number: CN112634882B
Application number: CN202110263962.6A
Authority: CN
Inventors: 司马华鹏; 姚奥; 汤毅平
Original assignee: Nanjing Guiji Intelligent Technology Co ltd
Current assignee: Nanjing Guiji Intelligent Technology Co ltd
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-06-04
Anticipated expiration: 2041-03-11
Also published as: CN112634882A

Abstract

本发明提供一种语音识别系统端到端实时语音端点检测，从音频信号到有效端点的判断（实时从声波判断出是人声或者是环境噪音），而且能够实时响应。通过一种端到端实时语音端点检测神经网络模型实现，该模型至少包括卷积神经网络滤波器层、RNN层，和多特征融合层；所述多特征融合层配置为，从在前的神经网络学习不同特征并融；本发明基于上述神经网络模型，无需进行特征提取的操作，从而实现可基于很短的语音实现实时识别，上述模型与训练时长的设置对于硬件资源要求相对于现有技术也有大幅降低。

Description

端到端实时语音端点检测神经网络模型、训练方法

技术领域

本发明涉及语音识别技术领域，特别涉及一种端到端实时语音端点检测神经网络模型、训练方法。

背景技术

随着人机信息交互技术的发展，语音识别技术显示出其重要性。在语音识别系统中，语音端点检测是语音识别中的关键技术之一。语音端点检测是指在连续声音信号中找出语音部分的起始点和终止点。端点检测准确与否，会直接影响到语音识别系统的性能。具体地，语音端点检测的检测结果对后端的声学模型、解码器、语言模型的识别效果，都有很大的影响，如果端点切分存储错误，则会导致漏识别或者误识别等情况的发生，进而可导致语音识别结果不准确。

目前的语音端点检测方法有能量模型方法，使用能量阈值来判断是否存在有效的语音，但是在信噪比低时，该种方法难以准确的判断出音频有效部分的开始位置和结束位置。基于特征提取方法，一将音频信号转换成音频信号的频谱图，然后利用图像目标检测的方法获取开始位置和结束位置，二将音频信号利用特征提取方法(例如fbank，MFCC，stft等)获取特征，然后训练分类器来判断有效音频的开始位置和结束位置。采用此种方法比较耗时，此外，在非平稳噪声、较低信噪比环境下，所检测的语音端点的准确率较低；对于不同信噪比下的语音信号，很难选取合适的阈值，难以保证安静环境下的检测精度和噪声环境下的检测精度，这对检测硬件资源提出极高的要求。

发明内容

本发明针对现有技术的不足，提供一种语音识别系统的端点检测方案，从音频信号到有效端点的判断(实时从声波判断出是人声或者是环境噪音)，而且能够实时响应。

本发明采取以下方式实现：

一种端到端实时语音端点检测神经网络模型，所述模型至少包括神经网络滤波器、循环神经网络RNN层、多特征融合层；

所述神经网络滤波器至少包括卷积子层，所述卷积子层配置包括，对目标音频信号进行特征提取，以输出所述目标音频信号的第一特征；其中，所述卷积子层是根据带通滤波器幅值建立的，所述带通滤波器幅值由滤波器训练参数进行确定，所述滤波器训练参数是根据预先设置的样本数据训练所得到的；所述第一特征为所述目标音频信号的局部特征，所述第一特征是根据训练得到的所述滤波器训练参数提取的；

所述RNN层配置包括，输入所述第一特征，并至少根据所述第一特征获取所述目标音频信号的第二特征；所述第二特征为所述目标音频信号的局部特征；

所述多特征融合层配置包括，对所述RNN层中的至少一个子层所获取的所述第二特征进行特征融合，以得到所述目标音频信号的表示。

进一步地，所述滤波器训练参数至少包括带通滤波器低截止频率以及带通滤波器高截止频率。

本发明第二个方面：

一种端到端实时语音端点检测神经网络模型的训练方法，应用于前述的端到端实时语音端点检测神经网络模型；所述方法包括：

根据滤波器训练参数，确定带通滤波器幅值，并根据所述带通滤波器幅值建立卷积子层；

将样本数据中的样本输入值输入至所述端到端实时语音端点检测神经网络模型以得到输出值；

根据所述输出值与样本输出值之间的偏差确定所述端到端实时语音端点检测神经网络模型的损失值；

调整所述滤波器训练参数，使所述端到端实时语音端点检测神经网络模型的损失值减小；

当所述端到端实时语音端点检测神经网络模型的损失值小于或等于预设阈值时，对应的滤波器训练参数确定为滤波器训练参数输出值。

优选地，所述根据所述输出值与样本输出值之间的偏差确定所述端到端实时语音端点检测神经网络模型的损失值，包括：

根据所述输出值、所述样本输出值以及预设的神经网络滤波器损失函数确定所述模型的所述损失值；其中，所述神经网络滤波器损失函数为交叉熵函数。

进一步地，还包括以下步骤：

调整所述滤波器训练参数，使所述端到端实时语音端点检测神经网络模型的损失值减小。

进一步地，所述方法还包括：

根据预设的人声音频数据和噪声音频数据以生成所述样本数据，其中，所述样本数据至少包括所述人声音频数据、所述噪声音频数据以及混合数据；所述混合数据是所述人声音频数据与所述噪声音频数据按照预设的信噪比进行混合处理后得到的。

进一步地，所述根据所述带通滤波器幅值建立所述卷积子层，还包括：

根据所述带通滤波器幅值建立带通滤波器；

根据所述带通滤波器与预设的窗函数，对所述带通滤波器进行加窗处理，以建立所述卷积子层；所述窗函数包括以下之一：Hann函数、Balckman函数、Kaiser函数。

本发明第三个方面：

提供一种端到端实时语音端点检测方法，其特征在于，运用所述的端到端实时语音端点检测神经网络模型；所述方法包括：

将目标音频输入所述模型，并以预设的检测周期对所述目标音频进行检测；

在连续检测到所述目标音频中存在人声音频的检测周期的数量达到预设的第一阈值的情形下，确定所述目标音频中的有效部分开始；以及，在连续检测到所述目标音频中人声音频消失的检测周期的数量达到预设的第二阈值的情形下，确定所述目标音频中的有效部分结束；所述第一阈值小于所述第二阈值。

本发明第四个方面：

提供一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行本发明第二个方面端到端实时语音端点检测神经网络模型训练方法。

或：该介质用于存储本发明第一个方面提供的端到端实时语音端点检测神经网络模型，并用于执行本发明第三个方面所述的方法。

本方案区别于现有技术的点在于，基于上述神经网络模型，无需进行特征提取的操作，从而实现可基于很短的语音高效且准确地实现实时识别，同时，上述模型与训练时长的设置对于硬件资源要求相对于现有技术也有大幅降低。

附图说明

图1为本发明语音信号有效端点判断方法实现的总体流程图；

图2为本发明实施例一神经网络检测模型的网络结构图；

图3为本发明语音信号端点检测装置的结构示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述发明。

实施例一

本实施例中，

所述卷积神经网络滤波器时域表达式为：是一种可训练的有限脉冲响应滤波器(FIR)，可表示为：

y[n]是滤波器的输出，x[n]为滑动窗口内的音频信号，h[n]为长度为L的滤波器，在通常的CNN中，滤波器的参数可以从数据学习，在SincNet网络结构中，将h[n]预定义为函数为g[n，θ]，公式(1)变为：

y[n]＝x[n]*g[n，θ] (2)

其中，g[n，θ]为一种矩形带通滤波器，在频域，一般带通滤波器的幅值可以写成两个低通滤波器的差值G[f，f₁，f₂]：

其中，f₁和f₂为训练参数，分别为带通滤波器的低截止频率和高截止频率，rect为频域矩形窗函数，在此为线性函数；与之对应的g[n，θ]中，时域信号n对应频域信号f，参数θ对应的为f₁和f₂。经逆傅里叶变换后，最终得到g的时域为：

g[n，f₁，f₂]＝2f₂sin c(2πf₂n)-2f₁sin c(2πf₁n)，

其中，n为时域信号；f₁、f₂为滤波器训练参数，f₁为带通滤波器的低截止频率，f₂为带通滤波器的高截止频率；sinc函数定义为：

sin c(x)＝sin(x)/x；

卷积神经网络滤波器层损失函数配置为交叉熵，交叉熵Loss为：

其中，N为样本的个数，y_n为样本的标签，这里0标识为噪声，1标识为人声，p_n表示对n样本的预测概率，预测概率由所述模型给出。

本实施例RNN层选择为单层双向GRU。

实施例二

本发明神经网络检测模型的训练方法，包括：

获取训练数据集，训练数据集中有不同环境下人声音频和噪声音频，利用数据增强方法处理训练数据集数据，将噪声数据随机和人声混合，信噪比范围为10～20，信噪比(SNR)计算方法为：

其中L为音频信号长度，s为人声音频，sn为噪声音频；

根据所述带通滤波器幅值建立带通滤波器；

根据所述带通滤波器与预设的窗函数，对所述带通滤波器进行加窗处理，以建立所述卷积子层；所述卷积神经网络滤波器层通过加窗减弱频谱泄漏效应，加窗后的滤波器为g_w[n，f₁，f₂]＝g[n，f₁，f₂]·w[n]

其中w[n]为窗函数，本实施例采用Hann窗表达式为：

其中，L为滤波器长度。

随机截取训练集音频长度为60-100ms，构建beach(每个beach中的音频长度相同范围60-100ms)，训练模型，训练10-15次，利用验证集对模型进行验证，根据交叉熵Loss相对于训练参数f₁、f₂的梯度，对训练参数f₁、f₂反向调整，获取使交叉熵Loss足够小的训练参数f₁、f₂。

本实施例采用的训练损失函数为交叉熵，训练算法为Adam，学习率为0.005-0.001。交叉熵Loss为：

N为样本的个数，y_n为样本的标签，这里0标识为噪声，1标识为人声，p_n表示对n样本的预测概率，预测概率由实施例一的神经网络检测模型给出。

通过本实施例方式，可以将训练集语音长度从现有技术的2s到3s减少到60ms-100ms；上述可训练的f₁与f₂，一方面可令整体网络的损失足够小，更适应本发明中的需求，进而达到显著提升检测效率的效果，另一方面，由于f₁与f₂是在网络训练中通过优化算法得到的，即f₁与f₂的确定过程是已知的，在后期工程实现(编程)过程中可便于工程人员进行调参或针对性的优化，进一步改善产品处理的效率。相较之下，现有技术中的相关参数是固定的，工程人员并不知道相关参数的由来，故很难进行适配性的工程实现。

实施例三

一种端到端实时语音端点检测方法，其特征在于，运用于实施例一所述的端到端实时语音端点检测神经网络模型；所述方法包括：

实施例四

提供一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行实施例二所述端到端实时语音端点检测神经网络模型训练方法；

该介质用于存储本发明第一个方面提供的端到端实时语音端点检测神经网络模型，并用于执行本发明第三个方面所述的方法。

以上显示和描述了本发明的基本原理和主要特征和优点。本领域技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都属于本发明要求保护的范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种端到端实时语音端点检测神经网络模型，其特征在于，所述模型至少包括神经网络滤波器、循环神经网络RNN层、多特征融合层；

2.根据权利要求1所述的端到端实时语音端点检测神经网络模型，其特征在于，所述滤波器训练参数至少包括带通滤波器低截止频率以及带通滤波器高截止频率。

3.一种端到端实时语音端点检测神经网络模型的训练方法，应用于权利要求1或2所述的端到端实时语音端点检测神经网络模型；其特征在于：

所述方法包括：

4.根据权利要求3所述的一种端到端实时语音端点检测神经网络模型的训练方法，其特征在于，所述根据所述输出值与样本输出值之间的偏差确定所述端到端实时语音端点检测神经网络模型的损失值，包括：

根据所述输出值、所述样本输出值以及预设的神经网络滤波器损失函数确定所述模型的第一损失值；其中，所述神经网络滤波器损失函数为交叉熵函数。

5.根据权利要求3所述的一种端到端实时语音端点检测神经网络模型的训练方法，其特征在于，还包括以下步骤：

所述的调整所述滤波器训练参数，使所述端到端实时语音端点检测神经网络模型的损失值减小，其调整方式为，逐次迭代调整所述滤波器训练参数，使所述端到端实时语音端点检测神经网络模型的损失值逐次减小。

6.根据权利要求3所述的端到端实时语音端点检测神经网络模型的训练方法，其特征在于，所述训练方法还包括：

7.根据权利要求3所述的端到端实时语音端点检测神经网络模型的训练方法，其特征在于，所述根据所述带通滤波器幅值建立所述卷积子层，还包括：

根据所述带通滤波器幅值建立带通滤波器；

8.一种端到端实时语音端点检测方法，其特征在于，运用权利要求1或2所述的端到端实时语音端点检测神经网络模型；所述方法包括：

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求3至7任一项中所述的端到端实时语音端点检测神经网络模型的训练方法。

10.一种计算机可读的存储介质，其特征在于，所述介质存储包括存储权利要求1或2所述的端到端实时语音端点检测神经网络模型，且运行时执行权利要求8所述的端到端实时语音端点检测方法。