CN112669881A

CN112669881A - 一种语音检测方法、装置、终端及存储介质

Info

Publication number: CN112669881A
Application number: CN202011564128.2A
Authority: CN
Inventors: 秦永红; 付贤会; 刘武钊
Original assignee: Beijing Rongxun Technology Co ltd
Current assignee: Beijing Rongxun Technology Co ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-16
Anticipated expiration: 2040-12-25
Also published as: CN112669881B

Abstract

本发明实施例公开了一种语音检测方法、装置、终端及存储介质。该方法包括：获取麦克风语音信号；提取麦克风语音信号中的特征参数；将特征参数输入预设模型计算，得到最优的标记序列；确定最优的标记序列对应的麦克风语音信号是否为语音段。通过将麦克风语音信号真能过的特征参数输入预设模型中进行计算，得到其中最优的标记序列，最优的标记序列为最可能为语音段的信号，通过确定最优序列对应的麦克风语音信号是否为语音段，解决一段语音中的噪声频谱特点与语音相似时，造成误判的问题，实现精确分辨一段待检测语音中是否存在语音段的效果。

Description

一种语音检测方法、装置、终端及存储介质

技术领域

本发明实施例涉及语音识别技术，尤其涉及一种语音检测方法、装置、终端及存储介质。

背景技术

激活音检测是关于如何将语音在有背景噪声存在的情况下正确分出语音段与非语音段的问题。

常用的激活音检测算法有基于过零率检测、基于短时能量检测、基于相关性检测、基于GMM统计模型、基于HMM统计模型和基于SVM等方法。

近些年来，深度学习开始应用于激活音检测，基于深度神经网络(deep neuralnetwork)的激活音检测方法显示出比传统方法的优越性。一方面，相比于传统的激活音检测模型，深度神经网络具有更强的非线性变换能力，更适用于语音、非语音的分类问题；另一方面，深度神经网络具有对声学特征再学习的能力，可以充分挖掘数据中的潜在信息，但是当噪声的频谱特点与语音相似时，其检测性能显著下降。

发明内容

本发明提供一种语音检测方法、装置、终端及存储介质，以实现精确分辨一段待检测语音中是否存在语音段的效果。

第一方面，本发明实施例提供了一种语音检测方法，包括：

获取麦克风语音信号；

提取所述麦克风语音信号中的特征参数；

将所述特征参数输入预设模型计算，得到最优的标记序列；

确定所述最优的标记序列对应的所述麦克风语音信号是否为语音段。

可选的，所述提取所述麦克风语音信号中的特征参数，包括：

将所述麦克风语音信号通过Gamm tone滤波器处理得到听觉谱；

将听觉谱取对数并进行改进离散余弦变换；

提取前N维参数构成语音信号的特征参数。

可选的，在所述将所述特征参数输入预设模型计算，得到最优的标记序列之前，还包括：

将当前帧与前后相邻两帧的麦克风语音信号的特征参数合并。

可选的，所述将所述特征参数输入预设模型计算，得到最优的标记序列，包括：

对所述特征参数按固定的时间窗T和步长进行提取，得到多个特征序列和对应的多个标记序列；

多个所述特征序列经过SOFTMAX层后进行分数计算；

采用Viterbi算法寻找分数最高的一个特征序列作为最优的标记序列。

可选的，所述预设模型为LSTM神经网络模型。

第二方面，本发明实施例还提供了一种语音检测装置，包括：

信号获取模块，用于获取麦克风语音信号；

特征提取模块，用于提取所述麦克风语音信号中的特征参数；

模型计算模块，用于将所述特征参数输入预设模型计算，得到最优的标记序列；

结果确定模块，用于确定所述最优的标记序列对应的所述麦克风语音信号是否为语音段。

第三方面，本发明实施例还提供了一种语音检测终端，所述终端包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中任一所述的语音检测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面中任一所述的语音检测方法。

本发明通过将麦克风语音信号真能过的特征参数输入预设模型中进行计算，得到其中最优的标记序列，最优的标记序列为最可能为语音段的信号，通过确定最优序列对应的麦克风语音信号是否为语音段，解决一段语音中的噪声频谱特点与语音相似时，造成误判的问题，实现精确分辨一段待检测语音中是否存在语音段的效果。

附图说明

图1为本发明实施例一提供的一种语音检测的流程示意图；

图2为本发明实施例一提供的一种语音检测的子流程示意图；

图3为本发明实施例二提供的一种语音检测装置的结构示意图；

图4为本发明实施例三提供的一种语音检测终端的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种语音检测的流程示意图，本实施例可适用于对一段待测语音信号进行检测判断是否包括语音段的情况，该方法可以由一种语音检测装置来执行，具体包括如下步骤：

步骤110、获取麦克风语音信号。

对于电子产品，人们通常可以通过语音进行唤醒，电子产品需要对接收到的一段语音信号进行检测，判断其中是否包含语音段；本实施例中获取的麦克风信号中包括近端语音信号和噪声信号。

步骤120、提取麦克风语音信号中的特征参数。

麦克风语音信号中的语音段和非语音段的声学特征不同，为了检测麦克风语音信号中是否存在语音段，需要提取麦克风语音信号中的特征参数用于后续检测。

其中，具体包括：

S1、将麦克风语音信号通过Gamm tone滤波器处理得到听觉谱。

Gamm tone滤波器只需要很少的参数就能很好地模拟麦克风语音信号中的声学数据。

S2、将听觉谱取对数并进行改进离散余弦变换。

改进的离散余弦变换，相当于对交叠的数据进行离散余弦变换；由于离散余弦变换具有很强的能量集中特性，常用于对信号和图像进行处理。大多数的自然信号(包括声音和图像)的能力都集中在离散余弦变换后的低频部分，且离散余弦变换具有良好的去相关性。

S3、提取前N维参数构成语音信号的特征参数，N大于20。

提取一定数量的参数构成语音信号的特征参数，麦克风语音信号经过Gamm tone滤波器和改进离散余弦变换后，得到倒谱特征参数GFCC，前30位特征参数GFCC几乎保存了所有信息，在本实施例中，优选为提取前40维参数。

步骤130、将特征参数输入预设模型计算，得到最优的标记序列。

预设模型为LSTM神经网络模型，LSTM网络是对RNN的改进，它克服了RNN固有的梯度消失问题，实现了对序列中有用信息的长时记忆。

预设模型的建立包括：

在基于LSTM的语音检测方法中，语音的输入实际为具有一定时间长度的时间序列。将语音逐帧提取的特征向量与标注看作长度为N的时间序列数据集

这里N是语音帧总帧数，x_t∈R^d是d维语音特征向量，y_t∈(0,1)表示当前帧为语音帧或非语音帧。

首先，对于一个时间长度为T的序列X＝(x1，x2，…，xT)，标准LSTM单元对以下方程按时间顺序从t＝1～T进行计算。

LSTM包括记忆细胞单元C_t与遗忘门F_t输入门I_t和输出门O_t其计算公式如下：

I_t＝σ(W_ixx_t+W_ihh_t-1+b_i)

F_t＝σ(W_fxx_t+W_fhh_t-1+b_f)

O_t＝σ(W_oxx_t+W_ohh_t-1+b_o)

Z_t＝σ(W_zxx_t+W_zhh_t-1+b_z)

C_t＝F_tO_t-1+I_tZ_t

h_t＝O_tg(C_t)

式中x_t，Z_t，h_t与分别表示t时刻的输入信号，输出信号和隐藏层输出；σ，g分别表示sigmoid激活函数和tanh激活函数；W，b表示连接两层的权重和偏置。

然后，采用与语音分帧操作类似的形式，假设LSTM时间分析长度为T＝2k+1，对特征参数数据集每次按固定的时间窗T进行抽取，时间窗按步长u(1≤u≤T)移动。t时刻输入的特征序列

以及对应的标记

可表达为：

中的元素按时间顺序参与第t时刻LSTM网络的计算。

对T个时刻经过SOFTMAX层输出的序列按以下方式进行分数计算：

其中：S代表分数，P代表分数转移矩阵，其中的元素P_ij代表从i到j的转移概率，

为t时刻SOFTMAX层输出标记y(t)的概率。

分数最高的标记序列为最优的标记序列，即为预设模型输出结果。

预设模型的训练包括：

对TIDIGITS数据库的纯净语音使用Noisex-92噪声库中的噪声进行加噪得到带有噪声的语音。选用Noisex-92噪声库中的factory、babble、white，分别在0、5、10和15dB，4种信噪比下加噪，最后得到了12组数据集。所有的纯净语音均进行手工标注，不同信噪比以及不同背景噪声的语音使用与对应纯净语音相同的标记。

将带有噪声的语音数据集分为训练数据集与测试数据集。从语音数据集中随机选取1000段语音作为训练数据集，100段语音作为验证数据集。将每50段语音连接在一起去模拟实际应用情形。对所有语音，其中非语音段占比60％，语音段占比40％。

最后，当验证数据集验证结果满足结束条件时结束训练，保存预设模型的参数。

将从麦克风语音信号获取的特征参数输入预设模型进行计算，得到此段语音中分数最高的标记序列。

步骤140、确定最优的标记序列对应的麦克风语音信号是否为语音段。

提取最优的标记序列对应的语音信号，再次进行语音检测，确定此段语音信号是否为语音段；若判断结果为是，则此段麦克风语音信号中包含至少一段语音段；若判断结果为否，则此段麦克风语音信号中不包含语音段。

本发明实施例通过将麦克风语音信号真能过的特征参数输入预设模型中进行计算，得到其中最优的标记序列，最优的标记序列为最可能为语音段的信号，通过确定最优序列对应的麦克风语音信号是否为语音段，解决一段语音中的噪声频谱特点与语音相似时，造成误判的问题，实现精确分辨一段待检测语音中是否存在语音段的效果。

在上述实施例的基础上，在步骤130之前还包括：将当前帧与前后相邻两帧的麦克风语音信号的特征参数合并。

传统代价函数对每个时刻语音的输出计算代价，这种方式忽略了语音输出在时间上的相关性；本实施例采用将前后两帧的特征参数与当前帧合并作为一个序列，进行基于序列的代价函数设计，充分利用网络输出在时间上的相关性。

由于语音信息存在一定的连贯性，本实施例采用的LSTM神经网络训练的模型进行语音检测，不同于传统的算法只关注局部信息，它通过对过去帧和下一帧的信息加以利用，能更好的对当前帧进行判决。

在上述实施例的基础上，步骤130包括：

步骤131、对特征参数按固定的时间窗T和步长进行提取，得到多个特征序列和对应的多个标记序列。

步骤132、多个特征序列经过SOFTMAX层后进行分数计算。

步骤133、采用Viterbi算法寻找分数最高的一个特征序列作为最优的标记序列。

特征参数输入预设模型后，按照预设的时间窗T和步长进行提取，形成多个特征序列

和对应的多个标记序列

特征序列经过神经网络SOFTMAX层后输出的序列为

分数转移矩阵和网络参数集θ通过网络训练进行优化，最后，采用Viterbi算法寻找分数最高的一个特征序列作为最优的标记序列：

其中：

代表给定输入下所有可能的标记组合，

是使得分数最高的一个序列。

Viterbi算法通过使用递归减少计算复杂度，还对于观察序列的整个上下文进行了最好的解释。

实施例二

图3为本发明实施例二提供的一种语音检测装置的结构示意图；如图3所示，一种语音检测装置，包括：

信号获取模块310，用于获取麦克风语音信号。

特征提取模块320，用于提取麦克风语音信号中的特征参数。

其中，特征提取模块320还包括：

听觉谱获取单元，用于将麦克风语音信号通过Gamm tone滤波器处理得到听觉谱。

计算单元，用于将听觉谱取对数并进行改进离散余弦变换。

参数提取单元，用于提取前N维参数构成语音信号的特征参数。

模型计算模块330，用于将特征参数输入预设模型计算，得到最优的标记序列。

将从麦克风语音信号获取的特征参数输入预设模型进行计算，得到此段语音中分数最高的标记序列。预设模型为LSTM神经网络模型，LSTM网络是对RNN的改进，它克服了RNN固有的梯度消失问题，实现了对序列中有用信息的长时记忆。

其中，模型计算模块330还包括：

模型建立单元，用于基于LSTM神经网络建立输入为语音的特征参数，输出为分数最高的标记序列的预设模型。

模型训练单元，用于采用训练数据集对预设模型进行训练，当验证数据集验证结果满足结束条件时结束训练，保存预设模型的参数。

结果确定模块340，用于确定最优的标记序列对应的麦克风语音信号是否为语音段。

进一步的，模型计算模块330还包括：

序列提取单元，用于对特征参数按固定的时间窗T和步长进行提取，得到多个特征序列和对应的多个标记序列。

中间处理单元，用于多个特征序列经过SOFTMAX层后进行分数计算。

结果计算单元，用于采用Viterbi算法寻找分数最高的一个特征序列作为最优的标记序列。

本发明实施例所提供的一种语音检测装置可执行本发明任意实施例所提供的一种语音检测方法，具备执行方法相应的功能模块和有益效果。

实施例三

图4为本发明实施例三提供的一种语音检测终端的结构示意图，如图4所示，该终端包括处理器40、存储器41、输入装置42和输出装置43；设备中处理器40的数量可以是一个或多个，图4中以一个处理器40为例；设备中的处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的语音检测方法对应的程序指令/模块(例如，语音检测装置中的信号获取模块310、特征提取模块320、模型计算模块330和结果确定模块340)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行终端的各种功能应用以及数据处理，即实现上述的语音检测方法。

存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置42可用于接收输入的数字或字符信息，以及产生与终端的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。

实施例四

本发明实施例四还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种语音检测方法，该方法包括：

获取麦克风语音信号；

提取麦克风语音信号中的特征参数；

将特征参数输入预设模型计算，得到最优的标记序列；

确定最优的标记序列对应的麦克风语音信号是否为语音段。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的语音检测方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述语音检测装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音检测方法，其特征在于，包括：

获取麦克风语音信号；

提取所述麦克风语音信号中的特征参数；

将所述特征参数输入预设模型计算，得到最优的标记序列；

2.根据权利要求1所述的语音检测方法，其特征在于，所述提取所述麦克风语音信号中的特征参数，包括：

将所述麦克风语音信号通过Gamm tone滤波器处理得到听觉谱；

将听觉谱取对数并进行改进离散余弦变换；

提取前N维参数构成语音信号的特征参数，N大于20。

3.根据权利要求1所述的语音检测方法，其特征在于，在所述将所述特征参数输入预设模型计算，得到最优的标记序列之前，还包括：

4.根据权利要求1所述的语音检测方法，其特征在于，所述将所述特征参数输入预设模型计算，得到最优的标记序列，包括：

多个所述特征序列经过SOFTMAX层后进行分数计算；

5.根据权利要求1所述的语音检测方法，其特征在于，所述预设模型为LSTM神经网络模型。

6.一种语音检测装置，其特征在于，包括：

信号获取模块，用于获取麦克风语音信号；

7.一种语音检测终端，其特征在于，所述终端包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的语音检测方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的语音检测方法。