CN105976810B

CN105976810B - 一种检测语音有效话语段端点的方法和装置

Info

Publication number: CN105976810B
Application number: CN201610279240.9A
Authority: CN
Inventors: 韩云秀
Original assignee: TCL Technology Group Co Ltd
Current assignee: TCL Technology Group Co Ltd
Priority date: 2016-04-28
Filing date: 2016-04-28
Publication date: 2020-08-14
Anticipated expiration: 2036-04-28
Also published as: CN105976810A

Abstract

本发明提供一种检测语音有效话语段端点的方法和装置，以提高语音有效话语段端点检测的正确率。所述方法包括：采用相对较低的有效信号判断阈值对输入信号进行语音有效话语段端点的检测，得到输入信号中的第一有效话语段；去除所述第一有效话语段包含的噪声部分；对所述去除噪声部分的第一有效话语段的有用信号进行增强，得到第二有效话语段；对所述第二有效话语段进行补偿处理以得到输入信号中有效话语段的端点。本发明提供的技术方案可知，一方面可以防止对语音有效话语段的漏检；另一方面可以防止语音有效话语段端点检测过程中虚检的发生。

Description

一种检测语音有效话语段端点的方法和装置

技术领域

本发明属于语音识别领域，尤其涉及一种检测语音有效话语段端点的方法和装置。

背景技术

语音有效话语段的端点检测是通过算法，从一段包含语音和噪声的信号中检测出其中的语音信号的起点和终点，其目的是从信号中分离出有用的语音信号，去除其中的噪声信号。语音有效话语段的端点检测常用于语音识别、说话人识别等。有效的端点检测不仅能够加快识别速度，而且能够去除无声段的噪声干扰，从而使识别系统具有良好的性能。

然而，现有的检测语音有效话语段端点的方法，例如基于短时能量、短时过零率的检测方法等，在信噪比较小、噪声比较大时，由于噪声的能量较大，与有效的语音信号能量相差无几，检测过程中可能会被误认为是有效声音而发生虚检，并且，在这些检测方法中，当将一些能量阈值等参数设置得较大时，由于语音的清音部分能量较小，检测过程中可能发生漏检。无论是虚检还是漏检，显然都会影响语音识别的正确率。

目前，业界尚无解决上述现有检测语音有效话语段端点的方法中关于虚检和漏检的解决方案。

发明内容

本发明的目的在于提供一种检测语音有效话语段端点的方法和装置，以提高语音有效话语段端点检测的正确率。

本发明第一方面提供一种检测语音有效话语段端点的方法，所述方法包括：

采用相对较低的有效信号判断阈值对输入信号进行语音有效话语段端点的检测，得到输入信号中的第一有效话语段；

去除所述第一有效话语段包含的噪声部分；

对所述去除噪声部分的第一有效话语段的有用信号进行增强，得到第二有效话语段；

对所述第二有效话语段进行补偿处理以得到所述输入信号中有效话语段的端点。

本发明第二方面提供一种检测语音有效话语段端点的装置，所述装置包括：

第一有效话语段获取模块，用于采用相对较低的有效信号判断阈值对输入信号进行语音有效话语段端点的检测，得到输入信号中的第一有效话语段；

第一去噪模块，用于去除所述第一有效话语段包含的噪声部分；

信号增强模块，用于对所述去除噪声部分的第一有效话语段中的有用信号进行增强，得到第二有效话语段；

补偿处理模块，用于对所述第二有效话语段进行补偿处理以得到所述输入信号中有效话语段的端点。

从上述本发明技术方案可知，一方面，由于采用相对较低的有效信号判断阈值对输入信号进行语音有效话语段端点的检测，因此，能够检测出能量较小的清音的端点，可以防止对语音有效话语段的漏检；另一方面，由于在对语音有效话语段端点检测的后期，去除了第一有效话语段包含的与语音能量相当的噪声部分，因此，可以防止语音有效话语段端点检测过程中虚检的发生。

附图说明

图1是本发明实施例一提供的检测语音有效话语段端点的方法的实现流程示意图；

图2是本发明实施例二提供的检测语音有效话语段端点的装置的结构示意图；

图3是本发明实施例三提供的检测语音有效话语段端点的装置的结构示意图；

图4是本发明实施例四提供的检测语音有效话语段端点的装置的结构示意图；

图5是本发明实施例五提供的检测语音有效话语段端点的装置的结构示意图；

图6-a是本发明实施例六提供的检测语音有效话语段端点的装置的结构示意图；

图6-b是本发明实施例七提供的检测语音有效话语段端点的装置的结构示意图；

图6-c是本发明实施例八提供的检测语音有效话语段端点的装置的结构示意图；

图6-d是本发明实施例九提供的检测语音有效话语段端点的装置的结构示意图；

图7-a为图1所示实施例中原始录音数据的示意图；

图7-b为图1所示实施例中采用自相关函数去噪后的数据的示意图；

图8-a是现有技术提供的检测语音有效话语段端点的方法的检测结果；

图8-b是本发明提供的检测语音有效话语段端点的方法的检测结果。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供一种检测语音有效话语段端点的方法，所述方法包括：采用相对较低的有效信号判断阈值对输入信号进行语音有效话语段端点的检测，得到信号中的第一有效话语段，所述第一有效话语段以所述信号中包含的语音帧的最小帧号和最大帧号分别表示所述第一有效话语段的起始点和结束点；去除所述第一有效话语段包含的噪声部分；对所述去去噪声部分的第一有效话语段的有用信号进行增强，得到第二有效话语段；通过对所述第二有效话语段进行补偿处理以得到语音信号的端点。本发明实施例还提供相应的检测语音有效话语段端点的装置。以下分别进行详细说明。

请参阅附图1，是本发明实施例一提供的检测语音有效话语段端点的方法的实现流程示意图，主要包括以下步骤S101至步骤S104，详细说明如下：

S101，采用相对较低的有效信号判断阈值对输入信号进行语音有效话语段端点的检测，得到信号中的第一有效话语段，其中，第一有效话语段以所述信号中包含的语音帧的最小帧号和最大帧号分别表示所述第一有效话语段的起始点和结束点。

由于输入信号中的清音部分仍然属于语音的范畴，并且清音的能量通常较低，因此，在本发明实施例中，当对输入信号进行语音有效话语段端点的检测时，可以采用相对较低的有效信号判断阈值对输入信号进行语音有效话语段端点的检测，从而避免对输入信号进行语音有效话语段端点检测时的漏检，即，可以避免将清音部分作为非语音信号而忽略。

需要说明的是，上述对输入信号进行语音有效话语段端点的检测仍然可以采用现有的基于能熵比的语音端点检测算法进行，而基于能熵比的语音端点检测算法通常会设置一个能量阈值作为判断输入信号中的某一段信号是否含有有效语音的判断阈值即有效信号判断阈值。为了降低漏检，本发明实施例中采用相对较低的有效信号判断阈值对输入信号进行语音有效话语段端点的检测，其中的“相对较低的有效信号判断阈值”是指该有效信号判断阈值相对于现有的基于能熵比的语音端点检测算法中设置的能量阈值而言要小一些；除此之外，也可以将最小帧数、最小能熵比等参数作为有效信号判断阈值，只是在本发明实施例中，这些参数的值设置得比基于能熵比的语音端点检测算法中最小帧数、最小能熵比等参数的值设置得要小。

S102，去除第一有效话语段包含的噪声部分。

尽管步骤S101采用相对较低的有效信号判断阈值对输入信号进行语音有效话语段端点的检测，然而，仍然不能保证所得到的第一有效话语段不含噪声。因此，当得到第一有效话语段后，可以进一步去除第一有效话语段包含的噪声。

作为本发明一个实施例，去除第一有效话语段包含的噪声部分可以是求取所述第一有效话语段包含的每帧信号的自相关函数R(τ)的同时，增大时延τ。由于噪声信号的自相关函数随着时延τ的增大很快衰减至零，因此，在求取第一有效话语段包含的每帧信号的自相关函数R(τ)的同时，适度增大时延τ能够获得显著的降噪效果，即，能够去除第一有效话语段包含的噪声部分。以录音数据为例，附图7-a为原始录音数据，附图7-b为采用自相关函数去噪后的数据。

S103，对去除噪声部分的第一有效话语段的有用信号进行增强，得到第二有效话语段。

在本发明实施例中，对去除噪声部分的第一有效话语段的有用信号进行增强可以是先根据能熵比大小设定一个范围，能量在此范围内的被判定为第一有效话语段的有用信号，然后，增大这些有用信号的幅值，以达到对去除噪声部分的第一有效话语段的有用信号进行增强的目的。

S104，通过对第二有效话语段进行补偿处理以得到语音信号的端点。

由于经过去除第一有效话语段包含的噪声部分这一过程后，有可能会损失部分有用信号，即，将部分语音信号作为噪声信号而去除了，因此，为了改善该结果，在本发明实施例中，对第二有效话语段进行补偿处理，由此得到的语音信号的端点相对比较准确。

作为本发明一个实施例，对第二有效话语段进行补偿处理以得到输入信号中有效话语段的端点可以通过如下步骤S1041和步骤S1042实现：

S1041，通过基于能熵比的端点检测算法对所述第二有效话语段进行端点检测，并对第二有效话语段进行二次去噪处理，得到第三有效话语段。

在本发明实施例中，对第二有效话语段进行二次去噪处理可以是采用能量密度阈值算法对所述第二有效话语段进行筛选以进一步去除所述第二有效话语段中的噪声，具体地，可以设定一个能量密度阈值，将第二有效话语段中能量密度低于该能量密度阈值的信号作为噪声去除，从而得到第三有效话语段。

S1042，将经步骤S1041得到的第三有效话语段与经步骤S101得到的第一有效话语段对比，若所述第三有效话语段包含的语音帧的最小帧号不小于所述第一有效话语段包含的语音帧的最小帧号，所述第三有效话语段包含的语音帧的最大帧号不大于所述第一有效话语段包含的语音帧的最大帧号，则确定所述第一有效话语段包含的语音帧的最小帧号和最大帧号为语音信号的端点。

例如，经步骤S101得到的第一有效话语段，其包含帧号为1、2、3、4、5、6、7、8的语音帧，而经步骤S1041得到的第三有效话语段，其包含帧号为3、4、5、6、7的语音帧，则确定第一有效话语段包含的语音帧的最小帧号1和最大帧号8为语音信号的端点，即帧号为1的语音帧为语音信号的起始点，帧号为8的语音帧为语音信号的结束点。附图8-a是现有技术提供的检测语音有效话语段端点的方法的检测结果，附图8-b是本发明技术方案提供的检测语音有效话语段端点的方法的检测结果。

在上述本发明实施例中，考虑到使得输入信号幅值归一化，并考虑到语音信号是一个非平稳信号，不宜使用处理平稳信号的数字信号处理技术进行分析处理，然而在一个短时范围内(例如，10～30ms)其特性保持相对稳定，即语音信号具有短时平稳性，因此，在采用相对较低的有效信号判断阈值对输入信号进行语音有效话语段端点的检测之前，可以去除输入信号中的直流分量，然后，对已去除直流分量的信号进行分帧处理，例如，通过分帧处理，使每一帧信号长度为10～30ms。

从上述附图1示例的检测语音有效话语段端点的方法可知，一方面，由于采用相对较低的有效信号判断阈值对输入信号进行语音有效话语段端点的检测，因此，能够检测出能量较小的清音的端点，可以防止对语音有效话语段的漏检；另一方面，由于在对语音有效话语段端点检测的后期，去除了第一有效话语段包含的与语音能量相当的噪声部分，因此，可以防止语音有效话语段端点检测过程中虚检的发生。

请参阅附图2，是本发明实施例二提供的检测语音有效话语段端点的装置的结构示意图。为了便于说明，附图2仅示出了与本发明实施例相关的部分。附图2示例的检测语音有效话语段端点的装置可以是附图1示例的基检测语音有效话语段端点的方法的执行主体。附图2示例的检测语音有效话语段端点的装置主要包括第一有效话语段获取模块201、第一去噪模块202、信号增强模块203和补偿处理模块204，其中：

第一有效话语段获取模块201，用于采用相对较低的有效信号判断阈值对输入信号进行语音有效话语段端点的检测，得到输入信号中的第一有效话语段，其中，第一有效话语段以所述输入信号中包含的语音帧的最小帧号和最大帧号分别表示第一有效话语段的起始点和结束点；

第一去噪模块202，用于去除第一有效话语段包含的噪声部分；

信号增强模块203，用于对去去噪声部分的第一有效话语段中的有用信号进行增强，得到第二有效话语段；

补偿处理模块204，用于对第二有效话语段进行补偿处理以得到输入信号中有效话语段的端点。

需要说明的是，以上附图2示例的检测语音有效话语段端点的装置的实施方式中，各功能模块的划分仅是举例说明，实际应用中可以根据需要，例如相应硬件的配置要求或者软件的实现的便利考虑，而将上述功能分配由不同的功能模块完成，即将所述检测语音有效话语段端点的装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。而且，实际应用中，本实施例中的相应的功能模块可以是由相应的硬件实现，也可以由相应的硬件执行相应的软件完成，例如，前述的第一去噪模块，可以是具有执行前述去除第一有效话语段包含的噪声部分的硬件，例如第一去噪器，也可以是能够执行相应计算机程序从而完成前述功能的一般处理器或者其他硬件设备；再如前述的信号增强模块，可以是执行对去除噪声部分的第一有效话语段中的有用信号进行增强，得到第二有效话语段的硬件，例如信号增强器，也可以是能够执行相应计算机程序从而完成前述功能的一般处理器或者其他硬件设备(本说明书提供的各个实施例都可应用上述描述原则)。

附图2示例的第一去噪模块202可以包括时延增大单元301，如附图3所示本发明实施例三提供的检测语音有效话语段端点的装置。时延增大单元301用于求取第一有效话语段包含的每帧信号的自相关函数R(τ)的同时，增大时延τ。

附图2示例的补偿处理模块204可以包括第二去噪单元401和端点确定单元402，如附图4所示本发明实施例四提供的检测语音有效话语段端点的装置，其中：

第二去噪单元401，用于通过基于能熵比的端点检测算法对所述第二有效话语段进行端点检测，并对第二有效话语段进行二次去噪处理，得到第三有效话语段；

端点确定单元402，用于将第三有效话语段与第一有效话语段对比，若第三有效话语段包含的语音帧的最小帧号不小于第一有效话语段包含的语音帧的最小帧号，第三有效话语段包含的语音帧的最大帧号不大于第一有效话语段包含的语音帧的最大帧号，则确定第一有效话语段包含的语音帧的最小帧号和最大帧号为语音信号的端点。

附图4示例的第二去噪单元401可以包括能量密度检测单元501，如附图5所示本发明实施例五提供的检测语音有效话语段端点的装置。能量密度检测单元501用于采用能量密度阈值算法对第二有效话语段进行筛选以去除第二有效话语段中的噪声。

附图2至5任一示例的检测语音有效话语段端点的装置还可以包直流分量去除模块601和分帧模块602，如附图6-a至附图6-d所示本发明实施例六至实施例九提供的检测语音有效话语段端点的装置，其中：

直流分量去除模块601，用于第一有效话语段获取模块201采用相对较低的有效信号判断阈值对输入信号进行语音有效话语段端点的检测之前，去除输入信号中的直流分量；

分帧模块602，用于对已去除直流分量的信号进行分帧处理。

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，其带来的技术效果与本发明方法实施例相同，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

以上对本发明实施例所提供的检测语音有效话语段端点的方法和装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种检测语音有效话语段端点的方法，其特征在于，所述方法包括：

采用相对较低的有效信号判断阈值对输入信号进行语音有效话语段端点的检测，得到输入信号中的第一有效话语段，所述相对较低的有效信号判断阈值为小于基于能熵比的语音端点检测算法中设置的能量阈值的数值；

去除所述第一有效话语段包含的噪声部分；

对所述去除噪声部分的第一有效话语段中的有用信号进行增强，得到第二有效话语段；

2.如权利要求1所述的方法，其特征在于，所述去除所述第一有效话语段所包含的噪声包括：

求取所述第一有效话语段包含的每帧信号的自相关函数R(τ)的同时，增大时延τ。

3.如权利要求1所述的方法，其特征在于，所述对所述第二有效话语段进行补偿处理以得到所述输入信号中有效话语段的端点包括：

通过基于能熵比的端点检测算法对所述第二有效话语段进行端点检测，并对所述第二有效话语段进行二次去噪处理，得到第三有效话语段；

将所述第三有效话语段与所述第一有效话语段对比，若所述第三有效话语段包含的语音帧的最小帧号不小于所述第一有效话语段包含的语音帧的最小帧号，所述第三有效话语段包含的语音帧的最大帧号不大于所述第一有效话语段包含的语音帧的最大帧号，则确定所述第一有效话语段包含的语音帧的最小帧号和最大帧号为语音信号的端点。

4.如权利要求3所述的方法，其特征在于，所述对所述第二有效话语段进行二次去噪处理，包括：

采用能量密度阈值算法对所述第二有效话语段进行筛选以去除所述第二有效话语段中的噪声。

5.如权利要求1至4任意一项所述的方法，其特征在于，所述采用相对较低的有效信号判断阈值对输入信号进行语音有效话语段端点的检测之前，所述方法还包括：

去除所述输入信号中的直流分量；

对所述已去除直流分量的信号进行分帧处理。

6.一种检测语音有效话语段端点的装置，其特征在于，所述装置包括：

第一有效话语段获取模块，用于采用相对较低的有效信号判断阈值对输入信号进行语音有效话语段端点的检测，得到输入信号中的第一有效话语段，所述相对较低的有效信号判断阈值为小于基于能熵比的语音端点检测算法中设置的能量阈值的数值；

7.如权利要求6所述的装置，其特征在于，所述第一去噪模块包括：

时延增大单元，用于求取所述第一有效话语段包含的每帧信号的自相关函数R(τ)的同时，增大时延τ。

8.如权利要求6所述的装置，其特征在于，所述补偿处理模块包括：

第二去噪单元，用于通过基于能熵比的端点检测算法对所述第二有效话语段进行端点检测，并对所述第二有效话语段进行二次去噪处理，得到第三有效话语段；

端点确定单元，用于将所述第三有效话语段与所述第一有效话语段对比，若所述第三有效话语段包含的语音帧的最小帧号不小于所述第一有效话语段包含的语音帧的最小帧号，所述第三有效话语段包含的语音帧的最大帧号不大于所述第一有效话语段包含的语音帧的最大帧号，则确定所述第一有效话语段包含的语音帧的最小帧号和最大帧号为语音信号的端点。

9.如权利要求8所述的装置，其特征在于，所述第二去噪单元包括：

能量密度检测单元，用于采用能量密度阈值算法对所述第二有效话语段进行筛选以去除所述第二有效话语段中的噪声。

10.如权利要求6至9任意一项所述的装置，其特征在于，所述采用相对较低的有效信号判断阈值对输入信号进行语音有效话语段端点的检测之前，所述装置还包括：

直流分量去除模块，用于所述第一有效话语段获取模块采用相对较低的有效信号判断阈值对输入信号进行语音有效话语段端点的检测之前，去除所述输入信号中的直流分量；

分帧模块，用于对所述已去除直流分量的信号进行分帧处理。