CN105869628A

CN105869628A - 语音端点检测方法及装置

Info

Publication number: CN105869628A
Application number: CN201610192489.6A
Authority: CN
Inventors: 侯锐
Original assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd; LeTV Holding Beijing Co Ltd
Current assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd; LeTV Holding Beijing Co Ltd
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2016-08-17

Abstract

本发明实施例提供一种语音端点检测方法及装置。接收待检测的语音信号帧并获取所述语音信号帧的特征矢量；根据所述特征矢量，获取所述语音信号帧在预先训练的音素声学模型中的最优到达路径；当根据所述最优到达路径检测到非静音信号帧并判定所述非静音信号帧之前存在预设数量的静音信号帧，则判定所述非静音信号帧为所述语音端点。实现了低复杂度、高效率的语音端点检测。

Description

语音端点检测方法及装置

技术领域

本发明实施例涉及语音技术领域，尤其涉及一种语音端点检测方法及装置。

背景技术

语音端点检测是语音识别中非常重要的一步。所谓语音端点检测，就是从一段给定的语音信号中找出语音的起始点和结束点。它的目的是为了使有效的语音信号和无用的噪声信号得以分离，在语音识别系统中，正确、有效的进行端点检测不仅可以减少计算量和缩短处理时间，而且能排除无声段的噪声干扰，提高语音识别的正确率。

研究发现，即使是在安静的环境下，语音识别系统的一半以上的错误可能主要来源于端点检测。除此之外，在语音合成、编码等系统中，高效的蹲点检测也直接影响甚至决定着系统的主要性能。因此，端点检测效率、质量在语音处理系统中起到至关重要的作用。

目前，在语音端点检测方法上大体可以分为两类，一类是基于阈值的方法，该方法根据语音信号和噪声信号的不同特征，提取每一段语音信号的特征，然后把这些特征值与设定的阈值进行比较，从而达到语音端点检测的目的。另一类方法是基于模型识别的方法，传统基于声学模型的语音端点检测算法在解码时多采用声学模型+语言模型的解码过程，即在word之间跳转时，需引入语言模型的影响，复杂度高且资源浪费严重。

综上，一种更优的语音端点检测方法亟待提出。

发明内容

本发明实施例提供一种语音端点检测方法及装置，用以解决现有技术中基于模型的语音端点识别方法计算复杂度高的缺陷，实现快速高效的语音端点识别。

本发明实施例提供一种语音端点检测方法，包括：

接收待检测的语音信号帧并获取所述语音信号帧的特征矢量；

根据所述特征矢量，获取所述语音信号帧在预先训练的音素声学模型中的最优到达路径；

当根据所述最优到达路径检测到非静音信号帧并判定所述非静音信号帧之前存在预设数量的静音信号帧，则判定所述非静音信号帧为所述语音端点。本发明实施例提供一种语音端点检测装置，包括：

参数获取模块，用于接收待检测的语音信号帧并获取所述语音信号帧的特征矢量；

计算模块，用于根据所述特征矢量，获取所述语音信号帧在预先训练的音素声学模型中的最优到达路径；

识别模块，用于当根据所述最优到达路径检测到非静音信号帧并判定所述非静音信号帧之前存在预设数量的静音信号帧，则判定所述非静音信号帧为所述语音端点。

本发明实施例提供的语音端点检测方法及装置，通过提取待检测语音信号的特征矢量并计算所述特征矢量在预先训练的音素声学模型中的最优到达路径从而对静音信号和非静音信号进行识别，改变了现有技术中进行语音端点检测时，计算复杂度高且资源浪费严重的缺陷，实现了语音端点检测的高效率、低复杂度的识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图一一介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一的技术流程图；

图2为本申请实施例二的技术流程图；

图3为本申请实施例三的结构体数组示例图；

图4为本申请实施例四的装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本申请实施例一的技术流程图，结合图1，本申请实施例一种语音端点检测方法中，音素声学模型的训练方法，可由如下的步骤实现：

步骤S110：根据发音规则对文字的音素进行分类，得到第一数量的音素分类结果；

步骤S120：采集每一所述文字在不同环境下的声音样本并进行声学模型的训练，得到所述第一数量的音素声学模型。

具体的，在步骤S110中，根据发音规则对汉语中参与发音的音素，即声母和韵母进行分类，着也是本发明本发明实施例的核心所在。

例如，对于汉语发音而言，音素的分类方法如下：

首先，声母部分分成3类，即C0、C1、C3：

C0:aa、ee、ii、oo、uu、vv；

C1:m、n、l、r；

C2:其他声母的音素，如p q w x y z sh等余下的所有声母。

其次，将韵母部分分成2类，即V0和V1:：

V0：a、e、i、o、u、v；

V1:其他韵母的音素，如an、ao、ing、er、iao、ui、ie等余下的所有韵母。

例如，按照汉语拼音，南开大学的发音的音素(拼音及声调)表示为nan2kai1 da4 xve2，按照上述音素分类进行表示，则能够得到如下的结果：

南开大学：C1 V1C2 V1 C2 V0C2 V1。

对于静音时刻的语音信号，将其分为两类，SIL1和SIL2，由此，得到了七种音素分类，即SIL1、SIL2、C0、C1、C3、V0、V1等。

具体的，在步骤S120中，根据语音训练文本的内容，采集大量的语音数据。对于同一文本，尽可能覆盖其在所有环境下的语音数据，即对于同一文本，其语音数据应当覆盖不同性别、不同年龄、不同发音特点、不同背景噪音等属性。

其次，将所述语音训练文本，按照步骤S110中的分类规则，将每一个文字的发音都以Ci以及Vj表示，其中i∈[0,2]，j∈[0,1]。

例如，“我想看甄嬛传”，其拼音表示为wo3xiang3kan4zhen1huan2zhuan4，按照音素分类规则，其表示结果为：C2V0C2V1C2V1C2V1C2V1C2V1。

根据上述两种表示方式，明显可以看出，传统的表示方式，需要参与的音素有很多个，然而将其进行分类转化后，仅用C2、V0及V1就可替代一长串的拼音表示。由于，本申请实施例的目标在于识别语音的端点，而无需对语音进行识别以及语义解析，因此，语音信号的具体代表什么内容并不重要，重要的是检测出静音时刻以及非静音时刻。所谓静音时刻，即没有检测到任何C或者V的，一旦检测到C或者V，那么即可判定当前输入的语音信号是非静音信号。

在获取到大量语音数据并对训练文本进行音素分类之后，提取所述语音数据的声学特征得到每一音素分类的特征矢量，并用音素分类后的结果进行声学模型的训练。本申请实施例中，采用GMM-HMM模型训练方法进行声学模型的训练。GMM-HMM，即混合高斯-隐马尔科夫模型，因GMM-HMM模型训练方法为成熟的现有技术，并非本发明实施例的重点，此处不做赘述。

本步骤中，经过音素声学模型的训练，得到了七种音素分类分别对应的GMM-HMM模型，即SIL1的GMM-HMM模型、SIL2的GMM-HMM模型、C0的GMM-HMM模型、C1的GMM-HMM模型、C3的GMM-HMM模型、V0的GMM-HMM模型以及V1的GMM-HMM模型。其中，SIL1的GMM-HMM模型以及SIL2的GMM-HMM模型可归类为静音音素声学模型，C0、C1、C3、V0以及V1的GMM-HMM模型可归类为非静音音素声学模型。

本申请实施例中，将发音词典中文字的发音音素进行简化归类，从而在训练音素模型时，极大减少了模型数量，提高了模型的训练效率；与此同时，将音素集简化为只有C、V和S的表述，在进行静音语音信号以及非静音语音信号是别的过程中，不再需要引入语言模型，而仅用声学模型即可完成识别，进一步提升了语音端点检测的速度。

图2是本申请实施例二的技术流程图，结合图2，本申请实施例一种语音端点检测方法中，可由如下的步骤实现：

步骤S210：接收待检测的语音信号帧并获取所述语音信号帧的特征矢量；

步骤S220：根据所述特征矢量，获取所述语音信号帧在预先训练的音素声学模型中的最优到达路径；

步骤S230：当根据所述最优到达路径检测到非静音信号帧并判定所述非静音信号帧之前存在预设数量的静音信号帧，则判定所述非静音信号帧为所述语音端点。

具体的，在步骤210中，首先对输入的语音信号进行预处理，由于语音信号是准稳态信号，在处理时常把信号分帧，每帧长度约20ms-30ms，在这一区间内把语音信号看作为稳态信号。只有稳态的信息才能进行信号处理，所以要先分帧。具体可以在语音工具箱中采用分帧的函数，例enframe对输入的语音信号进行分帧，得到待检测的语音信号帧。得到所述语音信号帧之后，提取所述语音信号帧的特征矢量，其中，所述特征矢量与实施例一中的所述特征矢量统一。例如，若实施例一种，在音素语音模型进行训练时，提取的声学特征是MFCC，即梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient)，则在此步骤中，同样也需提取MFCC作为所述语音信号帧的特征矢量从而才能够进行正确的语音识别。MFCC的提取过程是是成熟的现有技术，并非本发明实施例的重点，此处将不做赘述。

具体的，在步骤S220中，利用预先训练得到的音素声学模型，对上一步骤中提取到的所述特征矢量进行识别。按照实施例一中所述，所述音素声学模型，在本申请实施例中可分为七类，即SIL1的GMM-HMM模型、SIL2的GMM-HMM模型、C0的GMM-HMM模型、C1的GMM-HMM模型、C3的GMM-HMM模型、V0的GMM-HMM模型以及V1的GMM-HMM模型，每个HMM有3个节点，则七个音素声学模型共有21个节点。

本步骤中，根据七个所述音素声学模型以及21个节点，建立结构体数组。图3是所述结构体数组的一种可能存在方式。在图3中，所述结构体数组中的一个所述节点对应所述音素声学模型中的一个状态。所述结构体数组中，起始和结束都为SIL(静音)状态，-3为逻辑状态，为计算需要，实际不存在。

由于声音的向前性，图3中的节点之间的跳转只能向前跳出或自跳，其中，所谓自跳就是多帧语音信号重复同一个音素。所述结构体数组中的每一节点保存有所述节点自身的ID、所述节点的可能前往的节点的ID以及所述节点已经被到达过的概率值。其中，所述节点的可能前往的节点的ID是由声音的向前性决定的，但是决定所述节点最终前往的节点的ID是由所述特征矢量与所述可能前往的节点的似然度得分以及所述可能前往的节点曾经被到达过的概率决定的。

所述可能前往的节点曾经被到达过的概率，即这一发音音素在当前的所述特征矢量判断之前是否出现过，例如，“我想看甄嬛传”，其拼音表示为wo3xiang3kan4zhen1huan2zhuan4，按照音素分类规则，其表示结果为：C2V0C2V1C2V1C2V1C2V1C2V1，对于“想”的x对应的C2，在之前“我”的w对应C2出现过，即这一节点曾经被到达过。每个节点都保存有自身曾被到达过的概率值，这一概率值随着每个节点被到达的次数不断更新。例如，对于C2节点，若是当前保存的所述曾经被到达的概率为0.4，而经计算，所述特征矢量一0.5的似然度得分从当前所在的节点跳至C2节点，则所述C2节点保存的曾经被到达过的概率将更新为0.5。

本步骤在所述结构体数组中，计算所述特征矢量与所述结构体数组中每一个节点的似然度得分，并根据所述似然度得分，解析所述特征矢量在所述结构体数组中的最优到达路径。

其中，解析所述特征矢量在所述结构体数组中的最优到达路径，可进一步由如下的步骤实现：

步骤a.读取所述特征矢量所在的当前节点中保存的所述当前节点的每一个所述可能前往的节点的ID；

步骤a.计算所述特征矢量与每一个所述可能前往的节点的似然度得分；

步骤b.读取每一个所述可能前往的节点的所述已经被到达过的概率值；

步骤c.选择所述似然度得分以及所述已经被到达过的概率值中较大值对应的所述可能前往的节点作为所述特征矢量下一个前往的节点；

重复执行步骤a～步骤c得到所述特征矢量在所述结构体数组中的最优到达路径。

例如，假设所述特征矢量所在的当前节点是SIL1，根据声音的向前性，其下一个可能到达的节点是C1或者C2，然而此时并不能够确定所述特征矢量究竟该跳往哪一个节点。此时，需要分别计算所述特征矢量与C1的似然度得分S1、所述特征矢量与C2的似然度得分S2。对比S1和S2的值，若S1大于S2，则暂时优先选择C1作为所述特征矢量前往的节点。然而，此时，还需分别读取C1、C2节点中保存的所述已经被到达过的概率值，若C2中保存的所述已经被到达过的概率值大于S1，则优先选择C2作为所述特征矢量最终的前往的节点，若C2中保存的所述已经被到达过的概率值小于S1，则仍旧按照所述似然度得分的比较结果，选择C1作为所述特征矢量最终的前往的节点。所述特征矢量在所述结构体数组中的每一次向前跳，都需执行上述的最优选择过程，从而，实现了所述特征矢量在所述结构体数组中的最优到达路径解析。

具体的，步骤S230是对上一步骤中的步骤a～步骤c执行结果进行分析。上一步骤中重复执行步骤a～步骤c的次数，由端点检测的进度决定。通常，对于一段有效语音而言，其端点之前的无效语音都处于静音状态，若所述特征矢量的最优到达路径中经过的至少一个所述节点对应非静音音素语音模型，则判定所述特征矢量对应的所述语音信号帧为非静音语音信号帧。

通常在一段语音输入中，静音信号的存在要么是无效语音段，要么是有效语音段中两个字的间隔或停顿，因此，检测到非静音语音信号帧之后，还需判断所述非静音语音信号帧之前，有多少帧静音语音信号帧。若是帧数(或静音信号持续时间)低于某一阈值，则可判定，所述静音语音信号帧对应的是两个字之间的间隔停顿，而非无效语音段；若所述非静音信号帧之前存在预设数量(高于某一阈值)的静音信号帧，则判定所述非静音信号帧为所述语音端点。

在本实施例中，所述预设数量取连续10帧，当然，本申请实施例并不限制所述预设数量的数值，这一数值的大小还需参考分帧的时长而定。

本实施例中，判定所述静音语音信号帧的方法如下，若所述特征矢量的最优到达路径中经过的每一所述节点都对应静音音素语音模型，则判定所述特征矢量对应的所述语音信号帧为静音语音信号帧。

例如，随着所述特征矢量的持续输入，若所述最优路径是SIL1/SIL2，即在SIL1或SIL2对应的节点中自跳，且持续了10帧(或100ms)，则可判定认为是这一段语音输入时静音，而在此之后一旦检测到非静音语音信号输入，则可判定出现的第一帧非静音语音信号是所述语音端点。

本申请实施例中，通过提取待检测语音信号的特征矢量并计算所述特征矢量在预先训练的音素声学模型中的最优到达路径从而对静音信号和非静音信号进行识别，改变了现有技术中进行语音端点检测时，计算复杂度高且资源浪费严重的缺陷，实现了语音端点检测的高效率、低复杂度的识别。

图4是本申请实施例三的装置结构示意图，结合图4，本申请实施例一种语音端点检测装置，包括参数获取模块41、计算模块42、识别模块43以及训练模块44。

所述参数获取模块41，用于接收待检测的语音信号帧并获取所述语音信号帧的特征矢量；

所述计算模块42，用于根据所述特征矢量，获取所述语音信号帧在预先训练的音素声学模型中的最优到达路径；

所述识别模块43，用于当根据所述最优到达路径检测到非静音信号帧并判定所述非静音信号帧之前存在预设数量的静音信号帧，则判定所述非静音信号帧为所述语音端点。

其中，所述装置进一步包括训练模块44，所述训练模块44具体用于：根据发音规则对文字的音素进行分类，得到第一数量的音素分类结果；采集每一所述文字在不同环境下的声音样本并进行声学模型的训练，得到所述第一数量的音素声学模型。

其中，所述计算模块42具体用于：根据所述第一数量的所述音素声学模型，建立结构体数组，计算所述特征矢量与所述结构体数组中每一个节点的似然度得分；根据所述似然度得分，解析所述特征矢量在所述结构体数组中的最优到达路径；其中，所述音素声学模型中的一个状态对应所述结构体数组中的一个所述节点。

其中，所述结构体数组中的每一节点保存有所述节点的ID、所述节点的可能前往的节点的ID以及所述节点已经被到达过的概率值。

其中，所述计算模块42具体用于执行如下步骤a～步骤c：

其中，所述识别模块43具体用于：若所述特征矢量的最优到达路径中经过的每一所述节点都对应静音音素语音模型，则判定所述特征矢量对应的所述语音信号帧为静音语音信号帧。

其中，所述识别模块43具体用于：若所述特征矢量的最优到达路径中经过的至少一个所述节点对应非静音音素语音模型，则判定所述特征矢量对应的所述语音信号帧为非静音语音信号帧。

图4所示装置可以执行图1～图3所示实施例的方法，实现原理和技术效果参考图1～图3所示实施例，不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音端点检测方法，其特征在于，包括如下的步骤：

当根据所述最优到达路径检测到非静音信号帧，并判定所述非静音信号帧之前存在预设数量的静音信号帧，则判定所述非静音信号帧为所述语音端点。

2.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

根据发音规则对文字的音素进行分类，得到第一数量的音素分类结果；

采集每一所述文字在不同环境下的声音样本并进行声学模型的训练，得到所述第一数量的音素声学模型。

3.根据权利要求2所述的方法，其特征在于，获取所述语音信号帧在所述音素声学模型中的最优到达路径，具体包括：

根据所述第一数量的所述音素声学模型，建立结构体数组，计算所述特征矢量与所述结构体数组中每一个节点的似然度得分；

根据所述似然度得分，解析所述特征矢量在所述结构体数组中的最优到达路径；其中，所述音素声学模型中的一个状态对应所述结构体数组中的一个所述节点。

4.根据权利要求3所述的方法，其特征在于，所述结构体数组中的每一节点保存有所述节点的ID、所述节点的可能前往的节点的ID以及所述节点已经被到达过的概率值。

5.根据权利要求4所述的方法，其特征在于，根据所述似然度得分，解析所述特征矢量在所述结构体数组中的最优到达路径，具体包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

若所述特征矢量的最优到达路径中经过的每一所述节点都对应静音音素语音模型，则判定所述特征矢量对应的所述语音信号帧为静音语音信号帧。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

若所述特征矢量的最优到达路径中经过的至少一个所述节点对应非静音音素语音模型，则判定所述特征矢量对应的所述语音信号帧为非静音语音信号帧。

8.一种语音端点检测装置，其特征在于，包括如下的模块：

识别模块，用于当根据所述最优到达路径检测到非静音信号帧，并判定所述非静音信号帧之前存在预设数量的静音信号帧，则判定所述非静音信号帧为所述语音端点。

9.根据权利要求8所述的装置，其特征在于，所述装置进一步包括训练模块，所述训练模块具体用于：

10.根据权利要求9所述的装置，其特征在于，所述计算模块具体用于：

11.根据权利要求10所述的装置，其特征在于，所述结构体数组中的每一节点保存有所述节点的ID、所述节点的可能前往的节点的ID以及所述节点已经被到达过的概率值。

12.根据权利要求11所述的装置，其特征在于，所述计算模块具体用于：

13.根据权利要求12所述的装置，其特征在于，所述识别模块具体用于：

14.根据权利要求13所述的装置，其特征在于，所述识别模块具体用于：