CN108962227B

CN108962227B - 语音起点和终点检测方法、装置、计算机设备及存储介质

Info

Publication number: CN108962227B
Application number: CN201810587380.1A
Authority: CN
Inventors: 李超; 朱唯鑫
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2020-06-30
Anticipated expiration: 2038-06-08
Also published as: CN108962227A; US10825470B2; US20190378537A1; JP2019211749A; JP6759509B2

Abstract

本发明公开了语音起点和终点检测方法、装置、计算机设备及存储介质，其中方法包括：获取待检测的语音数据；将语音数据分割为语音片段，语音片段数大于一；基于预先训练得到的语音活动检测模型，分别确定出各语音片段的语音状态；根据语音状态确定出语音数据的起点和终点。应用本发明所述方案，能够提高检测结果的准确性等。

Description

语音起点和终点检测方法、装置、计算机设备及存储介质

【技术领域】

本发明涉及语音处理技术，特别涉及语音起点和终点检测方法、装置、计算机设备及存储介质。

【背景技术】

随着技术的发展，出现了各种具有语音交互功能的产品，如智能音箱、智能电视、智能冰箱等。

语音交互中很重要的一点，就是能够检测出语音的起点和终点。

检测起点的必要性在于：可以将真正的语音提取出来，比如，智能音箱一直处于待机状态，时刻监听着环境中的语音，如果每一帧语音数据均进行语音识别的处理，无疑会给系统带来很大的功耗，语音起点的检测，可以让系统只关注有人说话的片段，而对其它如噪声段不作处理。

检测终点的必要性在于：当用户说出了他的请求，系统需要快速给出反应，若有延迟可能用户就会抱怨“系统反应太慢”等，比如，用户说出了他的请求“北京今天的天气”，用户希望在说出请求之后，系统能够及时告诉他“北京今天多云”等。

现有技术中提出了各种语音起点和终点检测方法，如基于信号处理的方法、利用分类模型进行检测的方法等。但这些方法都比较容易出现检测错误，如出现起点的误报和漏报以及终点的误报和漏报等。

其中，起点的误报包括：将噪声段分类成了语音，从而将噪声传给了后台的语音识别器，进而增加了系统的功耗，如果后台服务在云端，还会增加流量。

起点的漏报包括：语音的起点没有检测到，因此没有任何语音被传递到后台的语音识别器，这种情况时有发生，比如用户说话的声音很小，从而错误地将用户的小声说话当做背景噪声来处理，进而使得后台的语音识别器接收不到任何语音。

终点的误报包括：提前截止，即用户还没有说完话，就认为语音结束了，这种情况多出现在用户说话“虎头蛇尾”的时候，如声音越说越小，或者，用户具有较长时间的停顿，如用户说出“北京今天的天气”之后，喘了口气，再接着说“适合外出爬山吗”，如果终点检测过于敏感，就会分成两句话来处理。

终点的漏报包括：长时间不截止，这种情况多出现在环境比较嘈杂的时候，用户虽然说话结束，但由于背景噪声比较大，就不会截断，造成的后果就是，用户说完了“北京今天天气怎么样”，然后一直在等待系统给出反应。

无论是出现了误报还是漏报，均降低了检测结果的准确性。

【发明内容】

有鉴于此，本发明提供了语音起点和终点检测方法、装置、计算机设备及存储介质。

具体技术方案如下：

一种语音起点和终点检测方法，包括：

获取待检测的语音数据；

将所述语音数据分割为语音片段，所述语音片段数大于一；

基于预先训练得到的语音活动检测模型，分别确定出各语音片段的语音状态；

根据所述语音状态确定出所述语音数据的起点和终点。

根据本发明一优选实施例，至少相邻两个语音片段之间存在重叠。

根据本发明一优选实施例，所述语音活动检测模型包括：卷积神经网络模型。

根据本发明一优选实施例，所述基于预先训练得到的语音活动检测模型，分别确定出各语音片段的语音状态包括：

利用所述语音活动检测模型对所述语音片段进行分类；

基于所述语音活动检测模型的输出，利用维特比解码算法确定出所述语音片段的语音状态。

根据本发明一优选实施例，训练得到所述语音活动检测模型包括：

获取作为训练数据的语音数据；

分别从获取到的每条语音数据中抽取出N个不同语音状态的样本片段，N为大于一的正整数；

根据抽取出的样本片段训练得到所述语音活动检测模型。

根据本发明一优选实施例，所述分别从获取到的每条语音数据中抽取出N个不同语音状态的样本片段包括：

针对每条语音数据，分别获取所述语音数据的语音帧以及非语音帧标注结果；

根据所述标注结果，从所述语音数据中抽取出N个不同语音状态的样本片段。

根据本发明一优选实施例，所述语音状态包括：

静音状态、起点状态、语音保持状态以及终点状态。

分别从获取到的每条语音数据中随机抽取出N个不同语音状态的样本片段；

其中，所述起点状态的样本片段中，语音起点位于所述样本片段的前半部分，且与所述样本片段的起点距离大于预定阈值；

所述终点状态的样本片段中，语音终点位于所述样本片段的前半部分，且与所述样本片段的起点距离大于预定阈值。

根据本发明一优选实施例，所述根据所述语音状态确定出所述语音数据的起点和终点包括：

根据所述语音数据中的第一个起点状态的语音片段以及第一个终点状态的语音片段确定出所述语音数据的起点和终点。

一种语音起点和终点检测装置，包括：检测模块，所述检测模块中包括：第一获取单元、分割单元以及确定单元；

所述第一获取单元，用于获取待检测的语音数据；

所述分割单元，用于将所述语音数据分割为语音片段，所述语音片段数大于一；

所述确定单元，用于基于预先训练得到的语音活动检测模型，分别确定出各语音片段的语音状态，根据所述语音状态确定出所述语音数据的起点和终点。

根据本发明一优选实施例，所述确定单元利用所述语音活动检测模型对所述语音片段进行分类，基于所述语音活动检测模型的输出，利用维特比解码算法确定出所述语音片段的语音状态。

根据本发明一优选实施例，所述装置中进一步包括：训练模块；

所述训练模块中包括：第二获取单元、抽取单元以及训练单元；

所述第二获取单元，用于获取作为训练数据的语音数据；

所述抽取单元，用于分别从获取到的每条语音数据中抽取出N个不同语音状态的样本片段，N为大于一的正整数；

所述训练单元，用于根据抽取出的样本片段训练得到所述语音活动检测模型。

根据本发明一优选实施例，所述抽取单元进一步用于，针对每条语音数据，分别获取所述语音数据的语音帧以及非语音帧标注结果，根据所述标注结果，从所述语音数据中抽取出N个不同语音状态的样本片段。

根据本发明一优选实施例，所述语音状态包括：

静音状态、起点状态、语音保持状态以及终点状态。

根据本发明一优选实施例，所述抽取单元分别从获取到的每条语音数据中随机抽取出N个不同语音状态的样本片段；

根据本发明一优选实施例，所述确定单元根据所述语音数据中的第一个起点状态的语音片段以及第一个终点状态的语音片段确定出所述语音数据的起点和终点。

一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

基于上述介绍可以看出，采用本发明所述方案，在获取到待检测的语音数据之后，可首先将语音数据分割为多个语音片段，之后可基于预先训练得到的语音活动检测模型，分别确定出各语音片段的语音状态，进而可根据语音状态确定出语音数据的起点和终点，相比于现有技术，本发明所述方案中结合了片段级别的分类及深度学习模型等来进行起点和终点的检测，从而提高了检测结果的准确性。

【附图说明】

图1为本发明所述语音起点和终点检测方法实施例的流程图。

图2为现有一条语音数据的语谱图。

图3为本发明所述各状态的示意图。

图4为本发明所述静音状态的样本片段的抽取方式示意图。

图5为本发明所述起点状态的样本片段的抽取方式示意图。

图6为本发明所述语音保持状态的样本片段的抽取方式示意图。

图7为本发明所述终点状态的样本片段的抽取方式示意图。

图8为本发明所述抽取出的4个样本片段的示意图。

图9为本发明所述语音起点和终点检测装置实施例的组成结构示意图。

图10示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。

【具体实施方式】

为了使本发明的技术方案更加清楚、明白，以下参照附图并举实施例，对本发明所述方案进行进一步说明。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明所述语音起点和终点检测方法实施例的流程图。如图1所示，包括以下具体实现方式。

在101中，获取待检测的语音数据。

在102中，将语音数据分割为语音片段，语音片段数大于一。

在103中，基于预先训练得到的语音活动检测(VAD，Voice Activity Detection)模型，分别确定出各语音片段的语音状态。

在104中，根据语音状态确定出语音数据的起点和终点。

一条语音数据中，通常会包括以下四种状态：

静音，可能包含噪声；

语音的起点，用户开始说话；

语音的保持，用户一直在说话，可能有微弱的停顿；

语音的终点，用户说话结束。

图2为现有一条语音数据的语谱图。图3为本发明所述各状态的示意图。如图3所示，针对图2所示语谱图，可用1来表示用户说话，用0来表示用户未说话，A、B、C、D依次表示静音、语音的起点、语音的保持以及语音的终点等状态。

为实现图1所示流程，需要首先进行模型训练，即训练得到语音活动检测模型。训练过程是通过训练数据的整理和抽象，训练出一个在训练集合上收敛的模型。之后，可将训练出的模型用到实际的使用情况中，进行语音起点和终点的检测。

如图3所示，通常来说，一条语音数据中，静音状态A和语音保持状态C的持续时间都比较长，而起点状态B和终点状态D只有一个，因此，如果用整条语音数据进行训练，对B和D两个状态会非常不利，它们产生的代价很容易被A和C状态掩盖掉，为此，本实施例中，可采用片段级别的分类，以此作为基础进行训练和检测。

其中，为训练得到语音活动检测模型，可首先获取作为训练数据的语音数据，之后可分别从获取到的每条语音数据中抽取出N个不同语音状态的样本片段，N为大于一的正整数，进而可根据抽取出的样本片段训练得到语音活动检测模型。

N的具体取值可根据实际需要而定，较佳地，如前所示，N的取值可为4，4个语音状态可分别为：静音状态、起点状态、语音保持状态以及终点状态。

比如，可获取1万条语音数据，每条大约几秒钟的长度。针对每条语音数据，可首先分别获取语音数据的语音帧以及非语音帧标注结果。可以采用人工标注的方式来获得标注结果，也可以采用语音识别中的机器强制对齐的方式来获得标注结果，语音帧可以标注为1，非语音帧可以标注为0。

之后，可根据标注结果，从每条语音数据中分别抽取出4个不同语音状态的样本片段，具体抽取方式可如下所示。

1)静音状态的样本片段

图4为本发明所述静音状态的样本片段的抽取方式示意图。如图4所示，可从语音数据中随机抽取出一段静音片段，作为静音状态的样本片段，样本片段由标注为0的帧组成。

2)起点状态的样本片段

图5为本发明所述起点状态的样本片段的抽取方式示意图。如图5所示，可从语音数据中随机抽取出一段包含语音起点的片段，作为起点状态的样本片段，样本片段由标注为0和1的帧组成。

较佳地，语音起点位于样本片段的前半部分，且与样本片段的起点距离大于预定阈值，即语音起点需要位于样本片段的前半部分，但是也不能太靠前，比如，可以位于0.25～0.5的范围内，0.25表示样本片段的长度的1/4处，0.5表示样本片段的长度的1/2处。

实验显示，按照上述方式得到的样本片段更适合进行后续的模型训练，能够更好地提升模型训练效果。

3)语音保持状态的样本片段

图6为本发明所述语音保持状态的样本片段的抽取方式示意图。如图6所示，可从语音数据中随机抽取出一段语音片段，作为语音保持状态的样本片段，样本片段由标注为1的帧组成。

4)终点状态的样本片段

图7为本发明所述终点状态的样本片段的抽取方式示意图。如图7所示，可从语音数据中随机抽取出一段包含语音终点的片段，作为终点状态的样本片段，样本片段由标注为0和1的帧组成。

较佳地，语音终点位于样本片段的前半部分，且与样本片段的起点距离大于预定阈值，即语音终点需要位于样本片段的前半部分，但是也不能太靠前，比如，可以位于0.25～0.5的范围内，0.25表示样本片段的长度的1/4处，0.5表示样本片段的长度的1/2处。

图8为本发明所述抽取出的4个样本片段的示意图。如图8所示，将抽取出的各样本片段进行汇总，可得到4个样本片段，分别为静音状态的样本片段、起点状态的样本片段、语音保持状态的样本片段以及终点状态的样本片段。

这样，针对每条语音数据，可分别得到4个样本片段，进一步地，可针对每个样本片段，分别生成一个训练pair{x，y}，其中x为特征，y为标签(label)，即语音状态(分类结果)。

所述特征以及各样本片段的长度等均可根据实际需要而定，各样本片段的长度可以相同。

比如，可采用25ms帧长，10ms帧移，梅尔滤波器组(mel filterbank)64维的特征，当然，帧长、帧移也可以为其它值，特征也可以用别的声学特征来代替，如梅尔频率倒谱系数(MFCC，Mel-frequency Cepstrum Coefficients)、感知线性预测系数(PLP，PerceptualLinear Predictive)等。另外，可采用context＝32，也可以更大，原则上大了会更准，但是会带来时间上的延迟。

将所有的语音数据均处理完毕后，即可获取到全量的训练pair，可根据全量的训练pair训练得到语音活动检测模型。

可采用深度神经网络作为语音活动检测模型，较佳地，可采用卷积神经网络(CNN，Convolutional Neural Network)模型。网络由多层cnn堆砌而成，输出层为4个节点，softmax做为激活，采用交叉熵作为代价函数。如何进行训练为现有技术。

完成语音活动检测模型的训练之后，即可利用该模型进行实际的语音起点和终点的检测。

具体地，在获取到待检测的语音数据之后，可首先将语音数据分割为多个语音片段，之后可基于语音活动检测模型，分别确定出各语音片段的语音状态，进而可根据语音状态确定出语音数据的起点和终点。

可将待检测的语音数据分割成有重叠的若干个语音片段，即至少相邻两个语音片段之间存在重叠。比如，可将每32帧作为一个语音片段，每隔8帧取一个这样的语音片段，即将第1～32帧作为一个语音片段，将第9～40帧作为一个语音片段，依此类推。

针对分割得到的各语音片段，可分别利用语音活动检测模型对语音片段进行分类，并基于语音活动检测模型的输出，利用维特比解码算法确定出语音片段的语音状态。

具体地，可获取语音片段的特征，将获取到的特征输入4状态的语音活动检测模型，进行分类，得到概率输出h，之后，可基于概率输出h，利用维特比解码算法确定出语音片段的语音状态，所述维特比解码算法为标准的维特比解码算法，具体实现为现有技术。

对于一条正常的语音数据来说，会依次经过如下的阶段：静音状态-起点状态-语音保持状态-终点状态，各状态的跳转必须是连续的。

相应地，可根据语音数据中的第一个起点状态的语音片段以及第一个终点状态的语音片段确定出语音数据的起点和终点，如将第一个起点状态的语音片段和第一个终点状态的语音片段以及二者之间的语音数据作为真正的语音提取出来，进行语音识别等后续处理。

需要说明的是，对于前述的方法实施例，为了简单描述，将其表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

总之，上述方法实施例所述方案中，结合了片段级别的分类及深度学习模型等来进行起点和终点的检测，从而提高了检测结果的准确性等。

以上是关于方法实施例的介绍，以下通过装置实施例，对本发明所述方案进行进一步说明。

图9为本发明所述语音起点和终点检测装置实施例的组成结构示意图。如图9所示，包括：检测模块901，检测模块901中可具体包括：第一获取单元9011、分割单元9012以及确定单元9013。

第一获取单元9011，用于获取待检测的语音数据。

分割单元9012，用于将语音数据分割为语音片段，语音片段数大于一。

确定单元9013，用于基于预先训练得到的语音活动检测模型，分别确定出各语音片段的语音状态，根据语音状态确定出语音数据的起点和终点。

为实现上述操作，需要首先进行模型训练，即训练得到语音活动检测模型。相应地，图9所示装置中可进一步包括：训练模块902。训练模块902中可具体包括：第二获取单元9021、抽取单元9022以及训练单元9023。

第二获取单元9021，用于获取作为训练数据的语音数据。

抽取单元9022，用于分别从获取到的每条语音数据中抽取出N个不同语音状态的样本片段，N为大于一的正整数。

训练单元9023，用于根据抽取出的样本片段训练得到语音活动检测模型。

N的具体取值可根据实际需要而定，较佳地，N的取值可为4，4个语音状态可分别为：静音状态、起点状态、语音保持状态以及终点状态。

比如，第二获取单元9021可获取1万条语音数据，每条大约几秒钟的长度。针对每条语音数据，抽取单元9022可首先分别获取语音数据的语音帧以及非语音帧标注结果，比如，语音帧可以标注为1，非语音帧可以标注为0，之后可根据标注结果，从语音数据中抽取出4个不同语音状态的样本片段。

抽取单元9022可分别从获取到的每条语音数据中随机抽取出4个不同语音状态的样本片段，即静音状态的样本片段、起点状态的样本片段、语音保持状态的样本片段以及终点状态的样本片段。

其中，起点状态的样本片段中，语音起点可位于样本片段的前半部分，且与样本片段的起点距离大于预定阈值。终点状态的样本片段中，语音终点可位于样本片段的前半部分，且与样本片段的起点距离大于预定阈值。

这样，针对每条语音数据，可分别得到4个样本片段，进一步地，训练单元9023可针对每个样本片段，分别生成一个训练pair{x，y}，其中x为特征，y为label，即语音状态(分类结果)，将所有的语音数据均处理完毕后，即可获取到全量的训练pair，进而可根据全量的训练pair训练得到语音活动检测模型。

可采用深度神经网络作为语音活动检测模型，较佳地，可采用卷积神经网络模型。

分割单元9012从第一获取单元9011获取到待检测的语音数据后，可将语音数据分割为多个语音片段，之后，确定单元9013可基于语音活动检测模型，分别确定出各语音片段的语音状态，进而可根据语音状态确定出语音数据的起点和终点。

分割单元9012可将待检测的语音数据分割成有重叠的若干个语音片段，即至少相邻两个语音片段之间存在重叠。比如，可将每32帧作为一个语音片段，每隔8帧取一个这样的语音片段。

针对分割得到的各语音片段，确定单元9013可利用语音活动检测模型对语音片段进行分类，并基于语音活动检测模型的输出，利用维特比解码算法确定出语音片段的语音状态。

进一步地，确定单元9013可根据语音数据中的第一个起点状态的语音片段以及第一个终点状态的语音片段确定出语音数据的起点和终点，如将第一个起点状态的语音片段和第一个终点状态的语音片段以及二者之间的语音数据作为真正的语音提取出来，进行语音识别等后续处理。

图9所示装置实施例的具体工作流程请参照前述方法实施例中的相应说明，不再赘述。

图10示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图10显示的计算机系统/服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器(处理单元)16，存储器28，连接不同系统组件(包括存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图10未显示，通常称为“硬盘驱动器”)。尽管图10中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图10所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机系统/服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现图1所示实施例中的方法。

本发明同时公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时将实现如图1所示实施例中的方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法等，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音起点和终点检测方法，其特征在于，包括：

获取待检测的语音数据；

将所述语音数据分割为语音片段，语音片段数大于一；

基于预先训练得到的语音活动检测模型，分别确定出各语音片段的语音状态；其中，所述语音状态包括：起点状态和终点状态；

根据所述语音状态确定出所述语音数据的起点和终点，包括：根据所述语音数据中的第一个起点状态的语音片段以及第一个终点状态的语音片段确定出所述语音数据的起点和终点；

其中，训练得到所述语音活动检测模型包括：获取作为训练数据的语音数据；分别从获取到的每条语音数据中抽取出N个不同语音状态的样本片段，N为大于一的正整数；根据抽取出的样本片段训练得到所述语音活动检测模型；

所述起点状态的样本片段中，语音起点位于所述样本片段的前半部分，且与所述样本片段的起点距离大于预定阈值；所述终点状态的样本片段中，语音终点位于所述样本片段的前半部分，且与所述样本片段的起点距离大于预定阈值。

2.根据权利要求1所述的方法，其特征在于，

至少相邻两个语音片段之间存在重叠。

3.根据权利要求1所述的方法，其特征在于，

所述语音活动检测模型包括：卷积神经网络模型。

4.根据权利要求1所述的方法，其特征在于，

所述基于预先训练得到的语音活动检测模型，分别确定出各语音片段的语音状态包括：

利用所述语音活动检测模型对所述语音片段进行分类；

5.根据权利要求1所述的方法，其特征在于，

所述分别从获取到的每条语音数据中抽取出N个不同语音状态的样本片段包括：

6.根据权利要求1所述的方法，其特征在于，

所述语音状态进一步包括：

静音状态以及语音保持状态。

7.根据权利要求1所述的方法，其特征在于，

所述分别从获取到的每条语音数据中抽取出N个不同语音状态的样本片段包括：分别从获取到的每条语音数据中随机抽取出N个不同语音状态的样本片段。

8.一种语音起点和终点检测装置，其特征在于，包括：检测模块，所述检测模块中包括：第一获取单元、分割单元以及确定单元；

所述第一获取单元，用于获取待检测的语音数据；

所述分割单元，用于将所述语音数据分割为语音片段，语音片段数大于一；

所述确定单元，用于基于预先训练得到的语音活动检测模型，分别确定出各语音片段的语音状态，所述语音状态包括：起点状态和终点状态；根据所述语音状态确定出所述语音数据的起点和终点，包括：根据所述语音数据中的第一个起点状态的语音片段以及第一个终点状态的语音片段确定出所述语音数据的起点和终点；

所述装置中进一步包括：训练模块；所述训练模块中包括：第二获取单元、抽取单元以及训练单元；

所述第二获取单元，用于获取作为训练数据的语音数据；

所述训练单元，用于根据抽取出的样本片段训练得到所述语音活动检测模型；

其中，所述起点状态的样本片段中，语音起点位于所述样本片段的前半部分，且与所述样本片段的起点距离大于预定阈值；所述终点状态的样本片段中，语音终点位于所述样本片段的前半部分，且与所述样本片段的起点距离大于预定阈值。

9.根据权利要求8所述的装置，其特征在于，

至少相邻两个语音片段之间存在重叠。

10.根据权利要求8所述的装置，其特征在于，

所述语音活动检测模型包括：卷积神经网络模型。

11.根据权利要求8所述的装置，其特征在于，

所述确定单元利用所述语音活动检测模型对所述语音片段进行分类，基于所述语音活动检测模型的输出，利用维特比解码算法确定出所述语音片段的语音状态。

12.根据权利要求8所述的装置，其特征在于，

所述抽取单元进一步用于，针对每条语音数据，分别获取所述语音数据的语音帧以及非语音帧标注结果，根据所述标注结果，从所述语音数据中抽取出N个不同语音状态的样本片段。

13.根据权利要求8所述的装置，其特征在于，

所述语音状态进一步包括：

静音状态以及语音保持状态。

14.根据权利要求8所述的装置，其特征在于，

所述抽取单元分别从获取到的每条语音数据中随机抽取出N个不同语音状态的样本片段。

15.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～7中任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～7中任一项所述的方法。