CN109036459A

CN109036459A - 语音端点检测方法、装置、计算机设备、计算机存储介质

Info

Publication number: CN109036459A
Application number: CN201810959142.9A
Authority: CN
Inventors: 李超; 朱唯鑫
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2018-12-18
Anticipated expiration: 2038-08-22
Also published as: CN109036459B

Abstract

本发明提出一种语音端点检测方法、装置、计算机设备和计算机可读存储介质。语音端点检测方法，可以包括：针对待检测语音帧，设置卷积神经网络的卷积层的层数；根据所述卷积层的层数设置每层卷积层的步长，其中至少一个所述步长大于1；根据所述每层卷积层的步长，确定所述待检测语音帧的跳帧数。在待检测语音帧进行跳帧检测的情况下，可以大幅度减少电子设备例如计算机设备中的中央处理器的计算量，从而大幅度降低了电子设备的功耗。

Description

语音端点检测方法、装置、计算机设备、计算机存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音端点检测方法、装置、计算机设备和计算机可读存储介质。

背景技术

在语音识别系统中，输入的音频信号一般包括语音和背景噪声，在输入信号中找到语音段，称为语音端点检测、起终点检测或语音活动性检测(Voice ActivityDetection；简称VAD)。简单地说就是要找出语音段的起点和终点，语音端点检测的准确与否，会直接影响到语音识别系统的性能。

在现有的语音端点检测中，由于每个语音帧中既包含了语音信息又包含了背景噪声信息，这时需要对于每个语音帧进行语音端点检测，因此中央处理器(CPU)等硬件设备的功耗很大。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

根据本发明的第一个方面，提供了一种语音端点检测方法，可以包括：针对待检测语音帧，设置卷积神经网络(Convolutional Neural Network，简称CNN)的卷积层(convolution layer或者convolutional layer)的层数；根据卷积层的层数设置每层卷积层的步长，其中至少一个步长大于1；根据每层卷积层的步长，确定待检测语音帧的跳帧数。

根据本发明第一方面的一个实施例，其中针对待检测语音帧，设置卷积神经网络的卷积层的层数可以包括：在跳帧数相同的情况下，设置能够将卷积层的层数最大化的层数。

根据本发明第一方面的另一个实施例，其中根据卷积层的层数设置每层卷积层的步长，其中至少一个步长大于1包括：将第一层卷积层的步长设置为大于1。

根据本发明第一方面的再一个实施例，其中将第一层卷积层的步长设置为大于1包括将每层卷积层的步长都设置为大于1。

根据本发明第一方面的又一个实施例，其中根据每层卷积层的步长，确定待检测语音帧的跳帧数包括：根据每层卷积层的步长的乘积，确定待检测语音帧的跳帧数。

根据本发明的第二个方面，提供一种语音端点检测装置，可以包括：

设置模块，用于针对待检测语音帧，设置卷积神经网络的卷积层的层数，并且根据卷积层的层数设置每层卷积层的步长，其中至少一个步长大于1；

确定模块，用于根据每层卷积层的步长，确定待检测语音帧的跳帧数。

根据本发明第二方面的一个实施例，其中设置模块在跳帧数相同的情况下，设置能够将卷积层的层数最大化的层数。

根据本发明第二方面的另一个实施例，其中设置模块将第一层卷积层的步长设置为大于1。

根据本发明第二方面的再一个实施例，其中设置模块将第一层卷积层的步长设置为大于1包括将每层卷积层的步长都设置为大于1。

根据本发明第二方面的又一个实施例，其中确定模块根据每层卷积层的步长的乘积，确定待检测语音帧的跳帧数。

根据本发明的第三个方面，提供一种计算机设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现如上所述的任一的方法。

根据本发明的第四个方面，提供一种计算机可读存储介质，其存储有计算机程序，程序被处理器执行时实现如上的方法。

现有技术中使用深度学习的语音端点检测方法有个普遍的问题就是功耗大，因为使用了多层的神经网络例如卷积神经网络，其计算复杂度是传统信号处理方法的几十倍，甚至上百倍。在本发明实施例的方案中，借助于设置适当的卷积神经网络的卷积层的层数，以及设置适当的每层卷积层的步长，从而能够根据每层卷积层的步长，确定待检测语音帧的跳帧数。在待检测语音帧跳帧检测的情况下，可以大幅度减少电子设备例如计算机设备中的中央处理器的计算量，从而大幅度降低了电子设备的功耗。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示意性示出根据本发明第一个方面的关于语音端点检测方法的一个实施例；

图2示意性示出根据本发明第一个方面的关于语音端点检测方法的另一个实施例；

图3示意性示出关于卷积神经网络的卷积运算的一个实施例；

图4示意性示出关于卷积神经网络的卷积运算的另一个实施例；

图5示意性示出关于卷积神经网络的卷积运算的再一个实施例；

图6示意性示出关于卷积神经网络的卷积运算的又一个实施例；

图7示意性示出关于卷积神经网络的卷积运算的一个实施例；

图8示意性示出关于卷积神经网络的卷积运算的另一个实施例；

图9示意性示出根据本发明第二个方面的关于语音端点检测装置的一个实施例；

图10示意性示出根据本发明第三个方面的关于计算机设备的一个实施例。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。下文还可能包括其他明确的和隐含的定义。

在语音交互领域中，由于上面提到的输入的音频信号一般包括语音和背景噪声，因此需要能够判断语音信号的起点和终点。这个工作是由语音端点检测模型来完成的。

判断语音起点的必要性在于：可以将语音信号从一段音频中提取出来，一段音频通常认为是由一系列的语音帧组成的。一个简单的例子，智能音箱一直处于待机状态，时刻监听着环境中的音频，如果对每一秒钟每一帧的音频都进行语音识别的处理，无疑给系统带来很大的功耗。语音起点的检测，可以让系统只关注有人说话的片段，对纯噪声段不予处理。

判断语音终点的必要性在于：当用户说完了他的请求，语音交互系统需要快速反映，稍有延迟可能用户就会抱怨，“系统反映太慢！”。例如，用户说了他的请求：“北京今天的天气”，用户希望在他说完话之后，系统能够及时告诉他：“北京今天多云。。。。。。”等等。

上面给出的例子都是比较理想的情况。语音端点检测本身是个分类模型，如果模型性能不理想，就会出现坏案例(badcase)。语音端点检测中起点检测的坏案例有两种：

第一种情形是，噪声段被分类成了语音，语音端点检测把噪声传给了后台的语音识别器。这个问题的危害主要是增加了系统的功耗，如果后台服务在云端，就会增加流量。

第二种情形是，没有检测到语音的起点，因此没有任何声音被传递到后台的服务器。这种情况时有发生，比如用户说话的声音很小，这时候如果语音端点检测不能处理轻声说话的情况，就会把用户的小声说话当做背景噪声来处理，后台的语音识别服务就不会接收到任何语音。

这两种起点的检测错误分别是起点的误报和漏报。一个好的语音端点检测系统能够尽量减少起点的检测错误。

语音端点检测中终点检测的坏案例也有两种：

第一种情形是，提前截止，即，如果用户没有说完话，语音端点检测就认为语音结束了。这个情况多出现在用户说话的时候“虎头蛇尾”，越说声音越小；还有种情况就是用户长停顿，例如：“北京今天的天气”，用户喘了口气，接着说“适合外出爬山吗？”。如果端点检测过于敏感，语音端点检测就会把它段成两句话。

第二种情形是，长时间不截止，这个情况多出现在环境比较嘈杂的时候。这时候语音虽然结束了，但是背景噪声非常大，因此如果语音端点检测不够精确的话，就不会截断。造成的后果就是，用户说完了“北京今天天气？”，然后一直在等这系统给反馈，但是系统觉得用户还没有说完。

这两种终点检测的错误分别是终点的误报和漏报。一个好的语音端点检测系统能够尽量减少终点的检测错误。

在语音端点检测技术中，如何有效地避免语音起点和终点的误报和漏报，降低电子设备例如计算机设备中的中央处理器的功耗，是本领域迫切要解决的技术问题。

本发明实施例可应用于各类智能音箱、对话式人工智能系统(DuerOS)、智能电视、智能冰箱、智能手机、iPAD、电子书等能够应用语音输入的商业产品中，具有广阔的用途。

下面结合图1-10对本发明的各个示意性实施例进行详细地描述。

图1为根据本发明第一个方面的语音端点检测方法10的一个实施例，在图1所示的方法中可以包括如下的步骤：步骤2，针对待检测语音帧，设置卷积神经网络的卷积层的层数。

本领域技术人员知晓的是，在语音检测领域，由于每个语音帧或者音频帧中包含了语音和背景噪声的信息，因此需要从这些语音帧或者音频帧中分离出需要的语音信号并且过滤掉不需要的背景噪声信号。为了更有效地从语音帧中分离出语音信号，就需要知道语音帧中何时开始出现有语音信号以及语音信号的结束时间。在深度学习的神经网络中，卷积神经网络是处理语音信号常用的深度学习模型。

在一个实施例中，针对待检测语音帧，设置卷积神经网络的卷积层的层数的步骤2可以包括：步骤8，在跳帧数相同的情况下，设置能够将卷积层的层数最大化的层数，如在图2中示出的。图2为根据本发明第一个方面的语音端点检测方法10’的另一个实施例。例如，在语音端点检测方法10和10’的实施例中，可以设置卷积层的层数为1、2、3、4、5、6…。卷积层层数的设置是与后面将要提到的卷积运算中使用的步长(stride)相关联的。

上面提到的卷积神经网络是一种前馈神经网络。卷积神经网络通常包括一维卷积神经网络、二维卷积神经网络以及三维卷积神经网络。一维卷积神经网络常应用于序列类的数据处理；二维卷积神经网络常应用于图像类文本的识别；三维卷积神经网络主要应用于医学图像以及视频类数据识别。由于语音信号本质上是以时间为自变量的一维连续函数，计算机处理的语音数据是语音信号按时间排序的采样值序列，这些采样值的大小同样表示了语音信号在采样点处的能量，因此发明人在此使用一维卷积神经网络来处理语音信号。关于一维卷积神经网络的处理步骤后面还将提到，在此不再赘述。

在图1所示的语音端点检测方法10中可以包括步骤4：根据卷积层的层数设置每层卷积层的步长，其中至少一个步长大于1。在卷积运算中，每层卷积层的步长可以设置为相同或者不同，但是至少一个步长是大于1的。其中步骤4根据卷积层的层数设置每层卷积层的步长，其中至少一个步长大于1还可以包括步骤12：将第一层卷积层的步长设置为大于1，如在图2中示出的。这样设置的目的在于，实现跳帧的目的。关于这一点还将在后面详述，在此不再赘述。优选的，步骤12：将第一层卷积层的步长设置为大于1还可以包括步骤13，将每层卷积层的步长都设置为大于1。如在图2中示出的。

图1所示的语音端点检测方法10中可以包括步骤6：根据每层卷积层的步长，确定待检测语音帧的跳帧数。在本发明的一个实施例中，根据每层卷积层的步长，确定待检测语音帧的跳帧数的步骤6可以进一步包括：步骤14，根据每层卷积层的步长的乘积，确定待检测语音帧的跳帧数，如在图2中示意的。

关于在本发明的各个实施例中的一维卷积神经网络中的采样值和如何将语音划分为语音帧，一种简单的示例如下。例如采样值中有正值和负值，计算能量值时一般不需要考虑正负号。从这个意义上看，可以使用采样值的绝对值来表示能量值。由于绝对值符号在数学处理上不方便，所以采样点的能量值通常使用采样值的平方。一段包含N个采样点的语音的能量值可以定义为其中各采样值的平方和。这样，一段语音的能量值既与其中的采样值大小有关，又与其中包含的采样点数量有关。为了考察语音能量值的变化，需要先将语音信号按照固定时长比如20毫秒进行分割，每个分割单元称为语音帧，每个语音帧中包含数量相同的采样点，然后计算每个语音帧中语音的能量值。至于语音帧的分割以及语音帧中能量值的计算方法可以参考现有技术中的相关文献，在此不再赘述。

在本发明的各个实施例中提到的术语“卷积层”是用来进行特征提取，例如：输入语音帧(经过特征提取)是32*3(频率x时间)，其中的数值32代表频率，单位可以是赫兹。例如人耳能听到的音频范围约在20～20000Hz之间。数值3代表时间(例如秒、毫秒等)。这里的32*3(频率x时间)仅仅是输入语音帧的假设，也可能是25*3，30*3，35*5，37*5，500*5，1000*5，2000*5等等，这取决于实际输入的语音帧经过特征提取后的数值。卷积层是一个5*3的过滤器，卷积层的深度必须和输入语音帧的深度相同，例如输入语音帧的深度是3，则卷积层的深度也为3；输入语音帧的深度是5，则卷积层的深度也为5。通过一个卷积层(过滤器)与输入语音帧的卷积运算，在输入语音帧是32*3，卷积层是5*3过滤器的情况下，可以得到一个28*1的特征图(在输入语音帧的深度是3，卷积层的深度也为3的情况下)。上面说明的运算是卷积神经网络在卷积层为1层，步长为1的情况下进行的卷积运算。在本发明的图3和图4中示意性示出的都是卷积层为1层的情况下进行的卷积运算。至于图3和图4的介绍，在下面还会详细描述。

为了更好地得到平滑后的效果，以便在最后的输出中准确地判断输入的语音帧是否含有语音，优选地使用多层卷积层来得到更深层次的特征图。在本发明的图5至图8中示意性示出的都是卷积层为2层以上的情况下进行的卷积运算。

需要说明的是，在本发明说明书的各个实施例中提到的术语“步长”是卷积核(也称为感受视野、过滤器)滑动的距离，在语音领域，例如步长＝1表示滑动一个语音帧；步长＝2卷积核会滑动2个语音帧，步长＝3卷积核会滑动3个语音帧。通常，如果卷积层输出3个特征图，那么卷积层就有3个卷积核；如果卷积层输出4个特征图，那么卷积层就有4个卷积核。至于多个卷积层和多个卷积核的情形，可以参阅本领域的相关文献。

在本发明说明书的各个实施例中使用的卷积神经网络的运算大致介绍如下。

输入的音频数据大小:W₁×D₁，需要使用的超参数为：

1、卷积核个数或者称之为过滤器的个数：K

2、卷积核大小：F，

3、步长：S

4、零填充大小：P

输出的音频数据大小为W₂×D₂，其中：

W₂＝(W₁-F+2P)/S+1

H₂＝(H₁-F+2P)/S+1

D₂＝K

上面提到的卷积神经网络中的上述参数例如W、D、K、F、S、P等的更多技术信息，本领域技术人员结合相关技术文献是非常清楚的，在此不再赘述。

上述超参数的设置，通常设置为F＝3，S＝1，P＝1。当然也可以将超参数设置为F＝5，S＝2，P＝0等等。卷积核的个数K可以设置为1个、2个、3个…….等等。

下面结合图3至图8描述一下在本发明的各个实施例中使用的卷积神经网络的卷积运算。

在图3所示的卷积神经网络的卷积运算中，设置的卷积层16的层数为1层，conv_stride2-0表示卷积层的步长为2，其中的vad_net-0表示的是卷积神经网络的输出18，vad_net-0可能是0或者1。在本发明的一个实施例中，0表示待检测语音帧是噪声，不含有语音信号；1表示待检测语音帧中含有语音信号。在vad_net-0是0的情况下，忽略待检测语音帧，这时电子设备例如计算机设备消耗较小的功率。在vad_net-0是1的情况下，则认为待检测语音帧含有语音信号。当第一次检测到含有语音信号的待检测语音帧时，通常认为语音信号已经开始。在图3所示的实施例中，待检测语音帧的跳帧数等于每层卷积层的步长的乘积。例如，在图3所示的情形中，卷积层16的层数是1层，步长为2，跳帧数等于2，这就意味着语音端点检测过程中，卷积神经网络的运算从第一语音帧直接跳到了第三语音帧。在后续的运算中，从第三语音帧直接跳到了第五语音帧。从第五语音帧直接跳到了第七语音帧，以此类推。这样，减少了电子设备例如计算机设备的计算量，从而降低了使用功耗。此时电子设备例如计算机设备的功耗可以认为是没有跳帧情况下的二分之一，即，降低了一半的功耗。也就是说，在本发明的各个实施例中，功耗是与跳帧数成反比的。例如跳帧数为2，功耗是没有跳帧情况下的二分之一；跳帧数为3，功耗是没有跳帧情况下的三分之一。

在图4所示的卷积神经网络的卷积运算中，设置的卷积层20的层数为1层，conv_stride3-0表示卷积层的步长为3，其中的vad_net-0表示的是卷积神经网络的输出22，vad_net-0可能是0或者1。同样，在本发明的一个实施例中，0表示待检测语音帧是噪声，不含有语音信号；1表示待检测语音帧中含有语音信号。在vad_net-0是0的情况下，忽略待检测语音帧，这时计算机设备消耗较小的功率。在vad_net-0是1的情况下，认为待检测语音帧含有语音信号。当第一次检测到含有语音信号的待检测语音帧时，通常认为语音信号已经开始。在图4所示的实施例中，同样，待检测语音帧的跳帧数等于每层卷积层的步长的乘积。例如，在图4所示的情形中，卷积层20的层数是1层，步长为3，跳帧数等于3，这就意味着语音端点检测过程中，卷积神经网络的运算从第一语音帧直接跳到了第四语音帧，在后续的运算中，从第四语音帧直接跳到了第七语音帧，从第七语音帧直接跳到了第十语音帧，依次类推，不再赘述。这样，减少了计算机设备的计算量，从而降低了使用功耗。此时计算机设备消耗的功耗可以认为是没有跳帧情况下的三分之一，即，降低了三分之二的功耗。

在图5所示的卷积神经网络的卷积运算中，设置的卷积层的层数为2层，分别是第一层卷积层24和第二层卷积层26，conv_stride2-0表示第一层卷积层24的步长为2，conv_stride2-1表示第二层卷积层26的步长也为2，其中的vad_net-0表示的是卷积神经网络的输出28，vad_net-0可能是0或者1。同样，在本发明的一个实施例中，0表示待检测语音帧是噪声，不含有语音信号；1表示待检测语音帧中含有语音信号。在vad_net-0是0的情况下，忽略待检测语音帧，这时计算机设备消耗较小的功率。在vad_net-0是1的情况下，认为待检测语音帧含有语音信号。当第一次检测到含有语音信号的待检测语音帧时，通常认为语音信号已经开始。在图5所示的实施例中，同样，待检测语音帧的跳帧数等于每层卷积层的步长的乘积。例如，在图5所示的情形中，卷积层的层数是2层，第一层卷积层24的步长为2，第二层卷积层26的步长也为2，跳帧数等于2x2＝4，这就意味着语音端点检测过程中，卷积神经网络的运算从第一语音帧直接跳到了第五语音帧，在后续的运算中，从第五语音帧直接跳到了第九语音帧，从第九语音帧直接跳到了第十三语音帧，依次类推，不再赘述。这样，减少了计算机设备的计算量，从而降低了使用功耗。此时计算机设备消耗的功耗可以认为是没有跳帧情况下的四分之一，即，降低了四分之三的功耗。

在图6所示的卷积神经网络的卷积运算中，设置的卷积层的层数为2层，分别是第一层卷积层30和第二层卷积层32，conv_stride3-0表示第一层卷积层30的步长为3，conv_stride2-0表示第二层卷积层32的步长为2，其中的vad_net-0表示的是卷积神经网络的输出34，其输出是0或者1。同样，在本发明的一个实施例中，0表示待检测语音帧是噪声，不含有语音信号；1表示待检测语音帧中含有语音信号。在vad_net-0的输出34是0的情况下，忽略待检测语音帧，这时计算机设备消耗较小的功率。在vad_net-0的输出34是1的情况下，认为待检测语音帧含有语音信号。当第一次检测到含有语音信号的待检测语音帧时，通常认为语音信号已经开始。在图6所示的实施例中，同样，待检测语音帧的跳帧数等于每层卷积层的步长的乘积。例如，在图6所示的情形中，卷积层的层数是2层，第一层卷积层30的步长为3，第二层卷积层32的步长为2，跳帧数等于3x2＝6，这就意味着语音端点检测过程中，卷积神经网络的运算从第一语音帧直接跳到了第七语音帧，在后续的运算中，从第七语音帧直接跳到了第十三语音帧，从第十三语音帧直接跳到了第十九语音帧，依次类推，不再赘述。这样，减少了计算机设备的计算量，从而降低了使用功耗。此时计算机设备消耗的功耗可以认为是没有跳帧情况下的六分之一，即，降低了六分之五的功耗。

在图7所示的卷积神经网络的卷积运算中，设置的卷积层的层数为3层，分别是第一层卷积层36、第二层卷积层38、第三层卷积层40，conv_stride2-0表示第一层卷积层36的步长为2，conv_stride2-1表示第二层卷积层38的步长为2，conv_stride2-2表示第三层卷积层40的步长为2，其中的vad_net-0表示的是卷积神经网络的输出42，其输出是0或者1。同样，在本发明的一个实施例中，0表示待检测语音帧是噪声，不含有语音信号；1表示待检测语音帧中含有语音信号。在vad_net-0的输出42是0的情况下，忽略待检测语音帧，这时计算机设备消耗较小的功率。在vad_net-0的输出42是1的情况下，认为待检测语音帧含有语音信号。当第一次检测到含有语音信号的待检测语音帧时，通常认为语音信号已经开始。在图7所示的实施例中，同样，待检测语音帧的跳帧数等于每层卷积层的步长的乘积。例如，在图7所示的情形中，卷积层的层数是3层，第一层卷积层36的步长为2，第二层卷积层38的步长为2，第三层卷积层40的步长为2，跳帧数等于2x2x2＝8，这就意味着语音端点检测过程中，卷积神经网络的运算从第一语音帧直接跳到了第九语音帧，在后续的运算中，从第九语音帧直接跳到了第十七语音帧，从第十七语音帧直接跳到了第二十五语音帧，依次类推，不再赘述。这样，减少了计算机设备的计算量，从而降低了使用功耗。此时计算机设备消耗的功耗可以认为是没有跳帧情况下的八分之一，即，降低了八分之七的功耗。

在图8所示的卷积神经网络的卷积运算中，设置的卷积层的层数为2层，分别是第一层卷积层44、第二层卷积层46，conv_stride3-0表示第一层卷积层44的步长为3，conv_stride3-1表示第二层卷积层46的步长为3，其中的vad_net-0表示的是卷积神经网络的输出48，其输出是0或者1。同样，在本发明的一个实施例中，0表示待检测语音帧是噪声，不含有语音信号；1表示待检测语音帧中含有语音信号。在vad_net-0的输出48是0的情况下，忽略待检测语音帧，这时计算机设备消耗较小的功率。在vad_net-0的输出48是1的情况下，认为待检测语音帧含有语音信号。当第一次检测到含有语音信号的待检测语音帧时，通常认为语音信号已经开始。在图8所示的实施例中，同样，待检测语音帧的跳帧数等于每层卷积层的步长的乘积。例如，在图8所示的情形中，卷积层的层数是2层，第一层卷积层44的步长为3，第二层卷积层46的步长也为3，跳帧数等于3x3＝9，这就意味着语音端点检测过程中，卷积神经网络的运算从第一语音帧直接跳到了第十语音帧，在后续的运算中，从第十语音帧直接跳到了第十九语音帧，从第十九语音帧直接跳到了第二十八语音帧，依次类推，不再赘述。这样，减少了计算机设备的计算量，从而降低了使用功耗。此时计算机设备消耗的功耗可以认为是没有跳帧情况下的九分之一，即，降低了九分之八的功耗。

需要指出的是，在上面示意性说明的各种实施例中，图3到图8都是示意性描述了卷积层的层数和每层卷积层使用的步长。在实际的操作中，可以存在有多种组合的方式。例如，图7所示的跳帧数等于8的情形中，可以设计两层卷积层而不是图7所示的三层卷积层，即，卷积层的层数是2层，第一层卷积层的步长为2，第二层卷积层的步长为4，跳帧数等于2x4＝8。备选的，也可以设置为第一层卷积层的步长为4，第二层卷积层的步长为2，跳帧数等于4x2＝8；另一备选的，也可以设置为第一层卷积层的步长为1，第二层卷积层的步长为8，跳帧数等于1x8＝8。或者，也可以设置为第一层卷积层的步长为8，第二层卷积层的步长为1，跳帧数等于8x1＝8。在上述各种变型的实施例中，虽然最终的跳帧数都是8，但是优选的是在跳帧数相同的情况下，设置能够将卷积层的层数最大化的层数，然后再设置对应的步长。例如，在跳帧数等于8的情况下，优选的是选择卷积层的层数为3层，因为在每层卷积层的步长均不为1(或者说均大于1)的情况下，此时最大化的卷积层层数是3，这样每个卷积层的步长设置为2。之所以设置每层卷积层的步长均不为1或者说均大于1，是为了更好地节省电子设备例如计算机设备的功耗。

还需要指出的是，在上面列出的特定实施例以及相应的变型实施例中，例如，在第一层卷积层的步长为2，第二层卷积层的步长为2，第三层卷积层的步长为2，跳帧数等于2x2x2＝8；在第一变型实施例中，第一层卷积层的步长为4，第二层卷积层的步长为2，跳帧数等于4x2＝8；第二变型实施例中，第一层卷积层的步长为2，第二层卷积层的步长为4，跳帧数等于2x4＝8；第三变型实施例中，第一层卷积层的步长为1，第二层卷积层的步长为8，跳帧数等于1x8＝8；第四变型实施例中，第一层卷积层的步长为8，第二层卷积层的步长为1，跳帧数等于8x1＝8，优选的是选择前三种的实施例，即，跳帧数等于2x2x2＝8；跳帧数等于4x2＝8；或者跳帧数等于2x4＝8。更优选的是设定跳帧数等于2x2x2＝8。

即从节省功耗的效果上来讲，第一变型实施例和第二变型实施例的效果好于第三变型实施例和第四变型实施例的效果。也就是说，优选的，将每层卷积层的步长都设置为大于1。

图9示意性示出了根据本发明第二个方面的一种语音端点检测装置50，可以包括：设置模块52，用于针对待检测语音帧，设置卷积神经网络的卷积层的层数，并且设置每层卷积层的步长，其中至少一个步长大于1。语音端点检测装置50还可以包括确定模块54，用于根据卷积层的层数和每层卷积层的步长，确定待检测语音帧的跳帧数。

在本发明第二方面的一个实施例中，其中设置模块52在跳帧数相同的情况下，设置能够将卷积层的层数最大化的层数。例如在上面针对跳帧数等于8的实施例中提到的，在跳帧数等于8的情况下，优选的是选择卷积层的层数为3层，因为此时最大化的卷积层层数是3。

在本发明第二方面的一个实施例中，其中设置模块52将第一层卷积层的步长设置为大于1。

在本发明第二方面的一个实施例中，其中设置模块52将每层卷积层的步长都设置为大于1。

在本发明第二方面的一个实施例中，其中确定模块54根据每层卷积层的步长的乘积，确定待检测语音帧的跳帧数。

在根据本发明第三方面的实施例中，提供了一种计算机设备，可以包括：一个或多个处理器；存储装置，用于存储一或多个程序；当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现如上所述的方法。

在根据本发明第四方面的实施例中，提供了一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如上所述的方法。

例如，图10示出了可以用来实施本公开的实施例的示例计算机设备60的示意性框图。应当理解，计算机设备60可以用于实现本公开所描述的语音端点检测方法10。如图所示，计算机设备60包括中央处理单元(CPU)62，其可以根据存储在只读存储器(ROM)64中的计算机程序指令或者从存储单元76加载到随机访问存储器(RAM)63中的计算机程序指令，来执行各种适当的动作和处理。在RAM 66中，还可存储计算机设备60操作所需的各种程序和数据。CPU 62、ROM 64以及RAM 66通过总线68彼此相连。输入/输出(I/O)接口70也连接至总线68。

计算机设备60中的多个部件连接至I/O接口70，包括：输入单元72，例如键盘、鼠标等；输出单元74，例如各种类型的显示器、扬声器等；存储单元76，例如磁盘、光盘等；以及通信单元78，例如网卡、调制解调器、无线通信收发机等。通信单元78允许计算机设备60通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元62执行上文所描述的各个方法和过程，例如方法10和/或方法10’。例如，在一些实施例中，方法10和/或方法10’可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元76。在一些实施例中，计算机程序的部分或者全部可以经由ROM64和/或通信单元78而被载入和/或安装到计算机设备60上。当计算机程序加载到RAM 66并由CPU62执行时，可以执行上文描述的方法10和/或方法10’的一个或多个动作或步骤。备选地，在其他实施例中，CPU 62可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法10和/或方法10’。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)，等等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音端点检测方法，其特征在于，包括：

针对待检测语音帧，设置卷积神经网络的卷积层的层数；

根据所述卷积层的层数设置每层卷积层的步长，其中至少一个所述步长大于1；

根据所述每层卷积层的步长，确定所述待检测语音帧的跳帧数。

2.根据权利要求1所述的语音端点检测方法，其中所述针对待检测语音帧，设置卷积神经网络的卷积层的层数包括：

在所述跳帧数相同的情况下，设置能够将所述卷积层的层数最大化的层数。

3.根据权利要求2所述的语音端点检测方法，其中所述根据所述卷积层的层数设置每层卷积层的步长，其中至少一个所述步长大于1包括：

将第一层卷积层的步长设置为大于1。

4.根据权利要求3所述的语音端点检测方法，其中所述将第一层卷积层的步长设置为大于1包括：

将所述每层卷积层的步长都设置为大于1。

5.根据权利要求4所述的语音端点检测方法，其中所述根据所述每层卷积层的步长，确定所述待检测语音帧的跳帧数包括：

根据所述每层卷积层的步长的乘积，确定所述待检测语音帧的跳帧数。

6.一种语音端点检测装置，其特征在于，包括：

设置模块，用于针对待检测语音帧，设置卷积神经网络的卷积层的层数，并且根据所述卷积层的层数设置每层卷积层的步长，其中至少一个所述步长大于1；

确定模块，用于根据所述每层卷积层的步长，确定所述待检测语音帧的跳帧数。

7.根据权利要求6所述的语音端点检测装置，其中所述设置模块在所述跳帧数相同的情况下，设置能够将所述卷积层的层数最大化的层数。

8.根据权利要求7所述的语音端点检测装置，其中所述设置模块将第一层卷积层的步长设置为大于1。

9.根据权利要求8所述的语音端点检测装置，其中所述设置模块将每层卷积层的步长都设置为大于1。

10.根据权利要求9所述的语音端点检测装置，其中所述确定模块根据所述每层卷积层的步长的乘积，确定所述待检测语音帧的跳帧数。

11.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

12.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。