CN104700830A

CN104700830A - 一种语音端点检测方法及装置

Info

Publication number: CN104700830A
Application number: CN201310656959.6A
Authority: CN
Inventors: 郭勐; 杨蕾; 张俭
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2013-12-06
Filing date: 2013-12-06
Publication date: 2015-06-10
Anticipated expiration: 2033-12-06
Also published as: CN104700830B

Abstract

本发明公开了一种语音端点检测方法及装置，该方法包括：在确定出有语音输入时，确定当前的网络传输速率；根据确定出的网络传输速率，确定用于表征语音输入的时长的语音延时；根据确定出的语音延时，得到语音输入的终止点。能够较好地解决在网络传输带宽不够的情况下，信号传输延时比较长，使得语音端点识别准确率较低的问题。

Description

一种语音端点检测方法及装置

技术领域

本发明涉及移动多媒体技术领域，尤其是涉及一种语音端点检测方法及装置。

背景技术

随着人机信息交互技术的发展，语音识别技术显示出其重要性，语音识别需要确定语音短短。语音端点包括语音录入的起始点，以及语音录入的终止点。从语音录入的起始点开始计时，延时一段时长后得到语音录入的终止点。语音端点检测是语音识别是否正确的关键技术之一，可以在语音识别中提高识别精度及减少识别时间。

通常情况下，语音端点检测的具体流程如下述：

步骤一：接收用户输入的触发语音输入的触发指令。

用户可以通过点击语音输入按钮，触发启动终端中的语音输入程序，开启语音录入模式。

步骤二：接收用户录入的语音。

步骤三：终端进入语音录入状态，接收用户录入的语音的起始点。

步骤四：在检测到语音录入的起始点时，开始计时。

步骤五：计时结束后，得到语音录入的终止点。

步骤六：根据得到的语音起始点和语音终止点，完成语音端点检测。

但是，上述语音端点检测过程，语音录入时需要通过网络传输，因此在网络传输带宽不够的情况下，信号传输延时比较长，使得语音端点识别准确率较低。

发明内容

本发明提供了一种语音端点检测方法及装置，能够较好地解决在网络传输带宽不够的情况下，信号传输延时比较长，使得语音端点识别准确率较低的问题。

一种语音端点检测方法，包括：在确定出有语音输入时，确定当前的网络传输速率；根据确定出的网络传输速率，确定用于表征语音输入的时长的语音延时；根据确定出的语音延时，得到语音输入的终止点。

在语音端点确定的过程中，引入网络传输速率，最终根据当前的网络传输速率来确定语音延时，在高带宽的情况下，可以延长语音延时，在网路拥塞的情况下，可以缩短语音延时，从而增加语音识别等应用的成功率，从而增加语音端点检测的准确性。

按照下述公式确定当前的网络传输速率：

V = 1 - \frac{P_{c}}{T_{VA} * R_{c}}

其中，V是当前的网络传输速率，P_c是语音输入过程中，语音编码队列的当前占用率，T_VA，是语音输入的时长，R_c语音输入输入过程中，输入的语音的编码速率。

在确定网络传输速率时，综合考虑语音编码队列的当前占用率，以及语音输入的时长，以及语音的编码速率，能够较好地提高确定出当前网络传输速率的准确性。

按照下述公式确定用于表征语音输入的时长的语音延时：

d＝S_D*V*α

其中，d是语音延时，V是当前的网络传输速率，S_D是设定的常量，α是网络传输速率的权重。

最终根据当前的网络传输速率来确定语音延时在高带宽的情况下，可以延长语音延时，在网路拥塞的情况下，可以缩短语音延时，从而增加语音识别等应用的成功率，从而增加语音端点检测的准确性。

在确定出当前的网络传输速率之后，确定用于表征语音输入的时长的语音延时之前，还包括：确定语音输入过程中，在确定出有和语音输入的识别错误率反馈的信息时，确定所述识别错误率；以及在确定出没有和语音输入的识别错误率反馈的信息时，确定场景因子，所述场景因子用于表征语音输入过程所在的场景。

按照下述公式确定用于表征语音输入的时长的语音延时：

d＝S_D*V*α+S_D*F_s*β

其中，其中，d是语音延时，V是当前的网络传输速率，S_D是设定的常量，α是网络传输速率的权重，F_s是识别错误率或场景因子，若F_s是识别错误率时，根据网络传输速率估计的延时确定，β是错误识别率权重，若F_s是场景因子时，F_S＝E_Vb/E_Va，E_Vb是语音输入过程中，背景音的功率，E_Va是语音输入过程中，输入的语音的功率，β是场景因子权重。

在确定语音延时的时候，综合考虑网络传输速率、场景因子、以及识别错误率的因素，进一步提高确定语音端点的准确性。

一种语音端点检测装置，包括：语音确定模块，用于确定是否有语音输入；网络传输速率确定模块，用于在确定出有语音输入时，确定当前的网络传输速率；语音延时确定模块，用于根据确定出的网络传输速率，确定用于表征语音输入的时长的语音延时；端点确定模块，用于根据确定出的语音延时，得到语音输入的终止点。

所述网络传输速率确定模块，具体用于按照下述公式确定当前的网络传输速率：

V = 1 - \frac{P_{c}}{T_{VA} * R_{c}}

所述语音延时确定模块，具体用于按照下述公式确定用于表征语音输入的时长的语音延时：

d＝S_D*V*α

最终根据当前的网络传输速率来确定语音延时，在高带宽的情况下，可以延长语音延时，在网路拥塞的情况下，可以缩短语音延时，从而增加语音识别等应用的成功率，从而增加语音端点检测的准确性。

还包括：识别错误率确定模块，用于确定语音输入过程中，在确定出有和语音输入的识别错误率反馈的信息时，确定所述识别错误率；以及在确定出没有和语音输入的识别错误率反馈的信息时，确定场景因子，所述场景因子用于表征语音输入过程所在的场景。所述语音延时确定模块，具体用于按照下述公式确定用于表征语音输入的时长的语音延时：

d＝S_D*V*α+S_D*F_s*β

附图说明

图1为本发明实施例提出的语音端点检测方法流程图；

图2为本发明实施例提出的语音端点检测装置结构组成示意图。

具体实施方式

针对一般情况下，语音端点检测过程中，语音录入时需要通过网络传输，因此在网络传输带宽不够的情况下，信号传输延时比较长，使得语音端点识别准确率较低的问题，本发明实施例提出的技术方案中，在确定出有语音输入时，计入网络传输速率，根据网络传输速率，确定语音延时，从而得到语音输入的端点，以实现提高语音端点检测的准确度，提高识别准确度。

下面将结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。

本发明实施例提出一种语音端点检测方法，如图1所示，其具体处理流程如下述：

步骤11，终端录制背景音。

其中，终端录制背景音的录制时长为N秒，如5秒等。

一种较佳地实施方式，本发明实施例这里取值为2秒。

步骤12，接收用户输入的触发语音输入的触发指令，并接收用户输入的语音。

用户可以通过点击终端上的按钮，开启录制语音。

步骤13，确定用户输入语音时的语音录入端点。在确定出有语音输入时，确定当前的网络传输速率。

具体地，可以按照下述公式1确定当前的网络传输速率：

V = 1 - \frac{P_{c}}{T_{VA} * R_{c}}

公式1

其中，V是当前的网络传输速率，P_c是语音输入过程中语音编码队列的当前占用率，T_VA，是语音输入的时长，R_c语音输入输入过程中，输入的语音的编码速率。

步骤14，根据确定出的网络传输速率，确定用于表征语音输入的时长的语音延时。

具体地，可以按照下述公式2确定用于表征语音输入的时长的语音延时：

d＝S_D*V*α

一种较佳地实现方式，本发明实施例提出的技术方案中，S_D的取值为2秒，α的取值在0～1之间。

步骤15，根据确定出的语音延时，得到语音输入的终止点。

在上述步骤11～步骤15所阐述的技术方案中，在语音端点确定的过程中，引入网络传输速率，最终根据当前的网络传输速率来确定语音延时，在高带宽的情况下，可以延长语音延时，在网路拥塞的情况下，可以缩短语音延时，从而增加语音识别等应用的成功率，从而增加语音端点检测的准确性。

可选地，在上述步骤13确定出当前的网络传输速率之后，在步骤14确定用于表征语音输入的时长的语音延时之前，还可以包括：

步骤16，判断是否有和语音输入的识别错误率反馈信息，如果判断结果为是，则执行步骤17，反之执行步骤18。

步骤17，确定语音输入过程中，在确定出有和语音输入的识别错误率反馈信息时，确定识别错误率。

其中，识别错误率可以根据网络传输速率来确定。

步骤18，在确定出没有和语音输入的识别错误率反馈信息时，确定场景因子，所述场景因子用于表征语音输入过程所在的场景。

根据上述步骤17和步骤18，进一步地，对于步骤15，还可以按照下述公式3确定用于表征语音输入的时长的语音延时：

d＝S_D*V*α+S_D*F_s*β 公式3

其中，d是语音延时，V是当前的网络传输速率，S_D是设定的常量，α是网络传输速率的权重，F_s是识别错误率或场景因子，若F_s是识别错误率时，根据网络传输速率估计的延时确定，β是错误识别率权重，若F_s是场景因子时，F_S＝E_Vb/E_Va，E_Vb是语音输入过程中，背景音的功率，E_Va是语音输入过程中，输入的语音的功率，β是场景因子权重。

一种较佳地实现方式，本发明实施例提出的技术方案中，S_D的取值为2秒，α的取值在0～1之间。β的取值在0～1之间。

本发明实施例上述提出的技术方案中，在步骤11～步骤15的基础上，引入步骤17～步骤18的技术方案，也就是说，在确定语音延时的时候，综合考虑网络传输速率、场景因子、以及识别错误率的因素，进一步提高确定语音端点的准确性。

相应地，本发明实施例还提出一种语音端点检测装置，其结构组成具体如图2所示，包括：

语音确定模块201，用于确定是否有语音输入。

网络传输速率确定模块202，用于在确定出有语音输入时，确定当前的网络传输速率。

具体地，上述网络传输速率确定模块202，具体用于按照下述公式确定当前的网络传输速率：

V = 1 - \frac{P_{c}}{T_{VA} * R_{c}}

语音延时确定模块203，用于根据确定出的网络传输速率，确定用于表征语音输入的时长的语音延时。

具体地，上述语音延时确定模块，具体用于按照下述公式确定用于表征语音输入的时长的语音延时：

d＝S_D*V*α

端点确定模块204，用于根据确定出的语音延时，得到语音输入的终止点。

可选地，上述装置还包括：

识别错误率确定模块，用于确定语音输入过程中，在确定出有和语音输入的识别错误率反馈的信息时，确定所述识别错误率；以及在确定出没有和语音输入的识别错误率反馈的信息时，确定场景因子，所述场景因子用于表征语音输入过程所在的场景。可选地，上述语音延时确定模块，具体用于按照下述公式确定用于表征语音输入的时长的语音延时：

d＝S_D*V*α+S_D*F_s*β

本发明实施例上述提出的技术方案中，针对语音应用中语音端点检测问题，不能兼顾识别准确率及网络传输的问题，提出了将网络传输速率、识别错误率、背景音和活动语音功率比值，纳入语音端点检测方法中，对原有语音端点检测方法进行改进，以实现和提高语音端点检测准确度、降低网络传输要求、提高识别准确度。进而提高业务质量，提升用户体验。本申请所提出的方法和系统在现有应用中能够实现平滑升级，系统改进成本低，能够大大促进相关业务发展，增加业务营收。

本领域的技术人员应明白，本发明的实施例可提供为方法、装置（设备）、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、只读光盘、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置（设备）和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音端点检测方法，其特征在于，包括：

在确定出有语音输入时，确定当前的网络传输速率；

根据确定出的网络传输速率，确定用于表征语音输入的时长的语音延时；

根据确定出的语音延时，得到语音输入的终止点。

2.如权利要求1所述的方法，其特征在于，按照下述公式确定当前的网络传输速率：

V = 1 - \frac{P_{c}}{T_{VA} * R_{c}}

3.如权利要求1或2所述的方法，其特征在于，按照下述公式确定用于表征语音输入的时长的语音延时：

d＝S_D*V*α

4.如权利要求1或2所述的方法，其特征在于，在确定出当前的网络传输速率之后，确定用于表征语音输入的时长的语音延时之前，还包括：

确定语音输入过程中，在确定出有和语音输入的识别错误率反馈信息时，确定所述识别错误率；以及

在确定出没有和语音输入的识别错误率反馈信息时，确定场景因子，所述场景因子用于表征语音输入过程所在的场景。

5.如权利要求4所述的方法，其特征在于，按照下述公式确定用于表征语音输入的时长的语音延时：

d＝S_D*V*α+S_D*F_s*β

6.一种语音端点检测装置，其特征在于，包括：

语音确定模块，用于确定是否有语音输入；

网络传输速率确定模块，用于在确定出有语音输入时，确定当前的网络传输速率；

语音延时确定模块，用于根据确定出的网络传输速率，确定用于表征语音输入的时长的语音延时；

端点确定模块，用于根据确定出的语音延时，得到语音输入的终止点。

7.如权利要求6所述的装置，其特征在于，所述网络传输速率确定模块，具体用于按照下述公式确定当前的网络传输速率：

V = 1 - \frac{P_{c}}{T_{VA} * R_{c}}

8.如权利要求6或7所述的装置，其特征在于，所述语音延时确定模块，具体用于按照下述公式确定用于表征语音输入的时长的语音延时：

d＝S_D*V*α

9.如权利要求6或7所述的装置，其特征在于，还包括：

识别错误率确定模块，用于确定语音输入过程中，在确定出有和语音输入的识别错误率反馈信息时，确定所述识别错误率；以及在确定出没有和语音输入的识别错误率反馈信息时，确定场景因子，所述场景因子用于表征语音输入过程所在的场景。

10.如权利要求9所述的装置，其特征在于，所述语音延时确定模块，具体用于按照下述公式确定用于表征语音输入的时长的语音延时：

d＝S_D*V*α+S_D*F_s*β