CN102971787A

CN102971787A - 录音结束点检测方法及系统

Info

Publication number: CN102971787A
Application number: CN2010800677784A
Authority: CN
Inventors: 魏思; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2010-10-29
Filing date: 2010-10-29
Publication date: 2013-03-13
Anticipated expiration: 2030-10-29
Also published as: WO2012055113A1; US9330667B2; KR101417975B1; US20130197911A1; KR20130071490A; DE112010005959B4; SG189182A1; JP5883014B2; JP2013545133A; CN102971787B; DE112010005959T5

Abstract

一种录音结束点自动检测方法及系统，所述方法包括如下步骤：获取录音文本，确定该录音文本的文本结束点声学模型；从录音数据中的录音开始帧开始，依次获取每一帧录音数据；确定获取到的当前帧录音数据的解码最优路径的特征声学模型；比较当前帧录音数据的解码最优路径的特征声学模型与结束点声学模型是否相同；如果相同，将静音持续时间阈值更新为第二时间阈值，其中第二时间阈值小于第一时间阈值。此方法能够提高录音结束点的识别效率。

Description

录音结束点检测方法及系统技术领域

本发明涉及录音控制技术，尤其涉及录音结束点自动检测技术。背景技术

经过多年的技术发展，文本相关的语音评测已经步入实用阶段。所谓文本相关的语音评测，指的是用户在给定的文本下进行朗读，语音评测系统存储用户的发音数据并对发音数据进行评价，给出评分。

现有的语音评测系统中，用户的录音控制一般由用户手动完成，也即：当用户点击预设的开始录音按鈕后录音开始，而当用户点击预设的完成录音按鈕后录音结束。这种录音控制需要用户多次手动点击，操作繁瑣，影响了用户体验。

因此，现有技术中出现了一种自动进行录音控制的方法，在该方法中，由语音评测系统自动检测用户录音状态为发音或静音，当用户的静音持续时间超过一预设的时间阈值时，确定录音结束。但是，这种自动进行录音控制的方法中，所述时间阈值的设置如果较短时，可能出现将用户的正常发音停顿判定为录音结束点的问题，造成用户语音截断，因此，现有技术中一般将该时间阈值设置为较大的值，例如 2秒甚至更长，因此，用户完成发音后需等待很长时间，语音评测系统才能识别出录音结束点，结束录音，使得语音评测系统对于录音结束点的识别效率低，影响了语音评测效率，降低用户体验。发明内容

有鉴于此，本发明要解决的技术问题是，提供一种录音结束点检测方法及系统，能够提高对于录音结束点的识别效率。为此，本发明实施例采用如下技术方案：

本发明实施例提供一种录音结束点检测方法，包括：预设静音持续时间阈值为所述第一时间阈值；该方法还包括：

获取录音文本，确定该录音文本的文本结束点声学模型；从录音数据中的录音开始帧开始，依次获取每一帧录音数据；

确定获取到的当前帧录音数据的解码最优路径的特征声学模型；判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型相同时，将静音持续时间阈值更新为第二时间阈值，所述第二时间阈值小于第一时间阈值。

所述确定文本结束点声学模型包括：

根据录音文本生成文本对应的解码网络，将所述解码网络对应的最后一个声学模型确定为文本结束点声学模型。

所述确定当前帧录音数据的解码最优路径的特征声学模型包括：从当前帧的录音数据中提取与预设的声学模型相对应的 MFCC特征，得到当前帧录音数据的解码最优路径；

确定当前帧录音数据的解码最优路径的最后一个声学模型为解码最优路径的特征声学模型。

还包括：判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型不相同时，保持所述静音持续时间阈值为所述第一时间阈值。

每次获取到一帧录音数据之后还包括：

获取到的当前帧录音数据为静音数据，而且，当前静音持续时间超过当前的静音持续时间阈值时，结束录音。

所述获取每一帧录音数据之前，进一步包括：

接收录音数据，从录音数据中确定录音开始帧。

所述从录音数据中确定录音开始帧包括：

依次判断每一帧录音数据为静音数据或非静音数据，将第一帧非静音数据所在的帧作为录音开始帧。

本发明实施例还提供一种录音结束点检测系统，预设静音持续时间阈值为所述第一时间阈值；该系统还包括：

第一确定单元，用于获取录音文本，确定该录音文本的文本结束点声学模型；

第一获取单元，用于从录音数据中的录音开始帧开始，依次获取每一帧录音数据；

第二确定单元，用于确定获取到的当前帧录音数据的解码最优路径的特征声学模型；阈值确定单元，用于判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型相同时，将静音持续时间阈值更新为第二时间阈值，所述第二时间阈值小于第一时间阈值。

第一确定单元包括：

获取子单元，用于获取录音文本；

网络建立子单元，用于才艮据录音文本建立文本对应的解码网络；第一特征确定子单元，用于将所述解码网络的最后一个声学模型确定为文本结束点声学模型。

第二确定单元包括：

提取子单元，从当前帧的录音数据中提取与预设的声学模型相对应的

MFCC特征，得到当前帧录音数据的解码最优路径；

第二特征确定子单元，用于确定当前帧录音数据的解码最优路径的最后一个声学模型为解码最优路径的特征声学模型。

阈值确定单元还用于：判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型不相同时，保持所述静音持续时间阈值为所述第一时间阈值。

还包括：录音控制单元，用于判断获取到的当前帧录音数据为静音数据，而且，当前静音持续时间超过当前的静音持续时间阈值时，结束录音。

还包括：接收单元，用于接收录音数据，从录音数据中确定录音开始帧。接收单元包括：

接收子单元，用于接收录音数据；

开始帧确定子单元，用于依次判断每一帧录音数据为静音数据或非静音数据，将第一帧非静音数据所在的帧作为录音开始帧。对于上述技术方案的技术效果分析如下：

将文本结束点声学模型与当前帧录音数据所对应的解码最优路径的特征声学模型比较，如果相同，说明用户已经朗读完了录音文本，则将静音持续时间阈值更新为相对于第一时间阈值来说较短的第二时间阈值，用户的静音持续时间超过第二时间阈值即结束录音，从而相对于现有技术，提高了对于录音结束点的识别效率，缩短了用户录音结束后所需要等待的时间。附图说明

图 1为本发明实施例一种录音结束点检测方法流程示意图；

图 2为本发明实施例另一种录音结束点检测方法流程示意图；

图 3为本发明实施例 Viterbi算法示意图；

图 4为本发明实施例解码网络示例图；

图 5为本发明实施例一种录音结束点检测系统结构示意图；

图 6为本发明实施例录音结束点检测系统中一单元的实现结构示意图；图 7为本发明实施例录音结束点检测系统中另一单元的实现结构示意图。具体实施方式

现。

图 1为本发明实施例录音结束点检测方法流程示意图，如图 1所示，包括：预设静音持续时间阈值为所述第一时间阈值；

该方法还包括：

步骤 101 : 获取录音文本，确定该录音文本的文本结束点声学模型；具体的，所述录音文本也即为录音中用户所需要朗读的文本，该文本可以为中文、英文等任何语言，这里并不限制。

步骤 102: 从录音数据中的录音开始帧开始，依次获取每一帧录音数据；所述录音数据也即为录音过程中录音设备获取到的声音数据。

步骤 103: 确定获取到的当前帧录音数据的解码最优路径的特征声学模型；

步骤 101和步骤 102~103之间的执行顺序并不限制 ,只要在步骤 104之前执行即可。

步骤 104: 判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型相同时，将静音持续时间阈值更新为第二时间阈值，所述第二时间阈值小于第一时间阈值。

图 1所示的录音结束点检测方法中，将文本结束点声学模型与解码最优路径的特征声学模型相比较，如果相同，说明用户已经朗读完了录音文本，则将静音持续时间阈值的取值更新为相对于第一时间阈值来说较短的第二时间阈值，用户的静音持续时间超过第二时间阈值即结束录音，相对于现有技术，提高了对于录音结束点的识别效率，缩短了用户朗读完成后所需要等待录音结束的时间。

在图 1的基础上，通过图 2对本发明实施例录音结束点检测方法进行更为详细的说明。如图 2所示，该方法包括：

将静音持续时间阈值设置为第一时间阈值。

步骤 201 : 获取录音文本，确定录音文本的结束点对应的文本结束点声学模型。

其中，所述确定录音文本的结束点对应的文本结束点声学模型可以包括：才艮据录音文本生成对应的解码网络；

将所述解码网络的最后一个声学模型确定为文本结束点声学模型。

具体的，所建立的解码网络可以由录音文本的开始点静音模型、录音文本中各个字或词的声学模型以及录音文本的结束点的静音模型构成，这里的所述文本结束点声学模型可以为：录音文本的结束点的静音模型。

例如，如图 4所示，对于录音文本 "Hello World" 来说，所建立的解码网络包括：录音文本的开始点的静音模型 Sil_Begin, 单词 Hello的声学模型、单词 World的声学模型以及录音文本结束点的静音模型 Sil_End, 本步骤中即需要得到所述静音模型 Sil_End。

步骤 202: 接收录音数据并存储于预设的緩沖区中。

步骤 203: 从所述录音数据中确定录音开始帧。

所述从录音数据中确定录音开始帧可以包括：

其中，当判断录音数据是静音数据或非静音数据时，可以利用 VAD(Voice Activity Detection)策略实现。 1"列口, 在 "A statistical model-based voice activity detection ( J. Sohn, N. S. Kim, and W. Sung, IEEE Signal Process. Lett., vol. 16, no. 1, pp. 1-3, 1999 )，，和 Speech processing, transmission and quality aspects (STQ); distributed speech recognition; advanced front-end feature extraction algorithm; compression algorithms ( ETSI, ETSI ES 202 050 Rec, 2002 ) 两篇文章中即介绍了如何利用 VAD策略实现静音数据或非静音数据的判断，这里不再赘述。

这里，在不同的应用环境中，每一帧录音数据的时间间隔和取样窗长可能不同，这里并不限定。例如，一般可以设置时间间隔（也即帧移）为 10ms; 取样窗长为 25ms。

步骤 204: 从录音开始帧开始，依次从緩沖区中获取一帧录音数据。步骤 205: 对获取到的当前帧录音数据进行解码，得到该帧录音数据对应的解码最优路径的特征声学模型。

具体的，本步骤中对录音数据进行解码可以包括：

从当前帧录音数据中提取与预设的声学模型相对应的梅尔倒谱参数

( MFCC )特征，得到该帧录音数据对应的解码最优路径；

确定该解码最优路径的特征声学模型。

其中，与步骤 201中相对应的，可以将解码最优路径的最后一个声学模型确定为所述解码最优路径的特征声学模型。

其中，用来进行解码的所述预设的声学模型可以是音素层面的单音素

( Mono-Phone )模型，也可以是上下文相关（Context-dependent ) 的三音素 ( Tri-phone )模型；还包括静音模型。

利用所述预设的声学模型对所述 MFCC特征进行解码，得到所述录音数据对应的解码最优路径，所述解码最优路径可以为模型的似然度或代价函数最大的路径。

所述解码可以使用维特比（Viterbi )算法等实现。

例如，通过 Viterbi算法进行解码后，得到如图 3所示的解码结果，本发明实施例中的所述解码最优路径的最后一个声学模型也即为最后时刻 t所对应的声学模型。确定该录音数据对应的解码最优路径的最后一个声学模型，将该声学模型作为该帧录音数据对应的解码最优路径的特征声学模型。

步骤 206: 判断文本结束点声学模型与该帧录音数据的解码最优路径的特征声学模型是否相同，如果相同，执行步骤 207; 否则，执行步骤 208。

步骤 207: 将静音持续时间阈值更新为第二时间阈值，所述第二时间阈值小于所述第一时间阈值；执行步骤 209。步骤 208: 保持静音持续时间阈值为第一时间阈值；执行步骤 209。

步骤 209: 判断从緩沖区中获取到的当前帧的录音数据为静音数据或非静音数据，如果是静音数据，则执行步骤 210; 否则，返回步骤 204, 从緩沖区中获取当前帧的下一帧录音数据。

其中，录音数据是按帧从緩沖区中依次获取的，本步骤中的当前帧录音数据也即为当前从緩沖区中获取到的、需要进行处理的一帧录音数据。

其中，本步骤中当判断录音数据是静音数据或非静音数据时，也可以利用 VAD(Voice Activity Detection)策略实现。例如，在 "A statistical model-based voice activity detection ( J. Sohn, N. S. Kim, and W. Sung, IEEE Signal Process. Lett., vol 16, no. 1, pp. 1-3, 1999 )，，和 Speech processing, transmission and quality aspects (STQ); distributed speech recognition; advanced front-end feature extraction algorithm; compression algorithms ( ETSI, ETSI ES 202 050 Rec, 2002 )两篇文章中即介绍了如何利用 VAD策略实现静音数据或非静音数据的判断，这里不再赘述。

步骤 210: 判断当前静音持续时间是否超过当前的静音持续时间阈值，如果是，结束录音；否则，返回步骤 204, 从緩沖区获取当前帧的下一帧录音数据，将该帧录音数据作为当前帧录音数据。

其中，步骤 209只要在步骤 204~步骤 210之间执行即可，与步骤 205~步骤 208之间的执行顺序不限制。

本步骤中的当前静音持续时间与当前帧录音数据之前连续若干帧的录音数据是否为静音数据相关。具体的，当前静音持续时间可以通过以下公式计算：当前静音持续时间 = (当前帧数 -当前帧之前第一帧非静音数据所对应帧数） X—个帧长度；

例如，第 m-1和第 m-2帧录音数据均为非静音数据，第 111~第 m+n帧录音数据均为静音数据，则在处理第 m帧录音数据时，当前静音持续时间为 1 个帧长度；在处理第 m+1帧录音数据时，当前静音持续时间为 2个帧长度… 在处理第 m+n帧录音数据时，当前静音持续时间为 n+1个帧长度。

另外，本步骤中的所述当前的静音持续时间阈值在不同的时刻可能取值为第一时间阈值也可能取值第二时间阈值，具体的，在步骤 206判断出存在特征声学模型与文本结束点声学模型相同的一帧录音数据之前，所述当前的静音持续时间均取值为第一时间阈值，而一旦步骤 206中判断某一帧解码最优路径的特征声学模型与文本结束点声学模型相同之后，所述静音持续时间阈值的取值更新为时间长度较短的所述第二时间阈值。

在图 2所示的方法中，一直判断解码最优路径的特征声学模型与文本结束点声学模型不相同时，则说明用户未结束录音文本的朗读，此时静音持续时间阈值为第一时间阈值，只有用户保持静音的时间超过当前的静音持续时间阈值 (即第一时间阈值）时，才结束录音，保证用户非正常录音（例如朗读出现错误或者中途结束等）下，也可以自动结束录音；而一旦判断解码最优路径的特征声学模型与文本结束点声学模型相同，说明用户已经结束了录音文本的朗读，此时，将静音持续时间阈值更新为第一时间阈值和第二时间阈值中相对较短的第二时间阈值，从而只要用户静音持续的时间超过了当前的静音持续时间阈值（即第二时间阈值）即结束录音，从而在用户正常朗读完录音文本的情况下，用户所等待的时间仅为第二时间阈值，相对于现有技术中的第一时间阈值，等待的时间缩短，从而提高了录音结束点的识别效率。

但是，在图 2所示的方法中，对于步骤 206中判断解码最优路径的特征声学模型与文本结束点声学模型相同的情况，虽然已经判定用户结束了录音文本的朗读，但是，在判定用户结束了录音文本的朗读后，后续对于每一帧录音数据还进行步骤 206的判断，此时，该判断步骤并非必须步骤，例如，对第 N 帧录音数据进行步骤 206的判断结果为相同时，说明用户在第 N帧录音数据中已经结束了录音文本的朗读，此时，对于第 N+1以及后续的若干帧录音数据而言，并不一定需要再进行步骤 206的判断。因此，在实际应用中，为了进一步录音结束点的识别效率和处理效率，可以在步骤 206中第一次判断录音数据的特征声学模型与文本结束点声学模型相同后，不再对后续帧的录音数据执行步骤 205~步骤 208 , 而只执行步骤 209~步骤 210, 也即：只判断获取到的当前帧录音数据是否为静音数据，为静音数据时，进行静音持续时间的判断。

与所述录音结束点检测方法相对应的，本发明实施例还提供录音结束点检测系统，如图 5所示，在该系统中，预设静音持续时间阈值为所述第一时间阈值；该系统还包括：第一确定单元 510, 用于获取录音文本，确定该录音文本的文本结束点声学模型；

第一获取单元 520, 用于从录音数据中的录音开始帧开始，依次获取每一帧录音数据；

第二确定单元 530, 用于确定获取到的当前帧录音数据的解码最优路径的特征声学模型；

阈值确定单元 540, 用于判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型相同时，将静音持续时间阈值更新为第二时间阈值，所述第二时间阈值小于第一时间阈值。

优选地，阈值确定单元 540还可以用于：判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型不相同时，保持所述静音持续时间阈值为所述第一时间阈值。

另外，如图 5所示，该系统还可以包括：

录音控制单元 550,用于判断获取到的当前帧录音数据为静音数据，而且，当前静音持续时间超过当前的静音持续时间阈值时，结束录音。

优选地，如图 6所示，第一确定单元 510可以包括：

获取子单元 610, 用于获取录音文本；

网络建立子单元 620, 用于才艮据录音文本建立文本对应的解码网络；第一特征确定子单元 630, 用于将所述解码网络的最后一个声学模型确定为文本结束点声学模型。

优选地，如图 7所示，第二确定单元 520可以包括：

提取子单元 710, 从当前帧的录音数据中提取与预设的声学模型相对应的 MFCC特征，得到当前帧录音数据的解码最优路径；

第二特征确定子单元 720, 用于确定当前帧录音数据的解码最优路径的最后一个声学模型为解码最优路径的特征声学模型。

如图 5所示，该系统还可以包括：

接收单元 500, 用于接收录音数据，从录音数据中确定录音开始帧。

优选地，接收单元 500可以包括：

接收子单元，用于接收录音数据；开始帧确定子单元，用于依次判断每一帧录音数据为静音数据或非静音数据，将第一帧非静音数据所在的帧作为录音开始帧。

以上在判断录音数据是静音数据或非静音数据时，可以利用 VAD策略，这里不再赘述。

图 5~7所示的录音结束点检测系统，阈值确定单元将解码最优路径的特征声学模型与文本结束点声学模型相比较，如果相同，说明用户已经朗读完了录音文本，则将静音持续时间阈值更新为相对于第一时间阈值来说较短的第二时间阈值，之后，录音控制单元判断当前静音持续时间超过第二时间阈值即结束录音，相对于现有技术，缩短了用户录音结束后所需要等待的时间，提高了对于录音结束点的识别效率，提升了用户体验。

本发明实施例所述的录音结束点检测方法和系统不仅可以应用于语音评测系统中，还可以应用于其他需要对已知文本的朗读进行录音的场景中。本领域普通技术人员可以理解，实现上述实施例录音结束点检测方法的过程可以通过程序指令相关的硬件来完成，所述的程序可以存储于可读取存储介质中，该程序在执行时执行上述方法中的对应步骤。所述的存储介质可以如： ROM/RAM、磁碟、光盘等。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

+

Claims

权利要求

1、一种录音结束点检测方法，其特征在于，包括：预设静音持续时间阈值为所述第一时间阈值；该方法还包括：

获取录音文本，确定该录音文本的文本结束点声学模型；从录音数据中的录音开始帧开始，依次获取每一帧录音数据；

确定获取到的当前帧录音数据的解码最优路径的特征声学模型；判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型相同时，将静音持续时间阈值更新为第二时间阈值，所述第二时间阈值小于第一时间阈值。
2、根据权利要求 1所述的方法，其特征在于，所述确定文本结束点声学模型包括：

根据录音文本生成文本对应的解码网络，将所述解码网络对应的最后一个声学模型确定为文本结束点声学模型。
3、根据权利要求 2所述的方法，其特征在于，所述确定当前帧录音数据的解码最优路径的特征声学模型包括：

从当前帧的录音数据中提取与预设的声学模型相对应的 MFCC特征，得到当前帧录音数据的解码最优路径；

确定当前帧录音数据的解码最优路径的最后一个声学模型为解码最优路径的特征声学模型。
4、根据权利要求 1所述的方法，其特征在于，还包括：

判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型不相同时，保持所述静音持续时间阈值为所述第一时间阈值。
5、根据权利要求 1至 4任一项所述的方法，其特征在于，每次获取到一帧录音数据之后还包括：

判断获取到的当前帧录音数据为静音数据，而且，当前静音持续时间超过当前的静音持续时间阈值时，结束录音。
6、根据权利要求 1至 4任一项所述的方法，其特征在于，所述获取每一帧录音数据之前，进一步包括：

接收录音数据，从录音数据中确定录音开始帧。 7、根据权利要求 6所述的方法，其特征在于，所述从录音数据中确定录音开始帧包括：

依次判断每一帧录音数据为静音数据或非静音数据，将第一帧非静音数据所在的帧作为录音开始帧。
8、一种录音结束点检测系统，其特征在于，预设静音持续时间阈值为所述第一时间阈值；该系统还包括：

第一确定单元，用于获取录音文本，确定该录音文本的文本结束点声学模型；

第一获取单元，用于从录音数据中的录音开始帧开始，依次获取每一帧录音数据；

第二确定单元，用于确定获取到的当前帧录音数据的解码最优路径的特征声学模型；

阈值确定单元，用于判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型相同时，将静音持续时间阈值更新为第二时间阈值，所述第二时间阈值小于第一时间阈值。
9、根据权利要求 8所述的系统，其特征在于，第一确定单元包括：获取子单元，用于获取录音文本；

网络建立子单元，用于才艮据录音文本建立文本对应的解码网络；第一特征确定子单元，用于将所述解码网络的最后一个声学模型确定为文本结束点声学模型。
10、根据权利要求 9所述的系统，其特征在于，第二确定单元包括：提取子单元，从当前帧的录音数据中提取与预设的声学模型相对应的

MFCC特征，得到当前帧录音数据的解码最优路径；

第二特征确定子单元，用于确定当前帧录音数据的解码最优路径的最后一个声学模型为解码最优路径的特征声学模型。
11、根据权利要求 8所述的系统，其特征在于，阈值确定单元还用于：判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型不相同时，保持所述静音持续时间阈值为所述第一时间阈值。
12、根据权利要求 8至 11任一项所述的系统，其特征在于，还包括：录音控制单元，用于判断获取到的当前帧录音数据为静音数据，而且，当前静音持续时间超过当前的静音持续时间阈值时，结束录音。
13、根据权利要求 8至 11任一项所述的系统，其特征在于，还包括：接收单元，用于接收录音数据，从录音数据中确定录音开始帧。
14、根据权利要求 13所述的系统，其特征在于，接收单元包括：接收子单元，用于接收录音数据；

开始帧确定子单元，用于依次判断每一帧录音数据为静音数据或非静音数据，将第一帧非静音数据所在的帧作为录音开始帧。