CN103943105A

CN103943105A - 一种语音交互方法及系统

Info

Publication number: CN103943105A
Application number: CN201410158639.2A
Authority: CN
Inventors: 鄢杭; 张云; 康融; 张胜利; 党戈
Original assignee: China Mobile Group Guangdong Co Ltd; iFlytek Co Ltd
Current assignee: China Mobile Group Guangdong Co Ltd; iFlytek Co Ltd
Priority date: 2014-04-18
Filing date: 2014-04-18
Publication date: 2014-07-23

Abstract

本发明公开了一种语音交互方法及系统，前者包括：录制用户输入的音频信息；获取音频信息进行唤醒检测，直至唤醒成功；获取音频信息中于唤醒成功起的语音段作为语音指令，直至检测到设定的任一指令获取终止事件；对语音指令进行语音识别，得到语音识别结果；判断语音识别结果是否有效，如果有效则执行所述语音识别结果。本发明的语音交互方法及系统既可通过唤醒检测过滤不包含唤醒词的语音或者背景噪音，又可在唤醒成功后直接处理用户在说出唤醒词后连续说出的语句指令，从而提升了语音交互方式的便捷性。

Description

一种语音交互方法及系统

技术领域

本发明涉及语音交互领域，尤其涉及一种语音交互方法及系统。

背景技术

为了避免手机等移动设备在待机时将周边的说话噪音误识别为语音指令，用户在每次启动移动设备的语音交互功能时，移动设备均需要完成以下操作：1、录制用户输入的音频信息；2、获取音频信息进行唤醒检测，直至唤醒成功；3、于唤醒成功后提示用户输入语音指令；4、于提示用户输入语音指令后，再次录制用户输入的音频信息；5、获取再次录制的音频信息中的语音段作为语音指令；6、对语音指令进行语音识别，得到语音识别结果；7、确定语音识别结果是否有效，如果有效则执行语音识别结果。对应地，用户在每次启动移动设备的语音交互功能时，均需要完成以下操作：1、说出唤醒词，以唤醒移动设备；2、在移动设备提示用户输入语音指令时，说出语音指令，例如说出“打电话给张三”时。由此可见，该种语音交互方法具有使用便捷性较差的缺陷。

发明内容

本发明的一个目的在于克服现有技术中的不足，提供了一种提升用户使用便捷性的语音交互方法。

为实现上述目的，本发明采用的技术方案为：一种语音交互方法，包括：

录制用户输入的音频信息；

获取所述音频信息进行唤醒检测，直至唤醒成功；

获取所述音频信息中于唤醒成功起的语音段作为语音指令，直至检测到设定的任一指令获取终止事件；

对所述语音指令进行语音识别，得到语音识别结果；

判断所述语音识别结果是否有效，如果有效则执行所述语音识别结果。

优选的是，所述指令获取终止事件包括：所述语音段结束，所述语音段已持续至于唤醒成功起的第一设定时间，及于唤醒成功起的第二设定时间内未检测到所述语音段。

优选的是，所述方法还包括：

在检测到任一交互失败事件时提示用户重新输入语音指令，其中，所述交互失败事件包括于唤醒成功起的第二设定时间内未检测到所述语音段，及确定所述语音识别结果无效。

优选的是，所述第二设定时间小于所述第一设定时间。

优选的是，所述方法还包括：

发生任一所述指令获取终止事件后，停止录制用户输入的音频信息。

本发明的另一个目在于克服现有技术中的不足，提供了一种提升用户使用便捷性的语音交互系统。

为了实现上述目的，本发明采用的技术方案为：一种语音交互系统，包括：

录音模块，用于录制用户输入的音频信息；

唤醒模块，用于获取所述音频信息进行唤醒检测，直至唤醒成功；

语音活动检测模块，用于获取所述音频信息中于唤醒成功起的语音段作为语音指令，直至检测到设定的任一指令获取终止事件；

语音识别模块，用于对所述语音指令进行语音识别，得到语音识别结果；

判断模块，用于判断所述语音识别结果是否有效；以及，

执行模块，用于执行有效的语音识别结果。

优选的是，所述系统还包括语音输出模块，用于在检测到任一交互失败事件时提示用户重新输入语音指令，其中，所述交互失败事件包括于唤醒成功起的第二设定时间内未检测到所述语音段，及确定所述语音识别结果无效。

优选的是，所述第二设定时间小于所述第一设定时间。

优选的是，所述录音模块还用于在发生任一所述指令获取终止事件后，停止录制用户输入的音频信息。

本发明的有益效果在于，本发明的语音交互方法及系统既可通过唤醒检测过滤不包含唤醒词的语音或者背景噪音，又可在唤醒成功后直接处理用户在说出唤醒词后连续说出的语句指令，从而提升了语音交互方式的便捷性。

附图说明

图1示出了根据本发明所述语音交互方法的一种实施方式的流程图；

图2示出了根据本发明所述语音交互系统的一种实施结构的方框原理图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

如图1所示，本发明的语音交互方法包括如下步骤：

步骤S1，录制用户输入的音频信息。

步骤S2，获取音频信息进行唤醒检测，直至唤醒成功；本领域技术人员应当理解的是，该步骤通常是从录制音频信息开始即进行唤醒检测操作。

步骤S3，获取音频信息中于唤醒成功起的语音段作为语音指令，直至检测到设定的任一指令获取终止事件；即步骤S1的操作在唤醒成功后无中断地继续进行，而获取语音指令的动作由唤醒成功触发，该步骤即是在唤醒成功后直接获取音频信息中的语音段。

步骤S4，如果在步骤S3中获取到了语音指令，则对语音指令进行语音识别，得到语音识别结果。

步骤S5，判断语音识别结果是否有效，如果有效则执行步骤S6。

步骤S6，执行语音识别结果。

针对本发明的语音交互方法，用户只需在触发语音交互后，连续说出唤醒词和语音指令即可。

在步骤S2中的唤醒检测可采用申请公布号为CN102999161A或者申请公布号为CN103021409A中公开的唤醒检测方法，该唤醒检测方法具体为：

步骤S21，声学特征提取：提取音频信息（通常以语音段为单位进行唤醒检测）中具有区分性的、并且是基于人耳听觉特性提取的特征，通常选取语音识别中用到的MFCC(Mel-Frequency Cepstrum Coefficient，美尔频率倒谱系数)特征作为声学特征。

步骤S22，唤醒词检测：将提取得到的声学特征，采用训练的声学模型在唤醒词检测网络上计算声学得分，如果声学得分最优的路径中包含要检测的唤醒词，则确定已检出唤醒词，进入步骤S23操作，否则回到步骤S21继续进行提取声学特征。

步骤S23，唤醒词确认：将提取得到的声学特征，采用训练的声学模型在唤醒词确认网络上进行唤醒词确认，得到最终确认得分；判断该检出的唤醒词是否为真实的唤醒词，即将该唤醒词的最终确认得分和预先设定的门限进行比较，如果最终确认得分大于等于门限，则认为该唤醒词是真实的唤醒词，语音唤醒成功；如果最终确认得分小于门限，则认为该唤醒词为虚假的唤醒词，重新回到步骤S21继续进行声学特征提取。

上述声学模型的训练分为两部分，分别为音素声学模型和废料模型(即Garbage模型)；音素声学模型采用传统的语音识别中的声学模型训练方法，选取数据库，利用基于MLE(Maximum Likelihood Estimation，最大似然估计)和MPE(Minimum Phone Error，最小音素错误)区分性训练准则下得到；Garbage模型用于吸收除唤醒词之外的无关语音，使用和训练音素模型同样的数据库，通过计算各音素模型之间的相似性，将各音素分为20类，使用每类音素对应的所有训练数据融合起来，采用MLE准则训练对应的Garbage模型，便得到20类Garbage模型。

上述唤醒词检测网络的实现方法是采用最优得分路径计算得出，最优得分路径的计算公式是：

现用X代表从音频信息中提取的声学特征向量，W代表得分最大的最优词序列；条件概率P(X|W)为声学模型得分，通过训练好的声学模型计算得到；先验概率P(W)为语言模型得分，即为对不同的声学模型所加的PenaltyP(X)为全概率，当声学模型和唤醒词检测网络确定下来后即是定值。在此基础上，唤醒词确认网络的实现方法是：

a）将检出的唤醒词解码到音素一级，并记录所有的得分：

（Score_phone1,Score_phone2,…,Score_phoneN），其中N为唤醒词中总的音素个数，Score_phone1,Score_phone2,…,Score_phoneN分别表示该唤醒词中各音素的解码得分。

b)计算得到唤醒词每个音素的确认得分，计算方式如下：

{CM}_{phonei} = ({Score}_{phonei} - Σ_{k = K_{istart}}^{K_{iend}} {Score}_{framek}) / (K_{iend} - K_{istart})

其中K_istart和K_iend分别为第i个音素的起始时间和结束时间；

CM_phonei表示第i个音素的确认得分，下标phonei表示第i个音素，Score_phonei如上面所示第i个音素的解码得分，Score_framek表示使用唤醒词确认网络解码得到的第k帧的得分；

c)计算得到该唤醒词的最终确认得分CM_word，计算方式如下所示：

{CM}_{word} = \frac{1}{N} Σ_{i = 1}^{N} {CM}_{phonei} .

在此，本发明也可以采用语音交互领域中惯常采用的其他唤醒检测方法。

上述指令获取终止事件可根据需要设定，例如包括：语音段结束，语音段已持续至于唤醒成功起的第一设定时间，及于唤醒成功起的第二设定时间内未检测到语音段。本领域技术人员可以根据实际应用场合将该第一设定时间设置为固定值，或者将该第一设定时间设置为可由用户输入确定，通常情况下，该第一设定时间在800ms至2000ms的范围内选择，例如选择为1000ms。在此，为了加快唤醒检测的效率，该第二设定时间通常小于第一设定时间，例如使第二设定时间小于等于第一设定时间的三分之二，为了避免误判断，该第一设定时间也不宜过小，通常大于等于第一设定时间的三分之一，在本实施例中，该第二设定时间等于第一设定时间的一半。

上述语音段结束表示检测到语音段的后端点，于唤醒成功起的第二设定时间内未检测到语音段表示于唤醒成功起的第二设定时间内未检测到语音段的前端点。在进行语音指令的获取操作时，具体为如果于唤醒成功起的第二设定时间内未检测到语音段的前端点，则认为用户仅执行了唤醒，如果检测到语音段的前端点，则开始检测语音段的后端点，如果检测到语音段的后端点，则语音段结束，如果检测到语音段已持续至于唤醒成功起的第一设定时间，则认为语音段于唤醒成功起的第一设定时间时结束。在此，每个语音段的开始和结束分别对应语音段的前端点和后端点，前端点就是非语音段到语音段的边界帧，后端点就是语音段到非语音段的边界帧，对音频信号处理时，首先对音频进行分帧，然后对音频的每帧数据计算能量特征，能量特征超过设定的数值就认为该帧数据是语音，否则是非语音，因此，语音段是连续一定长度的帧数据都满足语音的要求得到的。

为了使用户可在输入语音指令失败后继续进行语音交互，与现有语音交互方法相同，本发明的方法还包括：在检测到任一交互失败事件时执行图1所示的步骤S7，即提示用户重新输入语音指令，其中，该交互失败事件包括于唤醒成功起的第二设定时间内未检测到语音段，及确定语音识别结果无效。

本发明的语音交互方法还包括：发生任一上述指令获取终止事件后，停止录制用户输入的音频信息。与现有技术相同，该录制操作将于提示用户进行下一次交互时开启，如于上述的提示用户重新输入语音指令时开启。

对应上述的语音交互方法，本发明还提供了一种语音交互系统，如图2所示，该语音交互系统包括录音模块1、唤醒模块2、语音活动检测模块3、语音识别模块4、判断模块5和执行模块6，该录音模块1用于录制用户输入的音频信息；唤醒模块2用于获取音频信息进行唤醒检测，直至唤醒成功；语音活动检测模块3用于获取音频信息中于唤醒成功起的语音段作为语音指令，直至检测到设定的任一指令获取终止事件（请参见上述说明理解指令获取终止事件）；语音识别模块4用于对语音指令进行语音识别，得到语音识别结果；判断模块5用于判断语音识别结果是否有效；执行模块6用于执行有效的语音识别结果。

本发明的语音交互系统还可包括如图2所示的语音输出模块7，用于在检测到任一交互失败事件（请参见上述说明理解交互失败事件）时提示用户重新输入语音指令。

上述录音模块1可在发生任一所述指令获取终止事件后，停止录制用户输入的音频信息。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，以上所述仅为本发明的较佳实施例，但本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种语音交互方法，其特征在于，包括：

录制用户输入的音频信息；

获取所述音频信息进行唤醒检测，直至唤醒成功；

对所述语音指令进行语音识别，得到语音识别结果；

2.根据权利要求1所述的语音交互方法，其特征在于，所述指令获取终止事件包括：所述语音段结束，所述语音段已持续至于唤醒成功起的第一设定时间，及于唤醒成功起的第二设定时间内未检测到所述语音段。

3.根据权利要求1所述的语音交互方法，其特征在于，所述方法还包括：

4.根据权利要求2或3所述的语音交互方法，其特征在于，所述第二设定时间小于所述第一设定时间。

5.根据权利要求1、2或3所述的语音交互方法，其特征在于，所述方法还包括：

6.一种语音交互系统，其特征在于，包括：

录音模块，用于录制用户输入的音频信息；

判断模块，用于判断所述语音识别结果是否有效；以及，

执行模块，用于执行有效的语音识别结果。

7.根据权利要求6所述的系统，其特征在于，所述指令获取终止事件包括：所述语音段结束，所述语音段已持续至于唤醒成功起的第一设定时间，及于唤醒成功起的第二设定时间内未检测到所述语音段。

8.根据权利要求6所述的系统，其特征在于，所述系统还包括语音输出模块，用于在检测到任一交互失败事件时提示用户重新输入语音指令，其中，所述交互失败事件包括于唤醒成功起的第二设定时间内未检测到所述语音段，及确定所述语音识别结果无效。

9.根据权利要求7或8所述的系统，其特征在于，所述第二设定时间小于所述第一设定时间。

10.根据权利要求6、7或8所述的系统，其特征在于，所述录音模块还用于在发生任一所述指令获取终止事件后，停止录制用户输入的音频信息。