CN107316643A

CN107316643A - 语音交互方法及装置

Info

Publication number: CN107316643A
Application number: CN201710539227.7A
Authority: CN
Inventors: 李深安; 孔祥星; 王兴宝; 庄纪军; 王雪初; 马军涛; 韩后岳
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2017-11-03
Anticipated expiration: 2037-07-04
Also published as: CN107316643B

Abstract

本发明公开了一种语音交互方法及装置，该方法包括：在接收语音识别文本之后，将所述语音识别文本分别分发到各业务中，并分别进行语义理解，然后基于得到的语义理解结果、客户端所处应用状态进行置信度排序，获取置信度最高的语义理解结果，对所述置信度最高的语义理解结果做出响应。由于基于多维度的信息进行语义理解结果的置信度排序，不仅考虑了语义理解结果与各业务的匹配度，还同时考虑了客户端所处应用状态，例如是否处于导航状态或听音乐状态，客户端所处应用及应用状态可能就是语音交互所要处理的对象，因此，基于多维度的信息进行语义理解可以有效提升判断其业务所属的准确度，提高对人机交互语义理解的正确率，提升用户体验。

Description

语音交互方法及装置

技术领域

本发明涉及语音信号处理领域，具体涉及一种语音交互方法及装置。

背景技术

随着人工智能相关技术的日益成熟，人们的生活开始走向智能化，各种智能设备逐渐进入人们的日常生活中，如智能车机。语音作为智能设备应用中主流的交互方式之一，其方便快捷的优势有目共睹。

在进行语音交互时，用户输入的语音被转写成文本后会经过语义理解，客户端根据语义理解的结果，对相应的事件进行响应。然而，不同于手机等移动终端的近距离语音交互，在智能家居或汽车等应用环境中，用户离麦克风的距离相对较远，加之吵闹环境下的噪音、车载环境下的胎噪、空调噪声、副驾驶和后排乘客的人声干扰等因素，使得环境变得非常复杂。这样即使在用户没有交互意图时，由于噪声的影响，识别和语义产生误触发，给出了语义理解的结果，从而导致客户端做出了对应的响应的情况时有发生。这不仅会给用户带来较差的用户体验，还会由于语义的误触发而影响后续语义理解的正确性，尤其是在考虑历史信息的语音交互过程中。

发明内容

本发明实施例提供一种语音交互方法及装置，避免识别和语义产生误触发，以提高对人机交互语义理解的正确率，提升用户体验。

为此，本发明提供如下技术方案：

一种语音交互方法，所述方法包括：

接收语音识别文本；

将所述语音识别文本分别分发到各业务中，并分别进行语义理解；

基于得到的语义理解结果、客户端所处应用状态进行置信度排序，获取置信度最高的语义理解结果；

对所述置信度最高的语义理解结果做出响应。

优选地，进行语义理解包括：

获取所述语音识别文本中各子片段的语义槽；

将所述语音识别文本中存在语义槽的各子片段替换成对应的语义槽，得到所述语音识别文本的语义匹配路径；

根据预先确定的文法规则对所述语音识别文本进行匹配，得到所述语音识别文本的文本匹配路径。

优选地，所述根据预先确定的文法规则对所述语音识别文本进行匹配，得到所述语音识别文本的文本匹配路径包括：

预先设定表示句首或句尾无意义字符的通配的第一符号、表示句中无意义字符的通配的第二符号和表示有意义字符的完全匹配的第三符号；

将所述语音识别文本的各子片段与当前业务所支持的句式进行匹配，确定各子片段对应的符号，该符号为第一符号、第二符号或第三符号中的一种；

将所述语音识别文本的各子片段替换为对应的符号，得到所述语音识别文本的文本匹配路。

优选地，所述基于得到的语义理解结果、客户端所处应用状态进行置信度排序包括：

预先构建排序模型，所述排序模型的输入包括：文本的词向量、语义匹配路径、文本匹配路径，以及客户端所处应用状态，所述排序模型的输出为输入的文本属于各业务的概率；

基于所述排序模型得到所述语音识别文本属于各业务的概率；

根据上述概率的值或者上述概率的值及阈值门限进行排序。

优选地，所述基于得到的语义理解结果、客户端所处应用状态进行置信度排序，获取置信度最高的语义理解结果包括：

基于得到的语义理解结果、客户端所处应用状态、历史状态、以及与搜索数据相似度进行置信度排序，获取置信度最高的语义理解结果，其中，所述与搜索数据相似度为基于候选语义理解结果搜索的数个相似度最高的搜索数据与该候选语义理解结果的文本相似度，所述候选语义理解结果为当前业务得到的输入文本的语义理解结果；

所述排序模型的输入还包括：与搜索数据相似度、历史状态，所述历史状态包括上一时刻语义理解结果。

优选地，所述方法还包括：

在接收语音识别文本之后，对所述语音识别文本进行语言模型拒识；

所述将所述语音识别文本分别分发到各业务中包括：

将未被拒识的语音识别文本分别分发到各业务中。

优选地，所述方法还包括：

在接收语音识别文本之后，对所述语音识别文本进行业务预分类，得到所述语音识别文本的预分类业务；

所述将所述语音识别文本分别分发到各业务中包括：

将所述语音识别文本分别分发到各预分类业务中；或者

将未被拒识的语音识别文本分别分发到各预分类业务中。

优选地，所述对所述语音识别文本进行业务预分类，得到所述语音识别文本的预分类业务包括：

对于每一个业务，预先构建该业务的预分类模型，所述预分类模型的输入为文本的词向量，输出为该文本属于该业务的概率；以及预先构建每一个业务包括的特定句式和关键词的模板的库；

利用所述预分类模型获取所述语音识别文本或未被拒识的语音识别文本分别属于各业务的概率；

如果该概率的值≥设定阈值，则对应的各业务作为预分类业务；

如果该概率的值＜设定阈值，则将当前概率对应的语音识别文本或未被拒识的语音识别文本在当前概率对应的各业务的库中与进行匹配，如果匹配成功，则该库所属的业务作为预分类业务。

优选地，所述方法还包括：

在进行置信度排序之前，根据当前语音交互采集的语音信号的信噪比调整所述阈值门限，其中，随着信噪比的增加，所述阈值门限降低。

优选地，所述排序模型的输入还包括：信噪比；

所述排序模型的参数包括：原始文本的权重，其中，该原始文本的权重随着信噪比的变小而变大。

相应地，本发明还提供了一种语音交互装置，所述装置包括：

文本接收模块，用于接收语音识别文本；

语义理解模块，用于将所述语音识别文本分别分发到各业务中，并分别进行语义理解；

置信度排序模块，用于基于得到的语义理解结果、客户端所处应用状态进行置信度排序，获取置信度最高的语义理解结果；

响应模块，用于对所述置信度最高的语义理解结果做出响应。

优选地，所述语义理解模块包括：

语义槽获取单元，用于获取所述语音识别文本中各子片段的语义槽；

语义匹配路径获取单元，用于将所述语音识别文本中存在语义槽的各子片段替换成对应的语义槽，得到所述语音识别文本的语义匹配路径；

文本匹配路径获取单元，用于根据预先确定的文法规则对所述语音识别文本进行匹配，得到所述语音识别文本的文本匹配路径。

优选地，所述文本匹配路径获取单元包括：

句式匹配子单元，用于将所述语音识别文本的各子片段与当前业务所支持的句式进行匹配，确定各子片段对应的符号，该符号为第一符号、第二符号或第三符号中的一种；

符号替换子单元，用于将所述语音识别文本的各子片段替换为对应的符号，得到所述语音识别文本的文本匹配路。

优选地，所述装置还包括：

排序模型构建模块，用于预先构建排序模型，所述排序模型的输入包括：文本的词向量、语义匹配路径、文本匹配路径，以及客户端所处应用状态，所述排序模型的输出为输入的文本属于各业务的概率；

所述置信度排序模块包括：

业务概率获取单元，用于基于所述排序模型得到所述语音识别文本属于各业务的概率；

排序单元，用于根据上述概率的值或者上述概率的值及阈值门限进行排序。

优选地，所述置信度排序模块具体用于基于得到的语义理解结果、客户端所处应用状态、历史状态、以及与搜索数据相似度进行置信度排序，获取置信度最高的语义理解结果，其中，所述与搜索数据相似度为基于候选语义理解结果搜索的数个相似度最高的搜索数据与该候选语义理解结果的文本相似度，所述候选语义理解结果为当前业务得到的输入文本的语义理解结果；

优选地，所述装置还包括：

语言模型拒识模块，用于在接收语音识别文本之后，对所述语音识别文本进行语言模型拒识；

所述语义理解模块具体用于将未被拒识的语音识别文本分别分发到各业务中，并分别进行语义理解。

优选地，所述装置还包括：

业务预分类模块，用于在接收语音识别文本之后，对所述语音识别文本进行业务预分类，得到所述语音识别文本的预分类业务；

所述语义理解模块具体用于将所述语音识别文本分别分发到各预分类业务中，并分别进行语义理解；或者将未被拒识的语音识别文本分别分发到各预分类业务中，并分别进行语义理解。

优选地，所述装置还包括：

预分类模型构建模块，用于对于每一个业务，预先构建该业务的预分类模型，所述预分类模型的输入为文本的词向量，输出为该文本属于该业务的概率；

句式和关键词模板库构建模块，用于预先构建每一个业务包括的特定句式和关键词的模板的库；

所述业务预分类模块包括：

业务概率获取单元，用于利用所述预分类模型获取所述语音识别文本或未被拒识的语音识别文本分别属于各业务的概率；

预分类业务获取单元，用于如果该概率的值≥设定阈值，则对应的各业务作为预分类业务；如果该概率的值＜设定阈值，则将当前概率对应的语音识别文本或未被拒识的语音识别文本在当前概率对应的各业务的库中与进行匹配，如果匹配成功，则该库所属的业务作为预分类业务。

优选地，所述装置还包括：

信噪比获取模块，用于采集当前信噪比信息；

阈值门限调整模块，用于在进行置信度排序之前，根据当前语音交互采集的语音信号的信噪比调整所述阈值门限，其中，随着信噪比的增加，所述阈值门限降低。

优选地，所述排序模型的输入还包括：信噪比；

本发明实施例提供的语音交互方法及装置，在接收语音识别文本之后，将所述语音识别文本分别分发到各业务中，并分别进行语义理解，然后基于得到的语义理解结果、客户端所处应用状态进行置信度排序，获取置信度最高的语义理解结果，对所述置信度最高的语义理解结果做出响应。由于基于多维度的信息进行语义理解结果的置信度排序，不仅考虑了语义理解结果与各业务的匹配度，还同时考虑了客户端所处应用的状态，例如是否处于导航状态或听音乐状态，客户端所处应用及应用状态可能就是语音交互所要处理的对象，因此，基于多维度的信息进行语义理解可以有效提升判断其业务所属的准确度，进而避免识别和语义产生误触发，以提高对人机交互语义理解的正确率，可以对置信度最高的语义理解结果做出响应，提升用户体验。

进一步地，本发明实施例提供的语音交互方法及装置，在进行语义理解时获取了语音识别文本的语义匹配路径和文本匹配路径，来判断不同业务匹配路径的优劣，有助于提升人机交互语义理解的正确率。

进一步地，本发明实施例提供的语音交互方法及装置，通过预先构建的排序模型来确定输入的文本属于各业务的概率，该排序模型可以是离线训练好的，便于直接利用其获取语音识别文本在各业务的语义理解结果的置信度排序。

进一步地，本发明实施例提供的语音交互方法及装置，在接收语音识别文本之后，对所述语音识别文本进行语言模型拒识。由于各种环境噪声和人声干扰很容易被识别成文本，但经过大数据分析发现，这些识别文本往往不符合人们正常说话和交互的语言逻辑，因此可以通过语言模型拒识部分环境噪声和人声干扰，降低识别和语义产生误触发的概率。

进一步地，本发明实施例提供的语音交互方法及装置，在接收语音识别文本之后，对所述语音识别文本进行业务预分类，这样可以在一定程度上起到无效语义的拒识作用，例如，系统支持10种交互意图的业务，通过业务预分类分发到了6个业务，则减小了其他四个业务对最终结果的干扰，且能提升后续数据处理效率。

进一步地，本发明实施例提供的语音交互方法及装置，还给出了业务预分类的具体实现步骤，通过模型加规则的方法对语音识别文本进行预分类，本发明不但可以减小非目标业务对最终结果的干扰，同时，还可以防止应分发的业务没有分发到，可以尽可能的提高召回率。

进一步地，本发明实施例提供的语音交互方法及装置，还可以利用前端声学信号处理的信噪比等信息，自适应调整所述阈值门限，如信噪比高的环境，设定较低的阈值门限，提升系统交互成功率，在信噪比低的环境下，提高阈值门限，减少误吸收。

进一步地，本发明实施例提供的语音交互方法及装置，还可以利用前端声学信号处理的信噪比等信息自适应调整所述排序模型的参数，如信噪比低时，文本层面的误吸收影响更大，相应的调高原始文本的权重，以提升语音识别准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例语音交互方法的第一种流程图；

图2是本发明实施例进行语义理解的一种流程图；

图3是本发明实施例进行置信度排序的第一种流程图；

图4是本发明实施例语音交互方法的第二种流程图；

图5是本发明实施例语音交互方法的第三种流程图；

图6是本发明实施例获取预分类业务的一种流程图；

图7是本发明实施例进行置信度排序的第二种流程图；

图8是本发明实施例语音交互装置的第一种结构示意图；

图9是本发明实施例语音交互装置的第二种结构示意图；

图10是本发明实施例语音交互装置的第三种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

目前在车载及智能家居语音交互中，多是只利用输入文本进行语义理解得到最终的语义理解结果，利用信息较少，在复杂场景下，达不到很好的语义拒识效果。为了增强语义拒识效果，现有技术进行了改进，例如：1.如对每个业务语义理解得分设置固定阈值门限，只有高于该门限才输出，否则给予拒识；2.设置业务优先级，在多个业务得分相同的情况下，通过人为设定的业务优先级，使优先级高的优先给出；3.为了防止不同业务间说法的误吸收，从资源的层面进行裁剪某业务支持的说法范围，从而降低误吸收的概率。如“我想去xxx”，该说法容易在火车、航班、导航三个业务中产生误吸收，现有技术方案通常做法为使火车和航班业不支持该类说法，用户只有说带有“火车”、“火车票”等强句式的说法才能进入火车业务。但是上述方法需要在交互效果和误吸收上面做权衡，过高的阈值会明显降低效果，而过低的阈值又起不到拒识的作用。也就是说，以上改进方式并不能从根本上解决问题，尤其是在复杂的语音交互环境下。

如图1所示，是本发明实施例语音交互方法的第一种流程图，包括以下步骤：

步骤101，接收语音识别文本。

在本实施例中，仅涉及语义理解及拒识部分，前端声学信号处理和语音识别不在此阐述。具体地，可以首先通过麦克风拾取音频，然后经过前端声学信号处理和语音识别，得到识别文本。

步骤102，将所述语音识别文本分别分发到各业务中，并分别进行语义理解。

在本实施例中，将语音识别文本分发到各业务，然后通过文法、模型贴弧等方式分别做语义理解，当然，现有技术中其它语义理解方式也适用，在此不做限定。各业务进行语义理解时互不干扰，若该业务有语义理解的结果，则转下一步骤，否则该业务被拒识。具体地，所述语义理解技术可以为：通过文法、模型贴弧等方式抽取语义槽，并生成语义匹配路径和文本匹配路径。

其中，基于文法的语义理解为传统的语义理解方法，通过在文法资源中支持特定的句式和说法实现，在此不再赘述。

步骤103，基于得到的语义理解结果、客户端所处应用状态进行置信度排序，获取置信度最高的语义理解结果.

在实施例中，通过步骤102的多个业务的语义理解，得到多个业务的语义理解结果，此时需要根据一些有效信息对结果进行排序，并最终给出一个正确的响应。

由于人机之间的交互，尤其是在人与应用目的性很强的车载、智能家居等交互中，用户表达真实交互意图时，说法句式往往是带有较强的意图，与日常闲聊和误识别文本相比，其更符合语言规范，而且用户也会倾向性的去说一些交互系统推荐的句式说法。因此，可以从语义匹配路径、文本匹配路径和客户端所处应用的状态等多个维度出发，计算一个交互文本所属业务的概率，并根据概率值的大小进行排序，并将概率最大的语义理解的结果作为响应的对象。

具体地，根据语义匹配路径和文本匹配路径判断不同业务匹配路径的优劣。例如，在导航业务中，“导航到startDate”这类语义匹配路径不合理，应予以拒识。在根据语义匹配路径排序的过程中，也会用到文本匹配路径信息。

为了提升语义理解的结果的可信度，本发明基于接收的语音识别文本的文本词向量、语义匹配路径、文本匹配路径、当前客户端所处应用的状态等进行多维度语义排序。例如，预先构建以上述信息作为模型输入的排序模型，通过排序模型预测输入的语音识别文本所述业务的概率。其中，当前客户端所处应用的状态如：在音乐业务的暂停状态、在导航业务的导航中状态、空调的制冷中状态等，交互系统的各功能模块所具备的各种状态。优选地，该排序模型利用大量文本和标注数据进行离线训练。

步骤104，对所述置信度最高的语义理解结果做出响应。

本发明实施例提供的语音交互方法，基于各业务得到的语义理解结果、客户端所处应用状态进行置信度排序，获取置信度最高的语义理解结果，由于基于多维度的信息进行语义理解结果的置信度排序，不仅考虑了语义理解结果与各业务的匹配度，还同时考虑了客户端所处应用状态，例如是否处于导航状态或听音乐状态，客户端所处应用及应用状态可能就是语音交互所要处理的对象，因此，基于多维度的信息进行语义理解可以有效提升判断其业务所属的准确度，进而避免识别和语义产生误触发，以提高对人机交互语义理解的正确率，可以对置信度最高的语义理解结果做出响应，提升用户体验。

如图2所示，是本发明实施例进行语义理解的一种流程图。在本实施中，进行语义理解可以包括以下步骤：

步骤201，获取所述语音识别文本中各子片段的语义槽。

具体地，可以通过文法、模型贴弧等方法获取输入的语音交互文本的语义槽，当然，其他可以获取文本的语义槽的方法也适用，在此不做限定。

基于文法获取输入文本的语义槽可以同现有技术，在此不再赘述。

与文法不同的是，模型贴弧的方法是基于神经网络模型预测输入文本中语义槽。例如，首先对大量文本进行语义槽标注，并基于标注数据训练神经网络模型，如RNN(循环神经网络)，在语义理解时，通过训练好的模型预测输入文本中各子片段能被贴上语义槽(标签)的概率，并给概率大于设定阈值的对应片段贴上语义槽(标签)。所述语义槽(标签)跟业务密切相关，一般由大量实验和/或经验确定，以导航业务为例，其语义槽包括但不限于：statrLoc(起始地)、endLoc(目的地)、viaLoc(途径地)、avoidLoc(规避地)、landmark(周边)等，各语义槽对应的标识符可以采用本领域通用的标识符，当然也可以自行设定，在此仅为示例性说明。

以下以语音识别文本为“万达附近的酒店”为例进行说明，模型预测万达为landmark，酒店为endLoc。

步骤202，将所述语音识别文本中存在语义槽的各子片段替换成对应的语义槽，得到所述语音识别文本的语义匹配路径。

在本实施例中，语义匹配路径是基于获取的语义槽将语音识别文本中被贴上语义槽的各子片段替换成语义槽名，未被贴上语义槽的各子片段仍用原始文本。如“快帮我查一下明天合肥去北京的机票好不好”，在flight业务中，“明天”、“合肥”、“北京”分别被赋予了startDate、startLoc和endLoc语义，则其语义匹配路径为“快帮我查一下startDatestartLoc去endLoc的机票好不好”。

步骤203，根据预先确定的文法规则对所述语音识别文本进行匹配，得到所述语音识别文本的文本匹配路径。

语义匹配路径能有效的区分哪些文本片段被赋予了语义，但是这样表达的信息不全面，因为仅依靠语义匹配路径不能区分没有被赋予语义的文本片段所表达的信息，例如，不同的业务通常具有固定的句式说法，而未被赋予语义的文本片段无法通过语义匹配路径反映出其是否符合各业务的句式说法。因此，需要加入文本匹配路径的信息来表示文本中每个单字在文法中的匹配情况。

在本实施例中，所述根据预先确定的文法规则对所述语音识别文本进行匹配，得到所述语音识别文本的文本匹配路径可以包括以下步骤：

步骤2031，预先设定表示句首或句尾无意义字符的通配的第一符号、表示句中无意义字符的通配的第二符号和表示有意义字符的完全匹配的第三符号。

具体采用什么符号可以自行设定，在此不做限定。在一个具体实施例中，#表示首或句尾无意义字符的通配，-表示有意义字符的完全匹配。*表示句中无意义字符的通配。需要说明的是，第一符号和第二符号也可以不进行区别表示，也就是说，无意义字符的通配也可以全部采用一种符号进行表示，具体根据需求而定。

步骤2032，将所述语音识别文本的各子片段与当前业务所支持的句式进行匹配，确定各子片段对应的符号，该符号为第一符号、第二符号或第三符号中的一种。

在此，继续以“快帮我查一下明天合肥去北京的机票好不好”为例进行说明：“明天”、“合肥”、“北京”能够完全匹配flight业务所支持的句式说法，并被赋予了有效语义，即对应第三符号“-”；其中的“帮我查一下”、“去”、“的”也能完全匹配flight业务所支持的句式说法，但是没有表达用户意图的关键信息，没有赋予语义，即对应第二符号“*”；而句首的“快”和句尾的“好不好”为语气词，没有任何含义，即对应第一符号“#”。

步骤2033，将所述语音识别文本的各子片段替换为对应的符号，得到所述语音识别文本的文本匹配路。

例如，“快帮我查一下明天合肥去北京的机票好不好”的文本匹配路径为“#*****----*--*--###”。

本发明实施例提供的语音交互方法，在进行语义理解时获取了语音识别文本的语义匹配路径和文本匹配路径，来判断不同业务匹配路径的优劣，有助于提升人机交互语义理解的正确率。

如图3所示，是本发明实施例进行置信度排序的第一种流程图。

在本实施例中，所述基于得到的语义理解结果、客户端所处应用状态进行置信度排序包括：

步骤301，预先构建排序模型，所述排序模型的输入包括：文本的词向量、语义匹配路径、文本匹配路径，以及客户端所处应用状态，所述排序模型的输出为输入的文本属于各业务的概率。

例如，可以基于输入的语音识别文本及对应的标注信息预先训练排序模型，排序模型可以为神经网络，如CNN(卷积神经网络)、DNN(深度神经网络)、RNN(循环神经网络)等。此外，还可以为SVM(支持向量机)等，在此不做限定。

在一个具体实施例中，该排序模型的具体构建过程如下步骤：

(1)确定排序模型的拓扑结构。

以下以CNN为例进行说明，将语音识别文本的文本词向量、语义匹配路径、文本匹配路径、当前客户端所处应用的状态作为排序模型的输入特征向量，经过卷积、特征映射、池化、降维等步骤，得到语音识别文本属于每个业务的得分概率。

(2)收集大量交互语音数据的识别文本作为训练数据，并对所述训练数据进行所属业务标注。

(3)提取所述训练数据的文本词向量、语义匹配路径、文本匹配路径、当前客户端所处应用的状态。

(4)利用上述特征及标注信息训练得到模型参数。

步骤302，基于所述排序模型得到所述语音识别文本属于各业务的概率。

步骤303，根据上述概率的值或者上述概率的值及阈值门限进行排序。

需要说明的是，可以仅根据各概率值的大小进行排序，得到置信度最高的语义理解结果；为了进一步保证获取的语义结果的置信度满足交互要求，还可以根据概率的值及阈值门限进行排序，这样，当得到的最高概率仍小于阈值门限时，则表明该语义理解的结果仍然不可信，需要进行拒识，以避免识别和语义产生误触发，提高对人机交互语义理解的正确率。

在其它实施例中，所述基于得到的语义理解结果、客户端所处应用状态进行置信度排序，获取置信度最高的语义理解结果包括：基于得到的语义理解结果、客户端所处应用状态、历史状态、以及与搜索数据相似度进行置信度排序，获取置信度最高的语义理解结果，其中，所述与搜索数据相似度为基于候选语义理解结果搜索的数个相似度最高的搜索数据与该候选语义理解结果的文本相似度，所述候选语义理解结果为当前业务得到的输入文本的语义理解结果。

相应地，所述排序模型的输入还包括：与搜索数据相似度、历史状态，所述历史状态包括上一时刻语义理解结果。

需要特别指出的是，虽然本轮中各业务语义理解互不干扰，但是会与历史语义中的业务产生关联。如“导航到南京”->“那儿的天气怎么样”，当前一句分发到天气业务时，与分发到的其他业务不影响，但是会继承上一轮结果导航业务中的信息(南京)。

本发明实施例提供的语音交互方法，通过预先构建的排序模型来确定输入的文本属于各业务的概率，该排序模型是基于多维度离线训练好的，便于直接利用其获取语音识别文本在各业务的语义理解结果的置信度排序。

如图4所示，是本发明实施例语音交互方法的第二种流程图。

在本实施例中，所述方法还包括以下步骤：

步骤401，在接收语音识别文本之后，对所述语音识别文本进行语言模型拒识。

具体地，考虑到车载、家居等环境非常复杂，各种环境噪声和人声干扰很容易被识别成文本，但经过大数据分析发现，这些识别文本往往不符合人们正常说话和交互的语言逻辑。因此，与传统的语义理解不同的是，本实施例中引入了语言模型的思想，在多业务语义理解前先判断输入文本为一句符合正常语言逻辑的概率，如果概率高于某个阈值(阈值大小的设置可基于经验值或大数据分析得到)，则继续后续处理，否则该句文本被拒识。如“我想听刘德华的歌”的概率明显高于“我想吃刘德华的歌”，后者应予以拒识。

相应地，所述将所述语音识别文本分别分发到各业务中包括：将未被拒识的语音识别文本分别分发到各业务中。

如图5所示，是本发明实施例语音交互方法的第三种流程图。

在本实施例中，所述方法还包括以下步骤以进一步提升语义理解效果：

步骤501，在接收语音识别文本之后，对所述语音识别文本进行业务预分类，得到所述语音识别文本的预分类业务。

具体地，可以通过模型进行业务预分类，也可以通过规则的方法进行业务预分类，当然，也可以综合多种方法进行业务预分类，在此不做限定。考虑到业务的预分类过程只是一个粗拒识过程，需要尽可能的提高召回率，优选采用模型加规则的方法进行业务预分类。

如图6所示，是本发明实施例获取预分类业务的一种流程图。所述对所述语音识别文本进行业务预分类，得到所述语音识别文本的预分类业务包括：

步骤601，对于每一个业务，预先构建该业务的预分类模型，所述预分类模型的输入为文本的词向量，输出为该文本属于该业务的概率；以及预先构建每一个业务包括的特定句式和关键词的模板的库。

步骤602，利用所述预分类模型获取所述语音识别文本或未被拒识的语音识别文本分别属于各业务的概率。

步骤603，如果该概率的值≥设定阈值，则对应的各业务作为预分类业务。

步骤604，如果该概率的值＜设定阈值，则将当前概率对应的语音识别文本或未被拒识的语音识别文本在当前概率对应的各业务的库中与进行匹配，如果匹配成功，则该库所属的业务作为预分类业务。

在一个具体实施例中，首先对于每个业务，利用大量文本，基于词向量特征离线训练预分类模型，其中，该预分类模型可以为SVM(支持向量机)，还可以为CNN(卷积神经网络)、DNN(深度神经网络)、RNN(循环神经网络)等，以下以SVM模型为例进行说明。在预分类时，文本经过每个业务的SVM模型进行预测，如果概率值大于某阈值(如0.5)，则分发到该业务；同时，对于未分发到的业务，通过预先设定的符合特定句式和关键词的模板进行匹配，如果匹配上，则分发。所有分发到的业务作为预分类业务，做多业务语义理解。该步骤在一定程度上也起到了无效语义拒识的作用，举例来说，系统支持10种交互意图的业务，通过业务预分类分发到了6个业务，则减小了其他四个业务对最终结果的干扰。

相应地，所述将所述语音识别文本分别分发到各业务中包括：将所述语音识别文本分别分发到各预分类业务中；或者将未被拒识的语音识别文本分别分发到各预分类业务中。

如图7所示，是本发明实施例进行置信度排序的第二种流程图。在本实施例中，所述方法还包括：

步骤701，在进行置信度排序之前，根据当前语音交互采集的语音信号的信噪比调整所述阈值门限，其中，随着信噪比的增加，所述阈值门限降低。

由于在车载、家居环境中进行交互时，车辆和智能家居的特性使得不仅可以获取到上述语义理解的结构和置信度排序的结果，还可以获取录音数据和前端声学信号处理的信息及结果。因此与传统语义理解系统设定固定阈值门限不同的是，本案利用车机前端声学信号处理的信噪比等信息，根据环境自适应调整门限，如信噪比高的环境，设定较低的阈值，提升系统交互成功率，在信噪比低的环境下，提高阈值门限，减少误吸收。

相应地，所述排序模型的输入还可以包括：信噪比；所述排序模型的参数包括：原始文本的权重，其中，该原始文本的权重随着信噪比的变小而变大。也就是说，如果将信噪比参数作为排序模型的一维特征输入，可以根据信噪比的大小自适应调整排序模型参数，如信噪比低时，文本层面的误吸收影响更大，我们相应的调高原始文本的权重。

相应地，本发明还提供了一种语音交互装置，如图8所示，是本发明实施例语音交互装置的第一种结构示意图。

在本实施例中，该语音交互装置可以包括：

文本接收模块801，用于接收语音识别文本。

语义理解模块802，用于将所述语音识别文本分别分发到各业务中，并分别进行语义理解。

置信度排序模块803，用于基于得到的语义理解结果、客户端所处应用状态进行置信度排序，获取置信度最高的语义理解结果。

响应模块804，用于对所述置信度最高的语义理解结果做出响应。

其中，所述语义理解模块802可以包括：

语义槽获取单元，用于获取所述语音识别文本中各子片段的语义槽。

语义匹配路径获取单元，用于将所述语音识别文本中存在语义槽的各子片段替换成对应的语义槽，得到所述语音识别文本的语义匹配路径。

优选地，所述文本匹配路径获取单元可以包括：

句式匹配子单元，用于将所述语音识别文本的各子片段与当前业务所支持的句式进行匹配，确定各子片段对应的符号，该符号为第一符号、第二符号或第三符号中的一种。

此外，所述装置还可以包括：

排序模型构建模块805，用于预先构建排序模型，所述排序模型的输入包括：文本的词向量、语义匹配路径、文本匹配路径，以及客户端所处应用状态，所述排序模型的输出为输入的文本属于各业务的概率。

所述置信度排序模块803包括：

业务概率获取单元，用于基于所述排序模型得到所述语音识别文本属于各业务的概率。

进一步地，所述排序模型的输入还可以包括：信噪比。

相应地，所述置信度排序模块803具体用于基于得到的语义理解结果、客户端所处应用状态、历史状态、以及与搜索数据相似度进行置信度排序，获取置信度最高的语义理解结果，其中，所述与搜索数据相似度为基于候选语义理解结果搜索的数个相似度最高的搜索数据与该候选语义理解结果的文本相似度，所述候选语义理解结果为当前业务得到的输入文本的语义理解结果。

如图9所示，是本发明实施例语音交互装置的第二种结构示意图。

在本实施例中，所述装置还可以包括：

语言模型拒识模块901，用于在接收语音识别文本之后，对所述语音识别文本进行语言模型拒识。

所述语义理解模块802具体用于将未被拒识的语音识别文本分别分发到各业务中，并分别进行语义理解。

本发明实施例提供的语音交互装置，通过语言模型拒识模块901对所述语音识别文本进行语言模型拒识。由于各种环境噪声和人声干扰很容易被识别成文本，但经过大数据分析发现，这些识别文本往往不符合人们正常说话和交互的语言逻辑，因此可以通过语言模型拒识部分环境噪声和人声干扰，降低识别和语义产生误触发的概率。

如图10所示，是本发明实施例语音交互装置的第三种结构示意图。

在本实施例中，所述装置还可以包括：

业务预分类模块1001，用于在接收语音识别文本之后，对所述语音识别文本进行业务预分类，得到所述语音识别文本的预分类业务。

所述语义理解模块802具体用于将所述语音识别文本分别分发到各预分类业务中，并分别进行语义理解；或者将未被拒识的语音识别文本分别分发到各预分类业务中，并分别进行语义理解。

进一步地，所述装置还可以包括：

预分类模型构建模块1002，用于对于每一个业务，预先构建该业务的预分类模型，所述预分类模型的输入为文本的词向量，输出为该文本属于该业务的概率。

句式和关键词模板库构建模块1003，用于预先构建每一个业务包括的特定句式和关键词的模板的库。

所述业务预分类模块1001包括：

业务概率获取单元，用于利用所述预分类模型获取所述语音识别文本或未被拒识的语音识别文本分别属于各业务的概率。

本发明实施例提供的语音交互装置，通过业务预分类模块1001对所述语音识别文本进行业务预分类，这样可以在一定程度上起到无效语义拒识的作用，例如，系统支持10种交互意图的业务，通过业务预分类分发到了6个业务，则减小了其他四个业务对最终结果的干扰，且能提升后续数据处理效率。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及装置；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音交互方法，其特征在于，所述方法包括：

接收语音识别文本；

对所述置信度最高的语义理解结果做出响应。

2.根据权利要求1所述的方法，其特征在于，进行语义理解包括：

获取所述语音识别文本中各子片段的语义槽；

3.根据权利要求2所述的方法，其特征在于，所述根据预先确定的文法规则对所述语音识别文本进行匹配，得到所述语音识别文本的文本匹配路径包括：

4.根据权利要求2所述的方法，其特征在于，所述基于得到的语义理解结果、客户端所处应用状态进行置信度排序包括：

根据上述概率的值或者上述概率的值及阈值门限进行排序。

5.根据权利要求4所述的方法，其特征在于，

所述基于得到的语义理解结果、客户端所处应用状态进行置信度排序，获取置信度最高的语义理解结果包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述将所述语音识别文本分别分发到各业务中包括：

将未被拒识的语音识别文本分别分发到各业务中。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

所述将所述语音识别文本分别分发到各业务中包括：

将所述语音识别文本分别分发到各预分类业务中；或者

将未被拒识的语音识别文本分别分发到各预分类业务中。

8.根据权利要求7所述的方法，其特征在于，所述对所述语音识别文本进行业务预分类，得到所述语音识别文本的预分类业务包括：

9.根据权利要求4所述的方法，其特征在于，所述方法还包括：

10.根据权利要求4所述的方法，其特征在于，所述排序模型的输入还包括：信噪比；

11.一种语音交互装置，其特征在于，所述装置包括：

文本接收模块，用于接收语音识别文本；

12.根据权利要求11所述的装置，其特征在于，所述语义理解模块包括：

13.根据权利要求12所述的装置，其特征在于，所述文本匹配路径获取单元包括：

14.根据权利要求12所述的装置，其特征在于，所述装置还包括：

所述置信度排序模块包括：

15.根据权利要求14所述的装置，其特征在于，

所述置信度排序模块具体用于基于得到的语义理解结果、客户端所处应用状态、历史状态、以及与搜索数据相似度进行置信度排序，获取置信度最高的语义理解结果，其中，所述与搜索数据相似度为基于候选语义理解结果搜索的数个相似度最高的搜索数据与该候选语义理解结果的文本相似度，所述候选语义理解结果为当前业务得到的输入文本的语义理解结果；

16.根据权利要求11所述的装置，其特征在于，所述装置还包括：

17.根据权利要求16所述的装置，其特征在于，所述装置还包括：

18.根据权利要求17所述的装置，其特征在于，所述装置还包括：

所述业务预分类模块包括：

19.根据权利要求14所述的装置，其特征在于，所述装置还包括：

信噪比获取模块，用于采集当前信噪比信息；

20.根据权利要求14所述的装置，其特征在于，所述排序模型的输入还包括：信噪比；