CN107665706B

CN107665706B - 快速语音交互方法及系统

Info

Publication number: CN107665706B
Application number: CN201610616071.3A
Authority: CN
Inventors: 吴奎; 陈凌辉; 黄鑫; 陈志刚; 王智国; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2016-07-29
Filing date: 2016-07-29
Publication date: 2021-05-04
Anticipated expiration: 2036-07-29
Also published as: CN107665706A

Abstract

本发明公开了一种快速语音交互方法及系统，该方法包括：实时接收用户语音输入；对语音输入信息进行实时语音识别，得到语音识别结果；基于预先构建的语义理解模型对当前语音识别结果进行实时语义理解，得到模型输出结果；根据所述模型输出结果确定是否有正确完整的语义理解结果；如果是，则根据所述语义理解结果生成交互结果，并将所述交互结果反馈给用户；否则，继续对语音输入信息进行实时语音识别。本发明可以减小语音交互的反馈延迟，提升用户体验。

Description

快速语音交互方法及系统

技术领域

本发明涉及语音信号处理、人机交互领域，具体涉及一种快速语音交互方法及系统。

背景技术

随着人工智能技术的进步，人机语音交互也取得了长足的发展，各种语音助手APP和人机交互机器人大肆兴起。这些语音助手和机器人与用户进行交互的流程通常如下：

(1)通过语音或者设定操作进行唤醒；

(2)通过语音后端点检测判断用户是否说完；

(3)检测到用户说完后，将识别结果传入语义理解引擎，进行语义理解；

(4)根据语义理解结果，系统做出响应。

在上述流程中，语音识别和语义理解是串行进行的，即系统检测到语音后端点后才将语音识别结果送入语义理解引擎。语音后端点检测需要设定静寂时长，通常为0.8s-1.8s之间，因此从用户真正说完的时间点到获得系统返回交互理解结果的时间，不考虑语义理解引擎耗时，至少存在一个静寂时长这样一个硬延迟。且在噪声环境下，后端点检测精度不高，会带来更大的硬延迟，影响用户体验。

发明内容

本发明提供一种快速语音交互方法及系统，以减小语音交互的反馈延迟，提升用户体验。

为此，本发明提供如下技术方案：

一种快速语音交互方法，包括：

实时接收用户语音输入；

对语音输入信息进行实时语音识别，得到语音识别结果；

基于预先构建的语义理解模型对当前语音识别结果进行实时语义理解，得到模型输出结果；

根据所述模型输出结果确定是否有正确完整的语义理解结果；

如果是，则根据所述语义理解结果生成交互结果，并将所述交互结果反馈给用户；

否则，继续对语音输入信息进行实时语音识别。

优选地，所述方法还包括按以下方式构建所述语义理解模型：

确定模型拓扑结构；

收集人机交互文本数据作为训练数据；

对所述训练数据中用户提问或回答语句文本进行分词，并以单轮回答或提问为单位，获取分词词串；

对所述分词词串中的每个词，依据对话历史信息，依次对语义理解结果进行赋值，并标注业务类别、以及信息槽或状态槽，直至已标注词串能够表达一个正确完整的信息输入时，停止标注并丢弃后续的词串；

基于训练数据及其赋值信息和标注信息，训练得到语义理解模型。

优选地，所述模型拓扑结构采用RNN模型，包括输入层、中间隐层和输出层；

所述输入层的输入包括：当前词的词向量w_n(t)、截止到上一个词的隐层向量h(t-1)、对话历史信息，其中，所述对话历史信息包括：截止到上一个词语义理解后的业务分类信息c(t-1)、以及信息槽填充情况s(t-1)或状态槽填充情况st(t-1)；

所述输出层的输出包括：语义理解结果p(t)。

优选地，所述输出层的输出还包括：截止到当前词语义理解后的业务分类信息c(t)、以及截止到当前词语义理解后的信息槽填充情况s(t)或状态槽填充情况st(t)；或者

所述方法还包括：利用文法匹配的方式得到所述对话历史信息。

优选地，所述信息槽填充情况s(t)为二值一维向量。

优选地，所述基于预先构建的语义理解模型对所述实时语音识别结果进行实时语义理解，得到模型输出结果包括：

获取所述实时语音识别结果中的当前词及其词向量w_n(t)；

将当前词向量w_n、截止到上一个词的隐层向量h(t-1)、、以及对话历史信息输入所述语义理解模型，得到模型输出的截止到当前词的语义理解结果p(t)。

优选地，所述根据所述语义理解结果生成交互结果具体为：根据所述语义理解结果生成响应文本；

所述将所述交互结果反馈给用户包括：通过语音播报的方式将所述响应文本反馈给用户。

优选地，所述根据所述语义理解结果生成响应文本包括：

根据所述业务分类信息c(t)，获得得分最高的业务；

根据所述信息槽填充情况s(t)查找所述得分最高的业务对应的信息槽填充情况；

如果所述得分最高的业务对应的信息槽均已填充，则生成应答文本；

否则，根据所述得分最高的业务对应的未填充的信息槽，生成提问文本。

一种快速语音交互系统，包括：

接收模块，用于实时接收用户语音输入；

语音识别模块，用于对语音输入信息进行实时语音识别，得到语音识别结果；

语义理解模块，用于基于预先构建的语义理解模型对当前语音识别结果进行实时语义理解，得到模型输出结果；

判断模块，用于根据所述模型输出结果确定是否有正确完整的语义理解结果；如果是，则触发响应模块根据所述语义理解结果生成交互结果；否则，触发所述语音识别模块继续对语音输入信息进行实时语音识别；

所述响应模块，用于根据所述语义理解结果生成交互结果；

反馈模块，用于将所述交互结果反馈给用户。

优选地，所述系统还包括语义理解模型构建模块，用于构建所述语义理解模型；所述语义理解模型构建模块包括：

拓扑结构确定单元，用于确定模型拓扑结构；

训练数据收集单元，用于收集人机交互文本数据作为训练数据；

分词单元，用于对所述训练数据中用户提问或回答语句文本进行分词，并以单轮回答或提问为单位，获取分词词串；

标注单元，用于对所述分词词串中的每个词，依据对话历史信息，依次对语义理解结果进行赋值，并标注业务类别、以及信息槽或状态槽，直至已标注词串能够表达一个正确完整的信息输入时，停止标注并丢弃后续的词串；

训练单元，用于基于训练数据及其赋值信息和标注信息，训练得到语义理解模型。

所述输出层的输出包括：语义理解结果p(t)。

所述语义理解模型构建模块还包括：

对话历史信息获取单元，用于利用文法匹配的方式得到对话历史信息。

优选地，所述信息槽填充情况s(t)为二值一维向量。

优选地，所述语义理解模块，具体用于获取当前语音识别结果中的当前词及其词向量w_n(t)，将当前词向量w_n(t)、截止到上一个词的隐层向量h(t-1)、以及对话历史信息输入所述语义理解模型，得到模型输出的语义理解结果p(t)。

优选地，所述响应模块，具体用于根据所述语义理解结果生成响应文本；

所述反馈模块，具体用于通过语音播报的方式将所述响应文本反馈给用户。

优选地，所述响应模块包括：

业务确定单元，用于根据所述业务分类信息c(t)，获得得分最高的业务；

查找单元，用于根据所述信息槽填充情况s(t)查找所述得分最高的业务对应的信息槽填充情况；

文本生成单元，用于在所述得分最高的业务对应的信息槽均已填充时，生成应答文本；否则，根据所述得分最高的业务对应的未填充的信息槽，生成提问文本。

本发明实施例提供的快速语音交互方法及系统，通过并行地进行实时语音识别和语义理解，可以更快速地获取用户输入语音的语义信息，进而可以更快速地对用户要求进行响应，且响应内容可以根据用户输入语音的语义信息合理设计。相较于传统的语音交互方案，本发明实施例的快速语音交互方法及系统能对实时的语音识别结果进行实时语义理解，一旦得到正确完整的语义理解结果后，即可立即做出响应，从而可以快速实现自然多轮交互，最大程度上降低了语音交互系统的响应延迟，提升了用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例中构建语义理解模型的流程图；

图2是本发明实施例中语义理解模型的拓扑结构示意图；

图3是本发明实施例中业务分类示意图；

图4是本发明实施例快速语音交互方法的流程图；

图5是本发明实施例快速语音交互系统的一种结构示意图；

图6是本发明实施例中语义理解模型构建模块的一种具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

在人与人之间的对话过程中，对话双方在实时获得对方说话内容的同时，会对对话内容进行理解，能够无延迟地响应对方说话内容。鉴于此，为了实现接近真实人人交互的人机交互，本发明提出了一种快速语音交互方法及系统，基于实时语义理解实现人机交互并支持多轮对话，缓解了语音后端点检测带来的硬延迟，从而减小了交互系统的反馈延迟，提升了用户体验。

例如，有下面的人机交互需求：

人：我想订一张票

机：您想订火车票还是飞机票

人：火车票

机：好的，你想从哪里出发，到哪里？

这个例子中，在“机器”已经知道“用户”的需求是订票的情况下，“用户”在说火车票时，“机器”只要听到前面火车两字就知道“用户”是要订火车票，“机器”即可做出响应，无需等待“用户”全部说完。

具体地，在本发明实施例中，对实时语音识别结果，基于预先构建的语义理解模型进行实时语义理解，得到模型输出结果，根据所述模型输出结果判断如果有正确完整的语义理解结果，则生成响应文本并通过语音播报的方式将所述响应文本反馈给用户；否则，继续对语音输入信息进行实时语音识别。

下面首先对所述语义理解模型的构建过程进行详细说明。

如图1所示，是本发明实施例中构建语义理解模型的流程图，包括以下步骤：

步骤101，确定模型拓扑结构。

所述模型拓扑结构采用RNN(Recurrent Neural Networks，循环神经网络)，如图2所示示例，包括输入层、中间隐层和输出层。其中：输入层的输入包括：当前词的词向量w_n(t)、截止到上一个词的隐层向量h(t-1)、截止到上一个词语义理解后的业务分类信息c(t-1)和信息槽填充情况s(t-1)；输出层的输出包括三部分：截止到当前词的语义理解后的业务分类信息c(t)和信息槽填充情况s(t)、语义理解结果p(t)。

下面对本发明实施例中的语义理解模型各层进行详细说明。

1.输入层包括以下几部分：

(1)当前词的词向量w_n(t)，即实时语音识别时当前新获得的词w_n对应的词向量。具体可以使用word2vect方式，将其映射成一个词向量w_n(t)，该向量一般为50-100维，比如在可以为80维。

(2)RNN模型截止到上一个词w_n-1的隐层向量h(t-1)，该向量一般为512-2048维，比如可以取为1024维。

(3)对话历史信息，具体包括：截止到上一个词语义理解后的业务分类信息c(t-1)、以及信息槽填充情况s(t-1)或状态槽填充情况st(t-1)，也就是说，针对不同的业务应用，对话历史信息可以包括c(t-1)和s(t-1)，或者对话历史信息可以包括c(t-1)和st(t-1)。其中：

本次交互中，截止到上一个词w_n-1语义理解后的业务分类信息，用向量c(t-1)表示。如果业务的个数为N，则该向量大小为N+1，相当于增加了一个额外的业务，该额外业务表示用户当前交互没有任何意图。交互刚开始时，业务概率都为0。比如图3所示，对于订票业务，可以将业务分成两级，其中一级业务为订票，二级业务如火车票、汽车票、飞机票、电影票这四个订票业务；其他一级业务如查天气、音乐、闲聊等对应的二级业务就是自身。

需要说明的是，向量c(t-1)表示的是属于相应二级业务的概率。比如，如果用户输入“我想订一张票”，此时属于订票业务，则向量c(t-1)中订票一级业务下的四种二级业务火车票、汽车票、飞机票、电影票对应维的概率为0.25，其余业务类别下的二级业务对应概率为0。

所述信息槽表示业务当前所包含的信息单元，如当前业务为订火车票业务，当前业务所包含的信息单元为出发地、目的地、出发时间、座次。本次交互中，截止到上一个词w_n-1的信息槽填充情况，用一个二值向量s(t-1)表示，其维数为所有信息槽的个数，作为对话历史的表示。比如对于订火车票业务，涉及的信息单元包括出发地、目的地、出发时间、座次，因此信息槽的填充情况可以用一个大小为4的一维二值向量进行表示，1表示对应的信息单元的值已经确定，0表示没有确定。语音交互刚开启时，所有的信息槽中向量的值均为0。比如，对于用户语音输入的“我想订一张票”，此时不涉及到相关业务下的任何信息槽，所有信息槽都为0；对于后续的交互，如果用户需要订火车票业务，用户语音输入“从北京到合肥”，则在语义理解到“京”时，订火车票业务下的“出发城市”的信息槽为1，在语义理解到“肥”时，订火车票业务下的“出发城市”和“目的城市”的信息槽为1，其余依旧为0。

需要说明的是，信息槽向量由两部分构成：业务共享的信息槽和业务独有的信息槽。如火车和航班查询业务，出发城市、目的城市、出发时间这些信息槽是可以共享的，但火车查询业务和航班查询业务都还有各自独立的信息槽，如火车查询业务有车次信息槽，航班查询业务有航空公司信息槽。

另外，需要说明的是，在一次交互中(包括一次单轮交互和一次多轮交互)，只要业务类型未发生改变，信息槽的内容就不需要重置，而如果业务类型发生了改变：一种是一级业务类型未变，只是二级业务类型发生了改变，此时，公共信息槽信息保留，而二级业务独有的信息槽信息进行清空；另一种是一级业务类型发生了改变，那么依据前面语音内容填充的信息槽信息都清空。

在本发明实施例中，所述状态槽表示业务当前的状态信息。本次交互中，截止到上一个词w_n-1的状态槽填充情况，使用二值向量st(t-1)表示，其中1表示状态被填充，0表示状态未被填充，大小为业务的状态总数。如音乐业务中，业务所处的状态可以为“初始状态、播放状态、暂停状态”，所述业务状态槽大小为3；如用户说“放一首刘德华的忘情水”，则业务的“播放状态”被填充。

2.中间隐层h(t)：该向量一般为512-2048维，比如可以取为1024维。

3.输出层包括：

截止到当前词w_n语义理解后的语义理解结果p(t)。语义理解结果p(t)可以是一个大小为1的一维二值向量，其中一个值(比如1)表示截止到词w_n其语义是一个正确且完整的语义理解结果，而另一个值(比如0)则表示不是一个正确且完整的语义理解结果；语义理解结果p(t)还可以是截止到词w_n其语义是一个正确且完整的语义理解结果的得分，如果该得分大于设定阈值，则表明截止到词w_n其语义是一个正确且完整的语义理解结果，否则不是一个正确且完整的语义理解结果。

需要说明的是，在实际应用中，所述对话历史信息可以由文法匹配的方法得到，如“帮我订一张火车票，从合肥到北京”，通过文法“帮我订张train_ticket，从from-city到to-city”，对用户语音数据识别结果进行匹配后，可以得到业务类型为订火车票业务，出发城市和目的城市分别为合肥和北京，相应的出发地和目的地信息槽被填充；所述对话历史信息也可以由语义理解模型的输出得到，即在语义理解模型的输出层的输出中增加以下信息：截止到当前词w_n语义理解后的业务分类信息c(t)、以及截止到当前词w_n语义理解后的信息槽填充情况s(t)或状态槽填充情况st(t)。

步骤102，收集人机交互文本数据作为训练数据。

在构建语义理解模型时，需要收集大量人机交互的文本数据，比如收集5000轮人机交互数据。

步骤103，对所述训练数据中用户提问或回答语句文本进行分词，并以单轮回答或提问为单位，获取分词词串。

步骤104，对所述分词词串中的每个词，依据对话历史信息，依次对语义理解结果进行赋值，并标注业务类别、以及信息槽或状态槽，直至已标注词串能够表达一个正确完整的信息输入时，停止标注并丢弃后续的词串。

比如，获得分词词串w(N)＝w₁、w₂、…、w_N，对于其中每个词w_n，依据对话历史信息，对语义理解结果p(t)进行0、1赋值，并标注信息槽和业务类别。当词串ws(n)＝w₁w₂…w_n能够表达一个正确完整的信息输入时，停止标注，丢弃后面的词串。

例如：机器提问“你需要订什么票”，用户有以下几种回答：

用户第一种回答“汽车票”，此时词串到“汽车”就能够表达一个正确完整的信息输入，后面的“票”就可以不用再作标注；

用户第二种回答“汽车票，哦不，火车票吧”，此时词串到“汽车票，哦不，火车”就能够表达一个正确完整的信息输入，后面的“票”就可以不用再作标注；

用户第三种回答“汽车票，哦你最近在干什么啊”，此时词串到“汽车”就能够表达一个正确完整的信息输入，后面的“票，哦你最近在干什么啊”就可以不用再作标注。

步骤105，基于训练数据及其赋值信息和标注信息，训练得到语义理解模型。

对于语义理解RNN模型的训练，可以采用现有的RNN模型训练方法，具体训练过程在此不再详细描述。

如图4所示，是本发明实施例快速语音交互方法的流程图，包括以下步骤：

步骤401，实时接收用户语音输入。

步骤402，对语音输入信息进行实时语音识别，得到语音识别结果。

所述实时语音识别即实时识别出截止到当前时刻用户所说的内容。具体地，由声学模型和语言模型构成解码网络，解码网络包含截止到当前时刻，所有候选的识别结果路径，从当前时刻选取解码得分最大的识别结果路径作为当前时刻的识别结果。接收到新输入的语音后，重新选取得分最大的识别结果路径，并更新之前的识别结果。

步骤403，基于预先构建的语义理解模型对当前语音识别结果进行实时语义理解，得到模型输出结果。

具体地，对最新识别的词w_n，获取其词向量w_n(t)，截止到上一个词w_n-1语的隐层向量h(t-1)，另外还需要获取对话历史信息，即截止到上一个词w_n-1语义理解后的业务分类信息c(t-1)、以及截止到上一个词w_n-1语义理解后的信息槽填充信息s(t-1)或状态槽填充信息st(t-1)，将上述这些信息作为语义理解模型的输入，得到在获得词当前词w_n语义理解后的语义理解结果p(t)。在其它实施例中，模型输出结果还可以包括：业务分类信息c(t)、以及信息槽填充信息s(t)或状态槽填充信息st(t)。

步骤404，根据所述模型输出结果确定是否有正确完整的语义理解结果。如果是，则执行步骤405；否则执行步骤402，继续对语音输入信息进行实时语音识别。

前面提到，语义理解模型的输出中的语义理解结果p(t)可以是一个大小为1的一维二值向量，其中一个取值表示截止到词w_n其语义是一个正确且完整的语义理解结果，如使用1表示，而另一个取值则表示不是一个正确且完整的语义理解结果，如使用0表示；语义理解结果p(t)还可以是截止到词w_n其语义是一个正确且完整的语义理解结果的得分，如果该得分大于设定阈值，则确定截止到词w_n有正确完整的语义理解结果。

步骤405，根据所述语义理解结果生成交互结果，并将所述交互结果反馈给用户。

所述交互结果可以是响应文本，也可以是对应所述语义理解结果的一个具体操作。对此本发明实施例不做限定。如果是响应文本，可以通过语音播报的方式将所述响应文本反馈给用户；如果是一个具体操作，可以将该操作的结果呈现给用户。

在生成响应文本时，可以首先根据业务分类信息，获得得分最高的业务，作为用户的真实意图，然后查找该业务对应的信息槽填充情况；如果该业务对应的信息槽均已填充，则生成应答文本，比如对于查询操作，执行相应的操作获得查询结果，根据该查询结果生成应答文本；否则，根据该业务对应的未填充的信息槽，生成提问文本，通过语音播报的方式反馈给用户，要求用户补充信息，直到这些信息槽被填满，完成完整的交互。

以订火车票业务为例，其包括出发地、目的地、出发时间、座次四个信息槽，交互开始后，当用户说了“我想订一张明天的火车票”，经过语义理解模型后，信息槽向量的填充情况为(0,0,1,0)，该情况表明出发地、目的地和座次对应的信息槽的值缺失，因此可以向用户提问，比如生成提问文本“您想从什么地方到什么地方”，从而使用户继续语音交互，以确定目的地和出发地。

需要说明的是，在实际应用中，可以预先建立针对不同业务信息槽填充情况的提问文本，比如将这些文本保存在一个文本库中，在需要生成提问文本时，根据业务分类类型及信息槽填充情况，查询文本库，得到相应的提问文本。

本发明实施例提供的快速语音交互方法，可以应用于单轮交互模式或多轮交互模式中，在单轮交互中，如果得到完整的语义理解结果，则可以不再继续接收用户语音；在多轮交互中，如果得到完整的语义理解结果，则可以不再继续接收以当前词为结尾的子句后面的语音，但需要接收下一句的语音，具体可以通过VAD(语音活动侦测)检测，判断句子是否结束。

本发明实施例提供的快速语音交互方法，通过并行地进行实时语音识别和语义理解，可以更快速地获取用户输入语音的语义信息，进而可以更快速地对用户要求进行响应，且响应内容可以根据用户输入语音的语义信息合理设计。相较于传统的语音交互方案，本发明实施例的快速语音交互方法能对实时的语音识别结果进行实时语义理解，一旦得到正确完整的语义理解结果后，即可立即做出响应，实现自然多轮交互，最大程度上降低了语音交互的响应延迟，提升了用户体验。

相应地，本发明实施例还提供一种快速语音交互系统，如图5所示，是该系统的一种结构示意图。

在该实施例中，所述系统包括：

接收模块501，用于实时接收用户语音输入；

语音识别模块502，用于对语音输入信息进行实时语音识别，得到语音识别结果；

语义理解模块503，用于基于预先构建的语义理解模型500对当前语音识别结果进行实时语义理解，得到模型输出结果；

判断模块504，用于根据所述模型输出结果确定是否有正确完整的语义理解结果；如果是，则触发响应模块505根据所述语义理解结果生成交互结果；否则，触发所述语音识别模块502继续对语音输入信息进行实时语音识别；

所述响应模块505，用于根据所述语义理解结果生成交互结果；

反馈模块506，用于将所述交互结果反馈给用户。

在实际应用中，所述语义理解模型可以由语义理解模型构建模块离线构建，语义理解模型构建模块可以独立于本发明实施例的快速语音交互系统，也可以集成于该系统中，对此本发明不做限定。

如图6所示，是本发明实施例中语义理解模型构建模块的一种具体结构示意图，包括以下各单元：

拓扑结构确定单元61，用于确定模型拓扑结构；所述模型拓扑结构采用RNN模型，包括输入层、中间隐层和输出层；所述输入层的输入包括：当前词的词向量w_n(t)、截止到上一个词的隐层向量h(t-1)、对话历史信息，其中，所述对话历史信息包括：截止到上一个词语义理解后的业务分类信息c(t-1)、以及信息槽填充情况s(t-1)或状态槽填充情况st(t-1)；所述输出层的输出包括：语义理解结果p(t)。其中，信息槽填充情况s(t)为二值一维向量，语义理解结果p(t)为一维向量；

需要说明的是，在实际应用中，所述对话历史信息可以由语义模型的输出直接得到，即在语义模型的输出中还进一步包括：截止到当前词语义理解后的业务分类信息c(t)、以及截止到当前词语义理解后的信息槽填充情况s(t)或状态槽填充情况st(t)。所述对话历史信息还可以由相应的对话历史信息获取单元(图中未示)利用文法匹配的方式得到对话历史信息。

训练数据收集单元62，用于收集人机交互文本数据作为训练数据；

分词单元63，用于对所述训练数据中用户提问或回答语句文本进行分词，并以单轮回答或提问为单位，获取分词词串；

标注单元64，用于对所述分词词串中的每个词，依据对话历史信息，依次对语义理解结果进行赋值，并标注业务类别、以及信息槽或状态槽，直至已标注词串能够表达一个正确完整的信息输入时，停止标注并丢弃后续的词串；

训练单元65，用于基于训练数据及其赋值信息和标注信息，训练得到语义理解模型。

相应地，上述语义理解模块503具体用于获取当前语音识别结果中的当前词及其词向量w_n(t)，将当前词向量w_n(t)、截止到上一个词的隐层向量h(t-1)、以及对话历史信息输入所述语义理解模型，得到模型输出的语义理解结果p(t)。

所述响应模块505生成的交互结果可以是响应文本，也可以是对应所述语义理解结果的一个具体操作。对此本发明实施例不做限定。如果是响应文本，所述反馈模块506可以通过语音播报的方式将所述响应文本反馈给用户；如果是一个具体操作，所述反馈模块506可以将该操作的结果呈现给用户。

上述响应模块505的一种具体结构可以包括以下各单元：

本发明实施例提供的快速语音交互系统，通过并行地进行实时语音识别和语义理解，可以更快速地获取用户输入语音的语义信息，进而可以更快速地对用户要求进行响应，且响应内容可以根据用户输入语音的语义信息合理设计。相较于传统的语音交互系统，本发明实施例的快速语音交互系统能对实时的语音识别结果进行实时语义理解，一旦得到正确完整的语义理解结果后，系统可以及时地做出响应，实现自然多轮交互，最大程度上降低了交互系统的响应延迟，提升了用户体验。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种快速语音交互方法，其特征在于，包括：

实时接收用户语音输入；

对语音输入信息进行实时语音识别，得到语音识别结果；

根据所述模型输出结果确定是否有正确完整的语义理解结果，包括：根据截止到当前词的语义理解结果的向量取值或者得分，确定语义理解是否正确且完整；

否则，继续对语音输入信息进行实时语音识别。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括按以下方式构建所述语义理解模型：

确定模型拓扑结构；

收集人机交互文本数据作为训练数据；

3.根据权利要求2所述的方法，其特征在于，所述模型拓扑结构采用RNN模型，包括输入层、中间隐层和输出层；

所述输出层的输出包括：语义理解结果p(t)。

4.根据权利要求3所述的方法，其特征在于，所述输出层的输出还包括：截止到当前词语义理解后的业务分类信息c(t)、以及截止到当前词语义理解后的信息槽填充情况s(t)或状态槽填充情况st(t)；或者

5.根据权利要求3所述的方法，其特征在于，所述信息槽填充情况为二值向量。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述基于预先构建的语义理解模型对所述实时语音识别结果进行实时语义理解，得到模型输出结果包括：

获取所述实时语音识别结果中的当前词及其词向量w_n(t)；

将当前词向量w_n、截止到上一个词的隐层向量h(t-1)、以及对话历史信息输入所述语义理解模型，得到模型输出的截止到当前词的语义理解结果p(t)。

7.根据权利要求1至5任一项所述的方法，其特征在于，

所述根据所述语义理解结果生成交互结果具体为：根据所述语义理解结果生成响应文本；

8.根据权利要求7所述的方法，其特征在于，所述根据所述语义理解结果生成响应文本包括：

根据所述业务分类信息c(t)，获得得分最高的业务；

9.一种快速语音交互系统，其特征在于，包括：

接收模块，用于实时接收用户语音输入；

判断模块，用于根据所述模型输出结果确定是否有正确完整的语义理解结果，包括：根据截止到当前词的语义理解结果的向量取值或者得分，确定语义理解是否正确且完整；如果是，则触发响应模块根据所述语义理解结果生成交互结果；否则，触发所述语音识别模块继续对语音输入信息进行实时语音识别；

所述响应模块，用于根据所述语义理解结果生成交互结果；

反馈模块，用于将所述交互结果反馈给用户。

10.根据权利要求9所述的系统，其特征在于，所述系统还包括语义理解模型构建模块，用于构建所述语义理解模型；所述语义理解模型构建模块包括：

拓扑结构确定单元，用于确定模型拓扑结构；

11.根据权利要求10所述的系统，其特征在于，所述模型拓扑结构采用RNN模型，包括输入层、中间隐层和输出层；

所述输出层的输出包括：语义理解结果p(t)。

12.根据权利要求11所述的系统，其特征在于，所述输出层的输出还包括：截止到当前词语义理解后的业务分类信息c(t)、以及截止到当前词语义理解后的信息槽填充情况s(t)或状态槽填充情况st(t)；或者

所述语义理解模型构建模块还包括：

13.根据权利要求11所述的系统，其特征在于，所述信息槽填充情况为二值向量。

14.根据权利要求9至13任一项所述的系统，其特征在于，

所述语义理解模块，具体用于获取当前语音识别结果中的当前词及其词向量w_n(t)，将当前词向量w_n(t)、截止到上一个词的隐层向量h(t-1)、以及对话历史信息输入所述语义理解模型，得到模型输出的语义理解结果p(t)。

15.根据权利要求9至13任一项所述的系统，其特征在于，

所述响应模块，具体用于根据所述语义理解结果生成响应文本；

16.根据权利要求15所述的系统，其特征在于，所述响应模块包括：