CN107665704B

CN107665704B - 语音指令检测模型构建方法、检测方法及系统、人机交互方法及设备

Info

Publication number: CN107665704B
Application number: CN201610615977.3A
Authority: CN
Inventors: 吴奎; 陈凌辉; 黄鑫; 陈志刚; 王智国; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2016-07-29
Filing date: 2016-07-29
Publication date: 2020-09-11
Anticipated expiration: 2036-07-29
Also published as: CN107665704A

Abstract

本发明公开了一种语音指令检测模型构建方法，该方法包括：确定语音指令检测模型的拓扑结构；收集大量人机交互的语音数据及其对应的识别文本；对所述识别文本中用户提问或回答语句文本进行分词，并以单轮回答或提问为单位，获取分词词串；对所述分词词串中的每个词，依据对话历史信息，依次对各词进行语音指令结束点赋值，并标注业务类别、以及信息槽或状态槽；利用所述识别文本及其赋值信息和标注信息，训练得到语音指令检测模型的参数。本发明还公开了一种语音指令检测方法及系统、以及一种人机交互方法及设备。本发明可以提高语音指令点检测的准确性，进而提高人机交互过程中机器响应的成功率及响应速度。

Description

语音指令检测模型构建方法、检测方法及系统、人机交互方法及设备

技术领域

本发明涉及语音信号处理、人机交互领域，具体涉及一种语音指令检测模型构建方法、一种语音指令检测方法及系统、以及一种人机交互方法及设备。

背景技术

随着人工智能技术的进步，人机语音交互也取得了长足的发展，各种语音助手APP和人机交互机器人大肆兴起。这些语音助手和机器人与用户进行交互的流程通常如下：

(1)通过语音或者设定操作进行唤醒；

(2)通过语音数据的停顿时长判断用户是否说完；

(3)检测到用户说完后，将识别结果传入语义理解引擎，进行语义理解；

(4)根据语义理解结果，系统做出响应。

现有交互系统中，仅通过语音数据的停顿时长检测语音指令的结束点，确定交互指令是否完整，为此需要设定停顿时长阈值，判断应用是否说完，即根据语音数据的停顿时长是否大于阈值来确定语音指令结束点的位置，得到相应语音指令后，进行语音识别及自然语言理解，给出相应反馈。这种设定硬性阈值的方式会导致由于语音指令内部的长停顿导致语音指令被截断的情况，严重影响语音识别及语义理解；此外，当语音数据中存在噪声等干扰因素时，很难准确检测到语音数据的停顿位置，造成语音指令结束点检测产生较大延迟，严重影响用户体验。

发明内容

针对上述现有技术通过语音数据的停顿时长进行语音指令结束点检测存在的问题，本发明一方面提供一种语音指令检测模型构建方法、以及一种基于语音指令检测模型的语音指令检测方法及系统，以避免由于语音指令内部的长停顿导致语音指令被截断的问题，并防止噪声等干扰因素对语音指令结束点检测的影响。

本发明另一方面提供一种人机交互方法及设备，以提高人机交互过程中机器响应的成功率及响应速度。

为此，本发明实施例提供如下技术方案：

一种语音指令检测模型构建方法，包括：

确定语音指令检测模型的拓扑结构；

收集大量人机交互的文本数据作为训练数据；

对所述训练数据中用户提问或回答语句文本进行分词，并以单轮回答或提问为单位，获取分词词串；

对所述分词词串中的每个词，依据对话历史信息，依次对各词进行语音指令结束点赋值，并标注业务类别、以及信息槽或状态槽，所述信息槽表示业务当前所包含的信息单元，所述状态槽表示业务当前的状态信息；

利用所述训练数据及其赋值信息和标注信息，训练得到语音指令检测模型的参数。

优选地，所述语音指令检测模型的拓扑结构采用RNN模型，包括输入层、中间隐层和输出层；

所述输入层的输入包括：当前词的词向量w_n(t)、截止到上一个词的隐层向量h(t-1)、对话历史信息，其中，所述对话历史信息包括：截止到上一个词的业务分类信息c(t-1)、以及信息槽填充情况s(t-1)或状态槽填充情况st(t-1)；所述输出层的输出包括：检测结果p(t)，所述检测结果p(t)具体为当前词为语音指令结束点的概率得分、或者为表征当前词是否为语音指令结束点的数值。

优选地，所述输出层的输出还包括：截止到当前词的业务分类信息c(t)、以及信息槽填充情况s(t)或状态槽填充情况st(t)。

优选地，所述方法还包括：

利用文法匹配的方式得到所述对话历史信息。

一种语音指令检测方法，应用于人机交互过程，包括：

实时接收用户语音数据，并对所述语音数据进行实时语音识别，得到识别文本；

依次对当前识别文本中的各词，基于上述的语音指令检测模型进行语音指令检测，得到模型输出的检测结果；

根据所述检测结果确定语音指令结束点。

优选地，所述检测结果具体为当前词为语音指令结束点的概率得分，并将该概率得分作为第一得分；

所述方法还包括：

基于当前识别文本对应的语音数据的声学信息确定当前词为语音指令结束点的概率得分，并将该概率得分作为第二得分；

所述根据所述检测结果确定语音指令结束点包括：

对第一得分和第二得分进行融合，得到综合得分；

如果所述综合得分大于设定阈值，则确定当前词为语音指令结束点。

优选地，所述基于当前识别文本对应的语音数据的声学信息确定当前词为语音指令结束点的概率得分包括：

根据当前识别文本对应的语音数据获取当前词的停顿时长；

对当前词的停顿时长进行量化处理，得到当前词的量化停顿时长；

根据当前词的量化停顿时长确定当前词为语音指令结束点的概率得分。

优选地，所述方法还包括：

预先利用统计方法建立量化停顿时长与语音指令结束点概率的对应关系表；

所述根据当前词的量化停顿时长确定当前词为语音指令结束点的概率得分包括：

根据当前词的量化停顿时长查找所述对应关系表，得到当前词为语音指令结束点的概率得分。

一种人机交互方法，包括：

依次对当前识别文本中的各词，基于上述的语音指令检测模型进行语音指令检测，以确定当前词是否为语音指令结束点，得到第一检测结果；

根据检测结果确定当前词是否为语音指令结束点；

如果是，则对以当前词为结束点的子句进行语义理解，得到语义理解结果；

根据所述语义理解结果生成交互结果。

优选地，所述第一检测结果具体为当前词为语音指令结束点的概率得分；

所述方法还包括：

基于当前识别文本对应的语音数据的声学信息确定当前词为语音指令结束点的概率得分，并将该概率得分作为第二检测结果；

所述根据检测结果确定当前词是否为语音指令结束点包括：

对第一检测结果和第二检测结果进行融合，得到综合得分；

如果所述综合得分大于设定的判断阈值，则确定当前词为语音指令结束点。

优选地，所述方法还包括：

将所述交互结果反馈给用户。

优选地，所述交互结果为响应文本；

所述将所述交互结果反馈给用户包括：

通过语音播报的方式将所述响应文本反馈给用户。

一种语音指令检测系统，应用于人机交互过程，包括：

语音识别模块，用于实时接收用户语音数据，并对所述语音数据进行实时语音识别，得到识别文本；

语义检测模块，用于依次对当前识别文本中的各词，基于上述的语音指令检测模型进行语音指令检测，得到模型输出的检测结果；

检测结果确定模块，用于根据所述检测结果确定语音指令结束点。

优选地，所述检测结果具体为当前词为语音指令结束点的概率得分，该概率得分作为第一得分；

所述系统还包括：

声学检测模块，用于基于当前识别文本对应的语音数据的声学信息确定当前词为语音指令结束点的概率得分，并将该概率得分作为第二得分；

所述检测结果确定模块，具体用于对第一得分和第二得分进行融合，得到综合得分，并在所述综合得分大于设定阈值时，确定当前词为语音指令结束点。

优选地，所述声学检测模块包括：

停顿时长获取单元，用于根据当前识别文本对应的语音数据获取当前词的停顿时长；

量化单元，用于对当前词的停顿时长进行量化处理，得到当前词的量化停顿时长；

概率得分确定单元，用于根据当前词的量化停顿时长确定当前词为语音指令结束点的概率得分。

优选地，所述系统还包括：

对应关系表建立模块，用于预先利用统计方法建立量化停顿时长与语音指令结束点概率的对应关系表；

所述概率得分确定单元，具体用于根据当前词的量化停顿时长查找所述对应关系表，得到当前词为语音指令结束点的概率得分。

一种人机交互设备，包括：

语义检测模块，用于依次对当前识别文本中的各词，基于上述的语音指令检测模型进行语音指令检测，以确定当前词是否为语音指令结束点，得到第一检测结果；

检测结果确定模块，用于根据检测结果确定当前词是否为语音指令结束点；如果是，则触发语义理解模块对以当前词为结束点的子句进行语义理解；并触发所述语义检测模块停止检测操作；

所述语义理解模块，用于对以当前词为结束点的子句进行语义理解，得到语义理解结果；

交互管理模块，用于根据所述语义理解结果生成交互结果。

所述设备还包括：

声学检测模块，用于基于当前识别文本对应的语音数据的声学信息确定当前词为语音指令结束点的概率得分，并将该概率得分作为第二检测结果；

所述检测结果确定模块包括：

融合单元，用于对第一检测结果和第二检测结果进行融合，得到综合得分；

判断单元，用于在所述综合得分大于设定的判断阈值时，确定当前词为语音指令结束点。

优选地，所述交互管理模块，还用于将所述交互结果反馈给用户。

优选地，所述交互结果为响应文本；

所述交互管理模块具体通过语音播报的方式将所述响应文本反馈给用户。

本发明实施例提供的语音指令检测模型构建方法、以及一种基于语音指令检测模型的语音指令检测方法及系统，基于人机交互语音数据的语义信息构建语音指令检测模型，并且在对实时接收的语音数据进行语音指令结束点检测时，利用该模型，并对实时语音识别得到的识别文本逐词进行语音指令结束点检测，从而避免了由于语音指令内部的长停顿导致语音指令被截断的问题，并有效防止了噪声等干扰因素对语音指令结束点检测的影响。进一步地，还可以分别从语义层面和声学层面对语音指令结束点进行检测，从而提高检测的准确性。

进一步地，基于语音指令检测模型，本发明实施例提供的人机交互方法及设备，在检测到当前词为语音指令结束点后，即可对以当前词为结束点的子句进行语义理解，从而可以快速、准确地根据语义理解结果生成交互结果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例构建语音指令检测模型的流程图；

图2是本发明实施例中语音指令检测模型的一种拓扑结构示意图；

图3是本发明实施例中业务分类示意图；

图4是本发明实施例中语音指令检测模型的另一种拓扑结构示意图；

图5是本发明实施例语音指令检测方法的一种流程图；

图6是本发明实施例语音指令检测方法的另一种流程图；

图7是本发明实施例语音指令检测系统的一种结构示意图；

图8是本发明实施例语音指令检测系统的另一种结构示意图；

图9是本发明实施例人机交互方法的一种流程图；

图10是本发明实施例人机交互方法的另一种流程图；

图11是本发明实施例人机交互设备的一种结构示意图；

图12是本发明实施例人机交互设备的一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

针对现有人机交互系统仅通过语音数据的停顿时长检测语音指令的结束点存在的问题，本发明实施例提供一种语音指令检测模型构建方法，基于语义层信息构建语音指令检测模型，基于该语音指令检测模型进行语音指令结束点的检测，从而使检测结果有效地避免了由于语音指令内部的长停顿导致语音指令被截断的问题，而且具有抗噪能力，减少噪声等干扰因素对语音指令结束点检测的影响。相应地，本发明还提供一种利用基于语义层信息构建的语音交互方法及设备，以提高人机交互过程中机器响应的成功率及响应速度。

下面首先对本发明实施例中语音指令检测模型构建方法进行详细说明。

如图1所示，是本发明实施例中语音指令检测模型构建方法的流程图，包括以下步骤：

步骤101，确定语音指令检测模型的拓扑结构。

所述模型拓扑结构可以采用RNN(Recurrent Neural Networks，循环神经网络)，如图2所示，包括输入层、中间隐层和输出层。其中：输入层的输入包括三部分：当前词的词向量w_n(t)、截止到上一个词的隐层向量h(t-1)、对话历史信息，其中，所述对话历史信息包括：截止到上一个词的业务分类信息c(t-1)、以及信息槽填充情况s(t-1)或状态槽填充情况st(t-1)；输出层的输出为：检测结果p(t)，所述检测结果p(t)具体可以是当前词为语音指令结束点的概率得分，或者表征当前词是否为语音指令结束点的数值。

下面对各层进行详细说明。

1.输入层包括以下几部分：

(1)当前词的词向量w_n(t)，即实时语音识别时当前新获得的词w_n对应的词向量。具体可以使用word2vect方式，将其映射成一个词向量w_n(t)，该向量一般为50-100维，比如在可以为80维。

(2)RNN模型截止到上一个词w_n-1的隐层向量h(t-1)，该向量一般为512-2048维，比如可以取为1024维。

(3)对话历史信息，其包括截止到上一个词w_n-1的业务分类信息c(t-1)，以及信息槽填充情况s(t-1)或状态槽填充情况st(t-1)，也就是说，针对不同的业务应用，对话历史信息可以包括c(t-1)和s(t-1)，或者对话历史信息可以包括c(t-1)和st(t-1)。下面分别对这三种信息进行详细说明。

本次交互中，截止到上一个词w_n-1的业务分类信息，用向量c(t-1)表示。如果业务的个数为N，则该向量大小为N+1，相当于增加了一个额外的业务，该额外业务表示用户当前交互没有任何意图。交互刚开始时，业务概率都为0。比如图3所示，对于订票业务，可以将业务分成两级，其中一级业务为订票，二级业务如火车票、汽车票、飞机票、电影票这四个订票业务；其他一级业务如查天气、音乐、闲聊等对应的二级业务就是自身。

需要说明的是，向量c(t-1)表示的是属于相应二级业务的概率。比如，如果用户输入“我想订一张票”，此时属于订票业务，则向量c(t-1)中订票一级业务下的四种二级业务火车票、汽车票、飞机票、电影票对应维的概率为0.25，其余业务类别下的二级业务对应概率为0。

所述信息槽表示业务当前所包含的信息单元，如当前业务为订火车票业务，当前业务所包含的信息单元为出发地、目的地、出发时间、座次。本次交互中，截止到上一个词w_n-1的信息槽填充情况，用一个二值向量s(t-1)表示，其维数为所有信息槽的个数，作为对话历史的表示。比如对于订火车票业务，涉及的信息单元包括出发地、目的地、出发时间、座次，因此信息槽的填充情况可以用一个大小为4的一维二值向量进行表示，1表示对应的信息单元的值已经确定，0表示没有确定。语音交互刚开启时，所有的信息槽中向量的值均为0。比如，对于用户语音输入的“我想订一张票”，此时不涉及到相关业务下的任何信息槽，所有信息槽都为0；对于后续的交互，如果用户需要订火车票业务，用户语音输入“从北京到合肥”，则在语义理解到“京”时，订火车票业务下的“出发城市”的信息槽为1，在语义理解到“肥”时，订火车票业务下的“出发城市”和“目的城市”的信息槽为1，其余依旧为0。

需要说明的是，信息槽向量由两部分构成：业务共享的信息槽和业务独有的信息槽。如火车和航班查询业务，出发城市、目的城市、出发时间这些信息槽是可以共享的，但火车查询业务和航班查询业务都还有各自独立的信息槽，如火车查询业务有车次信息槽，航班查询业务有航空公司信息槽。

另外，需要说明的是，在一次交互中(包括一次单轮交互和一次多轮交互)，只要业务类型未发生改变，信息槽的内容就不需要重置，而如果业务类型发生了改变：一种是一级业务类型未变，只是二级业务类型发生了改变，此时，公共信息槽信息保留，而二级业务独有的信息槽信息进行清空；另一种是一级业务类型发生了改变，那么依据前面语音内容填充的信息槽信息都清空。

所述状态槽表示业务当前的状态信息。本次交互中，截止到上一个词w_n-1的状态槽填充情况，使用二值向量st(t-1)表示，其中1表示状态被填充，0表示状态未被填充，大小为业务的状态总数。如音乐业务中，业务所处的状态可以为“初始状态、播放状态、暂停状态”，所述业务状态槽大小为3；如用户说“放一首刘德华的忘情水”，则业务的“播放状态”被填充。

2.中间隐层h(t)：该向量一般为512-2048维，比如可以取为1024维。

3.输出层包括：

截止到当前词w_n的检测结果p(t)。检测结果p(t)可以是一个大小为1的一维二值向量，其中一个值(比如1)表示词w_n是语音指令结束点，而另一个值(比如0)则表示w_n不是语音指令结束点；检测结果p(t)还可以是表示词w_n是语音指令结束点的概率得分，如果该得分大于设定阈值，则表明词w_n是语音指令结束点，否则不是语音指令结束点。

需要说明的是，在实际应用中，所述对话历史信息可以由文法匹配的方法得到，如“帮我订一张火车票，从合肥到北京”，通过文法“帮我订张train_ticket，从from-city到to-city”，对用户语音数据识别结果进行匹配后，可以得到业务类型为订火车票业务，出发城市和目的城市分别为合肥和北京，相应的出发地和目的地信息槽被填充；也可以由语音指令检测模型的输出得到，即在语音指令检测模型的输出层的输出中增加以下信息：截止到当前词的业务分类信息c(t)、以及信息槽填充情况s(t)或状态槽填充情况st(t)，如图4所示。

步骤102，收集大量人机交互的文本数据作为训练数据。

在构建语音指令检测模型时，需要收集大量人机交互的语音数据，比如收集5000轮人机交互数据。

步骤103，对所述训练数据中用户提问或回答语句文本进行分词，并以单轮回答或提问为单位，获取分词词串。

步骤104，对所述分词词串中的每个词，依据对话历史信息，依次对各词进行语音指令结束点赋值，并标注业务类别、以及信息槽或状态槽，所述信息槽表示业务当前所包含的信息单元，所述状态槽表示业务当前的状态信息。

比如，获得分词词串w(N)＝w₁、w₂、…、w_N，对于其中每个词w_n，依据对话历史信息，对检测结果p(t)进行赋值，并标注信息槽和业务类别。当词串ws(n)＝w₁w₂…w_n能够表达一个正确完整的信息输入时，表明语音指令结束，检测结果p(t)赋值为1，此时停止标注并丢弃后续的词串。

例如：机器提问“你需要订什么票”，用户有以下几种回答：

用户第一种回答“汽车票”，此时词串到“汽车”就能够表达一个正确完整的信息输入，后面的“票”就可以不用再作标注；

用户第二种回答“汽车票，哦不，火车票吧”，此时词串到“汽车票，哦不，火车”就能够表达一个正确完整的信息输入，后面的“票吧”就可以不用再作标注；

用户第三种回答“汽车票，哦你最近在干什么啊”，此时词串到“汽车”就能够表达一个正确完整的信息输入，后面的“票，哦你最近在干什么啊”就可以不用再作标注。

步骤105，利用所述训练数据及其赋值信息和标注信息，训练得到语音指令检测模型的参数。

具体地，可以采用现有的RNN模型训练方法，具体训练过程在此不再详细描述。

基于上述语音指令检测模型，本发明实施例提供一种语音指令检测方法，应用于人机交互过程。如图5所示，是该方法的一种流程图，包括以下步骤：

步骤501，实时接收用户语音数据，并对所述语音数据进行实时语音识别，得到识别文本。

步骤502，依次对当前识别文本中的各词，基于预先构建的语音指令检测模型进行语音指令检测，得到模型输出的检测结果。

具体检测时，首先获取当前词的词向量w_n(t)、对话历史信息，具体获取方法与语音指令检测模型训练时相同、以及截止到上一个词的隐层向量h(t-1)；然后将当前词的词向量w_n(t)、截止到上一个词的隐层向量h(t-1)及对话历史信息作为语音指令检测模型的输入，得到检测结果。所述检测结果可以是当前词为语音指令结束点的概率P_se(s(t))，也可以是表征当前词是否为语音指令结束点的向量值，如果向量值为1则表明当前词为指令结束点，向量值为0则表明当前词不是指令结束点。

步骤503，根据所述检测结果确定语音指令结束点。

如果模型输出的检测结果是当前词为语音指令结束点的概率P_se(s(t))，则可以根据设定的阈值进行判断，即如果当前词为语音指令结束点的概率P_se(s(t))大于设定阈值，则确定当前词为语音指令结束点，否则确定当前词不是语音指令线束点。如果模型输出的检测结果为表征当前词是否为语音指令结束点的向量值，则可以直接根据该向量值确定当前词是否为语音指令结束点。

本发明实施例提供的语音指令检测模型构建方法、以及一种基于语音指令检测模型的语音指令检测方法及系统，基于人机交互语音数据的语义信息构建语音指令检测模型，并且在对实时接收的语音数据进行语音指令结束点检测时，利用该模型，并对实时语音识别得到的识别文本逐词进行语音指令结束点检测，从而避免了由于语音指令内部的长停顿导致语音指令被截断的问题，并有效防止了噪声等干扰因素对语音指令结束点检测的影响。

进一步地，在本发明语音指令检测方法另一实施例中，还可以同时从声学层面对语音指令结束点进行检测，将基于语义层面和基于声学层面的检测结果进行融合判断，从而提高了检测结果的准确性。

如图6所示，是本发明实施例语音指令检测方法的另一种流程图，包括以下步骤：

步骤601，实时接收用户语音数据，并对所述语音数据进行实时语音识别，得到识别文本。

步骤602，依次对当前识别文本中的各词，基于预先构建的语音指令检测模型进行语音指令检测，得到当前词为语音指令结束点的概率，并将该概率得分作为第一得分。

步骤603，基于当前识别文本对应的语音数据的声学信息确定当前词为语音指令结束点的概率得分，并将该概率得分作为第二得分。

具体地，可以利用统计方法预先建立量化停顿时长与语音指令结束点概率的对应关系表，这样，通过查表方式即可确定当前词为语音指令结束点的概率得分。当然，在实际应用中，并不局限于该方式，比如还可以根据训练数据中量化停顿时长与语音指令结束点概率之间的对应关系，得到量化停顿时长的分布函数，具体检测时，根据当前词尾的量化停顿时长及所述分布函数直接计算当前词为语音指令结束点的概率得分。

下面首先对所述对应关系表的建立过程进行详细说明。

首先，收集大量人机交互的语音数据及其对应的识别文本，对所述识别文本进行分词，根据每个词对应的语音数据，统计每个词尾为结束点和非结束点的停顿时长，以秒(s)为单位。

然后，对收集数据中统计得到的每个词尾后的停顿长度进行量化，量化步长为n，n的具体取值根据应用需求或实验结果确定，如可以为0.1s。具体量化方法比如可以如式(1)所示：

其中，

为量化后停顿时长，l为量化前停顿时长。

由式(1)可知，量化后停顿时长是量化步长的倍数；如量化步长为0.1s，那么量化停顿时长的取值是0.1s的倍数，即0s、0.1s、0.2s、0.3s…。

最后，计算收集数据中每个词尾量化后停顿时长所在位置是语音指令结束点的概率

具体计算时，首先找到语音数据中每个量化停顿时长对应子句结尾是语音指令结束点的总数；然后计算该总数与语音数据中每个量化停顿时长对应子句结尾是停顿的总数的比值，将该比值作为每个量化停顿时长对应子句结尾是语音指令结束点的概率，从而得到每个量化停顿时长对应子句结尾是语音指令结束点的概率表，如式(2)为量化停顿时长

对应子句结尾是语音指令结束点的概率的具体计算公式，其中分子为语音数据中量化停顿时长

对应子句结尾是语音指令结束点的总数，分母为训练数据中量化停顿时长

对应子句结尾是停顿的总数：

其中，

表示收集语音数据中当前量化停顿时长

对应子句结尾是语音指令结束点的总数，

表示收集语音数据中当前量化停顿时长

对应子句结尾是停顿的总数。

在基于当前识别文本对应的语音数据的声学信息确定当前词为语音指令结束点的概率得分时，可以按以下方式进行：

首先，根据当前识别文本对应的语音数据获取当前词的停顿时长；然后对所述停顿时长进行量化处理，得到量化停顿时长；最后根据所述量化停顿时长查找所述对应关系表，得到当前词为语音指令结束点的概率得分。

步骤604，对第一得分和第二得分进行融合，得到综合得分。

具体融合方法可以有多种，如可以利用线性插值的方法，将语义层面和声学层面的概率值进行融合，具体如式(3)所示：

P＝α*P_se(s(t))+(1-α)*P_ac(l(t)) (3)

其中，P为融合后的概率值，即前面所述的综合得分，P_se(s(t))为第一得分，P_ac(l(t))为第二得分，α为线性插值系数，具体取值可以根据实验结果或应用需求取值，如取值为0.7。

当然，也可以采用其它的融合方法，如将语义层面和声学层面的概率值作为二维特征，利用预先训练的检测模型进行检测，所述检测模型可以通过预先收集大量数据训练得到；具体检测时，将语义层面和声学层面的二维特征作为检测模型的输入，输出为当前词是语音指令结束点的概率。当所述概率大于阈值时，认为当前词是语音指令结束点，从而得到完整交互指令。需要说明的是，该融合方法的输入特征不限于语义层面和声学层面的概率值，还可以增加其它特征，如当前词对应语音数据的基频值、能量值等。

步骤605，判断所述综合得分是否大于设定的判断阈值；如果是，则执行步骤606；否则执行步骤607。

步骤606，确定当前词为语音指令结束点。

步骤607，确定当前词不是语音指令结束点。

需要说明的是，上述步骤602和步骤603没有时间上的先后顺序，而是两个同步进行的过程。而且在实际应用中，考虑到针对当前词，上述步骤602和步骤603的处理得到结果，即当前词的第一得分和第二得分所需的时间可能会有差异，因此，在实际应用中，也可以设定一个得分阈值，如果第一得分和第二得分中有任何一个先获得，而且大于该得分阈值，则确定当前词为语音指令结束点，可以不再考虑另一个得分。

相应地，本发明实施例还提供一种语音指令检测系统，应用于人机交互过程，如图7所示，是该系统的一种结构示意图。

在该实施例中，所述系统包括：

语音识别模块71，用于实时接收用户语音数据，并对所述语音数据进行实时语音识别，得到识别文本；

语义检测模块72，用于依次对当前识别文本中的各词，基于预先构建的语音指令检测模型进行语音指令检测，得到模型输出的检测结果；

检测结果确定模块73，用于根据所述检测结果确定语音指令结束点。

需要说明的是，所述语音指令检测模型可以由相应的模块来构建，用于构建语音指令检测模型的模块可以是独立于该系统的一个模块，也可以是该系统的一部分，或者也可以是语义检测模块72的一部分，对此本发明实施例不做限定。

该实施例的语音指令检测系统，利用基于人机交互语音数据的语义信息构建的语音指令检测模型，对实时语音识别得到的识别文本逐词进行语音指令结束点检测，从而避免了由于语音指令内部的长停顿导致语音指令被截断的问题，并有效防止了噪声等干扰因素对语音指令结束点检测的影响。

如图8所示，是本发明语音指令检测系统的另一种结构示意图。

与图7所示实施例不同的是，在该实施例中，所述系统还包括：声学检测模块74。

相应地，在该实施例中，语音指令检测输出的检测结果为当前词为语音指令结束点的概率得分，语义检测模块72将该概率得分作为第一得分输出给检测检测结果确定模块73。声学检测模块74基于当前识别文本对应的语音数据的声学信息确定当前词为语音指令结束点的概率得分，并将该概率得分作为第二得分输出给检测结果确定模块73。检测结果确定模块73对语义检测模块72输出的第一得分、以及声学检测模块74输出的第二得分进行融合，得到综合得分，并在所述综合得分大于设定阈值时，确定当前词为语音指令结束点，具体融合方式可以有多种，可以参照前面本发明语音指令检测方法中的描述，在此不再赘述。

声学检测模块74的一种具体结构可以包括以下各单元：

在实际应用中，可以预先利用统计方法建立量化停顿时长与语音指令结束点概率的对应关系表。相应地，所述概率得分确定单元可以根据当前词的量化停顿时长查找所述对应关系表，得到当前词为语音指令结束点的概率得分。

量化停顿时长与语音指令结束点概率的对应关系表可以由相应的模块(以下称之为对应关系表建立模块)来预先构建。而且，所述对应关系表建立模块可以是独立于该系统的一个模块，也可以是该系统的一部分，或者也可以是声学检测模块74的一部分，对此本发明实施例不做限定。

由此可见，该实施例的语音指令检测系统，分别从语义层面和声学层面对语音指令结束点进行检测，将基于语义层面和基于声学层面的检测结果进行融合判断，从而提高了检测结果的准确性。

进一步地，基于上述语音指令检测模型，本发明实施例还提供一种人机交互方法及设备，在检测到当前词为语音指令结束点后，即可对以当前词为结束点的子句进行语义理解，从而可以快速、准确地根据语义理解结果生成交互结果。

如图9所示，是本发明实施例人机交互方法的一种流程图，包括以下步骤：

步骤911，实时接收用户语音数据，并对所述语音数据进行实时语音识别，得到识别文本。

步骤912，依次对当前识别文本中的各词，基于预先构建的语音指令检测模型进行语音指令检测，以确定当前词是否为语音指令结束点，得到第一检测结果。

步骤913，根据检测结果确定当前词是否为语音指令结束点；如果是，则执行步骤914；否则，执行步骤912。

步骤914，对以当前词为结束点的子句进行语义理解，得到语义理解结果。

步骤915，根据所述语义理解结果生成交互结果。

需要说明的是，上述第一检测结果是语音指令检测模型输出的当前词为语音指令结束点的概率，也可以是表征当前词是否为语音指令结束点的向量值。如果是表征当前词是否为语音指令结束点的向量值，则直接根据该向量值即可确定当前词是否为语音指令结束点；如果是当前词为语音指令结束点的概率，则可以根据预先设定的阈值判断，如果所述概率大于该阈值，则确定当前词为语音指令结束点，否则确定当前词不是语音指令线束点。

如图10所示，是本发明实施例人机交互方法的另一种流程图，包括以下步骤：

步骤921，实时接收用户语音数据，并对所述语音数据进行实时语音识别，得到识别文本。

步骤922，依据当前识别文本及其对应的语音数据，分别基于预先构建的语音指令检测模型及声学信息进行语音指令检测，得到第一检测结果和第二检测结果。

所述第一检测结果为基于语义层面的当前词为语音指令结束点的概率得分，所述第二检测结果为基于声学层面的当前词为语音指令结束点的概率得分。

在该实施例中，所述第一检测结果是语音指令检测模型输出的当前词为语音指令结束点的概率，所述第二检测结果是基于声学信息检测得到的当前词为语音指令结束点的概率，具体检测过程可参照前面的描述。

步骤923，对第一检测结果和第二检测结果进行融合，得到综合得分。

具体融合方法可以有多种，可参照前面的描述，在此不再赘述。

步骤924，判断所述综合得分是否大于设定的判断阈值；如果是，则确定当前词为语音指令结束点，执行步骤925；否则执行步骤922。

步骤925，对以当前词为结束点的子句进行语义理解，得到语义理解结果。

步骤926，根据所述语义理解结果生成交互结果。

在图9和图10所述的实施例中，还可以将所述交互结果反馈给用户。另外，所述交互结果可以是响应文本，也可以是对应所述语义理解结果的一个具体操作。对此本发明实施例不做限定。如果是响应文本，可以通过语音播报的方式将所述响应文本反馈给用户；如果是一个具体操作，可以将该操作的结果呈现给用户。

需要说明的是，在生成响应文本时，可以首先根据业务分类信息，获得得分最高的业务，作为用户的真实意图，然后查找该业务对应的信息槽填充情况；如果该业务对应的信息槽均已填充，则生成应答文本，比如对于查询操作，执行相应的操作获得查询结果，根据该查询结果生成应答文本；否则，根据该业务对应的未填充的信息槽，生成提问文本，通过语音播报的方式反馈给用户，要求用户补充信息，直到这些信息槽被填满，完成完整的交互。

相应地，本发发明实施例还提供一种人机交互设备，如图11所示，是该设备的一种结构示意图。

在该实施例中，所述人机交互设备包括：

语音识别模块11，用于实时接收用户语音数据，并对所述语音数据进行实时语音识别，得到识别文本；

语义检测模块12，用于依次对当前识别文本中的各词，基于预先构建的语音指令检测模型进行语音指令检测，以确定当前词是否为语音指令结束点，得到第一检测结果；

检测结果确定模块13，用于根据检测结果确定当前词是否为语音指令结束点；如果是，则触发语义理解模块14对以当前词为结束点的子句进行语义理解，比如将以当前词为结束点的子句发送给语义理解模块14；并触发所述语义检测模块12停止检测操作；

语义理解模块14，用于对以当前词为结束点的子句进行语义理解，得到语义理解结果；

交互管理模块15，用于根据所述语义理解结果生成交互结果。

需要说明的是，所述语音指令检测模型可以由相应的模块来构建，用于构建语音指令检测模型的模块可以是独立于该设备的一个模块，也可以是该设备的一部分，或者也可以是语义检测模块12的一部分，对此本发明实施例不做限定。

在该实施例中，所述第一检测结果可以是当前词为语音指令结束点的概率，也可以是表征当前词是否为语音指令结束点的向量值。

如图12所示，是本发明实施例人机交互设备的另一种结构示意图。

与图11所示实施例的区别在于，在该实施例中，所述设备还进一步包括：声学检测模块16，用于基于当前识别文本对应的语音数据的声学信息确定当前词为语音指令结束点的概率得分，并将该概率得分作为第二检测结果。

另外，在该实施例中，语义检测模块12输出的第一检测结果为当前词为语音指令结束点的概率得分。检测结果确定模块13需要对第一检测结果和第二检测结果进行融合，并根据融合结果来确定当前词是否为语音指令结束点。

检测结果确定模块13的一种具体结构可以包括：融合单元和判断单元。其中，所述融合单元用于对第一检测结果和第二检测结果进行融合，得到综合得分；判断单元用于在所述综合得分大于设定的判断阈值时，确定当前词为语音指令结束点。

进一步地，在图11和图12所述的实施例中，交互管理模块15还可以将生成的交互结果反馈给用户。而且，所述交互结果可以是响应文本，也可以是对应所述语义理解结果的一个具体操作。对此本发明实施例不做限定。如果是响应文本，交互管理模块15可以通过语音播报的方式将所述响应文本反馈给用户；如果是一个具体操作，交互管理模块15可以将该操作的结果呈现给用户。

本发明实施例提供的人机交互方法及设备，基于语音指令检测模型，在检测到当前词为语音指令结束点后，即可对以当前词为结束点的子句进行语义理解，从而可以快速、准确地根据语义理解结果生成交互结果。进一步地，在进行语音指令结束点的检测时，还可以同时基于语义层面和声学层面进行检测，有效保证了检测结果的准确性和及时性。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统及设备实施例而言，由于其基本相似于相应方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及设备实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音指令检测模型构建方法，其特征在于，包括：

确定语音指令检测模型的拓扑结构；

收集大量人机交互的文本数据作为训练数据；

2.根据权利要求1所述的方法，其特征在于，所述语音指令检测模型的拓扑结构采用RNN模型，包括输入层、中间隐层和输出层；

3.根据权利要求2所述的方法，其特征在于，所述输出层的输出还包括：截止到当前词的业务分类信息c(t)、以及信息槽填充情况s(t)或状态槽填充情况st(t)。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

利用文法匹配的方式得到所述对话历史信息。

5.一种语音指令检测方法，应用于人机交互过程，其特征在于，包括：

依次对当前识别文本中的各词，基于权利要求1-4任一项中所述的语音指令检测模型进行语音指令检测，得到模型输出的检测结果；

根据所述检测结果确定语音指令结束点。

6.根据权利要求5所述的方法，其特征在于，所述检测结果具体为当前词为语音指令结束点的概率得分，并将该概率得分作为第一得分；

所述方法还包括：

所述根据所述检测结果确定语音指令结束点包括：

对第一得分和第二得分进行融合，得到综合得分；

7.根据权利要求6所述的方法，其特征在于，所述基于当前识别文本对应的语音数据的声学信息确定当前词为语音指令结束点的概率得分包括：

根据当前识别文本对应的语音数据获取当前词的停顿时长；

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.一种人机交互方法，其特征在于，包括：

依次对当前识别文本中的各词，基于权利要求1-4任一项中所述的语音指令检测模型进行语音指令检测，以确定当前词是否为语音指令结束点，得到第一检测结果；

根据检测结果确定当前词是否为语音指令结束点；

根据所述语义理解结果生成交互结果。

10.根据权利要求9所述的方法，其特征在于，所述第一检测结果具体为当前词为语音指令结束点的概率得分；

所述方法还包括：

所述根据检测结果确定当前词是否为语音指令结束点包括：

对第一检测结果和第二检测结果进行融合，得到综合得分；

11.根据权利要求9或10所述的方法，其特征在于，所述方法还包括：

将所述交互结果反馈给用户。

12.根据权利要求11所述的方法，其特征在于，所述交互结果为响应文本；

所述将所述交互结果反馈给用户包括：

通过语音播报的方式将所述响应文本反馈给用户。

13.一种语音指令检测系统，应用于人机交互过程，其特征在于，包括：

语义检测模块，用于依次对当前识别文本中的各词，基于权利要求1-4任一项中所述的语音指令检测模型进行语音指令检测，得到模型输出的检测结果；

14.根据权利要求13所述的系统，其特征在于，所述检测结果具体为当前词为语音指令结束点的概率得分，该概率得分作为第一得分；

所述系统还包括：

15.根据权利要求14所述的系统，其特征在于，所述声学检测模块包括：

16.根据权利要求15所述的系统，其特征在于，所述系统还包括：

17.一种人机交互设备，其特征在于，包括：

语义检测模块，用于依次对当前识别文本中的各词，基于权利要求1-4任一项中所述的语音指令检测模型进行语音指令检测，以确定当前词是否为语音指令结束点，得到第一检测结果；

交互管理模块，用于根据所述语义理解结果生成交互结果。

18.根据权利要求17所述的设备，其特征在于，所述第一检测结果具体为当前词为语音指令结束点的概率得分；

所述设备还包括：

所述检测结果确定模块包括：

19.根据权利要求17或18所述的设备，其特征在于，所述交互管理模块，还用于将所述交互结果反馈给用户。

20.根据权利要求19所述的设备，其特征在于，所述交互结果为响应文本；