CN113160817B

CN113160817B - 基于意图识别的语音交互方法及系统

Info

Publication number: CN113160817B
Application number: CN202110435594.9A
Authority: CN
Inventors: 陈林; 李文龙
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Filing date: 2021-04-22
Publication date: 2024-06-28
Anticipated expiration: 2041-04-22

Abstract

本发明公开了一种基于意图识别的语音交互方法，包括：获取用户的第一语音及第二语音；将第二语音的语音字数与预设的语音文本字数进行比较，得到第一比较结果，并根据第一比较结果、第二语音内容以及预设的第一意图库，停止对用户的第一回复；计算第一语音的结束时间与第二语音的开始时间之间的时间间隔；将时间间隔与预设的语音时间间隔进行比较，得到第二比较结果，并根据第二比较结果、第一语音内容、第二语音内容以及预设的系统流程，对用户进行第二回复。本发明实施例避免了错误识别人工打断的情况发生，且在被用户打断语音回复后，能够识别出用户真正需要回复的意图并进行语音回复，极大地提高了用户意图的识别率及回复用户意图的准确率。

Description

基于意图识别的语音交互方法及系统

技术领域

本发明涉及人工智能领域，具体涉及一种基于意图识别的语音交互方法及系统。

背景技术

随着人工智能的不断发展，语音识别技术也越来越成熟，使用智能语音的对话场景也随之越来越多。

传统的智能系统不支持识别人工打断功能，即使能够识别人工打断功能，也仅仅在获取的用户超长语音时，才会识别人工打断功能，但是在被打断后也仅能重复被打断前的语音，而无法辨别用户真正需要回复的意图。

发明内容

本发明的目的在于提供一种基于意图识别的语音交互方法、系统、计算机设备及可读存储介质，用于解决现有技术中经常出现错误识别人工打断的情况，且系统在被打断后也仅能重复被打断前的语音，无法辨别用户真正需要回复的意图的缺陷。

根据本发明的一个方面，提供了一种基于意图识别的语音交互方法，该方法包括如下步骤：

获取用户的第一语音及所述第一语音的结束时间，并对所述第一语音进行识别，得到第一语音内容；

将所述第一语音内容与预设的第一意图库进行匹配，并根据所述匹配结果对所述用户进行第一回复；

当在所述第一回复过程中侦测到所述用户的第二语音时，获取所述第二语音及所述第二语音的开始时间，并对所述第二语音进行识别，得到第二语音识别结果，其中，所述第二语音识别结果包括语音字数及第二语音内容；

将所述语音字数与预设的语音文本字数进行比较，得到第一比较结果，并根据所述第一比较结果、所述第二语音内容以及预设的第二意图库，停止对所述用户的所述第一回复；

计算所述第一语音的结束时间与所述第二语音的开始时间之间的时间间隔；

将所述时间间隔与预设的语音时间间隔进行比较，得到第二比较结果，并根据所述第二比较结果、所述第一语音内容、所述第二语音内容以及预设的系统流程对所述用户进行第二回复，或者根据所述第二比较结果、所述第二语音内容以及所述预设的系统流程对所述用户进行所述第二回复，其中，所述预设的系统流程包括主干分支、异议分支以及结束分支。

可选地，所述将所述第一语音内容与预设的第一意图库进行匹配，并根据所述匹配结果对所述用户进行第一回复，包括：

对所述第一语音内容进行语义识别，得到第一语义识别结果；

将所述第一语义识别结果与所述预设的第一意图库进行匹配，得到第一匹配结果；

根据所述第一匹配结果，对所述用户进行所述第一回复。

可选地，所述根据所述第一比较结果、所述第二语音内容以及预设的第二意图库，停止对所述用户的所述第一回复，包括：

当所述第一比较结果为所述语音字数大于所述预设的语音文本字数，且侦测到所述第二语音仍未结束时，停止对所述用户的所述第一回复。

可选地，所述根据所述第一比较结果、所述第二语音内容以及预设的第二意图库，停止对所述用户的所述第一回复，还包括：

当所述第一比较结果为所述语音字数小于或等于所述预设的语音文本字数，且侦测到所述第二语音已结束时，对所述第二语音内容进行语义识别，得到第二语义识别结果；

当所述第二语义识别结果符合所述预设的第二意图库时，停止对所述用户的所述第一回复。

可选地，所述根据所述第二比较结果、所述第二语音内容以及所述预设的系统流程对所述用户进行所述第二回复，包括：

当所述第二比较结果为所述时间间隔大于所述预设的语音时间间隔时，对所述第二语音内容进行语义识别得到第二语义识别结果并将所述第二语义识别结果输入到所述预设的系统流程进行匹配，并输出第二匹配结果；

根据所述第二匹配结果，对所述用户进行所述第二回复。

可选地，所述将所述第二语义识别结果输入到所述预设的系统流程进行匹配，并输出第二匹配结果，包括：

将所述第二语义识别结果与所述主干分支对应的预设的第三意图库进行匹配；

当所述第二语义识别结果符合所述预设的第三意图库时，输出与所述预设的第三意图库对应的第二匹配结果；

当所述第二语义识别结果不符合所述预设的第三意图库时，将所述第二语义识别结果与所述异议分支对应的预设的第四意图库进行匹配；

当所述第二语义识别结果符合所述预设的第四意图库时，输出与所述预设的第四意图库对应的第二匹配结果；

当所述第二语义识别结果不符合所述预设的第四意图库时，将所述第二语义识别结果与所述结束分支对应的预设的第五意图库进行匹配，输出与所述预设的第五意图库对应的第二匹配结果。

可选地，所述根据所述第二比较结果、所述第一语音内容、所述第二语音内容以及预设的系统流程对所述用户进行第二回复，还包括：

当所述第二比较结果为所述时间间隔小于或等于所述预设的语音时间间隔时，分别对所述第一语音内容及所述第二语音内容进行语义识别，得到所述第一语音内容对应的第一语义识别结果及所述第二语音内容对应的第二语义识别结果；

将所述第一语义识别结果及所述第二语义识别结果进行语义合并，得到第三语义识别结果；

将所述第三语义识别结果输入到所述预设的系统流程进行匹配，并输出第三匹配结果；

根据所述第三匹配结果，对所述用户进行所述第二回复。

为了实现上述目的，本发明还提供一种基于意图识别的语音交互系统，该系统具体包括以下组成部分：

第一获取模块，用于获取用户的第一语音及所述第一语音的结束时间，并对所述第一语音进行识别，得到第一语音内容；

第一回复模块，用于将所述第一语音内容与预设的第一意图库进行匹配，并根据所述匹配结果对所述用户进行第一回复；

第二获取模块，用于当在所述第一回复过程中侦测到所述用户的第二语音时，获取所述第二语音及所述第二语音的开始时间，并对所述第二语音进行识别，得到第二语音识别结果，其中，所述第二语音识别结果包括语音字数及第二语音内容；

打断模块，用于将所述语音字数与预设的语音文本字数进行比较，得到第一比较结果，并根据所述第一比较结果、所述第二语音内容以及预设的第二意图库，停止对所述用户的所述第一回复；

计算模块，用于计算所述第一语音的结束时间与所述第二语音的开始时间之间的时间间隔；

第二回复模块，用于将所述时间间隔与预设的语音时间间隔进行比较，得到第二比较结果，并根据所述第二比较结果、所述第一语音内容、所述第二语音内容以及预设的系统流程对所述用户进行第二回复，或者根据所述第二比较结果、所述第二语音内容以及所述预设的系统流程对所述用户进行所述第二回复，其中，所述预设的系统流程包括主干分支、异议分支以及结束分支。

为了实现上述目的，本发明还提供一种计算机设备，该计算机设备具体包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述介绍的基于意图识别的语音交互方法的步骤。

为了实现上述目的，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述介绍的基于意图识别的语音交互方法的步骤。

本发明实施例提供的基于意图识别的语音交互方法，不仅考虑到用户语音字数的长短，也识别用户语音内容的语义，从用户语音字数及语音内容的角度判断是否需要停止当前的智能语音回复，基本覆盖了所有人工打断的场景，避免了错误识别人工打断的情况发生，而且通过计算用户语音的时间间隔，判断第二语音是否为第一语音的补充内容，并将语义识别结果输入到预设的系统流程中进行匹配，得到对应的匹配结果，从而在被用户打断语音回复后，能够识别出用户真正需要回复的意图并进行语音回复，极大地提高了用户意图的识别率及回复用户意图的准确率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提供的基于意图识别的语音交互方法的一种可选的步骤流程示意图；

图2为本发明实施例提供的图1中步骤S200的一种可选的步骤细化流程示意图；

图3为本发明实施例提供的图1中步骤S400的一种可选的步骤细化流程示意图；

图4为本发明实施例提供的图1中步骤S600的一种可选的步骤细化流程示意图；

图5为本发明实施例提供的图4中步骤S601的一种可选的步骤细化流程示意图；

图6为本发明实施例提供的图1中步骤S600的另一种可选的步骤细化流程示意图；

图7为本发明实施例提供的基于意图识别的语音交互系统的一种可选的程序模块示意图；

图8为本发明实施例提供的计算机设备的一种可选的硬件架构示意图。

具体实施方式

这里将详细地对示例性发明实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性发明实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的系统和方法的例子。

在本发明使用的术语是仅仅出于描述特定发明实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在本发明的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本发明及区别每一步骤，因此不能理解为对本发明的限制。基于本发明中的发明实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他发明实施例，都属于本发明保护的范围。

下面结合附图对本发明实施例进行说明。

实施例一

参阅图1，示出了本发明实施例提供的一种基于意图识别的语音交互方法的步骤流程示意图。可以理解，本发明实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备为执行主体进行示例性描述，所述计算机设备可以包括诸如智能手机、平板个人计算机(tablet personal computer)、膝上型计算机(laptop computer)等移动终端，以及诸如台式计算机等固定终端。具体如下：

步骤S100，获取用户的第一语音及所述第一语音的结束时间，并对所述第一语音进行识别，得到第一语音内容。

具体地，先获取用户的第一语音及所述第一语音的结束时间，根据预设的自动语音识别技术(Automatic Speech Recognition，ASR)，对所述第一语音进行识别，得到第一语音内容。

示例性的，假设接收到用户A的第一语音为“我想咨询一下关于办理财产保险的相关流程”，获取到所述第一语音的结束时间如下所示：

第一语音结束时间：11:27:11

并根据所述ASR，对所述第一语音进行识别，假设识别结果如下所示：

第一语音内容：我想咨询一下关于办理财产保险的相关流程

步骤S200，将所述第一语音内容与预设的第一意图库进行匹配，并根据所述匹配结果对所述用户进行第一回复。

具体地，根据预设的自然语言处理(Natural Language Processing，NLP)，对所述第一语音内容进行语义识别，并根据所述语义识别结果，对所述用户进行第一回复。

在示例性的实施例中，如图2所示，所述步骤S200可以包括：

步骤S201，对所述第一语音内容进行语义识别，得到第一语义识别结果；

步骤S202，将所述第一语义识别结果与所述预设的第一意图库进行匹配，得到第一匹配结果；

步骤S203，根据所述第一匹配结果，对所述用户进行所述第一回复。

示例性的，假设接收到的第一语音内容为“我想咨询一下关于办理财产保险的相关流程”，根据所述NLP，对所述第一语音内容进行语义识别，并将所述第一语音内容对应的语义识别结果与所述预设的第一意图库进行匹配，根据匹配结果，对用户进行回复，假设此时回复所述用户A的内容为“您好，每一种财产保险都需要您先填写投保单，然后我们会对投保单进行审核，请问您要办理哪种财产保险呢？”。

步骤S300，当在所述第一回复过程中侦测到所述用户的第二语音时，获取所述第二语音及所述第二语音的开始时间，并对所述第二语音进行识别，得到第二语音识别结果，其中，所述第二语音识别结果包括语音字数及第二语音内容。

具体地，根据所述ASR，在所述回复过程中实时监测用户的语音状态，当监测到所述用户的第二语音时，获取所述第二语音及所述第二语音的开始时间，并对所述第二语音进行识别，得到第二语音识别结果，所述第二语音识别结果包括语音字数及第二语音内容。

步骤S400，将所述语音字数与预设的语音文本字数进行比较，得到第一比较结果，并根据所述第一比较结果、所述第二语音内容以及预设的第二意图库，停止对所述用户的所述第一回复。

具体地，当所述语音字数符合预设的语音文本字数，或者，所述语音字数不符合所述预设的语音文本字数但所述第二语音内容符合所述预设的第二意图库时，停止对所述用户的所述第一回复。

在示例性的实施例中，所述步骤S400可以包括：

示例性的，在所述回复过程中，假设接收到所述用户A的第二语音为“我刚忘了说是家庭财产保险”，获取到所述第二语音的开始时间如下所示：

第二语音开始时间：11:27:16

并根据所述ASR，对所述第二语音进行识别，假设识别结果如下所示：

语音字数：12

第二语音内容：我刚忘了说是家庭财产保险

假设所述预设的语音文本字数为3，当识别到所述语音字数超过3时假设在识别到“我刚忘了”的时候，停止对所述用户的所述第一回复。

在示例性的实施例中，如图3所示，所述步骤S400还可以包括：

步骤S401，当所述第一比较结果为所述语音字数小于或等于所述预设的语音文本字数，且侦测到所述第二语音已结束时，对所述第二语音内容进行语义识别，得到第二语义识别结果；

步骤S402，当所述第二语义识别结果符合所述预设的第二意图库时，停止对所述用户的所述第一回复。

示例性的，假设接收到所述用户A的第二语音为“等一下”，获取到所述第二语音的开始时间如下所示：

第二语音开始时间：11:27:16

语音字数：3

第二语音内容：等一下

假设预设的语音文本字数为3，所述语音字数等于3，根据所述NLP，对所述第二语音内容进行语义识别，并将所述第二语音内容对应的语义识别结果与所述预设的第二意图库进行匹配，当匹配到“等一下”或者与“等一下”相关的意图，例如“等下”、“等一等”时，停止对所述用户的所述第一回复。

本发明实施例通过根据用户的语音字数、语音内容以及预设的意图库，停止对用户的语音回复，不仅考虑到用户语音字数的长短，而且识别用户语音内容的语义，基本覆盖了所有人工打断的场景，避免了错误识别人工打断的情况发生。

步骤S500，计算所述第一语音的结束时间与所述第二语音的开始时间之间的时间间隔。

具体地，停止对用户的直接回复后，根据所述ASR，当在预设时间内监测不到用户的语音时，视为所述用户已经停止说话，计算所述第一语音结束时间与所述第二语音开始时间之间的时间间隔。

步骤S600，将所述时间间隔与预设的语音时间间隔进行比较，得到第二比较结果，并根据所述第二比较结果、所述第一语音内容、所述第二语音内容以及预设的系统流程对所述用户进行第二回复，或者根据所述第二比较结果、所述第二语音内容以及所述预设的系统流程对所述用户进行所述第二回复，其中，所述预设的系统流程包括主干分支、异议分支以及结束分支。

具体地，将所述时间间隔与所述预设的语音时间间隔进行比较，当所述时间间隔大于所述预设的语音时间间隔时，根据所述NLP，对所述第二语音内容进行语义识别并根据所述第二语音内容对应的语义识别结果，对所述用户进行回复；当所述时间间隔小于或等于所述预设的语音时间间隔时，根据所述NLP，对所述第一语音内容及所述第二语音内容进行语义识别并将得到的语义识别结果进行语义合并，根据合并后的语义，对所述用户进行第二回复。

在示例性的实施例中，如图4所示，所述步骤S600可以包括：

步骤S601，当所述第二比较结果为所述时间间隔大于所述预设的语音时间间隔时，对所述第二语音内容进行语义识别得到第二语义识别结果并将所述第二语义识别结果输入到所述预设的系统流程进行匹配，并输出第二匹配结果；

步骤S602，根据所述第二匹配结果，对所述用户进行所述第二回复。

示例性的，假设获取到所述第一语音的结束时间如下所示：

第一语音结束时间：11:27:11

获取到所述第二语音的开始时间如下所示：

第二语音开始时间：11:27:16

假设预设的语音时间间隔为3s，而第一语音与第二语音之间的时间间隔为5s且大于所述预设的语音时间间隔3s，根据所述NLP，对所述第二语音内容的进行语义识别，将所述第二语音内容对应的识别结果输入到所述预设的系统流程进行匹配并根据匹配结果对所述用户进行所述第二回复。

在示例性的实施例中，如图5所示，所述步骤S601可以包括：

步骤S611，将所述第二语义识别结果与所述主干分支对应的预设的第三意图库进行匹配；

步骤S612，当所述第二语义识别结果符合所述预设的第三意图库时，输出与所述预设的第三意图库对应的第二匹配结果；

步骤S613，当所述第二语义识别结果不符合所述预设的第三意图库时，将所述第二语义识别结果与所述异议分支对应的预设的第四意图库进行匹配；

步骤S614，当所述第二语义识别结果符合所述预设的第四意图库时，输出与所述预设的第四意图库对应的第二匹配结果；

步骤S615，当所述第二语义识别结果不符合所述预设的第四意图库时，将所述第二语义识别结果与所述结束分支对应的预设的第五意图库进行匹配，输出与所述预设的第五意图库对应的第二匹配结果。

具体地，将所述第二语义识别结果输入到所述预设的系统流程中，与系统流程中对应的预设的意图库进行匹配，输出与所述第二语义识别结果对应的第二匹配结果并根据匹配结果对用户进行回复，所述预设的系统流程包括主干分支、异议分支及结束分支，其中，主干分支表示结束当前对话环节进入下一个对话环节，异议分支表示停留在当前的对话环节，结束分支表示结束对话环节。

在示例性的实施例中，如图6所示，所述步骤S600还可以包括：

步骤S621，当所述第二比较结果为所述时间间隔小于或等于所述预设的语音时间间隔时，分别对所述第一语音内容及所述第二语音内容进行语义识别，得到所述第一语音内容对应的第一语义识别结果及所述第二语音内容对应的第二语义识别结果；

步骤S622，将所述第一语义识别结果及所述第二语义识别结果进行语义合并，得到第三语义识别结果；

步骤S623，将所述第三语义识别结果输入到所述预设的系统流程进行匹配，并输出第三匹配结果；

步骤S624，根据所述第三匹配结果，对所述用户进行所述第二回复。

具体地，当所述时间间隔小于或等于所述预设的语音时间间隔时，将所述第一语音语义识别结果及所述第二语音语义识别结果进行合并，将合并后的语义输入到预设的系统流程进行匹配，具体匹配过程与所述步骤S601的匹配过程一致，根据预设的多意图规则，当所述预设的系统流程匹配输出多个意图时，先忽略标记“不用解决”的意图，然后按照顺序回复标记“可以解决”的意图，最后再回复标记“无法解决”的意图，其中，所述预设的多意图规则通过预先在不同场景下将所有意图分成三类包括“不用解决”、“可以解决”以及“无法解决”进行标记，将能正面解答疑惑的意图标记为“可以解决”的意图，比如“询问车险到期时间”这种能够给出明确答案的意图，将没有实际含义不需要回复的意图标记为“不用解决”的意图，比如“我知道了”这种没有具体含义且不需要回复的意图，将无法给出正面回答只能婉转回复的意图标记为“无法解决”的意图，比如“太贵了”这种没有明确的答案，只能委婉解释的意图。

示例性的，假设接收到第二语音“我刚忘了说是家庭财产保险”的2s后，接收到用户A的第三语音为“我想了解下这个流程是怎样的”，则对所述第三语音进行识别，假设识别结果如下所示：

第三语音字数：13

第三语音内容：我想了解下这个流程是怎样的获取的所述第三语音的开始时间如下所示：

第三语音开始时间：11:27:23

假设预设的语音时间间隔为3s，而第二语音与第三语音之间的时间间隔为2s，根据所述NLP，对所述第二语音识别结果及第三语音识别结果进行语义识别，假设同时识别到意图有“我要问的是家庭财产保险”和“我想了解下这个流程是怎样的”，对所述两个意图进行合并，得到合并后的意图即“我想了解下家庭财产保险这个流程是怎样的”，且为“可以解决”的意图，对用户进行回复，例如回复“家庭财产保险是这样的，您只需在网页或应用程序首页的A模块中找到您中意的家庭财产保险产品，然后点击购买即可，同样一款家庭财产保险通过网上投保可以获得至少15％以上的价格优惠，建议您优先考虑”。

本发明实施例通过根据用户语音的时间间隔，判断第二语音是否为第一语音的补充内容，并将语义识别结果输入到预设的系统流程中进行匹配，得到对应的匹配结果，从而在被用户打断语音回复后，能够识别出用户真正需要回复的意图并进行语音回复。

实施例二

参阅图7，示出了本发明实施例之一种基于意图识别的语音交互系统700的程序模块示意图。所述基于意图识别的语音交互系统700可以应用于计算机设备中，所述计算机设备可以是手机、平板个人计算机(tablet personal computer)、膝上型计算机(laptopcomputer)、等具有数据传输功能的设备。在本发明实施例中，所述基于意图识别的语音交互系统700可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于可读存储介质中，并由一个或多个处理器所执行，以完成本发明实施例，并可实现上述基于意图识别的语音交互系统700。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述所述基于意图识别的语音交互系统700在可读存储介质中的执行过程。在示例性的实施例中，该基于意图识别的语音交互系统700包括第一获取模块701、第一回复模块702、第二获取模块703、打断模块704、计算模块705及第二回复模块706。以下描述将具体介绍本发明实施例各程序模块的功能：

第一获取模块701，用于获取用户的第一语音及所述第一语音的结束时间，并对所述第一语音进行识别，得到第一语音内容。

第一语音结束时间：11:27:11

第一语音内容：我想咨询一下关于办理财产保险的相关流程

第一回复模块702，用于将所述第一语音内容与预设的第一意图库进行匹配，并根据所述匹配结果对所述用户进行第一回复。

具体地，所述第一回复模块702根据预设的自然语言处理(Natural LanguageProcessing，NLP)，对所述第一语音内容进行语义识别，并根据所述语义识别结果，对所述用户进行第一回复。

在示例性的实施例中，所述第一回复模块702具体用于：

根据所述第一匹配结果，对所述用户进行所述第一回复。

第二获取模块703，用于当在所述第一回复过程中侦测到所述用户的第二语音时，获取所述第二语音及所述第二语音的开始时间，并对所述第二语音进行识别，得到第二语音识别结果，其中，所述第二语音识别结果包括语音字数及第二语音内容。

具体地，所述第二获取模块703根据所述ASR，在所述回复过程中实时监测用户的语音状态，当监测到所述用户的第二语音时，获取所述第二语音及所述第二语音的开始时间，并对所述第二语音进行识别，得到第二语音识别结果，所述第二语音识别结果包括语音字数及第二语音内容。

打断模块704，用于将所述语音字数与预设的语音文本字数进行比较，得到第一比较结果，并根据所述第一比较结果、所述第二语音内容以及预设的第二意图库，停止对所述用户的所述第一回复。

具体地，所述打断模块704当所述语音字数符合预设的语音文本字数，或者，所述语音字数不符合所述预设的语音文本字数但所述第二语音内容符合所述预设的第二意图库时，停止对所述用户的所述第一回复。

在示例性的实施例中，所述打断模块704具体用于：

第二语音开始时间：11:27:16

语音字数：12

第二语音内容：我刚忘了说是家庭财产保险

在示例性的实施例中，所述打断模块704具体还用于：

第二语音开始时间：11:27:16

语音字数：3

第二语音内容：等一下

计算模块705，用于计算所述第一语音的结束时间与所述第二语音的开始时间之间的时间间隔。

具体地，所述计算模块705停止对用户的直接回复后，根据所述ASR，当在预设时间内监测不到用户的语音时，视为所述用户已经停止说话，计算所述第一语音结束时间与所述第二语音开始时间之间的时间间隔。

第二回复模块706，用于将所述时间间隔与预设的语音时间间隔进行比较，得到第二比较结果，并根据所述第二比较结果、所述第一语音内容、所述第二语音内容以及预设的系统流程对所述用户进行第二回复，或者根据所述第二比较结果、所述第二语音内容以及所述预设的系统流程对所述用户进行所述第二回复，其中，所述预设的系统流程包括主干分支、异议分支以及结束分支。

具体地，所述第二回复模块706将所述时间间隔与所述预设的语音时间间隔进行比较，当所述时间间隔大于所述预设的语音时间间隔时，根据所述NLP，对所述第二语音内容进行语义识别并根据所述第二语音内容对应的语义识别结果，对所述用户进行回复；当所述时间间隔小于或等于所述预设的语音时间间隔时，根据所述NLP，对所述第一语音内容及所述第二语音内容进行语义识别并将得到的语义识别结果进行语义合并，根据合并后的语义，对所述用户进行所述第二回复。

在示例性的实施例中，所述第二回复模块706具体用于：

根据所述第二匹配结果，对所述用户进行所述第二回复。

示例性的，假设获取到所述第一语音的结束时间如下所示：

第一语音结束时间：11:27:11

获取到所述第二语音的开始时间如下所示：

第二语音开始时间：11:27:16

在示例性的实施例中，所述第二回复模块706具体还用于：

具体地，所述第二回复模块706将所述第二语义识别结果输入到所述预设的系统流程中，与系统流程中对应的预设的意图库进行匹配，输出与所述第二语义识别结果对应的第二匹配结果并根据匹配结果对用户进行回复，所述预设的系统流程包括主干分支、异议分支及结束分支，其中，主干分支表示结束当前对话环节进入下一个对话环节，异议分支表示停留在当前的对话环节，结束分支表示结束对话环节。

在示例性的实施例中，所述第二回复模块706具体还用于：

根据所述第三匹配结果，对所述用户进行所述第二回复。

具体地，所述第二回复模块706当所述时间间隔小于或等于所述预设的语音时间间隔时，将所述第一语音语义识别结果及所述第二语音语义识别结果进行合并，将合并后的语义输入到预设的系统流程进行匹配，具体匹配过程与所述步骤S601的匹配过程一致，根据预设的多意图规则，当所述预设的系统流程匹配输出多个意图时，先忽略标记“不用解决”的意图，然后按照顺序回复标记“可以解决”的意图，最后再回复标记“无法解决”的意图，其中，所述预设的多意图规则通过预先在不同场景下将所有意图分成三类包括“不用解决”、“可以解决”以及“无法解决”进行标记，将能正面解答疑惑的意图标记为“可以解决”的意图，比如“询问车险到期时间”这种能够给出明确答案的意图，将没有实际含义不需要回复的意图标记为“不用解决”的意图，比如“我知道了”这种没有具体含义且不需要回复的意图，将无法给出正面回答只能婉转回复的意图标记为“无法解决”的意图，比如“太贵了”这种没有明确的答案，只能委婉解释的意图。

第三语音字数：13

第三语音开始时间：11:27:23

本发明实施例提供的基于意图识别的语音交互系统700，不仅考虑到用户语音字数的长短，也识别用户语音内容的语义，从用户语音字数及语音内容的角度判断是否需要停止当前的智能语音回复，基本覆盖了所有人工打断的场景，避免了错误识别人工打断的情况发生，而且通过计算用户语音的时间间隔，判断第二语音是否为第一语音的补充内容，并将语义识别结果输入到预设的系统流程中进行匹配，得到对应的匹配结果，从而在被用户打断语音回复后，能够识别出用户真正需要回复的意图并进行语音回复，极大地提高了用户意图的识别率及回复用户意图的准确率。

实施例三

参阅图8，本发明实施例还提供一种计算机设备800的硬件架构示意图。如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。在本发明实施例中，所述计算机设备800是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。如图所示，所述计算机设备800至少包括，但不限于，可通过装置总线相互通信连接存储器801、处理器802、网络接口803。其中：

本发明实施例中，存储器801至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些发明实施例中，存储器801可以是计算机设备800的内部存储单元，例如所述计算机设备800的硬盘或内存。在另一些发明实施例中，存储器801也可以是计算机设备800的外部存储设备，例如所述计算机设备800上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。当然，存储器801还可以既包括计算机设备800的内部存储单元也包括其外部存储设备。本发明实施例中，存储器801通常用于存储安装于计算机设备800的操作装置和各类应用软件，例如所述基于意图识别的语音交互系统700的程序代码等。此外，存储器801还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器802在一些发明实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他语音处理芯片。所述处理器802通常用于控制计算机设备800的总体操作。本发明实施例中，处理器802用于运行存储器801中存储的程序代码或者处理数据，例如运行所述基于意图识别的语音交互系统700的程序代码，以实现上述各个发明实施例中的所述基于意图识别的语音交互方法。

所述网络接口803可包括无线网络接口或有线网络接口，所述网络接口803通常用于在所述计算机设备800与其他电子装置之间建立通信连接。例如，所述网络接口803用于通过网络将所述计算机设备800与外部终端相连，在所述计算机设备800与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯装置(Global System of Mobile communication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图8仅示出了具有部件801-803的计算机设备800，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本发明实施例中，存储于存储器801中的所述基于意图识别的语音交互系统700还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器801中，并由一个或多个处理器(本发明实施例为处理器802)所执行，以完成本发明之基于意图识别的语音交互方法。

实施例四

本发明实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本发明实施例的计算机可读存储介质用于存储所述基于意图识别的语音交互系统700，以被处理器执行时实现本发明之基于意图识别的语音交互方法。

上述本发明实施例序号仅仅为了描述，不代表发明实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述发明实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选发明实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于意图识别的语音交互方法，其特征在于，所述方法包括：

将所述时间间隔与预设的语音时间间隔进行比较，得到第二比较结果，并根据所述第二比较结果、所述第一语音内容、所述第二语音内容以及预设的系统流程对所述用户进行第二回复，或者根据所述第二比较结果、所述第二语音内容以及所述预设的系统流程对所述用户进行所述第二回复，其中，所述预设的系统流程包括主干分支、异议分支以及结束分支；

其中，所述根据所述第二比较结果、所述第一语音内容、所述第二语音内容以及预设的系统流程对所述用户进行第二回复，还包括：

将所述第三语义识别结果输入到所述预设的系统流程进行匹配，并输出第三匹配结果；及

根据所述第三匹配结果，对所述用户进行所述第二回复。

2.如权利要求1所述的基于意图识别的语音交互方法，其特征在于，所述将所述第一语音内容与预设的第一意图库进行匹配，并根据所述匹配结果对所述用户进行第一回复，包括：

将所述第一语义识别结果与所述预设的第一意图库进行匹配，得到第一匹配结果；及

根据所述第一匹配结果，对所述用户进行所述第一回复。

3.如权利要求1所述的基于意图识别的语音交互方法，其特征在于，所述根据所述第一比较结果、所述第二语音内容以及预设的第二意图库，停止对所述用户的所述第一回复，包括：

4. 如权利要求1所述的基于意图识别的语音交互方法，其特征在于，所述根据所述第一比较结果、所述第二语音内容以及预设的第二意图库，停止对所述用户的所述第一回复，还包括：

当所述第一比较结果为所述语音字数小于或等于所述预设的语音文本字数，且侦测到所述第二语音已结束时，对所述第二语音内容进行语义识别，得到第二语义识别结果；及

5. 如权利要求1所述的基于意图识别的语音交互方法，其特征在于，所述根据所述第二比较结果、所述第二语音内容以及所述预设的系统流程对所述用户进行所述第二回复，包括：

当所述第二比较结果为所述时间间隔大于所述预设的语音时间间隔时，对所述第二语音内容进行语义识别得到第二语义识别结果并将所述第二语义识别结果输入到所述预设的系统流程进行匹配，并输出第二匹配结果；及

根据所述第二匹配结果，对所述用户进行所述第二回复。

6.如权利要求5所述的基于意图识别的语音交互方法，其特征在于，所述将所述第二语义识别结果输入到所述预设的系统流程进行匹配，并输出第二匹配结果，包括：

当所述第二语义识别结果符合所述预设的第四意图库时，输出与所述预设的第四意图库对应的第二匹配结果；及

7.一种基于意图识别的语音交互系统，其特征在于，所述系统包括：

第二回复模块，用于将所述时间间隔与预设的语音时间间隔进行比较，得到第二比较结果，并根据所述第二比较结果、所述第一语音内容、所述第二语音内容以及预设的系统流程对所述用户进行第二回复，或者根据所述第二比较结果、所述第二语音内容以及所述预设的系统流程对所述用户进行所述第二回复，其中，所述预设的系统流程包括主干分支、异议分支以及结束分支；

其中，所述第二回复模块还用于：

根据所述第三匹配结果，对所述用户进行所述第二回复。

8.一种计算机设备，所述计算机设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项的所述基于意图识别的语音交互方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项的所述基于意图识别的语音交互方法的步骤。