CN112256229B

CN112256229B - 人机语音交互方法、装置、电子设备及存储介质

Info

Publication number: CN112256229B
Application number: CN202010952673.2A
Authority: CN
Inventors: 汪建; 袁春阳
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2024-05-14
Anticipated expiration: 2040-09-11
Also published as: CN112256229A

Abstract

本申请公开了人机语音交互方法、装置、电子设备及存储介质，本申请通过获取用于语音交互的基础信息，基础信息包括语音识别结果和最近一次的机器响应内容；判断基础信息是否符合机器响应条件；在基础信息符合机器响应条件的情况下，根据语音识别结果确定待作出机器响应的用户语句，以使应答模块根据待作出机器响应的用户语句确定下一次的机器响应内容。本申请将现有技术中的控制模块与应答模块独立开来，显著降低了模块之间的耦合，且通过机器响应条件的设定，对下发至应答模块的语句信息进行下发时机的控制以及内容的过滤、筛选或融合，将人机语音交互的双工模式转化为单工模式，极大的提升了用户的体验感受，且极大程度上减轻了应答模块的负担。

Description

人机语音交互方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能领域，具体涉及人机语音交互方法、装置、电子设备及存储介质。

背景技术

随着人工智能的日臻成熟，在很多场景下，外呼机器人能够代替人工与用户进行语音交流，降低了人工成本。

但是，现有技术中，人机语音交流还存在着很多不足之处，如现有外呼机器人的对话模式是双工的，即用户可以和机器人同时说话，双工模式通话不符合人类的对话习惯，大大降低了人类的对话体验；又如人机对话中机器的语言通常以数据流的形式组织，即每秒请求几个数据包，但其中大量的上游数据包为重复、繁冗、或者不需要下游服务做出回复的，现有技术中通常将所有上游数据下发至下游服务，极大的增加下游各服务模块的负担，限制下游服务模块的能力发展。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的人机语音交互方法、装置、电子设备及存储介质。

依据本发明的一方面，提供了一种人机语音交互方法，包括：

获取用于语音交互的基础信息，基础信息包括语音识别结果和最近一次的机器响应内容；

判断基础信息是否符合机器响应条件；

根据语音识别结果确定待作出机器响应的用户语句，以使应答模块根据待作出机器响应的用户语句确定下一次的机器响应内容。

优选的，在上述方法中，判断基础信息是否符合机器响应条件包括：

根据基础信息确定如下的至少一类响应特征：语义完整性特征，匹配特征，离散特征；

根据确定的响应特征判断基础信息是否符合机器响应条件。

优选的，在上述方法中，根据确定的响应特征判断所述基础信息是否符合机器响应条件包括：

在确定的响应特征有多类的情况下，将确定的各类响应特征进行融合，得到融合响应特征；

基于二分类模型和融合响应特征确定基础信息是否符合机器响应条件。

优选的，在上述方法中，语音识别结果包括最近一次未作出机器响应的用户语句，判断基础信息是否符合机器响应条件包括：

根据语言模型确定最近一次未作出机器响应的用户语句的语义完整度；

在语义完整度大于第一预设阈值的情况下，确定基础信息符合机器响应条件。

优选的，在上述方法中，语音识别结果包括未作出机器响应的用户语句，判断基础信息是否符合机器响应条件包括：

根据匹配模型确定最近一次的机器响应内容与语音识别结果的关联度；

在关联度大于第二预设阈值的情况下，确定基础信息符合机器响应条件。

优选的，在上述方法中，语音识别结果包括未作出机器响应的用户语句和断句信息，判断基础信息是否符合机器响应条件包括：

根据断句信息对未作出机器响应的用户语句进行离散化处理，得到未作出机器响应的用户语句的离散特征；

基于语言模型，提取未作出机器响应的用户语句的文本特征，根据离散特征对文本特征进行特征融合和/或特征过滤处理，得到增强特征，并根据增强特征确定所述基础信息是否符合机器响应条件。

优选的，在上述方法中，语音识别结果包括未作出机器响应的用户语句，根据语音识别结果确定待作出机器响应的用户语句包括：

确定最近一次未作出机器响应的用户语句与其他未作出机器响应的用户语句的相似度；

在相似度小于第三预设阈值的情况下，将最近一次未作出机器响应的用户语句与其他未作出机器响应的用户语句进行融合，将得到的融合语句作为待响应基础语句，根据待响应基础语句确定待作出机器响应的用户语句。

优选的，在上述方法中，根据语音识别结果确定待作出机器响应的用户语句还包括：

在相似度不小于第三预设阈值的情况下，将最近一次未作出机器响应的语句作为待响应基础语句，根据待响应基础语句确定待作出机器响应的用户语句。

优选的，在上述方法中，语音识别结果还包括断句信息，根据语音识别结果确定待作出机器响应的用户语句还包括：

根据断句信息对待响应基础语句进行离散化处理。

依据本申请的另一方面，提供了一种人机语音交互装置，该装置包括：

获取单元，用于获取用于语音交互的基础信息，基础信息包括语音识别结果和最近一次的机器响应内容；

时机判断单元，用于判断基础信息是否符合机器响应条件；

语句确定单元，用于根据语音识别结果确定待作出机器响应的用户语句，以使应答模块根据待作出机器响应的用户语句确定下一次的机器响应内容。

优选的，在上述装置中，时机判断单元，用于根据基础信息确定如下的至少一类响应特征：语义完整性特征，匹配特征，离散特征；并用于根据确定的响应特征判断基础信息是否符合机器响应条件。

优选的，在上述装置中，时机判断单元，用于在确定的响应特征有多类的情况下，将确定的各类响应特征进行融合，得到融合响应特征；并用于基于二分类模型和融合响应特征确定基础信息是否符合机器响应条件。

优选的，在上述装置中，语音识别结果包括最近一次未作出机器响应的用户语句，时机判断单元，用于根据语言模型确定最近一次未作出机器响应的用户语句的语义完整度；以及用于在语义完整度大于第一预设阈值的情况下，确定基础信息符合机器响应条件。

优选的，在上述装置中，语音识别结果包括未作出机器响应的用户语句，时机判断单元，用于根据匹配模型确定最近一次的机器响应内容与语音识别结果的关联度；以及用于在关联度大于第二预设阈值的情况下，确定基础信息符合机器响应条件。

优选的，在上述装置中，语音识别结果包括未作出机器响应的用户语句和断句信息，时机判断单元，用于根据断句信息对未作出机器响应的用户语句进行离散化处理，得到未作出机器响应的用户语句的离散特征；并基于语言模型，提取未作出机器响应的用户语句的文本特征，根据离散特征对文本特征进行特征融合和/或特征过滤处理，得到增强特征，并根据增强特征确定所述基础信息是否符合机器响应条件。

优选的，在上述装置中，语音识别结果包括未作出机器响应的用户语句，语句确定单元，用于确定最近一次未作出机器响应的用户语句与其他未作出机器响应的用户语句的相似度；以及用于在相似度小于第三预设阈值的情况下，将最近一次未作出机器响应的用户语句与其他未作出机器响应的用户语句进行融合，将得到的融合语句作为待响应基础语句，根据待响应基础语句确定待作出机器响应的用户语句。

优选的，在上述装置中，语句确定单元，还用于在相似度不小于第三预设阈值的情况下，将最近一次未作出机器响应的语句作为待响应基础语句，根据待响应基础语句确定待作出机器响应的用户语句。

优选的，在上述装置中，语音识别结果还包括断句信息，语句确定单元还用于根据断句信息对待响应基础语句进行离散化处理。

依据本申请的又一方面，提供了一种电子设备，其中，该电子设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，可执行指令在被执行时使处理器执行如上任一的方法。

依据本申请的再一方面，提供了一种计算机可读存储介质，其中，计算机可读存储介质存储一个或多个程序，一个或多个程序当被处理器执行时，实现如上任一的方法。

由上述可知，本申请的技术方案，通过获取用于语音交互的基础信息，基础信息包括语音识别结果和最近一次的机器响应内容；判断基础信息是否符合机器响应条件；在基础信息符合机器响应条件的情况下，根据语音识别结果确定待作出机器响应的用户语句，以使应答模块根据待作出机器响应的用户语句确定下一次的机器响应内容。本申请的有益效果在于：将现有技术中的控制模块与应答模块独立开来，显著降低了模块之间的耦合，且通过机器响应条件的设定，对下发至应答模块的语句信息进行下发时机的控制以及内容的过滤、筛选或融合，将人机语音交互的双工模式转化为单工模式，极大的提升了用户的体验感受，且极大程度上减轻了应答模块的负担，为应答模块的其他能力发展提供了空间，扩展了外呼机器人的应用场景。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本申请一个实施例的人机语音交互方法的流程示意图；

图2示出了根据本申请一个实施例的判断基础信息是否符合机器响应条件的流程示意图；

图3示出了根据本申请另一个实施例的人机语音交互方法的流程示意图；

图4示出了根据本申请一个实施例的人机语音交互装置的结构示意图；

图5示出了根据本申请一个实施例的电子设备的结构示意图；

图6示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

人机语音交互也称人机对话，现有技术中过于依赖语音识别模型(AutomaticSpeech Recognition，ASR)给出的语音活动检测(Voice Activity Detection,VAD)信号，通常在收到VAD后，经过简单的处理即交由下游处理。这种方式存在以下几个弊端：第一、VAD更多的是基于传统的信号检测理论实现，缺少必要的语义信息，难以完全刻画出用户是否表达完整了句子，以及接下来是否还会继续针对这个问题发言，有一些技术在VAD后引入专家规则或者轻量级模型，但只能在一定程度上缓解问题；第二，并不是每个VAD都要进行处理，如机器与用户共同说话，用户主动退让，待机器说完后重新组织语言，此时用户前序的话语是无效的；第三，每一次下发语句请求自然语言处理(Natural LanguageProcessing，NLP)或者自然语言理解(Natural Language Understanding，NLU)，得到用户表征的意图后，都需要回复用户，更改对话管理模块(Dialog Management，DM)的状态。一旦处理了无效的话语，既可能给意图识别带来困扰，又需要对话管理模块支持状态回退给复杂操作，增大了下游各模块的设计难度。

本申请的构思在于：针对现有技术并没有较好的解决良好的对话节奏需要关注三个问题，降低了用户对话体验的同时，还加重了下游其他模块的设计和处理负担的问题，提出了一种单工模式的人机语音交互方法，该方法能够极大程度上减轻了下游服务的负担，且显著提升用户的体验感受。

图1示出了根据本申请一个实施例的人机语音交互方法的流程示意图，该方法包括：

步骤S110，获取用于语音交互的基础信息，基础信息包括语音识别结果和最近一次的机器响应内容。

目前人机语音对话大多是互问互答的模式，用户在与机器问答的过程中，获得想要了解的信息。

而良好的人机对话节奏应该满足以下几点：一、用户已经表述了完整的意思，且接下来不会再说话，此时机器应该及时响应；二、机器正在播放，用户有明显的打断倾向或者已经猜到了机器想说的内容而提前回复，此时机器应该停止播放，并且决策是否针对用户的话给出回复；三、用户表述的话可能比较长，可能有多处停顿，可能有语义层面的重复，机器应该综合权衡该如何取舍用户当前的所有表述。目前现有技术中人机对话为双工模式，即存在机器与用户同时说话的情况，极大程度上降低了用户的体验感受。

为此，提出了本申请的方法，该方法可用于双工控制器中，双工控制器用于连接外呼机器人的语音识别模型与下游模块，下游模块包括但不限于应答模块，首先获取用于语音交互的基础信息，基础信息包括语音识别结果和最近一次的机器响应内容。

语音识别结果识别结果是基于语音识别模型(Automatic Speech Recognition，ASR)，对用户在人机语音交互中的语句表达进行的识别的结果，如识别出用户的问题(query)。

除语音识别结果外，获取用于语音交互的基础信息还包括机器给出的最近一次的响应内容，可以用来与语音识别结果结合，用于后续是否满足机器响应条件的判断。

步骤S120，判断基础信息是否符合机器响应条件。

想要拥有良好的对话节奏，需要解决三个主要问题：一、什么时候将用户的表述下发至应答模块，本申请中的应答模块属于常规意义的下游模块，但下游模块不仅包含应答功能；二、将用户的哪些表述下发至应答模块；三、应答模块什么时候机器回复用户。其中，如果第一方面和第二方面解决的比较好的话，第三方面可以忽略，可认为应答模块在接收到下发的用户表达后会立即回复用户。

关于将用户语句或表达下发至应答模块的时机，可以通过设置一定的机器响应条件来实现。

如检测到用户静默的时长大于预设时长，则认为用户已表述完毕，正在等待机器回复，这时可将获取到的基础信息下发至应答模块，待应答模块回复。在此过程中，可采用二分类算法确定该用户表达语句是否下发至应答模块，二分类算法可采用现有技术中的任意一种，如广义的线性回归Logistic回归。

步骤S130，根据语音识别结果确定待作出机器响应的用户语句，以使应答模块根据待作出机器响应的用户语句确定下一次的机器响应内容。

在确定了用户的一段语句对应的特性信息符合机器响应结果后，不会把这些基础信息直接发送给应答模块，因为在这些语句中极大程度上存在于对话问题不相关的或者重复累赘的内容，如用户说了五句话，其中只有一句是问题，需要机器作出响应。在本实施例中，根据语音识别结果对未作出机器响应的语句进行筛选，将真正需要机器响应的用户语句对应的基础信息发送至应答模块，这样减轻下游服务的负担，应答模块在接收到基础信息后，即使根据语音识别结果确定下一次的机器响应内容。

在现有技术中，不对用户表达语句进行筛选，将全部的用户表达语句经简单处理直接下发至应答模块，应答模块对全部的用户表达语句均需做出回复，这造成应答模块的任务量极大，很难在发展其他能力；此外，下放至应答模块的用户表达语句中有很多无效表达、重复表达、或不完全表达，应答模块对每一条均进行即时回复，就出现了一个问题答复多次，并且出现与用户“抢话说”的场景，本实施例所述方法可避免上述现象。

从图1中的方法可以看出，将现有技术中的控制模块与应答模块独立开来，显著降低了模块之间的耦合，且通过机器响应条件的设定，对下发至应答模块的语句信息进行下发时机的控制以及内容的过滤、筛选或融合，将人机语音交互的双工模式转化为单工模式，极大的提升了用户的体验感受，且极大程度上减轻了应答模块的负担，为应答模块的其他能力发展提供了空间，扩展了外呼机器人的应用场景。

在本申请中的一个实施例中，在上述方法中，判断基础信息是否符合机器响应条件包括：根据基础信息确定如下的至少一类响应特征：语义完整性特征，匹配特征，离散特征；根据确定的响应特征判断基础信息是否符合机器响应条件。

本申请通过设置机器响应条件，可以控制基础信息下发的时间，从而达到控制人机对话节奏的目的。本实施例中，响应特征为语义完整性特征，匹配特征，离散特征中的至少一项。

语义完整性是表征一句话要表达的含义是否完整，如果将语义不完整的语句下发至应答模块，会使应答模块不能充分领会用户的意图，不能作出准确或全面的应答。

匹配特征是表征用户表达的语句与机器作出的响应是否相关，如当机器对用户提出一个问题，用户针对问题进行阐述，但是用户也可能根据上一轮问题或自己的想法阐述一些其他内容，这些内容与机器提出的问题并不相关，因此，通过设置匹配特征，能够判断出用户已经根据机器的问题进行了阐述，说明用户的表达完成了，此时，再对用户语句下发至应答模块，不会造成用户没有表达完，机器就“插话”的现象。

离散特征包括但不限于句长、关键词、语调、句号结尾或问号结尾等，其可与语义完整性特征和匹配特征融合在一起，用于判断是否符合机器应答条件。

上述三项响应特征，可以单独用来判断，也可以综合来判断，本申请推荐后者作为一种优选的技术方案。

在本申请中的一个实施例中，在上述方法中，根据确定的响应特征判断所述基础信息是否符合机器响应条件包括：在确定的响应特征有多类的情况下，将确定的各类响应特征进行融合，得到融合响应特征；基于二分类模型和融合响应特征确定基础信息是否符合机器响应条件。

当确定的响应特征有多类的情况下，将上述语义完整性特征、匹配特征和离散特征中的两个或三个进行特征融合，得到融合响应特征，将融合响应特征输入训练好的二分类模型，来确定基础信息是否符合机器响应条件，即是否下发至应答模块。

在本申请的一个实施例中，在上述方法中，语音识别结果包括最近一次未作出机器响应的用户语句，判断基础信息是否符合机器响应条件包括：根据语言模型确定最近一次未作出机器响应的用户语句的语义完整度；在语义完整度大于第一预设阈值的情况下，确定基础信息符合机器响应条件。

本实施中通过判断用户语句的语义完整性来确定基础信息是否符合机器响应条件，其中，用户语句是最近一次未作出机器响应的用户语句。

判断一句话是否语义完整是语义完整性分析的主要工作之一，本实施例中，引入了语言模型判断语句的语义完整性，基于的假设是只有用户表述的信息完整，用户才有可能说完话，所以当确定用户表达的语句的语义是完整的即可认为用户已说完话等待机器响应，因此，本申请将用户语句的语义完整度作为判断是否符合机器响应的条件。

对于语义完整性的评价方法，可以采用基于神经网络的机器学习方法，如首先对文本进行分词，映射为相应的词向量并进行标注，然后将词向量和标注信息通过循环窗口和欠采样方法处理后，作为神经网络的输入，经过训练最后得到模型。将用户语句的语音识别结果输入，得到相应的语义完整度值。

再将语义完整度与第一预设阈值做比较，在语义完整度大于第一预设阈值的情况下，确定基础信息符合机器响应条件，即将该用户表达语句对应的基础信息下发至应答模块，等待响应。

在语义完整度不大于第一预设阈值的情况下，继续采集用户的语句，直至符合机器响应条件。

在本申请的一个实施例中，在上述方法中，语音识别结果包括未作出机器响应的用户语句，判断基础信息是否符合机器响应条件包括：根据匹配模型确定最近一次的机器响应内容与语音识别结果的关联度；在关联度大于第二预设阈值的情况下，确定基础信息符合机器响应条件。

在本实施例中了引入了匹配模型，来判断人机交互的匹配或关联程度，基于的假设是只有用户表述的内容与机器表述的匹配度或关联度高，用户才有可能不再继续表述，也就是说针对机器说的话或问出的一个问题，用户进行回答，如果用户说话过程中，虽然有停顿，也就是一段时间的静默，但是机器检测到用户之前说的话与机器所提出的问题没有关联，那么认为用户并没有表达完全，虽然已经检测出比预定时长更长的静默期，仍然认为用户没有说完，此时，并不下发用户表达的语句对应的基础信息至应答模块，直至确定最近一次的机器响应内容与语音识别结果的关联度大于第二预设阈值的情况下，才确定基础信息符合机器响应条件，即下发用户表达的语句对应的基础信息至应答模块。

在本申请的一个实施例中，在上述方法中，语音识别结果包括未作出机器响应的用户语句和断句信息，判断基础信息是否符合机器响应条件包括：根据断句信息对未作出机器响应的用户语句进行离散化处理，得到未作出机器响应的用户语句的离散特征；基于语言模型，提取未作出机器响应的用户语句的文本特征，根据离散特征对文本特征进行特征融合和/或特征过滤处理，得到增强特征，并根据增强特征确定所述基础信息是否符合机器响应条件。

语音识别模型在对用户表达的语句进行识别处理时，能够同时给出该语句的断句信息，本实施例中，语音识别结果包括未作出机器响应的用户语句及相应的断句信息，根据断句信息对未作出机器响应的用户语句进行离散化处理，得到未作出机器响应的用户语句的离散特征，所述离散特征包括但不限于，关键词、句长、语调等。

基于语言模型，提取未作出机器响应的用户语句的文本特征，根据离散特征对文本特征进行特征融合和/或特征过滤处理，得到增强特征，如用户语句是否以关键词结尾，根据语调判断该用户语句是否以句号结尾等。

最后，根据增强特征确定所述基础信息是否符合机器响应条件，可根据预设条件，如句长大于预设句长，以关键词结尾，以句号结尾等，则认为该基础信息符合机器响应条件。

上述的语义完整性、关联度、以及增强特征的判断方法可以单独使用，也可以综合使用，本申请推荐综合考虑为一种优选的技术方案，这里举两个实施例加以说明：

在一个实施例中，可以先根据语音识别模型的结果，通过语言模型先确定最近一次未作出机器响应的用户语句的语义完整度，在语义完整度大于第一预设阈值的情况下，通过匹配模型确定最近一次未作出机器响应的用户语句与机器最近一次的响应语句的关联度，在二者的关联度大于第二预设阈值的情况下，再通过断句信息根据语音识别模型处理得到的相应的文本特征，获得增强特征，判断增强特征是否满足预设条件，若满足则确定最近一次未作出机器响应的用户语句对应的基础信息满足机器响应条件。该方案虽然能够将几种方式融合在一起，但是不够鲁棒，过分强调了先后判断顺序。

在另一个实施例中，则没有采用这种串行的判断逻辑。图2示出了根据本申请一个实施例的判断基础信息是否符合机器响应条件的流程示意图。如图2所示，第一方面，根据语音识别模型的结果，通过语言模型先确定最近一次未作出机器响应的用户语句的语义完整度；第二方面，通过匹配模型确定最近一次未作出机器响应的用户语句与机器最近一次的响应语句的关联度；第三方面，根据断句信息对未作出机器响应的用户语句进行离散化处理，得到未作出机器响应的用户语句的离散特征，三方面可以同时进行。最后将语义完整度、关联度以及离散特征融合在一起，得到融合响应特征，二分类模型根据融合特征判断基础信息是否符合机器响应条件。

通过上述的判断过程，更好的解决了对用户表达的下发至应答模块的时机问题，不会出现用户还没有表达完全，机器就开始说话的现象，避免了机器与用户同时说话的现象，极大程度上提高了用户的体验感受。

在本申请的一个实施例中，在上述方法中，语音识别结果包括未作出机器响应的用户语句，根据语音识别结果确定待作出机器响应的用户语句包括：确定最近一次未作出机器响应的用户语句与其他未作出机器响应的用户语句的相似度；在相似度小于第三预设阈值的情况下，将最近一次未作出机器响应的用户语句与其他未作出机器响应的用户语句进行融合，将得到的融合语句作为待响应基础语句，根据所述待响应基础语句确定待作出机器响应的用户语句。

在未作出机器响应的用户语句中不仅包括最后一次未作出机器响应的用户语句，还包括历史未作出机器响应的用户语句，以及其它形式的未作出机器响应的用户语句。在这些用户语句中，用户有可能是将同一个问题反复阐述，也有可能是针对不同问题的表达，为了解决信息的冗余造成应答模块的负担过重，同时又不遗漏信息的问题，可根据未作出机器响应的用户语句之间的相似性来加以区分。

具体的，确定最近一次未作出机器响应的用户语句与其他未作出机器响应的用户语句的相似度；在相似度小于第三预设阈值的情况下，说明二者在阐述不同的问题，或者针对同一个问题从不同角度阐述，这些信息对应答模式作出响应都是有用的，为了防止信息的遗漏，在这种情况下，将最近一次未作出机器响应的用户语句与其他未作出机器响应的用户语句进行融合，得到的融合语句，将该融合语句作为待响应的基础语句，可以将基础语句直接下发至应答模块，以使应答模块根据该基础语句做出机器应答；也可进一步的根据所述待响应基础语句确定待作出机器响应的用户语句，如提取关键词等方式。

而在所述相似度不小于第三预设阈值的情况下，说明上述语句的相似度高度一致，通常情况下，最近一次未作出机器响应的语句为用户总结出的最完善的语句，此时，将最近一次未作出机器响应的语句作为待响应基础语句，根据所述待响应基础语句确定待作出机器响应的用户语句，下发是应答模块，以使应答模块做出机器响应，这样减轻了应答模块的负担，以及信息的冗余。

在本申请的一个实施例中，在上述方法中，语音识别结果还包括断句信息，根据语音识别结果确定待作出机器响应的用户语句还包括：根据所述断句信息对所述待响应基础语句进行离散化处理。

机器在对问题进行回答时，可能存在根据关键词作答等情景，关键词如身高、体重等。根据断句信息对所述待响应基础语句进行离散化处理，可得到基础语句的离散特征，这时，将这些离散特征发送至应答模块，可以简化问题，使应答模块能高效的、更快速、更准确的做出机器响应。

通过对未作出机器响应的用户语句的筛选，获取到最精准的用户语句，显著降低了应答模块的工作量，且提升了机器响应的精准性，避免了一个问题重复答复的现象。

图3示出了根据本申请另一个实施例的人机语音交互方法的流程示意图。首先获取基础信息，包括：当轮(最近一次)机器响应内容，获取未作出机器响应的用户语句及断句信息，其中未作出机器响应的用户语句包括当轮(即最近一次)未作出机器响应的用户语句和历史未作出机器响应的用户语句。

然后对该基础信息是否下发至应答模块作出判断，根据语言模型确定最近一次未作出机器响应的用户语句的语义完整度；根据匹配模型确定最近一次机器响应内容与未作出机器响应的用户语句的关联度；以及根据断句信息，得到离散特征。

根据语义完整度、关联度和离散特征得到融合响应特征后，基于二分类模型确定符合机器响应条件后，再进行下发内容的确定。确定最近一次未作出机器响应的用户语句与其他未作出机器响应的用户语句的相似度，判断相似度是否大于第三预设阈值，在相似度小于第三预设阈值的情况下，将最近一次未作出机器响应的用户语句与其他未作出机器响应的用户语句进行融合，将得到的融合语句作为待响应基础语句；在相似度不小于第三预设阈值的情况下，将最近一次未作出机器响应的语句作为待响应基础语句。对待响应基础语句，根据所述断句信息进行离散化处理，将离散化处理的结果下发至应答模块，以使应答模块作出机器响应。

图4示出了根据本申请一个实施例的人机语音交互装置的结构示意图；该人机语音交互装置400包括：

获取装置410，用于获取用于语音交互的基础信息，基础信息包括语音识别结果和最近一次的机器响应内容。

为此，提出了本申请，首先获取用于语音交互的基础信息，基础信息包括语音识别结果和最近一次的机器响应内容。

时机判断单元420，用于判断基础信息是否符合机器响应条件。

语句确定单元430，用于根据语音识别结果确定待作出机器响应的用户语句，以使应答模块根据待作出机器响应的用户语句确定下一次的机器响应内容。

在确定了用户的一段语句对应的特性信息符合机器响应结果后，不会把这些基础信息直接发送给应答模块，因为在这些语句中极大程度上存在于对话问题不相关的或者重复累赘的内容，如用户说了5句话，其中只有一句是问题，需要机器作出响应。在本实施例中，根据语音识别结果对未作出机器响应的语句进行筛选，将真正需要机器响应的用户语句对应的基础信息发送至应答模块，这样减轻下游服务的负担，应答模块在接收到基础信息后，即使根据语音识别结果确定下一次的机器响应内容。

在现有技术中，不对用户表达语句进行筛选，将全部的用户表达语句经简单处理直接下发至应答模块，应答模块对全部的用户表达语句均需做出回复，这造成应答模块的任务量极大，很难在发展其他能力；此外，下放至应答模块的用户表达语句中有很多无效表达、重复表达、或不完全表达，应答模块对每一条均进行即时回复，就出现了一个问题答复多次，并且出现与用户“抢话说”的场景。本实施例所述方法可避免上述现象。

从图4中的可以看出，将现有技术中的控制模块与应答模块独立开来，显著降低了模块之间的耦合，且通过机器响应条件的设定，对下发至应答模块的语句信息进行下发时机的控制以及内容的过滤、筛选或融合，将人机语音交互的双工模式转化为单工模式，极大的提升了用户的体验感受，且极大程度上减轻了应答模块的负担，为应答模块的其他能力发展提供了空间，扩展了外呼机器人的应用场景。

在本申请的一个实施例中，在上述装置中，时机判断单元420，用于根据基础信息确定如下的至少一类响应特征：语义完整性特征，匹配特征，离散特征；并用于根据确定的响应特征判断基础信息是否符合机器响应条件。

在本申请的一个实施例中，在上述装置中，时机判断单元420，用于在确定的响应特征有多类的情况下，将确定的各类响应特征进行融合，得到融合响应特征；并用于基于二分类模型和融合响应特征确定基础信息是否符合机器响应条件。

在本申请的一个实施例中，在上述装置中，语音识别结果包括最近一次未作出机器响应的用户语句，时机判断单元420，用于根据语言模型确定最近一次未作出机器响应的用户语句的语义完整度；以及用于在语义完整度大于第一预设阈值的情况下，确定基础信息符合机器响应条件。

在本申请的一个实施例中，在上述装置中，语音识别结果包括未作出机器响应的用户语句，时机判断单元420，用于根据匹配模型确定最近一次的机器响应内容与语音识别结果的关联度；以及用于在关联度大于第二预设阈值的情况下，确定基础信息符合机器响应条件。

在本申请的一个实施例中，在上述装置中，语音识别结果包括未作出机器响应的用户语句和断句信息，时机判断单元420，用于根据断句信息对未作出机器响应的用户语句进行离散化处理，得到未作出机器响应的用户语句的离散特征；并基于语言模型，提取未作出机器响应的用户语句的文本特征，根据离散特征对文本特征进行特征融合和/或特征过滤处理，得到增强特征，并根据增强特征确定所述基础信息是否符合机器响应条件。

在本申请的一个实施例中，在上述装置中，语音识别结果包括未作出机器响应的用户语句，语句确定单元430，用于确定最近一次未作出机器响应的用户语句与其他未作出机器响应的用户语句的相似度；以及用于在相似度小于第三预设阈值的情况下，将最近一次未作出机器响应的用户语句与其他未作出机器响应的用户语句进行融合，将得到的融合语句作为待响应基础语句，根据待响应基础语句确定待作出机器响应的用户语句。

在本申请的一个实施例中，在上述装置中，语句确定单元430，还用于在相似度不小于第三预设阈值的情况下，将最近一次未作出机器响应的语句作为待响应基础语句，根据待响应基础语句确定待作出机器响应的用户语句。

在本申请的一个实施例中，在上述装置中，语音识别结果还包括断句信息，语句确定单元430，还用于根据断句信息对待响应基础语句进行离散化处理。

需要说明的是，上述实施例中的装置可分别用于执行前述实施例中的方法，因此不再一一进行具体的说明。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个申请方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，申请方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的人机语音交互装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图5示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备500包括处理器510和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器520。存储器520可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器520具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码531的存储空间530。例如，用于存储计算机可读程序代码的存储空间530可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码531。计算机可读程序代码531可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图6所述的计算机可读存储介质。图6示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质600存储有用于执行根据本申请的方法步骤的计算机可读程序代码531，可以被电子设备500的处理器510读取，当计算机可读程序代码531由电子设备500运行时，导致该电子设备500执行上面所描述的方法中的各个步骤，具体来说，该计算机可读存储介质存储的计算机可读程序代码531可以执行上述任一实施例中示出的方法。计算机可读程序代码531可以以适当形式进行压缩。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种人机语音交互方法，其特征在于，包括：

获取用于语音交互的基础信息，所述基础信息包括语音识别结果和最近一次的机器响应内容；

判断所述基础信息是否符合机器响应条件；

根据语音识别结果确定待作出机器响应的用户语句，以使应答模块根据待作出机器响应的用户语句确定下一次的机器响应内容；

其中，所述语音识别结果包括未作出机器响应的用户语句，所述根据语音识别结果确定待作出机器响应的用户语句包括：

在所述相似度小于第三预设阈值的情况下，将最近一次未作出机器响应的用户语句与其他未作出机器响应的用户语句进行融合，将得到的融合语句作为待响应基础语句，根据所述待响应基础语句确定待作出机器响应的用户语句。

2.根据权利要求1所述的方法，其特征在于，所述判断所述基础信息是否符合机器响应条件包括：

根据所述基础信息确定如下的至少一类响应特征：语义完整性特征，匹配特征，离散特征；

根据确定的响应特征判断所述基础信息是否符合机器响应条件。

3.根据权利要求2所述的方法，其特征在于，所述根据确定的响应特征判断所述基础信息是否符合机器响应条件包括：

基于二分类模型和所述融合响应特征确定所述基础信息是否符合机器响应条件。

4.根据权利要求1所述的方法，其特征在于，所述语音识别结果包括最近一次未作出机器响应的用户语句，所述判断所述基础信息是否符合机器响应条件包括：

在所述语义完整度大于第一预设阈值的情况下，确定所述基础信息符合机器响应条件。

5.根据权利要求1所述的方法，其特征在于，所述判断所述基础信息是否符合机器响应条件包括：

在所述关联度大于第二预设阈值的情况下，确定所述基础信息符合机器响应条件。

6.根据权利要求1所述的方法，其特征在于，所述语音识别结果包括断句信息，所述判断所述基础信息是否符合机器响应条件包括：

根据所述断句信息对所述未作出机器响应的用户语句进行离散化处理，得到未作出机器响应的用户语句的离散特征；

基于语言模型，提取未作出机器响应的用户语句的文本特征，根据所述离散特征对所述文本特征进行特征融合和/或特征过滤处理，得到增强特征，并根据所述增强特征确定所述基础信息是否符合机器响应条件。

7.根据权利要求1所述的方法，其特征在于，所述根据语音识别结果确定待作出机器响应的用户语句还包括：

在所述相似度不小于第三预设阈值的情况下，将最近一次未作出机器响应的语句作为待响应基础语句，根据所述待响应基础语句确定待作出机器响应的用户语句。

8.根据权利要求1或7所述的方法，其特征在于，所述语音识别结果还包括断句信息，所述根据语音识别结果确定待作出机器响应的用户语句还包括：

根据所述断句信息对所述待响应基础语句进行离散化处理。

9.一种人机语音交互装置，其特征在于，该装置包括：

获取单元，用于获取用于语音交互的基础信息，所述基础信息包括机器响应内容和语音识别结果，所述语音识别结果包括未作出机器响应的语句和断句信息；

时机判断单元，用于根据所述基础信息判断是否符合机器响应条件；

语句确定单元，用于根据语音识别结果确定待作出机器响应的用户语句，以使应答模块根据待作出机器响应的用户语句确定下一次的机器响应内容；

其中，根据语音识别结果确定待作出机器响应的用户语句包括：

在所述相似度小于第三预设阈值的情况下，将最近一次未作出机器响应的用户语句与其他未作出机器响应的用户语句进行融合，将得到的融合语句作为待响应基础语句，根据所述待响应基础语句确定待作出机器响应的用户语句；

其中，所述根据基础信息判断是否符合机器响应条件包括：

10.一种电子设备，其中，该电子设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如权利要求1-8中任一项所述的方法。