CN111506292A

CN111506292A - 用于人机对话的语音技能跳转方法、电子设备及存储介质

Info

Publication number: CN111506292A
Application number: CN202010296180.8A
Authority: CN
Inventors: 宋洪博; 樊帅; 李春
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-08-07
Anticipated expiration: 2040-04-15
Also published as: CN111506292B; EP4137931A4; JP7342286B2; WO2021208392A1; JP2023515254A; US20230352012A1; EP4137931A1

Abstract

本发明公开一种用于人机对话的语音技能跳转方法，应用于电子设备，所述方法包括：预先根据用户的历史人机对话数据构建领域迁移图，所述领域迁移图是包含了多个对话领域的有向图；接收外部语音；确定所述外部语音所命中的对话领域；判断所述命中的对话领域是否属于所述领域迁移图中的多个对话领域之一，若否则忽略所述外部语音，若是则跳转至所述命中的对话领域所对应的语音技能。本发明基于用户历史人机对话数据生成领域迁移图，并根据领域迁移图判断是否进行语音技能的跳转，由于历史人机对话数据反应了用户的交互习惯，从而对于明显异常的输入内容，结合领域迁移图就能够成功屏蔽掉，提高任务完成度和交互效率。

Description

用于人机对话的语音技能跳转方法、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种用于人机对话的语音技能跳转方法、电子设备及存储介质。

背景技术

现有的人机对话中的技能调度策略包括基于规则的任务型对话领域调度策略和基于规则的领域跳转策略两种。其中，

在基于规则的任务型对话领域调度策略中，用户与对话系统交互，当输入内容有歧义时，会命中多个语义领域(比如说“周杰伦”，可能命中音乐和百科领域)，基于规则的调度策略，按照配置好的顺序决定最终的语义领域(比如音乐领域排在配置表前面，就选中音乐领域)。缺点在于规则的配置顺序不一定是正确的，或者只是对于一部分用户是正确的。

在基于规则的领域跳转策略中，多轮对话技能，比如导航领域，基于规则的方式，关闭跳转开关则不能跳出技能，直到填满slot槽；或者打开跳转开关，噪声输入可能导致决定是否可以跳出当前领域。

缺点在于，若关闭领域跳转开关，用户不能进行领域切换显然是不方便的；若打开领域跳转开关，又容易因周围噪声人声等造成的误识别，影响对话流程。比如：用户在导航技能中，用户已经选中了起始地和目的地，准备开始导航了，由于噪声误输入了“天气”，可能会跳出导航技能造成对话上下文丢失，需要重新进行导航技能的填槽交互。

发明内容

本发明实施例提供一种用于人机对话的语音技能跳转方法、电子设备及存储介质，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种

用于人机对话的语音技能跳转方法，应用于电子设备，所述方法包括：

预先根据用户的历史人机对话数据构建领域迁移图，所述领域迁移图是包含了多个对话领域的有向图；

接收外部语音；

确定所述外部语音所命中的对话领域；

判断所述命中的对话领域是否属于所述领域迁移图中的多个对话领域之一，若否则忽略所述外部语音，若是则跳转至所述命中的对话领域所对应的语音技能。

第二方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项用于人机对话的语音技能跳转方法。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项用于人机对话的语音技能跳转方法。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项用于人机对话的语音技能跳转方法。

本发明实施例的有益效果在于：基于用户历史人机对话数据生成领域迁移图，并根据领域迁移图判断是否进行语音技能的跳转，由于历史人机对话数据反应了用户的交互习惯，从而对于明显异常的输入内容(比如，超出用户习惯之外的噪声)，结合领域迁移图就能够成功屏蔽掉，提高任务完成度和交互效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的用于人机对话的语音技能跳转方法的一实施例的流程图；

图2为本发明中的一种领域迁移图示意图；

图3为本发明的用于人机对话的语音技能跳转方法的另一实施例的流程图；

图4为实现本发明的用于人机对话的语音技能跳转方法的对话系统的一实施例的示意图；

图5为本发明的用于人机对话的语音技能跳转方法的又一实施例的流程图；

图6为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如图1所示，本发明的实施例提供一种用于人机对话的语音技能跳转方法，应用于人机对话设备，所述方法包括：

S10、预先根据用户的历史人机对话数据构建领域迁移图，所述领域迁移图是包含了多个对话领域的有向图。领域迁移图用于根据当前的领域状态，预测下个领域，并输出预测领域的置信度。

S20、接收外部语音。

S30、确定所述外部语音所命中的对话领域。

S40、判断所述命中的对话领域是否属于所述领域迁移图中的多个对话领域之一，若否则忽略所述外部语音，若是则跳转至所述命中的对话领域所对应的语音技能。

本实施例中基于用户历史人机对话数据生成领域迁移图，并根据领域迁移图判断是否进行语音技能的跳转，由于历史人机对话数据反应了用户的交互习惯，从而对于明显异常的输入内容(比如，超出用户习惯之外的噪声)，结合领域迁移图就能够成功屏蔽掉，提高任务完成度和交互效率。

在一些实施例中，对于步骤S10构建领域迁移图的示例如下：用户每进行一轮对话，系统将记录用户的环境信息，用户的交互领域，及交互领域的切换路径，直到对话结束，系统会记录交互的流程，并生成一条记录。

例如，用户交互流程如下，用户首先唤醒机器；

用户：导航到公司；

机器：为您找到2条路线，距离最近、用时最少，请问选择哪一条；

用户：用时最少；

机器：开始导航；

用户：我想听首歌；

机器：开始为您播放；

用户：换一首；

用户：明天苏州的天气；

机器：明天苏州晴......；

用户：退出吧。

如上交互流程，会生成相应的领域迁移图(参考图2)，弧上的数字表示在该领域的交互次数，2代表在导航领域有两轮交互。领域迁移图为加权有向图，根据用户的线上交互数据定期更新，随着用户使用数据的积累，结合用户的环境信息(例如，正在交互的用户，当前的时间，位置，场景，天气等)，可以带权重的领域迁移图，权重高的路径，可以反映出特定环境下用户的交互习惯。

下面举例两个示例，说明该专利解决的问题场景：

示例一：通过高频的用户习惯，减少错误的对话流程，提升交互效率和任务完成度。

用户A每天早上8：00从家开车去公司，上车后唤醒车机；

用户A：导航到公司；

这时车上的广播声音被识别到：周杰伦的歌；

机器：为您播放周杰伦的歌。

如上示例，周围不相关声音(周杰伦的歌)被机器识别，打断了用户A的多轮交互，这种情况是不希望发生的。通过领域迁移图，发现用户每天8点左右都会使用导航功能，并且导航的多轮交互中是不会迁移到其他对话领域的，若出现其他领域的语义(并且置信度不高)，则该次输入被认为是误操作，被系统屏蔽掉，从而减少噪声造成的错误输入。

示例二：用户输入不完整的句子，会造成领域解析的歧义，通过领域迁移图更准确地消歧。用户A的设备是一台智能音响，最常用的技能是音乐，则在领域迁移图中，听音乐的权重比较高，用户唤醒后，第一轮交互说：“刘德华”，音乐领域和百科领域都有返回值和置信度，通过领域迁移图，可以得知用户的习惯，从而正确解析用户的意图。

示例性地，所述领域迁移图包括多个子领域迁移图，所述多个子领域迁移图对应于多种不同的环境信息；所述环境信息至少包括当前时间、当前位置、当前场景和天气中的一种。

用于人机对话的语音技能跳转方法还包括：获取当前环境信息；根据所述当前环境信息确定所匹配的子领域迁移图；

所述判断所述命中的对话领域是否属于所述领域迁移图中的多个对话领域之一包括：判断所述命中的对话领域是否属于所述匹配的子领域迁移图中的多个对话领域之一。

如图3所示，为本发明的用于人机对话的语音技能跳转方法的另一实施例的流程图，在该实施例中，所述领域迁移图中的多个对话领域中的每一个对话领域配置有对话轮数；如图3所示本实施例中所述方法还包括：

S201、确定在接收外部语音之前提供服务的当前对话领域，所述当前对话领域属于所述领域迁移图；

S202、确定在所述当前对话领域下已经完成的对话轮数；

S203、若所述已经完成的对话轮数小于所述当前对话领域所配置的对话轮数，则忽略所述外部语音。

本实施例中在领域迁移图中的每个对话领域都根据用户的历史对话数据配置了对话轮数(对话轮数表示用户在该对话领域下通常进行几轮对话才跳出到其它对话领域)，并且本实施例中只有在确认当前对话领域下已经进行的对话轮数小于配置的对话轮数时，表明按照用户习惯可以确定还未完成当前对话领域的对话，因此忽略外部语音。

示例性地，在所述判断所述命中的对话领域是否属于所述领域迁移图中的多个对话领域之一之前还包括：

根据所述命中的对话领域确定相应的语义信息置信度；

如果所述语义信息置信度大于第一设定阈值，则跳转至所述命中的对话领域所对应的语音技能。

示例性地，所述命中的对话领域包括多个对话领域，相应的所述语义信息置信度包括多个语义信息置信度值；用于人机对话的语音技能跳转方法还包括：

如果所述多个语义信息置信度值中的多个值大于第二设定阈值，且等于或小于第一设定阈值，则根据所述领域迁移图的上下文状态预测下一个领域状态；

若所述多个值所对应的多个对话领域中存在对应于所述下一个领域状态的对话领域，则跳转至所述下一个领域状态所对应的语义技能；

否则，跳转至所述多个值中的最大值所对应的对话领域的语义技能。

示例性地，用于人机对话的语音技能跳转方法还包括：如果所述多个语义信息置信度值中的最大值等于或小于第二设定阈值，则根据所述外部语音的对话上下文确定当前对话场景是否为高频交互场景；对话上下文可以为当前正在进行的交互领域，从唤醒开始到当前领域的领域状态迁移路径。如果是，则根据对应于所述高频交互场景的领域迁移图匹配对应于所述外部语音的语音技能。

示例性地，用户交互行为会通过日志的方式记录下来，生成领域迁移图，通过算法分类识别其中的异常行为，异常数据通过人工标注的方式，纠正或删除该交互记录，持续训练更新领域迁移图。

如图4所示为实现本发明的用于人机对话的语音技能跳转方法的对话系统的一实施例的示意图，该系统包括：

客户端1，用户获取用户音频和用户环境信息；

接入服务单元2，用于调度服务资源；

识别服务单元3，用于对音频进行识别得到nbest识别结果；

NLP服务单元4，用于对nbest识别结果进行自然语言处理得到nbest语义领域；

用户画像服务单元5，用于根据用户环境信息、对话上下文信息和nbest语义领域确定命中技能；

对话服务单元6，用于服务于命中技能返回对应于用户音频的最终对话结果。

如图5所示为本发明的用于人机对话的语音技能跳转方法的另一实施例的流程示意图，该实施例包括以下步骤：

首先用户输入的音频送识别服务(同时携带环境信息上传给接入服务)，识别服务返nbest回识别结果；

nbest识别结果分别请求语义服务，对其进行语义解析，根据语义信息的置信度分别进行处理；

携带用户环境信息、对话上下文信息和当前nbest语义领域，请求用户画像服务；

用户画像服务根据领域迁移图状态，结合用户环境信息计算命中的语义领域；

判断nbest语义结果置信度中是否有大于threshold1的置信度；示例性地，threshold1的取值范围为[0.9,1]，本实施例中threshold1取值0.9；

若是则选择置信度最高的语义领域为命中的领域，认为该语义信息准确，直接请求对话服务并返回响应；

若nbest语义结果置信度小于threshold1，大于threshold2，且nbest的语义结果为多个领域，存在歧义问题，则根据领域迁移图的上下文状态，预测下个领域状态，若匹配nbest中的语义领域则选中该领域，请求对话服务；若没有匹配nbest的语义服务，则按照nbest语义置信度优先级选中语义领域。示例性地，threshold2的取值范围是[0.6,0.9]，本发明实施例中threshold2取值0.7。

若nbest语义结果置信度小于threshold2，发现该此交互的对话上下文，匹配中领域迁移图的高频交互路径，但领域迁移图的预测结果与用户输入语义结果不匹配，则丢弃该此输入，否则返回该语义的对话响应；若此次交互对话上下文不是高频交互路径，则按照规则方式，以nbest语义置信度优先级顺序选中语义领域。

本发明基于用户交互习惯，生成领域迁移图，根据用户交互过程中识别结果的nbest结果，结合环境信息和对话上下文等信息，更有效的识别用户意图，提高领域跳转的准确率；对于明显异常的输入内容(比如噪声)，结合领域切换状态图，屏蔽噪声输入，提高任务完成度和交互效率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项用于人机对话的语音技能跳转方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项用于人机对话的语音技能跳转方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行用于人机对话的语音技能跳转方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现用于人机对话的语音技能跳转方法。

图6是本申请另一实施例提供的执行用于人机对话的语音技能跳转方法的电子设备的硬件结构示意图，如图6所示，该设备包括：

一个或多个处理器610以及存储器620，图6中以一个处理器610为例。

执行用于人机对话的语音技能跳转方法的设备还可以包括：输入装置630和输出装置640。

处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。

存储器620作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的用于人机对话的语音技能跳转方法对应的程序指令/模块。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例用于人机对话的语音技能跳转方法。

存储器620可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用于人机对话的语音技能跳转装置的使用所创建的数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器620可选包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至用于人机对话的语音技能跳转装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可接收输入的数字或字符信息，以及产生与用于人机对话的语音技能跳转装置的用户设置以及功能控制有关的信号。输出装置640可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器620中，当被所述一个或者多个处理器610执行时，执行上述任意方法实施例中的用于人机对话的语音技能跳转方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种用于人机对话的语音技能跳转方法，应用于电子设备，所述方法包括：

接收外部语音；

确定所述外部语音所命中的对话领域；

2.根据权利要求1所述的方法，其中，所述领域迁移图中的多个对话领域中的每一个对话领域配置有对话轮数；所述方法还包括：

确定在接收外部语音之前提供服务的当前对话领域，所述当前对话领域属于所述领域迁移图；

确定在所述当前对话领域下已经完成的对话轮数；

若所述已经完成的对话轮数小于所述当前对话领域所配置的对话轮数，则忽略所述外部语音。

3.根据权利要求1所述的方法，其中，在所述判断所述命中的对话领域是否属于所述领域迁移图中的多个对话领域之一之前还包括：

根据所述命中的对话领域确定相应的语义信息置信度；

4.根据权利要求3所述的方法，其中，所述命中的对话领域包括多个对话领域，相应的所述语义信息置信度包括多个语义信息置信度值；所述方法还包括：

5.根据权利要求4所述的方法，其中，还包括：

如果所述多个语义信息置信度值中的最大值等于或小于第二设定阈值，则根据所述外部语音的对话上下文确定当前对话场景是否为高频交互场景；

如果是，则根据对应于所述高频交互场景的领域迁移图匹配对应于所述外部语音的语音技能。

6.根据权利要求1所述的方法，其中，所述领域迁移图包括多个子领域迁移图，所述多个子领域迁移图对应于多种不同的环境信息；所述方法还包括：

获取当前环境信息；

根据所述当前环境信息确定所匹配的子领域迁移图；

所述判断所述命中的对话领域是否属于所述领域迁移图中的多个对话领域之一包括：

判断所述命中的对话领域是否属于所述匹配的子领域迁移图中的多个对话领域之一。

7.根据权利要求6所述的方法，其中，所述环境信息至少包括当前时间、当前位置、当前场景和天气中的一种。

8.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任意一项所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任意一项所述方法的步骤。