CN110223692B

CN110223692B - 用于语音对话平台跨技能的多轮对话方法及系统

Info

Publication number: CN110223692B
Application number: CN201910506166.3A
Authority: CN
Inventors: 王迪奇; 张顺
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2021-08-13
Anticipated expiration: 2039-06-12
Also published as: CN110223692A

Abstract

本发明实施例提供一种用于语音对话平台跨技能的多轮对话方法。该方法包括：识别用户的输入语句命中第一技能，基于第一技能反馈第一输出语句，并且至少将第一输出语句中包括的关键词以及关键词对应的通用类型存储至多轮对话关键词表；当后续输入语句跳转至命中第二技能时，若缺少某一关键词时，从多轮对话关键词表中获取与某一关键词类型相同的历史的关键词；根据获取到的历史的关键词补充后续输入语句，基于第二技能反馈第二输出语句。本发明实施例还提供一种用于语音对话平台跨技能的多轮对话系统。本发明实施例将命中技能的语义结果提取，使用通用的类型保存到多轮对话关键词表中，并通过一系列处理实现了在语音对话中跨技能可以使用上下文。

Description

用于语音对话平台跨技能的多轮对话方法及系统

技术领域

本发明涉及智能语音对话领域，尤其涉及一种用于语音对话平台跨技能的多轮对话方法及系统。

背景技术

多轮对话在人机交互中，用户发出对话请求(可以认为是一个意图)，在初步明确用户意图之后，获取必要信息，以最终得到明确用户指令，进而对话服务根据技能定制的回复给用户做出反馈。

即便是人与人之间的交流，一句话的本身所包含的信息也只占总传递信息量的一部分，另一部分信息来源于说话人的身份、当前时间、地点等一系列信息。例如，用户要去苏州出差一周，向智能助手发问：苏州下周的温度如何？智能助手反馈：苏州下周温度适宜25°至30°。这时用户继续问到：会下雨吗？(此时，用户所说的这句话的信息量不足，缺少了地点和时间)智能助手反馈：苏州下周天气整体良好，下周三有雨，请注意防范。通过保存天气技能的上下文信息，在下一轮对话还命中相同的技能时，可以使用上下文语境将用户输入的话语补全。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

单项技能内的多轮对话，只保存该单项技能的上下文信息，只有在下一轮对话还命中相同的技能时，才能使用上下文语境，因此如果下一轮对话命中了其他技能，由于各技能定义的数据结构不一定相同，导致了数据类型不匹配，就无法使用上下文的语境对用户输入的话语进行补全。

发明内容

为了至少解决现有技术中由于各技能定义的数据结构不同，导致的在语音对话中跨技能是无法使用上下文对用户输入的话语进行补全的问题。

第一方面，本发明实施例提供一种用于语音对话平台跨技能的多轮对话方法，包括：

识别用户的输入语句命中第一技能，基于所述第一技能向用户反馈第一输出语句，并且至少将所述第一输出语句中包括的关键词以及所述关键词对应的通用类型存储至多轮对话关键词表；

当识别用户的后续输入语句跳转至命中第二技能时，若所述后续输入语句缺少某一关键词时，从所述多轮对话关键词表中获取与所述某一关键词类型相同的历史的关键词；

根据获取到的历史的关键词补充所述后续输入语句，基于所述第二技能向用户反馈第二输出语句。

第二方面，本发明实施例提供一种用于语音对话平台跨技能的多轮对话系统，包括：

存储程序模块，用于识别用户的输入语句命中第一技能，基于所述第一技能向用户反馈第一输出语句，并且至少将所述第一输出语句中包括的关键词以及所述关键词对应的通用类型存储至多轮对话关键词表；

关键词获取程序模块，用于当识别用户的后续输入语句跳转至命中第二技能时，若所述后续输入语句缺少某一关键词时，从所述多轮对话关键词表中获取与所述某一关键词类型相同的历史的关键词；

反馈程序模块，用于根据获取到的历史的关键词补充所述后续输入语句，基于所述第二技能向用户反馈第二输出语句。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音对话平台跨技能的多轮对话方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于语音对话平台跨技能的多轮对话方法的步骤。

本发明实施例的有益效果在于：通过在多轮对话中，将命中技能的语义结果提取，使用通用的类型保存到多轮对话关键词表中，在用户输入的对话语句缺少特定的关键词时，在多轮对话关键词表中获取与所述缺少的特定关键词的类型相同的关键词，作为参数一起处理，实现了在语音对话中跨技能可以使用上下文。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于语音对话平台跨技能的多轮对话方法的流程图；

图2是本发明一实施例提供的一种用于语音对话平台跨技能的多轮对话系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于语音对话平台跨技能的多轮对话方法的流程图，包括如下步骤：

S11：识别用户的输入语句命中第一技能，基于所述第一技能向用户反馈第一输出语句，并且至少将所述第一输出语句中包括的关键词以及所述关键词对应的通用类型存储至多轮对话关键词表；

S12：当识别用户的后续输入语句跳转至命中第二技能时，若所述后续输入语句缺少某一关键词时，从所述多轮对话关键词表中获取与所述某一关键词类型相同的历史的关键词；

S13：根据获取到的历史的关键词补充所述后续输入语句，基于所述第二技能向用户反馈第二输出语句。

在本实施方式中，可以将本方法适配在各种智能设备中，例如，配置在智能音箱或者智能手机的语音助手中。以智能音箱为例，智能音箱有着多种语音技能供用户使用，例如百科技能、音乐技能、闹钟技能、订票技能等等。由于有这么多技能供用户使用，在用户使用时，可能就会出现跨技能的使用情况。

对于步骤S11，智能音箱识别用户输入语句命中第一技能，例如，用户输入：“章子怡的老公是谁？”。这句话命中了百科技能，这时，智能音箱进入百科技能查询用户提出的问题，通过内置百科技能的查询，确定出“汪峰”向用户输出反馈。同时，并且至少将所述输出语句中包括的关键词以及所述关键词对应的通用类型存储至多轮对话关键词表。例如，关键词就是“汪峰”，所述关键词对应的通用类型为：“人物”。由于不同技能中不同关键词的类型不一定同，例如，同样是一个人名，在音乐技能中，类型是“歌手”，在电视剧中，类型就是“演员”，在某个节目中，类型又是“主持人”。这就使得不同技能的对于同一人名而存储的类型各不相同，因此，为了避免这一情况，统一将使用通用类型进行存储。

对于步骤S12，智能音箱识别用户在后续的输入语句中，跳转至命中第二技能时，例如，在智能音箱向用户反馈“汪峰”后，用户继续说：“播放ta的歌”，这时从“百科技能”，跳转到“音乐技能”，在实验中，由于多轮对话存储的类型不匹配，一般的智能音箱或者语音助手，会向用户反馈“您要听谁的歌曲”。而搭载本方法的智能音箱在识别用户输入的语句中“ta”指代不清，缺少这一具体的关键词，进而会向所述多轮对话关键词表中获取与“ta”——“人物”类型相同的历史关键词“汪峰”。

对于步骤S13，根据获取到的历史的关键词补充所述后续输入语句，基于所述第二技能向用户反馈第二输出语句，例如，在智能音箱将用户说的“播放ta的歌”补充为“播放汪峰的歌”，这时，通过内置的语音技能查询相应的音频资源进行输出，例如：“下面为您播放汪峰的《勇敢的心》”。

通过该实施方式可以看出，通过在多轮对话中，将命中技能的语义结果提取，使用通用的类型保存到多轮对话关键词表中，在用户输入的对话语句缺少特定的关键词时，在多轮对话关键词表中获取与所述缺少的特定关键词的类型相同的关键词，作为参数一起处理，实现了在语音对话中跨技能可以使用上下文。

作为一种实施方式，在本实施例中，所述方法包括：至少将所述第一输出语句中包括的关键词、所述关键词对应的通用类型以及所述关键词对应的对话轮数存储至多轮对话关键词表；

当所述多轮对话关键词表中存在多个与所述某一关键词类型相同的历史的关键词时，获取对话轮数与当前对话轮数最接近的历史的关键词，根据获取到的历史的关键词补充所述后续输入语句。

在本实施方式中，存储至多轮对话关键词表中的数据还有所述关键词对应的对话轮数，例如一位比较八卦的用户向智能音箱问到：

用户：谢娜的老公是谁？

智能音箱：张杰。(轮数1)

用户：章子怡的老公是谁？

智能音箱：汪峰。(轮数2)

用户：播放ta的歌。

智能音箱：*(轮数3)

当所述多轮对话关键词表中存在多个与ta类型相同的历史关键词时(张杰，汪峰)，获取对话轮数与当前对话轮数最接近的历史关键词，选取了“汪峰”(轮数2)与当前轮数3最接近，根据获取到的历史关键词补充所述后续的输入语句，进而确定用户输入的语句为“播放汪峰的歌”，从而向用户进行反馈。

通过该实施方式可以看出，通过记录关键词对应的对话轮数，在多轮对话关键词表中存在多个与所述某一关键词类型相同的历史的关键词的情况下，有着相应的操作，使得所补充的内容更加贴合用户当前所要表达的内容，进而提高了补充内容的准确度，间接的提高了用户的体验。

作为一种实施方式，在本实施例中，所述方法还包括：至少将所述输入语句和所述第一输出语句中包括的关键词以及所述关键词对应的通用类型存储至多轮对话关键词表；

当识别用户的后续输入语句跳转至命中第二技能时，若所述后续输入语句缺少某一关键词时，优先从所述多轮对话关键词表中的输出语句获取与所述某一关键词类型相同的历史的关键词；

当所述输出语句获取不到与所述某一关键词类型相同的历史的关键词，从所述多轮对话关键词表中的输入语句获取与所述某一关键词类型相同的历史的关键词。

在本实施方式中，将所述输入语句和输出语句的关键词以及所述关键词对应的通用类型存储至多轮对话关键词表中。在使用中，例如：

用户：周杰伦演过哪些电影？

智能音箱：《头文字D》、《惊天魔盗团2》、《天台爱情》。

用户：播放他的歌曲

智能音箱：下面为您播放七里香。

当缺少关键词“他”时，优先从所述多轮对话关键词表中的输出语句中获取，而这输出语句中没有与“他”相对应的类型，因此获取不到，进而从输入语句中获取。

通过该实施方式可以看出，当输出语句中没有与所述关键词类型相同的历史关键词时，再去查找输入语句进行关键词的获取，保障了能够完整的补充用户输入的语句，提高了补充内容的准确性。

作为一种实施方式，在本实施方式中，所述优先从所述多轮对话关键词表中的输出语句获取与所述某一关键词类型相同的历史的关键词包括：

当根据获取到输出语句中的历史的关键词补充所述后续输入语句，找不到对应的媒体资源时，从所述多轮对话关键词表中的输入语句获取与所述某一关键词类型相同的历史的关键词。

在本实施方式中，例如，下述对话语句：

用户：周杰伦的老婆是谁

智能音箱：昆凌

用户：播放ta的歌

智能音箱：没有找到昆凌的歌曲，为您播放周杰伦的不能说的秘密。

在本实施方式中，虽然获取到的输出语句中的历史关键词，但是昆凌没有歌曲，找不到对应的媒体资源，进而，获取输入语句中的历史关键词，进行媒体资源查询。

通过该实施方式可以看出，当使用历史的关键词补充的后续输入语句找不到对应的媒体资源时，通过从多轮对话关键词表中的输入语句获取与所述某一关键词类型相同的历史关键词进行补充，避免了由于媒体资源的缺失导致在跨技能的多轮对话出现异常。

作为一种实施方式，在本实施方式中，所述方法还包括：按照预设的时间周期清理所述多轮对话关键词表。

在本实施方式中，多轮对话关键词表需要定期清理，可以是按时间，或是按用户与智能音箱交互的次数，或是完成一整套对话后，就进行清理。可以按照不同的需求进行设置。

通过该实施方法可以看出，通过对多轮对话关键词表进行定期清理可以提高存储空间的利用，同时定期清理可以避免使用过于陈旧的关键词对用户的输入语句进行补充，进而确保了补充的输入语句的准确性。

如图2所示为本发明一实施例提供的一种用于语音对话平台跨技能的多轮对话系统的结构示意图，该系统可执行上述任意实施例所述的用于语音对话平台跨技能的多轮对话方法，并配置在终端中。

本实施例提供的一种用于语音对话平台跨技能的多轮对话系统包括：存储程序模块11，关键词获取程序模块12和反馈程序模块13。

其中，存储程序模块11用于识别用户的输入语句命中第一技能，基于所述第一技能向用户反馈第一输出语句，并且至少将所述第一输出语句中包括的关键词以及所述关键词对应的通用类型存储至多轮对话关键词表；关键词获取程序模块12用于当识别用户的后续输入语句跳转至命中第二技能时，若所述后续输入语句缺少某一关键词时，从所述多轮对话关键词表中获取与所述某一关键词类型相同的历史的关键词；反馈程序模块13用于根据获取到的历史的关键词补充所述后续输入语句，基于所述第二技能向用户反馈第二输出语句。

进一步地，所述存储程序模块用于：至少将所述第一输出语句中包括的关键词、所述关键词对应的通用类型以及所述关键词对应的对话轮数存储至多轮对话关键词表；

关键词获取程序模块，用于当所述多轮对话关键词表中存在多个与所述某一关键词类型相同的历史的关键词时，获取对话轮数与当前对话轮数最接近的历史的关键词，根据获取到的历史的关键词补充所述后续输入语句。

进一步地，所述存储程序模块还用于：至少将所述输入语句和所述第一输出语句中包括的关键词以及所述关键词对应的通用类型存储至多轮对话关键词表；

关键词获取程序模块，用于当识别用户的后续输入语句跳转至命中第二技能时，若所述后续输入语句缺少某一关键词时，优先从所述多轮对话关键词表中的输出语句获取与所述某一关键词类型相同的历史的关键词；

进一步地，所述关键词获取程序模块用于：

进一步地，所述系统还用于：按照预设的时间周期清理所述多轮对话关键词表。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于语音对话平台跨技能的多轮对话方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于语音对话平台跨技能的多轮对话方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音对话平台跨技能的多轮对话方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有语音交互功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于语音对话平台跨技能的多轮对话方法，用于智能设备，包括：

识别用户的输入语句命中第一语音技能，基于所述第一语音技能向用户反馈第一输出语句，并且智能设备至少将所述第一输出语句中包括的关键词、所述关键词对应的通用类型以及所述关键词对应的对话轮数存储至多轮对话关键词表；

当识别用户的后续输入语句跳转至命中第二语音技能时，若所述后续输入语句缺少某一关键词时，所述智能设备从所述多轮对话关键词表中获取与所述某一关键词类型相同的历史的关键词；

当所述多轮对话关键词表中存在多个与所述某一关键词类型相同的历史的关键词时，获取对话轮数与当前对话轮数最接近的历史的关键词，根据获取到的历史的关键词补充所述后续输入语句，基于所述第二语音技能向用户反馈第二输出语句。

2.根据权利要求1所述的方法，其中，所述方法还包括：至少将所述输入语句和所述第一输出语句中包括的关键词以及所述关键词对应的通用类型存储至多轮对话关键词表；

当识别用户的后续输入语句跳转至命中第二语音技能时，若所述后续输入语句缺少某一关键词时，优先从所述多轮对话关键词表中的输出语句获取与所述某一关键词类型相同的历史的关键词；

3.根据权利要求2所述的方法，其中，所述优先从所述多轮对话关键词表中的输出语句获取与所述某一关键词类型相同的历史的关键词包括：

4.根据权利要求1所述的方法，其中，所述方法还包括：按照预设的时间周期清理所述多轮对话关键词表。

5.一种用于语音对话平台跨技能的多轮对话系统，包括：

存储程序模块，用于识别用户的输入语句命中第一语音技能，基于所述第一语音技能向用户反馈第一输出语句，并且智能设备至少将所述第一输出语句中包括的关键词、所述关键词对应的通用类型以及所述关键词对应的对话轮数存储至多轮对话关键词表；

关键词获取程序模块，用于当识别用户的后续输入语句跳转至命中第二语音技能时，若所述后续输入语句缺少某一关键词时，所述智能设备从所述多轮对话关键词表中获取与所述某一关键词类型相同的历史的关键词；

反馈程序模块，用于当所述多轮对话关键词表中存在多个与所述某一关键词类型相同的历史的关键词时，获取对话轮数与当前对话轮数最接近的历史的关键词，根据获取到的历史的关键词补充所述后续输入语句，基于所述第二语音技能向用户反馈第二输出语句。

6.根据权利要求5所述的系统，其中，所述存储程序模块还用于：至少将所述输入语句和所述第一输出语句中包括的关键词以及所述关键词对应的通用类型存储至多轮对话关键词表；

关键词获取程序模块，用于当识别用户的后续输入语句跳转至命中第二语音技能时，若所述后续输入语句缺少某一关键词时，优先从所述多轮对话关键词表中的输出语句获取与所述某一关键词类型相同的历史的关键词；

7.根据权利要求6所述的系统，其中，所述关键词获取程序模块用于：

8.根据权利要求5所述的系统，其中，所述系统还用于：按照预设的时间周期清理所述多轮对话关键词表。