CN111161717B

CN111161717B - 用于语音对话平台的技能调度方法及系统

Info

Publication number: CN111161717B
Application number: CN201911364193.8A
Authority: CN
Inventors: 朱成亚; 樊帅; 石韡斯
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2022-03-22
Anticipated expiration: 2039-12-26
Also published as: WO2021129240A1; US20230044968A1; JP7293512B2; JP2023504809A; EP4083997A4; CN111161717A; US11862150B2; EP4083997A1

Abstract

本发明实施例提供一种用于语音对话平台的技能调度方法。该方法包括：中控调度服务接收用户语音的语义结果；中控调度服务并行调度与语义结果相关的多个技能服务，得到来自多个技能服务反馈的解析结果；基于技能服务的优先级对多个解析结果进行排序，将最高优先级的技能解析结果导出至技能实现判别服务；当技能实现判别服务反馈实现失败时，在剩余的多个技能解析结果中，选择最高优先级的技能解析结果导出至技能实现判别服务，当技能实现判别服务反馈实现成功时，将最高优先级的技能解析结果发送至数据分发服务，以反馈给用户。本发明实施例还提供一种用于语音对话平台的技能调度系统。本发明实施例提高技能调度效率，降低延迟，提高用户的体验。

Description

用于语音对话平台的技能调度方法及系统

技术领域

本发明涉及智能语音领域，尤其涉及一种用于语音对话平台的技能调度方法及系统。

背景技术

在语音产品中，会包含多个不同的技能(导航，音乐，电台等)，根据对用户输入的语音进行语义分类和解析结果，从而进行相应的技能选择。

基于语义分类调度策略，某个语音产品中包含qq音乐和网易音乐，在语义分类到qq音乐技能后，如果搜索不到内容或没有版权时，能够继续到网易音乐技能中调度，完成搜索。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

技能调度由语音对话平台的中控调度服务来处理，如果用户搜索的内容较为冷门，在一些常用的技能中并没有对应的内容，此时，中控调度服务就需要对用户的这一次搜索，重复调度多次技能，来查询相应的内容。当中控调度服务接收到大量的用户请求时，就需要进行大量的调度处理，这时，就会出现较大的延迟，反馈用户的效率较低。

发明内容

为了至少解决现有技术中如果中控调度服务收到大量的用户请求时，可能由于用户请求资源的冷门，中控调度服务需要极大次数的调度，会出现网络延迟，反馈效率较低的问题。

第一方面，本发明实施例提供一种用于语音对话平台的技能调度方法，包括：

中控调度服务接收数据分发服务发送的识别用户语音的语义结果；

中控调度服务并行调度与所述语义结果相关的多个技能服务，得到来自所述多个技能服务反馈的解析结果；

基于所述技能服务的优先级对所述多个解析结果进行排序，将最高优先级的技能解析结果导出至技能实现判别服务，用于判断最高优先级的所述技能解析结果是否能实现所述语义结果的功能；

当所述技能实现判别服务反馈实现失败时，在剩余的多个技能解析结果中，选择最高优先级的技能解析结果导出至技能实现判别服务，

当所述技能实现判别服务反馈实现成功时，将所述最高优先级的技能解析结果发送至数据分发服务，以反馈给用户。

第二方面，本发明实施例提供一种用于语音对话平台的技能调度系统，包括：

语义接收程序模块，用于中控调度服务接收数据分发服务发送的识别用户语音的语义结果；

技能解析程序模块，用于中控调度服务并行调度与所述语义结果相关的多个技能服务，得到来自所述多个技能服务反馈的解析结果；

技能实现判别程序模块，用于基于所述技能服务的优先级对所述多个解析结果进行排序，将最高优先级的技能解析结果导出至技能实现判别服务，用于判断最高优先级的所述技能解析结果是否能实现所述语义结果的功能；

调度程序模块，用于当所述技能实现判别服务反馈实现失败时，在剩余的多个技能解析结果中，选择最高优先级的技能解析结果导出至技能实现判别服务，当所述技能实现判别服务反馈实现成功时，将所述最高优先级的技能解析结果发送至数据分发服务，以反馈给用户。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音对话平台的技能调度方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于语音对话平台的技能调度方法的步骤。

本发明实施例的有益效果在于：将语义识别结果并发至多个技能服务，对各技能服务的解析结果发送至技能实现判别服务进行依次判别，仅需要中控调度服务与技能服务之间调度一次，即可确定能够实现用户需求的语音技能的解析结果，减少了中控调度服务于技能服务的调度次数，在大量用户发送的请求时，也可以确保技能调度效率，降低延迟，提高用户的体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于语音对话平台的技能调度方法的流程图；

图2是本发明一实施例提供的一种用于语音对话平台的技能调度系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于语音对话平台的技能调度方法的流程图，包括如下步骤：

S11：中控调度服务接收数据分发服务发送的识别用户语音的语义结果；

S12：中控调度服务并行调度与所述语义结果相关的多个技能服务，得到来自所述多个技能服务反馈的解析结果；

S13：基于所述技能服务的优先级对所述多个解析结果进行排序，将最高优先级的技能解析结果导出至技能实现判别服务，用于判断最高优先级的所述技能解析结果是否能实现所述语义结果的功能；

S14：当所述技能实现判别服务反馈实现失败时，在剩余的多个技能解析结果中，选择最高优先级的技能解析结果导出至技能实现判别服务，

在本实施方式中，用户在使用智能设备时，会向智能设备进行对话，例如，“播放**歌曲”或者“查询**问题”，智能设备将采集到的语音发送给数据分发服务中，通过数据分发服务，将语音发送给识别服务进行语义识别。数据分发服务得到用户语音的语义结果后，将所述语义结果发送给中控调度服务。

对于步骤S11，中控调度服务接收数据分发服务发送的用户语音的语义识别结果，例如，“播放某某歌曲”。

对于步骤S12，中控调度服务接收到语义识别结果后，并不直接发送到一个技能服务中。而是并行调度与所述语义结果相关的多个技能服务，将该语义结果同时并行发送到多个与所述语义结果相关的技能服务中。此时，中控调度服务会接收到来自多个技能服务反馈的解析结果。将“播放某某歌曲”并行发送到多个相关的技能服务中，例如，QQ音乐、网易云音乐、酷狗音乐、酷我音乐、虾米音乐等。中控调度服务接收到各语音技能反馈的解析结果。

(现有方法在确定语义识别结果后，直接发送到优先级最高的技能服务，如果该技能服务不能实现语义结果的功能时，就需要中控调度服务将语义识别结果重新向其他技能服务发送，这种调度方式的需要中控调度服务不断的尝试，效率较低)

对于步骤S13，由于在语音产品设计阶段，对不同的技能排有不同的优先级，首先会将最高优先级的技能解析结果，导出至技能实现判别服务中，来判断最高优先级的技能，是否可以实现语义结果的功能，例如，语义结果为“播放这就是爱”，各技能都反馈了相应的解析结果，此时，第一优先级的技能为QQ音乐，将QQ音乐技能的解析结果导出至技能实现判别服务。

对于步骤S14，当技能实现判别服务反馈实现失败时，例如，QQ音乐中，没有这就是爱的原版歌曲。无法实现用户的需求，此时，从剩余的多个技能解析中，再次选择最高优先级的技能解析结果导出至技能实现判别服务中。例如，此时最高优先级的技能为网易云音乐。再将网易云音乐技能的解析结果导出至技能实现判别服务。

当技能实现判别服务反馈实现成功时，表明，网易云音乐中有“这就是爱”这首歌曲。将网易云音乐技能的解析结果发送至数据分发服务，进而反馈给用户。

通过该实施方式可以看出，将语义识别结果并发至多个技能服务，对各技能服务的解析结果发送至技能实现判别服务进行依次判别，仅需要中控调度服务与技能服务之间调度一次，即可确定能够实现用户需求的语音技能的解析结果，减少了中控调度服务于技能服务的调度次数，在大量用户发送的请求时，也可以确保技能调度效率，降低延迟，提高用户的体验。

作为一种实施方式，在本实施例中，所述技能实现判别服务包括：

接收中控调度服务发送的最高优先级的技能解析结果；

对所述技能解析结果进行对话状态跟踪，基于确定的对话状态判断所述技能解析结果是否能实现所述语义结果的功能。

在本实施方式中，技能实现判别服务通过对技能解析结果进行对话状态跟踪，确定出相应的对话状态，从而判断技能解析结果是否可以实现语义结果的功能。例如，除了音乐技能外，还可以用于一些搜索技能。由于各家的搜索引擎不同，输入相同的关键字，可能会得到不同的搜索结果，有的搜索技能擅长搜索八卦类的信息，有的搜索技能擅长搜索学术类型的信息。对话状态跟踪，得到的对话状态也就不同，进而判断不同技能的解析结果是否可以实现语义结果的功能。

通过该实施方式可以看出，提供技能实现判别的实现方式，确保所反馈的内容都是用户期望获得的内容，进一步提高用户的体验。

作为一种实施方式，在本实施例中，所述优先级至少包括：技能优先级、上下文优先级。

上下文优先级可以这样理解，例如，A引擎搜索技能擅长搜索八卦信息，B引擎搜索技能擅长搜索学术信息。考虑到用户可能不会经常问学术的问题，A引擎搜索技能的优先级高于B引擎搜索技能。当用户第一轮对话中，输入了学术类的问题请求时，通过上述方法所述，会将学术类的问题请求同时并行发送到A引擎搜索技能以及B引擎搜索技能。优先判断A引擎搜索技能的解析结果是否能实现用户的需求，经过判断，A引擎搜索技能不能实现用户的需求，B引擎搜索技能可以。将B引擎搜索技能的解析结果反馈给用户后，用户第二轮对话，又问了一个学术类型的问题。此时，根据上下文判断，第一轮对话中，B引擎搜索技能可以实现用户的需求。从而，在第二轮对话中，会优先考虑B引擎搜索技能。

通过该实施方式可以看出，提供了多种优先级的判别方式，进一步优化了调度逻辑，提高技能调度效率。

如图2所示为本发明一实施例提供的一种用于语音对话平台的技能调度系统的结构示意图，该系统可执行上述任意实施例所述的用于语音对话平台的技能调度方法，并配置在终端中。

本实施例提供的一种用于语音对话平台的技能调度系统包括：语义接收程序模块11，技能解析程序模块12，技能实现判别程序模块13和调度程序模块14。

其中，语义接收程序模块11用于中控调度服务接收数据分发服务发送的识别用户语音的语义结果；技能解析程序模块12用于中控调度服务并行调度与所述语义结果相关的多个技能服务，得到来自所述多个技能服务反馈的解析结果；技能实现判别程序模块13用于基于所述技能服务的优先级对所述多个解析结果进行排序，将最高优先级的技能解析结果导出至技能实现判别服务，用于判断最高优先级的所述技能解析结果是否能实现所述语义结果的功能；调度程序模块14用于当所述技能实现判别服务反馈实现失败时，在剩余的多个技能解析结果中，选择最高优先级的技能解析结果导出至技能实现判别服务，当所述技能实现判别服务反馈实现成功时，将所述最高优先级的技能解析结果发送至数据分发服务，以反馈给用户。

进一步地，所述技能实现判别程序模块用于：

接收中控调度服务发送的最高优先级的技能解析结果；

进一步地，所述优先级至少包括：技能优先级、上下文优先级。

进一步地，所述技能服务包括：问答型技能服务、任务型技能服务。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于语音对话平台的技能调度方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于语音对话平台的技能调度方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音对话平台的技能调度方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于语音对话平台的技能调度方法，包括：

2.根据权利要求1所述的方法，其中，所述技能实现判别服务包括：

接收中控调度服务发送的最高优先级的技能解析结果；

3.根据权利要求1所述的方法，其中，所述优先级至少包括：技能优先级、上下文优先级。

4.根据权利要求1所述的方法，其中，所述技能服务包括：问答型技能服务、任务型技能服务。

5.一种用于语音对话平台的技能调度系统，包括：

6.根据权利要求5所述的系统，其中，所述技能实现判别程序模块用于：

接收中控调度服务发送的最高优先级的技能解析结果；

7.根据权利要求5所述的系统，其中，所述优先级至少包括：技能优先级、上下文优先级。

8.根据权利要求5所述的系统，其中，所述技能服务包括：问答型技能服务、任务型技能服务。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。