CN112732340B

CN112732340B - 人机对话处理方法及装置

Info

Publication number: CN112732340B
Application number: CN201910975502.9A
Authority: CN
Inventors: 杨新伟
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2022-03-15
Anticipated expiration: 2039-10-14
Also published as: CN112732340A; WO2021072914A1; JP7311707B2; EP4047489A1; US20230162730A1; JP2022545981A; EP4047489A4; US11830483B2

Abstract

本发明公开一种人机对话处理方法及装置。在该方法中，获取来自客户端的第一用户语音消息；确定所述第一用户语音消息所对应的对话意图；基于意图唤醒模式表确定所述对话意图所对应的目标双工唤醒模式，所述意图唤醒模式表中包括多种候选对话意图分别相对应的双工唤醒模式，双工唤醒模式包括全双工唤醒模式和半双工唤醒模式；发送对应所述目标双工唤醒模式的唤醒模式指令至所述客户端，以使得所述客户端按照所述目标双工唤醒模式处理所述用户语音消息。利用该方法及装置，可以实现动态切换客户端的唤醒模式。

Description

人机对话处理方法及装置

技术领域

本发明属于互联网技术领域，尤其涉及一种人机对话处理方法及装置。

背景技术

随着互联网技术的不断发展，人机对话技术得到了飞速发展。在人机对话技术发展的过程中出现了全双工免唤醒方式的人机对话技术，也就是在设备被一次唤醒后可连续对话，在与他人对话的同时互不干扰的进行人机交互。通过全双工免唤醒能力，不需要用户重复唤醒，使得用户可以享受更自然、顺畅的语音交互体验。

目前，应用程序一般被固设为全双工免唤醒模式或半双工免唤醒模式。然而，在全双工免唤醒模式下的应用程序实际操作的过程中，可能会同时涉及全双工和半双工场景，例如当一个联系人的姓名对应多个电话号码时，需要通过用户交互操作来选定最终的用户意图，从而作出符合用户期望的操作。

发明内容

本发明实施例提供一种人机对话方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种人机对话处理方法，应用于服务端，包括：获取来自客户端的第一用户语音消息；确定所述第一用户语音消息所对应的对话意图；基于意图唤醒模式表确定所述对话意图所对应的目标双工唤醒模式，所述意图唤醒模式表中包括多种候选对话意图分别相对应的双工唤醒模式，双工唤醒模式包括全双工唤醒模式和半双工唤醒模式；发送对应所述目标双工唤醒模式的唤醒模式指令至所述客户端，以使得所述客户端按照所述目标双工唤醒模式处理所述用户语音消息。

第二方面，本发明实施例提供一种人机对话处理方法，应用于客户端，包括：获取第一用户语音消息；发送所述第一用户语音消息至服务端；响应于所述第一用户语音消息，从所述服务端接收唤醒模式指令；根据所述唤醒模式指令所指示的目标双工唤醒模式处理所述用户语音消息，双工唤醒模式包括全双工唤醒模式和半双工唤醒模式。

第三方面，本发明实施例提供一种人机对话处理装置，包括：语音消息获取单元，被配置为获取来自客户端的第一用户语音消息；用户意图确定单元，被配置为所述第一用户语音消息所对应的对话意图；目标唤醒模式确定单元，被配置为基于意图唤醒模式表确定所述对话意图所对应的目标双工唤醒模式，所述意图唤醒模式表中包括多种候选对话意图分别相对应的双工唤醒模式，双工唤醒模式包括全双工唤醒模式和半双工唤醒模式；唤醒指令发送单元，被配置为发送对应所述目标双工唤醒模式的唤醒模式指令至所述客户端，以使得所述客户端按照所述目标双工唤醒模式处理所述用户语音消息。

第四方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法的步骤。

第五方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明实施例的有益效果在于：服务端在收到用户语音之后会确定所对应的对话意图，并通过查询意图唤醒模式表来确定对应的目标双工唤醒模式，从而使得客户端按照符合对话意图的双工唤醒模式去工作，可以实现动态切换客户端的双工唤醒模式。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明一实施例的人机对话处理方法的一示例的信号交互流程图；

图2示出了根据本发明一实施例的针对半双工唤醒模式的人机对话处理方法的一示例的信号交互流程图；

图3示出了根据本发明一实施例的人机对话处理方法的一示例的流程示意图；

图4示出了根据本发明一实施例的人机对话处理装置的一示例的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“系统”等等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如图1所示，根据本发明一实施例的人机对话处理方法的一示例的信号交互流程，其涉及在客户端100与服务端200之间的数据交互过程。其中，客户端100可以表示各种类型的终端(例如手机、智能音箱、扫地机器人等等)，其能够通过麦克风手机用户语音，并与用户进行人机对话交流。服务端200可以表示语音服务平台中用于处理人机对话交流业务的功能模块，例如服务器和处理器等等。

在图1所示的交互流程中，步骤101、客户端100接收用户语音，并根据用户语音生成第一用户语音消息。

步骤102、客户端100发送第一用户语音消息至服务端200。

步骤103、服务端200确定第一用户语音消息所对应的对话意图。这里，服务端200在收到第一用户语音消息之后，通过NLP处理得到对应的语音语义，并确定出对应的对话意图。

需说明的是，术语“对话意图”可以表示用户希望通过对话来操作客户端所完成的对应动作，例如打电话、播放音乐、打开电视或答复用户提问。这里，客户端在处理部分对话意图的用户语音消息时更适于进行全双工唤醒模式，例如在用户意图是请求播放音乐时，全双工唤醒模式下的客户端在提供音乐服务的同时也能够接收并处理用户语音消息，提高语音交互体验。但是，客户端在处理一些对话意图的用户操作信息时需要进行半双工唤醒模式，也就是需要等客户端提供完服务之后再接收并处理用户语音消息，例如在用户意图是打电话给通讯录中存在重名的联系人时，此时需要等待进一步的用户输入指令，从而提供打电话的服务。

步骤104、服务端200基于意图唤醒模式表确定对话意图所对应的目标双工唤醒模式。这里，意图唤醒模式表中包括多种候选对话意图分别相对应的双工唤醒模式，双工唤醒模式包括全双工唤醒模式和半双工唤醒模式，并且意图唤醒模式表可以是人工设置而成的。

步骤105、服务端200发送对应目标双工唤醒模式的唤醒模式指令至客户端100。

步骤106、客户端100可以按照目标双工唤醒模式处理用户语音消息。由此，客户端可以根据用户语音消息的意图所对应的目标唤醒模式来处理用户语音消息，并且针对不同的用户语音消息分别采用不同的双工唤醒模式，能够在多样化的应用场景中适用。

如图2所示，根据本发明一实施例的针对半双工唤醒模式的人机对话处理方法的一示例的流程。

步骤201、服务端200确定目标双工唤醒模式为半双工唤醒模式。例如，可以根据用户意图来确定目标唤醒模式为半双工唤醒模式，具体操作可以参照如图1中的描述，在此便不赘述。

步骤202、服务端200确定针对对话意图的询问语音消息。例如针对对话意图“打电话给通讯录中重名的联系人”，此时对应的询问语音可以是“请问是给电话号码为XX的还是电话号码为YY的联系人打电话”。

步骤203、服务端200发送询问语音消息至客户端100。

步骤204、客户端100利用询问语音消息进行半双工唤醒模式的人机对话操作。例如，客户端100对所收到的询问语音消息进行播报，在播报完成之后等待用户输入来响应。

步骤205、用户收到询问语音消息之后进行语音回复，从而在客户端100处生成第二用户语音消息。

步骤206、客户端100发送第二用户语音消息至服务端200。

步骤207、服务端200判断第二用户语音消息是否符合设定回复条件。这里，设定回复条件可以表示第二用户语音消息是否满足语义填槽要求。继上面的示例，如果第二用户语音消息的语义中不包括电话号码“XX”或“YY”，则确定该第二用户语音消息不满足语义填槽要求。另外，如果第二用户语音消息的语义包括电话号码“XX”或“YY”，则客户端执行相应的动作(例如给特定对象拨打电话)。

步骤208、当第二用户语音消息符合设定回复条件时，服务端200发送模式切换指令至客户端100。在一些应用场景下，可以令客户端默认启用全双工唤醒模式，而在对应半双工唤醒模式的语音消息被处理完成之后需要切换回全双工唤醒模式。

步骤209、客户端100按照全双工唤醒模式进行人机对话操作。

如上面所描述的，可以推荐客户端默认采用全双工唤醒模式，也就是说，客户端100可以按照全双工唤醒模式获取第一用户语音消息。之后，根据对话意图和用户输入情况来确定是否切换至半双工唤醒模式。另外，在一些应用场景下，客户端100还可以从服务端200接收全双工唤醒关闭指令，从而关闭全双工唤醒模式而重新进入等待唤醒状态。

如图3所示，根据本发明一实施例的人机对话处理方法的一示例的流程。在本实施例中，当客户端被一次唤醒后，启动全双工对话流程。如果用户语音消息命中到指定意图时，云端(或服务端)下发模拟半双工的指令给客户端。之后，客户端根据此指令切换为半双工语音对话模式，在此模式下对话会继续等待用户输入指令，直到下一次下发关闭半双工的指令。

具体地，在客户端由等待唤醒状态被用户唤醒之后，开启全双工对话模式。然后，客户端接收用户语音消息，此时输入可能是正常的用户指令音频但也可能是异常的非指令音频，需要将用户语音消息上传至服务端，进而服务端根据用户语音消息返回对话处理指令。之后，客户端根据对话处理指令判断是否结束全双工对话或者切换半双工。这里，在客户端切换半双工模式后，客户端会一直等待用户输入预期的指令，否则将会重复监听，直到接收到预期的指令。比如：用户输入：打电话给张三，假设本地张三有两个号码，服务端会回复：哪一个？这时候预期用户的回复为选择某一个，如果用户输入不在预期内，则会重复此流程。

需说明的是，在一些用户场景下，云端会下发结束全双工的指令，此时客户端也会重新进入等待唤醒状态。

在一些实施方式中，可以针对不同的指定的用户场景定制不同的双工对话模式，例如在第一用户场景中保持全双工对话模式，而在第二用户场景保持半双工对话模式。但是，这样可能无法在一次用户会话中对各个模式进行动态切换，也难以处理新增场景。

通过本发明实施例，可以实现在会话中动态调整对话模式，能够适用于多样化的用户场景，能够避免设备的差异、网络的差异导致的全双工体验问题。

如图4所示，根据本发明一实施例的人机对话处理装置400，包括：语音消息获取单元410，被配置为获取来自客户端的第一用户语音消息；用户意图确定单元420，被配置为所述第一用户语音消息所对应的对话意图；目标唤醒模式确定单元430，被配置为基于意图唤醒模式表确定所述对话意图所对应的目标双工唤醒模式，所述意图唤醒模式表中包括多种候选对话意图分别相对应的双工唤醒模式，双工唤醒模式包括全双工唤醒模式和半双工唤醒模式；唤醒指令发送单元440，被配置为发送对应所述目标双工唤醒模式的唤醒模式指令至所述客户端，以使得所述客户端按照所述目标双工唤醒模式处理所述用户语音消息。

上述本发明实施例的装置可用于执行本发明中相应的方法实施例，并相应的达到上述本发明方法实施例所达到的技术效果，这里不再赘述。

本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

另一方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行如上的人机对话处理方法的步骤。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的客户端以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种人机对话处理方法，应用于服务端，包括：

获取来自客户端的第一用户语音消息；

确定所述第一用户语音消息所对应的对话意图；

基于意图唤醒模式表确定所述对话意图所对应的目标双工唤醒模式，所述意图唤醒模式表中包括多种候选对话意图分别相对应的双工唤醒模式，所述双工唤醒模式包括全双工唤醒模式和半双工唤醒模式；

发送对应所述目标双工唤醒模式的唤醒模式指令至所述客户端，以使得所述客户端按照所述目标双工唤醒模式处理所述用户语音消息。

2.如权利要求1所述的方法，其中，在发送对应所述目标双工唤醒模式的唤醒模式指令至所述客户端之后，所述方法还包括：

当所述目标双工唤醒模式为半双工唤醒模式时，确定针对所述对话意图的询问语音消息；

发送所述询问语音消息至所述客户端，以使得所述客户端利用所述询问语音消息进行半双工唤醒模式的人机对话操作。

3.如权利要求2所述的方法，其中，在所述发送所述询问语音消息至所述客户端之后，所述方法还包括：

获取来自所述客户端的针对所述询问语音消息的第二用户语音消息；

判断所述第二用户语音消息是否符合设定回复条件；以及

当所述第二用户语音消息符合所述设定回复条件时，发送模式切换指令至所述客户端，以使得所述客户端进行全双工唤醒模式的人机对话操作。

4.一种人机对话处理方法，应用于客户端，包括：

获取第一用户语音消息；

发送所述第一用户语音消息至服务端；

响应于所述第一用户语音消息，从所述服务端接收唤醒模式指令；

根据所述唤醒模式指令所指示的目标双工唤醒模式处理所述用户语音消息，双工唤醒模式包括全双工唤醒模式和半双工唤醒模式。

5.如权利要求4所述的方法，其中，所述获取第一用户语音消息包括：

按照全双工唤醒模式获取所述第一用户语音消息。

6.如权利要求5所述的方法，其中，所述根据所述唤醒模式指令所指示的目标双工唤醒模式处理所述用户语音消息包括：

当所述目标双工唤醒模式为半双工唤醒模式时，从所述服务端获取询问语音消息；

基于所述询问语音消息，按照所述半双工唤醒模式进行人机对话操作。

7.如权利要求6所述的方法，其中，在基于所述询问语音消息，按照所述半双工唤醒模式进行人机对话操作之后，所述方法还包括：

获取响应于所述询问语音消息的第二用户语音消息；

发送所述第二用户语音消息至服务端；

当从服务端接收到响应于所述第二用户语音消息的模式切换指令时，按照全双工唤醒模式进行人机对话操作。

8.一种人机对话处理装置，包括：

语音消息获取单元，被配置为获取来自客户端的第一用户语音消息；

用户意图确定单元，被配置为所述第一用户语音消息所对应的对话意图；

目标唤醒模式确定单元，被配置为基于意图唤醒模式表确定所述对话意图所对应的目标双工唤醒模式，所述意图唤醒模式表中包括多种候选对话意图分别相对应的双工唤醒模式，双工唤醒模式包括全双工唤醒模式和半双工唤醒模式；

唤醒指令发送单元，被配置为发送对应所述目标双工唤醒模式的唤醒模式指令至所述客户端，以使得所述客户端按照所述目标双工唤醒模式处理所述用户语音消息。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。