CN112700767A

CN112700767A - 人机对话打断方法及装置

Info

Publication number: CN112700767A
Application number: CN201910998833.4A
Authority: CN
Inventors: 宋洪博; 樊帅; 石韡斯; 朱成亚
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2021-04-23
Anticipated expiration: 2039-10-21
Also published as: WO2021077528A1; CN112700767B

Abstract

本发明公开一种人机对话打断方法及装置。在该方法中，接收自客户端按照设定时间间隔上传的多个用户语音短语消息；连续识别所间隔接收的各个用户语音短语消息分别所对应的各个语音短语结果；以及连续多次预测所识别的各个所述语音短语结果所对应的用户语音语义；根据所确定的用户语音语义，确定针对当前人机对话的打断时机。由此，根据用户语音语义来确定打断人机对话的时机，使得机器能更加贴合于人的行为表现，提高了人机对话体验。

Description

人机对话打断方法及装置

技术领域

本发明属于互联网技术领域，尤其涉及一种人机对话打断方法及装置。

背景技术

目前人机对话系统实现的方法，用户输入语音音频，经过识别系统生成识别文本，文本经过自然语言处理系统生成回复内容，经过语音合成系统播报，播报完成后，用户再输入音频，进行下一轮对话。

但是，在实际场景中，用户不等回复内容播报完成就开始下一轮对话的输入。由于对话系统回复音频播报的时候不收音，会存在一些问题，例如用户抢说输入的音频会漏识别，以及，如果回复的播报内容很长，用户需要等待播放完成，才能进行下一轮对话，严重影响交互流畅性。

目前，常见的人机对话打断方式有VAD打断方式、唤醒打断方式和对话回复打断方式。但是，在VAD打断方式中，当客户端检测到人声，立即停止回复播报，然后开始下一轮交互；其所存在的问题是：周围噪声导致的人声误检测，会误打断当前的回复播报，影响交互流畅性。在唤醒打断方式中，客户端开启唤醒功能，将特定的命令词设置为唤醒词；其所存在的问题是：用户需要记住特定的唤醒词(要一字不差)，并且如果一句话中包含唤醒词，也会导致误打断(如：用户说：‘这家店暂停营业了’，导致当前的音乐播放被暂停)。在对话回复打断方式中，当用户说完一句话，完整的识别结果送语义对话，客户端根据对话结果打断上一轮交互的播报内容；其所存在的问题是：整个流程耗时长，需要经过VAD检测结束-等完整识别结果-语义对话结果-打断反馈缓慢，这样在拿到打断事件时，上一轮回复播报已结束。

因此，如果提供人机对话打断的处理方案以保障用户体验是目前业界亟待解决的难题。

发明内容

本发明实施例提供一种人机对话打断方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种人机对话打断方法，应用于服务端，该方法包括：接收自客户端按照设定时间间隔上传的多个用户语音短语消息；连续识别所间隔接收的各个用户语音短语消息分别所对应的各个语音短语结果；以及连续多次预测所识别的各个所述语音短语结果所对应的用户语音语义；根据所确定的用户语音语义，确定针对当前人机对话的打断时机。

第二方面，本发明实施例提供一种人机对话打断方法，应用于客户端，包括：采集对应设定时间间隔的用户语音短语消息；将所采集的用户语音短语消息连续上传至服务端，以使得所述服务端根据所述用户语音短语消息确定针对当前人机对话的打断时机；从所述服务端接收语音回复内容，其中所述语音回复内容是针对对应所述打断时机的用户语音语义而产生的。

第三方面，本发明实施例提供一种人机对话打断装置，包括：消息接收单元，用于接收自客户端按照设定时间间隔上传的多个用户语音短语消息；结果识别单元，用于连续识别所间隔接收的各个用户语音短语消息分别所对应的各个语音短语结果；语义预测单元，用于连续多次预测所识别的各个所述语音短语结果所对应的用户语音语义；打断时机确定单元，用于为根据所确定的用户语音语义，确定针对当前人机对话的打断时机。

第四方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法的步骤。

第五方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明实施例的有益效果在于：服务端在收到客户端间隔上传的用户语音短语消息之后，并对所收到的用户语音短语消息所对应的语音语义进行连续识别，并根据用户语音语义来确定打断人机对话的时机，使得机器能更加贴合于人的行为表现，提高了人机对话体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明一实施例的人机对话打断方法的一示例的信号交互流程图；

图2示出了根据本发明一实施例的确定针对当前人机对话的打断时机过程的一示例流程图；

图3示出了根据本发明一实施例的基于多个设定阈值进行语义过滤的过程的一示例的流程图；

图4示出了根据本发明一实施例的人机对话处理方法的一示例的流程图；

图5示出了根据本发明一实施例的人机对话打断装置的一示例的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“系统”等等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如图1所示，根据本发明一实施例的人机对话打断方法的一示例的信号交互流程，其涉及在客户端100与服务端200之间的数据交互过程。其中，客户端100可以表示各种类型的终端(例如手机、智能音箱、扫地机器人等等)，其能够通过麦克风手机用户语音，并与用户进行人机对话交流。服务端200可以表示语音服务平台中用于处理人机对话交流业务的功能模块，例如服务器或处理器，等等。

如图1所示，本发明实施例的人机对话打断方法的流程。在步骤101、客户端100接收用户语音，并根据用户语音生成用户语音短语消息。

在步骤102中，客户端100按照设定时间间隔上传多个用户语音短语消息至服务端200。

在本实施例的一个示例中，客户端100可以持续录音，并将所录好的音频数据按照时间间隔所对应的部分音频文件(即，用户语音短语消息)进行上传，例如每100ms上传1个用户语音短语消息。

在一些实施方式中，客户端100可以是以全双工免唤醒方式不间断地获取用户语音短语消息，并将所采集的语音消息间隔上传至服务端200。优选地，在客户端100进行上传之前，可以对所采集的语音消息进行噪音优化处理操作。示例性地，可以基于以下中的至少一种操作对所获取的用户语音短语消息进行噪音优化处理操作：声学回音消除操作、说话人定向增强操作以及声纹噪声滤除操作。

在步骤103中，服务端200连续识别所间隔接收的各个用户语音短语消息分别所对应的各个语音短语结果。例如，服务端可以每接收到一个或设定多个的用户语音短语消息，就对该一个或设定多个的用户语音短语消息所对应的语音短语结果进行识别。

在步骤104中，服务端200连续多次预测所识别的各个语音短语结果所对应的用户语音语义。具体地，可以根据多个语音短语结果的组合来确定对应的用户语音语义，例如当确定连续的多个语音短语结果为“我想”、“听”、“一首”，则可以确定相应的用户语音语义为“我想听一首”。

在步骤105中，服务端200根据所确定的用户语音语义，确定针对当前人机对话的打断时机。

具体地，服务端200可以确定用户语音语义是否符合完整语句格式要求，并当用户语音语义符合完整语句格式要求时，确定对应产生该用户语音语义的时刻为打断时机。接着上面的应用示例，如果用户语音语义为“我想听一首”，此时通过自然语言理解可知并不符合完整语句格式要求，并且需要继续等待后续的用户语音语义。例如，当后续的用户语音语义为“我想听一首《青花瓷》”时，此时符合完整语句格式要求，并可以对人机交互进行打断，从而实现基于实时语义进行打断和对话的人机语音交互效果。

进一步地，在步骤106中，服务端200可以确定针对对应打断时机的用户语音语义的语音回复内容。具体针对语音回复内容的过程，可以参照目前相关技术，例如NLP技术，在此便不赘述。

在步骤107中，服务端200将语音回复内容发送至客户端100。在本实施例的一个示例中，当确定用户语音语义为完整语句时，可以基于该用户语音语义来确定语音回复内容，能保证高质量的语音回复结果。

如图2所示，本发明实施例的确定针对当前人机对话的打断时机的流程。

步骤S201、根据基于连续预测过程所产生的至少一个第一用户语音语义确定用户语音意图。示例性地，对已经确定的各个第一用户语音语义进行存储，并确定所有的第一用户语音语义来确定用户语音意图，这样通过语义上下文分析(例如多个语句)来确定对应的用户语音意图。

步骤S202、当经预测而新产生第二用户语音语义时，确定第二用户语音语义相对于用户语音意图的置信度。这里，可以是基于置信度计算模块来确定置信度的。

步骤S203、基于置信度与设定阈值之间的对比结果，确定是否过滤第二用户语音语义。示例性地，当置信度低于设定阈值时，可以确定该第二用户语音语义可能是干扰噪音项，应当将其进行过滤，例如通过上下文分析确定用户语音意图是购物领域，但如果第二用户语音语义是指示媒体播放操作，则可以将该第二用户语音语义进行滤除。另外，当置信度高于设定阈值时，可以保留此第二用户语音语义。

步骤S204、当第二用户语音语义未被过滤时，根据第二用户语音语义来确定打断时机。也就是，在确定第二用户语音语义不偏离用户上下文所对应的用户语音意图时，可以根据该用户语音语义来确定打断时机。

需说明的是，与置信度进行对比的设定阈值的数量还可以是多个，从而保障语义滤除操作的可靠性。如图3所示，本发明实施例的基于多个设定阈值进行语义过滤的流程。其中，当收到用户语音语义时，确定用户语音语义是否为首轮，如果对话为首轮，则设置语义置信度过滤阈值B，低于该阈值则将消息指令返回给客户端，使得客户端提示收到输入被过滤的事件。

另外，若对话为多轮对话的非首轮，并且命中的语义领域与上轮相同，则语义置信度过滤阈值设置为A；若命中语义领域与上轮不同，则语义置信度过滤阈值设置为C。以及，若对话为多轮对话的非首轮，语义命中兜底技能(比如闲聊，百科等)，则语义置信度过滤阈值设置为D，其中D＞C＞B＞A。

如图4所示，本发明实施例的人机对话处理方法的一示例的流程。在此流程中涉及三个阶段，即长开识别阶段、实时语义识别阶段和语义过滤阶段。

这样，在长开识别阶段中，可以实现不间断录音，上行输入流和下行输出流并行进行，从而做到全双工交互。在播放TTS响应时，同时接收用户输入录音，用户可以随时说任意的话术，打断当前对话，开启下一轮对话。

在实时语义识别阶段中，当用户说话时，实时上传音频，并且每100ms上传一次录音数据，识别服务每100ms抛出一次当前的实时识别结果。每当识别出新的输入内容，立即用该实时识别结果请求语义服务，语义服务计算该识别结果命中的语义领域，并保存当前计算的状态，当下次送来新的识别结果，语义服务不需要从头重新计算，只需要计算新增的识别内容。例如：目前已识别出“我想听”，下次识别内容为“我想听一首”，由于语义服务已经返回过“我想听”的语义结果，将“我想听”的计算结果，作为中间状态并保存现场，下次送来“我想听一首”时，只需从“我想听”的状态开始，计算追加“一首”后对应的语义结果。服务端根据预测结果、云端VAD状态、用户停顿间隔等信息，判断用户说完完整的一句话，此时返回的语义结果会送给对话服务，将对话回复内容，返回给客户端，从而完成一轮对话交互。

在语义过滤阶段中会解决在长开识别阶段中所存在的问题，也就是在长开识别阶段中，在播放回复内容时录音仍打开，须过滤周边噪声或他人聊天内容，若噪声录入会打乱对话上下文，影响交互体验。这样，可以在客户端处引入一系列技术来过滤噪声：比如声学回音消除技术(Acoustic Echo Cancellation,AEC)，过滤掉对话回复的TTS播报内容、通过说话人定向增强技术过滤其他方向的输入语音、根据声纹过滤非说话人的输入语音等。由此，通过前端语音技术过滤不相关语音输入。进一步地，还可以在服务端引入语义过滤，也就是在后端根据语义和对话上下文，过滤不相关输入，避免影响对话状态和结果，从而提高人机对话体验。

如图5所示，本发明实施例的人机对话打断装置500的一示例的结构，包括消息接收单元510、结果识别单元520、语义预测单元530和打断时机确定单元540。其中，消息接收单元510用于接收自客户端按照设定时间间隔上传的多个用户语音短语消息。结果识别单元520用于连续识别所间隔接收的各个用户语音短语消息分别所对应的各个语音短语结果。语义预测单元530用于连续多次预测所识别的各个所述语音短语结果所对应的用户语音语义。打断时机确定单元540用于为根据所确定的用户语音语义，确定针对当前人机对话的打断时机。

上述本发明实施例的装置可用于执行本发明中相应的方法实施例，并相应的达到上述本发明方法实施例所达到的技术效果，这里不再赘述。

本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

另一方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行如上的人机对话打断方法的步骤。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的客户端以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种人机对话打断方法，应用于服务端，该方法包括：

接收自客户端按照设定时间间隔上传的多个用户语音短语消息；

连续识别所间隔接收的各个用户语音短语消息分别所对应的各个语音短语结果；以及

连续多次预测所识别的各个所述语音短语结果所对应的用户语音语义；

根据所确定的用户语音语义，确定针对当前人机对话的打断时机。

2.如权利要求1所述的方法，其中，在根据所确定的用户语音语义，确定针对当前人机对话的打断时机之后，所述方法还包括：

确定针对对应所述打断时机的用户语音语义的语音回复内容；

发送所述语音回复内容至所述客户端。

3.如权利要求1所述的方法，其中，在连续识别所间隔接收的各个用户语音短语消息分别所对应的各个语音短语结果之后，该方法还包括：

存储所识别的各个所述语音短语结果；

其中，所述连续多次预测所识别的各个所述语音短语结果所对应的用户语音语义包括：

当所存储的语音短语结果集存在更新时，基于所述语音短语结果集重新确定所述用户语音语义。

4.如权利要求3所述的方法，其中，所述根据所确定的用户语音语义，确定针对当前人机对话的打断时机包括：

确定所述用户语音语义是否符合完整语句格式要求；

当所述用户语音语义符合完整语句格式要求时，确定对应产生所述用户语音语义的时刻为所述打断时机。

5.如权利要求1所述的方法，其中，所述根据所确定的用户语音语义，确定针对当前人机对话的打断时机包括：

根据基于连续预测过程所产生的至少一个第一用户语音语义确定用户语音意图；

当经预测而新产生第二用户语音语义时，确定所述第二用户语音语义相对于所述用户语音意图的置信度；以及

基于所述置信度与设定阈值之间的对比结果，确定是否过滤所述第二用户语音语义；

当所述第二用户语音语义未被过滤时，根据所述第二用户语音语义来确定所述打断时机。

6.一种人机对话打断方法，应用于客户端，该方法包括：

采集对应设定时间间隔的用户语音短语消息；

将所采集的用户语音短语消息连续上传至服务端，以使得所述服务端根据所述用户语音短语消息确定针对当前人机对话的打断时机；

从所述服务端接收语音回复内容，其中所述语音回复内容是针对对应所述打断时机的用户语音语义而产生的。

7.如权利要求6所述的方法，其中，所述采集对应设定时间间隔的用户语音短语消息包括：

基于全双工免唤醒方式不间断地获取用户语音短语消息；

基于以下中的至少一种操作对所获取的用户语音短语消息进行噪音优化处理操作：声学回音消除操作、说话人定向增强操作以及声纹噪声滤除操作。

8.一种人机对话打断装置，包括：

消息接收单元，用于接收自客户端按照设定时间间隔上传的多个用户语音短语消息；

结果识别单元，用于连续识别所间隔接收的各个用户语音短语消息分别所对应的各个语音短语结果；

语义预测单元，用于连续多次预测所识别的各个所述语音短语结果所对应的用户语音语义；

打断时机确定单元，用于为根据所确定的用户语音语义，确定针对当前人机对话的打断时机。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。