CN117496973A

CN117496973A - 一种提升人机对话交互体验感的方法、装置、设备及介质

Info

Publication number: CN117496973A
Application number: CN202410002494.0A
Authority: CN
Inventors: 周舒婷; 王帅; 周宏超; 赵磊; 熊文轩
Original assignee: Sichuan Shutian Information Technology Co ltd
Current assignee: Sichuan Shutian Information Technology Co ltd
Priority date: 2024-01-02
Filing date: 2024-01-02
Publication date: 2024-02-02
Anticipated expiration: 2044-01-02
Also published as: CN117496973B

Abstract

本申请提供一种提升人机对话交互体验感的方法、装置、设备及介质，涉及智能语音对话技术领域，用于解决人机语音交互过程中，针对复杂问题的处理在智能度、交互自然流畅度上存在一定缺陷，用户体验感差的问题。该方法包括：建立全双工模式下异步通信的第一通信任务和第二通信任务；在通过所述第二通信任务对第一语音数据对应的第一语音识别结果进行处理的过程中，通过所述第一通信任务接收到第二语音数据的情况下，获取所述第二语音数据对应的第二识别文本；判断第一识别文本与所述第二识别文本的语义意图是否相关；若所述第一识别文本与所述第二识别文本的语义意图不相关，则停止所述第一语音数据的处理，并执行所述第二语音数据的处理。

Description

一种提升人机对话交互体验感的方法、装置、设备及介质

技术领域

本申请涉及人工智能语音交互技术领域，提供一种提升人机对话交互体验感的方法、装置、设备及介质。

背景技术

随着语音助手设备的普及和应用场景的不断扩展，人工智能语音交互技术的重要性日益凸显。基于实时、双向地智能语音交互技术的应用，智能AI机器人能够实现更高级别的双向语音交互和对话能力，达到“边听边说”的效果，模拟人类交流时对信息处理的思维，提升用户与智能AI机器人连续对话的体验。

但是，智能AI机器人在模拟人类多轮对话交流时，针对其在同一多轮对话任务中存在对话任务意图不明晰、回复用户上一对话任务期间用户引入新的对话任务或中断对话等多种需求的复杂场景下，智能AI机器人无法合理的抉择如何处理对话任务，只能简单的忽略新引入的话题或直接放弃上一对话任务，在交互自然流畅度、智能度上还存在一定的短板，让用户明显感觉到是人与机器的指令交互，而不是人与人之间的交流，用户体验感较差。

发明内容

本申请实施例提供一种提升人机对话交互体验感的方法、装置、设备及存储介质，用于解决用户体验感差、语音交互效率较低的问题。

一方面，提供一种提升人机对话交互体验感的方法，所述方法包括：

建立全双工模式下异步通信的第一通信任务和第二通信任务；其中，所述第一通信任务用于后端接收前端传输的语音数据，并将其传输至语音识别模块中进行识别；所述第二通信任务用于后端接收语音识别结果，并对其进行处理得到对应答应信息后反馈至前端；

在通过所述第二通信任务对第一语音数据对应的第一语音识别结果进行处理的过程中，通过所述第一通信任务接收到第二语音数据的情况下，获取所述第二语音数据对应的第二识别文本；其中，所述第一语音数据和所述第二语音数据分别是多轮对话场景下相邻两次用户输入语音数据；

判断第一识别文本与所述第二识别文本的语义意图是否相关；其中，所述第一识别文本为对所述第一语音数据进行识别得到的结果；

若所述第一识别文本与所述第二识别文本的语义意图不相关，则停止所述第一语音数据的处理，并执行所述第二语音数据的处理。

可选的，在判断第一识别文本与所述第二识别文本的语义意图是否相关的步骤之后，还包括：

若所述第一识别文本与所述第二识别文本的语义意图相关，则根据对话处理优先级指令对所述第一语音数据和所述第二语音数据进行处理；其中，所述对话处理优先级指令是基于时间轴对后端接收到用户输入语音数据的时间进行任务排列执行的指令。

可选的，所述若所述第一识别文本与所述第二识别文本的语义意图相关，则根据对话处理优先级指令对所述第一语音数据和所述第二语音数据进行处理的步骤，还包括：

对所述第二识别文本进行文字分割，获得所述第二识别文本对应的文字队列；

根据所述对话处理优先级指令，将所述第二识别文本对应的文字队列整合至所述第一识别文本对应的文字队列的末尾，获得整合后的文字队列；

根据所述整合后的文字队列的先后顺序，通过所述第二通信任务将所述整合后的文字队列进行文字转语音操作，获得对应的应答音频队列；

根据所述应答音频队列的先后顺序将其发送至前端进行播放。

可选的，所述判断第一识别文本与所述第二识别文本的语义意图是否相关的步骤之前，还包括：

判断所述第二识别文本中是否存在预设中断词；

若所述第二识别文本中存在所述预设中断词，则通过所述第二通信任务停止所述第一语音数据的处理；

若所述第二识别文本中不存在所述预设中断词，则执行判断所述第一识别文本与所述第二识别文本的语义意图是否相关的步骤。

可选的，所述判断第一识别文本与所述第二识别文本的语义意图是否相关的步骤，包括：

判断所述第二识别文本的意图槽位是否填充完整；

若所述第二识别文本的意图槽位填充完整，则判断所述第一识别文本和所述第二识别文本的语义意图是否相关；

若所述第二识别文本的意图槽位未填充完整，则通过所述第二通信任务暂停对所述第一语音识别结果的处理，并基于所述意图槽位中缺失的第一关键信息向前端发出第一询问请求；其中，所述第一询问请求是请求前端播放询问所述第一关键信息的语音；

响应于所述第一询问请求，获取第三语音数据；

根据所述第三语音数据，通过所述第二通信任务对所述第二识别文本的意图槽位进行填充，并在填充后返回所述判断所述第二识别文本的意图槽位是否填充完整的步骤，直至所述第二识别文本的意图槽位填充完整。

可选的，所述若所述第一识别文本与所述第二识别文本的语义意图不相关，则停止所述第一语音数据的处理，并执行所述第二语音数据的处理的步骤，包括：

若所述第一识别文本与所述第二识别文本的语义意图不相关，且所述第一识别文本的意图槽位未填充完整，则基于所述意图槽位中缺失的第二关键信息向前端发出第二询问请求或提示信息；其中，所述第二询问请求是用于询问用户是否继续执行所述第一识别文本对应对话任务的选择意图信息；所述提示信息是用于提示用户先完成所述第一识别文本对应对话任务的信息；

响应于所述第二询问请求，获取用户第四语音数据对应的第四识别文本；

若所述第四识别文本为放弃继续执行所述第一识别文本对应对话任务，则停止所述第一语音数据的处理，并执行所述第二语音数据的处理。

可选的，响应于所述第二询问请求，获取用户第四语音数据对应的第四识别文本之后，所述方法还包括：

若所述第四识别文本为继续执行所述第一识别文本对应对话任务，则继续通过所述第二通信任务对所述第一识别文本对应对话任务进行处理，同时将所述第二识别文本进行保存，待所述第一识别文本对应对话任务处理完成后再基于所述第二识别文本进行数据处理。

一方面，提供一种提升人机对话交互体验感的装置，所述装置包括：

通信任务建立单元，用于建立全双工模式下异步通信的第一通信任务和第二通信任务；其中，所述第一通信任务用于后端接收前端传输的语音数据，并将其传输至语音识别模块中进行识别；所述第二通信任务用于后端接收语音识别结果，并对其进行处理得到对应答应信息后反馈至前端；

识别文本获取单元，用于在通过所述第二通信任务对第一语音数据对应的第一语音识别结果进行处理的过程中，通过所述第一通信任务接收到第二语音数据的情况下，获取所述第二语音数据对应的第二识别文本；其中，所述第一语音数据和所述第二语音数据分别是多轮对话场景下相邻两次用户输入语音数据；

相关性判定单元，用于判断第一识别文本与所述第二识别文本的语义意图是否相关；其中，所述第一识别文本为对所述第一语音数据进行识别得到的结果；

语音数据处理单元，用于若所述第一识别文本与所述第二识别文本的语义意图不相关，则停止所述第一语音数据的处理，并执行所述第二语音数据的处理。

一方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一种方法。

一方面，提供一种计算机存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述任一种方法。

与现有技术相比，本申请的有益效果为：

在本申请实施例中，在进行数据处理时，首先，可以建立全双工模式下异步通信的第一通信任务和第二通信任务；然后，可以在通过第二通信任务对第一语音数据对应的第一语音识别结果进行处理的过程中，通过第一通信任务接收到第二语音数据的情况下，来获取第二语音数据对应的第二识别文本；其中，第一语音数据和第二语音数据分别是多轮对话场景下相邻两次用户输入语音数据；接下来，可以判断第一识别文本与第二识别文本的语义意图是否相关；其中，第一识别文本为对第一语音数据进行识别得到的结果；最后，若第一识别文本与第二识别文本的语义意图不相关，则可以停止第一语音数据的处理，并执行第二语音数据的处理。因此，在本申请实施例中，由于整个数据处理过程均是在全双工的情况下进行处理的，因此，相比于现有技术的通过“半双工化”来进行通信，本申请可以异步的对语音数据进行识别与对话处理等，从而，实现对人与人之间交流时边听边说的状态进行高度模拟，并在提高语音交互效率的同时，提高了用户的体验感。此外，针对对话交互期间提出新的对话请求或中断请求的情况，由于会对两个语音数据的识别文本进行语义意图相关性判定，以确定最终的语音数据播报顺序，因此，相比于现有技术的“直接结束上一未完成对话任务”，本申请可以基于判断结果做对应处理，以模拟真实对话中的中断和引发新话题等发言，从而，减少不必要对话的冗长应答，实现智能对话流程控制，进一步提高用户体验度。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的提升人机对话交互体验感的方法的一种流程示意图；

图2为本申请实施例提供的监测连接状态的一种流程示意图；

图3为本申请实施例提供的提升人机对话交互体验感的装置的一种示意图；

图4为本申请实施例提供的提升人机对话交互体验感的设备的一种示意图。

图中标记：30-提升人机对话交互体验感的装置，301-通信任务建立单元，302-识别文本获取单元，303-相关性判定单元，304-语音数据处理单元，305-中断词判定单元，40-提升人机对话交互体验感的设备，401-处理器，402-存储器，403-I/O接口，404-数据库。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

随着人工智能语音技术的普及，通过语音来控制智能电视、智能音箱等设备已经成为了主流，用户可通过语音对话能够更加快捷、高效地实现对智慧电视等设备的控制。然而，在现有技术中，常通过语音助手来语音对话进而控制，且大多语音助手都是半双工化来进行通信，即，用户唤醒语音助手时，需要等设备执行完当前命令后，才能做下一轮语音交互，进而，导致语音交互效率较低，用户体验不友好。

进一步的，当AI语音机器人在对话期间提出新的对话请求或中断请求时，常会将上一未完成对话任务直接结束，而以当前对话请求为准进行应答。然而，若两个对话任务之间有一定的关联关系而用户想同时获得相关信息时，则容易导致用户获取有效信息的完整度下降。

基于此，本申请实施例提供一种提升人机对话交互体验感的方法，在该方法中，首先，可以建立全双工模式下异步通信的第一通信任务和第二通信任务；然后，可以在通过第二通信任务对第一语音数据对应的第一语音识别结果进行处理的过程中，通过第一通信任务接收到第二语音数据的情况下，来获取第二语音数据对应的第二识别文本；其中，第一语音数据和第二语音数据分别是多轮对话场景下相邻两次用户输入语音数据；接下来，可以判断第一识别文本与第二识别文本的语义意图是否相关；其中，第一识别文本为对第一语音数据进行识别得到的结果；最后，若第一识别文本与第二识别文本的语义意图不相关，则可以停止第一语音数据的处理，并执行第二语音数据的处理。因此，在本申请实施例中，由于整个数据处理过程均是在全双工的情况下进行处理的，因此，相比于现有技术的通过“半双工化”来进行通信，本申请可以异步的对语音数据进行识别与对话处理等，从而，实现对人与人之间交流时边听边说的状态进行高度模拟，并在提高语音交互效率的同时，提高了用户的体验感。此外，针对对话期间提出新的对话请求或中断请求的情况，由于会对两个语音数据的识别文本进行语义意图相关性判定，以确定最终的语音数据播报顺序，因此，相比于现有技术的“直接结束上一未完成对话任务”，本申请可以基于判断结果做对应处理，以模拟真实对话中的中断和引发新话题等发言，从而，减少不必要对话的冗长应答，实现智能对话流程控制，进一步提高用户体验度。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

实施例1：

如图1所示，为本申请实施例提供的提升人机对话交互体验感的方法的一种流程示意图，具体的，该方法的流程介绍如下。

步骤101：建立全双工模式下异步通信的第一通信任务和第二通信任务。

在本申请实施例中，第一通信任务可以用于后端接收前端传输的语音数据，并将其传输至语音识别模块中进行识别；第二通信任务可以用于后端接收语音识别结果，并调用对应的处理模块进行处理得到对应答应信息后反馈至前端。如，后端调用对话处理模块对用户输入信息进行处理，查找对应的答案文本，并对答案文本进行文字分割，然后再调用语音合成模块将分割后的文本逐个转为对应的音频返回前端进行播放等等。需要说明的是，单轮人机交互的数据处理过程也同上述对话处理、对应答文本文字分割并进行语音合成等相同。

在实际应用中，首先，基于前端触发的唤醒条件，该前端会向后端发起建立通信通道的通信通道请求。具体的，前端会判断当前用户输入唤醒指令是否满足唤醒后端的唤醒条件，若是满足唤醒后端的唤醒条件，则前端会向后端发起建立通信通道的通信通道请求。其中，唤醒条件可以为唤醒指令中含有预设关键词，或某个唤醒控件等，在此具体不做限制。

然后，响应于通信通道请求，可以通过全双工组件建立前端与后端之间的第一通信通道，以及后端与语音识别等模块之间的第二通信通道，并同时构建第一通信任务和第二通信任务，其中，第一通信任务与第二通信任务之间是异步通信。

具体的，后端响应于前端发送的通信通道请求，可以通过websocket协议构建前端与后端的第一通信通道，以及后端与语音识别等模块之间的第二通信通道，并同时构建第一通信任务和第二通信任务，其中，第一通信任务与第二通信任务之间是异步通信。且第一通信任务主要用于后端接收前端传输的语音数据，并将接收的语音数据传输至语音识别模块中进行识别，以及后端向前端反馈模板信息（例如当用户输入语音不可识别时返回“对不起，我没有听清楚”之类的模板信息等）。第二通信任务主要用于后端将其接收到的语音识别结果发送至其他待调用模块（如对话处理模块、语音合成模块等）中进行处理，并得到对应答应信息，并将该应答信息传输至前端。

步骤102：在通过第二通信任务对第一语音数据对应的第一语音识别结果进行处理的过程中，通过第一通信任务接收到第二语音数据的情况下，获取第二语音数据对应的第二识别文本。

在本申请实施例中，第一语音数据和第二语音数据可以分别是多轮对话场景下相邻两次用户输入语音数据。

在实际应用中，假设后端向前端发送播放欢迎语请求的第一请求，那么，在通过websocket协议构建第一通信通道与第二通信通道之后，前端可以响应于后端的第一请求，以在客户端播放欢迎语的模板信息。

然后，在第一通信任务的控制下，前端会将采集到的第一语音数据传输至后端，接下来，后端会将其接收到的第一语音数据传输至语音识别模块进行识别对应得到第一识别文本。进一步的，在第二通信任务的控制下，语音识别模块会将第一识别文本（第一语音识别结果）反馈给后端，然后，后端会将其传输至对话处理模块进行处理，并将处理结果传输至后端得到第一应答文本。

此时，为了模拟真实对话中的中断和引发新话题等发言，在本申请实施例中，在通过第二通信任务对第一语音数据对应第一语音识别结果进行处理的过程中，还可以通过第一通信任务来接收到第二语音数据，进而，与第一语音数据的处理过程类似，在获取到第二语音数据之后，可以通过第一通信任务来获取第二语音数据对应的第二识别文本。

步骤103：判断第一识别文本与第二识别文本的语义意图是否相关。

其中，第一识别文本为对第一语音数据进行识别得到的结果。

为了确保用户可以获得完整度较高的有效信息，减少不必要对话的冗长应答，以实现智能对话流程控制，提高用户体验度，在本申请实施例中，后端可以对第一识别文本与第二识别文本之间的关联关系进行确定，具体的，可以判断第一识别文本与第二识别文本的语义意图是否相关。

步骤104：若第一识别文本与第二识别文本的语义意图不相关，则停止第一语音数据的处理，并执行第二语音数据的处理。

在本申请实施例中，若第一识别文本与第二识别文本的语义意图不相关，即，第一语音数据（第一个对话任务）与第二语音数据（第二个对话任务）之间不存关联关系，则后端可以停止对第一语音数据的处理，并执行第二语音数据的处理，以使用户可以获得完整度较高的有效信息，并通过减少不必要对话的冗长应答，来实现智能对话流程控制，从而，进一步提高用户体验度。

在实际应用中，假设第一语音数据为“成都有什么好吃的”，第二语音数据为“现在成都天气这怎么样”，那么，根据语义意图，可以知道用户在较短的间隔时间内分别输入的两个语音数据（“成都有什么好吃的”和“现在成都天气这怎么样”）之间是不相关的，所以，在第二通信任务控制下，可以向前端、其他待调用模块发出终止指令，以停止第一语音数据对应的所有处理任务，如，若针对“成都有什么好吃的”的答案文本还未完成文字分割、语音合成等任务，则立刻结束该相关数据处理任务，同时前端则不再播放第一个问题的答案。然后，后端在第二通信任务控制下，可以将第二识别文本传输至对话处理模块进行处理，并将结果返回至后端，以得到第二应答文本，并执行后续对第二应答文本进行文字分割、语音合成等任务，且仅在前端播放第二个问题对应的答案。需要说明的是，当第二识别文本为“嗯啊等”无具体意义的文字时可将其忽略不计。

在一种可能的实施方式中，在判断第一识别文本与第二识别文本的语义意图是否相关的步骤之后，在本申请实施例中，若第一识别文本与第二识别文本的语义意图相关，则根据对话处理优先级指令对第一语音数据和第二语音数据进行处理，即，后端响应对话处理优先级指令，对对话任务处理顺序进行调整；其中，对话处理优先级指令是基于时间轴对后端接收到用户输入语音数据的时间进行任务排列执行的指令。

在实际应用中，假设第一语音数据为“乘地铁去XX的路线怎么走”，第二语音数据为“最早的一班地铁是几点”，那么，根据语义意图，可以知道用户在较短的间隔时间内分别输入的两个语音数据（“乘地铁去XX的路线怎么走”和“最早的一班地铁是几点”）之间是相关的，所以，从意图上并不能体现用户不想知道上一个信息的答案，此时，则可以根据对话处理优先级指令对第一语音数据和第二语音数据进行处理。

在一种可能的实施方式中，在后端确定第一识别文本与第二识别文本的语义意图相关，并进一步根据对话处理优先级指令对第一语音数据和第二语音数据进行处理时，具体可以对第二识别文本进行文字分割，来获得第二识别文本对应的文字队列；然后，根据对话处理优先级指令，可以将第二识别文本对应的文字队列整合至第一识别文本对应的文字队列的末尾，以获得整合后的文字队列；接下来，可以根据整合后的文字队列的先后顺序，来通过第二通信任务将整合后的文字队列进行文字转语音操作，以获得对应的应答音频队列；最后，可以根据应答音频队列的先后顺序将其发送至前端进行播放，从而，使用户可以获得完整度较高的有效信息，以进一步提高用户体验度。此外，由于会将识别文本分割成多段进行传输与处理，因此，可以大大缩短端到端的响应时间，进一步提高用户体验度。

在一种可能的实施方式中，为了减少通信开销和资源浪费，在本申请实施例中，在判断第一识别文本与第二识别文本的语义意图是否相关的步骤之前，还可以判断第二识别文本中是否存在预设中断词，例如，“别说了”、“不想听了”以及“可以了”等；若第二识别文本中存在预设中断词，则可以通过第二通信任务停止第一语音数据的处理，如后端停止文字分割、对话处理模块停止应答文本的查找、语音合成模块停止语音合成等；当然了，若第二识别文本中不存在预设中断词，则可以继续执行判断第一识别文本与第二识别文本的语义意图是否相关的步骤，达到在满足用户需求的基础上，减少通信开销和资源浪费的效果。

在一种可能的实施方式中，在判断第一识别文本与第二识别文本的语义意图是否相关时，具体可以判断第二识别文本的意图槽位是否填充完整；其中，该意图槽位是预先设置好的。例如，送包裹在填地址时，需要将“省、市、区、街道、小区”这个5个内容槽位填写完全，才能清楚的将东西送达至买家手中，同样的，针对识别文本，也是需要将识别文本的所有意图槽位填充完整，才能清楚的知道该识别文本所要表达的含义。

进而，若第二识别文本的意图槽位填充完整，则可以直接判断第一识别文本和第二识别文本的语义意图是否相关。

若第二识别文本的意图槽位未填充完整，则可以通过第二通信任务暂停对第一语音识别结果的处理，并基于意图槽位中缺失的第一关键信息向前端发出第一询问请求；其中，该第一询问请求是请求前端播放询问第一关键信息的语音；然后，响应于第一询问请求，可以获取第三语音数据。

进而，根据该第三语音数据，可以通过第二通信任务来对第二识别文本的意图槽位进行填充，并在填充后返回判断第二识别文本的意图槽位是否填充完整的步骤，直至第二识别文本的意图槽位填充完整。从而，便可以根据意图槽位完整的第二识别文本和第一识别文本，来判断第一识别文本与第二识别文本的语义意图是否相关了。

上述实施例的一种对话场景实施如下：

用户A：简单介绍一下XX的旅游打卡热点，给我推荐3个地方吧。

机器人：XX是一个5A级景区，这里有…（对XX的美食和风土人情等做一简介，基于热门打卡点列举3个地方并分别做介绍）。

用户A：我想去XX旅游，帮我买张机票吧。（在上一轮机器人回答还未结束的过程中引入新的任务型对话）。

机器人：暂停介绍XX的语音，并基于购买去XX机票意图发出询问出发时间和出发地点的第一询问请求的相关信息。

用户A：基于第一询问请求回复相关第一关键信息，直至关于购票的意图槽位填充完整。

机器人：判断介绍XX的意图与购买大巴车票的意图并不相关，则执行购买大巴车票意图的任务型对话。

在一种可能的实施方式中，为了进一步提高用户体验感，在确定第一识别文本与第二识别文本的语义意图不相关，并基于此停止第一语音数据的处理，并执行第二语音数据的处理时，在本申请实施例中，还可以通过询问用户是否继续执行第一识别文本，来进一步提高用户体验感。

具体的，首先，若判断出第一识别文本与第二识别文本的语义意图不相关，且第一识别文本的意图槽位未填充完整，则可以基于意图槽位中缺失的第二关键信息向前端发出第二询问请求或提示信息；其中，第二询问请求是用于询问用户是否继续执行第一识别文本对应对话任务的选择意图信息；提示信息是用于提示用户先完成第一识别文本对应对话任务的信息。例如，假设第一识别文本为“买一张去北京的动车票”，基于此，根据经验可知，在具体对车票进行查询时，除了需要“地点名”，还需要有“时间段”才能对车票进行准确查询。因此，显然关于购买去北京动车票的这一识别文本的意图槽位未填充完整。此时，用户未回复第一识别文本中确实的第一关键信息，输入的第二识别文本为“北京市X号的天气怎么样”情况下，第一识别文本的意图是购票（此时具有一定实际意义的意图，只是意图不明晰），第二识别文本的意图是查询天气，此时可以两轮对话的意图并不相关。为了进一步提高用户体验感，还可以向前端发送第二询问请求或提示信息，将对话任务走向的控制权交给用户决定，例如，该第二询问请求可以为“请问是否继续查询去北京的动车票”，提示信息可以为“请先提供购买去北京动车票的出发时间以及出发地点”。

然后，响应于第二询问请求，可以获取用户第四语音数据对应的第四识别文本；最后，若第四识别文本为放弃继续执行第一识别文本对应对话任务，那么，则可以停止第一语音数据的处理，并执行第二语音数据的处理。从而，在处理人机交互过程中，基于第二询问请求对话题内容发生转移的对话进行拉回，而非粗暴的放弃其中一个对话任务的处理，通过多考虑用户的想法，来进一步提高用户体验感。

当然了，若第四识别文本为继续执行第一识别文本对应对话任务，那么，则可以继续通过第二通信任务对第一识别文本对应对话任务进行处理，同时将第二识别文本进行保存，并待第一识别文本对应对话任务处理完成后再基于第二识别文本进行数据处理。

在一种可能的实施方式中，当第一识别文本对应的数据处理过程已完成推荐任务但是等待用户完成最后一步操作结束当前对话任务的过程中，接收到第二识别文本，且意图完整。若二者之间意图不相关（如购票已经完成班次推荐任务，等待用户支付付费的过程中用户提出新对话任务想要查询天气），则向用户发出请示请求或提醒信息，请示请求用户向用户询问是否结束前一对话任务（如是否放弃购买该车票），提醒信息用户用户提醒用户请先完成购票任务。

在一种可能的实施方式中，如图2所示，为本申请实施例提供的监测连接状态的一种流程示意图，具体的，其整个监测过程均在执行第二通信任务的过程中。

步骤201：构建监测任务。

步骤202：根据监测任务，对后端与语音识别模块之间的连接状态进行监测，获得监测结果。

步骤203：根据监测结果，确定后端与语音识别模块之间是否断开连接。

步骤204：若确定后端与语音识别模块之间断开连接，则调用后端执行停止传输指令，并向语音识别模块发送重连请求。

在申请实施例中，停止传输指令可以用于后端停止向语音识别模块传输语音数据。且在向语音识别模块发送重连请求的同时，还可以对前端接收的语音数据进行分段存储形成用户音频队列，从而，不仅避免音频数据的丢失，还能保证语音数据产生时的时间属性，避免后期向语音识别模块传输时顺序错误导致识别准确率降低。

当然了，若确定后端与语音识别模块之间没有断开连接，则调用后端将用户输入的语音数据实时传输至语音识别模块进行识别处理，在得到的识别结果之后，还可以将该识别结果返回至后端进行后续的智能对话处理。

步骤205：根据重连请求，将后端与语音识别模块进行重连。

在一种可能的实施方式中，为了提高语音数据的完整性，在根据重连请求，将后端与语音识别模块进行重连之后，在本申请实施例中，还可以获取第一时间戳和第二时间戳之间的时间差；其中，第一时间戳为当前时间；第二时间戳为响应停止传输指令的实时时间；具体的，后端可以将当前时间记为第一时间戳，且响应停止传输指令，并记录响应该停止传输指令的实时时间为第二时间戳。然后，可以基于第一时间戳和第二时间戳，来计算时间差；接下来，可以确定时间差是否超过预设时间阈值。

若确定时间差超过预设时间阈值，则可以停止响应停止传输指令，并基于用户音频队列的先后顺序将接收的语音数据实时传输至语音识别模块进行识别，并继续进行后续的相应处理过程；若确定时间差不超过预设时间阈值，则重新记录第一时间戳和第二时间戳，并进行相应的计算与后续操作。

进而，基于时间差，在后端与语音识别模块之间重连之后一段时间，才会执行后端向语音识别模块传输语音数据的任务，因此，避免了在后端与语音识别模块重连还未完成时传输语音数据导致部分数据丢失的问题，进一步提高了语音数据的完整性。

综上所述，在本申请实施例中，可以通过异步通信的第一通信任务和第二通信任务之间对语音数据的协同控制，来实现全双工连续对话的功能，并在此基础上针对连续对话中插入新的对话任务或中断任务分别进行意图是否相关的判断，并基于判断结果做对应处理以模拟真实对话中的中断和引发新话题等发言，减少不必要对话的冗长应答，实现智能对话流程控制。

实施例2：

基于同一发明构思，本申请实施例提供一种提升人机对话交互体验感的装置30，如图3所示，该提升人机对话交互体验感的装置30包括：

通信任务建立单元301，用于建立全双工模式下异步通信的第一通信任务和第二通信任务；其中，第一通信任务用于后端接收前端传输的语音数据，并将其传输至语音识别模块中进行识别；第二通信任务用于后端接收语音识别结果，并对其进行处理得到对应答应信息后反馈至前端；

识别文本获取单元302，用于在通过第二通信任务对第一语音数据对应的第一语音识别结果进行处理的过程中，通过第一通信任务接收到第二语音数据的情况下，获取第二语音数据对应的第二识别文本；其中，第一语音数据和第二语音数据分别是多轮对话场景下相邻两次用户输入语音数据；

相关性判定单元303，用于判断第一识别文本与第二识别文本的语义意图是否相关；其中，第一识别文本为对第一语音数据进行识别得到的结果；

语音数据处理单元304，用于若第一识别文本与第二识别文本的语义意图不相关，则停止第一语音数据的处理，并执行第二语音数据的处理。

可选的，语音数据处理单元304，还用于：

若第一识别文本与第二识别文本的语义意图相关，则根据对话处理优先级指令对第一语音数据和第二语音数据进行处理；其中，对话处理优先级指令是基于时间轴对后端接收到用户输入语音数据的时间进行任务排列执行的指令。

可选的，语音数据处理单元304，还用于：

对第二识别文本进行文字分割，获得第二识别文本对应的文字队列；

根据对话处理优先级指令，将第二识别文本对应的文字队列整合至第一识别文本对应的文字队列的末尾，获得整合后的文字队列；

根据整合后的文字队列的先后顺序，通过第二通信任务将整合后的文字队列进行文字转语音操作，获得对应的应答音频队列；

根据应答音频队列的先后顺序将其发送至前端进行播放。

可选的，该提升人机对话交互体验感的装置30还包括中断词判定单元305，中断词判定单元305，用于：

判断第二识别文本中是否存在预设中断词；

若第二识别文本中存在预设中断词，则通过第二通信任务停止第一语音数据的处理；

若第二识别文本中不存在预设中断词，则执行判断第一识别文本与第二识别文本的语义意图是否相关的步骤。

可选的，相关性判定单元303，还用于：

判断第二识别文本的意图槽位是否填充完整；

若第二识别文本的意图槽位填充完整，则判断第一识别文本和第二识别文本的语义意图是否相关；

若第二识别文本的意图槽位未填充完整，则通过第二通信任务暂停对第一语音识别结果的处理，并基于意图槽位中缺失的第一关键信息向前端发出第一询问请求；其中，第一询问请求是请求前端播放询问第一关键信息的语音；

响应于第一询问请求，获取第三语音数据；

根据第三语音数据，通过第二通信任务对第二识别文本的意图槽位进行填充，并在填充后返回判断第二识别文本的意图槽位是否填充完整的步骤，直至第二识别文本的意图槽位填充完整。

可选的，语音数据处理单元304，还用于：

若第一识别文本与第二识别文本的语义意图不相关，且第一识别文本的意图槽位未填充完整，则基于意图槽位中缺失的第二关键信息向前端发出第二询问请求或提示信息；其中，第二询问请求是用于询问用户是否继续执行第一识别文本对应对话任务的选择意图信息；提示信息是用于提示用户先完成第一识别文本对应对话任务的信息；

响应于第二询问请求，获取用户第四语音数据对应的第四识别文本；

若第四识别文本为放弃继续执行第一识别文本对应对话任务，则停止第一语音数据的处理，并执行第二语音数据的处理。

可选的，语音数据处理单元304，还用于：

若第四识别文本为继续执行第一识别文本对应对话任务，则继续通过第二通信任务对第一识别文本对应对话任务进行处理，同时将第二识别文本进行保存，待第一识别文本对应对话任务处理完成后再基于第二识别文本进行数据处理。

该提升人机对话交互体验感的装置30可以用于执行图1~图2所示的实施例中的方法，因此，对于该提升人机对话交互体验感的装置30的各功能单元所能够实现的功能等可参考图1~图2所示的实施例的描述，不多赘述。

实施例3：

基于同一发明构思，如图4所示，为本申请实施例提供的提升人机对话交互体验感的设备的一种示意图。

其中，提升人机对话交互体验感的设备40可以用于对全双工语音对话进行数据处理，例如，可以为个人计算机（Personal Computer，PC）、服务器与手提电脑等。提升人机对话交互体验感的设备40可包括一个或者多个处理器401、存储器402、I/O接口403以及数据库404。具体的，处理器401可以为中央处理单元（central processing unit，CPU），或者为数字处理单元等等。存储器402可以是易失性存储器（volatile memory），例如随机存取存储器（random-access memory，RAM）；存储器402也可以是非易失性存储器（non-volatilememory），例如只读存储器，快闪存储器（flash memory），硬盘（hard disk drive，HDD）或固态硬盘（solid-state drive，SSD）；或者存储器402是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器402可以是上述存储器的组合。存储器402中可以存储本申请实施例提供的提升人机对话交互体验感的方法的部分程序指令，这些程序指令被处理器401执行时能够用以实现本申请实施例提供的提升人机对话交互体验感的方法的步骤，以解决用户体验感差、语音交互效率较低以及语音对话应答冗长的问题。数据库404可以用于存储本申请实施例提供的方案中涉及到的第一语音数据、第二语音数据、第一识别文本、第二识别文本、第一语音识别结果以及第二语音识别结果等数据。

在本申请实施例中，提升人机对话交互体验感的设备40可以通过I/O接口403获取第一语音数据和第二语音数据，然后，提升人机对话交互体验感的设备40的处理器401会按照存储器402中本申请实施例提供的提升人机对话交互体验感的方法的程序指令来提高用户体验感、语音交互效率以及减少语音对话应答冗长等。此外，还可以将第一语音数据、第二语音数据、第一识别文本、第二识别文本、第一语音识别结果以及第二语音识别结果等数据存储于数据库404中。

实施例4：

在一些可能的实施方式中，本申请提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤，例如，所述计算机设备可以执行如图1~图2所示的实施例中的方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种提升人机对话交互体验感的方法，其特征在于，所述方法包括：

2.如权利要求1所述的提升人机对话交互体验感的方法，其特征在于，在判断第一识别文本与所述第二识别文本的语义意图是否相关的步骤之后，还包括：

3.如权利要求2所述的提升人机对话交互体验感的方法，其特征在于，所述若所述第一识别文本与所述第二识别文本的语义意图相关，则根据对话处理优先级指令对所述第一语音数据和所述第二语音数据进行处理的步骤，还包括：

4.如权利要求1所述的提升人机对话交互体验感的方法，其特征在于，所述判断第一识别文本与所述第二识别文本的语义意图是否相关的步骤之前，还包括：

判断所述第二识别文本中是否存在预设中断词；

5.如权利要求1或2所述的提升人机对话交互体验感的方法，其特征在于，所述判断第一识别文本与所述第二识别文本的语义意图是否相关的步骤，包括：

判断所述第二识别文本的意图槽位是否填充完整；

响应于所述第一询问请求，获取第三语音数据；

根据所述第三语音数据，对所述第二识别文本的意图槽位进行填充，并在填充后返回所述判断所述第二识别文本的意图槽位是否填充完整的步骤，直至所述第二识别文本的意图槽位填充完整。

6.如权利要求1所述的提升人机对话交互体验感的方法，其特征在于，所述若所述第一识别文本与所述第二识别文本的语义意图不相关，则停止所述第一语音数据的处理，并执行所述第二语音数据的处理的步骤，包括：

7.如权利要求6所述的提升人机对话交互体验感的方法，其特征在于，响应于所述第二询问请求，获取用户第四语音数据对应的第四识别文本之后，所述方法还包括：

8.一种提升人机对话交互体验感的装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述设备包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行权利要求1-7中任一所述的提升人机对话交互体验感的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行权利要求1-7中任一所述的提升人机对话交互体验感的方法。