CN115148205A

CN115148205A - 一种语音交互方法、系统、电子设备及存储介质

Info

Publication number: CN115148205A
Application number: CN202210725106.2A
Authority: CN
Inventors: 姚树杰; 田绍伟; 李子建; 赵言; 先永春; 胡加明
Original assignee: Dingfu New Power Beijing Intelligent Technology Co ltd
Current assignee: Dingfu New Power Beijing Intelligent Technology Co ltd
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-10-04

Abstract

本申请提供一种语音交互方法、系统、电子设备及存储介质，在双工通信的基础上，在对话机器人播报过程中获取到用户语音流，根据用户语音流以及播报的播报状态，判断是否打断播报，使机器人在“说话”的过程中及时捕捉和理解用户的“输入”，理解到有意义的语义则暂停播报并针对最新输入进行答复或采取相应动作，在用户想要打断对话时能够打断对话机器人的当前播报，提高了客户在交流过程中的拟人化交流及个性化体验，提高了对话的灵活性。并且，相较于纯语义打断，结合了语义和播报状态综合判断是否需要打断的打断策略更具有可控性和灵活性，可配置性也更强。

Description

一种语音交互方法、系统、电子设备及存储介质

技术领域

本申请涉及语音交互、人机对话技术领域，具体而言，涉及一种语音交互方法、系统、电子设备及存储介质。

背景技术

将语音、知识库与面向任务的多轮对话与问答的技术相结合的对话与问答系统已经越来越多的出现和应用于各领域，以解决客服、营销、咨询、提醒等各种业务问题。

现有技术中，当用户对智能对话机器人产生反感情绪或者用户认为智能对话机器人没有理解其所要表达的意思想要打断智能对话机器人时，智能对话机器人不知道应当如何处理，仍然继续与用户对话，这种不支持打断的对话略显机械、交互过程死板僵硬，对人不友好，不能做到“边说边听边思考”，无法满足对语音对话系统的高要求。

发明内容

本申请实施例的目的在于提供一种语音交互方法、系统、电子设备及存储介质，用以现有技术的智能对话机器人在用户想要打断对话时，智能对话机器人不知道应当如何处理，仍然继续与用户对话，这种不支持打断的对话略显机械、交互过程死板僵硬，对人不友好，不能做到“边说边听边思考”，无法满足对语音对话系统的高要求的技术问题。

本申请实施例提供的一种语音交互方法，包括：

获取在机器人播报过程中的用户语音流，并在获取用户语音流时，执行以下步骤：

根据用户语音流以及播报的播报状态，判断是否打断播报。

上述技术方案中，在双工通信的基础上，在对话机器人播报过程中获取到用户语音流，根据用户语音流以及播报的播报状态，判断是否打断播报，使机器人在“说话”的过程中及时捕捉和理解用户的“输入”，理解到有意义的语义则暂停播报并针对最新输入进行答复或采取相应动作，也就是说，机器人“说”的同时“倾听”用户有没有说话，同时思考是否要“被打断”，根据用户最新的说话内容进行应答，在用户想要打断对话时能够打断对话机器人的当前播报，提高了客户在交流过程中的拟人化交流及个性化体验，提高了对话的灵活性。并且，相较于纯语义打断，结合了语义和播报状态综合判断是否需要打断的打断策略更具有可控性和灵活性，可配置性也更强。

在一些可选的实施方式中，其中，播报的播报状态包括播报时长和播报进度；

根据用户语音流以及机器人播报状态，判断是否打断播报，包括：

判断播报时长和/或播报进度是否大于对应阈值：

若是，则不打断播报；

若否，则根据所述用户语音流识别出用户打断意图，并，根据所述用户打断意图，判断是否打断播报。

在一些可选的实施方式中，根据用户语音流以及机器人播报状态，判断是否打断播报，包括：

判断播报时长是否大于时间阈值；若是，则不打断播报；

若否，则继续判断播报进度是否大于进度阈值；若是，则不打断播报；

若否，则根据用户语音流识别出用户打断意图；

根据用户打断意图，判断是否打断播报。

上述技术方案中，根据播报时长、播报进度以及用户语音流来判断是否需要打断播报，相较于纯语义打断，在根据语义打断的基础上结合了已播报进度、播报时长的打断策略使得判定更加准确，且更具有可控性和灵活性，可配置性也更强。

将用户语音流转换为对应的用户文本信息；以及

根据用户文本信息，确定用户打断意图；其中，用户打断意图包括内置打断意图、业务意图和非打断意图。

上述技术方案中，对用户语音流先转换为用户文本信息，再根据用户文本信息，确定用户打断意图，用户打断意图包括内置打断意图、业务意图和非打断意图。其中，内置打断意图由系统内置，例如用户文本信息中包含了“你别说话”，“你听我说”等等明确包含打断语义的话术。业务意图是否可打断由人工根据业务需要配置该意图是否允许打断。

在一些可选的实施方式中，确定用户打断意图之后，还包括：

若确定用户打断意图为内置打断意图，则打断播报并进行用户引导；其中，对用户引导包括提示并等待用户的进一步语音流；

若确定用户打断意图为业务意图，则根据业务意图对应的业务配置判断是否打断播报；以及

若确定用户打断意图为非打断意图，则不打断播报。

上述技术方案中，在识别出用户打断意图之后，根据不同的用户打断意图进行不同的处理，提高了客户在交流过程中的拟人化交流及个性化体验，提高了对话的灵活性。

在一些可选的实施方式中，根据用户打断意图，判断是否打断播报，还包括：

若根据业务意图对应的业务配置，确定打断播报，则继续判断当前播报是否结束；

若当前播报未结束，则打断播报，并进行话题转移，开启新对话流。

上述技术方案中，在识别出用户意图为可进行打断的业务意图时，若当前播报还未结束，则打断播报并进行话题转移，开启新对话流；若当前播报已结束，则无需打断播报，直接进行话题转移并开启新对话流。

在一些可选的实施方式中，还包括：

根据原对话流的节点配置信息，确定打断播报后的新对话流结束时，是否拉回原对话流并继续播报。

上述技术方案中，语音交互方法还包括了对话流层面的管理方法，若原对话流的配置了“从该节点跳出，将被自动拉回”的节点配置信息，那么在打断播报后的新对话流结束时，将会拉回原对话流并进行播报。在另一实施例中，若原对话流的配置了“从该节点跳出，将被自动拉回”的节点配置信息，即使没有打断播报，只是在原对话流的某一播报结束时，开启了新对话流，那么在新对话流结束时，也会拉回原对话流。

本申请实施例提供的一种语音交互系统，包括：

VAD模块，用于获取用户语音流；

分析模块，用于根据用户语音流以及播报的播报状态，判断是否打断播报。

上述技术方案中，通过VAD模块获取用户语音流，再利用分析模块，根据用户语音流以及播报的播报状态，判断是否打断播报，使机器人在“说话”的过程中及时捕捉和理解用户的“输入”，理解到有意义的语义则暂停播报并针对最新输入进行答复或采取相应动作，在用户想要打断对话时能够打断对话机器人的当前播报，提高了客户在交流过程中的拟人化交流及个性化体验，提高了对话的灵活性。并且，相较于纯语义打断，结合了语义和播报状态综合判断是否需要打断的打断策略更具有可控性和灵活性，可配置性也更强。

在一些可选的实施方式中，其中，播报的播报状态包括播报时长和播报进度；分析模块包括：

时长判断模块，用于判断播报时长是否大于时间阈值，若是，则不打断播报；

进度判断模块，用于在播报时长不大于时间阈值时，判断播报进度是否大于进度阈值：若是，则不打断播报；

ASR模块，用于在播报进度不大于进度阈值时，将用户语音流转换为对应的用户文本信息；

NLP模块，用于根据用户文本信息，确定用户打断意图；其中，用户打断意图包括内置打断意图、业务意图和非打断意图。

上述技术方案中，利用时长判断模块和进度判断模块，根据播报时长、播报进度以及用户语音流来判断是否需要打断播报，相较于纯语义打断，在根据语义打断的基础上结合了已播报进度、播报时长的打断策略使得判定更加准确，且更具有可控性和灵活性，可配置性也更强。利用ASR模块，对用户语音流先转换为用户文本信息，再利用NLP模块，根据用户文本信息，确定用户打断意图，用户打断意图包括内置打断意图、业务意图和非打断意图。其中，内置打断意图由系统内置，例如用户文本信息中包含了“你别说话”，“你听我说”等等明确包含打断语义的话术。业务意图是否可打断由人工根据业务需要配置该意图是否允许打断。

在一些可选的实施方式中，分析模块还包括意图处理模块；意图处理模块用于：

若确定用户打断意图为非打断意图，则不打断播报。

上述技术方案中，在识别出用户打断意图之后，利用意图处理模块，根据不同的用户打断意图进行不同的处理，提高了客户在交流过程中的拟人化交流及个性化体验，提高了对话的灵活性。

在一些可选的实施方式中，意图处理模块还用于：

上述技术方案中，利用意图处理模块，在识别出用户意图为可进行打断的业务意图时，若当前播报还未结束，则打断播报并进行话题转移，开启新对话流；若当前播报已结束，则无需打断播报，直接进行话题转移并开启新对话流。

在一些可选的实施方式中，还包括：

对话流管理模块，用于根据原对话流的节点配置信息，确定打断播报后的新对话流结束时，是否拉回原对话流并继续播报。

上述技术方案中，利用对话流管理模块实现对话流层面的管理，具体包括：若原对话流的配置了“从该节点跳出，将被自动拉回”的节点配置信息，那么在打断播报后的新对话流结束时，将会拉回原对话流并进行播报。在另一实施例中，对话流管理模块，用于：若原对话流的配置了“从该节点跳出，将被自动拉回”的节点配置信息，即使没有打断播报，只是在原对话流的某一播报结束时，开启了新对话流，那么在新对话流结束时，也会拉回原对话流。

本申请实施例提供的一种电子设备，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如以上任一所述的方法。

本申请实施例提供的一种计算机可读存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如以上任一所述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种语音交互方法步骤流程图；

图2为本申请实施例提供的判断是否打断播报的方法步骤流程图；

图3为本申请实施例提供的一种语音交互系统功能模块图；

图4为本申请实施例提供的分析模块的功能模块图。

图标：1-VAD模块，2-分析模块，21-时长判断模块，22-进度判断模块，23-ASR模块，24-NLP模块，25-意图处理模块，26-对话流管理模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

经研究发现，当用户对智能对话机器人产生反感情绪或者用户认为智能对话机器人没有理解其所要表达的意思想要打断智能对话机器人时，智能对话机器人不知道应当如何处理，仍然继续与用户对话。不支持打断的对话略显机械、交互过程死板僵硬，对人不友好，不能做到“边说边听边思考”；打断后对话的恢复也是一个比较重要的问题，具备恢复能力能够使得机器人与人交户中更好的体现“延续性”。打断与恢复能力也一定程度上体现了对话技术以及机器人“智能”水平的高低。

因此，为满足对语音对话系统更高的要求，使其具备打断及恢复的能力，本申请的一个或多个实施例中提出了一种语音交互方法、系统、电子设备及存储介质，通过人机语音对话过程中打断与恢复机制，解决对话机器人在用户想要打断对话时不知道应当如何处理的技术问题，使机器人在“说话”的过程中及时捕捉和理解用户的“输入”，理解到有意义的语义则暂停播报并针对最新输入进行答复或采取相应动作。

请参照图1，图1为本申请实施例提供的一种语音交互方法步骤流程图，具体包括：

步骤S100、获取在机器人播报过程中的用户语音流，并在获取用户语音流时，执行步骤S200；

其中，可通过VAD(Voice Activity Detection,语音活动检测)模块来获取用户语音流。用户语音流可以是由用户在机器人播报过程中说话得到的，也可以是预先存储于计算机存储介质，在某一触发条件下自动读取得到的。

步骤S200、根据用户语音流以及播报的播报状态，判断是否打断播报。

本申请实施例中，在双工通信的基础上，在对话机器人播报过程中获取到用户语音流，根据用户语音流以及播报的播报状态，判断是否打断播报，使机器人在“说话”的过程中及时捕捉和理解用户的“输入”，理解到有意义的语义则暂停播报并针对最新输入进行答复或采取相应动作，也就是说，机器人“说”的同时“倾听”用户有没有说话，同时思考是否要“被打断”，根据用户最新的说话内容进行应答，在用户想要打断对话时能够打断对话机器人的当前播报，提高了客户在交流过程中的拟人化交流及个性化体验，提高了对话的灵活性。并且，相较于纯语义打断，结合了语义和播报状态综合判断是否需要打断的打断策略更具有可控性和灵活性，可配置性也更强。

请参照图2，图2为本申请实施例提供的判断是否打断播报的方法步骤流程图。

在一些可选的实施方式中，其中，播报的播报状态包括播报时长和播报进度。步骤S200中，根据用户语音流以及机器人播报状态，判断是否打断播报，包括：

判断播报时长是否大于时间阈值；若是，则不打断播报；

若否，则根据用户语音流识别出用户打断意图；

根据用户打断意图，判断是否打断播报。

本申请实施例中，根据播报时长、播报进度以及用户语音流来判断是否需要打断播报，相较于纯语义打断，在根据语义打断的基础上结合了已播报进度、播报时长的打断策略使得判定更加准确，且更具有可控性和灵活性，可配置性也更强。并且，在进行基于语义识别是否打断之前，先判断播报时长和播报进度与对应阈值的关系来确定是否不打断，即在播报时间较长以及即将播报完毕时直接确定为不进行打断，通过本实施例的方法可以减少打断频次，提高对话的效率。

在一些可选的实施方式中，在步骤S200之前，还包括：判断用户语音流的时间是否小于设定阈值，若是，则表示用户的说话时长非常短，默认为是无意义的音节，则直接判断为不打断，无需再进行步骤S200的是否打断的判断，进一步减少打断的频次，提高对话的效率。

在一些可选的实施方式中，根据用户语音流识别出用户打断意图，包括：将用户语音流转换为对应的用户文本信息；以及,根据用户文本信息，确定用户打断意图；其中，用户打断意图包括内置打断意图、业务意图和非打断意图。

本申请实施例中，对用户语音流先转换为用户文本信息，再根据用户文本信息，确定用户打断意图，用户打断意图包括内置打断意图、业务意图和非打断意图。其中，内置打断意图由系统内置，例如用户文本信息中包含了“你别说话”，“你听我说”等等明确包含打断语义的话术。业务意图是否可打断由人工根据业务需要配置该意图是否允许打断。

在一些可选的实施方式中，根据用户打断意图，判断是否打断播报，包括：

若确定用户打断意图为非打断意图，则不打断播报。

本申请实施例中，在识别出用户打断意图之后，根据不同的用户打断意图进行不同的处理，提高了客户在交流过程中的拟人化交流及个性化体验，提高了对话的灵活性。

本申请实施例中，在识别出用户意图为可进行打断的业务意图时，若当前播报还未结束，则打断播报并进行话题转移，开启新对话流；若当前播报已结束，则无需打断播报，直接进行话题转移并开启新对话流。

在一些可选的实施方式中，还包括：根据原对话流的节点配置信息，确定打断播报后的新对话流结束时，是否拉回原对话流并继续播报。

本申请实施例中，语音交互方法还包括了对话流层面的管理方法，若原对话流的配置了“从该节点跳出，将被自动拉回”的节点配置信息，那么在打断播报后的新对话流结束时，将会拉回原对话流并进行播报。在另一实施例中，若原对话流的配置了“从该节点跳出，将被自动拉回”的节点配置信息，即使没有打断播报，只是在原对话流的某一播报结束时，开启了新对话流，那么在新对话流结束时，也会拉回原对话流。

请参照图3，图3为本申请实施例提供的一种语音交互系统功能模块图，语音交互系统包括VAD模块1和分析模块2。其中，VAD模块1，用于获取用户语音流。分析模块2，用于根据用户语音流以及播报的播报状态，判断是否打断播报。

本申请实施例中，通过VAD模块1获取用户语音流，再利用分析模块2，根据用户语音流以及播报的播报状态，判断是否打断播报，使机器人在“说话”的过程中及时捕捉和理解用户的“输入”，理解到有意义的语义则暂停播报并针对最新输入进行答复或采取相应动作，在用户想要打断对话时能够打断对话机器人的当前播报，提高了客户在交流过程中的拟人化交流及个性化体验，提高了对话的灵活性。并且，相较于纯语义打断，结合了语义和播报状态综合判断是否需要打断的打断策略更具有可控性和灵活性，可配置性也更强。

其中，VAD(Voice Activity Detection,语音活动检测)模块，其是从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用，它是IP电话应用的重要组成部分。静音抑制可以节省宝贵的带宽资源，可以有利于减少用户感觉到的端到端的时延。

在一些可选的实施方式中，其中，播报的播报状态包括播报时长和播报进度。请参照图4，图4为本申请实施例提供的分析模块2的功能模块图。分析模块2包括时长判断模块21、进度判断模块22、ASR模块23和NLP模块24：

其中，时长判断模块21，用于判断播报时长是否大于时间阈值，若是，则不打断播报。进度判断模块22，用于在播报时长不大于时间阈值时，判断播报进度是否大于进度阈值：若是，则不打断播报。ASR模块23，用于在播报进度不大于进度阈值时，将用户语音流转换为对应的用户文本信息。NLP模块24，用于根据用户文本信息，确定用户打断意图；其中，用户打断意图包括内置打断意图、业务意图和非打断意图。

本申请实施例中，利用时长判断模块21和进度判断模块22，根据播报时长、播报进度以及用户语音流来判断是否需要打断播报，相较于纯语义打断，在根据语义打断的基础上结合了已播报进度、播报时长的打断策略使得判定更加准确，且更具有可控性和灵活性，可配置性也更强。利用ASR模块23，对用户语音流先转换为用户文本信息，再利用NLP模块24，根据用户文本信息，确定用户打断意图，用户打断意图包括内置打断意图、业务意图和非打断意图。其中，内置打断意图由系统内置，例如用户文本信息中包含了“你别说话”，“你听我说”等等明确包含打断语义的话术。业务意图是否可打断由人工根据业务需要配置该意图是否允许打断。

其中，ASR(Automatic Speech Recognition，语音识别)模块，ASR是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语音。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。NLP(Natural Language Processing，自然语言处理)模块，NLP是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

在一些可选的实施方式中，分析模块2还包括意图处理模块25；意图处理模块25用于：

若确定用户打断意图为非打断意图，则不打断播报。

本申请实施例中，在识别出用户打断意图之后，利用意图处理模块25，根据不同的用户打断意图进行不同的处理，提高了客户在交流过程中的拟人化交流及个性化体验，提高了对话的灵活性。

在一些可选的实施方式中，意图处理模块25还用于：若根据业务意图对应的业务配置，确定打断播报，则继续判断当前播报是否结束；

本申请实施例中，利用意图处理模块25，在识别出用户意图为可进行打断的业务意图时，若当前播报还未结束，则打断播报并进行话题转移，开启新对话流；若当前播报已结束，则无需打断播报，直接进行话题转移并开启新对话流。

在一些可选的实施方式中，系统还包括：对话流管理模块26，用于根据原对话流的节点配置信息，确定打断播报后的新对话流结束时，是否拉回原对话流并继续播报。

本申请实施例中，利用对话流管理模块26实现对话流层面的管理，具体包括：若原对话流的配置了“从该节点跳出，将被自动拉回”的节点配置信息，那么在打断播报后的新对话流结束时，将会拉回原对话流并进行播报。在另一实施例中，对话流管理模块26，用于：若原对话流的配置了“从该节点跳出，将被自动拉回”的节点配置信息，即使没有打断播报，只是在原对话流的某一播报结束时，开启了新对话流，那么在新对话流结束时，也会拉回原对话流。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音交互方法，其特征在于，包括：

根据用户语音流以及播报的播报状态，判断是否打断播报。

2.如权利要求1所述的方法，其特征在于，其中，所述播报的播报状态包括播报时长和播报进度；

所述根据用户语音流以及机器人播报状态，判断是否打断播报，包括：

判断播报时长和/或播报进度是否大于对应阈值：

若是，则不打断播报；

3.如权利要求1所述的方法，其特征在于，所述根据用户语音流以及机器人播报状态，判断是否打断播报，包括：

将用户语音流转换为对应的用户文本信息；以及

根据用户文本信息，确定用户打断意图；其中，所述用户打断意图包括内置打断意图、业务意图和非打断意图。

4.如权利要求3所述的方法，其特征在于，所述确定用户打断意图之后，还包括：

若确定用户打断意图为内置打断意图，则打断播报并进行用户引导；其中，所述用户引导包括提示并等待用户的进一步语音流；

若确定用户打断意图为业务意图，则根据所述业务意图对应的业务配置判断是否打断播报；以及

若确定用户打断意图为非打断意图，则不打断播报。

5.如权利要求4所述的方法，其特征在于，所述根据所述用户打断意图，判断是否打断播报，还包括：

6.如权利要求1所述的方法，其特征在于，还包括：

7.一种语音交互系统，其特征在于，包括：

VAD模块，用于获取用户语音流；

8.如权利要求7所述的系统，其特征在于，其中，所述播报的播报状态包括播报时长和播报进度；所述分析模块包括：

NLP模块，用于根据用户文本信息，确定用户打断意图；其中，所述用户打断意图包括内置打断意图、业务意图和非打断意图。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1-6任一所述的方法。

10.一种计算机可读存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1-6任一所述的方法。