CN110827821A

CN110827821A - 一种语音交互装置、方法和计算机可读存储介质

Info

Publication number: CN110827821A
Application number: CN201911225855.3A
Authority: CN
Inventors: 王琨; 潘艳芳; 赵雅志; 丁琳; 姜悦悦; 范旭; 彭博
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-02-21
Anticipated expiration: 2039-12-04
Also published as: CN110827821B; KR20210070213A

Abstract

本发明实施方式公开了一种语音交互装置、方法和计算机可读存储介质。装置包括：监听模块，用于监听用户会话中的语音数据和会话参数，将所述语音数据转换为文本数据；分析模块，用于分析所述文本数据以确定用户意图；控制模块，用于当基于所述用户意图确定具有介入需求且基于所述会话参数确定介入时机到达时，向用户发出基于所述用户意图确定的信息。本发明实施方式可以在适当的时间主动给出反馈内容，同时避免对用户造成干扰。

Description

一种语音交互装置、方法和计算机可读存储介质

技术领域

本发明涉及电子通信技术领域，更具体的说，涉及一种语音交互装置、方法和计算机可读存储介质。

背景技术

随着移动智能终端和云计算的快速发展，人工智能的浪潮正在悄然颠覆生活的点点滴滴，智能语音用户交互(Voice User Interface，VUI)作为一个新的领域也在快速发展，并对用户体验提出了更多关于语言学、情感塑造、逻辑搭建等方面的新要求。智能语音用户交互是基于语音输入的新一代交互模式，通过说话就可以得到反馈结果。典型的应用场景为语音助手。语音助手是一款智能型的应用，通过智能对话与即时问答的智能交互，实现帮忙用户解决问题，其主要是帮忙用户解决生活类问题。

目前的智能语音交互中，通常是人类主动提供输入、机器被动提供反馈的循环模式。智能语音系统只会单一地服从用户指令。

然而，这种被动机制无法实现自然的语音交互。比如，机械性的反馈不能够充分考虑到对话场景的需要，导致人机交互过程中机器显得“情商”太低，使用体验较差。

发明内容

本发明提出一种语音交互方法、装置和计算机可读存储介质，可以主动参与用户对话中，实现更自然的语音交互。

本发明实施方式的技术方案如下：

一种语音交互装置，包括：

监听模块，用于监听用户会话中的语音数据和会话参数，将所述语音数据转换为文本数据；

分析模块，用于分析所述文本数据以确定用户意图；

控制模块，用于当基于所述用户意图确定具有介入需求且基于所述会话参数确定介入时机到达时，向用户发出基于所述用户意图确定的信息。

在一个实施方式中，所述会话参数包括下列中的至少一个：

会话中断时间；会话交流频率；会话人数；用户情绪参数；用户性格参数。

在一个实施方式中，所述会话参数包括会话中断时间和/或会话交流频率；

所述控制模块，用于当所述会话中断时间大于会话中断时间门限值和/或所述会话交流频率低于会话交流频率门限值时，确定介入时机到达。

在一个实施方式中，所述会话参数还包括会话人数、用户情绪参数或用户性格参数；

所述控制模块，还用于基于所述会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值。

在一个实施方式中，所述控制模块，用于执行下列中的至少一个：

当会话人数增加时，增加所述会话交流频率门限值且降低所述会话中断时间门限值；

当会话人数降低时，降低所述会话交流频率门限值且增加所述会话中断时间门限值；

当用户情绪参数指示用户开心时，增加所述会话交流频率门限值且降低所述会话中断时间门限值；

当用户情绪参数指示用户生气时，增加所述会话交流频率门限值且降低所述会话中断时间门限值；

当用户情绪参数指示用户害怕时，增加所述会话交流频率门限值且降低所述会话中断时间门限值；

当用户情绪参数指示用户难过时，降低所述会话交流频率门限值且增加所述会话中断时间门限值；

当用户性格参数指示用户健谈时，增加所述会话交流频率门限值且降低所述会话中断时间门限值；

当用户性格参数指示用户不健谈时，降低所述会话交流频率门限值且增加所述会话中断时间门限值；

当用户性格参数指示用户语速快时，增加所述会话交流频率门限值且降低所述会话中断时间门限值；

当用户性格参数指示用户语速慢时，降低所述会话交流频率门限值且增加所述会话中断时间门限值；

当会话人数大于预先设定的人数门限值时，将所述会话中断时间门限值设置为足以判定介入时机不到达的值；当会话人数大于预先设定的人数门限值时，将所述会话交流频率门限值设置为足以判定介入时机不到达的值；

当用户性格参数的等级为强烈时，将所述会话中断时间门限值设置为足以判定介入时机不到达的值；

当用户性格参数的等级为强烈时，将所述会话交流频率门限值设置为足以判定介入时机不到达的值；

当会话人数小于等于预先设定的人数门限值且用户性格参数的等级为通常时，计算用户性格参数、用户情绪参数和会话人数的加权值，基于所述加权值调整所述会话交流频率门限值；

当会话人数小于等于预先设定的人数门限值且用户性格参数的等级为通常时，计算用户性格参数、用户情绪参数和会话人数的加权值，基于所述加权值调整所述会话中断时间门限值。

在一个实施方式中，分析模块，还用于基于所述语音数据和所述文本数据对会话进行场景分类；

其中所述控制模块，还用于基于场景分类结果，确定所述会话中断时间门限值和/或所述会话交流频率门限值，并基于所述场景分类结果判定是否基于会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值。

在一个实施方式中，分析模块，用于基于所述文本数据确定对话结构和话题关键词的固定性；基于所述语音数据的波形确定交互节奏；基于所述对话结构、话题关键词的固定性和交互节奏对会话进行场景分类。

在一个实施方式中，所述场景分类为聊天类对话，所述控制模块，用于判定基于会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值；或

所述场景分类为问答讨论类对话，所述控制模块，用于判定不基于会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值；或

所述场景分类为固定对话程序类对话，所述控制模块，用于判定不基于会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值。

在一个实施方式中，监听模块，还用于基于所述语音数据的声纹特征标记用户，将所述语音数据和所述文本数据与识别出的用户相匹配。

在一个实施方式中，所述监听模块、分析模块和控制模块，集成在单独实体中；或

所述监听模块部署在第一实体中，所述分析模块和所述控制模块部署在云端；或

所述监听模块和所述分析模块部署在第一实体中，所述控制模块部署在云端；或

所述监听模块和所述控制模块部署在第一实体中，所述分析模块部署在云端。

一种语音交互方法，包括：

监听用户会话中的语音数据和会话参数，将所述语音数据转换为文本数据；

分析所述文本数据以确定用户意图；

当基于所述用户意图确定具有介入需求且基于所述会话参数确定介入时机到达时，向用户发出基于所述用户意图确定的信息。

在一个实施方式中，会话参数包括下列中的至少一个：

其中当所述会话中断时间大于会话中断时间门限值和/或所述会话交流频率低于会话交流频率门限值时，确定介入时机到达。

在一个实施方式中，所述会话参数还包括会话人数、用户情绪参数或用户性格参数；该方法还包括：

基于所述会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值。

在一个实施方式中，所述基于所述会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值包括下列中的至少一个：

在一个实施方式中，该方法还包括：

基于所述语音数据和所述文本数据对会话进行场景分类；

基于场景分类结果，确定所述会话中断时间门限值和/或所述会话交流频率门限值，并基于所述场景分类结果判定是否基于会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值。

在一个实施方式中，所述基于所述语音数据和所述文本数据对会话进行场景分类包括：

基于所述文本数据确定对话结构和话题关键词的固定性；

基于所述语音数据的波形确定交互节奏；

基于所述对话结构、话题关键词的固定性和交互节奏对会话进行场景分类。

在一个实施方式中，其中：

所述场景分类为聊天类对话，其中判定基于会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值；或

所述场景分类为问答讨论类对话，其中判定不基于会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值；或

所述场景分类为固定对话程序类对话，其中判定不基于会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值。

在一个实施方式中，还包括：

基于所述语音数据的声纹特征标记用户，将所述语音数据和所述文本数据与识别出的用户相匹配。

一种语音交互装置，包括处理器和存储器；

所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如上任一项所述的语音交互方法。

一种计算机可读存储介质，其中存储有计算机可读指令，该计算机可读指令用于执行如上任一项所述的语音交互方法。

从上述技术方案可以看出，在本发明实施方式中，装置包括：监听模块，用于监听用户会话中的语音数据和会话参数，将所述语音数据转换为文本数据；分析模块，用于分析所述文本数据以确定用户意图；控制模块，用于当基于所述用户意图确定具有介入需求且基于所述会话参数确定介入时机到达时，向用户发出基于所述用户意图确定的信息。可见，本发明实施方式可以在适当的时间主动给出反馈内容。另外，本发明实施方式还可以避免对用户造成干扰。

附图说明

图1为根据本发明实施方式的语音交互装置的结构图。

图2为根据本发明实施方式语音交互的示范性示意图。

图3为根据本发明实施方式语音交互装置的示范性模块示意图。

图4为根据本发明实施方式的语音交互方法的流程图。

图5为根据本发明实施方式语音交互过程的示范性概念流程图。

图6为根据本发明实施方式的场景分类示意图。

图7为根据本发明实施方式用户人数对门限值的影响示意图。

图8为根据本发明实施方式标记用户特征的示意图。

图9为根据本发明实施方式主动交互的策略示意图。

图10为根据本发明实施方式主动交互的架构图。

图11为根据本发明实施方式的语音活动检测(Voice Activity Detection，VAD)语音活动分析示意图。

图12为根据本发明实施方式的介入对话的时机判断逻辑示意图。

图13为根据本发明实施方式的长短期记忆(Long Short-Term Memory，LSTM)网络-自动编码器(Autoencoder)的特征提取示意图。

图14为根据本发明实施方式的意图识别的卷积神经网络(Convolutional NeuralNetworks，CNN)模型示意图。

图15为根据本发明实施方式的是否执行主动交互的决策示意图。

图16为根据本发明实施方式聊天类的主动交互第一示意图。

图17为根据本发明实施方式聊天类的主动交互第二示意图。

图18为根据本发明实施方式问答讨论类的主动交互示意图。

图19为根据本发明实施方式固定对话程序类的主动交互示意图。

图20为根据本发明具有存储器-处理器架构的语音交互装置的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

为了描述上的简洁和直观，下文通过描述若干代表性的实施方式来对本发明的方案进行阐述。实施方式中大量的细节仅用于帮助理解本发明的方案。但是很明显，本发明的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本发明的方案，一些实施方式没有进行细致地描述，而是仅给出了框架。下文中，“包括”是指“包括但不限于”，“根据……”是指“至少根据……，但不限于仅根据……”。由于汉语的语言习惯，下文中没有特别指出一个成分的数量时，意味着该成分可以是一个也可以是多个，或可理解为至少一个。

申请人对现有技术的智能语音用户交互技术进行分析，发现存在诸多问题。比如，以当前的语音助手为例，对对现有技术的智能语音用户交互技术存在的技术问题进行说明。本领域技术人员可以意识到，此处以语音助手为例进行说明仅是示范性的，并不用于限定本发明实施方式的保护范围。

目前，语音助手在多人场景及自然交互方面存在诸多的技术问题，包括且不限于：

(1)、语音助手的设定多是基于单用户场景的指令分析，对多用户场景的会话内容无法做出自然的对话介入。

(2)、语音助手的人机交互一直延续着人类“输入”，机器“反馈”的循环模式。人类始终是主动的，机器始终是被动的，这种“被动”机制无法实现自然语音交互体验。

(3)、语音交互助手机械性的反馈不能够充分考虑到对话场景的需要，过于“及时”的反馈常常打断用户的思维和交流，人机交互过程中显得“情商”太低，使用体验较差。

而且，申请人还发现：当前的智能语音方面的技术处于持续的发展阶段，还有很多可以进一步深入的内容，包括且不限于：

(1)、现有的多人语音识别技术，主要通过声纹识别实现。声纹如同指纹一样，每个人具有独特的特征，通过该特征可以将不同人的声音进行有效区分。声纹识别有静态检测方法和动态检测方法，静态检测方法根据语谱图抽取说话人声音的基频和谐频，采用模式识别等传统匹配方法得到不同语谱图之间的相似度，从而实现声纹识别，这种方法的不足在于实行性不好；动态检测方法利用静态检测的各种原理，同时增加VAD、降噪、去混响等算法，引入机器学习或深度学习模型，使声纹识别有极大的提升。

(2)、采用唤醒词语音交互的技术是目前大多数语音助手产品采用的方案，基于一次性对话设计，即用户先唤醒，输入一个问题，语音助手识别，给出最有可能的答案。这种交互方式的对话缺少关联性，语音助手不理解上下文背景，由于信息不全，语音助手无法识别用户意图，可能没有回应或错误执行指令，导致出现“唤不醒”或“误唤醒”等问题。而且每次对话都需要唤醒词，节奏卡顿，影响用户的交互体验。

(3)、目前的语音助手通常是针对单用户的，对于多人聊天场景一般是忽略不考虑的，但也有在多人对话的场景中语音助手参与的示例，只是其语音助手仅实现了用户的需求意图检测，发现意图就执行指令，属于任务型交互，缺少对聊天场景自然性交互的考虑，在用户的聊天过程中，需要考虑合适的插入时机，在聊天遇到问题或冷场无法继续进行时提供功能辅助，避免对用户造成干扰。

本发明实施方式针对当前智能语音系统在多人对话的场景中局限性，以及人机交互的自然实现方面的缺陷，提出了一种智能多人语音交互技术方案。根据多人语音识别，还原多用户对话场景；对用户对话进行语义理解、情绪识别，分析用户的需求意图；在聊天过程中检测用户交流的中断时间，交流频率等参数判定对话场景中的时机。另外，本发明实施方式还根据时机判断的结果，实现主动唤醒参与到用户对话当中，并能够结合用户对话内容的需求意图提供相应的反馈内容以推动用户对话的进行，提供了一种更自然的人机交互方式。

本发明实施方式提出一种语音交互装置。

图1为根据本发明实施方式的语音交互装置的结构图。

如图1所示，语音交互装置包括：

监听模块101，用于监听用户会话中的语音数据和会话参数，将语音数据转换为文本数据；

分析模块102，用于分析文本数据以确定用户意图；

控制模块103，用于当基于用户意图确定具有介入需求且基于会话参数确定介入时机到达时，向用户发出基于用户意图确定的信息。

可见，本发明实施方式以判定合适的主动介入对话时机以及理解用户的意图作为基础，实现自然的主动交互。

在这里，会话参数包括与会话相关的用户参数(比如，用户人数、用户性格或用户情绪，等等)以及会话自身属性的参数(比如，会话中断时间、会话交流频率，等等)。优选地，用户会话可以为多用户(比如，至少两个用户)之间的会话。在一个实施方式中，会话参数包括下列中的至少一个：会话中断时间；会话交流频率；会话人数；用户情绪参数；用户性格参数，等等。其中，会话中断时间为用户会话过程中无人说话的持续时间。比如，从上次检测到用户说话之后开始计时，直到下次检测到用户说话停止计时，计时结果即为会话中断时间。会话交流频率为用户会话过程中在预定时间内说话者发生转变的频率。会话人数为参与用户会话过程中的用户人数。用户情绪参数包括开心、生气、害怕或难过，等等。用户性格参数包括健谈、不健谈、语速快或语速慢，等等。

其中，该基于用户意图确定的信息可以实施为语音、文字、图片、视频等类型的提示信息，还可以实施为预设对话等非提示信息。

在一个实施方式中，会话参数包括会话中断时间和/或会话交流频率；控制模块103，用于当会话中断时间大于会话中断时间门限值和/或会话交流频率低于会话交流频率门限值时，确定介入时机到达。

举例，会话参数包括会话中断时间或会话交流频率；控制模块103，用于当会话中断时间大于预定的会话中断时间门限值或会话交流频率低于预定的会话交流频率门限值时，确定介入时机到达。

再举例，会话参数包括会话中断时间和会话交流频率；控制模块103，用于当会话中断时间大于预定的会话中断时间门限值和会话交流频率低于预定的会话交流频率门限值时，确定介入时机到达。

在一个实施方式中，会话参数还包括会话人数、用户情绪参数或用户性格参数；控制模块103，还用于基于会话人数、用户情绪参数或用户性格参数调节会话中断时间门限值和/或会话交流频率门限值。

具体地，控制模块103，用于执行下列中的至少一个：

(1)、当会话人数增加时，增加所述会话交流频率门限值且降低所述会话中断时间门限值；

(2)、当会话人数降低时，降低会话交流频率门限值且增加会话中断时间门限值；

(3)、当用户情绪参数指示用户开心时，增加会话交流频率门限值且降低所述会话中断时间门限值；

(4)、当用户情绪参数指示用户生气时，增加所述会话交流频率门限值且降低所述会话中断时间门限值；

(5)、当用户情绪参数指示用户害怕时，增加所述会话交流频率门限值且降低所述会话中断时间门限值；

(6)、当用户情绪参数指示用户难过时，降低所述会话交流频率门限值且增加所述会话中断时间门限值；

(7)、当用户性格参数指示用户健谈时，增加所述会话交流频率门限值且降低所述会话中断时间门限值；

(8)、当用户性格参数指示用户不健谈时，降低所述会话交流频率门限值且增加所述会话中断时间门限值；

(9)、当用户性格参数指示用户语速快时，增加所述会话交流频率门限值且降低所述会话中断时间门限值；

(10)、当用户性格参数指示用户语速慢时，降低所述会话交流频率门限值且增加所述会话中断时间门限值；

(11)、当会话人数大于预先设定的人数门限值时，将所述会话中断时间门限值设置为足以判定介入时机不到达的值；当会话人数大于预先设定的人数门限值时，将所述会话交流频率门限值设置为足以判定介入时机不到达的值；

(12)、当用户性格参数的等级为强烈时，将所述会话中断时间门限值设置为足以判定介入时机不到达的值；

(13)、当用户性格参数的等级为强烈时，将所述会话交流频率门限值设置为足以判定介入时机不到达的值；

(14)、当会话人数小于等于预先设定的人数门限值且用户性格参数的等级为通常时，计算用户性格参数、用户情绪参数和会话人数的加权值，基于所述加权值调整所述会话交流频率门限值；

(15)、当会话人数小于等于预先设定的人数门限值且用户性格参数的等级为通常时，计算用户性格参数、用户情绪参数和会话人数的加权值，基于所述加权值调整所述会话中断时间门限值。

可见，本发明实施方式还可以基于会话人数、用户情绪参数或用户性格参数，调节会话中断时间门限值或会话交流频率门限值，从而可以基于会话人数、用户情绪参数或用户性格参数调节介入时机，实现更符合用户特征的主动介入。

在一个实施方式中，分析模块102，还用于基于语音数据和文本数据对会话进行场景分类；其中控制模块103，还用于基于场景分类结果，确定会话中断时间门限值和/或所述会话交流频率门限值，并基于所述场景分类结果判定是否基于会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值。

在一个实施方式中，分析模块102，用于基于文本数据确定对话结构和话题关键词的固定性；基于所述语音数据的波形确定交互节奏；基于所述对话结构、话题关键词的固定性和交互节奏对会话进行场景分类。

在一个实施方式中，场景分类为聊天类对话，控制模块103，用于判定基于会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值。

在一个实施方式中，场景分类为问答讨论类对话，控制模块103，用于判定不基于会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值。

在一个实施方式中，所述场景分类为固定对话程序类对话，控制模块103，用于判定不基于会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值。

在一个实施方式中，监听模块101，还用于基于语音数据的声纹特征标记用户，将语音数据和文本数据与识别出的用户相匹配。

可见，本发明实施方式通过对多人会话的场景特点进行分析与总结，从对话结构、交互节奏以及长程与单轮对话之中的对话主题的特征表现结果，将现有的多人对话场景大致分为聊天类、讨论问答类和固定程序类三大主要的场景，并对三个类别的场景特征进行抽取和总结。在对多用户对话场景进行判断时，综合三个特征判断其所属的类别。而且，本发明实施方式还定义了语音交互的运行模式，以确保能够更好地适应不同的应用场景。在不同的模式下，监视和记录对话内容，反馈内容的形式和干预时间的判断逻辑是不同的，从而更加符合场景需求。

在一个实施方式中，监听模块101、分析模块102和控制模块103，集成在单独实体中；或，监听模块101部署在第一实体中，分析模块102和控制模块103部署在云端；或，监听模块101和分析模块102部署在第一实体中，控制模块103部署在云端；或，监听模块101和控制模块103部署在第一实体中，分析模块102部署在云端。

举例1，可以将监听模块101、分析模块102和控制模块103，集成在智能音箱、智能电视或智能手机等智能设备中。

举例2，还可以将监听模块101部署在智能音箱、智能电视或智能手机等智能设备中，而将分析模块102和控制模块103部署在智能设备能够访问的云端。

举例3，还可以将监听模块101和分析模块102部署在智能音箱、智能电视或智能手机等智能设备中，控制模块103部署在智能设备能够访问的云端。

举例4，监听模块101和控制模块103部署在智能音箱、智能电视或智能手机等智能设备中，分析模块102部署在智能设备能够访问的云端。

以上具体描述了监听模块101、分析模块102和控制模块103的具体部署方式，本领域技术人员可以意识到，这种描述仅是示范性的，并不用于限定本发明实施方式的保护范围。

图2为根据本发明实施方式语音交互的示范性示意图。图3为根据本发明实施方式语音交互装置的示范性模块示意图。

在图2中，语音交互装置包括监听模块、分析模块、控制模块和存储模块。

监听模块包含自动语音识别(ASR)单元和声纹识别单元。ASR单元全程监听用户会话，将监听到的用户语音数据转换成文本数据并存储起来，以备其它模块的后续调用和分析；声纹识别单元通过对用户的声音特征进行识别。

分析模块包括意图分析单元和多用户标记单元。意图分析单元，用于对用户的文本数据进行语义理解和意图分析，以分析用户当前状态下所需要的辅助；多用户标记单元，用于当声纹识别单元基于声纹识别技术检测到用户时，根据声纹特点标记用户数量、性别、年龄段及相应的情绪特点等。其中，多用户标记单元可以将用户的每个声音提取特征训练为一个或多个模型，存储在模型库中，然后提取当前接收到的语音中的特征，将其与模型库中的模型进行对比判断，最终确认谁是当前语音的说话人。

控制模块包括意图判定单元、时机判定单元和输出单元。意图判定单元，用于根据意图分析单元的输出结果判定当前会话中是否含有智能语音助手可以进行辅助的信息，包括操作信息、知识点检索等等。时机判断单元，用于对多用户会话的情景进行判断，根据相应的用户间交流频率变化和语音交流中断时间长短的数据对多用户会话场景的状态进行判断。输出单元，用于在得到具体的分析结果后判定是否执行某一操作，根据情况选择调用内容并输出或者将结果保留等待。

存储模块包括内部存储和外部存储，其中内部存储负责将语音交互装置的源指令、数据库、历史语音信息和分析结果等数据进行整理储存，以便其他模块随时调用；外部存储可以实施为外部的云端服务器，针对用户意图可以提供相应的反馈内容。

在本发明实施方式中，可以从场景的主动介入对话时机和多用户的意图反馈两方面定义在没有来自用户的明确指令的前提下，实现主动介入对话的判定条件，其中：根据预设行为模式主动介入对话时机的判定是整个系统实现自然、主动交互的关键。

优选地，可以基于Session-Oriented框架实现本发明实施方式的语音交互装置。

综上所述，本发明实施方式公开了一种优选基于Session-Oriented框架的多用户对话场景中智能语音主动交互的技术方案，可以对多用户对话全程监听并选择合适时机执行主动交互。语音交互装置的监听模块可以全程监听用户会话，其语音文字转换单元可以将语音信息装换成文本存储起来，以备系统调用和分析；声纹识别单元可以通过对用户的声音特征进行识别后标记用户，再将内容与之匹配。语音交互装置的分析模块包括语义识别单元，意图分析单元，多用户标记单元。意图分析单元在对用户的语音信息有所理解后，需要分析用户当前状态下所需要的辅助，并根据具体的需求检索相应的反馈内容；多用户标记单元：通过声纹识别检测到用户时，系统将根据声纹特点标记用户数量，性别，年龄段，相应的情绪特点等；通过全程监听，将用户的每个声音提取特征，训练为一个或多个模型，存储在模型库中，然后提取当前接收到的语音中的特征，将其与模型库中的模型进行对比判断，最终确认谁是当前语音的说话人。语音交互装置的控制模块包含意图判断单元，时机判断单元以及输出单元，其中意图判断单元元根据语义分析的结果判定当前会话中是否含有智能语音助手可以进行辅助的信息，包括操作信息、知识点检索等；时机判断单元对多用户会话的情景进行判断，根据相应的用户间交流频率变化和语音交流中断时间长短的数据对多用户会话场景的状态进行判断；输出单元根据情况选择调用内容并输出或者将结果保留等待。

在本发明实施方式中，根据对话结构、交互节奏和话题稳定性，将多用户场景分为聊天类、讨论问答类以及固定对话程序类这三个主要的类别。其中多用户标记可以采用GMM-UBM声纹识别实现对用户的区分，还可以结合采集图像信息，面部识别，嘴部动作，声学定位等多种技术实现多用户标记。

在本发明实施方式中，对用户进行语音分析后的意图识别，可以采用神经网络(TextCNN)得出最终的用户意图，还可以使用其他机器学习，规则判断，模糊匹配等各种方法得出最终的用户意图。另外，多用户对话场景主动介入时机判断，包含但不限于检测用户之间对话的中断时间，结合用户间交流频率的变化以及对话场景的情绪基调和预设程序的逻辑综合以判断主动介入时机。本发明实施方式可以由机器主动判定当前对话的场景，其中预设对应场景的设备行为模式，包括生活模式、教育模式、游戏模式，等等。而且，本发明实施方式规定了智能设备判定介入对话的时机策略(包括基本依据、时机判断基础规则、时机调整)以及对应模式反馈内容的形式。

在本发明实施方式中，优选对多用户对话中断时间和交流频率的检测采用VAD技术，基于能量和过零率进行语音活动检测，还可以通过频域分析，倒谱分析，谐波分析，长时信息等各种方法检测多用户对话中断时间和交流频率。另外，在本发明实施方式中，对满足意图和场景时机判断的限定要求的定义，优选采用机器学习算法实现对主动介入时机的监督式学习。可选地。还可以采用深度学习，规则判断，模糊匹配等各种技术。

图4为根据本发明实施方式的语音交互方法的流程图。

如图4所示，该方法包括：

步骤401：监听用户会话中的语音数据和会话参数，将所述语音数据转换为文本数据。

步骤402：分析所述文本数据以确定用户意图。

步骤403：当基于所述用户意图确定具有介入需求且基于所述会话参数确定介入时机到达时，向用户发出基于所述用户意图确定的信息。

在一个实施方式中，会话参数包括下列中的至少一个：会话中断时间；会话交流频率；会话人数；用户情绪参数；用户性格参数，等等。

在一个实施方式中，会话参数包括会话中断时间和/或会话交流频率；其中当所述会话中断时间大于会话中断时间门限值和/或所述会话交流频率低于会话交流频率门限值时，确定介入时机到达。

在一个实施方式中，述会话参数还包括会话人数、用户情绪参数或用户性格参数；该方法还包括：基于所述会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值。

(2)、当会话人数降低时，降低所述会话交流频率门限值且增加所述会话中断时间门限值；

(3)、当用户情绪参数指示用户开心时，增加所述会话交流频率门限值且降低所述会话中断时间门限值；

在一个实施方式中，该方法还包括：基于所述语音数据和所述文本数据对会话进行场景分类；基于场景分类结果，确定所述会话中断时间门限值和/或所述会话交流频率门限值，并基于所述场景分类结果判定是否基于会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值。

在一个实施方式中，所述基于所述语音数据和所述文本数据对会话进行场景分类包括：基于所述文本数据确定对话结构和话题关键词的固定性；基于所述语音数据的波形确定交互节奏；基于所述对话结构、话题关键词的固定性和交互节奏对会话进行场景分类。

在一个实施方式中，所述场景分类为聊天类对话，其中判定基于会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值；或，所述场景分类为问答讨论类对话，其中判定不基于会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值；或，所述场景分类为固定对话程序类对话，其中判定不基于会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值。

在一个实施方式中，还包括：基于所述语音数据的声纹特征标记用户，将所述语音数据和所述文本数据与识别出的用户相匹配。

下面对本发明实施方式的具体实现更具体说明。

首先，语音交互装置在监听到用户的当前会话语句时，判断该语句当中是否包含用户的直接语音指令，保证用户在指令下达的情境下可以得到语音交互装置的及时、直接的反馈，该部分作为基础功能也已经有了较为丰富的研究成果和技术支持。

而且，语音交互装置采用在对话场景中判定合适的主动介入对话时机以及理解用户的意图作为基础，实现自然的主动交互。

(1)、关于介入对话的时机判定：

首先，通过对多人会话的场景特点进行详细的分析与总结，从对话结构、交互节奏以及长程与单轮对话之中的对话主题的特征表现结果，将现有的多人对话场景大致分为聊天类、讨论问答类和固定程序类三大主要的场景，并对三个类别的场景特征进行抽取和总结；之后在对多用户对话场景进行判断时，综合三个特征判断其所属的类别。

图6为根据本发明实施方式的场景分类示意图。可见，通过声纹识别、语音识别等技术，可以进行用户标记，以确认场景中的人数和对话规律。而且，通过分析对话场景的语音波形特征，可以确认场景中对话节奏。另外，根据语义理解技术标记语音内容关键词，可以确认对话的话题。

接下来，本发明实施方式定义了主动交互的运行模式，以保证更好地适应不同的应用场景。在不同的模式下，语音交互装置监视和记录对话内容，反馈内容的形式和干预时间的判断逻辑是不同的。

以下是具体定义：基本依据：表示此功能是系统在此模式下进行侦探干预计时的关键；时机判断基础规则：系统判断时序进行干预时检测到的一般特征；时机调整：可能影响此对话中用户体验的功能，因此系统可以根据其调整干预时间；反馈内容：定义了此模式下的反馈方式局提出有哪几种备选，反馈内容性质不同可能会来源于不同的服务器(内部/外部)。

表1详细解释了不同模式下的及其行为模式规则。

表1

表1给出了在不同场景之下时机判断的规则所依循的具体模式，以此为基础可以进一步明确对话场景中适合主动介入的时机在对话特征上所表现出的具体结果，之后监听模块可以检测相应参数与预设规则的关系，从而确定合适的主动介入时机。

此外，随着用户数的增加，聊天场景更加复杂，人工智能几乎没有机会介入。因此，为防止此类情况下设备启用的可能性过低，可以将对话人数作为一个判断调整的因子。

图7为根据本发明实施方式用户人数对门限值的影响示意图。

以语音交互装置与用户的比例1:2为基数，获取特征，设置会话中断时间门限值和/会话交流频率门限值的基准。当用户数大于2时，调整会话中断时间门限值和/或会话交流频率门限值，以使得语音交互装置更容易介入到用户之间的对话。

另外，考虑到发言人的性格特征可能会对具体的对话场景有影响，为了平衡整个多人对话过程中各个用户的参与度，本发明实施方式引入用户标记的方法来进行调整，具体的调整方式如图8所示。

图8为根据本发明实施方式标记用户特征的示意图。可见，通过分析用户的语音和语音内容来标记用户的特征；可以根据特定的特征调整会话中断时间门限值和/会话交流频率门限值，以获得良好的唤醒率；对于特殊的人物，可以有一些预先设定好的反馈，从而引导谈话进行良好的交谈。

另外，考虑到多人对话场景中用户情绪存在相互感染、叠加，会影响整个对话的整体特征表现，因此本发明实施方式还可以综合考虑多人会话场景中用户情绪基调的差异对语音交互装置主动介入时机所带来的可能影响，利用情绪参数实现对场景主动介入时机判定条件的调节，改善多用户场景下语音交互装置的用户体验。通过参考相关研究成果，定义基础情绪对机器判定主动介入时机参数的影响，其他符合情绪可进行拆解后参考。

表2为用户情绪对时机判断的影响表。

表2(2)、关于用户意图分析与反馈内容：

用户的意图判断决定了在时机条件满足时，语音交互装置是否有合适的内容反馈给用户。

在判断用户们的语音内容并未涉及直接的语音命令时，语音交互装置在进一步监听多用户会话时对用户的对话情景进行意图的分析，并在此过程中标记关键信息实时预测用户可能需要的辅助操作、相关信息，为下一步实现主动提供智能辅助做基础。

主要的判断方法是语音输入内容的语法分析，条件包括但不仅限于：对语音信息中的疑问词的监测，如“什么”，“怎么”，“哪里”，“如何”等；表达求助意向的关键词，如“不知道”，“不理解”，“怎么样”，“想…”，“不记得”，“忘了”等。如表3举例。

通过语音识别监测出的用户的疑问情绪；预设的或者学习到既定的语音参与流程，这些关键词将作为意图分析的信息点进行标记，之后经过运算推出当前会话中的用户需求所在。同时，对对话中的用户情感进行分析，将情感因素作为重要的调整依据对场景的状态进行调整，使用户体验更好.

表3为意向关键词示意表。

表3(3)、关于主动交互的实现：

关于语音交互装置主动介入用户聊天的决策判断：通过多人对话场景类别，用户聊天的中断时间和交流频率检测，情绪识别进行时机判断，通过意图分析理解用户需求，提供合适的反馈内容。最终由语音交互装置决策，选择合适的时机主动参与到用户对话当中。最终是否可以加入到用户的对话当中包含两个主要的条件：当前的时机插入用户之间的对话不对打断用户之间的正常交流需要；同时，检测到用户有获取信息的需要且语音交互装置有合适的反馈内容给用户。

图9为根据本发明实施方式主动交互的策略示意图。图10为根据本发明实施方式主动交互的架构图。

本发明实施方式在现有的声纹识别(VPR)、语音活动检测(VAD)、自动语音识别(ASR)、自然语言理解(NLU)等技术基础上实现智能交互，功能主要包含用于分析场景的多人识别，用于检测对话特征的VAD语音检测技术，实现用户情绪和意图分析的技术，以及实现时机判断与主动交互的系统决策技术。

下面对本发明实施方式中拟采用的技术的方案描述。

(1)、多人对话识别：

运用语音识别技术获取多人对话场景中用户语音信息的声音特征，包括语速、语调、对话的内容以及用户的情感基调，通过多种特征标记用户并将对话内容与用户对应起来，从而实现对场景中的多人对话的模拟还原。

技术实现方面，在GMM-UBM系统框架中，UBM拟合出大量说话人的特征分布，目标用户的数据散落在UBM某些高斯分布的附近。其中自适应的过程就是将UBM的每个高斯分布向目标用户数据偏移。对目标用户的GMM模型自适应的过程分为两个步骤：

首先，使用目标说话人的训练数据计算出UBM模型的新参数(高斯权重、均值和方差，等等)；

然后，将得到的新参数与UBM模型的原参数进行融合，从而得到目标说话人的模型。

具体的计算方法如下：

给定GMM模型和目标说话人的训练矢量集X＝(X1,X2,...XT),计算新的参数。

计算Xi和UBM中第i个高斯分布的相似度：

然后用Pr(i∣xt)和xt计算权重，均值和方差的统计量：

由第一步得到的新参数和UBM原参数融合，得到最终的目标说话人模型：

其中，自适应参数

用于调节新参数和UBM参数对最终模型的影响。归一化因子(可以理解为权重值的权重)γ可以保证各混合度的权重满足：

(2)、语音活动检测(中断时间与交流频率)：

图11为根据本发明实施方式的语音活动检测(Voice Activity Detection，VAD)语音活动分析示意图.

场景中的中断时间和交流频率判断需要使用VAD语音活动检测方法，该方法主要利用了语音信号的短时能量和短时过零率。将语音信号进行分帧、加窗处理，计算每帧信号的能量和过零率。短时能量是每帧信号的能量之和，信号x(n)的短时能量E_n的定义如公式所示：

其中w(n)为窗函数。短时过零率是指每帧信号通过零的次数，反应信号的频率特性，为了减少低频噪声的干扰，设定一个门限T，使过零率跨过正负门限，其计算公式如下所示：

其中sgn为符号函数，

人的语音有清音和浊音，由于浊音的能量高于清音，清音的过零率高于无声，因此先利用短时能量，将浊音部分区分出来，再利用过零率将清音部分也提取出来，则完成了语音段和非语音段的区分，从而获得中断时间和交流频率。具体步骤和方法如图11所示。该算法步骤包括：首先，对短时能量设定高低两个门限值EH，EL，对短时过零率设定门限值ZS。然后，利用短时能量较高的EH门限值，获取语音中的浊音部分，即如图的A1-A2区间。接着，由于语音的两端是清音部分，也是语音中的一部分，清音部分的能量较低，但是过零率较高。为了获取清音部分，对浊音段继续向两端进行搜索，短时能量大于EL且短时过零率大于ZS的部分，则认为是语音的清音部分，最终求得的语音段为如图11的B1-B2部分。

(3)、情绪识别：

针对情绪识别，该方法提取人类语言中的情感成分，如音调和响度，并使用它们来识别说话者的情感状态。支持向量机(SVM)用于将这些特征划分为各种情绪状态，如愤怒、悲伤、恐惧、快乐和中性。

先使用卡方统计量(chi-square statistic，CHI)技术来建立分类模型的情感特征词向量，公式如下：

其中x²(w,s)表示s情感类别中的词w的卡方计量；N表示情感训练数据集的规模；p(s,w)表示在情感类别s中包含词w的文档规模；表示排除情感类别s；其他情感类别包含词w的文档规模；

表示在情感类别s中不包含词w的文档规模，

表示在情感类别s，不包含词w也不在该类别中的文档规模。

利用上面提到的两个公式，可以统计出某一情感类别每个词的卡方统计量，对每个类别设定一个情感特征量阈值，使特征向量更具区分度，并合并情感类别中的情感特征词组合作为本文选择的情感特征向量，再利用机器学习(SVM)的方法对情感特征向量进行分类，获得用户情感。

(4)、时机判断：

本发明实施方式根据用户间语音交互的中断时间、用户间交流频率的变化作为判断参数，同时利用情绪和程序预设规则对与之进行实时的调整，最终实现对场景中适合进行主动介入对话时机的判定。

语音交互装置通过监测多人对话中语音交互的中断时间、交流频率的变化，将其与场景中所设定的中断时间阈值以及交流频率阈值进行比较，中断时间阈值及交流频率阈值可以设定为用户交流的中断时间和交流频率的均值，如果参数所表现出来的结果显示在该场景之下，用户之间出现对话的中断，将判定此时应该将相应的需求反馈内容主动反馈给用户。

表4为时机判断门限值调整规则的第一示范性示意表。

表4

在表4中，比如，默认的对话频率门限值为基础值(5次/分钟)，中断时间门限值为基础值0.3分钟，此时对应的用户人数为2人。

当会话中的用户人数(会话人数)增加时，增加会话交流频率门限值且降低会话中断时间门限值。

而且，当用户情绪参数指示用户开心时，增加会话交流频率门限值且降低所述会话中断时间门限值；当用户情绪参数指示用户生气时，增加所述会话交流频率门限值且降低所述会话中断时间门限值；当用户情绪参数指示用户害怕时，增加所述会话交流频率门限值且降低所述会话中断时间门限值；当用户情绪参数指示用户难过时，降低所述会话交流频率门限值且增加所述会话中断时间门限值；当用户性格参数指示用户健谈(即喋喋不休)时，增加所述会话交流频率门限值且降低所述会话中断时间门限值；当用户性格参数指示用户不健谈(即沉默寡言)时，降低所述会话交流频率门限值且增加所述会话中断时间门限值；当用户性格参数指示用户语速快时，增加所述会话交流频率门限值且降低所述会话中断时间门限值；当用户性格参数指示用户语速慢时，降低所述会话交流频率门限值且增加所述会话中断时间门限值。

表4中，示范性描述了基于用户人数、用户性格参数和用户情绪参数调整会话中断时间门限值和会话交流频率门限值的示例。本领域技术人员可以意识到，这种描述仅是示范性的，并不用于限定本发明实施方式的保护范围。

在一个优选实施方式中，当会话中的用户人数(会话人数)较多时(比如超过预定的门限值10时)，语音交互装置不主动介入对话。而且，进一步对用户的情绪的强度等级进行分析，当判定用户情绪强烈时，语音交互装置不主动介入对话。可以基于针对中断时间门限值和会话交流频率门限的调整实现上述逻辑处理。

表5为时机判断门限值调整规则的第二示范性示意表。

表5

在表5中，比如，默认的对话频率门限值为基础值(5次/分钟)，中断时间门限值为基础值0.3分钟，此时对应的用户人数为2人。

当用户人数增加时，增加会话交流频率门限值且降低会话中断时间门限值。另外，当用户人数增加到大于等于预定的人数门限值(比如，10人时)，将会话中断时间门限值设置为足以判定介入时机不到达的值(非常大的一个值，比如9999或无穷大，等等)，或将会话交流频率门限值设置为足以判定介入时机不到达的值(非常小的一个值，比如0.0001或无穷小)，此时语音交互装置不主动介入对话。

而且，进一步对用户情绪参数的等级进行划分，具体划分为强烈和平常。当用户人数小于预定的人数门限值且用户情绪参数的等级为强烈时，将会话中断时间门限值设置为足以判定介入时机不到达的值(非常大的一个值，比如9999或无穷大，等等)，或将会话交流频率门限值设置为足以判定介入时机不到达的值(非常小的一个值，比如0.0001或无穷小)，此时语音交互装置不主动介入对话。

当用户人数小于预定的人数门限值且用户情绪参数的等级为平常时，再基于会话人数、用户性格参数和用户情绪参数调整会话交流频率门限值和会话中断时间门限值。具体包括：当用户人数小于预定的人数门限值且用户情绪参数指示用户开心时，增加会话交流频率门限值且降低会话中断时间门限值；当用户人数小于预定的人数门限值且用户情绪参数指示用户生气时，增加所述会话交流频率门限值且降低所述会话中断时间门限值；当用户人数小于预定的人数门限值且用户情绪参数指示用户害怕时，增加所述会话交流频率门限值且降低所述会话中断时间门限值；当用户人数小于预定的人数门限值且用户情绪参数指示用户难过时，降低所述会话交流频率门限值且增加所述会话中断时间门限值；当用户人数小于预定的人数门限值且用户性格参数指示用户健谈(即喋喋不休)时，增加所述会话交流频率门限值且降低所述会话中断时间门限值；当用户人数小于预定的人数门限值且用户性格参数指示用户不健谈(即沉默寡言)时，降低所述会话交流频率门限值且增加所述会话中断时间门限值；当用户人数小于预定的人数门限值且用户性格参数指示用户语速快时，增加所述会话交流频率门限值且降低所述会话中断时间门限值；当用户人数小于预定的人数门限值且用户性格参数指示用户语速慢时，降低所述会话交流频率门限值且增加所述会话中断时间门限值。

举例：对于会话中断时间门限值TimingThreshold，具有如下调整方式：

(1)、当Number>10或用户情绪参数级别为强烈时，TimingThreshold＝∞；

(2)、当Number≤10和用户情绪参数级别为正常时，TimingThreshold＝Base+W₁*Number+W₂*Character+W₃*Emotion；

其中，用户人数(Number)的预设权重为w1；用户性格参数(character)的预设权重为w2；用户情绪参数(emotion)的预设权重为w3。用户情绪参数具有两个级别，分别为强烈(high)和平常(normal)；Base为调整前的会话中断时间门限值。

可见，当用户人数大于10或用户情绪参数的等级为强烈时，会话中断时间门限值为无穷大，从而语音交互装置不主动介入对话。当用户人数小于等于10或用户情绪参数的等级为平常时，基于加权算法计算用户人数、用户情绪参数和用户性格参数的加权值，再将该加权值与Base的求和结果作为最终的会话中断时间门限值，此时语音交互装置可以择机介入对话。

表5中，示范性描述了基于用户人数、用户性格参数和用户情绪参数调整会话中断时间门限值和会话交流频率门限值的示例。本领域技术人员可以意识到，这种描述仅是示范性的，并不用于限定本发明实施方式的保护范围。

(5)、特征学习：

由于缺乏专家知识，多用户对话的先验知识是未知的。因此使用特征学习技术自动从数据中学习特征，找到更智能的方法来获得好的特征可以使分类更有效。

图13为根据本发明实施方式的长短期记忆(Long Short-Term Memory，LSTM)网络-自动编码器(Autoencoder)的特征提取示意图。其中：自动编码器是一种无监督的神经网络模型，学习以低维向量表示输入数据的隐含特征，学习到的新特征可以重构出原始输入数据。中间的低维向量即为学习特征。LSTM的特征层包含LSTM单元，它能够将信息随时间存储在内存中，因此它可以提取包含短期和长期时间依赖性信息的特征。对于多特征的多元时间序列数据，可以使用LSTM-Autoencoder进行系统决策和主动干预的分类。

(6)、意图识别与反馈内容：

用户意图识别的技术实现方面，本发明实施方式对获取的语音内容进行预处理，包括分词、去除高频无用词等，再通过TextCNN利用卷积神经网络对文本进行分类的算法进行意图识别，将预处理后的语句通过嵌入层，得到输入语句的词向量表示，然后通过卷积层，提取语句的特征向量，再利用最大池化层，对卷积后得到的若干个一维向量取最大值，然后拼接在一块，作为本层的输出值，最后通过全连接层输出每个意图的概率，整个模型的结构如图14所示。图14为根据本发明实施方式的意图识别的卷积神经网络(ConvolutionalNeural Networks，CNN)模型示意图。

在理解用户的意图之后，本发明实施方式选择合适的反馈内容，通过多种方式反馈内容，比如语音信息、音乐播放或图片展示等，下面是反馈内容的举例。

表6为意图识别与反馈内容的示范性表。

表6(7)、主动介入时机决策与主动交互：

根据以上得到的多用户聊天场景中的中断时间，交流频率，情绪，意图等特征，本发明实施方式可以采用随机森林方法来进行系统决策与主动交互的判断，随机森林里面由很多的决策树组成，每个决策树从全部样本数据中有放回的多次重复抽样作为模型的训练集，根据特征进行分类判断是否可以主动交互，重复多次生成多个决策树即组成了随机森林。在得到森林之后，当有一个新的输入进入的时候，就让森林中的每一棵决策树分别进行一下判断是否应该主动交互，多个决策树的结果采用少数服从多数的投票方式，决定最终的决策结果。

图15为根据本发明实施方式的是否执行主动交互的决策示意图。在图15中描述了是否执行主动交互的典型处理逻辑。本领域技术人员可以意识到，图15所示的处理逻辑仅是示范性的，并不用于限定本发明实施方式的保护范围。

可见，本发明实施方式在主动介入多用户对话的决策时，综合分析用户对话场景，理解对话内容和用户意图，通过判定多人对话场景中适合智能设备进行介入的时机决定主动交互的时间点，并结合意图判断结果准备合适的反馈内容。当以上条件同时满足时，语音交互装置将作为对话的参与者主动加入多用户对话当中。

以下为本发明实施方式的场景示例进行说明。

(1)、聊天类：

场景一：生活模式

图16为根据本发明实施方式聊天类的主动交互第一示意图。

在聊天类对话场景中，用户之间的对话在很长的阶段中没有比较稳定的规律存在，语音交互装置就用户间对话进行实时的检测识别，分析用户的中隐含的意图，并检测合适的时机主动插入对话。在检测到用户的疑问，识别用户的意图之后，判断合适的时机提供对话辅助。例中针对情绪的变化，将交流频率的阈值调高，中断时间的阈值降低，作为主动介入对话时机的调整，使语音交互装置减少等待时间，同时避免过度打扰用户。本模式可以作为生活助手使用。

场景二：生活模式，关于时机判断门限值的调整。

图17为根据本发明实施方式聊天类的主动交互第二示意图。

可见，在用户情绪紧张和语速快的情况下，将中断时间阈值减少，交流频率阈值调大，使语音交互装置更快的进行主动反馈。

(2)、问答讨论类：

问答讨论类的对话场景有一定的对话逻辑，系统可以根据预设题库进行出题，根据中断时间和交流频率判断插话时机，保证问答的顺利进行

场景三：教育模式—幼儿园

图18为根据本发明实施方式问答讨论类的主动交互示意图。

在教育模式中，语音交互装置根据预设的题库，提起发问并检测答案，可以提高孩子的注意力和参与度。

(3)、固定对话程序类：

固定程序对话类的场景，整体的对话严格遵循一定的规律，智能系统只需要根据中断时间判定当前的插入时机是否符合程序预设，并在合理的时机反馈给用户预设的内容信息。

场景四：游戏模式-游戏(语音交互装置作为主控者，共有5位玩家)

在上面的游戏模式中，语音交互装置作为主控者的角色，对整个游戏的规则和流程进行控制，根据预设的规则进行发言，发起程序和投票，可以给用户提供更好的游戏体验。

可见，本发明实施方式将多用户对话场景中的被动语音交互转变为在对话过程中合适的时机主动参与多用户之间的对话，更接近自然交互。通过场景分类分析多人对话的特征，并在分类基础上定义主动介入时机的具体条件，从而定位合适的主动交互时机。最后在该时机下，根据场景中用户意图提供合适的反馈内容，不断改善智能语音交互系统在多用户对话场景中的使用体验。而且，反馈内容可应用于所有智能语音设备，将在人工智能的语音交互领域发挥价值。优选地，可以基于Session-Oriented框架实现本发明实施方式的语音交互装置。

本发明实施方式还提出了具有存储器-处理器架构的语音交互装置。

如图20所示，具有存储器-处理器架构的语音交互装置包括：处理器2001和存储器2002；其中存储器2002中存储有可被处理器2001执行的应用程序，用于使得处理器2001执行如上任一项所述的语音交互方法。

其中，存储器2002具体可以实施为电可擦可编程只读存储器(EEPROM)、快闪存储器(Flash memory)、可编程程序只读存储器(PROM)等多种存储介质。处理器2001可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列，其中现场可编程门阵列集成一或多个中央处理器核。具体地，中央处理器或中央处理器核可以实施为CPU或MCU。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施方式中的硬件模块可以以机械方式或电子方式实现。例如，一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式，或是采用专用的永久性电路，或是采用临时配置的电路(如由软件进行配置)来实现硬件模块，可以根据成本和时间上的考虑来决定。

本发明还提供了一种机器可读的存储介质，存储用于使一机器执行如本申请所述方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施方式的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。此外，还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施方式中任一实施方式的功能。

用于提供程序代码的存储介质实施方式包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机或云上下载程序代码。

在本文中，“示意性”表示“充当实例、例子或说明”，不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁，各图中的只示意性地表示出了与本发明相关部分，而并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”并不表示将本发明相关部分的数量限制为“仅此一个”，并且“一个”不表示排除本发明相关部分的数量“多于一个”的情形。在本文中，“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”等仅用于表示相关部分之间的相对位置关系，而非限定这些相关部分的绝对位置。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音交互装置，其特征在于，包括：

分析模块，用于分析所述文本数据以确定用户意图；

2.根据权利要求1所述的语音交互装置，其特征在于，所述会话参数包括下列中的至少一个：

3.根据权利要求1所述的语音交互装置，其特征在于，所述会话参数包括会话中断时间和/或会话交流频率；

4.根据权利要求3所述的语音交互装置，其特征在于，所述会话参数还包括会话人数、用户情绪参数或用户性格参数；

5.根据权利要求4所述的语音交互装置，其特征在于，

所述控制模块，用于执行下列中的至少一个：

6.根据权利要求3所述的语音交互装置，其特征在于，

分析模块，还用于基于所述语音数据和所述文本数据对会话进行场景分类；

7.根据权利要求6所述的语音交互装置，其特征在于，

分析模块，用于基于所述文本数据确定对话结构和话题关键词的固定性；基于所述语音数据的波形确定交互节奏；基于所述对话结构、话题关键词的固定性和交互节奏对会话进行场景分类。

8.根据权利要求7所述的语音交互装置，其特征在于，

所述场景分类为聊天类对话，所述控制模块，用于判定基于会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值；或

9.根据权利要求1-8中任一项所述的语音交互装置，其特征在于，

监听模块，还用于基于所述语音数据的声纹特征标记用户，将所述语音数据和所述文本数据与识别出的用户相匹配。

10.根据权利要求1-8中任一项所述的语音交互装置，其特征在于，

所述监听模块、分析模块和控制模块，集成在单独实体中；或

11.一种语音交互方法，其特征在于，包括：

分析所述文本数据以确定用户意图；

12.根据权利要求11所述的语音交互方法，其特征在于，会话参数包括下列中的至少一个：

13.根据权利要求11所述的语音交互方法，其特征在于，所述会话参数包括会话中断时间和/或会话交流频率；

14.根据权利要求13所述的语音交互方法，其特征在于，所述会话参数还包括会话人数、用户情绪参数或用户性格参数；该方法还包括：

15.根据权利要求14所述的语音交互方法，其特征在于，

所述基于所述会话人数、用户情绪参数或用户性格参数调节所述会话中断时间门限值和/或所述会话交流频率门限值包括下列中的至少一个：

16.根据权利要求13所述的语音交互方法，其特征在于，该方法还包括：

基于所述语音数据和所述文本数据对会话进行场景分类；

17.根据权利要求16所述的语音交互方法，其特征在于，所述基于所述语音数据和所述文本数据对会话进行场景分类包括：

基于所述文本数据确定对话结构和话题关键词的固定性；

基于所述语音数据的波形确定交互节奏；

18.根据权利要求16所述的语音交互方法，其特征在于，其中：

19.根据权利要求11-18中任一项所述的语音交互方法，其特征在于，还包括：

20.一种语音交互装置，其特征在于，包括处理器和存储器；

所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如权利要求11至19中任一项所述的语音交互方法。

21.一种计算机可读存储介质，其特征在于，其中存储有计算机可读指令，该计算机可读指令用于执行如权利要求11至19中任一项所述的语音交互方法。