CN112613534B

CN112613534B - 一种多模态信息处理及交互系统

Info

Publication number: CN112613534B
Application number: CN202011416110.8A
Authority: CN
Inventors: 甘明刚; 徐磊; 田宗凯; 陈杰; 陈文颉; 陈晨; 窦丽华
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2023-04-07
Anticipated expiration: 2040-12-07
Also published as: CN112613534A

Abstract

本发明涉及一种多模态信息处理及交互系统，用于解决多模态交互系统中存在的模态融合方式简单，对话机制呆板的问题。包括多模态信息认知模块，多模态信息融合模块，以及多模态对话管理模块，其中，多模态信息认知模块用于对用户各模态交互信息进行识别，多模态信息融合模块利用D‑S证据理论将用户所有模态的交互信息进行意图融合，确定用户的最终交互意图，并得到对应于用户最终交互意图的可供机器识别的形式化指令；多模态对话管理模块针对多模态人机交互场景，采用有限状态机与信息槽填充方法相融合的对话管理模型，用于控制对话流程以及生成应答；本发明有效提高了用户交互意图识别准确率，实现了自然灵活的人机交互。

Description

一种多模态信息处理及交互系统

技术领域

本发明涉及多模态信息融合技术，具体涉及一种有效利用多模态信息并构建可实现人机友好交互的多模态交互系统。

背景技术

20世纪后期以来，多模态人机交互的相关研究受到越来越多学者的关注与重视。国内外诸多高校实验室及科研机构都设立了相关的科研团队，比如卡内基-梅隆大学的人机交互学院、斯坦福大学的人工智能研究中心、麻省理工学院的媒体实验室等，而诸如谷歌、微软等大型公司也注入大量的人力、物力到多模态人机交互领域的研究中。由于多模态人机交互受到广泛的重视，多模态人机交互技术在近几十年来得到了迅速的发展，并取得了重大突破。

中国科学院自动化研究所的陶建华等人通过融合语音、手势以及面部表情等信息，建立了一套基于多模态对话系统的城市交通信息查询系统，数字虚拟人可根据操作者的语音查询信息做出解答。后又在机械臂上通过融合语音和图像信息实现了一套具有智能交互学习能力的机械臂写字系统，机械臂可以通过图像处理技术学习写字，并根据操作者的语音要求完成特定字的书写。

目前的多模态交互系统尚存在一些问题：(1)多模态交互系统缺乏有效的信息融合方法。多模态交互系统需要充分利各模态信息来感知用户意图、识别用户指令信息，从而最大程度体现多模态交互的价值、提高多模态交互效率。而目前各多模态交互系统在对各模态信息进行融合时仅对各模态信息进行简单组合，无法有效利用各模态蕴含信息。(2)多模态交互过程缺少自然、灵活的对话机制。多模态交互需要有自然、灵活的对话机制作为保障，目前多模态人机交互中的对话机制均较为单一，容错能力较差，提升了操作复杂度，难以实现人机友好交互。

发明内容

为有效解决多模态交互系统中存在的模态融合方式简单，对话机制呆板的问题，本发明首先建立了一种多模态信息融合模型，基于D-S证据理论，充分利用多模态信息进行意图融合，并基于槽填充方法组合该意图下各模态交互信息。其次，本发明提出有限状态机与槽填充方法相融合的对话管理模型，控制交互状态的转移并制定对应的交互策略。最后对系统中各模块进行整合，完成多模态人机交互系统，实现人机自然、友好交互。具体实施方案如下：

本系统包括三个功能模块：多模态信息认知模块，多模态信息融合模块，多模态对话管理模块，其中，

多模态信息认知模块：用于对用户各模态交互信息进行识别，得到用户在每种模态下的意图类型、每种意图类型对应的概率，以及每种意图类型对应的形式化指令，其中，形式化指令的功能是供机器执行相应任务，具体由完成相应任务所需要的必要参数构成，所述意图类型包括有明确意图和无明确意图两种，包括多种交互信息识别模块；

多模态信息融合模块：利用D-S证据理论将用户所有模态的交互信息进行意图融合，确定用户的最终交互意图，并得到对应于用户最终交互意图的可供机器识别的形式化指令；

多模态对话管理模块:针对多模态人机交互场景，采用有限状态机与信息槽填充方法相融合的对话管理模型，用于控制对话流程以及生成应答；

还设置了人机交互界面。

有益效果

本发明通过多模态的方式有效提高用户交互意图识别准确率；所采用的有限状态机与槽填充方法相融合的对话管理模块，适合环境不断变化的交互场景下的人机交互行为，可实现自然灵活的人机交互；本发明所设计的多模态人机交互系统能够实现人与机器高效、自然的多模态交互。

附图说明

图1为本发明多模态人机交互系统框架

图2为传统方法各模态信息关系判别方法流程图

图3为本发明多模态信息融合过程

图4为本发明多模态信息组合实例

图5为本发明有限状态机与槽填充方法结合的对话管理模型

图6为本发明多模态人机交互系统组成

图7为本发明多模态人机交互信息传输流程

图8为本发明形式化指令类型示意图

具体实施方式

本发明提出的多模态人机交互系统框架如图1所示，多模态人机交互系统主要分为四个功能模块：

(1)多模态信息认知模块：对各模态交互信息进行识别，包括多种交互信息识别模块。本发明中主要包括语音指令识别模块以及手势识别模块。本发明拓展性强，后期可添加触控、摇杆等传统模块。

(2)多模态信息融合模块：首先采用基于D-S证据方法，充分利用多模态信息进行意图融合，之后对信息进行整合，将多模态信息组合为形式化指令；

(3)多模态对话管理模块：采用有限状态机与槽填充方法相融合的对话管理模型，控制人机交互过程中交互状态的转移，并根据用户提供信息制定对应的交互策略，与操作者进行自然友好交互；

(4)多模态人机交互界面：显示各模态识别结果、多模态信息融合结果以及机器所反馈的交互内容。

其中，关于多模态信息融合：根据各模态交互信息的不同，各模态信息之间关系分为信息冗余、信息互斥以及信息互补三种情况。其中信息冗余状态表示各模态表示信息相同，比如语音说“前进”同时用手势做出“前进”的动作。信息互斥状态下各模态交互意图不同，如语音识别结果为“前进”，而手势动作识别为“后退”，此时两个模态的信息相互排斥，机器无法根据已识别指令判别用户实际意图。信息互补指各模态信息相互补充，共同为机器执行任务提供有效信息，比如手势做出“前进”的动作，同时用语音表述“5米”。

在各模态意图中均包含None类别，用于表示该通道交互信息无明确意图，仅提供一些用于完成任务的参数。例如通过语音通道表示“5米”、“5分钟”等不代表具体交互意图的参数信息。

传统的各模态关系的判别方式如图2所示，在判别各模态所提供信息之间的关系时，首先对除意图为None的模态外其余模态的意图进行判断，如果其余模态意图不同，则表示各模态意图之间存在分歧，为信息互斥模式。如果其余各模态意图相同，则进一步判断整体是否存在意图为None的模态，如果存在，表示该模态可以为其余模态提供参数从而对交互指令进行补充，属于信息互补模式。如果整体系统中不包含意图为None类别，则说明各模态意图相同，此时属于信息冗余模式。

以上在进行判别时，选用置信度值最大类别所对应意图作为该模态用户交互意图。在交互过程中，如若处于信息互斥模式，通常利用先验知识为各模态判别结果设定固定权重值，最终通过加权平均的方式判断用户交互意图，或者通过投票机制决定交互意图，或在信息冲突时直接舍弃本次交互信息重新进行交互。

本发明改变了上述传统模式，将多模态意图识别转化为多模态信息融合问题，提出了一种基于D-S证据理论的多模态交互信息融合方法。在筛除意图为None类别模态后，传统的多模态交互系统通常分别选取各模态中的一个意图作为判别依据，因此会导致意图判别时丢失部分有效信息。本发明通过有效利用各模态识别结果中蕴含信息，对其余各模态意图采用D-S证据理论进行融合，提升模型意图识别准确率。

本发明所述的多模态信息融合过程如图3所示。在信息融合时不再按照置信度值对信息冗余与信息互斥模式进行明确区分，而是充分利用各模态提供信息进行有效融合，从而得到用户真实交互意图。

在基于D-S证据理论的信息融合过程中，将划分后的各模态信息视为一组有效信息，需要对组中包含的各个模态的识别结果进行决策级融合。Dempster-Shafer证据理论(D-S证据理论)作为最流行的知识融合方法之一，可以在没有任何先验知识的情况下融合不确定信息。因此，本发明采用D-S证据理论来融合组中包含的多模态信息。

若将用户实际交互意图识别为某一意图视为一个事件，则一次交互过程中所有可能事件共同构成集合Θ＝{θ₁,θ₂,…,θ_c}，该集合也被称为识别框架。

集合Θ的幂集是集合Θ及其所有子集所构成的集合，记为2^θ。而基本概率分配(Basic Probability Assignment,BPA)或称mass函数，为2^θ的任意子集A分配属于[0,1]]的值，识别框架Θ所有子集的基本概率分配总和为1，如下所示：

m(Φ)＝0 (1)

本发明中将来自每个模态的识别结果作为独立的mass函数。对于由语音指令理解模型和手势识别模型所获得的mass函数分别记为m₁(·)和m₂(·)，可以使用Dempster合成规则将证据进行组合，如下式所示：

其中

表示对各模态证据进行组合，m(C)表示将语音模态以及手势模态相关证据进行组合后，系统对于事件C的基本概率分配。m(C)中概率最大的意图即为用户的最终交互意图。

之所以选择m(C)中概率最大的意图即为用户的最终交互意图，原因如下：

集合A的信任函数表示该集合全部子集的基本概率分配之和，其定义如下：

BPA可以被视为概率密度函数的推广，而信任函数是概率函数的推广。上述信任函数表示概率的下限，下式描述的似然函数则表示概率的上限：

PI(A)＝∑_B∩A≠Φm(B) (6)

由于识别框架中每个事件互不相容，所以在使用D-S证据理论进行融合后，信任函数和似然函数的值相同。因此对于小组内各个模态所提供信息，在计算得到关于所有意图类别的信任函数后，选取信任函数值最大的类别所对应意图作为本次交互过程中识别到的用户交互意图。

例如事件共三种意图，通过语音模态认知模块、手势模态认知模块分别得到基本概率m₁(A)，m₂(B)分布值如表1，通过利用d-s证据理论，得到融合后三种意图的概率值m(C)分别为0.84、0.15、0.01，由于意图之间相互独立，信任函数值与似然函数值相同，所以选取概率值最大的类别所对应的意图作为本次交互过程中识别到的用户交互意图，即前进作为本次交互过程中识别到的用户交互意图。

	<![CDATA[m<sub>1</sub>(A)]]>	<![CDATA[m<sub>2</sub>(B)]]>	m(C)
				前进	0.60	0.70	0.84
后退	0.30	0.25	0.15
				左转	0.10	0.05	0.01

表1以事件“前进”为例，说明d-s证据理论求解过程，具体如下：

在通过融合各模态意图信息确定用户交互意图后，需要对来自各模态的信息进行组合，从而得到最终可供机器识别的形式化指令。由于各模态传递信息能力存在差异，本发明以信息传递能力最强的语音模态为标准，将多模态信息组合任务转化为槽填充任务，使用多模态信息共同填充信息槽。如用户通过手势做出“加速”的动作，通过语音表述“加速度为2”，则在对应模态完成信息识别以及多模态信息融合后，所得到的任务槽填充结果如图4所示。对于该交互场景，此时各模态处于信息互补状态，意图融合后可以得到用户交互意图为“加速”。

为了在交互过程中仅通过单模态也可以进行自然交互，从而提升人机交互系统适用范围，对一些需要必要参数方可执行的指令类型，本系统在进行信息组合时为手势模态已获取的识别结果添加部分默认参数(如表2所示)，使得用户可以仅通过手势便与机器进行交互。如在通过手势表述加速指令时，默认目标速度为“speed+5”，其中speed表示机器当前运行速度。此时语音模态识别到加速度信息为“2”，因此组合后便可生成图3的任务槽形式，对应的形式化指令为“intention＝speedup,targetspeed＝speed+5,acc＝2”。

表2手势模态默认参数

多模态对话管理模块：本发明针对多模态人机交互场景，采用有限状态机与槽填充方法相融合的对话管理模型，对话管理模型在人机交互过程中的主要作用包括：

(1)控制对话流程。本发明根据多模态人机交互特点，将人机交互过程划分为多个状态，结合当前交互状态及用户所提供信息，利用有限状态机控制交互状态的转移，保证人机交互过程合理、自然运行。

(2)生成应答。本发明采用槽填充的方式对用户交互信息进行管理，在交互过程中根据交互状态以及任务槽填充情况生成机器端交互信息，为操作者提供必要提示，从而降低操作者记忆负担，保证人机交互过程的友好性。

本发明采用的有限状态机与槽填充方法结合的对话管理模型如图5所示。本模型中将人机交互过程分为6个状态：等待交互、意图识别、槽填充、询问、信息确认以及信息表述，分别对应于有限状态机中的6个节点：

(1)等待交互。在用户与系统进行交互时，首先处于等待获取交互信息的状态。(2)意图识别。当获取用户交互信息后，系统利用多模态信息融合方法对用户的交互信息进行意图识别，如意图识别失败(如用户无明确交互意图)则重新进入等待交互状态，若成功识别用户意图则转移至“槽填充”状态。

(3)槽填充。结合多模态交互信息识别模型识别后的交互信息，将多模态信息组合任务转化为槽填充任务，使用多模态信息共同填充信息槽；如果信息槽填充完成，则跳转至“信息确认”状态，否则跳转至“询问”状态，直至槽填充完成。

(4)询问。系统根据任务槽的缺省状况不断进行询问以获取新的槽位信息，在获取信息后跳转至“槽填充”状态。

(5)信息确认。在信息槽填充完毕后系统请求用户进行信息确认，若要对信息进行修改则跳转至“槽填充”状态，若信息确认无误则跳转至“任务描述”状态。

(6)任务描述。根据槽填充完成后的指令信息描述机器所需执行的任务，至此对应于该任务的多模态人机交互过程结束。

依据上述描述可知：通过采用有限状态机，本模型可以控制交互过程中对话状态的灵活跳转；通过应用槽填充方法，交互过程中系统可以保留用户的有效交互信息，舍弃无效信息，使用户交互过程不受信息填充顺序约束，更接近自然交互状态。通过多轮对话的方式，用户可以根据实际情况不断修整指令，克服了传统人机交互过程中需要用户一次性完整表述指令，或在信息表述错误后只能取消任务的问题，更适合环境不断动态变化的交互场景下的人机交互行为，可以实现自然灵活的人机交互。

多模态人机交互界面：用于方便用户对计算机进行控制同时反馈给用户计算机处理后的信息。

为对多模态人机交互系统整体可行性及各模块实际效果进行验证，本发明整合多模态交互信息识别模型、多模态信息融合模型以及多模态人机对话管理模块，设计实现多模态人机交互系统，实现人与机器通过多模态的方式进行自然交互。

本发明所构建的多模态人机交互系统组成如图6所示。人机交互过程中，首先通过麦克风、摄像头等设备采集用户交互指令；之后计算机对接收到的多模态信息进行处理，通过多模态信息识别模型以及多模态信息融合模型识别用户交互信息，通过多模态人机对话管理模块生成机器的应答信息；最终通过人机交互界面将交互信息反馈至用户。

图7展示了本系统在进行人机交互过程中的信息传输流程：

首先，用户在头部佩戴多模态信息采集设备，信息采集设备主要通过所搭载的Intel RealSense SR300摄像头采集深度图像以及语音信息，之后将所采集到的多模态信息传输至多模态信息处理单元。

其次，多模态信息处理单元通过多模态信息识别、多模态信息融合以及多模态人机对话管理模块，识别用户交互信息并为机器生成对应的回答。多模态信息处理单元主要通过所搭载的Intel Xeon E5 CPU以及NVIDIA RTX2080TI GPU对多模态数据进行处理。

最终，通过多模态人机交互界面将交互信息反馈至操作者。根据本系统应用场景，将多模态人机交互界面划分为四个部分：“模态1识别结果”部分显示语音模态交互信息识别结果；“模态2识别结果”部分显示手势模态交互信息识别结果；“多模态融合结果”部分显示经过多模态信息融合后的交互信息识别结果；“智能平台交互信息”部分显示识别到的用户交互信息，以及通过多模态人机对话策略生成的机器应答。

Claims

1.一种多模态信息处理及交互系统，其特征在于包括三个功能模块：多模态信息认知模块，多模态信息融合模块，多模态对话管理模块，其中，

多模态信息认知模块：包括多种交互信息识别模块，用于对用户各模态交互信息进行识别，得到用户在每种模态下的意图类型、每种意图类型对应的概率，以及每种意图类型对应的形式化指令，其中，形式化指令的功能是供机器执行相应任务，具体由完成相应任务所需要的必要参数构成，所述意图类型包括有明确意图和无明确意图两种；

所述的多模态对话管理模块具体为：将人机交互过程分为6个状态：等待交互、意图识别、槽填充、询问、信息确认以及信息表述，分别对应于有限状态机中的6个节点，其中，

所述的等待交互：在用户与系统进行交互时，首先处于等待获取交互信息的状态；

所述的意图识别：当获取用户交互信息后，系统利用多模态信息融合方法对用户的交互信息进行意图识别，如意图识别失败则重新进入等待交互状态，若成功识别用户意图则转移至“槽填充”状态；

所述的槽填充：结合多模态信息认知模块识别后的交互信息，对信息槽进行填充；如果信息槽填充完成，则跳转至“信息确认”状态，否则跳转至“询问”状态，直至槽填充完成；

所述的询问：系统根据信息槽的缺省状况不断进行询问以获取新的槽位信息，在获取信息后跳转至“槽填充”状态；

所述的信息确认：在信息槽填充完毕后系统请求用户进行信息确认，若要对信息进行修改则跳转至“槽填充”状态，若信息确认无误则跳转至“任务描述”状态；

所述的任务描述：根据信息槽填充完成后的指令信息描述机器所需执行的任务，至此对应于该任务的多模态人机交互过程结束。

2.根据权利要求1所述的一种多模态信息处理及交互系统，其特征在于，

所述的多种交互信息识别模块包括但不限于语音指令识别模块、手势识别模块。

3.根据权利要求2所述的一种多模态信息处理及交互系统，其特征在于，所述的D-S证据理论用于将多模态信息认知模块得到的各模态信息视为一组有效信息，对组中包含的各个模态的识别结果进行决策级融合，进而确定用户的最终交互意图，具体方法如下：

将用户实际交互意图识别为某一意图视为一个事件，则一次交互过程中所有可能事件共同构成集合Θ＝{θ₁,θ₂,…,θ_c}，该集合也被称为识别框架；

集合Θ的幂集是集合Θ及其所有子集所构成的集合，记为2^θ，而基本概率分配(BasicProbability Assignment,BPA)或称mass函数，为2^θ的任意子集A分配属于[0,1]]的值，识别框架Θ所有子集的基本概率分配总和为1，Φ表示交互过程中不可能的事件，如下所示：

m(Φ)＝0 (1)

将来自每个模态的识别意图对应的概率作为独立的mass函数，对于由语音指令理解模型和手势识别模型所获得的mass函数分别记为m₁(·)和m₂(·)，使用Dempster合成规则将证据进行组合，如下式所示：

其中

表示对各模态证据进行组合，即对各模态下识别的所有可能的意图进行组合，m₁(A)表示第一种模态下所有可能意图A的概率集合，m₂(B)表示第二种模态下所有可能意图B的概率集合，m(C)表示两种模态下所有可能意图进行组合后的用户意图C的概率集合，m(C)中概率最大的意图即为用户的最终交互意图。

4.根据权利要求1所述的一种多模态信息处理及交互系统，其特征在于，

设置了多模态人机交互界面，用于方便用户对计算机进行控制同时反馈给用户计算机处理后的信息。