CN107908385B

CN107908385B - 一种基于全息的多模态交互系统及方法

Info

Publication number: CN107908385B
Application number: CN201711249480.5A
Authority: CN
Inventors: 贾志强; 俞晓君
Original assignee: Beijing Guangnian Infinite Technology Co ltd
Current assignee: Beijing Guangnian Infinite Technology Co ltd
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2022-03-15
Anticipated expiration: 2037-12-01
Also published as: CN107908385A

Abstract

本发明提供一种基于全息的多模态交互系统，其包含：移动设备，装载并运行虚拟形象，移动设备配置多模态交互模块，并与云端大脑互联，通过云端大脑解析及计算，以生成及控制输出多模态输出数据；成像设备，其用于将特定虚拟形象转化为全息影像，以将全息影像显示在预设区域，并输出全息影像及多模态输出数据中的展示数据；支撑体，其用于承载移动设备以及成像设备。本发明提供了一种基于全息的多模态交互系统及方法能够将移动设备上的虚拟形象转换为全息影像后显示出来。并且，本发明还能够通过移动设备与成像设备配合的系统与用户展开生动虚拟形象的多模态交互。

Description

一种基于全息的多模态交互系统及方法

技术领域

本发明涉及人工智能领域，具体地说，涉及一种基于全息的多模态交互系统及方法。

背景技术

移动设备成像技术在目前已经非常成熟，现在市场上的移动设备很多都具备成像功能，能够把人物以及景色等景象显示在屏幕上，并且，随着技术的发展，成像的清晰度也越来越高。但是，移动设备的成像具有一定的局限性，比如，受限于移动设备的硬件配置，成像效果不具备全息投影效果，亦或是由于移动设备功能配置的局限，移动设备与使用者之间信息交互的方式不够丰富等。

因此，本发明提供了一种具备全息成像功能并且能够进行多模态交互的一种基于全息的多模态交互系统及方法。

发明内容

为解决上述问题，本发明提供了一种基于全息的多模态交互系统，所述系统包含：

移动设备，装载并运行虚拟形象，所述移动设备配置多模态交互模块，并与云端大脑互联，通过所述云端大脑解析及计算，以生成及控制输出多模态输出数据；

成像设备，其用于将所述虚拟形象转化为全息影像，以将所述全息影像显示在预设区域，并呈现所述全息影像及多模态输出数据中的展示数据；

支撑体，其用于承载所述移动设备以及所述成像设备。

根据本发明的一个实施例，所述移动设备配置多模态交互模块包含：

接收模块，其用于接收多模态输入数据及成像设备信号；

处理模块，其与云端大脑互联，用于处理所述多模态输入数据；

输出模块，其与所述处理模块连接，并与所述成像设备之间建立通信联系，用于将所述虚拟形象以及所述输出数据传输至所述成像设备。

根据本发明的一个实施例，所述移动设备还包含：

成像显示模块，其与所述输出模块连接，用于控制输出所述虚拟形象以及所述多模态输出数据。

根据本发明的一个实施例，所述多模态交互模块通过声音、手势、按键指令以及视觉输入信号的方式实现控制。

根据本发明的一个实施例，所述成像设备为全息膜以及具有全息成像功能的介质。

根据本发明的一个实施例，所述支撑体包含：

上支撑部，其用于支撑所述移动设备；

下支撑部，其与所述上支撑部连接，用于支撑所述成像设备；

所述移动设备与所述成像设备物理位置参照对齐，以实现所述移动设备与所述成像设备的信号互联。

根据本发明的另一个方面，还提供了一种基于全息的多模态交互方法，所述方法包含以下步骤：

通过移动设备获取多模态输入数据，与云端大脑互联，通过所述云端大脑解析及计算，以生成及控制输出多模态输出数据，所述移动设备装载并运行虚拟形象；

通过成像设备将所述虚拟形象转化为全息影像，以将所述全息影像显示在预设区域，并呈现所述全息影像及多模态输出数据中的展示数据。

根据本发明的另一个方面，还提供了一种虚拟形象，所述虚拟形象装载在所述的全息系统中的移动设备上，所述虚拟形象具备人类虚拟形象和预设属性，并由成像设备显示。

根据本发明的另一个方面，还提供了一种程序产品，其包含用于执行如上方法步骤的一系列指令。

根据本发明的另一个方面，还提供了一种全息成像设备，所述全息成像设备包含：

通信接口，其用于接收如上全息系统中的移动设备传输的虚拟形象以及多模态输出数据；

成像装置，其与所述通信接口连接，用于将所述虚拟形象转化为全息影像，并将所述全息影像显示在预设区域；

输出装置，其与所述通信接口以及所述成像装置连接，用于呈现所述全息影像及多模态输出数据中的展示数据。

本发明提供了一种基于全息的多模态交互系统及方法能够将移动设备上的虚拟形象转换为全息影像后显示出来。并且，本发明还能够通过移动设备与成像设备配合的系统与用户展开生动虚拟形象的多模态交互。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1显示了根据本发明的一个实施例的基于全息的多模态交互系统的结构示意图；

图2显示了根据本发明的一个实施例的基于全息的多模态交互系统的俯视图；

图3显示了根据本发明的一个实施例的基于全息的多模态交互系统中虚拟形象的示意图；

图4显示了根据本发明的一个实施例的基于全息的多模态交互系统中移动设备的示意图；

图5显示了根据本发明的一个实施例的基于全息的多模态交互系统中移动设备的结构框图；

图6显示了根据本发明的一个实施例的基于全息的多模态交互系统中多模态交互模块的模块框图；

图7显示了根据本发明的一个实施例的基于全息的多模态交互方法的流程图；

图8显示了根据本发明的一个实施例的基于全息的多模态交互方法的另一流程图；以及

图9显示了根据本发明的一个实施例的在用户、移动设备、成像设备以及云端大脑四方之间进行通信的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明实施例作进一步地详细说明。

图1显示了根据本发明的一个实施例的基于全息的多模态交互系统的结构示意图。如图1所示，系统包含移动设备101、成像设备102以及支撑体103。

在全息系统中，移动设备101装载并运行虚拟形象，其中配置有多模态交互模块，并与云端大脑互联，通过云端大脑解析及计算，以生成及控制输出多模态输出数据。移动设备101能够与交互的对象展开信息的传输，交互个体将多模态输入数据输出，移动设备101获取多模态输入数据。根据本发明的一个实施例，多模态输入数据包含文本、语音、视觉以及感知数据。其他能够传递信息的数据形式也能够运用到本发明中，本发明不对此做出限制。

移动设备101获取到多模态输入数据后，向云端大脑发出请求，将获取到的多模态输入数据传输至云端大脑处理。云端大脑通过解析及决策，生成多模态输出数据，然后将多模态输出数据传送至移动设备101。云端大脑中具备解析及决策多模态输入数据的相应能力，这些能力能够解析多模态输入数据的交互意图，并结合云端大脑的决策层确定生成多模态输出数据。

成像设备102用于将虚拟形象转化为全息影像，以将全息影像显示在预设区域，并输出全息影像及多模态输出数据中的展示数据。虚拟形象装载在移动设备101中，成像设备102能够将虚拟形象转化为全息影像，将转化后的全息影像显示出来，显示在预设区域内。成像设备102还能够在输出全息影像的同时呈现多模态输出数据中的展示数据。根据本发明的一个实施例，成像设备102可以是全息膜以及具有全息成像功能的介质。

支撑体103用于支撑移动设备101以及成像设备102。其中，支撑体103包含上支撑部以及下支撑部，上支撑部用于支撑移动设备101，下支撑部通过连接部分与上支撑部连接，用于支撑成像设备102。所述移动设备101与所述成像设备102物理位置参照对齐，以实现所述移动设备与所述成像设备的信号互联。

在本发明中，支撑部的材质可以是塑料也可以是金属，任何能够起到支撑作用的支撑介质都可以运用到本发明中，本发明不对此做出限制。

另外，为了提高移动设备101安全性，支撑体103两边可以设置防止移动设备101滑落的阻挡边，通过两边的阻挡边保护移动设备101，防止在支撑体103倾斜的情况下，移动设备101滑落，造成一定的损失。

此外，为了进一步的显示本发明提供的基于全息的多模态交互系统。图2显示了根据本发明的一个实施例的基于全息的多模态交互系统的俯视图。如图2所示，系统包含成像设备102以及支撑体103。移动设备101的显示屏面向成像设备102，向成像设备102传输虚拟形象。

根据本发明的另一个实施例，一种虚拟形象，所述虚拟形象装载在所述的全息系统中的移动设备上，所述虚拟形象具备人类虚拟形象和预设属性，并由成像设备显示。此外，全息系统还可以配合一种程序产品，其包含用于执行完成全息交互的方法步骤的一系列指令。另外，全息系统还配合一种全息成像设备，全息成像设备包含：通信接口，其用于接收全息系统中的移动设备传输的虚拟形象以及多模态输出数据。成像装置，其与通信接口连接，用于将虚拟形象转化为全息影像，并将全息影像显示在预设区域。输出装置，其与通信接口以及成像装置连接，用于呈现全息影像及多模态输出数据中的展示数据。

图3显示了根据本发明的一个实施例的基于全息的多模态交互系统中虚拟形象的示意图。

在本发明的一个实施例中，为了通过成像设备102将虚拟形象转化为全息影像，虚拟形象需要具备一些前提条件。前提条件包含：虚拟形象需要具备四个不同侧面的视图，以及四个视图之间具备固定的位置关系。

为了使得虚拟形象能够顺利地被成像设备102转化为全息影像，如图3所示，虚拟形象包含前视图、后视图、左视图以及右视图，四个视图之间的位置如图3所示。其他能够实现全息投影的方式也可以运用到本发明中来，以上实施例不具备排他性，本发明不对虚拟形象的显示形式作出限制。

图4显示了根据本发明的一个实施例的基于全息的多模态交互系统中移动设备的示意图。如图4所示，移动设备101包含手机401、平板电脑402、电脑403以及展示设备404。

在本发明提供的基于全息的多模态交互系统中，需要完成移动设备101与用户的多模态交互，通过多模态的交互在移动设备101与用户之间传递信息，移动设备101对用户的行为提供指导建议或是帮助用户决策。为了完成以上需求，移动设备101需要一些基础的配置。

移动设备101需要装载并运行虚拟形象，配置多模态交互模块，并与云端大脑互联，通过云端大脑解析及计算，以生成及控制输出多模态输出数据。此外，移动设备101还需要与成像设备102之间展开连接，用于传递虚拟形象以及多模态输出数据。依据此标准，移动设备101需要有显示虚拟形象形成全息投影的画面的显示屏，需要具备多模态交互功能以及通信互联功能。在目前，能够完成以上任务的设备有手机401、平板电脑402、电脑403以及展示设备404。

手机401作为最方便携带且功能相对强大的设备十分符合本发明的要求。手机401具备显示虚拟形象形成全息投影的画面的显示屏，也能够配置多模态交互模块以及具备通信互联功能。手机401与云端大脑之间的通信可以通过远程网络通信来实现。

另外，平板电脑402、电脑403以及展示设备404也具备着与手机401相似的功能，也能够胜任本发明对于移动设备101的要求，其他符合本发明要求的设备也可以运用到本发明的实施例中，本发明不对此做出限制。

图5显示了根据本发明的一个实施例的基于全息的多模态交互系统中移动设备的结构框图。如图5所示，移动设备101包含多模态交互模块1011以及成像显示模块1012。其中，多模态交互模块1011与云端大脑504以及成像设备102进行通信。

其中，多模态交互模块1011包含接收模块501、处理模块502以及输出模块503。接收模块501用于接收多模态输入数据及成像设备信号。接收模块501中包含能够接收多模态输入数据的相应设备，这些设备能够接收多种形式的输入数据并将接收到的多模态输入数据传送至处理模块502。

处理模块502与云端大脑504互联，用于处理多模态输入数据。处理模块502接收到接收模块501传送的多模态输入数据后，会向云端大脑504发送请求，请求云端大脑504处理多模态输入数据。处理模块502向云端大脑504传输多模态输入数据，云端大脑504接收到多模态输入数据后，对多模态输入数据进行解析及决策。

解析及计算的过程包含：首先，获取多模态输入数据，所述多模态输入数据可以主要通过移动设备获取，也可以同时辅以成像设备采集，然后，分析多模态输入数据中包含的交互信息，云端大脑504根据交互意向以及交互信息，生成对应的多模态输出数据。接着，云端大脑504将多模态输出数据传送至处理模块502。处理模块502接收多模态输出数据，并将多模态输出数据传输至输出模块503。

输出模块503与处理模块502连接，并与成像设备102之间建立通信联系，用于将虚拟形象以及输出数据传输至成像设备102。处理模块502能够将装载于移动设备101中的虚拟形象以及云端大脑504生成的多模态输出数据传输至输出模块503，输出模块503再将虚拟形象以及多模态输出数据的展示数据传输至成像设备102，通过成像设备102将虚拟形象转化为全息影像。

在本发明的一个实施例中，移动设备101还包含成像显示模块1012，其与输出模块503连接，用于控制输出虚拟形象以及多模态输出数据。成像显示模块1012能够控制虚拟形象是否输出。控制的方式可以是声音、手势、按键指令、视觉输入信号、触摸信号、环境数据等。成像显示模块1012不是必须，可以根据实际的需求确定是否需要成像显示模块1012。

图6显示了根据本发明的一个实施例的基于全息的多模态交互系统中多模态交互模块的模块框图。如图6所示，多模态交互模块1011包含接收模块501、处理模块502以及输出模块503。其中，接收模块501包含文本采集单元5011、音频采集单元5012、视觉采集单元5013、感知采集单元5014以及设备信号单元5015。

接收模块501用于接收多模态输入数据及成像设备信号。其中，文本采集单元5011用来采集文本信息。音频采集单元5012用来采集音频信息。视觉采集单元5013用来采集视觉信息。感知采集单元5014用来采集触摸等感知信息。接收模块501的例子包括键盘、光标控制设备(鼠标)、用于语音操作的麦克风、扫描仪、触摸功能(例如用以检测物理触摸的电容型传感器)、摄像头、感控设备，如采用可见或不可见波长射线、信号、环境数据等等。可以通过以上提到的输入设备来获取多模态输入数据。设备信号单元5015用于接收成像设备102的投影信号。多模态输入数据可以包含文本、音频、视觉以及感知数据中的一种，也可以包含多种，本发明不对此作出限制。

处理模块502与云端大脑504互联，用于处理多模态输入数据。其包含互联单元5021。互联单元5021用于与云端大脑504展开互联以传递数据。互联单元5021在需要处理多模态输入数据时，向云端大脑504发送处理请求，请求云端大脑504处理多模态输入数据。互联单元5021向云端大脑504传输多模态输入数据，云端大脑504对多模态输入数据进行解析及决策，以生成多模态输出数据。

随后，云端大脑504将生成的多模态输出数据传输至互联单元5021。互联单元5021接收多模态输出数据，并将多模态输出数据以及虚拟形象输出至输出模块503，以便输出模块503进行输出处理。

输出模块503与处理模块502连接，并与成像设备102之间建立通信联系，用于将虚拟形象以及输出数据传输至成像设备102。输出模块503包含通信单元5031以及输出单元5032。其中，通信单元5031用于与处理模块502展开通信，接收处理模块502发送的指令以及数据。在接收到处理模块502传输的虚拟形象以及多模态输出数据后，将以上数据传输至输出单元5032。通信单元5031是处理模块502与输出单元5032之间的通信介质。

输出单元5032是输出模块503中的子单元，用于输出虚拟形象以及多模态输出数据。输出单元5032中配置有输出多模态输出数据相应的装置，用于将虚拟形象以及多模态输出数据的展示数据传输至成像设备102。

图7显示了根据本发明的一个实施例的基于全息的多模态交互方法的流程图。

在步骤S701中，通过移动设备获取多模态输入数据，并于云端大脑互联，其中，移动设备装载并运行虚拟形象。在移动设备101与用户之间的交互开始之后，移动设备101处于实时获取多模态输入数据的状态。多模态输入数据可以是用户发出的，也可以是其他设备发出的。多模态输入数据中包含有多种模态形式的数据，可以包含文本、音频、视觉以及感知数据。相应的，为了获取多模态输入数据，移动设备101需要包含获取这些多模态数据的装置。

在获取到多模态输入数据后，移动设备101需要将多模态输入数据送至云端大脑504进行处理。此时，需要移动设备101与云端大脑504之间展开互联，传送数据信息。在移动设备101中装载有虚拟形象，用于丰富交互的形式。

接着，在步骤S702中，通过云端大脑504解析及计算，以生成及控制输出多模态输出数据。云端大脑504中包含有多种处理多模态输入数据的能力，能够对多模态输入数据进行解析及决策。这些能力可以包含语言语义理解、动作语义理解、视觉识别、情感计算、认知计算等。这些能力能够实现与用户的交互，以理解用户交互意图，并决策生成多模态输出数据，以使得人机交互更为流程生动。云端大脑504的能力会根据多模态输入数据中包含的交互信息生成多模态输出数据。多模态输出数据是对多模态输入数据的回答以及回应，用来建议以及指导用户的行为。

然后，在步骤S703中，通过成像显示模块1012控制输出虚拟形象以及多模态输出数据。成像显示模块1012能够控制虚拟形象以及多模态输出数据是否输出。在需要输出的时候，将虚拟形象以及多模态输出数据的展示数据输出至成像设备102；在不需要输出的时候，阻止将虚拟形象以及多模态输出数据的展示数据输出至成像设备102。成像显示模块1012采取的控制方式可以是声音、手势、按键指令以及视觉输入信号。在本发明中，步骤S703并不是必须的，可以在需要的时候进行执行，在不需要的时候跳过，本发明不对此做出限制。

在成像设备102接收到虚拟形象以及多模态输出数据中的展示数据后，在步骤S704中，通过成像设备102将虚拟形象转化为全息影像，以将全息影像显示在预设区域。为了通过全息影像的形式与用户展开多模态的交互，需要成像设备102将虚拟形象转化为全息影像，并显示在预设区域。

一般来说，成像设备可以是全息膜以及具备全息成像功能的其他介质。全息膜拥有透明特性，在保持清晰显像的同时，能让用户透过全息膜看见背后景物。全息膜成像画质清晰亮丽，没有空间设限，在无论光源是否充足的情况下，皆能透过正面及背面两侧同时以及多角度的直接观看影像。

最后，在步骤S705中，呈现全息影像以及多模态输出数据中的展示数据。呈现全息影像以及多模态输出数据中展示数据的设备为成像设备102。成像设备102能够将多模态输出数据配合全息影像输出出来，使得与用户之间的多模态交互更加多样，传递交互信息的形式更加丰富。

图8显示了根据本发明的一个实施例的基于全息的多模态交互方法的另一流程图。

如图8所示，在步骤S801中，移动设备101向云端大脑504发出请求。请求云端大脑504处理多模态输入数据。之后，在步骤S802中，移动设备101一直处于等待云端大脑504回复的状态。在等待的过程中，移动设备101会对返回数据所花费的时间进行计时操作。在步骤S803中，如果长时间未得到返回的应答数据，比如，超过了预定的时间长度5S，则移动设备101会选择进行本地回复，生成本地常用应答数据。然后，在步骤S804中，输出与本地常用应答配合的动画，并调用语音播放设备进行语音播放。

为了实现移动设备101与用户901之间的多模态交互，需要用户901、移动设备101、成像设备102以及云端大脑504之间建立起通信连接。这种通信连接应该是实时的、通畅的，能够保证交互不受影响的。

为了完成交互，需要具备一些条件或是前提。这些条件或是前提包含，移动设备101中装载并运行虚拟形象并且具备感知以及控制功能的硬件设施。移动设备101应该还具备显示功能的显示屏，用于显示虚拟形象形成全息投影的画面。

完成前期准备后，移动设备101开始与用户901展开交互，首先，移动设备101获取多模态输入数据，多模态输入数据可以是用户101发出的，也可以是其它设备发出的。此时，展开数据传递的两方是移动设备101与用户901。接着，移动设备101向云端大脑发送请求，请求云端大脑504处理多模态输入数据。

云端大脑504会对多模态输入数据进行解析及决策，解析多模态输入数据中包含的交互意图以及交互内容信息。根据解析的结果生成多模态输出数据，并将生成的多模态输出数据传输至移动设备101。此时展开通信的两方是移动设备101与云端大脑504。

当移动设备101接收到云端大脑504传输的多模态输出数据后，将移动设备101中装载的虚拟形象和接收到的多模态输出数据传送至成像设备102。此时，展开通信的两方是移动设备101与成像设备102。成像设备102会将虚拟形象转化为全息影像，以将全息影像显示在预设区域。

最后，成像设备102会将全息影像以及多模态输出数据中的展示数据输出，展示给用户901。此时展开通信的两方是成像设备102与用户901。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于全息的多模态交互系统，其特征在于，所述系统包含：

移动设备，装载并运行虚拟形象，所述移动设备配置多模态交互模块，所述多模态交互模块与云端大脑互联，通过所述云端大脑解析及计算生成多模态输出数据，所述移动设备控制输出所述多模态输出数据，其中，所述移动设备包含手机，所述虚拟形象具备四个不同侧面的视图，以及四个视图之间具备固定的位置关系，虚拟形象包含前视图、后视图、左视图以及右视图；

支撑体，其用于承载所述移动设备以及所述成像设备；

所述支撑体包含：

上支撑部，其用于支撑所述移动设备；

所述移动设备与所述成像设备物理位置参照对齐，以实现所述移动设备与所述成像设备的信号互联；

支撑体两边可以设置防止移动设备滑落的阻挡边，通过两边的阻挡边保护移动设备，防止在支撑体倾斜的情况下，移动设备滑落；

当移动设备接收到云端大脑传输的多模态输出数据后，将移动设备中装载的虚拟形象和接收到的多模态输出数据传送至成像设备，成像设备会将虚拟形象转化为全息影像，以将全息影像以及多模态输出数据中的展示数据输出，展示给用户。

2.如权利要求1所述的基于全息的多模态交互系统，其特征在于，所述移动设备配置多模态交互模块包含：

接收模块，其用于接收多模态输入数据及成像设备信号；

3.如权利要求2所述基于全息的多模态交互系统，其特征在于，所述移动设备还包含：

4.如权利要求3所述的基于全息的多模态交互系统，其特征在于，所述多模态交互模块通过声音、手势、按键指令以及视觉输入信号的方式实现控制。

5.如权利要求1所述的基于全息的多模态交互系统，其特征在于，所述成像设备为全息膜以及具有全息成像功能的介质。

6.一种基于全息的多模态交互方法，其特征在于，通过如权利要求1-5中任一项所述的基于全息的多模态交互系统执行以下步骤：

7.一种虚拟形象，其特征在于，所述虚拟形象装载在如权利要求1所述的基于全息的多模态交互系统中的移动设备上，所述虚拟形象具备人类虚拟形象和预设属性，并由成像设备显示。

8.一种全息成像设备，其特征在于，所述全息成像设备包含：

通信接口，其用于接收如权利要求1所述的基于全息的多模态交互系统中的移动设备传输的虚拟形象以及多模态输出数据；