CN115016648B

CN115016648B - 一种全息互动装置及其处理方法

Info

Publication number: CN115016648B
Application number: CN202210829154.6A
Authority: CN
Inventors: 王占奎; 孟凡华
Original assignee: Daai Holographic Beijing Technology Co ltd
Current assignee: Daai Holographic Beijing Technology Co ltd
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-12-20
Anticipated expiration: 2042-07-15
Also published as: CN115016648A

Abstract

本发明涉及全息技术领域，并提供了一种全息互动装置及其处理方法，所述装置包括壳体、互动模块、全息展示模块、处理模块和模式监视模块，其中在壳体上开设有透明的视窗；互动模块采集互动人员的视频图像和语音并输出互动语音；全息展示模块播放与当前互动模式相应的虚拟角色体态视频及辅助视频，所述辅助视频与所述虚拟角色体态视频形成具有景深的全息影像并展示在互动区；处理模块基于互动人员的视频图像和语音信息生成当前当互动模式下的虚拟角色的体态视频及互动语音；模式监视模块基于互动人员的语音和/或从视频图像识别到的表情、肢体动作识别互动人员意图并变更互动模式。本发明的虚拟角色形态逼真，立体感强，适用于各种人群。

Description

一种全息互动装置及其处理方法

技术领域

本发明涉及全息技术领域，特别地涉及一种全息互动装置及其处理方法。

背景技术

在全息技术领域中，越来越多的场合利用全息技术进行互动，例如公布号为CN106909217A、发明名称为“一种增强现实的全息投影交互方法、装置及系统”的中国专利申请公开了一种与全息投影影像进行互动的方案，可根据对成像画面的操作指令来调整所述成像画面，然而这里所述的互动是指根据用户的操作指令在该成像画面上增加元素或控制画面上的元素，例如在当前的成像画面上增加一小兔子，改变小兔子的颜色、大小，或者是让小兔子跳舞、说话等。该申请中的互动方案是指响应参观者对展品的全息成像的操作指令对展品的全息成像做出相应的调整。在另外一些互动方案中，如公告号为CN207052261U、名称为“一种互动全息三维展示系统”的中国专利公开了一种互动方案，通过设置的红外摄像头识别参观者的动作，通过语音识别参观者的语音指令，从而实现对应的三维展示，如快进、快退、旋转等。所述申请中的互动方案是指识别观众发出的语音指令、图像指令来改变投射的成像画面。再如，公告号为CN 213182715U、名称为“一种基于虚拟人物的智能语音交互设备”的中国专利公开的互动方案中，在进行语音互动的过程中增加了虚拟玩偶的全息画像。还有一些类似的互动方案，在此不再一一赘述。

通过上述例子可知，现有的互动方案或者根据单向的指令输出对应的内容，如公布号为CN106909217A和CN 207052261U的方案，或者虽然提供了与互动对应的虚拟玩偶，但是虚拟玩偶不能随着互动变换姿态，单调呆板，因而不能与互动人员进行逼真、有效地互动，从而也限制了互动的应用场景。

发明内容

针对现有技术中存在的技术问题，本发明提出了一种全息互动装置及其处理方法，用以提供多种模式、逼真的互动应用。

为了解决上述技术问题，根据本发明的一个方面，本发明提出了一种全息互动装置，其包括壳体，其上开设有透明的视窗，对应于视窗的内部空间为互动人员可见的互动区，剩余空间为互动人员不可见的设备区；还包括互动模块，其安装于所述壳体上，经配置以采集互动人员的视频图像和语音，输出互动语音；还包括全息展示模块、处理模块和模式监视模块，其中，所述全息展示模块位于所述壳体内部，经配置以播放与当前互动模式相应的虚拟角色体态视频及辅助视频，所述辅助视频与所述虚拟角色体态视频形成具有景深的全息影像并展示在互动区；所述全息展示模块包括：

第一视频播放单元，其位于互动区，与处理模块相连接，经配置以播放第一视频；所述第一视频播放单元包括第一LED显示屏，其直立安装在内部空间的互动区内，正面与视窗相对；

第二视频播放单元，其位于设备区，与处理模块相连接，经配置以播放第二全息视频；以及

光场单元，其位于互动区，位于所述第一LED显示屏前面，其光接收面与所述第二视频播放单元相对，经配置以将所述第二全息视频内容成像在第一视频的后面或前面；

其中，所述第一视频为虚拟角色的体态视频或辅助视频；对应地，所述第二全息视频为辅助视频或虚拟角色的体态视频；

其中，所述第二视频播放单元包括第二LED显示屏，其安装在内部空间的上部设备区，其正面朝下，或安装在内部空间的底部设备区，其正面朝上；对应地，所述光场单元为全息膜平板，其安装在互动区，与所述第二LED显示屏呈45度角，将第二LED显示屏播放第二全息视频内容成像在第一LED显示屏播放的第一视频内容的前面；或者

所述第二视频播放单元包括第二LED显示屏，其安装在内部空间的上部设备区，其正面朝下，或安装在内部空间的底部设备区，其正面朝上；对应地，所述光场单元为透明四面锥体，将第二LED显示屏播放第二全息视频内容成像在第一LED显示屏播放的第一视频内容的前面；或者

所述第二视频播放单元包括两个矩形第三LED显示屏，以视窗高度方向的中轴面作为对称面，两个第三LED显示屏竖直对称地安装在内部空间的左右两侧的设备区；对应地，所述光场单元由两个矩形第一全息膜平板构成，竖直对称地安装在互动区内；所述两个矩形第一全息膜平板的第一竖边在中轴面上连接在一起，且两个矩形第一全息膜平板呈第一夹角；所述光场单元将两个矩形第三LED显示屏播放的第二全息视频成像在第一LED显示屏播放的第一视频内容的后面；

所述处理模块位于壳体内部的设备区，分别与所述互动模块和全息展示模块相连接，经配置以基于互动人员的视频图像和语音信息生成当前当互动模式下的虚拟角色的体态视频及互动语音，并将所述虚拟角色的体态视频发送给所述全息展示模块，将互动语音发送给互动模块，其中，虚拟角色的体态、表情与互动语音内容相匹配；所述模式监视模块位于壳体内部的设备区，与所述处理模块相连接，经配置以在互动过程中基于互动人员的语音和/或从视频图像识别到的表情、肢体动作识别互动人员意图，并根据互动人员意图变更互动模式，将变更后的互动模式发送给所述处理模块；其中，虚拟角色的外在形象、体态和互动语音与互动模式一一对应；对应地，所述处理模块在接收到模式监视模块发送的基于互动人员意图变更的互动模式后，在生成变更后互动模式下的虚拟角色的体态视频及互动语音之前，获取过渡互动体态视频，并发送给全息展示模块展示所述过渡互动体态视频；所述过渡互动体态视频包括当前互动模式对应的虚拟角色与变更后互动模式对应的虚拟角色正在进行互动的视频。

为了解决上述技术问题，根据本发明的一个方面，本发明提出了一种全息互动处理方法，其中包括以下步骤：播放与当前互动模式相应的虚拟角色体态视频及辅助视频，所述辅助视频与所述虚拟角色体态视频形成具有景深的全息影像；采集并识别互动人员的语音、表情和肢体动作；基于当前互动模式、互动人员的语音、表情和/或肢体动作生成虚拟角色与互动人员进行互动的互动体态视频和互动语音，并播放所述互动体态视频和互动语音，其中，所述互动体态视频中虚拟角色的互动体态、表情与互动语音相匹配；以及在虚拟角色与互动人员的互动过程中识别互动人员变更互动模式的用户意图，并根据用户意图变更互动模式，其中，虚拟角色的外在形象、体态和语音与互动模式一一对应。其中，在互动过程中识别互动人员变更互动模式的用户意图的步骤进一步包括：

基于识别到的语音内容、预定含义的肢体动作和/或表情识别与互动人员意图相符的待更新互动模式；以及

响应于识别到的待更新互动模式，基于识别到的待更新互动模式获取过渡互动体态视频；并播放所述过渡互动体态视频；

其中，所述过渡互动体态视频包括当前互动模式对应的虚拟角色与所述待更新互动模式对应的虚拟角色正在进行互动的视频。

本发明所述的全息互动装置提供在多种互动模式下的不同全息虚拟角色，虚拟角色的外在形象、体态和互动语音与互动模式一一对应，形态逼真，通过辅助视频可以有效增强虚拟角色的立体感。本发明的虚拟角色在与互动人员进行互动的过程中，可以根据互动内容判断用户意图，并随时根据用户意图切换互动模式，因而简化了用户操作，对用户的操作要求低、友好，适用于各种人群。

附图说明

下面，将结合附图对本发明的优选实施方式进行进一步详细的说明，其中：

图1是根据本发明装置实施例一的全息互动装置的立体结构示意图；

图2是根据图1所示全息互动装置在俯视时的光路示意图；

图3是根据本发明装置实施例一的全息互动装置的电气结构连接示意图；

图4是根据本发明的一个实施例的全息互动装置电气原理框图；

图5是根据本发明另一个实施例的全息互动装置部分电气原理框图；

图6是根据本发明装置实施例二的全息互动装置的立体结构示意图；

图7是根据本发明装置实施例三的全息互动装置的立体结构示意图；

图8是根据本发明装置实施例四的全息互动装置的立体结构示意图；

图9是根据本发明另一个实施例的全息互动装置的电气原理框图；

图10是根据本发明的一个实施例的全息互动处理方法流程图；

图11是根据本发明的一个实施例生成互动语音的流程图；以及

图12是根据本发明的一个实施例生成互体态视频的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在以下的详细描述中，可以参看作为本申请一部分用来说明本申请的特定实施例的各个说明书附图。在附图中，相似的附图标记在不同图式中描述大体上类似的组件。本申请的各个特定实施例在以下进行了足够详细的描述，使得具备本领域相关知识和技术的普通技术人员能够实施本申请的技术方案。应当理解，还可以利用其它实施例或者对本申请的实施例进行结构、逻辑或者电性的改变。

本发明提供了一种全息互动装置及其处理方法，所述全息互动装置包括壳体、互动模块、全息展示模块、处理模块和模式监视模块，其中，所述壳体上开设有透明的视窗，对应于视窗的内部空间为互动人员可见的互动区，剩余空间为互动人员不可见的设备区。所述互动模块包括一个以上的摄像头、麦克风或麦克风阵列和扬声器，摄像头用以采集互动人员的面部表情和肢体动作的视频图像，麦克风或麦克风阵列用以采集互动人员的语音，扬声器用以接收并播放来自处理模块的互动语音。这些进行互动的器件可以根据需要设置在壳体上合适的部位，例如，摄像头安装在视窗的上部、左右两侧上部等位置，麦克风和扬声器可以安装在视窗的下部、左右两侧下部等位置。所述全息展示模块位于所述壳体内部，用于以将对应当前互动模式的虚拟角色的体态影像展示在互动区，并通过辅助视频使虚拟角色呈现出立体感。所述处理模块和模式监视模块作为数据处理、存储部件，可集成在一起构成主机，安装在壳体内部的设备区，并与所述互动模块和全息展示模块电连接。所述处理模块接收麦克风采集的互动人员的语音信息并识别得到语音内容，基于摄像头采集的互动人员的视频图像和语音信息生成当前当互动模式下的虚拟角色的体态视频及互动语音。所述处理模块将所述虚拟角色的体态视频及对应发送给所述全息展示模块，在互动区得到虚拟角色的体态影像，并将互动语音发送到扬声器进行播放。由于展示的虚拟角色互动的体态、表情与互动语音相匹配，因而看起来非常逼真、形象。所述模式监视模块与所述处理模块相连接，基于互动人员的语音和/或从视频图像识别到的表情、肢体动作识别互动人员意图，并根据互动人员意图变更互动模式，将变更后的互动模式发送给所述处理模块，由所述处理模块变更虚拟角色、生成新互动模式下的体态及语音。

在本发明中，虚拟角色的外在形象、体态和互动语音与互动模式一一对应。例如，本发明设置的互动模式包括文化课教学互动模式、体育项目教学互动模式、幼儿早教互动模式、休闲聊天互动模式、心理咨询/辅导互动模式、讲述互动模式、催眠模式、演示互动模式、家庭管家互动模式、百科问答互动模式中的一种或多种，不同的互动模式，虚拟角色的外在形象、体态和互动语音不同。例如，在文化课教学互动模式中，虚拟角色为中年男性或女性。当虚拟角色为女性时，体态略为丰满、面部表情慈爱，其服饰例如为剪裁得体的柔美套装、发型例如为盘发、中短发，语音为发音清晰、中等语速的女中音。体育项目教学互动模式中，虚拟角色通常为身形健美、身着运动服饰。而在休闲聊天互动模式中，虚拟角色可根据互动人员的设置有不同的形象，例如，可以是二次元人物形象，体态可为丰满、苗条甚至于很夸张的体态，互动语音更是可以多种多样。而在讲述互动模式、演示互动模式中，虚拟角色的形象可根据讲述内容、演示内容相匹配。例如，当朗读古诗时，虚拟角色可身着古装；当朗读欧美小说，可身着作品描述时代的服装。

由于本发明提供的互动装置可以在互动过程中识别到互动人员的意图，根据互动人员的意图随时切换到相应的互动模式，虚拟角色的外在形象、体态、发出的互动语音也随之切换。对于互动人员来说，不需要额外的设备操作就能变换不同的场景，场景变换的操作简易、友好。而且通过发出的语音、虚拟角色的表情和体态可以真切、直观地感受到虚拟角色的互动情绪，很容易产生共情。以下通过具体实施例对本发明提供的全息互动装置及方法进行详细说明。

装置实施例一

图1是根据本发明装置实施例一的全息互动装置的立体结构示意图，图2是图1所示全息互动装置的俯视时的光路示意图。所述全息互动装置包括立方体形状的壳体1，在立方体的正向侧面开设有透明的视窗11，其余壳体部分为不透明的封板。对应于视窗11的内部空间为互动人员可见的互动区，剩余空间为互动人员不可见的设备区。在本实施例中，在立方体的正向侧面、视窗11的两侧上部设置有两个摄像头21、22，视窗11的两侧下部设置有两个扬声器24，在视窗11的下侧设置有麦克风23。

本实施例中的全息展示模块3包括第一视频播放单元、第二视频播放单元32和光场单元33，具体地，第一视频播放单元为一个矩形LED显示屏，为了与构成第二视频播放单元32的矩形LED显示屏相区别，在此将构成第一视频播放单元的矩形LED显示屏称为第一LED显示屏31，所述第一LED显示屏31播放的视频命名为第一视频，在本实施例中，第一视频为虚拟角色的体态视频。所述第二视频播放单元32包括两个矩形LED显示屏，为了与其它实施例及其本实施例中的LED显示屏相区别，在些称为第三LED显示屏321，322，以视窗11高度方向的中轴面作为对称面，两个第三LED显示屏321，322竖直对称地安装在内部空间的左右两侧的设备区。本实施例中的光场单元33由两个矩形第一全息膜平板331，332构成，竖直对称地安装在互动区内，所述两个矩形第一全息膜平板331，332的第一竖边在中轴面上连接在一起，且两个矩形第一全息膜平板呈第一夹角。所述第一夹角范围为90度-150度。在本实施例中，第一夹角为120度。本实施例中的处理模块41和模式监视模块42合成在一起构成主机4，并置于立方体的下部。

参见图2，所述两个矩形第一全息膜平板331，332的光接收接面分别与两块第三LED显示屏321、322的播放面相对。两块第三LED显示屏321、322发出的视频经相对的第一全息膜平板33成像后的全息影像。以视频中的一帧图像为例，视频图像中A点成像为A’点，B点成像为B’点，C点成像为C’点，D点成像为D’点，因而图像AB的成像为图像A’ B’，图像CD的成像为图像C’ D’。因而，第二视频播放单元32播放的视频成像在第一视频播放单元的后面。在本实施例中，第三LED显示屏播放的第二视频为辅助视频，两个辅助视频的内容可以相同或不同，或者两个辅助视频播放的画面构成一个主题的画面。例如，第一LED显示屏31播放的第一视频为当前互动模式下的虚拟角色体态视频，第三LED显示屏321、322播放的第二视频为全息视频，经过光场单元33成像在虚拟角色后面，从而使得当前互动区中的虚拟角色成像具有景深，具有很强的立体感。

图3是根据本发明装置实施例一的全息互动装置的电气结构连接示意图。图4是根据本发明一个实施例的全息互动装置电气原理框图。所述互动模块2包括第一摄像头21、第二摄像头22、麦克风23和两个扬声器24，其分别与处理模块41连接，第一摄像头21采集互动人员的面部视频，第二摄像头22采集互动人员的整体视频图像，麦克风23采集互动人员的语音，并发送给处理模块41。

处理模块41包括表情识别单元411、动作识别单元412、语音识别单元413、互动语音处理单元414和体态处理单元415。其中，第一摄像头21采集互动人员的面部视频发送给表情识别单元411后，所述表情识别单元411通过对收到的面部视频进行分帧、图像特征提取、特征识别，从而确定互动人员的表情，并发送给互动语音处理单元414和体态处理单元415。第二摄像头22将采集互动人员的整体视频图像发送给动作识别单元412，所述动作识别单元412对收到的整体视频进行分帧、图像特征提取、特征识别确定互动人员的动作，并发送给互动语音处理单元414和体态处理单元415。麦克风23将采集到的互动人员的发送给语音识别单元413，语音识别单元413对语音信息进行特征提取，模型匹配等算法识别到互动人员的语音内容，并发送给互动语音处理单元414和体态处理单元415。

所述互动语音处理单元414基于互动人员的语音内容、表情和/或肢体动作确定互动人员的意图，并根据所述意图确定互动语音文字内容，再基于TTS（ Text-To-Speech，语音合成）算法基于所述互动语音文字内容生成互动语音，并发送给扬声器24播出。在一个实施例中，所述互动语音处理单元414在确定互动语音文字内容时，首先互动人员的语音内容确定从正面和负面、中性与其对话的文字内容，而后查询互动人员的表情和动作在当前互动模式下代表的含义，确定出互动人员的情感属性，根据当前互动模式确定与互动人员情感属性相对应的互动情感属性，再根据所述互动情感属性确定出或者从正面，或者从负面、或者从中性与互动人员进行对话的文字内容，并进行相应的修改以得到最终的互动语音文字内容。所述的情感属性用以表达各种情绪及情绪程度。例如，中性、高兴、忧伤、肯定、否定、讽刺、羡慕、不屑、傲慢、谦虚、担心、惊恐、苦闷、紧张、放松、焦虑、鼓励、打击等等，对应的情绪程度例如采用等级的大小来代表程度。

所述体态处理单元415基于生成的互动语音、互动情感属性、识别到的表情和/或肢体动作生成当前互动模式下虚拟角色的体态全息视频。在一个实施例中，基于互动语音和互动情感属性，确定出反应模式，并根据反应模式确定出一组在当前互动模式下与其相匹配的互动动作，再根据识别到的互动人员当前的表情和/或肢体动作，从中确定出一个或多个互动动作。例如，在互动语音为“你好”、互动情感属性为“中性”时，确定出反应模式为“普通打招呼”，如果互动情感属性为“快乐”时，确定出反应模式为“热情打招呼”。而后查询当前互动模式下对应所述反应模式的互动动作。例如，在文化课教学互动模式中，对应于“普通打招呼”的互动动作可以为点头并微笑，或者为半举手并招手等等，对应于“热情打招呼”的互动动作可以为微笑并鼓掌、微笑并由将身体的姿势由坐位变为立位等等。在体育项目教学互动模式中，对应于“普通打招呼”的互动动作可以为点头、微笑并跳一下，在跳时双手在胸前击掌，或者原地踏步等等，对应于“热情打招呼”的互动动作可以为原地起跳一圈，在转到原位并在落地时抬手向前指，或者连跳多下，举手过头顶击掌等等。而后再参考识别到的互动人员当前的表情和/或肢体动作，从中确定出一个或多个与互动人员当前的表情和/或肢体动作匹配的互动动作。

而后根据播放的时长分解所述互动动作，得到多个动作图像；依据动作图像控制虚拟角色相应的关节得到虚拟角色的动作图像，并且，会根据互动语音及互动情感属性生成虚拟角色的面部表情并与动作图像融合在一起，最后将这些动作图像按照时间轴连续起来得到体态视频。又或者，当本装置包括有数据库时，且其中预存储有多种体态模型时，根据互动动作，需要选择一个或多个体态模型，并按顺序连接起来。其中，所述体态模型为一段体态视频片段。

在生成虚拟角色与互动人员进行互动的体态视频中的体态过程中还包括生成相应的面部表情，所述面部表情的情感属性与互动情感属性相对应，并且，根据生成的互动语音和口型算法确定虚拟角色的口型，从而使得虚拟角色的口型与互动语音相匹配。由于体态动作的播放时长与互动语音相对应，并且体态、动作、表情、口型等与互动语音相对应，因而看起来形象、逼真。

在得到体态视频后，发送到第一LED显示屏31进行播放。相应地，在第三LED显示屏321、322（32）播放辅助视频。辅助视频的画面经过对应第一全息膜平板331，332后在第一LED显示屏31后成像，与第一LED显示屏31中播放的虚拟角色具有一定的景深，从而使得虚拟角色的立体感更强。

在一个实施方式，所述装置包括数据库，其中分类存储有与所述互动模式对应的虚拟角色的音频库、体态视频片段和/或体态图像。所述的音频库例如虚拟角色在不同互动模式中需要输出的内容片段，例如一段规则讲解内容，一段儿童读物，一首古诗，一个故事等等。

如图5所示，所述模式监视模块42与所述处理模块的表情识别单元411、动作识别单元412、语音识别单元413相连接，基于互动人员的语音和/或从视频图像识别到的表情、肢体动作识别互动人员意图，并根据互动人员意图变更互动模式，将变更后的互动模式发送给所述处理模块的互动语音处理单元414和体态处理单元415。例如，在当前为休闲聊天互动模式时，当从互动人员的语音中识别出互动人员想进行心理咨询意图时，所述模式监视模块42可将当前的休闲聊天互动模式切换为心理咨询/辅导互动模式。或者，在当前为休闲聊天互动模式时，当从互动人员的语音、表情及动作中识别出互动人员想睡觉的意图时，将将当前的休闲聊天互动模式切换为催眠模式。

在本实施例中，互动模块中的麦克风23为普通的麦克风，在另一个实施例中，也可以为麦克风阵列，对应地，语音识别单元413除了识别语音内容外，还根据麦克风阵列的信号判断声音来源。当通过所述声音来源及采集到的视频图像中没有互动人员时，互动语音处理单元414可以根据这种情况生成询问语音，例如“你去哪里了呀”“我看不到你了”等等，以提示互动人员进入其视频采集区域。

装置实施例二

图6是根据本发明装置实施例二的全息互动装置的立体结构示意图。本实施例与实施例一相似，不同在于，本实例中包括两组第二视频播放单元和两组光场单元。两个矩形第四LED显示屏321b、322b与所述两个矩形第三LED显示屏321a、322a上下设置在设备区；对应地，所述两个矩形第二全息膜平板331b、332b的第一竖边在中轴面上连接在一起，且两个矩形第二全息膜平板呈第二夹角；所述两个矩形第二全息膜平板331b、332b与所述两个矩形第一全息膜平板331a、332a上下设置在互动区内。两组第二视频播放单元分别播放两组辅助视频，与第一LED显示屏31中播放的虚拟角色共同显示在互动区，使虚拟角色的立体感更强，并且，根据互动模式的不同，提供不同的背景画面，以烘托互动氛围。

其它模块与装置实施例一相类似，在此不再赘述。

装置实施例三

图7是根据本发明装置实施例三的全息互动装置的立体结构示意图。本实施例与装置实施例一的不同在于全息展示模块的构成不同。在本实施例中，所述第一视频播放单元为一个第一LED显示屏31c，第二视频播放单元为一个第二LED显示屏32c，其安装在内部空间底部设备区，其正面朝上，对应地，所述光场单元为一个全息膜平板33c，其安装在互动区，与所述第二LED显示屏32c呈45度角。当然，根据视频呈现的方式，所述的第二LED显示屏32c也可以安装在上部设备区，其正面朝下。

在本实施例中，所述第一LED显示屏31c播放的第一视频为虚拟角色的辅助视频，作为本实施例中的虚拟角色的背景；对应地，所述的第二LED显示屏32c播放的所述第二视频为全息视频，为虚拟角色的体态视频。第二LED显示屏32c播放的虚拟角色的体态全息视频经全息膜平板33c成像在互动区，并位于第二LED显示屏31c播放的辅助视频提供的背景画面之前，因而立体感更强。其它模块与装置实施例一相类似，在此不再赘述。

装置实施例四

图8是根据本发明装置实施例四的全息互动装置的立体结构示意图。本实施例与装置实施例三的不同在于全息展示模块的构成不同。在本实施例中，所述第一视频播放单元为一个第一LED显示屏31d，第二视频播放单元为一个第二LED显示屏32d，其安装在内部空间底部设备区，对应地，所述光场单元为透明四面锥体33d。

在本实施例中，所述第一LED显示屏31d播放的第一视频为虚拟角色的辅助视频，作为本实施例中的虚拟角色的背景；对应地，所述的第二LED显示屏32d播放的所述第二视频为全息视频，为虚拟角色的体态视频。第二LED显示屏32d播放的虚拟角色的体态全息视频经透明四面锥体33d成像在互动区，并位于第一LED显示屏3d播放的辅助视频提供的背景画面之前。

其它模块与装置实施例一相类似，在此不再赘述。

图9是根据本发明一个实施例的全息互动装置的原理框图。本实施例中的全息互动装置本机100为前述装置实施例一到四中的任意一个，全息互动装置本机100中包括通信模块5，例如为蓝牙通信模块、WiFi网络模块等。在用户终端200中安装有应用客户端6。所述全息互动装置应用的客户端可以提供一些基础通用功能，例如用户帐户登录、与全息互动装置的网络连接控制等等。其中还进一步提供虚拟角色的设置功能，即包括有设置模块61，互动人员可通过界面在所述设置模块61中设置每个互动模式中的虚拟角色的声音、形象。其中所述声音至少包括多个年龄段的男声、女声、童音中的一种或多种，所述形象包括虚拟角色的相貌特征、体形特征、人种特征、服饰中的一种或多种。互动人员在终端的应用客户端6根据自己的喜好对虚拟角色设置完成后，所述设置数据发送给全息互动装置100。当互动人员启动全息互动装置100与其互动时，按照互动人员的设置显示虚拟角色的形象及发出的语音。

在另一方面，本发明还提供了一种全息互动方法，参见图10，图10根据本发明一个实施例的全息互动处理方法流程图。所述全息互动处理方法包括以下步骤：

步骤S1，采集并识别互动人员的语音、表情和肢体动作。在开机后，全息互动装置进入初始的开机模式，此时会播放开机模式时的虚拟角色视频，并播放初始互动语音。同时采集互动人员的语音、面部及肢体视频图像。并在整个互动过程中保持这些数据的采集。

步骤S2，基于当前互动模式、互动人员的语音、表情和/或肢体动作识别用户意图。其中，本实施例中的用户意图包括三大类，一类是在当前模式进行互动的用户意图，例如互动人员要做的事，互动人员想得到的反馈，互动人员想了解的内容等。这些意图与互动模式相对应，例如，在文化课教学互动模式，互动人员的意图通常是对某个内容的提问，对某些内容理解的确认，这个意图主要是通过语音表达。在体育项目教学互动模式，用户意图主要是对某个动作的确认、询问，通常由语音和动作来表达。另有一类为通常的在互动沟通中的意图，如请求重复、指令/命令等等。第三类则为互动模式的变更，即互动人员想转换互动模式，通常可以根据识别到的语音内容、预定含义的肢体动作和/或表情来确定。例如，互动人员在文化课教学互动模式中，向虚拟角色表达“累了，不想再学习了，想玩一会儿”之类的意思时，可以确定互动人员想切换当前的互动模式。又例如，在休闲聊天互动模式中，当互动人员与虚拟角色聊天时问到某些比较专业的问题或知识时，可以确定切换到相对应的互动模式能够更好地符合用户意图。还可以通过设置具有预定含义的肢体动作和/或表情来判断互动人员的意图，例如，互动人员通过客户端设定一些动作、表情并配合一定的语言内容作为变更互动模式的意图表达，动作例如为挥手、摆头、向一侧努嘴，这些动作再配合“换”、“新的”等语言内容来确定更换互动模式的意图。

步骤S3，判断用户意图是否为变更互动模式，如果是，则执行步骤S4。例如在文化课教学互动模式中，根据互动人员向虚拟角色表达的“累了，不想再学习了，想玩一会儿”确定用户意图为变更互动模式。如果不是，则执行步骤S5。例如在文化课教学互动模式中，根据互动人员向虚拟角色表达的“你可以再重复一下吗”或者互动人员向虚拟角色表达的“这个地方我不懂呀”确定是在当前互动模式的正常互动。

步骤S4，根据用户意图确定新的互动模式。而后执行步骤S5。其中，基于识别到的语音内容、预定含义的肢体动作和/或表情识别与互动人员意图相符的待更新互动模式。例如，互动人员在文化课教学互动模式中，向虚拟角色表达“累了，不想再学习了，想玩一会儿”之类的意思时，可以确定互动人员想切换当前的互动模式，并且，通过互动人员表达的“想玩一会儿”可以确定当前与之对应的为体育项目教学互动模式。又例如，在休闲聊天互动模式中，当互动人员与虚拟角色聊天时问到某些比较专业的问题或知识时，可以确定应将当前互动模式转换到百科问答互动模式，从而可以继续与互动人员的互动，并满足互动人员的互动要求。为了谨慎，在一个实施例中，当确定了待更新的互动模式时，生成互动模式确认语音，例如当确定了从文化课教学互动模式切换到体育项目教学互动模式时生成“我们做会儿运动吧”的语音，并播放所述互动模式确认语音给互动人员。更好地，在确定出待更新互动模式时生成过渡互动体态视频；其中，所述过渡互动体态视频包括与待更新互动模式对应的虚拟角色一个或多个互动体态，或者，所述过渡互动体态视频包括当前互动模式对应的虚拟角色与所述待更新互动模式对应的虚拟角色互动的视频。例如，虚拟角色在发出互动模式确认语音的同时，做出相应的动作，如前述的在发出“我们做会儿运动吧”的语音的同时，虚拟角色做出一个或几个运动动作。或者此时出现另一个运动互动模式的虚拟角色，运动互动模式的虚拟角色与当前互动模式的虚拟角色可以互动，如运动互动模式的虚拟角色做出请当前互动模式的虚拟角色离开的动作，在得到互动人员对所述待更新互动模式的确认语音识别内容后，当前互动模式的虚拟角色离开，仅留下运动互动模式的虚拟角色。

当得到互动人员对所述待更新互动模式的确认语音识别内容后，则确定将新的互动模式作为当前互动模式，而后执行步骤S5。

如果得到互动人员对所述待更新互动模式的否认语音识别内容后，生成意图询问语音并播放。如果互动人员连续否认同一待更新互动模式的次数达到阈值时，生成提醒互动语音，所述提醒互动语音的内容包括一个或多个互动模式名称；基于包括一个或多个互动模式名称的提醒互动语音，生成与互动模式相符合的体态和/或与互动模式相符合的表情。例如，当互动人员对“我们做会儿运动吧”的语音的反馈是否定时，会再次确定一个与用户意图相似的互动模式，如讲述互动模式，此时可生成“那我给你讲个故事吧”的互动语音。如果多次得到互动人员的否定，则生成询问意图的提醒互动语音，所述提醒互动语音的内容包括一个或多个互动模式名称，例如生成“请选择A、B、C中的哪一个”，同时，还可以在播放具体的互动模式名称时配置相应的动作或体态。例如，在虚拟角色说出文化课教学互动模式时（对应于扬声器播放“文化课教学互动模式”语音音频），虚拟角色可同时手持书本做读书状，或者是写字状。在虚拟角色说出育项目教学互动模式时，虚拟角色可同时表演几个体育动作。在虚拟角色说出心理咨询/辅导互动模式，虚拟角色可以半躺做出接受咨询的状态等等。在另一些实施例中，虚拟角色在说出互动模式时，还可以做出持有提示牌的动作，并在虚拟提示牌中显示互动模式名称，从而可以更加形象地表达出需要进行的互动模式含义，因而本发明对于有听力障碍、理解力不足的互动人员，如一些幼儿、老人是非常友好的。

步骤S5，基于当前互动模式、互动人员的语音、表情和/或肢体动作生成虚拟角色与互动人员进行互动的体态影像和互动语音，其中，所述虚拟角色进行互动的体态与互动语音相匹配。在初始的开机模式时和在变更新的互动模式时，首先调用当前互动模式的虚拟角色的初始视频和初始互动语音并播放。并且，在系统默认配置中，各个互动模式的虚拟角色的形象，播放的互动语音的音色可相同或不同。另外，互动人员也可以对虚拟角色在声音和/或形象通过应用客户端进行设置。因而，互动过程中的虚拟角色的形象、语音音色则采用互动人员的配置。不同互动模式的互动语音与体态各不相同，例如，在开机模式，虚拟角色为一个少女形象，初始视频例如为全身直立、端庄的姿态，初始互动语音可包括问候语、需求问询语等。在体育项目教学互动模式的虚拟角色可以是男性或女性健身教练的形象，初始视频例如为跳跃、转圈、伸展动作等，初始互动语音可包括问候语、锻炼需求问询语等。

步骤S6，播放虚拟角色的体态全息视频和互动语音，同时播放对应的辅助视频，基于视频内容在互动区形成一个完整的、立体感强的虚拟角色影像。

图11是根据本发明一个实施例在基于当前互动模式、互动人员的语音、表情和/或肢体动作生成互动语音时的流程图，具体可包括以下步骤：

步骤S511，基于互动人员的语音内容从正面、中性和负面确定互动对话的文字内容。例如，在互动人员的语音内容为“你可真行啊”时，确定正面对话“是啊，我很能干的呀”和负面对话“我不行，难道你行呀”和“还可以吧”三段对话文字内容。

步骤S512，基于互动人员的表情和/或肢体动作查询互动人员的表情和动作在当前互动模式下代表的含义，确定出互动人员的情感属性。在系统的数据库中存储有各种表情、动作对应的情感类型，因而，根据识别出的表情和动作，查询数据库可以得到对应的情感类型，从而可以确定出互动人员的情感属性，所述的情感属性代表着不同的情绪，如中性、高兴、忧伤、讽刺、羡慕、不屑、傲慢、谦虚、担心、惊恐、苦闷、紧张、放松、焦虑等等，再根据表情和动作的程度确定情感类型的程度值。例如，当互动人员的表情为撇嘴、皱眉/扬眉时可以确定互动人员的情感属性为讽刺；当互动人员的表情正常、但识别到互动人员在发出“你可真行啊”时配合有点头的动作时，可以确定互动人员的情感属性为羡慕。

另外，在前述步骤S511、S512中，在确定对话的文字内容和互动人员的情感属性时还可以参考前述进行过的互动情景，如之前一段时间的互动语音内容和互动人员的情感属性。从通过参考之前的互动情景，能够更加准确地确定互动内容和互动情感属性。

步骤S513，根据互动人员的情感属性确定需要反馈给互动人员的互动情感属性。其中，系统中设置有情感属性的反馈匹配表，例如，当互动人员的情感属性为高兴时，与之相匹配的互动情感属性为高兴、鼓励。当互动人员的情感属性为讽刺时，互动情感属性为不屑、傲慢等等，例如，当确定互动人员在发出“你可真行啊”时的情感属性为羡慕时，确定互动情感属性或为肯定，或为谦虚、或为高兴。

步骤S514，基于互动情感属性修正文字内容以得到最终的互动语音文字内容。例如，当确定互动情感属性为肯定、谦虚或高兴时，从之前确定的三句话中选择与之相适应的“是啊，我很能干的呀”。

步骤S515，基于TTS（ Text-To-Speech，语音合成）算法将所述互动语音文字内容生成互动语音。将前述的“是啊，我很能干的呀”文字生成语音，并播放。

在生成互动语音时，除了上述生成的对话外，还可以根据互动需求，从数据库中调取已录制好的音频。例如，在讲述模式时，通过与互动人员的互动确定了要讲述的故事或要朗读的古诗、文章后，可调取录制好的故事、古诗、文章的音频播放。从而可以有效利用现有的音频资料，且能有效地减少生成互动语音的计算量。

在前述生成互动语音时，还生成匹配的体态视频。图12是根据本发明一个实施例图生成体态视频的流程图。具体包括以下步骤：

步骤S521，基于互动语音、当前互动语境和互动情感属性确定出反应模式。不同的反应模式对应不同的场景，例如，在开机初始模式或在一个互动模式的初始时，当生成的互动语音为“你好”、互动情感属性为“中性”时可确定出反应模式为“普通打招呼”。如果互动情感属性为“快乐”时，确定出反应模式为“热情打招呼”。

步骤S522，根据反应模式确定出一组在当前互动模式下与其相匹配的互动动作。而后查询当前互动模式下对应所述反应模式的互动动作。例如，在文化课教学互动模式中，对应于“普通打招呼”的互动动作可以为点头并微笑，或者为半举手并招手等等，对应于“热情打招呼”的互动动作可以为微笑并鼓掌、微笑并由将身体的姿势由坐位变为立位等等。在体育项目教学互动模式中，对应于“普通打招呼”的互动动作可以为点头、微笑并跳一下，在跳时双手在胸前击掌，或者原地踏步等等，对应于“热情打招呼”的互动动作可以为原地起跳一圈，在转到原位并在落地时抬手向前指，或者连跳多下，举手过头顶击掌等等。其中，为了方便使用，可以将几个动作连续在一起构成一个动作模型，并通过改变其中的一个或多个动作，可以多个代表相同反应模式的动作模型。同类的多个动作模型配置有情感属性值，以“打招呼”反应模式为例，将“热情打招呼”反应模式下的多个动作模型分别配置为一般热情、非常热情等。

步骤S523，根据识别到的互动人员当前的表情和/或肢体动作，从中确定出一个或多个互动动作。其中，在确定互动动作时，还可以参考之前的互动动作，以避免动作重复性过高导致呆板。其中，如果互动人员当前的表情和/或肢体动作没有特定含义，则可以随机选择一个或一组之前没有使用过的动作。如果互动人员当前的表情和/或肢体动作表现出强烈的情感，如之前识别到的情感属性的程度值高过阈值，则确定与之匹配的能够体现出高情感属性的动作。

步骤S524，根据播放的时长分解所述互动动作，得到多个应进行的动作图像。

步骤S525，依据动作图像控制虚拟角色相应的关节得到虚拟角色的动作图像。同时，会根据互动语音及互动情感属性生成虚拟角色的面部表情并与动作图像融合在一起。例如，根据生成的互动语音通过口型算法确定如何控制角色的面部表情，主要是控制口型的变化，如上下唇上下距离的变化、嘴角在两侧及上下位置的变化，还有相应的其他的面部部位的变化，如眼睛形状的变化、眉毛位置的变化、面部苹果肌突出的大小变化等。

步骤S526，最后将这些动作图像按照时间轴连续起来得到体态视频。

在另一个实施例中，数据库中预存储有多种体态模型，所述体态模型为一段体态视频片段，其由多个连续动作组成。更好地，体态模型具有匹配的反应模式和情感属性及属性值。例如，在同类情感属性可有多个体态模型，分别对应不同的属性值，用于代表情感的强烈程度。因而在基于互动语音和互动情感属性确定出反应模式后，可根据反应模式确定出一个在当前反应模式，互动情感属性相匹配的所述体态模型。从而不需要进行视频图像的处理来生成体态视频，只需要调用对应的体态模型即可，减少了计算量，提高了响应速度。

另外，在进行互动时，除了存储互动内容外，还可以存储互动动作视频片段从而生成新的体态模型，从而丰富体态动作。随着互动时间的增长，虚拟角色的体态会越来越丰富。

在另一个实施例中，在识别到互动人员的动作时，可以依据互动人员的动作生成虚拟角色的动作或体态模型，并基于互动人员做出所述动作时的情感属性，为虚拟角色的动作或体态模型确定对应的情感属性及属性值，即得到体态视频的素材。同理，在识别到互动人员的语音内容后，从中提取出特定内容并存储起来作为生成互动语音时所使用互动语音内容素材。通过上述处理过程可以达到使虚拟角色能够向互动人员学习的目的，从而丰富了互动的语音内容和体态。

上述实施例仅供说明本发明之用，而并非是对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明范围的情况下，还可以做出各种变化和变型，因此，所有等同的技术方案也应属于本发明公开的范畴。

Claims

1.一种全息互动装置，其特征在于，包括：

壳体，其上开设有透明的视窗，对应于视窗的内部空间为互动人员可见的互动区，剩余空间为互动人员不可见的设备区；

互动模块，其安装于所述壳体上，经配置以采集互动人员的视频图像和语音，输出互动语音；

全息展示模块，其位于所述壳体内部，经配置以播放与当前互动模式相应的虚拟角色体态视频及辅助视频，所述辅助视频与所述虚拟角色体态视频形成具有景深的全息影像并展示在互动区；

所述全息展示模块包括：

第一视频播放单元，其位于互动区，与处理模块相连接，经配置以播放第一视频；所述第一视频播放单元包括第一LED显示屏，其直立安装在内部空间的互动区内，其正面与视窗相对；

光场单元，其位于互动区，其光接收面与所述第二视频播放单元相对，经配置以将所述第二全息视频内容成像在第一视频的后面或前面；

处理模块，其位于壳体内部的设备区，分别与所述互动模块和全息展示模块相连接，经配置以基于互动人员的视频图像和语音信息生成当前互动模式下的虚拟角色的体态视频及互动语音，并将所述虚拟角色的体态视频发送给所述全息展示模块，将互动语音发送给互动模块，其中，虚拟角色的体态、表情与互动语音内容相匹配；以及

模式监视模块，其位于壳体内部的设备区，与所述处理模块相连接，经配置以在互动过程中基于互动人员的语音和/或从视频图像识别到的表情、肢体动作识别互动人员意图，并根据互动人员意图变更互动模式，将变更后的互动模式发送给所述处理模块；其中，虚拟角色的外在形象、体态和互动语音与互动模式一一对应；对应地，所述处理模块在接收到模式监视模块发送的基于互动人员意图变更的互动模式后，在生成变更后互动模式下的虚拟角色的体态视频及互动语音之前，获取过渡互动体态视频，并发送给全息展示模块展示所述过渡互动体态视频；所述过渡互动体态视频包括当前互动模式对应的虚拟角色与变更后互动模式对应的虚拟角色正在进行互动的视频。

2.根据权利要求1所述的全息互动装置，其特征在于，所述互动模块包括：

一个以上的摄像头，经配置以分别采集互动人员的面部表情和肢体动作的视频图像；

麦克风或麦克风阵列，经配置以采集互动人员的语音；以及

扬声器，经配置以接收并播放来自处理模块的互动语音。

3.根据权利要求1所述的全息互动装置，其特征在于，所述处理模块包括：

语音识别单元，经配置以基于采集到语音信息识别互动人员的语音内容；

动作识别单元，经配置以基于采集到的互动人员的体态视频图像识别互动人员的肢体动作；

表情识别单元，经配置以基于采集到的互动人员的面部视频图像识别互动人员的表情；

互动语音处理单元，其与所述语音识别单元、动作识别单元和表情识别单元相连接，基于互动人员的语音内容、表情和/或肢体动作生成当前互动模式下虚拟角色的互动语音和互动情感属性；以及

互动体态处理单元，其与所述互动语音处理单元、动作识别单元和表情识别单元相连接，基于生成的互动语音、互动情感属性、识别到的表情和/或肢体动作生成当前互动模式下虚拟角色的体态视频。

4.根据权利要求1所述的全息互动装置，其特征在于，所述互动模式包括文化课教学互动模式、体育项目教学互动模式、幼儿早教互动模式、休闲聊天互动模式、心理咨询/辅导互动模式、讲述互动模式、催眠模式、演示互动模式、家庭管家互动模式、百科问答互动模式中的一种或多种。

5.根据权利要求1-4任一所述的全息互动装置，其特征在于，进一步包括数据库，其中分类存储有与所述互动模式对应的虚拟角色的音频库、体态视频和/或体态图像。

6.根据权利要求1所述的全息互动装置，其特征在于，还包括设置模块，经配置以设置每个互动模式中的虚拟角色的声音、形象；其中所述声音至少包括多个年龄段的男声、女声、童音中的一种或多种，所述形象包括虚拟角色的相貌特征、体形特征、人种特征、服饰中的一种或多种。

7.根据权利要求1所述的全息互动装置，其特征在于，所述第二视频播放单元还包括两个矩形第四LED显示屏，所述两个矩形第四LED显示屏与所述两个矩形第三LED显示屏上下设置在设备区；对应地，所述光场单元还包括两个矩形第二全息膜平板，所述两个矩形第二全息膜平板的第一竖边在中轴面上连接在一起，且两个矩形第二全息膜平板呈第二夹角；所述两个矩形第二全息膜平板与所述两个矩形第一全息膜平板上下设置在互动区内。

8.根据权利要求7所述的全息互动装置，其特征在于，所述两个矩形第一全息膜平板所呈的第一夹角范围为90-150度；所述两个矩形第二全息膜平板所呈的第二夹角范围为90-150度。

9.一种全息互动处理方法，其特征在于，其应用于权利要求1-8任一所述的全息互动装置，所述方法包括：

播放与当前互动模式相应的虚拟角色体态视频及辅助视频，所述辅助视频与所述虚拟角色体态视频形成具有景深的全息影像；

采集并识别互动人员的语音、表情和肢体动作；

基于当前互动模式、互动人员的语音、表情和/或肢体动作生成虚拟角色与互动人员进行互动的互动体态视频和互动语音，并播放所述互动体态视频和互动语音，其中，所述互动体态视频中虚拟角色的互动体态、表情与互动语音相匹配；以及

在虚拟角色与互动人员的互动过程中识别互动人员变更互动模式的用户意图，并根据用户意图变更互动模式，其中，虚拟角色的外在形象、体态和语音与互动模式一一对应;

其中，在互动过程中识别互动人员变更互动模式的用户意图的步骤进一步包括：

10.根据权利要求9所述的方法，其特征在于，在互动过程中识别互动人员变更互动模式的用户意图的步骤进一步包括：

响应于识别到的待更新互动模式，生成互动模式确认语音；以及

播放所述互动模式确认语音。

11.根据权利要求9所述的方法，其特征在于，进一步包括：

获取互动人员响应所述待更新互动模式确认语音的语音识别内容；

响应于互动人员确认所述待更新互动模式，调取对应所述待更新互动模式的虚拟角色的初始体态视频；

播放对应所述待更新互动模式的虚拟角色的初始体态视频，或者由所述待更新互动模式的虚拟角色的初始体态视频替换过渡互动体态视频；

响应于互动人员否认所述待更新互动模式，生成意图询问语音，以及

播放所述意图询问语音。

12.根据权利要求11所述的方法，其特征在于，进一步包括：

在互动人员连续否认同一待更新互动模式的次数达到阈值时，生成一个或多个提醒互动语音，所述提醒互动语音的内容包括一个互动模式名称；以及

基于每个提醒互动语音，生成与提醒互动语音相匹配的提醒体态视频，其中，所述提醒体态视频中的虚拟角色具有与互动模式相符合的体态和/或与互动模式相符合的表情。

13.根据权利要求12所述的方法，其特征在于，所述提醒体态视频中的虚拟角色的体态为具有特定含义的动作或持有虚拟提示牌的动作，其中，所述虚拟提示牌中显示互动模式名称。

14.根据权利要求13所述的方法，其特征在于，进一步包括：

接收互动人员对具体互动模式的虚拟角色在声音和/或形象的设置参数数据，依据接收到的设置参数数据生成所述互动模式的虚拟角色；其中所述的设置参数包括声音和形象，所述声音的参数数据至少包括多个年龄段的男声、女声、童音中的一种或多种，所述形象的参数数据包括相貌特征、体形特征、人种特征、服饰中的一种或多种。

15.根据权利要求9所述的方法，其特征在于，所述互动语音包括虚拟角色与互动人员的对话音频和/或预录制的特定内容音频。

16.根据权利要求9所述的方法，其特征在于，进一步包括：

存储虚拟角色与互动人员的语音互动内容；以及

从所述语音互动内容中提取出互动人员表达的特定内容，并存储为语音互动内容素材。

17.根据权利要求9所述的方法，其特征在于，进一步包括：

从识别出的互动人员的表情和/或肢体动作中提取出表情/动作特征；

基于所述表情/动作特征生成虚拟角色的表情和动作或体态模型；以及

基于互动人员做出所述表情和/或肢体动作时的情感属性确定生成的所述虚拟角色的表情和动作或体态模型的情感属性。

18.根据权利要求9所述的方法，其特征在于，基于当前互动模式、互动人员的语音、表情和/或肢体动作生成虚拟角色与互动人员进行互动的互动语音内容的步骤包括：

基于互动人员的语音内容、表情和/或肢体动作确定互动人员的意图；

根据所述意图分别确定正面、中性和负面的三种待定互动语音文字内容；

根据获得的互动人员的表情和动作在当前互动模式下代表的含义确定互动人员的情感属性；

基于互动人员的情感属性确定互动情感属性；以及

基于所述互动情感属性从待定互动语音文字内容中确定一种，并修改所述待定互动语音文字内容以得到确定的互动语音文字内容。

19.根据权利要求9所述的方法，其特征在于，基于当前互动模式、互动人员的语音、表情和/或肢体动作生成虚拟角色与互动人员进行互动的体态视频中的体态的步骤包括：

基于互动语音文字内容和互动情感属性确定对应的反应模式；

根据反应模式确定出一组与当前互动模式相匹配的互动动作；以及

根据识别到的互动人员当前的肢体动作，从中确定出一个或多个与互动人员当前的肢体动作相匹配的互动动作。

20.根据权利要求9所述的方法，其特征在于，基于当前互动模式、互动人员的语音、表情和/或肢体动作生成虚拟角色与互动人员进行互动的体态视频中的体态的步骤包括：

根据反应模式确定出一个或多个体态模型；以及

根据识别到的互动人员当前的肢体动作，从中确定出一个与互动人员当前的肢体动作相匹配的体态模型；

其中，所述的体态模型为表现一个或多个动作的视频片段。

21.根据权利要求19或20所述的方法，其特征在于，在生成虚拟角色与互动人员进行互动的体态视频中的体态过程中还包括生成相应的面部表情，所述面部表情的情感属性与互动情感属性相对应，所述面部表情中的口型与互动语音相匹配。