CN109976519B

CN109976519B - 一种基于增强现实的交互显示装置及其交互显示方法

Info

Publication number: CN109976519B
Application number: CN201910192408.6A
Authority: CN
Inventors: 朱威; 何全林; 陈悦峰; 吴远; 陈朋; 郑雅羽
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2022-05-03
Anticipated expiration: 2039-03-14
Also published as: CN109976519A

Abstract

本发明涉及一种基于增强现实的交互显示装置及其交互显示方法，所述装置包括：视觉感知单元、声音输入输出单元、增强现实处理单元和视频输出单元，其中增强现实处理单元包括语音识别模块、手势识别模块、目标定位模块、三维注册模块、虚拟物体叠加模块。所述方法检测并显示采集到的原始视频；跟踪目标对象；当持续跟踪到目标对象的时间大于T1时，对从声音输入输出单元采集的语音进行识别，根据识别的语音指令选择增强现实模式，叠加虚拟效果，根据是否跟踪到当前目标对象及是否有新的语音指令进行增强现实模式选择、继续叠加虚拟效果或结束增强现实交互显示。本发明充分利用了增强现实技术和人工智能技术，有效地提升了交互显示的用户体验。

Description

一种基于增强现实的交互显示装置及其交互显示方法

技术领域

本发明涉及增强现实(Augmented Reality,AR)领域，具体涉及一种基于增强现实的交互显示装置及其交互显示方法。

背景技术

随着信息科技的发展，人们对现实的感官体验方式不断发生变化。近些年来，AR技术逐渐得到人们广泛的关注，它将原本在现实世界一定时间空间范围内很难体验到的实体信息，通过计算机技术模拟后，在显示屏幕上把虚拟景象叠加到现实场景中，从而达到超越现实的感官体验。目前，AR技术已逐渐应用于游戏、商业、工业、建筑、教育、医疗等各个领域，例如京东推出的试衣镜、Niantic推出的AR游戏《PokémonGO》、以及谷歌发布的AR眼镜等。

目前市面上基于增强现实的娱乐应用大多还是基于手机APP，关于增强现实的实体显示系统还很少，交互功能还有很大的提升空间。申请号为201610785808.4的专利公开了一种互动魔镜广告机。该专利主要通过摄像头采集用户和周围的图像信息并在魔镜上显示，用户可以通过声音与魔镜进行显示界面切换，并且可以通过手机切换广告机的显示界面，还可以通过调节背光模组来调节魔镜的显示亮度。但是该互动魔镜系统并没有在实际图像内容上进行增强显示，本质上还只是对现实景象的捕获显示，并没有达到AR的效果。申请号为201710766223.2的专利公开了一种AR一体机。该一体机主要包括桌体、显示屏、主机、投影仪、识别模块和虚拟输入设备，实现了将现实中的文字图片等转化为虚拟模型并在计算机中展示，但是交互方式过于单一，并且该装置增强现实对象仅限于文字图片，没有用户本身的AR体验。申请号为201810171782.3的专利公开了一种增强现实的AR透明显示互动系统，该系统虽然可以实现AR显示效果，给用户提供了透明感官的体验，但是该系统并不能对用户本身(即LED屏前的实景)进行增强现实，人机交互的娱乐性还可以进一步提升。申请号为201621483605.1的专利公开了一种基于AR技术的旅游景区涂色玩具，该专利主要是对绘画图像进行扫描识别，然后将AR数据库中存储的相应虚拟内容显示在所述动终端的显示器中，再与游人进行交互。虽然该专利能增强游客的真实体验感，但是应用范围比较局限，增强的实景内容和交互方式也还比较单一。

为了解决上述AR系统交互方式单一的缺点，增加虚拟物体的可选择性，本发明在现有技术上的基础上，提供了一种基于增强现实的交互显示装置及其交互显示方法，不仅可以给现实景象添加虚拟对象，还可以通过手势、语音等多种方式进行交互显示，从而给用户带来良好的交互体验，适用于人流较多的各种场所。

发明内容

为了给用户带来良好的感官体验和交互感，本发明提供了一种基于增强现实的交互显示装置及其交互显示方法。

所述的一种基于增强现实的交互显示装置，包括：视觉感知单元、声音输入输出单元、增强现实处理单元、视频输出单元。其中增强现实处理单元包括语音识别模块、手势识别模块、目标定位模块、三维注册模块、虚拟物体叠加模块。

所述的增强现实处理单元由高性能计算机组成，该单元接收来自视觉感知单元的彩色图像、深度图像和人体姿态数据；接收来自声音输入输出单元的现场语音输入数据；对接收到的数据进行增强现实处理；将经过增强现实处理的彩色视频图像输出到视频显示单元，以及将与增强现实图像对应的音频数据输出到声音输入输出单元。

所述的视觉感知单元由体感相机组成，该相机除了可以获取彩色视频图像和深度图像外，还可以获取人体在深度图像中的位置、人体骨架的三维坐标等人体姿态数据。

所述的视频输出单元由高清显示屏构成，该显示屏直接呈现用户所选择的交互界面和虚拟物体叠加后的图像。

所述的声音输入输出单元由全向麦克风组成，可同时进行声音的输入和输出，具有回音消除和噪声抑制的功能，以提高增强现实处理单元中语音识别模块的准确度。

增强现实处理单元是本发明装置的核心，下面进一步说明其各个模块所执行的功能：

(1)语音识别模块

所述语音识别模块用于识别用户的语音，用户通过语音与本发明装置进行交互，用于选择虚拟物体叠加模块的增强现实模式，即通过语音在脸部增强模式、手部增强模式、环境增强模式这三种模式之间进行切换。进一步，语音识别模块实时检测语音，当检测到“我要变脸”、“我要火焰”、“我要雨雪”中的一种，就将对应的指令发给到虚拟物体叠加模块，从而进入对应的模式；对于检测到的其它语音，不向虚拟物体叠加模块发送任何指令。

(2)手势识别模块

所述手势识别模块主要用于识别手掌的形状变化和运动姿势，用户通过手势与本发明装置进行交互。进一步，手势识别模块使用基于人体骨骼数据的快速手势识别方法检测握拳和挥手这两个手势，并将这些手势变化所对应的指令发送到虚拟物体叠加模块。所述的手势指令用于虚拟物体叠加模块在当前增强现实模式下选择具体的虚拟物体类型。

(3)目标定位模块

所述的目标定位模块通过对目标对象的识别与跟踪来确定被增强的目标对象在图像中的位置。该模块首先采用深度卷积神经网络模型对彩色视频图像进行人形目标检测；然后使用深度图像选取距离视觉感知单元最近的人形目标作为目标对象；接着采用深度卷积神经网络模型对目标对象进行人脸区域和手掌区域的检测；最后采用KCF滤波算法对目标对象进行持续的跟踪。

(4)三维注册模块

所述三维注册模块的功能是为了获得真实空间物体坐标和虚拟物体坐标的三维注册关系。该模块首先对目标定位模块所定位的目标对象区域采用ORB算法提取特征点，所述的目标对象区域包括人脸区域和手掌区域；然后计算其特征量并进行特征量匹配；接着根据特征量匹配的结果，从输入图像提取的特征点的图像坐标计算出摄像机的旋转和平移矩阵，得到虚拟空间坐标和真实空间坐标的三维注册关系；最后将三维注册关系输送到虚拟物体叠加模块。

(5)虚拟物体叠加模块

所述虚拟物体叠加模块接收来自语音识别模块和手势识别模块的指令和三维注册模块得到的三维注册关系。虚拟物体叠加模块在初始时就使用三维渲染引擎生成所有增强现实模式下的全部虚拟物体，以便加快叠加速度，提升交互响应。进一步，在脸部增强模式下，虚拟物体包括“京剧脸谱”、“钢铁侠脸谱”和“熊猫脸谱”，默认为“京剧脸谱”；在手部增强模式下，虚拟物体包括“红色火焰”和“蓝色火焰”，默认为“红色火焰”；在环境增强模式下，虚拟物体包括“雪花”、“雨水”和“雷电”，相对应虚拟物体的声音为“风声”、“雨声”和“雷鸣声”，默认为“雪花”及“风声”。当手势识别模块选定具体的虚拟物体之后，虚拟物体叠加模块根据三维注册模块所确定的三维注册关系将虚拟物体叠加到目标定位模块所定位的目标对象上，最后将叠加后的增强现实视频图像输送至视频输出单元进行显示。

为了解决现有显示系统中增强现实交互形式单一的问题，本发明提供一种基于增强现实的交互显示装置的交互显示方法，具体包括以下步骤：

(1)检测与跟踪目标对象

交互显示装置初始处于普通显示模式，视频输出单元不显示任何虚拟物体特效，只显示当前视觉感知单元采集到的原始视频，犹如一面普通的镜子；目标定位模块对视觉感知单元采集的彩色视频图像进行人形目标的检测，利用采集的深度图像选取距离视觉感知单元最近的人形目标作为目标对象，若持续跟踪到该目标对象的时间大于t₁，则跳到下一步，否则重复执行目标对象的检测与跟踪；t₁的取值范围为[1,3]，单位为秒。

(2)选择增强现实模式

语音识别模块对从声音输入输出单元采集的语音进行识别，等待语音指令以选择具体的增强现实模式，具体方式如下：

若识别到语音指令“我要换脸”，则选择脸部增强模式；若识别到语音指令“我要火焰”，则选择手部增强模式；若识别到语音指令“我要雨雪”，则选择环境增强模式；若目标定位模块对当前的目标对象跟踪丢失，则跳到步骤(4)，否则重复执行当前步骤，等待语音指令。

(3)叠加虚拟效果：

虚拟物体叠加模块根据增强现实模式叠加虚拟效果，虚拟物体叠加模块和目标定位模块、手势识别模块、三维注册模块、语音识别模块协同工作，将当前增强现实模式对应的虚拟效果叠加到视频图像，并将叠加后的视频图像送至视频输出单元显示，具体步骤如下：

(3-1)若当前的增强现实模式为脸部增强模式，则执行以下步骤：

(3-1-1)目标定位模块检测目标对象中的人脸区域，若检测到，则三维注册模块计算出真实空间人脸区域坐标和虚拟空间人脸区域坐标的三维注册关系，并且进行下一步，若未检测到人脸区域，则跳到步骤(3-1-3)；

(3-1-2)手势识别模块检测挥手动作和握拳动作，若检测到挥手动作，则将挥手动作对应的虚拟物体切换指令发送给虚拟物体叠加模块，虚拟物体叠加模块将下一张脸谱叠加到视频图像中，并将叠加后的图像送至视频输出单元显示，以供用户选择；若检测到握拳动作，则将握拳动作所对应的确认叠加指令传给虚拟物体叠加模块，虚拟物体叠加模块根据三维注册模块所确定的三维注册关系，将当前已选择的虚拟脸谱叠加在目标定位模块跟踪的人脸区域上，最后虚拟物体叠加模块将增强现实后视频图像输送给视频输出单元进行显示；若未检测到挥手或握拳动作，则进行下一步；

(3-1-3)目标定位模块对当前目标对象进行跟踪，语音识别模块对从声音输入输出单元采集的当前语音进行识别；若跟踪到当前目标对象且有新的语音指令，则返回步骤(2)；若跟踪到当前目标对象且无新的语音指令，则重复执行步骤(3-1-1)至步骤(3-1-3)；其它情况进行步骤(4)。

(3-2)若当前的增强现实模式为手部增强模式，则执行以下步骤：

(3-2-1)目标定位模块检测目标对象中的手掌区域，若检测到，则三维注册模块计算出真实空间手掌区域坐标和虚拟空间手掌区域坐标的三维注册关系，并且进行下一步，若未检测到手掌区域，则跳到步骤(3-2-3)；

(3-2-2)手势识别模块检测挥手动作和握拳动作，若检测到挥手动作，则将挥手动作对应的虚拟物体切换指令发送给虚拟物体叠加模块，虚拟物体叠加模块将下一个火焰虚拟模型叠加到视频图像中，并将叠加后的图像送至视频输出单元显示，以供用户选择；若检测到握拳动作，则将握拳动作所对应的确认叠加指令传给虚拟物体叠加模块，虚拟物体叠加模块根据三维注册模块所确定的三维注册关系，将当前已选择的虚拟火焰模型叠加在目标定位模块跟踪的手掌区域上，最后虚拟物体叠加模块将增强现实后视频图像输送给视频输出单元进行显示；若未检测到挥手或握拳动作，则进行下一步；

(3-2-3)目标定位模块对当前目标对象进行跟踪，语音识别模块对从声音输入输出单元采集的当前语音进行识别；若跟踪到当前目标对象且有新的语音指令，则返回步骤(2)；若跟踪到当前目标对象且无新的语音指令，则重复执行步骤(3-2-1)至步骤(3-2-3)；其它情况进行步骤(4)。

(3-3)若当前的增强现实模式为环境增强模式，则执行以下步骤：

(3-3-1)三维注册模块计算出真实空间全局图像坐标和虚拟空间全局图像坐标的三维注册关系；

(3-3-2)手势识别模块检测挥手动作和握拳动作，若检测到挥手动作，则将挥手动作对应的虚拟物体切换指令发送给虚拟物体叠加模块，虚拟物体叠加模块将下一个该模式下虚拟模型叠加到视频图像中，并将叠加后的图像送至视频输出单元显示，以供用户选择；若检测到握拳动作，则将握拳动作所对应的确认叠加指令传给虚拟物体叠加模块，虚拟物体叠加模块根据三维注册模块所确定的三维注册关系，将当前已选择的虚拟模型叠加在视频图像的全局区域中，并同时将对应的声音送至声音输入输出单元播放；若未检测到挥手或握拳动作，则进行下一步；

(3-3-3)目标定位模块对当前目标对象进行跟踪，语音识别模块对从声音输入输出单元采集的当前语音进行识别；若跟踪到当前目标对象且有新的语音指令，则返回步骤(2)；若跟踪到当前目标对象且无新的语音指令，则重复执行步骤(3-3-2)至步骤(3-3-3)；其它情况进行步骤(4)。

所述步骤(3)中三维注册模块计算三维注册关系具体包括：对人脸区域或手掌区域或彩色图像进行特征提取并计算特征点的特征量，以相似度计算法进行特征量匹配，得到匹配的特征点数据坐标X，然后计算出摄像机的旋转矩阵R和平移矩阵T，由Y＝K[R|T]X计算出人脸区域或手掌区域或彩色图像在虚拟空间的投影坐标，得到真实空间坐标与虚拟空间坐标的三维注册关系，其中，Y为虚拟空间坐标，K为摄像机的内参，R为摄像机的旋转矩阵，T为摄像机的平移矩阵，X为人脸区域或手掌区域或彩色图像的真实空间特征点坐标。

所述步骤(3)中手势识别模块使用基于人体骨骼数据的手势识别方法，具体包括：首先获取最新一帧人体骨骼数据HSD₁的右小臂轴节点A₁(X_a1,Y_a1,Z_a1)、右肩节点S₁(X_s1,Y_s1,Z_s1)、右手掌中心节点H₁(X_h1,Y_h1,Z_h1)和右手掌指尖点F₁(X_f1,Y_f1,Z_f1)，将以节点H₁与节点F₁之间的欧氏距离为半径所组成圆的面积记为C₁，将以节点A₁、节点S₁和节点H₁所围成三角形的面积记为T₁；经过时间t之后，再获取最新一帧人体骨骼数据HSD₂的右小臂轴节点A₂(X_a2,Y_a2,Z_a2)、右肩节点S₂(X_s2,Y_s2,Z_s2)、右手掌中心节点H₂(X_h2,Y_h2,Z_h2)和右手掌指尖点F₂(X_f2,Y_f2,Z_f2)，将以节点H₂与节点F₂之间的欧氏距离为半径所围成圆的面积记为C₂，将以节点A₂、节点S₂和节点H₂所围成三角形的面积记为T₂；最后判断手势类型，若三角形面积T₂和三角形面积T₁满足T₂<α×T₁，则判定为挥手手势；如果圆的面积C₂和圆的面积C₁满足C₂<β×C₁，则判定为握拳手势；其中t的取值范围为[0.5,2]，单位为秒，α取值范围为[0.5,0.9]，β的取值范围为[0.2,0.8]。

(4)结束增强现实交互显示：

虚拟物体叠加模块在视频图像中叠加代表结束本次增强现实交互显示的文字，送至视频输出单元显示。

本发明与现有技术相比，有以下有益效果：

视觉感知单元采用体感相机识别用户的身体运动姿态；用户可以通过手势、语音等交互方式选择要叠加的虚拟对象；当检测到用户所做的某个手势动作时，自动叠加虚拟模型，加大了虚拟对象叠加的灵活性，用户亲身参与的交互方式也增加了体验乐趣。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要的附图做简单的介绍：

图1为本发明增强现实交互显示装置的装置简图，其中，1为相机，2为显示屏，3为全向麦克风，4为高性能计算机；

图2为本发明增强现实交互显示装置的单元框图，其中，空心箭头表示单元间信息传递的过程，实心箭头表示增强现实单元中的数据传递过程；

图3为本发明增强现实交互显示装置的方法流程图。

图4为本发明增强现实交互显示装置的手势示意图，其中，左上图和右上图为挥手示意，左下图和右下图为握拳示意。

具体实施方式

下面结合实施例和附图来详细描述本发明，但本发明并不仅限于此。图2是本发明交互显示装置的单元框图，其中包括：视觉感知单元、声音输入输出单元、增强现实处理单元、视频输出单元。其中增强现实单元是整个装置的核心部分，包括语音识别模块、手势识别模块、目标定位模块、三维注册模块、虚拟物体叠加模块。增强现实单元与视觉感知单元，声音输入输出单元、视频输出单元相连。增强现实单元接收来自视觉感知单元、声音输入输出单元的数据，对接收的数据进行增强现实处理，将经过增强现实处理的彩色视频图像输出到视频输出单元。

具体地，视觉感知单元由微软体感相机Kinect V2组成，该相机可以采集彩色图像、深度图像和人体姿态数据，其中彩色图像分辨率设为1920×1080，深度图像分辨率设为512×424。

声音输入输出单元由YZHNMSOO M31全向麦克风组成，该全向麦克风内置高性能DSP芯片，具有回音消除和抑制噪音的功能。

增强现实处理单元由高性能计算机组成，该计算机CPU型号为i7 8700k，显卡型号为GTX1080TI，内存为32G DDR4，该单元通过HDMI接口与视频输出单元相接，分别通过USB接口与视觉采集单元和声音输入输出单元相接。

视频输出单元为32寸4K LCD液晶显示屏。

在增强现实单元中，语音识别模块采用科大讯飞的语音识别SDK识别声音输入输出单元送过来的语音指令；手势识别模块采用基于人体骨骼数据的快速识别方法识别挥手和握拳动作；目标定位模块主要是调用Kinect V2 SDK获得彩色视频图像和深度图像、采用深度卷积神经网络模型YOLO V3检测人形目标、人脸和手掌，并使用KCF算法对人形目标进行跟踪；三维注册模块使用基于ORB算法的三维注册方法计算出目标对象的坐标在真实空间坐标和虚拟空间坐标之间的关系，并将三维注册关系输出给虚拟物体叠加模块；虚拟物体叠加模块采用Unity三维渲染引擎产生虚拟物体模型，根据由三维注册模块得到的三维注册关系将虚拟物体叠加在目标对象上，并将增强现实后的视频图像输出至视觉输出单元。

图3是本发明交互装置的交互显示方法流程图，一次增强现实交互显示流程包括以下步骤：

(1)检测与跟踪目标对象；

(2)选择增强现实模式；

(3)叠加虚拟效果；

(4)结束增强现实交互显示。

步骤(1)具体包括：

目标定位模块对视觉感知单元采集的彩色视频图像进行人形目标的检测，利用采集的深度图像选取距离视觉感知单元最近的人形目标作为目标对象，若持续跟踪到该目标对象的时间大于t₁，则跳到下一步，否则重复执行目标对象的检测与跟踪；t₁的取值范围为[1,3]，此处取值为2秒。

步骤(2)具体包括：

语音识别模块对从声音输入输出单元采集的语音进行识别，若识别到语音指令“我要换脸”，则选择脸部增强模式；若识别到语音指令“我要火焰”，则选择手部增强模式；若识别到语音指令“我要雨雪”，则选择环境增强模式；若目标定位模块对当前的目标对象跟踪丢失，则跳到步骤(4)，否则重复执行当前步骤，等待语音指令。

步骤(3)具体包括：

所述步骤(3)中三维注册模块计算三维注册关系具体包括：使用OpenCV库中的ORB算法函数对人脸区域或手掌区域或彩色图像进行特征提取，得到对应的特征点数据坐标并计算出人脸目标特征点的特征量，对人脸区域或手掌区域或彩色图像进行特征提取并计算特征点的特征量，以基于汉明距离的相似度计算法进行特征量匹配，得到匹配的特征点数据坐标X，然后使用OpenCV库中的SolvePnP函数计算摄像机的旋转矩阵R和平移矩阵T，从而得到人脸区域或手掌区域或彩色图像真实空间坐标和虚拟空间坐标的三维注册关系，由式Y＝K[R|T]X计算出到人脸区域或手掌区域或彩色图像在虚拟空间的投影坐标，得到真实空间坐标与虚拟空间坐标的三维注册关系，其中Y为虚拟空间坐标，K为摄像机的内参，R为摄像机的旋转矩阵，T为摄像机的平移矩阵，X为人脸区域、手部区域和彩色图像的真实空间特征点坐标。

所述步骤(3)中手势识别模块识别手势具体包括：首先调用Kinect V2 SDK中的drawSkeleton函数获取最新一帧人体骨骼数据HSD₁，通过whichone变量实时获取人体的ELBOW_RIGHT、SHOULDER_RIGHT、HAND_RIGHT和HAND_TIP_RIGHT四点的骨骼三维坐标数据，并将这四个点的骨骼数据依次作为右小臂轴节点A₁(X_a1,Y_a1,Z_a1)、右肩节点S₁(X_s1,Y_s1,Z_s1)、右手掌中心节点H₁(X_h1,Y_h1,Z_h1)和右手掌指尖点F₁(X_f1,Y_f1,Z_f1)，根据式(1)计算节点H₁与节点F₁之间的欧氏距离d₁，

然后计算出以d₁为半径的圆的面积C₁，根据式(1)计算节点A₁、节点S₁和节点H₁之间的任意两点欧氏距离，分别记为d_as1、d_ah1和d_sh1，并根据式(2)计算出这三点所围成三角形的面积T₁，

T＝sqrt(p×(p-d_as)×(p-d_ah)×(p-d_sh)) (2)

其中p为

经过时间t之后，t的取值范围为[0.5,2]，单位为秒，此处取值为1秒，调用Kinect V2 SDK中的drawSkeleton函数再获取最新一帧人体骨骼数据HSD₂，通过whichone变量实时获取人体的ELBOW_RIGHT、SHOULDER_RIGHT、HAND_RIGHT和HAND_TIP_RIGHT四点的骨骼三维坐标数据，并将这四个点的骨骼数据依次作为右小臂轴节点A₂(X_a2,Y_a2,Z_a2)、右肩节点S₂(X_s2,Y_s2,Z_s2)、右手掌中心节点H₂(X_h2,Y_h2,Z_h2)和右手掌指尖点F₂(X_f2,Y_f2,Z_f2)，根据式(1)计算节点H₂与节点F₂之间的欧氏距离d₂，然后计算出以d₂为半径的圆的面积C₂，根据式(1)计算节点A₂、节点S₂和节点H₂之间的任意两点欧氏距离，记为d_as2、d_ah2和d_sh2，并根据式(2)计算出这三点所围成三角形的面积T₂；最后判断手势类型，若三角形面积T₂和三角形面积T₁满足T₂<α×T₁，α取值范围为[0.5,0.9]，此处取值为0.7，则判定为挥手手势；若圆的面积C₂和圆的面积C₁满足C₂<β×C₁，β的取值范围为[0.2,0.8]，此处取值为0.5，则判定为握拳手势。

步骤(4)具体包括：

虚拟物体叠加模块在视频图像中心位置叠加文字“谢谢体验！”，送至视频输出单元显示，结束本次增强现实交互显示。

Claims

1.一种基于增强现实的交互显示方法，其特征在于：所述方法包括以下步骤：

步骤1：检测并显示当前视觉感知单元采集到的原始视频；跟踪目标对象；若持续跟踪到该目标对象的时间大于t₁，则进行步骤2，否则重复执行步骤1；t₁的取值范围为[1,3]，单位为秒；

步骤2：对从声音输入输出单元采集的语音进行识别，根据识别的语音指令选择增强现实模式并进行步骤3；

步骤3：手势识别模块使用基于人体骨骼数据的快速手势识别方法检测挥手动作和握拳动作，包括获取最新一帧人体骨骼数据HSD₁的右小臂轴节点A₁(X_a1,Y_a1,Z_a1)、右肩节点S₁(X_s1,Y_s1,Z_s1)、右手掌中心节点H₁(X_h1,Y_h1,Z_h1)和右手掌指尖点F₁(X_f1,Y_f1,Z_f1)，将以节点H₁与节点F₁之间的欧氏距离为半径所组成圆的面积记为C₁，将以节点A₁、节点S₁和节点H₁所围成三角形的面积记为T₁；经过时间t之后，再获取最新一帧人体骨骼数据HSD₂的右小臂轴节点A₂(X_a2,Y_a2,Z_a2)、右肩节点S₂(X_s2,Y_s2,Z_s2)、右手掌中心节点H₂(X_h2,Y_h2,Z_h2)和右手掌指尖点F₂(X_f2,Y_f2,Z_f2)，将以节点H₂与节点F₂之间的欧氏距离为半径所围成圆的面积记为C₂，将以节点A₂、节点S₂和节点H₂所围成三角形的面积记为T₂；最后判断手势类型，若三角形面积T₂和三角形面积T₁满足T₂<α×T₁，则判定为挥手手势；若圆的面积C₂和圆的面积C₁满足C₂<β×C₁，则判定为握拳手势；其中t的取值范围为[0.5,2]，单位为秒，α取值范围为[0.5,0.9]，β的取值范围为[0.2,0.8]；

将手势识别对应的虚拟物体切换指令发送给虚拟物体叠加模块叠加虚拟效果，若跟踪到当前目标对象且有新的语音指令，则返回步骤2，否则若跟踪到当前目标对象且无新的语音指令，则重复执行当前步骤3，其它情况，执行步骤4；

步骤4：结束增强现实交互显示。

2.根据权利要求1所述的一种基于增强现实的交互显示方法，其特征在于：所述步骤1中，目标定位模块使用深度卷积神经网络模型对视觉感知单元采集的彩色视频图像进行人形目标的检测；利用采集的深度图像选取距离视觉感知单元最近的人形目标作为目标对象。

3.根据权利要求1所述的一种基于增强现实的交互显示方法，其特征在于：所述步骤2中，增强现实模式包括面部增强模式、手部增强模式和环境增强模式，所述步骤3中的虚拟效果包括分别对应面部增强模式、手部增强模式和环境增强模式的虚拟面部效果、虚拟手部效果和虚拟环境效果。

4.根据权利要求3所述的一种基于增强现实的交互显示方法，其特征在于：步骤3叠加所述虚拟面部效果包括以下步骤：

步骤3.1.1：目标定位模块使用深度卷积神经网络模型检测目标对象的人脸区域，若检测到，则计算真实空间的人脸区域坐标和虚拟空间的人脸区域坐标的三维注册关系，进行下一步，若未检测到人脸区域，则进行步骤3.1.3；

步骤3.1.2：手势识别模块使用基于人体骨骼数据的快速手势识别方法检测挥手动作和握拳动作；若检测到挥手动作，则将挥手动作对应的虚拟物体切换指令发送至虚拟物体叠加模块，虚拟物体叠加模块将下一张虚拟脸谱叠加到视频图像中，显示叠加后的图像，重复步骤3.1.2；若检测到握拳动作，则将握拳动作所对应的确认叠加指令传给虚拟物体叠加模块，虚拟物体叠加模块根据确定的三维注册关系，将当前已选择的虚拟脸谱叠加在跟踪的人脸区域上，将增强现实后的视频图像进行显示；若未检测到挥手动作或握拳动作，则进行下一步；

步骤3.1.3：若跟踪到当前目标对象且有新的语音指令，则返回步骤2；若跟踪到当前目标对象且无新的语音指令，则重复执行步骤3.1.1至步骤3.1.3；其它情况进行步骤4。

5.根据权利要求3所述的一种基于增强现实的交互显示方法，其特征在于：步骤3叠加所述虚拟手部效果包括以下步骤：

步骤3.2.1：目标定位模块使用深度卷积神经网络模型检测目标对象中的手掌区域，若检测到，则计算真实空间手掌区域坐标和虚拟空间手掌区域坐标的三维注册关系，进行下一步，若未检测到手掌区域，则进行步骤3.2.3；

步骤3.2.2：手势识别模块使用基于人体骨骼数据的快速手势识别方法检测挥手动作和握拳动作，若检测到挥手动作，则将挥手动作对应的虚拟物体切换指令发送给虚拟物体叠加模块，虚拟物体叠加模块将下一个效果虚拟模型叠加到视频图像中，显示叠加后的图像，重复步骤3.2.2；若检测到握拳动作，则将握拳动作所对应的确认叠加指令传给虚拟物体叠加模块，虚拟物体叠加模块根据三维注册模块所确定的三维注册关系，将当前已选择的效果虚拟模型叠加在目标定位模块跟踪的手掌区域上，最后虚拟物体叠加模块将增强现实后视频图像进行输送显示；若未检测到挥手或握拳动作，则进行下一步；

步骤3.2.3：若跟踪到当前目标对象且有新的语音指令，则返回步骤2；若跟踪到当前目标对象且无新的语音指令，则重复执行步骤3.2.1至步骤3.2.3；其它情况进行步骤4。

6.根据权利要求3所述的一种基于增强现实的交互显示方法，其特征在于：步骤3叠加所述虚拟环境效果包括以下步骤：

步骤3.3.1：计算真实空间全局图像坐标和虚拟空间全局图像坐标的三维注册关系；

步骤3.3.2：手势识别模块使用基于人体骨骼数据的快速手势识别方法检测挥手动作和握拳动作，若检测到挥手动作，则将挥手动作对应的虚拟物体切换指令发送给虚拟物体叠加模块，虚拟物体叠加模块将下一个虚拟环境模型叠加到视频图像中，显示叠加后的图像，重复步骤3.3.2；若检测到握拳动作，则将握拳动作所对应的确认叠加指令传给虚拟物体叠加模块，虚拟物体叠加模块根据三维注册模块所确定的三维注册关系，将当前已选择的虚拟环境模型叠加在视频图像的全局区域中，并同时将对应的声音送至声音输入输出单元播放；若未检测到挥手或握拳动作，则进行下一步；

步骤3.3.3：若跟踪到当前目标对象且有新的语音指令，则返回步骤2；若跟踪到当前目标对象且无新的语音指令，则重复执行步骤3.3.2至步骤3.3.3；其它情况进行步骤4。

7.根据权利要求4或5或6所述的一种基于增强现实的交互显示方法，其特征在于：对人脸区域或手掌区域或彩色图像进行特征提取并计算特征点的特征量，以相似度计算法进行特征量匹配，得到匹配的特征点数据坐标X，然后计算出摄像机的旋转矩阵R和平移矩阵T，由Y＝K[R|T]X计算出人脸区域或手掌区域或彩色图像在虚拟空间的投影坐标，得到真实空间坐标与虚拟空间坐标的三维注册关系，其中，Y为虚拟空间坐标，K为摄像机的内参，R为摄像机的旋转矩阵，T为摄像机的平移矩阵，X为人脸区域或手掌区域或彩色图像的真实空间特征点坐标。

8.一种采用权利要求1～7之一所述的基于增强现实的交互显示方法的交互显示装置，其特征在于：所述装置包括：

一视觉感知单元，用于获取彩色图像、深度图像和人体姿态数据；

一声音输入输出单元，用于进行声音的输入和输出；

一视频输出单元，用于呈现用户所选择的交互界面和虚拟物体叠加后的图像；

一增强现实处理单元，用于接收来自视觉感知单元的人体姿态数据和声音输入输出单元的声音的输入，对接收到的数据进行增强现实处理，并将声音处理结果通过声音输入输出单元输出，将图像处理结果通过视频输出单元输出。

9.根据权利要求8所述的一种基于增强现实的交互显示方法的交互显示装置，其特征在于：所述增强现实处理单元包括：

一语音识别模块，用于识别用户的语音；

一手势识别模块，用于识别手掌的形状变化和运动姿势；

一目标定位模块，用于通过对目标对象的识别与跟踪来确定被增强的目标对象在图像中的位置；

一三维注册模块，用于获得真实空间物体坐标和虚拟物体坐标的三维注册关系；

一虚拟物体叠加模块，用于接收来自语音识别模块和手势识别模块的指令及三维注册模块得到的三维注册关系，根据指令和三维注册关系将虚拟物体叠加到目标定位模块所定位的目标对象上。