CN109976519B - 一种基于增强现实的交互显示装置及其交互显示方法 - Google Patents

一种基于增强现实的交互显示装置及其交互显示方法 Download PDF

Info

Publication number
CN109976519B
CN109976519B CN201910192408.6A CN201910192408A CN109976519B CN 109976519 B CN109976519 B CN 109976519B CN 201910192408 A CN201910192408 A CN 201910192408A CN 109976519 B CN109976519 B CN 109976519B
Authority
CN
China
Prior art keywords
virtual
augmented reality
module
virtual object
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910192408.6A
Other languages
English (en)
Other versions
CN109976519A (zh
Inventor
朱威
何全林
陈悦峰
吴远
陈朋
郑雅羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910192408.6A priority Critical patent/CN109976519B/zh
Publication of CN109976519A publication Critical patent/CN109976519A/zh
Application granted granted Critical
Publication of CN109976519B publication Critical patent/CN109976519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/012Walk-in-place systems for allowing a user to walk in a virtual environment while constraining him to a given position in the physical environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/08Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation

Abstract

本发明涉及一种基于增强现实的交互显示装置及其交互显示方法,所述装置包括:视觉感知单元、声音输入输出单元、增强现实处理单元和视频输出单元,其中增强现实处理单元包括语音识别模块、手势识别模块、目标定位模块、三维注册模块、虚拟物体叠加模块。所述方法检测并显示采集到的原始视频;跟踪目标对象;当持续跟踪到目标对象的时间大于T1时,对从声音输入输出单元采集的语音进行识别,根据识别的语音指令选择增强现实模式,叠加虚拟效果,根据是否跟踪到当前目标对象及是否有新的语音指令进行增强现实模式选择、继续叠加虚拟效果或结束增强现实交互显示。本发明充分利用了增强现实技术和人工智能技术,有效地提升了交互显示的用户体验。

Description

一种基于增强现实的交互显示装置及其交互显示方法
技术领域
本发明涉及增强现实(Augmented Reality,AR)领域,具体涉及一种基于增强现实的交互显示装置及其交互显示方法。
背景技术
随着信息科技的发展,人们对现实的感官体验方式不断发生变化。近些年来,AR技术逐渐得到人们广泛的关注,它将原本在现实世界一定时间空间范围内很难体验到的实体信息,通过计算机技术模拟后,在显示屏幕上把虚拟景象叠加到现实场景中,从而达到超越现实的感官体验。目前,AR技术已逐渐应用于游戏、商业、工业、建筑、教育、医疗等各个领域,例如京东推出的试衣镜、Niantic推出的AR游戏《PokémonGO》、以及谷歌发布的AR眼镜等。
目前市面上基于增强现实的娱乐应用大多还是基于手机APP,关于增强现实的实体显示系统还很少,交互功能还有很大的提升空间。申请号为201610785808.4的专利公开了一种互动魔镜广告机。该专利主要通过摄像头采集用户和周围的图像信息并在魔镜上显示,用户可以通过声音与魔镜进行显示界面切换,并且可以通过手机切换广告机的显示界面,还可以通过调节背光模组来调节魔镜的显示亮度。但是该互动魔镜系统并没有在实际图像内容上进行增强显示,本质上还只是对现实景象的捕获显示,并没有达到AR的效果。申请号为201710766223.2的专利公开了一种AR一体机。该一体机主要包括桌体、显示屏、主机、投影仪、识别模块和虚拟输入设备,实现了将现实中的文字图片等转化为虚拟模型并在计算机中展示,但是交互方式过于单一,并且该装置增强现实对象仅限于文字图片,没有用户本身的AR体验。申请号为201810171782.3的专利公开了一种增强现实的AR透明显示互动系统,该系统虽然可以实现AR显示效果,给用户提供了透明感官的体验,但是该系统并不能对用户本身(即LED屏前的实景)进行增强现实,人机交互的娱乐性还可以进一步提升。申请号为201621483605.1的专利公开了一种基于AR技术的旅游景区涂色玩具,该专利主要是对绘画图像进行扫描识别,然后将AR数据库中存储的相应虚拟内容显示在所述动终端的显示器中,再与游人进行交互。虽然该专利能增强游客的真实体验感,但是应用范围比较局限,增强的实景内容和交互方式也还比较单一。
为了解决上述AR系统交互方式单一的缺点,增加虚拟物体的可选择性,本发明在现有技术上的基础上,提供了一种基于增强现实的交互显示装置及其交互显示方法,不仅可以给现实景象添加虚拟对象,还可以通过手势、语音等多种方式进行交互显示,从而给用户带来良好的交互体验,适用于人流较多的各种场所。
发明内容
为了给用户带来良好的感官体验和交互感,本发明提供了一种基于增强现实的交互显示装置及其交互显示方法。
所述的一种基于增强现实的交互显示装置,包括:视觉感知单元、声音输入输出单元、增强现实处理单元、视频输出单元。其中增强现实处理单元包括语音识别模块、手势识别模块、目标定位模块、三维注册模块、虚拟物体叠加模块。
所述的增强现实处理单元由高性能计算机组成,该单元接收来自视觉感知单元的彩色图像、深度图像和人体姿态数据;接收来自声音输入输出单元的现场语音输入数据;对接收到的数据进行增强现实处理;将经过增强现实处理的彩色视频图像输出到视频显示单元,以及将与增强现实图像对应的音频数据输出到声音输入输出单元。
所述的视觉感知单元由体感相机组成,该相机除了可以获取彩色视频图像和深度图像外,还可以获取人体在深度图像中的位置、人体骨架的三维坐标等人体姿态数据。
所述的视频输出单元由高清显示屏构成,该显示屏直接呈现用户所选择的交互界面和虚拟物体叠加后的图像。
所述的声音输入输出单元由全向麦克风组成,可同时进行声音的输入和输出,具有回音消除和噪声抑制的功能,以提高增强现实处理单元中语音识别模块的准确度。
增强现实处理单元是本发明装置的核心,下面进一步说明其各个模块所执行的功能:
(1)语音识别模块
所述语音识别模块用于识别用户的语音,用户通过语音与本发明装置进行交互,用于选择虚拟物体叠加模块的增强现实模式,即通过语音在脸部增强模式、手部增强模式、环境增强模式这三种模式之间进行切换。进一步,语音识别模块实时检测语音,当检测到“我要变脸”、“我要火焰”、“我要雨雪”中的一种,就将对应的指令发给到虚拟物体叠加模块,从而进入对应的模式;对于检测到的其它语音,不向虚拟物体叠加模块发送任何指令。
(2)手势识别模块
所述手势识别模块主要用于识别手掌的形状变化和运动姿势,用户通过手势与本发明装置进行交互。进一步,手势识别模块使用基于人体骨骼数据的快速手势识别方法检测握拳和挥手这两个手势,并将这些手势变化所对应的指令发送到虚拟物体叠加模块。所述的手势指令用于虚拟物体叠加模块在当前增强现实模式下选择具体的虚拟物体类型。
(3)目标定位模块
所述的目标定位模块通过对目标对象的识别与跟踪来确定被增强的目标对象在图像中的位置。该模块首先采用深度卷积神经网络模型对彩色视频图像进行人形目标检测;然后使用深度图像选取距离视觉感知单元最近的人形目标作为目标对象;接着采用深度卷积神经网络模型对目标对象进行人脸区域和手掌区域的检测;最后采用KCF滤波算法对目标对象进行持续的跟踪。
(4)三维注册模块
所述三维注册模块的功能是为了获得真实空间物体坐标和虚拟物体坐标的三维注册关系。该模块首先对目标定位模块所定位的目标对象区域采用ORB算法提取特征点,所述的目标对象区域包括人脸区域和手掌区域;然后计算其特征量并进行特征量匹配;接着根据特征量匹配的结果,从输入图像提取的特征点的图像坐标计算出摄像机的旋转和平移矩阵,得到虚拟空间坐标和真实空间坐标的三维注册关系;最后将三维注册关系输送到虚拟物体叠加模块。
(5)虚拟物体叠加模块
所述虚拟物体叠加模块接收来自语音识别模块和手势识别模块的指令和三维注册模块得到的三维注册关系。虚拟物体叠加模块在初始时就使用三维渲染引擎生成所有增强现实模式下的全部虚拟物体,以便加快叠加速度,提升交互响应。进一步,在脸部增强模式下,虚拟物体包括“京剧脸谱”、“钢铁侠脸谱”和“熊猫脸谱”,默认为“京剧脸谱”;在手部增强模式下,虚拟物体包括“红色火焰”和“蓝色火焰”,默认为“红色火焰”;在环境增强模式下,虚拟物体包括“雪花”、“雨水”和“雷电”,相对应虚拟物体的声音为“风声”、“雨声”和“雷鸣声”,默认为“雪花”及“风声”。当手势识别模块选定具体的虚拟物体之后,虚拟物体叠加模块根据三维注册模块所确定的三维注册关系将虚拟物体叠加到目标定位模块所定位的目标对象上,最后将叠加后的增强现实视频图像输送至视频输出单元进行显示。
为了解决现有显示系统中增强现实交互形式单一的问题,本发明提供一种基于增强现实的交互显示装置的交互显示方法,具体包括以下步骤:
(1)检测与跟踪目标对象
交互显示装置初始处于普通显示模式,视频输出单元不显示任何虚拟物体特效,只显示当前视觉感知单元采集到的原始视频,犹如一面普通的镜子;目标定位模块对视觉感知单元采集的彩色视频图像进行人形目标的检测,利用采集的深度图像选取距离视觉感知单元最近的人形目标作为目标对象,若持续跟踪到该目标对象的时间大于t1,则跳到下一步,否则重复执行目标对象的检测与跟踪;t1的取值范围为[1,3],单位为秒。
(2)选择增强现实模式
语音识别模块对从声音输入输出单元采集的语音进行识别,等待语音指令以选择具体的增强现实模式,具体方式如下:
若识别到语音指令“我要换脸”,则选择脸部增强模式;若识别到语音指令“我要火焰”,则选择手部增强模式;若识别到语音指令“我要雨雪”,则选择环境增强模式;若目标定位模块对当前的目标对象跟踪丢失,则跳到步骤(4),否则重复执行当前步骤,等待语音指令。
(3)叠加虚拟效果:
虚拟物体叠加模块根据增强现实模式叠加虚拟效果,虚拟物体叠加模块和目标定位模块、手势识别模块、三维注册模块、语音识别模块协同工作,将当前增强现实模式对应的虚拟效果叠加到视频图像,并将叠加后的视频图像送至视频输出单元显示,具体步骤如下:
(3-1)若当前的增强现实模式为脸部增强模式,则执行以下步骤:
(3-1-1)目标定位模块检测目标对象中的人脸区域,若检测到,则三维注册模块计算出真实空间人脸区域坐标和虚拟空间人脸区域坐标的三维注册关系,并且进行下一步,若未检测到人脸区域,则跳到步骤(3-1-3);
(3-1-2)手势识别模块检测挥手动作和握拳动作,若检测到挥手动作,则将挥手动作对应的虚拟物体切换指令发送给虚拟物体叠加模块,虚拟物体叠加模块将下一张脸谱叠加到视频图像中,并将叠加后的图像送至视频输出单元显示,以供用户选择;若检测到握拳动作,则将握拳动作所对应的确认叠加指令传给虚拟物体叠加模块,虚拟物体叠加模块根据三维注册模块所确定的三维注册关系,将当前已选择的虚拟脸谱叠加在目标定位模块跟踪的人脸区域上,最后虚拟物体叠加模块将增强现实后视频图像输送给视频输出单元进行显示;若未检测到挥手或握拳动作,则进行下一步;
(3-1-3)目标定位模块对当前目标对象进行跟踪,语音识别模块对从声音输入输出单元采集的当前语音进行识别;若跟踪到当前目标对象且有新的语音指令,则返回步骤(2);若跟踪到当前目标对象且无新的语音指令,则重复执行步骤(3-1-1)至步骤(3-1-3);其它情况进行步骤(4)。
(3-2)若当前的增强现实模式为手部增强模式,则执行以下步骤:
(3-2-1)目标定位模块检测目标对象中的手掌区域,若检测到,则三维注册模块计算出真实空间手掌区域坐标和虚拟空间手掌区域坐标的三维注册关系,并且进行下一步,若未检测到手掌区域,则跳到步骤(3-2-3);
(3-2-2)手势识别模块检测挥手动作和握拳动作,若检测到挥手动作,则将挥手动作对应的虚拟物体切换指令发送给虚拟物体叠加模块,虚拟物体叠加模块将下一个火焰虚拟模型叠加到视频图像中,并将叠加后的图像送至视频输出单元显示,以供用户选择;若检测到握拳动作,则将握拳动作所对应的确认叠加指令传给虚拟物体叠加模块,虚拟物体叠加模块根据三维注册模块所确定的三维注册关系,将当前已选择的虚拟火焰模型叠加在目标定位模块跟踪的手掌区域上,最后虚拟物体叠加模块将增强现实后视频图像输送给视频输出单元进行显示;若未检测到挥手或握拳动作,则进行下一步;
(3-2-3)目标定位模块对当前目标对象进行跟踪,语音识别模块对从声音输入输出单元采集的当前语音进行识别;若跟踪到当前目标对象且有新的语音指令,则返回步骤(2);若跟踪到当前目标对象且无新的语音指令,则重复执行步骤(3-2-1)至步骤(3-2-3);其它情况进行步骤(4)。
(3-3)若当前的增强现实模式为环境增强模式,则执行以下步骤:
(3-3-1)三维注册模块计算出真实空间全局图像坐标和虚拟空间全局图像坐标的三维注册关系;
(3-3-2)手势识别模块检测挥手动作和握拳动作,若检测到挥手动作,则将挥手动作对应的虚拟物体切换指令发送给虚拟物体叠加模块,虚拟物体叠加模块将下一个该模式下虚拟模型叠加到视频图像中,并将叠加后的图像送至视频输出单元显示,以供用户选择;若检测到握拳动作,则将握拳动作所对应的确认叠加指令传给虚拟物体叠加模块,虚拟物体叠加模块根据三维注册模块所确定的三维注册关系,将当前已选择的虚拟模型叠加在视频图像的全局区域中,并同时将对应的声音送至声音输入输出单元播放;若未检测到挥手或握拳动作,则进行下一步;
(3-3-3)目标定位模块对当前目标对象进行跟踪,语音识别模块对从声音输入输出单元采集的当前语音进行识别;若跟踪到当前目标对象且有新的语音指令,则返回步骤(2);若跟踪到当前目标对象且无新的语音指令,则重复执行步骤(3-3-2)至步骤(3-3-3);其它情况进行步骤(4)。
所述步骤(3)中三维注册模块计算三维注册关系具体包括:对人脸区域或手掌区域或彩色图像进行特征提取并计算特征点的特征量,以相似度计算法进行特征量匹配,得到匹配的特征点数据坐标X,然后计算出摄像机的旋转矩阵R和平移矩阵T,由Y=K[R|T]X计算出人脸区域或手掌区域或彩色图像在虚拟空间的投影坐标,得到真实空间坐标与虚拟空间坐标的三维注册关系,其中,Y为虚拟空间坐标,K为摄像机的内参,R为摄像机的旋转矩阵,T为摄像机的平移矩阵,X为人脸区域或手掌区域或彩色图像的真实空间特征点坐标。
所述步骤(3)中手势识别模块使用基于人体骨骼数据的手势识别方法,具体包括:首先获取最新一帧人体骨骼数据HSD1的右小臂轴节点A1(Xa1,Ya1,Za1)、右肩节点S1(Xs1,Ys1,Zs1)、右手掌中心节点H1(Xh1,Yh1,Zh1)和右手掌指尖点F1(Xf1,Yf1,Zf1),将以节点H1与节点F1之间的欧氏距离为半径所组成圆的面积记为C1,将以节点A1、节点S1和节点H1所围成三角形的面积记为T1;经过时间t之后,再获取最新一帧人体骨骼数据HSD2的右小臂轴节点A2(Xa2,Ya2,Za2)、右肩节点S2(Xs2,Ys2,Zs2)、右手掌中心节点H2(Xh2,Yh2,Zh2)和右手掌指尖点F2(Xf2,Yf2,Zf2),将以节点H2与节点F2之间的欧氏距离为半径所围成圆的面积记为C2,将以节点A2、节点S2和节点H2所围成三角形的面积记为T2;最后判断手势类型,若三角形面积T2和三角形面积T1满足T2<α×T1,则判定为挥手手势;如果圆的面积C2和圆的面积C1满足C2<β×C1,则判定为握拳手势;其中t的取值范围为[0.5,2],单位为秒,α取值范围为[0.5,0.9],β的取值范围为[0.2,0.8]。
(4)结束增强现实交互显示:
虚拟物体叠加模块在视频图像中叠加代表结束本次增强现实交互显示的文字,送至视频输出单元显示。
本发明与现有技术相比,有以下有益效果:
视觉感知单元采用体感相机识别用户的身体运动姿态;用户可以通过手势、语音等交互方式选择要叠加的虚拟对象;当检测到用户所做的某个手势动作时,自动叠加虚拟模型,加大了虚拟对象叠加的灵活性,用户亲身参与的交互方式也增加了体验乐趣。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要的附图做简单的介绍:
图1为本发明增强现实交互显示装置的装置简图,其中,1为相机,2为显示屏,3为全向麦克风,4为高性能计算机;
图2为本发明增强现实交互显示装置的单元框图,其中,空心箭头表示单元间信息传递的过程,实心箭头表示增强现实单元中的数据传递过程;
图3为本发明增强现实交互显示装置的方法流程图。
图4为本发明增强现实交互显示装置的手势示意图,其中,左上图和右上图为挥手示意,左下图和右下图为握拳示意。
具体实施方式
下面结合实施例和附图来详细描述本发明,但本发明并不仅限于此。图2是本发明交互显示装置的单元框图,其中包括:视觉感知单元、声音输入输出单元、增强现实处理单元、视频输出单元。其中增强现实单元是整个装置的核心部分,包括语音识别模块、手势识别模块、目标定位模块、三维注册模块、虚拟物体叠加模块。增强现实单元与视觉感知单元,声音输入输出单元、视频输出单元相连。增强现实单元接收来自视觉感知单元、声音输入输出单元的数据,对接收的数据进行增强现实处理,将经过增强现实处理的彩色视频图像输出到视频输出单元。
具体地,视觉感知单元由微软体感相机Kinect V2组成,该相机可以采集彩色图像、深度图像和人体姿态数据,其中彩色图像分辨率设为1920×1080,深度图像分辨率设为512×424。
声音输入输出单元由YZHNMSOO M31全向麦克风组成,该全向麦克风内置高性能DSP芯片,具有回音消除和抑制噪音的功能。
增强现实处理单元由高性能计算机组成,该计算机CPU型号为i7 8700k,显卡型号为GTX1080TI,内存为32G DDR4,该单元通过HDMI接口与视频输出单元相接,分别通过USB接口与视觉采集单元和声音输入输出单元相接。
视频输出单元为32寸4K LCD液晶显示屏。
在增强现实单元中,语音识别模块采用科大讯飞的语音识别SDK识别声音输入输出单元送过来的语音指令;手势识别模块采用基于人体骨骼数据的快速识别方法识别挥手和握拳动作;目标定位模块主要是调用Kinect V2 SDK获得彩色视频图像和深度图像、采用深度卷积神经网络模型YOLO V3检测人形目标、人脸和手掌,并使用KCF算法对人形目标进行跟踪;三维注册模块使用基于ORB算法的三维注册方法计算出目标对象的坐标在真实空间坐标和虚拟空间坐标之间的关系,并将三维注册关系输出给虚拟物体叠加模块;虚拟物体叠加模块采用Unity三维渲染引擎产生虚拟物体模型,根据由三维注册模块得到的三维注册关系将虚拟物体叠加在目标对象上,并将增强现实后的视频图像输出至视觉输出单元。
图3是本发明交互装置的交互显示方法流程图,一次增强现实交互显示流程包括以下步骤:
(1)检测与跟踪目标对象;
(2)选择增强现实模式;
(3)叠加虚拟效果;
(4)结束增强现实交互显示。
步骤(1)具体包括:
目标定位模块对视觉感知单元采集的彩色视频图像进行人形目标的检测,利用采集的深度图像选取距离视觉感知单元最近的人形目标作为目标对象,若持续跟踪到该目标对象的时间大于t1,则跳到下一步,否则重复执行目标对象的检测与跟踪;t1的取值范围为[1,3],此处取值为2秒。
步骤(2)具体包括:
语音识别模块对从声音输入输出单元采集的语音进行识别,若识别到语音指令“我要换脸”,则选择脸部增强模式;若识别到语音指令“我要火焰”,则选择手部增强模式;若识别到语音指令“我要雨雪”,则选择环境增强模式;若目标定位模块对当前的目标对象跟踪丢失,则跳到步骤(4),否则重复执行当前步骤,等待语音指令。
步骤(3)具体包括:
(3-1)若当前的增强现实模式为脸部增强模式,则执行以下步骤:
(3-1-1)目标定位模块检测目标对象中的人脸区域,若检测到,则三维注册模块计算出真实空间人脸区域坐标和虚拟空间人脸区域坐标的三维注册关系,并且进行下一步,若未检测到人脸区域,则跳到步骤(3-1-3);
(3-1-2)手势识别模块检测挥手动作和握拳动作,若检测到挥手动作,则将挥手动作对应的虚拟物体切换指令发送给虚拟物体叠加模块,虚拟物体叠加模块将下一张脸谱叠加到视频图像中,并将叠加后的图像送至视频输出单元显示,以供用户选择;若检测到握拳动作,则将握拳动作所对应的确认叠加指令传给虚拟物体叠加模块,虚拟物体叠加模块根据三维注册模块所确定的三维注册关系,将当前已选择的虚拟脸谱叠加在目标定位模块跟踪的人脸区域上,最后虚拟物体叠加模块将增强现实后视频图像输送给视频输出单元进行显示;若未检测到挥手或握拳动作,则进行下一步;
(3-1-3)目标定位模块对当前目标对象进行跟踪,语音识别模块对从声音输入输出单元采集的当前语音进行识别;若跟踪到当前目标对象且有新的语音指令,则返回步骤(2);若跟踪到当前目标对象且无新的语音指令,则重复执行步骤(3-1-1)至步骤(3-1-3);其它情况进行步骤(4)。
(3-2)若当前的增强现实模式为手部增强模式,则执行以下步骤:
(3-2-1)目标定位模块检测目标对象中的手掌区域,若检测到,则三维注册模块计算出真实空间手掌区域坐标和虚拟空间手掌区域坐标的三维注册关系,并且进行下一步,若未检测到手掌区域,则跳到步骤(3-2-3);
(3-2-2)手势识别模块检测挥手动作和握拳动作,若检测到挥手动作,则将挥手动作对应的虚拟物体切换指令发送给虚拟物体叠加模块,虚拟物体叠加模块将下一个火焰虚拟模型叠加到视频图像中,并将叠加后的图像送至视频输出单元显示,以供用户选择;若检测到握拳动作,则将握拳动作所对应的确认叠加指令传给虚拟物体叠加模块,虚拟物体叠加模块根据三维注册模块所确定的三维注册关系,将当前已选择的虚拟火焰模型叠加在目标定位模块跟踪的手掌区域上,最后虚拟物体叠加模块将增强现实后视频图像输送给视频输出单元进行显示;若未检测到挥手或握拳动作,则进行下一步;
(3-2-3)目标定位模块对当前目标对象进行跟踪,语音识别模块对从声音输入输出单元采集的当前语音进行识别;若跟踪到当前目标对象且有新的语音指令,则返回步骤(2);若跟踪到当前目标对象且无新的语音指令,则重复执行步骤(3-2-1)至步骤(3-2-3);其它情况进行步骤(4)。
(3-3)若当前的增强现实模式为环境增强模式,则执行以下步骤:
(3-3-1)三维注册模块计算出真实空间全局图像坐标和虚拟空间全局图像坐标的三维注册关系;
(3-3-2)手势识别模块检测挥手动作和握拳动作,若检测到挥手动作,则将挥手动作对应的虚拟物体切换指令发送给虚拟物体叠加模块,虚拟物体叠加模块将下一个该模式下虚拟模型叠加到视频图像中,并将叠加后的图像送至视频输出单元显示,以供用户选择;若检测到握拳动作,则将握拳动作所对应的确认叠加指令传给虚拟物体叠加模块,虚拟物体叠加模块根据三维注册模块所确定的三维注册关系,将当前已选择的虚拟模型叠加在视频图像的全局区域中,并同时将对应的声音送至声音输入输出单元播放;若未检测到挥手或握拳动作,则进行下一步;
(3-3-3)目标定位模块对当前目标对象进行跟踪,语音识别模块对从声音输入输出单元采集的当前语音进行识别;若跟踪到当前目标对象且有新的语音指令,则返回步骤(2);若跟踪到当前目标对象且无新的语音指令,则重复执行步骤(3-3-2)至步骤(3-3-3);其它情况进行步骤(4)。
所述步骤(3)中三维注册模块计算三维注册关系具体包括:使用OpenCV库中的ORB算法函数对人脸区域或手掌区域或彩色图像进行特征提取,得到对应的特征点数据坐标并计算出人脸目标特征点的特征量,对人脸区域或手掌区域或彩色图像进行特征提取并计算特征点的特征量,以基于汉明距离的相似度计算法进行特征量匹配,得到匹配的特征点数据坐标X,然后使用OpenCV库中的SolvePnP函数计算摄像机的旋转矩阵R和平移矩阵T,从而得到人脸区域或手掌区域或彩色图像真实空间坐标和虚拟空间坐标的三维注册关系,由式Y=K[R|T]X计算出到人脸区域或手掌区域或彩色图像在虚拟空间的投影坐标,得到真实空间坐标与虚拟空间坐标的三维注册关系,其中Y为虚拟空间坐标,K为摄像机的内参,R为摄像机的旋转矩阵,T为摄像机的平移矩阵,X为人脸区域、手部区域和彩色图像的真实空间特征点坐标。
所述步骤(3)中手势识别模块识别手势具体包括:首先调用Kinect V2 SDK中的drawSkeleton函数获取最新一帧人体骨骼数据HSD1,通过whichone变量实时获取人体的ELBOW_RIGHT、SHOULDER_RIGHT、HAND_RIGHT和HAND_TIP_RIGHT四点的骨骼三维坐标数据,并将这四个点的骨骼数据依次作为右小臂轴节点A1(Xa1,Ya1,Za1)、右肩节点S1(Xs1,Ys1,Zs1)、右手掌中心节点H1(Xh1,Yh1,Zh1)和右手掌指尖点F1(Xf1,Yf1,Zf1),根据式(1)计算节点H1与节点F1之间的欧氏距离d1
Figure GDA0003544221820000161
然后计算出以d1为半径的圆的面积C1,根据式(1)计算节点A1、节点S1和节点H1之间的任意两点欧氏距离,分别记为das1、dah1和dsh1,并根据式(2)计算出这三点所围成三角形的面积T1
T=sqrt(p×(p-das)×(p-dah)×(p-dsh)) (2)
其中p为
Figure GDA0003544221820000171
经过时间t之后,t的取值范围为[0.5,2],单位为秒,此处取值为1秒,调用Kinect V2 SDK中的drawSkeleton函数再获取最新一帧人体骨骼数据HSD2,通过whichone变量实时获取人体的ELBOW_RIGHT、SHOULDER_RIGHT、HAND_RIGHT和HAND_TIP_RIGHT四点的骨骼三维坐标数据,并将这四个点的骨骼数据依次作为右小臂轴节点A2(Xa2,Ya2,Za2)、右肩节点S2(Xs2,Ys2,Zs2)、右手掌中心节点H2(Xh2,Yh2,Zh2)和右手掌指尖点F2(Xf2,Yf2,Zf2),根据式(1)计算节点H2与节点F2之间的欧氏距离d2,然后计算出以d2为半径的圆的面积C2,根据式(1)计算节点A2、节点S2和节点H2之间的任意两点欧氏距离,记为das2、dah2和dsh2,并根据式(2)计算出这三点所围成三角形的面积T2;最后判断手势类型,若三角形面积T2和三角形面积T1满足T2<α×T1,α取值范围为[0.5,0.9],此处取值为0.7,则判定为挥手手势;若圆的面积C2和圆的面积C1满足C2<β×C1,β的取值范围为[0.2,0.8],此处取值为0.5,则判定为握拳手势。
步骤(4)具体包括:
虚拟物体叠加模块在视频图像中心位置叠加文字“谢谢体验!”,送至视频输出单元显示,结束本次增强现实交互显示。

Claims (9)

1.一种基于增强现实的交互显示方法,其特征在于:所述方法包括以下步骤:
步骤1:检测并显示当前视觉感知单元采集到的原始视频;跟踪目标对象;若持续跟踪到该目标对象的时间大于t1,则进行步骤2,否则重复执行步骤1;t1的取值范围为[1,3],单位为秒;
步骤2:对从声音输入输出单元采集的语音进行识别,根据识别的语音指令选择增强现实模式并进行步骤3;
步骤3:手势识别模块使用基于人体骨骼数据的快速手势识别方法检测挥手动作和握拳动作,包括获取最新一帧人体骨骼数据HSD1的右小臂轴节点A1(Xa1,Ya1,Za1)、右肩节点S1(Xs1,Ys1,Zs1)、右手掌中心节点H1(Xh1,Yh1,Zh1)和右手掌指尖点F1(Xf1,Yf1,Zf1),将以节点H1与节点F1之间的欧氏距离为半径所组成圆的面积记为C1,将以节点A1、节点S1和节点H1所围成三角形的面积记为T1;经过时间t之后,再获取最新一帧人体骨骼数据HSD2的右小臂轴节点A2(Xa2,Ya2,Za2)、右肩节点S2(Xs2,Ys2,Zs2)、右手掌中心节点H2(Xh2,Yh2,Zh2)和右手掌指尖点F2(Xf2,Yf2,Zf2),将以节点H2与节点F2之间的欧氏距离为半径所围成圆的面积记为C2,将以节点A2、节点S2和节点H2所围成三角形的面积记为T2;最后判断手势类型,若三角形面积T2和三角形面积T1满足T2<α×T1,则判定为挥手手势;若圆的面积C2和圆的面积C1满足C2<β×C1,则判定为握拳手势;其中t的取值范围为[0.5,2],单位为秒,α取值范围为[0.5,0.9],β的取值范围为[0.2,0.8];
将手势识别对应的虚拟物体切换指令发送给虚拟物体叠加模块叠加虚拟效果,若跟踪到当前目标对象且有新的语音指令,则返回步骤2,否则若跟踪到当前目标对象且无新的语音指令,则重复执行当前步骤3,其它情况,执行步骤4;
步骤4:结束增强现实交互显示。
2.根据权利要求1所述的一种基于增强现实的交互显示方法,其特征在于:所述步骤1中,目标定位模块使用深度卷积神经网络模型对视觉感知单元采集的彩色视频图像进行人形目标的检测;利用采集的深度图像选取距离视觉感知单元最近的人形目标作为目标对象。
3.根据权利要求1所述的一种基于增强现实的交互显示方法,其特征在于:所述步骤2中,增强现实模式包括面部增强模式、手部增强模式和环境增强模式,所述步骤3中的虚拟效果包括分别对应面部增强模式、手部增强模式和环境增强模式的虚拟面部效果、虚拟手部效果和虚拟环境效果。
4.根据权利要求3所述的一种基于增强现实的交互显示方法,其特征在于:步骤3叠加所述虚拟面部效果包括以下步骤:
步骤3.1.1:目标定位模块使用深度卷积神经网络模型检测目标对象的人脸区域,若检测到,则计算真实空间的人脸区域坐标和虚拟空间的人脸区域坐标的三维注册关系,进行下一步,若未检测到人脸区域,则进行步骤3.1.3;
步骤3.1.2:手势识别模块使用基于人体骨骼数据的快速手势识别方法检测挥手动作和握拳动作;若检测到挥手动作,则将挥手动作对应的虚拟物体切换指令发送至虚拟物体叠加模块,虚拟物体叠加模块将下一张虚拟脸谱叠加到视频图像中,显示叠加后的图像,重复步骤3.1.2;若检测到握拳动作,则将握拳动作所对应的确认叠加指令传给虚拟物体叠加模块,虚拟物体叠加模块根据确定的三维注册关系,将当前已选择的虚拟脸谱叠加在跟踪的人脸区域上,将增强现实后的视频图像进行显示;若未检测到挥手动作或握拳动作,则进行下一步;
步骤3.1.3:若跟踪到当前目标对象且有新的语音指令,则返回步骤2;若跟踪到当前目标对象且无新的语音指令,则重复执行步骤3.1.1至步骤3.1.3;其它情况进行步骤4。
5.根据权利要求3所述的一种基于增强现实的交互显示方法,其特征在于:步骤3叠加所述虚拟手部效果包括以下步骤:
步骤3.2.1:目标定位模块使用深度卷积神经网络模型检测目标对象中的手掌区域,若检测到,则计算真实空间手掌区域坐标和虚拟空间手掌区域坐标的三维注册关系,进行下一步,若未检测到手掌区域,则进行步骤3.2.3;
步骤3.2.2:手势识别模块使用基于人体骨骼数据的快速手势识别方法检测挥手动作和握拳动作,若检测到挥手动作,则将挥手动作对应的虚拟物体切换指令发送给虚拟物体叠加模块,虚拟物体叠加模块将下一个效果虚拟模型叠加到视频图像中,显示叠加后的图像,重复步骤3.2.2;若检测到握拳动作,则将握拳动作所对应的确认叠加指令传给虚拟物体叠加模块,虚拟物体叠加模块根据三维注册模块所确定的三维注册关系,将当前已选择的效果虚拟模型叠加在目标定位模块跟踪的手掌区域上,最后虚拟物体叠加模块将增强现实后视频图像进行输送显示;若未检测到挥手或握拳动作,则进行下一步;
步骤3.2.3:若跟踪到当前目标对象且有新的语音指令,则返回步骤2;若跟踪到当前目标对象且无新的语音指令,则重复执行步骤3.2.1至步骤3.2.3;其它情况进行步骤4。
6.根据权利要求3所述的一种基于增强现实的交互显示方法,其特征在于:步骤3叠加所述虚拟环境效果包括以下步骤:
步骤3.3.1:计算真实空间全局图像坐标和虚拟空间全局图像坐标的三维注册关系;
步骤3.3.2:手势识别模块使用基于人体骨骼数据的快速手势识别方法检测挥手动作和握拳动作,若检测到挥手动作,则将挥手动作对应的虚拟物体切换指令发送给虚拟物体叠加模块,虚拟物体叠加模块将下一个虚拟环境模型叠加到视频图像中,显示叠加后的图像,重复步骤3.3.2;若检测到握拳动作,则将握拳动作所对应的确认叠加指令传给虚拟物体叠加模块,虚拟物体叠加模块根据三维注册模块所确定的三维注册关系,将当前已选择的虚拟环境模型叠加在视频图像的全局区域中,并同时将对应的声音送至声音输入输出单元播放;若未检测到挥手或握拳动作,则进行下一步;
步骤3.3.3:若跟踪到当前目标对象且有新的语音指令,则返回步骤2;若跟踪到当前目标对象且无新的语音指令,则重复执行步骤3.3.2至步骤3.3.3;其它情况进行步骤4。
7.根据权利要求4或5或6所述的一种基于增强现实的交互显示方法,其特征在于:对人脸区域或手掌区域或彩色图像进行特征提取并计算特征点的特征量,以相似度计算法进行特征量匹配,得到匹配的特征点数据坐标X,然后计算出摄像机的旋转矩阵R和平移矩阵T,由Y=K[R|T]X计算出人脸区域或手掌区域或彩色图像在虚拟空间的投影坐标,得到真实空间坐标与虚拟空间坐标的三维注册关系,其中,Y为虚拟空间坐标,K为摄像机的内参,R为摄像机的旋转矩阵,T为摄像机的平移矩阵,X为人脸区域或手掌区域或彩色图像的真实空间特征点坐标。
8.一种采用权利要求1~7之一所述的基于增强现实的交互显示方法的交互显示装置,其特征在于:所述装置包括:
一视觉感知单元,用于获取彩色图像、深度图像和人体姿态数据;
一声音输入输出单元,用于进行声音的输入和输出;
一视频输出单元,用于呈现用户所选择的交互界面和虚拟物体叠加后的图像;
一增强现实处理单元,用于接收来自视觉感知单元的人体姿态数据和声音输入输出单元的声音的输入,对接收到的数据进行增强现实处理,并将声音处理结果通过声音输入输出单元输出,将图像处理结果通过视频输出单元输出。
9.根据权利要求8所述的一种基于增强现实的交互显示方法的交互显示装置,其特征在于:所述增强现实处理单元包括:
一语音识别模块,用于识别用户的语音;
一手势识别模块,用于识别手掌的形状变化和运动姿势;
一目标定位模块,用于通过对目标对象的识别与跟踪来确定被增强的目标对象在图像中的位置;
一三维注册模块,用于获得真实空间物体坐标和虚拟物体坐标的三维注册关系;
一虚拟物体叠加模块,用于接收来自语音识别模块和手势识别模块的指令及三维注册模块得到的三维注册关系,根据指令和三维注册关系将虚拟物体叠加到目标定位模块所定位的目标对象上。
CN201910192408.6A 2019-03-14 2019-03-14 一种基于增强现实的交互显示装置及其交互显示方法 Active CN109976519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910192408.6A CN109976519B (zh) 2019-03-14 2019-03-14 一种基于增强现实的交互显示装置及其交互显示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910192408.6A CN109976519B (zh) 2019-03-14 2019-03-14 一种基于增强现实的交互显示装置及其交互显示方法

Publications (2)

Publication Number Publication Date
CN109976519A CN109976519A (zh) 2019-07-05
CN109976519B true CN109976519B (zh) 2022-05-03

Family

ID=67078762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910192408.6A Active CN109976519B (zh) 2019-03-14 2019-03-14 一种基于增强现实的交互显示装置及其交互显示方法

Country Status (1)

Country Link
CN (1) CN109976519B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110531847B (zh) * 2019-07-26 2020-07-14 中国人民解放军军事科学院国防科技创新研究院 一种基于增强现实的社交方法及系统
CN110667880B (zh) * 2019-10-17 2023-02-03 辽宁中航信诺科技有限公司 智能化飞机保障维修系统
CN110989900B (zh) * 2019-11-28 2021-11-05 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN110928415B (zh) * 2019-12-04 2020-10-30 上海飘然工程咨询中心 一种基于面部动作的机器人交互方法
CN111124116A (zh) * 2019-12-18 2020-05-08 佛山科学技术学院 一种虚拟现实中与远距离物体交互方法及系统
CN111121749B (zh) * 2019-12-26 2023-05-23 韩可 一种基于神经网络的3d音效增强现实盲人导航系统的导航方法
CN111259757B (zh) * 2020-01-13 2023-06-20 支付宝实验室(新加坡)有限公司 一种基于图像的活体识别方法、装置及设备
CN111563458A (zh) * 2020-05-09 2020-08-21 北京航空航天大学 基于YOLOv3和OpenCV的目标检测与定位方法
CN113807154A (zh) * 2020-06-12 2021-12-17 神州共享(北京)文化传媒有限公司 一种数字展厅人机交互系统
CN113066497A (zh) * 2021-03-18 2021-07-02 Oppo广东移动通信有限公司 数据处理方法、装置、系统、电子设备和可读存储介质
CN113608619A (zh) 2021-08-12 2021-11-05 青岛小鸟看看科技有限公司 增强现实中的裸手操作方法、系统
CN114327063A (zh) * 2021-12-28 2022-04-12 亮风台(上海)信息科技有限公司 目标虚拟对象的交互方法、装置、电子设备及存储介质
CN114327341A (zh) * 2021-12-31 2022-04-12 江苏龙冠影视文化科技有限公司 远程交互式虚拟展示系统
CN116819925B (zh) * 2023-08-29 2023-11-14 廊坊市珍圭谷科技有限公司 一种基于全息投影的互动娱乐系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982557A (zh) * 2012-11-06 2013-03-20 桂林电子科技大学 基于深度相机的空间手势姿态指令处理方法
CN105556508A (zh) * 2013-08-04 2016-05-04 艾斯适配有限公司 虚拟镜子的装置、系统和方法
CN106502424A (zh) * 2016-11-29 2017-03-15 上海小持智能科技有限公司 基于语音手势及肢体动作互动的增强现实系统
CN107016733A (zh) * 2017-03-08 2017-08-04 北京光年无限科技有限公司 基于增强现实ar的交互系统及交互方法
CN107122039A (zh) * 2017-03-15 2017-09-01 苏州大学 一种智能视觉辅助增强系统及其使用方法
CN107331220A (zh) * 2017-09-01 2017-11-07 国网辽宁省电力有限公司锦州供电公司 基于增强现实的变电设备运维仿真培训系统和方法
CN107437272A (zh) * 2017-08-31 2017-12-05 深圳锐取信息技术股份有限公司 基于增强现实的互动娱乐方法、装置及终端设备
CN108334199A (zh) * 2018-02-12 2018-07-27 华南理工大学 基于增强现实的移动式多模态交互方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170329394A1 (en) * 2016-05-13 2017-11-16 Benjamin Lloyd Goldstein Virtual and augmented reality systems
US10864423B2 (en) * 2016-11-10 2020-12-15 National Taiwan University Augmented learning system for tai-chi chuan with head-mounted display

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982557A (zh) * 2012-11-06 2013-03-20 桂林电子科技大学 基于深度相机的空间手势姿态指令处理方法
CN105556508A (zh) * 2013-08-04 2016-05-04 艾斯适配有限公司 虚拟镜子的装置、系统和方法
CN106502424A (zh) * 2016-11-29 2017-03-15 上海小持智能科技有限公司 基于语音手势及肢体动作互动的增强现实系统
CN107016733A (zh) * 2017-03-08 2017-08-04 北京光年无限科技有限公司 基于增强现实ar的交互系统及交互方法
CN107122039A (zh) * 2017-03-15 2017-09-01 苏州大学 一种智能视觉辅助增强系统及其使用方法
CN107437272A (zh) * 2017-08-31 2017-12-05 深圳锐取信息技术股份有限公司 基于增强现实的互动娱乐方法、装置及终端设备
CN107331220A (zh) * 2017-09-01 2017-11-07 国网辽宁省电力有限公司锦州供电公司 基于增强现实的变电设备运维仿真培训系统和方法
CN108334199A (zh) * 2018-02-12 2018-07-27 华南理工大学 基于增强现实的移动式多模态交互方法及装置

Also Published As

Publication number Publication date
CN109976519A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109976519B (zh) 一种基于增强现实的交互显示装置及其交互显示方法
US9996979B2 (en) Augmented reality technology-based handheld viewing device and method thereof
WO2020107904A1 (zh) 一种视频特效添加方法、装置、终端设备及存储介质
US20180197345A1 (en) Augmented reality technology-based handheld viewing device and method thereof
CN106730815B (zh) 一种易实现的体感互动方法及系统
CN111729283B (zh) 一种基于混合现实技术的训练系统及其方法
CN106325509A (zh) 三维手势识别方法及系统
US20140068526A1 (en) Method and apparatus for user interaction
JP2001517344A (ja) カメラ・ベースの身振り入力を使用の仮想現実環境を通じての3次元航行を認めるためのシステムおよび方法
CN204028887U (zh) 一种基于增强现实技术的手持式阅览设备
CN108805766B (zh) 一种ar体感沉浸式教学系统和方法
JP2011258159A (ja) プログラム、情報記憶媒体及び画像生成システム
CN109600559B (zh) 一种视频特效添加方法、装置、终端设备及存储介质
CN112348942B (zh) 一种健身交互方法和系统
CN109547806A (zh) 一种ar替身直播方法
CN106293099A (zh) 手势识别方法及系统
CN109739353A (zh) 一种基于手势、语音、视线追踪识别的虚拟现实交互系统
Tang et al. Learning to create 3D models via an augmented reality smartphone interface
CN105718054A (zh) 增强现实物的非接触式智能终端控制方法及装置、系统
WO2023232103A1 (zh) 一种观影互动方法、装置及计算机可读存储介质
CN116899205A (zh) 积木游戏的互动方法、装置、电子设备及存储介质
Ren et al. Immersive and perceptual human-computer interaction using computer vision techniques
Mariappan et al. Picolife: A computer vision-based gesture recognition and 3D gaming system for android mobile devices
Chen et al. Research on augmented reality system for childhood education reading
JP2016218974A (ja) 拡張現実画像表示システムおよび拡張現実画像表示方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant