CN115147520A - 基于视觉语义驱动虚拟人物的方法及设备 - Google Patents

基于视觉语义驱动虚拟人物的方法及设备 Download PDF

Info

Publication number
CN115147520A
CN115147520A CN202210642002.5A CN202210642002A CN115147520A CN 115147520 A CN115147520 A CN 115147520A CN 202210642002 A CN202210642002 A CN 202210642002A CN 115147520 A CN115147520 A CN 115147520A
Authority
CN
China
Prior art keywords
real
virtual character
real object
virtual
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210642002.5A
Other languages
English (en)
Inventor
刘帅
任子健
吴连朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Juhaokan Technology Co Ltd
Original Assignee
Juhaokan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Juhaokan Technology Co Ltd filed Critical Juhaokan Technology Co Ltd
Priority to CN202210642002.5A priority Critical patent/CN115147520A/zh
Publication of CN115147520A publication Critical patent/CN115147520A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/21Collision detection, intersection

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请涉及AR技术领域,提供一种基于视觉语义驱动虚拟人物的方法及设备,利用真实场景图像建立三维空间坐标系,并提取真实物体的语义信息、距离信息和尺度信息,根据距离信息将虚拟人物放置在三维空间坐标系中,并根据尺度信息调整虚拟人物的大小以使虚拟人物与真实物体的比例相适配,且在虚拟人物放置后,根据利用真实物体的语义信息获取的目标驱动数据,驱动虚拟人物产生真实物体对应行为,实现虚拟人物与真实物体的自动交互,使得虚拟人物更好的融合到真实场景中,在一定程度上减少虚拟物体在真实场景中的违和感,提高虚实融合的真实性,进而提升用户的AR体验。

Description

基于视觉语义驱动虚拟人物的方法及设备
技术领域
本申请涉及增强现实(Augmented Reality,AR)技术领域,尤其涉及一种基于视觉语义驱动虚拟人物的方法及设备。
背景技术
AR技术是在虚拟现实(Virtual Reality,VR)基础上发展起来的新技术,通过将生成的虚拟物体等叠加到真实场景中,从而实现对真实场景的″增强″,已广泛应用在各行各业。
目前,将虚拟人物叠加在真实场景中时,放置好虚拟人物后,一般会直接根据预设驱动方法(如:实时骨骼驱动、语音驱动、面捕表情驱动等)驱动虚拟人物在真实场景中运动,或者利用预先存储的驱动数据驱动虚拟人物在真实场景中运动。由虚拟人物未与真实场景以及真实场景中的物体进行交互,即虚拟人物与真实的环境、物体没有任何交互关联,导致虚拟人物无法真实的融合到真实场景中,从而降低了用户的AR体验。
发明内容
本申请实施例提供了一种基于视觉语义的虚拟人物的驱动方法及设备,用于通过虚拟人物与真实场景中物体的交互行为,提高虚实融合的真实性。
一方面,本申请实施例提供一种基于视觉语义的虚拟人物的驱动方法,应用于AR设备,所述方法包括:
获取真实场景图像,根据所述真实场景图像建立三维空间坐标系;
当根据所述真实场景图像检测出真实物体时,提取所述真实物体的语义信息、距离信息和尺度信息;
根据所述真实物体的语义信息获取目标驱动数据;
根据所述距离信息将虚拟人物放置在所述三维空间坐标系中,并根据所述尺度信息调整所述虚拟人物的大小,以使所述虚拟人物与所述真实物体相适配;
利用所述目标驱动数据驱动所述虚拟人物产生所述真实物体对应行为。
另一方面,本申请实施例提供一种AR设备,包括多目相机、处理器、存储器和显示屏,所述显示屏、所述存储器、所述多目相机与所述处理器通过总线连接:
所述多目相机用于采集真实场景图像;
所述存储器包括数据存储单元和程序存储单元,所述程序存储单元存储有计算机程序,所述处理器根据所述计算机程序执行以下操作:
获取真实场景图像,通过所述显示屏进行显示,并根据所述真实场景图像建立三维空间坐标系;
当根据所述真实场景图像检测出真实物体时,提取所述真实物体的语义信息、距离信息和尺度信息;
根据所述真实物体的语义信息获取目标驱动数据,并存储至所述数据存储单元;
根据所述距离信息将虚拟人物放置在所述三维空间坐标系中,并根据所述尺度信息调整所述虚拟人物的大小,以使所述虚拟人物与所述真实物体相适配;
利用所述目标驱动数据驱动所述虚拟人物产生所述真实物体对应行为,并通过所述显示屏叠加显示驱动后的虚拟人物。
可选的,当检测出的真实物体为多个时,所述处理器根据所述真实物体的语义信息获取目标驱动数据,具体操作为:
根据多个真实物体的语义信息进行重要程度排序;
按照重要程度从高到低的顺序,依序获取每个真实物体的语义信息对应的目标驱动数据。
可选的,所述处理器利用所述目标驱动数据驱动所述虚拟人物产生所述真实物体对应行为,具体操作为:
按照所述目标驱动数据的获取顺序,依序驱动相应的虚拟人物产生相应的真实物体对应行为。
可选的,当有多个虚拟人物时,所述处理器根据所述距离信息将虚拟人物放置在所述三维空间坐标系时,还执行:
根据所述距离信息,依序确定每个虚拟人物的足部在所述三维空间坐标系中的位置;
按预设阈值移动每个虚拟人物,确定多个虚拟人物在所述三维空间坐标系中的活动范围;
根据所述虚拟人物的数量,对所述活动范围进行等分,得到每个虚拟人物的活动子范围。
可选的,当检测出一个真实物体时,所述距离信息包括所述真实物体到所述AR设备的距离;
当检测出多个真实物体时,所述距离信息包括每个真实物体到所述AR设备的距离,以及所述真实物体间的距离。
可选的,每个真实物体关联一个或多个虚拟人物,每个语义信息对应至少一组目标驱动数据。
另一方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机设备执行本申请实施例提供的基于视觉语义的虚拟人物的驱动方法。
本申请实施例提供的一种基于视觉语义的虚拟人物的驱动方法及设备中,利用真实场景图像建立三维空间坐标系,并提取检测到的真实物体的语义信息、距离信息和尺度信息,根据距离信息将虚拟人物放置在三维空间坐标系中,并根据尺度信息调整虚拟人物的大小以及根据利用真实物体的语义信息获取的目标驱动数据驱动虚拟人物产生真实物体对应行为,这样,通过语义信息、距离信息、尺度信息实现虚拟人物与真实物体的交互,使得虚拟人物更好的融合到真实场景中,提高虚实融合的真实性,进而提升用户的AR体验。
本申请实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1A为本申请实施例提供的AR设备示意图;
图1B为本申请实施例提供的室内导航应用场景示意图;
图2为本申请实施例提供的基于视觉语义驱动虚拟人物的方法流程图;
图3为本申请实施例提供的基于真实场景图像建立三维空间坐标系的方法流程图;
图4为本申请实施例提供的距离分析原理图;
图5为本申请实施例提供的另一基于视觉语义驱动虚拟人物的方法流程图;
图6为本申请实施例提供的确定虚拟人物的活动范围流程图;
图7A为本申请实施例提供的卧室场景下采用本申请实施例提供的基于视觉语义驱动虚拟人物的效果图;
图7B为本申请实施例提供的客厅场景下采用本申请实施例提供的基于视觉语义驱动虚拟人物的效果图;
图8为本申请实施例提供的AR设备的硬件结构图;
图9为本申请实施例提供的AR设备的功能结构图。
具体实施方式
目前,增强现实的虚拟人物交互系统在各行各业仍处于探索阶段,设备形态并未统一,在实际AR应用中,虚拟人物一般会根据场景的设置在特定的虚拟场景中进行相应的运动。
考虑到AR设备的计算能力有限,高复杂度运算较难以在AR设备本地运行,往往会借助云端服务器的计算能力进行复杂运算;并且,如果实时计算虚拟人物的姿态则需要较高的帧率,这增加了现有网络的传输能力。因此,目前虚拟人物交互通常是根据预制的语音和/或姿态数据进行驱动,其中,语音数据用于驱动虚拟人物的面部表情,姿态数据用于驱动虚拟人物的躯干及上肢运动。
大多数的AR设备会配有多颗摄像头,如图1A所示,利用AR设备的摄像头,可以对当前真实环境进行拍摄,并基于当前真实环境,定制相应的虚拟人物进行″增强″。
在AR应用中,采用同时定位与建图(Simultaneous Localization and Mapping,SLAM)技术或其他技术定位虚拟人物在真实场景中的位置后,仅仅是将虚拟人物叠加显示在真实场景中,并利用预制驱动数据进行驱动,结合二维显示屏幕,进行大屏显示。
例如,在图1B所示的室内导航场景中,通过平板实时显示真实室内场景,并在真实场景中叠加显示箭头和虚拟人物,用于增强室内出口导航。
然而,目前在真实场景中叠加显示虚拟人物时,缺乏虚拟人物与真实场景以及真实物体间的交互,导致虚拟人物无法真实的融合在真实场景中,而真实物体的语义信息并没有对虚拟人物的运动姿态产生相应的影响。
其中,本申请实施例中的交互是指虚拟人物能够根据真实场景中的物体表达出相应的动作,是在通过距离判断防止虚拟人物漂浮在真实场景中或与真实物体相互的遮挡情况下的进一步交互。
鉴于此,本申请实施例提供一种基于视觉语义的虚拟人物的驱动方法及设备,根据AR设备的相机采集的真实场景图像,提取真实物体的语义信息和距离信息,根据距离信息将虚拟人物放置在真实场景中后,根据语义信息获取的目标驱动数据驱动虚拟人物产生相应的真实物体对应行为,实现虚拟人物与真实物体间的自动交互,在一定程度上减弱虚拟人物与真实场景结合的违和感,提高虚实融合的真实性,进而提升用户的AR体验。
参见图2,为本申请实施例提供的基于视觉语义的虚拟人物的驱动方法流程图,该流程由AR设备执行,主要包括以下几步:
S201:获取真实场景图像,根据真实场景图像建立三维空间坐标系。
在执行S201时,在开启AR设备安装的AR应用后,用户通过身体或头部的转动使AR设备上的多目相机扫描周围的真实场景图像,并传输给处理器,处理器根据真实场景图像建立三维空间坐标系。
坐标系的建立过程参见图3,主要包括以下几步:
S2011:提取真实场景图像包含的三维点云数据。
在S2011中,采用内在形状签名(Intrinsic Shape signatures,ISS)算法,从真实场景图像中提取三维点云数据。其中,从图像中提取三维点云数据的技术已经相当成熟,此部分内容不作为本申请的重点,不再详细展开描述。
S2012根据三维点云数据,检测真实场景图像中是否包含目标平面,若包含,执行S2013,否则,执行S2014。
目前,常用的从三维点云数据中检测平面的算法主要包括:随机抽样一致性(Random Sample Consensus,RANSAC)算法,区域生长(Region Growing)算法和基于网格的区域生长(Grid-based Region Growing)算法。
其中,RANSAC算法作为最经典的一种算法,能够根据一组包含异常数据的样本数据集中,计算出数学模型参数,从而得到有效样本数据。RANSAC算法的基本假设是样本数据集中包含正确数据(可以被数学模型描述的数据,也称为内点(inliers)),也包含异常数据(偏离正常范围很远、无法适应数据模型的数据,也称为外点(outliers)),即样本数据集中含有噪声。这些异常数据可能是由于错误的测量、错误的假设、错误的计算等产生的。同时RANSAC算法也假设,给定一组正确的数据,存在可以计算出符合这些数据的模型参数的方法。
从三维点云数据中拟合平面的过程中,平面上小的凹凸点(如:地面上小的坑洼)可视为有效数据,对所拟合的平面来说有一定的偏移,而偏移量过大的凹凸点(如:地面上的障碍物、地面的深坑),这些点可是为无效数据。因此,可采用RANSAC算法,根据三维点云数据检测真实场景图像中是否包含目标平面,相对于最小二乘拟合,RANSAC算法意在根据大多数的有效数据获得拟合结果,因此,平面检测效果更佳。
具体实施时,根据三维点云数据随机拟合多个平面,从多个平面中,选择包含的无效数据最少的平面作为目标平面,或者,选择包含的有效数据最多的平面作为目标平面,其中,无效数据为三维点云数据中与相应平面的距离超过预设距离阈值的点。
S2013:以目标平面为地面,建立三维空间坐标系。
在S2013中,检测出目标平面后,将目标平面的位置作为地面位置,建立真实场景对应的三维空间坐标系。
S2014:重新采集真实场景图像,返回S2011。
建立三维空间坐标系后,利用采集的真实场景图像,检测环境中的真实物体。
S202:根据真实场景图像确定真实场景中是否包含真实物体,若不包含,执行S203,若包含,执行S204。
其中,真实物体的检测与地面检测类似,需要进行真实物体的平面拟合,具体过程参见图3,在此不再重复。
S203:将虚拟人物放置在三维空间坐标系的预设位置上,并根据预设驱动数据驱动虚拟人物运动。
当真实场景中不包含真实物体时,虚拟人物无需与真实物体进行交互,可直接将虚拟人物放置在三维空间坐标系的预设位置上,并从云端获取预设驱动数据(包括大不限于语音数据、骨骼数据),利用预设驱动数据驱动虚拟人物运动。
在远程三维通信场景中,当AR设备与其他AR设备进行远程通信时,AR设备可向其他AR设备发送其所在的真实场景中无物体的提示信息,其他AR设备接收到该提示信息后,可确定本端用户对应的虚拟人物在三维重建区域内的可移动范围,并同步给该AR设备,以便相应的虚拟人物在三维空间坐标系的可移动范围内运动。
S204:根据真实场景图像提取真实物体的语义信息、距离信息和尺度信息。
当真实场景中包含真实物体时,从真实场景图像中提取出真实物体的语义信息、距离信息和尺度信息,以获得真实物体在真实场景中的具体信息,使得虚拟人物更好的与真实场景相适配。
本申请的实施例中,真实物体的语义信息可以为真实物体的类别。基于视觉图像理解真实场景中的物体,不仅仅是检测和识别出单个物体,还要能够使用自然语言描述出真实场景图像所表达物体的类别,这是因为,不同类别的真实物体有不同的交互关系,会使虚拟人物在真实场景图像呈现出不同的行为。
在S204中,语义信息的提取算法包括但不限于卷积神经网络(ConvolutionalNeural Network,CNN)、快速区域卷积神经网络(Faster Region Convolutional NeuralNetwork,Faster R-CNN)、YOLO网络和单发多核检测(Single Shot MultiBox Detector,SSD)网络。其中,Faster R-CNN通过候选框提议网络(Region Proposal Network,RPN)生成目标候选区域,具有很好的检测效率。利用上述网络进行物体检测和类别识别的过程已经相当成熟,因此,不再展开语义信息提取的详细过程。
在本申请的实施例中,当检测出一个真实物体时,距离信息包括真实物体到AR设备的距离(即物体的深度信息);当检测出多个真实物体时,距离信息包括每个真实物体到AR设备的距离,以及真实物体间的距离。
在S204中,可采用三角形测量法提取真实物体的距离信息。如图4所示,为本申请实施例提供的三角形测量原理图,通过两帧图像中对应的匹配点的像素坐标x1和x2,以及多目相机的参数(包括旋转矩阵R和平移向量t),计算得到物体在三维空间坐标系中的坐标X,计算公式如下:
x1=P1X,x2=P2X 公式1
其中,P1和P2为两相机间的旋转矩阵和平移向量组成的4*4矩阵。
在本申请的实施例中,AR设备上多目相机的参数可预先通过标定得到,在S204中可作为已知量,通过AR设备的多目相机采集的真实场景图像中特征点的匹配结果,可以确定真实物体在三维空间坐标系中的三维坐标,从而根据各三维坐标,确定每个真实物体到AR设备的距离以及真实物体间的距离。
S205:根据真实物体的语义信息获取目标驱动数据。
在本申请的实施例中,每个真实物体关联一个或多个虚拟人物,每个语音信息对应至少一组目标驱动数据,如表1所示。
表1、真实物体与虚拟人物以及语音信息与目标驱动数据间的对应关系
Figure BDA0003682506570000071
其中,目标驱动数据可以存储在云端服务器,也可以存储在AR设备本地。
以一个真实物体关联一个虚拟人物、一个语音信息对应一组目标驱动数据为例,假设通过真实场景图像识别出的真实物体的语义信息为″电视″,则根据″电视″获取用于使虚拟人物A″打开电视开关″的目标驱动数据。
以一个真实物体关联两个虚拟人物、一个语音信息对应两组目标驱动数据为例,假设通过真实场景图像识别出的真实物体的语义信息为″沙发″,则根据″沙发″获取用于使虚拟人物A″坐下″的目标驱动数据1,以及获取用于使虚拟人物B″坐下且靠下″的目标驱动数据2。
S206:根据距离信息将虚拟人物放置在三维空间坐标系中,并根据尺度信息调整虚拟人物的大小,以使虚拟人物与真实物体相适配。
例如,假设厨房场景中包含一个真实物体,通过真实场景图像识别出的真实物体为″煤气灶″,则根据″煤气灶″到AR设备的距离,确定″煤气灶″在三维空间坐标系中的位置,并根据″煤气灶″的位置放置虚拟人物,进一步地,根据″煤气灶″的尺度信息调整虚拟人物的大小,以使虚拟人物与″煤气灶″的大小比例相适配,提高虚实融合的真实性。
再例如,假设室内场景中包含两个真实物体,通过真实场景图像识别出的真实物体分别为″沙发″、″茶几″,则根据″沙发″到AR设备的距离、″茶几″到AR设备的距离、以及″沙发″和″茶几″间的距离,确定″沙发″和″茶几″在三维空间坐标系中的位置,并根据″沙发″和″茶几″的位置放置虚拟人物,进一步地,根据″沙发″和″茶几″的尺度信息调整虚拟人物的大小,以使虚拟人物与″沙发″和″茶几″的大小比例相适配,提高虚实融合的真实性。
S207:利用目标驱动数据驱动虚拟人物产生真实物体对应行为。
本申请实施例提供的基于视觉语义驱动虚拟人物的方法,可适用于真实场景与虚拟人物叠加显示的各种AR场景,如AR虚拟游览、商品介绍、室内室外导航、博物馆介绍、家居介绍等场景,通过AR设备感知真实场景中物体的语义信息,并基于语义信息与虚拟人物的自适应交互过程,使得虚拟人物能够根据真实物体做出相应的动作,而不是仅仅将虚拟人物进行显示,可以减少虚实融合中部分测试与匹配损耗,在一定程度上减弱虚拟人物与真实场景结合的违和感,提高虚实融合的真实性,增强虚拟人物应用的沉浸感及AR体验。
例如,假设通过真实场景图像识别出的真实物体的语义信息为″电视″,获取的目标驱动数据为″打开电视开关″,则虚拟人物产生按下电视开关键打开电视的行为。
再例如,假设通过真实场景图像识别出的真实物体的语义信息为″危险品″,获取的目标驱动数据为″安全提示动作″,则虚拟人物产生针对此危险品保护自身安全的提示动作。
再例如,假设通过真实场景图像识别出的真实物体为″煤气灶″,获取的目标驱动数据为″烹饪″,则虚拟人物产生在煤气灶旁烹饪的行为。
再例如,假设通过真实场景图像识别出的真实物体分别为″沙发″,获取的目标数据为″坐下″,则虚拟人物产生坐在沙发上的行为。
需要说明的是,本申请实施例中的虚拟人物的生成方式不做限制性要求,可以来源于通过RGB或者RGBD相机采集的图像所构建的仿真人物模型,还可以来源于通过美工手工建模绑定的人物模型,也可以是科研机构开源的参数化人体模型(如SMPL模型或者SMPL-X模型等)。
考虑到特定场景中的每个物体有自己的语义信息,例如,家居场景可能会有客厅、厨房、卧室等场景,客厅场景中的物体包含各类家电(如:电视、空调)和家具(如:少发、茶几)。这样,在一些复杂的真实场景中,可能检测识别出多个种类的物体,而每类物体的语义不同,对应的驱动数据也不同,因此,可以对语义信息进行排序以顺序驱动虚拟人物产生相应的行为。
参见图5,为本申请实施例提供的另一基于视觉语义驱动虚拟人物的方法流程图,该流程由AR设备执行,主要包括以下几步:
S501:获取真实场景图像,根据真实场景图像建立三维空间坐标系。
该步骤的具体描述参见前述实施例,在此不再重复。
S502:根据真实场景图像确定真实场景中是否包含至少一个真实物体,若不包含,执行S503,若包含,执行S504。
具体实施时,从真实场景图像中提取物体的三维点云数据,采用RANSAC算法,对三维点云数据进行平面拟合,通过判断每个平面对应的内点数或外点数,检测真实场景中包含的至少一个真实物体,并在未检测到真实物体时,执行S503,在检测到至少一个真实物体时,执行S504。
S503:将虚拟人物放置在三维空间坐标系的预设位置上,并根据预设驱动数据驱动虚拟人物运动。
当真实场景中不包含真实物体时,虚拟人物无需与真实物体进行交互,可直接将虚拟人物放置在三维空间坐标系的预设位置上,并利用获取的预设驱动数据,在三维空间坐标系的可移动范围内驱动虚拟人物运动。
S504:根据真实场景图像提取各真实物体的语义信息、距离信息和尺度信息。
该步骤的具体描述参见前述实施例,在此不再重复。
S505:根据各真实物体的语义信息,对各真实物体的重要程度进行排序。
在真实场景中可能包含多个真实物体,每个物体有不同的语义信息,可以驱动不同的虚拟人物产生相应的行为,为了减少显示画面的混乱度,可优先对最重要的真实物体对应的虚拟人物进行驱动。因此,可以按照各真实物体的语义信息对各真实物体的重要程度进行排序。
例如,在客厅场景中包含沙发和电视两个真实物体,按照人类的生活习惯,一般是先坐到沙发上,然后打开电视,因此,沙发的重要程度高于电视。
S506:按照重要程度从高到低的顺序,依序获取每个真实物体的语义信息对应的目标驱动数据。
在S506中,根据各真实物体的重要程度,有限获取重要程度较高的语义信息对应的目标驱动数据,并将获取的各目标驱动数据存储在队列中。
例如,假设客厅场景中包含沙发和电视两个真实物体,沙发的重要程度高于电视,则先获取沙发对应的目标驱动数据,再获取电视对应的目标驱动数据。
S507:根据距离信息将各虚拟人物放置在三维空间坐标系中,并根据尺度信息调整各虚拟人物的大小,以使各虚拟人物与真实物体相适配。
该步骤的具体描述参见前述实施例,在此不再重复。
S508:按照目标驱动数据的获取顺序,依序驱动相应的虚拟人物产生相应的真实物体对应行为。
例如,假设客厅场景中包含沙发和电视两个真实物体,沙发对应的目标驱动数据获取顺序先于电视对应的目标驱动数据,则首先驱动沙发对应的虚拟人物A产生坐到沙发生的行为,再驱动虚拟人物B产生打开电视的行为。
在本申请的实施例中,目标驱动数据的存储格式可以为bvh数据格式,其中,bvh是一种通用的人体特征动画文件格式,可以被各种动画制作软件支持,目标驱动数据包含人物的骨骼数据和肢体关节的旋转数据。
本申请实施例提供的基于视觉语义驱动虚拟人物的方法中,利用AR设备的多目相机采集的真实场景图像提取真实物体的语义信息、距离信息和尺度信息,根据距离信息将虚拟人物放置在三维空间坐标系中,并根据尺度信息调整虚拟人物的大小,通过对各真实物体的语义信息进行排序,可以确定各真实物体的重要程度,从而有序获取重要程度较高的真实物体对应的目标驱动数据以驱动虚拟人物产生对应行为,实现虚拟人物与真实物体间的自动交互,在一定程度上减弱虚拟人物与真实场景结合的违和感,提高虚实融合的真实性,进而提升用户的AR体验。
在一些实施例中,将各虚拟人物放置在三维空间坐标系时,可进行模型间的碰撞检测,防止交互该过程中模型间的遮挡,具体过程参见图6,主要包括以下几步:
S601:根据距离信息,依序确定每个虚拟人物的足部在三维空间坐标系中的位置。
在S601中,可将虚拟人物的足部所在的平面作为三维空间坐标系的地面,并按照模型列表中的顺序,根据每个真实物体到AR设备的距离以及真实物体间的距离,依序确定每个虚拟人物的足部在三维空间坐标系中的位置。
S602:按预设阈值移动每个虚拟人物,确定多个虚拟人物在三维空间坐标系中的活动范围。
在本申请的实施例中,三维空间坐标系是基于采集的真实场景图像建立的,以虚拟人物足部所在的地面,确定真实物体在三维空间坐标系中的位置,并按预设阈值将每个虚拟人物在三维空间坐标系中移动,当与真实物体或其他虚拟人物发生碰撞检测时停止移动,从而确定多个虚拟人物在三维空间坐标系中的活动范围。
其中,碰撞检测过程可以采用AABB包围盒或者OBB包围盒,将三维空间里对象相交问题转化到二维或一维空间里来处理,通过降低维度来提高处理问题的效率。本申请实施例以将三维空间中虚拟人物以及真实物体的包围盒的重叠测试问题转化到一维空间为例,如果两个包围盒有重叠则它们在三个坐标轴上的投影区段都有重叠这是因为,对于AABB包围盒来说是凸多面体,所以若两个凸多面体在三个坐标轴上的投影区段均重叠,那么它们必相交。
由AABB包围盒的定义知,AABB包围盒上具有最小和最大坐标值的点,必定是顶点,且这些顶点在三个坐标轴上的投影点可以组成在相应坐标轴上最小和最大的投影线段,假设称具有最小坐标值的顶点为最小顶点,具有最大坐标值的顶点为最大顶点,这样判断两个包围盒是否相交,只要通过分别比较这两个包围盒的最小顶点和最大顶点四个点的三维坐标值即可。
S603:根据虚拟人物的数量,对活动范围进行等分,得到每个虚拟人物的活动子范围。
在S603中,对活动范围根据人数进行均匀等分,得到每个虚拟人物的活动子范围。
参见图7A,为卧室场景下采用本申请实施例提供的基于视觉语义驱动虚拟人物的效果图,如图7A示出的,卧室场景中包含椅子、床等物体,利用基于″床″获取的目标驱动数据1分别驱动两个虚拟人物坐下,利用基于″椅子″获取的目标驱动数据驱动一个虚拟人物靠在椅背上,利用基于″床″获取的目标驱动数据2驱动另一虚拟人物走向床,利用基于″椅子″获取的目标驱动数据2驱动另一虚拟人物站在椅子旁。
参见图7B,为客厅场景下采用本申请实施例提供的基于视觉语义驱动虚拟人物的效果图,如图7B示出的,客厅场景中包含沙发、墙、茶几、电视等物体,利用基于″沙发″获取的三组目标驱动数据分别驱动三个虚拟人物坐到沙发上,利用基于″墙″获取的目标驱动数据驱动一个虚拟人物靠在墙上,另一个虚拟人物则在电视和茶几间的行走。
如图7A和图7B示出的,虚拟人物与真实场景中的土体自动交互的过程中,各虚拟人物之间、以及虚拟人物与真实物体之间未相互遮挡。
基于相同的技术构思,本申请实施例提供一种AR设备,该AR设备可实现上述实施例中基于视觉语义驱动虚拟人物的方法步骤,且能达到相同的技术效果。
参见图8,该AR设备包括多目相机801、处理器802、存储器803和显示屏804,所述显示屏804、所述存储器803、所述多目相机801与所述处理器802通过总线805连接:
所述多目相机801用于采集真实场景图像;
所述存储器803包括数据存储单元和程序存储单元,所述程序存储单元存储有计算机程序,所述处理器802根据所述计算机程序执行以下操作:
获取真实场景图像,通过所述显示屏804进行显示,并根据所述真实场景图像建立三维空间坐标系;
当根据所述真实场景图像检测出真实物体时,提取所述真实物体的语义信息、距离信息和尺度信息;
根据所述真实物体的语义信息获取目标驱动数据,并存储至所述数据存储单元;
根据所述距离信息将虚拟人物放置在所述三维空间坐标系中,并根据所述尺度信息调整所述虚拟人物的大小,以使所述虚拟人物与所述真实物体相适配;
利用所述目标驱动数据驱动所述虚拟人物产生所述真实物体对应行为,并通过所述显示屏804叠加显示驱动后的虚拟人物。
可选的,当检测出的真实物体为多个时,所述处理器802根据所述真实物体的语义信息获取目标驱动数据,具体操作为:
根据多个真实物体的语义信息进行重要程度排序;
按照重要程度从高到低的顺序,依序获取每个真实物体的语义信息对应的目标驱动数据。
可选的,所述处理器802利用所述目标驱动数据驱动所述虚拟人物产生所述真实物体对应行为,具体操作为:
按照所述目标驱动数据的获取顺序,依序驱动相应的虚拟人物产生相应的真实物体对应行为。
可选的,当有多个虚拟人物时,所述处理器802根据所述距离信息将虚拟人物放置在所述三维空间坐标系时,还执行:
根据所述距离信息,依序确定每个虚拟人物的足部在所述三维空间坐标系中的位置;
按预设阈值移动每个虚拟人物,确定多个虚拟人物在所述三维空间坐标系中的活动范围;
根据所述虚拟人物的数量,对所述活动范围进行等分,得到每个虚拟人物的活动子范围。
可选的,当检测出一个真实物体时,所述距离信息包括所述真实物体到所述AR设备的距离;
当检测出多个真实物体时,所述距离信息包括每个真实物体到所述AR设备的距离,以及所述真实物体间的距离。
可选的,每个真实物体关联一个或多个虚拟人物,每个语义信息对应至少一组目标驱动数据。
需要说明的是,图8仅是一种示例,给出AR设备执行本申请实施例提供的基于视觉语义驱动虚拟人物的方法步骤所必要的硬件,未示出的该AR设备还包含头戴式显示器(Head Mounted Display,HMD)常用硬件,如左右眼镜片、扬声器、麦克风、传感器(如关系测量单元IMU)、与手柄等设备连接的通信接口等。
本申请实施例图8中涉及的处理器可以是中央处理器(Central ProcessingUnit,CPU),通用处理器,图形处理器(Graphics Processing Unit,GPU),数字信号处理器(Digital Signal Processor,DSP),专用集成电路(Application-specific IntegratedCircuit,ASIC),现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。
参见图9,为图8所示的AR设备的功能结构图,该AR设备包括图像获取模块901、信息提取模块902、数据获取模块903以及显示驱动模块904,其中:
图像获取模块901,用于获取真实场景图像,并根据所述真实场景图像建立三维空间坐标系;
信息提取模块902,用于当根据所述真实场景图像检测出真实物体时,提取所述真实物体的语义信息、距离信息和尺度信息;
数据获取模块903,用于根据所述真实物体的语义信息获取目标驱动数据,并存储至所述数据存储单元;
显示驱动模块904,用于根据所述距离信息将虚拟人物放置在所述三维空间坐标系中,并根据所述尺度信息调整所述虚拟人物的大小,以使所述虚拟人物与所述真实物体相适配;以及利用所述目标驱动数据驱动所述虚拟人物产生所述真实物体对应行为。
其中,上述各功能模块相互配合可实现下基于视觉语义驱动虚拟人物的方法步骤,且能达到相同的技术效果。各功能模块的具体实现方式参见前述实施例,在此不再重复。
本申请实施例还提供一种计算机可读存储介质,用于存储一些指令,这些指令被执行时,可以完成前述实施例的方法。
本申请实施例还提供一种计算机程序产品,用于存储计算机程序,该计算机程序用于执行前述实施例的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种基于视觉语义驱动虚拟人物的方法,其特征在于,应用于AR设备,所述方法包括:
获取真实场景图像,根据所述真实场景图像建立三维空间坐标系;
当根据所述真实场景图像检测出真实物体时,提取所述真实物体的语义信息、距离信息和尺度信息;
根据所述真实物体的语义信息获取目标驱动数据;
根据所述距离信息将虚拟人物放置在所述三维空间坐标系中,并根据所述尺度信息调整所述虚拟人物的大小,以使所述虚拟人物与所述真实物体相适配;
利用所述目标驱动数据驱动所述虚拟人物产生所述真实物体对应行为。
2.如权利要求1所述的方法,其特征在于,当检测出的真实物体为多个时,所述根据所述真实物体的语义信息获取目标驱动数据,包括:
根据多个真实物体的语义信息进行重要程度排序;
按照重要程度从高到低的顺序,依序获取每个真实物体的语义信息对应的目标驱动数据。
3.如权利要求2所述的方法,其特征在于,所述利用所述目标驱动数据驱动所述虚拟人物产生所述真实物体对应行为,包括:
按照所述目标驱动数据的获取顺序,依序驱动相应的虚拟人物产生相应的真实物体对应行为。
4.如权利要求1所述的方法,其特征在于,当有多个虚拟人物时,所述根据所述距离信息将虚拟人物放置在所述三维空间坐标系时,所述方法还包括:
根据所述距离信息,依序确定每个虚拟人物的足部在所述三维空间坐标系中的位置;
按预设阈值移动每个虚拟人物,确定多个虚拟人物在所述三维空间坐标系中的活动范围;
根据所述虚拟人物的数量,对所述活动范围进行等分,得到每个虚拟人物的活动子范围。
5.如权利要求1-4中任一项所述的方法,其特征在于,当检测出一个真实物体时,所述距离信息包括所述真实物体到所述AR设备的距离;
当检测出多个真实物体时,所述距离信息包括每个真实物体到所述AR设备的距离,以及所述真实物体间的距离。
6.如权利要求1-4中任一项所述的方法,其特征在于,每个真实物体关联一个或多个虚拟人物,每个语义信息对应至少一组目标驱动数据。
7.一种AR设备,其特征在于,包括多目相机、处理器、存储器和显示屏,所述显示屏、所述存储器、所述多目相机与所述处理器通过总线连接:
所述多目相机用于采集真实场景图像;
所述存储器包括数据存储单元和程序存储单元,所述程序存储单元存储有计算机程序,所述处理器根据所述计算机程序执行以下操作:
获取真实场景图像,通过所述显示屏进行显示,并根据所述真实场景图像建立三维空间坐标系;
当根据所述真实场景图像检测出真实物体时,提取所述真实物体的语义信息、距离信息和尺度信息;
根据所述真实物体的语义信息获取目标驱动数据,并存储至所述数据存储单元;
根据所述距离信息将虚拟人物放置在所述三维空间坐标系中,并根据所述尺度信息调整所述虚拟人物的大小,以使所述虚拟人物与所述真实物体相适配;
利用所述目标驱动数据驱动所述虚拟人物产生所述真实物体对应行为,并通过所述显示屏叠加显示驱动后的虚拟人物。
8.如权利要求7所述的AR设备,其特征在于,当检测出的真实物体为多个时,所述处理器根据所述真实物体的语义信息获取目标驱动数据,具体操作为:
根据多个真实物体的语义信息进行重要程度排序;
按照重要程度从高到低的顺序,依序获取每个真实物体的语义信息对应的目标驱动数据。
9.如权利要求8所述的AR设备,其特征在于,所述处理器利用所述目标驱动数据驱动所述虚拟人物产生所述真实物体对应行为,具体操作为:
按照所述目标驱动数据的获取顺序,依序驱动相应的虚拟人物产生相应的真实物体对应行为。
10.如权利要求7-9中任一项所述的AR设备,其特征在于,每个真实物体关联一个或多个虚拟人物,每个语义信息对应至少一组目标驱动数据。
CN202210642002.5A 2022-06-07 2022-06-07 基于视觉语义驱动虚拟人物的方法及设备 Pending CN115147520A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210642002.5A CN115147520A (zh) 2022-06-07 2022-06-07 基于视觉语义驱动虚拟人物的方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210642002.5A CN115147520A (zh) 2022-06-07 2022-06-07 基于视觉语义驱动虚拟人物的方法及设备

Publications (1)

Publication Number Publication Date
CN115147520A true CN115147520A (zh) 2022-10-04

Family

ID=83409217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210642002.5A Pending CN115147520A (zh) 2022-06-07 2022-06-07 基于视觉语义驱动虚拟人物的方法及设备

Country Status (1)

Country Link
CN (1) CN115147520A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104937641A (zh) * 2013-02-01 2015-09-23 索尼公司 信息处理装置、客户端装置、信息处理方法以及程序
CN108876900A (zh) * 2018-05-11 2018-11-23 重庆爱奇艺智能科技有限公司 一种与现实场景融合的虚拟目标投射方法和系统
CN110168614A (zh) * 2016-12-26 2019-08-23 交互数字Ce专利控股公司 用于生成混合现实中的动态虚拟内容的设备和方法
CN111415422A (zh) * 2020-04-17 2020-07-14 Oppo广东移动通信有限公司 虚拟对象调整方法、装置、存储介质与增强现实设备
CN111510701A (zh) * 2020-04-22 2020-08-07 Oppo广东移动通信有限公司 虚拟内容的显示方法、装置、电子设备及计算机可读介质
CN111784847A (zh) * 2020-07-03 2020-10-16 珠海金山网络游戏科技有限公司 一种三维场景中物体显示的方法及装置
CN113112612A (zh) * 2021-04-16 2021-07-13 中德(珠海)人工智能研究院有限公司 一种真实人物与混合现实动态叠加的定位方法及系统
CN113178017A (zh) * 2021-04-28 2021-07-27 深圳市慧鲤科技有限公司 Ar数据展示方法、装置、电子设备及存储介质
CN113577774A (zh) * 2021-02-01 2021-11-02 腾讯科技(深圳)有限公司 虚拟对象生成方法、装置、电子设备及存储介质
CN113694528A (zh) * 2021-04-07 2021-11-26 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN114125310A (zh) * 2022-01-26 2022-03-01 荣耀终端有限公司 拍照方法、终端设备及云端服务器

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104937641A (zh) * 2013-02-01 2015-09-23 索尼公司 信息处理装置、客户端装置、信息处理方法以及程序
CN110168614A (zh) * 2016-12-26 2019-08-23 交互数字Ce专利控股公司 用于生成混合现实中的动态虚拟内容的设备和方法
CN108876900A (zh) * 2018-05-11 2018-11-23 重庆爱奇艺智能科技有限公司 一种与现实场景融合的虚拟目标投射方法和系统
CN111415422A (zh) * 2020-04-17 2020-07-14 Oppo广东移动通信有限公司 虚拟对象调整方法、装置、存储介质与增强现实设备
CN111510701A (zh) * 2020-04-22 2020-08-07 Oppo广东移动通信有限公司 虚拟内容的显示方法、装置、电子设备及计算机可读介质
CN111784847A (zh) * 2020-07-03 2020-10-16 珠海金山网络游戏科技有限公司 一种三维场景中物体显示的方法及装置
CN113577774A (zh) * 2021-02-01 2021-11-02 腾讯科技(深圳)有限公司 虚拟对象生成方法、装置、电子设备及存储介质
CN113694528A (zh) * 2021-04-07 2021-11-26 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN113112612A (zh) * 2021-04-16 2021-07-13 中德(珠海)人工智能研究院有限公司 一种真实人物与混合现实动态叠加的定位方法及系统
CN113178017A (zh) * 2021-04-28 2021-07-27 深圳市慧鲤科技有限公司 Ar数据展示方法、装置、电子设备及存储介质
CN114125310A (zh) * 2022-01-26 2022-03-01 荣耀终端有限公司 拍照方法、终端设备及云端服务器

Similar Documents

Publication Publication Date Title
JP7448566B2 (ja) クロスリアリティシステムにおけるスケーラブル3次元オブジェクト認識
CN105354876B (zh) 一种基于移动终端的实时立体试衣方法
US8933928B2 (en) Multiview face content creation
KR101710521B1 (ko) 사용자 신체의 cg 표현 기능이 구비된 가상 피팅을 위한 시뮬레이션 장치, 방법 및 이를 위한 컴퓨터 프로그램
JP2021125258A5 (zh)
CN108564641B (zh) 基于ue引擎的表情捕捉方法及装置
JP7499280B2 (ja) 人物の単眼深度推定のための方法およびシステム
KR101723823B1 (ko) 인터랙티브 공간증강 체험전시를 위한 동적 객체와 가상 객체 간의 인터랙션 구현 장치
CN102270275A (zh) 在虚拟环境中选择对象的方法
US11113571B2 (en) Target object position prediction and motion tracking
CN113449570A (zh) 图像处理方法和装置
WO2011075082A1 (en) Method and system for single view image 3 d face synthesis
JP2011159329A (ja) 自動3dモデリングシステム及び方法
JP2023532285A (ja) アモーダル中心予測のためのオブジェクト認識ニューラルネットワーク
KR102388715B1 (ko) 문화유적복원 실감 장치
CN114998490B (zh) 一种虚拟对象生成方法、装置、设备及存储介质
CN114004669A (zh) 数据处理方法、装置和计算机可读存储介质
CN117237409B (zh) 基于物联网的射击游戏准星校正方法及系统
US20210012529A1 (en) Information processing apparatus
Rasool et al. Haptic interaction with 2D images
WO2018182938A1 (en) Method and system for wireless ultra-low footprint body scanning
CN115147520A (zh) 基于视觉语义驱动虚拟人物的方法及设备
CN111145244A (zh) 房间面积获取方法及相关装置
CN114067046B (zh) 一种单张图片重建手部三维模型并显示的方法及系统
Baillard et al. Mixed reality extended TV

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination