CN117252983A - 一种对象重建方法、装置、计算机设备及存储介质 - Google Patents

一种对象重建方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN117252983A
CN117252983A CN202311153234.5A CN202311153234A CN117252983A CN 117252983 A CN117252983 A CN 117252983A CN 202311153234 A CN202311153234 A CN 202311153234A CN 117252983 A CN117252983 A CN 117252983A
Authority
CN
China
Prior art keywords
target
target object
determining
video frame
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311153234.5A
Other languages
English (en)
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Real AI Technology Co Ltd
Original Assignee
Beijing Real AI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Real AI Technology Co Ltd filed Critical Beijing Real AI Technology Co Ltd
Priority to CN202311153234.5A priority Critical patent/CN117252983A/zh
Publication of CN117252983A publication Critical patent/CN117252983A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • Architecture (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种对象重建方法、装置、计算机设备及存储介质,所述方法应用于人工智能领域,获取包括目标对象的目标视频;确定目标视频帧中目标对象对应的相机坐标;确定目标对象在目标视频帧中的姿态角;根据相机坐标和姿态角,确定目标对象对应的物理世界坐标;根据物理世界坐标,对目标对象进行三维重建,得到重建对象。本申请实施例通过目标对象在目标视频帧中的相机坐标和姿态角,确定目标对象的物理世界坐标,物理世界坐标能够灵活的表示目标对象在世界空间中的位置状态,从而基于物理世界坐标实现对任意对象的三维重建。通过物理世界坐标可以针对任意类型对象进行重建,不再受限于单一类型的模板的限制,扩展了三维重建物体的类别。

Description

一种对象重建方法、装置、计算机设备及存储介质
技术领域
本申请实施例涉及计算机视觉技术领域,尤其涉及一种对象重建方法、装置、计算机设备及存储介质。
背景技术
三维重建是指对三维物体建立适合计算机表示和处理的数学模型。基于单目红绿蓝(RGB)视频重建非刚性或可变性的三维物体是计算机视觉和图形学中一项长期存在且具有挑战性的任务。
相关技术中,利用基于模板的模型,通过建立目标对象与模板的映射关系实现目标对象的重建。例如,预先得到目标对象在刚性状态下的三维模型,并将其作为模板,然后追踪单目视频里目标对象的变化,适应性的修改作为模板的三维模型,从而得到弹幕视频中目标对象对应的重建对象。其中,基于模板的模型可以为蒙皮多人线性模型(SkinnedMulti-Person Linear Model,SMPL)、生成式3D人体形状和关节姿势模型(Generative 3DHuman Shape and Articulated Pose Models,GHUM(L))等人类骨骼模型、针对特定类别如人体、人脸、汽车模板等现成的重建模型等。
但是,由于不同对象具有不同的模板,采用一种模板只能针对一种对象进行重建,故基于上述相关技术所述的方式,依赖于模板,不能同时针对多种对象进行重建。
发明内容
本申请实施例提供了一种对象重建方法、装置、计算机设备及存储介质,通过目标对象在目标视频帧中的相机坐标和姿态角,确定目标对象的物理世界坐标,从而基于物理世界坐标实现目标对象的三维重建。由此,不再受限于单一类型的模板的限制,通过物理世界坐标可以针对任意类型对象进行三维重建。
第一方面,本申请实施例提供了一种对象重建方法,所述方法包括:
获取包括目标对象的目标视频;
确定目标视频帧中所述目标对象对应的相机坐标,所述目标视频帧为所述视频中包括所述目标对象的任意视频帧;
确定所述目标对象在所述目标视频帧中的姿态角;
根据所述相机坐标和所述姿态角,确定所述目标对象对应的物理世界坐标;
根据所述物理世界坐标,对所述目标对象进行对象重建,得到重建对象,所述重建对象是所述目标对象对应的虚拟对象。
第二方面,本申请实施例还提供了一种对象重建装置,所述装置包括所述装置包括处理器和收发器;
所述收发器,用于:
获取包括目标对象的目标视频;
所述处理器,用于:
确定目标视频帧中所述目标对象对应的相机坐标,所述目标视频帧为所述视频中包括所述目标对象的任意视频帧;
确定所述目标对象在所述目标视频帧中的姿态角;
根据所述相机坐标和所述姿态角,确定所述目标对象对应的物理世界坐标;
根据所述物理世界坐标,对所述目标对象进行三维重建,得到重建对象,所述重建对象是所述目标对象对应的虚拟对象。
第三方面,本申请实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时可实现上述方法。
本申请实施例提供了一种对象重建方法、装置、计算机设备及存储介质。其中,所述方法包括:获取包括目标物体的目标视频,以该包括目标对象的多个视频帧中的目标视频帧为例,确定目标视频帧中目标对象对应的相机坐标,以及目标对象在目标视频帧中的姿态角,其中,相机坐标用于描述目标对象在相机空间中的位置,姿态角用于描述目标对象在相机空间中的朝向,从而根据相机坐标和姿态角能够确定出目标对象在世界空间中的物理世界坐标,该物理世界坐标能够精确且唯一的表示目标对象在世界空间中的位置状态,从而根据物理世界坐标能够对目标对象进行三维重建,得到重建对象。本申请实施例通过目标对象在目标视频帧中的相机坐标和姿态角,确定目标对象的物理世界坐标,物理世界坐标能够灵活的表示目标对象在世界空间中的位置状态,从而基于物理世界坐标实现对任意对象的三维重建。由此,通过物理世界坐标可以针对任意类型对象进行三维重建,不再受限于单一类型的模板的限制。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的对象重建方法的应用场景示意图;
图2为本申请实施例提供的对象重建方法的流程示意图;
图3为本申请实施例提供的一种确定变换矩阵的示意图;
图4为本申请实施例提供的一种对象重建装置的示意性框图;
图5为本申请实施例中终端的一种结构示意图;
图6为本申请实施例中服务器的一种结构示意图;
图7为本申请实施例提供的一种对象重建的示意图;
图8为本申请实施例提供的一种对象重建装置的示意性框图。
具体实施方式
本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请实施例中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,本申请实施例中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。
本申请实施例供了一种对象重建方法、装置、计算机设备及计算机可读存储介质,该对象重建方法的执行主体可以是本申请实施例提供的对象重建装置,或者集成了对象重建装置的计算机设备,其中,该对象重建装置可以采用硬件或者软件的方式实现,该计算机设备可以为终端或服务器。
当该计算机设备为服务器时,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
当该计算机设备为终端时,该终端可以包括:智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视、智能音箱、个人数字助理(英文全称:Personal Digital Assistant,英文简称:PDA)、台式计算机、智能手表等携带多媒体数据处理功能(例如,视频数据播放功能、音乐数据播放功能)的智能终端,但并不局限于此。
本申请实施例的方案可基于人工智能技术实现,具体来说涉及人工智能技术中的计算机视觉技术领域和云技术中的云计算、云存储和数据库等领域,下面将分别进行介绍。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、模型鲁棒性检测、图像语义理解、图像检索、光学字符识别(optical character recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的模型鲁棒性检测、指纹识别等生物特征识别技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例的方案可基于云技术实现,具体来说涉及云技术中的云计算、云存储和数据库等技术领域,下面将分别进行介绍。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术(Cloudtechnology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图像类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。本申请实施例可通过云技术对识别结果进行保存。
云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。在本申请实施例中,可将网络配置等信息均保存在该存储系统中,便于服务器调取。
目前,存储系统的存储方法为:创建逻辑卷,在创建逻辑卷时,就为每个逻辑卷分配物理存储空间,该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据,也就是将数据存储在文件系统上,文件系统将数据分成许多部分,每一部分是一个对象,对象不仅包含数据而且还包含数据标识(ID,ID entity)等额外的信息,文件系统将每个对象分别写入该逻辑卷的物理存储空间,且文件系统会记录每个对象的存储位置信息,从而当客户端请求访问数据时,文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。
存储系统为逻辑卷分配物理存储空间的过程,具体为:按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(RAID,Redundant Array of Independent Disk)的组别,预先将物理存储空间划分成分条,一个逻辑卷可以理解为一个分条,从而为逻辑卷分配了物理存储空间。
数据库(Database),简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
数据库管理系统(英语:Database Management System,简称DBMS)是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类,例如关系式、XML(Extensible MarkupLanguage,即可扩展标记语言);或依据所支持的计算机类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如SQL(结构化查询语言,Structured QueryLanguage)、XQuery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。在本申请实施例中,可将识别结果存储在该数据库管理系统中,便于服务器调取。
其中,需要特别说明的是,本申请实施例涉及的服务终端,可以是指向服务终端提供语音和/或数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。例如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语音和/或数据。例如,个人通信业务(英文全称:Personal Communication Service,英文简称:PCS)电话、无绳电话、会话发起协议(SIP)话机、无线本地环路(Wireless LocalLoop,英文简称:WLL)站、个人数字助理(英文全称:Personal Digital Assistant,英文简称:PDA)等设备。
请参阅图1,图1为本申请实施例提供的对象重建方法的应用场景示意图。该对象重建方法应用于图1中的对象重建系统中,该对象重建系统包括终端11和服务器12,终端11和服务器12通过网络进行通信。
在实际应用中,用户可以通过终端11采集视频,终端11将采集的视频通过网络发送给服务器12,以便服务器12执行本申请实施例提供的对象重建方法,示例性地,获取包括目标对象的目标视频;确定目标视频帧中所述目标对象对应的相机坐标,所述目标视频帧为所述视频中包括所述目标对象的任意视频帧;确定所述目标对象在所述目标视频帧中的姿态角;根据所述相机坐标和所述姿态角,确定所述目标对象对应的物理世界坐标;根据所述物理世界坐标,对所述目标对象进行三维重建,得到重建对象,所述重建对象是所述目标对象对应的虚拟对象。
为了便于理解,下面结合图2具体进行说明。
图2为本申请实施例提供的对象重建方法的流程示意图。如图2所示,该方法包括以下步骤S210-S250。
S210、获取包括目标对象的目标视频。
视频泛指将一系列静态影像以电信号的方式加以捕捉、记录、处理、储存、传送与重现的各种技术。连续的图像变化每秒超过24帧画面以上时,根据视觉暂留原理,人眼无法辨别单幅的静态画面;看上去是平滑连续的视觉效果,这样连续的画面叫做视频。视频包括多个视频帧,视频帧是视频中的一帧图像。目标视频是包括目标对象的视频。
目标对象是视频帧中等待进行三维重建的对象,可以人、物体等,还行可以是刚性物体或非刚性物体。
作为一种可能的实现方式,可以获取单目红绿蓝(Red-Green-Blue,RGB)视频,从单目RGB视频中包括的多个对象确定一个对象作为目标对象,在单目RGB视频中识别目标对象,获取包括目标对象的n个视频帧,以便后续基于n个视频帧对目标对象进行三维重建,而不是单目RGB视频包括的所有视频帧,降低了三维重建成本。
其中,RGB视频包括连续的m个视频帧,m为大于或等于n的整数。目标对象为单目RGB视频包括的多个物体中的一个物体。
在实际应用中,可以获取包括m个连续的视频帧的单目RGB视频,然后将待进行三维重建的对象作为目标对象,从m个视频帧中获取包括目标对象的n个视频帧,并根据S210-S250的方式对目标对象进行三维重建。参见图7,该图为本申请实施例提供的一种对象重建的示意图。在图7中,按照时间推移,从每个视频帧中选取包括目标对象的人脸的4个视频帧,基于4个视频帧中的目标对象进行三维重建。最后还可以将单目RGB视频中各个需要进行三维重建的对象均分别作为目标对象,从而实现针对单目RGB视频的三维重建。由此,通过上述方式可以实现对单目RGB视频的三维重建。
S220、确定目标视频帧中目标对象对应的相机坐标。
在视频中目标对象会不断的运动,从而使得在各个视频帧中的目标对象中存在区别。例如,若目标对象是小狗,则第10个视频帧中小狗在睡觉,第30帧小狗在喝水。为了方便说明,下面以视频包括的多个视频帧中一帧视频帧,即目标视频帧为例进行说明,其中视频包括的多个视频帧中均包括目标对象。
相机坐标用于标识目标对象在相机空间中的位置,可以通过在相机空间中建立相机坐标系表示。
作为一种可能的实现方式,针对目标视频帧,可以获取目标对象的图像坐标,根据图像坐标确定目标对象在相机空间中的相机坐标。具体地,图像坐标用于标识目标对象在目标视频帧对应的成像平面中的位置,可以通过在目标视频帧对应的成像平面中建立图像坐标系表示。其中,图像坐标系的原点为相机光轴与成像平面的交点,可以为成像平面的中点。成像平面属于2D平面,相机空间属于3D空间,从图像坐标系到相机坐标系,属于透视投影关系,故根据透视投影关系,可以将目标对象在目标视频帧的图像坐标转换为目标对象在相机空间中的相机坐标。
作为一种可能的实现方式,可以通过像素确定目标对象的图像坐标。具体地,视频帧是由多个像素排列组成,故可以确定目标对象在目标视频帧中所对应的像素,然后确定目标对象对应的像素在像素坐标系中的像素坐标。其中,像素坐标系和图像坐标系都在成像平面上,像素坐标系和图像坐标系的原点不同,像素坐标系的原点一般在成像平面的左上角。通过两个坐标系间的转换关系以及像素坐标,可以获取目标对象在图像坐标系的图像坐标,即目标对象在目标视频帧中的图像坐标。
S230、确定目标对象在目标视频帧中的姿态角。
其中,姿态角用于描述目标视频帧中的目标对象在相机空间中的朝向,可以通过目标对象在相机坐标系中与三个轴的夹角进行表示。由此,通过识别目标对象在目标视频帧中的姿态角,无需获取针对目标对象的模板,从而不论目标对象是什么,都能通过确定的姿态角进行灵活表示,避免了单一模板对目标对象的类型的限定,从而扩展了三维重建物体的类别。尤其针对视频中所有对象进行三维重建时,可以依次将各个对象作为目标对象进行重建,不受单一模板的限制,使得三维重建的效果更好。
本申请实施例可以应用在刚性物体或非刚性物体的三维重建,而且也可以适用于视频中姿态角变换较大的对象,或者对象变形较大的三维重建,例如,3D人脸攻击时用于多帧视频帧中对象的姿态角识别,如对于3D结构光人脸识别设备,使用的数据是人脸拍摄10秒的视频,采用本申请实施例提供的三维重建方法对10秒内出现的人脸进行三维重建。
本申请实施例不具体限定确定目标对象在目标视频帧中的姿态的方式,例如,Pnp、基于CSE的姿态估计等方式确定主变换矩阵。其中,Pnp(Perspective-n-Point)描述了当已知n个物理世界坐标系下的3D空间点以及它们的2D归一化相机坐标系下的坐标时,如何估计相机位姿的方法。基于CSE的姿态估计是连续表面嵌入(Continuous surfaceembedding),下面以两种方式为例进行说明。
方式一:差异确定方式。
获取目标对象在历史视频帧中的历史姿态角,确定历史视频帧和目标视频帧的差异,根据历史姿态角和差异确定目标对象在目标视频帧中的姿态角。
其中,历史姿态角用于描述相机空间中,目标对象在历史视频帧中的姿态角。差异是指针对于目标对象在历史视频帧和在目标视频帧之间存在的不同。历史视频帧与目标视频帧间隔预设数量的视频帧,且历史视频帧的播放结束时刻早于所述目标视频帧的播放起始时刻。作为一种可能的实现方式,历史视频帧和目标视频帧为相邻的两帧视频帧,如历史视频帧为第i-1个视频帧,目标视频帧为第i个视频帧,相邻的两帧视频帧均描述了目标对象的连续运动,且二者差异较小,确定出的姿态角的精度较高,i为大于1的整数。
由此,在目标对象在历史姿态角的基础上,即目标对象在历史视频帧中的历史姿态角的基础上,叠加历史视频帧与目标视频帧之间的差异,不仅能够得到目标对象在目标视频帧中的姿态角,还能够降低直接确定目标对象在目标视频帧中的姿态角的计算量,提高单目RGB视频的通用建模任务的性能。
方式二:姿态分解方式。
姿态角是根据多个局部变换矩阵得到的,局部变换矩阵用于标识特征点从相机空间变换至世界空间的映射关系,特征点用于标识目标对象的一部分,通过多个特征点可以标识目标对象。
在视频帧中,目标对象可以看成是特征点集合组成的,特征点集合包括多个特征点,多个特征点可以表征目标对象。例如,若目标对象是人,则可以将人的各个关节处作为特征点,从而仅针对特征点识别目标对象,降低后续计算量。也可以将人身体在视频帧对应的每一个像素点均作为特征点,虽然后续计算量增大,但是后续确定的姿态角的精度会提高。本申请对此不做具体限定,本领域技术人员可以根据实际需要进行设置。
由于不存在目标对象对应的模板,故为了确定目标对象从相机空间变换至世界空间的映射关系,可以通过将目标对象划分为多个部分,一般处于同一部分的目标对象的姿态角均较为相似,从而分别确定各个部分的特征点从相机空间变换至世界空间的映射关系,即特征点集合包括的多个特征点分别对应的多个局部变换矩阵。进而通过将目标对象的姿态分解为多个部分分别对应的姿态角(即局部变换矩阵),能够应对非刚性物体的变形和运动,稳定性更高,重建效果更好。
作为一种可能的实现方式,可以分别确定每个特征点对应的局部变换矩阵进行说明。确定目标对象的特征点集合,将特征点集合包括的多个特征点分别作为目标特征点,确定目标特征点对应的局部变换矩阵,将多个特征点分别作为目标特征点,得到多个局部变换矩阵,根据多个局部变换矩阵确定主变换矩阵。
其中,局部变换矩阵用于标识特征点从相机空间变换至世界空间的映射关系,目标特征点为多个特征点中的一个特征点,主变换矩阵用于标识目标对象在目标视频帧中的姿态角。
在确定多个局部变换矩阵后,可以根据多个局部变换矩阵确定一个目标对象对应的主变换矩阵,主变换矩阵能够标识目标对象在目标视频帧中的姿态角。例如,若主变换矩阵包括用于标识旋转变换的旋转矩阵和用于标识移动的平移矩阵,则通过主变换矩阵能够拟合世界空间中的相应点来旋转和平移处于相机空间中的特征点。
由此,通过将目标对象的姿态角分解为多个部分分别对应的姿态角,即特征点集合包括的多个特征点分别对应的局部变换矩阵,从而根据多个局部变换矩阵确定主变换矩阵,主变换矩阵能够标识目标对象的姿态角,从而通过先确定局部再确定全局,无需预先建立连续表面特征或相机变换,能够应对非刚性物体的较大的变形和运动。
本申请实施例不具体限定确定目标特征点对应的局部变换矩阵的方式,例如可以为:确定目标对象在目标采样时间对应的目标对象中心,在目标方向上,获取目标特征点的视角方向编码信息和变形编码信息,根据视角方向编码信息和变形编码信息,确定目标特征点的局部变换矩阵。
其中,目标采样时间为多个采样时间中的一个采样时间。在相机空间中,可以任意设置一点,作为目标物体在目标采样时间对应的目标物体中心。目标方向为目标对象中心朝向目标特征点的方向。
为了方便说明,下面以多个特征点中的一个特征点,即目标特征点为例,对各个特征点的局部变换矩阵进行说明。
视角方向编码信息是对目标特征点的视角方向的编码,目标对象的视角方向是目标对象与目标对象中心的方向,以便通过视角方向明确目标特征点是否可视、形态等。
变形编码信息是对目标特征点发生的形变的编码,即目标特征点从相机空间变换至世界空间发生的形变。作为一种可能的实现方式,可以通过神经网络方式学习获得局部变换矩阵。例如,采用神经辐射场(Neural Radiance Field,NeRF)的全连接架构,建立一个密集的SE(3)场来计算各个物体点Xt围绕目标对象中心Ot的局部变换矩阵。
以局部变换矩阵包括旋转矩阵和平移矩阵为例,通过NeRF确定局部变换矩阵可以表示为公式(1)。
其中,表示旋转矩阵;/>表示平移矩阵;d′t表示视角方向编码信息;xt-ot表示目标对象点与目标对象中心的方向;/>表示变形编码信息。
参见图3,该图为本申请实施例提供的一种确定变换矩阵的示意图。在图3中,构建了两层多层感知器(Multilayer Perceptron,MLP),第一层MLP用于对目标特征点进行编码,第二层MLP结合编码后的目标特征点,以及目标特征点的视角方向编码信息和变形编码信息得到局部旋转矩阵和局部平移矩阵/>
作为一种可能的实现方式,主变换矩阵包括旋转变换矩阵和平移变换矩阵。
本申请实施例不具体限定根据多个局部变换矩阵确定主变换矩阵的方式,例如,在虚拟摄像装置与多个特征点的方向分别进行采样,得到多个采样点,获取多个采样点分别对应的可视概率,根据多个可视概率、多个采样点对应的局部旋转矩阵和预设空间中的对应点,确定主旋转矩阵,根据多个可视概率和多个采样点对应的局部平移矩阵,确定主平移矩阵,根据主旋转矩阵和主平移矩阵,确定主变换矩阵。
在相机空间中,延长从虚拟摄像装置的相机原点到相机平面上的每个像素的连线,形成多条射线,以其中一条射线为例,在该条射线按照时间(或者说深度)进行采样,得到多个采样点,进而沿着每一条射线进行采样,得到多个采样点。
其中,可视概率用于标识采样点在成像平面中被虚拟摄像装置模拟录制的概率,或者说采样点被虚拟摄像装置拍摄到的概率,可以通过公式(2)得到。
其中,τn表示可视概率;σn表示第n个采样的密度,可以通过NeRF框架得到;σn表示第n个采样点与第n+1个采样点之间的间隔。
预设空间可以为三维正交群中的对应点,可以表示为R∈SO(3)。作为一种可能的实现方式,可以通过考虑所有采样点的局部旋转矩阵来近似计算主旋转矩阵,并利用弗罗贝尼乌斯准则(Frobenius criterion)来对最优旋转矩阵的偏离进行惩罚,即通过寻求满足预设条件的局部旋转矩阵来确定主旋转矩阵,预设条件可以通过公式(3)表示。
其中,Rt表示主旋转矩阵;SO(3)表示三维正交群;τn表示可视概率;表示Frobenius范数;τn表示/>在成像平面中被虚拟摄像装置模拟录制的概率;/>表示第n个采样点对应的局部旋转矩阵;j表示在相机空间中,从虚拟摄像装置向多个特征点分别发射的第j条射线。需要说明的是,参数τn和/>也与j有关,为简单起见,本申请实施例省略了脚标j。
由此,通过引入各个采样点的可视概率,能够鼓励靠近表面的点获得更大的重要性,从而提高主旋转矩阵的准确性。
作为一种可能的实现方式,可以通过公式(4)的方式确定主平移矩阵。
其中,Tt表示主平移矩阵,τn表示在成像平面中被虚拟摄像装置模拟录制的概率;/>表示第n个采样点对应的局部平移矩阵;j表示在相机空间中,从虚拟摄像装置向多个特征点分别发射的第j条射线。需要说明的是,参数τn和/>也与j有关,为简单起见,本申请实施例省略了脚标j。
作为一种可能的实现方式,可以通过公式(5)的方式确定主变换矩阵。
其中,Gt表示主变换矩阵;gt表示隐层姿态编码,即一个学到的隐层编码向量,无实际物理定义,由卷积网络作用在t时刻图像上获得;MLP表示全连接网络层。需要说明的是,在时间t,采用单个局部变换的组成来参数化在相机空间中的三维点Xt,其变换矩阵可以具体表示为公式(6)。
其中,表示在Xt坐标的单个局部变换的变换矩阵;/>表示变换矩阵中的局部旋转矩阵;/>表示变换矩阵中的局部平移矩阵。
由此,在确定主变换矩阵后,能够将时间t采样得到的采样点均匀地旋转和平移到世界空间,从而通过三维重建得到重建对象。
S240、根据相机坐标和姿态角,确定目标对象对应的物理世界坐标。
物理世界坐标用于标识目标对象在世界空间中的位置,可以通过在世界空间中建立物理世界坐标系进行表示。其中,世界空间是指视频包括的多个视频帧分别对应的相机空间共享的一个空间,从相机坐标系到物理世界坐标系属于刚体变换,即物体不会发生形变,主要依靠旋转变换和平移变换。
相机坐标用于描述目标对象在相机空间中的位置,姿态角用于描述目标对象在相机空间中的朝向,通过从相机坐标系到物理世界坐标系的转换关系,可以获得目标对象在物理世界坐标系中的物理世界坐标,可以表示为公式(7)。
其中,X*表示物理世界坐标;表示从相机空间变换至世界空间的映射关系;Gt表示姿态;Xt表示相机坐标。
继续参见图7,将每一个视频帧分别作为目标视频帧,确定每一个视频帧中目标对象的再基于/>确定Gt,得到目标对象在相机空间中的相机坐标和姿态角。从而根据相机坐标和姿态角,确定目标对象在世界空间中的物理世界坐标。
S250、根据物理世界坐标,对目标对象进行三维重建,得到重建对象。
任何一个刚体在物理世界坐标系中可以用位置和姿态角来精确、唯一表示其位置状态,由此,通过目标对象的物理世界坐标能够实现对目标对象的三维重建,从而得到重建对象,重建对象是目标对象进行三维重建后得到的对象,是目标对象对应的虚拟对象。
由上述技术方案可知,获取包括目标物体的目标视频,以该包括的目标对象的多个视频帧中的目标视频帧为例,确定目标视频帧中目标对象对应的相机坐标,以及目标对象在目标视频帧中的姿态角,其中,相机坐标用于描述目标对象在相机空间中的位置,姿态角用于描述目标对象在相机空间中的朝向,从而根据相机坐标和姿态角能够确定出目标对象在世界空间中的物理世界坐标,该物理世界坐标能够精确且唯一的表示目标对象在世界空间中的位置状态,从而根据物理世界坐标能够对目标对象进行三维重建,得重建对象。本申请实施例通过目标对象在目标视频帧中的相机坐标和姿态角,确定目标对象的物理世界坐标,物理世界坐标能够灵活的表示目标对象在世界空间中的位置状态,从而基于物理世界坐标实现对任意对象的三维重建。由此,通过物理世界坐标可以针对任意类型对象进行三维重建,不再受限于单一类型的模板的限制。
作为一种可能的实现方式,还可以基于重建对象测试待定识别模型的准确性。具体地,调整重建对象的视角,得到至少一个测试对象,不同的测试对象为不同视角下的重建对象。其中,视角是指观察物体时从物体两端(上、下或左、右)引出的光线在人眼光心处所成的夹角。例如,测试对象可以是重建对象的正视图(或者说从正面看重建对象),测试对象还可以是重建对象的俯视图(或者说从上面向下看重建对象)等。
将测试对象输入至待测识别模型,得到识别结果。基于该识别结果确定待测识别模型的准确性。待测识别模型可以用于识别车辆、人脸、车牌等对象。例如,若待测识别模型想要用于识别人脸,则可以先基于S210-S250构建针对于人脸的重建对象,然后将该重建对象调整为正视角,得到测试对象,基于该待测识别模型对测试对象进行识别,得到识别结果,如能够识别或识别出该人脸为假的等。由于测试对象是虚拟对象,理论上不应该被待测识别模型识别为正确的对象,故可以基于该识别结果确定出待测识别模型的准确性,若该待测识别模型的准确性不高,则可以继续训练待测识别模型,若该待测识别模型的准确性较高,则可以将该待测识别模型上线,应用于实际场景。
对应于以上三维重建方法,本申请还提供一种对象重建装置。参见图8,该图为本申请实施例提供的一种对象重建装置的示意性框图。所述对象重建装置包括收发模块801和处理模块802,下面分别进行说明。
收发模块801,用于:
获取包括目标对象的目标视频;
处理模块802,用于:
确定目标视频帧中所述目标对象对应的相机坐标,所述目标视频帧为所述视频中包括所述目标对象的任意视频帧;
确定所述目标对象在所述目标视频帧中的姿态角;
根据所述相机坐标和所述姿态角,确定所述目标对象对应的物理世界坐标;
根据所述物理世界坐标,对所述目标对象进行三维重建,得到重建对象,所述重建对象是所述目标对象对应的虚拟对象。
作为一种可能的实现方式,所述对象重建装置还包括存储模块,用于:
存储处理模块802执行对象重建方法所需的数据,如视频、姿态角、物理世界坐标等。
收发模块801,还用于:
输出所述重建对象。
作为一种可能的实现方式,处理模块802,具体用于:
获取所述目标对象在历史视频帧中的历史姿态角,所述历史视频帧为所述视频中的任意一帧视频帧,所述历史视频帧的播放结束时刻提前于所述目标视频帧的播放起始时刻;
确定所述历史视频帧和所述目标视频帧的差异;
根据所述历史姿态角和所述差异,确定所述目标对象在所述目标视频帧中的姿态角。
作为一种可能的实现方式,所述姿态角根据多个局部变换矩阵得到,所述局部变换矩阵用于标识特征点从相机空间变换至世界空间的映射关系,多个所述特征点用于标识所述目标对象。
作为一种可能的实现方式,处理模块802,具体用于:
确定所述目标对象的特征点集合,所述特征点集合包括多个特征点;
确定目标特征点对应的局部变换矩阵,所述目标特征点为所述多个特征点中的一个特征点;
将所述多个特征点分别作为目标特征点,得到所述多个局部变换矩阵;
根据所述多个局部变换矩阵确定主变换矩阵,所述主变换矩阵用于标识所述目标对象在所述目标视频帧中的姿态角。
作为一种可能的实现方式,处理模块802,具体用于:
确定所述目标对象在目标采样时间对应的目标对象中心,所述目标采样时间为采集所述目标特征点的时间;
在目标方向上,获取所述目标特征点的视角方向编码信息和变形编码信息,所述变形编码信息用于标识所述目标特征点从所述相机空间变换至所述世界空间发生的形变,所述目标方向是所述目标对象中心朝向所述目标特征点的方向;
根据所述视角方向编码信息和所述变形编码信息,确定所述目标特征点的局部变换矩阵。
作为一种可能的实现方式,所述局部变换矩阵包括旋转变换矩阵和平移变换矩阵。
作为一种可能的实现方式,若所述局部变换矩阵包括旋转变换矩阵和平移变换矩阵,处理模块802,具体用于:
在虚拟摄像装置与所述多个特征点的方向分别进行采样,得到多个采样点;
获取所述多个采样点分别对应的多个可视概率,所述可视概率用于标识所述采样点在成像平面中被所述虚拟摄像装置模拟录制的概率;
根据所述多个可视概率、所述多个采样点对应的局部旋转矩阵和预设空间中的对应点,确定主旋转矩阵;
根据所述多个可视概率和所述多个采样点对应的局部平移矩阵,确定主平移矩阵;
根据所述主旋转矩阵和所述主平移矩阵,确定所述主变换矩阵。
作为一种可能的实现方式,所述目标对象为非刚性物体。
作为一种可能的实现方式,所述装置还包括应用单元,用于:
调整所述重建对象的视角,得到至少一个测试对象,不同所述测试对象为不同视角下的重建对象;
将所述测试对象输入至待测识别模型,得到识别结果;
基于所述识别结果,确定所述待测识别模型的准确性。
由上述技术方案可知,获取包括目标物体的目标视频,以该包括的目标对象的多个视频帧中的目标视频帧为例,确定目标视频帧中目标对象对应的相机坐标,以及目标对象在目标视频帧中的姿态角,其中,相机坐标用于描述目标对象在相机空间中的位置,姿态角用于描述目标对象在相机空间中的朝向,从而根据相机坐标和姿态角能够确定出目标对象在世界空间中的物理世界坐标,该物理世界坐标能够精确且唯一的表示目标对象在世界空间中的位置状态,从而根据物理世界坐标能够对目标对象进行三维重建,得重建对象。本申请实施例通过目标对象在目标视频帧中的相机坐标和姿态角,确定目标对象的物理世界坐标,物理世界坐标能够灵活的表示目标对象在世界空间中的位置状态,从而基于物理世界坐标实现对任意对象的三维重建。由此,通过物理世界坐标可以针对任意类型对象进行三维重建,不再受限于单一类型的模板的限制。
上面从模块化功能实体的角度对本申请实施例中的对象重建系统进行了描述,下面从硬件处理的角度分别对本申请实施例中的对象重建装置进行描述。
需要说明的是,在本申请实施例各实施例(包括图8所示的各实施例)中所有的收发模块对应的实体设备可以为图4所示的收发器,所有的处理模块对应的实体设备可以为图4所示的处理器。
图4所示的系统可以具有如图5所示的结构,当图4所示的装置具有如图5所示的结构时,图5中的处理器能够实现前述对应该装置的装置实施例提供的所述处理模块相同或相似的功能,图5中的收发器能够实现前述对应该装置的装置实施例提供的所述收发模块相同或相似的功能,图5中的存储器存储处理器执行上述对象重建方法时需要调用的计算机程序。在本申请实施例图4所示的实施例中的所述收发器所对应的实体设备可以为输入输出接口,所述处理模块对应的实体设备可以为处理器。
本申请实施例还提供了一种终端设备,如图5所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(英文全称:Personal Digital Assistant,英文简称:PDA)、销售终端(英文全称:Point of Sales,英文简称:POS)、车载电脑等任意终端设备,以终端为手机为例:
图5示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图5,手机包括:射频(英文全称:Radio Frequency,英文简称:RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(英文全称:wirelessfidelity,英文简称:Wi-Fi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解,图5中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图5对手机的各个构成部件进行具体的介绍:
RF电路510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器580处理;另外,将设计上行的数据发送给基站。通常,RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称:LowNoise Amplifier,英文简称:LNA)、双工器等。此外,RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(英文全称:Global System of Mobile communication,英文简称:GSM)、通用分组无线服务(英文全称:General Packet Radio Service,英文简称:GPRS)、码分多址(英文全称:Code Division Multiple Access,英文简称:CDMA)、宽带码分多址(英文全称:Wideband Code Division Multiple Access,英文简称:WCDMA)、长期演进(英文全称:LongTerm Evolution,英文简称:LTE)、电子邮件、短消息服务(英文全称:Short MessagingService,英文简称:SMS)等。
存储器520可用于存储软件程序以及模块,处理器580通过运行存储在存储器520的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元530可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元530可包括触控面板531以及其他输入设备532。触控面板531,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器580,并能接收处理器580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531,输入单元530还可以包括其他输入设备532。具体地,其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541,可选的,可以采用液晶显示器(英文全称:LiquidCrystal Display,英文简称:LCD)、有机发光二极管(英文全称:Organic Light-EmittingDiode,英文简称:OLED)等形式来配置显示面板541。进一步的,触控面板531可覆盖显示面板541,当触控面板531检测到在其上或附近的触摸操作后,传送给处理器580以确定触摸事件的类型,随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图5中,触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器550,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板541的亮度,接近传感器可在手机移动到耳边时,关闭显示面板541和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路560、扬声器561,传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号,传输到扬声器561,由扬声器561转换为声音信号输出;另一方面,传声器562将收集的声音信号转换为电信号,由音频电路560接收后转换为音频数据,再将音频数据输出处理器580处理后,经RF电路510以发送给比如另一手机,或者将音频数据输出至存储器520以便进一步处理。
Wi-Fi属于短距离无线传输技术,手机通过Wi-Fi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图5示出了Wi-Fi模块570,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变申请的本质的范围内而省略。
处理器580是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器520内的软件程序和/或模块,以及调用存储在存储器520内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器580可包括一个或多个处理单元;优选的,处理器580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器580中。
手机还包括给各个部件供电的电源590(比如电池),电源可以通过电源管理系统与处理器580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该手机所包括的处理器580还具有控制执行以上由图2所示的对象重建方法。
图6是本申请实施例提供的一种服务器结构示意图,该服务器620可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(英文全称:centralprocessing units,英文简称:CPU)622(例如,一个或一个以上处理器)和存储器632,一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器622可以设置为与存储介质630通信,在服务器620上执行存储介质630中的一系列指令操作。
服务器620还可以包括一个或一个以上电源626,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口658,和/或,一个或一个以上操作系统641,例如Windows Server,Mac OS X,Unix,Linux,FreeBSD等等。
上述实施例中由服务器所执行的步骤可以基于该图6所示的服务器620的结构。例如上述实施例中由图2所示的服务器的步骤可以基于该图6所示的服务器结构。例如,所述处理器622通过调用存储器632中的指令,执行以下操作:
获取包括目标对象的目标视频;
确定目标视频帧中所述目标对象对应的相机坐标,所述目标视频帧为所述视频中包括所述目标对象的任意视频帧;
确定所述目标对象在所述目标视频帧中的姿态角;
根据所述相机坐标和所述姿态角,确定所述目标对象对应的物理世界坐标;
根据所述物理世界坐标,对所述目标对象进行三维重建,得到重建对象,所述重建对象是所述目标对象对应的虚拟对象。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上对本申请实施例所提供的技术方案进行了详细介绍,本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请实施例的限制。

Claims (11)

1.一种对象重建方法,其特征在于,所述方法包括:
获取包括目标对象的目标视频;
确定目标视频帧中所述目标对象对应的相机坐标,所述目标视频帧为所述视频中包括所述目标对象的任意视频帧;
确定所述目标对象在所述目标视频帧中的姿态角;
根据所述相机坐标和所述姿态角,确定所述目标对象对应的物理世界坐标;
根据所述物理世界坐标,对所述目标对象进行三维重建,得到重建对象,所述重建对象是所述目标对象对应的虚拟对象。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标对象在所述目标视频帧中的姿态角,包括:
获取所述目标对象在历史视频帧中的历史姿态角,所述历史视频帧为所述视频中的任意一帧视频帧,所述历史视频帧的播放结束时刻提前于所述目标视频帧的播放起始时刻;
确定所述历史视频帧和所述目标视频帧的差异;
根据所述历史姿态角和所述差异,确定所述目标对象在所述目标视频帧中的姿态角。
3.根据权利要求1所述的方法,其特征在于,所述姿态角根据多个局部变换矩阵得到,所述局部变换矩阵用于标识特征点从相机空间变换至世界空间的映射关系,多个所述特征点用于标识所述目标对象。
4.根据权利要求3所述的方法,其特征在于,所述确定目标对象在所述目标视频帧中的姿态角,包括:
确定所述目标对象的特征点集合,所述特征点集合包括多个特征点;
确定目标特征点对应的局部变换矩阵,所述目标特征点为所述多个特征点中的一个特征点;
将所述多个特征点分别作为目标特征点,得到所述多个局部变换矩阵;
根据所述多个局部变换矩阵确定主变换矩阵,所述主变换矩阵用于标识所述目标对象在所述目标视频帧中的姿态角。
5.根据权利要求4所述的方法,其特征在于,所述确定所述目标特征点对应的局部变换矩阵,包括:
确定所述目标对象在目标采样时间对应的目标对象中心,所述目标采样时间为采集所述目标特征点的时间;
在目标方向上,获取所述目标特征点的视角方向编码信息和变形编码信息,所述变形编码信息用于标识所述目标特征点从所述相机空间变换至所述世界空间发生的形变,所述目标方向是所述目标对象中心朝向所述目标特征点的方向;
根据所述视角方向编码信息和所述变形编码信息,确定所述目标特征点的局部变换矩阵。
6.根据权利要求4所述的方法,其特征在于,
若所述局部变换矩阵包括旋转变换矩阵和平移变换矩阵,则所述根据多个所述局部变换矩阵确定主变换矩阵,包括:
在虚拟摄像装置与所述多个特征点的方向分别进行采样,得到多个采样点;
获取所述多个采样点分别对应的多个可视概率,所述可视概率用于标识所述采样点在成像平面中被所述虚拟摄像装置模拟录制的概率;
根据所述多个可视概率、所述多个采样点对应的局部旋转矩阵和预设空间中的对应点,确定主旋转矩阵;
根据所述多个可视概率和所述多个采样点对应的局部平移矩阵,确定主平移矩阵;
根据所述主旋转矩阵和所述主平移矩阵,确定所述主变换矩阵。
7.根据权利要求1-6任意一项所述的方法,其特征在于,所述目标对象为非刚性物体。
8.根据权利要求1-6任意一项所述的方法,其特征在于,所述方法还包括:
调整所述重建对象的视角,得到至少一个测试对象不同所述测试对象为不同视角下的重建对象;
将所述测试对象输入至待测识别模型,得到识别结果;
基于所述识别结果,确定所述待测识别模型的准确性。
9.一种对象重建装置,其特征在于,所述装置包括处理器和收发器;
所述收发器,用于:
获取包括目标对象的目标视频;
所述处理器,用于:
确定目标视频帧中所述目标对象对应的相机坐标,所述目标视频帧为所述视频中包括所述目标对象的任意视频帧;
确定所述目标对象在所述目标视频帧中的姿态角;
根据所述相机坐标和所述姿态角,确定所述目标对象对应的物理世界坐标;
根据所述物理世界坐标,对所述目标对象进行三维重建,得到重建对象,所述重建对象是所述目标对象对应的虚拟对象。
10.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-8中任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时可实现如权利要求1-8中任一项所述的方法。
CN202311153234.5A 2023-09-07 2023-09-07 一种对象重建方法、装置、计算机设备及存储介质 Pending CN117252983A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311153234.5A CN117252983A (zh) 2023-09-07 2023-09-07 一种对象重建方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311153234.5A CN117252983A (zh) 2023-09-07 2023-09-07 一种对象重建方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN117252983A true CN117252983A (zh) 2023-12-19

Family

ID=89127249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311153234.5A Pending CN117252983A (zh) 2023-09-07 2023-09-07 一种对象重建方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN117252983A (zh)

Similar Documents

Publication Publication Date Title
CN111914113B (zh) 一种图像检索的方法以及相关装置
CN111209423B (zh) 一种基于电子相册的图像管理方法、装置以及存储介质
CN114973351B (zh) 人脸识别方法、装置、设备及存储介质
CN114722937B (zh) 一种异常数据检测方法、装置、电子设备和存储介质
CN114694226B (zh) 一种人脸识别方法、系统及存储介质
CN113822427A (zh) 一种模型训练的方法、图像匹配的方法、装置及存储介质
CN115022098A (zh) 人工智能安全靶场内容推荐方法、装置及存储介质
CN112995757B (zh) 视频剪裁方法及装置
CN114328945A (zh) 知识图谱对齐方法、装置、设备以及存储介质
CN115376192B (zh) 用户异常行为确定方法、装置、计算机设备及存储介质
CN116778306A (zh) 伪造对象检测方法、相关装置及存储介质
CN116758362A (zh) 图像处理方法、装置、计算机设备及存储介质
CN116071614A (zh) 样本数据处理方法、相关设备及存储介质
CN114821751B (zh) 图像识别方法、装置、系统及存储介质
CN115546516A (zh) 人员聚档方法、装置、计算机设备及存储介质
CN115984643A (zh) 模型训练方法、相关设备及存储介质
CN117011929A (zh) 一种头部姿态估计方法、装置、设备以及存储介质
CN117252983A (zh) 一种对象重建方法、装置、计算机设备及存储介质
CN113705309A (zh) 一种景别类型判断方法、装置、电子设备和存储介质
CN115412726B (zh) 视频真伪检测方法、装置及存储介质
CN116934982A (zh) 对象处理方法、相关装置及存储介质
CN115909186B (zh) 图像信息识别方法、装置、计算机设备及存储介质
CN115525554B (zh) 模型的自动化测试方法、系统及存储介质
CN116386647B (zh) 音频验证方法、相关装置、存储介质及程序产品
CN116363490A (zh) 伪造对象检测方法、相关装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination