CN118485712A - 用于处理信息的方法、装置、电子设备和介质 - Google Patents
用于处理信息的方法、装置、电子设备和介质 Download PDFInfo
- Publication number
- CN118485712A CN118485712A CN202311847638.4A CN202311847638A CN118485712A CN 118485712 A CN118485712 A CN 118485712A CN 202311847638 A CN202311847638 A CN 202311847638A CN 118485712 A CN118485712 A CN 118485712A
- Authority
- CN
- China
- Prior art keywords
- key point
- preset key
- information
- camera
- coordinate information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 77
- 230000008859 change Effects 0.000 claims description 32
- 230000004927 fusion Effects 0.000 claims description 23
- 238000010586 diagram Methods 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 13
- 238000009877 rendering Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 7
- 210000003128 head Anatomy 0.000 description 7
- 230000010365 information processing Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 230000033001 locomotion Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000012634 optical imaging Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本公开提供了一种用于处理信息的方法、装置、电子设备和介质。具体实现方案为:获取头戴显示设备上的相机在当前时刻采集的当前帧图像和相机在当前时刻的估计位姿信息,其中,当前帧图像包括目标对象中的多个预设关键点;采用相机在当前时刻的估计位姿信息和上一时刻各预设关键点的三维坐标信息,将各预设关键点重投影到当前帧图像,得到各预设关键点在当前帧图像的二维估计坐标信息;修正所得到的各预设关键点的二维估计坐标信息,得到各预设关键点在当前帧图像的二维坐标信息;基于各预设关键点在当前帧图像的二维坐标信息,确定当前时刻各预设关键点的三维坐标信息。
Description
技术领域
本公开涉及人工智能技术领域,尤其是一种用于处理信息的方法、装置、电子设备和介质。
背景技术
在增强现实、虚拟现实等场景中,通常存在识别对象在空间中位置的需求。因此,如何快速准确地确定对象在空间中的位置成为亟需解决的问题。
发明内容
第一方面,本公开实施例提供了一种用于处理信息的方法,包括:获取头戴显示设备上的相机在当前时刻采集的当前帧图像和相机在当前时刻的估计位姿信息,其中,当前帧图像包括目标对象中的多个预设关键点;采用相机在当前时刻的估计位姿信息和上一时刻各预设关键点的三维坐标信息,将各预设关键点重投影到当前帧图像,得到各预设关键点在当前帧图像的二维估计坐标信息;修正所得到的各预设关键点的二维估计坐标信息,得到各预设关键点在当前帧图像的二维坐标信息;基于各预设关键点在当前帧图像的二维坐标信息,确定当前时刻各预设关键点的三维坐标信息。
第二方面,本公开实施例提供了一种用于处理信息的装置,包括:获取模块,被配置成获取头戴显示设备上的相机在当前时刻采集的当前帧图像和相机在当前时刻的估计位姿信息,其中,当前帧图像包括目标对象中的多个预设关键点;第一处理模块,被配置成采用相机在当前时刻的估计位姿信息和上一时刻各预设关键点的三维坐标信息,将各预设关键点重投影到当前帧图像,得到各预设关键点在当前帧图像的二维估计坐标信息;第二处理模块,被配置成修正所得到的各预设关键点的二维估计坐标信息,得到各预设关键点在当前帧图像的二维坐标信息;第三处理模块,被配置成基于各预设关键点在当前帧图像的二维坐标信息,确定当前时刻各预设关键点的三维坐标信息。
第三方面,本公开实施例提供了一种计算机可读存储介质,该存储介质存储有计算机程序,该计算机程序用于执行本公开上述任一实施例提供的用于处理信息的方法。
第四方面,本公开实施例提供了一种电子设备,该电子设备包括:处理器;用于存储处理器可执行指令的存储器;处理器,用于从存储器中读取可执行指令,并执行该指令以实现本公开上述任一实施例提供的用于处理信息的方法。
第五方面,本公开实施例提供了一种头戴显示设备,该头戴显示设备包括:处理器;用于采集图像的相机;用于存储处理器可执行指令的存储器;处理器,用于从存储器中读取可执行指令,并执行指令以实现本公开上述任一实施例提供的用于处理信息的方法。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是可以应用于本公开的用于生成显示画面的方法或装置的实施例的示例性系统架构;
图2是本公开一些示例性实施例提供的用于处理信息的方法的流程示意图;
图3是本公开一些示例性实施例提供的确定各预设关键点的二维坐标系信息的流程示意图;
图4是本公开一些示例性实施例提供的轻量化关键点预测模型的网络结构示意图;
图5是本公开一些示例性实施例提供的确定融合图像的流程示意图;
图6是本公开一些示例性实施例提供的掩码图的示意图;
图7是本公开一些示例性实施例提供的二维预测坐标信息的示意图;
图8是本公开另一些示例性实施例提供的用于处理信息的方法的流程示意图;
图9是本公开一些示例性实施例提供的深度关键点预测模型的网络结构示意图;
图10是本公开再一些示例性实施例提供的用于信息处理的方法的流程框图;
图11是本公开又一些示例性实施例提供的用于处理信息的方法的流程示意图;
图12是本公开一些示例性实施例提供的用于处理信息的装置的结构示意图;
图13是本公开另一些示例性实施例提供的用于处理信息的装置的结构示意图;
图14是本公开再一些示例性实施例提供的用于处理信息的装置的结构示意图;
图15是本公开电子设备一些应用实施例的结构示意图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
本公开实施例可以应用于头戴显示设备、终端设备、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。头戴显示设备、终端设备、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1是可以应用于本公开的用于生成显示画面的方法或装置的实施例的示例性系统架构。该系统架构可以包括头戴显示设备1、网络2和终端设备3。网络2可以为头戴显示设备1和终端设备3之间提供通信链路的介质。网络2可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
上述头戴显示设备1可以是具有图像显示功能的电子设备。用户可以通过头戴显示设备观看到平面的或是立体的图片或视频。头戴显示设备包括但不限于增强现实(Augmented Reality,AR)设备、虚拟现实(Virtual Reality,VR)设备、混合现实(MixedReality,MR)设备等。可选地,上述头戴显示设备还可以具有音频播放功能。
头戴显示设备通常可以包括光学成像系统以及承载光学成像系统的框架。通过光学成像系统,用户可以观看到尺寸适宜的图像。通过框架,用户可以将头戴显示设备佩戴于头部,以通过光学成像系统观看图像。框架的形式可以为眼镜、头箍、头盔等形式。
在一些可选的实施例中,头戴显示设备1可以为一体机,一体机式的头戴显示设备中集成有计算单元的功能,计算单元可以为头戴显示设备提供处理能力,头戴显示设备安装的各种客户端应用实际也是安装到计算单元中。
在一些可选的实施例中,头戴显示设备还可以为分体式设备,分体式头戴显示设备包括头戴式显示器和与头戴式显示器分体设置的计算单元,头戴式显示器的显示屏用于显示计算单元处理后的图像。分体式头戴显示设备中的计算单元可以是终端设备,终端设备可以为手机、便携式电脑、手柄、适配器、PC、平板、车机等。对于执行主体为头戴显示设备的情况,本领域技术人员应该理解,对于分体式头戴显示设备,执行主体为计算单元。
在一些可选的实施例中,以分体式头戴显示设备为例,终端设备3可以为图1中的便携式电脑所示。这里,便携式电脑可以提供各种服务。例如,本申请中的目标对象可以为便携式电脑中的显示器或键盘等;且便携式电脑可以获取头戴显示设备1上的相机在当前时刻采集的当前帧图像和相机在当前时刻的估计位姿信息,采用相机在当前时刻的估计位姿信息和上一时刻各预设关键点的三维坐标信息,将各预设关键点重投影到当前帧图像,得到各预设关键点在当前帧图像的二维估计坐标信息,对所得到的各预设关键点的二维估计坐标信息进行处理,从而确定当前时刻各预设关键点的三维坐标信息。相应地,用于处理信息的装置可以设置在终端设备3中。
还需指出的是,上述头戴显示设备还可以为一体机,本公开提供的用于处理信息的方法还可以应用于头戴显示设备1。此种情况下,头戴显示设备1可以获取头戴显示设备1上的相机在当前时刻采集的当前帧图像和相机在当前时刻的估计位姿信息,采用相机在当前时刻的估计位姿信息和上一时刻各预设关键点的三维坐标信息,将各预设关键点重投影到当前帧图像,得到各预设关键点在当前帧图像的二维估计坐标信息,对所得到的各预设关键点的二维估计坐标信息进行处理从而确定当前时刻各预设关键点的三维坐标信息。相应地,用于处理信息的装置也可以设置在头戴显示设备1中。此种情况下,系统架构中可以不包括终端设备3,或者,系统架构中包括终端设备3,但是终端设备3不作为头戴显示设备1的计算单元使用,终端设备3可以包括上述目标对象。
除了头戴显示设备1和终端设备3,用于处理信息的方法还可以应用于服务器(图中未示出),该服务器可以为后台服务器。相应地,用于处理信息的装置可以设置于服务器中。
示例性方法
图2是本公开一些示例性实施例提供的用于处理信息的方法的流程示意图。本公开的实施例可应用在电子设备上,如图2所示,该方法包括如下步骤:
步骤210,获取头戴显示设备上的相机在当前时刻采集的当前帧图像和相机在当前时刻的估计位姿信息。
用于处理信息的方法的执行主体(例如,可以为图1所示的便携式电脑)获取头戴显示设备上的相机在当前时刻采集的当前帧图像和相机在当前时刻的估计位姿信息。
在本公开的一些可选的实施例中,当前帧图像可以包括目标对象中的多个预设关键点。
在本公开的一些可选的实施例中,当前时刻可以指相机采集当前帧图像的时刻。
在本公开的一些可选的实施例中,目标对象可以根据实际的应用场景设置。例如,目标对象可以为办公场景中的便携式电脑的键盘、显示器等,电脑可以为笔记本电脑、台式电脑等。这里,对目标对象没有具体的限定。
在本公开的一些可选的实施例中,目标对象中的预设关键点可以根据目标对象的具体情况设置。例如,目标对象为办公场景的键盘,预设关键点可以为键盘上的关键点。例如预设关键点可以为键盘的角点、键盘上其他位置的关键点等。再例如,目标对象为显示器,预设关键点可以为显示器的角点。这里,对目标对象的预设关键点没有具体的限定。
在本公开的一些可选的实施例中,头戴显示设备上的相机可以为单目相机。相应的,当前帧图像为单目图像。
在本公开的一些可选的实施例中,头戴显示设备上的相机可以包括单目相机和深度相机。相应的,当前帧图像可以包括单目图像和深度图像。
在本公开的一些可选的实施例中,头戴显示设备上的相机可以为双目相机。双目相机可以包括左目相机(或称第一相机)和右目相机(或称第二相机)。相应的,当前帧图像为双目图像,当前帧图像包括第一相机采集的第一图像和第二相机采集的第二图像。
在本公开的一些可选的实施例中,相机在当前时刻的估计位姿信息是估计的相机在当前时刻的位姿信息。这里,可以通过多种方式获取相机在当前时刻的估计位姿信息。例如,可以根据相机的历史位姿信息估计相机在当前时刻的位姿信息,得到相机在当前时刻的估计位姿信息,相机的历史位姿信息可以包括当前时刻之前的历史时刻获得的相机在该历史时刻的位姿信息。再例如,还可以通过头戴显示设备中的惯性测量传感器采集的当前头戴显示设备的惯性数据来计算相机在当前时刻的位姿信息。
在本公开的一些可选的实施例中,相机在当前时刻的估计位姿信息可以为基准坐标系下的位姿信息。基准坐标系可以为以目标对象的预设位置为原点建立的参考坐标系(或称世界坐标系)。基准坐标系也可以为相机在初始时刻的相机坐标系。基准坐标系还可以为以相机在其他任意位置为原点建立的坐标系。
步骤220,采用相机在当前时刻的估计位姿信息和上一时刻各预设关键点的三维坐标信息,将各预设关键点重投影到当前帧图像,得到各预设关键点在当前帧图像的二维估计坐标信息。
在本公开的一些可选的实施例中,上一时刻可以是相对于当前时刻的上一时刻。或者,上一时刻还可以理解为相机采集上一帧图像的时刻。上一时刻各预设关键点的三维坐标信息可以是相机采集上一帧图像的时刻各预设关键点的三维坐标信息。
在本公开的一些可选的实施例中,上一时刻各预设关键点的三维坐标信息可以是各预设关键点在基准坐标系下的三维坐标信息,也可以是各预设关键点在上一时刻的相机坐标系下的三维坐标信息。可以理解的是,任一时刻的相机坐标系与基准坐标系之间可以相互转换。
在本公开的一些可选的实施例中,可以采用相机在当前时刻的估计位姿信息,将上一时刻各预设关键点的三维坐标信息转换到相机在当前时刻的相机坐标系,将转换后的三维坐标信息确定为各预设关键点在当前时刻的相机坐标系下的三维坐标。进而,将各预设关键点在当前时刻的相机坐标系下的三维坐标,重投影到当前帧图像,从而得到各预设关键点在当前帧图像的二维估计坐标信息。
步骤230,修正所得到的各预设关键点的二维估计坐标信息,得到各预设关键点在当前帧图像的二维坐标信息。
在本公开的一些可选的实施例中,可以结合当前帧图像,采用各种方式修正所得到的各预设关键点的二维估计坐标信息,从而得到各预设关键点在当前帧图像的二维坐标信息。
例如,将各预设关键点的二维估计坐标信息与当前帧图像融合,从而将各预设关键点的二维估计坐标信息作为先验信息,通过轻量化关键点预测模型对二维估计坐标信息进行修正,得到各预设关键点在当前帧图像的二维坐标信息。
再例如,还可以从当前帧图像的阵列出发,对于任一预设关键点从当前帧图像依次识别该预设关键点,并计算其每个像素的坐标从而得到该预设关键点二维坐标信息,而后根据该预设关键点的二维坐标信息和二维估计坐标信息之间的关系,可以对其余预设关键点的二维估计坐标信息进行修正,从而可以得到其余预设关键点的二维坐标信息。
步骤240,基于各预设关键点在当前帧图像的二维坐标信息,确定当前时刻各预设关键点的三维坐标信息。
在本公开的一些可选的实施例中,在获得各预设关键点在当前帧图像的二维坐标信息后,可以基于各预设关键点在当前帧图像的二维坐标信息,采用任意可实施的方式,确定当前时刻各预设关键点的三维坐标信息。
在本公开的一些可选的实施例中,可以对各预设关键点在当前帧图像的二维坐标信息进行升维,得到当前时刻各预设关键点的三维坐标信息。例如,可以基于预设的升维模型对各预设关键点在当前帧图像的二维坐标信息进行升维,得到当前时刻各预设关键点的三维坐标信息。升维模型例如可以采用基于卷积神经网络训练得到的模型。
在本公开的一些可选的实施例中,可以获取各预设关键点在当前帧图像对应的深度信息,结合各预设关键点在当前帧图像的二维坐标信息和深度信息,得到当前时刻各预设关键点的三维坐标信息。各预设关键点在当前帧图像对应的深度信息可以通过深度相机获得,也可以通过深度信息预测模型预测获得。
在本公开的一些可选的实施例中,若相机包括第一相机和第二相机,当前帧图像可以包括第一相机采集的第一图像和第二相机采集的第二图像,则各预设关键点在当前帧图像的二维坐标信息可以包括各预设关键点在第一图像的第一二维坐标信息和在第二图像的第二二维坐标信息。因此,可以基于各预设关键点的第一二维坐标信息、第二二维坐标信息,以及第一相机和第二相机的参数,确定当前时刻各预设关键点的三维坐标信息。
本公开实施例提供的用于处理信息的方法,对于头戴显示设备的相机在当前时刻采集的当前帧图像,可以采用相机在当前时刻的估计位姿信息和上一时刻各预设关键点的三维坐标信息,将各预设关键点重投影到当前帧图像,得到各预设关键点在当前帧图像的二维估计坐标信息。对各预设关键点的二维估计坐标信息修正可以得到各预设关键点在当前帧图像的精确的二维坐标信息。而后,基于各预设关键点在当前帧图像的精确的二维坐标信息,可以确定当前时刻各预设关键点的三维坐标信息。本公开的方案通过相机当前时刻的粗估计位姿信息将上一时刻各预设关键点三维坐标信息重投影到当前帧图像,从而可以粗估计当前帧图像中各预设关键点的二维坐标,得到二维估计坐标信息,最后修正二维估计坐标信息可以得到精确的二维坐标信息。该方案先对当前帧图像中预设关键点进行二维坐标信息粗估计,再对粗估计的二维坐标进行修正得到精确的二维坐标信息,相对于直接通过大模型等方式预测各预设关键点的二维坐标信息的方案,本公开实施例在保证二维坐标信息的准确性的同时,可以有效减少计算量,提高确定二维坐标信息的处理效率,从而有助于降低获得预设关键点的三维坐标信息的延迟。还需要指出的是,本申请方案采用相机采集的各帧图像可以实时计算各预设关键点的三维坐标信息,因此不论目标对象移动与否,本方案都可以计算出个预设关键点的三维坐标,从而确定出目标对象在空间中的位置。
在本公开的一些可选的实施例中,获取相机在当前时刻的估计位姿信息,可以包括:根据相机的历史位姿信息,估计相机在当前时刻的位姿信息,获得相机在当前时刻的估计位姿信息。
在本公开的一些可选的实施例中,可以根据相机的历史位姿信息和头戴显示设备的传感器信息,估计相机在当前时刻的位姿信息。头戴显示设备的传感器信息可以包括加速度信息、角速度信息等。例如,根据头戴显示设备的加速度传感器可以得到加速度信息。根据头戴显示设备的惯性测量单元(IMU)可以得到角速度信息。相机与头戴显示设备通常具有相对固定的位姿关系,因此,头戴显示设备的传感器信息可以表征相机的位姿信息的变化,从而可以得到相机的位姿变化信息。因此,对于采集到的头戴显示设备的传感器信息,采用相机的位姿变化信息,对相机的历史位姿信息进行相应的变化可以得到相机在当前时刻的估计位姿信息。
在本公开的一些可选的实施例中,还可以根据相机分别在两个历史时刻的位姿信息,估计相机在当前时刻的位姿信息。两个历史时刻例如可以包括当前时刻的上一时刻及该上一时刻的上一时刻。例如,当前时刻表示为k时刻,两个历史时刻可以分别表示为k-2时刻和k-1时刻。根据相机在k-2时刻的历史位姿信息、相机在k-1时刻的历史位姿信息,估计相机在k时刻的位姿信息。例如,假设相机在k-1时刻到k时刻的位姿变化与k-2时刻到k-1时刻的位姿变化基本一致,在确定出k-2时刻到k-1时刻的位姿变化和相机在k-1时刻的位姿,即可以估计出相机在k时刻的位姿信息。
本实施例通过根据相机的历史位姿信息估计相机在当前时刻的位姿信息,可以获得相机在当前时刻的估计位姿信息,减少了相机位姿的计算量,有助于快速获得各预设关键点在当前帧图像的二维估计坐标。
在本公开的一些可选的实施例中,根据相机的历史位姿信息,估计相机在当前时刻的位姿信息,获得相机在当前时刻的估计位姿信息,包括:响应于预计相机的本次位姿变化信息和上一次位姿变化信息的差异小于阈值,根据相机在第一历史时刻的第一历史位姿信息、相机在上一时刻的位姿信息,估计相机在当前时刻的位姿信息,获得相机在当前时刻的估计位姿信息。
在本公开的一些可选的实施例中,本次位姿变化信息可以用于表征当前时刻的位姿信息和上一时刻的位姿信息的变化量。上一位姿变化信息可以用于表征第一历史时刻的位姿信息和上一时刻的位姿信息的变化量。第一历史时刻早于上一时刻且与上一时刻相邻。
在本公开的一些可选的实施例中,对于相机的本次位姿变化信息和上一次位姿变化信息的差异,可以通过对相机在上一时刻采集的上一帧图像与当前帧图像之间的差异表示。例如,可以通过目标对象在上一帧图像的第一包围框信息与目标对象在当前帧图像的第二包围框信息之间的差异表示。例如,可以计算第一包围框信息与第二包围框信息的交并比(IoU),若交并比大于预设阈值,则确定相机的本次位姿变化信息和上一次位姿变化信息的差异小于阈值。
在本公开的一些可选的实施例中,当前时刻表示为k时刻,则上一时刻为k-1时刻,第一历史时刻为k-2时刻。相机在第一历史时刻的第一历史位姿信息可以表示为(Rk-2,tk-2),Rk-2表示相机在第一历史时刻的旋转矩阵,tk-2表示相机在第一历史时刻的平移向量。相机在上一时刻的位姿信息可以表示为(Rk-1,tk-1)。相机在当前时刻的估计位姿信息可以表示为(Rk,tk)。若预计相机的本次位姿变化信息和上一次位姿变化信息的差异小于阈值,则认为相机从k-1时刻到k时刻的运动与相机从k-2时刻到k-1时刻的运动一致,则(Rk,tk)可以通过如下方式估计获得:
其中,T表示转置。
本实施例在预计相机的本次位姿变化信息和上一次位姿变化信息的差异小于阈值的情况下,可以根据相机在第一历史时刻的第一历史位姿信息和相机在上一时刻的位姿信息,估计相机在当前时刻的位姿信息,有助于进一步减少相机位姿的计算量,提高处理效率。
在本公开的一些可选的实施例中,采用相机在当前时刻的估计位姿信息和上一时刻各预设关键点的三维坐标信息,将各预设关键点重投影到当前帧图像,得到各预设关键点在当前帧图像的二维估计坐标信息,包括:根据相机在当前时刻的估计位姿信息、相机在上一时刻的位姿信息、及相机的内参信息,将上一时刻各预设关键点的三维坐标信息转换到当前帧图像的二维坐标系,得到各预设关键点在当前帧图像的二维估计坐标信息。
在本公开的一些可选的实施例中,上一时刻各预设关键点的三维坐标信息可以为各预设关键点在上一时刻的相机坐标系下的三维坐标信息。可以采用相机在上一时刻的位姿信息,将上一时刻各预设关键点的三维坐标信息转换到基准坐标系下,可以得到各预设关键点在基准坐标系下的三维坐标信息。采用相机在当前时刻的估计位姿信息,将各预设关键点在基准坐标系下的三维坐标信息转换到相机在当前时刻的相机坐标系,可以得到上一时刻的各预设关键点在当前时刻的相机坐标系下的三维坐标信息。采用相机的内参,可以将所得到的各预设关键点在当前时刻的相机坐标系下的三维坐标信息转换到当前帧图像的二维坐标系,从而可以得到各预设关键点在当前帧图像的二维估计坐标信息。
在本公开的一些可选的实施例中,采用相机在上一时刻的位姿信息计算相机在上一时刻的外参信息。通过相机在上一时刻的外参信息将上一时刻各预设关键点的三维坐标信息转换到基准坐标系下,可以得到各预设关键点在基准坐标系下的三维坐标信息。
在本公开的一些可选的实施例中,采用相机在当前时刻的估计位姿信息计算相机在当前时刻的外参信息。通过相机在当前时刻的外参信息,将各预设关键点在基准坐标系下的三维坐标信息转换到相机在当前时刻的相机坐标系,可以得到各预设关键点在当前时刻的相机坐标系下的三维坐标信息。
在本公开的一些可选的实施例中,相机在当前时刻的估计位姿信息表示为(Rk,tk),相机在上一时刻的位姿信息表示为(Rk-1,tk-1),上一时刻任一预设关键点的三维坐标信息用齐次坐标可以表示为该预设关键点在当前帧图像的二维估计坐标信息可以通过以下方式求解获得:
其中,[Rk e(k-1),tk e(k-1)]表示上一时刻相机坐标系到基准坐标系的转换矩阵。Rk e(k -1)表示旋转矩阵,tk e(k-1)表示平移向量,s表示二维估计坐标信息对应的像素深度。
在本公开的一些可选的实施例中,上一时刻各预设关键点的三维坐标信息可以为基准坐标系下的坐标信息。采用相机在当前时刻的估计位姿信息和上一时刻各预设关键点的三维坐标信息,将各预设关键点重投影到当前帧图像,得到各预设关键点在当前帧图像的二维估计坐标信息,可以包括:采用相机在当前时刻的估计位姿信息,将上一时刻各预设关键点的三维坐标信息转换到当前时刻的相机坐标系,得到各预设关键点在当前时刻的相机坐标系下的三维坐标信息。采用相机的内参信息,可以将各预设关键点在当前时刻的相机坐标系下的三维坐标信息转换到当前帧图像,得到各预设关键点在当前帧图像的二维估计坐标信息。
本实施例采用相机在当前时刻的估计位姿信息、相机在上一时刻的位姿信息和相机的内参信息,将上一时刻各预设关键点的三维坐标信息转换到当前帧图像的二维坐标系,实现各预设关键点在当前帧图像的重投影,可以快速得到各预设关键点在当前帧图像的二维估计坐标信息,有助于通过对各预设关键点在当前帧图像的二维估计坐标信息进行修正,快速获得各预设关键点在当前帧图像的二维坐标信息。
图3是本公开一些示例性实施例提供的确定各预设关键点的二维坐标系信息的流程示意图。
在本公开的一些可选的实施例中,修正所得到的各预设关键点的二维估计坐标信息,得到各预设关键点在当前帧图像的二维坐标信息,可以包括:
步骤2310,将各预设关键点的二维估计坐标信息与当前帧图像融合,获得融合图像。
在本公开的一些可选的实施例中,各预设关键点的二维估计坐标信息与当前帧图像的融合方式可以采用任意可实施的方式。例如,可以根据各预设关键点的二维估计坐标信息生成关键点掩码图,将关键点掩码图与当前帧图像融合,获得融合图像。再例如,还可以根据各预设关键点的二维估计坐标信息,从当前帧图像中确定各预设关键点的关键点子图。将各预设关键点的二维估计坐标信息与关键点子图融合,得到各预设关键点分别对应的融合图像。可以理解的是,这里的图像融合可以指基于当前帧图像可以得到包含各预设关键点的二维估计坐标信息,对于图像具体融合方式以及当前帧图像是否显示二维估计坐标信息所指示的点,没有具体的限定。
步骤2320,对融合图像进行预设关键点的预测,得到各预设关键点在当前帧图像的二维坐标信息。
在本公开的一些可选的实施例中,对融合图像进行预设关键点的预测可以以融合图像中预设关键点的二维估计坐标信息作为先验信息,从而可以快速预测各预设关键点在当前帧图像的二维坐标信息。
本实施例通过将各预设关键点的二维估计坐标信息与当前帧图像融合,对融合图像进行预设关键点的预测,有助于在各预设关键点的二维估计坐标信息的先验信息作用下,从当前帧图像中快速获得各预设关键点在当前帧图像的二维坐标信息。
在本公开的一些可选的实施例中,对融合图像进行预设关键点的预测,得到各预设关键点在当前帧图像的二维坐标信息,包括:通过预设的轻量化关键点预测模型对融合图像进行预设关键点的预测,得到各预设关键点在当前帧图像的二维坐标信息。
在本公开的一些可选的实施例中,轻量化关键点预测模型可以用于表征融合图像与各预设关键点的二维坐标信息之间的对应关系。
在本公开的一些可选的实施例中,轻量化关键点预测模型可以是具有较少网络层的模型。例如,轻量化关键点预测模型在结构上可以包括一个或两个卷积层以及一个线性映射层。
在本公开的一些可选的实施例中,若融合图像的尺寸不符合轻量化关键点预测模型的图像输入尺寸条件,还可以对融合图像进行缩放,将融合图像缩放到预设尺寸,得到缩放后图像。通过预设的轻量化关键点预测模型对缩放后图像进行预设关键点的预测,得到各预设关键点在缩放后图像中的二维坐标信息。再对各预设关键点在缩放后图像中的二维坐标信息进行逆缩放,得到各预设关键点在当前帧图像的二维坐标信息。
本实施例公开的方案中,融合图像中包括各预设关键点的二维估计坐标信息作为先验信息,因此输入已经有了预设关键点的大概先验位置,轻量化关键点预测模型的只需要对先验位置及其附近位置进行特征信息提取即可,无需多卷积层对提取的特征信息进行语义特征抽象就可以得到各预设关键点在当前帧图像的二维坐标信息。上述轻量化关键点预测模型包括较少的神经网络层,相对于通过深度关键点预测模型直接对当前帧图像进行预设关键点的预测,轻量化关键点预测模型可以有效提高推理速度,减少计算量及资源的消耗,便于模型在终端设备上的部署。
在本公开的一些可选的实施例中,通过预设的轻量化关键点预测模型对融合图像进行预设关键点的预测,得到各预设关键点在当前帧图像的二维坐标信息,包括:采用轻量化关键点预测模型的卷积网络对融合图像进行纹理特征提取,卷积网络包括至少一层卷积层。将融合图像中的预设关键点的二维估计坐标信息作为先验信息,采用轻量化关键点预测模型的线性映射层,基于所提取的纹理特征确定各预设关键点在当前帧图像的二维坐标信息。
在本公开的一些可选的实施例中,轻量化关键点预测模型的卷积网络包括的卷积层数量可以为1层、2层等。通过卷积网络对融合图像进行纹理特征提取,得到纹理特征。
在本公开的一些可选的实施例中,融合图像中的预设关键点的二维估计坐标信息表征了预设关键点的粗略位置,可以作为先验信息,辅助轻量化关键点预测模型的线性映射层从纹理特征中确定出各预设关键点在当前帧图像的精确的二维坐标信息。
在本公开的一些可选的实施例中,图4是本公开一些示例性实施例提供的轻量化关键点预测模型的网络结构示意图。如图4所示,轻量化关键点预测模型的网络结构包括一个卷积层(Conv block)、特征变换层(flatten)和线性映射层(Linear project),结构简单,推理更快。卷积层可以用于对融合图像进行纹理特征提取,来得到纹理特征。特征变换层可以将纹理特征变换为一维向量特征,线性映射层负责基于纹理特征和预设关键点的二维估计坐标信息这个先验信息,将向量特征映射为各预设关键点的精度更高的二维坐标信息。
本实施例通过轻量化关键点预测模型的卷积网络提取融合图像的纹理特征,将融合图像中的预设关键点的二维估计坐标信息作为先验信息,通过线性映射层,从所提取的纹理特征中确定各预设关键点在当前帧图像的二维坐标信息,通过浅层的网络推理,可以在毫秒级别得到精确的二维坐标信息,有助于减少二维坐标信息的计算量,提高信息处理效率。
图5是本公开一些示例性实施例提供的确定融合图像的流程示意图。
在本公开的一些可选的实施例中,将各预设关键点的二维估计坐标信息与当前帧图像融合,获得融合图像,可以包括:
步骤23110,对于各预设关键点中的任一预设关键点,基于该预设关键点的二维估计坐标信息,从当前帧图像中确定包含该预设关键点的关键点子图。
在本公开的一些可选的实施例中,对于任一预设关键点,该预设关键点对应的关键点子图可以为当前帧图像中包含该预设关键点的预设大小的区域。例如,关键点子图为h*w大小的区域。h(关键点子图的高度)和w(关键点子图的宽度)可以根据实际需求设置。例如,h=30,w=40。再例如,h=50,w=50。对于每个预设关键点,可以得到一个对应的关键点子图。
在本公开的一些可选的实施例中,对于任一预设关键点,可以从当前帧图像中裁切以该预设关键点的二维估计坐标信息为中心的预设大小的区域,作为该预设关键点对应的关键点子图。
在本公开的一些可选的实施例中,还可以对各预设关键点的关键点子图进行缩放,将关键点子图缩放到预设尺寸,便于通过轻量化关键点预测模型预测各预设关键点的二维坐标信息。这种情况下,模型预测获得的预设关键点的二维坐标信息为缩放后关键点子图中的二维坐标信息,可以通过逆缩放,得到各预设关键点在关键点子图中的二维坐标信息。进而根据关键点子图在当前帧图像中的位置,得到各预设关键点在当前帧图像的二维坐标信息。
步骤23120,根据该预设关键点的二维估计坐标信息,生成与该预设关键点对应的关键点子图相同尺寸的掩码图。
在本公开的一些可选的实施例中,掩码图可以为各预设关键点的二维估计坐标掩码图。即,掩码图中预设关键点的二维估计坐标信息对应位置的像素值为1,其他位置的像素值为0。对于每个预设关键点,该预设关键点的掩码图中只有一个像素值为1。
在本公开的一些可选的实施例中,图6是本公开一些示例性实施例提供的掩码图的示意图。如图6所示,预设关键点为目标对象的角点,当前帧图像为H*W(图中以8*12为例)的图像。关键点子图像为h*w(图中以3*3为例)的图像,根据预设关键点的二维估计坐标信息生成的掩码图为h*w的掩码图。
步骤23130,将该预设关键点对应的关键点子图与掩码图融合,获得该预设关键点对应的融合图像。
在本公开的一些可选的实施例中,对于任一预设关键点,该预设关键点对应的关键点子图与掩码图的融合方式可以采用任意可实施的方式。例如,可以将关键点子图与掩码图叠加,即沿通道方向进行拼接。例如,关键点子图为3通道图像,将掩码图作为一个通道与关键点子图拼接,得到4通道的融合图像。还可以将关键点子图展平为一维向量,将掩码图展平为一维向量,将关键点子图的一维向量与掩码图的一维向量沿向量长度方向拼接,得到融合向量作为融合图像(或称融合结果)。具体融合方式可以根据实际需求设置。
本实施例通过预设关键点的二维估计坐标信息,从当前帧图像中确定包含预设关键点的关键点子图,将关键点子图与预设关键点的掩码图融合,得到预设关键点的融合图像。在进行预设关键点的预测时,通过当前帧图像的子图像而不需要当前帧图像的全图信息,有助于提高融合图像的准确性和有效性,便于通过轻量化关键点预测模型快速预测预设关键点的二维坐标信息,进一步减少计算量。
在本公开的一些可选的实施例中,对融合图像进行预设关键点的预测,得到各预设关键点在当前帧图像的二维坐标信息,可以包括:通过轻量化关键点预测模型,对各预设关键点分别对应的融合图像进行处理,获得各预设关键点的二维预测坐标信息;二维预测坐标信息可以为预设关键点在对应的关键点子图中的坐标信息。根据各预设关键点的二维预测坐标信息、各预设关键点对应的关键点子图与当前帧图像的位置关系,获得各预设关键点在当前帧图像的二维坐标信息。
在本公开的一些可选的实施例中,预设关键点在对应的关键点子图中的坐标信息可以指在关键点子图的二维坐标系下的坐标信息。关键点子图的二维坐标系可以是以关键点子图的预设位置为原点的坐标系。
在本公开的一些可选的示例中,图7是本公开一些示例性实施例提供的二维预测坐标信息的示意图。如图7所示,关键点子图的二维坐标系是以关键点子图的左上角为原点(o),以关键点子图的宽度方向向右为横轴(u),以关键点子图的高度方向向下为纵轴(v)的坐标系uov。该关键点子图中,预设关键点的二维预测坐标信息对应的位置表示为(ui,vi),i可以表示第i个关键点子图、第i个预设关键点。每个预设关键点的关键点子图可以得到该预设关键点的二维预测坐标信息。根据关键点子图与当前帧图像的位置关系,可以得到关键点子图的二维坐标系与当前帧图像的二维坐标系之间的转换关系。从而可以采用该转换关系将预设关键点的二维预测坐标信息转换到当前帧图像,得到该预设关键点在当前帧图像的二维坐标信息。
本实施例通过轻量化关键点预测模型,对各预设关键点分别对应的融合图像进行处理,获得各预设关键点的二维预测坐标信息,有助于进一步减少计算量,提高信息处理效率。
在本公开的一些可选的实施例中,基于该预设关键点的二维估计坐标信息,从当前帧图像中确定包含该预设关键点的关键点子图,可以包括:确定该预设关键点的三维坐标。基于该预设关键点的三维坐标,确定包括该预设关键点的初始关键点子图的尺寸。根据该预设关键点的二维估计坐标信息和所确定的尺寸,在当前帧图像中确定包括该预设关键点的初始关键点子图。将所确定的初始关键点子图缩放到预设尺寸,获得该预设关键点对应的关键点子图。
在本公开的一些可选的实施例中,对于任一预设关键点,该预设关键点的三维坐标可以根据该预设关键点的二维估计坐标信息确定。例如,对于双目相机采集的当前帧图像,得到的预设关键点的二维估计坐标信息包括第一二维估计坐标信息和第二二维估计坐标信息,通过三角化方式,可以得到该预设关键点的三维坐标。也可以将上一时刻各预设关键点的三维坐标信息,确定为各预设关键点的三维坐标。还可以通过其他方式确定预设关键点的三维坐标。
在本公开的一些可选的实施例中,根据该预设关键点的三维坐标可以计算该预设关键点与相机的距离。由于目标对象在不同距离下呈现在图像中所占的区域大小不同,为了从当前帧图像得到最佳尺寸的关键点子图,作为初始关键点子图,可以结合预设关键点与相机的距离,确定初始关键点子图的尺寸。例如,若预设关键点与相机的距离较大,则可以确定初始关键点子图的尺寸较小。若预设关键点与相机的距离较小,则确定初始关键点子图的尺寸较大。这样,可以在预设关键点与相机的距离为任意距离,均可以得到该预设关键点的合适尺寸的初始关键点子图。有助于提高初始关键点子图的准确性和有效性。相对于固定尺寸,采用基于距离的自适应尺寸,可以避免在距离较远情况下,因固定尺寸相对较大而引入更多的冗余信息,以及避免在距离较近的情况下,因固定尺寸相对较小而无法将当前帧图像中真正的预设关键点包含在关键点子图中。
在本公开的一些可选的实施例中,对于任一预设关键点,该预设关键点与相机的距离表示为d,该预设关键点的初始关键点子图的尺寸可以表示为N/d*N/d。N可以为预设值。例如,N可以为14、16、20等。
在本公开的一些可选的实施例中,为了能够通过轻量化关键点预测模型进行预设关键点的预测,还可以对得到的初始关键点子图进行缩放,将初始关键点子图缩放到预设尺寸(或称指定尺寸),获得该预设关键点对应的关键点子图。缩放方式可以采用任意可实施的方式。例如,可以通过插值方式对初始关键点子图进行缩放,对于不同的初始关键点子图可以缩放到相同的尺寸。插值方式例如可以包括线性插值、双线性插值等。
本公开实施例通过根据预设关键点的三维坐标确定包括该预设关键点的初始关键点子图的尺寸,有助于提高初始关键点子图的尺寸的准确性和有效性。通过将初始关键点子图缩放到预设尺寸,得到尺寸相同的各预设关键点的关键点子图,有助于使得关键点子图能够适配相应的关键点预测模型。
在本公开的一些可选的实施例中,当前帧图像可以包括第一图像和第二图像。任一预设关键点的二维估计坐标信息可以包括该预设关键点在第一图像的第一二维估计坐标信息、及该预设关键点在第二图像的第二二维估计坐标信息。
在本公开的一些可选的实施例中,预设关键点的三维坐标可以通过如下方式确定:根据各预设关键点的第一二维估计坐标信息和第二二维估计坐标信息,估计各预设关键点的三维坐标。
在本公开的一些可选的实施例中,根据各预设关键点的第一二维估计坐标信息和第二二维估计坐标信息,可以通过三角化方式,估计各预设关键点的三维坐标。
本公开实施例通过各预设关键点的二维估计坐标信息估计各预设关键点的三维坐标,有助于快速获得各预设关键点的三维坐标,在较小的延迟下确定出初始关键点子图的最佳尺寸。
图8是本公开另一些示例性实施例提供的用于处理信息的方法的流程示意图。
在本公开的一些可选的实施例中,获取头戴显示设备上的相机在当前时刻采集的当前帧图像和相机在当前时刻的估计位姿信息,可以包括:
步骤2110,获取头戴显示设备上的相机在当前时刻采集的当前帧图像。
步骤2120,确定当前帧图像的帧类型。
在本公开的一些可选的实施例中,当前帧图像的帧类型可以包括首帧和非首帧。或者,当前帧图像的帧类型还可以包括关键帧和非关键帧。首帧是指起始帧,例如,相机在起始位置采集的第一帧图像为首帧图像。关键帧可以根据预设规则确定。例如,可以按照预设帧间隔确定关键帧。预设帧间隔可以为固定帧间隔,也可以为变化的帧间隔。例如,首帧可以作为首个关键帧,之后每隔n帧为一个关键帧。还可以根据目标对象的跟踪情况确定关键帧。例如,若目标对象在相邻帧图像中出现状态切换,将状态切换后的图像帧确定关键帧。若上一帧图像未包含目标对象,当前帧图像包含目标对象,则确定当前帧图像为关键帧。在连续跟踪到目标对象的情况下,可以继续按照一定的帧间隔确定关键帧。
步骤2130,响应于当前帧图像的帧类型不是预设类型,获取相机在当前时刻的估计位姿信息。
在本公开的一些可选的实施例中,预设类型包括首帧、关键帧中的至少一者。若当前帧图像的帧类型不是预设类型,则可以确定上一时刻得到了各预设关键点的三维坐标信息,用于估计各预设关键点在当前帧图像的二维估计坐标信息。这种情况下,再获取相机在当前时刻的估计位姿信息,采用相机在当前时刻的估计位姿信息和上一时刻各预设关键点的三维坐标信息,可以将各预设关键点重投影到当前帧图像,得到各预设关键点在当前帧图像的二维估计坐标信息。本实施例通过确定当前帧图像的帧类型,在当前帧图像的帧类型不是预设类型的情况下,可以估计各预设关键点在当前帧图像的二维估计坐标信息,对二维估计坐标信息进行修正得到精确的二维坐标信息,有助于避免无法获取上一时刻各预设关键点的三维坐标信息导致无法计算精确的二维坐标信息或计算出的精确二维坐标信息不准确的情况出现,从而有助于提供信息处理的有效性和可靠性。
在本公开的一些可选的实施例中,本公开实施例的方法还包括:
步骤310,响应于当前帧图像的帧类型为预设类型,通过深度关键点预测模型对当前帧图像进行处理,获得各预设关键点在当前帧图像的二维坐标信息。
在本公开的一些可选的实施例中,深度关键点预测模型包括的卷积层数量大于轻量化关键点预测模型。
在本公开的一些可选的实施例中,若当前帧图像的帧类型为预设类型,则通过深度关键点预测模型对当前帧图像进行处理,获得各预设关键点在当前帧图像的精确的二维坐标信息。由于深度关键点预测模型相对于轻量化关键点预测模型可以包括更多的卷积层,第一层卷积层可以对输入的当前帧图像进行基础特征信息的提起,其余卷积层可以将基础特征信息转换为更抽象的语义特征,从而可以预测各预设关键点在当前帧图像的精确的二维坐标信息。
在本公开的一些可选的实施例中,图9是本公开一些示例性实施例提供的深度关键点预测模型的网络结构示意图。如图9所示,深度关键点预测模型的网络结构包括卷积层1(Conv block1)、卷积层2(Conv block2)、卷积层3(Conv block3)和卷积层4(Convblock4)的4层卷积层,以及特征变换层(flatten)和线性映射层(Linear project)。在实际应用中,卷积层的数量还可以为其他数量,例如,5层、6层、7层等。当前帧图像首先被送入卷积层1,卷积层1负责提取当前帧图像的基础的特征信息。卷积层2、卷积层3和卷积层4负责将基础的特征信息转化为更抽象的语义特征。卷积层4的输出是一个C*H*W的特征图。C表示特征图的通道数量,H表示特征图的高度,W表示特征图的宽度。该特征图被特征变换层展开成一维向量,该一维向量送入线性映射层,线性映射层将该一维向量投影到2*M的空间上,M为预设关键点的数量,得到M个预设关键点在当前帧图像的二维坐标信息。例如,第i个预设关键点在当前帧图像的二维坐标信息可以表示为(ui,vi)或(xi,yi)。以键盘的四个角点为例,线性映射层输出结果可以表示为[x1,y1,x2,y2,x3,y3,x4,y4]。
本申请公开的方案中,当前时刻预设关键点的三维坐标信息的计算依赖于上一时刻预设关键点的三维坐标信息,对于采集例如首帧等预设类型图像帧的时刻的预设关键点的三维准标信息的准确性会影响后续各时刻的计算结果。因此,对于首帧等预设类型图像帧作为当前帧图像时,可以通过深度关键点预测模型进行预设关键点的预测,可以准确地获得各预设关键点在当前帧图像的精确的二维坐标信息,有助于为后续帧提供准确的各预设关键点的三维坐标信息,便于后续帧通过估计各预设关键点的二维估计坐标信息及修正得到各预设关键点的二维坐标信息。
在本公开的一些可选的实施例中,相机可以包括第一相机和第二相机。当前帧图像可以包括第一相机采集的第一图像和第二相机采集的第二图像。例如,第一相机和第二相机可以分别为头戴显示设备的左目相机和右目相机,第一图像和第二图像可以分别为左目图像和右目图像。各预设关键点在当前帧图像的二维坐标信息包括各预设关键点在第一图像的第一二维坐标信息和在第二图像的第二二维坐标信息。
在本公开的一些可选的实施例中,步骤240的基于各预设关键点在当前帧图像的二维坐标信息,确定当前时刻各预设关键点的三维坐标信息,包括:根据各预设关键点的第一二维坐标信息和第二二维坐标信息、及第一相机与第二相机的相对位姿信息,确定各预设关键点在第一相机的相机坐标系下的三维坐标信息。
在本公开的一些可选的实施例中,可以采用三角化方式处理各预设关键点的第一二维坐标信息和第二二维坐标信息、及第一相机与第二相机的相对位姿信息,从而可以确定各预设关键点在第一相机的相机坐标系下的三维坐标信息。
在本公开的一些可选的实施例中,任一预设关键点Pi的第一二维坐标信息表示为(u1i,v1i),Pi的第二二维坐标信息表示为(u2i,v2i),第二相机与第一相机的相对位姿表示为(R,t),R表示旋转矩阵,t表示平移向量,第一相机和第二相机的内参均为K,可以通过以下方式求解各预设关键点在第一相机的相机坐标系下的三维坐标信息(x1,y1,z1):
其中,s1i表示第一二维坐标信息对应的像素深度,s2i表示第二二维坐标信息对应的像素深度。由于z1表示Pi与第一相机的距离,也即表示第一二维坐标对应的像素深度,因此,s1i=z1,基于第二相机与第一相机的相对位姿信息,可以确定s2i与z1的关联关系。基于各预设关键点的上述关系,可以求解出各预设关键点在第一相机的相机坐标系下的当前坐标。
本实施例根据各预设关键点的第一二维坐标信息和第二二维坐标信息、及第一相机与第二相机的相对位姿信息,确定各预设关键点在第一相机的相机坐标系下的三维坐标信息。由于第一二维坐标信息和第二二维坐标信息为精确的二维坐标信息,因此,可以获得较高精度的各预设关键点在第一相机的相机坐标系下的三维坐标信息。
在本公开的一些可选的实施例中,可以结合各预设关键点在第一相机的相机坐标系下的三维坐标信息、各预设关键点在目标对象的参考坐标系下的三维坐标信息,确定当前时刻第一相机在参考坐标系下的精确的位姿信息。目标对象的参考坐标系是以目标对象上的预设位置为原点建立的坐标系。结合各预设关键点在第一相机的相机坐标系下的三维坐标信息和各预设关键点在目标对象的参考坐标系下的三维坐标信息,可以建立第一相机坐标系与目标对象的参考坐标系之间的关联关系,从而得到第一相机在目标对象的参考坐标系下的精确的位姿信息。例如,可以将第一相机在参考坐标系下的位姿信息作为待求解的参数,采用待求解参数将各预设关键点在第一相机的相机坐标系下的三维坐标信息转换到目标对象的参考坐标系下,得到通过参数表示的各预设关键点在目标对象的参考坐标系下的三维转换坐标信息。根据各预设关键点的三维转换坐标信息与各预设关键点在目标对象的参考坐标系下的三维坐标信息之间的误差构建目标函数,求解使目标函数最小的参数,即可以确定为第一相机在基准坐标系下的位姿信息。
在本公开的一些可选的实施例中,图10是本公开再一些示例性实施例提供的用于信息处理的方法的流程框图。如图10所示,在t0时刻(如初始时刻)的预设类型的图像,可以通过深度关键点预测模型进行预设关键点的预测,得到各预设关键点在t0时刻图像的二维坐标信息(该二维坐标信息为精确的二维坐标信息)。进而可以计算获得t0时刻各预设关键点的三维坐标信息。对相机进行运动粗估计可以获得t0时刻相机的位姿信息。在t1时刻,通过相机运动粗估计可以获得相机在t1时刻的估计位姿信息。根据相机在t1时刻的估计位姿信息和t0时刻各预设关键点的三维坐标信息估计各预设关键点在t1时刻图像的二维估计坐标信息。进而融合t1时刻的图像和各预设关键点的二维估计坐标信息,通过轻量化关键点预测模型修正二维估计坐标信息,可以得到各预设关键点在t1时刻图像的精确二维坐标信息。根据各预设关键点的二维坐标信息可以计算t1时刻各预设关键点的三维坐标信息。根据t1时刻各预设关键点的三维坐标信息,可以计算相机在t1时刻的位姿信息。在t2时刻的处理流程与t1时刻一致,在此不再一一赘述。在实际应用中,对于每个关键帧,可以按照t0时刻的处理流程进行处理。在关键帧后续的非关键帧,按照t1时刻、t2时刻等的处理流程进行处理。可见,本公开实施例的方法,可以有效减少非首帧或非关键帧的信息处理计算量,从而可以减少整体信息处理计算量。
图11是本公开又一些示例性实施例提供的用于处理信息的方法的流程示意图。
在本公开的一些可选的实施例中,本公开实施例的方法还包括:
步骤410,基于当前时刻各预设关键点的三维坐标信息和相机在当前时刻的估计位姿信息,确定相机在当前时刻的位姿信息。
在本公开的一些可选的实施例中,可以根据当前时刻各预设关键点的三维坐标信息对相机在当前时刻的估计位姿信息进行修正,得到相机在当前时刻的位姿信息。例如,将相机在当前时刻的估计位姿信息作为相机在当前时刻的初始位姿信息,通过优化求解方式不断更新相机在当前时刻的初始位姿信息,得到相机在当前时刻的位姿信息。例如,采用相机在当前时刻的初始位姿信息将各预设关键点的三维坐标信息重投影到当前帧图像,得到各预设关键点在当前帧图像的重投影坐标信息。计算各预设关键点在当前帧图像的重投影坐标信息与各预设关键点在当前帧图像的二维坐标信息的误差(可以称为重投影误差)。通过重投影误差,计算相机位姿信息的迭代步长,用于对相机在当前时刻的初始位姿信息进行更新,得到更新后的位姿信息。重复上述过程继续对更新后的位姿信息进行更新,直至满足迭代结束条件,得到相机在当前时刻的位姿信息。
在本公开的一些可选的实施例中,优化过程中迭代步长可以采用牛顿法、高斯牛顿法等求解获得。
在本公开的一些可选的实施例中,目标对象的参考坐标系是以目标对象上的预设位置为原点建立的坐标系。例如,目标对象为键盘,参考坐标系可以为以键盘中心点(也可以为键盘上的其他位置)为原点,以键盘长度方向为X轴,以键盘宽度方向为Y轴,以垂直键盘平面向上为Z轴建立参考坐标系。由于各预设关键点为目标对象上的关键点,因此,各预设关键点在基准坐标系下的三维坐标信息不随目标对象的移动而变化。当前时刻各预设关键点的三维坐标信息为各预设关键点在当前时刻的相机坐标系下的三维坐标信息。还可以结合各预设关键点在当前时刻的相机坐标系下的三维坐标信息、各预设关键点在目标对象的参考坐标系下的三维坐标信息,确定当前时刻相机在目标对象的参考坐标系下的精确的位姿信息。结合各预设关键点在当前时刻的相机坐标系下的三维坐标信息和各预设关键点在目标对象的参考坐标系下的三维坐标信息,可以建立相机坐标系与参考坐标系之间的关联关系,从而得到相机在参考坐标系下的精确的位姿信息。例如,可以将相机在参考坐标系下的位姿信息作为待求解的参数,采用待求解参数将各预设关键点在当前时刻的相机坐标系下的三维坐标信息转换到目标对象的参考坐标系下,得到参数表示的各预设关键点在目标对象的参考坐标系下的三维转换坐标信息,根据各预设关键点的三维转换坐标信息与各预设关键点在目标对象的参考坐标系下的三维坐标信息之间的误差构建目标函数,求解使目标函数最小的参数,确定为相机在当前时刻的位姿信息。
在本公开的一些可选的实施例中,还可以根据当前时刻各预设关键点的三维坐标信息,通过PnP法求解相机在当前时刻的位姿信息。
步骤420,基于相机在当前时刻的位姿信息和当前时刻各预设关键点的三维坐标信息,确定虚拟屏幕在参考坐标系下的位姿信息。
在本公开的一些可选的实施例中,可以根据当前时刻各预设关键点的三维坐标信息计算目标对象相对于相机的位姿信息。基于相机在当前时刻的位姿信息、目标对象相对于相机的位姿信息,结合虚拟屏幕与目标对象的相对位置关系,可以计算虚拟屏幕在参考坐标系下的位姿信息。例如,基于目标对象相对于相机的位姿信息、待扩展的虚拟屏幕与目标对象的相对位置关系,可以计算虚拟屏幕在相机坐标系下的位姿信息。采用相机在当前时刻的位姿信息将虚拟屏幕在相机坐标系下的位姿信息转换到参考坐标系,可以得到虚拟屏幕在参考坐标系下的位姿信息。
在本公开的一些可选的示例中,目标对象可以为键盘。根据待扩展虚拟屏幕与办公场景中物理屏幕的位置关系(例如虚拟屏幕需要设置在物理屏幕上方)、键盘与物理屏幕的相对位置关系等,可以计算虚拟屏幕与键盘的相对位置关系。进而根据虚拟屏幕与键盘的相对位置关系、键盘在相机坐标系下的位姿信息,可以计算虚拟屏幕在相机坐标系下的位姿信息。
步骤430,获取虚拟屏幕中待显示的画面数据,渲染待显示画面。
在本公开的一些可选的实施例中,虚拟屏幕中待显示的画面数据可以根据实际的应用场景的显示需求获得。例如,办公场景,画面数据为用户办公需要显示的数据。
在本公开的一些可选的实施例中,渲染待显示画面可以通过渲染引擎和SDK渲染组件中的至少一者进行渲染,渲染引擎例如unity。例如,可以通过渲染引擎进行虚拟场景的渲染,结合SDK渲染组件对渲染引擎得到的渲染结果进行时间扭曲、空间扭曲及其他相关处理中的至少一者,得到待显示画面。具体渲染原理不作赘述。
步骤440,将待显示画面发送到头戴显示设备进行显示。
本公开实施例通过确定虚拟屏幕在参考坐标系下的位姿信息,有助于在目标对象附近合适的位置扩展虚拟屏幕,为用户提供更大的显示空间,提高用户体验。例如,在办公场景,可以为用户提供大幅屏幕,提高办公效率。
在本公开的一些可选的实施例中,还可以根据相机在当前时刻的位姿信息,确定用户在当前时刻的状态。例如,在办公场景下,可以确定用户眼睛与屏幕的距离,用户头部相对于屏幕的位姿等。根据用户在当前时刻的状态,可以判断用户当前时刻的坐姿是否正确,在检测到用户坐姿不正确的情况下,可以输出提示信息,提示用户调整坐姿,以减轻肩膀和腰部的压力,有助于缓解肌肉和骨骼问题,有利于用户的身体健康。例如,当检测到用户眼睛与屏幕的距离小于距离阈值,可以输出提示信息,使用户及时调整眼睛与屏幕的距离,减轻眼睛的压力。根据用户头部相对于屏幕的位姿信息,可以确定用户抬头、低头的状态,以提示用户调整头部姿态,避免长时间抬头或低头造成颈部问题。
本公开上述各实施例或可选示例可以单独实施也可以在不冲突的情况下以任意组合方式结合实施,具体可以根据实际需求设置,本公开不做限定。
本公开实施例提供的任一种用于处理信息的方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种用于处理信息的方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种用于处理信息的方法。下文不再赘述。
示例性装置
图12是本公开一些示例性实施例提供的用于处理信息的装置的结构示意图。该实施例的用于处理信息的装置可用于实现本公开相应的用于处理信息的方法实施例,如图12所示的装置包括:获取模块510、第一处理模块520、第二处理模块530和第三处理模块540。
获取模块510,被配置成获取头戴显示设备上的相机在当前时刻采集的当前帧图像和相机在当前时刻的估计位姿信息。其中,当前帧图像包括目标对象中的多个预设关键点。
第一处理模块520,被配置成采用相机在当前时刻的估计位姿信息和上一时刻各预设关键点的三维坐标信息,将各预设关键点重投影到当前帧图像,得到各预设关键点在当前帧图像的二维估计坐标信息。
第二处理模块530,被配置成修正所得到的各预设关键点的二维估计坐标信息,得到各预设关键点在当前帧图像的二维坐标信息。
第三处理模块540,被配置成基于各预设关键点在当前帧图像的二维坐标信息,确定当前时刻各预设关键点的三维坐标信息。
在本公开的一些可选的实施例中,获取模块510被配置成:根据相机的历史位姿信息,估计相机在当前时刻的位姿信息,获得相机在当前时刻的估计位姿信息。
在本公开的一些可选的实施例中,获取模块510被配置成:
响应于预计相机的本次位姿变化信息和上一次位姿变化信息的差异小于阈值,根据相机在第一历史时刻的第一历史位姿信息、相机在上一时刻的位姿信息,估计相机在当前时刻的位姿信息,获得相机在当前时刻的估计位姿信息。
在本公开的一些可选的实施例中,本次位姿变化信息用于表征当前时刻的位姿信息和上一时刻的位姿信息的变化量。上一位姿变化信息用于表征第一历史时刻的位姿信息和上一时刻的位姿信息的变化量。第一历史时刻早于上一时刻且与上一时刻相邻。
在本公开的一些可选的实施例中,第一处理模块520被配置成:根据相机在当前时刻的估计位姿信息、相机在上一时刻的位姿信息、及相机的内参信息,将上一时刻各预设关键点的三维坐标信息转换到当前帧图像的二维坐标系,得到各预设关键点在当前帧图像的二维估计坐标信息。
在本公开的一些可选的实施例中,第二处理模块530被配置成:将各预设关键点的二维估计坐标信息与当前帧图像融合,获得融合图像。对融合图像进行预设关键点的预测,得到各预设关键点在当前帧图像的二维坐标信息。
在本公开的一些可选的实施例中,第二处理模块530被配置成:通过预设的轻量化关键点预测模型对融合图像进行预设关键点的预测,得到各预设关键点在当前帧图像的二维坐标信息。轻量化关键点预测模型用于表征融合图像与各预设关键点的二维坐标信息之间的对应关系。
在本公开的一些可选的实施例中,第二处理模块530被配置成:采用轻量化关键点预测模型的卷积网络对融合图像进行纹理特征提取,卷积网络包括至少一层卷积层。将融合图像中的预设关键点的二维估计坐标信息作为先验信息,采用轻量化关键点预测模型的线性映射层,基于所提取的纹理特征确定各预设关键点在当前帧图像的二维坐标信息。
在本公开的一些可选的实施例中,第二处理模块530被配置成:对于各预设关键点中的任一预设关键点,基于该预设关键点的二维估计坐标信息,从当前帧图像中确定包含该预设关键点的关键点子图。根据该预设关键点的二维估计坐标信息,生成与该预设关键点对应的关键点子图相同尺寸的掩码图。将该预设关键点对应的关键点子图与掩码图融合,获得该预设关键点对应的融合图像。
在本公开的一些可选的实施例中,第二处理模块530被配置成:通过轻量化关键点预测模型,对各预设关键点分别对应的融合图像进行处理,获得各预设关键点的二维预测坐标信息。二维预测坐标信息为预设关键点在对应的关键点子图中的坐标信息。根据各预设关键点的二维预测坐标信息、各预设关键点对应的关键点子图与当前帧图像的位置关系,获得各预设关键点在当前帧图像的二维坐标信息。
在本公开的一些可选的实施例中,第二处理模块530被配置成:确定该预设关键点的三维坐标。基于该预设关键点的三维坐标,确定包括该预设关键点的初始关键点子图的尺寸。根据该预设关键点的二维估计坐标信息和所确定的尺寸,在当前帧图像中确定包括该预设关键点的初始关键点子图。将所确定的初始关键点子图缩放到预设尺寸,获得该预设关键点对应的关键点子图。
在本公开的一些可选的实施例中,当前帧图像包括第一图像和第二图像;任一预设关键点的二维估计坐标信息包括该预设关键点在第一图像的第一二维估计坐标信息、及该预设关键点在第二图像的第二二维估计坐标信息。
在本公开的一些可选的实施例中,预设关键点的三维坐标通过如下方式确定:
根据各预设关键点的第一二维估计坐标信息和第二二维估计坐标信息,估计各预设关键点的三维坐标。
图13是本公开另一些示例性实施例提供的用于处理信息的装置的结构示意图。
在本公开的一些可选的实施例中,获取模块510被配置成:确定当前帧图像的帧类型。响应于当前帧图像的帧类型不是预设类型,获取相机在当前时刻的估计位姿信息。
本公开实施例的装置还包括:第四处理模块610,被配置成响应于当前帧图像的帧类型为预设类型,通过深度关键点预测模型对当前帧图像进行处理,获得各预设关键点在当前帧图像的二维坐标信息。
在本公开的一些可选的实施例中,深度关键点预测模型包括的卷积层数量大于轻量化关键点预测模型。
在本公开的一些可选的实施例中,预设类型包括首帧、关键帧中的至少一者。
在本公开的一些可选的实施例中,相机包括第一相机和第二相机。当前帧图像包括第一相机采集的第一图像和第二相机采集的第二图像。各预设关键点在当前帧图像的二维坐标信息包括各预设关键点在第一图像的第一二维坐标信息和在第二图像的第二二维坐标信息。
在本公开的一些可选的实施例中,第三处理模块540被配置成:根据各预设关键点的第一二维坐标信息和第二二维坐标信息、及第一相机与第二相机的相对位姿信息,确定各预设关键点在第一相机的相机坐标系下的三维坐标信息。
图14是本公开再一些示例性实施例提供的用于处理信息的装置的结构示意图。
在本公开的一些可选的实施例中,本公开实施例的装置还包括:第五处理模块710、第六处理模块720、第七处理模块730和发送模块740。
第五处理模块710,被配置成基于当前时刻各预设关键点的三维坐标信息和相机在当前时刻的估计位姿信息,确定相机在当前时刻的位姿信息。
第六处理模块720,被配置成基于相机在当前时刻的位姿信息和当前时刻各预设关键点的三维坐标信息,确定虚拟屏幕在参考坐标系下的位姿信息。
第七处理模块730,被配置成获取虚拟屏幕中待显示的画面数据,渲染待显示画面。
发送模块740,被配置成将待显示画面发送到头戴显示设备进行显示。
需要说明的是,本公开实施例的用于处理信息的装置的具体实施方式与本公开实施例的用于处理信息的方法的具体实施方式类似,具体参见用于处理信息的方法部分,为了减少冗余,在此不作赘述。
示例性电子设备
本公开实施例还提供了一种电子设备,包括:处理器,用于存储处理器可执行指令的存储器。
处理器,用于从存储器中读取可执行指令并执行可执行指令,以实现本公开上述任一实施例所述的用于处理信息的方法。
示例性头戴显示设备
本公开实施例还提供了一种电子设备,包括:处理器;用于采集图像的相机;用于存储处理器可执行指令的存储器。
处理器,用于从存储器中读取可执行指令并执行可执行指令,以实现本公开上述任一实施例所述的用于处理信息的方法。
图15是本公开电子设备一个应用实施例的结构示意图。头戴显示设备的结构可参见该电子设备的结构。本实施例中,该电子设备100包括一个或多个处理器110和存储器120。
处理器110可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备100中的其他组件以执行期望的功能。
存储器120可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器110可以运行所述程序指令,以实现上文所述的本公开的各个实施例的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备100还可以包括:输入装置130和输出装置140,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,该输入装置130可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。
此外,该输入装置130还可以包括例如键盘、鼠标等等。
该输出装置140可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置140可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图15中仅示出了该电子设备100中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备100还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (18)
1.一种用于处理信息的方法,包括:
获取头戴显示设备上的相机在当前时刻采集的当前帧图像和所述相机在所述当前时刻的估计位姿信息,其中,所述当前帧图像包括目标对象中的多个预设关键点;
采用所述相机在所述当前时刻的估计位姿信息和上一时刻各所述预设关键点的三维坐标信息,将各所述预设关键点重投影到所述当前帧图像,得到各所述预设关键点在所述当前帧图像的二维估计坐标信息;
修正所得到的各所述预设关键点的二维估计坐标信息,得到各所述预设关键点在所述当前帧图像的二维坐标信息;
基于各所述预设关键点在所述当前帧图像的二维坐标信息,确定所述当前时刻各所述预设关键点的三维坐标信息。
2.根据权利要求1所述的方法,其中,获取所述相机在所述当前时刻的估计位姿信息,包括:
根据所述相机的历史位姿信息,估计所述相机在所述当前时刻的位姿信息,获得所述相机在所述当前时刻的估计位姿信息。
3.根据权利要求2所述的方法,其中,所述根据所述相机的历史位姿信息,估计所述相机在所述当前时刻的位姿信息,获得所述相机在所述当前时刻的估计位姿信息,包括:
响应于预计所述相机的本次位姿变化信息和上一次位姿变化信息的差异小于阈值,根据所述相机在第一历史时刻的第一历史位姿信息、所述相机在上一时刻的位姿信息,估计所述相机在所述当前时刻的位姿信息,获得所述相机在所述当前时刻的估计位姿信息,其中,所述本次位姿变化信息用于表征所述当前时刻的位姿信息和上一时刻的位姿信息的变化量,所述上一位姿变化信息用于表征第一历史时刻的位姿信息和所述上一时刻的位姿信息的变化量,所述第一历史时刻早于所述上一时刻且与所述上一时刻相邻。
4.根据权利要求1所述的方法,其中,所述采用所述相机在所述当前时刻的估计位姿信息和上一时刻各所述预设关键点的三维坐标信息,将各所述预设关键点重投影到所述当前帧图像,得到各所述预设关键点在所述当前帧图像的二维估计坐标信息,包括:
根据所述相机在所述当前时刻的估计位姿信息、所述相机在上一时刻的位姿信息、及所述相机的内参信息,将上一时刻各所述预设关键点的三维坐标信息转换到所述当前帧图像的二维坐标系,得到各所述预设关键点在所述当前帧图像的所述二维估计坐标信息。
5.根据权利要求1所述的方法,其中,所述修正所得到的各所述预设关键点的二维估计坐标信息,得到各所述预设关键点在所述当前帧图像的二维坐标信息,包括:
将各所述预设关键点的二维估计坐标信息与所述当前帧图像融合,获得融合图像;
对所述融合图像进行预设关键点的预测,得到各所述预设关键点在所述当前帧图像的二维坐标信息。
6.根据权利要求5所述的方法,其中,所述对所述融合图像进行预设关键点的预测,得到各所述预设关键点在所述当前帧图像的二维坐标信息,包括:
通过预设的轻量化关键点预测模型对所述融合图像进行预设关键点的预测,得到各所述预设关键点在所述当前帧图像的二维坐标信息;所述轻量化关键点预测模型用于表征所述融合图像与各所述预设关键点的二维坐标信息之间的对应关系。
7.根据权利要求5所述的方法,其中,所述将各所述预设关键点的二维估计坐标信息与所述当前帧图像融合,获得融合图像,包括:
对于各所述预设关键点中的任一所述预设关键点,基于该预设关键点的二维估计坐标信息,从所述当前帧图像中确定包含该预设关键点的关键点子图;
根据该预设关键点的二维估计坐标信息,生成与该预设关键点对应的所述关键点子图相同尺寸的掩码图;
将该预设关键点对应的所述关键点子图与所述掩码图融合,获得该预设关键点对应的融合图像。
8.根据权利要求7所述的方法,其中,所述对所述融合图像进行预设关键点的预测,得到各所述预设关键点在所述当前帧图像的二维坐标信息,包括:
通过轻量化关键点预测模型,对各所述预设关键点分别对应的融合图像进行处理,获得各所述预设关键点的二维预测坐标信息;所述二维预测坐标信息为所述预设关键点在对应的关键点子图中的坐标信息;
根据各所述预设关键点的二维预测坐标信息、各所述预设关键点对应的所述关键点子图与所述当前帧图像的位置关系,获得各所述预设关键点在所述当前帧图像的二维坐标信息。
9.根据权利要求7所述的方法,其中,所述基于该预设关键点的二维估计坐标信息,从所述当前帧图像中确定包含该预设关键点的关键点子图,包括:
确定该预设关键点的三维坐标;
基于该预设关键点的三维坐标,确定包括该预设关键点的初始关键点子图的尺寸;
根据该预设关键点的二维估计坐标信息和所确定的尺寸,在所述当前帧图像中确定包括该预设关键点的初始关键点子图;
将所确定的所述初始关键点子图缩放到预设尺寸,获得该预设关键点对应的所述关键点子图。
10.根据权利要求9所述的方法,其中,所述当前帧图像包括第一图像和第二图像;任一预设关键点的二维估计坐标信息包括该预设关键点在所述第一图像的第一二维估计坐标信息、及该预设关键点在所述第二图像的第二二维估计坐标信息;
所述预设关键点的三维坐标通过如下方式确定:
根据各所述预设关键点的第一二维估计坐标信息和第二二维估计坐标信息,估计各所述预设关键点的三维坐标。
11.根据权利要求6所述的方法,其中,所述通过预设的轻量化关键点预测模型对所述融合图像进行预设关键点的预测,得到各所述预设关键点在所述当前帧图像的二维坐标信息,包括:
采用所述轻量化关键点预测模型的卷积网络对所述融合图像进行纹理特征提取,所述卷积网络包括至少一层卷积层;
将所述融合图像中的预设关键点的二维估计坐标信息作为先验信息,采用所述轻量化关键点预测模型的线性映射层,基于所提取的纹理特征确定各所述预设关键点在所述当前帧图像的二维坐标信息。
12.根据权利要求1-11任一所述的方法,其中,还包括:
确定所述当前帧图像的帧类型;
响应于所述当前帧图像的帧类型为预设类型,通过深度关键点预测模型对所述当前帧图像进行处理,获得各所述预设关键点在所述当前帧图像的所述二维坐标信息;所述深度关键点预测模型包括的卷积层数量大于轻量化关键点预测模型;所述预设类型包括首帧、关键帧中的至少一者;
获取所述相机在所述当前时刻的估计位姿信息,包括:
响应于所述当前帧图像的帧类型不是所述预设类型,获取所述相机在所述当前时刻的估计位姿信息。
13.根据权利要求1-11任一所述的方法,其中,所述相机包括第一相机和第二相机;所述当前帧图像包括所述第一相机采集的第一图像和第二相机采集的第二图像;各所述预设关键点在所述当前帧图像的二维坐标信息包括各所述预设关键点在所述第一图像的第一二维坐标信息和在所述第二图像的第二二维坐标信息;
所述基于各所述预设关键点在所述当前帧图像的二维坐标信息,确定所述当前时刻各所述预设关键点的三维坐标信息,包括:
根据各所述预设关键点的所述第一二维坐标信息和所述第二二维坐标信息、及所述第一相机与所述第二相机的相对位姿信息,确定各所述预设关键点在所述第一相机的相机坐标系下的三维坐标信息。
14.根据权利要求1-11任一所述的方法,其中,所述方法还包括:
基于所述当前时刻各所述预设关键点的三维坐标信息和所述相机在所述当前时刻的估计位姿信息,确定所述相机在所述当前时刻的位姿信息;
基于所述相机在所述当前时刻的位姿信息和所述当前时刻各所述预设关键点的三维坐标信息,确定虚拟屏幕在参考坐标系下的位姿信息;
获取所述虚拟屏幕中待显示的画面数据,渲染待显示画面;
将所述待显示画面发送到所述头戴显示设备进行显示。
15.一种用于处理信息的装置,包括:
获取模块,被配置成获取头戴显示设备上的相机在当前时刻采集的当前帧图像和所述相机在所述当前时刻的估计位姿信息,其中,所述当前帧图像包括目标对象中的多个预设关键点;
第一处理模块,被配置成采用所述相机在所述当前时刻的估计位姿信息和上一时刻各所述预设关键点的三维坐标信息,将各所述预设关键点重投影到所述当前帧图像,得到各所述预设关键点在所述当前帧图像的二维估计坐标信息;
第二处理模块,被配置成修正所得到的各所述预设关键点的二维估计坐标信息,得到各所述预设关键点在所述当前帧图像的二维坐标信息;
第三处理模块,被配置成基于各所述预设关键点在所述当前帧图像的二维坐标信息,确定所述当前时刻各所述预设关键点的三维坐标信息。
16.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-14任一所述的用于处理信息的方法。
17.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-14任一所述的用于处理信息的方法。
18.一种头戴显示设备,所述头戴显示设备包括:
处理器;
用于采集图像的相机;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-14任一所述的用于处理信息的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311847638.4A CN118485712A (zh) | 2023-12-28 | 2023-12-28 | 用于处理信息的方法、装置、电子设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311847638.4A CN118485712A (zh) | 2023-12-28 | 2023-12-28 | 用于处理信息的方法、装置、电子设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118485712A true CN118485712A (zh) | 2024-08-13 |
Family
ID=92186479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311847638.4A Pending CN118485712A (zh) | 2023-12-28 | 2023-12-28 | 用于处理信息的方法、装置、电子设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118485712A (zh) |
-
2023
- 2023-12-28 CN CN202311847638.4A patent/CN118485712A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10674142B2 (en) | Optimized object scanning using sensor fusion | |
EP3786890B1 (en) | Method and apparatus for determining pose of image capture device, and storage medium therefor | |
EP4307233A1 (en) | Data processing method and apparatus, and electronic device and computer-readable storage medium | |
CN111833403B (zh) | 用于空间定位的方法和装置 | |
JP2008275341A (ja) | 情報処理装置、情報処理方法 | |
US20210174570A1 (en) | Systems and methods for providing a mixed-reality pass-through experience | |
US11748913B2 (en) | Modeling objects from monocular camera outputs | |
US11989900B2 (en) | Object recognition neural network for amodal center prediction | |
CN109754464B (zh) | 用于生成信息的方法和装置 | |
US11138743B2 (en) | Method and apparatus for a synchronous motion of a human body model | |
US11908236B2 (en) | Illumination detection method and apparatus for face image, and device and storage medium | |
JP2012048393A (ja) | 情報処理装置およびその動作方法 | |
US20230237777A1 (en) | Information processing apparatus, learning apparatus, image recognition apparatus, information processing method, learning method, image recognition method, and non-transitory-computer-readable storage medium | |
US10147218B2 (en) | System to identify and use markers for motion capture | |
CN116246026B (zh) | 三维重建模型的训练方法、三维场景渲染方法及装置 | |
CN117372604A (zh) | 一种3d人脸模型生成方法、装置、设备及可读存储介质 | |
US20230290101A1 (en) | Data processing method and apparatus, electronic device, and computer-readable storage medium | |
CN118485712A (zh) | 用于处理信息的方法、装置、电子设备和介质 | |
CN113191462A (zh) | 信息获取方法、图像处理方法、装置及电子设备 | |
WO2019186833A1 (ja) | 画像処理装置、画像処理方法、及び、コンピュータ読み取り可能な記録媒体 | |
CN118484082A (zh) | 用于显示画面的方法、装置、电子设备和介质 | |
KR102684771B1 (ko) | 영상을 안정화하는 장치 및 방법 | |
CN118486046A (zh) | 用于确定对象关键点的方法、装置、电子设备和介质 | |
CN117034585A (zh) | 多显示器的编排方法、装置和电子设备 | |
JP2020095671A (ja) | 認識装置及び認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |