CN112669381B

CN112669381B - 一种位姿确定方法、装置、电子设备及存储介质

Info

Publication number: CN112669381B
Application number: CN202011575002.5A
Authority: CN
Inventors: 李笑寒; 郭小燕
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-09-21
Anticipated expiration: 2040-12-28
Also published as: CN112669381A

Abstract

本公开关于一种位姿确定方法、装置、电子设备及存储介质，用以高效准确地确定目标对象在视频中的位姿，该方法为：通过获取包含有指定的目标对象的初始位姿，第一视频帧以及第二视频帧，采用两种不同的计算方式，分别针对目标对象的各个特征点进行计算，获得目标对象的各个特征点在第一视频帧中的第一二维坐标信息以及第二二维坐标信息，基于第一二维坐标信息和第二二维坐标信息，获得目标对象在第一视频帧中的目标位姿定位结果。

Description

一种位姿确定方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机科学领域，特别涉及一种位姿确定方法、装置、电子设备及存储介质。

背景技术

随着增强现实(Augmented Reality，AR)技术的发展，虚拟信息与真实世界的交互愈加频繁。例如：在录制趣味视频时，在人手上添加虚拟道具。

实际应用中，为了使虚拟信息与真实世界的交互效果更加真实，需要对真实世界的人体部位、物品等等进行位姿定位。

相关技术下，通常使用的位姿定位方法包含以下两种：

方法一：基于二维图像的点特征和线特征，对观测图像帧和模板图像帧进行匹配，获得匹配结果，基于匹配结果，将观测图像中的二维点特征与二维线特征转换为三维点特征与三维线特征，基于三维点特征与三维线特征，获得位姿定位结果；其中，点特征为二维图像中各个关键点的特征向量，线特征为二维图像中各个关键线段的特征向量。

但是，采用方法一时，需要计算图像的线特征，从而在一定程度上增加了位姿定位的计算量，降低了工作效率，且无法保证定位的准确率。

方法二：基于设定的参考图像，获得参考图像中目标对象(如，人体部位或物品)的关键点，基于关键点，利用双目摄像头对参考图像中的目标对象进行三维重建，基于三维重建后的目标对象的各个特征点，获得相应的位姿定位结果。

但是，采用这种方法需要目标对象静止不动，以便拍摄用于提取关键点的图像，并且使用该方法时，必须配有双目摄像头，十分不便，同时使用方法二时，仅能对进行刚体运动的目标对象进行位姿定位。

因此，需要一种位姿确定方法及装置，以解决上述问题。

发明内容

本公开实施例中，提供了一种位姿确定方法、装置、电子设备及存储介质，用以高效准确地对目标对象在视频中的位姿进行定位。

本公开实施例提供的具体技术方案如下：

第一方面，一种位姿确定方法，包括：

获取目标对象的初始位姿、第一视频帧和第二视频帧，所述第一视频帧为当前视频帧，所述第二视频帧为与所述第一视频帧相邻的前一视频帧，所述第一视频帧和所述第二视频帧中均包含所述目标对象；

对所述第二视频帧中所述目标对象进行特征点提取，以及基于所述初始位姿、所述第一视频帧和所述第二视频帧，对提取出的各个特征点进行特征点跟踪，获得所述第一视频帧中所述目标对象的各个特征点的第一二维坐标信息；

确定所述目标对象在初始位姿下对应的各个特征点在世界坐标系中的三维坐标信息，并将所述三维坐标信息重投影到所述第一视频帧中，获得所述第一视频帧中所述目标对象的各个特征点的第二二维坐标信息；

基于所述第一二维坐标信息和所述第二二维坐标信息，获得所述目标对象在所述第一视频帧中的目标位姿。

可选的，对所述第二视频帧中所述目标对象进行特征点提取，包括：

对所述第二视频帧中的目标对象进行关键点定位处理，获得所述目标对象包含的各个关键点；

将所述各个关键点围成的封闭区域，确定为特征区域；

在所述特征区域中进行特征点提取处理，获得各个特征点，其中，所述各个特征点表征在所述特征区域内的所述目标对象的位姿特征。

可选的，基于所述初始位姿、所述第一视频帧和所述第二视频帧，对提取出的各个特征点进行特征点跟踪，获得所述第一视频帧中所述目标对象的各个特征点的第一二维坐标信息，包括：

基于初始位姿，对所述第一视频帧中所述目标对象进行位姿定位处理，获得所述第一视频帧中所述目标对象相对于所述初始位姿的第一位姿变换结果；

基于初始位姿，对所述第二视频帧中所述目标对象进行位姿定位处理，获得所述第二视频帧中所述目标对象相对于所述初始位姿的第二位姿变换结果；

基于所述第一位姿变换结果和所述第二位姿变换结果，在所述第一视频帧中，对所述第二视频帧中所述目标对象的各个特征点进行特征点跟踪，基于所述特征点跟踪结果，获得所述第一视频帧中所述目标对象的各个特征点的第一二维坐标信息。

可选的，基于初始位姿，对所述第一视频帧中所述目标对象进行位姿定位处理，获得所述第一视频帧中所述目标对象相对于所述初始位姿的第一位姿变换结果，包括：

基于初始位姿，对所述第一视频帧中所述目标对象进行位姿定位处理，获得所述第一视频帧中所述目标对象相对于所述初始位姿的第一平移结果和第一旋转结果；

将所述第一平移结果和所述第一旋转结果，作为所述第一位姿变换结果；

基于初始位姿，对所述第二视频帧中所述目标对象进行位姿定位处理，获得所述第二视频帧中所述目标对象相对于所述初始位姿的第二位姿变换结果，包括：

基于初始位姿，对所述第二视频帧中所述目标对象进行位姿定位处理，获得所述第二视频帧中所述目标对象相对于所述初始位姿的第二平移结果和第二旋转结果；

将所述第二平移结果和所述第二旋转结果作为所述第二位姿变换结果。

可选的，确定所述目标对象在初始位姿下对应的各个特征点在世界坐标系中的三维坐标信息，包括：

基于所述第二视频帧中所述目标对象的各个特征点的初始二维坐标信息和所述第二位姿变换结果，确定所述目标对象在初始位姿下对应的各个特征点在三维坐标系中的三维坐标信息。

可选的，基于所述第一二维坐标信息和所述第二二维坐标信息，获得所述目标对象在所述第一视频帧中的目标位姿，包括：

确定候选位姿集合，所述候选位姿集合中的各个候选位姿是针对所述第一位姿变换结果经过平移和旋转处理获得的，且各个候选位姿不相同；

分别根据第一视频帧中各个特征点对应的第一二维坐标信息和第二二维坐标信息，以及各个候选位姿，计算所述各个特征点对应的重投影误差值；

将获得的各个重投影误差值中取值最小的重投影误差值对应的候选位姿，作为目标位姿。

可选的，将获得的各个重投影误差值中取值最小的重投影误差值对应的候选位姿，作为目标位姿之后，还包括：

基于第一位姿变换结果和所述目标位姿之间的误差，采用融合函数对所述目标位姿进行调整。

第二方面，一种位姿确定装置，包括：

第一处理单元，用于获取目标对象的初始位姿、第一视频帧和第二视频帧，所述第一视频帧为当前视频帧，所述第二视频帧为与所述第一视频帧相邻的前一视频帧，所述第一视频帧和所述第二视频帧中均包含所述目标对象；

第二处理单元，用于对所述第二视频帧中所述目标对象进行特征点提取，以及基于所述初始位姿、所述第一视频帧和所述第二视频帧，对提取出的各个特征点进行特征点跟踪，获得所述第一视频帧中所述目标对象的各个特征点的第一二维坐标信息；

第三处理单元，用于确定所述目标对象在初始位姿下对应的各个特征点在世界坐标系中的三维坐标信息，并将所述三维坐标信息重投影到所述第一视频帧中，获得所述第一视频帧中所述目标对象的各个特征点的第二二维坐标信息；

第四处理单元，用于基于所述第一二维坐标信息和所述第二二维坐标信息，获得所述目标对象在所述第一视频帧中的目标位姿。

可选的，对所述第二视频帧中所述目标对象进行特征点提取，第二处理单元用于：

将所述各个关键点围成的封闭区域，确定为特征区域；

可选的，基于所述初始位姿、所述第一视频帧和所述第二视频帧，对提取出的各个特征点进行特征点跟踪，获得所述第一视频帧中所述目标对象的各个特征点的第一二维坐标信息，第二处理单元用于：

可选的，基于初始位姿，对所述第一视频帧中所述目标对象进行位姿定位处理，获得所述第一视频帧中所述目标对象相对于所述初始位姿的第一位姿变换结果，第二处理单元用于：

可选的，确定所述目标对象在初始位姿下对应的各个特征点在世界坐标系中的三维坐标信息，第三处理单元用于：

可选的，基于所述第一二维坐标信息和所述第二二维坐标信息，获得所述目标对象在所述第一视频帧中的目标位姿，第四处理单元用于：

可选的，将获得的各个重投影误差值中取值最小的重投影误差值对应的候选位姿，作为目标位姿之后，第四处理单元还用于：

第三方面，一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于读取并执行所述存储器中存储的可执行指令，以实现如上述第一方面中任一项所述的方法。

第四方面，一种计算机可读存储介质，当所述计算机可读存储介质中的指令由处理器执行时，使得所述处理器能够执行如上述第一方面中任一项所述的方法。

第五方面，一种计算机程序产品，包含可执行指令，当所述计算机程序产品的可执行指令由处理器执行时，能够实现如上述第一方面中任一项所述的方法。

本公开实施例中，电子设备通过获取包含有指定的目标对象的初始位姿、第一视频帧以及第二视频帧，采用两种不同的计算方式，分别针对目标对象的各个特征点进行计算，获得目标对象的各个特征点在第一视频帧中的第一二维坐标信息以及第二二维坐标信息，基于第一二维坐标信息和第二二维坐标信息，获得目标对象在第一视频帧中的目标位姿定位结果。这样，基于相同的特征点，采用两种方式计算出两组不同的二维坐标信息，进而通过对这两组二维坐标信息进行计算，得到相应的位姿定位结果，可以充分的避免单一数据造成的误差，其次，该方法可以在极短的时间通过对视频数据的部分视频帧中的目标对象进行分析，进而得到准确地位姿结果，使得电子设备可以实时的定位运动物体的位姿，解决了相关技术下难以对单目摄像头采集到的，进行非刚体运动的目标对象进行位姿定位的问题，极大的提高了位姿定位的便利性。

附图说明

图1为本公开实施例中位姿定位的流程示意图；

图2为本公开实施例中电子设备获取目标视频数据的示意图；

图3为本公开实施例中电子设备获取第一视频帧和第二视频帧的示意图；

图4A为本公开实施例中电子设备在第二视频帧中提取目标对象特征点的示意图；

图4B为本公开实施例中电子设备获取第一平移结果，第一旋转结果，第二平移结果，第二旋转结果的示意图；

图4C为本公开实施例中电子设备计算第一二维信息的示意图；

图5A为本公开实施例中电子设备进行特征点恢复的示意图；

图5B为本公开实施例中电子设备进行特征点重投的示意图；

图6为本公开实施例中电子设备利用目标位姿定位结果进行AR互动的示意图；

图7为本公开实施例中电子设备逻辑架构示意图；

图8为本公开实施例中电子设备实体架构示意图。

具体实施方式

为了高效准确地对目标对象在视频中的位姿进行定位，本公开实施例中，电子设备首先获取包含有指定的目标对象的初始位姿，第一视频帧以及第二视频帧，基于获得的包含有指定的目标对象的初始位姿，第一视频帧以及第二视频帧，采用两种不同的计算方式，分别针对目标对象的各个特征点进行计算，获得目标对象的各个特征点在第一视频帧中的第一二维坐标信息以及第二二维坐标信息，基于第一二维坐标信息和第二二维坐标信息，获得目标对象在第一视频帧中的目标位姿定位结果。

实际应用中，上述电子设备包括但不限于以下装置：智能终端，智能服务器，智能芯片等等。

下面结合附图对本公开优选的实施方式做出进一步详细说明。

参阅图1所示，本公开实施例中，服务器执行虚拟资源调整的详细流程如下：

步骤100：获取目标对象的初始位姿、第一视频帧和第二视频帧，第一视频帧为当前视频帧，第二视频帧为与第一视频帧相邻的前一视频帧，第一视频帧和第二视频帧中均包含目标对象。

具体的，电子设备通过图像采集设备采集(如，单目摄像机等等)包含有目标对象的视频数据。

例如，电子设备(如，智能手册、智能平板)通过摄像头，捕捉到一段手掌运动的视频数据，参阅图2所示，选择该段含有手掌的视频作为目标视频数据。

具体实施中，目标对象可以是任何物体，例如：手掌，胳膊，肚子，衣服，盘子等等，本申请实施例中仅以手掌为例，以下不再赘述。

进一步的，电子设备从上述视频数据中，任意选择连续的两帧，作为第一视频帧和第二视频帧。

例如，参阅图3所示，从初始位姿所在的视频数据中，选择任意选择连续的两帧，分别作为第一视频帧和第二视频帧，其中，第一视频帧时第二视频帧的后一帧，且在第一视频帧与第二视频帧中均包含有手掌。

步骤110：对第二视频帧中目标对象进行特征点提取，以及基于初始位姿、第一视频帧和第二视频帧，对提取出的各个特征点进行特征点跟踪，获得第一视频帧中目标对象的各个特征点的第一二维坐标信息。

具体实施中，可选的，电子设备对所述第二视频帧中的目标对象进行关键点定位处理，获得所述目标对象包含的各个关键点，将所述各个关键点围成的封闭区域，确定为特征区域，在所述特征区域中进行特征点提取处理，获得各个特征点，其中，各个特征点表征在特征区域内的目标对象的位姿特征。

进一步地，实际应用中，提取特征点可以采用包括但不限于以下方法：尺度不变特征变换法(Scale-InvariantFeature Transform，SIFT)，加速健壮特征法(Speeded UpRobust Features，SURF)，特征点检测法(Features From Accelerated Segment Test，FAST)等等。本申请实施例中以采用FAST方法提取特征点为例。

例如：参阅图4A所示，电子设备利用神经网络对第二视频帧中的目标对象进行关键点定位处理，获得目标对象包含的关键点A，关键点B，关键点C，关键点D，关键点E，基于各个关键点，获得由关键点围成的特征区域X，从特征区域X中，采用FAST算法，提取若干特征点，假设其中包含有特征点a₂，a₂的二维坐标为(2，0)。

通过利用关键点确定对应的特征区域，使得电子设备在利用特征点提取算法时，计算的区域更为准确，计算区域的面积更小，加快了计算的速度，提高了特征点提取的速度，而通过特征点提取，也为后续利用特征点进行位姿定位优化奠定了基础。

在获得各个特征点之后，电子设备基于初始位姿，对第一视频帧中目标对象进行位姿定位处理，获得第一视频帧中目标对象相对于初始位姿的第一位姿变换结果，以及基于初始位姿，对第二视频帧中目标对象进行位姿定位处理，获得第二视频帧中目标对象相对于初始位姿的第二位姿变换结果。

进一步的，上述第一位姿变换结果包括但不限于以下内容：第一平移结果和第一旋转结果；上述第二位姿变换结果包括但不限于以下内容：第二平移结果和第二旋转结果。

例如，参阅图4B所示，假设第一视频帧中目标对象相对于目标对象的初始位姿第一平移结果为

第一旋转结果为0，第二视频帧中目标对象相对于目标对象的初始位姿第二平移结果为2，第二旋转结果为0。

进一步地，电子设备基于第一平移结果，第一旋转结果，第二平移结果，第二旋转结果，在第一视频帧中，对第二视频帧中目标对象的各个特征点进行特征点跟踪，获得第一视频帧中目标对象的各个特征点的第一二维坐标信息。

例如：参阅图4C所示，基于图4B的假设，则第一视频帧中的目标对象相对于第二视频帧中的目标对象的平移结果为2，旋转结果为0，基于该平移结果和旋转结果，对第二视频帧中的特征点采用光流法进行特征点跟踪，得到第一视频帧中的特征点，其中，特征点a₁是特征点a₂通过特征点跟踪后得到的特征点，二维坐标为(2，2)。

基于目标位姿，利用现有技术，获取待优化的第一位姿变换结果和第二位姿变换结果，使得电子设备成功获得待优化的对象。

进一步地，从第一位姿变换结果和第二位姿变换结果中提取出对应的用于计算的详细数据，例如：第一平移结果，第一旋转结果，第二平移结果和第二旋转结果，分开计算可以使得优化更加细致，进一步的精确了优化的程度。

步骤120：确定目标对象在初始位姿下对应的各个特征点在世界坐标系中的三维坐标信息，并将三维坐标信息重投影到第一视频帧中，获得第一视频帧中目标对象的各个特征点的第二二维坐标信息。

具体实施中，可选的，在执行步骤120时，电子设备基于第二视频帧中目标对象的各个特征点，获得第二视频帧中目标对象的各个特征点的初始二维坐标信息，基于第二平移结果、第二旋转结果和初始二维坐标信息，按照如下公式，将各个特征点的初始二维坐标信息，恢复为世界坐标系中目标对象的初始位姿对应的各个特征点的三维坐标信息：

其中，

为第二旋转结果的矩阵表现形式，

为第二平移结果的矩阵表现形式，

为电子设备的图像采集设备的参数，

为初始二维坐标信息的矩阵表现形式，

为三维坐标信息的矩阵表现形式。

通过上述公式，将第二视频帧中的二维坐标恢复为世界坐标系中的三维坐标，为接下来的重投影提供了数据来源。

显然，目标对象在世界坐标系下的一定有分布在z＝0的平面中的特征点，当z＝0时，将该特征点的第二平移结果和第二旋转结果带入上述公式，获得s的值。

进一步的，电子设备将三维坐标信息作为特征点恢复处理结果。

例如，参阅图5A所示，电子设备获得第二视频帧中目标对象的各个特征点的初始二维坐标信息，其中包括特征点a₁(2，0)，基于第二平移结果2、第二旋转结果0和初始二维坐标信息，将目标对象的初始位姿对应的各个特征点的二维坐标信息，恢复为世界坐标系中目标对象对应的各个特征点的三维坐标信息，其中特征点a₁恢复为特征点a₃，假设特征点a₃的三维坐标为(0，0，0)，电子设备将三维坐标信息作为特征点恢复处理结果。

具体实施中，第一二维坐标信息，第二二维坐标信息，初始二维坐标信息，第一平移结果，第一旋转结果，第二平移结果，第二旋转结果，三维坐标信息等等相关数据，均需要经过说明书中记载的方法及公式计算得到，本文中给出的数据均为举例，并非经过公式严格计算后得到的数据，下文中出现类似数据皆与此相同，不再赘述。

在获得特征点回复处理结果之后，电子设备基于获得的特征点恢复处理结果，第一平移结果和第一旋转结果，按照如下公式，将特征点恢复处理结果重新投影为第一视频帧中目标对象对应的各个特征点的第二二维坐标信息：

其中，其中，

为第一旋转结果的矩阵表现形式，

为第一平移结果的矩阵表现形式，

为电子设备的图像采集设备的参数，

为第二二维坐标信息的矩阵表现形式，

为三维坐标信息的矩阵表现形式。

例如，参阅图5B所示，电子设备基于获得的特征点恢复处理结果，第一平移结果

第一旋转结果0，将特征点恢复处理结果重新投影为第一视频帧中目标对象对应的各个特征点的第二二维坐标信息，其中特征点a₄是基于特征点a₃以及第一平移结果

第一旋转结果0重新投影获得的，特征点a₄的二维坐标信息为(3，2)。

步骤130：基于第一二维坐标信息和第二二维坐标信息，获得目标对象在第一视频帧中的目标位姿。

具体的，电子设备确定候选位姿集合，所述候选位姿集合中的各个候选位姿是针对所述第一位姿变换结果经过平移和旋转处理获得的，且各个候选位姿不相同，分别根据第一视频帧中各个特征点对应的第一二维坐标信息和第二二维坐标信息，以及各个候选位姿，计算所述各个特征点对应的重投影误差值，将获得的各个重投影误差值中取值最小的重投影误差值对应的候选位姿，作为目标位姿。

具体实施中，上述过程可转换为如下公式，获得目标对象在第一视频帧中的目标位姿定位结果：

其中，n为特征点的总数，i为特征点标号，对应记为特征点i，其中P为对应特征点i的第一二维坐标信息，k为

上述公式取最小值时，k的取值即为目标位姿定位结果。

通过获得的第一二维坐标信息和第二二维坐标信息，基于上述公式的计算，可以选择出两个坐标之间误差值最小时对应的位姿定位结果，这样，选出来的位姿定位结果更加精确，提高了用户体验。

例如，将特征点a的第一二维信息a₁(2，2)，以及第二二维信息a₄(2，3)带入上述公式，可以得到目标平移结果

目标旋转结果0，基于目标平移结果

目标旋转结果0，即可得到目标位姿定位结果(2，2.5)。

进一步的，在电子设备将获得的各个重投影误差值中取值最小的重投影误差值对应的候选位姿，作为目标位姿定位结果之后，其中，目标位姿定位结果中包含有目标表平移结果和目标旋转结果，进而，电子设备可以按照如下融合函数，对目标平移结果和目标旋转结果进行优化：

R＝R₀×(1-alpha_R)+R_c×alpha_R

T＝T₀×(1-alpha_T)+T_c×alpha_T

其中，R为目标平移结果优化后的结果，T为目标旋转结果优化后的结果，R₀为目标平移结果，T₀为目标旋转结果，R_c为第一平移结果，T_c为第一旋转结果，alpha_R与alpha_T可以按照如下公式进行计算：

alpha_R＝‖log(R₀R_c ^-1)‖

alpha_T＝‖T₀-T_c‖

进一步的，当alpha_R小于预先设定的调整范围中最小值时，则alpha_R直接取值为0，若alpha_R大于预先设定的调整范围中最大值时，则alpha_R直接取值为1，当alpha_T小于预先设定的调整范围中最小值时，则alpha_T直接取值为0，若alpha_T小于预先设定的调整范围中最大值时，则alpha_T直接取值为1。

由于在实际应用中，特征点并非排布在同一平面上，而R₀和T₀则是基于特征点位于同一平面为前提计算获得的，因此，需要通过上述公式对R₀和T₀进行优化，由于使用了融合函数，因此，优化之后的R和T结合以表征处在不同平面的特征点，更加的贴近真实的使用场景，提高了用户体验。

例如，假设调整区间范围为0.3-0.5，通过计算得到alpha_R为0.1，alpha_T为0.6，则，此时alpha_R直接取值为0，alpha_T直接取值为1。将alpha_R与alpha_T带入上述公式，有：

R＝R₀×(1-0)+R_c×0＝R₀

T＝T₀×(1-1)+T_c×1＝T_c

基于上述R、T，获得目标对象的优化后的目标位姿定位结果。

具体实施中，在一个实施例中，通过上述位姿定位过程，可以准确地判断目标对象的位姿，进而可以准确地将虚拟物品添加到目标对象上。

例如，参阅图6所示，在准确地判断第一视频帧中手掌的位姿后，电子设备在手掌上添加虚拟物品“扑克牌”。

进一步的，电子设备上述步骤100—步骤140执行的时间在30毫秒以内，远小于人类对时间的感知范围，因此，上述处理过程可以用来处理实时的视频数据。

基于同一发明构思，参阅图7所示，本公开实施例中提供一种位姿确定装置(如，电子设备)，包括：

第一处理单元710，用于获取目标对象的初始位姿、第一视频帧和第二视频帧，所述第一视频帧为当前视频帧，所述第二视频帧为与所述第一视频帧相邻的前一视频帧，所述第一视频帧和所述第二视频帧中均包含所述目标对象；

第二处理单元720，用于对所述第二视频帧中所述目标对象进行特征点提取，以及基于所述初始位姿、所述第一视频帧和所述第二视频帧，对提取出的各个特征点进行特征点跟踪，获得所述第一视频帧中所述目标对象的各个特征点的第一二维坐标信息；

第三处理单元730，用于确定所述目标对象在初始位姿下对应的各个特征点在世界坐标系中的三维坐标信息，并将所述三维坐标信息重投影到所述第一视频帧中，获得所述第一视频帧中所述目标对象的各个特征点的第二二维坐标信息；

第四处理单元740，用于基于所述第一二维坐标信息和所述第二二维坐标信息，获得所述目标对象在所述第一视频帧中的目标位姿。

可选的，对所述第二视频帧中所述目标对象进行特征点提取，第二处理单元720用于：

将所述各个关键点围成的封闭区域，确定为特征区域；

可选的，基于所述初始位姿、所述第一视频帧和所述第二视频帧，对提取出的各个特征点进行特征点跟踪，获得所述第一视频帧中所述目标对象的各个特征点的第一二维坐标信息，第二处理单元720用于：

可选的，基于初始位姿，对所述第一视频帧中所述目标对象进行位姿定位处理，获得所述第一视频帧中所述目标对象相对于所述初始位姿的第一位姿变换结果，第二处理单元720用于：

可选的，确定所述目标对象在初始位姿下对应的各个特征点在世界坐标系中的三维坐标信息，第三处理单元730用于：

可选的，基于所述第一二维坐标信息和所述第二二维坐标信息，获得所述目标对象在所述第一视频帧中的目标位姿，第四处理单元740用于：

可选的，将获得的各个重投影误差值中取值最小的重投影误差值对应的候选位姿，作为目标位姿之后，第四处理单元740还用于：

参照图8所示，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件Z16。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件Z08包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述实施例中目标终端执行的任意一种方法。

基于同一发明构思，本公开实施例提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由处理器执行时，能够执行上述实施例中电子设备执行的任意一种方法。

基于同一发明构思，本公开实施例提供一种计算机程序产品，包含可执行指令，当所述计算机程序产品的可执行指令由处理器执行时，能够实现如上述实施例中电子设备执行的任意一种方法。

综上所述，本公开实施例中，电子设备通过获取包含有指定的目标对象的初始位姿，第一视频帧以及第二视频帧，采用两种不同的计算方式，分别针对目标对象的各个特征点进行计算，获得目标对象的各个特征点在第一视频帧中的第一二维坐标信息以及第二二维坐标信息，基于第一二维坐标信息和第二二维坐标信息，获得目标对象在第一视频帧中的目标位姿定位结果。这样，通过基于相同的特征点，采用两种方式计算出两组不同的二维坐标信息，进而通过对这两组二维坐标信息进行计算，得到相应的位姿定位结果，可以充分的避免单一数据造成的误差，其次，该方法可以在极短的时间通过对视频数据的部分视频帧中的目标对象进行分析，进而得到准确地位姿结果，使得电子设备可以实时的定位运动物体的位姿，解决了相关技术下难以对单目摄像头采集到的，进行非刚体运动的目标对象进行位姿定位的问题，极大的提高了位姿定位的便利性。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本公开的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本公开范围的所有变更和修改。

显然，本领域的技术人员可以对本公开实施例进行各种改动和变型而不脱离本公开实施例的精神和范围。这样，倘若本公开实施例的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

1.一种位姿确定方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，对所述第二视频帧中所述目标对象进行特征点提取，包括：

将所述各个关键点围成的封闭区域，确定为特征区域；

3.如权利要求1或2所述的方法，其特征在于，基于所述初始位姿、所述第一视频帧和所述第二视频帧，对提取出的各个特征点进行特征点跟踪，获得所述第一视频帧中所述目标对象的各个特征点的第一二维坐标信息，包括：

4.如权利要求3所述的方法，其特征在于，基于初始位姿，对所述第一视频帧中所述目标对象进行位姿定位处理，获得所述第一视频帧中所述目标对象相对于所述初始位姿的第一位姿变换结果，包括：

5.如权利要求3所述的方法，其特征在于，确定所述目标对象在初始位姿下对应的各个特征点在世界坐标系中的三维坐标信息，包括：

6.如权利要求3所述的方法，其特征在于，基于所述第一二维坐标信息和所述第二二维坐标信息，获得所述目标对象在所述第一视频帧中的目标位姿，包括：

7.如权利要求6所述的方法，其特征在于，所述将获得的各个重投影误差值中取值最小的重投影误差值对应的候选位姿，作为目标位姿之后，还包括：

8.一种位姿确定装置，其特征在于，包括：

9.如权利要求8所述的装置，其特征在于，对所述第二视频帧中所述目标对象进行特征点提取，第二处理单元用于：

将所述各个关键点围成的封闭区域，确定为特征区域；

10.如权利要求8或9所述的装置，其特征在于，基于所述初始位姿、所述第一视频帧和所述第二视频帧，对提取出的各个特征点进行特征点跟踪，获得所述第一视频帧中所述目标对象的各个特征点的第一二维坐标信息，第二处理单元用于：

11.如权利要求10所述的装置，其特征在于，基于初始位姿，对所述第一视频帧中所述目标对象进行位姿定位处理，获得所述第一视频帧中所述目标对象相对于所述初始位姿的第一位姿变换结果，第二处理单元用于：

12.如权利要求10所述的装置，其特征在于，确定所述目标对象在初始位姿下对应的各个特征点在世界坐标系中的三维坐标信息，第三处理单元用于：

13.如权利要求10所述的装置，其特征在于，基于所述第一二维坐标信息和所述第二二维坐标信息，获得所述目标对象在所述第一视频帧中的目标位姿，第四处理单元用于：

14.如权利要求13所述的装置，其特征在于，所述将获得的各个重投影误差值中取值最小的重投影误差值对应的候选位姿，作为目标位姿之后，第四处理单元还用于：

15.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于读取并执行所述存储器中存储的可执行指令，以实现如权利要求1-7任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由处理器执行时，使得所述处理器能够执行如权利要求1-7任一项所述的方法。