CN113077516B

CN113077516B - 一种位姿确定方法及相关设备

Info

Publication number: CN113077516B
Application number: CN202110467720.9A
Authority: CN
Inventors: 金出武雄; 黄锐; 李俊良; 李飞飞
Original assignee: Shenzhen Institute of Artificial Intelligence and Robotics
Current assignee: Shenzhen Institute of Artificial Intelligence and Robotics
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2024-02-23
Anticipated expiration: 2041-04-28
Also published as: CN113077516A

Abstract

本申请实施例公开了一种位姿确定方法，本方案实施例包括：获取用户针对目标场景使用图像采集设备拍摄得到的场景图像；获取训练完成的目标神经网络模型，目标神经网络模型基于场景数据训练集训练获得，场景数据训练集包括至少一帧关联有位姿标签的场景图像样本，场景图像样本为图像采集设备针对目标场景拍摄获得，位姿标签用于表示图像采集设备拍摄场景图像样本时的位置信息及姿态信息；将场景图像输入目标神经网络模型，获得所述场景图像的位姿信息，所述位姿信息表示所述图像采集设备拍摄所述场景图像时的位置信息及姿态信息。以便于用户基于该位置信息及姿态信息确定该图像所拍摄的内容，便于使用该位置信息及姿态信息对视频或图像进行处理。

Description

一种位姿确定方法及相关设备

技术领域

本申请实施例涉及数据处理领域，尤其涉及一种位姿确定方法及相关设备。

背景技术

定位技术在地图软件中得到广泛使用，一般而言，定位技术基于需进行定位的设备发出的电磁信号完成定位过程，如常用的GPS(Global Positioning System，全球定位系统))定位技术，其工作原理为基于不同的GPS卫星接收到设备所发送的电磁信号的时间差进行计算，确定设备距离不同GPS卫星的距离差，并基于GPS卫星接收到电磁信号时的所在位置确定设备的位置。

现有定位技术的定位过程依赖于设备需要定位时所发送的电磁信号，电磁信号的发送位置需与需进行定位的位置一致，然而用户在使用设备拍摄图像之后，往往希望了解该图像拍摄地点的位置信息，此时设备已经离开该拍摄地点，现有定位技术无法解决仅通过图像进行定位的问题，也无法确定拍摄图像时设备的姿态，造成一定的问题。

发明内容

本申请实施例第一方面提供了一种位姿确定方法，用于基于所获得的图像确定拍摄该图像的位置及姿态，应用于服务器，包括：

获取用户针对目标场景使用图像采集设备拍摄得到的场景图像；

获取训练完成的目标神经网络模型，所述目标神经网络模型基于场景数据训练集训练获得，所述场景数据训练集包括至少一帧关联有位姿标签的场景图像样本，所述场景图像样本为图像采集设备针对所述目标场景拍摄获得，所述位姿标签用于表示所述图像采集设备拍摄所述场景图像样本时的位置信息及姿态信息；

将所述场景图像输入所述目标神经网络模型，获得所述场景图像的位姿信息，所述位姿信息表示所述图像采集设备拍摄所述场景图像时的位置信息及姿态信息。

基于本申请实施例第一方面所提供的位姿确定方法，可选的，所述方法还包括：

使用所述场景数据训练集训练端到端神经网络模型，得到训练完成的目标神经网络模型。

获取所述场景图像采集时所述图像采集设备对应的全球定位信息；

将所述全球定位信息转换为目标场景全球定位信息；

基于所述目标场景全球定位信息对所述图像采集设备拍摄所述场景图像时的位置信息进行修正，获得第一修正位置信息。

基于本申请实施例第一方面所提供的位姿确定方法，可选的，所述场景图像为连续拍摄的多帧场景图像，多帧所述场景图像分别具有对应的拍摄时间点信息；

所述获得所述场景图像的位姿信息之后，所述方法还包括：

基于多张所述场景图像的拍摄时间点信息使用卡尔曼滤波算法对多张所述场景图像对应的位置信息多次滤波处理获得各个所述场景图像对应的第二修正位置信息。

所述获得所述场景图像的位姿信息之后，所述方法还包括：

基于多张所述场景图像的拍摄时间点信息使用卡尔曼滤波算法对多张所述场景图像对应的姿态信息进行多次滤波处理获得各个所述场景图像对应的第一修正姿态信息。

基于本申请实施例第一方面所提供的位姿确定方法，可选的，所述使用所述场景数据训练集训练端到端神经网络模型，得到训练完成的目标神经网络模型，包括：

在所述场景数据训练集确定特定场景图像样本；

确定与所述特定场景图像样本对应的图像采集设备之间欧氏距离最近的图像采集设备所拍摄的相邻特定场景图像样本；

对所述特定场景图像样本和所述相邻特定场景图像样本进行插帧处理，得到增广图像样本；

对所述特定场景图像样本对应的位姿标签及所述相邻特定场景图像样本对应的位姿标签进行插值处理，得到所述增广图像样本对应的位姿增广标签；

将所述增广图像样本及所述增广图像对应的位姿增广标签添加至所述场景数据训练集，获得增广后的场景数据训练集；

使用所述增广后的场景数据训练集训练端到端神经网络模型，得到训练完成的目标神经网络模型。

本申请实施例第二方面提供了一种位姿确定设备，包括：

场景图像获取单元，用于获取用户针对目标场景使用图像采集设备拍摄得到的场景图像；

目标神经网络模型获取单元，用户获取训练完成的目标神经网络，所述目标神经网络模型基于场景数据训练集训练获得，所述场景数据训练集包括至少一帧关联有位姿标签的场景图像样本，所述场景图像样本为图像采集设备针对所述目标场景拍摄获得，所述位姿标签用于表示所述图像采集设备拍摄所述场景图像样本时的位置信息及姿态信息；

输入单元，用于将所述场景图像输入所述目标神经网络模型，获得所述场景图像的位姿信息，所述位姿信息表示所述图像采集设备拍摄所述场景图像时的位置信息及姿态信息。

基于本申请实施例第二方面所提供的位姿确定设备，可选的，所述位姿确定设备还包括：

训练单元，用于使用所述场景数据训练集训练端到端神经网络模型，得到训练完成的目标神经网络模型。

基于本申请实施例第二方面所提供的位姿确定设备，可选的，所述设备还包括：

修正单元，用于获取所述场景图像采集时所述图像采集设备对应的全球定位信息；

将所述全球定位信息转换为目标场景全球定位信息；

基于本申请实施例第二方面所提供的位姿确定设备，可选的，所述场景图像为连续拍摄的多帧场景图像，多帧所述场景图像分别具有对应的拍摄时间点信息；

所述修正单元还用于：基于多张所述场景图像的拍摄时间点信息使用卡尔曼滤波算法对多张所述场景图像对应的位置信息进行多次滤波处理获得各个所述场景图像对应的第二修正位置信息。

所述修正单元还用于：基于多张所述场景图像的拍摄时间点信息使用卡尔曼滤波算法对多张所述场景图像对应的姿态信息进行多次滤波处理获得各个所述场景图像对应的第一修正姿态信息。

基于本申请实施例第二方面所提供的位姿确定设备，可选的，所述训练单元具体用于：

在所述场景数据训练集确定特定场景图像样本；

本申请实施例第三方面提供了一种计算机设备，包括：

中央处理器，存储器，输入输出接口，有线或无线网络接口以及电源；

所述存储器为短暂存储存储器或持久存储存储器；

所述中央处理器配置为与所述存储器通信，在所述计算机上执行所述存储器中的指令操作以执行本申请实施例第一方面中任意一项所述的方法。

本申请实施例第四方面提供了一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行如本申请实施例第一方面中任意一项所述的方法。

本申请实施例第五方面提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如本申请实施例第一方面中任意一项所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：本方案通过预先训练用于对目标场景分析的目标神经网络，目标神经网络的训练过程所使用的训练集包括场景图像样本及场景图像样本对应的位姿标签，进而在获取到用户对于目标场景拍摄的场景图像时，可使用该目标神经网络进行处理，进而获得场景图像所对应的位姿信息，位姿信息表示用户使用图像采集设备拍摄场景图像时图像采集设备拍摄的位置信息及姿态信息。以便于用户基于该位置信息及姿态信息确定该图像所拍摄的内容，便于使用该位置信息及姿态信息对视频或图像进行处理。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请位姿确定方法实施例的一个流程示意图；

图2为本申请位姿确定方法实施例的另一个流程示意图；

图3为本申请目标神经网络训练过程实施例的一个流程示意图；

图4为本申请位姿确定设备实施例的一个结构示意图；

图5为本申请计算机设备实施例的一个结构示意图。

具体实施方式

本申请实施例提供了一种位姿确定方法，用于确定在目标场景内所拍摄的场景图像的图像采集设备的位姿信息，位姿信息包括图像采集设备的位置信息及姿态信息，进而使得用户可获取不同的场景图像拍摄时对应的图像采集设备的位置及状态，便于用户确定视频帧所拍摄的内容。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

在对视频的剪辑过程中，视频的合并是一类主要涉及的环境，对于实际摄制的视频，合并过程如果采用针对不同场景的视频帧进行合并，则两个视频的过渡过程会较为生硬，降低了用户的体验，因此剪辑者往往使用针对两个视频中对同一场景进行摄制的视频帧进行合并，进而使得视频的转场更为流畅。

现有的视频合并过程往往由剪辑者基于视频帧所展示的内容确定该视频帧所展示的场景，并确定另一视频帧中展示相同场景的视频帧，将两个视频帧进行拼接，然而剪辑者在实现这一过程中所依据的信息仅为被操作视频帧所展示的图像内容，对于摄制于重复场景较多(如体育馆、公园)的视频而言，确定视频帧的拍摄位置较为困难，为解决上述问题，本申请提出一种位姿确定方法，请参照图1本申请位姿确定方法的一个实施例包括：步骤101-步骤103。

101、获取用户针对目标场景使用图像采集设备拍摄得到的场景图像。

获取用户针对目标场景使用图像采集设备拍摄得到的场景图像。本方案应用于服务器环境，首先需获得用户针对目标场景拍摄得到的场景图像，目标场景为本方案所针对的场景，为保证本方案的识别效果，目标场景可为某一特定区域，范围不应过大，具体的，目标场景可为体育馆、博物馆以及学校等大型场馆，其特点在于，遮挡较多、人流量大、并且周围环境具有不变性。用户所使用的图像采集设备可为是智能手机、平板电脑、台式电脑、智能手表、智能眼镜或者虚拟现实设备(virtual reality，VR)等其他类型的图像采集设备，具体可依据实际情况而定，此处不做限定。

102、获取训练完成的目标神经网络模型。

获取训练完成的目标神经网络，所述目标神经网络模型基于场景数据训练集训练获得，所述场景数据训练集包括至少一帧关联有位姿标签的场景图像样本，所述场景图像样本为图像采集设备针对所述目标场景拍摄获得，所述位姿标签用于表示所述图像采集设备拍摄所述场景图像样本时的位置信息及姿态信息。在本步骤中所使用的目标神经网络模型为基于端对端神经网络模型使用预先设置的场景数据训练集获得，具体的所使用的端对端神经网络模型可为卷积神经网络模型(Convolutional Neural Networks,CNN)，可以理解的是，所采用的神经网络模型结构也可为其他可实现本方案所使用的功能的神经网络模型结构，或某些卷积神经网络模型的改进型结构，具体可依据实际情况而定，此处不做限定。

位姿标签包括(x,y,z,roll,pitch,yaw)共六个维度的数据，x、y和z用于表示图像采集设备的位置信息，其中x表示图像采集设备与原点在x轴方向上的距离，位姿标签中以世界坐标系为参考获得，因此x轴方向可设置为正北方向，y表示图像采集设备与原点在y轴方向上的距离，y轴方向设置为正东方向，z表示图像采集设备与原点在z轴方向上的距离，z轴方向设置为垂直向上方向。roll、pitch和yaw表示图像采集装置设备的姿态信息，roll表示横滚角，代表图像采集设备绕x轴旋转的角度，pitch表示俯仰角，代表图像采集设备绕y轴旋转的角度，yaw表示俯仰角，代表图像采集设备绕z轴旋转的角度。

在目标神经网络模型的训练过程中所采用的训练集为包括位姿标签的场景图像样本。场景图像样本均为针对目标场景拍摄获得，为预先采集的样本，可以理解的是，场景图像样本所具有的位姿标签可在使用图像采集设备对目标场景进行拍摄时获得，以便降低人员获取位姿信息过程所需的工作量，提高本方案的可实施性。值得注意的是，在采集场景图像样本时所使用的图像采集设备与用户拍摄场景图像时所采用的图像设备可不为同一类型的设备，具体此处不做限定。

103、将所述场景图像输入所述目标神经网络模型，获得所述场景图像的位姿信息。

将所述场景图像输入所述目标神经网络模型，获得所述场景图像的位姿信息，所述位姿信息表示所述图像采集设备拍摄所述场景图像时的位置信息及姿态信息。由于所使用的训练集包括场景图像样本以及场景图像样本所对应的位姿标签，位姿标签具有(x,y,z,roll,pitch,yaw)六个维度的数据。因此基于所述目标神经网络对场景图像进行处理后可获得场景图像所对应的图像采集设备的位置信息及姿态信息同样具有(x,y,z,roll,pitch,yaw)六个维度的数据，并将该数据输出至用户，以便用户使用该位姿信息。

基于图1所描述的实施例，下面提供一种本方案在实施过程中可选择执行的详细实施例，请参阅图2，本申请的一个实施例包括：步骤101-步骤105。

201、使用所述场景数据训练集训练端到端神经网络模型，得到训练完成的目标神经网络模型。

使用所述场景数据训练集训练端到端神经网络模型，得到训练完成的目标神经网络模型。场景数据训练集包括至少一帧关联有位姿标签的场景图像样本，所述场景图像样本为图像采集设备针对所述目标场景拍摄获得，所述位姿标签用于表示所述图像采集设备拍摄所述场景图像样本时的位置信息及姿态信息。一般而言场景数据训练集所包括的场景图像样本为通过使用图像采集设备摄制视频的方式获得，同时可将图像采集设备与可以采集当前位置信息和姿态信息的传感器相互绑定，使得图像采集设备与采集位置信息和姿态信息的传感器的位置与姿态保持外参不变，进而获得与图像样本对应的位置信息和姿态信息，可以理解的是，在采集过程中，为保证需处理的数据量不至于过大，可采用抽取视频中的特定帧作为场景图像样本的方式，如在对目标场景拍摄的视频中每五帧抽取一帧，具体可依据实际情况而定，此处不做限定。

202、获取用户针对目标场景使用图像采集设备拍摄得到的场景图像。

本步骤所获取的场景图像以用户针对目标场景拍摄一段视频为例进行说明，视频中包含多帧场景图像，且各帧场景图像分别具有对应的时间点信息。

203、获取训练完成的目标神经网络。

获取训练完成的目标神经网络。本步骤所使用的目标神经网络的训练过程与上述图1对应实施例中步骤102的描述类似，具体此处不做赘述。值得注意的是，本步骤所使用的目标神经网络可包含长短期记忆神经网络模块。

长短期记忆神经网络(Long-Short Term Memory)是一种深度学习算法，是循环神经网络(RecurrentNeutral Network)中的一种，能够有效解决长期依赖问题。长短期记忆神经网络模型通过在普通多层前馈(Multi-layer feedforward neural network)神经网络基础上，增加了隐藏层各单元间的横向联系，通过权重矩阵，将上一个时间序列的神经单元的值传递至当前的神经单元，从而使神经网络具备了记忆功能，另外，在隐藏层各神经单元中增加记忆单元，从而使时间序列上的记忆信息可控，每次在隐藏层各单元间传递时通过几个可控门(遗忘门、输入门、输出门)，可以控制之前信息和当前信息的记忆和遗忘程度，从而使网络具备了长期记忆功能。不同于传统的前馈神经网络，通过构建长短期记忆神经网络模型，该长短期记忆神经网络模型的隐藏层能够实现跨越时间点的自连隐藏层，即隐藏层的输出不但可以传输到输出层，也可以传输给下一时间点的隐藏层，该网络可以长期地保存有用信息，根据历史信息推出未来信息。

204、将所述场景图像输入所述目标神经网络模型，获得所述场景图像的位姿信息，所述位姿信息表示所述图像采集设备拍摄所述场景图像时的位置信息及姿态信息。

本步骤与上述图1对应实施例中步骤103类似，具体此处不做赘述。

205、获取所述场景图像对应的全球定位信息。

获取所述场景图像对应的全球定位信息。获取用户拍摄场景图像时同步发送的全球定位信息，全球定位信息由全球定位系统(Global Positioning System，GPS)提供可用于本方案中确定场景图像的初步定位，将场景图像对应的全球定位信息与目标神经网络模型所输出的位置信息综合考虑，进而获得更为准确的拍摄设备位置信息。

206、基于所述全球定位信息对所述图像采集设备拍摄所述场景图像时的位置信息进行修正，获得第一修正位置信息。

将所述全球定位信息转换为目标场景全球定位信息；基于所述目标场景全球定位信息对所述图像采集设备拍摄所述场景图像时的位置信息进行修正，获得第一修正位置信息。由于基于GPS信号所获得的信息为经度信息和维度信息，在本方案实际实施过程中，已经预先设置对于目标场景的绝对坐标系，基于目标神经网络输出的位置信息即以目标场景的绝对坐标系作为参照表示，因此为保证所获得的GPS定位信息正常使用，首先需将GPS定位信息转换为目标场景坐标系下的定位信息，即目标场景全球定位信息。具体的换算过程基于目标场景坐标系的原点位置而定，具体此处不做限定。

目标场景全球定位信息与标神经网络输出的位置信息处于相同的目标场景绝对坐标系下，可以对目标场景全球定位信息和目标神经网络输出的位置信息分别设置不同权重进而加权求和得出第一修正位置信息。可以理解的是，权重的设置可为相关人员预先设置，同时可对不同区域设置不同的权重，如对于室外区域，全球定位系统所提供的目标场景全球定位信息较为准确，可对其设置较大权重，而对于目标神经网络结构的输出结果设置较小权重；对于室内区域，全球定位系统所提供的目标场景全球定位信息差异较大，可对其设置较小权重，而对于目标神经网络结构的输出结果设置较大权重，以保证尽可能获得准确的第一修正位置信息。

值得注意的是，由于全球定位系统仅可提供位置信息，因此本步骤基于目标场景全球定位信息仅对目标神经网络模型所输出的位置信息进行了修正，而并未对姿态信息作出改动。可以理解的是，本方案执行至该步骤即可将第一修正位置信息和姿态信息作为结果进行输出，下述步骤207至步骤208所描述的滤波过程目的在于进一步提高所获得的位姿信息的准确性，是否实施对于方案的完整性不存在影响。

207、使用卡尔曼滤波算法对多张场景图像对应的位置信息进行多次滤波处理获得各个所述场景图像对应的第二修正位置信息。

基于多张所述场景图像的拍摄时间点信息使用卡尔曼滤波算法对多张所述场景图像对应的位置信息进行多次滤波处理获得各个所述场景图像对应的第二修正位置信息。卡尔曼滤波算法把统计学应用到了滤波算法上。其算法的核心思想是，根据当前的“测量值”和上一刻的“测量值”和“误差”,计算得到当前的最优量。再预测下一刻的量，对于本实施例而言，即基于时间点在前的场景图像的位置信息预测时间点在后的场景图像的位置信息，并采用实际时间点在后的场景图像的位置信息对预测结果进行修正，对于连续拍摄的多张场景图像，应分别使用滤波算法进行处理，并用上一帧场景图像滤波后的结果参与下一帧场景图像的滤波过程，得到各个场景图像对应的第二修正位置信息。进而去除数据处理过程中可能存在的噪声干扰，提高本方案的可实施性。可以理解的是，本步骤可基于上述步骤206的执行结果继续执行，即针对第一修正位置信息再次进行修正，获得第二修正位置信息，也可直接针对目标神经网络模型的输出结果进行修正，具体的实施过程可依据实际情况而定，具体此处不做限定。

208、使用卡尔曼滤波算法对多张场景图像对应的姿态信息进行多次滤波处理获得各个所述场景图像对应的第一修正姿态信息。

基于多张所述场景图像的拍摄时间点信息使用卡尔曼滤波算法对多张所述场景图像对应的姿态信息进行多次滤波处理获得各个所述场景图像对应的第一修正姿态信息。对于本实施例而言，即基于时间点在前的场景图像的姿态信息预测时间点在后的场景图像的姿态信息，并采用实际时间点在后的场景图像的姿态信息对预测结果进行修正，对于连续拍摄的多张场景图像，应分别使用滤波算法进行处理，并用上一帧场景图像滤波后的结果参与下一帧场景图像的滤波过程，得到各个场景图像对应的第一修正姿态信息。进而去除数据处理过程中可能存在的噪声干扰，提高本方案的可实施性。

在对本方案所使用的神经网络模型进行训练前，还可以对所采用的训练集进行增广，以提高训练获得的目标神经网络模型的准确性，具体的请参照图3，本申请对场景数据训练集的增广过程包括：步骤301至步骤306.

301、在所述场景数据训练集确定特定场景图像样本。

在所述场景数据训练集确定特定场景图像样本。即确定需要增广的第一个样本，特定场景图像样本可为场景数据训练集中的任意样本，具体此处不做限定。

302、确定与所述特定场景图像样本对应的图像采集设备之间欧氏距离最近的图像采集设备所拍摄的相邻特定场景图像样本。

确定与所述特定场景图像样本对应的图像采集设备之间欧氏距离最近的图像采集设备所拍摄的相邻特定场景图像样本。具体的可使用各个场景图像样本所对应的位置标签与特定场景图像样本对应的位置标签进行计算，计算二者之间的欧氏距离，进而确定最接近的图像采集设备，两个最接近的图像设备所采集的图像样本即为相邻特定场景图像样本。可以理解的是，为提高确定相邻特定场景图像样本过程的实施，也可使用时间点相邻的场景图像样本作为相邻特定场景图像样本，具体可依据实际情况而定，此处不做限定。

303、对所述特定场景图像样本和所述相邻特定场景图像样本进行插帧处理，得到增广图像样本。

对所述特定场景图像样本和所述相邻特定场景图像样本进行插帧处理，得到增广图像。具体的，插帧处理的方法可为光流运动或者运动补偿插帧处理，在进行插帧处理时，需预先设置采样密度，如设置采样密度设置为5，则生成由特定场景图像样本变化至所述相邻特定场景图像样本过程中的4张图像样本作为增广图像样本，具体的采样密度可基于用户需求进行设置，具体此处不做限定。

304、对所述特定场景图像样本对应的位姿标签及所述相邻特定场景图像样本对应的位姿标签进行插值处理，得到所述增广图像样本对应的位姿增广标签。

对所述特定场景图像样本对应的位姿标签及所述相邻特定场景图像样本对应的位姿标签进行插值处理，得到所述增广图像样本对应的位姿增广标签。位姿增广标签的获取过程与上述增广图像样本的获取方式类似，具体此处不做赘述。值得注意的是，对位姿标签的插值处理过程所设置的采样密度应与对场景图像样本插值处理过程所设置的采样密度一致，以保证插值处理过程所获得的增广图像样本与位姿增广标签存在对应关系，便于执行后续的训练过程。

305、将所述增广图像样本及所述增广图像对应的位姿增广标签添加至所述场景数据训练集，获得增广后的场景数据训练集。

将所述增广图像样本及所述增广图像对应的位姿增广标签以及二者所具有的对应关系添加至所述场景数据训练集，获得增广后的场景数据训练集。

306、使用所述增广后的场景数据训练集训练端到端神经网络模型，得到训练完成的目标神经网络模型。

使用所述增广后的场景数据训练集训练端到端神经网络模型，得到训练完成的目标神经网络模型。具体的端到端神经网络模型的架构可为PoseNet网络模型架构，PoseNet是一种非常高效的图像检索模型，可以快速完成训练过程，同时PoseNet架构较为稳定可以应对较大的搜索频率需求，提高了本方法的可实施性。

可以理解的是，该网络模型架构也可为其他类似与PoseNet网络模型架构的网络模型，也可为PoseNet网络模型的改进版本，以便进一步提高网络性能，满足使用需求，提高本方案的可实施性。具体可依据实际情况而定，此处不做限定。

通过上述方式训练得到的目标神经网络结构由于其采用的训练集进行了数据增广，增加了训练集所包含的内容，进而使得目标神经网络结构在对场景图片的识别过程中所获得的结果更为精准，表现更好。

上面对申请实施例中的位姿确定方法进行了描述，下面对本发明实施例中的位姿确定设备进行描述。请参阅图4，本申请位姿确定设备的一个实施例包括：

场景图像获取单元401，用于获取用户针对目标场景使用图像采集设备拍摄得到的场景图像；

目标神经网络模型获取单元402，用户获取训练完成的目标神经网络，所述目标神经网络模型基于场景数据训练集训练获得，所述场景数据训练集包括至少一帧关联有位姿标签的场景图像样本，所述场景图像样本为图像采集设备针对所述目标场景拍摄获得，所述位姿标签用于表示所述图像采集设备拍摄所述场景图像样本时的位置信息及姿态信息；

输入单元403，用于将所述场景图像输入所述目标神经网络模型，获得所述场景图像的位姿信息，所述位姿信息表示所述图像采集设备拍摄所述场景图像时的位置信息及姿态信息。

本实施例中，位姿确定设备中各单元所执行的流程与前述图1所对应的实施例中描述的方法流程类似，此处不再赘述。

可选的，所述位姿确定设备还包括：

将所述全球定位信息转换为目标场景全球定位信息；

可选的，所述场景图像为连续拍摄的多帧场景图像，多帧所述场景图像分别具有对应的拍摄时间点信息；

所述修正单元还用于：基于多张所述场景图像的拍摄时间点信息使用卡尔曼滤波算法对多张所述场景图像对应的位置信息进行滤波处理获得多张所述场景图像对应的第二修正位置信息。

基于多张所述场景图像的拍摄时间点信息使用卡尔曼滤波算法对多张所述场景图像对应的姿态信息进行滤波处理获得多张所述场景图像对应的第一修正姿态信息。

图5是本申请实施例提供的一种计算机设备的结构示意图，该计算机500可以包括一个或一个以上中央处理器(central processing units，CPU)501和存储器505，该存储器505中存储有一个或一个以上的应用程序或数据。

本实施例中，中央处理器501中的具体功能模块划分可以与前述图5中所描述的各单元的功能模块划分方式类似，此处不再赘述。

其中，存储器505可以是易失性存储或持久存储。存储在存储器505的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器501可以设置为与存储器505通信，在服务器500上执行存储器505中的一系列指令操作。

计算机500还可以包括一个或一个以上电源502，一个或一个以上有线或无线网络接口503，一个或一个以上输入输出接口504，和/或，一个或一个以上操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等。可选的，所述计算机还可包括图形处理器，计算机使用图形处理器执行相应的运算工作，具体可依据实际情况而定，此处不做限定。

该中央处理器501可以执行前述图1所示实施例中位姿确定方法所执行的操作，具体此处不再赘述。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质用于实现位姿确定方法的功能，其上存储有计算机程序，计算机程序被处理器执行时，处理器，可以用于执行如图1所述的位姿确定方法。

可以理解的是，所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在相应的一个计算机可读取存储介质中或集成为计算机程序产品以便执行上述方法。基于这样的理解，本发明实现上述相应的实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种位姿确定方法，其特征在于，应用于服务器，包括：

将所述场景图像输入所述目标神经网络模型，获得所述场景图像的位姿信息，所述位姿信息表示所述图像采集设备拍摄所述场景图像时的位置信息及姿态信息；

所述方法还包括：

基于目标场景对应的预设绝对坐标系，将所述全球定位信息转换为目标场景全球定位信息；

基于所述目标场景全球定位信息对所述图像采集设备拍摄所述场景图像时的位置信息进行修正，获得第一修正位置信息；

所述基于所述目标场景全球定位信息对所述图像采集设备拍摄所述场景图像时的位置信息进行修正，获得第一修正位置信息，包括：

针对每种区域，确定所述区域的所述目标场景全球定位信息对应的第一权重，及所述目标神经网络模型输出的所述区域的位置信息对应的第二权重；其中，若所述区域为室外区域，则所述第一权重大于所述第二权重；若所述区域为室内区域，则所述第一权重小于所述第二权重；

基于所述区域的所述目标场景全球定位信息、所述目标神经网络模型输出的所述区域的位置信息、所述第一权重和所述第二权重进行加权求和，得到所述区域对应的第一修正位置信息。

2.根据权利要求1所述的位姿确定方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的位姿确定方法，其特征在于，所述场景图像为连续拍摄的多帧场景图像，多帧所述场景图像分别具有对应的拍摄时间点信息；

所述获得所述场景图像的位姿信息之后，所述方法还包括：

基于多张所述场景图像的拍摄时间点信息使用卡尔曼滤波算法对多张所述场景图像对应的位置信息进行多次滤波处理获得各个所述场景图像所对应的第二修正位置信息。

4.根据权利要求1所述的位姿确定方法，其特征在于，所述场景图像为连续拍摄的多帧场景图像，多帧所述场景图像分别具有对应的拍摄时间点信息；

所述获得所述场景图像的位姿信息之后，所述方法还包括：

5.根据权利要求2所述的位姿确定方法，其特征在于，所述使用所述场景数据训练集训练端到端神经网络模型，得到训练完成的目标神经网络模型，包括：

在所述场景数据训练集确定特定场景图像样本；

6.一种位姿确定设备，其特征在于，包括：

目标神经网络模型获取单元，用于获取训练完成的目标神经网络，所述目标神经网络模型基于场景数据训练集训练获得，所述场景数据训练集包括至少一帧关联有位姿标签的场景图像样本，所述场景图像样本为图像采集设备针对所述目标场景拍摄获得，所述位姿标签用于表示所述图像采集设备拍摄所述场景图像样本时的位置信息及姿态信息；

输入单元，用于将所述场景图像输入所述目标神经网络模型，获得所述场景图像的位姿信息，所述位姿信息表示所述图像采集设备拍摄所述场景图像时的位置信息及姿态信息；

所述设备还包括：

所述修正单元，具体用于：

7.根据权利要求6所述的位姿确定设备，其特征在于，所述位姿确定设备还包括：

8.根据权利要求6所述的位姿确定设备，其特征在于，所述场景图像为连续拍摄的多帧场景图像，多帧所述场景图像分别具有对应的拍摄时间点信息；

9.根据权利要求6所述的位姿确定设备，其特征在于，所述场景图像为连续拍摄的多帧场景图像，多帧所述场景图像分别具有对应的拍摄时间点信息；

10.根据权利要求7所述的位姿确定设备，其特征在于，所述训练单元具体用于：

在所述场景数据训练集确定特定场景图像样本；

11.一种计算机设备，其特征在于，包括：

中央处理器和存储器；

所述中央处理器配置为与所述存储器通信，用于在所述计算机设备上执行所述存储器中的指令操作以执行权利要求1-5中任意一项所述的方法。

12.一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-5中任意一项所述的方法。