CN110473254A - 一种基于深度神经网络的位姿估计方法及装置 - Google Patents
一种基于深度神经网络的位姿估计方法及装置 Download PDFInfo
- Publication number
- CN110473254A CN110473254A CN201910768325.7A CN201910768325A CN110473254A CN 110473254 A CN110473254 A CN 110473254A CN 201910768325 A CN201910768325 A CN 201910768325A CN 110473254 A CN110473254 A CN 110473254A
- Authority
- CN
- China
- Prior art keywords
- posture information
- network model
- image sequence
- deep neural
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种基于深度神经网络的位姿估计方法及装置,方法包括:获取目标图像序列,所述目标图像序列是相机在移动中连续拍摄的;将所述目标图像序列输入位姿估计网络模型,得到所述相机拍摄所述目标图像序列中每张图像时的位姿信息;所述位姿估计网络模型是根据训练集预先训练完成的,所述训练集包括:样本图像序列,以及样本位姿信息。由于采用深度神经网络模型进行相机的位姿信息估计,不需要进行关键点的提取和描述子计算过程,降低了计算复杂度,此外,对被测对象的无严格要求,可以适用于被测对象的位移较大的场景。
Description
技术领域
本发明涉及人工智能技术领域,特别是涉及一种基于深度神经网络的位姿估计方法及装置。
背景技术
随着人工智能的发展,视觉里程计也被广泛应用于机器人技术,自动驾驶技术等。通俗来讲,将相机刚性连接到一个移动的物体上,例如机器人,通过相机拍摄的一系列连续图像序列来推断相机的位姿信息即为视觉里程计。容易理解的,由于相机和机器人刚性连接,因此相机的位姿信息也可以反映机器人的位姿信息。
若仅使用一个相机,则称为单目视觉里程计,若使用多个相机,则称为立体视觉里程计。
目前,在视觉里程计领域中,针对视觉里程计任务,主要存在两种方法,一种是特征点法,另一种是直接法。
第一种特征点法,是通过提取图像的SIFT(Scale Invariant FeatureTransform,尺度不变特征),SURF(Speeded Up Robust Features,加速稳健特征)等图像特征,进行相邻图像帧的匹配,进而通过最小化重投影误差计算出相邻图像帧的相对位姿。然而这种方法在关键点的提取和描述子计算过程计算复杂度较高,相应的耗时也较多。
第二种直接法,是通过最小化广度误差跟踪关键点,相对于特征点法,省去了关键点描述子计算的计算量及耗时,后续同样通过最小化重投影误差计算图像帧的相对位姿。然而这种方法需要较高的采样率,也就是需要被测对象的位移较小。
发明内容
本发明实施例的目的在于提供一种基于深度神经网络的位姿估计方法及装置,以实现减少位姿估计的计算复杂度,并可适用于被测对象的位移较大的场景。
为实现上述目的,本发明实施例提供了一种基于深度神经网络的位姿估计方法,所述方法包括:
获取目标图像序列,所述目标图像序列是相机在移动中连续拍摄的;
将所述目标图像序列输入位姿估计网络模型,得到所述相机拍摄所述目标图像序列中每张图像时的位姿信息;所述位姿估计网络模型是根据训练集预先训练完成的,所述训练集包括:样本图像序列,以及样本位姿信息。
可选的,所述位姿估计网络模型采用以下步骤训练获得:
获取预设的深度神经网络模型和所述训练集;
将所述训练集中的样本图像序列输入所述深度神经网络模型,得到位姿信息估计集合;
将所述位姿信息估计集合的估计值和所述样本位姿信息的真实值输入预设的损失函数,确定损失值;
根据所述损失值确定所述深度神经网络模型是否收敛;
若否,则调整所述深度神经网络模型中的参数值,并返回所述将所述训练集中的样本图像序列输入所述深度神经网络模型,得到位姿信息估计集合的步骤;
若是,则将当前的深度神经网络模型确定为位姿估计网络模型。
可选的,所述深度神经网络模型包括第一子网络和第二子网络,所述第一子网络为卷积神经网络CNN,所述第二子网络为双向长短期记忆网络BI-LSTM。
可选的,所述损失函数为:
其中,loss表示损失值,N表示每次训练采用的样本图像序列中的图像数量,i表示样本图像的序号,k表示位姿信息中平移量和旋转量的状态序号,pk表示所述样本位姿信息中平移量的第k个状态的真实值,表示所述位姿信息估计集合中平移量的第k个状态的估计值,表示所述样本位姿信息中旋转量的第k个状态的真实值,表示所述位姿信息估计集合中旋转量的第k个状态的估计值,w表示平衡权重。
为实现上述目的,本发明实施例提供了一种基于深度神经网络的位姿估计装置,所述装置包括:
图像获取模块,用于获取目标图像序列,所述目标图像序列是相机在移动中连续拍摄的;
位姿估计模块,用于将所述目标图像序列输入位姿估计网络模型,得到所述相机拍摄所述目标图像序列中每张图像时的位姿信息;所述位姿估计网络模型是根据训练集预先训练完成的,所述训练集包括:样本图像序列,以及样本位姿信息。
可选的,所述装置还包括训练模块,所述训练模块用于训练所述位姿估计网络模型,
所述训练模块具体用于:获取预设的深度神经网络模型和所述训练集;
将所述训练集中的样本图像序列输入所述深度神经网络模型,得到位姿信息估计集合;
将所述位姿信息估计集合的估计值和所述样本位姿信息的真实值输入预设的损失函数,确定损失值;
根据所述损失值确定所述深度神经网络模型是否收敛;
若否,则调整所述深度神经网络模型中的参数值,并返回所述将所述训练集中的样本图像序列输入所述深度神经网络模型,得到位姿信息估计集合的步骤;
若是,则将当前的深度神经网络模型确定为位姿估计网络模型。
可选的,所述深度神经网络模型包括第一子网络和第二子网络,所述第一子网络为卷积神经网络CNN,所述第二子网络为双向长短期记忆网络BI-LSTM。
可选的,所述损失函数为:
其中,loss表示损失值,N表示每次训练采用的样本图像序列中的图像数量,i表示样本图像的序号,k表示位姿信息中平移量和旋转量的状态序号,pk表示所述样本位姿信息中平移量的第k个状态的真实值,表示所述位姿信息估计集合中平移量的第k个状态的估计值,表示所述样本位姿信息中旋转量的第k个状态的真实值,表示所述位姿信息估计集合中旋转量的第k个状态的估计值,w表示平衡权重。
为实现上述目的,本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线;其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一方法步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法步骤。
可见,采用本发明实施例提供的基于深度神经网络的位姿估计方法及装置,获取目标图像序列,将目标图像序列输入位姿估计网络模型,即可得到相机拍摄所述目标图像序列中每张图像时的位姿信息。其中所述位姿估计网络模型是根据样本图像序列,以及样本位姿信息预先训练完成的。由于采用深度神经网络模型进行相机的位姿信息估计,相比于现有的特征点法,不需要进行关键点的提取和描述子计算过程,降低了计算复杂度,此外,对被测对象的无严格要求,可以适用于被测对象的位移较大的场景。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于深度神经网络的位姿估计方法的一种流程图;
图2为本发明实施例提供的训练位姿估计网络模型的一种流程图;
图3为本发明实施例提供的基于深度神经网络的位姿估计装置的一种结构示意图;
图4为本发明实施例提供的电子设备的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决视觉里程计领域中计算复杂度较高的技术问题,本发明实施例提供了一种基于深度神经网络的位姿估计方法、装置、电子设备及计算机可读存储介质。下面先对本发明实施例提供的基于深度神经网络的位姿估计方法进行介绍。
参见图1,图1为本发明实施例提供的基于深度神经网络的位姿估计方法的一种流程图,该方法可以包括以下步骤:
S101:获取目标图像序列,所述目标图像序列是相机在移动中连续拍摄的;
为了便于理解,先对本发明的应用场景进行简要介绍。
本发明实施例可以应用于自动控制领域,例如机器人技术,无人驾驶车辆技术等。以无人驾驶车辆为例,可以将相机刚性连接到无人车上,在无人车移动过程中,相机拍摄连续的图像序列,基于这些图像序列可以推断相机的位姿信息,进而得到无人车的位姿信息,以应用于无人车的控制。
在本发明实施例中,为了确定相机拍摄图像过程中的位姿信息,可以先获取相机在移动中连续拍摄的图像序列,记为目标图像序列。
S102:将所述目标图像序列输入位姿估计网络模型,得到所述相机拍摄所述目标图像序列中每张图像时的位姿信息;所述位姿估计网络模型是根据训练集预先训练完成的,所述训练集包括:样本图像序列,以及样本位姿信息。
在本发明实施例中,可以将目标图像序列输入位姿估计网络模型,其中,位姿估计网络模型是根据样本图像序列,以及样本位姿信息训练完成的,因此,位姿估计网络可以输出相机在拍摄目标图像序列中每张图像时的位姿信息。
其中,位姿信息可以包括平移量和旋转量,其中平移量和旋转量都可以包括多个状态,通常为三个,即位姿信息包括三个平移量和三个旋转量,平移量可以用距离来表示,旋转量可以用欧拉角来表示。本发明实施例中,要估计的位姿信息即包含三个平移距离和三个欧拉角的值。
可见,采用本发明实施例提供的基于深度神经网络的位姿估计方法,获取目标图像序列,将目标图像序列输入位姿估计网络模型,即可得到相机拍摄所述目标图像序列中每张图像时的位姿信息。其中所述位姿估计网络模型是根据样本图像序列,以及样本位姿信息预先训练完成的。由于采用深度神经网络模型进行相机的位姿信息估计,相比于现有的特征点法,不需要进行关键点的提取和描述子计算过程,降低了计算复杂度,此外,对被测对象的无严格要求,可以适用于被测对象的位移较大的场景。
参见图2,图2为本发明实施例提供的训练位姿估计网络模型的一种流程图;
在本发明的一种实施例中,位姿估计网络模型可以采用以下步骤进行训练:
S201:获取预设的深度神经网络模型和所述训练集;
本发明实施例中的深度神经网络模型可以包括第一子网络和第二子网络,其中第一子网络用于提取图像特征,并将图像特征传递给第二子网络;第二子网络用于学习图像序列之间的关系,以实现位姿的估计。
具体的,在本发明的一种实施例中,第一子网络为CNN(Convolutional NeuralNetworks,卷积神经网络),第二子网络为BI-LSTM(Bi-directional Long Short TermMemory,双向长短期记忆网络)。
CNN网络用于提取图像特征,并将图像特征传递给BI-LSTM网络。
本发明的一种实施例中,可以采用表1所示的CNN网络参数进行网络初始设置。
表1.CNN网络初始参数设置
其中,padding和stride为CNN网络中的两个初始参数。
LSTM是一种特定形式的RNN(Recurrent Neural Network,循环神经网络)网络。普通的RNN网络在处理时间序列上距离较远的节点时,会涉及雅可比矩阵的多次相乘,从而可能导致梯度消失或梯度膨胀的问题。相比于普通的RNN网络,LSTM网络增加输入门限,遗忘门限和输出门限,使得自循环的权重是变化的,则在模型参数固定的情况下,不同时刻的积分尺度是可以动态改变的,从而避免了梯度消失和梯度膨胀的问题,能够准确分析较长的序列,此外,本发明实施例采用的BI-LSTM网络还可以基于正向和反向学习序列的规律,能够更好的进行位姿估计。
本发明的一种实施例中,训练集可以采用KITTI数据集,KITTI数据集是自动驾驶场景下的算法评测数据集。可以对数据集中的图像进行适当的裁剪,将其作为样本图像序列。
S202:将所述训练集中的样本图像序列输入所述深度神经网络模型,得到位姿信息估计集合;
本发明实施例中,可以针对训练集中的样本图像序列进行分批次的训练。
例如,将第一批样本图像输入初始设置完成的深度神经网络模型,可以输出相机在拍摄该批样本图像中每一图像时的位姿信息,包括三个平移量和三个旋转量。将得到的相机的多个位姿信息记为位姿信息估计集合。
S203:将所述位姿信息估计集合的估计值和所述样本位姿信息的真实值输入预设的损失函数,确定损失值;
在本发明的一种实施例中,损失函数可以为:
其中,loss表示每次训练的损失值,N表示每次训练采用的样本图像序列中的图像数量,i表示样本图像的序号,k表示位姿信息中平移量和旋转量的状态序号,取值可以为1,2或3。pk表示所述样本位姿信息中平移量的第k个状态的真实值,表示位姿信息估计集合中平移量的第k个状态的估计值,表示所述样本位姿信息中旋转量的第k个状态的真实值,表示位姿信息估计集合中旋转量的第k个状态的估计值,w是用于平衡平移量和旋转量的权重。
S204:根据所述损失值判断所述深度神经网络模型是否收敛,若否则执行步骤S205;若是则执行步骤S206。
本发明的一种实施方式中,可以预设损失值阈值,若计算出的损失值小于损失值阈值,则深度神经网络模型已收敛。
当然,也可以设置训练次数阈值,当达到训练次数阈值时,可以认为深度神经网络模型已收敛。
S205:调整所述深度神经网络模型中的参数值,返回步骤S202。
若未收敛,则可以基于下一批图像序列继续进行训练,即返回将所述训练集中的样本图像序列输入所述深度神经网络模型,得到位姿信息估计集合的步骤。
S206:将当前的深度神经网络模型确定为位姿估计网络模型。
若深度神经网络模型收敛,则可将其作为位姿估计网络模型。
将目标图像序列输入位姿估计网络模型,即可输出相机拍摄目标图像序列中每张图像时的位姿信息。
可见,本发明实施例中,将CNN网络和BI-LSTM网络相结合来实现视觉里程计领域的同步表示学习和序列建模。相比于现有的视觉里程计领域的特征点法和直接法,能够以端到端的方式进行训练,在位姿估计过程中,不依赖于任何模块,不需要进行关键点的提取和描述子计算过程,降低了计算复杂度,此外,对被测对象的无严格要求,可以适用于被测对象的位移较大的场景。
基于相同的发明构思,根据上述基于深度神经网络的位姿估计方法实施例,本发明实施例还提供了一种基于深度神经网络的位姿估计装置,参见图3,可以包括以下模块:
图像获取模块301,用于获取目标图像序列,所述目标图像序列是相机在移动中连续拍摄的;
位姿估计模块302,用于将所述目标图像序列输入位姿估计网络模型,得到所述相机拍摄所述目标图像序列中每张图像时的位姿信息;所述位姿估计网络模型是根据训练集预先训练完成的,所述训练集包括:样本图像序列,以及样本位姿信息。
可见,采用本发明实施例提供的基于深度神经网络的位姿估计装置,获取目标图像序列,将目标图像序列输入位姿估计网络模型,即可得到相机拍摄所述目标图像序列中每张图像时的位姿信息。其中所述位姿估计网络模型是根据样本图像序列,以及样本位姿信息预先训练完成的。由于采用深度神经网络模型进行相机的位姿信息估计,相比于现有的特征点法,不需要进行关键点的提取和描述子计算过程,降低了计算复杂度,此外,对被测对象的无严格要求,可以适用于被测对象的位移较大的场景。
在本发明的一种实施例中,在图3所示装置基础上,还可以包括训练模块,训练模块用于训练所述位姿估计网络模型,具体用于:
获取预设的深度神经网络模型和所述训练集;
将所述训练集中的样本图像序列输入所述深度神经网络模型,得到位姿信息估计集合;
将所述位姿信息估计集合的估计值和所述样本位姿信息的真实值输入预设的损失函数,确定损失值;
根据所述损失值确定所述深度神经网络模型是否收敛;
若否,则调整所述深度神经网络模型中的参数值,并返回所述将所述训练集中的样本图像序列输入所述深度神经网络模型,得到位姿信息估计集合的步骤;
若是,则将当前的深度神经网络模型确定为位姿估计网络模型。
在本发明的一种实施例中,深度神经网络模型包括第一子网络和第二子网络,所述第一子网络为卷积神经网络,所述第二子网络为双向长短期记忆网络。
在本发明的一种实施例中,损失函数为:
其中,loss表示损失值,N表示每次训练采用的样本图像序列中的图像数量,i表示样本图像的序号,k表示位姿信息中平移量和旋转量的状态序号,pk表示所述样本位姿信息中平移量的第k个状态的真实值,表示所述位姿信息估计集合中平移量的第k个状态的估计值,表示所述样本位姿信息中旋转量的第k个状态的真实值,表示所述位姿信息估计集合中旋转量的第k个状态的估计值,w表示平衡权重。
基于相同的发明构思,根据上述基于深度神经网络的位姿估计方法实施例,本发明实施例还提供了一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现上述图1所示的基于深度神经网络的位姿估计方法实施例。其中,基于深度神经网络的位姿估计方法包括:
获取目标图像序列,所述目标图像序列是相机在移动中连续拍摄的;
将所述目标图像序列输入位姿估计网络模型,得到所述相机拍摄所述目标图像序列中每张图像时的位姿信息;所述位姿估计网络模型是根据训练集预先训练完成的,所述训练集包括:样本图像序列,以及样本位姿信息。
可见,采用本发明实施例提供的电子设备,获取目标图像序列,将目标图像序列输入位姿估计网络模型,即可得到相机拍摄所述目标图像序列中每张图像时的位姿信息。其中所述位姿估计网络模型是根据样本图像序列,以及样本位姿信息预先训练完成的。由于采用深度神经网络模型进行相机的位姿信息估计,相比于现有的特征点法,不需要进行关键点的提取和描述子计算过程,降低了计算复杂度,此外,对被测对象的无严格要求,可以适用于被测对象的位移较大的场景。
上述电子设备提到的通信总线404可以是外设部件互连标准(PeripheralComponent Interconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线404可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口402用于上述电子设备与其他设备之间的通信。
存储器403可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器403还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器401可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
基于相同的发明构思,根据上述基于深度神经网络的位姿估计方法实施例,在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述图1所示的基于深度神经网络的位姿估计方法步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于基于深度神经网络的位姿估计装置实施例、电子设备实施例及计算机可读存储介质实施例而言,由于其基本相似于基于深度神经网络的位姿估计方法实施例,所以描述的比较简单,相关之处参见基于深度神经网络的位姿估计方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种基于深度神经网络的位姿估计方法,其特征在于,所述方法包括:
获取目标图像序列,所述目标图像序列是相机在移动中连续拍摄的;
将所述目标图像序列输入位姿估计网络模型,得到所述相机拍摄所述目标图像序列中每张图像时的位姿信息;所述位姿估计网络模型是根据训练集预先训练完成的,所述训练集包括:样本图像序列,以及样本位姿信息。
2.根据权利要求1所述的方法,其特征在于,所述位姿估计网络模型采用以下步骤训练获得:
获取预设的深度神经网络模型和所述训练集;
将所述训练集中的样本图像序列输入所述深度神经网络模型,得到位姿信息估计集合;
将所述位姿信息估计集合的估计值和所述样本位姿信息的真实值输入预设的损失函数,确定损失值;
根据所述损失值确定所述深度神经网络模型是否收敛;
若否,则调整所述深度神经网络模型中的参数值,并返回所述将所述训练集中的样本图像序列输入所述深度神经网络模型,得到位姿信息估计集合的步骤;
若是,则将当前的深度神经网络模型确定为位姿估计网络模型。
3.根据权利要求2所述的方法,其特征在于,所述深度神经网络模型包括第一子网络和第二子网络,所述第一子网络为卷积神经网络CNN,所述第二子网络为双向长短期记忆网络BI-LSTM。
4.根据权利要求2所述的方法,其特征在于,所述损失函数为:
其中,loss表示损失值,N表示每次训练采用的样本图像序列中的图像数量,i表示样本图像的序号,k表示位姿信息中平移量和旋转量的状态序号,pk表示所述样本位姿信息中平移量的第k个状态的真实值,表示所述位姿信息估计集合中平移量的第k个状态的估计值,表示所述样本位姿信息中旋转量的第k个状态的真实值,表示所述位姿信息估计集合中旋转量的第k个状态的估计值,w表示平衡权重。
5.一种基于深度神经网络的位姿估计装置,其特征在于,所述装置包括:
图像获取模块,用于获取目标图像序列,所述目标图像序列是相机在移动中连续拍摄的;
位姿估计模块,用于将所述目标图像序列输入位姿估计网络模型,得到所述相机拍摄所述目标图像序列中每张图像时的位姿信息;所述位姿估计网络模型是根据训练集预先训练完成的,所述训练集包括:样本图像序列,以及样本位姿信息。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括训练模块,所述训练模块用于训练所述位姿估计网络模型,
所述训练模块具体用于:获取预设的深度神经网络模型和所述训练集;
将所述训练集中的样本图像序列输入所述深度神经网络模型,得到位姿信息估计集合;
将所述位姿信息估计集合的估计值和所述样本位姿信息的真实值输入预设的损失函数,确定损失值;
根据所述损失值确定所述深度神经网络模型是否收敛;
若否,则调整所述深度神经网络模型中的参数值,并返回所述将所述训练集中的样本图像序列输入所述深度神经网络模型,得到位姿信息估计集合的步骤;
若是,则将当前的深度神经网络模型确定为位姿估计网络模型。
7.根据权利要求6所述的装置,其特征在于,所述深度神经网络模型包括第一子网络和第二子网络,所述第一子网络为卷积神经网络CNN,所述第二子网络为双向长短期记忆网络BI-LSTM。
8.根据权利要求6所述的装置,其特征在于,所述损失函数为:
其中,loss表示损失值,N表示每次训练采用的样本图像序列中的图像数量,i表示样本图像的序号,k表示位姿信息中平移量和旋转量的状态序号,pk表示所述样本位姿信息中平移量的第k个状态的真实值,表示所述位姿信息估计集合中平移量的第k个状态的估计值,表示所述样本位姿信息中旋转量的第k个状态的真实值,表示所述位姿信息估计集合中旋转量的第k个状态的估计值,w表示平衡权重。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910768325.7A CN110473254A (zh) | 2019-08-20 | 2019-08-20 | 一种基于深度神经网络的位姿估计方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910768325.7A CN110473254A (zh) | 2019-08-20 | 2019-08-20 | 一种基于深度神经网络的位姿估计方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110473254A true CN110473254A (zh) | 2019-11-19 |
Family
ID=68512004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910768325.7A Pending CN110473254A (zh) | 2019-08-20 | 2019-08-20 | 一种基于深度神经网络的位姿估计方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110473254A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402310A (zh) * | 2020-02-29 | 2020-07-10 | 同济大学 | 一种基于深度估计网络的单目图像深度估计方法及系统 |
CN111524190A (zh) * | 2020-07-01 | 2020-08-11 | 北京三快在线科技有限公司 | 视觉定位网络的训练、无人驾驶设备的控制方法及装置 |
CN111539988A (zh) * | 2020-04-15 | 2020-08-14 | 京东方科技集团股份有限公司 | 一种视觉里程计实现方法、装置和电子设备 |
CN111612842A (zh) * | 2020-05-29 | 2020-09-01 | 贝壳技术有限公司 | 生成位姿估计模型的方法和装置 |
CN112115786A (zh) * | 2020-08-13 | 2020-12-22 | 北京工商大学 | 基于注意力U-net的单目视觉里程计方法 |
CN112184611A (zh) * | 2020-11-03 | 2021-01-05 | 支付宝(杭州)信息技术有限公司 | 图像生成模型训练方法以及装置 |
CN112330589A (zh) * | 2020-09-18 | 2021-02-05 | 北京沃东天骏信息技术有限公司 | 估计位姿的方法、装置及计算机可读存储介质 |
CN112348855A (zh) * | 2020-11-19 | 2021-02-09 | 湖南国科微电子股份有限公司 | 视觉里程计特征点提取方法、系统、电子设备和存储介质 |
CN112396657A (zh) * | 2020-11-25 | 2021-02-23 | 河北工程大学 | 一种基于神经网络的深度位姿估计方法、装置及终端设备 |
CN112733773A (zh) * | 2021-01-18 | 2021-04-30 | 上海商汤智能科技有限公司 | 一种对象检测方法、装置、计算机设备和存储介质 |
CN113077516A (zh) * | 2021-04-28 | 2021-07-06 | 深圳市人工智能与机器人研究院 | 一种位姿确定方法及相关设备 |
CN113744301A (zh) * | 2021-08-05 | 2021-12-03 | 深圳供电局有限公司 | 移动机器人的运动轨迹估计方法、装置和存储介质 |
CN113822918A (zh) * | 2020-04-28 | 2021-12-21 | 深圳市商汤科技有限公司 | 场景深度和相机运动预测方法及装置、电子设备和介质 |
CN113838135A (zh) * | 2021-10-11 | 2021-12-24 | 重庆邮电大学 | 基于lstm双流卷积神经网络的位姿估计方法、系统及介质 |
CN114066987A (zh) * | 2022-01-12 | 2022-02-18 | 深圳佑驾创新科技有限公司 | 一种相机位姿估计方法、装置、设备及存储介质 |
CN114710622A (zh) * | 2022-04-12 | 2022-07-05 | 合肥工业大学 | 拍摄参数预测模型的生成方法、预测方法及拍摄设备 |
CN115147683A (zh) * | 2022-07-08 | 2022-10-04 | 南京人工智能高等研究院有限公司 | 位姿估计网络模型的训练方法、位姿估计方法及装置 |
CN115577755A (zh) * | 2022-11-28 | 2023-01-06 | 中环服(成都)科技有限公司 | 机器人位姿矫正方法、装置、计算机设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108765481A (zh) * | 2018-05-25 | 2018-11-06 | 亮风台(上海)信息科技有限公司 | 一种单目视频的深度估计方法、装置、终端和存储介质 |
CN109816725A (zh) * | 2019-01-17 | 2019-05-28 | 哈工大机器人(合肥)国际创新研究院 | 一种基于深度学习的单目相机物体位姿估计方法及装置 |
-
2019
- 2019-08-20 CN CN201910768325.7A patent/CN110473254A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108765481A (zh) * | 2018-05-25 | 2018-11-06 | 亮风台(上海)信息科技有限公司 | 一种单目视频的深度估计方法、装置、终端和存储介质 |
CN109816725A (zh) * | 2019-01-17 | 2019-05-28 | 哈工大机器人(合肥)国际创新研究院 | 一种基于深度学习的单目相机物体位姿估计方法及装置 |
Non-Patent Citations (2)
Title |
---|
JIAN JIAO等: ""MagicVO: End-to-End Monocular Visual Odometry through Deep Bi-directional Recurrent Convolutional Neural Network"", 《HTTPS://ARXIV.ORG/ABS/1811.10964》 * |
JICHAO JIAO等: ""MagicVO: An End-to-End Hybrid CNN and Bi-LSTM Method for Monocular Visual Odometry"", 《IEEE ACCESS》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402310A (zh) * | 2020-02-29 | 2020-07-10 | 同济大学 | 一种基于深度估计网络的单目图像深度估计方法及系统 |
CN111402310B (zh) * | 2020-02-29 | 2023-03-28 | 同济大学 | 一种基于深度估计网络的单目图像深度估计方法及系统 |
CN111539988A (zh) * | 2020-04-15 | 2020-08-14 | 京东方科技集团股份有限公司 | 一种视觉里程计实现方法、装置和电子设备 |
CN111539988B (zh) * | 2020-04-15 | 2024-04-09 | 京东方科技集团股份有限公司 | 一种视觉里程计实现方法、装置和电子设备 |
CN113822918B (zh) * | 2020-04-28 | 2024-07-12 | 深圳市商汤科技有限公司 | 场景深度和相机运动预测方法及装置、电子设备和介质 |
CN113822918A (zh) * | 2020-04-28 | 2021-12-21 | 深圳市商汤科技有限公司 | 场景深度和相机运动预测方法及装置、电子设备和介质 |
CN111612842B (zh) * | 2020-05-29 | 2023-08-18 | 如你所视(北京)科技有限公司 | 生成位姿估计模型的方法和装置 |
CN111612842A (zh) * | 2020-05-29 | 2020-09-01 | 贝壳技术有限公司 | 生成位姿估计模型的方法和装置 |
CN111524190B (zh) * | 2020-07-01 | 2020-10-02 | 北京三快在线科技有限公司 | 视觉定位网络的训练、无人驾驶设备的控制方法及装置 |
CN111524190A (zh) * | 2020-07-01 | 2020-08-11 | 北京三快在线科技有限公司 | 视觉定位网络的训练、无人驾驶设备的控制方法及装置 |
CN112115786B (zh) * | 2020-08-13 | 2024-08-13 | 北京工商大学 | 基于注意力U-net的单目视觉里程计方法 |
CN112115786A (zh) * | 2020-08-13 | 2020-12-22 | 北京工商大学 | 基于注意力U-net的单目视觉里程计方法 |
CN112330589A (zh) * | 2020-09-18 | 2021-02-05 | 北京沃东天骏信息技术有限公司 | 估计位姿的方法、装置及计算机可读存储介质 |
CN112184611A (zh) * | 2020-11-03 | 2021-01-05 | 支付宝(杭州)信息技术有限公司 | 图像生成模型训练方法以及装置 |
CN112348855A (zh) * | 2020-11-19 | 2021-02-09 | 湖南国科微电子股份有限公司 | 视觉里程计特征点提取方法、系统、电子设备和存储介质 |
CN112396657A (zh) * | 2020-11-25 | 2021-02-23 | 河北工程大学 | 一种基于神经网络的深度位姿估计方法、装置及终端设备 |
CN112733773A (zh) * | 2021-01-18 | 2021-04-30 | 上海商汤智能科技有限公司 | 一种对象检测方法、装置、计算机设备和存储介质 |
CN113077516A (zh) * | 2021-04-28 | 2021-07-06 | 深圳市人工智能与机器人研究院 | 一种位姿确定方法及相关设备 |
CN113077516B (zh) * | 2021-04-28 | 2024-02-23 | 深圳市人工智能与机器人研究院 | 一种位姿确定方法及相关设备 |
CN113744301A (zh) * | 2021-08-05 | 2021-12-03 | 深圳供电局有限公司 | 移动机器人的运动轨迹估计方法、装置和存储介质 |
CN113838135B (zh) * | 2021-10-11 | 2024-03-19 | 重庆邮电大学 | 基于lstm双流卷积神经网络的位姿估计方法、系统及介质 |
CN113838135A (zh) * | 2021-10-11 | 2021-12-24 | 重庆邮电大学 | 基于lstm双流卷积神经网络的位姿估计方法、系统及介质 |
CN114066987B (zh) * | 2022-01-12 | 2022-04-26 | 深圳佑驾创新科技有限公司 | 一种相机位姿估计方法、装置、设备及存储介质 |
CN114066987A (zh) * | 2022-01-12 | 2022-02-18 | 深圳佑驾创新科技有限公司 | 一种相机位姿估计方法、装置、设备及存储介质 |
CN114710622A (zh) * | 2022-04-12 | 2022-07-05 | 合肥工业大学 | 拍摄参数预测模型的生成方法、预测方法及拍摄设备 |
CN115147683A (zh) * | 2022-07-08 | 2022-10-04 | 南京人工智能高等研究院有限公司 | 位姿估计网络模型的训练方法、位姿估计方法及装置 |
CN115577755A (zh) * | 2022-11-28 | 2023-01-06 | 中环服(成都)科技有限公司 | 机器人位姿矫正方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110473254A (zh) | 一种基于深度神经网络的位姿估计方法及装置 | |
CN107103613B (zh) | 一种三维手势姿态估计方法 | |
CN111160375B (zh) | 三维关键点预测及深度学习模型训练方法、装置及设备 | |
CN108062562B (zh) | 一种物体重识别方法及装置 | |
CN110770758B (zh) | 确定可移动的设备的位置 | |
CN111179419B (zh) | 三维关键点预测及深度学习模型训练方法、装置及设备 | |
CN109359539B (zh) | 注意力评估方法、装置、终端设备及计算机可读存储介质 | |
CN110599491B (zh) | 基于先验信息的眼部图像分割方法、装置、设备及介质 | |
CN108537837A (zh) | 一种深度信息确定的方法及相关装置 | |
CN106651767A (zh) | 一种获取全景图像的方法及装置 | |
CN109165589A (zh) | 基于深度学习的车辆重识别方法和装置 | |
CN107169463A (zh) | 人脸检测方法、装置、计算机设备及存储介质 | |
CN108009554A (zh) | 一种图像处理方法以及装置 | |
CN110765882B (zh) | 一种视频标签确定方法、装置、服务器及存储介质 | |
Chen et al. | 3D neighborhood convolution: Learning depth-aware features for RGB-D and RGB semantic segmentation | |
CN110968734A (zh) | 一种基于深度度量学习的行人重识别方法及装置 | |
CN107368820A (zh) | 一种精细化手势识别方法、装置及设备 | |
CN111104830A (zh) | 用于图像识别的深度学习模型、该模型的训练装置及方法 | |
CN109803090A (zh) | 无人拍摄自动变焦方法及系统、无人摄像机及存储介质 | |
CN112836756A (zh) | 图像识别模型训练方法、系统和计算机设备 | |
CN114387513A (zh) | 机器人抓取方法、装置、电子设备及存储介质 | |
CN112233149A (zh) | 场景流的确定方法及装置、存储介质、电子装置 | |
CN105096304B (zh) | 一种图像特征的估计方法和设备 | |
CN107479715A (zh) | 利用手势控制实现虚拟现实交互的方法和装置 | |
CN112990009A (zh) | 基于端到端的车道线检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191119 |