CN115170826A - 基于局部搜索的运动小目标快速光流估计方法及存储介质 - Google Patents
基于局部搜索的运动小目标快速光流估计方法及存储介质 Download PDFInfo
- Publication number
- CN115170826A CN115170826A CN202210797411.2A CN202210797411A CN115170826A CN 115170826 A CN115170826 A CN 115170826A CN 202210797411 A CN202210797411 A CN 202210797411A CN 115170826 A CN115170826 A CN 115170826A
- Authority
- CN
- China
- Prior art keywords
- optical flow
- feature
- flow estimation
- information
- local search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003287 optical effect Effects 0.000 title claims abstract description 113
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 92
- 238000010586 diagram Methods 0.000 claims description 55
- 238000013507 mapping Methods 0.000 claims description 28
- 238000006073 displacement reaction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 2
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 13
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000005070 sampling Methods 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 6
- 230000014759 maintenance of location Effects 0.000 description 2
- 101150064138 MAP1 gene Proteins 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 101150077939 mapA gene Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及深度学习领域,尤其涉及一种基于局部搜索的运动小目标快速光流估计方法及储存介质,首先获取两帧相邻图像并通过特征提取分别获取相应的特征图、和上下文信息,并对第一帧图像单独编码获取上下文信息;然后为特征图中每个特征向量在特征图中匹配出对应的局部搜索区域,并依次根据特征图中每个特征向量从对应的局部搜索区域中匹配中相应的相似信息,并将所有的相似信息集合成匹配信息;最后利用上下文信息和匹配信息通过预设循环网络进行迭代光流估计。通过将特征搜索匹配由全局搜索改为在一个适当合理的局部范围内进行搜索,减少了搜索耗时和计算量,一定程度避免了因下采样导致计算量增大的问题,同时在保证运动小目标光流估计的精度下,提升了光流估计的速度。
Description
技术领域
本申请涉及深度学习领域,尤其是涉及一种基于局部搜索的运动小目标快速光流估计方法及存储介质。
背景技术
光流估计是计算机视觉研究中的一个重要方向,所谓光流即为图像中的每一个像素提供一个运动矢量,即x轴的运动速度和y轴的运动速度,这个运动矢量矩阵表征了整幅图像的运动场,包含了潜在的动态信息,分析运动矢量矩阵的信息即可准确得到运动小目标的位置, 有助于计算机视觉领域中对于小目标的检测识别。
目前,基于深度学习的光流估计网络在速度和精度上都超过了传统光流算法,这极大地推动了光流估计在各工程领域中的实际应用。但现有的基于深度学习的光流估计网络在特征搜索阶段通常采用全局搜索,一般而言,为了加快网络的推理速度,需要对原图进行至少3次下采样,这样一些运动小目标的信息会丢失,为了得到运动小目标准确的光流估计,需要减少网络下采样的次数,但每当减少一次下采样,特征提取和迭代估计光流模块的计算量将会扩大4倍,特征搜索模块的计算量将会扩大16倍,这会导致光流估计时间大大增加,因此,现有的基于深度学习的光流估计网络在保证小目标光流估计精度的情况下,通常需要以增加搜索耗时和计算量来作为代价,降低了光流估计的实时性。
发明内容
本申请的目的是提供一种基于局部搜索的运动小目标快速光流估计方法及存储介质,在保证运动小目标光流估计的精度下,提升光流估计的速度。
第一方面,本申请提供一种基于局部搜索的运动小目标快速光流估计方法,采用如下的技术方案:
一种基于局部搜索的运动小目标快速光流估计方法,包括以下步骤:
利用所述上下文信息和所述匹配信息,通过预设的循环网络进行迭代光流估计,并输出光流估计结果;
通过上述技术方案,将特征搜索匹配由全局搜索改为在一个适当合理的局部范围内进行搜索,局部搜索相较于全局搜索大大减少了搜索匹配阶段的耗时和计算量,一定程度避免了因下采样导致计算量增大的问题,同时在保证运动小目标光流估计的精度下,提升了光流估计的速度,进一步提升了光流估计网络的实时性。
可选的,对第一帧图像单独编码获取上下文信息,包括:
根据预设的上下文网络对第一帧图像进行多尺度特征提取分别获取局部特征和全局特征。
对局部特征和全局特征进行融合以得到上下文信息。
获取运动小目标的尺寸、在两帧图像之间的位移量;
根据运动小目标的尺寸、在两帧图像之间的位移量,计算出扩充边长;
将区域的索引值转换为全图的索引值;
可选的,利用上下文信息和匹配信息,通过预设的循环网络进行迭代光流估计,包括:
获取光流估计初始值;
根据光流估计初始值、匹配信息和上下文信息,获取输入信息;
根据输入信息,通过循环网络进行迭代得到光流估计。
可选的,通过循环网络进行迭代得到光流估计,包括:
获取上一次迭代的光流估计;
第二方面,本申请提供一种计算机可读存储介质,存储有能够被处理器加载并执行上述基于局部搜索的运动小目标快速光流估计方法的计算机程序。
综上所述,本申请通过将特征搜索匹配由全局搜索改为在一个适当合理的局部范围内进行搜索,减少了搜索耗时和计算量,有效解决了因下采样导致计算量增大的问题,并且通过局部搜索得到的匹配信息能够对光流估计的迭代进行约束,再结合上下文信息的语境光联,一定程度避免了因缩小搜索范围可能导致部分有效信息遗失带来的影响,在保证运动小目标光流估计的精度下,提升了光流估计的速度。
附图说明
图1是本申请实施例的流程图;
图2是局部搜索的示意图;
图3是局部搜索中对于区域有效范围限定的示意图;
图4通过循环网络进行迭代得到光流估计示意图。
具体实施方式
以下结合附图1-附图4,对本申请作进一步详细说明。
本申请提供一种基于局部搜索的运动小目标快速光流估计方法,参见图1,包括以下步骤:
其中,两帧相邻图像从图像序列中获取,图像序列为一组连续排列的图像,通常为经过对视频或者动态图像按照设定帧数转换得到的多帧连续图像,特征图和为输入的两帧图像经过同一个预设的多层卷积神经网络提取到的深层特征,上下文信息为目标所在的环境信息,包括目标所在图像的位置信息和目标与周围其他对象的相互关联信息。
在本申请实施例中,图像序列为无人机采集的动态背景图像序列,原始图像的分辨率为1080P,经过适当的裁剪和缩小后其图像大小为700*980,对第一帧图像单独编码获取上下文信息,具体包括以下步骤:
S110、根据预设的上下文网络对第一帧图像进行多尺度特征提取分别获取局部特征和全局特征。
在本申请实施例中,通过对第一帧图像采用空洞卷积来捕获不同尺度特征信息,通过大的感受野获取的特征信息为全局信息,侧重的是对目标所包括的像素点所在图像的位置信息的描述,小的感受野为局部信息,侧重的是对目标所包括像素点与周围其它像素点的关联信息的描述,通过对全局信息和局部信息的结合,构成目标的上下文信息,为后面迭代光流估计提供信息支撑。
S120、对局部特征和全局特征进行融合以得到上下文信息。
其中,局部搜索区域为特征搜索匹配过程中的搜素范围,目的是为了缩小搜索范围,减少搜索耗时和计算量,因为在实际场景中,特别是视频类场景中,运动小目标的尺寸本身就比较小,两帧图像之间的相对运动也非常小,那么特征向量的搜索范围其实可以限定在一个较小的区域内,而不必去进行全图搜索,这样可以提升网络的推理速度,使得光流估计的实时性得到提升。
其中,,为对特征图进行划分后得到区域数,的取值可以为4、16、64等。 因为特征图和是由同一个卷积网络提取得到的特征,所以分辨率是相同的,所以根据区域在特征图的相对位置,可以在特征图中找到相同位置的映射区域。
其中,对映射区域进行扩充,目的在于保证特征图中区域的边缘部分也有足够的搜索的范围,因为目标在两帧之间是有一个位移变化的,因此需要考虑目标在移动之后,目标所包括的特征向量所对应的位置也会发生变化,因此对映射区域进行扩充,能尽量保证目标经过两帧的位移变化之后,其对应的特征向量仍能在匹配范围之内。
S231、获取运动小目标的尺寸、在两帧图像之间的位移量。
S232、根据运动小目标的尺寸、在两帧图像之间的位移量,计算出扩充边长。
在本申请实施例中,参见图3,因为对特征图进行区域划分时,会有部分区域是处于特征图边界位置或是与特征图边界位置有重叠的,当对这些区域进行扩充时,会出现扩充后的区域超出特征图的范围这种情况,因此需要重新调整扩充后的区域的位置信息,在保证扩充后的区域宽度不变的情况下,调整扩充后的区域的左上角坐标。
具体的判断计算方式为,首先根据左上角坐标判断坐标值是否为负值,若只有x轴为负值,则将x轴坐标置为0,再判断y轴坐标加上扩充后的区域宽度是否大于特征图的宽,若否,则y轴坐标不变,若是,则y轴坐标在原有的基础上减去一个宽度。
若x轴坐标和y轴坐标都为负值,则将x轴坐标和y轴坐标都置为0。
其中,相似信息包括相似度和位置信息,相似度即为两个特征向量的相似程度,位置信息则为特征向量在特征图中的位置索引,相似信息反映了像素点在两帧之间的变化状态,通过关联像素运动矢量矩阵,有助于对光流进行更精确估计。
在本申请实施例中,用欧式距离来表示两个特征向量的相似程度,相似度计算的是特征图中待匹配特征向量与对应局部搜索区域中的特征向量的相似程度, 位置信息指的是局部搜索区域中与特征图中待匹配特征向量相似度高的特征向量在特征图中的位置索引。
S323、将区域的索引值转换为全图的索引值。
在本申请实施例情况下,由于是在特征图的局部搜索区域中进行k近邻搜索,返回的索引值是区域索引值,因此还需要对索引值进行转换,将其转换为全图索引值,具体转换过程包括:根据局部搜索区域在整个特征图中左上角坐标 (, )、局部搜索区域的宽和整个特征图的宽以及经过k近邻搜索返回的区域索引值,获取全图索引值,具体计算方式为:
S400、利用上下文信息和匹配信息,通过预设的循环网络进行迭代光流估计,并输出光流估计结果。
在本实施申请中,上下文信息包括每个像素点经过特征提取得到的深层特征信息以及像素点本身所处的环境信息,环境信息包括像素点所在图像中的位置信息和像素点之间的关联信息;匹配信息是通过局部搜索匹配得到的相似信息的集合,可以帮助光流估计偏向匹配程度最高的位置,也就是与像素运动矢量矩阵变化状态更接近的位置;预设的循环网络采用的是GRU(门控循环单元),GRU通过对历史节点信息的选择性保留,可以更好地帮助网络去进行迭代,通过循环网络进行迭代光流估计,具体包括以下步骤:
S410、获取光流估计初始值。
在本申请实施例子,获取光流估计初始值,也就是对光流估计进行初始化赋值,因为每一次迭代的光流估计会作为下一次迭代的输入,所以需要对光流估计进行初始化赋值,这样,第一次迭代时,光流估计初始化值可以作为输入信息,同时经过循环网络得到的残差光流结合光流估计初始化值,即为第一次迭代的光流估计,通过循环网络不断迭代的过程,其实也就是将光流估计初始值向真实光流逼近的过程。
S420、根据光流估计初始值、匹配信息和上下文信息,获取初次迭代的输入信息。
S430、根据输入信息,通过循环网络进行迭代得到光流估计。
在本申请实施例中,通过循环网络进行迭代得到光流估计,参见图4,具体包括以下步骤:
S431、获取上一次迭代的光流估计。
若是第一次迭代,上一次迭代的光流估计即为光流估计初始值。
为了更好地说明本发明的技术效果,发明人还进行了下列实验:
实验用到的数据集包括:公开的规模较大的数据集,如FlyingChairs、Sintel、MPI-Sintel等。
实验用到的评测指标为EPE(Endpoint error),表示的是所有像素点的估计光流和真实光流之间欧氏距离的平均值。
实验1:在GRU网络循环2次,top_k设置为2的条件下,将局部搜索区域大小依次定义为原图的1/4、1/16和1/64,然后分别进行实验,各实验组的耗时情况如下所示:
表1:
实验2:在GRU网络循环2次,top_k分别设置2和8的条件下,将局部搜索区域大小依次定义为原图的1/4、1/16和1/64,然后分别进行实验,各实验组的光流估计精度情况如下所示:
表2:
从以上两组实验不难看出,在不改变网络结构,不改变网络权重,仅仅改变搜索方式的情况下,局部搜索的搜索耗时相较于全局搜索大大减少。其中,当搜索范围为原图的1/16时,其搜索耗时仅为全局搜索的16.1%,其光流估计整体耗时为全局搜索的78.6%。且在局部搜索的情况下,光流估计精度并没有明显下降,反而在一些情况下还有提升。其中,top_k=2时,搜索范围为原图1/16时的光流估计精度明显好于全图搜索,这表明局部搜索策略可以提升光流估计的实时性,同时光流估计的精度并没有显著降低。
本申请实施例还提供一种计算机可读存储介质,存储有能够被处理器加载并执行上述任一种基于局部搜索的运动小目标快速光流估计方法的计算机程序。
本具体实施方式的实施例均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的原理所做的等效变化,均应涵盖于本申请的保护范围之内。
Claims (10)
2.根据权利要求1所述的一种基于局部搜索的运动小目标快速光流估计方法,其特征在于,对第一帧图像单独编码获取上下文信息,包括:
根据预设的上下文网络对第一帧图像进行多尺度特征提取分别获取局部特征和全局特征;
对局部特征和全局特征进行融合以得到上下文信息。
8.根据权利要求1所述的一种基于局部搜索的运动小目标快速光流估计方法,其特征在于,利用所述上下文信息和所述匹配信息,通过预设的循环网络进行迭代光流估计,包括:
获取光流估计初始值;
根据光流估计初始值、匹配信息和上下文信息,获取输入信息;
根据输入信息,通过循环网络进行迭代得到光流估计。
10.一种可读存储介质,其特征在于, 存储有能够被处理器加载并执行如权利要求1至9任一项所述的基于局部搜索的运动小目标快速光流估计方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210797411.2A CN115170826A (zh) | 2022-07-08 | 2022-07-08 | 基于局部搜索的运动小目标快速光流估计方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210797411.2A CN115170826A (zh) | 2022-07-08 | 2022-07-08 | 基于局部搜索的运动小目标快速光流估计方法及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115170826A true CN115170826A (zh) | 2022-10-11 |
Family
ID=83490420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210797411.2A Pending CN115170826A (zh) | 2022-07-08 | 2022-07-08 | 基于局部搜索的运动小目标快速光流估计方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115170826A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116486107A (zh) * | 2023-06-21 | 2023-07-25 | 南昌航空大学 | 一种光流计算方法、系统、设备及介质 |
-
2022
- 2022-07-08 CN CN202210797411.2A patent/CN115170826A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116486107A (zh) * | 2023-06-21 | 2023-07-25 | 南昌航空大学 | 一种光流计算方法、系统、设备及介质 |
CN116486107B (zh) * | 2023-06-21 | 2023-09-05 | 南昌航空大学 | 一种光流计算方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107563313B (zh) | 基于深度学习的多目标行人检测与跟踪方法 | |
CN108154118B (zh) | 一种基于自适应组合滤波与多级检测的目标探测系统及方法 | |
CN111060115B (zh) | 一种基于图像边缘特征的视觉slam方法及系统 | |
CN113516664B (zh) | 一种基于语义分割动态点的视觉slam方法 | |
CN108682027A (zh) | 基于点、线特征融合的vSLAM实现方法及系统 | |
CN112132897A (zh) | 一种基于深度学习之语义分割的视觉slam方法 | |
CN110223348A (zh) | 基于rgb-d相机的机器人场景自适应位姿估计方法 | |
WO2019057179A1 (zh) | 一种基于点线特征的视觉slam方法和装置 | |
CN110781262B (zh) | 基于视觉slam的语义地图的构建方法 | |
CN110717927A (zh) | 基于深度学习和视惯融合的室内机器人运动估计方法 | |
CN109472820B (zh) | 单目rgb-d相机实时人脸重建方法及装置 | |
CN114708293A (zh) | 基于深度学习点线特征和imu紧耦合的机器人运动估计方法 | |
CN112270694B (zh) | 基于激光雷达扫描图进行城市环境动态目标检测的方法 | |
CN114299405A (zh) | 一种无人机图像实时目标检测方法 | |
US20230020713A1 (en) | Image processing system and method | |
CN114707611B (zh) | 基于图神经网络特征提取与匹配的移动机器人地图构建方法、存储介质及设备 | |
CN113112547A (zh) | 机器人及其重定位方法、定位装置及存储介质 | |
CN115170826A (zh) | 基于局部搜索的运动小目标快速光流估计方法及存储介质 | |
CN110598711A (zh) | 一种结合分类任务的目标分割方法 | |
CN112509014B (zh) | 金字塔遮挡检测块匹配的鲁棒插值光流计算方法 | |
CN114155406A (zh) | 一种基于区域级特征融合的位姿估计方法 | |
CN117726747A (zh) | 补全弱纹理场景的三维重建方法、装置、存储介质和设备 | |
CN117152470A (zh) | 基于深度特征点匹配的空天非合作目标位姿估计方法及装置 | |
Qiao et al. | Objects matter: Learning object relation graph for robust absolute pose regression | |
CN111950599A (zh) | 一种动态环境下融合边缘信息的稠密视觉里程计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |