CN115170826A

CN115170826A - 基于局部搜索的运动小目标快速光流估计方法及存储介质

Info

Publication number: CN115170826A
Application number: CN202210797411.2A
Authority: CN
Inventors: 陈军松; 徐瑞东; 曹福国; 许琮擎; 陈华杰; 郭云飞
Original assignee: Chitic Control Engineering Co ltd; Hangzhou Dianzi University
Current assignee: Chitic Control Engineering Co ltd; Hangzhou Dianzi University
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2022-10-11

Abstract

本发明涉及深度学习领域，尤其涉及一种基于局部搜索的运动小目标快速光流估计方法及储存介质，首先获取两帧相邻图像并通过特征提取分别获取相应的特征图

、

和上下文信息，并对第一帧图像单独编码获取上下文信息；然后为特征图

中每个特征向量在特征图

中匹配出对应的局部搜索区域，并依次根据特征图

中每个特征向量从对应的局部搜索区域中匹配中相应的相似信息，并将所有的相似信息集合成匹配信息；最后利用上下文信息和匹配信息通过预设循环网络进行迭代光流估计。通过将特征搜索匹配由全局搜索改为在一个适当合理的局部范围内进行搜索，减少了搜索耗时和计算量，一定程度避免了因下采样导致计算量增大的问题，同时在保证运动小目标光流估计的精度下，提升了光流估计的速度。

Description

基于局部搜索的运动小目标快速光流估计方法及存储介质

技术领域

本申请涉及深度学习领域，尤其是涉及一种基于局部搜索的运动小目标快速光流估计方法及存储介质。

背景技术

光流估计是计算机视觉研究中的一个重要方向，所谓光流即为图像中的每一个像素提供一个运动矢量，即x轴的运动速度和y轴的运动速度，这个运动矢量矩阵表征了整幅图像的运动场，包含了潜在的动态信息，分析运动矢量矩阵的信息即可准确得到运动小目标的位置，有助于计算机视觉领域中对于小目标的检测识别。

目前，基于深度学习的光流估计网络在速度和精度上都超过了传统光流算法，这极大地推动了光流估计在各工程领域中的实际应用。但现有的基于深度学习的光流估计网络在特征搜索阶段通常采用全局搜索，一般而言，为了加快网络的推理速度，需要对原图进行至少3次下采样，这样一些运动小目标的信息会丢失，为了得到运动小目标准确的光流估计，需要减少网络下采样的次数，但每当减少一次下采样，特征提取和迭代估计光流模块的计算量将会扩大4倍，特征搜索模块的计算量将会扩大16倍，这会导致光流估计时间大大增加，因此，现有的基于深度学习的光流估计网络在保证小目标光流估计精度的情况下，通常需要以增加搜索耗时和计算量来作为代价，降低了光流估计的实时性。

发明内容

本申请的目的是提供一种基于局部搜索的运动小目标快速光流估计方法及存储介质，在保证运动小目标光流估计的精度下，提升光流估计的速度。

第一方面，本申请提供一种基于局部搜索的运动小目标快速光流估计方法，采用如下的技术方案：

一种基于局部搜索的运动小目标快速光流估计方法，包括以下步骤：

获取两帧相邻的图像，对两帧图像进行特征提取，获得分别与两帧图像相应的特征图

和

，并对第一帧图像单独编码获取上下文信息；

为特征图

中每个特征向量在特征图

中匹配出对应的局部搜索区域；

依次根据特征图

中每个特征向量从对应的局部搜索区域中匹配出相应的相似信息，并将所有的相似信息集合成匹配信息；

利用所述上下文信息和所述匹配信息，通过预设的循环网络进行迭代光流估计，并输出光流估计结果；

通过上述技术方案，将特征搜索匹配由全局搜索改为在一个适当合理的局部范围内进行搜索，局部搜索相较于全局搜索大大减少了搜索匹配阶段的耗时和计算量，一定程度避免了因下采样导致计算量增大的问题，同时在保证运动小目标光流估计的精度下，提升了光流估计的速度，进一步提升了光流估计网络的实时性。

可选的，对第一帧图像单独编码获取上下文信息，包括：

根据预设的上下文网络对第一帧图像进行多尺度特征提取分别获取局部特征和全局特征。

对局部特征和全局特征进行融合以得到上下文信息。

可选的，为特征图

中每个特征向量在特征图

中匹配出对应的局部搜索区域，包括：

对特征图

进行划分以形成多个连续区域

,其中

为正整数；

对任意一块区域

在特征图

中找到相同位置的映射区域

；

对映射区域

进行扩充以得到扩充后的区域

，区域

即为特征图

中

区域内所有特征向量在特征图

中的局部搜索区域。

可选的，对映射区域

进行扩充以得到扩充后的区域

，包括：

获取运动小目标的尺寸、在两帧图像之间的位移量；

根据运动小目标的尺寸、在两帧图像之间的位移量，计算出扩充边长；

获取映射区域

在特征图

中的位置信息；

根据映射区域

在特征图

中的位置信息以及扩充边长，得到扩充后的区域

。

可选的，根据映射区域

在特征图

中的位置信息以及扩充边长，得到扩充后的区域

，包括：

根据映射区域

在特征图

的位置信息以及扩充边长，获取扩充后的区域

在特征图

的位置信息；

根据扩充后的区域

在特征图

的位置信息，判断扩充后的区域

是否有超出特征图

的范围，若有超出部分，则重新调整扩充后的区域

的位置信息。

可选的，根据特征图

中每个特征向量从对应的局部搜索区域中匹配出相应的相似信息，包括：

根据特征图

中的特征向量

，获取其对应的局部搜索区域内所有特征向量,并形成特征向量集

；

从特征向量集

中匹配出与特征向量

相似度最高的k个特征向量，并获取所匹配的k个特征向量的位置信息和相似度；

将匹配出的k个特征向量的位置信息和相似度整合，以形成特征图

中特征向量

的相似信息。

可选的，从特征向量集

中匹配出与特征向量

相似度最高的k个特征向量，并获取所匹配的k个特征向量的位置信息和相似度,包括：

对特征向量集

构建索引；

对特征向量

和特征向量集

进行k近邻搜索，获取与特征向量

相似度最高的k个特征向量的区域索引值和相似度；

将区域的索引值转换为全图的索引值；

根据全图索引值，从特征图

中获取与特征向量

匹配的k个特征向量的位置信息。

可选的，利用上下文信息和匹配信息，通过预设的循环网络进行迭代光流估计，包括：

获取光流估计初始值；

根据光流估计初始值、匹配信息和上下文信息，获取输入信息；

根据输入信息，通过循环网络进行迭代得到光流估计。

可选的，通过循环网络进行迭代得到光流估计，包括：

获取上一次迭代的光流估计；

根据上一次迭代的光流估计、匹配信息和上下文信息，获取当前迭代的输入

和历史隐藏层状态

；

根据当前迭代的输入

和历史隐藏层状态

，通过循环网络获取更新后的隐藏层状态

；

对更新后的隐藏层状态

经过数次卷积得到残差光流，根据残差光流对上一次迭代的光流估计进行更新，得到当前迭代的光流估计。

第二方面，本申请提供一种计算机可读存储介质，存储有能够被处理器加载并执行上述基于局部搜索的运动小目标快速光流估计方法的计算机程序。

综上所述，本申请通过将特征搜索匹配由全局搜索改为在一个适当合理的局部范围内进行搜索，减少了搜索耗时和计算量，有效解决了因下采样导致计算量增大的问题，并且通过局部搜索得到的匹配信息能够对光流估计的迭代进行约束，再结合上下文信息的语境光联，一定程度避免了因缩小搜索范围可能导致部分有效信息遗失带来的影响，在保证运动小目标光流估计的精度下，提升了光流估计的速度。

附图说明

图1是本申请实施例的流程图；

图2是局部搜索的示意图；

图3是局部搜索中对于区域有效范围限定的示意图；

图4通过循环网络进行迭代得到光流估计示意图。

具体实施方式

以下结合附图1-附图4，对本申请作进一步详细说明。

本申请提供一种基于局部搜索的运动小目标快速光流估计方法，参见图1，包括以下步骤：

S100、获取两帧相邻的图像，对两帧图像进行特征提取，获得分别与两帧图像相应的特征图

和

，并对第一帧图像单独编码获取上下文信息。

其中，两帧相邻图像从图像序列中获取，图像序列为一组连续排列的图像，通常为经过对视频或者动态图像按照设定帧数转换得到的多帧连续图像，特征图

和

为输入的两帧图像经过同一个预设的多层卷积神经网络提取到的深层特征，上下文信息为目标所在的环境信息，包括目标所在图像的位置信息和目标与周围其他对象的相互关联信息。

在本申请实施例中，图像序列为无人机采集的动态背景图像序列，原始图像的分辨率为1080P，经过适当的裁剪和缩小后其图像大小为700*980，对第一帧图像单独编码获取上下文信息，具体包括以下步骤：

S110、根据预设的上下文网络对第一帧图像进行多尺度特征提取分别获取局部特征和全局特征。

在本申请实施例中，通过对第一帧图像采用空洞卷积来捕获不同尺度特征信息，通过大的感受野获取的特征信息为全局信息，侧重的是对目标所包括的像素点所在图像的位置信息的描述，小的感受野为局部信息，侧重的是对目标所包括像素点与周围其它像素点的关联信息的描述，通过对全局信息和局部信息的结合，构成目标的上下文信息，为后面迭代光流估计提供信息支撑。

S120、对局部特征和全局特征进行融合以得到上下文信息。

S200、为特征图

中每个特征向量在特征图

中匹配出对应的局部搜索区域。

其中，局部搜索区域为特征搜索匹配过程中的搜素范围，目的是为了缩小搜索范围，减少搜索耗时和计算量，因为在实际场景中，特别是视频类场景中，运动小目标的尺寸本身就比较小，两帧图像之间的相对运动也非常小，那么特征向量的搜索范围其实可以限定在一个较小的区域内，而不必去进行全图搜索，这样可以提升网络的推理速度，使得光流估计的实时性得到提升。

在本申请实施例中，为特征图

中每个特征向量在特征图

中匹配出对应的局部搜索区域，参见图2，具体包括以下步骤：

S210、对特征图

进行划分以形成多个连续区域

,其中

为正整数。

其中，划分后的区域

要求是连续的，是因为要确保对特征图

中任意一个特征向量处于划分后的区域

之内，也就是划分后的区域

能够完整拼凑成特征图

。

S220、对任意一块区域

在特征图

中找到相同位置的映射区域

。

其中，

，

为对特征图

进行划分后得到区域数，

的取值可以为4、16、64等。因为特征图

和

是由同一个卷积网络提取得到的特征，所以分辨率是相同的，所以根据区域

在特征图

的相对位置，可以在特征图

中找到相同位置的映射区域

。

S230、对映射区域

进行扩充以得到扩充后的区域

，区域

即为特征图

中

区域内所有特征向量在特征图

中的局部搜索区域。

其中，对映射区域

进行扩充，目的在于保证特征图

中区域

的边缘部分也有足够的搜索的范围，因为目标在两帧之间是有一个位移变化的，因此需要考虑目标在移动之后，目标所包括的特征向量所对应的位置也会发生变化，因此对映射区域

进行扩充，能尽量保证目标经过两帧的位移变化之后，其对应的特征向量仍能在匹配范围之内。

对映射区域

进行扩充以得到扩充后的区域

，具体包括以下步骤：

S231、获取运动小目标的尺寸、在两帧图像之间的位移量。

在一个实施例中，运动小目标的尺寸小于30*30，运动小目标在两帧之间的位移量极少有超过其尺寸的，故运动小目标的尺寸

估计为30，运动小目标的位移量

估计为10。

S232、根据运动小目标的尺寸、在两帧图像之间的位移量，计算出扩充边长。

在本申请实施例中，扩充边长

的计算方式为：

其中，

为多层特征提取网络中下采样的次数。

S233、获取映射区域

在特征图

中的位置信息。

在本申请实施例中，位置信息为左上角坐标和宽度，以特征图

左上角为坐标原点，根据映射区域

在特征图

中的位置信息，可以得到映射区域

的左上角坐标(

)，根据特征图的宽和划分的区域数

，可以计算出映射区域

的宽度

。

S234、根据映射区域

在特征图

中的位置信息以及扩充边长，得到扩充后的区域

。

在本申请实施例中，根据映射区域

在特征图

中的位置信息以及扩充边长，得到扩充后的区域

，具体包括：

S2341、根据映射区域

在特征图

的位置信息以及扩充边长，获取扩充后的区域

在特征图

的位置信息。

根据映射区域

的左上角坐标（

）、宽度

以及扩充边长

，可得到扩充后的区域

的左上角坐标为（

）,宽度为

，从而确定扩充后的区域

在特征图

中的位置。

S2342、根据扩充后的区域

在特征图

的位置信息，判断扩充后的区域

是否有超出特征图

的范围，若有超出部分，则重新调整扩充后的区域

的位置信息。

在本申请实施例中，参见图3，因为对特征图

进行区域划分时，会有部分区域是处于特征图

边界位置或是与特征图

边界位置有重叠的，当对这些区域进行扩充时，会出现扩充后的区域超出特征图

的范围这种情况，因此需要重新调整扩充后的区域

的位置信息，在保证扩充后的区域

宽度不变的情况下，调整扩充后的区域

的左上角坐标。

如图3中第一种情况，原先计算得到的扩充后的区域

的左上角坐标为（

），调整之后得到扩充后的区域

的左上角坐标为（

），如第二种情况，调整之后得到扩充后的区域

的左上角坐标为（

）。

具体的判断计算方式为，首先根据左上角坐标判断坐标值是否为负值，若只有x轴为负值，则将x轴坐标置为0，再判断y轴坐标加上扩充后的区域

宽度

是否大于特征图

的宽

,若否，则y轴坐标不变，若是，则y轴坐标在原有的基础上减去一个

宽度。

若只有y轴为负值，则将y轴坐标置为0，再判断x轴坐标加上扩充后的区域

宽度

是否大于特征图

的宽

,若否，则x轴坐标不变，若是，则x轴坐标在原有的基础上减去一个

宽度。

若x轴坐标和y轴坐标都为负值，则将x轴坐标和y轴坐标都置为0。

若x轴坐标和y轴坐标分别加上扩充后的区域

宽度

后，都大于大于特征图

的宽

，则将x轴坐标和y轴坐标在原有的基础上均减去一个

宽度。

对区域

依次进行上述操作，可以得到与区域

一一对应的局部搜索区域

。

S300、根据特征图

中每个特征向量从对应的局部搜索区域中匹配出相应的相似信息，并将所有的相似信息集合成匹配信息。

其中，相似信息包括相似度和位置信息，相似度即为两个特征向量的相似程度，位置信息则为特征向量在特征图中的位置索引，相似信息反映了像素点在两帧之间的变化状态，通过关联像素运动矢量矩阵，有助于对光流进行更精确估计。

在本申请实施例中，用欧式距离来表示两个特征向量的相似程度，相似度计算的是特征图

中待匹配特征向量与对应局部搜索区域中的特征向量的相似程度，位置信息指的是局部搜索区域中与特征图

中待匹配特征向量相似度高的特征向量在特征图

中的位置索引。

具体的，根据特征图

中每个特征向量从对应的局部搜索区域中匹配出相应的相似信息，包括以下步骤：

S310、根据特征图

中的特征向量

。

S320、对特征向量

和特征向量集

进行k近邻搜索，获取与

相似度最高的k个特征向量的位置信息和相似度。

其中，特征向量集

相当于匹配信息库，根据特征向量

搜索匹配出与之相似的信息。

在一个实施例中，对特征向量

和特征向量集

进行k近邻搜索，获取与

相似度最高的k个特征向量的位置信息和相似度,具体包括以下步骤：

S321、对特征向量集

构建索引。

其中，索引采用的是Faiss库中的IndexFlatL2，对特征向量集

构建索引，具体包括：根据特征向量集

的容量建立索引，将特征向量集

添加进索引。

S322、对特征向量

和特征向量集

进行k近邻搜索，获取与

相似度最高的k个特征向量的区域索引值和相似度。

其中，对特征向量

和特征向量集

进行k近邻搜索是通过建立的索引来进行，返回的信息为k个与特征向量

相似度最高的特征向量的区域索引值以及两者之间的相似度。

S323、将区域的索引值转换为全图的索引值。

在本申请实施例情况下，由于是在特征图

的局部搜索区域中进行k近邻搜索，返回的索引值是区域索引值，因此还需要对索引值进行转换，将其转换为全图索引值，具体转换过程包括：根据局部搜索区域在整个特征图

中左上角坐标 (

,

)、局部搜索区域的宽

和整个特征图

的宽

以及经过k近邻搜索返回的区域索引值

，获取全图索引值

，具体计算方式为：

S324、根据全图索引值，从特征图

中获取对应特征向量的位置信息。

S330、将位置信息和相似度整合，以形成特征图

中特征向量

的相似信息。

在本申请实施例中，对特征图

中所有的特征向量都进行上述操作，可以获取与所有特征向量一一对应的相似信息，将所有相似信息集合形成匹配信息，为后续迭代估计光流提供支持。

S400、利用上下文信息和匹配信息，通过预设的循环网络进行迭代光流估计，并输出光流估计结果。

在本实施申请中，上下文信息包括每个像素点经过特征提取得到的深层特征信息以及像素点本身所处的环境信息，环境信息包括像素点所在图像中的位置信息和像素点之间的关联信息；匹配信息是通过局部搜索匹配得到的相似信息的集合，可以帮助光流估计偏向匹配程度最高的位置，也就是与像素运动矢量矩阵变化状态更接近的位置；预设的循环网络采用的是GRU（门控循环单元），GRU通过对历史节点信息的选择性保留，可以更好地帮助网络去进行迭代，通过循环网络进行迭代光流估计，具体包括以下步骤：

S410、获取光流估计初始值。

在本申请实施例子，获取光流估计初始值，也就是对光流估计进行初始化赋值，因为每一次迭代的光流估计会作为下一次迭代的输入，所以需要对光流估计进行初始化赋值，这样，第一次迭代时，光流估计初始化值可以作为输入信息，同时经过循环网络得到的残差光流结合光流估计初始化值，即为第一次迭代的光流估计，通过循环网络不断迭代的过程，其实也就是将光流估计初始值向真实光流逼近的过程。

S420、根据光流估计初始值、匹配信息和上下文信息，获取初次迭代的输入信息。

在本申请实施例中，光流估计初始值

赋为0，光流估计初始值

表示的是像素运动矢量矩阵，初始赋值为0，即矩阵中每个元素赋值为 0。

S430、根据输入信息，通过循环网络进行迭代得到光流估计。

在本申请实施例中，通过循环网络进行迭代得到光流估计，参见图4，具体包括以下步骤：

S431、获取上一次迭代的光流估计。

若是第一次迭代，上一次迭代的光流估计即为光流估计初始值。

S432、根据上一次迭代的光流估计、匹配信息和上下文信息，获取当前迭代的输入

和历史隐藏层状态

；

其中，

是上次光流估计的结果

、匹配信息

和上下文信息

的融合，具体表现为：

为前几次迭代后积累信息，若是第一次迭代，则

初始值为上下文信息

。

S433、根据当前迭代的输入

和历史隐藏层状态

，通过循环网络获取更新后的隐藏层状态

。

在本申请实施例中，通过循环网络获取更新后的隐藏层状态

，具体包括：

根据

和

，分别获取更新门状态

和重置门状态

，具体表现为：

根据

、

和重置门状态

获取候选隐藏层状态

，候选隐藏层状态

包括当前输入信息

和有针对性地对上一个节点隐藏层状态

的保留信息，重置门的状态

决定了保留信息的量，具体表现为：

根据候选隐藏层状态

、上一个节点的隐藏层状态

以及更新门状态

，获取更新后的隐藏层状态

，更新后的隐藏层状态

包括对上一个节点的隐藏层状态

和当前节点候选隐藏层状态

的选择性保留，具体表现为：

S434、对更新后的隐藏层状态

其中，残差光流

，可理解为更新的方向，对上一次迭代光流估计值

进行更新，得到当前迭代的光流估计值，具体表现为：

为了更好地说明本发明的技术效果，发明人还进行了下列实验：

实验用到的数据集包括：公开的规模较大的数据集，如FlyingChairs、Sintel、MPI-Sintel等。

实验用到的评测指标为EPE(Endpoint error),表示的是所有像素点的估计光流和真实光流之间欧氏距离的平均值。

实验1：在GRU网络循环2次，top_k设置为2的条件下，将局部搜索区域大小依次定义为原图的1/4、1/16和1/64，然后分别进行实验，各实验组的耗时情况如下所示：

表1：

实验2：在GRU网络循环2次，top_k分别设置2和8的条件下，将局部搜索区域大小依次定义为原图的1/4、1/16和1/64，然后分别进行实验，各实验组的光流估计精度情况如下所示：

表2：

从以上两组实验不难看出，在不改变网络结构，不改变网络权重，仅仅改变搜索方式的情况下，局部搜索的搜索耗时相较于全局搜索大大减少。其中，当搜索范围为原图的1/16时，其搜索耗时仅为全局搜索的16.1%，其光流估计整体耗时为全局搜索的78.6%。且在局部搜索的情况下，光流估计精度并没有明显下降，反而在一些情况下还有提升。其中，top_k=2时，搜索范围为原图1/16时的光流估计精度明显好于全图搜索，这表明局部搜索策略可以提升光流估计的实时性，同时光流估计的精度并没有显著降低。

本申请实施例还提供一种计算机可读存储介质，存储有能够被处理器加载并执行上述任一种基于局部搜索的运动小目标快速光流估计方法的计算机程序。

本具体实施方式的实施例均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的原理所做的等效变化，均应涵盖于本申请的保护范围之内。