CN111340844B - 基于自注意力机制的多尺度特征光流学习计算方法 - Google Patents
基于自注意力机制的多尺度特征光流学习计算方法 Download PDFInfo
- Publication number
- CN111340844B CN111340844B CN202010110918.7A CN202010110918A CN111340844B CN 111340844 B CN111340844 B CN 111340844B CN 202010110918 A CN202010110918 A CN 202010110918A CN 111340844 B CN111340844 B CN 111340844B
- Authority
- CN
- China
- Prior art keywords
- feature
- attention
- optical flow
- features
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于自注意力机制的多尺度特征光流学习计算方法,首先选择输入图像序列中的任意连续两帧图像,对选择的上述两帧图像进行金字塔特征提取,并求解序列初始光流场。其次对初始光流场和其对应特征进行特征融合,通过叠加融合特征与其对应的金字塔每层特征,并利用自注意力机制分别捕捉注意力依赖关系;进行通道层面的叠加后,进行特征提取计算求解残差光流场;从而进一步提高模型在大位移运动状态下图像边界或运动边缘处的光流计算精度。改善了图像序列光流计算中因大位移运动产生的边界模糊现象,对于复杂场景和大位移图像序列具有更高的计算精度和更好的适用性。
Description
技术领域
本发明涉及图像序列光流计算技术,特别涉及到一种基于自注意力机制的多尺度特征光流学习计算方法。
背景技术
光流是运动物体或场景表面像素点在投影平面的二维瞬时速度,其不仅包含了图像中运动目标与场景的运动参数,更携带了目标与场景的结构信息。研究光流计算的目的就是从图像序列中恢复目标物体与场景的运动和结构信息,进而应用于更高级的视觉任务。近年来,随着深度学习理论与技术的快速发展,卷积神经网络模型被广泛应用于光流计算技术研究,由于该类方法具有计算速度快、稳定性高等显著优点,因此逐渐成为光流计算研究领域的热点,研究成果被广泛应用于无人机实时导航与避障、车辆前景检测与辅助驾驶、运动目标跟踪与识别以及视频压缩与传输等对光流计算实时性要求较高的领域。
目前,基于特征金字塔的卷积神经网络模型是序列光流计算技术中常采用的一类方法,该类方法能够在一定程度上提升模型在大位移运动下的精度。但由于金字塔中每一层的特征并没有直接对输出光流场形成贡献,从而使输出光流场缺少多尺度信息,导致在运动边界处产生模糊。
发明内容
本发明的目的是提供一种基于自注意力机制的多尺度特征光流学习计算方法,解决基于特征金字塔的卷积神经网络模型图像在大位移运动下的运动边界模糊的技术问题。
为了解决上述技术问题,本发明采取以下技术方案。基于自注意力机制的多尺度特征光流学习计算方法,其步骤如下:
1)选择输入图像序列中的任意连续两帧图像;
2)对选择的上述两帧图像进行K层金字塔特征提取,并求解序列初始光流场;
3)利用3×3卷积操作对初始光流场和其对应特征进行特征融合,并对融合特征进行下采样,以匹配特征金字塔每一层中光流特征的尺寸;
4)通过叠加融合特征与其对应的金字塔每层特征,形成K-2个多尺度融合特征,并利用自注意力机制分别捕捉K-2个多尺度融合特征的注意力依赖关系;
5)分别对K-2个多尺度下的注意力依赖关系进行上采样至相同分辨率,进行通道层面的叠加后,进行特征提取计算求解残差光流场;
6)累和所求得的残差光流场与初始光流场求得最终细化光流场,从而进一步提高模型在大位移运动状态下图像边界或运动边缘处的光流计算精度。
进一步,所述步骤2)中金字塔特征层数为K,且1≤K。
进一步,所述步骤4)中自注意力机制的原理如下:
式(4)中:λ为网络训练过程中的自适应学习参数。
本发明方法采用自注意力机制捕捉了特征金字塔中的多尺度信息,改善了图像序列光流计算中因大位移运动产生的边界模糊现象,对于复杂场景和大位移图像序列具有更高的计算精度和更好的适用性。
附图说明
图1a和图1b是Temple3图像序列连续两帧图像(其中:图1a是第一帧图像,图1b是第二帧图像);
图2是本发明利用金字塔特征提取、变形和构建匹配代价光流估计模型求解得到的序列初始光流场图像;
图3是本发明利用基于自注意力机制的多尺度特征光流学习计算方法求解得到的序列残差光流场图像;
图4是本发明对序列残差光流场与初始光流场进行累加求得的最终细化光流场图像;
图5是本发明中基于自注意力机制的多尺度特征光流学习计算模块图。
具体实施方式
以下结合附图和实施例对本发明作进一步说明。参见图1a至图5,基于自注意力机制的多尺度特征光流学习计算方法,使用Temple3图像序列光流计算实验进行说明:
1)输入图1a和图1b是Temple3图像序列连续两帧图像;其中:图1a是第一帧图像,图1b是第二帧图像,对应分辨率为448×512;
2)对选择的该两帧图像进行K=6层金字塔特征提取,并求解序列初始光流场,初始光流场如图2所示;
3)利用3×3卷积操作对初始光流场和其对应特征进行特征融合,并对融合特征进行下采样,以匹配特征金字塔每一层中光流特征的尺寸;
4)通过叠加融合特征与其对应的金字塔每层特征,形成4个多尺度融合特征,并利用自注意力机制分别捕捉4个多尺度融合特征的注意力依赖关系,其中:4个多尺度融合特征的分辨率分别为224×256、112×128、56×64、28×32,自注意力机制的原理如下:
式(4)中:λ为网络训练过程中的自适应学习参数。
5)分别对4个多尺度下的注意力依赖关系进行上采样至相同分辨率224×256,进行通道层面的叠加后,进行特征提取计算求解残差光流场,残差光流场如图3所示;
6)累和所求得的残差光流场与初始光流场求得最终细化光流场,从而进一步提高模型在大位移运动状态下图像边界或运动边缘处的光流计算精度,最终细化光流场如图4所示。
上述过程如图5所示。根据图4中光流计算结果可以看出,本发明方法克服了图像序列光流计算结果中由大位移运动产生的运动边缘模糊问题,对于复杂场景和复杂边缘图像序列具有更高的计算精度和更好的适用性,例如,在人体异常行为识别的研究中,现有的基于深度学习的人体异常行为识别方法为了追求更好的识别性能往往采用“双流”的模型架构,该架构将网络模型输入分为空间特征流和时域流,空间流采用RGB图像作为输入,时域流采用预先提取的光流作为输入。但是由于光流本身很容易受到大位移运动的影响,导致运动目标整体或边缘出现模糊现象,使得“双流”架构的实用性受到了很大的限制。本发明方法提出的自注意力机制的多尺度特征光流学习模型,计算生成的光流场中运动目标整体或边缘清晰,作为双流架构中时域流的输入,可有效提升行为识别估计的有效性。
Claims (3)
1.基于自注意力机制的多尺度特征光流学习计算方法,其特征在于,其步骤如下:
1)选择输入图像序列中的任意连续两帧图像;
2)对选择的上述两帧图像进行K层金字塔特征提取,并求解序列初始光流场;
3)利用3×3卷积操作对初始光流场和其对应特征进行特征融合,并对融合特征进行下采样,以匹配特征金字塔每一层中光流特征的尺寸;
4)通过叠加融合特征与其对应的金字塔每层特征,形成K-2个多尺度融合特征,并利用自注意力机制分别捕捉K-2个多尺度融合特征的注意力依赖关系,具体的,对于每一多尺度融合特征,利用1×1标准卷积分别对所述多尺度融合特征进行三次特征提取,求得第一特征变量、第二特征变量和第三特征变量;根据所述第一特征变量和所述第二特征变量的计算得到注意力能量矩阵;对所述注意力能量矩阵进行归一化,得到规范化注意力能量矩阵;根据所述规范化注意力能量矩阵和所述第三特征变量计算得到注意力依赖特征;根据所述多尺度融合特征和所述注意力依赖特征计算得到所述多尺度融合特征的注意力依赖关系;
5)分别对K-2个多尺度下的注意力依赖关系进行上采样至相同分辨率,进行通道层面的叠加后,进行特征提取计算求解残差光流场;
6)累和所求得的残差光流场与初始光流场求得最终细化光流场,从而进一步提高模型在大位移运动状态下图像边界或运动边缘处的光流计算精度。
2.根据权利要求1所述的基于自注意力机制的多尺度特征光流学习计算方法,其特征在于,所述步骤2)中金字塔特征层数为K,且1≤K。
3.根据权利要求1所述的基于自注意力机制的多尺度特征光流学习计算方法,其特征在于,所述步骤4)中自注意力机制的原理如下:
式(4)中:λ为网络训练过程中的自适应学习参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010110918.7A CN111340844B (zh) | 2020-02-24 | 2020-02-24 | 基于自注意力机制的多尺度特征光流学习计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010110918.7A CN111340844B (zh) | 2020-02-24 | 2020-02-24 | 基于自注意力机制的多尺度特征光流学习计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111340844A CN111340844A (zh) | 2020-06-26 |
CN111340844B true CN111340844B (zh) | 2023-05-02 |
Family
ID=71181870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010110918.7A Active CN111340844B (zh) | 2020-02-24 | 2020-02-24 | 基于自注意力机制的多尺度特征光流学习计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111340844B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111612825B (zh) * | 2020-06-28 | 2023-05-02 | 南昌航空大学 | 基于光流与多尺度上下文的图像序列运动遮挡检测方法 |
US11734837B2 (en) * | 2020-09-30 | 2023-08-22 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for motion estimation |
CN112465872B (zh) * | 2020-12-10 | 2022-08-26 | 南昌航空大学 | 一种基于可学习遮挡掩模与二次变形优化的图像序列光流估计方法 |
CN112637604B (zh) * | 2020-12-15 | 2022-08-16 | 深圳大学 | 低时延视频压缩方法及装置 |
CN112733625B (zh) * | 2020-12-28 | 2022-06-14 | 华南理工大学 | 基于时域自注意力机制的假脸视频篡改检测方法及系统 |
CN112767441B (zh) * | 2021-01-08 | 2023-06-06 | 南昌航空大学 | 一种基于残差场和位移场的图像光流优化方法及系统 |
CN113345082B (zh) * | 2021-06-24 | 2022-11-11 | 云南大学 | 一种特征金字塔多视图三维重建方法和系统 |
CN113554039B (zh) * | 2021-07-27 | 2022-02-22 | 广东工业大学 | 基于多注意力机制的动态图像的光流图生成方法和系统 |
CN114677412B (zh) * | 2022-03-18 | 2023-05-12 | 苏州大学 | 一种光流估计的方法、装置以及设备 |
CN117395423A (zh) * | 2022-06-30 | 2024-01-12 | 深圳市中兴微电子技术有限公司 | 视频图像的处理方法、装置、电子设备和存储介质 |
CN116309698B (zh) * | 2023-01-11 | 2024-06-11 | 中国科学院上海微系统与信息技术研究所 | 一种基于运动特征弥补引导的多帧光流估计方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1345174A1 (en) * | 2002-03-12 | 2003-09-17 | Eidgenossisch Technische Hochschule Zurich | Method and apparatus for visual motion recognition |
GB0803475D0 (en) * | 2007-03-02 | 2008-04-02 | Bosch Gmbh Robert | Apparatus, procedure and computer program for image-supported tracking of monitored objects |
CN110111366A (zh) * | 2019-05-06 | 2019-08-09 | 北京理工大学 | 一种基于多级损失量的端到端光流估计方法 |
CN110533084A (zh) * | 2019-08-12 | 2019-12-03 | 长安大学 | 一种基于自注意力机制的多尺度目标检测方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6233599B2 (ja) * | 2014-02-25 | 2017-11-22 | マツダ株式会社 | 車両用表示制御装置 |
US20170262996A1 (en) * | 2016-03-11 | 2017-09-14 | Qualcomm Incorporated | Action localization in sequential data with attention proposals from a recurrent network |
CN106934820B (zh) * | 2017-03-17 | 2019-07-12 | 南昌航空大学 | 基于引导滤波的图像序列金字塔分层光流计算方法 |
CN108776971B (zh) * | 2018-06-04 | 2021-08-10 | 南昌航空大学 | 一种基于分层最近邻域的变分光流确定方法及系统 |
CN110516571B (zh) * | 2019-08-16 | 2022-02-11 | 东南大学 | 基于光流注意力神经网络的跨库微表情识别方法及装置 |
US20220156944A1 (en) * | 2020-11-13 | 2022-05-19 | Samsung Electronics Co., Ltd. | Apparatus and method with video processing |
-
2020
- 2020-02-24 CN CN202010110918.7A patent/CN111340844B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1345174A1 (en) * | 2002-03-12 | 2003-09-17 | Eidgenossisch Technische Hochschule Zurich | Method and apparatus for visual motion recognition |
GB0803475D0 (en) * | 2007-03-02 | 2008-04-02 | Bosch Gmbh Robert | Apparatus, procedure and computer program for image-supported tracking of monitored objects |
CN110111366A (zh) * | 2019-05-06 | 2019-08-09 | 北京理工大学 | 一种基于多级损失量的端到端光流估计方法 |
CN110533084A (zh) * | 2019-08-12 | 2019-12-03 | 长安大学 | 一种基于自注意力机制的多尺度目标检测方法 |
Non-Patent Citations (3)
Title |
---|
一种针对大尺度运动的快速光流算法;卫保国;李晶;;计算机应用研究(第09期) * |
金字塔光流三维运动估计与深度重建直接方法;张聪炫;陈震;黎明;;仪器仪表学报(第05期) * |
非局部加权邻域三角滤波TV-L~1光流估计;张聪炫;陈震;汪明润;黎明;;中国图象图形学报(第08期) * |
Also Published As
Publication number | Publication date |
---|---|
CN111340844A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111340844B (zh) | 基于自注意力机制的多尺度特征光流学习计算方法 | |
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
CN109993091B (zh) | 一种基于背景消除的监控视频目标检测方法 | |
Huang et al. | Joint blur kernel estimation and CNN for blind image restoration | |
CN107564009B (zh) | 基于深度卷积神经网络的室外场景多目标分割方法 | |
CN112614136B (zh) | 一种红外小目标实时实例分割方法及装置 | |
Chudasama et al. | Therisurnet-a computationally efficient thermal image super-resolution network | |
CN112581379A (zh) | 图像增强方法以及装置 | |
CN113673590A (zh) | 基于多尺度沙漏密集连接网络的去雨方法、系统和介质 | |
CN111402292B (zh) | 基于特征变形误差遮挡检测的图像序列光流计算方法 | |
CN116797488A (zh) | 一种基于特征融合与注意力嵌入的低照度图像增强方法 | |
CN112465872B (zh) | 一种基于可学习遮挡掩模与二次变形优化的图像序列光流估计方法 | |
CN112785626A (zh) | 一种基于多尺度特征融合的孪生网络小目标跟踪方法 | |
CN111612825A (zh) | 基于光流与多尺度上下文的图像序列运动遮挡检测方法 | |
CN115578378A (zh) | 红外与可见光图像融合的光伏缺陷检测方法 | |
CN110503609B (zh) | 一种基于混合感知模型的图像去雨方法 | |
CN113936034B (zh) | 一种结合帧间光流的表观运动联合弱小运动目标检测方法 | |
CN105719251A (zh) | 一种用于大像移线性模糊的压缩降质图像复原方法 | |
Liu et al. | Deep joint estimation network for satellite video super-resolution with multiple degradations | |
EP3561726A1 (en) | A device and a method for processing data sequences using a convolutional neural network | |
Cho et al. | Modified perceptual cycle generative adversarial network-based image enhancement for improving accuracy of low light image segmentation | |
CN108492308B (zh) | 一种基于相互结构引导滤波的变分光流的确定方法及系统 | |
Oh et al. | Fpanet: Frequency-based video demoireing using frame-level post alignment | |
Razzok et al. | Pedestrian detection under weather conditions using conditional generative adversarial network | |
Li et al. | ConvFormerSR: Fusing transformers and convolutional neural networks for cross-sensor remote sensing imagery super-resolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |