CN111652081B - 一种基于光流特征融合的视频语义分割方法 - Google Patents
一种基于光流特征融合的视频语义分割方法 Download PDFInfo
- Publication number
- CN111652081B CN111652081B CN202010401842.3A CN202010401842A CN111652081B CN 111652081 B CN111652081 B CN 111652081B CN 202010401842 A CN202010401842 A CN 202010401842A CN 111652081 B CN111652081 B CN 111652081B
- Authority
- CN
- China
- Prior art keywords
- frame image
- feature map
- key frame
- level semantic
- semantic feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 55
- 230000003287 optical effect Effects 0.000 title claims abstract description 46
- 230000004927 fusion Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000005070 sampling Methods 0.000 claims abstract description 6
- 238000010586 diagram Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 8
- 230000008602 contraction Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于光流特征融合的视频语义分割方法,包括如下步骤:步骤1,判定视频序列的当前视频帧图像为关键帧图像或非关键帧图像;若为关键帧图像,则执行步骤2,若为非关键帧图像,则执行步骤3;步骤2,提取当前视频帧图像的融合位置依赖信息和通道依赖信息的高层语义特征图;步骤3,通过计算光流场得到当前视频帧图像的高层语义特征图;步骤4,对步骤2和步骤3得到的高层语义特征图进行上采样,得到语义分割图。本发明的方法中融入了光流场和注意力机制思想,可以提升视频语义分割的速率和准确率。
Description
技术领域
本发明涉及视频处理技术领域,尤其是一种基于光流特征融合的视频语义分割方法。
背景技术
伴随着汽车主动安全和智能化市场需求的不断增加,越来越多的企业和研究机构开始致力于自动驾驶系统的研究和开发。自动驾驶系统中的环境感知技术作为自动驾驶车辆的眼、耳,为自动驾驶的行为决策系统提供支撑作用。在自动驾驶环境感知技术中,对车辆摄像头所采集的实时视频数据进行快速、准确的语义分割是其中至关重要的技术。
自动驾驶汽车对真实驾驶场景进行语义分割,核心问题是对道路语义信息进行提取,以及提高算法的分割速度和在各类复杂环境中对驾驶场景的分割精度。在自动驾驶高动态环境下,常规的基于图像特征的视觉算法难以发挥出实用性效果。近年来,随着基于深度卷积神经网络的语义分割算法的快速发展,在各类图像分割应用中取得了良好的效果。目前,采用深度卷积网络学习方法进行图像语义分割已经成为主流。但是,随着自动驾驶等领域的发展,图像语义分割已经不能满足这些领域的需要,视频语义分割任务逐渐成为新的重点研究方向。相对于图像数据而言,视频数据更加容易获得,它更是目前信息传播的主要载体,因此如何高效地完成视频语义分割任务是目前计算机视觉领域所面临的重要难题之一。它的困难主要表现在两个方面:
第一,在自动驾驶应用领域中,视频数据中的实例多而复杂,导致视频语义分割算法语义分割精度低。
第二,与图像语义分割任务相比,视频语义分割任务所处理的数据量更大,导致视频语义分割算法计算量更大,分割延迟性高。
针对上面所描述的两个问题,当前的视频语义分割算法主要是从两个方面来研究视频语义分割任务:一方面是捕捉视频序列的更多特征信息,通过这些信息提升特征图对视频帧的语义表征能力,从而提升视频帧的语义分割准确率;另一方面是基于视频序列之间的相关性,通过选取视频序列关键帧的方式,减少整个视频序列的计算量,提升视频语义分割算法的分割速度。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供一种基于光流特征融合的视频语义分割方法。
本发明采用的技术方案如下:
一种基于光流特征融合的视频语义分割方法,包括如下步骤:
步骤1,判定视频序列的当前视频帧图像为关键帧图像或非关键帧图像;若为关键帧图像,则执行步骤2,若为非关键帧图像,则执行步骤3;
步骤2,提取当前视频帧图像的融合位置依赖信息和通道依赖信息的高层语义特征图;
步骤3,通过计算光流场得到当前视频帧图像的高层语义特征图;
步骤4,对步骤2和步骤3得到的高层语义特征图进行上采样,得到语义分割图。
进一步地,步骤1包括如下子步骤:
步骤1.1,从视频序列中选取第一个视频帧图像作为第一个关键帧图像;
步骤1.2,采用第一深度卷积网络计算当前视频帧图像和关键帧图像之间的相似度expectscore;
步骤1.3,将步骤1.2得到的相似度expect score与设定的相似度阈值target进行比较:
当expect score>target时,则当前视频帧图像判定为非关键帧图像;
当expect score<target时,则当前视频帧图像判定为关键帧图像,并将该判定为关键帧图像的当前视频帧图像作为新的关键帧图像,用于判定视频序列中的后续视频帧图像是否为关键帧图像。
进一步地,步骤1.2中的所述第一深度卷积网络的结构包括依次连接的一个卷积层和三个全连接层。
进一步地,步骤2包括如下步骤:
步骤2.1,采用第二深层卷积网络提取关键帧图像的高层语义特征图;
步骤2.2,将步骤2.1得到的高层语义特征图送入位置注意力模块,得到融合位置依赖信息的高层语义特征图;
步骤2.3,将步骤2.1得到的高层语义特征图送入通道注意力模块,得到融合通道依赖信息的高层语义特征图;
步骤2.4,对步骤2.2和步骤2.3的结果采用对位相乘的方式进行融合,得到融合位置依赖信息和通道依赖信息的高层语义特征图。
进一步地,步骤2.2包括如下子步骤:
步骤2.2.1,将三份由步骤2.1中得到的高层语义特征图进行1*1卷积,得到高层语义特征图A、B、C,其中A、B、C的大小均为K*H*W;
步骤2.2.2,将A进行reshape并ranspose得到A′,大小为N*K且N=H*W,将B、C分别reahape得到B′、C′,大小为K*N且N=H*W;
步骤2.2.3,将步骤2.2.2得到的A′与B′相乘并做归一化处理,得到位置注意力特征图S,S的大小为K*K;
步骤2.2.4,将C′与位置注意力特征图相乘S,得到位置注意力特征图D1;
步骤2.2.5,将位置注意力特征图D与通过第二深度卷积网络得到的高层语义特征图进行融合,得到融合位置依赖信息的高层语义特征图E;表示为:
E=αD1+feat_keyi
其中,α表示融合位置依赖信息的权重系数;feat_keyi表示通过第二深度卷积网络得到的高层语义特征图。
进一步地,步骤2.3包括如下子步骤:
步骤2.3.1,将一份由步骤2.1中得到的高层语义特征图,进行reshape并transpose得到A″,大小为N*K且N=H*W;将两份由步骤2.1中得到的高层语义特征图进行reshape得到B″、C″,大小为K*N且N=H*W;
步骤2.3.2,将步骤2.3.1得到的A″与B″相乘并做归一化处理,得到通道注意力特征图X;
步骤2.3.3,将C″与通道注意力特征图X相乘,得到通道注意力特征图D2;
步骤2.3.4,将通道注意力特征图D2与通过第二深度卷积网络得到的高层语义特征图进行融合,得到融合通道依赖信息的高层语义特征图F;表示为:
F=βD2+feat_keyi
其中,β表示融合通道依赖信息的权重系数;feat_keyi表示通过第二深度卷积网络得到的高层语义特征图。
进一步地,所述第二深层卷积网络的结构由多个卷积层和池化层交替组成。
进一步地,步骤3包括如下子步骤:
步骤3.1,采用第三深度卷积网络计算判定为非关键帧图像的当前视频帧图像和关键帧图像(即在处理当前视频帧图像时,由步骤1中确定的当前关键帧图像)的光流场;
步骤3.2,融合步骤3.1得到的光流场以及步骤2得到的关键帧图像的融合位置依赖信息和通道依赖信息的高层语义特征图,得到判定为非关键帧图像的当前视频帧图像的高层语义特征图。
进一步地,所述第三深度卷积网络的结构包括:收缩部分和扩大部分;收缩部分采用9个卷积层对输入图像进行下采样,以提取输入图像的特征得到特征图;扩大部分则采用反卷积的方式对收缩部分输出的特征图进行上采样。
进一步地,步骤4中进行上采样的方法为通过反卷积运算的形式实现。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明的方法中融入了光流场,可以快速获得非关键帧图像的高层语义特征图,以此提升了视频语义分割速率。
2、本发明的方法中融入了注意力机制的思想,增加了位置注意力模块和通道注意力模块,丰富了高层语义特征图的语义信息,由此提升了视频语义分割的准确率。
将光流网络应用到语义分割任务中,将视频序列中大部分非关键帧获得高层语义特征由传统的复杂、缓慢的深度卷积网络,转化为光流特征融合的方法,以此节约模型计算时间,提升视频流语义分割的速率。同时,利用注意力机制的思想,在关键帧高层语义特征的提取中增加注意力模块,以捕捉视频帧的位置依赖性与通道依赖性,并丰富高层次语义信息,提升特征图对视频帧的语义表征能力,提高视频语义分割精度,
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的基于光流特征融合的视频语义分割方法的流程框图。
图2为本发明实施例的基于光流特征融合的视频语义分割方法的原理图。
图3为本发明实施例的第一深度卷积网络的结构示意图。
图4为本发明实施例的第三深度卷积网络的结构示意图。
图5为本发明实施例的融合关键帧图像的融合位置依赖信息和通道依赖信息的高层语义特征图以及光流场的原理图。
具体实施方式
如图1所示,本发明提供的一种基于光流特征融合的视频语义分割方法,包括如下步骤:
步骤1,判定视频序列的当前视频帧图像为关键帧图像或非关键帧图像;若为关键帧图像,则执行步骤2,若为非关键帧图像,则执行步骤3;
步骤2,提取当前视频帧图像的融合位置依赖信息和通道依赖信息的高层语义特征图;
步骤3,通过计算光流场得到当前视频帧图像的高层语义特征图;
步骤4,对步骤2和步骤3得到的高层语义特征图进行上采样,得到语义分割图。
以下结合实施例对本发明的特征和性能作进一步的详细描述。
本实施例的一种基于光流特征融合的视频语义分割方法如图2所示,具体地:
步骤1,判定视频序列的当前视频帧图像为关键帧图像或非关键帧图像;若为关键帧图像,则执行步骤2,若为非关键帧图像,则执行步骤3;
由于连续的视频序列具有强烈的相关性,且相邻视频帧之间的变化很小,因此,可以通过区分视频序列中的视频帧图像为关键帧图像或非关键帧图像的方式,减少视频语义分割模型对视频流的计算量。具体地,步骤1包括如下子步骤:
步骤1.1,从视频序列中选取第一个视频帧图像作为第一个关键帧图像;
也就是说,对于一个包含无数视频帧的视频序列,默认选择视频序列的第一个视频帧作为该视频序列的第一个关键帧,用以计算后续视频帧与关键帧的相似度。表示为:
Ikey=I0
本实施例中,设In表示视频序列的视频帧,其中n=0,1,2,…,即I0表示视频序列的第一个视频帧;Ikey表示关键帧;
步骤1.2,采用第一深度卷积网络计算当前视频帧图像和关键帧图像之间的相似度expect score;
为了保证视频语义分割的精度,需要对关键帧图像和非关键帧图像的相似度进行判别,因此需要对当前视频帧图像和视频序列的当前关键帧图像之间的相似度进行计算。本实施例采用一个简单的第一深度卷积网络计算当前视频帧图像和关键帧图像之间的相似度;如图3所示,所述第一深度卷积网络的结构包括依次连接的一个卷积层和三个全连接层,计算公式如下:
expect score=DN(Ic,Ikey)
其中,expect score表示当前视频帧图像和关键帧图像之间的相似度;DN()表示该第一深度卷积网络;Ic表示当前视频帧图像;Ikey表示视频序列中的当前关键帧图像。
步骤1.3,将步骤1.2得到的相似度expect score与设定的相似度阈值target进行比较;
经步骤1.2得到了当前视频帧图像与关键帧图像的相似度expect score,为保证整个视频流的分割精度,则需要将expect score与系统给定的可接受的两帧之间最低的相似度(相似度阈值)target进行比较。具体地:
当expect score>target时,表示当前视频帧图像与关键帧图像之间的相似度较高,可以通过光流特征融合的方式得到该当前视频帧图像的高层语义特征,即将当前视频帧图像判定为非关键帧图像;
当expect score<target时,表示当前视频帧图像与关键帧图像之间差异较大,为保证语义分割精度,则需要将该当前视频帧图像通过深度卷积网络的方式提取得到高层语义特征,即将当前视频帧图像判定为关键帧图像,并将该判定为关键帧图像的当前视频帧图像作为新的关键帧图像,用于判定视频序列中的后续视频帧图像是否为关键帧图像;表示为:
Ikey=Ic
Ic表示当前视频帧图像。
步骤2,提取当前视频帧图像的融合位置依赖信息和通道依赖信息的高层语义特征图;
本实施例首先通过一个深度卷积网络对当前视频帧图像(即经过步骤1判定为关键帧图像的当前视频帧图像)的高层语义特征图进行提取,但由于卷积操作是稀疏的,在经过深度卷积网络得到当前视频帧图像的高层语义特征,都是采用局部感受野对特征进行提取,所以进行一次卷积运算根本不能覆盖一张视频帧图像全部的语义信息。同时,考虑到视频帧图像上不同位置的像素点在空间上的依赖性和不同通道的依赖性将对分割的结果产生影响。因此本发明利用注意力机制思想,对深度卷积网络提取的高层语义特征图融入位置依赖信息和通道依赖信息,以此提升高层语义特征图对视频帧图像的语义表征能力。具体地,步骤2包括如下子步骤:
步骤2.1,采用第二深层卷积网络提取关键帧图像的高层语义特征图;
如图4所示,所述第二深层卷积网络的结构由多个卷积层和池化层交替组成,其中卷积层的作用是局部感知当前视频帧图像的信息,池化层的作用是对卷积层提取到的特征进行降维,输入为当前视频帧图像,输出为高层语义特征图。表示为:
feat_keyi=Conv(Ik)
其中,Ik表示判定为关键帧图像的当前视频帧图像,Conv()函数表示一系列卷积池化操作,feat_keyi表示提取判定为关键帧图像的当前视频帧图像的高层语义特征图。
步骤2.2,将步骤2.1得到的高层语义特征图送入位置注意力模块,得到融合位置依赖信息的高层语义特征图;该步骤2.2包括如下子步骤:
步骤2.2.1,将三份由步骤2.1中得到的高层语义特征图进行1*1卷积,得到高层语义特征图A、B、C,其中A、B、C的大小均为K*H*W;表示为:
A、B、C=Conv1(feat_keyi)
步骤2.2.2,步骤2.2.2,将A进行reshape并ranspose(reshape是将矩阵改变形状操作,transpose是转置操作)得到A′,大小为N*K且N=H*W,将B、C分别reshape得到B′、C′,大小为K*N且N=H*W;表示为:
A′=reshape&transpose(A)
B′=reshape(B)
C′=reshape(C)
步骤2.2.3,将步骤2.2.2得到的A′与B′相乘并做归一化处理,得到位置注意力特征图S;表示为:
S=Softmax(B′*A′)
其中Softmax()表示归一化函数,S的大小为K*K。
步骤2.2.4,将C′与位置注意力特征图相乘S,得到位置注意力特征图D1;表示为:
D1=C′*S
步骤2.2.5,将位置注意力特征图D与通过第二深度卷积网络得到的高层语义特征图进行融合,得到融合位置依赖信息的高层语义特征图E;表示为:
E=αD1+feat_keyi
其中,α表示融合位置依赖信息的权重系数;feat_keyi表示通过第二深度卷积网络得到的高层语义特征图。
步骤2.3,将步骤2.1得到的高层语义特征图送入通道注意力模块,得到融合通道依赖信息的高层语义特征图;该步骤2.3包括如下子步骤:
步骤2.3.1,将一份由步骤2.1中得到的高层语义特征图,进行reshape并transpose得到A″,大小为N*K且N=H*W;将两份由步骤2.1中得到的高层语义特征图进行reshape得到B″、C″,大小为K*N且N=H*W;表示为:
A″=reshape&transpose(feat_keyi)
B″=reshape(feat_keyi)
C″=reshape(feat_keyi)
步骤2.3.2,将步骤2.3.1得到的A″与B″相乘并做归一化处理,得到通道注意力特征图X;表示为:
X=Softmax(B″*A″)
其中Softmax()表示归一化函数,X的大小为K*K。
步骤2.3.3,将C″与通道注意力特征图X相乘,得到通道注意力特征图D2;表示为:
D2=C″*X
步骤2.3.4,将通道注意力特征图D2与通过第二深度卷积网络得到的高层语义特征图进行融合,得到融合通道依赖信息的高层语义特征图F;表示为:
F=βD2+feat_keyi
其中,β表示融合通道依赖信息的权重系数;feat_keyi表示通过第二深度卷积网络得到的高层语义特征图。
步骤2.4,对步骤2.2和步骤2.3的结果采用对位相乘(element-wise)的方式进行融合,得到融合位置依赖信息和通道依赖信息的高层语义特征图featkey;表示为:
featkey=E⊙F
步骤3,通过计算光流场得到当前视频帧图像的高层语义特征图;
为了提取视频序列中的每一帧视频帧图像的高层语义特征图,传统的方法是利用深度卷积网络,来进行复杂的深层运算得到。但是这种形式对于视频流来说,计算量很大,因此通过相似帧图像之间的光流场原理,采用当前视频帧图像与关键帧图像之间的光流场和关键帧图像的高层语义特征图进行融合得到当前视频帧图像的高层语义特征图的方式,就能大大缩短高层语义特征图提取的时间,由此提升语义分割的速度。也就是说,本发明通过计算关键帧图像与非关键帧图像之间的光流场,能够快速得到判定为非关键帧图像的当前视频帧图像的高层语义特征图。具体地,步骤3包括如下子步骤:
步骤3.1,采用第三深度卷积网络计算判定为非关键帧图像的当前视频帧图像和关键帧图像(即在处理当前视频帧图像时,由步骤1中确定的当前关键帧图像)的光流场;
光流场包含了视频帧图像中的物体实例(如天空、树木、车辆等)在关键帧图像和非关键帧图像之间的相对位移,也即对应关系,同时这种对应关系同样表现在两视频帧图像的高层语义特征图之间。因此,可以通过该光流场和关键帧图像的高层语义特征图获得判定为非关键帧图像的当前视频帧图像的高层语义特征图。
传统计算光流场的方法有很多种,主要包括:基于匹配的方法、基于梯度的方法、基于相位的方法、基于能量的方法以及神经动力学的方法这五类。由于传统计算方法速度较慢、精度较低,因此本实施例采用第三深度卷积网络来计算光流场。所述第三深度卷积网络的输入为判定为非关键帧图像的当前视频帧图像和关键帧图像,输出为两者之间的光流场,该第三深度卷积网络的结构包括收缩部分和扩大部分;收缩部分采用9个卷积层对输入图像进行下采样,以提取输入图像的特征得到特征图;实例中,其中6个导致卷积核翻倍的卷积层的步长(stride)为2,其余卷积层的步长为1,在所述6个卷积层的每一个后面连接一个非线性激活函数ReLu;并且第1个卷积层的卷积核尺寸为7*7,第2-3个卷积层的卷积核尺寸为5*5,第4-9个卷积层的卷积核尺寸为3*3;扩大部分则采用反卷积的方式对收缩部分输出的特征图进行上采样。表示为:
步骤3.2,如图5所示,融合步骤2得到的关键帧图像的融合位置依赖信息和通道依赖信息的高层语义特征图以及步骤3.1得到的光流场,得到判定为非关键帧图像的当前视频帧图像的高层语义特征图;
由步骤3.1可知,光流场不仅是两视频帧图像中的物体实例在关键帧图像和非关键帧图像之间的相对位移,同时也是其在高层语义特征图的对应关系。即,判定为非关键帧图像的当前视频帧图像的高层语义特征图可以看作是由关键帧图像的高层语义特征图经过光流场传播而来。本实施例依据这种关系,通过一个融合函数将步骤2得到的关键帧的融合位置依赖信息和通道依赖信息的高层语义特征图和步骤3.1所得到的光流场进行融合得到判定为非关键帧图像的当前视频帧图像的高层语义特征图;表示为:
其中,Warp()是一个融合函数,例如双线性插值映射函数,featkey是步骤2得到的关键帧的融合位置依赖信息和通道依赖信息的高层语义特征图,feati是融合得到的判定为非关键帧图像的当前视频帧图像的高层语义特征图。
步骤4,对步骤2和步骤3得到的高层语义特征图进行上采样,得到语义分割图;
本发明最终要得到视频序列的语义分割结果,即要得到整个视频序列的每一个视频帧图像的像素级别分类。因此,由步骤2和步骤3分别得到了判定为关键帧图像和非关键帧图像的当前视频帧图像的高层语义特征图,该高层语义特征图包含了当前视频帧图像的语义信息。因此,为了得到和输入的视频序列中视频帧图像同等大小的语义分割图,还需将这些高层语义特征图进行上采样,本实施例进行上采样的方法为通过反卷积运算的形式实现;表示为:
Semantic_resulti=Deconv(feati)
其中,Deconv()表示反卷积运算,feati表示视频序列第i帧图像的高层语义特征图,其中不论第i帧图像是否为关键帧图像。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于光流特征融合的视频语义分割方法,其特征在于,包括如下步骤:
步骤1,判定视频序列的当前视频帧图像为关键帧图像或非关键帧图像;若为关键帧图像,则执行步骤2,若为非关键帧图像,则执行步骤3;
步骤2,提取当前视频帧图像的融合位置依赖信息和通道依赖信息的高层语义特征图;
步骤3,通过计算光流场得到当前视频帧图像的高层语义特征图;
步骤4,对步骤2和步骤3得到的高层语义特征图进行上采样,得到语义分割图;
步骤2包括如下步骤:
步骤2.1,采用第二深层卷积网络提取关键帧图像的高层语义特征图;
步骤2.2,将步骤2.1得到的高层语义特征图送入位置注意力模块,得到融合位置依赖信息的高层语义特征图;
步骤2.3,将步骤2.1得到的高层语义特征图送入通道注意力模块,得到融合通道依赖信息的高层语义特征图;
步骤2.4,对步骤2.2和步骤2.3的结果采用对位相乘的方式进行融合,得到融合位置依赖信息和通道依赖信息的高层语义特征图;
步骤2.2包括如下子步骤:
步骤2.2.1,将三份由步骤2.1中得到的高层语义特征图进行1*1卷积,得到高层语义特征图A、B、C,其中A、B、C的大小均为K*H*W;
步骤2.2.2,将A进行reshape并ranspose得到A′,大小为N*K且N=H*W,将B、C分别reshape得到B′、C′,大小为K*N且N=H*W;
步骤2.2.3,将步骤2.2.2得到的A′与B′相乘并做归一化处理,得到位置注意力特征图S,S的大小为K*K;
步骤2.2.4,将C′与位置注意力特征图相乘S,得到位置注意力特征图D1;
步骤2.2.5,将位置注意力特征图D与通过第二深度卷积网络得到的高层语义特征图进行融合,得到融合位置依赖信息的高层语义特征图E;表示为:
E=αD1+feat_keyi
其中,α表示融合位置依赖信息的权重系数;feat_keyi表示通过第二深度卷积网络得到的高层语义特征图;
步骤2.3包括如下子步骤:
步骤2.3.1,将一份由步骤2.1中得到的高层语义特征图,进行reshape并transpose得到A″,大小为N*K且N=H*W;将两份由步骤2.1中得到的高层语义特征图进行reshape得到B″、C″,大小为K*N且N=H*W;
步骤2.3.2,将步骤2.3.1得到的A″与B″相乘并做归一化处理,得到通道注意力特征图X;
步骤2.3.3,将C″与通道注意力特征图X相乘,得到通道注意力特征图D2;
步骤2.3.4,将通道注意力特征图D2与通过第二深度卷积网络得到的高层语义特征图进行融合,得到融合通道依赖信息的高层语义特征图F;表示为:
F=βD2+feat_keyi
其中,β表示融合通道依赖信息的权重系数;feat_keyi表示通过第二深度卷积网络得到的高层语义特征图;
所述第二深层卷积网络的结构由多个卷积层和池化层交替组成。
2.根据权利要求1所述的基于光流特征融合的视频语义分割方法,其特征在于,步骤1包括如下子步骤:
步骤1.1,从视频序列中选取第一个视频帧图像作为第一个关键帧图像;
步骤1.2,采用第一深度卷积网络计算当前视频帧图像和关键帧图像之间的相似度expect score;
步骤1.3,将步骤1.2得到的相似度expect score与设定的相似度阈值target进行比较:
当expect score>target时,则当前视频帧图像判定为非关键帧图像;
当expect score<target时,则当前视频帧图像判定为关键帧图像,并将该判定为关键帧图像的当前视频帧图像作为新的关键帧图像,用于判定视频序列中的后续视频帧图像是否为关键帧图像。
3.根据权利要求2所述的基于光流特征融合的视频语义分割方法,其特征在于,步骤1.2中的所述第一深度卷积网络的结构包括依次连接的一个卷积层和三个全连接层。
4.根据权利要求1所述的基于光流特征融合的视频语义分割方法,其特征在于,步骤3包括如下子步骤:
步骤3.1,采用第三深度卷积网络计算判定为非关键帧图像的当前视频帧图像和关键帧图像的光流场;所述关键帧图像是在处理当前视频帧图像时,由步骤1中确定的当前关键帧图像;
步骤3.2,融合步骤3.1得到的光流场以及步骤2得到的关键帧图像的融合位置依赖信息和通道依赖信息的高层语义特征图,得到判定为非关键帧图像的当前视频帧图像的高层语义特征图。
5.根据权利要求4所述的基于光流特征融合的视频语义分割方法,其特征在于,所述第三深度卷积网络的结构包括:收缩部分和扩大部分;收缩部分采用9个卷积层对输入图像进行下采样,以提取输入图像的特征得到特征图;扩大部分则采用反卷积的方式对收缩部分输出的特征图进行上采样。
6.根据权利要求1所述的基于光流特征融合的视频语义分割方法,其特征在于,步骤4中进行上采样的方法为通过反卷积运算的形式实现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010401842.3A CN111652081B (zh) | 2020-05-13 | 2020-05-13 | 一种基于光流特征融合的视频语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010401842.3A CN111652081B (zh) | 2020-05-13 | 2020-05-13 | 一种基于光流特征融合的视频语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111652081A CN111652081A (zh) | 2020-09-11 |
CN111652081B true CN111652081B (zh) | 2022-08-05 |
Family
ID=72344408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010401842.3A Active CN111652081B (zh) | 2020-05-13 | 2020-05-13 | 一种基于光流特征融合的视频语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111652081B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112149545B (zh) * | 2020-09-16 | 2024-04-09 | 珠海格力电器股份有限公司 | 样本生成方法、装置、电子设备及存储介质 |
CN112862839B (zh) * | 2021-02-24 | 2022-12-23 | 清华大学 | 一种地图要素语义分割鲁棒性增强方法和系统 |
CN113223181B (zh) * | 2021-06-02 | 2022-12-23 | 广东工业大学 | 一种弱纹理物体位姿估计方法 |
CN113538472B (zh) * | 2021-07-02 | 2022-07-08 | 华东师范大学 | 一种基于编码-解码网络的向量场引导精细化分割方法 |
CN113838014B (zh) * | 2021-09-15 | 2023-06-23 | 南京工业大学 | 基于双重空间扭曲的航空发动机损伤视频检测方法 |
CN115631196B (zh) * | 2022-12-20 | 2023-03-10 | 杭州太美星程医药科技有限公司 | 图像分割方法、模型的训练方法、装置、设备和存储介质 |
CN118397038B (zh) * | 2024-06-24 | 2024-09-03 | 中南大学 | 基于深度学习的运动目标分割方法、系统、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN110147763A (zh) * | 2019-05-20 | 2019-08-20 | 哈尔滨工业大学 | 基于卷积神经网络的视频语义分割方法 |
CN110287876A (zh) * | 2019-06-25 | 2019-09-27 | 黑龙江电力调度实业有限公司 | 一种基于视频图像的内容识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229336B (zh) * | 2017-12-13 | 2021-06-04 | 北京市商汤科技开发有限公司 | 视频识别及训练方法和装置、电子设备、程序和介质 |
-
2020
- 2020-05-13 CN CN202010401842.3A patent/CN111652081B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN110147763A (zh) * | 2019-05-20 | 2019-08-20 | 哈尔滨工业大学 | 基于卷积神经网络的视频语义分割方法 |
CN110287876A (zh) * | 2019-06-25 | 2019-09-27 | 黑龙江电力调度实业有限公司 | 一种基于视频图像的内容识别方法 |
Non-Patent Citations (4)
Title |
---|
Feature Aligned Recurrent Network for Causal Video Object Detection;Yifei Wang等;《2019 IEEE International Conference on Image Processing (ICIP)》;20190826;3900-3904 * |
Progressive Sparse Local Attention for Video Object Detection;Chaoxu Guo等;《ICCV2019》;20190331;3909-3918 * |
自动驾驶中的视频语义分割技术研究;王蒲;《中国优秀硕士学位论文全文数据库 (工程科技Ⅱ辑)》;20200715(第07期);C035-310 * |
辅助视觉中的图像处理关键技术研究;陈龙;《中国博士学位论文全文数据库 (信息科技辑)》;20141115(第11期);I138-30 * |
Also Published As
Publication number | Publication date |
---|---|
CN111652081A (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111652081B (zh) | 一种基于光流特征融合的视频语义分割方法 | |
CN111563909B (zh) | 一种复杂街景图像语义分割方法 | |
CN113033570B (zh) | 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法 | |
CN111062395B (zh) | 一种实时的视频语义分割方法 | |
CN113095152B (zh) | 一种基于回归的车道线检测方法及系统 | |
CN112686207B (zh) | 一种基于区域信息增强的城市街道场景目标检测方法 | |
CN110781744A (zh) | 一种基于多层次特征融合的小尺度行人检测方法 | |
CN112396607A (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN112991350A (zh) | 一种基于模态差异缩减的rgb-t图像语义分割方法 | |
CN116188999B (zh) | 一种基于可见光和红外图像数据融合的小目标检测方法 | |
CN114048822A (zh) | 一种图像的注意力机制特征融合分割方法 | |
CN115082675B (zh) | 一种透明物体图像分割方法及系统 | |
CN112651423A (zh) | 一种智能视觉系统 | |
CN112801027A (zh) | 基于事件相机的车辆目标检测方法 | |
CN114037640A (zh) | 图像生成方法及装置 | |
CN113160058A (zh) | 一种结合分割图的热成像超分辨率重建方法及存储介质 | |
CN114220126A (zh) | 一种目标检测系统及获取方法 | |
CN115482518A (zh) | 一种面向交通场景的可扩展多任务视觉感知方法 | |
CN115861380A (zh) | 雾天低照度场景下端到端无人机视觉目标跟踪方法及装置 | |
CN110866938A (zh) | 一种全自动视频运动目标分割方法 | |
CN116486080A (zh) | 一种基于深度学习的轻量化图像语义分割方法 | |
CN112861987A (zh) | 暗光环境下的目标检测方法 | |
CN115527096A (zh) | 一种基于改进YOLOv5的小目标检测方法 | |
CN116309705A (zh) | 一种基于特征交互的卫星视频单目标跟踪方法及系统 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |