CN112669325A - 一种基于主动式学习的视频语义分割方法 - Google Patents
一种基于主动式学习的视频语义分割方法 Download PDFInfo
- Publication number
- CN112669325A CN112669325A CN202110012126.0A CN202110012126A CN112669325A CN 112669325 A CN112669325 A CN 112669325A CN 202110012126 A CN202110012126 A CN 202110012126A CN 112669325 A CN112669325 A CN 112669325A
- Authority
- CN
- China
- Prior art keywords
- image
- data
- module
- semantic segmentation
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012216 screening Methods 0.000 claims abstract description 41
- 238000013508 migration Methods 0.000 claims abstract description 4
- 230000005012 migration Effects 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000003287 optical effect Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims 1
- 230000004927 fusion Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 claims 1
- 238000004519 manufacturing process Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/215—Motion-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/72—Data preparation, e.g. statistical preprocessing of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉技术领域,提供了一种基于主动式学习的视频语义分割方法,包括图像语义分割、主动式学习数据筛选以及标签传播三个模块;图像语义分割模块负责分割图像结果和提取数据筛选模块所需的高维特征;数据筛选模块在图像层面选取信息量较丰富的数据子集,并在像素层面上选择需要标注的像素块;标签传播模块实现图像到视频任务的迁移,快速补全视频的分割结果从而得到弱监督数据。本发明能快速生成弱监督数据集,减少数据制作成本,优化语义分割网络的性能。
Description
技术领域
本发明属于计算机视觉技术领域,尤其涉及基于深度学习的图像语义分割技术,利用主动式学习的思想和方法,针对视频语义分割数据集制作十分困难的问题,在保证较高的分割精度的前提下,尽可能减少数据标注。
背景技术
视频语义分割技术是计算机视觉中的一个重要的研究课题,它旨在通过给定某个视频的RGB图像作为输入,预测出图像中的每一个像素点的类别,从而在图像上分割出每一个类别对象的具体位置。目前较为热门的卷积神经网络(Convolutional neuralnetworks,CNNs)因为其强大的特征提取能力而被广泛的运用在语义分割任务上。语义分割能够将RGB图像中属于同一部分的像素聚集在一起,能够很好的解决一些场景理解问题,语义分割常见的应用领域主要包括自动驾驶、医学医疗等领域,具有较高的研究价值。
在语义分割问题上,需要通过输入数据来训练网络来达到高精度分割效果。在训练卷积神经网络的过程中,要想提升网络在分割上的效果,除了设计精细的网络结构和模块以外,大量高质量的语义分割数据集也是一个非常重要的因素。卷积神经网络需要大量的数据来进行支撑,才能达到更好的泛化性。现如今在语义分割领域中,也出现了许多高精度的室内或室外的视频分割数据集,给分割领域提供了很大的帮助,使得不同的卷积神经网络在分割问题上的效果得到了很大的提升。然而,由于近几年深度学习领域的迅猛发展,在多个计算机视觉领域上都出现了数据集严重缺乏的问题,尽管高质量数据集也在不断地扩充,但是与神经网络框架的数量的增长速度相比还是相差甚远。
针对上述数据缺乏的问题,主动式学习随之再次进入人们的视野中。通过利用主动式学习方法,可以在大量未标注的数据中寻找出对神经网络效果影响最大的数据子集,通过标注挑选出的子集并输入到CNN中进行训练,就可以让网络达到较高的分割效果。这种方法旨在给予尽可能少的带标签数据,使得卷积神经网络尽可能达到原来全部数据集输入网络得到的效果。因此,通过主动式学习与深度学习两者相结合,可以很好的解决语义分割领域中缺乏数据的问题,并保证网络的分割精度,为语义分割技术的进步提供了更多的潜在可能性。接下来详细介绍上述领域的相关技术背景。
(1)语义分割
在早期图像分割的领域中,因为计算机的性能有限,所以在当时的分割技术只能处理一些灰度图,提取一些低级的特征值。随着机器学习和深度学习这些理论知识的快速发展,以及高性能硬件的涌现,以深度学习为基础的语义分割技术不断更新迭代。利用神经网络可以在语义分割任务上建立起输入RGB图像与输出的像素级分类的映射。
在深度学习应用于计算机视觉领域的起初阶段,Long等人提出了全卷积神经网络(Fully Convolutional Network,FCN)。在FCN的分割下,不仅能在RGB图像上按照物体的类别分割,还可以在分割结果中很明了的看出分割后的物体信息。目前,大多数的基于深度学习的语义分割网络都在FCN的基础上进行调整和修改,FCN被认为是语义分割领域上的一个里程碑。随后,为了扩大神经网络的感受野,Chen等人提出了条件随机场(CRF),Yu等人提出了多尺度空洞卷积的概念。CRF通过后处理来细化分割结果,而多尺度空洞卷积通过高维特征和低维特征相结合来提高分割的性能。随后PSPNet提出了一种金字塔网络结构,通过不同尺度的池化层来获取图像中更多的上下文信息,并连接在一起从而改进分割结果。随着扩张卷积技术不断地完善和发展,目前较为流行的Deeplabv3开始出现。这种网络结构既采用了空洞卷积ASPP结构,又加深了卷积层数,进一步提升了语义分割精度,成为了目前通用的一种语义分割框架。
(2)主动式学习
基于深度学习的语义分割技术都是依靠大量数据才能达到较好的泛化性,从而在其他没有标签的RGB图像上进行高精度的分割任务。在真实的数据分析场景中,我们可以通过相机或者摄像机获得很多我们需要的RGB图像,但是这些数据都是未标注的数据,不能为神经网络提供一个有利的监督学习,因此不能直接为其所用。虽然尝试通过人工标注就可以使得该数据成为网络的训练集,但是语义分割任务是基于像素层面的分类任务,通过人来标注会消耗大量的人力和时间,制作这样的数据集所消耗的金钱和时间成本是巨大的。
主动式学习可以主动地提出一些标注请求,将一些经过筛选的数据提交给专家(标注者)进行标注,通过这样的筛选操作可以很大程度上减少人工标注的工作量。现如今常见的Uncertainty方法在深度学习上结合使用的非常多,也取得了较好的效果。常用的最不自信策略(LeastConfidence)、交叉熵策略(Cross Entropy)以及投票熵等策略都比随机选择样本策略的效果要好,说明了主动式学习策略的可靠性。然而对于多分类像素级别的语义分割任务上来讲,这些方法由于自身的局限性,还不能很好的迁移至语义分割任务上。
发明内容
本发明针对视频语义分割数据集的匮乏且制作困难、成本高,以及传统主动式学习策略在语义分割任务上表现不佳的技术难题,设计一个多层次(图像层面和像素层面)的基于主动式学习方法的数据筛选算法。结合现有的图像语义分割网络,能够加速网络的训练收敛,减少数据的依赖;此外,结合光流估计算法可以实现图像到视频任务的迁移,快速生成大量弱监督数据,缓解视频语义分割数据集的缺乏。
本发明的技术方案:
一种基于主动式学习的视频语义分割方法,包括图像语义分割、主动式学习数据筛选以及标签传播三个模块;图像语义分割模块负责分割图像结果和提取数据筛选模块所需的高维特征;数据筛选模块在图像层面选取信息量较丰富的数据子集,并在像素层面上选择需要标注的像素块;标签传播模块实现图像到视频任务的迁移,快速补全视频的分割结果从而得到弱监督数据。
(1)图像语义分割模块
图像语义分割模块是由改良的全卷积网络组成的,主体网络结构采用Mobilenetv2的结构来提取RGB图像的特征,得到高维特征信息后经过解码器将特征通道数转为类别数大小来达到像素分类的效果,最后经过上采样得到和RGB图像相同大小的带有分类信息的语义标签图。
(1.1)图像语义分割模块输入:
通常图像语义分割网络对输入的RGB图像没有大小限制,但本发明在像素层面的筛选策略需要固定图像的大小,因此对输入的训练数据需要缩放或扩张处理。输入的训练数据分为两个部分:一个是RGB图像(记为x),另一个是对应的语义标签(记为y)。采用如下方式进行输入数据的调整:
X=B(x) (1)
Y=N(y) (2)
其中B(x)表示RGB图像采用双线性插值方式进行处理,N(y)表示语义标签采用最邻近插值法。
(1.2)特征提取编码模块:
RGB图像输入到网络中,首先经过初始卷积层将通道数由3通道转为32通道,该层特征记为Finit。然后经过7个残差卷积得到一个长和宽大小为16和32的高维特征,本发明采用Mobilenetv2的Bottleneck残差块,最终通道数为320,因此高维特征(HLF)维度为16×32×320。其中输入加上经过前3个Bottleneck残差块的特征作为低维特征(LLF)。LLF可表示为:
LLF=[Finit,BN_1(x),BN_2(x),BN_3(x)] (3)
其中BN_1(x),BN_2(x),BN_3(x)分别表示经过了前三个残差块的特征。[·]是串联连接操作。
(1.3)解码器模块:
采用空洞空间卷积池化金字塔(ASPP)对上述高维特征HLF以不同采样率的空洞卷积并行采样,采样后的特征经过融合与低维特征LLF输入到解码模块中进行通道数解码,最终得到图像中相应物体类别数的通道大小。整个过程表述如下:
Fdecode=DEC(FASPP,LLF) (4)
其中FASPP是ASPP输出的联合特征。DEC表示本发明设计的解码模块,将FASPP经过卷积层使得维度和LLF中的特征维度相同,将两者在通道维度上连接起来并经过反卷积层得到Fdecode。得到Fdecode后将其输入到双线性上采样层中,使得该特征转换为与原RGB图像一样大小的尺寸,让图像上的每一个像素都对应预测的类别结果Fclass。语义分割网络框架如图2所示。
(2)基于主动式学习的数据筛选模块
(2.1)图像级别数据筛选模块:
RGB图像通过图像语义分割模块后除了得到最终预测结果Fclass,本发明提取编码器的中间特征Fdecode作为为数据筛选模块的输入。将Fdecode输入到设计的拟合评分网络中,首先用一个卷积核为输入特征的后两个维度大小的全局池化层进行降维操作,得到一个与类别数大小相同的向量Vclass。将Vclass输入到三个全连接层(FC),通道数从类别数大小、16、8、1依次下降,最终得到一个数值S。S越接近于0代表着筛选的这张图像在语义分割模块上的表现越好;反之,效果越差。
语义分割网络在训练过程中计算损失的公式采用交叉熵函数,其函数表示如公式(5):
其中,M表示类别的数量,yc表示变量的类别判断,类别相同则为1,不同则为0,pc表示对于观测样本属于类别c的预测概率。在主动式学习筛选模块得到Vclass之后,通过设计如下公式(7)的MSE损失函数,来提升筛选模块的性能:
Lpre=(Lseg-Vclass)2 (6)
其中,Lseg为语义分割模块训练时得到的loss,Vclass为筛选模块得到的数值,通过优化器不断迭代优化,缩小两者的差距,从而使得筛选模块的抉择优化的目的,整体优化过程如图2所示。总体的损失函数如公式(7)表示:
Ltotal=Lseg+λLpre (7)
其中λ是超参数,用于控制Lpre在整个损失中的占比,一般取值范围为0~1之间。通过训练之后,可以固定参数在未标注的数据上进行预测,每一张图像得到对应的Lpre,通过对Lpre的排序,选择出前N个数值大的图像作为下一轮需要标注的数据子集。
(2.2)像素级别数据筛选模块:
通过图像级别数据筛选模块后,选择出部分需要标注的数据子集。为了使得标注的工作量进一步减少,并且考虑到图像中各个类别的占比不同,很多像素上的信息是重复的,所以提出像素级别数据筛选模块。通过输入筛选出的数据子集,得到每一张图上的信息熵的分布。信息熵计算使用投票熵的方式来计算,在公式(5)的基础上进行改进,表述如下:
其中D表示进行了多少次投票,本发明D设为20次。之后采用16*16大小的像素窗口在图像上滑动,计算每一个像素窗口中的信息量,最终排序选择出信息量较大的像素窗口。此模块从整张图像的标注进一步缩小到了范围标注。
(3)标签传播模块
为了实现快速获取视频语义分割的带标签数据集,在收集数据的过程中,大部分数据是以视频形式存在的。考虑到视频是由一组有序的图像组成,即称为帧,前一帧和后一帧之间的差别微小,相似性极大。在前序筛选图像步骤完成之后,例如数据筛选模块筛选出了第t帧,可以通过光流估计(OpticalFlow,OF)来得到第t帧和第t+1帧之间每个像素移动的距离(δx,δy)。具体描述如下:
p(δx,δy)=OF(t,t+1) (9)
其中p(δx,δy)是该像素点移动的距离。本发明采用现有的FlowNetS作为传播模块进行像素移动距离估计。得到像素移动距离p(δx,δy)之后,通过输入第t帧的语义分割标签,对应上每个像素,就可以得到第t+1帧的语义分割结果。整个过程表述如下:
Gt+1=warp(Gt,p(δx,δy)) (10)
其中warp是像素扭曲函数,即让RGB图像上对应到Gt上的像素点进行x,y方向上的叠加计算。视频语义分割总体的实现流程如图1所示。
本发明的有益效果:
本发明提出了一种基于主动式学习的视频语义分割方法。该方法在图像分割模块上采用轻量级的MobileNetv2,使得分割速度上得到了很大的提升。由于大量的数据缺乏高精度的标签,因此不能用于神经网络进行监督训练。本发明提出了一种基于主动式学习的拟合网络,通过只输入RGB图像,提取图像中丰富的信息和特征,经过拟合网络得到每张图像的损失,从而凭借图像损失的大小来筛选需要标注的数据子集,并且可以利用像素筛选模块进一步筛选。一方面大大减少了制作分割数据集的人力和时间成本;另一方面,筛选出来的数据子集包含更加丰富的类别信息和细节,能加速语义分割网络的收敛。本发明能快速生成弱监督数据集,减少数据制作成本,优化语义分割网络的性能。
附图说明
图1是针对于视频场景的基于主动式学习的语义分割技术实现思路图。
图2是本发明的主动式学习网络架构图。包含了两个模块,分别是语义分割的编码、解码模块和基于主动式学习策略的拟合网络筛选模块。总体框架流程构成了一个循环结构,可以不断优化分割性能和筛选准确度。
具体实施方式
下面结合具体实施方式对本发明作进一步详细说明,但本发明并不局限于以下实施方式。
(1)训练数据集
本发明使用数据集需要满足以下需求:首先,本发明采用的数据集中的RGB图像像素大小统一(1024×2048),本发明中自带图像缩放模块,可以使得像素大小大于512×1024的图像统一缩放到512×1024。如果采用其他小于该标准的数据集,需要自行修改代码中拟合网络的池化层参数。其次,使用的数据集需要拥有少量RGB图像对应的语义分割标签作为整个网络适应新数据集的初始化训练子集。
(2)网络训练
首先,输入数据集中的初始化训练子集,即少量带有标签的数据,语义分割模块和基于主动式学习的筛选模块根据公式(8)来计算损失函数,使用随机梯度下降算法(SGD)训练整个网络并优化损失。批处理大小设置为4,初始化训练数据子集设为20张带标签图像,选择轮数设置为10,每次选择数据大小N为120张,每次选择完毕训练轮数为50轮。所有卷积层的学习率设置为0.0004,学习率策略采用步进策略(35轮之后学习率乘上0.1)。loss损失中的超参数λ设置为0.1,训练过程中每5轮在验证集上验证一次。
(3)网络测试
在分割测试过程中,对每个测试视频序列,将其先输入到基于主动式学习的语义分割方法中,如图2所示关闭训练loss的分支,只使用数据筛选模块进行关键视频帧的筛选。通过筛选之后得到的数据子集(关键帧),可以手动给出标注标签,也可以通过语义分割模块自动分割标签,两种方式选择取决于对精度高低和运行速度的要求。得到关键帧的标签之后与关键帧RGB图像一一对应,通过脚本生成关键帧图像文件路径的文本。将文本输入到光流估计代码中,使其在未标注的其他图像上进行标签自动传播,最终将整个测试视频序列分割完毕。
Claims (1)
1.一种基于主动式学习的视频语义分割方法,包括图像语义分割、基于主动式学习的数据筛选以及标签传播三个模块;图像语义分割模块负责分割图像结果和提取基于主动式学习的数据筛选模块所需的高维特征;基于主动式学习的数据筛选模块在图像层面选取信息量较丰富的数据子集,并在像素层面上选择需要标注的像素块;标签传播模块实现图像到视频任务的迁移,快速补全视频的分割结果从而得到弱监督数据;
(1)图像语义分割模块
图像语义分割模块是由改良的全卷积网络组成的,主体网络结构采用Mobilenet v2的结构来提取RGB图像的特征,得到高维特征信息后经过解码器将特征通道数转为类别数大小来达到像素分类的效果,最后经过上采样得到和RGB图像相同大小的带有分类信息的语义标签图;
(1.1)图像语义分割模块输入:
语义分割网络对输入的RGB图像没有大小限制,在像素层面的筛选策略需要固定图像的大小,因此对输入的训练数据进行缩放或扩张处理;输入的训练数据分为两个部分:一个是RGB图像记为x,另一个是对应的语义标签记为y;采用如下方式进行输入数据的调整:
X=B(x) (1)
Y=N(y) (2)
其中,B(x)表示RGB图像采用双线性插值方式进行处理,N(y)表示语义标签采用最邻近插值法;
(1.2)特征提取编码模块:
RGB图像输入到语义分割网络中,首先经过初始卷积层将通道数由3通道转为32通道,该初始卷积层特征记为Finit;然后经过7个残差卷积得到一个长和宽大小为16和32的高维特征,采用Mobilenetv2的Bottleneck残差块,最终通道数为320,因此高维特征(HLF)维度为16×32×320;其中输入加上经过前3个Bottleneck残差块的特征作为低维特征(LLF);LLF表示为:
LLF=[Finit,BN_1(x),BN_2(x),BN_3(x)] (3)
其中,BN_1(x),BN_2(x),BN_3(x)分别表示经过前三个残差块的特征;[·]是串联连接操作;
(1.3)解码器模块:
采用空洞空间卷积池化金字塔对上述高维特征HLF以不同采样率的空洞卷积并行采样,采样后的特征经过融合与低维特征LLF输入到解码器模块中进行通道数解码,最终得到图像中相应物体类别数的通道大小;整个过程表述如下:
Fdecode=DEC(FASPP,LLF) (4)
其中,FASPP是ASPP输出的联合特征;DEC表示本方法设计的解码器模块,将FASPP经过卷积层使得维度和LLF中的特征维度相同,将两者在通道维度上连接起来并经过反卷积层得到Fdecode;得到Fdecode后将其输入到双线性上采样层中,使得该特征转换为与原RGB图像一样大小的尺寸,让图像上的每一个像素都对应预测的类别结果Fclass;
(2)基于主动式学习的数据筛选模块
(2.1)图像级别数据筛选模块:
RGB图像通过图像语义分割模块后除了得到最终预测结果Fclass,本方法提取编码器模块的中间特征Fdecode作为为图像级别数据筛选模块的输入;将Fdecode输入到设计的拟合评分网络中,首先用一个卷积核为输入特征的后两个维度大小的全局池化层进行降维操作,得到一个与类别数大小相同的向量Vclass;将Vclass输入到三个全连接层,通道数从类别数大小、16、8、1依次下降,最终得到一个数值S;S越接近于0代表着筛选的这张图像在图像语义分割模块上的表现越好;反之,效果越差;
图像语义分割网络在训练过程中计算损失的公式采用交叉熵函数,其函数表示如公式(5):
其中,M表示类别的数量,yc表示变量的类别判断,类别相同则为1,不同则为0,pc表示对于观测样本属于类别c的预测概率;在基于主动式学习的数据筛选模块得到Vclass之后,通过设计如下公式(7)的MSE损失函数,来提升筛选模块的性能:
Lpre=(Lseg-Vclass)2 (6)
其中,Lseg为图像语义分割模块训练时得到的loss,Vclass为筛选模块得到的数值,通过优化器不断迭代优化,缩小两者的差距,从而使得筛选模块的抉择优化的目的;总体的损失函数如公式(7)表示:
Ltotal=Lseg+λLpre (7)
其中,λ是超参数,用于控制Lpre在整个损失中的占比,取值范围为0~1之间;通过训练之后,固定参数在未标注的数据上进行预测,每一张图像得到对应的Lpre,通过对Lpre的排序,选择出前N个数值大的图像作为下一轮需要标注的数据子集;
(2.2)像素级别数据筛选模块:
通过图像级别数据筛选模块后,选择出部分需要标注的数据子集;通过输入筛选出的数据子集,得到每一张图上的信息熵的分布;信息熵计算使用投票熵的方式来计算,在公式(5)的基础上进行改进,表述如下:
其中,D表示进行了多少次投票,D设为20次;之后采用16*16大小的像素窗口在图像上滑动,计算每一个像素窗口中的信息量,最终排序选择出信息量较大的像素窗口;
(3)标签传播模块
基于主动式学习的数据筛选模块筛选出了第t帧,通过光流估计来得到第t帧和第t+1帧之间每个像素移动的距离(δx,δy);描述如下:
p(δx,δy)=OF(t,t+1) (9)
其中,p(δx,δy)是该像素点移动的距离;本方法采用现有的FlowNetS作为传播模块进行像素移动距离估计;得到像素移动距离p(δx,δy)之后,通过输入第t帧的语义分割标签,对应上每个像素,就得到第t+1帧的语义分割结果;整个过程表述如下:
Gt+1=warp(Gt,p(δx,δy)) (10)
其中,warp是像素扭曲函数,即让RGB图像上对应到Gt上的像素点进行x,y方向上的叠加计算。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110012126.0A CN112669325B (zh) | 2021-01-06 | 2021-01-06 | 一种基于主动式学习的视频语义分割方法 |
US17/557,933 US11810359B2 (en) | 2021-01-06 | 2021-12-21 | Video semantic segmentation method based on active learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110012126.0A CN112669325B (zh) | 2021-01-06 | 2021-01-06 | 一种基于主动式学习的视频语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112669325A true CN112669325A (zh) | 2021-04-16 |
CN112669325B CN112669325B (zh) | 2022-10-14 |
Family
ID=75413166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110012126.0A Active CN112669325B (zh) | 2021-01-06 | 2021-01-06 | 一种基于主动式学习的视频语义分割方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11810359B2 (zh) |
CN (1) | CN112669325B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949612A (zh) * | 2021-04-22 | 2021-06-11 | 辽宁工程技术大学 | 一种基于无人机高分辨率遥感影像海岸带地物分类方法 |
CN113838014A (zh) * | 2021-09-15 | 2021-12-24 | 南京工业大学 | 基于双重空间扭曲的航空发动机损伤视频检测方法 |
WO2023212902A1 (en) * | 2022-05-06 | 2023-11-09 | Intel Corporation | Multi-exit visual synthesis network based on dynamic patch computing |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112669325B (zh) * | 2021-01-06 | 2022-10-14 | 大连理工大学 | 一种基于主动式学习的视频语义分割方法 |
CN114463637B (zh) * | 2022-02-07 | 2023-04-07 | 中国科学院空天信息创新研究院 | 一种基于深度学习的冬小麦遥感识别分析方法和系统 |
CN115409840B (zh) * | 2022-11-01 | 2023-10-10 | 北京石油化工学院 | 一种人体背部腧穴智能定位系统和方法 |
CN115601688B (zh) * | 2022-12-15 | 2023-02-21 | 中译文娱科技(青岛)有限公司 | 基于深度学习的视频主体内容检测方法及系统 |
CN116091524B (zh) * | 2023-04-07 | 2023-06-13 | 杭州电子科技大学 | 一种针对复杂背景中目标的检测与分割方法 |
CN116152503B (zh) * | 2023-04-19 | 2023-07-07 | 南京工业大学 | 面向街景的城市天空可视域在线提取方法及系统 |
CN116703834B (zh) * | 2023-05-22 | 2024-01-23 | 浙江大学 | 基于机器视觉的烧结点火强度过高判断、分级方法及装置 |
CN116912488B (zh) * | 2023-06-14 | 2024-02-13 | 中国科学院自动化研究所 | 基于多目相机的三维全景分割方法及装置 |
CN116612537B (zh) * | 2023-07-21 | 2023-10-03 | 武汉理工大学 | 一种基于背景弱化及一致性计算的半监督动作检测方法 |
CN117315324B (zh) * | 2023-08-30 | 2024-03-22 | 南京工业大学 | 一种用于火星崎岖地形的轻量级分类检测方法及系统 |
CN116977796B (zh) * | 2023-09-25 | 2024-02-23 | 中国科学技术大学 | 零样本图像识别方法、系统、设备及存储介质 |
CN117036869B (zh) * | 2023-10-08 | 2024-01-09 | 之江实验室 | 一种基于多样性和随机策略的模型训练方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711413A (zh) * | 2018-12-30 | 2019-05-03 | 陕西师范大学 | 基于深度学习的图像语义分割方法 |
CN112070779A (zh) * | 2020-08-04 | 2020-12-11 | 武汉大学 | 一种基于卷积神经网络弱监督学习的遥感影像道路分割方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3482346A1 (en) * | 2016-07-08 | 2019-05-15 | Avent, Inc. | System and method for automatic detection, localization, and semantic segmentation of anatomical objects |
US10453200B2 (en) * | 2016-11-02 | 2019-10-22 | General Electric Company | Automated segmentation using deep learned priors |
US11676296B2 (en) * | 2017-08-11 | 2023-06-13 | Sri International | Augmenting reality using semantic segmentation |
CN107730503B (zh) * | 2017-09-12 | 2020-05-26 | 北京航空航天大学 | 三维特征嵌入的图像对象部件级语义分割方法与装置 |
EP3608844A1 (en) * | 2018-08-10 | 2020-02-12 | Naver Corporation | Methods for training a crnn and for semantic segmentation of an inputted video using said crnn |
US10467500B1 (en) * | 2018-12-31 | 2019-11-05 | Didi Research America, Llc | Method and system for semantic segmentation involving multi-task convolutional neural network |
US10430946B1 (en) * | 2019-03-14 | 2019-10-01 | Inception Institute of Artificial Intelligence, Ltd. | Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques |
US11613201B2 (en) * | 2019-08-12 | 2023-03-28 | Nvidia Corporation | Automatic high beam control for autonomous machine applications |
US11676278B2 (en) * | 2019-09-26 | 2023-06-13 | Intel Corporation | Deep learning for dense semantic segmentation in video with automated interactivity and improved temporal coherence |
US11562489B2 (en) * | 2019-12-02 | 2023-01-24 | Purdue Research Foundation | Pixel-wise hand segmentation of multi-modal hand activity video dataset |
US11256960B2 (en) * | 2020-04-15 | 2022-02-22 | Adobe Inc. | Panoptic segmentation |
CN112669325B (zh) * | 2021-01-06 | 2022-10-14 | 大连理工大学 | 一种基于主动式学习的视频语义分割方法 |
-
2021
- 2021-01-06 CN CN202110012126.0A patent/CN112669325B/zh active Active
- 2021-12-21 US US17/557,933 patent/US11810359B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711413A (zh) * | 2018-12-30 | 2019-05-03 | 陕西师范大学 | 基于深度学习的图像语义分割方法 |
CN112070779A (zh) * | 2020-08-04 | 2020-12-11 | 武汉大学 | 一种基于卷积神经网络弱监督学习的遥感影像道路分割方法 |
Non-Patent Citations (1)
Title |
---|
青晨等: "深度卷积神经网络图像语义分割研究进展", 《中国图象图形学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949612A (zh) * | 2021-04-22 | 2021-06-11 | 辽宁工程技术大学 | 一种基于无人机高分辨率遥感影像海岸带地物分类方法 |
CN113838014A (zh) * | 2021-09-15 | 2021-12-24 | 南京工业大学 | 基于双重空间扭曲的航空发动机损伤视频检测方法 |
CN113838014B (zh) * | 2021-09-15 | 2023-06-23 | 南京工业大学 | 基于双重空间扭曲的航空发动机损伤视频检测方法 |
WO2023212902A1 (en) * | 2022-05-06 | 2023-11-09 | Intel Corporation | Multi-exit visual synthesis network based on dynamic patch computing |
Also Published As
Publication number | Publication date |
---|---|
US11810359B2 (en) | 2023-11-07 |
US20220215662A1 (en) | 2022-07-07 |
CN112669325B (zh) | 2022-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112669325B (zh) | 一种基于主动式学习的视频语义分割方法 | |
CN109064507B (zh) | 一种用于视频预测的多运动流深度卷积网络模型方法 | |
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
CN109685072B (zh) | 一种基于生成对抗网络的复合降质图像高质量重建方法 | |
CN111709304B (zh) | 一种基于时空注意力增强特征融合网络的行为识别方法 | |
CN111144448A (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
CN114463218B (zh) | 一种基于事件数据驱动的视频去模糊方法 | |
CN112989116B (zh) | 一种视频推荐方法、系统及装置 | |
CN113807176B (zh) | 一种基于多知识融合的小样本视频行为识别方法 | |
CN113870124B (zh) | 基于弱监督的双网络互激励学习阴影去除方法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN112926485A (zh) | 一种少样本水闸图像分类方法 | |
CN114708649A (zh) | 基于集成学习方法融合时间注意力图卷积的行为识别方法 | |
CN114463340B (zh) | 一种边缘信息引导的敏捷型遥感图像语义分割方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN115797835A (zh) | 一种基于异构Transformer的无监督视频目标分割算法 | |
CN111860278A (zh) | 一种基于深度学习的人体行为识别算法 | |
CN113297936A (zh) | 一种基于局部图卷积网络的排球群体行为识别方法 | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN115995002B (zh) | 一种网络构建方法及城市场景实时语义分割方法 | |
CN116912711A (zh) | 一种基于时空注意力门的卫星云图预测方法 | |
CN116912727A (zh) | 一种基于时空特征增强网络的视频人体行为识别方法 | |
CN116189292A (zh) | 一种基于双流网络的视频动作识别方法 | |
CN114419729A (zh) | 一种基于轻量双流网络的行为识别方法 | |
CN113537032A (zh) | 一种基于图片分块丢弃的分集多支路行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |