CN113436199B - 半监督视频目标分割方法及装置 - Google Patents

半监督视频目标分割方法及装置 Download PDF

Info

Publication number
CN113436199B
CN113436199B CN202110838594.3A CN202110838594A CN113436199B CN 113436199 B CN113436199 B CN 113436199B CN 202110838594 A CN202110838594 A CN 202110838594A CN 113436199 B CN113436199 B CN 113436199B
Authority
CN
China
Prior art keywords
sample
image
frame image
features
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110838594.3A
Other languages
English (en)
Other versions
CN113436199A (zh
Inventor
靳国庆
杨松
郭俊波
石里男
林凡超
谢洪涛
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Research Institute
Konami Sports Club Co Ltd
Original Assignee
Beijing Zhongke Research Institute
People Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Research Institute, People Co Ltd filed Critical Beijing Zhongke Research Institute
Priority to CN202110838594.3A priority Critical patent/CN113436199B/zh
Publication of CN113436199A publication Critical patent/CN113436199A/zh
Application granted granted Critical
Publication of CN113436199B publication Critical patent/CN113436199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种半监督视频目标分割方法及装置,该方法包括:获取待分割视频的模板帧图像、模板帧图像分割标签及待查询帧图像;将模板帧图像及模板帧图像分割标签输入至第一编码器提取特征,得到复合特征;将待查询帧图像输入至第二编码器提取特征,得到图像特征;将复合特征及图像特征输入至预先训练的时序推断模块进行分割结果预测,得到待查询帧图像对应的预测分割结果。本发明提供的方案,基于预测分割结果的循环一致性进行半监督训练,在仅需要一段视频中第一帧图像及第一帧图像分割标签的前提下,能高效地进行训练,基于此所进行的视频目标分割仍然具有较高的预测精度,从而无需人工一一进行标注,节省了时间成本,同时提高了分割效率。

Description

半监督视频目标分割方法及装置
技术领域
本发明涉及计算机技术领域,具体涉及一种半监督视频目标分割方法及装置。
背景技术
视频目标自动分割是视频处理技术中的重要任务,已经在影像留色,视频会议和自动驾驶等领域取得了广泛的应用。已有的视频目标分割方法使用完整的视频目标分割标签来进行训练,需要耗费大量的人力和时间对视频中的每一帧进行像素级标注。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的半监督视频目标分割方法及装置。
根据本发明的一个方面,提供了一种半监督视频目标分割方法,包括:
获取待分割视频的模板帧图像、模板帧图像分割标签及待查询帧图像;
将模板帧图像及模板帧图像分割标签输入至第一编码器提取特征,得到复合特征;
将待查询帧图像输入至第二编码器提取特征,得到图像特征;
将复合特征及图像特征输入至预先训练的时序推断模块进行分割结果预测,得到待查询帧图像对应的预测分割结果。
根据本发明的另一方面,提供了一种半监督视频目标分割装置,包括:
获取模块,适于获取待分割视频的模板帧图像、模板帧图像分割标签及待查询帧图像;
特征提取模块,适于将模板帧图像及模板帧图像分割标签输入至第一编码器提取特征,得到复合特征;及,将待查询帧图像输入至第二编码器提取特征,得到图像特征;
预测模块,适于将复合特征及图像特征输入至预先训练的时序推断模块进行分割结果预测,得到待查询帧图像对应的预测分割结果。
根据本发明的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行上述半监督视频目标分割方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述半监督视频目标分割方法对应的操作。
本发明提供的方案,基于预测分割结果的循环一致性进行半监督训练,在仅需要一段视频中第一帧图像及第一帧图像分割标签的前提下,能高效地进行训练,基于此所进行的视频目标分割仍然具有较高的预测精度,从而无需人工一一进行标注,节省了时间成本,同时提高了分割效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1A示出了根据本发明一个实施例的半监督视频目标分割方法的流程示意图;
图1B为时序推断模块的结构示意图;
图1C为本发明的一个实施例提供的半监督视频目标分割方法中的视频目标分割的框架结构示意图;
图2示出了根据本发明一个实施例的半监督视频目标分割装置的结构示意图;
图3示出了根据本发明一个实施例的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1A示出了根据本发明一个实施例的半监督视频目标分割方法的流程示意图。如图1A所示,该方法包括以下步骤:
步骤S101,获取待分割视频的模板帧图像、模板帧图像分割标签及待查询帧图像。
待分割视频是需要进行目标分割的视频,其可以是线下导入的视频,也可以是线上实时录制的视频,这里不做具体限定。模板帧图像分割标签是模板帧图像的目标分割标注结果,是人工标注的结果;待查询帧图像是待分割视频中需要进行目标分割结果预测的帧图像。
其中,模板帧图像及模板帧图像分割标签为待分割视频的第一帧图像及第一帧图像分割标签;待查询帧图像为第一帧图像之后的第t帧图像,其中,t≥2。当然,模板帧图像还可以是待分割视频中的其他帧图像,这里不做具体限定。本实施例可以对除模板帧图像之外的每一帧图像进行视频目标分割。
在获取到待分割视频后,从待分割视频提取出模板帧图像、模板帧图像分割标签及待查询帧图像。
步骤S102,将模板帧图像及模板帧图像分割标签输入至第一编码器提取特征,得到复合特征。
将模板帧图像和模板帧图像分割标签输入第一编码器提取特征,得到长、宽为原图1/16的C个通道的复合特征Fc
步骤S103,将待查询帧图像输入至第二编码器提取特征,得到图像特征。
将待查询帧图像输入第二编码器提取特征,得到长、宽为原图1/16的C个通道的图像特征Fi
步骤S104,将复合特征及图像特征输入至预先训练的时序推断模块进行分割结果预测,得到待查询帧图像对应的预测分割结果。
具体地,将复合特征Fc和图像特征Fi输入至预先训练好的时序推断模块,预测待查询帧的预测分割结果。
在本实施例中,可以通过如下方法来得到待查询帧图像对应的预测分割结果:
将复合特征与图像特征进行相乘运算,得到特征矩阵,其中,可以通过如下方法来得到特征矩阵:对复合特征进行1*1卷积处理,得到HW×C的复合特征图;将图像特征展开生成C×HW的图像特征图;将HW×C的复合特征图与C×HW的图像特征图进行相乘运算,得到HW×HW的特征矩阵,其中,C表示图像通道数量,H表示图像的长、W表示图像的宽;
对特征矩阵在列方向进行第一归一化处理,将第一归一化处理的结果与复合特征进行相乘运算,得到聚合特征;
对聚合特征进行1*1卷积处理,对1*1卷积处理的结果进行第二归一化处理,得到概率图;
将概率图与聚合特征进行相乘运算,将相乘运算结果与图像特征按通道方向进行连接后输入至预测模块进行分割结果预测,得到待查询帧图像对应的预测分割结果,其中,概率图的各位置取值范围为[0,1],即,在0到1之间取值,例如,可以是0或0.5或1等任意数值,这里仅是举例说明,不具有任何限定作用。
其中,预测模块包括一个3*3卷积模块,一个批归一化处理模块,一个线性整流函数激活函数处理模块、一个1*1卷积模块和一个第二归一化处理模块。因此,预测模块对连接后的特征进行以下处理:对连接后的特征进行一次3*3卷积处理、一次批归一化处理、一次线性整流函数激活函数的处理、一次1*1卷积处理及第二归一化处理,得到待查询帧图像对应的预测分割结果。
图1B为时序推断模块的结构示意图,如图1B所示,将复合特征Fc经过一个1×1卷积的处理后展开成HW×C的特征图(其中H和W分别为原始输入特征的空间高度和宽度,C为原始输入特征的通道层数),与展开成C×HW的图像特征图进行相乘运算,这里是矩阵乘法运算,得到HW×HW的特征矩阵。对该特征矩阵在列方向进行softmax归一化处理后,将归一化处理结果与复合特征Fc相乘,得到HW×256的聚合特征Fa。对该聚合特征Fa用一个1×1卷积处理后通过sigmoid函数进行归一化,得到一个所有位置取值为0到1之间任意数值的概率图,即各位置取值范围为[0,1]。将该概率图与聚合特征Fa进行相乘运算,这里是空间对应位置相乘,概率图与聚合特征Fa相乘运算后的结果与图像特征Fi按通道方向连接后输入一个预测模块预测查询帧的分割结果。其中,预测模块包括一个3*3卷积模块,一个批归一化处理模块,一个线性整流函数激活函数处理模块(relu激活函数处理模块)、一个1*1卷积模块和一个第二归一化处理模块。因此,预测模块对连接后的特征先后进行以下处理:对连接后的特征进行一次3*3卷积处理、一次批归一化处理、一次线性整流函数激活函数的处理、一次1*1卷积处理及sigmoid函数归一化处理,得到待查询帧图像对应的预测分割结果。预测模块中的1*1卷积处理将特征降维到单个通道,并使用sigmoid函数进行归一化处理,实现将取值归一化到0到1之间任意数值,得到待查询帧图像预测分割结果MP
在本发明一种可选实施方式中,时序推断模块的训练方法如下:
获取多对样本静态图像标签数据对,其中,每对样本静态图像标签数据对包含:样本静态图像及对应的样本静态图像分割标签;
针对任一样本静态图像标签数据对,对该样本静态图像标签数据对进行两次空间变换处理,得到第一样本静态图像标签数据对和第二样本静态图像标签数据对;
基于第一损失函数,利用第一样本静态图像标签数据对和第二样本静态图像标签数据对时序推断模块进行第一半监督训练;其中,第一样本静态图像标签数据对和第二样本静态图像标签数据对是两组包含相同目标但具有不同外观的数据对;
获取样本视频图像中的样本模板帧图像及对应的样本模板帧图像分割标签及样本查询帧图像,其中,样本查询帧图像为样本视频图像中除样本模板帧图像外的其他帧图像;
基于第二损失函数,利用样本模板帧图像及对应的样本模板帧图像分割标签及样本查询帧图像对第一半监督训练后的时序推断模块进行第二半监督训练,得到训练好的时序推断模块。
可选地,基于第一损失函数,利用第一样本静态图像标签数据对和第二样本静态图像标签数据对时序推断模块进行第一半监督训练进一步可以通过如下方法实现:
将第一样本静态图像标签数据对中的样本静态图像及对应的样本静态图像分割标签确定为样本模板帧图像及样本模板帧图像分割标签;将第二样本静态图像标签数据对中的样本静态图像确定为样本查询帧图像;
将样本模板帧图像及样本模板帧图像分割标签输入至第一编码器提取特征,得到第一样本复合特征;
将样本查询帧图像输入至第二编码器提取特征,得到第一样本图像特征;
利用第一样本复合特征及第一样本图像特征对时序推断模块进行第一半监督训练,得到样本查询帧图像对应的第一预测分割结果;
将样本查询帧图像及第一预测分割结果输入至第一编码器提取特征,得到第二样本复合特征;
将样本模板帧图像输入至第二编码器提取特征,得到第二样本图像特征;
利用第二样本复合特征及第二样本图像特征对时序推断模块进行第一半监督训练,得到样本模板帧图像对应的第二预测分割结果;
基于第一损失函数,计算第二预测分割结果与样本模板帧图像分割标签之间的损失,若损失小于第一预设阈值,则结束第一半监督训练。
可选地,基于第二损失函数,利用样本模板帧图像及对应的样本模板帧图像分割标签及样本查询帧图像对第一半监督训练后的时序推断模块进行第二半监督训练,得到训练好的时序推断模块进一步可以通过如下方法实现:
将样本模板帧图像及样本模板帧图像分割标签输入至第一编码器提取特征,得到第三样本复合特征;
将样本查询帧图像输入至第二编码器提取特征,得到第三样本图像特征;
利用第三样本复合特征及第三样本图像特征对对第一半监督训练后的时序推断模块进行第二半监督训练,得到样本查询帧图像对应的第三预测分割结果;
将样本查询帧图像及第三预测分割结果输入至第一编码器提取特征,得到第四样本复合特征;
将样本模板帧图像输入至第二编码器提取特征,得到第四样本图像特征;
利用第四样本复合特征及第四样本图像特征对时序推断模块进行第二半监督训练,得到样本模板帧图像对应的第四预测分割结果;
基于第二损失函数,计算第四预测分割结果与样本模板帧图像分割标签之间的损失,若损失小于第二预设阈值,则结束第二半监督训练,得到训练好的时序推断模块。
具体地,训练时对于训练集,同时使用样本静态图像数据集和真实的样本视频数据集。对于样本静态图像数据集,采用公开数据集DUTS、HKU-IS、MSRA和SOC,其中,样本静态图像数据集包含了多对样本静态图像标签数据对,其中,每对样本静态图像标签数据对包含:样本静态图像及对应的样本静态图像分割标签,也就是说,每个样本静态图像都有对应的目标分割标签。为了将样本静态图像数据集用于时序推断模块的训练,需要对其进行数据增广以模拟真实视频数据。对于每一成对的样本静态图像标签数据,分别将样本静态图像和样本静态图像分割标签进行两次空间变换。该空间变换可包括水平翻转、旋转、尺度缩放、随机裁剪和薄板样条插值。每次空间变换时,首先根据所用的变换种类确定一组变换参数(如水平翻转的概率、旋转角度、缩放的比率、裁剪位置等),根据变换参数确定具体的空间变换操作,然后同时作用于样本静态图像和样本静态图像分割标签。最终得到两组包含相同目标但具有不同外观的第一样本静态图像标签数据对和第二样本静态图像标签数据对,来模拟视频数据,其中第一样本静态图像标签数据对用来模拟视频中的模板帧,第二样本静态图像标签数据对用来模拟视频中的查询帧。对于真实的样本视频数据集,使用YouTube-VOS和DAVIS 2017的训练集部分,其中每一段视频都仅有第一帧图像有目标分割标签。对于视频数据集中的每一帧图像同样进行空间变换。变换完成后,将第一帧图像及其分割标签作为模板帧图像及模板帧图像分割标签。将后续每一帧图像作为查询帧图像,构造若干组由一个模板帧图像、模板帧图像分割标签和一个查询帧图像组成的训练数据。
半监督训练过程如下,如图1C所示:
a)将模板帧图像和模板帧图像分割标签输入编码器1提取特征,得到长、宽为原图1/16的C个通道的复合特征
Figure BDA0003178057890000081
b)将查询帧图像输入编码器2提取特征,得到长、宽为原图1/16的C个通道的图像特征
Figure BDA0003178057890000082
c)将复合特征
Figure BDA0003178057890000083
和图像特征
Figure BDA0003178057890000084
输入时序推断模块,预测查询帧的预测分割结果。该时序推断模块如图1B所示,将复合特征经过一个1×1卷积的处理后展开成HW×C的特征图(其中H和W分别为原始输入特征的空间高度和宽度,C为原始输入特征的通道层数),与展开成C×HW的图像特征
Figure BDA0003178057890000085
相乘,得到HW×HW的特征矩阵。对该特征矩阵在列方向进行softmax归一化处理后,与原复合特征相乘,得到HW×256的聚合特征
Figure BDA0003178057890000086
对该聚合特征用一个1×1卷积处理后通过sigmoid函数进行归一化处理,得到一个所有位置取值都在0到1之间的概率图。将该概率图乘回聚合特征,并与图像特征
Figure BDA0003178057890000087
连接后输入一个预测模块预测查询帧的分割结果。该预测模块由一个3×3卷积,一次批归一化处理,一次relu激活函数处理和一个1×1卷积组成。其中最后的1×1卷积将特征降维到单个通道,并使用sigmoid函数将取值归一化到0到1之间,得到查询帧图像的预测分割结果
Figure BDA0003178057890000088
d)将查询帧图像和查询帧图像的预测分割结果输入编码器1提取特征,得到长、宽为原图1/16的C个通道的复合特征
Figure BDA0003178057890000089
e)将模板帧图像输入编码器2提取特征,得到长、宽为原图1/16的C个通道的图像特征
Figure BDA0003178057890000091
f)将复合特征
Figure BDA0003178057890000092
和图像特征
Figure BDA0003178057890000093
输入时序推断模块,预测模板帧图像的预测分割结果
Figure BDA0003178057890000094
该时序推断模块与步骤c)中相同。将模板帧图像的预测分割结果用模板帧图像分割标签
Figure BDA0003178057890000095
进行监督,这样就构成了基于预测结果的循环一致性检验,从而无需获取查询帧标签即可对模型进行训练。
需要说明的是,在进行训练时,先使用样本静态图像数据集进行半监督训练,训练完成后继续使用样本视频数据集进行训练。其中,使用样本静态图像数据集进行训练时,由于查询帧图像由样本静态图像变换得到,其分割标签已知,因此可以额外将查询帧图像的预测分割结果
Figure BDA0003178057890000096
用查询帧分割标签
Figure BDA0003178057890000097
进行监督。
其中,使用样本静态图像数据集进行训练时,第一损失函数为:
Figure BDA0003178057890000098
其中,L1具体可以展开表示为:
Figure BDA0003178057890000099
使用样本视频数据集训练时,第二损失函数为:
Figure BDA00031780578900000910
其中,L1、L2为二值交叉熵损失函数;
Figure BDA00031780578900000911
Figure BDA00031780578900000912
分别为查询帧图像和模板帧图像的预测分割结果;
Figure BDA00031780578900000913
Figure BDA00031780578900000914
分别为查询帧图像和模板帧图像对应的分割标签。求出损失函数值(误差)后,依据链式法则求出其对应于网络中每个神经元的梯度,通过误差反向传播更新参数,学习率由Adam算法自动调节。网络的参数学习过程一直持续到损失函数值收敛为止。
该方法是基于半监督训练的快速端到端框架,训练过程中无须给出整段视频的完整分割标注,只需要提供第一帧的分割标注即可进行模型训练。所提出的半监督训练方法基于预测结果的循环一致性假设,将仅有的单帧有标签数据进行前向和反向的两次预测,从而可以利用单帧有标签数据本身进行整段视频数据的监督训练。在单目标分割公开数据集DAVIS2016上测试,视频目标分割结果的性能达到:Jaccard平均区域相似度为76.8%,F-measure平均边界准确度为76.6%,在一块RTX 1080Ti显卡上处理速度达到16帧/秒。
本发明可以应用于视频监控,视频会议,交互式视频处理等各种场景。在实施上,可以以软件的方式安装于电脑、手机等各种具备并行计算能力的智能终端,提供对指定目标的实时跟踪分割。
本发明提供的方案,基于预测分割结果的循环一致性进行半监督训练,在仅需要一段视频中第一帧图像及第一帧图像分割标签的前提下,能高效地进行训练,基于此所进行的视频目标分割仍然具有较高的预测精度,从而无需人工一一进行标注,节省了时间成本,同时提高了分割效率。
图2示出了根据本发明一个实施例的半监督视频目标分割装置的结构示意图。如图2所示,该装置包括:获取模块201、特征提取模块202、预测模块203。
获取模块201,适于获取待分割视频的模板帧图像、模板帧图像分割标签及待查询帧图像;
特征提取模块202,适于将模板帧图像及模板帧图像分割标签输入至第一编码器提取特征,得到复合特征;及,将待查询帧图像输入至第二编码器提取特征,得到图像特征;
预测模块203,适于将复合特征及图像特征输入至预先训练的时序推断模块进行分割结果预测,得到待查询帧图像对应的预测分割结果。
可选地,预测模块进一步适于:将复合特征与图像特征进行相乘运算,得到特征矩阵;
对特征矩阵在列方向进行第一归一化处理,将第一归一化处理的结果与复合特征进行相乘运算,得到聚合特征;
对聚合特征进行1*1卷积处理,对1*1卷积处理的结果进行第二归一化处理,得到概率图;
将概率图与聚合特征进行相乘运算,将相乘运算结果与图像特征按通道方向进行连接后输入至预测模块进行分割结果预测,得到待查询帧图像对应的预测分割结果,其中,概率图的各位置取值范围为[0,1]。
可选地,预测模块进一步适于:对复合特征进行1*1卷积处理,得到HW×C的复合特征图;
将图像特征展开生成C×HW的图像特征图;
将HW×C的复合特征图与C×HW的图像特征图进行相乘运算,得到HW×HW的特征矩阵,其中,C表示图像通道数量,H表示图像的长、W表示图像的宽。
可选地,预测模块对连接后的特征进行以下处理:对连接后的特征进行一次3*3卷积处理、一次批归一化处理、一次线性整流函数激活函数的处理、一次1*1卷积处理及第二归一化处理,得到待查询帧图像对应的预测分割结果。
可选地,模板帧图像及模板帧图像分割标签为待分割视频的第一帧图像及第一帧图像分割标签;
待查询帧图像为第一帧图像之后的第t帧图像,其中,t≥2。
可选地,装置还包括:训练模块,适于获取多对样本静态图像标签数据对,其中,每对样本静态图像标签数据对包含:样本静态图像及对应的样本静态图像分割标签;
针对任一样本静态图像标签数据对,对该样本静态图像标签数据对进行两次空间变换处理,得到第一样本静态图像标签数据对和第二样本静态图像标签数据对;
基于第一损失函数,利用第一样本静态图像标签数据对和第二样本静态图像标签数据对时序推断模块进行第一半监督训练;其中,第一样本静态图像标签数据对和第二样本静态图像标签数据对是两组包含相同目标但具有不同外观的数据对;
获取样本视频图像中的样本模板帧图像及对应的样本模板帧图像分割标签及样本查询帧图像,其中,样本查询帧图像为样本视频图像中除样本模板帧图像外的其他帧图像;
基于第二损失函数,利用样本模板帧图像及对应的样本模板帧图像分割标签及样本查询帧图像对第一半监督训练后的时序推断模块进行第二半监督训练,得到训练好的时序推断模块。
可选地,训练模块进一步适于:将第一样本静态图像标签数据对中的样本静态图像及对应的样本静态图像分割标签确定为样本模板帧图像及样本模板帧图像分割标签;将第二样本静态图像标签数据对中的样本静态图像确定为样本查询帧图像;
将样本模板帧图像及样本模板帧图像分割标签输入至第一编码器提取特征,得到第一样本复合特征;
将样本查询帧图像输入至第二编码器提取特征,得到第一样本图像特征;
利用第一样本复合特征及第一样本图像特征对时序推断模块进行第一半监督训练,得到样本查询帧图像对应的第一预测分割结果;
将样本查询帧图像及第一预测分割结果输入至第一编码器提取特征,得到第二样本复合特征;
将样本模板帧图像输入至第二编码器提取特征,得到第二样本图像特征;
利用第二样本复合特征及第二样本图像特征对时序推断模块进行第一半监督训练,得到样本模板帧图像对应的第二预测分割结果;
基于第一损失函数,计算第二预测分割结果与样本模板帧图像分割标签之间的损失,若损失小于第一预设阈值,则结束第一半监督训练。
可选地,训练模块进一步适于:将样本模板帧图像及样本模板帧图像分割标签输入至第一编码器提取特征,得到第三样本复合特征;
将样本查询帧图像输入至第二编码器提取特征,得到第三样本图像特征;
利用第三样本复合特征及第三样本图像特征对对第一半监督训练后的时序推断模块进行第二半监督训练,得到样本查询帧图像对应的第三预测分割结果;
将样本查询帧图像及第三预测分割结果输入至第一编码器提取特征,得到第四样本复合特征;
将样本模板帧图像输入至第二编码器提取特征,得到第四样本图像特征;
利用第四样本复合特征及第四样本图像特征对时序推断模块进行第二半监督训练,得到样本模板帧图像对应的第四预测分割结果;
基于第二损失函数,计算第四预测分割结果与样本模板帧图像分割标签之间的损失,若损失小于第二预设阈值,则结束第二半监督训练,得到训练好的时序推断模块。
本发明提供的方案,基于预测分割结果的循环一致性进行半监督训练,在仅需要一段视频中第一帧图像及第一帧图像分割标签的前提下,能高效地进行训练,基于此所进行的视频目标分割仍然具有较高的预测精度,从而无需人工一一进行标注,节省了时间成本,同时提高了分割效率。
本申请实施例还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的半监督视频目标分割方法。
图3示出了本发明实施例提供的计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图3所示,该计算设备可以包括:处理器(processor)、通信接口(Communications Interface)、存储器(memory)、以及通信总线。
其中:处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口,用于与其它设备比如客户端或其它服务器等的网元通信。处理器,用于执行程序,具体可以执行上述用于计算设备的半监督视频目标分割方法实施例中的相关步骤。
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
处理器可能是中央处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器,用于存放程序。存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序具体可以用于使得处理器执行上述任意方法实施例中的半监督视频目标分割方法。程序中各步骤的具体实现可以参见上述半监督视频目标分割实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (10)

1.一种半监督视频目标分割方法,包括:
获取待分割视频的模板帧图像、模板帧图像分割标签及待查询帧图像;
将所述模板帧图像及所述模板帧图像分割标签输入至第一编码器提取特征,得到复合特征;
将所述待查询帧图像输入至第二编码器提取特征,得到图像特征;
将所述复合特征及所述图像特征输入至预先训练的时序推断模块进行分割结果预测,得到所述待查询帧图像对应的预测分割结果;
其中,所述将所述复合特征及所述图像特征输入至预先训练的时序推断模块进行分割结果预测,得到所述待查询帧图像对应的预测分割结果进一步包括:
将所述复合特征与所述图像特征进行相乘运算,得到特征矩阵;
对所述特征矩阵在列方向进行第一归一化处理,将第一归一化处理的结果与所述复合特征进行相乘运算,得到聚合特征;
对所述聚合特征进行1*1卷积处理,对1*1卷积处理的结果进行第二归一化处理,得到概率图;
将所述概率图与所述聚合特征进行相乘运算,将相乘运算结果与图像特征按通道方向进行连接后输入至预测模块进行分割结果预测,得到所述待查询帧图像对应的预测分割结果,其中,概率图的各位置取值范围为[0,1]。
2.根据权利要求1所述的方法,其中,将所述复合特征与图像特征进行相乘运算,得到特征矩阵进一步包括:
对所述复合特征进行1*1卷积处理,得到HW×C的复合特征图;
将图像特征展开生成C×HW的图像特征图;
将HW×C的复合特征图与C×HW的图像特征图进行相乘运算,得到HW×HW的特征矩阵,其中,C表示图像通道数量,H表示图像的长、W表示图像的宽。
3.根据权利要求1或2所述的方法,其中,预测模块对连接后的特征进行以下处理:对连接后的特征进行一次3*3卷积处理、一次批归一化处理、一次线性整流函数激活函数的处理、一次1*1卷积处理及第二归一化处理,得到所述待查询帧图像对应的预测分割结果。
4.根据权利要求1或2所述的方法,其中,所述模板帧图像及所述模板帧图像分割标签为待分割视频的第一帧图像及第一帧图像分割标签;
所述待查询帧图像为第一帧图像之后的第t帧图像,其中,t≥2。
5.根据权利要求1或2所述的方法,其中,时序推断模块的训练方法如下:
获取多对样本静态图像标签数据对,其中,每对样本静态图像标签数据对包含:样本静态图像及对应的样本静态图像分割标签;
针对任一样本静态图像标签数据对,对该样本静态图像标签数据对进行两次空间变换处理,得到第一样本静态图像标签数据对和第二样本静态图像标签数据对;
基于第一损失函数,利用第一样本静态图像标签数据对和第二样本静态图像标签数据对时序推断模块进行第一半监督训练;其中,第一样本静态图像标签数据对和第二样本静态图像标签数据对是两组包含相同目标但具有不同外观的数据对;
获取样本视频图像中的样本模板帧图像及对应的样本模板帧图像分割标签及样本查询帧图像,其中,样本查询帧图像为样本视频图像中除样本模板帧图像外的其他帧图像;
基于第二损失函数,利用样本模板帧图像及对应的样本模板帧图像分割标签及样本查询帧图像对第一半监督训练后的时序推断模块进行第二半监督训练,得到训练好的时序推断模块。
6.根据权利要求5所述的方法,其中,所述基于第一损失函数,利用第一样本静态图像标签数据对和第二样本静态图像标签数据对时序推断模块进行第一半监督训练进一步包括:
将第一样本静态图像标签数据对中的样本静态图像及对应的样本静态图像分割标签确定为样本模板帧图像及样本模板帧图像分割标签;将第二样本静态图像标签数据对中的样本静态图像确定为样本查询帧图像;
将所述样本模板帧图像及所述样本模板帧图像分割标签输入至第一编码器提取特征,得到第一样本复合特征;
将所述样本查询帧图像输入至第二编码器提取特征,得到第一样本图像特征;
利用所述第一样本复合特征及所述第一样本图像特征对时序推断模块进行第一半监督训练,得到所述样本查询帧图像对应的第一预测分割结果;
将样本查询帧图像及第一预测分割结果输入至第一编码器提取特征,得到第二样本复合特征;
将所述样本模板帧图像输入至第二编码器提取特征,得到第二样本图像特征;
利用所述第二样本复合特征及所述第二样本图像特征对时序推断模块进行第一半监督训练,得到所述样本模板帧图像对应的第二预测分割结果;
基于第一损失函数,计算第二预测分割结果与样本模板帧图像分割标签之间的损失,若损失小于第一预设阈值,则结束第一半监督训练。
7.根据权利要求5所述的方法,其中,所述基于第二损失函数,利用样本模板帧图像及对应的样本模板帧图像分割标签及样本查询帧图像对第一半监督训练后的时序推断模块进行第二半监督训练,得到训练好的时序推断模块进一步包括:
将所述样本模板帧图像及所述样本模板帧图像分割标签输入至第一编码器提取特征,得到第三样本复合特征;
将所述样本查询帧图像输入至第二编码器提取特征,得到第三样本图像特征;
利用所述第三样本复合特征及所述第三样本图像特征对第一半监督训练后的时序推断模块进行第二半监督训练,得到所述样本查询帧图像对应的第三预测分割结果;
将样本查询帧图像及第三预测分割结果输入至第一编码器提取特征,得到第四样本复合特征;
将所述样本模板帧图像输入至第二编码器提取特征,得到第四样本图像特征;
利用所述第四样本复合特征及所述第四样本图像特征对时序推断模块进行第二半监督训练,得到所述样本模板帧图像对应的第四预测分割结果;
基于第二损失函数,计算第四预测分割结果与样本模板帧图像分割标签之间的损失,若损失小于第二预设阈值,则结束第二半监督训练,得到训练好的时序推断模块。
8.一种半监督视频目标分割装置,包括:
获取模块,适于获取待分割视频的模板帧图像、模板帧图像分割标签及待查询帧图像;
特征提取模块,适于将所述模板帧图像及所述模板帧图像分割标签输入至第一编码器提取特征,得到复合特征;及,将所述待查询帧图像输入至第二编码器提取特征,得到图像特征;
预测模块,适于将所述复合特征及所述图像特征输入至预先训练的时序推断模块进行分割结果预测,得到所述待查询帧图像对应的预测分割结果;
其中,预测模块进一步适于:将复合特征与图像特征进行相乘运算,得到特征矩阵;
对特征矩阵在列方向进行第一归一化处理,将第一归一化处理的结果与复合特征进行相乘运算,得到聚合特征;
对聚合特征进行1*1卷积处理,对1*1卷积处理的结果进行第二归一化处理,得到概率图;
将概率图与聚合特征进行相乘运算,将相乘运算结果与图像特征按通道方向进行连接后输入至预测模块进行分割结果预测,得到待查询帧图像对应的预测分割结果,其中,概率图的各位置取值范围为[0,1]。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的半监督视频目标分割方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的半监督视频目标分割方法对应的操作。
CN202110838594.3A 2021-07-23 2021-07-23 半监督视频目标分割方法及装置 Active CN113436199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110838594.3A CN113436199B (zh) 2021-07-23 2021-07-23 半监督视频目标分割方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110838594.3A CN113436199B (zh) 2021-07-23 2021-07-23 半监督视频目标分割方法及装置

Publications (2)

Publication Number Publication Date
CN113436199A CN113436199A (zh) 2021-09-24
CN113436199B true CN113436199B (zh) 2022-02-22

Family

ID=77761621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110838594.3A Active CN113436199B (zh) 2021-07-23 2021-07-23 半监督视频目标分割方法及装置

Country Status (1)

Country Link
CN (1) CN113436199B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161306A (zh) * 2019-12-31 2020-05-15 北京工业大学 一种基于运动注意力的视频目标分割方法
CN111210446A (zh) * 2020-01-08 2020-05-29 中国科学技术大学 一种视频目标分割方法、装置和设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10671855B2 (en) * 2018-04-10 2020-06-02 Adobe Inc. Video object segmentation by reference-guided mask propagation
WO2021092687A1 (en) * 2019-11-15 2021-05-20 Modiface Inc. End-to-end merge for video object segmentation (vos)
CN111063410B (zh) * 2019-12-20 2024-01-09 京东方科技集团股份有限公司 一种医学影像文本报告的生成方法及装置
CN111340866B (zh) * 2020-02-26 2024-03-01 腾讯科技(深圳)有限公司 深度图像生成方法、装置及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161306A (zh) * 2019-12-31 2020-05-15 北京工业大学 一种基于运动注意力的视频目标分割方法
CN111210446A (zh) * 2020-01-08 2020-05-29 中国科学技术大学 一种视频目标分割方法、装置和设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Fanchao Lin etal..Query-Memory Re-Aggregation forWeakly-supervised Video Object Segmentation.《The Thirty-Fifth AAAI Conference on Artificial Intelligence (AAAI-21)》.2021,第35卷(第3期), *
Query-Memory Re-Aggregation forWeakly-supervised Video Object Segmentation;Fanchao Lin etal.;《The Thirty-Fifth AAAI Conference on Artificial Intelligence (AAAI-21)》;20210518;第35卷(第3期);第2040页第1栏第2-4段和第2040页第2栏第1段 *
RANet: Ranking Attention Network for Fast Video Object Segmentation;Ziqin Wang etal.;《2019 IEEE/CVF International Conference on Computer Vision (ICCV)》;20200227;第3.5节第2-3段和图5 *
深度学习在视频对象分割中的应用与展望;陈加等;《计算机学报》;20210331;第44卷(第3期);全文 *

Also Published As

Publication number Publication date
CN113436199A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN111444878B (zh) 一种视频分类方法、装置及计算机可读存储介质
CN109543502B (zh) 一种基于深度多尺度神经网络的语义分割方法
CN111192292B (zh) 基于注意力机制与孪生网络的目标跟踪方法及相关设备
US20200210773A1 (en) Neural network for image multi-label identification, related method, medium and device
CN106599900B (zh) 一种识别图像中的字符串的方法和装置
CN111210446B (zh) 一种视频目标分割方法、装置和设备
CN111242127B (zh) 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法
JP7286013B2 (ja) ビデオコンテンツ認識方法、装置、プログラム及びコンピュータデバイス
CN107292352B (zh) 基于卷积神经网络的图像分类方法和装置
CN111696110B (zh) 场景分割方法及系统
CN110569851B (zh) 门控多层融合的实时语义分割方法
CN111723238B (zh) 视频多事件的裁剪及文本描述方法及其装置、设备和介质
CN109902588B (zh) 一种手势识别方法、装置及计算机可读存储介质
CN114708436B (zh) 语义分割模型的训练方法、语义分割方法、装置和介质
CN114445651A (zh) 一种语义分割模型的训练集构建方法、装置及电子设备
CN111914949B (zh) 基于强化学习的零样本学习模型的训练方法及装置
CN117437423A (zh) 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置
CN113436199B (zh) 半监督视频目标分割方法及装置
CN113610856B (zh) 训练图像分割模型和图像分割的方法和装置
CN114627139A (zh) 基于像素特征学习的无监督图像分割方法、装置及设备
CN113807354A (zh) 图像语义分割方法、装置、设备和存储介质
CN113255493A (zh) 一种融合视觉词和自注意力机制的视频目标分割方法
CN114202728B (zh) 一种视频检测方法、装置、电子设备及介质
CN116343063B (zh) 一种路网提取方法、系统、设备及计算机可读存储介质
Huang et al. PLKA-MVSNet: Parallel Multi-view Stereo with Large Kernel Convolution Attention

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant