CN111968123B - 一种半监督视频目标分割方法 - Google Patents
一种半监督视频目标分割方法 Download PDFInfo
- Publication number
- CN111968123B CN111968123B CN202010885756.4A CN202010885756A CN111968123B CN 111968123 B CN111968123 B CN 111968123B CN 202010885756 A CN202010885756 A CN 202010885756A CN 111968123 B CN111968123 B CN 111968123B
- Authority
- CN
- China
- Prior art keywords
- segmentation
- network
- image
- frame
- current frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 179
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000008859 change Effects 0.000 claims abstract description 46
- 238000010586 diagram Methods 0.000 claims abstract description 40
- 238000005070 sampling Methods 0.000 claims abstract description 20
- 230000007774 longterm Effects 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 19
- 230000003287 optical effect Effects 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 16
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 7
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 15
- 238000013135 deep learning Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种半监督视频目标分割方法,包括:S1对视频图像进行预处理,得到当前帧的图像和第一帧的图像,并给定第一帧的分割图;S2构建半监督视频目标分割网络模型,半监督视频目标分割网络模型包括短时网络模块、长时网络模块、注意力门网络模块和上采样模块;S3将前一帧的图像,前一帧的分割结果图和当前帧的图像输入短时网络模块,得到当前帧的粗糙分割图和相对变化信息;将当前帧的图像、第一帧的图像、第一帧的分割图以及当前帧的粗糙分割图输入至长时网络模块,得到绝对变化信息;将相对变化信息以及绝对变化信息输入至注意力门网络,得到分割结果,最后通过上采样模块得到分割结果图。本方法可以提高分割性能和分割的速度。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种半监督视频目标分割方法。
背景技术
随着深度学习的发展,神经网络技术在越来越多的场景中应用,而视频目标分割作为计算机视觉领域中一个热门的研究方向,也越来越受到重视。视频目标分割主要分为两种:半监督视频目标分割和无监督视频目标分割,半监督视频目标分割是指给定第一帧的目标分割图,去分割剩余帧的目标;无监督视频目标分割是指没有给任何先验信息,分割出整个视频中的目标。
现有技术中半监督视频目标分割的研究主要包括在线微调、基于传播的方法和基于模板的方法。大多数方法使用在线微调来利用第一帧分割图去记住目标对象的外观,但是这种方法通常需要很长的执行时间,难以在实际应用中使用。为了避免使用在线微调,提出了基于模板和基于传播的方法,如图1所示,使用的是一个孪生网络,将第一帧以及给定的第一帧分割图作为孪生网络的一个输入,这里利用了基于模版的信息,然后将当前帧视频和前一帧的分割结果图作为另一个分支的输入,这里采用前一帧的结果利用了基于传播的信息。将两个输入分支输入到两个完全相同、参数共享的Resnet50网络(非线性特征求解函数)中,得到了两个分支对应的特征表示,用于判断当前帧的目标信息,同时再使用一个全局网络对两个分支的结果进行全局信息提取,从而增强目标信息,最后利用当前帧分支的残差网络特征提取部分的特征进行上采样得到最后的分割结果。但是这种方案直接使用的是前一帧的结果图误差很大,如果两帧之间的变化很大不能及时捕获,对第一帧和当前帧分支的特征提取中没有考虑关系以及语义信息,并且对多目标分割时,不能做到端到端训练,这样会导致多目标分割时速度变慢;主要依赖相邻两个帧之间变化很小,前一帧的结果可以用作下一帧的粗糙或引导分割图,但是其缺点在于当发生遮挡或快速运动时,可能会出现漂移问题,并且前一帧的分割图如果不准确,会将前一帧的误差一直传递下去。如何更好地利用这些信息是为视频目标分割任务实现更好的速度和精度的关键。
因此,亟需一种快速且准确率高的半监督视频目标分割方法。
发明内容
本发明提供了一种半监督视频目标分割方法,以解决现有技术问题的缺陷。
为了实现上述目的,本发明采取了如下技术方案。
本实施例提供了一种半监督视频目标分割方法,包括:
S1对视频图像进行预处理,得到当前帧的图像和第一帧的图像,并给定第一帧的人为分割图;
S2构建半监督视频目标分割网络模型,所述半监督视频目标分割网络模型包括短时网络模块、长时网络模块、注意力门网络模块和上采样模块;
S3将前一帧的图像,前一帧的分割结果图和当前帧的图像输入所述短时网络模块,得到当前帧的粗糙分割图和相对变化信息;将当前帧的图像、第一帧的图像、第一帧的分割图以及所述当前帧的粗糙分割图输入至长时网络模块,得到绝对变化信息;将所述的相对变化信息以及所述的绝对变化信息输入至注意力门网络,得到分割结果,最后通过上采样模块得到分割结果图。
优选地,当当前分割的图像为第二帧图像时,所述的前一帧的分割结果图为给定第一帧的人为分割图,当当前分割的图像为除第二帧图像的其他图像时,所述的前一帧的分割结果图为前一帧图像在上一次分割得到的分割结果图。
优选地,将前一帧的图像,前一帧的分割结果图和当前帧的图像输入所述短时网络模块,得到当前帧的粗糙分割图和相对变化信息,包括:所述的短时网络模块包括顺序连接的光流网络、特征提取网络、仿射变换子模块以及通道空间网络;将前一帧的图像和当前帧的图像输入到所述光流网络得到了光流图,所述光流图与所述前一帧的分割结果图通过仿射变换子模块进行仿射变换得到当前帧的粗糙分割图,所述粗糙分割图分别输入至长时网络模块和所述特征提取网络提取当前帧的图像的特征信息,进而通过所述通道空间网络增强目标特征,得到目标对象的相对变化信息。
优选地,将当前帧的图像、第一帧的图像、第一帧的分割图以及所述当前帧的粗糙分割图输入至长时网络模块,得到绝对变化信息,包括:
所述的长时网络模块包括顺序连接的孪生网络、全局关系网络和上采样子模块,所述孪生网络为两个并列且参数共享的特征提取网络;将第一帧的图像和给定的第一帧的分割图输入至所述孪生网络的一个特征提取网络,将当前帧的图像和当前帧的粗糙分割图输入至所述孪生网络的另一个特征提取网络,得到当前帧和第一帧的特征并输入至全局关系网络,得到当前帧与第一帧之间的关系信息,通过上采样子模块进行上采样得到绝对变化信息。
优选地,将所述的相对变化信息以及所述的绝对变化信息输入至注意力门网络,得到分割结果,包括:所述的注意力门网络的具体步骤如下式(1)所示:
其中,Lt为长时网络得到的绝对信息,At,i代表的是对于目标i短时网络的相对变化信息,WL T是与绝对信息进行卷积操作的卷积层权重,WAi T以及bAi是与相对信息进行卷积操作的卷积层权重和偏置,WΨi T和bΨi是前面操作之后再进行了一个卷积操作的卷积层的权重和偏置需要训练的网络参数,Ut,i是对于目标i的注意力门网络的特征。
优选地,方法还包括:获取真实的分割结果图,采用真实的分割结果图对所述半监督视频目标分割网络模型训练,采用训练好的半监督视频目标分割网络模型对视频进行分割。
优选地,孪生网络是由Resnet50和SE Net模块构成。
优选地,采用真实的分割结果图对所述半监督视频目标分割网络模型训练,包括:
S81将得到的分割结果图与真实的分割结果图输入到IOU损失函数中,得到损失结果;
S82根据损失函数结果判断半监督视频目标分割网络模型是否收敛,若收敛,则停止训练并将该模型作为训练好的半监督视频目标分割网络模型,若不收敛则通过损失函数的反向传播得到每个参数的梯度值,然后根据梯度值更新参数,更新的参数可以使得损失函数的值变小,继续训练,直到收敛后将对应模型作为训练好的半监督视频目标分割网络模型。
优选地,方法还包括:对训练好的半监督视频目标分割网络模型进行测试,采用测试通过的半监督视频目标分割网络模型对视频进行分割。
优选地,对训练好的半监督视频目标分割网络模型进行测试,包括:通过验证数据集得到准确率判断是否达到预期分割效果,若达到,则测试通过;否则调整半监督视频目标分割网络模型的训练参数重新进行模型训练。
由上述本发明的半监督视频目标分割方法提供的技术方案可以看出,本发明方法不需要在线微调的,同时利用基于模版和基于传播的方法,去提取长时信息和短时信息,通过长时信息捕获目标对象的绝对变化,再利用短时信息捕获目标对象的相对变化,然后利用一个注意力门网络将之前的信息解码得到最后的分割结果,从而得到当前帧的目标信息,能实现多目标端到端的学习,从而提高了分割的性能以及分割速度,实现了快速的端到端训练且准确率高的视频目标分割。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中的基于模板和基于传播的方法的分割方法示意图;
图2为本实施例的一种半监督视频目标分割方法流程示意图;
图3为本实施例的半监督视频目标分割网络模型示意图;
图4为本实施例的短时网络模块示意图;
图5为本实施例的长时网络模块示意图;
图6为采用本实施例的方法进行视频分割的具体流程示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤和/或操作,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作和/或它们的组。应该理解,这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。以下为对本实施例中的技术术语的解释:
半监督视频目标分割:在第一帧给定出目标的分割图(半监督),然后在视频剩余帧中分割目标对象。
注意力模型:深度学习中的注意力模型从本质上讲和人类的选择性视觉注意力机制类似,核心目标是从众多信息中选择出对当前任务目标更关键的信息而抑制其他无用信息,提高信息处理的效率和准确性。
孪生网络:一类包含两个或更多个相同子网络的神经网络架构。相同是指它们具有相同的配置即具有相同的参数和权重,参数更新在两个子网上共同进行。
SE Net模块:主要是学习了channel之间的相关性,筛选出了针对通道的注意力,稍微增加了一点计算量,但是效果比较好。
上采样:主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。
Resnet50:是深度学习中的一种神经网络结构,也叫深度残差网络,可以解决随着网络深度增加而出现的退化问题。
端到端学习:整个学习的流程并不进行人为的子问题划分,而是完全交给深度学习模型直接学习从原始数据到期望输出的映射。
IOU损失函数:IOU就是交并比,用来评价结果值和真实结果的差距。
长时信息是目标在一段长时间视频中的变化信息;短时信息是目标在相邻帧的变化信息。
为便于对本发明实施例的理解,下面将结合附图以具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
实施例
图2为本实施例的一种半监督视频目标分割方法流程示意图,参照图2,该方法包括:
S1对视频图像进行预处理,得到当前帧的图像和第一帧的图像,并给定第一帧的分割图。
S2构建半监督视频目标分割网络模型,半监督视频目标分割网络模型包括短时网络模块、长时网络模块、注意力门网络模块和上采样模块。
S3图3为本实施例的半监督视频目标分割网络模型示意图,参照图3,将前一帧的图像和当前帧的图像输入短时网络模块,得到当前帧的粗糙分割图和相对变化信息;将当前帧的图像、第一帧的图像、第一帧的分割图以及所述当前帧的粗糙分割图输入至长时网络模块,得到绝对变化信息;将相对变化信息以及绝对变化信息输入至注意力门网络,得到分割结果,最后通过上采样模块得到分割结果图。
其中,相对变化信息以及绝对变化信息里面也包含了目标本身的信息。
图4为本实施例的短时网络模块示意图,参照图4,短时网络模块包括顺序连接的光流网络、特征提取网络、仿射变换子模块以及通道空间网络;将前一帧的图像和当前帧的图像输入到光流网络得到了光流图,光流图与前一帧的分割结果图通过仿射变换子模块进行仿射变换得到当前帧的粗糙分割图,粗糙分割图分别输入至长时网络模块和特征提取网络提取当前帧的图像的特征信息,进而通过所述通道空间网络增强目标特征,得到目标对象的相对变化信息。
短时网络利用相邻帧之间的时序相关性来获得目标对象的相对变化。有助于估计目标的局部和细节信息。
图5为本实施例的长时网络模块示意图,参照图5,长时网络模块包括顺序连接的孪生网络、全局关系网络和上采样子模块,孪生网络为两个并列且参数共享的特征提取网络;将第一帧的图像和给定的第一帧的分割图输入至所述孪生网络的一个特征提取网络,将当前帧的图像和当前帧的粗糙分割图输入至所述孪生网络的另一个特征提取网络,得到当前帧和第一帧的特征并输入至全局关系网络,得到当前帧与第一帧之间的关系信息,通过上采样子模块进行上采样得到绝对变化信息。
为了更好地将前景与背景区分开,本实施例将孪生网络的输入从一个图片扩展为一个图片和一个分割图(4个通道)。额外的分割图为了提供对当前帧中目标的可见区域,近似位置和形状的估计。本实施例的全局关系网络可以实现在坐标空间上全局聚合特征,然后将其投影到可以推断关系的交互空间中。判断完关系后再将该关系特征反向投影到原始坐标空间中,得到在原始坐标空间中的的关系特征。在这个全局关系网络是有它检查相似的区域并确定不同区域之间的关系,这不仅使我们能够提取全局特征,而且还可以收集当前帧与第一帧之间的关系信息。
长时网络模块通过捕获当前帧中的目标对象与第一帧中的目标对象之间的目标关系来描述目标对象的绝对变化,由于第一帧中的目标对象的分割图是给定的,因此可以提取目标对象的绝对变化。这样可以得到当前帧的目标位置和目标的形状变化的全局信息。
3、需要说明的是,当当前分割的图像为第二帧图像时,前一帧的分割结果图为给定第一帧的人为分割图;当当前分割的图像为除第二帧图像的其他图像时,前一帧的分割结果图为前一帧图像在上一次分割得到的分割结果图。
注意力门网络的具体步骤如下式(1)所示:
其中,Lt为长时网络得到的绝对信息,At,i代表的是对于目标i短时网络的相对变化信息,WL T是与绝对信息进行卷积操作的卷积层权重,WAi T以及bAi是与相对信息进行卷积操作的卷积层权重和偏置,WΨi T和bΨi是前面操作之后再进行了一个卷积操作的卷积层的权重和偏置需要训练的网络参数,Ut,i是对于目标i的注意力门网络的特征。
通过注意力门网络有效地抑制了背景的特征并增强了用于高分辨率分割的目标特征。
需要说明的是,本实施例中的孪生网络是由Resnet50和SE Net模块构成。
优选地,该方法还包括:获取真实的分割结果图,采用真实的分割结果图对所述半监督视频目标分割网络模型训练,采用训练好的半监督视频目标分割网络模型对视频进行分割。
具体包括:
1)将得到的分割结果图与真实的分割结果图输入到IOU损失函数中,得到损失结果;
2)根据损失函数结果判断半监督视频目标分割网络模型是否收敛,若收敛,则停止训练并将该模型作为训练好的半监督视频目标分割网络模型,若不收敛则通过损失函数的反向传播得到每个参数的梯度值,然后根据梯度值更新参数,更新的参数可以使得损失函数的值变小,继续训练,直到收敛后将对应模型作为训练好的半监督视频目标分割网络模型。
优选地,该方法还包括:对训练好的半监督视频目标分割网络模型进行测试,采用测试通过的半监督视频目标分割网络模型对视频进行分割。
具体包括:通过验证数据集得到准确率判断是否达到预期分割效果,若达到,则测试通过;否则调整半监督视频目标分割网络模型的训练参数重新进行模型训练。
为了更好地表示目标信息,特征提取需要考虑目标的外观特征、目标的变化幅度、背景因素、遮挡以及光线、角度问题,一种好的特征表示方法可以极大地提高分割准确率。优选地,本实施例中的分割效果包括区域相似度和轮廓精度两个指标。
图6为采用本实施例的方法进行视频分割的具体流程示意图,参照图6,该方法具体包括:
①在视频图像输入到网络之前,对所有的图像进行图像预处理,包括将图像resize成固定大小,去均值处理,设置随机选取输入视频的部分方式,最后得到一个预处理好的尺寸为640*320的图像。
②首先输入预处理后的当前帧的图像和前一帧的图像至短时网络模块,通过光流网络得到尺寸为640*32*2的光流图,然后基于前一帧的分割结果图和光流使用仿射变化得到了当前帧的640*32*1的粗糙分割图。粗糙分割图分别输入至长时网络模块和特征提取网络,通过提取网络提取到160*80*256的特征图,然后利用一个空间通道网络学习到特征空间和通道上的160*80*256的注意力图,加强了目标物体的特征,得到一个160*80的短时信息。
将当前帧的640*32*1的粗糙分割图和、处理后的当前帧的图像640*320*3(这里的第三个维度是通道维度)、第一帧的图像640*320*3和给定的分割图640*320*1输入到长时网络模块,提取当前帧和第一帧的特征之后在通道维度上把两部分的特征图融合在一起得到了20*10*4096的特征图,然后通过全局关系网络得到40*20*256的全局关系信息特征图,然后为了和短时网络的特征图信息尺寸对齐,进行了上采样操作,得到了160*80*256的长时信息特征图。
③步骤②得到的长时和短时信息,输入到注意力门网络模块中,注意力门网络前向传播,通过上采样模块上采样得到最后的分割图,这个分割图的尺寸和输入的图像尺寸一样,通道数变为1个通道,最后得到的是一个和原图尺寸一样的通道数为1的分割图。
④将步骤③得到的分割结果图与真实的分割结果图输入到IOU损失函数中,计算损失结果。
⑤根据步骤④计算的损失函数结果判断整个半监督视频目标分割网络模型是否收敛,若收敛,使用该模型进行测试进入步骤⑥,即测试视频目标分割;否则通过损失函数的反向传播得到每个参数的梯度值,然后根据梯度值更新参数,更新的参数可以使得损失函数的值变小,继续训练网络,直至收敛。
⑥通过验证数据集去得到准确率判断是否达到很好的预期分割效果,这里的准确率判断采用的是计算分割准确率的通用方式去判断。若达到,则测试通过;若效果不理想或者训练结果一直不收敛,则调整训练参数(更改网络参数的初始化,学习率以及训练的轮数)重新进行模型训练。
下表1为采用本实施例方法与现有技术中的方法进行分割的结果,参照表1,对比方法均是在视频目标分割的通用数据集Youtube-VOS上训练测试,其中J是均值区域相似度,F是均值轮廓精度,G是J和F的平均值,对于YouTube-VOS中可见(seen)和不可见(unseen)的类,这里的可见类是指在训练集中存在的类别,不可见类是指训练集中没有存在的类别,因此可见类可以衡量模型的训练程度以及学习程度,不可见类更好的衡量了模型的泛化性,分别计算在测试集F和J。此外,FPS代表对运行时间进行了测量,代表每秒处理的帧数,以进行效率评估。通过表1可以看出,采用本实施例方法的到的性能明显优于其他方法,因为G是J和F的平均值,分析G的性能就表示了整体的分割准确率,本方法与其他的方法比较,分割准确率G明显都高于其他方法,除此以外,FPS(每秒处理的帧数)也明显高于其他方法,所以本实施例的方法不仅分割准确率更高,分割速度还更快。
表1
方法 | Goverall(%) | Jseen(%) | Junseen(%) | Fseen(%) | Funseen(%) | FPS |
S2S | 64.4 | 71.0 | 55.5 | 70.0 | 61.2 | 0.11 |
MSK | 53.1 | 59.9 | 45.0 | 59.5 | 47.9 | 0.08 |
PReMVOS | 66.9 | 71.4 | 75.9 | 56.5 | 63.7 | 0.03 |
DMM-Net | 51.7 | 58.3 | 41.6 | 60.7 | 46.3 | 12 |
RGMP | 53.8 | 59.5 | 45.2 | - | - | - |
OSMN | 51.2 | 60.0 | 40.6 | 60.1 | 44.0 | 4.16 |
本方法 | 71.8 | 70.9 | 66.8 | 74.9 | 74.8 | 12.8 |
需要说明的是,开发之前需要配置实验环境,包括安装Linux操作系统、python运行软件、pytorch深度学习框架,此外,因为深度学习模型训练过程耗时较长,最好在GPU下进行训练。在开发过程中,需要注意数据处理部分,因为针对不同的数据,会有不同的处理方式,例如尺寸或者预处理的一些设定,以及超参的设置,示意性地,如学习率的取值和迭代次数。
本领域技术人员应能理解,图2仅为简明起见而示出的各类网络元素的数量可能小于一个实际网络模型中的数量,但这种省略无疑是以不会影响对发明实施例进行清楚、充分的公开为前提的。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (7)
1.一种半监督视频目标分割方法,其特征在于,包括:
S1对视频图像进行预处理,得到当前帧的图像和第一帧的图像,并给定第一帧的人为分割图;
S2构建半监督视频目标分割网络模型,所述半监督视频目标分割网络模型包括短时网络模块、长时网络模块、注意力门网络模块和上采样模块;
S3将前一帧的图像,前一帧的分割结果图和当前帧的图像输入所述短时网络模块,得到当前帧的粗糙分割图和相对变化信息;将当前帧的图像、第一帧的图像、第一帧的分割图以及所述当前帧的粗糙分割图输入至长时网络模块,得到绝对变化信息;将所述的相对变化信息以及所述的绝对变化信息输入至注意力门网络,得到分割结果,最后通过上采样模块得到分割结果图;
所述的将前一帧的图像,前一帧的分割结果图和当前帧的图像输入所述短时网络模块,得到当前帧的粗糙分割图和相对变化信息,包括:所述的短时网络模块包括顺序连接的光流网络、特征提取网络、仿射变换子模块以及通道空间网络;将前一帧的图像和当前帧的图像输入到所述光流网络得到了光流图,所述光流图与所述前一帧的分割结果图通过仿射变换子模块进行仿射变换得到当前帧的粗糙分割图,所述粗糙分割图分别输入至长时网络模块和所述特征提取网络提取当前帧的图像的特征信息,进而通过所述通道空间网络增强目标特征,得到目标对象的相对变化信息;
所述的将当前帧的图像、第一帧的图像、第一帧的分割图以及所述当前帧的粗糙分割图输入至长时网络模块,得到绝对变化信息,包括:
所述的长时网络模块包括顺序连接的孪生网络、全局关系网络和上采样子模块,所述孪生网络为两个并列且参数共享的特征提取网络;将第一帧的图像和给定的第一帧的分割图输入至所述孪生网络的一个特征提取网络,将当前帧的图像和当前帧的粗糙分割图输入至所述孪生网络的另一个特征提取网络,得到当前帧和第一帧的特征并输入至全局关系网络,得到当前帧与第一帧之间的关系信息,通过上采样子模块进行上采样得到绝对变化信息;
所述的将所述的相对变化信息以及所述的绝对变化信息输入至注意力门网络,得到分割结果,包括:所述的注意力门网络的具体步骤如下式(1)所示:
其中,Lt为长时网络得到的绝对信息,At,i代表的是对于目标i短时网络的相对变化信息,WL T是与绝对信息进行卷积操作的卷积层权重,WAi T以及bAi是与相对信息进行卷积操作的卷积层权重和偏置,WΨi T和bΨi是前面操作之后再进行了一个卷积操作的卷积层的权重和偏置需要训练的网络参数,Ut,i是对于目标i的注意力门网络的特征。
2.根据权利要求1所述的方法,其特征在于,当当前分割的图像为第二帧图像时,所述的前一帧的分割结果图为给定第一帧的人为分割图,当当前分割的图像为除第二帧图像的其他图像时,所述的前一帧的分割结果图为前一帧图像在上一次分割得到的分割结果图。
3.根据权利要求1所述的方法,其特征在于,所述的方法还包括:获取真实的分割结果图,采用真实的分割结果图对所述半监督视频目标分割网络模型训练,采用训练好的半监督视频目标分割网络模型对视频进行分割。
4.根据权利要求1所述的方法,其特征在于,所述的孪生网络是由Resnet50和SE Net模块构成。
5.根据权利要求3所述的方法,其特征在于,所述的采用真实的分割结果图对所述半监督视频目标分割网络模型训练,包括:
S81将得到的分割结果图与真实的分割结果图输入到IOU损失函数中,得到损失结果;
S82根据损失函数结果判断半监督视频目标分割网络模型是否收敛,若收敛,则停止训练并将该模型作为训练好的半监督视频目标分割网络模型,若不收敛则通过损失函数的反向传播得到每个参数的梯度值,然后根据梯度值更新参数,更新的参数可以使得损失函数的值变小,继续训练,直到收敛后将对应模型作为训练好的半监督视频目标分割网络模型。
6.根据权利要求3所述的方法,其特征在于,所述的方法还包括:对训练好的半监督视频目标分割网络模型进行测试,采用测试通过的半监督视频目标分割网络模型对视频进行分割。
7.根据权利要求6所述的方法,其特征在于,所述的对训练好的半监督视频目标分割网络模型进行测试,包括:通过验证数据集得到准确率判断是否达到预期分割效果,若达到,则测试通过;否则调整半监督视频目标分割网络模型的训练参数重新进行模型训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010885756.4A CN111968123B (zh) | 2020-08-28 | 2020-08-28 | 一种半监督视频目标分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010885756.4A CN111968123B (zh) | 2020-08-28 | 2020-08-28 | 一种半监督视频目标分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111968123A CN111968123A (zh) | 2020-11-20 |
CN111968123B true CN111968123B (zh) | 2024-02-02 |
Family
ID=73400591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010885756.4A Active CN111968123B (zh) | 2020-08-28 | 2020-08-28 | 一种半监督视频目标分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111968123B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112929743B (zh) * | 2021-01-22 | 2023-03-21 | 广州光锥元信息科技有限公司 | 对视频中指定对象添加视频特效的方法、装置及移动端 |
CN113221899A (zh) * | 2021-04-22 | 2021-08-06 | 之江实验室 | 一种基于学习原型图的快速视频目标分割系统及方法 |
CN113344932B (zh) * | 2021-06-01 | 2022-05-03 | 电子科技大学 | 一种半监督的单目标视频分割方法 |
CN113744306B (zh) * | 2021-06-08 | 2023-07-21 | 电子科技大学 | 基于时序内容感知注意力机制的视频目标分割方法 |
CN113610885B (zh) * | 2021-07-12 | 2023-08-22 | 大连民族大学 | 使用差异对比学习网络的半监督目标视频分割方法及系统 |
CN114677380B (zh) * | 2022-03-25 | 2024-07-19 | 西安交通大学 | 一种基于多样化交互的视频对象分割方法及系统 |
CN116402833B (zh) * | 2023-06-08 | 2023-08-22 | 武汉纺织大学 | 一种基于知识蒸馏的半监督视频目标分割方法 |
CN117670938B (zh) * | 2024-01-30 | 2024-05-10 | 江西方兴科技股份有限公司 | 一种基于治超机器人的多目标时空跟踪方法 |
CN118397516B (zh) * | 2024-06-25 | 2024-08-23 | 杭州声贝软件技术有限公司 | 基于掩模自编码器的视频水体分割模型的构建方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163875A (zh) * | 2019-05-23 | 2019-08-23 | 南京信息工程大学 | 一种基于调制网络和特征注意金字塔的半监督视频目标分割方法 |
CN110188754A (zh) * | 2019-05-29 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 图像分割方法和装置、模型训练方法和装置 |
CN110942463A (zh) * | 2019-10-30 | 2020-03-31 | 杭州电子科技大学 | 一种基于生成对抗网络的视频目标分割方法 |
CN111161306A (zh) * | 2019-12-31 | 2020-05-15 | 北京工业大学 | 一种基于运动注意力的视频目标分割方法 |
CN111210446A (zh) * | 2020-01-08 | 2020-05-29 | 中国科学技术大学 | 一种视频目标分割方法、装置和设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10671855B2 (en) * | 2018-04-10 | 2020-06-02 | Adobe Inc. | Video object segmentation by reference-guided mask propagation |
-
2020
- 2020-08-28 CN CN202010885756.4A patent/CN111968123B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163875A (zh) * | 2019-05-23 | 2019-08-23 | 南京信息工程大学 | 一种基于调制网络和特征注意金字塔的半监督视频目标分割方法 |
CN110188754A (zh) * | 2019-05-29 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 图像分割方法和装置、模型训练方法和装置 |
CN110942463A (zh) * | 2019-10-30 | 2020-03-31 | 杭州电子科技大学 | 一种基于生成对抗网络的视频目标分割方法 |
CN111161306A (zh) * | 2019-12-31 | 2020-05-15 | 北京工业大学 | 一种基于运动注意力的视频目标分割方法 |
CN111210446A (zh) * | 2020-01-08 | 2020-05-29 | 中国科学技术大学 | 一种视频目标分割方法、装置和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111968123A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111968123B (zh) | 一种半监督视频目标分割方法 | |
Tang et al. | Learning guided convolutional network for depth completion | |
US11200424B2 (en) | Space-time memory network for locating target object in video content | |
Cheng et al. | Depth estimation via affinity learned with convolutional spatial propagation network | |
CN108520503B (zh) | 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法 | |
CN107481279B (zh) | 一种单目视频深度图计算方法 | |
Zhang et al. | Mm-bsn: Self-supervised image denoising for real-world with multi-mask based on blind-spot network | |
CN110210551A (zh) | 一种基于自适应主体敏感的视觉目标跟踪方法 | |
Li et al. | Short-term and long-term context aggregation network for video inpainting | |
CN112016682B (zh) | 视频表征学习、预训练方法及装置、电子设备、存储介质 | |
CN109993095A (zh) | 一种面向视频目标检测的帧级别特征聚合方法 | |
CN112232134B (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN110399826B (zh) | 一种端到端人脸检测和识别方法 | |
Zheng et al. | T-net: Deep stacked scale-iteration network for image dehazing | |
Liu et al. | Face super-resolution reconstruction based on self-attention residual network | |
KR102567128B1 (ko) | 개선된 적대적 어텐션 네트워크 시스템 및 이를 이용한 이미지 생성 방법 | |
CN114140469A (zh) | 一种基于多层注意力的深度分层图像语义分割方法 | |
Liang et al. | Video super-resolution reconstruction based on deep learning and spatio-temporal feature self-similarity | |
CN114283058A (zh) | 基于对抗网络和最大互信息优化的图像超分辨率重建方法 | |
CN112598604A (zh) | 一种盲脸复原方法及系统 | |
Kavitha et al. | Convolutional Neural Networks Based Video Reconstruction and Computation in Digital Twins. | |
Lu et al. | Siamese graph attention networks for robust visual object tracking | |
Wan et al. | Progressive convolutional transformer for image restoration | |
CN105069767B (zh) | 基于表征学习与邻域约束嵌入的图像超分辨重构方法 | |
Chen et al. | A robust object segmentation network for underwater scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |