CN115131708A - 基于融合编码网络的视频分割方法、装置、设备及介质 - Google Patents
基于融合编码网络的视频分割方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115131708A CN115131708A CN202210761115.7A CN202210761115A CN115131708A CN 115131708 A CN115131708 A CN 115131708A CN 202210761115 A CN202210761115 A CN 202210761115A CN 115131708 A CN115131708 A CN 115131708A
- Authority
- CN
- China
- Prior art keywords
- feature map
- characteristic diagram
- convolution
- current
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明涉及视频分割技术领域,其公开了一种基于融合编码网络的视频分割方法、装置、设备及介质。其中方法包括:基于融合编码网络对获取的参照帧图像及参照分割图像进行一系列处理得到参照卷积特征图及参照融合特征图;获取待分割视频中的当前帧图像,并将当前帧图像输入融合编码网络得到当前分辨率特征图;对当前分辨率特征图、参照卷积特征图以及参照融合特征图进行一系列处理得到输出分割图;若满足特征图更新条件,则对参照卷积特征图及参照融合特征图进行更新,直至待分割视频分割完成为止。本发明实施例可提高视频分割的效率及分割准确度。
Description
技术领域
本发明实施例涉及视频分割技术领域,尤其涉及一种基于融合编码网络的视频分割方法、装置、设备及介质。
背景技术
视频分割是对输入的视频帧图像中某些特定类别的物体进行分割,得到其分割掩膜图像。现有的视频分割包括无监督(Unsupervised)视频分割及半监督(Semi-supervised)视频分割,而半监督视频分割是指给定某一帧的分割结果,以此为参照进行后续帧的传播。但现有的监督视频分割方法例如MATNet、FSNet、3DC-Seg以及RTNet等方法,视频分割的准确率较低,而现有的半监督视频分割方法例如FEELVOS、STM、FRTM-VOS、GraphMemVOS等方法,存在模型架构复杂,模型运行速度较慢,从而导致视频分割效率较低的问题。
发明内容
本发明实施例提供了一种基于融合编码网络的视频分割方法、装置、设备及介质,旨在解决现有视频分割效率及分割准确度均较低的问题。
第一方面,本发明实施例提供了一种基于融合编码网络的视频分割方法,其包括:
获取用户指定的参照帧图像及与所述参照帧图像相对应的参照分割图像,其中,所述参照帧图像为待分割视频中的任意一帧图像;
将所述参照帧图像输入融合编码网络得到参照分辨率特征图,并对所述参照分辨率特征图进行卷积处理得到参照卷积特征图;
将所述参照分辨率特征图及所述参照分割图像输入所述融合编码网络得到参照编码特征图,并对所述参照编码特征图及重叠扩展后的所述参照分辨率特征图进行级联及融合处理得到参照融合特征图;
获取所述待分割视频中的当前帧图像,并将所述当前帧图像输入所述融合编码网络得到第一当前分辨率特征图、第二当前分辨率特征图以及第三当前分辨率特征图,对所述第三当前分辨率特征图进行卷积处理得到当前卷积特征图;
对所述当前卷积特征图、所述参照卷积特征图以及所述参照融合特征图进行注意力权重计算得到权重特征图;
对所述权重特征图、所述第一当前分辨率特征图以及第二当前分辨率特征图进行解码处理得到输出分割图;
若满足特征图更新条件,则对所述参照卷积特征图及所述参照融合特征图进行更新,直至所述待分割视频分割完成为止。
第二方面,本发明实施例还提供了一种基于融合编码网络的视频分割装置,其包括:
获取单元,用于获取用户指定的参照帧图像及与所述参照帧图像相对应的参照分割图像,其中,所述参照帧图像为待分割视频中的任意一帧图像;
第一编码卷积单元,用于将所述参照帧图像输入融合编码网络得到参照分辨率特征图,并对所述参照分辨率特征图进行卷积处理得到参照卷积特征图;
级联融合单元,用于将所述参照分辨率特征图及所述参照分割图像输入所述融合编码网络得到参照编码特征图,并对所述参照编码特征图及重叠扩展后的所述参照分辨率特征图进行级联及融合处理得到参照融合特征图;
第二编码卷积单元,用于获取所述待分割视频中的当前帧图像,并将所述当前帧图像输入所述融合编码网络得到第一当前分辨率特征图、第二当前分辨率特征图以及第三当前分辨率特征图,对所述第三当前分辨率特征图进行卷积处理得到当前卷积特征图;
注意力单元,用于对所述当前卷积特征图、所述参照卷积特征图以及所述参照融合特征图进行注意力权重计算得到权重特征图;
解码单元,用于对所述权重特征图、所述第一当前分辨率特征图以及第二当前分辨率特征图进行解码处理得到输出分割图;
更新单元,用于若满足特征图更新条件,则对所述参照卷积特征图及所述参照融合特征图进行更新,直至所述待分割视频分割完成为止。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
本发明实施例提供了一种基于融合编码网络的视频分割方法、装置、设备及介质。其中,所述方法包括:获取用户指定的参照帧图像及与所述参照帧图像相对应的参照分割图像,其中,所述参照帧图像为待分割视频中的任意一帧图像;将所述参照帧图像输入融合编码网络得到参照分辨率特征图,并对所述参照分辨率特征图进行卷积处理得到参照卷积特征图;将所述参照分辨率特征图及所述参照分割图像输入所述融合编码网络得到参照编码特征图,并对所述参照编码特征图及重叠扩展后的所述参照分辨率特征图进行级联及融合处理得到参照融合特征图;获取所述待分割视频中的当前帧图像,并将所述当前帧图像输入所述融合编码网络得到第一当前分辨率特征图、第二当前分辨率特征图以及第三当前分辨率特征图,对所述第三当前分辨率特征图进行卷积处理得到当前卷积特征图;对所述当前卷积特征图、所述参照卷积特征图以及所述参照融合特征图进行注意力权重计算得到权重特征图;对所述权重特征图、所述第一当前分辨率特征图以及第二当前分辨率特征图进行解码处理得到输出分割图;若满足特征图更新条件,则对所述参照卷积特征图及所述参照融合特征图进行更新,直至所述待分割视频分割完成为止。本发明实施例的技术方案,通过融合编码网络对参照帧图像、参照分割图像以及当前帧图像进行处理,可在一定程度上提高视频分割效率;在输出分割图生成过程中,通过对参照卷积特征图及参照融合特征图的更新,可提高视频分割的准确度。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于融合编码网络的视频分割方法的流程示意图;
图2为本发明实施例提供的一种基于融合编码网络的视频分割方法的子流程示意图;
图3为本发明实施例提供的一种基于融合编码网络的视频分割方法的子流程示意图;
图4为本发明实施例提供的一种基于融合编码网络的视频分割方法的子流程示意图;
图5为本发明实施例提供的一种基于融合编码网络的视频分割装置的示意性框图;以及
图6为本发明实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
请参阅图1,图1是本发明实施例提供的基于融合编码网络的视频分割方法的流程示意图。下面对所述基于融合编码网络的视频分割方法进行详细说明。如图1所示,该方法包括以下步骤S100-S160。
S100、获取用户指定的参照帧图像及与所述参照帧图像相对应的参照分割图像,其中,所述参照帧图像为待分割视频中的任意一帧图像。
在本发明实施例中,用户在视频分割软件中上传待分割视频,并指定所述待分割视频中任意一帧图像作为参照帧图像,通过预设处理方法对所述参照帧图像进行处理得到参照分割图像,其中,所述预设处理方法为通过涂抹法、手绘法或者点击选择目标法中的一种对所述参照帧图像进行处理得到参照分割图像。需要说明的是,在本发明实施例中,所述参照帧图像为已对某些特定类别的物体进行分割后的图像。还需要说明的是,在本发明实施例中的视频分割软件是基于STCN网络架构上编写的软件,其中,STCN是由融合编码(Encoder)网络,解码(decoder)网络和关联记忆网络这三大模块组成。其中,所述融合编码网络又分了三个子模块,分别对应:KeyEncoder网络,ValueEncoderSO网络和ValueEncoder网络;解码网络就是基于三个不同分辨率的输出进行特征融合的简单CNN网络叠加而成;关联记忆网络用于求解融合特征的近似特征图。
S110、将所述参照帧图像输入融合编码网络得到参照分辨率特征图,并对所述参照分辨率特征图进行卷积处理得到参照卷积特征图。
在本发明实施例中,获取所述参照帧图像及所述参照分割图像之后,将所述参照帧图像输入融合编码网络,由于只有所述参照帧图像一个输入,因此选择所述融合编码网络中的第一编码网络进行特征提取得到参照分辨率特征图,其中,所述第一编码网络为KeyEncoder网络;所述参照分辨率特征图包括第一参照分辨率特征图、第二参照分辨率特征图以及第三参照分辨率特征图;对所述第三参照分辨率特征图进行卷积处理得到参照卷积特征图。为方便理解,举例如下,假设所述参照帧图像为1╳3╳320╳432,将所述参照帧图像1╳3╳320╳432输入KeyEncoder网络进行特征提取得到1/4参照分辨率特征图1╳24╳80╳108、1/8参照分辨率特征图1╳32╳40╳54和1/16参照分辨率特征图1╳96╳20╳27,并对1/16分辨率特征图1╳96╳20╳27进行卷积操作得到参照卷积特征图1╳64╳20╳27。需要说明的是,在本发明,ValueEncoderSO网络和ValueEncoder网络为第二编码网络。
S120、将所述参照分辨率特征图及所述参照分割图像输入所述融合编码网络得到参照编码特征图,并对所述参照编码特征图及重叠扩展后的所述参照分辨率特征图进行级联及融合处理得到参照融合特征图。
在本发明实施例中,假设所述参照分割图像为K╳1╳320╳432,得到所述参照卷积特征图之后,将所述第三参照分辨率特征图1╳96╳20╳27及所述参照分割图像K╳1╳320╳432输入所述融合编码网络中的第二编码网络得到参照编码特征图K╳96╳20╳27,需要说明的是,在实际应用中,若K=1为单目标跟踪,采用ValueEncoderSO网络,K>1时为多目标跟踪,采用ValueEncoder网络。对所述第三参照分辨率特征图1╳96╳20╳27通过repeat函数进行扩展得到K╳96╳20╳27特征图,然后将K╳96╳20╳27特征图与所述参照分割图像K╳1╳320╳432进行级联得到级联特征图K╳192╳20╳27,最后对所述级联特征图K╳192╳20╳27进行残差融合得到参照融合特征图K╳96╳20╳27。
S130、获取所述待分割视频中的当前帧图像,并将所述当前帧图像输入所述融合编码网络得到第一当前分辨率特征图、第二当前分辨率特征图以及第三当前分辨率特征图,对所述第三当前分辨率特征图进行卷积处理得到当前卷积特征图。
在本发明实施例中,得到所述参照卷积特征图1╳64╳20╳27及所述参照融合特征图K╳96╳20×27之后,获取所述待分割视频中的当前帧图像1╳3╳320╳432,可理解地,所述当前帧图像为除去所述参照帧图像之外的剩余帧中任意一帧图像,将所述当前帧图像1╳3╳320╳432输入所述融合编码网络中的第一编码网络进行逐层特征提取得到第一当前分辨率特征图1╳24╳80╳108、第二当前分辨率特征图1╳32╳40╳54以及第三当前分辨率特征图1╳96╳20╳27,对所述第三当前分辨率特征图进行卷积处理得到当前卷积特征图,其中,所述卷积处理包括第一卷积处理及第二卷积处理,相应地,所述当前卷积特征图包括第一当前卷积特征图及第二当前卷积特征图。需要说明的是,在本发明实施例中,第一卷积处理及第二卷积处理分别是在KeyProj模块及KeyComp模块中实现的,而KeyProj模块及KeyComp模块为卷积操作模块,所述第一当前卷积特征图及第二当前卷积特征图分别为1╳64╳20╳27及1╳96╳20╳27。
S140、对所述当前卷积特征图、所述参照卷积特征图以及所述参照融合特征图进行注意力权重计算得到权重特征图。
在本发明实施例中,通过关联记忆网络对所述第一当前卷积特征图1╳64╳20╳27、所述第二当前卷积特征图1╳96╳20╳27、所述参照卷积特征图1╳64╳20╳27以及所述参照融合特征图K╳96╳20╳27进行注意力权重计算得到权重特征图。需要说明的是,在本发明实施例中,通过关联记忆网络可提高视频分割的准确率。
请参阅图2,在一实施例中,例如,在本发明实施例中,所述步骤S140包括如下步骤S141-S142。
S141、对所述第一当前卷积特征图及所述参照卷积特征图进行降维、相乘、减法以及归一化操作得到注意力特征图;
S142、对所述注意力特征图、所述第二当前卷积特征图以及所述参照融合特征图进行注意力权重计算得到权重特征图。
在本发明实施例中,对所述第一当前卷积特征图1╳64╳20╳27及所述参照卷积特征图1╳64╳20╳27依次进行降维、相乘、减法以及归一化操作得到注意力特征图1x5400x540,其中,所述归一化操作是通过Softmax层实现的。得到所述注意力特征图1╳5400╳540之后,对所述第二当前卷积特征图1╳96╳20╳27进行遍历得到多个遍历特征图,即将多目标跟踪转换成单目标跟踪;针对所述多个遍历特征图中的每一个遍历特征图进行降维处理得到降维特征图;将所述降维特征图与所述注意力特征图进行矩阵相乘、升维以及级联操作得到目标注意力特征图K╳96╳20╳27;将重叠扩展K次后的所述参照融合特征图K╳96╳20╳27与所述目标注意力特征图K╳96╳20╳27进行级联得到权重特征图K╳192╳20╳27。
S150、对所述权重特征图、所述第一当前分辨率特征图以及第二当前分辨率特征图进行解码处理得到输出分割图。
在本发明实施例中,通过解码网络对所述权重特征图、所述第一当前分辨率特征图以及第二当前分辨率特征图进行解码处理得到输出分割图,其中,所述解码处理包括残差操作、采样操作以及卷积操作。需要说明的是,在本发明实施例中,残差操作具体由2层卷积组成,假设其输入为1╳in_channels╳H╳W的特征图,那么卷积层输入kernel数为in_channels,输出kernel数为out_channels,则第一层卷积的输入kernel数为in_channels,输出kernel数为out_channels,kernel size为3,步长为1,padding为1,第二层卷积的输入kernel数为out_channels,输出kernel数为out_channels,kernel size为3,步长为1,padding为1,经过这样2层卷积层后最终就得到1×out_channels×H×W特征图,
请参阅图3,在一实施例中,例如,在本发明实施例中,所述步骤S140包括如下步骤S151-S153。
S151、对所述权重特征图进行残差处理得到残差特征图;
S152、对所述残差特征图、所述第一当前分辨率特征图以及第二当前分辨率特征图进行上采样操作得到采样特征图;
S153、对所述采样特征图进行卷积及上采样操作得到输出分割图。
在本发明实施例中,对所述权重特征图K╳192╳20╳27进行残差处理得到残差特征图K×96╳20╳27,对所述残差特征图K╳96╳20╳27与所述第二当前分辨率特征图1╳32╳40╳54进行上采样得到K╳48╳40╳54特征图,再将K╳48╳40╳54特征图与所述第一当前分辨率特征图1╳24╳80╳108进行上采样得到采样特征图K╳48╳80╳108,最后对所述采样特征图K╳48╳80╳108进行卷积,需要说明的是,最后的卷积层输入kernel数为48,输出kernel数为1,kernel size为3,步长为1,padding为1,最后将采样特征图K╳1╳80╳108特征图直接上采样4倍得到输出分割图K╳1╳320╳432。
S160、若满足特征图更新条件,则对所述参照卷积特征图及所述参照融合特征图进行更新,直至所述待分割视频分割完成为止。
在本发明实施例中,为了使视频分割更为准确,在分割过程中会通过关联记忆网络关联所述参照卷积特征图及所述参照融合特征图,因此需要对特征图更新条件进行检测,当满足特征图更新条件时,根据所述输出分割图对所述参照卷积特征图及所述参照融合特征图进行更新,直至所述待分割视频分割完成为止。需要说明的是,在本发明实施例中,特征图更新条件为帧计数是预设帧数的整数倍,其中,所述预设帧数为5,可理解地,当帧计数为5,10,15等帧数时,对所述参照卷积特征图及所述参照融合特征图进行更新。
请参阅图4,在一实施例中,例如,在本发明实施例中,所述步骤S140包括如下步骤S161-S163。
S161、检测帧计数是否为预设帧数的整数倍;
S162、若所述帧计数为所述预设帧数的整数倍,则将所述输出分割图、所述当前帧图像以及所述第三当前分辨率特征图输入所述第二编码网络进行目标跟踪得到更新特征图;
S163、对所述更新特征图进行卷积处理得到第一更新卷积特征图及第二更新卷积特征图,并将所述第一更新卷积特征图及所述第二更新卷积特征图作为所述参照卷积特征图及所述参照融合特征图。
在本发明实施例中,检测帧计数是否为预设帧数的整数倍,若所述帧计数为所述预设帧数的整数倍,则将所述输出分割图K╳1╳320╳432、所述当前帧图像1╳3╳320╳432以及所述第三当前分辨率特征图1╳96╳20╳27输入所述第二编码网络进行单目标或者多目标跟踪得到更新特征图K╳96╳20╳27;对所述更新特征图K╳96╳20╳27进行第一卷积处理及第二卷积处理得到第一更新卷积特征图K╳96╳N╳20╳27及第二更新卷积特征图1╳64╳N╳20╳27,并将所述第一更新卷积特征图及所述第二更新卷积特征图作为所述参照卷积特征图及所述参照融合特征图,其中,N为保存的信息数,可设置为10。可理解地,若所述帧计数不为所述预设帧数的整数倍,例如帧计数为2,3,4等,则不对所述参照卷积特征图及所述参照融合特征图进行更新,需要说明的是,在本发明实施例中,通过BCE/F1/SSIM/Laplacian金字塔等损失函数不断拟合训练得到本发明中的视频分割模型,相比于其它视频分割模型,本发明中的视频分割模型视频分割更为准确,分割效率也更高。
图5是本发明实施例提供的一种基于融合编码网络的视频分割装置200的示意性框图。如图5所示,对应于以上基于融合编码网络的视频分割方法,本发明还提供一种基于融合编码网络的视频分割装置200。该基于融合编码网络的视频分割装置200包括用于执行上述基于融合编码网络的视频分割方法的单元,该装置可以被配置于终端中。具体地,请参阅图5,该基于融合编码网络的视频分割装置200包括获取单元201、第一编码卷积单元202、级联融合单元203、第二编码卷积单元204、注意力单元205、解码单元206以及更新单元207。
其中,所述获取单元201用于获取用户指定的参照帧图像及与所述参照帧图像相对应的参照分割图像,其中,所述参照帧图像为待分割视频中的任意一帧图像;所述第一编码卷积单元202用于将所述参照帧图像输入融合编码网络得到参照分辨率特征图,并对所述参照分辨率特征图进行卷积处理得到参照卷积特征图;所述级联融合单元203用于将所述参照分辨率特征图及所述参照分割图像输入所述融合编码网络得到参照编码特征图,并对所述参照编码特征图及重叠扩展后的所述参照分辨率特征图进行级联及融合处理得到参照融合特征图;所述第二编码卷积单元204用于获取所述待分割视频中的当前帧图像,并将所述当前帧图像输入所述融合编码网络得到第一当前分辨率特征图、第二当前分辨率特征图以及第三当前分辨率特征图,对所述第三当前分辨率特征图进行卷积处理得到当前卷积特征图;所述注意力单元205用于对所述当前卷积特征图、所述参照卷积特征图以及所述参照融合特征图进行注意力权重计算得到权重特征图;所述解码单元206用于对所述权重特征图、所述第一当前分辨率特征图以及第二当前分辨率特征图进行解码处理得到输出分割图;所述更新单元207用于若满足特征图更新条件,则对所述参照卷积特征图及所述参照融合特征图进行更新,直至所述待分割视频分割完成为止。
在某些实施例,例如本实施例中,所述第二编码卷积单元204包括提取单元。
其中,所述提取单元用于将所述当前帧图像输入所述融合编码网络中的第一编码网络进行逐层特征提取得到第一当前分辨率特征图、第二当前分辨率特征图以及第三当前分辨率特征图。
在某些实施例,例如本实施例中,所述级联融合单元203包括输入单元、第一级联单元以及融合单元。
其中,所述输入单元用于将所述参照分辨率特征图及所述参照分割图像输入所述融合编码网络中的第二编码网络进行目标跟踪得到参照编码特征图;所述第一级联单元用于对所述参照分辨率进行重叠扩展,并将重叠扩展后的所述参照分辨率特征图与所述参照编码特征图进行级联得到参照级联特征图;所述融合单元用于对所述参照级联特征图进行残差融合处理得到参照融合特征图。
在某些实施例,例如本实施例中,所述注意力单元205包括降维归一化单元及权重计算单元。
其中,所述降维归一化单元用于对所述第一当前卷积特征图及所述参照卷积特征图依次进行降维、相乘、减法以及归一化操作得到注意力特征图;所述权重计算单元用于对所述注意力特征图、所述第二当前卷积特征图以及所述参照融合特征图进行注意力权重计算得到权重特征图。
在某些实施例,例如本实施例中,所述权重计算单元包括遍历单元、降维单元、计算单元以及第二级联单元。
其中,所述遍历单元用于对所述第二当前卷积特征图进行遍历得到多个遍历特征图;所述降维单元用于针对所述多个遍历特征图中的每一个遍历特征图进行降维处理得到降维特征图;所述计算单元用于将所述降维特征图与所述注意力特征图进行相乘、升维以及级联操作得到目标注意力特征图;所述第二级联单元用于将重叠扩展后的所述参照融合特征图与所述目标注意力特征图进行级联得到权重特征图。
在某些实施例,例如本实施例中,所述解码单元206包括残差处理单元、采样单元以及输出单元。
其中,所述残差处理单元用于对所述权重特征图进行残差处理得到残差特征图;所述采样单元用于对所述残差特征图、所述第一当前分辨率特征图以及第二当前分辨率特征图进行上采样操作得到采样特征图;所述输出单元用于对所述采样特征图进行卷积及上采样操作得到输出分割图。
在某些实施例,例如本实施例中,所述更新单元207包括检测单元、输入单元以及更新子单元。
其中,所述检测单元用于检测帧计数是否为预设帧数的整数倍;所述输入单元用于若所述帧计数为所述预设帧数的整数倍,则将所述输出分割图、所述当前帧图像以及所述第三当前分辨率特征图输入所述第二编码网络进行目标跟踪得到更新特征图;所述更新子单元用于对所述更新特征图进行卷积处理得到第一更新卷积特征图及第二更新卷积特征图,并将所述第一更新卷积特征图及所述第二更新卷积特征图作为所述参照卷积特征图及所述参照融合特征图。
上述基于融合编码网络的视频分割装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的终端上运行。
请参阅图6,图6是本发明实施例提供的一种计算机设备的示意性框图。该计算机设备300为具有基于融合编码网络的视频分割功能的显示设备。
参阅图6,该计算机设备300包括通过系统总线301连接的处理器302、存储器和网络接口305,其中,存储器可以包括非易失性存储介质303和内存储器304。
该非易失性存储介质303可存储操作系统3031和计算机程序3032。该计算机程序3032被执行时,可使得处理器302执行一种基于融合编码网络的视频分割方法。
该处理器302用于提供计算和控制能力,以支撑整个计算机设备300的运行。
该内存储器304为非易失性存储介质303中的计算机程序3032的运行提供环境,该计算机程序3032被处理器302执行时,可使得处理器302执行一种基于融合编码网络的视频分割方法。
该网络接口305用于与其它设备进行网络通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备300的限定,具体的计算机设备300可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器302用于运行存储在存储器中的计算机程序3032,以实现如下步骤:获取用户指定的参照帧图像及与所述参照帧图像相对应的参照分割图像,其中,所述参照帧图像为待分割视频中的任意一帧图像;将所述参照帧图像输入融合编码网络得到参照分辨率特征图,并对所述参照分辨率特征图进行卷积处理得到参照卷积特征图;将所述参照分辨率特征图及所述参照分割图像输入所述融合编码网络得到参照编码特征图,并对所述参照编码特征图及重叠扩展后的所述参照分辨率特征图进行级联及融合处理得到参照融合特征图;获取所述待分割视频中的当前帧图像,并将所述当前帧图像输入所述融合编码网络得到第一当前分辨率特征图、第二当前分辨率特征图以及第三当前分辨率特征图,对所述第三当前分辨率特征图进行卷积处理得到当前卷积特征图;对所述当前卷积特征图、所述参照卷积特征图以及所述参照融合特征图进行注意力权重计算得到权重特征图;对所述权重特征图、所述第一当前分辨率特征图以及第二当前分辨率特征图进行解码处理得到输出分割图;若满足特征图更新条件,则对所述参照卷积特征图及所述参照融合特征图进行更新,直至所述待分割视频分割完成为止。
在某些实施例,例如本实施例中,处理器302在实现所述将所述当前帧图像输入所述融合编码网络得到第一当前分辨率特征图、第二当前分辨率特征图以及第三当前分辨率特征图步骤时,具体实现如下步骤:将所述当前帧图像输入所述融合编码网络中的第一编码网络进行逐层特征提取得到第一当前分辨率特征图、第二当前分辨率特征图以及第三当前分辨率特征图。
在某些实施例,例如本实施例中,处理器302在实现所述将所述参照分辨率特征图及所述参照分割图像输入所述融合编码网络得到参照编码特征图,并对所述参照编码特征图及重叠扩展后的所述参照分辨率特征图进行级联及融合处理得到参照融合特征图步骤时,具体实现如下步骤:将所述参照分辨率特征图及所述参照分割图像输入所述融合编码网络中的第二编码网络进行目标跟踪得到参照编码特征图;对所述参照分辨率进行重叠扩展,并将重叠扩展后的所述参照分辨率特征图与所述参照编码特征图进行级联得到参照级联特征图;对所述参照级联特征图进行残差融合处理得到参照融合特征图。
在某些实施例,例如本实施例中,处理器302在实现所述对所述当前卷积特征图、所述参照卷积特征图以及所述参照融合特征图进行注意力权重计算得到权重特征图步骤时,具体实现如下步骤:对所述第一当前卷积特征图及所述参照卷积特征图依次进行降维、相乘、减法以及归一化操作得到注意力特征图;对所述注意力特征图、所述第二当前卷积特征图以及所述参照融合特征图进行注意力权重计算得到权重特征图。
在某些实施例,例如本实施例中,处理器302在实现所述对所述注意力特征图、所述第二当前卷积特征图以及所述参照融合特征图进行注意力权重计算得到权重特征图步骤时,具体实现如下步骤:对所述第二当前卷积特征图进行遍历得到多个遍历特征图;针对所述多个遍历特征图中的每一个遍历特征图进行降维处理得到降维特征图;将所述降维特征图与所述注意力特征图进行相乘、升维以及级联操作得到目标注意力特征图;将重叠扩展后的所述参照融合特征图与所述目标注意力特征图进行级联得到权重特征图。
在某些实施例,例如本实施例中,处理器302在实现所述对所述权重特征图、所述第一当前分辨率特征图以及第二当前分辨率特征图进行解码处理得到输出分割图步骤时,具体实现如下步骤:对所述权重特征图进行残差处理得到残差特征图;对所述残差特征图、所述第一当前分辨率特征图以及第二当前分辨率特征图进行上采样操作得到采样特征图;对所述采样特征图进行卷积及上采样操作得到输出分割图。
在某些实施例,例如本实施例中,处理器302在实现所述若满足特征图更新条件,则对所述参照卷积特征图及所述参照融合特征图进行更新,直至所述待分割视频分割完成为止步骤时,具体实现如下步骤:检测帧计数是否为预设帧数的整数倍;若所述帧计数为所述预设帧数的整数倍,则将所述输出分割图、所述当前帧图像以及所述第三当前分辨率特征图输入所述第二编码网络进行目标跟踪得到更新特征图;对所述更新特征图进行卷积处理得到第一更新卷积特征图及第二更新卷积特征图,并将所述第一更新卷积特征图及所述第二更新卷积特征图作为所述参照卷积特征图及所述参照融合特征图。
应当理解,在本发明实施例中,处理器302可以是中央处理单元(CentralProcessing Unit,CPU),该处理器302还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行上述基于融合编码网络的视频分割方法的任意实施例。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于融合编码网络的视频分割方法,其特征在于,包括:
获取用户指定的参照帧图像及与所述参照帧图像相对应的参照分割图像,其中,所述参照帧图像为待分割视频中的任意一帧图像;
将所述参照帧图像输入融合编码网络得到参照分辨率特征图,并对所述参照分辨率特征图进行卷积处理得到参照卷积特征图;
将所述参照分辨率特征图及所述参照分割图像输入所述融合编码网络得到参照编码特征图,并对所述参照编码特征图及重叠扩展后的所述参照分辨率特征图进行级联及融合处理得到参照融合特征图;
获取所述待分割视频中的当前帧图像,并将所述当前帧图像输入所述融合编码网络得到第一当前分辨率特征图、第二当前分辨率特征图以及第三当前分辨率特征图,对所述第三当前分辨率特征图进行卷积处理得到当前卷积特征图;
对所述当前卷积特征图、所述参照卷积特征图以及所述参照融合特征图进行注意力权重计算得到权重特征图;
对所述权重特征图、所述第一当前分辨率特征图以及第二当前分辨率特征图进行解码处理得到输出分割图;
若满足特征图更新条件,则对所述参照卷积特征图及所述参照融合特征图进行更新,直至所述待分割视频分割完成为止。
2.根据权利要求1所述的方法,其特征在于,所述将所述当前帧图像输入所述融合编码网络得到第一当前分辨率特征图、第二当前分辨率特征图以及第三当前分辨率特征图的步骤,包括:
将所述当前帧图像输入所述融合编码网络中的第一编码网络进行逐层特征提取得到第一当前分辨率特征图、第二当前分辨率特征图以及第三当前分辨率特征图。
3.根据权利要求2所述的方法,其特征在于,所述将所述参照分辨率特征图及所述参照分割图像输入所述融合编码网络得到参照编码特征图,并对所述参照编码特征图及重叠扩展后的所述参照分辨率特征图进行级联及融合处理得到参照融合特征图的步骤,包括:
将所述参照分辨率特征图及所述参照分割图像输入所述融合编码网络中的第二编码网络进行目标跟踪得到参照编码特征图;
对所述参照分辨率进行重叠扩展,并将重叠扩展后的所述参照分辨率特征图与所述参照编码特征图进行级联得到参照级联特征图;
对所述参照级联特征图进行残差融合处理得到参照融合特征图。
4.根据权利要求1所述的方法,其特征在于,所述当前卷积特征图包括第一当前卷积特征图及第二当前卷积特征图,所述对所述当前卷积特征图、所述参照卷积特征图以及所述参照融合特征图进行注意力权重计算得到权重特征图的步骤,包括:
对所述第一当前卷积特征图及所述参照卷积特征图依次进行降维、相乘、减法以及归一化操作得到注意力特征图;
对所述注意力特征图、所述第二当前卷积特征图以及所述参照融合特征图进行注意力权重计算得到权重特征图。
5.根据权利要求4所述的方法,其特征在于,所述对所述注意力特征图、所述第二当前卷积特征图以及所述参照融合特征图进行注意力权重计算得到权重特征图的步骤,包括:
对所述第二当前卷积特征图进行遍历得到多个遍历特征图;
针对所述多个遍历特征图中的每一个遍历特征图进行降维处理得到降维特征图;
将所述降维特征图与所述注意力特征图进行相乘、升维以及级联操作得到目标注意力特征图;
将重叠扩展后的所述参照融合特征图与所述目标注意力特征图进行级联得到权重特征图。
6.根据权利要求1所述的方法,其特征在于,所述对所述权重特征图、所述第一当前分辨率特征图以及第二当前分辨率特征图进行解码处理得到输出分割图的步骤,包括:
对所述权重特征图进行残差处理得到残差特征图;
对所述残差特征图、所述第一当前分辨率特征图以及第二当前分辨率特征图进行上采样操作得到采样特征图;
对所述采样特征图进行卷积及上采样操作得到输出分割图。
7.根据权利要求3所述的方法,其特征在于,所述若满足特征图更新条件,则对所述参照卷积特征图及所述参照融合特征图进行更新,直至所述待分割视频分割完成为止的步骤,包括:
检测帧计数是否为预设帧数的整数倍;
若所述帧计数为所述预设帧数的整数倍,则将所述输出分割图、所述当前帧图像以及所述第三当前分辨率特征图输入所述第二编码网络进行目标跟踪得到更新特征图;
对所述更新特征图进行卷积处理得到第一更新卷积特征图及第二更新卷积特征图,并将所述第一更新卷积特征图及所述第二更新卷积特征图作为所述参照卷积特征图及所述参照融合特征图。
8.一种基于融合编码网络的视频分割装置,其特征在于,包括:
获取单元,用于获取用户指定的参照帧图像及与所述参照帧图像相对应的参照分割图像,其中,所述参照帧图像为待分割视频中的任意一帧图像;
第一编码卷积单元,用于将所述参照帧图像输入融合编码网络得到参照分辨率特征图,并对所述参照分辨率特征图进行卷积处理得到参照卷积特征图;
级联融合单元,用于将所述参照分辨率特征图及所述参照分割图像输入所述融合编码网络得到参照编码特征图,并对所述参照编码特征图及重叠扩展后的所述参照分辨率特征图进行级联及融合处理得到参照融合特征图;
第二编码卷积单元,用于获取所述待分割视频中的当前帧图像,并将所述当前帧图像输入所述融合编码网络得到第一当前分辨率特征图、第二当前分辨率特征图以及第三当前分辨率特征图,对所述第三当前分辨率特征图进行卷积处理得到当前卷积特征图;
注意力单元,用于对所述当前卷积特征图、所述参照卷积特征图以及所述参照融合特征图进行注意力权重计算得到权重特征图;
解码单元,用于对所述权重特征图、所述第一当前分辨率特征图以及第二当前分辨率特征图进行解码处理得到输出分割图;
更新单元,用于若满足特征图更新条件,则对所述参照卷积特征图及所述参照融合特征图进行更新,直至所述待分割视频分割完成为止。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210761115.7A CN115131708A (zh) | 2022-06-29 | 2022-06-29 | 基于融合编码网络的视频分割方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210761115.7A CN115131708A (zh) | 2022-06-29 | 2022-06-29 | 基于融合编码网络的视频分割方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115131708A true CN115131708A (zh) | 2022-09-30 |
Family
ID=83381359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210761115.7A Pending CN115131708A (zh) | 2022-06-29 | 2022-06-29 | 基于融合编码网络的视频分割方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115131708A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116630869A (zh) * | 2023-07-26 | 2023-08-22 | 北京航空航天大学 | 一种视频目标分割方法 |
-
2022
- 2022-06-29 CN CN202210761115.7A patent/CN115131708A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116630869A (zh) * | 2023-07-26 | 2023-08-22 | 北京航空航天大学 | 一种视频目标分割方法 |
CN116630869B (zh) * | 2023-07-26 | 2023-11-07 | 北京航空航天大学 | 一种视频目标分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188765B (zh) | 图像语义分割模型生成方法、装置、设备及存储介质 | |
CN109344789B (zh) | 人脸跟踪方法及装置 | |
CN108710885B (zh) | 目标对象的检测方法和装置 | |
CN111126359B (zh) | 基于自编码器与yolo算法的高清图像小目标检测方法 | |
CN109086811B (zh) | 多标签图像分类方法、装置及电子设备 | |
CN111161279B (zh) | 医学图像分割方法、装置及服务器 | |
CN111476719B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN111914654B (zh) | 一种文本版面分析方法、装置、设备和介质 | |
CN109815931B (zh) | 一种视频物体识别的方法、装置、设备以及存储介质 | |
CN112967272A (zh) | 基于改进U-net的焊接缺陷检测方法、装置及终端设备 | |
CN112258436A (zh) | 图像处理模型的训练方法、装置、图像处理方法及模型 | |
CN115147598A (zh) | 目标检测分割方法、装置、智能终端及存储介质 | |
CN115131708A (zh) | 基于融合编码网络的视频分割方法、装置、设备及介质 | |
CN112183627A (zh) | 生成预测密度图网络的方法和车辆年检标数量检测方法 | |
CN114694005A (zh) | 目标检测模型训练方法和装置、目标检测方法和装置 | |
CN116612280A (zh) | 车辆分割方法、装置、计算机设备和计算机可读存储介质 | |
CN112966754B (zh) | 样本筛选方法、样本筛选装置及终端设备 | |
CN116980541B (zh) | 视频编辑方法、装置、电子设备以及存储介质 | |
CN113313162A (zh) | 一种多尺度特征融合目标检测的方法及系统 | |
CN111612715B (zh) | 图像修复方法、装置和电子设备 | |
CN116258877A (zh) | 土地利用场景相似度变化检测方法、装置、介质及设备 | |
CN113256662B (zh) | 病理切片图像分割方法、装置、计算机设备和存储介质 | |
CN114708436A (zh) | 语义分割模型的训练方法、语义分割方法、装置和介质 | |
CN113139617A (zh) | 一种输电线路自主定位方法、装置及终端设备 | |
CN112508776A (zh) | 动作迁移方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |