CN111310594B - 一种基于残差纠正的视频语义分割方法 - Google Patents

一种基于残差纠正的视频语义分割方法 Download PDF

Info

Publication number
CN111310594B
CN111310594B CN202010065173.7A CN202010065173A CN111310594B CN 111310594 B CN111310594 B CN 111310594B CN 202010065173 A CN202010065173 A CN 202010065173A CN 111310594 B CN111310594 B CN 111310594B
Authority
CN
China
Prior art keywords
frame
video
semantic
image
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010065173.7A
Other languages
English (en)
Other versions
CN111310594A (zh
Inventor
李玺
冯君逸
李颂元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010065173.7A priority Critical patent/CN111310594B/zh
Publication of CN111310594A publication Critical patent/CN111310594A/zh
Application granted granted Critical
Publication of CN111310594B publication Critical patent/CN111310594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于残差纠正的视频语义分割方法,具体包括如下步骤:1)获取语义分割数据集,并定义算法目标;2)训练轻量级的图像语义分割的卷积神经网络模型;3)对待分割的视频进行解码,得到残差图、运动向量以及RGB图像;4)如果当前帧为关键帧,则用2)中得到的分割模型进行语义分割;5)如果当前帧为非关键帧,则利用运动向量将其前一帧的深层特征传递至当前,同时使用浅层卷积神经网络对当前帧提取空间特征,并对传递来的深层特征进行纠正;6)如此重复步骤4)、5)至完成所有视频帧的分割。本发明极大提升了基于帧间特征传递的视频分割方法的鲁棒性及准确性,同时保持基于特征传递方法的高效性。

Description

一种基于残差纠正的视频语义分割方法
技术领域
本发明属于计算机视觉领域,特别地涉及一种基于残差纠正的视频语义分割方法。
背景技术
视频语义分割,是将视频的帧序列的每个像素指定一个语义类别的计算机视觉任务。由于视频的帧与帧之间存在信息的冗余,许多视频语义分割方法利用帧间运动信息以减少冗余计算。这些方法把上一帧的分割结果传播到当前帧,这就大大加速了当前帧的计算过程。然而,当前的这类方法在分割精度上会有很大的损失,其原因有两方面。一方面,这些方法不能很好的保留局部细节,因为运动信息往往粒度较粗。另一方面,随着传播的帧越来越多,传播带来的误差也会累积,以致数帧之后的传播结果几乎不可用。如何利用帧间信息加速,又保证分割准确,是本方法解决的关键。
发明内容
为解决上述问题,本发明的目的在于提供一种基于残差纠正的视频语义分割方法。该方法基于深度神经网络,以图像语义分割模型为基础,在利用帧间特征传递实现实时的语义视频分割效果的基础上,进一步引入基于残差学习的纠正模块,从而提升基于特征传递分割方法的准确度和鲁棒性。
为实现上述目的,本发明的技术方案为:
一种基于残差纠正的语义视频分割方法,其包括以下步骤:
S1.获取用于训练语义视频分割的数据集,并定义算法目标;
S2.训练轻量级的图像语义分割卷积神经网络,得到语义分割模型;
S3.对视频进行解码,得到每一帧图像的残差图、运动向量、RGB图像;
S4.对于视频中的当前帧,如果当前帧为关键帧,则直接使用S2中得到的卷积神经网络模型对其RGB图像进行完整的语义图像分割;
S5.对于视频中的当前帧,如果当前帧为非关键帧,则利用其运动向量将其前一帧的深层特征传递至当前帧,同时使用浅层卷积神经网络对当前帧提取空间特征,并对传递来的深层特征进行纠正后完成其语义图像分割;
S6.对视频中的所有帧重复步骤S4和S5,至完成所有视频帧的语义分割。
在上述方案基础上,本发明的各步骤还可以进一步采用如下优选方式。
优选的,步骤S1中所述的算法目标为对于数据集中的每个视频V,检测V中每一帧图像的所有像素的语义分类。
优选的,步骤S2中所述的训练轻量级的图像语义分割卷积神经网络模型具体包括以下子步骤:
S21.利用卷积神经网络对单张图片中的每一个像素进行分类提取,得到图像I的分类预测结果为φ(I);同时,得到卷积神经网络的中间层输出特征图F;
S22.对分类预测结果和给定的分类标签计算交叉熵损失,不断优化卷积神经网络中的参数,训练得到最终的语义分割模型φ,φ包含编码器φhead和解码器φtail
优选的,步骤S3中所述的对视频进行解码时使用MPEG-4视频编解码标准,当前帧时刻为t,则解码过程如下:
S31.若当前第t帧为关键帧,则直接解码得到其RGB图像I(t);
S32.若当前第t帧为非关键帧,则首先部分解码得到其运动向量Mv(t)与残差向量Res(t),再依据像素域的平移及补偿变换进一步解码得到RGB图像I(t)。
优选的,步骤S4中所述的图像语义分割具体步骤如下:
S41.将当前RGB图像I(t)输入S2中训练的分割模型φ中进行预测;
S42.预测得到其语义分割结果Y(t)=φ(I(t)),同时得到语义分割模型输出的中间层特征F(t)。
优选的,步骤S5具体包含以下子步骤:
S51.使用当前第t帧的运动向量Mv(t)对前一帧的中间层特征F(t-1)进行像素域的平移,得到当前帧的中间层特征的估计值:
Figure BDA0002375753870000031
其中
Figure BDA0002375753870000032
表示经过平移后得到当前帧的中间层特征
Figure BDA0002375753870000033
中像素位置p处的估计值;p为像素坐标;Mv(t)[p]表示当前帧的运动向量图Mv(t)中像素位置p处的值;
S52.将当前帧的RGB图像I(t)输入S2中训练的语义分割模型φ的编码器φhead提取浅层特征f(t):
f(t)=φhead(I(t))
S53.利用当前帧的残差图Res(t),通过一个单层神经网络φZ计算其注意力图Z(t):
A(t)=φZ(Res(t))
S54.引入一个新的单层残差学习网络φR,利用f(t)对传递来的特征
Figure BDA0002375753870000041
通过残差学习的方式进行纠正,同时利用A(t)引入基于图像空间残差的注意力机制,计算得到特征空间的残差图ΔF(t):
Figure BDA0002375753870000042
S55.利用
Figure BDA0002375753870000043
ΔF(t)计算出当前帧的特征F(t):
Figure BDA0002375753870000044
将特征F(t)输入S2中的分割模型φ的解码器φtail进行解码,最终输出语义分割结果:
Y(t)=φtail(F(t))
基于S5步骤的非关键帧分割算法准确率比已有的基于帧间分割结果传递的算法准确率和鲁棒性高很多;同时,该方法的效率比逐帧通过卷积神经网络进行分割处理的方法高很多。
本发明充分利用了视频中相邻帧的相关性,同时,基于残差学习的理念,使用轻量级网络学习特征空间中的残差量,对帧间传播的特征图进行纠正。基于残差纠正的处理能够明显提升帧间传播分割方法的鲁棒性和准确率、避免错误累积,同时保持较高的处理速度。
附图说明
图1为本发明的的流程示意图。
图2为实施例中三种方法的可视化效果对比。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
如图1所示,一种基于残差纠正的语义视频分割方法,该方法的步骤如下:
S1.获取用于训练语义视频分割的数据集,并定义算法目标。本步骤中,算法目标为对于数据集中的每个视频V,检测V中每一帧图像的所有像素的语义分类。
S2.训练轻量级的图像语义分割卷积神经网络,得到语义分割模型。本步骤中,训练轻量级的图像语义分割卷积神经网络模型具体包括以下子步骤:
S21.利用卷积神经网络对单张图片中的每一个像素进行分类提取,得到图像I的分类预测结果为φ(I);同时,得到卷积神经网络的中间层输出特征图F;
S22.对分类预测结果和给定的分类标签计算交叉熵损失,不断优化卷积神经网络中的参数,训练得到最终的语义分割模型φ,φ包含编码器φhead和解码器φtail
S3.对视频进行解码,得到每一帧图像的残差图、运动向量、RGB图像。本步骤中,对视频进行解码时使用MPEG-4视频编解码标准,设定图片组GOP参数g、非关键帧比率β;当前帧时刻为t,则解码过程如下:
S31.若当前第t帧为关键帧,则直接解码得到其RGB图像I(t);
S32.若当前第t帧为非关键帧,则首先部分解码得到其运动向量Mv(t)与残差向量Res(t),再依据像素域的平移及补偿变换进一步解码得到RGB图像I(t)。
S4.对于视频中的当前帧,如果当前帧为关键帧,则直接使用S2中得到的卷积神经网络模型对其RGB图像进行完整的语义图像分割。本步骤中,图像语义分割具体步骤如下:
S41.将当前RGB图像I(t)输入S2中训练的分割模型φ中进行预测;
S42.预测得到其语义分割结果Y(t)=φ(I(t)),同时得到语义分割模型输出的中间层特征F(t)。
S5.对于视频中的当前帧,如果当前帧为非关键帧,则利用其运动向量将其前一帧的深层特征传递至当前帧,同时使用浅层卷积神经网络对当前帧提取空间特征,并对传递来的深层特征进行纠正后完成其语义图像分割。本步骤具体包含以下子步骤:
S51.使用当前第t帧的运动向量Mv(t)对前一帧的中间层特征F(t-1)进行像素域的平移,得到当前帧的中间层特征的估计值:
Figure BDA0002375753870000071
其中
Figure BDA0002375753870000072
表示经过平移后得到当前帧的中间层特征
Figure BDA0002375753870000073
中像素位置p处的估计值;p为像素坐标;Mv(t)[p]表示当前帧的运动向量图Mv(t)中像素位置p处的值;
S52.将当前帧的RGB图像I(t)输入S2中训练的语义分割模型φ的编码器φhead提取浅层特征f(t):
f(t)=φhead(I(t))
S53.利用当前帧的残差图Res(t),通过一个单层神经网络φA计算其注意力图A(t):
A(t)=φA(Res(t))
S54.引入一个新的单层残差学习网络φR,利用f(t)对传递来的特征
Figure BDA0002375753870000074
通过残差学习的方式进行纠正,同时利用A(t)引入基于图像空间残差的注意力机制,计算得到特征空间的残差图ΔF(t):
Figure BDA0002375753870000075
S55.利用
Figure BDA0002375753870000076
ΔF(t)计算出当前帧的特征F(t):
Figure BDA0002375753870000077
将特征F(t)输入S2中的分割模型φ的解码器φtail进行解码,最终输出语义分割结果:
Y(t)=φtail(F(t))。
S6.对视频中的所有帧重复步骤S4和S5,至完成所有视频帧的语义分割。
基于上述步骤的非关键帧分割算法准确率比已有的基于帧间分割结果传递的算法准确率和鲁棒性高很多;同时,该方法的效率比逐帧通过卷积神经网络进行分割处理的方法高很多。
当然,上述过程中的各神经网络在使用前先需要进行参数训练,训练完毕后在测试阶段,即可针对视频中的所有帧重复步骤S4和S5,完成所有视频帧的分割。
上述实施例中,本发明的语义视频分割方法首先训练了一个图片语义分割的卷积神经网络模型,接着利用视频前后帧之间的强相关性,以及卷积神经网络的空间保持特性,把中间层特征进行帧间传播。在此基础上,本发明采用了轻量级的纠正网络,对特征传播中出现的错误进行纠正。同时,依据注意力机制的设计方案,使用图像空间的残差对特征空间的残差学习进行注意力监督。本发明在维持帧间传播方法的高效率的同时,极大提升了该类方法的准确率以及鲁棒性。
本方法具有非常强的泛化能力,其框架可以被应用于其他更多视频的像素域识别任务中,包括视频目标检测、视频实例分割、视频全景分割等。且该模型的速度不依赖于具体的卷积神经网络网络结构,对于高精度模型和轻量级模型均有数倍至数十倍的速度提升。
实施例
下面基于上述方法进行仿真实验,本实施例的实现方法如前所述,不再详细阐述具体的步骤,下面仅展示实验结果。
本实施例使用FCN+Lateral Connections(LC)作为轻量级图像语义分割卷积神经网络模型。并在语义分割公开数据集Cityscapes上实施多次实验,其包含5000段视频短片段,证明了本方法可以明显地提升语义视频分割的效率,并保证准确性。算法中,设定图片组GOP参数g为12、B-帧比率β设置为0。
将本发明的方法与逐帧通过卷积神经网络进行图像分割处理的方法、只进行帧间传播而不采用残差学习和纠正的方法分别进行了对比,从算法流程可见其区别主要在是否进行S3~S5的帧间特征传播、残差学习与纠正操作。三种方法的实施效果如表1所示;三种方法的可视化效果如图2所示。
表1本发明在Cityscapes数据集上的实施效果
Figure BDA0002375753870000091
由此可见,通过以上技术方案,本发明实施例基于深度学习技术发展了一种基于残差纠正的语义视频分割方法。本发明利用帧间特征传播,在提高处理速度的同时,采用轻量级残差学习的方法对传播过程中可能产生的误差进行高效纠正。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于残差纠正的语义视频分割方法,其特征在于,包括以下步骤:
S1.获取用于训练语义视频分割的数据集,并定义算法目标;
S2.训练轻量级的图像语义分割卷积神经网络,得到语义分割模型;
S3.对视频进行解码,得到每一帧图像的残差图、运动向量、RGB图像;
S4.对于视频中的当前帧,如果当前帧为关键帧,则直接使用S2中得到的卷积神经网络模型对其RGB图像进行完整的语义图像分割;
S5.对于视频中的当前帧,如果当前帧为非关键帧,则利用其运动向量将其前一帧的深层特征传递至当前帧,同时使用浅层卷积神经网络对当前帧提取空间特征,并对传递来的深层特征进行纠正后完成其语义图像分割;
S6.对视频中的所有帧重复步骤S4和S5,至完成所有视频帧的语义分割;
步骤S5具体包含以下子步骤:
S51.使用当前第t帧的运动向量Mv(t)对前一帧的中间层特征F(t-1)进行像素域的平移,得到当前帧的中间层特征的估计值:
其中表示经过平移后得到当前帧的中间层特征中像素位置p处的估计值;p为像素坐标;Mv(t)[p]表示当前帧的运动向量图Mv(t)中像素位置p处的值;
S52.将当前帧的RGB图像I(t)输入S2中训练的语义分割模型φ的编码器φhead提取浅层特征f(t):
f(t)=φhead(I(t))
S53.利用当前帧的残差图Res(t),通过一个单层神经网络φA计算其注意力图A(t):
A(t)=φA(Res(t))
S54.引入一个新的单层残差学习网络φR,利用f(t)对传递来的特征通过残差学习的方式进行纠正,同时利用A(t)引入基于图像空间残差的注意力机制,计算得到特征空间的残差图ΔF(t):
S55.利用ΔF(t)计算出当前帧的特征F(t):
将特征F(t)输入S2中的分割模型φ的解码器φtail进行解码,最终输出语义分割结果:
Y(t)=φtail(F(t))。
2.根据权利要求1所述的语义视频分割方法,其特征在于步骤S1中所述的算法目标为对于数据集中的每个视频V,检测V中每一帧图像的所有像素的语义分类。
3.根据权利要求1所述的语义视频分割方法,其特征在于步骤S2中所述的训练轻量级的图像语义分割卷积神经网络模型具体包括以下子步骤:
S21.利用卷积神经网络对单张图片中的每一个像素进行分类提取,得到图像I的分类预测结果为φ(I);同时,得到卷积神经网络的中间层输出特征图F;
S22.对分类预测结果和给定的分类标签计算交叉熵损失,不断优化卷积神经网络中的参数,训练得到最终的语义分割模型φ,φ包含编码器φhead和解码器φtail
4.根据权利要求1所述的语义视频分割方法,其特征在于步骤S3中所述的对视频进行解码时使用MPEG-4视频编解码标准,当前帧时刻为t,则解码过程如下:
S31.若当前第t帧为关键帧,则直接解码得到其RGB图像I(t);
S32.若当前第t帧为非关键帧,则首先部分解码得到其运动向量Mv(t)与残差向量Res(t),再依据像素域的平移及补偿变换进一步解码得到RGB图像I(t)。
5.根据权利要求1所述的语义视频分割方法,其特征在于步骤S4中所述的图像语义分割具体步骤如下:
S41.将当前RGB图像I(t)输入S2中训练的分割模型φ中进行预测;
S42.预测得到其语义分割结果Y(t)=φ(I(t)),同时得到语义分割模型输出的中间层特征F(t)。
CN202010065173.7A 2020-01-20 2020-01-20 一种基于残差纠正的视频语义分割方法 Active CN111310594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010065173.7A CN111310594B (zh) 2020-01-20 2020-01-20 一种基于残差纠正的视频语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010065173.7A CN111310594B (zh) 2020-01-20 2020-01-20 一种基于残差纠正的视频语义分割方法

Publications (2)

Publication Number Publication Date
CN111310594A CN111310594A (zh) 2020-06-19
CN111310594B true CN111310594B (zh) 2023-04-28

Family

ID=71146889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010065173.7A Active CN111310594B (zh) 2020-01-20 2020-01-20 一种基于残差纠正的视频语义分割方法

Country Status (1)

Country Link
CN (1) CN111310594B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111815638A (zh) * 2020-07-01 2020-10-23 浙江大华技术股份有限公司 视频分割网络模型的训练方法、视频分割方法及相关设备
CN112714336B (zh) * 2020-12-01 2022-12-02 万兴科技集团股份有限公司 视频分割方法和装置、电子设备、计算机可读存储介质
CN115713625A (zh) * 2022-11-18 2023-02-24 盐城众拓视觉创意有限公司 一种教学实录视频与课件背景的快速结合成片方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105992009A (zh) * 2015-02-05 2016-10-05 袁琳琳 基于运动补偿和分块的视频压缩感知的处理方法
CN108876792A (zh) * 2018-04-13 2018-11-23 北京迈格威科技有限公司 语义分割方法、装置和系统及存储介质
CN109919044A (zh) * 2019-02-18 2019-06-21 清华大学 基于预测进行特征传播的视频语义分割方法及装置
CN110147763A (zh) * 2019-05-20 2019-08-20 哈尔滨工业大学 基于卷积神经网络的视频语义分割方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015138008A1 (en) * 2014-03-10 2015-09-17 Euclid Discoveries, Llc Continuous block tracking for temporal prediction in video encoding
WO2018169571A1 (en) * 2017-03-15 2018-09-20 Google Llc Segmentation-based parameterized motion models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105992009A (zh) * 2015-02-05 2016-10-05 袁琳琳 基于运动补偿和分块的视频压缩感知的处理方法
CN108876792A (zh) * 2018-04-13 2018-11-23 北京迈格威科技有限公司 语义分割方法、装置和系统及存储介质
CN109919044A (zh) * 2019-02-18 2019-06-21 清华大学 基于预测进行特征传播的视频语义分割方法及装置
CN110147763A (zh) * 2019-05-20 2019-08-20 哈尔滨工业大学 基于卷积神经网络的视频语义分割方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Jain S, Gonzalez J E..Fast semantic segmentation on video using block motion-based feature interpolation.《Proceedings of the European Conference on Computer Vision (ECCV) Workshops》.2019,全文. *
Jain S, Wang X, Gonzalez J E..Accel: A corrective fusion network for efficient semantic segmentation on video.《IEEE》.2020,全文. *
Romera E, Alvarez J M, Bergasa L M, et al..Erfnet: Efficient residual factorized convnet for real-time semantic segmentation.《IEEE》.2017,全文. *
Tan Z, Liu B, Li W, et al..Real time compressed video object segmentation.《IEEE》.2019,全文. *
王凤领 ; .一种压缩视频流的视频分段和关键帧提取方法.智能计算机与应用.2017,(第05期),全文. *

Also Published As

Publication number Publication date
CN111310594A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN111310594B (zh) 一种基于残差纠正的视频语义分割方法
CN109064507B (zh) 一种用于视频预测的多运动流深度卷积网络模型方法
CN110796662B (zh) 一种实时的语义视频分割方法
Truong et al. GOCor: Bringing globally optimized correspondence volumes into your neural network
CN110782490A (zh) 一种具有时空一致性的视频深度图估计方法及装置
Wu et al. Learned block-based hybrid image compression
CN109948721B (zh) 一种基于视频描述的视频场景分类方法
TW202247650A (zh) 使用機器學習系統進行隱式圖像和視訊壓縮
US20180124425A1 (en) Motion estimation through machine learning
CN111354030B (zh) 嵌入SENet单元的无监督单目图像深度图生成方法
Liu et al. Temporal group fusion network for deep video inpainting
CN116824694A (zh) 基于时序聚合和门控Transformer的动作识别系统及方法
Sheng et al. Vnvc: A versatile neural video coding framework for efficient human-machine vision
Yadav et al. Video object detection from compressed formats for modern lightweight consumer electronics
WO2023185693A1 (zh) 图像处理方法、相关装置和系统
Liao et al. Geometry-aware network for domain adaptive semantic segmentation
CN111723735A (zh) 一种基于卷积神经网络的伪高码率hevc视频检测方法
Wang et al. Surveillance video coding for traffic scene based on vehicle knowledge and shared library by cloud-edge computing in cyber-physical-social systems
Guan et al. Iterative loop method combining active and semi-supervised learning for domain adaptive semantic segmentation
CN116152710A (zh) 一种基于跨帧实例关联的视频实例分割方法
CN116188535A (zh) 基于光流估计的视频跟踪方法、装置、设备及存储介质
CN111292357B (zh) 一种基于相关滤波的视频帧间快速运动估计方法
Li et al. Motion-compensated frame interpolation using patch-based sparseland model
Li et al. Refined division features based on Transformer for semantic image segmentation
An et al. Dual correlation network for efficient video semantic segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant