CN113920153B - 基于编码-解码网络的深度运动分离方法 - Google Patents

基于编码-解码网络的深度运动分离方法 Download PDF

Info

Publication number
CN113920153B
CN113920153B CN202111076361.0A CN202111076361A CN113920153B CN 113920153 B CN113920153 B CN 113920153B CN 202111076361 A CN202111076361 A CN 202111076361A CN 113920153 B CN113920153 B CN 113920153B
Authority
CN
China
Prior art keywords
motion
network
optical flow
global
global motion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111076361.0A
Other languages
English (en)
Other versions
CN113920153A (zh
Inventor
毋立芳
杨雨辰
简萌
相叶
石戈
赵博煊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202111076361.0A priority Critical patent/CN113920153B/zh
Publication of CN113920153A publication Critical patent/CN113920153A/zh
Application granted granted Critical
Publication of CN113920153B publication Critical patent/CN113920153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/06Topological mapping of higher dimensional structures onto lower dimensional surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

基于编码‑解码网络的深度运动分离方法属于图像处理领域。从原始混合运动中估计全局运动和局部运动是有必要的。现有的全局运动估计算法无法表达复杂场景下的全部全局运动。同时,体育比赛转播视频等存在静止的记分牌等区域,对局部运动估计造成了影响。本发明提出了一种端到端的全局与局部运动估计网络,利用自动编码器将原始运动编码为代表全部全局运动的低维向量后解码为全局运动场。网络通过混合运动场中全局运动区域的运动值进行弱监督学习。进一步,Attention U‑net将粗糙局部运动中的记分牌等噪声区域的运动值去除,得到纯净的局部运动。在行为识别数据集NCAA,UCF‑101和单应性估计数据集DHE上的实验表明,该方法的全局运动和局部运动估计结果好于现有方法。

Description

基于编码-解码网络的深度运动分离方法
技术领域
本发明设计图像处理领域,涉及运动模式提取,具体涉及基于相机运动和个体运动属性的全局和局部运动模式分离方法。
背景技术
视频运动模式分析是视频分析与理解领域中的关键技术之一。主要任务是通过连续视频帧或帧间运动场估计视频中准确的相机的运动和前景中人或物体的运动。该技术在光流估计、视频稳像、目标分割、目标检测、行为识别等任务中具有很多的应用。视频中的运动信息通常由光流表征,光流本质上是全局运动和局部运动相加得到的混合运动,二者来自不同的主体,全局运动是相机运动的结果而局部运动是前景中物体的运动。两类运动来自不同的主体又表征了不同的运动信息,但是光流得到的混合运动将二者混在一起,目前大多数的方法并没有提取出纯粹的全局运动和局部运动,无法准确利用全局运动和局部运动信息进行后续任务的实现,因此有必要将二者进行分离。
运动分离方法包括全局运动估计、混合光流分离方法等。前者直接由图像估计全局运动,早期的工作根据图像对中的匹配角点、SIFT等特征点估计全局运动。深度学习方法利用图像的深度特征实现全局运动估计。这类方法的局限性在于仅能通过图像实现全局运动估计,无法提取局部运动。后者由混合光流直接分离出全聚合局部运动信息。Wu等人在2020年发表文章“Fusing motion patterns and key visual information for semanticevent recognition in basketball videos”,提出了基于统计分析的方法,该方法根据混合光流边缘区域还原完整的全局运动。进一步通过混合运动减去全局运动分离出局部运动。然而,当混合光流边缘区域出现局部运动时,该方法分离的全局运动和局部运动具有较大误差。Wu等人在2021年发表文章“Global Motion Estimation with IterativeOptimization-based Independent Univariate Model for Action Recognition”,进一步提出了基于迭代优化的方法,从水平和垂直尺度通过混合光流建模全局运动,并通过迭代算法优化出最优解。最后通过连续T帧光流去除记分牌区域的无效运动,得到准确的局部运动。然而该方法建模的全局运动无法表达相机的全部运动。同时,该方法仅通过当前光流无法得到准确的局部运动,不适合作为一个端到端的运动分离算法。
发明内容
为了有效的解决现有运动分离方法存在的问题,本发明提出了一种基于编码-解码网络的深度运动分离方法。本发明可以连接到任何混合光流估计算法之后,直接提取混合光流中的全局运动和局部运动。本发明提取的全局运动和局部运动在单应性估计任务和群体行为识别任务中得到了良好的应用,对后续任务具有良好的性能提升效果。发明的算法整体框架如图1所示。
本发明的具体步骤如下:
步骤一:构建一个用于分离全局运动的深度学习网络。全局运动和局部运动有较大差别,混合光流中全局运动点的值表示相机的运动,由于全局运动信息具有线性移不变特性,不同区域的全局运动值符合一致的运动规律,因此可以用少量的参数进行统一建模,最终重构完整的全局运动。
目前主流的运动模型包括平移变换模型、仿射变换模型、透视变换模型等。透视变换模型描述了3D空间到2D空间的映射关系,对于实际情况下全局运动变换前后点变换轨迹拟合准确度较高,很好地复原了实际场景下坐标系统间的映射情况。因此,网络设计的目的是将输入的光流拟合为低维度的运动向量,该运动向量与透视变换模型一样,可以很好地表达光流中的全局运动规律,进而通过运动向量生成完整的全局运动。基于这个特点,我们采用编码-解码网络,模拟参数化建模和运动场重构的过程,将高维度的光流编码为表示相机运动的低维向量。之后通过解码端将低维向量重构为全局运动。
步骤二:构建一个全局运动分离网络的训练方式。由于没有与光流对应的真实全局运动,我们设计了一种基于图像掩码的训练策略。本发明利用Wu等人在2021年发表文章“Global Motion Estimation with Iterative Optimization-based IndependentUnivariate Model for Action Recognition”为每张光流图生成对应尺寸相同的二值化掩码mask。mask中的每个点的值代表光流中对应点的运动模式分类,为0表示该点在光流中为局部运动,为1表示该点在光流中为全局运动。全局运动和光流在分类为全局运动的像素点具有一致的运动值,因此用mask约束网络输出在这些像素点的值与光流中对应点的值相等,即可使网络学习从这些全局运动区域学习到全局运动规律。本发明的全局运动分离损失函数L1为:
其中,w表示光流图的宽度,h表示光流图的高度,n表示当前训练数据批次中的样本数量,i是当前训练批次中第i个样本的索引,MMi (x,y)是当前训练批次中第i个光流在像素点(x,y)位置上的运动值,GMi (x,y)是当前训练批次中第i个网络的输出在像素点(x,y)位置上的运动值,Mi (x,y)是当前训练批次中第i个掩码在像素点(x,y)位置上的分类,1代表全局运动,0代表局部运动,因此Mi (x,y)=0时无需计算误差,双竖线表示L2范数运算。
步骤三:构建一个用于分离局部运动的深度学习网络和对应的网络训练策略。一般情况下,局部运动可以由光流与全局运动相减得到。光流中存在不符合全局运动和局部运动规律的运动无关区域中的运动值,比如篮球比赛场景中的及分配等标志。这些标志始终固定在转播画面的某些位置,不包含任何运动信息。因此,直接相减得到局部运动时会引入运动无关区域的噪声运动。网络的目标是去除特殊区域的噪声运动,得到高质量的局部运动。由于局部运动不像全局运动那样符合统一的规律,因此本发明采用基于编码-解码结构的Attention U-net网络,利用高维特征构建局部运动特征,并通过解码端生成完整的局部运动,去除噪声运动。由于没有与光流对应的真实局部运动,本发明设计了一种基于人工标注的训练策略。我们对光流中的噪声区域位置进行了人工标注。利用标注信息从光流中裁剪出噪声区域运动,与步骤一中得到的全局运动和局部运动分离网络的输出相加,得到重构的运动场。理想状态下,该重构的运动场与原始光流一致,因为原始光流为噪声区域的运动、全局运动和局部运动混叠而成。因此,约束运动场和光流之间的误差,即可进而约束局部运动分离网络的输出为局部运动。本发明的局部运动分离损失函数L2为:
其中,n表示当前训练数据批次中的样本数量,i是当前训练批次中第i个样本的索引,MMi是当前训练批次中第i个光流的运动值,IMi是当前训练批次中第i个光流的噪声区域运动值,GMi是当前训练批次中第i个光流的全局运动,OMi是局部分离网络的输出,双竖线表示L2范数运算。
与现有技术相比,本发明具有如下优点:
本发明通过两个编码-解码网络分别从光流中分离全局运动和局部运动,同时,针对两个网络分别设计了两种有效的训练策略。通过在多个数据集和多个计算机视觉任务中的对比,相较于之前的方法,本发明可以做到端到端地分离,可以更好地连接到任何光流估计网络之后实现运动分离,同时,多个计算机视觉任务通过本发明得到的全局运动和局部运动进一步提升了性能。
附图说明
图1是本发明示意图。
具体实施方式
本发明提出了一种基于编码-解码网络的深度运动分离方法。该发明的具体实现步骤如下:
步骤一:本发明首先通过Sun等人在2018年发表的文章“Cnns for optical flowusing pyramid,warping,and cost volume”计算得到两个相邻视频帧之间的光流,作为全局运动分离网络的输入。将光流转化为64*64*2的双通道运动场,两个通道分别代表水平运动幅度与垂直运动幅度。将光流平铺为长度为64*64*2=8192的一维向量ζ1输入网络。经过三个全连接层后,向量维度从8192->1024->128->8逐渐降低到8,得到8维向量ζ2。网络的具体参数见表1:
表1:全局运动分离网路的参数
输入特征维度 输出特征维度
全连接层1 8192 1024
全连接层2 1024 128
全连接层3 128 8
全连接层4 8 128
全连接层5 128 1024
全连接层6 1024 8192
向量中包含的局部运动信息不符合全局运动信息的运动规律,因此被当作噪声信息舍去。ζ2可以建模相机的全部运动。
其次,解码端被设计为与编码端对称的结构。通过三个全连接层8->128->1024->8192后,向量维度从8逐渐增加到8192,得到8192维向量ζ3。由于编码端的输入向量ζ2建模了相机的全部运动,因此通过解码端得到的向量ζ3仅包含代表相机运动的全局运动。最终,将ζ3还原为64*64*2的运动场,再转化为与输入光流尺寸一致的运动场,从而得到全局运动。
步骤二:本发明针对全局运动分离网络的特性实现了一种基于掩码mask的训练策略。利用Wu等人在2021年发表文章“Global Motion Estimation with IterativeOptimization-based Independent Univariate Model for Action Recognition”为每张光流图生成对应尺寸相同的二值化掩码mask,将mask转化为64*64*1大小。网络训练时,采用Adam学习率更新策略,训练批次大小设置为256,初始学习率设置为0.001,并将光流的值除以20进行归一化。在反向传播阶段,通过公式(1),用光流与全局运动相减的结果与mask相乘,实现对全局运动区域误差的保留,同时去除非全局运动区域的误差,实现对网络输出中的全局运动区域的约束,更新网络参数,使得8维的ζ2向量更好地表达全局运动规律。
步骤三:本发明将光流和步骤一中得到的全局运动经过组合作为局部运动分离网络的输入,具体如下:将光流与全局运动相减得到粗糙的局部运动,这个局部运动包含噪声区域的运动值。将粗糙的局部运动和光流都转化为64*64*2的双通道运动场,然后在特征通道将两个运动场拼接为64*64*4的运动场,输入局部运动分离网络。网络训练时,采用Adam学习率更新策略,训练批次大小设置为256,初始学习率设置为0.001,并将光输入运动场的值除以20进行归一化。网络训练时的反向传播过程,用公式(2)计算网络的误差,并更新网络权重参数。
为了验证本发明的有效性,将本发明算法的全局运动和局部运动估计结果在单应性估计数据集DHE和行为识别数据集UCF-101、NCAA上进行了实验。首先测试了本发明的全局运动在单应性估计任务的性能。如表2所示,本发明和目前的最佳方法即刘帅成团队提出的基于内容感知的方法相比,在某些类别中取得了与最佳方法一致的效果。
表2:单应性估计任务的性能对比
RE LL SF LF
内容感知 1.81 1.94 1.75 1.72
专利方法 1.81 1.95 1.97 2.07
随后,我们从行为识别数据集中随机抽取了200张光流,人工标注了局部运动和噪声区域。定义剩余区域为全局运动区域,将不同方法的全局运动中的全局运动区域与光流对应区域的误差作为指标,比较不同方法的全局运动估计效果,结果如表3所示。相较于目前的最佳方法,即毋立芳团队提出的统计分析方法和迭代优化方法,本发明具有最小的误差,全局运动估计效果最好,证明了本发明中全局运动分离的有效性。
表3:全局运动估计的性能对比
不同方法 误差
统计分析 0.573
迭代优化 0.314
专利方法 0.204
最后,我们在NCAA数据集上利用不同方法的局部运动进行了群体行为识别任务,通过C3D卷积提取一个事件中所有局部运动的时序特征进行行为事件的分类。利用不同方法得到的局部运动分别测试行为识别效果,结果如表4所示。相较于目前的最佳方法,即毋立芳团队提出的统计分析方法和迭代优化方法,利用本发明得到的局部运动进行行为识别任务的误差最小,证明了本发明中局部运动分离的有效性。
表4:NCAA数据集上的群体行为识别准确率
统计分析 迭代优化 Ours
3分球 0.695 0.802 0.777
罚球 0.821 0.866 0.910
上篮 0.626 0.593 0.594
2分球 0.563 0.582 0.614
扣篮 0.389 0.333 0.278
抢断 0.940 0.976 0.993
平均 0.672 0.688 0.690

Claims (1)

1.一种基于编码-解码网络的深度运动分离方法,其特征在于包括以下步骤:
(1)设计了一个用于分离全局运动的深度学习网络,对输入的光流分离出全局运动;
(2)针对全局运动分离网络的特点,设计了一种基于掩码mask的训练策略,对网络的输出进行约束,使网络学习光流中的全局运动特征;
(3)设计了一个局部运动分离深度学习网络和对应的网络训练策略,将光流和得到的全局运动经过组合输入局部运动分离网络,经网络计算后得到局部运动;并通过对应的训练策略约束网络的输出,使得网络从光流和粗糙的局部运动中提取出全局运动;
步骤(1)中,首先通过Pwc-Net深度学习算法计算得到两个相邻视频帧之间的光流,作为全局运动分离网络的输入;将光流转化为64*64*2的双通道运动场,两个通道分别代表水平运动幅度与垂直运动幅度;将光流平铺为长度为64*64*2=8192的一维向量ζ1输入网络;经过三个全连接层后,向量维度从8192->1024->128->8逐渐降低到8,得到8维向量ζ2;其次,解码端被设计为与编码端对称的结构;通过三个全连接层8->128->1024->8192后,向量维度从8逐渐增加到8192,得到8192维向量ζ3;由于编码端的输入向量ζ2建模了相机的全部运动,因此通过解码端得到的向量ζ3仅包含代表相机运动的全局运动;最终,将ζ3还原为64*64*2的运动场,再转化为与输入光流尺寸一致的运动场,从而得到全局运动;
步骤(2)中,利用迭代优化算法为每张光流图生成对应尺寸相同的二值化掩码mask,mask中的每个点的值代表光流中对应点的运动模式分类,为0表示该点在光流中为局部运动,为1表示该点在光流中为全局运动;将mask转化为64*64*1大小;全局运动和光流在分类为全局运动的像素点具有一致的运动值,因此用mask约束网络输出在这些像素点的值与光流中对应点的值相等,使网络学习从这些全局运动区域学习到全局运动规律;全局运动分离损失函数L1如公式(1)所示;网络训练时,采用Adam学习率更新策略,训练批次大小设置为256,初始学习率设置为0.001,并将光流的值除以20进行归一化;在反向传播阶段,通过公式(1),用光流与全局运动相减的结果与mask相乘,实现对全局运动区域误差的保留,同时去除非全局运动区域的误差,实现对网络输出中的全局运动区域的约束,更新网络参数,使得8维的ζ2向量更好地表达全局运动规律;其中,w表示光流图的宽度,h表示光流图的高度,n表示当前训练数据批次中的样本数量,i是当前训练批次中第i个样本的索引,MMi (x,y)是当前训练批次中第i个光流在像素点(x,y)位置上的运动值,GMi (x,y)是当前训练批次中第i个网络的输出在像素点(x,y)位置上的运动值,Mi (x,y)是当前训练批次中第i个掩码在像素点(x,y)位置上的分类,1代表全局运动,0代表局部运动,因此Mi (x,y)=0时无需计算误差,双竖线表示L2范数运算;
步骤(3)中,将光流与全局运动相减得到粗糙的局部运动,这个局部运动包含噪声区域的运动值;将粗糙的局部运动和光流都转化为64*64*2的双通道运动场,然后在特征通道将两个运动场拼接为64*64*4的运动场,输入局部运动分离网络;网络训练时,对光流中的噪声区域位置进行了人工标注;利用标注信息从光流中裁剪出噪声区域的运动,与步骤(1)中得到的全局运动和局部运动分离网络的输出相加,得到重构的运动场;约束运动场和光流之间的误差,进而约束局部运动分离网络的输出为局部运动,如公式(2)所示;采用Adam学习率更新策略,训练批次大小设置为256,初始学习率设置为0.001,并将光输入运动场的值除以20进行归一化;网络训练时的反向传播过程,用公式(2)计算网络的误差L2,并更新网络权重参数;其中,n表示当前训练数据批次中的样本数量,i是当前训练批次中第i个样本的索引,MMi是当前训练批次中第i个光流的运动值,IMi是当前训练批次中第i个光流的噪声区域运动值,GMi是当前训练批次中第i个光流的全局运动,OMi是局部分离网络的输出,双竖线表示L2范数运算;
CN202111076361.0A 2021-09-15 2021-09-15 基于编码-解码网络的深度运动分离方法 Active CN113920153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111076361.0A CN113920153B (zh) 2021-09-15 2021-09-15 基于编码-解码网络的深度运动分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111076361.0A CN113920153B (zh) 2021-09-15 2021-09-15 基于编码-解码网络的深度运动分离方法

Publications (2)

Publication Number Publication Date
CN113920153A CN113920153A (zh) 2022-01-11
CN113920153B true CN113920153B (zh) 2024-05-28

Family

ID=79234730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111076361.0A Active CN113920153B (zh) 2021-09-15 2021-09-15 基于编码-解码网络的深度运动分离方法

Country Status (1)

Country Link
CN (1) CN113920153B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07170523A (ja) * 1993-03-04 1995-07-04 Toshiba Corp 動画像符号化装置と動画像復号化装置
CN108898842A (zh) * 2018-07-02 2018-11-27 武汉大学深圳研究院 一种多源监控视频的高效编码方法及其系统
CN110210383A (zh) * 2019-05-31 2019-09-06 北京工业大学 一种融合运动模式和关键视觉信息的篮球视频语义事件识别方法
CN110348364A (zh) * 2019-07-05 2019-10-18 北京工业大学 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法
CN110910447A (zh) * 2019-10-31 2020-03-24 北京工业大学 一种基于动静态场景分离的视觉里程计方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07170523A (ja) * 1993-03-04 1995-07-04 Toshiba Corp 動画像符号化装置と動画像復号化装置
CN108898842A (zh) * 2018-07-02 2018-11-27 武汉大学深圳研究院 一种多源监控视频的高效编码方法及其系统
CN110210383A (zh) * 2019-05-31 2019-09-06 北京工业大学 一种融合运动模式和关键视觉信息的篮球视频语义事件识别方法
CN110348364A (zh) * 2019-07-05 2019-10-18 北京工业大学 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法
CN110910447A (zh) * 2019-10-31 2020-03-24 北京工业大学 一种基于动静态场景分离的视觉里程计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的动态场景相机姿态估计方法;路昊 等;高技术通讯;20200115(第01期);第45页-第51页 *

Also Published As

Publication number Publication date
CN113920153A (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
CN110111340B (zh) 基于多路割的弱监督实例分割方法
CN103336954B (zh) 一种视频中的台标识别方法和装置
CN106951830B (zh) 一种基于先验条件约束的图像场景多对象标记方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
Zhou et al. FSAD-Net: feedback spatial attention dehazing network
CN113657560B (zh) 基于节点分类的弱监督图像语义分割方法及系统
CN101971190A (zh) 实时身体分割系统
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN109685045A (zh) 一种运动目标视频跟踪方法及系统
CN110781850A (zh) 道路识别的语义分割系统和方法、计算机存储介质
CN105989614B (zh) 融合多源视觉信息的危险物体检测方法
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN113312973A (zh) 一种手势识别关键点特征提取方法及系统
Khan et al. Lrdnet: lightweight lidar aided cascaded feature pools for free road space detection
Hao et al. Recognition of basketball players’ action detection based on visual image and Harris corner extraction algorithm
CN117541652A (zh) 一种基于深度lk光流法与d-prosac采样策略的动态slam方法
CN105631405A (zh) 基于多级分块的交通视频智能识别背景建模方法
CN111462132A (zh) 一种基于深度学习的视频物体分割方法及系统
Shit et al. An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection
CN113763300A (zh) 一种联合深度上下文与卷积条件随机场的多聚焦图像融合方法
CN113920153B (zh) 基于编码-解码网络的深度运动分离方法
CN112016434A (zh) 一种基于注意力机制3d残差网络的镜头运动识别方法
CN116452793A (zh) 一种基于多视角和多层级的绿色编解码显著目标检测方法
CN114973305B (zh) 一种针对拥挤人群的精确人体解析方法
CN113628349B (zh) 基于场景内容自适应的ar导航方法、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant