CN113420707A - 一种基于弱监督学习的视频目标检测方法 - Google Patents

一种基于弱监督学习的视频目标检测方法 Download PDF

Info

Publication number
CN113420707A
CN113420707A CN202110759622.2A CN202110759622A CN113420707A CN 113420707 A CN113420707 A CN 113420707A CN 202110759622 A CN202110759622 A CN 202110759622A CN 113420707 A CN113420707 A CN 113420707A
Authority
CN
China
Prior art keywords
target
loss
video
frame
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110759622.2A
Other languages
English (en)
Other versions
CN113420707B (zh
Inventor
朱锦雷
井琨
许野平
朱爱红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Synthesis Electronic Technology Co Ltd
Original Assignee
Synthesis Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Synthesis Electronic Technology Co Ltd filed Critical Synthesis Electronic Technology Co Ltd
Priority to CN202110759622.2A priority Critical patent/CN113420707B/zh
Publication of CN113420707A publication Critical patent/CN113420707A/zh
Application granted granted Critical
Publication of CN113420707B publication Critical patent/CN113420707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于弱监督学习的视频目标检测方法,通过设计新型注意力网络模型,基于较少的全标注数据及海量简单标注数据,使网络模型的空间及通道注意力机制高效工作,从而可以基于海量样本进行弱监督训练学习,取得高精度的目标检测效果。注意力网络模型是实现高精度物体检测的必要技术手段,但是在目标识别过程中,所关注的区域热点可能会受到运动背景物体的干扰,有些输入数据预测结果较好,而另一些则很差,本方法引入了位置注意力内部损失函数,通过在视频中跟踪目标区域,生成用于检测的伪定位标签,用于注意力网络模型的弱监督训练,从而实现少量标注样本向海量样本的高效迁移学习。

Description

一种基于弱监督学习的视频目标检测方法
技术领域
本发明涉及一种基于弱监督学习的视频目标检测,属于图像分析与机器学习领域。
背景技术
在图像分析与识别领域,有监督学习一般需要标注海量的数据。当基于视频流检测目标或行为时,往往需要对视频流中每帧图像中的目标进行标注,标注工作量显著增加。
通过半监督、弱监督、无监督三种学习方式,可消除或减少训练模型对人工标注样本的依赖。一般认为,半监督学习是在有监督学习得到模型基础上,基于新的无标签数据进行二次无监督训练得到新的模型。无监督学习,指算法不依赖标注样本,自动发现数据中蕴含的规律,按一定的损失计算方法进行训练模型。弱监督一般是基于标记不正确、多种标记、标记不充分、局部标记等的数据进行训练模型。
发明内容
本发明要解决的技术问题是提供一种基于弱监督学习的视频目标检测方法,利用特定目标在指定区域内视频片段位置及特征连续性特点,标注数据时只需要指定该视频片段中该目标的大概出现的视频帧位置及目标类别(帧标注),无需对视频每帧图像进行详细标签(段标注),该弱监督训练学习方法通过设计网络模型与系列损失函数实现了与有监督学习性能相当的效果。
为了解决所述技术问题,本发明采用的技术方案是:一种基于弱监督学习的视频目标检测方法,包括以下步骤:
S01)、输入视频片段至基准模型,基准模型针对输入进行视频目标检测,输出关键帧中的视频目标位置与类别;
S02)、基于基准模型的输出计算损失函数,在损失函数驱动下对基准模型分两步进行训练,首先基于有目标位置的带标签样本进行预监督训练,生成预训练模型,其次基于预训练模型和无目标位置标签样本对基准模型进行弱监督训练,从而实现对基准模型的优化。
进一步的,步骤S02的预监督训练和弱监督训练采用一系列子损失函数组合,各子函数分别为:
A、分类交叉熵损失函数,
为了加速计算,基于对原始图像网格化分割的基本思想,将输入样本按S×S网格等比例划分,则相应的分类交叉熵损失函数为:
Figure BDA0003147729080000011
其中i为输入样本划分网格的标号,s2为网格数目,输入样本上锁定目标中心所需要的候选框模板数目为B,j为候选框模板的标号,
Figure BDA0003147729080000012
代表网格标号为i、候选框模板标号为j时,是否存在类别为cls的目标,存在时,
Figure BDA0003147729080000013
否则为0;
Figure BDA0003147729080000014
和Pi j分别代表预测概率及实际标签;
B、位置损失函数,
首先,假设单帧图像内目标位置损失如下:
Figure BDA0003147729080000021
其中,
Figure BDA0003147729080000022
代表网格标号为i、候选框模板标号为j时,是否存在类别为cls的目标,存在时,
Figure BDA0003147729080000023
否则为0,B为锁定目标中心所需要的候选框模板数目,s2为网格数目;
Figure BDA0003147729080000024
分别代表样本中标注的横向中心坐标、纵向中心坐标、目标宽度、目标高度及目标可信度,
Figure BDA0003147729080000025
代表
Figure BDA0003147729080000026
相应的预测值;λco为人工指定的加权系数,即为超参数;
由于输入样本是视频序列片段,它由连续视频帧构成,所以序列位置损失定位为:
Figure BDA0003147729080000027
其中N为样本序列的长度,Lossloc(k;)代表视频序列中第k帧图像的位置损失;C、伪位置损失函数,
伪位置损失关注两个网络分支关键帧之间的目标位置损失,定位为:
Figure BDA0003147729080000028
其中,
Figure BDA0003147729080000029
是由网络分支四生成的位置标签,它作为位置损失计算的基准,
Figure BDA00031477290800000210
是由网络分支三生成的位置标签;
D、跟踪损失函数;
使用目标跟踪函数计算临近帧的目标位置,与网络预测位置进行比较,形成目标追踪损失,定义为:
Figure BDA00031477290800000211
其中
Figure BDA00031477290800000212
为输入序列clip的第i帧目标预测位置,
Figure BDA00031477290800000213
为输入序列clip的第i-1帧目标预测位置,
Figure BDA00031477290800000214
通过追踪器Tracker后,计算与
Figure BDA00031477290800000215
之间的位置正则化损失;
E、特征连续性损失函数;
Xg={xg,0,xg,1,…,xg,N},
dg,i,j=dc(xg,i,xg,j)=f(xg,i)Tf(xg,j),
Figure BDA0003147729080000031
其中,Xg代表第g组视频序列,其中有N帧图像,dg,i,j代表g组中第i帧与第j帧预测目标的余弦相似度,f(·)代表图像中候选目标特征,对于批处理组中的第g-th视频系列Xg,其内部相邻两帧中的候选目标特征距离用余弦距离表示,那么DNCB代表邻域特征距离矩阵,直观上讲,xg,i与xg,i+1的特征距离越近越好,所以,DNCB中各特征距离的贡献是不同,其贡献值定义如下:
Figure BDA0003147729080000032
批处理组内特征连续性损失定义为:
Figure BDA0003147729080000033
其中ε为超参数,取值范围为0至1之间,ε用于调整dc的概率密度,当dc值分布较为集中时拉伸其分布空间。
进一步的,预监督训练阶段,外部损失函数GL及内部损失函数IL定义为:
Figure BDA0003147729080000034
其中,predictkey输入序列关键帧中的目标预测位置,truthkey为标签判断基准;在弱监督训练阶段,外部损失函数GL及内部损失函数IL定义为:
Figure BDA0003147729080000035
其中视频序列clip的长度为N,γ为跟踪损失影响系数,其调节区间为[1,N-1]。
进一步的,基准模型包括四个网络分支,网络分支一和网络分支二采用复杂度不同的3D-CNN网络,分别关注目标通道特征和空间特征,网络分支三对通道和空间特征进行融合,网络分支四用于计算视频序列的目标位置损失。
进一步的,弱监督训练阶段训练基准模型时,其相应的外部损失函数作用于网络分支一和网络分支三,相应的内部损失函数作用于分支二和分支四。
进一步的,步骤S02中的无位置标签样本指没有目标在图像中的具体位置,但有在视频中的起始及结束帧位置的样本数据。
本发明的有益效果:通过设计新型注意力网络模型,基于较少的全标注数据及海量简单标注数据,使网络模型的空间及通道注意力机制高效工作,从而可以基于海量样本进行弱监督训练学习,取得高精度的目标检测效果。注意力网络模型是实现高精度物体检测的必要技术手段,但是在目标识别过程中,所关注的区域热点可能会受到运动背景物体的干扰,有些输入数据预测结果较好,而另一些则很差,而我们无法事先决定选择输入内容。使用目标在视频序列内连续存在的特点,可增强网络模型的鲁棒性和抗噪声干扰能力,故,本方法引入了位置注意力内部损失函数,通过在视频中跟踪目标区域,生成用于检测的伪定位标签,用于注意力网络模型的弱监督训练,从而实现少量标注样本向海量样本的高效迁移学习。
附图说明
图1为基准模型的原理框图;
图2为基于弱监督学习的视频目标检测模型原理框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的说明。
实施例1
本实施例公开一种基于弱监督学习的视频目标检测方法,包括以下步骤:
S01)、输入视频片段至基准模型,基准模型针对输入进行视频目标检测,输出关键帧中的视频目标位置与类别;
S02)、基于基准模型的输出计算损失函数,在损失函数驱动下对基准模型分两步进行训练,首先基于有目标位置的带标签样本进行预监督训练,生成预训练模型,其次基于预训练模型和无目标位置标签样本对基准模型进行弱监督训练,从而实现对基准模型的优化。
本实施例采用基准模型进行视频目标检测,如图1所示,基准模型采用现有神经网络架构,包括四个网络分支,分别是网络分支一、网络分支二、网络分支三和网络分支四。网络分支一和网络分支二采用复杂度不同的3D-CNN网络,分别关注目标通道特征和空间特征,网络分支三对通道和空间特征进行融合,网络分支四主要用于计算序列的目标位置损失。在弱监督阶段训练基准模型时,其相应的外部损失函数作用于网络分支一和网络分支三,相应的内部损失函数作用于网络分支二和网络分支四。
本实施例中,无目标位置标签样本指没有目标在图像中的具体位置,但有在视频中的起始及结束帧位置的样本数据。在弱监督训练时,网络分支四生成目标在输入序列图像中的伪位置,以伪位置标签为基准,求取关键帧目标位置损失。同时以目标伪位置为基准,向前跟踪并输出前一帧的位置跟踪标签,计算各帧预测位置与跟踪标签之间的跟踪损失,由于网络分支四会以概率形式生成多个候选目标,候选目标之间存在可信度损失。
本实施例中,步骤S02的预监督训练和弱监督训练采用一系列子损失函数组合,各子函数分别为:
A、分类交叉熵损失函数,
为了加速计算,基于对原始图像网格化分割的基本思想,将输入样本按S×S网格等比例划分,则相应的分类交叉熵损失函数为:
Figure BDA0003147729080000051
其中i为输入样本划分网格的标号,s2为网格数目,输入样本上锁定目标中心所需要的候选框模板数目为B,j为候选框模板的标号,
Figure BDA0003147729080000052
代表网格标号为i、候选框模板标号为j时,是否存在类别为cls的目标,存在时,
Figure BDA0003147729080000053
否则为0;
Figure BDA0003147729080000054
Figure BDA0003147729080000055
分别代表预测概率及实际标签;
B、位置损失函数,
首先,假设单帧图像内目标位置损失如下:
Figure BDA0003147729080000056
其中,
Figure BDA0003147729080000057
代表网格标号为i、候选框模板标号为j时,是否存在类别为cls的目标,存在时,
Figure BDA0003147729080000058
否则为0,B为锁定目标中心所需要的候选框模板数目,s2为网格数目;
Figure BDA0003147729080000059
分别代表样本中标注的横向中心坐标、纵向中心坐标、目标宽度、目标高度及目标可信度,
Figure BDA00031477290800000510
代表
Figure BDA00031477290800000511
相应的预测值;λco为人工指定的加权系数,即为超参数;
由于输入样本是视频序列片段,它由连续视频帧构成,所以序列位置损失定位为:
Figure BDA00031477290800000512
其中N为样本序列的长度,如输入样本序列长度为16帧,则N=16;Loss(k;)代表视频序列中第k帧图像的位置损失,根据公式2计算Loss(k;),计算时,第k帧图像中标注的横向中心坐标、纵向中心坐标、目标宽度、目标高度及目标可信度对应公式2中的
Figure BDA00031477290800000513
它们对应的预测值对应公式2中的
Figure BDA0003147729080000061
C、伪位置损失函数,
伪位置损失关注两个网络分支关键帧之间的目标位置损失,定位为:
Figure BDA0003147729080000062
其中,
Figure BDA0003147729080000063
是由网络分支四生成的位置标签,它作为位置损失计算的基准,对应公式2中的
Figure BDA0003147729080000064
Figure BDA0003147729080000065
是由网络分支三生成的位置标签,对应公式2中的
Figure BDA0003147729080000066
D、跟踪损失函数;
使用目标跟踪函数计算临近帧的目标位置,与网络预测位置进行比较,形成目标追踪损失,定义为:
Figure BDA0003147729080000067
其中
Figure BDA0003147729080000068
为输入序列clip的第i帧目标预测位置,
Figure BDA0003147729080000069
为输入序列clip的第i-1帧目标预测位置,
Figure BDA00031477290800000610
通过追踪器Tracker后,计算与
Figure BDA00031477290800000611
之间的位置正则化损失。根据公式2计算
Figure BDA00031477290800000612
Figure BDA00031477290800000613
公式2中的
Figure BDA00031477290800000614
Figure BDA00031477290800000615
对应公式2中的
Figure BDA00031477290800000616
E、特征连续性损失函数;
特征连续性损失函数LNCB采用了在视频序列中,目标特征余弦距离较小及特征连续,以及不同特征相似强度对批处理组损失贡献不同的特性,进行计算所追踪目标的特征连续行损失。
具体规定如下:
Figure BDA00031477290800000617
其中,Xg代表第g组视频序列,其中有N帧图像,即xg,0至xg,N,dg,i,j代表g组中第i帧与第j帧预测目标的余弦相似度,f(·)代表图像中候选目标特征,对于批处理组中的第g-th视频系列Xg,其内部相邻两帧中的候选目标特征距离用余弦距离表示,那么DNCB代表邻域特征距离矩阵。参考图1,xg,N-1与xg,N代表网络分支四与网络分支三中输入的关键帧图像。直观上讲,xg,i与xg,i+1的特征距离越近越好,所以,DNCB中各特征距离的贡献是不同,其贡献值定义如下:
Figure BDA0003147729080000071
批处理组内特征连续性损失定义为:
Figure BDA0003147729080000072
其中ε为超参数,取值范围为0至1之间,ε用于调整dc的概率密度,当dc值分布较为集中时拉伸其分布空间。
预监督训练阶段,外部损失函数GL及内部损失函数IL定义为:
Figure BDA0003147729080000073
其中,predictkey输入序列关键帧中的目标预测位置,truthkey为标签判断基准;在弱监督训练阶段,外部损失函数GL及内部损失函数IL定义为:
Figure BDA0003147729080000074
其中视频序列clip的长度为N,γ为跟踪损失影响系数,其调节区间为[1,N-1]。
以上描述的仅是本发明的基本原理和优选实施例,本领域技术人员根据本发明做出的改进和替换,属于本发明的保护范围。

Claims (6)

1.一种基于弱监督学习的视频目标检测方法,其特征在于:包括以下步骤:
S01)、输入视频片段至基准模型,基准模型针对输入进行视频目标检测,输出关键帧中的视频目标位置与类别;
S02)、基于基准模型的输出计算损失函数,在损失函数驱动下对基准模型分两步进行训练,首先基于有目标位置的带标签样本进行预监督训练,生成预训练模型,其次基于预训练模型和无目标位置标签样本对基准模型进行弱监督训练,从而实现对基准模型的优化。
2.根据权利要求1所述的基于弱监督学习的视频目标检测方法,其特征在于:步骤S02的预监督训练和弱监督训练采用一系列子损失函数组合,各子函数分别为:
A、分类交叉熵损失函数,
为了加速计算,基于对原始图像网格化分割的基本思想,将输入样本按S×S网格等比例划分,则相应的分类交叉熵损失函数为:
Figure FDA0003147729070000011
其中i为输入样本划分网格的标号,s2为网格数目,输入样本上锁定目标中心所需要的候选框模板数目为B,j为候选框模板的标号,
Figure FDA0003147729070000012
代表网格标号为i、候选框模板标号为j时,是否存在类别为cls的目标,存在时,
Figure FDA0003147729070000013
否则为0;
Figure FDA0003147729070000014
Figure FDA0003147729070000015
分别代表预测概率及实际标签;
B、位置损失函数,
首先,假设单帧图像内目标位置损失如下:
Figure FDA0003147729070000016
其中,
Figure FDA0003147729070000017
代表网格标号为i、候选框模板标号为j时,是否存在类别为cls的目标,存在时,
Figure FDA0003147729070000018
否则为0,B为锁定目标中心所需要的候选框模板数目,s2为网格数目;
Figure FDA0003147729070000019
分别代表样本中标注的横向中心坐标、纵向中心坐标、目标宽度、目标高度及目标可信度,
Figure FDA00031477290700000110
代表
Figure FDA00031477290700000111
相应的预测值;λco为人工指定的加权系数,即为超参数;
由于输入样本是视频序列片段,它由连续视频帧构成,所以序列位置损失定位为:
Figure FDA0003147729070000021
其中N为样本序列的长度,Lossloc(k;)代表视频序列中第k帧图像的位置损失;
C、伪位置损失函数,
伪位置损失关注两个网络分支关键帧之间的目标位置损失,定位为:
Figure FDA0003147729070000022
其中,
Figure FDA0003147729070000023
是由网络分支四生成的位置标签,它作为位置损失计算的基准,
Figure FDA0003147729070000024
是由网络分支三生成的位置标签;
D、跟踪损失函数;
使用目标跟踪函数计算临近帧的目标位置,与网络预测位置进行比较,形成目标追踪损失,定义为:
Figure FDA0003147729070000025
其中
Figure FDA0003147729070000026
为输入序列clip的第i帧目标预测位置,
Figure FDA0003147729070000027
为输入序列clip的第i-1帧目标预测位置,
Figure FDA0003147729070000028
通过追踪器Tracker后,计算与
Figure FDA0003147729070000029
之间的位置正则化损失;
E、特征连续性损失函数;
Figure FDA00031477290700000210
其中,Xg代表第g组视频序列,其中有N帧图像,dg,i,j代表g组中第i帧与第j帧预测目标的余弦相似度,f(·)代表图像中候选目标特征,对于批处理组中的第g-th视频系列Xg,其内部相邻两帧中的候选目标特征距离用余弦距离表示,那么DNCB代表邻域特征距离矩阵,直观上讲,xg,i与xg,i+1的特征距离越近越好,所以,DNCB中各特征距离的贡献是不同,其贡献值定义如下:
Figure FDA0003147729070000031
批处理组内特征连续性损失定义为:
Figure FDA0003147729070000032
其中ε为超参数,取值范围为0至1之间,ε用于调整dc的概率密度,当dc值分布较为集中时拉伸其分布空间。
3.根据权利要求2所述的基于弱监督学习的视频目标检测方法,其特征在于:预监督训练阶段,外部损失函数GL及内部损失函数IL定义为:
Figure FDA0003147729070000034
其中,predictkey输入序列关键帧中的目标预测位置,truthkey为标签判断基准;在弱监督训练阶段,外部损失函数GL及内部损失函数IL定义为:
Figure FDA0003147729070000033
其中视频序列clip的长度为N,γ为跟踪损失影响系数,其调节区间为[1,N-1]。
4.根据权利要求3所述的基于弱监督学习的视频目标检测方法,其特征在于:基准模型包括四个网络分支,网络分支一和网络分支二采用复杂度不同的3D-CNN网络,分别关注目标通道特征和空间特征,网络分支三对通道和空间特征进行融合,网络分支四用于计算视频序列的目标位置损失。
5.根据权利要求4所述的基于弱监督学习的视频目标检测方法,其特征在于:弱监督训练阶段训练基准模型时,其相应的外部损失函数作用于网络分支一和网络分支三,相应的内部损失函数作用于分支二和分支四。
6.根据权利要求1所述的基于弱监督学习的视频目标检测方法,其特征在于:步骤S02中的无位置标签样本指没有目标在图像中的具体位置,但有在视频中的起始及结束帧位置的样本数据。
CN202110759622.2A 2021-07-05 2021-07-05 一种基于弱监督学习的视频目标检测方法 Active CN113420707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110759622.2A CN113420707B (zh) 2021-07-05 2021-07-05 一种基于弱监督学习的视频目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110759622.2A CN113420707B (zh) 2021-07-05 2021-07-05 一种基于弱监督学习的视频目标检测方法

Publications (2)

Publication Number Publication Date
CN113420707A true CN113420707A (zh) 2021-09-21
CN113420707B CN113420707B (zh) 2022-07-15

Family

ID=77721518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110759622.2A Active CN113420707B (zh) 2021-07-05 2021-07-05 一种基于弱监督学习的视频目标检测方法

Country Status (1)

Country Link
CN (1) CN113420707B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581350A (zh) * 2022-02-23 2022-06-03 清华大学 一种适用于单目3d目标检测任务的半监督学习方法
CN115080748A (zh) * 2022-08-16 2022-09-20 之江实验室 一种基于带噪标签学习的弱监督文本分类方法和装置
CN115080750A (zh) * 2022-08-16 2022-09-20 之江实验室 基于融合提示序列的弱监督文本分类方法、系统和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399406A (zh) * 2018-01-15 2018-08-14 中山大学 基于深度学习的弱监督显著性物体检测的方法及系统
CN110796093A (zh) * 2019-10-30 2020-02-14 上海眼控科技股份有限公司 目标跟踪方法、装置、计算机设备和存储介质
CN111523586A (zh) * 2020-04-16 2020-08-11 厦门大学 一种基于噪声可知的全网络监督目标检测方法
US20200272823A1 (en) * 2017-11-14 2020-08-27 Google Llc Weakly-Supervised Action Localization by Sparse Temporal Pooling Network
WO2020200502A1 (en) * 2019-04-05 2020-10-08 NEC Laboratories Europe GmbH Method and system for supporting autonomous driving of an autonomous vehicle
CN112200021A (zh) * 2020-09-22 2021-01-08 燕山大学 基于有限范围场景内的目标人群跟踪监控方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200272823A1 (en) * 2017-11-14 2020-08-27 Google Llc Weakly-Supervised Action Localization by Sparse Temporal Pooling Network
CN108399406A (zh) * 2018-01-15 2018-08-14 中山大学 基于深度学习的弱监督显著性物体检测的方法及系统
WO2020200502A1 (en) * 2019-04-05 2020-10-08 NEC Laboratories Europe GmbH Method and system for supporting autonomous driving of an autonomous vehicle
CN110796093A (zh) * 2019-10-30 2020-02-14 上海眼控科技股份有限公司 目标跟踪方法、装置、计算机设备和存储介质
CN111523586A (zh) * 2020-04-16 2020-08-11 厦门大学 一种基于噪声可知的全网络监督目标检测方法
CN112200021A (zh) * 2020-09-22 2021-01-08 燕山大学 基于有限范围场景内的目标人群跟踪监控方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIN WANG: "Gaze latent support vector machine for image classification", 《 2016 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》 *
翁政魁: "基于机器学习视觉目标分类识别方法研究", 《中国博士学位论文全文数据库》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581350A (zh) * 2022-02-23 2022-06-03 清华大学 一种适用于单目3d目标检测任务的半监督学习方法
CN114581350B (zh) * 2022-02-23 2022-11-04 清华大学 一种适用于单目3d目标检测任务的半监督学习方法
CN115080748A (zh) * 2022-08-16 2022-09-20 之江实验室 一种基于带噪标签学习的弱监督文本分类方法和装置
CN115080750A (zh) * 2022-08-16 2022-09-20 之江实验室 基于融合提示序列的弱监督文本分类方法、系统和装置
CN115080750B (zh) * 2022-08-16 2022-11-08 之江实验室 基于融合提示序列的弱监督文本分类方法、系统和装置
CN115080748B (zh) * 2022-08-16 2022-11-11 之江实验室 一种基于带噪标签学习的弱监督文本分类方法和装置

Also Published As

Publication number Publication date
CN113420707B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN113420707B (zh) 一种基于弱监督学习的视频目标检测方法
Li et al. YOLOv6: A single-stage object detection framework for industrial applications
Buchler et al. Improving spatiotemporal self-supervision by deep reinforcement learning
Dinkel et al. Towards duration robust weakly supervised sound event detection
Chen et al. Learning linear regression via single-convolutional layer for visual object tracking
CN110458022B (zh) 一种基于域适应的可自主学习目标检测方法
CN115641529A (zh) 基于上下文建模与背景抑制的弱监督时序行为检测方法
CN115131618A (zh) 基于因果推理的半监督图像分类方法
CN114743109A (zh) 多模型协同优化高分遥感图像半监督变化检测方法及系统
CN114596726B (zh) 基于可解释时空注意力机制的停车泊位预测方法
CN113313166B (zh) 基于特征一致性学习的船舶目标自动标注方法
CN113128410A (zh) 一种基于轨迹关联学习的弱监督行人重识别方法
CN112581502A (zh) 一种基于孪生网络的目标跟踪方法
Ansari et al. A survey of recent trends in two-stage object detection methods
CN106709934A (zh) 频域高斯核函数图像追踪方法
CN115797904A (zh) 一种智能驾驶视觉感知中多场景多任务的主动学习方法
Kang et al. Online multiple object tracking with recurrent neural networks and appearance Model
CN113988154A (zh) 一种基于不变信息蒸馏的无监督解耦图像生成方法
Chu et al. Regressive scale estimation for visual tracking
Jia et al. A Novel Fault Inspection Method of Steel Plate Surface
Wu et al. A Multi-Task Model for Sea-Sky Scene Perception with Information Intersection
CN114565972B (zh) 骨架动作识别方法、系统、设备与存储介质
Zhou et al. LC-BiDet: Laterally Connected Binary Detector With Efficient Image Processing
Junwei et al. Pedestrian Detection and Attribute Analysis Program Based on CNN
Kalb Measuring the Effects of Catastrophic Forgetting in

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant