CN111680643A - 基于弱监督互补学习的人体行为检测方法 - Google Patents

基于弱监督互补学习的人体行为检测方法 Download PDF

Info

Publication number
CN111680643A
CN111680643A CN202010529393.0A CN202010529393A CN111680643A CN 111680643 A CN111680643 A CN 111680643A CN 202010529393 A CN202010529393 A CN 202010529393A CN 111680643 A CN111680643 A CN 111680643A
Authority
CN
China
Prior art keywords
features
complementary
video
model
detection method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010529393.0A
Other languages
English (en)
Other versions
CN111680643B (zh
Inventor
韩雪平
王春芳
鲁守玮
王威
时倩如
胡兆麟
杨本环
姬玉侠
汤璟颖
姜梦园
度冉
孙冬阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Polytechnic Institute
Original Assignee
Henan Polytechnic Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Polytechnic Institute filed Critical Henan Polytechnic Institute
Priority to CN202010529393.0A priority Critical patent/CN111680643B/zh
Publication of CN111680643A publication Critical patent/CN111680643A/zh
Application granted granted Critical
Publication of CN111680643B publication Critical patent/CN111680643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于视频人体行为检测方法技术领域,具体是一种基于弱监督互补学习的人体行为检测方法,包括建立基于卷积神经网络构的弱监督网络模型、提取带有嵌入特性的特征表示及显著加权特征、根据特征表示及显著加权特征获取初始的预测结果、利用互补消除模型获取消除后的预测结果、将消除后的预测结果与未通过消除的初始的预测结果进行融合,获取最终预测结果。本发明通过对时域激活映射模型进行改进,并采用互补消除模块对数据进行修正,提升弱监督学习检测方法中的准确性。

Description

基于弱监督互补学习的人体行为检测方法
技术领域
本发明属于视频人体行为检测方法技术领域,具体是一种基于弱监督互补学习的人体行 为检测方法。
背景技术
视频人体行为检测方法需要完成两个任务:行为起始时间的预测和行为识别。目前的检 测方法多集中采用有监督学习的方法完成视频人体行为检测任务,在有监督学习领域中,视 频中包含的标签信息分为帧级标注和视频级标注,而行为检测需要的行为起始时间和动作识 别分别属于帧级标注和视频级标注。随着视频数据的不断增多,有监督学习的方法中对视频 的标注工作变得越来越困难,为后续视频行为检测带来更大的挑战。
弱监督学习方法在计算机视觉领域逐渐受到重视,涌现了一些基于弱监督学习的图像视 频分析方法,这为弱监督学习方法在视频行为检测领域的实现提供了更多可能。
基于弱监督学习的视频检测任务的输入为一段不定长度的视频,且该视频的真值不像有 监督任务那样,既包含视频中的所有动作类别又包含每个动作对应的开始时间和结束时间, 而是假设数据集中仅仅包含视频中发生的所有动作的类别。由此,基于弱监督学习的视频检 测任务根据输入的视频和该视频中包含的所有动作的类别训练弱监督动作定位模型,使得在 预测时,尽可能准确的识别出视频中对应的动作类别,以及每个动作类别对应的开始时间和 结束时间。
意味着,弱监督检测方法在可处理的数据量具有较大优势,但是其准确性缺无法达到有 监督学习的检测方法,所以如何提升弱监督学习检测方法中的准确性是本领域人员当前的重 点研究方向。
发明内容
有鉴于此,本发明的目的是针对现有技术的不足,提供一种基于弱监督互补学习的人体 行为检测方法,本发明通过对时域激活映射模型进行改进,并采用互补消除模块对数据进行 修正,提升弱监督学习检测方法中的准确性。
为达到上述目的,本发明采用以下技术方案:
基于弱监督互补学习的人体行为检测方法,包括以下步骤:
S1:建立基于卷积神经网络构的弱监督网络模型;
弱监督网络模型中包括具有嵌入特性的时域激活映射模型和互补消除模型;时域激活映 射模型包括时域激活映射层和位于时域激活映射层之后的卷积层C1,时域激活映射模型实现 在线的时域激活映射完成对动作发生的起始时间的捕获;
S2:提取带有嵌入特性的特征表示及显著加权特征;
提取待检测视频的原始特征,将原始特征输入时域激活映射模型,输出带有嵌入特性的 特征表示,提取特征表示的显著加权特征;
S3:根据特征表示及显著加权特征获取初始的预测结果;
将步骤S2所得显著加权特征输入分类器并获取初始的预测结果;预测结果包括行为类别 和起止时间;
S4:利用互补消除模型获取消除后的预测结果;具体为:
S4.1:采用互补消除模型对步骤S2所得显著加权特征进行互补消除,提取消除后的嵌入 特征;
S4.2:将步骤S4.1所得嵌入特征输入时域激活模型及互补分类器,获取消除后的预测结 果;
S5:将消除后的预测结果与未通过消除的初始的预测结果进行融合,获取最终预测结果。
进一步地,步骤S1所述卷积神经网络的卷积层卷积核大小为1×1,卷积神经网络的激活 函数为Relu激活函数,Relu激活函数如下:
Figure BDA0002534673770000021
进一步地,步骤S1中卷积层C1的激活函数为:
Figure BDA0002534673770000022
其中,zi表示卷积层C1的ReLU函数,f256和f1分别表示全连接层输入维度为256和1的 特征。
进一步地,步骤S2中提取待检测视频原始特征具体过程如下:
S2.1采用基于Kinetics数据集预训练建立的I3D网络模型;
S2.2采用I3D网络模型提取待检测视频V的原始特征Fi;所述原始特征Fi包括外观RGB 特征和光流特征。
进一步地,步骤S2特征表示的显著加权特征获取过程为:
利用sigmoid函数计算视频V中第i个视频的第j个输入片段的原始特征Fi,j的权重si, 计算公式如下:
Figure BDA0002534673770000031
根据所得原始特征Fi,j和权重si获取显著加权特征,计算公式如下:
Figure BDA0002534673770000032
公式(5)中,
Figure BDA0002534673770000033
表示Fi,j的显著加权特征;利用Fatt表示整个加权后的特征。
进一步地,在卷积神经网络Relu层的后面增加一个卷积层C2以提取Fatt的卷积特征,卷 积核大小为1×1,channel数为类别数N,然后,提取第i个视频的双流特征码Fl,Fl∈Rl×N, 其中l为第i个视频的帧数除以16得到的输入片段数,并对Fl对应的每个输入片段求和得到 Ff。
进一步地,步骤S4.1具体过程如下:
通过原始分类器S_cla和互补分类器E_cla对输入的显著加权特征进行互补消除,当对应 类别的时域激活映射区域R高于阈值α时,认为该区域对分类结果的贡献较高,利用消除原 理,将具有嵌入特性的特征表示F'对应区域擦除,得到消除后的嵌入特征。
进一步地,所述步骤2中卷积神经网络训练过程的损失函数floss的计算模型为:
floss=flossattS+flossS+flossattE+flossE (6)
其中,flossattS表示分类器S_cla的视觉注意力模块的损失,flossS表示原始分类器S_cla自 身的分类损失;flossattE表示互补分类器E_cla视觉注意力模块的损失,flossE表示互补分类器 E_cla自身的分类损失,视觉注意力模块的损失使用L1正则。
进一步地,每个步骤S4中行为类别采用交叉熵损失函数,并将所有类别的平均损失作为 最终的分类损失L:
Figure BDA0002534673770000034
其中,N表示分类数,yi为类别i的真值,其值为0或者1,y'i表示通过模型预测出的结果。
本发明的有益效果是:
1.通过时域激活映射模型对提取的特征进行分析,获取时序特性的加权特征,但该特征 缺乏视频时序的细节特征,用提出的互补消除模型,对已提取的加权特征进行互补,最终在 分类器和回归器的作用下,得到更加准确的预测结果。
2.本发明提出的方法与现有技术中有监督学习方法相比具有基本相同的性能,而且对比 已有的弱监督方法具有更准确的识别效果。
附图说明
图1为本发明各个模块在基础网络的对比结果;
图2为本发明投掷铅球的预测结果与真值的对比结果;
图3为本发明举重的预测结果与真值的对比结果。
具体实施方式
下面结合附图和实施例对本发明作进一步描述。
基于弱监督互补学习的人体行为检测方法,包括以下步骤:
S1:建立基于卷积神经网络构的弱监督网络模型。
弱监督网络模型中包括具有嵌入特性的时域激活映射模型和互补消除模型;时域激活映 射模型包括时域激活映射层和位于时域激活映射层之后的卷积层C1,时域激活映射模型实现 在线的时域激活映射完成对动作发生的起始时间的捕获;
步骤S1所述卷积神经网络的卷积层卷积核大小为1×1,卷积神经网络的激活函数为Relu 激活函数,Relu激活函数如下:
Figure BDA0002534673770000041
步骤S1中卷积层C1的激活函数为:
Figure BDA0002534673770000042
其中,zi表示卷积层C1的ReLU函数,f256和f1分别表示全连接层输入维度为256和1的 特征。
S2:提取带有嵌入特性的特征表示及显著加权特征。
具体为:提取待检测视频的原始特征,将原始特征输入时域激活映射模型,输出带有嵌 入特性的特征表示,提取特征表示的显著加权特征。
提取待检测视频原始特征的过程如下:
S2.1采用基于Kinetics数据集预训练建立的I3D网络模型;
S2.2采用I3D网络模型提取待检测视频V的原始特征Fi;所述原始特征Fi包括外观RGB 特征和光流特征。
特征表示提取过为:
S201选取一段视频V作为待检测视频,在时域激活映射模型中设置视频V的嵌入特征 层;
S202将视频V的原始特征Fi作为输入,通过三次卷积-Relu操作计算得到
Figure BDA0002534673770000051
S203将
Figure BDA0002534673770000055
与Fi求和,得到具有嵌入特性的特征表示Fi';
Figure BDA0002534673770000056
公式(3)表示卷积-ReLU操作中的ReLU,卷积操作使用1×1的卷积核。
本发明通过在时域激活映射层之后增加卷积层,实现在线的时域激活映射完成对动作发 生的时间起始时间的捕获,首先,使用视觉注意力模块学习输入特征的权重。然后,通过输 入特征与权重的乘积得到新的特征表示。具体过程为:
利用sigmoid函数计算视频V中第i个视频的第j个输入片段的原始特征Fi,j的权重si, 计算公式如下:
Figure BDA0002534673770000052
根据所得原始特征Fi,j和权重si获取显著加权特征,计算公式如下:
Figure BDA0002534673770000053
公式(5)中,
Figure BDA0002534673770000054
表示Fi,j的显著加权特征,Fatt表示整个加权后的特征。
S3:根据特征表示及显著加权特征获取初始的预测结果。
将步骤S2所得显著加权特征输入分类器并获取初始的预测结果;预测结果包括行为类别 和起止时间;
S4:利用互补消除模型获取消除后的预测结果。具体为:
S4.1:采用互补消除模型对步骤S2所得显著加权特征进行互补消除,提取消除后的嵌入 特征,具体过程如下:
通过原始分类器S_cla和互补分类器E_cla对输入的显著加权特征进行互补消除,当对应 类别的时域激活映射区域R高于阈值α时,认为该区域对分类结果的贡献较高,利用消除原 理,将具有嵌入特性的特征表示F'对应区域擦除,得到消除后的嵌入特征。
S4.2:将步骤S4.1所得嵌入特征输入时域激活模型及互补分类器,获取消除后的预测结 果。
S5:将消除后的预测结果与未通过消除的初始的预测结果进行融合,获取最终预测结果。
进一步地,在卷积神经网络Relu层的后面增加一个卷积层C2以提取Fatt的卷积特征,卷 积核大小为1×1,channel数为类别数N,然后,提取第i个视频的双流特征码Fl,Fl∈Rl×N, 其中l为第i个视频的帧数除以16得到的输入片段数,并对Fl对应的每个输入片段求和得到 Ff。
卷积神经网络训练过程的损失函数floss的计算模型为:
floss=flossattS+flossS+flossattE+flossE (6)
其中,flossattS表示分类器S_cla的视觉注意力模块的损失,flossS表示原始分类器S_cla自 身的分类损失;flossattE表示互补分类器E_cla视觉注意力模块的损失,flossE表示互补分类器 E_cla自身的分类损失,视觉注意力模块的损失使用L1正则。
本发明中分类任务属于多分类,对于每个类别本发明采用交叉熵损失函数,并将所有类 别的平均损失作为最终的分类损失L:
Figure BDA0002534673770000061
其中,N表示分类数,yi为类别i的真值,其值为0或者1,yi'表示通过模型预测出的结果。
下面结合具体实验数据对本发明效果进行验证。
本发明在数据集THUMOS’14上进行验证,并与目前现有的行为检测方法进行了对比,需 指出的是:其中包含的视频数据都是不定长的,并含有大量的背景信息,而行为片段仅仅是 其中的一小部分,另外,由于本发明采用基于弱监督学习的方法,数据集中所包含的视频行 为起止信息的时序标注均被隐藏。数据集THUMOS’14包含101个分类,对于动作定位任务, 共有20个类别的标注。其中,验证集中有200个视频数据包含时序动作标注;测试集中有 213个视频数据包含时序动作标注。THUMOS’14数据集的数据量虽然比较小,但是它大多数 视频中都包含多个动作片段,因此动作定位的难度很大。另一方面,数据集中的视频长度也 变化很大,最短的只有几秒,最长的一个多小时,这也加大了动作定位的难度。
在训练过程中,使用在Kinetics数据集上预训练的I3D网络提取互补模块所使用的特征。 对于一个视频,通过特征提取模块,可以分别得到RGB流输出的特征和opticalflow流输出 的特征
Figure BDA0002534673770000071
Figure BDA0002534673770000072
其中,学习率初始设置为1e-4,weight_decay设置为5e-4。测试时,将 sigmoid激活后的超过0.1的类别作为预测类别,然后使用这些预测类别对应的时域激活映 射值中超过0.53的位置进行消除。本实施例分别验证了各个模块的有效性,最后给出模型在 两个数据集上的结果。
为了评价各个模块对改进后方法的影响,本发明对模型中的各个模块进行了评测,如图 1所示,其中,SPTN表示使用1×1卷积替换掉STPN(Sparse Temporal PoolingNetwork) 方法中的全连接层后的方法,作为本发明对比使用的基准网络,FE表示特征嵌入模块的特征, OE表示互补消除模块。可以看出,STPN与SPTN两种方法的定位预测结果基本一致。本发明 提出的改进的时域激活映射模型可以学习到更有益于动作定位的特征。同时,通过互补消除 模块,可使互补的分类层在不基于明显分类特征的情况下,产生互补特征,从而大幅提升模 型的定位性能。
参见表1,本实施例同时对比了全监督的方法和弱监督的方法的性能。本发明的方法与 一些全监督的动作定位方法相比也有比较接近的性能。
表1.在数据集THUMOS’14上的测试结果
Figure BDA0002534673770000073
在表1中,本发明列出了在THUMOS’14数据集的测试集上,本发明提出的方法和现有的 动作定位方法的对比结果。从表1中可以看出,本发明提出的弱监督动作定位方法达到了较 优的定位性能。相比于基准网络STPN在IoU值0.1:0.5的平均mAP下提升了5个百分点。同 时,在低IoU阈值下,本发明提出的方法甚至能够与一些全监督的动作定位方法几乎相同。
在THUMOS’14数据集上,本发明将预测结果与真值(ground-truth)的对比结果进行了可 视化,如图2和图3所示。数据集THUMOS’14中的视频通常很长,每个预测视频可能会有多 个不同类别的动作片段,如图2和3所示,其中图2中包含的动作持续时间较短,并且其中 的多个相同类别的片段发生在不同的背景下,图3中包含的动作持续时间较长。在此基础上, 本发明提出的模型仍然能够精确的预测出动作片段的边界以及对应的类别。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,本领域普通技术人 员对本发明的技术方案所做的其他修改或者等同替换,只要不脱离本发明技术方案的精神和 范围,均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.基于弱监督互补学习的人体行为检测方法,其特征在于,包括以下步骤:
S1:建立基于卷积神经网络构的弱监督网络模型;
弱监督网络模型中包括具有嵌入特性的时域激活映射模型和互补消除模型;时域激活映射模型包括时域激活映射层和位于时域激活映射层之后的卷积层C1,时域激活映射模型实现在线的时域激活映射完成对动作发生的起始时间的捕获;
S2:提取带有嵌入特性的特征表示及显著加权特征;
提取待检测视频的原始特征,将原始特征输入时域激活映射模型,输出带有嵌入特性的特征表示,提取特征表示的显著加权特征;
S3:根据特征表示及显著加权特征获取初始的预测结果;
将步骤S2所得显著加权特征输入分类器并获取初始的预测结果;预测结果包括行为类别和起止时间;
S4:利用互补消除模型获取消除后的预测结果;具体为:
S4.1:采用互补消除模型对步骤S2所得显著加权特征进行互补消除,提取消除后的嵌入特征;
S4.2:将步骤S4.1所得嵌入特征输入时域激活模型及互补分类器,获取消除后的预测结果;
S5:将消除后的预测结果与未通过消除的初始的预测结果进行融合,获取最终预测结果。
2.根据权利要求1所述的基于弱监督互补学习的人体行为检测方法,其特征在于,步骤S1所述卷积神经网络的卷积层卷积核大小为1×1,卷积神经网络的激活函数为Relu激活函数,Relu激活函数如下:
Figure FDA0002534673760000011
3.根据权利要求2所述的基于弱监督互补学习的人体行为检测方法,其特征在于,步骤S1中卷积层C1的激活函数为:
Figure FDA0002534673760000012
其中,zi表示卷积层C1的ReLU函数,f256和f1分别表示全连接层输入维度为256和1的特征。
4.根据权利要求1所述的基于弱监督互补学习的人体行为检测方法,其特征在于,步骤S2中提取待检测视频原始特征具体过程如下:
S2.1采用基于Kinetics数据集预训练建立的I3D网络模型;
S2.2采用I3D网络模型提取待检测视频V的原始特征Fi;所述原始特征Fi包括外观RGB特征和光流特征。
5.根据权利要求4所述的基于弱监督互补学习的人体行为检测方法,其特征在于,步骤S2特征表示的显著加权特征获取过程为:
利用sigmoid函数计算视频V中第i个视频的第j个输入片段的原始特征Fi,j的权重si,计算公式如下:
Figure FDA0002534673760000021
根据所得原始特征Fi,j和权重si获取显著加权特征,计算公式如下:
Figure FDA0002534673760000022
公式(5)中,
Figure FDA0002534673760000023
表示Fi,j的显著加权特征;利用Fatt表示整个加权后的特征。
6.根据权利要求1所述的基于弱监督互补学习的人体行为检测方法,其特征在于,在卷积神经网络Relu层的后面增加一个卷积层C2以提取Fatt的卷积特征,卷积核大小为1×1,channel数为类别数N,然后,提取第i个视频的双流特征码Fl,Fl∈Rl×N,其中l为第i个视频的帧数除以16得到的输入片段数,并对Fl对应的每个输入片段求和得到Ff。
7.根据权利要求1所述的基于弱监督互补学习的人体行为检测方法,其特征在于,步骤S4.1具体过程如下:
通过原始分类器S_cla和互补分类器E_cla对输入的显著加权特征进行互补消除,当对应类别的时域激活映射区域R高于阈值α时,认为该区域对分类结果的贡献较高,利用消除原理,将具有嵌入特性的特征表示F'对应区域擦除,得到消除后的嵌入特征。
CN202010529393.0A 2020-06-11 2020-06-11 基于弱监督互补学习的人体行为检测方法 Active CN111680643B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010529393.0A CN111680643B (zh) 2020-06-11 2020-06-11 基于弱监督互补学习的人体行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010529393.0A CN111680643B (zh) 2020-06-11 2020-06-11 基于弱监督互补学习的人体行为检测方法

Publications (2)

Publication Number Publication Date
CN111680643A true CN111680643A (zh) 2020-09-18
CN111680643B CN111680643B (zh) 2023-06-02

Family

ID=72454653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010529393.0A Active CN111680643B (zh) 2020-06-11 2020-06-11 基于弱监督互补学习的人体行为检测方法

Country Status (1)

Country Link
CN (1) CN111680643B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018028255A1 (zh) * 2016-08-11 2018-02-15 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
CN110516536A (zh) * 2019-07-12 2019-11-29 杭州电子科技大学 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN110956185A (zh) * 2019-11-21 2020-04-03 大连理工大学人工智能大连研究院 一种图像显著目标的检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018028255A1 (zh) * 2016-08-11 2018-02-15 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
CN110516536A (zh) * 2019-07-12 2019-11-29 杭州电子科技大学 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN110956185A (zh) * 2019-11-21 2020-04-03 大连理工大学人工智能大连研究院 一种图像显著目标的检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张越等: "基于弱监督预训练CNN模型的情感分析方法", 《计算机工程与应用》 *
赵永威等: "基于弱监督E2LSH和显著图加权的目标分类方法", 《电子与信息学报》 *

Also Published As

Publication number Publication date
CN111680643B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
CN108230291B (zh) 物体识别系统训练方法、物体识别方法、装置和电子设备
CN111832516B (zh) 基于无监督视频表示学习的视频行为识别方法
CN108537119B (zh) 一种小样本视频识别方法
CN112016500A (zh) 基于多尺度时间信息融合的群体异常行为识别方法及系统
CN109902202B (zh) 一种视频分类方法及装置
CN113688723A (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
CN115713715B (zh) 一种基于深度学习的人体行为识别方法及识别系统
CN113255557B (zh) 一种基于深度学习的视频人群情绪分析方法及系统
CN111582126B (zh) 基于多尺度行人轮廓分割融合的行人重识别方法
CN112766218B (zh) 基于非对称联合教学网络的跨域行人重识别方法和装置
CN109993201A (zh) 一种图像处理方法、装置和可读存储介质
CN109919252A (zh) 利用少数标注图像生成分类器的方法
CN108491764A (zh) 一种视频人脸情绪识别方法、介质及设备
CN116681957B (zh) 一种基于人工智能的图像识别方法及计算机设备
CN114049581A (zh) 一种基于动作片段排序的弱监督行为定位方法和装置
CN115082752A (zh) 基于弱监督的目标检测模型训练方法、装置、设备及介质
Lin et al. Joint learning of local and global context for temporal action proposal generation
CN113111716A (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
CN115410119A (zh) 一种基于训练样本自适应生成的剧烈运动检测方法及系统
CN113283334B (zh) 一种课堂专注度分析方法、装置和存储介质
CN114037886A (zh) 图像识别方法、装置、电子设备和可读存储介质
CN112818774A (zh) 一种活体检测方法及装置
CN111539390A (zh) 一种基于Yolov3的小目标图像识别方法、设备和系统
CN111680643A (zh) 基于弱监督互补学习的人体行为检测方法
Song et al. Text Siamese network for video textual keyframe detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant