CN110232339B - 一种基于对比度的弱监督时序动作定位评价方法及系统 - Google Patents

一种基于对比度的弱监督时序动作定位评价方法及系统 Download PDF

Info

Publication number
CN110232339B
CN110232339B CN201910458525.2A CN201910458525A CN110232339B CN 110232339 B CN110232339 B CN 110232339B CN 201910458525 A CN201910458525 A CN 201910458525A CN 110232339 B CN110232339 B CN 110232339B
Authority
CN
China
Prior art keywords
action
contrast
video
time
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910458525.2A
Other languages
English (en)
Other versions
CN110232339A (zh
Inventor
王乐
刘子熠
郑南宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910458525.2A priority Critical patent/CN110232339B/zh
Publication of CN110232339A publication Critical patent/CN110232339A/zh
Application granted granted Critical
Publication of CN110232339B publication Critical patent/CN110232339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于对比度的弱监督时序动作定位评价方法及系统,属于计算机视觉与模式识别领域,包括:首先对视频中存在的对比度信息进行建模;然后利用对比度得到片段级别的边缘度度量;最后利用得到的边缘度和已知的片段级别动作分类结果对任意一个候选视频段进行打分。本发明综合考虑了开始,结束和内容三个方面,最终给出了具有较高的可靠性的评价结果;借助评价结果,时序动作定位的准确率可以得到极大提高。本发明可在弱监督条件下对任意一个视频时间段的动作定位效果进行综合评价,只需要视频级别的类别标注,不依赖复杂的动作边界标注数据,能够大大减轻数据的标注负担。

Description

一种基于对比度的弱监督时序动作定位评价方法及系统
技术领域
本发明属于计算机视觉与模式识别技术领域,特别涉及一种基于对比度的弱监督时序动作定位评价方法及系统。
背景技术
随着拍摄设备和网络的普及,视频数据的体量正在快速增长,社会对智能视频分析技术需求也越来越急迫。其中时序动作定位这一问题一直是研究的热点问题,在智能监控、动作搜索以及视频自动摘要方面都具有重大应用。如何找到视频中包含的目标动作并给出准确的动作开始、结束的时间边界仍是难点问题;该问题的一个难点在于训练数据的收集难度较大,不同于动作识别问题,可以被简单的归结为分类问题,只需要视频级别的类别标签,动作定位问题还需要额外的动作开始,结束的时间边界标签。相比于视频级别的类别标签,时间边界标签的标注难度更大,标注者需要观察视频的细节,并在完整浏览过整体视频的基础上给出标注,即付出的人工成本和时间成本都大大超过类别标签。当一个定位方法只需要类别标签,而不需要时间边界标签是,我们称该方法工作在“弱监督”条件下。一般的弱监督方法只是通过简单的阈值比较方法,对帧级别(或片段级别)的分类结果进行二值化,并将高于阈值视频部分作为动作定位结果。这样的方法缺乏灵活性,而且没有考虑视频中存在的时序信息,得到的效果也不够理想。
综上,亟需一种新的的弱监督时序动作定位评价方法。
发明内容
本发明的目的在于提供一种基于对比度的弱监督时序动作定位评价方法及系统,以解决上述存在的在弱监督条件下定位效果不理想的技术问题。本发明通过对视频中存在的对比度信息进行建模,可在弱监督条件下对任意一个视频时间段的动作定位效果进行评价,借助评价结果能够提高时序动作定位的准确率,获得较理想的定位效果。
为达到上述目的,本发明采用以下技术方案:
一种基于对比度的弱监督时序动作定位评价方法,包括以下步骤:
步骤1,获取片段级别的动作分类预测
Figure BDA0002077339470000021
和片段级别的注意力分数预测
Figure BDA0002077339470000022
利用最大值池化获得目标类别动作分类预测的局部最大值及其所在的时序位置,利用最小值池化获得目标类别动作分类预测的局部最小值及其所在的时序位置;
步骤2,对步骤1获得的局部最大值和局部最小值隐含的局部对比度信息进行显示建模,获得表示对比度强度的度量
Figure BDA0002077339470000023
以及表示对比度正负的符号函数
Figure BDA0002077339470000024
步骤3,将步骤2获得的表示对比度强度的度量
Figure BDA0002077339470000025
和表示对比度正负的符号函数
Figure BDA0002077339470000026
进行逐点相乘,获得片段级别的边缘度度量
Figure BDA0002077339470000027
步骤4,利用第i类动作的片段级别预测
Figure BDA0002077339470000028
和步骤3得到的
Figure BDA0002077339470000029
对视频中的任意起始时间位置的片段中第i类动作的定位效果进行评估。
本发明的进一步改进在于,步骤1中,根据
Figure BDA00020773394700000210
Figure BDA00020773394700000211
生成局部最大值及其位置、局部最小值及其位置的具体步骤包括:
利用片段级别的注意力分数预测
Figure BDA00020773394700000212
对片段级别的动作分类预测
Figure BDA00020773394700000213
进行预处理;包括:如果t位置的注意力分数
Figure BDA00020773394700000224
小于预设阈值,则将该位置的所有类别预测
Figure BDA00020773394700000214
均置为0;定位第i类动作时,取出Ψ的第i行,
Figure BDA00020773394700000215
对ψi进行步长为1的最大值池化,获得局部最大值向量
Figure BDA00020773394700000216
通过调整补零范围,使得输出的局部最大值向量
Figure BDA00020773394700000217
与ψi保持相同的维度;记录每个局部最大值的时序位置,即
Figure BDA00020773394700000218
利用片段级别的注意力分数预测
Figure BDA00020773394700000219
对片段级别的动作分类预测
Figure BDA00020773394700000220
进行预处理;包括:如果t位置的注意力分数
Figure BDA00020773394700000221
小于预设阈值,则将该位置的所有类别预测
Figure BDA00020773394700000222
均置为0;定位第i类动作时,取出Ψ的第i行,
Figure BDA00020773394700000223
对ψi进行步长为1的最小值池化,获得局部最小值向量
Figure BDA0002077339470000031
通过调整补零范围,使得输出的局部最小值向量
Figure BDA0002077339470000032
与ψi保持相同的维度;记录每个局部最小值的时序位置,即
Figure BDA0002077339470000033
本发明的进一步改进在于,步骤2中,
Figure BDA0002077339470000034
式中,⊙表示逐元素相乘,abs(·)表示逐元素取绝对值,[·]-1表示逐元素取倒数;
Figure BDA0002077339470000035
本发明的进一步改进在于,步骤3中,具有开始、结束区分性的片段级别的边缘度度量
Figure BDA0002077339470000036
的表达式为:
e=m⊙c;
对于第t个位置的视频片段,其边缘度值e(t)越接近1,则越表示其有可能是动作的开始,越接近-1,则越表示其有可能是动作的结束。
本发明的进一步改进在于,步骤4中,对任意一个视频中的时间段打分给出动作定位效果的评价分数的具体包括以下步骤:
S4.1,定义任意一个视频时间段P:[xs,xe],其中xs表示视频时间段P开始的位置,xe表示P结束的位置;
S4.2,将P:[xs,xe]进行时间上的收缩和扩张,分别得到收缩后的时间段
Figure BDA0002077339470000037
和扩张后的时间段
Figure BDA0002077339470000038
其中,xw=xe-xs,表示P的时间长度;
S4.3,对P:[xs,xe]进行“开始分数”评价,记为ss(P),即评价P与动作开始阶段的覆盖准确程度,计算公式为:
Figure BDA0002077339470000039
S4.4,对P:[xs,xe]进行“结束分数”评价,记为se(P),即评价P与动作结束阶段的覆盖准确程度,计算公式为:
Figure BDA0002077339470000041
S4.5,对P:[xs,xe]进行“内容分数”评价,记为sa(P),即评价P中内容与目标动作的相符程度,计算公式为:
Figure BDA0002077339470000042
S4.6,将步骤S4.3、S4.4和S4.5得到的开始分数、结束分数和内容分数相加,得到对P:[xs,xe]的综合评价分数s(P),计算公式为:
Figure BDA0002077339470000043
本发明的进一步改进在于,步骤S4.2中,
Figure BDA0002077339470000044
Figure BDA0002077339470000045
Figure BDA0002077339470000046
Figure BDA0002077339470000047
一种基于对比度的弱监督时序动作定位评价系统,包括:
获取模块,用于获取片段级别的动作分类预测
Figure BDA0002077339470000048
和片段级别的注意力分数预测
Figure BDA0002077339470000049
利用最大值池化获得目标类别动作分类预测的局部最大值及其所在的时序位置,利用最小值池化获得目标类别动作分类预测的局部最小值及其所在的时序位置;
建模模块,用于对获取模块获得的局部最大值和局部最小值隐含的局部对比度信息进行显示建模,获得表示对比度强度的度量
Figure BDA00020773394700000410
以及表示对比度正负的符号函数
Figure BDA00020773394700000411
评价模块,用于将建模模块获得的表示对比度强度的度量
Figure BDA00020773394700000412
和表示对比度正负的符号函数
Figure BDA00020773394700000413
进行逐点相乘,获得片段级别的边缘度度量
Figure BDA00020773394700000414
利用第i类动作的片段级别预测
Figure BDA00020773394700000415
和得到的
Figure BDA00020773394700000416
对视频中的任意起始时间位置的片段中第i类动作的定位效果进行评估。
其中,建模模块中,
Figure BDA0002077339470000051
式中,⊙表示逐元素相乘,abs(·)表示逐元素取绝对值,[·]-1表示逐元素取倒数;
Figure BDA0002077339470000052
评价模块中,
e=m⊙c。
与现有技术相比,本发明具有以下有益效果:
本发明通过对视频中存在的对比度信息进行建模,可在弱监督条件下对任意一个视频时间段的动作定位效果进行评价,而且该评价是结合该视频时间段的开始,结束和内容三个方面综合给出的,可靠性好;最终,借助评价结果,时序动作定位的准确率得到了极大提高。本发明的基于对比度的弱监督时序动作定位评价方法,利用视频中存在的对比度信息,对其进行有效建模,并利用该信息进行时序动作定位评价,使得定位方法可以在弱监督的条件下更好地对视频中包含的目标动作进行定位。本发明还可以指导回归模型的训练,使得模型在弱监督的条件下,通过对于对比度信息的挖掘得到进一步的参数训练。最终,借助我们的评价结果,时序动作定位的准确率得到了极大提高。本发明只需要视频级别的类别标注,不依赖复杂的动作边界标注数据,大大减轻了数据的标注负担,有利于本发明的推广应用。
附图说明
图1是本发明实施例的一种基于对比度的弱监督时序动作定位评价方法的流程示意框图;
图2是本发明实施例的一种基于对比度的弱监督时序动作定位评价方法的流程示意框图;
图3是本发明实施例中步骤4.2的示意图;
图4是在THUMOS’14数据集上本评价方法对已有方法的提升效果对比图;
图5是不同方法在THUMOS’14数据集上与其他同类方法的时序动作定位的结果对比示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
参见图1和图2,本发明实施例的一种基于对比度的弱监督时序动作定位评价方法,具体包括以下步骤:
步骤1:在已知片段级别的动作分类预测
Figure BDA0002077339470000061
和片段级别的注意力分数预测
Figure BDA0002077339470000062
的情况下,利用最大值池化,得到目标类别动作分类预测的局部最大值及其所在的时序位置。类似的,也得到局部最小值和对应的时序位置。
步骤1中具体步骤包括:
(1)对于已知片段级别的动作分类预测
Figure BDA0002077339470000063
利用片段级别的注意力分数预测
Figure BDA0002077339470000064
进行预处理,如果对于t位置的注意力分数
Figure BDA0002077339470000065
小于某一阈值,则该位置的所有类别预测
Figure BDA0002077339470000066
均置为0。
(2)如想要定位第i类动作,则取出Ψ的第i行,
Figure BDA0002077339470000067
对ψi进行步长为1的最大值池化,并通过调整补零范围,使得输出的局部最大值向量
Figure BDA0002077339470000068
与ψi保持相同的维度。
(3)在得到
Figure BDA0002077339470000069
的同时,记录下来每个最大值的时序位置,即
Figure BDA00020773394700000610
(4)利用相似的方法进行最小值池化,得到局部最小值向量
Figure BDA00020773394700000611
和对应的位置
Figure BDA00020773394700000612
步骤2:对局部最大值和最小值隐含的局部对比度信息进行显示建模,得到表示对比度强度的度量
Figure BDA00020773394700000613
和表示对比度正负的符号函数
Figure BDA00020773394700000614
步骤2具体包括以下步骤:
(1)利用局部最大值和最小值,对对比度强度进行建模。具体方式为:
Figure BDA0002077339470000071
其中,⊙表示逐元素相乘,abs(·)表示逐元素取绝对值,[·]-1表示逐元素取倒数。该方式通过利用局部最大值最小值之间的差距来衡量变化的剧烈程度,差距越大,对比度越大,差距越小,对比度越小;同时也考虑了最大值位置和最小值位置的距离因素,即距离越近变化越剧烈,对比度越大,反之则越小。
(2)利用局部最大值和最小值的位置,对对比度强度的正负进行区分。即需要区分出引起高对比度的位置中哪些对应动作由无到有(即动作开始,对应正),哪些对应由有到无(即动作结束,对应正)。具体公式为:
Figure BDA0002077339470000072
步骤3:将得到的对比度强度的度量
Figure BDA0002077339470000073
和表示对比度正负的符号函数
Figure BDA0002077339470000074
进行逐点相乘,得到片段级别的边缘度度量
Figure BDA0002077339470000075
具体可用公式表示:
e=m⊙c
通过融合对比度强度和符号,对于第t个位置的视频片段,其边缘度值e(t)越接近1,则越表示其有可能是动作的开始,越接近-1,则越表示其有可能是动作的结束。
步骤4:利用得到的
Figure BDA0002077339470000076
和第i类动作的片段级别预测
Figure BDA0002077339470000077
对任意一个视频中的时间段打分。
具体包括以下步骤:
(1)定义任意一个视频时间段P:[xs,xe],其中xs表示视频时间段P开始的位置,xe表示P结束的位置。
(2)将P:[xs,xe]进行时间上的收缩和扩张,分别得到收缩后的时间段
Figure BDA0002077339470000078
和扩张后的时间段
Figure BDA0002077339470000079
如图3所示。其中的起始位置由以下公式得到:
Figure BDA0002077339470000081
Figure BDA0002077339470000082
Figure BDA0002077339470000083
Figure BDA0002077339470000084
其中,xw=xe-xs,表示P的时间长度。
(3)对P:[xs,xe]进行“开始分数”评价,记为ss(P),即评价P与动作开始阶段的覆盖准确程度。计算方式为:
Figure BDA0002077339470000085
该公式表示从
Figure BDA0002077339470000086
Figure BDA0002077339470000087
的e的均值(表示P的开始阶段的动作对比度大小),减去从
Figure BDA0002077339470000088
到xs的ψi的均值(表示P开始阶段之前,发生该动作的概率)。当ss(P)越大时,表示P的开始阶段与动作开始阶段很符合的同时,P之前也没有该动作发生,也就是P的“开始分数”越大。
(4)对P:[xs,xe]进行“结束分数”评价,记为se(P),即评价P与动作结束阶段的覆盖准确程度。计算方式为:
Figure BDA0002077339470000089
该公式的设计思路与上一步骤类似,只是第一项的符号相反。
(5)对P:[xs,xe]进行“内容分数”评价,记为sa(P),即评价P中内容与目标动作的相符程度。计算方式为:
Figure BDA00020773394700000810
(6)将(3),(4),(5)得到的开始分数,结束分数和内容分数相加,得到对P:[xs,xe]的综合评价分数s(P):
Figure BDA00020773394700000811
最终得到的s(P),就是该基于对比度的弱监督时序动作定位评价方法对于任意视频时间段P:[xs,xe]的定位评估结果。
以下为常用的得到最终定位结果的方法:在得到每个候选视频时间段的评价之后,对这些时间段进行筛选,得到最终的视频动作时序定位结果。筛选的方法为,依据得到的每个候选视频时间段的评价,做非最大值抑制筛选。首先对所有的候选视频时间段按照我们的评价分数按照降序排序,然后依次遍历候选视频时间段,保留当前视频段并删除和其重叠高于某设定阈值的视频段,直到没有可以删除的视频段,结束遍历。所有保留下来的视频段即为最终的视频动作时序定位结果。
本发明的方法,适用于对视频中存在的目标动作进行自动定位,即找到视频中在什么时间出现了什么动作。本发明的基于对比度的弱监督时序动作定位评价方法,首先得到片段级别的分类预测和注意力预测;然后用最大值池化与最小值池化处理这些结果,挖掘其中的对比度信息并对其建模用于后续动作定位的评价中;之后通过对待评价视频段进行收缩和扩张,将视频段分为开始,结束,内容等不同的区域;最后利用已经建模得到的对比度信息,分别针对开始,结束,内容三个方面对视频段进行评价,获得高度综合可信的评价结果。本发明可以在只知道未剪辑视频包含的动作类别,但不知道目标动作具体位置的情况下(即弱监督情况下),对动作时序定位给出评价,并且该评价可以进一步被用来指导回归模型的训练,大大提升了定位算法在弱监督条件下的准确度。
数据分析
请参阅图4,图4是在用于评价时序动作定位的公开数据集THUMOS’14上本评价方法对已有方法的提升效果对比图。图中的Unet方法使用简单的阈值操作进行动作时序定位,我们的方法将Unet中的阈值操作替换为本发明提出的评估方法,剩下的保持不变。通过这种对比,我们可以公平地体现出本发明对时序动作定位的提升效果。数据集包含20种动作,最后一组柱状图表示数据集的平均mAP。我们的方法提升了除BasketballDunk和CricketBowling之外所有动作的定位准确度,并且将整体平均准确率由15.4%提升至21.6%,提升十分显著。
请参阅图5,图5是不同方法在THUMOS’14数据集上与其他同类方法的时序动作定位的结果对比示意图。我们的方法在所有评价阈值设置条件下,都取得了最好的结果。
综上所述,本发明实施例公开了一种基于对比度的弱监督时序动作定位评价方法,属于计算机视觉与模式识别领域,步骤包括:首先对视频中存在的对比度信息进行建模;然后利用对比度得到片段级别的边缘度度量;最后利用得到的边缘度和已知的片段级别动作分类结果对任意一个候选视频段进行打分。在打分的过程中,本发明综合考虑了开始,结束和内容三个方面,最终给出了具有较高的可靠性的评价结果。借助我们的评价结果,时序动作定位的准确率可以得到极大提高。同时,本发明可在弱监督条件下对任意一个视频时间段的动作定位效果进行综合评价,只需要视频级别的类别标注,不依赖复杂的动作边界标注数据,大大减轻了数据的标注负担,有利于本发明的推广应用。与其他方法相比较,本发明的方法在时序动作定位任务上获得了较大的提升。
本发明实施例的一种基于对比度的弱监督时序动作定位评价系统,基于本发明的方法,包括:
获取模块,用于获取片段级别的动作分类预测
Figure BDA0002077339470000101
和片段级别的注意力分数预测
Figure BDA0002077339470000102
利用最大值池化获得目标类别动作分类预测的局部最大值及其所在的时序位置,利用最小值池化获得目标类别动作分类预测的局部最小值及其所在的时序位置;
建模模块,用于对获取模块获得的局部最大值和局部最小值隐含的局部对比度信息进行显示建模,获得表示对比度强度的度量
Figure BDA0002077339470000103
以及表示对比度正负的符号函数
Figure BDA0002077339470000104
评价模块,用于将建模模块获得的表示对比度强度的度量
Figure BDA0002077339470000105
和表示对比度正负的符号函数
Figure BDA0002077339470000106
进行逐点相乘,获得片段级别的边缘度度量
Figure BDA0002077339470000107
利用第i类动作的片段级别预测
Figure BDA0002077339470000108
和得到的
Figure BDA0002077339470000109
对视频中的任意起始时间位置的片段中第i类动作的定位效果进行评估。
其中,建模模块中,
Figure BDA0002077339470000111
式中,⊙表示逐元素相乘,abs(·)表示逐元素取绝对值,[·]-1表示逐元素取倒数;
Figure BDA0002077339470000112
评价模块中,e=m⊙c。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (9)

1.一种基于对比度的弱监督时序动作定位评价方法,其特征在于,包括以下步骤:
步骤1,获取片段级别的动作分类预测
Figure FDA0002821573530000011
和片段级别的注意力分数预测
Figure FDA0002821573530000012
Figure FDA0002821573530000013
使用最大值池化获得目标类别动作分类预测的局部最大值及其所在的时序位置;对
Figure FDA0002821573530000014
使用最小值池化获得目标类别动作分类预测的局部最小值及其所在的时序位置;
步骤2,对步骤1获得的局部最大值和局部最小值隐含的局部对比度信息进行显示建模,获得表示对比度强度的度量
Figure FDA0002821573530000015
以及表示对比度正负的符号函数
Figure FDA0002821573530000016
步骤3,将步骤2获得的表示对比度强度的度量
Figure FDA0002821573530000017
和表示对比度正负的符号函数
Figure FDA0002821573530000018
进行逐点相乘,获得片段级别的边缘度度量
Figure FDA0002821573530000019
步骤4,利用第i类动作的片段级别预测
Figure FDA00028215735300000110
和步骤3得到的
Figure FDA00028215735300000111
对视频中的任意起始时间位置的片段中第i类动作的定位效果进行评估。
2.根据权利要求1所述的一种基于对比度的弱监督时序动作定位评价方法,其特征在于,步骤1中,对
Figure FDA00028215735300000112
使用最大值池化获得目标类别动作分类预测的局部最大值及其所在的时序位置;对
Figure FDA00028215735300000113
使用最小值池化获得目标类别动作分类预测的局部最小值及其所在的时序位置的具体步骤包括:
利用片段级别的注意力分数预测
Figure FDA00028215735300000114
对片段级别的动作分类预测
Figure FDA00028215735300000115
进行预处理;包括:如果t位置的注意力分数
Figure FDA00028215735300000116
小于预设阈值,则将该位置的所有类别预测
Figure FDA00028215735300000117
均置为0;定位第i类动作时,取出Ψ的第i行,
Figure FDA00028215735300000118
对Ψi进行步长为1的最大值池化,获得局部最大值向量
Figure FDA00028215735300000119
通过调整补零范围,使得输出的局部最大值向量
Figure FDA00028215735300000120
与Ψi保持相同的维度;记录每个局部最大值的时序位置,即
Figure FDA00028215735300000121
对Ψi进行步长为1的最小值池化,获得局部最小值向量
Figure FDA00028215735300000122
通过调整补零范围,使得输出的局部最小值向量
Figure FDA00028215735300000123
与Ψi保持相同的维度;记录每个局部最小值的时序位置,即
Figure FDA00028215735300000124
3.根据权利要求1所述的一种基于对比度的弱监督时序动作定位评价方法,其特征在于,步骤2中,
Figure FDA0002821573530000021
式中,⊙表示逐元素相乘,abs(·)表示逐元素取绝对值,[·]-1表示逐元素取倒数;
Figure FDA0002821573530000022
为局部最大值向量,
Figure FDA0002821573530000023
为每个局部最大值的时序位置;
Figure FDA0002821573530000024
为局部最小值向量,
Figure FDA0002821573530000025
为每个局部最小值的时序位置;
Figure FDA0002821573530000026
式中,m(t),
Figure FDA0002821573530000027
Figure FDA0002821573530000028
分别表示
Figure FDA0002821573530000029
Figure FDA00028215735300000210
中的第t个值。
4.根据权利要求1所述的一种基于对比度的弱监督时序动作定位评价方法,其特征在于,步骤3中,片段级别的边缘度度量
Figure FDA00028215735300000211
的表达式为:
e=m⊙c;
对于第t个位置的视频片段,其边缘度值e(t)越接近1,则其是动作的开始的置信度越高,越接近-1,则其是动作的结束的置信度越高。
5.根据权利要求1所述的一种基于对比度的弱监督时序动作定位评价方法,其特征在于,步骤4中,对视频中的任意起始时间位置的片段中第i类动作的定位效果进行评估具体包括以下步骤:
S4.1,定义任意一个视频时间段P:[xs,xe],其中xs表示视频时间段P开始的位置,xe表示P结束的位置;
S4.2,将P:[xs,xe]进行时间上的收缩和扩张,分别得到收缩后的时间段
Figure FDA00028215735300000212
和扩张后的时间段
Figure FDA00028215735300000213
其中,xw=xe-xs,表示P的时间长度;其中,
Figure FDA00028215735300000214
Figure FDA00028215735300000215
分别表示收缩后的时间段Pdef的开始和结束的位置;
Figure FDA00028215735300000216
Figure FDA00028215735300000217
分别表示扩张后的时间段Pinf的开始和结束的位置;
S4.3,对P:[xs,xe]进行“开始分数”评价,记为ss(P),即评价P与动作开始阶段的覆盖准确程度,计算公式为:
Figure FDA0002821573530000031
S4.4,对P:[xs,xe]进行“结束分数”评价,记为se(P),即评价P与动作结束阶段的覆盖准确程度,计算公式为:
Figure FDA0002821573530000032
S4.5,对P:[xs,xe]进行“内容分数”评价,记为sa(P),即评价P中内容与目标动作的相符程度,计算公式为:
Figure FDA0002821573530000033
S4.6,将步骤S4.3、S4.4和S4.5得到的开始分数、结束分数和内容分数加权求和,得到对P:[xs,xe]的综合评价分数s(P),计算公式为:
Figure FDA0002821573530000034
6.根据权利要求5所述的一种基于对比度的弱监督时序动作定位评价方法,其特征在于,步骤S4.2中,
Figure FDA0002821573530000035
Figure FDA0002821573530000036
Figure FDA0002821573530000037
Figure FDA0002821573530000038
式中,xw=xe-xs,表示视频时间段P的时间长度。
7.一种基于对比度的弱监督时序动作定位评价系统,其特征在于,包括:
获取模块,用于获取片段级别的动作分类预测
Figure FDA0002821573530000039
和片段级别的注意力分数预测
Figure FDA00028215735300000310
Figure FDA00028215735300000311
使用最大值池化获得目标类别动作分类预测的局部最大值及其所在的时序位置,对
Figure FDA0002821573530000041
使用最小值池化获得目标类别动作分类预测的局部最小值及其所在的时序位置;
建模模块,用于对获取模块获得的局部最大值和局部最小值隐含的局部对比度信息进行显示建模,获得表示对比度强度的度量
Figure FDA0002821573530000042
以及表示对比度正负的符号函数
Figure FDA0002821573530000043
评价模块,用于将建模模块获得的表示对比度强度的度量
Figure FDA0002821573530000044
和表示对比度正负的符号函数
Figure FDA0002821573530000045
进行逐点相乘,获得片段级别的边缘度度量
Figure FDA0002821573530000046
利用第i类动作的片段级别预测
Figure FDA0002821573530000047
和得到的
Figure FDA0002821573530000048
对视频中的任意起始时间位置的片段中第i类动作的定位效果进行评估。
8.根据权利要求7所述的一种基于对比度的弱监督时序动作定位评价系统,其特征在于,建模模块中,
Figure FDA0002821573530000049
式中,⊙表示逐元素相乘,abs(·)表示逐元素取绝对值,[·]-1表示逐元素取倒数;
Figure FDA00028215735300000410
为局部最大值向量,
Figure FDA00028215735300000411
为每个局部最大值的时序位置;
Figure FDA00028215735300000412
为局部最小值向量,
Figure FDA00028215735300000413
为每个局部最小值的时序位置;
Figure FDA00028215735300000414
式中,m(t),
Figure FDA00028215735300000415
Figure FDA00028215735300000416
分别表示
Figure FDA00028215735300000417
Figure FDA00028215735300000418
中的第t个值。
9.根据权利要求7所述的一种基于对比度的弱监督时序动作定位评价系统,其特征在于,评价模块中,
e=m⊙c,
式中,⊙表示逐元素相乘。
CN201910458525.2A 2019-05-29 2019-05-29 一种基于对比度的弱监督时序动作定位评价方法及系统 Active CN110232339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910458525.2A CN110232339B (zh) 2019-05-29 2019-05-29 一种基于对比度的弱监督时序动作定位评价方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910458525.2A CN110232339B (zh) 2019-05-29 2019-05-29 一种基于对比度的弱监督时序动作定位评价方法及系统

Publications (2)

Publication Number Publication Date
CN110232339A CN110232339A (zh) 2019-09-13
CN110232339B true CN110232339B (zh) 2021-02-19

Family

ID=67858688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910458525.2A Active CN110232339B (zh) 2019-05-29 2019-05-29 一种基于对比度的弱监督时序动作定位评价方法及系统

Country Status (1)

Country Link
CN (1) CN110232339B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991296B (zh) * 2019-11-26 2023-04-07 腾讯科技(深圳)有限公司 视频标注方法、装置、电子设备及计算机可读存储介质
CN111079646B (zh) * 2019-12-16 2023-06-06 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统
CN113902670B (zh) * 2021-08-31 2022-07-29 北京医准智能科技有限公司 一种基于弱监督学习的超声视频分割方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200218A (zh) * 2014-08-18 2014-12-10 中国科学院计算技术研究所 一种基于时序信息的跨视角动作识别方法及系统
CN109214330A (zh) * 2018-08-30 2019-01-15 北京影谱科技股份有限公司 基于视频时序信息的视频语义分析方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9025825B2 (en) * 2013-05-10 2015-05-05 Palo Alto Research Center Incorporated System and method for visual motion based object segmentation and tracking
CN105512610B (zh) * 2015-11-25 2019-01-29 华南理工大学 一种基于感兴趣点位置信息的视频中人体动作识别方法
CN108573246B (zh) * 2018-05-08 2022-04-05 北京工业大学 一种基于深度学习的时序动作识别方法
CN109034062B (zh) * 2018-07-26 2023-05-16 南京邮电大学 一种基于时序一致性的弱监督异常行为检测方法
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200218A (zh) * 2014-08-18 2014-12-10 中国科学院计算技术研究所 一种基于时序信息的跨视角动作识别方法及系统
CN109214330A (zh) * 2018-08-30 2019-01-15 北京影谱科技股份有限公司 基于视频时序信息的视频语义分析方法和装置

Also Published As

Publication number Publication date
CN110232339A (zh) 2019-09-13

Similar Documents

Publication Publication Date Title
CN110232339B (zh) 一种基于对比度的弱监督时序动作定位评价方法及系统
US10282679B2 (en) Information processing apparatus, program, and information processing method
Shen et al. Fast online tracking with detection refinement
CN113269073B (zh) 一种基于yolo v5算法的船舶多目标追踪方法
CN110942072A (zh) 基于质量评估的质量分、检测模型训练、检测方法及装置
CN110533086B (zh) 图像数据半自动标注方法
US10963792B1 (en) Method for training deep learning network based on artificial intelligence and learning device using the same
CN112949408B (zh) 一种过鱼通道目标鱼类实时识别方法和系统
CN110991397B (zh) 一种行进方向确定方法及相关设备
CN112052818A (zh) 无监督域适应的行人检测方法、系统及存储介质
CN113569627A (zh) 人体姿态预测模型训练方法、人体姿态预测方法及装置
CN114998628A (zh) 基于模板匹配的孪生网络长时目标跟踪方法
CN115830399A (zh) 分类模型训练方法、装置、设备、存储介质和程序产品
CN111241987A (zh) 基于代价敏感的三支决策的多目标模型视觉追踪方法
CN114596440A (zh) 语义分割模型的生成方法、装置、电子设备及存储介质
CN113763415B (zh) 目标跟踪方法、装置、电子设备及存储介质
CN113192106B (zh) 一种家畜跟踪方法及装置
CN115526254A (zh) 场景识别系统、方法、电子设备及存储介质
CN114943741A (zh) 一种动态场景下基于目标检测和几何概率的视觉slam方法
CN114118305A (zh) 一种样本筛选方法、装置、设备及计算机介质
CN114283280A (zh) 一种基于改进卷积神经网络的水面漂浮垃圾识别方法
CN113902670A (zh) 一种基于弱监督学习的超声视频分割方法及装置
CN112433249A (zh) 层位追踪方法及装置、计算机设备及计算机可读存储介质
CN112651996A (zh) 目标检测跟踪方法、装置、电子设备和存储介质
CN110837805B (zh) 视频标签的置信度的测量方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant