CN110362715A - 一种基于图卷积网络的未剪辑视频动作时序定位方法 - Google Patents

一种基于图卷积网络的未剪辑视频动作时序定位方法 Download PDF

Info

Publication number
CN110362715A
CN110362715A CN201910575041.6A CN201910575041A CN110362715A CN 110362715 A CN110362715 A CN 110362715A CN 201910575041 A CN201910575041 A CN 201910575041A CN 110362715 A CN110362715 A CN 110362715A
Authority
CN
China
Prior art keywords
node
movement
video
similarity
proposed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910575041.6A
Other languages
English (en)
Other versions
CN110362715B (zh
Inventor
王乐
翟长波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910575041.6A priority Critical patent/CN110362715B/zh
Publication of CN110362715A publication Critical patent/CN110362715A/zh
Application granted granted Critical
Publication of CN110362715B publication Critical patent/CN110362715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图卷积网络的未剪辑视频动作时序定位方法,包括:获取带标注的未剪辑的视频中每个视频片段是否为动作的置信度分数;用“双阈值法”对视频片段进行合并,获得视频的动作提议;计算动作提议与真值的交叠率IoU值,将IoU值满足条件的动作提议作为图模型的节点;计算邻接矩阵定义图模型中任意两个节点之间的相似度;获得图模型中任意一个节点与其他所有节点之间的交互信息,并更新图模型中节点的特征表示,然后对动作提议进行时间边界回归和动作分类,得到动作时序定位结果。本发明的方法可以描述数据间的相关性关系,可提高动作时序定位的准确性,同时也可提高定位结果鲁棒性。

Description

一种基于图卷积网络的未剪辑视频动作时序定位方法
技术领域
本发明属于计算机视觉领域,涉及未剪辑视频动作时序定位技术领域,特别涉及一种基于图卷积网络的未剪辑视频动作时序定位方法。
背景技术
未剪辑视频动作定位技术作为视频处理的关键步骤,对视频分析处理有很大的影响,在理论和实际应用中有重要的研究价值。
目前,现有的视频动作时序定位方法普遍存在以下问题:(1)多数未剪辑视频动作时序定位方法是完全基于动作分类方法,根据视频片段的分类结果来确定动作发生的时间区间,但是视频片段定位出的动作发生区间的边界比较模糊,而且在分类过程中会出现分类错误的情况,这会导致最终的定位结果鲁棒性较差;(2)未剪辑视频(比如体育比赛视频)一般都会包含多个相同动作实例,这些动作实例之间具有相关性,利用此相关性可以实现每个动作实例之间可以达到相互促进的效果,提高动作定位的准确性,但是目前提出的未剪辑视频动作定位方法还没有利用此相关性来辅助动作定位。
综上,亟需一种新的未剪辑视频动作时序定位方法。
发明内容
本发明的目的在于提供一种基于图卷积网络的未剪辑视频动作时序定位方法,以解决上述存在的一个或多个技术问题。本发明的方法可以描述数据间的相关性关系,有效地利用视频中动作实例之间的关系,可提高动作时序定位的准确性,同时也可提高定位结果鲁棒性。
为达到上述目的,本发明采用以下技术方案:
本发明的一种基于图卷积网络的未剪辑视频动作时序定位方法,包括以下步骤:
步骤1,将带标注的未剪辑的视频分割成多个预设固定长度的视频片段,提取每一个视频片段的深度特征并进行二分类,得到每个视频片段是否为动作的置信度分数;
步骤2,根据步骤1获得的各个视频片段是否为动作的置信度分数,用“双阈值法”对视频片段进行合并;用阈值α确定动作提议的开始,用阈值β确定动作提议的结束,获得所述带标注的未剪辑的视频的动作提议;其中,β<α;
步骤3,计算步骤2中得到的动作提议与真值的交叠率IoU值,将IoU值满足以下两个条件中任意一个条件的动作提议作为图模型的节点;其中,条件1)为IoU值大于等于预设IoU阈值;条件2)为所有动作提议中IoU值最大的动作提议;动作提议的特征表示由该动作提议包含的所有视频片段的特征向量的平均池化得到,满足条件的动作提议的特征用来初始化节点的表示,用表示图模型中节点的集合;
步骤4,计算邻接矩阵定义图模型中任意两个节点之间的相似度;获得图模型中任意一个节点与其他所有节点之间的交互信息;其中,相似度包括:利用深度特征计算节点之间的相似度;
步骤5,利用步骤4获得的图模型中任意一个节点与其他所有节点之间的交互信息,更新图模型中节点的特征表示;
步骤6,利用步骤5更新之后的节点特征表示对动作提议进行时间边界回归和动作分类,得到最终的未剪辑视频动作时序定位结果。
本发明的进一步改进在于,步骤1中,提取每一个视频片段的深度特征并进行二分类的步骤具体包括:用在Kinetics数据集上预训练的分类器提取每一个视频片段的深度特征并进行二分类。
本发明的进一步改进在于,步骤2中,用“双阈值法”对视频片段进行合并的步骤具体包括:如果某一个视频片段的动作置信度分数大于等于α且该视频片段之前的相邻视频片段的动作置信度分数小于α,则该视频片段为动作发生的起点;从起点开始向后扩展,如果后面连续的视频片段的动作置信度分数大于β则属于同一个动作提议;直至动作置信度分数小于等于β的视频片段,该视频片段为动作提议的终点;
通过设置不同的阈值α和阈值β,得到一组动作提议
本发明的进一步改进在于,步骤3中,用表示图模型中节点的集合,表示为:
其中,N是节点的个数,i表示图模型中的第i个节点,ts,i、te,i和ki分别是该节点对应动作提议的开始时间、结束时间和动作类别,Fi是该节点的初始特征表示;
步骤4中,利用深度特征计算节点之间的相似度的步骤包括:计算图模型中任意两个节点Xi和Xj的特征向量点积值,得到相似性关系adj1,计算公式为:
adj1(i,j)=Ft·Fj
式中,·表示向量点积。
本发明的进一步改进在于,相似度还包括:利用动作提议对应的时间区间计算各节点之间的相似度;
具体步骤包括:计算图模型中任意两个节点Xi和Xj对应的动作提议的时间重合度,得到一种相似性关系adj2,表达式为:
式中,i和j分别表示图模型中的第i和第j个节点,min(·,·)表示两者中的最小值,max(·,·)表示两者中的最大值;
相似度由adj1和adj2加权求和得到。
本发明的进一步改进在于,相似度还包括:利用语义信息计算节点之间的相似度;
具体步骤包括:把任意两个节点的特征表示拼接起来输入给一个堆叠的全连接层网络,得到它们之间的语义相似性adj3,表达式为:
式中,表示一个堆叠的全连接层网络,网络的输入是两个特征向量Fi和Fj拼接之后的特征向量,输出是这两个向量的语义相似性;
最终的相似度的表达式为:
其中,依次为adj1、adj2和adj3这三种相似性关系的权重参数。
本发明的进一步改进在于,步骤5中,更新图模型中节点的特征表示的步骤具体包括:用门控循环单元迭代更新节点的特征表示。
本发明的进一步改进在于,步骤5中,在节点特征更新之前,收集该节点和其他所有节点之间的交互信息;收集交互信息的过程公式化表示为:
式中,mi是该节点和其他所有节点的交互信息。
本发明的进一步改进在于,步骤5中,用门控循环单元迭代更新节点的特征表示的步骤具体包括:将该节点的特征信息Fi和与其他节点的交互信息mi输入到GRU单元实现节点之间的信息交互和节点特征更新:
其中,分别是第i个节点在第s轮迭代时GRU单元的输出状态和隐藏状态,用隐藏状态更新节点特征。
本发明的进一步改进在于,步骤3中,预设IoU阈值为0.5。
与现有技术相比,本发明具有以下有益效果:
本发明的基于图卷积网络的未剪辑视频动作时序定位方法,考虑了相同类别的动作实例之间具有相似性(同一个视频里面包含多个相同类别的动作实例),利用动作提议之间的特征点积相似性关系计算不同动作实例之间的相似性,并采用图卷积网络来建模未剪辑视频中不同动作提议之间的相似性关系,在图卷积网络更新的过程中实现动作实例之间特征信息的交互和传递,可更好地表征动作实例的特征,能够提高动作定位的准确率;其中,利用深度特征计算节点之间的相似度中,相同类别的动作提议的外观和运动信息具有较高的语义相似性,利用深度网络提取出来的特征向量也差别不大,两个动作提议特征向量点积值的大小可以作为相似性的衡量标准,点积值越大表示它们的相似度越大。本发明方法针对包含多个动作实例的未剪辑长视频,根据动作分类和视频聚合方法生成该视频的多个动作提议,用得到的视频动作提议构造和初始化图模型的节点,用高层特征和低层信息计算任意两个动作提议之间的相似性计算图模型的邻接矩阵,之后用图卷积网络更新图上的节点特征表示并进行边界位置回归,实现动作时序定位。本发明中,用“双阈值法”对视频片段进行合并,可提高生成动作提议的鲁棒性。
进一步地,利用动作提议之间的时间重合度、特征点积和语义相似性三种关系计算不同动作实例之间的相似性,并采用图卷积网络来建模未剪辑视频中不同动作提议之间的相似性关系,在图卷积网络更新的过程中实现动作提议之间特征信息的交互和传递,可更好地表征动作提议的特征,能够进一步提高动作定位的准确率。其中,利用动作提议对应的时间区间计算节点之间的相似度中,一个动作实例可能会生成多个动作提议,这些动作提议会有重合,如果两个动作提议有较高的重合度则说明它们的相似度较大。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中验证数据集示例示意图;其中,图1(a)是THUMOS’14数据集示意图,图1(b)是MEXaction2数据集示意图;
图2是本发明实施例的一种基于图卷积网络的未剪辑视频动作时序定位方法的流程示意图;
图3是本发明实施例中生成动作提议的示例示意图;其中,图3(a)是生成动作提议的过程示意图,图3(b)是生成的动作提议结果示意图;
图4是本发明实施例中图模型更新示意图;
图5是本发明实施例中在THUMOS’14数据集上的验证结果示意图。
具体实施方式
为使本发明实施例的目的、技术效果及技术方案更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本发明一部分实施例。基于本发明公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本发明保护的范围。
本发明的一种基于图卷积网络的未剪辑视频动作时序定位方法,包括以下步骤:
步骤1:动作提议生成:
1)将带标注的未剪辑的视频分割成多个预设固定长度的视频片段,用一个在Kinetics数据集上预训练的分类器提取每一个视频片段的深度特征并进行二分类,得到每个视频片段是否是动作的置信度分数;
2)用“双阈值法”对视频片段进行合并,提高生成动作提议的鲁棒性,用一个较大的阈值α确定动作提议的开始,用另一个阈值β确定动作提议的结束,其中,β<α,即动作置信度分数大于α的视频片段是动作提议的开始,动作置信度小于β的视频片段是动作提议的结束。利用不同的的阈值可以得到一组动作提议
步骤2:图模型节点表示:
1)计算步骤1中得到的动作提议和真值的交叠率(IoU),从中选出IoU值满足以下任意一个条件的动作提议作为图模型的节点:(1)IoU值不小于0.5;(2)所有动作提议中IoU值最大的那个动作提议。
2)动作提议的特征表示由该动作提议包含的所有视频片段的特征向量的平均池化得到,满足条件的动作提议的特征被用来初始化图模型的节点,用表示图中节点的集合。
步骤3:计算邻接矩阵定义任意两个节点之间的相似度:
1)利用深度特征计算节点之间的相似度:相同类别的动作提议的外观和运动信息具有较高的相似性,利用深度网络提取出来的特征向量也差别不大,两个动作提议特征向量点积值的大小可以作为相似性的衡量标准,点积值越大表示它们的相似度越大,计算图中任意两个节点Xi和Xj的特征向量点积值可以得到一种相似性关系adj1
2)利用视频动作提议对应的时间区间计算节点之间的相似度:一个动作实例可能会生成多个动作提议,这些动作提议会有重合,如果两个动作提议有较高的重合度则说明它们的相似度较大,计算图中任意两个节点Xi和Xj对应的动作提议的时间重合度可以得到一种相似性关系adj2
3)利用语义信息计算节点之间的相似度:相同类别的动作实例具有相似的语义信息,深度网络较深层的特征图可以反映图像和视频中的语义信息,把任意两个节点的特征表示拼接起来输入给一个堆叠的全连接层网络可以得到它们之间的语义相似性adj3
4)最终的相似度由上述三个相似性关系加权求和得到。
步骤4:基于图卷积网络的图更新:
1)图中任意一个节点和其他所有节点的交互信息都可以用来辅助该节点特征更新,用门控循环单元(GRU)迭代更新节点的特征表示;
2)用更新之后的节点特征表示对动作提议进行时间边界回归和动作分类,得到最终动作时序定位的结果。
综上,本发明是一种基于图卷积网络的未剪辑视频动作时序定位方法,考虑到相同类别的动作实例之间具有相似性,采用图卷积网络来建模视频中不同动作提议之间的相似性关系,在图卷积网络更新的过程中实现动作提议之间特征信息的交互和传递,更好的表征动作提议的特征,有利于对动作提议进行分类和边界回归,提高动作定位的准确率。本发明方法针对包含多个动作实例的未剪辑长视频,根据动作分类和视频聚合方法生成多个动作提议,用得到的动作提议构造和初始化图模型的节点,用高层特征和低层信息计算任意两个动作提议之间的相似性计算图模型的邻接矩阵,之后用图卷积网络更新图上的节点特征表示并进行边界位置回归,实现动作时序定位。本发明的方法与现有方法进行对比实验分析,在THUMOS’14和MEXaction2两个公开数据集上验证了动作定位算法的有效性和准确性。
实施例
请参阅图1,图1(a)和图1(b)分别是用于验证本发明方法可行性的公开数据集:图1(a)是THUMOS’14数据集中跳高动作的一个视频示例,该数据集包含20类带真值的动作,所有的视频均是真实场景中的体育比赛视频。图1(b)是MEXaction2数据集中斗牛动作的一个视频示例,该数据集包含2类动作:斗牛和骑马,视频的时长比较长而且动作的持续时间占比很少。这两个示例中上面一行是视频中的部分视频帧,下面一行是其对应的真值,灰色方块代表背景,黑色方块代表目标动作(附有动作发生的开始和结束时间)。
请参阅图2至图4,本发明实施例的一种基于图卷积网络的未剪辑视频动作时序定位方法,包括步骤如下:
步骤1:动作提议生成:
1)将带标注的未剪辑的视频分割成多个固定长度的片段,用一个在Kinetics数据集上预训练的分类器提取每一个片段的深度特征并进行二分类,得到每个片段是动作的置信度分数,如图3(a)是一个视频中所有视频片段的动作置信度分数示意图;
2)用“双阈值法”对视频片段进行合并,提高生成动作提议的鲁棒性,如图3(a)所示,用一个较大的阈值α确定动作提议的开始,用另一个阈值β(β<α)确定动作提议的结束,图3(b)是生成的动作提议的示例示意图,获得未剪辑的视频的动作提议。
步骤2:图模型节点表示:
1)计算步骤1中得到的动作提议和真值的交叠率(IoU),IoU值满足以下任意一个条件的动作提议作为图模型的节点:(1)IoU值不小于0.5;(2)所有动作提议中IoU值最大的那个动作提议;
2)动作提议的特征表示由该动作提议包含的所有视频片段的特征向量的平均池化得到,满足条件的动作提议的特征被用来初始化节点的表示,用表示图中节点的集合:
其中,N是节点的个数,i表示图中的第i个节点,ts,t、ts,t和ki分别是该节点对应动作提议的开始时间、结束时间和动作类别,Fi是该节点的初始特征表示。
步骤3:计算邻接矩阵定义任意两个节点之间的相似度:
1)利用深度特征计算节点之间的相似度:相同类别的动作提议的外观和运动信息具有较高的相似性,利用深度网络提取出来的特征向量也差别不大,两个动作提议特征向量点积值的大小可以作为相似性的衡量标准,点积值越大表示它们的相似度越大,计算图中任意两个节点Xi和Xj的特征向量点积值可以得到一种相似性关系adj1
adj1(i,j)=Ft·Fj
其中,·表示向量点积。
2)利用动作提议对应的时间区间计算节点之间的相似度:一个动作实例可能会生成多个动作提议,这些动作提议会有重合,如果两个动作提议有较高的重合度则说明它们的相似度较大,计算图中任意两个节点Xi和Xj对应的动作提议的时间重合度可以得到一种相似性关系ajd2
其中i和j分别表示图中的第i和第j个节点,min(·,·)表示两者中的最小值,max(·,·)表示两者中的最大值。
3)利用语义信息计算节点之间的相似度:相同类别的动作实例具有相似的语义信息,深度网络较深层的特征图可以反映图像和视频中的语义信息,把任意两个节点的特征表示拼接起来输入给一个堆叠的全连接层网络可以得到它们之间的语义相似性adj3
其中,表示一个堆叠的全连接层网络,网络的输入是两个特征向量Fi和Fj拼接之后的特征向量,输出是这两个向量的语义相似性。
4)最终的相似度由上述三个相似性关系加权求和得到:
其中,是这三种相似性关系的权重参数。
步骤4:基于图卷积网络的图更新
1)图4是图更新过程的示例图,图中任意一个节点和其他所有节点的交互信息都可以用来辅助该节点特征更新;在节点特征更新之前,首先需要收集该节点和其他所有节点之间的交互信息,收集交互信息的过程公式化如下:
其中,mi是该节点和其他所有节点的交互信息。
用门控循环单元(GRU)迭代更新节点的特征表示,将该节点的特征信息Fi和与其他节点的交互信息mt输入到GRU单元实现信息交互和节点特征更新:
其中,分别是第i个节点在第s轮迭代时GRU单元的输出状态和隐藏状态,我们用隐藏状态来更新节点特征。
2)用更新之后的节点特征表示对动作提议进行时间边界回归和动作分类,得到最终动作定位的结果。
表1a在THUMOS’14数据集上的实验结果
表1b在MEXaction2数据集上的实验结果
表1a、1b分别是动作定位方法的实验结果,表1a为在THUMOS’14数据集上的实验结果,表1b为在MEXaction2数据集上的实验结果。
请参阅图5,图5为THUMOS’14数据集上每个类别的定位结果,在IoU阈值为0.5的情况下,本方法在超过10类(一共20类)动作的定位结果都取得了最好的效果。从表1a中可以看出,本发明方法在不同IoU阈值的情况下都能取得具有竞争力的效果,特别是在IoU阈值超过0.5时取得了最好的结果。从表1b中可以看出,本发明方法总体的效果是最佳的,特别是在“骑马”这类动作上的结果远远超过其他方法。综上所述,采用本发明的基于图卷积网络的方法进行未剪辑视频动作时序定位,能够有效提高未剪辑视频动作时序定位的准确率。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (10)

1.一种基于图卷积网络的未剪辑视频动作时序定位方法,其特征在于,包括以下步骤:
步骤1,将带标注的未剪辑的视频分割成多个预设固定长度的视频片段,提取每一个视频片段的深度特征并进行二分类,得到每个视频片段是否为动作的置信度分数;
步骤2,根据步骤1获得的各个视频片段是否为动作的置信度分数,用“双阈值法”对视频片段进行合并;用阈值α确定动作提议的开始,用阈值β确定动作提议的结束,获得所述带标注的未剪辑的视频的动作提议;其中,β<α;
步骤3,计算步骤2中得到的动作提议与真值的交叠率IoU值,将IoU值满足以下两个条件中任意一个条件的动作提议作为图模型的节点;其中,条件1)为IoU值大于等于预设IoU阈值;条件2)为所有动作提议中IoU值最大的动作提议;动作提议的特征表示由该动作提议包含的所有视频片段的特征向量的平均池化得到,满足条件的动作提议的特征用来初始化节点的表示,用表示图模型中节点的集合;
步骤4,计算邻接矩阵定义图模型中任意两个节点之间的相似度;获得图模型中任意一个节点与其他所有节点之间的交互信息;其中,相似度包括:利用深度特征计算节点之间的相似度;
步骤5,利用步骤4获得的图模型中任意一个节点与其他所有节点之间的交互信息,更新图模型中节点的特征表示;
步骤6,利用步骤5更新之后的节点特征表示对动作提议进行时间边界回归和动作分类,得到最终的未剪辑视频动作时序定位结果。
2.根据权利要求1所述的一种基于图卷积网络的未剪辑视频动作时序定位方法,其特征在于,步骤1中,提取每一个视频片段的深度特征并进行二分类的步骤具体包括:用在Kinetics数据集上预训练的分类器提取每一个视频片段的深度特征并进行二分类。
3.根据权利要求1所述的一种基于图卷积网络的未剪辑视频动作时序定位方法,其特征在于,步骤2中,用“双阈值法”对视频片段进行合并的步骤具体包括:如果某一个视频片段的动作置信度分数大于等于α且该视频片段之前的相邻视频片段的动作置信度分数小于α,则该视频片段为动作发生的起点;从起点开始向后扩展,如果后面连续的视频片段的动作置信度分数大于β则属于同一个动作提议;直至动作置信度分数小于等于β的视频片段,该视频片段为动作提议的终点;
通过设置不同的阈值α和阈值β,得到一组动作提议
4.根据权利要求1所述的一种基于图卷积网络的未剪辑视频动作时序定位方法,其特征在于,步骤3中,用表示图模型中节点的集合,表示为:
其中,N是节点的个数,i表示图模型中的第i个节点,ts,t、te,i和ki分别是该节点对应动作提议的开始时间、结束时间和动作类别,Fi是该节点的初始特征表示;
步骤4中,利用深度特征计算节点之间的相似度的步骤包括:计算图模型中任意两个节点Xi和Xj的特征向量点积值,得到相似性关系adj1,计算公式为:
adj1(i,j)=Fi·Fj
式中,·表示向量点积。
5.根据权利要求4所述的一种基于图卷积网络的未剪辑视频动作时序定位方法,其特征在于,相似度还包括:利用动作提议对应的时间区间计算各节点之间的相似度;
具体步骤包括:计算图模型中任意两个节点Xi和Xj对应的动作提议的时间重合度,得到一种相似性关系adj2,表达式为:
式中,i和j分别表示图模型中的第i和第j个节点,max(·,·)表示两者中的最小值,max(·,·)表示两者中的最大值;
相似度由adj1和adj2加权求和得到。
6.根据权利要求5所述的一种基于图卷积网络的未剪辑视频动作时序定位方法,其特征在于,相似度还包括:利用语义信息计算节点之间的相似度;
具体步骤包括:把任意两个节点的特征表示拼接起来输入给一个堆叠的全连接层网络,得到它们之间的语义相似性adj3,表达式为:
式中,表示一个堆叠的全连接层网络,网络的输入是两个特征向量Fi和Fj拼接之后的特征向量,输出是这两个向量的语义相似性;
最终的相似度的表达式为:
其中,依次为adj1、adj2和adj3这三种相似性关系的权重参数。
7.根据权利要求1所述的一种基于图卷积网络的未剪辑视频动作时序定位方法,其特征在于,步骤5中,更新图模型中节点的特征表示的步骤具体包括:用门控循环单元迭代更新节点的特征表示。
8.根据权利要求1所述的一种基于图卷积网络的未剪辑视频动作时序定位方法,其特征在于,步骤5中,在节点特征更新之前,收集该节点和其他所有节点之间的交互信息;收集交互信息的过程公式化表示为:
式中,mi是该节点和其他所有节点的交互信息。
9.根据权利要求7所述的一种基于图卷积网络的未剪辑视频动作时序定位方法,其特征在于,步骤5中,用门控循环单元迭代更新节点的特征表示的步骤具体包括:将该节点的特征信息Fi和与其他节点的交互信息mi输入到GRU单元实现节点之间的信息交互和节点特征更新:
其中,分别是第i个节点在第s轮迭代时GRU单元的输出状态和隐藏状态,用隐藏状态更新节点特征。
10.根据权利要求1至9中任一项所述的一种基于图卷积网络的未剪辑视频动作时序定位方法,其特征在于,步骤3中,预设IoU阈值为0.5。
CN201910575041.6A 2019-06-28 2019-06-28 一种基于图卷积网络的未剪辑视频动作时序定位方法 Active CN110362715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910575041.6A CN110362715B (zh) 2019-06-28 2019-06-28 一种基于图卷积网络的未剪辑视频动作时序定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910575041.6A CN110362715B (zh) 2019-06-28 2019-06-28 一种基于图卷积网络的未剪辑视频动作时序定位方法

Publications (2)

Publication Number Publication Date
CN110362715A true CN110362715A (zh) 2019-10-22
CN110362715B CN110362715B (zh) 2021-11-19

Family

ID=68217558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910575041.6A Active CN110362715B (zh) 2019-06-28 2019-06-28 一种基于图卷积网络的未剪辑视频动作时序定位方法

Country Status (1)

Country Link
CN (1) CN110362715B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112116634A (zh) * 2020-07-30 2020-12-22 西安交通大学 一种半在线机置的多目标跟踪方法
CN112348102A (zh) * 2020-11-16 2021-02-09 浙江大学 一种基于查询的自底向上视频定位方法和系统
CN112347964A (zh) * 2020-11-16 2021-02-09 复旦大学 一种基于图网络的行为检测方法及装置
CN112434629A (zh) * 2020-07-21 2021-03-02 新加坡依图有限责任公司(私有) 一种在线时序动作检测方法及设备
CN112434604A (zh) * 2020-11-24 2021-03-02 中国科学院深圳先进技术研究院 基于视频特征的动作时段定位方法与计算机设备
CN112613349A (zh) * 2020-12-04 2021-04-06 北京理工大学 基于深度混合卷积神经网络的时序动作检测方法及装置
WO2021079233A1 (en) * 2019-10-23 2021-04-29 International Business Machines Corporation New framework for few-shot temporal action localization
WO2021098402A1 (zh) * 2019-11-20 2021-05-27 腾讯科技(深圳)有限公司 动作识别方法、装置、计算机存储介质和计算机设备
WO2022134576A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 红外视频时序行为定位方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446847A (zh) * 2016-09-30 2017-02-22 深圳市唯特视科技有限公司 一种基于视频数据的人体动作分析方法
CN108073890A (zh) * 2016-11-14 2018-05-25 安讯士有限公司 视频序列中的动作识别
CN109460702A (zh) * 2018-09-14 2019-03-12 华南理工大学 基于人体骨架序列的乘客异常行为识别方法
US20190108400A1 (en) * 2017-10-05 2019-04-11 Qualcomm Incorporated Actor-deformation-invariant action proposals
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446847A (zh) * 2016-09-30 2017-02-22 深圳市唯特视科技有限公司 一种基于视频数据的人体动作分析方法
CN108073890A (zh) * 2016-11-14 2018-05-25 安讯士有限公司 视频序列中的动作识别
US20190108400A1 (en) * 2017-10-05 2019-04-11 Qualcomm Incorporated Actor-deformation-invariant action proposals
CN109460702A (zh) * 2018-09-14 2019-03-12 华南理工大学 基于人体骨架序列的乘客异常行为识别方法
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XUHUAN DUAN等: "Joint Spatio-Temporal Action Localization in Untrimmed Videos with Per-Frame Segmentation", 《IEEE》 *
胡齐齐: "基于时空信息的时序动作检测方法研究", 《微电子学与计算机》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2604071B (en) * 2019-10-23 2023-02-15 Ibm New framework for few-shot temporal action localization
JP7457436B2 (ja) 2019-10-23 2024-03-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 少数ショット時間的行動局所化を容易化するシステム、方法、プログラム
US11727686B2 (en) 2019-10-23 2023-08-15 International Business Machines Corporation Framework for few-shot temporal action localization
WO2021079233A1 (en) * 2019-10-23 2021-04-29 International Business Machines Corporation New framework for few-shot temporal action localization
US11164039B2 (en) 2019-10-23 2021-11-02 International Business Machines Corporation Framework for few-shot temporal action localization
GB2604071A (en) * 2019-10-23 2022-08-24 Ibm New framework for few-shot temporal action localization
US11928893B2 (en) 2019-11-20 2024-03-12 Tencent Technology (Shenzhen) Company Limited Action recognition method and apparatus, computer storage medium, and computer device
WO2021098402A1 (zh) * 2019-11-20 2021-05-27 腾讯科技(深圳)有限公司 动作识别方法、装置、计算机存储介质和计算机设备
CN112434629A (zh) * 2020-07-21 2021-03-02 新加坡依图有限责任公司(私有) 一种在线时序动作检测方法及设备
CN112116634B (zh) * 2020-07-30 2024-05-07 西安交通大学 一种半在线机置的多目标跟踪方法
CN112116634A (zh) * 2020-07-30 2020-12-22 西安交通大学 一种半在线机置的多目标跟踪方法
CN112347964B (zh) * 2020-11-16 2023-03-24 复旦大学 一种基于图网络的行为检测方法及装置
CN112348102B (zh) * 2020-11-16 2024-03-19 浙江大学 一种基于查询的自底向上视频定位方法和系统
CN112347964A (zh) * 2020-11-16 2021-02-09 复旦大学 一种基于图网络的行为检测方法及装置
CN112348102A (zh) * 2020-11-16 2021-02-09 浙江大学 一种基于查询的自底向上视频定位方法和系统
CN112434604A (zh) * 2020-11-24 2021-03-02 中国科学院深圳先进技术研究院 基于视频特征的动作时段定位方法与计算机设备
CN112613349A (zh) * 2020-12-04 2021-04-06 北京理工大学 基于深度混合卷积神经网络的时序动作检测方法及装置
WO2022134576A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 红外视频时序行为定位方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110362715B (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN110362715A (zh) 一种基于图卷积网络的未剪辑视频动作时序定位方法
CN106127173B (zh) 一种基于深度学习的人体属性识别方法
CN102184541B (zh) 多目标优化人体运动跟踪方法
CN109271888A (zh) 基于步态的身份识别方法、装置、电子设备
CN108229444A (zh) 一种基于整体和局部深度特征融合的行人再识别方法
CN113240691A (zh) 一种基于u型网络的医学图像分割方法
CN110163127A (zh) 一种由粗到细的视频目标行为识别方法
CN110298279A (zh) 一种肢体康复训练辅助方法及系统、介质、设备
CN108363973A (zh) 一种无约束的3d表情迁移方法
Chang et al. The model-based human body motion analysis system
Xu et al. Scene image and human skeleton-based dual-stream human action recognition
CN114036969B (zh) 一种多视角情况下的3d人体动作识别算法
CN109086707A (zh) 一种基于DCNNs-LSTM模型的表情追踪方法
Liu Aerobics posture recognition based on neural network and sensors
CN109101881A (zh) 一种基于多尺度时序图像的实时眨眼检测方法
Wang et al. Basketball motion video target tracking algorithm based on improved gray neural network
Gao et al. A semantic perception and cnn-transformer hybrid network for occluded person re-identification
Liu et al. Key algorithm for human motion recognition in virtual reality video sequences based on hidden markov model
Li et al. 3D-Yoga: a 3D yoga dataset for visual-based hierarchical sports action analysis
CN116704547A (zh) 一种隐私保护下基于gcn-lstm的人体姿态检测方法
CN115530814A (zh) 一种基于视觉姿态检测及计算机深度学习的儿童运动康复训练方法
CN105224669B (zh) 一种基于gmm语义特征的运动检索方法
CN114821632A (zh) 一种遮挡行人重识别方法
Li et al. Simulation of tennis serve behavior based on video image processing and wireless sensor technology
Pan et al. Analysis and Improvement of Tennis Motion Recognition Algorithm Based on Human Body Sensor Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant