CN110147876B - 基于视觉特征相似度的神经网络及其动作提案生成方法 - Google Patents

基于视觉特征相似度的神经网络及其动作提案生成方法 Download PDF

Info

Publication number
CN110147876B
CN110147876B CN201910385118.3A CN201910385118A CN110147876B CN 110147876 B CN110147876 B CN 110147876B CN 201910385118 A CN201910385118 A CN 201910385118A CN 110147876 B CN110147876 B CN 110147876B
Authority
CN
China
Prior art keywords
neural network
video
proposal
action
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910385118.3A
Other languages
English (en)
Other versions
CN110147876A (zh
Inventor
陈弟虎
郑靖也
胡海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910385118.3A priority Critical patent/CN110147876B/zh
Publication of CN110147876A publication Critical patent/CN110147876A/zh
Application granted granted Critical
Publication of CN110147876B publication Critical patent/CN110147876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视觉特征相似度的神经网络及其动作提案生成方法。该基于视觉特征相似度的神经网络生成方法包括以下步骤:S1:构造视觉特征相似性比较网络;S2:构造动作候选提案生成及特征再提取网络,用于候选提案分类神经网络;S3:构造候选提案分类神经网络,得到用于抑制冗余动作提案的网络。本发明提出了一种新的用于动作提案生成的基于视觉特征相似度的神经网络及其生成方法,该神经网络能够有效地从视频中提取视觉特征相似度发生突变的时间位置,从而捕获用于准确表达视频中的动作的开始和结束时间,对于视频中的动作片段查找,该方法具有比较好的表现,能够准确并且快速的实现视频中动作片段的查找。

Description

基于视觉特征相似度的神经网络及其动作提案生成方法
技术领域
本发明涉及人工智能领域,更具体地,涉及一种基于视觉特征相似度的神经网络及其动作提案生成方法。
背景技术
动作提案生成技术作为计算机视觉领域中的一个重要的课题,具有非常广泛的应用前景。人机交互,智能监控,视频检索等领域具有非常强的应用前景,高效的动作提案生成方法具有非常强的现实意义。比如针对当前视频网站上出现的海量视频数据,使用人工去对这些数据进行时间标注明显是不现实的,我们可以通过动作提案生成技术,使用计算机自动的对上传到网络上的视频进行自动标注,从而提供更好的检索,使得信息能够得到更大程度上的利用。在视频监控中,通过现场的监控视频获得视频信息,对视频信息进行动作片段分析,预测监控目标的状态,在出现紧急情况时能够自动的报警来达到视频监控的目的。早期的动作提案生成技术以人工设计特征的方法为主,效果一般。近年来随着深度学习方法在计算机视觉领域中的广泛应用,形成了以神经网络为基础的一系列的动作识别方法,取得了比较大的成功。
2014年,Zheng Shou等人提出了在未修剪视频上的多阶段卷积神经网络,使用多尺度的滑动窗口来获取视频中的动作片段,取得了比较大的成功。2017年Yue Zhao等人利用分水岭算法设计了一种结构化的片段神经网络,该网络结构将视频动作分数序列视为一维信号,通过分水岭算法,获得视频中的动作片段,能够比较好的获取长时间的动作片段。
虽然多阶段卷积神经网络和分水岭算法在动作提案生成中取得了一定的效果,但是这些模型使用的时间尺度是固定的,具有几个问题。一方面当动作片段的持续时间大于网络的最大时间尺度时,获取的动作片段并不完整,另一方面分水岭算法存在着由于动作分数序列质量不好而忽略了正确的动作提案的情况。因此这些方法无法在实际应用上取得突破。
发明内容
本发明提供一种基于视觉特征相似度的神经网络及其动作提案生成方法,该神经网络可以自动找出视频中发生动作的片段。
为此,本发明提供了一种基于视觉特征相似度的神经网络动作提案生成方法,包括以下步骤:
S1:构造视觉特征相似性比较网络;
S2:构造动作候选提案生成及特征再提取网络,用于候选提案分类神经网络;
S3:构造候选提案分类神经网络,得到用于抑制冗余动作提案的网络。
优选地:所述步骤S1包括:
S1.1:获取数据集,所述数据集包括THUMOS-14视频数据集和ActivityNet-v1.3视频数据集;
S1.2:将所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集中的每一个视频分为视频单帧和视频光流两部分,其中光流部分由堆叠的光流图构成,视频可以表示为sn=(rn,on);
S1.3:将双流网络的最后一层全连接层的输出作为视频的时间特征和空间特征,以将所述视频单帧和视频光流分别通过空间神经网络和时间神经网络进行视觉特征的提取;
S1.4:对所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集进行特征提取得到每一个视频的时间特征和空间特征进行拼接,得到最终的视觉特征,可以表示为fn=(fr,n,fo,n);
S1.5:采用余弦相似比较作为视觉特征相似度的计算公式,
Figure BDA0002054587650000021
S1.6:将每一维的特征逐一进行相似度计算,得到特征的相似度序列,可以表示为
Figure BDA0002054587650000022
优选地,所述步骤S2包括:
S2.1:利用相似度序列的二阶导数找出相似度序列中的突变点,其中所述突变点是指相似度发生剧烈变化的时间位置;
S2.2:对于所述突变点的数量大于预设值的视频,选取变化最剧烈的前150个突变点来构建突变点序列;对于所述突变点少于150个的视频则选取全部的时间点,构建的突变点序列可以表示为
Figure BDA0002054587650000023
S2.3:将步骤S2.2中生成的突变点序列进行结合,得到候选提案序列,所述候选提案序列表示为C=(ti,s,ti,e);
S2.4:根据所述候选提案序列中的时间位置,对所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集中的每一个视频的相应范围的原始视觉特征进行视觉特征的再提取以获得所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集中的每一个视频对应的特征矩阵;
S2.5:通过等比例采样和线性插值,将所述特征矩阵的维数固定在32维。
优选地,所述步骤S3包括:
S3.1:构建动作提案分类神经网络,所述动作提案分类神经网络通过三层全连接层复合而成,将步骤S2.5中再提取的所述特征矩阵作为所述动作提案分类神经网络的输入;
S3.2:使用随机初始化对所述动作提案分类神经网络进行初始化,然后使用损失函数开始对所述动作提案分类神经网络进行训练以实现参数的优化,其中,所述损失函数为
Figure BDA0002054587650000031
其中,ntrain是训练集中视频的数量,li,iou是第i个动作提案与该时间标签的重叠程度,将重叠程度大于0.7的设为正样本,小于0.3的设为负样本;
S3.3:将预设的动作提案的分类结果与给定的时间标签进行对比,使用随机梯度下降的方法对整个动作提案分类神经网络的参数进行反向更新,实现动作提案分类神经网络的训练;
S3.4:将神经网络的输出结果,以及每个动作提案与时间标签的重合程度的得分相融合,作为最终该动作提案的分类得分,可以表示为:Pi=(ti,s,ti,e,si);
S3.5:对动作提案分类神经网络的输出得分采用软-非极大值抑制方法进行冗余动作提案的抑制,将输出得分高但是与时间标签重叠度低的动作提案进行抑制,降低其预测分数,其余的动作提案保持预测分数不变;
S3.6:使用训练好的动作提案分类神经网络进行视频中动作的检测。
一种基于视觉特征相似度的神经网络,包括:
视觉特征相似性比较网络,
动作候选提案生成及特征再提取网络,用于候选提案分类神经网络;
候选提案分类神经网络,用于得到抑制冗余动作提案的网络。
优选地,所述视觉特征相似性比较网络通过以下步骤获得:
获取数据集,所述数据集包括THUMOS-14视频数据集和ActivityNet-v1.3视频数据集;
S1.2:将所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集中的每一个视频分为视频单帧和视频光流两部分,其中光流部分由堆叠的光流图构成,视频可以表示为sn=(rn,on);
S1.3:将双流网络的最后一层全连接层的输出作为视频的时间特征和空间特征,以将所述视频单帧和视频光流分别通过空间神经网络和时间神经网络进行视觉特征的提取;
S1.4:对所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集进行特征提取得到每一个视频的时间特征和空间特征进行拼接,得到最终的视觉特征,可以表示为fn=(fr,n,fo,n);
S1.5:采用余弦相似比较作为视觉特征相似度的计算公式,
Figure BDA0002054587650000041
S1.6:将每一维的特征逐一进行相似度计算,得到特征的相似度序列,可以表示为
Figure BDA0002054587650000042
优选地,所述动作候选提案生成及特征再提取网络通过以下步骤获得:
S2.1:利用相似度序列的二阶导数找出相似度序列中的突变点,其中所述突变点是指相似度发生剧烈变化的时间位置;
S2.2:对于所述突变点的数量大于预设值的视频,选取变化最剧烈的前150个突变点来构建突变点序列;对于所述突变点少于150个的视频则选取全部的时间点,构建的突变点序列可以表示为
Figure BDA0002054587650000043
S2.3:将步骤S2.2中生成的突变点序列进行结合,得到候选提案序列,所述候选提案序列表示为C=(ti,s,ti,e);
S2.4:根据所述候选提案序列中的时间位置,对所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集中的每一个视频的相应范围的原始视觉特征进行视觉特征的再提取以获得所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集中的每一个视频对应的特征矩阵;
S2.5:通过等比例采样和线性插值,将所述特征矩阵的维数固定在32维。
优选地,所述候选提案分类神经网络通过以下步骤获得:
S3.1:构建动作提案分类神经网络,所述动作提案分类神经网络通过三层全连接层复合而成,将步骤S2.5中再提取的所述特征矩阵作为所述动作提案分类神经网络的输入;
S3.2:使用随机初始化对所述动作提案分类神经网络进行初始化,然后使用损失函数开始对所述动作提案分类神经网络进行训练以实现参数的优化,其中,所述损失函数为
Figure BDA0002054587650000044
其中,ntrain是训练集中视频的数量,li,iou是第i个动作提案与该时间标签的重叠程度,将重叠程度大于0.7的设为正样本,小于0.3的设为负样本;
S3.3:将预设的动作提案的分类结果与给定的时间标签进行对比,使用随机梯度下降的方法对整个动作提案分类神经网络的参数进行反向更新,实现动作提案分类神经网络的训练;
S3.4:将神经网络的输出结果,以及每个动作提案与时间标签的重合程度的得分相融合,作为最终该动作提案的分类得分,可以表示为:Pi=(ti,s,ti,e,si);
S3.5:对动作提案分类神经网络的输出得分采用软-非极大值抑制方法进行冗余动作提案的抑制,将输出得分高但是与时间标签重叠度低的动作提案进行抑制,降低其预测分数,其余的动作提案保持预测分数不变。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出了一种新的用于动作提案生成的基于视觉特征相似度的神经网络及其生成方法,该神经网络基于视觉特征相似度,由三个部分构成,分别是特征相似度计算模块、动作提案生成及特征提取模块与动作提案分类及后续处理模块,用于提取视频中包含动作的视频片段。本发明能够有效地从视频中提取视觉特征相似度发生突变的时间位置,从而捕获用于准确表达视频中的动作的开始和结束时间,对于视频中的动作片段查找,该方法具有比较好的表现,能够准确并且快速的实现视频中动作片段的查找。
附图说明
图1为基于视觉特征相似度的神经网络动作提案生成模型;
图2为动作提案分类神经网络模块。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制。
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸。对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1~2所示,一种基于视觉特征相似度的神经网络动作提案生成方法,包括以下步骤:
S1:构造视觉特征相似性比较网络。
S1.1:获取数据集。本实施方式中,采用目前通用的两个大型视频数据集,THUMOS-14视频数据集和ActivityNet-v1.3视频数据集,这两个数据集可以从数据集官网下载数据集对应的视频和相关信息,每个数据集包含三个文件夹,分别存放背景类、测试类和验证类信息,每个文件夹当中包含对应类下的若干个视频。
S1.2:将两个数据集中的每一个视频分为视频单帧和视频光流两部分,其中光流部分由堆叠的光流图构成,视频可以表示为sn=(rn,on)。其中,视频单帧的提取方法是通过对视频等间隔抽样获得的.jpg图片。在ActivityNet上是每16帧抽取1帧,在Thumos-14上是每5帧抽取1帧,因为Activitynet当中的视频比Thumos的长很多。视频光流图是通过flownet2.0method方法获得的。视频单帧是指从视频中提取出来的某一帧的彩色图片(如RGB图)。视频光流是根据一帧的像素点,通过光的运动轨迹来追踪它在视频中的轨迹点,从而计算它在每一帧的相应位置的光流向量,它只包含运动信息的灰度图,多张叠加后能明显发现视频中目标的动作变化。
S1.3:将视频单帧和视频光流分别通过空间神经网络和时间神经网络进行视觉特征的提取,我们将双流网络的最后一层全连接层的输出作为视频的时间特征和空间特征。其中,双流网络可以是2014年‘Two-stream convolutional networks for actionrecognition in videos’文章中提出的方法,它将视频分为空间流(输入是单帧)和时间流(输入是多帧的光流)。时间特征和空间特征是分别由将单帧作为输入的空间卷积网络和将光流作为输入的时间卷积网络的最后一层全连接层的输出获得的。
S1.4:对得到每一个视频的时间特征和空间特征进行拼接,得到最终的视觉特征,可以表示为fn=(fr,n,fo,n)。在一些实施方式中,拼接方法是按时间特征-空间特征的方式进行的。一个视频的特征向量的列数是400,前200列是时间特征,后200列是空间特征。每个视频对应一个视觉特征文件,视觉特征的行数由视频长度决定,列数都是400。
S1.5:采用余弦相似比较作为视觉特征相似度的计算公式,
Figure BDA0002054587650000061
S1.6:将每一维的特征进行逐一计算,得到特征的相似度序列,可以表示为
Figure BDA0002054587650000062
S2:构造动作候选提案生成及特征再提取网络,用于候选提案分类神经网络。
S2.1:利用相似度序列的二阶导数找出相似度序列中相似度发生剧烈变化的时间位置。
S2.2:对于突变点过多的视频,选取变化最剧烈的前150个时间点来构建突变点序列,突变点少于150个的视频则选取全部的时间点。突变点序列可以表示为
Figure BDA0002054587650000063
选择突变点的数量需要获得尽可能全面的特征变化点,发明人通过实验发现选取150个点的时候,提案生成的效果最好。每个视频获得大约一万个左右的提案用于后续的筛选,但是有的视频长度比较小,特征变化点不满足150个,可以选取全部的点。
S2.3:将S1.3中生成的突变点序列进行两两结合,得到具有灵活边界和不固定长度的候选提案序列,可以表示为C=(ti,s,ti,e)。
S2.4:根据候选提案序列中的时间位置,对S1.1中的相应范围的原始视觉特征进行视觉特征的再提取。
S2.5:通过等比例采样和线性插值,将特征矩阵的维数固定在32维,其中,该分类器训练网络要求输入的矩阵维度和它的维度要相同。
S3:构造候选提案分类神经网络,得到最后用于动作提案冗余抑制的网络。
S3.1:构建动作提案分类神经网络。动作提案分类神经网络由三层全连接层复合而成,将S2.2中再提取的视觉特征作为动作提案分类神经网络的输入。
S3.2:使用随机初始化对动作提案分类神经网络进行初始化,然后使用损失函数开始对整个网络进行训练,实现参数的优化,损失函数为
Figure BDA0002054587650000071
其中,ntrain是训练集中视频的数量,li,iou是第i个动作提案与该时间标签的重叠程度,将重叠程度大于0.7的设为正样本,小于0.3的设为负样本。
S3.3:将动作提案的分类结果与给定的时间标签进行对比,使用随机梯度下降的方法对整个动作提案分类神经网络的参数进行反向更新,实现动作提案分类神经网络的训练。
S3.4:将神经网络的输出结果,以及每个动作提案与时间标签的重合程度的得分相融合,作为最终该动作提案的分类得分,可以表示为:Pi=(ti,s,ti,e,si)。
S3.5:对动作提案分类神经网络的输出得分采用软-非极大值抑制方法进行冗余动作提案的抑制,将输出得分高但是与时间标签重叠度低的动作提案进行抑制,降低其预测分数,其余的动作提案保持预测分数不变。
S3.6:训练好的动作提案的分类结果可以用于进行视频中动作的检测任务。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种基于视觉特征相似度的神经网络动作提案生成方法,其特征在于:包括以下步骤:
S1:构造视觉特征相似性比较网络;
S2:构造动作候选提案生成及特征再提取网络,用于候选提案分类神经网络;所述步骤S2包括:
S2.1:利用相似度序列的二阶导数找出相似度序列中的突变点,其中所述突变点是指相似度发生剧烈变化的时间位置;
S2.2:对于所述突变点的数量大于预设值的视频,选取变化最剧烈的前150个突变点来构建突变点序列;对于所述突变点少于150个的视频则选取全部的时间点,构建的突变点序列可以表示为
Figure FDA0003895439230000011
S2.3:将步骤S2.2中生成的突变点序列进行结合,得到候选提案序列,所述候选提案序列表示为C=(ti,s,ti,e);
S2.4:根据所述候选提案序列中的时间位置,对THUMOS-14视频数据集和ActivityNet-v1.3视频数据集中的每一个视频的相应范围的原始视觉特征进行视觉特征的再提取以获得所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集中的每一个视频对应的特征矩阵;
S2.5:通过等比例采样和线性插值,将所述特征矩阵的维数固定在32维;
S3:构造候选提案分类神经网络,得到用于抑制冗余动作提案的网络;所述步骤S3包括:
S3.1:构建动作提案分类神经网络,所述动作提案分类神经网络通过三层全连接层复合而成,将步骤S2.5中再提取的所述特征矩阵作为所述动作提案分类神经网络的输入;
S3.2:使用随机初始化对所述动作提案分类神经网络进行初始化,然后使用损失函数开始对所述动作提案分类神经网络进行训练以实现参数的优化,其中,所述损失函数为
Figure FDA0003895439230000012
其中,ntrain是训练集中视频的数量,li,iou是第i个动作提案与时间标签的重叠程度,将重叠程度大于0.7的设为正样本,小于0.3的设为负样本;
S3.3:将预设的动作提案的分类结果与给定的时间标签进行对比,使用随机梯度下降的方法对整个动作提案分类神经网络的参数进行反向更新,实现动作提案分类神经网络的训练;
S3.4:将神经网络的输出结果,以及每个动作提案与时间标签的重合程度的得分相融合,作为最终该动作提案的分类得分,可以表示为:Pi=(ti,s,ti,e,si);
S3.5:对动作提案分类神经网络的输出得分采用软-非极大值抑制方法进行冗余动作提案的抑制,将输出得分高但是与时间标签重叠度低的动作提案进行抑制,降低其预测分数,其余的动作提案保持预测分数不变;
S3.6:使用训练好的动作提案分类神经网络进行视频中动作的检测。
2.根据权利要求1所述的基于视觉特征相似度的神经网络动作提案生成方法,其特征在于:所述步骤S1包括:
S1.1:获取数据集,所述数据集包括THUMOS-14视频数据集和ActivityNet-v1.3视频数据集;
S1.2:将所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集中的每一个视频分为视频单帧和视频光流两部分,其中光流部分由堆叠的光流图构成,视频可以表示为sn=(rn,on);
S1.3:将双流网络的最后一层全连接层的输出作为视频的时间特征和空间特征,以将所述视频单帧和视频光流分别通过空间神经网络和时间神经网络进行视觉特征的提取;
S1.4:对所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集进行特征提取得到每一个视频的时间特征和空间特征进行拼接,得到最终的视觉特征,可以表示为fn=(fr,n,fo,n);
S1.5:采用余弦相似比较作为视觉特征相似度的计算公式,
Figure FDA0003895439230000021
S1.6:将每一维的特征逐一进行相似度计算,得到特征的相似度序列,可以表示为
Figure FDA0003895439230000022
3.一种基于视觉特征相似度的神经网络,其特征在于,包括:
视觉特征相似性比较网络,动作候选提案生成及特征再提取网络,用于候选提案分类神经网络;所述动作候选提案生成及特征再提取网络通过以下步骤获得:
S2.1:利用相似度序列的二阶导数找出相似度序列中的突变点,其中所述突变点是指相似度发生剧烈变化的时间位置;
S2.2:对于所述突变点的数量大于预设值的视频,选取变化最剧烈的前150个突变点来构建突变点序列;对于所述突变点少于150个的视频则选取全部的时间点,构建的突变点序列可以表示为
Figure FDA0003895439230000023
S2.3:将步骤S2.2中生成的突变点序列进行结合,得到候选提案序列,所述候选提案序列表示为C=(ti,s,ti,e);
S2.4:根据所述候选提案序列中的时间位置,对THUMOS-14视频数据集和ActivityNet-v1.3视频数据集中的每一个视频的相应范围的原始视觉特征进行视觉特征的再提取以获得所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集中的每一个视频对应的特征矩阵;
S2.5:通过等比例采样和线性插值,将所述特征矩阵的维数固定在32维;
候选提案分类神经网络,用于得到抑制冗余动作提案的网络;所述候选提案分类神经网络通过以下步骤获得:
S3.1:构建动作提案分类神经网络,所述动作提案分类神经网络通过三层全连接层复合而成,将步骤S2.5中再提取的所述特征矩阵作为所述动作提案分类神经网络的输入;
S3.2:使用随机初始化对所述动作提案分类神经网络进行初始化,然后使用损失函数开始对所述动作提案分类神经网络进行训练以实现参数的优化,其中,所述损失函数为
Figure FDA0003895439230000031
其中,ntrain是训练集中视频的数量,li,iou是第i个动作提案与时间标签的重叠程度,将重叠程度大于0.7的设为正样本,小于0.3的设为负样本;
S3.3:将预设的动作提案的分类结果与给定的时间标签进行对比,使用随机梯度下降的方法对整个动作提案分类神经网络的参数进行反向更新,实现动作提案分类神经网络的训练;
S3.4:将神经网络的输出结果,以及每个动作提案与时间标签的重合程度的得分相融合,作为最终该动作提案的分类得分,表示为:Pi=(ti,s,ti,e,si);
S3.5:对动作提案分类神经网络的输出得分采用软-非极大值抑制方法进行冗余动作提案的抑制,将输出得分高但是与时间标签重叠度低的动作提案进行抑制,降低其预测分数,其余的动作提案保持预测分数不变。
4.如权利要求3所述的基于视觉特征相似度的神经网络,其特征在于,所述视觉特征相似性比较网络通过以下步骤获得:
获取数据集,所述数据集包括THUMOS-14视频数据集和ActivityNet-v1.3视频数据集;
S1.2:将所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集中的每一个视频分为视频单帧和视频光流两部分,其中光流部分由堆叠的光流图构成,视频可以表示为sn=(rn,on);
S1.3:将双流网络的最后一层全连接层的输出作为视频的时间特征和空间特征,以将所述视频单帧和视频光流分别通过空间神经网络和时间神经网络进行视觉特征的提取;
S1.4:对所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集进行特征提取得到每一个视频的时间特征和空间特征进行拼接,得到最终的视觉特征,可以表示为fn=(fr,n,fo,n);
S1.5:采用余弦相似比较作为视觉特征相似度的计算公式,
Figure FDA0003895439230000041
S1.6:将每一维的特征逐一进行相似度计算,得到特征的相似度序列,可以表示为
Figure FDA0003895439230000042
CN201910385118.3A 2019-05-09 2019-05-09 基于视觉特征相似度的神经网络及其动作提案生成方法 Active CN110147876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910385118.3A CN110147876B (zh) 2019-05-09 2019-05-09 基于视觉特征相似度的神经网络及其动作提案生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910385118.3A CN110147876B (zh) 2019-05-09 2019-05-09 基于视觉特征相似度的神经网络及其动作提案生成方法

Publications (2)

Publication Number Publication Date
CN110147876A CN110147876A (zh) 2019-08-20
CN110147876B true CN110147876B (zh) 2023-01-03

Family

ID=67595133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910385118.3A Active CN110147876B (zh) 2019-05-09 2019-05-09 基于视觉特征相似度的神经网络及其动作提案生成方法

Country Status (1)

Country Link
CN (1) CN110147876B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796069B (zh) * 2019-10-28 2021-02-05 广州云从博衍智能科技有限公司 一种行为检测方法、系统、设备及机器可读介质
CN111027377B (zh) * 2019-10-30 2021-06-04 杭州电子科技大学 一种双流神经网络时序动作定位方法
CN113569757B (zh) * 2021-07-29 2024-04-05 西安交通大学 一种时序动作定位方法、系统、终端设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514443A (zh) * 2013-10-15 2014-01-15 中国矿业大学 一种基于lpp特征提取的单样本人脸识别迁移学习方法
CN105989358A (zh) * 2016-01-21 2016-10-05 中山大学 一种自然场景视频识别方法
CN106528662A (zh) * 2016-10-20 2017-03-22 中山大学 一种基于特征几何约束的车辆图像快速检索方法与系统
CN109583334A (zh) * 2018-11-16 2019-04-05 中山大学 一种基于时空关联神经网络的动作识别方法及其系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10496699B2 (en) * 2017-03-20 2019-12-03 Adobe Inc. Topic association and tagging for dense images

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514443A (zh) * 2013-10-15 2014-01-15 中国矿业大学 一种基于lpp特征提取的单样本人脸识别迁移学习方法
CN105989358A (zh) * 2016-01-21 2016-10-05 中山大学 一种自然场景视频识别方法
CN106528662A (zh) * 2016-10-20 2017-03-22 中山大学 一种基于特征几何约束的车辆图像快速检索方法与系统
CN109583334A (zh) * 2018-11-16 2019-04-05 中山大学 一种基于时空关联神经网络的动作识别方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
核主成分分析网络的人脸识别方法;胡伟鹏,等;《中山大学学报(自然科学版)》;20160930;第55卷(第5期);全文 *

Also Published As

Publication number Publication date
CN110147876A (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN105069434B (zh) 一种视频中人体动作行为识别方法
CN110147876B (zh) 基于视觉特征相似度的神经网络及其动作提案生成方法
CN107862376A (zh) 一种基于双流神经网络的人体图像动作识别方法
CN108491766B (zh) 一种端到端的基于深度决策森林的人群计数方法
US11403343B2 (en) Retrieval of video and vehicle behavior for a driving scene described in search text
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN108921032B (zh) 一种新的基于深度学习模型的视频语义提取方法
CN113642482B (zh) 一种基于视频时空上下文的视频人物关系分析方法
Song et al. Context-interactive CNN for person re-identification
Yan et al. Video-text pre-training with learned regions
CN107220597B (zh) 一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法
Salem et al. Semantic image inpainting using self-learning encoder-decoder and adversarial loss
Islam et al. Representation for action recognition with motion vector termed as: SDQIO
Roy et al. Sparsity-inducing dictionaries for effective action classification
Das et al. Continuous adaptation of multi-camera person identification models through sparse non-redundant representative selection
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN111144220B (zh) 适于大数据的人员检测方法、装置、设备和介质
Sun et al. Weak supervised learning based abnormal behavior detection
Aoun et al. Bag of sub-graphs for video event recognition
WO2021223747A1 (zh) 视频处理方法、装置、电子设备、存储介质及程序产品
Yin et al. Semantics constrained dictionary learning for signer-independent sign language recognition
CN111008616B (zh) 一种基于卷积神经网络和深度核网络的视频行为识别方法
Geng et al. Object-aware feature aggregation for video object detection
CN110210321B (zh) 基于多维尺度变换网络与分块加权法的欠样本人脸识别方法
Zeng et al. Visual tracking based on multi-feature and fast scale adaptive kernelized correlation filter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant