CN112364852B - 融合全局信息的动作视频段提取方法 - Google Patents

融合全局信息的动作视频段提取方法 Download PDF

Info

Publication number
CN112364852B
CN112364852B CN202110042635.8A CN202110042635A CN112364852B CN 112364852 B CN112364852 B CN 112364852B CN 202110042635 A CN202110042635 A CN 202110042635A CN 112364852 B CN112364852 B CN 112364852B
Authority
CN
China
Prior art keywords
video
video segment
visual
global information
time node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110042635.8A
Other languages
English (en)
Other versions
CN112364852A (zh
Inventor
徐行
任燚梵
沈复民
邵杰
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Koala Youran Technology Co ltd
Original Assignee
Chengdu Koala Youran Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Koala Youran Technology Co ltd filed Critical Chengdu Koala Youran Technology Co ltd
Priority to CN202110042635.8A priority Critical patent/CN112364852B/zh
Publication of CN112364852A publication Critical patent/CN112364852A/zh
Application granted granted Critical
Publication of CN112364852B publication Critical patent/CN112364852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合全局信息的动作视频段提取方法,属于视频处理领域。本发明包括:选择训练数据集;提取数据集中的原始视频的视频帧,并利用TSN网络模型来提取的原始视频中包含的视频段的视觉特征并组成视觉特征序列;利用时序卷积对提取的视觉特征序列进行卷积操作,扩大视觉特征序中视觉特征的感受视野;基于扩大感受视野后的视觉特征生成视频段的二维视频段特征,并进行视频段的动作预测;基于扩大感受视野后的视觉特征预测视频段的开始时间节点和结束时间节点;将视频段的动作预测结果以及开始时间节点和结束时间节点预测结果进行融合,产生最终的预测结果。通过上述方法,本发明能够从长视频中提取出有效的视频段。

Description

融合全局信息的动作视频段提取方法
技术领域
本发明涉及视频处理领域,尤其涉及一种融合全局信息的动作视频段提取方法。
背景技术
随着各种拍摄设备和网络的普及,视频在人们日常的生活中占据着越来越重要的地位,对于视频内容的分析也受到了越来越多的人的关注。但是对于目前视频的来源来说,其主要是用户所上传的未经剪辑的长视频亦或者由政府所安装的摄像头所捕获的视频,对于这些少平来说,其中包含着大量的无关的、冗余的信息,比如:用户上传视频中的背景信息,因为对于大多数的人来说,人们更加关注视频中的事件而不是其背景。如果要采用人工的方法来对这样的视频进行处理,这无疑将会浪费大量的人力物力。
因此,我们有必要对视频进行恰当的处理,剔除掉无关的背景信息,尽可能的保留事件信息。此外,随着深度学习在视频处理领域的广泛应用,这一任务也受到了各个公司、高校的关注,出现了很多基于深度学习的不同的处理方法。
目前对于提取包含动作的视频段来说,有两类基于深度学习的方法,可以大致分为anchor-base和anchor-free:
1)anchor-base:该类处理方法主要是从目标检测领域所借鉴过来的,将原先目标检测中对空间信息的建模,替换成对该任务中的时序信息的建模。利用卷积神经网络,在每一层提取的特征图中,再其对应的位置定义不同尺度的anchor,然后负责特定长度视频段的预测。但是这类方法由于预先定义了anchor的大小,可能很难灵活的覆盖不同长度的视频段,导致最后的预测结果较差。
2)anchor-free:该类处理方法抛弃了anchor的使用,而是直接预测视频中不同时间点的类别:主要包含开始、结束、动作三类。然后利用配对的方法来将三类节点进行配对,来生成可能包含动作的视频段,最后再进行评判,剔除掉多余的视频段,产生最后的结果。
现有的这两类方法中,虽然可以产生比较好的预测结果,但是在预测的过程中并没有充分的利用全局信息,这可能缺乏对于视频整体的理解。
发明内容
本发明的目的是提供一种融合全局信息的动作视频段提取方法,能够在使用模型预测包含动作的视频段的过程中,通过引入全局信息来对指导有效视频段的产生。
本发明解决其技术问题,采用的技术方案是:
融合全局信息的动作视频段提取方法,包括如下步骤:
步骤1、选择数据集;
步骤2、在选择的数据集中,提取原始视频中的视频段对应的视频帧,并利用TSN网络模型提取原始视频中包含的视频段的视觉特征,并将视觉特征组成视觉特征序列;
步骤3、利用时序卷积对提取的视觉特征序列进行卷积操作;
步骤4、基于进行卷积操作后的视觉特征序列生成视频段的二维视频段特征,并进行视频段的动作预测;
步骤5、基于进行卷积操作后的视觉特征序列预测视频段的开始时间节点和结束时间节点;
步骤6、将视频段的动作预测结果以及开始时间节点和结束时间节点预测结果进行融合,产生最终的预测结果。
进一步的是,步骤1中,所述数据集为ActivityNet-1.3,该数据集按照2:1:1的比例将所有视频划分为训练集、评估集和测试集。
进一步的是,步骤2中,提取原始视频中的视频段对应的视频帧,表示为
Figure 531955DEST_PATH_IMAGE001
,其中
Figure 499911DEST_PATH_IMAGE002
表示总的视频帧数,
Figure 799305DEST_PATH_IMAGE003
表示在视频中的第n帧;对于该视频的数据集,表示为
Figure 510909DEST_PATH_IMAGE004
,其中
Figure 844939DEST_PATH_IMAGE005
表示某个视频中含有动作视频段的数目,
Figure 983796DEST_PATH_IMAGE006
Figure 504907DEST_PATH_IMAGE007
分别表示第
Figure 20202DEST_PATH_IMAGE008
个标签的开始时间节点和结束时间节点。
进一步的是,步骤2中,利用TSN网络模型提取原始视频中包含的视频段的视觉特征,并将视觉特征组成视觉特征序列,具体包括如下步骤:
步骤201、将原始视频按照时间间隔
Figure 5476DEST_PATH_IMAGE009
,生成视频段
Figure 636005DEST_PATH_IMAGE010
,其中,
Figure 441150DEST_PATH_IMAGE011
表示所提取的视频段数,
Figure 697819DEST_PATH_IMAGE002
表示总的视频帧数,
Figure 537599DEST_PATH_IMAGE012
Figure 221521DEST_PATH_IMAGE013
表示原始视频中的第
Figure 779541DEST_PATH_IMAGE014
个RGB图像,
Figure 371059DEST_PATH_IMAGE015
表示
Figure 409554DEST_PATH_IMAGE016
的光流图;
步骤202、将
Figure 61115DEST_PATH_IMAGE017
输入至TSN网络模型,
Figure 44114DEST_PATH_IMAGE017
分别通过TSN网络模型中的空间网络和时间网络,分别获取空间网络及时间网络的输出结果;
步骤203、融合空间网络及时间网络的输出结果,得到融合后的输出结果,表示为
Figure 439324DEST_PATH_IMAGE018
,其中,
Figure 456958DEST_PATH_IMAGE019
表示利用空间网络所提取的视觉特征,
Figure 279421DEST_PATH_IMAGE020
表示利用时间网络所提取的视觉特征;
步骤204、将融合后的输出结果组成视觉特征序列,表示为
Figure 546454DEST_PATH_IMAGE021
,其中
Figure 948617DEST_PATH_IMAGE022
表示所提取的视频段数,
Figure 617495DEST_PATH_IMAGE023
表示视频段所对应的视觉特征。
进一步的是,步骤3具体为:
利用时序卷积对提取的视觉特征序列F进行卷积操作,并扩大视觉特征序中视觉特征的感受视野,扩大感受视野后的视觉特征表示为
Figure 689488DEST_PATH_IMAGE024
,且
Figure 443817DEST_PATH_IMAGE025
,C表示特征通道数,R表示实数,T表示视频长度。
进一步的是,步骤4中,所述基于进行卷积操作后的视觉特征序列生成视频段的二维视频段特征,具体包括如下步骤:
步骤401、定义一个视频段的开始时间节点为
Figure 649670DEST_PATH_IMAGE026
,结束时间节点为
Figure 173056DEST_PATH_IMAGE027
步骤402、计算该视频段的掩膜Mask;
步骤403、将掩膜Mask和扩大感受视野后的视觉特征
Figure 806162DEST_PATH_IMAGE024
进行矩阵乘积运算得到视频段的二维视频段特征
Figure 47788DEST_PATH_IMAGE028
,在
Figure 667119DEST_PATH_IMAGE028
中,
Figure 45011DEST_PATH_IMAGE029
表示从时间
Figure 849019DEST_PATH_IMAGE030
到时间
Figure 312361DEST_PATH_IMAGE031
的视频段的特征。
进一步的是,步骤402中,所述掩膜
Figure 860017DEST_PATH_IMAGE032
,对于Mask中的每一项
Figure 92415DEST_PATH_IMAGE033
,表示从时间
Figure 864062DEST_PATH_IMAGE030
到时间
Figure 17963DEST_PATH_IMAGE031
中选取出N个点的特征,作为该视频段的特征,其中N表示所提取的特征点个数,R表示实数,T表示时间维度,对于非整数位置点利用如下公式来计算:
Figure 900468DEST_PATH_IMAGE034
其中,
Figure 331581DEST_PATH_IMAGE035
表示选取小数部分,
Figure 274129DEST_PATH_IMAGE036
表示选取整数部分,
Figure 712064DEST_PATH_IMAGE037
表示每次计算时第n个位置。
进一步的是,步骤403中,所述将掩膜Mask和扩大感受视野后的视觉特征
Figure 601522DEST_PATH_IMAGE024
进行矩阵乘积运算得到视频段的二维视频段特征
Figure 808513DEST_PATH_IMAGE028
,具体包括如下步骤:
步骤4031、对于一个视频段
Figure 125224DEST_PATH_IMAGE038
,得到其对应的掩膜
Figure 50455DEST_PATH_IMAGE033
,并利用矩阵乘积运算生成与该视频段对应的特征,即如下公式:
Figure 274763DEST_PATH_IMAGE039
其中c表示第几个通道,n表示所提取的特征维数,T表示时间维度,f表示关于视觉特征的特征;
步骤4032、对原始视频中所有视频段都进行矩阵乘积运算,即
Figure 946047DEST_PATH_IMAGE032
Figure 964819DEST_PATH_IMAGE025
在时间维度上进行矩阵乘法,得到
Figure 580608DEST_PATH_IMAGE040
进一步的是,步骤5中,通过开始时间节点和结束时间节点预测模块基于进行卷积操作后的视觉特征序列预测视频段的开始时间节点和结束时间节点;
所述开始时间节点和结束时间节点预测模块包括堆叠的多个相同的基本模块StartEndBlock。
进一步的是,步骤6之后,还包括如下步骤:
步骤7、利用Soft-NMS方法对原始视频中重复的视频段进行剔除;
步骤8、使用损失函数训练融合全局信息的动作视频段提取模型;
步骤9、通过数据集验证所述融合全局信息的动作视频段提取模型的有效性
本发明的有益效果是,通过上述融合全局信息的动作视频段提取方法,能够引入全局特征的,将全局信息引入到了两个分支当中,在预测的过程中,可以在一定程度上考虑到特征的整体分布结构,使预测结果更加准确。
附图说明
图1为本发明融合全局信息的动作视频段提取方法的流程图;
图2为基于本发明整体的一个网络结构框架;
图3为本发明实施例中中开始和结束节点预测模块的结构;
图4为本发明实施例中视频段预测模块的基本结构。
具体实施方式
下面结合附图,详细描述本发明的技术方案。
本发明提出一种融合全局信息的动作视频段提取方法,其流程图见图1,其中,该方法包括如下步骤:
步骤1、选择数据集。
步骤2、在选择的数据集中,提取原始视频中的视频段对应的视频帧,并利用TSN网络模型提取原始视频中包含的视频段的视觉特征,并将视觉特征组成视觉特征序列。
步骤3、利用时序卷积对提取的视觉特征序列进行卷积操作。
步骤4、基于进行卷积操作后的视觉特征序列生成视频段的二维视频段特征,并进行视频段的动作预测。
步骤5、基于进行卷积操作后的视觉特征序列预测视频段的开始时间节点和结束时间节点。
步骤6、将视频段的动作预测结果以及开始时间节点和结束时间节点预测结果进行融合,产生最终的预测结果。
这里,能够引入全局信息,在预测开始和结束节点时,使用多个相同模块的级联结构,并且使用空洞卷积,使卷积的感受野逐渐增大,并且覆盖整个原始视频。此外,在产生视频段评分的过程中,也将全局信息引入到其中,使模型能够考虑到不同视频段之间的包含关系。
对于视频开始节点和结束节点的预测来说,仅仅利用局部信息,这会忽略整体视频的结构,而没有考虑到视频节点之间的相互关系,引入全局信息,是对视频整体结构的理解的一个增强。同样,对于所有视频段构成的二维矩阵来说,每一个位置都对应着一个可能的视频段,这些视频段并不是不相关的,相反,这些视频之间包含着各种各样的关系,比如:包含、相邻等。利用全局信息,可以使得最终的预测结果充分考虑各个视频之间的关系,不会出现一些违反常识的预测结果,从而提高预测结果。
本发明在应用时,基于本发明整体的一个网络结构框架见图2,其主要涉及以下两个模块:
1、开始节点和结束节点预测模块:
在该模块中,我们的首先构建一个基本模块M,该模块是由膨胀率逐渐增大的空洞卷积构成的。设一个空洞卷积操作可以表示为
Figure 608607DEST_PATH_IMAGE041
(其中卷积核都为3,膨胀率d,输入为x,此外上述公式中还包括激活函数Relu(),为了简化忽略不写)。因此,对于该模块的输入视频特征,其模块的计算可以表示为:
Figure 993452DEST_PATH_IMAGE042
在该模块中,由于卷积操作的感受野是逐层扩大的,其最终会对整个原始视频进行卷积操作,这样在预测过程中会关注到视频的全局信息。此外,为了增强开始节点和结束节点的预测结果,我们将堆叠多个相同的模块M,并对每一个M的输出都进行监督,这样可以利用全局信息层层对预测结果进行修正,因此,开始节点和结束节点预测模块可以表示为:
Figure 448704DEST_PATH_IMAGE043
Output即为开始节点和结束节点预测模块最终的预测结果。
2、动作预测模块:
在该模块中,在提取出所有可能的视频段的特征后,将会生成基于视频段特征的二维特征图
Figure 286210DEST_PATH_IMAGE044
Figure 852320DEST_PATH_IMAGE044
的维度是
Figure 153989DEST_PATH_IMAGE045
,其中T表示时间维度,C表示特征维度。
Figure 858770DEST_PATH_IMAGE046
就表示以i节点作为开始,j节点作为结束的视频段的特征。可以看出,
Figure 980310DEST_PATH_IMAGE044
是一个上三角矩阵,此外,各个位置之间是存在制约关系的,比如:
Figure 553374DEST_PATH_IMAGE046
被预测为一个非动作视频段,那么
Figure 709549DEST_PATH_IMAGE047
也将是一个非视频段。因此,我们将引入
Figure 506604DEST_PATH_IMAGE044
的全局整体信息来制约最后的预测结果。对于输入
Figure 318702DEST_PATH_IMAGE044
来说,我们将利用二维卷积不断缩小其特征图的大小,然后利用反卷积扩大其感受野,恢复到原始尺度,并利用残差结构来保留原始信息,最后进行预测,这样可以充分考虑到
Figure 226615DEST_PATH_IMAGE044
的整体信息。与开始节点和结束节点预测模块相似,我们也堆叠多个相同的模块,并进行中间层的监督,以不断进行修正最后的预测结果。
实施例
本实施例提出一种融合全局信息的动作视频段提取方法,其具体应用时,包括如下步骤:
步骤1:选择合适的数据集。
本实施例主要是在公开的数据集ActivityNet-1.3上进行训练和测试。
ActivityNet-1.3数据集是一个用于生成视频段和检测的公开的数据集,其主要包含19994个视频并且包含200个动作类别,这些视频主要是从youtube网站上所爬取下来的,其分辨率和时间都各不相同。它曾经是ActivityNet Challenge 2016 and 2017的比赛数据集。该数据集按照2:1:1的比例将所有视频划分为训练集、评估集和测试集。
步骤2:对视频进行预处理。
首先我们对于一个未处理的长视频,提取出其对应的视频帧表示为
Figure 440559DEST_PATH_IMAGE048
,其中
Figure 408515DEST_PATH_IMAGE002
表示总的视频帧数,
Figure 504647DEST_PATH_IMAGE003
表示在视频中的第n帧。对于该视频的标签集,其可以表示为
Figure 560458DEST_PATH_IMAGE004
,其中
Figure 425646DEST_PATH_IMAGE005
表示某个视频中含有动作视频段的数目,
Figure 767766DEST_PATH_IMAGE006
Figure 351194DEST_PATH_IMAGE007
分别表示第
Figure 866489DEST_PATH_IMAGE008
个标签的开始时间和结束时间。虽然,在原始的数据集标签当中含有每一个视频段的类别信息,但是由于在视频段提取的任务中,该类别信息被忽略掉了。
Figure 789446DEST_PATH_IMAGE049
所代表的标签集仅仅在训练的过程中使用。
上述将视频段的视频帧提取好后,我们利用TSN网络模型来提取的他的视觉特征。首先,我们将视频按照一定的时间间隔
Figure 177833DEST_PATH_IMAGE009
,来生成视频段
Figure 248557DEST_PATH_IMAGE010
,其中
Figure 301964DEST_PATH_IMAGE011
,表示所提取的视频段数,
Figure 345006DEST_PATH_IMAGE002
表示总的视频帧数。对于一个
Figure 825666DEST_PATH_IMAGE012
来说,其中
Figure 586948DEST_PATH_IMAGE013
表示第
Figure 178467DEST_PATH_IMAGE014
个RGB图像,而
Figure 872753DEST_PATH_IMAGE015
表示在
Figure 993156DEST_PATH_IMAGE016
周围的光流图,我们将其输入到TSN网络模型当中,使其分别通过空间网络和时间网络,并将两个网络最后的输出连接起来,表示为
Figure 772893DEST_PATH_IMAGE018
,其中,
Figure 246731DEST_PATH_IMAGE019
表示利用空间网络所提取的特征,
Figure 61103DEST_PATH_IMAGE020
则表示利用时序网络所提取的特征。那么对于S来说,其对应的特征序列可以表示为
Figure 883566DEST_PATH_IMAGE021
,其中
Figure 353861DEST_PATH_IMAGE022
表示所提取的视频段数,
Figure 552762DEST_PATH_IMAGE023
表示视频段所对应的特征。
步骤3:利用时序卷积来做前述特征进行基本的处理。
我们使用简单的时序卷积来对F来进行基本的卷积操作,来扩大其感受野。其计算过程如下:
Figure 221640DEST_PATH_IMAGE050
,这样我们便可以得到基本处理模块的输出
Figure 683846DEST_PATH_IMAGE024
,其中,F表示前述步骤所提取到的特征,
Figure 516804DEST_PATH_IMAGE024
表示经过基本处理后的特征,该模块的输出是作为被后续的两个特征所共享。
步骤4:生成二维视频段特征
Figure 253815DEST_PATH_IMAGE028
,并进行预测。
对于一个视频段定义其开始时间节点为
Figure 777201DEST_PATH_IMAGE026
和结束节点为
Figure 410307DEST_PATH_IMAGE027
,利用模板Mask和
Figure 651933DEST_PATH_IMAGE024
的乘积得到结果
Figure 130319DEST_PATH_IMAGE028
,其中,Mask是预先定义的模板,
Figure 773790DEST_PATH_IMAGE024
是前述步骤所提取到的视频特征,
Figure 108956DEST_PATH_IMAGE028
是通过运算得到的结果,
Figure 41140DEST_PATH_IMAGE029
表示从开始时间
Figure 119954DEST_PATH_IMAGE030
到结束时间
Figure 617932DEST_PATH_IMAGE031
的视频段的特征。
步骤402、对于前述步骤中生成的特征
Figure 468207DEST_PATH_IMAGE025
,而模板
Figure 418846DEST_PATH_IMAGE032
,对于Mask中的每一项
Figure 504613DEST_PATH_IMAGE033
表示从时间
Figure 857097DEST_PATH_IMAGE030
Figure 2908DEST_PATH_IMAGE031
中选取出某N个点的特征,作为该视频段的特征,其中T表示视频长度,N表示所提取的特征点个数,C表示特征通道数,
Figure 440842DEST_PATH_IMAGE030
示视频某一开始时间,
Figure 861459DEST_PATH_IMAGE031
表示视频某一结束时间;对于非整数位置点利用如下公式来计算:
Figure 678237DEST_PATH_IMAGE034
其中,
Figure 791686DEST_PATH_IMAGE035
表示选取小数部分,
Figure 920179DEST_PATH_IMAGE036
表示选取整数部分,
Figure 144487DEST_PATH_IMAGE037
表示每次计算时第n个位置。
这样对于一个视频段
Figure 409247DEST_PATH_IMAGE038
来说,我们可以得到其对应的
Figure 693597DEST_PATH_IMAGE033
,接着我们利用矩阵乘法来生成对应的特征,即如下公式,其中T表示视频长度,N表示所提取的特征点个数:
Figure 309387DEST_PATH_IMAGE039
其中c表示第几个通道,n表示所提取的特征维数,T表示时间维度,f表示关于视觉特征的特征。
我们对所有可能的视频段都进行上述操作,便可以利用高维矩阵乘法来实现,即
Figure 337385DEST_PATH_IMAGE032
Figure 597597DEST_PATH_IMAGE025
在时间维度上进行矩阵乘法,得到
Figure 787269DEST_PATH_IMAGE051
,其中,T表示视频长度,N表示所提取的特征点个数,C表示特征通道数,Mask是预先定义的模板,
Figure 687092DEST_PATH_IMAGE024
是前述步骤所提取到的视频特征,
Figure 456465DEST_PATH_IMAGE028
是通过运算得到的结果;
得到上述特征
Figure 758134DEST_PATH_IMAGE028
后,我们将利用视频段预测模块来产生最后的预测结果
Figure 321970DEST_PATH_IMAGE052
,首先我们构建残差模块ResidualBlock作为基本操作单元,其基本的操作过程可以简化为
Figure 709089DEST_PATH_IMAGE053
,其中x表示输入变量,Conv()表示卷积操作。然后构建功能模块ScoreBlock,该模块是视频段预测模块的基本组成部分,如图4所示。其前半部分是由ResidualBlock单元和池化操作交替组成的,使特征图的大小逐渐减小,这样可以得到更小的特征图,而后半部分则是由ResidualBlock单元和反卷积操作交替组成,这样在恢复原始大小的过程中就会将全局信息引入到其中,最后包含两个输出,即输入到下一部分的特征和基于该模块所产生的预测结果。
步骤5:利用卷积操作预测开始和结束节点。
对于开始节点和结束节点预测模块来说,其也是由多个相同的模块堆叠而成的。其基本模块是StartEndBlock,如图3所示,为了保持时间上的维度,该模块仅仅包含时序卷积,而不含有池化操作。我们依次使用一个膨胀率翻倍(1,2,4,...)的空洞卷积来对输入特征进行卷积操作,这样可以在保持参数一定的情况下同时扩大卷积的感受野,有利于对全局信息的把握。其具体表示如下:
Figure 78891DEST_PATH_IMAGE054
其中
Figure 172749DEST_PATH_IMAGE055
表示第
Figure 969803DEST_PATH_IMAGE056
层的输出,*表示卷积操作,
Figure 758784DEST_PATH_IMAGE057
都表示卷积核的参数,Relu()表示激活函数。在,每一个StartEndBlock中,我们同样也包含两类输出,初步的预测结果和输入到下一层的特征。
同样,和前述类似,我们也堆叠多个这样的模块,其运算结果可以表示为:
Figure 932277DEST_PATH_IMAGE058
其中,
Figure 942958DEST_PATH_IMAGE059
表示初始输入,
Figure 114176DEST_PATH_IMAGE060
表示第S层输出,
Figure 210308DEST_PATH_IMAGE061
表示卷积运算。
最终,在每一个模块都对其输出进行监督,将最后一个模块的输出作为该模块的输出结果,最终产生
Figure 125175DEST_PATH_IMAGE062
Figure 990363DEST_PATH_IMAGE063
序列,其中
Figure 129220DEST_PATH_IMAGE062
表示预测的开始节点序列,
Figure 791277DEST_PATH_IMAGE063
表示预测的结束节点序列。
步骤6:主要是利用上述两个分支的结果来产生最终的预测结果。
首先,我们先选取出可能是视频段开始和结束的节点,其方法为:对于步骤5中预测的开始节点结果
Figure 40992DEST_PATH_IMAGE062
和结束节点预测结果
Figure 229528DEST_PATH_IMAGE063
,我们选取其中的两类节点(1)值大于
Figure 539287DEST_PATH_IMAGE064
(2)是一个极大值或者极小值,其中
Figure 610011DEST_PATH_IMAGE065
Figure 866680DEST_PATH_IMAGE065
分别表示
Figure 706460DEST_PATH_IMAGE062
Figure 390382DEST_PATH_IMAGE063
中的最大值,*表示乘法运算。这样我们就可以获取可能的开始节点集
Figure 682823DEST_PATH_IMAGE066
和结束节点集
Figure 539921DEST_PATH_IMAGE067
,其中
Figure 312836DEST_PATH_IMAGE068
表示可能的开始节点数目,
Figure 964397DEST_PATH_IMAGE069
表示可能的结束节点数目。
接着,我们将开始节点集和结束节点集进行配对作为一个候选框,同时,如果其持续时间大于该数据集中最大的持续时间,将其剔除。那么生成的视频段
Figure 212976DEST_PATH_IMAGE070
可以表示为
Figure 608185DEST_PATH_IMAGE071
,其中
Figure 156978DEST_PATH_IMAGE062
Figure 713861DEST_PATH_IMAGE063
分别表示开始的可能性和结束的可能性,
Figure 980895DEST_PATH_IMAGE072
表示该视频段的可能性,
Figure 179795DEST_PATH_IMAGE073
表示开始时间,
Figure 661723DEST_PATH_IMAGE074
表示结束时间。那么,我们就可以获取所有的候选框
Figure 920666DEST_PATH_IMAGE075
,其中
Figure 878258DEST_PATH_IMAGE076
表示候选框的数量。
步骤7:利用Soft-NMS来对重复的候选视频段进行剔除。
获取到所有可能的候选框后,由于这其中大多数会有很大的重叠,所以我们利用Soft-NMS再一次进行剔除,首先我们计算所有候选框的分数
Figure 615269DEST_PATH_IMAGE077
,然后按照分数对其进行排序,其中,
Figure 138655DEST_PATH_IMAGE062
Figure 771761DEST_PATH_IMAGE063
分别表示开始的可能性和结束的可能性,
Figure 747808DEST_PATH_IMAGE072
表示该视频段的可能性。选取最大分数的候选框,然后计算与其他候选框的IoU,高度重叠的候选框将会按照下述公式来进行衰减。
Figure 491773DEST_PATH_IMAGE078
其中
Figure 135244DEST_PATH_IMAGE079
表示高斯函数的参数,
Figure 549039DEST_PATH_IMAGE080
表示率先定义的阈值,
Figure 277960DEST_PATH_IMAGE081
Figure 356775DEST_PATH_IMAGE082
表示任意两个不同的候选框,iou()表示计算两个候选框的交并比。这样,我们可以得到最终的预测结果
Figure 58014DEST_PATH_IMAGE083
,其中,
Figure 564082DEST_PATH_IMAGE084
表示开始时间,
Figure 983562DEST_PATH_IMAGE085
表示结束时间,
Figure 866067DEST_PATH_IMAGE086
表示某一个候选框最终的得分,
Figure 218551DEST_PATH_IMAGE087
表示最终得到的候选框的数量。
步骤8:使用损失函数来训练网络模型。
基于上述模型,我们要进行整个网络的训练,其整体的损失函数可以表示为:
Figure 505307DEST_PATH_IMAGE088
其中
Figure 943242DEST_PATH_IMAGE089
是动作二分类交叉熵损失,
Figure 567121DEST_PATH_IMAGE090
是开始二分类交叉熵损失,
Figure 39691DEST_PATH_IMAGE091
是结束二分类交叉熵损失,
Figure 887561DEST_PATH_IMAGE092
表示视频段预测模块的数目,
Figure 16054DEST_PATH_IMAGE093
表示开始和结束节点预测模块的个数,
Figure 240362DEST_PATH_IMAGE094
表示平衡因子。
步骤9:在选取的数据集上来验证模型的有效性。
在选取数据集上验证模型。为了很好地评价本发明的有效性,我们使用AverageRecall(AR)和Average Number of proposals(AN)来评价本方法的有效性,这可以表示为AR@AN。此外,在AR和AN关系图中的曲线下面积(AUC)也被作为评判本发明好坏的一个批判标准。
本发明在当前主流的视频段生成数据集ActivityNet-1.3上进行验证,其最后的验证结果如表1所示。
表 1 是“ActivityNet-1.3数据集上模型性能对比”
Figure 770701DEST_PATH_IMAGE096
从上述结果中可以看出,我们模型所提出的方法是均优于表中所列方法的,从一定程度上证明了本发明的有效性。

Claims (9)

1.融合全局信息的动作视频段提取方法,其特征在于,包括如下步骤:
步骤1、选择数据集;
步骤2、在选择的数据集中,提取原始视频中的视频段对应的视频帧,并利用TSN网络模型提取原始视频中包含的视频段的视觉特征,并将视觉特征组成视觉特征序列;
步骤3、利用时序卷积对提取的视觉特征序列进行卷积操作;
步骤4、基于进行卷积操作后的视觉特征序列生成视频段的二维视频段特征,并进行视频段的动作预测;
步骤5、基于进行卷积操作后的视觉特征序列预测视频段的开始时间节点和结束时间节点;
步骤5中,通过开始时间节点和结束时间节点预测模块基于进行卷积操作后的视觉特征序列预测视频段的开始时间节点和结束时间节点;
所述开始时间节点和结束时间节点预测模块包括堆叠的多个相同的基本模块StartEndBlock;
步骤6、将视频段的动作预测结果以及开始时间节点和结束时间节点预测结果进行融合,产生最终的预测结果。
2.根据权利要求1所述的融合全局信息的动作视频段提取方法,其特征在于,步骤1中,所述数据集为ActivityNet-1.3,该数据集按照2:1:1的比例将所有视频划分为训练集、评估集和测试集。
3.根据权利要求1所述的融合全局信息的动作视频段提取方法,其特征在于,步骤2中,提取原始视频中的视频段对应的视频帧,表示为
Figure 860626DEST_PATH_IMAGE001
,其中
Figure 888624DEST_PATH_IMAGE002
表示总的视频帧数,
Figure 70207DEST_PATH_IMAGE003
表示在视频中的第n帧;对于该视频的数据集,表示为
Figure 696098DEST_PATH_IMAGE004
,其中
Figure 595921DEST_PATH_IMAGE005
表示某个视频中含有动作视频段的数目,
Figure 162032DEST_PATH_IMAGE006
Figure 401383DEST_PATH_IMAGE007
分别表示第
Figure 761957DEST_PATH_IMAGE008
个标签的开始时间节点和结束时间节点。
4.根据权利要求3所述的融合全局信息的动作视频段提取方法,其特征在于,步骤2中,利用TSN网络模型提取原始视频中包含的视频段的视觉特征,并将视觉特征组成视觉特征序列,具体包括如下步骤:
步骤201、将原始视频按照时间间隔
Figure 149076DEST_PATH_IMAGE009
,生成视频段
Figure 518878DEST_PATH_IMAGE010
,其中,
Figure 81577DEST_PATH_IMAGE011
表示所提取的视频段数,
Figure 878632DEST_PATH_IMAGE002
表示总的视频帧数,
Figure 487468DEST_PATH_IMAGE012
Figure 864223DEST_PATH_IMAGE013
表示原始视频中的第
Figure 874904DEST_PATH_IMAGE014
个RGB图像,
Figure 842860DEST_PATH_IMAGE015
表示
Figure 375210DEST_PATH_IMAGE016
的光流图;
步骤202、将
Figure 86814DEST_PATH_IMAGE017
输入至TSN网络模型,
Figure 952002DEST_PATH_IMAGE017
分别通过TSN网络模型中的空间网络和时间网络,分别获取空间网络及时间网络的输出结果;
步骤203、融合空间网络及时间网络的输出结果,得到融合后的输出结果,表示为
Figure 90859DEST_PATH_IMAGE018
,其中,
Figure 346391DEST_PATH_IMAGE019
表示利用空间网络所提取的视觉特征,
Figure 596107DEST_PATH_IMAGE020
表示利用时间网络所提取的视觉特征;
步骤204、将融合后的输出结果组成视觉特征序列,表示为
Figure 581381DEST_PATH_IMAGE021
,其中
Figure 94401DEST_PATH_IMAGE022
表示所提取的视频段数,
Figure 165126DEST_PATH_IMAGE023
表示视频段所对应的视觉特征。
5.根据权利要求4所述的融合全局信息的动作视频段提取方法,其特征在于,步骤3具体为:
利用时序卷积对提取的视觉特征序列F进行卷积操作,并扩大视觉特征序中视觉特征的感受视野,扩大感受视野后的视觉特征表示为
Figure 218532DEST_PATH_IMAGE024
,且
Figure 995995DEST_PATH_IMAGE025
,C表示特征通道数,R表示实数,T表示视频长度。
6.根据权利要求5所述的融合全局信息的动作视频段提取方法,其特征在于,步骤4中,所述基于进行卷积操作后的视觉特征序列生成视频段的二维视频段特征,具体包括如下步骤:
步骤401、定义一个视频段的开始时间节点为
Figure 476655DEST_PATH_IMAGE026
,结束时间节点为
Figure 769096DEST_PATH_IMAGE027
步骤402、计算该视频段的掩膜Mask;
步骤403、将掩膜Mask和扩大感受视野后的视觉特征
Figure 626194DEST_PATH_IMAGE028
进行矩阵乘积运算得到视频段的二维视频段特征
Figure 756699DEST_PATH_IMAGE029
,在
Figure 408260DEST_PATH_IMAGE029
中,
Figure 453576DEST_PATH_IMAGE030
表示从时间
Figure 786469DEST_PATH_IMAGE031
到时间
Figure 335262DEST_PATH_IMAGE032
的视频段的特征。
7.根据权利要求6所述的融合全局信息的动作视频段提取方法,其特征在于,步骤402中,所述掩膜
Figure 423303DEST_PATH_IMAGE033
,对于Mask中的每一项
Figure 362441DEST_PATH_IMAGE034
,表示从时间
Figure 561341DEST_PATH_IMAGE031
到时间
Figure 964640DEST_PATH_IMAGE032
中选取出N个点的特征,作为该视频段的特征,其中N表示所提取的特征点个数,R表示实数,T表示时间维度,对于非整数位置点利用如下公式来计算:
Figure 223583DEST_PATH_IMAGE035
其中,
Figure 181175DEST_PATH_IMAGE036
表示选取小数部分,
Figure 918187DEST_PATH_IMAGE037
表示选取整数部分,
Figure 441572DEST_PATH_IMAGE038
表示每次计算时第n个位置。
8.根据权利要求7所述的融合全局信息的动作视频段提取方法,其特征在于,步骤403中,所述将掩膜Mask和扩大感受视野后的视觉特征
Figure 307635DEST_PATH_IMAGE028
进行矩阵乘积运算得到视频段的二维视频段特征
Figure 283681DEST_PATH_IMAGE029
,具体包括如下步骤:
步骤4031、对于一个视频段
Figure 824384DEST_PATH_IMAGE039
,得到其对应的掩膜
Figure 139959DEST_PATH_IMAGE034
,并利用矩阵乘积运算生成与该视频段对应的特征,即如下公式:
Figure 475125DEST_PATH_IMAGE040
其中c表示第几个通道,n表示所提取的特征维数,T表示时间维度,f表示关于视觉特征的特征;
步骤4032、对原始视频中所有视频段都进行矩阵乘积运算,即
Figure 204047DEST_PATH_IMAGE041
Figure 486123DEST_PATH_IMAGE025
在时间维度上进行矩阵乘法,得到
Figure 984101DEST_PATH_IMAGE042
9.根据权利要求1所述的融合全局信息的动作视频段提取方法,其特征在于,步骤6之后,还包括如下步骤:
步骤7、利用Soft-NMS方法对原始视频中重复的视频段进行剔除;
步骤8、使用损失函数训练融合全局信息的动作视频段提取模型;
步骤9、通过数据集验证所述融合全局信息的动作视频段提取模型的有效性。
CN202110042635.8A 2021-01-13 2021-01-13 融合全局信息的动作视频段提取方法 Active CN112364852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110042635.8A CN112364852B (zh) 2021-01-13 2021-01-13 融合全局信息的动作视频段提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110042635.8A CN112364852B (zh) 2021-01-13 2021-01-13 融合全局信息的动作视频段提取方法

Publications (2)

Publication Number Publication Date
CN112364852A CN112364852A (zh) 2021-02-12
CN112364852B true CN112364852B (zh) 2021-04-20

Family

ID=74534884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110042635.8A Active CN112364852B (zh) 2021-01-13 2021-01-13 融合全局信息的动作视频段提取方法

Country Status (1)

Country Link
CN (1) CN112364852B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033500B (zh) * 2021-05-06 2021-12-03 成都考拉悠然科技有限公司 动作片段检测方法、模型训练方法及装置
CN113255570B (zh) * 2021-06-15 2021-09-24 成都考拉悠然科技有限公司 一种感知视频片段关系的时序动作检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN110222574A (zh) * 2019-05-07 2019-09-10 杭州智尚云科信息技术有限公司 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质
CN111259782A (zh) * 2020-01-14 2020-06-09 北京大学 基于混合多尺度时序可分离卷积操作的视频行为识别方法
CN111563404A (zh) * 2019-12-31 2020-08-21 北京大学 用于基于视频的人再识别的全局局部时间表示方法
US10846857B1 (en) * 2020-04-20 2020-11-24 Safe Tek, LLC Systems and methods for enhanced real-time image analysis with a dimensional convolution concept net

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469314A (zh) * 2016-08-31 2017-03-01 深圳市唯特视科技有限公司 一种基于时空共生双流网络的视频图像分类方法
US10740620B2 (en) * 2017-10-12 2020-08-11 Google Llc Generating a video segment of an action from a video
US10860859B2 (en) * 2017-11-30 2020-12-08 Nvidia Corporation Budget-aware method for detecting activity in video
CN108960059A (zh) * 2018-06-01 2018-12-07 众安信息技术服务有限公司 一种视频动作识别方法及装置
CN109670446B (zh) * 2018-12-20 2022-09-13 泉州装备制造研究所 基于线性动态系统和深度网络的异常行为检测方法
CN110852256B (zh) * 2019-11-08 2023-04-18 腾讯科技(深圳)有限公司 时序动作提名的生成方法、装置、设备及存储介质
CN111327949B (zh) * 2020-02-28 2021-12-21 华侨大学 一种视频的时序动作检测方法、装置、设备及存储介质
CN111372123B (zh) * 2020-03-03 2022-08-09 南京信息工程大学 基于从局部到全局的视频时序片段提取方法
CN111723243B (zh) * 2020-06-15 2022-06-07 南京领行科技股份有限公司 一种动作片段检测方法、装置、设备及介质
CN111898461B (zh) * 2020-07-08 2022-08-30 贵州大学 一种时序行为片段生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN110222574A (zh) * 2019-05-07 2019-09-10 杭州智尚云科信息技术有限公司 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质
CN111563404A (zh) * 2019-12-31 2020-08-21 北京大学 用于基于视频的人再识别的全局局部时间表示方法
CN111259782A (zh) * 2020-01-14 2020-06-09 北京大学 基于混合多尺度时序可分离卷积操作的视频行为识别方法
US10846857B1 (en) * 2020-04-20 2020-11-24 Safe Tek, LLC Systems and methods for enhanced real-time image analysis with a dimensional convolution concept net

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种融合全局时空特征的CNNs动作识别方法;王珂等;《华中科技大学学报(自然科学版)》;20181231;第46卷(第12期);第36-41页 *

Also Published As

Publication number Publication date
CN112364852A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
Kollias et al. Recognition of affect in the wild using deep neural networks
CN110263215B (zh) 一种视频情感定位方法及系统
CN112749608A (zh) 视频审核方法、装置、计算机设备和存储介质
EP4016375A1 (en) Video classification method, device and system
CN112364852B (zh) 融合全局信息的动作视频段提取方法
CN108416314B (zh) 图片重要人脸检测方法
CN110852256A (zh) 时序动作提名的生成方法、装置、设备及存储介质
CN110705490B (zh) 视觉情感识别方法
CN112818849B (zh) 基于对抗学习的上下文注意力卷积神经网络的人群密度检测算法
CN113297370A (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN114443899A (zh) 视频分类方法、装置、设备及介质
JP6670698B2 (ja) 映像認識モデル学習装置、映像認識装置、方法、及びプログラム
CN106777040A (zh) 一种基于情感极性感知算法的跨媒体微博舆情分析方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN111984820A (zh) 一种基于双自注意力胶囊网络的视频摘要方法
CN113420179B (zh) 基于时序高斯混合空洞卷积的语义重构视频描述方法
Saleem et al. Stateful human-centered visual captioning system to aid video surveillance
CN116935170A (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN113255570B (zh) 一种感知视频片段关系的时序动作检测方法
CN115222838A (zh) 视频生成方法、装置、电子设备及介质
Bagane et al. Facial Emotion Detection using Convolutional Neural Network
Leonardi et al. Image memorability using diverse visual features and soft attention
CN114565791A (zh) 一种人物档案识别方法、装置、设备及介质
CN114443956A (zh) 内容推荐方法以及相关设备
CN114154572A (zh) 一种基于异构平台的异构数据集中接入分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant