CN112364852B - 融合全局信息的动作视频段提取方法 - Google Patents
融合全局信息的动作视频段提取方法 Download PDFInfo
- Publication number
- CN112364852B CN112364852B CN202110042635.8A CN202110042635A CN112364852B CN 112364852 B CN112364852 B CN 112364852B CN 202110042635 A CN202110042635 A CN 202110042635A CN 112364852 B CN112364852 B CN 112364852B
- Authority
- CN
- China
- Prior art keywords
- video
- video segment
- visual
- global information
- time node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种融合全局信息的动作视频段提取方法,属于视频处理领域。本发明包括:选择训练数据集;提取数据集中的原始视频的视频帧,并利用TSN网络模型来提取的原始视频中包含的视频段的视觉特征并组成视觉特征序列;利用时序卷积对提取的视觉特征序列进行卷积操作,扩大视觉特征序中视觉特征的感受视野;基于扩大感受视野后的视觉特征生成视频段的二维视频段特征,并进行视频段的动作预测;基于扩大感受视野后的视觉特征预测视频段的开始时间节点和结束时间节点;将视频段的动作预测结果以及开始时间节点和结束时间节点预测结果进行融合,产生最终的预测结果。通过上述方法,本发明能够从长视频中提取出有效的视频段。
Description
技术领域
本发明涉及视频处理领域,尤其涉及一种融合全局信息的动作视频段提取方法。
背景技术
随着各种拍摄设备和网络的普及,视频在人们日常的生活中占据着越来越重要的地位,对于视频内容的分析也受到了越来越多的人的关注。但是对于目前视频的来源来说,其主要是用户所上传的未经剪辑的长视频亦或者由政府所安装的摄像头所捕获的视频,对于这些少平来说,其中包含着大量的无关的、冗余的信息,比如:用户上传视频中的背景信息,因为对于大多数的人来说,人们更加关注视频中的事件而不是其背景。如果要采用人工的方法来对这样的视频进行处理,这无疑将会浪费大量的人力物力。
因此,我们有必要对视频进行恰当的处理,剔除掉无关的背景信息,尽可能的保留事件信息。此外,随着深度学习在视频处理领域的广泛应用,这一任务也受到了各个公司、高校的关注,出现了很多基于深度学习的不同的处理方法。
目前对于提取包含动作的视频段来说,有两类基于深度学习的方法,可以大致分为anchor-base和anchor-free:
1)anchor-base:该类处理方法主要是从目标检测领域所借鉴过来的,将原先目标检测中对空间信息的建模,替换成对该任务中的时序信息的建模。利用卷积神经网络,在每一层提取的特征图中,再其对应的位置定义不同尺度的anchor,然后负责特定长度视频段的预测。但是这类方法由于预先定义了anchor的大小,可能很难灵活的覆盖不同长度的视频段,导致最后的预测结果较差。
2)anchor-free:该类处理方法抛弃了anchor的使用,而是直接预测视频中不同时间点的类别:主要包含开始、结束、动作三类。然后利用配对的方法来将三类节点进行配对,来生成可能包含动作的视频段,最后再进行评判,剔除掉多余的视频段,产生最后的结果。
现有的这两类方法中,虽然可以产生比较好的预测结果,但是在预测的过程中并没有充分的利用全局信息,这可能缺乏对于视频整体的理解。
发明内容
本发明的目的是提供一种融合全局信息的动作视频段提取方法,能够在使用模型预测包含动作的视频段的过程中,通过引入全局信息来对指导有效视频段的产生。
本发明解决其技术问题,采用的技术方案是:
融合全局信息的动作视频段提取方法,包括如下步骤:
步骤1、选择数据集;
步骤2、在选择的数据集中,提取原始视频中的视频段对应的视频帧,并利用TSN网络模型提取原始视频中包含的视频段的视觉特征,并将视觉特征组成视觉特征序列;
步骤3、利用时序卷积对提取的视觉特征序列进行卷积操作;
步骤4、基于进行卷积操作后的视觉特征序列生成视频段的二维视频段特征,并进行视频段的动作预测;
步骤5、基于进行卷积操作后的视觉特征序列预测视频段的开始时间节点和结束时间节点;
步骤6、将视频段的动作预测结果以及开始时间节点和结束时间节点预测结果进行融合,产生最终的预测结果。
进一步的是,步骤1中,所述数据集为ActivityNet-1.3,该数据集按照2:1:1的比例将所有视频划分为训练集、评估集和测试集。
进一步的是,步骤2中,提取原始视频中的视频段对应的视频帧,表示为,其中表示总的视频帧数,表示在视频中的第n帧;对于该视频的数据集,表示为,其中表示某个视频中含有动作视频段的数目,和分别表示第个标签的开始时间节点和结束时间节点。
进一步的是,步骤2中,利用TSN网络模型提取原始视频中包含的视频段的视觉特征,并将视觉特征组成视觉特征序列,具体包括如下步骤:
进一步的是,步骤3具体为:
进一步的是,步骤4中,所述基于进行卷积操作后的视觉特征序列生成视频段的二维视频段特征,具体包括如下步骤:
步骤402、计算该视频段的掩膜Mask;
进一步的是,步骤402中,所述掩膜,对于Mask中的每一项,表示从时间到时间中选取出N个点的特征,作为该视频段的特征,其中N表示所提取的特征点个数,R表示实数,T表示时间维度,对于非整数位置点利用如下公式来计算:
其中c表示第几个通道,n表示所提取的特征维数,T表示时间维度,f表示关于视觉特征的特征;
进一步的是,步骤5中,通过开始时间节点和结束时间节点预测模块基于进行卷积操作后的视觉特征序列预测视频段的开始时间节点和结束时间节点;
所述开始时间节点和结束时间节点预测模块包括堆叠的多个相同的基本模块StartEndBlock。
进一步的是,步骤6之后,还包括如下步骤:
步骤7、利用Soft-NMS方法对原始视频中重复的视频段进行剔除;
步骤8、使用损失函数训练融合全局信息的动作视频段提取模型;
步骤9、通过数据集验证所述融合全局信息的动作视频段提取模型的有效性
本发明的有益效果是,通过上述融合全局信息的动作视频段提取方法,能够引入全局特征的,将全局信息引入到了两个分支当中,在预测的过程中,可以在一定程度上考虑到特征的整体分布结构,使预测结果更加准确。
附图说明
图1为本发明融合全局信息的动作视频段提取方法的流程图;
图2为基于本发明整体的一个网络结构框架;
图3为本发明实施例中中开始和结束节点预测模块的结构;
图4为本发明实施例中视频段预测模块的基本结构。
具体实施方式
下面结合附图,详细描述本发明的技术方案。
本发明提出一种融合全局信息的动作视频段提取方法,其流程图见图1,其中,该方法包括如下步骤:
步骤1、选择数据集。
步骤2、在选择的数据集中,提取原始视频中的视频段对应的视频帧,并利用TSN网络模型提取原始视频中包含的视频段的视觉特征,并将视觉特征组成视觉特征序列。
步骤3、利用时序卷积对提取的视觉特征序列进行卷积操作。
步骤4、基于进行卷积操作后的视觉特征序列生成视频段的二维视频段特征,并进行视频段的动作预测。
步骤5、基于进行卷积操作后的视觉特征序列预测视频段的开始时间节点和结束时间节点。
步骤6、将视频段的动作预测结果以及开始时间节点和结束时间节点预测结果进行融合,产生最终的预测结果。
这里,能够引入全局信息,在预测开始和结束节点时,使用多个相同模块的级联结构,并且使用空洞卷积,使卷积的感受野逐渐增大,并且覆盖整个原始视频。此外,在产生视频段评分的过程中,也将全局信息引入到其中,使模型能够考虑到不同视频段之间的包含关系。
对于视频开始节点和结束节点的预测来说,仅仅利用局部信息,这会忽略整体视频的结构,而没有考虑到视频节点之间的相互关系,引入全局信息,是对视频整体结构的理解的一个增强。同样,对于所有视频段构成的二维矩阵来说,每一个位置都对应着一个可能的视频段,这些视频段并不是不相关的,相反,这些视频之间包含着各种各样的关系,比如:包含、相邻等。利用全局信息,可以使得最终的预测结果充分考虑各个视频之间的关系,不会出现一些违反常识的预测结果,从而提高预测结果。
本发明在应用时,基于本发明整体的一个网络结构框架见图2,其主要涉及以下两个模块:
1、开始节点和结束节点预测模块:
在该模块中,我们的首先构建一个基本模块M,该模块是由膨胀率逐渐增大的空洞卷积构成的。设一个空洞卷积操作可以表示为(其中卷积核都为3,膨胀率d,输入为x,此外上述公式中还包括激活函数Relu(),为了简化忽略不写)。因此,对于该模块的输入视频特征,其模块的计算可以表示为:
在该模块中,由于卷积操作的感受野是逐层扩大的,其最终会对整个原始视频进行卷积操作,这样在预测过程中会关注到视频的全局信息。此外,为了增强开始节点和结束节点的预测结果,我们将堆叠多个相同的模块M,并对每一个M的输出都进行监督,这样可以利用全局信息层层对预测结果进行修正,因此,开始节点和结束节点预测模块可以表示为:
Output即为开始节点和结束节点预测模块最终的预测结果。
2、动作预测模块:
在该模块中,在提取出所有可能的视频段的特征后,将会生成基于视频段特征的二维特征图,的维度是,其中T表示时间维度,C表示特征维度。就表示以i节点作为开始,j节点作为结束的视频段的特征。可以看出,是一个上三角矩阵,此外,各个位置之间是存在制约关系的,比如:被预测为一个非动作视频段,那么也将是一个非视频段。因此,我们将引入的全局整体信息来制约最后的预测结果。对于输入来说,我们将利用二维卷积不断缩小其特征图的大小,然后利用反卷积扩大其感受野,恢复到原始尺度,并利用残差结构来保留原始信息,最后进行预测,这样可以充分考虑到的整体信息。与开始节点和结束节点预测模块相似,我们也堆叠多个相同的模块,并进行中间层的监督,以不断进行修正最后的预测结果。
实施例
本实施例提出一种融合全局信息的动作视频段提取方法,其具体应用时,包括如下步骤:
步骤1:选择合适的数据集。
本实施例主要是在公开的数据集ActivityNet-1.3上进行训练和测试。
ActivityNet-1.3数据集是一个用于生成视频段和检测的公开的数据集,其主要包含19994个视频并且包含200个动作类别,这些视频主要是从youtube网站上所爬取下来的,其分辨率和时间都各不相同。它曾经是ActivityNet Challenge 2016 and 2017的比赛数据集。该数据集按照2:1:1的比例将所有视频划分为训练集、评估集和测试集。
步骤2:对视频进行预处理。
首先我们对于一个未处理的长视频,提取出其对应的视频帧表示为,其中表示总的视频帧数,表示在视频中的第n帧。对于该视频的标签集,其可以表示为,其中表示某个视频中含有动作视频段的数目,和分别表示第个标签的开始时间和结束时间。虽然,在原始的数据集标签当中含有每一个视频段的类别信息,但是由于在视频段提取的任务中,该类别信息被忽略掉了。所代表的标签集仅仅在训练的过程中使用。
上述将视频段的视频帧提取好后,我们利用TSN网络模型来提取的他的视觉特征。首先,我们将视频按照一定的时间间隔,来生成视频段,其中,表示所提取的视频段数,表示总的视频帧数。对于一个来说,其中表示第个RGB图像,而表示在周围的光流图,我们将其输入到TSN网络模型当中,使其分别通过空间网络和时间网络,并将两个网络最后的输出连接起来,表示为,其中,表示利用空间网络所提取的特征,则表示利用时序网络所提取的特征。那么对于S来说,其对应的特征序列可以表示为,其中表示所提取的视频段数,表示视频段所对应的特征。
步骤3:利用时序卷积来做前述特征进行基本的处理。
我们使用简单的时序卷积来对F来进行基本的卷积操作,来扩大其感受野。其计算过程如下:,这样我们便可以得到基本处理模块的输出,其中,F表示前述步骤所提取到的特征,表示经过基本处理后的特征,该模块的输出是作为被后续的两个特征所共享。
对于一个视频段定义其开始时间节点为和结束节点为,利用模板Mask和的乘积得到结果,其中,Mask是预先定义的模板,是前述步骤所提取到的视频特征,是通过运算得到的结果,表示从开始时间到结束时间的视频段的特征。
步骤402、对于前述步骤中生成的特征,而模板,对于Mask中的每一项表示从时间到中选取出某N个点的特征,作为该视频段的特征,其中T表示视频长度,N表示所提取的特征点个数,C表示特征通道数,示视频某一开始时间,表示视频某一结束时间;对于非整数位置点利用如下公式来计算:
其中c表示第几个通道,n表示所提取的特征维数,T表示时间维度,f表示关于视觉特征的特征。
我们对所有可能的视频段都进行上述操作,便可以利用高维矩阵乘法来实现,即和在时间维度上进行矩阵乘法,得到,其中,T表示视频长度,N表示所提取的特征点个数,C表示特征通道数,Mask是预先定义的模板,是前述步骤所提取到的视频特征,是通过运算得到的结果;
得到上述特征后,我们将利用视频段预测模块来产生最后的预测结果,首先我们构建残差模块ResidualBlock作为基本操作单元,其基本的操作过程可以简化为,其中x表示输入变量,Conv()表示卷积操作。然后构建功能模块ScoreBlock,该模块是视频段预测模块的基本组成部分,如图4所示。其前半部分是由ResidualBlock单元和池化操作交替组成的,使特征图的大小逐渐减小,这样可以得到更小的特征图,而后半部分则是由ResidualBlock单元和反卷积操作交替组成,这样在恢复原始大小的过程中就会将全局信息引入到其中,最后包含两个输出,即输入到下一部分的特征和基于该模块所产生的预测结果。
步骤5:利用卷积操作预测开始和结束节点。
对于开始节点和结束节点预测模块来说,其也是由多个相同的模块堆叠而成的。其基本模块是StartEndBlock,如图3所示,为了保持时间上的维度,该模块仅仅包含时序卷积,而不含有池化操作。我们依次使用一个膨胀率翻倍(1,2,4,...)的空洞卷积来对输入特征进行卷积操作,这样可以在保持参数一定的情况下同时扩大卷积的感受野,有利于对全局信息的把握。其具体表示如下:
同样,和前述类似,我们也堆叠多个这样的模块,其运算结果可以表示为:
步骤6:主要是利用上述两个分支的结果来产生最终的预测结果。
首先,我们先选取出可能是视频段开始和结束的节点,其方法为:对于步骤5中预测的开始节点结果和结束节点预测结果,我们选取其中的两类节点(1)值大于(2)是一个极大值或者极小值,其中 分别表示和中的最大值,*表示乘法运算。这样我们就可以获取可能的开始节点集和结束节点集,其中表示可能的开始节点数目,表示可能的结束节点数目。
接着,我们将开始节点集和结束节点集进行配对作为一个候选框,同时,如果其持续时间大于该数据集中最大的持续时间,将其剔除。那么生成的视频段可以表示为,其中和分别表示开始的可能性和结束的可能性,表示该视频段的可能性,表示开始时间,表示结束时间。那么,我们就可以获取所有的候选框,其中表示候选框的数量。
步骤7:利用Soft-NMS来对重复的候选视频段进行剔除。
获取到所有可能的候选框后,由于这其中大多数会有很大的重叠,所以我们利用Soft-NMS再一次进行剔除,首先我们计算所有候选框的分数,然后按照分数对其进行排序,其中,和分别表示开始的可能性和结束的可能性,表示该视频段的可能性。选取最大分数的候选框,然后计算与其他候选框的IoU,高度重叠的候选框将会按照下述公式来进行衰减。
其中表示高斯函数的参数,表示率先定义的阈值,和表示任意两个不同的候选框,iou()表示计算两个候选框的交并比。这样,我们可以得到最终的预测结果,其中,表示开始时间,表示结束时间,表示某一个候选框最终的得分,表示最终得到的候选框的数量。
步骤8:使用损失函数来训练网络模型。
基于上述模型,我们要进行整个网络的训练,其整体的损失函数可以表示为:
步骤9:在选取的数据集上来验证模型的有效性。
在选取数据集上验证模型。为了很好地评价本发明的有效性,我们使用AverageRecall(AR)和Average Number of proposals(AN)来评价本方法的有效性,这可以表示为AR@AN。此外,在AR和AN关系图中的曲线下面积(AUC)也被作为评判本发明好坏的一个批判标准。
本发明在当前主流的视频段生成数据集ActivityNet-1.3上进行验证,其最后的验证结果如表1所示。
表 1 是“ActivityNet-1.3数据集上模型性能对比”
从上述结果中可以看出,我们模型所提出的方法是均优于表中所列方法的,从一定程度上证明了本发明的有效性。
Claims (9)
1.融合全局信息的动作视频段提取方法,其特征在于,包括如下步骤:
步骤1、选择数据集;
步骤2、在选择的数据集中,提取原始视频中的视频段对应的视频帧,并利用TSN网络模型提取原始视频中包含的视频段的视觉特征,并将视觉特征组成视觉特征序列;
步骤3、利用时序卷积对提取的视觉特征序列进行卷积操作;
步骤4、基于进行卷积操作后的视觉特征序列生成视频段的二维视频段特征,并进行视频段的动作预测;
步骤5、基于进行卷积操作后的视觉特征序列预测视频段的开始时间节点和结束时间节点;
步骤5中,通过开始时间节点和结束时间节点预测模块基于进行卷积操作后的视觉特征序列预测视频段的开始时间节点和结束时间节点;
所述开始时间节点和结束时间节点预测模块包括堆叠的多个相同的基本模块StartEndBlock;
步骤6、将视频段的动作预测结果以及开始时间节点和结束时间节点预测结果进行融合,产生最终的预测结果。
2.根据权利要求1所述的融合全局信息的动作视频段提取方法,其特征在于,步骤1中,所述数据集为ActivityNet-1.3,该数据集按照2:1:1的比例将所有视频划分为训练集、评估集和测试集。
4.根据权利要求3所述的融合全局信息的动作视频段提取方法,其特征在于,步骤2中,利用TSN网络模型提取原始视频中包含的视频段的视觉特征,并将视觉特征组成视觉特征序列,具体包括如下步骤:
9.根据权利要求1所述的融合全局信息的动作视频段提取方法,其特征在于,步骤6之后,还包括如下步骤:
步骤7、利用Soft-NMS方法对原始视频中重复的视频段进行剔除;
步骤8、使用损失函数训练融合全局信息的动作视频段提取模型;
步骤9、通过数据集验证所述融合全局信息的动作视频段提取模型的有效性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110042635.8A CN112364852B (zh) | 2021-01-13 | 2021-01-13 | 融合全局信息的动作视频段提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110042635.8A CN112364852B (zh) | 2021-01-13 | 2021-01-13 | 融合全局信息的动作视频段提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364852A CN112364852A (zh) | 2021-02-12 |
CN112364852B true CN112364852B (zh) | 2021-04-20 |
Family
ID=74534884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110042635.8A Active CN112364852B (zh) | 2021-01-13 | 2021-01-13 | 融合全局信息的动作视频段提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364852B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033500B (zh) * | 2021-05-06 | 2021-12-03 | 成都考拉悠然科技有限公司 | 动作片段检测方法、模型训练方法及装置 |
CN113255570B (zh) * | 2021-06-15 | 2021-09-24 | 成都考拉悠然科技有限公司 | 一种感知视频片段关系的时序动作检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
CN110222574A (zh) * | 2019-05-07 | 2019-09-10 | 杭州智尚云科信息技术有限公司 | 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质 |
CN111259782A (zh) * | 2020-01-14 | 2020-06-09 | 北京大学 | 基于混合多尺度时序可分离卷积操作的视频行为识别方法 |
CN111563404A (zh) * | 2019-12-31 | 2020-08-21 | 北京大学 | 用于基于视频的人再识别的全局局部时间表示方法 |
US10846857B1 (en) * | 2020-04-20 | 2020-11-24 | Safe Tek, LLC | Systems and methods for enhanced real-time image analysis with a dimensional convolution concept net |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106469314A (zh) * | 2016-08-31 | 2017-03-01 | 深圳市唯特视科技有限公司 | 一种基于时空共生双流网络的视频图像分类方法 |
US10740620B2 (en) * | 2017-10-12 | 2020-08-11 | Google Llc | Generating a video segment of an action from a video |
US10860859B2 (en) * | 2017-11-30 | 2020-12-08 | Nvidia Corporation | Budget-aware method for detecting activity in video |
CN108960059A (zh) * | 2018-06-01 | 2018-12-07 | 众安信息技术服务有限公司 | 一种视频动作识别方法及装置 |
CN109670446B (zh) * | 2018-12-20 | 2022-09-13 | 泉州装备制造研究所 | 基于线性动态系统和深度网络的异常行为检测方法 |
CN110852256B (zh) * | 2019-11-08 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 时序动作提名的生成方法、装置、设备及存储介质 |
CN111327949B (zh) * | 2020-02-28 | 2021-12-21 | 华侨大学 | 一种视频的时序动作检测方法、装置、设备及存储介质 |
CN111372123B (zh) * | 2020-03-03 | 2022-08-09 | 南京信息工程大学 | 基于从局部到全局的视频时序片段提取方法 |
CN111723243B (zh) * | 2020-06-15 | 2022-06-07 | 南京领行科技股份有限公司 | 一种动作片段检测方法、装置、设备及介质 |
CN111898461B (zh) * | 2020-07-08 | 2022-08-30 | 贵州大学 | 一种时序行为片段生成方法 |
-
2021
- 2021-01-13 CN CN202110042635.8A patent/CN112364852B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
CN110222574A (zh) * | 2019-05-07 | 2019-09-10 | 杭州智尚云科信息技术有限公司 | 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质 |
CN111563404A (zh) * | 2019-12-31 | 2020-08-21 | 北京大学 | 用于基于视频的人再识别的全局局部时间表示方法 |
CN111259782A (zh) * | 2020-01-14 | 2020-06-09 | 北京大学 | 基于混合多尺度时序可分离卷积操作的视频行为识别方法 |
US10846857B1 (en) * | 2020-04-20 | 2020-11-24 | Safe Tek, LLC | Systems and methods for enhanced real-time image analysis with a dimensional convolution concept net |
Non-Patent Citations (1)
Title |
---|
一种融合全局时空特征的CNNs动作识别方法;王珂等;《华中科技大学学报(自然科学版)》;20181231;第46卷(第12期);第36-41页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112364852A (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kollias et al. | Recognition of affect in the wild using deep neural networks | |
CN110263215B (zh) | 一种视频情感定位方法及系统 | |
CN112749608A (zh) | 视频审核方法、装置、计算机设备和存储介质 | |
EP4016375A1 (en) | Video classification method, device and system | |
CN112364852B (zh) | 融合全局信息的动作视频段提取方法 | |
CN108416314B (zh) | 图片重要人脸检测方法 | |
CN110852256A (zh) | 时序动作提名的生成方法、装置、设备及存储介质 | |
CN110705490B (zh) | 视觉情感识别方法 | |
CN112818849B (zh) | 基于对抗学习的上下文注意力卷积神经网络的人群密度检测算法 | |
CN113297370A (zh) | 基于多交互注意力的端到端多模态问答方法及系统 | |
CN114443899A (zh) | 视频分类方法、装置、设备及介质 | |
JP6670698B2 (ja) | 映像認識モデル学習装置、映像認識装置、方法、及びプログラム | |
CN106777040A (zh) | 一种基于情感极性感知算法的跨媒体微博舆情分析方法 | |
KR20200010672A (ko) | 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템 | |
CN111984820A (zh) | 一种基于双自注意力胶囊网络的视频摘要方法 | |
CN113420179B (zh) | 基于时序高斯混合空洞卷积的语义重构视频描述方法 | |
Saleem et al. | Stateful human-centered visual captioning system to aid video surveillance | |
CN116935170A (zh) | 视频处理模型的处理方法、装置、计算机设备和存储介质 | |
CN113255570B (zh) | 一种感知视频片段关系的时序动作检测方法 | |
CN115222838A (zh) | 视频生成方法、装置、电子设备及介质 | |
Bagane et al. | Facial Emotion Detection using Convolutional Neural Network | |
Leonardi et al. | Image memorability using diverse visual features and soft attention | |
CN114565791A (zh) | 一种人物档案识别方法、装置、设备及介质 | |
CN114443956A (zh) | 内容推荐方法以及相关设备 | |
CN114154572A (zh) | 一种基于异构平台的异构数据集中接入分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |