CN113033500B - 动作片段检测方法、模型训练方法及装置 - Google Patents
动作片段检测方法、模型训练方法及装置 Download PDFInfo
- Publication number
- CN113033500B CN113033500B CN202110488341.8A CN202110488341A CN113033500B CN 113033500 B CN113033500 B CN 113033500B CN 202110488341 A CN202110488341 A CN 202110488341A CN 113033500 B CN113033500 B CN 113033500B
- Authority
- CN
- China
- Prior art keywords
- video
- scale
- segment
- action
- video segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Abstract
本申请实施例涉及计算机视觉技术领域,提供一种动作片段检测方法、模型训练方法及装置,针对待检测视频,枚举待检测视频中所有的候选视频段,并获取待检测视频的视频特征和所有候选视频段的视频段特征图;然后,将视频特征和视频段特征图输入预先训练的动作检测模型,利用动作检测模型进行多尺度特征提取及预测,得到每个候选视频段的预测结果;最后,根据每个候选视频段的预测结果,从所有候选视频段中确定出动作片段,从而能够从长视频中自动剪辑出动作片段。
Description
技术领域
本申请实施例涉及计算机视觉技术领域,具体而言,涉及一种动作片段检测方法、模型训练方法及装置。
背景技术
随着存储技术的飞速发展,视频已经成为当下最流行的信息传播载体。然而,对于大部分视频来说,人们往往更加关注的是视频中包含动作的片段,因此,需要人们从原始的长视频中手动剪辑出感兴趣的视频片段,这一过程非常耗费精力。因此,利用技术手段从长视频中自动剪辑出动作片段是非常有必要的。
发明内容
本申请实施例的目的在于提供一种动作片段检测方法、模型训练方法及装置,能够从长视频中自动剪辑出动作片段。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种动作片段检测方法,所述方法包括:
获取待检测视频的视频特征和所述待检测视频中所有候选视频段的视频段特征图;
将所述视频特征和所述视频段特征图输入动作检测模型,利用所述动作检测模型进行多尺度特征提取,得到所有候选视频段的融合特征图;
利用所述动作检测模型对所述融合特征图进行预测,得到每个所述候选视频段的预测结果;
根据每个所述候选视频段的预测结果,从所有候选视频段中确定动作片段。
第二方面,本申请实施例还提供了一种模型训练方法,所述方法包括:
获取训练样本及所述训练样本对应的标签,所述标签表征所述训练样本中的各个动作片段;
对所述训练样本进行预处理,得到所述训练样本的视频特征和所述训练样本中所有候选视频段的视频段特征图;
将所述视频特征和所述视频段特征图输入动作检测模型,利用所述动作检测模型进行多尺度特征提取,得到所有候选视频段的融合特征图;
利用所述动作检测模型对所述融合特征图进行预测,得到每个所述候选视频段的预测结果;
基于每个所述候选视频段的预测结果、所述标签和预设的损失函数对所述动作检测模型进行反向传播训练,得到训练后的动作检测模型。
第三方面,本申请实施例还提供了一种动作片段检测装置,所述装置包括:
第一获取模块,用于获取待检测视频的视频特征和所述待检测视频中所有候选视频段的视频段特征图;
第一处理模块,用于将所述视频特征和所述视频段特征图输入动作检测模型,利用所述动作检测模型进行多尺度特征提取,得到所有候选视频段的融合特征图;
第一预测模块,用于利用所述动作检测模型对所述融合特征图进行预测,得到每个所述候选视频段的预测结果;
动作片段确定模块,用于根据每个所述候选视频段的预测结果,从所有候选视频段中确定动作片段。
第四方面,本申请实施例还提供了一种模型训练装置,所述装置包括:
第二获取模块,用于获取训练样本及所述训练样本对应的标签,所述标签表征所述训练样本中的各个动作片段;
预处理模块,用于对所述训练样本进行预处理,得到所述训练样本的视频特征和所述训练样本中所有候选视频段的视频段特征图;
第二处理模块,用于将所述视频特征和所述视频段特征图输入动作检测模型,利用所述动作检测模型进行多尺度特征提取,得到所有候选视频段的融合特征图;
第二预测模块,用于利用所述动作检测模型对所述融合特征图进行预测,得到每个所述候选视频段的预测结果;
训练模块,用于基于每个所述候选视频段的预测结果、所述标签和预设的损失函数对所述动作检测模型进行反向传播训练,得到训练后的动作检测模型。
相对现有技术,本申请实施例提供的一种动作片段检测方法、模型训练方法及装置,针对待检测视频,枚举待检测视频中所有的候选视频段,并获取待检测视频的视频特征和所有候选视频段的视频段特征图;然后,将视频特征和视频段特征图输入预先训练的动作检测模型,利用动作检测模型进行多尺度特征提取及预测,得到每个候选视频段的预测结果;最后,根据每个候选视频段的预测结果,从所有候选视频段中确定出动作片段,从而能够从长视频中自动剪辑出动作片段。
附图说明
图1示出了本申请实施例提供的动作片段检测方法的应用场景示意图。
图2示出了本申请实施例提供的动作片段检测方法的流程示意图。
图3示出了本申请实施例提供的候选视频段的示例图。
图4示出了本申请实施例提供的一种模型示例图。
图5示出了本申请实施例提供的另一种模型示例图。
图6示出了本申请实施例提供的模型训练方法的流程示意图。
图7示出了本申请实施例提供的样本示意图。
图8示出了本申请实施例提供的动作片段检测装置的方框示意图。
图9示出了本申请实施例提供的模型训练装置的方框示意图。
图10示出了本申请实施例提供的电子设备的方框示意图。
图标:10-电子设备;11-处理器;12-存储器;13-总线;20-第一终端;30-第二终端;40-网络;50-服务器;100-动作片段检测装置;110-第一获取模块;120-第一处理模块;130-第一预测模块;140-动作片段确定模块;200-模型训练装置;210-第二获取模块;220-预处理模块;230-第二处理模块;240-第二预测模块;250-训练模块。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述。
请参照图1,图1示出了本申请实施例提供的动作片段检测方法的应用场景图,包括第一终端20、第二终端30、网络40及服务器50,第一终端20和第二终端30均通过网络40连接到服务器50。
第一终端20可以是视频制作者的移动终端,具有屏幕显示功能,例如,智能手机、笔记本电脑、平板电脑、台式计算机等。
服务器50可以是视频平台,其可以是单个服务器,也可以是服务器集群。网络40可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。
第二终端30可以是平台用户的移动终端,该移动终端上可以安装有用于播放视频的应用程序,第二终端30可以是任何具有屏幕显示功能的移动终端,例如,智能手机、笔记本电脑、平板电脑、台式计算机、智能电视等。
在实际应用中,视频制作者可以通过第一终端20从原始视频中剪辑动作片段,并以动作片段为素材制作成短视频后上传至视频平台,平台用户可以通过第二终端30观看短视频。或者,视频平台可以从原始视频中剪辑动作片段,并作为素材提供给视频制作者使用。
显然,对于视频制作者或者视频平台来说,如果从原始视频中手动剪辑动作片段,需要耗费大量精力。因此,利用技术手段帮助视频作者或者视频平台自动地从原始视频中剪辑出动作片段,可以提高视频剪辑的效率。在这一背景下,时序动作检测任务应运而生。
对于时序动作检测方法,目前常用方法是:使用预先定义好大小的滑动窗口从原始视频中采集候选视频段,然后对这些候选视频段进行分类,得到最后的结果。但是,时序动作检测的准确度不高。
针对这一问题,本申请实施例通过预先训练的动作检测模型对待检测视频进行检测,不仅能够从原始视频中自动剪辑出动作片段,还能依据视频的上下文信息过滤掉无关的视频帧、以及从不同尺度捕获候选视频片段之间的关系,从而可以提高动作片段检测的准确性。
结合到图1,本申请实施例提供的动作片段检测方法可以应用于第一终端20,也可以应用于服务器50,具体可以根据实际应用场景确定,在此不作限制。
下面对本申请实施例提供的动作片段检测方法进行详细介绍。
在图1所示的应用场景示意图的基础上,请参照图2,图2示出了本申请实施例提供的动作片段检测方法的流程示意图,该动作片段检测方法可以包括以下步骤:
S101,获取待检测视频的视频特征和待检测视频中所有候选视频段的视频段特征图。
待检测视频可以是任何需要进行动作片段检测,以自动剪辑出动作片段的长视频。待检测视频可以是视频制作者自己拍摄的视频,例如,记录日常的视频等,也可以是视频制作者从网上下载的视频,例如,电影、电视剧、记录片等。候选视频段是对待检测视频进行枚举得到的,且包括开始时间和结束时间。
对于待检测视频,枚举该待检测视频中的全部视频片段,得到所有候选视频段。例如,请参照图3,待检测视频包括n个视频帧,则枚举其中第1帧~第2帧、第1帧~第3帧、……、第1帧~第n帧、第2帧~第3帧、第2帧~第4帧、……、第2帧~第n帧、……第n-1帧~第n帧的全部视频片段,得到所有候选视频片段。
视频特征是对待检测视频进行预处理得到的,视频特征二维数据。视频段特征图是对所有候选视频段进行处理得到的,视频段特征图是三维数据。
S102,将视频特征和视频段特征图输入动作检测模型,利用动作检测模型进行多尺度特征提取,得到所有候选视频段的融合特征图。
动作检测模型可以为每一个候选视频段生成动态卷积核,这些动态卷积核可以依据待检测视频的上下文信息过滤掉无关的视频帧。并且,为了增强候选视频段的特征表达,动作检测模型可以从不同的尺度来捕获候选视频片段之间的关系,从而学习到更加鲁棒的特征表达。
也就是,对于不同的候选视频段,现有的时序动作检测方法通常使用相同的模型参数进行处理,但是忽略了不同候选视频片段之间的差异。而本申请实施例提供的动态检测模型,可以依据候选视频段的内容和待检测视频的内容,为不同的候选视频段生成特定的动态卷积核,这些动态卷积核可以更加灵活的提取出视频中易区分的特征,从而利于后续预测。
S103,利用动作检测模型对融合特征图进行预测,得到每个候选视频段的预测结果。
候选视频段的预测结果可以包括:候选视频段中包含的动作及各个动作的预测分数、以及动作类别,例如,跳高(分数:0.64)、跳远(分数:0.44)、跳远(分数:0.84)等。
S104,根据每个候选视频段的预测结果,从所有候选视频段中确定动作片段。
通过S103得到每个候选视频段的预测结果之后,首先根据预测分数从所有候选视频段中确定出包含动作的候选视频片段,再对所有的候选视频段进行分类,确定出每个候选视频段的动作类别,例如,跳高、跳远等。这样,就能从所有候选视频段中确定出动作片段,动作片段即为包含动作的候选视频片段。并且,由于每个候选视频段都包括开始时间和结束时间,所以,动作片段包括包含动作的候选视频段的开始时间、结束时间及动作类别。
下面对步骤S101进行详细介绍,S101可以包括:
S1011,对待检测视频进行初步特征提取,得到初步视频特征。
按照设定时间间隔,从待检测视频中抽取多个视频帧;
将多个视频帧输入TSN模型中,利用TSN模型提取各个视频帧的视觉特征和动作特征并进行连接,得到初步视频特征。
其中,视觉特征是指视频帧在视觉上的特征,即,视频帧包含的空间信息。动作特征是指不同视频帧之间的动作信息,即,不同视频帧之间动作的变化。将视觉特征和动作特征进行连接,是指在维度上进行叠加,例如,视觉特征为100维、动作特征为100维,则连接后的特征为200维。
S1012,对初步视频特征进行特征增强,得到视频特征。
也就是,利用图卷积捕获待检测视频中各个视频帧的上下文关系,将多尺度的语义信息动态融合到初步视频特征中,得到视频特征。
例如,检测的动作是打羽毛球,该动作所在视频帧的前后信息也有助于动作的检测,例如,前后帧中有羽毛球场。所以可以通过捕捉各个视频帧的上下文关系,将语义信息融合到初步视频特征中,语义信息可以是视频帧中表达的信息,例如,打羽毛球、羽毛球场等。
同时,由于待检测视频是一个长视频,可能距离很远的两个视频帧之间也有联系,因此,为了避免忽略掉长距离信息,可以将多尺度的语义信息动态融合到初步视频特征中,这里的尺度指的就是两个视频帧间的帧数,例如,视频帧1、2、3、4,当前帧为3,则可以将1融合到3、将2融合到3。
S1013,对每个候选视频段进行特征提取,得到视频段特征图。
得到视频特征后,视频特征可以被两个分支网络共享,其中,分支网络1用于判别待检测视频中的每一个时序位置是否为一个开始节点或者结束节点,输出节点类别信息,但是分支网络1输出的信息仅用于对模型进行辅助训练。分支网络2用于对每个候选视频段进行特征提取,输出所有候选视频段的视频段特征图。视频段特征图可以表示为,其每一个位置都代表一个候选视频段的特征。
下面对步骤S102进行详细介绍。
将视频特征和视频段特征图输入动作检测模型,不同的候选视频段可以依据视频内容自适应地生成动态卷积核,来动态地捕获所有候选视频段中的特征,从而可以在增强动作实例的特征的同时抑制背景信息,产生更准确和更完备的结果。
动作检测模型可以包括多个多尺度动态网络,多尺度动态网络即为图5中的MDM,因此,S102可以包括:
S1021,将视频特征和视频段特征图输入第一个多尺度动态网络进行多尺度特征提取,得到所有候选视频段的初步特征图。
S1022,将视频特征和第N-1个多尺度动态网络的输出作为第N个多尺度动态网络的输入,利用多尺度动态网络进行多尺度特征提取。
S1023,将最后一个多尺度动态网络的输出作为融合特征图。
仅仅利用一个MDM所获取的特征表达是有限的,所以动作检测模型包括多个MDM,下面以包括2个MDM为例进行说明。
多尺度动态网络包括多个多尺度动态单元,多尺度动态单元即为图5中的MDU,因此,S1021可以包括:
S10211,将视频特征和视频段特征图输入每个多尺度动态单元。
S10212,利用多尺度动态单元从目标尺度进行特征提取,得到目标尺度的特征表达,其中,一个多尺度动态单元对应一个尺度。
其中,目标尺度的特征表达可以是待使用膨胀率(dilation rate)为d的卷积核进行特征提取的信息。一个多尺度动态单元对应一个尺度,使用不同的d,可以从不同的尺度来捕获上下文信息。S10212可以包括:
对视频段特征图进行滑窗操作,得到取样特征图;
对视频特征进行平均池化,得到待检测视频的全局特征;
利用1×1卷积对全局特征进行卷积操作以减少通道数,得到待检测视频的全局信息;
将全局信息和视频段特征图进行融合,得到中间特征图;
利用中间特征图生成每个候选视频段的动态卷积核;
利用动态卷积核对取样特征图进行卷积操作,得到目标尺度的特征表达。
S10213,获得多个多尺度动态单元输出的多个尺度的特征表达。
S10214,将多个尺度的特征表达进行聚合,得到所有候选视频段的特征信息。
S10215,对特征信息进行1×1卷积操作后,与视频段特征图进行叠加,得到初步特征图。
其中,视频段特征图的每一个位置都代表一个候选视频段的特征,表示特征的维数,例如,500维;表示候选视频段的持续时间,表示候选视频段的开始时间。位置指的是里的每一个位置,里的每一个位置都有一个维的特征,即,的每一个位置都是一个候选视频段,而这个位置是一个维的特征,代表候选视频段的特征。
首先,使用函数视频段特征图进行滑窗操作,在的每一个位置都抽取出待卷积的特征,并进行多尺度的卷积操作,得到取样特征图,并将其维度改为。其中,d表示进行滑窗操作时卷积核的膨胀率(dilation rate),使用不同的d,可以从不同的多个尺度来捕获上下文信息;表示卷积核的大小,为了减少计算量,可以设置为3。
接下来,为了使用全局信息来引导卷积核的生成过程,将待检测视频的全局信息和视频段特征图按照如下公式进行融合:
如前文所述,可以通过改变MDU中的d获得任意尺度的上下文信息。因此,获得多个多尺度动态单元输出的多个尺度的特征表达之后,为了捕获多尺度的上下文信息,将多个尺度的特征表达通过如下公式进行聚合:
因此,动作检测模型还可以包括卷积层,S103可以包括:
S1031,利用卷积层对融合特征图进行卷积操作,得到每个候选视频段的预测结果。
可以使用1×1的卷积来预测每个候选视频段的预测结果,其公式如下:
动作检测模型输出每个候选视频段的预测结果之后,根据预测结果从所有候选视频段中确定动作片段,因此,S104可以包括:
S1041,根据每个候选视频段的预测结果,计算每个候选视频段的评判分数。
S1042,根据每个候选视频段的评判分数,获得包含动作的候选视频段。
S1043,对包含动作的候选视频段进行分类,得到包含动作的候选视频段的动作类别。
S1044,获得动作片段,其中,动作片段包括包含动作的候选视频段的开始时间、结束时间及动作类别。
获取到每个候选视频段的评判分数之后,由于大部分候选视频段会存在重叠,因此,需要利用Soft-NMS来对重复的候选视频段进行剔除,剔除过程为:
第二步,将高度重叠的候选视频段按照下述公式进行衰减:
接下来,利用Unet分类器来对所有包含动作的候选视频段候选视频段进行分类,得到包含动作的候选视频段的动作类别。
最后,就能得到最终的动作片段,动作片段可以表示为:
接下来对动作检测模型的训练过程进行详细介绍。
本申请实施例提供的模型训练方法可以应用于任何具有视频处理功能的电子设备,例如,服务器、移动终端、通用计算机或者特殊用途的计算机等。
请参照图6,图6示出了本申请实施例提供的模型训练方法的流程示意图,该模型训练方法可以包括以下步骤:
S201,获取训练样本及训练样本对应的标签,标签表征训练样本中的各个动作片段,包括动作片段的开始时间、结束时间和动作类别。
这里是以训练样本为例进行说明,其实训练过程采用的是合适的训练数据集。实际中可以选择合适的训练数据集和测试数据集进行训练和测试,例如,在公开的数据集ActivityNet-1.3和THUMOS-14上进行训练和测试,可以在训练数据集上训练模型,并在测试数据集上评估模型的性能。
ActivityNet-1.3数据集是一个用于生成视频段和检测的公开数据集,其主要包含19994个视频并且包含200个动作类别,这些视频主要是从youtube网站上爬取下来的,其分辨率和时间都各不相同。ActivityNet-1.3数据集曾经是ActivityNet Challenge 2016and 2017的比赛数据集,该数据集按照2:1:1的比例将所有视频划分为训练集、评估集和测试集。
THIMOS-14数据集包含413个视频并且包含20个类别信息。其中,测试集包含212个视频,验证集包含200个视频被用来时序动作检测任务。
训练样本的标签可以表示为:
S202,对训练样本进行预处理,得到训练样本的视频特征和训练样本中所有候选视频段的视频段特征图。
S203,将视频特征和视频段特征图输入动作检测模型,利用动作检测模型进行多尺度特征提取,得到所有候选视频段的融合特征图。
S204,利用动作检测模型对融合特征图进行预测,得到每个候选视频段的预测结果。
需要指出的是,步骤S202~S204的处理过程与步骤S101~ S103的处理过程类似,在此不再赘述。下面主要介绍步骤S202~S204和步骤S101~ S103的不同之处。
在模型训练中,得到视频特征后,视频特征不仅要输入分支网络2对每个候选视频段进行特征提取,输出所有候选视频段的视频段特征图。视频特征还要输入分支网络1,判别待检测视频中的每一个时序位置是否为一个开始节点或者结束节点,输出节点类别信息。
S205,基于每个候选视频段的预测结果、标签和预设的损失函数对动作检测模型进行反向传播训练,得到训练后的动作检测模型。
在本实施例中,损失函数为:
其中,表示超参数,和分别表示平方差损失函数和带权重的交叉熵损失函数;和表示预测结果,表示使用回归损失函数计算的结果,表示使用分类损失函数计算的结果;表示标签结果,所述标签结果是基于标签中的开始时间、结束时间和动作类别计算得到的。
为了准确地判别每一个候选视频片段是否包含完整的动作实例,现有方法将有较高tIou 的视频片段看作正样本,而有较低tIou的视频片段视为负样本。然而,实际上,一些负样本也包含一些动作信息,例如,图7中所示的困难样本,这就使得现有方法很难对样本进行准确分类。
在上述公式中,可以通过计算M将所有较难分类的样本选择出来,然后利用增加额外的边缘抑制损失函数使模型更加关注它们。
为了很好地评价本申请实施例提供的动作检测模型的有效性,选取平均准确率(mean Average Precision,mAP))作为主要的评价指标。在THUMOS-14数据集上,在tIou集合{0.3,0.4,0.5,0.6,0.7}上分别计算mAP,即,重叠度为0.3、0.4、0.5、0.6、0.7预测正确的分别算一个分数,然后计算这5个分数的平均值。对于ActivityNet1.3数据集,计算tIou集合上的mAP。此外,还在ActivityNet1.3上计算10个不同tIou的平均mAP。
在当前主流的数据集ActivityNet-1.3上进行验证,其最后的验证结果如表1所示。
表1 在ActivityNet-1.3数据集上模型性能对比(%)
模型 | 0.5 | 0.75 | 0.95 | average |
SCC | 40.00 | 17.90 | 4.70 | 21.70 |
CDC | 45.30 | 26.00 | 0.20 | 23.80 |
BSN | 46.45 | 29.96 | 8.02 | 30.03 |
TAL-Net | 38.23 | 18.30 | 1.30 | 20.22 |
BMN | 50.07 | 34.78 | 8.29 | 33.85 |
DBG | 42.59 | 26.24 | 6.56 | 29.72 |
G-TAD | 50.36 | 34.60 | 9.02 | 34.09 |
TSI | 51.18 | 35.02 | 6.59 | 34.15 |
BC-GNN | 50.56 | 34.75 | 9.37 | 34.26 |
BU-TAL | 43.47 | 33.91 | 9.21 | 30.12 |
本申请 | 51.48 | 35.77 | 8.18 | 34.70 |
同时,在当前主流的数据集THUMOS-14上进行验证,其最后的验证结果如表2所示。
表2 在THUMOS-14数据集上模型性能对比(%)
模型 | 0.3 | 0.4 | 0.5 | 0.6 | 0.7 |
CDC | 40.1 | 29.4 | 23.3 | 13.1 | 7.9 |
BSN | 53.5 | 45.0 | 36.9 | 28.4 | 20.0 |
MGG | 53.9 | 46.8 | 37.4 | 29.5 | 21.3 |
TAL-Net | 53.9 | 48.5 | 42.8 | 33.8 | 20.8 |
BMN | 56.0 | 47.4 | 38.8 | 29.7 | 21.3 |
DBG | 57.8 | 49.4 | 39.8 | 30.2 | 21.7 |
G-TAD | 54.5 | 47.6 | 40.2 | 30.8 | 23.4 |
TSI | 61.0 | 52.1 | 42.6 | 33.2 | 22.4 |
BC-GNN | 57.1 | 49.1 | 40.4 | 31.2 | 23.1 |
BU-TAL | 53.9 | 50.7 | 45.4 | 38.0 | 28.5 |
本申请 | 61.2 | 55.7 | 48.0 | 38.2 | 27.6 |
从表1和表2都能明显看出,本申请提供的动作检测模型在各种评价指标下均显著优于现有的其它模型。
请参照图8,图8示出了本申请实施例提供的动作片段检测装置100的方框示意图。动作片段检测装置100应用于移动终端或者服务器,包括:第一获取模块110、第一处理模块120、第一预测模块130及动作片段确定模块140。
第一获取模块110,用于获取待检测视频的视频特征和待检测视频中所有候选视频段的视频段特征图。
第一处理模块120,用于将视频特征和视频段特征图输入动作检测模型,利用动作检测模型进行多尺度特征提取,得到所有候选视频段的融合特征图。
第一预测模块130,用于利用动作检测模型对融合特征图进行预测,得到每个候选视频段的预测结果。
动作片段确定模块140,用于根据每个候选视频段的预测结果,从所有候选视频段中确定动作片段。
可选地,第一获取模块110具体用于:
对待检测视频进行初步特征提取,得到初步视频特征;
对初步视频特征进行特征增强,得到视频特征;
对每个候选视频段进行特征提取,得到视频段特征图。
可选地,第一获取模块110执行对待检测视频进行初步特征提取,得到初步视频特征的方式,包括:
按照设定时间间隔,从待检测视频中抽取多个视频帧;
将多个视频帧输入TSN模型中,利用TSN模型提取各个视频帧的视觉特征和动作特征并进行连接,得到初步视频特征。
可选地,第一获取模块110执行对初步视频特征进行特征增强,得到视频特征的方式,包括:
利用图卷积捕获待检测视频中各个视频帧的上下文关系,将多尺度的语义信息动态融合到初步视频特征中,得到视频特征。
可选地,动作检测模型包括多个多尺度动态网络;第一处理模块120具体用于:
将视频特征和视频段特征图输入第一个多尺度动态网络进行多尺度特征提取,得到所有候选视频段的初步特征图;
将视频特征和第N-1个多尺度动态网络的输出作为第N个多尺度动态网络的输入,利用多尺度动态网络进行多尺度特征提取;
将最后一个多尺度动态网络的输出作为融合特征图。
可选地,尺度动态网络包括多个多尺度动态单元;第一处理模块120执行将视频特征和视频段特征图输入第一个多尺度动态网络进行多尺度特征提取,得到所有候选视频段的初步特征图的过程,包括:
将视频特征和视频段特征图输入每个多尺度动态单元;
利用多尺度动态单元从目标尺度进行特征提取,得到目标尺度的特征表达,其中,一个多尺度动态单元对应一个尺度;
获得多个多尺度动态单元输出的多个尺度的特征表达;
将多个尺度的特征表达进行聚合,得到所有候选视频段的特征信息;
对特征信息进行1×1卷积操作后,与视频段特征图进行叠加,得到初步特征图。
可选地,第一处理模块120执行利用多尺度动态单元从目标尺度进行特征提取,得到目标尺度的特征表达的方式,包括:
对视频段特征图进行滑窗操作,得到取样特征图;
对视频特征进行平均池化,得到待检测视频的全局特征;
利用1×1卷积对全局特征进行卷积操作以减少通道数,得到待检测视频的全局信息;
将全局信息和视频段特征图进行融合,得到中间特征图;
利用中间特征图生成每个候选视频段的动态卷积核;
利用动态卷积核对取样特征图进行卷积操作,得到目标尺度的特征表达。
可选地,第一预测模块130具体用于:
利用卷积层对融合特征图进行卷积操作,得到每个候选视频段的预测结果。
可选地,候选视频段是对待检测视频进行枚举得到的,候选视频段包括开始时间和结束时间;动作片段确定模块140具体用于:
根据每个候选视频段的预测结果,计算每个候选视频段的评判分数;
根据每个候选视频段的评判分数,获得包含动作的候选视频段;
对包含动作的候选视频段进行分类,得到包含动作的候选视频段的动作类别;
获得动作片段,其中,动作片段包括包含动作的候选视频段的开始时间、结束时间及动作类别。
请参照图9,图9示出了本申请实施例提供的模型训练装置200的方框示意图。模型训练装置200应用于任何具有图像处理功能的电子设备,包括:第二获取模块210、预处理模块220、第二处理模块230、第二预测模块240及训练模块250。
第二获取模块210,用于获取训练样本及训练样本对应的标签,标签表征训练样本中的各个动作片段,包括动作片段的开始时间、结束时间和动作类别。
预处理模块220,用于对训练样本进行预处理,得到训练样本的视频特征和训练样本中所有候选视频段的视频段特征图。
第二处理模块230,用于将视频特征和视频段特征图输入动作检测模型,利用动作检测模型进行多尺度特征提取,得到所有候选视频段的融合特征图。
第二预测模块240,用于利用动作检测模型对融合特征图进行预测,得到每个候选视频段的预测结果。
训练模块250,用于基于每个候选视频段的预测结果、标签和预设的损失函数对动作检测模型进行反向传播训练,得到训练后的动作检测模型。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的动作片段检测装置100和模型训练装置200的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
请参照图10,图10示出了本申请实施例提供的电子设备10的方框示意图。电子设备10可以是执行上述动作片段检测方法的移动终端或服务器,也可以是执行上述模型训练方法的任何具有图像处理功能的电子设备。电子设备10包括处理器11、存储器12及总线13,处理器11通过总线13与存储器12连接。
存储器12用于存储程序,例如图8所示的动作片段检测装置100、或者图9所示的模型训练装置200。以动作片段检测装置100为例,动作片段检测装置100包括至少一个可以软件或固件(firmware)的形式存储于存储器12中的软件功能模块,处理器11在接收到执行指令后,执行所述程序以实现上述实施例揭示的动作片段检测方法。
存储器12可能包括高速随机存取存储器(Random Access Memory,RAM),也可能还包括非易失存储器(non-volatile memory,NVM)。
处理器11可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器11中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器11可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、微控制单元(Microcontroller Unit,MCU)、复杂可编程逻辑器件(Complex Programmable LogicDevice,CPLD)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、嵌入式ARM等芯片。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器11执行时实现上述实施例揭示的动作片段检测方法、或者模型训练方法。
综上所述,本申请实施例提供的一种动作片段检测方法、模型训练方法及装置,针对待检测视频,枚举待检测视频中所有的候选视频段,并获取待检测视频的视频特征和所有候选视频段的视频段特征图;然后,将视频特征和视频段特征图输入预先训练的动作检测模型,利用动作检测模型进行多尺度特征提取及预测,得到每个候选视频段的预测结果;最后,根据每个候选视频段的预测结果,从所有候选视频段中确定出动作片段,从而能够从长视频中自动剪辑出动作片段。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (9)
1.一种动作片段检测方法,其特征在于,所述方法包括:
获取待检测视频的视频特征和所述待检测视频中所有候选视频段的视频段特征图;
将所述视频特征和所述视频段特征图输入动作检测模型,利用所述动作检测模型进行多尺度特征提取,得到所有候选视频段的融合特征图;
利用所述动作检测模型对所述融合特征图进行预测,得到每个所述候选视频段的预测结果;
根据每个所述候选视频段的预测结果,从所有候选视频段中确定动作片段;
所述动作检测模型包括多个多尺度动态网络;
所述将所述视频特征和所述视频段特征图输入动作检测模型,利用所述动作检测模型进行多尺度特征提取,得到所有候选视频段的融合特征图的步骤,包括:
将所述视频特征和所述视频段特征图输入第一个所述多尺度动态网络进行多尺度特征提取,得到所有候选视频段的初步特征图;
将所述视频特征和第N-1个所述多尺度动态网络的输出作为第N个所述多尺度动态网络的输入,利用所述多尺度动态网络进行多尺度特征提取;
将最后一个所述多尺度动态网络的输出作为所述融合特征图。
2.如权利要求1所述的方法,其特征在于,所述多尺度动态网络包括多个多尺度动态单元;
所述将所述视频特征和所述视频段特征图输入第一个所述多尺度动态网络进行多尺度特征提取,得到所有候选视频段的初步特征图的步骤,包括:
将所述视频特征和所述视频段特征图输入每个所述多尺度动态单元;
利用多尺度动态单元从目标尺度进行特征提取,得到目标尺度的特征表达,其中,一个多尺度动态单元对应一个尺度;
获得所述多个多尺度动态单元输出的多个尺度的特征表达;
将所述多个尺度的特征表达进行聚合,得到所有候选视频段的特征信息;
对所述特征信息进行1×1卷积操作后,与所述视频段特征图进行叠加,得到所述初步特征图。
3.如权利要求2所述的方法,其特征在于,所述利用多尺度动态单元从目标尺度进行特征提取,得到目标尺度的特征表达的步骤,包括:
对所述视频段特征图进行滑窗操作,得到取样特征图;
对所述视频特征进行平均池化,得到所述待检测视频的全局特征;
利用1×1卷积对所述全局特征进行卷积操作以减少通道数,得到所述待检测视频的全局信息;
将所述全局信息和所述视频段特征图进行融合,得到中间特征图;
利用所述中间特征图生成每个候选视频段的动态卷积核;
利用所述动态卷积核对所述取样特征图进行卷积操作,得到目标尺度的特征表达。
4.如权利要求1所述的方法,其特征在于,所述动作检测模型还包括卷积层;
所述利用所述动作检测模型对所述融合特征图进行预测,得到每个所述候选视频段的预测结果的步骤,包括:
利用所述卷积层对所述融合特征图进行卷积操作,得到每个所述候选视频段的预测结果。
5.如权利要求1所述的方法,其特征在于,所述候选视频段是对所述待检测视频进行枚举得到的,所述候选视频段包括开始时间和结束时间;
所述根据每个所述候选视频段的预测结果,从所有候选视频段中确定动作片段的步骤,包括:
根据每个所述候选视频段的预测结果,计算每个所述候选视频段的评判分数;
根据每个所述候选视频段的评判分数,获得包含动作的候选视频段;
对包含动作的候选视频段进行分类,得到包含动作的候选视频段的动作类别;
获得所述动作片段,其中,所述动作片段包括包含动作的候选视频段的开始时间、结束时间及动作类别。
6.一种模型训练方法,其特征在于,所述方法包括:
获取训练样本及所述训练样本对应的标签,所述标签表征所述训练样本中的各个动作片段;
对所述训练样本进行预处理,得到所述训练样本的视频特征和所述训练样本中所有候选视频段的视频段特征图;
将所述视频特征和所述视频段特征图输入动作检测模型,利用所述动作检测模型进行多尺度特征提取,得到所有候选视频段的融合特征图;
利用所述动作检测模型对所述融合特征图进行预测,得到每个所述候选视频段的预测结果;
基于每个所述候选视频段的预测结果、所述标签和预设的损失函数对所述动作检测模型进行反向传播训练,得到训练后的动作检测模型;
所述动作检测模型包括多个多尺度动态网络;
所述将所述视频特征和所述视频段特征图输入动作检测模型,利用所述动作检测模型进行多尺度特征提取,得到所有候选视频段的融合特征图的步骤,包括:
将所述视频特征和所述视频段特征图输入第一个所述多尺度动态网络进行多尺度特征提取,得到所有候选视频段的初步特征图;
将所述视频特征和第N-1个所述多尺度动态网络的输出作为第N个所述多尺度动态网络的输入,利用所述多尺度动态网络进行多尺度特征提取;
将最后一个所述多尺度动态网络的输出作为所述融合特征图。
7.如权利要求6所述的方法,其特征在于,所述损失函数为:
Ltotal=Lseg+λ1Lnode+λ2Lesl
其中,λ1和λ2表示超参数,Lseg表示目标损失函数,Lnode表示辅助损失函数,Lesl表示边缘抑制损失函数;
所述辅助损失函数为:
Lnode=Lstart(Gs,Ps)+Lend(Ge,Pe)
其中,Lstart和Lend分别表示带权重的交叉熵损失函数,Ps和Pe分别表示所述训练样本中的预测开始节点和预测结束节点;Gs和Ge分别表示所述标签中的开始时间和结束时间;
所述目标损失函数为:
Lseg=λ3Lreg(Mreg,Gscore)+Lcls(Mcls,Gscore)
其中,λ3表示超参数,Lreg和Lcls分别表示平方差损失函数和带权重的交叉熵损失函数;Mreg和Mcls表示所述预测结果,Mreg表示使用回归损失函数计算的结果,Mcls表示使用分类损失函数计算的结果;Gscore表示标签结果,所述标签结果是基于所述标签中的开始时间、结束时间和动作类别计算得到的;
所述边缘抑制损失函数为:
其中,α1和α2表示超参数,D表示所述候选视频段的持续时间,T表示所述候选视频段的开始时间,M表示掩模。
8.一种动作片段检测装置,其特征在于,所述装置包括:
第一获取模块,用于获取待检测视频的视频特征和所述待检测视频中所有候选视频段的视频段特征图;
第一处理模块,用于将所述视频特征和所述视频段特征图输入动作检测模型,利用所述动作检测模型进行多尺度特征提取,得到所有候选视频段的融合特征图;
第一预测模块,用于利用所述动作检测模型对所述融合特征图进行预测,得到每个所述候选视频段的预测结果;
动作片段确定模块,用于根据每个所述候选视频段的预测结果,从所有候选视频段中确定动作片段;
所述动作检测模型包括多个多尺度动态网络;所述第一处理模块具体用于:
将所述视频特征和所述视频段特征图输入第一个所述多尺度动态网络进行多尺度特征提取,得到所有候选视频段的初步特征图;
将所述视频特征和第N-1个所述多尺度动态网络的输出作为第N个所述多尺度动态网络的输入,利用所述多尺度动态网络进行多尺度特征提取;
将最后一个所述多尺度动态网络的输出作为所述融合特征图。
9.一种模型训练装置,其特征在于,所述装置包括:
第二获取模块,用于获取训练样本及所述训练样本对应的标签,所述标签表征所述训练样本中的各个动作片段;
预处理模块,用于对所述训练样本进行预处理,得到所述训练样本的视频特征和所述训练样本中所有候选视频段的视频段特征图;
第二处理模块,用于将所述视频特征和所述视频段特征图输入动作检测模型,利用所述动作检测模型进行多尺度特征提取,得到所有候选视频段的融合特征图;
第二预测模块,用于利用所述动作检测模型对所述融合特征图进行预测,得到每个所述候选视频段的预测结果;
训练模块,用于基于每个所述候选视频段的预测结果、所述标签和预设的损失函数对所述动作检测模型进行反向传播训练,得到训练后的动作检测模型;
所述动作检测模型包括多个多尺度动态网络;所述第二处理模块具体用于:
将所述视频特征和所述视频段特征图输入第一个所述多尺度动态网络进行多尺度特征提取,得到所有候选视频段的初步特征图;
将所述视频特征和第N-1个所述多尺度动态网络的输出作为第N个所述多尺度动态网络的输入,利用所述多尺度动态网络进行多尺度特征提取;
将最后一个所述多尺度动态网络的输出作为所述融合特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110488341.8A CN113033500B (zh) | 2021-05-06 | 2021-05-06 | 动作片段检测方法、模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110488341.8A CN113033500B (zh) | 2021-05-06 | 2021-05-06 | 动作片段检测方法、模型训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113033500A CN113033500A (zh) | 2021-06-25 |
CN113033500B true CN113033500B (zh) | 2021-12-03 |
Family
ID=76455476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110488341.8A Active CN113033500B (zh) | 2021-05-06 | 2021-05-06 | 动作片段检测方法、模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113033500B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114422851B (zh) * | 2022-01-24 | 2023-05-16 | 腾讯科技(深圳)有限公司 | 视频剪辑方法、装置、电子设备和可读介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805083A (zh) * | 2018-06-13 | 2018-11-13 | 中国科学技术大学 | 单阶段的视频行为检测方法 |
CN109697434A (zh) * | 2019-01-07 | 2019-04-30 | 腾讯科技(深圳)有限公司 | 一种行为识别方法、装置和存储介质 |
CN111259783A (zh) * | 2020-01-14 | 2020-06-09 | 深圳市奥拓电子股份有限公司 | 视频行为检测方法与系统、精彩视频回播系统及存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10152637B2 (en) * | 2016-09-14 | 2018-12-11 | Canon Kabushiki Kaisha | Temporal segmentation of actions using context features |
CN107506712B (zh) * | 2017-08-15 | 2021-05-18 | 成都考拉悠然科技有限公司 | 一种基于3d深度卷积网络的人类行为识别的方法 |
CN108830205B (zh) * | 2018-06-04 | 2019-06-14 | 江南大学 | 基于改进全卷积网络的多尺度感知行人检测方法 |
CN109195011B (zh) * | 2018-10-25 | 2022-01-25 | 腾讯科技(深圳)有限公司 | 一种视频处理方法、装置、设备及存储介质 |
US20200175281A1 (en) * | 2018-11-30 | 2020-06-04 | International Business Machines Corporation | Relation attention module for temporal action localization |
CN110032926B (zh) * | 2019-02-22 | 2021-05-11 | 哈尔滨工业大学(深圳) | 一种基于深度学习的视频分类方法以及设备 |
US11257222B2 (en) * | 2019-03-05 | 2022-02-22 | International Business Machines Corporation | Iterative approach for weakly-supervised action localization |
CN110222592B (zh) * | 2019-05-16 | 2023-01-17 | 西安特种设备检验检测院 | 一种基于互补时序行为提案生成的时序行为检测网络模型的构建方法 |
CN110659572B (zh) * | 2019-08-22 | 2022-08-12 | 南京理工大学 | 基于双向特征金字塔的视频动作检测方法 |
CN112364852B (zh) * | 2021-01-13 | 2021-04-20 | 成都考拉悠然科技有限公司 | 融合全局信息的动作视频段提取方法 |
-
2021
- 2021-05-06 CN CN202110488341.8A patent/CN113033500B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805083A (zh) * | 2018-06-13 | 2018-11-13 | 中国科学技术大学 | 单阶段的视频行为检测方法 |
CN109697434A (zh) * | 2019-01-07 | 2019-04-30 | 腾讯科技(深圳)有限公司 | 一种行为识别方法、装置和存储介质 |
CN111259783A (zh) * | 2020-01-14 | 2020-06-09 | 深圳市奥拓电子股份有限公司 | 视频行为检测方法与系统、精彩视频回播系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113033500A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111225234B (zh) | 视频审核方法、视频审核装置、设备和存储介质 | |
US11645554B2 (en) | Method and apparatus for recognizing a low-quality article based on artificial intelligence, device and medium | |
US11238310B2 (en) | Training data acquisition method and device, server and storage medium | |
CN110267119B (zh) | 视频精彩度的评价方法及相关设备 | |
CN109086811B (zh) | 多标签图像分类方法、装置及电子设备 | |
CN110347872B (zh) | 视频封面图像提取方法及装置、存储介质及电子设备 | |
CN110688524B (zh) | 视频检索方法、装置、电子设备及存储介质 | |
CN112559800B (zh) | 用于处理视频的方法、装置、电子设备、介质和产品 | |
CN112231275A (zh) | 多媒体文件分类、信息处理与模型训练方法、系统及设备 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN111259940A (zh) | 一种基于空间注意力地图的目标检测方法 | |
CN108960314B (zh) | 基于难样本的训练方法、装置及电子设备 | |
CN114187311A (zh) | 一种图像语义分割方法、装置、设备及存储介质 | |
CN107766316B (zh) | 评价数据的分析方法、装置及系统 | |
CN112765402A (zh) | 一种敏感信息识别方法、装置、设备及存储介质 | |
US20240013075A1 (en) | Method and apparatus for semantic analysis on confrontation scenario based on target-attribute-relation | |
CN111639230B (zh) | 一种相似视频的筛选方法、装置、设备和存储介质 | |
CN113539304A (zh) | 视频拆条方法和装置 | |
CN115713715A (zh) | 一种基于深度学习的人体行为识别方法及识别系统 | |
CN111062854A (zh) | 检测水印的方法、装置、终端及存储介质 | |
CN112580458A (zh) | 人脸表情识别方法、装置、设备及存储介质 | |
CN112288700A (zh) | 一种铁轨缺陷检测方法 | |
CN112818888A (zh) | 视频审核模型训练方法、视频审核方法及相关装置 | |
CN113033500B (zh) | 动作片段检测方法、模型训练方法及装置 | |
CN115062186A (zh) | 一种视频内容检索方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |