CN111723238B - 视频多事件的裁剪及文本描述方法及其装置、设备和介质 - Google Patents

视频多事件的裁剪及文本描述方法及其装置、设备和介质 Download PDF

Info

Publication number
CN111723238B
CN111723238B CN201910223219.0A CN201910223219A CN111723238B CN 111723238 B CN111723238 B CN 111723238B CN 201910223219 A CN201910223219 A CN 201910223219A CN 111723238 B CN111723238 B CN 111723238B
Authority
CN
China
Prior art keywords
video
event
layer
time
events
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910223219.0A
Other languages
English (en)
Other versions
CN111723238A (zh
Inventor
黄义镛
胡强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yaoke Intelligent Technology Shanghai Co ltd
Original Assignee
Yaoke Intelligent Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yaoke Intelligent Technology Shanghai Co ltd filed Critical Yaoke Intelligent Technology Shanghai Co ltd
Priority to CN201910223219.0A priority Critical patent/CN111723238B/zh
Publication of CN111723238A publication Critical patent/CN111723238A/zh
Application granted granted Critical
Publication of CN111723238B publication Critical patent/CN111723238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本申请提供的一种视频多事件的裁剪及文本描述方法及其装置、设备和介质,通过光流法对视频去抖动,通过进行3D卷积得到视频的时空特征,并生成多个包含一个事件的候选时间区间特征,对候选时间区间微调后得到多个包含一个事件准确起始和结束时间的短视频;然后对每个短视频的视频帧图像通过预训练的网络得到2D卷积特征,通过双向LSTM编码器模型得到视频内容的上下文信息,最后通过LSTM解码器逐个生成单词得到每个短视频中事件的描述,从而得到针对完整视频的完整描述。本申请对事件视频截取采用了卷积神经网络,能够并行处理从而提高了处理速度,能够高效准确地提取视频过程中的每个事件且无需人工观看视频,还便于后续事件视频检索与统计。

Description

视频多事件的裁剪及文本描述方法及其装置、设备和介质
技术领域
本发明涉及图像处理与自然语言处理技术领域,特别是涉及一种视频多事件的裁剪及文本描述方法及其装置、设备和介质。
背景技术
对于人来说,通过看一段视频并描述其内容是一个很简单的任务,但对于机器来说要从视频像素中挖掘出其内容并生成一段自然语言描述是非常复杂的。随着互联网的发展,多媒体视频的数据量急速增加,使用自然语言描述视觉内容近年来已逐渐引起关注,它在人机交互、视频索引和视频自动摘要等领域有着重要作用。近年来对视频进行描述的方法也不断被提出,但基本上都是由Encoder和Decoder两个模块组成,利用视频特征进行编码,再通过解码模块得到对视频的文本描述。
举例来说,执法人员在执法过程中通常佩戴有执法记录仪用于记录执法过程中所发生的事件,而执法过程中执法人员注意力无法一直高度集中,可能存在执法人员没有注意到的事件发生,执法人员完成执法任务后需要回顾执法记录仪所拍摄的视频对发生的事件进行记录,这需要执法人员花费大量的时间和精力提取并记录事件,因此,亟需一种基于视频事件能够自动提取的技术来减轻执法人员工作负担。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种视频多事件的裁剪及文本描述方法及其装置、设备和介质,以解决现有技术中视频事件提取的问题。
为实现上述目的及其他相关目的,本申请提供一种基于视频多事件裁剪及文本描述方法,所述方法包括:获取包含一或多个事件的视频,利用基于光流法的去抖算法对所述视频进行预处理并做标注;依据基于数据集预训练过的C3D网络模型对预处理后的所述视频提取所述C3D网络模型的第五层卷积层的输出,以获取对应所述视频的深度时空特征序列;对所述深度时空特征序列通过3D卷积、最大池化、非极大抑制、3D RoI池化、及线性回归处理以得到对应所述视频中各事件的起止时间区间;根据各所述起止时间区间将所述视频截取为一或多个视频段,将各所述视频段通过基于数据集预训练过的VGG网络模型得到对应各所述视频段的多个视频帧的2D特征,统计所述数据集中出现过的单词以形成词汇表;将全部所述2D特征通过双向LSTM编码网络和LSTM解码网络,以得到各所述视频段对应事件的文本描述。
于本申请的一实施例中,所述利用基于光流法的去抖算法对所述视频进行预处理的方法包括:根据所述视频中的特征点计算变换矩阵;将所述变换矩阵应用在所述视频上;遍历所述视频取所有帧的公共区域形成一掩膜,计算所述掩膜的最大内接矩形,并将所述掩膜套在所述视频上以去除黑边。
于本申请的一实施例中,所述标注方法包含:标注所述视频中每一个事件发生的时间区间中点和时间长度,并用30个相似或相同的句子对每一个所述事件进行描述。
于本申请的一实施例中,所述深度时空特征序列的获取方法包括:使用双线性插值算法将所述视频中各视频帧大小变形为240×240;每次连续不重叠地取16个视频帧序列,通过使用基于数据集预训练过的C3D网络模型,提取所述C3D网络模型的第五层卷积层的输出,以作为所述视频对应的深度时空特征序列;其中所述数据集为行为识别数据集。
于本申请的一实施例中,所述对所述深度时空特征序列通过3D卷积、最大池化、非极大抑制、3D RoI池化、及线性回归处理以得到对应所述视频中各事件的起止时间区间的方法包括:依据所述深度时空特征序列通过卷积层和最大池化层得到大小与所述视频帧宽与帧高无关的时域特征;以两个不同的时间点作为一个区间预设多个大小不同的区间,将各所述区间的中心点均匀分布放置在所述时域特征上;将所述时域特征上各所述区间通过一层卷积层计算包含事件的概率;对各所述区间采用非极大抑制的方法去保留少量所包含的事件不重复的区间以得到有效区间;根据所述有效区间在所述深度时空特征序列上截取对应区间的特征,通过3D RoI池化得到固定大小的特征,通过全连接层进行线性回归得到改善调整后的对应所述视频中各事件的起止时间区间。
于本申请的一实施例中,所述根据各所述起止时间区间将所述视频截取为一或多个视频段,将各所述视频段通过基于数据集预训练过的VGG网络模型得到对应各所述视频段的多个视频帧的2D特征的方法包括:根据各所述事件对应的所述起止时间区间截取视频为一或多个视频段;对各所述视频段采用均匀分布提取多个视频帧;将各所述视频段通过基于数据集预训练过的VGG网络模型,提取全连接层的输出参数作为各所述视频帧对应的2D特征。
于本申请的一实施例中,所述将全部所述2D特征通过双向LSTM编码网络和LSTM解码网络,以得到各所述视频段对应事件的文本描述的方法包括:按所述视频帧顺序输入双向LSTM编码网络以得到对应每一视频帧图像的编码信息;所述编码信息通过第二层解码LSTM和线性层得到一组与所述词汇表长度相同的向量;取每个所述向量对应的最大值id以得到对应的单词索引,根据所述词汇表得到一组由单词组成的一句完整文本描述。
为实现上述目的及其他相关目的,本申请提供一种视频多事件的裁剪及文本描述装置,所述装置包括:获取模块,用于获取包含一或多个事件的视频,利用基于光流法的去抖算法对所述视频进行预处理并做标注;处理模块,用于依据基于数据集预训练过的C3D网络模型对预处理后的所述视频提取所述C3D网络模型的第五层卷积层的输出,以获取对应所述视频的深度时空特征序列;对所述深度时空特征序列通过3D卷积、最大池化、非极大抑制、3D RoI池化、及线性回归处理以得到对应所述视频中各事件的起止时间区间;根据各所述起止时间区间将所述视频截取为一或多个视频段,将各所述视频段通过基于数据集预训练过的VGG网络模型得到对应各所述视频段的多个视频帧的2D特征,统计所述数据集中出现过的单词以形成词汇表;将全部所述2D特征通过双向LSTM编码网络和LSTM解码网络,以得到各所述视频段对应事件的文本描述。
为实现上述目的及其他相关目的,本申请提供一种视频多事件的裁剪及文本描述设备,所述设备包括:存储器、及处理器;所述存储器用于存储计算机程序;所述处理器运行计算机程序实现如上所述的视频多事件的裁剪及文本描述方法。
为实现上述目的及其他相关目的,本申请提供一种计算机存储介质,存储有计算机程序,所述计算机程序被运行时执行如上所述的视频多事件的裁剪及文本描述方法。
如上所述,本申请的一种视频多事件的裁剪及文本描述方法及其装置、设备和介质,通过获取包含一或多个事件的视频,利用基于光流法的去抖算法对所述视频进行预处理并做标注;依据基于数据集预训练过的C3D网络模型对预处理后的所述视频提取所述C3D网络模型的第五层卷积层的输出,以获取对应所述视频的深度时空特征序列;对所述深度时空特征序列通过3D卷积、最大池化、非极大抑制、3D RoI池化、及线性回归处理以得到对应所述视频中各事件的起止时间区间;根据各所述起止时间区间将所述视频截取为一或多个视频段,将各所述视频段通过基于数据集预训练过的VGG网络模型得到对应各所述视频段的多个视频帧的2D特征,统计所述数据集中出现过的单词以形成词汇表;将全部所述2D特征通过双向LSTM编码网络和LSTM解码网络,以得到各所述视频段对应事件的文本描述。
具有以下有益效果:
对事件视频截取采用了卷积神经网络而不是循环神经网络,能够并行处理从而提高了处理速度,能够高效准确地提取视频过程中的每个事件且无需人工观看视频,还便于后续事件视频检索与统计。
附图说明
图1显示为本申请于一实施例中的视频多事件的裁剪及文本描述方法的流程示意图。
图2显示为本申请于一实施例中的视频多事件的裁剪及文本描述方法的步骤S3具体细分步骤的流程示意图。
图3显示为本申请于一实施例中的LSTM编解码模型的流程示意图。
图4显示为本申请于一实施例中的视频多事件的裁剪及文本描述装置的模块示意图。
图5显示为本申请于一实施例中的视频多事件的裁剪及文本描述设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
相对于图片,视频包含更加复杂和广泛的视觉信息,可以提取利用的特征信息很多,例如2D图像特征、3D时空特征、音频特征和视频类别信息等。而实际视频中往往只用到2D图像特征和3D时空特征。例如,在执法人员视角下,所拍摄的视频不存在标签信息,执法环境通常比较复杂导致音频信息与事件信息关联甚少,无法利用。对于2D图像特征提取常用的做法是通过预训练的图像分类模型来获取特征,目前较好的模型有AlexNet模型、VGG模型、ResNet模型等,该方法通常能提取到较好的高层2D图像特征信息。3D时空特征提取通常对视频进行3D卷积,Du Tran等人通过实验得出的结果说明使用3×3×3的卷积核对时空特征提取效果最好并提出了C3D网络模型,Zhaofan Qiu等人根据当前效果最好的2D图像分类模型ResNet提出了类似的3D卷积的方法构造了P3D模型,在三维时空信息提取方面,长短期记忆网络LSTM由于其记忆特性也能很好地提取时间上的信息关系。
在执法人员视角采集的视频中,都是未经过裁剪的视频,一个视频中往往包含大量事件信息,而现有的视频描述模型,每次都只能产生一个事件描述,因此需要对视频进行分段裁剪,准确地获取每个事件的起止时间,对每个事件生成描述。目前基于事件对视频进行裁剪的方法有滑动窗口法、深度动作建议DAPs(Deep Action Proposals)等,这些方法对视频的裁剪速度很慢,较快的DAPs也只达到了134FPS,效率很低且准确度不高,因此需要更高效的视频裁剪方法。
承前所述,本申请提供一种视频多事件的裁剪及文本描述方法及其装置、设备和介质,以解决上述问题。
如图1所示,展示为本申请一实施例中的视频多事件的裁剪及文本描述方法的流程示意图。如图所示,所述方法包括:
步骤S1:获取包含一或多个事件的视频,利用基于光流法的去抖算法对所述视频进行预处理并做标注。
通常由非专业人员或非专业设备拍摄的视频往往存在抖动情况,例如,在执法人员视角下,由于执法人员的位置不是固定不变的,因此采集的视频往往存在抖动情况,存在抖动的视频对后续视频的特征提取分析存在不利影响,因此需要预先去抖动处理,后续才能获取更准确的特征信息。
光流法(Optical flow or optic flow)是关于视域中的物体运动检测中的概念。用来描述相对于观察者的运动所造成的观测目标、表面或边缘的运动。光流法在样型识别、计算机视觉以及其他影像处理领域中非常有用,可用于运动检测、物件切割、碰撞时间与物体膨胀的计算、运动补偿编码,或者通过物体表面与边缘进行立体的测量等等。
于本申请的一实施例中,所述步骤S1中针对抖动问题的预处理方法具体包括:
A、根据所述视频中的特征点计算变换矩阵。
具体来说,计算所有帧的上一帧到当前帧的位置变化dx,dy和角度变化da,依据累计变化得到所述视频中图像的变化轨迹。然后利用预设平均窗口对所述变化轨迹进行平滑处理以形成一组新的先前到当前的变换矩阵,以令所述变化轨迹最终与平滑处理处理后的变化轨迹向量相同。
B、将所述变换矩阵应用在所述视频上。
C、遍历所述视频取所有帧的公共区域形成一掩膜,计算所述掩膜的最大内接矩形,并将所述掩膜套在所述视频上以去除黑边。
于本申请的一实施例中,所述步骤S1中标注的方法具体如下:
标注所述视频中每一个事件发生的时间区间中点和时间长度,并用30个相似或相同的句子对每一个所述事件进行描述。
需要说明的是,步骤S1中所标注的每一个事件发生的时间区间中点和时间长度,将在训练神经网络模型中会用到,做标注是为了与神经网络自动预测的中点和长度进行比较计算,以根据损失函数Loss计算网络的损失对网络进行误差反向传播从而改善网络模型,从而得到能更准确预测的模型。
应该理解的是,这里的标注为人工进行标注的,而该人工标注是必要的,其需要与网络预测的数据进行比较并进行误差反向传播,以构成训练模型,这样才能得到预期结果。
步骤S2:依据基于数据集预训练过的C3D网络模型对预处理后的所述视频提取所述C3D网络模型的第五层卷积层的输出,以获取对应所述视频的深度时空特征序列。
于本实施例中,所述C3D网络模型采用2015年Du Tran等人提出来的3D卷积网络模型C3D,对视频的时间空间特征进行提取。
于本申请的一实施例中,所述步骤S2中所述深度时空特征序列的获取方法具体包括:
A、使用双线性插值算法将所述视频中各视频帧大小变形为240×240。
于本实施例中,所述双线性插值又称为双线性内插。在数学上,双线性插值是有两个变量的插值函数的线性插值扩展,其核心思想是在两个方向分别进行一次线性插值。双线性插值作为数值分析中的一种插值算法,广泛应用在信号处理,数字图像和视频处理等方面。
B、每次连续不重叠地取16个视频帧序列,通过使用基于数据集预训练过的C3D网络模型,提取所述C3D网络模型的第五层卷积层的输出,以作为所述视频对应的深度时空特征序列;其中所述数据集为行为识别数据集。
于本实施例中,使用Kinetics600数据集对C3D网络模型进行训练,该数据集是一个行为识别数据集,举例来说,视频可以来源于YouTube。所述数据集可有600个类别,每个类别至少含有600个视频,每段视频长度为10秒左右。类别主要分为三大类:单个人的行为,比如喝酒、击拳等,人与物互动,比如演奏乐器;人与人互动,比如握手、拥抱等;即person、person-object、person-person。
于本实施例中,每次连续不重叠地取16个视频帧序列输入预训练过的C3D网络模型,提取C3D网络模型第五层卷积层Conv5b的输出作为视频深度时空特征序列,其大小为
Figure BDA0002004287520000061
其中W(宽)和H(高)都为240,L(视频帧数)可为任意大小仅受限于内存容量。
步骤S3:对所述深度时空特征序列通过3D卷积、最大池化、非极大抑制、3D RoI池化、及线性回归处理以得到对应所述视频中各事件的起止时间区间。
于本实施例中,视频深度时空特征序列中包含视频时序和图像内容上的信息,因此利用该特征可以得到每个事件的起止时间区间信息。
如图2所示为步骤S3的具体流程示意图,所述方法如下:
A、依据所述深度时空特征序列通过卷积层和最大池化层得到大小与所述视频帧宽与帧高无关的时域特征。
通常1D卷积是对只有一个维度的时间序列提取特征,比如信号、股价、天气、文本等等。普通的2D卷积是提取的单张静态图像的空间特征,同神经网络结合之后在图像的分类、检测等任务上取得了很好的效果。但是对视频,即多帧图像就束手无策了,因为2D卷积没有考虑到图像之间的时间维度上的物体运动信息,即光流场。因此,为了能够对视频进行特征,以便用来分类等任务,就提出了3D卷积,在卷积核中加入时间维度。
常用的池化方法有最大池化(max-pooling)和均值池化(mean-pooling)。根据相关理论,特征提取的误差主要来自两个方面:(1)邻域大小受限造成的估计值方差增大;(2)卷积层参数误差造成估计均值的偏移。一般来说,mean-pooling能减小第一种误差,更多的保留图像的背景信息,max-pooling能减小第二种误差,更多的保留纹理信息。与mean-pooling近似,在局部意义上,则服从max-pooling的准则。max-pooling卷积核的大小一般是2×2。非常大的输入量可能需要4x4。但是,选择较大的形状会显着降低信号的尺寸,并可能导致信息过度丢失。通常,不重叠的池化窗口表现最好。
举例来说,将视频深度时空特征序列通过一个核大小为3×3×3的卷积层和一个核大小为
Figure BDA0002004287520000071
的最大池化层得到与视频帧宽高无关的大小为
Figure BDA0002004287520000072
的时域特征。
B、以两个不同的时间点作为一个区间预设多个大小不同的区间,将各所述区间的中心点均匀分布放置在所述时域特征上。
举例来说,以两个不同的时间点作为一个区间,预先设定15个大小不同的区间,分别为[1,2,3,4,5,6,8,10,12,14,16,20,24,28,32],每个区间的长度单位为2秒。将区间的中心点均匀分布放置在时域特征上,每种区间放置(L/8)个,整个视频共放置(L/8)*15个区间。
C、将所述时域特征上各所述区间通过一层卷积层计算包含事件的概率。
举例来说,将时域特征每个区间通过一层核大小为1×1×1的卷积层来计算包含事件的概率,得到每个时间区间T{t1,t2,t3,...,tn}对应的事件概率P{p1,p2,p3,...,pn},其中tn={cn,ln},其中cn为时间区间中点,ln为时间区间的长度,pn为包含事件的概率。
需要说明的是,步骤S1中标注的每一个事件发生的时间区间中点和时间长度和该举例的形式一样,在训练神经网络模型中会用到,做标注是为了与神经网络自动预测的中点和长度进行比较计算,根据下一个批注中的损失函数loss计算网络的损失对网络进行误差反向传播从而改善网络模型,得到能更准确预测的模型。
D、对各所述区间采用非极大抑制的方法去保留少量所包含的事件不重复的区间以得到有效区间。
非极大值抑制(Non-Maximum Suppression,NMS),顾名思义就是抑制不是极大值的元素,可以理解为局部最大搜索。这个局部代表的是一个邻域,邻域有两个参数可变,一是邻域的维数,二是邻域的大小。
举例来说,对得到的每个区间,采用非极大抑制的方法去除大量区间,留下少量包含事件且不重复的区间,非极大抑制的阈值设为0.6,即每两个区间重叠部分大于两个区间和的0.6,则判断为包含相同事件,对于两个相同的事件,去除包含事件概率较低的一个区间。
E、根据所述有效区间在所述深度时空特征序列上截取对应区间的特征,通过3DRoI池化得到固定大小的特征,通过全连接层进行线性回归得到改善调整后的对应所述视频中各事件的起止时间区间。
使用全连接层,需要使用池化层将不同大小的ROI转换为固定大小的ROI。
于本实施例中,该时间区间生成模型可使用视频深度时空特征单独进行训练,例如,训练时的损失函数为:
Figure BDA0002004287520000081
如上所述的损失函数,公式右边的ti和ti*,一个是网络预测的,一个是步骤S1中人工标注的,以进行比较计算损失进行反向传播调整网络模型。整个过程是为了得到这个事件描述生成模型,这个模型一开始是需要通过与人工标注的数据进行比较进行误差反向传播,即训练模型,这样才能得到我们想要的结果,所以人工标注是必要的。
其中Np为时间区间的数量,pi为预测得到第i个时间区间包含事件的概率,
Figure BDA0002004287520000082
为实际是否包含事件的值,包含则为1,不包含则为0,Lp为softmax损失函数,λ为权衡参数,本发明中设置其值为1,ti={ci,li}为预测得到第i个时间区间,
Figure BDA0002004287520000083
为预测值到真实值的坐标变换,Lt的采用目标检测算法中的平滑L1损失函数,关于该函数计算方法可参考文献Faster R-CNN,其中
Figure BDA0002004287520000084
的计算公式为:
Figure BDA0002004287520000085
其中
Figure BDA0002004287520000086
分别为实际时间区间的中点和长度。
步骤S4:根据各所述起止时间区间将所述视频截取为一或多个视频段,将各所述视频段通过基于数据集预训练过的VGG网络模型得到对应各所述视频段的多个视频帧的2D特征,统计所述数据集中出现过的单词以形成词汇表。
VGG模型是2014年ILSVRC竞赛的第二名,第一名是GoogLeNet。但是VGG模型在多个迁移学习任务中的表现要优于GoogLeNet。而且,从图像中提取CNN特征,VGG模型是首选算法。它的缺点在于,参数量有140M之多,需要更大的存储空间。但是这个模型很有研究价值。
“GoogLeNet和VGG的Classification模型从原理上并没有与传统的CNN模型有太大不同。大家所用的Pipeline也都是:训练时候:各种数据Augmentation(剪裁,不同大小,调亮度,饱和度,对比度,偏色),剪裁送入CNN模型,Softmax,Backprop。测试时候:尽量把测试数据又各种Augmenting(剪裁,不同大小),把测试数据各种Augmenting后在训练的不同模型上的结果再继续Averaging出最后的结果。”
需要注意的是,在VGGNet的6组实验中,后面的4个网络均使用了pre-trainedmodel A的某些层来做参数初始化。虽然提出者没有提该方法带来的性能增益。VGG具有如下特点:1)小卷积核,卷积核全部替换为3x3(极少用了1x1);2)小池化核,相比AlexNet的3x3的池化核,VGG全部为2x2的池化核;3)层数更深特征图更宽,基于前两点外,由于卷积核专注于扩大通道数、池化专注于缩小宽和高,使得模型架构上更深更宽的同时,计算量的增加放缓;4)全连接转卷积,网络测试阶段将训练阶段的三个全连接替换为三个卷积,测试重用训练时的参数,使得测试得到的全卷积网络因为没有全连接的限制,因而可以接收任意宽或高为的输入。
于本申请的一实施例中,所述步骤S4的方法具体包括:
A、根据各所述事件对应的所述起止时间区间截取视频为一或多个视频段。
B、对各所述视频段采用均匀分布提取多个视频帧。
举例来说,对每个短视频采用均匀分布提取K帧画面,帧数不足的将会均匀地重复提取相同帧。
C、将各所述视频段通过基于数据集预训练过的VGG网络模型,提取全连接层的输出参数作为各所述视频帧对应的2D特征。
举例来说,将每帧画面通过在ImageNet数据集上预训练过的VGG网络模型,提取全连接层fc6的输出参数作为视频帧2D特征,每帧画面得到的特征参数大小为4096,即每个短视频得到的2D特征参数形状为K×4096。
D、统计在数据集中所有出现过的单词,生成词汇表,词汇表中还需包含句子的起始<begin>和结尾<end>,并以顺序索引形式存储每个单词,在输入LSTM编码网络时,将每个单词对应的索引通过Embedding转换成对应的词向量形式。
步骤S5:将全部所述2D特征通过双向LSTM编码网络和LSTM解码网络,以得到各所述视频段对应事件的文本描述。
LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM已经在科技领域有了多种应用。基于LSTM的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等等任务。
于本申请的一实施例中,所述步骤S4的方法具体包括:
A、按所述视频帧顺序输入双向LSTM编码网络以得到对应每一视频帧图像的编码信息;
B、所述编码信息通过第二层解码LSTM和线性层得到一组与所述词汇表长度相同的向量;
C、取每个所述向量对应的最大值id以得到对应的单词索引,根据所述词汇表得到一组由单词组成的一句完整文本描述。
于本实施例中,所述LSTM编解码模型部分采用S2VT的模型结构,如图3所示。主要由两层LSTM组成,与S2VT模型不同的是,本申请第一层采用双向LSTM对视频2D特征进行特征编码,因为在生成句子描述时,单词的顺序并不是完全和视频每一帧画面的顺序相同,有些句子的前几个单词可能是用于描述视频后几帧画面的内容,因此采用双向LSTM可以在对视频进行特征编码时,可以使前几个编码单元得到后几帧的视频信息,使后几帧的编码单元也能得到前几帧的视频信息,能提高信息的对称度,提高解码时描述生成的准确度。模型先接收全部的视频图像特征进行编码,再给第二层的LSTM一个开始生成描述的信号<begin>,第二层LSTM开始解码生成句子描述。
如图3所示,按视频帧顺序每次将4096维特征向量输入双向LSTM编码网络,得到每一帧图像的编码信息,在视频特征全部输入后,后续的编码LSTM使用与视频图像特征大小相同、值全为零的4096维向量<pad>作为特征输入。
在训练模型时,第二层解码LSTM的输入为第一层隐层状态的编码信息和视频的句子描述,对每个视频随机从对应的30个句子描述中选取一个句子,句子中每个单词转换成词向量后按顺序输入每个解码单元,在生成句子描述前的解码LSTM使用与词向量大小相同、值全为零的向量<pad>作为对应的词向量。编码信息通过第二层解码LSTM和线性层得到一组与词汇表长度相同的向量,取每个向量对应的最大值id,即可得到对应的单词索引,根据词汇表得到一组单词组成一个句子描述。该模型采用交叉熵损失来进行梯度下降。
其中,这里所述的30个句子,是由步骤S1的标注的内容,即用30个相似或相同的句子对每一个事件进行描述,其在此处训练中会用到,描述就是我们正常描述一件事情的普通句子描述。
在测试模型时无需输入标注的描述句子,只需要在开始生成句子处给第二层<begin>对应的词向量,得到的单词输出再转化为词向量输入下一个解码单元。对于每个截取的短视频都生成一个句子描述,即可得到对整个视频的所有事件描述。
如图4所示,展示为本申请于一实施例中的视频多事件的裁剪及文本描述装置的模块示意图。如图所示,所述装置400包括:
获取模块401,用于获取包含一或多个事件的视频,利用基于光流法的去抖算法对所述视频进行预处理并做标注;
处理模块402,用于依据基于数据集预训练过的C3D网络模型对预处理后的所述视频提取所述C3D网络模型的第五层卷积层的输出,以获取对应所述视频的深度时空特征序列;对所述深度时空特征序列通过3D卷积、最大池化、非极大抑制、3D RoI池化、及线性回归处理以得到对应所述视频中各事件的起止时间区间;根据各所述起止时间区间将所述视频截取为一或多个视频段,将各所述视频段通过基于数据集预训练过的VGG网络模型得到对应各所述视频段的多个视频帧的2D特征,统计所述数据集中出现过的单词以形成词汇表;将全部所述2D特征通过双向LSTM编码网络和LSTM解码网络,以得到各所述视频段对应事件的文本描述。
可以理解的是,所述视频多事件的裁剪及文本描述装置400通过各模块的运行,能够实现如图1所述的视频多事件的裁剪及文本描述方法。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,处理模块402可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上处理模块402的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
如图5所示,展示为本申请于一实施例中的视频多事件的裁剪及文本描述设备的结构示意图。如图所示,所述视频多事件的裁剪及文本描述设备500包括:存储器501、及处理器502;所述存储器501用于存储计算机程序;所述处理器502运行计算机程序实现如图1所述的视频多事件的裁剪及文本描述方法。
所述存储器501可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
所述处理器502可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
于本申请的一实施例中,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图1所述的视频多事件的裁剪及文本描述方法。
所述计算机可读存储介质,本领域普通技术人员可以理解:实现上述系统及各单元功能的实施例可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述系统及各单元功能的实施例;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本申请提供的一种视频多事件的裁剪及文本描述方法及其装置、设备和介质,通过获取包含一或多个事件的视频,利用基于光流法的去抖算法对所述视频进行预处理并做标注;依据基于数据集预训练过的C3D网络模型对预处理后的所述视频提取所述C3D网络模型的第五层卷积层的输出,以获取对应所述视频的深度时空特征序列;对所述深度时空特征序列通过3D卷积、最大池化、非极大抑制、3D RoI池化、及线性回归处理以得到对应所述视频中各事件的起止时间区间;根据各所述起止时间区间将所述视频截取为一或多个视频段,将各所述视频段通过基于数据集预训练过的VGG网络模型得到对应各所述视频段的多个视频帧的2D特征,统计所述数据集中出现过的单词以形成词汇表;将全部所述2D特征通过双向LSTM编码网络和LSTM解码网络,以得到各所述视频段对应事件的文本描述。
本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (9)

1.一种视频多事件裁剪及文本描述方法,其特征在于,所述方法包括:
获取包含一或多个事件的视频,利用基于光流法的去抖算法对所述视频进行预处理并做标注;
依据基于数据集预训练过的C3D网络模型对预处理后的所述视频提取所述C3D网络模型的第五层卷积层的输出,以获取对应所述视频的深度时空特征序列;
对所述深度时空特征序列通过3D卷积、最大池化、非极大抑制、3D RoI池化、及线性回归处理以得到对应所述视频中各事件的起止时间区间;其中,具体包括:依据所述深度时空特征序列通过卷积层和最大池化层得到大小与所述视频帧宽与帧高无关的时域特征;以两个不同的时间点作为一个区间预设多个大小不同的区间,将各所述区间的中心点均匀分布放置在所述时域特征上;将所述时域特征上各所述区间通过一层卷积层计算包含事件的概率;对各所述区间采用非极大抑制的方法去保留少量所包含的事件不重复的区间以得到有效区间;根据所述有效区间在所述深度时空特征序列上截取对应区间的特征,通过3D RoI池化得到固定大小的特征,通过全连接层进行线性回归得到改善调整后的对应所述视频中各事件的起止时间区间;
根据各所述起止时间区间将所述视频截取为一或多个视频段,将各所述视频段通过基于数据集预训练过的VGG网络模型得到对应各所述视频段的多个视频帧的2D特征,统计所述数据集中出现过的单词以形成词汇表;
将全部所述2D特征通过双向LSTM编码网络和LSTM解码网络,以得到各所述视频段对应事件的文本描述。
2.根据权利要求1所述的视频多事件的裁剪及文本描述方法,其特征在于,所述利用基于光流法的去抖算法对所述视频进行预处理的方法包括:
根据所述视频中的特征点计算变换矩阵;
将所述变换矩阵应用在所述视频上;
遍历所述视频取所有帧的公共区域形成一掩膜,计算所述掩膜的最大内接矩形,并将所述掩膜套在所述视频上以去除黑边。
3.根据权利要求1所述的视频多事件的裁剪及文本描述方法,其特征在于,所述标注方法包含:
标注所述视频中每一个事件发生的时间区间中点和时间长度,并用30个相似或相同的句子对每一个所述事件进行描述。
4.根据权利要求1所述的视频多事件的裁剪及文本描述方法,其特征在于,所述深度时空特征序列的获取方法包括:
使用双线性插值算法将所述视频中各视频帧大小变形为240×240;
每次连续不重叠地取16个视频帧序列,通过使用基于数据集预训练过的C3D网络模型,提取所述C3D网络模型的第五层卷积层的输出,以作为所述视频对应的深度时空特征序列;其中所述数据集为行为识别数据集。
5.根据权利要求1所述的视频多事件的裁剪及文本描述方法,其特征在于,所述根据各所述起止时间区间将所述视频截取为一或多个视频段,将各所述视频段通过基于数据集预训练过的VGG网络模型得到对应各所述视频段的多个视频帧的2D特征的方法包括:
根据各所述事件对应的所述起止时间区间截取视频为一或多个视频段;
对各所述视频段采用均匀分布提取多个视频帧;
将各所述视频段通过基于数据集预训练过的VGG网络模型,提取全连接层的输出参数作为各所述视频帧对应的2D特征。
6.根据权利要求1所述的视频多事件的裁剪及文本描述方法,其特征在于,所述将全部所述2D特征通过双向LSTM编码网络和LSTM解码网络,以得到各所述视频段对应事件的文本描述的方法包括:
按所述视频帧顺序输入双向LSTM编码网络以得到对应每一视频帧图像的编码信息;
所述编码信息通过第二层解码LSTM和线性层得到一组与所述词汇表长度相同的向量;
取每个所述向量对应的最大值id以得到对应的单词索引,根据所述词汇表得到一组由单词组成的一句完整文本描述。
7.一种视频多事件的裁剪及文本描述装置,其特征在于,所述装置包括:
获取模块,用于获取包含一或多个事件的视频,利用基于光流法的去抖算法对所述视频进行预处理并做标注;
处理模块,用于依据基于数据集预训练过的C3D网络模型对预处理后的所述视频提取所述C3D网络模型的第五层卷积层的输出,以获取对应所述视频的深度时空特征序列;对所述深度时空特征序列通过3D卷积、最大池化、非极大抑制、3D RoI池化、及线性回归处理以得到对应所述视频中各事件的起止时间区间;其中,具体包括:依据所述深度时空特征序列通过卷积层和最大池化层得到大小与所述视频帧宽与帧高无关的时域特征;以两个不同的时间点作为一个区间预设多个大小不同的区间,将各所述区间的中心点均匀分布放置在所述时域特征上;将所述时域特征上各所述区间通过一层卷积层计算包含事件的概率;对各所述区间采用非极大抑制的方法去保留少量所包含的事件不重复的区间以得到有效区间;根据所述有效区间在所述深度时空特征序列上截取对应区间的特征,通过3DRoI池化得到固定大小的特征,通过全连接层进行线性回归得到改善调整后的对应所述视频中各事件的起止时间区间;根据各所述起止时间区间将所述视频截取为一或多个视频段,将各所述视频段通过基于数据集预训练过的VGG网络模型得到对应各所述视频段的多个视频帧的2D特征,统计所述数据集中出现过的单词以形成词汇表;将全部所述2D特征通过双向LSTM编码网络和LSTM解码网络,以得到各所述视频段对应事件的文本描述。
8.一种视频多事件的裁剪及文本描述设备,其特征在于,所述设备包括:存储器、及处理器;所述存储器用于存储计算机程序;所述处理器运行计算机程序实现如权利要求1至6中任意一项所述的视频多事件的裁剪及文本描述方法。
9.一种计算机存储介质,其特征在于,存储有计算机程序,所述计算机程序被运行时执行如权利要求1至6中任一项所述的视频多事件的裁剪及文本描述方法。
CN201910223219.0A 2019-03-22 2019-03-22 视频多事件的裁剪及文本描述方法及其装置、设备和介质 Active CN111723238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910223219.0A CN111723238B (zh) 2019-03-22 2019-03-22 视频多事件的裁剪及文本描述方法及其装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910223219.0A CN111723238B (zh) 2019-03-22 2019-03-22 视频多事件的裁剪及文本描述方法及其装置、设备和介质

Publications (2)

Publication Number Publication Date
CN111723238A CN111723238A (zh) 2020-09-29
CN111723238B true CN111723238B (zh) 2023-05-12

Family

ID=72562259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910223219.0A Active CN111723238B (zh) 2019-03-22 2019-03-22 视频多事件的裁剪及文本描述方法及其装置、设备和介质

Country Status (1)

Country Link
CN (1) CN111723238B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112201020B (zh) * 2020-10-10 2022-01-18 合肥远康信息技术有限公司 一种智慧110联网综合报警平台可视化系统
CN112801017B (zh) * 2021-02-09 2023-08-04 成都视海芯图微电子有限公司 一种视觉场景描述方法及系统
CN113159034A (zh) * 2021-04-23 2021-07-23 杭州电子科技大学 一种短视频自动生成字幕的方法及系统
CN113312980B (zh) * 2021-05-06 2022-10-14 华南理工大学 一种视频密集描述方法、装置及介质
CN113438446A (zh) * 2021-05-16 2021-09-24 鄂尔多斯市龙腾信通科技有限公司 一种城管乡镇延伸视频联网管理系统
CN114469661B (zh) * 2022-02-24 2023-10-03 沈阳理工大学 一种基于编码解码技术的视觉内容导盲辅助系统及方法
CN116886991B (zh) * 2023-08-21 2024-05-03 珠海嘉立信发展有限公司 生成视频资料的方法、装置、终端设备以及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107707931A (zh) * 2016-08-08 2018-02-16 阿里巴巴集团控股有限公司 根据视频数据生成解释数据、数据合成方法及装置、电子设备
CN108960063A (zh) * 2018-06-01 2018-12-07 清华大学深圳研究生院 一种面向事件关系编码的视频中多事件自然语言描述算法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105681749A (zh) * 2016-01-12 2016-06-15 上海小蚁科技有限公司 用于预览视频的方法、装置、系统和计算机可读介质
EP3358498B1 (en) * 2017-02-02 2020-01-29 Hill-Rom Services, Inc. Method and apparatus for automatic event prediction

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107707931A (zh) * 2016-08-08 2018-02-16 阿里巴巴集团控股有限公司 根据视频数据生成解释数据、数据合成方法及装置、电子设备
CN108960063A (zh) * 2018-06-01 2018-12-07 清华大学深圳研究生院 一种面向事件关系编码的视频中多事件自然语言描述算法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Dense-Captioning Events in Videos;Ranjay Krishna,;《2017 IEEE International Conference on Computer Vision》;20171225;706-715 *
Sequence to Sequence – Video to Text;Subhashini Venugopalan;《2015 IEEE International Conference on Computer Vision》;20160218;4534-4542 *
Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs;Zheng Shou;《2016 IEEE Conference on Computer Vision and Pattern Recognition》;20161212;1049-1058 *
基于3D卷积神经网络的行为识别算法研究;马立军;《中国优秀硕士学位论文全文数据库信息科技辑》;20180815;全文 *

Also Published As

Publication number Publication date
CN111723238A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN111723238B (zh) 视频多事件的裁剪及文本描述方法及其装置、设备和介质
AU2019213369B2 (en) Non-local memory network for semi-supervised video object segmentation
Tu et al. Action-stage emphasized spatiotemporal VLAD for video action recognition
WO2020064990A1 (en) Committed information rate variational autoencoders
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN110751649B (zh) 视频质量评估方法、装置、电子设备及存储介质
CN111968150B (zh) 一种基于全卷积神经网络的弱监督视频目标分割方法
CN112861575A (zh) 一种行人结构化方法、装置、设备和存储介质
CN111062410B (zh) 基于深度学习的星型信息桥气象预测方法
GB2579262A (en) Space-time memory network for locating target object in video content
Naeem et al. T-VLAD: Temporal vector of locally aggregated descriptor for multiview human action recognition
CN114283352A (zh) 一种视频语义分割装置、训练方法以及视频语义分割方法
CN115797818A (zh) 视频时序动作提名生成方法及系统
CN112364933A (zh) 图像分类方法、装置、电子设备和存储介质
CN116703857A (zh) 一种基于时空域感知的视频动作质量评价方法
CN114708436A (zh) 语义分割模型的训练方法、语义分割方法、装置和介质
CN117478978B (zh) 一种文本生成电影视频片段的方法、系统和设备
CN115115972A (zh) 视频处理方法、装置、计算机设备、介质及程序产品
CN115272660A (zh) 一种基于双流神经网络的唇语识别方法及系统
CN113496228A (zh) 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法
CN111856618A (zh) 气象要素的预测方法及设备
CN112818846A (zh) 视频帧的特征提取方法、装置及电子设备
CN111666849A (zh) 多视角深度网络迭代进化的多源遥感影像水体检测方法
CN113436199B (zh) 半监督视频目标分割方法及装置
CN116452600B (zh) 实例分割方法、系统、模型训练方法、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant