CN114627413B - 视频密集事件内容理解方法 - Google Patents

视频密集事件内容理解方法 Download PDF

Info

Publication number
CN114627413B
CN114627413B CN202210241438.3A CN202210241438A CN114627413B CN 114627413 B CN114627413 B CN 114627413B CN 202210241438 A CN202210241438 A CN 202210241438A CN 114627413 B CN114627413 B CN 114627413B
Authority
CN
China
Prior art keywords
video
event
input
network
rnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210241438.3A
Other languages
English (en)
Other versions
CN114627413A (zh
Inventor
匡平
段其鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210241438.3A priority Critical patent/CN114627413B/zh
Publication of CN114627413A publication Critical patent/CN114627413A/zh
Application granted granted Critical
Publication of CN114627413B publication Critical patent/CN114627413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种视频密集事件内容理解方法,包括以下步骤:S1、对输入视频进行特征提取;S2、采用基于双向LSTM的双线性注意力机制特征融合方法提取的特征进行融合;S3、候选事件生成;S4、有序视频序列生成:采用深度学习的方式对候选时间集合中的候选事件数据进行筛选;S5、利用三栈式视频内容描述生成网络生成针对输入视频的多个描述语句。本发明综合考虑视频的有效内容,从二维视觉特征,三维视觉特征,音频特征,视频语义特征四个层次分别进行了提取。通过本发明的方法能够对于视频当中的事件进行良好的划分,并进行结构化的特征表达。最终输出主题一致,逻辑关联性强,内容描述完整的描述段落,对于整个视频的多个事件实现理解。

Description

视频密集事件内容理解方法
技术领域
本发明属于视频描述技术领域,特别涉及一种视频密集事件内容理解方法。
背景技术
相较于图像内容理解,视频内容理解因为视频这一信息媒介信息承载量更大,包含的信息特征种类更多,先天交互动作内在信息复杂等特质使得实现起来难度巨大。但也因其拥有巨大的商业价值和社会价值,因此成为近几年日趋火热的研究方向。视频内容理解研究方向众多,基础研究方向包括视频分类、视频动作检测两种类别。而更深层次的研究方向则是视频内容理解描述生成方向,通过符合人类自然语言习惯的描述性语句作为结果,对整个视频中发生的事情进行概述。但于此带来的问题是,通常一段视频不只有一件事情发生,并且事件之间存在着某种逻辑上的因果关系和时间顺序,因此仅用一句话进行描述难以完整的对于视频整体性概括。
关于视频内容理解算法的基本实现主要分为三种思路:基于模板、基于检索以及基于编解码结构的方法。
基于模板顾名思义就是采用固定的句子模板,例如主谓宾的格式,采用一系列目标检测方法以及动作检测方法去为模板逐个填充。
基于检索则是采用映射的方式,形成一个庞大的视频-结果对照集合,通过将视频按照某种约定的映射关系,在库中去查询,直接输出。
基于编解码的方法是目前视频内容理解领域和主流解决思路,通过编码器(Encoder)和解码器(Decoder)按照全机器学习的方式来对视频内容进行描述,如图1所述。
以上几种方法各有利弊,但是第三种方法作为业界主流解决思路,也成为了主要的研究方向。
1)主流方法对于视频的结构化特征表达提取单一。业界主流方法通常采用视觉特征来作为整个视频的数学向量形式表示,但是视频远不止视觉信息就能够完全概括,音频信息、动作信息,情感信息,场景信息等等都是视频所内在蕴含的内容,巧妇难为无米之炊,如果不能够将视频当中的所有信息全部提取出来,那么势必会对结果的准确性逻辑性有极大的影响。
2)特征融合方式过于粗暴。在提取出来特征后,当前主流方法通常采用拼接或者是简单的平均处理,这种方式虽然完成了拼接,但是过于僵硬,各种特征之间的重要性在不同事件中是不可相提并论的,当前主流方法即便尝试采用注意力机制等方法后融合出来的特征仍旧混淆不清,使得1+1<2。因此需要针对这个问题设计出一种良好的特征融合方法。
3)视频事件检测不准确,划分事件集合过于冗余。当前业界方法通常采用深度学习的方式,将经过1)2)输出的视频特征进行进一步整理,生成候选事件集合,来提供给后续专门的方法来将这些候选事件输出成描述语句,但是当前的方法由于输出的特征比较粗糙,并且由于没有做进一步的后处理,导致生成的集合不但不准确,还非常冗余(相互之间重合度高),针对训练集中的一段视频平均会产生70余个候选事件,相较于平均2.8个事件的真实结果有着极大的差别,这就导致了生成的描述语句非常的繁多,并且不准确,因此需要采用更为有效的方式来生成低冗余高准确性的候选事件集合。
4)视频内容描述生成结果语句整体主题关联性差,语句之间逻辑关联性不强。当前主流的编解码结构采用的通常是双栈式编码结构,一层用来编码,一层用来解码,这种简单的结构提供了基本的解决思路,但是仅采用一层编码,只能针对每一个事件的内容进行特征编码,这就会导致生成的描述性语句都在各说各话,最后整个段落看起来不像是在描述一个视频,并且不符合自然语言的基本逻辑,难以串联。因此需要一个更好的结构来能够对于主题,语序之间的关联性进行编码辅助结果生成。
发明内容
本发明的目的在于克服现有技术的不足,提供一种从二维视觉特征,三维视觉特征,音频特征,视频语义特征四个层次分别进行了提取,逻辑关联性强,能够对整个视频的多个事件实现理解的视频密集事件内容理解方法。
本发明的目的是通过以下技术方案来实现的:视频密集事件内容理解方法,包括以下步骤:
S1、对输入视频进行特征提取:分别提取输入视频的二维视觉特征、三维视觉特征、音频特征和语义特征;
S2、采用基于双向LSTM的双线性注意力机制特征融合方法将S1提取的特征进行融合;
S3、候选事件生成;
S4、有序视频序列生成:采用深度学习的方式对候选时间集合中的候选事件数据进行筛选,留下有序低重合的事件;
S5、利用三栈式视频内容描述生成网络生成针对输入视频的多个描述语句。
进一步地,所述步骤S1中,利用二维视频特征提取网络提取输入视频的二维视觉特征,二维视频特征提取网络由两部分组成:第一部分为卷积网络,第二部分为单层长短期记忆网络;
卷积网络由卷积层Conv1~Con5堆叠而成,其中Conv1层由64个步长为2,大小为7*7的卷积核构成,Conv2、Conv3、Conv4和Con5层分别由3个、16个、36个和3个残差模块构成,残差模块由三个大小为[1×1,3×3,1×1]的卷积核构成,并且卷积核之间带有短路链接从而完成特征拼接,并在每一层卷积输出之后采用Relu激活函数对输出向量进行非线性激活;并在Con5层卷积完成后输入平均池化层;
对于提取的二维的卷积特征,采用每16帧为一个视频片段为每一个视频片段的容量,具体的做法为:
(1)将视频进行切分,每16帧作为一次视频片段,不足16帧的视频片段补0使其达到16帧;首先进行Resize,将每帧图片的大小全部变为224×224×3的像素表示;再逐帧送入卷积网络进行特征提取,对于每一张图片会产生一个大小为4096维的特征作为内容表示;
(2)将每个视频片段的图片按序送入单层长短期记忆网络中,以单层长短期记忆网络的隐藏层状态作为表示该16帧的视频片段的向量表示;
(3)将整个视频的所有视频片段依次按照(1)和(2)的方式送入卷积网络和单层长短期记忆网络,将整体视频切分为视频片段特征的向量表示。
进一步地,所述步骤S1中,采用I3D模型来提取输入视频的三维视觉特征。采用梅尔倒谱系数提取方法提取输入视频的音频特征。
进一步地,所述语义特征包含两个部分:视频对象类别语义以及视频动作语义;
视频对象类别语义信息通过将视频片段中的视频对象出现的概率及视频对象的出现频率、视频对象在视频片段中的像素运动速度编码融合到视频内容特征表示当中;具体流程如下:
(1)将视频进行切分,每16帧作为一次视频片段,不足16帧的视频片段补0使其达到16帧;将视频片段依次输入目标检测器,目标检测器产生一组对象的类别标签作为输出,记为
Figure BDA0003542156930000031
并将
Figure BDA0003542156930000032
同字典Dic当中的单词进行取交集,得到属于字典内容的视频对象集合
Figure BDA0003542156930000033
(2)计算视频对象在视频片段出现的平均次数F(oi):
Figure BDA0003542156930000034
其中oi表示取交集后视频对象集合O的第i个视频对象,Lj(oi)表示第j帧中oi出现的次数;N代表每个视频片段的帧数;
(3)计算视频对象出现的平均最大概率:在每一帧中统计该视频对象出现的最大概率max(p(oi)),将所有帧的最大概率相加并除以帧数,得到视频对象在视频片段中出现的平均最大概率,即:
Figure BDA0003542156930000041
(4)计算视频对象在相邻帧的像素运动速度V(oi):
Figure BDA0003542156930000042
式中,上标z和z+1分别表示当前帧和下一帧,z=1,2,…,N-1;xz、yz分别表示当前帧的横坐标和纵坐标,xz+1、yz+1分别表示下一帧的横坐标和纵坐标,
Figure BDA0003542156930000043
分别表示视频对象在相邻帧x轴和y轴上的运动速度;
上述平均次数、平均最大概率及像素运动速度是视频对象oi的视频对象类别语义Oi的三个组成部分,具体的定义如下式所示:
Figure BDA0003542156930000044
δ代表视频对象类别语义最后的编码组合,由n个检测出的对象Oi来进行表示;
视频动作语义特征编码的流程细节如下:
(5)采用TV-L1算法对16帧视频片段的每帧图片进行光流图提取,将得到的光流图作为原始帧的新通道,将新通道与原始图片进行连接后输入至I3D行为识别卷积预测网络;经过I3D行为识别卷积预测网络后,输出一系列行为标签
Figure BDA0003542156930000045
采用交集的方式得到被编码进语义特征的动作集合M,即
Figure BDA0003542156930000046
(6)将动作集合M中的动作信息进行编码,如下式所示:
Figure BDA0003542156930000047
Figure BDA0003542156930000048
表示最终的输出编码形式,由一系列动作概率Pr(M1),Pr(M2),Pr(M3),...,Pr(MQ)组成,Q表示动作集合M中动作总数量;
在提取和编码好视频对象类别语义特征δ和视频动作语义特征
Figure BDA0003542156930000053
后,将两个语义特征进行拼接操作,然后整体送入线性全连接层实现维度变换和进一步整合编码,最后得到一个1024维度的特征向量。
进一步地,所述步骤S2具体实现方法为:基于双向LSTM网络结构,在隐藏层计算中引入基于双线性变换的注意力机制,具体实现方法为:
(1)整合正向特征计算和反向特征计算的隐藏层变量进行拼接,拼接过程表示为:
Figure BDA0003542156930000051
hrt表示t时刻正向计算的隐藏层状态,hlt代表t时刻反向计算的隐藏层状态,F()表示激活函数;W1、W2分别代表正向计算时和反向计算时t时刻的隐藏层变量与当前输入变量的权重转移矩阵,W3代表正向计算时t时刻的隐藏层变量与t-1时刻的隐藏层变量的权重转移矩阵,W4代表反向计算时t时刻的隐藏层变量与t+1时刻的隐藏层变量的权重转移矩阵;
(2)计算注意力权重α(t):
α(t)=S(ht-1,q)=SoftMax((Uht-1)T(Vq)) (7)
SoftMax()是归一化数学公式;q代表查询向量,为经双向LSTM产生的第一个输出;U代表视觉特征的权重转移矩阵,V代表非线性变换特征的权重转移矩阵,T表示转置;
(3)加权求和:经过步骤(2)后,按照公式(8)的计算方式输出一个基于双向LSTM和注意力编码的加权特征向量,作为视频片段的张量表示:
Figure BDA0003542156930000052
F(t)代表在t时刻解码器网络输出的特征向量;T表示总的时刻。
进一步地,所述步骤S3具体实现方法为:候选事件生成网络由门限循环LSTM构成,它的输入是在每一个时间戳都输入一段长度为16帧的多模融合特征,并每次都以该视频片段作为本次事件的终点事件节点位置,在每次GRU门限循环LSTM计算后,会在这一时间戳输出一个K维的输出向量来标识以当前输入视频片段为事件结束位置时的事件起始节点位置,其中K的数量小于等于已经输入进GRU门限LSTM当中的视频片段数量;通过这种方式将不断地把输入和先前的输出进行匹配,在一次视频输出的流程当中,生成具有界定意义的候选事件;
然后采用非极大值抑制的方式对生成的候选事件进行初筛;产生C个最终的候选事件集合,记为P={p1,p2,p3,…,pC},C是由用户自设的参数。
进一步地,所述步骤S4具体实现方法为:
(1)事件候选事件集合输入与编码:将P={p1,p2,p3,…,pC}输入到一个GRU编码网络中,通过将序列P={p1,p2,p3,…,pC}在每一个时刻输入一个事件,当全部输入完毕后,采用GRU编码网络的隐藏层状态作为整个视频片段的抽象表示;
(2)有序事件序列解码生成:通过(1)的编码过程产生的抽象表示作为GRU解码网络的输入,作为GRU解码网络0时刻隐藏层状态;在每一个时刻,GRU解码网络以上一个时刻的解码网络隐藏层的状态以及上一个时刻解码网络的输出作为本时刻的输入,得到一个概率分布,这个概率分布会在所有还能选择的候选事件集合中选择一个,作为输出事件;重复解码操作,直到输出事件是一个标识结束的标识符为止,整个循环过程结束,得到Ns个有序事件;
(3)通过上述的步骤最终会输出一个有序事件集合seq,其形式为[seq1,seq2,...,seqNs]。
进一步地,所述步骤S5中,三栈式视频内容描述生成网络由三个层级网络构成,分别是用于编码整个视频背景信息的Context RNN、用于编码相邻两个事件之间相关性的Correlation RNN、以及用来生成内容描述的Event RNN;
Context RNN:以所有有序事件序列作为每一轮次的输入,在每一轮次的事件描述生成过程当中,将当前事件序列Seqi的所有特征向量在每一时刻timestrap逐个输入,以输入完毕后的Context RNN的隐藏层状态作为当前事件的主题特征表示输入到Event RNN当中参与内容描述生成,并以Event RNN的具有主题关联性质的输出描述作为下一轮次事件生成的Context RNN的输入;
Correlation RNN:结构同Context RNN一致,区别在于模型的输入有所不同,Correlation RNN以相邻两事件的所有向量作为输入,输入完毕后产生一个隐藏层向量状态,作为Event RNN的输入,并且以Event RNN生成充分考虑事件相关性的输出描述作为下一轮次事件生成的Correlation RNN的输入;
Event RNN:将Context RNN、Correlation RNN网络的输出以及当前需要进行内容生成的事件的所有特征向量拼接后作为输入,产生针对当前事件的内容描述语句;
拼接的方式为:在输入特征头部嵌入由Context RNN编码的事件主题特征,中间则是需要进行内容生成的事件的具体特征向量,末尾则是由Corrletaion RNN编码生成的关联性语义特征。
本发明的有益效果是:本发明综合考虑视频的有效内容,针对具有密集事件的视频进行内容理解(DVC,Dense Video Caption),从二维视觉特征,三维视觉特征,音频特征,视频语义特征四个层次分别进行了提取。通过本发明的方法能够对于视频当中的事件进行良好的划分,并进行结构化的特征表达。最终输出主题一致,逻辑关联性强,内容描述完整的描述段落,能够对于整个视频的多个事件实现理解。
附图说明
图1为本发明的视频密集事件内容理解方法的流程图;
图2为本发明的二维视频特征提取网络的结构示意图;
图3为视频动作语义编码流程图;
图4为双向LSTM结构示意图;
图5为有序事件序列生成模块结构示意图;
图6为三栈式视频内容描述生成网络的结构示意图。
具体实施方式
区别于业界仅采用二维或三维视觉特征作为视频的特征向量表达方式,本发明的特征提取方法综合考虑视频的有效内容,从二维视觉特征、三维视觉特征、音频特征、视频语义特征四个层次分别进行了提取。所有提取方法均针对视频内容理解任务进行了相应的自主设计,是视频密集事件内容理解任务相关方法中首次采用多模特征的组合。下面结合附图进一步说明本发明的技术方案。
如图1所示,本发明的一种视频密集事件内容理解方法,包括以下步骤:
S1、对输入视频进行特征提取:分别提取输入视频的二维视觉特征、三维视觉特征、音频特征和语义特征;
本步骤中,利用二维视频特征提取网络提取输入视频的二维视觉特征,二维视频特征提取网络的结构如图2所示,本发明设计的二维视频特征提取网络参考了Resnet残差神经网络的网络结构,为了能够使得模型在对于高维特征进行有效的输出的同时兼顾有效低维特征,在设计时,将模型的整体深度设置为介于Resnet50以及Resnet200这两个对于低维特征和高维特征提取分别有卓越表现的网络深度之间。二维视频特征提取网络由两部分组成:第一部分为卷积网络,第二部分为单层长短期记忆网络;
卷积网络由一系列卷积层Conv1~Con5堆叠而成,其中Conv1层由64个步长为2,大小为7*7的卷积核构成,Conv2、Conv3、Conv4和Con5层分别由3个、16个、36个和3个残差模块构成,残差模块由三个大小为[1×1,3×3,1×1]的卷积核构成(图中卷积核后面的64、256、128、512、1024、2048表示通道数),并且卷积核之间带有短路链接从而完成特征拼接,并在每一层卷积输出之后采用Relu激活函数对输出向量进行非线性激活;并在Con5层卷积完成后输入平均池化层;
以上设计出二维视频特征提取网络会首先在ImageNet数据集上按照千分类任务进行预训练,训练完毕后将移除网络的FC全连接层,得到如图2所示的卷积网络;以平均池化后的4096维特征来作为视频单帧的特征向量。
考虑到后续的三维卷积特征的视频采样方式,对于提取的二维的卷积特征,采用每16帧为一个视频片段为每一个视频片段的容量,具体的做法为:
(1)将视频进行切分,每16帧作为一次视频片段(clip),不足16帧的视频片段补0使其达到16帧;首先进行Resize(重设尺寸),将每帧图片的大小全部变为224×224×3的像素表示,再逐帧送入卷积网络中进行卷积特征提取,对于每一张图片会产生一个大小为4096维的特征作为内容表示;
(2)将每个视频片段的图片按序送入单层长短期记忆网络LSTM中,该LSTM采用的是最基本的LSTM结构,具有1024个隐藏单元,设置LSTM的TimeStep为固定的16,将视频帧全部送入完毕后,以单层长短期记忆网络的隐藏层状态作为表示该16帧的视频片段的向量表示;
(3)将整个视频的所有视频片段依次按照(1)和(2)的方式送入卷积网络和单层长短期记忆网络,将整体视频切分为视频片段特征的向量表示。
作为传统视频的特征表示之一,通过上述的方式在层叠的深层网络下,将视频高维特征进行提取,同时因为LSTM对于具有时序特征的信息的优秀表达能力,既兼顾了对于高维特征的有效提取,又保持了每一个视频片段的时序特性,从而能够有效地提高视频的视觉信息的还原。
本发明采用I3D模型来提取输入视频的三维视觉特征。采用的I3D模型和I3D经典模型完全一致,区别在于预训练的方式不同以及输出尺度的不同。对于视频的RGB流,会首先采用2D-Conv在视频动作数据集kinetics上进行预训练而不是在ImageNet上进行预训练,这是因为再ImageNet数据集上进行预训练的方式是将一张图片重复复制多帧,构成一个视频,这种预训练在后续模型训练时训练相对缓慢,因此本发明选择直接在视频动作数据集kinetics上进行训练,从而减少后续模型的整体收敛时间。训练完毕过后为其扩张时间维度。在模提取特征时会将整个视频按照每16帧一组的方式分成互相不重叠的视频片段送入到网络中,并会产生N个D维向量,其中N的个数取决于整个视频的总帧数,N=16;D是输出特征向量的尺度,在本发明中D=1024。
采用梅尔倒谱系数(MFCC)提取方法提取输入视频的音频特征。MFCC由Davis和Mermelstein共同提出,是一种在语音识别领域极具权威性的音频特征表示方法,MFCC能够极大的模拟人们在现实生活中对于音频信号的感知能力并且能够极大的模拟多个音频信号的重叠产生机制,MFCC本质上提取出来的是声音的频谱包络,能够很好的代表语音的特征信息。值得注意的是帧的长度决定了采样的精度。加窗的目的则是保证音频信号的连续性。在本发明中对于帧的长度设置为20ms,等价对比于二维和三维16张图片为一组的输入,通过计算得出16张图片下的音频帧数为32帧,640ms。
语义特征包含两个部分:视频对象类别语义以及视频动作语义;
视频对象类别语义信息通过将视频片段中的视频对象出现的概率及视频对象的出现频率、视频对象在视频片段中的像素运动速度编码融合到视频内容特征表示当中;具体流程如下:
(1)将视频进行切分,每16帧(16Farmes Per)作为一次视频片段,不足16帧的视频片段补0使其达到16帧;将视频片段依次输入目标检测器,目标检测器产生一组对象的类别标签作为输出,记为
Figure BDA0003542156930000091
并将
Figure BDA0003542156930000092
同字典Dic(字典是训练集自带的,例如ActivityNet数据集自带主谓宾词库)当中的单词进行取交集,得到属于字典内容的视频对象集合
Figure BDA0003542156930000093
目标检测器使用CenterNet网络;本发明在视频对象类别语义特征的提取当中采用的目标检测器是基于CenterNet的实现的,相对于传统采用的Yolo系列的目标检测器来说,CenterNet具有识别精确度更高,速度不输Yolo系列目标检测器的优势,本次采用的CenterNet网络在COCO2014上进行了预训练。
(2)计算视频对象在视频片段出现的平均次数F(oi):
Figure BDA0003542156930000094
其中oi表示取交集后视频对象集合O的第i个视频对象,Lj(oi)表示第j帧中oi出现的次数;N代表每个视频片段的帧数,本发明中N=16;
(3)计算视频对象出现的平均最大概率:上述F(oi)计算了在输入片段当中的平均出现次数,但是并不是在每一帧中都会出现该对象类别,因此有必要对在视频片段中对象出现的概率进行平均统计,来判断一段时间内该对象类别出现的平均概率。在每一帧中统计该视频对象出现的最大概率max(p(oi))(在目标检测器Centernet的网络输出中可以直接得到),将所有帧的最大概率相加并除以帧数,得到视频对象在视频片段中出现的平均最大概率,即:
Figure BDA0003542156930000101
(4)计算视频对象在相邻帧的像素运动速度V(oi):
Figure BDA0003542156930000102
式中,上标z和z+1分别表示当前帧和下一帧,z=1,2,…,N-1;xz、yz分别表示当前帧的横坐标和纵坐标,xz+1、yz+1分别表示下一帧的横坐标和纵坐标,
Figure BDA0003542156930000103
分别表示视频对象在相邻帧x轴和y轴上的运动速度;这里的像素速度的定义和日常生活当中的速率略有不同,像素速度是帧间位移的连续记录,通过记录在当前尺度下相邻帧间的像素位移插值的绝对值来一定程度上反应物体对象的运动速率。若该帧不存在该物体对象,将置为0。
上述平均次数、平均最大概率及像素运动速度是视频对象oi的视频对象类别语义Oi的三个组成部分,具体的定义如下式所示:
Figure BDA0003542156930000104
δ代表视频对象类别语义最后的编码组合,由n个检测出的对象Oi来进行表示;
如图3所示,视频动作语义特征编码的流程细节如下:
(5)采用TV-L1算法对16帧视频片段的每帧图片进行光流图提取,将得到的光流图作为原始帧的新通道,将新通道与原始图片进行连接(Concat)后输入至I3D行为识别卷积预测网络;经过I3D行为识别卷积预测网络后,输出一系列行为标签
Figure BDA0003542156930000105
同视频对象类别语义编码一样,采用交集的方式得到被编码进语义特征的动作集合M,即
Figure BDA0003542156930000106
(6)将动作集合M中的动作信息进行编码,如下式所示:
Figure BDA0003542156930000107
Figure BDA0003542156930000108
表示最终的输出编码形式,由一系列动作概率Pr(M1),Pr(M2),Pr(M3),...,Pr(MQ)组成,Q表示动作集合M中动作总数量;
以上分别对视频对象类别语义特征和视频动作语义特征进行了编码,但是在实际使用这些编码特征时,简单的拼接会使得输出杂乱无章,并且维度不匹配,因此,在提取和编码好视频对象类别语义特征δ和视频动作语义特征
Figure BDA0003542156930000112
后,将两个语义特征进行拼接操作,然后整体送入线性全连接层实现维度变换和进一步整合编码,最后得到一个1024维度的特征向量。
S2、采用基于双向LSTM的双线性注意力机制特征融合方法将S1提取的特征进行融合;
进行注意力机制运算时,有一个核心因素会对注意力机制的性能造成巨大的影响,那就是注意力分数的评判,目前常见的注意力评判函数主要有基于加和的加性评分函数、基于点积的点击评判函数以及双线性模型。本发明采用的特征融合方法仍旧是传统的编解码结构,但是应用了LSTM的变种网络双向LSTM,并且采用双线性评分函数作为注意力机制的打分函数。传统的编解码网络通常采用的都是单向LSTM,但是这种LSTM保存的特征只有本节点以及本节点之前的内容理解信息,因此双向LSTM就被设计出来不仅对前文信息进行利用同样对于后续的信息进行计算,本发明使用的是基本的双向LSTM网络,其结构如图4所示。将步骤S1提取到的二维视觉特征、三维视觉特征、音频特征和语义特征送入双向LSTM网络,计算每种特征的权重值,然后进行权重加和。
双向LSTM的计算过程分为前向计算过程以及反向计算过程,图中的W1、W2分别代表正向计算时和反向计算时t时刻的隐藏层变量与当前输入变量的权重转移矩阵,W3代表正向计算时t时刻的隐藏层变量与t-1时刻的隐藏层变量的权重转移矩阵,W4代表反向计算时t时刻的隐藏层变量与t+1时刻的隐藏层变量的权重转移矩阵。因此在双向LSTM计算单元的隐藏层(隐藏层也可以叫循环核,循环核的个数就是隐藏层层数。循环核可以有两个输入(输入x、上一层的隐藏层状态)和两个输出(输出至下一层的隐藏层状态h、以及实际输出)),会保存两个值来分别进行前向过程的计算以及反向过程的计算,通过这种方式能够极大地提高对于输入特征的理解能力。
基于双向LSTM网络结构,在隐藏层计算中引入基于双线性变换的注意力机制,具体实现方法为:
(1)整合正向特征计算和反向特征计算的隐藏层变量进行拼接,拼接过程表示为:
Figure BDA0003542156930000111
hrt表示t时刻正向计算的隐藏层状态,hlt代表t时刻反向计算的隐藏层状态,F()表示激活函数,通常是Tanh;
(2)计算注意力权重α(t):
α(t)=S(ht-1,q)=SoftMax((Uht-1)T(Vq)) (7)
q代表查询向量,通常和执行的任务强相关,这里的q为经双向LSTM产生的第一个输出;U代表视觉特征的权重转移矩阵,V代表非线性变换特征的权重转移矩阵,T表示转置;
(3)加权求和:经过步骤(2)后,按照公式(8)的计算方式输出一个基于双向LSTM和注意力编码的加权特征向量,作为视频片段的张量表示:
Figure BDA0003542156930000121
F(t)代表在t时刻解码器网络输出的特征向量,具体的计算方式是将编码网络每一个时刻产生的隐藏层状态乘以注意力系数并进行对应求和,得到一个经过加权融合的特征向量;T表示总的时刻,其值与输入的特征数量相同。
将视频按照每16帧为一组先划分为多个视频片段来减少每一轮特征提取的计算量,经过通过步骤S1的多特征提取和S2的多模特征融合后,会将视频整体表示为多个视频片段特征,每一个视频片段的特征表示将由经过注意力机制加权融合的二维、三维、MFCC音频以及视频语义特征组成,并输入到候选事件生成网络当中进行事件生成。
S3、候选事件生成;具体实现方法为:候选事件生成网络由门限循环LSTM构成,它的输入是在每一个时间戳(timestrap)都输入一段长度为16帧的多模融合特征,并每次都以该视频片段作为本次事件的终点事件节点位置,在每次GRU门限循环LSTM计算后,会在这一timestrap输出一个K维的输出向量来标识以当前输入视频片段为事件结束位置时的事件起始节点位置,其中K的数量小于等于已经输入进GRU门限LSTM当中的视频片段数量;通过这种方式将不断地把输入和先前的输出进行匹配,在一次视频输出的流程当中,生成具有界定意义的候选事件。
在全部视频片段输入完毕后会产生非常多的候选事件,但是这些候选事件往往高重叠,高冗余,这也是导致视频内容描述结果输出较差的问题之一。采用非极大值抑制NMS的方式对生成的候选事件进行初筛;产生C个最终的候选事件集合记为P={p1,p2,p3,…,pC},其中的每一个pi都由K×D的向量拼接而成,记为ConF(pi),C是由用户自设的参数,本实施例中C=1000;D是固定的1024维。
S4、有序视频序列生成;
具体实现方法为:采用深度学习的方式对的候选事件集合P={p1,p2,p3,…,pC}中的候选事件数据进行筛选,留下有序低重合的事件,形成一个完整的事件序列对整个视频进行描述;
如图5所示,具体的工作流程如下:
(1)事件候选事件集合输入与编码:将P={p1,p2,p3,…,pC}输入到一个GRU编码网络中,通过将序列P={p1,p2,p3,…,pC}在每一个时刻输入一个事件,当全部输入完毕后,采用GRU编码网络的隐藏层状态作为整个视频片段的抽象表示;
(2)有序事件序列解码生成:通过(1)的编码过程产生的抽象表示作为GRU解码网络的输入,作为GRU解码网络0时刻隐藏层状态;在每一个时刻,GRU解码网络会以上一个时刻的解码网络隐藏层的状态以及上一个时刻解码网络的输出作为本时刻的输入,得到一个概率分布prot,这个概率分布会在所有还能选择的候选事件集合中选择一个(一般选择概率最高的候选事件),作为输出事件,这种过程会往复循环,直到输出事件是一个标识结束的标识符为止,整个循环过程结束,得到Ns个有序事件,这个标识符手工定义称之为pend;整体的编码和解码网络的数学计算公式如下式所示:
Figure BDA0003542156930000131
Figure BDA0003542156930000132
代表着0时刻和t时刻解码网络隐藏层的状态;seq(pl)表示第l个候选事件,seqt-1代表t-1时刻解码网络所选择的事件,它们的结构为[overlap(p),ConF(p)],overlap(p)是仿照Ptr-net设置的一个二进制向量掩码,用来表示该时刻的候选事件是否和上一时刻的候选事件相关,相关设置为1,不相关设置为0,l=1,2,…,L,L表示t时刻能选择的候选事件总数量;关于从事件集合P={p1,p2,p3,…,pC}中在每一时刻选择的方式,采用下式进行计算:
Figure BDA0003542156930000133
(3)通过上述的步骤最终会输出一个有序事件集合seq,其形式为[seq1,seq2,...,seqNs],其中Ns代表最终输出的事件序列的个数;通过本节的有序事件序列生成网络的过滤,可以通过深度学习的方式对于多个候选事件进行筛选,最终生成的结果有序且低冗余,通过基于多模融合特征的丰富信息表达以及GRU单元的时序化优点,来实现充分的序列化事件生成,能够非常直观的减少后续内容理解生成网络的输入以及冗余事件的后处理过程。
S5、利用三栈式视频内容描述生成网络生成针对输入视频的多个描述语句;三栈式视频内容描述生成网络由三个层级网络构成,分别是用于编码整个视频背景信息的上下文或主题RNN(Context RNN)、用于编码相邻两个事件之间相关性的相关性神经网络(Correlation RNN)、以及用来生成内容描述的事件神经网络(Event RNN),如图6所示。
Context RNN:对于任何RNN结构都可以被用来完成对于整个视频中心内容的编码,为了能够再不丢失模型精度的条件下加快整个模型的训练速度,对于Context RNN的结构选用的是门限循环单元结构GRU结构,整个模型采用的是单隐藏层架构,在隐藏中设置隐藏神经单元为1024维度;模型以所有有序事件序列作为每一轮次的输入,在每一轮次的事件描述生成过程当中,将当前事件序列Seqi的所有特征向量在每一时刻timestrap逐个输入,以输入完毕后的Context RNN的隐藏层状态作为当前事件的主题特征表示输入到EventRNN当中参与内容描述生成,并以Event RNN的具有主题关联性质的输出描述作为下一轮次事件生成的Context RNN的输入;
Correlation RNN:本发明设计采用的内容生成网络的最大区别就是相较于SDVC,添加了一层用于编码事件之间关联性语义的网络,这一层网络的结构同Context RNN一致,区别在于模型的输入有所不同,Correlation RNN以相邻两事件的所有向量作为输入,输入完毕后产生一个隐藏层向量状态,作为Event RNN的输入,并且以Event RNN生成充分考虑事件相关性的输出描述作为下一轮次事件生成的Correlation RNN的输入;
Event RNN:以上两层网络分别从事件的主题层次以及事件之间相关性层次进行了编码并产生了对应的输出,因此本网络将Context RNN、Correlation RNN网络的输出以及当前需要进行内容生成的事件的所有特征向量进行拼接后作为输入,产生针对当前事件的内容描述语句。本层网络结构借鉴了SDVC的实现,通过该网络能够对于每一个事件的内容进行很好的输出;采用动态注意力机制以及上下文门结构的内容生成网络TDA-CG,对于最后向量到单词库中的具体映射,采用的是One-Hot类型的编码方式,通过将词向量执行SoftMax之后,得到One-Hot类型的概率分布再从单词库中进行选择,具体的数学公式如式(11)所示:
Figure BDA0003542156930000151
其中p(w|zt)代表生成的单词概率分布,Ww代表TDA-CG内部的可被学习的特征向量,w代表选中的单词,zt代表t时刻的Event RNN输出向量,w'代表词库Dic中的某个单词;
这里有必要对如何将Context RNN和Correlation RNN的输出和当前需要进行内容描述生成的向量进行组合进行解释,传统的解决办法是采用MeanPooling的方式和特征向量进行融合,本发明的拼接方式为:在输入特征头部嵌入由Context RNN编码的事件主题特征,中间则是需要进行内容生成的事件的具体特征向量,末尾则是由Corrletaion RNN编码生成的关联性语义特征,这种拼接思路来源于人们日常生活中的处理方式,首先考虑整件事情,在考虑具体的细节,并去思考当前事情和其他事情之间的关联性,以这种方式达到生成结果的连贯性目标。
改进的全关联强化学习机制,具体的公式如(12)所示:
Figure BDA0003542156930000152
Figure BDA0003542156930000153
代表损失函数;
Figure BDA0003542156930000154
代表事件描述的奖励值,
Figure BDA0003542156930000155
代表采样描述,R代表奖励值,E代表事件,是强化学习领域非常常见的表述;公式中的
Figure BDA0003542156930000156
是一个采样描述集合,这个集合当中的所有描述全部来源于之前在有序事件序列生成网络所产生的拥有Ns个事件的事件序列seq;而
Figure BDA0003542156930000157
则是针对
Figure BDA0003542156930000158
中每一个采样描述的奖励值;在三栈式内容描述生成网络上所生成的
Figure BDA0003542156930000159
进行随机梯度下降,损失函数的随机梯度下降表示为:
Figure BDA00035421569300001510
式中,箭头符号表示随机梯度下降;
Figure BDA00035421569300001511
是针对采样描述
Figure BDA00035421569300001512
网络所生成的描述符合真值的比重;在上述公式中,相对于SDVC的两级奖励机制多一级奖励机制,分别从事件关联性、主题关联性以及事件准确性三个层次对内容描述生成的结果进行奖励,从而能够使得生成的描述性语句相互之间描述同一件事情,并且能够最大程度的保证语句之间的关联性。
对于奖励的设置,参照在图像内容理解应用的强化学习的路线,将数据集当中的视频所具有的真值的候选事件提案作为输入,输出的内容描述作为基准;
Figure BDA0003542156930000161
公式(14)展示了奖励函数的数学构造,整个数学公式也包含三个部分来分别计算并求和得到累积奖励;在计算时,使用两个集合来做奖励对比,第一个集合是由有序事件序列生成网络产生出的一组事件
Figure BDA0003542156930000162
第二个集合则是从真值候选事件(训练数据集里的事件就叫真值事件,同理训练数据集里的事件描述就叫真值描述)当中选出和预测的事件序列IoU值最高(重合度最高)的对应个数的事件,用
Figure BDA0003542156930000163
来表示,并且对应的产生针对真值采样集合的内容描述语句
Figure BDA0003542156930000164
Figure BDA0003542156930000165
代表是真值事件、
Figure BDA0003542156930000166
表示有序事件序列生成网络产生的事件;函数f()是一个能够计算两个内容描述语句或者两组内容描述语句相似度的评判工具;前两部分和SDVC当中的两级奖励机制相同,额外的添加了第三级的强化学习奖励机制,对应于三栈式内容描述生成网络,公式(14)的三个部分将会通过强化学习奖励分数的方式,三栈式内容描述生成网络尽可能的输出和真值时间相似的输出,从而获得更高的分数,以上的三个部分分别由当前的事件内容、当前事件的主题背景、以及当前事件和相邻时间的相似性来计算得出。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (7)

1.视频密集事件内容理解方法,其特征在于,包括以下步骤:
S1、对输入视频进行特征提取:分别提取输入视频的二维视觉特征、三维视觉特征、音频特征和语义特征;
语义特征包含两个部分:视频对象类别语义以及视频动作语义;
视频对象类别语义信息通过将视频片段中的视频对象出现的概率及视频对象的出现频率、视频对象在视频片段中的像素运动速度编码融合到视频内容特征表示当中;具体流程如下:
(1)将视频进行切分,每16帧作为一次视频片段,不足16帧的视频片段补0使其达到16帧;将视频片段依次输入目标检测器,目标检测器产生一组对象的类别标签作为输出,记为
Figure FDA0003779554510000011
并将
Figure FDA0003779554510000012
同字典Dic当中的单词进行取交集,得到属于字典内容的视频对象集合
Figure FDA0003779554510000013
(2)计算视频对象在视频片段出现的平均次数F(oi):
Figure FDA0003779554510000014
其中oi表示取交集后视频对象集合O的第i个视频对象,Lj(oi)表示第j帧中oi出现的次数;N代表每个视频片段的帧数;
(3)计算视频对象出现的平均最大概率:在每一帧中统计该视频对象出现的最大概率max(p(oi)),将所有帧的最大概率相加并除以帧数,得到视频对象在视频片段中出现的平均最大概率,即:
Figure FDA0003779554510000015
(4)计算视频对象在相邻帧的像素运动速度V(oi):
Figure FDA0003779554510000016
式中,上标z和z+1分别表示当前帧和下一帧,z=1,2,…,N-1;xz、yz分别表示当前帧的横坐标和纵坐标,xz+1、yz+1分别表示下一帧的横坐标和纵坐标,
Figure FDA0003779554510000021
分别表示视频对象在相邻帧x轴和y轴上的运动速度;
上述平均次数、平均最大概率及像素运动速度是视频对象oi的视频对象类别语义Oi的三个组成部分,具体的定义如下式所示:
Figure FDA0003779554510000022
δ代表视频对象类别语义最后的编码组合,由n个检测出的对象Oi来进行表示;
视频动作语义特征编码的流程细节如下:
(5)采用TV-L1算法对16帧视频片段的每帧图片进行光流图提取,将得到的光流图作为原始帧的新通道,将新通道与原始图片进行连接后输入至I3D行为识别卷积预测网络;经过I3D行为识别卷积预测网络后,输出一系列行为标签
Figure FDA0003779554510000023
采用交集的方式得到被编码进语义特征的动作集合M,即
Figure FDA0003779554510000024
(6)将动作集合M中的动作信息进行编码,如下式所示:
Figure FDA0003779554510000025
Figure FDA0003779554510000026
表示最终的输出编码形式,由一系列动作概率Pr(M1),Pr(M2),Pr(M3),...,Pr(MQ)组成,Q表示动作集合M中动作总数量;
在提取和编码好视频对象类别语义特征δ和视频动作语义特征
Figure FDA0003779554510000027
后,将两个语义特征进行拼接操作,然后整体送入线性全连接层实现维度变换和进一步整合编码,最后得到一个1024维度的特征向量;
S2、采用基于双向LSTM的双线性注意力机制特征融合方法将S1提取的特征进行融合;
S3、候选事件生成;
S4、有序视频序列生成:采用深度学习的方式对候选时间集合中的候选事件数据进行筛选,留下有序低重合的事件;
S5、利用三栈式视频内容描述生成网络生成针对输入视频的多个描述语句;三栈式视频内容描述生成网络由三个层级网络构成,分别是用于编码整个视频背景信息的ContextRNN、用于编码相邻两个事件之间相关性的Correlation RNN、以及用来生成内容描述的Event RNN;
Context RNN:以所有有序事件序列作为每一轮次的输入,在每一轮次的事件描述生成过程当中,将当前事件序列Seqi的所有特征向量在每一时刻timestrap逐个输入,以输入完毕后的Context RNN的隐藏层状态作为当前事件的主题特征表示输入到Event RNN当中参与内容描述生成,并以Event RNN的具有主题关联性质的输出描述作为下一轮次事件生成的Context RNN的输入;
Correlation RNN:结构同Context RNN一致,区别在于模型的输入有所不同,Correlation RNN以相邻两事件的所有向量作为输入,输入完毕后产生一个隐藏层向量状态,作为Event RNN的输入,并且以Event RNN生成充分考虑事件相关性的输出描述作为下一轮次事件生成的Correlation RNN的输入;
Event RNN:将Context RNN、Correlation RNN网络的输出以及当前需要进行内容生成的事件的所有特征向量拼接后作为输入,产生针对当前事件的内容描述语句;
拼接的方式为:在输入特征头部嵌入由Context RNN编码的事件主题特征,中间则是需要进行内容生成的事件的具体特征向量,末尾则是由Corrletaion RNN编码生成的关联性语义特征。
2.根据权利要求1所述的视频密集事件内容理解方法,其特征在于,所述步骤S1中,利用二维视频特征提取网络提取输入视频的二维视觉特征,二维视频特征提取网络由两部分组成:第一部分为卷积网络,第二部分为单层长短期记忆网络;
卷积网络由卷积层Conv1~Conv5堆叠而成,其中Conv1层由64个步长为2,大小为7*7的卷积核构成,Conv2、Conv3、Conv4和Conv5层分别由3个、16个、36个和3个残差模块构成,残差模块由三个大小为[1×1,3×3,1×1]的卷积核构成,并且卷积核之间带有短路链接从而完成特征拼接,并在每一层卷积输出之后采用Relu激活函数对输出向量进行非线性激活;并在Conv5层卷积完成后输入平均池化层;
对于提取的二维的卷积特征,采用每16帧为一个视频片段为每一个视频片段的容量,具体的做法为:
(1)将视频进行切分,每16帧作为一次视频片段,不足16帧的视频片段补0使其达到16帧;首先进行Resize,将每帧图片的大小全部变为224×224×3的像素表示;再逐帧送入卷积网络进行特征提取,对于每一张图片会产生一个大小为4096维的特征作为内容表示;
(2)将每个视频片段的图片按序送入单层长短期记忆网络中,以单层长短期记忆网络的隐藏层状态作为表示该16帧的视频片段的向量表示;
(3)将整个视频的所有视频片段依次按照(1)和(2)的方式送入卷积网络和单层长短期记忆网络,将整体视频切分为视频片段特征的向量表示。
3.根据权利要求1所述的视频密集事件内容理解方法,其特征在于,所述步骤S1中,采用I3D模型来提取输入视频的三维视觉特征。
4.根据权利要求1所述的视频密集事件内容理解方法,其特征在于,所述步骤S1中,采用梅尔倒谱系数提取方法提取输入视频的音频特征。
5.根据权利要求1所述的视频密集事件内容理解方法,其特征在于,所述步骤S2具体实现方法为:基于双向LSTM网络结构,在隐藏层计算中引入基于双线性变换的注意力机制,具体实现方法为:
(1)整合正向特征计算和反向特征计算的隐藏层变量进行拼接,拼接过程表示为:
Figure FDA0003779554510000041
hrt表示t时刻正向计算的隐藏层状态,hlt代表t时刻反向计算的隐藏层状态,F()表示激活函数;W1、W2分别代表正向计算时和反向计算时t时刻的隐藏层变量与当前输入变量的权重转移矩阵,W3代表正向计算时t时刻的隐藏层变量与t-1时刻的隐藏层变量的权重转移矩阵,W4代表反向计算时t时刻的隐藏层变量与t+1时刻的隐藏层变量的权重转移矩阵;
(2)计算注意力权重α(t):
α(t)=S(ht-1,q)=SoftMax((Uht-1)T(Vq)) (7)
SoftMax()是归一化数学公式;q代表查询向量,为经双向LSTM产生的第一个输出;U代表视觉特征的权重转移矩阵,V代表非线性变换特征的权重转移矩阵,T表示转置;
(3)加权求和:经过步骤(2)后,按照公式(8)的计算方式输出一个基于双向LSTM和注意力编码的加权特征向量,作为视频片段的张量表示:
Figure FDA0003779554510000042
F(t)代表在t时刻解码器网络输出的特征向量;T表示总的时刻。
6.根据权利要求1所述的视频密集事件内容理解方法,其特征在于,所述步骤S3具体实现方法为:候选事件生成网络由门限循环LSTM构成,它的输入是在每一个时间戳都输入一段长度为16帧的多模融合特征,并每次都以该视频片段作为本次事件的终点事件节点位置,在每次GRU门限循环LSTM计算后,会在这一时间戳输出一个K维的输出向量来标识以当前输入视频片段为事件结束位置时的事件起始节点位置,其中K的数量小于等于已经输入进GRU门限LSTM当中的视频片段数量;通过这种方式将不断地把输入和先前的输出进行匹配,在一次视频输出的流程当中,生成具有界定意义的候选事件;
然后采用非极大值抑制的方式对生成的候选事件进行初筛;产生C个最终的候选事件集合,记为P={p1,p2,p3,…,pC},C是由用户自设的参数。
7.根据权利要求1所述的视频密集事件内容理解方法,其特征在于,所述步骤S4具体实现方法为:
(1)事件候选事件集合输入与编码:将P={p1,p2,p3,…,pC}输入到一个GRU编码网络中,通过将序列P={p1,p2,p3,…,pC}在每一个时刻输入一个事件,当全部输入完毕后,采用GRU编码网络的隐藏层状态作为整个视频片段的抽象表示;
(2)有序事件序列解码生成:通过(1)的编码过程产生的抽象表示作为GRU解码网络的输入,作为GRU解码网络0时刻隐藏层状态;在每一个时刻,GRU解码网络以上一个时刻的解码网络隐藏层的状态以及上一个时刻解码网络的输出作为本时刻的输入,得到一个概率分布,这个概率分布会在所有还能选择的候选事件集合中选择一个,作为输出事件;重复解码操作,直到输出事件是一个标识结束的标识符为止,整个循环过程结束,得到Ns个有序事件;
(3)通过上述的步骤最终会输出一个有序事件集合seq,其形式为[seq1,seq2,...,seqNs]。
CN202210241438.3A 2022-03-11 2022-03-11 视频密集事件内容理解方法 Active CN114627413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210241438.3A CN114627413B (zh) 2022-03-11 2022-03-11 视频密集事件内容理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210241438.3A CN114627413B (zh) 2022-03-11 2022-03-11 视频密集事件内容理解方法

Publications (2)

Publication Number Publication Date
CN114627413A CN114627413A (zh) 2022-06-14
CN114627413B true CN114627413B (zh) 2022-09-13

Family

ID=81901988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210241438.3A Active CN114627413B (zh) 2022-03-11 2022-03-11 视频密集事件内容理解方法

Country Status (1)

Country Link
CN (1) CN114627413B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929092A (zh) * 2019-11-19 2020-03-27 国网江苏省电力工程咨询有限公司 一种基于动态注意力机制的多事件视频描述方法
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、系统、装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388900B (zh) * 2018-02-05 2021-06-08 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN109189989B (zh) * 2018-07-23 2020-11-03 北京市商汤科技开发有限公司 一种视频描述方法及装置、计算机设备和存储介质
CN109344288B (zh) * 2018-09-19 2021-09-24 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109960747B (zh) * 2019-04-02 2022-12-16 腾讯科技(深圳)有限公司 视频描述信息的生成方法、视频处理方法、相应的装置
CN110826429A (zh) * 2019-10-22 2020-02-21 北京邮电大学 一种基于景区视频的旅游突发事件自动监测的方法及系统
CN111368142B (zh) * 2020-04-15 2023-06-06 华中科技大学 一种基于生成对抗网络的视频密集事件描述方法
CN112115849A (zh) * 2020-09-16 2020-12-22 中国石油大学(华东) 基于多粒度视频信息和注意力机制的视频场景识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929092A (zh) * 2019-11-19 2020-03-27 国网江苏省电力工程咨询有限公司 一种基于动态注意力机制的多事件视频描述方法
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、系统、装置

Also Published As

Publication number Publication date
CN114627413A (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN111611377B (zh) 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN107979764B (zh) 基于语义分割和多层注意力框架的视频字幕生成方法
CN112860888B (zh) 一种基于注意力机制的双模态情感分析方法
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN112487182A (zh) 文本处理模型的训练方法、文本处理方法及装置
CN113158665A (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN109711465A (zh) 基于mll和asca-fr的图像字幕生成方法
CN114186568B (zh) 一种基于关系编码和层次注意力机制的图像段落描述方法
CN112819833A (zh) 一种大场景点云语义分割方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114627162A (zh) 一种基于视频上下文信息融合的多模态密集视频描述方法
CN115203409A (zh) 一种基于门控融合和多任务学习的视频情感分类方法
CN115358289A (zh) 一种融合多类型知识库和推理技术的文本生成算法
CN110852066A (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN115169472A (zh) 针对多媒体数据的音乐匹配方法、装置和计算机设备
CN114049501A (zh) 融合集束搜索的图像描述生成方法、系统、介质及设备
CN113642630A (zh) 基于双路特征编码器的图像描述方法及系统
CN117634459A (zh) 目标内容生成及模型训练方法、装置、系统、设备及介质
CN113554040A (zh) 一种基于条件生成对抗网络的图像描述方法、装置设备
CN113239678A (zh) 一种面向答案选择的多角度注意力特征匹配方法及系统
CN113297374A (zh) 一种基于bert和字词特征融合的文本分类方法
CN115422388B (zh) 一种视觉对话方法及系统
CN114627413B (zh) 视频密集事件内容理解方法
CN112364160A (zh) 一种结合ALBERT和BiGRU的专利文本分类方法
CN116226322A (zh) 一种基于对抗学习和支撑向量机融合的蒙汉情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant