CN107038221B - 一种基于语义信息引导的视频内容描述方法 - Google Patents

一种基于语义信息引导的视频内容描述方法 Download PDF

Info

Publication number
CN107038221B
CN107038221B CN201710174883.1A CN201710174883A CN107038221B CN 107038221 B CN107038221 B CN 107038221B CN 201710174883 A CN201710174883 A CN 201710174883A CN 107038221 B CN107038221 B CN 107038221B
Authority
CN
China
Prior art keywords
vector
feature vector
semantic feature
frame
time node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710174883.1A
Other languages
English (en)
Other versions
CN107038221A (zh
Inventor
颜成钢
涂云斌
冯欣乐
李兵
楼杰栋
彭冬亮
张勇东
王建中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201710174883.1A priority Critical patent/CN107038221B/zh
Publication of CN107038221A publication Critical patent/CN107038221A/zh
Application granted granted Critical
Publication of CN107038221B publication Critical patent/CN107038221B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/424Syntactic representation, e.g. by using alphabets or grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Abstract

本发明一种基于语义信息引导的视频内容描述方法。本发明包括如下步骤:步骤(1)对视频格式进行预处理;步骤(2)建立用于引导的语义信息;步骤(3)计算语义特征向量[Ai,XMS(i)]的权重
Figure DDA0001252111150000011
步骤(4)对语义特征向量[Ai,XMS(i)]进行解码;步骤(5)对视频描述模型进行测试。本发明通过利用faster‑rcnn模型,能快速检测每帧图像上的关键语义信息,并加入到原有用CNN提取的特征中,使得每个时间节点输入LSTM网络的特征向量具有语义信息,从而在解码过程中,既保证视频内容时空关联性,又提高了语言描述的准确率。

Description

一种基于语义信息引导的视频内容描述方法
技术领域
本发明属于计算机视觉与自然语言处理技术领域,涉及一种基于语义信息引导的视频内容描述方法。
背景技术
一、视频内容描述方面
之前在视频内容描述方面的研究工作主要分为两个方向:
1.基于特征识别与语言模板填充的方法。具体而言,该方法分为两个步骤,首先将视频按照一定的时间间隔转化成具有连续帧的图像集合;其次,使用一系列预先在大规模的图像训练集中训练好的特征分类器,将视频中的静态特征与动态特征分类标记,具体而言,这些特征可细分为实体、实体属性、实体间的交互关系以及场景等;最后,根据人类语言的特点制定一个“主语,谓语,宾语”的语言模板,在按分类器估计出的概率大小将概率最大的特征填充到语言模版中。
2.基于深度学习的编码-解码方法。该研究方法来源于早前的图像内容描述中,其首先利用预先训练好卷积神经网络(CNN)提取图像特征;其次将其编码成一个适当维数大小的向量形式;最后利用递归神经网络(RNN)通过在大规模图像训练集中学习后,将编码后的向量进行解码,最终转化为一个大小为V的向量,V代表候选单词的维度,并运用多分类回归softmax从中挑选概率值最大索引,循环t个时间节点,直到返回的索引为0停止循环(因人为规定0序号索引为停止字符),最后将由索引组成的序列对应到事先准备好的字典中去,每个字典中都标注了每个索引所对应的单词。所以,生成的单词序列和字典中索引值相同即输出对应单词,如果在字典中无对应索引,则输出UNK(未知),遇到0(eos)则代表结束,对比t次即可生成此图像的描述。所以,利用此研究基础,在视频描述中,同样利用预先训练好的卷积神经网络(CNN)将视频转化后的每一帧图像编码成一个适当维数的向量;最后同样利用递归神经网络(RNN)将这些向量解码成一系列候选单词并将其组合成视频描述。
二、语义信息引导方面
语义信息引导目前的研究主要集中在图像内容描述中,具体而言,语义信息在这里主要指与待描述的图像内容和描述语言最为相关的额外信息,该信息可以通过近邻域检索的方式,通过从图像训练集中搜索出与待描述图像最相似的几幅图像,按相似度排名(例如取相似度最高的十幅图像),并将其对应的人工描述用于递归神经网络的解码过程,作为解码过程的引导,目的是使得生成的语言描述更符合人类语言习惯。
对于视频描述现有的方法而言,第一种基于特征识别与语言模板填充的方法不仅需要训练大量的特征分类器用于特征识别,而且在将这些特征填充进语言模板时,容易导致生成的语言描述不完整或不符合人类语言习惯,也就是该使用哪些特征以及这些特征怎么有效结合是导致生成的语言描述正确率很低的关键因素。对于第二种方法,虽然其是目前该研究领域中最为先进也是准确率最高的方法,但是在如何将一系列编码后的图像特征向量融合成一个固定的、具有时间序列的向量仍存在较大的问题,例如:在现有的研究中,有人在融合过程中仅简单的对这些向量集合取平均值,这显然忽略了视频内容中事件间的时空关联性;另外,有人为了保留时间序列引入了注意力模型,即对所有的向量计算权重大小,在特定的时间点只解码权重最大的向量,但该方法并没有很好地区分出向量中的动态特征和静态特征等等。所以在视频描述方面现有研究方法仍然具有较大的改进空间。
对于语义信息引导方面,目前相关研究主要集中在图像描述方面,并且在提升描述准确度方面取得了显著的效果。所以该方法在与视频描述有效结合上具有较大的研究空间。
发明内容
为了克服现有视频内容描述领域中研究方法繁琐、多种特征融合时造成的时序混乱以及进一步提高描述的准确率,本发明拟在上述两种方法的基础上新提出一种基于语义信息引导的视频内容描述方法。本发明在解码过程的每一个时间节点添加关联度最高的语义信息作为引导,目的是使得生成的语言描述更为准确。
本发明解决上述技术问题所采用的技术方法是:
首先利用预先训练好的卷积神经网络(CNN),如GoogleNet、VGG16等,此类预先在ImageNet和MSCOCO等图片集上训练好的神经网络模型在git网站可直接下载,利用这些神经网络模型可将待处理视频中的每一帧图像和连续的动作进行特征提取,并级联成固定维度的向量;其次利用快速区域目标检测(faster-rcnn)模型,该方法引用相关论文资料,技术原理不再本发明研究范围内。将faster-rcnn模型预先在MS COCO上训练,可快速检测80个名词物体。利用该检测模型可以在每帧图像上进行目标检测,并形成81维的向量(80个物体+1个背景),每个向量的值代表了该帧图像上可能存在80个物体中任何一个的概率;然后将用faster-rcnn提取出的81维向量和原有的CNN+3-D CNN提取的特征向量级联,形成一个1457维的语义特征向量;最后利用基于长短期记忆的递归神经网络(LSTM)将每一帧编码后的语义特征向量解码为单词序列,通过beam search的方法从单词序列中选出损失函数最小的语言描述作为该视频内容的语言描述。
本发明解决其技术问题所采用的技术方案具体包括以下步骤:
步骤(1)对视频格式进行预处理。
1-1.将待描述视频转换为连续帧的图像集合;利用预先训练好的卷积神经网络对每一帧静态图像进行特征提取,并取GoogleNet模型最后一个全连接层的1024维作为一个固定维数的向量X={x1,x2,…,x1024},因为每一个待描述视频的总帧数不一样,为了后续操作方便,统一将所有帧均分成K组,并取每组的第一帧,所以最后将形成维数为K*1024的向量。
1-2.采用预先训练好的三维卷积神经网络,对连续动作帧提取其行为特征,并取三维卷积神经网络模型最后一个全连接层的352维向量,作为一个固定维数的向量X′={x1′,…,x′352};每个待描述视频只做一次连续动作帧提取,所以每个待描述视频的行为特征最后可处理成1×352维的向量。
1-3.利用级联的方法将静态图像提取的特征与连续动作帧提取的行为特征进行融合,融合后的每帧图像级联为1×1376维的向量XMS(i)。,计算方法如式(1)所示:
XMS(i)=θ([XM(i),XS(i)]T)
其中,XM(i)表示连续动作帧提取的行为特征,XS(i)表示静态图像提取的特征,[XM(i),XS(i)]T表示第i帧静态图像提取的特征和连续动作帧提取的行为特征进行级联。
所述的三维卷积神经网络3-D CNN,如C3D等,训练方法在git网站上有相应的开源代码供参考;
所述的行为特征形式包括HoG,HoF,MBH;
步骤(2)建立用于引导的语义信息。
2-1.为了提高语义信息的准确率,利用深度学习参数估计的方法在最大的图片集合MS COCO上统计出的80个名词物体;通过预先在MS COCO图片集上训练的faster-rcnn模型对每一帧图像进行目标检测;
2-2.通过目标检测对步骤(1)中得到的每帧图像提取语义信息向量{Ai}其中,i为自然数,且i小于等于80;
所述的语义信息向量{Ai}有81维,代表了一个图片背景和80个名词物体,用于后续作为语义信息引导。
2-3.将得到的语义信息向量{Ai}与步骤1-3融合后的1376维特征向量级联,形成一个新的1457维的语义特征向量[Ai,XMS(i)],并将该语义特征向量[Ai,XMS(i)]添加到LSTM的每个时间节点中,并将该语义特征向量[Ai,XMS(i)]解码为单词。
步骤(3)计算语义特征向量[Ai,XMS(i)]的权重
Figure BDA0001252111130000041
每个待描述视频有K帧语义特征向量,但针对每个时间节点只需要添加一帧语义特征向量,所以需要分别计算出每个时间节点K帧图像中语义特征向量[Ai,XMS(i)]的权重,用于后续解码中选出权重最大也就是和当前时间节点视频内容最相关的一帧图像。
步骤(4)对语义特征向量[Ai,XMS(i)]进行解码。
在解码过程中,利用步骤(3)中计算出的语义特征向量的权重,计算出每个时间节点应选择的第i帧语义特征向量,即
Figure BDA0001252111130000042
并结合人类给出的句子描述中的每个单词,在每个时间节点将特征和单词依次加入到LSTM网络中。
因为在视频描述模型训练阶段,是需要添加人类句子描述作为指导,所以总的训练节点是已知的,即人类描述句子的长度。整个训练过程是按照LSTM中三个门和cell的计算来不断更新隐藏状态ht,训练L个时间节点,L表示该视频人类句子描述的长度,所以最后会得到L个ht。将其从LSTM网络中输出到前馈神经网络中,通过施加激活函数将其转化为R*V维的向量,R代表LSTM网络的维度,V代表候选单词维度,最后利用softmax函数的多分类方法,从V选择概率最高的那一维的索引,对应到事先准备好的字典中,即可选择出每个时间节点应生成的单词。因为训练阶段描述句子已知,所以目标函数是最大化生成单词的正确率,也就是使得损失函数最小,所以通过梯度下降算法更新所需的训练的参数直到损失函数最小。
步骤(5)对视频描述模型进行测试。
测试阶段,因为描述句子的内容和长度是未知的,所以运用beam search的方法,设定搜索范围k,在第一个时间节点设定初始单词索引为-1(即是一个零向量),并输入到第一个时间节点,计算出当前状态h0,并根据h0和softmax函数算出当前节点可能产生的k个单词索引,并将该k个单词继续加入到下一个时间节点中,计算下一个时间节点可能产生的k个单词并和上一节点的对应单词组成序列。如果在某一时刻,其中一个由ki单词开头的序列搜索到索引为0的单词,则该序列结束搜索,搜索范围也减少为k-1。直到最后第ki个序列也搜索到索引为0的单词,则整个beam search过程结束,在k个句子中选择损失最小的一句,将其每一个索引对应到事先准备好的字典中,对应输出相应单词,如果没有对应,则输出UNK(未知),如果对应为0,则输出<eos>,即句子结束。
本发明的有益效果:
相比于现有的视频内容描述方法,通过利用faster-rcnn模型,能快速检测每帧图像上的关键语义信息,并加入到原有用CNN提取的特征中,使得每个时间节点输入LSTM网络的特征向量具有语义信息,从而在解码过程中,既保证视频内容时空关联性,又提高了语言描述的准确率。
附图说明
图1为本发明的实现流程图;
图2为本发明设计的语义信息引导示意图。
具体实施方式
以下结合附图及实施例,对本发明进行进一步的详细说明。
本发明提出的一种基于语义信息引导的视频内容描述的方法,通过在原有的用CNN和3-D CNN提取的特征向量中加入语义信息,来提高描述的准确性。首先利用预先训练好的卷积神经网络(CNN)将每一帧图像的静态特征和连续的动作如:接电话,踢球等进行特征提取,并级联成固定维度的向量;其次利用快速区域目标检测(faster-rcnn)模型,该方法引用相关论文资料,技术原理不再本发明研究范围内。将faster-rcnn模型预先在MSCOCO上训练,可快速检测80个名词物体。利用该检测模型可以在每帧图像上进行目标检测,并形成81维的向量(80个物体+1个背景),每个向量的值代表了该帧图像上可能存在80个物体中任何一个的概率;然后将用faster-rcnn提取出的81维向量和原有的CNN+3-D CNN提取的特征向量级联,形成一个1457维的语义特征向量;最后利用基于长短期记忆的递归神经网络(LSTM)将每一帧编码后的语义特征向量解码为单词序列,通过beam search的方法从单词序列中选出损失函数最小的作为该视频内容的语言描述,实施流程如图1所示。本发明所述方法在视频内容描述模型的训练和测试过程中具体包括以下步骤:
步骤(1)对视频格式进行预处理。首先将待描述视频按照一定的时间间隔转化为一系列图像集合,利用预先训练好的卷积神经网络对每一帧图像进行特征提取,并分别处理成固定维数的向量(x1,x2,…,xn)。例如,某一段视频共280帧,可以将其均分成28块(某些视频可能存在均分后的28块中,每一块的帧数不相同,但这不影响实验结果),并取每一块的第一帧,所以该视频可以转化为28张连续的图片,每一帧图像缩放为256*256像素,并裁剪为227*227像素。其次利用预先在1.2M图像分类训练集ImageNet和MS COCO上训练好的GoogleNet卷积神经网络模型对28张图片进行特征提取,并取该卷积神经网络最后一个全连接层1024维的向量,即X={x1,x2,…,x1024},所以每个视频的静态特征最后可处理成一个28×1024维的向量。对于视频中的连续动作,同样利用预先训练好的三维卷积神经网络(3-D CNN)建立高层语义代表,用于将短的连续帧序列概括和储存为局部动态特征,同样取3-DCNN最后一个全连接层352维的向量,即X′={x1′,…,x′352},每个视频只做一次动态特征提取,所以每个视频的动态特征最后可处理成1×352维的向量。最后,为了将静态图像特征和连续动作特征进行融合,可利用级联的方法,将每帧图像级联为1×1376维的向量,计算方法如式(1)所示:
XMS(i)=θ([XM(i),XS(i)]T) (1)
其中,XM(i)表示连续动作帧提取的行为特征,XS(i)表示静态图像提取的特征,[XM(i),XS(i)]T表示第i帧静态图像提取的特征和连续动作帧提取的行为特征进行级联。
步骤(2)建立用于引导的语义信息。为了提高语义信息的准确率,利用深度学习参数估计的方法,利用现在最大的图片集合MS COCO上统计出的80个名词物体,利用预先在MSCOCO图片集上训练faster-rcnn模型,可在每一帧图像上进行目标检测,目的是从步骤(1)中得到的每帧图像中提取语义信息{Ai}(i=80),该语义信息有81维,代表了一个图片背景和80个名词物体,用于后续作为语义信息引导。因为faster-rcnn在每张图片上最多300个区域做目标检测,即每张图片检测过后会生成一个q×81维度的向量(q代表检测的区域数量),所以为了后续计算的统一,通过对每帧图像上q×81的向量做平均处理形成1×81维的语义信息向量Ai,最后,将得到的Ai与原有的每帧1376维向量级联,形成一个新的1×1457维的语义特征向量[Ai,XMS(i)],由此在原有的CNN和3-D CNN特征中加入了语义信息引导。最后,每个视频会形成28×1457维度的向量,因为要保证视频内容的时间关联性,所以需要根据前面生成的词语,从28帧图像中选出一个符合当前时间节点生成单词所需要的语义特征向量,将其添加到当前时间节点中,该向量
Figure BDA0001252111130000071
的计算方法如式(2)所示:
Figure BDA0001252111130000072
其中,[Ai,XMS(i)]表示第i帧图像的语义信息向量Ai和CNN+3-D CNN特征向量XMS(i)级联形成的语义特征向量,
Figure BDA0001252111130000081
表示第t个时间节点上第i帧语义特征向量[Ai,XMS(i)]的权重,加入权重的目的是在28帧图像中,选择出与每个时间节点关联度最大的一帧语义特征向量,加入到LSTM网络中。权重
Figure BDA0001252111130000082
的计算方法将会在步骤(3)中提到。
步骤(3)计算语义特征向量[Ai,XMS(i)]的权重
Figure BDA0001252111130000083
在每个时间节点,每帧图像中语义信息Ai和CNN+3-D CNN特征级联后,新形成的语义特征向量[Ai,XMS(i)]的权重计算方法如式(3)、(4)所示:
Figure BDA0001252111130000084
Figure BDA0001252111130000085
其中,wT,We,Uv表示训练参数,
Figure BDA0001252111130000086
是每个时间节点每一帧图像语义特征向量的值,
Figure BDA0001252111130000087
是每帧语义特征向量值在28帧语义特征向量中的比重,即为该语义特征向量的权重。
步骤(4)用于将前面的语义特征向量进行解码。在解码过程中,利用式(3)和(4)中计算出的语义特征向量的权重代入式(2)中,计算出每个时间节点应选择的第i帧语义特征向量,即
Figure BDA0001252111130000088
并结合人类给出的句子描述中的每个单词,在每个时间节点将特征和单词依次加入到LSTM网络中。因为在训练视频描述模型训练阶段,是需要添加人类句子描述作为指导,所以总的训练节点是已知的,即人类描述句子的长度。整个训练过程是按照LSTM中三个门和cell的计算来不断更新隐藏状态ht,训练L个时间节点,L表示该视频人类句子描述的长度,所以最后会得到L个ht。根据输入到LSTM每一个神经单元信息的改变,本发明对每一个时间点的it,Ot,ft,gt,ct,ht的基础公式做出相应改进,每一个时间节点的隐藏状态ht的计算方法如式(5)-(9)所示:
Figure BDA0001252111130000089
Figure BDA00012521111300000810
Figure BDA00012521111300000811
Figure BDA00012521111300000812
ct=ft⊙ct-1+it⊙gt (9)
ht=ot⊙tanh(ct)
在每个时间节点将得到一个隐藏状态ht,其储存了之前时间节点产生的句子信息,将其从LSTM网络中输出到前馈神经网络中,通过施加激活函数将其转化为R*V维的向量,R代表LSTM网络的维度,V代表候选单词维度,最后利用softmax函数的多分类方法,从V中选择概率最高的那一维的索引,对应到事先准备好的字典中,即可选择出每个时间节点应生成的单词。因为训练阶段描述句子已知,所以不需要生成句子,目标函数是最大化生成单词的正确率,也就是使得损失函数最小,损失函数计算方法如式(10)所示:
Figure BDA0001252111130000091
其中,m表示训练的样本数,所以E是每一批训练样本中的平均损失函数,
Figure BDA0001252111130000092
是所有训练的参数集合。
通过梯度下降算法更新所有训练的参数直到损失函数最小,计算方法如式(11)、(12)所示:
Figure BDA0001252111130000093
Figure BDA0001252111130000094
其中,wk,bk代表第k个训练参数,m表示每一批训练的样本,η表示学习效率(一般取0.001),n表示n个参数。
步骤(5)的测试阶段,在该阶段中,不会传入人类描述句子,描述句子的内容和长度是未知的。训练后的视频内容描述模型运用beam search的方法,设定搜索范围k,在第一个时间节点设定初始单词索引-1(即零向量)输入到第一个时间节点,计算出当前状态h0,并根据h0和softmax函数算出当前节点可能产生的k个单词索引,并将该k个单词继续加入到下一个时间节点中,计算下一个时间节点可能产生的k个单词并和上一节点的对应单词组成序列。在大小为V的候选单词中每个单词的概率计算公式如式(13)所示:
Figure BDA0001252111130000101
其中,ht代表当前节点的隐藏状态,yt-1代表前一个时间节点由beam search搜索到的概率最大单词。
利用式(13)选出概率最大的k个单词索引,并添加到下一个时间节点中继续计算。如果在接下来的时间节点中,某一个由ki单词开头的序列搜索到索引为0的单词,则该序列结束搜索,搜索范围也减少为k-1。直到最后第ki个序列也搜索到索引为0的单词,则整个beam search过程结束。随后,在k个句子中选择累计损失最小的一句,将其每一个索引对应到事先准备好的字典中,对应输出相应单词,如果没有对应,则输出UNK(未知),如果对应为0,则输出<eos>,即句子结束。
步骤(6)是对测试阶段生成的句子使用当前主流的机器评价方式进行打分,该方法主要涉及bleu,meteor,cidEr等,该方法原理不在本发明技术范围内。根据评分结果,可对训练阶段初始参数和迭代次数做修改。
实施实例
下面结合图2,给出视频内容描述具体训练和测试实施实例,详细计算过程如下:
(1)某一段视频共280帧,可以将其均分成28块,并取每一块的第一帧,所以该视频可以转化为28张连续的图片;
(2)按照式(1)所列方法,利用预先训练好的卷积神经网络分别提取出28张图片中的静态特征以及整个视频的动态特征,并利用级联的方式将二者融合;
(3)利用预先训练好的faster-rcnn对28张图片进行快速目标检测,形成28个81维的语义信息向量;
(4)将每帧的语义信息向量和原有用CNN+3-D CNN提取出的特征向量级联,形成1457维的语义特征向量。按照式(3)、(4)所列方法,计算出每个语义特征向量的权重
Figure BDA0001252111130000102
(5)按照(5)-(9)所列方法,在解码过程中的每个时间节点依次加入语义特征向量[Ai,XMS(i)]和人类句子描述,计算每一个时间节点的隐藏状态ht,第一个时间节点的h0设为0;
(6)将LSTM网络中每个时间节点得到的ht输入到前馈神经网络,施加激活函数将其转化为V=20000维的向量,按照(10)—(12)所列方法,利用随机梯度下降的方法使得损失函数最小,并求解出模型训练过程中的最佳参数集合;
(7)在模型测试阶段,不会传入人类描述,训练后的视频描述模型利用beamsearch的方法,设定搜索宽度为5,第一个单词索引设为-1(即零向量),将其代入(5)—(8)中计算每个时间节点的ht以及权重。根据式(13)选出概率最大的五个单词索引,和ht一起传入下一个时间节点继续搜索下5个可能单词。
(8)每当新一个单词出现索引0,即代表结束符<EOS>时,则从搜索队列中去除,将其添加到候选句子队列中,同时搜索宽度减1。直到搜索宽度变为1且最后一个队列也搜索到索引为0的单词,则整个beamsearch过程结束。从5个候选句子队列中选出损失最小的一句作为该视频的描述。
(9)根据机器翻译评价方法如bleu,meteor等对于步骤(8)中得到的句子进行评分,根据评分结果的优劣确定或调整视频内容描述模型的参数。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (1)

1.一种基于语义信息引导的视频内容描述方法,其特征在于包括如下步骤:
步骤(1)对视频格式进行预处理;
步骤(2)建立用于引导的语义信息;
步骤(3)计算语义特征向量[Ai,XMS(i)]的权重
Figure FDA0002592544560000011
步骤(4)对语义特征向量[Ai,XMS(i)]进行解码;
步骤(5)对视频描述模型进行测试;
步骤(1)所述的对视频格式进行预处理,具体如下:
1-1.将待描述视频转换为连续帧的图像集合;利用预先训练好的卷积神经网络对每一帧静态图像进行特征提取,并取GoogleNet模型最后一个全连接层的1024维作为一个固定维数的向量X={x1,x2,…,x1024},因为每一个待描述视频的总帧数不一样,为了后续操作方便,统一将所有帧均分成K组,并取每组的第一帧,所以最后将形成维数为K*1024的向量;
1-2.采用预先训练好的三维卷积神经网络,对连续动作帧提取其行为特征,并取三维卷积神经网络模型最后一个全连接层的352维向量,作为一个固定维数的向量X′={x′1,…,x′352};每个待描述视频只做一次连续动作帧提取,所以每个待描述视频的行为特征最后可处理成1×352维的向量;
1-3.利用级联的方法将静态图像提取的特征与连续动作帧提取的行为特征进行融合,融合后的每帧图像级联为1×1376维的向量XMS(i),计算方法如式(1)所示:
XMS(i)=[XM(i),XS(i)] (1)
其中,XM(i)表示连续动作帧提取的行为特征,XS(i)表示静态图像提取的特征,[XM(i),XS(i)]表示第i帧静态图像提取的特征和连续动作帧提取的行为特征进行级联;
步骤(2)所述的建立用于引导的语义信息,具体建立过程如下:
2-1.利用深度学习参数估计的方法在最大的图片集合MS COCO上统计出的80个名词物体;通过预先在MS COCO图片集上训练的faster-Fcnn模型对每一帧图像进行目标检测;
2-2.通过目标检测对步骤(1)中得到的每帧图像提取语义信息向量{Ai}其中,i为自然数,且i小于等于80;
所述的语义信息向量{Ai}有81维,代表了一个图片背景和80个名词物体,用于后续作为语义信息引导;
2-3.将得到的语义信息向量{Ai}与步骤1-3融合后的1376维特征向量级联,形成一个新的1457维的语义特征向量[Ai,XMS(i)],并将该语义特征向量[Ai,XMS(i)]添加到LSTM的每个时间节点中,并将该语义特征向量[Ai,XMS(i)]解码为单词;每个时间节点应选择的第i帧语义特征向量
Figure FDA0002592544560000021
的计算方法如式(2)所示:
Figure FDA0002592544560000022
其中,[Ai,XMS(i)]表示第i帧图像的语义信息向量Ai和卷积神经网络及3D卷积神经网络提取的特征向量XMS(i)级联形成的语义特征向量,
Figure FDA0002592544560000023
表示第t个时间节点上第i帧语义特征向量[Ai,XMS(i)]的权重,加入权重的目的是在K帧图像中,选择出与每个时间节点关联度最大的一帧语义特征向量,加入到LSTM网络中;
步骤(3)所述的计算语义特征向量[Ai,XMS(i)]的权重
Figure FDA0002592544560000024
具体计算过程如下:
每个待描述视频有K帧语义特征向量,但针对每个时间节点只需要添加一帧语义特征向量,所以需要分别计算出每个时间节点K帧图像中语义特征向量[Ai,XMS(i)]的权重,用于后续解码中选出权重最大也就是和当前时间节点视频内容最相关的一帧图像,语义特征向量[Ai,XMS(i)]的权重计算方法如式(3)、(4)所示:
Figure FDA0002592544560000025
Figure FDA0002592544560000026
其中,wT,We,Ue表示训练参数,
Figure FDA0002592544560000027
是每个时间节点每一帧图像语义特征向量的值,
Figure FDA0002592544560000028
是每帧语义特征向量值在K帧语义特征向量中的比重,即为该语义特征向量的权重;
步骤(4)所述的对语义特征向量[Ai,XMS(i)]进行解码的过程如下:
利用式(3)和(4)中计算出的语义特征向量的权重代入式(2)中,计算出每个时间节点应选择的第i帧语义特征向量,即
Figure FDA0002592544560000031
并结合人类给出的句子描述中的每个单词,在每个时间节点将特征和单词依次加入到LSTM网络中;因为在训练视频描述模型训练阶段,是需要添加人类句子描述作为指导,所以总的训练节点是已知的,即人类描述句子的长度;整个训练过程是按照LSTM中三个门和cell的计算来不断更新隐藏状态ht,训练L个时间节点,L表示该视频人类句子描述的长度,所以最后会得到L个ht;根据输入到LSTM每一个神经单元信息的改变,对每一个时间点的it,ot,ft,gt,ct,ht的基础公式做出相应改进,每一个时间节点的隐藏状态ht的计算方法如式(5)-(9)所示:
Figure FDA0002592544560000032
Figure FDA0002592544560000033
Figure FDA0002592544560000034
Figure FDA0002592544560000035
ct=ft⊙ct-1+it⊙gt (9)
ht=ot⊙tanh(ct)
在每个时间节点将得到一个隐藏状态ht,其储存了之前时间节点产生的句子信息,将其从LSTM网络中输出到前馈神经网络中,通过施加激活函数将其转化为R*V维的向量,R代表LSTM网络的维度,V代表候选单词维度,最后利用softmax函数的多分类方法,从V中选择概率最高的那一维的索引,对应到事先准备好的字典中,即可选择出每个时间节点应生成的单词;目标函数是最大化生成单词的正确率,也就是使得损失函数最小,损失函数计算方法如式(10)所示:
Figure FDA0002592544560000036
其中,m表示训练的样本数,所以E是每一批训练样本中的平均损失函数,θ是所有训练的参数集合;p()表示表示生成第t个目标单词yt的概率;
通过梯度下降算法更新所有训练的参数直到损失函数最小,计算方法如式(11)、(12)所示:
Figure FDA0002592544560000041
Figure FDA0002592544560000042
其中,wk,bk代表第k个训练参数,m表示每一批训练的样本,η表示学习效率,n表示n个参数;
步骤(5)所述的对视频描述模型进行测试,具体如下:
测试阶段,因为描述句子的内容和长度是未知的,训练后的视频内容描述模型运用beam search的方法,设定搜索范围q,在第一个时间节点设定初始单词索引为-1输入到第一个时间节点,即将零向量输入到第一个时间节点;计算出当前状态h0,并根据h0和softmax函数算出当前节点可能产生的q个单词索引,并将该q个单词继续加入到下一个时间节点中,计算下一个时间节点可能产生的q个单词并和上一节点的对应单词组成序列;在大小为V的候选单词中每个单词的概率计算公式如式(13)所示:
Figure FDA0002592544560000043
其中,ht代表当前节点的隐藏状态,yt-1代表前一个时间节点由beam search搜索到的概率最大单词;
每当新一个单词出现索引0,则从搜索队列中去除,将其添加到候选句子队列中,同时搜索宽度减1;直到搜索宽度变为1且最后一个队列也搜索到索引为0的单词,则整个beamsearch过程结束;从q个候选句子队列中选出损失函数最小的一句作为该视频的描述。
CN201710174883.1A 2017-03-22 2017-03-22 一种基于语义信息引导的视频内容描述方法 Active CN107038221B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710174883.1A CN107038221B (zh) 2017-03-22 2017-03-22 一种基于语义信息引导的视频内容描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710174883.1A CN107038221B (zh) 2017-03-22 2017-03-22 一种基于语义信息引导的视频内容描述方法

Publications (2)

Publication Number Publication Date
CN107038221A CN107038221A (zh) 2017-08-11
CN107038221B true CN107038221B (zh) 2020-11-17

Family

ID=59534623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710174883.1A Active CN107038221B (zh) 2017-03-22 2017-03-22 一种基于语义信息引导的视频内容描述方法

Country Status (1)

Country Link
CN (1) CN107038221B (zh)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563498B (zh) * 2017-09-08 2020-07-14 中国石油大学(华东) 基于视觉与语义注意力相结合策略的图像描述方法及系统
CN107608943B (zh) * 2017-09-08 2020-07-28 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN108304846B (zh) 2017-09-11 2021-10-22 腾讯科技(深圳)有限公司 图像识别方法、装置及存储介质
CN107909014A (zh) * 2017-10-31 2018-04-13 天津大学 一种基于深度学习的视频理解方法
CN107818174A (zh) * 2017-11-15 2018-03-20 浙江大学 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法
CN110598779B (zh) * 2017-11-30 2022-04-08 腾讯科技(深圳)有限公司 摘要描述生成方法、装置、计算机设备和存储介质
JP6985121B2 (ja) * 2017-12-06 2021-12-22 国立大学法人 東京大学 物体間関係認識装置、学習済みモデル、認識方法及びプログラム
CN107979764B (zh) * 2017-12-06 2020-03-31 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108171198B (zh) * 2018-01-11 2020-02-11 合肥工业大学 基于非对称多层lstm的连续手语视频自动翻译方法
CN108364335A (zh) * 2018-01-23 2018-08-03 腾讯科技(深圳)有限公司 一种动画绘制方法及装置
CN108345887B (zh) * 2018-01-29 2020-10-02 清华大学深圳研究生院 图像语义分割模型的训练方法及图像语义分割方法
CN110475129B (zh) 2018-03-05 2021-05-28 腾讯科技(深圳)有限公司 视频处理方法、介质及服务器
CN108492282B (zh) * 2018-03-09 2021-08-06 天津工业大学 基于线结构光与多任务级联卷积神经网络的三维涂胶检测
CN108416026B (zh) * 2018-03-09 2023-04-18 腾讯科技(深圳)有限公司 索引生成方法、内容搜索方法、装置及设备
CN108509880A (zh) * 2018-03-21 2018-09-07 南京邮电大学 一种视频人物行为语义识别方法
CN108765383B (zh) * 2018-03-22 2022-03-18 山西大学 基于深度迁移学习的视频描述方法
CN108446645B (zh) * 2018-03-26 2021-12-31 天津大学 基于深度学习的车载人脸识别方法
CN108647255A (zh) * 2018-04-23 2018-10-12 清华大学 基于注意力回归的视频时序句子定位方法及装置
CN108764299B (zh) * 2018-05-04 2020-10-23 北京物灵智能科技有限公司 故事模型训练及生成方法、系统、机器人及存储设备
CN108805036B (zh) * 2018-05-22 2022-11-22 电子科技大学 一种非监督视频语义提取方法
CN108921032B (zh) * 2018-06-04 2022-04-29 创意信息技术股份有限公司 一种新的基于深度学习模型的视频语义提取方法
CN108829896B (zh) * 2018-06-29 2022-03-25 北京百度网讯科技有限公司 回复信息反馈方法和装置
CN108960207B (zh) * 2018-08-08 2021-05-11 广东工业大学 一种图像识别的方法、系统及相关组件
CN109308719B (zh) * 2018-08-31 2022-03-15 电子科技大学 一种基于三维卷积的双目视差估计方法
CN109344288B (zh) * 2018-09-19 2021-09-24 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109409221A (zh) * 2018-09-20 2019-03-01 中国科学院计算技术研究所 基于帧选择的视频内容描述方法和系统
US10891969B2 (en) * 2018-10-19 2021-01-12 Microsoft Technology Licensing, Llc Transforming audio content into images
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
CN109670453B (zh) * 2018-12-20 2023-04-07 杭州东信北邮信息技术有限公司 一种提取短视频主题的方法
CN111464881B (zh) * 2019-01-18 2021-08-13 复旦大学 基于自优化机制的全卷积视频描述生成方法
CN110119754B (zh) * 2019-02-27 2022-03-29 北京邮电大学 图像生成描述方法、装置及模型
CN109961041B (zh) * 2019-03-21 2021-03-23 腾讯科技(深圳)有限公司 一种视频识别方法、装置及存储介质
CN110288665B (zh) * 2019-05-13 2021-01-15 中国科学院西安光学精密机械研究所 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备
CN110188772A (zh) * 2019-05-22 2019-08-30 清华大学深圳研究生院 基于深度学习的中文图像描述方法
CN110232413A (zh) * 2019-05-31 2019-09-13 华北电力大学(保定) 基于gru网络的绝缘子图像语义描述方法、系统、装置
CN110377710B (zh) * 2019-06-17 2022-04-01 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN110363164A (zh) * 2019-07-18 2019-10-22 南京工业大学 一种基于lstm时间一致性视频分析的统一方法
CN110909736A (zh) * 2019-11-12 2020-03-24 北京工业大学 一种基于长短期记忆模型与目标检测算法的图像描述方法
CN110991290B (zh) * 2019-11-26 2023-03-10 西安电子科技大学 基于语义指导与记忆机制的视频描述方法
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、系统、装置
WO2021115115A1 (en) * 2019-12-09 2021-06-17 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Zero-shot dynamic embeddings for photo search
CN111259197B (zh) * 2020-01-13 2022-07-29 清华大学 一种基于预编码语义特征的视频描述生成方法
CN111523430B (zh) * 2020-04-16 2023-10-24 南京优慧信安科技有限公司 基于ucl的可定制交互式视频制作方法与装置
CN111985612B (zh) * 2020-07-21 2024-02-06 西安理工大学 一种提高视频文本描述准确性的编码器网络模型设计方法
CN112529857B (zh) * 2020-12-03 2022-08-23 重庆邮电大学 基于目标检测与策略梯度的超声图像诊断报告生成方法
CN112597966A (zh) * 2021-01-05 2021-04-02 武汉球之道科技有限公司 一种基于比赛视频的动作自动识别方法
CN112749660A (zh) * 2021-01-13 2021-05-04 中国科学院上海微系统与信息技术研究所 一种视频内容描述信息的生成方法和设备
WO2023050295A1 (zh) * 2021-09-30 2023-04-06 中远海运科技股份有限公司 一种基于多模态异质特征融合的视频密集事件描述方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156734A (zh) * 2011-04-12 2011-08-17 西南科技大学 一种基于语义隐藏标引的视频内容管理方法
CN105005772A (zh) * 2015-07-20 2015-10-28 北京大学 一种视频场景检测方法
CN105701480A (zh) * 2016-02-26 2016-06-22 江苏科海智能系统有限公司 一种视频语义分析方法
CN105844239A (zh) * 2016-03-23 2016-08-10 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法
CN106203283A (zh) * 2016-06-30 2016-12-07 重庆理工大学 基于三维卷积深度神经网络和深度视频的动作识别方法
WO2017015947A1 (en) * 2015-07-30 2017-02-02 Xiaogang Wang A system and a method for object tracking

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103905824A (zh) * 2014-03-26 2014-07-02 深圳先进技术研究院 视频语义检索与压缩同步的摄像系统与方法
CN105303519A (zh) * 2014-06-20 2016-02-03 汤姆逊许可公司 用于生成时间一致的超像素的方法和装置
US20160221190A1 (en) * 2015-01-29 2016-08-04 Yiannis Aloimonos Learning manipulation actions from unconstrained videos
CN105279495B (zh) * 2015-10-23 2019-06-04 天津大学 一种基于深度学习和文本总结的视频描述方法
CN105631468B (zh) * 2015-12-18 2019-04-09 华南理工大学 一种基于rnn的图片描述自动生成方法
CN105701460B (zh) * 2016-01-07 2019-01-29 王跃明 一种基于视频的篮球进球检测方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156734A (zh) * 2011-04-12 2011-08-17 西南科技大学 一种基于语义隐藏标引的视频内容管理方法
CN105005772A (zh) * 2015-07-20 2015-10-28 北京大学 一种视频场景检测方法
WO2017015947A1 (en) * 2015-07-30 2017-02-02 Xiaogang Wang A system and a method for object tracking
CN105701480A (zh) * 2016-02-26 2016-06-22 江苏科海智能系统有限公司 一种视频语义分析方法
CN105844239A (zh) * 2016-03-23 2016-08-10 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法
CN106203283A (zh) * 2016-06-30 2016-12-07 重庆理工大学 基于三维卷积深度神经网络和深度视频的动作识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Specific video identification via joint learning of latent semantic concept, scene and temporal structure;Zhicheng Zhao et al;《Neurocomputing》;20161005;第208卷;第294-306页 *
高通量视频内容分析技术;唐胜等;《工程研究-跨学科视野中的工程》;20140930;第6卷(第3期);第378-386页 *

Also Published As

Publication number Publication date
CN107038221A (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
CN107038221B (zh) 一种基于语义信息引导的视频内容描述方法
CN107066973A (zh) 一种利用时空注意力模型的视频内容描述方法
CN106845411B (zh) 一种基于深度学习和概率图模型的视频描述生成方法
CN108694225B (zh) 一种图像搜索方法、特征向量的生成方法、装置及电子设备
US10713298B2 (en) Video retrieval methods and apparatuses
CN111581510A (zh) 分享内容处理方法、装置、计算机设备和存储介质
CN110866140A (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN106897371B (zh) 中文文本分类系统及方法
CN110414009B (zh) 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN109710916B (zh) 一种标签提取方法、装置、电子设备及存储介质
Hoxha et al. A new CNN-RNN framework for remote sensing image captioning
CN111242033B (zh) 一种基于视频和文字对判别分析的视频特征学习方法
CN110083729B (zh) 一种图像搜索的方法及系统
CN113220886A (zh) 文本分类方法、文本分类模型训练方法及相关设备
CN111078866A (zh) 一种基于序列到序列模型的中文文本摘要生成方法
CN107291825A (zh) 一种视频中同款商品的检索方法和系统
CN115761900B (zh) 用于实训基地管理的物联网云平台
CN109614611B (zh) 一种融合生成非对抗网络与卷积神经网络的情感分析方法
CN115081437A (zh) 基于语言学特征对比学习的机器生成文本检测方法及系统
CN112734803A (zh) 基于文字描述的单目标跟踪方法、装置、设备及存储介质
CN116186328A (zh) 一种基于预聚类引导的视频文本跨模态检索方法
CN113822368A (zh) 一种基于无锚的增量式目标检测方法
Avgoustinakis et al. Audio-based near-duplicate video retrieval with audio similarity learning
CN116662565A (zh) 基于对比学习预训练的异质信息网络关键词生成方法
CN112417890B (zh) 一种基于多样化语义注意力模型的细粒度实体分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Yan Chenggang

Inventor after: Tu Yunbin

Inventor after: Feng Xinle

Inventor after: Li Bing

Inventor after: Lou Jiedong

Inventor after: Peng Dongliang

Inventor after: Zhang Yongdong

Inventor after: Wang Jianzhong

Inventor before: Tu Yunbin

Inventor before: Yan Chenggang

Inventor before: Feng Xinle

Inventor before: Li Bing

Inventor before: Lou Jiedong

Inventor before: Peng Dongliang

Inventor before: Zhang Yongdong

Inventor before: Wang Jianzhong

GR01 Patent grant
GR01 Patent grant