CN114677631B - 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法 - Google Patents
一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法 Download PDFInfo
- Publication number
- CN114677631B CN114677631B CN202210430266.4A CN202210430266A CN114677631B CN 114677631 B CN114677631 B CN 114677631B CN 202210430266 A CN202210430266 A CN 202210430266A CN 114677631 B CN114677631 B CN 114677631B
- Authority
- CN
- China
- Prior art keywords
- training
- video
- feature
- features
- tensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000004927 fusion Effects 0.000 title claims abstract description 31
- 238000007500 overflow downdraw method Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 30
- 230000009471 action Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 12
- 238000000354 decomposition reaction Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- YTAHJIFKAKIKAV-XNMGPUDCSA-N [(1R)-3-morpholin-4-yl-1-phenylpropyl] N-[(3S)-2-oxo-5-phenyl-1,3-dihydro-1,4-benzodiazepin-3-yl]carbamate Chemical compound O=C1[C@H](N=C(C2=C(N1)C=CC=C2)C1=CC=CC=C1)NC(O[C@H](CCN1CCOCC1)C1=CC=CC=C1)=O YTAHJIFKAKIKAV-XNMGPUDCSA-N 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 241000288105 Grus Species 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 3
- 235000019987 cider Nutrition 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法,包括从外观、运动、语义和音频方面提取多维特征,以增强编码器的内容表示能力;构造编码器,进行多特征的融合;构造解码器,进行词句的预测生成;采取多阶段训练策略进行模型训练。本发明使用最新提出的大规模多语言视频描述数据集VATEX,解决了以往视频描述只有英语数据集的问题,使用多特征融合方法进行编码,模型训练采取多阶段训练策略,避免了“曝光偏差”问题。
Description
技术领域
本发明涉及计算机视觉和自然语言处理交叉技术领域,具体涉及一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法。
背景技术
如今,互联网上的多媒体数据,尤其是视频的数量日益增加。以公共文化资源数据举例,根据最新统计,文化和旅游部全国公共文化发展中心联合各地建成精品资源约780TB,并推出国家公共文化云,云上累计发布数字资源总量20614条、文化场馆1036个、文化活动4461个。400余家图书馆通过数字图书馆工程开展了文献的数字化和元数据集中仓储建设,资源总量超过22414TB。这其中大量数据都是以视频形式存储。
现实生活中庞大的视频数量导致了视频的自动分类、索引和检索的问题。视频描述生成是通过理解视频中的动作和事件来自动为视频添加描述的任务,这有助于通过文本高效地检索视频。在有效解决视频描述生成的任务时,计算机视觉和自然语言之间的鸿沟也可以大大缩小。视频是由大量连续的帧、声音和运动组成的丰富的信息源。视频中大量相似帧、复杂动作和事件的存在使得视频描述生成的任务具有挑战性。与此同时,现有的大规模视频描述数据集大多是单语的,即只有英语,因此视频描述生成模型的开发仅限于英语语料库。然而,中文视频描述生成的研究对于我国大量不会说英文的人来说是至关重要的。
VATEX是最新提出的大规模多语言视频描述数据集,与广泛使用的MSR-VTT数据集相比,VATEX是多语言的,且规模更大、语言更复杂、视频和自然语言描述更加多样化。VATEX包含大量中英文描述,支持中文相关研究,而这是以往的单语言英文数据集无法满足的;VATEX具备最大数量的视频片段-句子对,且每个视频片段都有多个不同的句子描述,每个描述在整个数据集中都是独一无二的;VATEX包含更全面且具代表性的视频内容,覆盖600种人类活动;VATEX中的中文语料在词汇方面非常丰富,从而可以生成更自然和多样化的视频描述。
目前视频描述生成领域已经完全步入深度学习阶段,在此阶段,已经提出了许多先进的视频描述生成架构,循环神经网络被频繁应用到相关研究,注意力机制也已经被广泛应用到序列学习方法中,但是,目前对注意力机制的使用仅仅局限在对视频提取特征后的单一模态特征中,未能利用到视频本身的多模态特征,这使得注意力机制不能完全发挥出自身的潜力。同时,由于“曝光偏差”问题的存在,导致训练和推理之间产生差距,且大多数模型单单应用交叉熵损失作为它们的优化目标,使得描述生成结果不佳。
发明内容:
为了准确识别视频中的活动事件,生成准确高质量的中文来描述视频,本发明进行特征提取时融合了视频的外观特征、运动特征、语义特征和音频特征,在训练阶段依次采用交叉熵损失和自批评训练模型。提供一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法,本发明中的训练集和测试集来自最近提出的最大的多语言数据集,即VATEX。VATEX包含600类人类活动的视频,每个视频配有10个英文和10个中文不同的标题。该数据集的最大挑战是视频内容的多样性,通常很难识别。
为了实现上述目的,本发明采用的技术方式是:
一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法,包括以下步骤:
步骤1,从外观、动作、语义和音频方面提取多维特征,以增强编码器的内容表示能力;具体包括:
1)对于外观特征,作用在空间维度上,包含视频显示的事物对象的信息;提取外观特征时首先在ImageNet数据集上使用PNASNet进行预训练,PNASNet是当前图像识别领域的最佳模型NASNet的改进模型,预训练完成后输入提取到的帧得到外观特征;
2)对于动作特征,作用在时间维度上,包含视频中的事物对象进行的活动事件的信息;提取运动特征首先在kinetics-600数据集上使用I3D网络进行预训练,该数据集与VATEX数据集具有完全相同的数据分布,I3D是基于3D卷积的双流模型,在行为分类方面有较大的提高,预训练完成后输入提取到的帧得到运动特征;
3)对于音频特征,使用在Audioset数据集上进行预训练的VGGish网络;首先,为每个音频提取梅尔频谱块;音频的采样率是16千赫;Mel滤波器的数量为64个;STFT窗口长度为25毫秒,顶部长度为10毫秒;预训练完成后输入提取的音频得到音频特征;
4)对于语义特征,使用SDN提取高质量的语义特征,SDN是一个具有足够计算复杂度和输入特征的语义检测网络;输入视频帧得到语义特征;
步骤2,构造编码器,进行多特征的融合;具体包括:
采用低秩多特征融合的方法,通过将张量和权重并行分解,利用特征特定的低阶因子来执行多特征融合,避免计算高维的张量,降低了运算开销,同时将指数级的时间复杂度降低到了线性;
1)将多特征融合用公式表示为一个多线性函数:f:V1×V2×…VM→H,其中V1×V2×…VM是输入特征的向量空间,H是融合后的输出向量空间;给出向量表示的集合,编码M种不同特征的单一特征信息,多特征融合的目标是将单一特征表示集成到一个紧凑的多特征表示中,用于下游任务;
2)为了能够用一个张量来模拟任意特征子集之间的相互作用,在进行外积之前给每个单一特征后面加一个1,因此输入的张量Z通过单个特征的表示计算得到:其中/>是由m索引的向量集合的张量外积,zm是附加1的输入表示;输入张量/>通过一个线性层g(·)产生一个向量表示:/>其中W是权重,b是偏移量;
3)根据低秩多特征融合方法,将W看作是dh个M阶张量,每个M阶张量可以表示总是存在一个精确分解成向量的形式:/>使得分解有效的最小的R即为张量的秩;向量的集合/>为原始张量的秩R分解因子;从一个固定的秩r开始,用r分解因子/>重建低秩的/>这些向量可以重组拼接为M个特征特定的低秩因子,令/>则模态m对应的低秩因子为则可以用下式重建得到低秩的权重张量:/>
4)基于W的分解,再根据把原来计算h的式子推导如下:
其中表示一系列张量的元素积,即/>最终的h即为多模态特征经过融合得到的单个特征;
步骤3,构造解码器,进行词句的预测生成;具体包括:
使用top-down模型构造解码器,top-down模型由两层GRU和一个注意力模块组成,其中一个GRU进行粗粒度解码,另一个GRU进行细粒度解码,最终采用细粒度解码的输出预测下一时刻的单词;
1)进行粗粒度解码的GRU在t时刻的输入包含两部分,即前一时刻的隐藏状态以及之前时刻所生成的词St-1所对应的词向量,其输出/>如下:
其中,Wes表示训练集中词典对应的词向量矩阵,V为该帧的多模态融合特征,用于指导注意力模块生成的V;
2)进行细粒度解码的GRU在t时刻输入包含三部分,即前一时刻的隐藏状态之前时刻所生成的词St-1,St-2,St-3所对应的词向量,及帧特征Vt,表示如下:
其在t时刻输出通过softmax层后输出在词典上的概率分布p(St);
3)在解码阶段,采用基于自上而下的描述结构;Attention-GRU使用全局视频主题和最后生成的单词,来指导时间注意力模块选择最相关的帧区域;同时,Language-GRU将处理过的上下文信息组合在一起,生成下一个单词;
步骤4,采取多阶段训练策略进行模型训练;基于多特征融合及多阶段训练的视频中文描述生成方法的关键步骤4中,
1)在第一阶段,使用传统的交叉熵损失进行5个时期的训练,学习速率固定在5×10-5;交叉熵损失函数如下:
其中,Ti表示该视频自带的第i个正确句子的单词数量,W1~(t-1)表示t时刻之前得到的所有单词的概率分布,V表示该视频的多模态融合特征,θ表示所有随机初始化的参数;
2)第二阶段,使用Word-Level Oracle方法来代替传统的预定采样方法;此方法主要包括两个步骤:选择Oracle Word和衰减采样;损失函数如下:
其中N为训练数据集中的sentence pairs number,|yn|为第n个标注句子的长度,代表第n句第j步的预测概率分布,因此/>为预测第j步标注词汇/>的概率;
3)第三阶段,使用self-critical Sequence Training方法来避免曝光偏差问题;self-critical reinforcement算法直接优化了视频描述任务的评价指标;评价指标CIDEr和BLEU在整个句子生成后同样得到了优化;这一步使得视频描述任务能够更有效地在不可区分的指标上进行训练,并在VATEX数据集上显著提高视频描述性能。
所述的外观特征、动作特征、音频特征、语义特征所有特征全都使用全连接层嵌入到相同的维度中。
本发明的有益效果是:
本发明使用最新提出的大规模多语言视频描述数据集VATEX,解决了以往视频描述只有英语数据集的问题,使用多特征融合方法进行编码,模型训练采取多阶段训练策略,避免了“曝光偏差”问题。
附图说明
图1为本发明的流程示意图;
图2为多特征融合流程示意图;
图3为低秩多特征融合实施示意图;
图4为生成视频描述结构网络示意图;
图5为多阶段训练流程示意图。
具体实施方式
以下结合附图对本发明进一步叙述。
如图1至图5所示,一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法,包括以下步骤:
步骤1,从外观、动作、语义和音频方面提取多维特征,以增强编码器的内容表示能力;具体包括:
1)对于外观特征,主要作用在空间维度上,包含视频显示了什么事物对象的信息。提取外观特征时首先在ImageNet数据集上使用PNASNet进行预训练,PNASNet是当前图像识别领域的最佳模型NASNet的改进模型,预训练完成后输入提取到的帧得到外观特征。
2)对于动作特征,主要作用在时间维度上,包含视频中的事物对象进行了什么活动事件的信息。提取运动特征首先在kinetics-600数据集上使用I3D网络进行预训练,该数据集与VATEX数据集具有完全相同的数据分布,I3D是基于3D卷积的双流模型,在行为分类方面有较大的提高,预训练完成后输入提取到的帧得到运动特征。
3)对于音频特征,使用在Audioset数据集上进行预训练的VGGish网络。首先,为每个音频提取梅尔频谱块。音频的采样率是16千赫。Mel滤波器的数量为64个。STFT窗口长度为25毫秒,顶部长度为10毫秒。预训练完成后输入提取的音频得到音频特征。
4)对于语义特征,使用SDN提取高质量的语义特征,SDN是一个具有足够计算复杂度和输入特征的语义检测网络。输入视频帧得到语义特征。
步骤2,构造编码器进行多特征融合。本发明采用低秩多特征融合的方法,该方法解决了基于张量的多特征融合方法计算效率差的问题,通过将张量和权重并行分解,利用特征特定的低阶因子来执行多特征融合,避免计算高维的张量,降低了运算开销,同时将指数级的时间复杂度降低到了线性;
1)将多特征融合用公式表示为一个多线性函数:f:V1×V2×…VM→H,其中V1×V2×…VM是输入特征的向量空间,H是融合后的输出向量空间;给出向量表示的集合,编码M种不同特征的单一特征信息,多特征融合的目标是将单一特征表示集成到一个紧凑的多特征表示中,用于下游任务;
2)为了能够用一个张量来模拟任意特征子集之间的相互作用,在进行外积之前给每个单一特征后面加一个1,因此输入的张量Z通过单个特征的表示计算得到:其中/>是由m索引的向量集合的张量外积,zm是附加1的输入表示;输入张量/>通过一个线性层g(·)产生一个向量表示:/>其中W是权重,b是偏移量;
3)根据低秩多特征融合方法,将W看作是dh个M阶张量,每个M阶张量可以表示总是存在一个精确分解成向量的形式:/>使得分解有效的最小的R即为张量的秩;向量的集合/>为原始张量的秩R分解因子;从一个固定的秩r开始,用r分解因子/>重建低秩的/>这些向量可以重组拼接为M个特征特定的低秩因子,令/>则模态m对应的低秩因子为则可以用下式重建得到低秩的权重张量:/>
4)基于W的分解,再根据把原来计算h的式子推导如下:
其中表示一系列张量的元素积,即/>最终的h即为多模态特征经过融合得到的单个特征;
步骤3,构造解码器,进行词句的预测生成;具体包括:
使用top-down模型构造解码器,top-down模型由两层GRU和一个注意力模块组成,其中一个GRU进行粗粒度解码,另一个GRU进行细粒度解码,最终采用细粒度解码的输出预测下一时刻的单词;
1)进行粗粒度解码的GRU在t时刻的输入包含两部分,即前一时刻的隐藏状态以及之前时刻所生成的词St-1所对应的词向量,其输出/>如下:
其中,Wes表示训练集中词典对应的词向量矩阵,V为该帧的多模态融合特征,用于指导注意力模块生成的V;
2)进行细粒度解码的GRU在t时刻输入包含三部分,即前一时刻的隐藏状态之前时刻所生成的词St-1,St-2,St-3所对应的词向量,及帧特征Vt,表示如下:
其在t时刻输出通过softmax层后输出在词典上的概率分布p(St);
3)在解码阶段,采用基于自上而下的描述结构;Attention-GRU使用全局视频主题和最后生成的单词,来指导时间注意力模块选择最相关的帧区域;同时,Language-GRU将处理过的上下文信息组合在一起,生成下一个单词;
步骤4,进行多阶段训练。传统的模型根据上下文信息和前一个字词来预测下一个字词,前一个字词在训练阶段来自真实样本,而在推断阶段则是模型生成词。因此,在训练和推断时的前一个词来自不同的分布,即来自数据分布而不是模型分布,这种差异被称为曝光偏差。两个输入不一致会造成误差累积,最终导致训练和推断之间的差距。同时,大多数模型应用交叉熵损失作为优化目标,但是通常使用离散和不可微的自然语言处理指标在推断时进行评估。基于以上原因,本发明应用多阶段训练策略来训练模型,以避免曝光偏差问题。
采取多阶段训练策略进行模型训练;基于多特征融合及多阶段训练的视频中文描述生成方法的关键步骤4中,
1)在第一阶段,使用传统的交叉熵损失进行5个时期的训练,学习速率固定在5×10-5;交叉熵损失函数如下:
其中,Ti表示该视频自带的第i个正确句子的单词数量,W1~(t-1)表示t时刻之前得到的所有单词的概率分布,V表示该视频的多模态融合特征,θ表示所有随机初始化的参数;
2)第二阶段,使用Word-Level Oracle方法来代替传统的预定采样方法;此方法主要包括两个步骤:选择Oracle Word和衰减采样;损失函数如下:
其中N为训练数据集中的sentence pairs number,|yn|为第n个标注句子的长度,代表第n句第j步的预测概率分布,因此/>为预测第j步标注词汇/>的概率;
在实施中,通过引入Gumbel-Max技术,可以获得更健壮的词级预测,这提供了一种从类别分布中进行采样的简单有效的方法。此外,由于其特殊设计的采样功能,采样曲线比预定采样方法更平滑。这一步可以明显缓解过拟合的问题,提高模型的探索能力。
3)第三阶段,使用self-critical Sequence Training方法来避免曝光偏差问题;self-critical reinforcement算法直接优化了视频描述任务的评价指标;评价指标CIDEr和BLEU在整个句子生成后同样得到了优化;这一步使得视频描述任务能够更有效地在不可区分的指标上进行训练,并在VATEX数据集上显著提高视频描述性能。
所述的外观特征、动作特征、音频特征、语义特征所有特征全都使用全连接层嵌入到相同的维度中。
Claims (2)
1.一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法,其特征在于,包括以下步骤:
步骤1,从外观、动作、语义和音频方面提取多维特征,以增强编码器的内容表示能力;具体包括:
1)对于外观特征,作用在空间维度上,包含视频显示的事物对象的信息;提取外观特征时首先在ImageNet数据集上使用PNASNet进行预训练,PNASNet是当前图像识别领域的最佳模型NASNet的改进模型,预训练完成后输入提取到的帧得到外观特征;
2)对于动作特征,作用在时间维度上,包含视频中的事物对象进行的活动事件的信息;提取运动特征首先在kinetics-600数据集上使用I3D网络进行预训练,该数据集与VATEX数据集具有完全相同的数据分布,I3D是基于3D卷积的双流模型,在行为分类方面有较大的提高,预训练完成后输入提取到的帧得到运动特征;
3)对于音频特征,使用在Audioset数据集上进行预训练的VGGish网络;首先,为每个音频提取梅尔频谱块;音频的采样率是16千赫;Mel滤波器的数量为64个;STFT窗口长度为25毫秒,顶部长度为10毫秒;预训练完成后输入提取的音频得到音频特征;
4)对于语义特征,使用SDN提取高质量的语义特征,SDN是一个具有足够计算复杂度和输入特征的语义检测网络;输入视频帧得到语义特征;
步骤2,构造编码器,进行多特征的融合;具体包括:
采用低秩多特征融合的方法,通过将张量和权重并行分解,利用特征特定的低阶因子来执行多特征融合,避免计算高维的张量,降低了运算开销,同时将指数级的时间复杂度降低到了线性;
1)将多特征融合用公式表示为一个多线性函数:f:V1×V2×…VM→H,其中V1×V2×…VM是输入特征的向量空间,H是融合后的输出向量空间;给出向量表示的集合,编码M种不同特征的单一特征信息,多特征融合的目标是将单一特征表示集成到一个紧凑的多特征表示中,用于下游任务;
2)为了能够用一个张量来模拟任意特征子集之间的相互作用,在进行外积之前给每个单一特征后面加一个1,因此输入的张量Z通过单个特征的表示计算得到:其中/>是由m索引的向量集合的张量外积,zm是附加1的输入表示;输入张量/>通过一个线性层g(·)产生一个向量表示:/>其中W是权重,b是偏移量;
3)根据低秩多特征融合方法,将W看作是dh个M阶张量,每个M阶张量可以表示总是存在一个精确分解成向量的形式:/>使得分解有效的最小的R即为张量的秩;向量的集合/>为原始张量的秩R分解因子;从一个固定的秩r开始,用r分解因子/>重建低秩的/>这些向量可以重组拼接为M个特征特定的低秩因子,令/>则模态m对应的低秩因子为则可以用下式重建得到低秩的权重张量:/>
4)基于W的分解,再根据把原来计算h的式子推导如下:
其中表示一系列张量的元素积,即/>最终的h即为多模态特征经过融合得到的单个特征;
步骤3,构造解码器,进行词句的预测生成;具体包括:
使用top-down模型构造解码器,top-down模型由两层GRU和一个注意力模块组成,其中一个GRU进行粗粒度解码,另一个GRU进行细粒度解码,最终采用细粒度解码的输出预测下一时刻的单词;
1)进行粗粒度解码的GRU在t时刻的输入包含两部分,即前一时刻的隐藏状态以及之前时刻所生成的词St-1所对应的词向量,其输出/>如下:
其中,Wes表示训练集中词典对应的词向量矩阵,V为该帧的多模态融合特征,用于指导注意力模块生成的V;
2)进行细粒度解码的GRU在t时刻输入包含三部分,即前一时刻的隐藏状态之前时刻所生成的词St-1,St-2,St-3所对应的词向量,及帧特征Vt,表示如下:
其在t时刻输出通过softmax层后输出在词典上的概率分布p(St);
3)在解码阶段,采用基于自上而下的描述结构;Attention-GRU使用全局视频主题和最后生成的单词,来指导时间注意力模块选择最相关的帧区域;同时,Language-GRU将处理过的上下文信息组合在一起,生成下一个单词;
步骤4,采取多阶段训练策略进行模型训练;基于多特征融合及多阶段训练的视频中文描述生成方法的关键步骤4中,
1)在第一阶段,使用传统的交叉熵损失进行5个时期的训练,学习速率固定在5×10-5;交叉熵损失函数如下:
其中,Ti表示该视频自带的第i个正确句子的单词数量,W1~(t-1)表示t时刻之前得到的所有单词的概率分布,V表示该视频的多模态融合特征,θ表示所有随机初始化的参数;
2)第二阶段,使用Word-Level Oracle方法来代替传统的预定采样方法;此方法主要包括两个步骤:选择Oracle Word和衰减采样;损失函数如下:
其中N为训练数据集中的sentence pairs number,|yn|为第n个标注句子的长度,代表第n句第j步的预测概率分布,因此/>为预测第j步标注词汇/>的概率;
3)第三阶段,使用self-critical Sequence Training方法来避免曝光偏差问题;self-critical reinforcement算法直接优化了视频描述任务的评价指标;评价指标CIDEr和BLEU在整个句子生成后同样得到了优化;这一步使得视频描述任务能够更有效地在不可区分的指标上进行训练,并在VATEX数据集上显著提高视频描述性能。
2.根据权利要求1所述的一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法,其特征在于,所述的外观特征、动作特征、音频特征、语义特征所有特征全都使用全连接层嵌入到相同的维度中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210430266.4A CN114677631B (zh) | 2022-04-22 | 2022-04-22 | 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210430266.4A CN114677631B (zh) | 2022-04-22 | 2022-04-22 | 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114677631A CN114677631A (zh) | 2022-06-28 |
CN114677631B true CN114677631B (zh) | 2024-03-12 |
Family
ID=82080840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210430266.4A Active CN114677631B (zh) | 2022-04-22 | 2022-04-22 | 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114677631B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089654B (zh) * | 2023-04-07 | 2023-07-07 | 杭州东上智能科技有限公司 | 一种基于音频监督的可转移视听文本生成方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3017518A1 (en) * | 2016-03-18 | 2017-09-21 | President And Fellows Of Harvard College | Automatically classifying animal behavior |
CN110276259A (zh) * | 2019-05-21 | 2019-09-24 | 平安科技(深圳)有限公司 | 唇语识别方法、装置、计算机设备及存储介质 |
CN110378902A (zh) * | 2019-09-11 | 2019-10-25 | 征图新视(江苏)科技股份有限公司 | 一种高噪声背景下的划痕检测方法 |
CN111340005A (zh) * | 2020-04-16 | 2020-06-26 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法和系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9811765B2 (en) * | 2016-01-13 | 2017-11-07 | Adobe Systems Incorporated | Image captioning with weak supervision |
US9792534B2 (en) * | 2016-01-13 | 2017-10-17 | Adobe Systems Incorporated | Semantic natural language vector space |
GB201716893D0 (en) * | 2017-10-13 | 2017-11-29 | Chancellor Masters And Scholars Of The Univ Of Oxford | Methods and systems for analysing time ordered image data |
-
2022
- 2022-04-22 CN CN202210430266.4A patent/CN114677631B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3017518A1 (en) * | 2016-03-18 | 2017-09-21 | President And Fellows Of Harvard College | Automatically classifying animal behavior |
CN110276259A (zh) * | 2019-05-21 | 2019-09-24 | 平安科技(深圳)有限公司 | 唇语识别方法、装置、计算机设备及存储介质 |
CN110378902A (zh) * | 2019-09-11 | 2019-10-25 | 征图新视(江苏)科技股份有限公司 | 一种高噪声背景下的划痕检测方法 |
CN111340005A (zh) * | 2020-04-16 | 2020-06-26 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法和系统 |
Non-Patent Citations (1)
Title |
---|
可解释化、结构化、多模态化的深度神经网络;熊红凯;高星;李劭辉;徐宇辉;王涌壮;余豪阳;刘昕;张云飞;;模式识别与人工智能;20180115(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114677631A (zh) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109840287B (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN109344391B (zh) | 基于神经网络的多特征融合中文新闻文本摘要生成方法 | |
CN108170848B (zh) | 一种面向中国移动智能客服的对话场景分类方法 | |
Tripathy et al. | Comprehensive analysis of embeddings and pre-training in NLP | |
CN111368870A (zh) | 一种基于模态内间协同多线性池化的视频时序定位方法 | |
CN114969304A (zh) | 基于要素图注意力的案件舆情多文档生成式摘要方法 | |
CN115510814B (zh) | 一种基于双重规划的篇章级复杂问题生成方法 | |
CN115662435B (zh) | 一种虚拟教师拟真化语音的生成方法及终端 | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
CN113609284A (zh) | 一种融合多元语义的文本摘要自动生成方法及装置 | |
CN114677631B (zh) | 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法 | |
CN114254645A (zh) | 一种人工智能辅助写作系统 | |
Xu et al. | A comprehensive survey of automated audio captioning | |
Sathyendra et al. | Extreme model compression for on-device natural language understanding | |
Seilsepour et al. | Self-supervised sentiment classification based on semantic similarity measures and contextual embedding using metaheuristic optimizer | |
CN113505583A (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 | |
CN116863920A (zh) | 基于双流自监督网络的语音识别方法、装置、设备及介质 | |
Dharaniya et al. | A design of movie script generation based on natural language processing by optimized ensemble deep learning with heuristic algorithm | |
CN114757310B (zh) | 情感识别模型及其训练方法、装置、设备及可读存储介质 | |
CN116524915A (zh) | 一种基于语义交互的弱监督语音-视频定位方法和系统 | |
CN112464673B (zh) | 融合义原信息的语言含义理解方法 | |
Jiang | A sentiment classification model of E-commerce user comments based on improved particle swarm optimization algorithm and support vector machines | |
CN113157914A (zh) | 一种基于多层循环神经网络的文档摘要提取方法及系统 | |
Agarwal et al. | From multimodal to unimodal attention in transformers using knowledge distillation | |
Wang et al. | Evolutionary Relationship Extraction of Emergencies Based on Two-way GRU and Multi-channel Self-attention Mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |