CN115496134B - 基于多模态特征融合的交通场景视频描述生成方法和装置 - Google Patents
基于多模态特征融合的交通场景视频描述生成方法和装置 Download PDFInfo
- Publication number
- CN115496134B CN115496134B CN202211113115.2A CN202211113115A CN115496134B CN 115496134 B CN115496134 B CN 115496134B CN 202211113115 A CN202211113115 A CN 202211113115A CN 115496134 B CN115496134 B CN 115496134B
- Authority
- CN
- China
- Prior art keywords
- word
- information
- video
- fusion
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 37
- 238000013507 mapping Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012821 model calculation Methods 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开一种基于多模态特征融合的交通场景视频描述生成方法和装置,包括:获取视频特征信息和音频特征信息;将所述视频特征信息和音频特征信息分别进行线性映射形成Transformer的特征向量;将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合;将多模态信息融合结果输入到解码器,得到每一个单词的概率分布;根据所述每一个单词的概率分布,得到交通场景视频的文本语句描述。采用本发明的技术方案,解决在使用多模态信息进行视频描述处理的时候往往存在多模态信息之间融合度低和模型计算量大的问题。
Description
技术领域
本发明属于机器视觉领域和自然语言处理领域,本发明涉及一种基于多模态特征融合的交通场景视频描述生成方法和装置。
背景技术
在主流的视频描述算法中普遍使用RNN(循环神经网络)和Transformer架构进行算法实现。基于RNN的算法需要将视频信息逐一按照顺序进行输入在逐一输出,并不能将视频的特征序列一起输入。而使用Transformer的模型可以将视频的特征序列同时输入到模型中,Transformer具有编码器和解码器两个部分,其中编码器部分通过多头注意力可以将整个特征序列当作输入进行处理。然后再对其输出做一个残差求和,得到的结果输入到一个前馈神经网络当中,在进行残差求和输入到下一层编码器。经过多层的编码器编码得到一个内在表征,在解码器中给再将其与经过掩码多头注意力处理的词嵌入向量作为输入进行和编码器相同的操作最终生成文本描述。目前文本生成算法中性能最好的算法绝大多数都是基于Transformer的模型。在交通场景下单一模态能够使用到的信息是有限的,因此在处理复杂场景问题的时候往往会考虑采用多模态信息进行处理。然而现有模型在使用多模态信息进行视频描述处理的时候往往存在多模态信息之间融合度低和模型计算量大的问题。
发明内容
本发明要解决的技术问问题是,提供一种基于多模态特征融合的交通场景视频描述生成方法和装置,解决在使用多模态信息进行视频描述处理的时候往往存在多模态信息之间融合度低和模型计算量大的问题。
为实现上述目的,本发明采用如下的技术方案:
一种基于多模态特征融合的交通场景视频描述生成方法,包括以下步骤:
步骤S1、获取视频特征信息和音频特征信息;
步骤S2、将所述视频特征信息和音频特征信息分别进行线性映射形成Transformer的特征向量;
步骤S3、将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合;
步骤S4、将多模态信息融合结果输入到解码器,得到每一个单词的概率分布;
步骤S5、根据所述每一个单词的概率分布,得到交通场景视频的文本语句描述。
作为优选,步骤S1中,通过I3D模型和VGGish模型分别提取所述视频特征信息和音频特征信息。
作为优选,步骤S3包括:
步骤S31、将所述Transformer的特征向量输入到多头自注意力编码器,得到第四层编码器输出的视频特征信息和音频特征信息;
步骤S32、将所述第四层编码器输出的视频特征信息和音频特征信息以及注意力瓶颈信息输入到所述交叉注意力编码器进行多模态信息融合。
作为优选,步骤S5、根据所述每一个单词的概率分布,通过贪婪算法选出下一个单词,得到交通场景视频的文本语句描述。
本发明还公开一种基于多模态特征融合的交通场景视频描述生成装置,包括:
获取模块,用于获取视频特征信息和音频特征信息;
预处理模块,用于将所述视频特征信息和音频特征信息分别进行线性映射形成Transformer的特征向量;
融合模块,用于将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合;
解码模块,用于将多模态信息融合结果输入到解码器,得到每一个单词的概率分布;
生成模块,用于根据所述每一个单词的概率分布,得到交通场景视频的文本语句描述。
作为优选,所述获取模块通过I3D模型和VGGish模型分别提取所述视频特征信息和音频特征信息。
作为优选,所述融合模块包括:
第一编码单元,用于将所述Transformer的特征向量输入到多头自注意力编码器,得到第四层编码器输出的视频特征信息和音频特征信息;
第二编码单元,用于将所述第四层编码器输出的视频特征信息和音频特征信息以及注意力瓶颈信息输入到所述交叉注意力编码器进行多模态信息融合。
作为优选,所述生成装置根据所述每一个单词的概率分布,通过贪婪算法选出下一个单词,得到交通场景视频的文本语句描述。
本发明首先通过训练好的I3D模型和VGGish模型分别提取视频动作特征和音频特征,然后将其进行线性映射形成可以输入到Transformer的特征向量。再通过自注意力编码器同时训练两个模态的信息,然后在第四层编码器的输出部分在视频信息和音频信息中间插入注意力瓶颈信息,从而得到新的特征向量,然后输入到交叉注意力编码器进行多模态信息的融合;最终得到包含了多模态信息的向量映射,再将其输入到解码器当中,同时解码器还以视频描述的语句编码向量作为输入,通过解码器最终生成每一个单词的概率分布,从而通过贪婪算法输出单词,最终生成描述语句。为了应对复杂的交通场景本发明基于Transformer模型通过加入注意力瓶颈模块实现多模态信息的融合,有效提升了多模态信息之间的融合性能从而得到更加准确的描述结果。
附图说明
图1是本发明基于多模态特征融合的交通场景视频描述生成方法的流程图;
图2是本发明基于多模态特征融合的交通场景视频描述生成装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1:
如图1所示,本发明提供一种基于多模态特征融合的交通场景视频描述生成方法,包括以下步骤:
步骤S1、获取视频特征信息和音频特征信息;
步骤S2、将所述视频特征信息和音频特征信息分别进行线性映射形成Transformer的特征向量;
步骤S3、将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合;
步骤S4、将多模态信息融合结果输入到解码器,得到每一个单词的概率分布;
步骤S5、根据所述每一个单词的概率分布,得到交通场景视频的文本语句描述。
作为本发明实施例的一种实施方式,步骤S1中,使用I3D模型提取视频特征,得到视频特征信息使用VGGish网络提取音频特征,得到音频特征信息
作为本发明实施例的一种实施方式,步骤S2中,首先将I3D模型提取的视频特征和VGGish提取的音频特征映射到一维的向量空间并拼接到一起组成编码器的输入F=(V||A),其中,||代表拼接操作;将描述语句进行词嵌入处理,得到Transformer的特征向量e≤t=(e1,e2,...,et)。
作为本发明实施例的一种实施方式,步骤S中,通过Transformer的编码器模块进行多模态特征的融合,编码器部分以特征 为输入,将F映射到一系列的内在表征Z=(z1,z2,...,zT)。本发明采用了两种编码器进行编码处理,分别是多头自注意力编码器和交叉注意力编码器,并且在交叉注意力编码器的输入中插入注意力瓶颈信息形符(tokens),具体包括:
步骤S3:先通过多头自注意力编码器对单一模态信息进行训练。使用13D模型和Vggish模型对视频提取特征,再将其映射到线性空间得到线性特征序列V=(v1,v2,...,vT)和A=(a1,a2,...,aT),将其拼接在一起得到特征将其先输入到多头自注意力编码器中分别训练每一种单一模态,第一层编码器以特征F为输入输出其内在表征zl,之后每层都已前一层输出作为输入通过层归一化计算得/>接着输入到多头自注意力机制/> 再进行一次层归一化最后通过一个全连接层得到编码器的输出多头自注意力编码器的第l层编码器简写为zl+1=Encoder(zl),当l=0时z1=Encoder(F)。在第四层得到输出Z=[Zrgb||Zspec],其中Zrgb、Zspec分别为视觉信息和音频信息第四层编码器的输出,通过||进行拼接。
步骤S32、将第四层编码器的输出输入到交叉注意力编码器进行多模态信息的融合。在第四层编码器输出上加入B个注意力瓶颈信息形符(tokens),记为:则交叉注意力编码器的输入变为Z=[Zrgb||Zfsn||Zspec]。将其作为引入交叉注意力的编码器的输入;
其中,zl是的拼接,先生成临时瓶颈融合形符/>i可取rgb,spec。l=5时/>之后对于每层Transformer而言计算过程变为:
作为本发明实施的一种实施方式,步骤S4中,解码器以编码器的输出Z以及一段描述w≤t=(w1,w2,...,wt)的词嵌入表示e≤t=(e1,e2,...,et)作为输入,最终得到输出g≤t=(g1,g2,...,gt)。
作为本发明实施的一种实施方式,步骤S5中,将解码器的输出g≤t=(g1,g2,...,gt)最为输入通过SoftMax层得到每一个单词的概率分布;然后通过贪婪算法选出下一个单词,最终生成交通场景视频的文本语句描述。
本发明首先通过训练好的I3D模型和VGGish模型分别提取视频动作特征和音频特征,然后将其进行线性映射形成可以输入到Transformer的特征向量。再通过自注意力编码器同时训练两个模态的信息,然后在第四层编码器的输出部分在视频信息和音频信息中间插入注意力瓶颈信息,从而得到新的特征向量,然后输入到交叉注意力编码器进行多模态信息的融合;最终得到包含了多模态信息的向量映射,再将其输入到解码器当中,同时解码器还以视频描述的语句编码向量作为输入,通过解码器最终生成每一个单词的概率分布,从而通过贪婪算法输出单词,最终生成交通场景视频的文本语句描述。
实施例2:
本发明实施例提供一种基于多模态特征融合的交通场景视频描述生成方法,包括:
步骤S1、使用FFmpeg对视频进行抽帧处理fps设置为5,最大帧数设置为60。然后采用I3D模型对视频帧提取动作特征以及使用VGGish模型对视频数据集进行音频特征提取。本发明使用的I3D模型使用在kinetics数据集预训练得到的权重,VGGish使用在AudioSet数据集预训练得到的权重
步骤S2、对数据集中的视频描述语句进行词典对应统计即w≤t=(w1,w2,...,wt);并对词典中的单词进行热编码(one-hot)。由于文本数据的表示通常时比较稀疏的单词之间缺少关联性,因此可以通过嵌入不同大小的维度DT从而降低文本输入的维度,即通过将嵌入权重乘以得到更低维度的单词向量。之后为了使得Transformer模型能够感知单词向量中词语的序列顺序,通过正弦函数和余弦函数组合的方式为文本输入进行位置编码最终得到e≤t=(e1,e2,...,et)作为第一层解码器的输入。
步骤S3、将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合;具体为:
自注意力编码器可简化为zl+1=Encoder(zl),当即:
将提取的视频动作特征Vrgb和音频特征Vspec分别进行线性映射为512维度和128维度的向量进行拼接得到V=[Vrgb||Vspec]作为自注意力编码器的输入,先进行层归一化得到的归一化再输入到多头自注意力机制当中得到结果,
之后经过残差链接得到
在经过一次归一化之后经过全连接层得到输出zl+1,此时
在第四层自注意力编码器输出之间接入2个注意力瓶颈信息形符(tokens),则交叉注意力编码器的输入变为Z=[Zrgb||Zfsn||Zspec]。
首先生成临时瓶颈融合形符i可取rgb,spec。
l=5时,
之后对于每层Transformer而言计算过程变为:
步骤S4、将多模态信息融合结果输入到解码器,得到每一个单词的概率分布;具体为:解码器以一组嵌入字和编码的输出Zj作为输入,首先t时刻的嵌入字先进行层归一化处理,接着通过多头自注意力机制得到/>通过残差连接得到/>再进行一个层归一化得到/>与编码器得到的输出Zj一起输入到多头自注意力机制中计算过程如下:
最后经过一个全连接层计算:
FCN(x)=ReLU(xW1+b1)W2+b2
得到第l层解码器的输出
其中且偏执量b1、b2为可训练参数。
步骤S5、根据所述每一个单词的概率分布,得到交通场景视频的文本语句描述;具体为:在t时刻,生成器将解码器的输出作为输入,并在单词词典/>上生成概率分布。生成器通过将解码器的输出通过SoftMax函数得到每一个单词的概率分布p(t)=[0.013,0.571,0.025,0.023,0.019,…,0.001],并通过选择概率最高的单词作为下一个单词,此时序列为2的单词概率最高因此使将输出p(t)(2)所对应的单词。
实施例3:
如图2所示,本发明还公开一种基于多模态特征融合的交通场景视频描述生成装置,包括:
获取模块,用于获取视频特征信息和音频特征信息;
预处理模块,用于将所述视频特征信息和音频特征信息分别进行线性映射形成Transformer的特征向量;
融合模块,用于将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合;
解码模块,用于将多模态信息融合结果输入到解码器,得到每一个单词的概率分布;
生成模块,用于根据所述每一个单词的概率分布,得到交通场景视频的文本语句描述。
作为本发明实施例的一种实施方式,所述获取模块通过I3D模型和VGGish模型分别提取所述视频特征信息和音频特征信息。
作为本发明实施例的一种实施方式,所述融合模块包括:
第一编码单元,用于将所述Transformer的特征向量输入到多头自注意力编码器,得到第四层编码器输出的视频特征信息和音频特征信息;
第二编码单元,用于将所述第四层编码器输出的视频特征信息和音频特征信息以及注意力瓶颈信息输入到所述交叉注意力编码器进行多模态信息融合。
作为本发明实施例的一种实施方式,所述生成装置根据所述每一个单词的概率分布,通过贪婪算法选出下一个单词,得到交通场景视频的文本语句描述。
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (6)
1.一种基于多模态特征融合的交通场景视频描述生成方法,其特征在于,包括以下步骤:
步骤S1、获取视频特征信息和音频特征信息;
步骤S2、将所述视频特征信息和音频特征信息分别进行线性映射形成Transformer的特征向量;
步骤S3、将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合;
步骤S4、将多模态信息融合结果输入到解码器,得到每一个单词的概率分布;
步骤S5、根据所述每一个单词的概率分布,得到交通场景视频的文本语句描述;
其中,步骤S3中,将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合;具体为:
自注意力编码器简化为zl+1=Encoder(zl),当即:
将提取的视频动作特征Vrgb和音频特征Vspec分别进行线性映射为512维度和128维度的向量进行拼接得到V=[Vrgb||Vspec]作为自注意力编码器的输入,先进行层归一化得到的归一化再输入到多头自注意力机制当中得到结果,
之后经过残差链接得到
在经过一次归一化之后经过全连接层得到输出zl+1,此时
在第四层自注意力编码器输出之间接入2个注意力瓶颈信息形符则交叉注意力编码器的输入变为Z=[Zrgb||Zfsn∥Zspec];
首先生成临时瓶颈融合形符i取rgb,spec;
l=5时,
之后对于每层Transformer而言计算过程变为:
步骤S4中,将多模态信息融合结果输入到解码器,得到每一个单词的概率分布;具体为:解码器以一组嵌入字和编码的输出Zj作为输入,首先t时刻的嵌入字先进行层归一化处理,接着通过多头自注意力机制得到通过残差连接得到/>再进行一个层归一化得到与编码器得到的输出Zj一起输入到多头自注意力机制中计算过程如下:
最后经过一个全连接层计算:
FCN(x)=ReLU(xW1+b1)W2+b2
得到第l层解码器的输出
其中,且偏执量b1、b2为可训练参数;
步骤S5中,根据所述每一个单词的概率分布,得到交通场景视频的文本语句描述;具体为:在t时刻,生成器将解码器的输出作为输入,并在单词词典/>上生成概率分布;生成器通过将解码器的输出通过SoftMax函数得到每一个单词的概率分布p(t)=[0.013,0.571,0.025,0.023,0.019,…,0.001],并通过选择概率最高的单词作为下一个单词,此时序列为2的单词概率最高因此使将输出p(t)(2)所对应的单词。
2.如权利要求1所述的基于多模态特征融合的交通场景视频描述生成方法,其特征在于,步骤S1中,通过I3D模型和VGGish模型分别提取所述视频特征信息和音频特征信息。
3.如权利要求2所述的基于多模态特征融合的交通场景视频描述生成方法,其特征在于,步骤S5、根据所述每一个单词的概率分布,通过贪婪算法选出下一个单词,得到交通场景视频的文本语句描述。
4.一种实现如权利要求1至3任一项所述方法的基于多模态特征融合的交通场景视频描述生成装置,其特征在于,包括:
获取模块,用于获取视频特征信息和音频特征信息;
预处理模块,用于将所述视频特征信息和音频特征信息分别进行线性映射形成Transformer的特征向量;
融合模块,用于将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合;
解码模块,用于将多模态信息融合结果输入到解码器,得到每一个单词的概率分布;
生成模块,用于根据所述每一个单词的概率分布,得到交通场景视频的文本语句描述;
其中,所述融合模块包括:
第一编码单元,用于将所述Transformer的特征向量输入到多头自注意力编码器,得到第四层编码器输出的视频特征信息和音频特征信息;
第二编码单元,用于将所述第四层编码器输出的视频特征信息和音频特征信息以及注意力瓶颈信息输入到所述交叉注意力编码器进行多模态信息融合。
5.如权利要求4所述的基于多模态特征融合的交通场景视频描述生成装置,其特征在于,所述获取模块通过I3D模型和VGGish模型分别提取所述视频特征信息和音频特征信息。
6.如权利要求5所述的基于多模态特征融合的交通场景视频描述生成装置,其特征在于,所述生成装置根据所述每一个单词的概率分布,通过贪婪算法选出下一个单词,得到交通场景视频的文本语句描述。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211113115.2A CN115496134B (zh) | 2022-09-14 | 2022-09-14 | 基于多模态特征融合的交通场景视频描述生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211113115.2A CN115496134B (zh) | 2022-09-14 | 2022-09-14 | 基于多模态特征融合的交通场景视频描述生成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115496134A CN115496134A (zh) | 2022-12-20 |
CN115496134B true CN115496134B (zh) | 2023-10-03 |
Family
ID=84467914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211113115.2A Active CN115496134B (zh) | 2022-09-14 | 2022-09-14 | 基于多模态特征融合的交通场景视频描述生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115496134B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089654B (zh) * | 2023-04-07 | 2023-07-07 | 杭州东上智能科技有限公司 | 一种基于音频监督的可转移视听文本生成方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069361A (zh) * | 2020-08-27 | 2020-12-11 | 新华智云科技有限公司 | 一种基于多模态融合的视频描述文本生成方法 |
CN113806587A (zh) * | 2021-08-24 | 2021-12-17 | 西安理工大学 | 一种多模态特征融合的视频描述文本生成方法 |
CN114359768A (zh) * | 2021-09-30 | 2022-04-15 | 中远海运科技股份有限公司 | 一种基于多模态异质特征融合的视频密集事件描述方法 |
CN114461851A (zh) * | 2021-12-16 | 2022-05-10 | 苏州零样本智能科技有限公司 | 一种可交互Transformer的多模态视频密集事件描述算法 |
-
2022
- 2022-09-14 CN CN202211113115.2A patent/CN115496134B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069361A (zh) * | 2020-08-27 | 2020-12-11 | 新华智云科技有限公司 | 一种基于多模态融合的视频描述文本生成方法 |
CN113806587A (zh) * | 2021-08-24 | 2021-12-17 | 西安理工大学 | 一种多模态特征融合的视频描述文本生成方法 |
CN114359768A (zh) * | 2021-09-30 | 2022-04-15 | 中远海运科技股份有限公司 | 一种基于多模态异质特征融合的视频密集事件描述方法 |
CN114461851A (zh) * | 2021-12-16 | 2022-05-10 | 苏州零样本智能科技有限公司 | 一种可交互Transformer的多模态视频密集事件描述算法 |
Also Published As
Publication number | Publication date |
---|---|
CN115496134A (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209801B (zh) | 一种基于自注意力网络的文本摘要自动生成方法 | |
CN110795556B (zh) | 一种基于细粒度插入式解码的摘要生成方法 | |
CN107979764B (zh) | 基于语义分割和多层注意力框架的视频字幕生成方法 | |
CN111177366B (zh) | 一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统 | |
CN109522403B (zh) | 一种基于融合编码的摘要文本生成方法 | |
CN111737511B (zh) | 基于自适应局部概念嵌入的图像描述方法 | |
CN111325660B (zh) | 一种基于文本数据的遥感图像风格转换方法 | |
CN113343705A (zh) | 一种基于文本语义的细节保持图像生成方法及系统 | |
CN113901894A (zh) | 一种视频生成方法、装置、服务器及存储介质 | |
CN113392717B (zh) | 一种基于时序特征金字塔的视频密集描述生成方法 | |
CN111402365B (zh) | 一种基于双向架构对抗生成网络的由文字生成图片的方法 | |
CN111368142B (zh) | 一种基于生成对抗网络的视频密集事件描述方法 | |
CN113140023B (zh) | 一种基于空间注意力的文本到图像生成方法及系统 | |
CN107463928A (zh) | 基于ocr和双向lstm的文字序列纠错算法、系统及其设备 | |
CN115496134B (zh) | 基于多模态特征融合的交通场景视频描述生成方法和装置 | |
CN113423004B (zh) | 基于解耦译码的视频字幕生成方法和系统 | |
CN112070114A (zh) | 基于高斯约束注意力机制网络的场景文字识别方法及系统 | |
CN115934932A (zh) | 一种基于多模态关键信息分析的摘要生成系统 | |
CN114627162A (zh) | 一种基于视频上下文信息融合的多模态密集视频描述方法 | |
CN115512195A (zh) | 一种基于多交互信息融合的图像描述方法 | |
CN117421591A (zh) | 一种基于文本引导图像块筛选的多模态表征学习方法 | |
CN116933051A (zh) | 一种用于模态缺失场景的多模态情感识别方法及系统 | |
CN113420179B (zh) | 基于时序高斯混合空洞卷积的语义重构视频描述方法 | |
CN113065496B (zh) | 神经网络机器翻译模型训练方法、机器翻译方法和装置 | |
CN114332479A (zh) | 一种目标检测模型的训练方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |