CN114339450B - 视频评论生成方法、系统、设备及存储介质 - Google Patents

视频评论生成方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN114339450B
CN114339450B CN202210235882.4A CN202210235882A CN114339450B CN 114339450 B CN114339450 B CN 114339450B CN 202210235882 A CN202210235882 A CN 202210235882A CN 114339450 B CN114339450 B CN 114339450B
Authority
CN
China
Prior art keywords
modal
sequence
information
lemmas
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210235882.4A
Other languages
English (en)
Other versions
CN114339450A (zh
Inventor
毛震东
张勇东
张菁菁
方山城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210235882.4A priority Critical patent/CN114339450B/zh
Publication of CN114339450A publication Critical patent/CN114339450A/zh
Application granted granted Critical
Publication of CN114339450B publication Critical patent/CN114339450B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种视频评论生成方法、系统、设备及存储介质,通过将每个模态的所有元素映射到一个公共语义嵌入空间中,能够充分提取各模态的上下文信息,显式地对多个模态信息进行交互,实现跨模态数据间的语义关联;而且通过构造语义图结构并进行解码,不仅能够生成丰富多样的评论,还能够直接利用提取出的内容语义标签,确保了和视频内容表达的统一。

Description

视频评论生成方法、系统、设备及存储介质
技术领域
本发明涉及自然语言生成技术领域,尤其涉及一种视频评论生成方法、系统、设备及存储介质。
背景技术
从复杂的视频数据中理解视频内容和自动标注对人工智能如何为发展网络共享媒体赋能至关重要。评论是目前媒体平台最常见的文本形式之一。与其他文本形式不同,视频评论能够反映当前视频的主要内容和评论者的情感。早期的方法将视频信息视为由图像组成的序列信息,并通过视觉模型进行特征提取和序列关系建模。然而,这样的方法在实际场景中并不适用。首先,实际场景包括诸多无用的视频帧,给模型带来噪声信息;其次,评论普遍较短,具备概括性和非结构性,由视觉模态特征直接解码生成,难度较大。
传统的视频评论生成方法存在如下技术问题:1)将视频看做由一系列图片在时间帧上的连续排列,通过设计关键帧识别与提取以及复杂的帧内和帧间特征学习模块来理解视频内容,需要依赖大量的高质量视频标记数据(人工标记数据)来进行模型训练,而大量的高质量视频标记数据在现实中难以获取。2)需要基于情感倾向、内容主题等上下文精细地设定模版和语法规则以生成评论,同样受到人工成本的限制,同时生成内容短浅且模式单一,难以满足语言文字的创造性和变化性。3)缺乏对视频中的其他有价值的信息(如语音、字幕)的利用,当对视频内容理解不准确时,存在生成评论效果不佳的问题。
发明内容
本发明的目的是提供一种视频评论生成方法、系统、设备及存储介质,不仅能够生成丰富多样的评论文本,还能够确保评论文本和视频内容表达的统一;此外,也无需大量的高质量视频标记数据,从而降低人工成本。
本发明的目的是通过以下技术方案实现的:
一种视频评论生成方法,包括:
获取包含多模态信息的视频数据,对每一模态信息各自进行特征提取与类别预测,将所有模态信息类别预测结果对应的文本名称嵌入到共同的语义空间中,获得多模态词元序列;
将所述多模态词元序列输入至多模态词元交互模块,每一词元都与其他任意模态的词元进行交互,获得建立模态间和模态内关系后的词元组成的多模态序列;对所述多模态序列进行评分,利用获得的所述多模态序列中每一词元的重要性得分和不同词元之间的相关性得分,构造包含多个模态信息的语义图;
对所述包含多个模态信息的语义图进行解码,获得预测文本。
一种视频评论生成系统,该系统包括:
多模态序列建模子模块,用于获取包含多模态信息的视频数据,对每一模态信息各自进行特征提取与类别预测,将所有模态信息类别预测结果对应的文本名称嵌入到共同的语义空间中,获得多模态词元序列;
语义图构造子模块,用于将所述多模态词元序列输入至多模态词元交互模块,每一词元都与其他任意模态的词元进行交互,获得建立模态间和模态内关系后的词元组成的多模态序列;对所述多模态序列进行评分,利用获得的所述多模态序列中每一词元的重要性得分和不同词元之间的相关性得分,构造包含多个模态信息的语义图;
评论文本预测子模块,用于对所述包含多个模态信息的语义图进行解码,获得预测文本结果。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,通过将每个模态的所有元素映射到一个公共语义嵌入空间中,能够充分提取各模态的上下文信息,显式地对多个模态信息进行交互,实现跨模态数据间的语义关联;而且通过构造语义图结构并进行解码,不仅能够生成丰富多样的评论,还能够直接利用提取出的内容语义标签(即多模态序列建模时获得的各模态信息类别预测结果),确保了和视频内容表达的统一。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种视频评论生成方法的整体框架示意图;
图2为本发明实施例提供的可微分的多模态分词策略示意图;
图3为本发明实施例提供的包含两部分多模态Transformer网络及动态指针网络的原理示意图;
图4为本发明实施例提供的一种视频评论生成系统的示意图;
图5为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
为了解决传统的视频评论生成方法存在的诸多技术问题,本发明提供的一种视频评论生成方案,通过建立视频内容对应的文本和视频数据的对应关系进行信息挖掘,从而从文本层次来实现对视频中多个模态数据的理解,能够兼顾生成效果的多样性和准确性。
下面对本发明所提供的一种视频评论生成方案进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
实施例一
如图1所示,一种视频评论生成方法,主要包括如下步骤:
步骤1、获取包含多模态信息的视频数据,对每一模态信息各自进行特征提取与类别预测,将所有模态信息类别预测结果对应的文本名称嵌入到共同的语义空间中,获得多模态词元序列。
步骤2、将所述多模态词元序列输入至多模态词元交互模块,每一词元都与其他任意模态的词元进行交互,获得建立模态间和模态内关系后的词元组成的多模态序列;对所述多模态序列进行评分,利用获得的所述多模态序列中每一词元的重要性得分和不同词元之间的相关性得分,构造包含多个模态信息的语义图。
步骤3、对所述包含多个模态信息的语义图进行解码,获得预测文本。
图1展示了上述方法的整体框架,上述方法中获得多模态词元序列的步骤(即步骤1),获得多模态序列并构造包含多个模态信息的语义图的步骤(即步骤2),以及获得预测文本结果的步骤(即步骤3)各自通过一个子模块完成,三个子模块构成了图1所示的网络模型(视频评论生成模型)。
图1的多模态序列建模子模块主要执行前述步骤1,具体的:对于给定的包含多模态信息的视频数据,通过视觉特征提取网络(Video Backbone)、文本特征提取网络(TextBackbone)、语音特征提取网络(Audio Backbone)各自提取视觉特征、文本特征、语音特征,利用特定于模态的预训练分类器来获得每个模态的类别预测结果;然后,通过可微分的多模态分词策略,将类别预测结果对应的文本名称嵌入到共同的语义空间中,这使得整体框架支持端到端训练。
本领域技术人员可以理解,Backbone主要是指主干网络,一般设于模型前端,是用于特征提取的网络。
图1的语义图构造子模块主要执行前述步骤2,具体的:通过将所有模态的特征输入多模态transformer网络(即Multimodal Transformer,多模态词元交互模块)实现多个模态之间的交互和融合,由于在序列模型中,每个基本词单元(token,文中简称为“词元”)都可以关注到其他任意模态的全部词元,因此仅需让输出序列通过预测层即可得到每个词元的重要性得分和不同词元之间的相关性得分,基于词元的重要性得分和不同词元之间的相关性得分筛选出一系列词元,从而构造包含多个模态信息的语义图。
图1的语言模型为评论文本预测子模块,主要执行前述步骤3,基于语言模型对语义图进行解码,输入为语义图中的词元序列,输出预测文本。
为了便于理解,下面针对上述三个步骤的优选实施方式,以及训练的整体损失函数做详细的介绍。
一、多模态序列建模。
本发明实施例中,将包含多模态信息的视频数据表示为
Figure 364246DEST_PATH_IMAGE001
,其中,
Figure 700549DEST_PATH_IMAGE002
对应视觉模态,
Figure 285114DEST_PATH_IMAGE003
对应文本模态,
Figure 656053DEST_PATH_IMAGE004
对应语音模态,即
Figure 667871DEST_PATH_IMAGE005
分别为视觉信息、文本信息、语音信息。
本发明实施例中,通过挖掘视频中视觉、文本、语音三个模态的信息,在公共语义空间进行了关联性建模,得到了具备丰富上下文信息的多模态序列表示;并提出了一种简单有效、无须设计额外融合模块的多个模态的序列建模方式,通过各模态的预训练分类器在预定义的语言词汇表之上预测类别,将来自不同模态的输入信号映射到公共语义语言空间来执行模态融合。主要说明如下:
1、使用
Figure 757050DEST_PATH_IMAGE006
表示三种模态的特征提取网络(Video Backbone、TextBackbone、Audio Backbone),对于模态m对应的信息
Figure 879726DEST_PATH_IMAGE007
通过特征提取网络
Figure 574013DEST_PATH_IMAGE008
进行特征提取,并在预训练类别空间
Figure 756733DEST_PATH_IMAGE009
上实现类别预测。
下面针对三种模态的特征提取网络的特征提取技术进行介绍。
1)对于Video Backbone,同时提取2D-CNN和3D-CNN特征。对2D-CNN而言,先对video采样至1 fps且每一帧都统一到尺寸224×224,使用在Image Net上的预训练模型ResNet-152提取每帧的2048维视觉特征向量。将5秒作为一个片段,并计算每个片段的所有帧的特征平均值作为片段级别的特征。对于3D-CNN,采用预训练的ResNeXt-101 3D CNN模型对视频中的每 16个非重叠帧进行提取,得到2048维的特征向量序列。
2)对于Text Backbone,使用预先训练的 Faster RCNN模型检测出视觉对象,并通过Rosetta OCR识别10个OCR文本并提取Fast Text特征。
3)对于Audio Backbone,使用Audio Set上的预训练模型CNN14识别512个声学事件。以16000 Hz的频率从对应的视频片段中采样音频片段,然后对其进行处理,提取Log-mel谱图,并输入至CNN14。
以上三种模态的特征提取网络都是在各自领域已有的并且得到广泛使用的预训练网络,它们均不参与后续模型的参数更新。
对于不同模态m,可根据实际情况或者经验设定相应的类别数
Figure 67628DEST_PATH_IMAGE010
。示例性的,可以设定Video Backbone、Text Backbone和Audio Backbone输出特征中预测事件的类别总数分别为10、15、6。
使用预训练分类器来获得每一模态信息的类别预测结果,类别预测结果表示为:
Figure 993996DEST_PATH_IMAGE011
Figure 339527DEST_PATH_IMAGE012
其中,
Figure 693148DEST_PATH_IMAGE013
是预训练分类器对
Figure 756918DEST_PATH_IMAGE014
的归一化概率输出,
Figure 486977DEST_PATH_IMAGE014
表示通过特征提取网络
Figure 687014DEST_PATH_IMAGE008
对模态m对应的信息
Figure 208607DEST_PATH_IMAGE007
进行特征提取,
Figure 494095DEST_PATH_IMAGE015
表示信息
Figure 231107DEST_PATH_IMAGE007
中的单个元素;c表示单个类别,
Figure 285650DEST_PATH_IMAGE010
表示类别数目,
Figure 981074DEST_PATH_IMAGE016
2、对于每一模态信息的类别预测结果,从中采样多个类别,将所有采样类别转换为一组文本嵌入向量。
其中,对于模态m,从类别预测结果中采样
Figure 753858DEST_PATH_IMAGE017
个类别,将
Figure 825719DEST_PATH_IMAGE017
个采样类别转换为一组文本嵌入向量
Figure 348DEST_PATH_IMAGE018
,即模态m的词元序列,模态m的词元序列中词元数目等于采样类别数
Figure 132252DEST_PATH_IMAGE017
;在每一个采样类别转换为文本嵌入向量的过程中,先计算类别名(文本名称),再通过矩阵运算获得对应的文本嵌入向量,表示为:
Figure 126753DEST_PATH_IMAGE019
其中,
Figure 2305DEST_PATH_IMAGE020
表示模态m的采样类别
Figure 765862DEST_PATH_IMAGE021
的one-hot编码向量(独热编码向量),
Figure 68667DEST_PATH_IMAGE022
表示模态m的所有
Figure 550464DEST_PATH_IMAGE010
个类别组成的集合的向量形式,
Figure 964128DEST_PATH_IMAGE023
表示模态m的采样类别
Figure 847770DEST_PATH_IMAGE021
对应的类别名,
Figure 321477DEST_PATH_IMAGE024
Figure 293500DEST_PATH_IMAGE025
维可学习的嵌入层(embedding层);
Figure 510854DEST_PATH_IMAGE026
表示模态m的采样类别
Figure 249003DEST_PATH_IMAGE021
对应的类别名的文本嵌入向量,对应一个词元,采样类别数
Figure 893611DEST_PATH_IMAGE017
为设定的正整数,
Figure 350000DEST_PATH_IMAGE027
本领域技术人员可以理解,类别名是指相应类别对应的具体的词,例如,图2中的“树”为一个类别名,在计算需要将类别名转换为相应的向量表示。
在训练过程中,直接选择最大的预测输出将会丢失预测分布中的丰富信息,且会导致训练过程产生偏差,因此采样操作是必要的。为了使采样操作可导,利用Gumbel-Softmax技巧和分词的微分近似,图2展示了可微分的多模态分词策略。具体的:在训练过程中,归一化概率输出
Figure 105467DEST_PATH_IMAGE028
上添加Gumbel噪声
Figure 698122DEST_PATH_IMAGE029
实现重参数化,重参数化后的归一化概率输出记为
Figure 248052DEST_PATH_IMAGE030
,结合Straight-Through Estimator,在训练过程的前向传播中,对重参数化后的归一化概率输出
Figure 191737DEST_PATH_IMAGE030
采样前K个类别(K为正整数,具体数值可根据情况或者经验自行设定);通过反向传播更新
Figure 750895DEST_PATH_IMAGE025
维可学习的嵌入层
Figure 463636DEST_PATH_IMAGE031
的参数;在反向传播中单个类别c的梯度如下:
Figure 450046DEST_PATH_IMAGE032
其中,
Figure 881028DEST_PATH_IMAGE033
c’与c均表示单个类别,
Figure 978297DEST_PATH_IMAGE034
表示梯度算子。
本领域技术人员可以理解,Gumbel-Softmax、Gumbel噪声与Straight-ThroughEstimator均为专有名称,前两个专有名称无对应中文名称,Straight-Through Estimator可以翻译为直通估计器。
3、通过上述方式,对所有模态都进行处理后,最终获得的多模态词元序列表示为
Figure 811124DEST_PATH_IMAGE035
Figure 968435DEST_PATH_IMAGE036
分别表示视觉模态、文本模态、语音模态的词元序列中词元数目,
Figure 641641DEST_PATH_IMAGE002
对应视觉模态,
Figure 542601DEST_PATH_IMAGE003
对应文本模态,
Figure 433197DEST_PATH_IMAGE004
对应语音模态,多模态词元序列中的单个元素表示单个词元。通过设计上述策略,使得整个模块包括特定模块分类器在内都能够端到端地训练。
需要说明的是,图1与图2中生成的各类文本内容仅为举例说明。
二、多模态序列的语义图构造。
本发明实施例中,多模态词元交互模块可以通过一个L层的多模态Transformer网络(Multimodal Transformer layers)实现。每一个多模态Transformer层由一系列的多头注意力层及feed-forward前馈网络构成,并配有残差连接及层归一化方法。通过多头自注意机制,允许每个词元自由地关注其他模态的任意词元。这使得本发明可以通过相同的Transformer层,以相同的方式对模态间和模态内关系进行建模。多模态Transformer网络的输出每个词元的d维特征,是它们在多模态上下文中丰富的嵌入向量表示。
考虑到后续解码网络也包含一个多模态Transformer网络,为了区分,此处所使用的是第一多模态Transformer网络,解码网络使用的是第二多模态Transformer网络。两个多模态Transformer网络共享参数。
多模态序列的语义图构造流程可以描述为:
1、通过所述第一多模态Transformer网络对模态间和模态内词元的关系进行建模,输入多模态词元序列
Figure 761410DEST_PATH_IMAGE035
Figure 901404DEST_PATH_IMAGE036
分别表示视觉模态、文本模态、语音模态词元序列中词元数目,
Figure 340476DEST_PATH_IMAGE002
对应视觉模态,
Figure 882316DEST_PATH_IMAGE003
对应文本模态,
Figure 381430DEST_PATH_IMAGE004
对应语音模态,序列中的单个元素表示单个词元;输出多模态序列
Figure 8721DEST_PATH_IMAGE037
,多模态序列中单个元素表示建立模态间和模态内词元的关系后的词元(即多模态词元)。
本发明实施例中,多模态词元序列包含了三个模态的词元序列,每一个模态的词元序列都是利用各自模态内部信息处理得到;而上述多模态序列中每一个元素都融合了其他模态的信息,从而构成的新的序列。
如图3所示,展示了第一多模态Transformer网络与第二多模态Transformer网络的原理,由于此处的第一多模态Transformer网络与解码网络中的第二多模态Transformer网络可以共享网络参数,且主要原理类似,因此可以一并理解。对于第一多模态Transformer网络而言,其输入即仅包含图3底部左侧的三个部分:视觉信息词元嵌入向量(video token embedding)、文本信息词元嵌入向量(text token embedding)、语音信息词元嵌入向量(Audio token embedding),这三个部分即为前文所述的多模态词元序列
Figure 517062DEST_PATH_IMAGE035
,这三个部分在所涉及的相关模态的token即为多模态词元序列中的单个词元。
本发明实施例中,将第一多模态Transformer网络中的多头注意力机制自我注意应用于模态间和模态内上下文语境,自然地实现了每个模态元素的交互,提取出视频多个关键语义信息组和组内语义关联性结构。
2、利用线性层
Figure 913409DEST_PATH_IMAGE038
,预测多模态序列
Figure 583424DEST_PATH_IMAGE037
中每一词元的重要性得分,表示为:
Figure 698011DEST_PATH_IMAGE039
其中,z表示多模态序列
Figure 744464DEST_PATH_IMAGE040
中的单个词元,
Figure 198579DEST_PATH_IMAGE041
表示单个词元的重要性得分。
根据词元的重要性得分大小选出关键词元
Figure 39497DEST_PATH_IMAGE042
,利用RNN(循环神经网络)模型以关键词元
Figure 641379DEST_PATH_IMAGE042
初始化隐藏层状态,对关键词元
Figure 225944DEST_PATH_IMAGE043
与多模态序列
Figure 599812DEST_PATH_IMAGE040
中其他词元之间的相关性(潜在依赖)进行建模,并计算相关性得分,利用相关性得分筛选出相关词元集合,再构建以关键词元
Figure 611631DEST_PATH_IMAGE042
为中心的语义图
Figure 966389DEST_PATH_IMAGE044
,表示为:
Figure 89066DEST_PATH_IMAGE045
Figure 314511DEST_PATH_IMAGE046
Figure 966072DEST_PATH_IMAGE047
其中,式子
Figure 73705DEST_PATH_IMAGE048
表示利用RNN模型建模关键词元
Figure 203335DEST_PATH_IMAGE042
与多模态序列
Figure 548866DEST_PATH_IMAGE040
中其他词元的相关性,RNN模型即为循环神经网络模型;式子
Figure 902487DEST_PATH_IMAGE049
表示计算关键词元
Figure 966258DEST_PATH_IMAGE042
与多模态序列
Figure 696316DEST_PATH_IMAGE040
中其他词元的相关性得分,σ表示激活函数,
Figure 896353DEST_PATH_IMAGE050
表示线性变换;
Figure 420876DEST_PATH_IMAGE051
表示设定的阈值,它是一个超参,例如,可以设置
Figure 706363DEST_PATH_IMAGE052
Figure 177796DEST_PATH_IMAGE053
表示多模态序列
Figure 232340DEST_PATH_IMAGE040
中除去关键词元
Figure 193343DEST_PATH_IMAGE042
外的其他单个词元与关键词元
Figure 963197DEST_PATH_IMAGE043
的相关性得分,
Figure 769479DEST_PATH_IMAGE054
表示利用设定的阈值
Figure 209687DEST_PATH_IMAGE051
筛选出的相关词元集合。
训练阶段,关键词元
Figure 76012DEST_PATH_IMAGE043
为重要性得分最高的一个词元,即
Figure 336092DEST_PATH_IMAGE055
,并利用关键词元与关键词元相关的多个词元构建一个语义图;推理阶段,关键词元为重要性得分最高的多个词元,选出多个关键词元后,对于每一关键词元,利用与其相关的多个词元构建一个语义图,推理阶段所选出的关键词元数据可根据实际情况或者经验自行设定。
三、基于语义图的文本生成。
得到语义图
Figure 946065DEST_PATH_IMAGE044
之后,通过解码网络获得预测文本。如图3所示,解码网络包含多模态Transformer网络与动态指针网络(dynamic pointer network),如之前所述,将此部分所涉及的多模态Transformer网络称为第二多模态Transformer网络,与第一多模态Transformer网络共享参数。
在训练过程中,每一次都取重要性得分最高词元作为关键词源,因此,将构建出的单个语义图作为当前视频的全局表示,输出单个预测文本;但是,在推理过程中,会选出多个关键词源,因此,可以构建多个语义图,每个语义图都将对应一个预测文本,从而实现预测文本的多样性。
本发明实施例中,解码网络基于自回归的方式逐字符解码,输入为语义图
Figure 975201DEST_PATH_IMAGE044
,通过所述第二多模态Transformer网络对所述语义图
Figure 481269DEST_PATH_IMAGE044
中所有词元(包括关键词元与相关词元集合)构成的输入序列进行编码;第一个时间步,利用第二多模态Transformer网络编码时的隐状态向量结合词汇表,输出第一个预测字符;之后的时间步中,会结合上一时间步输出的预测字符输出当前时间步的预测字符,此时的预测字符为多模态序列的某个的词元,或者来自词汇表的词汇。
图3中的绘制的多模态Transformer网络同时展示了两个多模态Transformer网络的输入信息;对于第二多模态Transformer网络而言,左侧三部分输入会更改为语义图
Figure 963066DEST_PATH_IMAGE044
中所有词元构成的输入序列,最右侧的输入部分即为之前所有时间步的预测字符,<begin>为开始符号,其中上一个时间步的预测字符的相关信息与参与当前时间步的预测;右上角为动态指针网络输出的一系列概率。
解码网络的主要流程如下:时间步t时,将所述第二多模态Transformer网络编码时的隐状态向量
Figure 376729DEST_PATH_IMAGE056
通过线性层获得第一组概率,即选择词汇表中每一词汇的概率,其中,选择词汇表中第o个词汇的概率
Figure 525951DEST_PATH_IMAGE057
表示为:
Figure 999658DEST_PATH_IMAGE058
其中,
Figure 968751DEST_PATH_IMAGE059
表示对应于词汇表中第o个词汇的权重向量,
Figure 920526DEST_PATH_IMAGE060
表示对应于词汇表中第o个词汇的偏置参数;当t=1时,隐状态向量
Figure 127517DEST_PATH_IMAGE056
通过输入的语义图产生;当
Figure 772125DEST_PATH_IMAGE061
时,隐状态向量
Figure 25251DEST_PATH_IMAGE056
通过输入的语义图
Figure 983980DEST_PATH_IMAGE044
与上一时间步t-1预测字符的相关信息产生,
Figure 579565DEST_PATH_IMAGE062
表示最大时间步。
本领域技术人员可以理解,词汇表是整个解码网络使用的词汇表,也即所选分词器对应的词汇表,它是固定的词汇表。每一时间步的输出可以是词汇表的某一个词汇也可以是直接复制多模态序列
Figure 395074DEST_PATH_IMAGE040
的某个词元。
t=1时,选择第一组概率中最大概率对应的词汇作为时间步1的预测字符。当
Figure 338760DEST_PATH_IMAGE063
时,通过动态指针网络,综合所述第一多模态Transformer网络输出的多模态序列
Figure 163496DEST_PATH_IMAGE040
和上一个时间步的预测结果获得第二组概率,即从多模态序列中选择各个词元的概率,其中,选择多模态序列
Figure 610658DEST_PATH_IMAGE040
中的第j个词元
Figure 597069DEST_PATH_IMAGE064
的概率
Figure 762471DEST_PATH_IMAGE065
表示为:
Figure 859740DEST_PATH_IMAGE066
其中,
Figure 958146DEST_PATH_IMAGE064
表示多模态序列
Figure 849878DEST_PATH_IMAGE040
中的第j个词元,
Figure 768156DEST_PATH_IMAGE067
,这里主要是考虑到
Figure 669116DEST_PATH_IMAGE040
中的词元存在三种表达形式,因此为了便于表示统一定义为
Figure 90870DEST_PATH_IMAGE064
形式。
Figure 419083DEST_PATH_IMAGE068
表示时间步t的隐状态向量,通过输入的语义图
Figure 762340DEST_PATH_IMAGE044
与上一时间步t-1的预测字符的相关信息产生,
Figure 466990DEST_PATH_IMAGE069
Figure 8830DEST_PATH_IMAGE070
表示
Figure 505015DEST_PATH_IMAGE068
对应的权重与偏置参数;
Figure 397885DEST_PATH_IMAGE071
Figure 640647DEST_PATH_IMAGE072
表示
Figure 36993DEST_PATH_IMAGE064
对应的权重与偏置参数。
综合所述第一组概率与第二组概率,选择概率最大的词汇或者词元作为预测字符。如之前所述逐字符解码时,字符为某个模态的词元,或者来自固定的参考词汇表;因此,在迭代自回归解码过程中,如果上一时间步t-1输出的预测字符是来自多模态序列
Figure 707009DEST_PATH_IMAGE040
的词元,
Figure 24858DEST_PATH_IMAGE061
,则将词元对应的向量输入至所述第二多模态Transformer网络,由所述第二多模态Transformer网络结合词元对应的向量输出时间步t的隐状态向量
Figure 805732DEST_PATH_IMAGE056
;如果上一时间步t-1输出的预测字符是来自词汇表中的词汇,
Figure 322164DEST_PATH_IMAGE063
,则将词汇对应的权重向量(例如,前述公式中的
Figure 163081DEST_PATH_IMAGE059
)输入至所述第二多模态Transformer网络,由所述第二多模态Transformer网络结合词汇对应的权重向量输出时间步t的隐状态向量
Figure 764964DEST_PATH_IMAGE056
。此外,还添加了两个额外的d维向量作为输入,第一个d维向量是位置编码向量,它对应于当前时间步;第二个d维向量是类型编码向量,用来表示之前的预测输出是来自多模态词元还是固定的词汇表。
按照时间步的顺序综合所有预测字符,组成预测文本。
本领域技术人员可以理解,最大时间步
Figure 615108DEST_PATH_IMAGE062
是指预测字符为<EoS>的时间步,也就是说,按照上述解码流程,当某一时间步输出的预测字符为<EoS>时,即表明到达最大时间步,停止解码流程。
上述迭代自回归解码过程中,引入了动态指针网络,形成一种基于动态复制的迭代解码方式,通过多步预测而不是一步生成序列,引入动态指针网络后,原来的解码层不仅可以输出固定的参考词汇表中的词汇同时还具备了从输入序列中动态复制的能力,兼顾了生成效果的多样性和准确性。
示例性的,可以设置多模态Transformer网络的层数为4,且多头自注意机制的个数为12,隐藏层维度d为1024,预测文本序列是解码最大步数
Figure 986047DEST_PATH_IMAGE062
为16。
四、训练的整体损失函数。
如之前所述,前述三个步骤都各自通过一个子模块来完成,三个子模块构成视频评论生成模型,记为
Figure 997865DEST_PATH_IMAGE073
。视频评论生成方法的过程描述为:
Figure 821465DEST_PATH_IMAGE074
Figure 412983DEST_PATH_IMAGE075
表示预测文本,
Figure 638428DEST_PATH_IMAGE076
中的每一个元素表示一个时间步的预测字符,
Figure 821148DEST_PATH_IMAGE062
表示预测文本中预测字符的数目,等同于解码时的最大时间步,
Figure 663202DEST_PATH_IMAGE077
表示视频评论生成模型待学习的参数矩阵(包含三个子模块中所有待学习的参数),设定y表示训练时给定的ground-truth(标注信息)。
所述视频评论生成模型通过端到端的方式进行训练,损失函数表示为:
Figure 326920DEST_PATH_IMAGE078
其中,w表示视频评论生成模型待学习的参数矩阵W中的单个参数向量,Cross- Entropy表示交叉熵损失,
Figure 672450DEST_PATH_IMAGE079
表示
Figure 291651DEST_PATH_IMAGE080
对应的标注信息,
Figure 89842DEST_PATH_IMAGE081
本发明实施例上述方案,通过将每个模态的所有元素映射到一个公共语义嵌入空间中,能够充分提取各模态的上下文信息,显式地对多个模态信息进行交互,实现跨模态数据间的语义关联;而且通过构造语义图结构并进行解码,不仅能够生成丰富多样的评论,还能够直接利用提取出的内容语义标签,确保了和视频内容表达的统一。
实施例二
本发明还提供一种视频评论生成系统,其主要基于前述实施例一提供的方法实现,如图4所示,该系统主要包括:
多模态序列建模子模块,用于获取包含多模态信息的视频数据,对每一模态信息各自进行特征提取与类别预测,将所有模态信息类别预测结果对应的文本名称嵌入到共同的语义空间中,获得多模态词元序列;
语义图构造子模块,用于将所述多模态词元序列输入至多模态词元交互模块,每一词元都与其他任意模态的词元进行交互,获得建立模态间和模态内关系后的词元组成的多模态序列;对所述多模态序列进行评分,利用获得的所述多模态序列中每一词元的重要性得分和不同词元之间的相关性得分,构造包含多个模态信息的语义图;
评论文本预测子模块,用于对所述包含多个模态信息的语义图进行解码,获得预测文本结果。
如图4所示的主要结构可知,该系统包含前述实施例一中所述的网络模型,该网络模型对应各个步骤的主要工作原理在之前的实施例一中已经做了详细的介绍,故不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例三
本发明还提供一种处理设备,如图5所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (9)

1.一种视频评论生成方法,其特征在于,包括:
获取包含多模态信息的视频数据,对每一模态信息各自进行特征提取与类别预测,将所有模态信息类别预测结果对应的文本名称嵌入到共同的语义空间中,获得多模态词元序列;
将所述多模态词元序列输入至多模态词元交互模块,每一词元都与其他任意模态的词元进行交互,获得建立模态间和模态内关系后的词元组成的多模态序列;对所述多模态序列进行评分,利用获得的所述多模态序列中每一词元的重要性得分和不同词元之间的相关性得分,构造包含多个模态信息的语义图;
对所述包含多个模态信息的语义图进行解码,获得预测文本;
其中,对所述包含多个模态信息的语义图进行解码,获得预测文本的步骤通过解码网络实现;
所述解码网络包括:第二多模态Transformer网络与动态指针网络;所述解码网络基于自回归的方式逐字符解码,按照时间步的顺序综合所有预测字符,组成预测文本;解码流程包括:
时间步t时,将所述第二多模态Transformer网络产生的隐状态向量
Figure 547306DEST_PATH_IMAGE001
通过线性层获得第一组概率,即选择词汇表中每一词汇的概率,其中,选择词汇表中第o个词汇的概率
Figure 507172DEST_PATH_IMAGE002
表示为:
Figure 689891DEST_PATH_IMAGE003
其中,
Figure 266366DEST_PATH_IMAGE004
表示对应于词汇表中第o个词汇的权重向量,
Figure 192734DEST_PATH_IMAGE005
表示对应于词汇表中第o个词汇的偏置参数;当t=1时,隐状态向量
Figure 269756DEST_PATH_IMAGE001
通过输入的语义图产生;当
Figure 888956DEST_PATH_IMAGE006
时,隐状态向量
Figure 687148DEST_PATH_IMAGE001
通过输入的语义图
Figure 417206DEST_PATH_IMAGE007
与上一时间步t-1预测字符的相关信息产生,
Figure 617243DEST_PATH_IMAGE008
表示最大时间步;
t=1时,选择第一组概率中最大概率对应的词汇作为时间步1的预测字符;
Figure 407345DEST_PATH_IMAGE009
时,通过动态指针网络计算第二组概率,综合所述第一组概率与第二组概率,选择概率最大的词汇或者词元作为预测字符;所述第二组概率为从多模态序列中选择各个词元的概率,其中,选择多模态序列中的第j个词元
Figure 692833DEST_PATH_IMAGE010
的概率
Figure 961003DEST_PATH_IMAGE011
表示为:
Figure 15547DEST_PATH_IMAGE012
其中,
Figure 976550DEST_PATH_IMAGE013
Figure 483754DEST_PATH_IMAGE014
表示隐状态向量
Figure 555615DEST_PATH_IMAGE001
对应的权重与偏置参数;
Figure 933507DEST_PATH_IMAGE015
Figure 799832DEST_PATH_IMAGE016
表示多模态序列中的第j个词元
Figure 59912DEST_PATH_IMAGE010
对应的权重与偏置参数;
其中,当
Figure 935464DEST_PATH_IMAGE009
时,隐状态向量
Figure 964600DEST_PATH_IMAGE001
通过输入的语义图
Figure 4756DEST_PATH_IMAGE007
与上一时间步预测字符的相关信息产生包括:如果上一时间步t-1输出的预测字符是来自多模态序列
Figure 752132DEST_PATH_IMAGE017
的词元,则将词元对应的向量输入至所述第二多模态Transformer网络,由所述第二多模态Transformer网络结合词元对应的向量输出时间步t的隐状态向量
Figure 165796DEST_PATH_IMAGE001
;如果上一时间步t-1输出的预测字符是来自词汇表中的词汇,则将词汇对应的权重向量输入至所述第二多模态Transformer网络,由所述第二多模态Transformer网络结合词汇对应的权重向量输出时间步t的隐状态向量
Figure 49438DEST_PATH_IMAGE001
2.根据权利要求1所述的一种视频评论生成方法,其特征在于,所述获取包含多模态信息的视频数据,对每一模态信息各自进行特征提取与类别预测包括:
将包含多模态信息的视频数据表示为
Figure 726407DEST_PATH_IMAGE018
,其中,
Figure 695500DEST_PATH_IMAGE019
对应视觉模态,
Figure 647276DEST_PATH_IMAGE020
对应文本模态,
Figure 651004DEST_PATH_IMAGE021
对应语音模态,
Figure 295612DEST_PATH_IMAGE022
分别为视觉信息、文本信息、语音信息;
使用
Figure 752001DEST_PATH_IMAGE023
表示三种模态的特征提取网络,对于模态m对应的信息
Figure 507467DEST_PATH_IMAGE024
通过特征提取网络
Figure 365702DEST_PATH_IMAGE025
进行特征提取,并在预训练类别空间
Figure 181211DEST_PATH_IMAGE026
上实现类别预测,类别预测结果表示为:
Figure 328159DEST_PATH_IMAGE027
Figure 621737DEST_PATH_IMAGE028
其中,
Figure 334478DEST_PATH_IMAGE029
是预训练分类器对
Figure 320888DEST_PATH_IMAGE030
的归一化概率输出,
Figure 751870DEST_PATH_IMAGE030
表示通过特征提取网络
Figure 869647DEST_PATH_IMAGE025
对模态m对应的信息
Figure 702473DEST_PATH_IMAGE024
进行特征提取,c表示单个类别,
Figure 859785DEST_PATH_IMAGE031
表示类别数目,
Figure 778063DEST_PATH_IMAGE032
表示信息
Figure 413443DEST_PATH_IMAGE024
中的单个元素;
Figure 304039DEST_PATH_IMAGE033
3.根据权利要求2所述的一种视频评论生成方法,其特征在于,所述将所有模态信息类别预测结果对应的文本名称嵌入到共同的语义空间中,获得多模态词元序列包括:
对于模态m,从类别预测结果中采样
Figure 632252DEST_PATH_IMAGE034
个类别,将
Figure 772246DEST_PATH_IMAGE034
个采样类别转换为一组文本嵌入向量,即模态m的词元序列,模态m的词元序列中词元数目等于采样类别数
Figure 476897DEST_PATH_IMAGE034
;其中,对于采样类别先计算类别名,再通过矩阵运算获得对应的文本嵌入向量,表示为:
Figure 18737DEST_PATH_IMAGE035
其中,
Figure 783431DEST_PATH_IMAGE036
表示模态m的采样类别
Figure 410721DEST_PATH_IMAGE037
的独热编码向量,
Figure 387904DEST_PATH_IMAGE038
表示模态m的所有
Figure 49830DEST_PATH_IMAGE031
个类别组成的集合的向量形式,
Figure 719846DEST_PATH_IMAGE039
表示模态m的采样类别
Figure 37695DEST_PATH_IMAGE037
对应的类别名,即文本名称,
Figure 818569DEST_PATH_IMAGE040
Figure 335001DEST_PATH_IMAGE041
维可学习的嵌入层,
Figure 178847DEST_PATH_IMAGE031
表示模态m的类别数目;
Figure 46309DEST_PATH_IMAGE042
表示模态m的采样类别
Figure 630874DEST_PATH_IMAGE037
对应的类别名的文本嵌入向量,对应一个词元;采样类别数
Figure 1813DEST_PATH_IMAGE034
为设定的正整数,
Figure 13631DEST_PATH_IMAGE043
Figure 837231DEST_PATH_IMAGE019
对应视觉模态,
Figure 225487DEST_PATH_IMAGE020
对应文本模态,
Figure 654194DEST_PATH_IMAGE021
对应语音模态;
对所有模态都进行处理后,获得的多模态词元序列,表示为
Figure 836914DEST_PATH_IMAGE044
Figure 413389DEST_PATH_IMAGE045
分别表示视觉模态、文本模态、语音模态的词元序列中词元数目。
4.根据权利要求3所述的一种视频评论生成方法,其特征在于,训练过程中,在归一化概率输出
Figure 339756DEST_PATH_IMAGE046
上添加Gumbel噪声
Figure 685287DEST_PATH_IMAGE047
实现重参数化,重参数化后的归一化概率输出记为
Figure 38908DEST_PATH_IMAGE048
,结合Straight-Through Estimator,在训练过程的前向传播中,对重参数化后的归一化概率输出
Figure 102679DEST_PATH_IMAGE048
采样前K个类别;通过反向传播更新
Figure 567158DEST_PATH_IMAGE049
维可学习的嵌入层
Figure 767195DEST_PATH_IMAGE050
的参数;在反向传播中单个类别c的梯度如下:
Figure 557297DEST_PATH_IMAGE051
其中,
Figure 780468DEST_PATH_IMAGE052
c’与c均表示单个类别,
Figure 108025DEST_PATH_IMAGE053
表示梯度算子,K为正整数,Straight-Through Estimator表示直通估计器。
5.根据权利要求1或3所述的一种视频评论生成方法,其特征在于,将所述多模态词元序列输入至多模态词元交互模块,每一词元都与其他任意模态的词元进行交互,获得建立模态间和模态内关系后的词元组成的多模态序列;对所述多模态序列进行评分,利用获得的所述多模态序列中每一词元的重要性得分和不同词元之间的相关性得分,构造包含多个模态信息的语义图包括:
所述多模态词元交互模块使用第一多模态Transformer网络实现,通过所述第一多模态Transformer网络对模态间和模态内词元的关系进行建模,输入多模态词元序列
Figure 365831DEST_PATH_IMAGE044
Figure 61255DEST_PATH_IMAGE045
分别表示视觉模态、文本模态、语音模态词元序列中词元的数目,
Figure 834039DEST_PATH_IMAGE019
对应视觉模态,
Figure 905900DEST_PATH_IMAGE020
对应文本模态,
Figure 80529DEST_PATH_IMAGE021
对应语音模态,序列中的单个元素表示单个词元,输出多模态序列
Figure 212433DEST_PATH_IMAGE054
;多模态序列中单个元素表示建立模态间和模态内关系后的词元;
利用线性层
Figure 206934DEST_PATH_IMAGE055
,预测多模态序列
Figure 82486DEST_PATH_IMAGE056
中每一词元的重要性得分,表示为:
Figure 314885DEST_PATH_IMAGE057
其中,z表示多模态序列
Figure 352111DEST_PATH_IMAGE017
中的单个词元,
Figure 99487DEST_PATH_IMAGE058
表示单个词元的重要性得分;
根据词元的重要性得分大小选出关键词元
Figure 513151DEST_PATH_IMAGE059
,训练阶段,选择的关键词元
Figure 396793DEST_PATH_IMAGE059
为重要性得分最高的一个词元;推理阶段,选择重要性得分最高的多个词元作为关键词元,即推理阶段,将选出多个关键词元;利用选择的每一关键词元构建对应的语义图,步骤包括:利用RNN模型以关键词元
Figure 604921DEST_PATH_IMAGE060
初始化隐藏层状态,对关键词元
Figure 574014DEST_PATH_IMAGE060
与多模态序列
Figure 56947DEST_PATH_IMAGE017
中其他词元之间的相关性进行建模,并计算相关性得分,利用相关性得分筛选出相关词元集合,再构建以关键词元
Figure 798026DEST_PATH_IMAGE060
为中心的语义图
Figure 442634DEST_PATH_IMAGE007
,表示为:
Figure 899023DEST_PATH_IMAGE061
Figure 654490DEST_PATH_IMAGE062
Figure 715986DEST_PATH_IMAGE063
其中,式子
Figure 531496DEST_PATH_IMAGE064
表示利用RNN模型建模关键词元
Figure 209602DEST_PATH_IMAGE059
与多模态序列
Figure 768759DEST_PATH_IMAGE017
中其他词元的相关性,RNN模型即为循环神经网络模型;式子
Figure 481500DEST_PATH_IMAGE065
表示计算关键词元
Figure 733490DEST_PATH_IMAGE059
与多模态序列
Figure 164471DEST_PATH_IMAGE017
中其他词元的相关性得分,σ表示激活函数,
Figure 261740DEST_PATH_IMAGE066
表示线性变换;
Figure 828988DEST_PATH_IMAGE067
表示设定的阈值;
Figure 986300DEST_PATH_IMAGE068
表示多模态序列
Figure 638998DEST_PATH_IMAGE017
中除去关键词元
Figure 743220DEST_PATH_IMAGE059
外的其他单个词元与关键词元
Figure 430553DEST_PATH_IMAGE069
的相关性得分,
Figure 758767DEST_PATH_IMAGE070
表示利用设定的阈值
Figure 895831DEST_PATH_IMAGE067
筛选出的相关词元集合。
6.根据权利要求1所述的一种视频评论生成方法,其特征在于,该方法中获得多模态词元序列的步骤,获得多模态序列并构造包含多个模态信息的语义图的步骤,以及获得预测文本结果的步骤各自通过一个子模块完成,三个子模块构成视频评论生成模型;将包含多模态信息的视频数据记为
Figure 334903DEST_PATH_IMAGE071
,视频评论生成模型记为
Figure 142322DEST_PATH_IMAGE072
视频评论生成方法的过程描述为:
Figure 641436DEST_PATH_IMAGE073
Figure 268727DEST_PATH_IMAGE074
表示预测文本,
Figure 511489DEST_PATH_IMAGE075
中的每一个元素表示一个时间步的预测字符,
Figure 173415DEST_PATH_IMAGE008
表示预测文本中预测字符的数目,等同于解码时的最大时间步,W表示视频评论生成模型待学习的参数矩阵,设定y表示训练时给定的标注信息;
所述视频评论生成模型通过端到端的方式进行训练,损失函数表示为:
Figure 843430DEST_PATH_IMAGE076
其中,w表示视频评论生成模型待学习的参数矩阵W中的单个参数向量,Cross-Entropy表示交叉熵损失,
Figure 895700DEST_PATH_IMAGE077
表示
Figure 942153DEST_PATH_IMAGE078
对应的标注信息,
Figure 458585DEST_PATH_IMAGE079
7.一种视频评论生成系统,其特征在于,基于权利要求1~6任一项所述的方法实现,该系统包括:
多模态序列建模子模块,用于获取包含多模态信息的视频数据,对每一模态信息各自进行特征提取与类别预测,将所有模态信息类别预测结果对应的文本名称嵌入到共同的语义空间中,获得多模态词元序列;
语义图构造子模块,用于将所述多模态词元序列输入至多模态词元交互模块,每一词元都与其他任意模态的词元进行交互,获得建立模态间和模态内关系后的词元组成的多模态序列;对所述多模态序列进行评分,利用获得的所述多模态序列中每一词元的重要性得分和不同词元之间的相关性得分,构造包含多个模态信息的语义图;
评论文本预测子模块,用于对所述包含多个模态信息的语义图进行解码,获得预测文本结果。
8.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~6任一项所述的方法。
9.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~6任一项所述的方法。
CN202210235882.4A 2022-03-11 2022-03-11 视频评论生成方法、系统、设备及存储介质 Active CN114339450B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210235882.4A CN114339450B (zh) 2022-03-11 2022-03-11 视频评论生成方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210235882.4A CN114339450B (zh) 2022-03-11 2022-03-11 视频评论生成方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114339450A CN114339450A (zh) 2022-04-12
CN114339450B true CN114339450B (zh) 2022-07-15

Family

ID=81033292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210235882.4A Active CN114339450B (zh) 2022-03-11 2022-03-11 视频评论生成方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114339450B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115658935B (zh) * 2022-12-06 2023-05-02 北京红棉小冰科技有限公司 一种个性化评论生成方法及装置
CN115600581B (zh) * 2022-12-13 2023-03-31 中国科学技术大学 一种使用句法信息的受控文本生成方法
CN116402061A (zh) * 2023-06-07 2023-07-07 北京华品博睿网络技术有限公司 一种视频相关本文生成方法及系统
CN117743869B (zh) * 2024-02-18 2024-05-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种内容发现方法、系统、终端及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、系统、装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100404322B1 (ko) * 2001-01-16 2003-11-01 한국전자통신연구원 멀티모달 특징 기반의 뉴스 비디오 요약 방법
US10303768B2 (en) * 2015-05-04 2019-05-28 Sri International Exploiting multi-modal affect and semantics to assess the persuasiveness of a video
US10623829B2 (en) * 2018-09-07 2020-04-14 Oath Inc. Systems and methods for multimodal multilabel tagging of video
CN111836111A (zh) * 2019-04-17 2020-10-27 微软技术许可有限责任公司 生成弹幕的技术
CN110298270B (zh) * 2019-06-14 2021-12-31 天津大学 一种基于跨模态重要性感知的多视频摘要方法
CN111541910B (zh) * 2020-04-21 2021-04-20 华中科技大学 一种基于深度学习的视频弹幕评论自动生成方法及系统
CN112597841B (zh) * 2020-12-14 2023-04-18 之江实验室 一种基于门机制多模态融合的情感分析方法
CN113626641B (zh) * 2021-08-11 2023-09-01 南开大学 一种基于多模态数据和美学原理的神经网络生成视频摘要的方法
CN113869324A (zh) * 2021-08-19 2021-12-31 北京大学 一种基于多模态融合的视频常识性知识推理实现方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、系统、装置

Also Published As

Publication number Publication date
CN114339450A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
Agnese et al. A survey and taxonomy of adversarial neural networks for text‐to‐image synthesis
CN114339450B (zh) 视频评论生成方法、系统、设备及存储介质
CN108986186B (zh) 文字转化视频的方法和系统
CN113762322B (zh) 基于多模态表示的视频分类方法、装置和设备及存储介质
JP2023509031A (ja) マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム
Chen et al. Deep Learning for Video Captioning: A Review.
CN107066464A (zh) 语义自然语言向量空间
JP2023545543A (ja) 情報生成方法、装置、コンピュータ機器、記憶媒体及びコンピュータプログラム
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
Kumar et al. Contrastive self-supervised learning: review, progress, challenges and future research directions
CN116720004B (zh) 推荐理由生成方法、装置、设备及存储介质
CN114154077A (zh) 多维度细粒度动态情感分析方法及系统
Jain et al. Video captioning: a review of theory, techniques and practices.
CN112364168A (zh) 一种基于多属性信息融合的舆情分类方法
CN114443899A (zh) 视频分类方法、装置、设备及介质
JP7337172B2 (ja) 音声パケット推薦方法、装置、電子機器およびプログラム
Hu et al. Unified discrete diffusion for simultaneous vision-language generation
CN117132923A (zh) 视频分类方法、装置、电子设备及存储介质
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
Yousif et al. Exploring deep learning approaches for video captioning: A comprehensive review
CN117349402A (zh) 一种基于机器阅读理解的情绪原因对识别方法及系统
CN115248846B (zh) 文本识别方法、设备、介质
Dharaniya et al. A design of movie script generation based on natural language processing by optimized ensemble deep learning with heuristic algorithm
CN116975347A (zh) 图像生成模型训练方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant