CN115393773A - 基于非结构化知识嵌入的视频常识文本生成方法 - Google Patents

基于非结构化知识嵌入的视频常识文本生成方法 Download PDF

Info

Publication number
CN115393773A
CN115393773A CN202211096181.3A CN202211096181A CN115393773A CN 115393773 A CN115393773 A CN 115393773A CN 202211096181 A CN202211096181 A CN 202211096181A CN 115393773 A CN115393773 A CN 115393773A
Authority
CN
China
Prior art keywords
video
common sense
text
modal
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211096181.3A
Other languages
English (en)
Inventor
鲍秉坤
袁梦奇
谭智一
邵曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202211096181.3A priority Critical patent/CN115393773A/zh
Publication of CN115393773A publication Critical patent/CN115393773A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种基于非结构化知识嵌入的视频常识文本生成方法,包括:S1、提取视频的图像特征、视频特征和音频特征,经过跨模态融合和解码处理生成视频内容的文本描述;S2、将视频内容的文本描述输入预训练好的非结构化知识库GPT,通过预设置的提示词引导,得到深层次常识描述;S3、对扩充到的文本知识进行筛选处理,并与视频的图像特征、视频特征和音频特征进行有效的跨模态常识融合,最终生成可准确理解视频内涵的常识描述文本。本发明提出了一种多模态知识引入的学习方法,通过借助非结构化大规模预训练模型,分别从知识扩充和知识融合两个角度,实现模型对视频内容的深度理解,有助于互联网时代下基于视频的文本描述生成任务。

Description

基于非结构化知识嵌入的视频常识文本生成方法
技术领域
本发明涉及基于视觉的跨模态文本生成技术领域,具体涉及一种基于非结构化知识嵌入的视频常识文本生成方法。
背景技术:
海量互联网数据中存在着大量的视频,为了能快速获取这些视频中的知识,基于视频的文本生成任务开始在学术圈和工业界都得到了广泛的关注。人们在看视频的时候,不但可以理解视频中发生的事件,还能理解视频中事件背后的深层次含义。比如一个视频中讲述的是“一个人在做早饭”,人类在看该视频时可以对视频进行进一步推理,视频中人的目的是“他想吃健康的食物”,视频中事件会带来的影响是“他马上可以饱餐一顿了”,视频中做饭的人是“一个心灵手巧的人”。因此,亟待研究有效的文本生成模型,它可以对视频内容进行深度推理,分别从视频中事件的目的、影响和人物属性等角度出发,生成视频背后的深层次常识描述。
针对该任务,现有的方法往往想尝试通过构建视觉和非结构化实体之间的关联来生成常识描述。它们通常采用基于编解码器的模型架构,首先通过编码器将视频编码成特征向量,再将视频特征通过解码器解码依次生成视频本身内容的描述和包含深层次语义的常识性描述。然而,这些方法忽视了一个问题:目标需要生成的常识性描述,往往不会以视觉实体的形式在视频中出现。此外,视频会包含图像、音频等丰富的模态信息,现有的方法很难有效的实现这些多模态信息间的特征融合。
发明内容
本发明的目的在于提供一种基于非结构化知识嵌入的视频常识文本生成方法,通过在非结构化知识库中有选择的查找并筛选与视频相关的知识信息,以知识扩充和知识融合的方式生成视频的常识描述,从而实现对视频的深层次理解。
技术方案:为解决上述技术问题,本发明采用的技术方案为:
第一方面,提供一种基于非结构化知识嵌入的视频常识文本生成方法,包括:
步骤S1:提取视频的图像特征、视频特征和音频特征,经过跨模态融合和解码处理生成视频内容的文本描述;
步骤S11、提取视频的图像特征、视频特征和音频特征;
步骤S12、将视频的图像特征、视频特征和音频特征进行跨模态融合得到多模态特征;
步骤S13、将多模态特征通过与预训练好的视频内容解码器解码生成视频内容的文本描述;
步骤S2:将视频内容的文本描述输入预训练好的非结构化知识库GPT,通过预设置的提示词引导,得到深层次常识描述;
步骤S3:对深层次常识描述进行编码特征提取后与视频的图像特征、视频特征和音频特征进行跨模态常识融合得到多模态常识特征,对多模态常识特征进行解码生成包含视频深层内涵的常识描述文本;
步骤S31、利用Bert模型对深层次常识描述进行编码特征提取,得到文本常识特征;
步骤S32、将文本常识特征与视频的图像特征、视频特征和音频特征进行跨模态常识融合得到多模态常识特征;
步骤S33、利用视频深层次常识解码器对所述多模态常识特征进行解码生成包含视频深层内涵的常识描述文本。
在一些实施例中,步骤S11、提取视频的图像特征、视频特征和音频特征,包括:
利用预训练好的ResNet152网络结构编码提取视频的图像特征;
利用预训练好的I3D网络结构编码提取视频的视频特征;
利用预训练好的SoundNet网络结构编码提取视频的音频特征。
在一些实施例中,步骤S12、将视频的图像特征、视频特征和音频特征进行跨模态融合得到多模态特征,包括:
通过多个LSTM分别对图像特征、视频特征和音频特征进行编码后拼接得到经拼接而成的多模态特征向量F′video
F′video=LSTM(FC(V3D))+LSTM(FC(I2D))+LSTM(FC(A1D))
其中,F′video表示的是经拼接而成的多模态特征向量;V3D是视频特征;I2D是图像特征;A1D是音频特征;FC为全连接网络层,LSTM为长短期记忆神经网络;
利用基于Transformer结构的编码器将经拼接而成的多模态特征向量F′video重新融合编码,得到最终的多模态特征Fvideo;其中所述基于Transformer结构的编码器包括一组Self-attention自注意力层和Feedforward前馈网络层;
Self-attention层表示如下:
Figure BDA0003838725630000031
将经拼接而成的多模态特征向量F′video分别通过三个映射矩阵WQ、WK和WV,得到三个输入矩阵Q、K和V;dk为归一化参数;softmax为归一化激活函数,T表示转置矩阵。
在一些实施例中,步骤S13中,所述视频内容解码器采用基于Transformer的解码器,依次包括:Self-attention自注意力层、Cross-attention交叉注意力层和Feedforward前馈网络层;
其中Self-attention层,用于对文本模态特征进行归一化处理;
Cross-attention层,用于处理文本和视频编码间的跨模态关联,通过刻画文本和视频特征的跨模态关联,生成当前位置上最能表现出视频内容的单词;
Feedforward前馈网络层,设置在Cross-attention层之后,由一个双层的全连接层组成,通过激活函数来强化每个单词的表达,对每个单词特征的标准化处理,同时将数据先映射到高维空间再映射到低维空间中,以学习到更加抽象的文本表达;
所述视频内容解码器训练损失采用的是交叉熵损失函数,在生成每个单词时,根据之前生成出的单词,逐个预测下一个位置上出现概率最大的单词;
其中视频内容解码器损失函数
Figure BDA0003838725630000041
Figure BDA0003838725630000042
其中,Ncap为目标生成的文本描述的总长度,yt表示在t位置上应该生成的单词,Fvideo为多模态特征向量,θcap为模型参数,p()表示映射概率;
将生成的单词进行拼接得到视频内容的文本描述的句子Scap,公式如下:
Figure BDA0003838725630000043
在一些实施例中,步骤S2中,非结构化知识库GPT的训练方法包括:
将视频内容的文本描述和深层次常识描述通过预设的提示词进行连接,构成一个长样本以供引入非结构化知识库GPT训练;其中所述长样本由三部分构成:<视频内容的文本描述,提示词,深层次常识描述>;
在训练非结构化知识库GPT时将视频内容的文本描述和提示词作为已知信息,让非结构化知识库GPT模型逐个单词的生成深层次常识描述,训练损失函数Lgpt如下:
Figure BDA0003838725630000051
其中,N为总样本长度;tokenn为GPT在训练时需要生成的单词,tokenn-K表示的是输入给GPT的已经存在的单词;K表示视频内容的文本描述和提示词的句子总长度;θgpt为模型参数;P()表示映射概率。
在一些实施例中,步骤S2中,所述提示词,包括:
针对视频中事件发生的目的,设置“the aim is to:”的提示词;
针对视频中事件带来的影响,设置“the effect is:”的提示词;
针对视频中人物或事件的属性,设置“the person or event is:”的提示词。
在一些实施例中,步骤S32中,将文本常识特征与视频的图像特征、视频特征和音频特征进行跨模态常识融合得到多模态常识特征,包括:
将Bert编码得到的特征通过特征映射,映射到一个可以与视频特征共享的语义空间中,随后将其与视频中的三种维度的特征进行跨模态常识融合,公式表示如下:
Figure BDA0003838725630000052
其中,
Figure BDA0003838725630000061
为融合后的多模态常识特征,FC为全连接网络层,LSTM为长短期记忆神经网络,V3D是视频特征;I2D是图像特征;A1D是音频特征;Scms表示常识描述文本,Bert表示经过Bert模型编码。
在一些实施例中,步骤S33中,所述视频深层次常识解码器采用基于Transformer的解码器,依次包括:Self-attention自注意力层、Cross-attention交叉注意力层和Feedforward前馈网络层;
其中Self-attention层,用于对文本模态特征进行归一化处理;
Cross-attention层,用于处理跨模态信息,在每生成一个单词时,比较单词与视频和GPT引入的外部常识之间的关联;
Feedforward前馈网络层,设置在Cross-attention层之后,通过Feedforward层映射,以概率的形式去单词库中寻找,以生成最终的常识描述文本;
所述视频深层次常识解码器采用交叉熵函数作为训练损失,每个迭代步生成当前位置上概率最大的单词,逐个单词的生成一句常识描述文本;视频深层次常识解码器损失函数
Figure BDA0003838725630000062
如下:
Figure BDA0003838725630000063
其中,Ncms为常识描述文本的总长度,yt表示在t位置上应该生成的单词,
Figure BDA0003838725630000064
为多模态常识特征,Scap为视频内容的文本描述,θcms为解码器模型参数,p()表示映射概率。
在一些实施例中,训练总损失
Figure BDA0003838725630000065
由视频内容解码器损失函数和视频深层次常识解码器损失函数两部分构成:
Figure BDA0003838725630000066
其中,
Figure BDA0003838725630000071
为视频内容解码器损失函数,
Figure BDA0003838725630000072
为视频深层次常识解码器损失函数。
第二方面,本发明提供了一种基于非结构化知识嵌入的视频常识文本生成装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。
第三方面,本发明提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。
本发明的优点在于:本发明针对已知的视频,不仅可以自动生成该视频本身事件内容的描述,还可以分别从三个角度生成该视频的常识性描述,以实现对视频的深度理解。其中常识性描述具体包括:该视频中人物或事件的目的(Intention)、该事件产生的影响(Effect)和人物内在属性与特点(Attribute)。例如一个视频中描述的画面是“一个人在台上演讲”,本发明旨在让计算机生成诸如“台下的观众将会受益匪浅”、“这位演讲者是学识渊博的”这样的描述,使计算机能真正识别视频背后的内涵。
附图说明
图1为本发明实施例方法流程图。
图2为本发明实施例中视频内容的文本描述生成框图;
图3为本发明实施例中基于非结构化知识库的知识扩充框图;
图4为本发明实施例中跨模态常识特征融合方法框图;
图5为本发明实施例中视频深层次常识描述文本生成示意图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式进一步阐述本发明。
在本发明的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
本发明需要解决的技术问题主要为:对视频中不存在的深层次知识进行深度推理;如何有效的从非结构化知识库中引入相关联的常识;
进一步地,还可以包括针对于视频中图像和音频等丰富的多模态信息,如何有效的将无关的冗余知识去除并实现多模态特征融合。
为了解决上述技术问题,本发明提出了一种基于非结构化知识嵌入的视频常识文本生成的方法,其通过在非结构化知识库中有选择的查找并筛选与视频相关的知识信息,以知识扩充和知识融合的方式生成视频的常识描述,从而实现对视频的深层次理解。
如前所述,基于视频的常识描述的生成任务需要模型对视频中的事件进行深度推理。在生成该视频事件内容描述的同时,分别从该视频中人物或事件的目的(Intention)、该事件产生的影响(Effect)和人物内在属性与特点(Attribute)三个角度生成该视频的常识性描述。由于这三类常识描述的内容往往不会以视觉实体的形式在视频中显现,而仅依靠视频中的可视化信息无法有效的生成该视频准确的常识描述。因此,本发明提出了一种可以嵌入非结构化知识的方法与系统,如图2所示。该方法从非结构化知识库中获取文本模态的知识,加深模型对视频的理解。此外,引入的非结构化知识可能还会存在信息冗余等问题。因此,本发明还需要对扩充的知识进行筛选处理,并和现有的视频特征进行有效的跨模态融合,最终生成可准确理解视频内涵的常识描述。
由于视频和文本间存在跨模态语义鸿沟问题,所以本发明首先需要对包含复杂模态信息的视频编码,以映射到一个多模态共享的语义空间中;随后,由于深层次知识往往不存在于视频的特征空间中,本发明通过对非结构化知识库中进行搜索,以获取常识性知识。通过针对三种不同的常识设置三种固定的prompt,并修改相应的数据训练格式来分别训练GPT。通过在非结构化资源库中定向检索,来获取视频中不存在的常识信息;最后,由于GPT是一个基于文本模态的资源库,它无法很好的融合图像、视频、音频等多模态信息。此外,并不是从非结构化资源库中检索到的所有知识都是有效的知识,其中可能存在一定的冗余信息。所以,本发明将GPT获取的知识通过Bert再次进行编码,进一步提取其中的文本知识,并将这些文本知识与视频中的多模态特征进行跨模态融合,以此生成最终的常识描述。
因此,
实施例1
一种基于非结构化知识嵌入的视频常识文本生成方法,包括:
步骤S1:提取视频的图像特征、视频特征和音频特征,经过跨模态融合和解码处理生成视频内容的文本描述;
步骤S11、提取视频的图像特征、视频特征和音频特征;
步骤S12、将视频的图像特征、视频特征和音频特征进行跨模态融合得到多模态特征;
步骤S13、将多模态特征通过与预训练好的视频内容解码器解码生成视频内容的文本描述;
步骤S2:将视频内容的文本描述输入预训练好的非结构化知识库GPT,通过预设置的提示词引导,得到深层次常识描述;
步骤S3:对深层次常识描述进行编码特征提取后与视频的图像特征、视频特征和音频特征进行跨模态常识融合得到多模态常识特征,对多模态常识特征进行解码生成包含视频深层内涵的常识描述文本;
步骤S31、利用Bert模型对深层次常识描述进行编码特征提取,得到文本常识特征;
步骤S32、将文本常识特征与视频的图像特征、视频特征和音频特征进行跨模态常识融合得到多模态常识特征;
步骤S33、利用视频深层次常识解码器对所述多模态常识特征进行解码生成包含视频深层内涵的常识描述文本。
在一些实施例中,步骤S11、提取视频的图像特征、视频特征和音频特征,包括:
利用预训练好的ResNet152网络结构编码提取视频的图像特征;
利用预训练好的I3D网络结构编码提取视频的视频特征;
利用预训练好的SoundNet网络结构编码提取视频的音频特征。
在一些实施例中,步骤S12、将视频的图像特征、视频特征和音频特征进行跨模态融合得到多模态特征,包括:
通过多个LSTM分别对图像特征、视频特征和音频特征进行编码后拼接得到经拼接而成的多模态特征向量F′video
F′video=LSTM(FC(V3D))+LSTM(FC(I2D))+LSTM(FC(A1D))
其中,F′video表示的是经拼接而成的多模态特征向量;V3D是视频特征;I2D是图像特征;A1D是音频特征;FC为全连接网络层,LSTM为长短期记忆神经网络;
利用基于Transformer结构的编码器将经拼接而成的多模态特征向量F′video重新融合编码,得到最终的多模态特征Fvideo;其中所述基于Transformer结构的编码器包括一组Self-attention自注意力层和Feedforward前馈网络层;
Self-attention层表示如下:
Figure BDA0003838725630000111
将经拼接而成的多模态特征向量F′video分别通过三个映射矩阵WQ、WK和WV,得到三个输入矩阵Q、K和V;dk为归一化参数;softmax为归一化激活函数,T表示转置矩阵。
在一些实施例中,步骤S13中,所述视频内容解码器采用基于Transformer的解码器,依次包括:Self-attention自注意力层、Cross-attention交叉注意力层和Feedforward前馈网络层;
其中Self-attention层,用于对文本模态特征进行归一化处理;
Cross-attention层,用于处理文本和视频编码间的跨模态关联,通过刻画文本和视频特征的跨模态关联,生成当前位置上最能表现出视频内容的单词;
Feedforward前馈网络层,设置在Cross-attention层之后,由一个双层的全连接层组成,通过激活函数来强化每个单词的表达,对每个单词特征的标准化处理,同时将数据先映射到高维空间再映射到低维空间中,以学习到更加抽象的文本表达;
所述视频内容解码器训练损失采用的是交叉熵损失函数,在生成每个单词时,根据之前生成出的单词,逐个预测下一个位置上出现概率最大的单词;
其中视频内容解码器损失函数
Figure BDA0003838725630000121
Figure BDA0003838725630000122
其中,Ncap为目标生成的文本描述的总长度,yt表示在t位置上应该生成的单词,Fvideo为多模态特征向量,θcap为模型参数,p()表示映射概率;
将生成的单词进行拼接得到视频内容的文本描述的句子Scap,公式如下:
Figure BDA0003838725630000123
在一些实施例中,步骤S2中,非结构化知识库GPT的训练方法包括:
将视频内容的文本描述和深层次常识描述通过预设的提示词进行连接,构成一个长样本以供引入非结构化知识库GPT训练;其中所述长样本由三部分构成:<视频内容的文本描述,提示词,深层次常识描述>;
在训练非结构化知识库GPT时将视频内容的文本描述和提示词作为已知信息,让非结构化知识库GPT模型逐个单词的生成深层次常识描述,训练损失函数Lgpt如下:
Figure BDA0003838725630000131
其中,N为总样本长度;tokenn为GPT在训练时需要生成的单词,tokenn-K表示的是输入给GPT的已经存在的单词;K表示视频内容的文本描述和提示词的句子总长度;θgpt为模型参数;P()表示映射概率。
在一些实施例中,步骤S2中,所述提示词,包括:
针对视频中事件发生的目的,设置“the aim is to:”的提示词;
针对视频中事件带来的影响,设置“the effect is:”的提示词;
针对视频中人物或事件的属性,设置“the person or event is:”的提示词。
在一些实施例中,步骤S32中,将文本常识特征与视频的图像特征、视频特征和音频特征进行跨模态常识融合得到多模态常识特征,包括:
将Bert编码得到的特征通过特征映射,映射到一个可以与视频特征共享的语义空间中,随后将其与视频中的三种维度的特征进行跨模态常识融合,公式表示如下:
Figure BDA0003838725630000132
其中,
Figure BDA0003838725630000133
为融合后的多模态常识特征,FC为全连接网络层,LSTM为长短期记忆神经网络,V3D是视频特征;I2D是图像特征;A1D是音频特征;Scms表示常识描述文本,Bert表示经过Bert模型编码。
在一些实施例中,步骤S33中,所述视频深层次常识解码器采用基于Transformer的解码器,依次包括:Self-attention自注意力层、Cross-attention交叉注意力层和Feedforward前馈网络层;
其中Self-attention层,用于对文本模态特征进行归一化处理;
Cross-attention层,用于处理跨模态信息,在每生成一个单词时,比较单词与视频和GPT引入的外部常识之间的关联;
Feedforward前馈网络层,设置在Cross-attention层之后,通过Feedforward层映射,以概率的形式去单词库中寻找,以生成最终的常识描述文本;
所述视频深层次常识解码器采用交叉熵函数作为训练损失,每个迭代步生成当前位置上概率最大的单词,逐个单词的生成一句常识描述文本;视频深层次常识解码器损失函数
Figure BDA0003838725630000141
如下:
Figure BDA0003838725630000142
其中,Ncms为常识描述文本的总长度,yt表示在t位置上应该生成的单词,
Figure BDA0003838725630000143
为多模态常识特征,Scap为视频内容的文本描述,θcms为解码器模型参数,p()表示映射概率。
在一些实施例中,训练总损失
Figure BDA0003838725630000144
由视频内容解码器损失函数和视频深层次常识解码器损失函数两部分构成:
Figure BDA0003838725630000145
其中,
Figure BDA0003838725630000146
为视频内容解码器损失函数,
Figure BDA0003838725630000147
为视频深层次常识解码器损失函数。
在一些实施例中,如图1所示,本实施例的方法包含三个步骤:S1、提取视频中所蕴藏的多模态信息,以生成视频内容的文本描述;S2、通过从非结构化知识库中获取文本模态的知识,对视频内容的文本描述进行知识扩充;S3、对扩充后的知识进行筛选和处理,通过对视频中的多模态信息进行跨模态融合,以生成包含视频深层内涵的常识描述。
下面进行详细介绍:
S1、提取视频中的多模态信息生成视频内容的文本描述
本发明提出的提取视频中的多模态信息生成视频本身内容描述的方法由图2所示3步组成,详细说明如下:
S11:提取视频中的多模态特征
对于给定的一个视频,本发明首先将其编码到一个语义丰富的共享空间中。具体来说,本发明使用一组预训练好的ResNet152、I3D和SoundNet网络结构,分别将视频中的图像特征、视频特征和音频特征编码为共享语义空间中的特征向量。
S12:融合多模态语义特征
由于不同模态的特征间存在跨模态语义鸿沟问题,因此本发明提出了一种跨模态融合的方法。通过构建一个可以多模态内共享的语义空间,来融合多模态特征。具体来说我们首先分别将由预训练提取好的特征在模态内部进行编码,并通过线性函数映射到一个固定维度的模态空间中。随后本发明通过多个LSTM分别对不同模态的特征编码,得到其模态内部的特征表示。具体公式如下所示:
F′video=LSTM(FC(V3D))+LSTM(FC(I2D))+LSTM(FC(A1D))
其中,F′video表示的是经拼接而成的多模态特征;V3D是视频由I3D网络提取出的三维视频特征;I2D是视频由ResNet152提取出的二维图像特征;A1D是视频由SoundNet提取出的一维音频特征。FC为全连接网络层。
此外,本发明引入了一个基于Transformer结构的编码器。分别通过一组Self-attention层和Feedforward层,对多模态特征实现重新融合编码,以得到一个可以跨模态表征的特征编码,具体Self-attention层公式如下所示:
Figure BDA0003838725630000161
本发明将经拼接而成的多模态特征向量F′video分别通过三个映射矩阵WQ、WK和WV,得到上述公式中的Q、K和V;dk为归一化参数;softmax为归一化激活函数。经过多层多头注意力的运算,最终生成在一个可以在共享语义空间中相互表示的交互过的多模态特征Fvideo
S13:生成基于视频内容的文本描述
针对S12中提取得到的多模态特征,本发明通过解码器生成该视频事件本身的文本描述。本发明使用基于Transformer的解码器,训练损失采用的是交叉熵函数。在生成每个单词时,根据之前生成出的单词,逐个预测下一个位置上出现概率最大的单词。损失函数如下所示:
Figure BDA0003838725630000162
其中,Ncap为目标生成的文本描述的总长度,yt表示在t位置上应该生成的单词,Fvideo为S12拼接而成的视频特征向量,θcap为模型参数。
最后,将生成的单词进行拼接即可得到视频内容的文本描述的句子Scap,公式如下:
Figure BDA0003838725630000163
本发明的视频内容解码器由三部分构成分别是Self-attention自注意力层、Cross-attention交叉注意力层和Feedforward前馈网络层。其中Self-attention层处理的是纯文本模态的信息。在生成每个单词时,Self-attention层会比较其与之前生成的单词之前的相关性,从文本流畅性的角度去判断当前位置上应该生成什么类型的单词更为合适。在本发明中,Self-attention层采用的模型结构与步骤S12中的Self-attention层公式相同,其中Q、K、V三个矩阵都为文本模态的特征。随后,Cross-attention层用于处理文本和视频编码间的跨模态关联。其模型函数与Self-attention层相同,不同的是在cross-attention中只有Q矩阵为文本模态的特征,而K和V矩阵都是视频模态的特征。Cross-attention通过刻画文本和视频特征的跨模态关联,生成当前位置上最能表现出视频内容的单词。最后,本发明在Cross-attention层之后引入了一个Feedforward层,其由一个双层的全连接层组成。虽然通过Self-attention和Cross-attention层可以获得每个单词的特征表达,可这种表达能力并不强。我们通过激活函数来强化每个单词的表达。通过对每个单词特征的标准化处理,同时将数据先映射到高维空间再映射到低维空间中,以学习到更加抽象的文本表达。本发明的解码器在如上三层网络结构的共同帮助下,生成该视频所对应的准确文本描述。
S2:从非结构化知识库中获取文本模态的知识,对视频内容的文本描述进行知识扩充
对于S1生成的文本描述,我们发现:生成的描述无法对视频中背后所包含的深层级知识进行有效的解读。
本发明针对此问题设计了一种非结构化知识引入的方法,通过从外部知识库中有选择地引入与视频内容相关联的知识,完成对视频的深度理解,如图3所示。具体由以下两个步骤组成:
S21、提示词(prompt)的设置
外部非结构化知识库(GPT)中虽然包含了大量的知识,但其中大部分知识与视频无关。因此,本发明针对不同的知识设计了不同的提示词(prompt),定向的对知识库进行检索,以获得与视频内容更为贴切的常识描述。
关于非结构化知识库,本发明采用的是GPT模型,通过对GPT微调来获取其中蕴含的知识。本发明目标是获取视频所蕴含的深层次知识,这些知识虽然不会以视觉实体的形式在视频中显现,但是它们会和视频依然存在着一定程度的关联。此外深层级的知识往往会以多种形式存在,比如视频中事件发生的目的,带来的影响,事件的属性等等。针对不同的深层次知识,本发明设置了不同提示词。比如,针对视频中事件发生的目的,本发明设置了“the aim is to:”的提示词;针对视频中事件带来的影响,本发明设置了“the effectis:”的提示词;针对视频中人物或事件的属性,本发明设置了“the person or event is:”的提示词。
S23、引入非结构化知识库(GPT)实现知识扩充
在S22中虽然设置好了提示词,但为了能方便GPT的训练,本发明进一步对训练集中的数据格式进行修改。具体来说,本发明将视频内容的文本描述和深层次常识描述通过提示词连接,构成一个长样本以供GPT训练。因此,长样本由三部分构成:<视频内容的文本描述,提示词,深层次常识描述>。在训练GPT时将视频内容的文本描述和提示词作为已知信息,让模型逐个单词的生成深层次常识描述,其训练损失如下所示:
Figure BDA0003838725630000181
其中,N为总样本长度;tokenn为GPT在训练时需要生成的单词,tokenn-K表示的是输入给GPT的已经存在的单词;K表示视频内容的文本描述和提示词的单词总长度;θgpt为模型参数。
此外,即便是针对同一类常识,准确契合视频的描述也有许多中,比如:视频中“一个人在唱歌”,该事件的目的可能是:“陶冶情操”也可能是“为了准备表演”,虽然这些常识内容不同,但它们都可以于视频“一个人在唱歌相对应”。因此为了使GPT在同时学到多种知识,本发明在构建训练集样本中的深层次常识描述部分时,同时加入了多个同一类型、不同语义的常识句子;并在训练时,将其用“#”标志符隔开。这使得本发明在向GPT搜索信息时,可以获得更为丰富的知识。
S3:对扩充后的文本知识进行筛选和处理,并与视频特征进行跨模态融合,生成包含视频深层内涵的常识描述。
通过S2的知识扩充步骤,我们可以从非结构化知识库中获得与视频内容相关的常识描述。然而GPT是一个主要基于文本模态的资源库,它无法很好的融合图像、视频、音频等其他模态信息。此外,并不是我们从外部资源库中检索到的所有知识都是有效的常识,其中可能存在一定的冗余信息。
本发明针对此问题设计了一种跨模态知识融合的方法,在扩充的知识的帮助下生成准确的常识描述。具体由以下三个步骤组成:
S31、文本常识模态的特征编码
针对S2中GPT生成出的知识,本发明首先使用Bert模型对其编码,以获取其蕴含的丰富的语义知识。此外,为了防止S2中生成出的常识过多的干扰模型训练,本发明在用Bert编码后,只选择调用其CLS位置上的特征作为编码完的特征。
S32、跨模态常识融合
针对不同模态间的语义鸿沟问题,本发明基于跨模态融合的思想,将文本模态的知识与视频中的图像、音频等其他模态的信息进行跨模态融合,如图4所示。具体来说本发明通过将S31中提取到的文本常识与S1中的图像特征、视频特征和音频特征相融合以获得该视频的整体特征。本发明首先将Bert编码得到的特征通过特征映射,映射到一个可以与视频特征共享的语义空间中,随后将其与视频中的三种维度的特征进行多模态融合,具体公式如下:
Figure BDA0003838725630000201
其中,
Figure BDA0003838725630000202
为融合后的多模态常识特征,V3D、I2D和A1D分别表示从视频中提取出的视频、图像、音频特征,Scms表示步骤S22中从GPT中获取的常识描述文本。
S33、常识文本的生成
本发明基于Transformer解码器的框架,进一步生成与可以对视频进行深层次解读的常识描述文本,如图5所示。与步骤S13相同,我们在生成常识文本时依然采用了交叉熵函数作为训练损失,每个迭代步生成当前位置上概率最大的单词,逐个单词的生成一句常识描述文本。损失函数如下:
Figure BDA0003838725630000203
其中,Ncms为常识文本的总长度,
Figure BDA0003838725630000204
为多模态常识特征,Scap为步骤S13中生成的视频内容的文本描述,θcms为解码器模型参数。
视频深层次常识解码器(第二解码器)模型由三部分构成,分别是Self-attention层、Cross-attention层和Feedforward层。Self-attention层用于处理文本模态信息,在每生成一个单词时比较其与之前单词的相关性。Cross-attention层用于处理跨模态信息,在每生成一个单词时,比较其与视频和GPT引入的外部常识之间的关联。并最后通过Feedforward层映射,以概率的形式去单词库中寻找,以生成最终的常识描述文本。
本发明的训练总损失
Figure BDA0003838725630000211
由视频内容解码器损失函数和视频深层次常识解码器损失函数两部分构成:
Figure BDA0003838725630000212
其中,
Figure BDA0003838725630000213
为视频内容解码器损失函数,
Figure BDA0003838725630000214
为视频深层次常识解码器损失函数。
应用实例:
本发明采用实例证明所生视频常识描述是有效的。我们针对Videl2Commonsense数据集,该数据集包含了共1000个视频,其中我们提取其中700个视频作为训练集,另外300个作为测试集。我们针对每个视频,分别生成其对应的视频内容的文本描述和多种深层次常识内容描述。其中视频深层次常识性文本描述包括了:视频中该事件发生的目的、视频中该事件发生会带来的影响和视频中事件或人物的属性。实验证明本发明所提取到的多模态知识表示是准确且有意义的。
实施例2
第二方面,本实施例提供了一种基于非结构化知识嵌入的视频常识文本生成装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步骤。
实施例3
第三方面,本实施例提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims (10)

1.一种基于非结构化知识嵌入的视频常识文本生成方法,其特征在于,包括:
步骤S1:提取视频的图像特征、视频特征和音频特征,经过跨模态融合和解码处理生成视频内容的文本描述;
步骤S11、提取视频的图像特征、视频特征和音频特征;
步骤S12、将视频的图像特征、视频特征和音频特征进行跨模态融合得到多模态特征;
步骤S13、将多模态特征通过与预训练好的视频内容解码器解码生成视频内容的文本描述;
步骤S2:将视频内容的文本描述输入预训练好的非结构化知识库GPT,通过预设置的提示词引导,得到深层次常识描述;
步骤S3:对深层次常识描述进行编码特征提取后与视频的图像特征、视频特征和音频特征进行跨模态常识融合得到多模态常识特征,对多模态常识特征进行解码生成包含视频深层内涵的常识描述文本;
步骤S31、利用Bert模型对深层次常识描述进行编码特征提取,得到文本常识特征;
步骤S32、将文本常识特征与视频的图像特征、视频特征和音频特征进行跨模态常识融合得到多模态常识特征;
步骤S33、利用视频深层次常识解码器对所述多模态常识特征进行解码生成包含视频深层内涵的常识描述文本。
2.根据权利要求1所述的基于非结构化知识嵌入的视频常识文本生成方法,其特征在于,步骤S11、提取视频的图像特征、视频特征和音频特征,包括:
利用预训练好的ResNet152网络结构编码提取视频的图像特征;
利用预训练好的I3D网络结构编码提取视频的视频特征;
利用预训练好的SoundNet网络结构编码提取视频的音频特征。
3.根据权利要求2所述的基于非结构化知识嵌入的视频常识文本生成方法,其特征在于,步骤S12、将视频的图像特征、视频特征和音频特征进行跨模态融合得到多模态特征,包括:
通过多个LSTM分别对图像特征、视频特征和音频特征进行编码后拼接得到经拼接而成的多模态特征向量F′video
F′video=LSTM(FC(V3D))+LSTM(FC(I2D))+LSTM(FC(A1D))
其中,F′video表示的是经拼接而成的多模态特征向量;V3D是视频特征;I2D是图像特征;A1D是音频特征;FC为全连接网络层,LSTM为长短期记忆神经网络;
利用基于Transformer结构的编码器将经拼接而成的多模态特征向量F′video重新融合编码,得到最终的多模态特征Fvideo;其中所述基于Transformer结构的编码器包括一组Self-attention自注意力层和Feedforward前馈网络层;
Self-attention层表示如下:
Figure FDA0003838725620000021
将经拼接而成的多模态特征向量F′video分别通过三个映射矩阵WQ、WK和WV,得到三个输入矩阵Q、K和V;dk为归一化参数;softmax为归一化激活函数,T表示转置矩阵。
4.根据权利要求1所述的基于非结构化知识嵌入的视频常识文本生成方法,其特征在于,步骤S13中,所述视频内容解码器采用基于Transformer的解码器,依次包括:Self-attention自注意力层、Cross-attention交叉注意力层和Feedforward前馈网络层;
其中Self-attention层,用于对文本模态特征进行归一化处理;
Cross-attention层,用于处理文本和视频编码间的跨模态关联,通过刻画文本和视频特征的跨模态关联,生成当前位置上最能表现出视频内容的单词;
Feedforward前馈网络层,设置在Cross-attention层之后,由一个双层的全连接层组成,通过激活函数来强化每个单词的表达,对每个单词特征的标准化处理,同时将数据先映射到高维空间再映射到低维空间中,以学习到更加抽象的文本表达;
所述视频内容解码器训练损失采用的是交叉熵损失函数,在生成每个单词时,根据之前生成出的单词,逐个预测下一个位置上出现概率最大的单词;
其中视频内容解码器损失函数
Figure FDA0003838725620000031
Figure FDA0003838725620000032
其中,Ncap为目标生成的文本描述的总长度,yt表示在t位置上应该生成的单词,Fvideo为多模态特征向量,θcap为模型参数,p()表示映射概率;
将生成的单词进行拼接得到视频内容的文本描述的句子Scap,公式如下:
Figure FDA0003838725620000033
5.根据权利要求1所述的基于非结构化知识嵌入的视频常识文本生成方法,其特征在于,步骤S2中,非结构化知识库GPT的训练方法包括:
将视频内容的文本描述和深层次常识描述通过预设的提示词进行连接,构成一个长样本以供引入非结构化知识库GPT训练;其中所述长样本由三部分构成:<视频内容的文本描述,提示词,深层次常识描述>;
在训练非结构化知识库GPT时将视频内容的文本描述和提示词作为已知信息,让非结构化知识库GPT模型逐个单词的生成深层次常识描述,训练损失函数Lgpt如下:
Figure FDA0003838725620000041
其中,N为总样本长度;tokenn为GPT在训练时需要生成的单词,tokenn-K表示的是输入给GPT的已经存在的单词;K表示视频内容的文本描述和提示词的句子总长度;θgpt为模型参数;P()表示映射概率。
6.根据权利要求1或5所述的基于非结构化知识嵌入的视频常识文本生成方法,其特征在于,步骤S2中,所述提示词,包括:
针对视频中事件发生的目的,设置“the aim is to:”的提示词;
针对视频中事件带来的影响,设置“the effect is:”的提示词;
针对视频中人物或事件的属性,设置“the person or eventis:”的提示词。
7.根据权利要求1所述的基于非结构化知识嵌入的视频常识文本生成方法,其特征在于,将文本常识特征与视频的图像特征、视频特征和音频特征进行跨模态常识融合得到多模态常识特征,包括:
将Bert编码得到的特征通过特征映射,映射到一个可以与视频特征共享的语义空间中,随后将其与视频中的三种维度的特征进行跨模态常识融合,公式表示如下:
Figure FDA0003838725620000042
其中,
Figure FDA0003838725620000043
为融合后的多模态常识特征,FC为全连接网络层,LSTM为长短期记忆神经网络,V3D是视频特征;I2D是图像特征;A1D是音频特征;Scms表示常识描述文本,Bert表示经过Bert模型编码。
8.根据权利要求1所述的基于非结构化知识嵌入的视频常识文本生成方法,其特征在于,所述视频深层次常识解码器采用基于Transformer的解码器,依次包括:Self-attention自注意力层、Cross-attention交叉注意力层和Feedforward前馈网络层;
其中Self-attention层,用于对文本模态特征进行归一化处理;
Cross-attention层,用于处理跨模态信息,在每生成一个单词时,比较单词与视频和GPT引入的外部常识之间的关联;
Feedforward前馈网络层,设置在Cross-attention层之后,通过Feedforward层映射,以概率的形式去单词库中寻找,以生成最终的常识描述文本;
所述视频深层次常识解码器采用交叉熵函数作为训练损失,每个迭代步生成当前位置上概率最大的单词,逐个单词的生成一句常识描述文本;视频深层次常识解码器损失函数
Figure FDA0003838725620000051
如下:
Figure FDA0003838725620000052
其中,Ncms为常识描述文本的总长度,yt表示在t位置上应该生成的单词,
Figure FDA0003838725620000053
为多模态常识特征,Scap为视频内容的文本描述,θcms为解码器模型参数,p()表示映射概率。
9.根据权利要求1所述的基于非结构化知识嵌入的视频常识文本生成方法,其特征在于,训练总损失
Figure FDA0003838725620000054
由视频内容解码器损失函数和视频深层次常识解码器损失函数两部分构成:
Figure FDA0003838725620000061
其中,
Figure FDA0003838725620000062
为视频内容解码器损失函数,
Figure FDA0003838725620000063
为视频深层次常识解码器损失函数。
10.一种基于非结构化知识嵌入的视频常识文本生成装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1至9任一项所述方法的步骤。
CN202211096181.3A 2022-09-08 2022-09-08 基于非结构化知识嵌入的视频常识文本生成方法 Pending CN115393773A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211096181.3A CN115393773A (zh) 2022-09-08 2022-09-08 基于非结构化知识嵌入的视频常识文本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211096181.3A CN115393773A (zh) 2022-09-08 2022-09-08 基于非结构化知识嵌入的视频常识文本生成方法

Publications (1)

Publication Number Publication Date
CN115393773A true CN115393773A (zh) 2022-11-25

Family

ID=84126418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211096181.3A Pending CN115393773A (zh) 2022-09-08 2022-09-08 基于非结构化知识嵌入的视频常识文本生成方法

Country Status (1)

Country Link
CN (1) CN115393773A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116431793A (zh) * 2023-06-14 2023-07-14 华南理工大学 一种基于知识生成的视觉问答方法、装置及存储介质
CN117217807A (zh) * 2023-11-08 2023-12-12 四川智筹科技有限公司 一种基于多模态高维特征的不良资产估值算法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116431793A (zh) * 2023-06-14 2023-07-14 华南理工大学 一种基于知识生成的视觉问答方法、装置及存储介质
CN116431793B (zh) * 2023-06-14 2023-08-22 华南理工大学 一种基于知识生成的视觉问答方法、装置及存储介质
CN117217807A (zh) * 2023-11-08 2023-12-12 四川智筹科技有限公司 一种基于多模态高维特征的不良资产估值算法
CN117217807B (zh) * 2023-11-08 2024-01-26 四川智筹科技有限公司 一种基于多模态高维特征的不良资产估值方法

Similar Documents

Publication Publication Date Title
CN112200317B (zh) 多模态知识图谱构建方法
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
WO2021233112A1 (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
CN107944027B (zh) 创建语义键索引的方法及系统
CN115393773A (zh) 基于非结构化知识嵌入的视频常识文本生成方法
CN111581437A (zh) 一种视频检索方法及装置
CN108536735B (zh) 基于多通道自编码器的多模态词汇表示方法与系统
CN109977220B (zh) 一种基于关键句和关键字的反向生成摘要的方法
CN111783455A (zh) 文本生成模型的训练方法及装置、文本生成方法及装置
CN114332679A (zh) 视频处理方法、装置、设备、存储介质和计算机程序产品
CN115495568B (zh) 一种对话模型的训练方法及装置、对话响应方法及装置
CN112364132A (zh) 基于依存句法的相似度计算模型和系统及搭建系统的方法
CN114390217A (zh) 视频合成方法、装置、计算机设备和存储介质
CN115512195A (zh) 一种基于多交互信息融合的图像描述方法
CN113392265A (zh) 多媒体处理方法、装置及设备
CN113705191A (zh) 样本语句的生成方法、装置、设备及存储介质
CN113553418A (zh) 一种基于多模态学习的视觉对话生成方法及装置
CN113343692B (zh) 搜索意图的识别方法、模型训练方法、装置、介质及设备
CN117349402A (zh) 一种基于机器阅读理解的情绪原因对识别方法及系统
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN116208824A (zh) 标题生成方法、计算机设备、存储介质和计算机程序产品
CN115169472A (zh) 针对多媒体数据的音乐匹配方法、装置和计算机设备
CN115309886A (zh) 基于多模态信息输入的人工智能文本创作方法
CN114328910A (zh) 文本聚类方法以及相关装置
CN115130461A (zh) 一种文本匹配方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination