CN112069361A - 一种基于多模态融合的视频描述文本生成方法 - Google Patents

一种基于多模态融合的视频描述文本生成方法 Download PDF

Info

Publication number
CN112069361A
CN112069361A CN202010876825.5A CN202010876825A CN112069361A CN 112069361 A CN112069361 A CN 112069361A CN 202010876825 A CN202010876825 A CN 202010876825A CN 112069361 A CN112069361 A CN 112069361A
Authority
CN
China
Prior art keywords
video
text
word
neural network
description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010876825.5A
Other languages
English (en)
Inventor
刘辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhua Zhiyun Technology Co ltd
Original Assignee
Xinhua Zhiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhua Zhiyun Technology Co ltd filed Critical Xinhua Zhiyun Technology Co ltd
Priority to CN202010876825.5A priority Critical patent/CN112069361A/zh
Publication of CN112069361A publication Critical patent/CN112069361A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于多模态融合的视频描述文本生成方法,包括:获取待描述视频,待描述视频包括视频帧,待描述视频设置有对应的视频描述语句;获取视频描述语句的文本主题信息,给每个文本主题信息设置文本主题信息编码;分别获取待描述视频的动态时域信息编码、静态信息编码和音频特征向量编码;将所述待描述视频的所述动态时域信息编码、所述静态信息编码和所述音频特征向量编码进行融合处理,以得到融合结果;将融合结果和文本主题信息编码输入至第一循环神经网络中进行迭代处理,确定待描述视频的视频内容描述文本。本发明的有益效果在于:实现在视频、音频、文本多种模态融合的基础上生成视频的自然语言描述,提高生成的准确率和鲁棒性。

Description

一种基于多模态融合的视频描述文本生成方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于多模态融合的视频描述文本生成方法。
背景技术
视频资源已经变成人们获取信息最流行和喜爱的方式,尤其是在一些视频APP出现后,每天刷视频已经成为很多人必不可少的休闲娱乐方式。为了更好的服务于用户,需要将视频中最核心的信息用文本形式表达,以便进行推荐展示。因此必须有一种方法能够对于给定的视频输出该视频的核心内容信息。
目前通常会对视频进行视频内容描述(video captioning),视频内容描述是通过给定一段视频,生成描述视频内容的一段文字。视频内容描述需要用通顺准确的一句话来描述视频内容。现有技术通过采用深度卷积神经网络模型提取图像层面的RGB、灰度光流等特征,音频层面的时序等特征,将两类特征向量拼接并输入到循环神经网络中,通过基于注意力机制的循环神经网络迭代输出自然语言描述文本。
然后上述现有技术会对视频进行抽帧,并将抽帧后的图像作为独立的特征用于输出描述文本,但抽帧后的独立图像无法反映出视频的动态内容和时域信息;并且自然语言描述文本的输出需要文本层面信息的支撑,然而上述现有技术没有融合文本层面信息的特征,从而导致输出的描述文本内容发散性大、语义方向不稳定。
发明内容
针对现有技术中存在的上述问题,现提供一种基于多模态融合的视频描述文本生成方法。
具体技术方案如下:
一种基于多模态融合的视频描述文本生成方法,其中,包括:
获取待描述视频,待描述视频包括视频帧和音频,待描述视频设置有对应的视频描述语句;
获取视频描述语句的至少一个文本主题信息,并给每个文本主题信息设置文本主题信息编码;
将待描述视频的视频帧的序列作为输入序列输入至对应的神经网络中,以分别获取待描述视频的动态时域信息编码和静态信息编码;
将待描述视频的音频输入至对应的神经网络中,以获取待描述视频的音频特征向量编码;
将待描述视频的动态时域信息编码、静态信息编码和音频特征向量编码进行融合处理,以得到融合结果;
将融合结果和文本主题信息编码输入至第一循环神经网络中进行迭代处理,确定待描述视频的视频内容描述文本。
优选的,视频描述文本生成方法,其中,获取视频描述语句的至少一个文本主题信息,并给每个文本主题信息设置文本主题信息编码,包括:
根据视频描述语句中的词语分布,确定视频描述语句对应的至少一个文本主题信息;
获取与文本主题信息对应的多个关联词,并获取得到每个关联词的词向量,其中,关联词的词向量预先训练得到;
对文本主题信息对应的每个关联词的词向量进行处理,以得到文本主题信息对应的文本主题信息编码。
优选的,视频描述文本生成方法,其中,根据视频描述语句中的词语分布,确定视频描述语句对应的至少一个文本主题信息,包括:
从视频描述语句中的词语分布中抽取一个词语,并返回继续执行上述抽取步骤,直至获取视频描述语句中的所有词语;
根据所有词语和词语的连接关系,预测视频描述语句对应的至少一个文本主题。
优选的,视频描述文本生成方法,其中,词向量的预先训练过程包括:
获取训练描述语句中的所有第一训练词语,并获取得到与每个第一训练词语相邻的至少一个第二训练词语;
根据第二训练词语与第一训练词语之间的比较结果,对第一训练词语的初始词向量进行调整;
基于调整后的第一训练词语的词向量,返回继续执行上述训练步骤,直至满足训练截止条件。
优选的,视频描述文本生成方法,其中,对文本主题信息对应的每个关联词的词向量进行处理,以得到文本主题信息对应的文本主题信息编码,包括:
获取得到文本主题信息对应的每个关联词的词向量的平均值,并将平均值作为文本主题信息编码。
优选的,视频描述文本生成方法,其中,神经网络包括第一神经网络、第二神经网络和第二循环神经网络;
将待描述视频的视频帧的序列作为输入序列输入至对应的神经网络中,以分别获取待描述视频的动态时域信息编码和静态信息编码,包括以下步骤:
将待描述视频的视频帧的序列作为输入序列输入至第一神经网络中,以获取每个视频帧的特征向量序列,并将特征向量序列依次输入到第二循环神经网络中得到待描述视频的动态时域信息编码;
将待描述视频的视频帧的序列作为输入序列输入至第二神经网络模型,以获取得到所有视频帧的序列对应的一个视频帧特征向量,并根据所有视频帧特征向量获取得到待描述视频的静态信息编码。
优选的,视频描述文本生成方法,其中,根据所有视频帧特征向量获取得到待描述视频的静态信息编码,包括:
对每个视频帧特征向量进行最大池化操作,以获取得到每个视频帧特征向量的最大池化结果,并将每个视频帧特征向量的最大池化结果作为待描述视频的静态信息编码。
优选的,视频描述文本生成方法,其中,第一神经网络为Resnet神经网络模型;和/或
第二神经网络为I3D神经网络模型;和/或
第三神经网络为VGG神经网络模型。
优选的,视频描述文本生成方法,其中,将待描述视频的动态时域信息编码、静态信息编码和音频特征向量编码进行融合处理,以得到融合结果,包括:
将动态时域信息编码、静态信息编码和音频特征向量编码按照预设拼接顺序进行拼接,以得到融合结果。
优选的,视频描述文本生成方法,其中,将融合结果和文本主题信息编码输入至第一循环神经网络中进行迭代处理,确定待描述视频的视频内容描述文本,包括:
将融合结果和文本主题信息编码输入至基于注意力机制的第一循环神经网络中,以根据融合结果逐步输出的当前位置的视频内容描述词语的上一位置的视频内容描述词语和文本主题信息编码,并依照注意力机制,确定当前位置的视频内容描述词语;
根据所有频内容描述词语设置视频内容描述文本。
上述技术方案具有如下优点或有益效果:
从而实现了在传统的特征提取基础上融入视频的动态内容、静态内容、时域信息和文本主题信息,进而实现在视频、图像、音频、文本多种模态融合的基础上生成视频的自然语言描述,提高生成的准确率和鲁棒性。
附图说明
参考所附附图,以更加充分的描述本发明的实施例。然而,所附附图仅用于说明和阐述,并不构成对本发明范围的限制。
图1为本发明基于多模态融合的视频描述文本生成方法实施例的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
本发明包括一种基于多模态融合的视频描述文本生成方法,如图1所示,包括以下步骤:
步骤S1,获取待描述视频,待描述视频包括视频帧和音频,待描述视频设置有对应的视频描述语句;
步骤S2,获取视频描述语句的至少一个文本主题信息,并给每个文本主题信息设置文本主题信息编码;
步骤S3,将待描述视频的视频帧的序列作为输入序列输入至对应的神经网络中,以分别获取待描述视频的动态时域信息编码和静态信息编码;和
将待描述视频的音频输入至对应的神经网络中,以获取待描述视频的音频特征向量编码;
步骤S4,将待描述视频的动态时域信息编码、静态信息编码和音频特征向量编码进行融合处理,以得到融合结果;
步骤S5,将融合结果和文本主题信息编码输入至第一循环神经网络中进行迭代处理,确定待描述视频的视频内容描述文本。
在上述实施例中,通过获取待描述视频对应的视频描述语句的至少一个文本主题信息,并给每个文本主题信息设置文本主题信息编码,从而实现了获取得到待描述视频对应的文本主题信息编码;并且将获取得到待描述视频的动态时域信息编码、静态信息编码和音频特征向量编码进行融合,以得到融合结果,随后将融合结果和文本主题信息编码输入至第一循环神经网络中进行迭代处理,确定待描述视频的视频内容描述文本;从而实现了在传统的特征提取基础上融入视频的动态内容(动态时域信息编码)、静态内容(静态信息编码)、时域信息(动态时域信息编码)和文本主题信息(文本主题信息编码),实现在视频、图像、音频、文本多种模态融合的基础上生成视频的自然语言描述,提高生成的准确率和鲁棒性。
在上述实施例中,通过获取视频描述语句的至少一个文本主题信息,而非获取视频描述语句的所有视频描述词语,从而缩小视频描述语句的文本搜索空间,进而加快生成视频内容描述文本的速度。
进一步地,在上述实施例中,步骤S2包括:
步骤S21,根据视频描述语句中的词语分布,确定视频描述语句对应的至少一个文本主题信息;
步骤S22,获取与文本主题信息对应的多个关联词,并获取得到每个关联词的词向量,其中,关联词的词向量预先训练得到;
步骤S23,对文本主题信息对应的每个关联词的词向量进行处理,以得到文本主题信息对应的文本主题信息编码。
在上述实施例中,在确定视频描述语句对应的至少一个文本主题信息之后,可以在视频描述语句中获取与文本主题信息对应的多个关联词,从而实现了通过文本主题信息从所述视频描述语句中确定关联词,从而缩小对关联词的搜索范围,可以实现对关联词的快速准确搜索;随后获取得到每个关联词的词向量,接着对文本主题信息对应的每个关联词的词向量进行处理,以得到文本主题信息对应的文本主题信息编码,即获取得到视频描述语句对应的至少一个文本主题信息编码。
进一步地,在上述实施例中,步骤S21包括:
步骤S211,从视频描述语句中的词语分布中抽取一个词语,并返回继续执行上述抽取步骤,直至获取视频描述语句中的所有词语;
步骤S212,根据所有词语和词语的连接关系,预测视频描述语句对应的至少一个文本主题。
在上述实施例中,可以采用隐含狄利克雷分布模型生成视频描述语句对应的预设主题数量的文本主题信息,其中,预设主题数量可以自定义设置。
在上述实施例中,可以将选择待描述视频的视频描述语句输入至隐含狄利克雷分布模型中,使得隐含狄利克雷分布模型根据视频描述语句中的词语分布中抽取一个词语,并返回继续执行上述抽取步骤,直至获取视频描述语句中的所有词语;随后根据抽取得到的每个词语和所有词语之间的连接关系获取得到视频描述语句对应的至少一个文本主题。
进一步地,在上述实施例中,词向量的预先训练过程包括:
获取训练描述语句中的所有第一训练词语,并获取得到与每个第一训练词语相邻的至少一个第二训练词语;
根据第二训练词语与第一训练词语之间的比较结果,对第一训练词语的初始词向量进行调整;
基于调整后的第一训练词语的词向量,返回继续执行上述训练步骤,直至满足训练截止条件。
在上述实施例中,基于调整后的第一训练词语的词向量,返回继续执行上述训练步骤,直至满足训练截止条件,包括:
基于调整后的第一训练词语的词向量,返回继续执行“获取训练描述语句中的所有第一训练词语,并获取得到与每个第一训练词语相邻的至少一个第二训练词语;
根据第二训练词语与第一训练词语之间的比较结果,对第一训练词语的初始词向量进行调整”的步骤,直至满足训练截止条件。
进一步地,在上述实施例中,对文本主题信息对应的每个关联词的词向量进行处理,以得到文本主题信息对应的文本主题信息编码,包括:
获取得到文本主题信息对应的每个关联词的词向量的平均值,并将平均值作为文本主题信息编码。
在上述实施例中,对每个文本主题信息下的所有关联词的词向量进行加和平均,以获取得到对应的平均值,并将平均值作为该文本主题信息的文本主题信息编码。例如:在视频描述语句中的一个体育主题下所有的关联词可能包括篮球、足球、运动、场地等,将每个关联词在预先训练得到的词向量集合中找到对应的词向量,在100维的每个维度上都将所有关联词的词向量的值相加,并除以这个体育主题下的关联词的总词数,从而得到这个体育主题的文本主题信息编码。
进一步地,在上述实施例中,神经网络包括第一神经网络、第二神经网络和第二循环神经网络;
步骤S3包括以下步骤:
步骤S31,将待描述视频的视频帧的序列作为输入序列输入至第一神经网络中,以获取每个视频帧的特征向量序列,并将特征向量序列依次输入到第二循环神经网络中得到待描述视频的动态时域信息编码;
在上述实施例中,每个视频帧均对应一个特征向量序列;
作为优选的实施方式,第一神经网络可以为Resnet神经网络模型;即将待描述视频的视频帧的序列作为输入序列输入至预训练好的Resnet神经网络模型,以提取待描述视频的视频帧的序列的特征向量序列,并将视频帧序列得到的特征向量序列按时序依次输入到第二循环神经网络中得到待描述视频的动态时域信息编码。
步骤S32,将待描述视频的视频帧的序列作为输入序列输入至第二神经网络模型,以获取得到所有视频帧的序列对应的一个视频帧特征向量,并根据所有视频帧特征向量获取得到待描述视频的静态信息编码;
在上述实施例中,整个待描述视频的所有视频帧的序列的集合对应一个视频帧特征向量。
进一步地,在上述实施例中,步骤S32中的根据所有视频帧特征向量获取得到待描述视频的静态信息编码,包括:
对视频帧特征向量进行最大池化操作,以获取得到视频帧特征向量的最大池化结果,并将视频帧特征向量的最大池化结果作为待描述视频的静态信息编码。
作为优选的实施方式,第二神经网络可以为I3D(Two-Stream Inflated 3DConvNets,交互式3D)神经网络模型;即将待描述视频的视频帧的序列作为输入序列输入至预训练好的I3D神经网络模型中,以提取整个待描述视频的所有视频帧的序列对应的一个视频帧特征向量,对视频帧特征向量做最大池化操作,即相同的视频帧特征向量在每个维度上取多个值中的最大值作为新的视频帧特征向量,从而获得待描述视频的静态信息编码。
在上述实施例中,神经网络还包括第三神经网络模型,步骤S3还包括:
步骤S33,将待描述视频的音频输入至第三神经网络模型,以获取得到待描述视频中的音频特征向量编码;
作为优选的实施方式,第三神经网络可以为VGG神经网络模型,将将待描述视频的音频输入至VGG神经网络模型中,以提取得到待描述视频中的音频特征向量编码。
需要说明的是,步骤S31-步骤S33可以顺序执行也可以并列执行,步骤S31-步骤S33之间没有固定的执行顺序。
进一步地,在上述实施例中,步骤S4具体包括:
将动态时域信息编码、静态信息编码和音频特征向量编码按照预设拼接顺序进行拼接,以得到融合结果。
作为优选的实施方式,当获取得到的动态时域信息编码的向量为1024维,获取得到的静态信息编码的向量为1024维,获取得到的音频向量编码的向量为1024维时,按照预设顺序依次组成3072维的融合结果。
进一步地,在上述实施例中,步骤S5包括:
步骤S51,将融合结果和文本主题信息编码输入至基于注意力机制的第一循环神经网络中,以根据融合结果逐步输出的当前位置的视频内容描述词语的上一位置的视频内容描述词语和文本主题信息编码,并依照注意力机制,确定当前位置的视频内容描述词语;
步骤S52,根据所有视频内容描述词语设置视频内容描述文本。
在上述实施例中,通过基于注意力机制的第一循环神经网络输出待描述视频对应的视频内容描述文本,从而提高生成的视频内容描述文本的准确率和鲁棒性。
在上述实施例中,将融合结果和文本主题信息编码输入至基于注意力机制的第一循环神经网络中,以在迭代输出的过程中,第一循环神经网络的每一步输入都加入文本主题信息编码,从而实现在传统的特征提取基础上融入视频的动态内容、静态内容、时域信息和文本主题信息,进而实现在视频、图像、音频、文本多种模态融合的基础上生成视频的自然语言描述,提高生成的准确率和鲁棒性。
在上述实施例中,第一循环神经网络逐步输出生成的当前位置的视频内容描述词语,每一步的输出的当前位置的视频内容描述词语包括当前位置的视频内容描述词语的上一位置的视频内容描述词语、文本主题信息编码和通过注意力机制计算的权重乘以上述融合结果;
其中,当当前位置的视频内容描述词语为第一步的视频内容描述词语时,此时的当前位置的视频内容描述词语的上一位置的视频内容描述词语可以为用户自定义的起始符向量,起始符向量的各维度初始为0;
需要说明的是,注意力机制生成的权重是根据3072维和第一循环神经网络参数作为输入,通过第一循环神经网络的输出层(softmax)计算得到的权重。
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

Claims (10)

1.一种基于多模态融合的视频描述文本生成方法,其特征在于,包括:
获取待描述视频,所述待描述视频包括视频帧和音频,所述待描述视频设置有对应的视频描述语句;
获取所述视频描述语句的至少一个文本主题信息,并给每个所述文本主题信息设置文本主题信息编码;
将所述待描述视频的视频帧的序列作为输入序列输入至对应的神经网络中,以分别获取所述待描述视频的动态时域信息编码和静态信息编码;
将所述待描述视频的音频输入至对应的神经网络中,以获取所述待描述视频的音频特征向量编码;
将所述待描述视频的所述动态时域信息编码、所述静态信息编码和所述音频特征向量编码进行融合处理,以得到融合结果;
将所述融合结果和所述文本主题信息编码输入至第一循环神经网络中进行迭代处理,确定所述待描述视频的视频内容描述文本。
2.如权利要求1所述的视频描述文本生成方法,其特征在于,所述获取所述视频描述语句的至少一个文本主题信息,并给每个所述文本主题信息设置文本主题信息编码,包括:
根据所述视频描述语句中的词语分布,确定所述视频描述语句对应的至少一个所述文本主题信息;
获取与所述文本主题信息对应的多个关联词,并获取得到每个所述关联词的词向量,其中,所述关联词的词向量预先训练得到;
对所述文本主题信息对应的每个所述关联词的词向量进行处理,以得到所述文本主题信息对应的所述文本主题信息编码。
3.如权利要求2所述的视频描述文本生成方法,其特征在于,所述根据所述视频描述语句中的词语分布,确定所述视频描述语句对应的至少一个所述文本主题信息,包括:
从所述视频描述语句中的词语分布中抽取一个词语,并返回继续执行上述抽取步骤,直至获取所述视频描述语句中的所有词语;
根据所有词语和词语的连接关系,预测所述视频描述语句对应的至少一个所述文本主题。
4.如权利要求2所述的视频描述文本生成方法,其特征在于,所述词向量的预先训练过程包括:
获取训练描述语句中的所有第一训练词语,并获取得到与每个第一训练词语相邻的至少一个第二训练词语;
根据所述第二训练词语与所述第一训练词语之间的比较结果,对所述第一训练词语的初始词向量进行调整;
基于调整后的所述第一训练词语的词向量,返回继续执行上述训练步骤,直至满足训练截止条件。
5.如权利要求2所述的视频描述文本生成方法,其特征在于,所述对所述文本主题信息对应的每个所述关联词的词向量进行处理,以得到所述文本主题信息对应的所述文本主题信息编码,包括:
获取得到所述文本主题信息对应的每个所述关联词的词向量的平均值,并将所述平均值作为所述文本主题信息编码。
6.如权利要求1所述的视频描述文本生成方法,其特征在于,所述神经网络包括第一神经网络、第二神经网络和第二循环神经网络;
所述将所述待描述视频的视频帧的序列作为输入序列输入至对应的神经网络中,以分别获取所述待描述视频的动态时域信息编码和静态信息编码,包括以下步骤:
将所述待描述视频的视频帧的序列作为输入序列输入至所述第一神经网络中,以获取每个视频帧的特征向量序列,并将所述特征向量序列依次输入到所述第二循环神经网络中得到所述待描述视频的动态时域信息编码;
将所述待描述视频的视频帧的序列作为输入序列输入至所述第二神经网络模型,以获取得到所有视频帧的序列对应的一个视频帧特征向量,并根据所有所述视频帧特征向量获取得到所述待描述视频的静态信息编码。
7.如权利要求6所述的视频描述文本生成方法,其特征在于,所述根据所有所述视频帧特征向量获取得到所述待描述视频的静态信息编码,包括:
对每个所述视频帧特征向量进行最大池化操作,以获取得到每个所述视频帧特征向量的最大池化结果,并将每个所述视频帧特征向量的所述最大池化结果作为所述待描述视频的所述静态信息编码。
8.如权利要求6所述的视频描述文本生成方法,其特征在于,所述第一神经网络为Resnet神经网络模型;和/或
所述第二神经网络为I3D神经网络模型;和/或
所述第三神经网络为VGG神经网络模型。
9.如权利要求1所述的视频描述文本生成方法,其特征在于,所述将所述待描述视频的所述动态时域信息编码、所述静态信息编码和所述音频特征向量编码进行融合处理,以得到融合结果,包括:
将所述动态时域信息编码、所述静态信息编码和所述音频特征向量编码按照预设拼接顺序进行拼接,以得到所述融合结果。
10.如权利要求1所述的视频描述文本生成方法,其特征在于,所述将所述融合结果和所述文本主题信息编码输入至第一循环神经网络中进行迭代处理,确定所述待描述视频的视频内容描述文本,包括:
将所述融合结果和所述文本主题信息编码输入至基于注意力机制的所述第一循环神经网络中,以根据所述融合结果逐步输出的当前位置的视频内容描述词语的上一位置的视频内容描述词语和所述文本主题信息编码,并依照注意力机制,确定当前位置的视频内容描述词语;
根据所有所述频内容描述词语设置所述视频内容描述文本。
CN202010876825.5A 2020-08-27 2020-08-27 一种基于多模态融合的视频描述文本生成方法 Pending CN112069361A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010876825.5A CN112069361A (zh) 2020-08-27 2020-08-27 一种基于多模态融合的视频描述文本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010876825.5A CN112069361A (zh) 2020-08-27 2020-08-27 一种基于多模态融合的视频描述文本生成方法

Publications (1)

Publication Number Publication Date
CN112069361A true CN112069361A (zh) 2020-12-11

Family

ID=73660383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010876825.5A Pending CN112069361A (zh) 2020-08-27 2020-08-27 一种基于多模态融合的视频描述文本生成方法

Country Status (1)

Country Link
CN (1) CN112069361A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792166A (zh) * 2021-08-18 2021-12-14 北京达佳互联信息技术有限公司 信息获取方法、装置、电子设备及存储介质
CN115496134A (zh) * 2022-09-14 2022-12-20 北京联合大学 基于多模态特征融合的交通场景视频描述生成方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070109446A1 (en) * 2005-11-15 2007-05-17 Samsung Electronics Co., Ltd. Method, medium, and system generating video abstract information
CN108200483A (zh) * 2017-12-26 2018-06-22 中国科学院自动化研究所 动态多模态视频描述生成方法
US20180189572A1 (en) * 2016-12-30 2018-07-05 Mitsubishi Electric Research Laboratories, Inc. Method and System for Multi-Modal Fusion Model
CN110234018A (zh) * 2019-07-09 2019-09-13 腾讯科技(深圳)有限公司 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN111309971A (zh) * 2020-01-19 2020-06-19 浙江工商大学 一种基于多级编码的文本到视频的跨模态检索方法
CN111488807A (zh) * 2020-03-29 2020-08-04 复旦大学 基于图卷积网络的视频描述生成系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070109446A1 (en) * 2005-11-15 2007-05-17 Samsung Electronics Co., Ltd. Method, medium, and system generating video abstract information
US20180189572A1 (en) * 2016-12-30 2018-07-05 Mitsubishi Electric Research Laboratories, Inc. Method and System for Multi-Modal Fusion Model
CN108200483A (zh) * 2017-12-26 2018-06-22 中国科学院自动化研究所 动态多模态视频描述生成方法
CN110234018A (zh) * 2019-07-09 2019-09-13 腾讯科技(深圳)有限公司 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN111309971A (zh) * 2020-01-19 2020-06-19 浙江工商大学 一种基于多级编码的文本到视频的跨模态检索方法
CN111488807A (zh) * 2020-03-29 2020-08-04 复旦大学 基于图卷积网络的视频描述生成系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
SHIZHE CHEN等: "Video Captioning with Guidance of Multimodal Latent Topics", MM \'17: PROCEEDINGS OF THE 25TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA, pages 3 - 5 *
SUBHASHINI VENUGOPALAN等: "Sequence to Sequence -- Video to Text", 2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV) *
YINPENG DONG等: "Improving Interpretability of Deep Neural Networks with Semantic Information", 《ARXIV PREPRINT ARXIV:1703.04096》, pages 2 *
刘萌: "面向视频分析的多模态处理技术", 中国博士学位论文全文数据库信息科技辑 *
孙亮: "基于深度学习的视频内容描述研究", 中国优秀硕士学位论文全文数据库 *
查红彬等: "视觉信息处理研究前沿", 31 December 2019, pages: 284 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792166A (zh) * 2021-08-18 2021-12-14 北京达佳互联信息技术有限公司 信息获取方法、装置、电子设备及存储介质
CN115496134A (zh) * 2022-09-14 2022-12-20 北京联合大学 基于多模态特征融合的交通场景视频描述生成方法和装置
CN115496134B (zh) * 2022-09-14 2023-10-03 北京联合大学 基于多模态特征融合的交通场景视频描述生成方法和装置

Similar Documents

Publication Publication Date Title
CN112668671B (zh) 预训练模型的获取方法和装置
US11281945B1 (en) Multimodal dimensional emotion recognition method
US20220014807A1 (en) Method, apparatus, device and medium for generating captioning information of multimedia data
CN111723937A (zh) 多媒体数据的描述信息的生成方法、装置、设备及介质
CN110717325B (zh) 文本的情感分析方法、装置、电子设备及存储介质
CN108228576B (zh) 文本翻译方法及装置
JP2023545543A (ja) 情報生成方法、装置、コンピュータ機器、記憶媒体及びコンピュータプログラム
CN114339450B (zh) 视频评论生成方法、系统、设备及存储介质
CN112069361A (zh) 一种基于多模态融合的视频描述文本生成方法
CN113657115B (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
WO2021135286A1 (zh) 视频的处理方法、视频的搜索方法、终端设备及计算机可读存储介质
CN107133567B (zh) 一种创可贴广告点位选取方法及装置
CN111400481A (zh) 针对多轮对话生成回复语句的方法和装置
CN114330236A (zh) 文字生成方法、装置、电子设备及存储介质
CN110263218A (zh) 视频描述文本生成方法、装置、设备和介质
CN111344717A (zh) 交互行为预测方法、智能装置和计算机可读存储介质
CN116306603A (zh) 标题生成模型的训练方法和标题生成方法、装置和介质
JP7181999B2 (ja) 検索方法及び検索装置、記憶媒体
CN116051688A (zh) 过渡动画生成方法及装置、计算机可读存储介质、终端
CN114120166A (zh) 视频问答方法、装置、电子设备及存储介质
CN115525740A (zh) 对话应答语句的生成方法、装置、电子设备及存储介质
CN116245102B (zh) 一种基于多头注意力和图神经网络的多模态情感识别方法
CN116309965A (zh) 动画生成方法及装置,计算机可读存储介质、终端
CN115909176A (zh) 一种视频语义分割方法、装置、电子设备及存储介质
CN106371583B (zh) 一种智能设备的控制方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination