CN112069361A

CN112069361A - 一种基于多模态融合的视频描述文本生成方法

Info

Publication number: CN112069361A
Application number: CN202010876825.5A
Authority: CN
Inventors: 刘辉
Original assignee: Xinhua Zhiyun Technology Co ltd
Current assignee: Xinhua Zhiyun Technology Co ltd
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2020-12-11

Abstract

本发明提供一种基于多模态融合的视频描述文本生成方法，包括：获取待描述视频，待描述视频包括视频帧，待描述视频设置有对应的视频描述语句；获取视频描述语句的文本主题信息，给每个文本主题信息设置文本主题信息编码；分别获取待描述视频的动态时域信息编码、静态信息编码和音频特征向量编码；将所述待描述视频的所述动态时域信息编码、所述静态信息编码和所述音频特征向量编码进行融合处理，以得到融合结果；将融合结果和文本主题信息编码输入至第一循环神经网络中进行迭代处理，确定待描述视频的视频内容描述文本。本发明的有益效果在于：实现在视频、音频、文本多种模态融合的基础上生成视频的自然语言描述，提高生成的准确率和鲁棒性。

Description

一种基于多模态融合的视频描述文本生成方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于多模态融合的视频描述文本生成方法。

背景技术

视频资源已经变成人们获取信息最流行和喜爱的方式，尤其是在一些视频APP出现后，每天刷视频已经成为很多人必不可少的休闲娱乐方式。为了更好的服务于用户，需要将视频中最核心的信息用文本形式表达,以便进行推荐展示。因此必须有一种方法能够对于给定的视频输出该视频的核心内容信息。

目前通常会对视频进行视频内容描述(video captioning)，视频内容描述是通过给定一段视频，生成描述视频内容的一段文字。视频内容描述需要用通顺准确的一句话来描述视频内容。现有技术通过采用深度卷积神经网络模型提取图像层面的RGB、灰度光流等特征，音频层面的时序等特征，将两类特征向量拼接并输入到循环神经网络中，通过基于注意力机制的循环神经网络迭代输出自然语言描述文本。

然后上述现有技术会对视频进行抽帧，并将抽帧后的图像作为独立的特征用于输出描述文本，但抽帧后的独立图像无法反映出视频的动态内容和时域信息；并且自然语言描述文本的输出需要文本层面信息的支撑，然而上述现有技术没有融合文本层面信息的特征，从而导致输出的描述文本内容发散性大、语义方向不稳定。

发明内容

针对现有技术中存在的上述问题，现提供一种基于多模态融合的视频描述文本生成方法。

具体技术方案如下：

一种基于多模态融合的视频描述文本生成方法，其中，包括：

获取待描述视频，待描述视频包括视频帧和音频，待描述视频设置有对应的视频描述语句；

获取视频描述语句的至少一个文本主题信息，并给每个文本主题信息设置文本主题信息编码；

将待描述视频的视频帧的序列作为输入序列输入至对应的神经网络中，以分别获取待描述视频的动态时域信息编码和静态信息编码；

将待描述视频的音频输入至对应的神经网络中，以获取待描述视频的音频特征向量编码；

将待描述视频的动态时域信息编码、静态信息编码和音频特征向量编码进行融合处理，以得到融合结果；

将融合结果和文本主题信息编码输入至第一循环神经网络中进行迭代处理，确定待描述视频的视频内容描述文本。

优选的，视频描述文本生成方法，其中，获取视频描述语句的至少一个文本主题信息，并给每个文本主题信息设置文本主题信息编码，包括：

根据视频描述语句中的词语分布，确定视频描述语句对应的至少一个文本主题信息；

获取与文本主题信息对应的多个关联词，并获取得到每个关联词的词向量，其中，关联词的词向量预先训练得到；

对文本主题信息对应的每个关联词的词向量进行处理，以得到文本主题信息对应的文本主题信息编码。

优选的，视频描述文本生成方法，其中，根据视频描述语句中的词语分布，确定视频描述语句对应的至少一个文本主题信息，包括：

从视频描述语句中的词语分布中抽取一个词语，并返回继续执行上述抽取步骤，直至获取视频描述语句中的所有词语；

根据所有词语和词语的连接关系，预测视频描述语句对应的至少一个文本主题。

优选的，视频描述文本生成方法，其中，词向量的预先训练过程包括：

获取训练描述语句中的所有第一训练词语，并获取得到与每个第一训练词语相邻的至少一个第二训练词语；

根据第二训练词语与第一训练词语之间的比较结果，对第一训练词语的初始词向量进行调整；

基于调整后的第一训练词语的词向量，返回继续执行上述训练步骤，直至满足训练截止条件。

优选的，视频描述文本生成方法，其中，对文本主题信息对应的每个关联词的词向量进行处理，以得到文本主题信息对应的文本主题信息编码，包括：

获取得到文本主题信息对应的每个关联词的词向量的平均值，并将平均值作为文本主题信息编码。

优选的，视频描述文本生成方法，其中，神经网络包括第一神经网络、第二神经网络和第二循环神经网络；

将待描述视频的视频帧的序列作为输入序列输入至对应的神经网络中，以分别获取待描述视频的动态时域信息编码和静态信息编码，包括以下步骤：

将待描述视频的视频帧的序列作为输入序列输入至第一神经网络中，以获取每个视频帧的特征向量序列，并将特征向量序列依次输入到第二循环神经网络中得到待描述视频的动态时域信息编码；

将待描述视频的视频帧的序列作为输入序列输入至第二神经网络模型，以获取得到所有视频帧的序列对应的一个视频帧特征向量，并根据所有视频帧特征向量获取得到待描述视频的静态信息编码。

优选的，视频描述文本生成方法，其中，根据所有视频帧特征向量获取得到待描述视频的静态信息编码，包括：

对每个视频帧特征向量进行最大池化操作，以获取得到每个视频帧特征向量的最大池化结果，并将每个视频帧特征向量的最大池化结果作为待描述视频的静态信息编码。

优选的，视频描述文本生成方法，其中，第一神经网络为Resnet神经网络模型；和/或

第二神经网络为I3D神经网络模型；和/或

第三神经网络为VGG神经网络模型。

优选的，视频描述文本生成方法，其中，将待描述视频的动态时域信息编码、静态信息编码和音频特征向量编码进行融合处理，以得到融合结果，包括：

将动态时域信息编码、静态信息编码和音频特征向量编码按照预设拼接顺序进行拼接，以得到融合结果。

优选的，视频描述文本生成方法，其中，将融合结果和文本主题信息编码输入至第一循环神经网络中进行迭代处理，确定待描述视频的视频内容描述文本，包括：

将融合结果和文本主题信息编码输入至基于注意力机制的第一循环神经网络中，以根据融合结果逐步输出的当前位置的视频内容描述词语的上一位置的视频内容描述词语和文本主题信息编码，并依照注意力机制，确定当前位置的视频内容描述词语；

根据所有频内容描述词语设置视频内容描述文本。

上述技术方案具有如下优点或有益效果：

从而实现了在传统的特征提取基础上融入视频的动态内容、静态内容、时域信息和文本主题信息，进而实现在视频、图像、音频、文本多种模态融合的基础上生成视频的自然语言描述，提高生成的准确率和鲁棒性。

附图说明

参考所附附图，以更加充分的描述本发明的实施例。然而，所附附图仅用于说明和阐述，并不构成对本发明范围的限制。

图1为本发明基于多模态融合的视频描述文本生成方法实施例的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

本发明包括一种基于多模态融合的视频描述文本生成方法，如图1所示，包括以下步骤：

步骤S1，获取待描述视频，待描述视频包括视频帧和音频，待描述视频设置有对应的视频描述语句；

步骤S2，获取视频描述语句的至少一个文本主题信息，并给每个文本主题信息设置文本主题信息编码；

步骤S3，将待描述视频的视频帧的序列作为输入序列输入至对应的神经网络中，以分别获取待描述视频的动态时域信息编码和静态信息编码；和

步骤S4，将待描述视频的动态时域信息编码、静态信息编码和音频特征向量编码进行融合处理，以得到融合结果；

步骤S5，将融合结果和文本主题信息编码输入至第一循环神经网络中进行迭代处理，确定待描述视频的视频内容描述文本。

在上述实施例中，通过获取待描述视频对应的视频描述语句的至少一个文本主题信息，并给每个文本主题信息设置文本主题信息编码，从而实现了获取得到待描述视频对应的文本主题信息编码；并且将获取得到待描述视频的动态时域信息编码、静态信息编码和音频特征向量编码进行融合，以得到融合结果，随后将融合结果和文本主题信息编码输入至第一循环神经网络中进行迭代处理，确定待描述视频的视频内容描述文本；从而实现了在传统的特征提取基础上融入视频的动态内容(动态时域信息编码)、静态内容(静态信息编码)、时域信息(动态时域信息编码)和文本主题信息(文本主题信息编码)，实现在视频、图像、音频、文本多种模态融合的基础上生成视频的自然语言描述，提高生成的准确率和鲁棒性。

在上述实施例中，通过获取视频描述语句的至少一个文本主题信息，而非获取视频描述语句的所有视频描述词语，从而缩小视频描述语句的文本搜索空间，进而加快生成视频内容描述文本的速度。

进一步地，在上述实施例中，步骤S2包括：

步骤S21，根据视频描述语句中的词语分布，确定视频描述语句对应的至少一个文本主题信息；

步骤S22，获取与文本主题信息对应的多个关联词，并获取得到每个关联词的词向量，其中，关联词的词向量预先训练得到；

步骤S23，对文本主题信息对应的每个关联词的词向量进行处理，以得到文本主题信息对应的文本主题信息编码。

在上述实施例中，在确定视频描述语句对应的至少一个文本主题信息之后，可以在视频描述语句中获取与文本主题信息对应的多个关联词，从而实现了通过文本主题信息从所述视频描述语句中确定关联词，从而缩小对关联词的搜索范围，可以实现对关联词的快速准确搜索；随后获取得到每个关联词的词向量，接着对文本主题信息对应的每个关联词的词向量进行处理，以得到文本主题信息对应的文本主题信息编码，即获取得到视频描述语句对应的至少一个文本主题信息编码。

进一步地，在上述实施例中，步骤S21包括：

步骤S211，从视频描述语句中的词语分布中抽取一个词语，并返回继续执行上述抽取步骤，直至获取视频描述语句中的所有词语；

步骤S212，根据所有词语和词语的连接关系，预测视频描述语句对应的至少一个文本主题。

在上述实施例中，可以采用隐含狄利克雷分布模型生成视频描述语句对应的预设主题数量的文本主题信息，其中，预设主题数量可以自定义设置。

在上述实施例中，可以将选择待描述视频的视频描述语句输入至隐含狄利克雷分布模型中，使得隐含狄利克雷分布模型根据视频描述语句中的词语分布中抽取一个词语，并返回继续执行上述抽取步骤，直至获取视频描述语句中的所有词语；随后根据抽取得到的每个词语和所有词语之间的连接关系获取得到视频描述语句对应的至少一个文本主题。

进一步地，在上述实施例中，词向量的预先训练过程包括：

在上述实施例中，基于调整后的第一训练词语的词向量，返回继续执行上述训练步骤，直至满足训练截止条件，包括：

基于调整后的第一训练词语的词向量，返回继续执行“获取训练描述语句中的所有第一训练词语，并获取得到与每个第一训练词语相邻的至少一个第二训练词语；

根据第二训练词语与第一训练词语之间的比较结果，对第一训练词语的初始词向量进行调整”的步骤，直至满足训练截止条件。

进一步地，在上述实施例中，对文本主题信息对应的每个关联词的词向量进行处理，以得到文本主题信息对应的文本主题信息编码，包括：

在上述实施例中，对每个文本主题信息下的所有关联词的词向量进行加和平均，以获取得到对应的平均值，并将平均值作为该文本主题信息的文本主题信息编码。例如：在视频描述语句中的一个体育主题下所有的关联词可能包括篮球、足球、运动、场地等，将每个关联词在预先训练得到的词向量集合中找到对应的词向量，在100维的每个维度上都将所有关联词的词向量的值相加，并除以这个体育主题下的关联词的总词数，从而得到这个体育主题的文本主题信息编码。

进一步地，在上述实施例中，神经网络包括第一神经网络、第二神经网络和第二循环神经网络；

步骤S3包括以下步骤：

步骤S31，将待描述视频的视频帧的序列作为输入序列输入至第一神经网络中，以获取每个视频帧的特征向量序列，并将特征向量序列依次输入到第二循环神经网络中得到待描述视频的动态时域信息编码；

在上述实施例中，每个视频帧均对应一个特征向量序列；

作为优选的实施方式，第一神经网络可以为Resnet神经网络模型；即将待描述视频的视频帧的序列作为输入序列输入至预训练好的Resnet神经网络模型，以提取待描述视频的视频帧的序列的特征向量序列，并将视频帧序列得到的特征向量序列按时序依次输入到第二循环神经网络中得到待描述视频的动态时域信息编码。

步骤S32，将待描述视频的视频帧的序列作为输入序列输入至第二神经网络模型，以获取得到所有视频帧的序列对应的一个视频帧特征向量，并根据所有视频帧特征向量获取得到待描述视频的静态信息编码；

在上述实施例中，整个待描述视频的所有视频帧的序列的集合对应一个视频帧特征向量。

进一步地，在上述实施例中，步骤S32中的根据所有视频帧特征向量获取得到待描述视频的静态信息编码，包括：

对视频帧特征向量进行最大池化操作，以获取得到视频帧特征向量的最大池化结果，并将视频帧特征向量的最大池化结果作为待描述视频的静态信息编码。

作为优选的实施方式，第二神经网络可以为I3D(Two-Stream Inflated 3DConvNets，交互式3D)神经网络模型；即将待描述视频的视频帧的序列作为输入序列输入至预训练好的I3D神经网络模型中，以提取整个待描述视频的所有视频帧的序列对应的一个视频帧特征向量，对视频帧特征向量做最大池化操作，即相同的视频帧特征向量在每个维度上取多个值中的最大值作为新的视频帧特征向量，从而获得待描述视频的静态信息编码。

在上述实施例中，神经网络还包括第三神经网络模型，步骤S3还包括：

步骤S33，将待描述视频的音频输入至第三神经网络模型，以获取得到待描述视频中的音频特征向量编码；

作为优选的实施方式，第三神经网络可以为VGG神经网络模型，将将待描述视频的音频输入至VGG神经网络模型中，以提取得到待描述视频中的音频特征向量编码。

需要说明的是，步骤S31-步骤S33可以顺序执行也可以并列执行，步骤S31-步骤S33之间没有固定的执行顺序。

进一步地，在上述实施例中，步骤S4具体包括：

作为优选的实施方式，当获取得到的动态时域信息编码的向量为1024维，获取得到的静态信息编码的向量为1024维，获取得到的音频向量编码的向量为1024维时，按照预设顺序依次组成3072维的融合结果。

进一步地，在上述实施例中，步骤S5包括：

步骤S51，将融合结果和文本主题信息编码输入至基于注意力机制的第一循环神经网络中，以根据融合结果逐步输出的当前位置的视频内容描述词语的上一位置的视频内容描述词语和文本主题信息编码，并依照注意力机制，确定当前位置的视频内容描述词语；

步骤S52，根据所有视频内容描述词语设置视频内容描述文本。

在上述实施例中，通过基于注意力机制的第一循环神经网络输出待描述视频对应的视频内容描述文本，从而提高生成的视频内容描述文本的准确率和鲁棒性。

在上述实施例中，将融合结果和文本主题信息编码输入至基于注意力机制的第一循环神经网络中，以在迭代输出的过程中，第一循环神经网络的每一步输入都加入文本主题信息编码，从而实现在传统的特征提取基础上融入视频的动态内容、静态内容、时域信息和文本主题信息，进而实现在视频、图像、音频、文本多种模态融合的基础上生成视频的自然语言描述，提高生成的准确率和鲁棒性。

在上述实施例中，第一循环神经网络逐步输出生成的当前位置的视频内容描述词语，每一步的输出的当前位置的视频内容描述词语包括当前位置的视频内容描述词语的上一位置的视频内容描述词语、文本主题信息编码和通过注意力机制计算的权重乘以上述融合结果；

其中，当当前位置的视频内容描述词语为第一步的视频内容描述词语时，此时的当前位置的视频内容描述词语的上一位置的视频内容描述词语可以为用户自定义的起始符向量，起始符向量的各维度初始为0；

需要说明的是，注意力机制生成的权重是根据3072维和第一循环神经网络参数作为输入，通过第一循环神经网络的输出层(softmax)计算得到的权重。

以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种基于多模态融合的视频描述文本生成方法，其特征在于，包括：

获取待描述视频，所述待描述视频包括视频帧和音频，所述待描述视频设置有对应的视频描述语句；

获取所述视频描述语句的至少一个文本主题信息，并给每个所述文本主题信息设置文本主题信息编码；

将所述待描述视频的视频帧的序列作为输入序列输入至对应的神经网络中，以分别获取所述待描述视频的动态时域信息编码和静态信息编码；

将所述待描述视频的音频输入至对应的神经网络中，以获取所述待描述视频的音频特征向量编码；

将所述待描述视频的所述动态时域信息编码、所述静态信息编码和所述音频特征向量编码进行融合处理，以得到融合结果；

将所述融合结果和所述文本主题信息编码输入至第一循环神经网络中进行迭代处理，确定所述待描述视频的视频内容描述文本。

2.如权利要求1所述的视频描述文本生成方法，其特征在于，所述获取所述视频描述语句的至少一个文本主题信息，并给每个所述文本主题信息设置文本主题信息编码，包括：

根据所述视频描述语句中的词语分布，确定所述视频描述语句对应的至少一个所述文本主题信息；

获取与所述文本主题信息对应的多个关联词，并获取得到每个所述关联词的词向量，其中，所述关联词的词向量预先训练得到；

对所述文本主题信息对应的每个所述关联词的词向量进行处理，以得到所述文本主题信息对应的所述文本主题信息编码。

3.如权利要求2所述的视频描述文本生成方法，其特征在于，所述根据所述视频描述语句中的词语分布，确定所述视频描述语句对应的至少一个所述文本主题信息，包括：

从所述视频描述语句中的词语分布中抽取一个词语，并返回继续执行上述抽取步骤，直至获取所述视频描述语句中的所有词语；

根据所有词语和词语的连接关系，预测所述视频描述语句对应的至少一个所述文本主题。

4.如权利要求2所述的视频描述文本生成方法，其特征在于，所述词向量的预先训练过程包括：

根据所述第二训练词语与所述第一训练词语之间的比较结果，对所述第一训练词语的初始词向量进行调整；

基于调整后的所述第一训练词语的词向量，返回继续执行上述训练步骤，直至满足训练截止条件。

5.如权利要求2所述的视频描述文本生成方法，其特征在于，所述对所述文本主题信息对应的每个所述关联词的词向量进行处理，以得到所述文本主题信息对应的所述文本主题信息编码，包括：

获取得到所述文本主题信息对应的每个所述关联词的词向量的平均值，并将所述平均值作为所述文本主题信息编码。

6.如权利要求1所述的视频描述文本生成方法，其特征在于，所述神经网络包括第一神经网络、第二神经网络和第二循环神经网络；

所述将所述待描述视频的视频帧的序列作为输入序列输入至对应的神经网络中，以分别获取所述待描述视频的动态时域信息编码和静态信息编码，包括以下步骤：

将所述待描述视频的视频帧的序列作为输入序列输入至所述第一神经网络中，以获取每个视频帧的特征向量序列，并将所述特征向量序列依次输入到所述第二循环神经网络中得到所述待描述视频的动态时域信息编码；

将所述待描述视频的视频帧的序列作为输入序列输入至所述第二神经网络模型，以获取得到所有视频帧的序列对应的一个视频帧特征向量，并根据所有所述视频帧特征向量获取得到所述待描述视频的静态信息编码。

7.如权利要求6所述的视频描述文本生成方法，其特征在于，所述根据所有所述视频帧特征向量获取得到所述待描述视频的静态信息编码，包括：

对每个所述视频帧特征向量进行最大池化操作，以获取得到每个所述视频帧特征向量的最大池化结果，并将每个所述视频帧特征向量的所述最大池化结果作为所述待描述视频的所述静态信息编码。

8.如权利要求6所述的视频描述文本生成方法，其特征在于，所述第一神经网络为Resnet神经网络模型；和/或

所述第二神经网络为I3D神经网络模型；和/或

所述第三神经网络为VGG神经网络模型。

9.如权利要求1所述的视频描述文本生成方法，其特征在于，所述将所述待描述视频的所述动态时域信息编码、所述静态信息编码和所述音频特征向量编码进行融合处理，以得到融合结果，包括：

将所述动态时域信息编码、所述静态信息编码和所述音频特征向量编码按照预设拼接顺序进行拼接，以得到所述融合结果。

10.如权利要求1所述的视频描述文本生成方法，其特征在于，所述将所述融合结果和所述文本主题信息编码输入至第一循环神经网络中进行迭代处理，确定所述待描述视频的视频内容描述文本，包括：

将所述融合结果和所述文本主题信息编码输入至基于注意力机制的所述第一循环神经网络中，以根据所述融合结果逐步输出的当前位置的视频内容描述词语的上一位置的视频内容描述词语和所述文本主题信息编码，并依照注意力机制，确定当前位置的视频内容描述词语；

根据所有所述频内容描述词语设置所述视频内容描述文本。