CN111541910A

CN111541910A - 一种基于深度学习的视频弹幕评论自动生成方法及系统

Info

Publication number: CN111541910A
Application number: CN202010318723.1A
Authority: CN
Inventors: 李玉华; 甘映; 李瑞轩; 辜希武
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-08-14
Anticipated expiration: 2040-04-21
Also published as: CN111541910B

Abstract

本发明公开了一种基于深度学习的视频弹幕评论自动生成方法及系统，属于计算机视觉领域，包括：收集视频数据和对应的弹幕数据，以一条弹幕的文字特征作为标签，以该弹幕的上下文特征和周边的图像特征、音频特征作为属性，形成一个样本，将所有样本划分为训练集、验证集和测试集；基于自编码器和自解码器建立弹幕评论自动生成模型，用于对弹幕各属性进行时间序列分析并实现多模态特征融合后，生成弹幕评论；利用训练集、验证集和测试集对模型进行训练、验证和测试；以当前视频中目标时间点周边的弹幕、图像以及音频的特征为输入，利用已训练好的弹幕评论自动生成模型生成在目标时间点出现的弹幕评论。本发明能够提高自动生成的视频弹幕评论的质量。

Description

一种基于深度学习的视频弹幕评论自动生成方法及系统

技术领域

本发明属于计算机视觉领域，更具体地，涉及一种基于深度学习的视频弹幕评论自动生成方法及系统。

背景技术

视频的评论给很多观众带来了乐趣和新的想法。不幸的是，在很多情况下，视频和评论是分开的，这迫使观众在两个关键元素之间做出权衡。为了解决这个问题，一些视频网站提供了一个新功能：观众可以在观看视频时写下评论，评论会像子弹一样飞过屏幕，或者在屏幕右侧滚动，因此被称作“弹幕”。弹幕评论使得视频更加有趣和吸引人。此外，弹幕评论还能更好地吸引观众，并在观众之间建立直接的联系，让他们的观点和回应比评论部分的普通评论更容易被看到。这些特征能够极大的提升用户观看视频的体验。基于视频弹幕的优势，通过自动生成高质量的弹幕，有利于提高视频的流行度，增强视频与用户之间的交互。

随着计算机视觉和自然语言处理交叉领域的快速发展，评估人工智能处理视觉和语言能力的任务也越来越多，包括图片描述、视频描述、视觉问答及视觉对话等。图片描述是根据图片的内容生成文本描述，它需要对图片上的信息进行充分识别理解，然后将识别理解的信息转化为人类语言。视频描述和图片描述类似，唯一的区别是视频描述需要按照时间序列识别理解多帧图像。这两类任务都仅仅使用了图像信息。视觉问答和视觉对话是实现人机交互的重要一步。视觉问答需要机器根据图片的内容和问题的含义给出合理的答案。而视觉对话更是需要机器根据图像内容和对话上下文信息与人类进行多轮交流。这两类任务与前两类任务相比更加复杂，不仅需要理解图像的信息，还需要理解文本的信息。弹幕评论自动生成不同于所有这些任务。弹幕评论自动生成需要同时理解图像、音频及弹幕上下文信息，因此这是一个更复杂、更具挑战性的任务。

现有的视频弹幕自动生成方法至多只融合了视频中的图像信息和文本信息，并没有充分利用视频相关的多模态信息，并且在融合特征信息的过程中，没有进一步考虑不同信息对于弹幕的影响。总的来说，利用现有技术所生成的视频弹幕评论，其质量有待进一步提高。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于深度学习的视频弹幕评论自动生成方法，其目的在于，提高自动生成的视频弹幕评论的质量。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度学习的视频弹幕自动生成方法，包括：模型训练阶段和弹幕自动生成阶段；

模型训练阶段包括：

收集视频数据及对应的弹幕数据，将视频数据分离为图像数据和音频数据，并对图像数据、音频数据以及弹幕评论数据分别进行特征提取；以一条弹幕评论的文字特征作为标签，以该弹幕的上下文特征和周边的图像特征、音频特征作为该弹幕的属性，形成一个样本，由所有的样本构成数据集，并将数据集划分为训练集、验证集和测试集；

基于自编码器和自解码器建立弹幕评论自动生成模型，弹幕评论自动生成模型用于对图像特征、音频特征、弹幕评论上下文特征分别进行时间序列分析后，连同弹幕评论的文字特征一起实现多模态特征融合，并根据融合后的特征生成一条与视频内容及弹幕评论上下文相关的弹幕评论；

利用训练集、验证集和测试集分别对所建立的模型进行训练、验证和测试，从而得到训练好的弹幕评论自动生成模型；

弹幕自动生成阶段包括：

获得当前视频的视频数据及对应的弹幕评论数据，将视频数据分离为图像数据和音频数据；将期望生成弹幕评论的时间点作为目标时间点，选取目标时间点周边的弹幕、图像以及音频，分别进行特征提取后，以所提取的特征为输入，利用已训练好的弹幕评论自动生成模型生成在目标时间点出现的弹幕评论。

本发明通过融合图像特征、音频特征以及文本特征，能够充分利用视频相关的多模态信息，有效提高所生成的弹幕评论的质量。

进一步地，弹幕评论自动生成模型包括音频自编码器、图像自编码器、弹幕自编码器以及自解码器；

音频自编码器用于按照时间序列从音频特征中提取音频融合特征；

图像自编码器用于按照时间序列从图像特征中提取图像融合特征后，与音频自编码器输出的音频融合特征融合，得到音画融合特征；

弹幕自编码器用于按照时间序列从弹幕上下文特征中提取弹幕上下文融合特征后，与音频自编码器输出的音频融合特征以及图像自编码器输出的音画融合特征融合，得到视频融合特征；

自解码器用于融合音频自编码器输出的音频融合特征、图像自编码器输出的音画融合特征以及弹幕自编码器输出的视频融合特征，得到弹幕融合特征，并根据弹幕融合特征生成一条弹幕评论；

自解码器还用于计算生成的弹幕评论和真实弹幕评论的文字特征之间的误差作为损失，以便于通过不断迭代训练，缩小该损失。

本发明基于上述弹幕评论自动生成模型结构，能够逐步地、阶梯式地进行特征融合，从而基于不同信息对于弹幕评论的影响权重，更有效地融合多模态信息，提高最终生成的弹幕质量。

进一步地，音频自编码器、图像自编码器、弹幕自编码器以及自解码器均基于Transformer结构。

Transformer结构在序列很长，甚至达到数千节时，依然能够捕获到全局的一些信息，而不会出现信息丢失；Transformer结构还能够进行并行计算；本发明基于Transformer结构构建自编码器和自解码器，能够保证所生成的弹幕质量，同时加快模型的训练过程。

进一步地，在模型训练阶段，收集视频数据及对应的弹幕数据之后，将视频数据分离为图像数据和音频数据，并对图像数据、音频数据以及弹幕评论数据分别进行特征提取之前，还包括：

通过完整性检查剔除无法正常播放的视频；

过滤掉时长较短、弹幕较少和/或缺失音频通道的视频数据；

过滤掉与视频内容无关的弹幕数据；

其中，时长较短的视频数据为时长小于预设的第一阈值的视频数据；弹幕较少的视频为对应的弹幕数量小于预设的第二阈值的视频数据。

本发明通过在进行特征提取之前，对所收集的视频数据和弹幕数据进行上述预处理操作，能够有效避免数据集中的数据存在错误与冗余，从而保证模型的训练效果，最终保证模型生成的弹幕评论具有较高的质量。

进一步地，在模型训练阶段或弹幕评论自动生成阶段，对图像数据和音频数据进行特征提取，包括：

按照预设的时间间隔T将音频数据划分为音频分段，分别提取各音频分段的特征后，按时间顺序将各音频分段的特征组合为音频数据的特征；

按照时间间隔T从图像数据中抽取一帧画面信息，分别对所抽取的各帧画面信息进行特征提取后，按时间顺序将各帧画面信息的特征组合为视频数据的特征。

相邻视频帧图像之间具有很大的相似性，如果将每帧图像都作为模型输入将大幅度增加模型训练的时长；本发明基于视频帧图像的上述特性，采用每隔一定步长抽取视频中的一帧画面信息，以所抽取的帧画面信息的特征代表视频的图像特征，能够避免数据集中的数据冗余，有效加快模型的训练速度。

进一步地，在模型训练阶段或弹幕评论自动生成阶段，对弹幕评论进行特征提取，包括：

利用词库将弹幕评论表示为向量后，对该向量进行特征提取，作为弹幕评论的文字特征；

对于每一条弹幕评论，取与其出现时间最近的k条弹幕评论的文字特征，按时间顺序组合作为该弹幕评论的上下文特征；

其中，词库中记录了流行度最高的词汇，k为正整数。

本发明在进行多模态特征融合时，会考虑弹幕评论的上下文特征，由此能够让生成的弹幕与已有的弹幕有一定的关联，使得自动生成的弹幕可以与其它弹幕进行交互，从而进一步优化生成弹幕的质量。

进一步地，词库的构建方法包括：

对模型训练阶段收集的所有弹幕进行分词后，统计单词词频；

按照词频从高到低的顺序对单词排序后，取词频最高的前N的词汇构建词库；

其中，N为预设的比例参数。

进一步地，在构建词库时，还会从所选取的词汇中过滤掉无意义的词汇，并加入用于表示填充空白、句子开始、句子结束、不在词汇中出现的词以及句子连接符的特殊符号。

本发明在构建词库时，加入上述特殊字符，能够更准确地将弹幕文本表示为向量。

进一步地，在模型训练阶段，还包括：

为验证集和测试集中的每条样本增加候选弹幕，其中部分候选弹幕为真实弹幕；

在对弹幕评论自动生成模型进行测试和验证时，根据模型自动生成的弹幕评论与候选弹幕的相似度从高到低的顺序对所有的候选弹幕进行排序，利用真实弹幕被排序到前R的比例定量判断模型的效果；

其中，R为预设的比例参数。

由于根据视频的音频信息、图像信息和文本信息所生成的弹幕评论可能会千变万化，很难直接对模型生成的弹幕评论进行定量评价；本发明将模型的将评价模型的方式转化为排序问题，理想情况下，模型生成的弹幕和真实弹幕之间的相似度肯定是最高的，因此本发明通过对候选弹幕进行排序，统计真实弹幕被排序到R的比例，即可定量判断模型的效果。

按照本发明的另一个方面，提供了一种基于深度学习的视频弹幕评论自动生成系统，包括：计算机可读存储介质和处理器；

计算机可读存储介质用于存储可执行程序；

处理器用于读取计算机可读存储介质中存储的可执行程序，执行本发明提供的基于深度学习的视频弹幕评论自动生成方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明通过融合图像特征、音频特征以及文本特征，能够充分利用视频相关的多模态信息，有效提高所生成的弹幕评论的质量。

(2)本发明所提供的弹幕评论自动生成模型，能够逐步地、阶梯式地进行特征融合，从而基于不同信息对于弹幕评论的影响权重，更有效地融合多模态信息，提高最终生成的弹幕质量。

(3)本发明通过在进行特征提取之前，对所收集的视频数据和弹幕数据进行上述预处理操作，能够有效避免数据集中的数据存在错误与冗余，从而保证模型的训练效果，最终保证模型生成的弹幕评论具有较高的质量。

(4)本发明在进行多模态特征融合时，会考虑弹幕评论的上下文特征，由此能够让生成的弹幕与已有的弹幕有一定的关联，使得自动生成的弹幕可以与其它弹幕进行交互，从而进一步优化生成弹幕的质量。

(5)本发明通过对候选弹幕进行排序，统计真实弹幕被排序到R的比例，能够定量判断模型的效果。

附图说明

图1为本发明实施例提供的基于深度学习的视频弹幕评论自动生成方法流程图；

图2为现有的自编码器和自解码器结构示意图；

图3为本发明实施例提供的视频弹幕评论自动生成模型的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为了提高自动生成的视频弹幕评论的质量，在本发明的一个实施例中，提供了一种基于深度学习的视频弹幕自动生成方法，如图1所示，包括：模型训练阶段和弹幕自动生成阶段；

模型训练阶段包括：

(S1)收集视频数据及对应的弹幕数据；

通过对比各个视频弹幕平台的视频数量，弹幕质量，本实施例选择使用Python网络爬虫从哔哩哔哩(简称B站)平台上收集数据；

具体收集方式如下：根据网站自带的搜索排序功能，首先将每一类的视频按照热度进行排序，取每一类前100个视频，然后获取每个视频的视频唯一标识vid和弹幕文件唯一标识cid并去重，最后通过平台提供的接口及vid、cid下载视频和弹幕文件；最终共计下载5133条数据，这些数据来自B站14大类73小类，大类具体为动画、音乐、舞蹈、科技、生活、时尚、娱乐、番剧、国创、游戏、数码、鬼畜、广告及时尚；

(S2)对收集的视频和对应的弹幕评论进行预处理；

预处理操作具体包括：通过完整性检查剔除无法正常播放的视频；具体所使用的完整性检查工具为开源工具ffmpeg；

过滤掉时长较短、弹幕较少和/或缺失音频通道的视频数据；

通过正则表达式过滤掉与视频内容无关的弹幕数据；与视频内容无关的弹幕数据主要包含纯数字型、言语辱骂型、文本中包含3个及以上连续相同的字符、无实际意义型，等等；

其中，时长较短的视频数据为时长小于预设的第一阈值的视频数据；弹幕较少的视频为对应的弹幕数量小于预设的第二阈值的视频数据；第一阈值和第二阈值均设定为经验值即可；

本实施例中，步骤(S2)还包括：

词库的构建方法包括：

利用jieba中文分词工具对模型训练阶段收集的所有弹幕进行分词后，统计单词词频；

其中，N为预设的比例参数；

在构建词库时，还会从所选取的词汇中过滤掉无意义的词汇，并加入用于表示填充空白、句子开始、句子结束、不在词汇中出现的词以及句子连接符的特殊符号；在本实施例中，用”<PAD>”、“<BOS>”、“<EOS>”、“<UNK>”、“<&&&>”分别表示填充空白、句子开始、句子结束、不在词汇中出现的词以及句子连接符，应当理解的是，此处仅为示例性表述，不应理解为对本发明的唯一限定；

(S3)将视频数据分离为图像数据和音频数据，并对图像数据、音频数据以及弹幕评论数据分别进行特征提取；以一条弹幕评论的文字特征作为标签，以该弹幕的上下文特征和周边(出现时间接近)的图像特征、音频特征作为该弹幕的属性，形成一个样本，由所有的样本构成数据集，并将数据集划分为训练集、验证集和测试集；

步骤(S3)中，对图像数据和音频数据进行特征提取，包括：

按照预设的时间间隔T(例如1s)将音频数据划分为音频分段，分别提取各音频分段的特征后，按时间顺序将各音频分段的特征组合为音频数据的特征；

按照时间间隔T从图像数据中抽取一帧画面信息，分别对所抽取的各帧画面信息进行特征提取后，按时间顺序将各帧画面信息的特征组合为视频数据的特征；

步骤(S3)中，对弹幕评论进行特征提取，包括：

其中，词库中记录了流行度最高的词汇，k为正整数；

一个时长为n秒的视频数据及对应的弹幕数据为例，上下文信息是指每条弹幕周边最近的k条弹幕，融合这类信息是为了让生成的弹幕可以与其他用户发表的弹幕进行交互；对于包含k条弹幕的上下文C＝{C₁,C₂,...,C_k},其中C_i代表按照弹幕出现时间排序的第i条弹幕，利用Word2Vec模型对其进行特征提取，其最终获取的Embedding向量表示为c＝{c₁,c₂,...,c_n}，计算方式如公式(1)：

c_i＝Word2Vec(C_i) (1)

以1s为时间间隔，将音频数据划分为A＝{A₁,A₂,...,A_n}，利用L3-Net网络模型提取每秒音频的特征，L3-Net是由Cramer等人于2019年提出的一种对声音做Embedding的自监督网络模型，与VGGish及SoundNet等网络模型相比，它使用视频画面和音频共同训练，因此获取的声音Embedding更好。其最终获取的Embedding向量表示为a＝{a₁,a₂,...,a_n}，计算方式如公式(2)：

a_i＝L3Net(A_i) (2)

每隔1s抽取视频中的一帧画面信息，并保存为图形，然后采用残差网络Res18提取每张图片的特征。对于长度为n秒的视频V＝{V₁,V₂,...,V_n}，V_i为视频第i秒时的图像，其最终获取的Embedding向量表示为v＝{v₁,v₂,...,v_n}，计算方式如公式(3)：

v_i＝Res18(V_i) (3)

本实施例中，将所得到的数据集按照一定比例划分为训练集、验证集和测试集后，训练集用于模型的训练，验证集用于在训练过程中验证模型的泛化能力，测试集用于评估模型的最终效果。数据集最终划分结果如下：

	训练集	验证集	测试集	合计
					视频数量	4633	250	250	5133
弹幕数量	1100536	56246	59447	1216229
					视频时长	265h	15h	14.7h	294.7h

(S4)基于自编码器和自解码器建立弹幕评论自动生成模型，弹幕评论自动生成模型用于对图像特征、音频特征、弹幕评论上下文特征分别进行时间序列分析后，连同弹幕评论的文字特征一起实现多模态特征融合，并根据融合后的特征生成一条与视频内容及弹幕上下文相关的弹幕评论；

本实施例所建立的弹幕评论自动生成模型，包括：音频自编码器(AudioEncoder)、图像自编码器(VideoEncoder)、弹幕自编码器(TextEncoder)以及自解码器(CommentDecoder)；

自解码器还用于计算生成的弹幕评论和真实弹幕评论的文字特征之间的误差作为损失，以便于通过不断迭代训练，缩小该损失；

考虑到信息中包含序列信息，可以使用循环神经网络(Recurrent NeuralNetwork，RNN)及其变种，如长短期记忆网络(Long Short-Term Memory，LSTM)及门控循环单元(Gated Recurrent Unit，GRU)等、或者使用完全基于注意力机制的Transformer等结构，也可以是多种结构的联合使用；

在本实施例中，自编码器(Encoder)和自解码器(Decoder)均基于Transformer结构实现；图2所示为一种自编码器-自解码器的结构示意图，其中，Encoder为自编码器，Decoder为自解码器，Encoder和Decoder结构都是采用Transformer，Transformer主要特点是使用Positional Encoding对序列的位置信息进行编码，然后使用多路注意力(Mutil-Head Attention)机制获取输入中的多个关键信息，然后使用Feed Forward将多个关键信息融合，通过每次处理完后使用Add&Norm层对这些信息进行归一化处理；

本实施例中，基于Transformer结构实现的弹幕评论自动生成模型如图3所示，基于该模型自动生成弹幕评论的过程如下：

将所提取的连续n段音频的特征a＝{a₁,a₂,...,a_n}作为音频自编码器的输入，输出为这n段音频按照时间序列提取的音频融合特征u＝{u₁,u₂,...,u_n}，如图3所示的AudioEncoder部分，音频融合特征u_i的计算方式如公式(4)：

u_i＝Transformer(a_i,a) (4)

然后将所提取的连续n张图片的特征v＝{v₁,v₂,...,v_n}作为图像自编码器的输入，同时将所提取的音频融合特征u作为额外信息进行融合，输出为n秒的视频片段的融合音频画面信息后的音画融合特征h＝{h₁,h₂,...,h_n}，如图3所示的VideoEncoder部分，音画融合特征h_i的计算方式如公式(5)：

h_i＝Transformer(v_i,v,u) (5)

将弹幕的上下文特征c＝{c₁,c₂,...,c_k}按照出现时间的顺序输入到弹幕自编码器中，同时将音频融合特征u和音画融合特征h作为额外信息进行融合，输出为n秒的视频片段的融合音频画面及弹幕上下文信息后的视频融合特征m＝{m₁,m₂,...,m_k}，如图3所示的TextEncoder部分，最终的视频上下文融合特征m_i的计算方式如公式(6)：

m_i＝Transformer(c_i,c,h,u) (6)

当前弹幕的向量表示e＝{e₁,e₂,...,e_p}作为自解码器的输入，其中p为当前弹幕的单词长度，同时将音频融合特征u、音画融合特征h以及视频融合特征m依次输入到自动自解码器中进行全面融合，最后依照概率生成模型生成新弹幕y＝{y₁,y₂,...,y_q}，其中q为生成弹幕评论的单词长度，计算生成的弹幕评论y与真实弹幕评论e之间的差别作为损失，不断训练缩小此损失，如图3的CommentDecoder部分所示，其中生成y的概率如公式(7)：

进一步，单词y_i的概率分布计算方法如公式(8)和公式(9)：

s_i＝Transformer(e_i,e,m,h,u) (8)

p(y_i|y₁,y₂,…,y_i-1,u,h,m)＝Softmax(Ws_i) (9)

其中，W是模型参数；

本实例所使用的网络模型中各模态特征的Embedding维度为512；使用的视频片段时长为5秒，即5张图片和5秒音频；使用的弹幕上下文数量为5条；各类的自编码器和自解码器的堆叠层数为6；词汇表大小为30000；学习率为3*10^-4；在深度学习网络的训练过程中，对于神经网络单元，会按照一定的概率将其暂时从网络中丢弃，该概率(Dropout)为0.1；一次训练所选取的样本数(batch-size)为128；训练轮数为50；

(S5)利用训练集、验证集和测试集分别对所建立的模型进行训练、验证和测试，从而得到训练好的弹幕评论自动生成模型；

在模型训练阶段，步骤(S5)还包括：

候选弹幕集合生成方法如下：

(1)真实弹幕：在弹幕出现时刻t出现的所有弹幕评论；

(2)混淆弹幕：通过词频-逆文档频率(Term Frequency-Inverse DocumentFrequency，TF-IDF)计算数据集中每条弹幕与当前真实弹幕的相关性并进行排序，选择前30条含义最相近的弹幕作为混淆弹幕；

(3)流行弹幕：从数据集中出现频率最高的100条流行弹幕中随机取20条，这类弹幕一般是与视频内容没有多大意义的弹幕，如“新年快乐”，“2333”、“hahaha”等；

(4)随机评论：从训练集中随机取出一些评论填充到候选评论之中，使得候选评论集合共计有100条数据；

其中，R为预设的比例参数；

弹幕自动生成阶段包括：

获得当前视频的视频数据及对应的弹幕评论数据，将视频数据分离为图像数据和音频数据；将期望生成弹幕评论的时间点作为目标时间点，选取所述目标时间点周边的弹幕、图像以及音频，分别进行特征提取后，以所提取的特征为输入，利用已训练好的弹幕评论自动生成模型生成在该目标时间点出现的弹幕评论；

在弹幕自动生成阶段，各特征的提取方法可参考上述模型训练阶段中的描述。

在上述实施例中，将图像音频文本等信息转化为向量就叫Embedding，Embedding维度即为对应的特征向量的维度。

在本发明的另一个实施例中，提供了一种基于深度学习的视频弹幕评论自动生成系统，包括：计算机可读存储介质和处理器；

计算机可读存储介质用于存储可执行程序；

处理器用于读取计算机可读存储介质中存储的可执行程序，执行上述方法实施例提供的基于深度学习的视频弹幕评论自动生成方法。

弹幕是用户根据视频画面、声音或者其他用户弹幕所发表的个人观点，因此弹幕自动生成任务要求人工智能体能够识别视频及音频的内容，理解弹幕文字的含义，并与其他发表弹幕的用户进行交互，因此这是一个很好的测试人工智能体处理动态视觉，听觉和语言能力的平台。总体而言，本发明提出使用连续的多帧图像、一段时间的音频及多条周边弹幕评论作为上下文信息用于模型的训练，使得生成的弹幕不仅可以与视频、音频相关，更可以与其他的弹幕进行交互。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的视频弹幕评论自动生成方法，其特征在于，包括：模型训练阶段和弹幕自动生成阶段；

所述模型训练阶段包括：

收集视频数据及对应的弹幕数据，将视频数据分离为图像数据和音频数据，并对图像数据、音频数据以及弹幕评论数据分别进行特征提取；以一条弹幕评论的文字特征作为标签，以该弹幕的上下文特征和周边的图像特征、音频特征作为该弹幕的属性，形成一个样本，由所有的样本构成数据集，并将所述数据集划分为训练集、验证集和测试集；

基于自编码器和自解码器建立弹幕评论自动生成模型，所述弹幕评论自动生成模型用于对图像特征、音频特征、弹幕评论上下文特征分别进行时间序列分析后，连同弹幕评论的文字特征一起实现多模态特征融合，并根据融合后的特征生成一条与视频内容及弹幕评论上下文相关的弹幕评论；

利用所述训练集、所述验证集和所述测试集分别对所建立的模型进行训练、验证和测试，从而得到训练好的弹幕评论自动生成模型；

所述弹幕自动生成阶段包括：

获得当前视频的视频数据及对应的弹幕评论数据，将视频数据分离为图像数据和音频数据；将期望生成弹幕评论的时间点作为目标时间点，选取所述目标时间点周边的弹幕、图像以及音频，分别进行特征提取后，以所提取的特征为输入，利用已训练好的弹幕评论自动生成模型生成在所述目标时间点出现的弹幕评论。

2.如权利要求1所述的基于深度学习的视频弹幕评论自动生成方法，其特征在于，所述弹幕评论自动生成模型包括音频自编码器、图像自编码器、弹幕自编码器以及自解码器；

所述音频自编码器用于按照时间序列从音频特征中提取音频融合特征；

所述图像自编码器用于按照时间序列从图像特征中提取图像融合特征后，与所述音频自编码器输出的音频融合特征融合，得到音画融合特征；

所述弹幕自编码器用于按照时间序列从弹幕上下文特征中提取弹幕上下文融合特征后，与所述音频自编码器输出的音频融合特征以及所述图像自编码器输出的音画融合特征融合，得到视频融合特征；

所述自解码器用于融合所述音频自编码器输出的音频融合特征、所述图像自编码器输出的音画融合特征以及所述弹幕自编码器输出的视频融合特征，得到弹幕融合特征，并根据所述弹幕融合特征生成一条弹幕评论；

所述自解码器还用于计算生成的弹幕评论和真实弹幕评论的文字特征之间的误差作为损失，以便于通过不断迭代训练，缩小该损失。

3.如权利要求2所述的基于深度学习的视频弹幕评论自动生成方法，其特征在于，所述音频自编码器、图像自编码器、弹幕自编码器以及自解码器均基于Transformer结构。

4.如权利要求1-3任一项所述的基于深度学习的视频弹幕评论自动生成方法，其特征在于，在所述模型训练阶段，收集视频数据及对应的弹幕数据之后，将视频数据分离为图像数据和音频数据，并对图像数据、音频数据以及弹幕评论数据分别进行特征提取之前，还包括：

通过完整性检查剔除无法正常播放的视频；

过滤掉时长较短、弹幕较少和/或缺失音频通道的视频数据；

过滤掉与视频内容无关的弹幕数据；

5.如权利要求1-3任一项所述的基于深度学习的视频弹幕评论自动生成方法，其特征在于，在所述模型训练阶段或所述弹幕评论自动生成阶段，对图像数据和音频数据进行特征提取，包括：

按照所述时间间隔T从所述图像数据中抽取一帧画面信息，分别对所抽取的各帧画面信息进行特征提取后，按时间顺序将各帧画面信息的特征组合为视频数据的特征。

6.如权利要求1-3任一项所述的基于深度学习的视频弹幕评论自动生成方法，其特征在于，在所述模型训练阶段或所述弹幕评论自动生成阶段，对弹幕评论进行特征提取，包括：

其中，所述词库中记录了流行度最高的词汇，k为正整数。

7.如权利要求6所述的基于深度学习的视频弹幕评论自动生成方法，其特征在于，所述词库的构建方法包括：

对所述模型训练阶段收集的所有弹幕进行分词后，统计单词词频；

其中，N为预设的比例参数。

8.如权利要求7所述的基于深度学习的视频弹幕评论自动生成方法，其特征在于，在构建所述词库时，还会从所选取的词汇中过滤掉无意义的词汇，并加入用于表示填充空白、句子开始、句子结束、不在词汇中出现的词以及句子连接符的特殊符号。

9.如权利要求1-3任一项所述的基于深度学习的视频弹幕评论自动生成方法，其特征在于，在所述模型训练阶段，还包括：

为所述验证集和所述测试集中的每条样本增加候选弹幕，其中部分候选弹幕为真实弹幕；

在对所述弹幕评论自动生成模型进行测试和验证时，根据模型自动生成的弹幕评论与候选弹幕的相似度从高到低的顺序对所有的候选弹幕进行排序，利用真实弹幕被排序到前R的比例定量判断模型的效果；

其中，R为预设的比例参数。

10.一种基于深度学习的视频弹幕评论自动生成系统，其特征在于，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行程序；

所述处理器用于读取所述计算机可读存储介质中存储的可执行程序，执行权利要求1-9任一项所述的基于深度学习的视频弹幕评论自动生成方法。