CN115361595B

CN115361595B - 一种视频弹幕生成方法

Info

Publication number: CN115361595B
Application number: CN202210900140.9A
Authority: CN
Inventors: 李玉华; 董铁夫; 李瑞轩; 辜希武
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2024-04-26
Anticipated expiration: 2042-07-28
Also published as: CN115361595A

Abstract

本发明属于计算机视觉领域与自然语言处理的交叉领域，具体涉及一种视频弹幕生成方法，包括：首先对原始的视频及弹幕进行分段处理来降低输入到模型中的信息量，并通过预训练模型进行特征提取，由此来获得视频及弹幕的特征表示；使用堆叠的注意力层来对视频与弹幕的特征进行融合并使用记忆单元来捕获每段之间的上下文信息；通过解码器结构对融合的特征表示进行解码，最终生成新的弹幕评论。本发明通过引入分段机制与记忆单元，解决了使用Transformer结构只能处理固定长度上下文、自注意力机制计算量大、使用静态位置编码造成长距离信息丢失的问题，有效提高了所生成的弹幕评论的质量，还可以对不同长度的视频进行自适应化处理，分段生成多个视频弹幕。

Description

一种视频弹幕生成方法

技术领域

本发明属于计算机视觉领域与自然语言处理的交叉领域，更具体地，涉及一种视频弹幕生成方法。

背景技术

随着互联网技术的不断发展和创新，观看网络视频已经成为现代人主流的娱乐活动，人们的观看要求也不断地增高。现如今人们往往不满足于观看视频，而是追求情感表达以及与他人互动。很多学者的研究表明，当今传统的视频网站的互动性较弱，评论区是与他人交流观点的唯一途径，然而这一做法将视频与评论分割，无法做到实时性，同步性等特点。因此，用户日益增长的互动需求成为了视频网站运营人员考虑的重要因素。因此，弹幕网站应运而生。现在，国内主流的在线视频网站也引入了弹幕功能，如爱奇艺，腾讯视频等。弹幕视频网站与传统视频网站不同的是，用户可以在观看期间发送弹幕评论，同时也可以看到其他用户发送的评论，这种方式让用户之间的互动性更强，为用户营造出一种陪伴感，归属感的体验氛围，给用户一个可以自由发声的机会。对用户而言发送弹幕成为了一个寻求信息以及宣泄情绪的渠道。随着弹幕的发展，弹幕的应用已经不止局限于视频场景，越来越多的应用都引入了该功能如在线书籍，在线教育平台，直播平台等。可见弹幕与人们的生活越来越紧密相关。

弹幕评论也产生了实际的经济价值。有学者通过研究直播平台主播与用户的互动以及用户与用户之间的互动是否会影响用户的打赏行为，研究表明直播过程中用户发送的弹幕互动越强烈，用户的兴奋水平越高，进而提高用户所向主播发送礼物的数量。还有学者研究了弹幕与营销行为的关系，得出通过视频弹幕的聚群效应形成用户群体，进而产生粉丝营销等一系列营销活动。弹幕评论有助于提高用户粘性，对弹幕进行管理同时也可以引导直播间以及视频的评论导向，为未来多元化商业奠定基础。

现有的视频弹幕自动生成方法一般使用堆叠Transformer结构对视频以及文本信息进行融合，然而Transformer结构只使用静态的位置编码来捕获时序信息，随着数据长度的增加会导致模型捕获长距离信息能力降低。其次，训练的数据集中有很多与视频无关的弹幕评论，其对生成新的弹幕评论产生了影响，现有的处理方案是直接对数据集进行过滤或者不对其进行处理，前者忽略了真实的使用环境，后者则影响生成效果。除此之外，现有方案设计时均只针对固定视频长度进行设计，对于直播等场景适用性较弱。总体来讲，利用现有技术所生成的视频弹幕评论，其质量有待进一步提高。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种视频弹幕生成方法，其目的在于解决视频弹幕生成方法中Transformer导致长距离依赖丢失的问题。

为实现上述目的，按照本发明的一个方面，提供了一种视频弹幕生成方法，包括：采用已训练的视频弹幕生成模型生成视频弹幕，所述视频弹幕生成模型的生成方式为：

利用分段匹配映射机制，对视频进行分段，并组合每段视频及其相同时间段内的各个弹幕；使用预训练模型对视频和弹幕进行特征提取，最终得到每个视频弹幕组合的特征信息；

通过外部存储单元获取历史视频弹幕组合信息，使用堆叠的注意力层，对当前视频弹幕组合的特征信息和所述历史视频弹幕组合信息进行特征融合，得到融合的模态特征；

对历史视频弹幕组合信息更新，将更新的历史视频弹幕组合信息更新到所述外部存储单元中；同时，根据每个时间段对应的所述融合的模态特征，通过解码器以及概率生成器生成该时间段的视频弹幕评论。

进一步，在所述使用堆叠的注意力层之前，所述方法还包括：

对每个视频弹幕组合中的弹幕特征进行文本过滤。

进一步，所述文本过滤的实现方式为：

对每个视频弹幕组合中的弹幕特征、视频特征以及所述视频弹幕生成模型的多重相似度矩阵进行运算，得到权重值H_s；所述权重值Hs表示每个视频弹幕组合中弹幕特征与视频特征的相关度系数；

将所述权重值Hs与Aw′做乘积运算，得到初步过滤后的弹幕特征，再将得到的结果与所述Aw′相加，得到最终过滤后的弹幕特征，其中，Aw′为该视频弹幕组合中的视频特征和弹幕特征经维度统一后的弹幕特征。

进一步，所述特征融合的实现方式为：

采用堆叠的注意力层中的一层注意力层，对历史视频弹幕组合信息和当前视频弹幕组合中的弹幕特征进行融合，得到融合历史信息的弹幕特征；

采用所述堆叠的注意力层中另一层注意力层，对历史视频弹幕组合信息和当前视频弹幕组合中的视频特征进行融合，得到融合历史信息的视频特征；

基于融合门结构，使用其两个独立的多层感知机分别对融合历史信息的视频特征以及融合历史信息的文本特征进行升维操作，使其转变为高维度的特征表达，之后再将该两种高维度的特征表达拼接为一个特征向量，之后再使用融合门结构中的另外一个多层感知机进行降维操作，计算结果即为融合的模态特征。

进一步，所述对历史视频弹幕组合信息更新，实现方式为：

根据当前融合的模态特征与从外部存储单元中获取的历史视频弹幕组合信息，利用改进的带有注意力机制的GRU结构，对历史视频弹幕组合信息进行更新，并将结果推送到所述外部存储单元中；

其中，所述改进的带有注意力机制的GRU结构是利用多头注意力计算所述历史视频弹幕组合信息与当前融合的模态特征之间的注意力关系，并基于该注意力关系，利用GRU结构对历史视频弹幕组合信息进行更新计算，更新计算公式表示为：Z_il+1＝GRU(Z_il,Attention(Z_il,M_i-1l+Z_il,M_i-1l+Z_il))，其中，M_i-1l代表当前第i段视频弹幕组合输入时从外部存储单元中获取的历史视频弹幕组合信息，Z_il代表当前第i段对应的所述融合的模态特征，l代表当前计算的注意力层数。

进一步，在所述视频弹幕生成模型训练用损失函数的计算过程中，在每个视频弹幕组合输入时均计算损失，最终得到的损失为每个视频弹幕组合对应损失的加和。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如上所述的一种视频弹幕生成方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明提出了一个端到端的视频弹幕(评论)生成模型，用户可以输入原始的视频以及视频周围的文本，模型通过分段特征提取、特征编码、视频弹幕生成计算后，得到新生成的弹幕。本发明通过引入分段机制与记忆单元，解决了使用Transformer结构只能处理固定长度上下文、自注意力机制计算量大、使用静态位置编码造成长距离信息丢失的问题，提高了视频弹幕评论生成模型在不同应用场景下的适用性，且有效提高了所生成的弹幕评论的质量。另外，本发明所提出的分段匹配映射机制，可以有效降低输入模型的信息量，并使模型可以处理不同长度的输入数据，对直播等流媒体场景适应性更强，同时也可以引入本机制来批量生成弹幕评论。

(2)本发明还设计了文本过滤环节，通过计算视频与文本之间的多重相似度矩阵来提高文本信息的利用效果，有效的解决了输入的弹幕文本信息冗杂的问题，提高了所生成的弹幕评论的质量。

(3)基于视频弹幕(评论)生成模型的工作方式，其引入分段机制，因此视频弹幕(评论)生成模型的训练是一种密集评论生成训练模式，且通过在模型运算时增加中间层损失来在模型的计算过程中指导模型进行多模态信息融合，有效降低了模型的训练时间，提高了模型训练达到的最终效果。提高视频弹幕评论生成模型在不同应用场景下的适用性，提高了自动生成视频弹幕评论的质量。

附图说明

图1为本发明实施例提供的基于分段机制与记忆单元的视频弹幕生成方法流程图以及视频弹幕生成模型结构图；

图2为本发明实施例提供的词嵌入层模型示意图；

图3为本发明实施例提供的分段匹配映射机制运算机制示意图；

图4为图1中文本过滤单元结构示意图；

图5为本发明实施例提供的带有记忆单元的堆叠注意力层模型结构示意图；

图6为本发明实施例提供的记忆单元更新流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例一

一种视频弹幕生成方法，包括：采用已训练的视频弹幕生成模型生成视频弹幕，所述视频弹幕生成模型的生成方式为：

通过外部存储单元获取历史视频弹幕组合信息，使用堆叠的注意力层，对当前视频弹幕组合的特征信息和历史视频弹幕组合信息进行特征融合，得到融合的模态特征；

对历史视频弹幕组合信息更新，将更新的历史视频弹幕组合信息更新到所述外部存储单元中；同时，根据每个时间段对应的融合的模态特征，通过解码器以及概率生成器生成该时间段的视频弹幕评论。

也就是，为了提高自动生成的视频弹幕评论的质量，提供了一种基于分段机制与记忆单元的视频弹幕生成方法，如图1所示，整体流程包括：(1)数据处理阶段：使用分段特征提取器对原始输入的数据进行处理并输出特征表示；(2)特征编码阶段：使用特征编码器对输出的特征表示进行编码与多模态信息融合，并输出融合的模态信息表示；(3)生成阶段；使用弹幕生成器对编码的融合信息进行解码，最终生成弹幕。

需要说明的是，在利用分段匹配映射机制之前，需要对视频和弹幕进行预处理，预处理阶段，利用ffmpeg框架对原始视频每隔t秒提取关键帧，降低视频帧之间的冗余信息；利用指定python脚本对原始弹幕文本处理，将其处理为{videoId,time,comment}格式；利用jieba分词库，将处理后的弹幕文本进行分词操作并统计词频，将词频按降序排列，选取例如排前3万的字符构建词表。

例如，具体的，对于视频来说，首先使用ffmpeg框架每隔1秒对视频提取关键帧并将其裁剪为224×224大小，并将其转化张量，之后再对其进行归一化计算，归一化的目的是为了加快模型的收敛速度而不降低其数据分布，最后使用去掉最后一层的ResNet-18预训练模型提取关键帧的图像特征。其运算公式如下：

F_v＝ResNet_[:-1](Cut_224×224(compressor(V)))

对于输入的弹幕文本来说，包含有多个句子，因此需要对这些句子进行拼接操作。但是如果直接拼接会让模型无法精准的识别到每个句子，所以在进行拼接操作时，需要在每个句子之间的连接处填入特殊字符“<&&&>”作为每个句子之间的隔断。同理，为了让模型可以识别到文本开始以及文本的终止，需要分别在文本的前面和后面加入“<BOS>”符号和“<EOS>”符号。除此之外，需要限定输入模型的文本最大长度为w_len(这一点是因为当前的深度学习框架中，模型的输入维度必须是固定的)。由于通常情况下，文本长度不能达到该指标，因此需要对输入模型的文本进行填充操作，填充的内容是空白占位符“<PAD>”(在词表中对应的数字是0)。之后再使用最初分词后得到的词表进行映射将该填充后的文本进行向量化。这样就得到了计算机可以运算的文本向量。

该步骤的可以表示为以下公式，其中add表示填充特殊占位符以及句子拼接的操作，padding代表填充函数，Dict代表使用词表进行向量化，最后得到的W向量的长度是w_len。

W＝Dict(padding_{w_len}(add(C)))

之后本实施例构建了文本表示模型对向量化的文本进行特征提取，其主要包括词嵌入层以及位置嵌入层，其中位置嵌入层使用了Transformer的位置嵌入公式。词嵌入层则如图2所示，首先定义词表的总单词量vocab_size，以及文本的词嵌入维度d_w。将之前步骤中得到的文本向量根据词表大小转换为one-hot编码，将得到一个维度为w_len×vocab_size的稀疏矩阵。在编码之后，会首先经过一个降维矩阵，其作用是对这个稀疏矩阵进行压缩，将其维度压缩至w_len×d_w，最后再经过一个全连接层输出文本的特征表示。计算公式如下所示，其中W_map为稀疏矩阵映射到稠密矩阵的权值，one_hot表示为进行独热编码映射，F_emb是提取到词嵌入特征可以表示为F_emb＝{f_emb1,f_emb2,…,f_{embw_len}}。

F_emb＝MLP(W_map×one_hot(W))

由于该特征依旧受限于固定长度的上下信息，不能灵活的处理不同长度的视频，且当其长度超过一定程度时，其能承载的信息量不足以用嵌入编码来表示，只依赖于嵌入编码会导致模型丢失掉过长的上下文依赖。所以通过分段机制将数据进行了拆分与重组，如图3所示。

上述分段匹配映射机制基于以下假设：1)视频帧与视频弹幕之间存在时间上的依赖关系，即弹幕发送的时间与视频帧的时间越相近则两者的关联越强。例如，用户在视频第1秒发送的弹幕与视频第1秒的图像更加相关，与距离第1秒越远的视频图像相关性越低。2)用户在发送弹幕评论时通常有两种情况，第一种情况是用户对当前的视频内容做出解读或者评价等行为，第二种情况是为了与当前视频帧内的其他用户发送的弹幕评论进行互动，比如赞同或者否定他人的观点，或者回答之前弹幕评论发出的问题。分段匹配映射处理基于上述假设将视频与弹幕进行分段，根据分段映射规则将最相关的视频与弹幕映射到相同段内，降低输入到模型中计算的信息量，提高视频与弹幕融合的效果。

上述预训练模型对分段后的数据进行特征提取(需要说明的是，也可以先特征提取再分段组合)，使得后序模型可以捕获数据的深层特征。定义含有n帧图片的视频可以表示为V＝{V₁,V₂,…,V_n}，含有m个弹幕文本可以表示为C＝{C₁,C₂,…,C_m}，则利用词嵌入层与位置嵌入层对视频弹幕分别提取文本特征得到F_emb与F_pos，最终文本特征可以表示为A_w，计算公式如下：

A_w＝F_emb+F_pos

利用ResNet-18预训练模型对视频提取特征，其提取公式如下形式：

F_v＝ResNet_[:-1](Cut_224×224(V))

其中Cut代表裁剪大小函数，F_v为提取到的视频特征，可以表示为F_v＝{f₁,f₂,…,f_P}，其中p代表关键帧的个数。

最后在根据每个时间段对应的融合的模态特征，通过解码器以及概率生成器生成该时间段的视频弹幕评论时，具体的，利用Transformer解码器结构对融合模态信息解码，根据概率生成模型与统计词典生成视频弹幕评论。

优选地，由于用户发送的弹幕评论具有冗杂性，有可能只是一些无意义的文字或者与视频的内容毫无关系，这些文本信息对生成新的弹幕评论产生了一定的噪声。为了更加贴合实际应用环境，本实施例没有在处理原数据时将该部分文本进行删除，而是通过文本过滤单元对冗杂的信息进行过滤，其计算流程如图4所示。其主要根据度量学习(Distance Metric Learning，DML)中的马氏距离设计，该模块首先构建了一个文本相似度矩阵因为两种不同模态的信息在输入该模块之前进行了统一维度的运算，因此获得的视频特征F_v′和文本特征A_w′可以与相似矩阵W_s直接做矩阵乘积运算。在深度学习的训练过程中，由于该相似度矩阵的值会不断发生变化，无法保证上述推导过程中矩阵M的半正定性特点。所以将矩阵W_s分解为矩阵L和矩阵L转置相乘。即W_s＝LL^T，/>且L是模型的可训练参数，由此便可以保证文本相似计算矩阵W_s在计算的过程中，保证其半正定的特性。其计算公式如下所示：

得到的H_s通过SoftMax函数计算出权重值，计算该步的意义是为了获得文本信息和视频信息的相关度系数，越与视频相关其权值应该越大。之后将该权重值与A_w′做乘积运算，得到过滤后的文本信息，再将得到的结果与原本的A_w′相加。最后得到的A_c即为过滤后的文本模态信息表示。m代表多层感知机个数，其具体计算公式如下：

经过上述的多模态特征提取以及分段匹配映射机制运算，可以得到初步的多模态特征信息表示，其中视频模态特征可以表示为F_v＝{F₁,F₂,…,F_λ}，文本模态特征可以表示为A_c＝{A₁,A₂,…,A_λ}，其中λ为分段的段数。

本实施例计算弹幕与视频间的多重相似度矩阵，获取文本与视频间的相关性系数；通过增强文本相关度高的区域来提高文本信息的作用；利用多重相似矩阵来捕获文本与视频间不同方面的相似性信息，通过引入残差结构来防止文本信息的丢失。

优选地，本实施例将每个视频弹幕组合中的视频特征与弹幕特征进行融合，使得每种模态的信息可以更大的发挥出各自的优势，同时使每种模态信息的缺点可以得到一定程度的抑制。

上述特征融合的实现方式为：

采用堆叠的注意力层中的一层注意力层，对历史视频弹幕组合信息和当前视频弹幕组合中的弹幕特征进行融合，得到融合历史信息的弹幕特征；采用堆叠的注意力层中另一层注意力层，对历史视频弹幕组合信息和当前视频弹幕组合中的视频特征进行融合，得到融合历史信息的视频特征；基于融合门结构，使用其两个独立的多层感知机分别对融合历史信息的视频特征以及融合历史信息的文本特征进行升维操作，使其转变为高维度的特征表达，之后再将该两种高维度的特征表达拼接为一个特征向量，之后再使用融合门结构中的另外一个多层感知机进行降维操作，计算结果即为融合的模态特征。

优选地，上述对历史视频弹幕组合信息更新，实现方式为：

根据当前融合的模态特征与从外部存储单元中获取的历史视频弹幕组合信息，利用改进的带有注意力机制的GRU结构，对历史视频弹幕组合信息进行更新，并将结果推送到外部存储单元中；每次特征融合时从外部存储单元中拉取历史视频弹幕组合信息，由此让视频弹幕生成模型建立段与段之间的关系。

其中，上述改进的带有注意力机制的GRU结构是利用多头注意力计算上述历史视频弹幕组合信息与当前融合的模态特征之间的注意力关系，并基于该注意力关系，利用GRU结构对历史视频弹幕组合信息进行更新计算，更新计算公式表示为：Z_il+1＝GRU(Z_il,Attention(Z_il,M_i-1l+Z_il,M_i-1l+Z_il))，其中，M_i-1l代表当前第i段视频弹幕组合输入时从外部存储单元中获取的历史视频弹幕组合信息，Z_il代表当前第i段对应的所述融合的模态特征，l代表当前计算的注意力层数。

如图5所示，第一步是通过上述带有记忆单元的Transformer结构对文本信息进行编码，第二步是将文本编码的结果与视频模态特征输入到堆叠的带有记忆单元的Transformer结构中进行编码，同时将其与文本编码信息进行融合。该步骤的输入是上文中通过全连接转换维度后的文本编码信息A_c以及视频模态信息F_v。

图5中左侧部分为对文本信息的编码器，其结构为带有记忆单元的Transformer结构。将转换维度后的文本编码信息A_c输入到图5中左侧的文本编码器中，之后再得到的文本编码结果T_o输入到右侧的视频编码器中。在每一个视频编码器模块中，首先会将文本特征输入到带有记忆单元的多头注意力机制中，该部分的记忆单元初始化，更新算法与文本信息计算方式一致。之后再将得到的结果输入到多头注意力机制和前馈神经网络中得到运算得到视频编码结果V_o。

图6所示即为带有记忆单元的注意力层的结构，该部分的具体计算方式是，首先通过外部存储单元获得历史的上下文编码信息其中l代表Transformer模块的层数，i代表当前的段数。将得到的编码信息/>与本段输入的特征信息/>拼接，得到的结果/>即为Transformer注意力模块的输入，这里是将/>作为查询输入，将/>作为键输入以及值输入。并将计算得到的结果作为下一个特征编码块的输入。计算公式如下所示：

除此之外还需要使用记忆更新单元对上下文信息进行更新，如图6中右图所示。记忆单元一共包含两个门控单元，一个为重置门，另一个为更新门。重置门的作用是来控制之前段的历史信息如何流入当前段中，比如当重置门结果接近为0时，的计算结果接近为0，记忆单元会忘记历史信息。更新门的作用是决定前几步计算得到的候选更新信息中，有多少可以被更新到下一个段中。之后通过记忆单元更新公式，计算得到下一个段需要的上下文信息/>计算公式如下所示：

由于在第一段进行输入计算时，外部存储单元还没有历史的信息，因此需要对外部存储信息进行初始化操作，使第一次引用时可以获取到初始值。具体计算方式是首先对输入到模型中的的第一维度进行降维求和操作，其中X代表视频帧数p或者输入的文本长度w_len，计算后的维度为/>之后再用得到的结果进行第一维度的横向扩展，扩展的倍数为记忆单元的细胞个数记为o，o为模型训练的超参数，o越大则代表记忆单元所输出的矩阵维度越大，代表输入到编码块中的历史信息占比更大，扩展后的维度变为得到该记忆单元输出的结果后，再将其输入到一个多层感知机中计算，得到初始化的值。冷启动的计算公式如下所示：

得到两种融合后的模态信息后，本发明设计了一种的融合门结构对两种模态信息进行融合。首先使用两个独立的多层感知机分别对视频编码信息V_o以及文本编码信息T_o进行升维操作，使其转变为高纬度的特征表达，之后再将它们拼接为一个特征向量，之后再使用另外一个多层感知进行降维操作，计算结果即为多模态融合的信息表示S。其具体的计算公式如下：

V_o′＝MLP(V_o),T′_o＝MLP(T_o)

S＝MLP(Concat(V′_o,T′_o))

也就是，利用Transformer结构对视频进行编码得到编码后的视频信息表示，同时利用改进的堆叠双层注意力层在文本信息编码的过程中，对编码后的视频信息与文本信息进行多模态信息融合，其中第一层注意力层用于文本信息的编码，第二层注意力层用于视频信息与文本信息的融合。本实施例使用中间融合方式，使用两次多层感知机结构对融合后的视频信息与文本信息进行最终融合，最终向视频弹幕生成器输出融合的模态信息表示。

优选地，在视频弹幕生成模型训练用损失函数的计算过程中，在每个视频弹幕组合输入时均计算损失，最终得到的损失为每个视频弹幕组合对应损失的加和。

需要说明的是，基于分段机制与记忆单元的视频弹幕生成模型是基于深度学习进行训练，根据计算训练的损失函数，利用反向传播减小损失，使模型达到最优参数，训练模型的优化器为Adam优化器。

基于深度学习进行训练，设计密集评论生成训练模式，如其工作模式，利用分段匹配映射机制将原始数据拆分为多段小份，减小训练的计算量，增强模型捕获长距离信息能力。

总的来说，如图1所示，视频弹幕生成模型包括分段特征提取器、特征编码器和视频弹幕生成器。分段特征提取器将输入的原始视频与弹幕数据进行预处理，再利用分段匹配映射机制，完成对输入的视频与弹幕的分段与组合，并使用预训练模型进行视频与弹幕的特征提取；特征编码器利用文本过滤单元对提取后的弹幕信息进行过滤，提高文本信息的利用效果，通过外部存储单元获取历史的上下文，使用堆叠的注意力层对上下文信息、弹幕信息以及视频信息进行特征融合，同时将更新的上下文信息更新到的外部存储单元中，并向视频弹幕生成器发送融合的模态特征表示；视频弹幕生成器根据特征编码器输出的融合模态信息表示，通过解码器以及概率生成器生成视频弹幕评论。其中，分段特征提取器将原始视频与弹幕处理为可被模型处理的数据格式，并提取出原始信息的深层次特征，处理过程包括预处理、分段匹配映射处理以及预训练模型提取特征。

具体相关技术方案同前所述的视频弹幕生成方法。

实施例二

相关技术方案同实施例一，在此不再赘述。

综上，本发明针对视频弹幕生成方法及系任务中Transformer导致长距离依赖丢失。提出基于分段机制与记忆单元的多模态融合方法，具体为提出了一种基于分段机制与记忆单元的多模态融合方法，其可以对视频以及长文本两种模态特征进行融合，并可以将融合后的特征表示应用于下游任务。首先是引入了视频文本分段机制，通过该机制来降低每次输入到模型中的信息量，之后再通过记忆单元来获取不同段之间的视频与文本间的长距离依赖信息。以此来处理Transformer对长序列处理时无法捕获长距离依赖的问题。

另外，本发明针对视频周围实时评论冗杂导致的文本噪声问题，提出文本过滤处理，具体是通过将视频信息与文本信息计算多重相似度矩阵并获取文本特征的权重值，以提高文本特征对视频的描述效果。本发明还针对模型训练时间过长的问题，提出密集评论生成训练方式，具体是通过在模型运算时增加中间层损失来在模型的计算过程中指导模型进行多模态信息融合，有效的降低了模型的训练时间以及模型训练达到的最终效果。本发明还针对能够处理不同长度输入数据的需求，提出分段匹配映射机制，具体是通过分段匹配映射机制，可以有效降低输入模型的信息量，并使模型可以处理不同长度的输入数据，对直播等流媒体场景适应性更强，同时也可以引入本机制来批量生成弹幕评论。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频弹幕生成方法，其特征在于，包括：采用已训练的视频弹幕生成模型生成视频弹幕，所述视频弹幕生成模型的视频弹幕生成方式为：

2.根据权利要求1所述的一种视频弹幕生成方法，其特征在于，在所述使用堆叠的注意力层之前，所述方法还包括：

对每个视频弹幕组合中的弹幕特征进行文本过滤。

3.根据权利要求2所述的一种视频弹幕生成方法，其特征在于，所述文本过滤的实现方式为：

4.根据权利要求1所述的一种视频弹幕生成方法，其特征在于，所述特征融合的实现方式为：

5.根据权利要求1所述的一种视频弹幕生成方法，其特征在于，所述对历史视频弹幕组合信息更新，实现方式为：

6.根据权利要求1所述的一种视频弹幕生成方法，其特征在于，在所述视频弹幕生成模型训练用损失函数的计算过程中，在每个视频弹幕组合输入时均计算损失，最终得到的损失为每个视频弹幕组合对应损失的加和。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1至6任一项所述的一种视频弹幕生成方法。