CN113505267B

CN113505267B - 一种自回归弹幕生成方法和系统

Info

Publication number: CN113505267B
Application number: CN202110677802.6A
Authority: CN
Inventors: 曾泽华; 马存庆; 屠晨阳; 彭佳; 单亦伟
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2023-12-05
Anticipated expiration: 2041-06-18
Also published as: CN113505267A

Abstract

本发明公开了一种自回归弹幕生成方法和系统。本方法为：1)选取一训练数据集对模型进行训练，所述模型包括双向编码器、自回归解码器和分类器；该训练数据集中的每条样本包括视频片段的图像截图，该视频片段的参考弹幕，该参考弹幕周围且发送时间在参考弹幕之前的一系列上下文弹幕，以及该视频片段所属视频的视频类别；2)对于当前播放的目标视频，当用户从该目标视频中选取一目标位置并输入弹幕文本时，将当前输入的弹幕文本作为参考弹幕，利用训练后的自回归解码器模块从该参考弹幕的首个词开始，依次将每个词作为生成目标弹幕的提示词，最终生成该目标位置的弹幕文本。本发明大大改善了目前网站中的候选弹幕质量。

Description

一种自回归弹幕生成方法和系统

技术领域

本发明涉及自然语言生成领域，特别涉及一种针对弹幕视频的自回归弹幕生成方法和系统。

背景技术

包含弹幕的视频是一种新型视频，观众可以通过发送弹幕实现对视频的实时评论。在播放视频时，弹幕会显示在视频的右侧或直接显示在视频上。因此观众不仅可以实时评论他们正在观看的内容，还可以回复其他人的评论。

由于弹幕视频是一种新兴的视频类型，如何吸引新的用户一直是所有此类服务提供商需要面对的问题。不同于用户可以直接观看、以视频内容为最主要卖点的普通视频，包含弹幕的视频则在用户交互等方面更加关注。而新用户在首次观看此类视频的情况下，由于弹幕的多样性和高噪声的特点，其很可能很难从庞大而多样的现有弹幕中学习到如何发送自己的弹幕与其他用户互动。因此，与搜索引擎提供的搜索建议一样，在发布评论时，一些视频观众可能希望从自动生成的候选弹幕评论中进行选择，从而简化发送弹幕的过程。目前，某些网站使用简单的候选弹幕集合中的随机文本向用户提供候选弹幕。但此类方法效果较差，这些候选文本信息量较低，且使用场景受到限制，用户只能选择候选弹幕，无法实现针对视频内容和周围弹幕的特定弹幕内容选择。

为了实现对弹幕文本的自动生成，需要利用自然语言生成领域的技术。随着深度神经网络和自然语言生成技术的发展，目前主流生成方法采用编码器-解码器结构，实现文本上下文的编码和文本生成。然而，目前传统的弹幕生成模型在生成弹幕时，没有考虑其高噪声、多样性等特点，这导致其解码器倾向于生成流行和一般的弹幕，这使得生成的弹幕包含的信息量较低，生成效果较差。此外，部分现有模型将弹幕生成任务和弹幕视频相关性任务结合在同一解码器中，影响了生成效果。

发明内容

根据上述发展现状，本发明的目的在于提出一种基于双向编码器和自回归解码器的自回归弹幕生成方法和系统。本发明针对弹幕文本在时序上差异性的问题，引入了弹幕发布时间，考虑不同文本发布时间属性对于弹幕生成任务的影响。本发明将视频分割为片段，并针对每个视频片段中的弹幕文本、按一定间隔截取的视频图像等信息引入基于Transformer的双向编码器，实现了对视频和弹幕的多种信息的融合。此外，模型通过将数据集中用户实际发送的弹幕作为参考弹幕，并将其首词作为提示词，实现了基于提示词的可控弹幕自回归生成，从而帮助网络服务提供商实现用户引导的功能，改善目前网站中的候选弹幕质量。

为了达到上述目的，本发明采用了以下方案：

一种自回归弹幕生成方法，其步骤包括：

1)选取一训练数据集对模型进行训练，所述模型包括双向编码器、自回归解码器和分类器；该训练数据集中的每条样本包括视频片段的图像截图，该视频片段的参考弹幕，该参考弹幕周围且发送时间在参考弹幕之前的一系列上下文弹幕，以及该视频片段所属视频的视频类别；其中对所述模型训练方法为：

首先将每条样本的上下文弹幕和视频片段的图像截图输入到双向编码器中进行编码，并将得到的上下文弹幕文本的独热编码表示和该图像截图的图像向量将相链接，作为输入向量序列，再将该输入向量序列中每个向量在该输入向量序列中的位置按顺序列出，得到一位置向量序列；然后将该位置向量序列与该输入向量序列相加后进行编码，得到一输出向量并输入到分类器中；然后分类器将当前样本的所述输出向量和给定弹幕作为输入，预测给定弹幕和所述输出向量属于同一视频的概率并计算模型预测的交叉熵损失，然后根据此损失对所述模型进行反向传播更新分类器和双向编码器的参数；其中所述给定弹幕为当前样本的参考弹幕或者其他样本的参考弹幕；

将当前样本的所述输出向量输入到自回归解码器中，自回归解码器根据所述输出向量得到当前样本的视频类别的预测概率；再将当前样本的参考弹幕的每个词依次加入到输入弹幕序列，输出对于当前输入词的下一个词的预测概率；然后计算预测概率结果与真实的视频类别之间的损失以及预测每个词的概率与参考弹幕词之间的损失，从而得到自回归解码器的损失，并根据损失函数进行分享传播更新自回归解码器和双向编码器参数；

2)对于当前播放的目标视频，当用户从该目标视频中选取一目标位置并输入弹幕文本时，将当前输入的弹幕文本作为参考弹幕，利用训练后的自回归解码器模块从该参考弹幕的首个词开始，依次将每个词作为生成目标弹幕的提示词，最终生成该目标位置的弹幕文本。

进一步的，将该双向编码器最后一个隐状态作为所述输出向量。

进一步的，所述分类器为基于Transformer的分类器；所述自回归解码器为基于Transformer的自回归解码器。

进一步的，使用ResNet网络将视频图像表示为视频图像向量。

一种自回归弹幕生成系统，其特征在于，包括双向编码器模块、自回归解码器模块和分类器模块；其中，

所述双向编码器模块，用于将视频片段的上下文弹幕和视频片段的图像截图进行编码，并将得到的上下文弹幕文本的独热编码表示和该图像截图的图像向量将相链接，作为输入向量序列，再将该输入向量序列中每个向量在该输入向量序列中的位置按顺序列出，得到一位置向量序列；然后将该位置向量序列与该输入向量序列相加后进行编码，得到一输出向量；

所述自回归解码器模块，用于根据所述输出向量得到当前视频的视频类别；以及根据参考弹幕和视频图像对目标弹幕的词进行预测，生成目标弹幕；

所述分类器模块，用于利用双向编码器模块的输出向量和给定弹幕进行二分类，判断给定弹幕是否和双向编码器模块的输入属于同一视频。

本发明主要分为三个模块，分别是为双向编码器模块、自回归解码器模块和分类器模块。双向编码器模块将视频的视频图像信息、弹幕文本的上下文信息等信息融合并表示为向量的形式。自回归解码器模块分为两个目标：生成目标和分类目标，两个目标共同使用自回归解码器模块进行训练。其中生成目标根据参考弹幕和视频图像对目标弹幕的词进行预测，生成目标弹幕；分类目标同样根据参考弹幕和视频图像对弹幕所属视频的类别进行判断。分类器模块利用双向编码器模块的输出和给定弹幕进行二分类训练，用于判断给定弹幕是否和双向编码器的输入属于同一视频，从而进一步改善模型效果。模型最终利用自回归解码器模块，将用户给定词作为生成目标弹幕的提示词，每次加入一个词对弹幕文本的下一个词进行预测，直到生成整个弹幕，从而实现对弹幕的自回归生成。本发明可以根据提示词直接生成弹幕文本，其中“自回归”是文本生成方法的一种。

所述本发明的弹幕文本生成是基于Transformer的自然语言生成。发表评论时是先要在视频中选取一目标位置，用于在该目标位置生成弹幕；选定目标位置后服务器会自动获取该位置的候选文本(即候选上下文弹幕文本)、视频图像以及发布时间等信息；模型利用目标位置的上下文弹幕、视频图像，融合表示为弹幕的上下文向量，同时考虑弹幕发布时间，训练神经网络判断视频类别和生成目标弹幕文本。

视频图像使用预训练的ResNet网络表示为512维的视频图像向量；为了考虑弹幕发布时间，上下文弹幕使用发布时间在参考弹幕发布之前的弹幕数据，且经过预先的中文分词并建立词汇表。

所述双向编码器模块如图1所示，此模块将目标位置周围的弹幕上下文文本的独热编码表示为向量形式并与视频图像向量相链接作为输入向量序列，再将每个向量在序列中的位置按顺序列出，并经过一个位置嵌入(Positional Embedding)模块，将得到的位置向量序列与输入向量序列相加，再将结果输入到Transformer双向编码器中进行编码。最终使用编码器最后一个隐状态作为输出向量，输出向量包含视频图像和弹幕文本信息。其中将视频图像使用预训练的ResNet网络表示为512维的视频图像向量。

所述自回归解码器模块如图2所示，为基于Transformer的自回归解码器。在模型训练过程中，此模块输入为双向编码器的输出向量和参考弹幕。在所述分类目标中，自回归解码器模块利用所述输出向量中表示生成文本开始的[BOS]符号位的输出对上下文所属视频的类别进行判断，使得模型可以对视频类别的信息进行学习。在所述生成目标中，自回归解码器模块使用参考弹幕的首个词作为生成目标弹幕的提示词进行依次生成，最终输出生成的弹幕文本。

进一步所述，自回归生成是目前主流的自然语言生成模式，其特点是每一步生成的词都依赖于之前生成的词，模型只能逐个生成词。本发明的解码器模块利用自回归生成方式，依次生成弹幕中的每个词。

所述分类器模块如图3所示，为基于Transformer的分类器，用于判断给定弹幕和双向编码器输入的上下文信息是否属于同一视频。此模块输入为参考弹幕和双向编码器的输出，输出为判断两者属于同一视频的概率。

本发明模型的训练流程如下：

首先选取一训练数据集，数据集包含一定数量的样本，每条样本包括某一视频的视频片段图像截图、位于此视频片段的一条用户发送的弹幕作为参考弹幕，参考弹幕周围的、发送时间在参考弹幕之前的一系列上下文弹幕，以及此视频片段所属视频的视频类别。在训练时，将每条样本的上下文弹幕和视频图像片段截图输入到双向编码器中进行编码。

将编码器得到的结果输入到分类器中，再将当前样本的参考弹幕或者其他视频中的随机样本的参考弹幕作为序列输入到分类器中进行分类预测，预测给定弹幕和双向编码器输入信息属于同一视频的概率。并根据当前样本的参考弹幕为正例，其他视频中的随机样本的参考弹幕为负例，计算模型预测的交叉熵损失，并根据此损失对模型进行反向传播更新分类器和双向编码器的参数。训练在进行到一个固定轮数后停止，得到分类器的训练模型。

同样的，再将编码器得到的结果输入到自回归解码器中。首先将仅含[BOS]符号的序列作为输入序列，自回归解码器输出对视频类别的预测概率。再将参考弹幕的每个词依次加入到输入弹幕序列，输入到自回归解码器中，解码器输出对于当前输入词的下一个词的预测概率。分别使用交叉熵损失函数计算预测概率结果与真实的视频类别之间的损失以及预测每个词的概率与参考弹幕词之间的损失，从而得到自回归解码器的损失，并根据损失函数进行分享传播更新自回归解码器和双向编码器参数。训练在进行到一个固定轮数后停止，得到自回归解码器和双向编码器的训练模型。

为了实现自回归弹幕生成，在弹幕生成，将某视频片段的上下文弹幕和视频图像片段截图输入到双向编码器中进行编码，将编码器得到的结果输入到自回归解码器中。首先将[BOS]符号作为输入序列输入自回归解码器，忽略其输出。再给定某词作为提示词加入输入序列，输入到自回归解码器中，自回归解码器预测得到概率最高的词作为输出词。再将此输出词加入输入序列，继续输入到自回归解码器中，直到模型输出代表句子结束的[EOS]，即可得到完整的生成弹幕，作为当前视频片段当前时间下生成的弹幕。

与现有技术相比，本发明的积极效果为：

本发明考虑了弹幕文本发布时间对和视频所属类别对弹幕生成人物的影响，并引入了首词的提示词使得生成结果实现了一定的可控性；同时，本发明将弹幕生成任务和弹幕视频相关性任务分离，利用两个独立模块实现，提高了两个任务的效果。

附图说明

图1为本发明的双向编码器模块结构。

图2为本发明的自回归解码器模块结构。

图3为本发明的分类器模块结构。

具体实施方式

下面以Livebot数据集为例，描述弹幕自回归生成的具体实施步骤。

Livebot数据集是一个弹幕和视频数据集，包括共包含19种类别的2118个视频和882056条弹幕数据。

本实施例中，本发明的任务有两个，分别为弹幕与视频相关性排序和弹幕生成。其中弹幕与视频相关性排序任务对候选弹幕根据其与给定上下文的相关程度进行排序，此任务用于评价本发明对上下文和弹幕文本的理解程度。弹幕生成任务为给定上下文和目标弹幕首词，生成目标弹幕。此任务用于评价本发明对于上下文的理解和弹幕生成能力。

对于弹幕与视频相关性排序任务，其训练过程将上下文输入到双向编码器模块，编码器模块的输出向量和候选弹幕输入到分类器模块，从而得到相关性分数，最后以交叉熵作为优化目标。在本实施例的评价任务中，测试集给定视频片段及其上下文和100条弹幕，任务目标是对这100条弹幕与给定上下文的相关性进行排序。这100条弹幕由5条目标弹幕，20条最流行的弹幕，20条与视频标题最相似弹幕和55条随机弹幕组成。最终对所有候选弹幕相关性分数进行排序，使用召回率@k、平均召回、平均倒数排名作为评价指标。

对于弹幕生成任务，其训练过程将上下文输入到双向编码器模块，编码器模块的输出向量和目标弹幕输入到自回归解码器模块，自回归地依次训练每个位置的生成结果以及对视频类别的分类结果，最后以交叉熵作为优化目标。在本实施例的评价任务中，测试集给定视频片段及其上下文和参考弹幕首词，模型自回归生成弹幕。最终对生成弹幕与参考弹幕进行评分，使用双语互译质量评估辅助工具(BLEU)作为评价指标。

本实施例在两个任务中都取得了优于传统方法的效果，显示了本发明在弹幕生成任务中的有效性。

尽管为说明目的公开了本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于最佳实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种自回归弹幕生成方法，其步骤包括：

1)选取一训练数据集对模型进行训练，所述模型包括双向编码器、自回归解码器和分类器；该训练数据集中的每条样本包括视频片段的图像截图，该视频片段的参考弹幕，

该参考弹幕周围且发送时间在参考弹幕之前的一系列上下文弹幕，以及该视频片段所属视频的视频类别；其中对所述模型训练方法为：

将当前样本的所述输出向量输入到自回归解码器中，自回归解码器根据所述输出向量得到当前样本的视频类别的预测概率；再将当前样本的参考弹幕的每个词依次加入到输入弹幕序列，输出对于当前输入词的下一个词的预测概率；然后计算预测概率结果与真实的视频类别之间的损失以及预测每个词的概率与参考弹幕词之间的损失，

从而得到自回归解码器的损失，并根据损失函数进行分享传播更新自回归解码器和双向编码器参数；

2.如权利要求1所述的方法，其特征在于，将该双向编码器最后一个隐状态作为所述输出向量。

3.如权利要求2所述的方法，其特征在于，所述分类器为基于Transformer的分类器；所述自回归解码器为基于Transformer的自回归解码器。

4.如权利要求1或2或3所述的方法，其特征在于，使用ResNet网络将视频图像表示为视频图像向量。

5.一种自回归弹幕生成系统，用于实现权利要求1所述自回归弹幕生成方法，其特征在于，包括双向编码器模块、自回归解码器模块和分类器模块；其中，

6.如权利要求5所述的系统，其特征在于，所述分类器为基于Transformer的分类器；所述自回归解码器为基于Transformer的自回归解码器。

7.如权利要求5所述的系统，其特征在于，将该双向编码器最后一个隐状态作为所述输出向量。