CN111556375A

CN111556375A - 视频弹幕的生成方法、装置、计算机设备及存储介质

Info

Publication number: CN111556375A
Application number: CN202010330946.XA
Authority: CN
Inventors: 周存; 杨瑞
Original assignee: Xian Jiaotong Liverpool University
Current assignee: Xian Jiaotong Liverpool University
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-08-18
Anticipated expiration: 2040-04-24
Also published as: CN111556375B

Abstract

本发明实施例公开了一种视频弹幕的生成方法、装置、计算机设备及存储介质。其中，方法包括：获取与一条视频弹幕匹配的预测文本，并提取预测文本中的预测特征；将预测特征输入至预先训练的GPT‑2模型中，获取GPT‑2模型输出的预测文本的后文预测词，GPT‑2模型使用视频关联文本，和/或视频弹幕训练得到；将后文预测词追加至预测文本的尾部，得到新的预测文本后，返回执行提取预测文本中的预测特征的操作，直至满足结束预测条件；将结束预测后得到预测文本作为与原始弹幕匹配的扩充弹幕。本发明实施例的方案可以生成任意内容的弹幕，实现了对视频中的弹幕进行扩充，同时，生成的弹幕能较好的融合与匹配到视频播放场景中已有的弹幕。

Description

视频弹幕的生成方法、装置、计算机设备及存储介质

技术领域

本发明实施例涉及人工智能领域，尤其涉及一种视频弹幕的生成方法、装置、计算机设备及存储介质。

背景技术

“弹幕”是用户在观看在线视频时发送的一种短文本，它们自上而下分布且以一定速度从右到左飘过视频播放窗口。用户可以通过弹幕共享信息、表达评论、讨论话题或者社交通讯等。这种体验提升了用户观看视频的兴致、乐趣、群体观看感以及交互感等。目前，大部分视频站点均可以向用户提供弹幕功能。

一般来说，各个用户针对某一视频输入的历史弹幕可以存储在弹幕数据库中，当该视频被再次播放后，可以从弹幕数据库中获取该历史弹幕进行播放。当某一个视频的历史弹幕较少时，可以通过一定的弹幕扩充技术增加弹幕。

现阶段，可以通过视频评论信息对应的字符图像自动渲染生成弹幕，也可以基于情绪信息和Seq2Seq(Sequence to Sequence，序列到序列)模型自动生成情绪反馈弹幕，以增加弹幕。但是，现有技术的方法生成的弹幕一般与当前视频播放场景的匹配度较低，生成弹幕的内容单一。

发明内容

本发明实施例提供一种视频弹幕的生成方法、装置、计算机设备及存储介质，以实现对视频中的原有弹幕进行扩充，且扩充的弹幕与当前视频播放场景的匹配度较高的弹幕。

第一方面，本发明实施例提供了一种视频弹幕的生成方法，该方法包括：

获取与一条视频弹幕匹配的预测文本，并提取预测文本中的预测特征；

将预测特征输入至预先训练的GPT-2模型中，获取GPT-2模型输出的预测文本的后文预测词，GPT-2模型使用视频关联文本，和/或视频弹幕训练得到；

将后文预测词追加至预测文本的尾部，得到新的预测文本后，返回执行提取预测文本中的预测特征的操作，直至满足结束预测条件；

将结束预测后得到预测文本作为与原始弹幕匹配的扩充弹幕。

第二方面，本发明实施例还提供了一种视频弹幕的生成装置，该装置包括：

预测文本获取模块，用于获取与一条视频弹幕匹配的预测文本，并提取预测文本中的预测特征；

后文预测词确定模块，用于将预测特征输入至预先训练的GPT-2模型中，获取GPT-2模型输出的预测文本的后文预测词，GPT-2模型使用视频关联文本，和/或视频弹幕训练得到；

新的预测文本确定模块，用于将后文预测词追加至预测文本的尾部，得到新的预测文本后，返回执行提取预测文本中的预测特征的操作，直至满足结束预测条件；

扩充弹幕确定模块，用于将结束预测后得到预测文本作为与原始弹幕匹配的扩充弹幕。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明实施例中任一实施例所述的视频弹幕的生成方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例中任一实施例所述的视频弹幕的生成方法。

本发明实施例通过获取与一条视频弹幕匹配的预测文本，并提取预测文本中的预测特征，将预测特征输入至预先训练的GPT-2模型中，获取GPT-2模型输出的预测文本的后文预测词，GPT-2模型使用视频关联文本，和/或视频弹幕训练得到；将后文预测词追加至预测文本的尾部，得到新的预测文本后，返回执行提取预测文本中的预测特征的操作，直至满足结束预测条件；将结束预测后得到预测文本作为与原始弹幕匹配的扩充弹幕，可以生成任意内容的弹幕，实现了对视频中的弹幕进行扩充，同时，生成的弹幕能较好的融合与匹配到视频播放场景中已有的弹幕。

附图说明

图1是本发明实施例一中的一种视频弹幕的生成方法的流程图；

图2是本发明实施例二中的一种视频弹幕的生产方法的流程图；

图3是本发明实施例二中的一种预训练数据集和微调数据集的获取流程图；

图4是本发明实施例二中的一种生成GPT-2预训练模型的流程图；

图5是本发明实施例二中的一种生成GPT-2模型的流程图；

图6是本发明实施例二中的一种生成GPT-2模型的流程图；

图7是本发明实施例二中的一种生成中文弹幕的流程图；

图8是本发明实施例二中的一种预训练过程中的loss变化曲线图；

图9是本发明实施例二中的一种微调训练过程中的loss变化曲线图；

图10是本发明实施例二中的生成的弹幕的示例图；

图11是本发明实施例三中的一种视频弹幕的生成装置的结构示意图；

图12是本发明实施例四中的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

实施例一

图1是本发明实施例一中的一种视频弹幕的生产方法的流程图，本实施例可适用于对视频中的弹幕进行扩充的情况，该方法可以由视频弹幕的生成装置执行，该装置可以通过软件和/或硬件的方式实现，并集成在计算机设备中。具体的，参考图1，该方法具体包括如下步骤：

步骤110、获取与一条视频弹幕匹配的预测文本，并提取预测文本中的预测特征。

需要说明的是，各个用户针对某一视频输入的历史弹幕可以存储在弹幕数据库中，当该视频被再次播放后，可以从弹幕数据库中获取该历史弹幕进行播放。其中，历史弹幕的内容和风格都是任意的，通过播放视频的同时，播放弹幕可以实现共享信息、表达评论、讨论话题或者社交通讯等。

其中，一条视频弹幕可以为弹幕数据库中的任意一条弹幕，例如：第一条弹幕、第二条弹幕或者最后一条弹幕；弹幕的内容也可以是任意的，例如：时间、人物或者评论等等，本发明实施例中对此不加以限制。

可选的，获取与一条视频弹幕匹配的预测文本，可以包括下述至少一项：获取视频弹幕中包括的命名实体，作为与视频弹幕匹配的预测文本；获取视频弹幕的全部内容，作为与视频弹幕匹配的预测文本；以及获取视频弹幕中的部分内容，作为与视频弹幕匹配的预测文本。

其中，视频弹幕中包括的命名实体可以为人物名、时间或者地点等。示例性的，若选取的历史弹幕为“南乔峰北慕容”，则与该弹幕匹配的预测本文可以为乔峰；也可以为该弹幕的全部内容“南乔峰北慕容”；也可以为该弹幕的部分内容“北慕容”，本发明实施例中对此不加以限制。

这样设置的好处在于，通过选取不同的预测文本，对不同的预测文本进行后续处理，从而可以为生成不同内容的弹幕提供依据。

需要说明的是，本发明实施例中涉及到的预测文本可以包括一个分词也可以包括多个分词，本发明实施例中对预测文本的长度不加以限制。

可选的，提取预测文本中的预测特征，可以包括：获取预测文中包括的至少一个分词；在预设的符号表中查询各分词，获取与各分词对应的符号编号；符号表中存储有符号与符号编号之间的映射关系，符号包括：分词、分隔符以及结尾符；将查询得到的各符号编号按照分词在预测文本中的排布顺序进行组合，得到与预测文本对应的预测特征。

其中，符号表可以为token表，也可以为其他类型的词典表，本发明实施例中，对此不加以限制。

需要说明的是，token表的每行代表一个token，即一个分词，每个token的序号为token id；具体的，可以通过以下方法构建token表：

通过爬虫程序从网络中爬取与目标视频匹配的小说、剧本或者已有的弹幕等，并将这些内容存储在文本文件中，其中，目标视频可以包括多个视频，例如武侠视频或者纪录片视频等等，本发明实施例中对此不加以限制。从已经发布的BERT中文版中提取vocab.txt作为初始基础token表，进一步的，在初始token表中插入文档分隔符“DSEP”、换行符“SEP”、弹幕的结尾符“SSEP”以及每条弹幕的开始符“SS”。进一步的，使用BERT Tokenizer分词器对文件中的内容进行分词，从而确定与每个分词对应的token id。

具体的，确定预测文本之后，可以通过BERT tokenizer对预测文本进行分词，例如：若预测文本为“乔峰”，则通过BERT tokenizer对预测文本进行分词，得到的分词结果为“乔”和“峰”。进一步的，从上述构建的符号表即token表中，分别获取与分词结果“乔”和“峰”对应的符号编号，即token id。

示例性的，若与“乔”对应的token id为10，与“峰”对应的token id为255，则与预测文本“乔峰”对应的预测特征为“10 255”。

步骤120、将预测特征输入至预先训练的GPT-2模型中，获取GPT-2模型输出的预测文本的后文预测词。

其中，GPT-2模型使用视频关联文本，和/或视频弹幕训练得到。

具体的，确定预测文本中的预测特征之后，可以进一步的将预测特征输入至预先训练的GPT-2模型中，从而获取到预测文本的后文预测词，其中，GPT-2模型可以通过使用视频关联文本和/或视频弹幕训练得到。

可选的，将预测特征输入至预先训练的GPT-2模型中，获取GPT-2模型输出的预测文本的后文预测词，可以包括：将预测特征输入至预先训练的GPT-2模型中；通过GPT-2模型中的logits生成模块获取符号表中全部符号的logits；通过GPT-2模型中的分类器计算各logits的概率值；通过GPT-2模型中的比较模块分别将每个logits的概率值与设定阈值进行比较，并获取概率值大于设定阈值的符号存储至中间容器中；通过GPT-2模型从中间容器中随机选取一个符号作为后文预测词，并输出。

具体的，将预测特征输入至预先训练的GPT-2模型之后，可以通过GPT-2模型中的logits生成模块获取到token表中全部符号的logits，其中，获取到的全部符号的logits可以以logits向量的形式表示。进一步的，通过GPT-2模型中的分类器计算各logits的概率值，其中，GPT-2模型中的分类器可以为softmax。通过GPT-2模型中的比较模块分别将每个logits的概率值与设定阈值进行比较，并获取概率值大于设定阈值的符号存储至中间容器中；其中，设定阈值可以为任意一个数值，例如0.9、0.95或者0.98等，本发明实施例中对此不加以限制。

进一步的，将大于设定阈值的全部符号存储至中间容器中，其中，大于设定阈值的全部符号可以包括分词、分隔符或者结尾符，本发明实施例中对此不加以限制。

通过GPT-2模型中的抽取模块从中间容器中随机选取一个符号作为后文预测词，并输出。

示例性的，若与预测文本“乔峰”对应的预测特征为“10 255”，则将预测特征“10255”输入至GPT-2模型中，即可得到与预测文本“乔峰”对应的后文预测词，如“好”、“帅”、“高”或者“！”等后文预测词，并将该后文预测词输出。

步骤130、将后文预测词添加至预测文本的尾部，得到新的预测文本后，返回执行提取预测文本中的预测特征的操作，直至满足结束预测条件。

具体的，通过步骤120获取到与预测文本对应的后文预测词之后，可以进一步的将后文预测词添加至预测文本的尾部，从而得到新的预测文本，继续对新的预测文本执行步骤110和步骤120，即提取新的预测文本中的预测特征；将预测特征输入至预先训练的GPT-2模型中，获取GPT-2模型输出的预测文本的后文预测词，直至满足结束预测条件。

其中，结束预测条件可以为，生成的最新预测文本中包含的分词数达到设定个数或者确定的后文预测词中出现了结束符，此时，不再获取新的预测文本的后文预测词。其中，设定个数可以为20或者10等数字，本发明实施例中对此不加以限制。

步骤140、将结束预测后得到预测文本作为与原始弹幕匹配的扩充弹幕。

具体的，在结束生成预测文本的后文预测词之后，可以将最新的预测文本作为一条弹幕，并将该弹幕作为与原始弹幕匹配的扩充弹幕。

示例性的，若原始弹幕为“南乔峰北慕容”，结束预测后得到的预测文本为“乔峰好高啊！”，则“乔峰好高啊！”这条弹幕即为与原始弹幕“南乔峰北慕容”匹配的扩充弹幕。

需要说明的是，本发明实施例中可以根据原始弹幕生成多条扩充弹幕，例如3条或者4条等，具体数量可以通过需要具体设定，本发明实施例中对此不加以限制。

可选的，在将结束预测后得到预测文本作为与原始弹幕匹配的扩充弹幕之后，还可以包括：在与视频匹配的弹幕文件中，将扩充弹幕加入至与视频弹幕匹配的位置处，以在视频的播放过程中，对视频弹幕以及扩充弹幕进行关联显示。

这样设置的好处在于，通过视频弹幕以及扩充弹幕进行关联显示，可以丰富视频中弹幕的内容，扩充弹幕能较好的融合到已有视频弹幕中，从而所有弹幕与视频相关或者具有存在的合理性。

本实施例通过获取与一条视频弹幕匹配的预测文本，并提取预测文本中的预测特征，将预测特征输入至预先训练的GPT-2模型中，获取GPT-2模型输出的预测文本的后文预测词，GPT-2模型使用视频关联文本，和/或视频弹幕训练得到；将后文预测词追加至预测文本的尾部，得到新的预测文本后，返回执行提取预测文本中的预测特征的操作，直至满足结束预测条件；将结束预测后得到预测文本作为与原始弹幕匹配的扩充弹幕，可以生成任意内容的弹幕，实现了对视频中的弹幕进行扩充，同时，生成的弹幕能较好的融合与匹配到视频播放场景中已有的弹幕。

在上述技术方案的基础上，在通过GPT-2模型中的分类器计算各logits的概率值之前，还可以包括：通过GPT-2模型中的至少一个优化模块，对各logits进行优化；优化模块使用的优化机制包括下述至少一项：惩罚机制、Temperature机制、TopK机制以及TopP机制。

其中，惩罚机制将各logits除以一个设定的惩罚因子，滤除结果中小于第一设定阈值的logits，其中，惩罚因子和第一设定阈值可以为任意一个数值，本发明实施例中对此不加以限制；Temperature机制将各logits除以一个设定的Temperature因子，其中，Temperature因子和第二设定阈值可以为任意一个数值，本发明实施例中对此不加以限制；TopK机制可以为将各logits的数值进行排序，并保留大于第三设定阈值的各logits，第三设定阈值可以为任意一个数值，本发明实施例中对此不加以限制；TopP机制可以将各logits对应的概率累积，保留累积结果不超过第四设定阈值的各logits，第四设定阈值可以为任意一个数值，本发明实施例中对此不加以限制。

这样设置的好处在于，通过至少一个优化模块，对logits进行优化，将不符合条件的logits滤除，可以提高生成文字的多样性和准确性，并可以减少下一步分类器计算各logits的概率值的计算量，减少算法的执行时间。

实施例二

图2是本发明实施例二中的一种视频弹幕的生产方法的流程图，本实施例在上述实施例的基础上，对本发明实施例进行优化，具体的，在获取与一条视频弹幕匹配的预测文本之前，还可以包括：生成与视频关联文本匹配的预训练数据集，以及与视频弹幕匹配的微调数据集；构建GPT-2模型对象，并使用预训练数据集中各预训练数据的预测特征，对GPT-2模型对象进行迭代学习，生成GPT-2预训练模型；使用微调数据集中各微调数据的预测特征，对GPT-2预训练模型中的各个参数进行优化，生成GPT-2模型。具体的，参考图2，该方法具体包括如下步骤：

步骤210、生成GPT-2模型。

具体的，生成GPT-2模型主要包括如下步骤：

步骤211、生成与视频关联文本匹配的预训练数据集，以及与视频弹幕匹配的微调数据集。

具体的，本实施例中可以通过爬虫程序从网络中获取与视频文本相关的内容，例如：与视频相关的小说或者剧本等内容作为预训练数据集；将视频中已包含的弹幕作为微调数据集。

需要说明的是，获取到的所有数据集可以以UTF-8的格式保存在文本文件中，其中，通过爬虫程序从网络中获取与视频文本相关的内容之后，还可以对获取到的数据进行清洗，将无关文本滤除，这样可以对预训练数据集以及微调数据集进行优化，减少无关数据的影响。

示例性的，图3是本实施例中的一种预训练数据集和微调数据集的获取流程图，具体包括如下步骤：

步骤310、获取训练数据集。

其中，训练数据集可以包括预训练数据集和微调训练数据集，具体的，预训练数据集可以包含与视频相关的小说、剧本或者剧情等文本；微调训练集为视频中已包含的弹幕。示例性的，可以通过爬虫程序从网络爬取预训练数据集并将无意义的干扰性文本进行清洗后以UTF-8的格式保存在txt文件中。

步骤320、分词。

首先，构建中文token表，其中，token表的构建方法如下：

(1)、从已经发布的BERT中文版中提取vocab.txt作为初始基础token表。

(2)、将自定义tokens从尾部插入到token表，其中，自定义的tokens可以包括：文档分隔符“DSEP”、换行符“SEP”、弹幕的结尾符“SSEP”以及每条弹幕的开始符“SS”。

其中，图3中涉及到的格式化操作，对于预训练数据集即是将“SEP”对应的tokenid添加到每个段落结尾，将“DSEP”对应的token id添加到每本小说、剧本或剧情的结尾。对于微调数据集分词，格式化操作将“SS”对应的token id添加到每条弹幕的开头，将“SSEP”对应的token id添加到每条弹幕的结尾。

(3)、基于当前的token表，使用BERT分词器对预训练数据集进行分词，将对应token为“UNK”的所有字符从尾部插入到token表。

(4)、将GPT-2模型配置中的“vocab_size”更新为当前token表大小。

步骤330、所有分词结果token id即上述实施例中涉及到的预测特征存入到文本文件中。

步骤212、构建GPT-2模型对象，并使用预训练数据集中各预训练数据的预测特征，对GPT-2模型对象进行迭代学习，生成GPT-2预训练模型。

具体的，可以先构建GPT-2模型对象，并管理该对象在多GPUs(GraphicsProcessing Unit，图形处理器)上的训练过程，并使用预训练数据集中各预训练数据的预测特征，对GPT-2模型对象进行迭代学习，从而生成GPT-2预训练模型。

示例性的，图4是本实施例中的一种生成GPT-2预训练模型的流程图，其主要包括如下步骤：

步骤410、构建训练对象。

其中，构建训练对象主要包括：通过“AdamW”和“get_linear_schedule_with_warmup”优化模型训练收敛；通过DataParallel管理多GPU并发训练；创建GPT-2预训练模型。

步骤420、更新SI和TEC。

具体的，SI和TEC可以通过以下公式进行更新：SI＝TEC*stride；SI＝0,TEC＝0(SI>stride_max_range)；其中，SI表示当前epoch的预训练数据token ids的起始遍历索引，TEC表示初始化为0的epoch计数器，stride和stride_max_range是stride优化机制预设的整数值。

这样设置的好处在于，可以使得前一个epoch中被切分的句子在下一个epoch中得到恢复，从而降低训练过程中句子被切分对模型训练所产生的负面影响，利于训练过程中loss降低的均衡和平稳。

步骤430、一个epoch的训练。

其中，一个epoch的训练过程，即是对所有的预训练数据集进行一次迭代的过程。

具体的，从SI开始连续提取1024个预训练数据的token id，并把它们作为一个batch单元插入到batch列表中。使用公式SI＝SI+1024更新SI，递归执行该步骤直到batch列表大小达到设定值，或者已提取token id未填满batch列表但预训练数据的所有tokenid已经遍历完。

判断批列表是否已满。若是，在多GPUs上使用batch列表数据并发训练模型(训练过程使用了cross entropy损失函数和梯度裁剪)。训练完毕更新模型参数和学习率并清空模型参数梯度。循环执行步骤上述步骤直到batch列表未满。若否，即batch列表未满，则当前epoch训练完毕，保存模型，将TEC递增1。

循环执行上述步骤直到设定的epoch数都执行完毕。

步骤213、使用微调数据集中各微调数据的预测特征，对GPT-2预训练模型中的各个参数进行优化，生成GPT-2模型。

具体的，生成GPT-2预训练模型之后，可以使用微调数据集中各微调数据的预测特征，对GPT-2预训练模型中的各个参数进行优化，从而生成GPT-2模型。

示例性的，图5是本实施例中的一种生成GPT-2模型的流程图，其主要包括如下步骤：

步骤510、构建训练对象。

具体的，加载预训练GPT-2模型，使用“torch.nn.DataParallel”管理该模型对象在多GPUs上的训练过程，使用Transformers中的“AdamW”和“get_linear_schedule_with_warmup”进行模型训练优化(模型参数和学习率的更新)，从而生成GPT-2模型。

步骤520、设置SI(表示当前epoch的微调训练数据token id的起始遍历索引)为0，以每条弹幕token id(包含开头“SS”和结尾“SSEP”的token id)为最小单位，随机打乱所有的微调数据集token id。

从SI开始连续提取1024个微调数据的token id，并把它们作为一个batch单元插入到batch列表中。使用公式SI＝SI+1024-l更新SI，其中，l是被截断的句子的前半部分的长度，作用是抵消句子被截断所带来的负面影响；递归执行该步骤直到batch列表大小达到设定值，或者已提取token id未填满batch列表但微调数据的token id已经遍历完。

步骤530、判断批列表是否已满。若是，即batch列表满，则将batch列表成员随机打乱，然后在多GPUs上使用batch列表数据并发训练模型(训练过程使用了cross entropy损失函数和梯度裁剪)。训练完毕更新模型参数和学习率，清空模型参数梯度。循环执行上述步骤直到batch列表未满。若否，即batch列表未满，则当前epoch训练完毕，保存模型。

循环执行上述步骤直到设定的epoch数都执行完毕。

需要说明的是，上述微调训练步骤中，每一个epoch开始都会先将所有弹幕随机打乱，每一个batch训练前都会将batch列表成员随机打乱。因此每一个batch训练数据包含的是随机抽取的且以随机顺序排列的弹幕，这样设置的好处在于，可以使得微调训练loss的减少更加均衡和稳定。

步骤220、获取与一条视频弹幕匹配的预测文本，并提取预测文本中的预测特征。

步骤230、将预测特征输入至预先训练的GPT-2模型中，获取GPT-2模型输出的预测文本的后文预测词。

步骤240、将后文预测词追加至预测文本的尾部，得到新的预测文本后，返回执行提取预测文本中的预测特征的操作，直至满足结束预测条件。

步骤250、将结束预测后得到预测文本作为与原始弹幕匹配的扩充弹幕。

本实施例的方案，获取与视频相关的文本文件，并生成与视频关联文本匹配的预训练数据集，以及与视频弹幕匹配的微调数据集；分别根据预训练数据集以及微调数据集生成GPT-2预训练模型以及GPT-2模型，为后续生成与视频相关的弹幕提供依据。

为了更好地理解生成GPT-2模型的流程，图6是本实施例中的一种生成GPT-2模型的流程图，其主要包括如下步骤：

步骤610、视频、剧情或者小说等类型的网站。

步骤620、爬虫程序。

步骤630、预训练数据集。

步骤631、微调训练数据集。

步骤640、分词。

步骤650、预训练数据。

步骤651、预训练。

步骤652、GPT-2预训练模型。

步骤660、微调训练数据。

步骤670、微调训练。

步骤680、生成GPT-2模型。

图7是本实施例中的一种生成中文弹幕的流程图，其主要包括如下步骤：

步骤710、初始化输入文本。

其中，初始化输入文本即为上述各实施例中涉及到的获取与一条视频弹幕匹配的预测文本。

步骤720、GPT-2模型。

步骤730、判断初始化输入文本是否为空。

若是，生成随机弹幕；若否，生成以输入文本为前缀的弹幕。

需要说明的是，训练得到的GPT-2模型可以以自回归(每次新生成的token会加入到输入序列的尾部，从而得到新的输入)的方式，每次根据最新输入生成下一个token。当初始化输入为空时，系统自动使用默认的“SS”；当初始化输入非空时，系统自动在其头部添加“SS”。初始输入为空的生成叫做无条件随机生成，初始化输入非空的生成叫做条件生成或续写生成。在本实施例的一个具体例子中，中文弹幕生成步骤如下：

1、确定初始化输入文本。为了使生成的弹幕具备更好的适用性，可以将上下文弹幕的命名实体识别结果、上下文弹幕中某条弹幕的一部分或上下文弹幕中某条弹幕作为初始化输入。

2、加载已训练的中文弹幕GPT-2模型。

3、使用BERT tokenizer将输入转换为token ids。

4、基于输入token ids，GPT-2模型为中文tokens表中的每个token生成logits。

5、使用重复惩罚机制、Temperature机制、TopK机制和TopP机制优化logits。

6、对上一步的结果使用softmax，得到概率值。然后使用“torch.multinomial”挑选出一个token作为本次新生成的token并将其token id插入到输入序列tokenids的尾部。

7、循环执行步骤3至步骤6直到生成弹幕结束符“SSEP”或生成tokens的个数达到指定值。

8、循环执行步骤3至步骤7直到生成弹幕条数达到指定值。

为了更好地理解本发明实施例，根据本发明实施例中涉及到的方法实现了一款以金庸武侠剧相关素材和弹幕为训练数据的中文GPT-2智能弹幕生成器。该生成器可以生成任意风格和任意内容的弹幕，这些弹幕具备拟人效果，可以很好的适用于金庸武侠类视频，同时也可以泛化到其他类型的视频。

预训练数据集从网络通过爬虫程序爬取，包含19个金庸武侠小说和16个根据金庸武侠小说拍摄的电视剧的剧情(分词后18,558,644tokens)。微调数据集从优酷视频通过爬虫程序获取，包含10,293,799条相关弹幕(分词后121,838,561tokens)。在预训练数据集上从零预训练GPT-2中文模型，然后在微调数据集上微调训练该模型。预训练和微调训练均在腾讯云上(Four TeslaV100-NVIDIA-32GB GPUs)进行。其中，GPT-2的模型配置如表1所示，预训练配置、结果和loss变化分别如表2，表3和图8所示；微调训练配置、结果和loss变化如表4、表5和图9所示，其中，图9中曲线910为第一次微调训练的loss变化，920为第二次微调训练的loss变化。最终训练得到的GPT-2模型(含99M参数)即智能弹幕生成器，该弹幕生成器的使用配置同表1。在装配一个Tesla P100-NVIDIA-16GB GPU的Google colab环境中运行该弹幕生成器(其中，惩罚因子，Temperature和TopP均为1，TopK为40)，生成弹幕示例如图10所示(黑色背景为生成弹幕)。表1

Item	Value
		layer_norm_epsilon	1e-5
n_positions	1024
		n_ctx	1024
n_embd	768
		n_head	12
n_layer	12
		vocab_size	23376
initializer_range	0.02

表2

Item	Value
		Batch size	24
Learning rate	Initialized with 2.5e-4
		Warmup proportion	0.15
Epochs	100
		Total steps	Approximately 75,500
Stride	Initialized with 128

表3

Item	Value
		GPT-2model parameters	103,795,200＝99MB
Real epochs run	60
		Real total steps	45,300
Time cost per epoch	Approximately 10minutes
		Total time cost	Approximately 10hours

表4

Item	Value
		Batch size	24
Learning rate	Initialized with 2.5e-4
		Warmup proportion	0.15for the first fine-tuning,0.1for the second one.
Epochs	60
		Total steps	Approximately 299,500～300,000

表5

Item	Value
		GPT-2model parameters	103,795,200＝99MB
Real epochs run	60*2＝120
		Real total steps run	299,520*2＝599,040
Time cost per epoch	Approximately 3900s2＝65m2＝130m
		Total time cost	Approximately 3900m2＝65h2＝130h

实施例三

图11是本发明实施例三中的一种视频弹幕的生成装置的结构示意图，该装置可以执行上述各实施例中涉及到的视频弹幕的生成方法，该装置可以通过软件和/或硬件的方式实现，该装置包括：预测文本获取模块111、后文预测词确定模块112、新的预测文本确定模块113和扩充弹幕确定模块114。

其中，预测文本获取模块111，用于获取与一条视频弹幕匹配的预测文本，并提取预测文本中的预测特征；

后文预测词确定模块112，用于将预测特征输入至预先训练的GPT-2模型中，获取GPT-2模型输出的预测文本的后文预测词，GPT-2模型使用视频关联文本，和/或视频弹幕训练得到；

新的预测文本确定模块113，用于将后文预测词追加至预测文本的尾部，得到新的预测文本后，返回执行提取预测文本中的预测特征的操作，直至满足结束预测条件；

扩充弹幕确定模块114，用于将结束预测后得到预测文本作为与原始弹幕匹配的扩充弹幕。

本实施例的方案，通过预测文本获取模块获取与一条视频弹幕匹配的预测文本，并提取预测文本中的预测特征；通过后文预测词确定模块将预测特征输入至预先训练的GPT-2模型中，获取GPT-2模型输出的预测文本的后文预测词，GPT-2模型使用视频关联文本，和/或视频弹幕训练得到；通过新的预测文本确定模块将后文预测词追加至预测文本的尾部，得到新的预测文本后，返回执行提取预测文本中的预测特征的操作，直至满足结束预测条件；通过扩充弹幕确定模块用于将结束预测后得到预测文本作为与原始弹幕匹配的扩充弹幕，可以生成任意内容的弹幕，实现了对视频中的弹幕进行扩充，同时，生成的弹幕能较好的融合与匹配到视频播放场景中已有的弹幕。

可选的，本实施例中涉及到的视频弹幕的生成装置，还可以包括：GPT-2模型生成子模块，用于生成与视频关联文本匹配的预训练数据集，以及与视频弹幕匹配的微调数据集；构建GPT-2模型对象，并使用预训练数据集中各预训练数据的预测特征，对GPT-2模型对象进行迭代学习，生成GPT-2预训练模型；使用微调数据集中各微调数据的预测特征，对GPT-2预训练模型中的各个参数进行优化，生成GPT-2模型。

可选的，预测文本获取模块111，还具体用于获取视频弹幕中包括的命名实体，作为与视频弹幕匹配的预测文本；获取视频弹幕的全部内容，作为与视频弹幕匹配的预测文本；以及获取视频弹幕中的部分内容，作为与视频弹幕匹配的预测文本。

可选的，预测文本获取模块111，还具体用于获取预测文中包括的至少一个分词；在预设的符号表中查询各分词，获取与各分词对应的符号编号；符号表中存储有符号与符号编号之间的映射关系，符号包括：分词、分隔符以及结尾符；将查询得到的各符号编号按照分词在预测文本中的排布顺序进行组合，得到与预测文本对应的预测特征。

可选的，后文预测词确定模块112，还具体用于将预测特征输入至预先训练的GPT-2模型中；通过GPT-2模型中的logits生成模块获取符号表中的全部符号的logits；通过GPT-2模型中的分类器计算各logits的概率值；通过GPT-2模型中的比较模块分别将每个logits的概率值与设定阈值进行比较，并获取概率值大于设定阈值的符号存储至中间容器中；通过GPT-2模型中的抽取模块从中间容器中随机选取一个符号作为后文预测词，并输出。

可选的，后文预测词确定模块112，还具体用于通过GPT-2模型中的至少一个优化模块，对各logits进行优化；优化模块使用的优化机制包括下述至少一项：惩罚机制、Temperature机制、TopK机制以及TopP机制。

可选的，本实施例中涉及到的视频弹幕的生成装置，还可以包括：弹幕显示模块，用于在与视频匹配的弹幕文件中，将扩充弹幕加入至与视频弹幕匹配的位置处，以在视频的播放过程中，对视频弹幕以及扩充弹幕进行关联显示。

本发明实施例所提供的视频弹幕的生成装置可执行本发明任意实施例所提供的视频弹幕的生成方法，具备执行方法相应的功能模块和有益效果。

实施例四

图12为本发明实施例四提供的一种计算机设备的结构示意图，如图12所示，该计算机设备包括处理器120、存储器121、输入装置122和输出装置123；计算机设备中处理器120的数量可以是一个或多个，图12中以一个处理器120为例；计算机设备中的处理器120、存储器121、输入装置122和输出装置123可以通过总线或其他方式连接，图12中以通过总线连接为例。

存储器121作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的视频弹幕的生成方法对应的程序指令/模块(例如，视频弹幕的生成装置中的预测文本获取模块111、后文预测词确定模块112、新的预测文本确定模块113和扩充弹幕确定模块114)。处理器120通过运行存储在存储器121中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述的视频弹幕的生成方法。

存储器121可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器121可进一步包括相对于处理器120远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置122可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置123可包括显示屏等显示设备。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种视频弹幕的生成方法，该方法包括：

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的视频弹幕的生成方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述视频弹幕的生成装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频弹幕的生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在获取与一条视频弹幕匹配的预测文本之前，还包括：

生成与视频关联文本匹配的预训练数据集，以及与视频弹幕匹配的微调数据集；

构建GPT-2模型对象，并使用预训练数据集中各预训练数据的预测特征，对GPT-2模型对象进行迭代学习，生成GPT-2预训练模型；

使用微调数据集中各微调数据的预测特征，对所述GPT-2预训练模型中的各个参数进行优化，生成GPT-2模型。

3.根据权利要求1或2所述的方法，其特征在于，获取与一条视频弹幕匹配的预测文本，包括下述至少一项：

获取所述视频弹幕中包括的命名实体，作为与视频弹幕匹配的预测文本；

获取所述视频弹幕的全部内容，作为与视频弹幕匹配的预测文本；以及

获取所述视频弹幕中的部分内容，作为与视频弹幕匹配的预测文本。

4.根据权利要求1或2所述的方法，其特征在于，提取预测文本中的预测特征，包括：

获取所述预测文中包括的至少一个分词；

在预设的符号表中查询各所述分词，获取与各所述分词对应的符号编号；所述符号表中存储有符号与符号编号之间的映射关系，所述符号包括：分词、分隔符以及结尾符；

将查询得到的各所述符号编号按照分词在预测文本中的排布顺序进行组合，得到与所述预测文本对应的预测特征。

5.根据权利要求4所述的方法，其特征在于，将预测特征输入至预先训练的GPT-2模型中，获取GPT-2模型输出的预测文本的后文预测词，包括：

将预测特征输入至预先训练的GPT-2模型中；

通过GPT-2模型中的logits生成模块获取所述符号表中的全部符号的logits；

通过GPT-2模型中的分类器计算各所述logits的概率值；

通过GPT-2模型中的比较模块分别将每个logits的概率值与设定阈值进行比较，并获取概率值大于设定阈值的符号存储至中间容器中；

6.根据权利要求5所述的方法，其特征在于，在通过GPT-2模型中的分类器计算各所述logits的概率值之前，还包括：

通过GPT-2模型中的至少一个优化模块，对各所述logits进行优化；

所述优化模块使用的优化机制包括下述至少一项：惩罚机制、Temperature机制、TopK机制以及TopP机制。

7.根据权利要求1所述的方法，其特征在于，在将结束预测后得到预测文本作为与原始弹幕匹配的扩充弹幕之后，还包括：

在与视频匹配的弹幕文件中，将所述扩充弹幕加入至与所述视频弹幕匹配的位置处，以在所述视频的播放过程中，对所述视频弹幕以及所述扩充弹幕进行关联显示。

8.一种视频弹幕的生成装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的视频弹幕的生成方法。

10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的视频弹幕的生成方法。