CN117746279A

CN117746279A - 一种文案生成模型训练方法、文案生成方法及装置

Info

Publication number: CN117746279A
Application number: CN202311583127.6A
Authority: CN
Inventors: 于洋
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2023-11-24
Filing date: 2023-11-24
Publication date: 2024-03-22

Abstract

本发明实施例提供了一种文案生成模型训练方法、文案生成方法及装置，所述模型训练方法包括：获取第一样本视频及其对应的非标注样本文案、第一台词文本；将第一样本视频的视频帧和第一台词文本输入初始文案生成模型中，使初始文案生成模型基于第一文案生成指令输出第一生成文案，计算第一损失并调整初始文案生成模型的参数得到预训练文案生成模型；获取第二样本视频及其对应的标注文案、第二台词文本；将第二样本视频的视频帧和第二台词文本输入预训练文案生成模型中，使预训练文案生成模型基于第二文案生成指令输出第二生成文案，计算第二损失并调整预训练文案生成模型的参数得到文案生成模型。应用本发明技术方案，提高了视频文案生成的准确度。

Description

一种文案生成模型训练方法、文案生成方法及装置

技术领域

本发明涉及多媒体处理技术领域，特别是涉及一种文案生成模型训练方法、文案生成方法及装置。

背景技术

随着多媒体技术的发展，用户在观看视频等内容时，为了更好的理解视频等内容，会有查看视频对应的内容概括文案的需求，该内容概括文案比如可以是视频对应的标题等。

AIGC(Artificial Intelligence Generated Content，生成式人工智能)，是指基于生成对抗网络、大型预训练模型等人工智能的技术方法，通过已有数据的学习和识别，以适当的泛化能力生成相关内容的技术。相关技术中，基于AIGC的技术原理，利用样本视频对应的剧情描述文本，以及标注的样本视频的标题训练生成模型，再利用该生成模型生成视频的标题。实际应用中，利用视频对应的剧情描述文本生成该视频的标题，仅实现了对视频的文本信息的总结概括，进而无法准确的生成视频的标题等。

发明内容

本发明实施例的目的在于提供一种文案生成模型训练方法、文案生成方法及装置，以提高视频文案生成的准确度，便于用户更好的理解视频。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种文案生成模型训练方法，所述方法包括：

获取第一样本视频以及所述第一样本视频对应的非标注样本文案，对所述第一样本视频中的台词进行识别，得到第一样本台词文本；

将所述第一样本视频的视频帧和所述第一样本台词文本输入初始文案生成模型中，使所述初始文案生成模型基于第一文案生成指令输出第一生成文案；所述第一生成文案为所述第一样本视频的预测内容概括文案；

计算所述第一生成文案与所述非标注样本文案之间的第一损失，并根据所述第一损失调整所述初始文案生成模型的参数，得到预训练文案生成模型；

获取第二样本视频以及所述第二样本视频对应的标注文案，对所述第二样本视频中的台词进行识别，得到第二样本台词文本；所述标注文案为所述第二样本视频的真值内容概括文案；

将所述第二样本视频的视频帧和所述第二样本台词文本输入所述预训练文案生成模型中，使所述预训练文案生成模型基于第二文案生成指令输出第二生成文案；

计算所述第二生成文案与所述标注文案之间的第二损失，并根据所述第二损失调整所述预训练文案生成模型的参数，得到文案生成模型

在一种可能的实施方式中，所述方法还包括：

根据预设的输入输出关系构建指令数据集，所述指令数据集中包含至少一个指令；所述指令用于指示所述文案生成模型输入与输出之间的关系；

根据所述指令数据集中包含的指令，调整所述文案生成模型的输入与输出。

在一种可能的实施方式中，所述指令包括：根据视频帧和台词文本生成概括文案，以及根据视频帧生成概括文案中的至少一项。

在一种可能的实施方式中，所述根据所述指令数据集中包含的指令，调整所述文案生成模型的输入与输出，包括：

在所述指令为根据视频帧和台词文本生成概括文案的情况下，调整所述文案生成模型的输入为：所述第二样本视频的视频帧和所述第二样本台词文本，调整所述文案生成模型的输出为：第二生成文案；

在所述指令为根据视频帧生成概括文案的情况下，调整所述文案生成模型的输入为：所述第二样本视频的视频帧，调整所述文案生成模型的输出为：第二生成文案。

在一种可能的实施方式中，所述方法还包括：

获取所述第一样本视频中所述第一样本台词文本对应的第一样本说话人信息，以及所述第二样本视频中所述第二样本台词文本对应的第二样本说话人信息；所述第一样本说话人信息表示所述第一样本视频中表述所述第一样本台词文本的角色的信息；所述第二样本说话人信息表示所述第二样本视频中表述所述第二样本台词文本的角色的信息；

所述将所述第一样本视频的视频帧和所述第一样本台词文本输入初始文案生成模型中，使所述初始文案生成模型基于第一文案生成指令输出第一生成文案，包括：将所述第一样本视频的视频帧、所述第一样本台词文本以及所述第一样本说话人信息输入初始文案生成模型中，使所述初始文案生成模型基于第一文案生成指令输出第一生成文案；

所述将所述第二样本视频的视频帧和所述第二样本台词文本输入所述预训练文案生成模型中，使所述预训练文案生成模型基于第二文案生成指令输出第二生成文案，包括：将所述第二样本视频的视频帧、所述第二样本台词文本以及所述第二样本说话人信息输入所述预训练文案生成模型中，使所述预训练文案生成模型基于第二文案生成指令输出第二生成文案。

在一种可能的实施方式中，所述第一样本台词文本为：基于所述第一样本视频对应的音频数据获取的，或者基于所述第一样本视频的字幕信息获取的。

在一种可能的实施方式中，所述标注文案包括：所述第二样本视频的样本剧情概括、样本事件标签以及样本标题中的至少一项。

在本发明实施的第二方面，提供了一种文案生成方法，所述方法包括：

获取待生成文案的目标视频，对所述目标视频中的台词进行识别，得到目标台词文本；

获取目标文案生成指令；

将所述目标视频的视频帧和所述目标台词文本输入预先训练好的文案生成模型中，使所述预先训练好的文案生成模型基于所述目标文案生成指令输出目标生成文案；其中，所述目标生成文案为所述目标视频的内容概括文案，所述预先训练好的文案生成模型为采用上述第一方面所述的方法训练得到的。

在一种可能的实施方式中，所述方法还包括：

获取所述目标视频中所述目标台词文本对应的目标说话人信息；所述目标说话人信息表示所述目标视频中表述所述目标台词文本的角色的信息；

所述将所述目标视频的视频帧和所述目标台词文本输入预先训练好的文案生成模型中，使所述预先训练好的文案生成模型基于所述目标文案生成指令输出目标生成文案，包括：将所述目标视频的视频帧、所述目标台词文本以及所述目标说话人信息输入预先训练好的文案生成模型中，使所述预先训练好的文案生成模型基于所述目标文案生成指令输出目标生成文案。

在本发明实施的第三方面，还提供了一种文案生成模型训练装置，所述装置包括：

第一获取模块，用于获取第一样本视频以及所述第一样本视频对应的非标注样本文案，对所述第一样本视频中的台词进行识别，得到第一样本台词文本；

第一预测模块，用于将所述第一样本视频的视频帧和所述第一样本台词文本输入初始文案生成模型中，使所述初始文案生成模型基于第一文案生成指令输出第一生成文案；所述第一生成文案为所述第一样本视频的预测内容概括文案；

第一训练模块，用于计算所述第一生成文案与所述非标注样本文案之间的第一损失，并根据所述第一损失调整所述初始文案生成模型的参数，得到预训练文案生成模型；

第二获取模块，用于获取第二样本视频以及所述第二样本视频对应的标注文案，对所述第二样本视频中的台词进行识别，得到第二样本台词文本；所述标注文案为所述第二样本视频的真值内容概括文案；

第二预测模块，用于将所述第二样本视频的视频帧和所述第二样本台词文本输入所述预训练文案生成模型中，使所述预训练文案生成模型基于第二文案生成指令输出第二生成文案；

第二训练模块，用于计算所述第二生成文案与所述标注文案之间的第二损失，并根据所述第二损失调整所述预训练文案生成模型的参数，得到文案生成模型。

在本发明实施的第四方面，还提供了一种文案生成装置，所述装置包括：

第三获取模块，用于获取待生成文案的目标视频，对所述目标视频中的台词进行识别，得到目标台词文本；

第四获取模块，用于获取目标文案生成指令；

文案生成模块，用于将所述目标视频的视频帧和所述目标台词文本输入预先训练好的文案生成模型中，使所述预先训练好的文案生成模型基于所述目标文案生成指令输出目标生成文案；其中，所述目标生成文案为所述目标视频的内容概括文案，所述预先训练好的文案生成模型为采用上述第一方面所述的方法训练得到的。

在本发明实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的方法。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的方法。

本发明实施例提供的一种文案生成模型训练方法、文案生成方法及装置，因是使用第一样本视频的视频帧、第一样本台词文本、非标注样本文案以及第一文案生成指令对初始文案生成模型进行训练的，在训练过程中充分利用了第一样本视频的视觉模态和文本模态下的信息，使得得到的预训练文案生成模型能够对齐第一样本视频的视觉模态和文本模态，进一步的，利用标注的第二样本视频的视频帧、第二样本台词文本、标注文案以及第二文案生成指令对预训练文案生成模型进行微调训练，使得得到的文案生成模型能够在对齐第二样本视频的视觉模态和文本模态的基础上，生成第二样本视频更优质、更准确的文案信息，提高了视频文案生成的准确度，便于用户更好的理解视频。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中文案生成模型训练方法的一种流程示意图；

图2为本发明实施例中文案生成模型训练方法的另一种流程示意图；

图3为本发明实施例中文案生成模型训练方法的再一种流程示意图；

图4为本发明实施例中文案生成模型训练过程的一种示意图；

图5为本发明实施例中文案生成方法的一种流程示意图；

图6为本发明实施例中文案生成方法的另一种流程示意图；

图7为本发明实施例中文案生成模型训练装置的一种结构示意图；

图8为本发明实施例中文案生成装置的一种结构示意图；

图9为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

为了解决如何准确的为视频生成对应的文案，以便于用户更好的理解视频的问题，本发明实施例提供了一种文案生成模型训练方法、文案生成方法及装置。本发明实施例提供的文案生成模型训练方法、文案生成方法，可以应用于生成与视频相关的文案的场景中，该文案比如可以是标题、剧情概括、事件标签等，由电子设备实现，该电子设备比如可以是客户端、服务端等等。

下面对本发明实施例提供的一种文案生成模型训练方法进行详细介绍：

如图1所示，图1为本发明实施例中文案生成模型训练方法的一种流程示意图。该方法包括：

S101，获取第一样本视频以及第一样本视频对应的非标注样本文案，对第一样本视频中的台词进行识别，得到第一样本台词文本。

S102，将第一样本视频的视频帧和第一样本台词文本输入初始文案生成模型中，使初始文案生成模型基于第一文案生成指令输出第一生成文案。

其中，第一生成文案为第一样本视频的预测内容概括文案。

S103，计算第一生成文案与非标注样本文案之间的第一损失，并根据第一损失调整初始文案生成模型的参数，得到预训练文案生成模型。

S104，获取第二样本视频以及第二样本视频对应的标注文案，对第二样本视频中的台词进行识别，得到第二样本台词文本。

其中，标注文案为第二样本视频的真值内容概括文案。

S105，将第二样本视频的视频帧和第二样本台词文本输入预训练文案生成模型中，使预训练文案生成模型基于第二文案生成指令输出第二生成文案。

S106，计算第二生成文案与标注文案之间的第二损失，并根据第二损失调整预训练文案生成模型的参数，得到文案生成模型。

本发明实施例提供的文案生成模型训练方法，因是使用第一样本视频的视频帧、第一样本台词文本、非标注样本文案以及第一文案生成指令对初始文案生成模型进行训练的，在训练过程中充分利用了第一样本视频的视觉模态和文本模态下的信息，使得得到的预训练文案生成模型能够对齐第一样本视频的视觉模态和文本模态，进一步的，利用标注的第二样本视频的视频帧、第二样本台词文本、标注文案以及第二文案生成指令对预训练文案生成模型进行微调训练，使得得到的文案生成模型能够在对齐第二样本视频的视觉模态和文本模态的基础上，生成第二样本视频更优质、更准确的文案信息，提高了视频文案生成的准确度，便于用户更好的理解视频。

S101中，所获取的第一样本视频可以是任一个视频片段，也可以是电影或电视剧的完整剧集对应的视频，还可以是已有预训练数据集中的视频或是从网络中抓取的视频等等。第一样本视频对应的非标注样本文案不是通过人工等方式对第一样本视频进行标注的真值文案，该非标注样本文案对第一样本视频内容概括的准确度可能不高，比如可以是从网络中抓取第一样本视频时，该第一样本视频已有的初始文案，或者是针对第一样本视频预先自定义的文案，或者是通过其他已有的生成模型针对第一样本视频所生成的文案等等。也就是说，第一样本视频为未进行真值文案标注的样本视频。

对第一样本视频中的台词进行识别，得到第一样本台词文本。在一种可能的实施方式中，第一样本台词文本可以为：基于第一样本视频对应的音频数据获取的，或者基于第一样本视频的字幕信息获取的。

具体的，可以获取第一样本视频对应的音频数据，进而对该音频数据进行语音识别，得到第一样本台词文本，或者在第一样本视频有字幕的情况下，对第一样本视频进行文本字幕识别，获取第一样本视频的字幕信息，从字幕信息中提取第一样本台词文本。

S102中，初始文案生成模型的模型基础比如可以是预训练的语言表征模型BERT(Bidirectional Encoder Representation from Transformers，基于Transformer的双向编码器表示)等。

第一文案生成指令可以是基于Prompt-Tuning(提示调优)构建的指令。Prompt-Tuning是一种在模型输入中添加特定的提示或指示来引导模型生成特定类型的响应的技术。Prompt(提示文本)可以包含任务相关的信息和上下文，以帮助模型更好地理解要求并生成正确的输出。这些提示可以是一个问题、一段描述或一个完整的句子等，用来指导模型生成相关的回答。通过设计有效的提示，可以控制模型生成的内容，使其更符合特定的需求。示例性的，第一文案生成指令比如可以是根据视频帧和台词文本生成概括文案，或者根据视频帧生成概括文案，或者根据台词文本生成概括文案等文案生成指令。

S102中，可以将第一样本视频的各视频帧和第一样本台词文本输入初始文案生成模型中进行文案预测。也可以先对第一样本视频进行抽帧处理，得到抽取的视频帧，再将第一样本视频中抽取的各视频帧和第一样本台词文本输入初始文案生成模型中进行文案预测。对第一样本视频进行抽帧处理能够降低模型训练过程中数据处理的工作量。其中，对第一样本视频进行抽帧处理，可以是间隔预设数量个帧抽取一帧，或者以抽取关键帧的方式进行抽帧，预设数量可以根据需求进行设置，比如可以是5帧、10帧或20帧等等。

利用第一样本视频的视频帧和第一样本台词文本作为输入，将第一文案生成指令作为预训练任务指示初始文案生成模型输出第一生成文案，将第一样本视频对应的非标注样本文案作为验证内容，以对初始文案生成模型进行预训练，使得预训练得到的预训练文案生成模型能够对齐文本和视觉两个模态。

具体的，将第一样本视频的视频帧和第一样本台词文本输入初始文案生成模型中，初始文案生成模型基于第一文案生成指令输出第一生成文案，该第一生成文案为第一样本视频的预测内容概括文案。进一步的，S103中，计算初始文案生成模型输出的第一生成文案与第一样本视频对应的非标注样本文案之间的第一损失，再根据第一损失调整初始文案生成模型的参数，直至满足第一预设结束条件，得到预训练文案生成模型。

其中，第一预设结束条件可以是预先设定的迭代次数，或是损失达到预先设定的损失阈值等。

S104中，第二样本视频为进行了真值文案标注的样本视频，第二样本视频对应的标注文案即为第二样本视频的真值内容概括文案。第二样本台词文本可以为：基于第二样本视频对应的音频数据获取的，或者基于第二样本视频的字幕信息获取的。

在一种可能的实施方式中，标注文案可以包括：第二样本视频的样本剧情概括、样本事件标签以及样本标题中的至少一项。

示例性的，样本剧情概括即对第二样本视频对应的剧情内容的概括，比如第二样本视频对应的故事情节简介等。样本事件标签即对第二样本视频中事件的概括，比如人物X和人物Y吵架了，或者人物X打了人物Y等。样本标题即对第二样本视频对应的主题的概括。

在一种可能的实施方式中，第一样本视频的数量多于第二样本视频的数量，使得在利用第一样本视频的视频帧、第一样本台词文本、第一文案生成指令以及第一样本视频对应的非标注样本文案预训练得到预训练文案生成模型之后，只需利用少量标注真值文案的第二样本视频对模型进行微调训练即可得到训练好的文案生成模型。

S105中，第二文案生成指令可以和上述第一文案生成指令相同。与上述步骤S102相似，可以将第二样本视频的各视频帧和第二样本台词文本输入预训练文案生成模型中进行文案预测。也可以先对第二样本视频进行抽帧处理，得到抽取的视频帧，再将第二样本视频中抽取的各视频帧和第二样本台词文本输入预训练文案生成模型中进行文案预测。第二生成文案即第二样本视频的预测内容概括文案。

进一步的，S106中，计算预训练文案生成模型输出的第二生成文案与第二样本视频对应的标注文案之间的第二损失，再根据第二损失调整预训练文案生成模型的参数，直至满足第二预设结束条件，得到文案生成模型。

其中，第二预设结束条件可以与第一预设结束条件相同或不同。第二损失的计算和第一损失的计算也可以相同或不同。

示例性的，训练样本包含未标注的训练样本(即第一样本视频以及第一样本视频对应的非标注样本文案)，和标注的训练样本(即第二样本视频以及第二样本视频对应的标注文案)，第一样本视频的数量多于第二样本视频的数量。对第一样本视频中的台词进行识别，得到第一样本台词文本，将第一样本视频的视频帧和第一样本台词文本作为初始文案生成模型的输入，将第一文案生成指令作为预训练任务，将第一样本视频对应的非标注样本文案作为预训练的验证内容，对初始文案生成模型进行预训练，得到预训练文案生成模型，该预训练文案生成模型对齐了视频的文本和视觉两个模态，能够生成视频对应的文案。进一步的，对第二样本视频中的台词进行识别，得到第二样本台词文本，将第二样本视频的视频帧和第二样本台词文本作为预训练文案生成模型的输入，将第二文案生成指令作为预训练文案生成模型输出的指示，将第二样本视频对应的标注文案作为预训练文案生成模型微调训练的验证内容，对预训练文案生成模型进行微调训练，得到文案生成模型。

在另一实施例中，参见图2，图2为本发明实施例中文案生成模型训练方法的另一种流程示意图，该方法包括以下步骤：

S201，获取第一样本视频以及第一样本视频对应的非标注样本文案，对第一样本视频中的台词进行识别，得到第一样本台词文本。

S202，将第一样本视频的视频帧和第一样本台词文本输入初始文案生成模型中，使初始文案生成模型基于第一文案生成指令输出第一生成文案。

其中，第一生成文案为第一样本视频的预测内容概括文案。

S203，计算第一生成文案与非标注样本文案之间的第一损失，并根据第一损失调整初始文案生成模型的参数，得到预训练文案生成模型。

S204，获取第二样本视频以及第二样本视频对应的标注文案，对第二样本视频中的台词进行识别，得到第二样本台词文本。

其中，标注文案为第二样本视频的真值内容概括文案。

S205，将第二样本视频的视频帧和第二样本台词文本输入预训练文案生成模型中，使预训练文案生成模型基于第二文案生成指令输出第二生成文案。

S206，计算第二生成文案与标注文案之间的第二损失，并根据第二损失调整预训练文案生成模型的参数，得到文案生成模型。

其中，步骤S201-步骤S206的实现过程可参照上述步骤S101-步骤S106的实现过程，本发明实施例在此不再赘述。

S207，根据预设的输入输出关系构建指令数据集。

其中，指令数据集中包含至少一个指令；指令用于指示文案生成模型输入与输出之间的关系。

一个例子中，可以基于Prompt-Tuning(提示调优)的形式构建指令数据集。在一种可能的实施方式中，所构建的指令数据集中包含的指令可以包括：根据视频帧和台词文本生成概括文案，以及根据视频帧生成概括文案中的至少一项。

示例性的，指令：根据视频帧和台词文本生成概括文案，用于指示文案生成模型的输入为第二样本视频的视频帧和第二样本台词文本，输出为第二样本视频的第二生成文案；指令：根据视频帧生成概括文案，用于指示文案生成模型的输入为第二样本视频的视频帧，输出为第二样本视频的第二生成文案。

构建指令数据集，能够利用该指令数据集中包含的指令调整文案生成模型输入与输出之间的关系，以便于文案生成模型生成更符合特定需求的内容。

S208，根据指令数据集中包含的指令，调整文案生成模型的输入与输出。

在构建指令数据集的情况下，可以利用指令数据集中包含的指令，对文案生成模型的输入与输出之间的关系进行调整，以便于调整之后的模型能够生成更符合特定需求的内容。

在一种可能的实施方式中，根据指令数据集中包含的指令，调整文案生成模型的输入与输出的实现方式，包括：

在指令为根据视频帧和台词文本生成概括文案的情况下，调整文案生成模型的输入为：第二样本视频的视频帧和第二样本台词文本，调整文案生成模型的输出为：第二生成文案；

在指令为根据视频帧生成概括文案的情况下，调整文案生成模型的输入为：第二样本视频的视频帧，调整文案生成模型的输出为：第二生成文案。

也就是说，在指令为根据视频帧和台词文本生成概括文案的情况下，文案生成模型输出的文案与视频画面和文本信息均相关；在指令为根据视频帧生成概括文案的情况下，文案生成模型输出的文案与视频画面相关。指令数据集中包含几个指令，对应会生成相应数量的文案。

其中，步骤S207和步骤S208可以在步骤S206之前或之后执行，如果在之前执行，则指令数据集中包含的指令指示的是预训练文案生成模型输入与输出之间的关系，根据指令数据集中包含的指令，调整的也是预训练文案生成模型的输入与输出之间的关系，此时，指令数据集中包含的指令相当于第二文案生成指令。

应用本发明实施例提供的文案生成模型训练方法，因是使用第一样本视频的视频帧、第一样本台词文本、非标注样本文案以及第一文案生成指令对初始文案生成模型进行训练的，在训练过程中充分利用了第一样本视频的视觉模态和文本模态下的信息，使得得到的预训练文案生成模型能够对齐第一样本视频的视觉模态和文本模态，进一步的，利用标注的第二样本视频的视频帧、第二样本台词文本、标注文案以及第二文案生成指令对预训练文案生成模型进行微调训练，使得得到的文案生成模型能够在对齐第二样本视频的视觉模态和文本模态的基础上，生成第二样本视频更优质、更准确的文案信息，提高了视频文案生成的准确度，便于用户更好的理解视频。且，根据构建的指令数据集中包含的指令，调整文案生成模型的输入与输出，使训练得到的文案生成模型能够生成符合指令的文案，更加切近用户的需求，便于用户更好的理解视频。相较于只依赖视频的剧情描述文本生成文案，本发明实施例中不仅将视频的台词文本作为生成文案的依据，还将视频的视频画面也作为生成文案的依据，弥补了只依赖剧情描述文本生成文案时信息的缺失，使得所训练得到的文案生成模型能够生成更加准确的文案。

在另一种实施例中，参见图3，图3为本发明实施例中文案生成模型训练方法的再一种流程示意图，该方法包括以下步骤：

S301，获取第一样本视频以及第一样本视频对应的非标注样本文案，对第一样本视频中的台词进行识别，得到第一样本台词文本。

S302，获取第一样本视频中第一样本台词文本对应的第一样本说话人信息。

一个例子中，可以对第一样本视频对应的音频数据进行语音识别，根据预设的说话人与音频数据的对应关系，识别到第一样本视频中第一样本台词文本对应的第一样本说话人信息，或者对第一样本视频的字幕信息进行文本识别，根据预设的文本与说话人的对应关系，识别到第一样本视频中第一样本台词文本对应的第一样本说话人信息。

其中，第一样本说话人信息表示第一样本视频中表述第一样本台词文本的角色的信息，比如说话人的角色、性别、年龄等信息。

S303，将第一样本视频的视频帧、第一样本台词文本以及第一样本说话人信息输入初始文案生成模型中，使初始文案生成模型基于第一文案生成指令输出第一生成文案。

其中，第一生成文案为第一样本视频的预测内容概括文案。

S304，计算第一生成文案与非标注样本文案之间的第一损失，并根据第一损失调整初始文案生成模型的参数，得到预训练文案生成模型。

S305，获取第二样本视频以及第二样本视频对应的标注文案，对第二样本视频中的台词进行识别，得到第二样本台词文本。

标注文案为第二样本视频的真值内容概括文案。

S306，获取第二样本视频中第二样本台词文本对应的第二样本说话人信息。

其中，该步骤的实现过程可参考上述步骤S302的实现过程。第二样本说话人信息表示第二样本视频中表述第二样本台词文本的角色的信息。

S307，将第二样本视频的视频帧、第二样本台词文本以及第二样本说话人信息输入预训练文案生成模型中，使预训练文案生成模型基于第二文案生成指令输出第二生成文案。

S308，计算第二生成文案与标注文案之间的第二损失，并根据第二损失调整预训练文案生成模型的参数，得到文案生成模型。

步骤S301和步骤S302可以同步或不同步执行，步骤S305和步骤S306可以同步或不同步执行，步骤S301、步骤S303-步骤S305以及步骤S307-步骤S308的实现过程可参照上述步骤S201-步骤S206的实现过程，本发明实施例在此不再赘述。图3实施例与图2实施例的区别在于，图3实施例中模型输入多了样本说话人信息，使得训练得到的文案生成模型，能够生成视频更加准确的文案信息。

一个例子中，在步骤S308之后还可以执行以下步骤：

根据预设的输入输出关系构建指令数据集。其中，指令数据集中包含至少一个指令；指令用于指示文案生成模型输入与输出之间的关系。

根据指令数据集中包含的指令，调整文案生成模型的输入与输出。

应用本发明实施例提供的文案生成模型训练方法，因是使用第一样本视频的视频帧、第一样本台词文本、第一样本说话人信息、非标注样本文案以及第一文案生成指令对初始文案生成模型进行训练的，在训练过程中充分利用了第一样本视频的视觉模态和文本模态下的信息，使得得到的预训练文案生成模型能够对齐第一样本视频的视觉模态和文本模态，进一步的，利用标注的第二样本视频的视频帧、第二样本台词文本、第二样本说话人信息、标注文案以及第二文案生成指令对预训练文案生成模型进行微调训练，使得得到的文案生成模型能够在对齐第二样本视频的视觉模态和文本模态的基础上，生成第二样本视频更优质、更准确的文案信息，提高了视频文案生成的准确度，便于用户更好的理解视频。且，根据构建的指令数据集中包含的指令，调整文案生成模型的输入与输出，使训练得到的文案生成模型能够生成符合指令的文案，更加切近用户的需求，便于用户更好的理解视频。相较于只依赖视频的剧情描述文本生成文案，本发明实施例中不仅将视频的台词文本作为生成文案的依据，还将视频的视频画面也作为生成文案的依据，弥补了只依赖剧情描述文本生成文案时信息的缺失，使得所训练得到的文案生成模型能够生成更加准确的文案。

示例性的，参见图4，图4为本发明实施例中文案生成模型训练过程的一种示意图。如图4所示，本发明实施例中，可以预先确定预训练任务，该预训练任务即为文案生成任务，具体的，可以是文案生成指令。获取第一样本视频以及第一样本视频对应的非标注样本文案，对第一样本视频中的台词进行识别，得到第一样本台词文本，以及获取第一样本视频中第一样本台词文本对应的第一样本说话人信息，将第一样本视频的视频帧、第一样本台词文本以及第一样本说话人信息输入初始文案生成模型中，使初始文案生成模型基于第一文案生成指令输出第一生成文案，计算第一生成文案与非标注样本文案之间的第一损失，并根据第一损失调整初始文案生成模型的参数，得到预训练文案生成模型，即图4中模型预训练。进一步的，获取第二样本视频以及第二样本视频对应的标注文案，对第二样本视频中的台词进行识别，得到第二样本台词文本，以及获取第二样本视频中第二样本台词文本对应的第二样本说话人信息，将第二样本视频的视频帧、第二样本台词文本以及第二样本说话人信息输入预训练文案生成模型中，使预训练文案生成模型基于第二文案生成指令输出第二生成文案，计算第二生成文案与标注文案之间的第二损失，并根据第二损失调整预训练文案生成模型的参数，进行模型微调训练得到文案生成模型，即图4中利用指令数据集微调训练模型。

参见图5，图5为本发明实施例中文案生成方法的一种流程示意图，该方法包括以下步骤：

S501，获取待生成文案的目标视频，对目标视频中的台词进行识别，得到目标台词文本。

目标台词文本可以是基于目标视频对应的音频数据获取的，或者基于目标视频的字幕信息获取的。

S502，获取目标文案生成指令。

其中，目标文案生成指令可以是根据视频帧和台词文本生成概括文案，和/或根据视频帧生成概括文案。

S503，将目标视频的视频帧和目标台词文本输入预先训练好的文案生成模型中，使预先训练好的文案生成模型基于目标文案生成指令输出目标生成文案。

其中，预先训练好的文案生成模型为：通过上述文案生成模型训练方法训练得到的，目标生成文案为目标视频的内容概括文案，可以包括目标视频的目标剧情概括、目标事件标签以及目标标题中的至少一项。

应用本发明实施例提供的文案生成方法，因预先训练好的文案生成模型是使用样本视频的视频帧、台词文本作为输入，经过预训练和微调两个训练过程训练得到的，训练得到的文案生成模型能够充分利用视频的视觉模态和文本模态下的信息，使得利用训练得到的文案生成模型能够生成视频更优质、更准确的文案信息，提高了视频文案生成的准确度，便于用户更好的理解视频。

参见图6，图6为本发明实施例中文案生成方法的另一种流程示意图，该方法包括以下步骤：

S601，获取待生成文案的目标视频，对目标视频中的台词进行识别，得到目标台词文本。

S602，获取目标视频中目标台词文本对应的目标说话人信息。

其中，目标说话人信息表示目标视频中表述目标台词文本的角色的信息，比如说话人的角色、性别、年龄等信息。步骤S601和步骤S602可以同步或不同步执行。

S603，获取目标文案生成指令。

S604，将目标视频的视频帧、目标台词文本以及目标说话人信息输入预先训练好的文案生成模型中，使预先训练好的文案生成模型基于目标文案生成指令输出目标生成文案。

其中，预先训练好的文案生成模型为：通过上述文案生成模型训练方法训练得到的。

应用本发明实施例提供的文案生成方法，因预先训练好的文案生成模型是使用样本视频的视频帧、台词文本以及说话人信息作为输入，经过预训练和微调两个训练过程训练得到的，训练得到的文案生成模型能够充分利用视频的视觉模态和文本模态下的信息，使得利用训练得到的文案生成模型能够生成视频更优质、更准确的文案信息，提高了视频文案生成的准确度，便于用户更好的理解视频。

相应于上述方法实施例，本发明实施例还提供了相应的装置实施例。

如图7所示，图7为本发明实施例中文案生成模型训练装置的一种结构示意图。本发明实施例中文案生成模型训练装置包括：

第一获取模块701，用于获取第一样本视频以及第一样本视频对应的非标注样本文案，对第一样本视频中的台词进行识别，得到第一样本台词文本；

第一预测模块702，用于将第一样本视频的视频帧和第一样本台词文本输入初始文案生成模型中，使初始文案生成模型基于第一文案生成指令输出第一生成文案；第一生成文案为第一样本视频的预测内容概括文案；

第一训练模块703，用于计算第一生成文案与非标注样本文案之间的第一损失，并根据第一损失调整初始文案生成模型的参数，得到预训练文案生成模型；

第二获取模块704，用于获取第二样本视频以及第二样本视频对应的标注文案，对第二样本视频中的台词进行识别，得到第二样本台词文本；标注文案为第二样本视频的真值内容概括文案；

第二预测模块705，用于将第二样本视频的视频帧和第二样本台词文本输入预训练文案生成模型中，使预训练文案生成模型基于第二文案生成指令输出第二生成文案；

第二训练模块706，用于计算第二生成文案与标注文案之间的第二损失，并根据第二损失调整预训练文案生成模型的参数，得到文案生成模型。

应用本发明实施例提供的文案生成模型训练装置，因是使用第一样本视频的视频帧、第一样本台词文本、非标注样本文案以及第一文案生成指令对初始文案生成模型进行训练的，在训练过程中充分利用了第一样本视频的视觉模态和文本模态下的信息，使得得到的预训练文案生成模型能够对齐第一样本视频的视觉模态和文本模态，进一步的，利用标注的第二样本视频的视频帧、第二样本台词文本、标注文案以及第二文案生成指令对预训练文案生成模型进行微调训练，使得得到的文案生成模型能够在对齐第二样本视频的视觉模态和文本模态的基础上，生成第二样本视频更优质、更准确的文案信息，提高了视频文案生成的准确度，便于用户更好的理解视频。

在一种可能的实施方式中，上述装置还包括：

指令构建模块，用于根据预设的输入输出关系构建指令数据集，指令数据集中包含至少一个指令；指令用于指示文案生成模型输入与输出之间的关系；

模型调整模块，用于根据指令数据集中包含的指令，调整文案生成模型的输入与输出。

在一种可能的实施方式中，上述指令包括：根据视频帧和台词文本生成概括文案，以及根据视频帧生成概括文案中的至少一项。

在一种可能的实施方式中，上述模型调整模块，具体用于：

在一种可能的实施方式中，上述第一获取模块701，还用于获取第一样本视频中第一样本台词文本对应的第一样本说话人信息，以及第二样本视频中第二样本台词文本对应的第二样本说话人信息；第一样本说话人信息表示第一样本视频中表述第一样本台词文本的角色的信息；第二样本说话人信息表示第二样本视频中表述第二样本台词文本的角色的信息；

上述第一预测模块702，具体用于将第一样本视频的视频帧、第一样本台词文本以及第一样本说话人信息输入初始文案生成模型中，使初始文案生成模型基于第一文案生成指令输出第一生成文案；

上述第二预测模块705，具体用于将第二样本视频的视频帧、第二样本台词文本以及第二样本说话人信息输入预训练文案生成模型中，使预训练文案生成模型基于第二文案生成指令输出第二生成文案。

在一种可能的实施方式中，上述第一样本台词文本为：基于第一样本视频对应的音频数据获取的，或者基于第一样本视频的字幕信息获取的。

在一种可能的实施方式中，上述标注文案包括：第二样本视频的样本剧情概括、样本事件标签以及样本标题中的至少一项。

如图8所示，图8为本发明实施例中文案生成装置的一种结构示意图。本发明实施例中文案生成装置包括：

第三获取模块801，用于获取待生成文案的目标视频，对目标视频中的台词进行识别，得到目标台词文本；

第四获取模块802，用于获取目标文案生成指令；

文案生成模块803，用于将目标视频的视频帧和目标台词文本输入预先训练好的文案生成模型中，使预先训练好的文案生成模型基于目标文案生成指令输出目标生成文案；其中，目标生成文案为目标视频的内容概括文案，预先训练好的文案生成模型为采用上述文案生成模型训练方法训练得到的。

应用本发明实施例提供的文案生成装置，因预先训练好的文案生成模型是使用样本视频的视频帧、台词文本作为输入，经过预训练和微调两个训练过程训练得到的，训练得到的文案生成模型能够充分利用视频的视觉模态和文本模态下的信息，使得利用训练得到的文案生成模型能够生成视频更优质、更准确的文案信息，提高了视频文案生成的准确度，便于用户更好的理解视频。

在一种可能的实施方式中，上述第三获取模块801，还用于获取目标视频中目标台词文本对应的目标说话人信息；目标说话人信息表示目标视频中表述目标台词文本的角色的信息；

上述文案生成模块803，具体用于将目标视频的视频帧、目标台词文本以及目标说话人信息输入预先训练好的文案生成模型中，使预先训练好的文案生成模型基于目标文案生成指令输出目标生成文案。

本发明实施例还提供了一种电子设备，如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信，

存储器903，用于存放计算机程序；

处理器901，用于执行存储器903上所存放的程序时，实现上述任一方法，以达到相同的技术效果。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的方法，以达到相同的技术效果。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的方法，以达到相同的技术效果。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置/电子设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种文案生成模型训练方法，其特征在于，所述方法包括：

计算所述第二生成文案与所述标注文案之间的第二损失，并根据所述第二损失调整所述预训练文案生成模型的参数，得到文案生成模型。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述指令包括：根据视频帧和台词文本生成概括文案，以及根据视频帧生成概括文案中的至少一项。

4.根据权利要求3所述的方法，其特征在于，所述根据所述指令数据集中包含的指令，调整所述文案生成模型的输入与输出，包括：

5.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述第一样本台词文本为：基于所述第一样本视频对应的音频数据获取的，或者基于所述第一样本视频的字幕信息获取的。

7.根据权利要求5所述的方法，其特征在于，所述标注文案包括：所述第二样本视频的样本剧情概括、样本事件标签以及样本标题中的至少一项。

8.一种文案生成方法，其特征在于，所述方法包括：

获取目标文案生成指令；

将所述目标视频的视频帧和所述目标台词文本输入预先训练好的文案生成模型中，使所述预先训练好的文案生成模型基于所述目标文案生成指令输出目标生成文案；其中，所述目标生成文案为所述目标视频的内容概括文案，所述预先训练好的文案生成模型为采用权利要求1-7任一方法训练得到的。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.一种文案生成模型训练装置，其特征在于，所述装置包括：

11.一种文案生成装置，其特征在于，所述装置包括：

第四获取模块，用于获取目标文案生成指令；

文案生成模块，用于将所述目标视频的视频帧和所述目标台词文本输入预先训练好的文案生成模型中，使所述预先训练好的文案生成模型基于所述目标文案生成指令输出目标生成文案；其中，所述目标生成文案为所述目标视频的内容概括文案，所述预先训练好的文案生成模型为采用权利要求1-7任一方法训练得到的。

12.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-9任一所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-9任一所述的方法。