CN114610893A

CN114610893A - 基于深度学习的剧本到故事板序列自动生成方法及系统

Info

Publication number: CN114610893A
Application number: CN202110297471.3A
Authority: CN
Inventors: 武蕾; 董沛; 孟雷; 孟祥旭
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2022-06-10
Anticipated expiration: 2041-03-19
Also published as: CN114610893B

Abstract

本发明提供了一种基于深度学习的剧本到故事板序列自动生成方法及系统。其中，该方法包括获取文字剧本，并将其输入至训练完成的故事板序列自动生成模型中，输出所述文字剧本对应的分镜头故事板序列；其中，所述故事板序列自动生成模型包括基于对抗学习的粗粒度图像生成和基于对抗学习的粗粒度图像到细粒度图像细化两个阶段，基于对抗学习的粗粒度图像生成阶段用于将接收的文字剧本转换为包含目标轮廓和空间关系的粗粒度故事板图像序列，基于对抗学习的粗粒度图像到细粒度图像细化阶段用于将粗粒度故事板图像序列转换为细粒度故事板图像序列，并将其为所述文字剧本对应的分镜头故事板序列。

Description

基于深度学习的剧本到故事板序列自动生成方法及系统

技术领域

本发明属于计算机动画技术领域，尤其涉及一种基于深度学习的剧本到故事板序列自动生成方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

在影视制作行业中，基于文字剧本创作的故事板是必不可少的前期准备，是影视作品制作流程中控制美术、摄影、布景和场面调度的重要辅助手段，故事板可以让演员和所有创作人员领会导演意图，理解剧本内容，进行再创作，也是摄影师进行拍摄，剪辑师进行后期制作的依据和蓝图。目前，主流的故事板制作方式是由编剧人将传统的自然语言转化为剧本，再由导演人工的将剧本转化为分镜头剧本。最后，由原画师将分镜头剧本转换为故事板。该过程的创作流程效率低下，创作门槛高。

因此，针对影视制作行业，尤其在由短视频产品引发的全民创作的大背景下，一种文字剧本到故事板序列自动生成方法及系统不仅仅成为亟待研究的科研领域，而且还是市场需求的新的风向标。发明人发现，目前缺乏将文字剧本自动转换为故事板的方法和系统，如果能将这个过程自动完成，将大幅度的提高动画的制作效率，降低创作门槛，非常具有现实意义和实用价值。

发明内容

为了解决上述背景技术中存在的至少一项技术问题，本发明提供一种基于深度学习的剧本到故事板序列自动生成方法及系统，其基于文字版的分镜头剧本自动生成故事板场景图序列，能有效提高故事板创作效率，降低故事板创作门槛，降低影视制作的成本。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于深度学习的剧本到故事板序列自动生成方法。

一种基于深度学习的剧本到故事板序列自动生成方法，其包括：

获取文字剧本；

将文字剧本输入至训练完成的故事板序列自动生成模型中，输出所述文字剧本对应的分镜头故事板序列；

其中，所述故事板序列自动生成模型包括基于对抗学习的粗粒度图像生成和基于对抗学习的粗粒度图像到细粒度图像细化两个阶段，基于对抗学习的粗粒度图像生成阶段用于将接收的文字剧本转换为包含目标轮廓和空间关系的粗粒度故事板图像序列，基于对抗学习的粗粒度图像到细粒度图像细化阶段用于将粗粒度故事板图像序列转换为细粒度故事板图像序列，并将其为所述文字剧本对应的分镜头故事板序列。

本发明的第二个方面提供一种基于深度学习的剧本到故事板序列自动生成系统。

一种基于深度学习的剧本到故事板序列自动生成系统，其包括：

文字剧本获取模块，其用于获取文字剧本；

故事板序列生成模块，其用于将文字剧本输入至训练完成的故事板序列自动生成模型中，输出所述文字剧本对应的分镜头故事板序列；

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于深度学习的剧本到故事板序列自动生成方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于深度学习的剧本到故事板序列自动生成方法中的步骤。

与现有技术相比，本发明的有益效果是：

(1)本发明的基于深度学习的文字剧本到故事板序列自动生成方法及系统使用包含非条件项的图像损失约束生成图像，使生成器更加专注于生成图像的真实性，有效的提高了生成的故事板序列的图像质量。

(2)本发明基于深度学习的文字剧本到故事板序列自动生成方法及系统采用多阶段的生成策略，首先生成包含目标轮廓和空间关系的粗粒度图像，再进一步在粗粒度图像的基础上添加细节特征，有效的降低了单一生成器捕获特征的难度。

(3)本发明利用粗粒度特征补足模块，在细化网络中更直接的传递粗粒度图像的特征，细化网络专注于细粒度特征的添加，避免影响已生成的粗粒度特征的表达，有效的提高了模型训练的稳定性。

(4)通过本发明方法能够避免文字剧本转化为分镜头剧本，分镜头剧本再由原画师转换为动画数据而造成的冗长过程，其利用基于深度学习的故事板序列自动生成模型，将文字剧本自动转换成分镜头故事板序列，使得文字剧本的分类和匹配过程更加精准，避免了人为失误，大幅度地提高了动画的制作效率。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例提供的基于深度学习的剧本到故事板序列自动生成方法的流程图；

图2是本发明实施例提供的基于深度学习的文字剧本到故事板序列自动生成方法的网络结构图；

图3是本发明实施例提供的粗粒度特征补足模块网络结构图；

图4是本发明实施例产生的文字剧本对应的分镜头故事板序列。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1所示，本实施例的一种基于深度学习的剧本到故事板序列自动生成方法，其包括：

S101：获取文字剧本。

在本实施例中，文字剧本可为中文或是英文剧本。

S102：将文字剧本输入至训练完成的故事板序列自动生成模型中，输出所述文字剧本对应的分镜头故事板序列。

将文字剧本输入至训练完成的故事板序列自动生成模型中之前，还包括：利用自然语言处理技术，对文字剧本进行编码，获得文字剧本表示向量。比如：储存为.npy文件。

在训练故事板序列自动生成模型的过程中，收集文字剧本段落和与文字剧本对应的分镜头故事板序列，对样本数据进行预处理，确定训练集、验证集和测试集。

选择文本语义和图像语义具有对应关系的文字剧本S＝[s₁,s₂,…,s_t]和分镜故事板X＝[x₁,x₂,…,x_t]进行配对，t为每一对数据中包含的剧本和故事板序列的数量。要求文本语义明确，故事板图像清晰。

利用图像处理技术对风景故事板进行裁剪和格式转换，储存为128*128分辨率的.jpg格式图片。同时，利用通用编码器对文字剧本进行编码，储存为1024维的.npy文件。选取数据集的70％作为训练集，15％作为验证集，15％作为测试集。

在本实施例中，对抗学习粗粒度图像生成阶段的生成器部分采用Deconvolution-Batch Normalization-Relu结构，每个反卷积层的输出通道为256,128，64，32。卷积核大小为4*4，步长为2，其输入为编码后的文字剧本和噪声。对抗学习粗粒度图像生成阶段的鉴别器的采用了Convolution-Batch Normalization-Relu结构,每个卷积层的输出通道为32，64，128，256。

对抗学习细化阶段网络包含编码器，解码器，粗粒度特征补足模块和鉴别器。编码器包含4层卷积层，每一层为Convolution-InstanceNorm-LeakyRelu结构,每个卷积层的输出通道为32，64，128，256，卷积核大小为4*4，步长为2。解码器包含4层卷积层，每一层为Deconvolution-Batch Normalization-Relu结构，每个反卷积层的输出通道为256，128，64，32。卷积核大小为4*4，步长为2。鉴别器的结构采用了Convolution-BatchNormalization-Relu结构，每个卷积层的输出通道为32，64，128，256。粗粒度特征补足模块以粗粒度图像的下采样特征和上采样过程中的隐特征作为输入，通过两个残差模块对特征进行融合，残差模块为双层结构每层的输出通道为64。

训练粗粒度图像生成阶段所对应的网络，具体步骤如下：损失函数包括包含非条件项的图像损失，故事损失和KL损失。具体公式为：

其中，G_C为粗粒度图像生成阶段生成器；D_{I_C}，D_{S_C}分别为故事损失和图像损失的鉴别器；x_t为输入的数据图像，s_t为文字剧本编码，

为采样后的文字剧本，z_t为噪声；

为正态分布，μ为求平均数，Σ为求对角斜方差。

输入数据为文字剧本S＝[s₁,s₂,…,s_t]，t为剧本段落中包含的句子的数量。

训练细化网络，具体步骤如下：

损失函数包括不包含非条件项的图像损失，故事损失和KL损失。故事损失和KL损失的具体定义见上方公式(2)和公式(3)；

不包含非条件项的图像损失如公式(4)所示：

其中，G_R为粗粒度图像到细粒度图像细化阶段生成器；D_I为粗粒度图像到细粒度图像细化阶段的鉴别器；

为粗粒度图像生成阶段的生成结果，

为细化阶段生成的数据图像，s_t为文字剧本编码，

为采样后的文字剧本编码，z_t为噪声。

输入数据为文字剧本S＝[s₁,s₂,…,s_t]和由粗粒度图像生成网络生成的粗粒度故事板序列

t为剧本段落和粗粒度故事板序列的序列长度。

整个模型训练好后，将文字剧本测试数据集输入生成器网络，生成相对应的细粒度故事板图像序列，检测模型的有效性。

实施例二

本实施例提供了一种基于深度学习的剧本到故事板序列自动生成系统，其包括：

文字剧本获取模块，其用于获取文字剧本；

所述故事板序列自动生成模型包括基于对抗学习的粗粒度图像生成和基于对抗学习的粗粒度图像到细粒度图像细化两个阶段，基于对抗学习的粗粒度图像生成阶段用于将接收的文字剧本转换为包含目标轮廓和空间关系的粗粒度故事板图像序列，基于对抗学习的粗粒度图像到细粒度图像细化阶段用于将粗粒度故事板图像序列转换为细粒度故事板图像序列，并将其为所述文字剧本对应的分镜头故事板序列。

此处需要说明的是，本实施例的基于深度学习的剧本到故事板序列自动生成系统中的各个模块，与实施例一中的基于深度学习的剧本到故事板序列自动生成方法中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于深度学习的剧本到故事板序列自动生成方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于深度学习的剧本到故事板序列自动生成方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的剧本到故事板序列自动生成方法，其特征在于，包括：

获取文字剧本；

2.如权利要求1所述的基于深度学习的剧本到故事板序列自动生成方法，其特征在于，在将文字剧本输入训练完成的故事板序列自动生成模型之前，还包括：利用自然语言处理技术，对文字剧本进行编码，获得文字剧本表示向量。

3.如权利要求1所述的基于深度学习的剧本到故事板序列自动生成方法，其特征在于，所述对抗学习粗粒度图像生成阶段包括生成器和鉴别器。

4.如权利要求1所述的基于深度学习的剧本到故事板序列自动生成方法，其特征在于，所述对抗学习细化阶段包含生成器，鉴别器和粗粒度特征补足模块；所述粗粒度特征补足模块以粗粒度图像的下采样特征和上采样过程中的隐特征作为输入，通过两个残差模块对特征进行融合。

5.如权利要求1所述的基于深度学习的剧本到故事板序列自动生成方法，其特征在于，在训练对抗学习粗粒度图像生成阶段的过程中，损失函数包括包含非条件项的图像损失，故事损失和KL损失。

6.如权利要求1所述的基于深度学习的剧本到故事板序列自动生成方法，其特征在于，在训练对抗学习细化阶段的过程中，损失函数包括不包含非条件项的图像损失，故事损失和KL损失。

7.一种基于深度学习的剧本到故事板序列自动生成系统，其特征在于，包括：

文字剧本获取模块，其用于获取文字剧本；

8.如权利要求7所述的基于深度学习的剧本到故事板序列自动生成系统，其特征在于，所述基于深度学习的剧本到故事板序列自动生成系统，还包括：

编码模块，其利用自然语言处理技术，对文字剧本进行编码，获得文字剧本表示向量。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的基于深度学习的剧本到故事板序列自动生成方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的基于深度学习的剧本到故事板序列自动生成方法中的步骤。