CN114567819A

CN114567819A - 视频生成方法、装置、电子设备及存储介质

Info

Publication number: CN114567819A
Application number: CN202210168634.2A
Authority: CN
Inventors: 涂必超
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-05-31
Anticipated expiration: 2042-02-23
Also published as: CN114567819B

Abstract

本申请实施例公开了一种视频生成方法、装置、电子设备及存储介质。该方法包括：对剧本进行分镜处理，以得到分镜信息；根据分镜信息的画面信息从素材库获取目标素材；根据分镜信息中的文本信息及镜头时长确定音频信号；根据分镜信息的动作信息表征的运镜方式及镜头时长对目标素材进行预处理，以得到目标视频片段；对音频信号和目标视频片段进行融合，以得到目标视频。本申请实施例有利于得到风格迥异，内容丰富的视频，降低了用户创作视频的难度。

Description

视频生成方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种视频生成方法、装置、电子设备及存储介质。

背景技术

现在短视频或者vlog是越来越受到人们的关注，并且很多人都参与短视频或者vlog的拍摄，因此到时短视频的产量大，同时视频风格雷同率特别高，对于一些用户很难创造出风格迥异的短视频或者vlog；并且对于一些用户在创造视频过程中，都是用户自己全程出镜，或者干脆自己全程不出镜，从而导致拍摄出来的视频内容不丰富，没有画面感。

发明内容

本申请实施例提供了一种视频生成方法、装置、电子设备及存储介质，采用本申请实施例提供的视频生成方法，实现了在输入一个剧本的情况下，就可以得到一个风格迥异，内容丰富的视频，降低了用户创作视频的难度。

第一方面，本申请实施例提供一种视频生成方法，包括：

对剧本进行分镜处理，以得到分镜信息；该分镜信息包括画面信息、动作信息、文本信息及镜头时长；画面信息用于表征人物信息及人物与空间背景的关系，动作信息用于表征人物的运动信息及运镜方式；根据画面信息从素材库获取目标素材；根据文本信息及镜头时长确定音频信号；音频信号的时长与镜头时长相同；根据动作信息表征的运镜方式及镜头时长对目标素材进行预处理，以得到目标视频片段；对音频信号和目标视频片段进行融合，以得到目标视频。

第二方面，本申请实施例提供一种视频生成装置，包括：分镜单元、获取单元、确定单元、预处理单元和融合单元；

分镜单元，用于对剧本进行分镜处理，以得到分镜信息；该分镜信息包括画面信息、动作信息、文本信息及镜头时长；画面信息用于表征人物信息及人物与空间背景的关系，动作信息用于表征人物的运动信息及运镜方式；

获取单元，用于根据画面信息从素材库获取目标素材；

确定单元，用于根据文本信息及镜头时长确定音频信号；音频信号的时长与分镜信息的镜头时长相同；

预处理单元，用于根据动作信息表征的运镜方式及镜头时长对目标素材进行预处理，以得到目标视频片段；

融合单元，用于对音频信号和目标视频片段进行融合，以得到目标视频。

第三方面，本申请实施例提供一种电子设备，包括：处理器，所述处理器与存储器相连，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，以使得所述电子设备执行如第一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得计算机执行如第一方面所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机可操作来使计算机执行如第一方面所述的方法。

实施本申请实施例，具有如下有益效果：

采用本申请的实施例，可以是只要输入一个剧本的情况下，就可以得到一个风格迥异，内容丰富的视频，降低了用户创作视频的难度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频生成系统的示意图；

图2为本申请实施例提供的一种视频生成方法的流程示意图；

图3a为本申请实施例提供的一种图像裁剪示意图；

图3b为本申请实施例提供的另一种图像裁剪示意图；

图3c为本申请实施例提供的另一种图像裁剪示意图；

图4为本申请实施例提供的一种视频生成装置的功能单元组成框图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例可以基于人工智能技术对相关的数据进行获取、特征提取和处理等。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请的方法可以应用于终端设备，比如智能手机、平板电脑，手环等，终端设备按照本申请的方法根据剧本得到目标视频。也可以应用于如图1所示的视频生成系统。如图1所示，该视频生成系统包括终端设备102和视频生成服务器101；

终端设备102向视频生成服务器101发送视频生成请求，该视频生成请求携带有剧本；视频生成服务器101接收到视频生成请求后，按照申请的方法根据剧本生成目标视频。视频生成服务器101向终端设备102发送用于响应视频生成请求的响应消息，该响应消息携带有上述目标视频。

可以看出，采用本申请的方案可以是只要输入一个剧本的情况下，就可以得到一个风格迥异，内容丰富的视频，降低了用户创作视频的难度和创作成本。

参阅图2，图2为本申请实施例提供的一种视频生成方法的流程示意图。该方法应用于视频生成装置，该视频生成装置可以为上述终端设备或者图1中所示的视频生成服务器101。该方法包括以下步骤：

201：视频生成装置对剧本进行分镜处理，以得到分镜信息。

其中，分镜信息包括画面信息、动作信息、文本信息及镜头时长；画面信息用于表征人物信息及人物与空间背景的关系，动作信息用于表征人物的运动信息及运镜方式。可选的，分镜信息还包括镜头编号。

在一个示例中，分镜信息有多个，每个分镜信息包括镜头编号、画面信息、动作信息、文本信息及镜头时长。

其中，人物信息包括人物的数量、职业、性别和服装，当然还可以包括其他信息，比如人物的是否佩戴眼镜、是否握着手机等，在此不作限定。

人物的运动信息用于表征人物所做的动作，比如挥手、奔跑、微笑等，在此不作限定。

运镜方式包括推镜头、拉镜头、摇镜头、移镜头、跟镜头等，在此不作限定。

其中，推镜头是指被拍摄对象不动，拍摄设备对着被拍摄对象，向前运动，取景范围由大到小；

拉镜头是指被拍摄对象不动，拍摄设备对着被拍摄对象，向后运动，取景范围由小变大；

摇镜头是指拍摄设备机位不动，借助于承载拍摄设备的三角架的活动底盘或者拍摄对象支点，变动拍摄设备的光学镜头轴线的拍摄方法；

移镜头是指拍摄设备在水平方向上，按照一定的运动轨迹对拍摄对象进行拍摄。

跟镜头是指拍摄设备跟踪运动着的拍摄对象进行拍摄的方法。

人物与空间背景的关系包括主次关系、正负空间关系、远近关系、明暗关系、虚实关系及色彩鲜灰关系，在此不作限定。

在本申请的一个实施方式中，分镜信息有多个，对剧本进行分镜处理，以得到分镜信息，包括：

对剧本进行分句处理，以得到多个分句，多个分句与多个分镜信息对应；对每个分句执行如下操作：

基于关键词提取模型提取出分句的关键词提取，以得到该分句的关键词；该关键词提取模型是基于神经网络实现的；根据每个分句的关键词及预设规则确定该分句对应的分镜信息的画面信息、动作信息和文本信息；基于每个分句中关键词的数量确定该分句对应的分镜信息的镜头时长，镜头时长与该分句中关键词的数量成正比关系。

具体地，根据剧本的标签符号对剧本进行分句处理，以得到多个分句，比如，将以句号或者分号结尾的句子作为一个分句；或者根据剧本的段落对剧本进行分句处理，以得到至少一个分句，也就是说一个分句是为剧本的一个段落；或者按照人物的出场顺序对剧本进行分句处理，以得到多个分句，其中，一个分句包括一个人物的出现到下一个人物出现之间的句子。比如剧本为：“Jane骑着自行车去学校，在路上碰到的Sam，Sam向Jane招手”，基于上述分句方式，可以得到两个分句：分句1“Jane骑着自行车去学校”和分句2“在路上碰到的Sam，Sam向Jane招手”。在得到多个分句后，对于多个分句中的每个分句，基于关键词提取模型对每个分句进行关键词提取，以得到该分句的关键词；比如分句“Jane骑着自行车去学校”，其关键词包括“Jane”、“骑”、“自行车”和“学校”；该关键词提取模型可以是基于神经网络实现的，比如卷积神经网络、全连接神经网络、循环神经网络等，在此不做限定。根据每个分句的关键词确定该分句对应的分镜信息的画面信息、动作信息和文本信息，其中，文本信息可以为旁白对应的文本，也可以为人物之间对话所对应的文本；基于每个分句中关键词的数量确定该分句对应的分镜信息的镜头时长，镜头时长与该分句中关键词的数量成正比关系，也就是分句中的关键词越多，该分句对应的分镜信息的镜头时长越长；之所以这样处理是因为一个分句的关键词越多，表示通过视频表达出来的信息也就越多；为了通过视频表达更多的信息，因此就需要使得视频的播放时长越长。

在本申请的一个实施方式中，视频生成装置获取关键词提取模型，可以视频生成装置对神经网络进行训练得到的，也可以其他设备对神经网络进行训练得到关键词提取模型后，视频生成装置从其他设备中获取关键词提取模型。

训练神经网络以得到关键词提取模型，具体包括：

获取训练样本，该训练样本包括分句样本及该分句样本对应的多个关键词；将该分句样本输入到神经网络中进行处理，以得到该分句样本对应的预测的关键词；将预测的关键词及训练样本中分句样本对应的多个关键词输入到损失函数中得到损失值；基于损失值调整神经网络的参数；重复上述过程，直至训练次数达到预设次数或者损失值收敛；在训练次数达到预设次数或者损失值收敛时，将得到的神经网络确定为关键词提取模型。

202：视频生成装置根据分镜信息的画面信息从素材库获取目标素材。

在此需要指出的是，素材库中存储的图像素材、视频素材和音频素材是从网络中获取的合法的素材，或者是用户针对不同场景不同的分镜拍摄或者创作的素材。

在本申请的一个实施方式中，人物信息包括人物的数量，职业、性别和服装，根据画面信息素材库获取目标素材，包括：

视频生成装置根据人物的职业、性别和服装从素材库中获取多个第一候选素材；多个第一候选素材中的每个第一候选素材中的人物信息与人物信息中的人物的职业、性别和服装相同；根据人物的数量及人物的数量与景别的对应关系从多个第一候选素材中确定出多个第二候选素材，多个第二候选素材中每个第二候选素材中人物的数量为人物信息中的人物的数量，且该第二候选素材中包括景别为人物的数量对应的景别的图像；根据人物与空间背景的关系从多个第二候选素材中确定出目标素材，目标素材中的人物与空间背景的关系与画面信息所表征的人物与背景空间的关系相同。

在一个示例中，目标素材可以有多个，多个分镜信息与多个目标素材对应。在一个示例中，一个分镜信息对应的目标素材可以有多个，也可以只有一个；一个分镜信息对应的目标素材是根据该分镜信息的画面信息从素材库中获取的，具体实现过程如上所述。

进一步的，人物的数量与景别的对应关系，包括：

当人物的数量为1时，对应的景别为近景或者特写；当人物的数量大于1且小于或者等于3时，对应的景别为中景或者远景；当人物的数量大于3时，对应的景别为远景或者全景。

其中，特写是指拍摄人像的面部、人体的某一局部、一件物体的某一细部的镜头。

近景是指拍摄人物胸部以上或者物体的局部细节的镜头。

中景是指拍摄人物膝盖以上部分的镜头。

全景是指拍摄人物躯体的全部及周围部分环境的镜头。

远景是指拍摄人物躯体的全部及拍摄人物所处环境的镜头。

具体的，视频生成装置根据人物的职业、性别及服装从素材库中获取多个第一候选素材，该第一候选素材可以是图像素材，也可以是视频素材；多个第一候选素材中的每个第一候选素材中的人物的职业、性别和服装中至少一项与分镜信息中人物信息包括的职业、性别和服装相同；示例性的，每个第一候选素材中的人物的职业、性别和服装分别与分镜信息中人物信息包括的职业、性别和服装相同。然后基于人物的数量及景别与人物数量的对应关系确定出该人物的数量对应的景别，其中，人物的数量为1时，对应的景别为近景或者特写；当人物的数量大于1且小于或者等于3时，对应的景别为中景或者远景；当人物的数量大于3时，对应的景别为远景或者全景；基于人物的数量对应的景别从多个第一候选素材中获取多个第二候选素材，每个第二候选素材中包含人物的数量对应的景别的图像或者视频帧，且该图像或者视频帧中人物的数量与分镜信息中人物信息包含的人物的数量相同；最后基于人物与背景空间的关系从多个第二候选素材中确定出至少目标素材，目标素材中的人物与空间背景的关系与画面信息所表征的人物与背景空间的关系相同。

可选地，在从第二候选素材中得到与分镜信息中画面信息所表征的人物与背景空间的关系相同的素材后，对这些素材中的每个素材进行质量评估，包括素材的清晰度、美学评估、与剧本主题的相关性等，以得到每个素材的质量得分；然后将质量得分高于预设阈值的素材确定为目标素材。通过该方式，可以得到主题与剧本相关的，富有美感的素材。

203：视频生成装置根据分镜信息中的文本信息及镜头时长确定音频信号。

其中，音频信号的时长与镜头时长相同。

具体的，视频生成装置将每个分镜信息中的文本信息转换为音频信号；为了保证音画一致，基于每个分镜信息中的镜头时长对与该分镜信息对应的音频信号进行处理，比如对播放速度进行处理，以得到播放时长与镜头时长相同的音频信号。

在一个示例中，音频信号有多个，分镜信息有多个，多个音频信号与多个分镜信息对应；多个音频信号中每个音频信号的时长与该音频信号对应的分镜信息的镜头时长相同。

204：视频生成装置根据分镜信息的动作信息表征的运镜方式及镜头时长对目标素材进行预处理，以得到目标视频片段。

在本申请的一个实施方式中，目标素材包括图像，根据分镜信息的动作信息表征的运镜方式及镜头时长对目标素材进行预处理，以得到目标视频片段，包括：

根据音频信号对目标素材包括的图像进行插帧处理，以得到第一视频片段，第一视频片段的播放时长与镜头时长相等；根据动作信息表征的运镜方式第一视频片段进行处理，以得到第二视频片段，第二视频片段的运镜方式与动作信息表征的运镜方式相同；其中，目标视频片段包括上述第二视频片段。

具体的，当目标素材包括一张图像时，直接对该图像进行复制，以得到第一视频片段，该第一视频片段包括M张图像；其中，M＝第一视频片段的帧率*镜头时长；根据动作信息表征的运镜方式对M张图像进行处理，以得到第二视频片段；当目标素材包括多张图像时，直接根据动作信息表征的运镜方式对目标素材包括的多张图像进行处理，以得到第二视频片段。假设目标素材包括的图像数量为M张，当运镜方式为推镜头时，分别对M张图像进行裁剪，以得到M张裁剪的图像；该M张裁剪的图像的相邻两张图像中，播放时间戳靠前的图像包含播放时间戳靠后的图像的内容；对M张裁剪的图像中的每张进行分辨率处理，以得到M张处理后的图像，每张处理后的图像的分辨率与第一视频片段的分辨率相同，该M张处理后的图像构成第二视频片段。

当运镜方式为拉镜头时，分别对M张图像进行裁剪，以得到M张裁剪的图像；该M张裁剪的图像的相邻两张图像中，播放时间戳靠后的图像包含播放时间戳靠前的图像的内容；对M张裁剪的图像中的每张进行分辨率处理，以得到M张处理后的图像，每张处理后的图像的分辨率与第一视频片段的分辨率相同，该M张处理后的图像构成第二视频片段。

当运镜方式为摇镜头时，分别对M张图像进行裁剪，以得到M张裁剪的图像；该M张裁剪的图像中相邻的两张图像的内容部分相同；可选地，M张裁剪的图像还具有特征：M张裁剪的图像的分别在M张图像中的横坐标相同，纵坐标的差值为第一预设步长，或者纵坐标相同，横坐标的差值为第二预设步长，或者横坐标的差值为第二预设步长，纵坐标的差值为第一预设步长。对M张裁剪的图像中的每张进行分辨率处理，以得到M张处理后的图像，每张处理后的图像的分辨率与第一视频片段的分辨率相同，该M张处理后的图像构成第二视频片段。

可选地，上述M张裁剪的图像的分别在M张图像中的横坐标和纵坐标可以为裁剪的图像的左上角、左下角、右上角、右下角和中心点中任一位置的横坐标和纵坐标。

在本申请的一个实施方式中，按照裁剪框对目标素材包括一张图像裁剪进行裁剪，以得到裁剪后的图像；然后按照预设步长水平或者垂直，或者预设移动方式移动裁剪框，再基于裁剪框对目标素材包括一张图像进行裁剪，以得到裁剪后的图像；重复执行该操作多次，可以得到多张裁剪后的图像；然后对该多张裁剪后的图像进行上采样，以得到多张采样后的图像，多张采样后的图像的分辨率与对目标素材包括的图像的分辨率相同；该多张采样后的图像构成第二视频片段。

其中，预设移动方式包括先按照第一预设步长向上或者向下移动裁剪框，在按照第二预设步长向左或者向右移动裁剪框。

在一个具体的示例中，如图3a所示，先基于裁剪框1从目标素材包括的图像中裁剪出图像1，再将裁剪框1向右水平移动x，以得到裁剪框2；基于裁剪框2从目标素材包括的图像中裁剪出图像2；再将裁剪框2向右水平移动x，以得到裁剪框3；基于裁剪框3从目标素材包括的图像中裁剪出图像3；对图像1、图像2和图像3均进行分辨率处理，以得到处理后的图像1、处理后的图像2和处理后的图像3；处理后的图像1的分辨率、处理后的图像2的分辨率和处理后的图像3的分辨率均与目标素材包括的图像的分辨率相同；处理后的图像1、处理后的图像2和处理后的图像3构成上述第二视频片段。

在另一个具体的示例中，如图3b所示，先基于裁剪框4从目标素材包括的图像中裁剪出图像4，再将裁剪框4垂直向下移动y，以得到裁剪框5；基于裁剪框5从目标素材包括的图像中裁剪出图像5；再将裁剪框5垂直向下移动y，以得到裁剪框6；基于裁剪框6从目标素材包括的图像中裁剪出图像6；对图像4、图像5和图像6均进行分辨率处理，以得到处理后的图像4、处理后的图像5和处理后的图像6；处理后的图像4的分辨率、处理后的图像5的分辨率和处理后的图像6的分辨率均与目标素材包括的图像的分辨率相同；处理后的图像4、处理后的图像5和处理后的图像6构成上述第二视频片段。

在另一个具体的示例中，如图3c所示，先基于裁剪框7从目标素材包括的图像中裁剪出图像7，再将裁剪框7水平向左移动x，再向上垂直移动y，以得到裁剪框8；基于裁剪框8从目标素材包括的图像中裁剪出图像8；再将裁剪框8水平向左移动x，再垂直向下移动y，以得到裁剪框9；基于裁剪框9从目标素材包括的图像中裁剪出图像9；对图像7、图像8和图像9均进行分辨率处理，以得到处理后的图像7、处理后的图像8和处理后的图像9；处理后的图像7的分辨率、处理后的图像8的分辨率和处理后的图像9的分辨率均与目标素材包括的图像的分辨率相同；处理后的图像7、处理后的图像8和处理后的图像9构成上述第二视频片段。

在本申请的一个实施方式中，目标素材包括视频片段，根据分镜信息的动作信息表征的运镜方式及镜头时长对目标素材进行预处理，以得到目标视频片段，包括：

根据目标素材包括的视频片段的播放时长与镜头时长对目标素材包括的视频片段进行处理，以得到第三视频片段；其中，第三视频片段的播放时长与镜头时长相同；当目标素材包括的视频片段的播放时长小于镜头时长时，第三视频片段是对目标素材包括的视频片段进行采样操作得到的；当目标素材包括的视频片段的播放时长小于镜头时长时，第三视频片段是对目标素材包括的视频片段进行插帧操作得到的；确定目标素材包括的视频片段的运镜方式；当目标素材包括的视频片段的运镜方式与动作信息表征的运镜方式相同时，将第三视频片段作为目标视频片段中的一个；当目标素材包括的视频片段的运镜方式与动作信息表征的运镜方式不相同时，对第三视频片段进行运镜处理，以得到第四视频片段；第四视频片段的运镜方式与动作信息表征的运镜方式相同；目标视频片段包括第四视频片段。

具体的，当目标素材包括的视频片段的播放时长小于镜头时长时，对目标素材包括的视频片段进行采样操作，以得到第三视频片段，其中，采样率为预设阈值；当目标素材包括的视频片段的播放时长小于镜头时长时，对目标素材包括的视频片段进行插帧操作，以得到第三视频片段；其中，第三视频片段的播放时长与镜头时长相同；当第三视频片段的运镜方式与动作信息表征的运镜方式相同时，不对第三视频片段进行处理，将该第三视频片段作为目标视频片段中的一个；当第三视频片段的运镜方式与动作信息表征的运镜方式不相同时，对第三视频片段进行运镜处理，以得到第四视频片段；第四视频片段的运镜方式与动作信息表征的运镜方式相同；将该第四视频片段作为目标视频片段中的一个。

当动作信息表征的运镜方式为拉镜头时，对第三视频片段中的图像帧进行裁剪；以得到裁剪后的视频片段；对于相邻的两帧图像，播放时间戳靠前的图像帧包含播放时间戳靠后的图像帧的内容；对裁剪后的视频片段中的图像帧进行分辨率处理，以得到第四视频片段，第四视频片段的分辨率与第三视频片段的分辨率相同。当运镜方式为拉镜头时，对第三视频片段中的图像帧进行裁剪；以得到裁剪后的视频片段；对于相邻的两帧图像，播放时间戳靠后的图像帧包含播放时间戳靠前的图像帧的内容；对裁剪后的视频片段中的图像帧进行分辨率处理，以得到第四视频片段，第四视频片段的分辨率与第三视频片段的分辨率相同。

当运镜方式为摇镜头时，分别对第三视频片段中的图像帧进行裁剪，以得到裁剪后的视频片段；该裁剪后的视频片段中相邻的两张视频帧的内容部分相同；可选地，裁剪后的视频片段的视频帧还具有特征：裁剪后的视频片段的视频帧的分别在第三视频片段中的横坐标相同，纵坐标的差值为第一预设步长，或者纵坐标相同，横坐标的差值为第二预设步长，或者横坐标的差值为第二预设步长，纵坐标的差值为第一预设步长。对裁剪后的视频片段进行分辨率处理，以得到第四视频片段。

在一个示例中，分镜信息有多个，目标视频片段有多个，多个目标视频片段与多个分镜信息对应；在一个示例中，一个分镜信息对应的目标视频片段可以有多个；一个分镜信息对应的目标视频片段是根据该分镜信息对应的动作信息表征的运镜方式及镜头时长对该分镜信息对应的目标素材进行预处理得到的，预处理过程可参见上述相关描述，在此不再叙述。

205：视频生成装置对音频信号和目标视频片段进行融合，以得到目标视频。

在本申请的一个实施方式中，分镜信息有多个，音频信号有多个，目标视频有多个，每个分镜信息还包括镜头编号，根据对音频信号和目标视频片段进行融合，以得到目标视频，包括：

按照每个分镜信息中的镜头编号的顺序对多个音频信号进行融合，以得到完整的音频信号；按照每个分镜信息中的镜头编号的顺序对多个目标视频片段进行融合，以得到完整的视频；根据剧本的主题从素材库中获取目标背景音频；将目标背景音频、完整的音频信号及完整的视频进行融合，以得到目标视频。

可以看出，在本申请实施例中，采用本申请的方案可以实现只要输入一个剧本的情况下，就可以得到一个风格迥异，内容丰富的视频，降低了用户创作视频的难度。

参阅图4，图4为本申请实施例提供的一种视频生成装置的功能单元组成框图。视频生成装置400包括：分镜单元401、获取单元402、确定单元403、预处理单元404和融合单元405；

分镜单元401，用于对剧本进行分镜处理，以得到分镜信息；该分镜信息中的每个分镜信息包括画面信息、动作信息、文本信息及镜头时长；画面信息用于表征人物信息及人物与空间背景的关系，动作信息用于表征人物的运动信息及运镜方式；

获取单元402，用于根据画面信息从素材库获取目标素材；

确定单元403，用于根据文本信息及镜头时长确定音频信号；

预处理单元404，用于根据分镜信息的动作信息表征的运镜方式及镜头时长对目标素材进行预处理，以得到目标视频片段；

融合单元405，用于对音频信号和目标视频片段进行融合，以得到目标视频。

在本申请的一些实施方式中，所述人物信息包括人物的数量、职业、性别和服装，获取单元402具体用于：

根据人物的职业、性别和服装从素材库中获取多个第一候选素材；该多个第一候选素材中的每个第一候选素材中的人物信息与分镜信息中人物信息中的人物的职业、性别和服装相同；根据人物的数量及人物的数量与景别的对应关系从多个第一候选素材中确定出多个第二候选素材，多个第二候选素材中每个第二候选素材中人物的数量为分镜信息中人物信息中的人物的数量，且该第二候选素材中包括景别为人物的数量对应的景别的图像；根据人物与空间背景的关系从多个第二候选素材中确定出目标素材，目标素材中的人物与空间背景的关系与分镜信息的画面信息所表征的人物与背景空间的关系相同。

在本申请的一些实施方式中，人物的数量与景别的对应关系，包括：

在本申请的一些实施方式中，目标素材包括图像，预处理单元404具体用于：

根据音频信号的时长对目标素材包括的图像进行插帧处理，以得到第一视频片段，该第一视频片段的播放时长与分镜信息中的镜头时长相等；根据分镜信息中的动作信息表征的运镜方式对第一视频片段进行处理，以得到第二视频片段，该第二视频片段的运镜方式与分镜信息中的动作信息表征的运镜方式相同；其中，目标视频片段包括第二视频片段。

在本申请的一些实施方式中，目标素材包括视频片段，预处理单元404具体用于：

根据目标素材包括的视频片段的播放时长与分镜信息中的镜头时长对目标素材包括的视频片段进行处理，以得到第三视频片段；其中，第三视频片段的播放时长与分镜信息中的镜头时长相同；当目标素材包括的视频片段的播放时长小于分镜信息中的镜头时长时，第三视频片段是对目标素材包括的视频片段进行采样操作得到的；当分镜信息中的目标素材包括的视频片段的播放时长小于分镜信息中的镜头时长时，第三视频片段是对所述目标素材包括的视频片段进行插帧操作得到的；确定目标素材包括的视频片段的运镜方式；当目标素材包括的视频片段的运镜方式与分镜信息中的动作信息表征的运镜方式相同时，将第三视频片段作为目标视频片段中的一个；当目标素材包括的视频片段的运镜方式与分镜信息中的动作信息表征的运镜方式不相同时，对第三视频片段进行运镜处理，以得到第四视频片段；该第四视频片段的运镜方式与分镜信息中的动作信息表征的运镜方式相同；目标视频片段包括第四视频片段。

在本申请的一些实施方式中，分镜信息有多个，分镜单元401具体用于：

对剧本进行分句处理，以得到多个分句，该多个分句与多个分镜信息对应；对多个分句中的每个分句执行如下操作：

基于关键词提取模型提取出分句的关键词提取，以得到该分句的关键词；关键词提取模型是基于神经网络实现的；根据每个分句的关键词确定该分句对应的分镜信息的画面信息、动作信息和文本信息；基于每个分句中关键词的数量确定该分句对应的分镜信息的镜头时长，分镜信息中的镜头时长与关键词的数量成正比关系。

在本申请的一些实施方式中，分镜信息有多个，音频信号有多个，目标视频有多个，每个分镜信息还包括镜头编号，融合单元405具体用于：

参阅图5，图5为本申请实施例提供的一种电子设备的结构示意图。如图5所示，电子设备500包括收发器501、处理器502和存储器503。它们之间通过总线504连接。存储器503用于存储计算机程序和数据，并可以将存储器503存储的数据传输给处理器502。

处理器502用于读取存储器503中的计算机程序执行以下操作：

对剧本进行分镜处理，以得到分镜信息；该分镜信息包括镜头编号、画面信息、动作信息、文本信息及镜头时长；画面信息用于表征人物信息及人物与空间背景的关系，动作信息用于表征人物的运动信息及运镜方式；根据画面信息从素材库获取目标素材；根据文本信息及镜头时长确定音频信号；音频信号的时长与镜头时长相同；根据每个分镜信息的动作信息表征的运镜方式及镜头时长对目标素材进行预处理，以得到目标视频片段；对音频信号和目标视频片段进行融合，以得到目标视频。

在本申请的一些实施方式中，所述人物信息包括人物的数量、职业、性别和服装，在根据画面信息从素材库获取目标素材的方面，处理器502具体用于执行以下操作：

根据人物的职业、性别和服装从素材库中获取多个第一候选素材；该多个第一候选素材中的每个第一候选素材中的人物信息与分镜信息中人物信息中的人物的职业、性别和服装相同；根据人物的数量及人物的数量与景别的对应关系从多个第一候选素材中确定出多个第二候选素材，多个第二候选素材中每个第二候选素材中人物的数量为分镜信息中人物信息中的人物的数量，且该第二候选素材中包括景别为人物的数量对应的景别的图像；根据人物与空间背景的关系从多个第二候选素材中确定出目标素材，目标素材中的每个目标素材中的人物与空间背景的关系与分镜信息的画面信息所表征的人物与背景空间的关系相同。

在本申请的一些实施方式中，目标素材包括图像，根据分镜信息的动作信息表征的运镜方式及镜头时长对目标素材进行预处理，以得到目标视频片段的方面，处理器502具体用于执行以下操作：

根据音频信号的时长对目标素材包括的图像进行插帧处理，以得到第一视频片段，该第一视频片段的播放时长与镜头时长相等；根据动作信息表征的运镜方式对第一视频片段进行处理，以得到第二视频片段，该第二视频片段的运镜方式与动作信息表征的运镜方式相同；其中，目标视频片段包括第二视频片段。

在本申请的一些实施方式中，目标素材包括视频片段，根据分镜信息的动作信息表征的运镜方式及镜头时长对目标素材进行预处理，以得到目标视频片段的方面，处理器502具体用于执行以下操作：

在本申请的一些实施方式中，分镜信息有多个，在对剧本进行分镜处理，以得到分镜信息的方面，处理器502具体用于执行如下操作：

对剧本进行分句处理，以得到多个分句，该多个分局与多个分镜信息对应；对每个分句执行如下操作：

在本申请的一些实施方式中，分镜信息有多个，音频信号有多个，目标视频有多个，每个分镜信息还包括镜头编号，在对音频信号和目标视频片段进行融合，以得到目标视频的方面，处理器502具体用于执行如下操作：

具体地，上述处理器502可以为图4所述的实施例的视频生成装置400的分镜单元401、获取单元402、确定单元403、预处理单元404和融合单元405。

应理解，本申请中的电子设备可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(MobileInternet Devices，简称：MID)或穿戴式设备等。上述电子设备仅是举例，而非穷举，包含但不限于上述电子设备。在实际应用中，上述电子设备还可以包括：智能车载终端、计算机设备等等。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种视频生成方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种视频生成方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频生成方法，其特征在于，包括：

对剧本进行分镜处理，得到分镜信息；所述分镜信息包括画面信息、动作信息、文本信息及镜头时长；所述画面信息用于表征人物信息及所述人物与空间背景的关系，所述动作信息用于表征所述人物的运动信息及运镜方式；

根据所述画面信息从素材库获取目标素材；

根据所述文本信息及镜头时长确定音频信号；所述音频信号的时长与所述分镜信息的镜头时长相同；

根据所述分镜信息的动作信息表征的运镜方式及镜头时长对所述目标素材进行预处理，以得到目标视频片段；

对所述音频信号和所述目标视频片段进行融合，以得到目标视频。

2.根据权利要求1所述的方法，其特征在于，所述人物信息包括人物的数量、职业、性别和服装，所述根据所述画面信息素材库获取所述目标素材，包括：

根据所述人物的职业、性别和服装从所述素材库中获取多个第一候选素材；所述多个第一候选素材中的每个第一候选素材中的人物信息与所述人物信息中的人物的职业、性别和服装相同；

根据所述人物的数量及所述人物的数量与景别的对应关系从所述多个第一候选素材中确定出多个第二候选素材，所述多个第二候选素材中每个第二候选素材中人物的数量为所述人物信息中的人物的数量，且所述第二候选素材中包括景别为所述人物的数量对应的景别的图像；

根据所述人物与空间背景的关系从所述多个第二候选素材中确定出所述目标素材，所述目标素材中的人物与空间背景的关系与所述画面信息所表征的人物与背景空间的关系相同。

3.根据权利要求2所述的方法，其特征在于，所述人物的数量与景别的对应关系，包括：

当所述人物的数量为1时，对应的景别为近景或者特写；

当所述人物的数量大于1且小于或者等于3时，对应的景别为中景或者远景；

当所述人物的数量大于3时，对应的景别为远景或者全景。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述目标素材包括图像，所述根据所述分镜信息的动作信息表征的运镜方式及镜头时长对所述目标素材进行预处理，以得到目标视频片段，包括：

根据所述音频信号对所述目标素材包括的图像进行插帧处理，以得到第一视频片段，所述第一视频片段的播放时长与所述镜头时长相等；

根据所述动作信息表征的运镜方式对所述第一视频片段进行处理，以得到第二视频片段，所述第二视频片段的运镜方式与所述动作信息表征的运镜方式相同；

其中，所述目标视频片段包括所述第二视频片段。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述目标素材包括视频片段，所述根据所述分镜信息的动作信息表征的运镜方式及镜头时长对所述目标素材进行预处理，以得到目标视频片段，包括：

根据所述目标素材包括的视频片段的播放时长与所述镜头时长对所述目标素材包括的视频片段进行处理，以得到第三视频片段；其中，所述第三视频片段的播放时长与所述镜头时长相同；当所述目标素材包括的视频片段的播放时长小于所述镜头时长时，所述第三视频片段是对所述目标素材包括的视频片段进行采样操作得到的；当所述目标素材包括的视频片段的播放时长小于所述镜头时长时，所述第三视频片段是对所述目标素材包括的视频片段进行插帧操作得到的；

确定所述目标素材包括的视频片段的运镜方式；

当所述目标素材包括的视频片段的运镜方式与所述动作信息表征的运镜方式相同时，将所述第三视频片段作为所述目标视频片段中的一个；

当所述目标素材包括的视频片段的运镜方式与所述动作信息表征的运镜方式不相同时，对所述第三视频片段进行运镜处理，以得到第四视频片段；所述第四视频片段的运镜方式与所述动作信息表征的运镜方式相同；所述目标视频片段包括所述第四视频片段。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述分镜信息有多个，所述对所述剧本进行分镜处理，以得到分镜信息，包括:

对所述剧本进行分句处理，以得到多个分句，所述多个分句与多个所述分镜信息对应；

对每个所述分句执行如下操作：

基于关键词提取模型提取出所述分句的关键词提取，以得到所述分句的关键词；所述关键词提取模型是基于神经网络实现的；

根据所述分句的关键词确定对应的分镜信息的画面信息、动作信息和文本信息；

基于所述分句中关键词的数量确定对应的分镜信息的镜头时长，所述镜头时长与所述关键词的数量成正比关系。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述分镜信息有多个，所述音频信号有多个，所述目标视频片段有多个，每个所述分镜信息还包括镜头编号，所述对所述音频信号和所述目标视频片段进行融合，以得到目标视频，包括：

按照每个所述分镜信息中的镜头编号的顺序对多个所述音频信号进行融合，以得到完整的音频信号；

按照每个所述分镜信息中的镜头编号的顺序对多个所述目标视频片段进行融合，以得到完整的视频；

根据所述剧本的主题从素材库中获取目标背景音频；

将所述目标背景音频、所述完整的音频信号及所述完整的视频进行融合，以得到目标视频。

8.一种视频生成装置，其特征在于，包括：分镜单元、获取单元、确定单元、预处理单元和融合单元；

所述分镜单元，用于对剧本进行分镜处理，以得到分镜信息；所述分镜信息中的每个分镜信息包括画面信息、动作信息、文本信息及镜头时长；所述画面信息用于表征人物信息及所述人物与空间背景的关系，所述动作信息用于表征所述人物的运动信息及运镜方式；

所述获取单元，用于根据所述画面信息从素材库获取目标素材；

所述确定单元，用于根据所述文本信息及镜头时长确定音频信号，所述音频信号的时长与所述分镜信息的镜头时长相同；

所述预处理单元，用于根据所述分镜信息的动作信息表征的运镜方式及镜头时长对所述目标素材进行预处理，以得到目标视频片段；

所述融合单元，用于对所述音频信号和所述目标视频片段进行融合，以得到目标视频。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述处理器与所述存储器相连，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，以使得所述电子设备执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-7中任一项所述的方法。