CN114245203A

CN114245203A - 基于剧本的视频剪辑方法、装置、设备及介质

Info

Publication number: CN114245203A
Application number: CN202111535828.3A
Authority: CN
Inventors: 苏雨春晓
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-25
Anticipated expiration: 2041-12-15
Also published as: CN114245203B

Abstract

本发明涉及人工智能技术领域，本发明公开了一种基于剧本的视频剪辑方法、装置、设备及介质，所述方法包括：通过获取待剪辑视频和剧本；对待剪辑视频进行拆解，得到多个待处理帧图像，以及对剧本进行剧本场景分解，分解出待提取场景内容；通过人像属性分析模型进行人体属性识别，得到属性结果，以及通过场景语义识别模型对各待提取场景内容进行关键语义信息识别，识别出场景信息；运用文本匹配算法，获取与各场景信息匹配的属性结果，并确定待加工帧图像；将待加工帧图像进行视频合并处理，得到短视频；对各短视频进行视频校对及视频合成，得到最终剪辑视频。因此，本发明实现了快速地、批量性地生成相应的视频，提高了剪辑视频的准确性和效率。

Description

基于剧本的视频剪辑方法、装置、设备及介质

技术领域

本发明涉及人工智能的图像处理技术领域，尤其涉及一种基于剧本的视频剪辑方法、装置、设备及介质。

背景技术

随着直播技术的迅速发展，越来越多的用户选择通过直播来获知相关资讯。直播业务方为了给用户提供更多的选择和更好的观听体验，通常都在直播过程中，根据已直播的内容为用户提供一些精彩的直播流片段，以供用户查看和分享。当前的视频剪辑软件对视频素材的筛选技术还停留在剪辑师人工识别图像然后手段进行剪辑的最初级阶段，现有方案对剪辑人员的技能要求较高，整个剪辑过程也比较耗费时间，因此，现有方案人工成本比较高，剪辑效率比较低，剪辑质量不稳定难以满足大数据环境下的短视频的业务需求。

发明内容

本发明提供一种基于剧本的视频剪辑方法、装置、设备及介质，实现了自动针对用户需求明确的剧本，快速地、批量性地生成相应的视频，而且能够自动对视频进行校对，提高了剪辑视频的准确性和效率。

一种基于剧本的视频剪辑方法，包括：

获取待剪辑视频和剧本；

对所述待剪辑视频进行拆解，得到多个待处理帧图像，以及对所述剧本进行剧本场景分解，分解出多个含有剧本序号的待提取场景内容；

通过人像属性分析模型对各所述待处理帧图像进行人体属性识别，得到与各所述待处理帧图像对应的属性结果，以及通过场景语义识别模型对各所述待提取场景内容进行关键语义信息识别，识别出与各所述待提取场景内容对应的场景信息；

运用文本匹配算法，获取与各所述场景信息匹配的所述属性结果，并将匹配的所述属性结果所对应的所述待处理帧图像确定为待加工帧图像；

将与相同的所述剧本序号对应的所述待加工帧图像进行视频合并处理，得到与该剧本序号对应的短视频；

对各所述短视频进行视频校对及视频合成，得到最终剪辑视频。

一种基于剧本的视频剪辑装置，包括：

获取模块，用于获取待剪辑视频和剧本；

分解模块，用于对所述待剪辑视频进行拆解，得到多个待处理帧图像，以及对所述剧本进行剧本场景分解，分解出多个含有剧本序号的待提取场景内容；

识别模块，用于通过人像属性分析模型对各所述待处理帧图像进行人体属性识别，得到与各所述待处理帧图像对应的属性结果，以及通过场景语义识别模型对各所述待提取场景内容进行关键语义信息识别，识别出与各所述待提取场景内容对应的场景信息；

匹配模块，用于运用文本匹配算法，获取与各所述场景信息匹配的所述属性结果，并将匹配的所述属性结果所对应的所述待处理帧图像确定为待加工帧图像；

合并模块，用于将与相同的所述剧本序号对应的所述待加工帧图像进行视频合并处理，得到与该剧本序号对应的短视频；

合成模块，用于对各所述短视频进行视频校对及视频合成，得到最终剪辑视频。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于剧本的视频剪辑方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于剧本的视频剪辑方法的步骤。

本发明提供的基于剧本的视频剪辑方法、装置、设备及介质，该方法通过获取待剪辑视频和剧本；对所述待剪辑视频进行拆解，得到多个待处理帧图像，以及对所述剧本进行剧本场景分解，分解出多个含有剧本序号的待提取场景内容；通过人像属性分析模型对各所述待处理帧图像进行人体属性识别，得到与各所述待处理帧图像对应的属性结果，以及通过场景语义识别模型对各所述待提取场景内容进行关键语义信息识别，识别出与各所述待提取场景内容对应的场景信息；运用文本匹配算法，获取与各所述场景信息匹配的所述属性结果，并将匹配的所述属性结果所对应的所述待处理帧图像确定为待加工帧图像；将与相同的所述剧本序号对应的所述待加工帧图像进行视频合并处理，得到与该剧本序号对应的短视频；对各所述短视频进行视频校对及视频合成，得到最终剪辑视频，如此，大大的节省了人工剪辑所需要的时间，针对用户需求明确的剧本，快速地、批量性地生成相应的视频，而且能够自动对视频进行校对，提高了剪辑视频的准确性和效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于剧本的视频剪辑方法的应用环境示意图；

图2是本发明一实施例中基于剧本的视频剪辑方法的流程图；

图3是本发明一实施例中基于剧本的视频剪辑方法的步骤S30的流程图；

图4是本发明另一实施例中基于剧本的视频剪辑方法的步骤S30的流程图；

图5是本发明一实施例中基于剧本的视频剪辑方法的步骤S60的流程图；

图6是本发明一实施例中基于剧本的视频剪辑装置的原理框图；

图7是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的基于剧本的视频剪辑方法，可应用在如图1的应用环境中，其中，客户端(计算机设备或终端)通过网络与服务器进行通信。其中，客户端(计算机设备或终端)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一实施例中，如图2所示，提供一种基于剧本的视频剪辑方法，其技术方案主要包括以下步骤S10-S60：

S10，获取待剪辑视频和剧本。

可理解地，所述待剪辑视频为需要进行剪辑的视频，所述待剪辑视频可以为多个场景进行连续拍摄获得的视频，包括不合格和合格的拍摄内容，例如：在一个设备中连续拍摄演员或者直播博主按照剧本表演的视频，所述剧本为多个场景所编排的内容，所述剧本包括了演员或者直播博主的对白内容、景别描述、表情描述、动作描述和特效描述等与拍摄相关的内容。

S20，对所述待剪辑视频进行拆解，得到多个待处理帧图像，以及对所述剧本进行剧本场景分解，分解出多个含有剧本序号的待提取场景内容。

可理解地，所述拆解过程为将所述待剪辑视频按照每一帧或者按照预设间隔帧数(例如24帧＝0.5秒)的方式分割出图像的方法，从而分割出一帧所对应的所述待处理帧图像，所述剧本场景分解为对所述剧本按照剧本场景的编排顺序进行拆分的方法，即按照预设模板的每一场景的步骤进行拆分的方法，从而可以拆分出多个包含有剧本序号的所述待提取场景内容，例如：所述剧本按照表格的模板进行分解，即表格中的每一行就表明一个剧本序号，其中，剧本序号与表格的行序相对应，从中可以分解出一行与该剧本序号对应的所述待提取场景内容，所述待提取场景内容为一个场景所体现的与对白内容、景别描述、表情描述、动作描述和特效描述等相关拍摄内容。

S30，通过人像属性分析模型对各所述待处理帧图像进行人体属性识别，得到与各所述待处理帧图像对应的属性结果，以及通过场景语义识别模型对各所述待提取场景内容进行关键语义信息识别，识别出与各所述待提取场景内容对应的场景信息。

可理解地，所述人像属性分析模型为通过多任务学习且训练完成的用于识别输入的图像中的人体在图像中所体现的各种元素的人体属性的目标检测模型，各元素的人体属性识别为通过多任务学习方法进行识别，所述多任务学习为多个分支任务学习各个人体属性的类别的识别过程，其中，所述多任务学习的方式可以为共享一个主干网络，通过该主干网络对输入的图像学习共享特征，提取出共享特征，通过提取的共享特征可以共同提供给各种分支任务的全连接层以进行该分支任务所对应的人体属性的类别的识别，所述主干网络为训练完成的基于深度学习的神经网络模型，所述主干网络的网络结构可以为MobileNet系列、ResNet系列、YOLO系列等网络结构，优选地，所述主干网络的网络结构为YOLO V3的网络结构，所述共享特征为图像中的人体所体现的各类属性之间显性和隐性的关联关系的特征，所述多任务学习的方式还可以为一个分支任务独立学习一个人体属性类别，如此，能够集中针对一种人体属性进行识别，提高准确率，优选地，并行执行对所述待处理帧图像进行人像区域识别，得到区域结果，和对所述待处理帧图像进行人脸表情识别，得到表情结果，以及对所述待处理帧图像进行肢体动作识别，识别出动作结果，汇聚所有识别的结果得到所述属性结果，所述属性结果体现了输入的图像中与剧本中的各个元素相关的识别结果的集合。

其中，所述场景语义识别模型为训练完成的用于识别输入的文本内容中各场景所涉及的场景信息所对应的关键字的识别模型，所述场景语义识别模型运用了自然语言处理(NLP，Natural Language Processing)技术进行识别，所述关键语义信息识别的过程为提取输入的待提取场景内容中的对白内容，以及对除对白内容以外的内容进行景别文本特征、表情文本特征、动作文本特征和特效文本特征，根据提取的景别文本特征识别出景别描述，根据提取的表情文本特征识别出表情描述，根据提取的动作文本特征识别出动作描述，根据提取的特效文本特征识别出特效描述，从而识别出该待提取场景内容中关键的场景信息，所述场景信息为在对白内容、景别描述、表情描述、动作描述和特效描述等维度提炼出的关键的文本内容及类别。

在一实施例中，如图3所示，所述步骤S30中，即所述通过人像属性分析模型对各所述待处理帧图像进行人体属性识别，得到与各所述待处理帧图像对应的属性结果，包括：

S301，对所述待处理帧图像进行人像区域识别，得到与所述待处理帧图像对应的区域结果，根据所述区域结果的长宽比以及所述区域结果和所述待处理帧图像的占比，确定出与所述待处理帧图像对应的景别结果。

可理解地，通过所述人像属性分析模型对所述待处理帧图像进行人像区域识别，所述人像区域识别可以通过基于YOLO(You Only Look Once)的网络结构的目标检测模型来实现，所述人像区域识别的过程为从输入的图像中提取人体相关特征的像素点，根据提取出人体相关特征的像素点可以识别出具有人体特征的区域的过程，所述人体特征为与人体的部位相关的特征，比如头、手、人身、脚等等特征，从而可以识别出与各待处理帧图像一一对应的所述区域结果，所述区域结果包括其长边和宽边，所述区域结果的长宽比为将所述区域结果的长边与所述区域结果的宽边相比得到的比值，所述区域结果和所述待处理帧图像的占比为将所述区域结果的面积占所述待处理帧图像的面积的比值，将该比值记录为该区域结果的面积占比，将所述区域结果的长宽比和面积占比输入景别检测模型中，对长宽比和面积占比进行景别预测，预测出景别的类别，景别的类别包括五种，由近至远分别为特写(指人体肩部以上)、近景(指人体胸部以上)、中景(指人体膝部以上)、全景(人体的全部和周围部分环境)、远景(被摄体所处环境)等，所述景别结果体现了一个待处理帧图像所拍摄的景别的类别。

S302，对所述待处理帧图像进行人脸表情识别，得到与所述待处理帧图像对应的表情结果。

可理解地，对所述待处理帧图像进行所述人脸表情识别的过程可以为首先，对所述待处理帧图像的人脸特征进行提取，提取出所述待处理帧图像中的人脸特征，所述人脸特征为与人脸相关的特征，比如眉毛、眼、口、鼻等人脸具有的特征；其次，通过提取出的人脸特征识别出人脸区域；最后，对识别出的人脸区域进行情绪特征的提取，根据提取的情绪特征识别出人脸具有的表情类别，所述情绪特征为与人的情绪相关的特征，比如人的喜怒哀乐等特征，从而得到该待处理帧所对应的所述表情结果，所述表情结果体现了所述待处理帧图像中的人物所体现的表情类别。

S303，对所述待处理帧图像进行肢体特征提取，根据提取的肢体特征进行肢体动作识别，识别出与所述待处理帧图像对应的动作结果。

可理解地，所述对所述待处理帧图像进行肢体特征提取的过程为首先，识别出所述待处理帧图像中的人体肢体节点，即识别出人体中各个部位的肢体节点，比如头部、脖子部位、左右肩膀部位、左右臂、左右手、身躯部位、臀部位、左右大腿、左右小腿和左右脚等等肢体节点；其次，将各个肢体节点按照人体部位的连接关系进行连接；最后，对连接后的肢体节点进行所述肢体特征提取的过程。

其中，所述肢体动作识别的过程为对提取的肢体特征进行肢体动作的类型进行识别的过程，从而得到所述动作结果，所述动作结果体现了所述待处理帧图像中的人体所体现的肢体动作的类型。

其中，所述步骤S301、所述步骤S302和所述步骤S303的执行顺序不做限制，三个步骤可以串行也可以并行执行。

S304，将与该待处理帧图像对应的所述景别结果、所述表情结果和所述动作结果确定为与该待处理帧图像对应的所述属性结果。

可理解地，将与该待处理帧图像对应的所述景别结果、所述表情结果和所述动作结果确定记录为与该待处理帧图像对应的所述属性结果，从而可以得到各个所述待处理帧图像所对应的所述属性结果，所述属性结果体现了输入的图像中与剧本中的各个元素相关的识别结果的集合。

本发明实现了通过对所述待处理帧图像进行人像区域识别，得到与所述待处理帧图像对应的区域结果，根据所述区域结果的长宽比以及所述区域结果和所述待处理帧图像的占比，确定出与所述待处理帧图像对应的景别结果；对所述待处理帧图像进行人脸表情识别，得到与所述待处理帧图像对应的表情结果；对所述待处理帧图像进行肢体特征提取，根据提取的肢体特征进行肢体动作识别，识别出与所述待处理帧图像对应的动作结果；将与该待处理帧图像对应的所述景别结果、所述表情结果和所述动作结果确定为与该待处理帧图像对应的所述属性结果，如此，运用人像区域识别、人脸表情识别、肢体动作识别，自动识别出包含有景别、表情和动作类型的属性结果，无需人工识别，提高了识别的准确性和可靠性。

在一实施例中，所述步骤S30之前，即所述通过人像属性分析模型对各所述待处理帧图像进行人体属性识别之前，包括：

获取图像样本集，所述图像样本集包括多个图像样本，一个所述图像样本与一个元素标签集对应；所述元素标签集包括景别标签、表情标签和动作标签。

可理解地，所述图像样本集为所述图像样本的集合，所述图像样本为历史收集的拍摄或者直播过程中包含人体的的图像，一个所述图像样本对应一个所述元素标签集，所述元素标签集包括所述景别标签、所述表情标签和所述动作标签，所述景别标签体现了与其对应的图像样本中的景别类别，所述表情标签体现了与其对应的图像样本中的人物表情的类别，所述动作标签体现了与其对应的图像样本中的任务所体现的肢体动作的类型。

将所述图像样本输入含有初始参数的目标属性检测模型。

可理解地，所述目标属性检测模型用于识别人体为目标且识别人体各个属性的类别的检测模型，所述目标属性检测模型包含所述初始参数，所述初始参数包括模型的网络结构以及各网络结构中的层级参数，所述层级参数会随着训练的过程不断迭代变化。

通过所述目标属性检测模型对所述图像样本进行多任务学习的人体属性识别，得到识别结果；所述识别结果包括样本景别识别结果、样本表情识别结果和样本动作识别结果。

可理解地，所述多任务学习的人体属性识别为通过多任务学习方法进行识别出各个元素的人体属性所属类别的识别过程，所述多任务学习为多个分支任务学习各个人体属性的类别的识别过程，其中，所述多任务学习的方式可以为共享一个主干网络，通过该主干网络对输入的图像学习共享特征，提取出共享特征，通过提取的共享特征可以共同提供给各种分支任务的全连接层以进行该分支任务所对应的人体属性的类别的识别，所述主干网络为训练完成的基于深度学习的神经网络模型，所述主干网络的网络结构可以为YOLO V3的网络结构，所述共享特征为图像中的人体所体现的各类属性之间显性和隐性的关联关系的特征，所述多任务学习的方式还可以为一个分支任务独立学习一个人体属性类别，如此，能够集中针对一种人体属性进行识别，提高准确率，从而能够得到每个所述图像样本所对应的所述识别结果，所述识别结果包括样本景别识别结果、样本表情识别结果和样本动作识别结果，所述样本景别识别结果体现了输入的图像样本所对应的景别的类别，所述样本表情识别结果体现了输入的图像样本所对应的表情的类别，所述样本动作识别结果体现了输入的图像样本所对应的肢体动作的类型。

根据所述景别标签和所述样本景别识别结果，得到第一损失值，并根据所述表情标签和所述样本表情识别结果，得到第二损失值，以及根据所述动作标签和所述样本动作识别结果，得到第三损失值。

可理解地，运用交叉熵损失函数，计算所述景别标签和所述样本景别识别结果之间的差异，得到所述第一损失值，和计算所述表情标签和所述样本表情识别结果之间的差异，得到所述第二损失值，以及计算所述动作标签和所述样本动作识别结果之间的差异，得到所述第三损失值。

运用注意力机制，对所述第一损失值、所述第二损失值和所述第三损失值进行权重学习，得到最终损失值。

可理解地，所述注意力机制为对各个损失值进行权重学习，学习所述第一损失值、所述第二损失值和所述第三损失值各自的权重的机制，从而能够将注意力分配至识别过程困难或者差异较大的损失值上，可以通过注意力机制转移到某一较差的识别上，从而不断调整模型学习的方向，让整个最终损失值的结果有方向性的变小直至收敛。

在所述最终损失值未达到收敛条件时，迭代更新所述目标属性检测模型中的初始参数，并执行通过所述目标属性检测模型对所述图像样本进行多任务学习的人体属性识别的步骤，直至所述最终损失值达到收敛条件，将收敛之后的目标属性检测模型记录为人体属性分析模型。

可理解地，在所述最终损失值未达到预设的收敛条件时，通过迭代更新所述目标属性检测模型中的初始参数以不断训练学习，并返回执行通过所述目标属性检测模型对所述图像样本进行多任务学习的人体属性识别的步骤，不断循环的过程直至达到收敛条件，所述收敛条件可以为所述最终损失值经过了20000次计算后值为很小且不会再下降的条件，即在所述最终损失值经过20000次计算后值为很小且不会再下降时，停止训练，并将收敛之后的目标属性检测模型记录为人体属性分析模型；所述收敛条件也可以为所述最终损失值小于设定阈值的条件，即在所述最终损失值小于设定阈值时，停止训练，并将收敛之后的目标属性检测模型记录为人体属性分析模型。

本发明实现了通过注意力机制的多任务的深度学习，将注意力分配至识别过程困难或者差异较大的损失值上，即转移到某一较差的识别上，不断调整模型的学习，让整个最终损失值的收敛具有方向性，能够快速地训练出人体属性分析模型。

在一实施例中，如图4所示，所述步骤S30中，即所述通过场景语义识别模型对各所述待提取场景内容进行关键语义信息识别，识别出与各所述待提取场景内容对应的场景信息，包括：

S305，对所述待提取场景内容进行对白提取，得到对白内容和非对白内容。

可理解地，对所述待提取场景内容进行对白提取的过程为识别出所述待提取场景内容中的对话特征，所述对话特征为对话中的文本符号的特征，比如一句话中包含的冒号或/和双引号的特征，以及冒号后出现一句话换行等特征，通过提取的对话特征可以标识出对话的内容，将其记录为所述对白内容，将从所述待提取场景中去除标识的所述对白内容所剩余的内容记录为所述非对白内容。

S306，对所述非对白内容进行分词，得到多个单元词。

可理解地，所述分词的过程为将所述非对白内容划分成最小单元的字或者词语，得到与所述非对白内容对应的多个所述单元词。

S307，运用上下文语义算法，对各所述单元词进行景别文本特征、表情文本特征、动作文本特征和特效文本特征的提取。

可理解地，所述上下文语义算法为运用Bi-LSTM算法也称为双向长短时记忆网络算法，通过正向和逆向两个方向进行共同编码以进行嵌入词向量转换的校验方法，以确保将单元词转换成最符合语义的编码，从编码后的单元词中提取出具有景别文本特征的文本(例如：特写、近景、中景、全景、远景)、具有表情文本特征的文本(例如：睁大眼睛的样子、开口大笑)、具有动作文本特征的文本(例如：手捧姿势、手指某一方向、右侧小跑进入直播间)和具有特效文本特征的文本(对人脸放大的特效、撒花特效、爱心渲染特效)。

S308，根据提取的景别文本特征、表情文本特征、动作文本特征和特效文本特征进行语义识别，得到景别描述、表情描述、动作描述和特效描述。

可理解地，根据提取的景别文本特征的文本进行虚词或/和助词去除，将剩余的文本记录为所述景别描述，根据提取的表情文本特征的文本进行虚词或/和助词去除，将剩余的文本记录为所述表情描述，根据提取的动作文本你特征的文本进行虚词或/和助词去除，将剩余的文本记录为所述动作描述，根据提取的特效文本特征的文本进行虚词或/和助词去除，将剩余的文本记录为所述特效描述，例如：提取的表情文本特征的文本为“睁大眼睛的样子”，则提取的表情描述为“睁大眼睛”，提取的动作文本特征的文本为“手捧姿势”、“右侧小跑进入直播间”，则提取的动作描述为“手捧”、“右侧小跑”，提取的特效文本特征的文本为“对人脸放大的特征”、“撒花特效”，则提取的特效描述为“人脸放大”、“撒花”。

S309，将所述对白内容、所述景别描述、所述表情描述、所述动作描述和所述特效描述记录为与该待提取场景内容对应的所述场景信息。

可理解地，将所述对白内容、所述景别描述、所述表情描述、所述动作描述和所述特效描述分别进行分类标识，并确认为与该待提取场景内容对应的所述场景信息，所述场景信息为在对白内容、景别描述、表情描述、动作描述和特效描述等维度提炼出的关键的文本内容及类别。

本发明实现了通过对所述待提取场景内容进行对白提取，得到对白内容和非对白内容；对所述非对白内容进行分词，得到多个单元词；运用上下文语义算法，对各所述单元词进行景别文本特征、表情文本特征、动作文本特征和特效文本特征的提取；根据提取的景别文本特征、表情文本特征、动作文本特征和特效文本特征进行语义识别，得到景别描述、表情描述、动作描述和特效描述；将所述对白内容、所述景别描述、所述表情描述、所述动作描述和所述特效描述记录为与该待提取场景内容对应的所述场景信息，如此，通过对白提取和上下文语义算法，快速地识别出对白内容，以及景别文本特征、表情文本特征、动作文本特征和特效文本特征，能够自动识别出各种场景相关的信息，无需人工识别。

S40，运用文本匹配算法，获取与各所述场景信息匹配的所述属性结果，并将匹配的所述属性结果所对应的所述待处理帧图像确定为待加工帧图像。

可理解地，所述文本匹配算法为运用文本的词向量匹配出相似度，并根据相似度进行衡量匹配程度的算法，其中，相似度的计算方法为运用余弦相似度算法进行计算，即通过计算两个文本的词向量之间的余弦值衡量两个文本的相似度，将各所述属性结果中的景别结果、表情结果和动作结果分别与所述场景信息中的景别描述、表情描述、动作描述进行一一相应匹配，即将所述景别结果与所述景别描述进行匹配，将所述表情结果与所述表情描述进行匹配，将所述动作结果与所述动作描述进行匹配，只要符合匹配的条件，即认为相互匹配，从而得到各维度的匹配结果，进而可以获得与一个所述场景信息匹配的属性结果，将其所对应的所述待处理帧图像确定为与该场景信息对应的所述待加工帧图像，所述待加工帧图像还包含所述剧本序号，表明该待加工帧图像符合剧本序号所对应的场景信息。

S50，将与相同的所述剧本序号对应的所述待加工帧图像进行视频合并处理，得到与该剧本序号对应的短视频。

可理解地，所述视频合并处理为按照时间顺序(即时域方面)将相同的所述剧本序号所对应的所述待加工帧图像进行首尾相接得到短视频的处理过程，一个所述剧本序号对应一个所述短视频。

S60，对各所述短视频进行视频校对及视频合成，得到最终剪辑视频。

可理解地，所述视频校对为从所述短视频中提取出与该短视频所对应的对白内容完全匹配的视频片段，所述视频合成为将各个视频校对后的短视频按照剧本序号合并成一个视频的过程，其中，所述视频合成过程包括将各个视频校对后的短视频进行图像光滑过渡处理，即将相邻两个视频之间的交接帧的图像上进行平滑过渡的处理，避免图像突兀的变化。

本发明实现了通过获取待剪辑视频和剧本；对所述待剪辑视频进行拆解，得到多个待处理帧图像，以及对所述剧本进行剧本场景分解，分解出多个含有剧本序号的待提取场景内容；通过人像属性分析模型对各所述待处理帧图像进行人体属性识别，得到与各所述待处理帧图像对应的属性结果，以及通过场景语义识别模型对各所述待提取场景内容进行关键语义信息识别，识别出与各所述待提取场景内容对应的场景信息；运用文本匹配算法，获取与各所述场景信息匹配的所述属性结果，并将匹配的所述属性结果所对应的所述待处理帧图像确定为待加工帧图像；将与相同的所述剧本序号对应的所述待加工帧图像进行视频合并处理，得到与该剧本序号对应的短视频；对各所述短视频进行视频校对及视频合成，得到最终剪辑视频，如此，大大的节省了人工剪辑所需要的时间，针对用户需求明确的剧本，快速地、批量性地生成相应的视频，而且能够自动对视频进行校对，提高了剪辑视频的准确性和效率。

在一实施例中，如图5所示，所述步骤S60中，即所述对各所述短视频进行视频校验及视频合成，得到最终剪辑视频，包括：

S601，对各所述短视频进行文本识别，得到与各所述短视频对应的文本结果。

可理解地，所述文本识别的过程为从短视频中提取音频片段，再识别音频片段中文本内容的过程，所述文本识别的过程可以运用NLP(自然语言识别技术)进行识别，从而可以识别出每一个所述短视频中的文本内容，将其记录为所述文本结果。

在一实施例中，所述步骤S601中，即所述对各所述短视频进行文本识别，得到与各所述短视频对应的文本结果，包括：

运用音频分割技术，提取所述短视频中的音频片段。

可理解地，所述音频分割技术为从输入的短视频中分离出图像和音频的部分，去除图像的部分，剩余的作为所述音频片段的技术。

运用语音识别技术，对所述音频片段进行文本识别，得到与该短视频对应的所述文本结果。

可理解地，所述语音识别技术(Automatic Speech Recognition，ASR)是一种将人的语音转换为文本的技术，也即对所述音频片段进行声纹特征提取，即提取出该音频片段中的具有梅尔倒谱系数(MFCC)的声纹特征，通过声纹特征识别出与该声纹特征相对应的发音的字，从而能够转换出相应的文本内容，从而识别出所述音频文件片段中的所包含的文字的文本内容，得到所述文本结果。

本发明实现了通过运用音频分割技术，提取所述短视频中的音频片段；运用语音识别技术，对所述音频片段进行文本识别，得到与该短视频对应的所述文本结果，如此，运用音频分割技术和语音识别技术，自动识别出短视频中的文本内容，为后续的视频校对提供准确的校对数据。

S602，根据与各所述剧本序号对应的所述场景信息中的对白内容和所述文本结果，对各所述短视频进行校对，得到待加工短视频。

可理解地，所述校对的过程为从与一个剧本序号对应的所述文本结果中匹配出与该剧本序号对应的对白内容的文本内容，再从该文本内容所对应的短视频中的位置的过程，将每一个校对后的短视频记录为所述待加工短视频。

在一实施例中，所述步骤S602中，即所述根据与各所述剧本序号对应的所述场景信息中的对白内容和所述文本结果，对各所述短视频进行校对，得到待加工短视频，包括：

运用文本快速匹配算法，从所述文本结果中匹配出与所述对白内容完全匹配的文本内容。

可理解地，所述文本快速匹配算法为从所述文本结果中找到所述对白内容的第一个文字相同的位置，然后逐字比对，在比对到不相同的单个字时，自动找下一个与所述对白内容的第一个文字相同的位置，循环处理最终找到完全与所述对白内容完全匹配的文本内容为止的算法。

获取匹配的文本内容所对应的起始帧和结尾帧。

可理解地，通过匹配的文本内容在短视频中的开始录制以及结束录制的位置，可以获取该位置的起始帧和结尾帧，所述起始帧为该位置的开始位置，所述结尾帧为该位置的结尾位置。

从所述短视频中提取所述起始帧和所述结尾帧之间的视频内容，并将该视频内容记录为所述待加工短视频。

可理解地，从所述短视频中截取所述起始帧和所述结尾帧之间的视频内容，从而得到所述待加工短视频。

本发明实现了通过运用文本快速匹配算法，从所述文本结果中匹配出与所述对白内容完全匹配的文本内容；获取匹配的文本内容所对应的起始帧和结尾帧；从所述短视频中提取所述起始帧和所述结尾帧之间的视频内容，并将该视频内容记录为所述待加工短视频，如此，运用文本快速匹配算法，快速地自动匹配出文本内容，并找出与其相应的起始帧和结尾帧，从而提取出真正需要的待加工短视频，也即符合剧本的拍摄合格的视频，减少了人工匹配以及裁切的人工操作成本，提高了视频剪辑效率。

S603，对各所述待加工短视频进行与其相应的所述场景信息中的特效描述的特效处理，得到与各所述待加工短视频对应的待合成视频。

可理解地，所述特效处理的过程为获取与一个待加工短视频所对应的剧本序号所对应的场景信息中的所述特效描述，并从特效代码库中查询与该特效描述对应的特效代码，获取查询到的特效代码，将获取的特效代码对该待加工短视频进行加工处理，以增加相应特效的过程，从而能够得到每一个待加工短视频所对应的待合成视频。

S604，将所有所述待合成视频按照与其相应的所述剧本序号进行合成，得到最终剪辑视频。

可理解地，将所有所述待合成视频按照所对应的剧本序号的顺序进行首尾拼接视频合成处理，从而能够得到符合所述剧本的与所述待剪辑视频对应的所述最终剪辑视频。

本发明实现了通过对各所述短视频进行文本识别，得到与各所述短视频对应的文本结果；根据与各所述剧本序号对应的所述场景信息中的对白内容和所述文本结果，对各所述短视频进行校对，得到待加工短视频；对各所述待加工短视频进行与其相应的所述场景信息中的特效描述的特效处理，得到与各所述待加工短视频对应的待合成视频；将所有所述待合成视频按照与其相应的所述剧本序号进行合成，得到最终剪辑视频，如此，能够运用文本识别，自动识别出短视频相应的文本结果，通过基于对白内容和文本结果，自动校对短视频，得到待加工短视频，并自动根据特效描述进行特效处理，得到短视频相应的待合成视频，以及能够合成出最终剪辑视频，大大减少了人工校对以及合成的成本，快速地将多个短视频自动生成符合剧本要求的最终剪辑视频，提高了剪辑视频的准确性和效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于剧本的视频剪辑装置，该基于剧本的视频剪辑装置与上述实施例中基于剧本的视频剪辑方法一一对应。如图6所示，该基于剧本的视频剪辑装置包括获取模块11、分解模块12、识别模块13、匹配模块14、合并模块15和合成模块16。各功能模块详细说明如下：

获取模块11，用于获取待剪辑视频和剧本；

分解模块12，用于对所述待剪辑视频进行拆解，得到多个待处理帧图像，以及对所述剧本进行剧本场景分解，分解出多个含有剧本序号的待提取场景内容；

识别模块13，用于通过人像属性分析模型对各所述待处理帧图像进行人体属性识别，得到与各所述待处理帧图像对应的属性结果，以及通过场景语义识别模型对各所述待提取场景内容进行关键语义信息识别，识别出与各所述待提取场景内容对应的场景信息；

匹配模块14，用于运用文本匹配算法，获取与各所述场景信息匹配的所述属性结果，并将匹配的所述属性结果所对应的所述待处理帧图像确定为待加工帧图像；

合并模块15，用于将与相同的所述剧本序号对应的所述待加工帧图像进行视频合并处理，得到与该剧本序号对应的短视频；

合成模块16，用于对各所述短视频进行视频校对及视频合成，得到最终剪辑视频。

关于基于剧本的视频剪辑装置的具体限定可以参见上文中对于基于剧本的视频剪辑方法的限定，在此不再赘述。上述基于剧本的视频剪辑装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是客户端或者服务端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于剧本的视频剪辑方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中基于剧本的视频剪辑方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中基于剧本的视频剪辑方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于剧本的视频剪辑方法，其特征在于，包括：

获取待剪辑视频和剧本；

2.如权利要求1所述的基于剧本的视频剪辑方法，其特征在于，所述对各所述短视频进行视频校验及视频合成，得到最终剪辑视频，包括：

对各所述短视频进行文本识别，得到与各所述短视频对应的文本结果；

根据与各所述剧本序号对应的所述场景信息中的对白内容和所述文本结果，对各所述短视频进行校对，得到待加工短视频；

对各所述待加工短视频进行与其相应的所述场景信息中的特效描述的特效处理，得到与各所述待加工短视频对应的待合成视频；

将所有所述待合成视频按照与其相应的所述剧本序号进行合成，得到最终剪辑视频。

3.如权利要求2所述的基于剧本的视频剪辑方法，其特征在于，所述对各所述短视频进行文本识别，得到与各所述短视频对应的文本结果，包括：

运用音频分割技术，提取所述短视频中的音频片段；

4.如权利要求2所述的基于剧本的视频剪辑方法，其特征在于，所述根据与各所述剧本序号对应的所述场景信息中的对白内容和所述文本结果，对各所述短视频进行校对，得到待加工短视频，包括：

运用文本快速匹配算法，从所述文本结果中匹配出与所述对白内容完全匹配的文本内容；

获取匹配的文本内容所对应的起始帧和结尾帧；

5.如权利要求1所述的基于剧本的视频剪辑方法，其特征在于，所述通过人像属性分析模型对各所述待处理帧图像进行人体属性识别，得到与各所述待处理帧图像对应的属性结果，包括：

对所述待处理帧图像进行人像区域识别，得到与所述待处理帧图像对应的区域结果，根据所述区域结果的长宽比以及所述区域结果和所述待处理帧图像的占比，确定出与所述待处理帧图像对应的景别结果；

对所述待处理帧图像进行人脸表情识别，得到与所述待处理帧图像对应的表情结果；

对所述待处理帧图像进行肢体特征提取，根据提取的肢体特征进行肢体动作识别，识别出与所述待处理帧图像对应的动作结果；

将与该待处理帧图像对应的所述景别结果、所述表情结果和所述动作结果确定为与该待处理帧图像对应的所述属性结果。

6.如权利要求1所述的基于剧本的视频剪辑方法，其特征在于，所述通过人像属性分析模型对各所述待处理帧图像进行人体属性识别之前，包括：

获取图像样本集，所述图像样本集包括多个图像样本，一个所述图像样本与一个元素标签集对应；所述元素标签集包括景别标签、表情标签和动作标签；

将所述图像样本输入含有初始参数的目标属性检测模型；

通过所述目标属性检测模型对所述图像样本进行多任务学习的人体属性识别，得到识别结果；所述识别结果包括样本景别识别结果、样本表情识别结果和样本动作识别结果；

根据所述景别标签和所述样本景别识别结果，得到第一损失值，并根据所述表情标签和所述样本表情识别结果，得到第二损失值，以及根据所述动作标签和所述样本动作识别结果，得到第三损失值；

运用注意力机制，对所述第一损失值、所述第二损失值和所述第三损失值进行权重学习，得到最终损失值；

7.如权利要求1所述的基于剧本的视频剪辑方法，其特征在于，所述通过场景语义识别模型对各所述待提取场景内容进行关键语义信息识别，识别出与各所述待提取场景内容对应的场景信息，包括：

对所述待提取场景内容进行对白提取，得到对白内容和非对白内容；

对所述非对白内容进行分词，得到多个单元词；

运用上下文语义算法，对各所述单元词进行景别文本特征、表情文本特征、动作文本特征和特效文本特征的提取；

根据提取的景别文本特征、表情文本特征、动作文本特征和特效文本特征进行语义识别，得到景别描述、表情描述、动作描述和特效描述；

将所述对白内容、所述景别描述、所述表情描述、所述动作描述和所述特效描述记录为与该待提取场景内容对应的所述场景信息。

8.一种基于剧本的视频剪辑装置，其特征在于，包括：

获取模块，用于获取待剪辑视频和剧本；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于剧本的视频剪辑方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于剧本的视频剪辑方法。