CN113194333A

CN113194333A - 视频剪辑方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113194333A
Application number: CN202110227646.3A
Authority: CN
Inventors: 黄晓林; 钟腾跃; 贾思嫄; 陈礼和; 郑海伦; 徐晓冬; 涂光辉
Original assignee: China Merchants Bank Co Ltd
Current assignee: China Merchants Bank Co Ltd
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-07-30
Anticipated expiration: 2041-03-01
Also published as: CN113194333B

Abstract

本发明公开了一种视频剪辑方法，所述视频剪辑方法包括：获取待剪辑音视频的视频图像信息；基于所述视频图像信息，确定说话时间序列；基于所述说话时间序列对所述待剪辑音视频进行切分，得到音视频片段。本发明还公开了一种视频剪辑装置、一种视频剪辑设备和一种计算机可读存储介质。本发明提高了视频剪辑的适用性，并提高了视频剪辑效果。

Description

视频剪辑方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频剪辑方法、装置、设备及计算机可读存储介质。

背景技术

随着科技的迅速发展，越来越多的技术应用在视频处理领域。其中，视频剪辑在视频处理及制作中具有重要的作用。例如，视频直播已成为各行业快速而又有效的宣传手段，但是直播视频的时长较长，并且中间夹杂红包等冗余环节，对于用户的二次回看以及企业的二次利用都会有较差的体验，所以需对视频进行剪辑。目前，大多由人工进行视频剪辑，需耗费大量的人力成本和时间成本，因此需要开发高效的视频自动剪辑方法。

首先，参阅申请号为CN202010775464.5的技术方案，其对所述目标视频的视频帧进行场景识别，得到各个所述视频帧对应的目标场景类型；根据所述视频帧对应的目标场景类型对所述目标视频进行切分，得到所述目标视频对应的视频片段。由此可知，根据目标场景的不同进行视频的切分，这种视频剪辑方式的剪辑粒度过于粗糙，自动剪辑的效果较差，如果目标场景单一则无法进行视频剪辑。

其次，参阅申请号为CN202010773076.3的技术方案，其基于视频流中的多个原始图像，得到至少一个候选图像集合，其中，每个候选图像集合包括至少一个候选图像；对所述至少一个候选图像集合中每个候选图像集合进行镜头分类处理，得到所述每个候选图像集合的镜头分类结果；基于所述至少一个候选图像集合的镜头分类结果，从所述至少一个候选图像集合中选取目标图像集合；基于所述目标图像集合，得到所述视频流的视频剪辑结果。由此可知，根据剪辑过程中镜头类型的不同对视频进行切分，这种视频剪辑方式的剪辑粒度过于粗糙，自动剪辑效果较差，如果镜头类型单一则无法进行视频剪辑。

最后，参阅申请号为CN202010694551.8的技术方案，其提取原视频每一帧作为第一图片，生产第一图片集，第一图片集中的每张第一图片按照图片在原视频中的顺序排列，并形成帧链表；将第一图片集中的图片通过裁切去除标识物获得第二图片，生成第二图片集；对第二图片集中的每张第二图片根据镜头识别模型依序添加镜头标签，并添加场景标签；根据预设目标帧数、目标场景标签以及预设的场景优先序列剪辑第二图片集中依序输出第三图片获得第三图片集；根据帧链表中的顺序合成第三图片集中的所有第三图片输出剪辑视频。由此可知，使用镜头识别和场景识别进行视频切分的视频剪辑粒度粗，剪辑效果差，并且提取第一、二、三图片集，对每个图片集图片进行处理，耗时较长，在单一场景或者单一镜头下则无法进行视频剪辑。

综上所述，如何解决单一场景、单一镜头下的视频剪辑问题，以及如何提高视频剪辑效果，是目前亟需解决的问题。

发明内容

本发明的主要目的在于提供一种视频剪辑方法、装置、设备及计算机可读存储介质，旨在提高视频剪辑的适用性，并提高视频剪辑效果。

为实现上述目的，本发明提供一种视频剪辑方法，所述视频剪辑方法包括以下步骤：

获取待剪辑音视频的视频图像信息；

基于所述视频图像信息，确定说话时间序列；

基于所述说话时间序列对所述待剪辑音视频进行切分，得到音视频片段。

可选地，所述基于所述视频图像信息，确定说话时间序列的步骤包括：

基于构建的人脸检测模型，对所述视频图像信息的每一帧图像进行人脸检测，得到人脸图像，其中，所述人脸检测模型为基于视频帧图像训练数据和针对于人脸框位置特征的训练标签构建的模型；

基于构建的说话动作识别模型，对所述人脸图像进行说话动作识别，得到说话时间序列。

可选地，所述基于构建的说话动作识别模型，对所述人脸图像进行说话动作识别，得到说话时间序列的步骤包括：

基于构建的孪生网络Siamese网络模型，对所述人脸图像进行说话动作识别，得到每一帧人脸图像的说话概率；

基于预设概率阈值对所述说话概率进行划分，得到说话时间序列。

可选地，所述获取待剪辑音视频的视频图像信息的步骤之前，所述视频剪辑方法还包括：

获取连续的人脸图像帧，并将所述连续的人脸图像帧作为模型训练数据；

基于是否说话的特征对所述模型训练数据进行样本标注，得到模型训练标签；

基于所述模型训练数据和所述模型训练标签，构建Siamese网络模型，以供基于所述Siamese网络模型对人脸图像进行说话动作识别。

可选地，所述基于所述模型训练数据和所述模型训练标签，构建Siamese网络模型，以供基于所述Siamese网络模型对人脸图像进行说话动作识别的步骤之前，所述视频剪辑方法还包括：

基于分类损失函数及反对比损失函数，构建序列反对比损失函数，所述分类损失函数为

其中，t_i为所述模型训练标签对应的真实标签，y_i为所述模型训练标签，

所述反对比损失函数为

其中，

s_i为第i个维度上视频特征的方差，n为视频特征的维度个数，y＝1表示在说话，y＝0表示不在说话，margin为预设阈值；

相应的，所述基于所述模型训练数据和所述模型训练标签，构建Siamese网络模型的步骤包括：

基于所述模型训练数据、所述模型训练标签和所述序列反对比损失函数，构建Siamese网络模型。

可选地，所述基于构建的人脸检测模型，对所述视频图像信息的每一帧图像进行人脸检测，得到人脸图像，其中，所述人脸检测模型为基于视频帧图像训练数据和针对于人脸框位置特征的训练标签构建的模型的步骤之后，所述视频剪辑方法还包括：

基于构建的人脸识别模型，对所述人脸图像进行人脸识别，得到所述人脸图像对应的身份信息，其中，所述人脸识别模型为基于人脸图像训练数据和针对于人脸类别特征的训练标签构建的模型；

基于所述身份信息将所述人脸图像进行划分，得到每个身份信息对应的人脸图像；

相应的，所述基于构建的说话动作识别模型，对所述人脸图像进行说话动作识别，得到说话时间序列的步骤包括：

基于构建的说话动作识别模型，对所述每个身份信息对应的人脸图像分别进行说话动作识别，得到每个身份信息对应的说话时间序列。

可选地，所述视频剪辑方法还包括：

获取所述音视频片段的音频信息；

基于构建的语音识别模型，对所述音频信息进行语音识别，得到对应的文字信息，其中，所述语音识别模型为基于音频训练数据和针对于文字特征的训练标签构建的模型；

确定当前应用场景，并基于所述当前应用场景获取对应的专业词库；

基于所述专业词库，检测所述文字信息的信息量；

基于所述信息量及预设信息量阈值，对所述音视频片段进行剪辑。

此外，为实现上述目的，本发明还提供一种视频剪辑装置，所述视频剪辑装置包括：

图像获取模块，用于获取待剪辑音视频的视频图像信息；

序列确定模块，用于基于所述视频图像信息，确定说话时间序列；

视频切分模块，用于基于所述说话时间序列对所述待剪辑音视频进行切分，得到音视频片段。

此外，为实现上述目的，本发明还提供一种视频剪辑设备，所述视频剪辑设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频剪辑程序，所述视频剪辑程序被所述处理器执行时实现如上所述的视频剪辑方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有视频剪辑程序，所述视频剪辑程序被处理器执行时实现如上所述的视频剪辑方法的步骤。

本发明提供一种视频剪辑方法、装置、设备及计算机可读存储介质，获取待剪辑音视频的视频图像信息；基于视频图像信息，确定说话时间序列；基于说话时间序列对待剪辑音视频进行切分，得到音视频片段。通过上述方式，本发明可根据人员是否说话对待剪辑音视频进行切分，去除了未说话的冗余视频片段，从而提高了视频剪辑效果。同时，在单一场景或单一镜头下，通过上述方式仍可进行视频剪辑，从而提高了视频剪辑的适用性，并进一步提高了视频剪辑效果。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图；

图2为本发明视频剪辑方法第一实施例的流程示意图；

图3为本发明视频剪辑方法第二实施例的流程示意图；

图4为本发明实施例涉及的概率滤波示意图；

图5为本发明视频剪辑方法第四实施例的流程示意图；

图6为本发明视频剪辑装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端为视频剪辑设备，该视频剪辑设备可以为PC(personalcomputer，个人计算机)、微型计算机、笔记本电脑、服务器等具有处理功能的终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU(Central Processing Unit，中央处理器)，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频剪辑程序。

在图1所示的终端中，处理器1001可以用于调用存储器1005中存储的视频剪辑程序，并执行以下操作：

获取待剪辑音视频的视频图像信息；

基于所述视频图像信息，确定说话时间序列；

进一步地，处理器1001可以用于调用存储器1005中存储的视频剪辑程序，还执行以下操作：

所述反对比损失函数为

其中，

获取所述音视频片段的音频信息；

基于所述专业词库，检测所述文字信息的信息量；

基于上述硬件结构，提出本发明视频剪辑方法的各个实施例。

本发明提供一种视频剪辑方法。

参照图2，图2为本发明视频剪辑方法第一实施例的流程示意图。

在本实施例中，该视频剪辑方法包括：

步骤S10，获取待剪辑音视频的视频图像信息；

首先，获取待剪辑音视频的视频图像信息。其中，待剪辑音视频为原始视频，即初始录制的视频，例如视频直播中录制的视频。该待剪辑音视频可以包括视频图像信息和音频信息，还可以包括字幕信息等多模态信息。

在一实施例中，提取待剪辑音视频的视频图像信息和音频信息，以供基于视频图像信息确定说话时间序列。具体的，可以将待剪辑音视频划分为视频图像信息和音频信息。在其他实施方式中，也可以直接提取待剪辑音视频的视频图像信息即可。

步骤S20，基于所述视频图像信息，确定说话时间序列；

然后，基于视频图像信息，确定说话时间序列。其中，说话时间序列为视频图像信息中显示的人员，进行说话的时间段。

需要说明的是，一个视频图像信息可以包括1个或多个说话时间序列，根据多个说话时间序列可以划分多个音视频片段。

在一实施例中，对视频图像信息中的每一帧图像进行人脸检测，以得到人员的人脸框。然后，基于人脸框判断人员是否在说话，从而获得说话时间序列(说话时间区间)。在其他实施方式中，可进一步对人脸框进行嘴巴检测，以得到人员的嘴巴图像，然后基于嘴巴图像判断人员是否在说话，以更加准确确定说话时间序列。

具体的，上述步骤S20包括：

步骤a21，基于构建的人脸检测模型，对所述视频图像信息的每一帧图像进行人脸检测，得到人脸图像，其中，所述人脸检测模型为基于视频帧图像训练数据和针对于人脸框位置特征的训练标签构建的模型；

在本实施例中，基于构建的人脸检测模型，对视频图像信息的每一帧图像进行人脸检测，得到人脸图像，其中，该人脸检测模型为基于视频帧图像训练数据和针对于人脸框位置特征的训练标签构建的模型。

需要说明的是，在人脸检测模型的训练阶段中，输入为整张视频图像，即视频帧图像训练数据为视频图像信息的整张视频图像，训练标签为人脸框的位置。在测试阶段中，输入为视频图像信息的每一帧图像，输出为人脸框的位置(人脸图像)。

在一实施例中，人脸检测模型可通过多任务卷积神经网络算法(multi-taskconvolutional network)进行构建，以提高人脸检测性能及速度。在其他实施方式中，还可以采用其他人脸检测算法或人脸识别算法构建人脸检测模型，以进行人脸检测。

步骤a22，基于构建的说话动作识别模型，对所述人脸图像进行说话动作识别，得到说话时间序列。

在本实施例中，基于构建的说话动作识别模型，对人脸图像进行说话动作识别，得到说话时间序列。其中，该说话动作识别模型为基于连续的人脸图像帧训练数据和针对于是否说话特征的训练标签构建的模型。

需要说明的是，动作识别是一系列动作，需要考虑时序信息，即分析前后图像帧的相似度，以根据相似度判断人员是否说话。

在一实施例中，可以采用融入了时间维度的三维卷积算法构建说话动作识别模型。在其他实施方式中，也可以采用其他算法构建说话动作识别模型，例如，采用孪生网络(Siamese network)构建说话动作识别模型，具体的执行流程参照下述第二实施例，此处不再一一赘述。

步骤S30，基于所述说话时间序列对所述待剪辑音视频进行切分，得到音视频片段。

最后，基于说话时间序列对待剪辑音视频进行切分，得到音视频片段。具体的，根据该说话时间序列对应的时间段或者对应的视频帧序列，提取待剪辑音视频对应的视频片段，得到各个音视频片段。

其中，音视频片段包括多个视频帧图像及音频等信息，该音视频片段的每一帧基本具有对应的音频信息。多个说话时间序列可切分得到多个音视频片段。

本发明实施例提供一种视频剪辑方法，获取待剪辑音视频的视频图像信息；基于视频图像信息，确定说话时间序列；基于说话时间序列对待剪辑音视频进行切分，得到音视频片段。通过上述方式，本发明实施例可根据人员是否说话对待剪辑音视频进行切分，去除了未说话的冗余视频片段，从而提高了视频剪辑效果。同时，在单一场景或单一镜头下，通过上述方式仍可进行视频剪辑，从而提高了视频剪辑的适用性，并进一步提高了视频剪辑效果。

进一步地，基于上述第一实施例，提出本发明视频剪辑方法的第二实施例。

参照图3，图3为本发明视频剪辑方法第二实施例的流程示意图。

在本实施例中，上述步骤a22包括：

步骤S221，基于构建的孪生网络Siamese网络模型，对所述人脸图像进行说话动作识别，得到每一帧人脸图像的说话概率；

在本实施例中，基于构建的Siamese网络模型，对人脸图像进行说话动作识别，得到每一帧人脸图像的说话概率。其中，该Siamese网络模型(说话动作识别模型)为基于连续的人脸图像帧训练数据和针对于是否说话特征的训练标签构建的模型。

需要说明的是，在Siamese网络模型中，在最后特征层后加了一层全连接层，以用来判断是否在说话。

相应的，为构建Siamese网络模型，在上述步骤S10之前，该视频剪辑方法还包括：

步骤A，获取连续的人脸图像帧，并将所述连续的人脸图像帧作为模型训练数据；

在本实施例中，获取连续的人脸图像帧，并将该连续的人脸图像帧作为模型训练数据。

在一实施例中，由于相近帧的内容相似，因此可每隔k帧选一人脸图像帧，并共选择m帧作为一个模型训练数据(训练样本)，即一个训练样本为x_i＝{T₁，T_1+K，...，T_1+mk},其中，k可根据实际需要进行设定，例如4、5、6等，m也可根据实际需要进行设定，例如6、7、8等，此处不作限定。

步骤B，基于是否说话的特征对所述模型训练数据进行样本标注，得到模型训练标签；

步骤C，基于所述模型训练数据和所述模型训练标签，构建Siamese网络模型，以供基于所述Siamese网络模型对人脸图像进行说话动作识别。

在本实施例中，基于是否说话的特征对模型训练数据进行样本标注，得到模型训练标签。具体的，标注模型训练数据在说话或不在说话。最后，基于模型训练数据和模型训练标签，构建Siamese网络模型，以供基于Siamese网络模型对人脸图像进行说话动作识别。

进一步地，上述步骤C之前，该视频剪辑方法还包括：

步骤D，基于分类损失函数及反对比损失函数，构建序列反对比损失函数，所述分类损失函数为

所述反对比损失函数为

其中，

在本实施例中，基于分类损失函数及反对比损失函数，构建序列反对比损失函数。其中，分类损失函数及反对比损失函数与原有的Siamese网络模型均不相同。

需要说明的是，分类损失函数为

其中，t_i为模型训练标签对应的真实标签，即模型训练数据对应的真实说话特征，y_i为模型训练标签。

此外，还需要说明的是，反对比损失函数为

其中，

s_i为第i个维度上视频特征的方差，n为视频特征的维度个数，y＝1表示在说话，y＝0表示不在说话，margin为预设阈值，该margin的值可以根据实际需要进行设定，例如34、35、36等，此处不作限定。

具体的，上述一个模型训练数据(训练样本)的人脸图像帧数量为m，s_i为第i个维度上m个视频特征的方差，即一个训练样本中各个人脸图像帧在同一纬度上的方差。例如n为1024，即一个人脸图像帧包括1024个维度，此时需分别分析1024个维度上的m个视频特征的方差。

可以理解，y＝1表示在说话，说话时嘴部运动丰富，因此视频帧特征之间不相似，方差d越大，损失越小。其中，margin的物理意义表示，不相似特征的方差最大值，设置margin是因为d无穷大时，公式值太大，所以，当d大到等于margin时，认为这种不相似程度已经够了，损失为0。此外，y＝0表示不在说话，嘴部基本不动，视频特征相似，方差d越小，损失越小。

相应的，上述步骤C包括：

步骤C1，基于所述模型训练数据、所述模型训练标签和所述序列反对比损失函数，构建Siamese网络模型。

最后，基于模型训练数据、模型训练标签和序列反对比损失函数，构建Siamese网络模型，以供基于Siamese网络模型对人脸图像进行说话动作识别。其中，序列反对比损失函数可提高Siamese网络模型的说话动作识别准确率及速率。

步骤S222，基于预设概率阈值对所述说话概率进行划分，得到说话时间序列。

在得到说话概率之后，基于预设概率阈值对该说话概率进行划分，得到说话时间序列。其中，说话时间序列为视频图像信息中显示的人员，进行说话的时间段。

在一实施例中，可采用滑动算术平均值滤波方法对说话概率进行滤波，该滑动算术平均值滤波方法的公式为

其中，M为滑动窗口长度，M可根据实际需要进行设定，例如4、5、6等，此处不作限定。在其他实施方式中，也可以采用其他滤波方法进行滤波，此处不作限定。

为便于理解，参考图4，图4为本发明实施例涉及的概率滤波示意图，其中，上图为每一帧是否在说话的概率，即上述得到的说话概率，下图为经过滤波后的概率图。

其中，预设概率阈值可根据实际需要进行设定，例如图4中采用的预设概率阈值为0.5。

本实施例中，利用改进的Siamese网络模型进行说话动作识别，相比于传统说话动作识别算法速度更快，从而提高了视频剪辑效率。同时，在Siamese网络模型的训练阶段中，采用序列反对比损失函数，利用其反对比约束保证不说话的视频帧之间特征是相似的，说话的视频帧之间特征区别大，从而提高说话动作识别的准确率，以提升视频剪辑的准确率，从而进一步提高视频剪辑效果。

进一步地，基于上述第一实施例，提出本发明视频剪辑方法的第三实施例。

在本实施例中，在上述步骤a21之后，该视频剪辑方法还包括：

步骤E，基于构建的人脸识别模型，对所述人脸图像进行人脸识别，得到所述人脸图像对应的身份信息，其中，所述人脸识别模型为基于人脸图像训练数据和针对于人脸类别特征的训练标签构建的模型；

在本实施例中，基于构建的人脸识别模型，对人脸图像进行人脸识别，得到人脸图像对应的身份信息，其中，人脸识别模型为基于人脸图像训练数据和针对于人脸类别特征的训练标签构建的模型。

需要说明的是，在人脸识别模型的训练阶段中，输入为上述人脸检测之后的人脸图像，即人脸图像训练数据，训练标签为人脸的分类，即为针对于人脸类别特征的训练标签。在测试阶段中，输入为视频经过人脸检测后的人脸图像，输出为人脸身份，即身份信息。

在一实施例中，人脸识别模型可通过insightface算法进行构建，以提高人脸识别准确率。在其他实施方式中，还可以采用其他人脸识别算法构建人脸识别模型，以进行人脸识别。

步骤F，基于所述身份信息将所述人脸图像进行划分，得到每个身份信息对应的人脸图像；

在本实施例中，基于身份信息将人脸图像进行划分，得到每个身份信息对应的人脸图像。例如，在一时间段内，视频图像信息中的人员为人员甲，在另一时间段内，视频图像信息中的人员为人员乙，则将得到的人脸图像根据对应的身份信息，分为人员甲的人脸图像和人员乙的人脸图像，以便后续得到每个身份信息对应的说话时间序列，即分别得到人员甲的说话时间序列和人员乙的说话时间序列，以便后续划分得到的音视频片段为单一身份信息对应的视频片段，即一个人员对应一个音视频片段。

相应的，上述步骤a22包括：

步骤a223，基于构建的说话动作识别模型，对所述每个身份信息对应的人脸图像分别进行说话动作识别，得到每个身份信息对应的说话时间序列。

在本实施例中，基于构建的说话动作识别模型，对每个身份信息对应的人脸图像分别进行说话动作识别，得到每个身份信息对应的说话时间序列，以便后续划分得到的音视频片段为单一身份信息对应的视频片段，即后续剪辑的音视频片段以不同身份进行区分，从而提高视频剪辑的粒度。

本实施例中，通过构建的人脸识别模型，对人脸图像进行识别，以得到对应的身份信息，从而根据身份信息对视频图像信息的人员进行区分，以使最后得到的音视频片段的剪辑粒度更为细腻，从而进一步提高了视频剪辑效果。

进一步地，基于上述第一实施例，提出本发明视频剪辑方法的第四实施例。

参照图5，图5为本发明视频剪辑方法第四实施例的流程示意图。

在本实施例中，该视频剪辑方法还包括：

步骤S40，获取所述音视频片段的音频信息；

在一实施例中，提取音视频片段的视频图像信息和音频信息，以供获取音视频片段的音频信息。具体的，可以将音视频片段划分为视频图像信息和音频信息。在其他实施方式中，也可以直接提取音视频片段的音频信息即可。

在另一实施例中，基于上述获取得到的说话时间序列，从待剪辑音视频的音频信息中定位到相应的音频信息作为音视频片段的音频信息。

步骤S50，基于构建的语音识别模型，对所述音频信息进行语音识别，得到对应的文字信息，其中，所述语音识别模型为基于音频训练数据和针对于文字特征的训练标签构建的模型；

在本实施例中，基于构建的语音识别模型，对音频信息进行语音识别，得到对应的文字信息。其中，该语音识别模型为基于音频训练数据和针对于文字特征的训练标签构建的模型。

需要说明的是，在语音识别模型的训练阶段中，输入为一段段音频，即音频训练数据，训练标签为对应的文字，即为针对于文字特征的训练标签。在测试阶段中，输入为音频信息，输出为对应的文字信息。

在一实施例中，可以采用deepspeech算法构建语音识别模型。在其他实施方式中，也可以采用其他算法构建语音识别模型，以进行语音识别。

步骤S60，确定当前应用场景，并基于所述当前应用场景获取对应的专业词库；

在本实施例中，首先，确定当前应用场景，然后，基于当前应用场景获取对应的专业词库。其中，专业词库用于划分不同类别的文字词库。例如，确定当前应用场景为理财教育类直播场景，则该专业词库为财经类专业词库。

在一实施例中，若本发明视频剪辑方法应用于一固定场景，则针对该场景建立对应的专业词库。同时，在步骤S60中可直接获取该专业词库，用于后续检测文字信息的信息量。

在另一实施例中，也可以通过待剪辑音视频的视频图像信息或音频信息确定当前应用场景，具体的，需构建场景识别模型，并构建分类器以区分识别应用场景。然后，基于该应用场景可获取对应的专业词库。其中，专业词库在之前已构建完成，并与应用场景一一对应形成映射关系。在其他实施方式中，也可以直接通过文字信息确定对应的专业词库，此处不再一一赘述。

步骤S70，基于所述专业词库，检测所述文字信息的信息量；

在本实施例中，基于当前应用场景对应的专业词库，检测文字信息的信息量。具体的，根据专业词库，确定命中次数，然后，根据该命中次数，确定信息量。

在一实施例中，可以通过

计算信息量I，其中，k为该文字信息命中专业词库F的次数，w为该文字信息总共的词数，t为该音视频片段的时长，a为时长阈值，该时长阈值a可以根据实际情况进行设定，例如9、10、11等，此处不作限定。

在一实施例中，若待剪辑音视频已经具备字幕，则直接提取该字幕作为文字信息，无需上述语音识别过程。

步骤S80，基于所述信息量及预设信息量阈值，对所述音视频片段进行剪辑。

在本实施例中，基于信息量及预设信息量阈值，对音视频片段进行剪辑。具体的，将信息量小于预设信息量阈值的音视频片段去除，保留信息量大于或等于预设信息量阈值的音视频片段，以达到精华视频剪辑的目的。其中，预设信息量阈值可以根据实际情况进行设定。

在一实施例中，若整个音视频片段的信息量小于预设信息量阈值，则将整个音视频片段进行删除。在其他实施方式中，也可以删除音视频片段中的某个分段视频，即删除其中信息量小于预设信息量阈值的分段视频。

本实施例中，通过检测视频的信息量，以将信息量作为视频剪辑的重要参考，可以有效剔除冗余内容，从而进一步提高视频剪辑的粒度，以进一步提高视频剪辑效果。

本发明还提供一种视频剪辑装置。

参照图6，图6为本发明视频剪辑装置第一实施例的功能模块示意图。

在本实施例中，所述视频剪辑装置包括：

图像获取模块10，用于获取待剪辑音视频的视频图像信息；

序列确定模块20，用于基于所述视频图像信息，确定说话时间序列；

视频切分模块30，用于基于所述说话时间序列对所述待剪辑音视频进行切分，得到音视频片段。

其中，上述视频剪辑装置的各虚拟功能模块存储于图1所示视频剪辑设备的存储器1005中，用于实现视频剪辑程序的所有功能；各模块被处理器1001执行时，可实现视频剪辑功能。

进一步地，所述序列确定模块20包括：

人脸检测单元，用于基于构建的人脸检测模型，对所述视频图像信息的每一帧图像进行人脸检测，得到人脸图像，其中，所述人脸检测模型为基于视频帧图像训练数据和针对于人脸框位置特征的训练标签构建的模型；

动作识别单元，用于基于构建的说话动作识别模型，对所述人脸图像进行说话动作识别，得到说话时间序列。

进一步地，所述动作识别单元包括：

动作识别子单元，用于基于构建的孪生网络Siamese网络模型，对所述人脸图像进行说话动作识别，得到每一帧人脸图像的说话概率；

概率划分子单元，用于基于预设概率阈值对所述说话概率进行划分，得到说话时间序列。

进一步地，所述视频剪辑装置还包括：

图像获取模块，用于获取连续的人脸图像帧，并将所述连续的人脸图像帧作为模型训练数据；

样本标注模块，用于基于是否说话的特征对所述模型训练数据进行样本标注，得到模型训练标签；

模型构建模块，用于基于所述模型训练数据和所述模型训练标签，构建Siamese网络模型，以供基于所述Siamese网络模型对人脸图像进行说话动作识别。

进一步地，所述视频剪辑装置还包括：

函数构建模块，用于基于分类损失函数及反对比损失函数，构建序列反对比损失函数，所述分类损失函数为

所述反对比损失函数为

其中，

相应的，所述模型构建模块包括：

模型构建单元，用于基于所述模型训练数据、所述模型训练标签和所述序列反对比损失函数，构建Siamese网络模型。

进一步地，所述序列确定模块20还包括：

人脸识别单元，用于基于构建的人脸识别模型，对所述人脸图像进行人脸识别，得到所述人脸图像对应的身份信息，其中，所述人脸识别模型为基于人脸图像训练数据和针对于人脸类别特征的训练标签构建的模型；

图像划分单元，用于基于所述身份信息将所述人脸图像进行划分，得到每个身份信息对应的人脸图像；

相应的，所述动作识别单元包括：

动作识别子单元，用于基于构建的说话动作识别模型，对所述每个身份信息对应的人脸图像分别进行说话动作识别，得到每个身份信息对应的说话时间序列。

进一步地，所述视频剪辑装置还包括：

音频获取模块，用于获取所述音视频片段的音频信息；

语音识别模块，用于基于构建的语音识别模型，对所述音频信息进行语音识别，得到对应的文字信息，其中，所述语音识别模型为基于音频训练数据和针对于文字特征的训练标签构建的模型；

词库获取模块，用于确定当前应用场景，并基于所述当前应用场景获取对应的专业词库；

信息量检测模块，用于基于所述专业词库，检测所述文字信息的信息量；

视频剪辑模块，用于基于所述信息量及预设信息量阈值，对所述音视频片段进行剪辑。

其中，上述视频剪辑装置中各个模块的功能实现与上述视频剪辑方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有视频剪辑程序，所述视频剪辑程序被处理器执行时实现如以上任一项实施例所述的视频剪辑方法的步骤。

本发明计算机可读存储介质的具体实施例与上述视频剪辑方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频剪辑方法，其特征在于，所述视频剪辑方法包括以下步骤：

获取待剪辑音视频的视频图像信息；

基于所述视频图像信息，确定说话时间序列；

2.如权利要求1所述的视频剪辑方法，其特征在于，所述基于所述视频图像信息，确定说话时间序列的步骤包括：

3.如权利要求2所述的视频剪辑方法，其特征在于，所述基于构建的说话动作识别模型，对所述人脸图像进行说话动作识别，得到说话时间序列的步骤包括：

4.如权利要求3所述的视频剪辑方法，其特征在于，所述获取待剪辑音视频的视频图像信息的步骤之前，所述视频剪辑方法还包括：

5.如权利要求4所述的视频剪辑方法，其特征在于，所述基于所述模型训练数据和所述模型训练标签，构建Siamese网络模型，以供基于所述Siamese网络模型对人脸图像进行说话动作识别的步骤之前，所述视频剪辑方法还包括：

所述反对比损失函数为

其中，

6.如权利要求2所述的视频剪辑方法，其特征在于，所述基于构建的人脸检测模型，对所述视频图像信息的每一帧图像进行人脸检测，得到人脸图像，其中，所述人脸检测模型为基于视频帧图像训练数据和针对于人脸框位置特征的训练标签构建的模型的步骤之后，所述视频剪辑方法还包括：

7.如权利要求1至6中任一项所述的视频剪辑方法，其特征在于，所述视频剪辑方法还包括：

获取所述音视频片段的音频信息；

基于所述专业词库，检测所述文字信息的信息量；

8.一种视频剪辑装置，其特征在于，所述视频剪辑装置包括：

图像获取模块，用于获取待剪辑音视频的视频图像信息；

9.一种视频剪辑设备，其特征在于，所述视频剪辑设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频剪辑程序，所述视频剪辑程序被所述处理器执行时实现如权利要求1至7中任一项所述的视频剪辑方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有视频剪辑程序，所述视频剪辑程序被处理器执行时实现如权利要求1至7中任一项所述的视频剪辑方法的步骤。