CN113852858A

CN113852858A - 视频处理方法及电子设备

Info

Publication number: CN113852858A
Application number: CN202110956050.7A
Authority: CN
Inventors: 詹鹏鑫; 刘奎龙; 杨昌源; 陈羽飞; 王建光
Original assignee: Alibaba China Co Ltd
Current assignee: Hangzhou Alibaba Overseas Network Technology Co ltd
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-12-28

Abstract

本申请实施例公开了视频处理方法及电子设备，所述方法包括：根据接收到的视频处理请求，确定原始视频素材；根据接收到的视频处理请求，确定原始视频素材；通过对所述片段进行场景类别识别，确定各片段分别对应的类别标签；从所述多个片段中选择具有目标类别标签的多个目标片段，并通过对所述多个目标片段进行剪辑编排处理，生成目标视频。通过本申请实施例，能够以低成本提升工厂介绍等类别的视频的质量，提升用户获取信息的效率。

Description

视频处理方法及电子设备

技术领域

本申请涉及视频处理技术领域，特别是涉及视频处理方法及电子设备。

背景技术

随着短视频的快速兴起，电子商务信息系统中的短视频也是越来越多。其中，面向消费者用户的商品类视频主要以商品为核心，一般会有明确的商品主体，有较强的主体显著性，同时这种商品由于直接面向消费者，因此，整体质量较优。相比之下，工厂介绍类的视频主要是介绍商家工厂，视频不会聚焦于某一个主体，具有较强的开放性，可能需要从多个方面对工厂进行介绍，拍摄的对象可能包括厂房、生产线等等，因此，很多工厂介绍类的视频都存在质量比较差，用户获取信息的效率很低——较低等情况。

因此，如何提升工厂介绍类视频的质量，提升用户获取信息的效率，成为需要本领域技术人员解决的技术问题。

发明内容

本申请提供了视频处理方法及电子设备，能够以低成本提升工厂介绍等类别的视频的质量，提升用户获取信息的效率。

本申请提供了如下方案：

一种视频处理方法，包括：

根据接收到的视频处理请求，确定原始视频素材；

将所述原始视频素材分割为多个片段，其中，不同的片段对应不同的场景；

通过对所述片段进行场景类别识别，确定各片段分别对应的类别标签；

从所述多个片段中选择具有目标类别标签的多个目标片段，并通过对所述多个目标片段进行剪辑编排处理，生成目标视频并返回。

其中，所述原始视频素材包括：通过对目标空间场所和/或空间场所内外的设施进行拍摄所得的视频素材，所述目标空间场所包括用于开展生产活动或对外提供服务的场所。

其中，所述根据接收到的视频处理请求，确定原始视频素材，包括：

根据用户在发起所述视频处理请求时或之后上传的视频，确定所述原始视频素材。

其中，所述视频处理请求中包括关联的用户标识信息；

所述根据接收到的视频处理请求，确定原始视频素材，包括：

从所述用户标识信息关联的历史视频数据中，收集所述原始视频素材。

其中，所述历史视频数据包括：通过对所述用户所开展的视频直播活动进行视频录制获得的至少一个视频数据。

其中，所述将所述原始视频素材分割为多个片段，包括：

从所述原始视频素材中进行转场点识别，并根据所述转场点的位置，将所述原始视频素材分割为多个片段。

其中，所述将所述原始视频素材分割为多个片段之前，还包括：

通过对所述原始视频素材的画面质量进行判断，将画面质量不符合条件的视频内容过滤掉。

其中，所述通过对所述片段进行内容类别识别，确定所述片段对应的类别标签，包括：

利用预先训练的场景识别模型，对所述片段进行内容类别识别，以确定所述片段对应的类别标签；

所述场景识别模型包括基于深度学习的分类模型，所述分类模型的网络结构是在部分卷积计算、部分线性计算的网络结构基础上，结合残差网络以及注意力机制进行构建的。

其中，所述生成目标视频，包括：

确定目标剧情设计方案，所述目标剧情设计方案中包括多个目标类别标签及其排列顺序信息、时长信息；

根据所述目标剧情设计方案，从所述多个片段中选择具有所述目标类别标签的多个目标片段，并根据所述排列顺序信息、时长信息对所述多个目标片段进行剪辑处理，以生成目标视频。

其中，所述确定目标剧情设计方案，包括：

为用户提供可选的需求列表；

以便根据用户的选择的目标需求，以及预先保存的需求与剧情设计方案之间的对应关系，确定所述目标剧情设计方案。

其中，所述确定目标剧情设计方案，包括：

根据用户提交的剧情设计方案，确定所述目标剧情设计方案。

一种视频处理方法，包括：

提供用于提交视频处理请求的操作界面，所述操作界面中包括用于提交视频处理请求的操作选项；

通过所述操作选项接收到用户操作后，将视频处理请求提交到服务端，以便所述服务端将所述原始视频素材分割为多个片段，确定所述多个片段对应的场景类别的类别标签，并根据目标剧情设计方案，从所述多个片段中选择具有目标类别标签的多个目标片段，并进行剪辑编排处理后生成目标视频；

接收所述服务端返回的目标视频。

其中，所述操作界面中还包括用于提交原始视频素材的操作选项。

其中，所述操作界面中还包括可选的视频处理需求列表，以及用于对列表项进行选择的操作选项，以便根据用户选择的视频处理需求确定对应的目标剧情设计方案，所述目标剧情设计方案中包括多个目标类别标签及其排列顺序信息、时长信息，以用于根据所述目标剧情设计方案进行目标片段的选择、排序以及时长控制。

一种视频处理装置，包括：

原始视频素材确定单元，用于根据接收到的视频处理请求，确定原始视频素材；

片段分割单元，用于根据接收到的视频处理请求，确定原始视频素材；

类别标签确定单元，用于通过对所述片段进行场景类别识别，确定各片段分别对应的类别标签；

目标视频生成单元，用于从所述多个片段中选择具有目标类别标签的多个目标片段，并通过对所述多个目标片段进行剪辑编排处理，生成目标视频。

一种视频处理装置，包括：

操作界面提供单元，用于提供用于提交视频处理请求的操作界面，所述操作界面中包括用于提交视频处理请求的操作选项；

请求提交单元，用于通过所述操作选项接收到用户操作后，将视频处理请求提交到服务端，以便所述服务端将所述原始视频素材分割为多个片段，确定所述多个片段对应的场景类别的类别标签，并根据目标剧情设计方案，从所述多个片段中选择具有目标类别标签的多个目标片段，并进行剪辑编排处理后生成目标视频；

目标视频接收单元，用于接收所述服务端返回的目标视频。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项所述的方法的步骤。

一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

通过本申请实施例，针对原始视频素材，可以首先将原始视频素材分割为多个片段，然后，可以通过对所述片段进行场景类别识别，确定所述片段对应的类别标签。进而，可以从所述多个片段中选择具有目标类别标签的多个目标片段，并对目标片段进行剪辑编排处理，以生成目标视频。这样，可以实现对原始视频素材的自动剪辑，可以以更低的成本生产出高质量的短视频，并提升用户获取信息的效率。

另外，在具体对视频进行自动剪辑的过程中，还可以使用快速识别轻量级分类模型，实现对视频片段的分类，这种模型通过在部分卷积计算、部分线性计算的网络结构基础上，结合残差网络以及注意力机制，具有低延迟，低显存占用的特点，具体的计算过程可以迁移到移动端使用。

在具体进行剪辑编排时，还可以按照预先生成的目标剧情设计方案来进行，通过这种目标剧情设计方案对目标类别标签及其排列顺序信息、时长信息进行定义，从而可以使得最终生产出的目标视频具有更好的展示效果。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的系统架构的示意图；

图2是本申请实施例提供的第一方法的流程图；

图3是本申请实施例提供的场景类别示意图；

图4是本申请实施例提供的处理流程示意图；

图5是本申请实施例提供的第二方法的流程图；

图6是本申请实施例提供的第一装置的示意图；

图7是本申请实施例提供的第二装置的示意图；

图8是本申请实施例提供的电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

首先需要说明的是，本申请发明人在实现本申请的过程中发现，通常情况下，关于工厂介绍类的视频，一般是由商家进行拍摄，例如，可能是在直播过程中，跟随主播的镜头对工厂的厂房、生产线等进行拍摄，另外，在直播的过程中还可以对视频进行录制，使得用户可以随时进行回看，等等。但是，这种录制的视频可能很长(例如，十几分钟甚至半小时或更长)，并且重点内容可能不聚焦，需要用户花费很长时间去观看，才能够将相关的信息传达给用户。但是，在用户的时间成本日益升高的今天，越来越多的用户可能不愿意花费过多的时间来观看一段很长的视频。为了提升视频质量，工厂方可以请专门的拍摄团队进行视频拍摄，包括导演、摄像人员，等等，以便对视频的画面质量、时长、场景等进行控制。但是，这会使得视频生产成本很高。

基于上述情况，在本申请实施例中，可以为工厂方等商家提供视频处理功能，在某商家需要生产一段用于宣传等目的的短视频时，可以利用该功能来实现。具体的，商家可以提供原始视频素材，之后，该功能便可以对原始视频素材进行处理，包括将其分割为多个不同的片段，每个片段可以对应一个具体的场景，并对具体片段的场景类别进行识别，为片段添加具体的类别标签。另外，还可以从所述多个片段中选项具有目标类别标签的多个目标片段，并通过对所述多个目标片段进行剪辑编排处理，生成目标视频。

其中，具体在对所述多个目标片段进行剪辑编排处理时，可以首先确定出目标剧情设计方案，这种设计方案可以起到类似于“剧本”的作用，可以对目标视频中所需的目标类别标签及其排列顺序信息、时长信息等进行定义。也就是说，可以对各个镜头分别放何种场景的视频内容，以及各个场景如何排序，分别播放多长时间等进行编排。进而可以按照这种目标剧情设计方案，从分割出的多个片段中，选取出符合具体目标类别标签的片段，然后，按照顺序、时长等进行剪辑，生成目标视频。

这种目标视频通常可以是时间比较短的，但是主要内容比较突出，可以在短时间内实现对主要内容的集中展示，从而提升用户获取信息的效率。其中，本申请实施例提供的上述处理过程可以通过自动化的方式来实现，包括对视频片段的分割，以及对片段类别的识别等等，期间可以用到深度学习算法模型等，通过这种方式，可以自动从已有的视频素材中，进行关键视频内容的抽取以及剪辑等处理，从而获得更高质量的短视频，并且不需要人工的干预，因此，可以以较低的成本为商家用户生产出较高质量的短视频，以便于其投放到具体的短视频平台，或者投放到电子商务信息系统中，等等。

从系统架构角度而言，如图1所示，本申请实施例可以为工厂侧的商家用户提供视频处理平台，该平台可以提供服务端以及客户端/网页端。例如，在用户侧，可以以网页等形式为用户提供用于发起视频处理请求的界面，这样，用户可以通过访问具体的网页来提交具体的视频处理请求，同时还可以上传原始视频素材，或者提出具体的需求信息，等等。之后，可以由服务端对原始视频素材进行处理，包括片段的分割，场景类别的识别，以及片段的剪辑等处理，其中，在进行场景类别识别时，还可以使用预先训练完成的分类模型来进行识别，等等。最终生成目标视频之后返回给用户，从而为用户提供“一键”生成短视频等体验。

或者，另一种方式下，还可以将本申请实施例提供的视频处理功能封装为服务接口，这样，相关的应用系统或者功能模块等，可以通过这种服务接口对视频处理功能发起调用，相应的，在接收到具体的调用请求之后，也可以确定出原始视频素材，并执行片段的分割，场景类别的识别，以及片段的剪辑等处理，生成目标视频后可以返回给对应的应用系统或者功能模块，等等。

下面对本申请实施例提供的具体实现方案进行详细介绍。

实施例一

首先，该实施例一从服务端的角度，提供了一种视频编辑处理方法，参见图2，该方法可以包括：

S201：根据接收到的视频处理请求，确定原始视频素材。

具体的，视频处理请求可以有多种发起方式。例如，在一种方式下，可以是由商家等用户来发起的，具体的，用户可以通过具体的网页或者客户端界面等，提交具体的视频处理请求。其中，具体实现时，还可以在提交视频处理请求的同时或者之后，上传具体的视频素材，此时，可以将用户上传的视频确定为原始视频素材。也就是说，用户可以预先拍摄一段或者多段视频，然后，针对这些视频发起视频处理请求，因此，可以直接将用户上传的视频作为原始视频素材。

或者，用户也可以不必上传具体的视频素材，此时，服务端可以从具体的用户标识关联的历史视频数据中，收集所述原始视频素材。例如，其中一种具体的历史视频数据可以包括：通过对所述用户所开展的视频直播活动进行视频录制获得的视频数据。也就是说，在实际应用中，商家等用户经常会通过电子商务信息系统开展直播等活动，通过视频直播的方式对工厂的情况等进行更直观的讲解介绍。在此过程中，可以对直播视频进行录制。但是，由于直播的时间往往会比较长，并且，在直播过程中可能还会涉及到主播与观看者之间的互动等等，因此，视频中可能存在很多信息量比较小的或者无用的内容，但同时，这种视频中也会存在一些很有价值的内容，例如，包括对工厂生产线拍摄的视频内容，等等。因此，本申请实施例可以将这种视频作为原始视频素材，通过片段分割，场景类别识别，剪辑等处理，可以从中将更有价值、质量更好的内容提取出来，重新组合生成更高质量的短视频。当然，在实际应用中，服务端收集的历史视频数据还可以包括商家用户在其官方网站、店铺页面等页面中发布的视频，等等。

另一种方式下，具体的视频处理请求也可以是由应用系统或者系统中的功能模块等，在具体进行数据处理或者对外提供服务的过程中，发起的视频处理请求。此时，发起具体的视频处理请求时，也可以直接提供待处理的原始视频素材，或者，也同样可以提供具体的商家用户标识等信息，由服务端进行收集。

需要说明的是，在本申请实施例中，一个典型的应用场景是空间场所相关的介绍类视频的处理，这里的空间场所具体可以是指用于开展生产活动或对外提供服务的场所，包括工厂，影棚，餐厅，体育场馆，等等。具体的原始视频可以是通过对这种空间场所和/或空间场所的内外设施进行拍摄，所得的视频素材。当然，在实际应用中，也可以在其他应用场景中使用该方案进行视频处理，因此，具体的原始视频素材也可以有其他的获得方式。

S202：将所述原始视频素材分割为多个片段，其中，不同的片段对应不同的场景。

在确定出原始视频素材之后，可以将原始视频素材分割为多个片段，每个片段可以对应不同的场景。具体实现时，可以首先从所述原始视频素材中进行转场点识别，转场点具体就是两个不同场景之间的分割点，例如，某个原始视频素材中，先是关于某房间内部场景的视频内容，之后在某时刻改为对房间外部场景进行介绍，该时刻就是一个转场点。然后，根据所述转场点的位置，将所述原始视频素材分割为多个片段。通过这种转场点的识别，可以将一个原始视频素材分割成多个片段，每个片段可以与一个场景对应。

当然，在具体实现时，为了进一步提升最终生成的目标视频的质量，在对视频素材进行分割之前，还可以首先对原始视频素材中的视频内容进行过滤，可以将其中画面质量比较差的视频内容过滤掉。例如，镜头抖动的，过曝的，背景过于混乱的，光线比较差以至于整体画面比较暗的，等等。

其中，关于转场点识别，以及具体根据画面质量对视频内容的过滤等，都可以利用据预先生成的算法模型来实现自动化的处理。例如，具体转场点识别的方法可以有多种，例如，可以通过计算图像帧之间的差别的方法来进行识别，也即，可以计算相邻两帧之间的总帧差，如果总帧差大于某阈值，则认为镜头发生了突变，进而识别为转场点。或者，还可以基于直方图之间的相似度，判断两个图像之间的相似度，进而根据这种图像之间的相似度来进行转场点识别，等等。具体还可以采用其他多种具体的算法来实现，这里不再进行详述。

S203：通过对所述片段进行场景类别识别，确定所述各片段分别对应的类别标签。

在将原始视频素材分割为多个片段之后，可以对这些片段分别进行场景类别识别，通过这种方式，可以为多个片段确定出对应的类别标签。

其中，具体的类别标签可以是根据具体的视频素材中的镜头可能涉及到的场景，预先进行定义的。这种定义出的类别标签可以用于对具体片段所涉及到的场景进行描述，并且，还可以用于对训练样本进行标注(例如，某训练样本为某图片，可以为该图片标注上具体所属的类别标签)，利用这种训练样本对分类模型完成训练之后，分类模型便可以输出具体片段属于具体类别标签的概率。

其中，对于工厂介绍类的视频，由于工厂场景相比面向消费者的商品而言，拍摄环境及对象更加复杂，同时专业性较高，因此，如果标注人员直接进行标注可能会存在一定的困难性。因此，在本申请实施例中，具体定义出的类别标签可以如图3所示的树状结构标识。具体的，可以分为室外、非室外、其他等几大类。其中，室外类别下还可以分为工厂大门、大楼等；非室外类别下还可以分为生活办公以及非生活两大类；生活办公类别下可以分为办公室、公司logo、会议室等；非生活类别下可以分为仓库、纯流水线、生产车间、设备外观展示、操作演示等；仓库类别下还可以按照包装方式，进一步细分为货架、纸箱、袋装、材料直接堆砌等；纯流水线类别下还可以进一步细分为线式、旋转式等；设备外观展示类别下还可以进一步细分为整体外观、局部细节，等等。

这样，在对训练样本进行标注时，标注人员便可以根据图3所示的树形结构，为训练样本选择适合的场景类别，并对训练样本进行标注。多个训练样本都按照此方式标注了具体的类别标签之后，可以用于对分类模型进行训练。为了让标注更加准确，还可以采用三人同时标注，取至少两人一样的标注结果作为具体样本的标注结果；标注完后，还可以再做一次二轮清洗，过滤掉一些不符合要求的图片，最后将剩下的样本可以作为训练模型的原始数据。例如，在实际应用中，一共收集20万余张的工厂图片，筛选后最终得到了2万张用于训练的样本图像，等等。对具体训练样本所属的训练完成之后，向分类模型中输入一个片段，即可根据对该片段中多帧图像的特征，识别出该片段属于各种场景的概率。

其中，关于分类模型，具体在网络结构的选择方面也可以有多种方式，而在本申请实施例中，由于需要对多个片段中的多帧图像分别进行识别处理，因此，如果选择的网络结构不当，则涉及到的计算量可能会很大，最终影响整个计算过程的耗时。换言之，在选择分类模型的网络结构时，首要考虑的是低显存占用和低延迟，低显存占用可以减少显卡的资源占用，低延迟可以提升整个视频剪辑的速度；在此之上，再考虑模型的分类准确率问题，以此实现在轻量级的模型上提升模型的分类性能。

为此，在具体实现时，本申请实施例可以采用基于深度学习的分类模型，实现对片段的分类。其中，具体的分类模型的网络结构可以是在部分卷积计算、部分线性计算的网络结构基础上，结合残差网络以及注意力机制进行构建的。

其中，部分卷积计算、部分线性计算的网络结构可以有多种，例如，Ghost模型就是其中一种。其核心思想是认为现有卷积模型中得到的特征图是冗余的，这些冗余的特征图可以通过其它的特征图进行一个简单的线性计算(cheap operation)直接得到，而不需要全部进行普通的卷积计算。也即，是先只做一部分普通卷积得到中间的输出，然后在中间输出的基础上做一个简单的线性计算得到剩下的特征层。并且，与全部做普通的卷积计算的结构相比，可以得到相同通道数量的特征层。也就是说，这种部分卷积计算、部分线性计算的网络结构可以在使用较少参数的情况下，保持较好的性能，具有轻量高效的特点。

在与残差网络结构相结合时，一种方式下，可以将普通的ResNet(Deep ResidualNetwork，深度残差网络)模块中的卷积层直接替换成Ghost模型，该模块的输入输出的维度不变。

Ghost模型和残差结构都可以在在保持性能的情况下减少参数，而为了在增加少量参数的情况下提升性能，还可以引入注意力机制。但是，原始的注意力机制中，只有通道注意力层，该通道注意力层的思想还是以特征冗余为基础。前面的Ghost模型关注的是如何减少特征的通道数量从而减少参数数量；而通道注意力层关注的是通道之间的关系，有的特征是比较重要的特征，有的特征则不重要，通过增加一个全局系数来学习特征之间的权重，使重要特征层得到表达，抑制非重要特征层的输出。而为了得到该全局系数，原始的方式是，通过全局池化操作，将每个通道的(H，W)降维到(1，1)。

为了进一步提升性能，还可以将原有通道注意力层的全局池化替换成MaxPool(最大池化)+AvgPool(平均池化)的并行；另外，还可以增加空间注意力机制，这样，可以有两个注意力层，分别为通道注意力层，以及空间注意力层；其中，通道注意力层关注的是哪个通道更重要，将通道信息的权重广播到所有空间上；空间注意力层关注的是空间中的哪个地方更重要，将空间信息的权重广播到所有通道上。具体做法是先沿着通道进行[MaxPool,AvgPool]来聚合通道信息，然后接一个卷积和一个sigmoid函数(S型生长曲线，常被用作神经网络的激活函数，将变量映射到0～1之间)得到一个(H，W，1)空间注意力的全局系数。

由于浮点运算数决定每次推理浮点计算次数，浮点运算数越大，对机器硬件算力性能要求越高，每次推理计算时间越长，显卡的并行性能就会降低；而经过上述网络结构，整体模型的浮点运算数只有0.1565G，对于显卡的并行性能有着很好的支持。

另外，模型参数数量决定了模型占用显存的大小，模型参数数量越大，则占用显存越多。而本申请实施例所使用的网络结构中，由于使用了部分卷积计算、部分线性计算的网络结构并结合残差网络，可以在较少参数下获得较好的性能。虽然注意力机制的加入可能增加少量参数，但是，整体上的参数数量仍然是比较少的，因此，可以节省对显存的占用，甚至可以迁移到移动端使用。

S204：从所述多个片段中选择具有目标类别标签的多个目标片段，并通过对所述多个目标片段进行剪辑编排处理，生成目标视频。

在确定出多个片段对应的类别标签之后，可以从多个片段中选项具有目标类别标签的多个目标片段，并通过对所述多个目标片段进行剪辑编排处理，生成目标视频。具体实现时，为了便于实现上述剪辑编排处理，或者，为了使得最终生成的目标视频具有更高的质量，还可以确定出目标剧情设计方案，按照这种预先设定好的剧情设计方案，进行目标片段的选择，以及排序、时长控制等处理。在实际应用中，可以将这种剧情设计方案称为“剧本”，也即可以对具体目标视频中对类别标签的选择、排序、时长控制等进行设计，以获得较好的展示效果。

其中，具体的剧情设计方案可以由商家用户提供，例如，在商家用户发起具体的视频处理请求时，还可以同时提供剧情设计方案信息，这样，在进行片段分割以及类别识别之后，可以利用商家用户提供的剧情设计方案，对片段进行选取及剪辑等处理。

或者，在另一种方式下，也可以是在服务端预先保存多种可选的剧情设计方案，以满足商家用户的多种需求。这样，在用户提交具体的视频处理请求时，还可以将多种可选的需求信息展示给用户，用户选择某种需求之后，再根据需求与剧情设计方案之间的对应关系，确定出目标剧情设计方案。例如，具体的视频处理需求可以包括：展示车间研发实力，展示工厂环境，展示工厂规模，等等。各种不同的需求可以对应不同的剧情设计方案，具体的剧情设计方案中可以包括对各个镜头的设计，例如，各个镜头依次播放哪个场景类别标签的视频内容，各个镜头的时长，等等。

需要说明的是，关于具体的剧情设计方案，可以是由人工方式进行设计的，在设计时，可以使用自然语言进行描述，之后，再通过对自然语言进行结构化处理，转换成计算机程序能够识别的语言。或者，在实际应用中，还可以提供用于生成剧情设计方案的工具，这种工具中可以提供用于新建剧情设计方案的选择，在选择新建剧情设计方案后，可以对具体剧情设计方案进行命名，例如，具体可以根据所能满足的需求对剧情设计方案进行命名，等等。之后，还可以提供用于对各种类别标签进行选择、排序、设定时长等操作的选项。完成具体的选择操作之后，可以直接生成结构化的计算机程序语言表达的剧情设计方案，并保存具体名称等信息。

另外需要说明的是，如果请求方没有提供具体的剧情设计方案，也没有提出具体的需求等信息，则还可以将系统默认的剧情设计方案作为目标剧情设计方案。

在确定出目标剧情设计方案之后，便可以从所述多个片段中选择具有所述目标类别标签的多个目标片段，并根据所述排列顺序信息、时长信息对所述多个目标片段进行剪辑处理，以生成目标视频。生成的目标视频可以返回给请求方用户，或者返回给发起请求的应用系统或功能模块，等等。

例如，某目标剧情设计剧本中需要7个镜头，每个镜头对应的目标类别标签依次为：工厂大门、logo、生产车间、流水线、设备整体外观、设备局部细节、仓库等，每个镜头的时长为3秒。这样，可以从之前分割出的多个片段中分别找出带有上述类别标签的多个目标片段，再对多个目标片段进行剪辑连接，生成总时长为20秒左右的短视频，等等。

为了便于更好地理解本申请实施例提供的技术方案，下面通过对工厂介绍类视频进行处理为例，对本申请实施例中的视频处理流程进行介绍。参见图4，具体可以包括以下步骤：

步骤1：从工厂视频素材库中确定出原始视频素材；

步骤2：对原始视频素材进行质量过滤，将画面质量不符合要求的视频素材或内容过滤掉；

步骤3：利用片段分割模型，对视频素材进行分割，得到多个片段，分别为片段1、片段2……片段n；

步骤4：利用工厂场景快速识别轻量级分类模型，为具体的片段添加类别标签，具体可以以片段1：标签1，片段2：标签2……片段n：标签n等形式进行表达。当然，具体实现时，可能存在部分片段无法识别出具体的类别标签的情况，可以将这种片段丢弃，也即，不会出现在最终的目标视频中；

步骤5：根据目标剧情设计方案，从多个片段中选择符合该目标剧情设计方案的多个目标片段，并按照方案中设定的时长对目标片段进行剪辑，按照方案中设定的顺序对目标片段进行排序等等，生成工厂短视频。

总之，通过本申请实施例，针对原始视频素材，可以首先将原始视频素材分割为多个片段，然后，可以通过对所述片段进行场景类别识别，确定所述片段对应的类别标签。进而，可以从所述多个片段中选择具有目标类别标签的多个目标片段，并对目标片段进行剪辑编排处理，以生成目标视频。这样，可以实现对原始视频素材的自动剪辑，可以以更低的成本生产出高质量的短视频，并提升用户获取信息的效率。

实施例二

该实施例二从商家等用户的客户端角度，提供了一种视频处理方法，其中，具体的客户端可以以独立的应用程序或者网页、轻应用等形式存在。具体的，参见图5，该方法可以包括：

S501：提供用于提交视频处理请求的操作界面，所述操作界面中包括用于提交视频处理请求的操作选项；

S502：通过所述操作选项接收到用户操作后，将视频处理请求提交到服务端，以便所述服务端将所述原始视频素材分割为多个片段，确定所述多个片段对应的场景类别的类别标签，并根据目标剧情设计方案，从所述多个片段中选择具有目标类别标签的多个目标片段，并进行剪辑编排处理后生成目标视频；

S503：接收所述服务端返回的目标视频。

具体实现时，所述操作界面中还包括用于提交原始视频素材的操作选项，这样，用户可以在提起具体的视频处理请求时，上传具体的原始视频素材。

另外，所述操作界面中还可以包括可选的视频处理需求列表(其中可以列出多种可选的需求，例如，展示车间研发实力，展示工厂环境，展示工厂规模，等等)，以及用于对列表项进行选择的操作选项，这样，服务端可以根据用户选择的视频处理需求确定对应的目标剧情设计方案，所述目标剧情设计方案中包括多个目标类别标签及其排列顺序信息、时长信息，以用于根据所述目标剧情设计方案进行目标片段的选择、排序以及时长控制。

关于实施例二中的未详述部分，可以参见实施例一中的记载，这里不再赘述。

需要说明的是，本申请实施例中可能会涉及到对用户数据的使用，在实际应用中，可以在符合所在国的适用法律法规要求的情况下(例如，用户明确同意，对用户切实通知，等)，在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。

与实施例一相对应，本申请实施例还提供了一种视频处理装置，参见图6，该装置可以包括：

原始视频素材确定单元601，用于根据接收到的视频处理请求，确定原始视频素材；

片段分割单元602，用于将所述原始视频素材分割为多个片段，其中，不同的片段对应不同的场景；

类别标签确定单元603，用于通过对所述片段进行场景类别识别，确定各片段分别对应的类别标签；

目标视频生成单元604，用于从所述多个片段中选择具有目标类别标签的多个目标片段，并通过对所述多个目标片段进行剪辑编排处理，生成目标视频。

具体的，所述原始视频素材确定单元具体可以用于：

其中，所述视频处理请求中包括关联的用户标识信息；

所述原始视频素材确定单元具体可以用于：

具体的，所述片段分割单元具体可以用于：从所述原始视频素材中进行转场点识别，并根据所述转场点的位置，将所述原始视频素材分割为多个片段。

另外，具体实现时，该装置还可以包括：

过滤单元，用于所述将所述原始视频素材分割为多个片段之前，通过对所述原始视频素材的画面质量进行判断，将画面质量不符合条件的视频内容过滤掉。

其中，类别标签确定单元具体可以用于：

具体的，所述目标视频生成单元具体可以包括：

剧情设计方案确定子单元，用于确定目标剧情设计方案，所述目标剧情设计方案中包括多个目标类别标签及其排列顺序信息、时长信息；

剪辑处理子单元，用于根据所述目标剧情设计方案，从所述多个片段中选择具有所述目标类别标签的多个目标片段，并根据所述排列顺序信息、时长信息对所述多个目标片段进行剪辑处理，以生成目标视频。

具体的，所述剧情设计方案确定子单元具体可以用于：

为用户提供可选的需求列表；

或者，所述剧情设计方案确定子单元具体可以用于：

与实施例二相对应，本申请实施例还提供了一种视频处理装置，参见图7，该装置可以包括：

操作界面提供单元701，用于提供用于提交视频处理请求的操作界面，所述操作界面中包括用于提交视频处理请求的操作选项；

请求提交单元702，用于通过所述操作选项接收到用户操作后，将视频处理请求提交到服务端，以便所述服务端将所述原始视频素材分割为多个片段，确定所述多个片段对应的场景类别的类别标签，并根据目标剧情设计方案，从所述多个片段中选择具有目标类别标签的多个目标片段，并进行剪辑编排处理后生成目标视频；

目标视频接收单元703，用于接收所述服务端返回的目标视频。

其中，所述操作界面中还可以包括用于提交原始视频素材的操作选项。

所述操作界面中还可以包括可选的视频处理需求列表，以及用于对列表项进行选择的操作选项，以便根据用户选择的视频处理需求确定对应的目标剧情设计方案，所述目标剧情设计方案中包括多个目标类别标签及其排列顺序信息、时长信息，以用于根据所述目标剧情设计方案进行目标片段的选择、排序以及时长控制。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

其中，图8示例性的展示出了电子设备的架构，具体可以包括处理器810，视频显示适配器811，磁盘驱动器812，输入/输出接口813，网络接口814，以及存储器820。上述处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，与存储器820之间可以通过通信总线830进行通信连接。

其中，处理器810可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器820可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器820可以存储用于控制电子设备800运行的操作系统821，用于控制电子设备800的低级别操作的基本输入输出系统(BIOS)。另外，还可以存储网页浏览器823，数据存储管理系统824，以及视频处理系统825等等。上述视频处理系统825就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器820中，并由处理器810来调用执行。

输入/输出接口813用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口814用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线830包括一通路，在设备的各个组件(例如处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，与存储器820)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，存储器820，总线830等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的视频处理方法及电子设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频处理方法，其特征在于，包括：

根据接收到的视频处理请求，确定原始视频素材；

2.根据权利要求1所述的方法，其特征在于，

所述原始视频素材包括：通过对目标空间场所和/或空间场所内外的设施进行拍摄所得的视频素材，所述目标空间场所包括用于开展生产活动或对外提供服务的场所。

3.根据权利要求1所述的方法，其特征在于，

所述视频处理请求中包括关联的用户标识信息；

4.根据权利要求3所述的方法，其特征在于，

所述历史视频数据包括：通过对所述用户所开展的视频直播活动进行视频录制获得的至少一个视频数据。

5.根据权利要求1所述的方法，其特征在于，

所述通过对所述片段进行内容类别识别，确定所述片段对应的类别标签，包括：

6.根据权利要求1所述的方法，其特征在于，

所述生成目标视频，包括：

7.根据权利要求6所述的方法，其特征在于，

所述确定目标剧情设计方案，包括：

为用户提供可选的需求列表；

8.一种视频处理方法，其特征在于，包括：

接收所述服务端返回的目标视频。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至8任一项所述的方法的步骤。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至8任一项所述的方法的步骤。