CN113825012A

CN113825012A - 视频数据处理方法和计算机设备

Info

Publication number: CN113825012A
Application number: CN202110626957.7A
Authority: CN
Inventors: 胡东方
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-12-21
Anticipated expiration: 2041-06-04
Also published as: CN113825012B

Abstract

本申请涉及一种视频数据处理方法和计算机设备。所述方法涉及人工智能，包括：按拍摄视角将待拆条视频进行切分，得到多个初始视频镜头，基于多个初始视频镜头对应的视频帧进行人脸图像帧提取和连续动作图像帧提取，得到人脸视频区域和连续相同动作视频区域。基于多个初始视频镜头对应的视频帧，沿时间轴合并具有相似内容的初始视频镜头，得到相似镜头，将人脸视频区域、连续相同动作视频区域、相似镜头进行合并，直至满足视频切分停止条件时，得到多个视频片段。采用本方法能够从多个角度对视频进行合并和自动拆分，生成用于在不同平台上进行播发的多个视频片段，无需人工进行视频拆分，避免人工拆分操作的误差，提升针对不同视频的拆分工作效率。

Description

视频数据处理方法和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种视频数据处理方法和计算机设备。

背景技术

随着计算机技术的发展，以及不同类型的视频节目大量出现，用户在从海量视频节目中获取感兴趣的视频节目时，往往需要消耗较多时间进行搜索、查看和了解。而随着用户习惯的变更，耗时费力的视频获取方式无法满足用户实际需求，不同平台上通过短视频实现数据传播的方式应运而生。

其中，短视频的获取方式大致包括拍摄时按照预设较短时长进行拍摄，以及对长视频进行拆分得到多段短视频两种方式。对于需要对长视频进行拆分以得到短视频而言，多采用人工拆分、剪辑以及配备字幕的方式，较为耗费时间，且仍存在人工误操作带来的拆分失误，得到的短视频无法准确包括精彩、关键视频帧的情况，需要重新进行拆分、剪辑等，因此传统的视频拆分处理方式工作效率仍然较为低下。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升视频拆分处理的工作效率的视频数据处理方法和计算机设备。

一种视频数据处理方法，所述方法包括：

按拍摄视角将待拆条视频进行切分，得到多个初始视频镜头；

基于所述多个初始视频镜头对应的视频帧进行人脸图像帧提取，得到人脸视频区域；

基于所述多个初始视频镜头对应的视频帧进行连续动作图像帧提取，得到连续相同动作视频区域；

基于所述多个初始视频镜头对应的视频帧，沿时间轴合并具有相似内容的所述初始视频镜头，得到相似镜头；

将所述人脸视频区域、连续相同动作视频区域以及相似镜头进行合并，直至满足视频切分停止条件时，得到多个视频片段。

在其中一个实施例中，所述基于所述多个初始视频镜头对应的视频帧进行人脸图像帧提取，得到人脸视频区域，包括：

对所述待拆条视频进行抽帧得到对应的多个图像帧；

基于所述多个图像帧进行人脸识别，从所述多个图像帧中提取人脸图像帧，并根据包含所述人脸图像帧的各视频帧，得到人脸视频区域。

在其中一个实施例中，所述基于所述多个初始视频镜头对应的视频帧进行连续动作图像帧提取，得到连续相同动作视频区域，包括：

基于各所述初始视频镜头对应的视频帧，进行连续动作图像帧提取；

根据所提取得到的连续动作图像帧，得到具有连续动作的聚类视频区域；

获取各所述连续动作图像帧的持续时间；

根据各所述连续动作图像帧的持续时间，从所述具有连续动作的聚类视频区域中，分别提取对应持续时间下相同动作的视频帧，得到连续相同动作视频区域。

在其中一个实施例中，所述方法还包括：

根据所述合并后的相似镜头对应的聚类视频区域大小，对所述预设合并步长进行调整，得到更新后的预设合并步长；

基于更新后的所述预设合并步长，重新确定预设相邻范围内的各相邻镜头；

返回执行所述根据各所述初始视频镜头的特征向量，计算得到当前初始视频镜头和所述预设相邻范围内的各相邻镜头间的相似度的步骤，直至所述合并后的相似镜头对应的聚类视频区域的各视频片段的时长符合预设时长要求。

一种视频数据处理装置，所述装置包括：

初始视频镜头生成模块，用于按拍摄视角将待拆条视频进行切分，得到多个初始视频镜头；

人脸视频区域生成模块，用于基于所述多个初始视频镜头对应的视频帧进行人脸图像帧提取，得到人脸视频区域；

连续相同动作视频区域生成模块，用于基于所述多个初始视频镜头对应的视频帧进行连续动作图像帧提取，得到连续相同动作视频区域；

相似镜头生成模块，用于基于所述多个初始视频镜头对应的视频帧，沿时间轴合并具有相似内容的所述初始视频镜头，得到相似镜头；

视频片段生成模块，用于将所述人脸视频区域、连续相同动作视频区域以及相似镜头进行合并，直至满足视频切分停止条件时，得到多个视频片段。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述视频数据处理方法和计算机设备中，通过按拍摄视角将待拆条视频进行切分，得到多个初始视频镜头，并基于多个初始视频镜头对应的视频帧进行人脸图像帧提取，得到人脸视频区域，以及进行连续动作图像帧提取，得到连续相同动作视频区域。而基于多个初始视频镜头对应的视频帧，沿时间轴合并具有相似内容的初始视频镜头，可得到相似镜头，进而将人脸视频区域、连续相同动作视频区域以及相似镜头进行合并，直至满足视频切分停止条件时，得到多个视频片段。该方法实现了考虑不同的角度，包括对包含人脸区域、连续相同动作区域的视频帧，和相似镜头进行合并，实现对各视频的自动拆分和剪辑，得到可用于在不同平台上进行播发的多个视频片段，也更符合用户使用习惯，由于无需人工进行视频拆分，可避免人工拆分操作的误差，减少因误差导致的反复审核和拆分，进一步提升针对不同视频进行拆分的工作效率。

附图说明

图1为一个实施例中视频数据处理方法的应用环境图；

图2为一个实施例中视频数据处理方法的流程示意图；

图3为一个实施例中具有相似内容的相似镜头示意图；

图4为一个实施例中得到合并后的相似镜头的流程示意图；

图5为一个实施例中视频数据处理方法的训练数据的生成示意；

图6为另一个实施例中视频数据处理方法的流程示意图；

图7为再一个实施例中视频数据处理方法的流程示意图；

图8为一个实施例中视频数据处理方法的算法流程示意图；

图9为一个实施例中得到多个视频片段的流程示意图；

图10为一个实施例中视频数据处理装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的视频数据处理方法，涉及了人工智能技术，其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。其中，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，人工智能软件技术中的计算机视觉技术(Computer Vision,CV)，是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

而随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服以及智能课堂等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请提供的视频数据处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。服务器104按拍摄视角将待拆条的视频进行切分，得到各初始视频镜头。其中，待拆条的视频可以从终端102本地存储的视频库中获取，也可以从服务器104对应的云端存储中获取。基于多个初始视频镜头对应的视频帧，进行人脸图像帧提取可得到人脸视频区域，而对多个初始视频镜头对应的视频帧进行连续动作图像帧提取，可得到连续相同动作视频区域，以及基于各初始视频镜头对应的视频帧，沿时间轴合并具有相似内容的初始视频镜头，得到相似镜头，进而将人脸视频区域、连续相同动作视频区域以及相似镜头进行合并，得到多个视频片段。服务器104可进一步将得到的多个视频片段发送至终端102，或存储至自身对应的云端存储中，以便后续投放至不同平台。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种视频数据处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，按拍摄视角将待拆条的视频进行切分，得到多个初始视频镜头。

具体地，由于完整的视频数据，大多需要采用不同的拍摄角度进行拍摄，以得到对拍摄目标的全面拍摄，其中，拍摄目标可以包括人物、动植物、车辆以及建筑等等。通过按照拍摄视角将待拆条的视频进行切分，可得到属于待拆条视频的多个初始视频镜头。

其中，由于实际拍摄场景的不同，相应的初始视频镜头的长度有所区别，比如直播间的视频可能1个小时同一人进行直播，则全场直播则属于同一个镜头，比如节奏较为紧凑的电影可能2秒内可切分得到5个镜头。

进一步地，在本实施例中，待拆条的视频可以是综艺节目视频，也可以是新闻节目视频，还可以是影视剧等，各种不同类型的视频。

步骤S204，基于多个初始视频镜头对应的视频帧进行人脸图像帧提取，得到人脸视频区域。

具体地，通过对待拆条视频进行抽帧得到对应的多个图像帧，并基于多个图像帧进行人脸识别，从多个图像帧中提取人脸图像帧。其中，人脸图像帧即为包含人脸区域的图像帧。进而可根据包含人脸图像帧的各视频帧，得到人脸视频区域。

其中，可采用预设抽帧方式待拆条的视频进行间隔抽帧，比如每隔两秒进行抽帧，得到相应的图像帧，并基于图像帧进行人脸识别，从多个图像帧中提取出人脸图像帧。

在一个实施例中，还可在提取得到具有人脸区域的图像帧后，根据包括人脸区域的图像帧所属的初始视频镜头，对具有人脸区域的图像帧进行扩展，得到扩展后的人脸视频区域。

具体地，由于间隔抽帧就会漏掉一些图像帧不会被识别，比如每间隔两秒抽帧得到多帧图像帧，对图像帧进行人脸识别后，比如获知第25帧，第50帧以及第75帧都是人脸区域，则可得到[25,75]的区间属于人脸区域。通过获取包括人脸区域的图像帧所属的初始视频镜头，比如对应的初始视频镜头对应的区间为[18,99]，则可得知包括人脸区域的图像帧所属的初始视频镜头为第18帧至第99帧。进一步对具有人脸区域的图像帧向两侧扩展，扩展得到[18,99]的区间都属于人脸区域，即区间为[18,99]的初始视频镜头，均包括人脸视频区域。

步骤S206，基于各初始视频镜头对应的视频帧进行连续动作图像帧提取，得到连续相同动作视频区域。

具体地，基于各初始视频镜头对应的视频帧，进行连续动作图像帧提取，并根据所提取得到的连续动作图像帧，得到具有连续动作的聚类视频区域。通过获取各连续动作图像帧的持续时间，进而根据各连续动作图像帧的持续时间，从具有连续动作的聚类视频区域中，分别提取对应持续时间下相同动作的视频帧，得到连续相同动作视频区域。

其中，基于初始视频镜头对应的视频帧进行连续动作图像帧提取时，可以理解为是针对初始视频镜头对应的视频帧进行动作聚类，其中，动作聚类表示针对人体动作进行动作聚类，确定具有时间连续的相同人体动作的聚类视频区域，进而根据不同连续动作图像帧的持续时间，基于聚类视频区域提取相应持续时间下相同动作的视频帧，得到连续相同动作视频区域。

进一步地，可采用训练好的无监督聚类模型，实现对初始视频镜头对应的视频帧进行动作聚类，提取连续动作图像帧。其中，通过包含负样本图片、正样本图片组成的训练数据，对无监督聚类模型进行训练，得到训练好的无监督聚类模型。

在一个实施例中，提供了一种视频数据处理方法的训练数据生成流程，具体包括：

选取已有的建筑物图数据集，可以是retrieval-SfM Dataset 12W建筑物图数据集，并根据SFM模型，即基于收集到的无序图片进行三维重建的离线算法模型，聚类得到原始的真实数据(groundtruth)。

进一步地，在每个epoch(时期)中重新挑选一次数据，从上述真实数据的正样本中随机选取2000张图作为query图(查询图)，使用训练好的卷积神经网络模型对所提取的query图提取特征，其中，相似特征的图片按照相似度排序，从中选取不在真实数据(groundtruth)中query图的聚类中的图片作为hard negative sample(负样本图片)，其中，每个query图选择5张负样本图片。在真实数据(groundtruth)中query图的聚类中的图片作为正样本，其中，每张query图找到一张正样本，进而根据负样本图片以及正样本图片，得到参与此次epoch(时期)训练的训练数据。

在一个实施例中，获取得到训练数据后，根据训练数据对无监督聚类模型进行进一步训练，以得到训练好的无监督聚类模型，进而根据训练好的卷无监督聚类模型实现对初始视频镜头对应的视频帧进行动作聚类，从初始视频镜头对应的视频帧中提取连续动作图像帧。

步骤S208，基于多个初始视频镜头对应的视频帧，沿时间轴合并具有相似内容的初始视频镜头，得到相似镜头。

具体地，通过获取各初始视频镜头对应的特征向量，并基于预设合并步长确定预设相邻范围内的各相邻镜头。进而根据各初始视频镜头的特征向量，计算得到当前初始视频镜头和预设相邻范围内的各相邻镜头间的相似度。而根据相似度，可确定出和当前初始视频镜头具有相似内容的相似镜头，进一步可沿时间轴将当前初始视频镜头和具有相似内容的相似镜头进行合并，得到相似镜头。

进一步地，可通过获取预设合并步长，并基于预设合并步长确定预设相邻范围内的各相邻镜头，并基于时间轴滑窗，根据当前初始视频镜头的特征向量，计算得到当前初始视频镜头和预设相邻范围内的各个相邻镜头之间的相似度，进而根据相似度，确定出和当前初始视频镜头具有相似内容的相邻镜头。

其中，预设合并步长可设置不同取值，相应的取值范围为1至6个初始视频镜头大小。预设合并步长用于实现控制最远多少间隔的区域或镜头可以进行合并，而当预设合并步长越大时，跨区域的合并的极值越大，即可以合并更多的具有相似内容的初始视频镜头和相应的相邻镜头，以得到合并后的相似镜头。而预设相邻范围包括和当前初始视频镜头前后相邻的N个初始视频镜头，N可根据实际需求进行调整，或设置一个初始值，举例来说，N可设置为10，即预设相邻范围则可包括和当前初始视频镜头前后相邻的10个初始视频镜头。

在一个实施例中，通过获取预设相似度阈值，并将当前初始视频镜头和预设相邻范围内的各相邻镜头间的相似度，和预设相似度阈值进行比对，确定出和当前初始视频镜头具有相似内容的相似镜头。具体地来说，当前初始视频镜头和预设相邻范围内的各相邻镜头之间的相似度，存在大于预设相似度阈值的情况时，则表明预设相邻范围内的各相邻镜头中，存在和当前初始视频镜头具有相似内容的相邻镜头。进而沿时间轴将当前初始视频镜头和具有相似内容的相似镜头进行合并，得到合并后的相似镜头。

其中，预设相似度阈值可以取0.4至0.8中的不同取值。在一种实施方式中，预设相似度阈值可以取0.5，因为预设相似度阈值取0.5时，可在将具有相似内容的相邻镜头和当前镜头进行合并时，取得镜头合并连贯性更好的效果。

在一个实施例中，参照图3可知，如图3所示，提供了一种具有相似内容的相似镜头示意图，参照图3可知，具有相似内容的相似镜头表示具有相同或相似的背景、人物以及任务动作等。举例来说，通过提取每个初始视频镜头中的5帧关键帧来代表该初始视频镜头，然后计算关键帧图片之间的相似度，如果镜头A中的某帧图片和镜头B中的某帧图片相似度高于预设相似度阈值时，则认为镜头A和B是具有相似内容的相似镜头，则可将镜头A和镜头B合并到一起，得到合并后的相似镜头。

在一个实施例中，获取各初始视频镜头对应的特征向量，包括：

从各初始视频镜头分别提取预设数量的关键帧，并提取各关键帧的聚类特征，通过获取各聚类特征对应的特征向量，并将各特征向量进行拼接，可得到对应初始视频镜头的特征向量。

其中，通过从每个初始视频镜头分别提取预设数量的关键帧，比如每个初始视频镜头提取5帧关键帧，不足5帧时，则补齐5帧。其中，关键帧表示用于表征一个初始视频镜头的主要内容的图像帧其中，可通过利用训练好的卷积神经网络模型，对所提取的各关键帧进行视频特征提取，得到关键帧对应的聚类特征。进一步可根据各关键帧的聚类特征，得到相应初始视频镜头的特征向量。

步骤S210，将人脸视频区域、连续相同动作视频区域以及相似镜头进行合并，直至满足视频切分停止条件时，得到多个视频片段。

具体地，在满足预设聚类步长要求时，需按照不同合并顺序将人脸视频区域、连续相同动作视频区域以及相似镜头进行合并。其中，可首先将人脸视频区域、连续相同动作视频区域进行合并，得到同时具有人脸视频区域和连续相同动作视频区域的第一中间镜头，再进一步将第一中间镜头和相似镜头进行合并，直至满足视频切分停止条件时，得到包含人脸视频区域的多个视频片段。

其中，在合并过程中，预设聚类步长处于要求1至6个初始视频镜头的长度的区间时，即判定为满足预设聚类步长要求。可以理解的是，由于在合并过程中，在满足视频切分停止条件时，预设聚类步长可以是1至6个初始视频镜头长度中的不同取值。其中，在合并过程中，如果遇到冲突的区域，优先考虑人脸视频区域的完整，即优先保留具有人脸视频区域的第一中间视频镜头。

进一步地，通过获取合并后得到的多个视频片段的片段时长，以及获取片段时长小于第一预设阈值或大于第二预设阈值的视频片段的片段数量，并在该片段数量在达到预设数量阈值后，是否继续增加，即在该片段数量达到预设数量阈值后，新增的视频片段中是否存在片段时长小于第一预设阈值或大于第二预设阈值的视频片段。如该视频片段数量在达到预设数量阈值后，在新增的视频片段中，不存在片段时长小于第一预设阈值或大于第二预设阈值的视频片段时，即判定为满足视频切分停止条件。

在一个实施例中，第一预设阈值用于表示可允许的视频片段的片段时长最小值，第二预设阈值用于表示可允许的视频片段的片段时长最大值，预设数量阈值用于表示片段时长小于第一预设阈值或大于第二预设阈值的视频片段的片段数量的最大值。

其中，第一预设阈值可以是1秒至10秒中的不同取值，在一种实施方式中，第一预设阈值可以取3秒，因为第一预设阈值可以取3秒时，可在进行视频切分的过程中，可避免孤立视频片段过短的问题，进而达到更好的视频片段连贯性更好的效果。即当片段时长小于3秒的视频片段的片段数量，在达到预设数量阈值后，不再增加时，则可判定满足视频切分停止条件。

同样地，第二预设阈值可以是3至5分钟中的不同取值，在一种实施方式中，第二预设阈值可以取3分钟，因为第二预设阈值可以取3分钟时，可在进行视频切分的过程中，避免视频片段过长，不符合投放平台投放要求而需要重新切分的问题，可提升视频切分工作效率。即当片段时长大于3分钟的视频片段的片段数量，在达到预设数量阈值后，不再增加时，则可判定满足视频切分停止条件。

进一步地，预设数量阈值可根据投放平台的视频投放要求进行设置或者调整，其中，预设数量阈值可以是5至10个中的不同取值，在一种实施方式中，预设数量阈值可以取5，因为预设数量阈值取5时，可在进行视频切分的过程中，避免过长或过短视频的数量过多，而导致切分得到的视频片段不连续的问题，以提升视频片段的连贯性，更符合投放要求。即当片段时长小于第一预设阈值或大于第二预设阈值的视频片段的片段数量达到5个之后，不再继续增加时，则可判定满足视频切分停止条件。

在一个实施例中，针对得到的多个视频片段需要根据预设时长要求进行进一步筛选，其中，视频片段的预设时长要求，可以是根据投放平台的投放要求进行设置，举例来说，预设时长要求可以是2至5分钟中的不同取值，在一个实施方式中，预设时长要求可以是3分钟，因为设置视频片段的时长为3分钟时，可以满足不同投放平台的视频投放要求，进而避免因不符合投放要求需要重新进行视频拆条的问题。

在一个实施例中，还可以通过使用统一的深度学习模型来训练得到视频拆分模型，以实现对各种不同类型的视频进行拆分，并判断所输出每个视频片段是否是满足不同平台的视频投放要求，如得到的多个视频片段均满足相应的视频投放要求，则可结束视频拆条操作。

在一个实施例中，针对人脸视频区域、连续相同动作视频区域以及合并后的相似镜头进行合并时，通过调整合并顺序，避免所有的镜头均按照原有的时间轴进行合并，以得到由不同的人脸视频区域、连续相同动作视频区域以及合并后的相似镜头组成的视频片段。

其中，由于还需判断最终得到的多个视频片段是否满足相应的片段时长要求和片段数量要求，则可通过调整各镜头间的合并顺序来优化得到的视频片段，即优化合并得到的视频片段的视频内容以及视频片段的片段时长，实现优化后的视频片段可同时具有人脸、连续动作和相似内容，得到内容更完整、连续的不同视频片段，用于后续在不同平台进行投放，更符合用户的使用需求。

在一个实施例中，在将第一中间镜头和相似镜头进行合并后，还包括：

获取根据第一中间镜头和相似镜头进行合并得到的第二中间镜头；基于第二中间镜头进行相似镜头合并，得到合并后的第二相似镜头；将第二相似镜头、人脸视频区域以及连续相同动作视频区域进行合并，直至满足视频切分停止条件时，得到多个视频片段。

具体地，在将第一中间镜头和相似镜头进行合并后，得到的视频片段不满足投放平台的投放要求时，通过获取根据第一中间镜头和相似镜头进行合并得到的第二中间镜头，并基于第二中间镜头进行相似镜头合并，得到合并后的第二相似镜头。

进一步地，通过将第二相似镜头、人脸视频区域以及连续相同动作视频区域进行合并，直至满足视频切分停止条件时，得到多个视频片段。其中，通过对由第一中间镜头和相似镜头进行合并得到的第二中间镜头，进行相似镜头合并，可克服将第一中间镜头和相似镜头进行合并后，由于预设聚类步长的限制，导致得到的多个视频片段中仍存在无法进行投放的孤立视频片段的缺陷。

其中，通过获取合并后得到的多个视频片段的片段时长，以及获取片段时长小于第一预设阈值或大于第二预设阈值的视频片段的片段数量，并判断在该片段数量达到预设数量阈值后，新增的视频片段中是否存在片段时长小于第一预设阈值或大于第二预设阈值的视频片段。如该视频片段数量在达到预设数量阈值后，在新增的视频片段中，不存在片段时长小于第一预设阈值或大于第二预设阈值的视频片段时，即判定为满足视频切分停止条件。

在一个实施例中，在将第二相似镜头、人脸视频区域以及连续相同动作视频区域进行合并之后，还包括：

获取根据第二相似镜头、人脸视频区域以及连续相同动作视频区域进行合并得到第三中间镜头；将第三中间镜头和多个初始视频镜头进行合并，直至满足视频切分停止条件时，得到多个视频片段。

具体地，通过在将第二相似镜头、人脸视频区域以及连续相同动作视频区域进行合并之后，获取根据第二相似镜头、人脸视频区域以及连续相同动作视频区域进行合并得到第三中间镜头，并将第三中间镜头和对待拆条视频进行切分得到的多个初始视频镜头进行合并，直至满足视频切分条件时，得到多个视频片段。

进一步地，将人脸视频区域和连续相同动作视频区域进行合并，得到具有人脸视频区域和连续相同动作视频区域的第一中间镜头，将第一中间镜头和相似镜头进行合并得到第二中间镜头，以及基于第二中间镜头进行相似镜头合并，得到合并后的第二相似镜头，并将第二相似镜头、人脸视频区域以及连续相同动作视频区域进行合并，得到第三中间镜头的过程中，均是沿着时间轴进行合并的，进而采用的是相同的预设聚类步长，而由于对每个需要合并的视频片段来说，聚类步长不应该是完全相同的，否则容易出现局域不合理的情况。

进而通过重新将第三中间镜头，和对待拆条视频进行切分得到的多个初始视频镜头进行合并，可实现最后得到的各个视频片段，采用不同的聚类步长进行合并，以避免由于沿着时间轴采用相同聚类步长进行合并，带来的较多孤立的视频片段，实现合并得到视频片段包括完整的故事情节，更符合投放平台的投放要求。

其中，通过获取合并后得到的多个视频片段的片段时长，以及获取片段时长小于第一预设阈值或大于第二预设阈值的视频片段的片段数量，并在该视频片段数量在达到预设数量阈值后，确定在新增的视频片段中，不存在片段时长小于第一预设阈值或大于第二预设阈值的视频片段时，即判定为满足视频切分停止条件。

上述视频数据处理方法中，通过按拍摄视角将待拆条视频进行切分，得到多个初始视频镜头，并基于多个初始视频镜头对应的视频帧进行人脸图像帧提取，得到人脸视频区域，以及进行连续动作图像帧提取，得到连续相同动作视频区域。而基于多个初始视频镜头对应的视频帧，沿时间轴合并具有相似内容的初始视频镜头，可得到相似镜头，进而将人脸视频区域、连续相同动作视频区域以及相似镜头进行合并，直至满足视频切分停止条件时，得到多个视频片段。该方法实现了考虑不同的角度，包括对包含人脸区域、连续相同动作区域的视频帧，和相似镜头进行合并，实现对各视频的自动拆分和剪辑，得到可用于在不同平台上进行播发的多个视频片段，也更符合用户使用习惯，由于无需人工进行视频拆分，可避免人工拆分操作的误差，减少因误差导致的反复审核和拆分，进一步提升针对不同视频进行拆分的工作效率。

在一个实施例中，如图4所示，得到相似镜头的步骤，即基于各初始视频镜头对应的视频帧，沿时间轴合并具有相似内容的初始视频镜头，得到相似镜头的步骤，具体包括：

步骤S402，获取各初始视频镜头对应的特征向量。

具体地，从各初始视频镜头分别提取预设数量的关键帧，提取各关键帧的聚类特征，并获取各聚类特征对应的特征向量，进而将各特征向量进行拼接，得到对应初始视频镜头的特征向量。

其中，可通过训练好的卷积神经网络模型，从每个初始视频镜头分别提取预设数量的关键帧，比如每个初始视频镜头提取5帧关键帧，不足5帧时，则补齐5帧，可用[f1,f2,f3,f4,f5]进行表示。其中，关键帧表示用于表征一个初始视频镜头的主要内容的图像帧。其中，可通过利用训练好的卷积神经网络模型，对所提取的各关键帧进行视频特征提取，得到关键帧对应的聚类特征。

其中，关键帧的聚类特征用于表示初始视频镜头的特征，可包括初始视频镜头具有的图像内容，比如人像、人物动作、建筑图像、以及背景等。举例来说，可用vectorA＝[feat(f1),feat(f2),feat(f3),feat(f4),feat(f5)]，表示提取得到的关键帧的聚类特征，同样也可用于表征相应的初始视频镜头。

在一个实施例中，获取得到训练数据后，根据训练数据对卷积神经网络模型进行进一步训练，以得到训练好的卷积神经网络模型，进而根据训练好的卷积神经网络模型对从初始视频镜头所提取的各关键帧。

其中，得到训练数据的方式具体包括：

进一步地，如图5所示，提供了一种视频数据处理方法的训练数据的生成示意图，参照图5可知，在每个epoch(时期)中重新挑选一次数据，从上述真实数据(groundtruth)的正样本中随机选取2000张图作为query图(查询图)，使用训练好的卷积神经网络模型对所提取的query图提取特征，其中，相似特征的图片按照相似度排序，从中选取不在真实数据(groundtruth)中query图的聚类中的图片作为hard negative sample(负样本图片)，其中，每个query图选择5张负样本图片，则2000张query图则可对应确定出2000*5张负样本图片。在真实数据(groundtruth)中query图的聚类中的图片作为正样本，其中，每张query图找到一张正样本，进而根据负样本图片以及正样本图片，得到参与此次epoch(时期)训练的训练数据。其中，改进点在于找到的与query图对应的2000张正样本图片，属于gd-cluster(即真实数据(groundtruth)的正样本)，还包括通过点乘(dot multiple)计算当前图片和待比对的图片的相似度，并进一步从各相似度中提取出相似度阈值(即normalize)，进而根据相似度阈值判断当前图片所属的视频镜头和待比对的图片所属的视频镜头，是否属于具有相似内容的相似镜头。

在一个实施例中，可通过获取各关键帧的聚类特征对应的特征向量，并利用concate函数对得到的特征向量进行拼接，得到对应初始视频镜头对应的特征向量。其中，concate函数表示可连接两个或多个数组的函数，但该函数不会改变现有的数组，而仅仅会返回被连接数组的一个副本，即返回一个新的数组。

在本实施例中，通过concate函数把每个初始视频镜头的5帧关键帧对应的特征向量拼接到一起，即得到相应初始视频镜头的特征向量。

步骤S404，基于预设合并步长确定预设相邻范围内的各相邻镜头。

具体地，通过获取预设合并步长，并根据预设合并步长，确定对应的预设相邻范围，进而获取预设相邻范围内的各相邻镜头。

其中，预设合并步长可设置不同取值，相应的取值范围为1至6个初始视频镜头大小。预设合并步长用于实现控制最远多少间隔的区域或镜头可以进行合并，而当预设合并步长越大时，跨区域的合并的极值越大，即可以合并更多的初始视频镜头和相应的相邻镜头，以得到相似镜头。而预设相邻范围包括和当前初始视频镜头前后相邻的N个初始视频镜头，N可根据实际需求进行调整，或设置一个初始值，举例来说，N可设置为10，即预设相邻范围则可包括和当前初始视频镜头前后相邻的10个初始视频镜头。

步骤S406，根据各初始视频镜头的特征向量，计算得到当前初始视频镜头和预设相邻范围内的各相邻镜头间的相似度。

具体地，根据当前初始视频镜头的特征向量，以及预设范围内各相邻镜头的特征向量，分别计算得到初始视频镜头和预设相邻范围内每个相邻镜头之间的相似度。

进一步地，可采用以下公式(1)计算得到当前初始镜头和预设相邻范围内各相邻镜头之间的相似度：

simi ＝ norm1(vectorA)·norm2(vectorA)； (1)

其中，simi表示当前初始镜头和预设相邻范围内某一相邻镜头之间的相似度，norm1(vectorA)表示当前初始镜头的特征向量，而norm2(vectorA)表示预设相邻范围内任一相邻镜头的特征向量，通过计算当前初始镜头的特征向量和预设相邻范围内任一相邻镜头的特征向量间的点乘，得到当前初始镜头和预设相邻范围内某一相邻镜头之间的相似度。

步骤S408，根据相似度，确定出和当前初始视频镜头具有相似内容的相似镜头。

具体地，当确定存在和当前初始视频镜头间的相似度大于预设相似度阈值的相邻镜头时，将该相邻镜头确定为和当前初始视频镜头具有相似内容的相似镜头。

进一步地，通过获取预设相似度阈值，并将当前初始视频镜头和预设相邻范围内的各相邻镜头间的相似度，分别和预设相似度阈值进行比对，判断是否存在和当前初始视频镜头间的相似度大于预设相似度阈值的相邻镜头。当确定存在和当前初始视频镜头间的相似度大于预设相似度阈值的相邻镜头时，将该相邻镜头确定为和当前初始视频镜头具有相似内容的相似镜头。

其中，预设相似度阈值可以取0.4至0.8中的不同取值。在一种实施方式中，预设相似度阈值可以取0.5，因为预设相似度阈值取0.5时，可在将具有相似内容的相邻镜头和当前镜头进行合并时，取得镜头合并连贯性更好的效果。举例来说，当存在和当前初始视频镜头间的相似度大于预设相似度阈值0.5的相邻镜头时，将该相邻镜头确定为和当前初始视频镜头具有相似内容的相似镜头。

步骤S410，将当前初始视频镜头和具有相似内容的相似镜头进行合并，得到相似镜头。

具体地，将当前初始视频镜头和具有相似内容的相似镜头取并集，即将当前初始视频镜头和具有相似内容的相似镜头进行连接，得到相似镜头。其中，具有相似内容的相似镜头可以是一个或者多个，当存在一个具有相似内容的相似镜头时，可将当前初始视频镜头和具有相似内容的相似镜头进行拼接，得到包括2个视频镜头长度的相似镜头。

同样地，当存在多个具有相似内容的相似镜头时，则将多个相似镜头和当前初始视频镜头进行拼接，得到包括多个视频镜头长度的相似镜头。

本实施例中，通过获取各初始视频镜头对应的特征向量，以及基于预设合并步长确定预设相邻范围内的各相邻镜头，进而根据各初始视频镜头的特征向量，计算得到当前初始视频镜头和预设相邻范围内的各相邻镜头间的相似度。根据相似度，确定出和当前初始视频镜头具有相似内容的相似镜头，并沿时间轴将当前初始视频镜头和具有相似内容的相似镜头进行合并，得到相似镜头。通过将当前初始视频镜头和具有相似内容的相似镜头进行合并，得到相似镜头。实现了根据初始视频镜头间的相似度，对具有相似内容的初始视频镜头进行合并，得到用于表征更完整内容的视频片段，以便后续进行视频片段的精准投放，更符合用户使用习惯，提升了视频拆条过程的工作效率。

在一个实施例中，在将当前初始视频镜头和具有相似内容的相似镜头进行合并，得到相似镜头之后，还包括：

根据相似镜头对应的聚类视频区域大小，对预设合并步长进行调整，得到更新后的预设合并步长；

基于更新后的预设合并步长，重新确定预设相邻范围内的各相邻镜头；

返回执行根据各初始视频镜头的特征向量，计算得到当前初始视频镜头和预设相邻范围内的各相邻镜头间的相似度的步骤，直至相似镜头对应的聚类视频区域的各视频片段的时长符合预设时长要求。

具体地，通过获取相似镜头对应的聚类视频区域大小，并根据相似镜头对应的聚类视频区域大小，对预设合并步长进行调整，得到更新后的预设合并步长。其中，预设合并步长可设置不同取值，相应的取值范围为1至6个初始视频镜头大小，在执行合并相似镜头的循环过程中，不断对预设合并步长进行调整，调整操作可包括增大预设合并步长或减小预设合并步长。

其中，基于更新后的预设合并步长，重新确定对应的预设相邻范围，进而获取更新后的预设相邻范围内的各相邻镜头。

进一步地，重新确定出待计算相似度的各相邻镜头后，返回根据各初始视频镜头的特征向量，计算得到当前初始视频镜头和预设相邻范围内的各相邻镜头间的相似度的步骤，即根据各初始视频镜头的特征向量，和更新后的预设相邻范围内的各相邻镜头的特征向量，计算得到当前初始视频镜头和预设相邻范围内的各相邻镜头间的相似度，并再确定存在和当前初始视频镜头间的相似度大于预设相似度阈值的相邻镜头时，将该相邻镜头确定为和当前初始视频镜头具有相似内容的相似镜头，进而将当前初始视频镜头和具有相似内容的相似镜头进行合并，得到相似镜头。

其中，在执行合并相似镜头的循环过程中，实时获取相似镜头对应的聚类视频区域的各视频片段的时长，并将各视频片段的时长和预设时长要求进行比对，直至相似镜头对应的聚类视频区域中所有视频片段的时长，均符合预设时长要求时，停止合并相似镜头的循环过程。

本实施例中，通过根据相似镜头对应的聚类视频区域大小，对预设合并步长进行调整，得到更新后的预设合并步长，并基于更新后的预设合并步长，重新确定预设相邻范围内的各相邻镜头，进而根据各初始视频镜头的特征向量和重新确定出的各相邻镜头的特征向量，计算得到当前初始视频镜头和各相邻镜头间的相似度，根据相似度确定出和当前初始视频镜头具有相似内容的相似镜头，并进行合并以得到相似镜头，直至相似镜头对应的聚类视频区域的各视频片段的时长符合预设时长要求。实现了将不符合预设时长要求的视频片段进行删除或合并，以得到用于表征更完整内容的视频片段，以便后续进行视频片段的精准投放，更符合用户使用习惯，提升了视频拆条过程的工作效率。

在一个实施例中，如图6所示，提供了一种视频数据处理方法，具体包括：

步骤S602，获取各视频片段的片段时长。

具体地，通过获取拆条后的各视频片段，并获取各视频片段的片段时长。

步骤S604，将片段时长小于第一预设阈值的视频片段确定为待二次处理的视频片段。

具体地，通过获取第一预设阈值，并将各视频片段的片段时长和第一预设阈值进行比对，确定出片段时长小于第一预设阈值的视频片段，并将片段时长小于第一预设阈值的视频片段确定为待二次处理的视频片段。

步骤S606，对相邻的待二次处理的视频片段，进行合并处理，得到更新后的视频片段。

具体地，待二次处理的视频片段需要进行的二次处理为合并处理，由于存在多个待二次处理的视频片段，则可通过将相邻的待二次处理的视频片段进行合并处理，得到更新后的视频片段。

进一步地，当存在相邻的多个视频片段的片段时长均小于第一预设阈值时，将该些相邻的视频片段进行合并。其中，由于不相邻的视频片段属于孤立视频片段，无法进行进一步合并，则当存在单独的视频片段的片段时长小于第一预设阈值，且无其他相邻视频片段进行合并时，则将该单独的视频片段删除。

在一个实施例中，提供了一种视频数据处理方法，还包括：

获取待拆条视频对应的开头视频片段的第一片段时长，以及结尾视频片段的第二片段时长；

当第一片段时长、第二片段时长不满足预设时长要求时，向内合并相邻的视频片段，直至第一片段时长、第二片段时长满足预设时长要求时，得到更新后的视频片段。

具体地，通过获取待拆条视频对应的开头视频片段的第一片段时长，以及结尾视频片段的第二片段时长，以及和开头视频片段、结尾视频片段对应的预设时长要求，并将第一片段时长、第二片段时长和预设时长要求进行比对。

进一步地，当第一片段时长、第二片段时长不满足预设时长要求时，向内合并相邻的视频片段，直至第一片段时长、第二片段时长满足预设时长要求时，得到更新后的视频片段。

在一个实施例中，还可设置第二预设阈值，其中，第一预设阈值小于第二预设阈值。通过获取第一预设阈值和第二预设阈值，并将各视频片段的片段时长和第一预设阈值、第二预设阈值进行比对，确定出待二次处理的视频片段。

其中，由于第一预设阈值小于第二预设阈值，则可理解为第一预设阈值为可允许的视频片段的片段时长最小值，第二预设阈值则为可允许的视频片段的片段时长最大值。通过将各视频片段的片段时长和第一预设阈值、第二预设阈值进行比对，确定出片段时长小于第一预设阈值的视频片段，以及片段时长大于第二预设阈值的视频片段，确定为待二次处理的视频片段。

进一步地，片段时长小于第一预设阈值的视频片段需要进行合并或删除处理，而片段时长大于第二预设阈值的视频片段，则需要进一步进行切分处理。

上述视频数据处理方法中，通过获取各视频片段的片段时长，并将片段时长小于第一预设阈值的视频片段确定为待二次处理的视频片段，进而对相邻的待二次处理的视频片段，进行合并处理，得到更新后的视频片段。实现了对各视频片段的片段时长进行限定，以达到符合不同平台的视频投放要求，而避免出现片段时长不符合投放要求时需要重复进行视频拆条的问题，提升视频拆条工作效率。

在一个实施例中，提供了一种视频数据处理方法，还包括：

获取更新后的视频片段的片段数量，并将片段数量和预设拆条数量阈值进行比对，当确定片段数量达到预设拆条数量阈值时，停止视频拆条操作。

具体地，通过获取预设拆条数量阈值，以及更新后的视频片段的片段数量，通过将更新后的视频片段的片段数量和预设拆条数量阈值进行比对，判断片段数量是否达到预设拆条数量阈值。当确定更新后的视频片段的片段数量达到预设拆条数量阈值时，表明对待拆条的视频的进行的切分、合并操作完成，将当前更新后的视频片段确定为待拆条的视频的输出片段，停止视频拆条操作。

其中，预设拆条数量阈值可预先设置，也可根据实际需求进行调整，在本实施例中，预设拆条数量阈值可取90至120中的不同取值。在一种实施方式中，预设拆条数量阈值可以取100，根据人工拆条经验可确定预设拆条数据阈值取100时，得到的视频片段的时长满足预设时长要求，即满足在不同平台的投放要求，具体来说，可判断更新后的视频片段的片段数量是否达到预设拆条数量阈值100，来确定是否需要停止视频拆条操作。

在一个实施例中，当预设拆条数量阈值取100时，即当更新后的视频片段的片段数量达到100时，即表示对待拆条的视频的进行的切分、合并操作完成。而如果更新后的视频片段的片段数量远大于预设拆条数量阈值时，则表示还需对更新后的视频片段进行合并处理。

本实施例中，通过获取更新后的视频片段的片段数量，并将片段数量和预设拆条数量阈值进行比对，当确定片段数量达到预设拆条数量阈值时，根据更新后的视频片段得到视频拆条结果。实现了根据预设拆条数量阈值，判定是否需要对更新后的视频片段进行再次合并，以达到和预设拆条数量阈值对应的精准视频拆条结果，减少输出的视频拆条结果的误差数据，即避免因视频片段过多导致存在较短视频片段，无法满足后续投放要求而需要重新进行拆条的问题，进而提升进行视频拆条的工作效率。

在一个实施例中，如图7所示，提供了一种视频数据处理方法，参照图7可知，该视频数据处理方法具体包括以下步骤：

步骤S702，对各视频片段进行人脸识别，确定人物名称。

具体地，通过对各视频片段进行人脸识别，确定人物名称。其中，对各视频片段进行人脸识别后，按照人脸识别结果的置信度进行排序，得到人脸识别结果对应的人物名称序列。

步骤S704，根据置信度对确定出的人物名称进行排序，生成人物名称序列。

具体地，由于每一视频片段中可能存在不止一个人物，则对各视频片段进行人脸识别，得到的是人脸识别结果对应的多个人物名称，可通过置信度对确定出的人物名称进行排序，生成人物名称序列。

步骤S706，将人物名称序列和预存节目先导词进行比对，生成比对结果。

具体地，通过对预存节目先导词进行人物名称提取，得到预存节目先导词中涉及的人物名称。同样地，预存节目先导词中也可能存在多个人物名称，对预存节目先导词进行人物名称提取时，同样可得到多个人物名称。进而根据人脸识别结果得到的人物名称序列，和预存节目先导词中涉及的多个人物名称进行比对，确定人脸识别结果对应的人物名称序列和预存节目先导词中的人物名称是否一致，生成相应的比对结果。

其中，比对结果表示对人脸识别结果得到的人物名称，和预存节目先导词中涉及的人物名称进行比对，得到的结果，包括对人脸识别结果得到的人物名称，和预存节目先导词中涉及的人物名称一致，或者对人脸识别结果得到的人物名称，和预存节目先导词中涉及的人物名称不一致两种结果，即比对结果可用于确定视频片段是否和预存节目先导词对应，如果视频片段中识别得到的人物名称，和预存先导词节目涉及的人物名称并不一致，则表明需要对预设范围内的其他预存节目先导词进行识别，并重新和视频片段识别到的人物名称进行比对，确定是否一致。

步骤S708，根据比对结果，将视频片段和预存节目先导词进行对齐，生成对应的节目输出结果。

具体地，根据人脸识别结果对应的人物名称序列，和预存节目先导词中的人物名称是否一致的比对结果，进一步将视频片段和预存节目先导词进行对齐，生成对应的节目输出结果。

举例来说，当人脸识别结果对应的人物名称序列包括4个人物名称，而预存节目先导词携带2个人物名称时，通过将人脸识别结果对应的人物名称序列，和预存节目先导词进行人物名称提取得到的人物名称进行比对，判断预存节目先导词携带的2个人物名称，是否和人脸识别结果对应的人脸名称序列中的4个人物名称重合。可以理解的是，只有当人脸识别结果对应的人脸名称序列和预存节目先导词携带的人物名称，至少同时拥有2个共同的人物时，则表明该视频片段和预存节目先导词是对其的。

进一步地，当人脸识别结果对应的人脸名称序列和预存节目先导词携带的人物名称，共同拥有的人物名称不符合要求时，需要将人脸识别结果对应的人脸名称序列，和预设范围内的预存节目先导词携带的人物名称重新进行比对。其中，预设范围可以是和当前比对的预存节目先导词前后相邻的5个节目先导词。

在一个实施例中，人工预存节目先导词、视频片段预测结果以及节目输出结果间的对应关系，如表1所示：

表1

其中，参照表1可知，序号1对应的人工预存节目先导词中，未识别到对应的人物名称，则无法拆条后的视频片段进行对齐和匹配，而序号2对应的预存节目先导词中识别到人物名称为“张一”，对视频编号为1_t003486x50f的视频片段进行人脸识别得到的人物名称也为“张一”，则序号2对应的预存节目先导词和视频编号为1_t003486x50f的视频片段对齐，得到最后的输出结果为“1、太厉害了，张一自嘲头脑简单”。

同样地，由于存在只有一个人物名称或预存节目先导词侧连续出现的人物一致的情况，比如序号为4、5、6对应的预存界面先导词连续出现的人物均为“李四”、“谭五”，则进行比对和对齐之后，如表1所示，序号4对应的节目输出结果为空，则按照视频片段的时序进一步进行对齐，即可将序号3和序号5对应的视频片段的中间部分视频，确定为序号4对应的节目输出结果。

在一个实施例中，由于不同人物存在一个或多个名称，比如本名、简称以及昵称等不同名称，需要应用到知识图谱来对齐同一人物的本名、简称和昵称。

上述视频数据处理方法中，通过对与视频拆条结果对应的各视频片段进行人脸识别，确定人物名称，并将人物名称和预存节目先导词进行比对，生成比对结果。进而根据比对结果，将视频片段和预存节目先导词进行对齐，生成对应的节目输出结果。实现了根据和待拆条视频对应的各视频片段和预存节目先导词的自动对齐，而无需人工作进行视频拆条和视频、先导词的对齐操作，可达到快速生成对齐后的节目输出结果的目的，提升了节目输出结果的生成效率。

在一个实施例中，如图8所示提供了一种视频数据处理方法的算法流程，参照图8可知，视频数据处理方法的算法流程，具体包括五个部分P1至P5：

1)第一部分P1：通过对待拆条的视频进行OCR识别(光学字符识别)和WAV识别(语音识别)，生成对应的光学字符识别结果和语音识别结果。进而基于光学字符识别结果和语音识别结果，根据预设的广告关键词，识别出视频中的广告区域并剔除，得到纯净的非广告区域。进一步对非广告区域的视频进行镜头识别，即按照拍摄视角对非广告区域的视频进行切分，得到各初始视频镜头。

2)第二部分P2：设置有第一分支S1和第二分支S2，其中，第一分支S1用于将人脸视频区域和连续相同动作视频区域的进行合并，得到具有人脸视频区域和连续相同动作视频区域的第一中间镜头，然后第一中间镜头，结合初始视频镜头做扩展，得到扩展后的具有人脸视频区域和连续相同动作视频区域的第一中间视频镜头。第二分支S2用于对具有相似内容的初始视频镜头进行合并，得到相似镜头。

进一步地，将第一分支S1和第二分支S2的输出结果进行合并，即将扩展后的具有人脸视频区域和连续相同动作视频区域的第一中间镜头，和相似镜头进一步合并。其中，将两个分支的输出结果进行合并时，如果遇到冲突的区域，优先考虑人脸视频区域的完整，即优先保留具有人脸视频区域的第一中间镜头。

其中，还可优先考虑人脸视频区域和连续相同动作视频区域的完整，即优先保留具有人脸视频区域和连续相同动作视频区域的第一中间镜头。

其中，在第二部分P2中，进行初始视频镜头合并的循环过程中，需要满足的条件为warn>0and length>0，即视频片段的数量大于0且预设聚类步长大于0，其中，由于预设聚类步长的取值范围为1至6个初始视频镜头大小，则进行初始视频镜头合并的循环至多执行6次。其中，与第二部分P2对应的实现代码如下所示：

Length＝6#步长

Out1＝[]#输出

While warn>0and length>0:#视频片段的数量大于0且预设聚类步长大于0

Range1＝MergeShot(shot)#合并得到相似镜头

Range2＝Merge(merge(merge(face,shot),act),shot)#将人脸视频区域和连续相同动作视频区域的进行合并，得到具有人脸视频区域和连续相同动作视频区域的第一中间镜头，然后将具有人脸视频区域和连续相同动作视频区域的第一中间镜头，结合初始视频镜头做扩展，得到扩展后的具有人脸视频区域和连续相同动作视频区域的第一中间镜头

Ran＝Merge(Range1,Range2)#将扩展后的具有人脸视频区域和连续相同动作视频区域的第一中间镜头，和相似镜头进一步合并

Out1＝overlap.findDilateIntersection(Ran,Range2)#输出为包含Range2的区域

Length-＝1#步长逐一递减

story＝Out1#视频拆条结果为包含有Range2的区域的各视频片段

3)第三部分P3：将第二部分的输出结果确定为第二中间镜头，并将具有相似内容的第二中间镜头进行合并，得到合并后的第二相似镜头，然后在第二相似镜头加入人脸视频区域、连续相同动作视频区域。

其中，合并初始视频镜头和视频帧的循环过程，需要满足的条件为：warn_count>0and count<20and len(best_story)>100，即片段时长小于第一预设阈值或片段时长大于第二预设阈值的视频片段的数量大于0，且循环次数小于20，且第三部分P3输出的视频拆条结果对应的视频片段数量大于100。其中，第一预设阈值小于第二预设阈值。其中，在第三部分P3合并初始视频镜头和视频帧的循环过程的最大循环次数为20次。

进一步地，第二部分P2和第三部分P3执行过程的区别在于：合并人脸视频区域、连续相同动作视频区域、以及具有相似内容的相似镜头的操作顺序不同。其中，第三部分P3的进行相似内容合并的镜头为第二部分P2的输出结果。其中，与第三部分P3对应的实现代码如下所示：

4)第四部分P4：对第一部分P1得到的初始视频镜头进行相似镜头合并，即将具有相似内容的初始视频镜头进行合并，得到合并后的相似镜头。获取第三部分P3的输出结果，并将第三部分P3的输出结果和合并后的相似镜头，进一步合并。其中，合并相似镜头和第三部分P3的输出结果的循环过程，需要满足的条件为：length>0and len(best_story)>100，即预设聚类步长大于0且第四部分的视频拆条结果对应的视频片段数量大于100。其中，预设聚类步长的取值范围为1至6个初始视频镜头大小，则进行合并相似镜头和第三部分P3的输出结果的循环至多执行6次。

进一步地，第四部分P4的目的在于调整合并顺序，避免所有的合并操作均顺着时间轴合并。第四部分P4增加分支用于对第一部分P1得到的初始视频镜头进行相似镜头合并，得到合并后的相似镜头，再和第三部分P3的输出结果相加，使得最后的视频拆条结果中对各视频片段进行合并的步长不一致，从而针对不同合并步长对各视频片段进行合并时，可得到满足不同区域中具有相似内容的镜头进行合并。

举例来说，通过设置不同合并步长，当一个视频中的a点和b点跨域的步长满足所设置的不同合并步长中的任意一个时，那么当这两个镜头具有相似内容时，即可合并。而如果不对合并顺序进行调整，所有的合并操作均沿着时间轴进行合并，相应的合并步长也是固定步长时，当具有相似内容的镜头处于不同区域，即跨越的步长大于默认的固定步长时，则具有相似内容的镜头无法进行合并，导致切分后得到的视频片段让仍然具有大量无法合并的孤立片段，需要进行删除，从而切分得到的视频片段的完整性仍有待提升。

可以理解的是，由于预设聚类步长用于表示多长以内的相似镜头是可以合并的，因此在每轮合并时预设聚类步长是全部一致的，容易造成局部区域合并问题。通过第四部分P4中从第一部分P1切分得到的初始视频镜头拉出来一个分支进行相似合并，并将合并得到的相似镜头和之前的第二部分P2以及第三部分P3得到的输出结果进行合并，以带来不同的聚类步长。

其中，与第四部分P4对应的实现代码如下所示：

5)第五部分P5：利用后处理函数Postprocess()，对第四部分P4的输出结果进行后处理，得到最终的视频片段，并对各视频片段进行人脸识别，确定人物名称，根据置信度对确定出的人物名称进行排序，生成人物名称序列。通过将人物名称序列和预存节目先导词进行比对，生成比对结果，进而根据比对结果，将视频片段和预存节目先导词进行对齐，生成对应的节目输出结果。

其中，后处理操作具体包括：A、获取各视频片段的片段时长，将片段时长小于第一预设阈值的视频片段确定为待二次处理的视频片段，对相邻的待二次处理的视频片段，进行合并处理，得到更新后的视频片段。

B、获取待拆条视频对应的开头视频片段的第一片段时长，以及结尾视频片段的第二片段时长，当第一片段时长、第二片段时长不满足预设时长要求时，向内合并相邻的视频片段，直至第一片段时长、第二片段时长满足预设时长要求时，得到更新后的视频片段。

C、删除太短的视频片段，即如果存在单独的视频片段的片段时长小于第一预设阈值，且无其他相邻视频片段进行合并时，则将该单独的视频片段删除。

其中，在上述视频数据处理方法的算法流程中，通过在不同部分，比如P2、P3、P4等，分别设置不同的合并顺序，即在对人脸视频区域、连续相同动作视频区域以及相似镜头的合并过程中，不断调整合并顺序，以在达到视频切分停止条件时，得到的视频片段更符合投放平台的投放要求。而对人脸视频区域、连续相同动作视频区域或相似镜头进行合并、拼接的过程中，同样存在对基于拍摄视角对待拆条视频进行切分得到的初始切分点的更新操作，即对视频区域、镜头进行拼接得到的视频片段的起始位置或结束位置，均可作为更新后的视频切分点，进而基于更新后的视频切分点即可确定出具体包括哪些视频片段。

上述视频数据处理方法的算法流程中，实现了考虑不同的角度，包括人脸区域、连续相同动作区域的视频帧，以及相似镜头进行合并，实现对各视频的自动拆分和剪辑，生成对应的视频拆条结果，得到可用于在不同平台上进行播发的界面视频片段，在更符合用户使用习惯的同时，也无需人工进行视频拆分，可避免人工拆分操作的误差，提升针对不同视频进行拆分的工作效率，同时可实现根据和待拆条视频对应的各视频片段和预存节目先导词的自动对齐，而无需人工作进行视频拆条和视频、先导词的对齐操作，可达到快速生成对齐后的节目输出结果的目的，提升了节目输出结果的生成效率。

在一个实施例中，如图9所示，得到多个视频片段的步骤，即将人脸视频区域、连续相同动作视频区域以及相似镜头进行合并，直至满足视频切分停止条件时，得到多个视频片段的步骤，具体包括：

步骤S901，在满足预设聚类步长要求时，将人脸视频区域和连续相同动作视频区域进行合并，得到具有人脸视频区域和连续相同动作视频区域的第一中间镜头。

步骤S902，将第一中间镜头和相似镜头进行合并，生成第二中间镜头。

步骤S903，根据第二中间镜头判断是否满足视频切分停止条件。

其中，通过获取第二中间镜头对应的片段时长，并获取多个第二中间镜头中片段时长小于第一预设阈值或大于第二预设阈值的视频片段数量，当确定所述视频片段数量达到预设数量阈值后未继续增加时，判定满足视频切分停止条件。

具体地，通过获取多个第二中间镜头中片段时长小于第一预设阈值或大于第二预设阈值的视频片段的片段数量，并在该片段数量在达到预设数量阈值后，新增的视频片段中是否仍存在片段时长小于第一预设阈值或大于第二预设阈值的视频片段。如该视频片段数量在达到预设数量阈值后，在新增的视频片段中，不存在片段时长小于第一预设阈值或大于第二预设阈值的视频片段时，则确定视频片段数量达到预设数量阈值后，未继续增加，进入可判定为满足视频切分停止条件。当满足视频切分停止条件时，则执行步骤S904，得到包含人脸视频区域的多个视频片段。

当不满足视频切分停止条件时，则执行步骤S905，基于第二中间镜头进行相似镜头合并，得到合并后的第二相似镜头。

步骤S906，将第二相似镜头、人脸视频区域以及连续相同动作视频区域进行合并，得到第三中间镜头。

步骤S907，根据第三中间镜头判断是否满足视频切分停止条件。

其中，通过获取第三中间镜头对应的片段时长，并获取多个第三中间镜头中片段时长小于第一预设阈值或大于第二预设阈值的视频片段数量，当确定所述视频片段数量达到预设数量阈值后未继续增加时，判定满足视频切分停止条件。

具体地，通过获取多个第三中间镜头中片段时长小于第一预设阈值或大于第二预设阈值的视频片段的片段数量，并在该片段数量在达到预设数量阈值后，新增的视频片段中是否仍存在片段时长小于第一预设阈值或大于第二预设阈值的视频片段。如该视频片段数量在达到预设数量阈值后，在新增的视频片段中，不存在片段时长小于第一预设阈值或大于第二预设阈值的视频片段时，则确定视频片段数量达到预设数量阈值后，未继续增加，进入可判定为满足视频切分停止条件。

当满足视频切分停止条件时，则执行步骤S908，得到多个视频片段。

当不满足视频切分停止条件时，则执行步骤S909，将第三中间镜头和多个初始视频镜头进行合并，直至满足视频切分停止条件时，得到多个视频片段。

本实施例中，在满足预设聚类步长要求时，将人脸视频区域和连续相同动作视频区域进行合并，得到具有人脸视频区域和连续相同动作视频区域的第一中间镜头，并将第一中间镜头和相似镜头进行合并，生成第二中间镜头，进而根据第二中间镜头判断是否满足视频切分停止条件。当确定不满足视频切分停止条件时，基于第二中间镜头进行相似镜头合并，得到合并后的第二相似镜头，并将第二相似镜头、人脸视频区域以及连续相同动作视频区域进行合并，得到第三中间镜头，进而基于第三中间镜头判断是否满足视频切分停止条件，当确定不满足视频切分停止条件时，将第三中间镜头和多个初始视频镜头进行合并，直至满足视频切分停止条件时，得到多个视频片段。实现了采用不同合并顺序，对人脸视频区域、连续相同动作视频区域以及相似镜头进行合并，同时通过判定是否达到视频切分停止条件，来确定是否需要停止视频切分操作，以使得切分得到的各视频片段更大程度上符合投放平台的投放要求，而无需根据投放要求而增加人工拆分的步骤，进而可提升针对不同视频进行拆分的工作效率。

如本申请所公开的视频数据处理方法，其中涉及的待拆条的视频、初始视频镜头、人脸视频区域、连续相同动作视频区域的以及相似镜头等数据，可保存于区块链上。

应该理解的是，虽然上述实施例涉及的各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述实施例涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图10所示，提供了一种视频数据处理装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：初始视频镜头生成模块1002、人脸视频区域生成模块1004、连续相同动作视频区域生成模块1006、相似镜头生成模块1008以及视频片段生成模块1010，其中：

初始视频镜头生成模块1002，用于按拍摄视角将待拆条视频进行切分，得到多个初始视频镜头。

人脸视频区域生成模块1004，用于基于多个初始视频镜头对应的视频帧进行人脸图像帧提取，得到人脸视频区域。

连续相同动作视频区域生成模块1006，用于基于多个初始视频镜头对应的视频帧进行连续动作图像帧提取，得到连续相同动作视频区域。

相似镜头生成模块1008，用于基于多个初始视频镜头对应的视频帧，沿时间轴合并具有相似内容的初始视频镜头，得到相似镜头。

视频片段生成模块1010，用于将人脸视频区域、连续相同动作视频区域以及相似镜头进行合并，直至满足视频切分停止条件时，得到多个视频片段。

上述视频数据处理装置中，通过按拍摄视角将待拆条视频进行切分，得到多个初始视频镜头，并基于多个初始视频镜头对应的视频帧进行人脸图像帧提取，得到人脸视频区域，以及进行连续动作图像帧提取，得到连续相同动作视频区域。而基于多个初始视频镜头对应的视频帧，沿时间轴合并具有相似内容的初始视频镜头，可得到相似镜头，进而将人脸视频区域、连续相同动作视频区域以及相似镜头进行合并，直至满足视频切分停止条件时，得到多个视频片段。该方法实现了考虑不同的角度，包括对包含人脸区域、连续相同动作区域的视频帧，和相似镜头进行合并，实现对各视频的自动拆分和剪辑，得到可用于在不同平台上进行播发的多个视频片段，也更符合用户使用习惯，由于无需人工进行视频拆分，可避免人工拆分操作的误差，减少因误差导致的反复审核和拆分，进一步提升针对不同视频进行拆分的工作效率。

在一个实施例中，提供了一种视频数据处理装置，还包括：

人物名称确定模块，用于对各视频片段进行人脸识别，确定人物名称。

人物名称序列生成模块，用于根据置信度对确定出的人物名称进行排序，生成人物名称序列。

比对模块，用于将人物名称序列和预存节目先导词进行比对，生成比对结果。

节目输出结果生成模块，用于根据比对结果，将视频片段和预存节目先导词进行对齐，生成对应的节目输出结果。

上述视频数据处理装置，通过对各视频片段进行人脸识别，确定人物名称，并根据置信度对确定出的人物名称进行排序，生成人物名称序列，进而将人物名称序列和预存节目先导词进行比对，生成比对结果。进而根据比对结果，将视频片段和预存节目先导词进行对齐，生成对应的节目输出结果。实现了根据和待拆条视频对应的各视频片段和预存节目先导词的自动对齐，而无需人工作进行视频拆条和视频、先导词的对齐操作，可达到快速生成对齐后的节目输出结果的目的，提升了节目输出结果的生成效率。

在一个实施例中，视频片段生成模块还用于：

在满足预设聚类步长要求时，将人脸视频区域和连续相同动作视频区域进行合并，得到具有人脸视频区域和连续相同动作视频区域的第一中间镜头；将第一中间镜头和相似镜头进行合并，直至满足视频切分停止条件时，得到包含人脸视频区域的多个视频片段。

在一个实施例中，视频片段生成模块还用于：

在一个实施例中，提供了一种视频数据处理装置，还包括视频切分停止条件判定模块，用于：

获取多个视频片段中片段时长小于第一预设阈值或大于第二预设阈值的视频片段数量；其中，第一预设阈值小于第二预设阈值；当确定视频片段数量，在达到预设数量阈值后未继续增加时，判定满足视频切分停止条件。

在一个实施例中，相似镜头合并模块还用于：

获取各初始视频镜头对应的特征向量；基于预设聚类步长确定预设相邻范围内的各相邻镜头；根据各初始视频镜头的特征向量，计算得到当前初始视频镜头和预设相邻范围内的各相邻镜头间的相似度；根据相似度，确定出和当前初始视频镜头具有相似内容的相似镜头；将当前初始视频镜头和具有相似内容的相似镜头进行合并，得到合并后的相似镜头。

在一个实施例中，提供了一种视频数据处理装置，还包括视频片段更新模块，用于：获取各视频片段的片段时长；将片段时长小于第一预设阈值的视频片段确定为待二次处理的视频片段；对相邻的待二次处理的视频片段，进行合并处理，得到更新后的视频片段。

在一个实施例中，视频片段更新模块还用于：

获取待拆条视频对应的开头视频片段的第一片段时长，以及结尾视频片段的第二片段时长；当第一片段时长、第二片段时长不满足预设时长要求时，向内合并相邻的视频片段，直至第一片段时长、第二片段时长满足预设时长要求时，得到更新后的视频片段。

关于视频数据处理装置的具体限定可以参见上文中对于视频数据处理方法的限定，在此不再赘述。上述视频数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括通过系统总线1101连接的处理器1102、存储器和网络接口1103。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质1104、内存储器1105。该非易失性存储介质1104存储有操作系统1106、计算机程序1107和数据库1108。该内存储器为非易失性存储介质中的操作系统1106和计算机程序1107的运行提供环境。该计算机设备的数据库1108用于存储初始视频镜头、相似镜头以及视频拆条结果等数据。该计算机设备的网络接口1103用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频数据处理方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述人脸视频区域、连续相同动作视频区域以及相似镜头进行合并，直至满足视频切分停止条件时，得到多个视频片段，包括：

在满足预设聚类步长要求时，将所述人脸视频区域和所述连续相同动作视频区域进行合并，得到具有人脸视频区域和连续相同动作视频区域的第一中间镜头；

将所述第一中间镜头和所述相似镜头进行合并，直至满足所述视频切分停止条件时，得到包含所述人脸视频区域的多个视频片段。

3.根据权利要求2所述的方法，其特征在于，在将所述第一中间镜头和所述相似镜头进行合并后，所述方法还包括：

获取根据所述第一中间镜头和所述相似镜头进行合并得到的第二中间镜头；

基于所述第二中间镜头进行相似镜头合并，得到合并后的第二相似镜头；

将所述第二相似镜头、所述人脸视频区域以及连续相同动作视频区域进行合并，直至满足所述视频切分停止条件时，得到多个视频片段。

4.根据权利要求3所述的方法，其特征在于，在将所述第二相似镜头、所述人脸视频区域以及连续相同动作视频区域进行合并之后，还包括：

获取根据所述第二相似镜头、所述人脸视频区域以及连续相同动作视频区域进行合并得到第三中间镜头；

将所述第三中间镜头和多个所述初始视频镜头进行合并，直至满足所述视频切分停止条件时，得到多个视频片段。

5.根据权利要求1至4任意一项所述的方法，其特征在于，判断是否满足所述视频切分停止条件，包括：

获取多个所述视频片段中片段时长小于第一预设阈值或大于第二预设阈值的视频片段数量；其中，所述第一预设阈值小于所述第二预设阈值；

当确定所述视频片段数量，在达到预设数量阈值后未继续增加时，判定满足所述视频切分停止条件。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取各所述视频片段的片段时长；

将片段时长小于所述第一预设阈值的视频片段确定为待二次处理的视频片段；

对相邻的所述待二次处理的所述视频片段，进行合并处理，得到更新后的视频片段。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取所述待拆条视频对应的开头视频片段的第一片段时长，以及结尾视频片段的第二片段时长；

当所述第一片段时长、所述第二片段时长不满足预设时长要求时，向内合并相邻的视频片段，直至所述第一片段时长、所述第二片段时长满足预设时长要求时，得到更新后的视频片段。

8.根据权利要求1所述的方法，其特征在于，基于所述多个初始视频镜头对应的视频帧，沿时间轴合并具有相似内容的所述初始视频镜头，得到相似镜头，包括：

获取各所述初始视频镜头对应的特征向量；

基于预设合并步长确定预设相邻范围内的各相邻镜头；

根据各所述初始视频镜头的特征向量，计算得到当前初始视频镜头和所述预设相邻范围内的各相邻镜头间的相似度；

根据所述相似度，确定出和当前初始视频镜头具有相似内容的相似镜头；

沿时间轴将所述当前初始视频镜头和所述具有相似内容的相似镜头进行合并，得到相似镜头。

9.根据权利要求1至4任意一项所述的方法，其特征在于，所述方法还包括：

对各所述视频片段进行人脸识别，确定人物名称；

根据置信度对确定出的所述人物名称进行排序，生成人物名称序列；

将所述人物名称序列和预存节目先导词进行比对，生成比对结果；

根据所述比对结果，将所述视频片段和预存节目先导词进行对齐，生成对应的节目输出结果。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。