CN115379301A

CN115379301A - 视频处理方法以及相关设备

Info

Publication number: CN115379301A
Application number: CN202211000062.3A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-11-22

Abstract

本申请公开了一种视频处理方法以及相关设备，相关实施例可应用于云技术、人工智能、音视频、智慧交通、辅助驾驶等各种场景；可以获取目标视频和包含非正片内容的参考视频；根据所述目标视频和所述参考视频的视频帧相似度，构建至少一个相似帧对；根据所述相似帧对中视频帧之间的时间偏差信息，对所述相似帧对进行视频帧重组处理，得到属于所述目标视频的目标匹配视频片段；对所述目标视频中视频帧进行内容识别，以从所述目标视频的视频帧中选取出帧内容包含非正片内容的视频帧；基于被选取的视频帧，对所述目标匹配视频片段进行矫正处理，以从所述目标视频中确定出属于正片内容的目标视频片段。本申请可以提高视频正片识别的准确率和效率。

Description

视频处理方法以及相关设备

技术领域

本申请涉及计算机技术领域，具体涉及一种视频处理方法以及相关设备。

背景技术

随着计算机技术的发展，多媒体的应用越来越广泛，各种各样的视频在网络上不断涌现，上网观看视频或者对网络上的视频进行二次创作的网民也越来越多。在网络视频播放场景中，大部分用户会选择自动跳过视频内容的非正片内容(如片头、片尾)而直接播放视频正片。在视频的二次创作场景中，一般需要相对纯净的视频作为素材，这样要先获取视频的正片内容再进行二次创作。因此，如何识别视频的正片内容是一个重要的问题，它可以让观看者自动跳过视频片头或片尾，还可以让视频二次创作者直接针对视频的正片内容进行创作。

在目前的相关技术中，由于视频的非正片内容可能是不同画面、不同文字的报幕、商标及视频主题等信息，较难使用机器针对特定样式统一识别，因此一般采用人工的方法进行识别，这样的识别效率和准确率较低，且耗费大量人力物力。

发明内容

本申请实施例提供一种视频处理方法以及相关设备，相关设备可以包括视频处理装置、电子设备、计算机可读存储介质和计算机程序产品，可以提高视频正片识别的准确率和效率。

本申请实施例提供一种视频处理方法，包括：

获取目标视频和包含非正片内容的参考视频；

根据所述目标视频和所述参考视频的视频帧相似度，构建至少一个相似帧对，所述相似帧对包括相似度满足预设相似度条件的所述目标视频和所述参考视频的视频帧；

根据所述相似帧对中视频帧之间的时间偏差信息，对所述相似帧对进行视频帧重组处理，得到属于所述目标视频的目标匹配视频片段，所述目标匹配视频片段与所述参考视频的内容相匹配；

对所述目标视频中视频帧进行内容识别，以从所述目标视频的视频帧中选取出帧内容包含非正片内容的视频帧；

基于被选取的视频帧，对所述目标匹配视频片段进行矫正处理，以从所述目标视频中确定出属于正片内容的目标视频片段。

相应的，本申请实施例提供一种视频处理装置，包括：

获取单元，用于获取目标视频和包含非正片内容的参考视频；

构建单元，用于根据所述目标视频和所述参考视频的视频帧相似度，构建至少一个相似帧对，所述相似帧对包括相似度满足预设相似度条件的所述目标视频和所述参考视频的视频帧；

重组单元，用于根据所述相似帧对中视频帧之间的时间偏差信息，对所述相似帧对进行视频帧重组处理，得到属于所述目标视频的目标匹配视频片段，所述目标匹配视频片段与所述参考视频的内容相匹配；

识别单元，用于对所述目标视频中视频帧进行内容识别，以从所述目标视频的视频帧中选取出帧内容包含非正片内容的视频帧；

矫正单元，用于基于被选取的视频帧，对所述目标匹配视频片段进行矫正处理，以从所述目标视频中确定出属于正片内容的目标视频片段。

可选的，在本申请的一些实施例中，所述构建单元可以包括计算子单元、第一确定子单元和构建子单元，如下：

所述计算子单元，用于针对所述目标视频中各目标视频帧，计算所述目标视频帧与所述参考视频中各参考视频帧之间的相似度；

第一确定子单元，用于根据所述相似度，从所述参考视频的参考视频帧中确定所述目标视频帧对应的相似参考视频帧；

构建子单元，用于基于所述目标视频帧和所述目标视频帧对应的相似参考视频帧，构建至少一个相似帧对。

可选的，在本申请的一些实施例中，所述重组单元可以包括第二确定子单元、第一重组子单元和第一合并子单元，如下：

所述第二确定子单元，用于基于所述相似帧对中视频帧的时间信息，确定所述相似帧对中视频帧之间的时间偏差信息；

第一重组子单元，用于根据所述时间偏差信息，对所述相似帧对进行重组处理，得到所述时间偏差信息对应的相似帧对数组，所述相似帧对数组包括所述时间偏差信息对应的至少一个相似帧对；

第一合并子单元，用于基于所述相似帧对数组中视频帧的时间信息，对所述相似帧对数组中各相似帧对进行合并处理，得到属于所述目标视频的目标匹配视频片段。

可选的，在本申请的一些实施例中，所述第一重组子单元具体可以用于根据所述时间偏差信息，对所述相似帧对进行排序处理，得到排序后的相似帧对；对所述排序后的相似帧对进行重组处理，得到所述时间偏差信息对应的初始相似帧对数组；将时间偏差信息满足预设时间偏差条件的初始相似帧对数组进行合并处理，得到所述时间偏差信息对应的相似帧对数组。

可选的，在本申请的一些实施例中，所述第一合并子单元具体可以用于针对所述相似帧对数组中每个相似帧对，当所述相似帧对中视频帧与相邻相似帧对中视频帧对应的时间信息满足预设时间条件时，将所述相似帧对添加到预设匹配集合中，得到目标匹配集合；对所述目标匹配集合中的相似帧对进行合并处理，得到所述目标视频对应的至少一个匹配视频片段；对所述匹配视频片段进行片段调整，得到属于所述目标视频的目标匹配视频片段。

可选的，在本申请的一些实施例中，步骤“对所述匹配视频片段进行片段调整，得到属于所述目标视频的目标匹配视频片段”，可以包括：

计算每两个匹配视频片段对应的片段重合度；

根据所述片段重合度，对所述匹配视频片段进行调整；

当调整后的匹配视频片段的片段时长不满足预设条件时，将所述调整后的匹配视频片段进行删除，得到属于所述目标视频的目标匹配视频片段。

可选的，在本申请的一些实施例中，所述重组单元可以包括第二重组子单元、第二合并子单元和第三确定子单元，如下：

所述第二重组子单元，用于根据所述相似帧对中视频帧之间的时间偏差信息，对所述相似帧对进行视频帧重组处理，得到属于所述目标视频的至少一个匹配视频片段，各个匹配视频片段分别与各个参考视频的内容相匹配；

第二合并子单元，用于根据各个匹配视频片段对应的片段重合度，对各个匹配视频片段进行合并处理，得到合并后的匹配视频片段和所述合并后的匹配视频片段对应的频次信息；

第三确定子单元，用于基于所述频次信息，从所述合并后的匹配视频片段中确定目标匹配视频片段。

可选的，在本申请的一些实施例中，所述构建单元具体可以用于根据所述目标视频和所述参考视频在至少一个模态下的视频帧相似度，构建所述至少一个模态下的相似帧对；

所述重组单元可以包括第三重组子单元、第四确定子单元和第五确定子单元，如下：

所述第三重组子单元，用于针对每个模态，根据所述模态下所述相似帧对中视频帧之间的时间偏差信息，对所述相似帧对进行视频帧重组处理，得到所述模态下属于所述目标视频的匹配视频片段；

第四确定子单元，用于基于各个模态对应的匹配视频片段的片段起始位置和片段结束位置，确定目标片段起始位置和目标片段结束位置；

第五确定子单元，用于根据所述目标片段起始位置和所述目标片段结束位置，确定属于所述目标视频的目标匹配视频片段。

可选的，在本申请的一些实施例中，所述识别单元可以包括第一识别子单元、第二识别子单元和第六确定子单元，如下：

所述第一识别子单元，用于对所述目标视频中视频帧进行图像类别识别，得到符合预设图像内容无效类型的第一视频帧；

第二识别子单元，用于对所述目标视频中视频帧进行文本识别，得到命中预设无效文本的第二视频帧；

第六确定子单元，用于基于所述第一视频帧和所述第二视频帧，确定帧内容包含非正片内容的视频帧。

可选的，在本申请的一些实施例中，所述矫正单元可以包括第七确定子单元、第八确定子单元和矫正子单元，如下：

所述第七确定子单元，用于根据所述目标匹配视频片段，确定所述目标视频中属于正片内容的初始目标视频片段；

第八确定子单元，用于基于被选取的视频帧，确定所述初始目标视频片段中无效视频帧的视频帧比例；

矫正子单元，用于基于所述视频帧比例、以及从初始目标视频片段的目标位置起的预设片段内无效视频帧的数量，对所述初始目标视频片段进行矫正处理，得到所述目标视频中属于正片内容的目标视频片段。

本申请实施例提供的一种电子设备，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器加载所述计算机程序，以执行本申请实施例提供的视频处理方法中的步骤。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现本申请实施例提供的视频处理方法中的步骤。

此外，本申请实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的视频处理方法中的步骤。

本申请实施例提供了一种视频处理方法以及相关设备，可以获取目标视频和包含非正片内容的参考视频；根据所述目标视频和所述参考视频的视频帧相似度，构建至少一个相似帧对，所述相似帧对包括相似度满足预设相似度条件的所述目标视频和所述参考视频的视频帧；根据所述相似帧对中视频帧之间的时间偏差信息，对所述相似帧对进行视频帧重组处理，得到属于所述目标视频的目标匹配视频片段，所述目标匹配视频片段与所述参考视频的内容相匹配；对所述目标视频中视频帧进行内容识别，以从所述目标视频的视频帧中选取出帧内容包含非正片内容的视频帧；基于被选取的视频帧，对所述目标匹配视频片段进行矫正处理，以从所述目标视频中确定出属于正片内容的目标视频片段。本申请可以基于目标视频与参考视频的相似帧对，确定目标视频的目标匹配视频片段，并结合目标视频中各视频帧的内容识别结果对目标匹配视频片段进行矫正，从而实现视频中正片内容的自动识别，提高了视频正片识别的准确率和效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的视频处理方法的场景示意图；

图1b是本申请实施例提供的视频处理方法的流程图；

图1c是本申请实施例提供的视频处理方法的说明图；

图1d是本申请实施例提供的视频处理方法的另一说明图；

图1e是本申请实施例提供的视频处理方法的另一说明图；

图1f是本申请实施例提供的视频处理方法的另一说明图；

图1g是本申请实施例提供的视频处理方法的页面示意图；

图1h是本申请实施例提供的视频处理方法的另一页面示意图；

图1i是本申请实施例提供的视频处理方法的另一流程图；

图1j是本申请实施例提供的视频处理方法的另一流程图；

图1k是本申请实施例提供的视频处理方法的另一流程图；

图1l是本申请实施例提供的视频处理方法的另一流程图；

图1m是本申请实施例提供的视频处理方法的另一流程图；

图2是本申请实施例提供的视频处理装置的结构示意图；

图3是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种视频处理方法以及相关设备，相关设备可以包括视频处理装置、电子设备、计算机可读存储介质和计算机程序产品。该视频处理装置具体可以集成在电子设备中，该电子设备可以是终端或服务器等设备。

可以理解的是，本实施例的视频处理方法可以是在终端上执行的，也可以是在服务器上执行，还可以由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。

如图1a所示，以终端和服务器共同执行视频处理方法为例。本申请实施例提供的视频处理系统包括终端10和服务器11等；终端10与服务器11之间通过网络连接，比如，通过有线或无线网络连接等。

其中，服务器11，可以用于：获取目标视频和包含非正片内容的参考视频；根据所述目标视频和所述参考视频的视频帧相似度，构建至少一个相似帧对，所述相似帧对包括相似度满足预设相似度条件的所述目标视频和所述参考视频的视频帧；根据所述相似帧对中视频帧之间的时间偏差信息，对所述相似帧对进行视频帧重组处理，得到属于所述目标视频的目标匹配视频片段，所述目标匹配视频片段与所述参考视频的内容相匹配；对所述目标视频中视频帧进行内容识别，以从所述目标视频的视频帧中选取出帧内容包含非正片内容的视频帧；基于被选取的视频帧，对所述目标匹配视频片段进行矫正处理，以从所述目标视频中确定出属于正片内容的目标视频片段。其中，服务器11可以是单台服务器，也可以是由多个服务器组成的服务器集群或云服务器。本申请所公开的视频处理方法或装置，其中多个服务器可组成为一区块链，而服务器为区块链上的节点。

其中，终端10，可以用于：向服务器11发送待识别正片内容的目标视频，以触发服务器11对目标视频进行正片内容的识别；终端10还可以接收服务器11发送的目标视频中属于正片内容的目标视频片段。其中，终端10可以包括手机、智能语音交互设备、智能家电、车载终端、飞行器、平板电脑、笔记本电脑、或台式电脑等。终端10上还可以设置客户端，该客户端可以是视频客户端或浏览器客户端等等。

上述服务器11中进行正片内容识别等步骤，也可以由终端10执行。

本申请实施例提供的视频处理方法涉及人工智能领域中的自然语言处理和计算机视觉技术。

其中，人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

其中，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

其中，计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本申请实施例的视频处理方法可以应用于视频的片头片尾识别等场景中。本实施例可应用于云技术、人工智能、音视频、智慧交通、辅助驾驶等各种场景。

该视频处理方法可以由电子设备执行，该电子设备可以是服务器或终端等设备。如图1b所示，该视频处理方法的具体流程可以如下：

101、获取目标视频和包含非正片内容的参考视频。

其中，目标视频可以是待识别正片内容的视频，也可以是待识别非正片内容的视频。目标视频可以是任意类型的视频，如可以是影视剧视频、自媒体制作的中视频、用户随手拍的短视频、以及游戏回播视频等，本实施例对此不作限制。

其中，影视剧视频可以是长视频，包含电影电视剧视频，此类视频的片头片尾常为相对固定的画面，且片头片尾还包含第几集、本集内容、前情提要等关键文本信息。

中视频可以是自媒体或平台媒体的自制剧类型视频，如一些小提琴课程等，此类剧集下的视频时长一般为3～10分钟不等，其片头片尾时长可以持续5～20s左右。因为此类视频比电视剧、电影短，同时比个人用户随手拍的短视频长，因此称为中视频。

用户短视频具体可以指个人用户通过自拍、制作等方式录制的3分钟以内以分享生活、小知识、心得、技能、观点为主的视频，一般来说，此类视频开头或末尾除了会包含用户logo、广告二维码类型等个人用户推广信息的视频片段外，还可能有包含平台标识(logo)的一小段平台推广视频片段，例如，一些视频平台会在用户视频末尾加上一段带这些视频平台标识的视频片段。

其中，一些实施例中，若目标视频为某个剧目下的视频，则参考视频可以是与目标视频属于同一剧目下的其他视频，这些参考视频可以包括正片内容。其中，这里的剧目可以指包含至少两个视频的视频集合，且剧目中的各个视频在剧情上存在关联关系。

另一些实施例中，参考视频也可以是已生成的非正片内容对应的视频，这些参考视频可以只包含非正片内容，不包含正片内容；比如，参考视频可以是预设通用片头片尾库中的片头片尾，在具体场景中，可以将识别到新的片头片尾添加到通用片头片尾库中。

一般地，视频可以由正片内容和非正片内容构成，这里所说的非正片内容具体可以包括片头和片尾等。正片内容一般是用户较为关注的内容，很多用户在观看视频时倾向于观看正片内容对应的视频片段，因此，很多客户端都为用户提供了跳过片头片尾的选项。

一些场景中，如在视频的二次创作，创作者也会选择相对纯净的视频作为素材，因此需要去除原始视频中对创作无意义的推广内容，由于此类推广内容常在视频的首尾端、且在同一用户、或同一视频剧集下多个视频中重复出现，所以通常又称为视频的片头片尾，因此对视频进行自动片头片尾识别也是视频自动创作(具体即视频智能生产)的重要一步。

在目前的相关技术中，一般通过人工观看视频的方法来对视频的正片内容进行标记，具体可以是对视频中正片内容的开始时间点(也即片首时间戳)和结束时间点(也即即片尾时间戳)进行标记，从而基于标记的开始时间点和结束时间点实现跳过片首片尾。这种做法不仅非常低效，而且耗费人力。

具体地，视频的非正片内容可以包括固定元素，也可以包括非固定元素。比如，对于长视频，片头片尾在多个剧集中会重复出现一些固定的画面，也存在黑屏报幕、文字剧情提示等非固定的元素。对于短视频，其片头片尾主要是用户或平台的logo片段，具体可以为时长较短的固定画面；另外，由于短视频主题、内容的不同，同一用户、或同一视频剧集下短视频也经常会有不同的片头片尾。对于中视频，其片头片尾内容既有可能是变化的，也有可能相对固定的；而且还会存在画面内容变化但又维持某些元素(如用户logo)固定的片头片尾。

本申请提供的视频处理方法可以基于视频帧级别时序相似度，确定出视频中固定元素(或称为重复元素)，具体也即相对固定的非正片内容，并结合视频文本识别结果和视频画面分类识别结果，确定视频中相对不固定的非正片内容(即上述所说的不固定元素，或称为非重复元素、变化元素)；本申请通过重复元素检索、以及非重复元素的画面识别与文字理解层面识别，实现视频中非正片内容的定位，从而识别出视频的正片内容。

102、根据所述目标视频和所述参考视频的视频帧相似度，构建至少一个相似帧对，所述相似帧对包括相似度满足预设相似度条件的所述目标视频和所述参考视频的视频帧。

其中，具体地，在构建相似帧对前，需要提取目标视频和参考视频中视频帧的特征信息。在一些实施例中，可以先对目标视频和参考视频进行抽帧处理，再对抽取得到的视频帧进行特征提取。

在一实施例中，对视频进行抽帧，如对于25fps(Frames Per Second，每秒传输帧数)的6秒视频，若每1秒抽取一帧，则共抽取6个视频帧图像。

其中，提取视频帧的特征信息，具体可以是对视频帧进行卷积处理，再进行池化处理等，本实施例对此不作限制。

本实施例中，可以提取视频帧在不同模态下的特征信息，这里的不同模态可以包括文本、音频、以及图像等。

具体地，视频(具体可以是目标视频或参考视频)中视频帧在图像模态下的特征信息，也即图像特征信息，可以记为embedding1。图像特征信息用于描述图像信息的特征，它可以包括图像底层表征和图像语义表征，图像特征信息不局限于浮点特征，也可以是二值特征向量组成的图像表征，即深度哈希特征。

其中，图像底层表征是一种来自深度学习底层特征的图像特征信息，主要描述全图图像纹理、特征布局等一些表征信息。图像语义表征是一种来自语义学习的图像特征信息，主要描述图像中带有某些指定语义内容部位的表征，如用于描述狗的特征信息，可通过提取图像中狗所在位置的特征作为图像表征。

其中，图像特征信息的特征提取过程可以如下所述：

对抽取到的每个视频帧图像经过特征提取器进行处理，获取到每一视频帧图像的特征信息，若每个视频抽取6帧，则该视频有6个图像特征信息。其中，特征提取器对应的神经网络结构可以有多种，本实施例对此不作限制，比如，特征提取器可以采用基于物体识别开源分类数据集imagenet训练的resnet101模型的池化层输出，将每个视频帧图像转化为1x2048的特征向量，特征提取器结构具体可以如表1所示：

表1

其中，resnet101(残差神经网络，Residual Neural Network)为提取图像特征信息的CNN(Convolutional Neural Network，卷积神经网络)结构。Max pool表示最大池化处理，stride表示步幅，blocks表示神经网络结构块。

具体地，视频(具体可以是目标视频或参考视频)中视频帧在文本模态下的特征信息，也即文本特征信息，可以记为embedding2，其特征提取过程可以如下所述：

对抽取得到的每个视频帧图像进行OCR(Optical Character Recognition，光学字符识别)的文本识别，从而获取到每个视频帧图像上的文本；然后对每个视频帧图像中的文本采用开源的基于transformer网络结构的BERT文本模型来提取特征向量，具体步骤如下：

先通过图像转文本工具来提取图像中的文本，具体可以采用开源的PaddleOCR，PaddleOCR是一种基于飞桨的OCR工具库，将其安装后，可以采用下述指令识别图像的文本，或根据需要调整，如选择其他模型、保存其他格式等。

在提取到图像中的文本后，可以安装transformer工具，再利用transformer工具提取文本(每个视频帧图像的文本可以拼接成一个文字段再进行提取)的特征信息。

其中，transformer网络是一种基于注意力机制来实现的特征提取器，它可以直接捕获序列中的长距离依赖关系，而且transformer模型的并行度高，可以使得模型的训练时间大幅降低。BERT也即双向编码器表示(Bidirectional Encoder Representations fromTransformers)，它是基于变压器(transformer)结构的开源的时序模型。

可选的，本实施例中，步骤“根据所述目标视频和所述参考视频的视频帧相似度，构建至少一个相似帧对”，可以包括：

根据所述目标视频和所述参考视频在至少一个模态下的视频帧相似度，构建所述至少一个模态下的相似帧对。

一些实施例中，可以提取目标视频和参考视频中视频帧在图像模态下的图像特征信息，基于目标视频中视频帧的图像特征信息和参考视频中视频帧的图像特征信息之间的相似度，构建图像模态下的相似帧对。

另一些实施例中，可以提取目标视频和参考视频中视频帧在文本模态下的文本特征信息，基于目标视频中视频帧的文本特征信息和参考视频中视频帧的文本特征信息之间的相似度，构建文本模态下的相似帧对。

针对所述目标视频中各目标视频帧，计算所述目标视频帧与所述参考视频中各参考视频帧之间的相似度；

根据所述相似度，从所述参考视频的参考视频帧中确定所述目标视频帧对应的相似参考视频帧；

基于所述目标视频帧和所述目标视频帧对应的相似参考视频帧，构建至少一个相似帧对。

其中，目标视频帧和参考视频帧的相似度的计算方式有多种，本实施例对此不作限制。比如，可以采用欧式距离、或余弦距离来计算相似度。

其中，一些实施例中，可以将与目标视频帧的相似度大于预设值的参考视频帧确定为相似参考视频帧，该预设值可以根据实际情况进行设置。另一些实施例中，可以根据相似度，对参考视频中各参考视频帧进行排序，如从大到小进行排序，将排序后的参考视频帧中前n个参考视频帧作为目标视频帧的相似参考视频帧。

其中，相似帧对可以包括相似度满足预设相似度条件的目标视频帧和参考视频帧。该预设相似度条件可以根据实际情况进行设置，比如，该预设相似度条件可以是参考视频帧与目标视频帧的相似度大于预设值。

103、根据所述相似帧对中视频帧之间的时间偏差信息，对所述相似帧对进行视频帧重组处理，得到属于所述目标视频的目标匹配视频片段，所述目标匹配视频片段与所述参考视频的内容相匹配。

其中，具体地，目标匹配视频片段可以看作是目标视频和参考视频中相似或者相同(也即重复)的视频片段，该视频片段可以视作非正片内容。

可选的，本实施例中，步骤“根据所述相似帧对中视频帧之间的时间偏差信息，对所述相似帧对进行视频帧重组处理，得到属于所述目标视频的目标匹配视频片段”，可以包括：

基于所述相似帧对中视频帧的时间信息，确定所述相似帧对中视频帧之间的时间偏差信息；

根据所述时间偏差信息，对所述相似帧对进行重组处理，得到所述时间偏差信息对应的相似帧对数组，所述相似帧对数组包括所述时间偏差信息对应的至少一个相似帧对；

基于所述相似帧对数组中视频帧的时间信息，对所述相似帧对数组中各相似帧对进行合并处理，得到属于所述目标视频的目标匹配视频片段。

其中，视频帧的时间信息可以是视频帧在目标视频或者参考视频中的帧序号，具体地，视频帧为对目标视频或者参考视频进行帧抽取得到，若每隔一秒抽取一帧，则视频帧的帧序号也即秒数。

其中，相似帧对中视频帧之间的时间偏差信息具体为相似帧对中目标视频帧的时间信息和参考视频帧的时间信息之差，目标视频帧为目标视频中的视频帧，参考视频帧为参考视频中的视频帧。

比如，某个相似帧对中目标视频帧的时间信息为第1秒，也即该目标视频帧为目标视频中第1秒的视频帧，若该相似帧对中参考视频帧的时间信息为第2秒，即该参考视频帧为参考视频中第2秒的视频帧，则该相似帧对中视频帧之间的时间偏差信息为1秒。

本实施例中，可以根据时间偏差信息对相似帧对进行重组处理，得到不同时间偏差信息对应的相似帧对数组。例如，相似帧对记为[j，s]，j表示目标视频帧的时间信息，s表示参考视频帧的时间信息，存在相似帧对[2，4]、[3，5]、[4，6]、[6，9]、[7，10]、[10，11]、[11，12]，其中，相似帧对[2，4]、[3，5]、[4，6]的时间偏差信息为2，相似帧对[6，9]、[7，10]的时间偏差信息为3，相似帧对[10，11]、[11，12]的时间偏差信息为1，根据时间偏差信息的不同，可以分为三个相似帧对数组，分别为时间偏差信息为1对应的相似帧对数组，时间偏差信息为2对应的相似帧对数组，时间偏差信息为3对应的相似帧对数组。其中，时间偏差信息为1对应的相似帧对数组包括相似帧对[10，11]、[11，12]，时间偏差信息为2对应的相似帧对数组包括相似帧对[2，4]、[3，5]、[4，6]，时间偏差信息为3对应的相似帧对数组包括相似帧对[6，9]、[7，10]。

可选的，本实施例中，步骤“根据所述时间偏差信息，对所述相似帧对进行重组处理，得到所述时间偏差信息对应的相似帧对数组”，可以包括：

根据所述时间偏差信息，对所述相似帧对进行排序处理，得到排序后的相似帧对；

对所述排序后的相似帧对进行重组处理，得到所述时间偏差信息对应的初始相似帧对数组；

将时间偏差信息满足预设时间偏差条件的初始相似帧对数组进行合并处理，得到所述时间偏差信息对应的相似帧对数组。

其中，可以对相似帧对按照时间偏差信息从小到大进行排序，对于时间偏差信息相同的相似帧对，可以按照目标视频帧的帧序号从小到大进行排序，从而得到相似帧对集合，相似帧对集合包括排序后的相似帧对。

其中，可以对排序后的相似帧对进行重组处理，得到不同时间偏差信息对应的初始相似帧对数组。

其中，预设时间偏差条件可以根据实际情况进行设置，本实施例对此不作限制；比如，预设时间偏差条件可以是时间偏差信息在预设时间内，该预设时间可以是3秒。

可选地，本实施例中，步骤“将时间偏差信息满足预设时间偏差条件的初始相似帧对数组进行合并处理，得到所述时间偏差信息对应的相似帧对数组”，可以包括：

将时间偏差信息满足预设时间偏差条件的初始相似帧对数组进行合并处理，得到合并后的相似帧对数组，并对合并后相似帧对数组中的相似帧对进行更新；

根据所述时间偏差信息，对更新后的相似帧对进行重排序处理，得到重排序后的相似帧对；

对所述重排序后的相似帧对进行重组处理，得到所述时间偏差信息对应的相似帧对数组。

其中，可以将时间偏差信息满足预设时间偏差条件的初始相似帧对数组进行合并处理，对合并后相似帧对数组中时间偏差信息较大的初始相似帧对数组中的相似帧对进行更新，具体可以是基于合并后相似帧对数组中较小的时间偏差信息，对这些相似帧对中的参考视频帧的帧序号进行更改，使得合并后相似帧对数组中的相似帧对的时间偏差信息都相同。

在对合并后相似帧对数组中的相似帧对进行更新后，可以根据时间偏差信息，对更新后的相似帧对进行从小到大进行排序处理(即重排序)；对于时间偏差信息相同的相似帧对，可以按照相似帧对中目标视频帧的帧序号从小到大进行排序，从而得到重排序后的相似帧对。再对重排序后的相似帧对进行重组处理，可以得到不同时间偏差信息对应的相似帧对数组。

在一具体实施例中，目标视频记为视频i，参考视频记为视频r，目标视频i和参考视频r可以构成视频对[i，r]；本实施例可以基于序列相似度检索来确定属于目标视频的目标匹配视频片段，序列相似度检索又可称为时间段匹配算法，采用时间段匹配算法对视频对[i，r]处理的具体步骤如下：

1)设置特征信息对应的预设距离阈值t0＝0.3，当两个视频帧的特征信息之间的欧式距离小于0.3，则表示代表这两个视频帧为相似的帧，该预设距离阈值可以根据实际情况进行设置；

2)对视频对[i，r]中的两个视频分别进行视频帧抽取，并且获取每个视频帧的特征信息，得到每个视频的特征信息序列；

3)将目标视频i中的每个视频帧记为j，对目标视频i中每帧j，计算其与参考视频r中每个视频帧的特征信息的欧式距离，取欧式距离小于t0的视频帧作为j的相似帧(即上述实施例中的相似参考视频帧)，从而基于帧j的各相似参考视频帧，构建帧j的相似帧列表sim-id-list，同时记录对应的相似帧时间偏差信息列表diff-time-list；

比如，对于j＝1帧，计算得到其相似参考视频帧为视频r中第1帧、第2帧和第3帧，则帧j对应的相似帧列表sim-id-list为[1，2，3]，表示与视频r的第1、2、3秒相似；其时间偏差信息列表diff-time-list为[0，1，2]，表示sim-id-list中相似参考视频帧与j＝1帧所代表的时间的距离。这里默认抽帧为每秒抽取1帧，因此帧的序号即为秒数；

这样可以获取到目标视频i的所有视频帧的相似帧列表SL、以及时间偏差信息列表TL；

4)遍历所有帧统计视频i和视频r有匹配的帧数(即步骤3中在r视频中有匹配的参考视频帧的j的数量)，当有匹配帧数少于1时，则视频i与视频r没有相似或者相同的视频段，可以认为挖掘不到片头片尾，否则进行步骤5)；

5)基于时间偏差信息(dt，diff-time)对相似帧列表SL进行重排序得到新的SL列表。其中，具体地，可以先将相似帧列表SL变换为相似帧对的形式，比如，目标视频中的帧j＝1的相似帧列表sim-id-list为[1，2，3]，可以将其变换为相似帧对[1,1]，[1,2]，[1,3]；然后，对各相似帧对按dt从小到大排序(当dt相同时按视频i的帧序号从小到大排序)，同时按此顺序重组对应的diff-time-list，即时间差为0的排在最前面，为1的在其后等，如新的SL列表可以为[10,11]，[11,12]，[2,4]，[3,5]，[4,6]，[6,9]，[7,10]。

6)基于dt进行数据重组得到match-dt-list。具体地，对视频i中所有视频帧的相似帧列表SL，以时间偏差信息为主键重组得到按照dt从小到大的列表，也即得到时间偏差信息为0s、1s、2s…下的相似帧match-dt-list(也即上述实施例中的相似帧对数组)，具体可以用{0:{count,start-id，match-id-list},…}表示，例如{2:{3,2,[[2,4],[3,5],[4,6]]}，3:{2,6,[[6,9],[7,10]]}}，其中第一个2指的是时间偏差信息为2，如视频i的第2帧和视频r的第4帧相似，则这两帧构成的相似帧对[2,4]的时间偏差信息为2；count为该时间偏差信息下的相似帧对的数量，上述视频i的第2帧和视频r的第4帧相似，则count加1；start-id指的是该时间偏差信息下，视频i的最小帧id(Identity document，标识信息)，如视频i的第1帧与视频r不相似，而视频i的第2帧与视频r的第4帧相似，则start-id为2；

7)对match-dt-list中前后dt小于3的两个dt列表合并(即对时间偏差信息在3s以内的相似帧对合并)，具体可以把dt较大的match-dt-list合入dt较小的match-dt-list中，同时把dt较大的match-dt-list中的相似帧对进行更新，并更新步骤5)中的相似帧列表SL；

如上述举例中，dt为2的match-dt-list和dt为3的match-dt-list可以合并，最终得到{2:{5,2,[[2,4],[3,5],[4,6],[6,8],[7,9]]}}，其中count为dt＝2和dt＝3的count之和，start-id为从dt＝2和dt＝3的匹配帧列表match-dt-list中找到视频i的最小帧，对于dt＝3的match-dt-list，可以改写匹配到的帧的序号，再将其合入，如把[6,9]改写成[6,8]后合入dt＝2的match-dt-list中；同时，可以把帧序号改写过的相似帧对同步更新到步骤5)的相似帧列表SL中，如更新为：[10,11]，[11,12]，[2,4]，[3,5]，[4,6]，[6,8]，[7,9]；

8)基于dt对相似帧列表SL进行重排序。具体地，对新的SL列表再执行一次步骤5)，得到以dt从小到大排序(当dt相同时按视频i的帧序号从小到大排序)的新的相似帧列表SL。其中，再一次执行步骤5)。是由于上述合并帧列表可能会打乱dt或者帧序号的顺序，因此要重新排序；

9)以dt进行数据重组得到新的match-dt-list。具体也即再次执行步骤6)，得到各时间偏差信息对应的相似帧对数组，从而基于相似帧对数组中视频帧的时间信息，对相似帧对数组中各相似帧对进行合并处理，得到属于目标视频的目标匹配视频片段。

可选的，本实施例中，步骤“基于所述相似帧对数组中视频帧的时间信息，对所述相似帧对数组中各相似帧对进行合并处理，得到属于所述目标视频的目标匹配视频片段”，可以包括：

针对所述相似帧对数组中每个相似帧对，当所述相似帧对中视频帧与相邻相似帧对中视频帧对应的时间信息满足预设时间条件时，将所述相似帧对添加到预设匹配集合中，得到目标匹配集合；

对所述目标匹配集合中的相似帧对进行合并处理，得到所述目标视频对应的至少一个匹配视频片段；

对所述匹配视频片段进行片段调整，得到属于所述目标视频的目标匹配视频片段。

其中，相似帧对中视频帧与相邻相似帧对中视频帧对应的时间信息满足预设时间条件，具体可以是相似帧对中的目标视频帧与相邻相似帧对中的目标视频帧对应的时间信息满足预设时间条件，预设时间条件可以根据实际情况进行设置，本实施例对此不作限制。比如，预设时间条件可以是二者时间信息之差小于预设值，该预设值可以根据实际情况进行设置。

其中，某个相似帧对的相邻相似帧对具体可以是相似帧对数组中该相似帧对的上一个相似帧对；若该相似帧对为该相似帧对数组中的第一个相似帧对，则相邻相似帧对可以是上一个相似帧对数组中的最后一个相似帧对，这里的相似帧对数组可以按照时间偏差信息按照从小到大进行排序。

其中，预设匹配集合可以是空集，将相似帧对添加到预设匹配集合中，可以得到目标匹配集合。

在一具体实施例中，通过上述时间段匹配算法，获取属于目标视频的匹配视频片段的具体过程可以如下：

A1、预设两个匹配视频片段的时间间隔大于T2；具体地，若将两个匹配视频片段分别记为视频片段1和视频片段2，则视频片段1的最后一帧与视频片段2的第一帧的时间间隔大于T2，比如T2＝8s，在每秒1帧的情况下，帧序号相差8；

A2、对每个时间偏差信息dt(如dt＝2)下的相似帧对数组match-dt-list中的相似帧对，执行如下步骤B1到步骤B3：

B1、记相似帧对中的目标视频帧为srcT(如相似帧对[2,4]中的srcT为2)，当srcT与上一个相似帧对的srcT相差大于T2时(如相似帧对[2,4]中的srcT为2，相比上一个相似帧对[11,12]中等于11的srcT而言相差9，则大于预设时间间隔T2)，则把上一个相似帧对合并成一个匹配段，从当前srcT开始进行新的相似帧对统计，并将当前相似帧对存储在新的临时帧列表tmplist(具体即上述实施例中的预设匹配集合)里。

比如在dt＝2，srcT＝2情况下，可以把上一次的临时帧列表中的相似帧对作为单独的匹配段保存下来，比如，上一次得到的临时帧列表为tmplist＝[[10,11],[11,12]]，当前srcT与上一个相似帧对[11,12]的srcT相差大于T2，可以将tmplist＝[[10,11],[11,12]]中的相似帧对作为匹配段添加到match-duration-list中，如可以添加这样的匹配段信息：[10,11,11,12,1,2,2]，其中各值代表是[src-startTime,src-endTime,ref-startTime,ref-endTime,dt,duration,count]，即匹配段中存储两段视频的信息：视频i中匹配段的起帧，末帧，视频r中匹配段的起帧、末帧，匹配段的dt，匹配段的时长，匹配到的相似帧对数量。并将当前的相似帧对[2,4]存到新的临时帧列表里，有tmplist＝[[2,4]]；

其中，匹配段的信息如图1c所示，其中，视频i中匹配段的起帧也即src-startTime，视频i中匹配段的末帧即src-endTime，视频r中匹配段的起帧为ref-startTime，视频r中匹配段的末帧为ref-endTime。

B2,当srcT与上一个相似帧对的srcT相差小于T2时，将本次的相似帧对保存到临时帧列表tmplist里，如在dt2，srcT＝3、4、6、7的情况下，将[3,5],[4,6],[6,8],[7,9]均存储到临时帧列表中，则可以得到tmplist＝[[2,4],[3,5],[4,6],[6,8],[7,9]]；

B3,当当前的相似帧对为本dt的最后一个相似帧对(如[7,9])时，可以将临时帧列表tmplist＝[[2,4],[3,5],[4,6],[6,8],[7,9]]中累积的相似帧对组成匹配段，并添加到match-duration-list，如添加[2,7,4,9,2,6,5]，其中匹配段的时长为7-2+1，count＝5为相似帧对的计数；这样可以得到时间段匹配列表：

match-duration-list＝[[10,11,11,12,1,2,2]，[2,7,4,9,2,6,5]]，从而确定属于目标视频的匹配视频片段，即目标视频i中的第10秒到第11秒对应的视频片段、以及目标视频i中第2秒到第7秒对应的视频片段。

可选的，本实施例中，步骤“对所述匹配视频片段进行片段调整，得到属于所述目标视频的目标匹配视频片段”，可以包括：

计算每两个匹配视频片段对应的片段重合度；

根据所述片段重合度，对所述匹配视频片段进行调整；

其中，若目标视频和一个参考视频存在多个匹配视频片段，则两个匹配视频片段可能会有时间上的交叠，需要对其进行调整，从而确定出目标视频和该参考视频对应的目标匹配视频片段。

其中，根据片段重合度对匹配视频片段进行调整，具体可以包括：根据片段重合度，可以确定两个匹配视频片段是否存在重叠片段，若片段重合度为0，则两个匹配视频片段不存在重叠片段，不需要对二者进行调整，可以直接将这两个匹配视频片段作为目标视频的目标匹配视频片段；若片段重合度大于0，则两个匹配视频片段存在重叠片段，需要对二者进行调整，使得调整后的匹配视频片段的片段重合度为0，并可以将调整后的匹配视频片段作为目标视频的目标匹配视频片段。

其中，该预设条件可以根据实际情况进行设置，比如，预设条件可以是调整后的匹配视频片段的片段时长不小于预设时长，也即要求匹配段(也即匹配视频片段)的最小片段时长为预设时长，预设时长可以自行设置。若调整后的匹配视频片段的片段时长不满足预设条件时，可以将其删除；对于片段时长满足预设条件的调整后的匹配视频片段，可以将其直接作为目标视频的目标匹配视频片段。

在一具体实施例中，可以对上述实施例中的match-duration-list按count对应的相似帧对的数量进行从大到小的倒序排序，如得到match-duration-list＝[[2,7,4,9,2,6,5]，[10,11,11,12,1,2,2]]。

其中，由于相似帧对的计算是通过遍历两个视频的所有帧进行距离计算后取某阈值范围内相似的操作，这样容易出现某一帧与多个帧相似，从而会出现match-duration-list中存在两个匹配段上的时间交叠，需要对这种情况进行处理。假如match-duration-list中的匹配段存在重叠片段，对match-duration-list有交叠的匹配段进行处理的具体过程可以如下所述：

可以先设置匹配段的最小片段时长为T3，比如，T3＝5表示匹配段的最短片段时长为5秒；对match-duration-list中的匹配段i(指src-startTime，src-endTime构成的视频片段)，可以将其分别与match-duration-list中其他匹配段进行片段重合度的计算，再基于片段重合度进行视频片段的调整，如对于下一个匹配段j(j＝i+1)，其处理过程可以如下步骤1)到3)所述：

1)若匹配段i包含匹配段j，则删除匹配段j，如图1d中的(1)所示为包含的情况，匹配段i的起帧可以记为i-startTime，匹配段i的末帧可以记为i-endTime，匹配段j的起帧可以记为j-startTime，匹配段j的末帧可以记为j-endTime；

2)参考图1d中的(2)，若匹配段i和匹配段j有交集、且匹配段i的起帧在匹配段j的起帧之前时，可以把匹配段j的起帧后移到匹配段i的末帧位置，以更新调整匹配段j，使得更新后的匹配段j与匹配段i不相交，若此时更新后的匹配段j的片段时长小于T3，则删除匹配段j，否则用更新后的匹配段j替代旧的匹配段j；

3)参考图1d中的(3)，若匹配段i和匹配段j有交集、且匹配段j的起帧在匹配段i的起帧之前时，可以把匹配段j的末帧前移到匹配段i的起帧位置，以更新调整匹配段j，使得更新后的匹配段j与匹配段i不相交，若此时更新后的匹配段j的片段时长小于T3，则删除匹配段j，否则用更新后的匹配段j替代旧的匹配段j。

在对各匹配段进行调整后，可以返回调整后的时间段匹配列表信息，如match-duration-list＝[[2,7,4,9,2,6,5]，[10,11,11,12,1,2,2]]，或仅返回匹配段[[2,7,4,9],[10,11,11,12]]。

根据所述相似帧对中视频帧之间的时间偏差信息，对所述相似帧对进行视频帧重组处理，得到属于所述目标视频的至少一个匹配视频片段，各个匹配视频片段分别与各个参考视频的内容相匹配；

根据各个匹配视频片段对应的片段重合度，对各个匹配视频片段进行合并处理，得到合并后的匹配视频片段和所述合并后的匹配视频片段对应的频次信息；

基于所述频次信息，从所述合并后的匹配视频片段中确定目标匹配视频片段。

其中，若目标视频为某个剧目下的视频，则参考视频可以为与目标视频属于同一剧目下的其他视频；由于一个剧目可以有多个视频，对于此类情况下的目标视频分别与多个参考视频进行匹配段计算，得到的多个匹配视频片段中，大概率存在相同或片段重合度较高的匹配视频片段，因为一般同个剧目下的片头片尾位置是相对固定不变的，因此可以结合目标视频与同一剧目下的各参考视频的匹配结果，来确定目标视频在该剧目的参考视频的匹配计算中最终的目标匹配视频片段。

其中，若某两个匹配视频片段的片段重合度大于预设重合度，则可以对这两个匹配视频片段进行合并处理，该预设重合度可以根据实际情况设置。对于与其他匹配视频片段的片段重合度不大于预设重合度的匹配视频片段，也可以直接确定为目标匹配视频片段。

其中，具体地，可以根据匹配视频片段的片段时长、以及匹配视频片段对应的相似帧对数量count，来对匹配视频片段进行合并，并基于进行合并的两个匹配视频片段对应的count，确定合并后的匹配视频片段的频次信息。

其中，可以将频次信息大于预设频次的合并后匹配视频片段确定为目标匹配视频片段，也可以将频次信息最高的合并后匹配视频片段确定为目标匹配视频片段，本实施例对此不作具体限制。其中，预设频次可以根据实际情况进行设置。

在一具体实施例中，针对目标视频，将其与同一剧目下的多个参考视频进行相似度序列匹配后，可以得到目标视频分别与多个参考视频对应的匹配视频片段，同一剧目下的多个参考视频可以视作目标视频的参考视频列表。假如，与目标视频处于同一剧目的其他视频有3个，可以分别记为参考视频vid2、参考视频vid3以及参考视频vid4，对于与这3个参考视频匹配得到的匹配视频片段，可以对这些匹配视频片段进行对齐合并处理，具体过程如下：

1)对目标视频i，假设其需要从参考视频vid2、vid3、vid4中挖掘目标匹配视频片段，则可以构建[I,vid2]、[I,vid3]、[I,vid4]共N＝3个视频对，对于每个视频对分别进行上述实施例中的视频段匹配，得到目标视频与3个参考视频对应的匹配视频片段信息，如针对第一个视频对返回匹配段：[[2,7,4,9],[10,11,11,12]]，针对第二各视频对返回匹配段[[2,7,4,9]]，针对第三个视频对返回匹配段[[2,7,4,10]]；

2)对各匹配段进行统计，如[2,7,4,9]有2次，[2,7,4,10]有1次，[10,11,11,12]有1次；

3)对匹配段按照计数逆序排序，当计数相同时，则按src-startTime进行从小到大排序，可以得到match-list＝[[2,7,4,9]，[2,7,4,10]，[10,11,11,12]]，频次信息count-list＝[2,1,1]

4)对match-list中有交叠的匹配段进行合并。具体地，可以先设置有效交集比例T4(也即上述实施例中的预设重合度)，其表示当两个匹配段的交集时长占其中的目标段的片段时长大于T4时，这两个匹配段需要合并计算；还可以设置有效匹配计数T5，其表示当某一个匹配段的计数count大于T5时，则该匹配段不可忽略；对match-list中的匹配段i(指src-startTime，src-endTime构成的视频片段)，可以将其分别与match-list中其他匹配段进行合并处理，如对于match-list中下一个匹配段j(j＝i+1)，其处理过程可以如下步骤A1到A3所述：

A1.若匹配段i包含匹配段j，且匹配段j的片段时长>0.5*匹配段i的片段时长，则删除匹配段j，匹配段i可以视作合并了匹配段j的合并后匹配视频片段，同时对匹配段i的计数(也即频次信息)进行更新，合并后的匹配段i对应的计数count＝原匹配段i对应的计数count+匹配段j对应的计数count；

A2.若匹配段i和匹配段j有交集、且交集时长>0.5*匹配段i的片段时长，则可以分为两种情况：

第一种是当匹配段j对应的计数count大于T5，则合并匹配段i和匹配段j，将二者中时间点较前的起帧确定合并后匹配视频片段的起帧，将二者中时间点较后的末帧确定为合并后匹配视频片段的末帧；如图1e所示，为跨视频对的匹配段合并，合并后匹配视频片段可以视作新的匹配段i，且新的匹配段i对应的计数count＝原匹配段i对应的计数count+匹配段j对应的计数count；

第二种是当匹配段j的计数count小于T5，则删除匹配段j，可以理解的是，在删除匹配段j后，可以将匹配段i视作合并了匹配段j的新的匹配段i(除了count，实质并没有改变)，新的匹配段i对应的计数count＝原匹配段i对应的计数count+匹配段j对应的计数count；具体地，即此时不做匹配段i和匹配段j的合并，仅保留出现次数最多的匹配段i，但匹配段j的次数体现在新的匹配段i的计数中；

A3.若匹配段i和匹配段j有交集、且交集时长<0.5*匹配段i的片段时长，则舍弃匹配段j。

5)经过合并处理，得到目标视频新的匹配段信息match-list(如[[2,7,4,9]，[10,11,11,12]])，以及频次信息count-list(如[3,1])，其中，3为合并后的匹配视频片段[2,7,4,9]对应的频次信息，1为合并后的匹配视频片段[10,11,11,12]对应的频次信息；

6)设置有效复现次数比例阈值T6(如T6＝0.5)，表示在N(此处为3)个视频对挖掘中，当某个匹配视频片段的复现次数x>N*T6，则为有效的重复视频片段(也即上述实施例中的目标匹配视频片段)，其中，匹配视频片段的复现次数即频次信息，N*T6也即上述实施例中的预设频次；对match-list，保留有效的匹配视频片段，则得到match-list＝[[2,7,4,9]]，以及count＝[3]。

根据所述目标视频和所述参考视频在至少一个模态下的视频帧相似度，构建所述至少一个模态下的相似帧对；

步骤“根据所述相似帧对中视频帧之间的时间偏差信息，对所述相似帧对进行视频帧重组处理，得到属于所述目标视频的目标匹配视频片段”，可以包括：

针对每个模态，根据所述模态下所述相似帧对中视频帧之间的时间偏差信息，对所述相似帧对进行视频帧重组处理，得到所述模态下属于所述目标视频的匹配视频片段；

基于各个模态对应的匹配视频片段的片段起始位置和片段结束位置，确定目标片段起始位置和目标片段结束位置；

根据所述目标片段起始位置和所述目标片段结束位置，确定属于所述目标视频的目标匹配视频片段。

其中，不同模态可以包括文本、音频、以及图像等，本实施例对此不作限制。本实施例可以基于在不同模态下的相似帧对，确定不同模态对应的匹配视频片段，如图像模态对应的匹配视频片段和文本模态对应的匹配视频片段。

具体地，图像模态对应的匹配视频片段在目标视频中的定位信息可以记为定位点1，定位点1包括图像模态对应的匹配视频片段的起帧位置和末帧位置；文本模态对应的匹配视频片段在目标视频中的定位信息可以记为定位点2，定位点2包括文本模态对应的匹配视频片段的起帧位置和末帧位置。这里的起帧位置也即片段起始位置，末帧位置也即片段结束位置。

其中，可以将各个模态对应的匹配视频片段的片段起始位置中最前的片段起始位置确定为目标匹配视频片段的目标片段起始位置；将各个模态对应的匹配视频片段的片段结束位置中最后的片段结束位置确定为目标匹配视频片段的目标片段结束位置。

在一具体实施例中，若目标视频为某个剧目下的视频，则参考视频可以为与目标视频属于同一剧目下的其他视频；对于由目标视频和参考视频组成的每个视频对(i,r)，其中i表示待确定片头片尾的目标视频，r表示参考视频列表中的参考视频，假设参考视频有3个，则对于目标视频i，需要基于图像特征信息进行3次序列相似度检索、以及基于文本特征信息进行3次序列相似度检索的算法计算，从而得到图像模态下的3个匹配视频片段和文本模态下的3个匹配视频片段，进而确定属于目标视频的目标匹配视频片段。

104、对所述目标视频中视频帧进行内容识别，以从所述目标视频的视频帧中选取出帧内容包含非正片内容的视频帧。

其中，对目标视频中视频帧进行内容识别，具体可以是针对目标视频中每个视频帧，对该视频帧进行至少一个模态下的内容识别，至少一个模态下的内容识别可以包括图像类别识别、文本识别以及语音识别等，本实施例对此不作限制。

其中，本实施例可以基于选取到的帧内容包含非正片内容的视频帧，对上述确定到的目标匹配视频片段进行矫正，这里的非正片内容可以包括二维码、以及一些预设关键词(如本集回顾、下期预告)等，本实施例对此不作限制。

可选的，本实施例中，步骤“对所述目标视频中视频帧进行内容识别，以从所述目标视频的视频帧中选取出帧内容包含非正片内容的视频帧”，可以包括：

对所述目标视频中视频帧进行图像类别识别，得到符合预设图像内容无效类型的第一视频帧；

对所述目标视频中视频帧进行文本识别，得到命中预设无效文本的第二视频帧；

基于所述第一视频帧和所述第二视频帧，确定帧内容包含非正片内容的视频帧。

其中，可以对目标视频中每个视频帧进行图像类别识别，具体地，针对每个视频帧，可以提取视频帧对应的图像特征信息，基于该图像特征信息，预测该视频帧是否包含预设图像内容无效类型的图像内容。具体地，可以通过神经网络模型进行图像类别识别，该神经网络模型可以是视觉几何组网络(VGGNet，Visual Geometry Group Network)或残差网络(ResNet，Residual Network)等，本实施例对此不作限制。其中，可以通过分类器来预测视频帧是否包含预设图像内容无效类型的图像内容，该分类器具体可以是支持向量机(SVM，Support Vector Machine)，也可以是循环神经网络、还可以是全连接深度神经网络(DNN，Deep Neual Networks)等等，本实施例对此不做限制。

其中，预设图像内容无效类型可以根据实际情况进行设置，比如，可以将携带二维码、纯文字画面、纯黑屏的视频帧视为预设图像内容无效类别的视频帧。

其中，对目标视频中视频帧进行文本识别，具体地，针对每个视频帧，可以先提取视频帧中包含的文本信息，再检测提取到的文本信息中是否包含预设无效文本，若包含预设无效文本，可以将该视频帧确定为第二视频帧。

其中，预设无效文本可以根据实际情况进行设置，如预设无效文本可以包括下期教学内容、下期预告、本集回顾等。

其中，第一视频帧和第二视频帧可以视作满足预设无效内容条件的无效视频帧，可以将第一视频帧和第二视频帧确定为帧内容包含非正片内容的视频帧，这里的无效内容可以理解为非正片内容。

具体场景中，在下游使用视频素材时，如在视频推荐系统中，给用户推荐视频，若不能在视频刚开始播放的前几秒就吸引用户，则用户可能会放弃观看。因此去除片头后的视频前几秒的播放内容的质量影响极大，但是一些视频开头常常会有主题词、本节内容等文字或用户平台推广类型画面等非正片内容，其持续时间1～5秒不等，如果视频前几秒的播放时间被这类信息占据消耗了用户的观看热情，则即使用户对视频内容有强兴趣相关，也可能不再继续消费视频。

考虑到步骤102和步骤103中的序列相似度检索主要识别出具备重复出现特点、且特征信息可以有效表征视频帧内容的片头尾。当特征信息无法有效表征视频帧内容时，如图像特征信息可能无法有效区分文字类型的画面，则此时不能通过图像特征信息匹配上相同文字帧；而上述步骤的文本特征信息是对整个视频帧中的文字进行识别得到，由于视频上出现的文字是千变万化的，仅通过文本特征信息不一定能区分所有变化，如当一个视频画面有叠加文字水印等攻击时，文本特征信息会受到干扰导致识别准确率下降。所以仅基于步骤102和步骤103的视频序列相似度检索方法不能有效地把视频开头的主题文字报幕等识别出来。本实施例可以再对目标视频中视频帧进行图像类别识别和文本识别，基于识别结果来修正步骤103得到的目标匹配视频片段，提高非正片内容的识别准确率，从而解决上述不能有效识别视频开头的主题文字报幕等问题。

105、基于被选取的视频帧，对所述目标匹配视频片段进行矫正处理，以从所述目标视频中确定出属于正片内容的目标视频片段。

其中，具体地，也可以基于被选取的视频帧，对所述目标匹配视频片段进行矫正处理，从所述目标视频中确定出属于非正片内容的视频片段。

可选的，本实施例中，步骤“基于被选取的视频帧，对所述目标匹配视频片段进行矫正处理，以从所述目标视频中确定出属于正片内容的目标视频片段”，可以包括：

根据所述目标匹配视频片段，确定所述目标视频中属于正片内容的初始目标视频片段；

基于被选取的视频帧，确定所述初始目标视频片段中无效视频帧的视频帧比例；

基于所述视频帧比例、以及从初始目标视频片段的目标位置起的预设片段内无效视频帧的数量，对所述初始目标视频片段进行矫正处理，得到所述目标视频中属于正片内容的目标视频片段。

其中，可以将目标视频中除了目标匹配视频片段外的其他视频片段确定为属于正片内容的初始目标视频片段。

其中，被选取的视频帧可以认为是无效视频帧。一些实施例中，若初始目标视频片段中无效视频帧的视频帧比例超过预设比例，则可以不对初始目标视频片段进行矫正，直接将初始目标视频片段确定为目标视频中属于正片内容的目标视频片段；这是因为无效视频帧的视频帧比例超过预设比例，表示该目标视频中文字黑屏类型的视频帧可能较多，基于无效视频帧进行矫正可能造成错误清洗。其中，预设比例可以根据实际情况进行设置，本实施例对此不作限制。比如预设比例可以设置为50％。

其中，初始目标视频片段的目标位置可以包括初始目标视频片段的片段起始位置和片段结束位置。预设片段具体可以是预设时间段内的视频片段，如5秒内的视频片段。

具体地，一些实施例中，若初始目标视频片段中无效视频帧的视频帧比例没有超过预设比例，且从初始目标视频片段的片段起始位置开始预设时间段内的视频片段包含预设数量的无效视频帧，则可以将初始目标视频片段中该预设时间段内视频片段进行删除，以对初始目标视频片段进行矫正。其中，预设时间段和预设数量可以根据实际情况进行设置，比如预设时间段可以设置为5秒，预设数量可以设置为2帧以上。

其中，若初始目标视频片段中无效视频帧的视频帧比例没有超过预设比例，且从初始目标视频片段的片段结束位置开始往前的预设时间段内的视频片段包含预设数量的无效视频帧，则可以将初始目标视频片段中该预设时间段内视频片段进行删除，以对初始目标视频片段进行矫正，可以将矫正后的初始目标视频片段确定为目标视频中属于正片内容的目标视频片段。

具体地，另一些实施例中，若初始目标视频片段中无效视频帧的视频帧比例没有超过预设比例，且从初始目标视频片段的片段起始位置开始预设时间段内的视频片段中的视频帧均为无效视频帧，则可以将初始目标视频片段中该预设时间段内视频片段进行删除，以对初始目标视频片段进行矫正。

其中，若初始目标视频片段中无效视频帧的视频帧比例没有超过预设比例，且从初始目标视频片段的片段结束位置开始往前的预设时间段内的视频片段中的视频帧均为无效视频帧，则可以将初始目标视频片段中该预设时间段内视频片段进行删除，以对初始目标视频片段进行矫正。

在一具体实施例中，可以采用图像分类的方法，通过深度学习模型识别目标视频中每个视频帧是否为纯文字画面、携带二维码、纯黑屏等预设图像内容无效类别中的一类，然后根据类别对步骤103识别到的目标匹配视频片段(具体也即目标视频的片头尾定位点)进行矫正。

其中，深度学习模型可以采用预训练resnet101，如该上述表1所示的特征提取器外加一个分类层训练得到。其训练过程可参考一般深度学习分类模型，此处不赘述。其中，无效视频帧对应的分类层的结构可以如表2所示。

表2

在具体应用中，对目标视频中的帧级别图像，每个视频帧图像经过图像分类模型进行识别处理，确定是否为纯文字画面、携带二维码、纯黑屏等预设图像内容无效类别中的一类；若是，确定该视频帧为无效视频帧，得到所有视频帧是否有效后，对步骤103识别到的片头尾(也即目标匹配视频片段)进行无效画面的去除清洗，如图1f所示，具体描述如下：

若目标匹配视频片段为片头，确定片头截止时间，片头截止时间也即目标匹配视频片段的片段结束位置对应的时间点，如片头对应的视频片段为[2,15]，其片头截止时间为第15秒；然后，查找目标视频中从片头截止时间开始的视频帧的类别信息，具体可以分为三种情况进行处理，如下：

(1)若从片头截止时间到片尾开始时间之间的正片画面(也即上述实施例中的初始目标视频片段中的视频帧)中有超过50％画面为无效，则不清洗无效画面，因为这表示目标视频中文字黑屏类型的视频帧较多，若进一步清洗容易造成错误清洗；

(2)若片头截止时间后5s内(即第16～20帧)中含有2帧以上无效画面，则可以将片头截止时间修正到其中最后一帧无效画面对应的时间点。如第17、18帧为纯文字的无效画面，则片头截止时间可以修正为第18秒；

(3)若片头截止时间后，一段时间内视频片段中的视频帧均为无效，则直接将片头截止时间修改到这段视频片段的片段结束位置对应的时间点。

其中，同理，若目标匹配视频片段为片尾，确定片尾开始时间，片尾开始时间也即目标匹配视频片段的片段起始位置对应的时间点；然后，查找该片尾开始时间往回的一段时间内的视频帧的类别信息，当查找到有效画面时，修正片尾开始时间到该有效画面的下一秒。

最后，基于修正后的片头截止时间和片尾开始时间，确定目标视频中属于正片内容的目标视频片段。

在一具体场景中，视频中还有一类需要动态清除的推广画面，如图1g中页面a所示的下期教学内容、以及页面b所示的本期总结等，这些视频内容也属于片尾(非正片部分)。因此需要对此类带有特殊文字提示的画面进行去除。

其中，本实施例可以采用文字检索的方法从正片内容中剔除带此类文字的画面。首先可以设置关键词库，该关键词库可以包括需要剔除的文字，如xx视频应用、下期教学内容、下期预告、以及本集回顾等；然后对目标图像中各视频帧进行ocr(Optical CharacterRecognition，光学字符识别)识别，确定视频帧中是否出现关键词库中的关键词，若该视频帧的文字识别结果命中关键词库中的关键词，则该视频帧可以视为无效画面。

参考上述二维码等图像类别识别及清洗过程，本实施例可以根据关键词库指示的视频帧是否无效，来矫正片头尾时间，具体如下所述：

若目标匹配视频片段为片头，确定片头截止时间，片头截止时间也即目标匹配视频片段的片段结束位置对应的时间点，如片头对应的视频片段为[2,18]，其片头截止时间为第18秒；然后，查找目标视频中从片头截止时间开始的视频帧的类别信息，具体可以分为三种情况进行处理，如下：

(1)若从片头截止时间到片尾开始时间之间的正片画面(也即上述实施例中的初始目标视频片段中的视频帧)中有超过50％画面为无效，则不清洗无效画面。因为这表示目标视频中带有库存关键词的视频帧较多，是额外的情况，如视频帧可能携带有“xx视频应用”的文字，若其为关键词，但又出现图1h中的类型——“xx视频应用”始终出现在正片左上角(页面d为正片内容，页面c为片头内容，页面e为片尾内容)，则不需要清洗，以避免去除正片内容画面；

(2)若片头截止时间后5s内(即第19～23帧)中含有2帧以上无效画面，则片头截止时间修正到其中最后一帧无效画面对应的时间点；

其中，同理，若目标匹配视频片段为片尾，确定片尾开始时间，片尾开始时间也即目标匹配视频片段的片段起始位置对应的时间点；然后，查找该片尾开始时间往回的一段时间内的视频帧，当查找到有效画面时，修正片尾开始时间到该有效画面的下一秒。

其中，关键词库可以实时进行维护。具体地，当出现新的关键词时，可以对关键词库进行更新，以提前剔除带此类关键词的视频画面，如对于一些敏感词，需要把新词入库即可实时维护关键词。

本申请提供的视频处理方法可用于通用视频片头片尾识别，从而应用到视频识别过滤片头片尾、视频二次制作(生成新的剪辑视频)等。具体地，如图1i所示，当输入某个待识别片头片尾的目标视频后，首先可以根据目标视频的视频信息获取与该目标视频为同一剧目的其他视频，具体也即获取其影视剧或自制剧视频列表，若获取成功，基于该目标视频与其他视频组成的列表(也即上述实施例中的参考视频列表)进行视频列表方式挖掘；当不存在同一剧目的其他视频时，基于该视频进行单视频挖掘。

对于视频列表方式挖掘，如图1j所示，可以采用图像特征信息(即特征信息1)基于通用片头片尾库中存储的片头片尾对目标视频的正式内容进行检索定位，也即采用单视频通用序列相似度检索，得到匹配视频片段对应的定位点5；分别对目标视频和参考视频列表中的各参考视频进行图像特征信息的检索挖掘，也即采用图像模态下的查询列表固定段序列相似度检索，得到匹配视频片段对应的定位点1；分别对目标视频和参考视频列表中的各参考视频进行文本特征信息(即特征信息2)的检索挖掘，也即采用文本模态下的查询列表固定段序列相似度检索，得到匹配视频片段对应的定位点2；还可以对目标视频的各视频帧进行图像类别识别，以对目标视频进行全文字二维码黑屏等的识别清洗，得到定位点3；可以对目标视频的各视频帧进行文本识别，从中确定命中预设关键词库中关键词的视频帧，以进行关键词所属帧清洗，得到定位点4；最后基于定位点1、定位点2、定位点3、定位点4和定位点5，确定目标视频中最终属于正片内容的目标视频片段、以及属于非正片内容的视频片段。通过上述方法，可以去除个人推广、黑屏或二维码、区别在画面或文字差异等的片头片尾，获取比较干净的视频素材，支持后续视频二次生产。

其中，序列相似度检索过程可以参考上述实施例中的描述，此处不在赘述。

其中，具体地，对于定位点1和定位点2，若目标视频为某个剧目下的视频，可以获取同剧目其他视频组成的参考视频列表，首先对目标视频与参考视频列表进行视频对构建，具体可以将目标视频与参考视频列表中任一参考视频组成一对，产生视频对；然后，对视频对进行基于图像特征信息的序列相似度度检索，得到两个视频对应的匹配视频片段，从而确定定位点1；对视频对进行基于每帧的文本特征信息的序列相似度检索，得到两个视频对应的匹配视频片段，从而确定定位点2。

对于定位点5，可以针对目标视频，根据视频帧的图像特征信息对通用片头片尾库(库中保存了通用片头片尾视频段)进行序列相似度检索，得到定位点5；其中，序列相似度检索与上述目标视频与参考视频列表的图像特征信息序列、文本特征信息序列的序列相似度检索相同。

对于定位点3和定位点4，对目标视频的视频帧级别图像，进行文字二维码黑屏识别，从而可以处理非固定段的文字等定位错误的问题，然后清洗得到定位点3；对视频帧级别图像进行文本识别，并查询关键词库，找到关键词命中的视频帧，得到定位点4。

最终可以通过合并定位点1、2、5对应的匹配视频片段产生初步片头片尾结果(具体可以是上述实施例中的目标匹配视频片段)，然后联合图像类别识别、关键词矫正的定位点3和定位点4，可以得到最终的片头片尾视频片段。

其中，基于通用片头尾库存的序列相似度检索。对目标视频与所有片头尾库存视频(也可视为参考视频)，采用基于序列相似度检索方法进行检索，得到目标视频与库存多个(当库存没有匹配片头尾时，则0个)片头尾对应的匹配视频片段，其中可以取最长的匹配视频片段作为最后的检索结果，即为定位点5。

对定位点1、2、5，由于其为多个视频对检索得到，故得到的匹配视频片段是强片头尾信息——即视频片段属于片头尾的置信度极高，因此可以对三个定位点结果合并，得到视频间多次重复出现的片头尾。其中，合并的过程是：对定位点1、2、5给出的片头匹配视频片段，可以取其中最大时间为片头截止时间，如定位点1、2、5给出的片头匹配视频片段分别为[2,7],[9,15],[9,13],合并后得到的片头匹配视频片段为[2,15]，其中15为片头截止时间。同理对1、2、5给出的片尾匹配视频片段合并，取最小时间为片尾的开始时间。

可以理解的是，视频列表挖掘时，定位点1、2、3、4、5中可根据业务需求灵活去除部分定位点，如不需要去除文字，则可去除定位点3的步骤。

对于单视频挖掘，单视频即为不存在相应剧集目录的视频，其主要为用户自制的独立视频。对于此类视频，如图1k所示，可以从原来通用片头片尾库中直接进行检索定位即可。其中通用片头尾库可以采用在视频列表挖掘中收集到的通用片头片尾。

其中，对于单视频挖掘过程可以采用图像特征信息基于通用片头片尾库中存储的片头片尾对目标视频的片头片尾进行检索定位，也可以采用文本特征信息基于通用片头片尾库中存储的片头片尾对目标视频的片头片尾进行检索定位，又或者将文本特征信息和图像特征信息两者检索结果进行合并。

对于通用片头片尾库生成，结合图1i和图1j，从视频列表挖掘中的定位点1、2、5产生推荐的片头片尾，可以存到预设的推荐片头片尾库中，并记录该片头片尾出现的次数N1以及新增次数N2。每次在上述视频列表、单视频挖掘中，可以查询推荐片头片尾库中的片头尾是否有被包含，若存在被包含，则增加推荐片头片尾库中该片头片尾的出现次数和新增次数。当T天以后，可以根据新增次数，选择新增次数比较多的片头片尾，保存在通用片头片尾库中。其中推荐片头片尾库更新如图1l所示。

其中，具体地，在定位点1、2、5对应的视频列表挖掘得到的高置信度片头片尾后，该片头片尾可以用于后续单视频查询步骤中，由于单视频没有剧集中的其他视频可以辅助挖掘片头片尾，因此可以采用历史挖掘到的片头片尾产生的通用片头片尾库，来识别出单视频片头片尾。

为了保证片头尾库的有效性，本实施例采用了一个缓冲库——推荐片头片尾库，该库用于存储视频列表挖掘产生的所有片头片尾，以及有效信息N1、N2，其中N1为片头片尾出现的次数、N2为新增次数。对某个片头尾，入库时N1记录为1，N2记录为0。根据图1l所示的过程，每次都可以从推荐片头片尾库中进行目标视频的检索查询，若发现匹配上推荐片头片尾库中某片头尾，则对该片头尾的N2记录加1。一定时间后(假设时间阈值7天)，根据N2的记录数从大到小排序，可以取前10％且N2>100的片头尾作为本周期内最终推荐的片头片尾，把最终推荐片头片尾存储到通用片头片尾库中，同时更新所有推荐片头片尾库的记录：N1＝原N1+N2，N2＝0，从而开始下一周期的统计。

可选地，一些实施例中，也可以在入库时除了N1、N2外还记录视频的入库天数T。然后，每天统计入库天数为7天的倍数的片头片尾，若其N2记录大于指定阈值，则录入通用片头片尾库，同时更新满7天倍数的推荐片头片尾库记录：N1＝原N1+N2，N2＝0，从而开始下一周期的统计。可以理解的是，也可采用其他基于N1、N2、T的阈值判决策略来更新通用片头片尾库。

具体地，在一实施例中，对于单视频检索的情况，可以采用基于通用片头片尾库的序列相似度检索对单视频的特征信息进行片头尾查询，如图1k所示，其中可以采用图像特征信息进行检索；也可以如图1m所示，采用双特征信息(即图像特征信息和文本特征信息)分别进行检索后合并结果找到单视频的片头尾。由于通用片头片尾库是基于高置信度挖掘得到的，因此检索到有匹配的片头尾结果也是高置信度的。

本申请提供的视频处理方法可以支持单视频或有剧集目录的视频片头片尾挖掘；还可以基于文字特征信息以及图像特征信息的相似度时序检索实现通用片头尾库的生成、以及剧集内重复的片头尾识别；本申请还可以借助图像文字帧识别、业务制定词库检索等方式进行定位点矫正，支持可变片头片尾识别，保证正片的质量，这样有利于下游二次创作使用；另外，还可通过对通用及可重复片头尾建立动态更新的库存，支持单视频输入时检索库存查询片头尾，从而提升片头尾识别能力。

具体地，本实施例支持不等长片头尾识别，可以通过借助视频帧的特征信息进行相似度序列检索，实现时间不对齐、或片头尾不等时长下的片头片尾识别，而且多模态特征信息检索可以提升准确率避免误报；还可借助帧级别图像分类信息识别出无用画面、以及借助关键词库检索灵活去除具备特殊词的画面，从而使得保留下来的正片(去除片头尾后)的素材更纯净，可用性更高。

另外，针对挖掘到的片头尾，通过推荐片头尾库、全网复现统计、保存到正式的通用片头片尾库等方式，实现片头尾挖掘与检索的闭环管理。

本实施例建立了完整的支持单视频、或具备剧集视频的片头尾识别框架，以及自我更新环节，最终实现片头片尾的自动化去除。

由上可知，本实施例可以获取目标视频和包含非正片内容的参考视频；根据所述目标视频和所述参考视频的视频帧相似度，构建至少一个相似帧对，所述相似帧对包括相似度满足预设相似度条件的所述目标视频和所述参考视频的视频帧；根据所述相似帧对中视频帧之间的时间偏差信息，对所述相似帧对进行视频帧重组处理，得到属于所述目标视频的目标匹配视频片段，所述目标匹配视频片段与所述参考视频的内容相匹配；对所述目标视频中视频帧进行内容识别，以从所述目标视频的视频帧中选取出帧内容包含非正片内容的视频帧；基于被选取的视频帧，对所述目标匹配视频片段进行矫正处理，以从所述目标视频中确定出属于正片内容的目标视频片段。本申请可以基于目标视频与参考视频的相似帧对，确定目标视频的目标匹配视频片段，并结合目标视频中各视频帧的内容识别结果对目标匹配视频片段进行矫正，从而实现视频中正片内容的自动识别，提高了视频正片识别的准确率和效率。

为了更好地实施以上方法，本申请实施例还提供一种视频处理装置，如图2所示，该视频处理装置可以包括获取单元201、构建单元202、重组单元203、识别单元204以及矫正单元205，如下：

(1)获取单元201；

获取单元，用于获取目标视频和包含非正片内容的参考视频。

(2)构建单元202；

构建单元，用于根据所述目标视频和所述参考视频的视频帧相似度，构建至少一个相似帧对，所述相似帧对包括相似度满足预设相似度条件的所述目标视频和所述参考视频的视频帧。

(3)重组单元203；

重组单元，用于根据所述相似帧对中视频帧之间的时间偏差信息，对所述相似帧对进行视频帧重组处理，得到属于所述目标视频的目标匹配视频片段，所述目标匹配视频片段与所述参考视频的内容相匹配。

计算每两个匹配视频片段对应的片段重合度；

根据所述片段重合度，对所述匹配视频片段进行调整；

(4)识别单元204；

识别单元，用于对所述目标视频中视频帧进行内容识别，以从所述目标视频的视频帧中选取出帧内容包含非正片内容的视频帧。

(5)矫正单元205；

由上可知，本实施例可以由获取单元201获取目标视频和包含非正片内容的参考视频；通过构建单元202根据所述目标视频和所述参考视频的视频帧相似度，构建至少一个相似帧对，所述相似帧对包括相似度满足预设相似度条件的所述目标视频和所述参考视频的视频帧；通过重组单元203根据所述相似帧对中视频帧之间的时间偏差信息，对所述相似帧对进行视频帧重组处理，得到属于所述目标视频的目标匹配视频片段，所述目标匹配视频片段与所述参考视频的内容相匹配；通过识别单元204对所述目标视频中视频帧进行内容识别，以从所述目标视频的视频帧中选取出帧内容包含非正片内容的视频帧；通过矫正单元205基于被选取的视频帧，对所述目标匹配视频片段进行矫正处理，以从所述目标视频中确定出属于正片内容的目标视频片段。本申请可以基于目标视频与参考视频的相似帧对，确定目标视频的目标匹配视频片段，并结合目标视频中各视频帧的内容识别结果对目标匹配视频片段进行矫正，从而实现视频中正片内容的自动识别，提高了视频正片识别的准确率和效率。

本申请实施例还提供一种电子设备，如图3所示，其示出了本申请实施例所涉及的电子设备的结构示意图，该电子设备可以是终端或者服务器等，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器301、一个或一个以上计算机可读存储介质的存储器302、电源303和输入单元304等部件。本领域技术人员可以理解，图3中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器301是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器302内的软件程序和/或模块，以及调用存储在存储器302内的数据，执行电子设备的各种功能和处理数据。可选的，处理器301可包括一个或多个处理核心；优选的，处理器301可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器301中。

存储器302可用于存储软件程序以及模块，处理器301通过运行存储在存储器302的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器302可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器302可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器302还可以包括存储器控制器，以提供处理器301对存储器302的访问。

电子设备还包括给各个部件供电的电源303，优选的，电源303可以通过电源管理系统与处理器301逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源303还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元304，该输入单元304可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，该电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器301会按照如下的计算机程序，将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器302中，并由处理器301来运行存储在存储器302中的计算机程序，从而实现各种功能，如下：

获取目标视频和包含非正片内容的参考视频；根据所述目标视频和所述参考视频的视频帧相似度，构建至少一个相似帧对，所述相似帧对包括相似度满足预设相似度条件的所述目标视频和所述参考视频的视频帧；根据所述相似帧对中视频帧之间的时间偏差信息，对所述相似帧对进行视频帧重组处理，得到属于所述目标视频的目标匹配视频片段，所述目标匹配视频片段与所述参考视频的内容相匹配；对所述目标视频中视频帧进行内容识别，以从所述目标视频的视频帧中选取出帧内容包含非正片内容的视频帧；基于被选取的视频帧，对所述目标匹配视频片段进行矫正处理，以从所述目标视频中确定出属于正片内容的目标视频片段。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种视频处理方法中的步骤。例如，该计算机程序可以执行如下步骤：

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种视频处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该电子设备执行上述视频处理方面的各种可选实现方式中提供的方法。

以上对本申请实施例所提供的一种视频处理方法以及相关设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频处理方法，其特征在于，包括：

获取目标视频和包含非正片内容的参考视频；

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频和所述参考视频的视频帧相似度，构建至少一个相似帧对，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述相似帧对中视频帧之间的时间偏差信息，对所述相似帧对进行视频帧重组处理，得到属于所述目标视频的目标匹配视频片段，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述时间偏差信息，对所述相似帧对进行重组处理，得到所述时间偏差信息对应的相似帧对数组，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述相似帧对数组中视频帧的时间信息，对所述相似帧对数组中各相似帧对进行合并处理，得到属于所述目标视频的目标匹配视频片段，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述匹配视频片段进行片段调整，得到属于所述目标视频的目标匹配视频片段，包括：

计算每两个匹配视频片段对应的片段重合度；

根据所述片段重合度，对所述匹配视频片段进行调整；

7.根据权利要求1所述的方法，其特征在于，所述根据所述相似帧对中视频帧之间的时间偏差信息，对所述相似帧对进行视频帧重组处理，得到属于所述目标视频的目标匹配视频片段，包括：

8.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频和所述参考视频的视频帧相似度，构建至少一个相似帧对，包括：

所述根据所述相似帧对中视频帧之间的时间偏差信息，对所述相似帧对进行视频帧重组处理，得到属于所述目标视频的目标匹配视频片段，包括：

9.根据权利要求1所述的方法，其特征在于，所述对所述目标视频中视频帧进行内容识别，以从所述目标视频的视频帧中选取出帧内容包含非正片内容的视频帧，包括：

10.根据权利要求1所述的方法，其特征在于，所述基于被选取的视频帧，对所述目标匹配视频片段进行矫正处理，以从所述目标视频中确定出属于正片内容的目标视频片段，包括：

11.一种视频处理装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括存储器和处理器；所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序，以执行权利要求1至10任一项所述的视频处理方法中的操作。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行权利要求1至10任一项所述的视频处理方法中的步骤。

14.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至10任一项所述的视频处理方法中的步骤。