CN114979742B

CN114979742B - 视频处理方法、装置、设备及存储介质

Info

Publication number: CN114979742B
Application number: CN202110206602.2A
Authority: CN
Inventors: 谯睿智; 周忻旸; 柯博
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2024-04-09
Anticipated expiration: 2041-02-24
Also published as: CN114979742A

Abstract

本发明实施例公开了一种视频处理方法、装置、设备及存储介质，其中视频处理方法包括：获取待处理视频，并对待处理视频进行分帧处理得到N个原始图像，待处理视频包括多个视频主题，N为大于1的整数；对N个原始图像进行帧差提取得到M个帧差图，M为大于1的整数；根据M个帧差图从N个原始图像中获取关键图像集合，关键图像集合中每个关键图像对应一个视频主题；从N个原始图像中得到与每个关键图像具有相同视频主题的关联图像，并根据关键图像集合中多个关键图像和多个关键图像对应的关联图像，对待处理视频进行视频片段划分得到多个视频片段。采用本发明实施例可提高视频处理效率。

Description

视频处理方法、装置、设备及存储介质

技术领域

本申请涉及视频处理技术领域，尤其涉及一种视频处理方法、装置、设备及存储介质。

背景技术

近年来，短视频用户正快速扩张，为了迎合短视频时长需求，视频拆条任务应运而生。视频拆条是指因互联网视频和新媒体短视频内容平台的需要，对传统电视媒体节目进行二次加工，将原来完整的一条节目内容，按照某种逻辑思维和特定需要比如，将其拆分成多条视频。比如，传统的新闻节目一般是由不同主题的视频片段组成的长视频，为了满足短视频的时长需求，可以按照不同主题将一个新闻节目拆分为多个视频片段。对长视频进行视频拆条后，为后续视频检索目录建立、视频分类、视频添加标签以及视频embedding任务提供便利。

目前常用的视频拆条方法是基于光学字符识别(Optical CharacterRecognition，OCR)技术和自然语言处理(Natural Language Processing，NLP)技术，大致流程是：对视频每一帧使用OCR技术提取信息，按一定规则滤去不符合要求的文本信息，拼接同一区域文本信息，结合自动语音识别(Automatic Speech Recognition，ASR)提取的语音文本信息进行匹配。然后通过NLP模型对文本信息进行分类输出结果。但是对视频每一帧使用OCR技术提取信息导致识别效率低，并且NLP模型的主观性较大，导致最终分类结果准确率较低，对数据依赖大，优化成本高。因此，在视频处理领域如何有效地进行视频拆条处理成为研究的热点问题之一。

发明内容

本发明实施例提供了一种视频处理方法、装置、设备及存储介质，能够根据视频中各个图像之间的帧差视频拆条，与现有技术相比节省了视频拆条成本，以及提高了处理效率。

一方面，本发明实施例提供了一种视频处理方法，其特征在于，包括：

获取待处理视频，并对所述待处理视频进行分帧处理得到N个原始图像，所述待处理视频包括多个视频主题，N为大于1的整数；

对所述N个原始图像进行帧差提取得到M个帧差图，M为大于1的整数；

根据所述M个帧差图从所述N个原始图像中获取关键图像集合，所述关键图像集合中每个关键图像对应一个视频主题；

从所述N个原始图像中得到与所述每个关键图像具有相同视频主题的关联图像，并根据所述关键图像集合中多个关键图像和所述多个关键图像对应的关联图像，对所述待处理视频进行视频片段划分得到多个视频片段。

一方面，本发明实施例提供了一种视频处理装置，其特征在于，包括：

获取单元，用于获取待处理视频，所述待处理视频包括多个视频主题；

处理单元，用于对所述待处理视频进行分帧处理得到N个原始图像，N为大于1的整数；

所述处理单元，还用于对所述N个原始图像进行帧差提取得到M个帧差图，M为大于1的整数；

所述获取单元，还用于根据所述M个帧差图从所述N个原始图像中获取关键图像集合，所述关键图像集合中每个关键图像对应一个视频主题；

所述获取单元，还用于从所述N个原始图像中得到与所述每个关键图像具有相同视频主题的关联图像；

所述处理单元，还用于根据所述关键图像集合中多个关键图像和所述多个关键图像对应的关联图像，对所述待处理视频进行视频片段划分得到多个视频片段。

一方面，本发明实施例提供了一种视频处理设备，其特征在于，包括：

处理器，适于实现一条或多条指令；以及

计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行：

获取待处理视频，并对所述待处理视频进行分帧处理得到N个原始图像，所述待处理视频包括多个视频主题，N为大于1的整数；对所述N个原始图像进行帧差提取得到M个帧差图，M为大于1的整数；根据所述M个帧差图从所述N个原始图像中获取关键图像集合，所述关键图像集合中每个关键图像对应一个视频主题；从所述N个原始图像中得到与所述每个关键图像具有相同视频主题的关联图像，并根据所述关键图像集合中多个关键图像和所述多个关键图像对应的关联图像，对所述待处理视频进行视频片段划分得到多个视频片段。

一方面，本发明实施例提供了一种计算机存储介质，其特征在于，计算机存储介质中存储有计算机程序，计算机程序被处理器执行时，用于执行如下步骤：

一方面，本发明实施例提供了一种计算机程序产品或计算机程序，计算机程序产品包括计算机程序，计算机程序存储在计算机可读存储介质中；视频处理设备的处理器从计算机存储介质中读取计算机程序，处理器执行计算机程序，使得计算机设备执行：

获取待处理视频，并对所述待处理视频进行分帧处理得到N个原始图像，所述待处理视频包括多个视频主题，N为大于1的整数；对所述N个原始图像进行帧差提取得到M个帧差图，M为大于1的整数；根据所述M个帧差图从所述N个原始图像中获取关键图像集合，所述关键图像集合中每个关键图像上显示有一个视频主题；从所述N个原始图像中得到与所述每个关键图像具有相同视频主题的关联图像，并根据所述关键图像集合中多个关键图像和所述多个关键图像对应的关联图像，对所述待处理视频进行视频片段划分得到多个视频片段。

本发明实施例中在待处理视频进行拆分时，先根据待处理视频包括的N个原始图像得到M个帧差图，再基于M个帧差图从N个原始图像中获取包括视频主题的关键图像集合，进一步的，从N个原始图像中得到与每个关键图像具有相同主题的关联图像，最后根据多个关键图像和多个关键图像对应的关联图像进行视频片段划分，将待处理视频划分为多个视频片段。每个帧差图是根据多个原始图像之间的像素值差生成的，与现有技术相比，本发明实施例在视频拆分时，无需使用OCR技术逐帧提取文本信息以及采用ASR技术进行语音信息提取等处理，只需依据各个原始图像之间的像素值差便能实现对视频分段处理，提高了视频处理效率以及节省了功耗开销。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频处理方法应用场景的示意图；

图2是本发明实施例提供的一种视频处理方法的流程示意图；

图3是本发明实施例提供的一种帧差提取处理的示意图；

图4a是本发明实施例提供的一种帧差图的示意图；

图4b是本发明实施例提供的另一种帧差图的示意图；

图5是本发明实施例提供的另一种视频处理方法的流程示意图；

图6a是本发明实施例提供的一种确定每个帧差图的候选框的示意图；

图6b是本发明实施例提供的一种求每个帧差图中最大矩形的示意图；

图7a是本发明实施例提供的又一种帧差图的示意图；

图7b是本发明实施例提供的又一种帧差图的示意图；

图7c是本发明实施例提供的又一种帧差图的示意图；

图8a是本发明实施例提供的一种确定候选区域的示意图；

图8b是本发明实施例提供的一种聚类处理的示意图；

图9是本发明实施例提供的一种视频处理装置的结构示意图；

图10是本发明实施例提供的一种视频处理设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明实施例提出了一种视频处理方案，可以将包含多个视频主题的一个待处理视频划分为多个视频片段。具体实现中，将待处理视频进行分帧处理得到多个原始图像，然后对多个原始图像进行帧差提取处理得到多个帧差图，进一步的，根据帧差图得到多个原始图像中包含视频主题的关键图像，组成关键图像集合；最后从原始图像中获取与每个关键图像具有相同视频主题的关联图像，根据多个关键图像和多个关键图像对应的关联图像对待处理视频进行划分得到多个视频片段。

本发明实施例提供的视频处理方案可以应用在建立视频检索目录场景中，尤其是应用在对新闻视频的视频检索目录建立场景中。建立视频检索目录的一个目的是实现视频分类，每一个类别的视频对应一个视频主题。需要说明的是，一个新闻视频中可以包括多个视频主题，并且，一个新闻视频中还可以包括主持人讲解新闻内容的视频(这部分视频不算是视频主题)，如果不对新闻视频进行拆条处理，而直接进行视频分类，则会导致视频分类不明确。比如一个新闻视频中包括三个视频主题，分别为垃圾分类主题、医疗相关政策主题以及疫情情况主题，将该新闻视频分类为以上哪个主题下都是不准确的。现有技术中，可以通过人工对该新闻视频进行人工标注，标注出哪个视频片段对应哪个主题，然后再将不同片段分类到相应视频主题类别下。人工标注的方式不仅耗费人力，而且效率不高。采用本发明实施例上述视频处理方法，可以实现自动地对待处理视频进行视频分段处理，与人工标注相比，在较大程度上提高了视频处理效率。

下面举例来说，参见图1为本发明实施例提供的一种视频处理方法的应用场景图，在图1对待处理视频100进行分帧处理，得到6个按序排列的原始图像如101所示；进一步的，对这6个原始图像进行帧差提取得到多个帧差图，得到帧差图的方式可以是：将一个原始图像分别与其前n(n为大于或等于1的整数)个原始图像进行相应像素点求差后再求平均处理，得到该原始图像对应的帧差图，比如将第3个原始图像与前2个原始图像进行帧差提取处理，得到第3个原始图像对应的帧差图。关于这部分的具体实现方式，将在后面实施例中展开描述，在此不再赘述。

假设按照上述方法对6个原始图像进行帧差提取处理，可得到4个帧差图如图1所示。然后根据这4个帧差图从6个原始图像中选取关键图像集合，每个关键图像上显示有一个视频主题，例如从6个原始图像中选取的关键图像集合中包括的关键图像分别为第3个原始图像和第5个原始图像。

然后在7个原始图像中按照前后一定范围对每个关键图像进行关联图像搜索。假设搜索范围2，那么在7个原始图像中，搜索第3个原始图像对应的关联图像的方法是：确定第3个原始图像中显示视频主题的区域，并比较第2个原始图像与其前2个原始图像，也即第1个原始图像和第2个原始图像中该区域的相似度，发现第1个原始图像中该相似度不满足相似度阈值，确定第1个原始图像不是第3个原始图像的关联图像，第2个原始图像中相似度满足相似度阈值，则确定第2个原始图像是第3个原始图像的关联图像；然后，再比较第3个原始图像与其后2个原始图像也即第4个原始图像和第5个原始图像中该区域的相似度，假设第4个原始图像和第3原始图像之间的相似度不满足相似度阈值，则确定第4个原始图像为第3个原始图像的关联图像；第5个原始图像与第3个原始图像之间的相似度不满足相似度阈值，第5个原始图像不是第3个原始图像的关联图像。通过上述步骤可知，第3个原始图像对应的关联图像为第2个原始图像。

按照上述搜索第3个原始图像相同的方法，得到第5个原始图像对应的关联图像，假设为第4个原始图像和第6个原始图像。

最后，将第3个原始图像和第2个原始图像组成一个视频片段，该视频片段对应的视频主题为第3个原始图像中显示的视频主题假设为垃圾分类主题；将第5个原始图像、第4个原始图像和第6个原始图像组成一个视频片段，该视频片段对应的视频主题为第5个原始图像中显示的视频主题假设为小学生家庭作业主题。

通过上述步骤对待处理视频进行视频分段处理后，得到了每个视频主题对应的一个视频片段，这样一来，可以将上述垃圾分类主题对应的视频片段分类到垃圾分类视频目录下，将小学生家庭作业主题对应的视频片段分类到家庭作业相关视频目录下，方便后续视频管理和视频查询。

基于上述的视频处理方案，本发明实施例提供了一种视频处理方法，参见图2，为本发明实施例提供的一种视频处理方法的流程示意图。图2所示的视频处理方法可由视频处理设备执行，所述视频处理设备可以是终端也可以是服务器。其中，所述终端可以包括智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载等，所述服务器可以包括独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。图2所示的视频处理方法可包括如下步骤：

步骤S201、获取待处理视频，并对待处理视频进行分帧处理得到N个原始图像。

其中，待处理视频可以是包括多个视频主题的任意视频，比如新闻视频。在一个实施例中，待处理视频中的多个视频主题在待处理视频中显示形式比较固定，比如都是以矩形框的形式显示在某个预设位置；并且，一个视频主题显示后持续时间相对较长，比如一个视频主题开始显示在一个原始图像上，接下来的连续n个原始图像可能都是与该视频主题相关的，那么该视频主题可以一直从第一个出现的原始图像上连续在后n个原始图像上显示。

应当知道的，连续的图像变化每秒超过24帧(frame)画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面；看上去是平滑连续的视觉效果，这样连续的画面叫做视频。也就是说任意一段视频均是由多个连续的图像组成的，在对任意一段视频进行处理时需要首先对视频进行分帧处理，得到视频包括的原始图像，然后基于原始图像进行视频处理。

因此，视频处理设备获取到待处理视频后，可以对待处理视频进行分帧处理得到N个原始图像，N为大于1的整数。可选的，对待处理视频进行分帧处理得到N个原始图像，包括：按照采样频率对待处理视频进行分帧处理，得到N个原始图像，其中采样频率可以是视频处理设备设定的。

在一个实施例中，视频处理设备可以根据待处理视频的时长和待处理视频包括的视频主题个数设定采样频率。待处理视频的时长越短，视频主题的个数越多，采样频率可以越大，反之，待处理视频的时长越长，视频主题的个数越少，采样频率可以越小。应当理解的，如果待处理视频的时长越短，视频主题的个数越多，则表明该待处理视频中视频主题出现的频率越高，那么就需要以较大的采样频率来对待处理视频进行分帧，以确保尽可能保证采集到的N个原始图像中有更多包括视频主题的原始图像；反之，如果待处理视频的时长越长，视频主题的个数越少，则表明该待处理视频中视频主题出现的频率越低，那么为了避免多余的功耗开销，可以较小的采样频率对待处理视频进行分帧。

步骤S202、对N个原始图像进行帧差提取处理得到M个帧差图。

由前述对待处理视频的视频主题的描述可知，视频主题的显示形式相对比较固定，而且出现后的持续时间相对较长，几个原始图像中显示视频主题的区域部分像素之差可能会变成0，其他区域则不是，这样就可以得到显著的特征，通过这个特征本发明实施例提出了基于原始图像的帧差图对待处理视频进行划分处理。具体地，可以通过步骤S202-步骤S204实现。

在一个实施例中，对待处理视频进行分帧处理得到的N个原始图像可以是按照每个原始图像在待处理视频中的显示顺序由前到后排列的，步骤S202中对N个原始图像进行帧差提取得到M个帧差图，包括：按序从N个原始图像中选择第n个原始图像，n为大于或等于目标数量且小于或等于N的整数；对第n个原始图像进行帧差提取处理，得到第n个原始图像对应的帧差图；若n小于N，则从N个原始图像中选择第j个原始图像进行帧差提取处理，得到第j个原始图像对应的帧差图；若j等于N，则将第n个原始图像对应的帧差图和第j个原始图像对应的帧差图确定为M个帧差图。

其中，对第n个原始图像和对第j个原始图像进行帧差提取处理的过程是相同的，下面以对n个原始图像进行帧差提取为例进行说明。可选的，对第n个原始图像进行帧差提取处理包括：将第n个原始图像包括的多个像素点中每个像素点的第一像素值，分别与所述第n个原始图像的前目标数量个原始图像中相应像素点的第一像素值进行求差运算得到所述每个像素点对应的帧差像素值集合，所述目标数量大于等于1，n大于所述目标数量且小于等于N；分别对所述每个像素点对应的帧差像素值集合中多个帧差像素值进行取平均运算，得到所述每个像素点对应的第二像素值；按照所述第n个原始图像中多个像素点的位置信息，将多个像素点对应的第二像素值进行排列得到第n个原始图像对应的帧差图。

需要说明的是，为了简单起见，本发明实施例在计算像素值只考虑第n个原始图像为灰度图时的像素值。可选的，假设将第n个原始图像中各个像素点以像素点矩阵的形式表示，表示为f_i，num表示目标数量，f_i-j表示第n个原始图像的前j个原始图像，那么上述进行帧差提取处理可以通过下述公式(1)表示：

在公式(1)中，f_diff表示第n个原始图像对应的帧差图的像素矩阵。

例如，参见图3为本发明实施例提供的一种帧差提取处理的示意图。假设目标数量为2，300表示第1原始图像的像素矩阵，X表示每个像素点的像素值，301表示第2个原始图像的像素矩阵，Y表示每个像素点的像素值，302表示第3个原始图像的像素矩阵，Z表示每个像素点的像素值；应当知道的，在图3中每一个X，Y，Z用于一个像素值，不是所有的X均表示同一个像素值，也不是所有的Y表示同一个像素值，同理的，也不是所有Z均表示同一个像素值。

因为目标数量为2，第1个原始图像和第2个原始图像不需要进行帧差提取处理，对第3个原始图像进行帧差提取处理时，首先将第3个原始图像的像素矩阵中每个像素点的第一像素值与第2个原始图像的像素矩阵中相应像素点的第一像素值进行求差处理，得到一个帧差像素矩阵如图3中304所示；以及将第3个原始图像的像素矩阵中每个像素点的第一像素值与第1个原始图像的像素矩阵中相应像素点的第一像素值进行求差处理得到一个帧差像素矩阵如图3中305所示；然后将304和305中相应位置的像素值进行求平均运算，最后得到一个帧差图对应的像素矩阵，如图3中306所示。

在一个实施例中，目标数量可以是视频处理设备预先设定的，可以为1或2或者其他任意数。可选的，如果目标数量为1，则表明任意一个原始图像只需与其前一个原始图像进行相应像素点的像素值求差，得到的差值为一个，那么可以省去上述取平均运算的步骤。

步骤S203、根据M个帧差图从N个原始图像中获取关键图像集合，关键图像集合中每个关键图像对应一个视频主题。

在一个实施例中，关键图像集合中每个关键图像对应一个视频主题可以指每个关键图像上显示有一个视频主题；或者，通过对每个关键图像进行图像内容识别和分析得到一个视频主题。本发明实施例中，在无特殊说明的情况下，所述每个关键图像对应一个视频主题是指每个关键图像上显示有一个视频主题。

在一个实施例中，根据M个帧差图从N个原始图像中获取关键图像集合，可以包括：对M个帧差图中每个帧差图的像素值进行分析，得到每个帧差图对应的候选框以及候选框的位置信息，并根据每个帧差图对应的候选框得到候选框集合；将N个初始图像中，位置信息在预设范围内的候选框对应的原始图像作为关键图像存入关键图像集合中。其中，所述每个候选框对应的原始图像是指所述N个原始图像中与所述每个候选框对应的帧差图对应的原始图像。

由前述可知，通过帧差提取可以确定显示视频主题的区域的显示特征，下一步，本发明实施例可以通过对每个帧差图的像素值进行分析确定显示视频主题的区域的区域信息，比如区域的大小、区域的位置等等。通常情况下，用于显示视频主题的区域可以是一个矩形框，因此具体实现中，可以是求解每个帧差图中最大矩形，将每个帧差图中的最大矩形确定为一个用于显示视频主题的候选框。

应当理解的，通常情况下视频主题的显示位置是变化不大的，这样一来视频处理设备就可以根据每个候选框的位置信息来从N个原始图像中筛选关键图像，比如一个原始图像对应的帧差图对应的候选框的位置信息指示该候选框处于预设的、用于显示视频主题的位置处，那么该原始图像可以被确定为一个关键图像。

应当理解的，当两个原始图中相应位置的像素点的像素差值越小，得到的帧差图中该位置越接近黑色；反之，则越不接近黑色。参见图4a，为本发明实施例提供的一个帧差图的示意图。其中，401表示第n个原始图像，41表示第n个原始图像上显示视频主题的显示区域，402表示对第n个原始图像进行帧差提取处理得到的帧差图。从图4a可以看出，视频主题的显示区域在帧差图中的像素值接近0；参见图4b，为本发明实施例提供的另一个帧差图的示意图，在图4b中，411表示第j个原始图像，422表示第j个原始图像对应的帧差图。图4b所示的帧差图是不太理想的帧差图，因为第j个原始图像和第j个原始图像的前目标数量个原始图像之间的变化较小，导致第j个原始图像对应的帧差图全图像素接近于0，无法突出视频主题的显示区域的特征。

基于这类不太理想的帧差图很难确定出关键图像，或者这类不太理性的帧差图对确定关键图像的准确性有一定影响。因此，本发明实施例中，在根据M个帧差图从N个原始图像中确定关键图像之前，可以先对M个帧差图进行过滤处理，以过滤掉上述这类不太理想的帧差图。具体实现中，可以根据帧差图的全局面积值和全局面积阈值来过滤。其中，一个帧差图的全局面积值是将帧差图的全部像素点的值进行取平均得到的，如果一个帧差图的全局面积值大于全局面积阈值，则表明该帧差图的全图像素都接近0，也就是该帧差图越接近于黑色，将该帧差图过滤掉；如果一个帧差图的全局面积值小于或等于全局面积阈值，则表明该帧差图是理想的帧差图，可以保留。

步骤S204、从N个原始图像中得到与每个关键图像具有相同视频主题的关联图像，并根据关键图像集合中多个关键图像和多个关键图像对应的关联图像，对待处理视频进行视频片段划分得到多个视频片段。

由于待处理视频中包括视频主题显示的滞后性以及视频处理设备设置的采样频率，可能导致每一个关键图像并不是该关键图像对应的视频主题出现的第一个原始图像，那么为了完整的得到与一个视频主题对应的多个原始图像，本发明实施例中，根据采样频率和上述帧差提取处理时的目标数量为每一个关键图像对应一个搜索范围，在每一个关键图像对应的搜索范围内查找该视频主题出现的第一个原始图像和视频主题出现的最后一个原始图像(这两个原始图像可以称为一个关键图像的关联图像)。

具体实现中，步骤S204中从N个原始图像中得到与每个关键图像具有相同视频主题的关联图像，包括：获取对所述待处理视频进行分帧处理时的采样频率，并基于所述采样频率和所述目标数量确定所述每个关键图像对应的搜索范围；从所述N个原始图像中确定落入所述每个关键图像对应的搜索范围内的原始图像；将每个关键图像对应的搜索范围内，与相应关键图像之间的相似度小于相似度阈值的原始图像，作为所述每个关键图像对应的关联图像。

在得到每个关键图像对应的关联图像后，可以将多个关键图像以及多个关键图像对应的关联图像对待处理视频进行划分，得到多个视频片段。具体实现中，将一个关键图像和该关键图像对应的关联图像组成一个视频片段，多个关键图像和多个关键图像对应的关联图像就将待处理视频划分为多个视频片段。

基于上述的视频处理方法，本发明实施例提供了另一种视频处理方法，参见图5所示，为本发明实施例提供的另一种视频处理方法的流程示意图。图5所示的视频处理方法可由视频处理设备执行，所述视频处理设备可以是终端或者服务器，所述终端可以包括智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载等，所述服务器可以包括独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。图5所示的视频处理方法可包括如下步骤：

步骤S501、获取待处理视频，并基于采样频率对待处理视频进行分帧处理得到N个原始图像。

步骤S502、对N个原始图像进行帧差提取处理，得到M个帧差图。

在一个实施例中，步骤S501和步骤S502包括的一些可行的实施方式可参见图2实施例中相关步骤的描述，在此不再赘述。

步骤S503、对M个帧差图中每个帧差图的像素值进行分析，得到每个帧差图对应的候选框以及候选框的属性信息，并根据每个帧差图对应的候选框得到候选框集合。

在一个实施例中，对M个帧差图中每个帧差图的像素值进行分析，得到每个帧差图对应的候选框可以是视频处理设备根据每个帧差图的像素值查找每个帧差图中最大内接矩阵来实现的。下面以M个帧差图中目标帧差图(目标帧差图为M个帧差图中任意一个)为例，具体介绍视频处理设备如何得到每个帧差图对应的候选框。具体地：对所述目标帧差图进行逐行直方图求解处理，得到所述目标帧差图每行对应的直方图，所述目标帧差图每行对应的直方图内各个像素点的像素值等于像素差阈值；根据所述目标帧差图每行对应的直方图确定所述目标帧差图中最大矩形区域；将所述目标帧差图中最大矩形区域确定为所述目标帧差图对应的候选框，以及根据所述目标帧差图中最大矩形区域的顶点在所述目标帧差图中的坐标信息确定所述目标帧差图对应的候选框的属性信息。

其中，目标帧差图对应的候选框的属性信息包括位置信息和尺寸信息，位置信息可以也用坐标形式表示。简单来说，针对每个帧差图，以行为单位，求该帧差图上直方图所围成的最大矩形。遍历所有行，找到直方图所围成的最大矩形，即为每个帧差图对应的候选框。这一过程，可以通过图6a表示。

在一个实施例中，根据目标帧差图每行对应的直方图确定目标帧差图中最大矩形区域可以是通过一个单调递增栈来实现的。大致原理是：(1)创建一个单调递增空栈可以表示为stack；(2)创建数组左边界left，右边界right，数组长度为直方图的个数。假设目标帧差图有8个直方图，这8个直方图按照各个直方图所在行由上到下的顺序1，2，3，4，5，6，7，8；(3)初始化矩形面积等于0，开始逐个遍历每个直方图的高度表示为height[i]，i大于等于1小于等于8，height[i]表示第i个直方图的高度，每个直方图的高度定义为位于当前行上方的各个行中，与该像素点相应像素点处像素值为0的像素点的个数。

如果此时栈stack为非空并且栈顶的直方图的高度大于或等于height[i]，则将栈顶出栈计算一个矩形面积，该矩形的高度为栈顶的直方图的高度，宽度为i的值，如果i等于，那么宽度就等于1；如果i等于2，宽度就为2；如果此时栈stack为非空并且栈顶的直方图的高度小于height[i]，则将直方图i作为栈顶入栈；如果此时栈为空，则将第i个直方图直接入栈；在每次有栈顶出栈的时候进行一次矩形计算。直到遍历了所有的直方图后，从上述遍历过程中找到最大矩形。上述过程可通过图6b所示。

在得到每个帧差图对应的候选框后，可以根据M个帧差图对应的候选框得到一个候选框集合。在一个实施例中，根据M个帧差图对应的候选框得到候选框集合，包括：将M个帧差图对应的候选框组成一个候选框集合。换句话说，将M个帧差图中所有帧差图对应的候选框均存入一个候选框集合中。

在其他实施例中，为了提高确定关键图像的准确性，本发明实施例在得到每个帧差图对应的候选框之后，还可以计算每个候选框的区域面积值和每个帧差图的全局面积值，然后基于每个候选框的区域面积值和每个帧差图的全局面积值从M个帧差图对应的候选框中选取一部分候选框组成候选框集合。具体实现中，所述根据M个帧差图对应的候选框得到候选框集合，包括：确定所述每个帧差图对应的候选框的区域面积值和所述每个帧差图的全局面积值；将区域面积值和全局面积值满足面积条件的候选框添加到候选框集合中，其中，任一候选框的区域面积值和全局面积值满足在面积条件是指：所述任一候选框对应的任一帧差图的全局面积值小于全局面积阈值，且所述任一候选框的区域面积值小于区域面积阈值。

其中，任一候选框的区域面积值是用于检测该任一候选框的像素，任一候选框对应的帧差图的全局面积值用于检测该帧差图的像素。如果任一候选框的区域面积值大于区域面积阈值，则该候选框不够显著，可能为非显示视频主题的区域；如果任一帧差图的全局面积值大于全局面积阈值，则说明该任一帧差图的全图像素接近0，难以显示视频主题区域的显著特征。基于此，本发明实施例规定如果任一候选框对应的任一帧差图的全局面积值小于全局面积阈值，且任一候选框的区域面积值小于区域面积阈值，则表明该任一候选框大概率是显示视频主题的显示区域，可以将任一候选框添加到候选框集合中以便于后续基于此确定关键图像。在实际测试中，可以将区域面积阈值设置为0.03，全局面积阈值可以设置为0.85。

举例来说，参见图7a-图7c为本发明实施例提供的几种帧差图的示意图，在图7a中，701表示第n个原始图像，702表示第n个原始图像对应的帧差图，703表示702中的候选框，假设图7a中帧差图702的全局面积小于面积阈值，且候选框703的局部面积值小于局部面积阈值，因此候选框703可以存入到候选框集合中；在图7b中，71表示第j个原始图像，72表示第j个原始图像对应的帧差图，73表示72中的候选框，假设帧差图72的全局面积值小于全局面积阈值，但是候选框73的局部面积值大于局部面积阈值，所以图7b中候选框73不能存入候选框集合中；在图7c中，711表示第i个原始图像，722表示第i个原始图像对应的帧差图，733表示帧差图722中的候选框，假设图7c中，帧差图722的全局面积值大于全局面积阈值，该帧差图的全图像素都接近于0，因此该帧差图中的候选框也不能存入到候选框集合中。

步骤S504、按照候选框集合中每个候选框的属性信息，对每个候选框对应的原始图像进行候选区域截取，得到一个候选区域并存入候选区域集合。

具体实现中，由前述可知，一个候选框对应一个帧差图，一个帧差图对应一个原始图像，那么候选框对应的原始图像就是该候选框对应的帧差图对应的原始图像。举例来说，参见图8a，为本发明实施例提供的一种确定候选区域集合的示意图。假设对一个待处理视频进行分帧处理后，得到5个原始图像；对5个原始图像进行帧差提取处理，目标数量为2，第3个原始图像对应的帧差图为801，第4个原始图像对应的帧差图为802，第5个原始图像对应的帧差图为803，应当理解的，图8a的各个帧差图中只示出帧差图的大小和帧差图中候选框的大小和位置，并未示出帧差图的具体内容；假设801上的候选框81和802上的候选框82被选入到候选框集合中；然后按照801上的候选框81的属性信息从第3个原始图像上截取一个候选区域83，同理的，按照候选框82的属性信息从第4个原始图像上截取一个候选区域84，两个候选区域组成候选区域集合。

步骤S505、对候选区域集合进行聚类处理，得到用于显示视频主题的多个目标区域，并将多个目标区域中每个目标区域对应的原始图像确定为一个关键图像存入关键图像集合。

得到候选区域集合后，进一步的对候选区域集合进行聚类处理，得到用于显示视频主图的多个目标区域。本发明实施例中可以采用层次聚类对候选区域集合进行聚类处理。具体实现中，对候选区域集合进行聚类处理，得到用于显示视频主题的多个目标区域，包括：基于多个候选区域的中心位置和尺寸信息对所述多个候选区域进行位置聚类处理，得到第一候选区域子集，所述第一候选区域子集包括的多个候选区域之间的中心位置差值小于第一聚类参数；根据多个候选区域的颜色属性对所述第一候选区域子集进行颜色聚类处理得到多个目标区域，所述多个目标区域之间的颜色属性差值小于第二聚类参数。

其中，由于每个候选区域是基于候选框截取得到的，因此，每个候选区域的尺寸信息与相应候选框的尺寸信息是相同的，每个候选区域的位置信息与相应候选框的位置信息也相同，基于每个候选框的位置信息可以得到相应候选框的中心位置。

通过上述步骤可知，对候选区域集合的聚类处理包括两步：第一步是位置聚类，使用到的特征为每个候选区域的中心位置和尺寸信息，第一聚类参数可以设置为0.4，聚类后取数量最大的簇作为第一候选区域子集；第二步是颜色聚类处理，使用的特征为第一候选区域子集中多个候选区域的颜色属性，颜色属性也可以通过直方图来反映，这里使用到的特征也可以说是直方图，第二聚类参数可以设置为0.7，聚类后取数量最大的簇作为多个目标区域。

在一个实施例中，对候选区域集合进行聚类处理之前，视频处理设备还可以对候选区域集合进行去重处理，具体地：计算有重叠部分的候选区域之间重叠部分图像相似度；如果图像相似度大于相似度阈值，则将重叠的候选区域合并为一个候选区域。经过上述去重处理后的候选区域集合中每个候选区域对应一个id标识。

例如，参见图8b，为本发明实施例提供的一种对候选区域集合进行聚类的示意图。810表示未聚类处理之前的多个候选区域，每个符号表示一个候选区域，符号所在位置标识候选区域的中心位置，不同颜色的符号表示候选区域的颜色特征。第一次聚类处理保留下位置比较集中的候选区域如811所示；第二次聚类保留下颜色特征集合的候选区域如822所示，这些候选区域作为目标区域。

得到多个目标区域后，将每个目标区域所在的原始图像作为一个关键图像存入关键图像集合，也就是说将包括目标区域的原始图像作为关键图像。接上图8a所示，如果对候选区域83和84聚类处理后，83和84均为目标区域，那么将83所在的原始图像-第3个原始图像作为一个关键图像，以及将84所在的原始图像-第4个原始图像作为一个关键图像。

步骤S506、获取对待处理视频进行分帧处理时的采样频率，对基于采样频率和目标数量确定每个关键图像对应的搜索范围。

在一个实施例中，假设采样频率为step，进行帧差提取处理时目标数量为num，关键图像为第n个原始图像，第n个原始图像对应的搜索范围可以表示为(n-2*step*num，n-2*step*num)。按照这个搜索范围，在第n个原始图像的前后进行查找，比较第n个原始图像与查找到的原始图像之间的相似度。此处所述两个原始图像之间的相似度可以是两个原始图像整体的相似度，也可以是指两个原始图像中显示视频主题区域的相似度。

步骤S507、从N个原始图像中确定落入每个关键图像对应的搜索范围内的原始图像，并将每个关键图像对应的搜索范围内，与相应关键图像之间的相似度小于相似度阈值的原始图像，作为每个关键图像对应的关联图像。

步骤S508、根据关键图像集合中多个关键图像和多个关键图像对应的关联图像，对待处理视频进行视频片段划分得到多个视频片段。

本发明实施例中在待处理视频进行拆分时，先根据待处理视频包括的N个原始图像得到M个帧差图，然后对M个帧差图中每个帧差图的像素值进行分析，得到每个帧差图对应的候选框以及候选框的属性信息，并根据每个帧差图对应的候选框得到候选框集合；进一步的，按照候选框集合中每个候选框的属性信息，对每个候选框对应的原始图像进行候选区域截取，得到一个候选区域并存入候选区域集合；对候选区域集合进行聚类处理，得到用于显示视频主题的多个目标区域，并将多个目标区域中每个目标区域，并将多个目标区域中每个目标区域对应的原始图像确定为一个关键图像存入关键图像集合。

然后，获取对待处理视频进行分帧处理时的采样频率，对基于采样频率和目标数量确定每个关键图像对应的搜索范围；从N个原始图像中确定落入每个关键图像对应的搜索范围内的原始图像，并将每个关键图像对应的搜索范围内，与相应关键图像之间的相似度小于相似度阈值的原始图像，作为每个关键图像对应的关联图像，最后根据关键图像集合中多个关键图像和多个关键图像对应的关联图像对待处理视频进行视频片段划分得到多个视频片段。

由上述过程可见，本发明实施例是基于帧差图实现对待处理视频中视频主题识别的，与现有技术相比，本发明实施例在视频拆分时，无需使用OCR技术逐帧提取文本信息以及采用ASR技术进行语音信息提取等处理，只需依据各个原始图像之间的像素值差便能实现对视频分段处理，提高了视频处理效率以及节省了功耗开销。

基于上述的视频处理方法实施例，本发明实施例提供了一种视频处理装置。参见图9，为本发明实施例提供的一种视频处理装置的结构示意图。图9所示的视频处理装置可运行如下单元：

获取单元901，用于获取待处理视频，所述待处理视频由多个视频片段组成，每个视频片段对应一个视频主题；

处理单元902，用于对所述待处理视频进行分帧处理得到N个原始图像，并对所述N个原始图像进行帧差提取处理得到M个帧差图，M和N均为大于1的整数；

所述获取单元901，还用于根据所述M个帧差图从所述N个原始图像中获取关键图像集合，所述关键图像集合中每个关键图像对应一个视频主题；

所述获取单元901，还用于从所述N个原始图像中得到与所述每个关键图像具有相同视频主题的关联图像；

所述处理单元902，还用于根据所述关键图像集合中多个关键图像和所述多个关键图像对应的关联图像，对所述待处理视频进行视频片段划分得到多个视频片段。

在一个实施例中，所述N个原始图像按照每个原始图像在所述待处理视频中的显示顺序由前到后排列，所述处理单元902在对所述N个原始图像进行帧差提取处理得到一个帧差图时，执行如下步骤：

将第n个原始图像中每个像素点的第一像素值，分别与所述第n个原始图像的前目标数量个原始图像中相应像素点的第一像素值进行求差运算得到所述每个像素点对应的帧差像素值集合，所述目标数量大于等于1，n大于所述目标数量且小于等于N；

分别对所述每个像素点对应的帧差像素值集合中多个帧差像素值进行取平均运算，得到所述每个像素点对应的第二像素值；

按照所述第n个原始图像中多个像素点的位置信息，将多个像素点对应的第二像素值进行排列得到所述第n个原始图像对应的帧差图。

在一个实施例中，所述关键图像集合中每个关键图像对应的视频主题显示在相应的关键图像上，所述获取单元901在所述根据所述M个帧差图从所述N个原始图像中获取关键图像集合时，执行如下步骤：

对所述M个帧差图中每个帧差图的像素值进行分析，得到所述每个帧差图对应的候选框以及候选框的属性信息，并根据所述每个帧差图对应的候选框得到候选框集合；

按照所述候选框集合中每个候选框的属性信息，对所述每个候选框对应的原始图像进行候选区域截取，得到一个候选区域并存入候选区域集合，所述每个候选框对应的原始图像是指所述N个原始图像中与所述每个候选框对应的帧差图对应的原始图像；

对所述候选区域集合进行聚类处理，得到用于显示视频主题的多个目标区域，并将所述多个目标区域中每个目标区域对应的原始图像确定为一个关键图像存入所述关键图像集合。

在一个实施例中，所述M个帧差图中包括目标帧差图，所述获取单元901在对所述M个帧差图中每个帧差图的像素值进行分析，得到每个帧差图对应的候选框以及候选框的位置信息时，执行如下步骤：

对所述目标帧差图进行逐行直方图求解处理，得到所述目标帧差图每行对应的直方图，所述目标帧差图每行对应的直方图内各个像素点的像素值等于像素差阈值；根据所述目标帧差图每行对应的直方图确定所述目标帧差图中最大矩形区域；

将所述目标帧差图中最大矩形区域确定为所述目标帧差图对应的候选框，以及根据所述目标帧差图中最大矩形区域的顶点在所述目标帧差图中的坐标信息确定所述目标帧差图对应的候选框的属性信息。

在一个实施例中，所述获取单元901在所述对所述候选区域集合进行聚类处理时，执行如下步骤：

基于多个候选区域的中心位置和尺寸信息对所述多个候选区域进行位置聚类处理，得到第一候选区域子集，所述第一候选区域子集包括的多个候选区域之间的中心位置差值小于第一聚类参数；根据多个候选区域的颜色属性对所述第一候选区域子集进行颜色聚类处理得到多个目标区域，所述多个目标区域之间的颜色属性差值小于第二聚类参数。

在一个实施例中，所述获取单元901在所述根据M个帧差图对应的候选框得到候选框集合时，执行如下步骤：

确定所述每个帧差图对应的候选框的区域面积值和所述每个帧差图的全局面积值；将区域面积值和全局面积值满足面积条件的候选框添加到候选框集合中，其中，任一候选框的区域面积值和全局面积值满足在面积条件是指：所述任一候选框对应的任一帧差图的全局面积值小于全局面积阈值，且所述任一候选框的区域面积值小于区域面积阈值。

在一个实施例中，所述获取单元901在所述从所述N个原始图像中得到与所述每个关键图像具有相同视频主题的关联图像时，执行如下步骤：

获取对所述待处理视频进行分帧处理时的采样频率，并基于所述采样频率和所述目标数量确定所述每个关键图像对应的搜索范围；从所述N个原始图像中确定落入所述每个关键图像对应的搜索范围内的原始图像；

将每个关键图像对应的搜索范围内，与相应关键图像之间的相似度小于相似度阈值的原始图像，作为所述每个关键图像对应的关联图像。

在一个实施例中，所述处理单元902在根据所述关键图像集合中多个关键图像和所述每个关键图像对应的关联图像进行视频片段划分得到多个视频片段时，执行如下步骤：

将每个关键图像和所述每个关键帧像对应的关联图像，按照在所述待处理视频中的显示顺序由前到后进行拼接处理，得到所述每个关键图像对应的一个视频片段。

在一个实施例中，所述获取单元901在根据所述M个帧差图从所述N个原始图像中获取关键图像集合时，执行如下步骤：

对所述M个帧差图中每个帧差图的像素值进行分析，得到每个帧差图对应的候选框以及候选框的位置信息，并根据所述M个帧差图对应的候选框得到候选框集合；

将所述N个原始图像中，位置信息在预设范围内的候选框对应的原始图像，作为关键图像存入关键图像集合。

根据本发明的一个实施例，图2和图5所示的视频处理方法所涉及各个步骤可以是由图9所示的视频处理装置中的各个单元来执行的。例如，图2所述的步骤S201可由图9所示的视频处理装置中的获取单元901和处理单元902来执行，步骤S202可由图9所示的视频处理装置中处理单元902来执行，步骤S203可由图9所示的视频处理装置中的获取单元901来执行，步骤S204可由图9所示的视频处理装置中的获取单元901和处理单元902来执行；再如，图5所示的视频处理方法中步骤S501和步骤S506均可由图9所示的视频处理装置中的获取单元901和处理单元902来执行，步骤S502-步骤S505，以及步骤S507和步骤S508可由图9所示的视频处理装置中的处理单元902来执行。

根据本发明的另一个实施例，图9所示的视频处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于信息共享装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本发明的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2和图5所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图9中所示的视频处理装置，以及来实现本发明实施例视频处理方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述计算设备中，并在其中运行。

基于上述的方法实施例以及装置实施例，本发明实施例还提供了一种视频处理设备。参见图10，为本发明实施例提供的一种视频处理设备的结构示意图。图10所示的视频处理设备可至少包括处理器1001、输入接口1002、输出接口1003以及计算机存储介质1004。其中，处理器1001、输入接口1002、输出接口1003以及计算机存储介质1004可通过总线或其他方式连接。

计算机存储介质1004可以存储在数据处理设备的存储器中，所述计算机存储介质1004用于存储计算机程序，所述处理器1001用于执行所述计算机存储介质1004存储的计算机程序。处理器1001(或称CPU(Central Processing Unit，中央处理器))是视频处理设备的计算核心以及控制核心，其适于实现一条或多条计算机程序，具体适于加载并执行：

本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是视频处理设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括视频处理设备的内置存储介质，当然也可以包括视频处理设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了视频处理设备的操作系统。并且，在该存储空间中还存放了适于被处理器1001加载并执行的一条或多条的计算机程序。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，所述计算机存储介质可由处理器1001加载并执行计算机存储介质中存放的一条或多条计算机程序，以实现上述图2和图5所示的视频处理方法的相应步骤。具体实现中，计算机存储介质中的一条或多条计算机程序由处理器1001加载并执行如下步骤：

在一个实施例中，所述N个原始图像按照每个原始图像在所述待处理视频中的显示顺序由前到后排列，所述处理器1001在对所述N个原始图像进行帧差提取处理得到一个帧差图时，执行如下步骤：

在一个实施例中，所述关键图像集合中每个关键图像对应的视频主题显示在相应的关键图像上，所述处理器1001在根据所述M个帧差图从所述N个原始图像中获取关键图像集合时，执行如下步骤：

在一个实施例中，所述M个帧差图中包括目标帧差图，所述处理器1001在对所述M个帧差图中每个帧差图的像素值进行分析，得到每个帧差图对应的候选框以及候选框的位置信息时，执行如下步骤：

在一个实施例中，所述处理器1001在对所述候选区域集合进行聚类处理时，执行如下步骤：

在一个实施例中，所述处理器1001在根据M个帧差图对应的候选框得到候选框集合时，执行如下步骤：

在一个实施例中，所述处理器1001从所述N个原始图像中得到与所述每个关键图像具有相同视频主题的关联图像时，执行如下步骤：

在一个实施例中，所述处理器1001在根据所述关键图像集合中多个关键图像和所述每个关键图像对应的关联图像进行视频片段划分得到多个视频片段时，执行如下步骤：

在一个实施例中，所述处理器1001在根据所述M个帧差图从所述N个原始图像中获取关键图像集合时，执行如下步骤：

对所述M个帧差图中每个帧差图的像素值进行分析，得到每个帧差图对应的候选框以及候选框的位置信息，并根据所述M个帧差图对应的候选框得到候选框集合；将所述N个原始图像中，位置信息在预设范围内的候选框对应的原始图像，作为关键图像存入关键图像集合。

根据本申请的一个方面，本发明实施例还提供了一种计算机产品或计算机程序，该计算机产品中包括计算机程序，该计算机程序存储在计算机可读存储介质中。处理器1001从计算机可读存储介质中读取该计算机程序，处理器1001执行该计算机程序，使得终端执行图2和图5所示的视频处理方法，具体地：

Claims

1.一种视频处理方法，其特征在于，包括：

按照所述候选框集合中每个候选框的属性信息，对所述每个候选框对应的原始图像进行候选区域截取，得到候选区域并存入候选区域集合，所述每个候选框对应的原始图像是指所述N个原始图像中与所述每个候选框对应的帧差图对应的原始图像；

对所述候选区域集合进行聚类处理，得到用于显示视频主题的多个目标区域，并将所述多个目标区域中每个目标区域对应的原始图像确定为一个关键图像存入关键图像集合；所述关键图像集合中每个关键图像对应一个视频主题，所述关键图像集合中每个关键图像对应的视频主题显示在相应的关键图像上；

2.如权利要求1所述的方法，其特征在于，所述N个原始图像按照每个原始图像在所述待处理视频中的显示顺序由前到后排列，对所述N个原始图像进行帧差提取处理得到一个帧差图，包括：

3.如权利要求1所述的方法，其特征在于，所述M个帧差图中包括目标帧差图，所述对所述M个帧差图中每个帧差图的像素值进行分析，得到所述每个帧差图对应的候选框以及候选框的属性信息，包括：

对所述目标帧差图进行逐行直方图求解处理，得到所述目标帧差图每行对应的直方图，所述目标帧差图每行对应的直方图内各个像素点的像素值等于像素差阈值；

根据所述目标帧差图每行对应的直方图确定所述目标帧差图中最大矩形区域；

4.如权利要求1所述的方法，其特征在于，所述对所述候选区域集合进行聚类处理，包括：

基于多个候选区域的中心位置和尺寸信息对所述多个候选区域进行位置聚类处理，得到第一候选区域子集，所述第一候选区域子集包括的多个候选区域之间的中心位置差值小于第一聚类参数；

根据多个候选区域的颜色属性对所述第一候选区域子集进行颜色聚类处理得到多个目标区域，所述多个目标区域之间的颜色属性差值小于第二聚类参数。

5.如权利要求2所述的方法，其特征在于，所述从所述N个原始图像中得到与所述每个关键图像具有相同视频主题的关联图像，包括：

获取对所述待处理视频进行分帧处理时的采样频率，并基于所述采样频率和所述目标数量确定所述每个关键图像对应的搜索范围；

从所述N个原始图像中确定落入所述每个关键图像对应的搜索范围内的原始图像；

6.如权利要求1所述的方法，其特征在于，所述根据所述关键图像集合中多个关键图像和所述每个关键图像对应的关联图像进行视频片段划分得到多个视频片段，包括：

将每个关键图像和所述每个关键图像对应的关联图像，按照在所述待处理视频中的显示顺序由前到后进行拼接处理，得到所述每个关键图像对应的一个视频片段。

7.如权利要求1所述的方法，其特征在于，所述属性信息包括位置信息；所述方法还包括：

8.一种视频处理装置，其特征在于，包括：

获取单元，用于获取待处理视频，所述待处理视频由多个视频片段组成，每个视频片段对应一个视频主题；

处理单元，用于对所述待处理视频进行分帧处理得到N个原始图像，并对所述N个原始图像进行帧差提取处理得到M个帧差图，M和N均为大于1的整数；

所述获取单元，还用于对所述M个帧差图中每个帧差图的像素值进行分析，得到所述每个帧差图对应的候选框以及候选框的属性信息，并根据所述每个帧差图对应的候选框得到候选框集合；按照所述候选框集合中每个候选框的属性信息，对所述每个候选框对应的原始图像进行候选区域截取，得到候选区域并存入候选区域集合，所述每个候选框对应的原始图像是指所述N个原始图像中与所述每个候选框对应的帧差图对应的原始图像；对所述候选区域集合进行聚类处理，得到用于显示视频主题的多个目标区域，并将所述多个目标区域中每个目标区域对应的原始图像确定为一个关键图像存入关键图像集合，所述关键图像集合中每个关键图像上显示有一个视频主题，所述关键图像集合中每个关键图像对应的视频主题显示在相应的关键图像上；

所述获取单元，用于从所述N个原始图像中得到与所述每个关键图像具有相同视频主题的关联图像；

9.一种视频处理设备，其特征在于，包括：

处理器，适于实现一条或多条计算机程序；以及

计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行如权利要求1-7任一项所述的视频处理方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时，用于执行如权利要求1-7任一项所述的视频处理方法。