CN104902279A

CN104902279A - 一种视频处理方法及装置

Info

Publication number: CN104902279A
Application number: CN201510271487.1A
Authority: CN
Inventors: 虞露; 左旭光; 赵寅; 杨海涛
Original assignee: Huawei Technologies Co Ltd; Zhejiang University ZJU
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-05-25
Filing date: 2015-05-25
Publication date: 2015-09-09
Anticipated expiration: 2035-05-25
Also published as: CN104902279B

Abstract

本发明的实施例提供一种视频处理方法及装置，涉及多媒体处理技术领域，能够有效提高视频编码的效率。该方法包括：将待编码视频分割为至少两段场景；将各段场景划分为至少两个场景类别；从至少两个场景类别中的至少一个场景类别中分别选取出至少一幅图像；保存选取出的图像，以生成知识库。

Description

一种视频处理方法及装置

技术领域

本发明涉及多媒体处理技术领域，尤其涉及一种视频处理方法及装置。

背景技术

随着多媒体技术和互联网的快速发展，视频信息越来越多。相应的，对视频的处理显得越来越重要。视频编码是其中的一种关键技术，近年来受到人们越来越多的关注和重视。

为了提高视频编码的效率，现有技术中存在一种基于图像库进行视频编码的方法，即将待编码视频中的图像与图像库中的预存储图像进行比较得到区别图像及相同图像，然后对区别图像进行编码以及相同图像所对应的属性信息进行编码。

但是，上述方法中提到的图像库通常是预先对各种类型的人物、物体或动画、片段等数据进行采集，获取大量丰富的图片或图像的数据并存储在数据库中形成的。该图像库中的数据与待编码视频中的图像的相关性较小，且该图像库中的数据容易出现多个数据之间存在较高相关性的问题，即图像库中的数据冗余较大。另外，将这样的图像库传输到解码端，将会耗费大量比特。因此，基于这样的图像库进行视频编码时，依旧会限制视频编码的效率。

发明内容

本发明的实施例提供一种视频处理方法及装置，通过分析待编码视频，构建出与待编码视频相关性较大且内部数据之间冗余较小的知识库，进而利用该知识库对待编码视频进行编码，可有效的解决视频编码效率较低的问题。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明实施例提供了一种视频处理方法，该方法包括：

将待编码视频分割为至少两段场景；

将各段场景划分为至少两个场景类别；

从所述至少两个场景类别中的至少一个场景类别中分别选取出至少一幅图像；

保存选取出的图像，以生成知识库。

在第一方面的第一种可能的实现方式中，所述选取出的图像中任意两幅图像之间的相似度低于第一预设阈值。

在第一方面的第二种可能的实现方式中，所述将各段场景划分为至少两个场景类别，包括：

每段场景为一个场景类别；

或者，

检测至少一段场景和其不相邻场景的相似度，并将相似度大于或等于第二预设阈值的场景划分为同一个场景类别。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述检测至少一段场景和其不相邻场景的相似度，包括：

从各段场景中分别选取一幅代表图像；

计算任意两段不相邻场景的代表图像之间的相似度；所述相似度使用两幅图像之间的图像差、特征描述子相似度或运动补偿残差中的一种来衡量。

在第一方面的第四种可能的实现方式中，所述从所述至少两个场景类别中的至少一个场景类别中分别选取出至少一幅图像，包括：

选取第一场景类别中任意一段场景的第一预设位置的图像，所述第一场景类别为所述至少一个场景类别中的任意一个场景类别；

或者，

根据所述第一场景类别中各段场景的活动性选取图像，所述活动性使用运动矢量强度、图像差、运动补偿残差或者图像特征变化中的至少一种来衡量；其中，所述图像特征至少包括亮度直方图、色度直方图、特征描述子中的一种，所述特征描述子至少包括尺度不变转换SIFT特征描述子、加速稳健特征SURF特征描述子中的一种。

结合第一方面的第四种可能的实现方式，在第一方面的第五种可能的实现方式中，所述第一预设位置属于所述待编码视频中的随机访问点。

在第一方面的第六种可能的实现方式中，所述保存选取出的图像，以生成知识库，具体包括：

对选取出的图像进行编码，生成重建图像；

保存重建图像，以生成知识库。

结合第一方面的第四种可能的实现方式，在第一方面的第七种可能的实现方式中，所述根据所述第一场景类别中各段场景的活动性选取图像，包括：

计算所述第一场景类别中每段场景的活动性；

根据所述每段场景的活动性，确定每段场景中需要选取图像的数量；

采用第一预设选取规则，在每段场景中选取图像，所述选取图像的数量与所述需要选取图像的数量相同。

结合第一方面的第七种可能的实现方式，在第一方面的第八种可能的实现方式中，当第一场景类别中只包含有一段场景，且在该段场景中需要选取图像的数量为零时，则将所述第一场景类别需要选取图像的数量修改为一；

当所述第一场景类别中包含至少两段场景，且所有场景中需要选取图像的数量均为零时，则将所述第一场景类别中其中一段场景需要选取图像的数量修改为一。

结合第一方面的第七种可能的实现方式或第八种可能的实现方式，在第一方面的第九种可能的实现方式中，每段场景中需要选取图像的数量和该段场景的活动性呈单调递增关系，但每段场景中需要选取图像的数量不超过第三预设阈值。

结合第一方面的第七种可能的实现方式，在第一方面的第十种可能的实现方式中，所述采用第一预设选取规则，在每段场景中选取图像，包括：

根据选取图像的数量，等间隔或近似等间隔地从场景中选取出相应数量的图像。

结合第一方面的第四种可能的实现方式，在第一方面的第十一种可能的实现方式中，所述根据所述第一场景类别中各段场景的活动性选取图像，包括：

计算所述第一场景类别中位于第二预设位置的图像的活动性；

根据各个位于第二预设位置的图像的活动性和第二预设选取规则，选取所述第一场景类别中的图像。

结合第一方面的第十一种可能的实现方式，在第一方面的第十二种可能的实现方式中，所述根据各个位于第二预设位置的图像的活动性和第二预设选取规则，选取所述第一场景类别中的图像，包括：

从第一幅位于第二预设位置的图像开始，累积各幅位于第二预设位置的图像的活动性；

当活动性累积达到第四预设阈值时，选取对应位置的图像；

将活动性清零，从选取出的图像所在位置的下一个第二预设位置开始重复上述累积活动性、达到第四预设阈值时选取对应位置图像的过程，直到遍历完所述第一场景类别中所有位于第二预设位置的图像。

结合第一方面的第十一种可能的实现方式，在第一方面的第十三种可能的实现方式中，所述第二预设位置属于所述待编码视频中的随机访问点。

结合前述第一方面或第一方面的第一种可能的实现方式至第十三种可能的实现方式中的任意一种可能的实现方式，在第一方面的第十四种可能的实现方式中，所述选取出的图像属于所述待编码视频中的随机访问点所在的图像。

结合第一方面的第五种可能的实现方式或第十三种可能的实现方式至第十四种可能的实现方式中的任意一种可能的实现方式，在第一方面的第十五种可能的实现方式中，所述待编码视频中的随机访问点所在的图像采用帧内编码，或者仅参考知识库中的至少一幅图像采用帧间编码。

结合前述第一方面或第一方面的第一种可能的实现方式至第十五种可能的实现方式中的任意一种可能的实现方式，在第一方面的第十六种可能的实现方式中，所述方法还包括：

获取当前图像，所述当前图像为所述待编码视频中至少一幅图像；

从所述知识库中选择所述当前图像的至少一幅参考图像；

根据所述至少一幅参考图像对所述当前图像进行编码。

结合第一方面的第十六种可能的实现方式，在第一方面的第十七种可能的实现方式中，所述当前图像至少包括所述待编码视频中至少一个随机访问点所在的图像。

结合第一方面的第十六种可能的实现方式，在第一方面的第十八种可能的实现方式中，从所述知识库中选择所述当前图像的至少一幅参考图像，包括：

将所述当前图像和所述知识库中至少一幅图像进行相似度比较；

选取相似度超过第五预设阈值的N幅图像作为当前图像的参考图像，其中N为大于等于1的整数。

第二方面，本发明实施例提供了一种视频处理装置，包括：

分割单元，用于将待编码视频分割为至少两段场景，以及用于将各段场景划分为至少两个场景类别；

选取单元，用于从所述至少两个场景类别中的至少一个场景类别中分别选取出至少一幅图像；

存储单元，用于保存所述选取单元选取出的图像，以生成知识库。

在第二方面的第一种可能的实现方式中，所述选取出的图像中任意两幅图像之间的相似度低于第一预设阈值。

在第二方面的第二种可能的实现方式中，所述分割单元，具体用于将每段场景划分为一个场景类别；

或者，

所述分割单元，具体用于检测至少一段场景和其不相邻场景的相似度，并将相似度大于或等于第二预设阈值的场景划分为同一个场景类别。

结合第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述选取单元，具体用于从各段场景中分别选取一幅代表图像；

所述视频处理装置还包括计算单元；

所述计算单元，用于计算任意两段不相邻场景的代表图像之间的相似度；所述相似度使用两幅图像之间的图像差、特征描述子相似度或运动补偿残差中的一种来衡量。

在第二方面的第四种可能的实现方式中，所述选取单元，具体用于选取第一场景类别中任意一段场景的第一预设位置的图像，所述第一场景类别为所述至少一个场景类别中的任意一个场景类别；

所述选取单元，具体用于根据所述第一场景类别中各段场景的活动性选取图像，所述活动性使用运动矢量强度、图像差、运动补偿残差或者图像特征变化中的至少一种来衡量；其中，所述图像特征至少包括亮度直方图、色度直方图、特征描述子中的一种，所述特征描述子至少包括尺度不变转换SIFT特征描述子、加速稳健特征SURF特征描述子中的一种。

结合第二方面的第四种可能的实现方式，在第二方面的第五种可能的实现方式中，所述第一预设位置属于所述待编码视频中的随机访问点。

在第二方面的第六种可能的实现方式中，所述视频处理装置还包括处理单元；

所述处理单元，还用于对选取出的图像进行编码，生成重建图像；

所述存储单元，具体用于保存所述处理单元生成的重建图像，以生成知识库。

结合第二方面的第四种可能的实现方式，在第二方面的第七种可能的实现方式中，所述计算单元，还用于计算所述第一场景类别中每段场景的活动性；

所述视频处理装置还包括确定单元；

所述确定单元，用于根据所述计算单元计算的每段场景的活动性，确定每段场景中需要选取图像的数量；

所述选取单元，还用于采用第一预设选取规则，在每段场景中选取图像，所述选取图像的数量与所述需要选取图像的数量相同。

结合第二方面的第七种可能的实现方式，在第二方面的第八种可能的实现方式中，当第一场景类别中只包含有一段场景，且在该段场景中需要选取图像的数量为零时，则将所述第一场景类别需要选取图像的数量修改为一；

结合第二方面的第七种可能的实现方式或第八种可能的实现方式，在第二方面的第九种可能的实现方式中，每段场景中需要选取图像的数量和该段场景的活动性呈单调递增关系，但每段场景中需要选取图像的数量不超过第三预设阈值。

结合第二方面的第七种可能的实现方式，在第二方面的第十种可能的实现方式中，所述选取单元，还用于根据选取图像的数量，等间隔或近似等间隔地从场景中选取出相应数量的图像。

结合第二方面的第四种可能的实现方式，在第二方面的第十一种可能的实现方式中，所述计算单元，还用于计算所述第一场景类别中位于第二预设位置的图像的活动性；

所述选取单元，还用于根据所述计算单元计算的各个位于第二预设位置的图像的活动性和第二预设选取规则，选取所述第一场景类别中的图像。

结合第二方面的第十一种可能的实现方式，在第二方面的第十二种可能的实现方式中，所述处理单元，还用于从第一幅位于第二预设位置的图像开始，累积各幅位于第二预设位置的图像的活动性；

所述选取单元，还用于当活动性累积达到第四预设阈值时，选取对应位置的图像。

结合第二方面的第十一种可能的实现方式，在第二方面的第十三种可能的实现方式中，所述第二预设位置属于所述待编码视频中的随机访问点。

结合前述第二方面或第二方面的第一种可能的实现方式至第十三种可能的实现方式中的任意一种可能的实现方式，在第二方面的第十四种可能的实现方式中，所述选取出的图像属于所述待编码视频中的随机访问点所在的图像。

结合第二方面的第五种可能的实现方式或第十三种可能的实现方式至第十四种可能的实现方式中的任意一种可能的实现方式，在第二方面的第十五种可能的实现方式中，所述待编码视频中的随机访问点所在的图像采用帧内编码，或者仅参考知识库中的至少一幅图像采用帧间编码。

结合前述第二方面或第二方面的第一种可能的实现方式至第十五种可能的实现方式中的任意一种可能的实现方式，在第二方面的第十六种可能的实现方式中，所述视频处理装置还包括获取单元；

所述获取单元，用于获取当前图像，所述当前图像为所述待编码视频中至少一幅图像；

所述选取单元，还用于从所述知识库中选择所述当前图像的至少一幅参考图像；

所述处理单元，还用于根据所述选取单元选择出的至少一幅参考图像对所述当前图像进行编码。

结合第二方面的第十六种可能的实现方式，在第二方面的第十七种可能的实现方式中，所述当前图像至少包括所述待编码视频中至少一个随机访问点所在的图像。

结合第二方面的第十六种可能的实现方式，在第二方面的第十八种可能的实现方式中，所述处理单元，还用于将所述当前图像和所述知识库中至少一幅图像进行相似度比较；

所述选取单元，还用于选取相似度超过第五预设阈值的N幅图像作为当前图像的参考图像，其中N为大于等于1的整数。

本发明实施例提供一种视频处理方法及装置，视频处理装置将待编码视频分割为至少两段场景，并将各段场景划分为至少两个场景类别，然后，视频处理装置从至少两个场景类别中的至少一个场景类别中分别选取出至少一幅图像，最后，视频处理装置保存选取出的图像，以生成知识库。

从上面可以看出，本发明实施例中的知识库是视频处理装置根据待编码视频生成的，因此，该知识库与待编码视频之间的相关性较高。另外，视频处理器装置是将待编码视频进行分割，并划分为至少两个场景类别，然后根据场景类别的划分，从至少一个场景类别中选取图像的。视频处理装置从场景类别的角度出发，选取图像，并将选取出的图像存储至知识库，有效地降低了图像库中数据之间的冗余度。这样，本发明技术方案解决了目前图像库中数据冗余较大，与待编码视频相关性较低的问题。进而，有效的解决了视频编码效率较低的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为传统视频编码中随机访问点分布结构示意图；

图2为本发明实施例的视频处理方法的流程示意图一；

图3为本发明实施例中场景类别的结构示意图；

图4为本发明实施例的视频处理方法的流程示意图二；

图5为本发明实施例的视频处理方法的流程示意图三；

图6为本发明实施例的视频处理方法的流程示意图四；

图7为本发明实施例的视频处理方法的流程示意图五；

图8为本发明实施例中以矩形块为单位进行运动搜索的示意图；

图9为本发明实施例中全局运动搜索的示意图；

图10为本发明实施例中场景类别内按照活动性积分抽取图像的示意图一；

图11为本发明实施例中场景类别内按照活动性积分抽取图像的示意图二；

图12本发明实施例的视频处理方法的流程示意图六；

图13为本发明实施例的视频处理装置的结构示意图一；

图14为本发明实施例的视频处理装置的结构示意图二；

图15为本发明实施例的视频处理器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透切理解本发明。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

编码是指一个能够对图像、视频进行压缩的程序或者设备。传统视频编码技术中，为了使编码后的视频支持随机访问功能，一般会在待编码视频中插入一些随机访问点，这样待编码视频被随机访问点分割成多个具有随机访问功能的视频片段，可简称为随机访问片段。通常，待编码视频中一个随机访问点后设置至少一个非随机访问点，一个随机访问片段包含一幅或多幅图像。示例性的，如图1所示，常用的一个帧内编码帧(I帧)之后跟随多个单向帧间编码帧(P帧)的编码结构(即通常说的IPPP编码结构)中包含有随机访问点、非随机访问点和随机访问片段。

本发明实施例提供的视频处理方法的执行主体是视频处理装置，该视频处理装置可以为视频编码装置，也可以为其他视频处理装置，其中，该视频处理装置可以是任何需要输出或存储视频的装置，如笔记本电脑、平板电脑、个人电脑、手机或视频服务器等设备。

本发明实施例提供的视频处理方法适用于包含若干幅图像的一段视频，该视频可能由至少两段场景构成，每段场景由连续多幅相似内容的图像构成。其中，任意两段相邻场景之间存在内容发生剧烈变化的场景切换。该视频中还存在至少一段场景和该段场景的不相邻场景之间具有相似的图像内容，也可以认为视频中的一些场景会多次重复出现，每次出现时场景的主体内容相似，但其中局部细节可能会发生变化，例如物体的位置发生移动、背景不变但前景人物动作改变等。其中，本发明实施例中提到的视频可以为电视剧、电影、访谈节目、新闻广播、体育赛事、综艺节目等。

实施例一

本发明实施例提供一种视频处理方法，如图2所示，该方法包括：

S101、视频处理装置将待编码视频分割为至少两段场景。

具体的，本发明实施例中视频处理装置对待编码视频进行场景切换检测，并将待编码视频分割为至少两段场景。

可选的，本发明实施例中的视频处理装置可以采用任意一种现有的场景切换方法对待编码视频进行场景切换检测，本发明实施例对此不做限定。

示例性的，视频处理装置检测相邻图像之间的图像差(framedifference，简单的例如对应像素点差值的总和)、运动补偿残差(motioncompensated difference)或者亮度或色度分量直方图的差。当差值超过某一阈值时，则认为发生了场景切换；或者，视频处理装置提取出图像的SIFT(Scale-invariant Feature Transform，尺度不变转换)特征，并比较相邻图像的SIFT特征的匹配度，其中，匹配方法为计算SIFT特征的坐标差距、方向差距、特征描述子的欧氏距离中的至少一种，当差距越大时，SIFT特征的相似度越低，在相似度低于某一阈值时，则认为发生了场景切换；或者，视频处理装置比较当前图像分别和该当前图像之前、之后相邻帧之间的相似度，如果两个相似度之间的差别过大，则认为发生了场景切换。例如：假设第i帧图像和第i-1帧图像之间的相似度为S，则当第i帧图像和第i+1帧图像之间的相似度低于阈值S/2时，则认为发生了场景切换。

如图3所示，图像4、图像2、图像3为视频处理装置检测到的场景切换图像，它们将视频分割为场景一、场景二和场景三。

S102、视频处理装置将各段场景划分为至少两个场景类别。

视频处理器在将待编码视频分为至少两段场景后，进一步对各段场景进行聚类，即将各段场景划分为至少两个场景类别。

具体的，视频处理装置可以将待编码视频中的每段场景划分为一个场景类别，即待编码视频中的场景数量和场景类别数量相同；视频处理装置还可以从待编码视频中的各段场景中选取一幅代表图像，并计算任意两段不相邻场景的代表图像之间的相似度，然后将相似度大于第二预设阈值的场景划分为同一个场景类别，本发明实施例不做限定。

示例性的，如图3所示，若视频处理装置将待编码视频分割为三段场景(场景一、场景二和场景三)，第二预设阈值假设为75％。视频处理装置计算场景三的代表图像(图像3)和场景一的代表图像(图像1)之间的相似度为90％，由于90％>75％，即场景三的代表图像与场景一的代表图像之间的相似度高于第二预设阈值，则视频处理装置认为场景三为场景一的重复场景，因此，将它们划分为一个场景类别，记为第1场景类别。场景二的代表图像(图像2)与场景一的代表图像(图像1)之间的相似度为38％，则场景二的代表图像与场景一的代表图像之间的相似度低于第二预设阈值(38％<75％)，则认为场景二不是场景一的重复场景，可以将场景二单独作为一个新的场景类别，记为第2场景类别。

S103、视频处理装置从至少两个场景类别中的至少一个场景类别中分别选取出至少一幅图像。

其中，在从至少一个场景类别中的任意一个场景类别中选取出的图像中，任意两幅图像之间的相似度低于第一预设阈值。

视频处理装置可以选取第一场景类别中任意一段场景的第一预设位置的图像，其中，第一场景类别为至少一个场景类别中的任意一个场景类别。

其中，第一预设位置的图像可以为场景类别中任意一段场景的第一幅图像、最后一幅图像或者第一幅图像最邻近的随机访问点图像。

优选的，第一预设位置属于待编码视频中任意一段场景的随机访问点。

进一步地，视频处理装置计算每个场景类别中选取出的图像之间的相似度，以确保任意两幅图像之间的相似度低于第一预设阈值。

视频处理装置还可以根据场景类别中各段场景的活动性选取图像。其中，活动性使用运动矢量强度、图像差、运动补偿残差或者图像特征变化中的至少一种来衡量；图像特征至少包括亮度直方图、色度直方图、特征描述子中的一种，特征描述子至少包括尺度不变转换SIFT特征描述子、SURF(Speeded Up Robust Features，加速稳健特征)描述子中的一种。

具体的，视频处理装置根据场景类别中各段场景的活动性选取图像的方法可以为：视频处理装置计算场景类别中每段场景的活动性，并根据每段场景的活动性确定每段场景中需要选取图像的数量，然后视频处理装置采用第一预设选取规则，从每段场景中选取图像，其中，选取图像的数量与需要选取图像的数量相同。

其中，视频处理装置可以利用场景的活动性除以预设阈值并取整，得到该段场景需要选取图像的数量，也可以通过查找预设的二维表，获得与场景活动性相匹配的图像数量。第一预设选取规则可以为选取预设位置的图像；也可以为将各个图像的活动性进行累加，且累加到某一阈值时选取该位置的图像；还可以为其他选取规则，这里不再一一说明。

示例性的，视频处理装置根据场景中需要选取图像的数量，等间隔或近似等间隔地从该段场景中选取出相应数量的图像。

需要说明的是，每段场景中需要选取图像的数量和该段场景的活动性呈单调递增关系，但每段场景中需要选取图像的数量不超过第三预设阈值；所述第三预设阈值例如2或3或4或5。

特殊的，若第一场景类别为至少一个场景类别中的任意一个场景类别，当第一场景类别中只包含有一段场景，且在该段场景中需要选取图像的数量为零时，则将第一场景类别需要选取图像的数量修改为一；当第一场景类别中包含至少两段场景，且所有场景中需要选取图像的数量均为零时，则将第一场景类别中其中一段场景需要选取图像的数量修改为一。

具体的，视频处理装置根据场景类别中各段场景的活动性选取图像的方法还可以为：视频处理装置计算第一场景类别中位于第二预设位置的图像的活动性，然后视频处理装置根据各个位于第二预设位置的图像的活动性和第二预设选取规则，选取第一场景类别中的图像。

其中，视频处理装置根据各个位于第二预设位置的图像的活动性和第二预设选取规则，选取第一场景类别中的图像的方法可以为：视频处理装置从第一场景中第一幅位于第二预设位置的图像开始，累积各幅位于第二预设位置的图像的活动性；当活动性累积达到第四预设阈值时，视频处理装置选取对应位置的图像；然后，视频处理装置将活动性清零，从选取出的图像所在位置的下一个第二预设位置开始重复上述累积活动性、达到第四预设阈值时选取对应位置图像的过程，直到遍历完该第一场景类别中所有位于第二预设位置的图像。其中，第四预设阈值为任意一个正实数，例如为10.5、25、200、140000等，本发明实施例不做限定。

优选的，第二预设位置属于待编码视频中任意一段场景的随机访问点。

可选的，本发明实施例中视频处理装置从待编码视频的各个场景中选取的图像可以为待编码视频的随机访问点图像，也可以为待编码视频的非随机访问点图像；视频处理装置从待编码视频的各个场景中选取出的图像可以为场景切换图像，也可以为各段场景的中间位置图像，本发明实施例不做限定。

需要说明的是，本发明实施例中的视频处理器可以从各个场景类别中分别选取出至少一幅图像，还可以从部分场景类别中分别选取出至少一幅图像，本发明实施例不做限定。

S104、视频处理装置保存选取出的图像，以生成知识库。

具体的，视频处理装置对选取出的图像进行编码，生成这些图像的重建图像，然后，视频处理装置保存这些图像的重建图像，已生成知识库。

需要说明的是，知识库中的图像可以为重建图像的全部图像，也可以为重建图像的部分图像特征信息，本发明实施例不做限定。

需要说明的是，为减少计算复杂度，本发明实施例中的视频处理装置如果检测到一段视频共有K₀个场景，可以只对其中K₁个场景进行场景类别识别，得到K₂个场景类别，进而视频处理装置只对这K₂个场景类别中的K₃个场景类别选取代表图像，加入知识库；其中,K₀≥K₁≥K₂≥K₃，K₁≥2，K₃≥1。

通过上面分析可知，视频处理装置是从场景类别中选取出至少一幅图像，并将该图像存储至知识库的，而场景类别的数量为至少两个，那么知识库中的图像就会映射于待编码视频的至少两个场景类别中，由于不同场景类别的相似度低于预设阈值，因此，不同场景类别中选取出的图像之间的相似度也会低于预设阈值。

本发明实施例中的知识库是视频处理装置根据待编码视频生成的，因此，该知识库与待编码视频之间的相关性较高。另外，视频处理器装置是将待编码视频进行分割，并划分为至少两个场景类别，然后根据场景类别的划分，从至少一个场景类别中选取图像的。视频处理装置从场景类别的角度出发，选取图像，并将选取出的图像存储至知识库，有效地降低了图像库中数据之间的冗余度。这样，本发明技术方案解决了目前图像库中数据冗余较大，与待编码视频相关性较低的问题。进而，有效的解决了视频编码效率较低的问题。

实施例二

本发明实施例提供一种视频处理方法，如图4所示，该方法包括：

S201、视频处理装置将待编码视频分割为至少两段场景。

S202、视频处理装置将各段场景划分为至少两个场景类别。

S203、视频处理装置从至少两个场景类别中的至少一个场景类别中分别选取出至少一幅图像。

其中，选取出的图像中任意两幅图像之间的相似度低于第一预设阈值。

S204、视频处理装置保存选取出的图像，以生成知识库。

S205、视频处理装置获取当前图像，其中，当前图像为待编码视频中至少一幅图像。

S206、视频处理装置从知识库中选择当前图像的至少一幅参考图像。

S207、视频处理装置根据至少一幅参考图像对当前图像进行编码。

其中，上述至少一幅参考图像可能是当前图像的全部参考图像，也可能是当前图像的部分参考图像。

视频处理装置在获取到当前图像后，开始处理当前图像。本发明实施例中，该视频处理装置按照预设规则从知识库中选择当前图像的至少一幅参考图像。其中，预设规则可以为该视频处理装置根据图像相似度来为当前图像选择参考图像。具体的，视频处理装置通过比较当前图像和知识库中图像之间的图相差、运动补偿残差、亮度或色度分量直方图的差、图像特征之间的差等参数来进行相似度的计算。

例如，至少一幅参考图像的图像特征与当前图像的图像特征相匹配，其中，至少一幅参考图像的图像特征与当前图像的图像特征相匹配具体可指，至少一幅参考图像的图像特征与当前图像的图像特征的相似度超过设定阈值。其中，相似度可以为两个图像特征矢量之间的线性相关性，或者两个图像特征矢量中各组元素间最大差值的倒数，或者两个图像特征矢量之间的距离的倒数。

在视频处理装置为当前图像选择好至少一幅参考图像后，该视频处理装置根据至少一幅参考图像对当前图像进行编码。这样，不论当前图像是随机访问点图像，还是非随机访问点图像，均可以参考知识库中的图像进行编码。

本发明实施例提供一种视频处理方法，视频处理装置将待编码视频分割为至少两段场景，并将各段场景划分为至少两个场景类别，然后，视频处理装置从至少两个场景类别中的至少一个场景类别中分别选取出至少一幅图像，最后，视频处理装置保存选取出的图像，以生成知识库。

实施例三

本发明实施例提供一种视频处理方法，视频处理装置将待编码视频分割为至少两段场景后，再采用不同的方法选取图像，并将选取出来的图像保存后生成知识库，进而利用该知识库对待编码视频进行编码，可有效的解决视频编码效率较低的问题。具体的，视频处理装置采用以下方法选取图像：如图5所示，视频处理装置将各段场景划分为至少两个场景类别，从至少两个场景类别中的至少一个场景类别中选取出至少一幅图像；如图6所示，视频处理装置计算每段场景的活动性，再根据每段场景的活动性，确定每段场景中需要选取图像的数量，并选取相应数量的图像；如图7所示，视频处理装置先将各段场景划分为至少两个场景类别，再计算每段场景的活动性，并根据每段场景活动性，从一个场景类别的图像中选取图像。

如图5或图6或图7所示，本发明实施例的方法可以包括：

S301、视频处理装置对待编码视频进行场景切换检测，并将待编码视频分割为至少两段场景。

可选的，本发明实施例中的视频处理装置可以采用任意一种现有的场景切换方法对待编码视频进行场景切换检测。

示例性的，视频处理装置检测相邻图像之间的图像差、运动补偿残差或者亮度或色度分量直方图的差。当差值超过某一阈值时，则认为发生了场景切换。或者，视频处理装置提取出图像SIFT特征，并比较相邻图像的SIFT特征的匹配度，其中，匹配方法为计算SIFT特征的坐标差距、方向差距、特征描述子的欧氏距离中的至少一种，当差距越大时，SIFT特征的相似度越低，在相似度低于某一阈值时，则认为发生了场景切换。所述阈值为正实数，例如为20、125、64.4等，本发明实施例不做限定。

S302、视频处理装置选取出每段场景的代表图像，并检测任意两段不相邻场景的代表图像之间的相似度，得到各段场景所属的场景类别。

可选的，代表图像可以为一个场景的场景切换图像，也可以为场景中间图像，还可以为场景中任一预设位置的图像。其中，场景中间图像可以为位于一段场景中心附近的图像。例如，对一段包含M(M≥2)幅图像的场景，场景中间图像可以为第(M/2)+1幅图像或者第(M/2)幅图像。

优选的，代表图像还可以是场景中任意一幅随机访问点图像。例如，场景中第一幅随机访问点图像，或者场景中的所有随机访问点图像中位于中间的图像。示例性的，对一段包含K幅随机访问点图像的场景，代表图像可以为第(K/2)+1幅、第(K/2)幅或第(K/2)-1幅随机访问点图像。

其中，随机访问点图像为间隔一定时间(例如1秒、2.5秒、5秒、20秒等)设定的图像。任意相邻两个随机访问点图像的时间间隔可以相同，也可以不同，但一般均不超过一个预先设置的最大时间间隔，以保证视频的随机访问要求。一个视频序列中的随机访问点可以按照多种方式设定。例如，对至少一段场景，将场景切换图像作为这个场景的第一个随机访问点，场景中剩下的图像，每间隔一个预设的图像数目设定一个随机访问点。或者，对整个视频序列每间隔一定时间设置一个随机访问点，例如广播应用中通常以1秒为间隔设置一个随机访问点。一个随机访问点图像后通常跟随若干个非随机访问点图像。

可选的，一对代表图像之间的相似度可以通过这两幅图像之间的图像差、运动补偿残差、亮度或色度分量直方图的差、图像特征之间的差中的一种来表示，差值越小，相似度越高。一对代表图像之间的相似度还可以通过这两幅图像之间匹配的特征点数目或者匹配百分比(匹配特征点数目占总特征点数目的百分比)来衡量，匹配的特征点数目越多或者匹配百分比越高，则图像的相似度越大。

具体的，视频处理装置在计算任意两段不相邻场景的代表图像之间的相似度后，如果两个场景的代表图像之间的相似度高于第二预设阈值，则视频处理装置认为这两个场景重复出现，它们属于同一场景类型。其中，一个场景类型包含一段场景或多段相似的场景。

进一步地，在确定一个视频中所有场景的场景类别时，可以按照场景出现的先后顺序，以从前向后的顺序(或者以从后向前的顺序)进行处理。首先，将第一个场景和第二个场景分别标记为第1场景类别和第2场景类别。然后，从第三个场景开始，依次判断当前场景的代表图像与之前已经标记的所有场景类别对应的代表图像之间的相似性；如果当前场景的代表图像与已标记的某一场景类别的代表图像之间的相似性大于某一阈值，则当前场景归属于该场景类别；否则(即如果当前场景的代表图像与任一已有场景类别的代表图像之间的相似性均小于某一阈值)，则当前场景为一个新的场景类别。

示例性的，如图3所示，视频处理装置将待编码视频分割为三段场景(场景一、场景二和场景三)，假设第二预设阈值为60％。视频处理装置计算场景三的代表图像(图像3)和场景一的代表图像(图像1)之间的相似度为90％，由于90％>60％，即场景三的代表图像与场景一的代表图像之间的相似度高于第二预设阈值，则视频处理装置认为场景三为场景一的重复场景，因此，将它们划分为一个场景类别，记为第1场景类别。场景二的代表图像(图像2)与场景一的代表图像(图像1)之间的相似度为38％，则场景二的代表图像与场景一的代表图像之间的相似度低于第二预设阈值(38％<60％)，则认为场景二不是场景一的重复场景，可以将场景二单独作为一个新的场景类别，记为第2场景类别。

S303、视频处理装置从至少一个场景类别中，选取其中一段场景的代表图像。

视频处理装置在得到各段场景所属的场景类别后，根据场景类别选取图像。其中，视频处理器选取至少一个场景类别的其中一段场景的代表图像可以为该段场景的随机访问点图像，也可以为非随机访问点图像，本发明实施例不做限定。

本发明实施例中的视频处理器可以从各个场景类别中分别选取出至少一幅图像，还可以从部分场景类别中分别选取出至少一幅图像，本发明实施例不做限定。

具体的，视频处理装置从至少一个场景类别中选取其中一段场景的代表图像时可以按照以下任意一种方法进行：

(1)、视频处理装置选取至少一个场景类别中第一次出现的场景的代表图像，对于重复出现的场景，不选取其代表图像。

示例性的，如图3所示，场景一和场景三均属于第1场景类别，则视频处理装置选取场景一中的代表图像(图像1)，而不选取场景三的代表图像(图像3)，对于场景二而言，场景二属于第2场景类别，且场景二为第2场景类别中第一次出现的场景，因此，视频处理装置选取场景二的代表图像(图像2)。

(2)、如果某一个场景类别中包含至少两段场景，则视频处理装置选取该场景类别中第二次出现的场景的代表图像；如果某一个场景类别中只包含一段场景，则选取它的代表图像。如图3所示，场景一和场景三均属于第1场景类别，场景三是第1场景类别中第二次出现的场景，则视频处理装置选取场景三的代表图像(图像3)。

(3)、如果某一个场景类别中包含一段或两段场景，则视频处理装置选取该场景类别中第一次出现的场景的代表图像；如果某一个场景类别中包含三段及以上场景，则视频处理装置选取位于中间的场景的代表图像。

示例性的，若一个场景类型包含的场景段数为N段，N≥3，则位于中间的场景为第(N/2)+1段或者第(N/2)段场景。

(4)、如果某一个场景类别中仅包含一段场景，则视频处理装置选取该场景的代表图像；如果某一个场景类别中包含两段场景，则视频处理装置选取场景持续时间较长的场景的代表图像；如果某一个场景类别中包含三段及以上场景，则视频处理装置计算每一段场景的代表图像与除它之外其它场景的代表图像之间的相似度的总和，选取相似度总和最大的代表图像。其中，场景持续时间可用一个场景包含的图像数来表示，图像数越大，则持续时间越长。

(5)、如果某一个场景类别中仅包含一段场景，且该场景的持续时间大于等于阈值，则视频处理装置选取该场景的代表图像；如果某一个场景类别中包含至少两段场景，则视频处理装置选取场景持续时间较长的场景的代表图像。

需要说明的是，上述几种选取场景的代表图像的方法中的步骤可以交叉组合，而产生新的组合方案，本发明实施例不做详细列举。

可选的，在本发明实施例中视频处理装置从待编码视频中选取图像的第二种方法中，视频处理装置根据待编码视频中的场景的活动性，有选择地从待编码视频中选取图像。

具体的，在视频处理装置从待编码视频中选取图像的第二种方法中，如图6所示，本发明实施例第一种方法中的S302可以替换为S302′；S303可以替换为S303′。

S302′、视频处理装置计算每段场景的活动性。

其中，每段场景的活动性可以用区域运动矢量幅值的总和或均值代表，还可以用全局运动矢量幅值的总和或均值代表，还可以用局部或全局运动补偿残差的总和代表，还可以用图像差的总和代表，还可以用用图像SIFT特征距离代表，本发明实施例不做限定。

下面具体举例说明视频处理装置计算每段场景的活动性的方法。

示例一，若每段场景的活动性用区域运动矢量幅值的总和或均值代表，则视频处理装置计算每段场景的活动性的方法为：

一、视频处理装置选择每段场景内至少一幅图像，并计算选择出的图像的运动强度。

二、视频处理装置将一段场景内上述已选图像的运动强度累加作为该段场景的活动性。特别的，视频处理装置还可以对图像运动强度累加值除以所有已选图像中抽样区域的总数目，归一化得到一个区域的运动矢量幅值均值，作为该段场景的活动性。

其中，视频处理装置选择的场景内至少一幅图像可以为场景内图像中以一定时间间隔抽取的若干幅图像，也可以为场景内所有的图像，还可以为场景内若干个预选位置的图像，例如，第二幅图像、中间图像和最后一幅图像。

具体的，视频处理装置计算选择出的图像的运动强度的方法，具体包括：

1)选取图像中的至少两个抽样区域。其中，抽样区域的形状不做限定，可以为矩形，也可以是圆形、六边形、三角形区域或者不规则区域。上述抽样区域的总和可以为图像的一个子集，也可以覆盖整个图像；各抽样区域之间可以互不重叠，也可以存在重叠。

2)对每个抽样区域，将前一幅图像作为参考图像进行运动搜索，得到这个抽样区域的运动矢量。

如图8所示，图中图像i中的矩形区域M和N，分别通过参考图像i-1进行运动搜索得到各自的运动矢量(MV_M,x,MV_M,y)和(MV_N,x,MV_N,y)，其中MV_M,x和MV_M,y分别表示区域M的运动矢量的水平方向分量和竖直方向分量。

3)计算每个抽样区域的运动矢量幅值。

特别的，为了防止图像左右边界和上下边界附近新出现内容带来的影响，在运动矢量幅值求和时可以忽略图像边界的区域。

示例二，若每段场景的活动性用全局运动矢量幅值的总和或均值代表，则视频处理装置计算每段场景的活动性的方法为：

一、视频处理装置选择每段场景内至少一幅图像，并计算选择出的图像的全局运动矢量幅值。

具体的，如图9所示，视频处理装置计算选择出的图像的全局运动矢量幅值的方法为：

1)取一幅图像i中的中心矩形区域N。

2)在前一幅图像中进行运动搜索得到区域N的运动矢量(MV_N,x,MV_N,y)，作为图像i的全局运动矢量。

3)图像i的运动强度为其全局运动矢量的幅值。

二、视频处理装置将一段场景内已分析运动强度的图像的运动强度累加作为该段场景的活动性。特别的，视频处理装置还可以对所有全局运动矢量的幅值求平均，归一化得到全局运动矢量幅值均值，作为场景的活动性。

具体的，不论是用局部或全局运动补偿残差的总和代表每段场景的活动性，还是用图像差的总和代表每段场景的活动性，亦或用图像SIFT特征距离代表每段场景的活动性，视频处理装置计算每段场景的活动性时，采用的方法与上述示例一、示例二均类似，因此，此处不再详细介绍视频处理装置计算每段场景的活动性的方法。

S303′、视频处理装置根据每段场景的活动性，确定每段场景中需要选取图像的数量，并选取相应数量的图像。

具体的，视频处理装置可以利用场景的活动性除以预设阈值并取整，得到该段场景需要选取图像的数量，也可以通过查找预设的二维表，获得与场景活动性相匹配的图像数量。

需要说明的是，每段场景中需要选取图像的数量和该段场景的活动性呈单调递增关系，但每段场景中需要选取图像的数量不超过第三预设阈值，所述第三预设阈值例如3或4或5。

进一步地，在视频处理装置确定每段场景中需要选取图像的数量之前，视频处理装置还可以先选取出每段场景的代表图像，并检测代表图像之间的相似度，得到各段场景所属的场景类别。

特殊的，当一个场景类别中只包含有一段场景，且该段场景中需要抽取图像的个数为零时，如果其所在场景类别里只有一个场景，则将该段场景需要选取图像的数量修改为一。当一个场景类别包含至少两段场景，且所有中需要抽取图像的个数为零，则将其中一段场景需要选取图像的数量修改为一。

具体的，视频处理装置在确定每段场景中需要选取图像的数量后，根据第一预设选取规则，在每段场景中选取相应数量的图像。

若视频处理装置要从其中一段场景中的L幅图像中选取图像，则该视频处理装置可以采用下述任意一种方法选取图像。其中，L幅图像可以为该段场景中所有图像；也可以为该段场景中所有随机访问点图像。

方法一：视频处理装置抽取这L幅图像中序号为的图像，其中a、b为预设常数，表示对x下取整，L≥K。

方法二：视频处理装置抽取这L幅图像中序号为的图像，其中a为预设常数。

方法三：视频处理装置根据每段场景的场景活动性计算抽取的图像的数量K，并对该图像数量K的上限进行限制，即用公式K＝min(K,S)计算需要抽取的图像数量K，其中，min(A,B)表示取A、B中的最小值，S可以为预设的正整数，S也可以由场景的总图像数L₁和场景中两个随机访问点间隔的图像数P_intra来确定，例如其中m为预设的正实数，或者S也可以由场景中总的随机访问点图像的数目L₂来决定，例如其中n为预设的正实数。然后，视频处理装置根据计算得到的图像数K，从场景中选取图像。具体的，如果K＝0，则视频处理装置抽取场景中间图像或者场景中所有随机访问点图像中位于中间的图像；如果K>0，抽取这L幅已选图像中第幅图像。

方法四：视频处理装置从已选图像的第一幅图像开始，逐幅图像累加该幅图像的活动性，当累加的活动性达到MI/2K时，抽取此时对应的图像。将累加的活动性清零，从第一次抽取的图像的下一幅图像开始向后重新累加每幅图像的活动性，当累加的活动性达到MI/K时，抽取此时对应的图像。再将累加的活动性清零，从第二次抽取的图像的下一幅图像开始向后重新累加每幅图像的活动性，当累加的活动性达到MI/K时，再次抽取此时对应的图像。之后以此类推，每当活动性累加达到MI/K时抽取一幅图像，直到抽取了相应数量的图像。

方法五：视频处理装置从已选图像的第一幅图像开始，逐幅图像累加该幅图像的活动性，当累加的活动性达到MI/K时，抽取第一幅图像。将累加的活动性清零，从抽取第一幅图像的下一幅图像开始向后重新累加每幅图像的活动性，当累加的活动性达到MI/K时，抽取第二幅图像。之后以此类推，每当活动性累加达到MI/K时抽取一幅图像，直到抽取了相应数量的图像。

可选的，在本发明实施例中视频处理装置从待编码视频中选取图像的第三种方法中，视频处理装置根据待编码视频中的场景类别和场景类别中场景的活动性，有选择地从待编码视频中选取图像。

具体的，在视频处理装置从待编码视频中选取图像的第三种方法中，如图7所示，本发明实施例第一种应用场景中的S303可以替换为S303〃。

S303〃、视频处理装置计算每段场景的活动性，并根据每段场景活动性，从至少一个场景类别的图像中选取图像。

其中，视频处理装置可采用视频处理装置从待编码视频中选取图像的第二种方法中的任意一种计算场景活动性的方法来计算每段场景的活动性。

具体的，视频处理装置从至少一个场景类别的图像中选取图像的方法可以为：

方法一：视频处理装置从至少一个场景类别中第一个场景的第一幅图像开始依次对各图像的活动性进行累加，得到累加的活动性，当累加的活动性达到阈值T时，选取该累加区间内的一幅指定图像；然后将累加的活动性清零，从下一幅图像继续从零开始对图像的活动性进行累加，开始一个新的累加区间；当累加至一个场景的最后一幅图像时，保存已累加的活动性作为下一个场景累加活动性的起始值，直至累加的活动性再次达到阈值T时，选取该累加区间内的一幅指定图像，依次类推进行下去，直到遍历该场景类型中所有图像。

其中，一个累加区间内的指定图像可以为该累加区间的最后一幅图像，也可以是累加区间内当累加活动性达到阈值T/2时对应的图像。

为了进一步提高压缩效率，优选的，累加区间内的指定图像可以为该累加区间的最后一幅图像的最邻近的一个随机访问点的图像，也可以是累加区间内当累加活动性达到阈值T/2时对应的图像的最邻近的一个随机访问点的图像。

示例性的，如图10所示，场景类别中包含有多段场景，图像1、图像2和图像3分别为各自累加区间的最后一幅图像，如图11所示，图像1、图像2和图像3分别为各自累加区间内当累加活动性达到阈值T/2时对应的图像。

方法二：视频处理装置将至少一个场景类别中的预设位置的图像按照时间顺序从前到后依次排列，并计算这些图像中每一幅图像的活动性。从这些图像的第一幅图像开始，逐幅图像累加每幅图像的活动性，当累加的活动性达到阈值T时，抽取该累加区间内的一幅指定图像。将累加的活动性清零，从抽取第一幅图像的位置开始向后重新累加每幅图像的活动性，当累加的活动性达到阈值T时，抽取该累加区间内的一幅指定图像。之后以此类推，每当活动性累加达到阈值T时抽取对应累加区间内的一幅指定图像，直到遍历完所有图像。

其中，一个累加区间内的指定图像可以为该累加区间的第一幅图像或最后一幅图像，也可以是累加区间内当累加活动性达到阈值T/2时对应的图像。上述预设位置的图像，可以是场景类别中的所有图像，也可以对场景类别中的所有图像每间隔X幅图像设定一个预设位置，选择这些预设位置上的图像，或者可以为该场景类别中包含的所有随机访问点图像。所述阈值T为任意正实数，本发明实施例不做限定。例如T＝20.5，T＝5050，T＝1000000或者T＝1400000等。

如图5或图6或图7所示，无论视频处理装置在将待编码视频分割为至少两段场景后，是采取哪一种方法选取出图像的，在视频处理装置选取出图像后，视频处理装置均将这些选取出的图像进行保存，以生成知识库。

S304、视频处理装置对选取出的图像进行编码，生成重建图像。

其中，视频处理装置对选取出的图像可以进行帧内编码，也可以进行帧间编码。

S305、视频处理装置保存重建图像，以生成知识库。

S306、视频处理装置获取当前图像。

其中，当前图像为待编码视频中至少一幅图像。

优选的，当前图像为待编码视频中至少一个随机访问点所在的图像。

S307、视频处理装置从知识库中选择当前图像的至少一幅参考图像。

具体的，视频处理装置在获取到当前图像后，将该当前图像和知识库中至少一幅图像进行相似度比较，然后选取相似度超过第五预设阈值的N幅图像作为当前图像的参考图像或者选取相似度最高的1幅图像或2幅图像作为当前图像的参考图像，其中N为大于等于1的整数。

S308、视频处理装置根据选择出的至少一幅参考图像对当前图像进行编码。

其中，上述参考图像可能是当前图像的全部参考图像，也可能是当前图像的部分参考图像。

例如，参考图像的图像特征与当前图像的图像特征相匹配，其中，参考图像的图像特征与当前图像的图像特征相匹配具体可指，参考图像的图像特征与当前图像的图像特征的相似度超过设定阈值。其中，相似度可以为两个图像特征矢量之间的线性相关性，或者两个图像特征矢量中各组元素间最大差值的倒数，或者两个图像特征矢量之间的距离的倒数。

本发明实施例提供的视频处理方法进一步是基于知识库的视频编码方法。这一方法中随机访问点图像可以参考知识库中一幅或者多幅图像采用帧间编码的方式进行编码，也可以不参考知识库中图像采用帧内编码方法进行编码。也就是说，随机访问点图像的编码不依赖于视频序列码流中其它图像的重建图像，它只依赖于知识库中的图像或者它可以独立。两个相邻的随机访问点图像间包括至少一幅图像，这些图像称为非随机访问点图像，它们是需要参考视频序列中的其它图像的重建图像，例如其之前最近的随机访问点图像的重建图像。

实施例四

为了便于理解和简化计算，本发明实施例以预编码视频包含有3段场景(场景一、场景二和场景三)，且每段场景为一个场景类别，视频处理器选取各段场景的其中一幅随机访问点图像为例对视频处理方法进行说明。

具体的，本发明实施例提供一种视频处理方法，如图12所示，包括：

S401、视频处理装置将待编码视频分割为三段场景。

具体的，视频处理装置对待编码视频采用任意一种现有的场景切换方法进行场景切换检测，并将待编码视频分割为三段场景。

S402、视频处理装置从各段场景中选取其中一幅随机访问点图像。

视频处理装置将各段场景视为不同场景类别，然后根据场景类别从各段场景中选取其中一幅随机访问点图像；或者，视频处理装置根据场景类别和场景活动性从各段场景中选取其中一幅随机访问点图像。

示例性的，视频处理装置选取各个场景类别内的中间图像的邻近随机访问点图像。

假设一个场景类别包含L幅图像，编码时的随机访问点间隔为IP。视频处理装置从第一幅图像开始计数，当计数到L/2位置的图像时，选取离L/2最近的随机访问点处的图像，即第幅或幅随机访问点图像。

示例性的，视频处理装置选取各个场景类别内达到累加活动性一半的图像的邻近随机访问点图像。

假设一个场景类别包含L幅图像，视频处理装置计算每个场景类别的活动性MI，其中，MI_i为场景类别内第i幅图像按照实施例三中任意一种计算活动性的方法计算出的活动性。视频处理装置从第一幅图像开始累加活动性，当累加到第M幅图像位置，此时的累加活动性达到该场景所有图像的累加活动性的一半，即M为满足的最小值，抽取离第M幅图像最近的随机访问点处的图像，即第幅或第幅随机访问点图像。

S403、视频处理装置保存选取出的随机访问点图像，以生成知识库。

实施例五

本发明实施例提供一种视频处理装置1，如图13所示，包括：

分割单元10，用于将待编码视频分割为至少两段场景，以及用于将各段场景划分为至少两个场景类别。

选取单元11，用于从所述至少两个场景类别中的至少一个场景类别中分别选取出至少一幅图像。

存储单元12，用于保存所述选取单元11选取出的图像，以生成知识库。

进一步地，所述选取出的图像中任意两幅图像之间的相似度低于第一预设阈值。

进一步地，所述分割单元10，具体用于将每段场景划分为一个场景类别；

或者，

所述分割单元10，具体用于检测至少一段场景和其不相邻场景的相似度，并将相似度大于或等于第二预设阈值的场景划分为同一个场景类别。

进一步地，所述选取单元11，具体用于从各段场景中分别选取一幅代表图像。

进一步地，如图14所示，所述视频处理装置1还包括计算单元13；

所述计算单元13，用于计算任意两段不相邻场景的代表图像之间的相似度；所述相似度使用两幅图像之间的图像差、特征描述子相似度或运动补偿残差中的一种来衡量。

进一步地，所述选取单元11，具体用于选取第一场景类别中任意一段场景的第一预设位置的图像，所述第一场景类别为所述至少一个场景类别中的任意一个场景类别；

所述选取单元11，具体用于根据所述第一场景类别中各段场景的活动性选取图像，所述活动性使用运动矢量强度、图像差、运动补偿残差或者图像特征变化中的至少一种来衡量；其中，所述图像特征至少包括亮度直方图、色度直方图、特征描述子中的一种，所述特征描述子至少包括尺度不变转换SIFT特征描述子、加速稳健特征SURF特征描述子中的一种。

进一步地，所述第一预设位置属于所述待编码视频中的随机访问点。

进一步地，如图14所示，所述视频处理装置1还包括处理单元14；

所述处理单元14，还用于对选取出的图像进行编码，生成重建图像；

所述存储单元12，具体用于保存所述处理单元14生成的重建图像，以生成知识库。

进一步地，所述计算单元13，还用于计算所述第一场景类别中每段场景的活动性。

进一步地，如图14所示，所述视频处理装置1还包括确定单元15；

所述确定单元15，用于根据所述计算单元13计算的每段场景的活动性，确定每段场景中需要选取图像的数量；

所述选取单元11，还用于采用第一预设选取规则，在每段场景中选取图像，所述选取图像的数量与所述需要选取图像的数量相同。

进一步地，当第一场景类别中只包含有一段场景，且在该段场景中需要选取图像的数量为零时，则将所述第一场景类别需要选取图像的数量修改为一；

进一步地，每段场景中需要选取图像的数量和该段场景的活动性呈单调递增关系，但每段场景中需要选取图像的数量不超过第三预设阈值。

进一步地，所述选取单元11，还用于根据选取图像的数量，等间隔或近似等间隔地从场景中选取出相应数量的图像。

进一步地，所述计算单元13，还用于计算所述第一场景类别中位于第二预设位置的图像的活动性；

所述选取单元11，还用于根据所述计算单元13计算的各个位于第二预设位置的图像的活动性和第二预设选取规则，选取所述第一场景类别中的图像。

进一步地，所述处理单元14，还用于从第一幅位于第二预设位置的图像开始，累积各幅位于第二预设位置的图像的活动性；

所述选取单元11，还用于当活动性累积达到第四预设阈值时，选取对应位置的图像。

进一步地，所述第二预设位置属于所述待编码视频中的随机访问点。

进一步地，所述选取出的图像属于所述待编码视频中的随机访问点所在的图像。

进一步地，所述待编码视频中的随机访问点所在的图像采用帧内编码，或者仅参考知识库中的至少一幅图像采用帧间编码。

进一步地，如图14所示，所述视频处理装置1还包括获取单元16；

所述获取单元16，用于获取当前图像，所述当前图像为所述待编码视频中至少一幅图像；

所述选取单元11，还用于从所述知识库中选择所述当前图像的至少一幅参考图像；

所述处理单元14，还用于根据所述选取单元11选择出的至少一幅参考图像对所述当前图像进行编码。

进一步地，所述当前图像至少包括所述待编码视频中至少一个随机访问点所在的图像。

进一步地，所述处理单元14，还用于将所述当前图像和所述知识库中至少一幅图像进行相似度比较；

所述选取单元11，还用于选取相似度超过第五预设阈值的N幅图像作为当前图像的参考图像，其中N为大于等于1的整数。

本发明实施例提供一种视频处理装置，包括分割单元、选取单元和存储单元。视频处理装置将待编码视频分割为至少两段场景，并将各段场景划分为至少两个场景类别，然后，视频处理装置从至少两个场景类别中的至少一个场景类别中分别选取出至少一幅图像，最后，视频处理装置保存选取出的图像，以生成知识库。

实施例六

本发明实施例提供一种视频处理器，如图15所示，该视频处理器包括通信接口20、处理器21、存储器22和系统总线23，其中，

通信接口20、处理器21和存储器22之间通过系统总线23连接并完成相互间的通信。

处理器21可能为单核或多核中央处理器，或者为特定集成电路，或者为被配置成实施本发明实施例的一个或多个集成电路。

存储器22可以为高速RAM(Random Access Memory，随机存储器)存储器，也可以为非易失性存储器(non-volatile memory)，例如，至少一个磁盘存储器。

具体的，处理器21，用于将待编码视频分割为至少两段场景，以及用于将各段场景划分为至少两个场景类别，以及用于从所述至少两个场景类别中的至少一个场景类别中分别选取出至少一幅图像。

具体的，存储器22，用于保存所述处理器21选取出的图像，以生成知识库。

进一步地，所述处理器21，具体用于将每段场景划分为一个场景类别，或者具体用于检测至少一段场景和其不相邻场景的相似度，并将相似度大于或等于第二预设阈值的场景划分为同一个场景类别。

进一步地，所述处理器21，具体用于从各段场景中分别选取一幅代表图像。

进一步地，所述处理器21，用于计算任意两段不相邻场景的代表图像之间的相似度；所述相似度使用两幅图像之间的图像差、特征描述子相似度或运动补偿残差中的一种来衡量。

进一步地，所述处理器21，具体用于选取第一场景类别中任意一段场景的第一预设位置的图像，所述第一场景类别为所述至少一个场景类别中的任意一个场景类别，以及具体用于根据所述第一场景类别中各段场景的活动性选取图像，所述活动性使用运动矢量强度、图像差、运动补偿残差或者图像特征变化中的至少一种来衡量；其中，所述图像特征至少包括亮度直方图、色度直方图、特征描述子中的一种，所述特征描述子至少包括尺度不变转换SIFT特征描述子、加速稳健特征SURF特征描述子中的一种。

进一步地，所述处理器21，还用于对选取出的图像进行编码，生成重建图像。

进一步地，所述存储器22，具体用于保存所述处理器21生成的重建图像，以生成知识库。

进一步地，所述处理器21，还用于计算所述第一场景类别中每段场景的活动性。

进一步地，所述处理器21，用于根据每段场景的活动性，确定每段场景中需要选取图像的数量，以及用于采用第一预设选取规则，在每段场景中选取图像，所述选取图像的数量与所述需要选取图像的数量相同。

进一步地，所述处理器21，还用于根据选取图像的数量，等间隔或近似等间隔地从场景中选取出相应数量的图像。

进一步地，所述处理器21，还用于计算所述第一场景类别中位于第二预设位置的图像的活动性，以及还用于根据各个位于第二预设位置的图像的活动性和第二预设选取规则，选取所述第一场景类别中的图像。

进一步地，所述处理器21，还用于从第一幅位于第二预设位置的图像开始，累积各幅位于第二预设位置的图像的活动性；

所述处理器21，还用于当活动性累积达到第四预设阈值时，选取对应位置的图像。

进一步地，所述处理器21，用于获取当前图像，所述当前图像为所述待编码视频中至少一幅图像，以及还用于从所述知识库中选择所述当前图像的至少一幅参考图像，以及还用于根据至少一幅参考图像对所述当前图像进行编码。

进一步地，所述处理器21，还用于将所述当前图像和所述知识库中至少一幅图像进行相似度比较，以及还用于选取相似度超过第五预设阈值的N幅图像作为当前图像的参考图像，其中N为大于等于1的整数。

本发明实施例提供一种视频处理器，视频处理器将待编码视频分割为至少两段场景，并将各段场景划分为至少两个场景类别，然后，视频处理器从至少两个场景类别中的至少一个场景类别中分别选取出至少一幅图像，最后，视频处理器保存选取出的图像，以生成知识库。

从上面可以看出，本发明实施例中的知识库是视频处理器根据待编码视频生成的，因此，该知识库与待编码视频之间的相关性较高。另外，视频处理器器是将待编码视频进行分割，并划分为至少两个场景类别，然后根据场景类别的划分，从至少一个场景类别中选取图像的。视频处理器从场景类别的角度出发，选取图像，并将选取出的图像存储至知识库，有效地降低了图像库中数据之间的冗余度。这样，本发明技术方案解决了目前图像库中数据冗余较大，与待编码视频相关性较低的问题。进而，有效的解决了视频编码效率较低的问题。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频处理方法，其特征在于，包括：

将待编码视频分割为至少两段场景；

将各段场景划分为至少两个场景类别；

保存选取出的图像，以生成知识库。

2.根据权利要求1所述的视频处理方法，其特征在于，所述选取出的图像中任意两幅图像之间的相似度低于第一预设阈值。

3.根据权利要求1所述的视频处理方法，其特征在于，所述将各段场景划分为至少两个场景类别，包括：

每段场景为一个场景类别；

或者，

4.根据权利要求3所述的视频处理方法，其特征在于，所述检测至少一段场景和其不相邻场景的相似度，包括：

从各段场景中分别选取一幅代表图像；

5.根据权利要求1所述的视频处理方法，其特征在于，所述从所述至少两个场景类别中的至少一个场景类别中分别选取出至少一幅图像，包括：

或者，

6.根据权利要求5所述的视频处理方法，其特征在于，所述第一预设位置属于所述待编码视频中的随机访问点。

7.根据权利要求1所述的视频处理方法，其特征在于，所述保存选取出的图像，以生成知识库，具体包括：

对选取出的图像进行编码，生成重建图像；

保存重建图像，以生成知识库。

8.根据权利要求5所述的视频处理方法，其特征在于，所述根据所述第一场景类别中各段场景的活动性选取图像，包括：

计算所述第一场景类别中每段场景的活动性；

9.根据权利要求8所述的视频处理方法，其特征在于，

当第一场景类别中只包含有一段场景，且在该段场景中需要选取图像的数量为零时，则将所述第一场景类别需要选取图像的数量修改为一；

10.根据权利要求8或9所述的视频处理方法，其特征在于，

每段场景中需要选取图像的数量和该段场景的活动性呈单调递增关系，但每段场景中需要选取图像的数量不超过第三预设阈值。

11.根据权利要求8所述的视频处理方法，其特征在于，所述采用第一预设选取规则，在每段场景中选取图像，包括：

12.根据权利要求5所述的视频处理方法，其特征在于，所述根据所述第一场景类别中各段场景的活动性选取图像，包括：

13.根据权利要求12所述的视频处理方法，其特征在于，所述根据各个位于第二预设位置的图像的活动性和第二预设选取规则，选取所述第一场景类别中的图像，包括：

当活动性累积达到第四预设阈值时，选取对应位置的图像；

14.根据权利要求12所述的视频处理方法，其特征在于，所述第二预设位置属于所述待编码视频中的随机访问点。

15.根据权利要求1-14中任意一项所述的视频处理方法，其特征在于，所述选取出的图像属于所述待编码视频中的随机访问点所在的图像。

16.根据权利要求6、14、15中任意一项所述的视频处理方法，其特征在于，所述待编码视频中的随机访问点所在的图像采用帧内编码，或者仅参考知识库中的至少一幅图像采用帧间编码。

17.根据权利要求1-16中任意一项所述的视频处理方法，其特征在于，所述方法还包括：

从所述知识库中选择所述当前图像的至少一幅参考图像；

根据所述至少一幅参考图像对所述当前图像进行编码。

18.根据权利要求17所述的视频处理方法，其特征在于，所述当前图像至少包括所述待编码视频中至少一个随机访问点所在的图像。

19.根据权利要求17所述的视频处理方法，其特征在于，从所述知识库中选择所述当前图像的至少一幅参考图像，包括：

20.一种视频处理装置，其特征在于，包括：

21.根据权利要求20所述的视频处理装置，其特征在于，所述选取出的图像中任意两幅图像之间的相似度低于第一预设阈值。

22.根据权利要求20所述的视频处理装置，其特征在于，

所述分割单元，具体用于将每段场景划分为一个场景类别；

或者，

23.根据权利要求22所述的视频处理装置，其特征在于，

所述选取单元，具体用于从各段场景中分别选取一幅代表图像；

所述视频处理装置还包括计算单元；

24.根据权利要求20所述的视频处理装置，其特征在于，

所述选取单元，具体用于选取第一场景类别中任意一段场景的第一预设位置的图像，所述第一场景类别为所述至少一个场景类别中的任意一个场景类别；

25.根据权利要求24所述的视频处理装置，其特征在于，所述第一预设位置属于所述待编码视频中的随机访问点。

26.根据权利要求20所述的视频处理装置，其特征在于，

所述视频处理装置还包括处理单元；

27.根据权利要求24所述的视频处理装置，其特征在于，

所述计算单元，还用于计算所述第一场景类别中每段场景的活动性；

所述视频处理装置还包括确定单元；

28.根据权利要求27所述的视频处理装置，其特征在于，

29.根据权利要求27或28所述的视频处理装置，其特征在于，

30.根据权利要求27所述的视频处理装置，其特征在于，

所述选取单元，还用于根据选取图像的数量，等间隔或近似等间隔地从场景中选取出相应数量的图像。

31.根据权利要求24所述的视频处理装置，其特征在于，

所述计算单元，还用于计算所述第一场景类别中位于第二预设位置的图像的活动性；

32.根据权利要求31所述的视频处理装置，其特征在于，

所述处理单元，还用于从第一幅位于第二预设位置的图像开始，累积各幅位于第二预设位置的图像的活动性；

33.根据权利要求31所述的视频处理装置，其特征在于，所述第二预设位置属于所述待编码视频中的随机访问点。

34.根据权利要求20-33中任意一项所述的视频处理装置，其特征在于，所述选取出的图像属于所述待编码视频中的随机访问点所在的图像。

35.根据权利要求25、33、34中任意一项所述的视频处理装置，其特征在于，所述待编码视频中的随机访问点所在的图像采用帧内编码，或者仅参考知识库中的至少一幅图像采用帧间编码。

36.根据权利要求20-35中任意一项所述的视频处理装置，其特征在于，所述视频处理装置还包括获取单元；

37.根据权利要求36所述的视频处理装置，其特征在于，所述当前图像至少包括所述待编码视频中至少一个随机访问点所在的图像。

38.根据权利要求36所述的视频处理装置，其特征在于，

所述处理单元，还用于将所述当前图像和所述知识库中至少一幅图像进行相似度比较；