CN113255423A

CN113255423A - 从视频提取配色方案的方法及装置

Info

Publication number: CN113255423A
Application number: CN202110022034.0A
Authority: CN
Inventors: 崔诚希; 金秀智
Original assignee: Korea Advanced Institute of Science and Technology KAIST
Current assignee: Korea Advanced Institute of Science and Technology KAIST
Priority date: 2020-02-11
Filing date: 2021-01-08
Publication date: 2021-08-13
Also published as: US20210248379A1; WO2021162237A1; KR102245349B1; US11636676B2

Abstract

本发明揭示从视频提取配色方案的方法及装置。本发明一实施例的从视频提取配色方案的装置可包括：准主镜头细分部，将所输入的视频通过准主镜头边界检测分割成多个准主镜头；基本调色板提取部，在所分割的上述准主镜头提取基本调色板；以及配色方案合并部，合并从各个上述准主镜头中提取的上述基本调色板来提取配色方案。

Description

从视频提取配色方案的方法及装置

技术领域

以下的实施例涉及从视频提取配色方案的方法及装置，更详细地，涉及从视频自动提取配色方案以用作描述符(descriptor)的方法及装置。

背景技术

IMDb为由500万个以上的电影构成的最大且最有人气的电影数据库。在2000年之后，仅在美国和加拿大地区就上映了1万多部电影，上映件数急剧增加。结果，基于用户偏好的电影推荐已经得到了更广泛的研究。大部分的推荐系统使用基于题材、导演、关键字及演员的电影元数据(metadata)的社交图。但是，若在各个电影手动标记元数据，则需要相当大的努力，当需要新的元数据字段时，在每部之前电影再次附着标记需要相当长的时间。因此，为了有效的推荐系统，在视频自身中提取描述符极为重要。

由于电影结合了各种媒体，因此可以将其表示为包括视频，文本和音频功能的多模式描述符。颜色在视觉媒体中极为重要，这对观众的感知和偏好产生影响。

配色方案是表示为所有可能颜色的子集的颜色的组合，以表示视觉识别。颜色对人类的感知有很大的影响力，应该引起情感上的反应。视觉元素是人类在观看视频时首先意识到的事情，而颜色是影响人类印象和情感的视觉方面的最基本元素。

电影制作强烈地考虑了由电影控制的颜色，而颜色专家则控制整个电影的颜色。导演使用颜色来支持电影的故事，并创建一个整合的虚构空间。根据电影导演电影制片法(Cinematography)，配色方案是摄影师对场景的解释，即使在电影结束后，配色方案也可以传达给观众留下的氛围或感觉。这是因为配色方案不是简单地由相机创建的，而是各种电影制作元素的组合，包括由制作设计师创建的背景和场景，照明人员安装的灯光以及服装。

如题材、导演的元数据的每个字段都不能是单独区分所有视频的主键。同样，无意仅通过以下提出的配色方案来区分所有电影。配色方案不是每个电影的独特特征，而是将电影聚类的一个重要因素。

例如，La La Land(2016)和爆裂鼓手(Whiplash)(2014)是由达米恩查泽雷(Damien Chazelle)执导和导演的戏剧音乐电影。它共享相似的元数据，例如，导演、题材和演员等，但是由于整个时期的色彩强度，给人不同的印象。爆裂鼓手还应该与保持相似的色调的黑天鹅(Black Swan)(2010)存在联系，但是目前尚无特殊的元数据来联系这两部电影。配色方案可以是非常简单且准确的描述符，用于量化电影的舞台设置。

先前的一些研究已经考虑过从图像中提取配色方案，但是对从视频尤其是电影中提取的兴趣不大。电影是导演精心制作的，体现了他们的信息和价值观的编辑产物。与不区分拍摄或场景而连续拍摄的普通视频不同，电影使用各种对象和异构内容精心编辑而成。电影通常不超过3小时，但通常比常规视频更长，并且包括200000至250000图像(假设24fps)。从装有复杂内容的众多图像中提取主要色彩是很困难的，但是正如在观看安德森(Anderson)的电影后想象的基本调色板一样，在设计中占主导地位的是配色方案。

现有技术文献

专利文献

非专利文献1：BARALDI L.,GRANA C.,CUCCHIARA R.:Shot and scene detectionvia hierarchical clustering for re-using broadcast video.In Computer Analysisof Images and Patterns-16th International Conference,CAIP(2015),pp.801–811.

发明内容

本发明的实施例涉及从视频提取配色方案的方法及装置，更具体地，提供从视频自动提取配色方案以用作描述符的技术。

本发明的实施例的目的在于，提供如下的从视频提取配色方案的方法及装置，提供2步骤的配色方案提取技术，上述技术从准主镜头中提取基本调色板并将其合并为单一配色方案，可以使用颜色聚类和凸包包围方法来使用每种方法的优点。

本发明一实施例的从视频提取配色方案的装置可包括：准主镜头细分部，将所输入的视频通过准主镜头边界(Semi-master-shot Boundary Detection，SBD)检测分割成多个准主镜头；基本调色板提取部，在所分割的上述准主镜头提取基本调色板；以及配色方案合并部，合并从各个上述准主镜头中提取的上述基本调色板来提取配色方案。

上述准主镜头细分部可通过结合与在相同位置拍摄的连续的镜头类似的颜色来提供准主镜头。

上述准主镜头细分部可针对所输入的上述视频中的每个帧提取特征，测定多个帧之间的类似性，随着通过类似的多个帧的聚类来执行准主镜头边界检测(SBD)，将所输入的上述视频分割成多个准主镜头。

上述准主镜头细分部可通过仅考虑RGB颜色的图像处理软件镜头探测器(Imagelab Shot Detector)分割方法来将所输入的上述视频分割成多个准主镜头。

上述基本调色板提取部可包括：关键帧选择部，选择关键帧来减少需要聚类的数据量；以及颜色聚类部，根据颜色空间中的距离对像素进行聚类，选择群集中心作为代表颜色来在所选择的上述关键帧的集合中提取基本调色板。

上述关键帧选择部以使上述关键帧良好地捕获整个镜头内容的方式提供目的函数，上述目标函数通过对于每个帧的特征(saliency)、清晰度及代表性的加权合计来定义。

上述颜色聚类部可使用所选择的上述关键帧的特征图(saliency map)，根据像素的视觉注意来向聚类赋予加权值。

上述配色方案合并部可针对上述基本调色板的颜色执行追加聚类来提取最终的上述配色方案。

上述配色方案合并部使用凸包包围(Convex Hull Enclosing，CHE)来提取上述配色方案，上述凸包包围将多个上述基本调色板变换成对于RGB颜色空间的凸包形状，将凸包边界顶作为上述配色方案的代表颜色选择。

上述配色方案合并部可使用凸包包围来提取上述配色方案，将凸包分割成子包(sub-hull)，将各个上述子包的代表颜色作为上述配色方案的代表颜色选择。

本发明另一实施例的利用从视频提取配色方案的装置的从视频提取配色方案的方法可包括：分割步骤，将所输入的视频通过准主镜头边界检测分割成多个准主镜头；提取步骤，在所分割的上述准主镜头提取基本调色板；以及合并步骤，合并从各个上述准主镜头中提取的上述基本调色板来提取配色方案。

在将所输入的视频分割成上述准主镜头的步骤中，可通过结合与在相同位置拍摄的连续的镜头类似的颜色来提供准主镜头。

在将所输入的视频分割成上述准主镜头的步骤中，可针对所输入的上述视频中的每个帧提取特征，测定多个帧之间的类似性，随着通过类似的多个帧的聚类来执行准主镜头边界检测，将所输入的上述视频分割成多个准主镜头。

在将所输入的视频分割成上述准主镜头的步骤中，可通过仅考虑RGB颜色的图像处理软件镜头探测器分割方法来将所输入的上述视频分割成多个准主镜头。

在上述准主镜头中提取基本调色板的步骤可包括：关键帧选择步骤，选择关键帧来减少需要聚类的数据量；以及颜色聚类步骤，根据颜色空间中的距离对像素进行聚类，选择群集中心作为代表颜色来在所选择的上述关键帧的集合中提取基本调色板。

在上述关键帧选择步骤中，能够以使上述关键帧良好地捕获整个镜头内容的方式提供目的函数，上述目标函数通过对于每个帧的特征、清晰度及代表性的加权合计来定义。

在上述颜色聚类步骤中，可使用所选择的上述关键帧的特征图，根据像素的视觉注意来向聚类赋予加权值。

在合并上述基本调色板来提取配色方案的步骤中，可针对上述基本调色板的颜色执行追加聚类来提取最终的上述配色方案。

在合并上述基本调色板来提取配色方案的步骤中，可使用凸包包围来提取上述配色方案，上述凸包包围将多个上述基本调色板变换成对于RGB颜色空间的凸包形状，将凸包边界顶作为上述配色方案的代表颜色选择。

在合并上述基本调色板来提取配色方案的步骤中，可使用凸包包围来提取上述配色方案，将凸包分割成子包，将各个上述子包的代表颜色作为上述配色方案的代表颜色选择。

根据实施例，本发明可提供从视频自动提取配色方案以用作描述符的方法及装置。

根据实施例，本发明可提供如下的从视频提取配色方案的方法及装置，即，提供2步骤的配色方案提取技术，上述技术从准主镜头中提取基本调色板并将其合并为单一配色方案，可以使用颜色聚类和凸包包围方法来使用每种方法的优点。

附图说明

图1为用于说明一实施例的配色方案提取的图。

图2为用于说明用于一实施例的颜色聚类的特征图的图。

图3为用于说明一实施例的电影结构的图。

图4为用于说明一实施例的从视频提取配色方案的装置的图。

图5为用于说明一实施例的从视频提取配色方案的方法的流程图。

图6为用于说明一实施例的准主镜头细分部的图。

图7为用于说明一实施例的基本调色板提取部的图。

图8为用于说明本实施例的配色方案合并部的图。

图9为用于说明另一实施例的配色方案合并部的图。

具体实施方式

以下，参照附图，说明实施例。但是，所记述的实施例可变形成多种不同形态，本发明的范围并不局限于以下说明的实施例。并且，多个实施例为了向本发明所属技术领域的普通技术人员更加完整地说明本发明而提供。图中，为了更加明确的说明而放大结构要素的形状及大小等。

图1为用于说明一实施例的配色方案提取的图。

参照图1，为了表示视频(例如，电影)的视觉识别而提取配色方案(colorschema)，视频110被分割成准主镜头并选择各个关键帧120。可从使用多个特征图130(saliency map)来选择的关键帧120来生成基本调色板140。而且，凸包包围150(convexhull enclosing)可将基本调色板140集变换成对于RGB颜色空间的凸包形状，将凸包边界顶点作为配色方案160的代表颜色选择。

配色方案是表示为所有可能颜色的子集的颜色的组合，以表示视觉识别。以下的实施例提出从视频(例如，电影)提取配色方案的自动化的方法。电影由不同的对象和体现导演的信息和价值的不同类型的内容组成，如上所述，由于电影是精心编辑的视频，因此，与不区分拍摄场景或场面拍摄的普通视频不同，是很难一次提取配色方案的艰难的作业。尽管有这些困难，配色方案的提取在电影制作和应用中仍起着非常重要的作用。配色方案是电影导演对场景的诠释，即使在电影结束后，配色方案也可以向观看者传达残留的氛围或感觉。它还充当如题材、导演及演员等在电影的元数据字段的描述电影的促成因素。此外，与元数据不同，它可以被自动标记，因此可以轻松地将其直接应用于现有的电影数据库。

实施例可以将电影的颜色方案从下往上引导到细分的场景。并且，可以将颜色提取公式化为选择问题，其中使用特征选择在感知上重要的颜色。而且，它可以提供准主镜头，其定义为在相同位置以类似的颜色拍摄的连续镜头的组合。其中，使用实际电影的视频来证明并验证提出的实施例的工法的可靠性。

图2为用于说明用于一实施例的颜色聚类的特征图的图。

参照图2，210为输入图像，220为特征图(saliency map)，230的上侧为没有特征(saliency)的配色方案，下侧为有特征的配色方案。虽然简单的颜色聚类(clustering)方法频繁问世，但由于毫无意义的颜色的干扰，很难获得有效的主要图像颜色。为了提取有效的配色方案，特征图对于确保颜色选择反映视频中对象的重要性至关重要。

无法通过简单的颜色聚类方法获取电影的整体配色方案，这是由于看似重复但无意义的颜色的干扰，例如，天空、墙壁或黑色杂波(clutter)。特征图是颜色选择反映电影中对象的重要性的解决方案。特征图表示沿人类固定点的每个图像中像素的重要性。由于主要像素主导着颜色印象，而不是所有像素，因此，可以使用特征图来获取每帧中的配色方案。

实施例是概括视频中的配色方案的第一个作业。从图像中提取配色方案已经在计算机图形学中进行了研究。这是因为配色方案是图像重新绘制和矢量化的最基本单位。很难从视频中提取配色方案的原因如下，即，它不应由次要的长镜头驱动，而应考虑视频的整体颜色。因此，将视频分成较小的单元，并以自下而上的方式选择最终的配色方案。

并且，实施例定义了作为新单元的准主镜头，其组合了与在相同位置拍摄的连续镜头类似的颜色。这种准主镜头可用于如视频高光检测和视频缩略图生成的经数十年积极研究的视频处理过程中。

除了简单地采用特征之外，实施例还在考虑如何适当地使用特征图。帧中的每个像素的重要性(特征)、镜头中每个帧的重要性以及电影中的每个镜头的重要性等在三个级别上测定重要性。

为了解决由于图像压缩引起的颜色损失，已经在计算机视觉和图形领域中广泛研究了图像的颜色量化。这是仅可显示有限数量的颜色以及颜色打印的显示装置的限制。其目的是用较少的颜色表示原始图像。

最近的研究提出了用于各种目的的多种配色方案提取方法，包括图像重绘、图像分解、图像抽象化、数字艺术和图像索引。通常通过颜色聚类、直方图边界、图像分割和凸包包围来完成配色方案提取。

在聚类方式中，基于颜色空间中的距离来对像素进行分组。其中，将群集中心作为代表颜色选择。直方图边界可将图像转换为颜色空间直方图，并将直方图分割成多个部分以识别主要颜色。凸包包围将图像转换为特定颜色空间中的凸包形状，并选择凸包边界顶点作为代表色。聚类及直方图方法始终选择在图像中出现的颜色，相反，凸包包围可以良好地表现原本图像，但是有可能选择无需在图像中必要存在的颜色。

本发明的实施例提出了2步骤的配色方案提取，即，从准主镜头中提取基本调色板及合并为单一配色方案。可以通过在所提出的管线中使用颜色聚类和凸包包围方法来利用每种方法的优点。

图3为用于说明一实施例的电影结构的图。

如图3所示，电影(movie)可以看作是由一系列线性场景组成，其中，每个场景(scene)由多个场景组成。场景是一系列具有相同含义的相互关联的场景，而镜头是由单一摄像头连续拍摄的一系列帧(frame)。由于根据语义上下文(semantic context)对场景进行分割，因此，场景分割的准确度相对低于镜头分割。而且，由于因视频编辑而发生了很多重复的场景，因此，直接从场景中收集基本调色板的效率很低。因此，为了提取所需要的配色方案，需要可以满足需要的精度和效率的新装置。

主镜头(master shot)是包括所有角色的单一镜头，表示所拍摄的所有空间的氛围。现代电影在制作阶段会使用主镜头，但由于其独特的风格，它们往往不包括在实际电影中。因此，将在相同位置拍摄的连续镜头与类似颜色结合在一起来定义准主镜头，而不是实际的主镜头。

镜头变化可以通过急剧或逐渐的转换而发生。通过摄像头开关，在单一帧中发生中断的转换，相反，而如变暗(dissolve)、淡入(fade-in)、淡出(fade-out)及擦除(wipe)的逐渐的转换为多种视频效果，经过多个帧确定。镜头分割的目的是通过使用图像类似性对帧进行分组来检测这种转换。

大多数场景分割方法使用多模式功能来减少如视频、音频及文本之类的模糊性，但是，通常，由于镜头是一次性拍摄的，因此，仅可以使用视频功能来检测镜头分割过渡。一些视频的特性取决于颜色直方图和如SURF和SIFT的局部描述符。其中，采用Baraldi的镜头分割方法(非专利文献1)来定义电影的准主镜头。

另一方面，关键帧是保护场景的整个镜头或场景中最具代表性的。视频缩略图和摘要也基于关键帧提取的类似原理，近年来，机器学习应用程序越来越流行。

关键帧提取的主要问题是在镜头或场景中必须选择的关键帧数量以及在一组镜头中选择这些关键帧的方法。根据提取方法，关键帧的适当熟练可以是一个以上或多个。可以使用简单快速的关键帧选择方法来对帧进行均匀或随机采样。但是，由于这种采样方法将会导致不稳定的选择结果，因此，难以确定最佳的帧采样。

成本函数边界解决了采样方法的缺点，但是，为了计算一般的电影的成本函数(最多200000帧)而还需要大量额外的计算工作。可通过在准主镜头中选择固定数量的关键帧来降低计算成本。代替均匀且随机的采样，可以提供一个目标函数来评价每个帧的重要性、清晰度和代表性，以便关键帧可以更好地捕获整个镜头内容。

尤其，在电影中有数百张照片的情况下，提取通过摄像头拍摄的配色方案有些困难。即使以240×135像素对视频中的每个图像进行采样(例如)，每个帧中最多可以有30000种颜色，而电影中最多可以有60亿种颜色。此外，上述电影还包括多种色调的复杂拍摄组。因此，不仅要考虑整个电影中的组合，还要考虑在一个场景中同时出现的颜色组合。电影中以前的配色方案通常依赖于经验丰富的设计师的个人建议。因此，设计师利用将注意集中在衣服、主要物体或突出背景上的趋势。

之前的颜色方案提取方法通常基于所有帧中的均匀地聚类的像素。但是，如上所述，简单的聚类倾向于促进深色，甚至黑色。即使仅有关键帧像素均匀群集，此问题将仍然存在，并且倾向于选择无意义的背景和杂波。因此，提出包括三个特征的配色方案提取。即，在连续镜头中考虑的镜头的相对重要性(relative importance)、帧对镜头的重要性以及像素对帧的重要性。

图4为用于说明一实施例的从视频提取配色方案的装置的图。

参照图4，一实施例的配色方案提取装置可包括准主镜头细分部420、基本调色板提取部440及配色方案合并部460。结果，配色方案470在所分割的准主镜头430中从下往上聚类。

参照图5，一实施例的利用从视频提取配色方案的装置的从视频提取配色方案的方法可包括：分割步骤(S110)，将所输入的视频通过准主镜头边界检测分割成多个准主镜头；提取步骤(S120)，在所分割的上述准主镜头提取基本调色板；以及合并步骤(S130)，合并从各个上述准主镜头中提取的上述基本调色板来提取配色方案。

以下，说明一实施例的从视频提取配色方案的方法的各个步骤。

一实施例的从视频提取配色方案的方法可以利用参照图4说明的从视频提取配色方案的装置具体地说明。

在步骤S110中，准主镜头细分部420可将所输入的视频410通过准主镜头边界检测分割成多个准主镜头430。其中，准主镜头细分部420可通过结合在相同位置拍摄的连续镜头类似的颜色来向准主镜头430提供。

准主镜头细分部420可针对所输入的视频410中的每个帧提取特征，测定多个帧之间的类似性，随着通过类似的多个帧的聚类来执行准主镜头边界检测，将所输入的上述视频分割成多个准主镜头430。尤其，准主镜头细分部420可通过仅考虑RGB颜色的图像处理软件镜头探测器(Imagelab Shot Detector)分割方法来将所输入的上述视频分割成多个准主镜头430。

在步骤S120中，基本调色板提取部440可在分割的准主镜头430提取基本调色板450。步骤S120可包括：关键帧选择步骤，选择关键帧442来减少需要聚类的数据量；以及颜色聚类步骤，根据颜色空间中的距离对像素进行聚类，选择群集中心作为代表颜色来在所选择的关键帧442的集合中提取基本调色板450。

更具体地，基本调色板提取部440可包括关键帧选择部441及颜色聚类部444。

关键帧选择部441可选择关键帧442来减少需要聚类的数据量。并且，关键帧选择部441能够以使关键帧良好地捕获整个镜头内容的方式提供目的函数，目标函数可通过对于每个帧的特征、清晰度及代表性的加权合计来定义。以下，对其进行详细说明。

而且，颜色聚类部444可根据颜色空间中的距离对像素进行聚类，将群集中心作为代表颜色选择，在所选择的关键帧442的集合中提取基本调色板450。颜色聚类部444可使用所选择的关键帧442的特征图443，根据像素的视觉注意来向群集赋予加权值。

在步骤S130中，配色方案合并部460可将合并从各个准主镜头430中提取的基本调色板450来提取配色方案470。

配色方案合并部460可针对基本调色板450的颜色执行追加聚类来提取最终配色方案470。尤其，配色方案合并部460可使用凸包包围来提取配色方案470。在此情况下，凸包包围可将多个基本调色板450变换成对于RGB颜色空间的凸包形状，可将凸包边界顶点作为配色方案470的代表颜色选择。

图6为用于说明一实施例的准主镜头细分部的图。

参照图6，准主镜头细分部420可执行准主镜头边界检测，结合在相同位置拍摄的连续镜头与类似的颜色来将视频分割成镜头组，由此可以提高分割的准确性和有效性。准主镜头细分部420可将通过准主镜头边界检测输入的视频410分割成多个准主镜头430。即，准主镜头细分部420可针对所输入的视频410中的每个帧提取特征(421)，测定多个帧之间的类似性(422)，通过类似帧的聚类(423)执行准主镜头边界检测(424)，由此可分割成作为被细分的视频的准主镜头430。

通常，准主镜头430使用对于如SIFT或SURF的类似性要素的局部描述符来通过颜色差异群集，因此，需要大量的计算费用。与此相反，其中，可采用仅考虑RGB颜色的图像处理软件镜头探测器(非专利文献1)分割方法。图像处理软件镜头探测器可通过两个真的对应像素之间的平方差异及RGB颜色直方图的卡方距离(chi-squared distance)的两个颜色差异指标之和测定帧之间的类似性。可使用滑动窗口对类似的帧进行群集，比较以当前帧为中心的帧差异并向一个方向移动。

通常，图像处理软件镜头探测器可以个别检测急剧的转换(abrupt transition)及逐渐的转换(gradual transition)。在第i个帧f_i中，在fi与f_i+1的差异大于一部分临界值T，相邻的镜头之间的差异大于T＝2的情况下，可以看成是急剧的转换。可以通过重复检测窗口大小增加的急剧转换的过程来识别逐渐转换。在检测镜头之后，图像处理软件镜头探测器可以使用分层聚类来将相邻的镜头分为场景。为了避免重复检测相同的转换，两个相邻的转换可以分割成作为安全区域的规定Ts以上的帧间隔。

即使(非专利文献1)等将镜头分组，通过图像处理软件镜头探测器分割的镜头组可通过基于颜色比较的聚类构成场景，基于如下两种原因，可将场景用作准主镜头。第一，使用固定数量的群集来在场景已知总数的情况下执行假设的聚类场景。第二，由于准主镜头不需要完整的场景分割，因此，场景群集会增加计算机费用。因此，缓和T的准主镜头可用于确定镜头之间的颜色差异。可以使用T*_s改善安全区域的功能，上述安全区域与平均镜头长度成正比，而并非与T_s的固定值成比例。

图7为用于说明一实施例的基本调色板提取部的图。

如图7所示，基本调色板提取部440(Base Palette Extraction，BPE)可以在分割的准主镜头430(segmented semi-master-shot)提取基本调色板450。虽然被分割，准主镜头430依然是视频，很难在包括众多帧的视频中提取限定数量的颜色。因此，基本调色板提取部440可以通过两种步骤提取基本调色板450。即，基本调色板提取部400可通过关键帧选择和颜色聚类提取基本调色板450。在此情况下，基本调色板提取部440可包括关键帧选择部441及颜色聚类部444。

其中，为了关键帧选择和颜色聚类，可以采用与人类的视觉关心有关的特征图443。特征图443表示人类固定点的像素的重要性。由于主要像素主导着电影的印象，而不是所有帧的所有像素，因此，可以使用有助于在每个帧图像中识别最优的基本调色板450的特征图443。在此情况下，可以在没有先验知识的情况下自动使用已知图像的特征图443。

关键帧选择部441可以选择关键帧442以提取基本调色板450。关键帧最好地表示覆盖镜头或场景的整体内容集合。若使用关键帧442，则需要聚类的数据量将会大幅度减少。关键帧选择部441可以在准主镜头430中选择固定数量的关键帧442来进一步节俭计算费用。为使关键帧442可以良好地捕获整个镜头内容而导入目标函数C(f)并推定对于每个帧的重要性、清晰度及代表性，并可以使关键帧442良好地捕获整个镜头内容。上述目标函数C(f)可如下式表示。

C(f)＝α_sC_s(f)+α_cC_c(f)+α_rC_r(f). (1)

其中，C(f)通过特征(C_s(f))、清晰度(C_c(f))及代表性(C_r(f))三种术语的加权合计定义。以用于得出平衡结果的实验为基础，可以揭示如α_s、α_c及α_r的适当的系数值。

特征条件C(f)可将帧的重要性通过如下式的像素的有效性平均值测定。

其中，μ_p为像素p的特征，|f|为f的总像素数量。特征条件通过高的视觉注意对帧评出高分。

代表性条件C_r(f)在准主镜头430的所有帧中评价f的适用范围。相对于存在于相同准主镜头430中的其他帧，代表性可以表示为相似性。代表性条件可通过如下式计算。

其中，S为f所属的准主镜头，|S|为S中的帧的总数。f和f*帧之间的类似性Sim(f，f*)通过HSV直方图比较定义，与f多的帧更为类似，因此将会增加。例如，可使用每个通道包括50个bin的HSV直方图的相关距离指标，可以使用相同的准主镜头430计算f与其他所有帧之间的配对距离。

清晰度、C_c(f)可以使用盲/无参考图像空间质量评估器(blind/referencelessimage spatial quality evaluator，BRISQUE)来测定f的清晰度，即，模糊程度，可以如下式表现。

C_c(f)＝1-0.01*BRISQUE(f). (4)

盲/无参考图像空间质量评估器(BRISQUE)分数通常处于[0，100]范围，C_c(f)越小，图像质量得到提高。例如，可通过选择最好的3个关键帧442来在准主镜头430中调查所有帧的费用。

颜色聚类部444可根据颜色空间中的距离对像素进行聚类，可将群集中心作为代表颜色选择，在所选择的关键帧442的集合中提取基本调色板450。与相同地聚类像素颜色相比，可以使用关键帧442的特征图443，根据像素的视觉注意来向群集赋予加权值。

在特征图443中，特征可以被表示为概率而不是值本身，以使基本调色板450不会过度拟合。关键帧442的像素p根据概率ψ(μ_p)被包括在聚类对象中，并且生成0或1作为加权值μ_p以提供像素稳定性。因此，也可以选择低加权值的像素，但是，优选地，聚类组包括具有更高稳定性的像素。可将所有关键帧442的像素RGB颜色使用为单一组来执行kmeans聚类。群集中心的数k与基本调色板450的颜色数量相同，针对实验设定k＝5。

图8为用于说明本实施例的配色方案合并部的图。

参照图8，若将在准主镜头430中提取的所有基本调色板

450结合在方案，则有可能发生两种问题。在所输入的视频410中分离的多个准主镜头430的数量众多，因此，在缩小的颜色组中也维持众多颜色，在相同环境下拍摄的照片在编辑过程中可能会与视频分离，由此，不同的准主镜头430的调色板有可能重叠。因此，若需要减少基本调色板450的颜色数量，则需要合并处理。

基本调色板450的颜色为群集的中心。即，在准主镜头430中呈现。因此，配色方案合并部460可以对基本调色板450的颜色执行追加聚类来得出趋向于忽略唯一但远离中心的颜色的最终配色方案470。

其中，配色方案合并部460为了在基本调色板450生成包含所有颜色的配色方案470而可以使用凸包包围463来实现。可将已知颜色配置在三维RGB空间并生成包围所有颜色点的凸包。接着，在凸包包围所有颜色点的期间，可以将其简化为与输出调色板大小相等的固定顶点数。与选择频繁发生的颜色的聚类方式不同，凸包包围可包括所显示的所有颜色来识别隐藏的颜色。

镜头长度461并不是任意的，而是与导演的意图一致。因此，由于重要镜头的持续时间倾向于变长，因此，可以根据射击长度将权重分配给基本调色板450基本调色板450根据镜头长度461复制并向RGB空间插入。在RGB空间重叠的颜色不会对凸包形态产生影响，因此，在RGB空间内赋予加权值来增加相同颜色数在几何学方面无意义。因此，可以通过颜色位置的抖动462(jittering)在几何学上反映加权值，并可以如下式表示。

∏^*＝{π∈∏|π+Ω(-σ，σ)}， (5)

其中，π为已知的基本调色板450的RGB颜色，∏；Ω(-σ，σ)为用于通过[-σ，σ]范围的各个RGB通道生成RGB矢量的随机函数，针对实验设定σ＝10。重复在镜头长度461上创建散布调色板。在众多颜色点分散在加权值高的位置的情况下，在外凸包中需要更多顶点。由于凸包的顶点构成最终的配色方案，因此，抖动可以准确地反映加权值。

图9为用于说明另一实施例的配色方案合并部的图。

参照图9，基本调色板450的颜色可以为群集的中心，配色方案合并部460可针对基本调色板450的颜色执行追加聚类，以得出唯一的最终颜色方案470，但是趋向于忽略远离中心的颜色。

每个场景的颜色大部分是从影片中选择的，因此不能忽略。因此，可以使用凸包包围465来合并，由此，可以生成包括基本调色板450的所有颜色的配色方案470。可将已知颜色配置在三维RGB空间来生成凸包并包围所有颜色点。凸包可被简化为固定数量的顶点464，并且包括所有颜色点。

但是，在将凸包顶点464直接用作最终配色方案470的情况下，可以选择饱和颜色(saturated color)并忽略凸包中间的颜色。因此，如图9所示，代替将凸包的顶点464作为调色板直接使用，而是将凸包分割成子包466(sub-hull)，并可将每个子包的代表颜色467作为最终配色方案470选择。

可通过以相同的加权值平均基本调色板450的所有颜色来获得中心颜色，并且可将上述顶点作为v。可以简化凸包，以便凸包网格的面数与最终的调色板的尺寸相同。可通过连接v和每个三角形面来以形成三角形金字塔形的子包。最接近子包的加权值中心的子包的顶点可以为子包的代表颜色。可以通过根据节点所属的准主镜头的长度向子包的每个颜色节点赋予加权值来衍生加权值中心。每个子包的中心可以是构成配色方案470的颜色。此策略可以缓和颜色的饱和度并防止选择不存在的颜色。

根据实施例，可以从视频中自动提取颜色方案以用作描述符。并且，根据实施例，本发明提供了如下的2步骤的配色方案提取技术，即，可在准主镜头提取基本调色板并将其合并为单一配色方案，可以使用颜色聚类及凸包包围方法来利用每个方法的优点。

以上说明的装置可体现为硬件结构要素、软件结构要素和/或硬件结构要素及软件结构要素的组合。例如，在实施例中说明的装置及结构要素可利用如处理器、控制器、算术逻辑单元(ALU，arithmetic logic unit)、数字信号处理器(digital signalprocessor)、微型计算机、现场可编程阵列(FPA，field programmable array)、可编程逻辑单元(PLU，programmable logic unit)、微处理器或可执行并响应指令(instruction)的其他装置的一个以上的常用计算机或特殊目标计算机体现。处理装置可以执行操作系统(OS)及在上述操作系统上执行的一个以上的软件应用。并且，处理装置响应软件的执行来访问、存储、操作、处理及生成数据。为了方便理解，说明了仅使用一个处理装置的情况，本发明所属技术领域的普通技术人员可知道处理装置可包括多个处理要素(processing element)和/或多种类型的处理要素。例如，处理装置可包括多个处理器或一个处理器及一个控制器。并且，也可以是如并行处理器(parallel processor)的其他处理结构(processingconfiguration)。

软件可包括计算机程序(computer program)、代码(code)、指令(instruction)或它们中的一种以上的组合，以按需要进行工作的方式构成处理装置或对独立或结合性(collectively)地处理装置下达指令。软件和/或数据为了通过处理装置解释或者为了向处理装置提供指令或数据而可以具体化(embody)在任何类型的机械、结构要素(component)、物理装置、计算机存储介质或装置。软件分散在通过网络连接的计算机系统上，从而可通过分散的方法存储或执行。软件及数据可存储于一个以上的计算机可读记录介质。

实施例的方法体现为可通过多种计算机单元执行的程序指令形态来记录在计算机可读介质。上述计算机可读介质可单独或组合包括程序执行、数据文件及数据结构等。记录在上述介质的程序指令可以是为了实施例而特别设计或构成，或者可以由计算机软件领域的普通技术人员公知使用的指令。作为计算机可读记录介质的例，包括如硬盘、软盘及磁盘的磁介质(magnetic media)、如CD-ROM及DVD的光记录介质(optical media)、如光磁软盘(floptical disk)的磁光介质(magneto-optical medium)及如只读存储器、随机存取存储器、闪存等的以存储指令并执行的方式特别构成的硬件装置。作为程序指令的例，包括通过编译器形成的机械代码和通过解码器等来通过计算机执行的高级语言代码。

如上所述，虽然通过限定的实施例和附图说明了多个实施例，只要是本发明所属技术领域的普通技术人员，可以从上述记载进行多种修改及变形。例如，即使所说明的技术与所说明的方法不同的顺位执行和/或所说明的系统、结构、装置、电路等的结构要素可以与所说明的方法不同的形态结合或组合，或者通过其他结构要素或等同技术方案代替或置换，也可以实现适当结果。

因此，其他实例、其他实施例及与发明要求保护范围等同的内容也属于后述的发明要求保护范围内。

Claims

1.一种从视频提取配色方案的装置，其特征在于，包括：

准主镜头细分部，将所输入的视频通过准主镜头边界检测分割成多个准主镜头；

基本调色板提取部，在所分割的上述准主镜头提取基本调色板；以及

配色方案合并部，合并从各个上述准主镜头中提取的上述基本调色板来提取配色方案。

2.根据权利要求1所述的从视频提取配色方案的装置，其特征在于，上述准主镜头细分部通过结合与在相同位置拍摄的连续的镜头类似的颜色来提供准主镜头。

3.根据权利要求1所述的从视频提取配色方案的装置，其特征在于，上述准主镜头细分部针对所输入的上述视频中的每个帧提取特征，测定多个帧之间的类似性，随着通过类似的多个帧的聚类来执行准主镜头边界检测，将所输入的上述视频分割成多个准主镜头。

4.根据权利要求1所述的从视频提取配色方案的装置，其特征在于，上述准主镜头细分部通过仅考虑RGB颜色的图像处理软件镜头探测器分割方法来将所输入的上述视频分割成多个准主镜头。

5.根据权利要求1所述的从视频提取配色方案的装置，其特征在于，上述基本调色板提取部包括：

关键帧选择部，选择关键帧来减少需要聚类的数据量；以及

颜色聚类部，根据颜色空间中的距离对像素进行聚类，选择群集中心作为代表颜色来在所选择的上述关键帧的集合中提取基本调色板。

6.根据权利要求5所述的从视频提取配色方案的装置，其特征在于，上述关键帧选择部以使上述关键帧良好地捕获整个镜头内容的方式提供目的函数，上述目标函数通过对于每个帧的特征、清晰度及代表性的加权合计来定义。

7.根据权利要求5所述的从视频提取配色方案的装置，其特征在于，上述颜色聚类部使用所选择的上述关键帧的特征图，根据像素的视觉注意来向聚类赋予加权值。

8.根据权利要求1所述的从视频提取配色方案的装置，其特征在于，上述配色方案合并部针对上述基本调色板的颜色执行追加聚类来提取最终的上述配色方案。

9.根据权利要求1所述的从视频提取配色方案的装置，其特征在于，上述配色方案合并部使用凸包包围来提取上述配色方案，上述凸包包围将多个上述基本调色板变换成对于RGB颜色空间的凸包形状，将凸包边界顶作为上述配色方案的代表颜色选择。

10.根据权利要求1所述的从视频提取配色方案的装置，其特征在于，上述配色方案合并部使用凸包包围来提取上述配色方案，将凸包分割成子包，将各个上述子包的代表颜色作为上述配色方案的代表颜色选择。

11.一种从视频提取配色方案的方法，利用从视频提取配色方案的装置从视频提取配色方案，其特征在于，包括：

分割步骤，将所输入的视频通过准主镜头边界检测分割成多个准主镜头；

提取步骤，在所分割的上述准主镜头提取基本调色板；以及

合并步骤，合并从各个上述准主镜头中提取的上述基本调色板来提取配色方案。

12.根据权利要求11所述的从视频提取配色方案的方法，其特征在于，在将所输入的视频分割成上述准主镜头的步骤中，通过结合与在相同位置拍摄的连续的镜头类似的颜色来提供准主镜头。

13.根据权利要求11所述的从视频提取配色方案的方法，其特征在于，在将所输入的视频分割成上述准主镜头的步骤中，针对所输入的上述视频中的每个帧提取特征，测定多个帧之间的类似性，随着通过类似的多个帧的聚类来执行准主镜头边界检测，将所输入的上述视频分割成多个准主镜头。

14.根据权利要求11所述的从视频提取配色方案的方法，其特征在于，在将所输入的视频分割成上述准主镜头的步骤中，通过仅考虑RGB颜色的图像处理软件镜头探测器分割方法来将所输入的上述视频分割成多个准主镜头。

15.根据权利要求11所述的从视频提取配色方案的方法，其特征在于，在上述准主镜头中提取基本调色板的步骤包括：

关键帧选择步骤，选择关键帧来减少需要聚类的数据量；以及

颜色聚类步骤，根据颜色空间中的距离对像素进行聚类，选择群集中心作为代表颜色来在所选择的上述关键帧的集合中提取基本调色板。

16.根据权利要求15所述的从视频提取配色方案的方法，其特征在于，在上述关键帧选择步骤中，以使上述关键帧良好地捕获整个镜头内容的方式提供目的函数，上述目标函数通过对于每个帧的特征、清晰度及代表性的加权合计来定义。

17.根据权利要求15所述的从视频提取配色方案的方法，其特征在于，在上述颜色聚类步骤中，使用所选择的上述关键帧的特征图，根据像素的视觉注意来向聚类赋予加权值。

18.根据权利要求11所述的从视频提取配色方案的方法，其特征在于，在合并上述基本调色板来提取配色方案的步骤中，针对上述基本调色板的颜色执行追加聚类来提取最终的上述配色方案。

19.根据权利要求11所述的从视频提取配色方案的方法，其特征在于，在合并上述基本调色板来提取配色方案的步骤中，使用凸包包围来提取上述配色方案，上述凸包包围将多个上述基本调色板变换成对于RGB颜色空间的凸包形状，将凸包边界顶作为上述配色方案的代表颜色选择。

20.根据权利要求11所述的从视频提取配色方案的方法，其特征在于，在合并上述基本调色板来提取配色方案的步骤中，使用凸包包围来提取上述配色方案，将凸包分割成子包，将各个上述子包的代表颜色作为上述配色方案的代表颜色选择。