CN101755267A - 组成平衡和颜色驱动的内容检索 - Google Patents
组成平衡和颜色驱动的内容检索 Download PDFInfo
- Publication number
- CN101755267A CN101755267A CN200880025515A CN200880025515A CN101755267A CN 101755267 A CN101755267 A CN 101755267A CN 200880025515 A CN200880025515 A CN 200880025515A CN 200880025515 A CN200880025515 A CN 200880025515A CN 101755267 A CN101755267 A CN 101755267A
- Authority
- CN
- China
- Prior art keywords
- image
- color
- model
- document
- vision weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/912—Applications of a database
- Y10S707/913—Multimedia
- Y10S707/915—Image
Landscapes
- Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
对于图像(20)的收集中的每个图像,确定所述图像(96)中的相应视觉权重模型(106)以及所述图像(167)中的相应颜色模型(169)。根据目标视觉权重分布和目标颜色模板生成图像查询。对于每个所述图像根据所述图像查询、相应视觉权重模型(106)以及相应颜色模型(169)计算相应的分数。基于相应的分数从数据库中检索所述图像(20)中的至少一个。
Description
对相关申请的交叉引用
本申请涉及如下共同未决的申请,这些申请的每个都通过引用结合于此:
于2006年7月31日提交的美国专利申请No.11/496,146;
于2006年7月27日提交的美国专利申请No.11/495,846;
于2006年7月27日提交的美国专利申请No.11/495,847;
于2005年5月12日提交的美国专利申请No.11/127,278;以及
于2005年10月25日提交的美国专利申请No.11/259,597。
背景技术
个人和组织正在迅速地积累大量数字内容集,包括文本、音频、图形、动画、以及全动感视频。这一内容可以被单独地呈现或者以多种多样的不同形式相组合,所述形式包括文档、演示、静止照片、商业视频、家庭电影和描述一个或更多关联的数字内容文件的元数据。随着这些收集(collection)的数目和多样性的增长,个人和组织将越来越需要用于从他们的收集中检索数字内容的系统和方法。
在通常用于从收集中检索数字内容的方式中有浏览方法和基于文本的检索方法。浏览方法包括人工地扫视该收集中的内容。然而,浏览往往是效率低的检索内容的方式,并且通常仅对内容少的收集有用。基于文本的检索方法包括向基于文本的搜索引擎提交查询,该搜索引擎将该查询项与同该内容相关联的文本元数据进行匹配。基于文本的检索方法通常依赖于人工注释与内容之间的关联,该关联需要大量的人工时间和努力。
还开发了基于内容的检索方法以用于基于内容的实际属性来检索内容。基于内容的检索方法包括向基于内容的搜索引擎提交对所期望内容的描述,该搜索引擎将该描述转换成查询并且将该查询与同该内容相关联的一个或更多参数相匹配。一些基于内容的检索系统支持通过文本的查询(query-by-text),其包括将查询项与同该内容相关联的描述性文本元数据相匹配。其它基于内容的检索系统附加地支持通过内容的查询(query-by-content),其包括解释按照属性(比如颜色、形状、以及纹理)、抽象概念(比如对象、角色、以及场景)、以及主观印象、情感和被分配给内容属性的含义来描述该内容的查询。在一些基于内容的图像检索方法中,低层次的视觉特征被用于将图像分组成有意义的类别,所述类别进而被用于生成含有所述图像的数据库的索引。示例性的低层次特征包括纹理、形状、以及布局。图像查询的参数(或项)可以被用于在该数据库中检索具有与该图像查询中的条件相匹配的索引的图像。总的来说,当被用于对图像进行分类和索引化的特征准确地捕获到提交图像查询的人所感兴趣的特征时,图像的自动分类和索引化的结果将改善。
基于内容的检索系统的设计中的主要挑战包括识别有意义的属性,所述属性能够从该内容中进行提取并且被用于根据与特定检索目标之间的相关程度来对该内容分等级。
发明内容
在一个方面,本发明特征在于一种方法,根据该方法,为图像的收集中的每个图像确定该图像中的视觉权重的相应模型以及该图像中的颜色的相应模型。根据目标视觉权重分布和目标颜色模板生成图像查询。对于每个所述图像,根据该图像查询、相应的视觉权重模型、以及相应的颜色模型计算相应的分数。基于相应的分数从数据库中检索所述图像中的至少一个。
本发明特征还在于用于实施上述方法的装置和存储用于实施上述方法的机器可读指令的机器可读媒介。
根据下面的说明(包括附图和权利要求书),本发明的其它特征和优点将变得显而易见。
附图说明
图1是组成平衡(compositional balance)和颜色驱动的内容检索系统的实施例的方框图。
图2是组成平衡和颜色驱动的内容检索方法的实施例的流程图。
图3A是具有左右对称平衡分布的构成对象的文档的简图。
图3B是示出了该文档的视觉中心和该文档的实际中心的文档的简图。
图3C是具有中心对称平衡分布的构成对象的文档的简图。
图4是示例性色轮的简图。
图5是分割图像的方法的实施例的方框图。
图6是根据视觉吸引力图(visual appeal map)构造图像的视觉权重模型的方法的实施例的流程图。
图7是根据图6的方法的实施例所计算的各个图的简图。
图8是产生图像的视觉吸引力图的方法的实施例的流程图。
图9是产生图像的清晰度图的方法的实施例的流程图。
图10是根据图9的方法的实施例所计算的各个图的简图。
图11是根据图像的视觉吸引力图产生该图像中的视觉权重模型的方法的实施例的流程图。
图12是根据图11的方法的实施例所计算的各个图的简图。
图13是产生图像的颜色模型的方法的实施例的流程图。
图14是如下方法的实施例的流程图:通过该方法,建模引擎12对输入图像被分割成的区域进行建模。
图15是如下方法的实施例的流程图:通过该方法,建模引擎12从输入图像中被建模的相应区域产生相应的颜色模型。
图16A示出了根据图5的颜色分割过程从示例性输入图像产生的分割图像。
图16B示出了根据图13的方法从图16B的分割图像产生的颜色模型的图示。
图17是生成图像查询的方法的实施例的流程图。
图18是用于根据文档生成图像查询的系统的实施例的方框图。
图19是根据文档生成目标视觉权重分布的方法的实施例的流程图。
图20是具有以组成布局布置的多个对象的文档的简图。
图21是图20所示的文档中的视觉权重模型的实施例的简图。
图22是图21的视觉权重模型关于图20所示的文档的中心垂直轴的映像(reflection)的简图。
图23是根据文档构造目标颜色模板的方法的实施例的流程图。
图24A-24C示出了根据图23的方法从图20的文档产生的不同颜色图。
图25A和25B是用于指定视觉权重分布的用户界面的实施例的简图。
图26是相对于图24C的文档颜色模型被定位在特定文档位置的图16B的图像颜色模型的简图。
图27是示出了用于调节极端图像的图像分数的阈值的曲线图,其中在所述极端图像中,视觉权重品质或者颜色品质低于凭经验确定的可接受水平。
图28是示出了三个不同的精度-召回率曲线(precision-recallcurve)的图。
图29是计算机系统的实施例的方框图,其中所述计算机系统实施图1的组成平衡和颜色驱动的内容检索系统的实施例。
具体实施方式
在下面的描述中,相同的附图标记用于识别相同的元素。此外,这些图旨在以图示的方式示出示例性实施例的主要特征。这些图不打算描述实际实施例的每个特征,也不打算描述所描绘的元素的相对尺寸,并且不是按照比例绘制的。
I.引言
在此详细描述的实施例能够基于所指定的组成平衡和颜色标准来检索图像(例如数字照片、视频帧、扫描的文档、以及其它基于图像的图形对象,包括混合的内容对象)。在这些实施例的一些实施例中,图像根据其视觉权重和颜色的相应分布的模型而被索引化。基于图像的相关联的基于视觉权重和颜色的索引与组成平衡和颜色驱动的图像查询的参数之间的比较来检索图像。
一些实施例能够根据所指定的组成平衡目标以及文档中的视觉权重和颜色的分布的分析来生成组成平衡和颜色驱动的查询。通过这种方式,这些实施例可以例如在数字出版应用环境中被用于自动检索具有与构造中的文档相协调的颜色和满足该文档的组成平衡目标的一个或更多图像。
II.概述
图1示出了组成平衡和颜色驱动的内容检索系统10的实施例,其中该系统包括建模引擎12、搜索引擎14、以及用户界面16。该建模引擎12为收集中的每个图像20建立相应的索引18。图像20可以被存储在一个或更多本地或远程图像数据库中。索引18的每个通常都是指向图像20中的相应一个的指针。搜索引擎14从用户界面16接收搜索参数,根据所接收的参数构造图像查询,将所述图像查询与索引18相比较,并且将索引18中被确定为与所述图像查询相匹配的那些索引返回给用户界面16。用户界面16允许用户22:交互式地向搜索引擎14指定搜索参数;浏览搜索结果(例如匹配图像的缩略图版本);以及查看所述图像中与由搜索引擎12所返回的匹配索引相关联的那些图像。
图2示出了组成平衡和颜色驱动的内容检索方法的实施例,该组成平衡和颜色驱动的内容检索方法被组成平衡和颜色驱动的内容检索系统10实施以使得能够对来自所述一个或更多本地或远程图像数据库的图像进行组成平衡和颜色驱动的内容检索。
建模引擎12为图像20中的每个确定该图像中的相应视觉权重模型和该图像中的相应颜色模型(图2,方框23)。在该过程中,建模引擎12通常从每个图像20中提取特征(或属性)并且根据所提取的特征构造相应的视觉权重模型和相应的颜色模型。建模引擎12根据相应的视觉权重和颜色模型的参数为图像20中的每个创建相应的索引18,并且将相应的索引与对应的图像相关联。建模引擎12可以将索引18存储在与图像分离的数据库中(如图1所示),或者其可以将所述索引同与图像20中的对应图像相关联的元数据一起存储。建模引擎12通常作为离线过程来执行对图像20的视觉权重和颜色建模。
搜索引擎14根据目标视觉权重分布和目标颜色模板生成图像查询(图2,方框24)。在一些实施例中,组成平衡和颜色驱动的内容检索系统10根据由用户构造的文档的所指定的组成平衡目标以及该文档的分析来自动推断目标视觉权重分布和目标颜色模板。在其它实施例中,组成平衡和颜色驱动的内容检索系统10从用户界面16接收用户22对将被系统10检索的图像的目标视觉权重分布和目标颜色模板的直接指定。
组成平衡和颜色驱动的内容检索系统10根据所述图像查询、相应的视觉权重模型、以及相应的颜色模型为每个所述图像计算相应的分数(图3,方框26),并且基于相应的分数从数据库中检索图像中的至少一个(图2,方框28)。在该过程中,搜索引擎14将该图像查询与索引18相比较,并且将索引18中被确定为与所述图像查询相匹配的那些索引返回给用户界面16。搜索引擎14基于评分函数对索引18分等级,其中该评分函数产生指示该图像查询与定义图像20中的相应视觉权重和颜色模型的相应索引18之间的匹配等级的值。用户22可以请求检索图像20中与由搜索引擎14所返回的结果相关联的一个或更多图像。作为响应,用户界面16(或其它一些应用)从所述一个或更多本地或远程图像数据库中检索所请求的图像。用户界面16通常使用由搜索引擎14所返回的索引中与由用户22所请求的该一个或更多图像对应的那些索引来查询该一个或更多数据库。
III.组成平衡
组成平衡是指文档中对象的组成(或布局)的品质。具体来说,组成平衡是指该文档中的对象的视觉权重分布符合组成目标的程度。
对象的视觉权重(亦称“光学权重”或“优势度(dominance)”)是指该对象在特定组成中突出的程度。视觉权重通常受对象的形状、颜色、以及大小影响。在一些实施例中,对象的视觉权重被定义成其面积乘以其光密度。
常见的组成目标包括对称平衡、非对称平衡、以及中心平衡。
对称平衡给出提供持久和稳定感觉的组成协调性。一种类型的对称平衡是两侧对称(或轴对称),其特征在于组成的一侧与另一侧成镜像。两侧对称的例子包括左右两侧对称和上下两侧对称。图3A示出了特征为左右对称平衡的对象组成的例子。另一类型的对称平衡是径向对称,其特征在于组成沿着水平轴和垂直轴二者成镜像。
非对称平衡给出产生兴趣的组成对比度。非对称平衡通常通过如下方式来获得:在组成中围绕某点(被称为“支点”)来布置视觉权重不相等的对象,使得具有较高视觉权重的对象比具有较低视觉权重的对象更接近于该支点。该支点可以对应于文档的中心(即真实的中心),但是其更常见地对应于文档的视觉中心(亦称“光学中心”)。如图3B所示,文档32的视觉中心30通常偏离文档32的真实中心34。该视觉中心常常从真实的中心朝着文档的顶部偏离大致为该文档的垂直尺寸36的长度的12.5%(或八分之一)的距离。一种类型的非对称平衡是中心非对称平衡,其特征在于权重不相等的对象的布置,其中所述对象关于位于该文当中的中心点(通常为视觉中心)处的支点平衡。图3C示出了特征为中心非对称平衡的对象组成的例子。
当对象的视觉权重的中心与对象所组成的文档的视觉中心一致时,组成是中心平衡的。图3C所示的组成中的对象是中心平衡的。
IV.颜色协调性
颜色协调性是指被发现使人眼感到愉快的颜色组合(通常被称为“颜色方案”)。通常,调和色的关系根据其在“色轮”周围的相对位置来描述,其中色轮示出了被布置在圆的圆周周围的颜色集。
图4示出了包括十二种颜色的示例性色轮38。补色在该色轮上彼此相对定位(例如颜色A和G是补色)。分裂补色(split complementarycolor)包括主色以及在该色轮的相对侧上的其补色的每侧上的两个颜色(例如,如果A是主色,则分裂补色是颜色F和H)。相关或者类似的颜色在该色轮上彼此相邻定位(例如,颜色A和B是相关颜色)。单色颜色是具有相同色相但是具有不同色调、值、以及饱和度的颜色。单色颜色由色轮38中的单个相应颜色来表示。
V.分割图像
在所示的实施例中,基于对图像20的基于区域(或对象)的处理来生成图像20中的视觉权重模型和颜色模型。总的来说,可以以多种多样不同的方式来分割图像20。
图5是通过以保持边缘和细节区域的方式提取色片(colorpatch)来分割输入图像的方法的示例性实施例的框图。
根据图5的方法,建模引擎12访问所处理的输入图像的图像数据(图5,方框110)。在一些实施例中,所述图像数据是输入图像中的图像形成元素(例如像素)的颜色值(例如RGB值)。在一些实施例中,建模引擎12可以在进展到下一处理阶段以前将所述图像数据转换到所期望的颜色空间(例如CIE-Lab颜色空间)。
建模引擎12使所述图像数据量化(图5,方框112)。在该过程中,输入图像根据量化表(或调色板)而被量化。在一个实施例中,例如使用在2005年10月25日提交的美国专利申请No.11/259,597中所描述的词汇量化方法中的一种或多种来执行词汇量化(lexicalquantization)。在该过程中,将输入图像的单独的图像形成元素与多个词汇颜色名称之一相关联。词汇量化允许离散的结果,以允许过滤色片或颜色区域内的不一致的颜色。该量化过程的结果是一组被稀疏量化的图像。
建模引擎12对经过量化的图像数据执行颜色形态学处理(图15,阶段114)。该过程可以包括不同分辨率下的P个等级的形态学处理(过滤),其中P具有大于零的正整数值。形态学处理阶段114的输出116识别输入图像的多个区域。这些区域的每个中的构成图像形成元素都具有共同的特性,比如对应于该量化表中的词汇颜色名称之一的一致颜色。
建模引擎12基于形态学处理阶段114的输出116对输入图像执行区域/标记处理(图5,方框118)。在该区域/标记处理过程中,根据相应区域的一致颜色使用词汇颜色名称来标记这些区域。另外,可以融合由步骤S44的形态学处理所识别的一些区域。例如,如果建模引擎12确定区域对应于原始图像的单个部分或对象(例如由于该部分或对象中所出现的颜色梯度导致该部分或对象的词汇量化被归类成多个区域),则所述区域被融合。所得到的分割图119被建模引擎12用于产生视觉吸引力图,这将在下面详细说明。
在下面的参考文献中描述与图5的基于颜色的分割方法的操作和各种实施方式有关的附加细节,这些参考文献的每个都通过引用结合于此:于2006年7月27日提交的美国专利申请No.11/495,846;于2006年7月27日提交的美国专利中请No.11/495,847;于2005年10月25日提交的美国专利申请No.11/259,597;Pere Obrador在SPIEVisual Communications and Image Processing,San Jose,CA,USA,第15-19页(2006年1月)发表的“Multiresolution Color PatchExtraction”;以及Pere Obrador在Proc.SPIE,vol.6076,SanJose,CA(2006年1月)发表的“Automatic color scheme pickerfor document templates based on image analysis and dualproblem”。
VI.组成平衡和颜色驱动的内容检索
A.对图像索引化以进行组成平衡和颜色驱动的内容检索
1.概述
建模引擎12确定图像20中的视觉权重和颜色的相应模型(参见图2,方框23)。在该过程中,建模引擎12通常从每个图像20中提取特征,并且根据所提取的特征构造该图像中的视觉权重和颜色的相应模型。在下面详细描述的实施例中,建模引擎12基于与视觉权重相关的图像视觉吸引力的模型来生成视觉权重模型。该颜色模型捕获空间和颜色参数,所述空间和颜色参数使得搜索引擎14能够确定该图像查询中所定义的颜色模板与图像20中的颜色形态之间的接近度(closeness)。通过这种方式,这些实施例能够优先地检索满足所述图像查询中所指定的组成平衡和颜色标准的在视觉上具有吸引力的图像。
2.产生图像的视觉权重图
a.概述
在一些实施例中,根据输入图像的视觉吸引力图产生该输入图像的视觉权重图。
图6示出了如下方法的实施例:通过该方法,建模引擎12根据视觉吸引力图构造输入图像的视觉权重模型。该输入图像是选自图像20的收集的将通过视觉权重索引18进行索引的图像(参见图1)。
根据图6的方法,建模引擎12确定该输入图像的视觉吸引力图(图6,方框90)。该视觉吸引力图具有与输入图像的对应区的所感知视觉品质或吸引力相关的值。建模引擎12根据视觉吸引力图识别输入图像中的高视觉吸引力的区域(图6,方框92)。建模引擎12根据该输入图像中的所识别的高视觉吸引力区域构造该输入图像中的视觉权重模型(图6,方框94)。
图7示出了根据图6的方法的实施例从示例性输入图像96中所计算的各个图。在所示的实施例中,根据对比度图100、颜色图102、以及清晰度图104构造视觉吸引力图98。对比度图100具有与输入图像96的对应区中的对比度等级相关的值。颜色图102具有与输入图像96的对应区中的色彩度等级相关的值。清晰度图104具有与输入图像96的对应区中的清晰度等级相关的值。输入图像96中的视觉权重的模型106根据视觉吸引力图98被构造,这将在下面详细描述。
b.产生图像的视觉吸引力图
图8是产生图像的视觉吸引力图的方法的实施例的流程图。根据该方法,建模引擎12确定对比度图(图8,方框120),其中该对比度图包括该输入图像上的对比度度量的值。建模引擎12确定颜色图(图8,方框122),其中该颜色图包括该输入图像上的颜色度量的值。建模引擎12确定清晰度图(图8,方框124),其中该清晰度图包括该输入图像上的清晰度度量的值。建模引擎12将所述对比度图、颜色图、和清晰度图相组合以产生该输入图像的视觉吸引力图(图8,方框126)。
i.产生图像的对比度图
总的来说,建模引擎12可以以多种多样的不同方式中的任一种来确定对比度图。
在一些实施例中,建模引擎12根据美国专利No.5,642,433中所描述的图像对比度品质评分过程为输入图像的每个分割区域计算对比度图中的相应的对比度值。
在其它实施例中,建模引擎12通过如下方式为每个图像形成元素位置i计算对比度图中的相应的对比度值:对于输入图像中的每个分割区域Wi评估等式(1)中所定义的均方根对比度度量(CRMS,i)的量度。
其中ni是区域Wi中的图像形成元素的数目,xj是区域Wi中的图像形成元素j的归一化的灰度值,xj具有值0≤xi≤1,并且
在一些实施例中,建模引擎12通过如下方式计算对比度图中的每个区域的对比度量度Ωr.contrast:对于输入图像中的每个对应区域Wi评估等式(3)中所定义的对比度量度。
其中Li,σ是输入图像的区域Wi的亮度的相应方差。
ii.产生图像的颜色图
总的来说,建模引擎12可以以多种多样的不同方式中的任一方式确定色彩度图。在一些实施例中,建模引擎12根据等式(4)中定义的颜色度量来计算颜色图中的每个分割区域i的相应颜色值:
Mi,c=σi,ab+0.37μi,ab (4)
在等式(4)中,参数σi,ab是输入图像中的分割区域i的Lab颜色空间表示的ab平面中的标准差的三角长度(trigonometric length)。参数μi,ab是该ab平面中的重心到输入图像中的分割区域i的Lab颜色空间表示的中性色轴的距离。
iii.产生图像的清晰度图
(a)概述
图9示出了如下方法的实施例:通过该方法,建模引擎12产生输入图像130的清晰度图。图10示出了根据图9的方法所计算的各个图。
根据图9的方法,建模引擎12确定初始清晰度图132(图9,方框134),所述初始清晰度图包括输入图像130上的清晰度度量的值。建模引擎12基于输入图像130的对比度图136来校正初始清晰度图132中的清晰度值,以产生经过对比度校正的清晰度图138(图9,方框140)。建模引擎12对该经过对比度校正的清晰度图138进行过滤以产生经过过滤的清晰度图142(图9,方框144)。建模引擎12对经过过滤的清晰度图142进行形态学处理以产生经过形态学处理的清晰度图146(图9,方框148)。建模引擎12将经过形态学处理的清晰度图146与输入图像130的分割图150和经过对比度校正的清晰度图138相组合以产生基于区域的清晰度图152(图9,方框154)。
(b)确定初始清晰度图(图9,方框134)
建模引擎12可以以多种多样的不同方式中的任一方式来确定初始清晰度图132。在一些实施例中,建模引擎12根据噪声鲁棒的清晰度估计过程来确定初始清晰度图132。在这些实施例中的示例性实施例中,建模引擎12从输入图像130计算四级拉普拉斯多分辨率金字塔(multiresolution pyramid),并且将拉普拉斯金字塔的四个分辨率等级相组合以产生具有抗输入图像130中的高频噪声的值的初始清晰度图132。
(c)对初始清晰度图进行对比度校正(图9,方框140)
可以根据上述对比度图计算方法之一来计算被用于校正初始清晰度图132的对比度图136。在该过程中,建模引擎12为三个不同的滑动窗口大小(例如3×3、7×7、以及11×11)的每个计算相应的对比度图,并且将这些多分辨率对比度图相组合以形成对比度图136。在一些实施例中,建模引擎12通过如下方式将所述多分辨率对比度图相组合:选择输入图像中的每个图像形成位置处的对比度图的最大值作为对比度图136中的对应位置的对比度值。在一些实施例中,建模引擎12还对组合所述三个多分辨率对比度图的结果执行形态学膨胀(dilation)。在一个示例性实施例中,利用为3的膨胀因子来执行该形态学膨胀。
建模引擎12使用对比度图136来校正初始清晰度图132。在该过程中,建模引擎12减小该清晰度图中对应于对比度图136中的高对比度区的区中的清晰度值。在一些实施例中,建模引擎12根据对应的对比度值将清晰度值乘以不同的清晰度因子。在这些实施例的一些实施例中,基于对应的图像形成值位置处的对比度值C根据初始清晰度值Sinitial按照如下方式来计算经过对比度校正的清晰度图138中的经过对比度校正的清晰度值Scorrected:
如果C<Φ
则Scorrected=Sinitial·(1-α·(C-Φ))
否则Scorrected=Sinitial·β·e-γ·(C-Φ)
其中Φ是凭经验确定的对比度阈值,并且α和γ是凭经验确定的参数值。在一个示例性实施例中,Φ=50,α=0.0042,β=0.8,并且γ=0.024。在一些实施例中,Scorrected的值在255处被截断。
(d)对经过对比度校正的清晰度图进行过滤(图9,方框144)
建模引擎12通常使用边缘保持平滑滤波器对经过对比度校正的清晰度图138进行过滤,以产生经过过滤的清晰度图142。该过程进一步将清晰区域与模糊的区域区分开。在一些实施例中,建模引擎12利用双边高斯滤波器对经过对比度校正的清晰度图138进行过滤。在一个示例性实施例中,该双边高斯滤波器的窗口大小为5×5像素、接近度函数标准差为σi=10、以及相似性函数标准差为σs=1。
(e)对经过过滤的清晰度图进行形态学处理(图9,方框148)
建模引擎12对经过过滤的清晰度图142进行形态学处理以产生密集(dense)的经过形态学处理的清晰度图146。在一些实施例中,建模引擎12对经过过滤的清晰度图142顺序地执行如下形态学操作:闭合、开启、以及腐蚀(erosion)。在一个示例性实施例中,建模引擎12利用如下的参数执行这些形态学操作:利用为7的闭合参数执行闭合操作;利用为3的开启参数执行开启操作;以及利用为5的腐蚀参数执行腐蚀操作。
(f)产生基于区域的清晰度图(图9,方框154)
建模引擎12将经过形态学处理的清晰度图146与输入图像130的分割图150相组合以产生基于区域的清晰度图152,其中根据上面在§V(参见图5)中所述的图像分割过程来计算所述分割图150。在该过程中,建模引擎12基于在经过形态学处理的清晰度图146中为分割图150中的每个区域i所指定的清晰度值将清晰度值(sharpnessValuei)赋给该区域。被赋给基于区域的清晰度图152的特定区域的清晰度值取决于经过形态学处理的清晰度图146的对应区域中的图像形成元素的清晰度值的加权累计。所述权重取决于对经过形态学处理的清晰度图146中的清晰度值的多层次阈值处理,其中对于被赋给该区域的累计的清晰度值,较高清晰度值比较低清晰度值被加权得更多。每个区域的累计加权清晰度值都在该区域中的对该累计值有贡献的图像形成元素的数目上进行平均。在一些实施例中,建模引擎12还检测经过形态学处理的清晰度图146中的高度纹理化区域,并且减小所检测到的高度纹理化区域中的平均累计加权清晰度值。
iv.通过组合对比度图、颜色图和清晰度图来产生视觉吸引力图
建模引擎12将所述对比度图、颜色图和清晰度图相组合以产生输入图像的视觉吸引力图(参见图15,方框126)。所述对比度图、颜色图和清晰度图以加法方式被组合,因为可能存在具有高频内容(较高清晰度和对比度)但具有低色彩度的区、以及反过来具有低频但具有高彩色度的区。这两种情况都在下面描述的评分函数中被捕获。在一些实施例中,根据结合等式(5)和(6)定义的过程来计算视觉吸引力图中的每个分割区域i(region i)的相应值。
●如果sharpnessDensityi<sharpDensityThres,则
●如果sharpnessDensityi≥sharpDensityThres,则
其中参数sharpDensityThres(清晰度密度阈值)、A、B、C、D、E和F具有凭经验确定的值。在该过程中,参数sharpnessDensity(清晰度密度)是区域内具有清晰对象的区的百分比。在一些实施例中,根据等式(7)来计算每个区域i的清晰度密度。
其中rawSharpnessMapj(原始清晰度图j)是区域i中的图像形成元素j的清晰度值。
V.根据图像的视觉吸引力图产生该图像中的视觉权重模型
图11示出了如下方法的实施例:通过该方法,建模引擎12根据图像的视觉吸引力图产生该图像中的视觉权重模型。图12示出了根据图11的方法的实施例所计算的各个图。
根据图11的方法,建模引擎12对视觉吸引力图98进行阈值处理,以产生经过阈值处理的视觉吸引力图158(图11,方框160)。在一些实施例中,建模引擎12利用被设置成视觉吸引力图98中最大值的50%的阈值对视觉吸引力图98中的值进行阈值处理。在该过程中,建模引擎12产生二进制视觉吸引力图158,其中在视觉吸引力图98中的对应图像形成元素的值高于该阈值的图像形成元素位置处的值为255而在剩余图像形成元素位置处的值为0。
建模引擎12根据经过阈值处理的视觉吸引力图158计算视觉权重的形心(图11,方框162)。在一些实施例中,建模引擎12通过用与该图像中的水平坐标和垂直坐标相关联的视觉吸引力值Ai对所述水平坐标和垂直坐标进行加权来计算图像形心。
其中xi和yi是该图像中的图像形成元素i的x坐标和y坐标,Ai是像素i的视觉吸引力值,并且Dimage-H和Dimage-V是该图像的水平和垂直尺寸。
建模引擎12确定所识别的高视觉吸引力区域关于所计算的形心的水平扩展(spread)和垂直扩展,以产生输入图像中的视觉权重的模型164(图11,方框166)。在一些实施例中,所述水平和垂直扩展(σimage-H,σimage-V)对应于视觉吸引力值Ai沿着该图像的水平和垂直尺寸关于形心的标准分布。
其中z是该文档中的图像形成元素的数目。
建模引擎12根据每个视觉权重模型的参数{ximage-centroid,yimage-centroid,σimage-H,σimage-V}创建相应的索引18,并且将相应的索引与对应的图像相关联。建模引擎12可以将索引18存储在与图像20相分离的数据库中(如图1所示),或者其可以将所述索引同与图像20中的对应图像相关联的元数据一起存储。建模引擎12通常作为离线过程来执行视觉权重建模过程。
建模引擎12的其它实施例可以通过与上述方法不同的方式根据图像的视觉吸引力图产生该图像中的视觉权重分布的模型。例如,在一些实施例中,建模引擎12可以根据视觉吸引力图98的高斯混合模型近似产生图像视觉权重的模型。在这些实施例中,该高斯混合模型的参数可以用作图像20中的一个或更多图像的视觉权重索引18。
3.产生图像中的颜色的模型
图13示出了为每个图像20产生颜色模型的方法的实施例。根据该方法,对于每个输入图像20,建模引擎12对相应的分割图像中的区域进行建模(图13,方框151)。在一些实施例中,根据上面在§V中所述的颜色分割过程从输入图像产生相应的分割图像(参见图5)。针对每个输入图像20,建模引擎12从相应的所建模的区域产生相应的颜色模型(图13,方框153)。
图14示出了如下方法的实施例:通过该方法,建模引擎12对输入图像被分割成的区域进行建模(图13,方框151)。根据该方法,建模引擎12为每个区域计算相应的形心(图14,方框155)、相应的平均颜色(图14,方框157)、以及相应的片大小(图14,方框159)。在一些实施例中,搜索引擎44通过如下方式来计算每个区域的相应形心:根据等式(12)和(13)用与该区域中的水平坐标和垂直坐标相关联的亮度值对所述水平坐标和垂直坐标进行加权。
在等式(12)和(13)中,xi和yi是该区域中的图像形成元素i的x坐标和y坐标,Dimage-H和Dimage-V是该图像的水平和垂直尺寸,并且Li是图像形成元素i的亮度值。根据等式(12)和(13),搜索引擎44将每个区域的相应形心计算为该图像的水平和垂直尺寸的百分比。在一些示例性实施例中,区域的片大小(patch size)是该区域中的图像形成元素的数目的计数。
图15示出了如下方法的实施例:通过该方法,建模引擎12从在输入图像中被建模的相应区域中产生相应的颜色模型(图13,方框153)。根据该方法,建模引擎12计算所述区域的平均颜色的直方图(图15,方框161)。建模引擎12选择覆盖输入图像的总颜色区(即非灰色区)的最小比例(例如90%)的最大颜色面元(bin)(图15,方框163)。建模引擎12从具有所选颜色面元中的平均颜色的区域中产生相应的颜色模型(图15,方框165)。
图16A示出了分割图像(segmented image)167,其中所述分割图像167是根据上面在§V中所述的颜色分割过程(参见图5)从示例性输入图像产生的。图16B示出了颜色模型169的图示,其中所述颜色模型169是根据图13的方法从分割图像167产生的。在图16B中,通过如下圆建模所述区域:所述圆具有与分割图像167中对应区域的形心一致的圆心,并且具有包围若干与对应区域的片大小对应的图像形成元素的面积。
在下面的文献中描述与对图13至15的颜色建模方法的操作的各种实施方式有关的附加细节:Pere Obrador在Proc.SPIE,vol.6076,San Jose,CA(2006年1月)发表的“Automatic color scheme pickerfor document templates based on image analysis and dualproblem”。
B.生成图像查询以进行组成平衡和颜色驱动的内容检索
1.概述
如上所述,搜索引擎14生成图像查询,其中所述图像查询被用于基于该图像查询与图像20的视觉权重模型和颜色模型中的相应模型之间的比较从数据库中检索所述图像中的至少一个。
图17示出了如下方法的实施例:通过所述方法,搜索引擎14的实施例生成视觉权重查询。根据该方法,搜索引擎14确定目标视觉权重分布和目标颜色模板(图17,方框40)。搜索引擎14然后根据所述目标视觉权重分布和目标颜色模板的指定(specification)生成图像查询(图17,方框42)。
2.基于文档的图像查询生成
a.概述
在一些实施例中,组成平衡和颜色驱动的内容检索系统10根据由用户构造的文档的所指定的组成平衡目标以及该文档的分析来自动推断对应于目标视觉权重分布的视觉权重模型和对应于目标颜色模板的颜色模型。
图18示出了搜索引擎14的实施例44,其中所述搜索引擎14根据由用户22通过用户界面16指定的组成平衡目标和文档生成基于视觉权重和颜色的查询46。该文档通常被存储在可由用户界面16和搜索引擎44访问的本地或远程计算机可读存储设备48中。
搜索引擎14的该实施例对如下的应用环境具有特别的适用性:在所述应用环境中,用户22正在构造文档并且希望在该文档中并入图像,所述图像以实现特定的组成平衡目标的方式平衡该文档中的其它对象并且具有实现所指定的颜色协调性目标(例如仿射、互补、分裂互补、三合一(triadic))的颜色。在这种情况下,搜索引擎44确定该文档中的当前视觉权重分布的模型和该文档中的颜色的模型。搜索引擎44使用该文档的视觉权重和颜色模型来形成图像查询,所述图像查询以如下的图像为目标:所述图像具有以满足该用户的组成平衡和颜色目标的方式补充该文档的当前状态的视觉权重分布和颜色。
b.从文档构造目标视觉权重分布
图19示出了如下方法的实施例:通过该方法,搜索引擎44根据文档中的视觉权重分布的模型生成目标视觉权重分布。根据该方法,搜索引擎44计算该文档中的视觉权重的形心(图19,方框50)。搜索引擎44确定视觉权重关于所计算的形心的水平扩展和垂直扩展(图19,方框50)。搜索引擎44根据所计算的形心和所确定的水平扩展和垂直扩展生成目标视觉权重分布(图19,方框54)。
图20至22示出了搜索引擎44在用户22所指定的示例性组成平衡目标和示例性文档的特定情形下根据图19的方法的操作的说明。
图22示出了文档56的例子,其中该文档56具有多个以当前组成布局布置的对象58至70。在这个例子中,用户22想要将图像插入到由虚线圆圈72所划界的区中。通过用户界面16,用户22向搜索引擎44提交对一组一个或更多图像的请求,所述图像具有补充该文档56中的当前视觉权重分布以获得具有左右对称平衡的组成的相应视觉权重分布。
响应于该用户的请求,搜索引擎44计算该文档中的视觉权重的形心(图19,方框50)。在一些实施例中,搜索引擎44根据等式(14)和(15)将文档形心(xdoc-centroid,ydoc-centroid)计算为该文档的水平和垂直尺寸(Ddoc-H,Ddoc-V)的百分比:
其中(xj,yj)是对象j的形心的坐标,并且Ej是对象j中的图像形成元素(例如像素)的数目。在一些实施例中,搜索引擎44通过如下方式来计算文档形心:根据等式(16)和(17)用与该文档中的水平和垂直坐标相关联的亮度值对所述水平和垂直坐标进行加权。
在这些等式中,xi和yi是该文档中的图像形成元素i的x坐标和y坐标,并且Li是图像形成元素i的亮度值。
搜索引擎44还确定视觉权重关于所计算的形心的水平扩展和垂直扩展(图19,方框52)。在一些实施例中,水平和垂直扩展(σdoc-H,σdoc-V)对应于亮度值沿着该文档的水平和垂直尺寸关于形心的标准差,其中该形心被表达为该文档的水平和垂直尺寸的百分比。
其中k是该文档中的图像形成元素的数目。
图21示出了文档56中的视觉权重的模型74的实施例(参见图20)。在该实施例中,视觉权重模型是如下的椭圆:该椭圆具有与文档56中的视觉权重的中心(即所计算的形心位置(xdoc-centroid,ydoc-centroid )一致的形心以及等于视觉权重关于所计算的形心的水平扩展和垂直扩展的水平尺寸和垂直尺寸(即σdoc-H和σdoc-V)。在其它实施例中,该文档中的视觉权重可以由不同的形状来建模,所述形状包括但不限于例如矩形、圆形、以及方形。
搜索引擎44根据所计算的形心(xdoc-centroid,ydoc-centroid)和所确定的水平和垂直扩展(σdoc-H,σdoc-V)生成目标视觉权重分布(图19,方框54)。在该过程中,搜索引擎44根据组成平衡目标对该文档中的视觉权重的模型进行几何变换,并且根据经过几何变换的视觉权重模型的属性产生目标视觉权重分布。
例如,如果组成平衡目标是左右对称平衡,则搜索引擎44通过如下方式来变换该视觉权重模型:关于平行于该文档的垂直尺寸并且延伸经过该文档中的中心点(例如视觉中心)的轴做该模型的映像(reflect),如由图22中的箭头97所表明的。在一些实施例中,搜索引擎44通过如下方式来变换视觉权重模型:根据等式(20)重新计算文档形心关于中心垂直轴76(参见图22)的水平坐标:
xquery-centroid=100-xdoc-centroid (20)
该文档形心的垂直坐标以及水平和垂直视觉权重扩展不变。也就是说:
yquery-centroid=ydoc-centroid (21)
σquery-H=σdoc-H (22)
σquery-V=σdoc-V (23)
如果组成平衡目标是中心平衡,则搜索引擎44通过如下方式变换该视觉权重模型:关于相对于该文档的水平和垂直尺寸倾斜并且延伸经过该文档中的中心点(例如视觉中心)的轴做该模型的映像。在一些实施例中,搜索引擎44通过如下方式来变换视觉权重模型:根据等式(24)和(25)重新计算该文档形心的水平和垂直坐标:
xquery-centroid=100-xdoc-centroid (24)
yquery-centroid=100-ydoc-cetroid (25)
搜索引擎44根据目标视觉权重分布参数{xquery-centroid,yquery-centroid,σquery-H,σquery-V)构造目标视觉权重分布。在一些实施例中,这些参数被并入到图像查询的SQL实施方式中。
b.从文档中构造目标颜色模板
图23示出了从文档中构造目标颜色模板的方法的实施例。图24A至24C示出了根据图23的方法从文档56中产生的不同颜色图。
根据该方法,搜索引擎44将该文档分割成区域(图23,方框79)。在一些实施例中,搜索引擎44根据上面在§V中所述的颜色分割过程(参见图5)来处理文档以将该文档分割成区域。图24A示出了根据图5的颜色分割过程从文档56(参见图20)中产生的分割图。
搜索引擎44用相应的颜色来标记每个区域(图23,方框81)。在一些实施例中,搜索引擎44用词汇颜色名称的平均值来标记所述区域,所述词汇颜色名称是基于用于将该文档分割成区域的量化表而赋给构成图像形成元素的(参见上面的§V)。
搜索引擎44为所标记的区域中的一个或更多区域计算相应的形心和相应的大小(图23,方框83)。在一些实施例中,搜索引擎44根据图14的方法计算区域形心(参见等式(12)和(13))。在一些实施例中,区域大小是该区域中的图像形成元素的数目的计数。图24B示出了从图24A的分割图像中产生的颜色模型的图示,其中所述区域由如下圆来建模:所述圆具有与分割图像中的对应区域的形心一致的圆心,并且具有包围若干对应于所述对应区域的片大小的图像形成元素的面积。
搜索引擎44根据所计算的形心和所计算的大小建立目标颜色模板(图23,方框85)。在一些实施例中,搜索引擎44根据颜色模型参数{xdoc-centroid,region-k,ydoc_centroid,region-k,Sizeregion-k,Colorave-region- k}regionsk建立目标颜色模板。在一些实施例中,这些参数被并入到图像查询的SQL实施方式中。图24C示出了根据图15的方法从图24B的颜色模型产生的颜色模型的图示。
3.人工图像查询生成
在一些实施例中,组成平衡和颜色驱动的内容检索系统10从用户界面16接收用户22对将被系统10检索的图像中的所期望视觉权重和调色板的直接指定。
图24A和24B示出了用户界面16的实施例80的简图,其中该用户界面16允许用户22为该用户希望搜索引擎14检索的图像指定目标视觉权重分布和调色板。用户界面80包括指定区82和模板选择区84。
用户22可以通过如下方式指定目标视觉权重分布:将模板(例如星形模板86)从模板选择区84拖到指定区82并且对所选模板进行缩放以匹配该用户对目标视觉权重分布的设想。在所示的实施例中,如图24A中所示,指定区82被配置为允许用户22查看图像88。如在图24B中所示,该用户可以将所显示的图像88用作用于选择和缩放所选模板以符合与图像88中的所感知的视觉权重分布相匹配的目标视觉权重分布的指导。该模板的最终形状、大小以及位置对应于目标视觉权重分布的形状、大小以及位置。在一些实施例中,用户界面80包括绘图工具,该绘图工具允许用户22相对于指定区82中呈现的所指明的组成区简单地绘制目标视觉权重分布的形状。在用户22已经完成了对目标视觉权重分布的图形表示的指定以后,搜索引擎14提取定义该图形表示的形状、大小、以及位置的参数,并且将所提取的参数并入到图像查询中。
用户22可以通过如下方式来指定目标颜色模板:选择含有用户22希望在搜索引擎14所检索的图像中看到的颜色分布和调色板的图像(例如图像88)(例如所选图像含有满足用户的颜色调和目标的调色板)。可选地,用户22可以直接通过在虚拟画布(virtual canvass)上布置颜色来指定目标颜色模板,其中所述颜色选自作为自动颜色调和软件应用包的一部分的虚拟色轮等等。在用户22已经完成了对目标颜色模板的指定以后,搜索引擎14提取定义所述目标颜色模板的参数,并且将所提取的参数并入到图像查询中。
C.检索图像内容
a.概述
如上所述,组成平衡和颜色驱动的内容检索系统10基于为每个图像根据该图像查询、相应的视觉权重模型以及相应的颜色模型计算的相应分数从数据库中检索图像20中的至少一个(参见图2,方框26和28)。在该过程中,搜索引擎14将所述图像查询与索引18相比较,并且将索引18中被确定为与所述图像查询相匹配的那些索引返回给用户界面16。搜索引擎14基于评分函数对索引18分等级,其中该评分函数产生指示该图像查询与定义图像20中的相应视觉权重模型的相应索引18之间的匹配等级的值。
b.为每个图像确定相应的视觉权重比较值
在一些实施例中,搜索引擎14为图像20的收集中的每个图像i计算视觉权重比较函数,其中该视觉权重比较函数随着图像查询与该图像中的相应视觉权重模型之间的空间距离的增加而减小。在这些实施例的一些实施例中,视觉权重比较函数关于图像查询中所指定的形心与图像视觉权重模型的形心之间的距离相反地变化,并且关于图像查询中所指定的水平和垂直扩展与图像视觉权重模型的水平和垂直扩展之间的相应距离相反地变化。等式(26)定义了这种类型的示例性视觉权重比较函数:
其中Δcentroid,i度量在图像查询中所指定的形心与图像i的视觉权重模型的形心之间的距离,f()是Δcentroid,i的单调增加函数,Δspread,i度量在图像查询中所指定的水平和垂直扩展与图像i的视觉权重模型的水平和垂直扩展之间的距离,并且g()是Δspread的单调增加函数。在一些实施例中,在等式(27)和(28)中定义Δcentroid,i和Δspread,i:
在一些实施例中,f(Δcentroid,i)由下式给出:
其中λ和ε是凭经验确定的常数。在一些示例性实施例中,1≤λ≤5并且ε=2。在一些实施例中,g(Δspread,i)由下式给出:
其中ω和ψ是凭经验确定的常数。在一些示例性的实施例中,11≤ω≤5并且1≤ψ≤2。
在一些实施例中,可以根据等式(31)用视觉吸引力的缺省或用户选择的量度来缩放等式(26)中所定义的视觉权重比较函数。
其中Q(Mi,j)是Mi,j的品质函数,Mi,j是图像i的品质图j。品质图Mi,j可以对应于在此所述图中的任意图,包括但不限于视觉吸引力图、清晰度图、对比度图以及颜色图。在一些实施例中,Q(Mi,j)是品质图Mi,j的二维积分。
c.为每个图像确定相应的颜色比较值
在一些实施例中,搜索引擎14为图像20的收集中的每个图像i确定基于图像的颜色比较函数(ColorScorei)。该颜色比较函数基于如下的基于区域的颜色比较函数:所述基于区域的颜色比较函数将目标颜色模板中的每个区域u与为每个图像20所确定的颜色模型中的每个区域v相比较。在一些实施例中,该颜色比较函数随着目标颜色模板中的区域与图像颜色模型中的区域之间的空间距离的增加而减小,随着目标颜色模板中的区域与图像颜色模型中的区域之间的在颜色空间(通常为CIE Lab颜色空间)中的欧几里德距离的增加而减小,并且随着目标模板区域和图像颜色模型区域的大小而增加。等式(32)定义了这种类型的基于区域的示例性颜色比较函数:
在等式(27)中,s()是目标颜色模板区域u的大小(Sizeu)和图像i的图像颜色模型区域v的大小(Sizev)的函数,a()是Δcentroid,uv的函数,Δcentroid,uv度量目标颜色模板区域u的形心与图像颜色模型区域v的形心之间的空间距离,并且b()是Δcolor,uv的函数,Δcolor,uv度量目标颜色模板区域u的形心与图像i的图像颜色模型区域v的形心之间的欧几里德颜色空间距离。在一些实施例中,根据等式(33)来计算Δcentroid,uv:
其中(centroidXu,centroidYv)是目标颜色模板区域u的形心位置,并且(centroidXu,centroidYv)是图像颜色模型区域v的形心位置。对于为检索用户打算插入到文档中的图像而设计的图像查询,Δcentroid,uv度量目标颜色模板区域u与位于该文档中的指明目标位置中的候选图像的颜色模型区域v之间的空间距离,如图26所示,其中图像颜色模型169(参见图16B)被插入到图24C的为文档56(参见图20)产生的颜色模型中。在一些实施例中,根据等式(34)来计算Δcolor,uv:
其中(aveLu,aveAu,aveBu)是目标颜色模板区域u的平均L、a和b颜色值,并且(aveLv,aveAv,aveBv)是图像i的图像颜色模型区域v的平均L、a和b颜色值。
在这些实施例中的一些实施例中,s()由等式(35)给出,a()由等式(36)给出,并且b()由等式(37)给出:
s(Sizeu,Sizev)=(Sizeu×Sizev)R (35)
a(Δcentroid,uv)=S+T·(Δcentroid,uv)W (36)
b(Δcolor,uv)=H+L·(Δcolor,uv)M (37)
其中R、T、T、W、H、L和M具有凭经验确定的常数值。在一个示例性实施例中,R=0.5,S=T=W=H=L=1并且M=4。
在一些实施例中,根据等式(38)为图像20的收集中的每个图像i从基于区域的颜色比较函数(ColorCompuv,i)计算基于图像的颜色比较函数(ColorScorei):
d.为每个图像确定相应的分数
在一些实施例中,搜索引擎14根据对联合评分函数的评估计算相应的分数(ImageScorei),其中所述联合评分函数包括将相应视觉权重比较值(VisualWeightScorei)与相应颜色比较值(ColorScorei)乘在一起,如等式(39)所定义的。
ImageScorei=φ(VisualWeightScorei)·θ(ColorScorei) (39)
其中φ()是为图像i所计算的视觉权重比较值(VisualWeightScorei)的函数,并且θ()是为图像i所计算的颜色比较值(ColorScorei)的函数。
在一些实施例中,函数φ()和θ()由等式(40)和(41)给出:
φ(VisualWeightScorei)=χ+μ·(VisualWeightScorei)ν (40)
θ(ColorScorei)=ρ+ζ·(VisualWeightScorei)τ (41)
其中χ,μ,ν,ρ,ζ,和τ是凭经验确定的常数。在一个示例性实施例中,χ=ρ=0,μ=ζ=1,ν=2并且τ=1。在另一示例性实施例中,χ=ρ=0,μ=ζ=1,ν=1,并且τ=0.5。
搜索引擎14基于相应的ImageScoresi识别图像20中具有匹配该图像查询的最大可能性的一个或更多图像,并且检索所述一个或更多所识别的图像。
在一些实施例中,在按照图像20的匹配该图像查询的可能性对图像20分等级以前,搜索引擎14调节相应的ImageScoresi以减小将图像查询与图像20中的如下那些图像相匹配的可能性:所述图像具有满足高可能性的匹配断言(predicate)的相应分数以及满足低可能性的视觉权重匹配断言的相应视觉权重比较值。例如,在一些示例性实施例中,如果满足如下条件,则搜索引擎减小ImageScorei:
ImageScorei>highMatchThreshold (42)
φ(VisualWeightScorei)<ωLVWMS (43)
其中ωLVWMS是lowVisualMatchThreshold(低视觉匹配阈值),并且highMatchThreshold(高匹配阈值)和ωLVWMS具有凭经验确定的常数值。在这些实施例中,搜索引擎14还调节相应的分数以减小将图像查询与图像20中的如下那些图像相匹配的可能性:所述图像具有满足高可能性的匹配断言的相应分数以及满足低可能性的颜色匹配断言的相应颜色比较值。例如,在一些示例性实施例中,如果满足如下条件,则搜索引擎也减小ImageScorei:
ImageScorei>highMatchThreshold (44)
θ(ColorScorei)<ωLCMS (45)
其中ωLCMS是lowColorMatchThreshold(低颜色匹配阈值),并且具有凭经验确定的常数值。
在这些实施例的一些实施例中,如果(i)满足在等式(42)和(43)中所定义的条件或者(ii)满足在等式(44)和(45)中所定义的条件,则搜索引擎14将这些图像的ImageScoresi设置成图27所示的矩形区域171内的值。通过这种方式,这些实施例保证:搜索引擎14将不会检索极端图像,在所述的极端图像中对ImageScorei的视觉权重贡献或者对ImageScorei的颜色贡献中之一低于可接受的图像所需的凭经验确定的水平。
图28示出了基于文档的图像查询应用环境中的三个不同的平均精度-召回率曲线。在此,精度指示所返回的图像中多少是正确(真实)的,而召回率指示正确(真实)的图像中有多少是搜索引擎14返回的。精度-召回率曲线181度量在仅仅颜色模型参数被用于图像评分函数中时搜索引擎14的性能,精度-召回率曲线183度量在仅仅视觉权重模型参数被用于图像评分函数中时搜索引擎14的性能,并且精度-召回率曲线185度量在上述联合视觉权重和颜色图像评分函数被搜索引擎14使用时搜索引擎14的性能。图28示出了由于使用联合评分函数而导致的改善的搜索引擎性能,其中所述联合评分函数捕获视觉品质图中视觉上平衡该文档的孤立的高品质区域以及满足该期望的相似颜色协调性的色调。
V.组成平衡和颜色驱动的内容检索系统的示例性体系结构
组成平衡和颜色驱动的内容检索系统10的实施例可以由一个或更多分立模块(或数据处理部件)来实施,其中所述模块不限于任何特定的硬件、固件或软件配置。在所示的实施例中,所述模块可以被实施在任何计算或数据处理环境中,包括被实施在数字电子电路(例如专用集成电路、比如数字信号处理器(DSP))中或者在计算机硬件、固件、设备驱动器或者软件中。在一些实施例中,所述模块的功能被组合到单个数据处理部件中。在一些实施例中,一个或更多所述模块中的每个模块的相应功能由相应的一组多个数据处理部件来执行。
在一些实施方式中,用于实施由组成平衡和颜色驱动的内容检索系统10的实施例所执行的方法的过程指令(例如机器可读代码、比如计算机软件)、以及所生成的数据被存储在一个或更多机器可读媒介中。适合于有形地包含这些指令和数据的存储设备包括所有形式的非易失性计算机可读存储器,例如包括:半导体存储器件(比如EPROM、EEPROM以及闪存设备),磁盘(比如内置硬盘和可移动硬盘),磁光盘,DVD-ROM/RAM以及CD-ROM/RAM。
总的来说,组成平衡和颜色驱动的内容检索系统10的实施例可以被实施在多种多样的电子设备中的任意一种中,包括台式计算机、工作站计算机以及服务器计算机。
图29示出了计算机系统180的实施例,其中计算机系统180能够实施在此所述的组成平衡和颜色驱动的内容检索系统10的实施例中的任意实施例。计算机系统180包括:处理单元182(CPU)、系统存储器184、以及系统总线186,其中系统总线186将处理单元182耦合到计算机系统180的各个部件。处理单元182通常包括一个或更多处理器,所述处理器中的每个都可以具有各种商业可获得的处理器的任意一种的形式。系统存储器184通常包括只读存储器(ROM)以及随机存取存储器(RAM),所述只读存储器(ROM)存储含有计算机系统60的启动例程的基本输入/输出系统(BIOS)。系统总线66可以是存储器总线、外围总线、或者本地总线,并且可以与多种总线协议中的任意总线协议兼容,所述总线协议包括PCI、VESA、微通道、ISA、以及EISA。计算机系统60还包括永久性存储存储器68(例如硬盘驱动器、软盘驱动器、CD ROM驱动器、磁带驱动器、闪存设备、以及数字视频盘),其中所述永久性存储存储器68连接到系统总线186并且含有为数据、数据结构和计算机可执行指令提供非易失性或永久性存储的一个或更多计算机可读媒介盘。
用户可以使用一个或更多输入设备190(比如键盘、计算机鼠标、麦克风、操纵杆、以及触摸垫)与计算机180交互(例如,输入命令或数据)。信息可以通过在显示监视器192上显示给用户的图形用户界面(GUI)而被呈现,其中显示监视器192由显示控制器194控制。计算机系统60通常还包括外围输出设备,比如扬声器和打印机。一个或更多远程计算机可以通过网络接口卡(NIC)196连接到计算机系统180。
如图29所示,系统存储器184还存储组成平衡和颜色驱动的内容检索系统10、GUI驱动器198、以及至少一个含有输入数据、处理数据和输出数据的数据库200。在一些实施例中,组成平衡和颜色驱动的内容检索系统10与GUI驱动器198和用户输入190对接以呈现用于管理和控制组成平衡和颜色驱动的内容检索系统10的操作的用户界面。
VI.结论
在此被详细描述的实施例能够基于所指定的组成平衡和颜色标准来检索图像(例如数字照片、视频帧、扫描的文档、以及其它基于图像的图形对象(包括混合内容对象))。在这些实施例的一些实施例中,根据图像的视觉权重和颜色的相应分布的模型对图像进行索引化。基于图像的相关联的基于视觉权重和颜色的索引与组成平衡和颜色驱动的图像查询的参数之间的比较来检索图像。
一些实施例能够根据所指定的组成平衡目标以及文档中的视觉权重和颜色的分布的分析来生成组成平衡和颜色驱动的查询。通过这种方式,这些实施例可以例如在数字出版应用环境中被用于自动检索一个或更多图像,所述图像具有与构造中的文档相协调的颜色并且满足该文档的组成平衡目标。
其它实施例处于权利要求书的范围内。
Claims (10)
1.一种方法,包括:
为图像(20)的收集中的每个图像确定所述图像(96)中的相应视觉权重模型(106)以及所述图像(167)中的相应颜色模型(169);
根据目标视觉权重分布和目标颜色模板生成图像查询;
对于每个所述图像(20),根据所述图像查询、所述相应视觉权重模型(169)以及所述相应颜色模型(167)计算相应的分数;以及
基于所述相应的分数从数据库中检索所述图像(20)中的至少一个。
2.根据权利要求1所述的方法,其中所述确定包括:对于每个图像(20):
识别图像(96)中视觉吸引力最高的区(98),以及
建立所述图像(96)中的相应视觉权重模型(106)以近似所述图像(96)的所识别的区(98)的分布。
3.根据权利要求1所述的方法,其中所述确定包括:对于每个所述图像(20):
将所述图像(20)分割成区域;
用相应的颜色标记每个所述区域;
为所标记的区域中的一些区域计算相应的形心和相应的大小;以及
根据所计算的形心和所计算的大小建立相应的颜色模型。
4.根据权利要求1所述的方法,其中所述计算包括:对于每个图像(20)根据相应的视觉权重比较值和相应的颜色比较值计算相应的分数,所述相应的视觉权重比较值将目标视觉权重分布与所述图像的相应视觉权重模型相比较,并且所述颜色比较值将目标颜色模板与所述图像的相应颜色模型相比较。
5.根据权利要求4所述的方法,其中所述计算包括:对于每个图像(20):
根据目标视觉权重分布与所述图像(96)的相应视觉权重模型(106)之间的距离的度量计算相应的视觉权重比较值,以及
根据目标颜色模板与所述图像(167)的相应颜色模型(169)之间的距离的度量计算相应的颜色比较值。
6.根据权利要求4所述的方法,其中所述计算包括:对于每个图像(20)根据对联合评分函数的评估计算相应的分数,其中所述联合评分函数包括将相应的视觉权重比较值与相应的颜色比较值乘在一起。
7.根据权利要求1所述的方法,其中所述生成包括根据文档(56)中的视觉权重模型(74)构造目标视觉权重分布(16),其中所述构造包括计算所述文档(56)中的视觉权重的中心并且基于所计算的视觉权重的中心来确定所述文档(76)中的视觉权重模型(74)。
8.根据权利要求9所述的方法,其中
所述生成包括根据针对该文档(56)的组成平衡目标从该文档(56)中的视觉权重模型(74)产生图像查询,以及
所述产生包括根据所述组成平衡目标对所述文档(56)中的视觉权重模型(74)进行几何变换(77)以产生目标视觉权重分布。
9.根据权利要求1所述的方法,其中所述生成包括从文档(56)中构造目标颜色模板,其中所述构造包括:
将所述文档(56)分割成区域;
用相应的颜色标记每个所述区域;
为所标记的区域中的一个或更多区域计算相应的形心和相应的大小;以及
根据所计算的形心和所计算的大小建立目标颜色模板。
10.一种装置,包括:
存储器(184,188);
建模引擎(12),其能够操作以为图像(20)的收集中的每个图像确定所述图像(96)中的相应视觉权重模型(106)以及所述图像(167)中的相应颜色模型(169);
搜索引擎(14),其能够操作以根据目标视觉权重分布和目标颜色模板生成图像查询,所述搜索引擎(14)附加地能够操作以根据所述图像查询、所述相应视觉权重模型(106)以及所述相应颜色模型(169)为每个所述图像计算相应的分数;以及
用户界面应用(16),其能够操作以基于所述相应的分数从数据库中检索所述图像(20)中的至少一个。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/781,178 US7917518B2 (en) | 2007-07-20 | 2007-07-20 | Compositional balance and color driven content retrieval |
US11/781,178 | 2007-07-20 | ||
PCT/US2008/008835 WO2009014666A2 (en) | 2007-07-20 | 2008-07-18 | Compositional balance and color driven content retrieval |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101755267A true CN101755267A (zh) | 2010-06-23 |
CN101755267B CN101755267B (zh) | 2013-07-10 |
Family
ID=40265658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200880025515XA Expired - Fee Related CN101755267B (zh) | 2007-07-20 | 2008-07-18 | 组成平衡和颜色驱动的内容检索 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7917518B2 (zh) |
CN (1) | CN101755267B (zh) |
GB (1) | GB2462240B (zh) |
WO (1) | WO2009014666A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102800111A (zh) * | 2012-07-19 | 2012-11-28 | 北京理工大学 | 基于颜色协调性的彩色融合图像颜色质量评价方法 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8041111B1 (en) * | 2007-10-15 | 2011-10-18 | Adobe Systems Incorporated | Subjective and locatable color theme extraction for images |
KR100944903B1 (ko) * | 2008-03-18 | 2010-03-03 | 한국전자통신연구원 | 비디오 신호의 특징 추출 장치 및 그 추출 방법, 비디오인식 시스템 및 그 인식 방법 |
US8326029B1 (en) * | 2008-03-21 | 2012-12-04 | Hewlett-Packard Development Company, L.P. | Background color driven content retrieval |
CN102132318B (zh) * | 2008-08-21 | 2014-06-11 | 惠普开发有限公司 | 图像收藏集的可缩放的相关性排序表示的自动创建 |
US8799259B2 (en) * | 2008-11-07 | 2014-08-05 | Core Wireless Licensing, S.a.r.l. | Method and apparatus for quality ranking of media |
ES2377303B1 (es) * | 2009-06-05 | 2013-02-01 | Vodafone España S.A.U. | Método y sistema para recomendar fotografías. |
US9135277B2 (en) * | 2009-08-07 | 2015-09-15 | Google Inc. | Architecture for responding to a visual query |
US20110110587A1 (en) * | 2009-11-12 | 2011-05-12 | Banner Ron | Generating Harmonic Images |
WO2011062586A1 (en) * | 2009-11-20 | 2011-05-26 | Hewlett-Packard Development Company, L.P. | Determining a visual balance of an image |
FR2954986B1 (fr) * | 2010-01-05 | 2012-02-10 | St Microelectronics Grenoble 2 | Procede de detection d'orientation de contours. |
US8744180B2 (en) * | 2011-01-24 | 2014-06-03 | Alon Atsmon | System and process for automatically finding objects of a specific color |
JP2013068981A (ja) * | 2011-09-20 | 2013-04-18 | Fujitsu Ltd | 電子計算機及び画像検索方法 |
JP2014056503A (ja) * | 2012-09-13 | 2014-03-27 | International Business Maschines Corporation | 多言語環境でのコミュニケーションに適する非テキスト要素を特定するためのコンピュータ実装方法、プログラム、および、システム |
US9830361B1 (en) * | 2013-12-04 | 2017-11-28 | Google Inc. | Facilitating content entity annotation while satisfying joint performance conditions |
US9384422B2 (en) * | 2014-04-04 | 2016-07-05 | Ebay Inc. | Image evaluation |
CN107229671A (zh) * | 2017-04-12 | 2017-10-03 | 国网山东省电力公司 | 一种基于大数据的运动机能分析中平衡指标展示模型及其应用 |
US11144717B2 (en) * | 2018-09-26 | 2021-10-12 | Adobe Inc. | Automatic generation of document layouts |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5418895A (en) * | 1992-11-25 | 1995-05-23 | Eastman Kodak Company | Method for displaying a high quality digital color image on a limited color display |
JP3199009B2 (ja) | 1997-12-26 | 2001-08-13 | 日本電気株式会社 | 画像蓄積・管理装置及び画像インデックス生成方法 |
AU6503800A (en) | 1999-07-30 | 2001-02-19 | Pixlogic Llc | Perceptual similarity image retrieval |
DE60045484D1 (de) * | 1999-09-30 | 2011-02-17 | Shimadzu Corp | Ultraschnelles bildaufnahmegerät |
US6594383B1 (en) * | 1999-11-16 | 2003-07-15 | International Business Machines Corporation | Method and apparatus for indexing and retrieving images from an images database based on a color query |
US6671405B1 (en) * | 1999-12-14 | 2003-12-30 | Eastman Kodak Company | Method for automatic assessment of emphasis and appeal in consumer images |
US6556710B2 (en) * | 2000-12-15 | 2003-04-29 | America Online, Inc. | Image searching techniques |
US7043474B2 (en) * | 2002-04-15 | 2006-05-09 | International Business Machines Corporation | System and method for measuring image similarity based on semantic meaning |
US7035439B2 (en) | 2003-07-30 | 2006-04-25 | Xerox Corporation | System and method for measuring and quantizing document quality |
US7697792B2 (en) | 2003-11-26 | 2010-04-13 | Yesvideo, Inc. | Process-response statistical modeling of a visual image for use in determining similarity between visual images |
US20050254727A1 (en) | 2004-05-14 | 2005-11-17 | Eastman Kodak Company | Method, apparatus and computer program product for determining image quality |
US7966327B2 (en) * | 2004-11-08 | 2011-06-21 | The Trustees Of Princeton University | Similarity search system with compact data structures |
US7620261B2 (en) | 2004-11-23 | 2009-11-17 | Stmicroelectronics Asia Pacific Pte. Ltd. | Edge adaptive filtering system for reducing artifacts and method |
US7451140B2 (en) * | 2005-01-11 | 2008-11-11 | Xerox Corporation | System and method for proofing individual documents of variable information document runs using document quality measurements |
US20070091106A1 (en) | 2005-10-25 | 2007-04-26 | Moroney Nathan M | Adaptive lexical classification system |
US7693304B2 (en) | 2005-05-12 | 2010-04-06 | Hewlett-Packard Development Company, L.P. | Method and system for image quality calculation |
US7561722B2 (en) | 2005-12-14 | 2009-07-14 | Xerox Corporation | System and method for interactive document layout |
US7813561B2 (en) * | 2006-08-14 | 2010-10-12 | Microsoft Corporation | Automatic classification of objects within images |
-
2007
- 2007-07-20 US US11/781,178 patent/US7917518B2/en not_active Expired - Fee Related
-
2008
- 2008-07-18 WO PCT/US2008/008835 patent/WO2009014666A2/en active Application Filing
- 2008-07-18 CN CN200880025515XA patent/CN101755267B/zh not_active Expired - Fee Related
- 2008-07-18 GB GB0921278.8A patent/GB2462240B/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102800111A (zh) * | 2012-07-19 | 2012-11-28 | 北京理工大学 | 基于颜色协调性的彩色融合图像颜色质量评价方法 |
CN102800111B (zh) * | 2012-07-19 | 2015-01-21 | 北京理工大学 | 基于颜色协调性的彩色融合图像颜色质量评价方法 |
Also Published As
Publication number | Publication date |
---|---|
GB2462240A (en) | 2010-02-03 |
GB0921278D0 (en) | 2010-01-20 |
US7917518B2 (en) | 2011-03-29 |
WO2009014666A3 (en) | 2009-03-12 |
GB2462240B (en) | 2012-08-22 |
CN101755267B (zh) | 2013-07-10 |
US20090024580A1 (en) | 2009-01-22 |
WO2009014666A2 (en) | 2009-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101755267B (zh) | 组成平衡和颜色驱动的内容检索 | |
US8369616B2 (en) | Chromatic matching game | |
Marques et al. | Content-based image and video retrieval | |
US7848577B2 (en) | Image processing methods, image management systems, and articles of manufacture | |
CN102073748B (zh) | 一种基于视觉关键词的遥感影像语义检索方法 | |
Lai et al. | A user-oriented image retrieval system based on interactive genetic algorithm | |
JP3635368B2 (ja) | 内容基盤イメージ検索システム及びその検索方法 | |
JP2776295B2 (ja) | 画像インデックス生成方法及び画像インデックス生成装置 | |
Grubinger | Analysis and evaluation of visual information systems performance | |
US20040215660A1 (en) | Image search method and apparatus | |
JP4523413B2 (ja) | 複数のメディア参照でのサーチ不明確性の減少 | |
US20080285860A1 (en) | Studying aesthetics in photographic images using a computational approach | |
US10169549B2 (en) | Digital image processing including refinement layer, search context data, or DRM | |
CN110413816B (zh) | 彩色草图图像搜索 | |
CN102332034A (zh) | 一种人像图片检索方法和装置 | |
CN101866352A (zh) | 一种基于图像内容分析的外观设计专利检索方法 | |
Fuertes et al. | A scheme of colour image retrieval from databases | |
JP2004341940A (ja) | 類似画像検索装置、類似画像検索方法、および類似画像検索プログラム | |
Dass et al. | Image retrieval using interactive genetic algorithm | |
JP2004086737A (ja) | 類似度判定方法および装置並びにプログラム | |
Sinha et al. | Extractive summarization of personal photos from life events | |
US9020955B2 (en) | Compositional balance driven content retrieval | |
Wang et al. | Query-by-sketch image retrieval using homogeneous painting style characterization | |
Choraś et al. | Integrated color, texture and shape information for content-based image retrieval | |
Kumar et al. | Design a Framework for Content Based Image Retrieval Using Hybrid Features Analysis. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130710 Termination date: 20160718 |