CN101300576A - 图像处理 - Google Patents

图像处理 Download PDF

Info

Publication number
CN101300576A
CN101300576A CNA2006800409407A CN200680040940A CN101300576A CN 101300576 A CN101300576 A CN 101300576A CN A2006800409407 A CNA2006800409407 A CN A2006800409407A CN 200680040940 A CN200680040940 A CN 200680040940A CN 101300576 A CN101300576 A CN 101300576A
Authority
CN
China
Prior art keywords
image
characteristic
pixel
test
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006800409407A
Other languages
English (en)
Inventor
M·C·朗
R·M·S·波特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Europe Ltd
Original Assignee
Sony United Kingdom Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony United Kingdom Ltd filed Critical Sony United Kingdom Ltd
Publication of CN101300576A publication Critical patent/CN101300576A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5862Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/457Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

一种图像处理方法,其包括的步骤有:检测处于测试当中的图像的至少一部分内的由预定数量的像素构成的连续集合当中的像素特性的排列的统计分布,从而针对所述的处于测试当中的图像导出特征数据;以及将针对所述的处于测试当中的图像导出的特征数据与从一幅或多幅其他图像的至少相应部分导出的特征数据进行比较,以检测处于测试当中的图像与所述的一幅或多幅其他图像之间的相似度。

Description

图像处理
技术领域
本发明涉及图像处理。
背景技术
目前已经开发出了用于对文本信息项或者至少对具有一些文本内容的项目(item)进行索引和搜索的技术。作为此类技术的一个例子来讲,可以由文本项(例如,字分布)生成特征数据,并且可以以特征数据的比较为基础实施项目之间的比较。
但是,就图像项而言,只有少数几种有用的技术。
一种简单的技术是使某些文本与图像相关。该技术的简单情况可以是标题,或者该技术可以涉及更为详细的“元数据”,例如,说明书的段落、图像中的项目或人的清单、图像的俘获时间、其俘获所涉及的项目的清单等。之后,可以采用基于文本的搜索技术识别类似的图像。当然,提供精确、有用的元数据既耗费时间,又代价昂贵。
其他技术基于图像自身建立特征数据。这些特征数据可以包括颜色特性、纹理特性等。但是,这仍然是有限的,因为对于观察者而言表现相同事物的两幅图像可能具有迥然不同的图像特性。简单地计量特定亮度或颜色值的出现未必能够提供有用的图像比较措施。
发明内容
本发明提供了一种图像处理方法,其包括的步骤有:
检测处于测试当中的图像的至少一部分内的由预定数量的像素构成的连续集合当中的像素特性的排列的统计分布,从而针对所述的处于测试当中的图像的至少一部分导出特征数据;以及
将针对所述的处于测试当中的图像导出的特征数据与从一幅或多幅其他图像的至少相应部分导出的特征数据进行比较,以检测处于测试当中的图像与所述的一幅或多幅其他图像之间的相似度。
本发明通过新的特征检测技术解决了上文所述的问题,所述新的特征检测技术涉及检测处于测试当中的图像的至少一部分内的由预定数量的像素构成的连续集合当中的像素特性的排列的统计分布。因而,不再简单地单独检测像素特性,而是检测像素的连续集合(例如,一对相邻像素)的像素特性。并且,跨越整幅图像或者图像的一部分,确立各组像素特性的统计学分布。已经发现,这样可以为图像比较提供尤为有用的特征数据组。
在优选实施例中,所述的由预定数量的像素构成的连续集合可以是两个相邻像素的集合。像素特性的排列是指所述集合中的一个像素的像素特性与所述集合中的另一像素的特性的排列,等等。
权利要求中限定了本发明的其他各个方面和特征。
附图说明
现在将参考附图,仅通过举例的方式描述本发明的实施例,在附图中:
图1示意性地示出了一种图像处理系统;
图2a和2b示意性地示出了将图像划分成多个图像部分;
图3是示出了图像划分过程的示意性流程图;
图4示意性地示出了带有黑边界的图像;
图5示意性地示出了图像内的搜索区域;
图6示意性地示出了在图像内生成簇的早期阶段;
图7示意性地示出了主要部分过滤处理;
图8是示出了特征矢量的生成的示意性流程图;
图9示意性地示出了量化的RGB空间;
图10示意性地示出了量化边界;
图11示意性地示出了特征直方图的生成;
图12示意性地示出了随机映射处理;
图13示意性地示出了加权颜色量化处理;
图14示意性地示出了加权马尔可夫模型的生成;
图15示意性地示出了作为视频获取和/或处理设备的例子的便携式摄像机;以及
图16示意性地示出了作为便携式数据处理设备的个人数字助理。
具体实施方式
图1是基于通用计算机10的图像处理系统的示意图,所述通用计算机10具有包括用于程序和数据的磁盘存储器30的处理器单元20、连接至诸如Ethernet或Internet的网络50的网络接口卡40、诸如阴极射线管或液晶显示装置的显示装置60、键盘70和诸如鼠标的用户输入装置80。所述系统在程序控制下工作,所述程序存储在磁盘存储器30内,并且(例如)通过网络50、可拆卸磁盘(未示出)或磁盘存储器30上的预安装提供。
一般而言,将图像处理设备设置为将图像划分为各个图像部分。之后,根据所述部分导出所谓的特征数据。这样能够实现在部分级上进行图像比较,也就是说,可以将测试图像的一个或多个部分的(由特征数据表示的)特性与该图像中,或者(在更普遍的情况下)与其他图像中的其他部分的特性进行比较,以检测出可认为与测试中的图像或者与测试中的图像的所选部分“类似”的基准图像。
图2a示意性地示出了示例图像,图2b示意性地示出了由图2a的图像导出的图像部分(例如,部分75)的样本集合。一般地,图2b所示的部分由黑色边界包围,但是,其目的仅在于能够将所述部分方便地表现在纸上。所述黑色边界未必存在于(有可能未存在于)实际的经划分的图像中。
所述系统可以使特征数据与所述部分中的每者相关——例如,采用单个值表示该部分的图像(例如,颜色)特性,或者将多值特征数据统称为表示该部分的各种不同的图像特性的“特征矢量”。
所述图像处理系统可以在不同的操作模式下工作。在第一种模式中,将一组图像汇集到磁盘存储器30或者通过网络50连接的网络磁盘驱动器上,并对其进行划分,排序和索引,以供搜索操作之用。第二种模式是实际搜索,所述实际搜索涉及当前图像与经索引和排序的数据的比较。另一种操作模式是准实时搜索或比较操作。对此而言,未必要对图像数据进行预划分、索引和排序;相反,可以根据对此类信息的需求而从所要比较的图像导出特征数据。
因此,应当认识到,在下述实施例中,可以“预先”执行诸如,划分图像和推导特征数据的操作,从而实现后续的图像或者图像部分之间的特征数据的比较。或者,可以根据需要执行所述操作。还应当认识到,可以通过一个系统生成(部分或全部)特征数据,并在另一个系统上采用所述特征数据进行比较。
通过常规的方式将图像加载到磁盘存储器30上。优选将其作为数据库结构的部分存储,其能够实现更为简单的项目检索和索引,但这不是必须的。
还应当认识到,未必将特征数据和/或图像存储到本地磁盘驱动器30上。可以将数据存储到经由网络50连接至系统10的远程驱动器上。或者,可以按照分布方式存储信息,例如,可以将信息存储到跨越网络的各个站点中。如果将信息存储到不同的internet站点或网络站点中,那么可以采用第二级信息存储器对任选具有相关概述的与远程信息的“链接”(例如,URL)、摘要和与该链接相关的元数据进行本地存储。因此,除非用户选择了相关链接,否则无法访问远程保存的信息。
在另一个例子中,可以跨越诸如研究组、报纸发行商、医疗业务体系的网络化工作组存储图像和/或特征数据。一种混合的方案可能涉及一些本地存储的项目和/或一些跨越局域网存储的项目和/或一些跨越广域网存储的项目。在这种情况下,所述系统可以在对他人俘获或准备的类似图像进行定位方面发挥作用。或者,在正在准备新的电视节目的情况下,可以采用本系统检测以前的具有类似内容的节目,由此检验其原创性。
还应当认识到,图1的系统10只是能够采用从划分后的图像导出的特征数据的可能系统中的一个例子。尽管设想采用一般为非便携式计算机(也可能是具有信号处理功能的便携式计算机)的功能相当强大的计算机执行初始(划分)阶段,但是可以在便携式设备上,例如,在“个人数字助理”(具有显示器和用户输入装置的,通常与人的一只手相匹配的数据处理装置)、笔记本电脑等便携式计算机乃至移动电话、视频编辑设备或摄像机等装置上执行后面的信息访问阶段。一般来讲,实际上可以采用任何具有显示器的装置实施操作的信息访问阶段。在下文中,将参考图10和11说明其他合适的装置的例子。
所述处理不局限于图像或部分的具体数量。
图3示出了图像划分处理的流程图。将参考图4到图7说明图3的处理步骤。
在图3中,在步骤100中,检测所要划分的图像周围是否存在黑色边界。出现这种边界的原因通常是图像俘获格式与图像存储/传输格式不匹配。例如,如果在宽屏模式中俘获图像,但是按照非宽屏模式存储,那么如图4所示,就会在图像中插入黑色边界。这里,在前面的某处理阶段中,向图像270施加了上方和下方黑色边界280。如果在步骤100中检测到了这样的黑色边界,那么在步骤110中,将所述边界删除。其涉及避免相关像素参与随后的处理,即图像剪切(cropping),以便在随后的处理中不会将所述边界区域作为截然不同的图像部分检测出来。设置一个标志,其表示(a)已经执行了剪切,(b)已经剪切的区域的尺寸。这样允许在下文所述的步骤230中恢复所述边界。
如果画面整体上都非常黑,那么可以预先确定(例如)50像素的最大边界宽度,以避免剪切掉整幅图像。
在步骤110中去除边界之后,或者在步骤100中未检测到边界的存在之后,控制转到步骤120,在该步骤中,从处于测试当中的图像提取所谓的“特征”。其执行过程如下。参考图5,在处于测试当中的图像270’的每一像素位置290上,确定围绕所述像素位置的像素块。在图5中,将示例块示意性地表示为块285。典型地,所述块可以是9×9像素。对于每一个这样的块而言,确定颜色特性R(红色)、G(绿色)和B(蓝色)的中值,以及Cb和Cr(色差值)。通过这种方式,使每一像素位置具有相关的由五个值(R、G、B、Cb、Cr)构成的组,但是这些值不代表像素的实际颜色特性,而是代表围绕所述像素位置的块的中值。这些针对每一像素位置的由五个颜色特性值构成的组表示在步骤120中提取的特征。
在步骤130中,使所述特征归一化。在本实施例中执行所述操作的方式是使跨越与单个图像相关的整个像素组的R值归一化,从而使之具有平均值0,和标准偏差1。所述条件同样适用于跨越所述图像的G值,等等。
在步骤140中,开始将像素集簇到一起的处理。具体而言,步骤140涉及对所述簇的集合的中心初始化。
在多维(R,G,B,Cb,Cr)颜色(或特征)空间内表示所述簇,而不是(在这一阶段内)在图像空间内通过联系相邻区域来表示所述簇。因此,其目的在于将具有类似颜色特性的像素集结起来,而不是(必须)将图像空间域内靠在一起的像素集结起来。
按照下述说明设置簇的中心。
设置由2number_of_variables个簇,即,32个簇构成的初始组。在(R,G,B,Cb,Cr)空间内,将这些簇的中心设置为对应于各个变量R、G、B、Cb、Cr具有最小值或最大值的位置的集合。初始的32个簇中心在颜色空间内的坐标的例子如下:
(Rmin,Gmin,Bmin,Crmin,Cbmin)
(Rmax,Gmin,Bmin,Crmin,Cbmin)
(Rmax,Gmax,Bmax,Crmax,Cbmax)
由此完成了步骤140,即,簇中心的初始化。之后,控制转到步骤150,在该步骤中,将每一像素分配给在颜色空间中与该像素最近的簇中心。采用常规数学方法计算颜色空间内的像素位置与簇中心之间的距离,所述数学方法包括检测颜色空间内的两个位置之间的欧几里德距离。在步骤150结束时,将处于测试当中的图像中的所有像素都分配给了簇中心。
在步骤160中,去除所有空的簇。因此,每次重复执行步骤150到200时,簇的数量都倾向于减少。
在步骤170中,将彼此靠近程度(在五维颜色空间内)超过了簇合并阈值的所有簇合并到一起。
在步骤180中,重新计算簇中心。如上所述,将簇中心初始化为五个变量值在颜色空间内的极值。在步骤180中,重新计算簇中心,使之成为该簇内的所有像素(在颜色空间内)的平均位置。因而,(例如),结合簇内的所有像素的R值形成平均R值,所述平均R值形成了该簇的簇中心的新的R坐标。
在步骤190中,针对每一簇计算被称为“簇内距离”(wcd)的变量。用于推导wcd的公式如下:
Wcd=∑距离(像素,簇中心)
相应地,wcd表示(在颜色空间内)像素与相应的簇中心之间的位移的总和。
在步骤200中,通过执行测试检验所有wcd值的和(总wcd)自上次计算之后是否发生了变化。当然,第一次经过步骤150到200构成的环将产生第一个wcd值,因而步骤200中的测试结果将是肯定的,并且控制将返回至步骤150。因此,在新计算的总wcd值与前一重复过程中计算的对应值之间进行比较。
步骤200中的测试可以是绝对的,即,“总wcd发生了任何改变吗?”,或者可以应用阈值测试,即,“总wcd的变化小于阈值量吗?”
在适当数量的重复之后,步骤200将探测到自上次重复之后总wcd未发生变化,并且控制转到步骤210,在步骤210中集簇操作结束。
至此,可以认为在由五个变量(R,G,B,Cb,Cr)表示的特征空间(颜色空间)内将像素集簇到了一起。现在将考虑使像素在图像空间域内集结,其目的在于形成少量的图像部分,所述图像部分各个相连,并且表示图像的类似部分,至少其颜色特性是类似的。这里,对所期望的“少”量没有明确的定义,其完全取决于图像内容。
如果在图像域内表示一直执行到步骤210的集簇过程,从而在图像的显示版本中将同一簇内的像素集结到一起,那么结果的例子可以如图6所示,其中,图像270”的连续像素组300来自相同的簇。注意,在图6中,可以通过几个截然不同的图像区域表示(颜色空间内的)一个簇。
在将图6中每一带边界的区域300看作一个图像区域的情况下,在步骤220中,实施所谓的主要部分过滤,以消除细小区域。图7示意性地示出了所述主要部分过滤,其中,在中心像素310的周围存在像素阵列。像素310实际上落在由大的区域330包围的小区域320内。主要部分过滤的作用在于检查包围像素310的像素阵列,并将像素310分配给在所述像素阵列当中具有最大表示的区域。在图7的例子中,可以看出,所述操作涉及将像素310分配给区域330。所述方法同样适用于小区域320内的其他像素,因而实际上区域320将消失。在实践当中,主要部分过滤步骤一般采用9×9像素阵列。
在步骤230中,如有必要,可以重新添加在步骤110中去除的黑色边界。
在步骤240中,执行连接部分分析,以确定每一簇内的哪些像素是相连的。连接部分分析涉及对像素进行水平和垂直扫描,以检验(图像域内的)相邻像素是否属于相同的簇。为属于同一簇的相连像素提供相同的区域编号。为属于同一簇的不相连的像素提供单独的区域编号。在这一处理之后,至少存在与处理之前一样多的区域,通常会多出一个区域。注意,如果认为存在一些不相连的区域是可以接受的,那么可以省略这一阶段。
在步骤250中,重新设置簇的数量,使之等于当前的图像区域的数量,其中,在簇和区域之间具有一一对应关系。按照上述说明计算每一最新建立的簇的簇中心。
最后,在步骤260中,使所有留下的小区域(小于500个像素的区域)与最近的相邻区域合并。其执行过程如下。
对于小于100个像素的区域而言,与所对应的簇中心最接近所要合并的区域的簇中心的相邻区域合并。
对于介于100和500像素之间的区域而言,按照下属说明计算“合并代价”:
合并代价=(像素的数量)1/2+与任何空间相邻区域的最小簇间距离
如果合并代价小于预定阈值,那么合并所述区域。
否则不合并所述区域。
在下文中将描述这样一种系统,其中,借助所述系统,可以采用经划分的图像作为基础,利用特征矢量来比较所述图像的部分和其他图像中的图像部分。图像划分的其他应用包括:
1.基于区域的视频编码(例如,在低比特率上)。可以通过描述每一区域覆盖的面积以及描述其颜色和/或纹理对区域(部分)进行编码。对于移动电话、手提装置、IP上视频等采用的比特率非常低的视频编码而言,这种方法尤为有用,因为在这些应用当中,屏幕分辨率一般较低,而且将图像区域显示为单一的颜色/纹理也不会对感受到的主观质量造成太大影响。
2.基于区域活跃性的视频编码。将图像划分成各个区域,并采用基于对象的编码方案对其进行编码。在量化过程中,平滑(低活跃性)区域的处理比带有纹理(高活跃性)区域的处理更难,因为纹理一般更易于隐藏量化噪声。
3.图像/视频合成。将图像/视频划分成对象。其允许在不需要常规的“蓝屏”色度键控的情况下选择所要提取或插入到其他视频/图像中的对象。
4.CCTV(闭合电路TV)分析。将CCTV图像划分成对象,从而使用户能够在自动监视过程中(例如,在人群计数、可疑行为分析、车辆跟踪、交通分析、运动探测等计算机监视操作过程中)选择所要忽略的或者所要予以特殊关注的图像的对象或区域。
5.设备视觉观察应用,例如,对传送带上的(可能未知)的对象等计数。
6.医疗图像划分和诊断,例如,细胞检测。
7.航空摄影分析,例如,划分成不同的均质区域,以及将所述区域划分成不同的土地应用。
至此描述的处理实现了将图像划分成相应的图像部分。现在,为了能够使所述部分相互比较,一种合适的做法是从每一部分推导特征数据(例如,所谓的“特征矢量”)。现在,将说明一种从每一图像部分推导特征矢量的技术。
相应地,下述说明可能涉及处于通过上述处理标识的部分内的像素。或者,可以将下述处理应用于整幅图像。也就是说,尽管所述处理在对图像进行划分的情况下尤为有效,但是不对图像进行划分的情况下,也可以应用所述处理。
图8是示出了特征矢量的生成的示意性流程图。为了避免对图8的本质造成混淆,所述流程图仅包括四个步骤(步骤405、415、425和435)。在这些步骤之间,示意性地示出了相应的输入/输出(作为数据400、410、420、430和440)。
所述处理从输入图像400中的(按照上述说明标识的)区域402开始。如上所述,可以将所要说明的处理应用于整幅图像,或者应用于图像内的区域。
首先,在步骤405中,对于R、G、B(在这一处理中未采用Cr和Cb)颜色特性中的每者,将部分内的像素的颜色特性量化成四个不同的值。
所述三个变量的四个值给出了64个可能的级别。图9中示出了64级色立方体(colour cube)的示意性表示。这里,黑点(为了图示的清晰起见,很多黑点都没有示出)表示RGB空间内的可能的量化点。将R、G和B值均量化成最近的所述点。
在这一实施例中,通过三个8位值表示原始RGB值,因此R、G和B可以具有处于0和255之间的值。通过设置量化边界给出处于32、96、160和224上的量化子范围的中心。这表示将0到255的总范围划分成了四个基本相等的子范围。
由步骤405的量化处理得到了量化的图像数据410。
颜色空间的量化是所述系统的重要部分,因为原始特征矢量的尺寸(参考下文)是颜色调色板尺寸的平方。例如,如果颜色调色板由24位RGB空间内的所有离散点构成,那么调色板尺寸为2563,原始特征矢量尺寸为2566,在很多种情况下所述值是不实用的。通过对色度-饱和度-纯度(HSV)空间的非线性量化和对24位RGB空间的线性量化的试验表明,24位RGB空间的量化因量化误差而导致的问题较少,当然也可以采用其他量化方案。
在步骤415中生成了马尔可夫模型。
对于每一像素而言,所述处理标识出围绕该像素的3×3方阵列中的8个相邻像素。这里,所述的相邻像素仅限于当前区内的像素,如果像素处于当前区域的边缘上,那么认为其相邻像素少于8个。
建立一个二维的64×64bin(即4096bin)直方图作为所述区域的所谓的马尔可夫模型。
按照下述说明建立直方图。
对于每一像素而言,其自身的量化像素值(处于64值范围内,并且按照预定顺序编号为值1到64)沿直方图的一个轴形成了一个位置。同样在值1到64的范围内表述的每一相邻像素的值沿直方图的另一轴形成了一个位置。相应地,对于特定的中心像素而言,可能存在多达8个不同的bin,所述bin由对应的相邻像素值标识。累加(increment)这些bin中的每者,其中,每一bin表示相应的像素的排列(permutation)和相邻像素特性。更一般而言,每一bin表示连续像素组内的特性的排列,在本实施例中,所述连续像素组包括两个像素,但是其可以包括更多的像素。从一个角度来讲,可以认为所述马尔可夫模型表示图像部分的纹理。
之后,针对下一像素的中心像素值及其八个相邻像素值重复所述处理。由此,在正在考虑的整个区域上,将产生一个64×64bin二维直方图。
图11示意性地示出了特征直方图的生成,但是其参考了极为简化的情况,即仅有3个(而不是64个)量化RGB值0、1、2。在局部图像区域450内,将3×3像素扫描窗口455布置在中心像素460的周围。
(在这一简化的例子中,3值颜色空间内的)中心像素的颜色定义了处于图11的底部的直方图中的行。每一相邻像素的颜色定义了列。在行和列的交叉处,累加所述bin。在所示的例子中,扫描窗口中心像素具有颜色指数1。其总共具有8个相邻像素,其中,5个具有颜色指数0,2个具有颜色指数1,1个具有颜色指数2。其导致了,在所述bin中的第1行,第0列处使马尔可夫模型增加5,在所述bin中的第1行,第1列处,使其增加2,在所述bin中的第1行,第2列处,使其增加1。
之后,使所述直方图归一化。可以在逐区域的基础上,和/或跨越与整幅图像相关的直方图的集合执行所述操作。通过所述归一化处理,使得一行内的所有值的和等于1。参考下述归一化方程,所述方程是指附图中简化的3×3的例子:
x 0,0 x 0,1 x 0,2 x 1,0 x 1,1 x 1,2 x 2,0 x 2,1 x 2,2 · 1 1 1 = Σ j = 0 2 x 0 , j Σ j = 0 2 x 1 , j Σ j = 0 2 x 2 , j = x 0 x 1 x 2
Figure A20068004094000142
在图8中给出了举例的归一化马尔可夫模型数据的示意性表示,并将其表示为数据420。
之后,在步骤425中生成特征矢量。
通过连结(对应于图像或者对应于特定的图像区域的)二维归一化马尔可夫直方图中的所有的642个值形成4096值矢量,由此形成了所述特征矢量。所述连结根据预定的但是任意的顺序发生。在图8中提供了所述特征矢量的示范性例子,并将其作为数据430,其中,将所述特征矢量称为“原始”特征矢量。注意,为了图示的清晰起见,并未示出所有的4096个值。
之后,在步骤435中,通过主要部分分析或随机映射将4096值矢量减为200值矢量。在其他部分将对所述随机映射技术进行详细说明,该技术涉及采用200×4096随机矩阵乘以所述4096值矢量,可以按照预先设置的形式存储所述随机矩阵,以供本技术之用。图12提供了这一随机映射处理的示意性表示,其中,通过使1×N矢量与由随机数构成的N×M矩阵进行矩阵相乘将1×N矢量减为1×M矢量。前面公开的工作表明,尽管所得的矢量可以短得多,但是在随机映射处理之后它们的点积基本保持相同。
所述随机映射处理的输出为200值“减少”的特征矢量,其指示图像或每一图像部分的颜色特性。在图8中示出了作为数据440的示意性例子,但是为了清晰起见,这里也没有示出所有的200个值。这一示意性表示的要点在于认识到所减少后的特征矢量短于原始特征矢量。
当然,应当认识到,减少后的特征矢量未必是200个值的长度。这一数量是一种合理的折中选择,其兼顾了缩短的要求(为了便于存储和应用于其他处理)和具有足以精确地表示颜色特性的长度的要求。但是,也可以采用其他长度。
为了比较两个图像部分(或者至少比较采用基准特征数据导出的特征数据),要确立其特征矢量之间的距离。较短的距离意味着较大的相似性。
采用这种技术的一个例子是,用户从诸如图2B所示的经划分的图像中选择一个或多个部分。例如,用户可以选择附图标记为75的部分。从该部分导出特征矢量,并将其与来自同一图像内的其他部分的特征矢量以及来自其他图像中的部分(即位于用于检验相似图像部分的数据库中)的特征矢量进行比较。注意,归一化处理意味着,如果具有不同尺寸的图像部分的颜色特性是相似的,那么仍然可以将其检测为彼此相似。
可以预先针对所有的部分生成特征矢量,或者可以按照需要生成特征矢量。在保存图像的数据库的混合方案中,可以针对所存储的图像预先生成特征矢量。在使新图像与所述数据库进行比较时,由该图像单独(或者由该图像的部分)生成特征矢量。
如果用户选择了不止一个部分,那么存在各种不同的方式来处理这一情况。可以单独处理所述部分,并针对每一所选部分导出对应的结果组(相似的部分)。或者,可以将用户选择的部分结合处理,从而合并用户选择的部分与处于测试当中的部分之间的距离,并导出具有最小的合并距离的结果组。通常通过使两个或更多的距离相乘来完成两个(或多个)用户选择部分与处于测试当中的部分之间的距离的合并。还可能使所述距离与一个以上的处于测试当中的部分相关,只要所有的处于测试当中的部分都属于同一图像即可。在这种情况下,在所述乘法当中采用测试图像中的部分与每一用户选择部分的最小距离。之后,所述系统返回具有最小总体距离的测试图像。
现在将说明一种能够为上述技术带来提高的改进。在一些情况下,采用少量的量化级(64个量化级)意味着量化级之间的边界过于明显。颜色特性中的小的变化就可能导致分配给像素的量化级的剧烈变化。因而(例如)稍微亮一些的天空区域在其内的量化级的变化的影响下就可能导致与其他天空区域之间具有非常差的相关性。
对于这一特点的解决方案是将来自图11中的每一相邻像素的贡献(contribution)分配给各个bin。因而,像以前一样,在垂直轴上设置每一中心像素值(对于所述中心像素值可能存在几个贡献),但是,对于每一相邻像素而言,根据该相邻像素(在颜色空间内)与最近的量化级之间的距离将非整数贡献加到多个bin中。现在,将参考图13和14说明所述方案的例子。
图13和14的方案提供的主要差异在于降低了量化误差的影响。所述变化将影响颜色量化步骤405和马尔可夫模型生成步骤415。下文中将说明加权将怎样影响前述算法。
按照与上文相同的方式划分24位RGB空间。但是,这里并非将特定像素颜色量化成一个调色板颜色,而是将其量化成几个调色板颜色,并记录对每一调色板颜色的贡献。
图13示意性地示出了图9的量化点的子集。每一点C1..C12表示3维RGB空间中的量化RGB颜色。实际的(非量化)像素不太可能直接落在一个量化点上,一般都落在量化点之间。在图13中,正在考虑的像素落在RGB空间中的位置480上。将RGB空间中像素位置480与量化点Cn之间距离示为Ln。
可以说,实际的颜色由最近的调色板颜色的贡献构成。要想计算每一调色板颜色的贡献,则获取最大距离Dmax(在图13中将其示为量化点C4与量化点C10之间的线,其表示量化网格中的最大距离),并减去调色板颜色和实际颜色之间的距离。由此得到了相应的权重值wn。
如果权重wn>0,那么在下述处理中采用调色板颜色;否则弃用该值,或将其设为零。
因此,对于每一实际颜色而言,将形成发挥作用的调色板颜色及其权重的集合。使每一所述集合归一化,从而使每一集合的权重的和为1。
从原理上,按照与上文所述的相同的方式形成马尔可夫模型,但是这里并非采用一种调色板颜色表示每一像素,而是采用带有权重的调色板颜色的集合表示每一像素。
图14示意性地示出了这种情况,其中,该图示出了处于扫描窗口455’内的中心像素460’和周围的8个像素的权重w0、w1和w2构成的组。如前所述,采用仅有三种颜色的调色板(量化颜色空间)。
在确定相邻像素对所述模型作出的贡献时,所述二维直方图中的几个单元都受到影响,而不是只有一个单元受到影响。将中心像素的权重的列矢量与相邻像素的权重的行矩阵相乘,以形成与马尔可夫模型矩阵具有相同维度的矩阵,由此找到对直方图的适当的贡献。将这些矩阵中的每者添加至所述模型矩阵。
例如,考虑图15中的中心像素460’和相邻像素“n”之一之间的变换,可以看出,对于每一个这样的关系而言,存在对马尔可夫模型的9个贡献。注意,这里的示意性例子提供了具有3种颜色的调色板和尺寸为3×3的马尔可夫模型,因此具有9个贡献。实际应用中的调色板具有64种颜色和尺寸为64×64的马尔可夫矩阵,因此对每一相邻像素而言,其贡献是尺寸为64×64(如果将权重wn<0的颜色设为零,参考上文)或高达64×64(如果弃用了所述颜色)的矩阵。
如前所述,在扫描了整个区域的情况下,使马尔可夫模型矩阵归一化,从而使每一行的和等于1。
图15示意性地示出了作为视频获取和/或处理设备的例子的便携式摄像机500,所述便携式摄像机包括带有相关镜头520的图像俘获装置510、数据/信号处理器530、磁带存储器540、磁盘或其他随机存取存储器550、用户控制装置560和带有取景器580的显示装置570。常规便携式摄像机或其他备选装置的其他特征(例如,不同的存储介质或者不同的显示屏装置)对于本领域技术人员而言是显而易见的。在使用当中,可以将与所俘获的视频材料相关的元数据存储到存储器550上,并在显示装置570上观看与所存储的数据相关的SOM,并采用用户控制装置560对其进行上述控制。
图16示意性地示出了作为便携式数据处理设备的例子的个人数字助理(PDA)600,其具有显示屏610连同数据处理和存储装置(未示出),其中,所述显示屏610具有显示区域620和提供用户控制的触摸敏感区域630。本领域技术人员同样清楚这一领域中的各种替代选择。如上所述,可以结合图1的系统使用所述PDA。
可以采用通过上述处理导出的特征矢量训练和/或填充(populate)用于显示的自组织图(map),例如,GB-A-2393275中公开的图。
可以通过集合将图像或材料划分成某一分类,在所述分类中,所有的图像或部分具有处于分类特征矢量的阈值距离内的特征矢量。可以按照解析的方式设置所述分类特征矢量,或者将其作为经用户判断以共同的概念(例如,海滩景观)为联系纽带的一组图像或部分的平均特征矢量加以推导。
总之,提供了一种作为旋转、平移和缩放不变量的基于颜色的特征矢量。可以采用所述特征矢量,利用图像的全部或部分搜索图像数据库。所述特征矢量以马尔可夫模型为基础,所述马尔可夫模型描述了图像内的颜色变换。为了能够使用基于颜色特性的马尔可夫模型,开发出了这样一种技术,其将RGB颜色空间量化为表示马尔可夫模型中的状态的调色板颜色空间。

Claims (18)

1.一种图像处理方法,其包括步骤:
检测处于测试当中的图像的至少一部分内的由预定数量的像素构成的连续集合当中的像素特性的排列的统计分布,从而针对所述的处于测试当中的图像的至少一部分导出特征数据;以及
将针对所述的处于测试当中的图像导出的特征数据与从一幅或多幅其他图像的至少相应部分导出的特征数据进行比较,以检测处于测试当中的图像与所述的一幅或多幅其他图像之间的相似度。
2.根据权利要求1所述的方法,其中,所述像素特性为颜色特性。
3.根据权利要求2所述的方法,其包括步骤:
在检测步骤之前,使所述的处于测试当中的图像的至少一部分中的像素的颜色特性量化。
4.根据权利要求3所述的方法,其包括步骤:
检测像素特性对量化像素特性值的贡献;以及
根据所检测到的贡献为所检测到的像素特性排列加权。
5.根据前述权利要求中的任何一项所述的方法,其中,所述检测步骤用于检测所述的处于测试当中的图像的至少一部分内的所有可能的由预定数量的像素构成的连续集合当中的像素特性的排列。
6.根据前述权利要求中的任何一项所述的方法,其中,所述的预定数量为2,因而所述的像素的集合包括相邻像素构成的对。
7.根据前述权利要求中的任何一项所述的方法,其中,将所述检测步骤设置为针对集合像素特性的可能的排列生成出现频率数据,所述方法包括步骤:
连结所述出现频率数据,以生成特征矢量。
8.根据权利要求7所述的方法,其包括通过使所述特征矢量与随机数矩阵相乘来降低所述特征矢量的尺寸的步骤。
9.根据权利要求7所述的方法,其包括通过主要部分分析来降低所述特征矢量尺寸的步骤。
10.根据权利要求7到9中的任何一项所述的方法,其中,所述比较特征数据的步骤包括检测相应特征矢量之间的矢量距离。
11.根据前述权利要求中的任何一项所述的方法,其包括步骤:
根据所导出的特征数据导出和/或填充一组图像数据的自组织图表示。
12.根据前述权利要求中的任何一项所述的方法,其包括步骤:
如果两个或更多个图像或图像部分的特征数据表明大于预定相似度,那么将所述两个或更多个图像或图像部分集合到一起。
13.包括程序代码的计算机软件,当在计算机上执行时,所述程序代码执行根据前述权利要求中的任何一项所述的方法。
14.一种提供根据权利要求13所述的计算机软件的介质。
15.根据权利要求14所述的介质,所述介质为存储介质。
16.根据权利要求14所述的介质,所述介质为传输介质。
17.一种图像处理设备,包括:
用于检测处于测试当中的图像的至少一部分内的由预定数量的像素构成的连续集合当中的像素特性的排列的统计分布,从而针对所述的处于测试当中的图像的至少一部分导出特征数据的检测器;以及
用于将针对所述的处于测试当中的图像导出的特征数据与从一幅或多幅其他图像的至少相应部分导出的特征数据进行比较,以检测处于测试当中的图像与所述的一幅或多幅其他图像之间的相似度的比较器。
18.一种包括根据权利要求17所述的图像处理设备的图像俘获设备。
CNA2006800409407A 2005-10-31 2006-10-27 图像处理 Pending CN101300576A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0522181A GB2431797B (en) 2005-10-31 2005-10-31 Image processing
GB0522181.7 2005-10-31

Publications (1)

Publication Number Publication Date
CN101300576A true CN101300576A (zh) 2008-11-05

Family

ID=35516048

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006800409407A Pending CN101300576A (zh) 2005-10-31 2006-10-27 图像处理

Country Status (4)

Country Link
US (1) US8340412B2 (zh)
CN (1) CN101300576A (zh)
GB (1) GB2431797B (zh)
WO (1) WO2007051992A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103635874A (zh) * 2011-07-07 2014-03-12 约瑟夫·杰勒德·缪斯 基于数字影像中的微观结构和噪声提供便携式真随机数发生器的方法
CN106033443A (zh) * 2015-03-16 2016-10-19 北京大学 一种车辆检索中的扩展查询方法及装置
CN106062820A (zh) * 2014-03-14 2016-10-26 欧姆龙株式会社 图像识别装置、图像传感器、图像识别方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8565552B2 (en) * 2006-11-14 2013-10-22 Codonics, Inc. Assembling multiple medical images into a single film image
US8611665B2 (en) * 2006-12-29 2013-12-17 Ncr Corporation Method of recognizing a media item
JP4970381B2 (ja) * 2008-08-08 2012-07-04 株式会社東芝 特徴抽出装置、特徴抽出方法、画像処理装置、及び、プログラム
US9118880B2 (en) * 2008-09-24 2015-08-25 Nikon Corporation Image apparatus for principal components analysis based illuminant estimation
TR200907868A2 (tr) 2009-10-16 2011-05-23 Vestel Elektron�K Sanay� Ve T�Caret Anon�M ��Rket�@ Siyah transparan bölgeler içeren otomatik test metodu
US9560372B2 (en) * 2010-12-27 2017-01-31 Stmicroelectronics, Inc. Directional motion vector filtering
CN104458736B (zh) * 2014-12-29 2017-04-05 厦门安东电子有限公司 一种用于农药残留检测的装置和检测方法
US11328170B2 (en) * 2020-02-19 2022-05-10 Toyota Research Institute, Inc. Unknown object identification for robotic device

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6516100B1 (en) * 1998-10-29 2003-02-04 Sharp Laboratories Of America, Inc. Method for image characterization using color and texture statistics with embedded spatial information
US6373979B1 (en) * 1999-01-29 2002-04-16 Lg Electronics, Inc. System and method for determining a level of similarity among more than one image and a segmented data structure for enabling such determination
US6542632B1 (en) * 1999-02-01 2003-04-01 Sharp Laboratories Of America, Inc. Method for image characterization using color and texture statistics with embedded spatial information
US6594386B1 (en) * 1999-04-22 2003-07-15 Forouzan Golshani Method for computerized indexing and retrieval of digital images based on spatial color distribution
GB2349460B (en) * 1999-04-29 2002-11-27 Mitsubishi Electric Inf Tech Method of representing colour images
US6611622B1 (en) * 1999-11-23 2003-08-26 Microsoft Corporation Object recognition system and process for identifying people and objects in an image of a scene
US7440611B2 (en) * 2002-01-31 2008-10-21 Sharp Laboratories Of America, Inc. Method for image characterization using color and texture statistics with embedded spatial information
US7263220B2 (en) * 2003-02-28 2007-08-28 Eastman Kodak Company Method for detecting color objects in digital images
GB2409028A (en) * 2003-12-11 2005-06-15 Sony Uk Ltd Face detection
US20050163378A1 (en) * 2004-01-22 2005-07-28 Jau-Yuen Chen EXIF-based imaged feature set for content engine

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103635874A (zh) * 2011-07-07 2014-03-12 约瑟夫·杰勒德·缪斯 基于数字影像中的微观结构和噪声提供便携式真随机数发生器的方法
CN106062820A (zh) * 2014-03-14 2016-10-26 欧姆龙株式会社 图像识别装置、图像传感器、图像识别方法
CN106062820B (zh) * 2014-03-14 2018-12-28 欧姆龙株式会社 图像识别装置、图像传感器、图像识别方法
CN106033443A (zh) * 2015-03-16 2016-10-19 北京大学 一种车辆检索中的扩展查询方法及装置
CN106033443B (zh) * 2015-03-16 2019-05-07 北京大学 一种车辆检索中的扩展查询方法及装置

Also Published As

Publication number Publication date
WO2007051992A1 (en) 2007-05-10
GB2431797A (en) 2007-05-02
GB0522181D0 (en) 2005-12-07
US8340412B2 (en) 2012-12-25
GB2431797B (en) 2011-02-23
US20100158362A1 (en) 2010-06-24

Similar Documents

Publication Publication Date Title
CN101300575B (zh) 图像处理
CN101300576A (zh) 图像处理
Touati et al. An energy-based model encoding nonlocal pairwise pixel interactions for multisensor change detection
CN101154291A (zh) 图像数据压缩方法、图像显示方法及其相应装置
CN114936325B (zh) 基于用户画像的遥感影像推荐方法及系统
CN104504121A (zh) 一种视频检索方法及装置
CN101232571A (zh) 一种人体图像匹配方法及视频分析检索系统
Kanjanawanishkul et al. Novel fast color reduction algorithm for time-constrained applications
CN113988147A (zh) 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置
Zhu et al. Atmospheric light estimation in hazy images based on color-plane model
Narwaria et al. An objective method for High Dynamic Range source content selection
Hu et al. HCRS: A hybrid clothes recommender system based on user ratings and product features
CN101425075A (zh) 搜索图像的方法和设备
Sang et al. The topological viewshed: embedding topological pointers into digital terrain models to improve GIS capability for visual landscape analysis
CN114494887A (zh) 遥感图像分类方法、装置、计算机设备和可读存储介质
CN113486879A (zh) 图像区域建议框检测方法、装置、设备及存储介质
Woodley et al. High resolution change detection using Planet mosaic
Palma et al. Enhanced visualization of detected 3d geometric differences
Neilson et al. A component-wise analysis of constructible match cost functions for global stereopsis
Tuna et al. On Morphological Hierarchies for Image Sequences
CN108737814A (zh) 一种基于动态模式分解的视频镜头检测方法
Thayammal et al. Edge preserved multispectral image compression using extended shearlet transform
Xu et al. Parts-based stereoscopic image assessment by learning binocular manifold color visual properties
Ma et al. Retargeted image quality assessment: Current progresses and future trends
Molinier et al. Self-organizing map application for retrieval of man-made structures in remote sensing data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: surrey

Applicant after: Sony Corporation

Address before: Shire of England

Applicant before: Sony United Kingdom Ltd.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: SONY UNITED KINGDOM LTD. TO: SONY EUROPE LIMITED

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20081105