CN101137011A - 图像处理装置、图像处理方法和计算机程序 - Google Patents

图像处理装置、图像处理方法和计算机程序 Download PDF

Info

Publication number
CN101137011A
CN101137011A CNA2007101425865A CN200710142586A CN101137011A CN 101137011 A CN101137011 A CN 101137011A CN A2007101425865 A CNA2007101425865 A CN A2007101425865A CN 200710142586 A CN200710142586 A CN 200710142586A CN 101137011 A CN101137011 A CN 101137011A
Authority
CN
China
Prior art keywords
picture
image
region
node
limit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101425865A
Other languages
English (en)
Other versions
CN100591100C (zh
Inventor
弗兰克·奈尔森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN101137011A publication Critical patent/CN101137011A/zh
Application granted granted Critical
Publication of CN100591100C publication Critical patent/CN100591100C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/7635Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks based on graphs, e.g. graph cuts or spectral clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Discrete Mathematics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本发明提供了一种用于提取包含在图像中的画中画信息的图像处理装置,其包括将输入图像分割为多个区域的图像分割单元,以及基于分割所得的区域的轮廓来提取包含所述的画中画信息的画中画区域的区域提取单元。

Description

图像处理装置、图像处理方法和计算机程序
技术领域
本发明涉及对数字图像进行处理的图像处理装置、图像处理方法和计算机程序,具体而言涉及对包含在由数码摄像机拍摄得到的图像中的对象图像进行处理的图像处理装置、图像处理方法和计算机程序。
更具体地,本发明涉及对包含在数字图像中的画中画(picture-in-picture)信息进行处理的图像处理装置、图像处理方法和计算机程序,具体而言涉及通过与背景图像分离来从包含多个画中画信息项目的数字图像中提取各个画中画文件的图像处理装置、图像处理方法和计算机程序。
背景技术
近年来,数码摄像机被广泛地使用,其对由诸如CCD(电荷耦合器件)或CMOS(互补金属氧化物半导体)传感器之类的固态成像仪(solid-state imager)拍摄得到的图像进行数字编码。当与利用银盐胶卷(silversalt film)或感光底片(photosensitized plate)的相机相比时,数码摄像机的优势在于其能够将经数字编码的图像存储到存储器中,使得能够通过计算机来对所述的图像进行处理和管理,并且避免了胶卷寿命的问题。
数码摄像机通常被用于拍摄风景和人物的图像,不过还可以被用于将画中画信息数字化。例如,可以通过数码摄像机来以数字形式输入诸如包括纸质文件和名片在内的文件、针对演讲或会议的写在黑板和白板上的信息、或者由投影仪投影的屏幕图像之类的画中画信息,以使其可被用于包括例如信息存储和信息管理在内的各种图像处理。
例如,已经提出一种具有名片拍摄功能的成像装置(例如参考日本专利申请公布No.JP 2003-283909)。这种成像装置被配置用于对名片进行自动放大(zoom in),以按几乎与成像视角相同的大小来成像该名片。
此外,已经提出一种电子相机,其从通过对诸如名片或布告板之类的对象进行成像而获得的图像信号中提取文本信息,用以转换为文本字符串,并通过基于从文本字符串中识别得到的预定项目的排序来存储文本信息(例如见日本专利申请公布No.JP 2005-275447),由此无需初始投资或烦琐的努力就能够容易地对名片数据进行管理。
此外,数字图像被分为诸如画中画之类的前景对象和背景,并且仅提取画中画区域以用作单独的照片图像。本申请的发明人将用于提取或输出包括在照片图像中的另一个照片图像的技术称为“PicsInPic”。
在相关技术中,已经成为典型操作的是:基于通过对源图像进行微分处理(differential-processing)而获得的勾边图像(edge image)来提取诸如画中画之类的图像对象的轮廓,以从背景图像中剪切出图像对象。例如,已经提出一种图像处理装置,其中使用拉冬变换(Radon conversion)来从成像的勾边图像中检测得到直线,并且根据检测所得的直线参数来形成构成成像对象的轮廓的四边形,以用于射影变换(projectivetransformation)以获得好像从正面对成像对象进行成像一样而形成的图像(例如参考日本专利申请公布No.JP 2005-275447)。
发明内容
但是,对于使用勾边图像的轮廓提取来说,必须找到画中画和其背景之间的绝对对比度。如果勾边信息被包含在背景及画中画自身中,则很难精确地提取轮廓。例如,很难提取置于有图案的地毯上的照片。也难以从包含多个画中画的数字图像中逐一地提取各个画中画图像。
因此,希望提供一种能够适当地对包含在诸如由数码摄像机拍摄的图像之类的数字图像中的一个或多个对象图像进行处理的图像处理装置、图像处理方法和计算机程序。
此外,还希望提供一种能够在将一个或多个画中画图像从背景中分离出来之后对包含在数字图像中的所述一个或多个画中画图像执行提取处理的图像处理装置、图像处理方法和计算机程序。
此外,还希望提供一种能够从复杂的背景图像中精确地提取包含在数字图像中的诸如照片、名片和/或图书封面之类的各种画中画信息的图像处理装置、图像处理方法和计算机程序。
本发明是在考虑到以上情形的情况下而提出的。在本发明的一个实施例中,提供了一种用于提取包含在图像中的画中画信息的图像处理装置,其包括用于将输入图像分割为多个区域的图像分割装置,以及用于基于分割所得的区域的轮廓来提取包含画中画信息的画中画区域的区域提取装置。
所述的图像处理装置还可以包括用于从由所述的区域提取装置提取的画中画区域中检测四边形的四边形检测装置,以及用于对检测所得的四边形区域进行逆射影变换以使得该区域看起来像是正视图,并对其纵横比进行调整的图像转换装置。
通过从由数码相机拍摄的照片图像中提取画中画区域,所提取的图像对象以及诸如包含在该图像中的诸如文本之类的文本信息被识别,藉此可以提供各种服务。
但是,在使用通过对源图像进行微分处理而获得的勾边图像来提取用于与背景图像分离的画中画的轮廓的相关技术的方法中,假定了画中画和背景之间存在绝对对比度。如果勾边信息包含在背景或者画中画自身中,则将很难精确地提取轮廓。例如,很难提取置于有图案的地毯上的照片。也很难从包含多个画中画的数字图像中逐一地提取独立的画中画。
相反,在根据本实施例的图像处理装置中,图像分割装置以关联图的形式来处理输入图像。所述的关联图通过以下方式来描述图像信息:将诸如像素或者由一群像素形成的多边形之类的图像组成单元视为节点,并利用边来连接相邻节点。此外,基于由边来连接的各个节点的属性值之间的比较结果来向所述边赋给权重因子,并且基于这些边的权重来对关联图中的边进行排序。然后,按边的排序顺序来提取其间夹有边的节点对,并且基于统计处理算法来对节点对是否应当被合并进行评估,并对节点执行合并处理。通过重复这样的合并处理,输入图像被分割为多个图像区域。
换句话说,图像分割装置基于统计处理算法来对相邻节点是否应被合并进行判断,并通过重复节点的合并,节点能够从由多个每个都无法辨认的大量节点形成的原始数据成长为小且可辨认的称作片区(segment)的单元。在这里使用的统计处理算法中,基于从在例如各个节点具有的属性信息中的集中不均衡(concentration inequality)现象中推导出来的条件判断式(predicate)来判断相邻节点是否类似,即,相邻节点能否被合并。
由于基于以上所提到的统计处理算法来对节点进行的合并处理涉及例如对各个节点的属性信息进行统计处理的简单计算,因此能够实现高速处理。例如,使用诸如个人计算机之类的一般计算机器每秒能够处理数百万个多边形。此外,通过调整在所述的条件判断式中的参数值,可以任意地设置用于合并节点的标准,以产生具有期望的粗度(coarseness)的片区,因此系统具有可扩缩性(scalability)。
因此,根据本实施例,通过使用形成原始数据的多个节点的拓扑来作为输入值,节点被根据统计处理算法来递归地合并(即,合并处理(mesh-grown)),由此能够产生具有任意粗度的片区。此外,通过基于统计处理算法来改变条件判断式的参数值,输入图像能够被分割以使得每一个片区具有针对提取包含在数字图像中的画中画区域或者针对从背景区域中分离出包括画中画在内的前景区域而进行了优化的粗度。
应当注意,如果画中画具有复杂的纹理,或者画中画被置于其上的背景具有纹理,则各个画中画也会被分割以致失去其完整的个体,或者背景也会被分割以致不能与画中画区域相区分。因此,图像分割装置可能操作得不令人满意。
在本发明的一个实施例中,图像分割装置以两步的方式执行用于从源图像输出包括独立的画中画的前景区域的第一图像分割处理,以及用于从所述的源图像输出除画中画之外的背景区域的第二图像分割处理,由此提高图像分割的精确度。
所述的图像处理装置还包括用于对输入图像进行微分处理的微分处理装置。关联图创建装置仅向从微分处理装置输出的经微分的图像中的其频带小于预定值的像素(或者与画中画区域或纹理区域的轮廓不相对应的像素)指定用于与另一个像素相连接的边,以创建部分关联图。没有边则相邻像素无法被合并,从而图像分割在这样的听任相邻像素相分离的情况下继续进行。
因此,合并处理装置能够合并边界上的节点以将背景合并成单个区域。结果,图像处理装置能够输出包括画中画的前景图像区域,并输出画中画被置于其上的背景图像区域,以输出前景图像和背景图像中的每一个。
此外,在图像分割装置已经执行图像分割处理之后,在分割所得的区域中可能还包括其它小区域。但是,包含在另一个区域中的小区域基本上是包含在画中画信息中的个别内容,因此,仅需要考虑由最外面的轮廓限定的区域。因此,区域提取装置丢弃那样的小区域。
此外,在本发明的另一个实施例中,提供了以计算机可读的形式来描述的用于在计算机上执行的用于提取包含在图像中的画中画信息的计算机程序。所述的计算机程序使得计算机执行:
用于将输入图像分割为多个区域的图像分割处理;
用于基于分割所得的区域的轮廓来提取包含所述的画中画信息的画中画区域的区域提取处理;
用于从在所述的区域提取过程中提取的画中画区域中检测四边形的四边形检测处理;以及
用于对检测所得的四边形区域进行逆射影变换以使得该区域看起来像是从正面观看的图像,并对其纵横比进行调整的图像转换处理。
根据本实施例的计算机程序是通过对以计算机可读的形式来描述的计算机程序进行限定以使得预定的处理被在计算机系统上执行而获得的。换句话说,当根据本实施例的计算机程序被安装到计算机系统中时,协作操作被在计算机系统上执行,由此能够获得与由根据上述实施例的图像处理装置提供的优点相类似的优点。
根据本发明的实施例,可以提供一种能够执行从背景图像中提取包含在数字图像中的一个或多个画中画的处理的图像处理装置、图像处理方法和计算机程序。
此外,根据本发明的实施例,提供了一种能够从复杂的背景图像中精确地提取包含在数字图像中的诸如照片、名片和/或图示封面之类的各种画中画的图像处理装置、图像处理方法和计算机程序。
从基于随后描述的本发明的实施例和附图的更多详细描述中,本发明的其它目标、特征和优点将变得很清楚。
附图说明
图1A是示出了包含多个画中画图像的数字图像的示例的视图;
图1B是示出了包含在图1A所示的数字图像中的各个画中画图像被提取出来的情况的视图;
图2是示意性地示出了图像处理功能的配置的框图;
图3是示出了如何从通过对数字图像进行图像分割而获得的图像中识别矩形区域然后重新映射各个名片的视图,所述的数字图像是通过拍摄多个名片的照片而获得的;
图4A是示出了在图像拍摄模式下形成的数字图像如何被显示的示例的视图;
图4B是示出了在画中画显示模式下形成的数字图像如何被显示的示例的视图;
图5A是示出了通过拍摄分散在地毯上的多本图书的照片而形成的数字图像的视图;
图5B是示出了从图5A所示的数字图像中提取的画中画图像的视图;
图5C是示出了基于包含在图5B所示的画中画图像中的字符串信息来进行的信息搜索的结果的视图;
图6是示出了如何将所提取的四边形区域以封套的纵横比来重新映射到矩形区域的视图;
图7是示出了图像分割单元11的内部配置的视图;
图8是示出了最简单的关联图的示例的视图;
图9是示出了有点复杂的关联图的配置示例的视图;
图10是用于说明边评估处理方法的视图;
图11是示出了在图像分割单元11中执行的网格分割处理的过程的流程图;
图12是当图像区域的合并被抑制时所获得的图像分割结果的视图;
图13是示出了当图像区域的合并受到促进时所获得的图像分割结果的视图;
图14是示出了在对由复杂的符号形成的照片进行图像分割中的失败情形的视图;
图15是示出了两步图像分割的概括过程的流程图;
图16A是示出了背景被分割为若干区域的情况的视图;
图16B是示出了图16A所示的背景被合并为单个区域的情况的视图;
图17A是示出了通过对置于诸如地毯之类的具有纹理的背景上的四个明信片进行成像而获得的源图像的视图;
图17B是示出了通过对图17A所示的源图像进行微分滤波而获得的勾边彩色图像的视图;
图17C是示出了通过对利用图17B所示的勾边彩色图像来创建的部分关联图进行图像分割而获得的结果的视图;
图17D是示出了通过进一步对图17C所示的图像中的小区域进行合并而获得的结果的视图;
图17E是示出了通过对图17D所示的图像边界上的若干区域进行合并而获得的结果的视图;
图17F是示出了通过从图17D所示的图像中输出诸如画中画之类的前景图像区域而获得的结果的视图;
图17G是示出了通过从图17D所示的图像中输出背景图像区域而获得的结果的视图;
图18是示出了在作为画中画的名片的最外面的轮廓内包含有小区域的情况的视图,所述的小区域是由围绕在打印在该名片上的标志周围的轮廓形成的;
图19A是用于说明使用满水填充算法(flood fill algorithm)来进行区域提取处理的过程的视图;
图19B是用于说明使用所述的满水填充算法来进行所述的区域提取处理的过程的视图;
图19C是用于说明使用所述的满水填充算法来进行所述的区域提取处理的过程的视图;
图20A是用于说明查找四边形区域的过程的视图;
图20B是用于说明查找四边形区域的过程的视图;
图21是用于说明对最外面的轮廓是否为四边形进行判断的过程的视图;
图22是用于说明对最外面的轮廓是否为四边形进行判断的过程的视图;
图23是示出了经合成的图像如何被反向映射为源图像的视图;以及
图24是示出了根据本发明的一个实施例的数码相机的配置的视图。
具体实施方式
以下将参考附图来详细描述本发明的实施例。
在图像处理领域中,典型的操作是以描述了相邻节点之间的连接关系的关联图(incidence graph)  (或区域邻接图(RAG))的形式来表示由节点形成的图像数据(或者由一群像素形成的多边形网格),所述的节点中的每一个为一个像素。本实施例被配置用于以由多个节点和用于连接节点的边形成的关联图的形式描述数字图像,并通过重复地合并由相应边连接的节点来进行对原始数字图像的图像分割,以最终将包含在数字图像中的诸如明信片、名片和/或图书封面之类的画中画的图像区域从背景图像中分离出来。例如,根据本发明的一个实施例,如果源数字图像是包括4幅画中画的8MB的图像数据(如图1A所示),则通过分离可以将每一个的大小约为1MB的4个图像数据项目从背景中提取出来(如图1B所示)。
在根据本发明的一个实施例的图像处理方法中,其被配置用于使用以关联图的形式来描述的图像数据来识别包含在数字图像中的每一幅画中画,然后逐渐地将每一幅画中画限定为一个图像区域以生成图片。此外,对包含在源数字图像中的四边形进行射影变换,以将其转换为适当的矩形区域。为了从有图案的背景图像中精确地提取各个图片,系统必须是鲁棒的(robust)并且是能够进行高速处理的。
当将本发明的实施例应用到例如数码摄像机时,该数码摄像机能够对诸如包括纸质文件和名片在内的文件或者在演讲或会议中写在黑板或白板上的信息或者通过投影仪投影到屏幕上的信息之类的画中画信息进行成像,随后提取包含在拍摄得到的照片图像中的画中画。图24示出了根据本发明的一个实施例的数码相机的配置。
图示的数码相机200包括成像器件211、预处理单元212和相机/数字信号处理器(DSP)单元216。
成像器件211具有二维排列的像素,每一个像素具有诸如CCD或CMOS之类的光电转换效果,并且例如RGB彩色编码单板被置于光接收侧。与通过各个相应滤色片的入射光量相对应的信号电荷被存储在各个像素中,并且根据在从像素中读取的各个色彩信号中的电荷量,可以再现在该像素位置处的入射光的颜色。
预处理单元212具有CDS/AGC/ADC模块213、定时发生器214和V驱动器215。
CDS/AGC/ADC模块213执行相关双采样(CDS)以高精度地抑制从成像器件211接收的像素信号中的小噪声,然后将所得到的信号转换为数字信号,并进一步地执行AGC(自动增益控制)用于正确的增益控制。
定时发生器214生成用于驱动成像器件211的定时脉冲信号。V驱动器215根据该定时脉冲信号来输出驱动信号,该驱动信号用于在垂直方向上每次一行地输出存储在成像器件211的各个像素中的电荷。
相机DSP单元216具有相机信号处理部分217、分辨率转换部分218、图像编解码处理部分219、存储器控制部分220、显示控制部分221和介质控制部分222。
相机信号处理部分217通过AWB(Auto White Balance,自动白平衡)来对从预处理单元212提供给其的图像信号执行白平衡增益控制,以再现正确的色彩状态,并通过去马赛克处理来进一步产生RGB图像信号。此外,相机信号处理部分217对RGB图像信号执行γ校正,并将图像信息转换为适合于输出到监视器、打印或者图像记录的色调(tone)。
分辨率转换部分218改变图像大小。图像编解码处理部分219执行RGB图像信号的色彩空间转换以将其转换为亮度信号和色差信号(Y/Cr/Cb),此外还执行诸如JPEG(联合图像专家组)压缩之类的编码。
存储器控制部分220控制用于从存储器件224读出和写入诸如拍摄得到的图像信息之类的数据的存取操作,存储器件224例如是SDRAM(同步DRAM)。
显示控制部分221控制诸如LCD(液晶显示器)之类的监视显示器225的驱动,并输出保存在例如存储器件224中的照片图像以用于显示。
介质控制部分222具有用于插入诸如memory stick(注册商标)之类的可分离记录介质226的插槽,并向/从记录介质226写入/读取数据。例如,其将保存在存储器件224中的照片图像文件记录到记录介质226上。
此外,相机DSP单元216还通过其间的总线接口单元(BIU)223与控制单元227相连。控制单元227包括操作部分228、CPU229、RAM230和EEPROM(电可擦除可编程ROM)231,其中,用户通过操作部分228来指示快门按钮操作、缩放(zooming)和其它相机工作;CPU229响应于用户操作来从总体上控制整个装置的操作;RAM230是CPU229的主存储器;EEPROM231以非易失性的方式来保存程序代码、装置信息等。
图2示意性地示出了结合到图1所示的数码摄像机中的用于从数字图像中提取画中画区域的图像处理功能的配置。如图所示的形成图像处理功能的各个模块实际上是通过在CPU上运行的预定程序代码来实现的。
如图所示的图像处理功能可以被设计为专用硬件器件,不过也可以被实现为并入到数码摄像机200中的应用程序。或者,其可以被按启动如下所述的应用程序的形式来实现:该应用程序在从数码摄像机获取照片图像的诸如个人计算机(PC)之类的典型计算系统上执行对应于各个功能模块11-14的处理。典型的计算系统例如使用美国英特尔公司的Pentium(注册商标)IV(1.6GHz)作为其处理器,并且具有例如1GB RAM的主存储器。此外,可以通过利用例如由Open GL提供的API(应用编程接口)采用C++编程语言来编写应用程序的代码。
如图所示的图像处理功能具有使用关联图来对图像区域执行分割处理的图像分割单元11、从外部轮廓提取区域的区域提取单元12、从分割得到的图像中查找形成画中画的四边形的四边形查找单元13以及对各个四边形的原始纵横比(original aspect ratio)进行估计的纵横比推测单元14,并且该图像处理功能根据推测所得的纵横比来将所述的四边形重新指定为矩形区域,以输出一幅或多幅图片(画中画)。
图3示出了如何从通过对成像有多个名片的数字图像进行分割而获得的图像中识别矩形区域,然后重新映射各个名片图像。这种应用可以是OCR(光字符识别技术)的一种代替技术。
例如,如果将这种技术并入数码摄像机,则在正常成像模式下,如图4A所示,在取景器中显示了分散有多个名片的实际图像。同时,在picsinpic(画中画显示)模式下,整齐地排列了通过以预定的纵横比来重新指定识别得到的各个名片而获得的图像。
此外,根据图2所示的图像处理功能,除了名片之外,图书封面也可以作为画中画而被处理。如图5A所示,使用关联图来对成像有分散在地毯上的多本图书的数字图像区域进行分割,以通过其外部轮廓来提取各本图书的区域(如图5B所示)。此外,如图5C所示,诸如计算机之类的联网信息设备获得所提取的各个区域的图像,由此图书封面图像被字符识别以读取其书名或者诸如其ISBN(国际标准图书编号)之类的字符串信息用于数据库搜索。此外,基于数据库搜索的结果,可以实现与诸如在线购买图书、在博客上讨论、其它附加信息的提供等的其它服务应用的链接。
此外,如果根据针对包括在从分散有各种画中画的数字图像中提取的四边形中的字符串信息而做出的数据库搜索的结果,发现相应的画中画是诸如CD或DVD之类的介质的封套,则可以按该封套的纵横比来将所提取的四边形重新映射为矩形区域(如图6所示)。
以下将非常详细地描述形成图2所示的图像处理功能的各个单元11到14。
图像分割
图7示出了图像分割单元11的内部配置。该图所示的图像分割单元11具有图像信息编辑部分111、关联图评估部分112、图像区域合并处理(mesh-growing)部分113和小区域合并部分114,其中,图像信息编辑部分111将用于处理的三维图像信息编辑成关联图的形式;关联图评估部分112对所输入的关联图的各条边进行评估以进行排序;图像区域合并处理部分113按边的排序顺序来提取图像区域对,用于基于统计处理算法来评估,以对其执行合并处理,所述的图像区域对的每一个都由夹有边的图像区域组成;小区域合并部分114对在图像区域被合并处理之后剩余的小区域进行合并。
在图像处理领域,典型的是将多边形网格 表示为具有关联图(或者区域邻接图(RAG))的形式的图像区域,所述的关联图描述了形成该多边形网格的多个多边形之间的关系。存在几种用于描述关联图的具体方法。关联图由多个节点和边构成,每一条边连接在相应节点之间。将什么用于节点和边取决于各种情况。例如,如果使用多边形作为节点,则该多边形的边或顶点可以成为边。如果使用多边形的边作为节点,则该多边形的顶点或该多边形可以成为边。如果使用多边形的顶点作为节点,则该多边形的边或该多边形可以成为边。
在本实施例中,使用多边形作为节点、而使用该多边形的边作为边来形成关联图。即,图像信息编辑部分111使用如下所述的一种关联图来作为其输入数据,该关联图是通过使用形成多边形网格的多边形作为节点,并通过边来连接相应节点来描述的,所述边是相邻多边形彼此相接的边。
这里将描述创建关联图的方法。
首先,属于用于处理的图像区域的多边形Ti、Tj被与节点Ni、Nj相关联。并且在节点Ni和Nj之间,如果仅存在一条属于分别对应于两个节点的多边形Ti和Tj的边,则该边被生成为连接在两个节点之间的边eij
通过根据多边形的边的端点来对多边形进行排序,可以从顶点和表面的索引数组中直接建立关联图。边(即,属于各个多边形的边)被分类为边界边和内部边,其中,边界边划分了多边形网格(即图像区域)的界线,而内部边中的每一条都并不与多边形网格相接而是与多边形网格内的相邻多边形相接。因为图像区域的边界边仅属于一个多边形,所以将只对内部边(除了边界之外的)进行处理。仅仅顶点和表面的索引数组就足够该处理之用了,因此不需要诸如半边(half-edge)和四方边(quad-edge)之类的复杂的关联数据结构。
图8示出了最简单的关联图的示例。示出在该图的左侧的多边形网格由两个三角形Ti和Tj组成,Ti和Tj交接在一条边(即其间的边eij)上。描述这种多边形网格的关联图由分别与三角形Ti和Tj相对应的节点Ni和Nj以及连接两个节点的边eij组成,如图右侧所示。
此外,图9示出了有点复杂的关联图的示例。示出在该图的左侧的多边形网格由七个三角形T1到T7组成,其中,T1邻接T2,T2邻接T1、T3和T4,T3邻接T2和T6,T4邻接T2和T5,T5邻接T4和T6,并且T6邻接T3、T5和T7。通过利用边线(即,属于相邻三角形的边)来连接在分别与那些三角形相对应的节点之间,形成了描述了这种多边形网格的关联图,如图右侧所示。
注意,节点起初是作为二维图像中的多边形网格的最小单元的像素或多边形的,或者对于三维图像来说,三维像素(voxel)成为节点。随着对图像的合并处理的进行,节点变为由包括多个多边形(或者像素或三维像素)的多边形网格来形成的图像区域。在图2所示的图像处理过程中,为每一个节点Ni保存了“节点统计信息”。节点统计信息包括用于唯一地标识节点的标识信息id(Ni)、关联图像区域(起初是单个多边形)的面积area(Ni)和作为形成该关联图像区域(即,多边形网格)的多边形的数目的多边形数n(Ni)  (初始值设为1)。为每一个节点保存面积和多边形数的原因在于:它们是对使用基于统计处理算法的条件判断式来判断节点(即,关联图像区域)是否被成功合并而言必要的信息。
关联图评估部分112对所输入的关联图的每一条边进行评估以进行排序。具体而言,边的评估涉及对通过某条边连接的各个图像区域的属性值进行比较,以基于比较结果来给予该边权重,然后基于关联图中边的权重值来对关联图中的边进行排序。这里所使用的图像区域包括作为最小单元的多边形,以及被配置为通过合并多个多边形而得到的多边形网格的图像区域。
通过使用例如图像区域的面积(被合并为图像区域的所有多边形的面积的平均值)作为属性值,来给出通过各条边来连接的图像区域的面积之间的差作为权重值,以用于按权重增大的顺序来进行排序。在这种情况下,图像区域的面积之间的差越小,则权重值越小,并且随后的图像合并处理的处理优先级将越高。
图10示出了一种边评估处理方法。这里,考虑了邻接在边eij上的两个三角形Ti和Tj。如图的右侧所示,它们的关联图由分别与三角形Ti和Tj相对应的两个节点Ni和Nj以及连接两个节点的边eij构成。这里,假设定义了用于得到多边形P的面积的函数area(P),则通过以下公式来计算边eij的权重值W(eij)。
[数1]
W(e)=|area(T1)-area(T2)|  ...(1)
除了形成图像区域的多边形的面积之外,还可以使用相邻顶点的各种属性值中的任意属性值之间的差来给出边的权重,所述的属性值包括法线(normal line)的方向和诸如色彩(RGB分量中的至少一个分量的平均色彩)之类的像素属性信息(假设多边形网格具有纹理)。
例如,在宽为w高为h的RGB彩色图像中,令在i行j列的像素的节点为Vi,j且其标识信息为RegID(Vi,j)=i×w+j。其内部的每个像素都具有四个相邻节点,并且边的总数m等于2wh-w-h。并且节点Vi,j和节点Vi′,j′之间的权重可以例如由以下公式来表示。
[数2]
w(E=(Vi,j,Vi′,j′))=maxc∈{R,G,B}(|Ic(i,j)-Ic(i′,j′)|)...(2)
图像区域合并处理部分113按边的排序顺序来提取夹有边的图像区域对,以执行合并处理(mesh growing)。由于边被赋予了作为通过边来连接的图像区域之间的相似性指标的权重,所以按权重的增加顺序来执行合并处理就相当于优先在相似图像区域之间执行合并处理。
图像区域合并处理部分113基于统计处理算法来判断按边的排序顺序来提取的通过一条边来连接的各个图像区域对是否应当被合并。具体地,如果基于如以上的公式(1)所示的面积信息来计算边的权重,则当通过一条边来连接的两个图像区域Rk和R1满足基于以下的统计算法的条件判断式时,对是否应当合并图像区域Rk和R1进行判断。在以下的公式中,假定图像区域Rk具有面积Sk且由nk个多边形构成,并假定图像区域R1具有面积S1且由n1个多边形构成。还假定A是多边形面积中的最大的一个面积,而Q是用于控制分割粗度的参数。
[数3]
| S k n k - S l n l | ≤ A 2 ( n k log n k + n l log n l ) Q ( 1 n k + 1 n l ) . . . ( 3 )
以上的条件判断式(3)表示在形成图像区域的多边形的面积中出现的现象。该条件判断式是根据统计的集中不均衡(statistical concentrationinequality)而推导出来的。这种现象作为统计学领域中的中心极限定理是很普遍的(即使当母体呈随机分布时,如果增加母体中的样本的多少,则样本的平均分布也会收敛为正态分布)。
在以上公式的右侧的“Q”是用于控制分割粗度的参数。较大的Q减小了右侧的值,以使得难以满足该条件判断式,由此抑制图像区域的合并。反过来,较小的Q增大了右侧的值,从而容易满足该条件判断式,由此促进图像区域的合并以获得较粗的网格分割结果。
可替换地,如果基于如以上的公式(2)所示的RGB色彩信息来计算边的权重,则当通过该边连接的相邻节点Vi,j和节点Vi′,j′满足以下基于统计算法的条件判断式时,对是否应当合并所述节点进行判断。
[数4]
max c ∈ { R , G , B } ( I ‾ c ( i , j ) - I ‾ c ( i ′ , j ′ ) ) ≤ b ( n i , j ) + b ( n i ′ , j ′ ) . . . ( 4 )
不过,在以上的公式中,函数b(x)如以下所示。在下式中,ni,j和ni′,j′是包含在相应节点中的像素数。此外,Q是用于控制分段粗度的参数。
[数5]
b ( x ) = 256 2 2 Qx ( min ( 256 , x ) log x + 2 log 6 wh ) . . . ( 5 )
节点起初是作为形成数字图像的多边形网格的最小单元的像素或多边形。但是,随着图像区域合并处理的进行,节点变为由包括多个多边形的多边形网格来形成的图像区域。节点统计信息具有各个节点Ni的用于保存标识信息id(Ni)、所关联的图像区域(起初是单个多边形)的面积area(Ni)、作为形成所关联的图像区域(即,多边形网格)的多边形的数目的多边形数n(Ni)(初始值设为1)等的记录。并且,当节点彼此合并时,图像区域合并处理部分113给予新的id用于标识新的节点,随后对通过合并而新产生的图像区域的面积和多边形数进行计算,以更新节点统计信息。为了产生新的标识信息,可以使用并查(Union-Find)算法。对于并查算法,例如参考T.H.Cormen,C.E.Leiserson,R.L.Rivest,“Data Structuresfor Disjoint Sets”(Introduction to Algorighms,第22章第440-461页)。
小区域合并部分114合并作为对图像区域执行的合并处理的结果而剩余的任何小区域。例如,不管是否满足条件判断式,都将在大图像区域之间或者在大图像区域内的留下未合并的小多边形网格与其任意相邻图像区域合并起来,使所得到的图像区域看起来更好。这里所使用的小区域例如指的是其面积小于整个网格表面的几个百分点的多边形网格。
图11按流程图的形式示出了由图像分割单元11所执行的网格分割处理的过程的示例。
首先,图像信息编辑部分111对用于处理的三维物体的图像信息进行编辑(步骤S1)。在本实施例中,以关联图的形式来描述图像信息,在所述的关联图中,使用多边形作节点,并且使用多边形的边线作为边(参考之前的描述和图3)。
图像信息编辑部分111对所输入的关联图进行扫描以给予各个节点Ni其标识信息id(Ni),此外还得到相应多边形的面积,以在节点统计信息中记录(初始化)各个节点的标识信息、面积和多边形数(初始值设为1)。以下示出了用于初始化节点统计信息的伪程序代码,其中id()是用于存储由自变量表示的节点的标识信息的数组,area()是用于存储具有由所述的自变量表示的标识信息的节点的面积的数组,而n()是用于存储形成由所述的自变量表示的标识信息的节点的多边形数的数组。
[数6]
id(Ni)=i
area(i)=area(Ti)...(6)
n(i)=1
对于作为i节点从关联图提取的节点Ni,i被代入标识信息id(Ni),多边形的面积area(Ti)被代入节点Ni的面积area(i),并且初始值1被代入多边形数n(i)。
接下来,关联图评估部分112对在所输入的关联图中的各个边进行评估以进行排序(步骤S2)。具体地,通过边来连接的图像区域的面积之间的差被给出作为该边的权重,并且图像区域被按权重增大的顺序来排序。图像区域的面积之间的差越小,则权重值也越小,并且在随后的图像合并处理中的处理优先级越高。
随后,参数设置部分115对用于控制分割粗度的参数Q进行设置(步骤S3)。
图像区域合并处理部分113按边的排序顺序来提取夹有边的图像区域对(步骤S4)。并且基于这些图像区域是否满足基于统计算法的条件判断式来执行合并处理(步骤S5)。这里所使用的条件判断式是根据统计集中不均衡推导出来的条件判断式,所述的统计集中不均衡是在形成图像区域的多边形的面积中出现的现象(之前提到过)。在所述条件判断式中使用了步骤S3中设置的参数Q。
节点统计信息具有各个节点Ni的用于保存标识信息id(Ni)、所关联的图像区域(起初是单个多边形)的面积area(Ni)、作为形成所关联的图像区域(即,多边形网格)的多边形的数目的多边形数n(Ni)(初始值设为1)等的记录(之前提到过)。当图像区域被合并为新节点时,图像区域合并处理部分113给予新的id用于标识该新节点,随后对通过合并而新产生的图像区域的面积和多边形数进行计算,以更新节点统计信息的处理(步骤S6)。
以下示出了用于合并图像区域并在其后更新节点统计信息的伪程序代码,其中,Merge()是用于对由自变量表示的各个图像区域进行合并及处理的函数。
[数7]
Merge(Ni,Nj)
id′(Ni)=id′(Nj)
area(id′(Ni))=area(id(Ni))+area(id(Nj))
n(id′(Ni))=n(id(Ni))+n(id(Nj))
id(Ni)←id′(Ni)...(7)
id(Nj)←id′(Nj)
首先,对由Merge函数的自变量表示的节点Ni和Nj执行合并处理。随后,通过将相同的新标识信息id′(Ni)=i d′(Nj)赋给各个节点Ni和Nj,两个节点被合并,以指示新节点被产生。在本实施例中,关于Ni或Nj的旧标识信息被用作关于新节点的标识信息。在将标识信息赋给新节点的过程中,可以使用由Robert Endre Tarjan发明的并查算法(之前提到过)。
然后,各个源图像区域的面积之和area(id(Ni))+area(id(Nj))被代入到新节点的面积area(id′(Ni))中,并且各个源图像区域的多边形数之和n(id(Ni))+n(id(Nj))也被代入到新节点的多边形数n(id′(Ni))中。并且通过将新标识信息id′(Ni)和id′(Nj)分别赋给源节点Ni和Nj,节点统计信息的更新结束。
并且,当对关联图中的所有边的处理都完成时(步骤S4),小区域合并部分114对作为对图像区域所执行的合并处理的结果而剩余的任何小区域进行合并(步骤S7)。例如,不管是否满足条件判断式(3),都将在大图像区域之间或大图像区域内留下未合并的小多边形网格与任意的其相邻图像区域合并起来,使得合成的图像区域看起来更好。这里的小区域例如指的是其面积小于整个网格表面的几个百分点的多边形网格。
由于基于如上所述的统计处理算法的对图像区域的合并处理涉及统计地处理多边形的面积的简单计算,因此可以实现高速处理。例如,使用典型的计算系统(之前提到过)每秒可以处理数百万的多边形。此外,通过调整包含在条件判断式中的参数Q,可以随机地设置用于合并图像区域的标准以产生具有期望的粗度的多边形网格,因此,系统具有可扩缩性。
较大的Q减小了以上公式(3)的右侧的值,以使其难以满足条件判断式(3),由此图像区域的合并被抑制(参考图12)。反过来,较小的Q增大了以上的公式(3)的右侧的值,以使得容易满足所述条件判断式,由此图像区域的合并被促进,以获得较粗的网格分割结果(参考图13)。
因此,根据本实施例的图像分割方法,通过适当设置条件判断式(3)中的Q的值,分割能够被执行,通过所述的分割,包含在所拍摄的照片图像中的画中画区域和背景区域被彼此分离。例如,如图3和图5所示,通过图像分割,可以将包含在照片图像中的诸如名片、图书封面和/或CD/DVD标签之类的具有纹理区域的画中画对象从源图像中提取出来。
但是,如果画中画具有复杂的纹理,或者如果画中画被置于其上的背景具有纹理,则画中画区域也会被分割为失去其完整个体,或者背景也会被分割为无法与画中画区域区分。因此,难以通过分离仅提取期望的画中画区域。例如,当由复杂的符号形成的照片被图像分割时,区域并不是被提取为单个画中画,而是被进一步地分割为多个区域(如图14所示),那么图像分割就以失败告终。
在本实施例中,为了精确地处理由复杂的纹理形成的背景,其被配置为执行“两步分割”,其中,以两步的方式来执行用于从源图像输出包括各个画中画的前景区域的分割处理,以及用于从所述的源图像输出除画中画之外的背景区域的分割处理。此外,彩色勾边图像(color edge image)被用在两步分割中,所述的彩色勾边图像可以通过对源图像进行微分滤波(differential-filtering)而得到。
图15以流程图的形式示出了用于执行两步图像分割的概括处理过程。
首先,通过微分滤波来从源图像中获得彩色勾边图像(步骤S11)。
接下来,在创建了部分关联图之后执行图11所示的图像分割处理(步骤S12)。
如已经提到过的,在关联图的初始状态中,节点是在二维图像中的单独像素,并且任意相邻节点都通过边来连接。并且,使用基于统计处理算法的条件判断式来对赋给每一条边的权重进行判断,并且通过重复节点的合并,进行图像分割。在步骤S12,在经微分滤波的彩色勾边图像中,通过仅向其勾边彩色频带小于预定值(例如,不落在画中画区域或纹理区域的轮廓之下)的像素赋予用于与另一个像素连接的边,来创建部分关联图。没有边则无法合并相邻像素,从而图像分割在这样的听任相邻像素相分离的情况下进行。
当图像分割结束时,具有十个或更少个像素的小区域被与任意其周围区域合并(步骤S13)。
当在步骤S12和S13中的图像分割处理结束时,在用于处理的图像的边界上的区域中的一些区域被合并(步骤S14)。在这个处理步骤中,类似于图像的四角区域的每个都与边界相接的所有区域被合并。例如,即使作为图像分割处理的结果,背景被分割为几个区域(如图16A所示),在边界上的区域也被合并,由此背景被合并为单个区域(如图16B所示)。
然后,画中画的前景图像区域被输出(步骤S15),并且画中画被置于其上的背景图像区域也被输出(步骤S16)。
图17A到17G示出了对图像应用两步图像分割的具体示例。图17A所示的源图像是通过对置于具有纹理的背景(例如,地毯)上的四张明信片进行成像而获得的。
图17B示出了通过对该源图像进行微分滤波而获得的勾边彩色图像。从图中示出的示例可见,各个明信片的轮廓和影像被表示为勾边彩色图像上的高频带。
图17C示出了通过利用勾边彩色图像来创建部分关联图并随后对部分关联图执行图像分割而获得的结果。此外,图17D示出了通过进一步合并小区域而获得的结果。在部分关联图中,边仅被赋给未落在诸如画中画或者纹理之类的区域的轮廓下的像素。换句话说,即使通过重复根据统计处理算法的对节点的合并处理,区域也不会被跨过轮廓来合并(如图17D所示),因此,诸如画中画或者纹理之类的区域的轮廓被原封不动地放在那里。
图17E示出了通过合并用于处理的图像的边界上的区域而获得的结果。即使背景被分割为几个区域(如图17D所示),通过合并边界上的区域,背景也被合并为单个区域。
图17F示出了通过从图17D所示的图像输出诸如画中画之类的前景图像区域而获得的结果。此外,图17G示出了通过从图17D所示的图像输出背景图像区域而获得的结果。
提取区域
在已经执行图像分割处理之后,在任意分割得到的区域中都可能还包含其它小区域。在图18的示例中,在作为画中画的名片的最外面的轮廓内包含有一个小区域,该小区域由环绕打印在名片上的标志的轮廓来形成。但是,正如从图中清楚可见的,包含在另一个区域中的小区域基本上仅仅是包含在画中画信息中的个别内容,因此,仅需要考虑由最外面的轮廓来限定的区域。因此,在提取区域的过程中,这样的小区域被丢弃。
在从经图像分割的图像中提取区域的过程中,首先,沿着水平扫描线和垂直扫描线两者来扫描所述图像,以检测闭合轮廓。然后,通过对各个闭合轮廓应用满水填充算法来更新所述图像。在这之后,仅提取由最外面的轮廓形成的区域对象。
如果例如以上所提到的两步图像分割被将执行,则除了背景之外的所有区域都被提取,以创建一组期望的四边形。
然后,针对各个四边形来扫描图像,以应用满水填充算法。
图19A到19C示出了使用满水填充算法的区域提取处理的过程。这里,如图19A所示,在由最外面的轮廓(外部轮廓)限定的区域中包含了多个由小轮廓(内部轮廓)限定的区域。
如图19B所示,通过沿着水平扫描线和垂直扫描线来扫描图像,检测到由最外面的轮廓限定的区域。
这里,提取由最外面的轮廓限定的区域,随后对其应用满水填充算法,使得不会错误地提取由内部轮廓限定的区域(如图19C所示)。
注意,对于满水填充算法的详细描述,例如参考Frank Nielsen,“Visual Computing:Geometry,Graphics,and Vision”(Charles RiverMedia,ISBN:1-58450-427-7,2005年,第2章,第26页)。
查找四边形
当从最外面的轮廓检测到近乎四边形的区域时,如果该区域是从透视的角度来看的改变了的矩形(参考图20A),则执行图像转换,使得该图像变成从正面看的图像(参考图20B)。将所述的区域转换为正视图的原因在于人们一般倾向于使用两台相机、有源照明(投影仪或全息自动对焦功能)等来观看平面。
在提取最外面的轮廓的过程中,对轮廓是否为四边形进行判断。具体地,对于形成用于处理的轮廓的各个像素,它们的切线的倾角被计算以用于以5度为单位进行切割,由此来识别两个主倾角(方向)  (参考图21)。
根据其切线的倾角,在轮廓的边界上的像素被编为四组,随后对每个组执行直线回归(line regression)。然后,检测到作为四个半平面的相交区域的四边形(参考图22)。
可替换地,作为查找四边形的代替技术,Douglas-Peucker的线条简化算法(line simplification algorithm)可以被应用于提取形成最外面的轮廓的像素(闭合的C4曲线)。注意,针对这种线条简化算法的详细内容,例如参考http://geometryalgorithms.com/Archives/algorithm_0205/(2006年7月27日),John Hershberger和Jack Snoeyink,“Speeding Up theDouglas-Peucker Line-Simplification Algorithm”(Proc 5th Symp on DataHandling,134-143(1992))等。
在按这种方式来提取四边形之后,计算与原始线分割的Hausdorff 距离。如果该距离在预定值之内,则所提取的区域被接受作为四边形。
注意,Hausdorff距离是已知的用于使用距离尺度来对形状进行比较的技术。
推测纵横比
最后,逆射影变换(inverse projective transformation)被执行,使得检测得到的四边形变为正视图,并且其纵横比也被调整。
存在许多用于对矩形图像进行逆射影的技术,并且本发明的实施例的范围和精神并不限于任何具体技术。
当纵横比被给定时,可以仅考虑比例(scale)效果。
例如,基于公式a=(h1+h2)/(w1+w2)来计算纵横比的平均。此外,从预定的纵横比集合中找出最接近的一个。例如,对于A4大小的纸张、照片和明信片选择10∶15的纵横比,而对于名片则选择5.5∶9.1的纵横比(对于被旋转了90度的画中画,其纵横比为上述纵横比中的相应一个纵横比的倒数)。
以下将描述对矩形图像进行重新映射的过程。
选择尺度因子(dimensional factor)s,使得a×s2等于四边形内的像素数(其中a是纵横比)。或者,选择尺度因子使得经过了逆射影的两个点之间的距离在预定值内(例如,1.0或1.414)。
图像转换被称为“单应(homography)”或“同射变换(collineaction)”,并且由利用8个系数来确定的3×3齐次矩阵(homogeneous matrix)H来表示。
令四边形中的像素p被映射为像素p′,p′的比例被使用纵横比a来调整。如果p和p′是像p=(x,y,z),p′=(x′,y′,z′)这样的齐次坐标,则p′=Hp。如果它们不是齐次坐标,则p′=(x′/w′,y′/w′)。
如图23所示,经合成的图像被反向映射(backward-mapping)为源图像。经反向映射的像素P被表示为p=H-1p′。
注意,对于反向映射等的详细描述,建议参考例如Frank Nielsen,“Visual Computing:Geometry,Graphics,and Vision”(Charles River Media,ISBN:1-58450-427-7,2005年,第3章第127页,第4章第203页)。
以上参考具体实施例来非常详细地描述了本发明。然而,显而易见的是:在不脱离本发明的范围和精神的情况下,本领域技术人员能够对实施例进行修改和替换。
本发明的图像处理技术能够被结合到信息设备中,所述的信息设备例如是从数码摄像机获取照片图像以对那些图像进行处理的个人计算机、数码相机本身或者结合有数码摄像机的各种设备。
根据本发明的图像处理技术,通过与其它背景区域相分离,能够作为前景区域来输出包含在由数码摄像机等拍摄的照片图像中的诸如名片、明信片和/或图书封面之类的多个画中画。此外,可以对各个所提取的画中画图像执行逆射影变换,使得它们被从正面来成像,或者可以对它们的纵横比进行调整,用于将它们重构为接近原始画中画的图像对象。这些图像对象作为内容是可再利用的。另外,包含在画中画中的文本被字符识别,使得所获得的文本信息能够被用于存储或排列图像对象,并且还可以基于文本信息来搜索信息以及提供其它服务。
本发明是通过示例的方式公开的,因此不应当从限制性的角度理解本发明。为了判断本发明的范围和精神,应当将所附的权利要求考虑进去。
本文件包含涉及2006年8月29日在日本专利局提出的日本专利申请No.2006-232582的发明,该申请的全部内容通过引用结合于此。
本领域的技术人员应当了解,只要在所附的权利要求或其等同物的范围内,可根据设计要求和其它因素做出各种修改、组合、子组合和变化。

Claims (21)

1.一种用于提取包含在图像中的画中画信息的图像处理装置,其包括:
图像分割装置,用于将输入图像分割为多个区域;以及
区域提取装置,用于基于分割所得的区域的轮廓来提取包含画中画信息的画中画区域。
2.如权利要求1所述的图像处理装置,还包括:
四边形检测装置,用于从由所述的区域提取装置提取的画中画区域中检测四边形;以及
图像转换装置,用于对检测得到的四边形执行逆射影变换,从而获得从正面观看的图像,并对其纵横比进行调整。
3.如权利要求1所述的图像处理装置,其中
所述的图像分割装置包括:
关联图创建装置,用于根据由节点形成的输入图像来创建利用边来连接相邻节点的关联图,所述的节点是像素或者是由一群像素形成的多边形;
关联图评估装置,用于基于在由所述的边连接的各个节点的属性值之间的比较结果来向所述的边指定权重,并基于所述关联图中的边的权重来对所述的关联图中的边进行排序;以及
合并处理装置,用于按边的排序顺序来提取夹有边的节点对,并基于统计处理算法来评估所述节点对是否应当被合并,以合并所述节点,
其中,所述的输入图像被分割为多个图像区域,所述的多个图像区域分别由相应节点形成。
4.如权利要求3所述的图像处理装置,还包括:
小区域合并装置,用于对作为由所述的合并处理装置对所述的图像区域执行的合并处理的结果而留下的小区域进行合并。
5.如权利要求3所述的图像处理装置,其中
所述的关联图评估装置将所述的关联图中的边所连接的节点的属性值之间的差指定为所述边的权重,并且按权重增大的顺序来对所述的边进行排序。
6.如权利要求3所述的图像处理装置,其中
所述的合并处理装置基于从形成所述节点的图像区域的面积的集中不均衡现象中推导出来的条件判断式,来判断所述的关联图中的边所连接的节点是否应当被合并。
7.如权利要求3所述的图像处理装置,其中
所述的图像分割装置按两步的方式来执行用于从源图像输出包括独立的画中画的前景区域的第一图像分割处理,以及用于从所述的源图像输出除了所述的画中画之外的背景区域的第二图像分割处理。
8.如权利要求7所述的图像处理装置,还包括:
微分处理装置,用于对所述的输入图像执行微分处理,
其中,所述的关联图创建装置向从所述的微分处理装置输出的经微分的图像中的其频带小于预定值的像素指定用于与另一个像素相连接的边,以创建部分关联图,并且
所述的合并处理装置对边界上的或者与边界相接的节点进行合并,以将所述的背景合并为单个区域,从而输出包括所述的画中画的前景图像区域,并输出所述的画中画被置于其上的背景图像区域。
9.如权利要求1所述的图像处理装置,其中
所述的区域提取装置丢弃包含在另一个区域中的小区域,并提取由最外面的轮廓形成的区域。
10.一种用于提取包含在图像中的画中画信息的图像处理方法,其包括:
图像分割步骤,按区域分割输入图像;以及
区域提取步骤,基于分割所得的区域的轮廓来提取包含所述的画中画信息的画中画区域。
11.如权利要求10所述的图像处理方法,还包括:
四边形检测步骤,从在所述的区域提取步骤中提取得到的画中画区域中检测四边形;以及
图像变换步骤,将检测所得的四边形逆射影变换为从正面观看的图像并调整其纵横比。
12.如权利要求10所述的图像处理方法,其中
所述的图像分割步骤包括:
关联图创建步骤,根据由节点形成的输入图像来创建通过边来连接相邻节点的关联图,所述的节点是像素或者是由一群像素形成的多边形;
关联图评估步骤,基于在通过所述边连接的各个节点的属性值之间的比较结果来向所述边赋给权重,并基于相应的权重对所述的关联图中的边进行排序;以及
合并处理步骤,按边的排序顺序来提取夹有边的节点对,并基于统计处理算法来评估所述节点对是否应当被合并,从而对所述节点进行合并处理,
其中,所述的输入图像被分割为多个由个体节点形成的图像区域。
13.如权利要求12所述的图像处理方法,还包括:
对作为在所述的合并处理步骤中对所述的图像区域执行的合并处理的结果而留下的小区域进行合并的小区域合并步骤。
14.如权利要求12所述的图像处理方法,其中
所述的关联图评估步骤给出通过所述的关联图中的边来连接的各个节点的属性值之间的差作为所述边的权重,并按权重增大的顺序来对所述的边进行排序。
15.如权利要求12所述的图像处理方法,其中
所述的图像区域合并处理步骤基于从形成所述节点的图像区域的面积的集中不均衡现象中推导出来的条件判断式,来判断通过所述的关联图中的边来连接的节点是否应当被合并。
16.如权利要求12所述的图像处理方法,其中
所述的图像分割步骤按两步的方式来执行用于从源图像输出包括独立的画中画的前景区域的第一图像分割处理,以及用于从所述的源图像输出除了所述的画中画之外的背景区域的第二图像分割处理。
17.如权利要求16所述的图像处理方法,还包括:
微分处理步骤,对所述的输入图像进行微分处理,
其中,所述的关联图创建步骤仅向在所述的微分处理步骤中获得的经微分的图像中的其频带小于预定值的像素赋给用于与另一个节点相连接的边,以创建部分关联图,并且
所述的合并处理步骤对边界上的节点进行合并,以将所述的背景合并为单个区域,从而输出包括所述的画中画的前景图像区域,并输出所述的画中画被置于其上的背景图像区域。
18.如权利要求10所述的图像处理方法,其中
所述的区域提取步骤丢弃包含在另一个区域中的小区域,并仅提取由最外面的轮廓形成的区域。
19.一种以计算机可读的形式来描述的计算机程序,用于在计算机上执行提取包含在图像中的画中画信息的处理,所述的计算机程序使得所述的计算机执行:
用于将输入图像分割为多个区域的图像分割处理;
用于基于分割所得的区域的轮廓来提取包含所述的画中画信息的画中画区域的区域提取处理;
用于从在所述的区域提取过程中提取的画中画区域中检测四边形的四边形检测处理;以及
用于将检测所得的四边形逆射影变换为从正面观看的图像,并调整其纵横比的图像转换处理。
20.一种用于提取包含在图像中的画中画信息的图像处理装置,其包括:
将输入图像分割为多个区域的图像分割单元;以及
基于分割所得的区域的轮廓来提取包含所述的画中画信息的画中画区域的区域提取单元。
21.一种用于提取包含在图像中的画中画信息的图像处理方法,其包括:
按区域分割输入图像;以及
基于分割所得的区域的轮廓来提取包含所述的画中画信息的画中画区域。
CN200710142586A 2006-08-29 2007-08-29 图像处理装置、图像处理方法和计算机程序 Expired - Fee Related CN100591100C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006232582 2006-08-29
JP2006232582A JP2008059081A (ja) 2006-08-29 2006-08-29 画像処理装置及び画像処理方法、並びにコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
CN101137011A true CN101137011A (zh) 2008-03-05
CN100591100C CN100591100C (zh) 2010-02-17

Family

ID=39151600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200710142586A Expired - Fee Related CN100591100C (zh) 2006-08-29 2007-08-29 图像处理装置、图像处理方法和计算机程序

Country Status (3)

Country Link
US (1) US7986831B2 (zh)
JP (1) JP2008059081A (zh)
CN (1) CN100591100C (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102456213A (zh) * 2010-10-20 2012-05-16 上海无戒空间信息技术有限公司 照片处理方法
CN102743181A (zh) * 2011-03-09 2012-10-24 佳能株式会社 图像处理装置及图像处理方法
CN102870135A (zh) * 2010-06-29 2013-01-09 富士胶片株式会社 用于形状提取的方法和装置、尺寸测量装置和距离测量装置
CN102881027A (zh) * 2012-07-26 2013-01-16 方正国际软件有限公司 一种图像中确定区域四边形的检测方法及系统
CN102915530A (zh) * 2011-08-01 2013-02-06 佳能株式会社 用于分割输入图像的方法和装置
CN102970456A (zh) * 2009-06-02 2013-03-13 佳能株式会社 图像形成方法及图像形成装置
CN104169972A (zh) * 2012-03-14 2014-11-26 欧姆龙株式会社 区域指定方法和区域指定装置
WO2015018337A1 (zh) * 2013-08-06 2015-02-12 上海合合信息科技发展有限公司 在图像中线段吸附的方法及装置,构造多边形的方法及装置
CN104902121A (zh) * 2014-03-06 2015-09-09 株式会社Pfu 图像读取装置和图像处理方法
CN105741308A (zh) * 2016-03-07 2016-07-06 英华达(上海)科技有限公司 一种多维视觉图像的获取方法及系统
CN105979234A (zh) * 2016-06-13 2016-09-28 Tcl集团股份有限公司 一种投影图像校正的方法及投影装置
CN106462974A (zh) * 2014-06-12 2017-02-22 皇家飞利浦有限公司 用于分割图像的参数优化
CN107368829A (zh) * 2016-05-11 2017-11-21 富士通株式会社 确定输入图像中的矩形目标区域的方法和设备
CN107506469A (zh) * 2017-08-31 2017-12-22 北京小米移动软件有限公司 图片获取方法、装置及计算机可读存储介质
WO2018028234A1 (zh) * 2016-08-08 2018-02-15 珠海赛纳打印科技股份有限公司 一种图像处理方法及装置
CN107977390A (zh) * 2017-03-09 2018-05-01 北京物灵智能科技有限公司 绘本识别方法、装置、系统及电子设备
CN108028893A (zh) * 2015-10-21 2018-05-11 高通股份有限公司 多个相机自动对焦同步
CN109784227A (zh) * 2018-12-29 2019-05-21 深圳爱莫科技有限公司 图像检测识别方法和装置
WO2020239015A1 (zh) * 2019-05-31 2020-12-03 北京金山云网络技术有限公司 一种图像识别、分类方法、装置、电子设备及存储介质
CN112399236A (zh) * 2020-10-09 2021-02-23 北京达佳互联信息技术有限公司 一种视频查重方法、装置及电子设备
WO2022042365A1 (zh) * 2020-08-26 2022-03-03 北京嘀嘀无限科技发展有限公司 一种基于图神经网络识别证件的方法及系统

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006132194A1 (ja) * 2005-06-07 2006-12-14 Sony Corporation 情報処理装置及び情報処理方法、画像処理装置及び画像処理方法、並びにコンピュータ・プログラム
US20080123795A1 (en) * 2006-11-28 2008-05-29 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Controllable long term operation of a nuclear reactor
TWI345413B (en) * 2007-10-23 2011-07-11 Avermedia Information Inc Document camera and its method for sharpening partial image on projected image
EP2491345A1 (en) 2009-10-22 2012-08-29 Tomtom Germany GmbH & Co. KG Incremental map generation, refinement and extension with gps traces
JP5636674B2 (ja) * 2010-01-07 2014-12-10 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
US8577146B2 (en) * 2010-04-09 2013-11-05 Sony Corporation Methods and devices that use an image-captured pointer for selecting a portion of a captured image
US9177041B2 (en) * 2010-09-03 2015-11-03 Robert Lewis Jackson, JR. Automated stratification of graph display
US9280574B2 (en) 2010-09-03 2016-03-08 Robert Lewis Jackson, JR. Relative classification of data objects
JP5772446B2 (ja) 2010-09-29 2015-09-02 株式会社ニコン 画像処理装置及び画像処理プログラム
JP6095283B2 (ja) * 2012-06-07 2017-03-15 キヤノン株式会社 情報処理装置、およびその制御方法
ES2805343T3 (es) * 2012-12-18 2021-02-11 Thomson Reuters Entpr Centre Gmbh Sistemas y procesos habilitados para dispositivos móviles para plataforma de investigación inteligente
US9213907B2 (en) * 2013-06-28 2015-12-15 Google Inc. Hierarchical classification in credit card data extraction
AT515595A2 (de) * 2014-03-27 2015-10-15 9Yards Gmbh Verfahren zur optischen Erkennung von Zeichen
US9342830B2 (en) 2014-07-15 2016-05-17 Google Inc. Classifying open-loop and closed-loop payment cards based on optical character recognition
US10229494B2 (en) * 2015-09-22 2019-03-12 Case Western Reserve University Automated analysis of intravascular OCT image volumes
US9799106B2 (en) * 2015-12-16 2017-10-24 Dropbox, Inc. Enhancing a digital image
US9934431B2 (en) * 2016-07-27 2018-04-03 Konica Minolta Laboratory U.S.A., Inc. Producing a flowchart object from an image
CN108171712B (zh) * 2016-12-07 2022-02-11 富士通株式会社 确定图像相似度的方法和装置
US10936178B2 (en) 2019-01-07 2021-03-02 MemoryWeb, LLC Systems and methods for analyzing and organizing digital photos and videos
CN110334768B (zh) * 2019-07-08 2023-08-22 创新奇智(重庆)科技有限公司 一种冰柜陈列检测方法、系统及电子设备
CN110490132B (zh) * 2019-08-16 2020-09-29 京东城市(北京)数字科技有限公司 数据处理方法和装置
KR20220149511A (ko) * 2020-01-29 2022-11-08 유아이아머닷컴 엘엘씨 이미지 처리를 위한 시스템, 방법 및 디바이스
CN112487537A (zh) * 2020-12-08 2021-03-12 亿景智联(北京)科技有限公司 一种基于全卷积神经网络的建筑面多级优化提取方法
US11158031B1 (en) 2021-05-24 2021-10-26 ReportsNow, Inc. Systems, methods, and devices for image processing
CN114549703B (zh) * 2022-01-25 2024-04-12 华南理工大学 一种快速动画图像生成方法、系统、装置及存储介质
CN114647472B (zh) * 2022-03-24 2023-08-15 北京字跳网络技术有限公司 图片处理方法、装置、设备、存储介质和程序产品

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2736879B2 (ja) * 1995-10-30 1998-04-02 株式会社超高速ネットワーク・コンピュータ技術研究所 三次元図形データ削減方法
US6738154B1 (en) * 1997-01-21 2004-05-18 Xerox Corporation Locating the position and orientation of multiple objects with a smart platen
US5974199A (en) * 1997-03-31 1999-10-26 Eastman Kodak Company Method for scanning and detecting multiple photographs and removing edge artifacts
US6373590B1 (en) * 1999-02-04 2002-04-16 Seiko Epson Corporation Method and apparatus for slant adjustment and photo layout
KR100294924B1 (ko) * 1999-06-24 2001-07-12 윤종용 영상분할 장치 및 방법
AUPR788101A0 (en) * 2001-09-24 2001-10-18 Canon Information Systems Research Australia Pty Ltd Scanning and detecting a number of images
US6898316B2 (en) * 2001-11-09 2005-05-24 Arcsoft, Inc. Multiple image area detection in a digital image
JP2003283909A (ja) 2002-03-20 2003-10-03 Ricoh Co Ltd 名刺取り込み機能付きカラー画像撮影装置
US7305129B2 (en) * 2003-01-29 2007-12-04 Microsoft Corporation Methods and apparatus for populating electronic forms from scanned documents
JP2005275447A (ja) 2004-03-22 2005-10-06 Casio Comput Co Ltd 画像処理装置、画像処理方法及びプログラム
JP4020093B2 (ja) * 2004-03-24 2007-12-12 日本電信電話株式会社 縁検出方法及び装置及びプログラム及び記憶媒体及び枠検出方法及び装置及びプログラム及び記憶媒体
WO2006132194A1 (ja) * 2005-06-07 2006-12-14 Sony Corporation 情報処理装置及び情報処理方法、画像処理装置及び画像処理方法、並びにコンピュータ・プログラム

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102970456A (zh) * 2009-06-02 2013-03-13 佳能株式会社 图像形成方法及图像形成装置
US8619333B2 (en) 2009-06-02 2013-12-31 Canon Kabushiki Kaisha Image forming apparatus, image forming apparatus control method, and program
CN102970456B (zh) * 2009-06-02 2015-03-11 佳能株式会社 图像形成方法及图像形成装置
CN102870135A (zh) * 2010-06-29 2013-01-09 富士胶片株式会社 用于形状提取的方法和装置、尺寸测量装置和距离测量装置
CN102870135B (zh) * 2010-06-29 2016-02-03 富士胶片株式会社 用于形状提取的方法和装置、尺寸测量装置和距离测量装置
CN102456213A (zh) * 2010-10-20 2012-05-16 上海无戒空间信息技术有限公司 照片处理方法
CN102743181A (zh) * 2011-03-09 2012-10-24 佳能株式会社 图像处理装置及图像处理方法
CN102743181B (zh) * 2011-03-09 2016-01-20 佳能株式会社 图像处理装置及图像处理方法
US8983122B2 (en) 2011-03-09 2015-03-17 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and computer-readable storage medium
CN102915530B (zh) * 2011-08-01 2015-11-25 佳能株式会社 用于分割输入图像的方法和装置
CN102915530A (zh) * 2011-08-01 2013-02-06 佳能株式会社 用于分割输入图像的方法和装置
CN104169972A (zh) * 2012-03-14 2014-11-26 欧姆龙株式会社 区域指定方法和区域指定装置
CN102881027A (zh) * 2012-07-26 2013-01-16 方正国际软件有限公司 一种图像中确定区域四边形的检测方法及系统
WO2015018337A1 (zh) * 2013-08-06 2015-02-12 上海合合信息科技发展有限公司 在图像中线段吸附的方法及装置,构造多边形的方法及装置
CN104902121B (zh) * 2014-03-06 2018-04-03 株式会社Pfu 图像读取装置和图像处理方法
CN104902121A (zh) * 2014-03-06 2015-09-09 株式会社Pfu 图像读取装置和图像处理方法
CN106462974B (zh) * 2014-06-12 2020-07-28 皇家飞利浦有限公司 用于分割图像的参数优化
CN106462974A (zh) * 2014-06-12 2017-02-22 皇家飞利浦有限公司 用于分割图像的参数优化
CN108028893A (zh) * 2015-10-21 2018-05-11 高通股份有限公司 多个相机自动对焦同步
CN105741308A (zh) * 2016-03-07 2016-07-06 英华达(上海)科技有限公司 一种多维视觉图像的获取方法及系统
CN107368829A (zh) * 2016-05-11 2017-11-21 富士通株式会社 确定输入图像中的矩形目标区域的方法和设备
CN105979234B (zh) * 2016-06-13 2019-03-19 Tcl集团股份有限公司 一种投影图像校正的方法及投影装置
CN105979234A (zh) * 2016-06-13 2016-09-28 Tcl集团股份有限公司 一种投影图像校正的方法及投影装置
WO2018028234A1 (zh) * 2016-08-08 2018-02-15 珠海赛纳打印科技股份有限公司 一种图像处理方法及装置
CN107977390A (zh) * 2017-03-09 2018-05-01 北京物灵智能科技有限公司 绘本识别方法、装置、系统及电子设备
CN107977390B (zh) * 2017-03-09 2021-10-26 北京物灵智能科技有限公司 绘本识别方法、装置、系统及电子设备
CN107506469A (zh) * 2017-08-31 2017-12-22 北京小米移动软件有限公司 图片获取方法、装置及计算机可读存储介质
CN109784227A (zh) * 2018-12-29 2019-05-21 深圳爱莫科技有限公司 图像检测识别方法和装置
WO2020239015A1 (zh) * 2019-05-31 2020-12-03 北京金山云网络技术有限公司 一种图像识别、分类方法、装置、电子设备及存储介质
WO2022042365A1 (zh) * 2020-08-26 2022-03-03 北京嘀嘀无限科技发展有限公司 一种基于图神经网络识别证件的方法及系统
CN112399236A (zh) * 2020-10-09 2021-02-23 北京达佳互联信息技术有限公司 一种视频查重方法、装置及电子设备

Also Published As

Publication number Publication date
US7986831B2 (en) 2011-07-26
JP2008059081A (ja) 2008-03-13
US20080056572A1 (en) 2008-03-06
CN100591100C (zh) 2010-02-17

Similar Documents

Publication Publication Date Title
CN100591100C (zh) 图像处理装置、图像处理方法和计算机程序
Guttmann et al. Semi-automatic stereo extraction from video footage
US7760956B2 (en) System and method for producing a page using frames of a video stream
Lee et al. Semantic line detection and its applications
Battiato et al. 3D stereoscopic image pairs by depth-map generation
US8712157B2 (en) Image quality assessment
US7653261B2 (en) Image tapestry
US20020168108A1 (en) Event clustering of images using foreground/background segmentation
US8213741B2 (en) Method to generate thumbnails for digital images
US9076076B1 (en) Image similarity determination
US20080284791A1 (en) Forming coloring books from digital images
US20090290794A1 (en) Image visualization through content-based insets
CN107636728A (zh) 用于确定图像的深度图的方法和装置
Anbu et al. A comprehensive survey of detecting tampered images and localization of the tampered region
JP6511950B2 (ja) 画像処理装置、画像処理方法及びプログラム
Harding et al. Visual saliency from image features with application to compression
EP2966613A1 (en) Method and apparatus for generating a super-resolved image from an input image
CN102156968A (zh) 一种基于颜色立方先验的单一图像能见度复原方法
Ng et al. An online system for classifying computer graphics images from natural photographs
Agarwal et al. Forensic analysis of colorized grayscale images using local binary pattern
Malathi et al. Image forgery detection by using machine learning
Cheatle Automatic image cropping for republishing
Lee et al. Enhancing the realism of sketch and painted portraits with adaptable patches
Carballal et al. Aesthetic Composition Indicator Based on Image Complexity
Kakar Passive approaches for digital image forgery detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100217

Termination date: 20130829