CN102194227A - 图像属性判别装置及方法、属性判别支援装置及控制方法 - Google Patents

图像属性判别装置及方法、属性判别支援装置及控制方法 Download PDF

Info

Publication number
CN102194227A
CN102194227A CN2011100458124A CN201110045812A CN102194227A CN 102194227 A CN102194227 A CN 102194227A CN 2011100458124 A CN2011100458124 A CN 2011100458124A CN 201110045812 A CN201110045812 A CN 201110045812A CN 102194227 A CN102194227 A CN 102194227A
Authority
CN
China
Prior art keywords
view data
attribute
mentioned
pixel
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100458124A
Other languages
English (en)
Other versions
CN102194227B (zh
Inventor
相泽知祯
阮翔
山本基夫
田中清明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Publication of CN102194227A publication Critical patent/CN102194227A/zh
Application granted granted Critical
Publication of CN102194227B publication Critical patent/CN102194227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的图像属性判别装置及方法、属性判别支援装置及控制方法能够高精度地判别图像数据的属性。本发明的图像属性判别装置(10)的特征在于,包括:异质区域确定单元(11a),从图像数据确定异质区域,该异质区域中包含有其属性与该图像数据原本所显现出的内容不同的异质物;以及场景判别单元(13),基于由上述图像数据的各像素中除上述异质区域内的各像素以外的像素组所提取的特征量,判别上述图像数据的属性。

Description

图像属性判别装置及方法、属性判别支援装置及控制方法
技术领域
本发明涉及用于判别静止图像或者动态图像等数字形式的图像数据的属性的图像属性判别处理,特别涉及提高图像属性判别处理的精度的图像属性判别装置、属性判别支援装置、图像属性判别方法、属性判别支援装置的控制方法以及控制程序。
背景技术
近年来,对于通过分析图像数据的特征而自动地判别其属性的方法进行研究开发。具体地说,从通过数字照相机、数字摄影机以及带有照相机的便携式电话等所拍摄的静止图像或者动态图像、通过扫描仪等获取的静止图像,或者通过DVD录像机等所录制的动态图像或者捕获(capture)图像等的所有的图像数据所具有的像素值提取特征量,从而判别该图像数据所表示的场景(scene)(属性)。例如,通过判别在由数字照相机所处理的实时的图像数据在显现怎样的场景(人物、风景、夜景、晚霞、焰火、室内、雪、海滩、花、料理、名片/文件等),从而能够将数字照相机的拍摄模式设定为与该场景相应的最佳的状态后进行拍摄。
作为这样的图像属性判别处理的公知技术,可举出专利文献1~4。在专利文献1~4所记载的技术中,从对象的数字图像数据提取特征量,并进行与有关预先准备的特定场景的模型特征量的对照处理,基于与特定场景的特征量的一致度类来判别场景。
更具体地说,在专利文献1中公开了如下的图像处理装置,即使用色调(hue)数据的直方图,判定图像数据是否为晚霞的场景,并基于此来判断是否需要对该图像数据进行修正。图像处理装置关于在构成对象的图像数据的像素中属于从红到黄的范围的像素,对色调与色度(chroma)之积以及色调与亮度之积的值进行直方图化,并将它们的方差大于一定基准的图像判断为是“晚霞”的场景。
在专利文献2中公开了如下的图像拍摄装置,即关于对象的图像数据,以有关人物的有无的信息和有关色直方图的信息的两个作为公共的特征指标,判别“人像(portrait)”、“晚霞”、“夜景”等多个场景。
在专利文献3中公开了如下的装置,即关于与特定场景对应的特征性部分,考虑图像内的分布的倾向等,并且还考虑拍摄框的选取方式的不同等导致的它们的位置和面积比例的变动,从而高精度地筛选出各种各样的特定场景的图像。
在专利文献4中公开了如下的装置,即对于能够作为特定场景而被指定的多个场景的每一个,准备规定了在该场景的识别中使用的特征量的种类和识别条件的参照数据,并参照上述识别条件进行判断,从而高精度地实施场景判别。
[现有技术文献]
[专利文献1](日本)特开平11-298736号公报(1999年10月29日公开)
[专利文献2](日本)特开2002-218480号公报(2002年8月2日公开)
[专利文献3](日本)特开2005-310123号公报(2005年11月4日公开)
[专利文献4](日本)特开2005-122720号公报(2005年5月12日公开)
[非专利文献1]奥富正敏、等著「デジタル画像処理」CG-ARTS协会出版、2007年3月1日(第二版二次印刷)、P.311~313,17-2节「文字認識技術」、P.192~195,11-1节「領域特徴量」
[非专利文献2]天野敏之、等著「固有空間法を用いたBPLPによる画像補間」社团法人电子信息通信学会出版、电子信息通信学会论文志Vol.J85-D-II No.3P.457~465
但是,在上述以往的结构中存在以下问题,即当成为属性判别的对象的图像数据包含有与该图像数据的原本的属性具有不同性质的物体、身影、形态等(以下,异质物)的情况下,无法准确地进行属性判别。即,从显现着异质物的像素组(以下,异质区域)所获得的特征与原本的属性的特征不同。因此,若图像数据整体的特征量是在混合了异质区域的特征量的状态下提取,则无法顺利地进行与模型特征量的对照,作为结果,产生对于该图像数据进行错误的场景判别或进行准确度低的场景判别的问题。
作为图像数据中产生上述异质区域的原因,考虑例如在图像编辑的步骤中,使用图像编辑工具对成为属性判别的对象的图像数据所追加的字符、插图(illustration)、图形、印记(stamp)、涂鸦等对象(动态图像的情况下为字幕等)。或者,考虑在上述图像数据的拍摄步骤中,因拍摄环境、被摄体的状况而出现意图之外的现象(污点(smear)等泛白现象),或者拍入手指的影子等意图之外的内容的情况。进而,考虑在对照片等的原稿进行扫描的步骤中,(原稿在破损或弯曲的状态下被扫描)在原稿缺失的部分拍入了原稿台或原稿背面的颜色的情况等。此外,异质区域不限于上述的例子。上述问题是不论与图像数据有关的条件/环境/事情等,针对包含与原来的属性(场景)不同的异质物的所有的图像数据进行属性判别时共同地产生的问题。
发明内容
本发明鉴于上述的问题点而完成,其目的在于,实现一种不受图像数据的异质区域的影响而能够高精度地判别图像数据的属性的图像属性判别装置、属性判别支援装置、图像属性判别方法、属性判别支援装置的控制方法、以及控制程序。
本发明的图像属性判别装置为了解决上述课题,在基于图像数据所显现出的内容来判别该图像数据的属性的图像属性判别装置中,其特征在于,包括:异质区域确定部件,从图像数据确定异质区域,该异质区域中包含有其属性与该图像数据原本所显现出的内容不同的异质物;以及属性判别部件,基于由上述图像数据的各像素中除上述异质区域内的各像素以外的像素组所提取的特征量,判别上述图像数据的属性。
根据上述结构,异质区域确定部件确定包含有处理对象的图像数据上的异质物(例如,字幕等的字符串)的区域,属性判别部件基于仅由除该所确定的异质区域以外的其他区域的像素组获得的特征量,对上述图像数据的属性进行判别。
由此,在处理对象的图像数据中包含有异质物的情况下,能够排除从异质区域提取的特征量对判别属性的处理所产生的不良影响。作为结果,能够提高属性判别的精度。
上述异质区域确定部件也可以将包含字符的字符区域确定为异质区域。
根据上述结构,即使在对照片等合并了后来添加的文本对象(字符)的数据成为处理对象的图像数据的情况下,异质区域确定部件也会将后来添加的该字符判断为异质物,并且使包含有该字符的区域不会在特征量的提取中使用。因此,对于施加了字符的编辑的图像数据,也能够基于字符的背景中的原来的图像数据的内容而准确地进行属性的判定。
也可以包括对于上述图像数据的各像素中没有成为特征量的提取的对象的对象外像素的区域,还原与对象像素相同性质的像素的还原部件。
根据上述结构,对于因异质物(例如,字符串等)而被隐藏的异质物的背景部分,还原部件使用字符串周边的像素的信息,还原为与其周边相同性质的像素。并且,属性判别部件基于还原的图像数据进行属性判别处理。因此,就连来自因字符串而被隐藏的部分的特征量也能够有效地活用,作为结果,能够提高属性判别处理的精度。
也可以是上述图像属性判别装置还包括:对象像素决定部件,关于通过上述异质区域确定部件所确定的异质区域内的各像素,决定是否为通过上述属性判别部件提取特征量的对象像素,上述属性判别部件基于由在上述图像数据的各像素中除通过上述对象像素决定部件决定为不是对象的对象外像素以外的像素组所提取的特征量,判别上述图像数据的属性。
根据上述结构,对象像素决定部件决定在通过异质区域确定部件所确定的异质区域内的各像素中,哪个是对象像素,哪个是对象外像素。因此,关于对象像素决定部件决定为对象外像素的像素,属性判别部件不会在特征量的提取时参照,特征量仅从对象像素提取。
由此,即使是异质区域中也能够更详细地设定在特征量提取时是否应设为对象外,因此能够实现高精度且高效率地进行属性判别的图像属性判别装置,并且设计的自由度提高。
优选的是,上述异质区域确定部件将包含字符的字符区域确定为异质区域,图像属性判别装置还包括:字符识别部件,识别上述异质区域确定部件所确定的字符区域内的字符,上述对象像素决定部件在字符识别结果的可靠度为规定值以下的情况下,将上述字符区域内的像素决定为对象像素,其中,该可靠度表示上述字符区域内的字符为通过上述字符识别部件所识别出的字符的准确性(確からしさ)。
一般,正确地、更准确地识别出了字符(串)的情况下,与字符识别结果一同输出的可靠度的数值升高,相反,在将不是字符(串)的对象作为字符串提取而进行了字符识别处理的情况下,可靠度的数值降低。因此,由于是字符区域(异质区域)而将该区域的像素设为对象外,这仅限于上述可靠度高到一定以上的情况。即,对象像素决定部件关于字符识别结果的可靠度低的像素,即使在首次判断为字符区域的情况下,也不会将其设为对象外像素。由此,实际上将没有包含字符(串)的区域错误地作为字符区域而提取的情况下,不将该区域设定为对象外像素,从而能够防止特征量提取失败。
由此,能够避免因胡乱扩大对象外像素,反而导致属性判别的处理的精度下降的不适宜。
进而,也可以是图像属性判别装置包括:关键字提取部件,从上述字符识别部件识别的字符或者字符串,提取关键字;以及字关联性存储单元,存储通过上述关键字提取部件所提取的各关键字与通过上述属性判别部件所判别的各属性之间的关联性,上述属性判别部件参照上述字关联性存储单元,考虑从上述图像数据的字符区域所提取的关键字与各属性之间的关联性的高低而判别该图像数据的属性。
根据上述结构,在图像数据中包含字符区域的情况下,该字符区域中包含的字符串通过字符识别部件被提取,从该字符串有一个以上的单词(关键字)通过关键字提取部件被提取。
上述属性判别部件参照字关联性存储单元而掌握所提取的关键字和属性的关联性,并在判别该图像数据的属性时考虑上述关键字和属性的关联性的高低。
图像数据所包含的字幕等字符串中,大多包含有表示该图像数据的属性的、或者与属性的关联较深的字符串。因此,通过将其设为属性判别处理的指标之一,能够提高属性判别精度。例如,属性判别部件判断为关键字“山”和属性“风景”的关联性高,在提取了山这一关键字的情况下,在判别该图像数据的属性时,考虑对“风景”给予较高的权重等。
特征在于,上述属性判别部件将上述图像数据的特征量与按照多个种类的属性的每个属性而预先决定的模型特征量进行对照,并根据其相似度,算出用于表示上述图像数据的属性为该属性的准确性的属性判别结果的可靠度,从而判别上述图像数据的属性,上述字关联性存储单元将上述关键字与上述属性之间的关联性作为用于与上述属性判别结果的可靠度相加的得分来存储。
根据上述结构,上述关联性的高低作为与属性判别结果的可靠度相加的得分来存储。属性判别部件关于成为候选的图像数据的各属性输出可靠度,并将与上述关键字相关联的得分相加到同样对应的属性的可靠度。对于与上述关键字关联性高的属性,相加更多的得分,可靠度(图像数据为该属性的准确性)提高。从而,属性判别部件考虑在图像数据中包含的关键字,能够基于可靠度而更高精度地判别图像数据的属性。
优选包括:还原部件,对于上述图像数据的各像素中没有成为特征量的提取的对象的对象外像素的区域,还原与对象像素相同性质的像素,上述还原部件仅在上述属性判别结果的可靠度低于规定值的情况下执行还原。
根据上述结构,能够将图像属性判别装置构成为,将处理负担高的还原处理,在判别结果的准确性(可靠度)高的获得理想的结果的情况下省略,仅在可靠度低且属性判别的精度下降的情况下,以提高该精度为目的而执行还原处理。
从而,能够使处理效率的提高和属性判别精度的提高并存。
也可以是上述属性判别部件在上述图像数据的各像素中没有成为特征量的提取的对象的对象外像素的区域越宽时,将可靠度计算得越低。
对象外像素的区域宽是指,一张图像数据中因属性判别而参考的像素的比例少,这可能会导致与参照了全部的像素的情况相比无法准确地实现属性判别。
因此,通过较低地估计在这样的状况下所输出的判别结果的可靠度,从而能够采取如唤起用户的注意的、或者提高该可靠度的其他措施,作为结果,能够对属性判别精度的提高做出贡献。
也可以是上述对象像素决定部件仅在上述图像数据中上述异质区域所占的面积为规定以上宽的情况下,将上述异质区域内的各像素决定为对象外像素。
根据上述结构,在通过上述异质区域确定部件所确定的上述异质区域比规定窄(小)的情况下,上述对象像素决定部件不进行将该区域的像素决定为对象外像素的处理。
一般,当包含有异质物的区域的面积在图像数据整体的面积中所占的比例小的情况下,从该区域获得的特征量对属性判别带来的影响较小。这时,认为相对于将异质区域作为对象外而去除的处理时间,提高判别精度这一优点较小。
因此,如上述那样,通过设置仅在异质区域在图像数据整体所占的面积的比例为规定的阈值以上的情况下进行对象外像素的确定这一限制,从而能够削减处理时间而不会对判别精度带来较大的影响。
也可以包括:模型特征量计算部件,在对本装置输入了图像数据和该图像数据的属性的指定时,使用由上述图像数据的各像素中除通过上述异质区域确定部件所确定的上述异质区域内的各像素以外的像素组所提取的特征量,算出所指定的属性的模型特征量,上述属性判别部件将上述图像数据的特征量与通过上述模型特征量计算部件对每个属性算出的模型特征量进行对照,并根据其相似度来判别上述图像数据的属性。
根据上述结构,属性判别部件将上述图像数据的特征量与模型特征量进行对照,并根据其相似度而判别上述图像数据的属性。因此,为了进行精度高的属性判别,重要的是模型特征量相应于各属性如何被正确地决定。
因此,即使在包含有异质物(例如,字幕等字符串)的图像数据作为学习对象的图像数据而被图像属性判别装置获取的情况下,由于模型特征量计算部件在排除了通过异质区域确定部件所确定的异质物之后使用上述图像数据,因此能够生成更加正确的模型特征量。属性判别部件由于能够参照更正确的模型特征量,因此作为结果,能够提高属性判别精度。
本发明的属性判别支援装置为了解决上述课题,在按每个属性决定图像属性判别装置所参照的模型特征量的属性判别支援装置中,图像属性判别装置基于图像数据所显现出的内容来判别该图像数据的属性,其特征在于,包括:异质区域确定部件,在对本装置输入了图像数据和该图像数据的属性的指定时,从该图像数据确定包含有其属性与所输入的图像数据原本所显现出的内容不同的异质物的异质区域;以及模型特征量计算部件,使用由上述图像数据的各像素中除上述异质区域内的各像素以外的像素组所提取的特征量,算出所指定的属性的模型特征量。
根据上述结构,为了生成模型特征量而输入了图像数据和该图像数据的属性的指定时,首先,异质区域确定部件从该图像数据确定包含有其属性与所输入的图像数据原本所显现出的内容不同的异质物的异质区域。接着,模型特征量计算部件使用除上述异质区域内的各像素以外的像素组所提取的特征量,算出所指定的属性的模型特征量。
图像属性判别装置一般将上述图像数据的特征量与模型特征量进行对照并根据其相似度而判别上述图像数据的属性。因此,为了进行精度高的属性判别,重要的是模型特征量相应于各属性如何被正确地决定。
因此,即使在包含有异质物(例如,字幕等字符串)的图像数据作为学习对象的图像数据而被图像属性支援装置获取的情况下,由于模型特征量计算部件在排除了通过异质区域确定部件所确定的异质物之后提取并使用上述图像数据的特征量,因此能够生成更加正确的模型特征量。属性判别部件由于能够参照更正确的模型特征量,因此作为结果,能够提高属性判别精度。
本发明的图像属性判别方法为了解决上述课题,在基于图像数据所显现出的内容来判别该图像数据的属性的图像属性判别方法中,其特征在于,包括:异质区域确定步骤,从图像数据确定包含有其属性与该图像数据原本所显现出的内容不同的异质物的异质区域;以及属性判别步骤,基于由上述图像数据的各像素中除上述异质区域内的各像素以外的像素组所提取的特征量,判别上述图像数据的属性。
本发明的属性判别支援装置的控制方法为了解决上述课题,在按每个属性决定图像属性判别装置所参照的模型特征量的属性判别支援装置的控制方法中,该图像属性判别装置基于图像数据所显现出的内容来判别该图像数据的属性,其特征在于,包括:异质区域确定步骤,在对上述属性判别支援装置输入了图像数据和该图像数据的属性的指定时,从该图像数据确定包含有其属性与所输入的图像数据原本所显现出的内容不同的异质物的异质区域;以及模型特征量计算步骤,使用由上述图像数据的各像素中除上述异质区域内的各像素以外的像素组所提取的特征量,算出所指定的属性的模型特征量。
另外,上述图像属性判别装置以及上述属性判别支援装置也可以通过计算机来实现,这时,通过使计算机作为上述各部件而动作从而使计算机实现上述图像属性判别装置或者上述属性判别支援装置的上述图像属性判别装置或者上述属性判别支援装置的控制程序、以及记录了它的计算机可读取的记录介质也包含在本发明的范畴中。
本发明的图像属性判别装置为了解决上述课题,在基于图像数据所显现出的内容来判别该图像数据的属性的图像属性判别装置中,其特征在于,包括:异质区域确定部件,从图像数据确定异质区域,该异质区域中包含有其属性与该图像数据原本所显现出的内容不同的异质物;以及属性判别部件,基于由上述图像数据的各像素中除上述异质区域内的各像素以外的像素组所提取的特征量,判别上述图像数据的属性。
本发明的属性判别支援装置为了解决上述课题,在按每个属性决定图像属性判别装置所参照的模型特征量的属性判别支援装置中,图像属性判别装置基于图像数据所显现出的内容来判别该图像数据的属性,其特征在于,包括:异质区域确定部件,在对本装置输入了图像数据和该图像数据的属性的指定时,从该图像数据确定包含有其属性与所输入的图像数据原本所显现出的内容不同的异质物的异质区域;以及模型特征量计算部件,使用由上述图像数据的各像素中除上述异质区域内的各像素以外的像素组所提取的特征量,算出所指定的属性的模型特征量。
本发明的图像属性判别方法为了解决上述课题,在基于图像数据所显现出的内容来判别该图像数据的属性的图像属性判别方法中,其特征在于,包括:异质区域确定步骤,从图像数据确定包含有其属性与该图像数据原本所显现出的内容不同的异质物的异质区域;以及属性判别步骤,基于由上述图像数据的各像素中除上述异质区域内的各像素以外的像素组所提取的特征量,判别上述图像数据的属性。
本发明的属性判别支援装置的控制方法为了解决上述课题,在按每个属性决定图像属性判别装置所参照的模型特征量的属性判别支援装置的控制方法中,该图像属性判别装置基于图像数据所显现出的内容来判别该图像数据的属性,其特征在于,包括:异质区域确定步骤,在对上述属性判别支援装置输入了图像数据和该图像数据的属性的指定时,从该图像数据确定包含有其属性与所输入的图像数据原本所显现出的内容不同的异质物的异质区域;以及模型特征量计算步骤,使用由上述图像数据的各像素中除上述异质区域内的各像素以外的像素组所提取的特征量,算出所指定的属性的模型特征量。
因此,起到不受图像数据的异质区域的影响而能够高精度地判别图像数据的属性的效果。
附图说明
图1是表示本发明的一实施方式中的数字照片框(photo frame)的主要部分结构的方框图。
图2是表示本发明的一实施方式中的数字照片框的外观的图。
图3(a)是表示处理对象的基础的图像数据(Fujiyama.jpg)的一例的图,图3(b)是表示从图3(a)的图像数据作为字符区域而提取的区域的具体例的图。
图4(a)是表示在图3(a)所示的图像数据(Fujiyama.jpg)中由图3(b)所示的字符区域以外的对象像素生成的、颜色的直方图的具体例的图,图4(b)是表示从图3(a)所示的图像数据没有去除字符区域而生成的直方图、即没有应用本发明而生成的直方图的具体例的图,图4(c)是表示作为预先存储的模型特征量的模型直方图的具体例的图。
图5是表示对异质区域实施了还原处理后的图像数据的一例的图。
图6是表示本发明的一实施方式中的数字照片框的场景判别处理的流程的流程图。
图7是表示通过数字照片框的字符识别单元输出的字符识别结果以及其可靠度的具体例的图。
图8是表示通过数字照片框的场景判别单元输出的场景判别结果以及其可靠度的具体例的图。
图9是表示在数字照片框的字符得分存储单元中存储的、表示了关键字与场景的关联性的对应表的具体例的图。
图10A是表示本发明的一实施方式中的数字照片框的场景判别处理的流程的一例的流程图。
图10B是表示本发明的一实施方式中的数字照片框的场景判别处理的流程的一例的流程图。
图11是表示从图3(a)的图像数据作为字符区域而提取的区域的另一具体例的图。
图12是表示从图3(a)的图像数据作为字符区域而提取的区域的又一具体例的图。
图13是表示本发明的另一实施方式中的数字照片框的主要部分结构的方框图。
图14是表示本发明的另一实施方式中的数字照片框的场景学习处理的流程的一例的流程图。
图15是表示本发明的另一实施方式中的属性判别支援装置的主要部分结构的方框图。
图16是表示作为异质区域而包含污点的图像数据的一例的图。
图17是表示作为异质区域而包含对象在图像编辑步骤中被合并的区域的图像数据的一例的图。
图18是表示由于原稿在一端被折的状态下扫描,因而将被折的部分作为异质区域而包含的图像数据的一例的图。
图19是表示将照片的拍摄时拍入的手指的影子作为异质区域而包含的图像数据的一例的图。
标号说明
1  控制单元
2  存储单元
3  显示单元
4  操作单元
5  临时存储单元
5a 图像存储器
6  总线
10 图像属性判别装置
11 字符区域提取单元(异质区域确定部件)
11a异质区域提取单元(异质区域确定部件)
12 对象像素确定单元(对象像素决定部件)
13 场景判别单元(属性判别部件)
14 字符识别单元(字符识别部件)
15 还原单元(还原部件)
16 按场景处理执行单元
17 关键字提取单元(关键字提取部件)
18 模型特征量计算单元(模型特征量计算部件)
19 学习对象管理单元
20 属性判别支援装置
30 图像数据存储单元
31 场景特征量存储单元
32 字符对照词典存储单元
33 字符得分存储单元(字关联性存储单元)
100数字照片框(图像属性判别装置/属性判别支援装置)
具体实施方式
《实施方式1》
基于附图说明本发明的实施方式如下。
在以下,作为一例,说明将本发明的图像属性判别装置应用到作为显示图像数据的图像显示装置的数字照片框的情况。本实施方式中的数字照片框能够根据由本装置判别的图像数据的场景(属性),对该图像数据的显示用数据进行校正,并将其显示到本装置的显示单元。另外,本发明的图像属性判别装置不限于数字照片框,能够较佳地用于数字照相机、数字摄影机、数字录影机/播放器、数字电视、个人电脑、打印机、扫描仪等能够对图像数据按照所判别的场景而实施不同的处理的各种图像处理装置。
[数字照片框的外观]
图2是表示本发明的实施方式中的数字照片框(photo frame)100的外观的图。数字照片框100用于读出在本装置中存储的、或者在可装卸的外部存储介质中记录的一个或者多个静止图像或者动态图像等的图像数据,并将它们作为显示用数据而输出到显示单元3。数字照片框100例如通过将数字照相机等拍摄获得的照片(图像数据)显示到显示单元3,从而能够起到照片框(写真立て)的作用。进而,数字照片框100能够将多个照片如放映幻灯片那样依次显示,或以任意的布局以及定时一次显示多张图像数据,或以缩略图一览显示大量的图像数据。
数字照片框100的操作单元4可以通过在数字照片框100的主体上设置的按钮或触摸面板等来实现,也可以如图2所示那样使用遥控器来实现。
在本实施方式中,数字照片框100为了更美地显示图像数据,具有按照不同场景对图像数据进行校正而显示的功能(以下,按场景自动校正功能)。关于与这样的数字照片框100的功能有关的各种设定操作,也可以通过使用操作单元4来实现。
例如,数字照片框100也可以如图2所示那样,在显示单元3显示用于使用户对是否将上述按场景自动校正功能设为有效进行设定的操作画面。这时,当用户希望按场景自动校正功能时,对操作单元4上设置的箭头按钮和决定按钮进行操作,从而选择将按场景自动校正功能设为有效的选项。
[数字照片框的结构]
图1是表示本发明的实施方式中的数字照片框100的主要部分结构的方框图。
如图1所示,本实施方式的数字照片框100的结构为,包括控制单元1、存储单元2、显示单元3、操作单元4、临时存储单元5、以及作为用于在这些各单元中进行数据的发送接收的公共的信号线的总线6。
控制单元1执行从存储单元2读出到临时存储单元5的程序,从而进行各种运算,并且经由总线6统一控制数字照片框100所具备的各单元。控制单元1的结构为,作为功能块,至少包括字符区域提取单元11以及场景判别单元13。进而,控制单元1还可以包括对象像素确定单元12、字符识别单元14以及还原单元15。这些11~15的各功能块在数字照片框100中,作为执行场景判别功能的图像属性判别装置10发挥作用。此外,在本实施方式中,包括按场景处理执行单元16,该功能块在数字照片框100中,作为执行按场景自动校正功能的图像处理装置发挥作用。
上述的控制单元1的各功能块能够通过CPU(中央处理单元)将由ROM(只读存储器)等实现的存储单元2中存储的程序读出到由RAM(随机存取存储器)等实现的临时存储单元5而实现。
存储单元2用于存储控制单元1执行的控制程序和OS程序、以及控制单元1执行数字照片框100具有的各种功能(例如,本发明的场景判别功能、按场景自动校正功能等)时读出的各种固定数据。在本实施方式中,存储单元2中例如包含有图像数据存储单元30、场景特征量存储单元31、字符对照词典存储单元32、字符得分存储单元33,存储各种固定数据。存储单元2例如由可改写内容的非易失性存储器即EEPROM(电EPROM)、闪速存储器等实现。另外,关于存储不需要改写内容的信息的存储单元(这里,例如为字符对照词典存储单元32、字符得分存储单元33等),也可以由有别于存储单元2的、未图示的、读出专用的半导体存储器即ROM(只读存储器)等实现。
图像数据存储单元30用于存储成为数字照片框100作为图像处理装置而处理的对象的图像数据。场景特征量存储单元31用于存储成为场景判别单元13判别图像数据的场景时参照的模型的场景的特征量。字符对照词典存储单元32用于存储在具备字符识别单元14的情况下字符识别单元14识别图像数据中包含的字符时参照的字符的信息、即字符对照词典。字符得分存储单元33用于存储以数值(得分)方式表示了通过字符识别单元14识别出的字符(串)与所判别的场景之间的关联性的得分信息。
如使用图2说明的那样,显示单元3显示从图像数据存储单元30或者经由未图示的外部接口而从外部记录介质获取的图像数据,或将用户用于操作数字照片框100的操作画面作为GUI(图形用户界面)画面来显示。显示单元3例如由LCD(液晶显示器)、有机EL显示器等的显示装置构成。
操作单元4用于用户对数字照片框100输入指示信号并进行操作。如上所述那样,在本实施方式中,操作单元4作为遥控器而构成。与在操作单元4设置的按钮(箭头键、决定键、字符输入键等)对应的信号在该按钮被按下时,作为红外线信号从操作单元4的发光单元输出,并经由在数字照片框100的主体上设置的光接收单元而输入到数字照片框100。
临时存储单元5是在数字照片框100执行的各种处理的过程中用于临时存储在运算中使用的数据以及运算结果等的所谓的工作存储器,由RAM(随机存取存储器)等实现。更具体地说,控制单元1将成为场景判别处理的对象的图像数据展开到临时存储单元5的图像存储器5a,并以图像数据的像素为单位进行详细的分析。
控制单元1的字符区域提取单元11用于提取在处理对象的图像数据中包含的异质区域。在本实施方式中,尤其,字符区域提取单元11提取包含字母数字、平假名、片假名、汉字、记号等字符(串)的字符区域作为异质区域。
图3(a)是表示处理对象的基础的图像数据的一例的图。图3(a)所示的图像数据(文件名:Fujiyama.jpg)原本是拍摄了风景的照片,但该图像数据是对风景照片在图像编辑步骤中追加了文本对象后的数据。字符区域提取单元11根据与周边像素的颜色差异和纹理(texture)等,确定像字符的形状,并将包含该形状的区域作为字符区域来提取。图3(b)是表示字符区域提取单元11从图3(a)的图像数据中作为字符区域而提取的区域的一例的图。在本实施方式中,例如图3(b)所示那样,字符区域提取单元11将一定程度集中的像字符串的形状的外接矩形作为字符区域而提取。在图3(b)所示的例子中,字符区域提取单元11将基础的图像数据中包含的字符串“[富士山](富士山)”的外接矩形作为第1字符区域Ar1、将字符串“標高3,776m(海拔3,776m)”的外接矩形作为第2字符区域Ar2、将字符串“日本最高峰の山(日本最高峰的山)”的外接矩形作为第3字符区域Ar3来提取。
另外,关于上述的字符区域提取方法,适当采用非专利文献1中记载的方法等公知的技术。
对象像素确定单元12关于字符区域提取单元11提取的异质区域的各像素,确定该像素是否为在场景判别处理中成为分析的对象的像素。具体地说,对象像素确定单元12对每个像素确定用于表示是成为分析的对象的像素还是对象外的像素的标志。例如,对象像素确定单元12对于成为分析的对象的像素,赋予意味着是分析对象的“TRUE”的标志,对于不作为分析的对象的像素,赋予意味着是分析对象外的“FALSE”的标志。由此,在场景判别处理中从图像数据中确定成为特征量分析的对象的像素。
另外,对象像素确定单元12也可以将字符区域提取单元11提取的所有的异质区域(字符区域)的所有像素都确定为分析对象外的像素。即,可以将图3(b)所示的、第1字符区域Ar1、第2字符区域Ar2、以及第3字符区域Ar3的三个字符区域都确定为分析对象外的像素。或者,对象像素确定单元12也可以基于规定的条件,仅将字符区域提取单元11提取的异质区域中满足条件的像素确定为对象像素或者对象外像素。
场景判别单元13用于判别图像数据的场景。尤其,场景判别单元13仅对图像数据的全部像素中通过对象像素确定单元12确定为对象像素的像素,执行分析、特征量的提取等。然后,通过将所提取的特征量与场景特征量存储单元31中对每个场景预先存储的模型特征量进行对照,从而判别上述图像数据的场景。在本实施方式中,例如,场景判别单元13关于图3(b)所示的、第1字符区域Ar1、第2字符区域Ar2、以及第3字符区域Ar3的三个字符区域以外的区域进行像素值的分析,并进行特征量的提取。
在本实施方式中,场景判别单元13基于对象像素的颜色和纹理等,将对象像素的直方图作为图像数据的整体的特征量来生成。并且,场景判别单元13对每个场景的模型特征量和从上述图像数据提取的特征量进行比较、对照,从而将最相似的模型特征量的场景判别为该图像数据的场景。更具体地说,如下所示。
图4(a)是表示本发明的场景判别单元13根据图3(a)所示的图像数据(Fujiyama.jpg)中图3(b)所示的字符区域以外的对象像素生成的、颜色的直方图的具体例的图。
图4(b)是表示从图3(a)所示的图像数据没有去除字符区域而生成的直方图、即没有应用本发明而生成的直方图的具体例的图。
图4(c)是表示作为在场景特征量存储单元31中存储的模型特征量的模型直方图的具体例的图。这里,例如,假设在场景特征量存储单元31中关于(1)人物、(2)风景、(3)夜景、(4)晚霞、(5)焰火、(6)室内、(7)雪、(8)海滩、(9)花、(10)料理、(11)名片/文件的11种场景的每一个,分别预先存储了标准的模型直方图。图4(c)所示的模型直方图表示“(2)风景”的模型直方图。在图4(a)~(c)所示的直方图中,横轴表示与各个颜色对应的料箱(bin),纵轴表示频度(像素数)×边缘强度。
这里,假设在图3(a)所示的图像数据(Fujiyama.jpg)中包含的、“[富士山]”、“標高3,776m”、“日本最高峰の山”的文本对象由单一黄色的像素构成。
这时,图4(a)的本发明的直方图与图4(b)的直方图的区别在于,黄色的强度没有作为特征而被包含。这是因为对象像素确定单元12从对象像素中排除了包含黄色的字符串的各字符区域。
这样,在使用了混有“黄色的强度”的图4(b)的直方图的情况下,存在以下问题,即在场景判别处理中,判断为与图4(c)的模型直方图不相似,或即使判断为相似其相似度也较低,无法得到可靠的判别结果。
但是,根据本发明的图像属性判别装置10,由于能够去除“黄色的强度”这一与原来的场景(属性)不同的特征量,因此场景判别单元13能够判断为从图像数据(Fujiyama.jpg)获得直方图(图4(a))与“(2)风景”的模型直方图(图4(c))的相似度最高,能够准确地将图像数据(Fujiyama.jpg)的场景判别为“(2)风景”。
进而,场景判别单元13也可以根据处理对象的图像数据的特征量与模型特征量的相似度,将上述图像数据为该场景的准确性(是该场景的可能性的高低)作为“可靠度”而数值化,并与判别结果一同输出。
从图像数据提取的特征量(直方图)与场景特征量存储单元31中存储的模型特征量越相似,场景判别结果的可靠度越高。
另外,关于上述的特征量提取方法,适当采用非专利文献1中记载的方法等公知的技术。
根据上述结构,在判别图像数据的场景时,首先,若在图像数据中包含有异质区域(例如,对于风景照片的文本对象),则字符区域提取单元11将其提取。接着对象像素确定单元12关于异质区域的像素,确定从用于场景判别的分析对象中排除的像素。最后,场景判别单元13对于图像数据的全体像素中被确定为分析对象的像素进行特征量的提取,并基于提取出的特征量,进行图像数据的场景的判别。
由此,关于在图像数据中包含有与原来的场景不同的异质物的图像数据,仅对除该异质区域以外的区域进行分析从而进行场景判别,因此起到能够不受图像数据的异质区域的影响而高精度地判别图像数据的场景的效果。
如上所述,控制单元1还可以包括字符识别单元14以及还原单元15。
字符识别单元14在通过字符区域提取单元11所提取的异质区域为能够包含字符(串)的字符区域的情况下,用于识别该字符区域中包含的字符(串)。字符识别单元14对字符对照词典存储单元32中所存储的所有的字符的模型形状与字符区域中包含的由颜色和纹理等所确定的字符(相似物)的形状进行比较,并确定该字符区域中包含的字符(串)。
在图3(b)所示的例子中,字符识别单元14从字符区域提取单元11提取的第1字符区域Ar1识别字符串“[富士山]”,从第2字符区域Ar2识别字符串“標高3,776m”,从第3字符区域Ar3识别字符串“日本最高峰の山”,从而将它们作为文本数据来输出。所输出的文本数据是与图像数据的内容有关联的语言的可能性较高。因此,场景判别单元13也可以参照字符得分存储单元33,并考虑上述文本数据的语言的意思内容与场景的关联性而判别图像数据的场景。
进而,字符识别单元14也可以根据与字符的上述模型形状的相似度,将字符区域中包含的字符(串)为所识别的字符(串)的准确性作为“可靠度”而数值化,并与识别结果一同输出。若字符识别结果的可靠度低,则对象像素确定单元12判断为字符区域中包含的字符相似物实际上不是字符(即,不是异质区域),并且能够在确定对象像素时考虑。
另外,关于上述的字符识别方法,适当采用非专利文献1中记载的方法等公知的技术。
还原单元15关于因通过对象像素确定单元12确定为分析对象外的像素而未被考虑的像素,为了将这些对象外像素设为特征量提取的对象,基于其周围的分析对象像素的像素值,进行还原以成为与分析对象像素相同性质的像素值。
图5是表示对异质区域实施了还原处理的图像数据的一例的图。如图5所示,在图3(b)中,通过对作为异质的字符区域而被提取的第1字符区域Ar1、第2字符区域Ar2以及第3字符区域Ar3,还原单元15进行还原处理,从而在各字符区域中,属性与其以外的区域相同性质(颜色、纹理等与富士山的风景一致)的像素被插补。所还原的还原区域Ar1’~Ar3’在通过场景判别单元13进行场景判别时被参照。
对象像素确定单元12将通过还原单元15所还原的像素重新确定为对象像素,场景判别单元13关于新确定的对象像素(所还原的还原像素)执行分析、特征量的提取等。由此,关于一个像素数据,能够更加扩大用于场景判别而考虑的区域,能够进一步提高场景判别的精度。
另外,关于上述的还原方法,适当采用非专利文献2中记载的方法等公知的技术。
按场景处理执行单元16按照通过场景判别单元13所判别的图像数据的场景,对图像数据执行不同的处理。在本实施方式中,按场景处理执行单元16对所判别的场景校正图像数据的显示用数据,使得该场景以最美的状态显示。即,按场景处理执行单元16在数字照片框100中,作为执行按场景自动校正功能的图像数据校正单元发挥作用。
由此,可将数字照片框100构成为,能够将图像数据根据该图像数据的场景而始终校正为最佳的状态后美丽地显示的图像处理装置。
具体地说,考虑按场景处理执行单元16关于被判别为是“焰火”和“花”的场景的图像数据,提高显示用数据的色度而校正为色彩鲜艳,关于被判别为是“晚霞”的场景的图像数据,进行稍微改变色调而强调红色的校正,关于被判别为是“室内(事件/聚会)”的场景的图像数据,通过提高亮度而校正为明亮的氛围等。
[场景判别处理流程]
图6是表示本实施方式中的数字照片框100的场景判别处理的流程的流程图。
首先,图像属性判别装置10将成为场景判别处理的对象的图像数据(例如,图3(a)所示的“Fujiyama.jpg”)从图像数据存储单元30展开到临时存储单元5的图像存储器5a(S101)。对象像素确定单元12定义所展开的图像数据的各像素的标志排列,并对其进行初始化(S102)。例如,在图像数据由width(图像数据的宽度)×height(图像数据的高度)=x像素×y像素的像素组成的情况下,对象像素确定单元12定义特征量提取对象标志排列feat_use_flag[x][y]。这里,若基本上不包含异质区域,则对象像素确定单元12会将图像数据的全部像素设为特征量提取像素,因此,首先将全部像素的标志初始化为TRUE。如上所述,标志为“TRUE”的情况下,意味着该像素为特征量提取对象的像素。
接着,字符区域提取单元11关于在图像存储器5a上展开的图像数据,提取作为异质区域的字符区域(S103)。在上述的例子中,如图3(b)所示那样,提取第1字符区域Ar1~第3字符区域Ar3的三个字符区域。
接着,对象像素确定单元12关于属于所提取的字符区域的各像素,确定是否成为用于场景判别的特征量提取对象的像素(S104)。在本实施方式中,由于全部像素的标志在当前时刻因初始化而成为“TRUE”,因此关于上述三个字符区域内的像素,将标志设为“FALSE”。如上所述,标志为“FALSE”的情况下,意味着该像素为特征量提取对象外的像素。
场景判别单元13仅以图像数据的像素中满足标志为“TRUE”的条件的像素为对象而提取特征量(S105)。具体地说,生成颜色的直方图。然后,场景判别单元13进行在S105生成的直方图与场景特征量存储单元31中存储的各场景的模型直方图的对照,从而判别图像数据的场景(S106)。例如,场景判别单元13若判断为从处理对象的图像数据(Fujiyama.jpg)获得的直方图(例如,图4(a))与场景特征量存储单元31中存储的“(2)风景”的模型直方图(例如,图4(c))的相似度最高,则将上述图像数据的场景判别为是“(2)风景”。
最后,场景判别单元13将场景判别结果“(2)风景”输出到按场景处理执行单元16(S107)。
由此,例如,按场景处理执行单元16能够基于场景判别结果“(2)风景”,对图3(a)所示的图像数据的显示用数据进行校正使得风景的照片显示得最美后输出到显示单元3。
根据上述结构,在判别图像数据的场景时,首先,若在图像数据中包含有异质区域(例如,对于风景照片的文本对象等),则字符区域提取单元11将其提取。接着对象像素确定单元12关于异质区域的像素,确定从用于场景判别的分析对象中排除的像素。最后,场景判别单元13在图像数据的全体像素中去除从分析对象排除的像素而进行图像数据的特征量的提取,并基于提取出的特征量,进行图像数据的场景的判别。
由此,关于在图像数据中包含有与原来的场景不同的异质物的图像数据,仅对除该异质区域以外的区域进行分析从而进行场景判别,因此起到能够不受图像数据的异质区域的影响而高精度地判别图像数据的场景的效果。
在上述的例子中,对富士山的照片追加了如“[富士山]”、“標高3,776m”、“日本最高峰の山”的文本对象。该文本对象例如由单一黄色的像素形成的情况下,图像数据中会包含在通常的富士山的风景照片中不会包含的颜色和纹理的异质的区域。若包含这样的异质区域的状态下关于全体像素生成直方图,则该直方图会包含在原来的风景场景中通常不会包含的形状(例如,图4(b))。若基于这样的直方图进行匹配,则存在错误地判别为是另一场景,或即使判别也只能得到可靠度低的判别结果的问题。
但是,根据本申请发明,仅关于除上述的单一黄色的区域以外的剩余的区域内的像素(即,构成富士山的风景的照片的像素)生成直方图,并基于此进行匹配。从而,能够抑制没有表现场景的特征的“黄色较强的特征”所导致的不良影响而执行场景判别处理,能够消除上述问题。
《实施方式2》
在本实施方式中,以上述的实施方式1的结构作为基本结构,说明用于更加高效地进行场景判别处理的、或者进一步提高场景判别处理的精度的追加的结构。
[考虑字符区域的面积]
对象像素确定单元12也可以根据通过字符区域提取单元11所提取的字符区域在图像数据的整体中所占的比例,决定是否设为场景判别处理中的分析对象像素。具体地说,若字符区域的幅度的比例为规定的阈值以上,则认为该字符区域对图像数据的场景判别处理带来的影响较大,从而对象像素确定单元12将字符区域从分析对象像素中去除(将标志设为FALSE)。另一方面,若字符区域的幅度的比例低于规定的阈值,则认为即使该字符区域的性质与原来的场景不同,对图像数据的场景判别处理带来的影响也较小,从而对象像素确定单元12将图像数据的全体像素的标志依旧设为TRUE。
根据上述结构,在异质区域的不良影响小的情况下,在对象像素确定单元12中能够省略对象像素确定处理(将标志设为FALSE/TRUE的处理),在保证场景判别处理的精度的同时能够实现场景判别处理的效率化。
[考虑字符区域为字符的准确性]
或者,对象像素确定单元12也可以在字符识别单元14对字符区域执行字符识别处理的情况下,根据字符识别结果的可靠度,决定是否设为场景判别处理中的分析对象像素。图7是表示通过字符识别单元14输出的字符识别结果与其可靠度的具体例的图。图7表示字符识别单元14对通过字符区域提取单元11从图像数据(Fujiyama.jpg)所提取的三个字符区域的每一个进行字符识别,并关于各区域的字符识别结果进一步输出了可靠度的结果的例子。
基于该具体例进行说明的话,若上述可靠度为规定的阈值以上,则对象像素确定单元12认为该字符区域中包含的是作为异质物的字符(串)的可能性较高,从而将该字符区域的全体像素的标志设为FALSE。另一方面,若上述可靠度低于规定的阈值,则认为该被设为字符区域的区域实际上没有包含字符(串),从而对象像素确定单元12仍然将该区域的像素的标志设为TRUE。例如,当成为阈值的可靠度的得分为“55”的情况下,在图7所示的例子中,关于图3(b)所示的三个字符区域的字符识别结果的可靠度都是55以上,因此对象像素确定单元12将三个字符区域的全体像素的标志设为FALSE。
根据上述结构,关于被字符区域提取单元11暂且判断为字符区域、但没有被字符识别单元14以一定的准确性识别为字符的区域,对象像素确定单元12重新判断为实际上不是包含有异质物的异质区域。然后,对象像素确定单元12将该区域确定为场景判别处理中的分析对象。由此,能够避免将错误地识别为字符区域的区域错误地从分析对象排除,从而能够提高场景判别处理的精度。
[输出场景判别结果的可靠度]
场景判别单元13也可以在进行处理对象的图像数据的直方图与场景特征量存储单元31中存储的模型直方图的匹配时,根据其相似度来输出场景判别结果的可靠度。图8是表示通过场景判别单元13输出的场景判别结果与其可靠度的具体例的图。在图8所示的例子中,场景判别单元13进行了匹配的结果,图3(b)所示的图像数据的直方图与场景“风景”的模型直方图的相似度最高,为得分“60”的可靠度,接着,按照“海滩”、“雪”、“料理”、“夜景”的顺序,根据与各自的模型直方图的相似度而算出可靠度。
并且,场景判别单元13将上述图像数据的场景判别为“风景”,从而与可靠度“60”的值一起输出到按场景处理执行单元16。或者,场景判别单元13也可以在可靠度小于规定的阈值的情况下执行另一处理。
例如,将表示无法判别该图像数据的场景的消息对用户进行显示,或输出到按场景处理执行单元16。这时,按场景处理执行单元16不是施加按场景的处理,而是将默认的处理对上述图像数据施加即可。或者,也可以将用于明示可靠度低的情况的消息对用户进行显示。这时,用户确认判定结果,从而若有错误则能够采取改正等措施。根据上述结果,能够防止当场景判别结果不正确的情况下用户放过它。
另外,场景判别单元13也可以考虑作为字符区域而被设为分析对象外像素的面积在图像像素整体中所占的比例,输出场景判别结果的可靠度。具体地说,认为若字符区域的面积的比例多,则成为分析对象的像素少,图像数据的场景判别精度下降。因此,场景判别单元13也可以对得分进行调节,使得在图像数据中字符区域所占的比例越多,图8所示的各场景的可靠度越降低。
由此,图像属性判别装置10能够更加准确地掌握场景判别结果的可靠度,能够执行与可靠度相应的正确的措施。
[对字符区域进行还原]
此外,例如也可以是在场景判别处理中,没有得到一定以上的可靠度的情况下,还原单元15对从分析对象中排除的异质区域进行还原处理,并将该还原区域的像素值也考虑在内而重新进行图像数据的场景判别处理。若这样分析对象的像素增加,则能够执行可靠度更高的场景判别处理。另外,还原区域与没有进行还原的对象像素的区域相比,还原后的像素值与原来的像素值相同的准确度低,因此场景判别单元13在生成直方图的情况下,也可以对从还原后的像素所提取的特征量施加乘以0到1之间的系数等的加权。
另外,由还原单元15进行的还原处理也可以是,必须要对对象像素确定单元12确定为分析对象外的像素执行而与可靠度无关的结构。但是,上述结构是限于可靠度低的情况下执行还原处理的结构。因此,减少高负担的还原处理的机会,并且能够提高图像属性判别装置10整体的处理效率,因此较为理想。
[考虑字符(串)的意思内容]
进而,本发明的图像属性判别装置10也可以将上述字符识别结果(例如,图7所示的字符串)作为场景判别处理的指标之一来使用。即,可以考虑所识别的字符串包含着具有怎样的意思的单词,从而算出图8所示的场景判别结果的每个场景的可靠度。
例如,图像属性判别装置10还包括关键字提取单元17(在图1中表示)。此外,存储单元2包括字符得分存储单元33。关键字提取单元17用于对字符识别单元14按每个领域而识别出的字符串,进一步进行词素分析等,从而作为具有意思的字符(串)的最小单位而提取关键字。例如,关键字提取单元17可以是任意结构,但也可以是从字符串提取名词的关键字的结构。字符得分存储单元33用于存储按每个关键字表示了要对哪个场景的可靠度加几分的对应表。即,字符得分存储单元33用于将关键字和场景(属性)的关联性作为应相加到可靠度的得分来存储。
在图7所示的例子中,关键字提取单元17从第1字符区域Ar1的字符串“[富士山]”提取关键字“富士山”以及“山”。关于剩余区域的字符串也同样地提取关键字。
场景判别单元13基于通过关键字提取单元17所提取的关键字,参照字符得分存储单元33,并确定要对哪个场景追加多少可靠度。并且将确定了的追加得分加到图8所示的按每个场景而输出的可靠度上。具体如下。
图9是表示字符得分存储单元33中存储的、用于表示关键字和场景以及追加得分的对应关系的对应表的具体例的图。如图9所示,在对应表中,按每个关键字而相关联地存储了成为追加对象的场景和此时的追加得分。
例如,图9所示的对应表的第1记录表示,当图像数据的字符区域中包含有关键字“富士山”的情况下,对于该图像数据的判别结果(图8)中的场景“风景”的可靠度相加得分“50”。
更详细地说,关键字提取单元17从三个字符区域的各字符串提取字符识别单元14识别出的、一个关键字“富士山”和两个关键字“山”等、图7所示的合计7个关键字。关键字提取单元17提取的关键字可以如图7所示那样与各字符区域相关联地存储,也可以与图像数据(Fujiyama.jpg)相关联地集中存储。
并且,场景判别单元13通过在上述的实施方式中说明的场景判别处理,输出了图8所示的场景判别结果之后,基于关键字提取单元17提取的关键字,参照字符得分存储单元33的对应表(图9)。
场景判别单元13对场景“风景”的可靠度追加关键字“富士山”的追加得分“50分×1个=50分”。此外,对场景“风景”的可靠度追加关键字“山”的追加得分“10分×2个=20分”。关于“富士山”以及“山”以外的4个关键字,当字符得分存储单元33中没有存储的情况下不追加。即,对图8所示的场景“风景”的可靠度的得分“60”相加“70”,从而将场景“风景”的可靠度最终作为“130”输出。
这样,通过将图像数据中包含的字符串的意思内容加入到该图像数据的场景判别结果,从而能够输出可靠度更高的场景判别结果。在字幕、照片标题等字符串中大多包含有与该图像数据的场景关联较深的单词,因此,通过将其作为场景判别处理的指标之一,从而能够提高场景判别结果的精度。
[场景判别处理流程]
图10A以及图10B是表示本实施方式中的数字照片框100的场景判别处理的流程的一例的流程图。
与图6的S101~S103所示的为相同的方法,首先,图像属性判别装置10从图像数据存储单元30读出成为处理对象的图像数据(Fujiyama.jpg),并将其展开到图像存储器5a(S201)。对象像素确定单元12定义所展开的图像数据的各像素的标志排列,并将其初始化为TRUE(S202)。字符区域提取单元11关于图像存储器5a上展开的图像数据,提取作为异质区域的字符区域(S203)。这里,如图3(b)所示,字符区域提取单元11提取第1字符区域Ar1~第3字符区域Ar3的三个字符区域。
接着,对象像素确定单元12关于属于所提取的字符区域的各像素,确定是否成为用于场景判别的特征量提取对象的像素。详细地说,首先,对象像素确定单元12判断通过字符区域提取单元11从图像数据所提取的全部字符区域的面积是规定的阈值以上,还是小于规定的阈值(S204)。当各字符区域的合计面积小于规定的阈值的情况下(S204中为否),认为该字符区域(异质区域)对图像数据的场景判别处理带来的不良影响较少而不实施对象像素确定处理,将图像数据的全部像素作为分析对象而转移到S211以后的场景判别处理(图10B)。
另一方面,当各字符区域的合计面积为规定的阈值以上的情况下(S204中为是),转移到S205以后的对象像素确定处理。在S205中,对象像素确定单元12对变量i代入初始值1。然后,关于第i个字符区域的各像素,执行将标志维持为TRUE或改变为FALSE的处理。
具体地说,首先,字符识别单元14关于第i个字符区域执行字符识别处理(S206)。字符识别单元14如图7所示那样输出第i个字符区域的字符识别结果与其可靠度。这里,关键字提取单元17也可以从通过字符识别单元14所识别的字符(串)中提取关键字。或者,也可以在关于全部区域完成字符识别处理之后最后集中进行关键字提取。
对象像素确定单元12参照通过字符识别单元14输出的该字符区域的字符识别结果的可靠度,判断是规定的阈值以上,还是小于规定的阈值(S207)。当字符识别结果的可靠度小于阈值的情况下(S207中为否),判断为至今为止设为字符区域的第i个区域实际上不是字符区域(即不包含异质物)的可能性较高,并且将该区域的各像素的标志依然维持为TRUE。即,对象像素确定单元12决定将上述区域的各像素从用于场景判别的分析对象中排除。
另一方面,当字符识别结果的可靠度为阈值以上的情况下(S207中为是),判断为该字符区域包含对场景判别带来不良影响的字符(串)的可能性较高,并将该字符区域的各像素的标志设为FALSE(S208)。即,对象像素确定单元12决定将上述字符区域的各像素从用于场景判别的分析对象中排除。关于一个字符区域确定各像素的标志的TRUE或者FLASE时,对象像素确定单元12对i进行增量(S209),从而关于下一个字符区域,以同样的步骤确定是否设为分析对象像素,关于通过字符区域提取单元11所提取的所有的字符区域重复该处理。对象像素确定单元12若关于所有的字符区域(例如,三个字符区域全部)结束了对象像素确定处理(S210),则场景判别单元13关于该图像数据(Fujiyama.jpg)执行场景判别处理。
场景判别单元13以与图6的S105、S106所示的相同的方法,在该图像数据中仅以满足标志为“TRUE”的条件的像素为对象而提取特征量(生成直方图)(S211),并进行与每个场景的模型特征量(模型直方图)的对照,从而判别图像数据的场景(S212)。这里,场景判别单元13基于图像数据的特征量与每个场景的模型特征量的相似度、通过字符识别单元14以及关键字提取单元17取得的字符区域中包含的关键字、以及设为对象外的字符区域的大小等各个要素,对判别为该图像的场景的场景以及得分位于第二以下的其他场景的每一个算出可靠度(S213)。例如,场景判别单元13将场景判别结果以及其可靠度如“(第一位)场景:风景、可靠度:130”那样输出。
接着,场景判别单元13判断图像数据(Fujiyama.jpg)的场景是所判别的场景(例如,“风景”)的准确性为什么程度。例如,判断上述的“可靠度:130”是规定的阈值以上,还是小于规定的阈值(S214)。这里,若场景判别结果的可靠度为规定的阈值以上,则场景判别单元13判断为判别出的场景大体上确实正确,并将场景判别结果输出到按场景处理执行单元16。例如,将图像数据(Fujiyama.jpg)的场景为“风景”的判别结果输出到按场景处理执行单元16(S218)。
另一方面,若场景判别处理的可靠度小于规定的阈值,则怀疑图像数据的场景是否真的是该场景,从而图像属性判别装置10转移到提高判别结果的精度的处理。具体地说,还原单元15关于通过对象像素确定单元12将标志设定为FALSE的各像素,执行用于去掉异质物的还原处理(S215)。在该还原处理中应用公知的还原技术。
然后,场景判别单元13以通过还原单元15还原的、标志为FALSE的各像素为对象,提取特征量(S216)。场景判别单元13对在S211中生成的TRUE的各像素的直方图合成上述FALSE的各像素的直方图,并使用合成后的直方图进行与各场景的模型直方图的匹配,再次进行图像数据的场景判别(S217)。由此,再次求出图像数据(Fujiyama.jpg)的场景判别结果和可靠度,并将可靠度最高的场景作为该图像数据的场景而输出到按场景处理执行单元16(S218)。
由此,按场景处理执行单元16可以对图像数据(Fujiyama.jpg),实施与场景“风景”相应的处理。例如,按场景处理执行单元16具有按场景自动校正功能,能够对上述图像数据进行图像处理使得风景照片显得最美后显示到显示单元3等。
如上所述,根据上述方法,在图像属性判别装置10中,能够根据图像属性判别装置10的性能、使用环境等高平衡地构成场景判别处理的效率化和场景判别处理的精度提高。
本发明的图像属性判别装置10也可以不具备在本实施方式中说明的追加的结构的全部,图像属性判别装置10的结构是考虑用于实现本发明的装置的信息处理能力、使用用途、使用环境等适当选择性地进行设计,以便能够高平衡地实现场景判别处理的效率化以及精度提高。
[字符区域的提取方法]
在上述的各实施方式中,说明了字符区域提取单元11如图3(b)所示那样,将一定程度集中的像字符串的形状的外接矩形作为字符区域而提取,但字符区域提取单元11的结构不限于此。
图11以及图12是表示字符区域提取单元11从图3(a)的图像数据中作为字符区域而提取的区域的另一例的图。
例如,如图11所示,字符区域提取单元11也可以将字符(像字符)形状的外接矩形以一个字符为单位提取作为字符区域。这时,存在因对象像素确定单元12执行对象像素确定处理时的区域数目增加而对图像属性判别装置10造成处理负担的缺点,另一方面,与如图3(b)所示那样大体汇总为三个区域的情况相比,能够减少作为分析对象外而被忽视的像素,因此,存在能够提高场景判别处理的精度的优点。
或者,如图12所示,字符区域提取单元11也可以不提取异质物的外接矩形,而根据颜色、纹理等而只将显现了异质物(字符等)的像素严格地作为字符区域而提取。这时,字符区域提取单元11、对象像素确定单元12中的处理负担进一步增大,另一方面,能够进一步大幅减少作为分析对象外而被忽视的像素,因此,能够进一步提高场景判别处理的精度。
《实施方式3》
在上述的各实施方式中,说明不受图像数据的异质区域的影响而能够高精度且高效率地判别图像数据的属性(场景)的图像属性判别装置10。该图像属性判别装置10通过将场景特征量存储单元31中预先学习的模型特征量与图像数据的特征量进行对照从而进行场景的判别。因此,为了高精度的场景判别,需要模型特征量正确地反映出与场景相应的特征。在本实施方式中,说明更加准确地生成使场景特征量存储单元31学习的、每个场景的模型特征量的属性判别支援装置20。
本发明的属性判别支援装置20执行场景学习功能。场景学习功能是指,装置将成为学习对象的样本的图像数据与所指定的正确的场景相关联地接受,从图像数据提取特征量,从而使该特征量作为所指定的场景的模型特征量的一部分学习的功能。例如,将场景被分类为“风景”的图像数据预先准备多个,并从这些图像数据提取特征量,从而例如将其平均值等设为场景“风景”的模型特征量。
因此,若作为样本而输入的图像数据中包含有上述那样的异质区域(字幕等字符串),则模型特征量会包含性质与该场景的原来的特征不同的特征。例如,通常在“风景”的图像数据中不包含黄色的字符形状,这样的异质的黄色的文本对象会使原来的模型特征量歪向不正确的方向。这样,若模型特征量没有正确地反映与其场景相应的特征,则存在利用它进行的场景判别处理的精度会下降的问题。
因此,本发明的属性判别支援装置20在所输入的样本的图像数据中包含有异质区域的情况下,将其检测出并去除后求特征量,并追加到所指定的场景的模型特征量。由此,能够生成不受图像数据的异质区域影响的、正确的模型特征量,图像属性判别装置10能够不受异质区域的影响而高精度地判别图像数据的属性。
属性判别支援装置20也可以应用于用户使用的上述的数字照片框100等的各种图像处理装置。或者,本发明的属性判别支援装置20也可以通过信息处理装置实现,该信息处理装置在上述图像处理装置的制造阶段中,基于预先准备的大量的样本图像数据来生成存储到图像处理装置的场景特征量存储单元31的模型特征量。
[数字照片框的结构]
图13是表示本发明的实施方式中的数字照片框100的主要部分结构的方框图。另外,对图13的各构成要素附加的标号与对图1的各构成要素附加的标号相对应,相同的标号表示相同的构成要素。因此,不再重复关于已经在上述的各实施方式中说明的构成要素的说明。
与图1所示的数字照片框100的区别在于,控制单元1还包括作为功能块的模型特征量计算单元18。模型特征量计算单元18与其他功能块(尤其是字符区域提取单元11、对象像素确定单元12,还有字符识别单元14)作为执行场景学习功能的属性判别支援装置20发挥作用。属性判别支援装置20还可以包括还原单元15。
属性判别支援装置20首先将成为学习对象的样本的图像数据与所指定的正确的场景相关联地接受。接受该输入的方法不特别限定,例如如下所示。对数字照片框100安装记录了用户想要使其学习的图像数据的外部记录介质,数字照片框100经由未图示的外部接口获取上述图像数据。用户使用操作单元4对数字照片框100进行操作,对所获取的上述图像数据指定相关联的正确的场景,并指示进行学习。属性判别支援装置20将接受的图像数据与所输入的正确的场景相关联地注册到图像数据存储单元30。这样注册的图像数据可以在用于场景学习处理的同时作为在显示单元3显示的图像数据而使用。
若被指示进行学习,则字符区域提取单元11对作为学习对象而接受的图像数据进行处理,从而若包含有异质区域(这里为字符区域)则将其提取。
对象像素确定单元12关于通过字符区域提取单元11所提取的字符区域内的各像素,确定是否将其设为特征量提取的对象像素。这里也与上述的实施方式同样地,对象像素确定单元12对对象像素的标志设定TRUE,对对象外的像素的标志设定FALSE。
模型特征量计算单元18用于提取作为学习对象而接受的图像数据的特征量,并使用所提取的特征量算出所指定的场景的模型特征量。在本实施方式中,在数字照片框100,模型特征量计算单元18对于已生成的模型特征量,包含本次新提取的特征量而再次重新算出特征量的平均值,并更新所指定的场景的模型特征量。
例如,在指定所指定的场景“风景”,并且输入了学习对象的图像数据A的情况下,若将当前时刻的场景“风景”的模型特征量设为X,将成为X的基本的“风景”的样本图像数据(的特征量)的数目设为N个,将新提取的图像数据A的特征量设为Y,则模型特征量计算单元18根据下式,
(X*N+Y)/(N+1)...(式1)生成新的“风景”的模型特征量,并更新场景特征量存储单元31的模型特征量。这是特征量Y的数据数目为1的情况、即图像数据A为一张的情况下的式子。另外,特征量X和特征量Y为向量量,例如表示直方图。
根据上述结构,在执行场景学习功能时,对于成为学习对象的图像数据,作为前处理,首先,字符区域提取单元11执行字符区域提取处理。然后,模型特征量计算单元18基于除通过对象像素确定单元12所确定的处理对象外的像素而获得的特征量,生成模型特征量。
由此,即使在包含有异质物(字幕等字符)的图像数据不适宜地混合在学习对象的图像数据中的情况下,也能够得到排除了该异质物所导致的不良影响的模型特征量。作为结果,能够提高图像属性判别装置10的场景判别精度。
另外,对于通过对象像素确定单元12作为字符区域而从特征量提取的对象排除的像素,还原单元15也可以执行还原处理。例如,还原单元15能够对由字符串而被隐藏的原来的背景进行还原等。由此,能够生成可靠度更高的模型特征量。
[场景学习处理流程]
图14是表示本实施方式中的数字照片框100的场景学习处理的流程的一例的流程图。
首先,属性判别支援装置20在接受成为学习对象的图像数据(这里也设为图3(a)所示的Fujiyama.jpg)的输入的同时,接受与该图像数据相关联的正确的场景(这里设为“风景”)的指定(S301)。
字符区域提取单元11对于图像数据(Fujiyama.jpg)执行异质区域(这里为字符区域)提取处理(S302)。字符区域提取处理采用与上述的各实施方式相同的步骤进行,例如,如图3(b)所示那样,假设提取了第1字符区域Ar1~第3字符区域Ar3的三个字符区域。
接着,对象像素确定单元12关于属于所提取的字符区域的各像素,执行确定是否成为用于场景学习的特征量提取的对象像素的对象像素确定处理(S303)。在本实施方式中,以与图10A的S205~S210所示的相同的步骤,对各字符区域的每个像素,确定是成为(TRUE)特征量提取的对象,或是不成为(FALSE)特征量提取的对象。即,对象像素确定单元12在字符区域实际不包含字符的可能性高的情况下,将其中的各像素设为特征量提取的对象,并且关于包含字符的可能性高的字符区域,将其中的各像素设为特征量提取的对象外。
接着,模型特征量计算单元18仅将图像数据(Fujiyama.jpg)的像素中满足标志为TRUE的条件的像素为对象,提取特征量(例如,生成直方图)(S304)。然后,模型特征量计算单元18从场景特征量存储单元31读出在S301中接受的场景(这里为“风景”)的模型特征量后,基于在S304中提取的特征量再次进行计算,并将其更新(S305)。例如,模型特征量计算单元18计算从包含图像数据(Fujiyama.jpg)的风景的样本图像数据的每一个所获得的颜色的直方图的平均值,并将其更新为场景“风景”的新的模型直方图。
根据上述方法,在执行场景学习功能时,当成为学习对象的图像数据中包含字符(串)等的异质区域的情况下,能够将关于除该区域的像素组所获得的特征量加到所指定的场景的模型特征量。
由此,能够生成更加准确的模型特征量,作为结果,图像属性判别装置10能够高精度地进行场景判别。
另外,在上述的实施方式2中,说明了以场景判别处理的效率化为目的,当所提取的字符区域小的情况下,省略对象像素确定处理(用于决定标志是TRUE还是FALSE的处理)。但是,在本实施方式中,以生成更加准确的模型特征量为目的,即使在从图像数据提取的字符区域小的情况下,当其性质不同时,也优选对其建立FALSE的标志而从对象像素中去除。因为,在关于一个图像数据判别正确的场景这样的实施方式2的情况下,小的字符区域所带来的不良影响较小,但在使用多个图像数据而生成一个场景的模型特征量的本实施方式中,小的字符区域的积累可能会妨碍准确的模型特征量的生成。
此外,属性判别支援装置20还可以包括还原单元15。在S303中通过对象像素确定单元12所确定的FALSE的像素的面积(字符区域的面积)大于规定的阈值的情况下,还原单元15对字符区域执行还原处理。对象像素确定单元12将所还原的区域的像素的标志设为TRUE,增加对象像素的面积。由此,能够将更多的相同性质的像素设为特征量提取的对象,并且能够进一步提高生成的模型特征量的可靠度。
图15是在本发明的实施方式中用于生成搭载到数字照片框100的场景特征量存储单元31的模型特征量的属性判别支援装置20的主要部分结构的方框图。这里,属性判别支援装置20通过适合处理大量的图像数据的服务器、个人计算机、超级计算机等的各种信息处理装置实现。另外,对图15的各构成要素附加的标号与对图1、图13的各构成要素附加的标号相对应,相同的标号表示具有相同的功能的构成要素。因此,关于已经在上述的各实施方式中说明的构成要素,不再重复相同的说明。
这里,显示单元3将操作者用于注册大量的图像数据或指定场景的操作画面作为GUI(图形用户界面)画面来显示。例如,对用于操作学习对象的图像数据的图标(icon)进行一览显示,或按每个场景对已在图像数据存储单元30中注册的图像数据进行缩小显示,从而显示操作者便于执行场景学习功能的GUI画面。
这里,操作单元4用于操作者对属性判别支援装置20进行操作,例如通过鼠标、键盘等实现。具体地说,操作者操作鼠标,从而能够一次选择在显示单元3显示的、新注册的大量的样本的图像数据,并将其拖放存储到特定的场景“风景”的文件夹(folder)中。由此,操作者能够指定场景而一次注册大量的图像数据,并且能够以简单的操作,使属性判别支援装置20学习该场景的特征。
控制单元1通过执行从存储单元2读取到临时存储单元5的程序,从而进行各种运算,并且经由总线6统一控制属性判别支援装置20具备的各单元。控制单元1的结构为,作为功能块至少具备异质区域提取单元11a、对象像素确定单元12以及模型特征量计算单元18。进而,控制单元1也可以具备学习对象管理单元19、字符识别单元14以及还原单元15。这些各块是执行属性判别支援装置20的场景学习功能的功能块。各功能块能够通过CPU(中央处理单元)将由ROM(只读存储器)等实现的存储单元2中存储的程序读出到由RAM(随机存取存储器)等实现的临时存储单元5后执行而实现。
异质区域提取单元11a用于提取在学习对象的图像数据中包含的异质区域。在上述的各实施方式中,字符区域提取单元11的结构为,作为异质区域而提取包含字符(串)的字符区域。但是,异质区域提取单元11a的结构为,不限于字符区域,提取包含所有异质物的异质区域。关于字符区域以外的异质区域的具体例在后面叙述,但如本实施方式中的属性判别支援装置20那样,为了生成模型特征量而一次读入大量的样本图像数据的装置的情况下,不仅是字符(串),样本中可能混入不适合的、包含所有异质物的图像数据。因此,优选异质区域提取单元11a能够根据颜色和纹理的特征等检测出所有种类的异质物。
学习对象管理单元19用于接受来自操作者的学习的指示,将输入到本装置的学习对象的大量的图像数据与所指定的场景的信息一起存储到图像数据存储单元30并进行管理。学习对象管理单元19所存储的图像数据在通过模型特征量计算单元18提取特征量时,被一张一张展开到图像存储器5a上。学习对象管理单元19将所展开的图像数据的正确的场景是什么的情况传递给模型特征量计算单元18。
模型特征量计算单元18以与上述相同的步骤,提取关于输入到本装置的一个场景的多个样本图像数据的特征量,并基于这些特征量算出模型特征量。
例如,与学习的指示、以及与场景“风景”相关联地输入了100张样本的图像数据的情况下,学习对象管理单元19将100张图像数据与场景“风景”相关联地存储到图像数据存储单元30。然后,异质区域提取单元11a对展开到图像存储器5a的一张图像数据的异质区域进行检测,并且对象图像确定单元12对各像素设置去除各异质区域的标志(FALSE)。
模型特征量计算单元18关于上述图像数据,仅对标志为TRUE的像素进行特征量的提取。模型特征量计算单元18将同样获得的100张全部的图像数据的特征量的平均值作为场景“风景”的模型特征量而生成。模型特征量计算单元18生成的模型特征量被暂时存储到场景特征量存储单元31,并使用适合的手段将其搭载到处于制造工艺的各数字照片框100。
根据上述结构,即使在生成模型特征量时使用的样本中,包括包含有异质区域的图像数据的情况下,也将其去除并基于仅由相同性质的像素所获得的特征而生成模型特征量。从而,能够将符合所指定的场景的准确的模型特征量搭载到数字照片框100,作为结果,数字照片框100能够高精度地执行场景判别处理。
如上所述,异质区域提取单元11a除字符(串)以外,还能够检测各种各样的异质物,并且提取出包含它们的异质区域。图16~图19表示各种各样的异质区域的具体例。
图16是表示因照片拍摄时的环境或者被摄体的状态等而产生了污点(虚线框内的泛白的区域)的图像数据的一例的图。图17是表示涂鸦(通过触摸笔进行的书写编辑)、插图、印记等的对象在图像编辑步骤中被合并的图像数据的一例的图。图18是表示原稿在一端被折的状态下扫描而获得的图像数据的一例的图。图19是表示照片的拍摄时拍入拍摄者的手指的图像数据的一例的图。
异质区域提取单元11a基于颜色和纹理等的差异,检测出各图所示的虚线框内的区域为与其他区域的属性不同的区域,并将该区域作为异质区域而提取。
根据上述结构,模型特征量计算单元18提取特征量时,能够应对给场景的判别带来不良影响的各种异质物,并且在去除了该异质物的状态下进行模型特征量的计算。因此,能够获得进一步准确的模型特征量,作为结果,能够进一步提高由图像属性判别装置10进行的场景判别结果的精度。
另外,图像属性判别装置10也可以包括异质区域提取单元11a,这时,即使在图像数据中包含字符以外的异质物,也能够不受其影响而正确地执行场景判别处理。
本发明不限于上述的各实施方式,在权利要求所示的范围内能够进行各种变更,对不同的实施方式中分别公开的技术手段进行适当组合而获得的实施方式也包含在本发明的技术范围内。
最后,图像属性判别装置10以及属性判别支援装置20的各块,尤其是异质区域提取单元11a、字符区域提取单元11、对象像素确定单元12、场景判别单元13以及模型特征量计算单元18可以通过硬件逻辑来构成,也可以如下那样使用CPU通过软件来实现。
即,图像属性判别装置10以及属性判别支援装置20配备有执行用于实现各功能的控制程序的命令的CPU(中央处理单元)、存储了上述程序的ROM(只读存储器)、展开上述程序的RAM(随机存取存储器)、存储上述程序以及各种数据的存储器等的存储装置(记录介质)等。并且,本发明的目的也可以通过将以计算机可读取的方式记录了作为用于实现上述的功能的软件的图像属性判别装置10(或者属性判别支援装置20)的控制程序的程序代码(执行形式程序、中间代码程序、源程序)的记录介质提供给上述图像属性判别装置10(或者属性判别支援装置20),并由该计算机(或者CPU和MPU)读出并执行记录介质中记录的程序而达成。
作为上述记录介质,例如可以采用磁带和盒式带等带系列、包含软(注册商标)盘/硬盘等磁盘和CD-ROM/MO/MD/DVD/CD-R等光盘的盘系列、IC卡(包含存储卡)/光卡等卡系列、或者掩膜ROM/EPROM/EEPROM/闪速ROM等半导体存储器系列等。
此外,也可以构成为可将图像属性判别装置10(或者属性判别支援装置20)连接到通信网络,经由通信网络而提供上述程序代码。作为该通信网络,不特别限定,例如可以利用互联网、内部网(intranet)、备用网、LAN、ISDN、VAN、CATV通信网、虚拟专用网(virtual private network)、电话线路网、移动体通信网、卫星通信网等。此外,作为构成通信网络的传输介质,不特别限定,例如可以利用IEEE1394、USB、电力线运输、线缆TV线路、电话线、ADSL线路等的有线,也可以利用IrDA和遥控器那样的红外线、蓝牙(注册商标)、802.11无线、HDR、便携式电话网、卫星线路、地波数字网等的无线。另外,本发明也可以通过以电子传输方式具体化了上述程序代码的、嵌入到载波的计算机数据信号的形式来实现。
根据本发明的图像属性判别装置或者属性判别支援装置,能够高精度地判别图像数据的属性,因此能够很好地用于根据属性的判别结果对图像数据实施按照属性的处理的各种图像处理装置。例如,能够将本发明利用到数字照片框、数字照相机、数字摄影机、数字录影机/播放器、数字电视、个人电脑、打印机、扫描仪等。

Claims (14)

1.一种图像属性判别装置,基于图像数据所显现出的内容来判别该图像数据的属性,其特征在于,该图像属性判别装置包括:
异质区域确定部件,从图像数据确定异质区域,该异质区域中包含有其属性与该图像数据原本所显现出的内容不同的异质物;以及
属性判别部件,基于由上述图像数据的各像素中除上述异质区域内的各像素以外的像素组所提取的特征量,判别上述图像数据的属性。
2.如权利要求1所述的图像属性判别装置,其特征在于,
上述异质区域确定部件将包含字符的字符区域确定为异质区域。
3.如权利要求1或2所述的图像属性判别装置,其特征在于,包括:
还原部件,对于上述图像数据的各像素中没有成为特征量的提取对象的对象外像素的区域,还原与对象像素相同性质的像素。
4.如权利要求1所述的图像属性判别装置,其特征在于,包括:
对象像素决定部件,关于通过上述异质区域确定部件所确定的异质区域内的各像素,决定是否为通过上述属性判别部件提取特征量的对象像素,
上述属性判别部件基于由在上述图像数据的各像素中除通过上述对象像素决定部件决定为不是对象的对象外像素以外的像素组所提取的特征量,判别上述图像数据的属性。
5.如权利要求4所述的图像属性判别装置,其特征在于,
上述异质区域确定部件将包含字符的字符区域确定为异质区域,
图像属性判别装置还包括:
字符识别部件,识别上述异质区域确定部件所确定的字符区域内的字符,
上述对象像素决定部件在字符识别结果的可靠度为规定值以下的情况下,将上述字符区域内的像素决定为对象像素,其中,该可靠度表示上述字符区域内的字符为通过上述字符识别部件所识别出的字符的准确性。
6.如权利要求5所述的图像属性判别装置,其特征在于,包括:
关键字提取部件,从上述字符识别部件识别的字符或者字符串,提取关键字;以及
字关联性存储单元,存储通过上述关键字提取部件所提取的各关键字与通过上述属性判别部件所判别的各属性之间的关联性,
上述属性判别部件参照上述字关联性存储单元,
考虑从上述图像数据的字符区域所提取的关键字与各属性之间的关联性的高低而判别该图像数据的属性。
7.如权利要求6所述的图像属性判别装置,其特征在于,
上述属性判别部件将上述图像数据的特征量与按照多个种类的属性的每个属性而预先决定的模型特征量进行对照,并根据其相似度,算出用于表示上述图像数据的属性为该属性的准确性的属性判别结果的可靠度,从而判别上述图像数据的属性,
上述字关联性存储单元将上述关键字与上述属性之间的关联性作为用于与上述属性判别结果的可靠度相加的得分来存储。
8.如权利要求7所述的图像属性判别装置,其特征在于,包括:
还原部件,对于上述图像数据的各像素中没有成为特征量的提取对象的对象外像素的区域,还原与对象像素相同性质的像素,
上述还原部件仅在上述属性判别结果的可靠度低于规定值的情况下执行还原。
9.如权利要求7或8所述的图像属性判别装置,其特征在于,
上述属性判别部件在上述图像数据的各像素中没有成为特征量的提取对象的对象外像素的区域越宽时,将可靠度计算得越低。
10.如权利要求4所述的图像属性判别装置,其特征在于,
上述对象像素决定部件仅在上述图像数据中上述异质区域所占的面积为规定以上宽的情况下,将上述异质区域内的各像素决定为对象外像素。
11.如权利要求1所述的图像属性判别装置,其特征在于,包括:
模型特征量计算部件,在对本装置输入了图像数据和该图像数据的属性的指定时,使用由上述图像数据的各像素中除通过上述异质区域确定部件所确定的上述异质区域内的各像素以外的像素组所提取的特征量,算出所指定的属性的模型特征量,
上述属性判别部件将上述图像数据的特征量与通过上述模型特征量计算部件对每个属性算出的模型特征量进行对照,并根据其相似度来判别上述图像数据的属性。
12.一种属性判别支援装置,按每个属性决定图像属性判别装置所参照的模型特征量,图像属性判别装置基于图像数据所显现出的内容来判别该图像数据的属性,其特征在于,该属性判别支援装置包括:
异质区域确定部件,在对本装置输入了图像数据和该图像数据的属性的指定时,从该图像数据确定包含有其属性与所输入的图像数据原本所显现出的内容不同的异质物的异质区域;以及
模型特征量计算部件,使用由上述图像数据的各像素中除上述异质区域内的各像素以外的像素组所提取的特征量,算出所指定的属性的模型特征量。
13.一种图像属性判别方法,基于图像数据所显现出的内容来判别该图像数据的属性,其特征在于,该图像属性判别方法包括:
异质区域确定步骤,从图像数据确定包含有其属性与该图像数据原本所显现出的内容不同的异质物的异质区域;以及
属性判别步骤,基于由上述图像数据的各像素中除上述异质区域内的各像素以外的像素组所提取的特征量,判别上述图像数据的属性。
14.一种属性判别支援装置的控制方法,该属性判别支援装置按每个属性决定图像属性判别装置所参照的模型特征量,该图像属性判别装置基于图像数据所显现出的内容来判别该图像数据的属性,其特征在于,该属性判别支援装置的控制方法包括:
异质区域确定步骤,在对上述属性判别支援装置输入了图像数据和该图像数据的属性的指定时,从该图像数据确定包含有其属性与所输入的图像数据原本所显现出的内容不同的异质物的异质区域;以及
模型特征量计算步骤,使用由上述图像数据的各像素中除上述异质区域内的各像素以外的像素组所提取的特征量,算出所指定的属性的模型特征量。
CN201110045812.4A 2010-03-15 2011-02-25 图像属性判别装置及方法、属性判别支援装置及控制方法 Active CN102194227B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP058544/10 2010-03-15
JP2010058544A JP5556262B2 (ja) 2010-03-15 2010-03-15 画像属性判別装置、属性判別支援装置、画像属性判別方法、属性判別支援装置の制御方法、および、制御プログラム

Publications (2)

Publication Number Publication Date
CN102194227A true CN102194227A (zh) 2011-09-21
CN102194227B CN102194227B (zh) 2014-09-24

Family

ID=44059015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110045812.4A Active CN102194227B (zh) 2010-03-15 2011-02-25 图像属性判别装置及方法、属性判别支援装置及控制方法

Country Status (5)

Country Link
US (1) US9177205B2 (zh)
EP (1) EP2367138B1 (zh)
JP (1) JP5556262B2 (zh)
KR (1) KR20110103844A (zh)
CN (1) CN102194227B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025044A (zh) * 2017-03-30 2017-08-08 宇龙计算机通信科技(深圳)有限公司 一种定时方法及其设备
CN112088395A (zh) * 2018-06-07 2020-12-15 欧姆龙株式会社 图像处理装置、图像处理方法以及图像处理程序

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779338B (zh) * 2011-05-13 2017-05-17 欧姆龙株式会社 图像处理方法和图像处理装置
JP5718781B2 (ja) * 2011-09-30 2015-05-13 株式会社Screenホールディングス 画像分類装置および画像分類方法
US20130257755A1 (en) * 2012-04-03 2013-10-03 Hon Hai Precision Industry Co., Ltd. Display device for a structure
JP6578679B2 (ja) * 2015-03-10 2019-09-25 富士ゼロックス株式会社 画像処理装置及びプログラム
WO2019065582A1 (ja) * 2017-09-29 2019-04-04 富士フイルム株式会社 画像データ判別システム、画像データ判別プログラム、画像データ判別方法、及び撮像システム
CN111465949A (zh) * 2017-12-13 2020-07-28 索尼公司 信息处理设备、信息处理方法和程序
CN108765532B (zh) * 2018-05-04 2023-08-22 卢卡(北京)智能科技有限公司 儿童绘本模型建立方法、阅读机器人及存储设备
CN111291019B (zh) * 2018-12-07 2023-09-29 中国移动通信集团陕西有限公司 数据模型的相似判别方法及装置
US11805283B2 (en) 2019-01-25 2023-10-31 Gracenote, Inc. Methods and systems for extracting sport-related information from digital video frames
US11036995B2 (en) 2019-01-25 2021-06-15 Gracenote, Inc. Methods and systems for scoreboard region detection
US10997424B2 (en) 2019-01-25 2021-05-04 Gracenote, Inc. Methods and systems for sport data extraction
US11010627B2 (en) 2019-01-25 2021-05-18 Gracenote, Inc. Methods and systems for scoreboard text region detection
US11087161B2 (en) 2019-01-25 2021-08-10 Gracenote, Inc. Methods and systems for determining accuracy of sport-related information extracted from digital video frames
CN113610187B (zh) * 2021-08-19 2022-02-01 江西应用技术职业学院 基于图像技术的木材纹理提取及分类方法
US20230326048A1 (en) * 2022-03-24 2023-10-12 Honda Motor Co., Ltd. System, information processing apparatus, vehicle, and method

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11298736A (ja) * 1998-04-14 1999-10-29 Minolta Co Ltd 画像処理方法、画像処理プログラムが記録された可読記録媒体及び画像処理装置
JP2002218480A (ja) * 2001-01-23 2002-08-02 Minolta Co Ltd 画像撮影装置
JP2005122720A (ja) * 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 特定シーンの画像を選別する装置、プログラムおよびプログラムを記録した記録媒体
JP2005310123A (ja) * 2004-03-24 2005-11-04 Fuji Photo Film Co Ltd 特定シーンの画像を選別する装置、プログラムおよびプログラムを記録した記録媒体
US20080002864A1 (en) * 2006-06-29 2008-01-03 Eastman Kodak Company Using background for searching image collections
CN101137012A (zh) * 2006-07-25 2008-03-05 富士胶片株式会社 拍摄装置、方法及程序

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6366699B1 (en) * 1997-12-04 2002-04-02 Nippon Telegraph And Telephone Corporation Scheme for extractions and recognitions of telop characters from video data
US20050028194A1 (en) * 1998-01-13 2005-02-03 Elenbaas Jan Hermanus Personalized news retrieval system
US6175663B1 (en) * 1998-02-24 2001-01-16 Paravision Imaging, Inc. Method and apparatus for preserving background continuity in images
JP4026100B2 (ja) * 1998-11-30 2007-12-26 ソニー株式会社 情報処理装置および方法、並びに記録媒体
US6987520B2 (en) * 2003-02-24 2006-01-17 Microsoft Corporation Image region filling by exemplar-based inpainting
JP4243144B2 (ja) 2003-06-24 2009-03-25 日本放送協会 文字領域抽出装置、文字領域抽出方法及び文字領域抽出プログラム
DE602005025088D1 (de) * 2004-03-03 2011-01-13 Nec Corp Bildähnlichkeits-berechnungssystem, bildsuchsystem, bildähnlichkeits-berechnungsverfahren und bildähnlichkeits-berechnungsprogramm
US7551205B2 (en) * 2004-03-22 2009-06-23 Fujifilm Corporation Image processing method, image processing system, image processing apparatus and image processing program
JP4831314B2 (ja) * 2006-01-26 2011-12-07 株式会社ニコン 対象物認識システム
JP2008015599A (ja) * 2006-07-03 2008-01-24 Nikon Corp 電子機器および検索補助プログラム
KR100836197B1 (ko) * 2006-12-14 2008-06-09 삼성전자주식회사 동영상 자막 검출 장치 및 그 방법
JP2008228087A (ja) * 2007-03-14 2008-09-25 Seiko Epson Corp 情報処理方法、情報処理装置及びプログラム
JP5005633B2 (ja) * 2008-07-30 2012-08-22 株式会社リコー 画像検索装置、画像検索方法、情報処理プログラム及び記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11298736A (ja) * 1998-04-14 1999-10-29 Minolta Co Ltd 画像処理方法、画像処理プログラムが記録された可読記録媒体及び画像処理装置
JP2002218480A (ja) * 2001-01-23 2002-08-02 Minolta Co Ltd 画像撮影装置
JP2005122720A (ja) * 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 特定シーンの画像を選別する装置、プログラムおよびプログラムを記録した記録媒体
JP2005310123A (ja) * 2004-03-24 2005-11-04 Fuji Photo Film Co Ltd 特定シーンの画像を選別する装置、プログラムおよびプログラムを記録した記録媒体
US20080002864A1 (en) * 2006-06-29 2008-01-03 Eastman Kodak Company Using background for searching image collections
CN101137012A (zh) * 2006-07-25 2008-03-05 富士胶片株式会社 拍摄装置、方法及程序

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
QINGSHUO CHEN 等: "The new approach for captopril detection employing triangular gold nanoparticles-catalyzed luminol chemiluminescence", 《TALANTA》 *
SARAH PELLETIER 等: "HPLC simultaneous analysis of thiols and disulfides: on-line reduction and indirect fluorescence detection without derivatization", 《ANALYST》 *
VICTOR WU等: "Textfinder: an automatic system to detect and recognize text in images", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
YANHUI WANG等: "Combining Building and Behavior Models for Evacuation Planning", 《COMPUTER GRAPHICS AND APPLICATIONS, IEEE》 *
李倩倩: "《北京化工大学硕士研究生学位论文》", 31 October 2012 *
沙金华等: "豌豆分离蛋白提取工艺的研究", 《食品工业科技》 *
赵新淮等: "《食品蛋白质-结构、性质与功能》", 30 April 2009, 科学出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025044A (zh) * 2017-03-30 2017-08-08 宇龙计算机通信科技(深圳)有限公司 一种定时方法及其设备
CN107025044B (zh) * 2017-03-30 2021-02-23 宇龙计算机通信科技(深圳)有限公司 一种定时方法及其设备
CN112088395A (zh) * 2018-06-07 2020-12-15 欧姆龙株式会社 图像处理装置、图像处理方法以及图像处理程序
CN112088395B (zh) * 2018-06-07 2024-01-16 欧姆龙株式会社 图像处理装置、图像处理方法以及计算机可读存储介质

Also Published As

Publication number Publication date
EP2367138B1 (en) 2018-04-04
JP2011192091A (ja) 2011-09-29
US20110222775A1 (en) 2011-09-15
JP5556262B2 (ja) 2014-07-23
CN102194227B (zh) 2014-09-24
US9177205B2 (en) 2015-11-03
EP2367138A1 (en) 2011-09-21
KR20110103844A (ko) 2011-09-21

Similar Documents

Publication Publication Date Title
CN102194227B (zh) 图像属性判别装置及方法、属性判别支援装置及控制方法
US8532374B2 (en) Colour document layout analysis with multi-level decomposition
US7272269B2 (en) Image processing apparatus and method therefor
CN101848303B (zh) 图像处理装置、图像形成装置以及图像处理方法
WO2018049084A1 (en) Methods and systems for human imperceptible computerized color transfer
US20100033745A1 (en) Image processing method and apparatus
CN104054047B (zh) 图像处理装置以及图像形成装置
CN101529495A (zh) 图像遮罩生成
CN102956029B (zh) 图像处理装置以及图像处理方法
CN101184137A (zh) 图像处理方法和装置、图像读取及形成装置、存储媒体
CN101753764A (zh) 图像处理装置及方法、图像读取装置、图像发送装置
CN107622497A (zh) 图像裁剪方法、装置、计算机可读存储介质和计算机设备
CN102473278B (zh) 图像处理装置、图像处理方法和存储介质
CN101320425B (zh) 图像处理装置及方法、图像形成装置
Bouillon et al. Grayification: a meaningful grayscale conversion to improve handwritten historical documents analysis
CN102375981A (zh) 图像处理装置
US7539671B2 (en) Image processing apparatus, image forming apparatus, method for searching processed document, program for searching processed document, and recording medium
JP6003574B2 (ja) 画像処理装置及び画像処理プログラム
JP4164907B2 (ja) カラー画像の領域統合方法およびプログラム記憶媒体
AU2007249103B2 (en) Document analysis method
JP4507673B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JP2002236921A (ja) 文書画像認識方法、文書画像認識装置及び記録媒体
CN107026976A (zh) 一种图像处理方法及终端
Gau et al. Image Acquisition & Processing Routines for Damaged Manuscripts
Matulic Image-Based Technique To Select Visually Salient Pages In Large Documents.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant