CN101551859B - 图像辨别装置及图像检索装置 - Google Patents
图像辨别装置及图像检索装置 Download PDFInfo
- Publication number
- CN101551859B CN101551859B CN2008100904068A CN200810090406A CN101551859B CN 101551859 B CN101551859 B CN 101551859B CN 2008100904068 A CN2008100904068 A CN 2008100904068A CN 200810090406 A CN200810090406 A CN 200810090406A CN 101551859 B CN101551859 B CN 101551859B
- Authority
- CN
- China
- Prior art keywords
- image data
- connected region
- document image
- view data
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 230000002596 correlated effect Effects 0.000 abstract 1
- 238000000034 method Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 15
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000005755 formation reaction Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 239000000758 substrate Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000002955 isolation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013329 compounding Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/162—Quantising the image signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/18086—Extraction of features or characteristics of the image by performing operations within image blocks or by using histograms
- G06V30/18095—Summing image-intensity values; Projection and histogram analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本发明提供一种图像辨别装置及图像检索装置。预处理部(120)对所输入的图像数据进行2值化,算出整体黑像素比例。在特征抽出部(121)中,检索2值图像数据中所包含的连通区域,并检索外接于该连通区域的外接矩形。对于所检测到的外接矩形,基于外接矩形的大小和矩形黑像素比例,从全部的连通区域中去除规定的连通区域。使用去除了不需要的结合像素之后的剩余的连通区域,来生成以外接矩形的大小为级别、以连通区域数为次数的柱状图。辨别部(122),基于与所生成的柱状图相关联的信息、和上述整体黑像素比例,来辨别所输入的图像数据是文档图像数据还是非文档图像数据。
Description
技术领域
本发明涉及对所输入的图像数据是文档图像数据还是非文档图像数据进行辨别的图像辨别装置及具有该装置的图像检索装置。
背景技术
在复印机、传真装置、打印机及兼有多个上述功能的复合机等的图像形成装置中,有具备如下功能的装置,即:将所输入的原稿图像等的图像数据存储在大容量的存储装置中,且只要是曾经输入并登记过的图像数据,则随时能够将其读出并再次输出的功能。
可再次输出的功能虽然便利,但如果登记的数据量增多,则搜索欲再次输出的数据的操作会变得较困难,因此,从多个图像数据之中检索所需的图像数据的图像检索技术变得尤为重要。
在检索图像数据时,需要对已登记的图像数据和所输入的图像数据进行比较,并算出相似性,但是已登记的图像数据中,文档图像数据和非文档图像数据(照片、图形、图解等)混在一起。
在以往的技术中,例如,在中国专利第200510005334.9号说明书中所记载的图像检索装置中,对文档图像数据和非文档图像数据这两种图像数据使用相同的算法来算出特征量,而没有如对文档图像数据和非文档图像数据进行辨别的处理步骤。
另一方面,作为辨别图像数据中所应用的技术,有区域分离技术。区域分离技术是为实施下述处理而预先进行的处理步骤,即:例如,将一个图像数据分离为文字区域、照片区域、点状区域、基底区域等多个区域,并针对每个区域实施适当的处理(过滤处理、中间色调处理)。
这种区域分离技术,公开在美国专利第5465304号说明书、美国专利第7085420号说明书、中国专利第200510063768.4号说明书等中。
此外,日本专利特开平4-309191号公报记载的区域属性识别装置,检测黑条和黑条的连结部位,完成连结后就检测出黑像素群的外接矩形。制作以该外接矩形的高度或宽度为次数的柱状图,并当微小矩形的出现次数在阈值以上时看作照片区域,在偏差比柱状图的标准偏差小时看作文字区域,而当偏差比柱状图的标准偏差大时看作图形区域。
在以往的技术中,因为对文档图像数据和非文档图像数据这两种图像数据使用相同的算法来算出特征量,所以不能充分提高检索精度。需要将检索时所输入的数据和全部的登记图像数据进行比较,因此,登记图像数据越多检索处理所花费的时间就多。
此外,关于文档图像数据和非文档图像数据的任意一个进行辨别的辨别精度,利用以往技术是得不到充分的精度的。
发明内容
本发明的目的是提供一种可提高辨别精度的图像辨别装置,另一目的是提供可缩短检索处理所需要的时间,且可提高检索精度的图像检索装置。
本发明为一种图像辨别装置,其对所输入的图像数据是文档图像数据还是非文档图像数据进行辨别,其特征在于,具有:
2值化处理部,其对所输入的图像数据进行2值化,而转换成2值图像数据,并算出黑像素数在构成图像数据的全部像素数中的比例即整体黑像素比例;
特征抽出部,其检测上述2值图像数据中所包含的、相同颜色的像素连结并集合而成的像素群即连通区域,并检测出外接于该连通区域的外接矩形,生成以级别为外接矩形的大小,且以次数为连通区域数的柱状图;
图像辨别部,其基于与所生成的柱状图相关联的信息、和上述整体黑像素比例,对所输入的图像数据是文档图像数据还是非文档图像数据进行辨别。
根据本发明,首先利用2值化处理部,对所输入的图像数据进行2值化,并算出整体黑像素比例。
在特征抽出部中,检索出上述2值图像数据中所包含的、相同颜色的像素连结并集合而成的像素群即连通区域,并检测出外接于该连通区域的外接矩形,生成以级别为外接矩形的大小、且以次数为连通区域数的柱状图。
图像辨别部基于与所生成的柱状图相关联的信息、和上述整体黑像素比例,对所输入的图像数据是文档图像数据还是非文档图像数据进行辨别。
通过基于与柱状图相关联的信息、和上述整体黑像素比例,可以缩短辨别处理所需要的时间,并可以提高辨别精度。
此外,本发明的特征还在于,上述特征抽出部,基于外接矩形的大小、和构成连通区域的像素数在外接矩形内的全部像素中的比例,即矩形黑像素比例,从全部连通区域中去除外接矩形的大小比规定的大小小的连通区域,进而去除上述矩形黑像素比例在规定范围之外的连通区域,使用剩余的连通区域来生成柱状图。
根据本发明,上述特征抽出部,作为第1阶段,去除外接矩形的大小比规定大小小的连通区域,作为第2阶段,去除上述矩形黑像素比例在规定范围以外的连通区域。使用去除这种不需要的连通区域之后剩余的连通区域来制作柱状图。
当外接矩形的大小极端小的情况下,很多为点或线条,并且在辨别是文档图像数据还是非文档图像数据时,对辨别精度的影响小,因此,通过预先去除这些连通区域,可以抑制生成柱状图时的运算量。
矩形黑像素比例极端大的情况,例如为油墨污点,若不能预先去除单纯的污点等时,则如果污点部分类似于文字的外接矩形,则尽管不是文字却倾向于辨别为文档图像数据,如果污点部分类似于图形的外接矩形,则尽管不是图像却倾向于辨别为非文档图像数据,结果就引起误辨别,从而成为降低辨别精度的原因。
通过这样地去除连通区域,可以抑制柱状图处理中的运算量,并且可以提高辨别精度。
此外,本发明中,上述图像辨别部,当设外接矩形的大小最小的等级的连通区域数为r1、设上述结合像素数r1在全部结合像素数中的比例为r2、设上述整体黑像素比例为r0时,以F=r1×r2/r0的方式求出辨别特征量F,并基于辨别特征量F来辨别所输入的图像数据是文档图像数据还是非文档图像数据。
根据本发明,在文档图像数据的柱状图中,在外接矩形的大小最小级别的连通区域数上出现显著的峰值,因此,r1和r2比较大,整体的黑像素少,所以r0小。从而,F有可能倾向于大值。相反,在非文档图像数据的柱状图中,各级别的的连通区域数平坦,未出现显著的峰值,所以,r1和r2比较小,整体的黑像素多,因此r0大。从而,F有可能倾向于小值。
通过使用辨别特征量F来进行辨别,可以进一步提高辨别精度。
此外,本发明为一种从预先登记的图像数据中检索类似于所输入的图像数据的图像数据的图像检索装置,其特征在于,具有:
技术方案1所记载的图像辨别装置;
特征数据生成部,其基于上述图像辨别装置的辨别结果,如果所输入的图像数据为文档图像数据,则生成文档图像数据用的特征数据,如果是非文档图像数据,则生成非文档图像数据用的特征数据;
检索部,其基于预先登记的图像数据的特征数据、和利用上述特征数据生成部生成的特征数据,从预先登记的图像数据中检索类似于所输入的图像数据的图像数据;
显示部,其基于检索部的检索结果,对预先登记的图像数据之中的、类似于所输入的图像数据的图像数据进行显示。
根据本发明,特征数据生成部,基于上述图像辨别装置的辨别结果,如果所输入的图像数据为文档图像数据,则生成文档图像数据用的特征数据,如果是非文档图像数据,则生成非文档图像数据用的特征数据。在检索部,基于预先登记的图像数据的特征数据、和利用上述特征数据生成部生成的特征数据,检索到类似于所输入的图像数据的图像数据后,显示部对预先登记的图像数据之中的、类似于所输入的图像数据的图像数据进行显示。
通过在检索处理之前辨别所输入的图像数据是文档图像数据还是非文档图像数据,可以算出最佳的特征量,并可以提高检索精度。
此外,本发明的特征为,
将预先登记的图像数据分类为文档图像数据和非文档图像数据,并进行登记;
上述检索部,基于上述图像辨别装置的辨别结果,如果所输入的图像数据是文档图像数据,则以作为文档图像数据而登记的图像数据为检索对象,如果所输入的图像数据为非文档图像数据,则以作为非文档图像数据而登记的图像数据为检索对象。
根据本发明,如果所输入的图像数据为文档图像数据,则以作为文档图像数据而登记的图像数据为检索对象,如果所输入的图像数据为非文档图像数据,则以作为非文档图像数据而登记的图像数据为检索对象。
由此,在检索部中可以对作为比较特征量的对象的图像数据数进行限定,所以可以缩短检索处理所需要的时间。
本发明的目的、特点、以及优点,通过下述的详细说明和附图而变得更加明确。
附图说明
图1是表示图像检索装置10的机械性构成的框图。
图2是表示图像检索装置10的功能性构成的框图。
图3是表示辨别部12的功能性构成的框图。
图4是表示由图像辨别部12进行的辨别处理的流程图。
图5是表示由预处理部120进行的预处理的流程图。
图6是表示特征抽出部121的特征抽出处理的流程图。
图7是将柱状图可视化了的曲线图。
图8是表示由辨别部122进行的辨别处理的流程图。
具体实施方式
以下,参照附图对本发明的优选实施方式详细地进行说明。
图1是表示图像检索装置10的机械性构成的框图。图像检索装置10包括:处理器4;存储处理器4进行实际处理用的软件等的外部存储装置5。
处理器4进行辨别处理,即,对所输入的图像数据(以下称作“输入图像数据”)是文档图像数据还是非文档图像数据进行辨别,并进一步基于该辨别结果对输入图像数据和预先登记的多个图像数据(以下称作“登记图像数据”)进行对照,从而实际进行检索并显示类似于输入图像数据的登记图像数据的图像检索处理等。处理器4中的实际处理,利用存储于外部存储装置5中的软件来执行。处理器4,例如,利用通常的计算机主机等来构成。
外部存储装置5,例如可以利用可进行高速处理的硬件等构成。外部存储装置5,也可以是为大量保存登记图像数据而使用光盘等大容量器件的构成。此外,在辨别处理中和检索处理中,在各处理步骤阶段中生成的临时数据等,可以存储在外部存储装置5中,也可以存储于内置于处理器4中的半导体存储器中。
在文档处理装置10上连接有键盘1,并且还连接有显示装置3。键盘1用于输入执行各种软件用的指示等。
显示装置3进行基于输入图像数据和登记图像数据的图像显示和检索结果的显示等。
图像检索装置10上还连接有图像扫描仪2。图像扫描仪2用于读取打印有图像的原稿,并读入输入图像数据。
输入图像数据的取得,除来自图像扫描仪2的输入之外,还可以经由通信I/F(接口)6,通过数据通信从网络上的其它装置取得。通信I/F6,可以利用连接于LAN(Local Area Network)用的LAN卡、和连接于公共交换电话网以进行数据通信用的调制解调器卡等来实现。
图2是表示图像检索装置10的功能性构成的框图。
图像检索装置10的构成包括:输入部11、图像辨别部12、检索部13、显示部14以及登记图像存储部15。
输入部11输入输入图像数据、登记图像数据。在图1所示的硬件构成中,图像扫描仪2、通信I/F6等在功能上相当于输入部11。登记图像数据是在输入输入图像数据之前预先输入的图像数据,存储在登记图像存储部17中。
图3是表示辨别部12的功能性构成的框图。
图像辨别部12的构成包括:预处理部120、特征抽出部121、辨别部122。
图像辨别部12,对利用输入部11而输入的图像数据是文档图像数据还是非文档图像数据进行辨别,并向后续的检索部13输出其辨别结果。在检索部13中,根据输入图像数据是文档图像数据还是非文档图像数据,来变更检索处理所需的特征量,并算出适于图像数据的特征量。
图4是表示由图像辨别部12进行的辨别处理的流程图。在步骤A1中,预处理部120,作为对所输入的图像数据的预处理而实施2值化处理。在步骤A2中,特征抽出部121,基于2值化后的图像数据,进行结合像素的外接矩形的检索以及外接矩形的统计处理(生成柱状图)。在步骤A3中,辨别部122,基于统计处理结果,对输入图像数据是文档图像数据还是非文档图像数据进行辨别,并在步骤A4中,向检索部13输出辨别结果。
以下,对各步骤详细说明。
由预处理部120进行的步骤A1的预处理,例如示于图5的流程图。
输入图像数据后,在步骤B1中,判断所输入的图像数据是否是彩色图像数据。如果是彩色图像数据,则进入步骤B2,进行基于明度成分的灰度化,而转换成灰度图像数据。如果不是彩色图像,则进入步骤B3,判断是否是灰度图像数据。如果是灰度图像数据则进入步骤B4,并使用预先确定的阈值来进行2值化,而将灰度图像数据转换成2值图像数据。如果不是灰度图像数据,则即是2值图像数据,所以结束处理。
2值图像数据,是将构成图像数据的各像素的像素值设为0或1(白像素或黑像素)的任意一个、即所谓灰度图像数据,就是对灰度图像数据的各像素的灰度(浓度)进行阈值处理,而将全部像素分类为黑像素和白像素。
此外,在步骤B4中,算出黑像素在构成作为辨别对象的图像数据的全部像素数中的比例,即算出整体黑像素比例。
由特征抽出部121进行的步骤A2的特征抽出处理,例如示于图6的流程图。
在输入由预处理部120进行2值化处理后的2值图像数据后,在步骤C1中,检测出2值图像数据中的全部连通区域。
所谓连通区域是指将连结的相同颜色的像素集合起来的像素群。检测黑像素的连通区域还是检测白像素的连通区域,取决于所输入的图像数据n的基底是黑像素还是白像素。一般情况下基底为白像素较多,并用黑像素来描绘文字图像或图形图像,因此,在本实施方式中,对检测黑像素的连通区域的情况进行说明。当基底为黑像素的情况下,利用白像素来描绘文字图像和图形图像,即为空白文字或空白图形,在此情况下,检测白像素的连通区域。
并且,可以利用公知的基底辨别处理来辨别基底是黑像素还是白像素,例如,当上述的整体黑像素比例小于规定比例时,辨别为基底是白像素,当比规定比例大时,辨别为基底是黑像素。
连通区域的检测,可以利用公知的检测方法来进行检测。例如,对于1行而言,检测在该行中相互邻接的黑像素的连续部分(黑条),并按每一行存储黑条的扫描宽度和黑条两端的黑像素的坐标。坐标,例如,预先将平行于行的方向设为x轴,将正交于行的方向设为y轴。
对在y方向上隔着一个关注行的上下行的黑条而言,如果其两端的黑像素的x坐标在关注行的各黑条两端的黑像素坐标的x坐标范围内,则可以将关注行的该黑条、与以x坐标在范围内的黑像素为端部像素的黑条,看作在y方向上连结。
这样一来,一边依次挪动关注行,一边对所有图像数据检测x方向的连结部分和y方向的连结部分,从而检测出黑像素的连通区域。
在检测出黑像素的连通区域后,生成外接于所检测出的全部连通区域的外接矩形。外接矩形是由平行于x方向的边和平行于y方向的边构成的矩形,且设x方向的边长为矩形宽度,设y方向的边长为矩形高度。
外接矩形的生成,可以利用公知的生成方法来生成。例如,在检测出连通区域时,因为已经检测出各黑条两端的黑像素的坐标,所以,以全部黑条为对象,抽出x坐标的最小值和最大值,并将最大值和最小值的差值作为矩形的宽度(像素数)来算出。此外,以构成连通区域的全部黑条为对象,抽出y坐标的最小值和最大值,并将最大值和最小值的差值作为矩形的高度(像素数)来算出。
在本发明中,进一步对全部结合像素,算出在外接矩形内的像素中黑像素所占的比例,亦即算出矩形黑像素比例。如上所述,由于算出作为外接矩形的尺寸信息的矩形的宽度和矩形的高度,所以,使用这些信息来算出外接矩形内的全部像素数,并根据构成连通区域的全部黑条的扫描宽度的总和来算出黑像素数。
因此,可以利用(构成连通区域的黑像素数)/(外接矩形内的全部像素数)的计算式来算出矩形黑像素比例。
如以上所述,在步骤C1中,与各连通区域相关联地在规定存储区域中,存储相对于2值图像数据中的全部的连通区域而言,构成连通区域的黑像素的位置(坐标)、外接矩形的位置(坐标)、外接矩形的矩形宽度、矩形高度以及矩形黑像素比例。
接下来,在步骤C2中,在进行统计处理之前进行连通区域的挑选。这里的挑选,以去除统计处理中不使用的连通区域为目的。步骤C2中的挑选,即连通区域的去除经两个阶段进行。
第1阶段的挑选为基于外接矩形的尺寸的挑选。
对外接矩形的矩形宽度和矩形高度预先设定阈值(例如,0.4),对阈值和矩形宽度及矩形高度进行比较,当矩形宽度及矩形高度的任意一个小于阈值的情况下,去除该外接矩形的连通区域。
矩形宽度或矩形高度极端小的情况下,很多为点或线条,在辨别是文档图像数据还是非文档图像数据时,对辨别精度的影响小,因此,通过去除该连通区域,可以抑制统计处理中的运算量。
第2阶段的挑选为基于矩形黑像素比例的挑选。
针对矩形黑像素比例预先设定规定范围(例如0.05~0.8),对规定范围和矩形黑像素比例进行比较,在矩形黑像素比例在规定范围以外的情况下,去除该外接矩形的连通区域。
矩形黑像素比例极端小的情况,例如为斜线的线条等,对辨别精度的影响小,所以,通过去除该连通区域,可以抑制后续的统计处理中的运算量。
矩形黑像素比例极端大的情况,例如为油墨污点,若不能预先去除单纯的污点等,则如果污点部分类似于文字的外接矩形,则尽管不是文字却倾向于辨别为文档图像数据,如果污点部分类似于图形的外接矩形,则尽管不是图形却倾向于辨别为非文档图像,其结果是引起误辨别,从而成为降低辨别精度的原因。
通过基于矩形黑像素比例来进行挑选,可以抑制后续的统计处理的运算量,并且能提高辨别精度。
如以上所述,在步骤C2中,进行2阶段的挑选,在统计处理之前预先删除不需要的连通区域,在统计处理中仅使用挑选后剩余的连通区域。
在步骤C3中,使用挑选后的连通区域进行统计处理。
统计处理具体地讲是柱状图的生成。全部的连通区域,因为具有矩形宽度和矩形高度的尺寸信息,所以,使用这些尺寸信息来生成柱状图。
在这里生成的柱状图,是以外接矩形的尺寸(矩形宽度或矩形高度)为级别、并以级别所包含的连通区域数为次数而生成的。
生成的柱状图的级别,由图像数据整体的宽度W或高度H来决定。设级别数为N时,矩形宽度比1×W/N小的连通区域,以第1级别所包含的连通区域为次数进行计数。从而,矩形宽度为k×W/N~(k+1)×W/N的范围内包含的连通区域,以第k级别中所包含的连通区域为次数进行计数。
若将所制作的柱状图可视化为曲线图,则例如,如图7所示横轴为尺寸,纵轴为连通区域数的次数分布曲线图。
图7(a)表示文档图像数据的柱状图的例子,图7(b)表示非文档图像数据的柱状图的例子。当连通区域是文字的情况下,外接矩形近似于正方形,且包含多个相同尺寸的连通区域,因此,作为柱状图,特征在于,主要在小尺寸级别的连通区域数上出现显著的峰值。此外,当连通区域是非文字的情况下,连通区域为点状、线状、块儿状等,形状没有规则性,大小也比较零散。因此,作为柱状图,特征在于,各级别的连通区域数平坦,未出现显著的峰值。
并且,在本发明中,即使不对柱状图进行曲线化并显示,也可以完成后续的处理,不过,也可以构成为利用显示部14来显示进行曲线化后的柱状图。
辨别部122可以基于如上述的柱状图的特征,来辨别输入图像数据是文档图像数据还是非文档图像数据。
作为与从特征抽出部121向辨别部122输出的柱状图相关联的信息,例如,有整体黑像素比例r0、第1级别连通区域数r1,第1级别的连通区域数相对于全部连通区域数的比例r2、以及辨别处理中所使用的特征量(辨别特征量)F。辨别特征量F利用F=r1×r2/r0来算出。
根据柱状图的特征,文档图像数据,由于在第1级别连通区域数上出现显著的峰值,所以r1和r2较大,整体的黑像素少,因此r0小。从而,F有可能为大值。
相反,非文档图像数据,由于各级别的连通区域数平坦,未出现显著的峰值,所以r1和r2较小,整体的黑像素多,因此r0大。从而,F有可能为小值。
由辨别部122进行的步骤A3中的辨别处理,例如,示于图8的流程图。在辨别处理中,对辨别特征量F和两个阈值TH1及TH2(>TH1)进行比较,并进行阈值处理。
作为与利用特征抽出部121所生成的柱状图相关联的信息,输入特征量F后,在步骤D1中,对F和TH2进行比较,判断F是否大于TH2。如果F大于TH2,则在步骤D2中判断为输入图像数据是文档图像数据。如果F小于等于TH2,则在步骤D3中,对F和TH1进行比较,判断F是否小于TH1。如果F小于TH1,则在步骤D4中判断为输入图像数据是非文档图像数据。如果F大于等于TH1,即如果F为TH1和TH2之间的值,则判断为不能辨别。
由辨别部122进行的步骤A4中的输出处理,向检索部13输出在步骤A3的辨别结果。
在检索部13中,在检索输入图像数据时,生成输入图像数据的检索用的特征数据,并与登记图像数据的特征数据进行比较。由于在文档图像数据的情况下和在非文档图像数据的情况下应生成的输入图像数据的特征数据的种类不同,所以,可以基于从图像辨别部12输入的辨别结果,来生成适当的特征数据。
作为文档图像数据的特征数据,例如,可以使用对文档图像数据进行文字识别所得到的文本数据。作为非文档图像数据的特征数据,例如,如果非文档图像数据是灰度图像,则可以使用利用柱状图生成处理而得到的亮度柱状图,如果非文档图像数据是彩色图像,则可以使用利用与RGB的各颜色成分对应的柱状图生成处理所得到的亮度柱状图。
将针对输入图像数据生成的特征数据、和预先生成的针对登记图像数据的特征数据进行比较,求出两个特征数据的类似度,并选择类似度最高的登记图像数据作为检索结果。
作为检索结果,不仅可以是类似度最高的登记图像数据,也可以从类似度高的顺序选择规定数的登记图像数据来作为检索结果。
在由检索部13输出检索结果后,显示部14对作为检索结果而选择的登记图像数据进行可视化的图像进行显示。
关于登记图像数据,优选为:在登记时实施如上述的图像辨别处理,并与表示是文档图像数据还是非文档图像数据的类别信息建立关联,并存储到登记图像存储部15中。
如果预先与类别信息建立关联,则对输入图像数据进行辨别的结果是,只要将与输入图像数据相同类别的登记图像数据作为检索对象即可,因此,可以不进行与全部登记图像数据的比较,从而可以缩短检索处理所需要的时间。
根据本发明,可以得到以下效果。
通过进行连通区域的挑选,预先去除不需要的要素,可以减少统计处理中的运算量,可以缩短辨别处理、检索处理中所需要的时间。此外,通过预先去除成为误辨别的原因的连通区域,可以提高辨别精度。
本发明,在不脱离其宗旨和主要特征的情况下,可以通过各种方式来实施。因此,上述实施方式只不过是在所有点上的单纯例示,本发明的范围表示在权利要求书中,而不受说明书正文的任何约束。并且,属于权利要求书的变形和变更也全部为本发明范围内的技术。
Claims (4)
1.一种图像辨别装置,对所输入的图像数据是文档图像数据还是非文档图像数据进行辨别,其特征在于,具有:
2值化处理部,其对所输入的图像数据进行2值化,而转换为2值图像数据,并算出黑像素数在构成图像数据的全部像素数中的比例即整体黑像素比例;
特征抽出部,其检索上述2值图像数据中所包含的、相同颜色的像素连结并集合而成的像素群即连通区域,并检索出外接于该连通区域的外接矩形,基于外接矩形的大小、和构成连通区域的像素数在外接矩形内的全部像素数中的比例即矩形黑像素比例,从全部的连通区域中去除规定的连通区域,使用剩余的连通区域生成以级别为外接矩形的大小、且以次数为连通区域数的柱状图;
辨别部,其基于与所生成的柱状图相关联的信息、和上述整体黑像素比例,对所输入的图像数据是文档图像数据还是非文档图像数据进行辨别,在设外接矩形的大小最小的级别的连通区域数为r1、设上述连通区域数r1在全部连通区域数中的比例为r2、设上述整体黑像素比例为r0时,以F=r1×r2/r0来算出辨别特征量F,并基于辨别特征量F来辨别所输入的图像数据是文档图像数据还是非文档图像数据。
2.根据权利要求1所述的图像辨别装置,其特征在于,
上述特征抽出部,去除外接矩形的大小小于规定大小的连通区域,进而去除上述矩形黑像素比例在规定范围之外的连通区域。
3.一种图像检索装置,从预先登记的图像数据中检索类似于所输入的图像数据的图像数据,其特征在于,具有:
权利要求1所述的图像辨别装置;
特征数据生成部,其基于上述图像辨别装置的辨别结果,如果所输入的图像数据是文档图像数据,则生成文档图像数据用的特征数据,如果是非文档图像数据,则生成非文档图像数据用的特征数据;
检索部,其基于预先登记的图像数据的特征数据、和在上述特征数据生成部生成的特征数据,从预先登记的图像数据中检索类似于所输入的图像数据的图像数据;
显示部,其基于检索部的检索结果,对预先登记的图像数据中类似于所输入的图像数据的图像数据进行显示。
4.根据权利要求3所述的图像检索装置,其特征在于,
将预先登记的图像数据,分类为文档图像数据和非文档图像数据来进行登记;
上述检索部,基于上述图像辨别装置的辨别结果,如果所输入的图像数据是文档图像数据,则以作为文档图像数据而登记的图像数据为检索对象,如果所输入的图像数据是非文档图像数据,则以作为非文档图像数据而登记的图像数据为检索对象。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100904068A CN101551859B (zh) | 2008-03-31 | 2008-03-31 | 图像辨别装置及图像检索装置 |
JP2008184320A JP4522468B2 (ja) | 2008-03-31 | 2008-07-15 | 画像判別装置、画像検索装置、画像検索プログラムおよび記録媒体 |
US12/353,440 US8385643B2 (en) | 2008-03-31 | 2009-01-14 | Determination of inputted image to be document or non-document |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100904068A CN101551859B (zh) | 2008-03-31 | 2008-03-31 | 图像辨别装置及图像检索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101551859A CN101551859A (zh) | 2009-10-07 |
CN101551859B true CN101551859B (zh) | 2012-01-04 |
Family
ID=41117307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008100904068A Expired - Fee Related CN101551859B (zh) | 2008-03-31 | 2008-03-31 | 图像辨别装置及图像检索装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8385643B2 (zh) |
JP (1) | JP4522468B2 (zh) |
CN (1) | CN101551859B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101957995A (zh) * | 2010-10-14 | 2011-01-26 | 华中科技大学 | 一种图像中关联像素点的检测提取方法及其应用 |
KR101992153B1 (ko) * | 2012-11-13 | 2019-06-25 | 삼성전자주식회사 | 문서 영상 인식 방법, 장치 및 이를 이용한 사진 촬영 방법 |
JP6161484B2 (ja) * | 2013-09-19 | 2017-07-12 | 株式会社Pfu | 画像処理装置、画像処理方法及びコンピュータプログラム |
CN105590082B (zh) * | 2014-10-22 | 2019-02-22 | 北京拓尔思信息技术股份有限公司 | 文档图像识别方法 |
CN106649851A (zh) * | 2016-12-30 | 2017-05-10 | 徐庆 | 近似商标查询结果排序方法、装置及其商标服务器 |
CN106874947B (zh) * | 2017-02-07 | 2019-03-12 | 第四范式(北京)技术有限公司 | 用于确定文字形近度的方法和设备 |
WO2019203920A1 (en) * | 2018-04-17 | 2019-10-24 | Hrl Laboratories, Llc | Hardware and system of bounding box generation for image processing pipeline |
CN109840278A (zh) * | 2019-01-28 | 2019-06-04 | 平安科技(深圳)有限公司 | 柱状图数据转换控制方法、装置、计算机设备及存储介质 |
US11776093B2 (en) * | 2019-07-16 | 2023-10-03 | University Of Florida Research Foundation, Incorporated | Automatic sharpness adjustment for imaging modalities |
CN111583247B (zh) * | 2020-05-12 | 2023-11-03 | 中南大学 | 一种图像二值化处理方法及装置 |
US20220335240A1 (en) * | 2021-04-15 | 2022-10-20 | Microsoft Technology Licensing, Llc | Inferring Structure Information from Table Images |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5465304A (en) * | 1992-04-06 | 1995-11-07 | Ricoh Corporation | Segmentation of text, picture and lines of a document image |
CN101133429A (zh) * | 2005-03-01 | 2008-02-27 | 公立大学法人大阪府立大学 | 文档和/或图像检索方法及其程序、文档和/或图像存储设备和检索设备 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04309191A (ja) * | 1991-04-08 | 1992-10-30 | Matsushita Electric Ind Co Ltd | 領域属性識別装置 |
JPH05282492A (ja) * | 1992-04-01 | 1993-10-29 | Matsushita Electric Ind Co Ltd | 文字サイズ抽出方法 |
JP3253356B2 (ja) * | 1992-07-06 | 2002-02-04 | 株式会社リコー | 文書画像の領域識別方法 |
JP2933801B2 (ja) * | 1993-06-11 | 1999-08-16 | 富士通株式会社 | 文字の切り出し方法及びその装置 |
US5860075A (en) * | 1993-06-30 | 1999-01-12 | Matsushita Electric Industrial Co., Ltd. | Document data filing apparatus for generating visual attribute values of document data to be filed |
US5588072A (en) * | 1993-12-22 | 1996-12-24 | Canon Kabushiki Kaisha | Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks |
JPH07220091A (ja) * | 1994-02-04 | 1995-08-18 | Canon Inc | 画像処理装置及び方法 |
JPH0822507A (ja) * | 1994-07-08 | 1996-01-23 | Matsushita Electric Ind Co Ltd | 文書認識装置 |
US5987171A (en) * | 1994-11-10 | 1999-11-16 | Canon Kabushiki Kaisha | Page analysis system |
JP3425834B2 (ja) * | 1995-09-06 | 2003-07-14 | 富士通株式会社 | 文書画像からのタイトル抽出装置および方法 |
US5933823A (en) * | 1996-03-01 | 1999-08-03 | Ricoh Company Limited | Image database browsing and query using texture analysis |
JP3606500B2 (ja) * | 1997-01-31 | 2005-01-05 | 株式会社リコー | 矩形分類方法 |
JPH1166230A (ja) * | 1997-08-11 | 1999-03-09 | Matsushita Electric Ind Co Ltd | 文書認識装置、文書認識方法及び媒体 |
JP4170441B2 (ja) * | 1997-11-28 | 2008-10-22 | 富士通株式会社 | 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体 |
JP3601658B2 (ja) * | 1997-12-19 | 2004-12-15 | 富士通株式会社 | 文字列抽出装置及びパターン抽出装置 |
US6173073B1 (en) * | 1998-01-05 | 2001-01-09 | Canon Kabushiki Kaisha | System for analyzing table images |
US6233353B1 (en) * | 1998-06-29 | 2001-05-15 | Xerox Corporation | System for segmenting line drawings from text within a binary digital image |
JP4454789B2 (ja) * | 1999-05-13 | 2010-04-21 | キヤノン株式会社 | 帳票分類方法及び装置 |
JP3995185B2 (ja) * | 2000-07-28 | 2007-10-24 | 株式会社リコー | 枠認識装置及び記録媒体 |
US7013309B2 (en) * | 2000-12-18 | 2006-03-14 | Siemens Corporate Research | Method and apparatus for extracting anchorable information units from complex PDF documents |
US7085420B2 (en) | 2002-06-28 | 2006-08-01 | Microsoft Corporation | Text detection in continuous tone image segments |
JP3950777B2 (ja) * | 2002-09-30 | 2007-08-01 | キヤノン株式会社 | 画像処理方法、画像処理装置および画像処理プログラム |
EP1555804A3 (en) * | 2004-01-19 | 2006-08-16 | Ricoh Company, Ltd. | Image processing apparatus, image processing program and storage medium |
JP4352940B2 (ja) | 2004-03-04 | 2009-10-28 | 富士ゼロックス株式会社 | 画像検索装置およびプログラム |
JP4477468B2 (ja) | 2004-10-15 | 2010-06-09 | 富士通株式会社 | 組み立て図面の装置部品イメージ検索装置 |
US8036497B2 (en) | 2005-03-01 | 2011-10-11 | Osaka Prefecture University Public Corporation | Method, program and apparatus for storing document and/or image using invariant values calculated from feature points and method, program and apparatus for retrieving document based on stored document and/or image |
US7545529B2 (en) * | 2005-03-24 | 2009-06-09 | Kofax, Inc. | Systems and methods of accessing random access cache for rescanning |
JP2006350867A (ja) * | 2005-06-17 | 2006-12-28 | Ricoh Co Ltd | 文書処理装置、文書処理方法、プログラム及び情報記録媒体 |
JP4771804B2 (ja) * | 2005-12-20 | 2011-09-14 | 富士通株式会社 | レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法 |
JP4791295B2 (ja) * | 2006-08-31 | 2011-10-12 | 富士通株式会社 | 罫線抽出プログラム、罫線抽出装置、罫線抽出方法 |
WO2009081791A1 (ja) * | 2007-12-21 | 2009-07-02 | Nec Corporation | 情報処理システム、その方法及びプログラム |
-
2008
- 2008-03-31 CN CN2008100904068A patent/CN101551859B/zh not_active Expired - Fee Related
- 2008-07-15 JP JP2008184320A patent/JP4522468B2/ja active Active
-
2009
- 2009-01-14 US US12/353,440 patent/US8385643B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5465304A (en) * | 1992-04-06 | 1995-11-07 | Ricoh Corporation | Segmentation of text, picture and lines of a document image |
CN101133429A (zh) * | 2005-03-01 | 2008-02-27 | 公立大学法人大阪府立大学 | 文档和/或图像检索方法及其程序、文档和/或图像存储设备和检索设备 |
Non-Patent Citations (2)
Title |
---|
JP特开平4-309191A 1992.10.30 |
JP特开平8-22507A 1996.01.23 |
Also Published As
Publication number | Publication date |
---|---|
CN101551859A (zh) | 2009-10-07 |
US20090245640A1 (en) | 2009-10-01 |
JP4522468B2 (ja) | 2010-08-11 |
US8385643B2 (en) | 2013-02-26 |
JP2009246930A (ja) | 2009-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101551859B (zh) | 图像辨别装置及图像检索装置 | |
CN101567048B (zh) | 图像辨别装置及图像检索装置 | |
US8306325B2 (en) | Text character identification system and method thereof | |
JP2575539B2 (ja) | 書類上の金額フィールドの位置特定方法および識別方法 | |
US8693790B2 (en) | Form template definition method and form template definition apparatus | |
EP1310912A2 (en) | Image processing method, apparatus and system | |
CN100397864C (zh) | 图像处理系统及图像处理方法 | |
CN107016363A (zh) | 票据图像管理装置、票据图像管理系统以及方法 | |
US7277584B2 (en) | Form recognition system, form recognition method, program and storage medium | |
JPS63158678A (ja) | 単語間スペ−ス検出方法 | |
KR100691651B1 (ko) | 배경 모델과 문자 모델의 결합에 의해 구조화된 배경 상의 문자를 자동 인식하는 방법 | |
JPH07282253A (ja) | 文書イメージのしきい値処理方法 | |
CN103907339B (zh) | 文档文件输出装置以及文档文件输出方法 | |
JP5887242B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
US20110170133A1 (en) | Image forming apparatus, method of forming image and method of authenticating document | |
US6983071B2 (en) | Character segmentation device, character segmentation method used thereby, and program therefor | |
JP2003087562A (ja) | 画像処理装置および画像処理方法 | |
JP2007081882A (ja) | 原稿読取装置および原稿読取方法 | |
CN101944091A (zh) | 图像检索装置 | |
CN108961531B (zh) | 纸币冠字号识别的方法、装置、设备及存储介质 | |
Hong et al. | Information Extraction and Analysis on Certificates and Medical Receipts | |
US11948342B2 (en) | Image processing apparatus, image processing method, and non-transitory storage medium for determining extraction target pixel | |
JP3412441B2 (ja) | 画像処理装置 | |
JP3756660B2 (ja) | 画像認識方法、装置および記録媒体 | |
JP3020293B2 (ja) | 属性判別方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120104 |