CN1119767C - 字符提取设备及方法,模式提取设备及方法和模式识别设备 - Google Patents

字符提取设备及方法,模式提取设备及方法和模式识别设备 Download PDF

Info

Publication number
CN1119767C
CN1119767C CN98125365A CN98125365A CN1119767C CN 1119767 C CN1119767 C CN 1119767C CN 98125365 A CN98125365 A CN 98125365A CN 98125365 A CN98125365 A CN 98125365A CN 1119767 C CN1119767 C CN 1119767C
Authority
CN
China
Prior art keywords
character
group
rectangle
area
connected member
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN98125365A
Other languages
English (en)
Other versions
CN1220434A (zh
Inventor
武部浩明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN1220434A publication Critical patent/CN1220434A/zh
Application granted granted Critical
Publication of CN1119767C publication Critical patent/CN1119767C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Abstract

将从输入图像得到的连通元根据它们的相对位置和粗细相似性分组。然后,通过执行字符识别过程得到每个组的字符识别度。所得到的字符识别度用矩形区面积进行加权。在各组中,利用这些经加权的值的总和作为组的鉴定值,得到各种组合的鉴定值。将具有最高鉴定值的组的组合提取为一个字符串。

Description

字符提取设备及方法,模式提取设备及方法和模式识别设备
本发明与读出文档、图表等的图像识别技术有关,具体地说,与从图像中提取诸如标题之类的字符串的字符串提取技术有关。
在要将一个文件以电子技术进行归档时,必需为这个文件指定一个关键词。然而,对于用户来说这是一个相当烦人的过程。因此,能成功地使这个过程自动化和有效地执行电子归档过程就非常有意义了。
在报纸和杂志中,最有效的是提取标题、识别形成标题的各字符和将标题定义为关键词,因为标题表示了一个文件的内容的许多特征,并且能很方便地从文件中检索出来。
这样,就开发了缩短提取关键词时间和正确提取关键词的技术。例如,Tokkaihei的专利4-287168揭示了一种自动从文件中提取关键词的方法。
在这种方法中,假设图表或像片的说明都处在需加说明处的上方或下方。因此,可将这些说明提取为字符串或字符串区域,将形成说明的字符作为关键词加以识别后录入。
此外,还开发了从图像中提取字符串的技术。例如,Tokkaihei的专利8-293003揭示了一种字符串提取方法和根据这种方法构成的字符串提取设备,一种字符串识别设备和字符串识别系统。
在这个例子中,提取图像中的所有字符,将接连的字符作为一个字符串进行分组,将每个组的特征量与输入的特征量模型进行比较后加以鉴别,提取为字符串。接连的字符指的是字符串,而特征量是指诸如汉字字符、数字字符之类的字符的类型和大小。
因此,有各种文件和图表需在电子归档过程中加以处理,从而有各种图像处理技术。在从图像中提取字符串的情况下,最普遍的方法是处理如通常在报纸上所看到的带有背景的标题。
首先,确定输入图像是否含有一些垂直排列或水平排列的字符。然后,对输入图像和它的黑白反转图像执行一个标号过程,得到具有相同颜色的接连像素的连通元。
接着,根据每个连通元的大小、粗细和相对位置求得相应的字符候选对象。
从输入图像的连通元得到的字符候选对象称为黑字符候选对象,而从反转图象的连通元得到的字符候选对象称为白字符候选对象。字符的颜色由黑字符候选对象和白字符候选对象的数目确定。在字符是黑色时,在以后的步骤中需加处理的只是输入图像的连通元。在字符是白色时,以后需加处理的只是黑白反转图像的连通元。
然后,合并需处理的连通元,得出字符串区。将字符串区内所含的连通元在粗细上等于或大于某个门限的提取为字符元。这个门限是一个表示对连通元的粗细的最大值的恒定比的值。最后,在字符识别过程中,将作为字符元提取的连通元形成图像,确定为字符串。
为了正确提取标题,需要采用准确合并隶属同一字符串的技术。
以下所说明的传统方法就与这种技术有关。
在执行了诸如调整偏斜、剔除字符框线之类的预处理过程后,整个图像加上标号,再对所得到的这些黑像素连通区执行重叠嵌套合并过程。然后,从所得到的黑像素连通区确定整个文件的本文字符大小。根据这个值,确定每个连通区的属性。在确定一个矩形的属性是字符时,就根据这个方框反复进行垂直或水平合并,从而确定一个字符串。
然而,在这种传统技术中,字符的颜色在字符提取过程期间确定,而字符的行的宽度固定为一个标准值。此外,一个字符串区可能设置在一些行单元(或列单元)内。因此,存在的问题是从一个包括由一些黑白部分组合而成的背景图案、各种字体、彩色文件、若干个行、垂直和水平字符串组合以及这些的合成结果的复杂图像中很难提取一个字符串。
此外,黑字符候选对象与白字符候选对象之间在数量上的关系并不是一个确定字符颜色的可靠准则。在字符提取过程期间确定字符颜色时,不可避免地会作出错误判决,从而导致在最终字符识别中出现错误。
此外,在字符行宽度固定为一个标准值时,用比较细的行印刷的字符元就很容易丢失,从而导致在最终字符识别中出现错误。
还有,由于在传统技术中重叠嵌套合并过程对各个黑像素连通区执行,因此一些原不应合并的部分也被相继合并了,最终导致不正确地合并了整个文件。
例如,在整个图像的偏斜不能调整或者字符框线不能完全剔除时,在重叠嵌套合并过程中整个文件就可能合并在一起。
图1示出了在传统的重叠嵌套合并过程中合并了整个文件的例子。
在图1A中,假设从输入图像中得到了连通元的包围矩形K61至K65。在对连通元的包围矩形K61至K65执行重叠嵌套合并过程时,由于包围矩形K61和K62相互重叠,因此它们被合并在一起。这样,如图1B所示,产生了一个包围包围矩形K61和包围矩形K62的包围矩形K66。在产生包围矩形K66后,包围矩形K66与包围矩形K63重叠。因此,它们合并在一起,产生一个包围包围矩形K66和包围矩形K63的包围矩形K67,如图1C所示。在产生包围矩形K67后,包围矩形K67与包围矩形K64重叠。因此,它们合并在一起。这样,陆续就把图1A所示的所有包围矩形都合并在一起,产生一个包围包围矩形K61至K65的包围矩形K68,如图1D所示。
此外,还存在这样一个问题:在一个标题带有像片、图表或纹理时,执行重叠嵌套合并过程所需的时间太长。
本发明的第一个目的与通过读出文件、图表等识别图像的技术有关,是提供一种从复杂图像中提取字符串的字符串提取设备,这种设备能识别细的字符行和识别字符,而不会错误识别字符颜色。
本发明的第二个目的是提供一种能执行局部重叠嵌套合并过程的模式提取设备。
按本发明构成的字符提取设备用来从图像中提取字符串,这种设备包括:一个连通元提取单元,用来根据输入图像的像素的颜色提取各个含有相同颜色的接连像素的连通元;一个分组单元,用来根据这些连通元的相对位置和形成连通元的边界像素数与总像素数之比将这些连通元分成一些可能隶属相同字符串或相同字符串组的组;一个字符识别单元,用来对每个组执行字符识别过程,并且将各识别结果的第一字符候选对象的距离值的倒数之和规定为一个组的字符识别度;一个组合鉴定单元,用来将通过对一个组的字符识别度用这个组所占的矩形区的面积进行加权所得到的值规定为这个组的组鉴定值,而将一种组的组合中各组的组鉴定值之和规定为这种组合的组合鉴定值;以及一个字符串提取单元,用来将一种具有最高组合鉴定值的组的组合提取为一个字符串。
按本发明构成的字符提取设备在输入图像为一个二值黑白图像时从输入图像和它的黑白反转图像中提取各个含有接连黑像素的连通元。
此外,按本发明构成的字符提取设备只处理所占矩形区相互不重叠的这些组,得出具有相互不重叠的组的各种组合。
按本发明提出的存储媒体是一种计算机可读存储媒体,其中所存储的程序使计算机像一个从图像中提取字符串的字符提取设备那样进行工作,所执行的操作包括:连通元提取操作,用来根据输入图像的像素的颜色提取各个含有相同颜色的接连像素的连通元;分组操作,用来根据这些连通元的相对位置和形成连通元的边界像素数与总像素数之比将这些连通元分成一些可能隶属相同字符串或相同字符串组的组;字符识别操作,用来对每个组执行字符识别过程,并且将各识别结果的第一字符候选对象的距离值的倒数之和规定为一个组的字符识别度;组合鉴定操作,用来将通过对一个组的字符识别度用这个组所占的矩形区的面积进行加权所得到的值规定为这个组的组鉴定值,而将一种组的组合中各组的组鉴定值之和规定为这种组合的组合鉴定值;以及字符串提取操作,用来将一种具有最高组合鉴定值的组的组合提取为一个字符串。
按照本发明的一个方面,将一些根据从输入图像和它的黑白反转图像得到的模式的识别结果所占的区域相互不重叠的部分的一种组合规定为从输入图像提取模式的结果。
在传统技术中,在一个报纸等的标题中同时存在由黑像素形成的字符和黑背景中的白字符时,字符颜色由黑字符候选对象和白字符候选对象的个数确定。因此,在确定字符是黑色时,只有输入图像的连通元以后需加处理,从而黑字符能正确识别,但黑背景中的白字符不能识别。类似,在确定字符是白色时,只有黑白反转图像的连通元以后需加以字符识别处理,从而黑背景中的白字符能正确识别,但黑字符不能识别。然而,按照本发明,可以避免上述的错误识别。因此,能从一个包括由一些黑白部分组合而成的背景图案、各种字体、彩色文件、若干个行、垂直和水平字符串组合以及这些合成结果的复杂图像中准确地提取字符串。
本发明的一个方面是所提出的设备包括:一个连通元提取单元,用来提取输入图像中的各个连通元;一个包围矩形产生单元,用来产生连通元的包围矩形;一个直方图产生单元,用来产生通过将输入图像中的出现率用包围矩形的面积进行加权而得到的直方图;以及一个字符大小估计单元,用来将一个指示直方图最大值的包围矩形的面积估计为输入图像的字符大小。
因此,即使一个字符由若干个分离的笔划形成,在重叠嵌套合并过程中从而没有得到处理,从而为每个笔划产生的包围矩形依旧保留,但一个字符的一部分形成包围矩形小于整个字符形成的包围矩形。这样,就能将一个字符的一部分形成的包围矩形的出现率设置得比较低,从而减小了一个字符的一部分的大小对估计字符大小的影响。因此,即使在不执行重叠嵌套合并过程的情况下,也能高度准确地估计字符大小。
本发明的另一个方面是所提出的设备包括:一个分组单元,用来将包围矩形产生单元产生的包围矩形分组;一个块矩形提取单元,用来提取其中包含个数等于或多于预定数目的、具有由字符大小估计单元估计的字符大小的第一包围矩形的第二包围矩形;以及一个块矩形剔除单元,用来从需分组的包围矩形中剔除第二包围矩形。
因此,在从报纸之类提取标题字符而在这些标题字符附近又有一个包围文本字符的块矩形时,能只提取这个块矩形,从而将这个块矩形与标题字符的包围矩形区分开来。这样,就能高度准确地只提取标题字符。
本发明的又一个方面是所提出的设备包括一个投影单元,用来将为包围矩形指定的矩形编号投射到设置在输入图像上的坐标上。块矩形提取单元通过在第二包围矩形的坐标范围内搜索在这坐标范围内所含的矩形编号来提取第一包围矩形。
因此,在另一个包围矩形内存在的包围矩形能很方便提取出来。这样,即使同时存在一个包围文本字符的块矩形和一些标题字符,也能迅速地只提取这个块矩形。
本发明的又一个方面是所提出的设备包括:一个连通元提取单元,用来提取输入图像中的各个连通元;一个包围矩形产生单元,用来产生连通元的包围矩形;一个重叠度鉴定单元,用来计算与所述包围矩形重叠的包围矩形的个数;以及一个重叠嵌套合并单元,用来执行重叠嵌套合并过程。
因此,重叠嵌套合并过程只对高重叠度的包围矩形执行,而不对低重叠度的包围矩形执行。这样,能防止一个一些标题字符的包围矩形由于与整个屏幕上各包围矩形合并在一起而丢失,而能将图表或像片中的具有高重叠度的部分吸收或并入一个较大的矩形。因此,就能避免依旧保留图表或像片的一部分的包围矩形而将它错误地提取为标题字符或错误地并入作为标题字符的矩形。这样,即使标题字符与图表、像片等同时存在,也能高度准确地提取标题字符。
本发明的又一个方面是所提出的设备包括:一个投影单元,用来将为包围矩形指定的矩形编号投射到设置在输入图像上的坐标上;以及一个重叠矩形提取单元,用来通过在一个预定包围矩形的坐标范围内搜索在这个坐标范围内所含的矩形编号来提取与这个预定包围矩形重叠的包围矩形。
因此,相互重叠的包围矩形能很容易地提取出来,从而迅速地计算出这些包围矩形的重叠度。
在本说明的附图中:
图1示出了在传统的重叠嵌套合并过程中将整个文件的矩形合并在一起的例子;
图2为示出按本发明的第一实施例构成的模式提取设备的配置的方框图;
图3为示出按本发明的第二实施例构成的模式提取设备的配置的方框图;
图4为示出按本发明的一个实施例构成的模式提取设备的系统配置的方框图;
图5示出了按本发明的第三实施例构成的字符提取设备的工作情况;
图6为示出按本发明的第三实施例构成的字符提取设备的配置的方框图;
图7为示出按本发明的第三实施例构成的字符提取设备的工作情况的流程图;
图8示出了按本发明的一个实施例执行的标号过程;
图9为示出按本发明的一个实施例执行的分组过程的流程图;
图10示出了按本发明的一个实施例形成的连通元及其包围矩形的例子;
图11为示出按本发明的一个实施例限制连通元的方法的流程图;
图12示出了按本发明的一个实施例形成的连通元的邻域;
图13示出了按本发明的一个实施例确定连通元类似性的情况;
图14示出了按本发明的一个实施例计算一个组的字符识别度的方法;
图15示出了按本发明的一个实施例形成的关联图和集团型;
图16为示出按本发明的一个实施例提取一个与另一个连通元组不重叠的组的方法的流程图;
图17示出了按本发明的一个实施例链接连通元的方法;
图18示出了按本发明的一个实施例确定的集团型组和非集团型组的例子;
图19示出了按本发明的一个实施例计算一种组合的鉴定值的方法;
图20为示出按本发明的第四实施例构成的模式提取设备的工作情况的流程图;
图21示出了按本发明的一个实施例确定的为求得包围矩形的大小所利用的直方图的例子;
图22示出了按本发明的一个实施例所形成的矩形编号的投影表的例子;
图23为示出按本发明的一个实施例选择标题矩形的候选对象的方法的流程图;
图24示出了按本发明的一个实施例检验块矩形的方法;
图25示出了按本发明的一个实施例执行的重叠嵌套合并的情况;
图26示出了按本发明的一个实施例执行的局部重叠嵌套合并的情况;
图27示出了按本发明的一个实施例形成的邻域及邻近矩形;
图28为示出按本发明的一个实施例执行的邻域合并过程的流程图;
图29示出了按本发明的一个实施例形成的重叠矩形的例子;以及
图30示出了按本发明的一个实施例标记标题矩形的方法。
下面将结合附图说明按本发明的一个实施例构成的模式提取设备。
图2为示出按本发明的第一实施例构成的模式提取设备的配置的方框图。
在图2中,反转图像产生单元1产生通过改变输入图像的标号而得到的反转图像。识别单元2对从输入图像中提取的模式和从反转图像产生单元1产生的反转图像中提取的模式执行模式识别过程。输出单元3输出由一个从输入图像提取的模式区和一个从反转图像产生单元1产生的反转图像提取的模式区组成的不重叠组合,作为一种由识别单元2得出的这些识别结果中的相容组合。
因此,即使在报纸等的一个标题中同时存在黑像素形成的字符和黑背景中的白字符,也能对黑像素形成的字符和黑背景中的白字符执行识别处理。黑像素字符的识别结果可以与黑背景中的白字符的识别结果组合在一起输出。
在传统技术中,字符的颜色由黑字符候选对象和白字符候选对象的数目确定。因此,在字符确定为黑色时,以后要处理的只是输入图像的连通元,所以黑字符能正确识别,但黑背景中的白字符不能识别。类似,在字符确定为白色时,以后要处理的只是黑白反转图像的连通元,所以黑背景中的白字符能正确识别,但黑字符不能识别。然而按照本发明可以避免上述错误识别问题。因此,就可以从一个包括由一些黑、白部分组合而成的背景图案、各种字型、彩色文件、若干个行、垂直和水平字符串组合以及这些的合成结果的复杂图像中准确地提取字符串。
图3为示出按本发明的第二实施例构成的模式提取设备的配置的方框图。
在图3中,连通元提取单元11提取输入图像中的各连通元。包围矩形产生单元12产生连通元提取单元11提取的连通元的包围矩形。重叠度鉴定单元13计算出与包围矩形产生单元12产生的包围矩形重叠的包围矩形的个数。重叠嵌套合并单元14根据重叠度鉴定单元13的计算结果执行重叠嵌套合并过程。
因此,重叠嵌套合并过程可以局部执行。也就是说,可以只对一个具有高重叠度的包围矩形而不对一个具有低重叠度的包围矩形执行这个过程。这样,可以防止标题字符的包围矩形由于与整个屏面上各包围矩形合并在一起而丢失。
此外,图表或相片中的具有高重叠度的部分可以被吸收或并入一个较大的矩形。这样就可避免留下部分图表或像片的包围矩形被错误地作为标题字符提取或并入一个矩形。因此,即使标题字符与图表、像片等同时存在,也能高度准确地提取标题字符。
图4为示出按本发明的一个实施例构成的字符串提取设备的系统配置的方框图。
在图4中,21为执行整个处理过程的中央处理单元(CPU)。22为只读存储器(ROM)。23为随机存取存储器(RAM)。24为通信接口。25为通信网络。26为总线。27为输入/输出接口。28为用来显示例如标题字符识别结果等的显示器。29为用来打印例如标题字符识别结果等的打印机。30为用来暂时存储扫描器31读出的数据的存储器。31为用来读输入图像的扫描器。32为键盘。33为用来驱动存储媒体的驱动器。34为硬盘。35为IC存储卡。36为磁带。37为软盘。38为诸如CD-ROM、DVD-ROM之类的光盘。
例如,一个执行模式提取过程的程序存储在一个诸如硬盘34、IC存储卡35、磁带36、软盘37、光盘38之类的存储媒体内。通过将一个执行模式提取过程的程序从存储媒体读入RAM23,就可以从一个例如报纸、杂志等的文件图像中提取标题字符。此外,执行模式提取过程的程序等也可以存储在ROM22内。
此外,执行模式提取过程的程序等也可以通过通信接口24从通信网络25检索到。作为与通信接口24连接的通信网25可以是一个LAN(局域网)、WAN(广域网)、互联网、模拟电话网、数字电话网(综合业务数字网ISDN),或者是一个诸如PHS(个人移动系统)、卫星通信之类的无线通信网。
在执行模式提取过程的程序激活时,CPU 21就对扫描器31读出的输入图像加上标号,为指定为相同标号的各连通元产生一个包围矩形。然后,检验每个包围矩形的重叠度,对以高重叠度相互重叠的那些包围矩形执行重叠嵌套合并过程。接着,对在重叠嵌套合并过程中处理的各个包围矩形进行分组,从分组结果中提取标题字符,再将提取的结果送至显示器28或打印机29。
图5示出了按本发明的第三实施例构成的字符提取设备的工作情况。
在图5A中,假设:由一系列黑像素构成的排成两行、外有黑字符框包围的字符“黑白反转”和垂直排在黑底上的白字符“调查グ”作为一个输入图像输入,而字符串“黑白反转”和字符串“调查グ”从这个输入图像中提取。
首先,从输入图像中根据像素的颜色提取含有相同颜色的接连像素的连通元。
在输入图像是一个彩色图像时,对每种颜色分别提取连通元。由于图5A所示的输入图像是一个黑白二值图像,因此也从黑白反转图像中提取含有黑像素和白像素的连通元。反转图像通过交换输入图像的背景与字符的颜色得出,如图5A所示。
在连通元提取单元中,为输入图像中的每组黑像素连通元指定一个不同的标号,也为黑白反转图像中的每组黑像素连通元指定一个不同的标号。
然后,在输入图像及其反转图像中,根据各连通元之间的相对位置和粗细相似性将可能隶属相同字符串或字符串组的连通元分在一个组内。
连通元的粗细是指连通元的边界像素数与连通元的总像素数之比,而相同字符串或字符串组是指一组表示相同意义的字符串。
这样,由于输入字符“黑白反转”如图5A中所示相互靠近,而且粗细相同,因此字符“黑”、“白”、“反”和“转”分为一组a。包围输入图像(即字符“黑白反转”)的字符框由黑像素连至与白字符“调查グ”的背景相应的黑像素区。因此,它们分为一组b。
类似,由于与作为反转图像的白字符“黑白反转”的背景相应的黑像素区由黑像素连至包围字符“调查グ”的字符框,因此它们分为一组a1。由于作为反转图像的字符“调查グ”相互靠近,而且粗细相同,因此字符“调”、“查”和“グ”分为一组b1。
组a由白背景区中的较小字符构成,而组b由黑背景区中的较大字符构成。然而,首先不将组b识别为黑背景中的白字符。只是识别出组a含有白背景中的字符,而组b整个是黑乎乎的一片。因此,即使对由组b的黑像素形成的背景区执行字符识别过程,也不能识别出字符“调查グ”。
组a1由黑背景区中的较小白字符构成,而组b1由白背景区中的较大字符形成。然而,首先不将组a1识别为黑背景中的白字符。只是识别出组a1整个是黑乎乎的一片,而组b1含有白背景中的字符。因此,即使对由组a1的黑像素形成的背景区执行字符识别过程,也不能识别出字符“黑白反转”。
在对各字符进行上述那样的分组后,就对每个组执行字符识别过程。作为识别结果而得到的各字符的第一字符候选对象的距离值的倒数之和定义为组的字符识别度。因此,如果一个组的字符识别度高,那很可能这个组就是一个需提取的字符串。通过用包围一个组的矩形区域的面积对这个组的字符识别度进行加权,就得出这个组的鉴定值。
然后,对于所有组的各种组合求得鉴定值,以定义一种组合的鉴定值。在对组进行组合时,只将那些包围组的矩形区域不相互重叠的组组合在一起,从而得到包围组的矩形区域不相互重叠的各组的所有组合。
图5B示出了那些包围组的矩形区域不相互重叠的组的组合。
如图5B所示,由于包围图5A所示的组a的矩形区域不与包围组b1的矩形区域重叠,因此它可以与组b1组合。然而,由于包围组a的矩形区域与组b或a1的矩形区域重叠,因此组a不与组b或a1组合。
另一方面,由于包围组b的矩形区域与包围组a、a1或b1的任何矩形区域都重叠,因此它不能与组a、a1和b1中的任何一个组合。
因此,从所有的组合中除去组a和b、组a和a1、组b和a1、组b和b1、组a1和b1这些组合,结果只留下组a和b1的组合。需除去的这些组合在图5B中用虚线表示。对于所有用实线连接的各组的组合计算出鉴定值。于是,具有最高鉴定值的组的组合提取为一个字符串。
图5C示出了计算结果。
在图5C中,选择了组a和b1的组合。在对从组a提取的模式执行字符识别过程后,得出字符串“黑白反转”。在对从组b1提取的模式执行字符识别过程后,得出字符串“调查グ”。
如果对组b执行字符识别过程,就不能正确地识别出字符串“调查グ”,因为组b是由包围是输入图像的字符“黑白反转”的字符框和与白字符“调查グ”的背景相应的黑像素区形成的。
因此,如果只利用从图5A中所示的输入图像中提取的模式,执行识别过程后能提取字符串“黑白反转”,但不能提取字符串“调查グ”。
如果对组a1执行字符识别过程,就不能正确识别出字符串“调查グ”,因为组a1是由与反转图像的白字符“黑白反转”的背景相应的黑像素区和包围字符“调查グ”的字符框形成的。
因此,如果只利用从图5A中所示的反转图像中提取的模式,执行识别过程后能提取字符串“调查グ”,但不能提取字符串“黑白反转”。
但是,按照本发明的第五实施例,利用了从输入图像中提取的模式和从反转图像中提取的模式执行字符识别过程。字符串“黑白反转”从输入图像中提取,而字符串“调查グ”从反转图像中提取。因此,字符串“黑白反转”和“调查グ”都能正确提取。
图6为示出按本发明的第三实施例构成的字符提取设备的配置的方框图。
在图6中,字符串提取设备41包括连通元提取单元42、分组单元43、字符识别单元44、组合鉴定单元45和字符串提取单元46。
连通元提取单元42根据输入图像中的像素的颜色提取含有同样颜色的一系列像素的连通元。如果输入图像是一个彩色图像,就对每种颜色提取连通元。如果输入图像是一个单色的二值图像,对每种颜色也提取反转图像中的连通元的黑像素和白像素。
分组单元43根据连通元之间的相对位置和连通元粗细的相似性将可能隶属相同字符串或字符串组的连通元分在一个组内。
字符识别单元44为每个组执行字符识别过程,得出每个组的字符识别度。组合鉴定单元45得出一个组的鉴定值,再得出一种组合的鉴定值。字符串提取单元46将具有最高组合鉴定值的一些组的组合提取为一个字符串。
因此,图6所示的字符串提取设备41根据相似性对连通元进行分组,对每个组执行字符识别过程,为每个组指定一个字符串识别度,以及提取一个相容组的组合。因此,可以从诸如含有黑、白像素的背景图案、彩色文件之类的复杂图像中提取字符串。
此外,图6所示的字符串提取设备41和存储媒体在提取过程期间不确定颜色,不假设字符串区域,或在提取过程中不确定标准字符的行的宽度,从而改善了提取字符串的准确性。
按本发明的第三实施例构成的字符串提取设备41将结合附图详细说明。作为字符串提取设备41的一个实施例,字符串从一个诸如报纸标题之类的单色二值图像中提取。
图7为示出按本发明的第三实施例构成的字符提取设备的工作情况的流程图。
如图7所示,在步骤S1输入一个图像后,控制转至步骤S2,产生输入图像的黑白反转图像。然后,同时执行一个输入图像过程和一个反转图像过程。在执行输入图像过程时,控制转至步骤S3,而在执行反转图像过程时,控制转至步骤S6。
在得到输入图像及其反转图像后,执行标号过程,得出各个连通元。在步骤S3,对输入图像执行标号过程,而在步骤S6,对反转图像执行标号过程。
在对输入图像和反转图像执行了标号过程后,对各连通元进行分组。如图7所示,在步骤S4,对输入图像的连通元进行分组,而在步骤S7,对反转图像的连通元进行分组。
在对输入图像和反转图像进行分组后,对双方各组执行字符识别过程。在步骤S5,对输入图像的各组执行字符识别过程,而在步骤S8,对反转图像的各组执行字符识别过程。
在对输入图像和反转图像执行了字符识别过程后,控制转至步骤S9。在步骤S9,从各组的各种组合中除去那些具有相互重叠的包围矩形区的组的组合,而相容组合都要加以考虑。
在步骤S10,根据鉴定值鉴定每种组合的候选对象。一个组的鉴定值是这个组的字符识别度和包围这个组的矩形区域的面积之间的函数。一种组合的鉴定值通过组合这个相容组合中的各组的鉴定值得出。
然后,在步骤S11,提取一个与具有最高鉴定值的组相应的字符串,过程结束。
图8示出了按本发明的一个实施例执行的标号过程。
在图8中,黑背景中的白字符“祭”含有四个连通元R1至R4,分别指定为号1至4。因此,用号等如图8所示那样标出由一系列相同颜色的像素(图8中为白像素)形成的连通元为“标号”。
图9为示出按本发明的一个实施例执行的分组过程的流程图。
如图9所示,在步骤S21,选择一个字符元的候选对象。在步骤S21,对目标连通元作了限制。将包围矩形等于或小于一个标准大小的那些连通元除去,设置为在以后的过程中不予处理的连通元,因为这些连通元不可能是字符元的候选对象,然后,控制转至步骤S22。
在步骤S22,设置连通元的邻域。邻域是指通过用一个大小很接近的框围住连通元的包围矩形而形成的区域。在一个连通元的一部分处于另一个连通元的邻域内时,这个连通元就称为邻近连通元。然后,控制转至步骤S23。
在步骤S23,将连通元链接至它的邻近连通元。链接是指将一个连通元与它的邻近连通元在确定了这个连通元与它的邻近连通元属于相同的字符串或相同的字符串组后关联在一起。
连通元的链接根据连通元的相对位置和粗细相似性进行。连通元的相对位置和粗细相似性称为连通元的类似性。在步骤S23确定所有连通元和所有邻近连通元的类似性后,控制转至步骤S24。
在步骤S24,将一个与它的邻近连通元链接的连通元提取为一个组。
可以用各种方法来链接连通元。例如,连通元A、B和C链接,但连通元A和C可以不直接连接。类似,连通元A链接至连通元B,但连通元B可以不链接至连通元A。
形成上述链接的这些连通元称为主连接的连通元。在步骤S24,将主连接所链接的一组连通元检索出来,作为一个组。
图10示出了按本发明的一个实施例形成的连通元及其包围矩形的例子。
在图10中,字符“タ”是一个连通元,而它的包围矩形在x方向上长度为dx,在y方向上长度为dy。
图11为示出按本发明的一个实施例限制目标连通元的方法的流程图。
在图11中,连通元的包围矩形在x方向上的长度dx的门限和在y方向上的长度dy的门限设置为th1和th2。如图11所示,在x方向上的长度dx和在y方向上的长度dy在步骤S31输入时,就在步骤32确定在y方向上的长度dy是否小于门限th2。
如果在步骤S32确定在y方向上的长度dy小于门限th2,控制就转至步骤S33,而如果在步骤S32确定在y方向上的长度dy不小于门限th2,控制就转至步骤S36。如果在步骤S33确定在x方向上的长度dx大于门限th1而小于门限th2,控制就转至步骤S35,而如果在步骤S33确定在x方向上的长度dx等于或小于门限th1或者等于或大于门限th2,控制就转至步骤S34。
如果在步骤S34确定在y方向上的长度dy大于门限th1,控制就转至步骤S35,而如果在步骤S34确定在y方向上的长度dy不大于门限th1,控制就转至步骤S36。
在步骤S35假定相应连通元能规定为一个字符元的候选对象。在步骤S36假定相应连通元不需在以后的步骤中处理,从而过程终止。
图12示出了按本发明的一个实施例规定的连通元的邻域。
在图12中,邻域是一个在连通元的包围矩形四周用一个大小接近的框包围的所形成的区域。
如图12所示,在字符垂直印刷的情况下,字符两侧的空隙各为字符宽度的1/6而字符上、下的空隙各为字符高度的3/4,比较合适。类似,可以为水平印刷的字符规定邻域。
在图12中,假设为字符“京”设置一个邻域。“京”的邻域包含了字符“东”和字符“に”的一部分。因此,确定字符“东”的邻近连通元为字符“东”和“に”。图12所示的“东京に今秋”的背景区一半含有形成网状图案的大、小黑点。由于字符“京”在圆圈所围部分看来是连通的,因此,字符“京”假设为是一个连通元。
假设字符“京”在图12中的圆圈所围部分不连通,字符“京”就包括一个顶元和其他三个连通元。就每个连通元的邻域,检验这些连通元的各自大小。
图13示出了与本发明的一个实施例有关的一些连通元的类似性确定情况。
在图13中,连通元的类似性取决于连通元之间的相对位置和连通元之间的平均粗细的差别。平均粗细由连通元的边界像素数与总像素数之比表示,即为边界像素数/总像素数。
在图13中,假设连通元A和它的邻近连通元B之间的相对位置由d和nx表示,而连通元A和它的邻近连通元B的平均粗细分别为ta和tb,则邻近连通元B与连通单元A的类似性就由下式表示:
邻近连通元B与连通元A的类似性=d/nx+0.1×max(ta,tb)/min(ta,tb)
其中d表示邻近连通元B的元nx在x方向上超出连通元A的那部分的长度。
图13所示的邻近连通元B与连通元A的类似性与连通元C与连通元B的类似性一样高。因此,确定连通元A、B和C都属于相同的字符串。在本例中,连通元C与连通元B的类似性只考虑了元的粗细。
图14示出了按本发明的一个实施例计算一个组的字符识别度的方法。在图14中,一个组的字符识别度表示为对这个组执行字符识别过程所得字符识别结果的第一字符候选对象的距离值的倒数之和。如果一个字符具有小的距离值,那就意味着这个字符具有高的识别度。
假设字符串“东京に今秋”为一个组A,而字符“东”、“京”、“に”、“今”和“秋”的第一识别候选对象的距离值分别为d1、d2、d3、d4和d5,如图14中所示,那么组A的字符识别度Ra由下式表示
Ra=1/d1+1/d2+1/d3+1/d4+1/d5
在目标连通元受限制时,作为字符串“东京に今秋”的背景如图14中所示那样由点形成的网形图案如果完全由点形成,则很可能在以后各步骤中不加处理。如果网形图案由一系列连通的点形成,它就归为一个组B。可以预料,组B和由点形成的网形图案的反转图像的组所具有的字符识别度均为0。由于组B的网形图案与包括字符串“东京に今秋”的组A重叠,组B在与组A组合后并不输出。
图15示出了按本发明的一个实施例形成的关联图和集团型(clique)。
在图15中,对矩形区相互不重叠的组予以关联。关联图和集团型的概念用来获得矩形区相互不重叠的各组的所有组合。
也就是说,产生一个关联图来考虑各种相容组合,从而得出所有的集团型(即完全图),使得矩形区相互重叠的组在对组进行组合时不予考虑。
在所产生的如图15所示的关联图中,各组分别用节点表示,由连线(实线)连接的节点表示矩形区相互不重叠的组。在这个关联图中,与矩形区相互重叠的组相应的节点之间没有连线连接。
一种集团型是指相容节点的一些组合。从关联图可以产生多种集团型,而每种集团型是一个所有节点都通过连线连接的完全图。通过从关联图得出集团型可以获得相容组的所有组合。
因此,不能设置图14中所示的组A与组B之间的组合,即使暂时设置的组B(网形图案)和组A“东京に今秋”分别都予以识别。
如上所述,可以得到相容组的一种组合的鉴定值。由于这种鉴定,可以将例如作为背景的网形图案、斑点等除去,不作为需处理的目标。
例如,假设所产生的关联图如图15中所示,包括节点N1至N6,于是可得到一个完全图,其中每个节点都通过连线与所有其他节点连接。例如,由于节点N1通过连线与所有其他节点N2至N8连接,因此节点N1是这种集团型的一个节点。由于节点N2不与节点N8连接,因此这种集团型中没有节点N8。由于节点N3通过连线与所有其他节点N1、N2和N4至N8连接,因此节点N3是这种集团型的一个节点。由于节点N4通过连线与所有其他节点N1至N3和N5至N6连接,因此节点N4是这种集团型的一个节点。由于节点N5通过连线与所有其他节点N1至N4和N6至N8连接,因此节点N5是这种集团型的一个节点。由于N6不与节点N8连接,因此这种集团型中没有节点N6。由于节点N7通过连线与所有其他节点N1至N6和N8连接,因此N7是这种集团型的一个节点。由于节点N8与所有其他节点N1至N7连接,因此节点N8是这种集团型的一个节点。
结果,能提取包括节点N1、N3、N4、N7和N8的集团型。通过从关联图中提取集团型,就能有效地只提取矩形区相互不重叠的那些组。
图16为示出按本发明的一个实施例提取连通元相互不重叠的组的方法的流程图。
如图16所示,首先确定每个组是否与所有其他组关联(步骤S41),从而产生一个关联图(步骤S42)。然后,从关联图提取集团型(步骤S43),再确定从输入图像提取的组和从反转图像提取的组的各种组合中的相容组合(步骤S44)。
图17示出了按本发明的一个实施例链接连通元的方法。
在图17A中,假设输入的是黑背景中的白字符“水道メ一タ一”和由黑像素构成的字符“谈合解明”,而要提取的是作为字符“谈”一部分的连通元R11和与连通元R11链接的各连通元。
在这种情况下,如图17B所示,首先产生连通元R11的包围矩形G1,再围着包围矩形G1设置一个连通元R11的邻域B1。在设置了连通元R11的邻域后,就可提取与连通元R11的邻域B1部分或安全重叠的连通元R12至R20,如图17C所示。提取了连通元R12至R20后,,检验连通元R11与连通元R12至R20之间的类似性,如图17D所示。由于连通元R12在粗细上与连通元R11相差很大,因此将连通元R12从需与连通元R11链接的目标中除去。这样,连通元R13至R20,也就是说除连通元R12以外的所有连通元,都被链接至连通元R11。
图18示出了能或不能确定为集团型的一些组的例子。
在图18A中,原图像中的字符“水道メ一タ一”粗细相同,而且相互靠近。因此,这些字符归为一组1。由于原图像中与白字符“谈合解明”的背景相应的黑像素区由黑像素相互连接,因此,这个区域归为一个组2。
由于反转图像中与白字符“水道メ一タ一”的背景相应的黑像素区由黑像素相互连接,因此这个区域归为一个组a。由于反转图像中的字符“谈合解明”粗细相同,而且相互靠近,因此这些字符归为一个组b。
其次,由于组1和b的矩形区相互不重叠,如图18c所示,因此认为组1和b可以形成一种集团型,是一种相容组合。此外,由于组1和a的矩形区相互重叠,如图18D所示,因此认为组1和a不能形成一种集团型,从而是一种不相容组合。
因此,如图18B所示,组1与组b或组2形成相容组合,但与组a不形成相容组合。组2与组1或组a形成相容组合,或与组b不形成相容组合。组a与组2或组b形成相容组合,但与组1不形成相容组合。组b与组1或组a形成相容组合,但与组2不形成相容组合。
图19示出了按本发明的一个实施例计算组合的鉴定值的方法。
在图19中,通过组合一种相容组合中的各组的鉴定值,也就是各组的字符识别度和各组的矩形区的面积这些因子,得出这种组合的鉴定值。
例如,假设从图19中所示的输入图像得到组A和B的组合,作为相容组的一种组合。如果组A的矩形区的面积为Sa,组的字符识别度为Ra,而组B的矩形区的面积为Sb,组的字符识别度为Rb,那么组A和B的组合的鉴定值可以用下式计算:
组合(A,B)的鉴定值=Sa×Ra×Ra+Sb×Rb×Rb
按照本实施例,以上对单色图像的情况作了说明。然而,本实施例并不局限于单色图像。如果用色度、亮度和密度代替单色像素,本实施例可广泛地用于彩色字符和背景。
在本实施例中,是以垂直印刷的字符为例的。但是,显然本发明不仅能用于垂直印刷的字符,而且也能用于水平印刷的字符。
下面将说明按本发明的第四实施例构成的模式提取设备。
按照本发明的第四实施例,省去了连通元重叠嵌套合并过程,以免将整个图像合并在一起。此外,图表或像片的在提取标题区时可能会引起不希望有的影响的部分被吸收和并入较大的矩形,以减小这种影响。在一般情况下,一个包括图表或像片一部分的矩形通常与另一个矩形重叠。这是检索这些矩形的线索。于是,计算出与标题矩形有关的重叠情况。确定高于预定门限的值表示一个由图表或像片的一部分形成的矩形,再在重叠嵌套合并过程中处理这个矩形。
为了在省略重叠嵌套合并过程时估计出正确的文本字符大小,利用了有关连通元的包围矩形的大小并经矩形的出现率和面积加权的直方图。因此,如果是碰到出现一个字符的一部分较多的情况,即使小于一个实际文本字符的矩形的数目最大,由于有面积加权它在新的直方图内也不是最大的。所以,小于实际文本字符的矩形的大小不会被确定为所估计的字符大小。另一方面,即使有大的连通元,这种大连通元的出现率也比较低。所以,大于实际文本字符的矩形的大小也不会被确定为所估计的字符大小。
下面结合二值单色图像的例子说明本发明的第四实施例。
图20为示出按本发明的第四实施例构成的模式提取设备的工作情况的流程图。
在图20中,首先对一个输入图像执行标号过程(步骤S51)。在标号过程中得到每个连通元的包围矩形的坐标信息。
然后,估计文本字符的大小(步骤S52)。在估计文本字符大小的过程中,产生一个有关连通元包围矩形大小的直方图。对这个直方图用矩形的出现率和面积进行加权。实际上,如果连通元的宽度和高度分别用dx和dy表示,则所采用的是其中较大者的直方图。对所得到的直方图的每个值H(i)执行以下变换:
H′(i)=H(i)×H(i)×i×i
(其中i表示矩形大小)
就产生出一个新的直方图H′。
在这个新的直方图中,直方图值最大的那个点就是文本字符大小。
图21示出了按本发明的一个实施例得出包围矩形大小的直方图的例子。
在图21A中,在示出包围矩形大小出现率H的直方图是在没有执行重叠嵌套合并过程的情况下产生时,会产生一个与文本字符大小相应的峰P2,但也可能会出现与没有合并的字符一部分的包围矩形大小相应的峰P1。
因此,在用这个直方图估计文本字符大小时,可能将与峰P1相应的包围矩形大小估计为文本字符大小,从而出现错误估计。
但是,如果对图21A所示的直方图用包围矩形的面积进行了加权,那么如图21B所示,指示一个小包围矩形的峰P1′的直方图值H′就小于指示一个大包围矩形的峰P2′的直方图值H′。这样,利用图21B所示的直方图就能估计出与文本字符大小相应的峰P2′的值大于与没有合并的字符一部分的包围矩形大小相应的峰P1′的值。因此,可以避免将与峰P1′相应的包围矩形大小错误地估计为文本字符大小,从而正确地估计出正文字符大小。
然后,产生文本字符矩形候选对象的投影表(步骤S53)。
在产生投影表的过程中,从所有的矩形中选择一个文本字符矩形候选对象。实际上,假设连通元的宽度为dx,连通元的高度为dy,文本字符的大小为C,而门限为α,则将满足
|max(dx,dy)-C|<α的矩形定为文本字符的候选对象。
然后,相对整个图像的x和y坐标轴,作出文本字符矩形的候选对象的投影。也就是说,在一个文本字符矩形的候选对象的编号为n而这个矩形的左上角点和右下角点的坐标分别为(x1,y1)和(x2,y2)时,在x坐标上的x1至x2和y坐标上的y1至y2的范围内都存入编号n。这样,就产生了一个文本字符矩形候选对象投影表。
图22示出了按本发明的一个实施例投射矩形编号的方法的例子。
在图22中,假设产生的这些包围矩形具有矩形编号1至6,矩形编号1至6各都投射到x和y坐标轴上。例如,在x坐标为4至6的这些点上,列有矩形编号为1和6的包围矩形。因此,矩形编号1和6投射到x坐标4至6上。在x坐标为7、8和10这些点上,列有矩形编号为6的包围矩形。因此,矩形编号6投射到x坐标7、8和10上。在x坐标为9的这个点上,列有矩形编号为2、4和6的包围矩形。因此,矩形编号2、4和6投射到x坐标9上。在x坐标为11的这个点上,列有矩形编号为3和5的包围矩形。因此,矩形编号3和5投射到x坐标11上。同样的过程也对y坐标执行。
然后,选择标题矩形的候选对象(步骤S54)。在选择标题矩形候选对象的过程中,选择出标题和形成标题的字符。基本上来说,是将文本字符大小乘以一个预定的数所得到的部分确定为标题矩形的候选对象。
图23为示出按本发明的一个实施例选择标题矩形候选对象的方法的流程图。
在图23中,假设矩形区的左上角点的坐标为(x1,y1),矩形区的右下角点的坐标为(x2,y2),矩形的右下角点的x坐标x2与矩形的左上角点的x坐标x1之差为dx,矩形的右下角点的y坐标y2与矩形的左上角点的y坐标y1之差为dy,而文本字符的大小为moji(步骤S71)。
然后,确定以下条件
(dx<moji×16或dy>moji×2)
(dx>moji×2或dy<moji×16)是否满足(步骤S72)。如果条件不满足,就确定所处理的这部分不是标题方框的候选对象,过程终止。如果条件满足,控制就转至步骤S73。
于是,在步骤S73确定是否满足条件
(dx>moji×3/2或dy>moji×3/2)
(dx>moji/3或dy>moji/3)
如果条件不满足,就确定所处理的这部分不是标题矩形的候选对象,过程终止。如果条件满足,就将所处理的这部分作为一个标题矩形候选对象输入(步骤S74)。
然后,对块矩形进行检验(步骤S55)。
假设整个块或形成整个字符块一部分的连通元的包围矩形称为块矩形,块矩形就不可能是一个标题,也不能根据大小和形状与标题矩形区分。首先,应该从所有的块中剔除块矩形。通常,一个字符块含有众多的文本字符,而一个标题矩形则含有为数不多的文本字符。因此,在一个矩形内清点文本字符块的候选对象的数目就可以确定它们是否为块矩形。也就是说,在目标区域清点包围矩形中的文本字符块的候选对象的数目。如果这个数目大于一个预定值,就确定这部分是一个由一个块矩形或块矩形的一部分包围的区域。文本字符块的候选对象是指由一个文本字符大小的矩形包围的连通黑像素区。一个字符块中的文本字符的数目利用字符块候选对象的投影表可以有效地计算出来。
图24示出了按本发明的一个实施例对块进行检验的方法。
在图24中,假设提取了包围矩形k1至k6,而选择包围矩形k1至k5作为标题字符块的候选对象。假设包围矩形k1至k4是包围标题字符,而包围矩形k5是一个包围文本字符的字符块。在这种情况下,如果将包围矩形k1至k5归入相同的组,这组标题字符包围矩形就包括了一个包围非标题字符的矩形。结果,不能正确地提取标题字符,因此必需从标题字符块的候选对象中剔除包围矩形k5。
于是,假设一个包围文本字符的字符块含有一系列文本字符,就考虑包含在选为标题字符块候选对象的包围矩形k1至k5内的文本字符大小的包围矩形k6的数目。
结果,由于包围矩形k5含有一系列文本字符大小的包围矩形k6,而包围矩形k1至k4都不含有文本字符大小的包围矩形,因此含有一系列文本字符大小的包围矩形k6的包围矩形k5应从标题字符块候选对象中剔除,从而能正确地只选择包围矩形k1至k4作为标题字符块的候选对象。
接着执行的是局部重叠嵌套合并过程(步骤S56)。
标题字符块的候选对象可能含有一些包括图表或像片的一部分的连通元的包围矩形。这些包围矩形可能会被并入其他正确的标题矩形,从而选成有害影响。这种对标题矩形提取的有害影响应通过将形成图表或像片部分的包围矩形吸收或并入一个较大的矩形加以消除。一般来说,由于形成图表或像片部分的包围矩形通常相互重叠,这就给出了方便地检测这些矩形的线索。因此,可以计算出包围矩形的重叠度。如果重叠度超过一个预定门限,就确定这个包围矩形是作为图表或照片的一个部分而得出的。然后,仅对这个矩形执行重叠嵌套合并过程。一个包围矩形的重叠度是指有多少个其他包围矩形与这个包围矩形重叠。
图25示出了按本发明的一个实施例执行的重叠嵌套合并过程。
假设,在如图25所示那样提取字符“画”的连通元情况下,提取了两个连通元R1和R2,于是产生了连通元R1的包围矩形K11和连通元R2的包围矩形K12。在对包围矩K11和K12执行重叠嵌套合并过程后,就产生了包围了包围矩形K11和K12的包围矩形K13。
这样,在为一个包括若干个笔划的字符的每个笔划指定了一个不同的标号后,就能将形成这个字符的这些笔划归在一个组内。
图26示出了按本发明的一个实施例执行的局部重叠嵌套合并过程。
在图26A中,示出了所产生的包围矩形K21至K26。在这种情况下,例如,包围矩形K22与两个包围矩形K21和K23重叠。因此,包围矩形K22的重叠度为2。由于包围矩形23与四个包围矩形K22和K24至K26重叠,因此包围矩形23的重叠度为4。
假设重叠嵌套合并过程仅对重叠度为4或更高的包围矩形执行,于是就如图26B所示,产生了含有包围矩形K22至K26的包围矩形K27,而包围矩形K21和K27没有被合并。
例如,如果包围矩形K21是一个标题字符块,包围矩形K22至K26包围了背景图案,而执行重叠嵌套合并过程并不考虑重叠度的话,那么所有的包围矩形K21至K26都被合并,丢失掉标题字符块,从而不能正确提取标题字符区。
但是,在完全不执行重叠嵌套合并过程时,包围矩形K21至K26分别存在,从而标题字符背景图案的包围矩形K22至K26都可能被选为标题矩形的候选对象。在标题字符背景图案被选为标题矩形的候选对象时,就不能正确地提取标题字符。
于是,根据重叠度来选择在重叠嵌套合并过程中需加以处理的包围矩形K21至K26,使得重叠嵌套过程只对包围矩形K22至K26执行。这样,就将标题字符背景图案的包围矩形K22至K26吸收入包围矩形K27内,从而防止了将包围矩形K22至K24选为标题矩形的候选对象。此外,标题字符的包围矩形K21能照样保留,从而改善了提取标题字符的准确性。
重叠度可以按以下说明进行计算。
首先,如图22所示,按图22所示方法产生标题矩形候选对象的投影表。然后,参照标题矩形的编号根据x坐标轴投影表和y坐标轴投影表就标题矩形候选对象的每个象素计算出重叠度。
下一步要执行的是矩形合并(步骤S57)。
在合并矩形的过程中,合并各标题矩形。首先,规定一个目标标题矩形的邻域,检验另一个有一部分包含在这个邻域内的标题矩形。然后,确定目标标题矩形是否能并入邻域内的标题矩形。此时,按照垂直和水平印刷的字符这两种情况规定邻域和确定合并条件。
图27示出了按本发明的一个实施例确定邻近矩形的例子。
在图27中,假设产生了包围矩形K31至K36,并利用包围矩形K31作为目标矩形确定邻域,于是邻域H1设置在离包围矩形K31有预定距离以内。与邻域H1重叠的包围矩形K32至K34就选为需并入包围矩形K31的包围矩形的候选对象,而将包围矩形K35和K36从需并入包围矩形31的包围矩形的候选对象中剔除。
图28为示出按本发明的一个实施例执行的邻近合并过程的流程图。
如图28所示,首先输入一组矩形(步骤S81),建立矩形之间的链接(步骤S82)。在建立矩形之间的链接的过程中,首先设置一个目标矩形(步骤S91),提取与目标矩形的邻域重叠的包围矩阵,从而确定目标矩形的邻近矩形(步骤S92)。于是,根据目标矩形与邻近矩形之间的相对位置以及在每个矩形中的字符笔划粗细、黑像素密度等,确定目标矩形和邻近矩形合并的可能性。如果确定目标矩形和邻近矩形可以合并,就建立链接。
然后,提取一个由一些链接的很大矩形构成的集合(步骤S83)。从在步骤S81输入的矩形集合中删去属于这个很大矩形集合的矩形后,再将很大矩形集合的包围矩形加至矩形集合(步骤S84)。
下一步要执行的是重复矩形剔除过程(步骤S58)。
在这个重复矩形剔除过程中,剔除重复矩形中的一个矩形,以免在经合并的标题矩形中出现双重矩形。
图29示出了按本发明的一个实施例出现双重矩形的例子。
在图29中,提取包围矩形K41和K42后,利用包围矩形K41作为目标矩形执行垂直合并,在包围矩形K41周围设置邻域H11。如果包围矩形K42与邻域H11重叠,就确定包围矩形K41和K42可以合并,于是产生一个包含包围矩形K41和K42的包围矩形43。
另一方面,如果利用包围矩形K41作为目标矩形执行水平合并,就在包围矩形K41周围设置邻域H12。如果包围矩形K42与邻域H12重叠,就确定包围矩形K41和K42可以合并,于是产生一个包含包围矩形K41和K42的包围矩形K43。
这样,由于产生了两个相同的包围矩形K43,因此需要删掉其中的一个。
然后,对块矩形进行检验(步骤S59)。
在块矩形检验的过程中,利用投影表确定所得到的标题矩形中是否有块矩形,如果有,就从这些标题矩形中删去。
然后,标记标题矩形(步骤S60)。在标记标题矩形的过程中,根据所得到的标题矩形的大小和形状为其指定标志。
图30示出了按本发明的一个实施例标记一个标题矩形的方法。
在图30中,所产生的是一个包围矩形K51。假设包围矩形K51的宽度和长度分别为dx和dy,则包围矩形K51的标志mark由下式得出
mark=(1+α×ratio)×(dx×dy)
ratio=max(dx,dy)/min(dx,dy)
其中α表示一个参数。
在通过计算标志从一个文件图像得到多个由标题字符组成的题目时,可以为这些题目分别指定输出优先序号。
按照如上说明的本发明,由于根据类似性对连通元进行分组,对每个组执行字符识别过程,以指定字符串识别度和提取一组相容组合。因此,能从一个包括由一些黑白部分组合而成的背景图案、各种字体、彩色文件、若干个行、垂直和水平字符串组合以及这些的合成结果的复杂图像中提取字符串。
按照本发明的另一个方面,由于在提取过程期间并不确定颜色,也不假设字符串区域,或在提取过程中不确定字符的标准行的宽度,因此不会错误识别字符颜色或漏掉比较窄的行,从而改善了字符串提取的准确性。
按照本发明的又一个方面,根据模式识别结果从输入图像和它的黑白反转图像得到的区域相互不重叠的一些部分的一种组合确定为从输入图像中提取模式的结果。在传统技术中,在报纸等的一个标题内同时存在由黑像素形成的字符和黑背景中的白字符时,字符的颜色由黑字符候选对象和白字符候选对象的数目确定。因此,在确定字符是黑色时,只有输入图像的连通元以后需加处理,从而黑字符能正确识别,但黑背景中的白字符不能识别。类似,在确定字符是白色时,只有黑白反转图像的连通元以后需加处理,从而黑背景中的白字符能正确识别,但黑字符不能识别。然而,按照本发明,可以避免上述的错误识别。因此,能从一个包括由一些黑白部分组合而成的背景图案、各种字体、彩色文件、若干个行、垂直和水平字符串组合以及这些的合成结果的复杂图像中准确地提取字符串。
按照本发明的又一个方面,一种包围矩形的出现率用这种包围矩形的面积进行加权。因此,即使一个字符由若干个分离的笔划形成,在重叠嵌套合并过程中没有得到处理,从而为每个笔划分别产生的包围矩形依旧保留,但一个字符的一部分形成的包围矩形小于整个字符形成的包围矩形。这样,就能将一个字符的一部分形成的包围矩形的出现率设置得比较低,从而减小了一个字符的一部分的大小对估计字符大小的影响。因此,即使在不执行重叠嵌套合并过程的情况下,也能高度准确地估计字符大小。
按照本发明的又一个方面,考虑了字符块内的文本字符数。因此,在从报纸之类提取标题字符而在这些标题字符附近又有一个包围文本字符的矩形字符块时,能只提取块矩形,从而将这个矩形字符块与标题字符的包围矩形区分开来。这样,就能高度准确地只提取标题字符。
按照本发明的又一个方面,将为包围矩形指定的矩形编号投射到设在输入图像上的每个坐标上。因此,能很方便地提取一个与另一个包围矩形重叠的包围矩形。这样,即使同时存在一个包围文本字符的矩形字符块和一些标题字符,也能迅速地只提取块矩形。
按照本发明的又一个方面,局部执行重叠嵌套合并过程。因此,重叠嵌套合并过程只对高重叠度的包围矩形执行,而不对低重叠度的包围矩形执行。这样,能防止一个一些标题字符的包围矩形由于与整个屏幕上各包围矩形合并在一起而丢失,而能将图表或像片中的具有高重叠度的部分吸收或并入一个较大的矩形。因此,就能避免依旧保留图表或像片的一部分的包围矩形而将它错误地提取为标题字符或错误地并入作为标题字符的矩形。这样,即使标题字符与图表、像片等同时存在,也能高度准确地提取标题字符。
按照本发明的又一个方面,将为包围矩形指定的矩形编号投射到设在输入图像上的每个坐标上。因此,很容易提取相互重叠的包围矩形,从而迅速地计算出这些包围矩形的重叠度。

Claims (8)

1.一种从图像中提取字符串的字符提取设备,所述设备包括:
连通元提取装置,用来根据输入图像的像素的颜色提取各个含有相同颜色的接连像素的连通元;
分组装置,用来根据这些连通元的相对位置和各自粗细将它们分成一些可能隶属相同字符串或相同字符串组的组;
字符识别装置,用来对每个组执行字符识别过程,并且根据每个字符的第一字符候选对象的距离值规定相应组的字符识别度;
组合鉴定装置,用来将通过对一个组的字符识别度用这个组所占的矩形区的面积进行加权所得到的值规定为这个组的组鉴定值,而将组的所有组合中各组的组鉴定值之和规定为组合鉴定值;以及
字符串提取装置,用来将一种具有最高组合鉴定值的组的组合提取为一个字符串。
2.按权利要求1所述的设备,其中:
所述连通元的粗细由连通元的边界像素数与总像素数之比表示。
3.按权利要求1所述的设备,其中:
所述含有接连黑像素的连通元在输入图像是一个二值黑白图像时从输入图像和输入图像的黑白反转图像中提取。
4.按权利要求1所述的设备,其中:
只对占据相互不重叠的矩形区的组进行互联,从而得到具有相互不重叠的矩形区的各组的所有组合。
5.一种模式提取设备,所述设备包括:
反转图像产生装置,用来产生通过改变一个输入图像的标号而得到的反转图像;
识别装置,用来对从输入图像提取的模式和从反转图像提取的模式执行模式识别过程;
输出装置,用来从所述识别装置得出的识别结果中输出从输入图像提取的一个模式的区域和从由所述反转图像产生装置产生的反转图像提取的一个模式的区域的一个不重叠的组合。
6.一种模式识别设备,所述设备包括:
第一模式识别装置,用来对输入图像的第一区域执行模式识别过程;
第二模式识别装置,用来对输入图像的第二区域上的输入图像的反转图像执行模式识别过程;以及
输出装置,用来将从所述第一模式识别装置得到的识别结果和从所述第二模式识别装置得到的识别结果作为输入图像的识别结果输出。
7.一种提取模式的方法,所述方法包括下列步骤:
识别从输入图像和输入图像的黑白反转图像得到的模式;以及
在识别结果中将相互不重叠的区域的一种组合规定为从输入图像提取模式的结果。
8.一种从图像中提取字符串的方法,所述方法包括下列步骤:
根据输入图像的像素的颜色提取各个含有相同颜色的接连像素的连通元;
根据这些连通元的相对位置和各自粗细将它们分成一些可能隶属相同字符串或相同字符串组的组;
对每个组执行字符识别过程,并且根据每个字符的第一字符候选对象的距离值规定相应组的字符识别度;
将通过对一个组的字符识别度用这个组所占的矩形区的面积进行加权所得到的值规定为这个组的组鉴定值,而将组的所有组合中各组的组鉴定值之和规定为这种组合的组合鉴定值;以及
将一种具有最高组合鉴定值的组的组合提取为一个字符串。
CN98125365A 1997-12-19 1998-12-18 字符提取设备及方法,模式提取设备及方法和模式识别设备 Expired - Fee Related CN1119767C (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP351353/1997 1997-12-19
JP351353/97 1997-12-19
JP35135397 1997-12-19
JP146199/98 1998-05-27
JP14619998A JP3601658B2 (ja) 1997-12-19 1998-05-27 文字列抽出装置及びパターン抽出装置
JP146199/1998 1998-05-27

Publications (2)

Publication Number Publication Date
CN1220434A CN1220434A (zh) 1999-06-23
CN1119767C true CN1119767C (zh) 2003-08-27

Family

ID=26477082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN98125365A Expired - Fee Related CN1119767C (zh) 1997-12-19 1998-12-18 字符提取设备及方法,模式提取设备及方法和模式识别设备

Country Status (6)

Country Link
US (1) US6563949B1 (zh)
EP (4) EP1265187B1 (zh)
JP (1) JP3601658B2 (zh)
KR (2) KR100325384B1 (zh)
CN (1) CN1119767C (zh)
DE (3) DE69827048D1 (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001060247A (ja) * 1999-06-14 2001-03-06 Fuji Xerox Co Ltd 画像処理装置および画像処理方法
JP2001052116A (ja) * 1999-08-06 2001-02-23 Toshiba Corp パターン列マッチング装置とパターン列マッチング方法と文字列マッチング装置と文字列マッチング方法
JP3604993B2 (ja) * 2000-03-16 2004-12-22 シャープ株式会社 画像符号化装置、画像符号化方法、画像復号装置、および画像復号方法
JP4047090B2 (ja) * 2002-07-31 2008-02-13 キヤノン株式会社 画像処理方法及び画像処理装置
JP2004348706A (ja) 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
US7171618B2 (en) * 2003-07-30 2007-01-30 Xerox Corporation Multi-versioned documents and method for creation and use thereof
US7035438B2 (en) * 2003-07-30 2006-04-25 Xerox Corporation System and method for measuring and quantizing document quality
US7483570B1 (en) * 2004-02-11 2009-01-27 Knight Andrew F Software and method for creating a dynamic handwriting font
JP4774200B2 (ja) * 2004-04-21 2011-09-14 オムロン株式会社 文字列領域抽出装置
US20050254546A1 (en) * 2004-05-12 2005-11-17 General Electric Company System and method for segmenting crowded environments into individual objects
EP1785847B1 (en) * 2005-10-27 2015-11-18 Accenture Global Services Limited Display apparatus for automatically visualizing an application landscape
US7561722B2 (en) * 2005-12-14 2009-07-14 Xerox Corporation System and method for interactive document layout
JP4807618B2 (ja) * 2006-03-06 2011-11-02 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP4907382B2 (ja) * 2007-02-23 2012-03-28 ジーイー・メディカル・システムズ・グローバル・テクノロジー・カンパニー・エルエルシー 超音波画像表示方法および超音波診断装置
US8068684B2 (en) * 2007-05-04 2011-11-29 I.R.I.S. Compression of digital images of scanned documents
US8094202B2 (en) * 2007-05-17 2012-01-10 Canon Kabushiki Kaisha Moving image capture apparatus and moving image capture method
JPWO2009081791A1 (ja) * 2007-12-21 2011-05-06 日本電気株式会社 情報処理システム、その方法及びプログラム
US8131758B2 (en) 2007-12-26 2012-03-06 Novell, Inc. Techniques for recognizing multiple patterns within a string
CN101551859B (zh) * 2008-03-31 2012-01-04 夏普株式会社 图像辨别装置及图像检索装置
US8134194B2 (en) * 2008-05-22 2012-03-13 Micron Technology, Inc. Memory cells, memory cell constructions, and memory cell programming methods
US8037410B2 (en) * 2008-10-27 2011-10-11 Yahoo! Inc. Method and apparatus for estimating the size of rendered text
US8824785B2 (en) * 2010-01-27 2014-09-02 Dst Technologies, Inc. Segregation of handwritten information from typographic information on a document
JP5673033B2 (ja) * 2010-11-30 2015-02-18 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP5672059B2 (ja) * 2011-02-24 2015-02-18 富士通株式会社 文字認識処理装置および方法並びに文字認識処理プログラム
JP5691817B2 (ja) * 2011-05-12 2015-04-01 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP5831420B2 (ja) * 2012-09-28 2015-12-09 オムロン株式会社 画像処理装置および画像処理方法
JP6003705B2 (ja) * 2013-02-14 2016-10-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2015040908A (ja) * 2013-08-20 2015-03-02 株式会社リコー 情報処理装置、情報更新プログラム及び情報更新方法
JP6303671B2 (ja) * 2014-03-20 2018-04-04 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
CN106157250B (zh) * 2015-03-26 2019-03-01 富士通株式会社 去除文档图像中的印记的方法和设备
WO2018189802A1 (ja) 2017-04-11 2018-10-18 楽天株式会社 画像処理装置、画像処理方法、及びプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH591726A5 (zh) * 1973-07-30 1977-09-30 Nederlanden Staat
DE68928703T2 (de) * 1988-07-20 1998-12-10 Fujitsu Ltd Buchstabenerkennungsvorrichtung
US5048109A (en) 1989-12-08 1991-09-10 Xerox Corporation Detection of highlighted regions
JPH0528317A (ja) * 1991-07-23 1993-02-05 Canon Inc 画像処理方法及び装置
JP3278471B2 (ja) 1991-11-29 2002-04-30 株式会社リコー 領域分割方法
US5680479A (en) 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5991435A (en) * 1992-06-30 1999-11-23 Matsushita Electric Industrial Co., Ltd. Inspecting apparatus of mounting state of component or printing state of cream solder in mounting line of electronic component
JP2933801B2 (ja) * 1993-06-11 1999-08-16 富士通株式会社 文字の切り出し方法及びその装置
JPH08123901A (ja) 1994-10-26 1996-05-17 Nec Corp 文字抽出装置及び該装置を用いた文字認識装置
JPH08194780A (ja) 1994-11-18 1996-07-30 Ricoh Co Ltd 特徴抽出方法
JP3400151B2 (ja) * 1994-12-08 2003-04-28 株式会社東芝 文字列領域抽出装置および方法
KR19990014883A (ko) * 1996-03-18 1999-02-25 구니토모 시게 초음파진단장치
US5892843A (en) * 1997-01-21 1999-04-06 Matsushita Electric Industrial Co., Ltd. Title, caption and photo extraction from scanned document images

Also Published As

Publication number Publication date
EP1265187A1 (en) 2002-12-11
EP0924639A2 (en) 1999-06-23
EP0924639B1 (en) 2004-02-11
JP3601658B2 (ja) 2004-12-15
US6563949B1 (en) 2003-05-13
KR19990062829A (ko) 1999-07-26
DE69827048D1 (de) 2004-11-18
CN1220434A (zh) 1999-06-23
EP1265187B1 (en) 2004-03-03
KR20010110369A (ko) 2001-12-13
JPH11238098A (ja) 1999-08-31
EP1265188B1 (en) 2004-10-13
DE69822237D1 (de) 2004-04-08
KR100383372B1 (ko) 2003-05-12
EP1265189A1 (en) 2002-12-11
EP0924639A3 (en) 2001-11-28
EP1265189B1 (en) 2005-01-26
DE69821595D1 (de) 2004-03-18
EP1265188A1 (en) 2002-12-11
KR100325384B1 (ko) 2002-04-17

Similar Documents

Publication Publication Date Title
CN1119767C (zh) 字符提取设备及方法,模式提取设备及方法和模式识别设备
CN1291352C (zh) 彩色图象处理装置及方法、图案抽取装置及方法
CN1184796C (zh) 图象处理方法和设备以及图象处理系统
CN1241390C (zh) 缩小字符、线条画和网点的组合图像的处理装置及其方法
CN1684492A (zh) 图像词典作成装置、编码装置、图像词典作成方法
CN1094224C (zh) 用于从文档图象抽取标题的标题抽取装置及其方法
CN1741035A (zh) 印刷体阿拉伯字符集文本切分方法
CN1620094A (zh) 用于将图像转换为预定格式的图像处理设备及方法
CN1525733A (zh) 图像数据中具有不同特征的区域之间的边界检测方法
CN1588431A (zh) 基于游程邻接图的复杂背景彩色图像中字符提取方法
CN1969314A (zh) 图像处理设备和方法、存储介质及其程序
CN1359587A (zh) 信息记录方法
CN1123923A (zh) 一种字体处理装置和字体处理方法
CN1215457C (zh) 语句识别装置和方法
CN1207896C (zh) 图象数据的压缩和恢复方法
CN1041773C (zh) 由字符图象直方图0-1图形表示识别字符的方法和装置
CN1991863A (zh) 介质处理设备、介质处理方法及介质处理系统
CN1773501A (zh) 图像检索和形成装置、方法及程序、以及记录介质
CN1788486A (zh) 图像处理方法、图像处理装置和程序
CN1202670A (zh) 模式提取装置
CN1846229A (zh) 图像处理设备、图像处理程序和计算机可读记录介质
CN1790377A (zh) 反白字符识别、快速准确的块分类方法和文本行生成方法
CN101067824A (zh) 信息处理装置,信息处理方法和信息存储介质
CN1317892C (zh) 电视电影变换方法和装置
CN1075565A (zh) 具有学习能力的文字识别方法

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20030827

Termination date: 20131218