CN101807179A - 信息处理器以及信息处理方法 - Google Patents
信息处理器以及信息处理方法 Download PDFInfo
- Publication number
- CN101807179A CN101807179A CN200910167109A CN200910167109A CN101807179A CN 101807179 A CN101807179 A CN 101807179A CN 200910167109 A CN200910167109 A CN 200910167109A CN 200910167109 A CN200910167109 A CN 200910167109A CN 101807179 A CN101807179 A CN 101807179A
- Authority
- CN
- China
- Prior art keywords
- paragraph
- row
- rectangle
- character
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Multimedia (AREA)
- Character Input (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供了一种信息处理器以及信息处理方法。信息处理器包括:排提取单元,其利用矩形的信息来提取排,其中每个矩形都包围了电子文档中的像素块;段落提取单元,其对包含提取的排的段落进行提取;段落整合单元,其对提取的段落进行整合;矩形计算单元,其根据包含在整合后的段落中的排的大小以及形成了包含在整合后的段落中的排的像素块的位置来计算包围了包含在整合后的段落中的像素块的矩形的位置及大小以及包含在整合后的段落中的像素块与相应的矩形之间的位置关系。
Description
技术领域
本发明涉及信息处理器以及信息处理方法。
背景技术
存在能够描述电子文档的电子文档格式。例如,存在被称为PDF(便携文档格式)(注册商标)的格式。
在这种电子文档中,可在PC上显示该电子文档。
那么,可根据操作者的操作而在PC上选择电子文档中描述的文本信息,以便执行诸如复制粘贴之类的处理。在PC上选择文本信息时(例如,可通过在显示了电子文档的显示器所示出的文本的位置处左击鼠标、并同时向右移动文本的位置,来选择文本信息),提供了一个指示标记来使所选文本的位置被反色(invert),以显示选择了哪些文本。
另一方面,字符的图像被类似地识别出来以形成电子文档。
例如,作为现有技术,JP-A-4-167188公开了一个字符串成形装置,该装置包括:矩形提取单元,用于从输入图像中提取对字符或者字符元素定界的矩形;可变倍率处理单元,用于根据从可指定的多个模式中指定的模式来对矩形提取单元所提取的矩形中的图像施加可变倍率处理;坐标转换单元,用于根据从可指定的多个模式中指定的模式来对矩形提取单元所提取的矩形的坐标进行转换;以及输出单元,用于通过根据坐标转换单元所转换之后的坐标控制打印设置位置来对经过可变倍率处理后的矩形中的图像进行打印。
此外,例如,JP-A-6-176188公开了一种装置,该装置被布置用来描绘输出字体(out-font)的识别字符,以使得识别字符的大小或位置与所描述的文本的大小或位置相同,并且该装置包括:识别单元,用于获取包含文本的代码信息以及字符的布局信息在内的识别字符信息;输出字体数据表,其保持字符的输出字体数据;字符框放大单元,用于基于轮廓字体(outline font)的字符框与所描绘字符的面积之比,来放大对通过引用而获得的识别字符进行定界的矩形,并且通过使用经放大的定界矩形作为字符数据框来校正信息;确定识别字符串的划分的单元;以及一个单元,用于校正利用放大的定界矩形形成的字符框数据,该定界矩形的宽度是通过将字符框的宽度除以多个划分之间的字符数而获得的。因此,当根据信息通过输出字体描绘字符时,可以避免字符变小,并且可以将划分的字符一起处理。
发明内容
本发明的一个目的是提供一种信息处理器、信息处理方法以及信息处理程序,其通过使得包围电子文档中的像素块的矩形的位置和大小变得统一来调节排的形状。
(1)根据本发明的第一方面,提供了一种信息处理器,其包括:
排提取单元,其利用矩形的信息来提取排,其中每个矩形都包围了电子文档中的像素块,所述排是包括电子文档中的行和列的任意排;
段落提取单元,其对包含所述排提取单元所提取的排的段落进行提取;
段落整合单元,其对所述段落提取单元所提取的段落进行整合;以及
矩形计算单元,其根据包含在整合后的段落中的排的大小以及形成包含在整合后的段落中的排的像素块的位置来计算包围了包含在整合后的段落中的像素块的矩形的位置及大小以及包含在整合后的段落中的像素块与相应的矩形的位置关系,其中所述排的大小表示行高或者列宽。
(2)根据本发明的第二方面,提供了一种在(1)中所描述的信息处理器,进一步包括:
字符数据形成单元,其形成字符数据,在字符数据中,所述矩形计算单元所计算出来的矩形的信息与被所计算的矩形包围的像素块相结合。
(3)根据本发明的第三方面,提供了一种在(2)中所描述的信息处理器,其中所述字符数据形成单元将表示一个像素块的信息与一个或多个矩形的信息结合起来,以形成字符数据。
(4)根据本发明的第四方面,提供了一种在(1)至(3)中任意一项中所描述的信息处理器,其中每个矩形都包围了电子文档中的像素块的多个矩形的信息包括任意方向上的每个矩形的位置,任意方向包括高度方向和宽度方向,以及
所述排提取单元利用包围了像素块的每个矩形的位置来提取包含像素块的排的大小,所述排的大小表示行高或者列宽。
(5)根据本发明的第五方面,提供了一种在(1)至(4)中任意一项中所描述的信息处理器,其中所述段落提取单元通过利用所述排提取单元所提取的排的大小以及任意方向上的排的位置来提取段落,其中所述排的大小表示行高或者列宽,任意方向包括高度方向和宽度方向。
(6)根据本发明的第六方面,提供了一种在(1)至(5)中任意一项中所描述的信息处理器,其中所述段落提取单元根据所述排提取单元所提取的排与作为将被提取的段落之间的位置关系来提取段落。
(7)根据本发明的第七方面,提供了一种在(1)至(6)中任意一项中所描述的信息处理器,其中所述段落提取单元计算包围了所提取的段落的定界矩形的位置,作为所提取的段落的信息。
(8)根据本发明的第八方面,提供了一种在(1)至(7)中任意一项中所描述的信息处理器,其中同一行或者同一列中包含了多个排,并且所述段落提取单元对所述多个排进行排序。
(9)根据本发明的第九方面,提供了一种在(1)至(8)中任意一项中所描述的信息处理器,其中所述段落提取单元通过利用包含在所提取出来的段落中的排的大小来计算段落的代表值以作为所提取的段落的信息,其中所述排的大小表示行高或者列宽,并且
所述段落整合单元通过利用所述段落提取单元所计算出来的段落的代表值来对所提取的段落进行整合。
(10)根据本发明的第十方面,提供了一种在(1)至(9)中任意一项中所描述的信息处理器,其中所述矩形计算单元对所述段落整合单元所整合的段落中所包含的排的大小进行统一,以便计算包围了包含在所整合的段落中的像素块的矩形的位置和大小,从而产生像素块和相邻像素块之间的间隔。
(11)根据本发明的第十一方面,提供了一种在(1)至(10)中任意一项中所描述的信息处理器,其中所述矩形计算单元根据包含在电子文档中的字符语言来计算包围了像素块的矩形的大小。
(12)根据本发明的第十二方面,提供了一种信息处理方法,包括:
利用矩形的信息来提取排,其中每个矩形都包围了电子文档中的像素块,所述排是包括电子文档中的行和列的任意排;
对包含所提取的排的段落进行提取;
对所提取的段落进行整合;以及
根据包含在整合后的段落中的排的大小以及形成整合后的段落中的排的像素块的位置来计算包围了包含在整合后的段落中的像素块的矩形的位置及大小以及包含在整合后的段落中的像素块与相应的矩形的位置关系,其中所述排的大小表示行高或者列宽。
(13)根据本发明的第十三方面,提供了一种在(12)中所描述的信息处理方法,进一步包括:
形成字符数据,在字符数据中,所计算出来的矩形的信息与被所计算的矩形包围的像素块相结合。
(14)根据本发明的第十四方面,提供了一种在(12)至(13)中任意一项中所描述的信息处理方法,其中每个矩形都包围了电子文档中的像素块的多个矩形的信息包括任意方向上的每个矩形的位置,任意方向包括高度方向和宽度方向,以及
排提取步骤利用包围了像素块的每个矩形的位置来提取包含像素块的排的大小,所述排的大小表示行高或者列宽。
(15)根据本发明的第十五方面,提供了一种在(12)至(14)中任意一项中所描述的信息处理方法,其中段落提取步骤通过利用所提取的排的大小以及任意方向上的排的位置来提取段落,其中所述排的大小表示行高或者列宽,任意方向包括高度方向和宽度方向。
(16)根据本发明的第十六方面,提供了一种在(12)至(15)中任意一项中所描述的信息处理方法,其中计算步骤通过利用包含在所提取出来的段落中的排的大小来计算段落的代表值以作为所提取的段落的信息,其中所述排的大小表示行高或者列宽,并且
段落整合步骤通过利用所计算出来的段落的代表值来对所提取的段落进行整合。
根据在(1)和(12)中定义的信息处理器,相比于不具有根据本发明的结构的装置,通过使包围电子文档中的像素块的矩形的位置和大小变得统一,从而更能调节排形状。
根据在(2)和(13)中定义的信息处理器,形成了用于再现电子文档的字符数据。
根据在(3)中定义的信息处理器,能够比不具有根据本发明的结构的装置更能删除示出了电子文档中的像素块的信息。
根据在(4)和(14)中定义的信息处理器,可提取每行的高度或者每列的宽度,从而满足电子文档中的排,而非满足预定值。
根据在(5)和(15)中定义的信息处理器,可提取段落从而满足电子文档中的排,而非满足预定值。
根据在(6)中定义的信息处理器,相比于不具有根据本发明的结构的装置,更能减少提取段落中发生的错误。
根据在(7)中定义的信息处理器,相比于不具有根据本发明的结构的装置,更能提取所提取的段落的信息。
根据在(8)中定义的信息处理器,相比于不具有根据本发明的结构的装置,更能满足属于同一行或者同一列的多个排的情况。
根据在(9)和(16)中定义的信息处理器,相比于不具有根据本发明的结构的装置,段落变得更统一,从而满足电子文档中的排,而非满足预定值。
根据在(10)中定义的信息处理器,即使电子文档中的像素块的大小或像素块间的间隔不是固定的,相比于不具有根据本发明的结构的装置,也更能调节排的形状。
根据在(11)中定义的信息处理器,相比于不具有根据本发明的结构的装置,更能计算出包围了符合语言中所使用的字符特征的像素块的矩形的大小。
根据在(12)中定义的信息处理器,相比于不具有根据本发明的结构的程序,通过使包围电子文档中的像素块的矩形的位置和大小变得统一,从而更能调节排形状。
附图说明
将根据附图来详细描述本发明的示范实施例,其中:
图1是该示范实施例的结构示例的概念性模块图;
图2A和图2B是示出了排识别处理模块执行的排提取处理的示例的示意图;
图3A和图3B是示出了排识别处理模块执行的排提取处理的示例的示意图;
图4是示出了排特征计算模块执行的排特征提取处理的示例的示意图;
图5是示出了根据示范实施例的段落识别处理的示例的流程图;
图6是示出了段落信息的更新处理的示例的示意图;
图7是示出了用于确定是否在示范实施例中登记了段落的处理的示例的流程图;
图8A和图8B是示出了由于横向移动而登记段落的示例的示意图;
图9A和图9B是示出了由于字符大小而未登记段落的示例的示意图;
图10是示出了同一行中存在多行的状态的示例的示意图;
图11是示出了段落整合处理模块执行的段落整合处理的示例的流程图;
图12是示出了校正矩形形成模块执行的校正矩形形成处理的示例的示意图;
图13是示出了更高清晰度字符形状数据的形成处理的示例的示意图;
图14是示出了相对于排的相对位置随着字符的位置而不同的示意图;
图15是示出了字符形状数据和校正字符数据之间的关系的示例的示意图;
图16A和图16B是示出了示范实施例中的校正字符信息数据的数据结构示例以及字体文件的数据结构示例的示意图;
图17是示出了实现了该示范实施例的计算机的硬件的结构示例的示意图;
图18是示出了电子文档的文本被显示的示例的示意图;
图19是示出了文本被选择的状态下的电子文档的显示示例的示意图;
图20是示出了在另一应用中复制了文本时获取的另一电子文档的显示示例的示意图;
图21是示出了在其中包含了图像处理字体的电子文档中选择了文本的状态的示意图;以及
图22是示出了当在另一应用中复制了文本时获取的另一电子文档的显示示例的示意图。
具体实施方式
首先,下文将描述作为本示范实施例的对象的电子文档。
例如,当在PC上选择电子文档1800中的文本“Japan”时(其中在图18所示的示例中显示了字符串“Japan”),“Japan”的部分被反色成图19所示的示例(图19的示例中所示的被选文本1901),从而用户被告知对“Japan”的选择。
另外,在如上所述那样选择文本的状态下,当在PC上执行复制粘贴操作时,文本信息“Japan”可被复制到另一文件中。如图20所示的示例所示,文本信息可被粘贴到诸如文字处理器之类的另一应用文件(图20的示例中所示的电子文档2000)。
为了指定该电子文档中的字符形状,电子文档中(如PDF中)可包含字体信息。在显示或打印电子文档时,包含了字体信息(字符形状信息)以便得出符合创建电子文档的用户的意愿的字符形状。在电子文档中包含字体信息,以使得没有同样字体信息的电子文档接收器(打印机、PC等)可获得与用户创建的电子文档的字符形状相同的字符形状。
如上所述,当电子文档中包含有字体信息(字符形状信息)以指定电子文档中的字符形状时,执行处理以增大字符部分的清晰度,以便符合电子文档接收器(打印机、PC等)的装置信息,或者执行处理以勾勒出字符轮廓来进行编辑或重新使用。在此,字符的勾勒轮廓处理表示一种用于通过利用诸如Bezier曲线之类的曲线对字符的轮廓形状进行近似来显示字符的方法。
当上述图像处理被应用至用于指定字符形状的字体信息的字符部分时,如果没有根据字符部分的图像处理来对字体信息进行适当更新,那么在电子文档被阅读人员阅读时进行的文本信息选择操作行为有时候会不同于原始电子文档的文本信息选择操作行为。
例如,如图21中图示的示例所示,显示了文本“Japan”被选的反色矩形(图21的示例中示出的被选文本2101至2105)并没有表示出图19所示示例那样的布置矩形的反色矩形。并且,矩形分别独立于字符,并且矩形大小彼此不同。因此,反色矩形的质量恶化。
此外,在这种状态下,当将文本信息复制粘贴至文字处理器等的另一应用文件(图22的示例中所示的电子文档2200)中时,如图22的示例所示,“Japan”的字符的大小彼此不统一,从而电子文档的可重复使用性(不能再现与原始字符的大小相同的大小)恶化。
这一现象缘于这样的事实:存在于原始字体信息中的“考虑了当‘Japan’被选为字符串时获取的形状”的矩形信息由于字符部分的图像处理或者信息未被适当校正的原因而丢失了。
于是,为了很好地布置反色矩形,将要包含在电子文档中的矩形信息需要被适当地校正。
在该示范实施例所输出的电子文档中,字体信息被包含为字体文件,并且当其字符串被选择时,反色矩形的质量的恶化被抑制。
现在,下文将描述该示范实施例的总结。
在该示范实施例中,不仅根据用于每个字符的信息来校正包含在电子文档中的字体信息的矩形信息,而且还从电子文档的整体部分提取或计算(包括段落的提取处理以及段落的整合处理)校正矩形信息所需的信息,以便据此针对每个字符来校正矩形。
并且,当电子文档中的相似字符形状的数据被一个代表性字符形状的数据所取代时,文档质量的恶化被抑制,例如相邻字符的矩形的不平坦、字符位置的偏移等等。
具体地说,在横向书写类型的电子文档中,执行如下描述的处理(A1至A7)。
(A1)从对电子文档中的字符定界的矩形信息(电子文档中的坐标值(可使用绝对值或者相对值)以及矩形的大小(例如,矩形的高度和宽度))中提取出行。对字符定界的矩形信息表示了围绕电子文档中的字符的矩形(定界矩形)的信息。
(A2)获取行的特征信息(例如,该行中的所有字符的定界矩形都包括在其中的最小值、该行的矩形大小、该行的坐标值等)。
(A3)根据行的特征信息来提取由多行组成的段落,并计算段落的特征。
(A4)根据所计算出来的段落特征对多个段落进行整合。
(A5)根据包含在整合而成的段落中的每一行的特征信息来确定矩形的高度和矩形的宽度。
(A6)根据所确定的矩形高度和所确定的矩形宽度来形成针对每个字符的矩形信息。并且,对示出了矩形中的字符的位置的坐标值(相距矩形左上坐标的偏移值)进行计算。
(A7)此外,用于引用字符形状数据的索引(字符形状数据索引)被形成用来将矩形信息和示出字符位置的坐标值(偏移值)以及字符形状数据索引搜集起来作为一个字符数据的集合。在此,当相似字符形状数据被一个代表性字符形状数据所取代时,形成字符数据以使得字符形状数据索引引用代表性字符形状数据。
并且,在纵向书写类型的电子文档的情况下,执行下面描述的处理(B1至B7)。
(B1)根据对电子文档中的字符定界的矩形信息(电子文档中的坐标值(可使用绝对值或者相对值)以及矩形的大小(例如,矩形的高度和宽度))来提取列。对字符定界的矩形信息表示了围绕电子文档中的字符的矩形(定界矩形)的信息。
(B2)获取列的特征信息(例如,该列中的所有字符的定界矩形都包括在其中的最小值、该列的矩形大小、该列的坐标值等)。
(B3)在列的特征信息的基础上提取由多列组成的段落,并计算段落的特征。
(B4)在所计算出来的段落特征的基础上对多个段落进行整合。
(B5)根据包含在整合而成的段落中的每一列的特征信息来确定矩形的高度和矩形的宽度。
(B6)根据所确定的矩形高度和所确定的矩形宽度来形成针对每个字符的矩形信息。并且,对示出了矩形中的字符的位置的坐标值(相距矩形左上坐标的偏移值)进行计算。
(B7)并且,用于引用字符形状数据的索引(字符形状数据索引)被形成用来将矩形信息和示出字符位置的坐标值(偏移值)以及字符形状数据索引搜集起来作为一个字符数据的集合。在此,当相似字符形状数据被一个代表性字符形状数据所取代时,形成字符数据以使得字符形状数据索引引用代表性字符形状数据。
在该示范实施例中,即使当从对电子文档中的字符定界的矩形信息中提取行或列、并且根据所提取的行或列选择了字符串时,字符矩形信息的宽度和高度也能被校正,从而在选择字符串时使得反色矩形变得统一以抑制反色矩形的劣化。
而且,在该示范实施例中,鉴于引用了用于字符形状数据的索引,字符矩形信息(包括示出了字符位置的偏移值)与字符形状数据分开,从而即使在使用了代表性字符形状数据时文档质量的恶化也能被抑制,例如矩形的不平坦或者字符位置的偏移等。
现在,下文将参考附图来描述用于实现本发明的一个优选示范实施例。
图1是该示范实施例的结构示例的概念性模块图。
模块通常表示逻辑上可分的软件(计算机程序)、硬件部分等。所以,该示范实施例中的模块不仅表示计算机程序中的模块,而且表示硬件结构中的模块。因此,这一示范实施例还用于描述计算机程序、系统和方法。但是,为了便于说明,采用了“存储”、“允许存储”以及与其等效的文字表述。在示范实施例提供计算机程序时,这种表达的意思是允许存储装置存储或者控制存储装置进行存储。并且,模块实质上对应于一对一基础上的功能。但是,在安装时,可能用一个程序形成一个模块。可能用一个程序形成多个模块。相反,可能用多个程序形成一个模块。并且,可能通过一个计算机执行多个模块。可通过分布式环境或并行环境中的多个计算机执行一个模块。一个模块中可能包括其他模块。并且,在下文中,在逻辑连接(数据、指令、数据间的引用关系等的传输和接收)的情况下以及在物理连接的情况下可使用“连接”。
而且,系统和装置不仅包括其中多个计算机、硬件和装置被诸如网络(包括一对一的通信连接)之类的通信单元连接在一起的结构,而且包括由一个计算机、硬件或装置实现的结构。“装置”和“系统”被用作意义彼此相同的术语。“预定”表示作为对象的处理之前的处理,并且该示范实施例开始该处理之前或之后,“预定”被用来包括根据那个时刻的状态或情况、或者那个时刻之前的状态或情况而确定的意义。
下文中,行或列被称为排。并且,主要描述横向书写类型的电子文档被用作对象的情况。所以,排的高度主要被示例并解释成横向书写类型的情况下的行的高度、或者纵向书写类型的情况下的列的宽度。
而且,像素块(pixel mass)至少包括以四个连接或者八个连接延续的像素区域,还包括像素区域的组合。像素区域的组合包括以四个连接延续的多个像素区域。多个像素区域表示彼此相互邻近的像素区域。在此,例如,彼此相互邻近的像素区域包括就距离而言彼此靠近的像素区域、按照字符在垂直方向或者水平方向上突出以便从一排中逐个字符地剪切出一句话并且在空白点剪切字符的方式获取的图像区域、或者以预定间隔剪切的图像区域。例如,可执行字符识别处理来将识别为一个字符的图像确定为一个像素块。
一个像素块往往表示一个字符的图像,在本示范实施例中,像素块还被称为字符或者字符图像。
如图1所示,本示范实施例包括:排识别处理模块110、排特征计算模块120、段落识别处理模块130、段落整合处理模块140、校正矩形产生模块150和校正字符数据形成模块160。
排识别处理模块110被连接至排特征计算模块120,以便通过使用字符信息数据105来提取排来作为电子文档中的行或者列,并且将所提取的排的信息传递给排特征计算模块120。
将更加详细地描述排识别处理模块110。
排识别处理模块110接收字符信息数据105。此处所说的字符信息数据105至少包括电子文档中的像素块的矩形的信息。例如,信息可能是前面提到的对字符定界的矩形信息、或者字体信息。并且,字符信息数据可能包括与像素块相对应的字符的识别顺序的信息(按照字符识别装置所识别的顺序来排序的编号)。例如,字符信息数据可能包括电子文档中的字符的坐标(例如,包围该字符的定界矩形的左上坐标)、示出了字符大小的定界矩形的大小(定界矩形的宽度和高度)、字符形状、字符代码、字符的顺序信息、以及示出了字符是纵向书写字符还是横向书写字符的信息。在本示范实施例中,描述了从字符识别装置接收到字符信息数据105的情况。但是,本发明并不限于字符识别装置,并且字符的定界矩形可能被接收以形成等效的字符信息数据105。
随后,排识别处理模块110根据所接收到的字符信息数据105来提取电子文档中的排。例如,在横向书写类型的情况下,定界矩形的高度的方向(y坐标)上的位置被用来提取每行(包括定界矩形的排)的高度。在纵向书写类型的情况下,定界矩形的宽度的方向(x坐标)上的位置被用来提取每列(包括定界矩形的排)的宽度。作为更详细的示例,图2和图3示出了用于提取排的方法的示例。
图2A和图2B示出了其中排识别处理模块110根据定界矩形的坐标值来识别排的方法的示例。
如图2A图示的示例所示,当标记的字符信息数据的定界矩形(标记的定界矩形212)的左上y坐标(upper_y)小于标记的字符信息数据之前一个字符信息数据的定界矩形(标记的定界矩形211)的左下y坐标(lower_y)(upper_y<lower_y)时,排识别处理模块110识别出标记的字符信息数据的定界矩形(标记的定界矩形212)与标记的定界矩形211位于同一排中。在坐标系中,设置左上坐标为原点(0,0),随着x坐标右移以及y坐标下移,数值增大。
并且,如图2B所示的示例所示,当标记的字符信息数据的定界矩形(标记的定界矩形222)的左上y坐标(upper_y)大于标记的字符信息数据之前一个字符信息数据的定界矩形(标记的定界矩形221)的左下y坐标(lower_y)(lower_y<upper_y)时,排识别处理模块110识别出标记的字符信息数据的定界矩形(标记的定界矩形222)与标记的定界矩形221位于不同排中。
随后,排识别处理模块110将被识别为位于同一排的字符信息数据串传递给排特征计算模块120。
由于所接收的字符信息数据被布置成字符图像的定界矩形的出现顺序(例如,在横向书写类型的情况下,定界矩形被布置成从左边部分向右边部分扫描定界矩形、并随后在下一排中从左边部分向右边部分扫描定界矩形的顺序),因此,按照定界矩形的出现顺序,标记的字符信息数据之前的一个字符信息数据的定界矩形出现在标记的字符信息数据的定界矩形之前。
图3A和图3B示出了其中排识别处理模块110根据定界矩形之间的距离来识别排的方法的示例。
如图3A的示例所示,当标记的字符信息数据的定界矩形(标记的定界矩形303)和标记的字符信息数据之前一个字符信息数据的定界矩形(定界矩形302)之间的定界矩形间的距离311(下文中其也被称为定界矩形间的当前距离)的值是通过利用已经分别被识别成位于同一排的定界矩形间的距离的平均值(下文中将其称为定界矩形间的平均距离)乘以当前处理的排的α或者更小值而获得的时(即,满足表达式:定界矩形间的当前距离≤定界矩形间的平均距离×α),排识别处理模块110识别出标记的定界矩形303与定界矩形302处于同一排。α表示排识别参数和预定值。例如,α是根据字符信息数据而确定的。
并且,如图3B的示例所示,当标记的字符信息数据的定界矩形(标记的定界矩形323)和标记的字符信息数据之前一个字符信息数据的定界矩形(定界矩形322)之间的定界矩形间的距离331的值是通过利用当前处理的排的定界矩形间的平均距离乘以α或者更大值而获得的时(即,满足:定界矩形间的当前距离>定界矩形间的平均距离×α),排识别处理模块110识别出标记的定界矩形323与定界矩形322处于不同排。
排特征计算模块120被连接至排识别处理模块110以及段落识别处理模块130,排特征计算模块120包括行高度和列宽度计算模块121和矩形间距离计算模块122。排特征计算模块120从排识别处理模块110接收被识别为位于同一行的字符信息数据,计算排的特征,并且将所计算出来的排信息传递给段落识别处理模块130。行高度和列宽度计算模块121计算排的高度。矩形间距离计算模块122计算矩形间的距离。
即,排特征计算模块120根据被排识别处理模块110识别成位于同一排的一串字符信息数据来计算排的特征,例如排的高度、排的宽度、和排定界矩形的坐标、以及定界矩形间的平均距离。
排特征计算模块120获取包括属于同一排的字符信息数据的定界矩形在内的矩形。例如,如图4的示例所示,排特征计算模块120获取将位于同一排的定界矩形401至定界矩形419包围了起来的排定界矩形450。随后,作为排定界矩形的坐标,如图4所示,排特征计算模块120获取排定界矩形的左上坐标(min_x,min_y)以及排定界矩形的右下坐标(max_x,max_y)。
并且,行高度和列宽度计算模块121通过使用先前获取的排定界矩形的坐标来获取排的高度(h)为h=max_y-min_y。类似地,行高度和列宽度计算模块121通过使用排定界矩形的坐标来获取排的宽度(w)为w=max_x-min_x。
而且,矩形间距离计算模块122获取定界矩形之间的平均距离作为属于同一排的相邻字符信息数据的定界矩形之间的距离g0、g1、…、gn的平均值。而且,矩形间距离计算模块122获取定界矩形间的最大距离max-g为g0、g1、…、gn中的最大值。g0、g1、…、gn的值被分别保持为列表数据。
段落识别处理模块130被连接至排特征计算模块120和段落整合处理模块140,段落识别处理模块130根据排识别处理模块110中分别识别出来的排以及排特征计算模块120中分别计算出来的排的排特征数来提取电子文档中的段落,并且计算其段落信息。并且,在横向书写类型的情况下,可通过使用排识别处理模块110所提取的每行的高度和排坐标(高度方向上的位置(y坐标))来提取段落。在纵向写类型的情况下,可通过使用排识别处理模块110所提取的每列的宽度和排坐标(宽度方向上的位置(x坐标))来提取段落。而且,可在排识别处理模块110所提取的排和作为待处理对象的段落之间的位置关系的基础上提取段落。作为所提取的段落的信息,可计算将段落包围起来的定界矩形的位置信息,或者可根据段落中所包括的字符的出现顺序的信息来计算段落的顺序的信息。在横向书写类型的情况下,当多排属于同一行时,可依序地布置排。在纵向书写类型的情况下,当多排属于同一列时,可依序地布置排。举例说明了作为将段落包围起来的定界矩形的位置信息,例如,段落的定界矩形的左上角的坐标值以及段落的定界矩形的宽度和高度。并且,段落识别处理模块130可通过利用包含在段落中的排的高度或宽度(在横向书写类型的情况下为每行的高度,在纵向书写类型的情况下为每列的宽度)来计算段落的代表值作为所识别的段落的信息。更具体地说,作为段落的代表值,在横向书写类型的情况下,代表值指的是包含在段落中的被识别为位于同一段落的多个行中行高度的最大值。在纵向书写类型的情况下,代表值指的是包含在段落中的被识别为位于同一段落的多个列中列宽度的最大值。
图5是示出了根据示范实施例的段落识别处理的示例的流程图。即,图5示出了段落识别处理模块130所执行的处理的示例。
首先,在步骤S502中,针对排识别处理模块110所识别出来的排,段落识别处理模块130按照升序以min_y值作为排定界矩形的y坐标值来对排进行排序。
在步骤S504中,段落识别处理模块130确定是否已经对步骤S502中排过序的所有排都进行了搜索(步骤S506至步骤S514)。当搜索完所有排时,段落识别处理模块130将处理转移至S516。在没有完成搜索时,段落识别处理模块130将处理转移至步骤S506。
在步骤S506中,段落识别处理模块130按照排序处理的顺序选择一个标记的排(下文中也将其称为当前搜索的排)。
在步骤S508中,段落识别处理模块130确定当前搜索的排是否被登记在段落中。在当前搜索的排被登记在段落中时,段落识别处理模块130返回步骤S504。在当前搜索的排未被登记在段落中时,段落识别处理模块130将处理转移至步骤S510。
在步骤S510中,段落识别处理模块130确定当前搜索的排是否是最先被登记在当前段落中的排。在当前搜索的排是最先被登记在当前段落中的排时,段落识别处理模块130将处理转移至步骤S514。在当前搜索的排不是最先被登记在当前段落中的排时,段落识别处理模块130将处理转移至步骤S512。
在步骤S512中,段落识别处理模块130确定当前搜索的排是否被登记在当前段落中。在当前搜索的排可被登记在当前段落中时,段落识别处理模块130将处理转移至步骤S514。在当前搜索的排不被登记在当前段落中时,段落识别处理模块130将处理返回步骤S504。后面将参照图7来具体描述在步骤S512中用于确定当前搜索的排是否被登记在当前段落中的处理的细节。
在步骤S514中,段落识别处理模块130将分别在步骤S510和步骤S512中确定为最先登记的排或者可被登记在当前段落中的排登记在当前段落中,从而计算或者更新段落信息。之后,段落识别处理模块130将处理转移至步骤S504。
在此,在图6中示出了段落信息的具体示例。例如,段落信息包括段落的位置信息(例如左上坐标和右下坐标)以及段落顺序值(阅读段落时的顺序)。段落识别处理模块130通过考虑包括了登记在段落中的所有排(从登记的排0(600)到登记的排8(608))的所有排定界矩形(作为段落定界矩形610)来利用登记在段落中的排信息(登记的排信息)计算左上坐标(min_x,min_y)和右下坐标(max_x,max_y),如图6所示。并且,虽然没有在图6中示出,但是段落识别处理模块130计算了分别登记在同一段落中的排中的排高度的最大值max_h,以便将max_h设置为段落的代表值。段落识别处理模块130计算了登记在同一段落中的字符信息数据中的字符识别顺序的最小值min-order,从而将min-order设置为段落顺序值。
现在,下面将描述段落信息的更新处理。当段落识别处理模块130在步骤S514将新的排登记在当前段落中时,段落识别处理模块130更新上述段落定界矩形的坐标以及段落顺序值。在图6所示的具体示例中,当将要被新处理的排是所登记的排8(608)时,由于登记的排8(608)的排定界矩形的宽度位于当前段落定界矩形的坐标(min_x,max_x)的宽度中,所以段落识别处理模块130不对min_x和max_x进行更新,而是仅仅更新max_y(在图6中,从更新处理之前的max_y更新为更新处理之后的max_y)。而且,段落识别处理模块130将当前段落的段落代表值与新登记的登记排8(608)的排高度进行比较。在登记排8(608)的排高度大于当前段落的段落代表值时,段落识别处理模块130还对段落的代表值max-h进行更新。即,段落识别处理模块130将登记排8(608)的排高度设置为段落的代表值max-h,并且将段落的代表值max-h设置为段落中的最大排高度。而且,段落识别处理模块130还将当前段落顺序值与新登记的排8(608)中的所有字符信息数据的字符识别顺序中的值进行比较。在存在小于当前段落顺序值的值时,段落识别处理模块130将段落顺序值min-order更新为小值(字符识别顺序的值)。
在步骤S516中,由于段落识别处理模块130按照步骤S504中的排序处理的顺序完成了对排的搜索,所以段落识别处理模块130确定将被登记的所有排都被登记在当前段落中,从而完成当前段落的提取处理。
在步骤S518中,段落识别处理模块130确定是否所有排都被登记在段落中。在所有排都被登记在任意段落中时,段落识别处理模块130结束段落提取处理(步骤S599)。当存在未被登记在任意段落中的排时,段落识别处理模块130将处理返回步骤S504,从而执行下一次的段落提取处理。
现在,将参考图7的示例中所示的流程图来描述图5的示例中所示的流程图中的步骤S512中用于确定段落识别处理模块130所处理的当前搜索排是否可被登记在当前段落中的处理的示例。
在步骤S702,段落识别处理模块130确定当前搜索的排相对于当前段落的段落定界矩形是否右移或者左移。即,段落识别处理模块130确定当前搜索的排的左端是否位于当前段落的右端向右的部分,或者当前搜索的排的右端是否位于当前段落的左端向左的部分。例如,如图8A所示,段落识别处理模块130确定当前搜索的排812是否从当前段落810右移,或者如图8B所示,段落识别处理模块130确定当前搜索的排832是否从当前段落830左移。在当前搜索的排如图8A和图8B所示的那样右移或者左移时,段落识别处理模块130不将当前搜索的排登记在当前段落中,从而将处理返回值图5的示例所示的步骤S504。否则,段落识别处理模块130将处理移至步骤S704。
在步骤S704中,段落识别处理模块130根据登记在当前搜索的排中以及当前段落中的排的字符的大小(包括排的高度)来确定是否登记当前搜索的排。即,段落识别处理模块130确定当前搜索的排的字符大小是否大于当前段落中登记的排的字符大小。例如,在步骤S704中,通过利用如图9A和图9B所示的排的高度来确定字符的大小。即,段落识别处理模块130将已经分别登记在当前段落920和950中多个排(排900至排908、以及排930至排938)的排平均高度与当前搜索的排910和940的排高度进行比较。如图9A的示例所示,在当前搜索的排910的排高度比排平均高度大预定量时,或者如图9B的示例所示,在当前搜索的排940的排高度比排平均高度小预定量时,段落识别处理模块130不将当前搜索的排910和940登记在当前段落920和940中,并且将程序返回至图5的示例所示的步骤S504。否则,段落识别处理模块130将程序转移至步骤S706。
在步骤S706中,段落识别处理模块130确定当前搜索的排是否相对于当前段落的段落定界矩形下移。即,段落识别处理模块130将图6的示例所示的当前段落的段落定界矩形610的max_y(图6中的更新处理之后的max_y)与图4的示例所示的当前搜索的排的排定界矩形450的min_y进行比较。当max_y≤min_y时,段落识别处理模块130将处理转移至步骤S708。当max_y>min_y时,段落识别处理模块130将处理转移至图5的示例所示的步骤S514,从而将当前搜索的排登记在当前段落中,并更新段落信息。
在步骤S708中,类似于步骤S704,段落识别处理模块130将分别登记在当前段落中的排的排平均高度与当前搜索的排的排高度进行比较。在当前搜索的排的排高度比排平均高度大预定量或小预定量时,段落识别处理模块130不将当前搜索的排登记在当前段落中,并将处理返回至图5的示例所示的步骤S504。否则,段落识别处理模块130将处理转移至步骤S710。
在步骤S710,段落识别处理模块130将当前搜索的排和当前段落之间的间隔与已经分别登记在当前段落中的排之间的间隔进行比较。即,已经分别登记在当前段落中的排之间的间隔的平均值与当前搜索的排和当前段落的段落定界矩形之间的距离(min_y-max_y)相比较。在差值大于预定量时,段落识别处理模块130确定排之间的间隔变宽,并且不将当前搜索的排登记在当前段落中,从而使处理返回至图5的示例所示的步骤S504。在差值小于预定量时,段落识别处理模块130确定排之间的间隔是固定的,并将处理转移至步骤S712。
在步骤S712中,段落识别处理模块130确定与当前搜索的排之前一排的同一排中是否存在多个登记的排。在同一排中存在多个排时,利用min_x值作为排定界矩形的x坐标来进行升序排序。在此,同一排指的是这样的排,在该排中排定界矩形的y坐标处于作为针对当前搜索排的范围的预定范围内,该排在排识别处理模块110中被识别为与当前搜索排分开的排,并且同一排表示在段落识别处理模块130的形成当前段落的处理中在当前搜索的排之前登记的一个排(有时可能是多个排)。此处,y坐标处于预定范围内的意思是一行处于该段落的现有y坐标的范围内。在同一排中没有登记多排的时候,段落识别处理模块130直接将处理转移到图5的示例所示的步骤S514,将当前搜索的排登记在当前段落中,并且更新段落信息。图10示出了其中同一排中存在三个登记的排(登记的排1010、登记的排1011、登记的排1012)的示例。在图10的示例中,段落识别处理模块130利用登记的排1010的“mix_x”、登记的排1011的“mix_x”、以及登记的排1012的“mix_x”分别作为上述三个登记的排的排定界矩形的x坐标值,来按照升序对登记的排进行排序。在段落识别处理模块130完成排序处理之后,段落识别处理模块130将处理转移至图5的示例所示的步骤S514,以便将当前搜索的排登记在当前段落中并且更新段落信息。
段落整合处理模块140被连接至段落识别处理模块130和校正矩形产生模块150,从而对段落识别处理模块130所提取的段落进行整合并且计算段落的信息。随后,段落整合处理模块140将所计算出来的段落信息传递给校正矩形产生模块150。
更具体地说,段落整合处理模块140利用多个段落各自的段落代表值(max-h)来对段落识别处理模块130中识别的段落进行整合。
图11是示出了段落整合处理模块140执行的段落整合处理的示例的流程图。
在步骤S1102,段落整合处理模块140计算段落识别处理模块130所识别出来的所有段落的段落代表值max-h的差值,从而提取两个段落,这两个段落的差值最小(这时的差值下文中也被称为“最小差值”)。
在步骤S1104,段落整合处理模块140将步骤S1102中计算出来的最小差值与预定阈值进行比较。在最小差值大于预定阈值时(步骤S1104的判定为否),段落整合处理模块140确定没有将要被整合的段落,从而完成段落整合处理模块140中的段落整合处理(S1199)。当最小差值小于预定阈值时(步骤S1104的判定为是),段落整合处理模块140将处理转移至步骤S1106。
在步骤S1106中,段落整合处理模块140根据段落代表值的差值是最小的这一理由而对步骤S1102中提取的两个段落进行整合。此处提到的“段落被整合”指的是例如相同的识别号被提供或添加至两个段落的段落信息,从而显示这两个段落的段落代表值彼此相近。
在步骤S1108中,段落整合处理模块140将在步骤S1106中整合的段落的段落代表值max-h设置为将被整合的原始的两个段落的段落代表值的较大值,来将处理返回至步骤S1102。即,段落整合处理模块140将整合后的段落的段落代表值max-h设置为原始段落的段落代表值max-h的较大值。
这样,段落整合处理模块140重复步骤S1102至步骤S1108的整合处理来对段落进行整合,直到在如上所述的步骤S1104中判定在步骤S1102中计算的最小差值大于预定阈值。
校正矩形产生模块150被连接至段落整合处理模块140和校正字符数据形成模块160,以根据作为被段落整合处理模块140整合的段落的排的行高或列宽来计算包围像素块的矩形的位置和大小、以及整合后的段落中的矩形和像素块之间的位置关系。随后,校正矩形产生模块150将计算出来的关于矩形的信息(信息包括包围像素块的矩形的位置和大小、以及矩形和像素块之间的位置关系,矩形也被称为校正矩形)传递给校正字符数据形成模块160。
例如,校正矩形产生模块150可对作为被段落整合处理模块140整合的段落的排的行高或列宽进行统一,从而计算整合后的段落中的包围像素块的矩形的位置和大小,以便在字符间不形成间隔。并且,当电子文档中存在具有等价形式的字符时(即,等价形式指的是字符与字符图像等价或者与定界矩形等价。字符图像等价的字符指的是字符图像的特征被提取并且特征在特征空间中的位置处于预定阈值内。与定界矩形等价的字符指的是这样的情况,定界矩形的高度和宽度不大于其它定界矩形的高度和宽度以及预定阈值),校正矩形产生模块150可将包围字符的矩形的位置和大小设置为等价值。并且,校正矩形产生模块150可根据电子文档中的字符的语言来计算定界矩形的大小。
而且,例如,校正矩形产生模块150根据被段落整合处理模块140整合的段落的段落代表值max-h来产生针对每行排序的字符信息数据的校正矩形。图12示出了校正矩形形成模块150中的校正矩形产生处理的一个具体示例。
在校正矩形形成模块150中,根据下文描述的方式来计算分别在图12的示例中示出的校正值。
将作为校正对象的字符信息数据所属的整合后的段落的段落代表值max-h设置成校正矩形的高度H。
校正矩形的宽度W被设置成左右相邻的定界矩形的中点之间的距离。即,从标记的定界矩形(图12中的当前字符定界矩形1220)的左端与左边相邻的定界矩形(按照顺序在当前字符定界矩形之前的一个定界矩形,图12中的前一个字符定界矩形1210)的右端之间的中点到从标记的定界矩形(图12中的当前字符定界矩形1220)的右端与右边相邻的定界矩形(按照顺序在当前字符定界矩形之后的一个定界矩形,图12中的下一个字符定界矩形1240)的左端之间的中点的这一距离被设置成校正矩形的宽度W。
如图12的示例所示,假设前一个字符定界矩形1210的右端的x坐标为x0,当前字符定界矩形1220的左端的x坐标为x1,当前字符定界矩形1220的右端的x坐标为x2,以及下一个字符定界矩形1240的左端的x坐标为x3,那么可利用下面描述的等式(1)来计算校正矩形的宽度W:
W=(x2+x3-x0-x1)/2等式(1)
利用下面描述的等式(2)来计算校正矩形1230的左上顶点的坐标值(new_x,new_y):
new_x=(x0+x1)/2
new_y=min y-(H-h)/2等式(2)
此处,min_y指的是作为校正对象的字符信息数据所属的排的y坐标的最小值。H指的是校正矩形的高度。h指的是校正前的定界矩形的高度。
利用下面描述的等式(3)来计算从校正矩形1230到当前字符定界矩形1220的相对移动量(其也被称为偏移量,包围像素块的矩形和像素块之间的位置关系的一个示例)Shift-x和Shift-y:
Shift x=x1-new_x
Shift y=y1-new_y 等式(3)
此处,y1指的是当前字符定界矩形1220的上端的y坐标。
如上所述,校正矩形产生模块150根据排识别处理模块110所接收到的字符信息105的定界矩形信息来产生校正矩形,以执行校正,从而字符的矩形的高度变得统一,并且字符间不会产生间隔。
并且,校正矩形产生模块150可根据电子文档中的字符的语言以及上述校正来计算校正字符矩形的大小。例如,在作为对象的电子文档使用日文时,校正矩形产生模块150可将校正矩形的宽度W设置为等于校正矩形的高度H,从而校正矩形为正方形。并且,校正矩形产生模块150通过利用包含在电子文档中的表头和关于语言的字符代码、以及图像情况下的字符识别处理的结果来确定作为对象的电子文档中的字符的语言。
现在,将描述校正字符数据形成模块160。校正字符数据形成模块160被连接至校正矩形产生模块150,以便形成校正字符信息数据165,校正字符信息数据165具有校正矩形产生模块150结合矩形中的像素块而计算出来的矩形的信息。而且,校正字符数据形成模块160可将代表一个像素块的信息与矩形的一个或多个信息结合起来以形成字符数据。
现在,通过参考图13,下文将描述更高清晰度字符形状数据的形成处理的一个示例。即,将描述这样一种技术,其中当用于对校正字符信息数据165中的字符形状进行指定的字体信息被包含在电子文档中时,根据电子文档中的存在的多个类似字符形状形成更高清晰度字符形状数据(代表性字符形状数据),并且代表性字符形状数据被框示。
校正字符数据形成模块160从字符信息数据105中的像素块选择字符代码的字符信息数据105(例如“2”)作为对象。校正字符数据形成模块160确定字符图像是类似的,这是因为它们具有相同的字符代码。并且,校正字符数据形成模块160可计算字符图像之间的相似度(例如,两个图像的异或运算被用来计算不同像素的数量的比率),以便利用相似度来确定相似的图像字符。
如图13的示例所示,校正字符数据形成模块160从字符信息数据105中取出类似字符图像组1310中的字符图像1311、字符图像1312以及字符图像1313。随后,校正字符数据形成模块160根据从校正矩形产生模块150接收到的矩形信息提取其字符大小/字符位置数据1350,并且将其赋值为字符图像的字符代码数据1340的“2”。
校正字符数据形成模块160获取字符图像1311、字符图像1312以及字符图像1313的重心(中线1311A的交点等)以通过移动相位来使得它们的重心相互对应从而形成高清晰度字符图像1320。随后,校正字符数据形成模块160根据高清晰度字符图像1320形成字体数据1330。校正字符数据形成模块160根据字体数据1330、字符代码数据1340以及字符大小/字符位置数据1350形成校正字符信息数据165。
图14是示出了相对于排的相对位置随着字符的位置而不同的示意图。即,当相似的字符形状数据被一个代表性字符形状数据所代替时,即使代表性字符形状数据的矩形的信息是以任何方式形成的,将被取代的字符形状数据的相对位置与电子文档中的排是不同的。所以,在试图对矩形的信息进行统一时,字符的相对位置彼此偏移。在试图对相对位置进行统一时,相邻字符的矩形的位置彼此偏移。如图14的示例所示,作为更详细的示例,当定界矩形1415、字符矩形1420和代表性字符的相对位置1425被图14中的字符1和字符2代替时,示出了字符矩形1420和定界矩形1415之间的关系的相对位置1425不同于示出了字符矩形1460和定界矩形1455之间的关系的相对位置1465或者示出了字符矩形1480和定界矩形1475之间的关系的相对位置1485。所以,在字符1的相对位置1465和字符2的相对位置1485被相对位置1425直接代替时,质量如上所述地那样恶化。
如图15的示例所示,校正字符数据形成模块160形成与校正矩形产生模块150中形成的每个字符位置中的校正矩形相对应的代表性字符形状数据的索引(参考值),以便形成包含校正矩形数据(矩形高度H、矩形宽度W、左上坐标(new_x,new_y)、相对移动量Shiftx、Shift y)的一个校正字符数据。
在图15所示的具体示例中,利用字符信息数据0的校正矩形数据1522以及字符形状数据01510的索引1524(“A”的形状数据)来形成校正字符数据01520。利用字符信息数据1的校正矩形数据1542以及字符形状数据11530的索引1544(“2”的形状数据)来形成校正字符数据11540。利用字符信息数据2的校正矩形数据1552以及字符形状数据11530的索引1554(“2”的形状数据)来形成校正字符数据21550。如图15的示例所示,校正字符数据11540和校正字符数据21550具有用于公共字符形状数据11530的索引,但是具有不同的校正矩形数据(字符信息数据1的校正矩形数据1542以及字符信息数据2的校正矩形数据1552)。如上所述,校正字符数据形成模块160根据字符位置将字符形状数据与校正矩形数据分开,以形成校正字符信息数据165。即,即使字符位置中的字符形状数据分别被代表性字符形状数据(图15的示例中的形状数据“2”)代替,相邻字符的字符位置或校正矩形也不会偏移。
正常地,电子文档的字体文件具有用于描绘其它字形(此处“字形”被用作字符形状的意思)的图像的系统。例如,在PostScript字体的情况下,其被称为子例程(subroutine)。在TrueType字体的情况下,其被称为复合字形。图16B示出了PostScript字体的情况。图16B所图示的示例示出,在电子文档中针对每个字符提供了图像信息数据1的图像描绘位置和大小1650和字符代码(CID)1655以及图像信息数据2的图像描绘位置和大小1660和字符代码(CID)1665,并且字形使用公共的子例程1670。
校正字符数据形成模块160所形成的校正字符信息数据165可由普通(标准)字体文件系统来表示。在这种情况下,如图16A的示例所示,在校正字符信息数据165中,字符信息数据1的校正矩形数据1610和字符形状数据1的索引1615与字符信息数据2的校正矩形数据1620和字符形状数据1的索引1625相结合,并且字形使用字符形状数据11630作为公共的代表性字符形状数据。因此,在校正字符信息数据165被包含在电子文档中作为字体信息来描绘电子文档的图像时,无需准备特殊的图像描绘方法或图像描绘装置。
通过参考图17,将描述示范实施例的硬件结构示例。图17所示的结构由例如个人计算机(PC)等形成,该结构图示了包括诸如扫描器之类的数据读取部分1717和诸如打印机之类的数据输出部分1718在内的硬件结构示例。
CPU(中央处理单元)1701是用于根据计算机程序来执行处理的控制部分,计算机程序分别描述了在前面的实施例中描述的各种类型的模块(即,排识别处理模块110、排特征计算模块120、段落识别处理模块130、段落整合处理模块140、校正矩形产生模块150和校正字符数据形成模块160)的执行序列。
ROM(只读存储器)1702存储了CPU 1701所使用的程序或计算参数等。RAM(随机访问存储器)1703存储了CPU 1701的执行过程中使用的程序或者其执行过程中适当地改变的参数。这些部件通过利用CPU总线形成的主机总线1704相互连接在一起。
主机总线1704通过桥1705被连接至诸如PCI(外围部件互连总线)总线之类的外部总线1706。
诸如键盘1708、鼠标等点击装置1709是被操作人员操作的输入装置。显示器1710由液晶显示装置或CRT(阴极射线管)等组成,以显示诸如文本或图像信息之类的各种信息。
HDD(硬盘驱动器)1711中结合了硬盘,其驱动硬盘来记录或再现被CPU 1701执行的程序或信息。在硬盘中,存储了字符信息数据105或者校正字符数据形成模块160的处理结果。并且,存储了诸如各种数据处理程序之类的各种计算机程序。
驱动器1712读取记录在诸如安装磁盘、光盘、光电磁盘或半导体存储器之类的可移动记录介质1713中的数据或程序,以便将数据或程序提供给通过接口1707、外部总线1706、桥1705以及主机总线1704相连接的RAM 1703。可移动记录介质1713还可被用作类似硬盘的数据记录区域。
连接端口1714是用于连接外部连接装置1715的端口,其具有诸如USB、IEEE 1394之类的连接部分。连接端口1714经由接口1707、外部总线1706、桥1705以及主机总线1704连接至CPU 1701。通信部分1716被连接至网络,以与外部执行数据通信处理。数据读取部分1717是例如扫描器,用于执行文档的读取处理。数据输出部分1718是例如打印机,用于执行文档数据的输出处理。
图17的硬件结构说明了一个结构示例,但是本发明的示范实施例并不限于图17所示的结构。能够执行示范实施例中所描述的模块的任何结构都可采用。例如,一部分模块保可由一个可执行硬件(例如专用集成电路:ASIC)等来形成。一部分模块可置于外部系统中,并且可通过通信线路进行连接。并且,图17所示的多个系统可被通信线路连接在一起以相互协作。而且,图17所示的结构可并入复印机、传真机、扫描器、打印机、复合机器(具有扫描器、打印机、复印机中的两个或多个功能的图像处理器)等。
在上述示范实施例中,主要示出了横向书写类型的电子文档中的行高。但是,在纵向书写类型的情况下,可同样地采用列宽。
通过利用数学表达式给出了说明,但是与数学表达式等效的表达式可包含在数学表达式中。等效表达式可包括例如算术求解方法以及数学表达式本身不会对数学表达式的最终结果或者解产生影响的数学表达式变形。
上述程序可被存储及提供在记录介质中。并且,可通过通信单元来提供程序。在这种情况下,上述程序可作为“记录有可被计算机读取的程序的记录介质”的发明。
“记录有可被计算机读取的程序的记录介质”表示记录有可被用来安装和执行程序以及发布程序的计算机读取的程序的记录介质。
作为记录介质,举例有例如:诸如在DVD论坛中建立为标准的“DVD-R,DVD-RW,DVD-RAM等”、作为标准由DVD+RW建立的“DVD+R,DVD+RW等”之类的数字多功能盘(DVD);诸如只读存储器(CD-ROM)、可录CD(CD-R)、可写CD(CD-RW)等的紧致盘(CD);蓝光盘(蓝光光盘(注册商标))、光电磁盘(MO)、柔性盘(FD)、磁带、硬盘、只读存储器(ROM)、电可擦除重写只读存储器(EEPROM)、闪存存储器、随机访问存储器(RAM)等。
可将上述程序或其部分记录并存储在记录介质中并发布。并且,可利用互联网、内联网、外网所采用的例如局域网(LAN)、城域网(MAN)、广域网(WAN)、有限网络或无线通信网络或者诸如它们的组合之类的传输介质通过通信来传输程序,或者通过载波进行传输。
而且,上述程序可能是其它程序的一部分,或者与分开的程序一起被存储在记录介质中。而且,程序可被划分并存储在多个记录介质中。并且,只要程序可恢复,则程序可被记录成任何形式,例如压缩形式或解码形式。
为了说明及解释而提供了本发明的实施例的前述描述。其并不旨在穷尽或限制本发明为所公开的具体形式。显然的是,对本领域技术人员来说,各种修改和变型是显而易见的。选择并描述实施例来最好地解释本发明的原理及其实际应用,从而使得本领域技术人员能够理解本发明,各种实施例以及各种修改适合于所设想的特定应用。本发明的范围由所附权利要求及其等价形式所限定。
Claims (16)
1.一种信息处理器,其包括:
排提取单元,其利用矩形的信息来提取排,其中每个矩形都包围了电子文档中的像素块,所述排是包括电子文档中的行和列的任意排;
段落提取单元,其对包含了所述排提取单元所提取的排的段落进行提取;
段落整合单元,其对所述段落提取单元所提取的段落进行整合;
矩形计算单元,其根据包含在整合后的段落中的排的大小以及形成了包含在整合后的段落中的排的像素块的位置来计算包围了包含在整合后的段落中的像素块的矩形的位置及大小以及包含在整合后的段落中的像素块与相应的矩形之间的位置关系,其中所述排的大小表示行高或者列宽。
2.如权利要求1所述的信息处理器,进一步包括:
字符数据形成单元,其形成字符数据,在字符数据中,所述矩形计算单元所计算出来的矩形的信息与被所计算的矩形包围的像素块相结合。
3.如权利要求2所述的信息处理器,其中
所述字符数据形成单元将表示一个像素块的信息与一个或多个矩形的信息结合起来,以形成字符数据。
4.如权利要求1所述的信息处理器,其中
其中的每一个都包围了电子文档中的像素块的多个矩形的信息包括任意方向上的每个矩形的位置,任意方向包括高度方向和宽度方向,以及
所述排提取单元利用包围了像素块的每个矩形的位置来提取包含像素块的排的大小,所述排的大小表示行高或者列宽。
5.如权利要求1所述的信息处理器,其中
所述段落提取单元通过利用所述排提取单元所提取的排的大小以及任意方向上的排的位置来提取段落,其中所述排的大小表示行高或者列宽,任意方向包括高度方向和宽度方向。
6.如权利要求1所述的信息处理器,其中
所述段落提取单元根据所述排提取单元所提取的排与作为将被提取的对象的段落之间的位置关系来提取段落。
7.如权利要求1所述的信息处理器,其中
所述段落提取单元计算包围了所提取的段落的定界矩形的位置,作为所提取的段落的信息。
8.如权利要求1所述的信息处理器,其中
同一行或者同一列中包含了多个排,并且所述段落提取单元对所述多个排进行排序。
9.如权利要求1所述的信息处理器,其中
所述段落提取单元通过利用包含在所提取出来的段落中的排的大小来计算段落的代表值以作为所提取的段落的信息,其中所述排的大小表示行高或者列宽,并且
所述段落整合单元通过利用所述段落提取单元所计算出来的段落的代表值来对所提取的段落进行整合。
10.如权利要求1所述的信息处理器,其中
所述矩形计算单元对所述段落整合单元所整合的段落中所包含的排的大小进行统一,以便计算包围了包含在所整合的段落中的像素块的矩形的位置和大小,从而产生像素块和相邻像素块之间的间隔。
11.如权利要求1所述的信息处理器,其中
所述矩形计算单元根据包含在电子文档中的字符语言来计算包围了像素块的矩形的大小。
12.一种信息处理方法,包括:
利用多个矩形的信息来提取排,其中每个矩形都包围了电子文档中的像素块,所述排是包括电子文档中的行和列的任意排;
对包含所提取的排的段落进行提取;
对所提取的段落进行整合;以及
根据包含在整合后的段落中的排的大小以及形成了整合后的段落中的排的像素块的位置来计算包围了包含在整合后的段落中的像素块的矩形的位置及大小以及包含在整合后的段落中的像素块与相应的矩形之间的位置关系,其中所述排的大小表示行高或者列宽。
13.如权利要求12所述的信息处理方法,进一步包括:
形成字符数据,在字符数据中,所计算出来的矩形的信息与被所计算的矩形包围的像素块相结合。
14.如权利要求12所述的信息处理方法,其中
其中的每一个都包围了电子文档中的像素块的多个矩形的信息包括任意方向上的每个矩形的位置,任意方向包括高度方向和宽度方向,以及
排提取步骤利用包围了像素块的每个矩形的位置来提取包含像素块的排的大小,所述排的大小表示行高或者列宽。
15.如权利要求12所述的信息处理方法,其中
段落提取步骤通过利用所提取的排的大小以及任意方向上的排的位置来提取段落,其中所述排的大小表示行高或者列宽,任意方向包括高度方向和宽度方向。
16.如权利要求12所述的信息处理方法,其中
计算步骤通过利用包含在所提取出来的段落中的排的大小来计算段落的代表值以作为所提取的段落的信息,其中所述排的大小表示行高或者列宽,并且
段落整合步骤通过利用所计算出来的段落的代表值来对所提取的段落进行整合。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009031158A JP5321109B2 (ja) | 2009-02-13 | 2009-02-13 | 情報処理装置及び情報処理プログラム |
JP2009-031158 | 2009-02-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101807179A true CN101807179A (zh) | 2010-08-18 |
CN101807179B CN101807179B (zh) | 2015-06-03 |
Family
ID=42560950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910167109.3A Active CN101807179B (zh) | 2009-02-13 | 2009-08-18 | 信息处理器以及信息处理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20100211871A1 (zh) |
JP (1) | JP5321109B2 (zh) |
CN (1) | CN101807179B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107015751A (zh) * | 2011-11-02 | 2017-08-04 | 微软技术许可有限责任公司 | 文档中的对象和文本的最佳显示和缩放 |
CN107203784A (zh) * | 2017-05-24 | 2017-09-26 | 努比亚技术有限公司 | 一种相似度计算方法、终端及计算机可读存储介质 |
CN109062871A (zh) * | 2018-07-03 | 2018-12-21 | 北京明略软件系统有限公司 | 一种文本标注方法和装置、计算机可读存储介质 |
WO2020233379A1 (zh) * | 2019-05-17 | 2020-11-26 | 上海肇观电子科技有限公司 | 版面分析方法、阅读辅助设备、电路及介质 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8887038B2 (en) * | 2010-10-08 | 2014-11-11 | Business Objects Software Limited | Extrapolating tabular structure in a freeform document |
JP5812702B2 (ja) * | 2011-06-08 | 2015-11-17 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 文字の読み順を決定するための読み順決定装置、方法及びプログラム |
JP6614914B2 (ja) * | 2015-10-27 | 2019-12-04 | 株式会社東芝 | 画像処理装置、画像処理方法及び画像処理プログラム |
CN105373791B (zh) * | 2015-11-12 | 2018-12-14 | 中国建设银行股份有限公司 | 信息处理方法及信息处理装置 |
CN109934210B (zh) * | 2019-05-17 | 2019-08-09 | 上海肇观电子科技有限公司 | 版面分析方法、阅读辅助设备、电路和介质 |
US11367296B2 (en) * | 2020-07-13 | 2022-06-21 | NextVPU (Shanghai) Co., Ltd. | Layout analysis |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0362284A (ja) * | 1989-07-31 | 1991-03-18 | Nec Corp | 文字行抽出装置 |
JPH06214983A (ja) * | 1993-01-20 | 1994-08-05 | Kokusai Denshin Denwa Co Ltd <Kdd> | 文書画像の論理構造化文書への変換方法および装置 |
JP2003308314A (ja) * | 2002-02-15 | 2003-10-31 | Ricoh Co Ltd | 文書作成支援装置 |
CN101350068A (zh) * | 2007-07-17 | 2009-01-21 | 佳能株式会社 | 显示控制设备和显示控制方法 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0457534B1 (en) * | 1990-05-14 | 2001-10-31 | Canon Kabushiki Kaisha | Image processing method and apparatus |
US6212299B1 (en) * | 1992-12-11 | 2001-04-03 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for recognizing a character |
GB2281997B (en) * | 1993-09-20 | 1997-10-15 | Ricoh Kk | Method and apparatus for improving a text image by using character regeneration |
US5577135A (en) * | 1994-03-01 | 1996-11-19 | Apple Computer, Inc. | Handwriting signal processing front-end for handwriting recognizers |
US5999647A (en) * | 1995-04-21 | 1999-12-07 | Matsushita Electric Industrial Co., Ltd. | Character extraction apparatus for extracting character data from a text image |
JP3425834B2 (ja) * | 1995-09-06 | 2003-07-14 | 富士通株式会社 | 文書画像からのタイトル抽出装置および方法 |
US5930813A (en) * | 1995-12-21 | 1999-07-27 | Adobe Systems Incorporated | Method and system for designating objects |
US6188790B1 (en) * | 1996-02-29 | 2001-02-13 | Tottori Sanyo Electric Ltd. | Method and apparatus for pre-recognition character processing |
JP3099797B2 (ja) * | 1998-03-19 | 2000-10-16 | 日本電気株式会社 | 文字認識装置 |
JP4416890B2 (ja) * | 1999-12-20 | 2010-02-17 | 富士通株式会社 | 帳票識別装置 |
US6948119B1 (en) * | 2000-09-27 | 2005-09-20 | Adobe Systems Incorporated | Automated paragraph layout |
US6741745B2 (en) * | 2000-12-18 | 2004-05-25 | Xerox Corporation | Method and apparatus for formatting OCR text |
US6801673B2 (en) * | 2001-10-09 | 2004-10-05 | Hewlett-Packard Development Company, L.P. | Section extraction tool for PDF documents |
US7392472B2 (en) * | 2002-04-25 | 2008-06-24 | Microsoft Corporation | Layout analysis |
US7310769B1 (en) * | 2003-03-12 | 2007-12-18 | Adobe Systems Incorporated | Text encoding using dummy font |
US8913833B2 (en) * | 2006-05-08 | 2014-12-16 | Fuji Xerox Co., Ltd. | Image processing apparatus, image enlarging apparatus, image coding apparatus, image decoding apparatus, image processing system and medium storing program |
JP5041141B2 (ja) * | 2006-05-08 | 2012-10-03 | 富士ゼロックス株式会社 | 画像処理装置、画像拡大装置、画像符号化装置、画像復号化装置、画像処理システム及びプログラム |
US7646921B2 (en) * | 2006-09-11 | 2010-01-12 | Google Inc. | High resolution replication of document based on shape clustering |
US7650035B2 (en) * | 2006-09-11 | 2010-01-19 | Google Inc. | Optical character recognition based on shape clustering and multiple optical character recognition processes |
JP4123299B1 (ja) * | 2007-02-21 | 2008-07-23 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
US7870502B2 (en) * | 2007-05-29 | 2011-01-11 | Microsoft Corporation | Retaining style information when copying content |
US8065321B2 (en) * | 2007-06-20 | 2011-11-22 | Ricoh Company, Ltd. | Apparatus and method of searching document data |
US8539342B1 (en) * | 2008-10-16 | 2013-09-17 | Adobe Systems Incorporated | Read-order inference via content sorting |
-
2009
- 2009-02-13 JP JP2009031158A patent/JP5321109B2/ja not_active Expired - Fee Related
- 2009-07-28 US US12/510,656 patent/US20100211871A1/en not_active Abandoned
- 2009-08-18 CN CN200910167109.3A patent/CN101807179B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0362284A (ja) * | 1989-07-31 | 1991-03-18 | Nec Corp | 文字行抽出装置 |
JPH06214983A (ja) * | 1993-01-20 | 1994-08-05 | Kokusai Denshin Denwa Co Ltd <Kdd> | 文書画像の論理構造化文書への変換方法および装置 |
JP2003308314A (ja) * | 2002-02-15 | 2003-10-31 | Ricoh Co Ltd | 文書作成支援装置 |
CN101350068A (zh) * | 2007-07-17 | 2009-01-21 | 佳能株式会社 | 显示控制设备和显示控制方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107015751A (zh) * | 2011-11-02 | 2017-08-04 | 微软技术许可有限责任公司 | 文档中的对象和文本的最佳显示和缩放 |
CN107015751B (zh) * | 2011-11-02 | 2020-05-26 | 微软技术许可有限责任公司 | 文档中的对象和文本的最佳显示和缩放 |
CN107203784A (zh) * | 2017-05-24 | 2017-09-26 | 努比亚技术有限公司 | 一种相似度计算方法、终端及计算机可读存储介质 |
CN107203784B (zh) * | 2017-05-24 | 2020-06-12 | 南京秦淮紫云创益企业服务有限公司 | 一种相似度计算方法、终端及计算机可读存储介质 |
CN109062871A (zh) * | 2018-07-03 | 2018-12-21 | 北京明略软件系统有限公司 | 一种文本标注方法和装置、计算机可读存储介质 |
CN109062871B (zh) * | 2018-07-03 | 2022-05-13 | 北京明略软件系统有限公司 | 一种文本标注方法和装置、计算机可读存储介质 |
WO2020233379A1 (zh) * | 2019-05-17 | 2020-11-26 | 上海肇观电子科技有限公司 | 版面分析方法、阅读辅助设备、电路及介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2010186389A (ja) | 2010-08-26 |
JP5321109B2 (ja) | 2013-10-23 |
CN101807179B (zh) | 2015-06-03 |
US20100211871A1 (en) | 2010-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101807179B (zh) | 信息处理器以及信息处理方法 | |
US7617047B2 (en) | Map information system and map information processing method and program | |
US8041122B2 (en) | Image processing apparatus, method for controlling image processing apparatus, and storage medium storing related program | |
US8824798B2 (en) | Information processing device, computer readable medium storing information processing program, and information processing method | |
US7926732B2 (en) | OCR sheet-inputting device, OCR sheet, program for inputting an OCR sheet and program for drawing an OCR sheet form | |
JP4711093B2 (ja) | 画像処理装置及び画像処理プログラム | |
AU2008246275B2 (en) | Image processor, image processing method and image processing program | |
JP2007049388A (ja) | 画像処理装置及びその制御方法、プログラム | |
JP5732861B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2009251872A (ja) | 情報処理装置及び情報処理プログラム | |
CN101859387B (zh) | 图像处理装置、图像形成装置及图像处理方法 | |
JP5089524B2 (ja) | 文書処理装置、文書処理システム、文書処理方法、及び、文書処理プログラム | |
JP2019169182A (ja) | 情報処理装置、制御方法、プログラム | |
JP2007182064A (ja) | 画像処理装置、及び画像処理方法 | |
JP2003046746A (ja) | 画像処理方法及び画像処理装置 | |
JP5062076B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP5476884B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP6030915B2 (ja) | 画像再配置方法、画像再配置システム、および画像再配置プログラム | |
JP7031465B2 (ja) | 情報処理装置及びプログラム | |
JP6947971B2 (ja) | 情報処理装置、制御方法、プログラム | |
JP5923981B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5723803B2 (ja) | 画像処理装置及びプログラム | |
JP5194851B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6795770B2 (ja) | 情報処理装置と、その処理方法及びプログラム | |
JP6536542B2 (ja) | 情報処理装置、制御方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: Tokyo Patentee after: Fuji film business innovation Co.,Ltd. Address before: Tokyo Patentee before: Fuji Xerox Co.,Ltd. |