CN102782702A - 在光学字符识别(ocr)过程中的段落识别 - Google Patents

在光学字符识别(ocr)过程中的段落识别 Download PDF

Info

Publication number
CN102782702A
CN102782702A CN2011800131873A CN201180013187A CN102782702A CN 102782702 A CN102782702 A CN 102782702A CN 2011800131873 A CN2011800131873 A CN 2011800131873A CN 201180013187 A CN201180013187 A CN 201180013187A CN 102782702 A CN102782702 A CN 102782702A
Authority
CN
China
Prior art keywords
paragraph
row
line
text
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800131873A
Other languages
English (en)
Other versions
CN102782702B (zh
Inventor
B.拉达科维奇
S.加利奇
A.乌泽拉奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102782702A publication Critical patent/CN102782702A/zh
Application granted granted Critical
Publication of CN102782702B publication Critical patent/CN102782702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

用于检测在文本图像中的段落的图像处理设备包括:输入部件,用于接收其中文本行和单词已被标识的输入图像;和页分类部件,用于把输入图像分类为第一或第二页类型。该设备还包括段落检测部件,用于把在输入图像上的所有文本行分类为开始段落行或继续段落行。设备还被提供有段落创建部件,用于创建包括两个连续的开始段落行之间的文本行,包括所述两个连续的开始段落行的第一个开始段落行的段落。已被识别的段落可以通过它们呈现的对齐的类型而被分类。例如,段落可以按照它们是左对齐、右对齐、居中对齐还是两端对齐而进行分类。

Description

在光学字符识别(OCR)过程中的段落识别
背景技术
光学字符识别(OCR)是文本的图像到如机器可编辑文本的数字形式的基于计算机的转化,通常是按照标准编码方案的。这个过程消除了对将文档人工打字输入到计算机系统的需要。由于图像质量差、由扫描过程引起的缺陷等等,会引发许多不同的问题。例如,常规的OCR引擎可以被耦合到用来扫描文本的页的平板扫描仪。因为页被相对扫描仪的扫描面齐平地放置,所以由扫描仪生成的图像典型地呈现均匀的对比度和照度、减小的扭曲和失真、以及高分辨率。因此,OCR引擎可以容易地把图像中的文本转化成机器可编辑的文本。然而,当图像在对比度、照度、扭曲等等方面具有较差的质量时,OCR引擎的性能可能会恶化,并且处理时间可能会由于对图像中的所有像素进行处理而增加。例如当图像是从书本得到时或当图像是由基于图像的扫描仪生成时,情形可能是这样,因为在这些情形中,文本/图片是从一定的距离、从变化的取向和在变化的照度下被扫描的。即使扫描过程的性能是好的,当质量相对较差的文本页被扫描时,OCR引擎的性能也可能恶化。因此,为了以相对较高的质量执行OCR,典型地需要许多个别的处理步骤。
发明内容
光学字符识别(OCR)过程的一个方面牵涉到段落检测。段落检测典型地将在文本图像中的文本行通过它们各自的边界框的坐标识别后被执行。在一个实现中,段落检测过程把页上的所有文本行分为以下的两个类别之一:“开始段落行”类别和“继续段落行”类别。开始段落行跟随在具有硬换行(line break)的行后面,而继续段落行跟随在具有的换行不是硬换行的行后面。然后,各个段落被标识。每个段落包括位于两个连续的开始段落行之间的所有行以及两个连续的开始段落行中的第一个开始段落行。
在一个特定的实现中,在进行文本行分类之前,段落检测过程按照行在页上的布局把每个输入页分类成两种类别之一。这些类别是诗页类别(代表包括诗歌的页)和正文页类别(代表包括散文的页)。
在另一个特定的实现中,已被识别的段落通过它们呈现的对齐的类型而被分类。例如,段落可以按照它们是左对齐、右对齐、居中对齐还是两端对齐而进行分类。
本概要被提供来以简化的形式介绍概念的选择,这些概念在下面的详细描述中进一步描述。本概要既不打算标识所要求保护的主题的关键特征或必要特征,也不打算被用来帮助确定所要求保护的主题的范围。
附图说明
图1显示用于在文本图像上执行光学字符识别(OCR)的系统的一个说明性例子。
图2和3每个图显示两个段落,用于说明换行或硬换行的含义。
图4显示被页眉和页脚中断的文本片段。
图5显示左对齐的段落的例子。
图6显示右对齐的段落的例子。
图7显示居中对齐的段落的例子。
图8显示两端对齐的段落的例子。
图9是显示段落检测过程的一个例子的流程图。
图10a和10b分别显示正文页和诗页的例子。
图11显示可以执行段落检测的图像处理设备的一个例子。
图12显示文本的说明性部分,其中行分类部件已经把每行分类为开始段落行或继续段落行,如由在每行开始处的字母“B”或“C”表示的。
具体实施方式
图1显示用于文本图像的光学字符识别(OCR)的系统5的一个说明性例子。系统5包括用来生成文档15的图像的数据捕获装置(例如,扫描仪10)。扫描仪10可以是基于图像的扫描仪,它利用电荷耦合器件作为图像传感器来生成图像。扫描仪10处理图像来生成输入数据,并把输入数据传送到处理装置(例如,OCR引擎20),以便进行图像内的字符识别。在这个具体的例子中,OCR引擎20被合并到扫描仪10中。然而,在其它的例子中,OCR引擎20可以是单独的单元,诸如独立的单元,或者是被合并到诸如PC、服务器等等的另外的设备的单元。
OCR引擎20接收文本图像作为文本行的位图。图像可以是文本的扫描图像或数字文档,诸如PDF或微软Word文档,其中输入数据已是可得到的。如果这样的输入数据是不可得到的,则OCR引擎的段落检测部件被假设为从OCR引擎的其它部件接收图像作为输入,在该图像中,文本行(和可能的单词)的列表已经被针对该图像的每页进行标识。各个行和单词分别由行和单词边界框限定。边界框本身由针对每个边界框建立的一组坐标限定。因此,可得到关于单词如何被组织成行和行如何被组织成区域的信息,以确立行读取次序。
段落检测因为许多原因可能是OCR过程的困难的方面。首先,OCR过程对于所提取的内容不执行任何语义分析。另外,由段落检测部件接收的输入图像的质量通常不完美。例如,某些单词和数可能被错误识别,某些行甚至可能一起丢失。页也可能被剪切,并且剪切框相对于页的位置可能不是固定的。而且,在单个图像或页中的不同段落可能具有不同的特征,举例而言,比如不同的对齐。因此,段落检测过程对于不同类型的输入页可以产生不同的结果。最后,段落本身可能具有复杂的结构。例如,段落可以跨越多个列或页和/或包含项目符号列表(bulleted list)等等。
在着手描述段落识别过程之前,将介绍关于段落的许多定义,请记住,可以使用与这里给出的、仅仅作为说明的那些定义不同的对于段落的定义。
定义1:换行是在文本流中规定从一行到另一行的转换的位置。
定义2:硬换行是在文本流中与文本格式安排和再现(例如,改变微软Word文档中的字体大小)无关地命令转换到新行的位置。
通过参考图2上的例子(其包含两个段落)可以更好地理解这些定义。第一段落由带有一个换行的一行组成。第二段落由带有2个换行的2行组成。图3显示与图2上相同的两个段落。然而,在图3上,字体大小被增大而同时保持页边距相同。
图3上的第一段落由带有2个换行的2行组成,以及第二段落由带有3个换行的3行组成。因此,在增大字体大小后,2个换行仍旧是相同的(一个换行在单词“another”后面,另一个换行在单词“rendering”后面)。根据这个信息,明显的是:有两个与文本格式安排无关的硬换行,以及所有的其它换行是文本再现的结果。
定义3:段落是用在第一行前面的硬换行(除了文档中的第一段落外)和在最后一行后面的硬换行(除了最后的段落外)进行定界的一组行。在这两个硬换行之间没有另外的硬换行。
应当强调另外的一点。应当在不中断的文本流的上下文中观看段落。单个段落不能被拆分,这暗示段落应当是连续的一组行。在逻辑上中断正常的文本流的所有文本片段不应当被看作是被包括在段落中的不中断的文本流的一部分。在文本片段中的中断的例子在图4上给出。
显然,在图4顶部处显示的第一页底部的最后一段被页脚(在本例中的脚注)中断。同样地,这个相同的段落然后再次被第二页的顶部处的页眉中断。页眉和页脚是不属于段落的文本流的文本片段,在检测“包装的(wrapping)”段落(即,跨越两页或更多页的段落)时,它们应当被排除。关于中断文本流流动的文本片段(例如,页眉、页脚、图像字幕等等)的信息被包含在使得对于来自OCR引擎的其它部件的段落部件来说可得到的信息内。这样的信息归入到被使用来确立以上提到的行读取次序的信息的类别中。
段落检测的一方面是段落对齐的检测。对于段落对齐的可能安排是:
· 左对齐
· 右对齐
· 居中对齐
· 两端对齐。
左对齐的段落的例子显示于图5。左对齐的段落满足以下条件。一个左对齐的段落满足以下两个条件。
1) 在第一行后面的所有行具有相同的左边距(见图5的线410)。
    2) 第一个单词的宽度加上它的相邻的空白区域大于前一行的右缩进(即,从前一行中的最后一个单词到该行的右边距的距离,右边距在图5上用线420表示)。
在图5上,第二个条件被满足,因为单词“except”加上它的相邻的空白区域大于从前一行中的单词“line”到右边距的距离。
右对齐段落的例子显示于图6。右对齐段落满足以下条件:
1) 在第一行后面的所有行具有相同的右边距(见图6的线520)。
2) 第一个单词的宽度加上它的相邻的空白区域大于前一行的左缩进(即,从前一行中的第一单词到它的左边距的距离,左边距在图6上用线510表示)。
在图6上,第二个条件被满足,因为单词“except”加上它的相邻的空白区域大于从前一行中的单词“Definition”到左边距的距离。
居中对齐段落满足以下条件:
1)所有的行被居中对齐(即,在一行中最左面和最右面的单词分别离左边距和右边距的距离是相同的)。居中对齐段落的例子显示于图7。
两端对齐的段落的例子显示于图8。两端对齐的段落满足以下条件:
1) 在第一行后面的所有行具有相同的左边距(见图8的线610)。
2) 在最后一行前面的所有行具有相同的右边距(见图8的线620)。
假定有上述的定义,现在可以参照图9中的流程图描述段落检测过程。过程从步骤110通过以下方式开始:按照在页上的行的布局把每个输入页分类成两个类别(“诗页”类别和“正文页”类别)之一。接着,在步骤120,段落检测部件把在页上的所有文本行分类成两个类别(“开始段落行”类别和“继续段落行”类别)之一。最后,在步骤130,在两个连续的“开始段落行”之间的所有行被看作为创建一个段落(不包括第二个“开始段落行”)。在OCR引擎检测段落以后,段落对齐被检测。
正文页的例子显示于图10a,以及诗页的例子显示于图10b。
图11显示可以执行段落检测过程的图像处理设备300的一个例子。可被合并在OCR引擎中的设备300可以被OCR引擎使用来检测和分类在文本图像中的段落。该设备包括输入部件302,用于接收输入图像;和页分类部件310,用于把每个输入页分类为“诗页”类别或“正文页”。段落检测部件320把在页上的所有文本行分类为“开始段落行”或“继续段落行”。设备300还包括段落创建部件330,其创建在两个连续的开始段落行之间的段落;和段落对齐部件340,其确定段落对齐的方式。设备300还包括输出部件350,其按照以下形式生成关于段落的信息,即:该形式允许信息被OCR引擎的随后的部件利用。
页分类
第一步骤是把页分类成两个预定义的类别之一:“诗页”类别和“正文页”类别。这个分类过程可以通过检查下面列出的某些或所有的特征而完成,每个特征更可能指示所述页是诗页还是正文页。应当指出,没有单个特征可能是决定性的。相反,是由所有特征提供的证据的集合体才是重要的。还应当指出,特征的这个列表不是穷举的,而是仅仅作为例子被给出。
1. 以小写字体的小写字母开始的行的相对数量。
2. 以数字结尾(即,最后一个单词是数字)的行的相对数量。
3. 以非字母数字字符结尾(而是以如‘.’, ‘,’, ‘;’…等等的标点符号结尾)的行的相对数量。
4. 行高度的密度(通过使用页高度、文本高度和在页上的行数量而计算的)。
5. 作为文本的某个大的部分的中间行(例如,两端对齐的段落的中间行)的行的相对数量。
以上的利用行的相对数量的定义涉及到满足某种条件的行的数量除以在页上的行的总数。行高度的密度例如可被定义为页高度除以文本高度与页上行数量这两者的乘积。
通常,当对于上面指出的项1,4和5的值增大时,页更可能是正文页,而在对于项2和3的值增大时,更多地指示诗页。当执行分类过程时应当给予以上因素的各种值的权重可以通过使用训练模式去建立表征诗和正文页的特征值的各种组合而被确定。一旦这被确定,对于这些特征的值可被使用来对经历OCR的未知类型的页进行分类。虽然通常从所有这些特征的检查将得到最大的精确度,但在一些情形下,检查各种子组合可能就足够了。段落检测部件可以利用诸如神经网络或判决树那样的机器学习技术来提高分类过程的精确度。
行分类
用于把每个文本行分类为开始段落行或继续段落行的分类过程可以通过检查下面列出的某些或所有的特征而完成,每个特征更可能指示该行是开始段落行或是继续段落行。开始段落行是跟随在硬换行后面的行,而继续段落行是跟随在非硬换行的换行后面的行。再次地,应当指出,没有单个特征可能是决定性的。相反,是由所有特征提供的证据的集合体才是重要的。还应当指出,特征的这个列表不是穷举的,而是仅仅作为例子被给出。然而,为了清晰起见,紧接在下面枚举的特征的完全集被称为主要行特征集。在某些实现中,可以利用在主要行特征集中过半数的(a simple majority)特征。通常,这些特征至少部分根据每个文本行相对于图像的页上的其它文本行的布局,把文本行分类为开始段落行或继续段落行。
在诗页上使用的精确的分类过程通常将与在正文页上使用的过程不同。然而,所使用的特征对于二者可以是相同的。也就是,二者都可以使用主要行特征集,它由表征各个行的以下的特征规定:
1. 所述行是页上的第一行吗。
2. 前一行是以项目符号开始吗。
3. 当前行是以项目符号开始吗。
4. 下一行是以项目符号开始吗。
5. 前一行是以大写字母开始吗。
6. 当前行是以大写字母开始吗。
7. 下一行是以大写字母开始吗。
 8. 前一行是以小写字体的小写字母开始吗。
 9. 当前行是以小写字体的小写字母开始吗。
 10. 下一行是以小写字体的小写字母开始吗。
 11. 对于当前行和前一行的相对字符宽度。如果对于当前行的字符宽度是CW以及对于前一行的字符宽度是PW,则这个值是:
Figure 2011800131873100002DEST_PATH_IMAGE001
12. 对于当前行和下一行的相对字符宽度。如果对于当前行的字符宽度是CW以及对于下一行的字符宽度是NW,则这个值是:
Figure 550869DEST_PATH_IMAGE002
13. 对于当前行和前一行的相对字符高度。如果对于当前行的字符高度是CH以及对于前一行的字符高度是PH,则这个值是:
Figure 2011800131873100002DEST_PATH_IMAGE003
14. 对于当前行和下一行的相对字符高度。如果对于当前行的字符高度是CH以及对于下一行的字符高度是NH,则这个值是:
Figure 530326DEST_PATH_IMAGE004
15. 对于当前行和前一行的相对左缩进。如果对于当前行的中值字符宽度是MCW以及对于当前行与前一行的左缩进是LIC与LIP,则这个值是:
16. 对于当前行和下一行的相对左缩进。如果对于当前行的中值字符宽度是MCW以及对于当前行与下一行的左缩进是LIC与LIN,则这个值是:
Figure 372381DEST_PATH_IMAGE006
17. 对于前一行和下一行的相对左缩进。如果对于当前行的中值字符宽度是MCW以及对于前一行与下一行的左缩进是LIP与LIN,则这个值是:
Figure 2011800131873100002DEST_PATH_IMAGE007
18. 当前行具有比前一行更大的左坐标。
19. 当前行具有比下一行更大的左坐标。
 20. 对于当前行和前一行的相对右缩进。如果对于当前行的中值字符宽度是MCW以及对于当前行与前一行的右缩进是RIC与RIP,则这个值是:
Figure 829907DEST_PATH_IMAGE008
21. 对于当前行和下一行的相对右缩进。如果对于当前行的中值字符宽度是MCW以及对于当前行与下一行的右缩进是RIC与RIN,则这个值是:
Figure 2011800131873100002DEST_PATH_IMAGE009
22. 对于前一行和下一行的相对右缩进。如果对于当前行的中值字符宽度是MCW以及对于前一行与下一行的右缩进是RIP与RIN,则这个值是:
Figure 709526DEST_PATH_IMAGE010
23. 当前行具有比前一行更大的右坐标。
24. 当前行具有比下一行更大的右坐标。
 25. 当前行和前一行之间的相对距离。如果对于当前行的中值字符高度是MCH以及当前行与前一行之间的距离是DCP,则这个值是:
Figure 2011800131873100002DEST_PATH_IMAGE011
26. 当前行和下一行之间的相对距离。如果对于当前行的中值字符高度是MCH以及当前行与下一行之间的距离是DCN,则这个值是:
Figure 531988DEST_PATH_IMAGE012
27. 前一行与下一行之间的距离比:
28. 前一行用连字符符号结束。
29. 前一行用非字母数字字符(例如,‘.’, ‘?’, ‘!’, ‘;’等等)结束。
30. 当前行用非字母数字字符(例如,‘.’, ‘?’, ‘!’, ‘;’等等)结束。
31. 下一行用非字母数字字符(例如,‘.’, ‘?’, ‘!’, ‘;’等等)结束。
32. 对于前一行和当前行的中心位置的比率。如果当前行的中心位置是CC,以及对于前一行的中心位置是PC,则这个值是:
Figure 861338DEST_PATH_IMAGE014
33. 对于当前行和下一行的中心位置的比率。如果当前行的中心位置是CC,以及对于下一行的中心位置是NC,则这个值是:
Figure 2011800131873100002DEST_PATH_IMAGE015
34. 对于前一行的相对左缩进。如果从前一行左面到区域左面(即,诸如前一行所属的列那样的区域)的距离是DPL,以及对于在区域内的当前行的中值字符宽度是MCWR,则这个值是:
35. 对于当前行的相对左缩进。如果从当前行左面到区域左面(诸如当前行所属的列那样的区域)的距离是DL,以及对于在区域内的当前行的中值字符宽度是MCWR,则这个值是:
Figure 2011800131873100002DEST_PATH_IMAGE017
36. 对于下一行的相对左缩进。如果从下一行左面到区域左面(诸如下一行所属的列那样的区域)的距离是DNL,以及对于在区域内的当前行的中值字符宽度是MCWR,则这个值是:
Figure 853751DEST_PATH_IMAGE018
37. 对于前一行的相对右缩进。如果从前一行右面到区域右面(诸如前一行所属的列那样的区域)的距离是DPR,以及对于在区域内的当前行的中值字符宽度是MCWR,则这个值是:
Figure 2011800131873100002DEST_PATH_IMAGE019
38. 对于当前行的相对右缩进。如果从当前行右面到区域右面(诸如当前行所属的列那样的区域)的距离是DR,以及对于在区域内的当前行的中值字符宽度是MCWR,则这个值是:
Figure 909432DEST_PATH_IMAGE020
39. 对于下一行的相对右缩进。如果从下一行右面到区域右面(诸如下一行所属的列那样的区域)的距离是DNR,以及对于在区域内的当前行的中值字符宽度是MCWR,则这个值是:
40. 当前行是新的文本区域的开始吗。
41. 当前行的第一个单词宽度大于或等于前一行右缩进吗。
42. 在行的左侧有图像区域吗。
43. 在行的右侧有图像区域吗。
44. 在当前行以上有图像区域吗以及前一行与当前行在相同的文本区域中吗。
45. 对于当前行和前一行的相对区域宽度比率。如果当前行的区域宽度是CRW,以及前一行的区域宽度是PRW,则这个值是:
Figure 663761DEST_PATH_IMAGE022
46. 前一行被分类为“开始段落行”还是“继续段落行”。
47. 当前行中的所有字母都被大写吗。
 48. 前一行中的所有字母都被大写吗。
49. 下一行中的所有字母都被大写吗。
 50. 在当前行中的单词数。
51. 在前一行中的单词数。
52. 在下一行中的单词数。
53. 每行的中值单词数。
54. 当前行是以数字结束吗。
55. 前一行是以数字结束吗。
56. 下一行是以数字结束吗。
当执行行分类过程时应当给予以上因素的各种值的权重可以通过使用训练模式去建立表征开始段落行和继续段落行的特征值的各种组合而被确定。一旦这被确定,用于这些特征的值可被使用来对经历OCR的未知类型的行进行分类。尽管最大的精确度将是从检查所有这些特征而得到的,但是在某些情形中,检查各种子组合可能就足够了。例如,如前所述,在某些实现中,可以利用在主要行特征集中过半数的特征。行分类部件可以利用诸如神经网络、判决树或贝叶斯框架那样的机器学习技术来提高分类过程的精确度。
段落创建
段落创建部件创建在开始段落行与下一出现的开始段落行之间的段落。也就是,段落包括开始段落行和在下一随后的开始段落行前面的所有行。图12显示文本的说明性部分,其中行分类部件已把每行分类为开始段落行或继续段落行,如由在每行开始处的字母“B”或“C”表示的。以这样的方式,在图12上,三个段落被创建。
段落对齐
在段落被创建后,段落对齐部件确定它们的对齐。这个过程(其把每个段落分类为左或右对齐、两端对齐、或居中对齐)可以通过检查下面列出的某些或所有的特征而完成,每个特征更可能指示该段落归入到四个类别中的一个类别。再次地,应当指出,没有单个特征可能是决定性的。相反,是由所有特征提供的证据的集合体才是重要的。还应当指出,特征的这个列表不是穷举的,而是仅仅作为例子被给出。
可被使用于对齐检测的说明性特征包括:
1. 在段落中的行数。
2. 段落行是左对齐的。在第一行后面的所有段落行具有相同的左边距。
3. 段落行是右对齐的。在第一行后面的所有段落行具有相同的右边距。
4. 段落行是居中对齐的。所有的段落行具有相同的中心坐标。
5. 左面区域缩进。从段落的左边缘到区域(例如,列)左面的距离。
6. 右面区域缩进。从右面段落边缘到区域右面的距离。
7. 段落在它的区域内的中心位置。
8. 左面页缩进。从段落的左边缘到页左面的距离。
9. 右面页缩进。从段落的右边缘到页右面的距离。
10. 段落在页内的中心位置。
11. 在段落的左面存在或不存在图像区域。
12. 在段落的右面存在或不存在图像区域。
13. 对于前一个段落的计算的对齐值。
当执行段落对齐过程时应当给予以上因素的各种值的权重可以通过使用训练模式去建立表征段落对齐的特征值的各种组合而被确定。一旦这被确定,对于这些特征的值可被使用来对经历OCR的未知类型的段落对齐进行分类。虽然最大的精确度通常将从检查所有这些特征得到,但在一些情形下,检查各种子组合可能就足够了。段落对齐分类部件可以利用诸如神经网络、判决树或贝叶斯框架那样的机器学习技术来提高分类过程的精确度。
当在本申请中使用时,术语“部件”、“模块”、“引擎”、“系统”、“设备”、“接口”等等通常打算指与计算机有关的实体,或者是硬件、硬件与软件的组合、软件,或者是在执行中的软件。例如,部件可以是,但不限于,在处理器上运行的进程、处理器、对象、可执行文件、执行的线程、程序和/或计算机。作为说明,在控制器上运行的应用和控制器均可以是部件。一个或多个部件可以驻留在执行的线程和/或进程内,以及部件可以被定位在一个计算机上和/或被分布在两个或更多个计算机之间。
而且,所要求保护的主题可以通过使用标准编程和/或工程技术来产生软件、固件、硬件或它们的组合,而被实施为方法、设备或制品,以便控制计算机实施所公开的主题。当在这里使用时,术语 “制品”打算包括从任何计算机可读装置、载体、或媒体可访问的计算机程序。例如,计算机可读媒体可包括,但不限于,磁存储装置(例如,硬盘、软盘、磁条…)、光盘(例如,紧凑盘(CD)、数字多功能盘(DVD)…)、智能卡和闪存装置(例如,卡、棒、键驱动(key drive)…)。当然,本领域技术人员将会认识到,可以对本配置做出许多修改而不背离所要求保护的主题的范围或精神。
虽然本主题是以对于结构特征和/或方法动作特定的语言描述的,但应当明白,在所附权利要求中限定的主题不是必须限于以上描述的特定特征或动作。相反,以上描述的特定特征或动作是作为实施权利要求的示例性形式被公开的。

Claims (15)

1.一种用于检测在文本图像中的段落的图像处理设备,包括:
输入部件,用于接收其中文本行和单词已被标识的输入图像;
页分类部件,用于把输入图像分类为第一或第二页类型;
段落检测部件,用于把在输入图像上的所有文本行分类为开始段落行或继续段落行;以及
段落创建部件,用于创建包括两个连续的开始段落行之间的文本行,包括所述两个连续的开始段落行的第一个开始段落行的段落。
2.权利要求1的图像处理设备,还包括段落对齐部件,用于按照它的对齐来分类段落的每一个。
3.权利要求1的图像处理设备,其中第一页类型是诗页,以及第二页类型是正文页。
4.权利要求3的图像处理设备,其中页分类部件被配置成至少部分根据文本行的特征把输入图像分类为诗或正文页,所述文本行的特征包括:在图像上以小写字体开始的行的相对数量;以数字结尾的行的相对数量;不是以字母数字字符结尾的行的相对数量;行高度的密度;和作为在图像的被选择部分内的中间行的行的相对数量。
5.权利要求1的图像处理设备,其中段落检测部件被配置成至少部分根据主要行特征集把在输入图像上的所有文本行分类为开始段落行或继续段落行。
6.权利要求5的图像处理设备,其中段落检测部件被配置成至少部分根据在主要行特征集中的大多数特征把在输入图像上的所有文本行分类为开始段落行或继续段落行。
7.权利要求2的图像处理设备,其中段落对齐部件被配置成按照段落是左对齐、右对齐、居中对齐还是两端对齐来分类段落的每一个。
8.权利要求7的图像处理设备,其中段落对齐部件被配置成至少部分根据特征来分类段落的每一个,所述特征包括:在段落中的行数;在段落中的行是否左对齐;在第一行后面的段落中的行是否具有共同的左边距;在段落中的行是否右对齐;在第一行后面的段落中的所有行是否具有共同的右边距;在段落中的行是否居中对齐;在段落中的所有行是否具有共同的中心坐标;左面区域的缩进值;右面区域的缩进值;从段落右边缘到右面区域的距离;段落在图像的页上的区域内的中心位置;左面页缩进;右面页缩进;段落在页内的中心位置;在段落的左面或右面存在或不存在图像区域;以及前一个段落的计算的对齐值。
9.一种用于检测在文本图像中的段落的方法,包括:
接收其中文本行和单词已被标识的输入图像;
把输入图像分类为第一或第二页类型;
把在输入图像上的所有文本行分类为开始段落行或继续段落行;以及
创建包括两个连续的开始段落行之间的文本行,包括所述两个连续的开始段落行的第一个开始段落行的段落。
10.权利要求9的方法,还包括按照它被对齐的方式来分类段落的每一个。
11.权利要求9的方法,其中第一页类型是诗页,以及第二页类型是正文页。
12.权利要求9的方法,其中分类图像包括至少部分根据文本行的特征把输入图像分类为诗或正文页,所述文本行的特征包括:在图像上以小写字体开始的行的相对数量;以数字结尾的行的相对数量;不是以字母数字字符结尾的行的相对数量;行高度的密度;和作为在图像的被选择部分内的中间行的行的相对数量。
13.权利要求9的方法,其中分类所有的文本行包括至少部分根据主要行特征集把在输入图像上的所有文本行分类为开始段落行或继续段落行。
14.权利要求9的方法,其中分类所有的文本行包括至少部分根据在主要行特征集中的大多数特征把在输入图像上的所有文本行分类为开始段落行或继续段落行。
15.权利要求14的方法,其中段落的每一个按照段落是左对齐、右对齐、居中对齐还是两端对齐而被分类,并且还至少部分根据特征来分类段落的每一个,所述特征包括:在段落中的行数;在段落中的行是否左对齐;在第一行后面的段落中的行是否具有共同的左边距;在段落中的行是否右对齐;在第一行后面的段落中的所有行是否具有共同的右边距;在段落中的行是否居中对齐;在段落中的所有行是否具有共同的中心坐标;左面区域的缩进值;右面区域的缩进值;从段落右边缘到右面区域的距离;段落在图像的页上的区域内的中心位置;左面页。
CN201180013187.3A 2010-03-10 2011-03-08 在光学字符识别(ocr)过程中的段落识别 Active CN102782702B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US12/720,992 US8565474B2 (en) 2010-03-10 2010-03-10 Paragraph recognition in an optical character recognition (OCR) process
US12/720992 2010-03-10
US12/720,992 2010-03-10
PCT/US2011/027533 WO2011112573A2 (en) 2010-03-10 2011-03-08 Paragraph recognition in an optical character recognition (ocr) process

Publications (2)

Publication Number Publication Date
CN102782702A true CN102782702A (zh) 2012-11-14
CN102782702B CN102782702B (zh) 2014-06-11

Family

ID=44560021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180013187.3A Active CN102782702B (zh) 2010-03-10 2011-03-08 在光学字符识别(ocr)过程中的段落识别

Country Status (4)

Country Link
US (1) US8565474B2 (zh)
EP (1) EP2545495B1 (zh)
CN (1) CN102782702B (zh)
WO (1) WO2011112573A2 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145859A (zh) * 2017-05-04 2017-09-08 北京小米移动软件有限公司 电子书转换处理方法、装置及计算机可读存储介质
CN106980607B (zh) * 2017-03-31 2018-06-22 掌阅科技股份有限公司 段落识别方法、装置和终端设备
CN109460730A (zh) * 2018-11-03 2019-03-12 上海犀语科技有限公司 一种表格换行换页的分析方法及装置
CN111222368A (zh) * 2018-11-26 2020-06-02 北京金山办公软件股份有限公司 一种识别文档段落的方法、装置及电子设备
CN111259623A (zh) * 2020-01-09 2020-06-09 江苏联著实业股份有限公司 一种基于深度学习的pdf文档段落自动提取系统及装置

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9251123B2 (en) * 2010-11-29 2016-02-02 Hewlett-Packard Development Company, L.P. Systems and methods for converting a PDF file
US10025979B2 (en) 2012-01-23 2018-07-17 Microsoft Technology Licensing, Llc Paragraph property detection and style reconstruction engine
WO2014005609A1 (en) * 2012-07-06 2014-01-09 Microsoft Corporation Paragraph alignment detection and region-based section reconstruction
WO2014005610A1 (en) 2012-07-06 2014-01-09 Microsoft Corporation Multi-level list detection engine
US9355313B2 (en) * 2014-03-11 2016-05-31 Microsoft Technology Licensing, Llc Detecting and extracting image document components to create flow document
US9535880B2 (en) * 2014-04-24 2017-01-03 Adobe Systems Incorporated Method and apparatus for preserving fidelity of bounded rich text appearance by maintaining reflow when converting between interactive and flat documents across different environments
CN104573675B (zh) * 2015-01-29 2018-10-09 作业帮教育科技(北京)有限公司 作业图像的展示方法和装置
WO2017041187A1 (en) * 2015-09-11 2017-03-16 Christophe Bossut System and method for providing augmented reality interactions over printed media
US10824854B2 (en) * 2018-06-18 2020-11-03 Sap Se Systems and methods for extracting data from an image
US10824808B2 (en) * 2018-11-20 2020-11-03 Sap Se Robust key value extraction
CN110245570B (zh) * 2019-05-20 2023-04-18 平安科技(深圳)有限公司 扫描文本分段方法、装置、计算机设备和存储介质
CN110533844A (zh) * 2019-07-29 2019-12-03 广州一区科技有限公司 一种化学试剂存取管理方法及其系统
US11367296B2 (en) * 2020-07-13 2022-06-21 NextVPU (Shanghai) Co., Ltd. Layout analysis
CN113435449B (zh) * 2021-08-03 2023-08-22 全知科技(杭州)有限责任公司 基于深度学习的ocr图像文字识别与段落输出方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754685A (en) * 1990-05-15 1998-05-19 Canon Kabushiki Kaisha Image processing apparatus with blank character and line space recognition capabilities
US5892842A (en) * 1995-12-14 1999-04-06 Xerox Corporation Automatic method of identifying sentence boundaries in a document image
US7315867B2 (en) * 2001-05-10 2008-01-01 Sony Corporation Document processing apparatus, document processing method, document processing program, and recording medium
CN101443790A (zh) * 2006-03-28 2009-05-27 亚马逊科技公司 数字图像中的非回流内容的有效处理
CN101441713A (zh) * 2007-11-19 2009-05-27 汉王科技股份有限公司 一种pdf文件的光学字符识别方法及装置
CN101458770A (zh) * 2008-12-24 2009-06-17 北京文通科技有限公司 一种文字识别的方法和系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5848184A (en) 1993-03-15 1998-12-08 Unisys Corporation Document page analyzer and method
US6021218A (en) * 1993-09-07 2000-02-01 Apple Computer, Inc. System and method for organizing recognized and unrecognized objects on a computer display
US5689342A (en) * 1994-11-17 1997-11-18 Canon Kabushiki Kaisha Image processing method and apparatus which orders text areas which have been extracted from an image
US5830657A (en) * 1996-05-01 1998-11-03 Visible Genetics Inc. Method for single-tube sequencing of nucleic acid polymers
US6279017B1 (en) * 1996-08-07 2001-08-21 Randall C. Walker Method and apparatus for displaying text based upon attributes found within the text
US6377704B1 (en) * 1998-04-30 2002-04-23 Xerox Corporation Method for inset detection in document layout analysis
US6438564B1 (en) * 1998-06-17 2002-08-20 Microsoft Corporation Method for associating a discussion with a document
US7091959B1 (en) * 1999-03-31 2006-08-15 Advanced Digital Systems, Inc. System, computer program product, computing device, and associated methods for form identification and information manipulation
US7272258B2 (en) * 2003-01-29 2007-09-18 Ricoh Co., Ltd. Reformatting documents using document analysis information
US8250469B2 (en) * 2007-12-03 2012-08-21 Microsoft Corporation Document layout extraction
US8392816B2 (en) * 2007-12-03 2013-03-05 Microsoft Corporation Page classifier engine

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754685A (en) * 1990-05-15 1998-05-19 Canon Kabushiki Kaisha Image processing apparatus with blank character and line space recognition capabilities
US5892842A (en) * 1995-12-14 1999-04-06 Xerox Corporation Automatic method of identifying sentence boundaries in a document image
US7315867B2 (en) * 2001-05-10 2008-01-01 Sony Corporation Document processing apparatus, document processing method, document processing program, and recording medium
CN101443790A (zh) * 2006-03-28 2009-05-27 亚马逊科技公司 数字图像中的非回流内容的有效处理
CN101441713A (zh) * 2007-11-19 2009-05-27 汉王科技股份有限公司 一种pdf文件的光学字符识别方法及装置
CN101458770A (zh) * 2008-12-24 2009-06-17 北京文通科技有限公司 一种文字识别的方法和系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980607B (zh) * 2017-03-31 2018-06-22 掌阅科技股份有限公司 段落识别方法、装置和终端设备
CN107145859A (zh) * 2017-05-04 2017-09-08 北京小米移动软件有限公司 电子书转换处理方法、装置及计算机可读存储介质
CN109460730A (zh) * 2018-11-03 2019-03-12 上海犀语科技有限公司 一种表格换行换页的分析方法及装置
CN109460730B (zh) * 2018-11-03 2022-06-17 上海犀语科技有限公司 一种表格换行换页的分析方法及装置
CN111222368A (zh) * 2018-11-26 2020-06-02 北京金山办公软件股份有限公司 一种识别文档段落的方法、装置及电子设备
CN111222368B (zh) * 2018-11-26 2023-09-19 北京金山办公软件股份有限公司 一种识别文档段落的方法、装置及电子设备
CN111259623A (zh) * 2020-01-09 2020-06-09 江苏联著实业股份有限公司 一种基于深度学习的pdf文档段落自动提取系统及装置

Also Published As

Publication number Publication date
US20110222773A1 (en) 2011-09-15
EP2545495A2 (en) 2013-01-16
WO2011112573A3 (en) 2011-12-15
CN102782702B (zh) 2014-06-11
WO2011112573A2 (en) 2011-09-15
US8565474B2 (en) 2013-10-22
EP2545495A4 (en) 2017-05-03
EP2545495B1 (en) 2018-05-30

Similar Documents

Publication Publication Date Title
CN102782702B (zh) 在光学字符识别(ocr)过程中的段落识别
CN102289667B (zh) 对经历光学字符识别(ocr)过程的文本文档中出现的错误的用户纠正
US8041113B2 (en) Image processing device, image processing method, and computer program product
CN101542504B (zh) 后光学字符识别处理中的形状聚类
US4926492A (en) Optical character reading apparatus and method
CN101443790B (zh) 数字图像中的非回流内容的有效处理
CN102236800B (zh) 经历ocr过程的文本的单词识别
US6151423A (en) Character recognition with document orientation determination
CN100517372C (zh) 自动创建索引的图像形成装置及其方法
US6959121B2 (en) Document image processing device, document image processing method, and memory medium
US8462394B2 (en) Document type classification for scanned bitmaps
US8340425B2 (en) Optical character recognition with two-pass zoning
WO1997015026A1 (en) Processor based method for extracting tables from printed documents
WO2007089520A1 (en) Strategies for processing annotations
US8391607B2 (en) Image processor and computer readable medium
US5375176A (en) Method and apparatus for automatic character type classification of European script documents
US8538154B2 (en) Image processing method and image processing apparatus for extracting heading region from image of document
US8687239B2 (en) Relevance based print integrity verification
US8526744B2 (en) Document processing apparatus and computer readable medium
US20010043742A1 (en) Communication document detector
JP2000181931A (ja) 自動オーサリング装置および記録媒体
KR100655916B1 (ko) 방대한 데이터의 디지털화를 위한 문서영상처리 및검증시스템 및 그 방법
JP3319203B2 (ja) 文書ファイリング方法及び装置
Zahan et al. Connected component analysis based two zone approach for bangla character segmentation
US20110033114A1 (en) Image processing apparatus and computer readable medium

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150429

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150429

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.