CN105335372B - 文档处理装置、方法以及确定文档图像的朝向的设备 - Google Patents

文档处理装置、方法以及确定文档图像的朝向的设备 Download PDF

Info

Publication number
CN105335372B
CN105335372B CN201410261004.5A CN201410261004A CN105335372B CN 105335372 B CN105335372 B CN 105335372B CN 201410261004 A CN201410261004 A CN 201410261004A CN 105335372 B CN105335372 B CN 105335372B
Authority
CN
China
Prior art keywords
text
line
confidence level
document processing
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410261004.5A
Other languages
English (en)
Other versions
CN105335372A (zh
Inventor
许亮
范伟
何源
孙俊
直井聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201410261004.5A priority Critical patent/CN105335372B/zh
Publication of CN105335372A publication Critical patent/CN105335372A/zh
Application granted granted Critical
Publication of CN105335372B publication Critical patent/CN105335372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)

Abstract

本公开提供了文档处理装置、方法以及确定文档图像的朝向的设备。文档处理装置包括:提取装置,用于从文档图像中提取出至少一个文本行;置信度获取装置,用于根据由所述提取装置提供的文本行的结构特征,获取所述文本行的、与第一类文本相关的置信度,所述置信度表示所述第一类文本相对于第二类文本的重要性程度;以及排序装置,用于至少根据所述置信度,对所述至少一个文本行中包含的文本的质量进行排序。

Description

文档处理装置、方法以及确定文档图像的朝向的设备
技术领域
本公开涉及一种文档处理技术,尤其涉及一种用于对文档图像进行处理的文档处理装置和文档处理方法以及用于确定文档图像的朝向的设备和方法。
背景技术
在文档处理技术中,经常需要从文档图像中提取出多个文本图像(如文本行),并利用这些文本图像来进行后续的诸如文档图像朝向判断、光学字符识别(OCR)等处理。因为一个文档图像中所包括的文本图像的质量可能是不同的,所以通常会对所提取的各个文本图像的质量进行排序,以供后续处理选择。现有的文本图像质量评估及排序方式在准确性和处理效率上存在不足。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于现有技术的上述缺陷,本发明的目的之一是提供一种用于将文本图像中所包括的文本本身的属性或质量纳入到文档图像处理中的文档处理装置和文档处理方法,以至少克服现有的问题。
根据本公开的第一方面,提供一种文档处理装置,包括:提取装置,用于从文档图像中提取出至少一个文本行;置信度获取装置,用于根据由所述提取装置提供的文本行的结构特征,获取所述文本行的、与第一类文本相关的置信度,所述置信度表示所述第一类文本相对于第二类文本的重要性程度;以及排序装置,用于至少根据所述置信度,对所述至少一个文本行中包含的文本的质量进行排序。
根据本公开的另一方面,提供一种确定文档图像的朝向的设备,包括:根据本公开的第一方面的文档处理装置,被配置为对文档图像中的文本行所包含的文本的质量进行排序;以及朝向判断装置,用于根据由所述文档处理装置获得的排序结果,按照文本质量的降序,利用经过排序的预设数量的文本行来对所述文档图像的朝向进行判断。
根据本公开的一个方面,还提供一种文档处理方法,包括:从文档图像中提取出至少一个文本行;根据所提取的至少一个文本行的结构特征,获取所述文本行的、与第一类文本相关的置信度,所述置信度表示所述第一类文本相对于第二类文本的重要性程度;以及至少根据所述置信度,对所述至少一个文本行中包含的文本的质量进行排序。
根据本公开的又一个方面,还提供一种确定文档图像的朝向的方法,包括:采用根据本公开的第一方面的文档处理装置,对文档图像中的文本行所包含的文本的质量进行排序;根据由所述文档处理装置获得的排序结果,按照文本质量的降序,利用经过排序的预设数量的文本行来对所述文档图像的朝向进行判断。
依据本公开的其它方面,还提供了一种使得计算机用作如上所述的文档处理装置的程序。
依据本公开的又一方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,该计算机程序在执行时能够使计算设备执行上述文档处理方法。
上述根据本公开实施例的文档处理装置和文档处理方法,至少能够获得以下益处之一:在文档图像处理中,基于从文档图像中提取的文本行的结构特征,从文本行本身的属性的角度考虑了文本的质量,从而更全面地衡量文档图像中的文本的质量,并改进文本质量排序的准确性。此外,在考虑文本行本身的属性时,引入了不同类文本的相对重要性程度,使得可以针对后续处理对不同类文本的偏好来有针对性地考察文本行的属性以及进行相应的排序。
通过以下结合附图对本公开的最佳实施例的详细说明,本公开的这些以及其他优点将更加明显。
附图说明
本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示意性地示出根据本公开实施例的文档处理装置的一种示例结构的框图。
图2A、图2B示出了根据本公开实施例的文档处理装置所处理的文档图像的示例。
图3A、图3B、图3C示出了由根据本公开实施例的文档处理装置中的提取装置提取出的文本行的示例。
图4是示意性地示出根据本公开优选实施例的文档处理装置中的提取装置的一种示例结构的框图。
图5是示意性地示出根据本公开优选实施例的文档处理装置中的置信度获取装置中与计算结构特征有关的部分的示例结构的框图。
图6是示意性地示出由根据本公开优选实施例的文档处理装置中的文本行划分子装置来划分文本行以得到文字块的说明图。
图7是示意性地示出根据本公开优选实施例的置信度获取装置中用于基于已获取的文本行的结构特征来获取置信度的部分的示例结构的框图。
图8是示意性地示出根据本公开另一优选实施例的置信度获取装置的示例结构的框图。
图9示出了文本行中存在黑底白字文本和白底黑字文本的混合的示例。
图10是示意性地示出根据本公开优选实施例的文档处理装置中的排序装置的一种示例结构的框图。
图11示意性地示出了根据本公开优选实施例的排序装置中所包括的第一排序子装置和第二排序子装置各自的排序结果。
图12是示意性地示出了根据本公开实施例的确定文档图像的朝向的设备的示例结构的框图。
图13示出了根据本公开实施例的文档处理方法的示例流程。
图14示出了根据本公开实施例的文档处理方法中的提取步骤的示例流程。
图15示出了根据本公开实施例的文档处理方法中的置信度获取步骤的示例流程。
图16示出了根据本公开实施例的文档处理方法中的置信度获取步骤的另一示例流程。
图17示出了根据本公开实施例的确定文档图像的朝向的方法的示例流程。
图18是示出了可用来实现根据本公开实施例的文档处理装置和文档处理方法的一种可能的硬件配置的结构简图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
本发明人发现,关于从文档图像中提取出的文本图像(如文本行)的质量,除了一般会考虑的该图像作为文本而非图片的置信度、该图像的清晰度等,文本图像中所包括的文本本身的属性或质量在一些应用中也非常重要。文本本身的属性可以包括例如文本属于何种语言(例如,包括西文字符或中文字符),文本是文字还是数字,或者文本是手写文本还是印刷文本等。以文档图像朝向判断、光学字符识别(OCR)等后续处理为例,印刷文本一般会优于手写文本。
基于此,本公开提出一种文档处理装置和文档处理方法,其能够将文本图像中所包括的文本本身的属性或质量纳入到文档图像处理中。根据本公开实施例的文档处理装置和文档处理方法,能够基于从文档图像中提取的文本行的结构特征,从文本行本身的属性的角度考虑文本的质量,从而更全面地衡量文档图像中的文本的质量,并改进文本质量排序的准确性。此外,在考虑文本行本身的属性时,引入了不同类文本的相对重要性程度,使得可以针对后续处理对不同类文本的偏好来有针对性地考察文本行的属性以及进行相应的排序。
注意,尽管以下描述中多处以文本是手写文本还是印刷文本来作为第一或第二类文本的示例,但是本领域技术人员完全可以理解,这种文本分类仅仅是示意性的,并且本公开实施例可以适用于基于结构特征的各种文本分类。例如,第一或第二类文本可以基于文本属于何种语言(例如,包括西文字符或中文字符),文本是文字还是数字等。
图1是示意性地示出根据本公开实施例的文档处理装置的一种示例结构的框图。
根据本公开的文档处理装置1可以衡量文本图像中所包括的文本本身的属性或质量。
如图1所示,文档处理装置1包括:提取装置10,用于从文档图像中提取出至少一个文本行;置信度获取装置20,用于根据由所述提取装置提供的文本行的结构特征,获取所述文本行的、与第一类文本相关的置信度,所述置信度表示所述第一类文本相对于第二类文本的重要性程度;以及排序装置30,用于至少根据所述置信度,对所述至少一个文本行中包含的文本的质量进行排序。
提取装置10可以利用各种现有技术从文档图像中提取文本行,这里不进行详细描述。在提取出文本行之后,利用置信度获取装置20,本公开的文档处理装置1可以根据文本行的结构特征,考察文本行中所包括的文本本身的属性,即该文本与第一类文本相关的置信度,并且该置信度可以表示第一类文本相对于第二类文本的重要性程度。这样的置信度能够改进排序装置30中对文本质量的排序,使得排序装置30对文本质量的排序也能够体现第一类文本相对于第二类文本的重要性程度。
在字符识别等后续应用中,不同类别的输入文本可能会带来不同的处理结果。例如,相对于手写文本,印刷文本的识别结果一般更准确。相应地的,这样后续处理可能会偏好印刷文本。因此,通过获取文本行与某一类文本相关的、体现了不同类别文本的重要性程度的置信度以及进行相应排序,本公开实施例的文档处理装置不仅可以衡量文本行中的文本本身与这些类别有关的属性或质量并且基于该属性或质量来进行排序,而且还可以在这种衡量和排序中体现对于某一类文本的偏好。
优选地,文档处理装置1所处理的文档图像是二值图像。作为替选,提取装置10可以具有预处理单元,以将输入的彩色文档图像变换为灰度图像,并将该灰度图像二值化,以得到二值图像。相较于直接处理灰度图像,引入二值化过程可以提高处理速度,并在一定程度上去除图像中的噪声。以下描述中以二值图像作为文档图像的示例,但本领域技术人员可以理解,本公开的文档处理装置1同样可以适用于彩色图像或灰度图像。
图2A、图2B示出了根据本公开实施例的文档处理装置所处理的文档图像的示例,其中的图2A是灰度图像,图2B是根据该灰度图像得到的二值图像。在图2B的二值图像中,以多个外接矩形框示出了提取装置10所提取的文本行。图3A至图3C示出了由根据本公开实施例的提取装置10提取出的文本行的示例,其中图3A为白底黑字的印刷文本行,图3B为存在白底黑字和黑底白字的混合(下文中有时也将这种混合称为混合极性)的文本行,图3C为白底黑字的手写文本行。注意,作为示例,在图2A至图2B、图3A至图3C中示出了上下颠倒的、即朝下的文档图像和文本行,但是根据本公开实施例的文档处理装置所处理的文档图像以及提取装置所提取的文本行的朝向可以是任意的,例如但不限于朝上、朝下、朝左、朝右等。
尽管图2A至图2B、图3A至图3C中并未示出,但是文档图像中可能存在大量黑底白字的文本。在一个优选实施例中,为提取装置10设置了能够判断所提取的文本行的极性(在本文中,将文本为黑底白字、为白底黑字、或者为两者的混合称为文本的不同极性)的功能,以利于后续处理。
图4是示意性地示出根据本公开优选实施例的提取装置的一种示例结构的框图。
如图4所示,提取装置10包括极性判断子装置101、以及反转处理子装置102和/或抛弃处理子装置103。极性判断子装置101用于基于从所述文档图像中提取出的至少一个文本行中的黑色像素的比例来判断所述文本行是否为黑底白字文本。作为示例,可以在文本行的黑色像素的比例高于80%时判断文本行为黑底白字文本。
所述反转处理子装置102被配置为:当所述极性判断子装置101判断所述文本行为黑底白字文本时,将所述文本行反转为白底黑字文本,以将经反转的文本行提供给所述置信度获取装置20。
可以除了反转处理子装置102之外还设置抛弃处理子装置103,或者可以取代反转处理子装置102而设置抛弃处理子装置103。抛弃处理子装置103可以被配置为:当所述极性判断子装置102判断所述文本行为黑底白字文本时,抛弃所述文本行,以不将其提供给所述置信度获取装置20。注意,图4中同时示出了反转处理子装置102和抛弃处理子装置103,但是如上所述,取决于不同的设计需求,提取装置10既可以同时包括这两个子装置以利于提高处理效率并且仍提供足够的文本行,也可以仅包括其中一个子装置以简化配置。
利用提取装置10的上述结构和功能配置,使得能够仅针对白底黑字文本来设计置信度获取装置20的结构和功能,从而简化了置信度获取装置20的配置。
以下参照图5至图7来描述根据本公开优选实施例的置信度获取装置20A。图5是示意性地示出根据本公开优选实施例的置信度获取装置中与计算结构特征有关的部分的示例结构的框图。
如图5中所示,置信度获取装置20A中与计算结构特征有关的部分包括:文本行划分子装置201,用于根据所述文本行中的连通部件(connected component)之间的间隔信息,将所述文本行划分为至少一个文字块;结构特征计算子装置202,用于计算所述文本行的各文字块的至少一维的结构特征,其中所述文字块的至少一维的结构特征包括:文字块的连通部件的倾斜度的方差;以及平均值计算子装置203,用于分别针对各维的所述文字块的结构特征,计算各所述文字块的结构特征的平均值,将其作为所述文本行的结构特征。
文本行中可能存在不同风格的文字串,各个文字串内的连通部件具有不同的结构特征。利用间隔文本行划分子装置201,根据连通部件之间的间隔信息而将文本行(或文本行中的各个连通部件)划分为文字块,能够使得每个块内的文字风格趋于一致,便于提取合适的结构特征。
图6是示意性地示出由根据本公开优选实施例的文本行划分子装置来划分文本行以得到文字块的说明图。注意,在图6中,以印刷和手写文本作为第一类、第二类文本的示例,但是这种示例仅仅是为了说明的目的,而不构成任何限制。图6中的(a)示出了印刷文本行,其中被划分为两个文字块,即左侧文字块“From:”和右侧文字块“PLEASE PRINT”。图6中的(b)示出了手写文本行“Portland”,其被划分为一个文字块。
如图6中的(a)所示,在一个示例中,间隔文本行划分子装置201例如利用下述事实进行文本行划分:两个文字块之间的相邻连通部件的间隔(即,连通部件“:”和“P”之间的间隔)应该大于这两个文字块内部的相邻连通部件的间隔。这样,图6中的(a)中的印刷文本行被分为两个风格不同的文字串。
对于划分后的文字块,结构特征计算子装置202计算各文字块的至少一维的结构特征。一个优选的结构特征是文字块的连通部件的倾斜度的方差。从图6的(a)中可以看出,在印刷文本行的每个文本块内部,连通部件的倾斜度基本一致,即倾斜度的方差很小,接近于0。而在图6的(b)中的手写文本行的文本块内部,由于手写文本的不规则的特性,连通部件的倾斜度变化较大,即倾斜度的方差较大。因此,利用结构特征计算子装置202所计算的文字块的连通部件的倾斜度的方差,本公开可以很好地判断文字块与印刷文本行有关的置信度。
除了文字块的连通部件的倾斜度的方差之外,文字块的至少一维的结构特征还可以包括:文字块中的连通部件的经典的全局形状特征,和/或,文字块中的连通部件的经典的局部形状特征。文字块中的连通部件的经典的全局形状特征可以包括:块内的连通部件的高度的均值和方差、宽度的均值和方差、以及之前提到的倾斜角度的方差。文字块中的连通部件的经典的局部形状特征可以包括:将每个连通部件划分为若干小块之后,每个小块内部的黑色像素的比例的均值和方差、每个小块中的连通部件的局部形状和曲率等。
连通部件的高度和宽度可以通过下述方式获得:为每个连通部件设置外接矩形,该外接矩形的高度和宽度即为连通部件的高度和宽度,并且可以例如以相应的像素的个数来表示。仍以印刷文本和手写文本为例,文字块中的连通部件的高度和宽度的方差在印刷文本行的情况下较小,而在手写文本行的情况下较大。另外,对于印刷文本行,文字块中的连通部件的高度的均值接近于文字块本身的高度。相较之下,在手写文本行中,文字块中的连通部件的高度的均值小于文字块本身的高度。注意,类似于连通部件的高度和宽度的定义方式,这里文字块的高度(或宽度)也是通过文字块的外接矩形的高度(或宽度)来定义的。
在一个具体示例中,可以选择文字块内的连通部件的高度的均值和方差、宽度的均值和方差、以及倾斜角度的方差作为结构特征计算子装置202所计算的5维特征。替选地,可以从这5个特征中任意选择数个特征进行计算,以实现结构特征的计算效率与后续的基于这些结构特征来获取的文本行与第一类文本相关的置信度的准确性之间的平衡。
针对结构特征计算子装置202所得到的各维的文字块的结构特征,平均值计算子装置203计算各文字块的结构特征的平均值,将其作为文本行的结构特征,以作为置信度获取装置20A获取该文本行的置信度的基础。
注意,在一个替选实施例中,置信度获取装置20A中与计算结构特征有关的部分可以仅包括结构特征计算子装置202,而省略了文本行划分子装置201和平均值计算子装置203。此时,结构特征计算子装置202被配置为将整个文本行作为一个文字块,直接计算文本行的至少一维的结构特征,包括文本行中的连通部件的倾斜度的方差、文本行的连通部件的经典的全局形状特征、和/或文字块中的连通部件的经典的局部形状特征。
省略了文本行划分子装置201和平均值计算子装置203之后,替选实施例的置信度获取装置20A可以具有提高的处理效率。此外,可以从上述的结构特征计算子装置202所计算的5维特征中适当地选择例如适合于以文本行为单位计算的结构特征,以提高后续获取的置信度的精度。
在获取文本行的结构特征之后,根据本公开实施例的置信度获取装置20A可以通过各种方式来基于文本行的结构特征获取文本行的与第一类文本相关的置信度。例如,置信度获取装置20A可以采用代价敏感的分类器、支持向量机等。
图7是示意性地示出根据本公开优选实施例的置信度获取装置中用于基于已获取的文本行的结构特征来获取置信度的部分的示例结构的框图。
在本优选实施例中,第一类文本是印刷文本,第二类文本是手写文本。如图7中所示,置信度获取装置20A中用于基于已获取的文本行的结构特征来获取置信度的部分包括基于代价敏感学习而训练好的分类器204,并且可选地包括非线性变换子装置205。
置信度获取装置20A被配置为根据文本行的结构特征,利用训练好的分类器204来获取文本行的置信度。分类器204是通过如下方式训练得到的:获取多个印刷文本行和手写文本行的样本;以及利用所述样本的结构特征进行训练以得到所述分类器204,其中所述分类器204在训练阶段的代价设定被构建为使得将印刷文本行误判为手写文本行的代价高于将手写文本行误判为印刷文本行的代价。并且,对所述分类器204进行训练时所提取的样本的结构特征、与在对文档图像进行处理时计算的所述至少一维的结构特征是同类的。也即,在训练时如何提取样本的结构特征,相应地在对文档图像进行处理时就如何提取待处理对象的结构特征。
分类器204在训练阶段的上述代价敏感学习体现了印刷文本行(第一类文本)相对于手写文本行(第二类文本)的重要性程度,从而使得利用该分类器所获取的文本行的与印刷文本行相关的置信度能够表示印刷文本行相对于手写文本行的重要性程度。在文档图像处理中,将印刷文本行误判为手写文本行可能导致后续处理无法利用高质量的数据,因此是需要避免的。通过代价敏感学习,在分类器分类结果的整体正确率不变的情况下,能够得到更高的印刷文本行类别的分类正确率,同时仍保证手写文本行类别的分类正确率较高。
置信度获取装置20A可以直接将分类器204的分类结果作为文本行的置信度,或者对该分类结果进行可选的后续处理来得到该置信度。利用上述分类器204,根据本公开实施例的置信度获取装置20A不仅能够获取文本行与第一类文本相关的置信度,还能够在保证包括第二类文本的文本行的该置信度的一定准确率的同时,改进包括第一类文本的文本行的该置信度的准确率。
以下描述通过代价敏感学习训练上述分类器204以及利用该分类器的一些示例。在代价敏感学习中,需要设置代价矩阵。由于在本实施例中分类器处理的是两类问题,因此在训练中,使用2×2的代价矩阵C,具体如下:
实际为负类 实际为正类
预测为负类 C(0,0)=C<sub>00</sub> C(0,1)=C<sub>01</sub>
预测为正类 C(1,0)=C<sub>10</sub> C(1,1)=C<sub>11</sub>
这里,假设印刷文本行为正类,用ω1表示;手写文本行为负类,用ω0表示。因此,判断正确时的代价C11和C00都设置为0。当不考虑两类代价不同时,可以设置判断错误的代价C01=C10=1。而我们的问题是正类比负类更重要,因此设置了将正类误判为负类的代价更大,即C01&gt;C10。作为示例,可以设置C01=2,C10=1。注意,此处的代价的具体设置仅是示意性的,并且本领域技术人员可以选择任意适当的其他代价,只要满足C01&gt;C10即可。在这样设置代价之后,可以利用现有的各种代价敏感学习的方法来训练分类器。
在一个示例中,经过代价敏感学习训练而得到的示例分类器将样本判为正类的决策规则如下:
其中,p(x|ω1)、p(ω1)分别表示样本属于正类的似然概率和先验概率,p(x|ω0)、p(ω0)分别表示样本属于负类的似然概率和先验概率。这里,我们假设p(ω1)=p(ω0)=0.5,而p(x|ω1)、p(x|ω0)可以表示输入样本x的正态分布。
对公式(1)两边取自然对数,去掉x的二次项,再适当变形,则得到分类器输出:
其中,系数wT和b是经过训练得到的该线性分类器的参数。在本示例中,分类器输出的f(x)是负无穷到正无穷的实数,并且可以在f(x)&gt;0时判断为正类(第一类文本),否则判断为负类(第二类文本)。上述训练过程的具体细节可以参考现有的代价敏感学习训练分类器的技术获知,在此仅为了举例说明而进行了示意性的描述。
返回参考图7,将具体描述置信度获取装置20A中可选的非线性变换子装置205。非线性变换子装置205用于对训练好的分类器的输出进行阈值受限的非线性变换,以得到文本行为印刷文本行的置信度。在一个优选实施例中,所述非线性变换子装置205被配置为采用经典的Sigmoid函数进行所述阈值受限的非线性变换。
通过非线性变换子装置205的上述变换,可以将分类器204输出的分类结果变换为更加易于理解的置信度形式,并且便于后续处理。只要能将分类器204输出的分类结果变换为更加易于理解的置信度形式,可以采用各种合适的方法来对分类器204输出的分类结果进行转换,而不限于上述Sigmoid变换。例如,可以对分类器输出的f(x)采用下述非S型的变换函数g(f(x)):当f(x)&gt;0.5时,g(f(x))=1;当-0.5&lt;f(x)&lt;0.5时,g(f(x))=0.5+f(x);而当f(x)&lt;-0.5时,g(f(x))=0。
以上述示例分类器所输出的取值为负无穷到正无穷之间的实数的f(x)为例,如果对其采用经典的Sigmoid函数,则非线性变换子装置205的输出将是0到1之间的值,因此可以得到一种“伪概率”形式的置信度。此外,可以将诸如0.5作为置信度的阈值来判断文本行属于印刷还是手写文本,从而简单地将置信度大于0.5的文本行判断为印刷文本。
例如,以公式(2)得到的分类器输出f(x)为例,可以通过如下Sigmoid变换转换为置信度概率Prob(ω1|x):
其中,作为示例,参数α和β可以分别设置为1和0。注意,此处也可以采用反正切形式的Sigmoid变换,得到另一种形式的置信度概率:
Prob(ω1|x)=a+barctan(f(x)) (公式3’)
这里,与公式3中的参数α和β类似,公式3’中的参数a和b可以是经验值,或者经有限次试验确定。作为示例,参数a和b可以均设置为0.5。
以下参照图8至图9来描述根据本公开另一优选实施例的置信度获取装置20B。图8是示意性地示出根据本公开另一优选实施例的置信度获取装置的示例结构的框图。
如图8所示,置信度获取装置20B包括:混合判定子装置206,用于基于所述文本行是否满足预设的判定条件,判断所述文本行中是否存在黑底白字文本和白底黑字文本的混合。所述预设的判定条件包括以下中的至少一个:文本行中的连通部件的笔划宽度的方差大于预设的第一阈值;文本行中的连通部件的宽度的方差大于预设的第二阈值;文本行中的连通部件的宽度的均值大于预设的第三阈值;文本行中的连通部件的高度的均值大于预设的第四阈值;文本行中的连通部件之间的间隔均小于第五阈值;以及在长度方向上均匀分割文本行而得到的多个小块当中,各小块中的黑色像素所占比例的方差大于预设的第六阈值。
以下参照图9具体描述混合判定子装置206所利用的预设条件。图9示出了文本行中存在黑底白字文本和白底黑字文本的混合、即混合极性的文本行的示例。如该图所示,该文本行左侧为白底黑字的、上下颠倒的字符X和E,每个字母构成一个连通部件。该文本行右侧为黑底白字的、上下颠倒的多个字母“Globa”,其中作为该字符的背景的黑色像素构成了多个连通部件。这里,图9中文本行的向下的朝向仅仅是示例性的,并且可以是任意的其他朝向。
在混合判定子装置206中考虑的各个判定条件从不同的方面考虑了混合极性的文本行的结构特征。例如,如图9所示,由于混合极性的文本行中的连通部件实际上既包括了黑底白字文本中的字符、也包括了白底黑字文本中的字符的背景,因此一些判定条件利用了这些连通部件的结构特征的差异性较大的特点。例如,上述涉及第一、第二阈值的判定条件利用了混合极性的文本行中的连通部件的宽度的方差以及连通部件的笔划宽度的方差都较大的特点。
可以利用现有技术中的各种方法来计算连通部件的笔划宽度。例如,可以计算连通部件的黑色水平游程(horizontal run-length)的均值或黑色竖直游程(vertical run-length)的均值,作为连通部件的笔划宽度。
类似地,由于既包括“字符”又包括“字符的背景”,因此混合极性的文本行中的连通部件高度的均值和宽度的均值也都较大。上述涉及第三、第四阈值的判定条件即利用混合极性的文本行中的这些特点。类似地,如果在长度方向上均匀分割混合极性的文本行而得到多个小块,则在这些小块之间(或者从全部小块随机选取的若干个小块之间),各小块中的黑色像素所占比例的方差也会较大;上述涉及第六阈值的判定条件即利用混合极性的文本行的这一特点。此外,混合极性的文本行的文字块数可能仅为1,即由于“字符”与“字符的背景”之间间隔很小,导致文本行中的各个连通部件之间的间隔均较小;上述涉及第五阈值的判定条件即利用混合极性的文本行的这一特点。
根据上述预设判定条件,本优选实施例中的混合判定子装置206能够基于混合极性的文本行中的连通部件的结构特征来判断出文本行中是否存在混合极性的文本,以供后续处理参考。
基于所述混合判定子装置206的判断结果,置信度获取装置20B可以将存在所述混合的文本行的所述置信度设置为低于不存在所述混合的文本行的所述置信度。
例如,对于字符识别而言,现有的OCR引擎对于混合极性的印刷文本行的性能较差,因此如果利用混合判定子装置206将这种印刷文本行进一步鉴别出来,将其置信度设置得较低,则可以降低其应用的顺序或优先级,或者不将这种印刷文本行用于OCR引擎。例如,当文本行的数量极少时,可以降低混合极性的印刷文本行的应用顺序或优先级,而当文本行的数量较多时,则可以直接放弃应用这样的印刷文本行。因此,可以改进后续处理的性能。
以下将参照图10至图11描述根据本公开优选实施例的排序装置。图10是示意性地示出根据本公开优选实施例的排序装置的一种示例结构的框图。
如图10所示,排序装置30包括:第一排序子装置301,用于根据所述文本行的长度、所述文本行的高度、与所述文本行对应的灰度图片的纹理分析响应强度、及所述灰度图片的灰度对比度中的至少一个,对各所述文本行进行初始排序;以及第二排序子装置302,用于根据所述第一排序子装置301对各所述文本行的初始排序结果以及各所述文本行的、与第一类文本相关的置信度,对各所述文本行中包含的文本的质量进行排序。
第一排序子装置301进行的初始排序可以实现从所提取的文本行中进一步剔除内容为图像的图片行的目的。例如,相较于内容为图像的图片行,与文本行对应的灰度图片的对比度更大。而且,与文本行对应的灰度图片的纹理分析响应强度也不同于内容为图像的图片行的纹理分析响应强度。
优选地,第一排序子装置301可以配置为根据所述文本行的高度、所述纹理分析响应强度、及所述灰度对比度的乘积来对各所述文本行进行初始排序。例如,第一排序子装置301可以将上述乘积作为初始得分S0,并基于该初始得分S0进行初始排序。
此后,第二排序子装置302可以根据上述初始排序以及以上描述置信度获取装置20时所讨论的置信度,对各文本行进行再次排序。例如,第二排序子装置302可以通过将初始得分S0与置信度获取装置20获取的置信度相乘、将初始得分S0与该置信度加权求和、或者将初始得分S0与该置信度进行其他非线性组合计算,来得到最终的排序得分S1,然后基于最终的排序得分S1来对各文本行进行再次排序。
图11示意性地示出了第一排序子装置301和第二排序子装置302各自的排序结果。图11中的(a)为第一排序子装置301的初始排序结果,可以看出将混合极性的印刷文本行以及手写文本行分别排在第一、第二位。图11中的(b)为第二排序子装置302的最终排序结果,可以看出将非混合极性的白底黑字的印刷文本行排在最前,手写文本行排在较后位置,并将混合极性的印刷文本行排在最后。与初始排序结果相比,根据本公开的优选实施例的最终排序结果可以利于剔除混合极性的印刷文本行,并且能够将黑底白字的印刷文本行排在手写文本行之前。
从以上的描述中可以看出,利用本公开实施例,在文档图像处理中,基于从文档图像中提取的文本行的结构特征,从文本行本身的属性的角度考虑了文本的质量,从而更全面地衡量文档图像中的文本的质量,并改进文本质量排序的准确性。此外,在考虑文本行本身的属性时,引入了不同类文本的相对重要性程度,使得可以针对后续处理对不同类文本的偏好来有针对性地考察文本行的属性以及进行相应的排序。
根据本公开的另一方面,提供了一种确定文档图像的朝向的设备。以下参照图12描述该设备。图12是示意性地示出了根据本公开实施例的确定文档图像的朝向的设备的示例结构的框图。
如图12所示,确定文档图像的朝向的设备1200包括:根据本公开实施例的文档处理装置1,被配置为对文档图像中的文本行所包含的文本的质量进行排序;以及朝向判断装置2,用于根据由所述文档处理装置获得排序结果,按照文本质量的降序,利用经过排序的预设数量的文本行来对所述文档图像的朝向进行判断。
由于利用文档处理装置1而获得了改进的文本行排序结果,因此上述确定文档图像的朝向的设备1200能够基于数量更少的文本行、获得更准确的文档朝向判断结果。例如,以图11所示的印刷文本行、手写文本行、混合极性文本行为例,由于文档处理装置1能够如图11中的(b)那样将质量最高的印刷文本行排在最前,因此,根据本公开实施例的确定文档图像的朝向的设备1200可以仅仅处理前两三个文本行就准确地判断出文档图像的朝向。
在一个优选实施例中,还可以将上述设备中的朝向判断装置2配置为:对于存在黑底白字和白底黑字的混合的文本行,不将其用于进行文档朝向的判断。这样,完全剔除了混合极性文本行带来误判的可能性。
根据本公开的又一方面,提供了一种文档处理方法。以下参照图13至图16描述根据本公开实施例的文档处理方法。图13示出了根据本公开实施例的文档处理方法的示例流程。如图13所示,文档处理方法包括:提取步骤S1301,从文档图像中提取出至少一个文本行;置信度获取步骤S1303,根据所提取的至少一个文本行的结构特征,获取所述文本行的、与第一类文本相关的置信度,所述置信度表示所述第一类文本相对于第二类文本的重要性程度;以及排序步骤S1305,至少根据所述置信度,对所述至少一个文本行中包含的文本的质量进行排序。
提取步骤S1301例如可以包括以上参照图4描述的提取装置10中进行的各种处理。置信度获取步骤S1303例如可以包括以上参照图5至图9描述的置信度获取装置20A和置信度获取装置20B中进行的各种处理。排序步骤S1305例如可以包括以上参照图10至图11描述的排序装置30中进行的各种处理。具体细节在此不再赘述。
图14示出了根据本公开实施例的文档处理方法中的提取步骤的示例流程。如图14中所示,提取步骤可以包括:极性判断步骤S1401,基于从所述文档图像中提取出的至少一个文本行中的黑色像素的比例来判断所述文本行是否为黑底白字文本;以及反转或抛弃步骤S1403,当判断所述文本行为黑底白字文本时,对所述文本行进行反转处理或抛弃所述文本行。上述步骤S1401、S1403的细节例如可以包括以上参照图4描述的提取装置10中的极性判断子装置101、反转处理子装置102、抛弃处理子装置103中进行的各种处理,这里不再进行重复描述。
图15示出了根据本公开实施例的文档处理方法中的置信度获取步骤的示例流程。如图15中所示,置信度获取步骤可以包括:文本行划分步骤S1501,根据所述文本行中的连通部件之间的间隔信息,将所述文本行划分为至少一个文字块;结构特征计算步骤S1503,计算所述文本行的各文字块的至少一维的结构特征,其中所述文字块的至少一维的结构特征包括:文字块的连通部件的倾斜度的方差;以及平均值计算步骤S1505,分别针对各维的所述文字块的结构特征,计算各所述文字块的结构特征的平均值,将其作为所述文本行的结构特征。上述步骤S1501至步骤S1505的细节例如可以包括以上参照图5描述的置信度获取装置20A中的文本行划分子装置201、结构特征计算子装置202、平均值计算子装置203中进行的各种处理,这里不再进行重复描述。
另外,在一个优选示例中,所述文字块的至少一维的结构特征例如还可以包括:文字块中的连通部件的经典的全局形状特征,和/或,文字块中的连通部件的经典的局部形状特征。这里讨论的文字块中的连通部件的经典的全局或局部形状特征例如可以与参照图5描述的置信度获取装置20A中的结构特征计算子装置202的上下文中所讨论的文字块中的连通部件的经典的全局或局部形状特征相同,在此不进行详细描述。
图16示出了根据本公开实施例的文档处理方法中的置信度获取步骤的另一示例流程。如图16中所示,置信度获取步骤可以包括:混合判定步骤S1601,基于所述文本行是否满足预设的判定条件,判断所述文本行中是否存在黑底白字文本和白底黑字文本的混合;置信度设置步骤S1603,基于所述判断的结果,将存在所述混合的文本行的所述置信度设置为低于不存在所述混合的文本行的所述置信度。这里,预设的判定条件例如可以与参照图8描述的置信度获取装置20B中的混合判定子装置206中所使用的判定条件相同,在此不进行详细描述。并且,上述步骤S1601、S1603的细节例如可以包括以上参照图8描述的置信度获取装置20B中进行的各种处理,这里不再进行重复描述。
根据本公开的又一方面,提供了一种确定文档图像的朝向的方法。图17示出了根据本公开实施例的确定文档图像的朝向的方法的示例流程。如图17中所示,根据本公开实施例的确定文档图像的朝向的方法可以包括:排序步骤S1701,采用根据本公开实施例的文档处理装置,对文档图像中的文本行所包含的文本的质量进行排序;文档朝向判断步骤S1703,根据由所述文档处理装置获得的排序结果,按照文本质量的降序,利用经过排序的预设数量的文本行来对所述文档图像的朝向进行判断。上述步骤S1701、S1703的细节例如可以包括以上参照图12描述的确定文档图像的朝向的设备1200中的文档处理装置1、朝向判断装置2中进行的各种处理,这里不再进行重复描述。
上述根据本公开的实施例的文档处理装置(例如图1中所示的文档处理装置)以及确定文档图像的朝向的设备(例如图12中所示的确定文档图像的朝向的设备)及其中的各个组成部分可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的机器安装构成该软件或固件的程序,该机器在安装有各种程序时,能够执行上述各组成部分的各种功能。
图18是示出了可用来实现根据本公开的实施例的文档处理装置和方法的一种可能的文档处理装置的硬件配置的结构简图。
在图18中,中央处理单元(CPU)1801根据只读存储器(ROM)1802中存储的程序或从存储部分1808加载到随机存取存储器(RAM)1803的程序执行各种处理。在RAM1803中,还根据需要存储当CPU 1801执行各种处理等等时所需的数据。CPU1801、ROM 1802和RAM 1803经由总线1804彼此连接。输入/输出接口1805也连接到总线1804。
下述部件也连接到输入/输出接口1805:输入部分1806(包括键盘、鼠标等等)、输出部分1807(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1808(包括硬盘等)、通信部分1809(包括网络接口卡例如LAN卡、调制解调器等)。通信部分1809经由网络例如因特网执行通信处理。根据需要,驱动器1810也可连接到输入/输出接口1805。可拆卸介质1811例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1810上,使得从中读出的计算机程序可根据需要被安装到存储部分1808中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质1811安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图18所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1811。可拆卸介质1811的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1802、存储部分1808中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
此外,本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时,可执行上述根据本公开的实施例的文档处理方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。
在上面对本公开具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
此外,本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。
此外,显然,根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本公开的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该系统或者设备具有执行程序的功能,则本公开的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,客户信息处理终端通过连接到因特网上的相应网站,并且将依据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程序,也可以实现本公开的各实施例。
综上,在根据本公开的实施例中,本公开提供了如下方案,但不限于此:
方案1、一种文档处理装置,包括:
提取装置,用于从文档图像中提取出至少一个文本行;
置信度获取装置,用于根据由所述提取装置提供的文本行的结构特征,获取所述文本行的、与第一类文本相关的置信度,所述置信度表示所述第一类文本相对于第二类文本的重要性程度;以及
排序装置,用于至少根据所述置信度,对所述至少一个文本行中包含的文本的质量进行排序。
方案2、如方案1所述的文档处理装置,其中,
所述置信度获取装置包括:混合判定子装置,用于基于所述文本行是否满足预设的判定条件,判断所述文本行中是否存在黑底白字文本和白底黑字文本的混合,
其中,所述预设的判定条件包括以下中的至少一个:
文本行中的连通部件的笔划宽度的方差大于预设的第一阈值;
文本行中的连通部件的宽度的方差大于预设的第二阈值;
文本行中的连通部件的宽度的均值大于预设的第三阈值;
文本行中的连通部件的高度的均值大于预设的第四阈值;
文本行中的连通部件之间的间隔均小于第五阈值;以及
在长度方向上均匀分割文本行而得到的多个小块当中,各小块中的黑色像素所占比例的方差大于预设的第六阈值。
方案3、如方案2所述的文档处理装置,其中,
所述置信度获取装置被配置为:基于所述混合判定子装置的判断结果,将存在所述混合的文本行的所述置信度设置为低于不存在所述混合的文本行的所述置信度。
方案4、如方案1所述的文档处理装置,其中,所述提取装置包括:
极性判断子装置,用于基于从所述文档图像中提取出的至少一个文本行中的黑色像素的比例来判断所述文本行是否为黑底白字文本;以及
反转处理子装置,所述反转处理子装置被配置为:当所述极性判断子装置判断所述文本行为黑底白字文本时,将所述文本行反转为白底黑字文本,以将经反转的文本行提供给所述置信度获取装置;和/或
抛弃处理子装置,所述抛弃处理子装置被配置为:当所述极性判断子装置判断所述文本行为黑底白字文本时,抛弃所述文本行,以不将其提供给所述置信度获取装置。
方案5、如方案1所述的文档处理装置,其中,
所述置信度获取装置包括:结构特征计算子装置,用于计算所述文本行的至少一维的结构特征,其中所述文本行的至少一维的结构特征包括文本行中的连通部件的倾斜度的方差。
方案6、如方案1所述的文档处理装置,其中,所述置信度获取装置包括:文本行划分子装置:用于根据所述文本行中的连通部件之间的间隔信息,将所述文本行划分为至少一个文字块;
结构特征计算子装置,用于计算所述文本行的各文字块的至少一维的结构特征,其中所述文字块的至少一维的结构特征包括:文字块的连通部件的倾斜度的方差;以及
平均值计算子装置,用于分别针对各维的所述文字块的结构特征,计算各所述文字块的结构特征的平均值,将其作为所述文本行的结构特征。
方案7、如方案6所述的文档处理装置,其中,所述文字块的至少一维的结构特征还包括:文字块中的连通部件的经典的全局形状特征,和/或,文字块中的连通部件的经典的局部形状特征。
方案8、如方案1所述的文档处理装置,其中,所述排序装置包括:
第一排序子装置,用于根据所述文本行的长度、所述文本行的高度、与所述文本行对应的灰度图片的纹理分析响应强度、及所述灰度图片的灰度对比度中的至少一个,对各所述文本行进行初始排序;以及
第二排序子装置,用于根据所述第一排序子装置对各所述文本行的初始排序结果以及各所述文本行的、与第一类文本相关的置信度,对各所述文本行中包含的文本的质量进行排序。
方案9、如方案8所述的文档处理装置,其中,所述第一排序子装置被配置为根据所述文本行的高度、所述纹理分析响应强度、及所述灰度对比度的乘积来对各所述文本行进行初始排序。
方案10、如方案5或6所述的文档处理装置,其中,所述第一类文本是印刷文本,所述第二类文本是手写文本,所述置信度获取装置还包括基于代价敏感学习而训练好的分类器,并且所述置信度获取装置被配置为根据所述文本行的结构特征,利用所述训练好的分类器来获取所述置信度,
其中,所述分类器是通过如下方式训练得到的:
获取多个印刷文本行和手写文本行的样本;以及
利用所述样本的结构特征进行训练以得到所述分类器,其中所述分类器在训练阶段的代价设定被构建为使得将印刷文本行误判为手写文本行的代价高于将手写文本行误判为印刷文本行的代价,以及其中,对所述分类器进行训练时所提取的样本的结构特征、与在对文档图像进行处理时计算的所述至少一维的结构特征是同类的。
方案11、如方案10所述的文档处理装置,其中,所述置信度获取装置还包括:
非线性变换子装置,用于对所述训练好的分类器的输出进行阈值受限的非线性变换,以得到所述文本行为印刷文本行的置信度。
方案12、如方案11所述的文档处理装置,其中所述非线性变换子装置被配置为采用经典的Sigmoid函数进行所述阈值受限的非线性变换。
方案13、一种确定文档图像的朝向的设备,包括:
如方案1-12任一项所述的文档处理装置,被配置为对文档图像中的文本行所包含的文本的质量进行排序;以及
朝向判断装置,用于根据由所述文档处理装置获得排序结果,按照文本质量的降序,利用经过排序的预设数量的文本行来对所述文档图像的朝向进行判断。
方案14、如方案13所述的设备,其中
所述朝向判断装置被配置为:对于存在黑底白字和白底黑字的混合的文本行,不将其用于进行文档朝向的判断。
方案15、一种文档处理方法,包括:
从文档图像中提取出至少一个文本行;
根据所提取的至少一个文本行的结构特征,获取所述文本行的、与第一类文本相关的置信度,所述置信度表示所述第一类文本相对于第二类文本的重要性程度;以及
至少根据所述置信度,对所述至少一个文本行中包含的文本的质量进行排序。
方案16、如方案15所述的文档处理方法,还包括:
基于所述文本行是否满足预设的判定条件,判断所述文本行中是否存在黑底白字文本和白底黑字文本的混合,
其中,所述预设的判定条件包括以下中的至少一个:
文本行中的连通部件的笔划宽度的方差大于预设的第一阈值;
文本行中的连通部件的宽度的方差大于预设的第二阈值;
文本行中的连通部件的宽度的均值大于预设的第三阈值;
文本行中的连通部件的高度的均值大于预设的第四阈值;
文本行中的连通部件之间的间隔均小于第五阈值;以及
在长度方向上均匀分割文本行而得到的多个小块当中,各小块中的黑色像素所占比例的方差大于预设的第六阈值。
方案17、如方案16所述的文档处理方法,还包括:
基于所述判断的结果,将存在所述混合的文本行的所述置信度设置为低于不存在所述混合的文本行的所述置信度。
方案18、如方案15所述的文档处理方法,还包括:
基于从所述文档图像中提取出的至少一个文本行中的黑色像素的比例来判断所述文本行是否为黑底白字文本,以及
当判断所述文本行为黑底白字文本时,对所述文本行进行反转处理或抛弃所述文本行。
方案19、如方案15所述的文档处理方法,其中,获取所述置信度包括:
根据所述文本行中的连通部件之间的间隔信息,将所述文本行划分为至少一个文字块;
计算所述文本行的各文字块的至少一维的结构特征,其中所述文字块的至少一维的结构特征包括:文字块的连通部件的倾斜度的方差;以及
分别针对各维的所述文字块的结构特征,计算各所述文字块的结构特征的平均值,将其作为所述文本行的结构特征。
方案20、如方案19所述的文档处理方法,其中,所述文字块的至少一维的结构特征还包括:文字块中的连通部件的经典的全局形状特征,和/或,文字块中的连通部件的经典的局部形状特征。
最后,还需要说明的是,在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露,但是,应该理解,本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。

Claims (9)

1.一种文档处理装置,包括:
提取装置,用于从文档图像中提取出至少一个文本行;
置信度获取装置,用于根据由所述提取装置提供的文本行的结构特征,获取所述文本行的、与第一类文本相关的置信度,所述置信度表示所述第一类文本相对于第二类文本的重要性程度;以及
排序装置,用于至少根据所述置信度,对所述至少一个文本行中包含的文本的质量进行排序,
其中,所述置信度获取装置包括:混合判定子装置,用于基于所述文本行是否满足预设的判定条件,判断所述文本行中是否存在黑底白字文本和白底黑字文本的混合,并且
其中,所述置信度获取装置被配置为:基于所述混合判定子装置的判断结果,将存在所述混合的文本行的所述置信度设置为低于不存在所述混合的文本行的所述置信度。
2.如权利要求1所述的文档处理装置,其中,所述预设的判定条件包括以下中的至少一个:
文本行中的连通部件的笔划宽度的方差大于预设的第一阈值;
文本行中的连通部件的宽度的方差大于预设的第二阈值;
文本行中的连通部件的宽度的均值大于预设的第三阈值;
文本行中的连通部件的高度的均值大于预设的第四阈值;
文本行中的连通部件之间的间隔均小于第五阈值;以及
在长度方向上均匀分割文本行而得到的多个小块当中,各小块中的黑色像素所占比例的方差大于预设的第六阈值。
3.如权利要求1所述的文档处理装置,其中,所述提取装置包括:
极性判断子装置,用于基于从所述文档图像中提取出的至少一个文本行中的黑色像素的比例来判断所述文本行是否为黑底白字文本;以及
反转处理子装置,所述反转处理子装置被配置为:当所述极性判断子装置判断所述文本行为黑底白字文本时,将所述文本行反转为白底黑字文本,以将经反转的文本行提供给所述置信度获取装置;和/或
抛弃处理子装置,所述抛弃处理子装置被配置为:当所述极性判断子装置判断所述文本行为黑底白字文本时,抛弃所述文本行,以不将其提供给所述置信度获取装置。
4.如权利要求1所述的文档处理装置,其中,
所述置信度获取装置还包括:结构特征计算子装置,用于计算所述文本行的至少一维的结构特征,其中所述文本行的至少一维的结构特征包括文本行中的连通部件的倾斜度的方差。
5.如权利要求1所述的文档处理装置,其中,所述置信度获取装置还包括:
文本行划分子装置,用于根据所述文本行中的连通部件之间的间隔信息,将所述文本行划分为至少一个文字块;
结构特征计算子装置,用于计算所述文本行的各文字块的至少一维的结构特征,其中所述文字块的至少一维的结构特征包括:文字块的连通部件的倾斜度的方差;以及
平均值计算子装置,用于分别针对各维的所述文字块的结构特征,计算各所述文字块的结构特征的平均值,将其作为所述文本行的结构特征。
6.如权利要求1所述的文档处理装置,其中,所述排序装置包括:
第一排序子装置,用于根据所述文本行的长度、所述文本行的高度、与所述文本行对应的灰度图片的纹理分析响应强度、及所述灰度图片的灰度对比度中的至少一个,对各所述文本行进行初始排序;以及
第二排序子装置,用于根据所述第一排序子装置对各所述文本行的初始排序结果以及各所述文本行的、与第一类文本相关的置信度,对各所述文本行中包含的文本的质量进行排序。
7.如权利要求4或5所述的文档处理装置,其中,所述第一类文本是印刷文本,所述第二类文本是手写文本,所述置信度获取装置还包括基于代价敏感学习而训练好的分类器,并且所述置信度获取装置被配置为根据所述文本行的结构特征,利用所述训练好的分类器来获取所述置信度,
其中,所述分类器是通过如下方式训练得到的:
获取多个印刷文本行和手写文本行的样本;以及
利用所述样本的结构特征进行训练以得到所述分类器,其中所述分类器在训练阶段的代价设定被构建为使得将印刷文本行误判为手写文本行的代价高于将手写文本行误判为印刷文本行的代价,以及其中,对所述分类器进行训练时所提取的样本的结构特征、与在对文档图像进行处理时计算的所述至少一维的结构特征是同类的。
8.一种确定文档图像的朝向的设备,包括:
如权利要求1-7任一项所述的文档处理装置,被配置为对文档图像中的文本行所包含的文本的质量进行排序;以及
朝向判断装置,用于根据由所述文档处理装置获得的排序结果,按照文本质量的降序,利用经过排序的预设数量的文本行来对所述文档图像的朝向进行判断。
9.一种文档处理方法,包括:
从文档图像中提取出至少一个文本行;
根据所提取的至少一个文本行的结构特征,获取所述文本行的、与第一类文本相关的置信度,所述置信度表示所述第一类文本相对于第二类文本的重要性程度;以及
至少根据所述置信度,对所述至少一个文本行中包含的文本的质量进行排序,
其中,获取所述置信度包括:基于所述文本行是否满足预设的判定条件,判断所述文本行中是否存在黑底白字文本和白底黑字文本的混合,并且
其中,基于对是否存在所述混合的判断结果,将存在所述混合的文本行的所述置信度设置为低于不存在所述混合的文本行的所述置信度。
CN201410261004.5A 2014-06-12 2014-06-12 文档处理装置、方法以及确定文档图像的朝向的设备 Active CN105335372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410261004.5A CN105335372B (zh) 2014-06-12 2014-06-12 文档处理装置、方法以及确定文档图像的朝向的设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410261004.5A CN105335372B (zh) 2014-06-12 2014-06-12 文档处理装置、方法以及确定文档图像的朝向的设备

Publications (2)

Publication Number Publication Date
CN105335372A CN105335372A (zh) 2016-02-17
CN105335372B true CN105335372B (zh) 2019-01-22

Family

ID=55285915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410261004.5A Active CN105335372B (zh) 2014-06-12 2014-06-12 文档处理装置、方法以及确定文档图像的朝向的设备

Country Status (1)

Country Link
CN (1) CN105335372B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485211B (zh) * 2016-09-26 2019-05-21 西安交通大学 一种基于二叉树的文本行精确定位方法
JP7139737B2 (ja) * 2018-07-10 2022-09-21 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム
CN111507267B (zh) * 2020-04-17 2023-05-26 北京百度网讯科技有限公司 文档朝向检测方法、装置、设备以及存储介质
CN113537192B (zh) * 2021-06-30 2024-03-26 北京百度网讯科技有限公司 图像检测方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413342A (zh) * 2013-07-25 2013-11-27 南京师范大学 一种基于像素点的图像文字渐变方法
CN103455806A (zh) * 2012-05-31 2013-12-18 富士通株式会社 文档处理装置、文档处理方法以及扫描仪

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8014603B2 (en) * 2007-08-30 2011-09-06 Xerox Corporation System and method for characterizing handwritten or typed words in a document

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455806A (zh) * 2012-05-31 2013-12-18 富士通株式会社 文档处理装置、文档处理方法以及扫描仪
CN103413342A (zh) * 2013-07-25 2013-11-27 南京师范大学 一种基于像素点的图像文字渐变方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
类别不平衡和误分类代价不等的数据集分类方法及应用;唐明珠;《中国博士学位论文全文数据库信息科技辑》;20130215(第02期);第92-104页

Also Published As

Publication number Publication date
CN105335372A (zh) 2016-02-17

Similar Documents

Publication Publication Date Title
KR102106462B1 (ko) 가중치 기반의 유사 문제 필터링 방법
US11816165B2 (en) Identification of fields in documents with neural networks without templates
CN113033249A (zh) 文字识别方法、装置、终端及其计算机存储介质
CN104463101B (zh) 用于文字性试题的答案识别方法及系统
CN111950528B (zh) 图表识别模型训练方法以及装置
US20190294921A1 (en) Field identification in an image using artificial intelligence
US20150036920A1 (en) Convolutional-neural-network-based classifier and classifying method and training methods for the same
CN106446896A (zh) 一种字符分割方法、装置及电子设备
CN110196893A (zh) 基于文本相似度的非主观题阅卷方法、装置及存储介质
CN103679190B (zh) 分类装置、分类方法以及电子设备
CN105335372B (zh) 文档处理装置、方法以及确定文档图像的朝向的设备
CN109300111A (zh) 一种基于深度学习的染色体识别方法
RU2760471C1 (ru) Способы и системы идентификации полей в документе
CN105930834A (zh) 基于球哈希二值编码的人脸识别方法及装置
CN111475613A (zh) 案件分类方法、装置、计算机设备及存储介质
CN112418224B (zh) 一种基于机器学习的通用ocr的训练数据生成系统及方法
CN109284374A (zh) 用于确定实体类别的方法、装置、设备以及计算机可读存储介质
CN105989341A (zh) 文字识别方法和装置
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
CN110458600A (zh) 画像模型训练方法、装置、计算机设备及存储介质
CN113312899A (zh) 文本分类方法、装置和电子设备
US20140241618A1 (en) Combining Region Based Image Classifiers
CN108288061A (zh) 一种基于mser快速在自然场景中定位倾斜文本的方法
CN111652141A (zh) 基于题号和文本行的题目分割方法、装置、设备和介质
CN109710940A (zh) 一种文章立意的分析及文章评分方法、装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant