背景技术
在信息化高速发展的背景下,电子文档组织的效率成为了用户浏览和查找信息时候的重要影响因素,故文档分类一直以来都是人们所关注的重点问题。如何高效地从电子文档中自动抽取信息并完成分类,已成为数字出版物制作系统的一个亟待解决的问题。且信息检索的准确率也很大程度取决于文档分类的结果。最开始的分类过程是人工完成,但随着文本文档资源的日益增多,自动化分类的需求愈发明显。
在电子文档自动分类过程中,会遇到一种特殊的文档,即电子扫描文档,这类文档至少包含一个占页面面积较大比例的图像对象。
电子扫描文档的用途十分广泛。最典型的就是用于记录一些原版的易损坏的珍贵资料,如古籍,除此之外还可以用于特定场景的重现等。未经其它处理的直接扫描文档每页可能只含有一张占页面比例较大的图像对象,这种电子文档是单层的。电子扫描文档还有经过后期处理的情况,如OCR(Optical CharacterRecognition,光学字符识别)和手工修正,这样的电子扫描文档是多层的。根据文档内文字对象和图像对象的特点,可以将版式电子扫描文档初步预分类为层次不同的以下几种:
1、单层电子扫描文档:在版式电子扫描文档中,每页中图像对象的面积占页面面积的平均比例较大。
2、多层电子扫描文档(包括双层):在版式电子文档中,每页中最大图像的面积占页面面积的平均比例较大的文档。
本申请发明人在实现本申请实施例技术方案的过程中,至少发现现有技术中存在如下技术问题:
目前已经有许多电子文档自动分类的方法,其应用于邮件分类、司法意见分配、互联网以及一些其他个性化的用户服务中。分类方法以机器学习和数据挖掘为主,还涉及到文本关键词词频、综合分数计算等。但是对于电子扫描文档来说,目前只能通过计算页面图像块在整个页面中所占的比例来进行初步确识别,这种方法只能适用于单层电子扫描文档的识别,显然无法满足需求。
发明内容
本发明实施例提供一种文档识别方法及装置,用于实现文档的识别,提高文档自动分类的效率及准确率。
一种电子文档识别方法,包括以下步骤:
根据电子文档获得各文档参数;
根据所述各文档参数获得用于识别所述电子文档的各特征值;
根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档;
如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;
如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。
一种电子文档识别装置,包括:
获取模块,用于根据电子文档获得各文档参数;
处理模块,用于根据所述各文档参数获得用于识别文档的各特征值;
第一确定模块,用于根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档,及如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;
第二确定模块,用于如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。
本发明实施例中的文档识别方法为根据电子文档获得各文档参数;根据所述各文档参数获得用于识别所述电子文档的各特征值;根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档;如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。首先根据文档获得各文档参数,根据所述参数获取特征值,根据所述特征值确定所述文档具体是单层文档、双层文档或多层文档,确定之后再根据所述特征值确定所述文档是否为电子扫描文档,从而提供了一种确定电子扫描文档的方法,可以有效确定单层、双层或多层文档是否为电子扫描文档,操作方便,结果较为准确,较大地提高了海量文档自动分类的效率及准确率。
具体实施方式
本发明实施例中的文档识别方法为根据电子文档获得各文档参数;根据所述各文档参数获得用于识别所述电子文档的各特征值;根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档;如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。首先根据文档获得各文档参数,根据所述参数获取特征值,根据所述特征值确定所述文档具体是单层文档、双层文档或多层文档,确定之后再根据所述特征值确定所述文档是否为电子扫描文档,从而提供了一种确定电子扫描文档的方法,可以有效确定单层、双层或多层文档是否为电子扫描文档,操作方便,结果较为准确,较大地提高了海量文档自动分类的效率及准确率。
参见图1,本发明实施例中的文档识别装置包括获取模块101、处理模块102、第一确定模块103和第二确定模块104。
获取模块101用于根据电子文档获得各文档参数。一个电子文档可以包括多个页面。在整个电子文档中,所述文档参数至少包括:根据每页电子文档都可以直接获得的一系列的对象、每个对象的索引(Index)、整个页面的绘制区参数(例如可以是整个页面的绘制区宽度(wide)和高度(height)),对于每个对象,也可以得到其绘制区参数(例如可以是绘制区宽度和高度),其中绘制区可以是矩形。本发明实施例中所述对象至少可以包括图像对象和文字对象,还可以包括路径对象、底纹、渐变等。且获取模块101可以从每页的对象中筛选出图像对象,再根据每个图像对象的绘制区参数得到每页中占用绘制区面积最大的图像对象以及其所对应的最大面积,以Simage表示,且记录此最大图像对象在该页的对象流中的索引(mark)。获取模块101还可以根据每页的绘制区参数获得整个文档中每页的页面面积,以Spage表示。其中,面积计算公式为:S=wide*height。除此之外,还可得到整个文档的页码数,以T1表示。
处理模块102用于根据所述各文档参数获得用于识别所述电子文档的各特征值。
一、每页所含的最大图像对象的面积占页面面积的平均比例,以T2表示。
计算公式如下:
如果某页中不包含图像对象,则该页中Simage÷Spage的值为零。如果某页中有两个或两个以上的图像对象面积相等,且最大,则任取其中一个图像对象计算其面积即可。
二、每页中绘制顺序位于该页中最大图像之前、且其绘制区真包含于所述最大图像的绘制区的所有对象,在整个文档中其绘制区面积占最大图像面积的平均比例,以T3表示。
计算方法:在一页文档中,当一对象满足条件Index<mark,并且此对象的绘制区真包含于该页中最大图像对象的绘制区,即该对象的绘制区位于该页中最大图像对象的绘制区之内,一页中该对象的绘制区面积以Smark-pre表示,将整个文档中此类对象的绘制区面积进行累加。T3的计算方法如下:
三、每页中绘制顺序位于该页中最大图像之后、且其绘制区真包含于所述最大图像内的绘制区的所有可见对象,在整个文档中其绘制区面积占最大图像面积的平均比例,以T4表示。
计算方法:在一页文档中,当一对象满足条件Index>mark,并且此对象的绘制区真包含于该页中最大图像的绘制区,且该对象为可见对象,一页中该对象的绘制区面积以Smark-aft-visible表示,将整个文档中此类对象的绘制区面积进行累加。T4的计算方法如下:
四、每页中绘制顺序位于该页中最大图像之后、且其绘制区真包含于该页中最大图像的绘制区,且该对象为不可见对象,在整个文档中其绘制区面积占最大图像面积的平均比例,以T5表示。
计算方法:在一页文档中,当一对象满足条件Index>mark,并且此对象的绘制区真包含于该页中最大图像的绘制区,且该对象为不可见对象,一页中该对象的面积以Smark-aft-invisible表示,将整个文档中此类对象的绘制区面积进行累加。T5的计算方法如下:
五、每页中最大图像绘制区和文字对象绘制区的公共部分中,浅色像素点占此公共部分总像素点数的平均比例,以T6表示。
计算方法:一种方法可以是,将页面中的最大图像进行灰度化,再用最大类间方差法将其二值化,以此最大图像的绘制区作为标准,分别累加计算每页中包含于此绘制区中的文字对象绘制区中白色像素点的个数(以White表示)和黑白像素点的总数(以Total表示)。
六、每页中最大图像绘制区内和非文字对象绘制区的公共部分中,浅色像素点占此部分总像素点数的平均比例,以T7表示。
计算方法:一种方法可以是,将页面中的最大图像进行灰度化,再用最大类间方差法将其二值化,以此最大图像对象的绘制区作为标准,分别累加计算每页中包含于此绘制区中的非文字对象绘制区中白色像素点的个数(以White表示)和黑白像素点的总数(以Total表示)。
最终得到版式文档的特征域为U={T1,T2,T3,T4,T5,T6,T7}。
第一确定模块103用于根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档,及如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档。
例如,可以首先判断T2的值,确定T2是否不小于第一设定值,例如该第一设定值可以是50,即T2≥50。如果确定T2≥50,则继续判断T3的值,如果T3的值小于第二设定值,例如,该第二设定值可以是0.001,即无穷小,则确定该电子文档为单层电子文档或双层电子文档。设TW=T4+T5,所述第一预设条件是指TW的值小于所述第二设定值。如果TW的值小于所述第二设定值,即所述电子文档满足所述第一预设条件,则确定所述电子文档为单层电子扫描文档,如果TW的值不小于所述第二设定值,则确定所述电子文档为双层电子文档。
在上述步骤中,如果T3的值不小于所述第二设定值,则确定所述电子文档为双层电子文档或多层电子文档,可以继续判断TW的值。如果TW的值小于所述第二设定值,则确定所述电子文档为双层电子文档,如果TW的值不小于所述第二设定值,则确定所述电子文档为多层电子文档。本发明实施例中,多层电子文档是指层数大于2的电子文档。
第二确定模块104用于如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。
如果确定所述电子文档为双层电子文档,则第二确定模块104可以继续确定所述双层电子文档是否满足第二预设条件。其中,所述第二预设条件可以是:第三设定值<T6<第四设定值,且T7≥T6,其中,本发明实施例中所述第三设定值可以是60.0,所述第四设定值可以是90.0。如果所述双层电子文档满足所述第二预设条件,则确定所述双层电子文档为双层电子扫描文档。
如果确定所述电子文档为多层电子文档,则第二确定模块104可以继续确定所述多层电子文档是否满足所述第二预设条件。如果所述多层电子文档满足所述第二预设条件,则确定所述多层电子文档为多层电子扫描文档。
以下通过具体实施例来介绍电子文档识别方法。
参见图2,本发明实施例中电子文档识别的主要方法流程如下:
步骤201:根据电子文档获得各文档参数。
步骤202:根据所述各文档参数获得用于识别所述电子文档的各特征值。
步骤203:根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档。
步骤204:如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档。
步骤205:如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。
本发明实施例中的文档识别方法为根据电子文档获得各文档参数;根据所述各文档参数获得用于识别所述电子文档的各特征值;根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档;如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。首先根据文档获得各文档参数,根据所述参数获取特征值,根据所述特征值确定所述文档具体是单层文档、双层文档或多层文档,确定之后再根据所述特征值确定所述文档是否为电子扫描文档,从而提供了一种确定电子扫描文档的方法,可以有效确定单层、双层或多层文档是否为电子扫描文档,操作方便,结果较为准确,较大地提高了海量文档自动分类的效率及准确率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。