CN104899551B - 一种表单图像分类方法 - Google Patents
一种表单图像分类方法 Download PDFInfo
- Publication number
- CN104899551B CN104899551B CN201510217474.6A CN201510217474A CN104899551B CN 104899551 B CN104899551 B CN 104899551B CN 201510217474 A CN201510217474 A CN 201510217474A CN 104899551 B CN104899551 B CN 104899551B
- Authority
- CN
- China
- Prior art keywords
- weight
- pixel point
- image
- classified
- randomness
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000000694 effects Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003708 edge detection Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000003702 image correction Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/48—Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种表单图像分类方法。对于训练图像,首先对属于同一类的表单求取均值图像,均值图像的每个像素点是每张训练图像在该位置的像素的均值,得到的均值图像构成每一类的均值模板;然后求取三种权重值:一致性权重、随机性权重和抖动性权重,在进行表单分类时使用三种权重和均值模板进行分类的计算。也可以将平均表单改为取该位置像素点众数的表单,然后针对该众数表单计算方差和不同的权值。本发明能够减少用户填写信息的随机性带来的影响,同时放大表单版面中区分信息的重要性,从而针对版面相似的中文表单取得很好的分类性能。
Description
技术领域
本发明属于文档分类与模式识别技术领域,具体涉及一种基于距离测量的表单图像分类方法。
背景技术
当前,在很多业务(如银行、保险、统计等)中,大量的中文表单通过打印/复印等形式生成后,传递给客户进行打印填写或手工填写,因而导致大量的中文表单以纸质形式存在,给后期的表单自动化处理带来了许多挑战与困难。另一方面,为了使办公更加自动化,进而能够从表单中抽取挖掘出有用的信息,对表单自动化处理的需求日益强烈。
表单的自动化处理通常包括纸质表单的扫描、读入、分类、版面分析、识别和编辑等一系列过程。其中表单分类是表单自动化处理流程中非常关键的步骤,能够对版面分析和识别过程进行指导,从而使处理流程更加自动化。表单分类的粒度往往因业务场景而不同,文献“Dimensionality Reduction and Feature Selection Methods for ScriptIdentification on Document Images.in INFORMATION TECHNOLOGY IN INDUSTRY”仅针对语言进行分类,文献“A Complete Logo Detection/Recognition System for DocumentImage.in Document Analysis Systems(DAS),201411th IAPR International Workshopon.IEEE”根据是否有印章和商标进行分类。本发明处理的是版面相似中文表单的分类问题,分类目标是将采用不同表单模板的表单区分开来,即同一类的表单除用户填写区域外均完全相同。
在银行和保险等机构中,有大量的相似业务存在,如“取款”和“存款”;另外还有隶属于不同银行或保险机构的同一种业务,如不同银行的汇款单。这一类中文表单模板通常有国家的标准设计要求,因此他们的版面设计几乎完全相同,差别只体现在表单标题中的业务名称或银行名称和标志上。
目前绝大部分表单分类方法都是从表单图像直接进行特征的提取,有的提取全局的特征,有的提取局部的线条等结构特征。但是这些方法都不适用于版面相似表单的分类,因为对于这类表单,这些方法所提取出的特征,尤其是结构特征,几乎都是相似的特征,区分度很小。所以这一类方法在进行表单分类时,常常会被表单的结构相似性所迷惑,从而取得较差的分类效果。
在实际应用当中,需要进行分类的中文表单绝大部分是已经由用户填写好(打印填写或手写填写)的表单。由于表单的类别差异仅体现在表单版面部分的差异上,与用户所填信息无关。因此对于表单分类任务而言,可以认为用户填写信息是噪声信息。在此前提下,版面相似表单的分类主要有以下两个挑战:
1.用户所填信息的随机性。用户所填信息相对于固定的表单版面是完全因人而异的,并且同一种类表单的用户所填信息也不尽相同。因此在提取全局特征时,用户所填信息的位置变化以及字体变化等会引起全局特征的变化,造成分类错误。
2.中文表单版面部分的区分信息过少。由于版面相似表单的类别差异只体现在表单版面部分的差异信息上(如前文所提到的表单标题和银行标志等等),差异信息非常有限,往往只靠标题中几个字符的差别确定表单的种类,但这些差别又会被用户填写信息的差异所掩盖,导致分类出现错误。因此如何最大化地利用这类有限的差异信息成为了版面相似表单分类的关键和挑战。在这种情况下,使用单纯的欧氏距离进行计算,同类表单之间的距离很有可能大于不同类表单之间的距离。
表单分类作为表单识别的关键步骤,已经引起研究者的广泛关注,大量的表单分类方法被相继提出,其中主要的方法类型包括三种,即基于全局特征提取的方法、基于结构特征的版面分析方法和基于分层特征表达的方法。
1,在全局特征提取方面,有基于字数、单元格和Haar特征等的方法。文献“Imageclassification:Classifying distributions of visual features.In PatternRecognition.”提出了一种类Haar特征的方法,并使用潜在条件独立(Latent ConditionalIndependent,LCI)模型来进行表单分类。文献“Form identification based on cellstructure.In ICPR”提出了一种点集匹配技术,将表单中单元格的中心标记成点,然后再对不同的表单进行点集匹配。
2,对表单结构特征的提取也是表单分类中非常有效的手段。文献“Formclassification using dp matching.Proceedings of the 2000 ACM symposium onApplied computing”提出了基于表单中线段提取的方法,文献“Business formclassification using strings.In Pattern Recognition.”则将线段和文本表示成字符串进行分类。这一类的方法针对具有明显结构性版面的表单,取得了较好的效果。
3,对表单特征进行分层表达也是具有较高分类准确率并且计算复杂度较低的方法。文献“A hierarchical representation of form documents for identificationand retrieval.In International Journal on Document Analysis and Recognition.”提出了一种基于X-Y树的分层方法来表示表单中的矩形结构。文献“Fine-graineddocument genre classification using first order random graphs.DocumentAnalysis and Recognition”则将表单的物理版面信息提取成多层XY树,并编码成固定长度的特征向量,然后使用神经网络模型和多层感知机进行分类。
然而,上述方法难以处理相似表单,从相似表单中提取的特征也非常相似,因此往往将具有相似版面的表单判断为同一类,从而导致分类错误。
另外,文献“层次型金融票据图像分类方法”提出了利用OCR(Optical CharacterRecognition)识别标题从而进行表单分类的方法,并应用于金融票据中,取得了较好的效果。然而,OCR技术在表单识别中对表单模板有较大的依赖性,而且错误的识别结果将直接影响分类正确率;另外基于OCR的方法需要识别大量无关信息,比较耗时,效率较低。
为此,文献“Identification of very similar filled-in forms with areject option.In ICDAR.”提出了专门针对相似表单的分类算法,该算法首先检测出相似表单的标志区域,再用基于距离度量的方法对该区域进行模板匹配。但是该算法要求利用空白表单来提取标志区域。在实际应用中,由于保密性和安全原因,空白表单通常难以获取,因此该方法在实际应用时,适用性较弱。
最新的相关研究中,文献“Business forms classification using earthmover's distance.in Document Analysis Systems(DAS)”等人提出一种基于EMD(EarthMover’s Distance)的表单分类方法。该方法是利用表单二值化后的连通域面积和连通域像素点位置信息,将表单灰度图转化为彩色图的一种伪彩色编码算法。实验证明,该算法对用户所填信息的位置变化具有很好的鲁棒性,对表单的整体位置偏移也有稳定的分类效果。但是,该算法将表单的标题等区分性信息与其它信息等同处理,未有效利用该类区分性信息,导致最终的分类准确率不高。另外该算法是一种寻优算法,具有较高的时间复杂度。
发明内容
现有的表单分类技术在表单分类问题中主要是解决了不同版式的表单的分类问题,但对于版式相似或相近的表单,这一类算法则认为属于同一类表单。因此,为了解决相似表单难以进行分类的问题,本发明提出一种简单有效的基于加权距离的中文表单分类方法,减少用户填写信息的随机性带来的影响,同时放大表单版面中区分信息的重要性,从而针对版面相似的中文表单取得较好的分类性能。
本发明采用基于表单整幅图像的匹配算法,能够通过已填写的少量表单用作训练图像,自动检测出版式中的差别部分和用户填写的不稳定部分,再根据这些内容计算出分类时不同位置的权重信息。在分类时利用这些权重信息进行比较,提高了版式中差别部分的权重,而降低了用户填写部分的权重,能够较好的区分出相似表单。
本发明所采用的技术方案的总体流程如图1所示:首先进行表单的对齐操作,检测出表单的边缘和表单的位置,将表单进行倾斜校正,并将表单的大小都正规化到同样的尺寸;然后用一部分已知类型的相似表单作为训练表单图像;对于训练图像,首先对属于同一类的表单求取均值图像,均值图像的每个像素点是每张训练图像在该位置的像素的均值,得到的均值图像构成每一类的均值模板;然后求取三种权重值:一致性权重、随机性权重和抖动性权重,得到的三个权重也就对应了三张权重图,在进行表单分类时,则使用三种权重和均值模板进行分类的计算。进行分类计算时,全部使用三种权重的效果最好,但也可以仅使用随机性权重和一致性权重进行表单分类,此时也能够取得较好的效果。下面具体说明三种权重的计算方法。
1.第一种权重为一致性权重,是为了强调相似表单类间的一致性所设。对所有的均值模板每个对应像素点求方差,该方差是类间方差,此方差是计算均值模板中对应像素点的方差。用得到的方差和所有均值模板每个对应像素点计算均值,由这两个值的高斯函数计算该点的权重。在方差越大的像素点,权重越高,方差较小的像素点具有较低的权重,能够在表单相似的情况下突出表单预定义信息的重要性,突出了相似表单的具有差异性的部分。
一致性权重计算公式如下:
其中,是第i个像素点的高斯函数一致性权重;是平均图像中第i个像素点对于平均图像再计算平均值的方差;μi是所有平均图像计算第i个像素点的均值;Ci是待分类表单的第i个像素点,p是待分类表单图像的大小。
2.第二种权重为随机性权重,是为了降低用户填写区域的随机性而设。对属于同一类的每一张训练图都计算权重。首先仍是对该类的每一张图的对应像素点求方差,该方差是类内方差,再用得到的方差和该类的平均表单得到的平均值计算该点的权重,该权重由方差和均值计算得出。该权重很好的抑制了因用户填写而异的填写部分对表单分类的影响,降低了这些不稳定区域对表单分类的影响。
随机性权重的计算公式如下:
其中是像素点i对于第k类表单的随机性权重;是像素点i对于第k类表单的方差;Ci是待分类表单的第i个像素点,μki是第k类表单的平均表单的第i个像素点;p是待分类表单图像的大小。
3.第三种权重为抖动性权重,是为了减少抖动对像素点的影响而设。对每一张均值模板的像素点和其周边的八个邻域像素求方差,并用八个邻域像素求出均值。该权重同样使用方差和均值计算高斯函数的值。在该权重的计算中,方差越大,说明像素点和其邻域点的像素差别越大,因此表单的抖动对该像素点的影响就越大,因此需要降低该像素点的权重,减少抖动带来的影响。
抖动性权重的计算公式如下:
其中是像素点i对于第k类表单的抖动性权重;是像素点i对于第k类表单的方差;Ci是待分类表单的第i个像素点;μki是第k类表单的平均表单的第i个像素点;p是待分类表单图像的大小。
得到的三个权重也就对应了三张权重图,如图2、图3和图4所示,在进行表单分类时,则使用三种权重(或仅使用随机性权重和一致性权重)和均值模板进行分类的计算,分类步骤如下:
1)首先对待分类的表单也进行归一化的操作,在边缘检测的基础上进行图像的校正和提取,将表单的图像限制在和训练图相同的大小和角度上。
2)直接计算待分类表单图像和均值模板的距离。也就是每一个对应位置的像素点计算出差值的平方,求出后再用差值的平方直接乘以该点对应位置的三个权重的值(或仅使用随机性权重和一致性权重),得到的值就是该位置待分类图像和均指模板的像素点距离。最后对所有的点所计算出的距离进行求和后开平方,得到两幅图像之间的距离值。
3)对于送入的待分类图像,将待分类图像和每一类计算出的均值模板按照上一步骤的计算方式计算出两幅图像之间的距离,选取距离最近的均值模板所在的类型作为最终分类的结果。
采用三种权重计算距离的公式如下:
其中,D(C,μk)是待分类表单和平均表单的距离,Ωki是该待分类表单在像素点i处的权重值,而分别是像素点i处三个权重的值。
另外,本发明仅使用随机性权重和一致性权重进行表单分类也可以取得较好效果,其分类公式如下:
其中D(C,μk)是待分类表单和平均表单的距离,分别是像素点i处的随机性权重和一致性权重。
对于本发明的三种权重,除上述计算方法外,还可以有不同的替代方式。比如可以将三个权重中的平均表单改为取该位置像素点众数的表单,然后针对该众数表单计算方差和不同的权值。
众数模版代替了以前的均值模板,用来作为计算类间高斯函数和抖动高斯函数的先验概率。众数模板得到的众数表单图像为μ。由于在计算一致性权重时需要计算众数模板的众数表单,也就是对每一张众数模板的表单图像再在同样的像素点位置取这些像素点的众数,最终得到一张表单图像作为众数表单的模板。而每一张训练表单同样也用于计算各高斯函数。而各个高斯函数的方差均是由各图像与众数的方差进行计算,而非对期望计算方差。
一致性权重计算公式如下:
其中是第i个像素点的高斯函数一致性权重;是众数图像中第i个像素点对于众数图像再计算众数值的方差;Modi是所有众数图像计算第i个像素点的众数值;Ci是待分类表单的第i个像素点,p是待分类表单图像的大小。
若计算众数的函数为Mode(),得到的众数表单为Modj,因此有:
Modj=Mode(Tij),j=1,2,…,n
其中Tij是所有第j类训练表单的第i个像素点;n是表单类型的数目;Modj是第j类表单的众数表单;Modj表示的是整张众数表单图像。同样计算方差的函数如下:
其中σj是第j类表单的方差矩阵,Tj是第j类训练表单,Modj是第j类众数表单,p是第j类训练表单的表单数量。
在计算随机性权重时,使用与众数表单得到的方差σ和众数表单Modi。随机性权重的概率计算如下:
其中是像素点i对于第k类表单的随机性权重;是像素点i对于第k类表单的方差,Ci是带分类表单的第i个像素点,Modki是第k类表单的众数表单的第i个像素点;p是待分类图像的大小。
对于众数表单像素点,计算其与八邻域像素点的众数及与众数的方差。使用这两个方差和众数进行计算,其权重的后验概率计算如下:
其中是像素点i对于第k类表单的抖动性权重,是像素点i对于第k类表单的方差,Ci是带分类表单的第i个像素点,Modki是第k类表单的众数表单的第i个像素点,p是待分类图像的大小。
相似表单分类的计算方法如下:
其中D(C,μk)是待分类表单和众数表单的距离,Ωki是该待分类表单在像素点i处的权重值,而分别是像素点i处三个权重的值。与上面采用均值模板的方法类似,采用众数模板时,仅使用随机性权重和一致性权重进行表单分类也可以取得较好效果,故Ωki也可以只包含该两个权重。
另外,本发明中的三种权重还可以只利用方差,利用方差的信息和方差的倒数归一化处理后,也可以计算出表单的三种权重,然后对表单进行分类处理。这里也分为采用平均表单和采用众数表单两种情况。下面以采用平均表单为例说明只利用方差计算三种权重的方法。
采用对方差求倒数的方式来定义某一位置的随机性权重,计算方式如下:
其中是第i类表单在第k个像素点的随机性权重。是第i类表单在第k个像素点的方差值。而N是表单图像的像素点数。表示随机性常数,在本文中,其取值设置为方差在N个像素点的均值。
一致性权重的计算方式如下:
其中是表单图像在像素点k的一致性权重,是所有在像素点k的平均表单的像素方差,λcons被设置为方差在N个像素点的均值。
抖动性权重的定义如下:
其中表示第i类表单图像在第k个像素点的抖动性权重。表示第i类平均表单在像素点k的方差,该方差是由均值图像中的第k个像素点和其周围八邻域像素点共九个像素值的方差。设置为方差在N个点均值的两倍,避免出现方差计算不可逆的情况,同时避免该权重减弱差异化信息的重要性。
本发明的有益效果是,能够计算出相似表单中版式中的区分点,从而在计算距离时增大区分处的权重;同时也能够检测出用户填写部分的区域,将这一部分不稳定区域的权重降低,减小用户填写所带来的影响;而对于表单的版式抖动或是在归一化时引起的抖动影响,本方法也能够通过降低抖动处的权重而减小其影响。实验证明本发明方法也可以用于不相似表单的分类,但对相似表单的分类效果更好。
附图说明
图1为本发明方法的总体流程图。
图2为本发明提供的第一种权重图。
图3为本发明提供的第二种权重图。
图4为本发明提供的第三种权重图。
图5是两种相似表单的实例图。
图6是实施例中的对比实验结果。
图7是中实施例中对相似表单分别计算平均表单、随机性权重和一致性权重的示例图像。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
本实施例针对将表单图像作为查询条件输入表单分类系统的应用场景,介绍表单查询条件输入方法的具体实施过程。而输出通常是表单中文字区域并进行下一步的文字识别和对应区域信息的录入操作。这里表单的输入可以是扫描的表单或是图像质量较好的表单照片图片,并且支持多种语言的表单分类工作。输入图像的预处理采用了hough变换进行直线检测和倾斜矫正等,将表单图像归一化到和训练表单图像相同的尺度和角度。用户U的设备(扫描仪、手持设备等)对表单进行批量扫描和拍照,系统通过匹配识别出表单所属的类型,送入到后续的表单文本识别的流程中,由后续的文字识别模块对表单中的文本信息进行版面分析,然后分类录入文本信息。
本实施例的总体流程是:用户U在将需要进行分类的表单进行扫描或是拍照后,发出表单信息录入请求,表单分类模块响应该请求,对送入的表单图像调用预处理子过程,将表单主要区域通过边缘检测,倾斜校正等算法进行尺度和方向的归一化处理,将处理后的结果发送给表单分类子过程。表单分类子过程根据训练过程中计算出的每一类表单权重信息和模板进行距离计算,将待分类的表单图像和每一种表单模板进行距离加权,加权模板为在训练过程中计算出的针对每一种特定表单的权重图。待分类表单与每一种表单模板计算加权距离后,选取距离最短的表单类型作为表单分类的结果,将该结果传递给下一个模块,并将识别的表单类型结果返回给用户U。
本实施例的具体步骤为:
1)待分类表单获取
使用扫描或移动设备拍照的方法获取出待分类的表单图像。图5是两种相似表单的实例。
2)待分类表单预处理
对表单图像进行边缘检测,然后根据检测结果进行表单图像的校正和尺度归一化操作,使得待分类的表单图像和表单图像数据库中的图像具有相同的尺度和角度。
3)待分类表单进行距离计算
利用训练表单的权重模板和平均训练表单,计算待分类表单和每一类平均训练表单的加权距离,其中权重模板的每一个权重都在每一个像素点相乘,计算总的加权距离。
4)根据距离计算结果判断待分类表单类型
在与每一类表单模板进行比较后,选择与待分类表单距离最小的表单模板作为待分类表单所属的表单类型。最后输出待分类表单类型。
本发明应用上述方法,生成了四种中文表单数据库,分别是用户填写信息位置变化较小的版面相似表单、用户填写信息位置变化较大的版面相似表单、版面不相似表单和综合版面的表单(包括版面相似表单和版面不相似表单)。本发明模拟真实表单的填写情况,将各个表单库中的用户填写部分用打印机进行填写,填写的内容、字体和相对表格的位置均不相同。
1,版面相似表单数据库上的对比实验
本发明生成了两个版面相似表单的图像数据库,其中分别为用户填写信息有较小位置偏移的图像库和有较大位置偏移的图像库。这两个图像库的用户填写部分在内容和字体上均不相同,尽可能真实地模拟了实际表单的填写情况。两个表单图像库均有200张版面相似的表单,包含10类表单,每类20张。本发明所比较的方法主要是背景技术中所提到的对用户填写信息变化鲁棒的基于EMD的最新表单分类算法。另外,实验也对比了直接与平均表单进行欧氏距离计算而不加入任何权重信息的类似均值分类器的方法(“平均比较”),将其作为基准方法。
本发明的对比实验结果见下图,分别是用户填写信息位置变化较小的图像库实验结果(图6(a))和位置变化较大的图像库实验结果(图6(b))。实验结果中,横坐标是训练时每一类表单的训练样本数量,纵坐标是分类的正确率(%)。
从实验结果可以看出,本发明对用户所填信息的变化较为鲁棒,并且在版面相似表单的分类中,本发明远优于最新的EMD方法和平均比较方法。
2.版面不相似表单数据库上的对比实验
实验对比了具有不相似版面表单分类情况。不相似版面表单图像库包含260张表单,包含13个类型,每类20张表单。
实验结果如图6(c),从中可以看出,在版面不相似中文表单的分类结果中,各个方法差别较小,其中EMD算法的结果对比其在版面相似表单图像分类中的结果有了大幅提高。在版面不相似的表单图像库中,本发明同样取得了最好结果。另外,从实验结果中可以看出,“平均比较”方法的结果对训练样本的数量比较敏感,随着样本数量的变化,结果抖动比较严重,而本发明性能比较稳定。
3.综合表单数据库上的对比实验
最后生成了一个较大的具有440张表单的混合版面图像库。该图像库包含22类表单,每类20张,其中既有版面相似表单,又有版面不相似的表单。其中版面相似表单有180张,版面不相似表单有260张。分类的结果见图6(d)。在混合版面的表单分类中,本发明同样取得了最佳效果,而EMD算法也表现出了稳定有效的分类结果。由于同时存在相似表单和不相似表单,可以看出,本发明拓展性较佳,可以用于混合版面表单的分类,且更加切合实际应用场景。
在使用本发明进行权重计算后,还可以利用权重结合后的效果,利用二值化和连通区域提取表单中具有标识性的区域,并直接利用该区域进行表单的后续匹配分类等处理。如图7中(a)、(b)、(c)所示是对相似表单分别计算平均表单、随机性权重和一致性权重的图像。随机性权重抑制了用户填写区域的像素点,而一致性权重强调了标题区分部分,但平均表单由于存在用户填写区域的不同,因此也加大了用户填写部分的权重,但由于用户填写区域被平均化,因此该部分的权重与标题部分权重相比权重较低。通过图7可以看出,将两种权重通过点乘相结合,可以更加强调标题部分权重,而弱化用户填写区域的权重,若再加入一个适当的二值化阈值进行处理,标题等区分区域可以顺利地提取出来,从而更加精确地进行相似表单的分类。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
Claims (5)
1.一种表单图像分类方法,其特征在于,包括如下步骤:
1)将一部分已知类型的相似表单图像作为训练图像,对训练图像中属于同一类的表单求取均值图像,作为每一类表单的均值模板;所述均值图像的每个像素点是每张训练图像在相同位置的像素的均值;
2)利用所述训练图像和所述均值模板计算训练图像中相似表单的一致性权重和随机性权重,所述一致性权重衡量相似表单的类间一致性,所述随机性权重衡量用户填写区域的随机性;该步骤还计算相似表单的抖动性权重,用于衡量表单的抖动对像素点的影响;
所述一致性权重、随机性权重、抖动性权重的计算公式如下:
a)一致性权重:
其中,是第i个像素点的一致性权重;是均值图像中第i个像素点对于均值图像再计算平均值的方差;μi是所有均值图像计算第i个像素点的均值;Ci是待分类表单的第i个像素点,p是待分类表单图像的大小;
b)随机性权重:
其中是像素点i对于第k类表单的随机性权重;是像素点i对于第k类表单的方差;Ci是待分类表单的第i个像素点,μki是第k类表单的均值图像的第i个像素点;p是待分类表单图像的大小;
c)抖动性权重:
其中是像素点i对于第k类表单的抖动性权重;是像素点i对于第k类表单的方差;Ci是待分类表单的第i个像素点;μki是第k类表单的均值图像的第i个像素点;p是待分类表单图像的大小;
3)利用计算得到的一致性权重、随机性权重和抖动性权重,计算待分类的表单图像与每一类表单的均值模板的加权距离,选取距离最短的均值模板所在的表单类型作为表单分类的结果。
2.如权利要求1所述的方法,其特征在于,步骤3)根据一致性权重和随机性权重计算加权距离的公式如下:
其中D(C,μk)是待分类表单和均值图像的距离,分别是像素点i处的随机性权重和一致性权重;
步骤3)根据三种权重计算加权距离的公式如下:
其中,D(C,μk)是待分类表单和均值图像的距离,Ωki是该待分类表单在像素点i处的权重值,而分别是像素点i处三个权重的值。
3.一种表单图像分类方法,其特征在于,包括如下步骤:
1)将一部分已知类型的相似表单图像作为训练图像,对训练图像中属于同一类的表单求取众数图像,作为每一类表单的众数模板;所述众数图像的每个像素点是每张训练图像在相同位置的像素的众数;
2)利用所述训练图像和所述众数模板计算训练图像中相似表单的一致性权重和随机性权重,所述一致性权重衡量相似表单的类间一致性,所述随机性权重衡量用户填写区域的随机性;该步骤还计算相似表单的抖动性权重,用于衡量表单的抖动对像素点的影响;
所述一致性权重、随机性权重、抖动性权重的计算公式如下:
a)一致性权重:
其中是第i个像素点的高斯函数一致性权重;是众数图像中第i个像素点对于众数图像再计算众数值的方差;Modi是所有众数图像计算第i个像素点的众数值;Ci是待分类表单的第i个像素点,p是待分类表单图像的大小;
b)随机性权重:
其中是像素点i对于第k类表单的随机性权重;是像素点i对于第k类表单的方差,Ci是待分类表单的第i个像素点,Modki是第k类表单的众数图像的第i个像素点;p是待分类图像的大小;
c)抖动性权重:
其中是像素点i对于第k类表单的抖动性权重,是像素点i对于第k类表单的方差,Ci是待分类表单的第i个像素点,Modki是第k类表单的众数图像的第i个像素点,p是待分类图像的大小;
3)利用计算得到的一致性权重、随机性权重和抖动性权重,计算待分类的表单图像与每一类表单的众数模板的加权距离,选取距离最短的众数模板所在的表单类型作为表单分类的结果。
4.如权利要求3所述的方法,其特征在于,步骤3)根据一致性权重和随机性权重计算加权距离的公式如下:
其中D(C,μk)是待分类表单和众数图像的距离,分别是像素点i处的随机性权重和一致性权重;
步骤3)根据三种权重计算加权距离的公式如下:
其中D(C,μk)是待分类表单和众数图像的距离,Ωki是该待分类表单在像素点i处的权重值,而分别是像素点i处三个权重的值。
5.如权利要求1或3所述的方法,其特征在于:在步骤3)进行权重计算后,利用权重结合后的效果,通过二值化和连通区域提取表单中具有标识性的区域,并直接利用该区域进行表单的后续匹配分类处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510217474.6A CN104899551B (zh) | 2015-04-30 | 2015-04-30 | 一种表单图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510217474.6A CN104899551B (zh) | 2015-04-30 | 2015-04-30 | 一种表单图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104899551A CN104899551A (zh) | 2015-09-09 |
CN104899551B true CN104899551B (zh) | 2018-08-14 |
Family
ID=54032207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510217474.6A Active CN104899551B (zh) | 2015-04-30 | 2015-04-30 | 一种表单图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104899551B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108074190B (zh) * | 2016-11-14 | 2021-03-09 | 平安科技(深圳)有限公司 | 保单分配方法和装置 |
CN109344883A (zh) * | 2018-09-13 | 2019-02-15 | 西京学院 | 一种基于空洞卷积的复杂背景下果树病虫害识别方法 |
CN110222251B (zh) * | 2019-05-27 | 2022-04-01 | 浙江大学 | 一种基于网页分割和搜索算法的服务包装方法 |
CN112101394B (zh) * | 2019-06-18 | 2024-03-22 | 中国移动通信集团浙江有限公司 | 供应商分域部署方法、装置、计算设备及计算机存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262618A (zh) * | 2010-05-28 | 2011-11-30 | 北京大学 | 一种版面信息识别的方法及装置 |
US8139833B2 (en) * | 2008-04-09 | 2012-03-20 | Boris Fain | Analyzing large data sets using a computer system |
CN102567741A (zh) * | 2010-12-27 | 2012-07-11 | 汉王科技股份有限公司 | 表单匹配方法和装置 |
CN103034848A (zh) * | 2012-12-19 | 2013-04-10 | 方正国际软件有限公司 | 一种表单类型的识别方法 |
CN103674884A (zh) * | 2012-09-17 | 2014-03-26 | 福建中烟工业有限责任公司 | 基于近红外光谱信息的烟叶风格特征的随机森林分类方法 |
CN103679188A (zh) * | 2012-09-12 | 2014-03-26 | 富士通株式会社 | 图像分类器生成方法和装置及图像分类方法和装置 |
-
2015
- 2015-04-30 CN CN201510217474.6A patent/CN104899551B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8139833B2 (en) * | 2008-04-09 | 2012-03-20 | Boris Fain | Analyzing large data sets using a computer system |
CN102262618A (zh) * | 2010-05-28 | 2011-11-30 | 北京大学 | 一种版面信息识别的方法及装置 |
CN102567741A (zh) * | 2010-12-27 | 2012-07-11 | 汉王科技股份有限公司 | 表单匹配方法和装置 |
CN103679188A (zh) * | 2012-09-12 | 2014-03-26 | 富士通株式会社 | 图像分类器生成方法和装置及图像分类方法和装置 |
CN103674884A (zh) * | 2012-09-17 | 2014-03-26 | 福建中烟工业有限责任公司 | 基于近红外光谱信息的烟叶风格特征的随机森林分类方法 |
CN103034848A (zh) * | 2012-12-19 | 2013-04-10 | 方正国际软件有限公司 | 一种表单类型的识别方法 |
Non-Patent Citations (3)
Title |
---|
层次型金融票据图像分类方法;殷绪成 等;《中文信息学报》;20051125;第19卷(第6期);70-77 * |
版式电子文档表格自动检测与性能评估;房婧 等;《北京大学学报(自然科学版)》;20130131;第49卷(第1期);45-53 * |
版面相似中文表单的分类方法研究;王思萌 等;《北京大学学报(自然科学版)》;20150331;第51卷(第2期);第2节 * |
Also Published As
Publication number | Publication date |
---|---|
CN104899551A (zh) | 2015-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10943105B2 (en) | Document field detection and parsing | |
CN110766014B (zh) | 票据信息定位方法、系统及计算机可读存储介质 | |
US10621727B1 (en) | Label and field identification without optical character recognition (OCR) | |
EP1598770B1 (en) | Low resolution optical character recognition for camera acquired documents | |
Cattoni et al. | Geometric layout analysis techniques for document image understanding: a review | |
US8744196B2 (en) | Automatic recognition of images | |
US8442319B2 (en) | System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking | |
JP5522408B2 (ja) | パターン認識装置 | |
Elzobi et al. | IESK-ArDB: a database for handwritten Arabic and an optimized topological segmentation approach | |
Singh et al. | Offline script identification from multilingual indic-script documents: a state-of-the-art | |
US12056171B2 (en) | System and method for automated information extraction from scanned documents | |
Van Beusekom et al. | Combined orientation and skew detection using geometric text-line modeling | |
CN104899551B (zh) | 一种表单图像分类方法 | |
Belaïd et al. | Handwritten and printed text separation in real document | |
Diem et al. | Skew estimation of sparsely inscribed document fragments | |
Böschen et al. | Survey and empirical comparison of different approaches for text extraction from scholarly figures | |
Lue et al. | A novel character segmentation method for text images captured by cameras | |
Singh et al. | Line parameter based word-level Indic script identification system | |
Hirayama et al. | Development of template-free form recognition system | |
Rosner et al. | Text line processing for high-confidence skew detection in image documents | |
Barbantan et al. | An offline system for handwritten signature recognition | |
Mahmoud et al. | The use of radon transform in handwritten Arabic (Indian) numerals recognition | |
Alginahi | Computer analysis of composite documents with non-uniform background. | |
Arlandis et al. | Identification of very similar filled-in forms with a reject option | |
Worch et al. | Glyph spotting for mediaeval handwritings by template matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |