CN102262614A - 纵向校对方法和装置 - Google Patents

纵向校对方法和装置 Download PDF

Info

Publication number
CN102262614A
CN102262614A CN2010101952795A CN201010195279A CN102262614A CN 102262614 A CN102262614 A CN 102262614A CN 2010101952795 A CN2010101952795 A CN 2010101952795A CN 201010195279 A CN201010195279 A CN 201010195279A CN 102262614 A CN102262614 A CN 102262614A
Authority
CN
China
Prior art keywords
character
classification
character picture
image
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010101952795A
Other languages
English (en)
Inventor
王琛
刘正珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hanwang Technology Co Ltd
Original Assignee
Hanwang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hanwang Technology Co Ltd filed Critical Hanwang Technology Co Ltd
Priority to CN2010101952795A priority Critical patent/CN102262614A/zh
Publication of CN102262614A publication Critical patent/CN102262614A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明一种纵向校对方法和装置,属于文字处理领域。方法包括:将输入的文本通过OCR识别引擎进行识别,并记录每个字符在图像中的位置;对识别成同一识别结果的字符图像使用聚类的方法进行图像分类;根据图像分类所形成的类别将字符进行分类显示;根据分类显示的结果进行校对。本发明在纵向校对加入了聚类的步骤,对于文档中识别成同一字符的图像进行聚类,得到聚类形成的类别,并且按类别对字符图像进行分类的显示,然后再进行字符的校对。使错误的字符和正确的字符被分在不同的类别中被分类显示,可以很容易将正确的字符图像和错误的字符图像区分开来,校对的准确率比一般的纵向校对方法的准确率要高,减轻校对人员的疲劳程度。

Description

纵向校对方法和装置
技术领域
本发明属于文字处理领域,涉及一种数据校对的方法和装置,具体涉及一种纵向校对方法和装置。
背景技术
一个完整的文档录入系统分为以下部分:纸质资料的整理、扫描、图像预处理、版面分析、识别、校对和保存,其中校对又可以分为横向校对和纵向校对两部分。
横向校对:这是传统的人工校对方法,直接将识别结果文本与图像进行对比,系统自动调用文本所对应的图像进行比对,同时,以颜色标记识别可信度不高的文字。
纵向校对:将文档中识别结果为同一个字的文字图像集中显示,并以突出颜色标出可疑字,发现错误并修改,具有很强的查错能力。
纵向校对将文档中所有识别结果相同的字符图像集中呈现在一个视图中,从而使校对人员较容易挑出其中错误的字符。但是一般来说,需要纠正的字符是由于字形相近引起,如“大”和“犬”字形相近,所以在这些字形相近的字符中寻找差异的字符。如果做大量这样的工作的话,容易引起视觉疲劳,造成校对的准确率降低。
发明内容
本发明所要解决的技术问题是提出一种纵向校对方法和装置,将对于文档中识别成同一字符的图像进行聚类,得到聚类形成的类别,并且按类别对字符图像进行分类的显示,然后再进行字符的校对。校对的准确率比一般的纵向校对方法的准确率要高,减轻校对人员的疲劳程度。
本发明公开了一种纵向校对方法,包括以下步骤:
步骤1:将输入的文本通过OCR识别引擎进行识别,并记录每个字符在图像中的位置;
步骤2:对识别成同一识别结果的字符图像使用聚类的方法进行图像分类;
步骤3:根据图像分类所形成的类别将字符进行分类显示;
步骤4:根据分类显示的结果进行校对。
所述步骤1中记录每个字符在图像中的位置时,记录各字符对应的字符图像在原图中的外接矩形框的坐标。
所述步骤2包括以下几个步骤:
步骤2.1:对对识别成同一识别结果的字符图像进行特征提取,提取字符图像的字形特征;
步骤2.2:根据字符图像的字形特征进行聚类,将字符图像进行分类,得到不同的字符图像的类别。
所述步骤2.2中,对字符图像的类别采用聚类索引列表对字符图像进行索引。
所述步骤3中分类显示时,分别显示每一类别所包括的字符图像。
所述步骤3中分类显示时,按照各个类别所包含图像的数目分别显示各类别的字符图像。
所述步骤4中根据分类显示的结果进行校对时,将该分类中聚类索引列表中的每个字符图像的识别结果分别修改为目标字符。
所述步骤4中根据分类显示的结果进行校对时,对该分类中聚类索引列表中的每个字符图像的识别结果均修改为同一个目标字符。
本发明还公开了一种纵向校对装置,包括以下模块:
识别模块:将输入的文本通过OCR识别引擎进行识别,并记录每个字符在图像中的位置;
分类模块:对识别成同一识别结果的字符图像使用聚类的方法进行图像分类;
显示模块:根据图像分类所形成的类别将字符进行分类显示;
校正模块:根据分类显示的结果进行校对。
本发明一种改进的纵向校对方法和装置的优点在于:在纵向校对加入了聚类的步骤,对于文档中识别成同一字符的图像进行聚类,得到聚类形成的类别,并且按类别对字符图像进行分类的显示,然后再进行字符的校对。使错误的字符和正确的字符被分在不同的类别中被分类显示,可以很容易将正确的字符图像和错误的字符图像区分开来,校对的准确率比一般的纵向校对方法的准确率要高,减轻校对人员的疲劳程度。
附图说明
图1为本发明纵向校对方法的流程图;
图2为本发明纵向校对方法在聚类前显示状态图;
图3为本发明纵向校对方法在聚类后显示状态图;
图4为本发明纵向校对方法的聚类示意图;
图5为本发明纵向校对方法聚类的数据结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明公开了一种纵向校对方法,如图1所示,包括如下步骤:
步骤1:将输入的文本通过OCR识别引擎进行字符识别,并记录每个字符在图像中的位置;
采用OCR识别引擎对输入的文本进行识别,并且记录每个字符在图像中的位置,本实施例中,在内存中记录各字符对应的字符图像在原图中的外接矩形框的坐标。
步骤2:对识别成同一识别结果的字符图像使用聚类的方法进行图像分类。
经OCR识别引擎识别后所得到的识别结果相同的字符图像,从识别成同一识别结果的字符图像中分别提取这些字符图像的字形特征。因为基于方向的特征反映了汉字的属性,故本实施例中采用字符的方向线素特征来记录字符图像的字形特征。提取每张字符图像196维的方向线素特征,如图1所示,为一本待录入的书籍中所有被识别成字符“人”字对应的识别结果的字符图像,共150个,将每张字符图像分别提取方向线素特征,得到一个由150个特征向量组成的特征向量集合S={x1,x2,…,x150}。xi(i=1、2、…、150)表示第i张字符图像对应的特征向量,其中,每个特征向量中含有N个数值,表示每张字符图像对应的196维的方向线素特征。
然后对这些字符图像的方向线素特征进行聚类,采用聚类分析的方法将这些字符图像进行分类。由于本实施例中由于进行聚类的特征向量集合数目不大,如果使用通常的聚类算法K-means方法进行聚类则初始时选择的聚类中心过于邻近,使多个聚类中心都被选择在同一类中。故本实施例中,采用最大最小距离算法进行图像分类,最大最小距离的方法选取尽可能离得远的对象作为初始聚类中心,这样就可以得到数据的一个特征明显的初始划分,使各字符图像的差异化更加显著,从而形成各种分类。如图3所示,具体的实施步骤如下:
(1)在特征向量集合S中任特征向量x1作为第一个类别的聚类中心,则有Z1=x1,x1为图1中第1个字符图像对应的特征向量。
(2)从集合S中剩余的特征向量中计算到Z1距离最大的点作为第二个类的聚类中心。本实施例中,Z2=x108,x108为图1中第108个字符图像对应的特征向量。
(3)对于集合S中剩余字符图像对应的特征向量,分别计算该向量到Z1、Z2的距离di1和di2(i=1、2、…、150),di1=||xi-Z1||;di2=||xi-Z2||;令其中的较小值为min(di1,di2),min(di1,di2)表示第i个特征向量到Z1和Z2两个聚类中心的距离中的最小值,用min(di1,di2)表示第i个特征向量到当前聚类结果的距离。
(4)计算min(di1,di2)的最大值max(min(di1,di2)),得到对应的特征向量,max(min(di1,di2))表示特征向量集合中到当前聚类结果中的最大距离,本实施例中,对应的特征向量为x33,即特征向量集合中x33到当前聚类结果的距离为最大距离,为为图1中第33个字符图像对应的特征向量。
(5)如果max(min(di1,di2))>m×|Z2-Z1|,则取x33为第三个类别的聚类中心;其中,m为最大最小距离法中的检验参数,本实施例中取0.75,x33为图1中第33个字符图像对应的特征向量;如果max(min(di1,di2))<m×|Z2-Z1|,则满足最大最小距离算法终止条件,聚类结束。
(6)计算集合S中剩余的特征向量到Z1、Z2、Z3的最小距离min(di1,di2,di3)。
(7)计算min(di1,di2,di3)的最大值max(min(di1,di2,di3))。
(8)如果max(min(di1,di2,di3))>m×[average(|Z2-Z1|,|Z3-Z2|)],则添加新的聚类中心并进行新一轮的最大最小距离的计算,否则,聚类算法终止。在本实施例中max(min(di1,di2,di3))<m×[average(|Z2-Z1|,|Z3-Z2|)],聚类结束。
经过以上的步骤,特征向量集合S被聚成三类Z1、Z2、Z3对应的图像,如图2所示,为图1中的字符图像经过聚类形成的结果。
分别记录每个图像所属于的类别,并对于每个类别分别生成一个聚类索引列表,列表中的每个索引分别指向一个属于该类别的字符图像。
步骤3:根据图像分类所形成的类别将字符进行分类显示。
分类显示为将步骤1中聚类形成的结果分别显示,显示每一个类别所包括的字符图像,按照各个类所包含字符图像的数目为顺序进行显示,先显示字符图像数目较少的类别,在进行显示时,对每一类别显示的字符图像采取不同的颜色,更加便于区分。
对于聚类形成的每个类别,如图5所示,分别取其聚类索引列表中对应的各字符项,每个字符项所包括的字符信息为:识别结果、原图路径和原图中外接矩形坐标。从字符信息中记录的该字符所在的原图中外接矩形坐标提取该字符图像的数据,指定位置由字符信息中记录的原图的外接矩形框确定,然后显示该字符图像,每种聚类形成的字符图像选用不同的前景色进行显示,用颜色来区分不同类别的结果。本实施例中,聚类索引列表中具有三个聚类索引:聚类索引1、聚类索引2和聚类索引3,分别取对应的各字符项,形成的字符图像选用不同的前景色进行显示。
图1所示的是一般方法的显示结果,从图中可以看出识别正确的字符图像和识别错误的字符图像混在一起,很难分别开;在对字符图像按照聚类方法得到的类别进行显示时,如图2所示,可以清楚的辨别出错误字符,更加方便和准确的区分错误和正确的字符图像。本实施例中,对识别成“人”字的图像进行了聚类,然后对得到的每个类别使用不用的颜色进行的显示,如图2所示,可以看出前面的两个聚类得到的类别中包含了识别错误的字符图像,第3个聚类中的字符图像是识别正确的。
步骤4:根据分类显示的结果进行校对。校对时可用选择两种模式将对,一种模式是单独对分类显示的字符图像进行校对,如图2所示,聚类形成的类别1中,一些字符图像“大”在OCR识别引擎中被识别为“人”,一些字符图像“天”在OCR识别引擎中被识别为“人”,所以需要对每个字符图像分别进行校对。另一种模式是对整个类别统一校对成一种字符。如图2所示,聚类形成的类别2中,所有字符图像“表”在OCR识别引擎中均被识别为“人”,则将整个类别中的所有字符图像全部校正字符“表”。
校对时,在聚类形成的类别的聚类索引列表中的每个字符图像分别修改其识别结果即可。单独对分类显示的字符图像进行校对时,对该分类中聚类索引列表中的每个字符图像的识别结果分别进行修改,将字符图像对应的校正前的识别结果分别修改为目标字符。整个类别统一校对成一种字符时,对该分类中聚类索引列表中的每个字符图像的识别结果均修改成为一个字符,将各字符图像对应的校正前的识别结果分别修改为同一个目标字符。
本实施例中,聚类得到的类别2中所有字符图像“表”均被误识别成为“人”,将整个类别统一校对成一种字符,对于类别2的索引列表中的每个字符的识别结果都修改为“表”所对应的识别结果即可。类别1中一些字符图像“天”被误识别为“人”,另一些字符图像“大”被误识别为“人”,则单独对分类显示的字符图像进行校对,则在原图中根据上下文信息确定该字符图像正确的识别结果,将字符图像的字符编码分别对应修改为正确的识别结果。
本发明还公开了一种纵向校对装置,包括以下模块:
识别模块:将输入的文本通过OCR识别引擎进行识别,并记录每个字符在图像中的位置;
分类模块:对识别成同一识别结果的字符图像使用聚类的方法进行图像分类;
显示模块:根据图像分类所形成的类别将字符进行分类显示;
校正模块:根据分类显示的结果进行校对。
本发明首先对于文档中识别成同一字符的图像进行聚类,得到聚类形成的类别,并且按类别对字符图像进行分类的显示,然后再进行字符的校对。使错误的字符和正确的字符被分在不同的类别中被分类显示,可以很容易将正确的字符图像和错误的字符图像区分开来,校对的准确率比一般的纵向校对方法的准确率要高,减轻校对人员的疲劳程度。

Claims (9)

1.一种纵向校对方法,其特征在于,包括以下步骤:
步骤1:将输入的文本通过OCR识别引擎进行识别,并记录每个字符在图像中的位置;
步骤2:对识别成同一识别结果的字符图像使用聚类的方法进行图像分类;
步骤3:根据图像分类所形成的类别将字符进行分类显示;
步骤4:根据分类显示的结果进行校对。
2.根据权利要求1所述的方法,其特征在于:所述步骤1中记录每个字符在图像中的位置时,记录各字符对应的字符图像在原图中的外接矩形框的坐标。
3.根据权利要求1所述的方法,其特征在于:所述步骤2包括以下几个步骤:
步骤2.1:从识别成同一识别结果的字符图像中提取字符图像的字形特征;
步骤2.2:根据字符图像的字形特征进行聚类,将字符图像进行分类。
4.根据权利要求3所述的方法,其特征在于:所述步骤2.2中,对字符图像的类别采用聚类索引列表对字符图像进行索引。
5.根据权利要求1所述的方法,其特征在于:所述步骤3中分类显示时,分别显示每一类别所包括的字符图像。
6.根据权利要求5所述的方法,其特征在于:所述步骤3中分类显示时,按照各个类别所包含图像的数目分别显示各类别的字符图像。
7.根据权利要求1所述的方法,其特征在于:所述步骤4中根据分类显示的结果进行校对时,将该分类中聚类索引列表中的每个字符图像的识别结果分别修改为目标字符。
8.根据权利要求1所述的方法,其特征在于:所述步骤4中根据分类显示的结果进行校对时,对该分类中聚类索引列表中的每个字符图像的识别结果均修改为同一个目标字符。
9.一种纵向校对装置,其特征在于:包括以下模块:
识别模块:将输入的文本通过OCR识别引擎进行识别,并记录每个字符在图像中的位置;
分类模块:对识别成同一识别结果的字符图像使用聚类的方法进行图像分类;
显示模块:根据图像分类所形成的类别将字符进行分类显示;
校正模块:根据分类显示的结果进行校对。
CN2010101952795A 2010-05-31 2010-05-31 纵向校对方法和装置 Pending CN102262614A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101952795A CN102262614A (zh) 2010-05-31 2010-05-31 纵向校对方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101952795A CN102262614A (zh) 2010-05-31 2010-05-31 纵向校对方法和装置

Publications (1)

Publication Number Publication Date
CN102262614A true CN102262614A (zh) 2011-11-30

Family

ID=45009248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101952795A Pending CN102262614A (zh) 2010-05-31 2010-05-31 纵向校对方法和装置

Country Status (1)

Country Link
CN (1) CN102262614A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980604A (zh) * 2017-03-30 2017-07-25 理光图像技术(上海)有限公司 合同内容校阅装置
CN108171237A (zh) * 2017-12-08 2018-06-15 众安信息技术服务有限公司 一种文本行图像单字切分方法和装置
CN112906499A (zh) * 2021-01-29 2021-06-04 联想(北京)有限公司 文本信息识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1148218A (zh) * 1995-09-21 1997-04-23 中国科学院沈阳自动化研究所 一种计算机数字识别系统的图象聚类快速校对方法
JP2008225695A (ja) * 2007-03-09 2008-09-25 Fuji Xerox Co Ltd 文字認識誤り修正装置およびプログラム
CN101464903A (zh) * 2009-01-09 2009-06-24 江阴明伦科技有限公司 一种利用web方式进行OCR图文识别检索方法和系统
CN101542504A (zh) * 2006-09-08 2009-09-23 谷歌公司 后光学字符识别处理中的形状聚类

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1148218A (zh) * 1995-09-21 1997-04-23 中国科学院沈阳自动化研究所 一种计算机数字识别系统的图象聚类快速校对方法
CN101542504A (zh) * 2006-09-08 2009-09-23 谷歌公司 后光学字符识别处理中的形状聚类
JP2008225695A (ja) * 2007-03-09 2008-09-25 Fuji Xerox Co Ltd 文字認識誤り修正装置およびプログラム
CN101464903A (zh) * 2009-01-09 2009-06-24 江阴明伦科技有限公司 一种利用web方式进行OCR图文识别检索方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980604A (zh) * 2017-03-30 2017-07-25 理光图像技术(上海)有限公司 合同内容校阅装置
CN106980604B (zh) * 2017-03-30 2019-12-31 理光图像技术(上海)有限公司 合同内容校阅装置
CN108171237A (zh) * 2017-12-08 2018-06-15 众安信息技术服务有限公司 一种文本行图像单字切分方法和装置
CN112906499A (zh) * 2021-01-29 2021-06-04 联想(北京)有限公司 文本信息识别方法及装置

Similar Documents

Publication Publication Date Title
US7836390B2 (en) Strategies for processing annotations
USRE47889E1 (en) System and method for segmenting text lines in documents
US9910842B2 (en) Interactively predicting fields in a form
CN102360419B (zh) 计算机扫描阅读管理方法及系统
US8781229B2 (en) System and method for localizing data fields on structured and semi-structured forms
CN109308476A (zh) 票据信息处理方法、系统及计算机可读存储介质
CN111325110A (zh) 基于ocr的表格版式恢复方法、装置及存储介质
JP6517666B2 (ja) 物品管理装置、その方法、及びそのプログラム
CN110503054B (zh) 文本图像的处理方法及装置
CN102822846B (zh) 用于对来自文本行图像的单词进行分割的方法和设备
CN103154974A (zh) 字符识别装置、字符识别方法、字符识别系统以及字符识别程序
CN111242024A (zh) 基于机器学习识别图纸内图例及文字的方法及系统
CN105260751A (zh) 一种文字识别方法及其系统
US11386682B2 (en) Image processing system and an image processing method
CN107122775A (zh) 一种基于特征匹配的安卓手机身份证字符识别方法
CN111695555B (zh) 一种基于题号的精准框题方法、装置、设备和介质
US20140006917A1 (en) System and method for forms recognition by synthesizing corrected localization of data fields
CN105740857A (zh) 一种基于ocr的快速纸笔投票结果自动采集与识别系统
CN104063701B (zh) 基于surf词汇树和模板匹配的快速电视台台标识别系统及其实现方法
CN104978577B (zh) 信息处理方法、装置及电子设备
CN114821620A (zh) 基于行文本框纵向合并的文本内容提取识别方法
CN112541504A (zh) 一种针对文本中单个字符目标的检测方法
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
JP2012190434A (ja) 帳票定義装置、帳票定義方法、プログラム及び記録媒体
CN102262614A (zh) 纵向校对方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20111130