CN102262614A

CN102262614A - 纵向校对方法和装置

Info

Publication number: CN102262614A
Application number: CN2010101952795A
Authority: CN
Inventors: 王琛; 刘正珍
Original assignee: Hanwang Technology Co Ltd
Current assignee: Hanwang Technology Co Ltd
Priority date: 2010-05-31
Filing date: 2010-05-31
Publication date: 2011-11-30

Abstract

本发明一种纵向校对方法和装置，属于文字处理领域。方法包括：将输入的文本通过OCR识别引擎进行识别，并记录每个字符在图像中的位置；对识别成同一识别结果的字符图像使用聚类的方法进行图像分类；根据图像分类所形成的类别将字符进行分类显示；根据分类显示的结果进行校对。本发明在纵向校对加入了聚类的步骤，对于文档中识别成同一字符的图像进行聚类，得到聚类形成的类别，并且按类别对字符图像进行分类的显示，然后再进行字符的校对。使错误的字符和正确的字符被分在不同的类别中被分类显示，可以很容易将正确的字符图像和错误的字符图像区分开来，校对的准确率比一般的纵向校对方法的准确率要高，减轻校对人员的疲劳程度。

Description

纵向校对方法和装置

技术领域

本发明属于文字处理领域，涉及一种数据校对的方法和装置，具体涉及一种纵向校对方法和装置。

背景技术

一个完整的文档录入系统分为以下部分：纸质资料的整理、扫描、图像预处理、版面分析、识别、校对和保存，其中校对又可以分为横向校对和纵向校对两部分。

横向校对：这是传统的人工校对方法，直接将识别结果文本与图像进行对比，系统自动调用文本所对应的图像进行比对，同时，以颜色标记识别可信度不高的文字。

纵向校对：将文档中识别结果为同一个字的文字图像集中显示，并以突出颜色标出可疑字，发现错误并修改，具有很强的查错能力。

纵向校对将文档中所有识别结果相同的字符图像集中呈现在一个视图中，从而使校对人员较容易挑出其中错误的字符。但是一般来说，需要纠正的字符是由于字形相近引起，如“大”和“犬”字形相近，所以在这些字形相近的字符中寻找差异的字符。如果做大量这样的工作的话，容易引起视觉疲劳，造成校对的准确率降低。

发明内容

本发明所要解决的技术问题是提出一种纵向校对方法和装置，将对于文档中识别成同一字符的图像进行聚类，得到聚类形成的类别，并且按类别对字符图像进行分类的显示，然后再进行字符的校对。校对的准确率比一般的纵向校对方法的准确率要高，减轻校对人员的疲劳程度。

本发明公开了一种纵向校对方法，包括以下步骤：

步骤1：将输入的文本通过OCR识别引擎进行识别，并记录每个字符在图像中的位置；

步骤2：对识别成同一识别结果的字符图像使用聚类的方法进行图像分类；

步骤3：根据图像分类所形成的类别将字符进行分类显示；

步骤4：根据分类显示的结果进行校对。

所述步骤1中记录每个字符在图像中的位置时，记录各字符对应的字符图像在原图中的外接矩形框的坐标。

所述步骤2包括以下几个步骤：

步骤2.1：对对识别成同一识别结果的字符图像进行特征提取，提取字符图像的字形特征；

步骤2.2：根据字符图像的字形特征进行聚类，将字符图像进行分类，得到不同的字符图像的类别。

所述步骤2.2中，对字符图像的类别采用聚类索引列表对字符图像进行索引。

所述步骤3中分类显示时，分别显示每一类别所包括的字符图像。

所述步骤3中分类显示时，按照各个类别所包含图像的数目分别显示各类别的字符图像。

所述步骤4中根据分类显示的结果进行校对时，将该分类中聚类索引列表中的每个字符图像的识别结果分别修改为目标字符。

所述步骤4中根据分类显示的结果进行校对时，对该分类中聚类索引列表中的每个字符图像的识别结果均修改为同一个目标字符。

本发明还公开了一种纵向校对装置，包括以下模块：

识别模块：将输入的文本通过OCR识别引擎进行识别，并记录每个字符在图像中的位置；

分类模块：对识别成同一识别结果的字符图像使用聚类的方法进行图像分类；

显示模块：根据图像分类所形成的类别将字符进行分类显示；

校正模块：根据分类显示的结果进行校对。

本发明一种改进的纵向校对方法和装置的优点在于：在纵向校对加入了聚类的步骤，对于文档中识别成同一字符的图像进行聚类，得到聚类形成的类别，并且按类别对字符图像进行分类的显示，然后再进行字符的校对。使错误的字符和正确的字符被分在不同的类别中被分类显示，可以很容易将正确的字符图像和错误的字符图像区分开来，校对的准确率比一般的纵向校对方法的准确率要高，减轻校对人员的疲劳程度。

附图说明

图1为本发明纵向校对方法的流程图；

图2为本发明纵向校对方法在聚类前显示状态图；

图3为本发明纵向校对方法在聚类后显示状态图；

图4为本发明纵向校对方法的聚类示意图；

图5为本发明纵向校对方法聚类的数据结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明公开了一种纵向校对方法，如图1所示，包括如下步骤：

步骤1：将输入的文本通过OCR识别引擎进行字符识别，并记录每个字符在图像中的位置；

采用OCR识别引擎对输入的文本进行识别，并且记录每个字符在图像中的位置，本实施例中，在内存中记录各字符对应的字符图像在原图中的外接矩形框的坐标。

步骤2：对识别成同一识别结果的字符图像使用聚类的方法进行图像分类。

经OCR识别引擎识别后所得到的识别结果相同的字符图像，从识别成同一识别结果的字符图像中分别提取这些字符图像的字形特征。因为基于方向的特征反映了汉字的属性，故本实施例中采用字符的方向线素特征来记录字符图像的字形特征。提取每张字符图像196维的方向线素特征，如图1所示，为一本待录入的书籍中所有被识别成字符“人”字对应的识别结果的字符图像，共150个，将每张字符图像分别提取方向线素特征，得到一个由150个特征向量组成的特征向量集合S＝{x₁，x₂，…，x₁₅₀}。x_i(i＝1、2、…、150)表示第i张字符图像对应的特征向量，其中，每个特征向量中含有N个数值，表示每张字符图像对应的196维的方向线素特征。

然后对这些字符图像的方向线素特征进行聚类，采用聚类分析的方法将这些字符图像进行分类。由于本实施例中由于进行聚类的特征向量集合数目不大，如果使用通常的聚类算法K-means方法进行聚类则初始时选择的聚类中心过于邻近，使多个聚类中心都被选择在同一类中。故本实施例中，采用最大最小距离算法进行图像分类，最大最小距离的方法选取尽可能离得远的对象作为初始聚类中心，这样就可以得到数据的一个特征明显的初始划分，使各字符图像的差异化更加显著，从而形成各种分类。如图3所示，具体的实施步骤如下：

(1)在特征向量集合S中任特征向量x₁作为第一个类别的聚类中心，则有Z₁＝x₁，x₁为图1中第1个字符图像对应的特征向量。

(2)从集合S中剩余的特征向量中计算到Z₁距离最大的点作为第二个类的聚类中心。本实施例中，Z₂＝x₁₀₈，x₁₀₈为图1中第108个字符图像对应的特征向量。

(3)对于集合S中剩余字符图像对应的特征向量，分别计算该向量到Z₁、Z₂的距离d_i1和d_i2(i＝1、2、…、150)，d_i1＝||x_i-Z₁||；d_i2＝||x_i-Z₂||；令其中的较小值为min(d_i1，d_i2)，min(d_i1，d_i2)表示第i个特征向量到Z₁和Z₂两个聚类中心的距离中的最小值，用min(d_i1，d_i2)表示第i个特征向量到当前聚类结果的距离。

(4)计算min(d_i1，d_i2)的最大值max(min(d_i1，d_i2))，得到对应的特征向量，max(min(d_i1，d_i2))表示特征向量集合中到当前聚类结果中的最大距离，本实施例中，对应的特征向量为x₃₃，即特征向量集合中x₃₃到当前聚类结果的距离为最大距离，为为图1中第33个字符图像对应的特征向量。

(5)如果max(min(d_i1，d_i2))＞m×|Z₂-Z₁|，则取x₃₃为第三个类别的聚类中心；其中，m为最大最小距离法中的检验参数，本实施例中取0.75，x₃₃为图1中第33个字符图像对应的特征向量；如果max(min(d_i1，d_i2))＜m×|Z₂-Z₁|，则满足最大最小距离算法终止条件，聚类结束。

(6)计算集合S中剩余的特征向量到Z₁、Z₂、Z₃的最小距离min(d_i1，d_i2，d_i3)。

(7)计算min(d_i1，d_i2，d_i3)的最大值max(min(d_i1，d_i2，d_i3))。

(8)如果max(min(d_i1，d_i2，d_i3))＞m×[average(|Z₂-Z₁|，|Z₃-Z₂|)]，则添加新的聚类中心并进行新一轮的最大最小距离的计算，否则，聚类算法终止。在本实施例中max(min(d_i1，d_i2，d_i3))＜m×[average(|Z₂-Z₁|，|Z₃-Z₂|)]，聚类结束。

经过以上的步骤，特征向量集合S被聚成三类Z₁、Z₂、Z₃对应的图像，如图2所示，为图1中的字符图像经过聚类形成的结果。

分别记录每个图像所属于的类别，并对于每个类别分别生成一个聚类索引列表，列表中的每个索引分别指向一个属于该类别的字符图像。

步骤3：根据图像分类所形成的类别将字符进行分类显示。

分类显示为将步骤1中聚类形成的结果分别显示，显示每一个类别所包括的字符图像，按照各个类所包含字符图像的数目为顺序进行显示，先显示字符图像数目较少的类别，在进行显示时，对每一类别显示的字符图像采取不同的颜色，更加便于区分。

对于聚类形成的每个类别，如图5所示，分别取其聚类索引列表中对应的各字符项，每个字符项所包括的字符信息为：识别结果、原图路径和原图中外接矩形坐标。从字符信息中记录的该字符所在的原图中外接矩形坐标提取该字符图像的数据，指定位置由字符信息中记录的原图的外接矩形框确定，然后显示该字符图像，每种聚类形成的字符图像选用不同的前景色进行显示，用颜色来区分不同类别的结果。本实施例中，聚类索引列表中具有三个聚类索引：聚类索引1、聚类索引2和聚类索引3，分别取对应的各字符项，形成的字符图像选用不同的前景色进行显示。

图1所示的是一般方法的显示结果，从图中可以看出识别正确的字符图像和识别错误的字符图像混在一起，很难分别开；在对字符图像按照聚类方法得到的类别进行显示时，如图2所示，可以清楚的辨别出错误字符，更加方便和准确的区分错误和正确的字符图像。本实施例中，对识别成“人”字的图像进行了聚类，然后对得到的每个类别使用不用的颜色进行的显示，如图2所示，可以看出前面的两个聚类得到的类别中包含了识别错误的字符图像，第3个聚类中的字符图像是识别正确的。

步骤4：根据分类显示的结果进行校对。校对时可用选择两种模式将对，一种模式是单独对分类显示的字符图像进行校对，如图2所示，聚类形成的类别1中，一些字符图像“大”在OCR识别引擎中被识别为“人”，一些字符图像“天”在OCR识别引擎中被识别为“人”，所以需要对每个字符图像分别进行校对。另一种模式是对整个类别统一校对成一种字符。如图2所示，聚类形成的类别2中，所有字符图像“表”在OCR识别引擎中均被识别为“人”，则将整个类别中的所有字符图像全部校正字符“表”。

校对时，在聚类形成的类别的聚类索引列表中的每个字符图像分别修改其识别结果即可。单独对分类显示的字符图像进行校对时，对该分类中聚类索引列表中的每个字符图像的识别结果分别进行修改，将字符图像对应的校正前的识别结果分别修改为目标字符。整个类别统一校对成一种字符时，对该分类中聚类索引列表中的每个字符图像的识别结果均修改成为一个字符，将各字符图像对应的校正前的识别结果分别修改为同一个目标字符。

本实施例中，聚类得到的类别2中所有字符图像“表”均被误识别成为“人”，将整个类别统一校对成一种字符，对于类别2的索引列表中的每个字符的识别结果都修改为“表”所对应的识别结果即可。类别1中一些字符图像“天”被误识别为“人”，另一些字符图像“大”被误识别为“人”，则单独对分类显示的字符图像进行校对，则在原图中根据上下文信息确定该字符图像正确的识别结果，将字符图像的字符编码分别对应修改为正确的识别结果。

本发明还公开了一种纵向校对装置，包括以下模块：

校正模块：根据分类显示的结果进行校对。

本发明首先对于文档中识别成同一字符的图像进行聚类，得到聚类形成的类别，并且按类别对字符图像进行分类的显示，然后再进行字符的校对。使错误的字符和正确的字符被分在不同的类别中被分类显示，可以很容易将正确的字符图像和错误的字符图像区分开来，校对的准确率比一般的纵向校对方法的准确率要高，减轻校对人员的疲劳程度。

Claims

1.一种纵向校对方法，其特征在于，包括以下步骤：

步骤3：根据图像分类所形成的类别将字符进行分类显示；

步骤4：根据分类显示的结果进行校对。

2.根据权利要求1所述的方法，其特征在于：所述步骤1中记录每个字符在图像中的位置时，记录各字符对应的字符图像在原图中的外接矩形框的坐标。

3.根据权利要求1所述的方法，其特征在于：所述步骤2包括以下几个步骤：

步骤2.1：从识别成同一识别结果的字符图像中提取字符图像的字形特征；

步骤2.2：根据字符图像的字形特征进行聚类，将字符图像进行分类。

4.根据权利要求3所述的方法，其特征在于：所述步骤2.2中，对字符图像的类别采用聚类索引列表对字符图像进行索引。

5.根据权利要求1所述的方法，其特征在于：所述步骤3中分类显示时，分别显示每一类别所包括的字符图像。

6.根据权利要求5所述的方法，其特征在于：所述步骤3中分类显示时，按照各个类别所包含图像的数目分别显示各类别的字符图像。

7.根据权利要求1所述的方法，其特征在于：所述步骤4中根据分类显示的结果进行校对时，将该分类中聚类索引列表中的每个字符图像的识别结果分别修改为目标字符。

8.根据权利要求1所述的方法，其特征在于：所述步骤4中根据分类显示的结果进行校对时，对该分类中聚类索引列表中的每个字符图像的识别结果均修改为同一个目标字符。

9.一种纵向校对装置，其特征在于：包括以下模块：

校正模块：根据分类显示的结果进行校对。