CN102479326A

CN102479326A - 一种图文识别人工校对辅助方法及系统

Info

Publication number: CN102479326A
Application number: CN2010105725818A
Authority: CN
Inventors: 吴建宇
Original assignee: Founder International Co Ltd; Founder International Beijing Co Ltd
Current assignee: Founder International Co Ltd; Founder International Beijing Co Ltd
Priority date: 2010-11-30
Filing date: 2010-11-30
Publication date: 2012-05-30
Anticipated expiration: 2030-11-30
Also published as: CN102479326B

Abstract

本发明涉及一种图文识别人工校对辅助方法及系统，属于校对技术领域。本发明首先叠加原始图片层、第一切分子图片层、第二切分子图片层和全文合成层；切分子图片层根据其在原始图片中的位置与原始图片层对应；然后比较第一切分子图片层、第二切分子图片层和全文合成层中相对应位置上的字符；如果不同，则对第一切分子图片层和第二切分子图片层中该字符所属子图片进行标注；最后根据标注结果，人工修改第一切分子图片层中标注位置的字符，并根据第一切分子图片层的修改结果自动修改全文合成层中的相应字符。本发明大大了提高了校对者的校对效率，适用于对图文识别的人工校对场合。

Description

一种图文识别人工校对辅助方法及系统

技术领域

本发明属于校对技术领域，具体涉及一种图文识别人工校对辅助方法及系统。

背景技术

建设数字图书馆时，往往需要将纸质图书转化为电子版的数字图书。通常采用的方法是先将纸质图书扫描成图片格式的扫描件，然后利用OCR(Optical Character Recognition，光学字符识别)技术从扫描件中识别出字符及版面信息等内容，从而将纸质图书转化成了数字图书。但是，对于一些古籍，采用OCR技术识别的准确率较低，无法满足要求。

一种解决方法可以概括为：将书籍每页的扫描件切分成若干个包含若干个字符的子图片，将这些子图片分发给不同的人进行识别，再将识别结果合并成与扫描件对应的电子文档。但是，在对扫描件进行切分时，可能存在将同一字符切分到两个子图片的情况，造成识别的错误。也可能存在字符识别过程中的人为错误。因此，还需要对合成的电子文档进行校对。如果仅仅通过人工的方式对合成的电子文档进行校对，显然工作量较大，效率较低。

发明内容

针对现有技术中存在的缺陷，本发明所要解决的技术问题是提供一种图文识别人工校对辅助方法与系统，该方法及系统能够向校对者提示出识别错误的字符，提高校对的质量和效率。

为解决上述技术问题，本发明采用的技术方案如下：

一种图文识别人工校对辅助方法，包括以下步骤：

(1)叠加原始图片层、第一切分子图片层、第二切分子图片层和全文合成层；所述切分子图片层根据其在原始图片中的位置与原始图片层对应；

所述原始图片层是指扫描的原始图片，位于最底层；所述切分子图片层是指将所述原始图片切分成若干子图片后，再由这些子图片合成的层，还包括从子图片中识别的、与子图片对应的字符；所述全文合成层是指根据第一切分子图片层中识别字符，经过合并生成的与原始图片中字符对应的电子文件层；

(2)比较第一切分子图片层、第二切分子图片层和全文合成层中相对应位置上的字符；如果不同，则对第一切分子图片层和第二切分子图片层中该字符所属子图片进行标注；

(3)根据标注结果，人工修改第一切分子图片层中标注位置的字符。

如上所述的图文识别人工校对辅助方法，该方法还包括对所述全文合成层进行分词分析的操作；如果所述全文合成层中多个字符由于一个字符而不能组成词组，则自动修改这个字符使多个字符能够组成词组，并在切分子图片层中对自动修改的字符所属子图片进行标注。

如上所述的图文识别人工校对辅助方法，其中，第一切分子图片层中将原始图片切分成若干子图片的方法如下：

依据字符排版方向，先将原始图片按照字符排版方向切分为若干图片条，每个图片条包含一行或一列字符；然后再将每个图片条按照字符排版方向切分成若干设定长度的子图片，切分图片条的过程如下：

从待切分图片条的起点开始，按照切分方向查找设定长度的预切分线；如果预切分线上黑像素个数超过阈值M，则沿着切分方向每像素步长移动预切分线，查找预切分线上黑像素个数不大于阈值M的位置，将该位置作为切分位置切分图片条；否则，直接将预切分线位置作为切分位置切分图片条；下一次切分操作从上一个切分位置开始计算设定长度；所述切分方向为待切分图片条中字符排版方向。

如上所述的图文识别人工校对辅助方法，其中，第二切分子图片层是以第一切分子图片层的切分线为基础再次将所述原始图片切分成若干子图片，具体的切分方法如下：

在图片条的每一个切分位置处，根据设定长度的1/2向左右或上下查找预切分线；如果预切分线上黑像素个数超过阈值M，则从预切分线处沿着预切分线查找方向每像素步长移动预切分线，查找预切分线上黑像素个数不大于阈值M的位置，将该位置作为切分位置；否则，以将预切分线位置作为切分位置切分图片条。

如上所述的图文识别人工校对辅助方法，其中，阈值M为2。

如上所述的图文识别人工校对辅助方法，其中，对第一切分子图片层和第二切分子图片层中的子图片进行标注的方法为：设置子图片白色区域为透明，并依据第一切分子图片层与第二切分子图片层以及全文合成层中相对应字符的相似度，设置透明度百分比；相似度越大，透明度百分比越大。

如上所述的图文识别人工校对辅助方法，该方法还包括根据第一切分子图片层的修改结果自动修改全文合成层中的相应字符的步骤。

一种图文识别人工校对辅助系统，包括：

叠加装置，用于叠加原始图片层、第一切分子图片层、第二切分子图片层和全文合成层；所述切分子图片层根据其在原始图片中的位置与原始图片层对应；

比较装置，用于比较第一切分子图片层、第二切分子图片层和全文合成层中相对应位置上的字符；

标注装置，用于根据比较装置的比较结果，对第一切分子图片层和第二切分子图片层中该字符所属子图片进行标注；所述子图片是指第一切分子图片层、第二切分子图片层和全文合成层中相对应位置上字符不同时该字符所属的子图片。

如上所述的图文识别人工校对辅助系统，该系统还包括分词装置，用于对所述全文合成层进行分词分析，如果所述全文合成层中多个字符由于一个字符而不能组成词组，则自动修改这个字符使多个字符能够组成词组。

如上所述的图文识别人工校对辅助系统，其中，标注装置还用于根据分词装置自动修改的字符对切分子图片层中该字符所属子图片进行标注。

本发明所述的方法及系统，通过对第一切分子图片层、第二切分子图片层和全文合成层的比较，可以判断出可能识别错误的字符，对可能识别错误字符所属子图片进行标注，提示校对者关注，从而大大了提高了校对者的校对效率。

附图说明

图1是具体实施方式中图文识别人工校对辅助系统的结构框图；

图2是具体实施方式中图文识别人工校对辅助方法的流程图；

图3A是具体实施方式中初次切分时预切分线落在字符上时对切分位置进行调整的示意图；

图3B是具体实施方式中再次切分预切分线落在字符上时对切分位置进行调整的示意图；

图4A是具体实施方式中原始图片的示意图；

图4B是具体实施方式中对图4A所示原始图片初次切分时切分出的子图片示意图；

图4C是具体实施方式中对图4A所示原始图片再次切分时切分出的子图片示意图。

具体实施方式

下面结合具体实施方式和附图对本发明进行详细描述。

图1示出了本实施方式中图文识别人工校对辅助系统的结构。如图1所示，该系统包括叠加装置11，与叠加装置11连接的比较装置12、与比较装置12连接的标注装置13，以及与叠加装置11和标注装置13连接的分词装置14。

叠加装置11用于叠加原始图片层、第一切分子图片层、第二切分子图片层和全文合成层。所述切分子图片层根据其在原始图片中的位置与原始图片层对应。所述原始图片层是指扫描的原始图片，位于最底层。所述切分子图片层是指将所述原始图片切分成若干子图片后，再由这些子图片合成的层，还包括从子图片中识别的、与子图片对应的字符。第二切分子图片层是指以第一切分子图片层的切分线为基础再次将原始图片切分成若干子图片，由这些子图片合成的层。所述全文合成层是指根据第一切分子图片层中识别字符，经过合并生成的与原始图片中字符对应的电子文件层；

比较装置12用于比较第一切分子图片层、第二切分子图片层和全文合成层中相对应位置上的字符。

标注装置13用于根据比较装置12的比较结果，对第一切分子图片层和第二切分子图片层中该字符所属子图片进行标注。所述子图片是指第一切分子图片层、第二切分子图片层和全文合成层中相对应位置上字符不同时该字符所属的子图片。

分词装置14用于对全文合成层进行分词分析，如果全文合成层中多个字符由于一个字符而不能组成词组，则自动修改这个字符使多个字符能够组成词组。

标注装置13还用于根据分词装置14自动修改的字符对第一和第二切分子图片层中该字符所属子图片进行标注。

图2示出了采用图1所示系统辅助图文识别人工校对的方法流程。如图2所示，该方法包括以下步骤：

(1)叠加原始图片层、第一切分子图片层、第二切分子图片层和全文合成层；所述切分子图片层根据其在原始图片中的位置与原始图片层对应。

在对原始图片进行切分时，先对原始图片进行初次切分，切分成若干个子图片，第一切分子图片层便是由这些初次切分出的子图片及从这些子图片中识别的字符合成。初次切分原始图片的方法如下：

例如，如图3A所示，由于图3A中的预切分线31落在了字符“华”上，即预切分线31上黑像素个数超过了阈值M，因此以像素为步长移动预切分线31，查找到预切分线31上黑像素个数不大于阈值的位置，如图3A中的实线位置32，作为实际切分位置。

由于图片中可能存在噪点，因此设置阈值是必要的，这样可以尽量避免将噪点当成字符的情况发生。本实施方式中，阈值M的值设定为2。当然，可以根据图片的具体质量情况改变阈值M的大小。

在对原始图片进行初次切分后，可能存在一种情况，左右结构和上下结构的字符可能被切分在两个子图片中。因此为了保证同一个字符被切分在同一个子图片中，需要以初次切分线为参照对原始图片再次进行切分，第二切分子图片层便是由这些再次切分出的子图片合成。具体的切分方法如下：

在图片条初次切分时的每一个切分位置处，根据设定长度的1/2向左右或上下查找预切分线；如果预切分线上黑像素个数超过阈值M，则从预切分线处沿着预切分线查找方向每像素步长移动预切分线，查找预切分线上黑像素个数不大于阈值M的位置，将该位置作为切分位置；否则，以将预切分线位置作为切分位置切分图片条。

如图3B所示，虚线33为初次切分时的实际切分线，以该线为参照，向左1/2设定长度处为左侧预切分线的位置，即虚线34为左侧预切分线；向右1/2设定长度处为右侧预切分线的位置，即虚线35为右侧预切分线。虚线34和虚线35之间的距离为设定长度。由于左右两侧的预切分线位置均落在了字符当中(可以根据预切分线上黑像素个数判断出来)，因此对于左侧预切分线34以像素为步长向左移动，找到实际切分线36，对于右侧预切分线35以像素为步长向右移动，找到实际切分线37。最终以切分线36和37位置切分图片条。

在切分出子图片后，记录子图片在原始图片中的位置，以每个子图片的位置为依据合并子图片及从子图片中识别出的字符。

(2)比较第一切分子图片层、第二切分子图片层和全文合成层中相对应位置上的字符；如果不同，则对第一切分子图片层和第二切分子图片层中该字符所属子图片进行标注。

例如，假设图4A所示的原始图片，初次切分时切分出的子图片如图4B所示，再次切分时切出的图片如图4C所示。从图4B中识别出的字符为“中华人民共和国的月月友”，从图4C中识别出的字符为“华人民共和国的朋”。根据子图片的位置信息得到各层之间的对应位置关系如下表所示：

0

1

2

3

4

5

6

7

8

9

0

中

华

人

民

共

和

国

的

朋

友

1

中

华

人

民

共

和

国

的月

月

友

2

华

人

民

共

和

国

的

朋

3

中

华

人

民

共

和

国

的月

月

友

其中，第一行为原始图片中字符，第二行为第一切分子图片层中字符，第三行为第二切分子图片层中字符，第四行为全文合成层中字符。

利用第二切分子图片层对第一切分子图片层进行校对，即比较第一切分子图片层和第二切分子图片层相对应位置上的字符是否相同。上例中，当比较到第7列位置处，由于“的月”与“的”不同，因此对“的月”所属子图片进行标注；当比较到第8列时，由于“月”与“朋”不同，因此对“月”所属子图片进行标注。标注方法如下：

设置子图片白色区域为透明，并依据第一切分子图片层与第二切分子图片层以及全文合成层中相对应字符的相似度，设置透明度百分比；相似度越大，透明度百分比越大。比较字符的相似度可采用现有方法。

(3)根据标注结果，人工修改第一切分子图片层中标注位置的字符，并根据第一切分子图片层的修改结果自动修改全文合成层中的相应字符。

利用第二切分子图片层对第一切分子图片层进行校对并根据校对结果修改全文合成层后，再对全文合成层进行分词分析操作。如果全文合成层中多个字符由于一个字符而不能组成词组，则自动修改这个字符使多个字符能够组成词组，并在切分子图片层中对自动修改的字符所属子图片进行标注。

例如，图4A中的“国”字，假设被错误识别成了“口”字。在进行分词分析时，由于“中华人民共和”可以和“国”组成词组，因此自动将“口”字修改成“国”字，并对“口”字符所属子图片进行标注，提示校对人员。

对全文合成层进行分词分析操作可在多个时机进行多次。例如，在全文合成层合成后，便可以对其进行分词分析操作；再通过比较切分子图片中字符、修改全文合成层后还可以对其进行分词分析操作。这样，可以提高校对的准确率。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种图文识别人工校对辅助方法，包括以下步骤：

2.如权利要求1所述的图文识别人工校对辅助方法，其特征在于：所述方法还包括对所述全文合成层进行分词分析的操作；如果所述全文合成层中多个字符由于一个字符而不能组成词组，则自动修改这个字符使多个字符能够组成词组，并在切分子图片层中对自动修改的字符所属子图片进行标注。

3.如权利要求1或2所述的图文识别人工校对辅助方法，其特征在于：第一切分子图片层中将原始图片切分成若干子图片的方法如下：

4.如权利要求3所述的图文识别人工校对辅助方法，其特征在于：所述第二切分子图片层是以第一切分子图片层的切分线为基础再次将所述原始图片切分成若干子图片，具体的切分方法如下：

5.如权利要求4所述的图文识别人工校对辅助方法，其特征在于：所述阈值M为2。

6.如权利要求1或2所述的图文识别人工校对辅助方法，其特征在于：对第一切分子图片层和第二切分子图片层中的子图片进行标注的方法为：设置子图片白色区域为透明，并依据第一切分子图片层与第二切分子图片层以及全文合成层中相对应字符的相似度，设置透明度百分比；相似度越大，透明度百分比越大。

7.如权利要求1所述的图文识别人工校对辅助方法，其特征在于：所述方法还包括根据第一切分子图片层的修改结果自动修改全文合成层中的相应字符的步骤。

8.一种图文识别人工校对辅助系统，包括：

叠加装置(11)，用于叠加原始图片层、第一切分子图片层、第二切分子图片层和全文合成层；所述切分子图片层根据其在原始图片中的位置与原始图片层对应；

比较装置(12)，用于比较第一切分子图片层、第二切分子图片层和全文合成层中相对应位置上的字符；

标注装置(13)，用于根据比较装置(12)的比较结果，对第一切分子图片层和第二切分子图片层中该字符所属子图片进行标注；所述子图片是指第一切分子图片层、第二切分子图片层和全文合成层中相对应位置上字符不同时该字符所属的子图片。

9.如权利要求8所述的图文识别人工校对辅助系统，其特征在于：所述系统还包括分词装置(14)，用于对所述全文合成层进行分词分析，如果所述全文合成层中多个字符由于一个字符而不能组成词组，则自动修改这个字符使多个字符能够组成词组。

10.如权利要求9所述的图文识别人工校对辅助系统，其特征在于：所述标注装置(13)还用于根据分词装置(14)自动修改的字符对切分子图片层中该字符所属子图片进行标注。