CN106548175A

CN106548175A - 一种新型的文字图像数字化处理方法

Info

Publication number: CN106548175A
Application number: CN201610891108.3A
Authority: CN
Inventors: 王良君; 禇正东; 徐朝龙; 王旭
Original assignee: JIANGSU ABEYOND OUTSOURCING CO Ltd
Current assignee: JIANGSU ABEYOND OUTSOURCING CO Ltd
Priority date: 2016-10-13
Filing date: 2016-10-13
Publication date: 2017-03-29

Abstract

本发明涉及一种新型的文字图像数字化处理方法，包括步骤1、将图像碎片化，利用OCR对图像进行切割，并记录碎片坐标：在传统OCR的基础上结合空间阈值算法，只进行切割，不进行识别；先用OCR定位文字区域，再识别出文字区域的行数和列数，根据文字区域和行列数，确定每个文字的单元格；根据灰度值阈值，依次判定文字单元格内像素点是否为有效像素点，并统计文字单元格内有效像素点数量，再根据文字像素点阈值，判定文字单元格内是否为文字；文字单元格指文字所在的矩形块；步骤2、在录入平台进行录入，并对录入结果进行比较，校检，抽检;步骤3、根据录入结果和坐标，还原位置，生成PDF文件。

Description

一种新型的文字图像数字化处理方法

技术领域

本发明涉及一种文字图像数字化处理方法，属于图像数字化领域，具体涉及文字图像碎片化，线上数字化处理。

背景技术

传统的文字图像数字化，以古籍为例，先将古籍扫描成电子图像，然后录入人员对照电子图像进行文字录入，最后对照原图进行排版，整理成数字化文献，比如PDF文件。传统图像数字化，存在一些弊端，录入人员可以看到整张古籍图像，信息安全度不高。对照原图手工排版，效率低下。

发明内容

针对以上问题本发明提供了一种可提高图像数字化信息安全度和效率的文字图像数字化处理方法，本图像数字化处理方法结合互联网技术解决传统数字化面临的难题。

为了解决以上问题本发明提供了一种新型的文字图像数字化处理方法，其特征在于，包括以下内容，

步骤1、将图像碎片化，利用OCR对图像进行切割，并记录碎片坐标：

在传统OCR的基础上结合空间阈值算法，只进行切割，不进行识别；先用OCR定位文字区域，再识别出文字区域的行数和列数，根据文字区域和行列数，确定每个文字的单元格；根据灰度值阈值，依次判定文字单元格内像素点是否为有效像素点，并统计文字单元格内有效像素点数量，再根据文字像素点阈值，判定文字单元格内是否为文字；文字单元格指文字所在的矩形块；

步骤2、在录入平台进行录入，并对录入结果进行比较，校检，抽检;

步骤3、根据录入结果和坐标，还原位置，生成PDF文件:

根据坐标，确定PDF上的单个文字矩形区域，将网上作业人员录入的文字存入PDF相应的位置；根据网上作业人员录入的文字数量，将图像坐标对应的矩形区域，切割成同等数量的区域，并将文字放入对应的位置。根据坐标还原位置，生成PDF，效率较高，位置也比较精确，解决了手工排版效率低下的难题。

所述的步骤1还包括以下内容：

步骤1-1、根据文献对比度，设定灰度值阈值，正文颜色较深的文献（灰度值均值在0-150），灰度值阈值设定比较低，设定在100-150，正文颜色较浅的文献（灰度值均值在150-255），设定在150-200；当文献的灰度值小于灰度值阈值时，判定为有效像素点；

步骤1-2、根据文字单元格大小，设定文字像素点阈值，设定公式为(w+h)/4*n，四舍五入取整，其中w为文字单元格宽度，h为文字单元格高度，n为笔画粗度均值。例如文字单元格宽度为80px，高度为60px,笔画粗度均值为2px，则根据公式计算，设定文字像素点阈值为70。

步骤1-3、统计文字单元格内有效像素点数量，当数量大于文字像素点阈值时，判定为有效文字；

步骤1-4、对于判定为有效文字的矩形块进行切割，并记录文字坐标；这里使用了第三方图片裁剪工具类imgscalr，调用imgscalr提供的crop方法，根据坐标裁剪矩形块。

步骤1-5、这样文字图像被切割成一张张文字图像碎片。

本发明提高了图像数字化信息安全度和效率，结合互联网技术解决传统数字化面临的难题。将整张文献图片切割成一个个碎片, 因为每个作业人员只能看到图像中的一个碎片块，对于提高信息安全度重要性不言而喻，尤其是一些重要资料的录入，如名片，银行票据等，对信息安全度要求较高。根据坐标自动还原位置，生成PDF，效率较高，位置也比较精确，解决了手工排版效率低下的难题。

附图说明

图1为古籍文字示意图。

具体实施方式

下面结合附图，对本发明作进一步详细说明。

本发明提供了一种新型的文字图像数字化处理方法，包括以下内容，

古籍字符间距较窄，文字内容生僻，市面上流行的OCR软件对古籍的识别度普遍较低。本发明采用的OCR算法，是在传统OCR的基础上结合空间阈值算法，只进行切割，不进行识别；先用OCR定位文字区域，再识别出文字区域的行数和列数，根据文字区域和行列数，确定每个文字的单元格；根据灰度值阈值，依次判定文字单元格内像素点是否为有效像素点，并统计文字单元格内有效像素点数量，再根据文字像素点阈值，判定文字单元格内是否为文字；文字单元格指文字所在的矩形块。

步骤1-1、根据文献对比度，设定灰度值阈值，有些文献在扫描时，存在反面文字透过来的情形，设定灰度阈值，就要是在保存正文的同时，尽可能的过滤掉这些躁点。一般正文颜色较深的文献（灰度值均值在0-150），灰度值阈值设定比较低，设定在100-150，正文颜色较浅的文献（灰度值均值在150-255），设定在150-200；如图1所示，像素点的灰度值阈值设置为150，当文献的灰度值小于灰度值阈值时，判定为有效像素点。

步骤1-2、根据文字单元格大小，设定文字像素点阈值，设定公式为(w+h)/4*n，四舍五入取整，其中w为文字单元格宽度，h为文字单元格高度，n为笔画粗度均值。例如文字单元格宽度为80px，高度为60px,笔画粗度均值为2px，则根据公式计算，设定文字像素点阈值为70。图1所示，文字像素点阈值设定为50。

步骤1-3、统计文字单元格内有效像素点数量，当数量大于文字像素点阈值时，判定为有效文字。

步骤1-4、对于判定为有效文字的矩形块进行切割，并记录文字坐标（文字所在矩形块左上角横坐标、纵坐标，矩形框高度，宽度）；这里使用了第三方图片裁剪工具类imgscalr，调用imgscalr提供的crop方法，根据坐标裁剪矩形块。

步骤1-5、这样文字图像被切割成一张张文字图像碎片。

步骤2、在录入平台进行录入，并对录入结果进行，校检，抽检:

步骤3、根据录入结果和坐标，还原位置，生成PDF文件:

根据坐标，确定PDF上的单个文字矩形区域，将网上作业人员录入的文字存入PDF相应的位置。因文字间距较窄，OCR不能做到100%准确切割，存在多个文字切入同一个图像的情形，根据网上作业人员录入的文字数量，将图像坐标对应的矩形区域，切割成同等数量的区域，并将文字放入对应的位置。

以上所述仅为本发明的优选实施例而已，并不限制于本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种新型的文字图像数字化处理方法，其特征在于，包括以下内容，

步骤3、根据录入结果和坐标，还原位置，生成PDF文件:

根据坐标，确定PDF上的单个文字矩形区域，将网上作业人员录入的文字存入PDF相应的位置；根据网上作业人员录入的文字数量，将图像坐标对应的矩形区域，切割成同等数量的区域，并将文字放入对应的位置。

2.根据权利要求1所述的一种新型的文字图像数字化处理方法，其特征在于，所述的步骤1还包括以下内容：

步骤1-1、根据文献对比度，设定灰度值阈值，正文颜色较深的文献，即灰度值均值在0-150，灰度值阈值设定比较低，设定在100-150，正文颜色较浅的文献，即灰度值均值在150-255，设定在150-200；当文献的灰度值小于灰度值阈值时，判定为有效像素点；

步骤1-2、根据文字单元格大小，设定文字像素点阈值，设定公式为(w+h)/4*n，四舍五入取整，其中w为文字单元格宽度，h为文字单元格高度，n为笔画粗度均值；

例如文字单元格宽度为80px，高度为60px,笔画粗度均值为2px，则根据公式计算，设定文字像素点阈值为70；

步骤1-4、对于判定为有效文字的矩形块进行切割，并记录文字坐标；这里使用了第三方图片裁剪工具类imgscalr，调用imgscalr提供的crop方法，根据坐标裁剪矩形块；

步骤1-5、这样文字图像被切割成一张张文字图像碎片。