CN106548175A - 一种新型的文字图像数字化处理方法 - Google Patents
一种新型的文字图像数字化处理方法 Download PDFInfo
- Publication number
- CN106548175A CN106548175A CN201610891108.3A CN201610891108A CN106548175A CN 106548175 A CN106548175 A CN 106548175A CN 201610891108 A CN201610891108 A CN 201610891108A CN 106548175 A CN106548175 A CN 106548175A
- Authority
- CN
- China
- Prior art keywords
- word
- unit lattice
- text
- text unit
- threshold value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
Abstract
本发明涉及一种新型的文字图像数字化处理方法,包括步骤1、将图像碎片化,利用OCR对图像进行切割,并记录碎片坐标:在传统OCR的基础上结合空间阈值算法,只进行切割,不进行识别;先用OCR定位文字区域,再识别出文字区域的行数和列数,根据文字区域和行列数,确定每个文字的单元格;根据灰度值阈值,依次判定文字单元格内像素点是否为有效像素点,并统计文字单元格内有效像素点数量,再根据文字像素点阈值,判定文字单元格内是否为文字;文字单元格指文字所在的矩形块;步骤2、在录入平台进行录入,并对录入结果进行比较,校检,抽检;步骤3、根据录入结果和坐标,还原位置,生成PDF文件。
Description
技术领域
本发明涉及一种文字图像数字化处理方法,属于图像数字化领域,具体涉及文字图像碎片化,线上数字化处理。
背景技术
传统的文字图像数字化,以古籍为例,先将古籍扫描成电子图像,然后录入人员对照电子图像进行文字录入,最后对照原图进行排版,整理成数字化文献,比如PDF文件。传统图像数字化,存在一些弊端,录入人员可以看到整张古籍图像,信息安全度不高。对照原图手工排版,效率低下。
发明内容
针对以上问题本发明提供了一种可提高图像数字化信息安全度和效率的文字图像数字化处理方法,本图像数字化处理方法结合互联网技术解决传统数字化面临的难题。
为了解决以上问题本发明提供了一种新型的文字图像数字化处理方法,其特征在于,包括以下内容,
步骤1、将图像碎片化,利用OCR对图像进行切割,并记录碎片坐标:
在传统OCR的基础上结合空间阈值算法,只进行切割,不进行识别;先用OCR定位文字区域,再识别出文字区域的行数和列数,根据文字区域和行列数,确定每个文字的单元格;根据灰度值阈值,依次判定文字单元格内像素点是否为有效像素点,并统计文字单元格内有效像素点数量,再根据文字像素点阈值,判定文字单元格内是否为文字;文字单元格指文字所在的矩形块;
步骤2、在录入平台进行录入,并对录入结果进行比较,校检,抽检;
步骤3、根据录入结果和坐标,还原位置,生成PDF文件:
根据坐标,确定PDF上的单个文字矩形区域,将网上作业人员录入的文字存入PDF相应的位置;根据网上作业人员录入的文字数量,将图像坐标对应的矩形区域,切割成同等数量的区域,并将文字放入对应的位置。根据坐标还原位置,生成PDF,效率较高,位置也比较精确,解决了手工排版效率低下的难题。
所述的步骤1还包括以下内容:
步骤1-1、根据文献对比度,设定灰度值阈值,正文颜色较深的文献(灰度值均值在0-150),灰度值阈值设定比较低,设定在100-150,正文颜色较浅的文献(灰度值均值在150-255),设定在150-200;当文献的灰度值小于灰度值阈值时,判定为有效像素点;
步骤1-2、根据文字单元格大小,设定文字像素点阈值,设定公式为(w+h)/4*n,四舍五入取整,其中w为文字单元格宽度,h为文字单元格高度,n为笔画粗度均值。例如文字单元格宽度为80px,高度为60px,笔画粗度均值为2px,则根据公式计算,设定文字像素点阈值为70。
步骤1-3、统计文字单元格内有效像素点数量,当数量大于文字像素点阈值时,判定为有效文字;
步骤1-4、对于判定为有效文字的矩形块进行切割,并记录文字坐标;这里使用了第三方图片裁剪工具类imgscalr,调用imgscalr提供的crop方法,根据坐标裁剪矩形块。
步骤1-5、这样文字图像被切割成一张张文字图像碎片。
本发明提高了图像数字化信息安全度和效率,结合互联网技术解决传统数字化面临的难题。将整张文献图片切割成一个个碎片, 因为每个作业人员只能看到图像中的一个碎片块,对于提高信息安全度重要性不言而喻,尤其是一些重要资料的录入,如名片,银行票据等,对信息安全度要求较高。根据坐标自动还原位置,生成PDF,效率较高,位置也比较精确,解决了手工排版效率低下的难题。
附图说明
图1为古籍文字示意图。
具体实施方式
下面结合附图,对本发明作进一步详细说明。
本发明提供了一种新型的文字图像数字化处理方法,包括以下内容,
步骤1、将图像碎片化,利用OCR对图像进行切割,并记录碎片坐标:
古籍字符间距较窄,文字内容生僻,市面上流行的OCR软件对古籍的识别度普遍较低。本发明采用的OCR算法,是在传统OCR的基础上结合空间阈值算法,只进行切割,不进行识别;先用OCR定位文字区域,再识别出文字区域的行数和列数,根据文字区域和行列数,确定每个文字的单元格;根据灰度值阈值,依次判定文字单元格内像素点是否为有效像素点,并统计文字单元格内有效像素点数量,再根据文字像素点阈值,判定文字单元格内是否为文字;文字单元格指文字所在的矩形块。
步骤1-1、根据文献对比度,设定灰度值阈值,有些文献在扫描时,存在反面文字透过来的情形,设定灰度阈值,就要是在保存正文的同时,尽可能的过滤掉这些躁点。一般正文颜色较深的文献(灰度值均值在0-150),灰度值阈值设定比较低,设定在100-150,正文颜色较浅的文献(灰度值均值在150-255),设定在150-200;如图1所示,像素点的灰度值阈值设置为150,当文献的灰度值小于灰度值阈值时,判定为有效像素点。
步骤1-2、根据文字单元格大小,设定文字像素点阈值,设定公式为(w+h)/4*n,四舍五入取整,其中w为文字单元格宽度,h为文字单元格高度,n为笔画粗度均值。例如文字单元格宽度为80px,高度为60px,笔画粗度均值为2px,则根据公式计算,设定文字像素点阈值为70。图1所示,文字像素点阈值设定为50。
步骤1-3、统计文字单元格内有效像素点数量,当数量大于文字像素点阈值时,判定为有效文字。
步骤1-4、对于判定为有效文字的矩形块进行切割,并记录文字坐标(文字所在矩形块左上角横坐标、纵坐标,矩形框高度,宽度);这里使用了第三方图片裁剪工具类imgscalr,调用imgscalr提供的crop方法,根据坐标裁剪矩形块。
步骤1-5、这样文字图像被切割成一张张文字图像碎片。
步骤2、在录入平台进行录入,并对录入结果进行,校检,抽检:
步骤3、根据录入结果和坐标,还原位置,生成PDF文件:
根据坐标,确定PDF上的单个文字矩形区域,将网上作业人员录入的文字存入PDF相应的位置。因文字间距较窄,OCR不能做到100%准确切割,存在多个文字切入同一个图像的情形,根据网上作业人员录入的文字数量,将图像坐标对应的矩形区域,切割成同等数量的区域,并将文字放入对应的位置。
以上所述仅为本发明的优选实施例而已,并不限制于本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (2)
1.一种新型的文字图像数字化处理方法,其特征在于,包括以下内容,
步骤1、将图像碎片化,利用OCR对图像进行切割,并记录碎片坐标:
在传统OCR的基础上结合空间阈值算法,只进行切割,不进行识别;先用OCR定位文字区域,再识别出文字区域的行数和列数,根据文字区域和行列数,确定每个文字的单元格;根据灰度值阈值,依次判定文字单元格内像素点是否为有效像素点,并统计文字单元格内有效像素点数量,再根据文字像素点阈值,判定文字单元格内是否为文字;文字单元格指文字所在的矩形块;
步骤2、在录入平台进行录入,并对录入结果进行比较,校检,抽检;
步骤3、根据录入结果和坐标,还原位置,生成PDF文件:
根据坐标,确定PDF上的单个文字矩形区域,将网上作业人员录入的文字存入PDF相应的位置;根据网上作业人员录入的文字数量,将图像坐标对应的矩形区域,切割成同等数量的区域,并将文字放入对应的位置。
2.根据权利要求1所述的一种新型的文字图像数字化处理方法,其特征在于,所述的步骤1还包括以下内容:
步骤1-1、根据文献对比度,设定灰度值阈值,正文颜色较深的文献,即灰度值均值在0-150,灰度值阈值设定比较低,设定在100-150,正文颜色较浅的文献,即灰度值均值在150-255,设定在150-200;当文献的灰度值小于灰度值阈值时,判定为有效像素点;
步骤1-2、根据文字单元格大小,设定文字像素点阈值,设定公式为(w+h)/4*n,四舍五入取整,其中w为文字单元格宽度,h为文字单元格高度,n为笔画粗度均值;
例如文字单元格宽度为80px,高度为60px,笔画粗度均值为2px,则根据公式计算,设定文字像素点阈值为70;
步骤1-3、统计文字单元格内有效像素点数量,当数量大于文字像素点阈值时,判定为有效文字;
步骤1-4、对于判定为有效文字的矩形块进行切割,并记录文字坐标;这里使用了第三方图片裁剪工具类imgscalr,调用imgscalr提供的crop方法,根据坐标裁剪矩形块;
步骤1-5、这样文字图像被切割成一张张文字图像碎片。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610891108.3A CN106548175A (zh) | 2016-10-13 | 2016-10-13 | 一种新型的文字图像数字化处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610891108.3A CN106548175A (zh) | 2016-10-13 | 2016-10-13 | 一种新型的文字图像数字化处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106548175A true CN106548175A (zh) | 2017-03-29 |
Family
ID=58368711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610891108.3A Pending CN106548175A (zh) | 2016-10-13 | 2016-10-13 | 一种新型的文字图像数字化处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106548175A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038441A (zh) * | 2017-12-07 | 2018-05-15 | 庞军良 | 一种基于图像识别的系统与方法 |
CN109871516A (zh) * | 2017-12-01 | 2019-06-11 | 江苏奥博洋信息技术有限公司 | 一种双层pdf批量生成word的方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102456136A (zh) * | 2010-10-29 | 2012-05-16 | 方正国际软件(北京)有限公司 | 一种图文切分方法及系统 |
-
2016
- 2016-10-13 CN CN201610891108.3A patent/CN106548175A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102456136A (zh) * | 2010-10-29 | 2012-05-16 | 方正国际软件(北京)有限公司 | 一种图文切分方法及系统 |
Non-Patent Citations (4)
Title |
---|
倪恩志 等: "古代汉字文献切分研究", 《计算机工程与应用》 * |
朱满琼 等: "图像背景下的满文文字提取", 《大连民族学院学报》 * |
赵启升 等: "基于VC++的车牌识别系统关键技术研究", 《计算机科学》 * |
陈光 等: "一种新的加权动态网格汉字特征抽取方法", 《中文信息学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871516A (zh) * | 2017-12-01 | 2019-06-11 | 江苏奥博洋信息技术有限公司 | 一种双层pdf批量生成word的方法 |
CN108038441A (zh) * | 2017-12-07 | 2018-05-15 | 庞军良 | 一种基于图像识别的系统与方法 |
CN108038441B (zh) * | 2017-12-07 | 2021-03-16 | 潘晓梅 | 一种基于图像识别的系统与方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657665B (zh) | 一种基于深度学习的发票批量自动识别系统 | |
US9373031B2 (en) | System and method for document alignment, correction, and classification | |
JP6139396B2 (ja) | 文書を表す二値画像を圧縮する方法及びプログラム | |
US9036912B2 (en) | Method, system, digital camera and asic for geometric image transformation based on text line searching | |
US8428356B2 (en) | Image processing device and image processing method for generating electronic document with a table line determination portion | |
CN105450900B (zh) | 用于文档图像的畸变校正方法和设备 | |
JP4771804B2 (ja) | レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法 | |
JP2010262648A5 (ja) | 文書オブジェクトを自動位置合わせするための方法 | |
TWI284288B (en) | Text region recognition method, storage medium and system | |
CN107644391B (zh) | 一种用于打印文档溯源的数字水印处理方法及装置 | |
CN111353961B (zh) | 一种文档曲面校正方法及装置 | |
US20230386002A1 (en) | Shadow elimination method and apparatus for text image, and electronic device | |
CN102955943A (zh) | 图像处理装置和图像处理方法 | |
CN105320933A (zh) | 电子文档生成系统以及电子文档生成装置 | |
CN104182966B (zh) | 一种规则碎纸自动拼接方法 | |
KR20130066819A (ko) | 촬영 이미지 기반의 문자 인식 장치 및 방법 | |
TWI332635B (en) | Method for determing oriention of chinese words | |
CN106529521A (zh) | 一种古籍文字数字化录入方法 | |
CN106548175A (zh) | 一种新型的文字图像数字化处理方法 | |
CN102737240A (zh) | 分析数字文档图像的方法 | |
CN103455816B (zh) | 一种笔画宽度提取方法、装置及一种文字识别方法、系统 | |
CN104637026A (zh) | 一种基于连续多页文本图像水印嵌入与提取方法 | |
CN103985078A (zh) | 一种抗打印扫描图文混合的数字水印嵌入与提取方法 | |
CN104408403B (zh) | 一种二次录入不一致的仲裁方法及装置 | |
CN109635729A (zh) | 一种表格识别方法及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170329 |
|
WD01 | Invention patent application deemed withdrawn after publication |