CN106529521A - 一种古籍文字数字化录入方法 - Google Patents

一种古籍文字数字化录入方法 Download PDF

Info

Publication number
CN106529521A
CN106529521A CN201610964844.7A CN201610964844A CN106529521A CN 106529521 A CN106529521 A CN 106529521A CN 201610964844 A CN201610964844 A CN 201610964844A CN 106529521 A CN106529521 A CN 106529521A
Authority
CN
China
Prior art keywords
text
word
unit lattice
threshold value
ancient books
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610964844.7A
Other languages
English (en)
Inventor
王良君
禇正东
徐朝龙
王旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Cultural Ancient Book Digital Industry Co Ltd
Original Assignee
Jiangsu Cultural Ancient Book Digital Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Cultural Ancient Book Digital Industry Co Ltd filed Critical Jiangsu Cultural Ancient Book Digital Industry Co Ltd
Priority to CN201610964844.7A priority Critical patent/CN106529521A/zh
Publication of CN106529521A publication Critical patent/CN106529521A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种古籍文字数字化录入方法,包括对古籍进行全文扫描,将扫描图像碎片化,利用古籍字体数据库对所述文字单元格进行自动识别,采用众包模式针对未自动识别成功的文字单元格在录入平台进行录入,并对录入结果进行比较,校检,完善古籍字体数据库,根据录入结果和坐标,还原位置,生成PDF文件。本发明可以提高图像数字化信息安全度和效率。

Description

一种古籍文字数字化录入方法
技术领域
本发明涉及图像数字化领域,特别是一种古籍文字数字化录入方法。
背景技术
传统的文字图像数字化,以古籍为例,先将古籍扫描成电子图像,然后由录入人员依照电子图像内容进行文字录入,最后对照原图进行排版,整理生成数字化文献,比如PDF文件,XML文件等。传统的图像数字化,存在一些弊端,录入人员可以看到整张古籍图像,信息安全度不高。驻厂人员进行文字录入,成本过高。对照原图手工排版,效率低下。
发明内容
针对现有技术中存在的问题,本发明提供了一种可以提高图像数字化信息安全度和效率的古籍文字数字化录入方法,本发明结合互联网技术解决传统数字化面临的难题。
本发明的目的通过以下技术方案实现。
一种古籍文字数字化录入方法,步骤包括:
步骤1、对古籍进行全文扫描,将扫描图像碎片化,先用OCR定位文字区域,再识别出文字区域的行数和列数,根据文字区域和行列数,确定每个文字的单元格;利用OCR对图像进行切割,根据灰度值阈值,依次判定文字单元格内像素点是否为有效像素点,并统计文字单元格内有效像素点数量,再根据文字像素点阈值,判定文字单元格内是否为文字;所述文字单元格指文字所在的矩形块;
步骤2、利用古籍字体数据库对所述文字单元格进行自动识别,当识别成功时则执行步骤5,否则执行步骤3;
步骤3、采用众包模式针对未自动识别成功的文字单元格在录入平台进行录入,并对录入结果进行比较,校检:由两名作业人员对同一文字单元格进行录入,比较两名作业人员的录入结果,当录入结果一致时执行步骤4,否则由第三名作业人员进行校验再执行步骤4;
步骤4、完善古籍字体数据库:根据古籍字体进行分类,将所述文字单元格及其对应的录入结果存入古籍数据库中,执行步骤5;
步骤5、根据录入结果和坐标,还原位置,生成PDF文件:
根据坐标,确定PDF上的单个文字矩形区域,将网上作业人员录入的文字存入PDF相应的位置;根据网上作业人员录入的文字数量,将图像坐标对应的矩形区域,切割成同等数量的区域,并将文字放入对应的位置。
进一步的,所述的步骤1还包括以下内容:
步骤1-1、根据文献对比度,设定灰度值阈值,正文灰度值均值在0-150的文献,灰度值阈值设定在100-150,正文灰度值均值在150-255的文献,灰度值阈值设定在150-200;当文献的灰度值小于灰度值阈值时,判定为有效像素点;
步骤1-2、根据文字单元格大小,设定文字像素点阈值,设定公式为(w*h)/4*n2,四舍五入取整,其中w为文字单元格宽度,h为文字单元格高度,n为笔画粗度均值;
步骤1-3、统计文字单元格内有效像素点数量,当数量大于文字像素点阈值时,判定为有效文字;
步骤1-4、对于判定为有效文字的矩形块进行切割,并记录文字坐标;使用了图片裁剪工具类imgscalr,调用imgscalr提供的crop方法,根据坐标裁剪矩形块;
步骤1-5、完成全文图像的碎片化。
进一步的,所述的步骤3还包括以下内容:
步骤3-1、作业人员的选择:发布测试稿件,测试合格人员方可进行作业;
步骤3-2、作业人员作业质量的控制:作业过程中会随机抽检作业人员的作业稿件,当抽检样正确率低于95%时,取消作业人员作业资格;作业完成后,系统会分析作业人员的正确率,低于95%时,取消作业人员作业资格。
相比于现有技术,本发明的优点在于:本发明提高了图像数字化信息安全度和效率,结合互联网技术解决传统数字化面临的难题。将整张文献图片切割成一个个碎片, 因为每个作业人员只能看到图像中的一个碎片块,对于提高信息安全度重要性不言而喻,尤其是一些重要资料的录入,如名片,银行票据等,对信息安全度要求较高。根据古籍字体数据库进行自动识别,避免了重复劳动,使得录入过程更加智能化,根据坐标自动还原位置,生成PDF,效率较高,位置也比较精确,解决了手工排版效率低下的难题。切割成单字后,大大降低了作业人员的技能要求,又采用众包模式,利用广大网民在互联网上进行生产作业,大大节省了生产成本的开支(人员、房租、交通,招聘、培训,解聘等)。采用众包模式,数以万计的网民同时在线作业,可以实现大规模的数字化生产。
附图说明
图1为本发明的古籍文字碎片化示意图。
具体实施方式
下面结合说明书附图和具体的实施例,对本发明作详细描述。
一种古籍文字数字化录入方法,包括以下内容,
步骤1、将图像碎片化,利用OCR对图像进行切割,并记录碎片坐标:
古籍字符间距较窄,文字内容生僻,市面上流行的OCR软件对古籍的识别度普遍较低。本发明采用的OCR算法,是在传统OCR的基础上结合空间阈值算法,只进行切割,不进行识别;先用OCR定位文字区域,再识别出文字区域的行数和列数,根据文字区域和行列数,确定每个文字的单元格;根据灰度值阈值,依次判定文字单元格内像素点是否为有效像素点,并统计文字单元格内有效像素点数量,再根据文字像素点阈值,判定文字单元格内是否为文字;文字单元格指文字所在的矩形块。
步骤1-1、根据文献对比度,设定灰度值阈值,有些文献在扫描时,存在反面文字透过来的情形,设定灰度阈值,就要是在保存正文的同时,尽可能的过滤掉这些躁点。一般正文颜色较深的文献(灰度值均值在0-150),灰度值阈值设定比较低,设定在100-150,正文颜色较浅的文献(灰度值均值在150-255),设定在150-200;如图1所示,像素点的灰度值阈值设置为150,当文献的灰度值小于灰度值阈值时,判定为有效像素点。
步骤1-2、根据文字单元格大小,设定文字像素点阈值,设定公式为(w*h)/4*n2,四舍五入取整,其中w为文字单元格宽度,h为文字单元格高度,n为笔画粗度均值。例如文字单元格宽度为80px,高度为60px,笔画粗度均值为2px,则根据公式计算,设定文字像素点阈值为70。图1所示,文字像素点阈值设定为50。
步骤1-3、统计文字单元格内有效像素点数量,当数量大于文字像素点阈值时,判定为有效文字。
步骤1-4、对于判定为有效文字的矩形块进行切割,并记录文字坐标(文字所在矩形块左上角横坐标、纵坐标,矩形框高度,宽度);这里使用了第三方图片裁剪工具类imgscalr,调用imgscalr提供的crop方法,根据坐标裁剪矩形块。
步骤1-5、如图1所示,这样文字图像被切割成一张张文字图像碎片。
步骤2、利用古籍字体数据库对所述文字单元格进行自动识别,当识别成功时则执行步骤5,否则执行步骤3;
步骤3、采用众包模式针对未自动识别成功的文字单元格在录入平台进行录入,并对录入结果进行比较,校检:由两名作业人员对同一文字单元格进行录入,比较两名作业人员的录入结果,当录入结果一致时执行步骤4,否则由第三名作业人员进行校验再执行步骤4;
步骤3-1、作业人员的选择,发布测试稿件,测试合格人员方可进行作业。
步骤3-2、作业人员作业质量的控制,作业过程中会随机抽检作业人员的作业稿件,当抽检样正确率低于95%时,取消作业人员作业资格。作业完成后,系统会分析作业人员的正确率,低于95%时,取消作业人员作业资格。
步骤4、完善古籍字体数据库:根据古籍字体进行分类,将所述文字单元格及其对应的录入结果存入古籍数据库中,执行步骤5;
步骤5、根据录入结果和坐标,还原位置,生成PDF文件:根据坐标,确定PDF上的单个文字矩形区域,将网上作业人员录入的文字存入PDF相应的位置;根据网上作业人员录入的文字数量,将图像坐标对应的矩形区域,切割成同等数量的区域,并将文字放入对应的位置。
以上所述仅为本发明的优选实施例而已,并不限制于本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (3)

1.一种古籍文字数字化录入方法,其特征在于,步骤包括:
步骤1、对古籍进行全文扫描,将扫描图像碎片化,先用OCR定位文字区域,再识别出文字区域的行数和列数,根据文字区域和行列数,确定每个文字的单元格;利用OCR对图像进行切割,根据灰度值阈值,依次判定文字单元格内像素点是否为有效像素点,并统计文字单元格内有效像素点数量,再根据文字像素点阈值,判定文字单元格内是否为文字;所述文字单元格指文字所在的矩形块;
步骤2、利用古籍字体数据库对所述文字单元格进行自动识别,当识别成功时则执行步骤5,否则执行步骤3;
步骤3、采用众包模式针对未自动识别成功的文字单元格在录入平台进行录入,并对录入结果进行比较,校检:由两名作业人员对同一文字单元格进行录入,比较两名作业人员的录入结果,当录入结果一致时执行步骤4,否则由第三名作业人员进行校验再执行步骤4;
步骤4、完善古籍字体数据库:根据古籍字体进行分类,将所述文字单元格及其对应的录入结果存入古籍数据库中,执行步骤5;
步骤5、根据录入结果和坐标,还原位置,生成PDF文件:
根据坐标,确定PDF上的单个文字矩形区域,将网上作业人员录入的文字存入PDF相应的位置;根据网上作业人员录入的文字数量,将图像坐标对应的矩形区域,切割成同等数量的区域,并将文字放入对应的位置。
2.根据权利要求1所述的一种古籍文字数字化录入方法,其特征在于,所述的步骤1还包括以下内容:
步骤1-1、根据文献对比度,设定灰度值阈值,正文灰度值均值在0-150的文献,灰度值阈值设定在100-150,正文灰度值均值在150-255的文献,灰度值阈值设定在150-200;当文献的灰度值小于灰度值阈值时,判定为有效像素点;
步骤1-2、根据文字单元格大小,设定文字像素点阈值,设定公式为(w*h)/4*n2,四舍五入取整,其中w为文字单元格宽度,h为文字单元格高度,n为笔画粗度均值;
步骤1-3、统计文字单元格内有效像素点数量,当数量大于文字像素点阈值时,判定为有效文字;
步骤1-4、对于判定为有效文字的矩形块进行切割,并记录文字坐标;使用了图片裁剪工具类imgscalr,调用imgscalr提供的crop方法,根据坐标裁剪矩形块;
步骤1-5、完成全文图像的碎片化。
3.根据权利要求1一种古籍文字数字化录入方法,其特征在于,所述的步骤3还包括以下内容:
步骤3-1、作业人员的选择:发布测试稿件,测试合格人员方可进行作业;
步骤3-2、作业人员作业质量的控制:作业过程中会随机抽检作业人员的作业稿件,当抽检样正确率低于95%时,取消作业人员作业资格;作业完成后,系统会分析作业人员的正确率,低于95%时,取消作业人员作业资格。
CN201610964844.7A 2016-10-31 2016-10-31 一种古籍文字数字化录入方法 Pending CN106529521A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610964844.7A CN106529521A (zh) 2016-10-31 2016-10-31 一种古籍文字数字化录入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610964844.7A CN106529521A (zh) 2016-10-31 2016-10-31 一种古籍文字数字化录入方法

Publications (1)

Publication Number Publication Date
CN106529521A true CN106529521A (zh) 2017-03-22

Family

ID=58326352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610964844.7A Pending CN106529521A (zh) 2016-10-31 2016-10-31 一种古籍文字数字化录入方法

Country Status (1)

Country Link
CN (1) CN106529521A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197202A (zh) * 2017-12-28 2018-06-22 百度在线网络技术(北京)有限公司 众包任务的数据校验方法、装置、服务器及存储介质
CN109871516A (zh) * 2017-12-01 2019-06-11 江苏奥博洋信息技术有限公司 一种双层pdf批量生成word的方法
CN109902903A (zh) * 2017-12-11 2019-06-18 华东师范大学 一种基于微信的众包执行方法与众包系统
CN109948599A (zh) * 2017-12-21 2019-06-28 江苏奥博洋信息技术有限公司 一种影像碎片化加工工作流程

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102456136A (zh) * 2010-10-29 2012-05-16 方正国际软件(北京)有限公司 一种图文切分方法及系统
CN103257954A (zh) * 2013-06-05 2013-08-21 北京百度网讯科技有限公司 古籍中文字的校对方法、系统及校对服务器
US20150278747A1 (en) * 2014-04-01 2015-10-01 Xerox Corporation Methods and systems for crowdsourcing a task
CN105335957A (zh) * 2014-08-07 2016-02-17 江苏奥博洋信息技术有限公司 信息碎片化图像切割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102456136A (zh) * 2010-10-29 2012-05-16 方正国际软件(北京)有限公司 一种图文切分方法及系统
CN103257954A (zh) * 2013-06-05 2013-08-21 北京百度网讯科技有限公司 古籍中文字的校对方法、系统及校对服务器
US20150278747A1 (en) * 2014-04-01 2015-10-01 Xerox Corporation Methods and systems for crowdsourcing a task
CN105335957A (zh) * 2014-08-07 2016-02-17 江苏奥博洋信息技术有限公司 信息碎片化图像切割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
颜运梅: "《众包在国内古籍数据库建设中的应用研究》", 《信息资源建设》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871516A (zh) * 2017-12-01 2019-06-11 江苏奥博洋信息技术有限公司 一种双层pdf批量生成word的方法
CN109902903A (zh) * 2017-12-11 2019-06-18 华东师范大学 一种基于微信的众包执行方法与众包系统
CN109948599A (zh) * 2017-12-21 2019-06-28 江苏奥博洋信息技术有限公司 一种影像碎片化加工工作流程
CN108197202A (zh) * 2017-12-28 2018-06-22 百度在线网络技术(北京)有限公司 众包任务的数据校验方法、装置、服务器及存储介质
CN108197202B (zh) * 2017-12-28 2021-12-24 百度在线网络技术(北京)有限公司 众包任务的数据校验方法、装置、服务器及存储介质

Similar Documents

Publication Publication Date Title
CN109993112B (zh) 一种图片中表格的识别方法及装置
WO2020259060A1 (zh) 试卷信息提取方法、系统及计算机可读存储介质
CN1103087C (zh) 光学扫描表单识别及更正方法
CN106529521A (zh) 一种古籍文字数字化录入方法
CN107798321A (zh) 一种试卷分析方法和计算设备
CN103034848B (zh) 一种表单类型的识别方法
CN108090445A (zh) 一种纸质作业或试卷的电子批改方法
CN105590101A (zh) 基于手机拍照的手写答题卡自动处理和阅卷方法及系统
CN103279907A (zh) 一种网上扫描阅卷系统
CN110503054A (zh) 文本图像的处理方法及装置
CN106611174A (zh) 一种非常见字体的ocr识别方法
CN107463866A (zh) 一种用于成绩评价的识别手写实验报告的方法
CN104408403B (zh) 一种二次录入不一致的仲裁方法及装置
CN112446262A (zh) 文本分析方法、装置、终端和计算机可读存储介质
CN112464925A (zh) 基于机器学习的移动端开户资料银行信息自动提取方法
CN112446259A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN102081742A (zh) 一种书写能力的自动评价方法
CN106682667A (zh) 非常见字体的图像文字ocr识别系统
Li et al. DSBI: double-sided Braille image dataset and algorithm evaluation for Braille dots detection
CN117037198A (zh) 一种银行对账单的识别方法
CN113569677A (zh) 一种基于扫描件的纸质试验报告生成方法
CN113168538A (zh) 具有区域性ocr用户界面的扫描装置
DE60204066T2 (de) Automatische Lokalisierung von Tabellen in Dokumenten
CN117785845A (zh) 一种配电网定值单数据采集与治理方法及系统
JP2012063993A (ja) 画像処理装置及びその制御方法ならびにプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170322