CN113221886A - 一种基于图文识别后的文字学习校对系统 - Google Patents

一种基于图文识别后的文字学习校对系统 Download PDF

Info

Publication number
CN113221886A
CN113221886A CN202110534119.7A CN202110534119A CN113221886A CN 113221886 A CN113221886 A CN 113221886A CN 202110534119 A CN202110534119 A CN 202110534119A CN 113221886 A CN113221886 A CN 113221886A
Authority
CN
China
Prior art keywords
character
image
document
proofreading
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110534119.7A
Other languages
English (en)
Inventor
胡耀珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Anyi Information Technology Co ltd
Original Assignee
Guangxi Anyi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Anyi Information Technology Co ltd filed Critical Guangxi Anyi Information Technology Co ltd
Priority to CN202110534119.7A priority Critical patent/CN113221886A/zh
Publication of CN113221886A publication Critical patent/CN113221886A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种基于图文识别后的文字学习校对系统,包括图像处理模块、数据库、文字校对模块、文档输出模块;图像处理模块用于对纸质文档图像的扫描收集,数据库用于建立文档结构表、文档信息表、字符信息表、工作管理信息表,以及存储字符图像文件信息,文字校对模块用于字符信息与切分图像的比对,本发明通过先进的页面分析提取技术,将图像文件中的全部字符进行拆分,形成独立的字符文件,并利用数据库技术进行相应排序组合,将繁琐的校对程序改变为简单的图像和字符的批量对比,从而保证识别结果符合国家出版业校对标准,并且极大提高了校对效率,对提高司法效率有着积极作用。

Description

一种基于图文识别后的文字学习校对系统
技术领域
本发明涉及司法文献数字化处理技术领域,具体为一种基于图文识别后的文字学习校对系统。
背景技术
利用计算机对法院纸质诉讼文书进行数字化处理是当前法院信息化建设的重要工作,而保证文字识别的正确率是其中非常主要的环节,文字识别校对程序是针对目前光学文字识别程序对印刷体文件均不能达到相应正确率要求(例如:国家档案局要求的文字识别误差小于千分之二,出版业三校标准误差小于万分之二),且识别效率较低,不适用于法院海量的文书校对处理。
发明内容
鉴于现有技术中所存在的问题,本发明公开了一种基于图文识别后的文字学习校对系统,采用的技术方案是,包括图像处理模块、数据库、文字校对模块、文档输出模块;所述图像处理模块,用于对纸质文档图像的扫描收集,对扫描图像进行系统整理并进行倾斜矫正、降噪等预处理,对图像以字符为单位进行切分,形成独立的字符图像文件,将字符图像文件信息存入所述数据库中;所述数据库,用于建立文档结构表、文档信息表、字符信息表、工作管理信息表,以及存储字符图像文件信息;所述文字校对模块,用于扫描图像及切分图像的文字识别,字符信息与切分图像的比对,对错误的字符图像进行修改和保存;所述文档输出模块,利用完成校对的字符信息表和文档信息表还原文档。
作为本发明的一种优选技术方案,所述图像处理模块扫描纸质文档形成的图像文件格式可以为TIFF、JPG等,分辨率需要达到300DPI以上。
作为本发明的一种优选技术方案,所述文字校对模块的文字识别率需要达到96%以上,识别对象可以是扫描图像文件,也可以是切分图像。
作为本发明的一种优选技术方案,所述文字校对模块按照文字信息表保存的文字信息按ASCII码进行排序,逐一列出每一个字符和对应的所有图像,对同一字符下出现的错误图像进行修改,改为实际对应字符并保存。
作为本发明的一种优选技术方案,所述文档输出模块还原文档的格式为TXT、DOC、双层PDF中的一种,可同时实现文档原件显示和全文检索、复制粘贴功能。
作为本发明的一种优选技术方案,所述系统的应用环境为B/S架构,支持网络运行,便于使用及维护。
本发明的有益效果:本发明通过先进的页面分析提取技术,将图像文件中的全部字符进行拆分,形成独立的字符文件,并利用数据库技术进行相应排序组合,将繁琐的校对程序改变为简单的图像和字符的批量对比,从而保证识别结果符合国家出版业校对标准,并且极大提高了校对效率,对提高司法效率有着积极作用。
附图说明
图1为本发明系统结构示意图;
图2为本发明工作流程结构示意图。
具体实施方式
实施例1
如图1至图2所示,本发明公开了一种基于图文识别后的文字学习校对系统,采用的技术方案是,包括图像处理模块、数据库、文字校对模块、文档输出模块;所述图像处理模块,用于对纸质文档图像的扫描收集,对扫描图像进行系统整理并进行倾斜矫正、降噪等预处理,对图像以字符为单位进行切分,形成独立的字符图像文件,将字符图像文件信息存入所述数据库中;所述数据库,用于建立文档结构表、文档信息表、字符信息表、工作管理信息表,以及存储字符图像文件信息;所述文字校对模块,用于扫描图像及切分图像的文字识别,字符信息与切分图像的比对,对错误的字符图像进行修改和保存;所述文档输出模块,利用完成校对的字符信息表和文档信息表还原文档。
作为本发明的一种优选技术方案,所述图像处理模块扫描纸质文档形成的图像文件格式可以为TIFF、JPG等,分辨率需要达到300DPI以上。
作为本发明的一种优选技术方案,所述文字校对模块的文字识别率需要达到96%以上,识别对象可以是扫描图像文件,也可以是切分图像。
作为本发明的一种优选技术方案,所述文档结构表主要内容包括处理文件的组织结构和文档层级信息。
作为本发明的一种优选技术方案,所述文档信息表的主要内容包括具体文档的信息,如文档名称、图像文件名称、页数、字符数量等。
作为本发明的一种优选技术方案,所述字符信息表主要包括所属文档的文档信息表ID值,字符位置信息、字符值。
作为本发明的一种优选技术方案,所述工作管理信息表主要记录工作流程信息,便于管理者对工作情况实时管理。
作为本发明的一种优选技术方案,所述文字校对模块按照文字信息表保存的文字信息按ASCII码进行排序,逐一列出每一个字符和对应的所有图像,对同一字符下出现的错误图像进行修改,改为实际对应字符并保存。
作为本发明的一种优选技术方案,所述文档输出模块还原文档的格式为TXT、DOC、双层PDF中的一种,可同时实现文档原件显示和全文检索、复制粘贴功能。
作为本发明的一种优选技术方案,所述系统的应用环境为B/S架构,支持网络运行,便于使用及维护。
本发明的工作原理:图像处理模块将待识别处理的纸质文档,如报纸、文件、档案等,进行扫描,形成计算机图像文件,图像文件格式可以为TIFF、JPG等,分辨率需要达到300DPI以上,如果已进行档案数字化处理工作的,可直接调取需要处理的文书内容图像,按照待处理文档的业务管理属性对扫描图像进行系统整理(此项工作可以与扫描工作同时进行),例如法院诉讼档案按照法院单位->年份->案件类型->案件程序->案件序号->卷别->卷册号->页号->文书项目等顺序进行整理,保证识别校对工作有序进行,数据库包括文档结构表、文档信息表和字符信息表,根据实际工作开展情况还需要设置工作管理信息表,文档结构表主要内容包括处理文件的组织结构和文档层级信息,文档信息表的主要内容包括具体文档的信息,如文档名称、图像文件名称、页数、字符数量等,字符信息表主要包括所属文档的文档信息表ID值,字符位置信息、字符值,工作管理信息表主要记录工作流程信息,便于管理者对工作情况实时管理,对全部文档进行文字切分处理(切分前可以对图像文件进行倾斜矫正、降噪等处理),形成独立的文字图像文件,同时利用数据库保存字符图像文件信息,利用识别率能够保证百分之九十六以上的文字识别软件,识别对象可以是扫描图像文件,也可以是切分图像,对于扫描图像文件流程形成的识别文本,需要和数据库保存的字符图像文件信息进行匹配,扫描切分图像的流程不需要此项工作,只保存识别结果,按照文字信息表保存的文字信息按ASCII码进行排序,逐一列出每一个字符和对应的所有图像,对同一字符下出现的错误图像进行修改,改为实际对应字符并保存,用完成校对的字符信息表和文档信息表还原文档,文档格式可以为:.TXT、.DOC,可根据客户需要生成双层PDF的文档,同时实现文档原件显示和全文检索、复制粘贴功能。
上述虽然对本发明的具体实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化,而不具备创造性劳动的修改或变形仍在本发明的保护范围以内。

Claims (6)

1.一种基于图文识别后的文字学习校对系统,其特征在于:包括图像处理模块、数据库、文字校对模块、文档输出模块;所述图像处理模块,用于对纸质文档图像的扫描收集,对扫描图像进行系统整理并进行倾斜矫正、降噪等预处理,对图像以字符为单位进行切分,形成独立的字符图像文件,将字符图像文件信息存入所述数据库中;所述数据库,用于建立文档结构表、文档信息表、字符信息表、工作管理信息表,以及存储字符图像文件信息;所述文字校对模块,用于扫描图像及切分图像的文字识别,字符信息与切分图像的比对,对错误的字符图像进行修改和保存;所述文档输出模块,利用完成校对的字符信息表和文档信息表还原文档。
2.根据权利要求1所述的一种基于图文识别后的文字学习校对系统,其特征在于:所述图像处理模块扫描纸质文档形成的图像文件分辨率需要达到300DPI以上。
3.根据权利要求1所述的一种基于图文识别后的文字学习校对系统,其特征在于:所述文字校对模块的文字识别率需要达到96%以上。
4.根据权利要求1所述的一种基于图文识别后的文字学习校对系统,其特征在于:所述文字校对模块按照文字信息表保存的文字信息按ASCII码进行排序。
5.根据权利要求1所述的一种基于图文识别后的文字学习校对系统,其特征在于:所述文档输出模块还原文档的格式为TXT、DOC、双层PDF中的一种。
6.根据权利要求1所述的一种基于图文识别后的文字学习校对系统,其特征在于:所述系统的应用环境为B/S架构,支持网络运行。
CN202110534119.7A 2021-05-17 2021-05-17 一种基于图文识别后的文字学习校对系统 Pending CN113221886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110534119.7A CN113221886A (zh) 2021-05-17 2021-05-17 一种基于图文识别后的文字学习校对系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110534119.7A CN113221886A (zh) 2021-05-17 2021-05-17 一种基于图文识别后的文字学习校对系统

Publications (1)

Publication Number Publication Date
CN113221886A true CN113221886A (zh) 2021-08-06

Family

ID=77092345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110534119.7A Pending CN113221886A (zh) 2021-05-17 2021-05-17 一种基于图文识别后的文字学习校对系统

Country Status (1)

Country Link
CN (1) CN113221886A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916941A (zh) * 2005-08-18 2007-02-21 北大方正集团有限公司 一种字符识别的后处理方法
CN101430758A (zh) * 2007-11-09 2009-05-13 富士通株式会社 文档识别装置和方法
CN109508712A (zh) * 2018-11-14 2019-03-22 衡阳师范学院 一种基于图像的汉语文字识别方法
CN109858980A (zh) * 2019-01-10 2019-06-07 上海启业信息技术有限公司 基于开源ocr上的高速扫描增值税发票勾选认证系统及方法
CN112785266A (zh) * 2021-01-22 2021-05-11 广西安怡臣信息技术有限公司 一种电子档案检测管理系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916941A (zh) * 2005-08-18 2007-02-21 北大方正集团有限公司 一种字符识别的后处理方法
CN101430758A (zh) * 2007-11-09 2009-05-13 富士通株式会社 文档识别装置和方法
CN109508712A (zh) * 2018-11-14 2019-03-22 衡阳师范学院 一种基于图像的汉语文字识别方法
CN109858980A (zh) * 2019-01-10 2019-06-07 上海启业信息技术有限公司 基于开源ocr上的高速扫描增值税发票勾选认证系统及方法
CN112785266A (zh) * 2021-01-22 2021-05-11 广西安怡臣信息技术有限公司 一种电子档案检测管理系统

Similar Documents

Publication Publication Date Title
US6243501B1 (en) Adaptive recognition of documents using layout attributes
US8538184B2 (en) Systems and methods for handling and distinguishing binarized, background artifacts in the vicinity of document text and image features indicative of a document category
EP2364011B1 (en) Fine-grained visual document fingerprinting for accurate document comparison and retrieval
Seethalakshmi et al. Optical character recognition for printed Tamil text using Unicode
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
US9330323B2 (en) Redigitization system and service
CN114021543B (zh) 基于表格结构解析的文档比对分析方法及系统
CN105335453A (zh) 图像分文档方法
CN201222256Y (zh) 一种数字化集成加工的档案系统
CN112464907A (zh) 一种文档处理系统及方法
CN113221886A (zh) 一种基于图文识别后的文字学习校对系统
CN115774805A (zh) 一种基于数字化处理的档案智能查询方法及系统
Nagy Document image analysis: Automated performance evaluation
CN1426017A (zh) 一种校对多个电子文件的方法及其系统
CN113806368A (zh) 一种将文档识别并自动建立数据库的系统及方法
Garris et al. Federal Register document image database
CN1452098A (zh) 文档分类系统及其实现程序
JPH1021043A (ja) アイコン生成方法、ドキュメント検索方法及びドキュメント・サーバー
Horadi Document Image Analysis in Compressed Domain-Limitations, Applications & Challenges
CN117671714A (zh) 一种构建全生命周期的智慧档案管理方法及系统
Hui et al. Distributed fax message processing system
He et al. Evaluation of a user-assisted archive construction system for online natural history archives
Downton et al. User-configurable OCR enhancement for online natural history archives
CN115311662A (zh) 一种基于聚类的文章组段方法
CN116303237A (zh) 错误可回溯的图像数据结构与标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination