CN113239919A - 扫描电子文档缺页漏页检测方法及系统 - Google Patents

扫描电子文档缺页漏页检测方法及系统 Download PDF

Info

Publication number
CN113239919A
CN113239919A CN202110319983.5A CN202110319983A CN113239919A CN 113239919 A CN113239919 A CN 113239919A CN 202110319983 A CN202110319983 A CN 202110319983A CN 113239919 A CN113239919 A CN 113239919A
Authority
CN
China
Prior art keywords
text
missing
page
template
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110319983.5A
Other languages
English (en)
Inventor
周兵
聂茜茜
王俊淇
李凯江
谷田鑫
宋子龙
李世华
王培森
郝天然
杨文娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Zhengdaoke Information Technology Co ltd
Zhengzhou University
Original Assignee
Henan Zhengdaoke Information Technology Co ltd
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Zhengdaoke Information Technology Co ltd, Zhengzhou University filed Critical Henan Zhengdaoke Information Technology Co ltd
Priority to CN202110319983.5A priority Critical patent/CN113239919A/zh
Publication of CN113239919A publication Critical patent/CN113239919A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Abstract

本发明属于检验电子文档技术领域,特别涉及一种扫描电子文档缺页漏页检测方法及系统,该方法包括预设模板文本的关键词或者表格样式;确定模板文本图像和待识别文本图像中各个区域内容信息;对待识别文本的内容信息和模板文本的内容信息进行对比筛选,识别检测扫描电子文档缺页漏页情况;将缺页漏页情况可视化显示给用户。本发明采用模板匹配的方法实现纸质档案信息管理全自动化,高效便捷的实现电子文档缺页漏页检测,提高办公效率。

Description

扫描电子文档缺页漏页检测方法及系统
技术领域
本发明属于检验电子文档技术领域,特别涉及一种扫描电子文档缺页漏页 检测方法及系统。
背景技术
后处理与预处理相对应,是指在进行预处理后的下一步工作,是最后加工 完善以前进行的工作,或者是对某一阶段性工作后进行的步骤。后处理是扫描 电子信息文档加工领域的一个重要部分,目前扫描电子文档不能自动检测出是 否存在缺页漏页的情况,只能人为去进行核对校准。特别是对批量纸质文档进 行扫描生成电子文档时,当扫描仪或其他设备在扫描过程中出现卡纸等故障时 会中断扫描,再次启动后只能通过人工对扫描后的文档进行完整性及顺序性检 查,导致工作效率降低。扫描电子文档缺页漏页检测系统在一定程度上提高了 工作效率,并保障了纸质档案扫描为电子文档的完整性。
传统后处理方法采用人工校正,将扫描后的电子文档与预先设定好的模板 进行一一匹配,筛选出扫描不完整的文档,筛查出整个扫描文档的缺漏页,然 后人为的进行二次扫描。人工检测判别不能自动处理,对于批量扫描文档需要 依次按照模板进行检查,费时耗力,工作量巨大。
发明内容
针对现有技术中存在的问题,本发明提出了一种扫描电子文档缺页漏页检 测方法,采用模板匹配的方法实现纸质档案信息管理全自动化,高效便捷的实 现电子文档缺页漏页检测,提高办公效率。
为了实现上述目的,本发明采用以下的技术方案:
本发明提供了一种扫描电子文档缺页漏页检测方法,包含以下步骤:
预设模板文本的关键词或者表格样式;
确定模板文本图像和待识别文本图像中各个区域内容信息;
对待识别文本的内容信息和模板文本的内容信息进行对比筛选,识别检测 扫描电子文档缺页漏页情况;
将缺页漏页情况可视化显示给用户。
进一步地,在预设模板文本的关键词或者表格样式之前,还包括:
将输入的打印文档或手写文档作为图像数据,图像数据包括模板文本图像 和待识别文本图像;
将提取的图像数据转换为待选的文本字符及表格样式,并且记录每个文本 字符及表格样式的坐标位置信息;
将初始识别的文本字符、表格样式以及相应的坐标位置信息进行存储。
进一步地,所述预设模板文本的关键词或者表格样式,包括:
每张扫描文档图像都存在特有的关键词或者表格样式,选取每一页特有的 3~6个关键词或者表格样式作为模板文本的标识。
进一步地,所述确定模板文本图像和待识别文本图像中各个区域内容信息, 包括:
根据识别的文本字符查找预设定的关键词;
按照查找到的关键词确定模板文本;
通过待识别文本图像与模板文本图像中关键词坐标位置的仿射变换关系确 定待识别文本图像中各个区域内容信息。
进一步地,所述通过待识别文本图像与模板文本图像中关键词坐标位置的 仿射变换关系确定待识别文本图像中各个区域内容信息,包括:设模板文本图 像为f(x,y),待识别文本图像为F(x',y');
仿射变换的表达式为:
R(x)=Px+Q (1)
其中,x=(x,y)是像素的平面位置,P是2*2的旋转矩阵,Q是2*1的平 移向量,P、Q为仿射变换参数;
x=aX'+bY'+c,y=d X'+eY'+f; (2)
将模板文本图像与待识别文本图像中对应坐标值代入公式(2),求得系数a, b,c,d,e,f的值,即求得仿射变换的表达式,通过仿射变换的表达式确定待 识别文本图像中各个区域内容信息。
进一步地,所述对待识别文本的内容信息和模板文本的内容信息进行对比 筛选,识别检测扫描电子文档缺页漏页情况,包括:
对所有待识别文本进行逐页内容匹配,若某一页与模板文本对应页的内容 不匹配,却与模板文本下一页的内容匹配,则判断该页的前一页为缺少页,最 终筛选出缺页漏页情况。
进一步地,将缺页漏页情况在连接打印机或者扫描仪的计算机终端进行显 示。
本发明还提供一种扫描电子文档缺页漏页检测系统,该系统包括:
模板文本的关键词及表格样式预设模块,用于预设模板文本的关键词或者 表格样式;
待识别文本内容信息确定模块,用于确定模板文本图像和待识别文本图像 中各个区域内容信息;
缺页漏页检测模块,用于对待识别文本的内容信息和模板文本的内容信息 进行对比筛选,识别检测扫描电子文档缺页漏页情况;
显示模块,用于将缺页漏页情况可视化显示给用户。
进一步地,还包括:
图像输入模块,用于将输入的打印文档或手写文档作为图像数据,图像数 据包括模板文本图像和待识别文本图像;
字符识别模块,用于将提取的图像数据转换为待选的文本字符及表格样式, 并且记录每个文本字符及表格样式的坐标位置信息;
识别结果存储模块,用于将初始识别的文本字符、表格样式以及相应的坐 标位置信息进行存储。
与现有技术相比,本发明具有以下优点:
本发明的扫描电子文档缺页漏页检测方法,将扫描后的电子文档直接与预 先设定好的模板进行匹配,通过对具有独特性的关键词检测匹配,及表格结构 进行检测判别,实现对扫描文档的精准识别及检测,该方法能够完成自动检测 扫描电子文档是否存在缺页漏页的情况,在一定程度上提高了办公效率,节省 了人力资源,为纸质档案数字化加工自动化奠定坚实的基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的扫描电子文档缺页漏页检测方法的流程图;
图2是本发明实施例的模板文本图像之一;
图3是本发明实施例的模板文本图像之二;
图4是本发明实施例的扫描电子文档缺页漏页检测系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造 性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
将打印文档或手写文档扫描生成电子文档,针对批量扫描可能存在缺页漏 页的问题,如图1所示,本实施例提出一种扫描电子文档缺页漏页检测方法, 能够准确的筛选所有扫描文档,通过模板关键词定位匹配的方法规则,快速准 确地检测出缺页漏页情况;该方法具体包含以下步骤:
步骤S101,将输入的打印文档或手写文档作为图像数据,图像数据包含两 个部分:一是模板文本图像,即预设的文档模板,二是待识别文本图像,即包 含内容的扫描文档。
步骤S102,将提取的图像数据转换为待选的文本字符及表格样式,并且记 录每个文本字符及表格样式的坐标位置信息。
步骤S103,将初始识别的文本字符、表格样式以及相应的坐标位置信息进 行存储。
步骤S104,预设模板文本的关键词或者表格样式。
每张扫描文档图像都存在多个特有的关键词或者特定的表格样式,选取每 一页特有的3~6个关键词或者表格样式作为模板文本的标识。如图2所示,S1表示集中培训,S2表示学院,S3表示会议议题,S4表示记录人,S5表示参会人员 姓名,如图3所示,S1表示大会记录,S2表示时间,S3表示主持人,S4表示参加 人数,S5表示参加人员,S6表示会议情况。选取关键词时需要具备唯一性,能够 标识其所在的文本图像,图2和图3表示的是同一人员的档案中不同的两份材 料。
步骤S105,确定模板文本图像和待识别文本图像中各个区域内容信息。
图像输入模块输入设备多种多样,输入的待识别文本图像可能会发生形变 等扭曲情况,根据仿射变换确定各个区域内容,具体过程如下:
步骤S1051,根据识别的文本字符查找预设定的关键词。
步骤S1052,按照查找到的关键词确定模板文本。
步骤S1053,通过待识别文本图像与模板文本图像中关键词坐标位置的仿射 变换关系确定待识别文本图像中各个区域内容信息。
如图2和图3所示,模板文本关键词区域为S1,S2,S3,S4,S5,(S6),待识 别文本关键词区域S1',S2',S3',S4',S5',(S6'),分别以区域的中心作为区域的坐 标值。设模板文本图像为f(x,y),待识别文本图像为F(x',y');仿射变换的表 达式为:
R(x)=Px+Q (1)
其中,x=(x,y)是像素的平面位置,P是2*2的旋转矩阵,Q是2*1的平 移向量,P、Q为仿射变换参数;
x=aX'+bY'+c,y=d X'+eY'+f; (2)
将模板文本图像与待识别文本图像中对应坐标值代入公式(2),求得系数a, b,c,d,e,f的值,即求得仿射变换的表达式,通过仿射变换的表达式确定待 识别文本图像中各个区域内容信息。
步骤S106,对待识别文本的内容信息和模板文本的内容信息进行对比筛选, 识别检测扫描电子文档缺页漏页情况。
根据识别的关键词及表格样式对所有待识别文本进行逐页内容匹配,例如: 若待识别文本的第20页(实际上是第21页)与模板文本的第20页的关键词不 匹配,但是与模板文本的第21页的关键词匹配,则判断待识别文本的第20页 (实际上是第21页)的前一页(实际上是第20页)为缺少页,依次类推,最 终筛选出缺页漏页情况。
步骤S107,将缺页漏页情况在连接打印机或者扫描仪的计算机终端进行显 示,便于用户直接定位缺失的页面,加快工作进展。
本发明的扫描电子文档缺页漏页检测方法能够自动准确的识别检测出缺页 漏页情况,首先对模板文本进行预处理,提前确定出图像中用于匹配的关键词 及表格样式特征,然后将待检测文本与模板文本中关键点信息进行逐页匹配, 提高了扫描电子文档缺页漏页的检测准确率及工作效率。
与上述扫描电子文档缺页漏页检测方法相应地,如图4所示,本实施例还 提出一种扫描电子文档缺页漏页检测系统,该系统包括:
图像输入模块41,用于将输入的打印文档或手写文档作为图像数据,图像 数据包括模板文本图像和待识别文本图像,图像输入单元可以是扫描仪、传真 机、数码相机等。
字符识别模块42,用于将提取的图像数据转换为待选的文本字符及表格样 式,并且记录每个文本字符及表格样式的坐标位置信息。
识别结果存储模块43,用于将初始识别的文本字符、表格样式以及相应的 坐标位置信息进行存储。
模板文本的关键词及表格样式预设模块44,用于预设模板文本的关键词或 者表格样式。
待识别文本内容信息确定模块45,用于确定模板文本图像和待识别文本图 像中各个区域内容信息。
缺页漏页检测模块46,用于对待识别文本的内容信息和模板文本的内容信 息进行对比筛选,识别检测扫描电子文档缺页漏页情况。
显示模块47,用于将缺页漏页情况可视化显示给用户。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵 盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不 仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种 过程、方法、物品或者设备所固有的要素。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发 明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之 内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (9)

1.一种扫描电子文档缺页漏页检测方法,其特征在于,包含以下步骤:
预设模板文本的关键词或者表格样式;
确定模板文本图像和待识别文本图像中各个区域内容信息;
对待识别文本的内容信息和模板文本的内容信息进行对比筛选,识别检测扫描电子文档缺页漏页情况;
将缺页漏页情况可视化显示给用户。
2.根据权利要求1所述的扫描电子文档缺页漏页检测方法,其特征在于,在预设模板文本的关键词或者表格样式之前,还包括:
将输入的打印文档或手写文档作为图像数据,图像数据包括模板文本图像和待识别文本图像;
将提取的图像数据转换为待选的文本字符及表格样式,并且记录每个文本字符及表格样式的坐标位置信息;
将初始识别的文本字符、表格样式以及相应的坐标位置信息进行存储。
3.根据权利要求1所述的扫描电子文档缺页漏页检测方法,其特征在于,所述预设模板文本的关键词或者表格样式,包括:
每张扫描文档图像都存在特有的关键词或者表格样式,选取每一页特有的3~6个关键词或者表格样式作为模板文本的标识。
4.根据权利要求2所述的扫描电子文档缺页漏页检测方法,其特征在于,所述确定模板文本图像和待识别文本图像中各个区域内容信息,包括:
根据识别的文本字符查找预设定的关键词;
按照查找到的关键词确定模板文本;
通过待识别文本图像与模板文本图像中关键词坐标位置的仿射变换关系确定待识别文本图像中各个区域内容信息。
5.根据权利要求4所述的扫描电子文档缺页漏页检测方法,其特征在于,所述通过待识别文本图像与模板文本图像中关键词坐标位置的仿射变换关系确定待识别文本图像中各个区域内容信息,包括:设模板文本图像为f(x,y),待识别文本图像为F(x',y');
仿射变换的表达式为:
R(x)=Px+Q (1)
其中,x=(x,y)是像素的平面位置,P是2*2的旋转矩阵,Q是2*1的平移向量,P、Q为仿射变换参数;
x=aX'+bY'+c,y=d X'+eY'+f;(2)
将模板文本图像与待识别文本图像中对应坐标值代入公式(2),求得系数a,b,c,d,e,f的值,即求得仿射变换的表达式,通过仿射变换的表达式确定待识别文本图像中各个区域内容信息。
6.根据权利要求1所述的扫描电子文档缺页漏页检测方法,其特征在于,所述对待识别文本的内容信息和模板文本的内容信息进行对比筛选,识别检测扫描电子文档缺页漏页情况,包括:
对所有待识别文本进行逐页内容匹配,若某一页与模板文本对应页的内容不匹配,却与模板文本下一页的内容匹配,则判断该页的前一页为缺少页,最终筛选出缺页漏页情况。
7.根据权利要求1所述的扫描电子文档缺页漏页检测方法,其特征在于,将缺页漏页情况在连接打印机或者扫描仪的计算机终端进行显示。
8.一种扫描电子文档缺页漏页检测系统,其特征在于,该系统包括:
模板文本的关键词及表格样式预设模块,用于预设模板文本的关键词或者表格样式;
待识别文本内容信息确定模块,用于确定模板文本图像和待识别文本图像中各个区域内容信息;
缺页漏页检测模块,用于对待识别文本的内容信息和模板文本的内容信息进行对比筛选,识别检测扫描电子文档缺页漏页情况;
显示模块,用于将缺页漏页情况可视化显示给用户。
9.根据权利要求8所述的扫描电子文档缺页漏页检测系统,其特征在于,还包括:
图像输入模块,用于将输入的打印文档或手写文档作为图像数据,图像数据包括模板文本图像和待识别文本图像;
字符识别模块,用于将提取的图像数据转换为待选的文本字符及表格样式,并且记录每个文本字符及表格样式的坐标位置信息;
识别结果存储模块,用于将初始识别的文本字符、表格样式以及相应的坐标位置信息进行存储。
CN202110319983.5A 2021-03-25 2021-03-25 扫描电子文档缺页漏页检测方法及系统 Pending CN113239919A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110319983.5A CN113239919A (zh) 2021-03-25 2021-03-25 扫描电子文档缺页漏页检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110319983.5A CN113239919A (zh) 2021-03-25 2021-03-25 扫描电子文档缺页漏页检测方法及系统

Publications (1)

Publication Number Publication Date
CN113239919A true CN113239919A (zh) 2021-08-10

Family

ID=77130484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110319983.5A Pending CN113239919A (zh) 2021-03-25 2021-03-25 扫描电子文档缺页漏页检测方法及系统

Country Status (1)

Country Link
CN (1) CN113239919A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101043567A (zh) * 2006-03-23 2007-09-26 佳能株式会社 文档管理设备、文档管理系统、及其控制方法、程序和存储介质
JP2009088655A (ja) * 2007-09-27 2009-04-23 Konica Minolta Business Technologies Inc 制御プログラム、画像処理装置及び出力制御システム並びに出力制御方法
CN110942061A (zh) * 2019-10-24 2020-03-31 泰康保险集团股份有限公司 文字识别方法、装置、设备和计算机可读介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101043567A (zh) * 2006-03-23 2007-09-26 佳能株式会社 文档管理设备、文档管理系统、及其控制方法、程序和存储介质
JP2009088655A (ja) * 2007-09-27 2009-04-23 Konica Minolta Business Technologies Inc 制御プログラム、画像処理装置及び出力制御システム並びに出力制御方法
CN110942061A (zh) * 2019-10-24 2020-03-31 泰康保险集团股份有限公司 文字识别方法、装置、设备和计算机可读介质

Similar Documents

Publication Publication Date Title
US9639751B2 (en) Property record document data verification systems and methods
RU2651144C2 (ru) Ввод данных с изображений документов с фиксированной структурой
JP4118349B2 (ja) 文書選択等の方法及び文書サーバ
US8064703B2 (en) Property record document data validation systems and methods
US20030042319A1 (en) Automatic and semi-automatic index generation for raster documents
CN106846961B (zh) 电子试卷的处理方法和装置
JP2008276766A (ja) フォーム自動埋込方法及び装置
JP2007172077A (ja) 画像検索システム及び方法及びプログラム
CN112508000B (zh) 一种用于ocr图像识别模型训练数据生成的方法及设备
US20230206672A1 (en) Image processing apparatus, control method of image processing apparatus, and storage medium
US20070217691A1 (en) Property record document title determination systems and methods
CN113239919A (zh) 扫描电子文档缺页漏页检测方法及系统
US20020186885A1 (en) Verifying results of automatic image recognition
JP2009146245A (ja) 画像照合方法及び画像照合装置並びに画像照合プログラム
US8218913B1 (en) Identifying a front page in media material
CN113657373A (zh) 一种文书自动编目方法
CN113205527A (zh) 一种试卷智能切割方法、系统及存储介质
US8964192B2 (en) Print verification database mechanism
JP2002108847A (ja) 文書認識装置及び文書認識方法
JP2005165978A (ja) 帳票ocrプログラム、方法及び装置
JPH096865A (ja) フォーマット情報生成方法及びフォーマット情報生成装置
CN114817163A (zh) 习题分类录入方法、系统及电子设备
JP2021068289A (ja) 画像処理装置、情報処理方法及びプログラム
CN113239893A (zh) 一种文档录入复核方法、系统、电子设备及介质
CN115034877A (zh) 贷款抵押信息处理方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210810

RJ01 Rejection of invention patent application after publication