CN116092108A - 一种实体文档扫描生成pdf文件的方法、系统及存储介质 - Google Patents

一种实体文档扫描生成pdf文件的方法、系统及存储介质 Download PDF

Info

Publication number
CN116092108A
CN116092108A CN202310265473.3A CN202310265473A CN116092108A CN 116092108 A CN116092108 A CN 116092108A CN 202310265473 A CN202310265473 A CN 202310265473A CN 116092108 A CN116092108 A CN 116092108A
Authority
CN
China
Prior art keywords
catalog
page
data
content
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310265473.3A
Other languages
English (en)
Inventor
刘枭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Zhuxin Archives Digital Technology Co ltd
Original Assignee
Sichuan Zhuxin Archives Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Zhuxin Archives Digital Technology Co ltd filed Critical Sichuan Zhuxin Archives Digital Technology Co ltd
Priority to CN202310265473.3A priority Critical patent/CN116092108A/zh
Publication of CN116092108A publication Critical patent/CN116092108A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/134Hyperlinking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种实体文档扫描生成PDF文件的方法、系统及存储介质,涉及数字化数据技术领域,包括:获取文件扫描图片集合;获取多个目录提取图像;获得若干个内容页码提取图像;获得目录标题文字数据和目录对应页码数据;对内容页码提取图像内的字符进行识别转化;建立目录标题‑页码‑目录标题初始内容页之间的映射对应关系;获得目录对应内容信息;将文件扫描图片集合U进行封装形成PDF文件,并根据目录对应内容信息生成跳转链接。本发明的优点在于:通过对实体文档的扫描文件中存在的目录页和内容页进行智能化识别,可实现对应目录标题所对应的初始内容页的快速跳转,极大地提高生成的PDF文档的查阅便捷度。

Description

一种实体文档扫描生成PDF文件的方法、系统及存储介质
技术领域
本发明涉及数字化数据技术领域,具体是涉及一种实体文档扫描生成PDF文件的方法、系统及存储介质。
背景技术
实体文档的信息检索与查询处理效率不高,且占地面积大,管理成本较高,随着技术的发展,通过图像识别技术将实体文档转化为PDF文件进行存储管理可以有效提高实体文档的处理效率,降低实体文档的管理成本,PDF文件的扫描转化实现过程一般是先通过扫描仪对实体文档进行连续扫描采集,保存为图像后再进行识别处理,将识别结果挂载到数据库后可以方便地检索查询。
现有技术中为保证扫描件的生成效率,通常生成的PDF文件内容均为图像类对象,将图像类对象进行排列组合封装后直接挂载到数据库中,这种方式生成的图像类PDF文件在进行文件查阅时只能手动的翻页至想要查阅的页数,对于页数比较大的文档PDF文件,在进行查阅时通常难以实现精准定位,导致翻页过程会浪费大量的时间,而将图像类对象的PDF进行逐页文字识别,将其中的文字进行识别转化为可识别编辑处理的对象,处理过程极为复杂,文件转化效率较低。
发明内容
为解决上述技术问题,提供一种实体文档扫描生成PDF文件的方法、系统及存储介质,本技术方案解决了上述的现有技术中通常生成的PDF文件内容均为图像类对象,将图像类对象进行排列组合封装后直接挂载到数据库中,这种方式生成的图像类PDF文件在进行文件查阅时只能手动的翻页至想要查阅的页数,对于页数比较大的文档PDF文件,在进行查阅时通常难以实现精准定位的问题。
为达到以上目的,本发明采用的技术方案为:
一种实体文档扫描生成PDF文件的方法,包括如下步骤:
通过扫描仪连续扫描实体文档图像并保存扫描采集图像,获取文件扫描图片集合U,所述文件扫描图片集合U包括内容页集合U1和目录页集合U2,所述内容页集合U1、目录页集合U2和文件扫描图片集合U满足U1∪U2∈U;
对目录页集合U2中的元素进行目录内容截取框划分,使每一个目录内容截取框内部都含括且只含括一条目录内容;
按照目录内容截取框对目录页集合U2中的元素进行图像分割,获取多个目录提取图像;
进行内容页识别模板的训练,并保存内容页识别模板;
调取内容页识别模板对内容页集合U1中的元素进行内容识别分割提取,获得若干个内容页码提取图像;
对多个目录提取图像进行智能文字识别,获得目录标题文字数据和目录对应页码数据;
建立目录标题文字数据与目录对应页码数据之间的一一映射对应关系;
对内容页码提取图像内的字符进行识别转化,获得页码数据集合;
建立内容页集合U1中的元素与页码数据之间的一一映射对应关系;
将目录对应页码数据与页码数据集合中的元素进行遍历对比,获得页码数据集合中与目录对应页码数据相对应的元素,并建立目录对应页码数据与页码数据集合元素的一一映射对应关系;
根据目录标题文字数据与目录对应页码数据之间的一一映射对应关系、内容页与页码数据之间的一一映射对应关系和目录对应页码数据与页码数据集合元素的一一映射对应关系建立目录标题-页码-目录标题初始内容页之间的映射对应关系;
将目录标题-页码-目录标题初始内容页之间的映射对应关系转化为结构化数据,获得目录对应内容信息;
将文件扫描图片集合U进行封装形成PDF文件,并根据目录对应内容信息生成跳转链接。
优选的,所述内容页识别模板的训练具体包括如下步骤:
根据内容页的排版布局进行页码截取框生成并调整,保证页码截取框内容含括全部内容页页码信息;
记录页码截取框的尺寸,获取页码截取框尺寸数据;
记录页码截取框的坐标,获取页码截取框坐标数据;
将页码截取框尺寸数据和页码截取框坐标数据保存为内容页识别模板。
优选的,所述对多个目录提取图像进行智能文字识别具体包括:
在目录提取图像中进行目录标题区域和目录对应页码区域划分;
判断目录标题区域是否含括所有目录标题文字内容,若是,则不做调整,若否,则调整目录标题区域尺寸和位置使目录标题区域含括所有目录标题文字内容;
判断目录对应页码区域是否含括所有目录对应页码内容,若是,则不做调整,若否,则调整目录对应页码区域尺寸和位置使目录对应页码区域含括所有目录对应页码内容;
对目录标题区域和/或目录对应页码区域中的每个字符进行识别转化,获得目录标题区域的字符数据和/或目录对应页码区域的字符数据;
将目录标题区域的字符数据和/或目录对应页码区域的字符数据进行组合,获得目录标题文字数据和/或目录对应页码数据。
优选的,所述字符进行识别转化包括如下步骤:
对目录标题区域和/或目录对应页码区域和/或内容页码提取图像中的文本内容进行倾斜度检测,并对倾斜文本摆正;
对摆正后的目录标题区域和/或目录对应页码区域和/或内容页码提取图像中的文本内容进行字符文本框划分,使每一个文本框中含括且只含括一个文本字符;
提取识别文本框内的字符图像特征,并与标准字符库进行比对,将文本框内的字符图像转化为字符数据。
优选的,所述字符数据进行组合包括如下步骤:
检测每一个文本框中的坐标信息,获得文本框坐标数据;
按照文本框坐标数据,将文本框内的字符图像转化成的字符数据进行排序。
优选的,所述实体文档扫描生成PDF文件的方法还包括:
根据目录标题-页码-目录标题初始内容页之间的映射对应关系建立跳转链接,所述跳转链接以目录标题文字数据或目录标题文字图像为触发器,当所述触发器被触发时,调取目录标题-页码-目录标题初始内容页之间的映射对应关系,并跳转至目录标题所对应的初始内容页。
进一步的,提出一种实体文档扫描生成PDF文件的系统,用于实现如上述的实体文档扫描生成PDF文件的方法,包括:
处理器,所述处理器用于内容页识别模板的训练、建立目录标题文字数据与目录对应页码数据之间的一一映射对应关系、建立内容页集合U1中的元素与页码数据之间的一一映射对应关系、建立目录对应页码数据与页码数据集合元素的一一映射对应关系、建立目录标题-页码-目录标题初始内容页之间的映射对应关系、将目录标题-页码-目录标题初始内容页之间的映射对应关系转化为结构化数据和将文件扫描图片集合U进行封装形成PDF文件,并根据目录对应内容信息生成跳转链接;
存储器,存储器与所述处理器电性连接,存储器用于进行内容页识别模板的训练和映射关系的存储;
图像提取模块,图像提取模块与所述处理器电性连接,图像提取模块用于进行对文件扫描图片集合进行内容识别;
文字识别模块,文字识别模块与所述处理器电性连接,所述文字识别模块用于进行对多个目录提取图像和内容页码提取图像进行智能文字识别;
链接触发监测模块,链接触发监测模块与与所述处理器电性连接,所述链接触发监测模块用于实时监测跳转链接是否被触发。
可选的,所述处理器内部集成有:
模板训练单元,所述模板训练单元用于进行内容页识别模板的训练;
映射关系建立单元,所述映射关系建立单元用于进行建立目录标题文字数据与目录对应页码数据之间的一一映射对应关系、建立内容页集合U1中的元素与页码数据之间的一一映射对应关系、建立目录对应页码数据与页码数据集合元素的一一映射对应关系、建立目录标题-页码-目录标题初始内容页之间的映射对应关系;
数据转化单元,所述数据转化单元用于将目录标题-页码-目录标题初始内容页之间的映射对应关系转化为结构化数据,获得目录对应内容信息;
PDF生成单元,所述PDF生成单元用于将文件扫描图片集合U进行封装形成PDF文件,并根据目录对应内容信息生成跳转链接。
再进一步的,提出一种计算机可读存储介质,其上存储有计算机可读程序,所述计算机可读程序被调用时执行如上述的实体文档扫描生成PDF文件的方法。
与现有技术相比,本发明的有益效果在于:
本发明提出通过对实体文档的扫描文件中存在的目录页和内容页进行智能化识别,建立目录标题-页码-目录标题初始内容页之间的映射对应关系,并根据根据目录标题-页码-目录标题初始内容页之间的映射对应关系建立跳转链接,在后续的PDF文档查阅过程中,只需触发跳转链接即可实现对应目录标题所对应的初始内容页的快速跳转,相对于图像类对象的PDF文件,极大地提高PDF文档的查阅便捷度,相对于将图像类对象的PDF进行逐页文字识别的方式,极大地提高生成PDF文件的速度;
本发明中为保证内容页的页码识别精准度,提出了内容页识别模板的训练方法,由于对于相同类型的实体文档的排版布局通常完全相同,既页码位置相同,因此,通过训练建立的内容页识别模板即可快速的进行内容页码提取图像的获取,进而有效的提高了针对于扫描件生成PDF文件的准确度和速度。
附图说明
图1为本发明提出的扫描件快速生成PDF文件的方法流程图;
图2为本发明中的内容页识别模板训练方法流程图;
图3为本发明中的对目录提取图像进行智能文字识别方法流程图;
图4为本发明中的对字符进行识别转化方法流程图;
图5为本发明提出的扫描件快速生成PDF文件的系统结构框图。
具体实施方式
以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。
参照图1所示,一种实体文档扫描生成PDF文件的方法,包括如下步骤:
通过扫描仪连续扫描实体文档图像并保存扫描采集图像,获取文件扫描图片集合U,文件扫描图片集合U包括内容页集合U1和目录页集合U2,内容页集合U1、目录页集合U2和文件扫描图片集合U满足U1∪U2∈U;
对目录页集合U2中的元素进行目录内容截取框划分,使每一个目录内容截取框内部都含括且只含括一条目录内容;
按照目录内容截取框对目录页集合U2中的元素进行图像分割,获取多个目录提取图像;
进行内容页识别模板的训练,并保存内容页识别模板;
调取内容页识别模板对内容页集合U1中的元素进行内容识别分割提取,获得若干个内容页码提取图像;
对多个目录提取图像进行智能文字识别,获得目录标题文字数据和目录对应页码数据;
建立目录标题文字数据与目录对应页码数据之间的一一映射对应关系;
对内容页码提取图像内的字符进行识别转化,获得页码数据集合;
建立内容页集合U1中的元素与页码数据之间的一一映射对应关系;
将目录对应页码数据与页码数据集合中的元素进行遍历对比,获得页码数据集合中与目录对应页码数据相对应的元素,并建立目录对应页码数据与页码数据集合元素的一一映射对应关系;
根据目录标题文字数据与目录对应页码数据之间的一一映射对应关系、内容页与页码数据之间的一一映射对应关系和目录对应页码数据与页码数据集合元素的一一映射对应关系建立目录标题-页码-目录标题初始内容页之间的映射对应关系;
将目录标题-页码-目录标题初始内容页之间的映射对应关系转化为结构化数据,获得目录对应内容信息;
将文件扫描图片集合U进行封装形成PDF文件,并根据目录对应内容信息生成跳转链接。
本方案通过对实体文档的扫描文件中存在的目录页和内容页进行智能化识别,建立目录标题-页码-目录标题初始内容页之间的映射对应关系,在后续的PDF文档查阅过程中,可根据目录标题-页码-目录标题初始内容页之间的映射对应关系实现对应目录标题所对应的初始内容页的快速跳转,相对于图像类对象的PDF文件,极大地提高PDF文档的查阅便捷度,相对于将图像类对象的PDF进行逐页文字识别,将其中的文字进行识别转化为可编辑处理的字符类对象的方式,极大地提高了生成PDF文件的速度。
请参阅图2所示,内容页识别模板的训练具体包括如下步骤:
根据内容页的排版布局进行页码截取框生成并调整,保证页码截取框内容含括全部内容页页码信息;
记录页码截取框的尺寸,获取页码截取框尺寸数据;
记录页码截取框的坐标,获取页码截取框坐标数据;
将页码截取框尺寸数据和页码截取框坐标数据保存为内容页识别模板。
可以理解的是,对于相同类型的实体文档的排版布局通常完全相同,既页码位置相对固定,因此,通过训练建立的内容页识别模板即可快速的进行内容页码提取图像的获取,进而有效的提高了针对于扫描件生成PDF文件的准确度和速度;
其中,页码截取框的生成和调整步骤均可通过手动操作实现。
本方案中的内容页识别模板的训练方法可通过提前对大量样本页数据进行预先训练,也可在实际的PDF识别过程中根据实时的识别结果进行学习调整。
请参阅图3所示,对多个目录提取图像进行智能文字识别具体包括:
在目录提取图像中进行目录标题区域和目录对应页码区域划分;
判断目录标题区域是否含括所有目录标题文字内容,若是,则不做调整,若否,则调整目录标题区域尺寸和位置使目录标题区域含括所有目录标题文字内容;
判断目录对应页码区域是否含括所有目录对应页码内容,若是,则不做调整,若否,则调整目录对应页码区域尺寸和位置使目录对应页码区域含括所有目录对应页码内容;
对目录标题区域和/或目录对应页码区域中的每个字符进行识别转化,获得目录标题区域的字符数据和/或目录对应页码区域的字符数据;
将目录标题区域的字符数据和/或目录对应页码区域的字符数据进行组合,获得目录标题文字数据和/或目录对应页码数据。
本方案中将目录提取图像划分成目录标题区域和目录对应页码区域,在后续文字识别过程中,分别对两个区域的字符进行识别,便于获得独立的目录对应页码数据,以实现后续的目录对应页码数据与页码数据集合元素的一一映射对应关系的建立;
在实际的PDF生成过程中,针对于目录标题区域内部可根据实施的效率需求进行智能文字识别或不进行智能文字识别,若需要高效率的PDF文件生成,则可不对目录标题区域进行智能文字识别,后续建立目录标题-页码-目录标题初始内容页之间的映射对应关系时,目录标题对象为目录提取图像,否则,对目录标题区域进行智能文字识别,后续建立目录标题-页码-目录标题初始内容页之间的映射对应关系时,目录标题对象为目录标题文字数据。
请参阅图4所示,字符进行识别转化包括如下步骤:
对目录标题区域和/或目录对应页码区域和/或内容页码提取图像中的文本内容进行倾斜度检测,并对倾斜文本摆正;
对摆正后的目录标题区域和/或目录对应页码区域和/或内容页码提取图像中的文本内容进行字符文本框划分,使每一个文本框中含括且只含括一个文本字符;
提取识别文本框内的字符图像特征,并与标准字符库进行比对,将文本框内的字符图像转化为字符数据。
字符数据进行组合包括如下步骤:
检测每一个文本框中的坐标信息,获得文本框坐标数据;
按照文本框坐标数据,将文本框内的字符图像转化成的字符数据进行排序。
对于扫描件中的文字,由于扫描时难以保证绝对的水平,因此扫描图像的文字区域存在倾斜,易造成文字识别错误,因此,本方案中对图像中文本内容进行倾斜度检测,并对倾斜文本摆正,极大地提高了文字识别的准确度。
在后续进行PDF查阅文件的生成时,根据目录标题-页码-目录标题初始内容页之间的映射对应关系建立跳转链接,跳转链接以目录标题文字数据或目录标题文字图像为触发器,当触发器被触发时,调取目录标题-页码-目录标题初始内容页之间的映射对应关系,并跳转至目录标题所对应的初始内容页,此方法极大地提高PDF文档的查阅便捷度。
进一步的,本方案结合上述实体文档扫描生成PDF文件的方法还提出一种实体文档扫描生成PDF系统,具体的,请参阅图5所示,包括:
处理器,处理器用于内容页识别模板的训练、建立目录标题文字数据与目录对应页码数据之间的一一映射对应关系、建立内容页集合U1中的元素与页码数据之间的一一映射对应关系、建立目录对应页码数据与页码数据集合元素的一一映射对应关系、建立目录标题-页码-目录标题初始内容页之间的映射对应关系、将目录标题-页码-目录标题初始内容页之间的映射对应关系转化为结构化数据和将文件扫描图片集合U进行封装形成PDF文件,并根据目录对应内容信息生成跳转链接;
存储器,存储器与处理器电性连接,存储器用于进行内容页识别模板的训练和映射关系的存储;
图像提取模块,图像提取模块与处理器电性连接,图像提取模块用于进行对文件扫描图片集合进行内容识别;
文字识别模块,文字识别模块与处理器电性连接,文字识别模块用于进行对多个目录提取图像和内容页码提取图像进行智能文字识别;
链接触发监测模块,链接触发监测模块与与处理器电性连接,链接触发监测模块用于实时监测跳转链接是否被触发。
处理器内部集成有:
模板训练单元,模板训练单元用于进行内容页识别模板的训练;
映射关系建立单元,映射关系建立单元用于进行建立目录标题文字数据与目录对应页码数据之间的一一映射对应关系、建立内容页集合U1中的元素与页码数据之间的一一映射对应关系、建立目录对应页码数据与页码数据集合元素的一一映射对应关系、建立目录标题-页码-目录标题初始内容页之间的映射对应关系;
数据转化单元,数据转化单元用于将目录标题-页码-目录标题初始内容页之间的映射对应关系转化为结构化数据,获得目录对应内容信息;
PDF生成单元,PDF生成单元用于将文件扫描图片集合U进行封装形成PDF文件,并根据目录对应内容信息生成跳转链接。
上述实体文档扫描生成PDF系统的运行过程为:
步骤一:处理器从外部扫描仪接收实体文档扫描采集图像,并对实体文档扫描采集图像进行分类,获得内容页集合和目录页集合;
步骤二:模板训练单元根据内容页集合中的元素进行内容页识别模板的训练,并将训练完成的内容页识别模板存入存储器;
步骤三:图像提取模块对目录页集合中的元素进行图像分割,获取若干个目录提取图像,从存储器中调取内容页识别模板对内容页集合中的元素进行内容识别,获得若干个内容页码提取图像;
步骤四:文字识别模块对目录提取图像和内容页码提取图像进行智能文字识别,获得目录标题文字数据、目录对应页码数据和页码数据集合;
步骤五:映射关系建立单元根据目录标题文字数据、目录对应页码数据和页码数据集合进行处理建立目录标题-页码-目录标题初始内容页之间的映射对应关系,并由数据转化单元将目录标题-页码-目录标题初始内容页之间的映射对应关系转化为结构化数据,获得目录对应内容信息并保存;
步骤六:PDF生成单元文件扫描图片集合U进行封装形成PDF文件,并根据目录对应内容信息生成跳转链接,链接触发监测模块实时监测跳转链接是否被触发,当跳转链接被触发时,调取目录标题-页码-目录标题初始内容页之间的映射对应关系,并跳转至目录标题所对应的初始内容页。
进一步的,本发明还提出本方案还提出一种计算机可读存储介质,其上存储有计算机可读程序,计算机可读程序被调用时执行如上述的实体文档扫描生成PDF文件的方法;
可以理解的是,存储介质可以是磁性介质,例如,软盘、硬盘、磁带;光介质例如,DVD;或者半导体介质例如固态硬盘SolidStateDisk,SSD等。
综上所述,本发明的优点在于:通过对实体文档的扫描文件中存在的目录页和内容页进行智能化识别,可实现对应目录标题所对应的初始内容页的快速跳转,极大地提高生成的PDF文档的查阅便捷度。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (9)

1.一种实体文档扫描生成PDF文件的方法,其特征在于,包括如下步骤:
通过扫描仪连续扫描实体文档图像并保存扫描采集图像,获取文件扫描图片集合U,所述文件扫描图片集合U包括内容页集合U1和目录页集合U2,所述内容页集合U1、目录页集合U2和文件扫描图片集合U满足U1∪U2∈U;
对目录页集合U2中的元素进行目录内容截取框划分,使每一个目录内容截取框内部都含括且只含括一条目录内容;
按照目录内容截取框对目录页集合U2中的元素进行图像分割,获取多个目录提取图像;
进行内容页识别模板的训练,并保存内容页识别模板;
调取内容页识别模板对内容页集合U1中的元素进行内容识别分割提取,获得若干个内容页码提取图像;
对多个目录提取图像进行智能文字识别,获得目录标题文字数据和目录对应页码数据;
建立目录标题文字数据与目录对应页码数据之间的一一映射对应关系;
对内容页码提取图像内的字符进行识别转化,获得页码数据集合;
建立内容页集合U1中的元素与页码数据之间的一一映射对应关系;
将目录对应页码数据与页码数据集合中的元素进行遍历对比,获得页码数据集合中与目录对应页码数据相对应的元素,并建立目录对应页码数据与页码数据集合元素的一一映射对应关系;
根据目录标题文字数据与目录对应页码数据之间的一一映射对应关系、内容页与页码数据之间的一一映射对应关系和目录对应页码数据与页码数据集合元素的一一映射对应关系建立目录标题-页码-目录标题初始内容页之间的映射对应关系;
将目录标题-页码-目录标题初始内容页之间的映射对应关系转化为结构化数据,获得目录对应内容信息;
将文件扫描图片集合U进行封装形成PDF文件,并根据目录对应内容信息生成跳转链接。
2.根据权利要求1所述的一种实体文档扫描生成PDF文件的方法,其特征在于,所述内容页识别模板的训练具体包括如下步骤:
根据内容页的排版布局进行页码截取框生成并调整,保证页码截取框内容含括全部内容页页码信息;
记录页码截取框的尺寸,获取页码截取框尺寸数据;
记录页码截取框的坐标,获取页码截取框坐标数据;
将页码截取框尺寸数据和页码截取框坐标数据保存为内容页识别模板。
3.根据权利要求2所述的一种实体文档扫描生成PDF文件的方法,其特征在于,所述对多个目录提取图像进行智能文字识别具体包括:
在目录提取图像中进行目录标题区域和目录对应页码区域划分;
判断目录标题区域是否含括所有目录标题文字内容,若是,则不做调整,若否,则调整目录标题区域尺寸和位置使目录标题区域含括所有目录标题文字内容;
判断目录对应页码区域是否含括所有目录对应页码内容,若是,则不做调整,若否,则调整目录对应页码区域尺寸和位置使目录对应页码区域含括所有目录对应页码内容;
对目录标题区域和/或目录对应页码区域中的每个字符进行识别转化,获得目录标题区域的字符数据和/或目录对应页码区域的字符数据;
将目录标题区域的字符数据和/或目录对应页码区域的字符数据进行组合,获得目录标题文字数据和/或目录对应页码数据。
4.根据权利要求3所述的一种实体文档扫描生成PDF文件的方法,其特征在于,所述字符进行识别转化包括如下步骤:
对目录标题区域和/或目录对应页码区域和/或内容页码提取图像中的文本内容进行倾斜度检测,并对倾斜文本摆正;
对摆正后的目录标题区域和/或目录对应页码区域和/或内容页码提取图像中的文本内容进行字符文本框划分,使每一个文本框中含括且只含括一个文本字符;
提取识别文本框内的字符图像特征,并与标准字符库进行比对,将文本框内的字符图像转化为字符数据。
5.根据权利要求4所述的一种实体文档扫描生成PDF文件的方法,其特征在于,所述字符数据进行组合包括如下步骤:
检测每一个文本框中的坐标信息,获得文本框坐标数据;
按照文本框坐标数据,将文本框内的字符图像转化成的字符数据进行排序。
6.根据权利要求5所述的一种实体文档扫描生成PDF文件的方法,其特征在于,还包括:
根据目录标题-页码-目录标题初始内容页之间的映射对应关系建立跳转链接,所述跳转链接以目录标题文字数据或目录标题文字图像为触发器,当所述触发器被触发时,调取目录标题-页码-目录标题初始内容页之间的映射对应关系,并跳转至目录标题所对应的初始内容页。
7.一种实体文档扫描生成PDF文件的系统,用于实现如权利要求1-6任一项所述的实体文档扫描生成PDF文件的方法,其特征在于,包括:
处理器,所述处理器用于内容页识别模板的训练、建立目录标题文字数据与目录对应页码数据之间的一一映射对应关系、建立内容页集合U1中的元素与页码数据之间的一一映射对应关系、建立目录对应页码数据与页码数据集合元素的一一映射对应关系、建立目录标题-页码-目录标题初始内容页之间的映射对应关系、将目录标题-页码-目录标题初始内容页之间的映射对应关系转化为结构化数据和将文件扫描图片集合U进行封装形成PDF文件,并根据目录对应内容信息生成跳转链接;
存储器,存储器与所述处理器电性连接,存储器用于进行内容页识别模板的训练和映射关系的存储;
图像提取模块,图像提取模块与所述处理器电性连接,图像提取模块用于进行对文件扫描图片集合进行内容识别;
文字识别模块,文字识别模块与所述处理器电性连接,所述文字识别模块用于进行对多个目录提取图像和内容页码提取图像进行智能文字识别;
链接触发监测模块,链接触发监测模块与与所述处理器电性连接,所述链接触发监测模块用于实时监测跳转链接是否被触发。
8.根据权利要求7所述的一种实体文档扫描生成PDF文件的系统,其特征在于,所述处理器内部集成有:
模板训练单元,所述模板训练单元用于进行内容页识别模板的训练;
映射关系建立单元,所述映射关系建立单元用于进行建立目录标题文字数据与目录对应页码数据之间的一一映射对应关系、建立内容页集合U1中的元素与页码数据之间的一一映射对应关系、建立目录对应页码数据与页码数据集合元素的一一映射对应关系、建立目录标题-页码-目录标题初始内容页之间的映射对应关系;
数据转化单元,所述数据转化单元用于将目录标题-页码-目录标题初始内容页之间的映射对应关系转化为结构化数据,获得目录对应内容信息;
PDF生成单元,所述PDF生成单元用于将文件扫描图片集合U进行封装形成PDF文件,并根据目录对应内容信息生成跳转链接。
9.一种计算机可读存储介质,其上存储有计算机可读程序,其特征在于,所述计算机可读程序被调用时执行如权利要求1-6任一项所述的实体文档扫描生成PDF文件的方法。
CN202310265473.3A 2023-03-20 2023-03-20 一种实体文档扫描生成pdf文件的方法、系统及存储介质 Pending CN116092108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310265473.3A CN116092108A (zh) 2023-03-20 2023-03-20 一种实体文档扫描生成pdf文件的方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310265473.3A CN116092108A (zh) 2023-03-20 2023-03-20 一种实体文档扫描生成pdf文件的方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN116092108A true CN116092108A (zh) 2023-05-09

Family

ID=86210383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310265473.3A Pending CN116092108A (zh) 2023-03-20 2023-03-20 一种实体文档扫描生成pdf文件的方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN116092108A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881200A (zh) * 2023-09-07 2023-10-13 四川竺信档案数字科技有限责任公司 一种多中心分布式电子档案数据安全管理方法及系统
CN117493712A (zh) * 2023-12-29 2024-02-02 浙江华东工程数字技术有限公司 Pdf文档可导航目录提取方法、装置、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08202859A (ja) * 1995-01-31 1996-08-09 Canon Inc 電子ファイリング装置及びその方法
JPH09212580A (ja) * 1996-01-30 1997-08-15 Fuji Xerox Co Ltd 文書画像処理装置
WO1999041681A1 (fr) * 1998-02-16 1999-08-19 Chunchen Lin Procede d'analyse de structure d'image de document
JP2002024796A (ja) * 2000-07-06 2002-01-25 Matsushita Electric Ind Co Ltd 文字認識装置および方法
US20070195378A1 (en) * 2006-02-21 2007-08-23 Brother Kogyo Kabushiki Kaisha Image-reading device
CN103218351A (zh) * 2013-03-15 2013-07-24 杭州中元数据科技有限公司 现代地方文献电子图书制作方法
CN103714101A (zh) * 2012-10-04 2014-04-09 富士施乐株式会社 信息处理设备及信息处理方法
CN106250830A (zh) * 2016-07-22 2016-12-21 浙江大学 数字图书结构化分析处理方法
CN111914521A (zh) * 2020-06-20 2020-11-10 北京海金格医药科技股份有限公司 文档书签创建方法、装置、电子设备和可读存储介质
CN111985465A (zh) * 2020-08-17 2020-11-24 中移(杭州)信息技术有限公司 文本识别方法、装置、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08202859A (ja) * 1995-01-31 1996-08-09 Canon Inc 電子ファイリング装置及びその方法
JPH09212580A (ja) * 1996-01-30 1997-08-15 Fuji Xerox Co Ltd 文書画像処理装置
WO1999041681A1 (fr) * 1998-02-16 1999-08-19 Chunchen Lin Procede d'analyse de structure d'image de document
JP2002024796A (ja) * 2000-07-06 2002-01-25 Matsushita Electric Ind Co Ltd 文字認識装置および方法
US20070195378A1 (en) * 2006-02-21 2007-08-23 Brother Kogyo Kabushiki Kaisha Image-reading device
CN103714101A (zh) * 2012-10-04 2014-04-09 富士施乐株式会社 信息处理设备及信息处理方法
CN103218351A (zh) * 2013-03-15 2013-07-24 杭州中元数据科技有限公司 现代地方文献电子图书制作方法
CN106250830A (zh) * 2016-07-22 2016-12-21 浙江大学 数字图书结构化分析处理方法
CN111914521A (zh) * 2020-06-20 2020-11-10 北京海金格医药科技股份有限公司 文档书签创建方法、装置、电子设备和可读存储介质
CN111985465A (zh) * 2020-08-17 2020-11-24 中移(杭州)信息技术有限公司 文本识别方法、装置、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
NISHANT SUBRAMANI等: "A survey of deep learning approaches for ocr and document understanding", 《ARXIV: 2011.13534》, pages 1 - 15 *
刘宇卓: "基于J2ME的掌上书库软件的设计与实现", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 2006, pages 138 - 210 *
李俊: "高并发异构数据预处理系统的设计与实现", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 2018, pages 138 - 1248 *
高良才等: "一种基于聚类技术的图书目录识别方法", 《北京大学学报(自然科学版)》, vol. 46, no. 04, pages 531 - 538 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881200A (zh) * 2023-09-07 2023-10-13 四川竺信档案数字科技有限责任公司 一种多中心分布式电子档案数据安全管理方法及系统
CN116881200B (zh) * 2023-09-07 2024-01-16 四川竺信档案数字科技有限责任公司 一种多中心分布式电子档案数据安全管理方法及系统
CN117493712A (zh) * 2023-12-29 2024-02-02 浙江华东工程数字技术有限公司 Pdf文档可导航目录提取方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN116092108A (zh) 一种实体文档扫描生成pdf文件的方法、系统及存储介质
CN106156761B (zh) 面向移动终端拍摄的图像表格检测与识别方法
JP4577931B2 (ja) ドキュメント処理システム及びインデックス情報獲得方法
US20060221357A1 (en) Information processing apparatus and method
US8208726B2 (en) Method and system for optical character recognition using image clustering
US11182604B1 (en) Computerized recognition and extraction of tables in digitized documents
US20080162602A1 (en) Document archiving system
US7277584B2 (en) Form recognition system, form recognition method, program and storage medium
JPH01253077A (ja) 文字列検出方法
JP2007172132A (ja) レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法
Isheawy et al. Optical character recognition (ocr) system
US20150071542A1 (en) Automated redaction
CN112861865B (zh) 一种基于ocr技术的辅助审计方法
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
US5357582A (en) Character boundary identification method and system
JP2008204184A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
CN102081615A (zh) 一种基于档案信息资源规划的档案整理与数字化加工系统
CN112464907A (zh) 一种文档处理系统及方法
CN101872344A (zh) 一种图像扫描的控制方法
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
CN115713775A (zh) 一种从文档中提取表格的方法、系统和计算机设备
Vats et al. On-the-fly historical handwritten text annotation
Ranka et al. Automatic table detection and retention from scanned document images via analysis of structural information
JP4143245B2 (ja) 画像処理方法および装置並びに記憶媒体
JP2508975B2 (ja) 電子黒板

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20230509