CN116092108A

CN116092108A - 一种实体文档扫描生成pdf文件的方法、系统及存储介质

Info

Publication number: CN116092108A
Application number: CN202310265473.3A
Authority: CN
Inventors: 刘枭
Original assignee: Sichuan Zhuxin Archives Digital Technology Co ltd
Current assignee: Sichuan Zhuxin Archives Digital Technology Co ltd
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-05-09

Abstract

本发明公开了一种实体文档扫描生成PDF文件的方法、系统及存储介质，涉及数字化数据技术领域，包括：获取文件扫描图片集合；获取多个目录提取图像；获得若干个内容页码提取图像；获得目录标题文字数据和目录对应页码数据；对内容页码提取图像内的字符进行识别转化；建立目录标题‑页码‑目录标题初始内容页之间的映射对应关系；获得目录对应内容信息；将文件扫描图片集合U进行封装形成PDF文件，并根据目录对应内容信息生成跳转链接。本发明的优点在于：通过对实体文档的扫描文件中存在的目录页和内容页进行智能化识别，可实现对应目录标题所对应的初始内容页的快速跳转，极大地提高生成的PDF文档的查阅便捷度。

Description

一种实体文档扫描生成PDF文件的方法、系统及存储介质

技术领域

本发明涉及数字化数据技术领域，具体是涉及一种实体文档扫描生成PDF文件的方法、系统及存储介质。

背景技术

实体文档的信息检索与查询处理效率不高，且占地面积大，管理成本较高，随着技术的发展，通过图像识别技术将实体文档转化为PDF文件进行存储管理可以有效提高实体文档的处理效率，降低实体文档的管理成本，PDF文件的扫描转化实现过程一般是先通过扫描仪对实体文档进行连续扫描采集，保存为图像后再进行识别处理，将识别结果挂载到数据库后可以方便地检索查询。

现有技术中为保证扫描件的生成效率，通常生成的PDF文件内容均为图像类对象，将图像类对象进行排列组合封装后直接挂载到数据库中，这种方式生成的图像类PDF文件在进行文件查阅时只能手动的翻页至想要查阅的页数，对于页数比较大的文档PDF文件，在进行查阅时通常难以实现精准定位，导致翻页过程会浪费大量的时间，而将图像类对象的PDF进行逐页文字识别，将其中的文字进行识别转化为可识别编辑处理的对象，处理过程极为复杂，文件转化效率较低。

发明内容

为解决上述技术问题，提供一种实体文档扫描生成PDF文件的方法、系统及存储介质，本技术方案解决了上述的现有技术中通常生成的PDF文件内容均为图像类对象，将图像类对象进行排列组合封装后直接挂载到数据库中，这种方式生成的图像类PDF文件在进行文件查阅时只能手动的翻页至想要查阅的页数，对于页数比较大的文档PDF文件，在进行查阅时通常难以实现精准定位的问题。

为达到以上目的，本发明采用的技术方案为：

一种实体文档扫描生成PDF文件的方法，包括如下步骤：

通过扫描仪连续扫描实体文档图像并保存扫描采集图像，获取文件扫描图片集合U，所述文件扫描图片集合U包括内容页集合U1和目录页集合U2，所述内容页集合U1、目录页集合U2和文件扫描图片集合U满足U1∪U2∈U；

对目录页集合U2中的元素进行目录内容截取框划分，使每一个目录内容截取框内部都含括且只含括一条目录内容；

按照目录内容截取框对目录页集合U2中的元素进行图像分割，获取多个目录提取图像；

进行内容页识别模板的训练，并保存内容页识别模板；

调取内容页识别模板对内容页集合U1中的元素进行内容识别分割提取，获得若干个内容页码提取图像；

对多个目录提取图像进行智能文字识别，获得目录标题文字数据和目录对应页码数据；

建立目录标题文字数据与目录对应页码数据之间的一一映射对应关系；

对内容页码提取图像内的字符进行识别转化，获得页码数据集合；

建立内容页集合U1中的元素与页码数据之间的一一映射对应关系；

将目录对应页码数据与页码数据集合中的元素进行遍历对比，获得页码数据集合中与目录对应页码数据相对应的元素，并建立目录对应页码数据与页码数据集合元素的一一映射对应关系；

根据目录标题文字数据与目录对应页码数据之间的一一映射对应关系、内容页与页码数据之间的一一映射对应关系和目录对应页码数据与页码数据集合元素的一一映射对应关系建立目录标题-页码-目录标题初始内容页之间的映射对应关系；

将目录标题-页码-目录标题初始内容页之间的映射对应关系转化为结构化数据，获得目录对应内容信息；

将文件扫描图片集合U进行封装形成PDF文件，并根据目录对应内容信息生成跳转链接。

优选的，所述内容页识别模板的训练具体包括如下步骤：

根据内容页的排版布局进行页码截取框生成并调整，保证页码截取框内容含括全部内容页页码信息；

记录页码截取框的尺寸，获取页码截取框尺寸数据；

记录页码截取框的坐标，获取页码截取框坐标数据；

将页码截取框尺寸数据和页码截取框坐标数据保存为内容页识别模板。

优选的，所述对多个目录提取图像进行智能文字识别具体包括：

在目录提取图像中进行目录标题区域和目录对应页码区域划分；

判断目录标题区域是否含括所有目录标题文字内容，若是，则不做调整，若否，则调整目录标题区域尺寸和位置使目录标题区域含括所有目录标题文字内容；

判断目录对应页码区域是否含括所有目录对应页码内容，若是，则不做调整，若否，则调整目录对应页码区域尺寸和位置使目录对应页码区域含括所有目录对应页码内容；

对目录标题区域和/或目录对应页码区域中的每个字符进行识别转化，获得目录标题区域的字符数据和/或目录对应页码区域的字符数据；

将目录标题区域的字符数据和/或目录对应页码区域的字符数据进行组合，获得目录标题文字数据和/或目录对应页码数据。

优选的，所述字符进行识别转化包括如下步骤：

对目录标题区域和/或目录对应页码区域和/或内容页码提取图像中的文本内容进行倾斜度检测，并对倾斜文本摆正；

对摆正后的目录标题区域和/或目录对应页码区域和/或内容页码提取图像中的文本内容进行字符文本框划分，使每一个文本框中含括且只含括一个文本字符；

提取识别文本框内的字符图像特征，并与标准字符库进行比对，将文本框内的字符图像转化为字符数据。

优选的，所述字符数据进行组合包括如下步骤：

检测每一个文本框中的坐标信息，获得文本框坐标数据；

按照文本框坐标数据，将文本框内的字符图像转化成的字符数据进行排序。

优选的，所述实体文档扫描生成PDF文件的方法还包括：

根据目录标题-页码-目录标题初始内容页之间的映射对应关系建立跳转链接，所述跳转链接以目录标题文字数据或目录标题文字图像为触发器，当所述触发器被触发时，调取目录标题-页码-目录标题初始内容页之间的映射对应关系，并跳转至目录标题所对应的初始内容页。

进一步的，提出一种实体文档扫描生成PDF文件的系统，用于实现如上述的实体文档扫描生成PDF文件的方法，包括：

处理器，所述处理器用于内容页识别模板的训练、建立目录标题文字数据与目录对应页码数据之间的一一映射对应关系、建立内容页集合U1中的元素与页码数据之间的一一映射对应关系、建立目录对应页码数据与页码数据集合元素的一一映射对应关系、建立目录标题-页码-目录标题初始内容页之间的映射对应关系、将目录标题-页码-目录标题初始内容页之间的映射对应关系转化为结构化数据和将文件扫描图片集合U进行封装形成PDF文件，并根据目录对应内容信息生成跳转链接；

存储器，存储器与所述处理器电性连接，存储器用于进行内容页识别模板的训练和映射关系的存储；

图像提取模块，图像提取模块与所述处理器电性连接，图像提取模块用于进行对文件扫描图片集合进行内容识别；

文字识别模块，文字识别模块与所述处理器电性连接，所述文字识别模块用于进行对多个目录提取图像和内容页码提取图像进行智能文字识别；

链接触发监测模块，链接触发监测模块与与所述处理器电性连接，所述链接触发监测模块用于实时监测跳转链接是否被触发。

可选的，所述处理器内部集成有：

模板训练单元，所述模板训练单元用于进行内容页识别模板的训练；

映射关系建立单元，所述映射关系建立单元用于进行建立目录标题文字数据与目录对应页码数据之间的一一映射对应关系、建立内容页集合U1中的元素与页码数据之间的一一映射对应关系、建立目录对应页码数据与页码数据集合元素的一一映射对应关系、建立目录标题-页码-目录标题初始内容页之间的映射对应关系；

数据转化单元，所述数据转化单元用于将目录标题-页码-目录标题初始内容页之间的映射对应关系转化为结构化数据，获得目录对应内容信息；

PDF生成单元，所述PDF生成单元用于将文件扫描图片集合U进行封装形成PDF文件，并根据目录对应内容信息生成跳转链接。

再进一步的，提出一种计算机可读存储介质，其上存储有计算机可读程序，所述计算机可读程序被调用时执行如上述的实体文档扫描生成PDF文件的方法。

与现有技术相比，本发明的有益效果在于：

本发明提出通过对实体文档的扫描文件中存在的目录页和内容页进行智能化识别，建立目录标题-页码-目录标题初始内容页之间的映射对应关系，并根据根据目录标题-页码-目录标题初始内容页之间的映射对应关系建立跳转链接，在后续的PDF文档查阅过程中，只需触发跳转链接即可实现对应目录标题所对应的初始内容页的快速跳转，相对于图像类对象的PDF文件，极大地提高PDF文档的查阅便捷度，相对于将图像类对象的PDF进行逐页文字识别的方式，极大地提高生成PDF文件的速度；

本发明中为保证内容页的页码识别精准度，提出了内容页识别模板的训练方法，由于对于相同类型的实体文档的排版布局通常完全相同，既页码位置相同，因此，通过训练建立的内容页识别模板即可快速的进行内容页码提取图像的获取，进而有效的提高了针对于扫描件生成PDF文件的准确度和速度。

附图说明

图1为本发明提出的扫描件快速生成PDF文件的方法流程图；

图2为本发明中的内容页识别模板训练方法流程图；

图3为本发明中的对目录提取图像进行智能文字识别方法流程图；

图4为本发明中的对字符进行识别转化方法流程图；

图5为本发明提出的扫描件快速生成PDF文件的系统结构框图。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。

参照图1所示，一种实体文档扫描生成PDF文件的方法，包括如下步骤：

通过扫描仪连续扫描实体文档图像并保存扫描采集图像，获取文件扫描图片集合U，文件扫描图片集合U包括内容页集合U1和目录页集合U2，内容页集合U1、目录页集合U2和文件扫描图片集合U满足U1∪U2∈U；

进行内容页识别模板的训练，并保存内容页识别模板；

本方案通过对实体文档的扫描文件中存在的目录页和内容页进行智能化识别，建立目录标题-页码-目录标题初始内容页之间的映射对应关系，在后续的PDF文档查阅过程中，可根据目录标题-页码-目录标题初始内容页之间的映射对应关系实现对应目录标题所对应的初始内容页的快速跳转，相对于图像类对象的PDF文件，极大地提高PDF文档的查阅便捷度，相对于将图像类对象的PDF进行逐页文字识别，将其中的文字进行识别转化为可编辑处理的字符类对象的方式，极大地提高了生成PDF文件的速度。

请参阅图2所示，内容页识别模板的训练具体包括如下步骤：

记录页码截取框的尺寸，获取页码截取框尺寸数据；

记录页码截取框的坐标，获取页码截取框坐标数据；

可以理解的是，对于相同类型的实体文档的排版布局通常完全相同，既页码位置相对固定，因此，通过训练建立的内容页识别模板即可快速的进行内容页码提取图像的获取，进而有效的提高了针对于扫描件生成PDF文件的准确度和速度；

其中，页码截取框的生成和调整步骤均可通过手动操作实现。

本方案中的内容页识别模板的训练方法可通过提前对大量样本页数据进行预先训练，也可在实际的PDF识别过程中根据实时的识别结果进行学习调整。

请参阅图3所示，对多个目录提取图像进行智能文字识别具体包括：

本方案中将目录提取图像划分成目录标题区域和目录对应页码区域，在后续文字识别过程中，分别对两个区域的字符进行识别，便于获得独立的目录对应页码数据，以实现后续的目录对应页码数据与页码数据集合元素的一一映射对应关系的建立；

在实际的PDF生成过程中，针对于目录标题区域内部可根据实施的效率需求进行智能文字识别或不进行智能文字识别，若需要高效率的PDF文件生成，则可不对目录标题区域进行智能文字识别，后续建立目录标题-页码-目录标题初始内容页之间的映射对应关系时，目录标题对象为目录提取图像，否则，对目录标题区域进行智能文字识别，后续建立目录标题-页码-目录标题初始内容页之间的映射对应关系时，目录标题对象为目录标题文字数据。

请参阅图4所示，字符进行识别转化包括如下步骤：

字符数据进行组合包括如下步骤：

检测每一个文本框中的坐标信息，获得文本框坐标数据；

对于扫描件中的文字，由于扫描时难以保证绝对的水平，因此扫描图像的文字区域存在倾斜，易造成文字识别错误，因此，本方案中对图像中文本内容进行倾斜度检测，并对倾斜文本摆正，极大地提高了文字识别的准确度。

在后续进行PDF查阅文件的生成时，根据目录标题-页码-目录标题初始内容页之间的映射对应关系建立跳转链接，跳转链接以目录标题文字数据或目录标题文字图像为触发器，当触发器被触发时，调取目录标题-页码-目录标题初始内容页之间的映射对应关系，并跳转至目录标题所对应的初始内容页，此方法极大地提高PDF文档的查阅便捷度。

进一步的，本方案结合上述实体文档扫描生成PDF文件的方法还提出一种实体文档扫描生成PDF系统，具体的，请参阅图5所示，包括：

处理器，处理器用于内容页识别模板的训练、建立目录标题文字数据与目录对应页码数据之间的一一映射对应关系、建立内容页集合U1中的元素与页码数据之间的一一映射对应关系、建立目录对应页码数据与页码数据集合元素的一一映射对应关系、建立目录标题-页码-目录标题初始内容页之间的映射对应关系、将目录标题-页码-目录标题初始内容页之间的映射对应关系转化为结构化数据和将文件扫描图片集合U进行封装形成PDF文件，并根据目录对应内容信息生成跳转链接；

存储器，存储器与处理器电性连接，存储器用于进行内容页识别模板的训练和映射关系的存储；

图像提取模块，图像提取模块与处理器电性连接，图像提取模块用于进行对文件扫描图片集合进行内容识别；

文字识别模块，文字识别模块与处理器电性连接，文字识别模块用于进行对多个目录提取图像和内容页码提取图像进行智能文字识别；

链接触发监测模块，链接触发监测模块与与处理器电性连接，链接触发监测模块用于实时监测跳转链接是否被触发。

处理器内部集成有：

模板训练单元，模板训练单元用于进行内容页识别模板的训练；

映射关系建立单元，映射关系建立单元用于进行建立目录标题文字数据与目录对应页码数据之间的一一映射对应关系、建立内容页集合U1中的元素与页码数据之间的一一映射对应关系、建立目录对应页码数据与页码数据集合元素的一一映射对应关系、建立目录标题-页码-目录标题初始内容页之间的映射对应关系；

数据转化单元，数据转化单元用于将目录标题-页码-目录标题初始内容页之间的映射对应关系转化为结构化数据，获得目录对应内容信息；

PDF生成单元，PDF生成单元用于将文件扫描图片集合U进行封装形成PDF文件，并根据目录对应内容信息生成跳转链接。

上述实体文档扫描生成PDF系统的运行过程为：

步骤一：处理器从外部扫描仪接收实体文档扫描采集图像，并对实体文档扫描采集图像进行分类，获得内容页集合和目录页集合；

步骤二：模板训练单元根据内容页集合中的元素进行内容页识别模板的训练，并将训练完成的内容页识别模板存入存储器；

步骤三：图像提取模块对目录页集合中的元素进行图像分割，获取若干个目录提取图像，从存储器中调取内容页识别模板对内容页集合中的元素进行内容识别，获得若干个内容页码提取图像；

步骤四：文字识别模块对目录提取图像和内容页码提取图像进行智能文字识别，获得目录标题文字数据、目录对应页码数据和页码数据集合；

步骤五：映射关系建立单元根据目录标题文字数据、目录对应页码数据和页码数据集合进行处理建立目录标题-页码-目录标题初始内容页之间的映射对应关系，并由数据转化单元将目录标题-页码-目录标题初始内容页之间的映射对应关系转化为结构化数据，获得目录对应内容信息并保存；

步骤六：PDF生成单元文件扫描图片集合U进行封装形成PDF文件，并根据目录对应内容信息生成跳转链接，链接触发监测模块实时监测跳转链接是否被触发，当跳转链接被触发时，调取目录标题-页码-目录标题初始内容页之间的映射对应关系，并跳转至目录标题所对应的初始内容页。

进一步的，本发明还提出本方案还提出一种计算机可读存储介质，其上存储有计算机可读程序，计算机可读程序被调用时执行如上述的实体文档扫描生成PDF文件的方法；

可以理解的是，存储介质可以是磁性介质，例如，软盘、硬盘、磁带；光介质例如，DVD；或者半导体介质例如固态硬盘SolidStateDisk，SSD等。

综上所述，本发明的优点在于：通过对实体文档的扫描文件中存在的目录页和内容页进行智能化识别，可实现对应目录标题所对应的初始内容页的快速跳转，极大地提高生成的PDF文档的查阅便捷度。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种实体文档扫描生成PDF文件的方法，其特征在于，包括如下步骤：

进行内容页识别模板的训练，并保存内容页识别模板；

2.根据权利要求1所述的一种实体文档扫描生成PDF文件的方法，其特征在于，所述内容页识别模板的训练具体包括如下步骤：

记录页码截取框的尺寸，获取页码截取框尺寸数据；

记录页码截取框的坐标，获取页码截取框坐标数据；

3.根据权利要求2所述的一种实体文档扫描生成PDF文件的方法，其特征在于，所述对多个目录提取图像进行智能文字识别具体包括：

4.根据权利要求3所述的一种实体文档扫描生成PDF文件的方法，其特征在于，所述字符进行识别转化包括如下步骤：

5.根据权利要求4所述的一种实体文档扫描生成PDF文件的方法，其特征在于，所述字符数据进行组合包括如下步骤：

检测每一个文本框中的坐标信息，获得文本框坐标数据；

6.根据权利要求5所述的一种实体文档扫描生成PDF文件的方法，其特征在于，还包括：

7.一种实体文档扫描生成PDF文件的系统，用于实现如权利要求1-6任一项所述的实体文档扫描生成PDF文件的方法，其特征在于，包括：

8.根据权利要求7所述的一种实体文档扫描生成PDF文件的系统，其特征在于，所述处理器内部集成有：

9.一种计算机可读存储介质，其上存储有计算机可读程序，其特征在于，所述计算机可读程序被调用时执行如权利要求1-6任一项所述的实体文档扫描生成PDF文件的方法。