CN117558013A

CN117558013A - 一种将手写表单数据录入到pdf电子表单的方法

Info

Publication number: CN117558013A
Application number: CN202210938107.5A
Authority: CN
Inventors: 王金明
Original assignee: Fujian Foxit Software Development Joint Stock Co ltd
Current assignee: Fujian Foxit Software Development Joint Stock Co ltd
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2024-02-13
Also published as: WO2024027827A1

Abstract

一种将手写表单数据录入到PDF电子表单的方法，首先将纸质表单转化为PDF电子表单，之后根据手动填写的字符在PDF页面上的范围构建一遮罩表单域，接着，对PDF电子表单中的遮罩表单域和输入表单域分别添加对应的PDF脚本，遮罩表单域的PDF脚本执行内容为:如果用户点击遮罩表单域，则遮罩表单域消失以及自动聚焦遮罩表单域下方的输入表单域并进入编辑状态，用户退出编辑之后，重新显示遮罩表单域；输入表单域的PDF脚本执行内容为：获取到焦点之后隐藏遮罩表单域，失去焦点之后重新显示遮罩表单域。本发明既能够保留用户原始的输入笔迹，确保电子表单的外观与填写好的纸质表单的外观高度一致，还可以保证用户输入的内容可以被电子表单的后台应用程序所处理。

Description

一种将手写表单数据录入到PDF电子表单的方法

技术领域

本发明涉及PDF文档处理领域，具体而言，涉及一种将手写表单数据录入到PDF电子表单的方法。

背景技术

光学字符识别(OCR)是将键入、手写或打印文本的图像以电子或机械方式转换为机器编码文本，无论是扫描的文档、文档的照片、场景照片，还是叠加在图像上的字幕文本等，都可以从中提取出有意义的文本字符。OCR是对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。

将手写表单转换成PDF电子表单的方案，比较常见的方式有以下几种：

(1)使用扫描仪将用户手写表单进行扫描转换成图片，再直接把图片文件转换成PDF文档，做为最终的电子表单来存档。

(2)使用扫描仪将用户手写表单进行扫描转换成图片，再对用户手写输入的表单区域进行光学字符识别，识别出用户的书写文字内容，然后再将光学字符识别的结果自动填入原始电子表单的相应表单域里面，最终生成包含了用户输入数据的PDF电子表单文件。

方案(1)存在的问题如下：

用户输入的文本数据无法被电子表单的应用程序读取和处理，因为原始的电子表单和用户输入内容都已转换成了图片，文档的数据信息都已图片化，难以被应用程序获取。

方案(2)存在的问题如下：

用户手写输入的文字外观无法保留，输入的文本将会统一使用某个字体来显示，所有的用户输入都用同样的字体来显示，无法还原用户自身特有的“笔迹”。比如合同类的表单，可能希望保留用户的填写“笔迹”，方案(2)就无法实现。

发明内容

本发明提供一种将手写表单数据录入到PDF电子表单的方法，用以解决上述现有技术存在的问题。

为达到上述目的，本发明提供了一种将手写表单数据录入到PDF电子表单的方法，其包括：

S1：用户手动填写一纸质表单；

S2：对用户填写完成的所述纸质表单进行电子化处理，获得对应的PDF电子表单；

S3：对所述PDF电子表单进行光学字符识别，获取所述PDF电子表单中的字符串以及每一字符所在位置；

S4：为所述PDF电子表单构建一页面坐标系，获取所述PDF电子表单的输入表单域在所述页面坐标系中的坐标；

S5：计算所述输入表单域在物理坐标系下的坐标；

S6：构建一用户输入区域并对其进行初始化，初始化后的所述用户输入区域的范围与所述输入表单域的范围相同；

S7：对步骤S3中获取的字符串中的每一字符进行遍历，遍历规则如下：对于每一字符而言，若字符所在位置的物理坐标与所述输入表单域的物理坐标存在交集，则将该字符所在的区域进一步纳入所述用户输入区域，直至遍历完字符串中的所有字符；

S8：根据步骤S7得到的用户输入区域，在所述PDF电子表单的页面上创建一个与输入表单域相对应的遮罩表单域，并将所述遮罩表单域的类型定义为“按钮”；

S9：将所述输入表单域的值定义为步骤S3中获取的字符串；

S10：从所述PDF电子表单中截取与所述遮罩表单域相对应的图片并将其设置为所述遮罩表单域的外观；

S11：为所述遮罩表单域添加PDF脚本，所述遮罩表单域的PDF脚本执行内容为:如果用户点击所述遮罩表单域，则所述遮罩表单域消失以及自动聚焦所述遮罩表单域下方的所述输入表单域并进入编辑状态，用户退出编辑之后，重新显示所述遮罩表单域；

S12：为所述输入表单域添加PDF脚本，所述输入表单域的PDF脚本执行内容为：获取到焦点之后隐藏所述遮罩表单域，失去焦点之后重新显示所述遮罩表单域。

在本发明的一实施例中，所述纸质表单中具有至少一个表格，对应的，所述电子表单具有至少一个输入表单域。

在本发明的一实施例中，步骤S2中对所述纸质表单进行电子化处理是通过扫描仪进行。

本发明提供的将手写表单数据录入到PDF电子表单的方法既能够保留用户原始的输入笔迹，确保电子表单的外观与填写好的纸质表单的外观高度一致，同时还可以保证用户输入的内容可以被电子表单的后台应用程序所处理。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例的遮罩表单域的示意图；

图2为本发明一实施例的输入表单域的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

用户手动填写纸质表单后，使用现有技术中的将手写表单转换成PDF电子表单的方法，只能将用户填写的内容转化为图片，无法将填写的字符识别为计算机可识别的字符，或者只能将手写的内容识别为计算机可识别的字符，但是无法保留用户的笔迹，本发明克服了现有技术中的不足，既能够将用户填写的字符识别为计算机可识别的字符，又保留了用户的原始笔迹。

本发明一实施例提供了一种将手写表单数据录入到PDF电子表单的方法，其包括：

S1：用户手动填写一纸质表单；

纸质表单一般为用户在计算机上制作而成，例如通过word、excel等能够绘制表格的文档处理软件制作，制作完成后由打印机打印出来。或者，纸质表单也可以由用户手动绘制而得到，本发明不限制纸质表单的初始来源，凡是具有表头和表格内容，能够以一行/列或多行/列的形式呈现数据或内容的，均属于本发明中的表单。

纸质表单转化为PDF电子表单一般通过扫描来实现，例如利用扫描仪进行扫描并定义输出格式为PDF，即得到与上一步骤对应的PDF电子表单。

光学字符识别，简称OCR，是最常用的字符识别技术，能够识别出PDF电子表单中的字符串以及每一字符所在位置，便于后续的步骤中对字符串中的每一字符分别进行处理。

此步骤中，光学字符识别的准确程度与步骤S1中用户手动填写时的字迹清晰程度有密切关系，字迹越清晰、越工整，则识别越准确，另外需要说明的是，即使用户填写的字迹不准确、字迹不明显而造成识别错误或遗漏，本发明也能够在后续步骤中改正，下文会详细说明。

页面坐标系的构建，一般是以页面左下角为原点，以页面下沿为X轴，以页面左沿为Y轴。

输入表单域指的是一个独立的表格区域，纸质表单中的表格可以为一个，也可以为相互独立的多个，每个独立的表格区域对应一个输入表单域，因此，输入表单域同样可以为一个或多个，当输入表单域为多个时，对于每个输入表单域分别执行后续流程即可。

S5：计算所述输入表单域在物理坐标系下的坐标；

若设定的物理坐标系与页面坐标系相同，则无需此步骤，若二者不相同，则需要执行此步骤。

步骤S6和S7的目的为识别出用户手写的区域具体为哪些区域。因用户手写输入时，因个人习惯、表格高度/宽度等因素，用户手写的内容不一定全部位于表格线所限定的范围的内部，为了不遗漏用户手写的内容，通过这两个步骤进行全面检查，使得凡是用户手写字符所在的区域，均纳入至用户输入区域。

根据遮盖表单域的生成方式可知，其区域涵盖全部用户手写区域。

S9：将所述输入表单域的值定义为步骤S3中获取的字符串；

S9和S10定义了遮罩表单域的两大属性：值和外观，其中，“值”是计算机可识别的字符串，“外观”保证了用户手写的笔迹得到了保留。

步骤S11和S12完成脚本添加过程，PDF电子表单实现了依据用户的手动操作而执行相应的呈现，其中，若步骤S3中识别出的字符有误或有所遗漏，则用户可以点击遮罩表单域，此时显示输入表单域并进入编辑状态，用户手动将错误的字符改正，或将未识别出的字符添加即可。

图1为本发明一实施例的遮罩表单域的示意图，图2为本发明一实施例的输入表单域的示意图。如图1、图2所示，用户手动填写的项目为“国籍”一项，手动填写的内容为“中国”，可以看出，用户手动填写的区域超出了表单的下划线区域，此时，本发明识别出的遮盖表单域包含了用户手动填写的字符覆盖的所有区域(灰色阴影区域)，若此时用户点击该遮盖表单域，则会显示其下方的输入表单域，如图2所示，由于此用户的字迹清晰可辩，故可以清楚的识别出其手写内容为中文的“中国”二字，后面的竖线“︱”为光标提示符，其呈闪烁状以提示用户当前输入位置。用户退出编辑状态后，则呈现的是图1，显示用户原始输入笔迹。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种将手写表单数据录入到PDF电子表单的方法，其特征在于，包括：

S1：用户手动填写一纸质表单；

S5：计算所述输入表单域在物理坐标系下的坐标；

S9：将所述输入表单域的值定义为步骤S3中获取的字符串；

2.根据权利要求1所述的将手写表单数据录入到PDF电子表单的方法，其特征在于，所述纸质表单中具有至少一个表格，对应的，所述电子表单具有至少一个输入表单域。

3.根据权利要求1所述的将手写表单数据录入到PDF电子表单的方法，其特征在于，步骤S2中对所述纸质表单进行电子化处理是通过扫描仪进行。