CN112766245B

CN112766245B - 基于pdf格式文件的可视化仪器采集方法及系统

Info

Publication number: CN112766245B
Application number: CN202110374828.3A
Authority: CN
Inventors: 金震; 李明; 徐伟; 石晓文
Original assignee: Beijing SunwayWorld Science and Technology Co Ltd
Current assignee: Beijing SunwayWorld Science and Technology Co Ltd
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2021-07-20
Anticipated expiration: 2041-04-08
Also published as: CN112766245A

Abstract

本发明公开了一种基于PDF格式文件的可视化仪器采集方法及系统，其方法包括：获取目标可视化仪器输出的目标PDF文件，根据所述目标PDF文件定义预设采集区域，获取工作人员使用鼠标在所述目标PDF上勾选的目标区域，根据所述目标区域调整所述预设采集区域，获得目标采集区域，根据所述目标采集区域设置采集规则，将所述采集规则与所述目标可视化仪器进行绑定，根据所述采集规则定时提取目标可视化仪器输出的后续PDF文件在所述目标采集区域内的内容。需要IT专业开发人员编写解析脚本即可实现仪器数据的采集。通过所见即所得的方式，框选需提取的内容，大大简化了仪器采集的繁琐步骤，而且做到了0编码就可以抓取仪器采集的结果。

Description

基于PDF格式文件的可视化仪器采集方法及系统

技术领域

本发明涉及文字识别技术领域，尤其涉及一种基于PDF格式文件的可视化仪器采集方法及系统。

背景技术

信息时代是信息成为人类活动的基本资源，信息技术广泛地应用于农业、工业、科学技术、国防军事及社会的各个领域，信息业已经成为整个社会经济结构的基础产业，信息活动对社会发展的贡献已经居于突出的地位。信息社会是继农业时代、工业时代之后，人类社会历史发展出现的崭新时代。在检验检测领域中，使用仪器设备做实验，采集结果由仪器计算处理后输出，代替传统的作业方式，不仅效率大大提升，而且准确性也有了保障。仪器输出的采集结果通常是PDF格式的文件，如何将文件中的数据结构化存储，用于整个样品的检验检测报告中，是很多实验室面临的一大难题，而且不得不解决。现有技术实现仪器采集是通过将仪器输出的PDF格式的采集结果文件解析为文本内容，然后通过字符串截取的方式提取PDF中的内容。这种技术实现需要IT专业开发人员编写提取PDF文件中内容的解析脚本，解析过程不直观，而且改动解析脚本后需要编译发布版本才能让生产环境恢复生产。

发明内容

针对上述所显示出来的问题，本发明提供了一种基于PDF格式文件的可视化仪器采集方法及系统用以解决背景技术中提到的需要IT专业开发人员编写提取PDF文件中内容的解析脚本，解析过程不直观，而且改动解析脚本后需要编译发布版本才能让生产环境恢复生产的问题。

一种基于PDF格式文件的可视化仪器采集方法，包括以下步骤：

获取目标可视化仪器输出的目标PDF文件，根据所述目标PDF文件定义预设采集区域；

获取工作人员使用鼠标在所述目标PDF上勾选的目标区域，根据所述目标区域调整所述预设采集区域，获得目标采集区域；

根据所述目标采集区域设置采集规则，将所述采集规则与所述目标可视化仪器进行绑定；

根据所述采集规则定时提取目标可视化仪器输出的后续PDF文件在所述目标采集区域内的内容。

优选的，所述获取目标可视化仪器输出的目标PDF文件，根据所述目标PDF文件定义预设采集区域，包括：

解析所述目标PDF文件，从所述目标PDF文件中获得同类型内容的分布情况；

根据同类型内容的分布情况确定同类型内容的跨度区域；

将所述跨度区域定义为所述预设采集区域。

优选的，在获取工作人员使用鼠标在所述目标PDF上勾选的目标区域，根据所述目标区域调整所述预设采集区域，获得目标采集区域之前，所述方法还包括：

验证所述目标PDF文件的准确性；

在所述目标PDF文件通过验证后，将所述目标PDF文件作为模板进行上传，获得PDF模板文件。

优选的，所述获取工作人员使用鼠标在所述目标PDF上勾选的目标区域，根据所述目标区域调整所述预设采集区域，获得目标采集区域，包括：

检测所述工作人员使用鼠标在所述目标PDF上的点击指令；

根据所述点击指令确定工作人员的当前点击力度，确认所述当前点击力度是否大于等于预设力度，若是，确认所述点击指令合格，否则，确认所述点击指令不合格；

统计目标用户的多个合格点击指令，根据将所述多个合格点击指令绘制出所述目标区域；

将所述目标区域与预设采集区域进行比较，确定目标区域包含所述预设采集区域之外的区域；

根据目标区域包含所述预设采集区域之外的区域对所述预设采集区域进行补充以获得所述目标采集区域。

优选的，所述在所述目标PDF文件通过验证后，将所述目标PDF文件作为模板进行上传，获得PDF模板文件，包括：

获取所述目标PDF文件中的多个字段；

确定与每个字段相匹配的目标字符串，将多个目标字符串在预设模板样本中进行匹配获得各字段的描述信息；

根据所述目标PDF文件中各字段的描述信息以及目标PDF文件中的内容生成所述PDF模板文件；

将所述PDF模板文件上传到预设服务器。

优选的，所述根据所述采集规则定时提取目标可视化仪器输出的后续PDF文件在所述目标采集区域内的内容，包括：

确定所述目标可视化仪器的工作周期，根据所述工作周期设置采集周期；

按照所述采集周期采集所述目标可视化仪器输出的后续PDF文件；

利用所述采集规则提取每个后续PDF文件中在所述目标采集区域内的内容；

提取完毕后，检测每个后续PDF文件提取内容的完整性。

优选的，所述方法还包括：

解析每个后续PDF文件的提取内容，获取解析结果；

将每个后续PDF文件的提取内容的解析结果存储到预设数据库中。

优选的，所述确定与每个字段相匹配的目标字符串，将多个目标字符串在预设模板样本中进行匹配获得各字段的描述信息，包括：

获取多个预设字符串，构建初始决策树；

将所述多个预设字符串中同类型的预设字符串写入到所述初始决策树的同一个节点中；

写入完毕后，获取每个预设字符串的属性因子，将每个字符串与其属性因子相对应，获得目标决策树；

确定每个字段中组成文字的文字格式；

根据每个字段中的文字格式确定匹配字符串的匹配类型；

根据每个字段的字符串匹配类型确定每个字段的目标匹配节点；

将每个字段分割为多个子字段，获取每个子字段的特征因子，根据每个子字段的特征因子生成每个字段的字符串正则表达式；

根据每个字段的字符串正则表达式计算出每个字段所匹配的当前字符串的目标属性因子；

根据每个字段所匹配的当前字符串的目标属性因子在其目标匹配节点中查询与目标属性因子相同的目标字符串；

根据所述每个目标字符串估计出其对应的的资源名称信息；

在所述预设模板样本中获取与每个资源名称信息相匹配的参考资源描述信息；

解析每个参考资源描述信息获得其对应的第一源文件，将多个第一源文件结合形成第二源文件；

计算所述第二源文件与目标PDF文件之间的目标相似度，确认所述目标相似度是否大于等于预设相似度，若是，将每个参考资源描述信息确认为每个字段的描述信息。

获取所述目标区域，将工作人员在所述目标区域的勾选轨迹分解为多个线段；

确定每个线段的清晰度，获取所述工作人员的近视度，根据所述近视度与每个线段的清晰度绘制出工作人员的期望勾选区域；

根据每个线段的清晰度与工作人员的近视度计算出期望勾选区域与目标区域的偏差度：

其中，k表示为期望勾选区域与目标区域的偏差度，N表示为分解线段的数量，

表示为第i个分解线段的清晰度，

表示为工作人员视觉所处的空间频率，F（u）表示为预设人眼视觉识别清晰度的空间频率函数，

表示为工作人员直视目标PDF文件所在直线视线与目标PDF文件所在屏幕垂直方向的夹角，

表示为工作人员直视目标PDF文件所在直线视线与目标PDF文件所在屏幕垂直方向的夹角的余弦值，

表示为工作人员的近视度，

表示为目标PDF文件所在屏幕的反光系数所造成的影响因子，取值为

，

表示为目标区域的区域特征因子，

表示为期望勾选区域的区域特征因子；

将所述期望勾选区域与目标区域的偏差度与预设阈值进行比较，获取比较结果；

其中，A表示为比较结果，B表示为预设阈值；

当所述比较结果为1时，将所述期望勾选区域与目标区域同时呈现与工作人员观看以供工作人员选择最终勾选区域，当所述比较结果为0时，将所述目标区域确认为所述最终勾选区域；

当所述最终勾选区域为目标区域时，根据所述目标区域对所述预设采集区域进行调整，当所述最终勾选区域为期望勾选区域时，根据所述期望勾选区域对所述预设采集区域进行调整。

一种基于PDF格式文件的可视化仪器采集系统，该系统包括：

定义模块，用于获取目标可视化仪器输出的目标PDF文件，根据所述目标PDF文件定义预设采集区域；

调整模块，用于获取工作人员使用鼠标在所述目标PDF上勾选的目标区域，根据所述目标区域调整所述预设采集区域，获得目标采集区域；

设置模块，用于根据所述目标采集区域设置采集规则，将所述采集规则与所述目标可视化仪器进行绑定；

提取模块，用于根据所述采集规则定时提取目标可视化仪器输出的后续PDF文件在所述目标采集区域内的内容。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明所提供的基于PDF格式文件的可视化仪器采集方法的工作流程图；

图2为本发明所提供的基于PDF格式文件的可视化仪器采集方法的另一工作流程图；

图3为本发明所提供的基于PDF格式文件的可视化仪器采集方法的又一工作流程图；

图4为根据本发明所提供的基于PDF格式文件的可视化仪器采集方法的工作实施例流程截图；

图5为本发明所提供的基于PDF格式文件的可视化仪器采集系统的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

信息时代是信息成为人类活动的基本资源，信息技术广泛地应用于农业、工业、科学技术、国防军事及社会的各个领域，信息业已经成为整个社会经济结构的基础产业，信息活动对社会发展的贡献已经居于突出的地位。信息社会是继农业时代、工业时代之后，人类社会历史发展出现的崭新时代。在检验检测领域中，使用仪器设备做实验，采集结果由仪器计算处理后输出，代替传统的作业方式，不仅效率大大提升，而且准确性也有了保障。仪器输出的采集结果通常是PDF格式的文件，如何将文件中的数据结构化存储，用于整个样品的检验检测报告中，是很多实验室面临的一大难题，而且不得不解决。现有技术实现仪器采集是通过将仪器输出的PDF格式的采集结果文件解析为文本内容，然后通过字符串截取的方式提取PDF中的内容。这种技术实现需要IT专业开发人员编写提取PDF文件中内容的解析脚本，解析过程不直观，而且改动解析脚本后需要编译发布版本才能让生产环境恢复生产。为了解决上述问题，本实施例公开了一种基于PDF格式文件的可视化仪器采集方法。

一种基于PDF格式文件的可视化仪器采集方法，如图1所示，包括以下步骤：

步骤S101、获取目标可视化仪器输出的目标PDF文件，根据所述目标PDF文件定义预设采集区域；

步骤S102、获取工作人员使用鼠标在所述目标PDF上勾选的目标区域，根据所述目标区域调整所述预设采集区域，获得目标采集区域；

步骤S103、根据所述目标采集区域设置采集规则，将所述采集规则与所述目标可视化仪器进行绑定；

步骤S104、根据所述采集规则定时提取目标可视化仪器输出的后续PDF文件在所述目标采集区域内的内容。

上述技术方案的工作原理为：获取目标可视化仪器输出的目标PDF文件，根据所述目标PDF文件定义预设采集区域，获取工作人员使用鼠标在所述目标PDF上勾选的目标区域，根据所述目标区域调整所述预设采集区域，获得目标采集区域，根据所述目标采集区域设置采集规则，将所述采集规则与所述目标可视化仪器进行绑定，根据所述采集规则定时提取目标可视化仪器输出的后续PDF文件在所述目标采集区域内的内容。

上述技术方案的有益效果为：通过可视化的方式框选需要采集的数据，只需简单设置，不需要IT专业开发人员编写解析脚本即可实现仪器数据的采集。通过所见即所得的方式，框选需提取的内容，大大简化了仪器采集的繁琐步骤，而且做到了0编码就可以抓取仪器采集的结果，解决了现有技术中需要IT专业开发人员编写提取PDF文件中内容的解析脚本，解析过程不直观，而且改动解析脚本后需要编译发布版本才能让生产环境恢复生产的问题，降低了操作难度，使得每个工作人员都可以称心如意地获取到自己需要的仪器输出数据，提高了工组人员的体验感。

在一个实施例中，如图2所示，所述获取目标可视化仪器输出的目标PDF文件，根据所述目标PDF文件定义预设采集区域，包括：

步骤S201、解析所述目标PDF文件，从所述目标PDF文件中获得同类型内容的分布情况；

步骤S202、根据同类型内容的分布情况确定同类型内容的跨度区域；

步骤S203、将所述跨度区域定义为所述预设采集区域。

上述技术方案的有益效果为：通过确定同类型内容的分布情况可以初步地确定目标PDF文件中不同类型数据的划分区域，进而可以快速地确定同类型内容的跨度区域从而获得预设采集区域，根据目标PDF文件的本身参数来确定出自己专属的预设采集区域，可应对不同类型文件确定不同的预设采集区域，提高了实用性。

在一个实施例中，在获取工作人员使用鼠标在所述目标PDF上勾选的目标区域，根据所述目标区域调整所述预设采集区域，获得目标采集区域之前，所述方法还包括：验证所述目标PDF文件的准确性；

上述技术方案的有益效果为：通过验证目标PDF文件的准确性可以保证数据内容的精确度，进而可以保证最终的解析结果的准确性，为工作人员提供完整准确并且有价值的参考样本，进一步地提高了工作人员的体验感，进一步地，通过将PDF作为模板文件可以使得工作人员可以快速地使用第三方软件对目标PDF文件进行区域勾选，提高了工作效率。

在一个实施例中，所述获取工作人员使用鼠标在所述目标PDF上勾选的目标区域，根据所述目标区域调整所述预设采集区域，获得目标采集区域，包括：

检测所述工作人员使用鼠标在所述目标PDF上的点击指令；

上述技术方案的有益效果为：通过确定目标用户的点击指令是否合格进而根据合格的点击指令绘制出目标区域既可以避免误识别情况的发生又可以精准地划分出工作人员勾选的目标区域，提高了准确性，进一步地，通过对预设采集区域进行补充可以使得补充后的目标采集区域更加符合工作人员的需求，同时也保证了对于同类型数据的统一采集，避免了漏采集情况的发生，提高了工作效率。

在一个实施例中，如图3所示，所述在所述目标PDF文件通过验证后，将所述目标PDF文件作为模板进行上传，获得PDF模板文件，包括：

步骤S301、获取所述目标PDF文件中的多个字段；

步骤S302、确定与每个字段相匹配的目标字符串，将多个目标字符串在预设模板样本中进行匹配获得各字段的描述信息；

步骤S303、根据所述目标PDF文件中各字段的描述信息以及目标PDF文件中的内容生成所述PDF模板文件；

步骤S304、将所述PDF模板文件上传到预设服务器。

上述技术方案的有益效果为：通过获取目标PDF文件中每个字段的描述信息可以根据目标PDF文件的属性信息生成最终的PDF模板文件，保证后续对于PDF模板文件的快速调用，进一步地提高了实用性。

在一个实施例中，所述根据所述采集规则定时提取目标可视化仪器输出的后续PDF文件在所述目标采集区域内的内容，包括：

提取完毕后，检测每个后续PDF文件提取内容的完整性。

上述技术方案的有益效果为：通过根据目标可视化仪器的工作周期来设置采集周期可以保证对于目标可视化仪器每次输出的后续PDF文件都可以采集地到，避免了漏采集情况的发生，进一步地，通过检测每个后续PDF文件提取内容的完整性可以进一步地保证对于提取内容的准确性和完整性，保证了数据的精度。

在一个实施例中，所述方法还包括：

解析每个后续PDF文件的提取内容，获取解析结果；

上述技术方案的有益效果为：通过对提取内容进行解析可以在无专业人员编码的情况下实现对于PDF文件的内容解析，进一步地提高了工作人员的体验感。

在一个实施例中，所述确定与每个字段相匹配的目标字符串，将多个目标字符串在预设模板样本中进行匹配获得各字段的描述信息，包括：

获取多个预设字符串，构建初始决策树；

确定每个字段中组成文字的文字格式；

根据每个字段中的文字格式确定匹配字符串的匹配类型；

根据所述每个目标字符串估计出其对应的的资源名称信息；

上述技术方案的有益效果为：通过利用字符串构建目标决策树不仅可以将字符串进行分类也可以快速地获得目标PDF文件每个字段对应的目标字符串，进一步地，通过确定每个子字段特征因子生成每个字段的字符串正则表达式进而获得每个字段所匹配的当前字符串的目标属性因子可以更加准确地确定每个字段对应的目标字符串，提高了匹配的精确度，进一步地，通过匹配参考资源描述信息可以无需解析每个文字来最终确定描述信息，提高了工作效率。

表示为第i个分解线段的清晰度，

表示为工作人员的近视度，

，

表示为目标区域的区域特征因子，

表示为期望勾选区域的区域特征因子；

其中，A表示为比较结果，B表示为预设阈值；

上述技术方案的有益效果为：通过计算期望勾选区域与目标区域的偏差度可以针对工作人员本身的视力影响和目标PDF文件所在屏幕的外界影响因子来确定工作人员的最终勾选区域是否为目标区域，为工作人员提高了容错率，进而可以准确地获得工作人员需要的最终勾选区域，为后续调整预设采集区域提供了精准的样本，进一步地提高了工作人员的体验感。

在一个实施例中，如图4所示，包括：

将仪器输出的采集结果文件作为模板上传，然后在线预览的方式打开模板文件，通过鼠标选择框选的方式，将需要提取内容的区域框选，然后设置是结果还是样品编号、分割字符、是否延伸等，设置后保存，系统会记录框选区域的坐标及设置，然后给仪器设备绑定一种采集配置，采集定时任务扫描仪器输出的采集结果文件，根据仪器设备绑定的采集配置，提取采集结果文件中的内容并解析存入数据库，供业务系统使用。当仪器输出文件格式改变后，只需重新上传采集模板文件，打开采集配置，重新根据需要框选区域，保存后即可恢复生产，不需要停服务更新系统。

上述技术方案的有益效果为：通过可视化的方式框选需要采集的数据，只需简单设置，不需要IT专业开发人员编写解析脚本即可实现仪器数据的采集。通过所见即所得的方式，框选需提取的内容，大大简化了仪器采集的繁琐步骤，而且做到了0编码就可以抓取仪器采集的结果。

本实施例还公开了一种基于PDF格式文件的可视化仪器采集系统，如图5所示，该系统包括：

定义模块501，用于获取目标可视化仪器输出的目标PDF文件，根据所述目标PDF文件定义预设采集区域；

调整模块502，用于获取工作人员使用鼠标在所述目标PDF上勾选的目标区域，根据所述目标区域调整所述预设采集区域，获得目标采集区域；

设置模块503，用于根据所述目标采集区域设置采集规则，将所述采集规则与所述目标可视化仪器进行绑定；

提取模块504，用于根据所述采集规则定时提取目标可视化仪器输出的后续PDF文件在所述目标采集区域内的内容。

上述技术方案的工作原理及有益效果在方法权利要求中已经说明，此处不再赘述。

本领域技术人员应当理解的是，本发明中的第一、第二指的是不同应用阶段而已。

本领域技术用户员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。