CN112766245B - 基于pdf格式文件的可视化仪器采集方法及系统 - Google Patents

基于pdf格式文件的可视化仪器采集方法及系统 Download PDF

Info

Publication number
CN112766245B
CN112766245B CN202110374828.3A CN202110374828A CN112766245B CN 112766245 B CN112766245 B CN 112766245B CN 202110374828 A CN202110374828 A CN 202110374828A CN 112766245 B CN112766245 B CN 112766245B
Authority
CN
China
Prior art keywords
target
area
preset
pdf
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110374828.3A
Other languages
English (en)
Other versions
CN112766245A (zh
Inventor
金震
李明
徐伟
石晓文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SunwayWorld Science and Technology Co Ltd
Original Assignee
Beijing SunwayWorld Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SunwayWorld Science and Technology Co Ltd filed Critical Beijing SunwayWorld Science and Technology Co Ltd
Priority to CN202110374828.3A priority Critical patent/CN112766245B/zh
Publication of CN112766245A publication Critical patent/CN112766245A/zh
Application granted granted Critical
Publication of CN112766245B publication Critical patent/CN112766245B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于PDF格式文件的可视化仪器采集方法及系统,其方法包括:获取目标可视化仪器输出的目标PDF文件,根据所述目标PDF文件定义预设采集区域,获取工作人员使用鼠标在所述目标PDF上勾选的目标区域,根据所述目标区域调整所述预设采集区域,获得目标采集区域,根据所述目标采集区域设置采集规则,将所述采集规则与所述目标可视化仪器进行绑定,根据所述采集规则定时提取目标可视化仪器输出的后续PDF文件在所述目标采集区域内的内容。需要IT专业开发人员编写解析脚本即可实现仪器数据的采集。通过所见即所得的方式,框选需提取的内容,大大简化了仪器采集的繁琐步骤,而且做到了0编码就可以抓取仪器采集的结果。

Description

基于PDF格式文件的可视化仪器采集方法及系统
技术领域
本发明涉及文字识别技术领域,尤其涉及一种基于PDF格式文件的可视化仪器采集方法及系统。
背景技术
信息时代是信息成为人类活动的基本资源,信息技术广泛地应用于农业、工业、科学技术、国防军事及社会的各个领域,信息业已经成为整个社会经济结构的基础产业,信息活动对社会发展的贡献已经居于突出的地位。信息社会是继农业时代、工业时代之后,人类社会历史发展出现的崭新时代。在检验检测领域中,使用仪器设备做实验,采集结果由仪器计算处理后输出,代替传统的作业方式,不仅效率大大提升,而且准确性也有了保障。仪器输出的采集结果通常是PDF格式的文件,如何将文件中的数据结构化存储,用于整个样品的检验检测报告中,是很多实验室面临的一大难题,而且不得不解决。现有技术实现仪器采集是通过将仪器输出的PDF格式的采集结果文件解析为文本内容,然后通过字符串截取的方式提取PDF中的内容。这种技术实现需要IT专业开发人员编写提取PDF文件中内容的解析脚本,解析过程不直观,而且改动解析脚本后需要编译发布版本才能让生产环境恢复生产。
发明内容
针对上述所显示出来的问题,本发明提供了一种基于PDF格式文件的可视化仪器采集方法及系统用以解决背景技术中提到的需要IT专业开发人员编写提取PDF文件中内容的解析脚本,解析过程不直观,而且改动解析脚本后需要编译发布版本才能让生产环境恢复生产的问题。
一种基于PDF格式文件的可视化仪器采集方法,包括以下步骤:
获取目标可视化仪器输出的目标PDF文件,根据所述目标PDF文件定义预设采集区域;
获取工作人员使用鼠标在所述目标PDF上勾选的目标区域,根据所述目标区域调整所述预设采集区域,获得目标采集区域;
根据所述目标采集区域设置采集规则,将所述采集规则与所述目标可视化仪器进行绑定;
根据所述采集规则定时提取目标可视化仪器输出的后续PDF文件在所述目标采集区域内的内容。
优选的,所述获取目标可视化仪器输出的目标PDF文件,根据所述目标PDF文件定义预设采集区域,包括:
解析所述目标PDF文件,从所述目标PDF文件中获得同类型内容的分布情况;
根据同类型内容的分布情况确定同类型内容的跨度区域;
将所述跨度区域定义为所述预设采集区域。
优选的,在获取工作人员使用鼠标在所述目标PDF上勾选的目标区域,根据所述目标区域调整所述预设采集区域,获得目标采集区域之前,所述方法还包括:
验证所述目标PDF文件的准确性;
在所述目标PDF文件通过验证后,将所述目标PDF文件作为模板进行上传,获得PDF模板文件。
优选的,所述获取工作人员使用鼠标在所述目标PDF上勾选的目标区域,根据所述目标区域调整所述预设采集区域,获得目标采集区域,包括:
检测所述工作人员使用鼠标在所述目标PDF上的点击指令;
根据所述点击指令确定工作人员的当前点击力度,确认所述当前点击力度是否大于等于预设力度,若是,确认所述点击指令合格,否则,确认所述点击指令不合格;
统计目标用户的多个合格点击指令,根据将所述多个合格点击指令绘制出所述目标区域;
将所述目标区域与预设采集区域进行比较,确定目标区域包含所述预设采集区域之外的区域;
根据目标区域包含所述预设采集区域之外的区域对所述预设采集区域进行补充以获得所述目标采集区域。
优选的,所述在所述目标PDF文件通过验证后,将所述目标PDF文件作为模板进行上传,获得PDF模板文件,包括:
获取所述目标PDF文件中的多个字段;
确定与每个字段相匹配的目标字符串,将多个目标字符串在预设模板样本中进行匹配获得各字段的描述信息;
根据所述目标PDF文件中各字段的描述信息以及目标PDF文件中的内容生成所述PDF模板文件;
将所述PDF模板文件上传到预设服务器。
优选的,所述根据所述采集规则定时提取目标可视化仪器输出的后续PDF文件在所述目标采集区域内的内容,包括:
确定所述目标可视化仪器的工作周期,根据所述工作周期设置采集周期;
按照所述采集周期采集所述目标可视化仪器输出的后续PDF文件;
利用所述采集规则提取每个后续PDF文件中在所述目标采集区域内的内容;
提取完毕后,检测每个后续PDF文件提取内容的完整性。
优选的,所述方法还包括:
解析每个后续PDF文件的提取内容,获取解析结果;
将每个后续PDF文件的提取内容的解析结果存储到预设数据库中。
优选的,所述确定与每个字段相匹配的目标字符串,将多个目标字符串在预设模板样本中进行匹配获得各字段的描述信息,包括:
获取多个预设字符串,构建初始决策树;
将所述多个预设字符串中同类型的预设字符串写入到所述初始决策树的同一个节点中;
写入完毕后,获取每个预设字符串的属性因子,将每个字符串与其属性因子相对应,获得目标决策树;
确定每个字段中组成文字的文字格式;
根据每个字段中的文字格式确定匹配字符串的匹配类型;
根据每个字段的字符串匹配类型确定每个字段的目标匹配节点;
将每个字段分割为多个子字段,获取每个子字段的特征因子,根据每个子字段的特征因子生成每个字段的字符串正则表达式;
根据每个字段的字符串正则表达式计算出每个字段所匹配的当前字符串的目标属性因子;
根据每个字段所匹配的当前字符串的目标属性因子在其目标匹配节点中查询与目标属性因子相同的目标字符串;
根据所述每个目标字符串估计出其对应的的资源名称信息;
在所述预设模板样本中获取与每个资源名称信息相匹配的参考资源描述信息;
解析每个参考资源描述信息获得其对应的第一源文件,将多个第一源文件结合形成第二源文件;
计算所述第二源文件与目标PDF文件之间的目标相似度,确认所述目标相似度是否大于等于预设相似度,若是,将每个参考资源描述信息确认为每个字段的描述信息。
优选的,所述获取工作人员使用鼠标在所述目标PDF上勾选的目标区域,根据所述目标区域调整所述预设采集区域,获得目标采集区域,包括:
获取所述目标区域,将工作人员在所述目标区域的勾选轨迹分解为多个线段;
确定每个线段的清晰度,获取所述工作人员的近视度,根据所述近视度与每个线段的清晰度绘制出工作人员的期望勾选区域;
根据每个线段的清晰度与工作人员的近视度计算出期望勾选区域与目标区域的偏差度:
Figure 330914DEST_PATH_IMAGE001
其中,k表示为期望勾选区域与目标区域的偏差度,N表示为分解线段的数量,
Figure 513633DEST_PATH_IMAGE002
表示为第i个分解线段的清晰度,
Figure 886846DEST_PATH_IMAGE003
表示为工作人员视觉所处的空间频率,F(u)表示为预设人眼视觉识别清晰度的空间频率函数,
Figure 485317DEST_PATH_IMAGE004
表示为工作人员直视目标PDF文件所在直线视线与目标PDF文件所在屏幕垂直方向的夹角,
Figure 643897DEST_PATH_IMAGE005
表示为工作人员直视目标PDF文件所在直线视线与目标PDF文件所在屏幕垂直方向的夹角的余弦值,
Figure 935202DEST_PATH_IMAGE006
表示为工作人员的近视度,
Figure 795710DEST_PATH_IMAGE007
表示为目标PDF文件所在屏幕的反光系数所造成的影响因子,取值为
Figure 260190DEST_PATH_IMAGE008
Figure 397910DEST_PATH_IMAGE009
表示为目标区域的区域特征因子,
Figure 735481DEST_PATH_IMAGE010
表示为期望勾选区域的区域特征因子;
将所述期望勾选区域与目标区域的偏差度与预设阈值进行比较,获取比较结果;
Figure 693073DEST_PATH_IMAGE011
其中,A表示为比较结果,B表示为预设阈值;
当所述比较结果为1时,将所述期望勾选区域与目标区域同时呈现与工作人员观看以供工作人员选择最终勾选区域,当所述比较结果为0时,将所述目标区域确认为所述最终勾选区域;
当所述最终勾选区域为目标区域时,根据所述目标区域对所述预设采集区域进行调整,当所述最终勾选区域为期望勾选区域时,根据所述期望勾选区域对所述预设采集区域进行调整。
一种基于PDF格式文件的可视化仪器采集系统,该系统包括:
定义模块,用于获取目标可视化仪器输出的目标PDF文件,根据所述目标PDF文件定义预设采集区域;
调整模块,用于获取工作人员使用鼠标在所述目标PDF上勾选的目标区域,根据所述目标区域调整所述预设采集区域,获得目标采集区域;
设置模块,用于根据所述目标采集区域设置采集规则,将所述采集规则与所述目标可视化仪器进行绑定;
提取模块,用于根据所述采集规则定时提取目标可视化仪器输出的后续PDF文件在所述目标采集区域内的内容。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明所提供的基于PDF格式文件的可视化仪器采集方法的工作流程图;
图2为本发明所提供的基于PDF格式文件的可视化仪器采集方法的另一工作流程图;
图3为本发明所提供的基于PDF格式文件的可视化仪器采集方法的又一工作流程图;
图4为根据本发明所提供的基于PDF格式文件的可视化仪器采集方法的工作实施例流程截图;
图5为本发明所提供的基于PDF格式文件的可视化仪器采集系统的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
信息时代是信息成为人类活动的基本资源,信息技术广泛地应用于农业、工业、科学技术、国防军事及社会的各个领域,信息业已经成为整个社会经济结构的基础产业,信息活动对社会发展的贡献已经居于突出的地位。信息社会是继农业时代、工业时代之后,人类社会历史发展出现的崭新时代。在检验检测领域中,使用仪器设备做实验,采集结果由仪器计算处理后输出,代替传统的作业方式,不仅效率大大提升,而且准确性也有了保障。仪器输出的采集结果通常是PDF格式的文件,如何将文件中的数据结构化存储,用于整个样品的检验检测报告中,是很多实验室面临的一大难题,而且不得不解决。现有技术实现仪器采集是通过将仪器输出的PDF格式的采集结果文件解析为文本内容,然后通过字符串截取的方式提取PDF中的内容。这种技术实现需要IT专业开发人员编写提取PDF文件中内容的解析脚本,解析过程不直观,而且改动解析脚本后需要编译发布版本才能让生产环境恢复生产。为了解决上述问题,本实施例公开了一种基于PDF格式文件的可视化仪器采集方法。
一种基于PDF格式文件的可视化仪器采集方法,如图1所示,包括以下步骤:
步骤S101、获取目标可视化仪器输出的目标PDF文件,根据所述目标PDF文件定义预设采集区域;
步骤S102、获取工作人员使用鼠标在所述目标PDF上勾选的目标区域,根据所述目标区域调整所述预设采集区域,获得目标采集区域;
步骤S103、根据所述目标采集区域设置采集规则,将所述采集规则与所述目标可视化仪器进行绑定;
步骤S104、根据所述采集规则定时提取目标可视化仪器输出的后续PDF文件在所述目标采集区域内的内容。
上述技术方案的工作原理为:获取目标可视化仪器输出的目标PDF文件,根据所述目标PDF文件定义预设采集区域,获取工作人员使用鼠标在所述目标PDF上勾选的目标区域,根据所述目标区域调整所述预设采集区域,获得目标采集区域,根据所述目标采集区域设置采集规则,将所述采集规则与所述目标可视化仪器进行绑定,根据所述采集规则定时提取目标可视化仪器输出的后续PDF文件在所述目标采集区域内的内容。
上述技术方案的有益效果为:通过可视化的方式框选需要采集的数据,只需简单设置,不需要IT专业开发人员编写解析脚本即可实现仪器数据的采集。通过所见即所得的方式,框选需提取的内容,大大简化了仪器采集的繁琐步骤,而且做到了0编码就可以抓取仪器采集的结果,解决了现有技术中需要IT专业开发人员编写提取PDF文件中内容的解析脚本,解析过程不直观,而且改动解析脚本后需要编译发布版本才能让生产环境恢复生产的问题,降低了操作难度,使得每个工作人员都可以称心如意地获取到自己需要的仪器输出数据,提高了工组人员的体验感。
在一个实施例中,如图2所示,所述获取目标可视化仪器输出的目标PDF文件,根据所述目标PDF文件定义预设采集区域,包括:
步骤S201、解析所述目标PDF文件,从所述目标PDF文件中获得同类型内容的分布情况;
步骤S202、根据同类型内容的分布情况确定同类型内容的跨度区域;
步骤S203、将所述跨度区域定义为所述预设采集区域。
上述技术方案的有益效果为:通过确定同类型内容的分布情况可以初步地确定目标PDF文件中不同类型数据的划分区域,进而可以快速地确定同类型内容的跨度区域从而获得预设采集区域,根据目标PDF文件的本身参数来确定出自己专属的预设采集区域,可应对不同类型文件确定不同的预设采集区域,提高了实用性。
在一个实施例中,在获取工作人员使用鼠标在所述目标PDF上勾选的目标区域,根据所述目标区域调整所述预设采集区域,获得目标采集区域之前,所述方法还包括:验证所述目标PDF文件的准确性;
在所述目标PDF文件通过验证后,将所述目标PDF文件作为模板进行上传,获得PDF模板文件。
上述技术方案的有益效果为:通过验证目标PDF文件的准确性可以保证数据内容的精确度,进而可以保证最终的解析结果的准确性,为工作人员提供完整准确并且有价值的参考样本,进一步地提高了工作人员的体验感,进一步地,通过将PDF作为模板文件可以使得工作人员可以快速地使用第三方软件对目标PDF文件进行区域勾选,提高了工作效率。
在一个实施例中,所述获取工作人员使用鼠标在所述目标PDF上勾选的目标区域,根据所述目标区域调整所述预设采集区域,获得目标采集区域,包括:
检测所述工作人员使用鼠标在所述目标PDF上的点击指令;
根据所述点击指令确定工作人员的当前点击力度,确认所述当前点击力度是否大于等于预设力度,若是,确认所述点击指令合格,否则,确认所述点击指令不合格;
统计目标用户的多个合格点击指令,根据将所述多个合格点击指令绘制出所述目标区域;
将所述目标区域与预设采集区域进行比较,确定目标区域包含所述预设采集区域之外的区域;
根据目标区域包含所述预设采集区域之外的区域对所述预设采集区域进行补充以获得所述目标采集区域。
上述技术方案的有益效果为:通过确定目标用户的点击指令是否合格进而根据合格的点击指令绘制出目标区域既可以避免误识别情况的发生又可以精准地划分出工作人员勾选的目标区域,提高了准确性,进一步地,通过对预设采集区域进行补充可以使得补充后的目标采集区域更加符合工作人员的需求,同时也保证了对于同类型数据的统一采集,避免了漏采集情况的发生,提高了工作效率。
在一个实施例中,如图3所示,所述在所述目标PDF文件通过验证后,将所述目标PDF文件作为模板进行上传,获得PDF模板文件,包括:
步骤S301、获取所述目标PDF文件中的多个字段;
步骤S302、确定与每个字段相匹配的目标字符串,将多个目标字符串在预设模板样本中进行匹配获得各字段的描述信息;
步骤S303、根据所述目标PDF文件中各字段的描述信息以及目标PDF文件中的内容生成所述PDF模板文件;
步骤S304、将所述PDF模板文件上传到预设服务器。
上述技术方案的有益效果为:通过获取目标PDF文件中每个字段的描述信息可以根据目标PDF文件的属性信息生成最终的PDF模板文件,保证后续对于PDF模板文件的快速调用,进一步地提高了实用性。
在一个实施例中,所述根据所述采集规则定时提取目标可视化仪器输出的后续PDF文件在所述目标采集区域内的内容,包括:
确定所述目标可视化仪器的工作周期,根据所述工作周期设置采集周期;
按照所述采集周期采集所述目标可视化仪器输出的后续PDF文件;
利用所述采集规则提取每个后续PDF文件中在所述目标采集区域内的内容;
提取完毕后,检测每个后续PDF文件提取内容的完整性。
上述技术方案的有益效果为:通过根据目标可视化仪器的工作周期来设置采集周期可以保证对于目标可视化仪器每次输出的后续PDF文件都可以采集地到,避免了漏采集情况的发生,进一步地,通过检测每个后续PDF文件提取内容的完整性可以进一步地保证对于提取内容的准确性和完整性,保证了数据的精度。
在一个实施例中,所述方法还包括:
解析每个后续PDF文件的提取内容,获取解析结果;
将每个后续PDF文件的提取内容的解析结果存储到预设数据库中。
上述技术方案的有益效果为:通过对提取内容进行解析可以在无专业人员编码的情况下实现对于PDF文件的内容解析,进一步地提高了工作人员的体验感。
在一个实施例中,所述确定与每个字段相匹配的目标字符串,将多个目标字符串在预设模板样本中进行匹配获得各字段的描述信息,包括:
获取多个预设字符串,构建初始决策树;
将所述多个预设字符串中同类型的预设字符串写入到所述初始决策树的同一个节点中;
写入完毕后,获取每个预设字符串的属性因子,将每个字符串与其属性因子相对应,获得目标决策树;
确定每个字段中组成文字的文字格式;
根据每个字段中的文字格式确定匹配字符串的匹配类型;
根据每个字段的字符串匹配类型确定每个字段的目标匹配节点;
将每个字段分割为多个子字段,获取每个子字段的特征因子,根据每个子字段的特征因子生成每个字段的字符串正则表达式;
根据每个字段的字符串正则表达式计算出每个字段所匹配的当前字符串的目标属性因子;
根据每个字段所匹配的当前字符串的目标属性因子在其目标匹配节点中查询与目标属性因子相同的目标字符串;
根据所述每个目标字符串估计出其对应的的资源名称信息;
在所述预设模板样本中获取与每个资源名称信息相匹配的参考资源描述信息;
解析每个参考资源描述信息获得其对应的第一源文件,将多个第一源文件结合形成第二源文件;
计算所述第二源文件与目标PDF文件之间的目标相似度,确认所述目标相似度是否大于等于预设相似度,若是,将每个参考资源描述信息确认为每个字段的描述信息。
上述技术方案的有益效果为:通过利用字符串构建目标决策树不仅可以将字符串进行分类也可以快速地获得目标PDF文件每个字段对应的目标字符串,进一步地,通过确定每个子字段特征因子生成每个字段的字符串正则表达式进而获得每个字段所匹配的当前字符串的目标属性因子可以更加准确地确定每个字段对应的目标字符串,提高了匹配的精确度,进一步地,通过匹配参考资源描述信息可以无需解析每个文字来最终确定描述信息,提高了工作效率。
在一个实施例中,所述获取工作人员使用鼠标在所述目标PDF上勾选的目标区域,根据所述目标区域调整所述预设采集区域,获得目标采集区域,包括:
获取所述目标区域,将工作人员在所述目标区域的勾选轨迹分解为多个线段;
确定每个线段的清晰度,获取所述工作人员的近视度,根据所述近视度与每个线段的清晰度绘制出工作人员的期望勾选区域;
根据每个线段的清晰度与工作人员的近视度计算出期望勾选区域与目标区域的偏差度:
Figure 23560DEST_PATH_IMAGE012
其中,k表示为期望勾选区域与目标区域的偏差度,N表示为分解线段的数量,
Figure 15787DEST_PATH_IMAGE002
表示为第i个分解线段的清晰度,
Figure 789839DEST_PATH_IMAGE003
表示为工作人员视觉所处的空间频率,F(u)表示为预设人眼视觉识别清晰度的空间频率函数,
Figure 297044DEST_PATH_IMAGE004
表示为工作人员直视目标PDF文件所在直线视线与目标PDF文件所在屏幕垂直方向的夹角,
Figure 41009DEST_PATH_IMAGE005
表示为工作人员直视目标PDF文件所在直线视线与目标PDF文件所在屏幕垂直方向的夹角的余弦值,
Figure 277955DEST_PATH_IMAGE006
表示为工作人员的近视度,
Figure 816384DEST_PATH_IMAGE007
表示为目标PDF文件所在屏幕的反光系数所造成的影响因子,取值为
Figure 892443DEST_PATH_IMAGE008
Figure 440099DEST_PATH_IMAGE009
表示为目标区域的区域特征因子,
Figure 203656DEST_PATH_IMAGE010
表示为期望勾选区域的区域特征因子;
将所述期望勾选区域与目标区域的偏差度与预设阈值进行比较,获取比较结果;
Figure 568778DEST_PATH_IMAGE013
其中,A表示为比较结果,B表示为预设阈值;
当所述比较结果为1时,将所述期望勾选区域与目标区域同时呈现与工作人员观看以供工作人员选择最终勾选区域,当所述比较结果为0时,将所述目标区域确认为所述最终勾选区域;
当所述最终勾选区域为目标区域时,根据所述目标区域对所述预设采集区域进行调整,当所述最终勾选区域为期望勾选区域时,根据所述期望勾选区域对所述预设采集区域进行调整。
上述技术方案的有益效果为:通过计算期望勾选区域与目标区域的偏差度可以针对工作人员本身的视力影响和目标PDF文件所在屏幕的外界影响因子来确定工作人员的最终勾选区域是否为目标区域,为工作人员提高了容错率,进而可以准确地获得工作人员需要的最终勾选区域,为后续调整预设采集区域提供了精准的样本,进一步地提高了工作人员的体验感。
在一个实施例中,如图4所示,包括:
将仪器输出的采集结果文件作为模板上传,然后在线预览的方式打开模板文件,通过鼠标选择框选的方式,将需要提取内容的区域框选,然后设置是结果还是样品编号、分割字符、是否延伸等,设置后保存,系统会记录框选区域的坐标及设置,然后给仪器设备绑定一种采集配置,采集定时任务扫描仪器输出的采集结果文件,根据仪器设备绑定的采集配置,提取采集结果文件中的内容并解析存入数据库,供业务系统使用。当仪器输出文件格式改变后,只需重新上传采集模板文件,打开采集配置,重新根据需要框选区域,保存后即可恢复生产,不需要停服务更新系统。
上述技术方案的有益效果为:通过可视化的方式框选需要采集的数据,只需简单设置,不需要IT专业开发人员编写解析脚本即可实现仪器数据的采集。通过所见即所得的方式,框选需提取的内容,大大简化了仪器采集的繁琐步骤,而且做到了0编码就可以抓取仪器采集的结果。
本实施例还公开了一种基于PDF格式文件的可视化仪器采集系统,如图5所示,该系统包括:
定义模块501,用于获取目标可视化仪器输出的目标PDF文件,根据所述目标PDF文件定义预设采集区域;
调整模块502,用于获取工作人员使用鼠标在所述目标PDF上勾选的目标区域,根据所述目标区域调整所述预设采集区域,获得目标采集区域;
设置模块503,用于根据所述目标采集区域设置采集规则,将所述采集规则与所述目标可视化仪器进行绑定;
提取模块504,用于根据所述采集规则定时提取目标可视化仪器输出的后续PDF文件在所述目标采集区域内的内容。
上述技术方案的工作原理及有益效果在方法权利要求中已经说明,此处不再赘述。
本领域技术人员应当理解的是,本发明中的第一、第二指的是不同应用阶段而已。
本领域技术用户员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (7)

1.一种基于PDF格式文件的可视化仪器采集方法,其特征在于,包括以下步骤:
获取目标可视化仪器输出的目标PDF文件,根据所述目标PDF文件定义预设采集区域;
获取工作人员使用鼠标在所述目标PDF上勾选的目标区域,根据所述目标区域调整所述预设采集区域,获得目标采集区域;
根据所述目标采集区域设置采集规则,将所述采集规则与所述目标可视化仪器进行绑定;
根据所述采集规则定时提取目标可视化仪器输出的后续PDF文件在所述目标采集区域内的内容;
在获取工作人员使用鼠标在所述目标PDF上勾选的目标区域,根据所述目标区域调整所述预设采集区域,获得目标采集区域之前,所述方法还包括:
验证所述目标PDF文件的准确性;
在所述目标PDF文件通过验证后,将所述目标PDF文件作为模板进行上传,获得PDF模板文件;
所述在所述目标PDF文件通过验证后,将所述目标PDF文件作为模板进行上传,获得PDF模板文件,包括:
获取所述目标PDF文件中的多个字段;
确定与每个字段相匹配的目标字符串,将多个目标字符串在预设模板样本中进行匹配获得各字段的描述信息;
根据所述目标PDF文件中各字段的描述信息以及目标PDF文件中的内容生成所述PDF模板文件;
将所述PDF模板文件上传到预设服务器;
所述确定与每个字段相匹配的目标字符串,将多个目标字符串在预设模板样本中进行匹配获得各字段的描述信息,包括:
获取多个预设字符串,构建初始决策树;
将所述多个预设字符串中同类型的预设字符串写入到所述初始决策树的同一个节点中;
写入完毕后,获取每个预设字符串的属性因子,将每个字符串与其属性因子相对应,获得目标决策树;
确定每个字段中组成文字的文字格式;
根据每个字段中的文字格式确定匹配字符串的匹配类型;
根据每个字段的字符串匹配类型确定每个字段的目标匹配节点;
将每个字段分割为多个子字段,获取每个子字段的特征因子,根据每个子字段的特征因子生成每个字段的字符串正则表达式;
根据每个字段的字符串正则表达式计算出每个字段所匹配的当前字符串的目标属性因子;
根据每个字段所匹配的当前字符串的目标属性因子在其目标匹配节点中查询与目标属性因子相同的目标字符串;
根据每个所述目标字符串估计出其对应的资源名称信息;
在所述预设模板样本中获取与每个资源名称信息相匹配的参考资源描述信息;
解析每个参考资源描述信息获得其对应的第一源文件,将多个第一源文件结合形成第二源文件;
计算所述第二源文件与目标PDF文件之间的目标相似度,确认所述目标相似度是否大于等于预设相似度,若是,将每个参考资源描述信息确认为每个字段的描述信息。
2.根据权利要求1所述基于PDF格式文件的可视化仪器采集方法,其特征在于,所述获取目标可视化仪器输出的目标PDF文件,根据所述目标PDF文件定义预设采集区域,包括:
解析所述目标PDF文件,从所述目标PDF文件中获得同类型内容的分布情况;
根据同类型内容的分布情况确定同类型内容的跨度区域;
将所述跨度区域定义为所述预设采集区域。
3.根据权利要求1所述基于PDF格式文件的可视化仪器采集方法,其特征在于,所述获取工作人员使用鼠标在所述目标PDF上勾选的目标区域,根据所述目标区域调整所述预设采集区域,获得目标采集区域,包括:
检测所述工作人员使用鼠标在所述目标PDF上的点击指令;
根据所述点击指令确定工作人员的当前点击力度,确认所述当前点击力度是否大于等于预设力度,若是,确认所述点击指令合格,否则,确认所述点击指令不合格;
统计目标用户的多个合格点击指令,根据将所述多个合格点击指令绘制出所述目标区域;
将所述目标区域与预设采集区域进行比较,确定目标区域包含所述预设采集区域之外的区域;
根据目标区域包含所述预设采集区域之外的区域对所述预设采集区域进行补充以获得所述目标采集区域。
4.根据权利要求1所述基于PDF格式文件的可视化仪器采集方法,其特征在于,所述根据所述采集规则定时提取目标可视化仪器输出的后续PDF文件在所述目标采集区域内的内容,包括:
确定所述目标可视化仪器的工作周期,根据所述工作周期设置采集周期;
按照所述采集周期采集所述目标可视化仪器输出的后续PDF文件;
利用所述采集规则提取每个后续PDF文件中在所述目标采集区域内的内容;
提取完毕后,检测每个后续PDF文件提取内容的完整性。
5.根据权利要求4所述基于PDF格式文件的可视化仪器采集方法,其特征在于,所述方法还包括:
解析每个后续PDF文件的提取内容,获取解析结果;
将每个后续PDF文件的提取内容的解析结果存储到预设数据库中。
6.根据权利要求1所述基于PDF格式文件的可视化仪器采集方法,其特征在于,所述获取工作人员使用鼠标在所述目标PDF上勾选的目标区域,根据所述目标区域调整所述预设采集区域,获得目标采集区域,包括:
获取所述目标区域,将工作人员在所述目标区域的勾选轨迹分解为多个线段;
确定每个线段的清晰度,获取所述工作人员的近视度,根据所述近视度与每个线段的清晰度绘制出工作人员的期望勾选区域;
根据每个线段的清晰度与工作人员的近视度计算出期望勾选区域与目标区域的偏差度:
Figure DEST_PATH_IMAGE001
其中,k表示为期望勾选区域与目标区域的偏差度,N表示为分解线段的数量,
Figure 705827DEST_PATH_IMAGE002
表示为第i个分解线段的清晰度,
Figure 105584DEST_PATH_IMAGE003
表示为工作人员视觉所处的空间频率,F(u)表示为预设人眼视觉识别清晰度的空间频率函数,
Figure 749055DEST_PATH_IMAGE004
表示为工作人员直视目标PDF文件所在直线视线与目标PDF文件所在屏幕垂直方向的夹角,
Figure 686883DEST_PATH_IMAGE005
表示为工作人员直视目标PDF文件所在直线视线与目标PDF文件所在屏幕垂直方向的夹角的余弦值,
Figure 415804DEST_PATH_IMAGE006
表示为工作人员的近视度,
Figure 619252DEST_PATH_IMAGE007
表示为目标PDF文件所在屏幕的反光系数所造成的影响因子,取值为[0.15,0.2],
Figure 117230DEST_PATH_IMAGE008
表示为目标区域的区域特征因子,
Figure 514975DEST_PATH_IMAGE009
表示为期望勾选区域的区域特征因子;
将所述期望勾选区域与目标区域的偏差度与预设阈值进行比较,获取比较结果;
Figure 590248DEST_PATH_IMAGE010
其中,A表示为比较结果,B表示为预设阈值;
当所述比较结果为1时,将所述期望勾选区域与目标区域同时呈现与工作人员观看以供工作人员选择最终勾选区域,当所述比较结果为0时,将所述目标区域确认为所述最终勾选区域;
当所述最终勾选区域为目标区域时,根据所述目标区域对所述预设采集区域进行调整,当所述最终勾选区域为期望勾选区域时,根据所述期望勾选区域对所述预设采集区域进行调整。
7.一种基于PDF格式文件的可视化仪器采集系统,其特征在于,该系统包括:
定义模块,用于获取目标可视化仪器输出的目标PDF文件,根据所述目标PDF文件定义预设采集区域;
调整模块,用于获取工作人员使用鼠标在所述目标PDF上勾选的目标区域,根据所述目标区域调整所述预设采集区域,获得目标采集区域;
设置模块,用于根据所述目标采集区域设置采集规则,将所述采集规则与所述目标可视化仪器进行绑定;
提取模块,用于根据所述采集规则定时提取目标可视化仪器输出的后续PDF文件在所述目标采集区域内的内容;
所述系统还包括:
验证模块,用于验证所述目标PDF文件的准确性;
上传模块,用于在所述目标PDF文件通过验证后,将所述目标PDF文件作为模板进行上传,获得PDF模板文件;
所述上传模块的工作步骤包括:
获取所述目标PDF文件中的多个字段;
确定与每个字段相匹配的目标字符串,将多个目标字符串在预设模板样本中进行匹配获得各字段的描述信息;
根据所述目标PDF文件中各字段的描述信息以及目标PDF文件中的内容生成所述PDF模板文件;
将所述PDF模板文件上传到预设服务器;
所述确定与每个字段相匹配的目标字符串,将多个目标字符串在预设模板样本中进行匹配获得各字段的描述信息,包括:
获取多个预设字符串,构建初始决策树;
将所述多个预设字符串中同类型的预设字符串写入到所述初始决策树的同一个节点中;
写入完毕后,获取每个预设字符串的属性因子,将每个字符串与其属性因子相对应,获得目标决策树;
确定每个字段中组成文字的文字格式;
根据每个字段中的文字格式确定匹配字符串的匹配类型;
根据每个字段的字符串匹配类型确定每个字段的目标匹配节点;
将每个字段分割为多个子字段,获取每个子字段的特征因子,根据每个子字段的特征因子生成每个字段的字符串正则表达式;
根据每个字段的字符串正则表达式计算出每个字段所匹配的当前字符串的目标属性因子;
根据每个字段所匹配的当前字符串的目标属性因子在其目标匹配节点中查询与目标属性因子相同的目标字符串;
根据每个所述目标字符串估计出其对应的资源名称信息;
在所述预设模板样本中获取与每个资源名称信息相匹配的参考资源描述信息;
解析每个参考资源描述信息获得其对应的第一源文件,将多个第一源文件结合形成第二源文件;
计算所述第二源文件与目标PDF文件之间的目标相似度,确认所述目标相似度是否大于等于预设相似度,若是,将每个参考资源描述信息确认为每个字段的描述信息。
CN202110374828.3A 2021-04-08 2021-04-08 基于pdf格式文件的可视化仪器采集方法及系统 Active CN112766245B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110374828.3A CN112766245B (zh) 2021-04-08 2021-04-08 基于pdf格式文件的可视化仪器采集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110374828.3A CN112766245B (zh) 2021-04-08 2021-04-08 基于pdf格式文件的可视化仪器采集方法及系统

Publications (2)

Publication Number Publication Date
CN112766245A CN112766245A (zh) 2021-05-07
CN112766245B true CN112766245B (zh) 2021-07-20

Family

ID=75691415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110374828.3A Active CN112766245B (zh) 2021-04-08 2021-04-08 基于pdf格式文件的可视化仪器采集方法及系统

Country Status (1)

Country Link
CN (1) CN112766245B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116467037B (zh) * 2023-06-09 2023-09-22 成都融见软件科技有限公司 一种图形用户界面工作状态的恢复方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111367969A (zh) * 2020-03-19 2020-07-03 北京三维天地科技股份有限公司 一种数据挖掘方法和系统
CN111400565A (zh) * 2020-03-19 2020-07-10 北京三维天地科技股份有限公司 一种可视化拖拽在线数据处理方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040268233A1 (en) * 2002-06-27 2004-12-30 Oki Electric Industry Co., Ltd. Information processing apparatus and information processing method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111367969A (zh) * 2020-03-19 2020-07-03 北京三维天地科技股份有限公司 一种数据挖掘方法和系统
CN111400565A (zh) * 2020-03-19 2020-07-10 北京三维天地科技股份有限公司 一种可视化拖拽在线数据处理方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
这可能是最强的PDF软件了!!;当当946;《https://www.bilibili.com/video/BV1kk4y1y7tk?from=search&seid=14059927079657614871》;20200917;视频的第01分59秒-02分44秒 *

Also Published As

Publication number Publication date
CN112766245A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
Fischer et al. Analyzing and relating bug report data for feature tracking
US11550570B2 (en) Code development management system
US20180004823A1 (en) System and method for data profile driven analytics
US11016758B2 (en) Analysis software managing system and analysis software managing method
CN110222336A (zh) 财务报告分析方法、装置、计算机设备和存储介质
US11379466B2 (en) Data accuracy using natural language processing
US20210056110A1 (en) Automatically migrating computer content
CN110674360A (zh) 一种用于数据关联图谱的构建和数据的溯源方法和系统
CN112766245B (zh) 基于pdf格式文件的可视化仪器采集方法及系统
CN105260300A (zh) 基于会计准则通用分类标准应用平台的业务测试方法
CN110232130B (zh) 元数据管理谱系生成方法、装置、计算机设备和存储介质
JP7144336B2 (ja) 業務分析装置、業務分析方法及びプログラム
US20160063744A1 (en) Data Quality Test and Report Creation System
JP2017111500A (ja) 文字認識装置及びプログラム
Mann et al. MICA: Multiple interval-based curve alignment
CN115796140A (zh) 报告自动生成、报告模板配置方法和装置
JP7339063B2 (ja) 作業工程に関する学習を行う機械学習プログラム及び機械学習装置
Tandetzki et al. An evidence and gap map of the environmental Kuznets curve and the forest transition hypothesis for estimating forest area development
US20220036280A1 (en) Skill index provision device, skill index provision method, and program
CN112381509A (zh) 重大新药创制国家科技重大专项课题管理系统
AU2020201689A1 (en) Cognitive forecasting
US20200042926A1 (en) Analysis method and computer
JP2006091937A (ja) データ分析装置及びその方法、プログラム
Xue-Jun et al. Research and practice of user learning style model recognition based on big data
Graham et al. forestexplorR: an R package for the exploration and analysis of stem‐mapped forest stand data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant