CN110019486A - 数据采集方法、装置、设备及存储介质 - Google Patents

数据采集方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110019486A
CN110019486A CN201810794561.1A CN201810794561A CN110019486A CN 110019486 A CN110019486 A CN 110019486A CN 201810794561 A CN201810794561 A CN 201810794561A CN 110019486 A CN110019486 A CN 110019486A
Authority
CN
China
Prior art keywords
target
collection rule
acquisition
aiming field
field set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810794561.1A
Other languages
English (en)
Other versions
CN110019486B (zh
Inventor
白红丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810794561.1A priority Critical patent/CN110019486B/zh
Priority to PCT/CN2018/103791 priority patent/WO2020015067A1/zh
Publication of CN110019486A publication Critical patent/CN110019486A/zh
Application granted granted Critical
Publication of CN110019486B publication Critical patent/CN110019486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据采集方法、装置、设备及计算机可读存储介质,该方法通过在接收到业务需求时,获取所述业务需求中的目标字段集合,并生成采集目的表;将所述目标字段集合与预设采集库进行匹配,判断所述是否存在与所述目标字段集合匹配的目标采集规则,其中,所述目标采集规则包括相关表格标识以及数据采集路径;若存在所述目标采集规则,则根据所述相关表格标识,确定对应的目标表单,将所述目标表单中的表格进行关联;根据所述数据采集路径,在关联表格中获取所述目标字段集合对应的目标数据,并将所述目标数据存储至所述采集目的表。本发明实现了目标数据的自动采集,节省了人力,提升采集效率。

Description

数据采集方法、装置、设备及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种数据采集方法、装置、设备及 计算机可读存储介质。
背景技术
随着大数据时代的来临,数据库中的数据量变得越来越大,因此,数据 的查询耗时也越来越长。而在日常工作中,业务用户经常需要大量的数据做 统计分析,但是不同的用户需求有差异且需求变化太快,无法通过报表来进 行支持,因此,需要通过数据采集进行数据提取,如通过某种程序或脚本以 某一规则完成数据库的数据查询与获取。由于各个数据采集需求不同,因此 需要针对每个采集需求进行分析然后编写对应脚本。但是现有数据采集需要 人工进行需求分析与脚本编写操作,不仅浪费了大量人力,而且需要重复进行分析与编写操作,导致采集效率低下。因此,如何解决现有采集数据技术 浪费人力以及效率低下的技术问题,成为了目前亟待解决的技术问题。
发明内容
本发明的主要目的在于提供一种数据采集方法、装置、设备及计算机可 读存储介质,旨在解决现有采集数据技术浪费人力以及效率低下的技术问题。
为实现上述目的,本发明提供一种数据采集方法,所述数据采集方法包 括以下步骤:
在接收到业务需求时,获取所述业务需求中的目标字段集合,并根据所 述目标字段集合生成采集目的表;
将所述目标字段集合与预设采集库进行匹配,判断所述预设采集库中是 否存在与所述目标字段集合匹配的目标采集规则,其中,所述目标采集规则 包括相关表格标识以及数据采集路径;
若判定所述预设采集库中存在所述目标采集规则,则根据所述相关表格 标识,确定对应的目标表单,将所述目标表单中的表格进行关联;
根据所述数据采集路径,在所述目标表单的关联表格中获取所述目标字 段集合对应的目标数据,并将所述目标数据存储至所述采集目的表。
可选地,所述将所述目标字段集合与预设采集库进行匹配,判断所述预 设采集库中是否存在与所述目标字段集合匹配的目标采集规则,其中,所述 目标采集规则包括对应关联关系以及数据采集路径的步骤包括:
将所述目标字段集合中的各个目标字段与所述预设采集库中的预设字段 集合进行匹配,并计算所述目标字段集合与所述预设字段集合的匹配度;
根据所述匹配度,判断所述预设采集库中是否存在与所述目标字段集合 匹配的目标采集规则,其中,与所述目标字段集合的匹配度不小于预设阈值 的预设字段集合对应的采集规则为所述目标采集规则。
可选地,所述根据所述匹配度,判断所述预设采集库中是否存在与所述 目标字段集合匹配的目标采集规则,其中,与所述目标字段集合的匹配度不 小于预设阈值的预设字段集合对应的采集规则为所述目标采集规则的步骤之 后,还包括:
若判定所述预设采集库中不存在所述目标采集规则,则获取与所述目标 字段集合的匹配度最大的预设字段集合,作为相关字段集合;
获取所述相关字段集合对应的采集规则,作为相关采集规则,并将所述 相关采集规则推送至当前终端,以便用户参考。
可选地,所述若判定所述预设采集库中存在所述目标采集规则,则根据 所述相关表格标识,确定对应的目标表单,将所述目标表单中的表格进行关 联的步骤包括:
若所述预设采集库中存在所述目标采集规则,则获取所述目标采集规则 的规则数目,并判断所述规则数目是否唯一;
若所述规则数目唯一,则根据所述目标采集规则中的相关表格标识,确 定对应的目标表单,将所述目标表单中的表格进行关联。
可选地,所述若所述预设采集库中存在所述目标采集规则,则获取所述 目标采集规则的规则数目,并判断所述规则数目是否唯一的步骤之后,还包 括:
若所述规则数目不唯一,则获取所述目标采集规则中的待定采集规则以 及对应的匹配度;
根据所述匹配度大小,将所述待定采集规则进行排序,生成并显示对应 的待定采集规则列表;
基于所述待定采集规则列表,接收用户选择操作触发的选择指令,并根 据所述选择指令,在所述待定采集规则列表中确定目标采集规则。
可选地,所述若所述预设采集库中存在所述目标采集规则,则获取所述 目标采集规则的规则数目,并判断所述规则数目是否唯一的步骤之后,还包 括:
若所述规则数目不唯一,则获取所述目标采集规则中的各个采集规则, 作为待选采集规则;
根据所述待选采集规则中表格标识,确定所述各个待选采集规则对应的 表格数量,并获取表格数量最小的待选采集规则,作为目标采集规则。
可选地,所述将所述目标字段集合与预设采集库进行匹配,判断所述预 设采集库中是否存在与所述目标字段集合匹配的目标采集规则,其中,所述 目标采集规则包括相关表格标识以及数据采集路径的步骤之后,还包括:
若判定所述预设采集库中不存在所述目标采集规则,则将所述目标字段 集合上报至预设处理端;
在接收到所述预设处理端反馈的采集规则时,将所述预设处理端反馈的 采集规则作为目标采集规则,并将所述目标字段集合和所述目标采集规则对 应存储至所述预设采集库,以更新所述预设采集库。
此外,为实现上述目的,本发明还提供一种数据采集装置,所述数据采 集装置包括:
表格生成模块,用于在接收到业务需求时,获取所述业务需求中的目标 字段集合,并根据所述目标字段集合生成采集目的表;
规则判断模块,用于将所述目标字段集合与预设采集库进行匹配,判断 所述预设采集库中是否存在与所述目标字段集合匹配的目标采集规则,其中, 所述目标采集规则包括相关表格标识以及数据采集路径;
表格关联模块,用于若判定所述预设采集库中存在所述目标采集规则, 则根据所述相关表格标识,确定对应的目标表单,将所述目标表单中的表格 进行关联;
数据采集模块,用于根据所述数据采集路径,在所述目标表单的关联表 格中获取所述目标字段集合对应的目标数据,并将所述目标数据存储至所述 采集目的表。
此外,为实现上述目的,本发明还提供一种数据采集设备,所述数据采 集设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执 行的数据采集程序,其中所述数据采集程序被所述处理器执行时,实现如上 述的数据采集方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,其特 征在于,所述计算机可读存储介质上存储有数据采集程序,其中所述数据采 集程序被处理器执行时,实现如上述的数据采集方法的步骤。
本发明提供一种数据采集方法,即在接收到业务需求时,获取所述业务 需求中的目标字段集合,并根据所述目标字段集合生成采集目的表;将所述 目标字段集合与预设采集库进行匹配,判断所述预设采集库中是否存在与所 述目标字段集合匹配的目标采集规则,其中,所述目标采集规则包括相关表 格标识以及数据采集路径;若判定所述预设采集库中存在所述目标采集规则, 则根据所述相关表格标识,确定对应的目标表单,将所述目标表单中的表格 进行关联;根据所述数据采集路径,在所述目标表单的关联表格中获取所述 目标字段集合对应的目标数据,并将所述目标数据存储至所述采集目的表。 通过上述方式,本发明实现了目标数据的自动采集,节省了人力,提升采集 效率,解决了现有采集数据技术浪费人力以及效率低下的问题。
附图说明
图1为本发明实施例方案中涉及的数据采集设备的硬件结构示意图;
图2为本发明数据采集方法第一实施例的流程示意图;
图3为本发明数据采集方法第二实施例的流程示意图;
图4为本发明数据采集方法第三实施例的流程示意图;
图5为本发明数据采集装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步 说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限 定本发明。
本发明实施例涉及的数据采集方法主要应用于数据采集设备,该数据采 集设备可以是PC、便携计算机、移动终端等具有显示和处理功能的设备。
参照图1,图1为本发明实施例方案中涉及的数据采集设备的硬件结构示 意图。本发明实施例中,数据采集设备可以包括处理器1001(例如CPU), 通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信 总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示 屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以 包括标准的有线接口、无线接口(如WI-FI接口);存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存 储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的硬件结构并不构成对数据采集 设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者 不同的部件布置。
继续参照图1,图1中作为一种计算机可读存储介质的存储器1005可以 包括操作系统、网络通信模块以及数据采集程序。
在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信; 而处理器1001可以调用存储器1005中存储的数据采集程序,并执行本发明 实施例提供的数据采集方法。
本发明实施例提供了一种数据采集方法。
参照图2,图2为本发明数据采集方法第一实施例的流程示意图。
本实施例中,所述数据采集方法包括以下步骤:
步骤S10,在接收到业务需求时,获取所述业务需求中的目标字段集合, 并根据所述目标字段集合生成采集目的表;
目前,日常工作中,业务用户经常需要大量的数据做统计分析,由于不 同的用户需求有差异且需求变化太快,无法都通过报表支持,很多情况都是 通过数据采集提取数据。处理人需对用户的每个数据采集做分析、编写脚本, 一个采集耗费非常多人力。同时考虑到工作平衡和处理人休假的情况,一般 用户的采集需求都是系统根据处理人的工作量随机的分配给处理人,会出现A 处理过的采集,B收到类似的采集时需要重复投入人力进行分析和脚本的编 写,而且由于处理人的技能问题、有些采集逻辑非常复杂等,容易出现编写 的脚本有问题,引发数据库资源浪费和异常的风险。
本实施例中,为了避免上述问题,建立一个数据采集平台,将用户的采 集需求信息(即需要采集数据对应的字段信息)记录下来。处理人在根据待 采集数据确定对应的字段信息时,分析源数据库中各个表单信息,确定可采 集所述字段信息的目标表单。其中,优先从一个表单中获取目标数据,或者 尽量降低目标数据的表单来源数量。然后获取的表单名称或者表单所在源数 据库中地址,作为数据采集路径。若需要从多个表单中获取目标数据,则将 所述多个表单进行关联,并根据所述数据采集路径和对应关联关系生成目标 采集规则。然后将所述目标数据对应的目标字段集合与该目标采集规则对应 存储至预设采集库中。具体地,在接收到用户上传的业务需求时,对所述业 务需求进行解析,获取所述业务需求中的目标字段集合。然后根据所述目标 字段集合生成对应的采集目的表,其中,采集目的表用户存储所述业务需求 对应的目标数据。确定待采集的目标字段集合后,将所述目标字段集合中的 目标字段与所述预设采集库进行匹配,从而判断所述预设采集库中是否存在 所述目标字段对应的目标采集规则。
步骤S20,将所述目标字段集合与预设采集库进行匹配,判断所述预设采 集库中是否存在与所述目标字段集合匹配的目标采集规则,其中,所述目标 采集规则包括相关表格标识以及数据采集路径;
本实施例中,若所述预设采集库中存在与所述目标字段集合匹配的采集 规则,即表示所述预设采集库中预先存储有与所述目标字段集合相匹配的字 段集合。其中,与所述目标字段集合相匹配的字段集合可以是与目标字段集 合相同的字段集合,也可以是与目标字段集合类似的字段集合。与目标字段 集合相同的字段集合为:有且只有与所述目标字段集合中的字段相同的字段, 且字段名称均相同。与目标字段集合类似的字段集合为:有且只有与所述目 标字段集合中的字段等同的字段。由于数据字段可能具有多种不同名称,预 先在预设采集库中将各个字段对应的各个名称进行等同存储。等同的字段为 具有不同名称但对应于同一字段的字段。然后在所述预设采集库中获取与所 述目标字段集合匹配的字段集合对应的采集规则,并将该采集规则作为目标 采集规则。根据所述目标采集规则,在对应的关联表单中,采集对应目标数 据,并将所述目标数据存储至目的表中。如,接收到获取保单数据获取需求 时,解析出所述保单数据获取需求中的保单号、保单费、保单日期、承保人、 投保人以及赔偿金额等字段,并根据上述字段生成目标字段集合。将{保单号, 保单费,保单日期,承保人,投保人,赔偿金额}与预设采集库中的字段集合 进行比较,判断所述预设采集库中是否存在与所述{保单费,保单日期,承保 人,投保人,赔偿金额}目标字段集合匹配的字段集合。若存在该匹配的字段 集合,则获取该匹配的字段集合对应的采集规则,作为目标采集规则。并按 照该目标采集规则获取对应数据,并存储至目的表中。
步骤S30,若判定所述预设采集库中存在所述目标采集规则,则根据所述 相关表格标识,确定对应的目标表单,将所述目标表单中的表格进行关联;
本实施例中,若在所述预设采集库中存在所述目标采集规则,则对所述 目标采集规则进行解析,获取所述目标采集规则中的相关表格标识和数据采 集路径。其中,相关表格标识为需要采集该业务需求对应的目标字段集合需 要调用的表格标识,该标识可以是表格名称或者表格编号。在确定所述目标 字段集合对应的相关表格标识时,确定对应的目标表单,即包括可获取全部 目标字段的所有表格清单,并将所述目标表单中的各个表格进行关联,以便 后续进行对应字段数据的获取。其中,所述目标表单可以存储表格标识,也可以是直接获取相应的表格进行存储。
步骤S40,根据所述数据采集路径,在所述目标表单的关联表格中获取所 述目标字段集合对应的目标数据,并将所述目标数据存储至所述采集目的表。
本实施例中,在所述目标采集规则中解析出数据采集路径。其中,数据 采集路径为相关表格标识对应表格的存储地址,以及获取目标字段集合中字 段的获取顺序,或者获取所述目标字段集合中字段的获取流程等。可根据所 述数据采集路径中的表格存储地址,定位至对应表格,并按照所述数据采集 路径中的采集流程,分别获取所述目标字段集合中的各个字段数据。并将采 集到的目标字段集合对应的目标数据,根据字段格式对应存储至所述采集目 的表中,并将所述采集目的表反馈至对应用户。
本实施例提供一种数据采集方法,即在接收到业务需求时,获取所述业 务需求中的目标字段集合,并根据所述目标字段集合生成采集目的表;将所 述目标字段集合与预设采集库进行匹配,判断所述预设采集库中是否存在与 所述目标字段集合匹配的目标采集规则,其中,所述目标采集规则包括相关 表格标识以及数据采集路径;若判定所述预设采集库中存在所述目标采集规 则,则根据所述相关表格标识,确定对应的目标表单,将所述目标表单中的 表格进行关联;根据所述数据采集路径,在所述目标表单的关联表格中获取所述目标字段集合对应的目标数据,并将所述目标数据存储至所述采集目的 表。通过上述方式,本发明实现了目标数据的自动采集,节省了人力,提升 采集效率,解决了现有采集数据技术浪费人力以及效率低下的问题。
参照图3,图3为本发明数据采集方法第二实施例的流程示意图。
基于上述图2所示实施例,本实施例中,所述步骤S20包括:
步骤S21,将所述目标字段集合中的各个目标字段与所述预设采集库中的 预设字段集合进行匹配,并计算所述目标字段集合与所述预设字段集合的匹 配度;
步骤S22,根据所述匹配度,判断所述预设采集库中是否存在与所述目标 字段集合匹配的目标采集规则,其中,与所述目标字段集合的匹配度不小于 预设阈值的预设字段集合对应的采集规则为所述目标采集规则。
本实施例中,计算所述预设采集库中各个预设字段集合与所述业务需求 对应的目标字段集合对应的匹配度。具体步骤为:依次获取所述预设采集库 中的各个预设字段集合,并将所述目标字段集合中的各个目标字段与预设字 段集合中的各个字段进行匹配,且一个预设字段集合为一匹配单位。获取所 述目标字段集合与各个预设字段集合的相匹配字段个数,并将所述相匹配字 段个数除以所述目标字段集合中的字段个数,即得到所述目标字段集合与各 个预设字段集合的匹配度。设定一预设阈值即匹配度阈值,如100%,若存在 等于所述预设阈值的匹配度,即判定至少存在某个预设字段集合与所述目标 字段集合中的各个目标字段均匹配。若不存在等于所述预设阈值的匹配度, 即判定所述预设采集库中的预设采集集合均不符合所述目标字段集合。具体 实施例中,进一步获取所述目标字段集合以及预设字段集合对应的字段数目, 在存在多个符合条件的预设字段集合时,优先获取与所述目标字段集合字段 数目相同的预设字段集合作为对应字段集合,从而增加目标采集规则的精确 度。
进一步地,步骤S20之后,还包括:
若判定所述预设采集库中不存在所述目标采集规则,则获取与所述目标 字段集合的匹配度最大的预设字段集合,作为相关字段集合;
获取所述相关字段集合对应的采集规则,作为相关采集规则,并将所述 相关采集规则推送至当前终端,以便用户参考。
本实施例中,若判定所述预设采集库中不存在与所述目标字段集合相符 的预设字段集合,即判定不存在与所述目标字段集合匹配的所述目标采集规 则。为了便于技术人员参考,可获取在所述预设采集库中获取与所述目标字 段集合的匹配度最大的预设字段集合,并将该预设字段集合设置为相关字段 集合。该相关字段集合具有与目标字段集合相近的采集规则,在所述预设采 集库中获取所述相关字段集合对应的采集规则,作为相关采集规则,并将所 述相关采集规则推送至所述用户进行参考。该相关字段集合可以为具有所述 目标字段集合中的大部分字段的字段集合。
参照图4,图4为本发明数据采集方法第三实施例的流程示意图。
基于上述图3所示实施例,本实施例中,所述步骤S30包括:
步骤S31,若所述预设采集库中存在所述目标采集规则,则获取所述目标 采集规则的规则数目,并判断所述规则数目是否唯一;
步骤S32,若所述规则数目不唯一,则获取所述目标采集规则中的待定采 集规则以及对应的匹配度;
步骤S33,根据所述匹配度大小,将所述待定采集规则进行排序,生成并 显示对应的待定采集规则列表;
步骤S34,基于所述待定采集规则列表,接收用户选择操作触发的选择指 令,并根据所述选择指令,在所述待定采集规则列表中确定目标采集规则。
进一步地,所述步骤S30还包括:
步骤S35,若所述规则数目唯一,则根据所述目标采集规则中的相关表格 标识,确定对应的目标表单,将所述目标表单中的表格进行关联。
本实施例中,为了避免一个预设字段集合对应多个采集规则,在确定所 述预设采集库中存在所述目标采集规则后,进一步获取所述目标采集规则的 规则数目。判断所述目标采集规则的规则数目是否唯一,若所述规则数目不 唯一,即表示所述预设采集库中存在多个采集规则可获取所述目标字段集合 中的目标数据。根据上述实施例中所述目标字段集合与各个预设字段集合的 匹配度大小,如按照由大到小的顺序,将符合要求的目标采集规则中的采集 规则进行排序,然后进一步根据所述排序和所述待定采集规则生成对应的待 定采集规则列表,并通过对应终端进行显示,以便用户根据需用进行选择。 在接收到用户选择操作触发的选择指令时,获取所述选择指令中的采集规则 标识,并根据所述采集规则标识将该采集规则设定为目标采集规则。若所述 规则数目唯一,即所述目标采集规则即为唯一选择,根据所述目标采集规则 确定对应的相关表格标识,建立目标表单,并将所述目标表单中的各个表格 进行关联,便于后续采集数据。
进一步地,所述步骤S33之后,还可以包括:
若所述规则数目不唯一,则获取所述目标采集规则中的各个采集规则, 作为待选采集规则;
根据所述待选采集规则中表格标识,确定所述各个待选采集规则对应的 表格数量,并获取表格数量最小的待选采集规则,作为目标采集规则。
本实施例中,优先从较少的表格中获取目标数据,即在所述规则数目不 唯一时,获取所述目标采集规则中的各个采集规则,作为待选采集规则。然 后获取各个待选采集规则中的表格标识,即一个表格标识对应一个表格,通 过所述表格标识可确定所述待选采集规则中的表格数量。具体实施例中,可 根据所述表格数量的大小,如由小到大,将各个待选采集规则进行排序,并 选取表格数量最小的待选采集规则,作为目标采集规则,以提高数据获取效 率。
进一步地,所述数据采集方法还包括:
若判定所述预设采集库中不存在所述目标采集规则,则将所述目标字段 集合上报至预设处理端;
在接收到所述预设处理端反馈的采集规则时,将所述预设处理端反馈的 采集规则作为目标采集规则,并将所述目标字段集合和所述目标采集规则对 应存储至所述预设采集库,以更新所述预设采集库。
本实施例中,该预设采集库为根据数据采集的历史记录,即将用户的采 集需求、对应编写的脚本以及对应的采集字段信息均记录下来,然后对上述 记录数据进行分析、标签以及归类而形成的。因此,若在所述预设采集库中 不存在与所述目标字段集合对应的目标采集规则,即表示数据采集平台中未 存储有对应的采集规则。可将所述目标字段集合或者将整个业务需求上报至 预设处理端,该预设处理端为对应的技术人员所使用的处理端,以将所述目 标字段集合上报至对应处理系统进行人工编写对应的采集规则。具体实施例中,所述数据采集平台可将与所述目标字段集合匹配度最大的相关字段集合 以及对应的相关采集规则一同上报至所述预设处理端,以便所述技术人员进 行参考。然后在接收到所述预设处理端反馈的采集规则时,将所述反馈的采 集规则作为目标采集规则,根据所述目标采集规则采集对应的目标数据,并 将存储有目的数据的采集目的表反馈至用户。然后将所述目标字段集合以及 所述预设处理端反馈的采集规则对应存储至所述预设采集库中,从而更新所 述预设采集库中的存储数据。
此外,本发明实施例还提供一种数据采集装置。
参照图5,图5为本发明数据采集装置第一实施例的功能模块示意图。
本实施例中,所述数据采集装置包括:
表格生成模块10,用于在接收到业务需求时,获取所述业务需求中的目 标字段集合,并根据所述目标字段集合生成采集目的表;
规则判断模块20,用于将所述目标字段集合与预设采集库进行匹配,判 断所述预设采集库中是否存在与所述目标字段集合匹配的目标采集规则,其 中,所述目标采集规则包括相关表格标识以及数据采集路径;
表格关联模块30,用于若判定所述预设采集库中存在所述目标采集规则, 则根据所述相关表格标识,确定对应的目标表单,将所述目标表单中的表格 进行关联;
数据采集模块40,用于根据所述数据采集路径,在所述目标表单的关联 表格中获取所述目标字段集合对应的目标数据,并将所述目标数据存储至所 述采集目的表。
进一步地,所述规则判断模块20具体包括:
匹配度计算单元,用于将所述目标字段集合中的各个目标字段与所述预 设采集库中的预设字段集合进行匹配,并计算所述目标字段集合与所述预设 字段集合的匹配度;
规则判断单元,用于根据所述匹配度,判断所述预设采集库中是否存在 与所述目标字段集合匹配的目标采集规则,其中,与所述目标字段集合的匹 配度不小于预设阈值的预设字段集合对应的采集规则为所述目标采集规则。
进一步的,所述数据采集装置还包括:
字段获取单元,用于若判定所述预设采集库中不存在所述目标采集规则, 则获取与所述目标字段集合的匹配度最大的预设字段集合,作为相关字段集 合;
规则推送单元,用于获取所述相关字段集合对应的采集规则,作为相关 采集规则,并将所述相关采集规则推送至当前终端,以便用户参考。
进一步地,所述表格关联模块30包括:
数目判断单元,用于若所述预设采集库中存在所述目标采集规则,则获 取所述目标采集规则的规则数目,并判断所述规则数目是否唯一;
第一规则获取单元,用于若所述规则数目不唯一,则获取所述目标采集 规则中的待定采集规则以及对应的匹配度;
规则排序单元,用于根据所述匹配度大小,将所述待定采集规则进行排 序,生成并显示对应的待定采集规则列表;
规则选择单元,用于基于所述待定采集规则列表,接收用户选择操作触 发的选择指令,并根据所述选择指令,在所述待定采集规则列表中确定目标 采集规则。
表单确定单元,用于若所述规则数目唯一,则根据所述目标采集规则中 的相关表格标识,确定对应的目标表单,将所述目标表单中的表格进行关联。
进一步地,所述数据采集装置还包括:
第二规则获取单元,用于若所述规则数目不唯一,则获取所述目标采集 规则中的各个采集规则,作为待选采集规则;
数量确定单元,用于根据所述待选采集规则中表格标识,确定所述各个 待选采集规则对应的表格数量,并获取表格数量最小的待选采集规则,作为 目标采集规则。
进一步地,所述数据采集装置还包括:
上报单元,用于若判定所述预设采集库中不存在所述目标采集规则,则 将所述目标字段集合上报至预设处理端;
更新单元,用于在接收到所述预设处理端反馈的采集规则时,将所述预 设处理端反馈的采集规则作为目标采集规则,并将所述目标字段集合和所述 目标采集规则对应存储至所述预设采集库,以更新所述预设采集库。
其中,上述数据采集装置中各个模块与上述数据采集方法实施例中各步 骤相对应,其功能和实现过程在此处不再一一赘述。
此外,本发明实施例还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有数据采集程序,其中所述数据采集 程序被处理器执行时,实现如上述的数据采集方法的步骤。
其中,数据采集程序被执行时所实现的方法可参照本发明数据采集方法 的各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在 涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系 统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括 为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下, 由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物 品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的 技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、 磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机, 服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是 利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间 接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种数据采集方法,其特征在于,所述数据采集方法包括以下步骤:
在接收到业务需求时,获取所述业务需求中的目标字段集合,并根据所述目标字段集合生成采集目的表;
将所述目标字段集合与预设采集库进行匹配,判断所述预设采集库中是否存在与所述目标字段集合匹配的目标采集规则,其中,所述目标采集规则包括相关表格标识以及数据采集路径;
若判定所述预设采集库中存在所述目标采集规则,则根据所述相关表格标识,确定对应的目标表单,将所述目标表单中的表格进行关联;
根据所述数据采集路径,在所述目标表单的关联表格中获取所述目标字段集合对应的目标数据,并将所述目标数据存储至所述采集目的表。
2.如权利要求1所述的数据采集方法,其特征在于,所述将所述目标字段集合与预设采集库进行匹配,判断所述预设采集库中是否存在与所述目标字段集合匹配的目标采集规则,其中,所述目标采集规则包括对应关联关系以及数据采集路径的步骤包括:
将所述目标字段集合中的各个目标字段与所述预设采集库中的预设字段集合进行匹配,并计算所述目标字段集合与所述预设字段集合的匹配度;
根据所述匹配度,判断所述预设采集库中是否存在与所述目标字段集合匹配的目标采集规则,其中,与所述目标字段集合的匹配度不小于预设阈值的预设字段集合对应的采集规则为所述目标采集规则。
3.如权利要求2所述的数据采集方法,其特征在于,所述根据所述匹配度,判断所述预设采集库中是否存在与所述目标字段集合匹配的目标采集规则,其中,与所述目标字段集合的匹配度不小于预设阈值的预设字段集合对应的采集规则为所述目标采集规则的步骤之后,还包括:
若判定所述预设采集库中不存在所述目标采集规则,则获取与所述目标字段集合的匹配度最大的预设字段集合,作为相关字段集合;
获取所述相关字段集合对应的采集规则,作为相关采集规则,并将所述相关采集规则推送至当前终端,以便用户参考。
4.如权利要求2所述的数据采集方法,其特征在于,所述若判定所述预设采集库中存在所述目标采集规则,则根据所述相关表格标识,确定对应的目标表单,将所述目标表单中的表格进行关联的步骤包括:
若所述预设采集库中存在所述目标采集规则,则获取所述目标采集规则的规则数目,并判断所述规则数目是否唯一;
若所述规则数目唯一,则根据所述目标采集规则中的相关表格标识,确定对应的目标表单,将所述目标表单中的表格进行关联。
5.如权利要求4所述的数据采集方法,其特征在于,所述若所述预设采集库中存在所述目标采集规则,则获取所述目标采集规则的规则数目,并判断所述规则数目是否唯一的步骤之后,还包括:
若所述规则数目不唯一,则获取所述目标采集规则中的待定采集规则以及对应的匹配度;
根据所述匹配度大小,将所述待定采集规则进行排序,生成并显示对应的待定采集规则列表;
基于所述待定采集规则列表,接收用户选择操作触发的选择指令,并根据所述选择指令,在所述待定采集规则列表中确定目标采集规则。
6.如权利要求4所述的数据采集方法,其特征在于,所述若所述预设采集库中存在所述目标采集规则,则获取所述目标采集规则的规则数目,并判断所述规则数目是否唯一的步骤之后,还包括:
若所述规则数目不唯一,则获取所述目标采集规则中的各个采集规则,作为待选采集规则;
根据所述待选采集规则中表格标识,确定所述各个待选采集规则对应的表格数量,并获取表格数量最小的待选采集规则,作为目标采集规则。
7.如权利要求1至6中任一项所述的数据采集方法,其特征在于,所述将所述目标字段集合与预设采集库进行匹配,判断所述预设采集库中是否存在与所述目标字段集合匹配的目标采集规则,其中,所述目标采集规则包括相关表格标识以及数据采集路径的步骤之后,还包括:
若判定所述预设采集库中不存在所述目标采集规则,则将所述目标字段集合上报至预设处理端;
在接收到所述预设处理端反馈的采集规则时,将所述预设处理端反馈的采集规则作为目标采集规则,并将所述目标字段集合和所述目标采集规则对应存储至所述预设采集库,以更新所述预设采集库。
8.一种数据采集装置,其特征在于,所述数据采集装置包括:
表格生成模块,用于在接收到业务需求时,获取所述业务需求中的目标字段集合,并根据所述目标字段集合生成采集目的表;
规则判断模块,用于将所述目标字段集合与预设采集库进行匹配,判断所述预设采集库中是否存在与所述目标字段集合匹配的目标采集规则,其中,所述目标采集规则包括相关表格标识以及数据采集路径;
表格关联模块,用于若判定所述预设采集库中存在所述目标采集规则,则根据所述相关表格标识,确定对应的目标表单,将所述目标表单中的表格进行关联;
数据采集模块,用于根据所述数据采集路径,在所述目标表单的关联表格中获取所述目标字段集合对应的目标数据,并将所述目标数据存储至所述采集目的表。
9.一种数据采集设备,其特征在于,所述数据采集设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的数据采集程序,其中所述数据采集程序被所述处理器执行时,实现如权利要求1至7中任一项所述的数据采集方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据采集程序,其中所述数据采集程序被处理器执行时,实现如权利要求1至7中任一项所述的数据采集方法的步骤。
CN201810794561.1A 2018-07-19 2018-07-19 数据采集方法、装置、设备及存储介质 Active CN110019486B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810794561.1A CN110019486B (zh) 2018-07-19 2018-07-19 数据采集方法、装置、设备及存储介质
PCT/CN2018/103791 WO2020015067A1 (zh) 2018-07-19 2018-09-03 数据采集方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810794561.1A CN110019486B (zh) 2018-07-19 2018-07-19 数据采集方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110019486A true CN110019486A (zh) 2019-07-16
CN110019486B CN110019486B (zh) 2023-04-11

Family

ID=67188353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810794561.1A Active CN110019486B (zh) 2018-07-19 2018-07-19 数据采集方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN110019486B (zh)
WO (1) WO2020015067A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399463A (zh) * 2019-07-29 2019-11-01 国网河北省电力有限公司 工作票的相似度匹配方法及装置
CN110502513A (zh) * 2019-08-15 2019-11-26 中国平安财产保险股份有限公司 数据采集方法、装置、设备及计算机可读存储介质
CN110502515A (zh) * 2019-08-15 2019-11-26 中国平安财产保险股份有限公司 数据采集方法、装置、设备及计算机可读存储介质
CN111191052A (zh) * 2019-12-24 2020-05-22 广州索答信息科技有限公司 一种数据采集方法、设备及介质
CN111667923A (zh) * 2020-06-05 2020-09-15 医渡云(北京)技术有限公司 数据匹配方法、装置、计算机可读介质及电子设备
CN111767703A (zh) * 2020-06-28 2020-10-13 山东浪潮通软信息科技有限公司 表单数据采集方法、装置和系统
CN111967232A (zh) * 2020-08-20 2020-11-20 深圳前海微众银行股份有限公司 表格数据处理方法、装置、设备与计算机可读存储介质
CN112131239A (zh) * 2020-09-30 2020-12-25 腾讯科技(深圳)有限公司 一种数据处理方法、计算机设备以及可读存储介质
CN112509653A (zh) * 2020-10-29 2021-03-16 望海康信(北京)科技股份公司 病案数据处理方法、系统及相应设备和存储介质
CN112597927A (zh) * 2020-12-28 2021-04-02 电子科技大学 二维表格识别方法、装置、设备及系统
CN112653588A (zh) * 2020-07-10 2021-04-13 深圳市唯特视科技有限公司 自适应网络流量采集方法、系统、电子设备及存储介质
CN113760891A (zh) * 2020-12-02 2021-12-07 北京沃东天骏信息技术有限公司 一种数据表的生成方法、装置、设备和存储介质
CN115277778A (zh) * 2022-07-29 2022-11-01 平安科技(深圳)有限公司 物联网系统的配置方法及装置、电子设备、存储介质
CN117708131A (zh) * 2023-12-19 2024-03-15 河北网星软件有限公司 数据采集方法及数据采集平台

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111239523B (zh) * 2020-02-21 2022-01-25 江西三晶电气有限公司 一种变频器测试系统、方法、装置和存储介质
CN111651466B (zh) * 2020-05-09 2023-07-25 杭州数梦工场科技有限公司 数据采样方法及装置
CN112100495B (zh) * 2020-09-14 2024-04-16 山东亿云信息技术有限公司 一种基于分布式的一站式采集方法及采集系统
CN112487022B (zh) * 2020-11-30 2024-04-16 珠海格力电器股份有限公司 关联数据的采集方法、系统、存储介质及电子设备
CN113407536B (zh) * 2021-06-10 2024-05-31 平安科技(深圳)有限公司 表数据的关联方法、装置、终端设备及介质
CN114661513B (zh) * 2022-04-18 2024-01-23 广州菩润信息科技有限公司 分布式多源数据的采集方法、系统、设备及存储介质
CN116383205A (zh) * 2023-03-31 2023-07-04 佛山众陶联供应链服务有限公司 一种配置化读取采集数据的方法及装置
CN116415199B (zh) * 2023-04-13 2023-10-20 广东铭太信息科技有限公司 基于审计中间表的业务数据离群分析方法
CN117336326B (zh) * 2023-11-01 2024-07-02 深圳市正业玖坤信息技术有限公司 工业物联网的数据采集分析方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537131A (zh) * 2014-12-04 2015-04-22 上海卫星装备研究所 一种面向卫星总装过程的数据采集方法
US20150199378A1 (en) * 2012-06-29 2015-07-16 Nick Alex Lieven REYNTJEN Method and apparatus for realizing a dynamically typed file or object system enabling a user to perform calculations over the fields associated with the files or objects in the system
CN107330004A (zh) * 2017-06-12 2017-11-07 上海连源信息科技有限公司 一种基于url字符串的数据采集方法
CN107784113A (zh) * 2017-11-08 2018-03-09 深圳市科盾科技有限公司 Html网页数据采集方法、装置和计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7801913B2 (en) * 1998-12-07 2010-09-21 Oracle International Corporation System and method for querying data for implicit hierarchies
CN103309886B (zh) * 2012-03-13 2017-05-10 阿里巴巴集团控股有限公司 一种基于交易平台的结构化信息搜索方法和装置
CN103150401B (zh) * 2013-03-27 2017-03-08 领航动力信息系统有限公司 一种基于MapReduce的字段整体替换方法
CN106778288B (zh) * 2015-11-24 2019-08-09 阿里巴巴集团控股有限公司 一种数据脱敏的方法及系统
CN107807977B (zh) * 2017-10-26 2020-04-03 河海大学 一种基于配置的对象属性元数据抽取系统
CN108228740A (zh) * 2017-12-15 2018-06-29 国网青海省电力公司信息通信公司 电力全业务统一数据中心数据分析域数据比对工具

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150199378A1 (en) * 2012-06-29 2015-07-16 Nick Alex Lieven REYNTJEN Method and apparatus for realizing a dynamically typed file or object system enabling a user to perform calculations over the fields associated with the files or objects in the system
CN104537131A (zh) * 2014-12-04 2015-04-22 上海卫星装备研究所 一种面向卫星总装过程的数据采集方法
CN107330004A (zh) * 2017-06-12 2017-11-07 上海连源信息科技有限公司 一种基于url字符串的数据采集方法
CN107784113A (zh) * 2017-11-08 2018-03-09 深圳市科盾科技有限公司 Html网页数据采集方法、装置和计算机可读存储介质

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399463A (zh) * 2019-07-29 2019-11-01 国网河北省电力有限公司 工作票的相似度匹配方法及装置
CN110502513A (zh) * 2019-08-15 2019-11-26 中国平安财产保险股份有限公司 数据采集方法、装置、设备及计算机可读存储介质
CN110502515A (zh) * 2019-08-15 2019-11-26 中国平安财产保险股份有限公司 数据采集方法、装置、设备及计算机可读存储介质
CN110502515B (zh) * 2019-08-15 2023-06-20 中国平安财产保险股份有限公司 数据采集方法、装置、设备及计算机可读存储介质
CN111191052A (zh) * 2019-12-24 2020-05-22 广州索答信息科技有限公司 一种数据采集方法、设备及介质
CN111191052B (zh) * 2019-12-24 2023-12-22 广州索答信息科技有限公司 一种数据采集方法、设备及介质
CN111667923A (zh) * 2020-06-05 2020-09-15 医渡云(北京)技术有限公司 数据匹配方法、装置、计算机可读介质及电子设备
CN111667923B (zh) * 2020-06-05 2022-11-18 医渡云(北京)技术有限公司 数据匹配方法、装置、计算机可读介质及电子设备
CN111767703A (zh) * 2020-06-28 2020-10-13 山东浪潮通软信息科技有限公司 表单数据采集方法、装置和系统
CN111767703B (zh) * 2020-06-28 2024-04-30 浪潮通用软件有限公司 表单数据采集方法、装置和系统
CN112653588A (zh) * 2020-07-10 2021-04-13 深圳市唯特视科技有限公司 自适应网络流量采集方法、系统、电子设备及存储介质
CN111967232A (zh) * 2020-08-20 2020-11-20 深圳前海微众银行股份有限公司 表格数据处理方法、装置、设备与计算机可读存储介质
CN112131239A (zh) * 2020-09-30 2020-12-25 腾讯科技(深圳)有限公司 一种数据处理方法、计算机设备以及可读存储介质
CN112509653A (zh) * 2020-10-29 2021-03-16 望海康信(北京)科技股份公司 病案数据处理方法、系统及相应设备和存储介质
CN113760891A (zh) * 2020-12-02 2021-12-07 北京沃东天骏信息技术有限公司 一种数据表的生成方法、装置、设备和存储介质
CN113760891B (zh) * 2020-12-02 2024-07-16 北京沃东天骏信息技术有限公司 一种数据表的生成方法、装置、设备和存储介质
CN112597927A (zh) * 2020-12-28 2021-04-02 电子科技大学 二维表格识别方法、装置、设备及系统
CN115277778A (zh) * 2022-07-29 2022-11-01 平安科技(深圳)有限公司 物联网系统的配置方法及装置、电子设备、存储介质
CN115277778B (zh) * 2022-07-29 2023-09-15 平安科技(深圳)有限公司 物联网系统的配置方法及装置、电子设备、存储介质
CN117708131A (zh) * 2023-12-19 2024-03-15 河北网星软件有限公司 数据采集方法及数据采集平台

Also Published As

Publication number Publication date
CN110019486B (zh) 2023-04-11
WO2020015067A1 (zh) 2020-01-23

Similar Documents

Publication Publication Date Title
CN110019486A (zh) 数据采集方法、装置、设备及存储介质
CN110292775B (zh) 获取差异数据的方法及装置
US9171072B2 (en) System and method for real-time dynamic measurement of best-estimate quality levels while reviewing classified or enriched data
CN102880687B (zh) 基于标签技术的个人交互数据检索方法及其系统
CN107957940B (zh) 一种测试日志处理方法、系统及终端
CN111611458A (zh) 大数据治理中基于元数据和数据分析技术实现系统数据架构梳理的方法
US20170109636A1 (en) Crowd-Based Model for Identifying Executions of a Business Process
US20150039652A1 (en) Systems and methods for automated analysis, screening and reporting of group performance
CN103678446B (zh) 基于数据视图和数据库表的改进的模式映射
WO2012080077A1 (en) Cleansing a database system to improve data quality
CN109684332A (zh) 一种数据宽表生成方法、装置及系统
CN109298882A (zh) 接口的管理方法、计算机可读存储介质和终端设备
CN110134663B (zh) 组织结构数据处理方法、装置、电子设备
CN110399377A (zh) Sql的优化方法、装置、电子设备及计算机可读存储介质
CN105095479A (zh) 一种移动终端及其实现照片分类管理的方法
CN110222203A (zh) 元数据搜索方法、装置、设备及计算机可读存储介质
CN106920070A (zh) 一种简历收集方法、装置及系统
US10963963B2 (en) Rule based hierarchical configuration
CN114253995A (zh) 数据溯源方法、装置、设备及计算机可读存储介质
US10360208B2 (en) Method and system of process reconstruction
CN109189849A (zh) 一种标准化、流程化的数据录入方法和系统
CN115905371A (zh) 数据趋势分析方法、装置、设备及计算机可读存储介质
TW202006617A (zh) 雲端自助分析平台與其分析方法
CN110263082B (zh) 数据库的数据分布分析方法、装置、电子设备及存储介质
CN114610308A (zh) 应用功能布局的调整方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant