CN112507353A - 一种数据提取方法及装置 - Google Patents

一种数据提取方法及装置 Download PDF

Info

Publication number
CN112507353A
CN112507353A CN202011374552.0A CN202011374552A CN112507353A CN 112507353 A CN112507353 A CN 112507353A CN 202011374552 A CN202011374552 A CN 202011374552A CN 112507353 A CN112507353 A CN 112507353A
Authority
CN
China
Prior art keywords
data
data extraction
extraction
analysis
query statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011374552.0A
Other languages
English (en)
Inventor
刘顺华
李宗飞
裴繁东
贠磊
樊隆庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongyuan Bank Co ltd
Original Assignee
Zhongyuan Bank Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongyuan Bank Co ltd filed Critical Zhongyuan Bank Co ltd
Priority to CN202011374552.0A priority Critical patent/CN112507353A/zh
Publication of CN112507353A publication Critical patent/CN112507353A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries

Abstract

本申请公开了一种数据提取方法及装置。所述方法包括:在接收数据提取方案时,对数据提取方案进行第一分析;在所述第一分析满足第一条件的情况下,将所述数据提取方案作为待提取方案;响应于根据所述数据提取方案的提取操作,对所述提取操作进行第二分析;在所述第二分析满足第二条件的情况下,进行数据提取;根据提取到的数据生成目标文件;将所述目标文件发送给提出数据提取请求的用户。采用本申请所提供的方案,在根据提取到的数据生成目标文件之后,可以将目标文件发送给提出数据提取请求的用户,从而将执行数据提取工作时的线下操作转换为线上操作,便于对用户行为进行追溯,提高了数据提取的安全性。

Description

一种数据提取方法及装置
技术领域
本申请涉及计算机领域,特别涉及一种数据提取方法及装置。
背景技术
在数据保密级别比较高的机构(如银行)中,执行数据提取工作的人员在进行数据提取时需要进行较为繁杂的线下操作,才能最终实现数据提取。具体的,执行数据提取工作的用户在接收到数据提取任务时,需要打印提数单,然后在规定时间内拿着提数单到生产变更间领取变更key;在领取到变更key后登陆堡垒机访问数据库管理软件;书写SQL脚本进行数据分析,并将最终数据生成的文件下载到本地;将下载到本地的文件拷贝至生产环境中的共享机上;申请专用U盘将文件拷出至个人电脑;通过邮箱或其他通讯软件将文件发送给发起数据提取申请的用户。
在上述数据提取过程中,执行数据提取工作的用户需要打印提数单、领取变更key、将文件拷贝到共享机、申请专用U盘、通过专用U盘将文件拷出到电脑、通过邮件方式发送给数据申请人,这一系列操作需要执行数据提取工作的用户进行线下操作,无法对用户的线下行为进行追溯,因此,无法准确获知执行数据提取工作的用户具体用包含所提取的数据的文件做了什么,安全性无法得到保障,因此,如何提供一种数据提取方式,将这些线下操作转换为线上操作,以提高数据提取的安全性,是一亟待解决的技术问题。
发明内容
本申请实施例的目的在于提供一种数据提取方法及装置。
为了解决上述技术问题,本申请的实施例采用了如下技术方案:一种数据提取方法,包括:
在接收数据提取方案时,对数据提取方案进行第一分析;
在所述第一分析满足第一条件的情况下,将所述数据提取方案作为待提取方案;
响应于根据所述数据提取方案的提取操作,对所述提取操作进行第二分析;
在所述第二分析满足第二条件的情况下,进行数据提取;
根据提取到的数据生成目标文件;
将所述目标文件发送给提出数据提取请求的用户。
本申请的有益效果在于:在根据提取到的数据生成目标文件之后,可以将目标文件发送给提出数据提取请求的用户,从而将执行数据提取工作时的线下操作转换为线上操作,便于对用户行为进行追溯,提高了数据提取的安全性。
在一个实施例中,所述对数据提取方案进行第一分析,包括:
将数据提取方案发送给审核用户;
根据审核用户的审核结果,确定所述第一分析是否满足第一条件。
在一个实施例中,当所述数据提取方案中包括查询语句时,所述对数据提取方案进行第一分析,包括:
对查询语句进行模拟查询;
根据模拟查询的结果,确定所述第一分析是否满足第一条件。
在一个实施例中,对所述提取操作进行第二分析,包括:
对提取操作对应的查询语句进行量化评价;
根据量化评价的结果,确定所述第二分析是否满足第二条件。
在一个实施例中,对提取操作对应的查询语句进行量化评价,包括:
根据所述语句确定所述提取操作所要提取的数据类型;
根据数据类型对所述提取操作对应的查询语句进行评分。
在一个实施例中,对提取操作对应的查询语句进行量化评价,包括:
根据所述提取操作对应的查询语句的格式和内容进行评分。
在一个实施例中,所述根据所述提取操作对应的查询语句的格式和内容进行评分,包括:
根据所述查询语句格式与数据库类型的匹配程度,和/或所述查询语句内容与标准语句的差异性进行评分,其中,匹配程度与评分正相关,差异性与评分负相关。
在一个实施例中,所述根据提取到的数据生成目标文件,包括:
判断数据提取方案中是否包括指定字段;
当包括指定字段,且所述指定字段属于预设字段时,判断所述指定字段的数目是否小于预设数目;
当所述指定字段的数目小于预设数目时,对除所述指定字段之外的其他预设字段对应的数据进行脱敏操作。
本申请还提供一种数据提取装置,包括:
第一分析模块,用于在接收数据提取方案时,对数据提取方案进行第一分析;
第二分析模块,用于响应于根据所述数据提取方案的提取操作,对所述提取操作进行第二分析;
提取模块,用于在所述第二分析满足第二条件的情况下,进行数据提取;
生成模块,用于根据提取到的数据生成目标文件;
发送模块,用于将所述目标文件发送给提出数据提取请求的用户。
在一个实施例中,当所述数据提取方案中包括查询语句时:
所述第一分析模块进一步配置为:对查询语句进行模拟查询;根据模拟查询的结果,确定所述第一分析是否满足第一条件;
或者
所述第二分析模块进一步配置为:对提取操作对应的查询语句进行量化评价;根据量化评价的结果,确定所述第二分析是否满足第二条件。
附图说明
图1为本申请实施例的一种数据提取方法的流程图;
图2为本申请实施例的一种数据提取方法的流程图;
图3为本申请实施例的一种数据提取方法的流程图;
图4为本申请实施例的一种数据提取装置的框图。
具体实施方式
此处参考附图描述本申请的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本申请的具体实施例;然而,应当理解,所申请的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本申请的相同或不同实施例中的一个或多个。
在数据保密级别比较高的机构(如银行)中,工作人员进行数据提取时需要进行较为繁杂的线下操作,才能最终实现数据提取。例如,地区银行业务人员进行数据提取时,需要执行以下步骤:1、通过向总行业务对接人员申请提数,并告知总行业务对接人员提数需求;2、总行业务对接人员在收到邮件时,通过办公系统发起提数申请流程,说明场景需求和所要提取的字段、提数时间和数据使用时间;3、本部门的审核人员对提数申请流程进行审批,审批后提交至数据银行的审核人员;4、数据银行审核人员审核通过后,指定提数方案编写人;5、提数方案编写人编写提数方案之后,提交至运营管理部门的审核人员;6、运营管理部门的审核人员审核通过后,发给执行数据提取工作的用户;7、执行数据提取工作的用户需要打印提数单,然后在规定时间内拿着提数单到生产变更间领取变更key;8、在领取到变更key后登陆堡垒机访问数据库管理软件;8、书写SQL脚本进行数据分析,并将最终数据生成的文件下载到本地;9、将下载到本地的文件拷贝至生产环境中的共享机上;10、申请专用U盘将文件拷出至个人电脑;11、通过邮箱或其他通讯软件将文件发送给数据申请人。
而在这一过程中,执行数据提取工作的用户需要打印提数单、领取变更key、将文件拷贝到共享机、申请专用U盘、通过专用U盘将文件拷出到电脑、通过邮件方式发送给数据申请人,这一系列操作需要执行数据提取工作的用户进行线下操作,无法对用户的线下行为进行追溯,因此,无法准确获知执行数据提取工作的用户具体用包含所提取的数据的文件做了什么,安全性无法得到保障,而且,用户执行如此多的线下操作,也需要付出很多的时间和工作量,因此,亟需提供一种数据提取方式,将这些线下操作转换为线上操作,以提高数据提取的安全性,并且简化执行数据提取工作的操作步骤,提升数据提取效率。为了解决上述技术问题,本申请提供一种数据提取方法,具体如下:
图1为本申请实施例的一种数据提取方法的流程图,该方法包括以下步骤S11-S16:
在步骤S11中,在接收数据提取方案时,对数据提取方案进行第一分析;
在步骤S12中,在第一分析满足第一条件的情况下,将数据提取方案作为待提取方案;
在步骤S13中,响应于根据数据提取方案的提取操作,对提取操作进行第二分析;
在步骤S14中,在第二分析满足第二条件的情况下,进行数据提取;
在步骤S15中,根据提取到的数据生成目标文件;
在步骤S16中,将目标文件发送给提出数据提取请求的用户。
本实施例中,在接收数据提取方案时,对数据提取方案进行第一分析;
具体的,该数据提取方案可以是由提述方案编写人发送的,以银行业务人员提出数据提取请求为例。分行业务人员进行数据提取时,通过向总行业务对接人员申请提数,并告知总行业务对接人员提数需求;2、总行业务对接人员在收到邮件时,通过办公系统发起提数申请流程,说明场景需求和所要提取的字段、提数时间和数据使用时间;3本部门的审核人员对提数申请流程进行审批,审批后提交至数据银行的审核人员;4、数据银行审核人员审核通过后,指定提数方案编写人;5、提数方案编写人编写提数方案之后,向系统发送提取方案,然后系统对该数据提取方案进行第一分析;
具体的,第一分析可以通过以下方式执行:
方式一
将数据提取方案发送给审核用户;
根据审核用户的审核结果,确定第一分析是否满足第一条件。
具体的,该审核用户可以是银行运营管理部门的领导岗用户,在该审核用户审核后,将审核结果发送给系统,系统基于审核用户的审核结果,确定第一分析是否满足第一条件,具体的,当审核结果为审核通过时,确定第一分析满足第一条件。当审核结果为审核不通过时,确定第一分析不满足第一条件。
方式二
当数据提取方案中包括查询语句时,对查询语句进行模拟查询;
根据模拟查询的结果,确定第一分析是否满足第一条件。
具体的,如果数据提取方案中包括查询语句。则可以对查询语句进行模拟查询,从而判断查询语句是否能够查询到所要查询的数据。此时,第一分析可以是指分析查询语句是否能够查询到所要查询的数据。如果能够查询到所要查询的数据,则确定第一分析满足第一条件,如果不能查询到说要查询的数据,则确定第一分析不满足第一条件。
在第一分析满足第一条件的情况下,将数据提取方案作为待提取方案;具体的在第1分析满足第1条件的情况下,可以确定该数据提取方案是合法的,可以将数据该提取方案作为待提取方案,此时审核用户可以将数据提取方案发送给具体执行数据提取工作的用户。
响应于根据数据提取方案的提取操作,对提取操作进行第二分析;
具体的,在具体执行数据提取工作的用户接收到数据提取方案之后,可以基于查询语句进行数据提取操作。该查询语句可以是数据提取方案中自带的查询语句,也可以是执行数据提取工作的用户自己编写的查询语句,当系统接收到对根据数据提取方案的提取操作时,对提取操作进行第二分析。具体的,对提取操作进行第二分析可以包括:
对提取操作对应的查询语句进行量化评价;
根据量化评价的结果,确定第二分析是否满足第二条件。
在第二分析满足第二条件的情况下,进行数据提取;然后根据提取到的数据生成目标文件;将目标文件发送给提出数据提取请求的用户;
具体的,根据提取到的数据生成目标文件之后,知青数据提取操作的用户可以将该目标文件进行提交操作,然后系统在接收到该提交操作之后。将该目标文件发送给提出数据提取请求的用户。而提出数据提取请求的用户在通过账号登录到系统时,可以看到该目标文件考虑到提出数据提取请求的用户有可能不会一直查看系统,所以可以向提出数据提取请求的用户发送短信,告知该提出数据提取请求的用户,系统收到一条需要该用户处理的信息,从而提醒用户查看系统。
本申请的有益效果在于:在根据提取到的数据生成目标文件之后,可以将目标文件发送给提出数据提取请求的用户,从而将执行数据提取工作时的线下操作转换为线上操作,便于对用户行为进行追溯,提高了数据提取的安全性。
在一个实施例中,上述步骤S11可被实施为如下步骤A1-A2:
在步骤A1中,将数据提取方案发送给审核用户;
在步骤A2中,根据审核用户的审核结果,确定第一分析是否满足第一条件。
本实施例中,对数据提取方案进行第一分析,可以被实施为如下步骤:将数据提取方案发送给审核用户;根据审核用户的审核结果,确定第一分析是否满足第一条件。
具体的,该审核用户通常是领导岗用户,在该审核用户审核后,将审核结果发送给系统,系统基于审核用户的审核结果,确定第一分析是否满足第一条件,具体的,当审核结果为审核通过时,确定第一分析满足第一条件。当审核结果为审核不通过时,确定第一分析不满足第一条件。
在一个实施例中,当数据提取方案中包括查询语句时,上述步骤S11可被实施为如下步骤B1-B2:
在步骤B1中,对查询语句进行模拟查询;
在步骤B2中,根据模拟查询的结果,确定第一分析是否满足第一条件。
本实施例中,对数据提取方案进行第一分析,可以被实施为如下步骤:
对查询语句进行模拟查询;也就是说,根据数据提取方案中的查询语句在数据库中进行查询,看能否查询出数据提取方案中所希望查询到的字段和相应的数据,如果能够查询出数据提取方案中所希望查询到的字段和相应的数据,则确定第一分析满足第一条件。如果无法查询出数据提取方案中所希望查询到的字段和相应的数据,则确定第一分析不满足第一条件。
在一个实施例中,如图2所示,上述步骤S13可被实施为如下步骤S21-S22:
在步骤S21中,对提取操作对应的查询语句进行量化评价;
在步骤S22中,根据量化评价的结果,确定第二分析是否满足第二条件。
本实施例中,对提取操作对应的查询语句进行量化评价,例如,对提取操作对应的查询语句进行评分。此时,对提取操作进行第二分析可以是指分析查询语句对应的评分是否大于评分阈值。
根据量化评价的结果,确定第二分析是否满足第二条件,具体包括:如果查询语句对应的评分大于评分阈值,则确定第二分析满足第二条件;。如果查询语句对应的评分小于评分阈值,则确定第二分析不满足第二条件。
在一个实施例中,上述步骤S21可被实施为如下步骤C1-C2:
在步骤C1中,根据语句确定提取操作所要提取的数据类型;
在步骤C2中,根据数据类型对提取操作对应的查询语句进行评分。
本实施例中,根据语句确定提取操作所要提取的数据类型;
例如,数据类型可以基于数据是否需要保密来确定,从而将数据分为保密数据和非保密数据。
又例如,数据类型可以根据数据的保密级别来确定;例如数据类型可以包括保密级别较低的数据、保密级别较高的数据和保密级别非常高的数据。
此时,对提取操作对应的查询语句进行量化评价可以包括:根据数据类型对提取操作对应的查询语句进行评分,比如查询操作所要提取的数据为非保密数据,或者保密级别较低的数据,则给予提取操作对应的查询语句一较高的评分,又比如,查询操作所要提取的数据为保密级别较高的数据,则给予提取操作对应的查询语句一较低的评分。再比如查询操作所要提取的数据为保密级别非常高的数据,则直接将提取操作对应的查询语句的评分置为0分。
在一个实施例中,上述步骤S21可被实施为如下步骤:
根据提取操作对应的查询语句的格式和内容进行评分。
在一个实施例中,根据提取操作对应的查询语句的格式和内容进行评分,可被实施为如下步骤:
根据查询语句格式与数据库类型的匹配程度,和/或查询语句内容与标准语句的差异性进行评分,其中,匹配程度与评分正相关,差异性与评分负相关。
本实施例中,根据提取操作对应的查询语句的格式进行评分是指:
根据查询语句格式与数据库类型的匹配程度进行评分,例如,查询语句的格式为SQL格式,而数据库为Oracle数据库,则查询语句格式与数据库类型的匹配程度低,就会给予查询语句一较低的评分,如果查询语句的格式为SQL格式,而数据库为SQL server数据库,则查询语句格式与数据库类型的匹配程度高,就会给予查询语句一较高的评分。
而根据查询语句内容与标准语句的差异性进行评分是指:
在存储有海量数据的数据库中,存储逻辑复杂,查询语句的优劣直接影响执行效率,例如,查询语句中创建的索引是否能够命中数据表内的索引字段,会直接影响执行效率,又例如,查询语句中使用游标,对数据表内的行进行定位,也会影响执行效率、又例如,查询语句中使用“*”来查询所有字段,会影响命中效率,进而影响执行效率,当然,还有其他的一些查询语句编写方式也会影响到查询语句的执行效率,在此就不一一赘述。
而有些用户出于个人习惯,则会采用上述一种或多种方式进行查询语句的编写,考虑到上述因素,预先设置一套标准语句,然后将用户编写的查询语句内容和标准语句进行比对,如果查询语句内容与标准语句的差异较大,则给予该查询语句一较低的评分;反之,如果查询语句内容与标准语句的差异较小,则给予该查询语句一较高的评分。
在一个实施例中,如图3所示,上述步骤S15可被实施为如下步骤S31-S33:
在步骤S31中,判断数据提取方案中是否包括指定字段;
在步骤S32中,当包括指定字段,且指定字段属于预设字段时,判断指定字段的数目是否小于预设数目;
在步骤S33中,当指定字段的数目小于预设数目时,对除指定字段之外的其他预设字段对应的数据进行脱敏操作。
本实施例中,判断数据提取方案中是否包括指定字段,具体的,再将数据提取出来之后,会对指定的字段进行脱敏操作,例如姓名、手机号码、地址信息等。而如果进行数据提取的用户需要得到一脱敏字段中的信息,那么在进行数据提取时,可以将该字段作为指定字段。在数据提取出来之后,不会对该指定字段进行脱敏。例如。进行数据提取的用户需要提取的数据中的“姓名信息”,则可以将姓名字段作为指定字段。从而在数据提取时不对该姓名字段进行脱敏。通常情况下,为了避免用户信息泄露,进行数据提取的用户仅仅可以指定一个字段,不能指定多个字段。
此外,在本申请中,为了方便对用户行为进行追溯。可以对用户操作进行留痕记录,例如,记录用户每一个操作信息。又例如,用户每点击一次生成文件按钮就会记录一次生成文件的详细信息,包括执行人信息、提数单信息、文件信息、脱敏情况、压缩情况、是否发送、是否下载、时间信息等。
图4为本申请实施例的一种数据提取装置的框图,该装置包括以下模块:
第一分析模块41,用于在接收数据提取方案时,对数据提取方案进行第一分析;
第二分析模块42,用于响应于根据数据提取方案的提取操作,对提取操作进行第二分析;
提取模块43,用于在第二分析满足第二条件的情况下,进行数据提取;
生成模块44,用于根据提取到的数据生成目标文件;
发送模块45,用于将目标文件发送给提出数据提取请求的用户。
在一个实施例中,当数据提取方案中包括查询语句时:
第一分析模块41进一步配置为:对查询语句进行模拟查询;根据模拟查询的结果,确定第一分析是否满足第一条件;
或者
第二分析模块42进一步配置为:对提取操作对应的查询语句进行量化评价;根据量化评价的结果,确定第二分析是否满足第二条件。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。

Claims (10)

1.一种数据提取方法,其特征在于,包括:
在接收数据提取方案时,对数据提取方案进行第一分析;
在所述第一分析满足第一条件的情况下,将所述数据提取方案作为待提取方案;
响应于根据所述数据提取方案的提取操作,对所述提取操作进行第二分析;
在所述第二分析满足第二条件的情况下,进行数据提取;
根据提取到的数据生成目标文件;
将所述目标文件发送给提出数据提取请求的用户。
2.如权利要求1所述的方法,其特征在于,所述对数据提取方案进行第一分析,包括:
将数据提取方案发送给审核用户;
根据审核用户的审核结果,确定所述第一分析是否满足第一条件。
3.如权利要求1所述的方法,其特征在于,当所述数据提取方案中包括查询语句时,所述对数据提取方案进行第一分析,包括:
对查询语句进行模拟查询;
根据模拟查询的结果,确定所述第一分析是否满足第一条件。
4.如权利要求1所述的方法,其特征在于,对所述提取操作进行第二分析,包括:
对提取操作对应的查询语句进行量化评价;
根据量化评价的结果,确定所述第二分析是否满足第二条件。
5.如权利要求4所述的方法,其特征在于,对提取操作对应的查询语句进行量化评价,包括:
根据所述语句确定所述提取操作所要提取的数据类型;
根据数据类型对所述提取操作对应的查询语句进行评分。
6.如权利要求4所述的方法,其特征在于,对提取操作对应的查询语句进行量化评价,包括:
根据所述提取操作对应的查询语句的格式和内容进行评分。
7.如权利要求6所述的方法,其特征在于,所述根据所述提取操作对应的查询语句的格式和内容进行评分,包括:
根据所述查询语句格式与数据库类型的匹配程度,和/或所述查询语句内容与标准语句的差异性进行评分,其中,匹配程度与评分正相关,差异性与评分负相关。
8.如权利要求1-7任意一项所述的方法,其特征在于,所述根据提取到的数据生成目标文件,包括:
判断数据提取方案中是否包括指定字段;
当包括指定字段,且所述指定字段属于预设字段时,判断所述指定字段的数目是否小于预设数目;
当所述指定字段的数目小于预设数目时,对除所述指定字段之外的其他预设字段对应的数据进行脱敏操作。
9.一种数据提取装置,其特征在于,包括:
第一分析模块,用于在接收数据提取方案时,对数据提取方案进行第一分析;
第二分析模块,用于响应于根据所述数据提取方案的提取操作,对所述提取操作进行第二分析;
提取模块,用于在所述第二分析满足第二条件的情况下,进行数据提取;
生成模块,用于根据提取到的数据生成目标文件;
发送模块,用于将所述目标文件发送给提出数据提取请求的用户。
10.如权利要求9所述的装置,其特征在于,当所述数据提取方案中包括查询语句时:
所述第一分析模块进一步配置为:对查询语句进行模拟查询;根据模拟查询的结果,确定所述第一分析是否满足第一条件;
或者
所述第二分析模块进一步配置为:对提取操作对应的查询语句进行量化评价;根据量化评价的结果,确定所述第二分析是否满足第二条件。
CN202011374552.0A 2020-11-27 2020-11-27 一种数据提取方法及装置 Pending CN112507353A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011374552.0A CN112507353A (zh) 2020-11-27 2020-11-27 一种数据提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011374552.0A CN112507353A (zh) 2020-11-27 2020-11-27 一种数据提取方法及装置

Publications (1)

Publication Number Publication Date
CN112507353A true CN112507353A (zh) 2021-03-16

Family

ID=74968698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011374552.0A Pending CN112507353A (zh) 2020-11-27 2020-11-27 一种数据提取方法及装置

Country Status (1)

Country Link
CN (1) CN112507353A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280082A (zh) * 2017-01-06 2018-07-13 北京京东尚科信息技术有限公司 一种统计数据的即席查询方法及系统
CN109800258A (zh) * 2018-12-10 2019-05-24 平安科技(深圳)有限公司 数据文件部署方法、装置、计算机设备及存储介质
CN110109947A (zh) * 2017-12-28 2019-08-09 北京京东尚科信息技术有限公司 提取数据的方法和装置
JP2020077013A (ja) * 2018-10-16 2020-05-21 三井住友カード株式会社 データ分析装置、データ分析方法およびプログラム
CN111857721A (zh) * 2020-03-30 2020-10-30 马上消费金融股份有限公司 Sql语句的验证方法、数据获取方法、设备及存储装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280082A (zh) * 2017-01-06 2018-07-13 北京京东尚科信息技术有限公司 一种统计数据的即席查询方法及系统
CN110109947A (zh) * 2017-12-28 2019-08-09 北京京东尚科信息技术有限公司 提取数据的方法和装置
JP2020077013A (ja) * 2018-10-16 2020-05-21 三井住友カード株式会社 データ分析装置、データ分析方法およびプログラム
CN109800258A (zh) * 2018-12-10 2019-05-24 平安科技(深圳)有限公司 数据文件部署方法、装置、计算机设备及存储介质
CN111857721A (zh) * 2020-03-30 2020-10-30 马上消费金融股份有限公司 Sql语句的验证方法、数据获取方法、设备及存储装置

Similar Documents

Publication Publication Date Title
US10983841B2 (en) Systems and methods for removing identifiable information
US11979423B2 (en) Real-time classification of content in a data transmission
CN108875404B (zh) 基于机器学习的数据脱敏方法、装置及存储介质
CN109783482B (zh) 一种数据违规监控方法及装置
CN110795450A (zh) Sql处理方法及装置
US20180262482A1 (en) Information processing method and server
CN107392436A (zh) 一种提取企业关联关系信息的方法和装置
CN112612813A (zh) 一种测试数据的生成方法和装置
CN108509561B (zh) 基于机器学习的岗位招聘数据筛选方法、系统及存储介质
CN114331315A (zh) 结合rpa和ai的社保业务处理方法及装置
CN115577691A (zh) 标书生成方法、存储介质及电子装置
CN112051992A (zh) 基于征信报告生成的数据处理方法及系统
CN112000984A (zh) 一种数据泄露检测方法、装置、设备及可读存储介质
US20220028008A1 (en) Signals-based data syndication and collaboration
CN112507353A (zh) 一种数据提取方法及装置
CN112016317A (zh) 基于人工智能的敏感词识别方法、装置及计算机设备
CN111932076A (zh) 一种规则配置和发布方法、装置及计算设备
CN111046382A (zh) 数据库审计方法、设备、存储介质及装置
CN111047146A (zh) 一种企业用户的风险识别方法、装置及设备
CN110866700A (zh) 确定企业员工信息泄露源的方法及装置
CN113434588B (zh) 基于移动通信话单的数据挖掘分析方法及装置
CN113570379B (zh) 异常交易团伙识别方法及装置
CN112346938B (zh) 操作审计方法、装置及服务器和计算机可读存储介质
CN112907227A (zh) 一种软件设计资料档案管理系统
CN110851864A (zh) 一种敏感数据自动识别和处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210316