CN110489478A - 一种数据扫描的方法及装置 - Google Patents

一种数据扫描的方法及装置 Download PDF

Info

Publication number
CN110489478A
CN110489478A CN201910796123.3A CN201910796123A CN110489478A CN 110489478 A CN110489478 A CN 110489478A CN 201910796123 A CN201910796123 A CN 201910796123A CN 110489478 A CN110489478 A CN 110489478A
Authority
CN
China
Prior art keywords
data
database
scanned
data field
field set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910796123.3A
Other languages
English (en)
Inventor
邱文一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Enyike (beijing) Data Technology Co Ltd
Original Assignee
Enyike (beijing) Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Enyike (beijing) Data Technology Co Ltd filed Critical Enyike (beijing) Data Technology Co Ltd
Priority to CN201910796123.3A priority Critical patent/CN110489478A/zh
Publication of CN110489478A publication Critical patent/CN110489478A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据扫描的方法及装置,通过获取待扫描数据库,并确定待扫描数据库中所有数据对应的数据字段集合后,再获取数据字段集合中每组数据字段分别对应的预设参数,该预设参数经过预设的数据组件计算后确定扫描任务,最后根据扫描任务以及预设的函数映射表,确定扫描结果,从而可以针对不同的数据存储类型,利用相同的扫描方法进行数据扫描。

Description

一种数据扫描的方法及装置
技术领域
本申请涉及计算机技术领域,尤其是涉及一种数据扫描的方法及装置。
背景技术
伴随大数据的技术发展,数据的存储类型不限于关系型数据库,越来越多的数据存储在Hadoop分布式文件系统(HDFS)中,或者存储在非关系型数据库中,现有的数据扫描方法对于关系型数据库的扫描,可以进行灵活的规则配置,从而较好的进行扫描,但是对于大量的、不规则的数据存储的类型,需要单独进行任务编写,实现扫描,不能根据统一的数据扫描模版分别对多个不规则的数据进行扫描。
发明内容
有鉴于此,本申请的目的在于提供一种数据扫描的方法及装置,从而可以针对不同的数据存储类型,利用相同的扫描方法进行数据扫描。
第一方面,本申请实施例提供了一种数据扫描的方法,包括:
获取待扫描数据库;
确定所述待扫描数据库中所有数据对应的数据字段集合,其中,所述数据字段集合包含多组数据字段,所述数据字段为所述待扫描数据库中数据的属性信息;
获取所述数据字段集合中每组数据字段分别对应的预设参数;
将所述数据字段集合中每组数据字段分别对应的预设参数经过预设的数据组件计算后,得到所述待扫描数据库对应的扫描任务;
根据所述扫描任务、以及预设的函数映射表,确定所述待扫描数据库对应的扫描任务的扫描结果。
本申请的一实施例中,所述根据所述待扫描的数据库,确定所述待扫描的数据库中所有数据对应的数据字段集合,包括:
判断所述待扫描数据库中的每一个数据是否存在该数据对应的数据字段;
若存在,则每一个数据对应的数据字段组成所述数据字段集合;
若不存在,则根据预设的数据字段对照表,确定所述待扫描的数据库中所有数据对应的数据字段集合。
本申请的一实施例中,所述根据预设的数据字段对照表,确定所述待扫描的数据库中所有数据对应的数据字段集合之后,所述获取所述数据字段集合中每组数据字段分别对应的预设参数之前,所述方法还包括:
将确定后的所述数据字段集合发送至客户端;
接收所述客户端针对所述数据字段集合的认可指令后,根据所述数据字段集合更新所述待扫描数据库;或者,
接收所述客户端针对所述数据字段集合的修改指令后,根据所述修改指令对所述数据字段集合进行修改,利用修改后的所述数据字段集合更新所述待扫描数据库。
本申请的一实施例中,所述预设的数据组件包括以下组件中的一种或多种:
数据处理组件、分析和报告工具组件、数据存储组件、数据搜集组件。
本申请的一实施例中,所述数据字段的类型包括以下类型中的一种或多种:
字符串类型、整型、浮点型、时间戳类型、日期类型。
第二方面,本申请实施例提供了一种数据扫描的装置,包括:
第一获取模块,用于获取待扫描数据库;
第一确定模块,用于确定所述待扫描数据库中所有数据对应的数据字段集合,其中,所述数据字段集合包含多组数据字段,所述数据字段为所述待扫描数据库中数据的属性信息;
第二获取模块,用于获取所述数据字段集合中每组数据字段分别对应的预设参数;
数据处理模块,用于将所述数据字段集合中每组数据字段分别对应的预设参数经过预设的数据组件计算后,得到所述待扫描数据库对应的扫描任务;
第二确定模块,用于根据所述扫描任务、以及预设的函数映射表,确定所述待扫描数据库对应的扫描任务的扫描结果。
本申请的一实施例中,所述第一确定模块,在用于根据所述待扫描的数据库,确定所述待扫描的数据库中所有数据对应的数据字段集合时,用于:
判断所述待扫描数据库中的每一个数据是否存在该数据对应的数据字段;
若存在,则每一个数据对应的数据字段组成所述数据字段集合;
若不存在,则根据预设的数据字段对照表,确定所述待扫描的数据库中所有数据对应的数据字段集合。
本申请的一实施例中,所述第一确定模块,在用于根据预设的数据字段对照表,确定所述待扫描的数据库中所有数据对应的数据字段集合之后,所述第二获取模块,在用于获取所述数据字段集合中每组数据字段分别对应的预设参数之前,所述装置还用于:
将确定后的所述数据字段集合发送至客户端;
接收所述客户端针对所述数据字段集合的认可指令后,根据所述数据字段集合更新所述待扫描数据库;或者,
接收所述客户端针对所述数据字段集合的修改指令后,根据所述修改指令对所述数据字段集合进行修改,利用修改后的所述数据字段集合更新所述待扫描数据库。
本申请的一实施例中,所述预设的数据组件包括以下组件中的一种或多种:
数据处理组件、分析和报告工具组件、数据存储组件、数据搜集组件。
本申请的一实施例中,所述数据字段的类型包括以下类型中的一种或多种:
字符串类型、整型、浮点型、时间戳类型、日期类型。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
本申请提供的一种数据扫描的方法及装置,通过获取待扫描数据库,并确定待扫描数据库中所有数据对应的数据字段集合后,再获取数据字段集合中每组数据字段分别对应的预设参数,该预设参数经过预设的数据组件计算后确定扫描任务,最后根据扫描任务以及预设的函数映射表,确定扫描结果,从而可以针对不同的数据存储类型,利用相同的扫描方法进行数据扫描。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种数据扫描的方法的流程图;
图2示出了本申请实施例所提供的一种确定待扫描数据库中所有数据对应的数据字段集合的方法的流程图;
图3a示出了本申请实施例所提供的待扫描数据库为关系型数据库的示意图;
图3b示出了本申请实施例所提供的待扫描数据库为非关系型数据库的示意图;
图3c示出了本申请实施例所提供的一种待扫描数据库为非关系型数据库,且更新后的待扫描数据库的示意图;
图3d示出了本申请实施例所提供的另一种待扫描数据库为非关系型数据库,且更新后的待扫描数据库的示意图;
图4示出了本申请实施例所提供的一种数据扫描的装置的结构示意图;
图5示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种数据扫描的方法进行详细介绍。
实施例一
如图1所示,示出了本申请实施例所提供的一种数据扫描的方法的流程图;具体包括以下步骤:
S101:获取待扫描数据库。
这里,待扫描数据库可以是关系型数据库,例如oracle、Microsoft SQL Server、db2、infomix、Sybase、MySQL、Postpresql、Access、SQL Anywhere、sqlite、interbase等,也可以是非关系型数据库,例如NoSql、Cloudant、MongoDb、redis、HBase等,还可以是存储在Hadoop分布式文件系统(Hadoop Distributed Filesystem)中的数据库,在此并不限定待扫描数据库的具体类型。
关系型数据库采用了关系模型来组织数据的数据库,且关系模型一般指二维表格模型,一个关系型数据库由二维表及其之间的联系所组成的一个数据组织,而非关系型数据库没有统一的存储格式,为一种数据结构化存储方法的集合,存储数据的格式包括:键值对形式、文档形式、图片形式等等。
S102:确定待扫描数据库中所有数据对应的数据字段集合,其中,数据字段集合包含多组数据字段,数据字段为待扫描数据库中数据的属性信息。
本实施例的一具体应用场景中,如图2所示,示出了本申请实施例所提供的一种确定待扫描数据库中所有数据对应的数据字段集合的方法的流程图;具体包括以下步骤:
S201:判断待扫描数据库中的每一个数据是否存在该数据对应的数据字段;
S202:若存在,则每一个数据对应的数据字段组成数据字段集合;
S203:若不存在,则根据预设的数据字段对照表,确定待扫描的数据库中所有数据对应的数据字段集合。
示例性的,若待扫描数据库为关系型数据库,如图3a所示,待扫描数据库包含用户小李的手机号、家庭住址、身份证号,用户小明的手机号、家庭住址、身份证号,那么该待扫描数据库中的每一个数据都存在该数据对应的数据字段,例如数据A、D对应的数据字段均为手机号,数据B、E对应的数据字段均为家庭住址,数据C、F对应的数据字段均为身份证号,并且数据字段手机号、家庭住址、身份证号组成数据字段集合。
若待扫描数据库为非关系型数据库,如图3b所示,待扫描数据库包含小王的信息G、H、I,小赵的信息K、L、M,则该待扫描数据库中每一个数据不存在该数据对应的数据字段,那么通过预设的数据字段对照表确定数据G、K对应的数据字段均为手机号,数据H、L对应的数据字段均为家庭住址,数据I、M对应的数据字段均为身份证号,数据字段手机号、家庭住址、身份证号组成数据字段集合。
可选的,当待扫描数据库为非关系型数据库,且数据存储为图片形式时,还可以通过图像识别方法确定每一个数据对应的数据字段,进而确定数据字段集合,在此并不限定确定数据字段集合的具体方法,也不限定判断待扫描数据库中的每一个数据是否存在该数据对应的数据字段的具体方法,可以根据实际应用场景进行调整。
具体的,数据字段的类型包括以下类型中的一种或多种:
字符串类型、整型、浮点型、时间戳类型、日期类型。
上述示例中的数据字段手机号、家庭住址、身份证号的类型均为整型,当数据字段为年月日组合时,数据字段的类型为日期类型,在此不限定数据字段的具体类型。
本实施例的一具体应用场景中,在确定待扫描数据库中所有数据对应的数据字段集合之后,该方法还可以包括:
将确定后的数据字段集合发送至客户端;
接收客户端针对数据字段集合的认可指令后,根据数据字段集合更新待扫描数据库;或者,
接收客户端针对数据字段集合的修改指令后,根据修改指令对数据字段集合进行修改,利用修改后的数据字段集合更新待扫描数据库。
示例性的,根据上述示例得到待扫描数据库为非关系型数据库时,通过预设的数据字段对照表确定数据字段集合包含手机号、家庭住址、身份证号,将该数据字段集合发送至客户端,若接收到客户端的认可指令后,根据该数据字段集合更新待扫描数据库,那么如图3b中的待扫描数据库更新为如图3c中的待扫描数据库。若接收到客户端针对数据字段集合的修改指令,且指令指示将手机号的数据字段修改为学号的数据字段,则根据修改指令对数据字段集合进行修改,根据修改后的数据字段集合更新待扫描数据库后,如图3b中的待扫描数据库更新为如图3d中的待扫描数据库。
S103:获取数据字段集合中每组数据字段分别对应的预设参数。
这里,每组数据字段对应的预设参数包括具体的扫描算法以及与预设的数据组件匹配的数据信息,进而使得通过预设的数据组件进行任务计算时,准确匹配到对应的数据字段。
S104:将数据字段集合中每组数据字段分别对应的预设参数经过预设的数据组件计算后,得到待扫描数据库对应的扫描任务。
这里,预设的数据组件包括以下组件中的一种或多种:
数据处理组件、分析和报告工具组件、数据存储组件、数据搜集组件。
示例性的,当数据字段集合中家庭住址的数据字段以及工作地点的数据字段分别对应的预设参数经过预先搭建的数据组件的计算框架结构,且计算框架结构为Hadoop、Flink的数据组件结合,得到待扫描数据库对应的扫描任务为扫描待扫描数据库中是否存在反恐、暴力等词语,在此并不限定具体的数据组件,可以根据实际应用场景进行调整。
S105:根据扫描任务、以及预设的函数映射表,确定待扫描数据库对应的扫描任务的扫描结果。
具体的,预设的函数映射表是通过函数反射技术,将编写好的算法与函数名建立映射关系,然后利用预设的函数映射表确定待扫描数据库对应的扫描任务的扫描结果。
示例性的,当待扫描数据库为图3a所示的数据库时,待扫描数据库对应的扫描任务为扫描是否存在反恐、暴力等词语,利用预设的函数映射表确定该待扫描数据库中不存在反恐、暴力等词语,那么扫描结果为否。
本实施例提供了一种数据扫描的方法,通过获取待扫描数据库,并确定待扫描数据库中所有数据对应的数据字段集合后,再获取数据字段集合中每组数据字段分别对应的预设参数,该预设参数经过预设的数据组件计算后确定扫描任务,最后根据扫描任务以及预设的函数映射表,确定扫描结果,从而可以针对不同的数据存储类型,利用相同的扫描方法进行数据扫描。
实施例二
参见图4所示,为本申请实施例所提供的一种数据扫描的装置的结构示意图,包括:第一获取模块401、第一确定模块402、第二获取模块403、数据处理模块404、第二确定模块405,具体的:
第一获取模块401,用于获取待扫描数据库;
第一确定模块402,用于确定所述待扫描数据库中所有数据对应的数据字段集合,其中,所述数据字段集合包含多组数据字段,所述数据字段为所述待扫描数据库中数据的属性信息;
第二获取模块403,用于获取所述数据字段集合中每组数据字段分别对应的预设参数;
数据处理模块404,用于将所述数据字段集合中每组数据字段分别对应的预设参数经过预设的数据组件计算后,得到所述待扫描数据库对应的扫描任务;
第二确定模块405,用于根据所述扫描任务、以及预设的函数映射表,确定所述待扫描数据库对应的扫描任务的扫描结果。
本申请一实施例中,所述第一确定模块402,在用于根据所述待扫描的数据库,确定所述待扫描的数据库中所有数据对应的数据字段集合时,用于:
判断所述待扫描数据库中的每一个数据是否存在该数据对应的数据字段;
若存在,则每一个数据对应的数据字段组成所述数据字段集合;
若不存在,则根据预设的数据字段对照表,确定所述待扫描的数据库中所有数据对应的数据字段集合。
本申请的一实施例中,所述第一确定模块402,在用于根据预设的数据字段对照表,确定所述待扫描的数据库中所有数据对应的数据字段集合之后,所述第二获取模块403,在用于获取所述数据字段集合中每组数据字段分别对应的预设参数之前,所述装置还用于:
将确定后的所述数据字段集合发送至客户端;
接收所述客户端针对所述数据字段集合的认可指令后,根据所述数据字段集合更新所述待扫描数据库;或者,
接收所述客户端针对所述数据字段集合的修改指令后,根据所述修改指令对所述数据字段集合进行修改,利用修改后的所述数据字段集合更新所述待扫描数据库。
本申请的一实施例中,所述预设的数据组件包括以下组件中的一种或多种:
数据处理组件、分析和报告工具组件、数据存储组件、数据搜集组件。
本申请的一实施例中,所述数据字段的类型包括以下类型中的一种或多种:
字符串类型、整型、浮点型、时间戳类型、日期类型。
实施例三
基于同一技术构思,本申请实施例还提供了一种电子设备。参照图5所示,为本申请实施例提供的电子设备500的结构示意图,包括处理器501、存储器502、和总线503。其中,存储器502用于存储执行指令,包括内存5021和外部存储器5022;这里的内存5021也称内存储器,用于暂时存放处理器501中的运算数据,以及与硬盘等外部存储器5022交换的数据,处理器501通过内存5021与外部存储器5022进行数据交换,当电子设备500运行时,处理器501与存储器502之间通过总线503通信,使得处理器501在执行以下指令:
获取待扫描数据库;
确定所述待扫描数据库中所有数据对应的数据字段集合,其中,所述数据字段集合包含多组数据字段,所述数据字段为所述待扫描数据库中数据的属性信息;
获取所述数据字段集合中每组数据字段分别对应的预设参数;
将所述数据字段集合中每组数据字段分别对应的预设参数经过预设的数据组件计算后,得到所述待扫描数据库对应的扫描任务;
根据所述扫描任务、以及预设的函数映射表,确定所述待扫描数据库对应的扫描任务的扫描结果。
一种可能的设计中,处理器501执行的处理中,所述根据所述待扫描的数据库,确定所述待扫描的数据库中所有数据对应的数据字段集合,包括:
判断所述待扫描数据库中的每一个数据是否存在该数据对应的数据字段;
若存在,则每一个数据对应的数据字段组成所述数据字段集合;
若不存在,则根据预设的数据字段对照表,确定所述待扫描的数据库中所有数据对应的数据字段集合。
一种可能的设计中,处理器501执行的处理中,所述根据预设的数据字段对照表,确定所述待扫描的数据库中所有数据对应的数据字段集合之后,所述获取所述数据字段集合中每组数据字段分别对应的预设参数之前,所述方法还包括:
将确定后的所述数据字段集合发送至客户端;
接收所述客户端针对所述数据字段集合的认可指令后,根据所述数据字段集合更新所述待扫描数据库;或者,
接收所述客户端针对所述数据字段集合的修改指令后,根据所述修改指令对所述数据字段集合进行修改,利用修改后的所述数据字段集合更新所述待扫描数据库。
一种可能的设计中,处理器501执行的处理中,所述预设的数据组件包括以下组件中的一种或多种:
数据处理组件、分析和报告工具组件、数据存储组件、数据搜集组件。
一种可能的设计中,处理器501执行的处理中,所述数据字段的类型包括以下类型中的一种或多种:
字符串类型、整型、浮点型、时间戳类型、日期类型。
实施例四
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一实施例中所述的数据扫描的方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述数据扫描的方法的步骤,从而可以针对不同的数据存储类型,利用相同的扫描方法进行数据扫描。
本申请实施例所提供的进行数据扫描的方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种数据扫描的方法,其特征在于,包括:
获取待扫描数据库;
确定所述待扫描数据库中所有数据对应的数据字段集合,其中,所述数据字段集合包含多组数据字段,所述数据字段为所述待扫描数据库中数据的属性信息;
获取所述数据字段集合中每组数据字段分别对应的预设参数;
将所述数据字段集合中每组数据字段分别对应的预设参数经过预设的数据组件计算后,得到所述待扫描数据库对应的扫描任务;
根据所述扫描任务、以及预设的函数映射表,确定所述待扫描数据库对应的扫描任务的扫描结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待扫描的数据库,确定所述待扫描的数据库中所有数据对应的数据字段集合,包括:
判断所述待扫描数据库中的每一个数据是否存在该数据对应的数据字段;
若存在,则每一个数据对应的数据字段组成所述数据字段集合;
若不存在,则根据预设的数据字段对照表,确定所述待扫描的数据库中所有数据对应的数据字段集合。
3.根据权利要求2所述的方法,其特征在于,所述根据预设的数据字段对照表,确定所述待扫描的数据库中所有数据对应的数据字段集合之后,所述获取所述数据字段集合中每组数据字段分别对应的预设参数之前,所述方法还包括:
将确定后的所述数据字段集合发送至客户端;
接收所述客户端针对所述数据字段集合的认可指令后,根据所述数据字段集合更新所述待扫描数据库;或者,
接收所述客户端针对所述数据字段集合的修改指令后,根据所述修改指令对所述数据字段集合进行修改,利用修改后的所述数据字段集合更新所述待扫描数据库。
4.根据权利要求3所述的方法,其特征在于,所述预设的数据组件包括以下组件中的一种或多种:
数据处理组件、分析和报告工具组件、数据存储组件、数据搜集组件。
5.根据权利要求4所述的方法,其特征在于,所述数据字段的类型包括以下类型中的一种或多种:
字符串类型、整型、浮点型、时间戳类型、日期类型。
6.一种数据扫描的装置,其特征在于,包括:
第一获取模块,用于获取待扫描数据库;
第一确定模块,用于确定所述待扫描数据库中所有数据对应的数据字段集合,其中,所述数据字段集合包含多组数据字段,所述数据字段为所述待扫描数据库中数据的属性信息;
第二获取模块,用于获取所述数据字段集合中每组数据字段分别对应的预设参数;
数据处理模块,用于将所述数据字段集合中每组数据字段分别对应的预设参数经过预设的数据组件计算后,得到所述待扫描数据库对应的扫描任务;
第二确定模块,用于根据所述扫描任务、以及预设的函数映射表,确定所述待扫描数据库对应的扫描任务的扫描结果。
7.根据权利要求6所述的装置,其特征在于,所述第一确定模块,在用于根据所述待扫描的数据库,确定所述待扫描的数据库中所有数据对应的数据字段集合时,用于:
判断所述待扫描数据库中的每一个数据是否存在该数据对应的数据字段;
若存在,则每一个数据对应的数据字段组成所述数据字段集合;
若不存在,则根据预设的数据字段对照表,确定所述待扫描的数据库中所有数据对应的数据字段集合。
8.根据权利要求7所述的装置,其特征在于,所述第一确定模块,在用于根据预设的数据字段对照表,确定所述待扫描的数据库中所有数据对应的数据字段集合之后,所述第二获取模块,在用于获取所述数据字段集合中每组数据字段分别对应的预设参数之前,所述装置还用于:
将确定后的所述数据字段集合发送至客户端;
接收所述客户端针对所述数据字段集合的认可指令后,根据所述数据字段集合更新所述待扫描数据库;或者,
接收所述客户端针对所述数据字段集合的修改指令后,根据所述修改指令对所述数据字段集合进行修改,利用修改后的所述数据字段集合更新所述待扫描数据库。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至5任一所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至5任一所述的方法的步骤。
CN201910796123.3A 2019-08-27 2019-08-27 一种数据扫描的方法及装置 Pending CN110489478A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910796123.3A CN110489478A (zh) 2019-08-27 2019-08-27 一种数据扫描的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910796123.3A CN110489478A (zh) 2019-08-27 2019-08-27 一种数据扫描的方法及装置

Publications (1)

Publication Number Publication Date
CN110489478A true CN110489478A (zh) 2019-11-22

Family

ID=68554401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910796123.3A Pending CN110489478A (zh) 2019-08-27 2019-08-27 一种数据扫描的方法及装置

Country Status (1)

Country Link
CN (1) CN110489478A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111158932A (zh) * 2019-12-30 2020-05-15 深圳市元征科技股份有限公司 一种数据传递方法、数据显示方法及相关产品

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794204A (zh) * 2015-04-23 2015-07-22 上海新炬网络信息技术有限公司 一种数据库敏感数据自动识别方法
CN105487925A (zh) * 2015-12-08 2016-04-13 浙江宇视科技有限公司 数据扫描方法和装置
CN107741961A (zh) * 2017-09-25 2018-02-27 阿里巴巴集团控股有限公司 基于Hbase的全表扫描方法及装置
CN107861965A (zh) * 2017-05-19 2018-03-30 广东精点数据科技股份有限公司 数据智能识别方法及系统
CN108108490A (zh) * 2018-01-12 2018-06-01 平安科技(深圳)有限公司 Hive表扫描方法、装置、计算机设备及存储介质
CN108563961A (zh) * 2018-04-13 2018-09-21 中国民航信息网络股份有限公司 数据脱敏平台敏感数据识别方法、装置、设备及介质
CN108763952A (zh) * 2018-05-03 2018-11-06 阿里巴巴集团控股有限公司 一种数据分类方法、装置及电子设备
CN109299102A (zh) * 2018-10-23 2019-02-01 中国电子科技集团公司第二十八研究所 一种基于Elastcisearch的HBase二级索引系统及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794204A (zh) * 2015-04-23 2015-07-22 上海新炬网络信息技术有限公司 一种数据库敏感数据自动识别方法
CN105487925A (zh) * 2015-12-08 2016-04-13 浙江宇视科技有限公司 数据扫描方法和装置
CN107861965A (zh) * 2017-05-19 2018-03-30 广东精点数据科技股份有限公司 数据智能识别方法及系统
CN107741961A (zh) * 2017-09-25 2018-02-27 阿里巴巴集团控股有限公司 基于Hbase的全表扫描方法及装置
CN108108490A (zh) * 2018-01-12 2018-06-01 平安科技(深圳)有限公司 Hive表扫描方法、装置、计算机设备及存储介质
CN108563961A (zh) * 2018-04-13 2018-09-21 中国民航信息网络股份有限公司 数据脱敏平台敏感数据识别方法、装置、设备及介质
CN108763952A (zh) * 2018-05-03 2018-11-06 阿里巴巴集团控股有限公司 一种数据分类方法、装置及电子设备
CN109299102A (zh) * 2018-10-23 2019-02-01 中国电子科技集团公司第二十八研究所 一种基于Elastcisearch的HBase二级索引系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111158932A (zh) * 2019-12-30 2020-05-15 深圳市元征科技股份有限公司 一种数据传递方法、数据显示方法及相关产品

Similar Documents

Publication Publication Date Title
CN109067541B (zh) 基于区块链的数据验证方法及装置、电子设备
CN109597822B (zh) 一种用户数据的存储及查询方法和用户数据处理装置
CN108536745B (zh) 基于Shell的数据表提取方法、终端、设备及存储介质
CN110597511A (zh) 一种页面自动生成方法、系统、终端设备及存储介质
US11106908B2 (en) Techniques to determine document recognition errors
US11567915B2 (en) Maintaining a dataset based on periodic cleansing of raw source data
US20150317336A1 (en) Data reconstruction
CN104021219A (zh) 一种数据模板的生成方法及装置
CN112307297A (zh) 一种基于优先级规则的用户标识统一方法及系统
CN114022188A (zh) 目标人群圈选方法、装置、设备以及存储介质
CN109241163B (zh) 电子凭证的生成方法及终端设备
CN110489478A (zh) 一种数据扫描的方法及装置
CN117390011A (zh) 报表数据处理方法、装置、计算机设备和存储介质
CN110362540B (zh) 一种数据存储、访客数获取方法及装置
JP6019187B1 (ja) 企業情報整合装置および企業情報整合用プログラム
CN109359878B (zh) 档案数据处理方法、计算机装置及计算机可读存储介质
US20190266526A1 (en) Multi-dimensional organization of data for efficient analysis
CN112487039B (zh) 一种数据处理方法、装置、设备及可读存储介质
CN113934729A (zh) 一种基于知识图谱的数据管理方法、相关设备及介质
CN111666340B (zh) 基于大数据的同步数据校对方法、装置和计算机设备
CN109299067B (zh) 页面访问方法、装置和存储介质
CN112256689A (zh) 业务数据清洗方法、装置、电子设备
CN113516598A (zh) 图像校正方法、装置和服务器
CN105260425A (zh) 基于云盘的文件显示方法及装置
CN110517010A (zh) 一种数据处理方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191122

RJ01 Rejection of invention patent application after publication