CN112100661B - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN112100661B CN112100661B CN202010975594.3A CN202010975594A CN112100661B CN 112100661 B CN112100661 B CN 112100661B CN 202010975594 A CN202010975594 A CN 202010975594A CN 112100661 B CN112100661 B CN 112100661B
- Authority
- CN
- China
- Prior art keywords
- data
- processing
- description information
- rule
- processing rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000012544 monitoring process Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 45
- 230000035945 sensitivity Effects 0.000 claims description 55
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000008280 blood Substances 0.000 claims description 2
- 210000004369 blood Anatomy 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 239000000463 material Substances 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种数据获取方法及数据处理方法。可以先获取第一数据并确定第一数据的描述信息,该第一数据是根据至少一个原始数据得到的高阶数据,该第一数据的描述信息包括第一数据的至少一个属性信息;接着可以根据至少一个属性信息确定对应的第二数据,第二数据用于计算第一数据的至少一个原始数据。在确定第二数据后,可以将第一数据、第二数据和第一数据的描述信息作为待处理数据。在对待处理数据进行处理时,可以根据第一数据的描述信息选择处理规则,并依据处理规则生成处理脚本,该处理脚本可以用于对第一数据进行处理。如此,无需技术人员亲自编写监控脚本,即可对高阶数据进行处理,节省了人力物力,提高了数据处理的效率。
Description
技术领域
本申请涉及数据处理领域,尤其涉及一种数据获取方法及装置。
背景技术
随着大数据时代的到来,人们逐渐意识到了数据的价值。对于企业公司等组织机构,可以对日常运营产生的数据进行数据质量监控。数据质量监控是一种常用的数据处理手段,可以判断数据项是否在正常范围内,从而及时发现异常数据,在组织机构运营异常时进行报警。
为了实现数据质量监控,目前常用的手段是通过运行监控脚本对数据库中的一项或多项数据进行监控,得到监控结果。由于需要技术人员手动编写监控脚本,导致数据质量监控的工作量较大。特别地,当需要对原始数据计算得到的高阶数据进行质量监控时,不仅需要对高阶数据本身进行质量监控,也需要对用于计算高阶数据的原始数据进行质量监控。
因此,亟需一种能够自动确定高阶数据对应的原始数据,并自动生成监控脚本的方法,从而对高阶数据进行数据质量监控。
发明内容
有鉴于此,本申请实施例提供了一种数据处理方法以及对应的装置,旨在提供一种能够对高阶数据进行质量监控的方法。
一种数据处理方法,所述方法包括:
获取第一数据,所述第一数据为根据至少一个原始数据计算得到的数据;
确定所述第一数据的描述信息,所述第一数据的描述信息包括所述第一数据的至少一个属性信息;
对所述至少一个属性信息进行分析,确定与所述第一数据对应的第二数据,所述第二数据包括用于计算所述第一数据的至少一个原始数据;
获取所述第二数据,将所述第一数据、所述第二数据和所述第一数据的描述信息存储为待处理数据;
响应于脚本生成请求,获取待处理数据,所述待处理数据包括第一数据、第二数据、第一数据的描述信息,所述第二数据包括至少一个用于计算所述第一数据的原始数据,所述第一数据的描述信息包括所述第一数据的至少一个属性信息;
根据所述第一数据的描述信息,从处理规则集合中选择至少一个处理规则,所述处理规则集合包括至少一个预设的处理规则;
根据所述至少一个处理规则,生成处理脚本,所述处理脚本用于对所述第一数据进行数据质量监控。
可选地,所述对所述至少一个属性信息进行分析,确定与所述第一数据对应的第二数据包括:
根据所述至少一个属性信息中每个属性信息,对所述第一数据进行血缘分析;
从原始数据库中查找所述第一数据具有血缘关系的原始数据,将与所述第一数据具有血缘关系的原始数据确定为第二数据,所述原始数据库包括至少一个原始数据。
可选地,所述对所述至少一个属性信息进行分析,确定与所述第一数据对应的第二数据还包括:
获取所述第二数据的描述信息,所述第二数据的描述信息包括所述第二数据的至少一个属性信息;
所述将所述第一数据、所述第二数据和所述第一数据的描述信息存储为待处理数据包括:
将所述第一数据、所述第二数据、所述第一数据的描述信息和第二数据的描述信息存储为待处理数据。
可选地,所述第一数据的描述信息包括所述第一数据的敏感级别,所述第二数据的描述信息包括所述第二数据的敏感级别和/或隐私程度;所述至少一个处理规则包括安全判断规则和第一处理规则,所述第一处理规则用于对非敏感数据或非隐私数据进行处理;
所述根据所述至少一个处理规则,生成处理脚本包括:
判断所述第一数据的敏感级别,所述第二数据的敏感级别和/或隐私程度是否符合所述安全判断规则;判断所述第二数据的敏感级别和/或隐私程度是否符合所述安全判断规则;
若所述第一数据的敏感级别、所述第二数据的敏感级别和/或隐私程度符合所述安全判断规则,利用所述第一处理规则生成处理脚本。
可选地,所述至少一个处理规则还包括第二处理规则,所述第二处理规则用于对敏感数据和隐私数据进行处理;
所述根据所述至少一个处理规则,生成处理脚本还包括:
若所述第一数据的敏感级别、所述第二数据的敏感级别和/或隐私程度不符合所述安全判断规则,利用所述第二处理规则生成处理脚本。
一种数据处理装置,所述装置包括:
第一获取模块,用于获取第一数据,所述第一数据为根据至少一个原始数据计算得到的数据;
描述确定模块,用于确定所述第一数据的描述信息,所述第一数据的描述信息包括所述第一数据的至少一个属性信息;
分析模块,用于对所述至少一个属性信息进行分析,确定与所述第一数据对应的第二数据,所述第二数据包括用于计算所述第一数据的至少一个原始数据;
第二获取模块,用于获取所述第二数据,将所述第一数据、所述第二数据和所述第一数据的描述信息存储为待处理数据;
第三获取模块,用于响应于脚本生成请求,获取待处理数据,所述待处理数据包括第一数据、第二数据和第一数据的描述信息,所述第二数据包括至少一个用于计算所述第一数据的原始数据,所述第一数据的描述信息包括所述第一数据的至少一个属性信息;
规则确定模块,用于根据所述第一数据的描述信息,从处理规则集合中选择至少一个处理规则,所述处理规则集合包括至少一个预设的处理规则;
脚本生成模块,用于根据所述至少一个处理规则,生成处理脚本,所述处理脚本用于对所述第一数据进行数据质量监控。
可选地,所述分析模块,用于根据所述至少一个属性信息中每个属性信息,对所述第一数据进行血缘分析;从原始数据库中查找所述第一数据具有血缘关系的原始数据,将与所述第一数据具有血缘关系的原始数据确定为第二数据,所述原始数据库包括至少一个原始数据。
可选地,所述分析模块,还用于获取所述第二数据的描述信息,所述第二数据的描述信息包括所述第二数据的至少一个属性信息;
所述第二获取模块,还用于将所述第一数据、所述第二数据、所述第一数据的描述信息和第二数据的描述信息存储为待处理数据。
可选地,所述第一数据的描述信息包括所述第一数据的敏感级别、所述第二数据的敏感级别和/或隐私程度;所述至少一个处理规则包括安全判断规则和第一处理规则,所述第一处理规则用于对非敏感数据或非隐私数据进行处理;
所述脚本生成模块,还用于判断所述第一数据的敏感级别、所述第二数据的敏感级别和/或隐私程度是否符合所述安全判断规则;若所述第一数据的敏感级别、所述第二数据的敏感级别和/或隐私程度符合所述安全判断规则,利用所述第一处理规则生成处理脚本。
一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1所述的数据处理方法。
本申请实施例提供了一种数据处理方法,可以先获取第一数据并确定所述第一数据的描述信息,该第一数据是根据至少一个原始数据得到的高阶数据,该第一数据的描述信息包括第一数据的至少一个属性信息;接着可以根据所述至少一个属性信息确定与第一数据对应的第二数据,第二数据用于计算第一数据的至少一个原始数据。在确定第二数据后,可以将第一数据、第二数据第一数据的描述信息作为待处理数据。在生成脚本时,可以根据第一数据的描述信息选择处理规则,并依据处理规则生成处理脚本,该处理脚本可以用于对第一数据进行处理。这样,根据第一数据的描述信息,可以确定该第一数据的来源和性质,从而确定该第一数据是通过哪些原始数据生成的,进而确定第一数据对应的待处理数据,从而实现对待处理数据进行数据质量监控或其他处理。如此,无需技术人员亲自编写监控脚本,即可对高阶数据进行处理,节省了人力物力,提高了数据处理的效率。此外,本申请实施例还提供了对应的装置和计算机可读存储介质。
附图说明
为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的数据处理方法的方法流程图;
图2为本申请实施例提供的数据处理装置的一种结构示意图。
具体实施方式
随着技术的发展,产生的数据越来越多。有价值的信息被隐藏在原始数据中。原始数据是直接产生的数据,数据量较大,无法直接表现事物的特性。为了从海量的原始数据中得到有价值的信息,可以对原始数据进行处理,将原始数据处理为高阶数据,高阶数据可以直接表现事物的特性,便于人们进行决策管理。
在企业运营过程中,同样会产生大量数据,这些数据可以表示了企业的具体运营状况。那么,为了监控企业的运营状况,企业可以对数据进行数据质量监控,从而确认企业运营过程中是否出现异常。一般地,企业可以针对一种或多种高阶数据进行数据质量监控,从而确定企业是否出现异常。目前,进行数据质量监控需要技术人员手动编写并运行监控脚本,导致数据质量监控工期较长,还会消耗大量的人力物力。
在将原始数据处理为高阶数据的过程中,原始数据中包含的部分信息可能丢失。为了更全面地对数据进行质量监控,可以对高阶数据和用于计算高阶数据的原始数据进行数据质量监控。这增加了自动生成对高阶数据进行数据质量监控的监控脚本的难度。
为了给出能够自动对高阶数据进行数据质量监控的方法,本申请实施例提供了一种处理方法。该方法可以分为数据获取方法和脚本生成方法。其中,数据获取方法用于获取高阶数据和用于生产该高阶数据的原始数据,脚本生成方法用于自动生成与该高阶数据和原始数据对应的监控脚本。
以下结合说明书附图,从服务器的角度对本申请实施例提供的数据获取方法进行说明。该服务器可以是一个服务器,也可以是多个具有数据处理功能的服务器集群,或其他具有数据处理功能的设备。
参见图1,图1为本申请实施例提供的数据处理方法的方法流程图,包括:
S101:获取第一数据。
在本申请实施例中,第一数据为根据至少一个原始数据得到的高阶数据,例如可以是关键绩效指标(Key Performance Indicator,KPI)等。在本申请实施例中,服务器可以在需要对第一数据进行质量监控时执行本申请实施例提供的数据获取方法,也可以在第一数据第一次录入数据库时执行本申请实施例提供的数据获取方法。
举例说明,假设技术人员为了其他目的将原始数据处理为第一数据A。在一个示例中,服务器可以在得到第一数据A后立刻执行步骤S101,也可以在收到对第一数据A的数据质量监控指令后再执行步骤S101。
S102:确定所述第一数据的描述信息。
在获取到第一数据后,服务器可以获取第一数据的描述信息。该第一数据的描述信息包括第一数据的至少一个属性信息,例如可以包括第一数据的数据类型、业务含义等属性信息。根据第一数据的描述信息,可以确定第一数据的来源和用途。如此,根据第一数据的描述信息,即可确定第一数据是根据那些原始数据得到的。
在一个示例中,第一数据的描述信息是第一数据的元数据,包括第一数据的业务元数据,该业务元数据用于描述第一数据对应的业务含义。
在一个示例中,第一数据的描述信息可以包括第一数据的敏感级别。。若第一数据的敏感级别较高,则说明第一数据涉及到了公司的敏感事务,例如可以将根据公司纳税得到的第一数据的敏感级别设为高敏感级别。如此,从公司的角度确定第一数据的和敏感级别,并在第一数据的描述信息中携带第一数据的敏感级别,可以在后续处理时及时规避敏感数据泄密等数据安全问题。
S103:对描述信息中包括的至少一个属性信息进行分析,确定与第一数据对应的第二数据。
在确定第一数据的描述信息后,服务器可以对描述信息中包括的至少一个属性信息进行分析,从而查找到用于计算第一数据的至少一个原始数据,并将这些原始数据确定为第二数据。例如,服务器可以根据描述数据中包括的业务元数据确定第一数据的业务含义,从而确定计算第一数据需要哪些种类的原始数据,再从存储有原始数据的原始数据库中获取对应的原始数据作为第二数据。
在一个示例中,服务器可以获取用于生成第一数据的脚本,例如,服务器可以前往脚本调度系统中查找用于生成第一数据的脚本。服务器可以并对脚本进行解析,使用血缘分析的方法确定与第一数据对应的第二数据。在对第一数据进行血缘分析时,可以依据第一数据的描述信息中每个属性信息,从第一数据的归属、来源、层次等方面追溯第一数据的血缘关系,从而确定该第一数据是根据那些原始数据得到的。服务器可以从原始数据库中选择全部与第一数据具有血缘关系的原始数据作为第二数据。
S104:获取第二数据,将第一数据、第二数据和第一数据的描述信息存储为待处理数据。
在确定与第一数据对应的第二数据后,服务器可以获取第二数据,并将第一数据、第一数据的描述信息与第一数据对应的第二数据存储为待处理数据,以便后续对第一数据进行数据质量监控。
在一个示例中,服务器可以在第一数据第一次录入数据库时确定待处理数据,即执行步骤S101-步骤S104。在确定第一数据对应的待处理数据后,可以将待处理数据存储在专门的数据库中。这样,在需要对第一数据进行数据质量监控时,可以从存储有待处理数据的数据库中查找第一数据对应的待处理数据,无需重新根据第一数据确定第二数据,提高了数据质量监控的效率。
第二数据的描述信息第二数据的描述信息待处理数据在一个示例中,服务器可以获取第二数据的描述信息,第二数据的描述信息可以包括第二数据的隐私程度,若第二数据的隐私程度较高,则说明第二数据涉及到了客户的个人隐私,例如可以将根据客户收入得到的第二数据的隐私程度设为高隐私程度。如此,从客户的角度确定第二数据的隐私程度,并在待处理数据中携带第二数据的隐私程度,可以在后续处理时及时规避隐私数据泄露和敏感数据泄密等数据安全问题。
截止至步骤S104,根据第一数据确定待处理数据的步骤结束,服务器可以根据实际需求对待处理数据进行后续处理。本申请实施例提供的数据获取方法结束。需要说明的是,本申请实施例提供的数据获取方法和脚本生成方法可以执行在同一个服务器上,也可以由两台不同的服务器分别执行。
下面介绍本申请实施例提供的脚本生成步骤。
S105:获取待处理数据。
在对第一数据进行数据质量监控时,服务器可以先获取第一数据对应的待处理数据。其中,第一数据对应的待处理数据可以包括第一数据、第二数据第一数据的描述信息。第一数据的描述信息包括第一数据的至少一个属性信息,用于描述第一数据的数据类型和业务来源等信息,是通过前述步骤S102确定的。第二数据包括至少一个用于计算第一数据的原始信息,是通过前述步骤S103确定的。在一个示例中,待处理数据还可以包括第二数据的描述信息,该第二数据的描述信息可以包括第二数据的至少一个属性信息,用于描述第二数据的数据类型和业务来源等信息。
在一个示例中,在需要对第一数据进行数据质量监控时,技术人员可以向服务器发出指令,该指令中可以包括第一数据的标识。在接收到指令后,服务器可以根据第一数据的标识从存储有至少一个待处理数据的数据库中查找并获取与第一数据对应的待处理数据。
S106:根据第一数据的描述信息,从处理规则集合中选择至少一个处理规则。
在获取到待处理数据后,服务器可以从待处理数据中提取第一数据的描述信息,再根据第一数据的描述信息从处理规则集合中选择至少一个处理规则。其中,处理规则包括对第一数据的处理规则和对第二数据的处理规则,可以是技术人员预先设置并存储在处理规则集合中的。具体地,技术人员可以先根据数据质量监控的实际需求确定待处理数据的属性信息和监控信息之间的对应关系。该监控信息可以包括监控对象和监控项目,监控对象可以是第一数据或第二数据。监控项目是需要监控的具体项目。在一个示例中,对第一数据的监控项目可以包括第一数据是否合规,第一数据是否完整等。对第二数据的监控项目可以包括数据一致性、数据合理性、数据及时性等项目接着,技术人员可以采用代码自动生成引擎生成对监控对象的监控项目进行监控的代码模板,并将该代码模板作为处理规则存储在处理规则集合中。作为一种可能的实现方式,技术人员也可以手动编写代码模板或通过其他方式得到代码模板。
S107:根据至少一个处理规则生成处理脚本。
在确定与第一数据对应的至少一个处理规则后,服务器可以根据至少一个处理规则生成处理脚本,该处理脚本用于对第一数据进行数据质量监控。在一个示例中,服务器可以提取处理规则中的代码模板,并结合具体的第一数据和第二数据将代码模板转化为监控脚本。在接收到技术人员的运行指令后,服务器可以自动运行该监控脚本,从而对第一数据进行数据质量监控。
另外,在数据质量监控的过程中往往需要遍历全部待处理数据,而负责对待处理数据进行数据质量监控的技术人员可能并没有访问全部待处理数据的权限。那么就可能出现数据的越权访问,从而出现隐私数据泄露和敏感数据泄密等数据安全问题。
为了解决这一问题,技术人员可以在第一数据的描述信息中设置第一数据的敏感级别,并在第二数据的描述信息中设置第二数据的敏感级别和/或隐私程度。具体设置方法可以参考本申请实施例提供的数据获取方法。处理规则集合中可以包括安全判断规则和第一处理规则。其中,安全判断规则用于对待处理数据的敏感级别和/或隐私程度进行判断。
在根据第一数据对应的处理规则生成监控脚本时,可以先判断第一数据的敏感级别、第二数据的敏感级别和/或隐私程度是否符合安全判断规则。具体地,服务器可以判断第一数据中是否包括敏感级别较高的数据,和/或,判断第二数据中是否包括敏感级别和/或隐私程度较高的数据,从而确定直接对第一数据或第二数据进行数据质量监控是否会带来数据安全问题。在确定第一数据和第二数据均不涉及公司机密或用户隐私后,服务器可以采用第一处理规则对生成处理脚本。其中,第一处理规则是对监控对象的监控项目进行监控的基本规则。在运行根据第一处理规则得到的监控脚本时,服务器可以直接对待处理数据进行数据质量监控。
若第一数据的敏感级别、第二数据的敏感级别和/或隐私程度不符合安全判断规则,则说明直接对第一数据或第二数据进行数据质量监控可能会产生数据安全风险。那么服务器可以暂停生成处理脚本,并向技术人员发出提示信号,用于提示技术人员获取更高的数据访问权限或采用安全性更佳的硬件设备进行数据质量监控。
在一个示例中,与第一数据对应的处理规则还可以包括第二处理规则,该第二处理规则用于对敏感级别或隐私程度较高的数据进行处理。在一个示例中,第二处理规则可以包括用于对数据进行脱敏处理的处理规则。那么,在确定第一数据的敏感级别、第二数据的敏感级别和/或隐私程度不符合安全判断规则后,可以根据第二处理规则生成处理脚本。如此,在执行该处理脚本的过程中,可以采用特殊的处理方法对敏感级别或隐私程度较高的数据进行处理,避免产生数据安全问题。
本申请实施例提供了一种数据处理方法,可以分为数据获取和脚本生成两个步骤。在数据获取过程中,可以先获取第一数据并确定所述第一数据的描述信息,该第一数据是根据至少一个原始数据得到的高阶数据,该第一数据的描述信息包括第一数据的至少一个属性信息;接着可以根据所述至少一个属性信息确定与第一数据对应的第二数据,第二数据用于计算第一数据的至少一个原始数据。在确定第二数据后,可以将第一数据、第二数据和第一数据的描述信息作为待处理数据。在生成脚本的过程中,可以根据第一数据的描述信息选择处理规则,并依据处理规则生成处理脚本,该处理脚本可以用于对第一数据进行处理。这样,根据第一数据的描述信息,可以确定该第一数据的来源和性质,从而确定该第一数据是通过哪些原始数据生成的,进而确定第一数据对应的待处理数据,从而实现对待处理数据进行数据质量监控或其他处理。如此,无需技术人员亲自编写监控脚本,即可对高阶数据进行处理,节省了人力物力,提高了数据处理的效率。
以上为本申请实施例提供数据获取方法和数据处理方法的一些具体实现方式,基于此,本申请还提供了对应的装置。下面将从功能模块化的角度对本申请实施例提供的上述装置进行介绍。
参见图2,图2为本申请实施例提供的数据处理装置200的一种结构示意图,该装置包括数据获取单元210和脚本生成单元220。其中,数据获取单元210包括:
第一获取模块211,用于获取第一数据,所述第一数据为根据至少一个原始数据计算得到的数据。
描述确定模块212,用于确定所述第一数据的描述信息,所述第一数据的描述信息包括所述第一数据的至少一个属性信息。
分析模块213,用于对所述至少一个属性信息进行分析,确定与所述第一数据对应的第二数据,所述第二数据包括用于计算所述第一数据的至少一个原始数据。
第二获取模块214,用于获取所述第二数据,将所述第一数据、所述第二数据和所述第一数据的描述信息存储为待处理数据。
脚本生成单元220包括:
第三获取模块221用于获取待处理数据,所述待处理数据包括第一数据、第二数据和第一数据的描述信息,所述第二数据包括至少一个用于计算所述第一数据的原始数据,所述第一数据的描述信息包括所述第一数据的至少一个属性信息。
规则确定模块222,用于根据所述第一数据的描述信息,从处理规则集合中选择至少一个处理规则,所述处理规则集合包括至少一个预设的处理规则。
脚本生成模块223,用于根据所述至少一个处理规则,生成处理脚本,所述处理脚本用于对所述第一数据进行数据质量监控。
可选地,在一个实施例中,所述分析模块213,用于根据所述至少一个属性信息中每个属性信息,对所述第一数据进行血缘分析;从原始数据库中查找所述第一数据具有血缘关系的原始数据,将与所述第一数据具有血缘关系的原始数据确定为第二数据,所述原始数据库包括至少一个原始数据。
其中,所述第一获取模块211用于执行图1所示实施例中步骤S101,所述描述确定模块212用于执行图1所示实施例中步骤S102,所述分析模块213用于执行图1所示实施例中步骤S103,所述第二获取模块214用于执行图1所示实施例中步骤S104。所述第三获取模块221用于执行图1所示实施例中步骤S105,所述规则确定模块222用于执行图1所示实施例中步骤S106,所述脚本生成模块223用于执行图1所示实施例中步骤S107。
该数据处理装置200可以实现上述方法实施例中的服务器所具有的功能和/或所实施的数据处理方法。以上仅为简要的示例性描述,为了简洁,在此不再赘述。
可选地,在一个实施例中,所述分析模块213,还用于获取所述第二数据的描述信息,所述第二数据的描述信息包括所述第二数据的至少一个属性信息。
所述第二获取模块214,还用于将所述第一数据、所述第二数据、所述第一数据的描述信息和第二数据的描述信息存储为待处理数据。
可选地,在一个实施例中,所述第一数据的描述信息包括所述第一数据的敏感级别,所述第二数据的描述信息包括所述第二数据的敏感级别和/或隐私程度;所述至少一个处理规则包括安全判断规则和第一处理规则,所述第一处理规则用于对非敏感数据或非隐私数据进行处理;脚本生成模块223,还于判断所述第一数据的敏感级别、所述第二数据的敏感级别和/或隐私程度是否符合所述安全判断规则;并在第一数据的敏感级别、所述第二数据的敏感级别和/或隐私程度符合所述安全判断规则的情况下,利用所述第一处理规则生成处理脚本。
可选地,在一个实施例中,所述至少一个处理规则还包括第二处理规则,所述第二处理规则用于对敏感数据和隐私数据进行处理;所述脚本生成模块223,还用于在第一数据的敏感级别、所述第二数据的敏感级别和/或隐私程度不符合所述安全判断规则的情况下述第二处理规则生成处理脚本。
本申请实施例还提供了一种计算机可读存储介质。其在计算机上运行时,使得计算机执行前述各个实施例所述的数据处理方法中的任意一种实施方式。
本申请实施例中提到的“第一数据”、“第二数据”等名称中的“第一”、“第二”只是用来做名字标识,并不代表顺序上的第一、第二。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请示例性的实施方式,并非用于限定本申请的保护范围。
Claims (8)
1.一种数据处理方法,其特征在于,所述方法包括:
获取第一数据,所述第一数据为根据至少一个原始数据计算得到的数据;
确定所述第一数据的描述信息,所述第一数据的描述信息包括所述第一数据的至少一个属性信息;
对所述至少一个属性信息进行分析,确定与所述第一数据对应的第二数据,所述第二数据包括用于计算所述第一数据的至少一个原始数据;
获取所述第二数据,将所述第一数据、所述第二数据和所述第一数据的描述信息存储为待处理数据;
响应于脚本生成请求,获取待处理数据,所述待处理数据包括第一数据、第二数据、第一数据的描述信息,所述第二数据包括至少一个用于计算所述第一数据的原始数据,所述第一数据的描述信息包括所述第一数据的至少一个属性信息;
根据所述第一数据的描述信息,从处理规则集合中选择至少一个处理规则,所述处理规则集合包括至少一个预设的处理规则;
根据所述至少一个处理规则,生成处理脚本,所述处理脚本用于对所述第一数据进行数据质量监控;
其中,所述对所述至少一个属性信息进行分析,确定与所述第一数据对应的第二数据包括:
根据所述至少一个属性信息中每个属性信息,对所述第一数据进行血缘分析;
从原始数据库中查找所述第一数据具有血缘关系的原始数据,将与所述第一数据具有血缘关系的原始数据确定为第二数据,所述原始数据库包括至少一个原始数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述至少一个属性信息进行分析,确定与所述第一数据对应的第二数据还包括:
获取所述第二数据的描述信息,所述第二数据的描述信息包括所述第二数据的至少一个属性信息;
所述将所述第一数据、所述第二数据和所述第一数据的描述信息存储为待处理数据包括:
将所述第一数据、所述第二数据、所述第一数据的描述信息和第二数据的描述信息存储为待处理数据。
3.根据权利要求2所述的方法,其特征在于,所述第一数据的描述信息包括所述第一数据的敏感级别,所述第二数据的描述信息包括所述第二数据的敏感级别和/或隐私程度;所述至少一个处理规则包括安全判断规则和第一处理规则,所述第一处理规则用于对非敏感数据或非隐私数据进行处理;
所述根据所述至少一个处理规则,生成处理脚本包括:
判断所述第一数据的敏感级别,所述第二数据的敏感级别和/或隐私程度是否符合所述安全判断规则;判断所述第二数据的敏感级别和/或隐私程度是否符合所述安全判断规则;
若所述第一数据的敏感级别、所述第二数据的敏感级别和/或隐私程度符合所述安全判断规则,利用所述第一处理规则生成处理脚本。
4.根据权利要求3所述的方法,其特征在于,所述至少一个处理规则还包括第二处理规则,所述第二处理规则用于对敏感数据和隐私数据进行处理;
所述根据所述至少一个处理规则,生成处理脚本还包括:
若所述第一数据的敏感级别、所述第二数据的敏感级别和/或隐私程度不符合所述安全判断规则,利用所述第二处理规则生成处理脚本。
5.一种数据处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取第一数据,所述第一数据为根据至少一个原始数据计算得到的数据;
描述确定模块,用于确定所述第一数据的描述信息,所述第一数据的描述信息包括所述第一数据的至少一个属性信息;
分析模块,用于对所述至少一个属性信息进行分析,确定与所述第一数据对应的第二数据,所述第二数据包括用于计算所述第一数据的至少一个原始数据;
第二获取模块,用于获取所述第二数据,将所述第一数据、所述第二数据和所述第一数据的描述信息存储为待处理数据;
第三获取模块,用于响应于脚本生成请求,获取待处理数据,所述待处理数据包括第一数据、第二数据和第一数据的描述信息,所述第二数据包括至少一个用于计算所述第一数据的原始数据,所述第一数据的描述信息包括所述第一数据的至少一个属性信息;
规则确定模块,用于根据所述第一数据的描述信息,从处理规则集合中选择至少一个处理规则,所述处理规则集合包括至少一个预设的处理规则;
脚本生成模块,用于根据所述至少一个处理规则,生成处理脚本,所述处理脚本用于对所述第一数据进行数据质量监控;
其中,所述分析模块,用于根据所述至少一个属性信息中每个属性信息,对所述第一数据进行血缘分析;从原始数据库中查找所述第一数据具有血缘关系的原始数据,将与所述第一数据具有血缘关系的原始数据确定为第二数据,所述原始数据库包括至少一个原始数据。
6.根据权利要求5所述的装置,其特征在于,
所述分析模块,还用于获取所述第二数据的描述信息,所述第二数据的描述信息包括所述第二数据的至少一个属性信息;
所述第二获取模块,还用于将所述第一数据、所述第二数据、所述第一数据的描述信息和第二数据的描述信息存储为待处理数据。
7.根据权利要求6所述的装置,其特征在于,所述第一数据的描述信息包括所述第一数据的敏感级别、所述第二数据的敏感级别和/或隐私程度;所述至少一个处理规则包括安全判断规则和第一处理规则,所述第一处理规则用于对非敏感数据或非隐私数据进行处理;
所述脚本生成模块,还用于判断所述第一数据的敏感级别、所述第二数据的敏感级别和/或隐私程度是否符合所述安全判断规则;若所述第一数据的敏感级别、所述第二数据的敏感级别和/或隐私程度符合所述安全判断规则,利用所述第一处理规则生成处理脚本。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010975594.3A CN112100661B (zh) | 2020-09-16 | 2020-09-16 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010975594.3A CN112100661B (zh) | 2020-09-16 | 2020-09-16 | 一种数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112100661A CN112100661A (zh) | 2020-12-18 |
CN112100661B true CN112100661B (zh) | 2024-03-12 |
Family
ID=73759359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010975594.3A Active CN112100661B (zh) | 2020-09-16 | 2020-09-16 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100661B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105554544A (zh) * | 2015-12-07 | 2016-05-04 | 海信集团有限公司 | 一种数据处理方法及系统 |
CN105760783A (zh) * | 2016-02-01 | 2016-07-13 | 上海凭安网络科技有限公司 | 一种在第三方无需留存原始数据的数据质量监督方法 |
WO2016119360A1 (zh) * | 2015-01-28 | 2016-08-04 | 中兴通讯股份有限公司 | 数据分享方法、数据分享装置及终端 |
CN109241358A (zh) * | 2018-08-14 | 2019-01-18 | 中国平安财产保险股份有限公司 | 元数据管理方法、装置、计算机设备及存储介质 |
CN109413087A (zh) * | 2018-11-16 | 2019-03-01 | 京东城市(南京)科技有限公司 | 数据共享方法、装置、数字网关及计算机可读存储介质 |
CN109542901A (zh) * | 2018-11-12 | 2019-03-29 | 北京懿医云科技有限公司 | 数据处理方法、装置、计算机可读存储介质及电子设备 |
CN109739893A (zh) * | 2018-12-28 | 2019-05-10 | 上海连尚网络科技有限公司 | 一种元数据管理方法、设备及计算机可读介质 |
WO2019153735A1 (zh) * | 2018-02-11 | 2019-08-15 | 华为技术有限公司 | 数据处理方法、装置和系统 |
CN111026568A (zh) * | 2019-12-04 | 2020-04-17 | 深圳前海环融联易信息科技服务有限公司 | 数据和任务关系构建方法、装置、计算机设备及存储介质 |
CN111191281A (zh) * | 2019-12-25 | 2020-05-22 | 平安信托有限责任公司 | 数据脱敏处理方法、装置、计算机设备及存储介质 |
CN111209600A (zh) * | 2019-12-31 | 2020-05-29 | 阿尔法云计算(深圳)有限公司 | 基于区块链的数据处理方法及相关产品 |
CN111291300A (zh) * | 2020-02-02 | 2020-06-16 | 郭春燕 | 网页数据处理方法、装置、网页系统及服务器 |
CN111475784A (zh) * | 2020-04-03 | 2020-07-31 | 深圳集智数字科技有限公司 | 一种权限管理方法及装置 |
CN111581048A (zh) * | 2020-03-25 | 2020-08-25 | 中国平安人寿保险股份有限公司 | 数据监控方法、装置、计算机设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4332365B2 (ja) * | 2003-04-04 | 2009-09-16 | ソニー株式会社 | メタデータ表示システム,映像信号記録再生装置,撮像装置,メタデータ表示方法 |
US9594796B2 (en) * | 2013-05-23 | 2017-03-14 | Hitachi, Ltd. | Storage apparatus and data management method |
-
2020
- 2020-09-16 CN CN202010975594.3A patent/CN112100661B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016119360A1 (zh) * | 2015-01-28 | 2016-08-04 | 中兴通讯股份有限公司 | 数据分享方法、数据分享装置及终端 |
CN105554544A (zh) * | 2015-12-07 | 2016-05-04 | 海信集团有限公司 | 一种数据处理方法及系统 |
CN105760783A (zh) * | 2016-02-01 | 2016-07-13 | 上海凭安网络科技有限公司 | 一种在第三方无需留存原始数据的数据质量监督方法 |
WO2019153735A1 (zh) * | 2018-02-11 | 2019-08-15 | 华为技术有限公司 | 数据处理方法、装置和系统 |
CN109241358A (zh) * | 2018-08-14 | 2019-01-18 | 中国平安财产保险股份有限公司 | 元数据管理方法、装置、计算机设备及存储介质 |
CN109542901A (zh) * | 2018-11-12 | 2019-03-29 | 北京懿医云科技有限公司 | 数据处理方法、装置、计算机可读存储介质及电子设备 |
CN109413087A (zh) * | 2018-11-16 | 2019-03-01 | 京东城市(南京)科技有限公司 | 数据共享方法、装置、数字网关及计算机可读存储介质 |
CN109739893A (zh) * | 2018-12-28 | 2019-05-10 | 上海连尚网络科技有限公司 | 一种元数据管理方法、设备及计算机可读介质 |
CN111026568A (zh) * | 2019-12-04 | 2020-04-17 | 深圳前海环融联易信息科技服务有限公司 | 数据和任务关系构建方法、装置、计算机设备及存储介质 |
CN111191281A (zh) * | 2019-12-25 | 2020-05-22 | 平安信托有限责任公司 | 数据脱敏处理方法、装置、计算机设备及存储介质 |
CN111209600A (zh) * | 2019-12-31 | 2020-05-29 | 阿尔法云计算(深圳)有限公司 | 基于区块链的数据处理方法及相关产品 |
CN111291300A (zh) * | 2020-02-02 | 2020-06-16 | 郭春燕 | 网页数据处理方法、装置、网页系统及服务器 |
CN111581048A (zh) * | 2020-03-25 | 2020-08-25 | 中国平安人寿保险股份有限公司 | 数据监控方法、装置、计算机设备及存储介质 |
CN111475784A (zh) * | 2020-04-03 | 2020-07-31 | 深圳集智数字科技有限公司 | 一种权限管理方法及装置 |
Non-Patent Citations (3)
Title |
---|
GB/T36073-2018 DCMM在省级电力企业实践初探;缪新萍等;第三届智能电网会议论文集;15-17 * |
元数据管理系统设计与实现;潘峰;;有线电视技术(第02期);115-117 * |
支撑体系作战能力分析的信息保障大数据预处理方法;邓晶;陈慧;;军事交通学院学报(第05期);89-95 * |
Also Published As
Publication number | Publication date |
---|---|
CN112100661A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106599713B (zh) | 一种基于大数据的数据库脱敏系统及方法 | |
CN109934356B (zh) | 一种基于大数据的机房巡检方法及相关设备 | |
US20120116984A1 (en) | Automated evaluation of compliance data from heterogeneous it systems | |
US11868489B2 (en) | Method and system for enhancing data privacy of an industrial system or electric power system | |
US10467590B2 (en) | Business process optimization and problem resolution | |
CN111274227B (zh) | 一种基于聚类分析和关联规则的数据库审计系统及方法 | |
CN113609008B (zh) | 测试结果分析方法、装置和电子设备 | |
CN110363381B (zh) | 一种信息处理方法和装置 | |
CN112100661B (zh) | 一种数据处理方法及装置 | |
CN116340536A (zh) | 运维知识图谱构建方法、装置、设备、介质及程序产品 | |
CN113297583B (zh) | 漏洞风险分析方法、装置、设备及存储介质 | |
CN118113716A (zh) | 指标数据的验证方法和装置 | |
CN114090011A (zh) | 一种方便开发者使用的软件开发方法 | |
CN111352975B (zh) | 数据质量管理方法、客户端、服务端和系统 | |
CN118567972A (zh) | 代码行为预测方法及装置 | |
CN113051749B (zh) | 一种飞机可靠性数据资产元数据分解方法及装置 | |
CN118734313A (zh) | 一种跨平台的云资源异常检测方法及装置 | |
US11042536B1 (en) | Systems and methods for automated data visualization | |
CN117640415A (zh) | 计算机网络的管理方法、装置、存储介质及电子设备 | |
CN117762678A (zh) | 一种服务运行异常原因检测方法、装置、设备及存储介质 | |
CN115061893A (zh) | 代码的异常修复方法、相关装置和存储介质 | |
CN117828515A (zh) | 一种基于低代码平台的智能日志异常诊断系统及方法 | |
WO2023136809A1 (en) | Modifying rule systems | |
CN116662345A (zh) | 一种基于大数据的公共服务管理系统及方法 | |
CN118350759A (zh) | 数据资源管理系统、方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |