CN114969194A - 数据处理方法、装置、计算机设备及存储介质 - Google Patents
数据处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN114969194A CN114969194A CN202210588667.2A CN202210588667A CN114969194A CN 114969194 A CN114969194 A CN 114969194A CN 202210588667 A CN202210588667 A CN 202210588667A CN 114969194 A CN114969194 A CN 114969194A
- Authority
- CN
- China
- Prior art keywords
- blood relationship
- data
- relationship graph
- data processing
- target data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及数据分析领域,提供一种数据处理方法、装置、设备及计算机存储介质,该方法包括:基于预设的血缘关系确定规则,确定多个目标数据之间的血缘关系;根据所述多个目标数据之间的血缘关系生成血缘关系图,其中所述血缘关系图为有向图;对所述血缘关系图进行识别,确定所述血缘关系图中的环状结构;根据所述血缘关系图中的环状结构,对所述多个目标数据进行数据处理任务。能够对目标数据的血缘关系图中的环状结构进行识别以及处理,防止计算资源的浪费,提高计算系统的稳定性。本申请还涉及人工智能,本申请的数据处理方法可以应用于大数据和人工智能平台云计算服务的云服务器。
Description
技术领域
本申请涉及数据分析领域,尤其涉及一种数据处理方法、装置、计算机设备及存储介质。
背景技术
数据仓库在业务处理的过程中会产生大量数据,通过数据血缘关系分析能够快速确定数据的来源以及根据其生成的目标数据,但在数据仓库存储有大量数据的情况下,数据血缘关系容易出现环状结构,例如出现类似“节点1=>节点2=>节点3=>节点1”的数据血缘关系,而用户无法及时发现数据血缘关系中的死循环,导致计算机在执行环状结构的过程中消耗大量计算资源,甚至造成死机。
发明内容
本申请的主要目的在于提供一种数据处理方法、装置、设备及计算机存储介质,旨在对目标数据的血缘关系图中的环状结构进行识别以及处理,防止计算资源的浪费,提高计算系统的稳定性。
第一方面,本申请提供一种数据处理方法,所述数据处理方法包括以下步骤:
基于预设的血缘关系确定规则,确定多个目标数据之间的血缘关系;
根据所述多个目标数据之间的血缘关系生成血缘关系图,其中所述血缘关系图为有向图;
对所述血缘关系图进行识别,确定所述血缘关系图中的环状结构;
根据所述血缘关系图中的环状结构,对所述多个目标数据进行数据处理任务。
第二方面,本申请还提供一种数据处理装置,所述数据处理装置包括:
血缘关系确定模块,用于基于预设的血缘关系确定规则,确定多个目标数据之间的血缘关系;
血缘关系图生成模块,用于根据所述多个目标数据之间的血缘关系生成血缘关系图,其中所述血缘关系图为有向图;
血缘关系图识别模块,用于对所述血缘关系图进行识别,确定所述血缘关系图中的环状结构;
数据处理模块,用于根据所述血缘关系图中的环状结构,对所述多个目标数据进行数据处理任务。
第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的数据处理方法。
第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的数据处理方法。
本申请提供一种数据处理方法、装置、设备及计算机存储介质,本申请通过基于预设的血缘关系确定规则,确定多个目标数据之间的血缘关系;根据所述多个目标数据之间的血缘关系生成血缘关系图,其中所述血缘关系图为有向图;对所述血缘关系图进行识别,确定所述血缘关系图中的环状结构;根据所述血缘关系图中的环状结构,对所述多个目标数据进行数据处理任务。能够确定目标数据之间的血缘关系图,并对目标数据的血缘关系图中的环状结构进行识别以及处理,防止计算资源的浪费,提高计算系统的稳定性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的一种数据处理方法的流程示意图;
图2为本申请一实施例提供的一种数据处理方法的使用场景图;
图3为本申请一实施例提供的一种数据处理装置的示意性框图;
图4为本申请一实施例涉及的计算机设备的结构示意框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例提供一种数据处理方法、装置、计算机设备及计算机可读存储介质。
请参照图1,图1为本申请的实施例提供的一种数据处理方法的流程示意图。该数据处理方法可以用于终端或服务器中,以实现对终端或者服务器中的目标数据进行处理。其中,终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备;服务器可以为独立的服务器,也可以为服务器集群,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
请参照图2,图2是本申请一实施例提供的一种使用场景图。如图2所示,服务器能够根据自身处理目标数据产生的目标数据之间的血缘关系生成血缘关系图,根据所述血缘关系图进行数据处理任务,并将所述血缘关系图发送至终端,在所述终端中显示所述血缘关系图。可以理解的,图2中的服务器不限定于独立的服务器,也可以是包括多个服务节点的分布式计算系统,在此不做限定。
如图1所示,该数据处理方法包括步骤S101至步骤S104。
步骤S101、基于预设的血缘关系确定规则,确定多个目标数据之间的血缘关系。
示例性的,服务器能够根据预设的数据处理语句对业务系统产生的目标数据进行加工,例如数据的抽取、转换、清洗、装载等,以使目标数据符合数据仓库存储和查询的需要。
示例性的,基于预设的血缘关系确定规则,根据所述数据处理语句确定多个目标数据之间的血缘关系。
示例性的,所述数据处理语句可以是基于结构化查询语言(Structured QueryLanguage,简称SQL)编写的,当然也不限于此,也可以是基于其他语言编写的,在此不做限定。
以结构化查询语言为例,识别结构化查询语言中的预设语句,所述预设语句为数据处理语句中用于表示数据血缘关系的语句,例如可以是标识目标数据的转换、生成等操作。具体地,所述预设语句可以是结构化查询语言中的INSERT、CREAT等类型的语句,在此不做限定。
步骤S102、根据所述多个目标数据之间的血缘关系生成血缘关系图,其中所述血缘关系图为有向图。
示例性的,通过有向图(DirectedGraph)表示多个所述目标数据之间的血缘关系,即血缘关系图。标识数据血缘关系的有向图通常是有向无环图(Directed Acyclic Graph,简称DAG),但在实际应用中,通常难以确保数据血缘关系中不出现环状结构。
示例性的,所述血缘关系图包括用于表示多个所述目标数据的目标数据节点,以及用于表示多个所述目标数据节点之间血缘关系的数据流动方向。
示例性的,用户可以通过所述血缘关系图中的目标数据节点查看所述目标数据节点对应的目标数据,例如用户点击任意一个目标数据节点时,向用户展示该目标数据节点对应的目标数据,当然也不限于此。
示例性的,所述目标数据中可能存在敏感信息,为了防止所述敏感信息泄漏造成的风险,可以在生成所述血缘关系图时,对所述目标数据进行脱敏处理。
在一些实施方式中,步骤S102根据所述多个目标数据之间的血缘关系生成血缘关系图,包括:基于预设的敏感数据确定规则,确定所述目标数据中的敏感数据;基于预设的脱敏规则,对所述敏感数据进行脱敏处理;根据脱敏处理后的目标数据生成所述血缘关系图。
示例性的,所述敏感数据例如可以是手机号码、证件号码、账户号码等,服务器可以通过识别目标数据的字段名称或者目标数据的数据格式,确定所述目标数据是否为敏感数据。例如,若在所述字段名称中识别到预设关键字,则将该字段对应的目标数据确定为敏感数据;或者,若识别到目标数据格式符合预设的敏感数据格式,则将所述目标数据确定为敏感数据。
示例性的,基于预设的脱敏规则,对所述敏感数据进行脱敏处理,包括:基于预设的脱敏规则,确定所述敏感数据中的待替换字符;将所述待替换字符替换为预设的非敏感字符。
示例性的,所述脱敏规则可以根据敏感数据类型确定代替换字符,例如若所述敏感数据为手机号码,则根据预设的脱敏规则将所述敏感数据的后四位确定为待替换字符,当然也不限于此。
示例性的,所述非敏感字符例如可以是“*”号,当然也不限于此,在此不做限定。
示例性的,所述目标数据包括不同类型的数据,例如结构化查询语言中的数据类型包括文本、数字和日期等,为了方便用户通过血缘关系图查看特定数据类型目标数据之间的血缘关系,可以对用户选择的目标数据类型对应的目标数据生成血缘关系图。
在一些实施方式中,步骤S102根据所述多个目标数据之间的血缘关系生成血缘关系图,包括:根据用户选择的目标数据类型,在所述多个目标数据中确定所述目标数据类型对应的目标数据为候选目标数据;根据候选目标数据之间的血缘关系生成血缘关系图。
示例性的,用户可以选择文本数据作为目标数据类型,将数据类型为文本数据的目标数据确定为候选目标数据,生成文本数据对应的血缘关系图,以便用户清楚直观地了解特定数据类型的目标数据之间的数据血缘。
示例性的,所述血缘关系图还包括与各个目标数据节点对应的目标服务节点,即处理所述目标数据节点的目标数据的服务节点,以便用户在分布式系统中确定目标数据对应的服务节点,用户能够根据目标数据节点快速查找分布式系统中的服务节点,提高了分布式系统的维护效率。
步骤S103、对所述血缘关系图进行识别,确定所述血缘关系图中的环状结构。
示例性的,在数据仓库存储有大量数据的情况下,目标数据之间的血缘关系可能会出现环状结构,导致计算系统在执行环状结构时陷入死循环,消耗大量计算资源,为了防止这种情况的发生,需要对血缘关系图中的环状结构进行识别。
在一些实施方式中,步骤S103对所述血缘关系图进行识别,确定所述血缘关系图中的环状结构,包括:基于预设的深度优先算法,遍历所述血缘关系图,确定所述血缘关系图中的环状结构。
示例性的,基于预设的深度优先算法(DepthFirstSearch,简称DFS),根据所述血缘关系图中的数据流动方向,对所述目标数据节点进行遍历,若所述血缘关系图中存在被重复访问的目标数据节点,则表示所述血缘关系图中存在环状结构。
示例性的,可以通过数值记录遍历所述目标数据节点时的访问情况,例如通过数值0表示目标数据节点未被访问,通过数值1表示目标数据节点的访问次数为一次,通过数值2表示目标数据节点的访问次数大于一次,当然也不限于此。
示例性的,将所述血缘关系图中相邻的被重复访问的目标数据节点组成的有向图结构确定为所述环状结构。可以理解的,所述环状结构中的目标数据节点均为两两相邻的被重复访问的目标数据节点。
步骤S104、根据所述血缘关系图中的环状结构,对所述多个目标数据进行数据处理任务。
示例性的,为了防止执行环状结构的数据血缘关系消耗计算系统的计算资源,需要对识别出来的环状结构进行处理。
在一些实施方式中,步骤S104根据所述血缘关系图中的环状结构,对所述多个目标数据进行数据处理任务,包括:根据所述血缘关系图,查找与所述血缘关系图中环状结构对应的目标数据相关的数据处理任务;当确定有数据处理任务与所述血缘关系图中的环状结构对应的目标数据相关时,终止所述数据处理任务。
示例性的,通过对与所述血缘关系图中环状结构对应的目标数据相关的数据处理任务进行终止(kill)处理,防止计算资源的消耗。
示例性的,在终止所述数据处理任务之前,可以对用户进行提示,例如向用户显示即将终止的数据处理任务对应的任务信息,以便用户确认对所述数据处理任务进行终止处理。
在一些实施方式中,步骤S104根据所述血缘关系图中的环状结构,对所述多个目标数据进行数据处理任务,包括:根据所述血缘关系图,确定目标服务节点的当前数据处理量,所述目标服务节点为执行数据处理任务的分布式系统中的服务节点;若所述目标服务节点的当前数据处理量大于预设阈值,增加服务节点的数量,以将所述目标服务节点的数据处理任务分发至增加的服务节点。
示例性的,根据所述血缘关系图还可以确定各个目标数据节点对应的目标服务节点,即确定处理该目标数据节点对应的目标数据的服务节点,并通过血缘关系图确定所述目标服务节点的当前数据处理量,若所述目标服务节点的当前数据处理量大于预设阈值,则对所述当前数据处理量进行分散处理,将目标服务节点处理的目标数据分散到其他服务节点,以防止出现数据倾斜的情况,提高计算系统的稳定性。
在一些实施方式中,所述根据所述血缘关系图,确定目标服务节点的当前数据处理量,包括:根据所述血缘关系图,确定与所述目标服务节点连接的目标数据表;根据所述目标数据表的数据量,确定所述目标服务节点的当前数据处理量。
示例性的,根据目标服务节点与目标数据节点的对应关系,确定与所述目标服务节点连接的目标数据表。具体地,一个目标服务节点可以对应多个数据表,也可以只对应一个数据表。根据所述目标数据表的数据量,例如根据所述与目标服务节点连接的多个目标数据表的数据量总和,确定所述目标服务节点的当前数据处理量,当所述当前数据处理量大于所述目标服务节点对应的预设阈值时,将目标服务节点处理的目标数据分散到其他服务节点,提高计算系统的稳定性。
上述实施例提供的数据处理方法,通过基于预设的血缘关系确定规则,确定多个目标数据之间的血缘关系;根据所述多个目标数据之间的血缘关系生成血缘关系图,其中所述血缘关系图为有向图;对所述血缘关系图进行识别,确定所述血缘关系图中的环状结构;根据所述血缘关系图中的环状结构,对所述多个目标数据进行数据处理任务。能够确定目标数据之间的血缘关系图,并对目标数据的血缘关系图中的环状结构进行识别以及处理,防止计算资源的浪费,提高计算系统的稳定性。
请参阅图3,图3是本申请一实施例提供的一种数据处理装置的示意图,该数据处理装置可以配置于服务器或终端中,用于执行前述的数据处理方法。
如图3所示,该数据处理装置,包括:血缘关系确定模块110、血缘关系图生成模块120、血缘关系图识别模块130、数据处理模块140。
血缘关系确定模块110,用于基于预设的血缘关系确定规则,确定多个目标数据之间的血缘关系;
血缘关系图生成模块120,用于根据所述多个目标数据之间的血缘关系生成血缘关系图,其中所述血缘关系图为有向图;
血缘关系图识别模块130,用于对所述血缘关系图进行识别,确定所述血缘关系图中的环状结构;
数据处理模块140,用于根据所述血缘关系图中的环状结构,对所述多个目标数据进行数据处理任务。
示例性的,所述血缘关系图识别模块130还包括:血缘关系图识别子模块。
血缘关系图识别子模块,用于基于预设的深度优先算法,遍历所述血缘关系图,确定所述血缘关系图中的环状结构。
示例性的,所述血缘关系图生成模块120还包括:敏感数据确定模块、脱敏处理子模块、血缘关系图生成子模块。
敏感数据确定模块,用于基于预设的敏感数据确定规则,确定所述目标数据中的敏感数据。
脱敏处理子模块,用于基于预设的脱敏规则,对所述敏感数据进行脱敏处理。
血缘关系图生成子模块,用于根据脱敏处理后的目标数据生成所述血缘关系图。
示例性的,所述数据处理模块140还包括:任务查找模块、任务终止模块。
任务查找模块,用于根据所述血缘关系图,查找与所述血缘关系图中环状结构对应的目标数据相关的数据处理任务。
任务终止模块,用于当确定有数据处理任务与所述血缘关系图中的环状结构对应的目标数据相关时,终止所述数据处理任务。
示例性的,所述血缘关系图生成模块120还包括:候选目标数据确定模块、候选目标数据关系图生成模块。
候选目标数据确定模块,用于根据用户选择的目标数据类型,在所述多个目标数据中确定所述目标数据类型对应的目标数据为候选目标数据。
候选目标数据关系图生成模块,用于根据候选目标数据之间的血缘关系生成血缘关系图。
示例性的,所述数据处理模块140还包括:数据处理量确定模块、数据处理任务分发模块。
数据处理量确定模块,用于根据所述血缘关系图,确定目标服务节点的当前数据处理量,所述目标服务节点为执行数据处理任务的分布式系统中的服务节点。
数据处理任务分发模块,用于若所述目标服务节点的当前数据处理量大于预设阈值,增加服务节点的数量,以将所述目标服务节点的数据处理任务分发至增加的服务节点。
示例性的,所述数据处理量确定模块还包括:目标数据表确定模块、数据处理量确定子模块。
目标数据表确定模块,用于根据所述血缘关系图,确定与所述目标服务节点连接的目标数据表。
数据处理量确定子模块,用于根据所述目标数据表的数据量,确定所述目标服务节点的当前数据处理量。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
示例性地,上述的方法、装置可以实现为一种计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
请参阅图4,图4为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器或终端。
如图4所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括存储介质和内存储器。
存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种数据处理方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种数据处理方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
基于预设的血缘关系确定规则,确定多个目标数据之间的血缘关系;
根据所述多个目标数据之间的血缘关系生成血缘关系图,其中所述血缘关系图为有向图;
对所述血缘关系图进行识别,确定所述血缘关系图中的环状结构;
根据所述血缘关系图中的环状结构,对所述多个目标数据进行数据处理任务。
在一个实施例中,所述处理器在实现所述对所述血缘关系图进行识别,确定所述血缘关系图中的环状结构时,用于实现:
基于预设的深度优先算法,遍历所述血缘关系图,确定所述血缘关系图中的环状结构。
在一个实施例中,所述处理器在实现所述根据所述多个目标数据之间的血缘关系生成血缘关系图时,用于实现:
基于预设的敏感数据确定规则,确定所述目标数据中的敏感数据;
基于预设的脱敏规则,对所述敏感数据进行脱敏处理;
根据脱敏处理后的目标数据生成所述血缘关系图。
在一个实施例中,所述处理器在实现所述根据所述血缘关系图中的环状结构,对所述多个目标数据进行数据处理任务时,用于实现:
根据所述血缘关系图,查找与所述血缘关系图中环状结构对应的目标数据相关的数据处理任务;
当确定有数据处理任务与所述血缘关系图中的环状结构对应的目标数据相关时,终止所述数据处理任务。
在一个实施例中,所述处理器在实现所述根据所述多个目标数据之间的血缘关系生成血缘关系图时,用于实现:
根据用户选择的目标数据类型,在所述多个目标数据中确定所述目标数据类型对应的目标数据为候选目标数据;
根据候选目标数据之间的血缘关系生成血缘关系图。
在一个实施例中,所述处理器在实现所述根据所述血缘关系图中的环状结构,对所述多个目标数据进行数据处理任务时,用于实现:
根据所述血缘关系图,确定目标服务节点的当前数据处理量,所述目标服务节点为执行数据处理任务的分布式系统中的服务节点;
若所述目标服务节点的当前数据处理量大于预设阈值,增加服务节点的数量,以将所述目标服务节点的数据处理任务分发至增加的服务节点。
在一个实施例中,所述处理器在实现所述根据所述血缘关系图,确定目标服务节点的当前数据处理量时,用于实现:
根据所述血缘关系图,确定与所述目标服务节点连接的目标数据表;
根据所述目标数据表的数据量,确定所述目标服务节点的当前数据处理量。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述数据处理的具体工作过程,可以参考前述数据处理控制方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本申请数据处理方法的各个实施例。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种数据处理方法,其特征在于,所述数据处理方法包括:
基于预设的血缘关系确定规则,确定多个目标数据之间的血缘关系;
根据所述多个目标数据之间的血缘关系生成血缘关系图,其中所述血缘关系图为有向图;
对所述血缘关系图进行识别,确定所述血缘关系图中的环状结构;
根据所述血缘关系图中的环状结构,对所述多个目标数据进行数据处理任务。
2.根据权利要求1所述的数据处理方法,其特征在于,所述对所述血缘关系图进行识别,确定所述血缘关系图中的环状结构,包括:
基于预设的深度优先算法,遍历所述血缘关系图,确定所述血缘关系图中的环状结构。
3.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述多个目标数据之间的血缘关系生成血缘关系图,包括:
基于预设的敏感数据确定规则,确定所述目标数据中的敏感数据;
基于预设的脱敏规则,对所述敏感数据进行脱敏处理;
根据脱敏处理后的目标数据生成所述血缘关系图。
4.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述血缘关系图中的环状结构,对所述多个目标数据进行数据处理任务,包括:
根据所述血缘关系图,查找与所述血缘关系图中环状结构对应的目标数据相关的数据处理任务;
当确定有数据处理任务与所述血缘关系图中的环状结构对应的目标数据相关时,终止所述数据处理任务。
5.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述多个目标数据之间的血缘关系生成血缘关系图,包括:
根据用户选择的目标数据类型,在所述多个目标数据中确定所述目标数据类型对应的目标数据为候选目标数据;
根据候选目标数据之间的血缘关系生成血缘关系图。
6.根据权利要求1-5任一项所述的数据处理方法,其特征在于,所述根据所述血缘关系图中的环状结构,对所述多个目标数据进行数据处理任务,包括:
根据所述血缘关系图,确定目标服务节点的当前数据处理量,所述目标服务节点为执行数据处理任务的分布式系统中的服务节点;
若所述目标服务节点的当前数据处理量大于预设阈值,增加服务节点的数量,以将所述目标服务节点的数据处理任务分发至增加的服务节点。
7.根据权利要求6所述的数据处理方法,其特征在于,所述根据所述血缘关系图,确定目标服务节点的当前数据处理量,包括:
根据所述血缘关系图,确定与所述目标服务节点连接的目标数据表;
根据所述目标数据表的数据量,确定所述目标服务节点的当前数据处理量。
8.一种数据血缘分析装置,其特征在于,所述数据血缘分析装置包括:
血缘关系确定模块,用于基于预设的血缘关系确定规则,确定多个目标数据之间的血缘关系;
血缘关系图生成模块,用于根据所述多个目标数据之间的血缘关系生成血缘关系图,其中所述血缘关系图为有向图;
血缘关系图识别模块,用于对所述血缘关系图进行识别,确定所述血缘关系图中的环状结构;
数据处理模块,用于根据所述血缘关系图中的环状结构,对所述多个目标数据进行数据处理任务。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210588667.2A CN114969194A (zh) | 2022-05-27 | 2022-05-27 | 数据处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210588667.2A CN114969194A (zh) | 2022-05-27 | 2022-05-27 | 数据处理方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114969194A true CN114969194A (zh) | 2022-08-30 |
Family
ID=82956293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210588667.2A Pending CN114969194A (zh) | 2022-05-27 | 2022-05-27 | 数据处理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114969194A (zh) |
-
2022
- 2022-05-27 CN CN202210588667.2A patent/CN114969194A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110506271B (zh) | 针对隐私敏感用户内容的可配置注释 | |
CN110447035B (zh) | 结构化用户数据文件中用户内容模糊 | |
US11216587B2 (en) | Log tokenization in an integration platform | |
CA3059709A1 (en) | Risk analysis method, device and computer readable medium | |
US10671753B2 (en) | Sensitive data loss protection for structured user content viewed in user applications | |
CN109522751B (zh) | 访问权限控制方法、装置、电子设备及计算机可读介质 | |
CN111046237A (zh) | 用户行为数据处理方法、装置、电子设备及可读介质 | |
CN110688096A (zh) | 包含插件的应用程序的构建方法、装置、介质及电子设备 | |
CN111885184A (zh) | 高并发场景下热点访问关键字处理方法和装置 | |
CN116594683A (zh) | 一种代码注释信息生成方法、装置、设备及存储介质 | |
CN110888972A (zh) | 一种基于Spark Streaming的敏感内容识别方法及装置 | |
CN114969194A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN110674383A (zh) | 舆情查询方法、装置及设备 | |
CN113535565B (zh) | 一种接口用例生成方法、装置、设备和介质 | |
CN112214497A (zh) | 一种标签的处理方法、装置及计算机系统 | |
US11769005B2 (en) | Information uniqueness assessment using string-based collection frequency | |
US20230259650A1 (en) | System and method for data privacy policy generation and implementation | |
CN115329013A (zh) | 数据仓库的检测方法、装置、设备及存储介质 | |
CN117370343A (zh) | 数据库数据处理方法、装置、介质及电子设备 | |
CN111897807A (zh) | 一种数据处理方法以及策略引擎系统 | |
CN117390023A (zh) | 数据合计方法、数据合计装置、设备及存储介质 | |
CN113760893A (zh) | 指令控制方法、装置、计算机系统和计算机可读存储介质 | |
CN113901834A (zh) | 文本展示方法及其装置、计算机存储介质、电子设备 | |
CN116383780A (zh) | 代码数据处理方法、装置、计算机介质及电子设备 | |
CN114490891A (zh) | 数据处理方法、装置、设备、介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |