CN114780551A - 一种识别特定类型的数据的方法及装置 - Google Patents

一种识别特定类型的数据的方法及装置 Download PDF

Info

Publication number
CN114780551A
CN114780551A CN202210529331.9A CN202210529331A CN114780551A CN 114780551 A CN114780551 A CN 114780551A CN 202210529331 A CN202210529331 A CN 202210529331A CN 114780551 A CN114780551 A CN 114780551A
Authority
CN
China
Prior art keywords
node
data
label
root
tree structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210529331.9A
Other languages
English (en)
Inventor
孙科
郭俊
韩帅
陈镇秋
梁栋
罗旋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Volcano Engine Technology Co Ltd
Original Assignee
Beijing Volcano Engine Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Volcano Engine Technology Co Ltd filed Critical Beijing Volcano Engine Technology Co Ltd
Priority to CN202210529331.9A priority Critical patent/CN114780551A/zh
Publication of CN114780551A publication Critical patent/CN114780551A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种识别特定类型的数据的方法,包括:服务端可以获取由多个字段构成的树结构的根节点的节点标签,一个字段对应树结构中的一个节点,节点标签,用于指示节点对应的字段是否为特定类型的数据。换言之,根节点的节点标签,可以用于指示根节点对应的字段是否为特定类型的数据。其中,多个字段包括至少一个数据表中的字段。获取根节点的节点标签之后,可以基于根节点的标签和标签传播算法,确定树结构的非根节点的节点标签。确定非根节点的节点标签,即确定了非根节点对应的字段是否为特定类型的数据。利用本方案,与采用人工的方式来识别至少一个数据表中的字段是否为特定类型的数据相比,可以极大地提升识别特定类型的数据的效率。

Description

一种识别特定类型的数据的方法及装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种识别特定类型的数据的方法及装置。
背景技术
在一些场景中,需要识别特定类型的数据。
目前,可以采用人工识别的方式来识别特定类型的数据,但是,采用人工识别的方式,识别效率较低。
因此,急需一种方案,能够提升识别特定类型的数据的效率。
发明内容
本申请所要解决的技术问题是如何能够提升识别特定类型的数据的效率,提供一种识别特定类型的数据的方法及装置。
第一方面,本申请实施例提供了一种识别特定类型的数据的方法,所述方法包括:
获取由多个字段构成的树结构的根节点的节点标签,一个所述字段对应所述树结构中的一个节点,所述节点标签,用于指示节点对应的字段是否为特定类型的数据,所述多个字段包括至少一个数据表中的字段;
基于所述根节点的标签和标签传播算法,确定所述树结构的非根节点的节点标签。
可选的,所述树结构,通过如下方式获得:
获取多个数据表;
确定所述多个数据表之间的依赖关系以及每个数据表中的各个字段之间的依赖关系;
基于所述多个数据表之间的依赖关系、以及每个数据表中的各个字段之间的依赖关系,确定所述多个数据表所包括的字段之间的依赖关系,得到所述树结构。
可选的,所述树结构为针对第一业务的树结构,所述确定所述多个数据表之间的依赖关系,包括:
根据所述多个数据表的业务适用范围,确定与所述第一业务对应的、所述多个数据表之间的依赖关系。
可选的,所述根节点的节点标签,是预先确定的,所述根节点的节点标签,通过如下方式预先确定:
获取用户输入的所述根节点的节点标签。
可选的,所述根节点的节点标签,是预先确定的,所述根节点的节点标签,通过如下方式预先确定:
根据预先确定的数据判断规范,确定所述根节点的节点标签。
可选的,所述根节点的节点标签,是预先确定的,所述根节点的节点标签,通过如下方式预先确定:
将所述根节点对应的字段与预先确定的数据库进行比对,从而确定所述根节点的节点标签,其中,所述数据库中存储有多个所述特定类型的数据。
可选的,所述树结构包括第一节点和第二节点,所述第一节点为所述第二节点的上游节点,所述第二节点的节点标签,通过如下方式确定:
基于所述第一节点的节点标签以及第一计算表达式,确定所述第二节点的节点标签,所述第二节点对应的字段的值,为利用所述第一计算表达式对所述第一节点对应的字段的值进行计算得到。
可选的,所述多个数据表为hive表。
第二方面,本申请实施例提供了一种识别特定类型的数据的装置,所述装置包括:
获取单元,用于获取由多个字段构成的树结构的根节点的节点标签,一个所述字段对应所述树结构中的一个节点,所述节点标签,用于指示节点对应的字段是否为特定类型的数据,所述多个字段包括至少一个数据表中的字段;
确定单元,用于基于所述根节点的标签和标签传播算法,确定所述树结构的非根节点的节点标签。
可选的,所述树结构,通过如下方式获得:
获取多个数据表;
确定所述多个数据表之间的依赖关系以及每个数据表中的各个字段之间的依赖关系;
基于所述多个数据表之间的依赖关系、以及每个数据表中的各个字段之间的依赖关系,确定所述多个数据表所包括的字段之间的依赖关系,得到所述树结构。
可选的,所述树结构为针对第一业务的树结构,所述确定所述多个数据表之间的依赖关系,包括:
根据所述多个数据表的业务适用范围,确定与所述第一业务对应的、所述多个数据表之间的依赖关系。
可选的,所述根节点的节点标签,是预先确定的,所述根节点的节点标签,通过如下方式预先确定:
获取用户输入的所述根节点的节点标签。
可选的,所述根节点的节点标签,是预先确定的,所述根节点的节点标签,通过如下方式预先确定:
根据预先确定的数据判断规范,确定所述根节点的节点标签。
可选的,所述根节点的节点标签,是预先确定的,所述根节点的节点标签,通过如下方式预先确定:
将所述根节点对应的字段与预先确定的数据库进行比对,从而确定所述根节点的节点标签,其中,所述数据库中存储有多个所述特定类型的数据。
可选的,所述树结构包括第一节点和第二节点,所述第一节点为所述第二节点的上游节点,所述第二节点的节点标签,通过如下方式确定:
基于所述第一节点的节点标签以及第一计算表达式,确定所述第二节点的节点标签,所述第二节点对应的字段的值,为利用所述第一计算表达式对所述第一节点对应的字段的值进行计算得到。
可选的,所述多个数据表为hive表。
第三方面,本申请实施例提供了一种设备,所述设备包括处理器和存储器;
所述处理器用于执行所述存储器中存储的指令,以使得所述设备执行如以上第一方面中任一项所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,包括指令,所述指令指示设备执行如以上第一方面中任一项所述的方法。
第五方面,本申请实施例提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行以上第一方面任一项所述的方法。
与现有技术相比,本申请实施例具有以下优点:
本申请实施例提供了一种识别特定类型的数据的方法,在一个示例中,所述方法可以由服务端执行。所述服务端可以获取由多个字段构成的树结构的根节点的节点标签,一个所述字段对应所述树结构中的一个节点,所述节点标签,用于指示节点对应的字段是否为特定类型的数据。换言之,所述根节点的节点标签,可以用于指示所述根节点对应的字段是否为特定类型的数据。其中,所述多个字段包括至少一个数据表中的字段。获取根节点的节点标签之后,可以基于所述根节点的标签和标签传播算法,确定所述树结构的非根节点的节点标签。确定所述非根节点的节点标签,即确定了所述非根节点对应的字段是否为所述特定类型的数据。而服务端基于根节点的节点标签和标签传播算法确定所述非根节点的节点标签的耗时较短,由此可见,利用本方案,与采用人工的方式来识别至少一个数据表中的字段是否为特定类型的数据相比,可以极大地提升识别特定类型的数据的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种识别特定类型的数据的方法的流程示意图;
图2为本申请实施例提供的一种构建树结构的方法的流程示意图;
图3为本申请实施例提供的一种识别特定类型的数据的装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的发明人经过研究发现,目前,可以采用人工识别的方式来识别特定类型的数据,但是,采用人工识别的方式,识别效率较低,尤其是当待识别的数据较多时,采用人工识别的方式所需的耗时将会非常长。另外,采用人工识别的方式,识别结果也会收到人为主观因素的影响,从而使得识别结果的准确性也难以得到保障。
为了解决上述问题,本申请实施例提供了一种识别特定类型的数据的方法及装置。
下面结合附图,详细说明本申请的各种非限制性实施方式。
示例性方法
参见图1,该图为本申请实施例提供的一种识别特定类型的数据的方法的流程示意图。在一个示例中,所述方法可以由服务端执行。在本实施例中,所述方法例如可以包括以下步骤:S101-S102。
S101:获取由多个字段构成的树结构的根节点的节点标签,一个所述字段对应的所述树结构的一个节点,所述节点标签,用于指示节点对应的字段是否为特定类型的数据,所述多个字段包括至少一个数据表中的字段。
在本申请实施例中,所述树结构包括根节点和非根节点,所述非根节点指的是所述树结构中除了根节点之外的其它节点。所述非根节点可以包括中间节点和叶子节点。在本申请实施例中,对于所述树结构中具备关联关系的两个节点,例如第一节点和第二节点而言,假设第一节点是第二节点的上游节点,则所述第一节点对应的字段和所述第二节点对应的字段之间具备一定的依赖关系。例如,所述第一节点对应的字段的值经过第一计算表达式进行计算之后,可以得到所述第二字段的值。
此处提及的第一节点对应的字段和第二节点对应的字段,可以是同一数据表中的字段,也可以是不同数据表中的字段,本申请实施例不做具体限定。
关于所述数据表,需要说明的是,在一个示例中,所述数据表可以是离线数仓中的hive表。在一个示例中,可以从各个业务系统中获取业务数据表,而后,将所述业务数据表转换成所述hive表。此处提及的业务系统,可以是MySQL系统,也可以是kafka系统,还可以是Redis系统,本申请实施例不做具体限定。
关于所述树结构,需要说明的是,在一个示例中,所述树结构可以是对多个数据表(例如hive数据表)进行分析得到的。参见图2,该图为本申请实施例提供的一种构建树结构的方法的流程示意图。图2所示的方法,可以包括如下S201-S203。
S201:获取多个数据表。
S201在具体实现时,例如可以从离线数仓中获取所述多个数据表。关于所述多个数据表,可以参考上文的相关描述部分,此次不做详细描述。
S202:确定所述多个数据表之间的依赖关系、以及每个数据表中的各个字段之间的依赖关系。
在一个示例中,可以基于所述多个数据表的配置文件,得到所述多个数据表之间的依赖关系以及每个数据表中的各个字段之间的依赖关系。其中,所述数据表的配置文件中记录了所述多个数据表的生成方式、以及各个数据表中的各个字段的生成方式。因此,基于所述数据表的配置文件,可以确定所述多个数据表之间的依赖关系以及每个数据表中的各个字段之间的依赖关系。
关于所述多个数据表的配置文件,需要说明的是:
在一个示例中,若所述多个数据表是由MySQL系统中获取的业务数据表转换得到,则所述配置文件为MySQL文件;在另一个示例中,若所述多个数据表是由kafka系统中获取的业务数据表转换得到,则所述配置文件为kafka文件;在又一个示例中,若所述多个数据表是由Redis系统中获取的业务数据表转换得到,则所述配置文件为Redis文件。
在本申请实施例中,两个数据表之间具有依赖关系,指的是这两个数据表存储的数据之间存在一定的关联关系,例如,表B中的数据依赖表A中的部分数据获得。
在本申请实施例中,两个字段之间的依赖关系,指的是两个字段对应的值之间的关联关系,例如,如上文所述,所述第一节点对应的字段的值经过第一计算表达式进行计算之后,可以得到所述第二字段的值,则第一节点对应的字段和第二节点对应的字段之间具备依赖关系。
在一个示例中,考虑到对于所述多个数据表而言,所述多个数据表中可以包括多个业务对应的数据,每个表的业务适用范围可能不同,在一个示例中,对于所述每个业务数据表而言,其可以具备对应的业务适用范围标签,该业务适用范围用于指示所述每个业务数据表所适用的业务范围。相应的,在一个示例中,在识别特定类型的数据时,也可以识别某一业务对应的数据中的所述特定类型的数据。例如,识别所述第一业务对应的数据中的所述特定类型的数据。对于这种情况,S101中提及的树结构,可以指的是与所述第一业务对应的树结构。
当S101中提及的树结构为与所述第一业务对应的树结构时,S202在具体实现时,可以根据所述多个数据表的业务适用范围,确定与所述第一业务对应的、所述多个数据表之间的依赖关系。
举例说明:所述多个业务表包括业务表1和业务表2,业务表1的业务适用范围标识业务表1适用业务1和业务2,而业务表2的业务适用范围标识业务表2适用业务1,则在确定与业务2对应的树结构时,则无需考虑业务表1和业务表2之间的依赖关系。
再举例说明:所述多个业务表包括业务表3和业务表4,业务表3的业务适用范围标识业务表3适用业务1和业务2,而业务表4的业务适用范围标识业务表2适用业务1,则在确定与业务1对应的树结构时,可以结合业务表3和业务表4之间的依赖关系,来确定所述业务1对应的树结构。
S203:基于所述多个数据表之间的依赖关系、以及每个数据表中的各个字段之间的依赖关系,确定所述多个数据表所包括的字段之间的依赖关系,得到所述树结构。
不难理解的是,确定每个数据表中的各个字段之间的依赖关系之后,即可获得每个数据表分别对应的“子树”,而后,在基于多个数据表之间的依赖关系,则获得所述多个“子树”之间的依赖关系,从而基于所述多个“子树”以及所述多个“子树”之间的依赖关系,得到所述树结构。
在本申请实施例中,节点标签用于指示节点对应的字段是否为特定类型的数据,也就是说,根节点的节点标签,用于指示根节点对应的字段是否为特定类型的数据。本申请实施例不具体限定所述特定类型,所述特定类型可以根据实际情况确定。为了实现数据保护,需要识别出特定类型的数据,从而对特定类型的敏感数据进行脱敏处理以达到保护数据隐私的目的。
关于所述根节点的节点标签,需要说明的是,在一个示例中,所述根节点的节点标签,可以是预先确定的。以下介绍几种预先确定所述根节点的节点标签的确定方式:
第一种方式:
所述根节点的节点标签,可以是人工标注的。例如,确定所述树结构之后,可以输出所述树结构的根节点对应的字段,由用户对所述根节点对应的字段进行标注。对于这种情况,可以获取用户输入的所述根节点的节点标签。
第二种实现方式:
所述服务端可以根据预先确定的数据判断规范,确定所述根节点的节点标签。例如,所述数据判断规范指示了所述特定类型的数据的数据特点,所述服务器可以对所述根节点对应的字段进行判断,以确定所述根节点对应的字段是否符合所述数据特点,从而确定所述根节点的节点标签。
第三种实现方式:
所述服务端可以基于预先确定的数据库,确定所述根节点的节点标签。其中,所述数据库中存储有多个所述特定类型的数据。对于这种情况,所述服务端可以将所述根节点对应的字段与所述数据库进行匹配,例如,将所述根节点对应的字段与所述数据库中的数据进行语义匹配,并根据所述匹配结果确定所述根节点的节点标签。例如,所述数据库中包括与所述根节点对应的字段的语义相匹配的数据,则所确定的所述根节点的节点标签,用于指示所述根节点对应的字段为特定类型的数据;又如,所述数据库中不包括与所述根节点对应的字段的语义相匹配的数据,则所确定的所述根节点的节点标签,用于指示所述根节点对应的字段不是特定类型的数据。
S102:基于所述根节点的标签和标签传播算法,确定所述树结构的非根节点的节点标签。
确定所述根节点的节点标签之后,可以基于所述根节点的标签和标签传播算法,确定所述非根节点的节点标签。
现以所述树结构中的第一节点和第二节点为例,介绍S102的一种实现方式。
如前对于第一节点和第二节点的描述可知,所述第二节点对应的字段的值,为利用所述第一计算表达式对所述第一节点对应的字段的值进行计算得到。对于这种情况,所述第二节点的节点标签,可以根据所述第一节点的节点标签和所述第一计算表达式得到。
关于所述第一节点的节点标签和第二节点的节点标签,现以所述特定类型的数据为敏感数据为例进行说明。
在一个示例中,若所述第一节点对应的字段为敏感数据,并且,所述第一计算表达式并非脱敏处理的表达式,则所述第二节点对应的字段也为敏感数据。
在又一个示例中,若所述第一节点对应的字段为非敏感数据,则所述第二节点对应的字段也为非敏感数据。
在另一个示例中,若所述第一节点对应的字段为敏感数据,并且,所述第一计算表达式为脱敏处理的表达式,则所述第二节点对应的字段为非敏感数据。
通过以上描述可知,利用本申请实施例提供的方案,服务端可以基于根节点的节点标签和标签传播算法确定所述非根节点的节点标签,而服务端基于根节点的节点标签和标签传播算法确定所述非根节点的节点标签的耗时较短,由此可见,利用本方案,与采用人工的方式来识别至少一个数据表中的字段是否为特定类型的数据相比,可以极大地提升识别特定类型的数据的效率。
示例性设备
基于以上实施例提供的方法,本申请实施例还提供了一种装置,以下结合附图介绍该装置。
参见图3,图3为本申请实施例提供的一种识别特定类型的数据的装置的结构示意图。所述装置300例如可以具体包括:获取单元301和确定单元302。
获取单元301,用于获取由多个字段构成的树结构的根节点的节点标签,一个所述字段对应所述树结构中的一个节点,所述节点标签,用于指示节点对应的字段是否为特定类型的数据,所述多个字段包括至少一个数据表中的字段;
确定单元302,用于基于所述根节点的标签和标签传播算法,确定所述树结构的非根节点的节点标签。
可选的,所述树结构,通过如下方式获得:
获取多个数据表;
确定所述多个数据表之间的依赖关系以及每个数据表中的各个字段之间的依赖关系;
基于所述多个数据表之间的依赖关系、以及每个数据表中的各个字段之间的依赖关系,确定所述多个数据表所包括的字段之间的依赖关系,得到所述树结构。
可选的,所述树结构为针对第一业务的树结构,所述确定所述多个数据表之间的依赖关系,包括:
根据所述多个数据表的业务适用范围,确定与所述第一业务对应的、所述多个数据表之间的依赖关系。
可选的,所述根节点的节点标签,是预先确定的,所述根节点的节点标签,通过如下方式预先确定:
获取用户输入的所述根节点的节点标签。
可选的,所述根节点的节点标签,是预先确定的,所述根节点的节点标签,通过如下方式预先确定:
根据预先确定的数据判断规范,确定所述根节点的节点标签。
可选的,所述根节点的节点标签,是预先确定的,所述根节点的节点标签,通过如下方式预先确定:
将所述根节点对应的字段与预先确定的数据库进行比对,从而确定所述根节点的节点标签,其中,所述数据库中存储有多个所述特定类型的数据。
可选的,所述树结构包括第一节点和第二节点,所述第一节点为所述第二节点的上游节点,所述第二节点的节点标签,通过如下方式确定:
基于所述第一节点的节点标签以及第一计算表达式,确定所述第二节点的节点标签,所述第二节点对应的字段的值,为利用所述第一计算表达式对所述第一节点对应的字段的值进行计算得到。
可选的,所述多个数据表为hive表。
由于所述装置300是与以上方法实施例提供的方法对应的装置,所述装置300的各个单元的具体实现,均与以上方法实施例为同一构思,因此,关于所述装置300的各个单元的具体实现,可以参考以上方法实施例的描述部分,此处不再赘述。
本申请实施例还提供了一种设备,所述设备包括处理器和存储器;
所述处理器用于执行所述存储器中存储的指令,以使得所述设备执行以上方法实施例提供的识别特定类型的数据的方法。
本申请实施例提供了一种计算机可读存储介质,包括指令,所述指令指示设备执行以上方法实施例提供的识别特定类型的数据的方法。
本申请实施例还提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行以上方法实施例提供的识别特定类型的数据的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (11)

1.一种识别特定类型的数据的方法,其特征在于,所述方法包括:
获取由多个字段构成的树结构的根节点的节点标签,一个所述字段对应所述树结构中的一个节点,所述节点标签,用于指示节点对应的字段是否为特定类型的数据,所述多个字段包括至少一个数据表中的字段;
基于所述根节点的标签和标签传播算法,确定所述树结构的非根节点的节点标签。
2.根据权利要求1所述的方法,其特征在于,所述树结构,通过如下方式获得:
获取多个数据表;
确定所述多个数据表之间的依赖关系以及每个数据表中的各个字段之间的依赖关系;
基于所述多个数据表之间的依赖关系、以及每个数据表中的各个字段之间的依赖关系,确定所述多个数据表所包括的字段之间的依赖关系,得到所述树结构。
3.根据权利要求2所述的方法,其特征在于,所述树结构为针对第一业务的树结构,所述确定所述多个数据表之间的依赖关系,包括:
根据所述多个数据表的业务适用范围,确定与所述第一业务对应的、所述多个数据表之间的依赖关系。
4.根据权利要求1所述的方法,其特征在于,所述根节点的节点标签,是预先确定的,所述根节点的节点标签,通过如下方式预先确定:
获取用户输入的所述根节点的节点标签。
5.根据权利要求1所述的方法,其特征在于,所述根节点的节点标签,是预先确定的,所述根节点的节点标签,通过如下方式预先确定:
根据预先确定的数据判断规范,确定所述根节点的节点标签。
6.根据权利要求1所述的方法,其特征在于,所述根节点的节点标签,是预先确定的,所述根节点的节点标签,通过如下方式预先确定:
将所述根节点对应的字段与预先确定的数据库进行比对,从而确定所述根节点的节点标签,其中,所述数据库中存储有多个所述特定类型的数据。
7.根据权利要求1所述的方法,其特征在于,所述树结构包括第一节点和第二节点,所述第一节点为所述第二节点的上游节点,所述第二节点的节点标签,通过如下方式确定:
基于所述第一节点的节点标签以及第一计算表达式,确定所述第二节点的节点标签,所述第二节点对应的字段的值,为利用所述第一计算表达式对所述第一节点对应的字段的值进行计算得到。
8.根据权利要求1所述的方法,其特征在于,所述多个数据表为hive表。
9.一种识别特定类型的数据的装置,其特征在于,所述装置包括:
获取单元,用于获取由多个字段构成的树结构的根节点的节点标签,一个所述字段对应所述树结构中的一个节点,所述节点标签,用于指示节点对应的字段是否为特定类型的数据,所述多个字段包括至少一个数据表中的字段;
确定单元,用于基于所述根节点的标签和标签传播算法,确定所述树结构的非根节点的节点标签。
10.一种设备,其特征在于,所述设备包括处理器和存储器;
所述处理器用于执行所述存储器中存储的指令,以使得所述设备执行如权利要求1至8中任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,包括指令,所述指令指示设备执行如权利要求1至8中任一项所述的方法。
CN202210529331.9A 2022-05-16 2022-05-16 一种识别特定类型的数据的方法及装置 Pending CN114780551A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210529331.9A CN114780551A (zh) 2022-05-16 2022-05-16 一种识别特定类型的数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210529331.9A CN114780551A (zh) 2022-05-16 2022-05-16 一种识别特定类型的数据的方法及装置

Publications (1)

Publication Number Publication Date
CN114780551A true CN114780551A (zh) 2022-07-22

Family

ID=82437873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210529331.9A Pending CN114780551A (zh) 2022-05-16 2022-05-16 一种识别特定类型的数据的方法及装置

Country Status (1)

Country Link
CN (1) CN114780551A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763952A (zh) * 2018-05-03 2018-11-06 阿里巴巴集团控股有限公司 一种数据分类方法、装置及电子设备
CN109409121A (zh) * 2018-09-07 2019-03-01 阿里巴巴集团控股有限公司 脱敏处理方法、装置和服务器
CN112000748A (zh) * 2020-07-14 2020-11-27 北京神州泰岳智能数据技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN113672653A (zh) * 2021-08-09 2021-11-19 支付宝(杭州)信息技术有限公司 识别数据库中的隐私数据的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763952A (zh) * 2018-05-03 2018-11-06 阿里巴巴集团控股有限公司 一种数据分类方法、装置及电子设备
CN109409121A (zh) * 2018-09-07 2019-03-01 阿里巴巴集团控股有限公司 脱敏处理方法、装置和服务器
CN112000748A (zh) * 2020-07-14 2020-11-27 北京神州泰岳智能数据技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN113672653A (zh) * 2021-08-09 2021-11-19 支付宝(杭州)信息技术有限公司 识别数据库中的隐私数据的方法和装置

Similar Documents

Publication Publication Date Title
CN107463661B (zh) 数据的导入方法及装置
US20210319173A1 (en) Determining syntax parse trees for extracting nested hierarchical structures from text data
US8869111B2 (en) Method and system for generating test cases for a software application
US9977995B2 (en) Image clustering method, image clustering system, and image clustering server
US9116879B2 (en) Dynamic rule reordering for message classification
US20100254613A1 (en) System and method for duplicate text recognition
US10248626B1 (en) Method and system for document similarity analysis based on common denominator similarity
CN113448935B (zh) 用于提供日志信息的方法、电子设备和计算机程序产品
US10915534B2 (en) Extreme value computation
CN110162637B (zh) 信息图谱构建方法、装置及设备
CN111831920A (zh) 用户需求分析方法、装置、计算机设备及存储介质
CN114780551A (zh) 一种识别特定类型的数据的方法及装置
CN108229137B (zh) 一种分配文档权限的方法及装置
CN114996360B (zh) 数据分析方法、系统、可读存储介质及计算机设备
US20130311967A1 (en) Method and System for Collapsing Functional Similarities and Consolidating Functionally Similar, Interacting Systems
CN113468037A (zh) 一种数据质量评估方法、装置、介质和电子设备
CN110909538A (zh) 问答内容的识别方法、装置、终端设备及介质
CN113191777A (zh) 风险识别方法和装置
CN113342647A (zh) 一种测试数据的生成方法及装置
CN115203500A (zh) 一种用户标签的丰富方法、装置、计算机设备和存储介质
CN113742116A (zh) 一种异常定位方法及装置、设备、存储介质
CN110781309A (zh) 一种基于模式匹配的实体并列关系相似度计算方法
KR20210023453A (ko) 리뷰 광고 매칭 장치 및 방법
CN110362595A (zh) 一种sql语句动态解析方法
CN110795686B (zh) 用于提供数据支持的数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination