CN113672977A - 隐私数据处理方法和装置 - Google Patents
隐私数据处理方法和装置 Download PDFInfo
- Publication number
- CN113672977A CN113672977A CN202110932430.7A CN202110932430A CN113672977A CN 113672977 A CN113672977 A CN 113672977A CN 202110932430 A CN202110932430 A CN 202110932430A CN 113672977 A CN113672977 A CN 113672977A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- private data
- relationship
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 22
- 239000008280 blood Substances 0.000 claims abstract description 134
- 210000004369 blood Anatomy 0.000 claims abstract description 134
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims description 22
- 238000000547 structure data Methods 0.000 claims description 12
- 238000007726 management method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000012937 correction Methods 0.000 description 7
- 238000011144 upstream manufacturing Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000013523 data management Methods 0.000 description 4
- 229960000182 blood factors Drugs 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 239000000969 carrier Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 102100038367 Gremlin-1 Human genes 0.000 description 1
- 101001032872 Homo sapiens Gremlin-1 Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000010923 batch production Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/40—Transformation of program code
- G06F8/41—Compilation
- G06F8/42—Syntactic analysis
- G06F8/427—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/40—Transformation of program code
- G06F8/41—Compilation
- G06F8/43—Checking; Contextual analysis
- G06F8/436—Semantic checking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例公开了一种隐私数据处理方法和装置。所述方法包括:获取对源数据库执行的涉及隐私数据的结构化查询SQL语句和与所述隐私数据相关的辅助信息;对获取的SQL语句进行语义解析,以得到源数据库中的隐私数据之间的血缘关系信息,所述血缘关系信息用于指示隐私数据所在的字段之间的关联关系、隐私数据所在的数据表之间的关联关系以及所述字段和所述数据表之间的关联关系;基于所述血缘关系信息,在目标图数据库中创建图谱数据模式,所述图谱数据模式包括多个节点和连接不同节点的边,所述节点表示字段或数据表,所述边表示相连接的节点之间的关联关系;基于所述图谱数据模式,将所述辅助信息存储至所述目标图数据库中。
Description
技术领域
本文件涉及计算机技术领域,尤其涉及一种隐私数据处理方法和装置。
背景技术
隐私数据在不同业务单元之间流转的过程中,其加工使用可能会引发合规的问题,因而需要对隐私数据进行管理,以便能够快速的对隐私数据进行溯源、纠错等。
目前,传统的隐私数据管理方案大多采用正则表达式、语法树解析或者相关关键词匹配的方式获取隐私数据之间的上下游关系,并通过关系型数据库对隐私数据之间的上下游关系进行存储,进而使用表查询方式来实现相关隐私数据的管理和回溯功能。但是,这种方式本质上是一种面向“点”的数据管理方式,管理粒度较粗,不同隐私数据之间是割裂的,且当隐私数据之间存在多层级的关系时,对隐私数据来源的回溯过程存在较高的复杂性。
基于此,当前亟需一种能够实现对隐私数据进行精细化且高效管理的隐私数据处理方案。
发明内容
本说明书实施例目的是提供一种隐私数据处理方法和装置,以能够实现对隐私数据的精细化且高效管理。
为了实现上述目的,本说明书实施例采用下述技术方案:
第一方面,提供一种隐私数据处理方法,包括:
获取对源数据库执行的涉及隐私数据的结构化查询SQL语句和与所述隐私数据相关的辅助信息,所述辅助信息用于描述所述隐私数据所在的字段及数据表的属性;
对获取的SQL语句进行语义解析,以得到所述源数据库中的隐私数据之间的血缘关系信息,所述血缘关系信息用于指示所述隐私数据所在的字段之间的关联关系、所述隐私数据所在的数据表之间的关联关系以及所述字段和所述数据表之间的关联关系;
基于所述血缘关系信息,在目标图数据库中创建表征所述隐私数据之间的血缘关系的图谱数据模式,所述图谱数据模式包括多个节点和连接不同节点的边,所述节点表示字段或数据表,所述边表示相连接的节点之间的关联关系;
基于所述图谱数据模式和所述辅助信息,将所述辅助信息存储至所述目标图数据库中。
第二方面,提供一种隐私数据处理装置,包括:
第一获取单元,获取对源数据库执行的涉及隐私数据的结构化查询SQL语句和与所述隐私数据相关的辅助信息,所述辅助信息用于描述所述隐私数据所在的字段及数据表的属性;
解析单元,对获取的SQL语句进行语义解析,以得到所述源数据库中的隐私数据之间的血缘关系信息,所述血缘关系信息用于指示所述隐私数据所在的字段之间的关联关系、所述隐私数据所在的数据表之间的关联关系以及所述字段和所述数据表之间的关联关系;
创建单元,基于所述血缘关系信息,在目标图数据库中创建表征所述隐私数据之间的血缘关系的图谱数据模式,所述图谱数据模式包括多个节点和连接不同节点的边,所述节点表示字段或数据表,所述边表示相连接的节点之间的关联关系;
存储单元,基于所述图谱数据模式和所述辅助信息,将所述辅助信息存储至所述目标图数据库中。
第三方面,提供一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取对源数据库执行的涉及隐私数据的结构化查询SQL语句和与所述隐私数据相关的辅助信息,所述辅助信息用于描述所述隐私数据所在的字段及数据表的属性;
对获取的SQL语句进行语义解析,以得到所述源数据库中的隐私数据之间的血缘关系信息,所述血缘关系信息用于指示所述隐私数据所在的字段之间的关联关系、所述隐私数据所在的数据表之间的关联关系以及所述字段和所述数据表之间的关联关系;
基于所述血缘关系信息,在目标图数据库中创建表征所述隐私数据之间的血缘关系的图谱数据模式,所述图谱数据模式包括多个节点和连接不同节点的边,所述节点表示字段或数据表,所述边表示相连接的节点之间的关联关系;
基于所述图谱数据模式和所述辅助信息,将所述辅助信息存储至所述目标图数据库中。
第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取对源数据库执行的涉及隐私数据的结构化查询SQL语句和与所述隐私数据相关的辅助信息,所述辅助信息用于描述所述隐私数据所在的字段及数据表的属性;
对获取的SQL语句进行语义解析,以得到所述源数据库中的隐私数据之间的血缘关系信息,所述血缘关系信息用于指示所述隐私数据所在的字段之间的关联关系、所述隐私数据所在的数据表之间的关联关系以及所述字段和所述数据表之间的关联关系;
基于所述血缘关系信息,在目标图数据库中创建表征所述隐私数据之间的血缘关系的图谱数据模式,所述图谱数据模式包括多个节点和连接不同节点的边,所述节点表示字段或数据表,所述边表示相连接的节点之间的关联关系;
基于所述图谱数据模式和所述辅助信息,将所述辅助信息存储至所述目标图数据库中。
本说明书实施例的方案,通过对源数据库执行的、涉及隐私数据的SQL语句进行语义解析,来获得包含隐私数据所在的字段之间的关联关系、隐私数据所在的数据表之间的关联关系以及隐私数据所在的字段与数据表之间的关联关系在内的源数据库中隐私数据之间的血缘关系信息,所得到的血缘关系信息能够更精细地反映隐私数据之间的血缘关系;基于血缘关系信息在目标图数据库中创建表征隐私数据之间的血缘关系的图谱数据模式(Schema),而图谱数据模式中的节点表征字段或数据表,图谱数据模式中的边表征相连接的节点之间的关联关系,进一步基于图谱数据模式将辅助信息存储至目标图数据库中,使得隐私数据之间的血缘关系能够以知识图谱的形式进行存储,实现将对隐私数据的管理由“点”推向“面”,进而能够更方便快捷地利用隐私数据之间的血缘关系对隐私数据实施纠错、溯源、合规性判定等,提高对隐私数据管理的效率和便捷性。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书的一个实施例的隐私数据处理方法的整体方案流程示意图;
图2为本说明书的另一个实施例的隐私数据处理方法的整体方案流程示意图;
图3为本说明书的又一个实施例的隐私数据处理方法的整体方案流程示意图;
图4为本说明书的一个实施例提供的一种隐私数据处理方法的流程示意图;
图5为本说明书的一个实施例提供的一种图谱数据模式的示意图;
图6为本说明书的另一个实施例提供的一种隐私数据处理方法的流程示意图;
图7为本说明书的一个实施例提供的一种隐私数据处理装置的结构示意图;
图8为本说明书的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件保护的范围。
部分概念的说明:
元数据(Metadata):又称为中介数据、中继数据,为描述数据的数据(data aboutdata),其主要用于描述数据的属性(property),用于支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,需在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。
血缘关系:用于刻画数据与数据之间的上下游关系。
图数据库:是一种非关系型数据库,它应用图形理论存储实体之间的关系信息,比如社会网络中人与人之间的关系。相较于关系型数据库而言,图数据库的独特设计能够弥补关系型数据库存储“关系型”数据时存在的查询复杂、缓慢、超出预期等缺陷。
隐私数据(Private Data):即秘密数据,是指不想被他人或无关人等获知的数据。从隐私的所有者的角度,可以将隐私数据分为个人隐私数据和共同隐私数据,其中,个人隐私数据包括可以用于定位或者识别个人的信息(如电话号码、地址、信用卡号等)和敏感信息(如个人健康情况、财务信息、公司重要文件等);共同隐私数据主要以家庭隐私为主,如家庭年收入情况等。隐私数据的泄露和滥用极易引起各种个人和公共安全问题。
知识图谱(Knowledge Graph):在图书情报界称为知识域可视化或知识域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相关联系。
如前所述,传统的隐私数据管理方案大多采用正则表达式、语法树解析或者相关关键词匹配的方式获取隐私数据之间的上下游关系,并通过关系型数据库对隐私数据之间的上下游关系进行存储,如下表1所示,进而使用表查询方式来实现相关隐私数据的管理和回溯功能。但是,这种方式本质上是一种面向“点”的数据管理方式,管理粒度较粗,不同隐私数据之间是割裂的,且当隐私数据之间存在多层级的关系时,对隐私数据来源的回溯过程存在较高的复杂性。
表1
为此,本说明书实施例旨在提供一种隐私数据处理方案,通过对源数据库执行的、涉及隐私数据的SQL语句进行语义解析,来获得包含隐私数据所在的字段之间的关联关系、隐私数据所在的数据表之间的关联关系以及隐私数据所在的字段与数据表之间的关联关系在内的源数据库中隐私数据之间的血缘关系信息,所得到的血缘关系信息能够更精细地反映隐私数据之间的血缘关系;基于血缘关系信息在目标图数据库中创建表征隐私数据之间的血缘关系的图谱数据模式(Schema),而图谱数据模式中的节点表征字段或数据表,图谱数据模式中的边表征相连接的节点之间的关联关系,进一步基于图谱数据模式将辅助信息存储至目标图数据库中,使得隐私数据之间的血缘关系能够以知识图谱的形式进行存储,实现将对隐私数据的管理由“点”推向“面”,进而能够更方便快捷地利用隐私数据之间的血缘关系对隐私数据实施纠错、溯源、合规性判定等,提高对隐私数据管理的效率和便捷性。
应理解,本说明书实施例提供的隐私数据处理方法可以由电子设备执行或安装在电子设备中的软件执行,具体可以由终端设备或服务端设备执行。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
为了便于理解,下面先对本说明书实施例提供的隐私数据处理方法的整体方案流程进行简单介绍。请参考图1至图3,为本说明书实施例的隐私数据处理方法的整体方案流程示意图。如图1所示,本说明书实施例的隐私数据处理方法的整体方案流程包括依次在数据层、中间层和知识图谱层等的方案。
在数据层中,源数据库中存储有业务数据、业务数据的元数据信息、操作日志信息、结构化查询语句(Structured Query Language,SQL)执行信息等,为中间层和位于上层的知识图谱层提供输入。其中,源数据库可以例如包括但不限于以下数据库中的至少一种:开放数据处理服务(Open Data Processing Service,ODPS)数据库、数据资源平台(DataQ)、MySQL、Qracle等。操作日志信息用于记录对源数据库执行的SQL语句的拥有者、执行时间等额外信息,SQL执行信息用于记录对源数据库执行的SQL语句等,业务数据的元数据信息用于描述业务数据所在的数据表及数据表中字段各自的属性等。
在中间层中,通过对源数据库中存储的业务数据进行隐私数据扫描,可以识别出源数据库中存储的涉及隐私的业务数据(以下称为“隐私数据”);通过对源数据库中存储的元数据库信息进行解析,可以得到隐私数据的属性信息(如隐私数据的数据类型等);通过对数据层的SQL执行信息进行解析,可以获得SQL语句中描述的字段之间、数据表之间以及字段与数据表之间分别的关联关系;通过对源数据库中存储的操作日志信息进行解析,可以得到对源数据库执行的SQL语句的拥有者、执行时间等额外信息。
进一步地,如图1和图2所示,通过对解析得到的隐私数据所在的字段之间的关联关系、隐私数据所在的数据表之间的关联关系以及隐私数据所在的字段与数据表之间的关联关系等进行血缘发现,可以得到隐私数据之间的血缘关系信息。
可选地,如图1和图2所示,考虑到诸如ODPS等源数据库自身会存储表级的隐私数据之间的存量关联关系信息,对此,还可将进行血缘发现得到的血缘关系信息与源数据库中存储的存量关联关系信息进行融合。为了提高得到的血缘关系信息的准确性和可靠性,进一步地,还对融合后的血缘关系信息进行纠错。
在知识图谱层中,通过对隐私数据之间的血缘关系信息进行图计算,可以在目标图数据库中创建用于表征隐私数据之间的血缘关系的图谱数据模式(Schema),其中,图谱Schema包括多个节点和连接不同节点的边,节点表示字段或数据表,边表示相连接的节点之间的关联关系;进一步地,基于所构建的图谱Schema将在数据层解析得到的额外信息、隐私数据的属性信息等存储至目标图数据库中,由此使得隐私数据之间的血缘关系以知识图谱的形式被存储。其中,目标图数据库可以例如包括但不限于以下图数据库中的至少一种:阿里云GDB、Gea Base、TuGraph、Neo4J等。对血缘关系信息的图计算可通过调用以下至少一种图计算应用程序接口(Application Programming Interface,API)实现:Spark GraphX、PandaGraph等。
可选地,中间层部署有定时器,如图1和图3所示,通过定时器可周期性地启动定时任务,即通过预先配置的用户自定义功能(User Defined Functions,UDF)对源数据库中存储的操作日志信息、元数据信息、SQL语句执行信息等进行解析以及对源数据库中存储的业务数据进行隐私数据扫描等,获取对源数据执行的涉及隐私数据的增量操作信息及与隐私数据相关的辅助信息(比如包括隐私数据的属性信息、执行SQL语句的拥有者、执行时间等额外信息),进一步基于获取到的这些信息确定隐私数据之间的增量血缘关系信息;接着,基于增量血缘关系信息和源数据库中存储的存量关联关系信息之间的差异信息,更新源数据库中的存量关联关系信息以及目标图数据库,从而使得源数据库中的存量关联关系信息与目标图数据库中的血缘关系信息保持同步,实现隐私数据之间血缘关系的离线获取。进一步地,上述过程可采用批处理的方式实现。
具体而言,存量关联关系信息存储于源数据库的存量关联关系表中。相应地,可基于增量血缘关系信息,生成增量血缘关系表,进一步基于增量血缘关系表和存量关联关系表之间的差集,确定增量血缘关系信息与存量关联关系信息之间的差异信息。
可选地,数据层与中间层之间解耦,中间层可以屏蔽数据层中各种存储环境接口的差异,并提供标准的API接口,以提供数据读取等功能。
可选地,知识图谱层与中间层解耦,具体可基于不同的使用环境,对知识图谱层私有化或者公有云化。知识图谱层可负责对其上下层屏蔽血缘关系信息的插入、删除、修改或者读取的差异。
请参考图4,为本说明书的一个实施例提供的一种隐私数据处理方法的流程示意图,该方法可以包括如下步骤:
S402,获取对源数据库执行的涉及隐私数据的SQL语句和与隐私数据相关的辅助信息。
其中,与隐私数据相关的辅助信息用于描述所述隐私数据所在的字段及数据表的属性。可选地,上述辅助信息具体可以例如包括但不限于:隐私数据所在的字段及数据表分别的元数据信息、执行SQL语句的拥有者、执行时间等额外信息。具体而言,上述辅助信息可通过对源数据库中存储的业务数据进行隐私数据扫描以及对源数据库中存储的元数据信息、操作日志信息等进行解析得到。
S404,对获取的SQL语句进行语义解析,以得到源数据库中的隐私数据之间的血缘关系信息。
其中,隐私数据之间的血缘关系信息用于指示隐私数据所在的字段之间的关联关系、隐私数据所在的数据表之间的关联关系以及隐私数据所在的字段与数据表之间的关联关系。
可选地,隐私数据所在的字段之间的关联关系可以包括但不限于以下关系中的至少一种:复制关系(copy)、截断关系(substr)和拼接关系(concat)等,比如表Table1中的字段identify_no由表Table2中的字段identify_no复制得到,字段tenantId由字段identify_no和字段mobile_no拼接而成,字段Id通过对字段bankcard_no截断得到。隐私数据所在的数据表之间的关联关系可以包括依赖关系(depend),比如数据表Table1依赖于数据表Table2。隐私数据所在的字段与数据表之间的关联关系可以包括从属关系(belong),比如字段identify_no属于数据表Table1。
SQL语句是对数据库进行操作的一种语言,通常一条SQL语句是由多个语义单元以及不同语义单元之间的语法顺序组成的。具体地,上述语法单元是指SQL语句中包含的诸如“SELECT”、“FROM”等关键字、运算法或对字段、数据表等进行标识的标识信息等满足语义规则的字词;上述语法顺序是指SQL语句中约定的语义单元的语法规则顺序。按照SQL语句的语法规则对SQL语句进行语义解析,可以得到SQL语句中描述的字段与字段之间、字段与数据表之间以及数据表之间分别的关联关系。需要说明的是,实际应用中,对SQL语句的语义解析可利用各种现有的工具实现,比如解析器等。
示例地,涉及隐私数据身份证号和手机号的SQL语句为:
Create Table2 as
Select identify_no,mobile_no
From Table1;
在上述SQL语句中,字段identify_no用于存储用户的身份证号,字段mobile_no用于存储用户的手机号。通过对上述SQL语句进行语义解析,得到的隐私数据身份证号与手机号之间的血缘关系包括:(1)数据表Table1中的字段identify_no由数据表Table2中的字段identify_no复制而来;(2)数据表Table1中的字段mobile_no由数据表Table2中的字段mobile_no复制而来;(3)数据表Table1依赖于数据表Table2;(4)数据表Table1中的字段identify_no属于数据表Table1;(5)数据表1中的字段mobile_no属于数据表Table1;(6)数据表Table2中的字段identify_no属于数据表Table2;(7)数据表2中的字段mobile_no属于数据表Table2。
其中,上述关系(1)和(2)为隐私数据所在的字段之间的关联关系,上述关联关系(3)为隐私数据所在的数据表之间的关联关系,上述关联关系(4)至(7)为隐私数据所在的字段与数据表之间的关联关系。
为了便于对解析得到的血缘关系信息进行存储和使用,一种可选方式中,可将隐私数据之间的血缘关系信息转化为三元组结构数据(source_node,target_node,relation),其中,source_node表示源节点,target_node表示目标节点,relation表示源节点和目标节点之间的关联关系。示例地,以对上述SQL语句解析得到的血缘关系信息为例,对上述血缘关系信息进行转换得到三元组结构数据如下所述:
(Table2.identify_no,Table1.identify_no,copy)
(Table2.mobile_no,Table1.identify_no,copy)
(Table2,Table1,depend)
(Table1.identify_no,Table1,belong)
(Table1.mobile_no,Table1,belong)
(Table2.identify_no,Table2,belong)
(Table2.mobile_no,Table2,belong)
S406,基于隐私数据之间的血缘关系信息,在目标图数据库中创建表征隐私数据之间的血缘关系的图谱数据模式。
其中,在图数据库中,图谱数据模式用于描述图数据库的组织和结构,能够反映出图数据库中的数据及其相关之间的关系。上述图谱数据模式包括多个节点和连接不同节点的边,节点表示字段或数据表,边表示相连接的节点之间的关联。
示例地,图5示出了一种图谱数据模式的示例,如图5所示,Node、Table和Column为图谱数据模式中的节点,其中,Node为源节点,其下方的id、nodeType以及nodeName为用于描述Node的辅助信息,具体而言,id为Node的唯一标识,nodeType为节点的类型,其表示该节点为数据表或字段,nodeName为节点的名称;Table为Node的目标节点,其类型为数据表,Table依赖于Node,其下方的tenantId、projectName、tableName、tableOwner、originSql为用于描述该节点的辅助信息,具体而言,temamtId为用户标识,projectName表示Table所属的项目,tableName为Table的名称,tableOwner表示Table的所有者,originSql表示生成、修改Table的SQL语句,以便出现用户数据异常时查询Table的生成逻辑;Column为字段,其从属于数据表Table,其下方的tenantId、projectName、tableName、columnName、dataType、columnComment、sensitiveLevel以及sensitiveType为用于描述字段Column的辅助信息,具体而言,tenantId为用户标识、projectName表示字段Column所属的项目,tableName表示字段Column所属的数据表,dataType表示字段Column的数据类型,columnComment表示字段Column的描述信息,sensitiveLevel表示字段Column的敏感等级,sensitiveType表示字段Column的敏感数据类型;Edge为边,其用于描述节点之间的关联关系,其下方的fromId、told、dependType以及edgeId为用于描述边Edge的辅助信息,具体而言,fromId为源节点的唯一标识,told为目标节点的唯一标识,dependType表示源节点和目标节点之间的关联关系为依赖关系,即目标节点依赖于源节点,edgeId为边的唯一标识。
为了保证生成的图谱数据模式能够准确表征隐私数据之间的血缘关系,一种可选方式中,S406可以包括如下步骤:将隐私数据之间的血缘关系信息转化为三元组结构数据;基于三元组结构数据指示的源节点和目标节点,生成图谱数据模式中的节点;基于三元组结构数据指示的源节点和目标节点之间的关联关系,生成连接不同节点的边。
示例地,以上文所述的三元组结构数据(Table2,Table1,depend)和(Table1.mobile_no,Table1,belong)为例,Table2则作为上述图谱数据模式中的节点Node,Table1则作为上述图谱数据模式中的节点Table,Table1.mobile_no则作为上述图谱数据模式中的节点Column,基于Table2和Table1之间的关联关系depend,可以生成连接节点Node和节点Table之间的边,以及基于Table1.mobile和Table1之间的关联关系belong,生成连接节点Table和节点Column之间的边。
当然,应理解的是,上述图谱数据模式也可通过其它各种现有的方式创建,本说明书实施例对此不作具体限定。
S408,基于图谱数据模式,将与隐私数据相关的辅助信息存储至目标图数据库中。
具体而言,可以将与隐私数据相关的辅助信息添加到图谱数据模式中,例如将用于描述字段的辅助信息添加到字段对应的节点中,将用于描述数据表的辅助信息添加到数据表对应的节点中等,由此使得隐私数据之间的血缘关系信息能够以知识图谱的形式存储于目标图数据库中,不仅能够清楚准确地反映出数据表之间、字段之间以及数据表与字段之间的上下游关系,还能够通过辅助信息反映出字段及数据表各自的属性等,从而提高了隐私数据之间血缘关系的可用性,使得基于目标图数据库能够方便快捷地实现对隐私数据的纠错、溯源以及可视化展示等。
示例地,在数据查询这一应用场景中,如果需要查询某一用户的项目下所有的银行卡号的分布情况,则可对目标图数据库执行图查询语句,比如Gremlin语句:g.V().has(“sensitiveType”,“bankcard_no”).bothE()。当然,图查询语句还可以例如为OpenCypher语句等,本说明书实施例对图查询语句的类型不作具体限定。
又如,在对隐私数据进行纠错这一应用场景中,如果将数据表Table1中的字段bancard_no误识别成了身份证号,则可通过目标图数据库中记录的血缘关系确定出数据表Table2的bankcard_no来源于数据表Table1,因而可通过血缘扩散的方式,自动将数据表Table1的字段bankcard_no的隐私数据类型进行修改,而不需要用户逐一对每条数据进行纠正,提高了对隐私数据纠错的效率,同时提高隐私数据识别结果的准确率和召回率。
需要说明的是,本说明书实施例的隐私数据处理方法还可以用于隐私数据溯源、血缘关系可视化、隐私数据加工的合规性判定等业务场景中,本说明书实施例对此不作具体限定,且在此不再详细展开。
本说明书实施例提供的隐私数据处理方法,通过对源数据库执行的、涉及隐私数据的SQL语句进行语义解析,来获得包含隐私数据所在的字段之间的关联关系、隐私数据所在的数据表之间的关联关系以及隐私数据所在的字段与数据表之间的关联关系在内的源数据库中隐私数据之间的血缘关系信息,所得到的血缘关系信息能够更精细地反映隐私数据之间的血缘关系;基于血缘关系信息在目标图数据库中创建表征隐私数据之间的血缘关系的图谱数据模式(Schema),而图谱数据模式中的节点表征字段或数据表,图谱数据模式中的边表征相连接的节点之间的关联关系,进一步基于图谱数据模式将辅助信息存储至目标图数据库中,使得隐私数据之间的血缘关系能够以知识图谱的形式进行存储,实现将对隐私数据的管理由“点”推向“面”,进而能够更方便快捷地利用隐私数据之间的血缘关系对隐私数据实施纠错、溯源、合规性判定等,提高对隐私数据管理的效率和便捷性。
考虑到源数据库自身可能会存储表级的隐私数据之间的存量关联关系信息,为了保证最终得到隐私数据之间的血缘关系信息准确可靠,在本说明书的另一个实施例中,在上述S406之前,本说明实施例的隐私数据处理方法还包括:查询源数据库中是否存储有隐私数据之间的存量关联关系信息。相应地,在上述S406中,如果源数据库中存储有存量关联关系信息,则将得到的血缘关系信息和存量关联关系信息进行融合,进一步基于融合后的血缘关系信息,在目标图数据库中创建图谱数据模式。
需要说明的是,对血缘关系信息和存量关联关系信息的融合,可基于各种现有的数据融合技术实现,本说明书实施例对此不做具体限定。
进一步地,由于对SQL语句进行解析得到的血缘关系信息与存量关联关系信息之间可能存在部分冲突,尤其是具有复制关系的字段,为了进一步提高最终得到的血缘关系信息的准确性和可靠性,在本说明书的另一个实施例中,在基于融合后的血缘关系信息,在目标图数据库中创建图谱数据模式之前,还可对融合后的血缘关系信息进行纠错,具体而言,本说明书实施例的隐私数据处理方法还包括:基于融合后的血缘关系信息,获取第一隐私字段和第二隐私字段各自的元数据,其中,第一隐私字段和第二隐私字段分别为隐私数据所在的、关联关系为复制关系的不同字段;接着,将第一隐私字段的元数据和第二隐私字段的元数据进行比对,得到差异度,如果差异度超过差异度阈值,则删除融合后的血缘关系信息中第一隐私字段与第二隐私字段之间的关联关系信息。其中,上述差异度阈值可以根据实际需要预先设置,本说明书实施例对上述差异度阈值的数值不做具体限定。
示例地,融合后的血缘关系信息指示第一隐私字段Table1.mobile_no是对第二隐私字段Table2.nobile_no复制得到,如果第一隐私字段Table1.mobile_no的元数据指示该字段的数据类型为text,而第二隐私字段Table2.mobile_no的元数据指示该字段的数据类型为string,则可判定第一隐私字段与第二隐私字段之间的复制关系有误,则在融合后的血缘关系信息中删除第一隐私字段Table1.mobile_no与第二隐私字段Table2.mobile_no之间的复制关系。
考虑到源数据库中的隐私数据之间的血缘关系信息是动态变化的,为了进一步提高目标图数据库中存储的血缘关系的准确性和可靠性,在本说明书的另一个实施例中,在将与隐私数据相关的辅助信息存储至目标图数据库之后,还可通过离线方式,周期性地监控源数据库中的血缘关系信息的变化情况,进而基于监控到的变化情况更新本地离线的存量关联关系表和目标图数据库,以使源数据库中存储的存量关联关系信息与目标图数据库中存储的血缘关系信息保持同步。具体而言,如图6所示,在S408之后,本说明书实施例提供的隐私数据处理方法还包括:
S410,按照预设时间间隔,获取对源数据库执行的涉及隐私数据的增量操作信息。
具体而言,上述增量操作信息可以包括但不限于新增的对源数据库执行的涉及隐私数据的SQL语句、增量操作日志信息等。
需要说明的是,预设时间间隔的长度可以根据实际需要进行设置,本说明书实施例对此不作具体限定。
S412,基于增量操作信息和与隐私数据相关的辅助信息,确定隐私数据之间的增量血缘关系信息。
其中,隐私数据之间的增量血缘关系信息可以包括相较于已有的隐私数据之间的血缘关系信息发生变化的信息,其用于反映隐私数据之间的血缘关系的变动情况。
具体而言,根据与隐私数据相关的辅助信息所描述的字段及数据表各自的属性信息,可确定出隐私数据所在的字段及数据表各自的变动情况,比如新增了哪些字段和/或数据表、删除了哪些字段和/或数据表、以及哪些字段和/或数据表的隐私数据类型、敏感等级等发生了变更等。通过对增量操作信息指示的SQL语句进行语义解析,可以确定出发生了变动的字段之间、数据表之间以及字段与数据表之间的关联关系变化情况,由此得到隐私数据之间的增量血缘关系信息。
S414,获取增量血缘关系信息与源数据库中存储的存量关系信息之间的差异信息。
考虑到存量关系信息通常是以关系型数据表的形式存储于源数据库的存量关联关系表中的,为了提高差异信息获取的准确性和便捷性,在一种可选方式中,S414可以包括:基于增量血缘关系信息,生成增量血缘关系表,示例地,增量血缘关系信息指示新增隐私数据所在的字段bankcard_no从属于数据表Table2,则基于该增量血缘关系信息,创建相应的字段bankcard_no与数据表Table2之间的关联关系的关系型数据表,得到增量血缘关系表;进一步地,基于增量血缘关系表与存量关联关系表之间的差集,确定增量血缘关系信息与存量关联关系信息之间的差异信息。
S416,基于差异信息,更新存量关联关系信息和目标图数据库。
具体而言,可基于差异信息,确定需要在目标图数据库中执行的增、删、改等至少一种第一操作语句,通过对目标图数据库执行第一操作语句,可实现对目标图数据库的更新。类似地,可基于差异信息,确定需要在源数据库中执行的增、删、改等至少一种第二操作语句,通过对源数据库执行第二操作语句,可实现对存量关联关系信息的更新。
可以理解的是,通过上述隐私数据处理方法,使得源数据库中存储的存量关联关系信息与目标图数据库中存储的血缘关系信息保持同步,进而在后续应用中,可以根据实际需要选择从源数据库或者目标图数据库中获取隐私数据之间的血缘关系。
此外,与上述图4所示的隐私数据处理方法相对应地,本说明书实施例还提供一种隐私数据处理装置。图7是本说明书实施例提供的一种隐私数据处理装置700的结构示意图,包括:
第一获取单元710,获取对源数据库执行的涉及隐私数据的结构化查询SQL语句和与所述隐私数据相关的辅助信息,所述辅助信息用于描述所述隐私数据所在的字段及数据表的属性;
解析单元720,对获取的SQL语句进行语义解析,以得到所述源数据库中的隐私数据之间的血缘关系信息,所述血缘关系信息用于指示所述隐私数据所在的字段之间的关联关系、所述隐私数据所在的数据表之间的关联关系以及所述字段和所述数据表之间的关联关系;
创建单元730,基于所述血缘关系信息,在目标图数据库中创建表征所述隐私数据之间的血缘关系的图谱数据模式,所述图谱数据模式包括多个节点和连接不同节点的边,所述节点表示字段或数据表,所述边表示相连接的节点之间的关联关系;
存储单元740,基于所述图谱数据模式,将所述辅助信息存储至所述目标图数据库中。
可选地,所述装置还包括:
查询单元,在所述创建单元730基于所述血缘关系信息,在目标图数据库中创建表征所述隐私数据之间的血缘关系的图谱数据模式之前,查询所述源数据库中是否存储有所述隐私数据之间的存量关联关系信息;
所述创建单元730,如果所述源数据库中存储有所述存量关联关系信息,则将所述血缘关系信息和所述存量关联关系信息进行融合,以及基于融合后的血缘关系信息,在所述目标图数据库中创建所述图谱数据模式。
可选地,所述装置还包括:
第二获取单元,在所述创建单元730基于融合后的血缘关系信息,在所述目标图数据库中创建所述图谱数据模式之前,基于所述融合后的血缘关系信息,获取第一隐私字段和第二隐私字段各自的元数据,所述第一隐私字段和所述第二隐私字段分别为所述隐私数据所在的、关联关系为复制关系的不同字段;
比对单元,将所述第一隐私字段的元数据和所述第二隐私字段的元数据进行比对,得到差异度;
删除单元,如果所述差异度超过差异度阈值,则删除所述融合后的血缘关系信息中所述第一隐私字段和所述第二隐私字段之间的关联关系信息。
可选地,所述装置还包括:
第三获取单元,在所述存储单元740基于所述图谱数据模式,将所述辅助信息存储至所述目标图数据库中之后,按照预设时间间隔,获取对所述源数据库执行的涉及隐私数据的增量操作信息;
增量血缘确定单元,基于所述增量操作信息和与所述隐私数据相关的辅助信息,确定所述隐私数据之间的增量血缘关系信息;
第四获取单元,获取所述增量血缘关系信息与所述源数据库中存储的存量关联关系信息之间的差异信息;
更新单元,基于所述差异信息,更新所述存量关联关系信息和所述目标图数据库。
可选地,所述存量关联关系信息存储于所述源数据库的存量关联关系表中;
所述第四获取单元,基于所述增量血缘关系信息,生成增量血缘关系表,以及基于所述增量血缘关系表与所述存量关联关系表之间的差集,确定所述增量血缘关系信息与所述存量关联关系信息之间的差异信息。
可选地,所述创建单元730,将所述隐私数据之间的血缘关系信息转化为三元组结构数据,基于所述三元组结构数据指示的源节点和目标节点,生成图谱数据模式中的节点,以及基于所述三元组结构数据指示的源节点与目标节点之间的关联关系,生成连接不同节点的边。
可选地,所述隐私数据所在的字段之间的关联关系包括以下关系中的至少一种:复制关系、截断关系和拼接关系;
所述隐私数据所在的数据表之间的关联关系包括依赖关系;
所述字段与所述数据表之间的关联关系包括从属关系。
本说明书实施例提供的隐私数据装置,通过对源数据库执行的、涉及隐私数据的SQL语句进行语义解析,来获得包含隐私数据所在的字段之间的关联关系、隐私数据所在的数据表之间的关联关系以及隐私数据所在的字段与数据表之间的关联关系在内的源数据库中隐私数据之间的血缘关系信息,所得到的血缘关系信息能够更精细地反映隐私数据之间的血缘关系;基于血缘关系信息在目标图数据库中创建表征隐私数据之间的血缘关系的图谱数据模式(Schema),而图谱数据模式中的节点表征字段或数据表,图谱数据模式中的边表征相连接的节点之间的关联关系,进一步基于图谱数据模式将辅助信息存储至目标图数据库中,使得隐私数据之间的血缘关系能够以知识图谱的形式进行存储,实现将对隐私数据的管理由“点”推向“面”,进而能够更方便快捷地利用隐私数据之间的血缘关系对隐私数据实施纠错、溯源、合规性判定等,提高对隐私数据管理的效率和便捷性。
显然,本说明书实施例的隐私数据处理装置可以作为上述图4所示的隐私数据处理方法的执行主体,因此能够实现隐私数据处理方法在图4所实现的功能。由于原理相同,在此不再赘述。
图8是本说明书的一个实施例电子设备的结构示意图。请参考图8,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成隐私数据处理装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取对源数据库执行的涉及隐私数据的结构化查询SQL语句和与所述隐私数据相关的辅助信息,所述辅助信息用于描述所述隐私数据所在的字段及数据表的属性;
对获取的SQL语句进行语义解析,以得到所述源数据库中的隐私数据之间的血缘关系信息,所述血缘关系信息用于指示所述隐私数据所在的字段之间的关联关系、所述隐私数据所在的数据表之间的关联关系以及所述字段和所述数据表之间的关联关系;
基于所述血缘关系信息,在目标图数据库中创建表征所述隐私数据之间的血缘关系的图谱数据模式,所述图谱数据模式包括多个节点和连接不同节点的边,所述节点表示字段或数据表,所述边表示相连接的节点之间的关联关系;
基于所述图谱数据模式,将所述辅助信息存储至所述目标图数据库中。
上述如本说明书图4所示实施例揭示的隐私数据处理装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
应理解,本说明书实施例的电子设备可以实现隐私数据处理装置在图4所示实施例的功能。由于原理相同,本说明书实施例在此不再赘述。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图4所示实施例的方法,并具体用于执行以下操作:
获取对源数据库执行的涉及隐私数据的结构化查询SQL语句和与所述隐私数据相关的辅助信息,所述辅助信息用于描述所述隐私数据所在的字段及数据表的属性;
对获取的SQL语句进行语义解析,以得到所述源数据库中的隐私数据之间的血缘关系信息,所述血缘关系信息用于指示所述隐私数据所在的字段之间的关联关系、所述隐私数据所在的数据表之间的关联关系以及所述字段和所述数据表之间的关联关系;
基于所述血缘关系信息,在目标图数据库中创建表征所述隐私数据之间的血缘关系的图谱数据模式,所述图谱数据模式包括多个节点和连接不同节点的边,所述节点表示字段或数据表,所述边表示相连接的节点之间的关联关系;
基于所述图谱数据模式,将所述辅助信息存储至所述目标图数据库中。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (10)
1.一种隐私数据处理方法,包括:
获取对源数据库执行的涉及隐私数据的结构化查询SQL语句和与所述隐私数据相关的辅助信息,所述辅助信息用于描述所述隐私数据所在的字段及数据表的属性;
对获取的SQL语句进行语义解析,以得到所述源数据库中的隐私数据之间的血缘关系信息,所述血缘关系信息用于指示所述隐私数据所在的字段之间的关联关系、所述隐私数据所在的数据表之间的关联关系以及所述字段和所述数据表之间的关联关系;
基于所述血缘关系信息,在目标图数据库中创建表征所述隐私数据之间的血缘关系的图谱数据模式,所述图谱数据模式包括多个节点和连接不同节点的边,所述节点表示字段或数据表,所述边表示相连接的节点之间的关联关系;
基于所述图谱数据模式,将所述辅助信息存储至所述目标图数据库中。
2.如权利要求1所述的方法,在基于所述血缘关系信息,在目标图数据库中创建表征所述隐私数据之间的血缘关系的图谱数据模式之前,所述方法还包括:
查询所述源数据库中是否存储有所述隐私数据之间的存量关联关系信息;
所述基于所述血缘关系信息,在目标图数据库中创建表征所述隐私数据之间的血缘关系的图谱数据模式,包括:
如果所述源数据库中存储有所述存量关联关系信息,则将所述血缘关系信息和所述存量关联关系信息进行融合;
基于融合后的血缘关系信息,在所述目标图数据库中创建所述图谱数据模式。
3.如权利要求2所述的方法,在基于融合后的血缘关系信息,在所述目标图数据库中创建所述图谱数据模式之前,还包括:
基于所述融合后的血缘关系信息,获取第一隐私字段和第二隐私字段各自的元数据,所述第一隐私字段和所述第二隐私字段分别为所述隐私数据所在的、关联关系为复制关系的不同字段;
将所述第一隐私字段的元数据和所述第二隐私字段的元数据进行比对,得到差异度;
如果所述差异度超过差异度阈值,则删除所述融合后的血缘关系信息中所述第一隐私字段和所述第二隐私字段之间的关联关系信息。
4.如权利要求1所述的方法,在基于所述图谱数据模式,将所述辅助信息存储至所述目标图数据库中之后,所述方法还包括:
按照预设时间间隔,获取对所述源数据库执行的涉及隐私数据的增量操作信息;
基于所述增量操作信息和与所述隐私数据相关的辅助信息,确定所述隐私数据之间的增量血缘关系信息;
获取所述增量血缘关系信息与所述源数据库中存储的存量关联关系信息之间的差异信息;
基于所述差异信息,更新所述存量关联关系信息和所述目标图数据库。
5.如权利要求4所述的方法,所述存量关联关系信息存储于所述源数据库的存量关联关系表中;
所述获取所述增量血缘关系信息与所述源数据库中存储的存量关联关系信息之间的差异信息,包括:
基于所述增量血缘关系信息,生成增量血缘关系表;
基于所述增量血缘关系表与所述存量关联关系表之间的差集,确定所述增量血缘关系信息与所述存量关联关系信息之间的差异信息。
6.如权利要求1所述的方法,所述基于所述血缘关系信息,在目标图数据库中创建表征所述隐私数据之间的血缘关系的图谱数据模式,包括:
将所述隐私数据之间的血缘关系信息转化为三元组结构数据;
基于所述三元组结构数据指示的源节点和目标节点,生成图谱数据模式中的节点;
基于所述三元组结构数据指示的源节点与目标节点之间的关联关系,生成连接不同节点的边。
7.如权利要求1至6中任一项所述的方法,所述隐私数据所在的字段之间的关联关系包括以下关系中的至少一种:复制关系、截断关系和拼接关系;
所述隐私数据所在的数据表之间的关联关系包括依赖关系;
所述字段与所述数据表之间的关联关系包括从属关系。
8.一种隐私数据处理装置,包括:
第一获取单元,获取对源数据库执行的涉及隐私数据的结构化查询SQL语句和与所述隐私数据相关的辅助信息,所述辅助信息用于描述所述隐私数据所在的字段及数据表的属性;
解析单元,对获取的SQL语句进行语义解析,以得到所述源数据库中的隐私数据之间的血缘关系信息,所述血缘关系信息用于指示所述隐私数据所在的字段之间的关联关系、所述隐私数据所在的数据表之间的关联关系以及所述字段和所述数据表之间的关联关系;
创建单元,基于所述血缘关系信息,在目标图数据库中创建表征所述隐私数据之间的血缘关系的图谱数据模式,所述图谱数据模式包括多个节点和连接不同节点的边,所述节点表示字段或数据表,所述边表示相连接的节点之间的关联关系;
存储单元,基于所述图谱数据模式,将所述辅助信息存储至所述目标图数据库中。
9.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取对源数据库执行的涉及隐私数据的结构化查询SQL语句和与所述隐私数据相关的辅助信息,所述辅助信息用于描述所述隐私数据所在的字段及数据表的属性;
对获取的SQL语句进行语义解析,以得到所述源数据库中的隐私数据之间的血缘关系信息,所述血缘关系信息用于指示所述隐私数据所在的字段之间的关联关系、所述隐私数据所在的数据表之间的关联关系以及所述字段和所述数据表之间的关联关系;
基于所述血缘关系信息,在目标图数据库中创建表征所述隐私数据之间的血缘关系的图谱数据模式,所述图谱数据模式包括多个节点和连接不同节点的边,所述节点表示字段或数据表,所述边表示相连接的节点之间的关联关系;
基于所述图谱数据模式,将所述辅助信息存储至所述目标图数据库中。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取对源数据库执行的涉及隐私数据的结构化查询SQL语句和与所述隐私数据相关的辅助信息,所述辅助信息用于描述所述隐私数据所在的字段及数据表的属性;
对获取的SQL语句进行语义解析,以得到所述源数据库中的隐私数据之间的血缘关系信息,所述血缘关系信息用于指示所述隐私数据所在的字段之间的关联关系、所述隐私数据所在的数据表之间的关联关系以及所述字段和所述数据表之间的关联关系;
基于所述血缘关系信息,在目标图数据库中创建表征所述隐私数据之间的血缘关系的图谱数据模式,所述图谱数据模式包括多个节点和连接不同节点的边,所述节点表示字段或数据表,所述边表示相连接的节点之间的关联关系;
基于所述图谱数据模式,将所述辅助信息存储至所述目标图数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110932430.7A CN113672977A (zh) | 2021-08-13 | 2021-08-13 | 隐私数据处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110932430.7A CN113672977A (zh) | 2021-08-13 | 2021-08-13 | 隐私数据处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113672977A true CN113672977A (zh) | 2021-11-19 |
Family
ID=78542793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110932430.7A Pending CN113672977A (zh) | 2021-08-13 | 2021-08-13 | 隐私数据处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113672977A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114640499A (zh) * | 2022-02-11 | 2022-06-17 | 深圳昂楷科技有限公司 | 一种对用户行为进行异常识别的方法及其装置 |
CN114817270A (zh) * | 2022-05-24 | 2022-07-29 | 中国农业银行股份有限公司 | 一种基于知识图谱的表字段血缘关系可视化方法及装置 |
CN114840531A (zh) * | 2022-05-30 | 2022-08-02 | 中国平安财产保险股份有限公司 | 基于血缘关系的数据模型重构方法、装置、设备及介质 |
CN116070268A (zh) * | 2023-01-04 | 2023-05-05 | 北京夏石科技有限责任公司 | 隐私数据识别监控方法、装置和设备 |
CN116956347A (zh) * | 2023-07-28 | 2023-10-27 | 浙江大学 | 一种隐私保护下的可交互微数据发布系统 |
WO2023231341A1 (zh) * | 2022-06-02 | 2023-12-07 | 蚂蚁区块链科技(上海)有限公司 | 数据资产风险发现方法和装置 |
CN118312838A (zh) * | 2024-06-11 | 2024-07-09 | 民航成都电子技术有限责任公司 | 一种民航数据分类方法、装置、设备及介质 |
-
2021
- 2021-08-13 CN CN202110932430.7A patent/CN113672977A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114640499A (zh) * | 2022-02-11 | 2022-06-17 | 深圳昂楷科技有限公司 | 一种对用户行为进行异常识别的方法及其装置 |
CN114817270A (zh) * | 2022-05-24 | 2022-07-29 | 中国农业银行股份有限公司 | 一种基于知识图谱的表字段血缘关系可视化方法及装置 |
CN114840531A (zh) * | 2022-05-30 | 2022-08-02 | 中国平安财产保险股份有限公司 | 基于血缘关系的数据模型重构方法、装置、设备及介质 |
CN114840531B (zh) * | 2022-05-30 | 2024-05-28 | 中国平安财产保险股份有限公司 | 基于血缘关系的数据模型重构方法、装置、设备及介质 |
WO2023231341A1 (zh) * | 2022-06-02 | 2023-12-07 | 蚂蚁区块链科技(上海)有限公司 | 数据资产风险发现方法和装置 |
CN116070268A (zh) * | 2023-01-04 | 2023-05-05 | 北京夏石科技有限责任公司 | 隐私数据识别监控方法、装置和设备 |
CN116070268B (zh) * | 2023-01-04 | 2024-01-26 | 北京夏石科技有限责任公司 | 隐私数据识别监控方法、装置和设备 |
CN116956347A (zh) * | 2023-07-28 | 2023-10-27 | 浙江大学 | 一种隐私保护下的可交互微数据发布系统 |
CN118312838A (zh) * | 2024-06-11 | 2024-07-09 | 民航成都电子技术有限责任公司 | 一种民航数据分类方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113672977A (zh) | 隐私数据处理方法和装置 | |
CN110291517B (zh) | 图数据库中的查询语言互操作性 | |
US20190384745A1 (en) | Systems and Methods for Management of Data Platforms | |
US11709878B2 (en) | Enterprise knowledge graph | |
KR101976220B1 (ko) | 데이터 보강 제안 기법 | |
US11636078B2 (en) | Personally identifiable information storage detection by searching a metadata source | |
US11120057B1 (en) | Metadata indexing | |
US8832068B2 (en) | Indirect data searching on the internet | |
US11500876B2 (en) | Method for duplicate determination in a graph | |
US11194840B2 (en) | Incremental clustering for enterprise knowledge graph | |
US20240256613A1 (en) | Data processing method and apparatus, readable storage medium, and electronic device | |
US20230153455A1 (en) | Query-based database redaction | |
CN111475653B (zh) | 油气勘探开发领域的知识图谱的构建方法及装置 | |
CN113626558B (zh) | 一种基于智能推荐的字段标准化的方法和系统 | |
CN114116767A (zh) | 数据库sql查询语句转换方法及装置 | |
US10942917B2 (en) | System and method to maintain referential integrity while masking/migrating data in flat files | |
CN112596719A (zh) | 一种生成前后端代码的方法和系统 | |
CN113934729A (zh) | 一种基于知识图谱的数据管理方法、相关设备及介质 | |
US8832067B2 (en) | Indirect data searching on the internet | |
US20200201829A1 (en) | Systems and methods for compiling a database | |
US11783078B1 (en) | Database redaction for semi-structured and unstructured data | |
CN117609303A (zh) | 多表联合查询方法、装置、设备及存储介质 | |
RU2632121C1 (ru) | Способ управления требованиями | |
CN117874246A (zh) | 知识图谱的构建方法、装置、终端设备及存储介质 | |
CN114637513A (zh) | 信息屏蔽状态的检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |