CN113901513A - 一种基于血缘解析的动态数据脱敏方法 - Google Patents

一种基于血缘解析的动态数据脱敏方法 Download PDF

Info

Publication number
CN113901513A
CN113901513A CN202111160729.1A CN202111160729A CN113901513A CN 113901513 A CN113901513 A CN 113901513A CN 202111160729 A CN202111160729 A CN 202111160729A CN 113901513 A CN113901513 A CN 113901513A
Authority
CN
China
Prior art keywords
data
field
sensitive
type
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111160729.1A
Other languages
English (en)
Inventor
陈卫
汪德福
谭巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan XW Bank Co Ltd
Original Assignee
Sichuan XW Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan XW Bank Co Ltd filed Critical Sichuan XW Bank Co Ltd
Priority to CN202111160729.1A priority Critical patent/CN113901513A/zh
Publication of CN113901513A publication Critical patent/CN113901513A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明属于数据处理技术领域,具体涉及一种基于血缘解析的动态数据脱敏方法;步骤1:对原始数据表以及原始数据表中的字段进行敏感数据标识;步骤2:基于获取的用户查询字段,确定用户查询字段的来源数据表,并进行血缘解析;步骤3:基于步骤2中确定的来源数据表和步骤1作出的敏感数据标识,查询来源数据表中是否存在敏感数据,若不存在,则对血缘查询的返回结果集不做任何处理,并立即向用户返回响应结果集;若存在敏感数据,则执行步骤4;步骤4:基于步骤3中查询出的敏感数据进行数据脱敏;本发明通过上述技术方案有效克服了现有动态脱敏识别错误的问题,有效保证动态脱敏数据精度;并且降低了数据泄露的风险。

Description

一种基于血缘解析的动态数据脱敏方法
技术领域
本发明属于数据处理技术领域,具体涉及一种基于血缘解析的动态数据脱敏方法。
背景技术
动态数据脱敏是为了解决数据应用到分析过程中敏感数据泄露的问题,在企业大数据分析中,数据科学家不仅要查询汇总数据,也需要对业务明细数据进行分析,但明细数据中不可避免的包含个人、企业敏感信息,此时既要满足分析需求,又要满足个人信息隐私数据保护,因此动态的对数据进行脱敏变得非常必要,确保明细数据可计算不可见,避免泄露用户隐私数据。
当前动态数据脱敏系统主要基于结果集模式识别,即在用户的查询结果集中进行敏感数据标识识别,若果存在敏感数据则对其进行脱敏。但是基于结果集特征的数据脱敏无法避免用户在SQL查询中使用函数进行反转,加前缀,后缀导致数据特征发生变化引起的敏感数据判断失效,因此当前的解决方案容易出现误报,导致数据脱敏结果异常;并且用户容易绕开脱敏检测规则。
发明内容
本发明公开了一种基于血缘解析的动态数据脱敏方法,拟解决背景技术中提到的当前解决方案容易出现误报,导致脱敏结果异常;并且用户容易绕开脱敏检测规则的技术问题。
为解决上述技术问题,本发明采用的技术方案如下:
一种基于血缘解析的动态数据脱敏方法,包括以下步骤:
步骤1:对原始数据表以及原始数据表中的字段进行敏感数据标识;
步骤2:基于获取的用户查询字段,确定用户查询字段的来源数据表,并进行血缘解析;
步骤3:基于步骤2中确定的来源数据表和步骤1中作出的敏感数据标识,查询来源数据表中是否存在敏感数据,若不存在,则对血缘查询的返回结果集不做任何处理,并立即向用户返回响应结果集;若存在敏感数据,则执行步骤4;
步骤4:基于步骤3中查询出的敏感数据进行数据脱敏。
本发明基于SQL血缘解析,克服了现有动态脱敏识别错误的问题,有效的保证了动态脱敏数据精度,降低了数据泄露的风险。
优选的,步骤1中对敏感数据的标识包括敏感数据类型,字段数据类型,是否允许单值查询,默认脱敏算法。
优选的,所述步骤2中进行血缘解析包括在where过滤语法中,确认用户的查询字段、表达式类型以及表达式值。
通过对表达式的解析,进一步的保证了动态脱敏数据的精度,降低了数据泄露的风险。
优选的,所述步骤2中进行血缘解析包括确定来源数据表中返回的字段列表、字段类型、字段血缘关系类型、函数表达式、条件表达式、字段来源字段类型、一般表达式。
优选的,步骤3中若发现存在敏感数据,还需要执行以下步骤:
步骤3.1:确认查询语句中是否包含禁止单值查询字段及表达式,若存在则阻止血缘结果集响应用户的查询;若不存在则执行步骤3.2;
步骤3.2:对需要向用户返回的响应结果集,依据如下规则进行处理:
针对直接查询字段,敏感标记与来源字段一致;所述来源字段来源于原始数据表。
针对聚合表达式,默认无需处理;即无需进行脱敏处理。
针对函数表达式,判断函数表达式函数特征,敏感类型与来源字段保持一致;所述来源字段来源于原始数据表;
针对条件表达式,依据条件表达式获取值对应的敏感数据类型为敏感数据类型;
针对一般表达式,采用被引用字段敏感类型为字段敏感类型。
具体的,所述步骤4对输出字段的敏感类型进行输出数据的脱敏。
综上所述,由于采用了上述技术方案,本发明的有益效果是:本发明有效克服了现有动态脱敏识别错误的问题,有效保证动态脱敏数据精度;并且降低了数据泄露的风险。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为本发明的流程示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图1对本发明的实施例作详细描述;
一种基于血缘解析的动态数据脱敏方法,包括以下步骤:
步骤1:对原始数据表以及原始数据表中的字段进行敏感数据标识;对敏感数据的标识包括敏感数据类型,字段数据类型,是否允许单值查询,默认脱敏算法。
步骤2:基于获取的用户查询字段,确定用户查询字段的来源数据表,并进行血缘解析;进行血缘解析包括在where过滤语法中,确认用户的查询字段、表达式类型以及表达式值;确定来源数据表中返回的字段列表、字段类型、字段血缘关系类型、函数表达式、条件表达式、字段来源字段类型、一般表达式。
步骤3:基于步骤2中确定的来源数据表和步骤1中作出的敏感数据标识,查询来源数据表中是否存在敏感数据,若不存在,则对血缘查询的返回结果集不做任何处理,并立即向用户返回响应结果集;若存在敏感数据,则执行步骤4;若发现存在敏感数据,还需要执行以下步骤:
步骤3.1:确认查询语句中是否包含禁止单值查询字段及表达式,若存在则阻止血缘结果集响应用户的查询;若不存在则执行步骤3.2;
步骤3.2:对需要向用户返回的响应结果集,依据如下规则进行处理:
针对直接查询字段,敏感标记与来源字段一致;
针对聚合表达式,默认无需处理;
针对函数表达式,判断函数表达式函数特征,敏感类型与来源字段保持一致;
针对条件表达式,依据条件表达式获取值对应的敏感数据类型为敏感数据类型;
针对一般表达式,采用被引用字段敏感类型为字段敏感类型。
步骤4:基于步骤3中查询出的敏感数据对输出字段的敏感类型进行输出数据的脱敏。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

Claims (6)

1.一种基于血缘解析的动态数据脱敏方法,其特征在于,包括以下步骤:
步骤1:对原始数据表以及原始数据表中的字段进行敏感数据标识;
步骤2:基于获取的用户查询字段,确定用户查询字段的来源数据表,并进行血缘解析;
步骤3:基于步骤2中确定的来源数据表和步骤1作出的敏感数据标识,查询来源数据表中是否存在敏感数据,若不存在,则对血缘查询的返回结果集不做任何处理,并立即向用户返回响应结果集;若存在敏感数据,则执行步骤4;
步骤4:基于步骤3中查询出的敏感数据进行数据脱敏。
2.根据权利要求1所述的一种基于血缘解析的动态数据脱敏方法,其特征在于,步骤1中对敏感数据的标识包括敏感数据类型,字段数据类型,是否允许单值查询,默认脱敏算法。
3.根据权利要求1所述的一种基于血缘解析的动态数据脱敏方法,其特征在于,所述步骤2中进行血缘解析包括在where过滤语法中,确认用户的查询字段、表达式类型以及表达式值。
4.根据权利要求1所述的一种基于血缘解析的动态数据脱敏方法,其特征在于,所述步骤2中进行血缘解析包括确定来源数据表中返回的字段列表、字段类型、字段血缘关系类型、函数表达式、条件表达式、字段来源字段类型、一般表达式。
5.根据权利要求1所述的一种基于血缘解析的动态数据脱敏方法,其特征在于,步骤3中若发现存在敏感数据,还需要执行以下步骤:
步骤3.1:确认查询语句中是否包含禁止单值查询字段及表达式,若存在则阻止血缘结果集响应用户的查询;若不存在则执行步骤3.2;
步骤3.2:对需要向用户返回的响应结果集,依据如下规则进行处理:
针对直接查询字段,敏感标记与来源字段一致;
针对聚合表达式,默认无需处理;
针对函数表达式,判断函数表达式函数特征,敏感类型与来源字段保持一致;
针对条件表达式,依据条件表达式获取值对应的敏感数据类型为敏感数据类型;
针对一般表达式,采用被引用字段敏感类型为字段敏感类型。
6.根据权利要求1所述的一种基于血缘解析的动态数据脱敏方法,其特征在于,所述步骤4对输出字段的敏感类型进行输出数据的脱敏。
CN202111160729.1A 2021-09-30 2021-09-30 一种基于血缘解析的动态数据脱敏方法 Pending CN113901513A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111160729.1A CN113901513A (zh) 2021-09-30 2021-09-30 一种基于血缘解析的动态数据脱敏方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111160729.1A CN113901513A (zh) 2021-09-30 2021-09-30 一种基于血缘解析的动态数据脱敏方法

Publications (1)

Publication Number Publication Date
CN113901513A true CN113901513A (zh) 2022-01-07

Family

ID=79189828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111160729.1A Pending CN113901513A (zh) 2021-09-30 2021-09-30 一种基于血缘解析的动态数据脱敏方法

Country Status (1)

Country Link
CN (1) CN113901513A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116502273A (zh) * 2023-06-25 2023-07-28 中科金瑞(北京)大数据科技有限公司 基于数据血缘的动态数据脱敏方法、装置和设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446570A (zh) * 2018-02-28 2018-08-24 四川新网银行股份有限公司 一种数据脱敏方法及装置
CN109614816A (zh) * 2018-11-19 2019-04-12 平安科技(深圳)有限公司 数据脱敏方法、装置及存储介质
CN110232056A (zh) * 2019-05-21 2019-09-13 苏宁云计算有限公司 一种结构化查询语言的血缘解析方法及其工具
CN111191276A (zh) * 2019-12-05 2020-05-22 平安银行股份有限公司 数据脱敏方法、装置、存储介质及计算机设备
CN111310232A (zh) * 2020-03-17 2020-06-19 杭州数梦工场科技有限公司 数据脱敏方法及装置、电子设备、存储介质
CN112989412A (zh) * 2021-03-18 2021-06-18 城云科技(中国)有限公司 一种基于sql语句解析的数据脱敏方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446570A (zh) * 2018-02-28 2018-08-24 四川新网银行股份有限公司 一种数据脱敏方法及装置
CN109614816A (zh) * 2018-11-19 2019-04-12 平安科技(深圳)有限公司 数据脱敏方法、装置及存储介质
CN110232056A (zh) * 2019-05-21 2019-09-13 苏宁云计算有限公司 一种结构化查询语言的血缘解析方法及其工具
CN111191276A (zh) * 2019-12-05 2020-05-22 平安银行股份有限公司 数据脱敏方法、装置、存储介质及计算机设备
CN111310232A (zh) * 2020-03-17 2020-06-19 杭州数梦工场科技有限公司 数据脱敏方法及装置、电子设备、存储介质
CN112989412A (zh) * 2021-03-18 2021-06-18 城云科技(中国)有限公司 一种基于sql语句解析的数据脱敏方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116502273A (zh) * 2023-06-25 2023-07-28 中科金瑞(北京)大数据科技有限公司 基于数据血缘的动态数据脱敏方法、装置和设备
CN116502273B (zh) * 2023-06-25 2023-09-05 中科金瑞(北京)大数据科技有限公司 基于数据血缘的动态数据脱敏方法、装置和设备

Similar Documents

Publication Publication Date Title
CN109299135B (zh) 基于识别模型的异常查询识别方法、识别设备及介质
CN110532176B (zh) 一种智能合约的形式化验证方法、电子装置及存储介质
CN110351280B (zh) 一种威胁情报提取的方法、系统、设备及可读存储介质
US8332944B2 (en) System and method for detecting new malicious executables, based on discovering and monitoring characteristic system call sequences
AU2016355767A1 (en) Order clustering method and device, and malicious information rejecting method and device
CN109841214B (zh) 语音唤醒处理方法、装置和存储介质
US20150281257A1 (en) System to identify machines infected by malware applying linguistic analysis to network requests from endpoints
Sharma et al. Mitigation and risk factor analysis of android applications
CN113901513A (zh) 一种基于血缘解析的动态数据脱敏方法
WO2018017498A1 (en) Inferential exploit attempt detection
CN111988305B (zh) 应用于物联网的数据节点异常行为检测方法及服务器
CN108920592B (zh) 数据库字段关联方法及装置
CN113706176A (zh) 一种结合云计算的信息反欺诈处理方法及服务平台系统
CN112286958A (zh) 数据库查询表达式的处理方法和系统
CN101895517B (zh) 一种脚本语义提取方法和提取装置
CN110324352B (zh) 识别批量注册账号群的方法及装置
CN111756745A (zh) 告警方法、告警装置及终端设备
CN103166942B (zh) 一种恶意代码的网络协议解析方法
CN116545768B (zh) 一种信息安全风险预警方法及系统
CN113127862B (zh) 一种xxe攻击检测方法、装置、电子设备及存储介质
CN111552861A (zh) 一种网页动态脱敏方法
CN116661841A (zh) 一种基于知识图谱的组件版本确认方法、存储介质及终端
CN113312671A (zh) 应用于大数据挖掘的数字化业务操作安全处理方法及系统
US20210174199A1 (en) Classifying domain names based on character embedding and deep learning
US11222113B1 (en) Automatically generating malware definitions using word-level analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination