CN107944283B - 一种数据敏感性识别方法及装置 - Google Patents

一种数据敏感性识别方法及装置 Download PDF

Info

Publication number
CN107944283B
CN107944283B CN201711129213.4A CN201711129213A CN107944283B CN 107944283 B CN107944283 B CN 107944283B CN 201711129213 A CN201711129213 A CN 201711129213A CN 107944283 B CN107944283 B CN 107944283B
Authority
CN
China
Prior art keywords
sensitive data
data
sensitive
category
leakage loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711129213.4A
Other languages
English (en)
Other versions
CN107944283A (zh
Inventor
周期律
焦伟
侯军
蔡仕志
杨启龙
牛晔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank Of China Financial Technology Co ltd
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN201711129213.4A priority Critical patent/CN107944283B/zh
Publication of CN107944283A publication Critical patent/CN107944283A/zh
Application granted granted Critical
Publication of CN107944283B publication Critical patent/CN107944283B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/604Tools and structures for managing or administering access control systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Security & Cryptography (AREA)
  • Automation & Control Theory (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Technology Law (AREA)
  • Medical Informatics (AREA)
  • Operations Research (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据敏感性识别方法及装置,该方法包括:获取数据源中的敏感数据,对所述敏感数据进行分类得到敏感数据类别;依据预设的泄漏损失特征,对所述敏感数据类别进行分级处理得到敏感数据级别组;对所述敏感数据级别组进行风险计算,得到所述敏感数据的整体风险值。本发明通过进行对敏感数据更准的分类和分级处理以及关联风险关系的分析,能够指导对敏感数据制定合适的脱敏策略,提高敏感数据的安全性。

Description

一种数据敏感性识别方法及装置
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据敏感性识别方法及装置。
背景技术
商业银行的应用系统数据量巨大,其中存在非常多的敏感数据。然而,商业银行在部署开发环境、测试环境、演练环境等环境时通常是以生产数据为基础,因此需要进行大规模的数据脱敏处理才能保证数据安全。其中,数据脱敏的核心即为敏感数据的识别,识别其可能存在敏感性的数据,以指导制定合适的脱敏策略并展开脱敏处理。
目前行业在进行数据脱敏处理时,往往凭经验进行敏感性识别,敏感数据分类制定比较随意,缺乏统一的判定规则;敏感性分级一般只考虑单一敏感数据泄漏可能造成的损失,这样制定出的数据脱敏策略往往会不准确,仍存在敏感数据泄漏的风险。
发明内容
针对于上述问题,本发明提供一种数据敏感性识别方法及装置,实现了能够指导制定合适的脱敏策略,提高敏感数据安全性的目的。
为了实现上述目的,根据本发明的第一方面,提供了一种数据敏感性识别方法,该方法包括:
获取数据源中的敏感数据,对所述敏感数据进行分类得到敏感数据类别;
依据预设的泄漏损失特征,对所述敏感数据类别进行分级处理得到敏感数据级别组;
对所述敏感数据级别组进行风险计算,得到所述敏感数据的整体风险值。
优选地,该方法还包括:
根据所述敏感数据类别确定具有关联性的敏感数据类别集合,获取所述具有关联性的敏感数据类别集合中的数据列,按照预设记录规则记录所述数据列的关联性信息。
优选地,所述获取数据源中的敏感数据,对所述敏感数据进行分类得到敏感数据类别,包括:
获取数据源中的敏感数据;
当所述敏感数据包含数据结构信息时,根据所述数据结构信息和预设敏感类别中数据结构信息,对所述敏感数据进行分类得到敏感数据类别;
当所述敏感数据包含数据实例信息时,根据所述数据实例信息和预设敏感类别中数据实例信息,对所述敏感数据进行分类得到敏感数据类别。
优选地,该方法还包括:
对每一类的所述敏感数据类别进行分类,得到所述敏感数据类别对应的敏感子类别。
优选地,所述对所述敏感数据级别组进行风险计算,得到所述敏感数据的整体风险值,包括:
为每个所述敏感数据类别进行初始化泄漏损失特征值设定,并为每个敏感数据级别组设定初始化定位精度特征值;
依据所述初始化泄漏损失特征值设定所述每个敏感数据级别组的泄漏损失特征值;
依据所述初始化泄漏损失特征值,计算得到所述每个敏感数据级别组的叠加泄漏损失特征值;
判断得到各个敏感数据级别组之间的关联关系类别,依据所述关联关系类别计算合并风险值;
根据所述合并风险值对所述敏感数据级别组进行风险值计算,得到所述敏感数据的整体风险值。
根据本发明的第二方面,提供了一种数据敏感性识别装置,该装置包括:
分类模块,用于获取数据源中的敏感数据,对所述敏感数据进行分类得到敏感数据类别;
分级模块,用于依据预设的泄漏损失特征,对所述敏感数据类别进行分级处理得到敏感数据级别组;
计算模块,用于对所述敏感数据级别组进行风险计算,得到所述敏感数据的整体风险值。
优选地,该方法还包括:
关联记录模块,用于根据所述敏感数据类别确定具有关联性的敏感数据类别集合,获取所述具有关联性的敏感数据类别集合中的数据列,按照预设记录规则记录所述数据列的关联性信息。
优选地,所述分类模块包括:
获取单元,用于获取数据源中的敏感数据;
第一分类单元,用于当所述敏感数据包含数据结构信息时,根据所述数据结构信息和预设敏感类别中数据结构信息,对所述敏感数据进行分类得到敏感数据类别;
第二分类单元,用于当所述敏感数据包含数据实例信息时,根据所述数据实例信息和预设敏感类别中数据实例信息,对所述敏感数据进行分类得到敏感数据类别。
优选地,其特征在于,所述分类模块还包括:
子分类单元,用于对每一类的所述敏感数据类别进行分类,得到所述敏感数据类别对应的敏感子类别。
优选地,其特征在于,所述计算模块包括:
第一设定单元,用于为每个所述敏感数据类别进行初始化泄漏损失特征值设定,并为每个敏感数据级别组设定初始化定位精度特征值;
第二设定单元,用于依据所述初始化泄漏损失特征值设定所述每个敏感数据级别组的泄漏损失特征值;
第一计算单元,用于依据所述初始化泄漏损失特征值,计算得到所述每个敏感数据级别组的叠加泄漏损失特征值;
第二计算单元,用于判断得到各个敏感数据级别组之间的关联关系类别,依据所述关联关系类别计算合并风险值;
第三计算单元,用于根据所述合并风险值对所述敏感数据级别组进行风险值计算,得到所述敏感数据的整体风险值。
相较于现有技术,本发明对敏感数据分类主要依据数据本身的结构特征或者数据实例特征进行了敏感数据类别的确定,相比于传统的凭借主观经验进行分类,更具有统一的分类规则,使得对敏感数据的分类更加准确;然后基于设定的泄露损失特征值对分类的数据进行了风险关联关系的叠加风险特征的放大,可以识别出因为敏感数据叠加后而放大风险的情况,使得敏感分级更加准确。同时,本发明还确定了具有关联性的敏感数据类别集合,能够自动判断潜在的数据表间关联,可以用来配置保持脱敏结果一致性关系的脱敏策略。因此,本发明通过进行对敏感数据更准的分类和分级处理以及关联关系的分析,能够指导对敏感数据制定合适的脱敏策略,提高敏感数据的安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例一提供的一种数据敏感性识别方法的流程示意图;
图2为本发明实施例二提供的一种敏感数据级别组模型示意图;
图3为本发明实施例二对应的图1中所示S13步骤中的获取敏感数据整体风险值方法的流程示意图;
图4为本发明实施例三提供的一种数据敏感性识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
实施例一
参见图1为本发明实施例一提供的一种数据敏感性识别方法,其特征在于,该方法包括以下步骤:
S11、获取数据源中的敏感数据,对所述敏感数据进行分类得到敏感数据类别;
需要说明的是,因为敏感类别是敏感性分类的核心,其包含了泄漏危害特征相同的数据列。在现有的敏感类别分类过程中往往是依靠人们的主观经验进行分类的,而本发明主要是依靠数据结构信息或者数据实例信息时进行分类的。即该过程为:
获取数据源中的敏感数据;
当所述敏感数据包含数据结构信息时,根据所述数据结构信息和预设敏感类别中数据结构信息,对所述敏感数据进行分类得到敏感数据类别;
当所述敏感数据包含数据实例信息时,根据所述数据实例信息和预设敏感类别中数据实例信息,对所述敏感数据进行分类得到敏感数据类别。
举例说明,描述数据列的结构信息,可从数据源的数据结构相关文档、DDL等中获取。该信息是进行敏感类别分类的第一要素,如数据列名为“客户号”且具有特定长度的数据列,可判定敏感类别为“内部身份ID”;数据列名包含“明细”且列名包含“交易金额”的数据列,可判定为敏感类别为“明细金额”等。
数据列所包含的具体数据,可从数据源的数据表实例中获取。该信息是进行敏感类别分类的第二要素,如抽样抽取实例数据绝大部分符合身份证特征的数据列,可判定敏感类别为“外部身份ID”;抽样抽取实例数据绝大部分为2-3个中文字符,且首字大部分在姓氏码表中的数据列,可判定敏感类别为“个人姓名”。
同时在本发明实施例中还可以增加敏感子类别来进行敏感类别的二级分类,即包括:
对每一类的所述敏感数据类别进行分类,得到所述敏感数据类别对应的敏感子类别。
可以理解的是,敏感子类别将表述相同含义的数据列进行抽象合并,如由于开发中缺乏统一的数据模型规范,导致数据源中可能存在名为“行号”及“机构号”的数据列,但两者实际代表相同的含义,因此可以用名为“行号”的敏感子类别来将两个数据列统一起来。
S12、依据预设的泄漏损失特征,对所述敏感数据类别进行分级处理得到敏感数据级别组;
S13、对所述敏感数据级别组进行风险计算,得到所述敏感数据的整体风险值。
需要说明的是,将敏感数据进行分类后,需要依据泄漏损失特征也可以结合定位精度进行分级。也就是某些敏感数据类别之间具有类似的泄漏损失特征,这样的可以进一步分为同一组,得到了敏感数据级别组。然后根据各个敏感数据类别的初始化赋值和各个敏感数据级别组的初始化赋值,计算得到敏感数据级别组之间的合并风险值,然后根据该合并风险值计算得到敏感数据的整体风险值。
后续,针对不同的场景可以根据敏感数据的整体风险进行对应的数据脱敏策略的设置,比如当整体风险值较高时,可以通过设置该敏感数据的访问权限,例如只有特定的某些人可以进行访问,来提高敏感数据的安全性。
同时,本发明的实施例中的数据敏感性识别方法还包括:
根据所述敏感数据类别确定具有关联性的敏感数据类别集合,获取所述具有关联性的敏感数据类别集合中的数据列,按照预设记录规则记录所述数据列的关联性信息。
需要说明的是,当确定了具有关联性的敏感数据类别集合A后,可以检查每个识别出敏感类别的源数据列,如果其在敏感子类别A中,可以按照预设的表格记录其所属数据表的关联信息,可以获得与该关联信息进行关联的其他数据表,这样可以自动判断潜在的数据表间的关联,最终指导配置具有关联性的脱敏策略。
通过本发明实施例一公开的技术方案,对敏感数据分类主要依据数据本身的结构特征或者数据实例特征进行了敏感数据类别的确定,相比于传统的凭借主观经验进行分类,更具有统一的分类规则,使得对敏感数据的分类更加准确;然后基于设定的泄露损失特征值对分类的数据进行了风险关联关系的叠加风险特征的放大,可以识别出因为敏感数据叠加后而放大风险的情况,使得敏感分级更加准确。同时,本发明还确定了具有关联性的敏感数据类别集合,能够自动判断潜在的数据表间关联,可以用来配置保持脱敏结果一致性关系的脱敏策略。因此,本发明通过进行对敏感数据更准的分类和分级处理以及关联关系的分析,能够指导对敏感数据制定合适的脱敏策略,提高敏感数据的安全性。
实施例二
参照本发明实施例一和图1中所描述的S11到S13步骤的具体过程,首先要对获取的敏感数据进行分类,主要是根据数据结构信息和数据实例信息对该敏感数据进行分类的,为了分类的详细化,可以进行二级分类即获得敏感子类别。
举例说明,参见表1-1为某商业银行主要的敏感类别及敏感子类别表。
表1-1主要的敏感类别及敏感子类别表
Figure BDA0001469042710000081
基于表1-1,根据不同商业银行内部数据格式的具体要求,按表1-2格式记录每一类敏感类别及敏感子类别的数据结果特征,例如数据列名、数据列类型等数据结构的信息;及数据实例特征即该数据列包含的数据实例信息。
表1-2敏感类别分类特征表
Figure BDA0001469042710000091
如上表1-2所示,以“内部身份ID”敏感类别为例,后两列记录了“客户号”及“行号”两个敏感子类别的数据结构特征及数据实例特征的文字描述,这些信息可用于数据列的敏感分类。
通过数据源原始信息中包含的两种信息来进行敏感性分类:
数据结构信息:描述数据列的结构信息,可从数据源的数据结构相关文档、DDL等中获取。该信息是进行敏感类别分类的第一要素,如列名为“客户号”且具有特定长度的数据列,可判定敏感类别为“内部身份ID”(敏感子类别为“客户号”);表名包含“明细”且列名包含“交易金额”的数据列,可判定为敏感类别为“明细金额”(敏感子类别为“交易金额”)等。
数据实例信息:数据列所包含的具体数据,可从数据源的数据表实例中获取。该信息是进行敏感类别分类的第二要素,如抽样抽取实例数据绝大部分符合身份证特征的数据列,可判定敏感类别为“外部身份ID”(敏感子类别为“身份证号”);抽样抽取实例数据绝大部分为2-3个中文字符,且首字大部分在姓氏码表(参见第四章中介绍)中的数据列,可判定敏感类别为“个人姓名”(敏感子类别要结合数据结构信息进一步判断)。
确定了数据列的敏感类别,就隐含了是否包含敏感性数据,如果敏感类别为空,则说明其不包含敏感信息。
在获得了敏感数据类别后,需要进行分级处理,也就是将具有相同或类似的泄漏损失特征,对敏感数据类别进行分级处理,得到敏感数据级别组。
该泄漏损失特征也可以结合定位特征进行分析,参见图2,根据图2进行具体的举例说明。
在图2中,表1-1中除“备注”以外的14类敏感类别用圆圈进行表示椭圆圈中包含了具备相同定位特征的敏感类别,也就是具有相类似的泄漏损失特征,其定位特征的大小由椭圆圈灰度颜色深浅区分,颜色越深,定位越精确。大方框将14个敏感类别分成两种类型,左边方框中的敏感类别属于“身份”类型,其记录与用户身份相关的信息,右边方框中的敏感类别属于“账户”类型,其记录与账户相关的信息。虚线代表相同类型(相同方框内)敏感类别定位特征的关联,这种关联体现在当虚线两头同时有敏感数据泄露时,其风险比虚线两头敏感数据单独泄露的风险总和还要大,即定位特征的关联关系有放大风险的效果。例如身份证号(“外部身份ID”敏感类别)与手机号(“联系方式”敏感类别)同时泄露比两者单独泄露的风险要大。实线代表不同类型(不同方框内)敏感类别定位特征的关联,这种关联体现在当实线两头同时有敏感数据泄露时,其风险比实线两头敏感数据单独丢失的风险总和还要大,并且风险放大程度要高于虚线(“身份”类型及“账户”类型之间的“定位”特征关联关系的放大风险效果大于“身份”类型或“账户”类型内部的“定位”特征关联关系)。
也就是在进行分级后,可以更加明显地表述出敏感类别分级的客观特征:
对单一敏感类别来说,泄露造成的损失不同;
泄露更多的敏感类别风险更大;
所有敏感类别可归到身份及账户类型中,身份类型或账户类型内部敏感类别的定位精度不同(即定位身份或者账户的精确程度不同),不同定位精度的敏感类别同时泄露时,上述条目中定义的泄漏损失值简单叠加,并且定位精度越高,风险越高;
身份类型和账户类型中同时泄露了定位精度较高的敏感类别后,风险会高于上述3条条目中的定义,例如,身份与账户的关联信息同时泄露时,风险会大幅放大,并且定位精度越高,风险越高。
参见图3,在图1中的步骤S13所述对所述敏感数据级别组进行风险计算,得到所述敏感数据的整体风险值,包括:
S131、为每个所述敏感数据类别进行初始化泄漏损失特征值设定,并为每个敏感数据级别组设定初始化定位精度特征值;
S132、依据所述初始化泄漏损失特征值设定所述每个敏感数据级别组的泄漏损失特征值;
S133、依据所述初始化泄漏损失特征值,计算得到所述每个敏感数据级别组的叠加泄漏损失特征值;
S134、判断得到各个敏感数据级别组之间的关联关系类别,依据所述关联关系类别计算合并风险值;
S135、根据所述合并风险值对所述敏感数据级别组进行风险值计算,得到所述敏感数据的整体风险值。
举例说明,仍参见图2,S131步骤为图2中每个圆圈即每个敏感数据类别,初始化泄露损失特征值,可参考此排序从高到低:身份鉴别信息、账户鉴别信息、外部账户ID、外部身份ID、个人姓名、企业名称、联系方式、地址信息、个人财产信息、企业财产信息、内部身份ID、存量金额、明细金额、内部账户ID。为每个椭圆圈(即每个敏感数据级别组)初始化定位精度特征值(≧1),可参考此排序从高到低:深蓝色椭圆圈、浅蓝色椭圆圈、白色椭圆圈。
依据所述初始化泄漏损失特征值设定所述每个敏感数据级别组的泄漏损失特征值;
对敏感级别组中的每个敏感类别,将属于相同椭圆圈的泄露损失特征值进行叠加,得到每个椭圆圈的叠加泄露损失特征值b。如敏感级别组包括外部身份ID及内部身份ID,其初始化泄露损失特征值分别为a1和a2,则对应的椭圆圈的叠加泄露损失特征值b=a1+a2。
判断得到各个敏感数据级别组之间的关联关系类别,依据所述关联关系类别计算合并风险值,在图2中虚线为第一类关联关系,实线为第二类关联关系。用定位精度特征值放大叠加泄露损失特征值:假设两个椭圆圈的叠加泄露损失特征值分别为b1和b2,定位精度特征值分别为c1和c2,如果其存在虚线关联,则合并风险为(max(c1,c2))*(b1+b2);如果其存在实线关联,则合并风险为c1*c2*(b1+b2)。
然后按照先实线后虚线的优先级迭代处理每条实线及虚线,迭代计算出最终整体风险值p。需要说明的是,上一次的合并风险值为下一次进行风险计算时的初始值,以此类推直至完成整个风险值的计算。
对应的,本实施例还包括:
根据所述敏感数据类别确定具有关联性的敏感数据类别集合,获取所述具有关联性的敏感数据类别集合中的数据列,按照预设记录规则记录所述数据列的关联性信息。
需要说明的是,首先,定义具有关联性的敏感数据类别集合A。由于在本发明实施例中已经确定了敏感数据类别,参见表1-1,对于商业银行来说,通常情况A包含了表1-1中的前6类敏感类别,即内部身份ID、外部身份ID、个人姓名、企业名称、外部账户ID及内部账户ID。同时,对某些商业银行来说,除前6类敏感类别以外,其他的敏感子类别也可能具备关联性,如手机号、邮箱地址等敏感子类别,也加入A中,根据各个商业银行的不同规则进行灵活设置。
然后,检查每个被识别出敏感类别的源数据列,如过其敏感数据类别在A中,则按预设格式参见表1-3记录其所属数据表的关联性信息。
表1-3数据表关联性标记表
Figure BDA0001469042710000131
上表1-3中,记录的是数据源的数据表。“关联关系1-n”列按以下方式记录:数据表中列可能形成的与外表关联的情况。->左边是源数据的数据列名,->右边是前面步骤识别出的敏感子类别,P1或I1等标记说明其为该表主键第一列或某一索引第一列。
最后,对表1-3的“关联关系1-n”列进行梳理,找出不同数据表中->右边的敏感子类别相同的记录,则这些数据表间存在敏感性数据关联,关联的数据列为->左边的源数据列名。
可以获得与该关联信息进行关联的其他数据表,这样可以自动判断潜在的数据表间的关联,最终指导配置具有关联性的脱敏策略。
在本发明实施例二中,对敏感数据分类主要依据数据本身的结构特征或者数据实例特征进行了敏感数据类别的确定,相比于传统的凭借主观经验进行分类,更具有统一的分类规则,使得对敏感数据的分类更加准确;然后基于设定的泄露损失特征值和定位特征值对分类的数据进行了风险关联关系的叠加风险特征的放大,可以识别出因为敏感数据叠加后而放大风险的情况,使得敏感分级更加准确。然后通过计算获得脱敏数据整体的风险值,可以结合具体场景对该整体风险值进行管理和应用。同时,本发明还确定了具有关联性的敏感数据类别集合,能够自动判断潜在的数据表间关联,可以用来配置保持脱敏结果一致性关系的脱敏策略。因此,本发明通过进行对敏感数据更准的分类和分级处理以及关联关系的分析,能够指导对敏感数据制定合适的脱敏策略,提高敏感数据的安全性。
实施例三
与本发明实施例一和实施例二所公开的数据敏感性识别方法相对应,本发明的实施例三还提供了一种数据敏感性识别装置,参见图4,该装置包括:
分类模块1,用于获取数据源中的敏感数据,对所述敏感数据进行分类得到敏感数据类别;
分级模块2,用于依据预设的泄漏损失特征,对所述敏感数据类别进行分级处理得到敏感数据级别组;
计算模块3,用于对所述敏感数据级别组进行风险计算,得到所述敏感数据的整体风险值。
对应的,该方法还包括:
关联记录模块4,用于根据所述敏感数据类别确定具有关联性的敏感数据类别集合,获取所述具有关联性的敏感数据类别集合中的数据列,按照预设记录规则记录所述数据列的关联性信息。
具体的,所述分类模块1包括:
获取单元,用于获取数据源中的敏感数据;
第一分类单元,用于当所述敏感数据包含数据结构信息时,根据所述数据结构信息和预设敏感类别中数据结构信息,对所述敏感数据进行分类得到敏感数据类别;
第二分类单元,用于当所述敏感数据包含数据实例信息时,根据所述数据实例信息和预设敏感类别中数据实例信息,对所述敏感数据进行分类得到敏感数据类别。
对应的,所述分类模块1还包括:
子分类单元,用于对每一类的所述敏感数据类别进行分类,得到所述敏感数据类别对应的敏感子类别。
具体的,所述计算模块3包括:
第一设定单元,用于为每个所述敏感数据类别进行初始化泄漏损失特征值设定,并为每个敏感数据级别组设定初始化定位精度特征值;
第二设定单元,用于依据所述初始化泄漏损失特征值设定所述每个敏感数据级别组的泄漏损失特征值;
第一计算单元,用于依据所述初始化泄漏损失特征值,计算得到所述每个敏感数据级别组的叠加泄漏损失特征值;
第二计算单元,用于判断得到各个敏感数据级别组之间的关联关系类别,依据所述关联关系类别计算合并风险值;
第三计算单元,用于根据所述合并风险值对所述敏感数据级别组进行风险值计算,得到所述敏感数据的整体风险值。
在本发明的实施例三中,对敏感数据分类主要依据数据本身的结构特征或者数据实例特征进行了敏感数据类别的确定,相比于传统的凭借主观经验进行分类,更具有统一的分类规则,使得对敏感数据的分类更加准确;然后基于设定的泄露损失特征值对分类的数据进行了风险关联关系的叠加风险特征的放大,可以识别出因为敏感数据叠加后而放大风险的情况,使得敏感分级更加准确。同时,本发明还确定了具有关联性的敏感数据类别集合,能够自动判断潜在的数据表间关联,可以用来配置保持脱敏结果一致性关系的脱敏策略。因此,本发明通过进行对敏感数据更准的分类和分级处理以及关联关系的分析,能够指导对敏感数据制定合适的脱敏策略,提高敏感数据的安全性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种数据敏感性识别方法,其特征在于,该方法包括:
获取数据源中的敏感数据;
当所述敏感数据包含数据结构信息时,根据所述数据结构信息和预设敏感类别中数据结构信息,对所述敏感数据进行分类得到敏感数据类别;
当所述敏感数据包含数据实例信息时,根据所述数据实例信息和预设敏感类别中数据实例信息,对所述敏感数据进行分类得到敏感数据类别;
依据预设的泄漏损失特征,对所述敏感数据类别进行分级处理得到敏感数据级别组;
对所述敏感数据级别组进行风险计算,得到所述敏感数据的整体风险值,其中,所述对所述敏感数据级别组进行风险计算,得到所述敏感数据的整体风险值,包括:为每个所述敏感数据类别进行初始化泄漏损失特征值设定,并为每个敏感数据级别组设定初始化定位精度特征值;依据所述初始化泄漏损失特征值设定所述每个敏感数据级别组的泄漏损失特征值;依据所述初始化泄漏损失特征值,计算得到所述每个敏感数据级别组的叠加泄漏损失特征值;判断得到各个敏感数据级别组之间的关联关系类别,依据所述关联关系类别计算合并风险值;根据所述合并风险值对所述敏感数据级别组进行风险值计算,得到所述敏感数据的整体风险值。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
根据所述敏感数据类别确定具有关联性的敏感数据类别集合,获取所述具有关联性的敏感数据类别集合中的数据列,按照预设记录规则记录所述数据列的关联性信息。
3.根据权利要求2所述的方法,其特征在于,该方法还包括:
对每一类的所述敏感数据类别进行分类,得到所述敏感数据类别对应的敏感子类别。
4.一种数据敏感性识别装置,其特征在于,该装置包括:
分类模块,用于获取数据源中的敏感数据,对所述敏感数据进行分类得到敏感数据类别,所述分类模块包括:获取单元,用于获取数据源中的敏感数据;第一分类单元,用于当所述敏感数据包含数据结构信息时,根据所述数据结构信息和预设敏感类别中数据结构信息,对所述敏感数据进行分类得到敏感数据类别;第二分类单元,用于当所述敏感数据包含数据实例信息时,根据所述数据实例信息和预设敏感类别中数据实例信息,对所述敏感数据进行分类得到敏感数据类别;
分级模块,用于依据预设的泄漏损失特征,对所述敏感数据类别进行分级处理得到敏感数据级别组;
计算模块,用于对所述敏感数据级别组进行风险计算,得到所述敏感数据的整体风险值,所述计算模块包括:第一设定单元,用于为每个所述敏感数据类别进行初始化泄漏损失特征值设定,并为每个敏感数据级别组设定初始化定位精度特征值;第二设定单元,用于依据所述初始化泄漏损失特征值设定所述每个敏感数据级别组的泄漏损失特征值;第一计算单元,用于依据所述初始化泄漏损失特征值,计算得到所述每个敏感数据级别组的叠加泄漏损失特征值;第二计算单元,用于判断得到各个敏感数据级别组之间的关联关系类别,依据所述关联关系类别计算合并风险值;第三计算单元,用于根据所述合并风险值对所述敏感数据级别组进行风险值计算,得到所述敏感数据的整体风险值。
5.根据权利要求4所述的装置,其特征在于,该装置还包括:
关联记录模块,用于根据所述敏感数据类别确定具有关联性的敏感数据类别集合,获取所述具有关联性的敏感数据类别集合中的数据列,按照预设记录规则记录所述数据列的关联性信息。
6.根据权利要求5所述的装置,其特征在于,所述分类模块还包括:
子分类单元,用于对每一类的所述敏感数据类别进行分类,得到所述敏感数据类别对应的敏感子类别。
CN201711129213.4A 2017-11-15 2017-11-15 一种数据敏感性识别方法及装置 Active CN107944283B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711129213.4A CN107944283B (zh) 2017-11-15 2017-11-15 一种数据敏感性识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711129213.4A CN107944283B (zh) 2017-11-15 2017-11-15 一种数据敏感性识别方法及装置

Publications (2)

Publication Number Publication Date
CN107944283A CN107944283A (zh) 2018-04-20
CN107944283B true CN107944283B (zh) 2021-01-01

Family

ID=61931172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711129213.4A Active CN107944283B (zh) 2017-11-15 2017-11-15 一种数据敏感性识别方法及装置

Country Status (1)

Country Link
CN (1) CN107944283B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875404B (zh) * 2018-05-30 2022-05-20 中国联合网络通信集团有限公司 基于机器学习的数据脱敏方法、装置及存储介质
CN109032848B (zh) * 2018-08-30 2020-10-09 深圳互联先锋科技有限公司 一种基于直销系统数据安全的处理方法及处理系统
CN109388965B (zh) * 2018-09-10 2022-02-08 全球能源互联网研究院有限公司 一种混合数据的脱敏方法及系统
CN109460676A (zh) * 2018-10-30 2019-03-12 全球能源互联网研究院有限公司 一种混合数据的脱敏方法、脱敏装置及脱敏设备
CN109766485A (zh) * 2018-12-07 2019-05-17 中国电力科学研究院有限公司 一种敏感信息检查方法及系统
CN110008470B (zh) * 2019-03-19 2023-05-26 创新先进技术有限公司 报表的敏感性分级方法和装置
CN110377605B (zh) * 2019-07-24 2023-04-25 贵州大学 一种结构化数据的敏感属性识别与分类分级方法
CN110941956A (zh) * 2019-10-26 2020-03-31 华为技术有限公司 一种数据分级方法、装置及相关设备
CN110851864A (zh) * 2019-11-08 2020-02-28 国网浙江省电力有限公司信息通信分公司 一种敏感数据自动识别和处理方法及系统
CN110889129B (zh) * 2019-11-29 2022-02-11 中国银行股份有限公司 银行数据安全控制方法及装置
CN111222777A (zh) * 2019-12-31 2020-06-02 嘉兴太美医疗科技有限公司 一种基于风险管理的数据泄露防护方法及集成系统
CN113395286B (zh) * 2021-06-17 2023-03-24 国网信通亿力科技有限责任公司 一种敏感数据多维度加密处理方法
CN113297600B (zh) * 2021-06-17 2022-07-12 国网信通亿力科技有限责任公司 一种基于目的指针的敏感数据处理系统
CN113434365B (zh) * 2021-06-28 2022-11-25 平安银行股份有限公司 数据特征监控方法、装置、电子设备及存储介质
CN115983722B (zh) * 2023-03-20 2023-06-06 睿至科技集团有限公司 一种云雾融合的物联网能源管理方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103502994A (zh) * 2011-05-10 2014-01-08 纳格拉影像股份有限公司 用于处理隐私数据的方法
CN106789964A (zh) * 2016-12-02 2017-05-31 中国移动通信集团新疆有限公司 云资源池数据安全检测方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8539597B2 (en) * 2010-09-16 2013-09-17 International Business Machines Corporation Securing sensitive data for cloud computing
US10325099B2 (en) * 2013-12-08 2019-06-18 Microsoft Technology Licensing, Llc Managing sensitive production data
US9762603B2 (en) * 2014-05-10 2017-09-12 Informatica Llc Assessment type-variable enterprise security impact analysis
CN104156668A (zh) * 2014-08-04 2014-11-19 江苏大学 一种多敏感属性数据的隐私保护重发布方法
CN105825138B (zh) * 2015-01-04 2019-02-15 北京神州泰岳软件股份有限公司 一种敏感数据识别的方法和装置
CN106682527B (zh) * 2016-12-25 2019-11-15 北京明朝万达科技股份有限公司 一种基于数据分类分级的数据安全管控方法及系统
CN107315968B (zh) * 2017-06-29 2019-08-23 国信优易数据有限公司 一种数据处理方法及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103502994A (zh) * 2011-05-10 2014-01-08 纳格拉影像股份有限公司 用于处理隐私数据的方法
CN106789964A (zh) * 2016-12-02 2017-05-31 中国移动通信集团新疆有限公司 云资源池数据安全检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中小城市商业银行数据脱敏研究 ——以东营银行为例;吴行飞;《中国优秀硕士学位论文全文数据库 经济与管理科学辑》;20170215(第2期);全文 *
数据脱敏:保障银行数据安全的重要手段;桂温;《中国金融电脑》;20121231;全文 *

Also Published As

Publication number Publication date
CN107944283A (zh) 2018-04-20

Similar Documents

Publication Publication Date Title
CN107944283B (zh) 一种数据敏感性识别方法及装置
CN109582861A (zh) 一种数据隐私信息检测系统
CN109271489B (zh) 一种文本检测方法及装置
CN102930635B (zh) 具有货币真伪识别功能的移动终端及其货币真伪识别方法
CN109460455A (zh) 一种文本检测方法及装置
CN108363717B (zh) 一种数据安全级别的识别检测方法及装置
CN109885597B (zh) 基于机器学习的用户分群处理方法、装置及电子终端
US11755766B2 (en) Systems and methods for detecting personally identifiable information
CN110427375B (zh) 字段类别的识别方法及装置
CN112487982A (zh) 商户信息的审核方法、系统和存储介质
CN103235934A (zh) 一种印鉴影像的比对方法以及比对系统
CN110866108A (zh) 一种敏感数据检测系统及其检测方法
CN106295673B (zh) 物品信息处理方法及处理装置
CN106997350A (zh) 一种数据处理的方法及装置
CN107391543B (zh) 一种无线热点的类型识别方法和装置
CN114817518B (zh) 基于大数据档案识别的证照办理方法、系统及介质
CN111428497A (zh) 一种自动抽取出资信息的方法、装置及设备
CN113051601A (zh) 敏感数据识别方法、装置、设备和介质
CN114494765B (zh) 真假烟鉴别点的识别方法、装置、电子设备及存储介质
CN116189215A (zh) 自动审核方法、装置、电子设备及存储介质
CN114090076A (zh) 应用程序的合规性判别方法和装置
CN109636578A (zh) 信贷信息的风险检测方法、装置、设备及可读存储介质
CN114706899A (zh) 快递数据的敏感度计算方法、装置、存储介质及设备
CN107330479A (zh) 印刷品识别方法及装置
CN113313499A (zh) 一种珠宝鉴定证书的检测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221116

Address after: 100005 No. 69, inner main street, Dongcheng District, Beijing, Jianguomen

Patentee after: AGRICULTURAL BANK OF CHINA

Patentee after: Agricultural Bank of China Financial Technology Co.,Ltd.

Address before: 100005 No. 69, inner main street, Dongcheng District, Beijing, Jianguomen

Patentee before: AGRICULTURAL BANK OF CHINA