CN110543779B - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
CN110543779B
CN110543779B CN201910837545.0A CN201910837545A CN110543779B CN 110543779 B CN110543779 B CN 110543779B CN 201910837545 A CN201910837545 A CN 201910837545A CN 110543779 B CN110543779 B CN 110543779B
Authority
CN
China
Prior art keywords
data
operation record
target
desensitization
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910837545.0A
Other languages
English (en)
Other versions
CN110543779A (zh
Inventor
李澜
杨华
景峰
张雪芹
张慧明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Huitong Jincai Beijing Information Technology Co ltd
State Grid Corp of China SGCC
Yangquan Power Supply Co of State Grid Shanxi Electric Power Co Ltd
Original Assignee
State Grid Huitong Jincai Beijing Information Technology Co ltd
State Grid Corp of China SGCC
Yangquan Power Supply Co of State Grid Shanxi Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Huitong Jincai Beijing Information Technology Co ltd, State Grid Corp of China SGCC, Yangquan Power Supply Co of State Grid Shanxi Electric Power Co Ltd filed Critical State Grid Huitong Jincai Beijing Information Technology Co ltd
Priority to CN201910837545.0A priority Critical patent/CN110543779B/zh
Publication of CN110543779A publication Critical patent/CN110543779A/zh
Application granted granted Critical
Publication of CN110543779B publication Critical patent/CN110543779B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据处理方法及装置,该方法通过获取数据库日志中的若干条操作记录数据,并从操作记录数据中提取若干数据项,确定同一操作记录数据中不同数据项之间的关联度,将关联度达到预设关联度阈值的两个数据项均确定为目标数据项,为该目标数据项的选择预设的数据脱敏方式,对数据库中的目标数据项进行脱敏操作。该方法根据操作记录数据中数据项之间的关联性,确定数据项在同一操作记录数据中关联出现的可能性,对可能同时关联出现的数据项进行加密操作,以保证数据库中各个数据项的安全。

Description

数据处理方法及装置
技术领域
本申请涉及数据加密技术领域,特别是涉及一种数据处理方法及装置。
背景技术
数据库是数据管理的有效技术,是由多个数据构成的有序集合,这些数据被存放在结构化的数据表里。数据表之间相互关联,反映了各个数据之间的关联程度。
当操作人员对数据库进行管理时,如将某数据进行写操作时,数据库会根据此次操作的数据内容生成数据库日志。数据库日志中包含多条操作记录数据,每一条操作记录数据表示一条数据库日志,该操作记录数据中包含敏感数据项,如用户姓名、身份证号码、手机号码等相关信息。
为了保证数据库中数据项不被泄露,需要一种数据处理方法,以保证数据项的安全。
发明内容
有鉴于此,本申请提供了一种数据处理方法,以保障数据库中数据项的安全。另外,本申请还提供了一种数据处理装置,用以保证所述方法在实际中的应用及实现。
为实现所述目的,本申请提供的技术方案如下:
第一方面,本申请提供了一种数据处理方法,包括:
获得若干条操作记录数据,其中操作记录数据表示对目标数据库的操作行为,且操作记录数据包括所述目标数据库内的若干数据项;
确定同一所述操作记录数据内的不同数据项之间的关联度;
将关联度达到预设关联度阈值的所述不同数据项确定为目标数据项;
确定所述目标数据项的数据脱敏方式;
使用所述数据脱敏方式,对所述目标数据项进行数据脱敏操作。
第二方面,本申请提供了一种数据处理装置,包括:
获取模块,用于获得若干条操作记录数据,其中操作记录数据表示对目标数据库的操作行为,且操作记录数据包括所述目标数据库内的若干数据项;
关联度确定模块,用于确定同一所述操作记录数据内的不同数据项之间的关联度;
数据项确定模块,用于将关联度达到预设关联度阈值的所述不同数据项确定为目标数据项;
脱敏方式确定模块,用于确定所述目标数据项的数据脱敏方式;
数据脱敏模块,用于使用所述数据脱敏方式,对所述目标数据项进行数据脱敏操作。
由上述技术方案可知,本申请提供了一种数据处理方法,该方法通过获取数据库日志中的若干条操作记录数据,并从操作记录数据中提取若干数据项,确定同一操作记录数据中不同数据项之间的关联度,将关联度达到预设关联度阈值的两个数据项均确定为目标数据项,为该目标数据项的选择预设的数据脱敏方式,对数据库中的目标数据项进行脱敏操作。该方法根据操作记录数据中数据项之间的关联性,确定数据项在同一操作记录数据中关联出现的可能性,对关联出现可能性较高的数据项进行加密操作,以保证数据库中各个数据项的安全。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的数据处理方法的一个流程图;
图2为本申请提供的数据处理装置的一个结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
数据库日志中记录有多条操作记录数据,其中每一条操作记录数据包含有操作人员对数据库进行操作的操作类型、操作时间以及对数据库进行操作的数据相关信息(如新增到数据库中的数据信息)。
恶意用户在对数据库进行攻击时,可能会通过非法手段窃取数据库以及数据库日志中的数据项,进而造成数据泄露。
为防止数据库和/或数据库日志中的数据项不被泄露,本申请实施例提供了一种数据处理方法。参见图1,该方法包括步骤S101-S105。其中:
S101:获得若干条操作记录数据,其中操作记录数据表示对目标数据库的操作行为,且操作记录数据包括目标数据库内的若干数据项。
需要说明的是,操作记录数据指的是提炼后的操作记录数据,该操作记录数据的生成方式:数据库日志中包含多条对数据库进行操作的完整的操作记录数据,该操作记录数据表示的是一条数据库日志。为了减小数据库日志文件的大小,将数据库日志中的每一条操作记录数据进行提炼,具体为,从操作记录数据中提取出与操作记录数据对应的所有敏感数据项,将同一操作记录中的所有敏感数据项进行有序排列,得到一条提炼后的操作记录数据,以此方式提炼出所有的操作记录数据。其中,敏感数据项包括:姓名类、证件号类、银行账户类、金额类、日期类、住址类、电话号码类、Email地址类、车牌号类、企业名称类、工商注册号类、组织机构代码类、纳税人识别号类等其他敏感数据。
将所提炼后的操作记录数据存储于操作记录表中。该操作记录表中包含若干条提炼后的操作记录数据。为了保证该操作记录数据中各个数据项的安全性,需要将该操作记录数据中的数据项、以及数据库中对应的数据项进行脱敏处理。
具体地,从操作记录数据中提取出所有的数据项,进而将数据库中对应的数据项执行的脱敏步骤。
需要说明的是,操作记录表是以序列矩阵的形式生成的,如表1所示:
表1
序号 操作记录数据
1 李明12345678901山西
2 李明山西¥1000
3 李明京A12345 2019.4
表1所示的序列矩阵中有3条操作记录数据,且每条操作记录数据都有3个数据项,因此该序列矩阵为3*3的序列矩阵,该序列矩阵记录的数据项都是敏感数据项,其中第一条操作记录数据中的数据项有:姓名为李明、电话号码为12345678901以及区域为山西省;第二条操作记录数据中的数据项有姓名为李明、区域为山西省以及金额1000;第三条操作记录数据中的数据项有姓名为李明、车牌号为京A12345以及时间为2019.4。
为了方便步骤S102对同一操作记录数据内的不同数据项之间关联度的计算,需要将序列矩阵进行格式转换。将上述得到的序列矩阵通过转换函数转换为关联规则算法所能识别的格式数据,如通过DataFrame函数转换为DataFrame格式的数据。
S102:确定同一操作记录数据内的不同数据项之间的关联度。
需要说明的是,关联度是通过关联规则算法来计算出不同数据项之间的关联程度。
具体地,将经转换函数转换后的数据项输入到该算法中,得到同一操作记录数据内的不同数据项之间的关联度。如将DataFrame格式的数据输入至apriori算法中,以得到每条操作记录数据中任意两个数据项之间的关联度。
S103:将关联度达到预设关联度阈值的不同数据项确定为目标数据项。
需要说明的是,预设关联度阈值表示的是判断两个数据项是否存在关联性的一个判断标准,例如:数据项为姓名:李明,数据项为地址:山西,经关联规则算法计算得到的关联度满足预设关联度阈值,则表示李明的地址可能是山西的。若不满足预设关联度阈值,则表示李明的地址不是山西。
具体地,将经关联规则算法计算得到的同一操作记录数据中任意两个数据项的关联度与预设关联度阈值进行比对,若某两个数据项的关联度满足预设关联度阈值,即表示这两数据项存在一定的关联关系,则这两个数据项为目标数据项。
S104:确定目标数据项的数据脱敏方式。
需要说明的是,数据脱敏方式包括以下几种中的任意一种或多种:虚构数据替换实际数据方式、数据截断方式、数据随机化方式、数据偏移方式、编码方式。
具体地,为了保证具有关联关系的数据项不被泄露,需要将具有关联关系的数据进行脱敏操作,因此需要从上述数据脱敏方式中选择一种数据脱敏方式为目标数据项提供脱敏服务。
S105:使用数据脱敏方式,对目标数据库中的目标数据项进行数据脱敏操作。
需要说明的是,所选择数据脱敏方式的不同,经脱敏后生成的数据也不同:
选择虚构数据替换实际数据方式,对目标数据项进行数据脱敏。该方式的原理是将目标数据项的部分数据替换为虚构数据。例如:目标数据项为电话号码类,18800000000,经虚构数据替换实际数据方式进行脱敏后,该目标数据项为188********。
选择数据截断方式,对目标数据项进行数据脱敏。该方式的原理是将目标数据项的部分数据截断,只显示一部分。例如:目标数据项为电话号码类,18800000000,经数据截断方式进行脱敏之后,该目标数据项为188。
选择数据随机化方式,对目标数据项进行数据脱敏。该方式的原理是将经随机数生成算法生成的随机数替换掉目标数据项。例如:某身份证号码的前6位为142728,随机数生成算法生成的随机数为584265,将随机数584265替换掉身份证的前6位142728。
选择数据偏移方式,对目标数据项进行数据脱敏。该方式的原理是将目标数据项中的部分数据进行偏移。例如:某身份证号码的后3位为123,所选择的偏移方式是向左偏移一位,即231。
选择编码方式,对目标数据项进行数据脱敏。该方式的原理是将目标数据项进行编码,以得到编码数据,其中编码可以认为是加密,如使用AES(Advanced EncryptionStandard,高级加密标准)等加密算法进行加密。需要说明的是,对于文字等字符,一种加密方式是间接加密,即将文字等字符通过ASCII编码转化为某个具体的数值,然后再对该数值使用加密算法进行加密;另一种加密方式是直接加密,即将直接使用加密算法对文字等字符加密。
具体地,经步骤S104所确定的数据脱敏方式,根据目标数据项确定出数据库中的目标数据项,对目标数据库中的目标数据项执行上述数据脱敏方式,得到脱敏后的目标数据项。
由上述技术方案可知,本申请提供了一种数据处理方法,该方法通过获取数据库日志中的若干条操作记录数据,并从操作记录数据中提取若干数据项,确定同一操作记录数据中不同数据项之间的关联度,将关联度达到预设关联度阈值的两个数据项均确定为目标数据项,为该目标数据项的选择数据脱敏方式,对目标数据库中的目标数据项进行脱敏操作。该方法根据操作记录数据中数据项之间的关联性,确定数据项在同一操作记录数据中关联出现的可能性,对关联出现可能性较高的数据项进行加密操作,以保证数据库中各个数据项的安全。
至于为什么对关联出现的数据项同时进行加密能够保证数据项的安全,是因为,往往具有关联性的多个数据泄露造成的后果更为严重。具体来说,数据表中一条数据记录的数据项包括多个,多个数据项所包含的信息量比一个数据项包含的信息量更多,泄露后果更严重。例如,数据表中的一条数据记录包括如下多个数据项:“001”“李明”、“男”、“山西省太原市”、“1234567890”、“1990年1月1日”,一个数据项如“李明”的泄露与多个数据项如“李明男山西”的泄露相比,后者更危险,更能确定具体人员,因此本申请对具有关联性的数据项进行脱敏。
当然,为了最大程度保护数据安全而不考虑数据处理量的情况下,可以对一条数据记录中的所有数据项进行脱敏操作,但这样处理的数据量大,对系统性能会造成影响。因此,在既考虑安全性又考虑性能的基础上,可以考虑对具有关联性的部分数据项进行统一加密。数据项之间是否具有关联性是通过上述方法确定出来的。
关于两个数据项之间关联度的计算分为两种:一是计算同一操作记录数据内不同数据项之间的支持度,以该支持度作为同一操作记录数据内不同数据项之间的关联度;二是计算同一操作记录数据内不同数据项之间的提升度,以该提升度作为同一操作记录数据内不同数据项之间的关联度。
其一,确定同一操作记录数据内的不同数据项之间的关联度,具体包括如下步骤:
将同一操作记录数据内的数据项进行两两组合,得到若干数据项子集;针对每一数据项子集,在若干条操作记录数据中,统计包括数据项子集的目标操作记录数据的条数,并计算目标操作记录数据的条数与操作记录数据总条数的比值,其中比值用于表示数据项子集内不同数据项之间的关联度。
需要说明的是,支持度的计算公式为:Support(X,Y)=包含X以及Y的所有操作记录数据条数/操作记录数据总条数。其中,X以及Y是计算关联度的两个数据项。而该支持度即为上述中目标操作记录数据的条数与操作记录数据总条数的比值。
具体地,将属于同一操作记录数据内的所有数据项进行两两组合,得到关于该操作记录数据的若干个数据项子集,将组合之后的数据项子集输入至上述公式中,并统计该数据项子集在所有操作记录数据中出现的次数,并将该次数除以所有操作记录数据的条数,相除结果作为该数据项子集的关联度,即表示该数据项子集中的两个数据项的关联程度。
例如:一个数据项为:李明,另一数据项为:山西,两个数据项组合成一个数据项子集,由表1可知包括该数据项子集的操作记录数据有2条,而总操作记录数据有3条,则该数据项子集的关联度为2/3,即数据项为李明与数据项为山西的两个数据项之间的关联程度为2/3。
其二,确定同一操作记录数据内的不同数据项之间的关联度,具体包括如下步骤:
将同一操作记录数据内的数据项进行两两组合,得到若干数据项子集;针对每一数据项子集,在若干条操作记录数据中,统计包括数据项子集的目标操作记录数据的条数,并计算目标操作记录数据的条数与操作记录数据总条数的第一比值;针对每一数据项子集,在若干条操作记录数据中,统计包括数据项子集中一个数据项的操作记录数据的条数以及统计包括数据项子集中另一个数据项的操作记录数据的条数,并计算两个条数的乘积;计算第一比值与乘积的比值,得到第二比值;其中第二比值用于表示数据项子集内不同数据项之间的关联度。
需要说明的是,提升度的计算公式为:Lift(X,Y)=Support(X,Y)/(Support(X)*Support(Y))。其中,Support(X,Y)表示的是数据项X与数据项Y的支持度,该支持度表示的是包含数据项X与数据项Y的所有集合数与总的集合数的比值,即第一比值;Support(X)表示的是数据项X的支持度,即包含数据项X的所有集合数与总的集合数的比值;Support(Y)表示的是数据项Y的支持度,即包含数据项Y的所有集合数与总的集合数的比值。经该公式计算得到的Lift(X,Y)表示的是数据项子集的关联度,即该数据项子集内的数据项的关联程度,也是上述中的第二比值。
具体地,将属于同一操作记录数据内的所有数据项进行两两组合,得到关于该操作记录数据的若干个数据项子集,将组合之后的数据项子集进行支持度计算,即统计该数据项子集在所有操作记录数据中出现的次数,并将该次数除以所有操作记录数据的条数,相除结果作为该数据项子集的支持度,即第一比值,上述公式中的Support(X,Y)。将该数据项子集中的数据项分别进行支持度计算,即统计包含某个数据项在所有操作记录数据中出现的所有条数,计算该统计结果与所有操作记录数据的总条数的比值,进而得到该数据项子集中所有数据项的关联度,即上述公式中的(Support(X)以及Support(Y),将计算得到的Support(X,Y)、Support(X)以及Support(Y)代入上述公式,得到第二比值,即提升度。由第二比值作为两个数据项之间的关联度。
需要说明的是,上述公式的Support(X,Y)是满足预设支持度阈值的数据项子集支持度,例如:由数据项为李明以及数据项为山西组成的数据项子集的支持度为0.05,而预设支持度阈值为0.06,则该数据项子集中的两个数据项关联程度较低,不能用于计算提升度;若该数据项子集的支持度为0.07,则表示该数据项子集中的两个数据项具有一定的关联性,将该数据项子集的支持度作为计算提升度公式中的Support(X,Y)。
例如:某操作记录数据中包含数据项为李明、数据项为山西等多个数据项。将数据项:李明以及数据项:山西组合成数据项子集,经支持度计算,得到该数据项子集的支持度,如计算该数据项子集得到的支持度为0.07。将该支持度与预设支持度阈值(如0.06)进行比对。经比对后可知,数据项子集的支持度大于预设支持度阈值,则将该数据项子集进行进一步计算,即计算该数据项子集的提升度,将分别计算出该数据项子集中的数据项对应的支持度,即数据项李明所对应的支持度以及数据项山西所对应的支持度,将数据项李明所对应的支持度、数据项山西所对应的支持度以及该数据项子集对应的支持度代入上述提升度计算公式中,得到该数据项子集的提升度,将该提升度作为数据项子集中两个数据项的关联程度。
为了能够避免意外情况下的数据泄露,如使用同一数据脱敏方式对所有的数据项进行脱敏时,当该脱敏方式被恶意用户破解,将会造成全部数据项泄露。为防止此种情况发生,将根据数据项之间的关联度,将所有数据项划分为不同关联度区间,且每个关联度区间使用一种数据脱敏方式。
在一个示例中,步骤S104:确定目标数据项的数据脱敏方式,具体包括如下步骤:
根据目标数据项对应的关联度,确定目标数据项所归属的关联度区间;若目标数据项归属多个不同的关联度区间,则在多个不同的关联度区间中为目标数据项选择一个关联度区间;为归属不同关联度区间的目标数据项,确定不同的数据脱敏方式。
在一个示例中,步骤S105:使用数据脱敏方式,对数据库中的目标数据项进行数据脱敏操作,具体包括:针对不同类别的目标数据项,使用与类别对应的数据脱敏方式对数据库中的目标数据项进行数据脱敏操作。
需要说明的是,关联度区间是根据上述实施例计算得到的关联度来区分的。其中,关联度分为两种:一是支持度,二是提升度。
一、关联度为支持度时,划分关联度区间是根据预设支持度阈值来进行划分,例如:预设支持度为0.06,则将小于0.06支持度的划分为一个关联度区间,大于0.06支持度的划分为另一个关联度区间。
二、当关联度为提升度时,划分关联度区间是根据提升度划分阈值来进行划分的,例如:提升度1-5划分为一个关联度区间、提升度5-10划分为另一个关联度区间,以此方式划分为若干个关联度区间。
其中,每个关联度区间使用的是同一种数据脱敏方式为数据库中的目标数据项进行数据脱敏。其中,数据脱敏方式是随机分配的。例如:关联度区间为1-5,随机分配的数据脱敏方式为数据偏移方式。
数据脱敏方式包括:虚构数据替换实际数据方式、数据截断方式、数据随机化方式、数据偏移方式、编码方式,具体可参照上述实施例中步骤S105,此处不再赘述。
具体地,通过上述步骤S103计算得到满足预设关联度阈值的目标数据项,根据目标数据项所对应的关联度,确定出该关联度所属的关联度区间,进而使用该关联度区间对应的数据脱敏方式对数据库中的目标数据项进行脱敏。
若目标数据项所处的关联度区间的数据脱敏方式无法将目标数据项进行脱敏时,则随机选取一种与该目标数据项对应的数据脱敏方式中,为该目标数据项进行脱敏。例如:目标数据项为:李明,所处区间为提升度1-5,该区间所使用的数据脱敏方式为数据截断方式,因为数据截断方式只适用于字符型数据项,无法对文字型数据项进行脱敏,而文字型的数据脱敏方式包括:虚构数据替换实际数据方式以及编码方式,基于此种情况,将从这两种数据脱敏方式中随机选择一种为该目标数据项进行脱敏。
若目标数据项出现在多个关联度区间内,则从多个关联度区间中随机选取任意一个关联度区间所对应的数据脱敏方式为该目标数据项进行脱敏操作。例如:目标数据项为:李明,同时出现在提升度1-5区间以及提升度5-10区间,其中提升度1-5使用是的虚构数据替换实际数据方式、提升度5-10使用的是编码方式,则从这两种数据脱敏方式中随机选取一种数据脱敏方式为该目标数据项进行脱敏操作。
本申请提供了一种数据处理装置。参见图2,该装置包括:获取模块201、关联度确定模块202、数据项确定模块203、脱敏方式确定模块204以及数据脱敏模块205。其中:
获取模块201,用于获得若干条操作记录数据,其中操作记录数据表示对目标数据库的操作行为,且操作记录数据包括目标数据库内的若干数据项。
关联度确定模块202,用于确定同一操作记录数据内的不同数据项之间的关联度。
数据项确定模块203,用于将关联度达到预设关联度阈值的不同数据项确定为目标数据项。
脱敏方式确定模块204,用于确定目标数据项的数据脱敏方式。
数据脱敏模块205,用于使用数据脱敏方式,对目标数据库中的目标数据项进行数据脱敏操作。
由上述技术方案可知,本申请提供了一种数据处理装置,该装置通过获取数据库日志中的若干条操作记录数据,并从操作记录数据中提取若干数据项,确定同一操作记录数据中不同数据项之间的关联度,将关联度达到预设关联度阈值的两个数据项均确定为目标数据项,为该目标数据项的选择预设的数据脱敏方式,对数据库中的目标数据项进行脱敏操作。该装置根据操作记录数据中数据项之间的关联性,确定数据项在同一操作记录数据中关联出现的可能性,对关联出现可能性较高的数据项进行加密操作,以保证数据库中各个数据项的安全。
在一个示例中,关联度确定模块在确定同一操作记录数据内的不同数据项之间的关联度时,具体用于:
将同一操作记录数据内的数据项进行两两组合,得到若干数据项子集;针对每一数据项子集,在若干条操作记录数据中,统计包括数据项子集的目标操作记录数据的条数,并计算目标操作记录数据的条数与操作记录数据总条数的比值,其中比值用于表示数据项子集内不同数据项之间的关联度。
在一个示例中,关联度确定模块在确定同一操作记录数据内的不同数据项之间的关联度时,具体用于:
将同一操作记录数据内的数据项进行两两组合,得到若干数据项子集;针对每一数据项子集,在若干条操作记录数据中,统计包括数据项子集的目标操作记录数据的条数,并计算目标操作记录数据的条数与操作记录数据总条数的第一比值;针对每一数据项子集,在若干条操作记录数据中,统计包括数据项子集中一个数据项的操作记录数据的条数以及统计包括数据项子集中另一个数据项的操作记录数据的条数,并计算两个条数的乘积;计算第一比值与乘积的比值,得到第二比值;其中第二比值用于表示数据项子集内不同数据项之间的关联度。
在一个示例中,脱敏方式确定模块在确定目标数据项的数据脱敏方式时,具体用于:
根据目标数据项对应的关联度,确定目标数据项所归属的关联度区间;若目标数据项归属多个不同的关联度区间,则在多个不同的关联度区间中为目标数据项选择一个关联度区间;为归属不同关联度区间的目标数据项,确定不同的数据脱敏方式。
则数据脱敏模块在使用数据脱敏方式,对数据库中的目标数据项进行数据脱敏操作时,具体用于:
针对不同类别的目标数据项,使用与类别对应的数据脱敏方式对数据库中的目标数据项进行数据脱敏操作。
在一个示例中,数据脱敏方式包括以下几种中的任意一种或多种:虚构数据替换实际数据方式、数据截断方式、数据随机化方式、数据偏移方式、编码方式。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (4)

1.一种数据处理方法,其特征在于,包括:
获得若干条操作记录数据,其中操作记录数据表示对目标数据库的操作行为,且操作记录数据包括所述目标数据库内的若干数据项;
将同一操作记录数据内的数据项进行两两组合,得到若干数据项子集;
针对每一数据项子集,在所述若干条操作记录数据中,统计包括所述数据项子集的目标操作记录数据的条数,并计算所述目标操作记录数据的条数与操作记录数据总条数的第一比值;
针对每一数据项子集,在所述若干条操作记录数据中,统计包括所述数据项子集中一个数据项的操作记录数据的条数以及统计包括所述数据项子集中另一个数据项的操作记录数据的条数,并计算两个条数的乘积;
计算所述第一比值与所述乘积的比值,得到第二比值;其中所述第二比值用于表示数据项子集内不同数据项之间的关联度;
将关联度达到预设关联度阈值的所述不同数据项确定为目标数据项;
根据所述目标数据项对应的关联度,确定所述目标数据项所归属的关联度区间;
若目标数据项归属多个不同的关联度区间,则在所述多个不同的关联度区间中为所述目标数据项选择一个关联度区间;
为归属不同关联度区间的目标数据项,确定不同的数据脱敏方式;
针对不同类别的目标数据项,使用与所述类别对应的数据脱敏方式对所述目标数据项进行数据脱敏操作。
2.根据权利要求1所述的数据处理方法,其特征在于,所述数据脱敏方式包括以下几种中的任意一种或多种:虚构数据替换实际数据方式、数据截断方式、数据随机化方式、数据偏移方式、编码方式。
3.一种数据处理装置,其特征在于,包括:
获取模块,用于获得若干条操作记录数据,其中操作记录数据表示对目标数据库的操作行为,且操作记录数据包括所述目标数据库内的若干数据项;
关联度确定模块,用于确定同一所述操作记录数据内的任意两个数据项之间的关联度;
数据项确定模块,用于将关联度达到预设关联度阈值的所述不同数据项确定为目标数据项;
脱敏方式确定模块,用于确定所述目标数据项的数据脱敏方式;
数据脱敏模块,用于使用所述数据脱敏方式,对所述目标数据项进行数据脱敏操作;
所述脱敏方式确定模块在确定所述目标数据项的数据脱敏方式时,具体用于:
根据所述目标数据项对应的关联度,确定所述目标数据项所归属的关联度区间;若目标数据项归属多个不同的关联度区间,则在所述多个不同的关联度区间中为所述目标数据项选择一个关联度区间;为归属不同关联度区间的目标数据项,确定不同的数据脱敏方式;
则所述数据脱敏模块在使用所述数据脱敏方式,对所述目标数据项进行数据脱敏操作时,具体用于:
针对不同类别的目标数据项,使用与所述类别对应的数据脱敏方式对所述目标数据项进行数据脱敏操作;
所述关联度确定模块在确定同一所述操作记录数据内的不同数据项之间的关联度时,具体用于:
将同一操作记录数据内的数据项进行两两组合,得到若干数据项子集;针对每一数据项子集,在所述若干条操作记录数据中,统计包括所述数据项子集的目标操作记录数据的条数,并计算所述目标操作记录数据的条数与操作记录数据总条数的第一比值;针对每一数据项子集,在所述若干条操作记录数据中,统计包括所述数据项子集中一个数据项的操作记录数据的条数以及统计包括所述数据项子集中另一个数据项的操作记录数据的条数,并计算两个条数的乘积;计算所述第一比值与所述乘积的比值,得到第二比值;其中所述第二比值用于表示数据项子集内不同数据项之间的关联度。
4.根据权利要求3所述的数据处理装置,其特征在于,所述数据脱敏方式包括以下几种中的任意一种或多种:虚构数据替换实际数据方式、数据截断方式、数据随机化方式、数据偏移方式、编码方式。
CN201910837545.0A 2019-09-05 2019-09-05 数据处理方法及装置 Active CN110543779B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910837545.0A CN110543779B (zh) 2019-09-05 2019-09-05 数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910837545.0A CN110543779B (zh) 2019-09-05 2019-09-05 数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN110543779A CN110543779A (zh) 2019-12-06
CN110543779B true CN110543779B (zh) 2023-04-07

Family

ID=68712565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910837545.0A Active CN110543779B (zh) 2019-09-05 2019-09-05 数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN110543779B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860226B (zh) * 2020-06-30 2024-06-25 阿波罗智能技术(北京)有限公司 用于图像处理的方法、装置、设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512322A (zh) * 2015-12-18 2016-04-20 中国农业银行股份有限公司 频繁项集的生成方法及装置
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及系统
CN108650684A (zh) * 2018-02-12 2018-10-12 中国联合网络通信集团有限公司 一种关联规则确定方法及装置
CN108830655A (zh) * 2018-06-19 2018-11-16 郑州云海信息技术有限公司 一种用户操作关系获取方法及相关装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512322A (zh) * 2015-12-18 2016-04-20 中国农业银行股份有限公司 频繁项集的生成方法及装置
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及系统
CN108650684A (zh) * 2018-02-12 2018-10-12 中国联合网络通信集团有限公司 一种关联规则确定方法及装置
CN108830655A (zh) * 2018-06-19 2018-11-16 郑州云海信息技术有限公司 一种用户操作关系获取方法及相关装置

Also Published As

Publication number Publication date
CN110543779A (zh) 2019-12-06

Similar Documents

Publication Publication Date Title
CN107798253B (zh) 数据脱敏方法及装置
CN111079174A (zh) 基于匿名化及差分隐私技术的用电数据脱敏方法及系统
CN110457945B (zh) 名单查询的方法、查询方设备、服务方设备及存储介质
CN110096897B (zh) 一种基于数据脱敏处理的数据泄露源头定位方法及装置
CN103838753B (zh) 一种兑换码的存储、验证方法和装置
CN112417443A (zh) 数据库防护方法、装置、防火墙及计算机可读存储介质
CN104866775A (zh) 一种金融数据的漂白方法
CN112685771A (zh) 日志脱敏方法、装置、设备及存储介质
CN110543779B (zh) 数据处理方法及装置
CN111914279B (zh) 一种高效准确的隐私求交系统、方法及装置
CN109711189B (zh) 数据脱敏方法及装置、存储介质、终端
CN113127915A (zh) 数据加密脱敏方法、装置、电子设备及存储介质
US20150379524A1 (en) Method and system for authenticating physical items
JP2007034651A (ja) ファイル管理システム,情報処理装置およびファイル管理プログラム
CN107194677B (zh) 一种比特币区域流向的统计方法
US20100325095A1 (en) Permuting records in a database for leak detection and tracing
CN112364318B (zh) 一种运维大数据安全管理的方法、系统、终端和存储介质
CN110532805B (zh) 数据脱敏方法及装置
CN102870372B (zh) 处理计费数据的方法及设备
CN116781419A (zh) 一种保密数据数据安全管理方法及系统
JP6342748B2 (ja) セキュリティ設計支援装置およびセキュリティ設計支援方法
KR20110073227A (ko) 개인 정보를 순서 정보와 내용 정보로 분리하여 암호화하고 합성하는 방법, 장치,서버 및 기록 매체
CN114817953A (zh) 一种加密解密应用方法、装置及介质
CN112000980A (zh) 数据处理方法及装置
CN117955737B (zh) 车联网数据隐私保护与加密传输方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant