CN112800108A - 基于区块链的脱敏数据完整性检测方法及检测系统 - Google Patents

基于区块链的脱敏数据完整性检测方法及检测系统 Download PDF

Info

Publication number
CN112800108A
CN112800108A CN202110064522.8A CN202110064522A CN112800108A CN 112800108 A CN112800108 A CN 112800108A CN 202110064522 A CN202110064522 A CN 202110064522A CN 112800108 A CN112800108 A CN 112800108A
Authority
CN
China
Prior art keywords
data
desensitization
integrity
string
deviation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110064522.8A
Other languages
English (en)
Inventor
洪薇
洪健
李京昆
刘文思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Chenweixi Chain Information Technology Co ltd
Original Assignee
Hubei Chenweixi Chain Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Chenweixi Chain Information Technology Co ltd filed Critical Hubei Chenweixi Chain Information Technology Co ltd
Priority to CN202110064522.8A priority Critical patent/CN112800108A/zh
Publication of CN112800108A publication Critical patent/CN112800108A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于区块链的脱敏数据完整性检测方法及检测系统,包括对原始数据进行上链;使用编码算法对链上的敏感数据进行编码,并获得脱敏数据;对脱敏数据中的数据项进行分类,对各类数据项的编码进行标识;获取标识数量和类型,统计脱敏数据中不同类别的数据项的数量;将统计结果与原始数据进行数量比对,判断脱敏后数据的完整性。本发明解决了现有技术中无法对脱敏后数据的完整程度进行评价判断的问题,为鉴定数据完整程度提供了充分依据;还实现了脱敏后的数据能够最大程度保留原始数据的格式,使得数据处理和分析任务的结果不因为脱敏处理而受到影响。

Description

基于区块链的脱敏数据完整性检测方法及检测系统
技术领域
本发明涉及数据脱敏领域,具体涉及基于区块链的脱敏数据完整性检测方法及检测系统。
背景技术
对于数据处理和分析任务,往往涉及到的是敏感数据,如商业价值高的数据、个人隐私数据、个人医疗健康类数据、关系国家和公共安全的数据等。对于这些数据的处理和分析,一方面数据处理和分析的主体与数据源,即数据主权拥有者,通常是不同的;另一方面,即使数据处理和分析主体与数据主权拥有者是相同的主体,但因为数据处理和分析过程涉及到不同的环节和任务,而这些环节可能是由不同的生产商和供应商提供,其产品和服务和安全性、安全级别也很难完全得到保证。
为了解决上述问题,现有技术中通常在数据处理和分析前对数据进行脱敏处理,将其中一些敏感类的信息去除或进行某种变换,但是现有的脱敏处理方式难以客观保留原始数据的格式,难以保证处理和分析任务结果的真实性和准确性,并且现有技术中在数据脱敏后,也无法对其相较于脱敏前的完整程度进行评价判断。
发明内容
本发明提供基于区块链的脱敏数据完整性检测方法及检测系统,解决的技术问题之一是现有技术中无法对脱敏后数据的完整程度进行评价判断,实现对脱敏数据的完整性进行有效检测的目的。
本发明通过下述技术方案实现:
基于区块链的脱敏数据完整性检测方法,包括:
S1、将原始数据上链;
S2、编码链上的敏感数据,获得脱敏数据;
S3、将脱敏数据中的数据项分类,标识各类数据项的编码;
S4、获取标识数量和类型,统计脱敏数据中不同类别的数据项,获得统计结果;
S5、比对统计结果与原始数据的数量,基于比对结果判断脱敏后数据的完整性。
针对现有技术中无法对脱敏后数据的完整程度进行评价判断的问题,本发明首先提出一种基于区块链的脱敏数据完整性检测方法,本方法的原理包括:首先对原始数据进行上链,基于区块链的不可伪造、全程留痕、可以追溯、公开透明、集体维护等特征,保证原始数据的不可篡改和准确性;之后通过编码算法对敏感数据进行脱敏处理,得到脱敏数据。本方法中对脱敏数据中的数据项进行分类,根据不同类别的数据项对编码进行不同的标识;之后获取标识数量和类型,其获取方法可通过插入标识获取工具取得,根据获取标识的数量统计脱敏数据中不同类别的数据项的数量;最后将统计结果与原始数据进行数量比对,即可判断脱敏后数据的完整性。本方法解决了现有技术中无法对脱敏后数据的完整程度进行评价判断的问题,为鉴定数据完整程度提供了充分依据。
进一步的,步骤S2中对链上敏感数据编码的方法包括:定义原始数据中各数据项的格式串类型,针对不同格式串类型指定不同脱敏规则。不同格式串类型,其敏感信息不同、需要进行脱敏处理的位置及方式均会存在差异,而现有技术中的方法忽略了这种差异性,这是导致现有的脱敏处理方式难以客观保留原始数据格式的主要问题。为此,本方案根据数据格式和属性类别的不同,定义不同的脱敏规则,使得在脱敏后数据格式保持不变的前提下,能够尽可能保留数据本身的特性和属性,从而不会由于脱敏而影响数据分析和处理的准确性、完整性、真实性,使得数据处理和分析任务的结果不因为脱敏处理而受到影响。
进一步的,所述格式串类型包括日期型、纯数字型、纯字符串型、无格式数据流型中的一种或多种;
对于日期型格式串,脱敏规则为:将日期中具体的月和/或日信息进行脱敏处理;
对于纯数字型格式串,脱敏规则为:将数字中的低位设置为0;或,将数字与个人姓名/机构名称作为联合脱敏单元,对个人姓名/机构名称进行脱敏;
对于纯字符串型格式串,脱敏规则为:识别字符串属于个人姓名或机构名称或其它:如果字符串是个人姓名,则对最后一个字进行脱敏处理;如果字符串是机构名称,则识别出机构名称中的实体信息,对实体信息中的局部进行脱敏处理;如果字符串是其它,则不进行脱敏处理;
对于无格式数据流型格式串,脱敏规则为:将编码处理成规整的长度统一的字符串数据项。
本方案对格式串类型的脱敏规则进行了进一步限定,在不降低数据项有效性、完整性和具体意义的前提下,提取其格式模式串,并进行不同数据类型的脱敏处理,实现脱敏后的数据能够最大程度保留原始数据的格式的效果。
进一步的,所述机构名称中的实体信息,为机构名称中排除地域和后缀后的有效信息;所述实体信息中的局部,为1/3的有效信息。即是当纯字符串型格式串为机构名称时,识别出机构名称中不包括地域名(比如某某省、某某市)和后缀(比如有限公司)中的实体信息,并对其中1/3的有效信息进行脱敏处理,此处的脱敏处理优选为使用占位符代替。
进一步的,步骤S3中,所述标识设置在编码尾部,便于对标识数量和类型的统计识别。
进一步的,步骤S5中的比对方法包括:
S501、获取脱敏数据中标识量最大的数据项,与原始数据中对应数据项的数据总量进行对比:若对比结果不一致,认定数据缺失,完整性不符合要求;若对比结果一致,进入步骤S502;
S502、对脱敏数据中各类数据项的标识进行两两对比,获得脱敏数据中每类数据项的偏离值;
S503、将所有的偏离值与原始数据总量进行对比,计算偏离占比;
S504、将偏离占比与预设偏离阈值进行对比:若偏离占比超出预设偏离阈值,则判定数据完整性为缺失;若偏离占比在预设偏离阈值内,则认为数据完整性满足要求。
本方法首先将脱敏数据中标识量最大的数据项与原始数据对应的数据项的总量进行对比,以该对比结果作为判断前提,此种前提设置方式以标识量最大、理论偏离值相对较大的的数据项作为完整性检测的第一步,若对比结果不一致,数据的整体完整性必然不足,数据必然缺失,因此能够直接认定完整性不符合要求,以此显著降低比对过程的计算量,提高比对效率。若对比结果一致,此时还不能确定脱敏后数据完整,继续进入后续步骤:对脱敏数据中各类数据项的标识进行两两对比,获得脱敏数据中每类数据项的偏离值;将所有的偏离值与原始数据总量进行对比,计算偏离占比;将偏离占比与预设偏离阈值进行对比:若偏离占比超出预设偏离阈值,则判定数据完整性为缺失;若偏离占比在预设偏离阈值内,则认为数据完整性满足要求。其中偏离阈值由本领域技术人员根据具体应用环境进行适应性设置即可。
如前所述的基于区块链的脱敏数据完整性检测方法,用于鉴别交易信息的完整性。本申请的检测方法最为适用于交易信息脱敏处理后的完整性检测,由于模型相似度高,可通过本方法去检测链上存储的交易信息是否完整,认定存储的交易信息必须包括日期、数字、字符和内容,检测存储交易信息中是否含有所有的特征,即为判定交易信息是否完整的依据。通过建立脱敏数据模型的方法能够保护交易信息不被泄露。
本发明还提供一种基于区块链的脱敏数据完整性检测系统,包括:
上链模块,用于对原始数据上链;
脱敏模块,用于编码链上的敏感数据,获得脱敏数据;
标识模块,用于分类脱敏数据中的数据项,并标识各类数据项的编码;
处理模块,用于获取标识数量和类型,统计脱敏数据中不同类别的数据项,获得统计结果;再将统计结果与原始数据进行数量比对,基于比对结果判断脱敏后数据的完整性。
进一步的,所述脱敏模块包括以下一个或多个单元:
日期型格式串脱敏单元,用于对日期型格式串中具体的月和/或日信息进行脱敏处理;
纯数字型格式串脱敏单元,用于对纯数字型格式串进行脱敏处理,所采用的脱敏规则包括:将数字中的低位设置为0;或,将数字与个人姓名/机构名称作为联合脱敏单元,对个人姓名/机构名称进行脱敏;
纯字符串型格式串脱敏单元,用于对纯字符串型格式串进行脱敏处理,所采用的脱敏规则包括:识别字符串属于个人姓名或机构名称或其它:如果字符串是个人姓名,则对最后一个字进行脱敏处理;如果字符串是机构名称,则识别出机构名称中的实体信息,对实体信息中的局部进行脱敏处理;如果字符串是其它,则不进行脱敏处理;
无格式数据流型格式串脱敏单元,用于对无格式数据流型格式串进行脱敏处理,所采用的脱敏规则包括:将编码处理成规整的长度统一的字符串数据项。
进一步的,所述处理模块包括:
第一处理单元:用于获取脱敏数据中标识量最大的数据项,并与原始数据中对应数据项的数据总量进行对比:若对比结果不一致,认定数据缺失,完整性不符合要求;若对比结果一致,调用第二处理单元;
第二处理单元:用于对脱敏数据中各类数据项的标识进行两两对比,获得脱敏数据中每类数据项的偏离值;再将所有的偏离值与原始数据总量进行对比,计算偏离占比;最后将偏离占比与预设偏离阈值进行对比:若偏离占比超出预设偏离阈值,则判定数据完整性为缺失;若偏离占比在预设偏离阈值内,则认为数据完整性满足要求。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明基于区块链的脱敏数据完整性检测方法及检测系统,解决了现有技术中无法对脱敏后数据的完整程度进行评价判断的问题,为鉴定数据完整程度提供了充分依据。
2、本发明基于区块链的脱敏数据完整性检测方法及检测系统,通过对待脱敏数据项的格式定义和分类,在不降低数据项有效性、完整性和具体意义的前提下,提取其模式格式串,并进行不同数据类型的脱敏处理,实现脱敏后的数据能够最大程度保留原始数据的格式,使得数据处理和分析任务的结果不因为脱敏处理而受到影响。
3、本发明基于区块链的脱敏数据完整性检测方法及检测系统,对于大部分数据项可以实现原始数据格式的完全保留,能够满足绝大部分情况下的分析和处理场景要求,具有较高的通用性。
4、本发明基于区块链的脱敏数据完整性检测方法及检测系统,尤其适用于鉴别交易信息的完整性。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明具体实施例的流程示意图;
图2为本发明具体实施例的系统示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1:
如图1所示的基于区块链的脱敏数据完整性检测方法,包括:
S1、将原始数据上链;
S2、编码链上的敏感数据,获得脱敏数据;
S3、将脱敏数据中的数据项分类,标识各类数据项的编码;
S4、获取标识数量和类型,统计脱敏数据中不同类别的数据项,获得统计结果;
S5、比对统计结果与原始数据的数量,基于比对结果判断脱敏后数据的完整性。
实施例2:
在实施例1的基础上,本实施例在S2中针对各个不同类型的数据项的格式串类型,制定不同的脱敏规则。
前述格式串类型包括日期型、纯数字型、纯字符串型、无格式数据流型:
(一)对于日期型,通常的意义包括个人的出生日期、公司的成立日期或其它表示与时间相关的信息。对于这类数据项,如果是统计类的分析和处理任务,则将日期中的细粒度信息,也即月份和天进行模糊化的脱敏处理,也即隐去日期中具体的月和日的信息,比如将2000-10-01处理为2000-00-00;对于是个性化的数据推荐任务,则仅仅将日的信息隐去即可。
(二)对于纯数字型,包括个人或者机构的收入等敏感信息,如果是统计类的分析和处理任务,将低位置为0即可,以9999为例,经过脱敏变换后为9000;同时还可以将纯数字型格式串与个人姓名或机构名称作为联合脱敏单元,也即对个人姓名或机构名称进行脱敏即可,该数值字段无需再进行脱敏处理。
(三)对于纯字符串型,首先识别该数据项是否为人名或机构名,如果是人名,则最后一个字隐去(使用*或其它占位符代替);如果是机构名,识别出机构名称中不包括地域名(比如某某省、某某市)和后缀(比如有限公司)中的实体信息,隐去其1/3的有效信息(使用*或其它占位符代替);对于其它类型的数据项,则无须进行脱敏处理,保持原始数据项可。
(四)对于无格式数据流型,在无特定要求的情况下,将其编码处理成规整的长度统一的字符串数据项,比如可以组合使用BASE64编码和哈希编码获得特定长度的字符串。
对本实施例中脱敏前后数据项相似度进行度量:
对于日期型,由于完全保持了日期型的格式,因此模式相似度是100%;
对于纯数字型,由于完全保持了日期型的格式,因此模式相似度是100%;
对于纯字符串型,其中的部分字符串由占位符替换,在特定情况下,会损失一部分格式匹配的精度,相似度为:(占位符长度/原始数据总长度)*100%;
对于无格式数据流型,由于原始数据本身不存在特定的格式,因此无格式上损失,因此模式相似度是100%。
综上,本实施例通过上述分析对脱敏前后格式串的相似度进行定量度量,可以看出,对于大部分数据项可以实现原始数据格式的完全保留,能够满足绝大部分情况下的分析和处理场景要求。
本实施例所实现的技术通过对待脱敏数据项的格式定义和分类,在不降低数据项有效性、完整性和具体意义的前提下,提取其格式模式串,并进行不同数据类型的脱敏处理,实现脱敏后的数据能够最大程度保留原始数据的格式,使得数据处理和分析任务的结果不因为脱敏处理而受到影响。
本实施例特别适用于交易信息数据的完整性鉴别,由于模型相似度高,可通过此发明手段去检测存储的交易信息是否完整,认定存储的交易信息必须包括日期、数字、字符和内容,检测存储交易信息中是否含有所有的特征,即为判定交易信息是否完整的依据。通过建立数据模型的方法能够保护交易信息不被泄露。
实施例3:
基于区块链的脱敏数据完整性检测系统,如图2所示,本系统包括:
上链模块,用于对原始数据进行上链;
脱敏模块,用于对链上的敏感数据进行编码,获得脱敏数据;
标识模块,用于对脱敏数据中的数据项进行分类,对各类数据项的编码进行标识
处理模块,用于获取标识数量和类型,统计脱敏数据中不同类别的数据项的数量;再将统计结果与原始数据进行数量比对,判断脱敏后数据的完整性。
其中,本实施例中的脱敏模块包括以下单元:
(1)日期型格式串脱敏单元,用于对日期型格式串中具体的月和/或日信息进行脱敏处理;
(2)纯数字型格式串脱敏单元,用于对纯数字型格式串进行脱敏处理,所采用的脱敏规则包括:将数字中的低位设置为0;或,将数字与个人姓名/机构名称作为联合脱敏单元,对个人姓名/机构名称进行脱敏;
(3)纯字符串型格式串脱敏单元,用于对纯字符串型格式串进行脱敏处理,所采用的脱敏规则包括:识别字符串属于个人姓名或机构名称或其它:如果字符串是个人姓名,则对最后一个字进行脱敏处理;如果字符串是机构名称,则识别出机构名称中的实体信息,对实体信息中的局部进行脱敏处理;如果字符串是其它,则不进行脱敏处理;
(4)无格式数据流型格式串脱敏单元,用于对无格式数据流型格式串进行脱敏处理,所采用的脱敏规则包括:将编码处理成规整的长度统一的字符串数据项。
其中,本实施例中的处理模块包括以下单元:
(1)第一处理单元:用于获取脱敏数据中标识量最大的数据项,并与原始数据中对应数据项的数据总量进行对比:若对比结果不一致,认定数据缺失,完整性不符合要求;若对比结果一致,调用第二处理单元;
(2)第二处理单元:用于对脱敏数据中各类数据项的标识进行两两对比,获得脱敏数据中每类数据项的偏离值;再将所有的偏离值与原始数据总量进行对比,计算偏离占比;最后将偏离占比与预设偏离阈值进行对比:若偏离占比超出预设偏离阈值,则判定数据完整性为缺失;若偏离占比在预设偏离阈值内,则认为数据完整性满足要求。
本系统提供了一种数据脱敏前后的数据格式的映射匹配方法,主要创新点在于根据数据格式和属性类别的不同,定义不同的脱敏规则,使得在脱敏后数据格式保持不变的前提下,尽可能保留数据本身的特性和属性,从而不会由于脱敏而影响数据分析和处理的准确性、完整性、真实性。
本系统的工作过程为:
1、使用编码算法对链上的敏感数据进行编码,并获得脱敏数据;
2、根据不同类别的敏感数据对编码进行不同标识,标识设置在编码的尾部;
3、插入标识获取工具、获取标识的数量,根据获取标识的数量统计不同敏感数据的数量;
4、将获取标识量最大的敏感数据与原始存储的数据总量进行对比,若不一致,则认定数据缺失,完整性不符合要求,若一致,则对各类敏感数据的标识进行两两对比,记录各类敏感数据的偏离值;
5、将所有的偏离值与原始存储的数据总量进行对比,计算偏离占比;
6、将偏离占比与预设偏离阈值对比,若偏离占比超出预设偏离阈值,则判定数据完整性缺失,若偏离占比在预设偏离阈值内,则认为数据完整性满足要求。
实施例4:
本实施例提供一种基于区块链的脱敏数据完整性检测装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如实施例1或2中检测方法的步骤。
其中,所述处理器可以是中央处理器(CPU,Central Processing Unit),还可以是其他通用处理器、数字信号处理器(digital signal processor)、专用集成电路(Application Specific Integrated Circuit)、现成可编程门阵列(Fieldprogrammablegate array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的数据,实现发明中基于区块链的数据采集质量核验装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等。此外,存储器可以包括高速随机存取存储器、还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡,安全数字卡,闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
实施例5:
本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如实施例1或2中检测方法的步骤。
其中,所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
实施例6:
交易信息脱敏完整性检测方法:
S1:使用编码算法对交易信息中的敏感数据进行编码,并获得脱敏数据;
S2:根据不同类别的敏感数据对编码进行不同标识,标识设置在编码的尾部;
S3:插入标识获取工具,根据获取标识的数量统计不同敏感数据的数量;
S4:以获取标识量最大的敏感数据与原始存储的数据总量进行对比,若不一致,则认定数据缺失,完整性不符合要求,若一致,则对各类敏感数据的标识进行两两对比,记录各类敏感数据的偏离值;
S5:将所有的偏离值与原始存储的数据总量进行对比,计算偏离占比;
S6:将偏离占比与预设偏离阈值对比,若偏离占比超出预设偏离阈值,则判定数据完整度缺失,若偏离占比在预设偏离阈值内,则认为数据完整性为缺失。
本实施例中交易信息储存内容中的敏感信息分为日期、数字、字符、内容四个类别;以共十份交易信息为例:
本方法首先通过编码算法对所有交易信息中各类别的敏感数据进行编码得到脱敏数据,之后根据不同类别的敏感数据对编码进行不同标识,再插入标识获取工具,根据获取标识的数量统计不同敏感数据的数量,以获取标识量最大的敏感数据与原始存储的数据总量进行对比:
案例1:统计得到的各类别的敏感数据的最大值为9份(其中日期8份、数字9份、字符7份、内容9份),此时“获取标识量最大的敏感数据”为9,而“原始存储的数据总量”为10,两者对比明显不一致,则直接认定本组交易信息数据缺失。
案例2:统计得到的各类别的敏感数据的最大值为10份(其中日期10份、数字9份、字符10份、内容10份),此时“获取标识量最大的敏感数据”为10,而“原始存储的数据总量”同样为10,两者对比结果一致,进入下一步,对各类敏感数据的标识进行两两对比:10份日期数据与原始数据量一致、9份数字数据与原始数据量不一致、10份字符数据与原始数据量一致、10份内容数据与原始数据量一致。可以看出,偏离出现在类别“数字”上,接下来计算偏离值,并与预设的偏离阈值进行对比即可。
通过本实施例去检测存储的交易信息是否完整,即可为判定交易信息是否完整提供充分依据。通过对本方法建立数据模型,能够充分保护交易信息不被泄露。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于区块链的脱敏数据完整性检测方法,其特征在于,包括:
S1、将原始数据上链;
S2、编码链上的敏感数据,获得脱敏数据;
S3、将脱敏数据中的数据项分类,标识各类数据项的编码;
S4、获取标识数量和类型,统计脱敏数据中不同类别的数据项,获得统计结果;
S5、比对统计结果与原始数据的数量,基于比对结果判断脱敏后数据的完整性。
2.根据权利要求1所述的基于区块链的脱敏数据完整性检测方法,其特征在于,步骤S2中编码的方法包括:定义原始数据中各数据项的格式串类型,针对不同格式串类型指定不同脱敏规则。
3.根据权利要求2所述的基于区块链的脱敏数据完整性检测方法,其特征在于,所述格式串类型包括日期型、纯数字型、纯字符串型、无格式数据流型中的一种或多种;
对于日期型格式串,脱敏规则为:将日期中具体的月和/或日信息进行脱敏处理;
对于纯数字型格式串,脱敏规则为:将数字中的低位设置为0;或,将数字与个人姓名/机构名称作为联合脱敏单元,对个人姓名/机构名称进行脱敏;
对于纯字符串型格式串,脱敏规则为:识别字符串属于个人姓名或机构名称或其它:如果字符串是个人姓名,则对最后一个字进行脱敏处理;如果字符串是机构名称,则识别出机构名称中的实体信息,对实体信息中的局部进行脱敏处理;如果字符串是其它,则不进行脱敏处理;
对于无格式数据流型格式串,脱敏规则为:将编码处理成规整的长度统一的字符串数据项。
4.根据权利要求3所述的基于区块链的脱敏数据完整性检测方法,其特征在于,所述机构名称中的实体信息,为机构名称中排除地域和后缀后的有效信息;所述实体信息中的局部,为1/3的有效信息。
5.根据权利要求1所述的基于区块链的脱敏数据完整性检测方法,其特征在于,步骤S3中,所述标识设置在编码尾部。
6.根据权利要求1所述的基于区块链的脱敏数据完整性检测方法,其特征在于,步骤S5中的比对方法包括:
S501、获取脱敏数据中标识量最大的数据项,与原始数据中对应数据项的数据总量进行对比:若对比结果不一致,认定数据缺失,完整性不符合要求;若对比结果一致,进入步骤S502;
S502、对脱敏数据中各类数据项的标识进行两两对比,获得脱敏数据中每类数据项的偏离值;
S503、将所有的偏离值与原始数据总量进行对比,计算偏离占比;
S504、将偏离占比与预设偏离阈值进行对比:若偏离占比超出预设偏离阈值,则判定数据完整性为缺失;若偏离占比在预设偏离阈值内,则认为数据完整性满足要求。
7.根据权利要求1~6中任一所述的基于区块链的脱敏数据完整性检测方法,其特征在于,所述检测方法用于鉴别交易信息的完整性。
8.基于区块链的脱敏数据完整性检测系统,其特征在于,包括:
上链模块,用于对原始数据上链;
脱敏模块,用于编码链上的敏感数据,获得脱敏数据;
标识模块,用于分类脱敏数据中的数据项,并标识各类数据项的编码;
处理模块,用于获取标识数量和类型,统计脱敏数据中不同类别的数据项,获得统计结果;再将统计结果与原始数据进行数量比对,基于比对结果判断脱敏后数据的完整性。
9.根据权利要求8所述的基于区块链的脱敏数据完整性检测系统,其特征在于,所述脱敏模块包括以下一个或多个单元:
日期型格式串脱敏单元,用于对日期型格式串中具体的月和/或日信息进行脱敏处理;
纯数字型格式串脱敏单元,用于对纯数字型格式串进行脱敏处理,所采用的脱敏规则包括:将数字中的低位设置为0;或,将数字与个人姓名/机构名称作为联合脱敏单元,对个人姓名/机构名称进行脱敏;
纯字符串型格式串脱敏单元,用于对纯字符串型格式串进行脱敏处理,所采用的脱敏规则包括:识别字符串属于个人姓名或机构名称或其它:如果字符串是个人姓名,则对最后一个字进行脱敏处理;如果字符串是机构名称,则识别出机构名称中的实体信息,对实体信息中的局部进行脱敏处理;如果字符串是其它,则不进行脱敏处理;
无格式数据流型格式串脱敏单元,用于对无格式数据流型格式串进行脱敏处理,所采用的脱敏规则包括:将编码处理成规整的长度统一的字符串数据项。
10.根据权利要求8所述的基于区块链的脱敏数据完整性检测系统,其特征在于,所述处理模块包括:
第一处理单元:用于获取脱敏数据中标识量最大的数据项,并与原始数据中对应数据项的数据总量进行对比:若对比结果不一致,认定数据缺失,完整性不符合要求;若对比结果一致,调用第二处理单元;
第二处理单元:用于对脱敏数据中各类数据项的标识进行两两对比,获得脱敏数据中每类数据项的偏离值;再将所有的偏离值与原始数据总量进行对比,计算偏离占比;最后将偏离占比与预设偏离阈值进行对比:若偏离占比超出预设偏离阈值,则判定数据完整性为缺失;若偏离占比在预设偏离阈值内,则认为数据完整性满足要求。
CN202110064522.8A 2021-01-18 2021-01-18 基于区块链的脱敏数据完整性检测方法及检测系统 Pending CN112800108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110064522.8A CN112800108A (zh) 2021-01-18 2021-01-18 基于区块链的脱敏数据完整性检测方法及检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110064522.8A CN112800108A (zh) 2021-01-18 2021-01-18 基于区块链的脱敏数据完整性检测方法及检测系统

Publications (1)

Publication Number Publication Date
CN112800108A true CN112800108A (zh) 2021-05-14

Family

ID=75810233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110064522.8A Pending CN112800108A (zh) 2021-01-18 2021-01-18 基于区块链的脱敏数据完整性检测方法及检测系统

Country Status (1)

Country Link
CN (1) CN112800108A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614816A (zh) * 2018-11-19 2019-04-12 平安科技(深圳)有限公司 数据脱敏方法、装置及存储介质
US10459990B1 (en) * 2018-12-27 2019-10-29 Silver Rocket Data Technology (Shanghai) Co., Ltd Data processing method and device, medium and terminal thereof
CN110502916A (zh) * 2018-05-16 2019-11-26 苏宁易购集团股份有限公司 一种基于区块链的敏感性数据处理方法与系统
CN111079198A (zh) * 2020-03-10 2020-04-28 广州电力交易中心有限责任公司 一种基于电力交易的数据发布方法及系统
CN111767565A (zh) * 2019-03-15 2020-10-13 北京京东尚科信息技术有限公司 一种数据脱敏的处理方法、处理装置和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502916A (zh) * 2018-05-16 2019-11-26 苏宁易购集团股份有限公司 一种基于区块链的敏感性数据处理方法与系统
CN109614816A (zh) * 2018-11-19 2019-04-12 平安科技(深圳)有限公司 数据脱敏方法、装置及存储介质
US10459990B1 (en) * 2018-12-27 2019-10-29 Silver Rocket Data Technology (Shanghai) Co., Ltd Data processing method and device, medium and terminal thereof
CN111767565A (zh) * 2019-03-15 2020-10-13 北京京东尚科信息技术有限公司 一种数据脱敏的处理方法、处理装置和存储介质
CN111079198A (zh) * 2020-03-10 2020-04-28 广州电力交易中心有限责任公司 一种基于电力交易的数据发布方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
闭应洲、许桂秋: "《数据挖掘与机器学习》", 31 January 2020 *

Similar Documents

Publication Publication Date Title
CA2738480C (en) Detection of confidential information
CN115982765A (zh) 数据脱敏方法、装置、设备及计算机可读存储介质
CN108200054A (zh) 一种基于dns解析的恶意域名检测方法及装置
CN109299135A (zh) 基于识别模型的异常查询识别方法、识别设备及介质
CN110489415B (zh) 一种数据更新方法及相关设备
CN103064987A (zh) 一种虚假交易信息识别方法
US8311969B2 (en) Method and system for reducing false positives in the classification of data
CN113642030B (zh) 敏感数据多层识别方法
CN113139876B (zh) 风险模型训练方法、装置、计算机设备及可读存储介质
CN111553318A (zh) 敏感信息提取方法、裁判文书处理方法、装置和电子设备
CN112000808A (zh) 一种数据处理方法及装置、可读存储介质
CN113364753A (zh) 反爬虫方法、装置、电子设备及计算机可读存储介质
CN109543408A (zh) 一种恶意软件识别方法和系统
CN114186275A (zh) 隐私保护方法、装置、计算机设备及存储介质
CN112016317A (zh) 基于人工智能的敏感词识别方法、装置及计算机设备
CN114090985A (zh) 区块链中用户操作权限的设置方法、装置和电子设备
CN116911883B (zh) 基于ai鉴真技术和溯源量化的农产防伪溯源方法及云平台
US11314892B2 (en) Mitigating governance impact on machine learning
CN110489434B (zh) 一种信息处理方法及相关设备
CN112800108A (zh) 基于区块链的脱敏数据完整性检测方法及检测系统
CN111507850A (zh) 核保方法及相关装置、设备
CN116166999A (zh) 异常交易数据识别方法、装置、计算机设备及存储介质
CN111241139B (zh) 数据统计方法、装置、计算机设备和存储介质
CN114925033A (zh) 信息上链方法、装置、系统及存储介质
CN114792007A (zh) 代码检测方法、装置、设备、存储介质和计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210514