CN114564744A - 用于医疗健康档案管理系统的数据保护方法及装置 - Google Patents
用于医疗健康档案管理系统的数据保护方法及装置 Download PDFInfo
- Publication number
- CN114564744A CN114564744A CN202210161584.5A CN202210161584A CN114564744A CN 114564744 A CN114564744 A CN 114564744A CN 202210161584 A CN202210161584 A CN 202210161584A CN 114564744 A CN114564744 A CN 114564744A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- matrix
- medical
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000036541 health Effects 0.000 title claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims abstract description 97
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 48
- 230000002441 reversible effect Effects 0.000 claims abstract description 47
- 230000000007 visual effect Effects 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims description 19
- 230000035945 sensitivity Effects 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000000586 desensitisation Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 23
- 230000008569 process Effects 0.000 description 9
- 238000013500 data storage Methods 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 206010028980 Neoplasm Diseases 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 241000712461 unidentified influenza virus Species 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 208000035475 disorder Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001010 compromised effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 229940050561 matrix product Drugs 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2107—File encryption
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Evolutionary Biology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Abstract
本发明提供一种用于医疗健康档案管理系统的数据保护方法及装置,所述方法包括:采集用户医疗数据;对所述用户医疗数据进行标准化处理,以得到数值型用户数据集;利用HiLL可逆矩阵加密算法对所述数值型用户数据集的数据进行加密处理,并将加密处理后的数据存储在数据库中;对所述数据库中存储的数据进行还原处理,并利用基于K匿名聚类的改良算法将还原后的数据转换为脱敏数据,以发布到前端显示界面进行可视化展示。本发明针对数据生命周期的不同阶段特点,采用两种不同的数据加密方案:前端数据的隐私保护采用基于k匿名的改良算法;后台数据的加密采用可逆矩阵加密,从而实现从数据的生命周期出发对于医疗数据进行高效的隐私防护。
Description
技术领域
本发明涉及隐私数据保护技术领域,尤其是涉及一种用于医疗健康档案管理系统的数据保护方法及装置。
背景技术
随着物理网、互联网、云计算等新兴技术的不断发展,信息资源的产生和共享出现了许多新的形式。为了提升医疗领域的信息化建设水平,改善医疗资源不均衡的现状,发展互联网+医疗已经成为了国家的战略要求。医疗健康档案管理系统作为记录用户各项健康数据的载体和各种诊疗活动的管理平台,已逐渐成为互联网+医疗建设中的重点。
建立个性化的医疗健康档案系统,能够辅助诊疗和用户的健康管理,但同时由于系统的开放性,医疗数据的高隐私性、高敏感性、高价值性等特点会暴露出众多的安全隐患。如果数据遭到泄露或不正当使用,将给个人和相关集体/机构造成巨大的损失和伤害。因此对于医疗健康档案系统的数据安全研究,不能仅仅关心数据的存储安全,还需要考虑到数据在整个生命周期的安全性。如何在考虑隐私保护的基础上合理对用户健康数据进行分析和利用,对于医疗健康档案系统的设计和搭建具有重大的意义。
常用的隐私保护技术包括:数据失真、数据加密、限制发布。其中,数据失真技术主要是指采用添加随机噪声、数据交换、数值改变等手段对原始数据进行扰动处理,失真后的数据仍然保持某些性质不变,但有着一定程度的信息丢失;数据加密技术是采用加密的手段对敏感数据进行数域的转变,起到隐藏的效果,多用于分布式的应用环境中,计算量相对较大;限制发布技术会根据具体情况有条件地对数据进行发布,发布出的数据存在着一定程度的信息损失。
具体针对数据发布场景,攻击者获取隐私数据的攻击方式大体可以分为两大类:一类是链接攻击,此时在集中式数据集中把列属性划分为准标识符和敏感信息,攻击者通过对准标识符链接外部数据集来识别发布数据集中的个体身份,从而获取患者个体对应的敏感信息,代表K-Anonymity,L-Diversity,T-Closeness;另一类是概率攻击,攻击者通过自己的己知信息对数据集中的未知信息进行猜测,以获取数据发布方欲保护的敏感信息,这种情况下不再对集中式数据集中的列属性进行准标识符和敏感信息的区分,攻击者的识别目标为未知的个体信息元组。
现阶段,医疗健康档案系统存储的数据具有数据量大、种类繁多的特性,如何从数据的生命周期出发对于医疗数据进行高效的隐私防护是现阶段的研究重点。
发明内容
本发明的目的在于提供一种用于医疗健康档案管理系统的数据保护的方案,以解决无法从数据的生命周期出发对于医疗数据进行高效的隐私防护的问题。
本发明第一方面提供了一种用于医疗健康档案管理系统的数据保护方法。
其中,所述方法包括:
采集用户医疗数据,所述用户医疗数据包括用户基本信息、用户基础医疗信息以及用户完全隐私信息;
对所述用户医疗数据进行标准化处理,以得到数值型用户数据集;
利用HiLL可逆矩阵加密算法对所述数值型用户数据集的数据进行加密处理,并将加密处理后的数据存储在数据库中;
对所述数据库中存储的数据进行还原处理,并利用基于K匿名聚类的改良算法将还原后的数据转换为脱敏数据,以发布到前端显示界面进行可视化展示。
根据本发明第一方面提供的方法,对所述用户医疗数据进行标准化处理,以得到数值型用户数据集,具体包括:
根据中间转换规则建立数据转换字典;
利用所述数据转换字典将所述用户医疗数据中文本型数据或布尔型数据转换为数值型数据。
根据本发明第一方面提供的方法,利用HiLL可逆矩阵加密算法对所述数值型用户数据集的数据进行加密处理,具体包括:
根据所述数值型数据集的规模生成相应维数的可逆矩阵;
从密钥集中筛选出与所述可逆矩阵的矩阵维数相同的密钥矩阵;
利用所述密钥矩阵对所述可逆矩阵进行矩阵运算得到加密矩阵;
其中,加密运算公式为:M=P·A,M为加密矩阵,P为可逆矩阵,A为密钥矩阵。
根据本发明第一方面提供的方法,对所述数据库中存储的数据进行还原处理,具体包括:
利用所述可逆矩阵对所述数据库中存储的数据进行解密处理,其中,解密运算公式为:P=M·A-1,M为加密矩阵,P为可逆矩阵,A为密钥矩阵。
根据本发明第一方面提供的方法,利用基于K匿名聚类的改良算法将还原后的数据转换为脱敏数据,具体包括:
对所述还原后的数据构成的数据集D中的准标识列和敏感数据列进行泛化处理以划分等价类;
设置等价类个数参数阈值K和敏感属性参数阈值L;
利用Fisher变换计算所述数据集D中数据对象之间的相似性,并构造相似性矩阵D1,其中,初始状态下,每个所述数据对象为一个簇,即D1={A1,A2,…,An};
从所述相似性矩阵D1中选择相似性最大的两个簇Ai和Aj;如果|Ai|+|Aj|<2K,|Ai|表示簇Ai的节点个数总和,|Aj|表示簇Aj的节点个数总和,则合并两个簇Ai和Aj为Ap,否则将两个簇Ai和Aj合并后再分裂成两个簇,使得满足|Ai|和|Aj|均在[K,2K)之间;重复执行直到所述相似性矩阵D1中所有簇的节点个数总和不小于K;
检查所述相似性矩阵D1中每个簇是否均满足所述敏感属性参数阈值L的要求;如果不满足,在每个簇满足所述等价类个数参数阈值K的条件下,设置隐私保护参数b=L/K,分别计算每个簇中隐私保护参数b的值,如果所述簇的隐私保护参数小于b时,则通过添加或减少簇内的数据对象使得所述簇满足所述敏感属性参数阈值L的要求;
生成脱敏数据并输出。
根据本发明第一方面提供的方法,利用所述可逆矩阵加密算法对所述数值型用户数据集的数据进行加密处理,并将加密处理后的数据存储在数据库中的步骤之后还包括:
对从所述数据库中查询的数据添加差分隐私噪声后进行分析处理。
根据本发明第一方面提供的方法,对从所述数据库中查询的数据添加差分隐私噪声后进行分析处理,具体包括:
从所述数据库的数据表中读取隐私预算值;
根据查询函数和查询结果数据共同确定局部敏感度值;
根据所述隐私预算值和所述局部敏感度值计算出差分隐私噪声数据;
对所述查询结果数据与所述差分隐私噪声数据相加后的数据进行分析处理。
根据本发明第一方面提供的方法,所述隐私预算值∈应满足以下范围:
Δv=max|q(d)-q(d)|
其中,q为查询函数,d,d′∈D′,D′为任意n-1条对象组合的集合,p为攻击者得到正确结果的概率,Δf为查询函数在数据集上的敏感度,Δv是指的是算法的全局敏感度,n指数据集的n条元组,d和d’指的是相邻数据集。
根据本发明第一方面提供的方法,利用HiLL可逆矩阵加密算法对所述数值型用户数据集的数据进行加密处理,并将加密处理后的数据存储在数据库中的步骤还包括:
执行数据热备份脚本,以将加密处理后的数据同步存储在备份数据库中。
本发明第二方面提供了一种用于医疗健康档案管理系统的数据保护装置。
所述装置包括:
数据采集模块,被配置为采集用户医疗数据,所述用户医疗数据包括用户基本信息、用户基础医疗信息以及用户完全隐私信息;
标准化处理模块,被配置为对所述用户医疗数据进行标准化处理,以得到数值型用户数据集;
加密处理模块,被配置为利用HiLL可逆矩阵加密算法对所述数值型用户数据集的数据进行加密处理,并将加密处理后的数据存储在数据库中;
以及,数据发布模块,被配置为对所述数据库中存储的数据进行还原处理,并利用基于K匿名聚类的改良算法将还原后的数据转换为脱敏数据,以发布到前端显示界面进行可视化展示。
综上,本方案按照数据的生命周期所处阶段的不同,隐私保护可以分为:数据发布中的隐私保护、数据存储中的隐私保护、数据挖掘中的隐私保护和数据使用中的隐私保护;针对数据生命周期的不同阶段特点,采用两种不同的数据加密方案:前端数据的隐私保护更倾向于在保证安全的前提下提升数据的可读性,采用基于k匿名的改良算法;后台数据的加密倾向于在导入导出过程中提升数据的价值利用率,采用可逆矩阵加密,从而实现从数据的生命周期出发对于医疗数据进行高效的隐私防护。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的用于医疗健康档案管理系统的数据保护方法的流程图;
图2为根据本发明实施例的用于医疗健康档案管理系统的数据保护方法的具体流程图;
图3为根据本发明实施例的用于医疗健康档案管理系统的数据保护装置的结构图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明第一方面提供了一种用于医疗健康档案管理系统的数据保护方法。图1为根据本发明实施例的用于医疗健康档案管理系统的数据保护方法的流程图;如图1所示,其中,所述方法包括:
S1:采集用户医疗数据,所述用户医疗数据包括用户基本信息、用户基础医疗信息以及用户完全隐私信息;
S2:对所述用户医疗数据进行标准化处理,以得到数值型用户数据集;
S3:利用HiLL可逆矩阵加密算法对所述数值型用户数据集的数据进行加密处理,并将加密处理后的数据存储在数据库中;
S4:对所述数据库中存储的数据进行还原处理,并利用基于K匿名聚类的改良算法将还原后的数据转换为脱敏数据,以发布到前端显示界面进行可视化展示。
具体的,S1中数据采集,数据的采集范围有普通用户的基本信息、普通用户的基础医疗信息以及完全隐私信息,从前端获取数据后传输给后台。
具体的,S2中数据标准化处理,指的是后台在获取到前端发送的数据后,对于不同类型的数据进行标准化,通过设置中间转换规则将文本型、布尔型等数值类型数据转换为数值。
具体的,S3中数据存储,指的是将数据进行标准化处理后存储在数据服务中心,主要利用可逆矩阵加密算法,隐私管理机构可以对用于加密的矩阵进行相关选择和设置。
具体的,S$中数据发布,将后台处理后并存储的数据还原为原始数据,再通过隐私保护方法处理后发布到前端进行可视化展示,展示的数据均是处理后的脱敏数据,具体的内容包含了匿名化数据的预览、展示等,采用k匿名的改良算法。
在一些实施例中,S2中对所述用户医疗数据进行标准化处理,以得到数值型用户数据集,具体包括:
根据中间转换规则建立数据转换字典;
利用所述数据转换字典将所述用户医疗数据中文本型数据或布尔型数据转换为数值型数据。
具体的,普通用户通过医疗健康档案管理系统录入的结构化数据的类型丰富,有文本型,数值型或者布尔型之类的,所以需要一个数据字典,将数据统一转化成数值型。相当于设置一个中间表,能把其他类型数据统一转换成数值型,然后再进行可逆矩阵加密。
在一些实施例中,S3中利用HiLL可逆矩阵加密算法对所述数值型用户数据集的数据进行加密处理,具体包括:
根据所述数值型数据集的规模生成相应维数的可逆矩阵;
从密钥集中筛选出与所述可逆矩阵的矩阵维数相同的密钥矩阵;
利用所述密钥矩阵对所述可逆矩阵进行矩阵运算得到加密矩阵;
其中,加密运算公式为:M=P·A,M为加密矩阵,P为可逆矩阵,A为密钥矩阵。
具体的,在数据完成采集和处理后,医疗健康档案管理系统会对于数据集进行加密后存储,利用可逆矩阵,根据数值型数据集的规模生成相应维数的可逆矩阵P,在密钥集中选取矩阵维数相通的密钥矩阵A对P进行矩阵运算,生成加密矩阵M,存储在数据表中。
在一些实施例中,S4中对所述数据库中存储的数据进行还原处理,具体包括:
利用所述可逆矩阵对所述数据库中存储的数据进行解密处理,其中,解密运算公式为:P=M·A-1,M为加密矩阵,P为可逆矩阵,A为密钥矩阵。
具体的,在第三方介质中存储的数据导入医疗健康档案管理系统进行逆向操作时,同样首先在系统中匹配对应的密钥矩阵A,然后进行逆向化的解密操作。
在一些实施例中,S4中利用基于K匿名聚类的改良算法将还原后的数据转换为脱敏数据,具体包括:
对所述还原后的数据构成的数据集D中的准标识列和敏感数据列进行泛化处理以划分等价类;
设置等价类个数参数阈值K和敏感属性参数阈值L;
利用Fisher变换计算所述数据集D中数据对象之间的相似性,并构造相似性矩阵D1,其中,初始状态下,每个所述数据对象为一个簇,即D1={A1,A2,…,An};
从所述相似性矩阵D1中选择相似性最大的两个簇Ai和Aj;如果|Ai|+|Aj|<2K,|Ai|表示簇Ai的节点个数总和,|Aj|表示簇Aj的节点个数总和,则合并两个簇Ai和Aj为Ap,否则将两个簇Ai和Aj合并后再分裂成两个簇,使得满足|Ai|和|Aj|均在[K,2K)之间;重复执行直到所述相似性矩阵D1中所有簇的节点个数总和不小于K;
检查所述相似性矩阵D1中每个簇是否均满足所述敏感属性参数阈值L的要求;如果不满足,在每个簇满足所述等价类个数参数阈值K的条件下,设置隐私保护参数b=L/K,分别计算每个簇中隐私保护参数b的值,如果所述簇的隐私保护参数小于b时,则通过添加或减少簇内的数据对象使得所述簇满足所述敏感属性参数阈值L的要求;
生成脱敏数据并输出。
具体的,数据发布隐私保护主要针对前端发布的链接攻击,使用基于K匿名聚类的改良算法KL。在K-匿名算法的基础上,对敏感属性元组SA进行划分,同一组等价类中敏感属性项个数不超过L个,这样将原来简单的泛化措施更改为具体到某一敏感值属性的泛化,能确保隐私泄露的概率不超过1/L。算法执行的步骤具体为:①对QA进行等价类划分(簇划分),划分依据为聚类算法;②对SA进行等价类划分;③根据划分结果进行局部泛化;④根据距离函数计算信息损失度;⑤输出加密数据。在系统实际操作中,需要相关专业人员提供和调整的参数为K和L值,其中K值规范了属性组的个数,L值保证等价类中敏感信息的丰富性,通过调整K和L的值,生成合适的加密数据。系统在参数设置好后将完成匿名化,然后在页面中展示出来,页面执行自动刷新脚本,以便数据能随时的更新。
在一些实施例中,S3的步骤之后还包括:S5:对从所述数据库中查询的数据添加差分隐私噪声后进行分析处理。
在一些实施例中,S5中对从所述数据库中查询的数据添加差分隐私噪声后进行分析处理,具体包括:
从所述数据库的数据表中读取隐私预算值;
根据查询函数和查询结果数据共同确定局部敏感度值;
根据所述隐私预算值和所述局部敏感度值计算出差分隐私噪声数据;
对所述查询结果数据与所述差分隐私噪声数据相加后的数据进行分析处理。
具体的,数据分析隐私保护主要针对前端数据分析的概率攻击,使用差分隐私增加噪声,最后分析返回结果。对于聚类算法,差分隐私保护机制的主要功能是根据聚类算法,提供的查询函数对数据库中的相应数据进行查询,该过程主要分为两步,首先从数据库表中读取隐私预算的值,然后根据数据和查询函数共同确定局部敏感度的大小,通过隐私预算与局部敏感度计算出噪声大小,并将之前真实的查询结果与得到的噪声相加后返回带噪声的查询结果。
在一些实施例中,S5中所述隐私预算值∈应满足以下范围:
Δv=max|q(d)-q(d)|
其中,q为查询函数,d,d′∈D′,D′为任意n-1条对象组合的集合,p为攻击者得到正确结果的概率,Δf为查询函数在数据集上的敏感度,Δv是指的是算法的全局敏感度,n指数据集的n条元组,d和d’指的是相邻数据集。
在一些实施例中,S3中利用HiLL可逆矩阵加密算法对所述数值型用户数据集的数据进行加密处理,并将加密处理后的数据存储在数据库中的步骤还包括:
执行数据热备份脚本,以将加密处理后的数据同步存储在备份数据库中。
为了确保数据存储介质的安全性,需要执行数据热备份脚本,保证系统在运行期间产生的数据不仅在主服务器上存储,在备份服务器上也能实现数据同步。
具体的,医疗健康档案管理系统的使用对象主要涉及以下四个角色:①普通用户,即健康档案记录的拥有者,对归属于个人的数据具有完全访问权,并能够管理自己健康记录的访问对象;②医疗相关专业人员,主要是数据的使用和分析者,包括医生、护士、医疗机构工作人员、科研人员等,可以访问权限内健康数据,并进行一定的数据挖掘、下载等;③数据服务中心:数据服务中心提供数据存储、计算和分析功能。存储所有的电子健康档案数据,并能够对密文状态的健康数据进行特定的计算和分析;④隐私管理机构:主要负责隐私保护的管理。
图2示出了本发明实施例的用于医疗健康档案管理系统的数据保护方法的具体流程图,其隐私保护的具体实现过程如下:
1、数据采集:
将普通用户的信息可以分为标识符(Explicit Identifier,EI)、准标识符集(Quasi-identifier Attribute set,QA)、敏感数据(Sensitive Attributes,SA)。EI可以直接确定一个个体,如:身份证号,姓名等。QA为可以和外部表链接来识别个体的最小属性集,如:邮编,生日,性别等。敏感数据(Sensitive Attributes):SA为用户不希望被人知道的数据,如:薪水,疾病历史,购买偏好等。系统在为普通用户设计相关信息填写时可定义信息属性的级别,或者直接根据语义进行判断。
2、数据预处理:
普通用户通过管理系统录入的结构化数据的类型丰富,有文本型,数值型或者布尔型之类的,所以需要一个数据字典,将数据统一转化成数值型。相当于设置一个中间表,能把其他类型数据统一转换成数值型,然后再进行可逆矩阵加密。
3、后端数据存储与导入:
可逆矩阵加密算法的实现分为两部分,加密阶段需要对明文数据D生成明文矩阵P,然后在密钥集中选取矩阵维数相通的密钥A对P进行矩阵运算,生成加密矩阵M。在解密阶段对M和A-1进行矩阵乘积运算,就可以得出P。
1)加密阶段
M=P·A
2)解密阶段
P=M·A-1
具体流程可模拟为:发送方需要将数据进行加密后发送给接收方,首先需要根据明文的大小生成N维向量X(每个字符的UTF-8码值)。在密钥矩阵库中随机挑选相同维度的N*N矩阵A,根据可逆加密算法规则,形成密文M=AX,在导入时利用A计算出X,最后根据X中的UTF-8码值找出对应的明文。
4、前端数据发布与分析:
数据发布
数据发布的隐私保护主要是处理准标识符属性,它是数据属性中与外部数据连接可以唯一识别个体的非标识符属性的最小集合。数据库表在属性集上包含相同值的一组元组集合,称为一个簇/组。例如表1(a)中属性集合{编号,性别,年龄}是准标识符。表1(b)中记录2和记录3关于准标识符{编号,性别,年龄}组成一个簇,它们具有相同的属性值。
表1(a)原始数据表
编号 | 性别 | 年龄 | 疾病 |
43520 | 男 | 42 | 癌症 |
43522 | 男 | 23 | 流感 |
42556 | 女 | 21 | 癌症 |
42278 | 女 | 27 | 流感 |
表1(b)匿名化数据表
编号 | 性别 | 年龄 | 疾病 |
4352* | 男 | [41-45] | 癌症 |
4352* | 人 | [21-25] | 流感 |
4255* | 人 | [21-25] | 癌症 |
4227* | 男 | [26-30] | 流感 |
基于聚类实现KL的基本思想是寻找任意小于k的簇并与相似性最大的簇合并以组成更大的簇,重复迭代这个过程直到每个簇至少包含k(k≤n)个数据点且至少l个数据对象的敏感值各不相同,同时保证所有簇的总信息损失最小。基于聚类的算法合并相似度最高的簇对象,信息损失较小,因此采用聚类实现。具体算法流程如下:
数据分析举例:差分隐私在聚类中的应用
在初始聚类时给出参考k值,首次聚类将采用给出的参考值,利用经典K-means算法对数据进行预处理,将数据进行划分簇,为局部敏感度的计算提供数据支持。
隐私预算值∈应满足以下范围:
Δv=max|q(d)-q(d)}
其中,Q为查询函数,p为攻击者得到正确结果的概率,Δf为查询函数在数据集上的敏感度。对于同一数据集进行多个查询,且每个查询满足mi-差分隐私。
其具体算法流程如下:
第一方面的方法,首先进行用户医疗数据采集;之后对用户医疗数据进行标准化处理,以得到数值型用户数据集;然后利用HiLL可逆矩阵加密算法对数值型用户数据集的数据进行加密处理,并将加密处理后的数据存储在数据库中;最后对数据库中存储的数据进行还原处理,并利用基于K匿名聚类的改良算法将还原后的数据转换为脱敏数据,以发布到前端显示界面进行可视化展示。本发明按照数据的生命周期所处阶段的不同,隐私保护可以分为:数据发布中的隐私保护、数据存储中的隐私保护、数据挖掘中的隐私保护和数据使用中的隐私保护。本发明主要针对数据生命周期的不同阶段特点,采用两种不同的数据加密方案:前端数据的隐私保护更倾向于在保证安全的前提下提升数据的可读性,采用基于k匿名的改良算法;后台数据的加密倾向于在导入导出过程中提升数据的价值利用率,采用可逆矩阵加密,从而实现从数据的生命周期出发对于医疗数据进行高效的隐私防护。
本发明第二方面提供了一种用于医疗健康档案管理系统的数据保护装置。图3为根据本发明实施例的用于医疗健康档案管理系统的数据保护装置的结构图,如图3所示,所述装置100包括:
数据采集模块1,被配置为采集用户医疗数据,所述用户医疗数据包括用户基本信息、用户基础医疗信息以及用户完全隐私信息;
标准化处理模块2,被配置为对所述用户医疗数据进行标准化处理,以得到数值型用户数据集;
加密处理模块3,被配置为利用HiLL可逆矩阵加密算法对所述数值型用户数据集的数据进行加密处理,并将加密处理后的数据存储在数据库中;
以及,数据发布模块4,被配置为对所述数据库中存储的数据进行还原处理,并利用基于K匿名聚类的改良算法将还原后的数据转换为脱敏数据,以发布到前端显示界面进行可视化展示。
综上,本发明各个方面的技术方案针对数据生命周期的不同阶段特点,采用两种不同的数据加密方案:前端数据的隐私保护更倾向于在保证安全的前提下提升数据的可读性,采用基于k匿名的改良算法;后台数据的加密倾向于在导入导出过程中提升数据的价值利用率,采用可逆矩阵加密,从而实现从数据的生命周期出发对于医疗数据进行高效的隐私防护。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种用于医疗健康档案管理系统的数据保护方法,其特征在于,所述方法包括:
采集用户医疗数据,所述用户医疗数据包括用户基本信息、用户基础医疗信息以及用户完全隐私信息;
对所述用户医疗数据进行标准化处理,以得到数值型用户数据集;
利用HiLL可逆矩阵加密算法对所述数值型用户数据集的数据进行加密处理,并将加密处理后的数据存储在数据库中;
对所述数据库中存储的数据进行还原处理,并利用基于K匿名聚类的改良算法将还原后的数据转换为脱敏数据,以发布到前端显示界面进行可视化展示。
2.根据权利要求1所述的一种用于医疗健康档案管理系统的数据保护方法,其特征在于,其中,对所述用户医疗数据进行标准化处理,以得到数值型用户数据集,具体包括:
根据中间转换规则建立数据转换字典;
利用所述数据转换字典将所述用户医疗数据中文本型数据或布尔型数据转换为数值型数据。
3.根据权利要求2所述的一种用于医疗健康档案管理系统的数据保护方法,其特征在于,其中,利用HiLL可逆矩阵加密算法对所述数值型用户数据集的数据进行加密处理,具体包括:
根据所述数值型数据集的规模生成相应维数的可逆矩阵;
从密钥集中筛选出与所述可逆矩阵的矩阵维数相同的密钥矩阵;
利用所述密钥矩阵对所述可逆矩阵进行矩阵运算得到加密矩阵;
其中,加密运算公式为:M=P·A,M为加密矩阵,P为可逆矩阵,A为密钥矩阵。
4.根据权利要求3所述的一种用于医疗健康档案管理系统的数据保护方法,其特征在于,其中,对所述数据库中存储的数据进行还原处理,具体包括:
利用所述可逆矩阵对所述数据库中存储的数据进行解密处理,其中,解密运算公式为:P=M·A-1,M为加密矩阵,P为可逆矩阵,A为密钥矩阵。
5.根据权利要求4所述的一种用于医疗健康档案管理系统的数据保护方法,其特征在于,其中,利用基于K匿名聚类的改良算法将还原后的数据转换为脱敏数据,具体包括:
对所述还原后的数据构成的数据集D中的准标识列和敏感数据列进行泛化处理以划分等价类;
设置等价类个数参数阈值K和敏感属性参数阈值L;
利用Fisher变换计算所述数据集D中数据对象之间的相似性,并构造相似性矩阵D1,其中,初始状态下,每个所述数据对象为一个簇,即D1={A1,A2,…,An};
从所述相似性矩阵D1中选择相似性最大的两个簇Ai和Aj;如果|Ai|+|Aj|<2K,|Ai|表示簇Ai的节点个数总和,|Aj|表示簇Aj的节点个数总和,则合并两个簇Ai和Aj为Ap,否则将两个簇Ai和Aj合并后再分裂成两个簇,使得满足|Ai|和|Aj|均在[K,2K)之间;重复执行直到所述相似性矩阵D1中所有簇的节点个数总和不小于K;
检查所述相似性矩阵D1中每个簇是否均满足所述敏感属性参数阈值L的要求;如果不满足,在每个簇满足所述等价类个数参数阈值K的条件下,设置隐私保护参数b=L/K,分别计算每个簇中隐私保护参数b的值,如果所述簇的隐私保护参数小于b时,则通过添加或减少簇内的数据对象使得所述簇满足所述敏感属性参数阈值L的要求;
生成脱敏数据并输出。
6.根据权利要求5所述的一种用于医疗健康档案管理系统的数据保护方法,其特征在于,其中,利用所述可逆矩阵加密算法对所述数值型用户数据集的数据进行加密处理,并将加密处理后的数据存储在数据库中的步骤之后还包括:
对从所述数据库中查询的数据添加差分隐私噪声后进行分析处理。
7.根据权利要求6所述的一种用于医疗健康档案管理系统的数据保护方法,其特征在于,其中,对从所述数据库中查询的数据添加差分隐私噪声后进行分析处理,具体包括:
从所述数据库的数据表中读取隐私预算值;
根据查询函数和查询结果数据共同确定局部敏感度值;
根据所述隐私预算值和所述局部敏感度值计算出差分隐私噪声数据;
对所述查询结果数据与所述差分隐私噪声数据相加后的数据进行分析处理。
9.根据权利要求8所述的一种用于医疗健康档案管理系统的数据保护方法,其特征在于,其中,利用HiLL可逆矩阵加密算法对所述数值型用户数据集的数据进行加密处理,并将加密处理后的数据存储在数据库中的步骤还包括:
执行数据热备份脚本,以将加密处理后的数据同步存储在备份数据库中。
10.一种用于医疗健康档案管理系统的数据保护装置,其特征在于,所述装置包括:
数据采集模块,被配置为采集用户医疗数据,所述用户医疗数据包括用户基本信息、用户基础医疗信息以及用户完全隐私信息;
标准化处理模块,被配置为对所述用户医疗数据进行标准化处理,以得到数值型用户数据集;
加密处理模块,被配置为利用HiLL可逆矩阵加密算法对所述数值型用户数据集的数据进行加密处理,并将加密处理后的数据存储在数据库中;
以及,数据发布模块,被配置为对所述数据库中存储的数据进行还原处理,并利用基于K匿名聚类的改良算法将还原后的数据转换为脱敏数据,以发布到前端显示界面进行可视化展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210161584.5A CN114564744A (zh) | 2022-02-22 | 2022-02-22 | 用于医疗健康档案管理系统的数据保护方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210161584.5A CN114564744A (zh) | 2022-02-22 | 2022-02-22 | 用于医疗健康档案管理系统的数据保护方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114564744A true CN114564744A (zh) | 2022-05-31 |
Family
ID=81714777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210161584.5A Pending CN114564744A (zh) | 2022-02-22 | 2022-02-22 | 用于医疗健康档案管理系统的数据保护方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114564744A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115310116A (zh) * | 2022-10-11 | 2022-11-08 | 北京珞安科技有限责任公司 | 一种工业生产分离式数据储存系统、方法、存储介质 |
CN115935405A (zh) * | 2022-09-15 | 2023-04-07 | 广州大学 | 一种基于差分隐私的文本内容保护方法 |
WO2024117821A1 (ko) * | 2022-11-30 | 2024-06-06 | 삼성전자 주식회사 | 전자 장치 및 데이터 압축 및 분석 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829333A (zh) * | 2019-01-14 | 2019-05-31 | 中国科学院信息工程研究所 | 一种基于OpenID的关键信息保护方法及系统 |
WO2020136206A1 (fr) * | 2018-12-27 | 2020-07-02 | Equensworldline Se | Plateforme de sécurisation de données |
CN113127915A (zh) * | 2021-05-12 | 2021-07-16 | 平安信托有限责任公司 | 数据加密脱敏方法、装置、电子设备及存储介质 |
CN113742781A (zh) * | 2021-09-24 | 2021-12-03 | 湖北工业大学 | 一种k匿名聚类隐私保护方法、系统、计算机设备、终端 |
-
2022
- 2022-02-22 CN CN202210161584.5A patent/CN114564744A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020136206A1 (fr) * | 2018-12-27 | 2020-07-02 | Equensworldline Se | Plateforme de sécurisation de données |
CN109829333A (zh) * | 2019-01-14 | 2019-05-31 | 中国科学院信息工程研究所 | 一种基于OpenID的关键信息保护方法及系统 |
CN113127915A (zh) * | 2021-05-12 | 2021-07-16 | 平安信托有限责任公司 | 数据加密脱敏方法、装置、电子设备及存储介质 |
CN113742781A (zh) * | 2021-09-24 | 2021-12-03 | 湖北工业大学 | 一种k匿名聚类隐私保护方法、系统、计算机设备、终端 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115935405A (zh) * | 2022-09-15 | 2023-04-07 | 广州大学 | 一种基于差分隐私的文本内容保护方法 |
CN115310116A (zh) * | 2022-10-11 | 2022-11-08 | 北京珞安科技有限责任公司 | 一种工业生产分离式数据储存系统、方法、存储介质 |
CN115310116B (zh) * | 2022-10-11 | 2023-01-24 | 北京珞安科技有限责任公司 | 一种工业生产分离式数据储存系统、方法、存储介质 |
WO2024117821A1 (ko) * | 2022-11-30 | 2024-06-06 | 삼성전자 주식회사 | 전자 장치 및 데이터 압축 및 분석 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abowd et al. | An economic analysis of privacy protection and statistical accuracy as social choices | |
Xiang et al. | Privacy protection and secondary use of health data: strategies and methods | |
JP6814017B2 (ja) | 匿名化のために属性を自動的に識別するコンピュータ実装システムおよび方法 | |
Dwork | A firm foundation for private data analysis | |
Fung et al. | Privacy-preserving data publishing: A survey of recent developments | |
CN114564744A (zh) | 用于医疗健康档案管理系统的数据保护方法及装置 | |
Vaghashia et al. | A survey: Privacy preservation techniques in data mining | |
Nayak et al. | A survey on privacy preserving data mining: approaches and techniques | |
Caruccio et al. | GDPR compliant information confidentiality preservation in big data processing | |
Wang et al. | Big data privacy in biomedical research | |
Dyda et al. | Differential privacy for public health data: An innovative tool to optimize information sharing while protecting data confidentiality | |
Sun et al. | A differentially private distributed data mining scheme with high efficiency for edge computing | |
Abbasi et al. | A clustering‐based anonymization approach for privacy‐preserving in the healthcare cloud | |
Onesimu et al. | Privacy preserving attribute-focused anonymization scheme for healthcare data publishing | |
Kieseberg et al. | Protecting anonymity in data-driven biomedical science | |
Mueller et al. | SoK: Differential privacy on graph-structured data | |
Ursin et al. | Protecting privacy in large datasets—first we assess the risk; then we fuzzy the data | |
Chong et al. | Bridging unlinkability and data utility: Privacy preserving data publication schemes for healthcare informatics | |
Pozi et al. | A Kernel Density Estimation Method to Generate Synthetic Shifted Datasets in Privacy-Preserving Task. | |
Mancuhan et al. | Decision tree classification on outsourced data | |
Azman | Efficient identity matching using static pruning q-gram indexing approach | |
Rashid et al. | Generalization technique for privacy preserving of medical information | |
Saranya et al. | Multi attribute case based privacy-preserving for healthcare transactional data using cryptography | |
Khan et al. | Secured technique for healthcare record linkage | |
Malin | Compromising privacy with trail re-identification: the REIDIT algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |