CN112259210B - 医疗大数据访问控制方法、装置及计算机可读存储介质 - Google Patents
医疗大数据访问控制方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112259210B CN112259210B CN202011294097.3A CN202011294097A CN112259210B CN 112259210 B CN112259210 B CN 112259210B CN 202011294097 A CN202011294097 A CN 202011294097A CN 112259210 B CN112259210 B CN 112259210B
- Authority
- CN
- China
- Prior art keywords
- doctor
- access
- doctors
- risk
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 239000011159 matrix material Substances 0.000 claims abstract description 203
- 238000011002 quantification Methods 0.000 claims abstract description 16
- 230000003595 spectral effect Effects 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000010276 construction Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 29
- 201000010099 disease Diseases 0.000 claims description 21
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000003064 k means clustering Methods 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000003745 diagnosis Methods 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 description 15
- 230000000241 respiratory effect Effects 0.000 description 11
- 230000036541 health Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000029058 respiratory gaseous exchange Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 239000003814 drug Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013468 resource allocation Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000036449 good health Effects 0.000 description 1
- 208000035474 group of disease Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Development Economics (AREA)
- Medical Informatics (AREA)
- Educational Administration (AREA)
- Epidemiology (AREA)
- Game Theory and Decision Science (AREA)
- Biomedical Technology (AREA)
- Public Health (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种医疗大数据访问控制方法、装置及计算机可读存储介质,医疗大数据访问控制方法包括历史访问数据预处理、构建医生矩阵、医生聚类以及访问医疗记录的风险量化与医疗记录访问控制步骤;装置包括历史访问数据预处理模块、医生矩阵构建模块、医生图切割模块以及访问医疗记录的风险量化与医疗记录访问控制模块;计算机可读存储介质其上存储有计算机可读指令,计算机可读指令在被执行时实现所述方法。本发明通过对医生历史访问数据预处理,再通过构建医生矩阵以及进行医生图的切割,使用谱聚类把医生聚成两类,计算不同分类医生请求访问记录风险值,最后判断并对医生访问请求作出决策,本发明能精准控制医生访问,降低医疗数据泄露风险。
Description
技术领域
本发明属于医疗数据隐私保护技术领域,具体涉及一种医疗大数据访问控制方法、装置及计算机可读存储介质。
背景技术
随着互联网信息技术的快速发展,各行各业都已经步入大数据时代。尤其在医疗领域,大数据时代更是造就了数字与健康、医疗前所未有的伟大融合。该融合使医学新研究和健康新服务彰显巨大的价值和潜力。医疗健康大数据环境下,基于数据标准和数据整合,医生给患者诊疗过程中可以调用患者的历史信息甚至基因信息。如此一来,医生就能实现在特定的时间点给特定的患者提供效果更好、更具有针对性的特定治疗方案,并且医疗健康大数据可以为医疗机构、政府相关管理部门及相关企业带来许多好处。比如,在政府管理方面,可以为政府在药品质量安全控制、医疗设备合格控制等方面提供决策支持;在商业方面,可为医药供应链及药品零售进行药品进销存优化;在医院业务方面,帮助医生提高专业能力,优化医疗资源的配置。但是医疗健康大数据在收集、挖掘、分析、利用每个阶段都需要一个良好的健康大数据产业生态环境,该产业生态环境的一个基本且重要的特征是“开放”,无论产业价值链与生态环境如何构建,都需要在一个“开放”的环境下实现健康大数据的采集、管理和使用等。然而,医疗健康大数据的“开放”在一定程度上会增加数据泄露的风险。比如,2017年9月,中国某医院的服务信息系统被黑客入侵,导致大量公民信息泄露、贩卖;2018年1月,中国某社区卫生服务中心工作人员因未授权访问导致几十万条新生婴儿和预产孕妇信息泄露;同年8月,澳大利亚第五大城市阿德莱德某医院因工作人员访问不当,意外暴露了约7200名儿童的医疗记录和个人资料。因此防止医疗健康大数据泄露已成为现在急需解决的问题。
目前,已有许多学者根据不同策略提供了不同的访问控制本发明方法,如传统的访问控制(包括自主访问控制、强制访问控制)和基于角色的访问控制本发明方法等,这些本发明方法采用静态的授权方式,使用固定的策略,不考虑不确定性和大数据环境,在大数据环境中授权变化频繁的场景很难适用。近年来,众多学者在医疗大数据访问控制领域做了较多研究,但大多是在不区分医生类别的情况下直接计算医生的风险值,应用时依然存在诸多问题。为此,研发一种能够解决上述问题的医疗大数据访问控制方法是非常必要的。
发明内容
本发明的第一目的在于提供一种医疗大数据访问控制方法。
本发明的第二目的在于提供一种医疗大数据访问控制装置。
本发明的第三目的在于提供一种计算机可读存储介质。
本发明的第一目的是这样实现的,包括以下步骤:
S1、历史访问数据预处理:将医生按不同科室划分,依据ICD-10编码给同一科室每一医生在一段时间内访问的历史医疗记录编码;若某医生的历史访问记录中的编码在该科室对应的疾病编码中,则用“1”标注,若某医生的历史访问记录中的编码不在该科室对应的疾病编码中,则用“0”标注,然后将同一科室所有医生的标注转换成一个布尔矩阵,矩阵中不同的列表示医生访问的历史记录,行表示同一科室单个医生的访问历史医疗记录集合;
S2、构建医生矩阵:
医生的相似矩阵由医生之间的历史访问记录的相似度构成,设sij为第i个医生和第j个医生之间的相似度,则医生相似矩阵S表示为:
其中相似度sij通过距离度量函数计算得到;
医生的邻接矩阵是以医生的相似矩阵为基础,通过全连接法构建得到,全连接法通过高斯核函数定义边权重,然后将医生邻接矩阵A表示为:
医生的拉普拉斯矩阵定义为:
L=D-A,
S3:医生图的切割:采用谱聚类算法,把每个医生的历史访问记录作为图中的一个点,把医生历史访问记录间的相似度作为图中的边,如此构成的图为医生图,令V表示医生历史访问记录的集合,E表示医生间相似度的集合,即医生图G=(V,E),其中V是数据集里面所有的点,记为(d1,d2,…,dn);把同科室全部医生的历史访问记录作为图的顶点集合,把医生历史访问记录之间的相似度作为图的权值边集合;记医生图G=(V,E)被切成相互没有连接的k个医生子图,每个医生子图点的集合记为:G1,G2…,Gk,满足且G1∪G2∪…∪Gk=V;医生图按Ncut法进行切割,得到每个医生近似的指示向量,公式如下:
其中,D-1/2LD-1/2是对医生的拉普拉斯矩阵L进行了标准化,F是D-1/2LD-1/2的最小k个特征值所各自对应的特征向量组成的标准化矩阵,即特征矩阵,I为单位阵,Y为yi列拼接成的矩阵,令Y=D-1/2F;
再对指示向量进行k均值聚类,得到医生标签,即把同一科室医生聚类成诚实医生和恶意医生两种类型;
S4、访问医疗记录的风险量化与医疗记录访问控制:首先把诚实医生或恶意医生的访问目标和请求访问记录根据ICD-10编码进行标签,然后利用信息熵计算两种类型医生的风险值;设定访问控制周期性的计算风险阈值Φ(t),该阈值Φ(t)是由t段时间内,所有医生的平均风险值所决定,即:
其中,C(t)表示在t段时间内所有请求访问的医生的数量;
令Φdi=risk(di,tj)-Φ(t),即风险访问控制函数为:
其中,结果为1表示拒绝访问,0表示允许访问。
本发明的第二目的是这样实现的,包括:
历史访问数据预处理模块,用于将医生按不同科室划分,依据ICD-10编码给同一科室每一医生在一段时间内访问的历史医疗记录编码;若某医生的历史访问记录中的编码在该科室对应的疾病编码中,则用“1”标注,若某医生的历史访问记录中的编码不在该科室对应的疾病编码中,则用“0”标注,然后将同一科室所有医生的标注转换成一个布尔矩阵,矩阵中不同的列表示医生访问的历史记录,行表示同一科室单个医生的访问历史医疗记录集合;
医生矩阵构建模块,医生的相似矩阵由医生之间的历史访问记录的相似度构成,设sij为第i个医生和第j个医生之间的相似度,则医生相似矩阵S表示为:
其中相似度sij通过距离度量函数计算得到;
医生的邻接矩阵是以医生的相似矩阵为基础,通过全连接法构建得到,全连接法通过高斯核函数定义边权重,然后将医生邻接矩阵A表示为:
医生的拉普拉斯矩阵定义为:
L=D-A,
医生图切割模块,用于采用谱聚类算法,把每个医生的历史访问记录作为图中的一个点,把医生历史访问记录间的相似度作为图中的边,如此构成的图为医生图,令V表示医生历史访问记录的集合,E表示医生间相似度的集合,即医生图G=(V,E),其中V是数据集里面所有的点,记为(d1,d2,…,dn);把同科室全部医生的历史访问记录作为图的顶点集合,把医生历史访问记录之间的相似度作为图的权值边集合;记医生图G=(V,E)被切成相互没有连接的k个医生子图,每个医生子图点的集合记为:G1,G2…,Gk,满足且G1∪G2∪…∪Gk=V;医生图按Ncut法进行切割,得到每个医生近似的指示向量,公式如下:
其中,D-1/2LD-1/2是对医生的拉普拉斯矩阵L进行了标准化,F是D-1/2LD-1/2的最小k个特征值所各自对应的特征向量组成的标准化矩阵,即特征矩阵,I为单位阵,Y为yi列拼接成的矩阵,令Y=D-1/2F;
再对指示向量进行k均值聚类,得到医生标签,即把同一科室医生聚类成诚实医生和恶意医生两种类型;
访问医疗记录的风险量化与医疗记录访问控制模块,用于首先把诚实医生或恶意医生的访问目标和请求访问记录根据ICD-10编码进行标签,然后利用信息熵计算两种类型医生的风险值;设定访问控制周期性的计算风险阈值Φ(t),该阈值Φ(t)是由t段时间内,所有医生的平均风险值所决定,即:
其中,C(t)表示在t段时间内所有请求访问的医生的数量;
令Φdi=risk(di,tj)-Φ(t),即风险访问控制函数为:
其中,结果为1表示拒绝访问,0表示允许访问。
本发明的第三目的是这样实现的,其上存储有计算机可读指令,所述计算机可读指令在被执行时实现所述的医疗大数据访问控制方法。
与现有技术相比,本发明具有以下技术效果:
1、本发明通过对医生历史访问数据预处理,然后通过构建医生矩阵以及进行医生图的切割,使用谱聚类把同科室医生聚成两类,即诚实医生和恶意医生,再根据信息熵计算不同分类医生请求访问记录的风险值,最后通过风险访问控制函数对风险值进行判断,并对医生的访问请求作出决策,以此控制医生对医疗数据的过度访问;本发明能精准控制医生的访问,降低医疗数据泄露的风险;
2、本发明还包括访问工作目标的风险量化与工作目标访问控制步骤,使用权值求和的方法计算风险值,并为每个访问目标设定等级,确保在相同环境下,紧急级别的访问目标能够优先于普通、重要级别的访问目标访问,从而把医生为患者做初步诊断时可能造成的风险也进行控制,本发明为健康医疗大数据的访问控制研究提供了新的思路。
附图说明
图1为划分医生类别的框架图;
图2为访问医疗记录的风险量化算法示意图;
图3为医疗记录访问控制函数框架图;
图4为呼吸科医生历史访问记录情况及医生分类结果图;
图5为呼吸科不同医生总数量的分类图;
图6为呼吸科50位医生风险值示意图;
图7为医生请求是否被允许访问图;
图8为呼吸科访问请求风险图;
图9为访问请求5次的性能指标对比图;
图10为访问请求10次的性能指标对比图;
图11为访问请求15次的性能指标对比图;
图12为访问请求20次的性能指标对比图;
图13为呼吸科过度访问风险图;
图14为过度访问比例为2%的性能指标对比图;
图15为过度访问比例为4%的性能指标对比图;
图16为过度访问比例为6%的性能指标对比图;
图17为过度访问比例为8%的性能指标对比图;
图18为不同的恶意医生比例下的的风险值和性能指标值结果图。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
如附图1~图18所示本发明包括以下步骤:
S1、历史访问数据预处理:将医生按不同科室划分,依据ICD-10编码给同一科室每一医生在一段时间内访问的历史医疗记录编码;若某医生的历史访问记录中的编码在该科室对应的疾病编码中,则用“1”标注,若某医生的历史访问记录中的编码不在该科室对应的疾病编码中,则用“0”标注,然后将同一科室所有医生的标注转换成一个布尔矩阵,矩阵中不同的列表示医生访问的历史记录,行表示同一科室单个医生的访问历史医疗记录集合;
S2、构建医生矩阵:
医生的相似矩阵由医生之间的历史访问记录的相似度构成,设sij为第i个医生和第j个医生之间的相似度,则医生相似矩阵S表示为:
其中相似度sij通过距离度量函数计算得到;
医生的邻接矩阵是以医生的相似矩阵为基础,通过全连接法构建得到,全连接法通过高斯核函数定义边权重,然后将医生邻接矩阵A表示为:
使用全连接法构建的医生邻接矩阵A中,所有的点(医生)之间权重值都大于0;
医生的拉普拉斯矩阵定义为:
L=D-A,
拉普拉斯矩阵的性质:
(1)度矩阵和邻接矩阵都为对称矩阵,故拉普拉斯矩阵也为对称阵;
(2)拉普拉斯矩阵是对称矩阵,则它的所有的特征值都是实数;
(3)对于任意的向量f,有:
(4)拉普拉斯矩阵是半正定矩阵,且对应的n个实数特征值都大于等于0,即0=λ1≤λ2≤…≤λn,且最小的特征值为0;
S3:医生图的切割:采用谱聚类算法,把每个医生的历史访问记录作为图中的一个点,把医生历史访问记录间的相似度作为图中的边,如此构成的图为医生图,令V表示医生历史访问记录的集合,E表示医生间相似度的集合,即医生图G=(V,E),其中V是数据集里面所有的点,记为(d1,d2,…,dn);把同科室全部医生的历史访问记录作为图的顶点集合,把医生历史访问记录之间的相似度作为图的权值边集合;记医生图G=(V,E)被切成相互没有连接的k个医生子图,每个医生子图点的集合记为:G1,G2…,Gk,满足且G1∪G2∪…∪Gk=V;医生图按Ncut法进行切割,得到每个医生近似的指示向量,公式如下:
其中,D-1/2LD-1/2是对医生的拉普拉斯矩阵L进行了标准化,F是D-1/2LD-1/2的最小k个特征值所各自对应的特征向量组成的标准化矩阵,即特征矩阵,I为单位阵,Y为yi列拼接成的矩阵;通过本发明的切割方法将医生图切割最优解问题转化为优化问题求得近似解;
再对指示向量进行k均值聚类,得到医生标签,即把同一科室医生聚类成诚实医生和恶意医生两种类型;
S4、访问医疗记录的风险量化与医疗记录访问控制:首先把诚实医生或恶意医生的访问目标和请求访问记录根据ICD-10编码进行标签,然后利用信息熵计算两种类型医生的风险值;设定访问控制周期性的计算风险阈值Φ(t),该阈值Φ(t)是由t段时间内,所有医生的平均风险值所决定,即:
其中,C(t)表示在t段时间内所有请求访问的医生的数量;
令Φdi=risk(di,tj)-Φ(t),即风险访问控制函数为:
其中,结果为1表示拒绝访问,0表示允许访问。
访问控制具体算法如下:
ICD-10是国际疾病分类(International Classification of Diseases,ICD)的第10次修订本。ICD-10将一个疾病或一组疾病表示成字母和数字形式实现数据存储、检索、分析和利用。ICD-10主要包括ICD-10编码、手术码、疾病名称、拼音码,并且支持疾病、类别的双向查询,拼音与汉字模糊查询等。
Ncut(Normalized Cut)切割法公式推导过程如下:
对每个切图,NCut方法不仅考虑mincut(G1,G2,…,Gk),同时还考虑医生子图中医生权重(即相似度),因为医生子图中医生数目多不代表权重就大(即相似性高),因此切图时基于权重更符合目标;NCut目标函数定义为:
其中vol(Gi)表示医生子图Gi的权重;
接着优化NCut函数,首先引入指示向量(Indicator vector)yj∈{y1,y1,…,yk}j=1,2,...,k,对于任意一个向量yj,它是一个n维向量(n为医生个数),令:
可以得到:
令Y为yi列拼接成的矩阵,则有:
(2)YTDY=I;
所以,
故,优化目标转化为:
此时,Y中的指示向量y并不是标准正交基,因此不能直接进行降维,需要将指示向量矩阵Y进行转化;
令Y=D-1/2F,则
YTLY=FTD-1/2LD-1/2F,
约束条件的取值范围松弛为实数范围:
YTDY=FTF=I,
故,优化目标最终转化为:
其中,D-1/2LD-1/2是对医生的拉普拉斯矩阵L进行了标准化,F是D-1/2LD-1/2的最小k个特征值所各自对应的特征向量组成的标准化矩阵,即特征矩阵,I为单位阵,Y为yi列拼接成的矩阵。
优选地,S1步骤在得到布尔矩阵后,将同一科室不同医生的相同历史访问记录进行合并,得到去除重复历史访问记录的矩阵。
优选地,S2步骤距离度量函数的公式为:
其中,X为集合{x1,x2,…,xn},Y为集合{y1,y2,…,yn},X、Y分别代表不同的医生,xi代表医生X的第i次访问记录,yi代表医生Y的第i次访问记录。
优选地,S2步骤高斯核函数的公式为:
其中,si和sj为医生相似矩阵S的第i行和第j行。
优选地,S4步骤风险值的计算过程具体是先记医生的一次访问行为信息为三元组<di,ti,mi>,其中di∈D,D表示医生集合;tj∈Ti,Ti是医生di在过去一段时间内访问请求中的一组访问目的;M表示医疗记录的集合;在对医生di的访问行为进行分析时,对于每个目的tj∈Ti,令S(di,tj)为过去期间di为目的tj请求记录的标签序列,其中医生di在S3步骤已确定医生类型;在患者医疗记录中,根据访问医疗记录的标签进行设定,用lk表示其中某一类数据的标签且lk∈L,L表示所有的医疗记录标签的分类,用fdi(lk,tj)表示访问目的为tj并且医疗记录标签为lk的医疗记录出现的次数,通过该次数计算出诚实医生或恶意医生因该工作目的tj访问医疗记录标签lk的概率p(lk|tjdi),即:
lb表示在该访问目标下所有的医疗记录标签,根据信息熵公式,得出医生di在访问目的下得到的信息量为以下公式所示:
按上述相同的方法,在历史访问医疗记录中,得到相同访问目的tj的所有医生dall的访问记录,并得到dall的平均信息量,公式为:
其中,Hall(tj)表示dall信息量的总和,C(dall)表示医疗系统中医生的数量,通过比较di和dall的信息量,得到在相同访问目标tj之下的差值,即在该访问目标tj下选择医疗记录造成的风险值,公式为:
然后,周期性的对医生的所有访问目的进行求和,根据以下公式计算出该医生的风险值:
优选地,S3与S4步骤之间还包括访问工作目标的风险量化与工作目标访问控制步骤,具体是设医生工作目标分别为workObjective1、workObjective2、…、workObjectiven,对每个工作目标划分风险等级,风险等级是从0级到9级,即对于i∈N+且i∈[1,n],workObjective1∈[0,9],其权值为weight1、weight2、…、weightn,则当前医生访问工作目标的风险值riskValuewo的计算公式为:
设普通级别的工作目标风险权值为w1i,其中i∈N+且i∈[1,n],n表示医生给同一患者诊断过程中需访问工作目标的个数;重要级别的工作目标风险权值为w2j,其中j∈N+且j∈[1,n];紧急级别的工作目标风险权值为w3k,其中k∈N+且k∈[1,n],风险值的计算约束条件定义为:其中m∈{1,2,3},表示工作目标重要性级别{普通,重要,紧急},并且即所有重要级别的工作目标的权值大于普通工作目标的最大权值,所有紧急级别的工作目标的权值小于普通级别的工作目标的权值;对于所有的权值wmi∈[0,1],有和关系不等式成立,相同环境下,紧急、普通、重要等级的工作目标的风险值的关系递增,即:
其中,结果为1表示拒绝访问,0表示允许访问;
工作目标访问控制是使用工作目标访问控制函数判断该阶段医生允许或拒绝访问,具体是:
若医生访问工作目标的风险值riskValuewo大于风险阈值且工作目标等级为紧急,则允许访问,但在下一周期分配访问配额时,该医生的访问配额会减少;若医生访问工作目标的风险值riskValuewo大于风险阈值,但工作目标等级为普通或重要,则拒绝访问;若医生访问工作目标的风险值riskValuewo小于等于风险阈值,此时不需要考虑工作目标等级,允许访问。
医疗大数据访问控制装置,包括:
历史访问数据预处理模块,用于将医生按不同科室划分,依据ICD-10编码给同一科室每一医生在一段时间内访问的历史医疗记录编码;若某医生的历史访问记录中的编码在该科室对应的疾病编码中,则用“1”标注,若某医生的历史访问记录中的编码不在该科室对应的疾病编码中,则用“0”标注,然后将同一科室所有医生的标注转换成一个布尔矩阵,矩阵中不同的列表示医生访问的历史记录,行表示同一科室单个医生的访问历史医疗记录集合;
医生矩阵构建模块,医生的相似矩阵由医生之间的历史访问记录的相似度构成,设sij为第i个医生和第j个医生之间的相似度,则医生相似矩阵S表示为:
其中相似度sij通过距离度量函数计算得到;
医生的邻接矩阵是以医生的相似矩阵为基础,通过全连接法构建得到,全连接法通过高斯核函数定义边权重,然后将医生邻接矩阵A表示为:
医生的拉普拉斯矩阵定义为:
L=D-A,
医生图切割模块,用于采用谱聚类算法,把每个医生的历史访问记录作为图中的一个点,把医生历史访问记录间的相似度作为图中的边,如此构成的图为医生图,令V表示医生历史访问记录的集合,E表示医生间相似度的集合,即医生图G=(V,E),其中V是数据集里面所有的点,记为(d1,d2,…,dn);把同科室全部医生的历史访问记录作为图的顶点集合,把医生历史访问记录之间的相似度作为图的权值边集合;记医生图G=(V,E)被切成相互没有连接的k个医生子图,每个医生子图点的集合记为:G1,G2…,Gk,满足且G1∪G2∪…∪Gk=V;医生图按Ncut法进行切割,得到每个医生近似的指示向量,公式如下:
其中,D-1/2LD-1/2是对医生的拉普拉斯矩阵L进行了标准化,F是D-1/2LD-1/2的最小k个特征值所各自对应的特征向量组成的标准化矩阵,即特征矩阵,I为单位阵,Y为yi列拼接成的矩阵;
再对指示向量进行k均值聚类,得到医生标签,即把同一科室医生聚类成诚实医生和恶意医生两种类型;
访问医疗记录的风险量化与医疗记录访问控制模块,用于首先把诚实医生或恶意医生的访问目标和请求访问记录根据ICD-10编码进行标签,然后利用信息熵计算两种类型医生的风险值;设定访问控制周期性的计算风险阈值Φ(t),该阈值Φ(t)是由t段时间内,所有医生的平均风险值所决定,即:
其中,C(t)表示在t段时间内所有请求访问的医生的数量;
令Φdi=risk(di,tj)-Φ(t),即风险访问控制函数为:
其中,结果为1表示拒绝访问,0表示允许访问。
计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令在被执行时实现所述的医疗大数据访问控制方法。
下面结合实施例1~实施例3对本发明作进一步说明。
实施例1
S1、历史访问数据预处理:将医生按不同科室划分,依据ICD-10编码给同一科室每一医生在一段时间内访问的历史医疗记录编码;若某医生的历史访问记录中的编码在该科室对应的疾病编码中,则用“1”标注,若某医生的历史访问记录中的编码不在该科室对应的疾病编码中,则用“0”标注,然后将同一科室所有医生的标注转换成一个布尔矩阵,矩阵中不同的列表示医生访问的历史记录,行表示同一科室单个医生的访问历史医疗记录集合;
S2、构建医生矩阵:
医生的相似矩阵由医生之间的历史访问记录的相似度构成,设sij为第i个医生和第j个医生之间的相似度,则医生相似矩阵S表示为:
其中相似度sij通过距离度量函数计算得到;
医生的邻接矩阵是以医生的相似矩阵为基础,通过全连接法构建得到,全连接法通过高斯核函数定义边权重,然后将医生邻接矩阵A表示为:
使用全连接法构建的医生邻接矩阵A中,所有的点(医生)之间权重值都大于0;
医生的拉普拉斯矩阵定义为:
L=D-A,
拉普拉斯矩阵的性质:
(1)度矩阵和邻接矩阵都为对称矩阵,故拉普拉斯矩阵也为对称阵;
(2)拉普拉斯矩阵是对称矩阵,则它的所有的特征值都是实数;
(3)对于任意的向量f,有:
(4)拉普拉斯矩阵是半正定矩阵,且对应的n个实数特征值都大于等于0,即0=λ1≤λ2≤…≤λn,且最小的特征值为0;
S3:医生图的切割:采用谱聚类算法,把每个医生的历史访问记录作为图中的一个点,把医生历史访问记录间的相似度作为图中的边,如此构成的图为医生图,令V表示医生历史访问记录的集合,E表示医生间相似度的集合,即医生图G=(V,E),其中V是数据集里面所有的点,记为(d1,d2,…,dn);把同科室全部医生的历史访问记录作为图的顶点集合,把医生历史访问记录之间的相似度作为图的权值边集合;记医生图G=(V,E)被切成相互没有连接的k个医生子图,每个医生子图点的集合记为:G1,G2…,Gk,满足且G1∪G2∪…∪Gk=V;医生图按Ncut法进行切割,得到每个医生近似的指示向量,公式如下:
其中,D-1/2LD-1/2是对医生的拉普拉斯矩阵L进行了标准化,F是D-1/2LD-1/2的最小k个特征值所各自对应的特征向量组成的标准化矩阵,即特征矩阵,I为单位阵,Y为yi列拼接成的矩阵;通过本发明的切割方法将医生图切割最优解问题转化为优化问题求得近似解;
再对指示向量进行k均值聚类,得到医生标签,即把同一科室医生聚类成诚实医生和恶意医生两种类型;
S4、访问医疗记录的风险量化与医疗记录访问控制:首先把诚实医生或恶意医生的访问目标和请求访问记录根据ICD-10编码进行标签,然后利用信息熵计算两种类型医生的风险值;设定访问控制周期性的计算风险阈值Φ(t),该阈值Φ(t)是由t段时间内,所有医生的平均风险值所决定,即:
其中,C(t)表示在t段时间内所有请求访问的医生的数量;
令Φdi=risk(di,tj)-Φ(t),即风险访问控制函数为:
其中,结果为1表示拒绝访问,0表示允许访问。
实施例2
S1、历史访问数据预处理:将医生按不同科室划分,依据ICD-10编码给同一科室每一医生在一段时间内访问的历史医疗记录编码;若某医生的历史访问记录中的编码在该科室对应的疾病编码中,则用“1”标注,若某医生的历史访问记录中的编码不在该科室对应的疾病编码中,则用“0”标注,然后将同一科室所有医生的标注转换成一个布尔矩阵,矩阵中不同的列表示医生访问的历史记录,行表示同一科室单个医生的访问历史医疗记录集合;在得到布尔矩阵后,将同一科室不同医生的相同历史访问记录进行合并,得到去除重复历史访问记录的矩阵;
S2、构建医生矩阵:
医生的相似矩阵由医生之间的历史访问记录的相似度构成,设sij为第i个医生和第j个医生之间的相似度,则医生相似矩阵S表示为:
其中相似度sij通过距离度量函数计算得到,距离度量函数的公式为:
其中,X为集合{x1,x2,…,xn},Y为集合{y1,y2,…,yn},X、Y分别代表不同的医生,xi代表医生X的第i次访问记录,yi代表医生Y的第i次访问记录;
医生的邻接矩阵是以医生的相似矩阵为基础,通过全连接法构建得到,全连接法通过高斯核函数定义边权重,高斯核函数的公式为:
其中,si和sj为医生相似矩阵S的第i行和第j行,
然后将医生邻接矩阵A表示为:
使用全连接法构建的医生邻接矩阵A中,所有的点(医生)之间权重值都大于0;
医生的拉普拉斯矩阵定义为:
L=D-A,
拉普拉斯矩阵的性质:
(1)度矩阵和邻接矩阵都为对称矩阵,故拉普拉斯矩阵也为对称阵;
(2)拉普拉斯矩阵是对称矩阵,则它的所有的特征值都是实数;
(3)对于任意的向量f,有:
(4)拉普拉斯矩阵是半正定矩阵,且对应的n个实数特征值都大于等于0,即0=λ1≤λ2≤…≤λn,且最小的特征值为0;
S3:医生图的切割:采用谱聚类算法,把每个医生的历史访问记录作为图中的一个点,把医生历史访问记录间的相似度作为图中的边,如此构成的图为医生图,令V表示医生历史访问记录的集合,E表示医生间相似度的集合,即医生图G=(V,E),其中V是数据集里面所有的点,记为(d1,d2,…,dn);把同科室全部医生的历史访问记录作为图的顶点集合,把医生历史访问记录之间的相似度作为图的权值边集合;记医生图G=(V,E)被切成相互没有连接的k个医生子图,每个医生子图点的集合记为:G1,G2…,Gk,满足且G1∪G2∪…∪Gk=V;医生图按Ncut法进行切割,得到每个医生近似的指示向量,公式如下:
其中,D-1/2LD-1/2是对医生的拉普拉斯矩阵L进行了标准化,F是D-1/2LD-1/2的最小k个特征值所各自对应的特征向量组成的标准化矩阵,即特征矩阵,I为单位阵,Y为yi列拼接成的矩阵;通过本发明的切割方法将医生图切割最优解问题转化为优化问题求得近似解;
再对指示向量进行k均值聚类,得到医生标签,即把同一科室医生聚类成诚实医生和恶意医生两种类型;
S4、访问工作目标的风险量化与工作目标访问控制:设医生工作目标分别为workObjective1、workObjective2、…、workObjectiven,对每个工作目标划分风险等级,风险等级是从0级到9级,即对于i∈N+且i∈[1,n],workObjective1∈[0,9],其权值为weight1、weight2、…、weightn,则当前医生访问工作目标的风险值riskValuewo的计算公式为:
设普通级别的工作目标风险权值为w1i,其中i∈N+且i∈[1,n],n表示医生给同一患者诊断过程中需访问工作目标的个数;重要级别的工作目标风险权值为w2j,其中j∈N+且j∈[1,n];紧急级别的工作目标风险权值为w3k,其中k∈N+且k∈[1,n],风险值的计算约束条件定义为:其中m∈{1,2,3},表示工作目标重要性级别{普通,重要,紧急},并且即所有重要级别的工作目标的权值大于普通工作目标的最大权值,所有紧急级别的工作目标的权值小于普通级别的工作目标的权值;对于所有的权值wmi∈[0,1],有和关系不等式成立,相同环境下,紧急、普通、重要等级的工作目标的风险值的关系递增,即:
其中,结果为1表示拒绝访问,0表示允许访问;
工作目标访问控制是使用工作目标访问控制函数判断该阶段医生允许或拒绝访问,具体是:
若医生访问工作目标的风险值riskValuewo大于风险阈值且工作目标等级为紧急,则允许访问,但在下一周期分配访问配额时,该医生的访问配额会减少;若医生访问工作目标的风险值riskValuewo大于风险阈值,但工作目标等级为普通或重要,则拒绝访问;若医生访问工作目标的风险值riskValuewo小于等于风险阈值,则允许访问;
S5、访问医疗记录的风险量化与医疗记录访问控制:首先把诚实医生或恶意医生的访问目标和请求访问记录根据ICD-10编码进行标签,然后利用信息熵计算两种类型医生的风险值;风险值的计算过程具体是先记医生的一次访问行为信息为三元组<di,ti,mi>,其中di∈D,D表示医生集合;tj∈Ti,Ti是医生di在过去一段时间内访问请求中的一组访问目的; M表示医疗记录的集合;在对医生di的访问行为进行分析时,对于每个目的tj∈Ti,令S(di,tj)为过去期间di为目的tj请求记录的标签序列,其中医生di在S3步骤已确定医生类型;在患者医疗记录中,根据访问医疗记录的标签进行设定,用lk表示其中某一类数据的标签且lk∈L,L表示所有的医疗记录标签的分类,用fdi(lk,tj)表示访问目的为tj并且医疗记录标签为lk的医疗记录出现的次数,通过该次数计算出诚实医生或恶意医生因该工作目的tj访问医疗记录标签lk的概率p(lk|tjdi),即:
lb表示在该访问目标下所有的医疗记录标签,根据信息熵公式,得出医生di在访问目的下得到的信息量为以下公式所示:
按上述相同的方法,在历史访问医疗记录中,得到相同访问目的tj的所有医生dall的访问记录,并得到dall的平均信息量,公式为:
其中,Hall(tj)表示dall信息量的总和,C(dall)表示医疗系统中医生的数量,通过比较di和dall的信息量,得到在相同访问目标tj之下的差值,即在该访问目标tj下选择医疗记录造成的风险值,公式为:
然后,周期性的对医生的所有访问目的进行求和,根据以下公式计算出该医生的风险值:
设定访问控制周期性的计算风险阈值Φ(t),该阈值Φ(t)是由t段时间内,所有医生的平均风险值所决定,即:
其中,C(t)表示在t段时间内所有请求访问的医生的数量;
令Φdi=risk(di,tj)-Φ(t),即风险访问控制函数为:
其中,结果为1表示拒绝访问,0表示允许访问。
实施例3:模拟测试实验
从某医院获得实验数据,数据类型有文本数据、图像数据及影像数据等。根据本发明方法实验测试的需求,只从数据中抽取部分数据用于实验;
实验设置:按本发明的方法把医生分为两类,然后模拟两类医生的访问请求,计算并比较两类医生的平均风险值,观察诚实医生的风险值是否远低于恶意医生的风险值;
在模拟实验中,我们把同科室的医生根据他们的历史访问记录划分为诚实医生和恶意医生,把没有访问历史记录的医生设置为诚实医生,并使用Z、zi表示ICD-10疾病编码的层次结构,其中Z表示ICD-10所用主要类别的集合;和都表示ICD-10的主要类别,他们之间的关系为且zi表示ICD-10的子类别,有在该实验中,我们用标识医生科室,使用zi标识历史访问记录。我们假设恶意医生随机选择请求访问记录的概率为α1,诚实医生随机选择请求访问记录的概率为1-α1,其中参数α1是过分访问概率;
实验选取了呼吸科的医生,首先对医生分类做了仿真实验,目的是把同科室的医生分为两类,接着计算了诚实医生和恶意医生的平均风险值,如果本发明方法有效,两类医生的平均风险值应该差别较大,这样本发明方法才能够很好地决定医生的请求访问记录是否被允许;
本实验是对同一科室医生进行分类,首先把呼吸科的医生进行分类,然后计算每个医生的风险值;表1为呼吸科50位医生在一段时间内的历史访问记录;
表1呼吸科50位医生的历史访问记录
之后,把该记录转化成布尔矩阵:
然后把矩阵A作为谱聚类算法的输入,构建医生的相似矩阵、邻接矩阵、拉普拉斯矩阵以及度矩阵,度矩阵D为:
采用谱聚类算法,构建医生图,然后按Ncut法对医生图切割,求解拉普拉斯矩阵最小的2个特征值对应的特征向量EV,
特征向量EV即为指示向量,使用指示向量构成样本点的新特征,再利用K-means算法(k均值聚类算法)对新数据特征空间中的点进行聚类,得到医生分类,分类结果见图4。
然后对上述医生分类结果的准确性进行验证,在呼吸科使用不同医生总数量进行测试,医生总数量分别为10、20、30、40、50,结果见图5,由图5可知,在同一科室内即使分类医生数量不同谱聚类算法也能准确的把医生分为诚实医生和恶意医生。
访问医疗记录的风险量化与医疗记录访问控制实验:由医生分类实验可知呼吸科50位医生中有45位医生为诚实医生,5位医生为恶意医生;根据医生分类,计算出50位医生的风险值,具体风险值见表2、图6所示;
表2呼吸科50位医生具体风险值
从图6观察发现恶意医生的风险值比诚实医生的风险值至少高出2倍,因此可以很清楚的区分诚实医生和恶意医生。
得到医生的风险值,进一步计算出风险阈值Φ(t),之后由访问控制函数决定医生的请求是否被允许;图7为医生请求是否被允许访问图;
测试实验的结果分析:
(1)不同记录请求数目的实验结果
本次实验目的是在不同的记录请求数目下,评估本发明方法的性能;首先呼吸科有50名医生,根据医生分类得到呼吸科的50名医生中4个恶意医生,46名诚实医生;过度访问的比例设定为10%;实验结果如图8所示;
由图8可知,诚实医生的平均风险值与恶意医生的平均风险值相差1.6至2.2倍,由此可以说明本发明方法是有效的;并且从图8中可以看出,诚实医生随着访问请求次数的增加风险值下降且趋于稳定;
之后,我们选取800医生(不分科室),其中80名医生为恶意医生,其他医生为诚实医生,过度访问的比例仍设定为10%,再次对本发明方法进行了评估,结果如图9~图12所示;
由图9~图12可知,在该实验中,风险值最高的前10名医生中,恶意医生所占比例为100%,并且在风险值最高的前50名医生中,本发明方法的准确率也达到了80%以上;从召回率分析得到,随着访问数目的增加,风险值最高的前50名医生中至少有82%为恶意医生;另外,本发明方法的总体性能F1值也是随着访问数目的增加而提升,因为数据越多算法越能准确学习医生的访问行为,使本发明方法更好的进行医生分类及计算医生风险值。
(2)不同过度访问比例的实验结果
本次实验目的是在不同的过度访问比例下,评估本发明方法的性能;首先呼吸科有50名医生,根据医生分类得到呼吸科的50名医生中4个恶意医生,46名诚实医生;请求访问记录的数目设定为20;实验结果如图13所示。
由图13可知,诚实医生的平均风险值与恶意医生的平均风险值相差1.3至3.34倍,该实验证明本发明方法是有效的。
之后,我们选取800医生(不分科室)对本发明方法进行测试,其中80名医生为恶意医生,其他医生为诚实医生,请求访问记录的数目仍然设定为20,再次对本发明方法进行了评估,结果如图14~图17所示。
从图14~图17对比中分析得到,在恶意医生的过度访问比例为6%时,本发明方法已经呈现很好的效果,当过度访问比例为6%或高于6%,且恶意医生数量比例为50的情况下,本发明方法的准确率达到95%,召回率达到80%。对比图16、图17可以发现,3种性能指标值几乎没有变化,说明在恶意医生的过度访问比例为6%时,本发明方法的性能趋于稳定。从图14~图17整体分析,本发明方法的性能随着恶意医生过度访问比例的增加而不断改善。
(3)不同的恶意医生数量的实验结果
在本次实验中,通过不同的恶意医生数量测试本发明方法的性能,选取800名医生(不分科室)测试本发明方法,并设定医生访问不相关医疗数据的概率为0.05,每位医生访问请求的数目为10。由于在该实验中,只是基于恶意医生不同数量的比较,故实验中计算的准确率、召回率、F1值在一定比例下是相同的。实验结果如图18所示:
如图18所示,恶意医生的风险值是诚实医生的2.3至2.7倍,说明本发明方法可以有效的区分诚实医生和恶意医生。从图可以看到,3个性能指标的值呈现上升趋势,表明本发明方法的性能在恶意医生所占比例增加的情况下也在提升。
Claims (7)
1.一种医疗大数据访问控制方法,其特征在于包括以下步骤:
S1、历史访问数据预处理:将医生按不同科室划分,依据ICD-10编码给同一科室每一医生在一段时间内访问的历史医疗记录编码;若某医生的历史访问记录中的编码在该科室对应的疾病编码中,则用“1”标注,若某医生的历史访问记录中的编码不在该科室对应的疾病编码中,则用“0”标注,然后将同一科室所有医生的标注转换成一个布尔矩阵,矩阵中不同的列表示医生访问的历史记录,行表示同一科室单个医生的访问历史医疗记录集合;
S2、构建医生矩阵:
医生的相似矩阵由医生之间的历史访问记录的相似度构成,设sij为第i个医生和第j个医生之间的相似度,则医生相似矩阵S表示为:
其中相似度sij通过距离度量函数计算得到;
医生的邻接矩阵是以医生的相似矩阵为基础,通过全连接法构建得到,全连接法通过高斯核函数定义边权重,然后将医生邻接矩阵A表示为:
医生的拉普拉斯矩阵定义为:
L=D-A,
S3:医生图的切割:采用谱聚类算法,把每个医生的历史访问记录作为图中的一个点,把医生历史访问记录间的相似度作为图中的边,如此构成的图为医生图,令V表示医生历史访问记录的集合,E表示医生间相似度的集合,即医生图G=(V,E),其中V是数据集里面所有的点,记为(d1,d2,…,dn);把同科室全部医生的历史访问记录作为图的顶点集合,把医生历史访问记录之间的相似度作为图的权值边集合;记医生图G=(V,E)被切成相互没有连接的k个医生子图,每个医生子图点的集合记为:G1,G2…,Gk,满足且G1∪G2∪…∪Gk=V;医生图按Ncut法进行切割,得到每个医生近似的指示向量,公式如下:
其中,D-1/2LD-1/2是对医生的拉普拉斯矩阵L进行了标准化,F是D-1/2LD-1/2的最小k个特征值所各自对应的特征向量组成的标准化矩阵,即特征矩阵,I为单位阵,Y为yi列拼接成的矩阵,令Y=D-1/2F;
再对指示向量进行k均值聚类,得到医生标签,即把同一科室医生聚类成诚实医生和恶意医生两种类型;
S4、访问工作目标的风险量化与工作目标访问控制:具体是设医生工作目标分别为workObjective1、workObjective2、…、workObjectiven,对每个工作目标划分风险等级,风险等级是从0级到9级,即对于i∈N+且i∈[1,n],workObjective1∈[0,9],其权值为weight1、weight2、…、weightn,则当前医生访问工作目标的风险值riskValuewo的计算公式为:
设普通级别的工作目标风险权值为w1i,其中i∈N+且i∈[1,n],n表示医生给同一患者诊断过程中需访问工作目标的个数;重要级别的工作目标风险权值为w2j,其中j∈N+且j∈[1,n];紧急级别的工作目标风险权值为w3k,其中k∈N+且k∈[1,n],风险值的计算约束条件定义为:其中m∈{1,2,3},表示工作目标重要性级别{普通,重要,紧急},并且即所有重要级别的工作目标的权值大于普通工作目标的最大权值,所有紧急级别的工作目标的权值小于普通级别的工作目标的权值;对于所有的权值wmi∈[0,1],有和关系不等式成立,相同环境下,紧急、普通、重要等级的工作目标的风险值的关系递增,即:
其中,结果为1表示拒绝访问,0表示允许访问;
工作目标访问控制是使用工作目标访问控制函数判断该阶段医生允许或拒绝访问,具体是:
若医生访问工作目标的风险值riskValuewo大于风险阈值且工作目标等级为紧急,则允许访问,但在下一周期分配访问配额时,该医生的访问配额会减少;若医生访问工作目标的风险值riskValuewo大于风险阈值,但工作目标等级为普通或重要,则拒绝访问;若医生访问工作目标的风险值riskValuewo小于等于风险阈值,则允许访问;
S5、访问医疗记录的风险量化与医疗记录访问控制:首先把诚实医生或恶意医生的访问目标和请求访问记录根据ICD-10编码进行标签,然后利用信息熵计算两种类型医生的风险值;设定访问控制周期性的计算风险阈值Φ(t),该阈值Φ(t)是由t段时间内,所有医生的平均风险值所决定,即:
其中,C(t)表示在t段时间内所有请求访问的医生的数量;
令Φdi=risk(di,tj)-Φ(t),即风险访问控制函数为:
其中,结果为1表示拒绝访问,0表示允许访问。
2.根据权利要求1所述医疗大数据访问控制方法,其特征在于S1步骤在得到布尔矩阵后,将同一科室不同医生的相同历史访问记录进行合并,得到去除重复历史访问记录的矩阵。
5.根据权利要求1所述医疗大数据访问控制方法,其特征在于S5步骤风险值的计算过程具体是先记医生的一次访问行为信息为三元组<di,ti,mi>,其中di∈D,D表示医生集合;tj∈Ti,Ti是医生di在过去一段时间内访问请求中的一组访问目的;M表示医疗记录的集合;在对医生di的访问行为进行分析时,对于每个目的tj∈Ti,令S(di,tj)为过去期间di为目的tj请求记录的标签序列,其中医生di在S3步骤已确定医生类型;在患者医疗记录中,根据访问医疗记录的标签进行设定,用lk表示其中某一类数据的标签且lk∈L,L表示所有的医疗记录标签的分类,用fdi(lk,tj)表示访问目的为tj并且医疗记录标签为lk的医疗记录出现的次数,通过该次数计算出诚实医生或恶意医生因该工作目的tj访问医疗记录标签lk的概率p(lk|tjdi),即:
lb表示在该访问目标下所有的医疗记录标签,根据信息熵公式,得出医生di在访问目的下得到的信息量为以下公式所示:
按上述相同的方法,在历史访问医疗记录中,得到相同访问目的tj的所有医生dall的访问记录,并得到dall的平均信息量,公式为:
其中,Hall(tj)表示dall信息量的总和,C(dall)表示医疗系统中医生的数量,通过比较di和dall的信息量,得到在相同访问目标tj之下的差值,即在该访问目标tj下选择医疗记录造成的风险值,公式为:
然后,周期性的对医生的所有访问目的进行求和,根据以下公式计算出该医生的风险值:
6.一种医疗大数据访问控制装置,其特征在于包括:
历史访问数据预处理模块,用于将医生按不同科室划分,依据ICD-10编码给同一科室每一医生在一段时间内访问的历史医疗记录编码;若某医生的历史访问记录中的编码在该科室对应的疾病编码中,则用“1”标注,若某医生的历史访问记录中的编码不在该科室对应的疾病编码中,则用“0”标注,然后将同一科室所有医生的标注转换成一个布尔矩阵,矩阵中不同的列表示医生访问的历史记录,行表示同一科室单个医生的访问历史医疗记录集合;
医生矩阵构建模块,医生的相似矩阵由医生之间的历史访问记录的相似度构成,设sij为第i个医生和第j个医生之间的相似度,则医生相似矩阵S表示为:
其中相似度sij通过距离度量函数计算得到;
医生的邻接矩阵是以医生的相似矩阵为基础,通过全连接法构建得到,全连接法通过高斯核函数定义边权重,然后将医生邻接矩阵A表示为:
医生的拉普拉斯矩阵定义为:
L=D-A,
医生图切割模块,用于采用谱聚类算法,把每个医生的历史访问记录作为图中的一个点,把医生历史访问记录间的相似度作为图中的边,如此构成的图为医生图,令V表示医生历史访问记录的集合,E表示医生间相似度的集合,即医生图G=(V,E),其中V是数据集里面所有的点,记为(d1,d2,…,dn);把同科室全部医生的历史访问记录作为图的顶点集合,把医生历史访问记录之间的相似度作为图的权值边集合;记医生图G=(V,E)被切成相互没有连接的k个医生子图,每个医生子图点的集合记为:G1,G2…,Gk,满足且G1∪G2∪…∪Gk=V;医生图按Ncut法进行切割,得到每个医生近似的指示向量,公式如下:
其中,D-1/2LD-1/2是对医生的拉普拉斯矩阵L进行了标准化,F是D-1/2LD-1/2的最小k个特征值所各自对应的特征向量组成的标准化矩阵,即特征矩阵,I为单位阵,Y为yi列拼接成的矩阵,令令Y=D-1/2F;
再对指示向量进行k均值聚类,得到医生标签,即把同一科室医生聚类成诚实医生和恶意医生两种类型;
访问工作目标的风险量化与工作目标访问控制模块,用于设医生工作目标分别为workObjective1、workObjective2、…、workObjectiven,对每个工作目标划分风险等级,风险等级是从0级到9级,即对于i∈N+且i∈[1,n],workObjective1∈[0,9],其权值为weight1、weight2、…、weightn,则当前医生访问工作目标的风险值riskValuewo的计算公式为:
设普通级别的工作目标风险权值为w1i,其中i∈N+且i∈[1,n],n表示医生给同一患者诊断过程中需访问工作目标的个数;重要级别的工作目标风险权值为w2j,其中j∈N+且j∈[1,n];紧急级别的工作目标风险权值为w3k,其中k∈N+且k∈[1,n],风险值的计算约束条件定义为:其中m∈{1,2,3},表示工作目标重要性级别{普通,重要,紧急},并且即所有重要级别的工作目标的权值大于普通工作目标的最大权值,所有紧急级别的工作目标的权值小于普通级别的工作目标的权值;对于所有的权值wmi∈[0,1],有和关系不等式成立,相同环境下,紧急、普通、重要等级的工作目标的风险值的关系递增,即:
其中,结果为1表示拒绝访问,0表示允许访问;
工作目标访问控制是使用工作目标访问控制函数判断该阶段医生允许或拒绝访问,具体是:
若医生访问工作目标的风险值riskValuewo大于风险阈值且工作目标等级为紧急,则允许访问,但在下一周期分配访问配额时,该医生的访问配额会减少;若医生访问工作目标的风险值riskValuewo大于风险阈值,但工作目标等级为普通或重要,则拒绝访问;若医生访问工作目标的风险值riskValuewo小于等于风险阈值,则允许访问;
访问医疗记录的风险量化与医疗记录访问控制模块,用于首先把诚实医生或恶意医生的访问目标和请求访问记录根据ICD-10编码进行标签,然后利用信息熵计算两种类型医生的风险值;设定访问控制本发明方法周期性的计算风险阈值Φ(t),该阈值Φ(t)是由t段时间内,所有医生的平均风险值所决定,即:
其中,C(t)表示在t段时间内所有请求访问的医生的数量;
令Φdi=risk(di,tj)-Φ(t),即风险访问控制函数为:
其中,结果为1表示拒绝访问,0表示允许访问。
7.一种计算机可读存储介质,其上存储有计算机可读指令,其特征在于所述计算机可读指令在被执行时实现权利要求1~5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011294097.3A CN112259210B (zh) | 2020-11-18 | 2020-11-18 | 医疗大数据访问控制方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011294097.3A CN112259210B (zh) | 2020-11-18 | 2020-11-18 | 医疗大数据访问控制方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112259210A CN112259210A (zh) | 2021-01-22 |
CN112259210B true CN112259210B (zh) | 2021-05-11 |
Family
ID=74266164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011294097.3A Active CN112259210B (zh) | 2020-11-18 | 2020-11-18 | 医疗大数据访问控制方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112259210B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113205871B (zh) * | 2021-02-10 | 2022-01-28 | 云南财经大学 | 基于模糊信任预测和回归分析的医疗数据访问控制系统 |
CN113255006A (zh) * | 2021-06-16 | 2021-08-13 | 云南财经大学 | 一种基于演化博弈的医疗大数据访问控制方法 |
CN114861224B (zh) * | 2022-05-11 | 2023-06-06 | 云南财经大学 | 基于风险和ucon访问控制模型的医疗数据系统 |
CN117745080B (zh) * | 2024-02-19 | 2024-04-26 | 北京北科融智云计算科技有限公司 | 基于多因素认证的数据访问控制和安全监管方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175697A (zh) * | 2019-04-25 | 2019-08-27 | 胡盛寿 | 一种不良事件风险预测系统及方法 |
CN110321721A (zh) * | 2019-07-02 | 2019-10-11 | 石家庄铁道大学 | 基于区块链的电子病历访问控制方法 |
CN110706092A (zh) * | 2019-09-23 | 2020-01-17 | 深圳中兴飞贷金融科技有限公司 | 风险用户识别方法和装置,存储介质及电子设备 |
CN111353172A (zh) * | 2020-03-02 | 2020-06-30 | 山东工商学院 | 基于区块链的Hadoop集群大数据访问方法及系统 |
CN111711614A (zh) * | 2020-05-27 | 2020-09-25 | 平安科技(深圳)有限公司 | 基于知识图谱的可疑用户验证方法、装置及计算机设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8650623B2 (en) * | 2007-01-17 | 2014-02-11 | International Business Machines Corporation | Risk adaptive information flow based access control |
CN109190661A (zh) * | 2018-07-26 | 2019-01-11 | 安徽师范大学 | 一种基于差分隐私保护的谱聚类方法 |
CN111737750B (zh) * | 2020-06-30 | 2023-12-26 | 绿盟科技集团股份有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
-
2020
- 2020-11-18 CN CN202011294097.3A patent/CN112259210B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175697A (zh) * | 2019-04-25 | 2019-08-27 | 胡盛寿 | 一种不良事件风险预测系统及方法 |
CN110321721A (zh) * | 2019-07-02 | 2019-10-11 | 石家庄铁道大学 | 基于区块链的电子病历访问控制方法 |
CN110706092A (zh) * | 2019-09-23 | 2020-01-17 | 深圳中兴飞贷金融科技有限公司 | 风险用户识别方法和装置,存储介质及电子设备 |
CN111353172A (zh) * | 2020-03-02 | 2020-06-30 | 山东工商学院 | 基于区块链的Hadoop集群大数据访问方法及系统 |
CN111711614A (zh) * | 2020-05-27 | 2020-09-25 | 平安科技(深圳)有限公司 | 基于知识图谱的可疑用户验证方法、装置及计算机设备 |
Non-Patent Citations (1)
Title |
---|
面向医疗大数据的风险自适应的访问控制模型;惠榛等;《通信学报》;20151231;第1-10页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112259210A (zh) | 2021-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112259210B (zh) | 医疗大数据访问控制方法、装置及计算机可读存储介质 | |
Hadorn et al. | Cross‐validation performance of mortality prediction models | |
Templ et al. | Introduction to statistical disclosure control (sdc) | |
Kosareva et al. | Personnel ranking and selection problem solution by application of KEMIRA method | |
CN102947832A (zh) | 患者记录的身份匹配 | |
JP2000339351A (ja) | 選択的に関連させられたデータベースレコードの識別のためのシステム | |
CN112164471A (zh) | 基于分类回归模型的新冠疫情综合评估方法 | |
US20060136143A1 (en) | Personalized genetic-based analysis of medical conditions | |
CN115496410B (zh) | 基于法律条款的行政执法事项全生命周期管理方法及系统 | |
CN112989621A (zh) | 一种模型性能评价方法、装置、设备及存储介质 | |
CN115050442B (zh) | 基于挖掘聚类算法的病种数据上报方法、装置及存储介质 | |
CN114270391A (zh) | 量化隐私影响 | |
CN111091907A (zh) | 基于相似病例库的健康医疗知识检索方法和系统 | |
Cheng et al. | Smart work injury management (SWIM) system: artificial intelligence in work disability management | |
Roy et al. | Determinants of corporate environmental disclosure from an Asian perspective | |
CN115146890A (zh) | 企业运营风险告警方法、装置、计算机设备和存储介质 | |
CN113066543A (zh) | 临床研究协调员排程方法、装置、计算机设备和存储介质 | |
CN110957046A (zh) | 医疗健康案例知识匹配方法和系统 | |
Basheleishvili | Developing the expert decision-making algorithm using the methods of multi-criteria analysis | |
AU2021102593A4 (en) | A Method for Detection of a Disease | |
CN112270223B (zh) | 保单检视方法、装置及计算机可读存储介质 | |
Pham | The recurrence dynamics of personalized depression | |
CN113642669A (zh) | 基于特征分析的防欺诈检测方法、装置、设备及存储介质 | |
CN112562854A (zh) | 一种高龄人员精准医疗关怀服务推荐方法及系统 | |
Kita-Wojciechowska et al. | Google Street View image predicts car accident risk |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |