CN112259210A - 医疗大数据访问控制方法、装置及计算机可读存储介质 - Google Patents

医疗大数据访问控制方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN112259210A
CN112259210A CN202011294097.3A CN202011294097A CN112259210A CN 112259210 A CN112259210 A CN 112259210A CN 202011294097 A CN202011294097 A CN 202011294097A CN 112259210 A CN112259210 A CN 112259210A
Authority
CN
China
Prior art keywords
doctor
doctors
access
matrix
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011294097.3A
Other languages
English (en)
Other versions
CN112259210B (zh
Inventor
姜茸
韩姗姗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University of Finance and Economics
Original Assignee
Yunnan University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University of Finance and Economics filed Critical Yunnan University of Finance and Economics
Priority to CN202011294097.3A priority Critical patent/CN112259210B/zh
Publication of CN112259210A publication Critical patent/CN112259210A/zh
Application granted granted Critical
Publication of CN112259210B publication Critical patent/CN112259210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Development Economics (AREA)
  • Medical Informatics (AREA)
  • Educational Administration (AREA)
  • Epidemiology (AREA)
  • Game Theory and Decision Science (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种医疗大数据访问控制方法、装置及计算机可读存储介质,医疗大数据访问控制方法包括历史访问数据预处理、构建医生矩阵、医生聚类以及访问医疗记录的风险量化与医疗记录访问控制步骤;装置包括历史访问数据预处理模块、医生矩阵构建模块、医生图切割模块以及访问医疗记录的风险量化与医疗记录访问控制模块;计算机可读存储介质其上存储有计算机可读指令,计算机可读指令在被执行时实现所述方法。本发明通过对医生历史访问数据预处理,再通过构建医生矩阵以及进行医生图的切割,使用谱聚类把医生聚成两类,计算不同分类医生请求访问记录风险值,最后判断并对医生访问请求作出决策,本发明能精准控制医生访问,降低医疗数据泄露风险。

Description

医疗大数据访问控制方法、装置及计算机可读存储介质
技术领域
本发明属于医疗数据隐私保护技术领域,具体涉及一种医疗大数据访问控制方法、装置及计算机可读存储介质。
背景技术
随着互联网信息技术的快速发展,各行各业都已经步入大数据时代。尤其在医疗领域,大数据时代更是造就了数字与健康、医疗前所未有的伟大融合。该融合使医学新研究和健康新服务彰显巨大的价值和潜力。医疗健康大数据环境下,基于数据标准和数据整合,医生给患者诊疗过程中可以调用患者的历史信息甚至基因信息。如此一来,医生就能实现在特定的时间点给特定的患者提供效果更好、更具有针对性的特定治疗方案,并且医疗健康大数据可以为医疗机构、政府相关管理部门及相关企业带来许多好处。比如,在政府管理方面,可以为政府在药品质量安全控制、医疗设备合格控制等方面提供决策支持;在商业方面,可为医药供应链及药品零售进行药品进销存优化;在医院业务方面,帮助医生提高专业能力,优化医疗资源的配置。但是医疗健康大数据在收集、挖掘、分析、利用每个阶段都需要一个良好的健康大数据产业生态环境,该产业生态环境的一个基本且重要的特征是“开放”,无论产业价值链与生态环境如何构建,都需要在一个“开放”的环境下实现健康大数据的采集、管理和使用等。然而,医疗健康大数据的“开放”在一定程度上会增加数据泄露的风险。比如,2017年9月,中国某医院的服务信息系统被黑客入侵,导致大量公民信息泄露、贩卖;2018年1月,中国某社区卫生服务中心工作人员因未授权访问导致几十万条新生婴儿和预产孕妇信息泄露;同年8月,澳大利亚第五大城市阿德莱德某医院因工作人员访问不当,意外暴露了约7200名儿童的医疗记录和个人资料。因此防止医疗健康大数据泄露已成为现在急需解决的问题。
目前,已有许多学者根据不同策略提供了不同的访问控制本发明方法,如传统的访问控制(包括自主访问控制、强制访问控制)和基于角色的访问控制本发明方法等,这些本发明方法采用静态的授权方式,使用固定的策略,不考虑不确定性和大数据环境,在大数据环境中授权变化频繁的场景很难适用。近年来,众多学者在医疗大数据访问控制领域做了较多研究,但大多是在不区分医生类别的情况下直接计算医生的风险值,应用时依然存在诸多问题。为此,研发一种能够解决上述问题的医疗大数据访问控制方法是非常必要的。
发明内容
本发明的第一目的在于提供一种医疗大数据访问控制方法。
本发明的第二目的在于提供一种医疗大数据访问控制装置。
本发明的第三目的在于提供一种计算机可读存储介质。
本发明的第一目的是这样实现的,包括以下步骤:
S1、历史访问数据预处理:将医生按不同科室划分,依据ICD-10编码给同一科室每一医生在一段时间内访问的历史医疗记录编码;若某医生的历史访问记录中的编码在该科室对应的疾病编码中,则用“1”标注,若某医生的历史访问记录中的编码不在该科室对应的疾病编码中,则用“0”标注,然后将同一科室所有医生的标注转换成一个布尔矩阵,矩阵中不同的列表示医生访问的历史记录,行表示同一科室单个医生的访问历史医疗记录集合;
S2、构建医生矩阵:
医生的相似矩阵由医生之间的历史访问记录的相似度构成,设sij为第i个医生和第j个医生之间的相似度,则医生相似矩阵S表示为:
Figure BDA0002784839010000021
其中相似度sij通过距离度量函数计算得到;
医生的邻接矩阵是以医生的相似矩阵为基础,通过全连接法构建得到,全连接法通过高斯核函数定义边权重,然后将医生邻接矩阵A表示为:
Figure BDA0002784839010000022
医生的拉普拉斯矩阵定义为:
L=D-A,
其中,A表示医生的邻接矩阵,D表示医生的度矩阵,且医生的度矩阵D每行的值为医生相似矩阵S每行值得和,即
Figure BDA0002784839010000023
矩阵形式为:
Figure BDA0002784839010000024
S3:医生图的切割:采用谱聚类算法,把每个医生的历史访问记录作为图中的一个点,把医生历史访问记录间的相似度作为图中的边,如此构成的图为医生图,令V表示医生历史访问记录的集合,E表示医生间相似度的集合,即医生图G=(V,E),其中V是数据集里面所有的点,记为(d1,d2,…,dn);把同科室全部医生的历史访问记录作为图的顶点集合,把医生历史访问记录之间的相似度作为图的权值边集合;记医生图G=(V,E)被切成相互没有连接的k个医生子图,每个医生子图点的集合记为:G1,G2…,Gk,满足
Figure BDA0002784839010000031
且G1∪G2∪…∪Gk=V;医生图按Ncut法进行切割,得到每个医生近似的指示向量,公式如下:
Figure BDA0002784839010000032
其中,D-1/2LD-1/2是对医生的拉普拉斯矩阵L进行了标准化,F是D-1/2LD-1/2的最小k个特征值所各自对应的特征向量组成的标准化矩阵,即特征矩阵,I为单位阵,Y为
Figure BDA0002784839010000033
列拼接成的矩阵;
再对指示向量进行k均值聚类,得到医生标签,即把同一科室医生聚类成诚实医生和恶意医生两种类型;
S4、访问医疗记录的风险量化与医疗记录访问控制:首先把诚实医生或恶意医生的访问目标和请求访问记录根据ICD-10编码进行标签,然后利用信息熵计算两种类型医生的风险值;设定访问控制周期性的计算风险阈值Φ(t),该阈值Φ(t)是由t段时间内,所有医生的平均风险值所决定,即:
Figure BDA0002784839010000034
其中,C(t)表示在t段时间内所有请求访问的医生的数量;
令Φdi=risk(di,tj)-Φ(t),即风险访问控制函数为:
Figure BDA0002784839010000035
其中,结果为1表示拒绝访问,0表示允许访问。
本发明的第二目的是这样实现的,包括:
历史访问数据预处理模块,用于将医生按不同科室划分,依据ICD-10编码给同一科室每一医生在一段时间内访问的历史医疗记录编码;若某医生的历史访问记录中的编码在该科室对应的疾病编码中,则用“1”标注,若某医生的历史访问记录中的编码不在该科室对应的疾病编码中,则用“0”标注,然后将同一科室所有医生的标注转换成一个布尔矩阵,矩阵中不同的列表示医生访问的历史记录,行表示同一科室单个医生的访问历史医疗记录集合;
医生矩阵构建模块,医生的相似矩阵由医生之间的历史访问记录的相似度构成,设sij为第i个医生和第j个医生之间的相似度,则医生相似矩阵S表示为:
Figure BDA0002784839010000041
其中相似度sij通过距离度量函数计算得到;
医生的邻接矩阵是以医生的相似矩阵为基础,通过全连接法构建得到,全连接法通过高斯核函数定义边权重,然后将医生邻接矩阵A表示为:
Figure BDA0002784839010000042
医生的拉普拉斯矩阵定义为:
L=D-A,
其中,A表示医生的邻接矩阵,D表示医生的度矩阵,且医生的度矩阵D每行的值为医生相似矩阵S每行值得和,即
Figure BDA0002784839010000043
矩阵形式为:
Figure BDA0002784839010000044
医生图切割模块,用于采用谱聚类算法,把每个医生的历史访问记录作为图中的一个点,把医生历史访问记录间的相似度作为图中的边,如此构成的图为医生图,令V表示医生历史访问记录的集合,E表示医生间相似度的集合,即医生图G=(V,E),其中V是数据集里面所有的点,记为(d1,d2,…,dn);把同科室全部医生的历史访问记录作为图的顶点集合,把医生历史访问记录之间的相似度作为图的权值边集合;记医生图G=(V,E)被切成相互没有连接的k个医生子图,每个医生子图点的集合记为:G1,G2…,Gk,满足
Figure BDA0002784839010000045
且G1∪G2∪…∪Gk=V;医生图按Ncut法进行切割,得到每个医生近似的指示向量,公式如下:
Figure BDA0002784839010000046
其中,D-1/2LD-1/2是对医生的拉普拉斯矩阵L进行了标准化,F是D-1/2LD-1/2的最小k个特征值所各自对应的特征向量组成的标准化矩阵,即特征矩阵,I为单位阵,Y为
Figure BDA0002784839010000047
列拼接成的矩阵;
再对指示向量进行k均值聚类,得到医生标签,即把同一科室医生聚类成诚实医生和恶意医生两种类型;
访问医疗记录的风险量化与医疗记录访问控制模块,用于首先把诚实医生或恶意医生的访问目标和请求访问记录根据ICD-10编码进行标签,然后利用信息熵计算两种类型医生的风险值;设定访问控制周期性的计算风险阈值Φ(t),该阈值Φ(t)是由t段时间内,所有医生的平均风险值所决定,即:
Figure BDA0002784839010000051
其中,C(t)表示在t段时间内所有请求访问的医生的数量;
令Φdi=risk(di,tj)-Φ(t),即风险访问控制函数为:
Figure BDA0002784839010000052
其中,结果为1表示拒绝访问,0表示允许访问。
本发明的第三目的是这样实现的,其上存储有计算机可读指令,所述计算机可读指令在被执行时实现所述的医疗大数据访问控制方法。
与现有技术相比,本发明具有以下技术效果:
1、本发明通过对医生历史访问数据预处理,然后通过构建医生矩阵以及进行医生图的切割,使用谱聚类把同科室医生聚成两类,即诚实医生和恶意医生,再根据信息熵计算不同分类医生请求访问记录的风险值,最后通过风险访问控制函数对风险值进行判断,并对医生的访问请求作出决策,以此控制医生对医疗数据的过度访问;本发明能精准控制医生的访问,降低医疗数据泄露的风险;
2、本发明还包括访问工作目标的风险量化与工作目标访问控制步骤,使用权值求和的方法计算风险值,并为每个访问目标设定等级,确保在相同环境下,紧急级别的访问目标能够优先于普通、重要级别的访问目标访问,从而把医生为患者做初步诊断时可能造成的风险也进行控制,本发明为健康医疗大数据的访问控制研究提供了新的思路。
附图说明
图1为划分医生类别的框架图;
图2为访问医疗记录的风险量化算法示意图;
图3为医疗记录访问控制函数框架图;
图4为呼吸科医生历史访问记录情况及医生分类结果图;
图5为呼吸科不同医生总数量的分类图;
图6为呼吸科50位医生风险值示意图;
图7为医生请求是否被允许访问图;
图8为呼吸科访问请求风险图;
图9为访问请求5次的性能指标对比图;
图10为访问请求10次的性能指标对比图;
图11为访问请求15次的性能指标对比图;
图12为访问请求20次的性能指标对比图;
图13为呼吸科过度访问风险图;
图14为过度访问比例为2%的性能指标对比图;
图15为过度访问比例为4%的性能指标对比图;
图16为过度访问比例为6%的性能指标对比图;
图17为过度访问比例为8%的性能指标对比图;
图18为不同的恶意医生比例下的的风险值和性能指标值结果图。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
如附图1~图18所示本发明包括以下步骤:
S1、历史访问数据预处理:将医生按不同科室划分,依据ICD-10编码给同一科室每一医生在一段时间内访问的历史医疗记录编码;若某医生的历史访问记录中的编码在该科室对应的疾病编码中,则用“1”标注,若某医生的历史访问记录中的编码不在该科室对应的疾病编码中,则用“0”标注,然后将同一科室所有医生的标注转换成一个布尔矩阵,矩阵中不同的列表示医生访问的历史记录,行表示同一科室单个医生的访问历史医疗记录集合;
S2、构建医生矩阵:
医生的相似矩阵由医生之间的历史访问记录的相似度构成,设sij为第i个医生和第j个医生之间的相似度,则医生相似矩阵S表示为:
Figure BDA0002784839010000061
其中相似度sij通过距离度量函数计算得到;
医生的邻接矩阵是以医生的相似矩阵为基础,通过全连接法构建得到,全连接法通过高斯核函数定义边权重,然后将医生邻接矩阵A表示为:
Figure BDA0002784839010000071
使用全连接法构建的医生邻接矩阵A中,所有的点(医生)之间权重值都大于0;
医生的拉普拉斯矩阵定义为:
L=D-A,
其中,A表示医生的邻接矩阵,D表示医生的度矩阵,且医生的度矩阵D每行的值为医生相似矩阵S每行值得和,即
Figure BDA0002784839010000072
矩阵形式为:
Figure BDA0002784839010000073
拉普拉斯矩阵的性质:
(1)度矩阵和邻接矩阵都为对称矩阵,故拉普拉斯矩阵也为对称阵;
(2)拉普拉斯矩阵是对称矩阵,则它的所有的特征值都是实数;
(3)对于任意的向量f,有:
Figure BDA0002784839010000074
(4)拉普拉斯矩阵是半正定矩阵,且对应的n个实数特征值都大于等于0,即0=λ1≤λ2≤…≤λn,且最小的特征值为0;
S3:医生图的切割:采用谱聚类算法,把每个医生的历史访问记录作为图中的一个点,把医生历史访问记录间的相似度作为图中的边,如此构成的图为医生图,令V表示医生历史访问记录的集合,E表示医生间相似度的集合,即医生图G=(V,E),其中V是数据集里面所有的点,记为(d1,d2,…,dn);把同科室全部医生的历史访问记录作为图的顶点集合,把医生历史访问记录之间的相似度作为图的权值边集合;记医生图G=(V,E)被切成相互没有连接的k个医生子图,每个医生子图点的集合记为:G1,G2…,Gk,满足
Figure BDA0002784839010000075
且G1∪G2∪…∪Gk=V;医生图按Ncut法进行切割,得到每个医生近似的指示向量,公式如下:
Figure BDA0002784839010000076
其中,D-1/2LD-1/2是对医生的拉普拉斯矩阵L进行了标准化,F是D-1/2LD-1/2的最小k个特征值所各自对应的特征向量组成的标准化矩阵,即特征矩阵,I为单位阵,Y为
Figure BDA0002784839010000081
列拼接成的矩阵;通过本发明的切割方法将医生图切割最优解问题转化为优化问题求得近似解;
再对指示向量进行k均值聚类,得到医生标签,即把同一科室医生聚类成诚实医生和恶意医生两种类型;
S4、访问医疗记录的风险量化与医疗记录访问控制:首先把诚实医生或恶意医生的访问目标和请求访问记录根据ICD-10编码进行标签,然后利用信息熵计算两种类型医生的风险值;设定访问控制周期性的计算风险阈值Φ(t),该阈值Φ(t)是由t段时间内,所有医生的平均风险值所决定,即:
Figure BDA0002784839010000082
其中,C(t)表示在t段时间内所有请求访问的医生的数量;
令Φdi=risk(di,tj)-Φ(t),即风险访问控制函数为:
Figure BDA0002784839010000083
其中,结果为1表示拒绝访问,0表示允许访问。
访问控制具体算法如下:
Figure BDA0002784839010000084
Figure BDA0002784839010000091
ICD-10是国际疾病分类(International Classification of Diseases,ICD)的第10次修订本。ICD-10将一个疾病或一组疾病表示成字母和数字形式实现数据存储、检索、分析和利用。ICD-10主要包括ICD-10编码、手术码、疾病名称、拼音码,并且支持疾病、类别的双向查询,拼音与汉字模糊查询等。
Ncut(Normalized Cut)切割法公式推导过程如下:
对每个切图,NCut方法不仅考虑mincut(G1,G2,…,Gk),同时还考虑医生子图中医生权重(即相似度),因为医生子图中医生数目多不代表权重就大(即相似性高),因此切图时基于权重更符合目标;NCut目标函数定义为:
Figure BDA0002784839010000092
其中vol(Gi)表示医生子图Gi的权重;
接着优化NCut函数,首先引入指示向量(Indicator vector)yj∈{y1,y1,…,yk}j=1,2,...,k,对于任意一个向量yj,它是一个n维向量(n为医生个数),令:
Figure BDA0002784839010000101
可以得到:
Figure BDA0002784839010000102
令Y为
Figure BDA0002784839010000103
列拼接成的矩阵,则有:
(1)
Figure BDA0002784839010000104
(2)YTDY=I;
所以,
Figure BDA0002784839010000105
故,优化目标转化为:
Figure BDA0002784839010000106
此时,Y中的指示向量y并不是标准正交基,因此不能直接进行降维,需要将指示向量矩阵Y进行转化;
令Y=D-1/2F,则
YTLY=FTD-1/2LD-1/2F,
约束条件的取值范围松弛为实数范围:
YTDY=FTF=I,
故,优化目标最终转化为:
Figure BDA0002784839010000107
其中,D-1/2LD-1/2是对医生的拉普拉斯矩阵L进行了标准化,F是D-1/2LD-1/2的最小k个特征值所各自对应的特征向量组成的标准化矩阵,即特征矩阵,I为单位阵,Y为
Figure BDA0002784839010000108
列拼接成的矩阵。
优选地,S1步骤在得到布尔矩阵后,将同一科室不同医生的相同历史访问记录进行合并,得到去除重复历史访问记录的矩阵。
优选地,S2步骤距离度量函数的公式为:
Figure BDA0002784839010000111
其中,X为集合{x1,x2,…,xn},Y为集合{y1,y2,…,yn},X、Y分别代表不同的医生,xi代表医生X的第i次访问记录,yi代表医生Y的第i次访问记录。
优选地,S2步骤高斯核函数的公式为:
Figure BDA0002784839010000112
其中,si和sj为医生相似矩阵S的第i行和第j行。
优选地,S4步骤风险值的计算过程具体是先记医生的一次访问行为信息为三元组<di,ti,mi>,其中di∈D,D表示医生集合;tj∈Ti,Ti是医生di在过去一段时间内访问请求中的一组访问目的;
Figure BDA0002784839010000116
M表示医疗记录的集合;在对医生di的访问行为进行分析时,对于每个目的tj∈Ti,令S(di,tj)为过去期间di为目的tj请求记录的标签序列,其中医生di在S3步骤已确定医生类型;在患者医疗记录中,根据访问医疗记录的标签进行设定,用lk表示其中某一类数据的标签且lk∈L,L表示所有的医疗记录标签的分类,用fdi(lk,tj)表示访问目的为tj并且医疗记录标签为lk的医疗记录出现的次数,通过该次数计算出诚实医生或恶意医生因该工作目的tj访问医疗记录标签lk的概率p(lk|tjdi),即:
Figure BDA0002784839010000113
lb表示在该访问目标下所有的医疗记录标签,根据信息熵公式,得出医生di在访问目的下得到的信息量为以下公式所示:
Figure BDA0002784839010000114
按上述相同的方法,在历史访问医疗记录中,得到相同访问目的tj的所有医生dall的访问记录,并得到dall的平均信息量,公式为:
Figure BDA0002784839010000115
其中,Hall(tj)表示dall信息量的总和,C(dall)表示医疗系统中医生的数量,通过比较di和dall的信息量,得到在相同访问目标tj之下的差值,即在该访问目标tj下选择医疗记录造成的风险值,公式为:
Figure BDA0002784839010000121
然后,周期性的对医生的所有访问目的进行求和,根据以下公式计算出该医生的风险值:
Figure BDA0002784839010000122
优选地,S3与S4步骤之间还包括访问工作目标的风险量化与工作目标访问控制步骤,具体是设医生工作目标分别为workObjective1、workObjective2、…、workObjectiven,对每个工作目标划分风险等级,风险等级是从0级到9级,即对于i∈N+且i∈[1,n],workObjective1∈[0,9],其权值为weight1、weight2、…、weightn,则当前医生访问工作目标的风险值riskValuewo的计算公式为:
Figure BDA0002784839010000123
其中,
Figure BDA0002784839010000124
设普通级别的工作目标风险权值为w1i,其中l∈N+且i∈[1,n],n表示医生给同一患者诊断过程中需访问工作目标的个数;重要级别的工作目标风险权值为w2j,其中j∈N+且j∈[1,n];紧急级别的工作目标风险权值为w3k,其中k∈N+且k∈[1,n],风险值的计算约束条件定义为:
Figure BDA0002784839010000127
其中m∈{1,2,3},表示工作目标重要性级别{普通,重要,紧急},并且
Figure BDA0002784839010000128
即所有重要级别的工作目标的权值大于普通工作目标的最大权值,所有紧急级别的工作目标的权值小于普通级别的工作目标的权值;对于所有的权值wmi∈[0,1],有和关系不等式成立,相同环境下,紧急、普通、重要等级的工作目标的风险值的关系递增,即:
Figure BDA0002784839010000125
Figure BDA0002784839010000126
令访问工作目标的风险阈值
Figure BDA0002784839010000131
Figure BDA0002784839010000132
其中,
Figure BDA0002784839010000133
是t时间内医生访问工作目标的平均风险值,则工作目标的风险访问控制函数为:
Figure BDA0002784839010000134
其中,结果为1表示拒绝访问,0表示允许访问;
工作目标访问控制是使用工作目标访问控制函数判断该阶段医生允许或拒绝访问,具体是:
若医生访问工作目标的风险值riskValuewo大于风险阈值且工作目标等级为紧急,则允许访问,但在下一周期分配访问配额时,该医生的访问配额会减少;若医生访问工作目标的风险值riskValuewo大于风险阈值,但工作目标等级为普通或重要,则拒绝访问;若医生访问工作目标的风险值riskValuewo小于等于风险阈值,此时不需要考虑工作目标等级,允许访问。
医疗大数据访问控制装置,包括:
历史访问数据预处理模块,用于将医生按不同科室划分,依据ICD-10编码给同一科室每一医生在一段时间内访问的历史医疗记录编码;若某医生的历史访问记录中的编码在该科室对应的疾病编码中,则用“1”标注,若某医生的历史访问记录中的编码不在该科室对应的疾病编码中,则用“0”标注,然后将同一科室所有医生的标注转换成一个布尔矩阵,矩阵中不同的列表示医生访问的历史记录,行表示同一科室单个医生的访问历史医疗记录集合;
医生矩阵构建模块,医生的相似矩阵由医生之间的历史访问记录的相似度构成,设sij为第i个医生和第j个医生之间的相似度,则医生相似矩阵S表示为:
Figure BDA0002784839010000135
其中相似度sij通过距离度量函数计算得到;
医生的邻接矩阵是以医生的相似矩阵为基础,通过全连接法构建得到,全连接法通过高斯核函数定义边权重,然后将医生邻接矩阵A表示为:
Figure BDA0002784839010000141
医生的拉普拉斯矩阵定义为:
L=D-A,
其中,A表示医生的邻接矩阵,D表示医生的度矩阵,且医生的度矩阵D每行的值为医生相似矩阵S每行值得和,即
Figure BDA0002784839010000142
矩阵形式为:
Figure BDA0002784839010000143
医生图切割模块,用于采用谱聚类算法,把每个医生的历史访问记录作为图中的一个点,把医生历史访问记录间的相似度作为图中的边,如此构成的图为医生图,令V表示医生历史访问记录的集合,E表示医生间相似度的集合,即医生图G=(V,E),其中V是数据集里面所有的点,记为(d1,d2,…,dn);把同科室全部医生的历史访问记录作为图的顶点集合,把医生历史访问记录之间的相似度作为图的权值边集合;记医生图G=(V,E)被切成相互没有连接的k个医生子图,每个医生子图点的集合记为:G1,G2…,Gk,满足
Figure BDA0002784839010000146
且G1∪G2∪…∪Gk=V;医生图按Ncut法进行切割,得到每个医生近似的指示向量,公式如下:
Figure BDA0002784839010000144
其中,D-1/2LD-1/2是对医生的拉普拉斯矩阵L进行了标准化,F是D-1/2LD-1/2的最小k个特征值所各自对应的特征向量组成的标准化矩阵,即特征矩阵,I为单位阵,Y为
Figure BDA0002784839010000147
列拼接成的矩阵;
再对指示向量进行k均值聚类,得到医生标签,即把同一科室医生聚类成诚实医生和恶意医生两种类型;
访问医疗记录的风险量化与医疗记录访问控制模块,用于首先把诚实医生或恶意医生的访问目标和请求访问记录根据ICD-10编码进行标签,然后利用信息熵计算两种类型医生的风险值;设定访问控制周期性的计算风险阈值Φ(t),该阈值Φ(t)是由t段时间内,所有医生的平均风险值所决定,即:
Figure BDA0002784839010000145
其中,C(t)表示在t段时间内所有请求访问的医生的数量;
令Φdi=risk(di,tj)-Φ(t),即风险访问控制函数为:
Figure BDA0002784839010000151
其中,结果为1表示拒绝访问,0表示允许访问。
计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令在被执行时实现所述的医疗大数据访问控制方法。
下面结合实施例1~实施例3对本发明作进一步说明。
实施例1
S1、历史访问数据预处理:将医生按不同科室划分,依据ICD-10编码给同一科室每一医生在一段时间内访问的历史医疗记录编码;若某医生的历史访问记录中的编码在该科室对应的疾病编码中,则用“1”标注,若某医生的历史访问记录中的编码不在该科室对应的疾病编码中,则用“0”标注,然后将同一科室所有医生的标注转换成一个布尔矩阵,矩阵中不同的列表示医生访问的历史记录,行表示同一科室单个医生的访问历史医疗记录集合;
S2、构建医生矩阵:
医生的相似矩阵由医生之间的历史访问记录的相似度构成,设sij为第i个医生和第j个医生之间的相似度,则医生相似矩阵S表示为:
Figure BDA0002784839010000152
其中相似度sij通过距离度量函数计算得到;
医生的邻接矩阵是以医生的相似矩阵为基础,通过全连接法构建得到,全连接法通过高斯核函数定义边权重,然后将医生邻接矩阵A表示为:
Figure BDA0002784839010000153
使用全连接法构建的医生邻接矩阵A中,所有的点(医生)之间权重值都大于0;
医生的拉普拉斯矩阵定义为:
L=D-A,
其中,A表示医生的邻接矩阵,D表示医生的度矩阵,且医生的度矩阵D每行的值为医生相似矩阵S每行值得和,即
Figure BDA0002784839010000161
矩阵形式为:
Figure BDA0002784839010000162
拉普拉斯矩阵的性质:
(1)度矩阵和邻接矩阵都为对称矩阵,故拉普拉斯矩阵也为对称阵;
(2)拉普拉斯矩阵是对称矩阵,则它的所有的特征值都是实数;
(3)对于任意的向量f,有:
Figure BDA0002784839010000163
(4)拉普拉斯矩阵是半正定矩阵,且对应的n个实数特征值都大于等于0,即0=λ1≤λ2≤…≤λn,且最小的特征值为0;
S3:医生图的切割:采用谱聚类算法,把每个医生的历史访问记录作为图中的一个点,把医生历史访问记录间的相似度作为图中的边,如此构成的图为医生图,令V表示医生历史访问记录的集合,E表示医生间相似度的集合,即医生图G=(V,E),其中V是数据集里面所有的点,记为(d1,d2,…,dn);把同科室全部医生的历史访问记录作为图的顶点集合,把医生历史访问记录之间的相似度作为图的权值边集合;记医生图G=(V,E)被切成相互没有连接的k个医生子图,每个医生子图点的集合记为:G1,G2…,Gk,满足
Figure BDA0002784839010000166
且G1∪G2∪…∪Gk=V;医生图按Ncut法进行切割,得到每个医生近似的指示向量,公式如下:
Figure BDA0002784839010000164
其中,D-1/2LD-1/2是对医生的拉普拉斯矩阵L进行了标准化,F是D-1/2LD-1/2的最小k个特征值所各自对应的特征向量组成的标准化矩阵,即特征矩阵,I为单位阵,Y为
Figure BDA0002784839010000165
列拼接成的矩阵;通过本发明的切割方法将医生图切割最优解问题转化为优化问题求得近似解;
再对指示向量进行k均值聚类,得到医生标签,即把同一科室医生聚类成诚实医生和恶意医生两种类型;
S4、访问医疗记录的风险量化与医疗记录访问控制:首先把诚实医生或恶意医生的访问目标和请求访问记录根据ICD-10编码进行标签,然后利用信息熵计算两种类型医生的风险值;设定访问控制周期性的计算风险阈值Φ(t),该阈值Φ(t)是由t段时间内,所有医生的平均风险值所决定,即:
Figure BDA0002784839010000171
其中,C(t)表示在t段时间内所有请求访问的医生的数量;
令Φdi=risk(di,tj)-Φ(t),即风险访问控制函数为:
Figure BDA0002784839010000172
其中,结果为1表示拒绝访问,0表示允许访问。
实施例2
S1、历史访问数据预处理:将医生按不同科室划分,依据ICD-10编码给同一科室每一医生在一段时间内访问的历史医疗记录编码;若某医生的历史访问记录中的编码在该科室对应的疾病编码中,则用“1”标注,若某医生的历史访问记录中的编码不在该科室对应的疾病编码中,则用“0”标注,然后将同一科室所有医生的标注转换成一个布尔矩阵,矩阵中不同的列表示医生访问的历史记录,行表示同一科室单个医生的访问历史医疗记录集合;在得到布尔矩阵后,将同一科室不同医生的相同历史访问记录进行合并,得到去除重复历史访问记录的矩阵;
S2、构建医生矩阵:
医生的相似矩阵由医生之间的历史访问记录的相似度构成,设sij为第i个医生和第j个医生之间的相似度,则医生相似矩阵S表示为:
Figure BDA0002784839010000173
其中相似度sij通过距离度量函数计算得到,距离度量函数的公式为:
Figure BDA0002784839010000174
其中,X为集合{x1,x2,…,xn},Y为集合{y1,y2,…,yn},X、Y分别代表不同的医生,xi代表医生X的第i次访问记录,yi代表医生Y的第i次访问记录;
医生的邻接矩阵是以医生的相似矩阵为基础,通过全连接法构建得到,全连接法通过高斯核函数定义边权重,高斯核函数的公式为:
Figure BDA0002784839010000181
其中,si和sj为医生相似矩阵S的第i行和第j行,
然后将医生邻接矩阵A表示为:
Figure BDA0002784839010000182
使用全连接法构建的医生邻接矩阵A中,所有的点(医生)之间权重值都大于0;
医生的拉普拉斯矩阵定义为:
L=D-A,
其中,A表示医生的邻接矩阵,D表示医生的度矩阵,且医生的度矩阵D每行的值为医生相似矩阵S每行值得和,即
Figure BDA0002784839010000185
矩阵形式为:
Figure BDA0002784839010000183
拉普拉斯矩阵的性质:
(1)度矩阵和邻接矩阵都为对称矩阵,故拉普拉斯矩阵也为对称阵;
(2)拉普拉斯矩阵是对称矩阵,则它的所有的特征值都是实数;
(3)对于任意的向量f,有:
Figure BDA0002784839010000184
(4)拉普拉斯矩阵是半正定矩阵,且对应的n个实数特征值都大于等于0,即0=λ1≤λ2≤…≤λn,且最小的特征值为0;
S3:医生图的切割:采用谱聚类算法,把每个医生的历史访问记录作为图中的一个点,把医生历史访问记录间的相似度作为图中的边,如此构成的图为医生图,令V表示医生历史访问记录的集合,E表示医生间相似度的集合,即医生图G=(V,E),其中V是数据集里面所有的点,记为(d1,d2,…,dn);把同科室全部医生的历史访问记录作为图的顶点集合,把医生历史访问记录之间的相似度作为图的权值边集合;记医生图G=(V,E)被切成相互没有连接的k个医生子图,每个医生子图点的集合记为:G1,G2…,Gk,满足
Figure BDA0002784839010000195
且G1∪G2∪…∪Gk=V;医生图按Ncut法进行切割,得到每个医生近似的指示向量,公式如下:
Figure BDA0002784839010000191
其中,D-1/2LD-1/2是对医生的拉普拉斯矩阵L进行了标准化,F是D-1/2LD-1/2的最小k个特征值所各自对应的特征向量组成的标准化矩阵,即特征矩阵,I为单位阵,Y为
Figure BDA0002784839010000194
列拼接成的矩阵;通过本发明的切割方法将医生图切割最优解问题转化为优化问题求得近似解;
再对指示向量进行k均值聚类,得到医生标签,即把同一科室医生聚类成诚实医生和恶意医生两种类型;
S4、访问工作目标的风险量化与工作目标访问控制:设医生工作目标分别为workObjective1、workObjective2、…、workObjectiven,对每个工作目标划分风险等级,风险等级是从0级到9级,即对于i∈N+且i∈[1,n],workObjective1∈[0,9],其权值为weight1、weight2、…、weightn,则当前医生访问工作目标的风险值riskValuewo的计算公式为:
Figure BDA0002784839010000192
其中,
Figure BDA0002784839010000193
设普通级别的工作目标风险权值为w1i,其中i∈N+且i∈[1,n],n表示医生给同一患者诊断过程中需访问工作目标的个数;重要级别的工作目标风险权值为w2j,其中j∈N+且j∈[1,n];紧急级别的工作目标风险权值为w3k,其中k∈N+且k∈[1,n],风险值的计算约束条件定义为:
Figure BDA0002784839010000196
其中m∈{1,2,3},表示工作目标重要性级别{普通,重要,紧急},并且
Figure BDA0002784839010000197
即所有重要级别的工作目标的权值大于普通工作目标的最大权值,所有紧急级别的工作目标的权值小于普通级别的工作目标的权值;对于所有的权值wmi∈[0,1],有和关系不等式成立,相同环境下,紧急、普通、重要等级的工作目标的风险值的关系递增,即:
Figure BDA0002784839010000201
Figure BDA0002784839010000202
令访问工作目标的风险阈值
Figure BDA0002784839010000203
Figure BDA0002784839010000204
其中,
Figure BDA0002784839010000205
是t时间内医生访问工作目标的平均风险值,则工作目标的风险访问控制函数为:
Figure BDA0002784839010000206
其中,结果为1表示拒绝访问,0表示允许访问;
工作目标访问控制是使用工作目标访问控制函数判断该阶段医生允许或拒绝访问,具体是:
若医生访问工作目标的风险值riskValuewo大于风险阈值且工作目标等级为紧急,则允许访问,但在下一周期分配访问配额时,该医生的访问配额会减少;若医生访问工作目标的风险值riskValuewo大于风险阈值,但工作目标等级为普通或重要,则拒绝访问;若医生访问工作目标的风险值riskValuewo小于等于风险阈值,则允许访问;
S5、访问医疗记录的风险量化与医疗记录访问控制:首先把诚实医生或恶意医生的访问目标和请求访问记录根据ICD-10编码进行标签,然后利用信息熵计算两种类型医生的风险值;风险值的计算过程具体是先记医生的一次访问行为信息为三元组<di,ti,mi>,其中di∈D,D表示医生集合;tj∈Ti,Ti是医生di在过去一段时间内访问请求中的一组访问目的;
Figure BDA0002784839010000208
Figure BDA0002784839010000209
M表示医疗记录的集合;在对医生di的访问行为进行分析时,对于每个目的tj∈Ti,令S(di,tj)为过去期间di为目的tj请求记录的标签序列,其中医生di在S3步骤已确定医生类型;在患者医疗记录中,根据访问医疗记录的标签进行设定,用lk表示其中某一类数据的标签且lk∈L,L表示所有的医疗记录标签的分类,用fdi(lk,tj)表示访问目的为tj并且医疗记录标签为lk的医疗记录出现的次数,通过该次数计算出诚实医生或恶意医生因该工作目的tj访问医疗记录标签lk的概率p(lk|tjdi),即:
Figure BDA0002784839010000207
lb表示在该访问目标下所有的医疗记录标签,根据信息熵公式,得出医生di在访问目的下得到的信息量为以下公式所示:
Figure BDA0002784839010000211
按上述相同的方法,在历史访问医疗记录中,得到相同访问目的tj的所有医生dall的访问记录,并得到dall的平均信息量,公式为:
Figure BDA0002784839010000212
其中,Hall(tj)表示dall信息量的总和,C(dall)表示医疗系统中医生的数量,通过比较di和dall的信息量,得到在相同访问目标tj之下的差值,即在该访问目标tj下选择医疗记录造成的风险值,公式为:
Figure BDA0002784839010000213
然后,周期性的对医生的所有访问目的进行求和,根据以下公式计算出该医生的风险值:
Figure BDA0002784839010000214
设定访问控制周期性的计算风险阈值Φ(t),该阈值Φ(t)是由t段时间内,所有医生的平均风险值所决定,即:
Figure BDA0002784839010000215
其中,C(t)表示在t段时间内所有请求访问的医生的数量;
令Φdi=risk(di,tj)-Φ(t),即风险访问控制函数为:
Figure BDA0002784839010000216
其中,结果为1表示拒绝访问,0表示允许访问。
实施例3:模拟测试实验
从某医院获得实验数据,数据类型有文本数据、图像数据及影像数据等。根据本发明方法实验测试的需求,只从数据中抽取部分数据用于实验;
实验设置:按本发明的方法把医生分为两类,然后模拟两类医生的访问请求,计算并比较两类医生的平均风险值,观察诚实医生的风险值是否远低于恶意医生的风险值;
在模拟实验中,我们把同科室的医生根据他们的历史访问记录划分为诚实医生和恶意医生,把没有访问历史记录的医生设置为诚实医生,并使用Z、
Figure BDA0002784839010000223
zi表示ICD-10疾病编码的层次结构,其中Z表示ICD-10所用主要类别的集合;
Figure BDA0002784839010000224
Figure BDA0002784839010000225
都表示ICD-10的主要类别,他们之间的关系为
Figure BDA0002784839010000226
Figure BDA0002784839010000227
zi表示ICD-10的子类别,有
Figure BDA0002784839010000228
在该实验中,我们用
Figure BDA0002784839010000229
标识医生科室,使用zi标识历史访问记录。我们假设恶意医生随机选择请求访问记录的概率为α1,诚实医生随机选择请求访问记录的概率为1-α1,其中参数α1是过分访问概率;
实验选取了呼吸科的医生,首先对医生分类做了仿真实验,目的是把同科室的医生分为两类,接着计算了诚实医生和恶意医生的平均风险值,如果本发明方法有效,两类医生的平均风险值应该差别较大,这样本发明方法才能够很好地决定医生的请求访问记录是否被允许;
本实验是对同一科室医生进行分类,首先把呼吸科的医生进行分类,然后计算每个医生的风险值;表1为呼吸科50位医生在一段时间内的历史访问记录;
表1呼吸科50位医生的历史访问记录
Figure BDA0002784839010000221
之后,把该记录转化成布尔矩阵:
Figure BDA0002784839010000222
然后把矩阵A作为谱聚类算法的输入,构建医生的相似矩阵、邻接矩阵、拉普拉斯矩阵以及度矩阵,度矩阵D为:
Figure BDA0002784839010000231
采用谱聚类算法,构建医生图,然后按Ncut法对医生图切割,求解拉普拉斯矩阵最小的2个特征值对应的特征向量EV,
Figure BDA0002784839010000232
Figure BDA0002784839010000233
特征向量EV即为指示向量,使用指示向量构成样本点的新特征,再利用K-means算法(k均值聚类算法)对新数据特征空间中的点进行聚类,得到医生分类,分类结果见图4。
然后对上述医生分类结果的准确性进行验证,在呼吸科使用不同医生总数量进行测试,医生总数量分别为10、20、30、40、50,结果见图5,由图5可知,在同一科室内即使分类医生数量不同谱聚类算法也能准确的把医生分为诚实医生和恶意医生。
访问医疗记录的风险量化与医疗记录访问控制实验:由医生分类实验可知呼吸科50位医生中有45位医生为诚实医生,5位医生为恶意医生;根据医生分类,计算出50位医生的风险值,具体风险值见表2、图6所示;
表2呼吸科50位医生具体风险值
Figure BDA0002784839010000234
从图6观察发现恶意医生的风险值比诚实医生的风险值至少高出2倍,因此可以很清楚的区分诚实医生和恶意医生。
得到医生的风险值,进一步计算出风险阈值Φ(t),之后由访问控制函数决定医生的请求是否被允许;图7为医生请求是否被允许访问图;
根据访问控制函数,
Figure BDA0002784839010000242
表示拒绝访问,
Figure BDA0002784839010000241
表示允许访问。观察图7,
Figure BDA0002784839010000243
为负值的45位诚实医生的请求获得允许,
Figure BDA0002784839010000244
为正值的5位恶意医生的请求被拒绝。
测试实验的结果分析:
(1)不同记录请求数目的实验结果
本次实验目的是在不同的记录请求数目下,评估本发明方法的性能;首先呼吸科有50名医生,根据医生分类得到呼吸科的50名医生中4个恶意医生,46名诚实医生;过度访问的比例设定为10%;实验结果如图8所示;
由图8可知,诚实医生的平均风险值与恶意医生的平均风险值相差1.6至2.2倍,由此可以说明本发明方法是有效的;并且从图8中可以看出,诚实医生随着访问请求次数的增加风险值下降且趋于稳定;
之后,我们选取800医生(不分科室),其中80名医生为恶意医生,其他医生为诚实医生,过度访问的比例仍设定为10%,再次对本发明方法进行了评估,结果如图9~图12所示;
由图9~图12可知,在该实验中,风险值最高的前10名医生中,恶意医生所占比例为100%,并且在风险值最高的前50名医生中,本发明方法的准确率也达到了80%以上;从召回率分析得到,随着访问数目的增加,风险值最高的前50名医生中至少有82%为恶意医生;另外,本发明方法的总体性能F1值也是随着访问数目的增加而提升,因为数据越多算法越能准确学习医生的访问行为,使本发明方法更好的进行医生分类及计算医生风险值。
(2)不同过度访问比例的实验结果
本次实验目的是在不同的过度访问比例下,评估本发明方法的性能;首先呼吸科有50名医生,根据医生分类得到呼吸科的50名医生中4个恶意医生,46名诚实医生;请求访问记录的数目设定为20;实验结果如图13所示。
由图13可知,诚实医生的平均风险值与恶意医生的平均风险值相差1.3至3.34倍,该实验证明本发明方法是有效的。
之后,我们选取800医生(不分科室)对本发明方法进行测试,其中80名医生为恶意医生,其他医生为诚实医生,请求访问记录的数目仍然设定为20,再次对本发明方法进行了评估,结果如图14~图17所示。
从图14~图17对比中分析得到,在恶意医生的过度访问比例为6%时,本发明方法已经呈现很好的效果,当过度访问比例为6%或高于6%,且恶意医生数量比例为50的情况下,本发明方法的准确率达到95%,召回率达到80%。对比图16、图17可以发现,3种性能指标值几乎没有变化,说明在恶意医生的过度访问比例为6%时,本发明方法的性能趋于稳定。从图14~图17整体分析,本发明方法的性能随着恶意医生过度访问比例的增加而不断改善。
(3)不同的恶意医生数量的实验结果
在本次实验中,通过不同的恶意医生数量测试本发明方法的性能,选取800名医生(不分科室)测试本发明方法,并设定医生访问不相关医疗数据的概率为0.05,每位医生访问请求的数目为10。由于在该实验中,只是基于恶意医生不同数量的比较,故实验中计算的准确率、召回率、F1值在一定比例下是相同的。实验结果如图18所示:
如图18所示,恶意医生的风险值是诚实医生的2.3至2.7倍,说明本发明方法可以有效的区分诚实医生和恶意医生。从图可以看到,3个性能指标的值呈现上升趋势,表明本发明方法的性能在恶意医生所占比例增加的情况下也在提升。

Claims (8)

1.一种医疗大数据访问控制方法,其特征在于包括以下步骤:
S1、历史访问数据预处理:将医生按不同科室划分,依据ICD-10编码给同一科室每一医生在一段时间内访问的历史医疗记录编码;若某医生的历史访问记录中的编码在该科室对应的疾病编码中,则用“1”标注,若某医生的历史访问记录中的编码不在该科室对应的疾病编码中,则用“0”标注,然后将同一科室所有医生的标注转换成一个布尔矩阵,矩阵中不同的列表示医生访问的历史记录,行表示同一科室单个医生的访问历史医疗记录集合;
S2、构建医生矩阵:
医生的相似矩阵由医生之间的历史访问记录的相似度构成,设sij为第i个医生和第j个医生之间的相似度,则医生相似矩阵S表示为:
Figure FDA0002784838000000011
其中相似度sij通过距离度量函数计算得到;
医生的邻接矩阵是以医生的相似矩阵为基础,通过全连接法构建得到,全连接法通过高斯核函数定义边权重,然后将医生邻接矩阵A表示为:
Figure FDA0002784838000000012
医生的拉普拉斯矩阵定义为:
L=D-A,
其中,A表示医生的邻接矩阵,D表示医生的度矩阵,且医生的度矩阵D每行的值为医生相似矩阵S每行值得和,即
Figure FDA0002784838000000013
矩阵形式为:
Figure FDA0002784838000000014
S3:医生图的切割:采用谱聚类算法,把每个医生的历史访问记录作为图中的一个点,把医生历史访问记录间的相似度作为图中的边,如此构成的图为医生图,令V表示医生历史访问记录的集合,E表示医生间相似度的集合,即医生图G=(V,E),其中V是数据集里面所有的点,记为(d1,d2,…,dn);把同科室全部医生的历史访问记录作为图的顶点集合,把医生历史访问记录之间的相似度作为图的权值边集合;记医生图G=(V,E)被切成相互没有连接的k个医生子图,每个医生子图点的集合记为:G1,G2…,Gk,满足
Figure FDA0002784838000000026
且G1∪G2∪…∪Gk=V;医生图按Ncut法进行切割,得到每个医生近似的指示向量,公式如下:
Figure FDA0002784838000000021
其中,D-1/2LD-1/2是对医生的拉普拉斯矩阵L进行了标准化,F是D-1/2LD-1/2的最小k个特征值所各自对应的特征向量组成的标准化矩阵,即特征矩阵,I为单位阵,Y为
Figure FDA0002784838000000022
列拼接成的矩阵;
再对指示向量进行k均值聚类,得到医生标签,即把同一科室医生聚类成诚实医生和恶意医生两种类型;
S4、访问医疗记录的风险量化与医疗记录访问控制:首先把诚实医生或恶意医生的访问目标和请求访问记录根据ICD-10编码进行标签,然后利用信息熵计算两种类型医生的风险值;设定访问控制周期性的计算风险阈值Φ(t),该阈值Φ(t)是由t段时间内,所有医生的平均风险值所决定,即:
Figure FDA0002784838000000023
其中,C(t)表示在t段时间内所有请求访问的医生的数量;
令Φdi=risk(di,tj)-Φ(t),即风险访问控制函数为:
Figure FDA0002784838000000024
其中,结果为1表示拒绝访问,0表示允许访问。
2.根据权利要求1所述医疗大数据访问控制方法,其特征在于S1步骤在得到布尔矩阵后,将同一科室不同医生的相同历史访问记录进行合并,得到去除重复历史访问记录的矩阵。
3.根据权利要求1所述医疗大数据访问控制方法,其特征在于S2步骤距离度量函数的公式为:
Figure FDA0002784838000000025
其中,X为集合{x1,x2,…,xn},Y为集合{y1,y2,…,yn},X、Y分别代表不同的医生,xi代表医生X的第i次访问记录,yi代表医生Y的第i次访问记录。
4.根据权利要求1所述医疗大数据访问控制方法,其特征在于S2步骤高斯核函数的公式为:
Figure FDA0002784838000000031
其中,si和sj为医生相似矩阵S的第i行和第j行。
5.根据权利要求1所述医疗大数据访问控制方法,其特征在于S4步骤风险值的计算过程具体是先记医生的一次访问行为信息为三元组<di,ti,mi>,其中di∈D,D表示医生集合;tj∈Ti,Ti是医生di在过去一段时间内访问请求中的一组访问目的;
Figure FDA0002784838000000036
M表示医疗记录的集合;在对医生di的访问行为进行分析时,对于每个目的tj∈Ti,令S(di,tj)为过去期间di为目的tj请求记录的标签序列,其中医生di在S3步骤已确定医生类型;在患者医疗记录中,根据访问医疗记录的标签进行设定,用lk表示其中某一类数据的标签且lk∈L,L表示所有的医疗记录标签的分类,用fdi(lk,tj)表示访问目的为tj并且医疗记录标签为lk的医疗记录出现的次数,通过该次数计算出诚实医生或恶意医生因该工作目的tj访问医疗记录标签lk的概率p(lk|tjdi),即:
Figure FDA0002784838000000032
lb表示在该访问目标下所有的医疗记录标签,根据信息熵公式,得出医生di在访问目的下得到的信息量为以下公式所示:
Figure FDA0002784838000000033
按上述相同的方法,在历史访问医疗记录中,得到相同访问目的tj的所有医生dall的访问记录,并得到dall的平均信息量,公式为:
Figure FDA0002784838000000034
其中,Hall(tj)表示dall信息量的总和,C(dall)表示医疗系统中医生的数量,通过比较di和dall的信息量,得到在相同访问目标tj之下的差值,即在该访问目标tj下选择医疗记录造成的风险值,公式为:
Figure FDA0002784838000000035
然后,周期性的对医生的所有访问目的进行求和,根据以下公式计算出该医生的风险值:
Figure FDA0002784838000000041
6.根据权利要求1所述医疗大数据访问控制方法,其特征在于S3与S4步骤之间还包括访问工作目标的风险量化与工作目标访问控制步骤,具体是设医生工作目标分别为workObjective1、workObjective2、…、workObjectiven,对每个工作目标划分风险等级,风险等级是从0级到9级,即对于i∈N+且i∈[1,n],workObjective1∈[0,9],其权值为weight1、weight2、…、weightn,则当前医生访问工作目标的风险值riskValuewo的计算公式为:
Figure FDA0002784838000000042
其中,
Figure FDA0002784838000000043
设普通级别的工作目标风险权值为w1i,其中i∈N+且i∈[1,n],n表示医生给同一患者诊断过程中需访问工作目标的个数;重要级别的工作目标风险权值为w2j,其中j∈N+且j∈[1,n];紧急级别的工作目标风险权值为w3k,其中k∈N+且k∈[1,n],风险值的计算约束条件定义为:
Figure FDA0002784838000000044
其中m∈{1,2,3},表示工作目标重要性级别{普通,重要,紧急},并且
Figure FDA0002784838000000045
即所有重要级别的工作目标的权值大于普通工作目标的最大权值,所有紧急级别的工作目标的权值小于普通级别的工作目标的权值;对于所有的权值wmi∈[0,1],有和关系不等式成立,相同环境下,紧急、普通、重要等级的工作目标的风险值的关系递增,即:
Figure FDA0002784838000000046
Figure FDA0002784838000000047
令访问工作目标的风险阈值
Figure FDA0002784838000000048
Figure FDA0002784838000000049
其中,
Figure FDA00027848380000000410
是t时间内医生访问工作目标的平均风险值,则工作目标的风险访问控制函数为:
Figure FDA0002784838000000051
其中,结果为1表示拒绝访问,0表示允许访问;
工作目标访问控制是使用工作目标访问控制函数判断该阶段医生允许或拒绝访问,具体是:
若医生访问工作目标的风险值riskValuewo大于风险阈值且工作目标等级为紧急,则允许访问,但在下一周期分配访问配额时,该医生的访问配额会减少;若医生访问工作目标的风险值riskValuewo大于风险阈值,但工作目标等级为普通或重要,则拒绝访问;若医生访问工作目标的风险值riskValuewo小于等于风险阈值,则允许访问。
7.一种医疗大数据访问控制装置,其特征在于包括:
历史访问数据预处理模块,用于将医生按不同科室划分,依据ICD-10编码给同一科室每一医生在一段时间内访问的历史医疗记录编码;若某医生的历史访问记录中的编码在该科室对应的疾病编码中,则用“1”标注,若某医生的历史访问记录中的编码不在该科室对应的疾病编码中,则用“0”标注,然后将同一科室所有医生的标注转换成一个布尔矩阵,矩阵中不同的列表示医生访问的历史记录,行表示同一科室单个医生的访问历史医疗记录集合;
医生矩阵构建模块,医生的相似矩阵由医生之间的历史访问记录的相似度构成,设sij为第i个医生和第j个医生之间的相似度,则医生相似矩阵S表示为:
Figure FDA0002784838000000052
其中相似度sij通过距离度量函数计算得到;
医生的邻接矩阵是以医生的相似矩阵为基础,通过全连接法构建得到,全连接法通过高斯核函数定义边权重,然后将医生邻接矩阵A表示为:
Figure FDA0002784838000000053
医生的拉普拉斯矩阵定义为:
L=D-A,
其中,A表示医生的邻接矩阵,D表示医生的度矩阵,且医生的度矩阵D每行的值为医生相似矩阵S每行值得和,即
Figure FDA0002784838000000054
矩阵形式为:
Figure FDA0002784838000000061
医生图切割模块,用于采用谱聚类算法,把每个医生的历史访问记录作为图中的一个点,把医生历史访问记录间的相似度作为图中的边,如此构成的图为医生图,令V表示医生历史访问记录的集合,E表示医生间相似度的集合,即医生图G=(V,E),其中V是数据集里面所有的点,记为(d1,d2,…,dn);把同科室全部医生的历史访问记录作为图的顶点集合,把医生历史访问记录之间的相似度作为图的权值边集合;记医生图G=(V,E)被切成相互没有连接的k个医生子图,每个医生子图点的集合记为:G1,G2…,Gk,满足
Figure FDA0002784838000000066
且G1∪G2∪…∪Gk=V;医生图按Ncut法进行切割,得到每个医生近似的指示向量,公式如下:
Figure FDA0002784838000000062
其中,D-1/2LD-1/2是对医生的拉普拉斯矩阵L进行了标准化,F是D-1/2LD-1/2的最小k个特征值所各自对应的特征向量组成的标准化矩阵,即特征矩阵,I为单位阵,Y为
Figure FDA0002784838000000063
列拼接成的矩阵;
再对指示向量进行k均值聚类,得到医生标签,即把同一科室医生聚类成诚实医生和恶意医生两种类型;
访问医疗记录的风险量化与医疗记录访问控制模块,用于首先把诚实医生或恶意医生的访问目标和请求访问记录根据ICD-10编码进行标签,然后利用信息熵计算两种类型医生的风险值;设定访问控制周期性的计算风险阈值Φ(t),该阈值Φ(t)是由t段时间内,所有医生的平均风险值所决定,即:
Figure FDA0002784838000000064
其中,C(t)表示在t段时间内所有请求访问的医生的数量;
令Φdi=risk(di,tj)-Φ(t),即风险访问控制函数为:
Figure FDA0002784838000000065
其中,结果为1表示拒绝访问,0表示允许访问。
8.一种计算机可读存储介质,其上存储有计算机可读指令,其特征在于所述计算机可读指令在被执行时实现权利要求1~6中任一项所述的方法。
CN202011294097.3A 2020-11-18 2020-11-18 医疗大数据访问控制方法、装置及计算机可读存储介质 Active CN112259210B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011294097.3A CN112259210B (zh) 2020-11-18 2020-11-18 医疗大数据访问控制方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011294097.3A CN112259210B (zh) 2020-11-18 2020-11-18 医疗大数据访问控制方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112259210A true CN112259210A (zh) 2021-01-22
CN112259210B CN112259210B (zh) 2021-05-11

Family

ID=74266164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011294097.3A Active CN112259210B (zh) 2020-11-18 2020-11-18 医疗大数据访问控制方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112259210B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113205871A (zh) * 2021-02-10 2021-08-03 云南财经大学 基于模糊信任预测和回归分析的医疗数据访问控制模型
CN113255006A (zh) * 2021-06-16 2021-08-13 云南财经大学 一种基于演化博弈的医疗大数据访问控制方法
CN114861224A (zh) * 2022-05-11 2022-08-05 云南财经大学 基于风险和ucon访问控制模型的医疗数据系统
CN117745080A (zh) * 2024-02-19 2024-03-22 北京北科融智云计算科技有限公司 基于多因素认证的数据访问控制和安全监管方法和系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8650623B2 (en) * 2007-01-17 2014-02-11 International Business Machines Corporation Risk adaptive information flow based access control
CN109190661A (zh) * 2018-07-26 2019-01-11 安徽师范大学 一种基于差分隐私保护的谱聚类方法
CN110175697A (zh) * 2019-04-25 2019-08-27 胡盛寿 一种不良事件风险预测系统及方法
CN110321721A (zh) * 2019-07-02 2019-10-11 石家庄铁道大学 基于区块链的电子病历访问控制方法
CN110706092A (zh) * 2019-09-23 2020-01-17 深圳中兴飞贷金融科技有限公司 风险用户识别方法和装置,存储介质及电子设备
CN111353172A (zh) * 2020-03-02 2020-06-30 山东工商学院 基于区块链的Hadoop集群大数据访问方法及系统
CN111711614A (zh) * 2020-05-27 2020-09-25 平安科技(深圳)有限公司 基于知识图谱的可疑用户验证方法、装置及计算机设备
CN111737750A (zh) * 2020-06-30 2020-10-02 绿盟科技集团股份有限公司 一种数据处理方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8650623B2 (en) * 2007-01-17 2014-02-11 International Business Machines Corporation Risk adaptive information flow based access control
CN109190661A (zh) * 2018-07-26 2019-01-11 安徽师范大学 一种基于差分隐私保护的谱聚类方法
CN110175697A (zh) * 2019-04-25 2019-08-27 胡盛寿 一种不良事件风险预测系统及方法
CN110321721A (zh) * 2019-07-02 2019-10-11 石家庄铁道大学 基于区块链的电子病历访问控制方法
CN110706092A (zh) * 2019-09-23 2020-01-17 深圳中兴飞贷金融科技有限公司 风险用户识别方法和装置,存储介质及电子设备
CN111353172A (zh) * 2020-03-02 2020-06-30 山东工商学院 基于区块链的Hadoop集群大数据访问方法及系统
CN111711614A (zh) * 2020-05-27 2020-09-25 平安科技(深圳)有限公司 基于知识图谱的可疑用户验证方法、装置及计算机设备
CN111737750A (zh) * 2020-06-30 2020-10-02 绿盟科技集团股份有限公司 一种数据处理方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PAU-CHEN CHENG等: "Fuzzy Multi-Level Security: An Experiment on Quantified Risk-Adaptive Access Control", 《2007 IEEE SYMPOSIUM ON SECURITY AND PRIVACY (SP "07)》 *
惠榛等: "面向医疗大数据的风险自适应的访问控制模型", 《通信学报》 *
施明月: "基于风险访问控制的医疗大数据安全与隐私保护模型研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113205871A (zh) * 2021-02-10 2021-08-03 云南财经大学 基于模糊信任预测和回归分析的医疗数据访问控制模型
CN113255006A (zh) * 2021-06-16 2021-08-13 云南财经大学 一种基于演化博弈的医疗大数据访问控制方法
CN114861224A (zh) * 2022-05-11 2022-08-05 云南财经大学 基于风险和ucon访问控制模型的医疗数据系统
CN117745080A (zh) * 2024-02-19 2024-03-22 北京北科融智云计算科技有限公司 基于多因素认证的数据访问控制和安全监管方法和系统
CN117745080B (zh) * 2024-02-19 2024-04-26 北京北科融智云计算科技有限公司 基于多因素认证的数据访问控制和安全监管方法和系统

Also Published As

Publication number Publication date
CN112259210B (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN112259210B (zh) 医疗大数据访问控制方法、装置及计算机可读存储介质
Ward Jr et al. Application of an hierarchical grouping procedure to a problem of grouping profiles
Hadorn et al. Cross‐validation performance of mortality prediction models
Templ et al. Introduction to statistical disclosure control (sdc)
JP2019507444A (ja) 測定データおよびテキストからオントロジーベースの動的学習および知識統合を行う方法およびシステム
JP2000339351A (ja) 選択的に関連させられたデータベースレコードの識別のためのシステム
Benitez et al. Beyond safe harbor: automatic discovery of health information de-identification policy alternatives
CN112989621A (zh) 一种模型性能评价方法、装置、设备及存储介质
CN115050442B (zh) 基于挖掘聚类算法的病种数据上报方法、装置及存储介质
CN111696656B (zh) 一种互联网医疗平台的医生评价方法、装置
Qudsi et al. Predictive data mining of chronic diseases using decision tree: A case study of health insurance company in Indonesia
Bauder et al. Evaluating model predictive performance: A medicare fraud detection case study
Finch et al. Classification accuracy of neural networks vs. discriminant analysis, logistic regression, and classification and regression trees
Roy et al. Determinants of corporate environmental disclosure from an Asian perspective
CN115146890A (zh) 企业运营风险告警方法、装置、计算机设备和存储介质
CN110957046A (zh) 医疗健康案例知识匹配方法和系统
Silva et al. Data mining for prediction of length of stay of cardiovascular accident inpatients
CN112270223B (zh) 保单检视方法、装置及计算机可读存储介质
CN113642669A (zh) 基于特征分析的防欺诈检测方法、装置、设备及存储介质
Dardick et al. Entropy-based measures for person fit in item response theory
Loh et al. Knowledge discovery in textual documentation: qualitative and quantitative analyses
Oliveira et al. Hospital bed management support using regression data mining models.
Oliveira et al. Towards an intelligent systems to predict nosocomial infections in intensive care
CN115496410B (zh) 基于法律条款的行政执法事项全生命周期管理方法及系统
CN115295135B (zh) 基于分治算法的医疗数据质量改进方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant