CN108428478A - 基于异质医疗数据挖掘的甲状腺癌风险预测方法 - Google Patents
基于异质医疗数据挖掘的甲状腺癌风险预测方法 Download PDFInfo
- Publication number
- CN108428478A CN108428478A CN201810163600.8A CN201810163600A CN108428478A CN 108428478 A CN108428478 A CN 108428478A CN 201810163600 A CN201810163600 A CN 201810163600A CN 108428478 A CN108428478 A CN 108428478A
- Authority
- CN
- China
- Prior art keywords
- data
- medical
- node
- heterogeneous
- qualitative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 208000024770 Thyroid neoplasm Diseases 0.000 title claims abstract description 14
- 201000002510 thyroid cancer Diseases 0.000 title claims abstract description 14
- 201000010099 disease Diseases 0.000 claims abstract description 23
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims description 13
- 238000007418 data mining Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000003780 insertion Methods 0.000 claims description 9
- 230000037431 insertion Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000001717 pathogenic effect Effects 0.000 claims description 6
- 238000007689 inspection Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000036541 health Effects 0.000 claims description 4
- 230000008685 targeting Effects 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims 2
- 239000002131 composite material Substances 0.000 claims 1
- 230000001364 causal effect Effects 0.000 abstract description 7
- 238000013499 data model Methods 0.000 abstract description 2
- 230000007812 deficiency Effects 0.000 abstract description 2
- 239000003814 drug Substances 0.000 abstract description 2
- 241001269238 Data Species 0.000 abstract 1
- 229940079593 drug Drugs 0.000 abstract 1
- 238000011160 research Methods 0.000 description 14
- 238000012549 training Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 3
- 238000013058 risk prediction model Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
基于异质医疗数据挖掘的甲状腺癌风险预测方法,涉及甲状腺癌风险预测领域,解决现有技术存在医疗数据模型不足、学习模型发现未知类别能力差,影响了疾病风险预测模型的预判能力等问题,收集医疗数据,并构建异质病历信息网络模型;建立基于未知类别发现的学习模型;实现对未标记医疗数据的学习;基于定性Bayesian的医学推理模型;构建区间定性网络作为医疗推理模型,验证预测结论;本发明准确描述患者在不同时间维度下的数据记录中所包含的各类语义信息及多重关系;结合可发现“未知类别”的半监督预测模型,实现对大量未标记医疗数据的学习,解决疾病风险因素预测问题;最后,进行双向推理,同时推断的结果具有正负极性,可用区间值表达其因果强度。
Description
技术领域
本发明涉及一种基于异质医疗数据挖掘的甲状腺癌风险预测方法。
背景技术
随着电子病历与电子健康档案的数字化累积,医疗大数据研究得到了医学界和计算机领域研究人员的高度重视。医疗数据本身集合了大量性,多样性,快速性,产生价值四项大数据的基本特性,更具备易变性,准确性,复杂性和异质性的特性。医疗大数据中蕴含着丰富的医学知识,其中有些知识是尚未被医学界所认知的,利用这些知识不仅可以辅助医疗,提升医疗质量,而且可以预测医疗现象,有效防控疾病。传统医学是小数据的判断和决策,完全依靠医生的经验和能力,正确率很难保证。
结合医疗数据的自身特性及相关研究情况,目前工作还存在一些问题有待研究,体现在三个方面:1)利用同质信息网络图构建医疗数据描述模型,忽略了数据异质性特点,造成很大程度的语义丢失;2)现有分类模型在已有类别空间中进行预测文分类,没有发现未知风险的能力,而且会导致异常数据被归为常规类别;3)已有的推理模型主要为定量推理,缺乏对于基于因果关系的定性推理的研究及应用。
以上所述问题限制了对医疗数据的学习能力及相关应用的发展。鉴于此,探索基于异质信息网络构建医疗数据的描述模型,探索改进具有发现潜在新类别能力的半监督学习模型,探索定性Bayesian的医学推理模型的可靠方法是以上为本发明要解决的主要问题。
国内外学术界都在积极探索利用医疗大数据开发疾病诊断及疾病分析预测系统,近年来,数据挖掘和机器学习领域中的众多方法也广泛应用于分析电子病历记录。总体而言,现有技术的主要类别和优缺点列举如下:
1)医疗数据建模
基于同质图的半监督学习模型,信息之间的差异性很可能会被丢失,即不同类型的信息及他们之间的连接携带不同的语义都被忽略了。异质信息网络可抽象出现实世界中不同类型对象及其之间不同的连接关系,因此可以有效刻画医疗数据的复杂性和异质性。在医疗应用中,利用基因表型网络中的异质结构的方法已经研究发展起来。但将异质信息网络的用于医疗数据建模还相对较少,在此基础之上,异质病历信息图需要进化和变异成为后续学习模型可处理的数据模式,此类问题还需要深入探讨解决方案。
2)面向未知类别发现及无标记医疗数据的学习
从未知类别发现角度,在预测分类过程中,未标记数据极有可能属于未知或潜在的其他类别。在医疗数据分析中,半监督学习方法具有发现新类别的能力极为重要。目前,此类模型在理论研究层面还相对较少,也少见其应用于医疗数据分析应用之中,因此,还需要进一步研究和探索。
3)基于定性Bayesian的医学推理模型
医疗推理是根据医疗现象推测医疗结论的过程,其逆向过程称为朔因,面向医疗领域的正向推理和逆向推理一直是专家系统研究的热点,其推理基础是后端的知识库。面向一般应用的定性推理模型主要分为两类:一类采用量词定性表示关联强度,另一类采用区间代数表达关联强度。量词方法在推理运算中超出最大值时强制定义其上界值,因而容易造成精度损失;区间代数方法在合并区间包含时导致数值无法比较产生不确定值。近年来研究者较多地关注结构简单的推理方法,并在细致的医疗推理-决策问题上取得了成果,但用于医疗专家系统,能够明确表征因果关系进而进行推理的通用推理结构研究则缺乏进展。
结合医疗数据的自身特性及相关研究情况,目前工作还存在一些问题有待研究:
一、医疗数据描述模型的不足:在众多特性中,医疗数据的异质性最为突出,数据的覆盖范围前所未有,数据的格式五花八门,数据的来源也纷繁复杂。理顺多源头,多格式,多类型的医疗大数据,对呈爆炸式增长的医疗大数据进行整合和分析,首先需要建立恰当的描述模型,即要求描述模型具有刻画数据之间差异的能力。例如通过一组关连多种类型节点的路径,描述不同类型对象之间连接的不同语义,从而捕捉到更为丰富的语义信息,这样的处理也体现了现实世界中的真实规律。而传统的基于同质图的描述方法,将众多不同类型的数据模型化为无区别的节点,节点之间的连接也不做区别,这样的处理往往忽略了数据类型间差异性,甚至导致很大程度的语义丢失。
二、学习模型发现未知类别能力不足:传统医疗诊断过程中,由于缺乏对过往数据的比较分析,使得医生对绝大多数患者的病情缺乏合理的预判。而现在可以通过机器学习和数据挖掘等技术手段,对影响疾病的因素包括疾病本身,患者的既往情况、合并症以及遗传背景,生活方式,甚至环境因素等多重因素进行综合考量。
然后,构建模型对于所累积的数据进行分析,从而发现高风险指标,避免过度治疗或治疗不足。已有的分析预测模型中,基于半监督学习的模型在医疗数据分析中应用较多。直推式的半监督学习模型只处理样本空间内给定的训练数据,利用训练数据中有类标签的样本和无类标签的样例进行训练,预测训练数据中无类标签的样例的类标签,它相当于一个封闭的模型。而医疗发现的过程不仅需要预测训练数据中无类标签的样例的类标签,更主要的是预测未知的测试样例的类标签,它需要一个开放式的模型。目前,可预测未知类别的模型无论是理论研究本身,还是在医疗数据分析中的应用都相对较少,导致分析预测模型发现新类别的能力不足,这也一定程度上影响了疾病风险预测模型的预判能力。
三、推理模型能力的不足:在定性推理模型中,不确定性(表示为极性问号或区间问号)往往被过分夸大,且易于传播,成为推理算律中的吸收元,导致精度损失过大。近年来研究者较多地关注结构简单的推理方法,并在细致的医疗推理-决策问题上取得了成果,但用于医疗专家系统,能够明确表征因果关系进而进行推理的通用推理结构研究则缺乏进展。
发明内容
本发明为解决现有技术存在医疗数据模型不足、学习模型发现未知类别能力差,影响了疾病风险预测模型的预判能力等问题,提供一种基于异质医疗数据挖掘的甲状腺癌风险预测方法。
基于异质医疗数据挖掘的甲状腺癌风险预测方法,该方法由以下步骤实现:
步骤一、收集医疗数据,并构建异质病历信息网络模型;
设定样本集合和标签集合,所述样本集合包括n个患者S={s1,...,sl,sl+1,...sn},为患者i的ni条记录,rij为元组(xij,tij),其中为在时间tij的一个d维向量;标签集合为C={1,...c},前l个患者si(i≤l)被标记为yi∈C,剩余u=n-l个患者sl+1,...,sl+u为未标记数据,通常l<<u;目标是为未标记的患者si预测标记
步骤一一、二进制化:将所有检查类别里的各条目值进行编码,即二进制转化,1和0分别用来表示具体检查类别下的某一条目值存在或不存在;
步骤一二、节点插入:在二进制转化步骤中,所有被标记为1的条目,在节点插入步骤中都将被插入到异质数据图中,相应的检查条目名称作为此数据图中相应节点名称,与检查条目关联的不同记录也将作为节点插入,并且以相应的边进行关联;
步骤一三、节点编辑:节点编辑将插入后的节点根据检查类别及具体条目进行类型编辑,异质患者数据信息网络中包括表示患者记录不同年份的节点及相应的检查类别节点,上述节点最终被进一步抽象为变异网络,检查条目对应具体的检查类别,健康检查记录被抽象为两个层次,即基本的异质信息网络和一个抽象的变异结构;
步骤一四、连接插入:把每条数据记录与不同检查类别下相应条目之间的连接权重插入数据图,即通过设置连接权重函数为相应的边赋以权重;
连接权重函数;
在某患者的某条记录中,类型为v的节点中的某个条目,被表示为患者该条记录节点和检查类别下对应的条目节点之间的连接,对于异质图中节点之间的连接权重,根据记录年份远近,对其重要性加以区别。具体计算公式如下:
g(t)=(t-startTime+1)/windowLength
其中,t为当前记录所示时间,windowLength为时间长度窗口,startTime为时间窗口的开始时间,最终生成的变异网络结构描述了患者记录与不同类型节点之间最终生成连接,获得任意两类节点所构成稀疏矩阵的集合;
标准化权重:对输出矩阵进行标准化处理,公式如下:
其中,D为对角矩阵;
步骤二、建立基于未知类别发现的学习模型;实现对未标记医疗数据的学习;
步骤二一、在步骤一中的标签集合中加入c+1类别标记,为步骤一的网络模型提供预测未知类别的机制;
定义
其中,为类型为v的节点标签,xvp为类型为v的节点p的类别标签;
当xvp已被标记,令
其中,为向量yvp的第k个类别对应的元素;
xvp未被标记时,令
步骤二二、设定计算标签作为软标签,计算导致高风险的相关疾病或致病相关因素的可能性;
令为m个节点类型的计算的软标签,其中,为表示xvp属于任意c+1个类别的可能性的向量,xvp的类别标签由计算得到;
当输入为n个患者的系列检查记录,输出为优化的F,根据F的值预测风险。
本发明的有益效果:本发明面向HIS系统中电子病历,针对其异质性特性,以文本数据为挖掘对象,对数据全局性建模,实现基于异质医疗数据可定制的疾病风险因素预测及推理验证。本发明基于异质患者病历信息网络的数据表示模型,准确描述患者在不同时间维度下的数据记录中所包含的各类语义信息及多重关系;进一步,结合一个可发现“未知类别”的半监督预测模型,通过设置可计算标签作为软标签,实现对大量未标记医疗数据的学习,解决疾病风险因素预测问题;最后,提出一种性质优良可用于医疗推理的定性推理模型,该推理模型兼容Bayesian理论,可以进行双向推理,同时推断的结果具有正负极性,可用区间值表达其因果强度。
1)构建异质病历信息网络模型;
本发明针对特定医疗数据建模,提出在异质信息网络的基本原理基础上改进,建立异质病历信息网络为医疗数据构建描述模型,该描述模型引入了对时间维度的考量,能够较全面的刻画原始数据所携带的多种语义信息,并且具有较强的泛化能力,从而解决了传统数据表示模型中存在的语义丢失等问题。
2)具有新类别发现机制的无标记医疗数据学习模型;
利用新类别发现机制,进一步对大量未标记数据进行学习,训练疾病风险预测模型,学习和发现疾病内在的高风险致病因素及其他潜在关系,从而更加充分地利用医疗数据资源揭示深层次医疗规律。本发明对无标记医疗数据的学习,可发现存在于医学大数据中的负关联关系。而对负关联的认知与发现的意义不亚于对正关联认识,对于一个医学结论,同时考虑影响它的多个原因变量,可得到训练完备的预测模型。
3)面向医疗领域的定性推理模型;
该模型将经典Bayesian模型以单一概率值表达的精准测度拓展为区间测度,不仅可以推断医疗因果关系,还可给出推导结论的置信度(强度),以及因果关系的极性(正影响、负影响);不仅可以正向推理,而且可以逆向推理,并对推理结论给出解释。推理规则满足交换律和结合律,确保推理结果的惟一性和正确性,该模型与现有医学推理模型相比具有明显优势。
附图说明
图1为本发明所述的基于异质医疗数据挖掘的甲状腺癌风险预测方法模型图;
图2为患者检查记录追踪示意图;
图3为异质患者数据信息网络图;
图4为风险预测算法整体流程图。
具体实施方式
具体实施方式一、结合图1至图4说明本实施方式,基于异质医疗数据挖掘的甲状腺癌风险预测方法;该方法具体实现过程为:
本实施方式的数据来源为吉林大学第一医院医院信息系统(HIS)中甲状腺癌患者的各类数据,分别来自于检验信息系统(LIS)、电子病历(EMR)、医学影像存档和传输系统(PACS)等各类子系统,对于如PACS系统来说,本实施方式主要采用其中的结构化及非结构化的文本数据。具体技术路线为:首先,对数据进行收集和预处理包括去噪、补缺、融合等;然后,对医疗数据建立描述模型;接下来通过加入未知类别发现机制改进传统的模型,实现未知致病因素发现;最后,在推理模型所确定推理机的控制下,形成致病因素分析系统,进一步对所发现的未知致病因素与疾病的相关性进行推理验证。整个研究方案通过对研究问题进行整体建模,训练得到用于疾病风险预测、辅助诊疗的预测模型。以下将根据前文所提出的研究内容,对具体的研究方法进行介绍,本实施方式所提出总体技术路线如图1所示:
1)异质医疗数据信息网络的构建
为解决基于异质性及大量未标记数据问题的疾病风险预测,利用基于异质病例信息网络的半监督学习策略,首先对问题进行表示:设定样本集合和标签集合,所述样本集合包括n个患者S={s1,...,sl,sl+1,...sn},为患者i的ni条记录,rij为元组(xij,tij),其中为在时间tij的一个d维向量;标签集合为C={1,...c},前l个患者si(i≤l)被标记为yi∈C,剩余u=n-l个患者sl+1,...,sl+u为未标记数据,通常l<<u;目标是为未标记的患者si预测标记
数据表示模型构建方法对未来学习效果的影响极大,如果数据图的性质与数据内在规律相背离,无论采用何种半监督学习方法,都难以获得满意的学习结果。把被研究对象抽象为节点,把个体间的联系抽象成边构成一个关系网络,这样的网络中包含了对象之间的关联,也就是一个信息网络。通过分析和挖掘这个信息图,可以发现其内部隐含的模式与信息,当这个关系网络中的节点或边具有不同的类型,就得到了一个异质患者病例信息网络,这样的数据图中,不同的数据对象之间存在不同的语义关系,其所包含的结构信息及语义信息更加丰富,将利于产生更有意义的知识发现。仅甲状腺癌患者随访系统中存在的数据来看,其中五类信息类别中共包括将近210个检查条目的数据,院方对每位癌症患者定期随访,因此每位患者的210个检查条目随时序变化,以该子系统中数据为例,数据描述模型需能刻画这种随时序变化的数据模式。
将患者时序检查记录抽象出来即为图2所示,患者具有一系列携带不同时间戳的长期数据记录,每条记录包含不同类型的检查类别,每一类别中还包含众多检查条目,异常条目用黑色标记出来,整个数据分布稀疏且分布情况复杂;所有检查条目可以分为不同检查类别,每个类别覆盖不同的语义,并且对致病风险贡献不同,需要按其重要性差异区别对待,这种异质性需要在数据图构建过程中充分考虑。
可描述患者病例记录数据的异质图构建包括以下几个步骤:
一、二进制化:二进制化作为异质图构建的预处理步骤,将所有检查类别里的各条目值进行编码,即二进制转化,1和0分别用来表示具体检查类别下的某一条目值存在或不存在;
二、节点插入:在二进制转化步骤中,所有被标记为1的条目,在节点插入步骤中都将被插入到异质数据图中,相应的检查条目名称作为此数据图中相应节点名称,与这些检查条目关联的不同记录也将作为节点插入,并且以相应的边进行关联;
三、节点编辑:节点编辑将插入后的节点根据检查类别及具体条目进行类型编辑,如图3所示,异质患者数据信息网络中包括表示患者记录不同年份的节点及相应的检查类别节点,这些节点最终可以被进一步抽象为右侧的变异网络,检查条目对应进具体的检查类别,如A、B、C,而同一患者的所有记录也可被归纳到患者记录节点R,此时,图3中所示的健康检查记录被抽象为两个层次,即基本的异质信息网络和一个更为抽象的变异结构;
四、连接插入:把每条数据记录与不同检查类别下相应条目之间的连接权重插入数据图,即通过设置合适的权重函数,为相应的边赋以权重。
所述连接权重函数具体为:
在某患者的某条记录中,类型为v的节点中的某个条目,被表示为患者该条记录节点和检查类别下对应的条目节点之间的连接,对于异质图中节点之间的连接权重,根据记录年份远近,对其重要性加以区别。具体计算公式如下:
g(t)=(t-startTime+1)/windowLength
其中,t为当前记录所示时间,windowLength为时间长度窗口,startTime为时间窗口的开始时间,图4最终生成的变异网络结构描述了患者记录与不同类型节点之间最终生成连接,由此可以获得任意两类节点所构成稀疏矩阵的集合。
为了进一步加强图中低密度区域的权重,削弱高密度区域的权重,需对输出矩阵进行标准化处理,其计算公式如下:
其,D为对角矩阵。
2)基于未知类别发现的学习模型
本实施方式提出的半监督学习模型需要满足两点要求:首先,需要具有发现新类别的能力;其次,需要具有对大量未标记医疗数据进行多类别分类学习的能力。下图4所示即为风险预测算法的整体流程。
为体现已有标签集合中不存在的类别,需要设置一个未知类别的发现机制,因此,除利用原有标记对未标记数据进行标记,还需要增加未知标记类别。将前文问题表示调整为:所述的样本集合中包括n个患者S={s1,...,sl,sl+1,...sn},为患者i的ni条记录,rj为元组(xj,tj),其中为在时间tj的一个d维向量。标签集合为C={1,...c},前l个患者si(i≤l)被标记为yi∈C,剩余u=n-l个患者sl+1,...,sl+u为未标记数据,通常l<<u。目标是为未标记患者si预测标记其中,通过加入c+1类别标记,为模型提供一个预测未知类别的机制。
为方便讨论以下模型,首先对相关定义及注释进行说明。假定有c个已知类别及一个未知类别,该未知类别表示未知的疾病或致病因素。将已知标记信息关联到代表患者检查记录的记录节点。该模型具有一定的可扩展性,可泛化到各种类型节点。定义其中,为类型为v的节点标签。为利用少量已标记数据及大量未标记数据进行学习:
①当类型为v的节点p,即xvp已被标记,令
其中,为向量yvp的第k个类别对应的元素;
②当类型为v的节点p,即xvp未被标记,令
通过这样的设置,为无标记数据设置最初的标记,暂时将其归为未知类别中,这样的初始设置不影响最终学习结果。另外,设计可计算标签作为软标签,这样的设置在一定程度上得到导致高风险的相关疾病或致病相关因素的可能性。令为m个节点类型的可计算的软标签,其中,为表示xvp属于任意c+1个类别的可能性的向量。xvp的类别标签可由计算得到。当输入为n个患者的系列检查记录,输出为优化的F,并以此作为可计算的软标签,计算软标签F的过程为:
A、采用患者记录构建异质图得到相应矩阵;
B、计算标准化的权重;
C、对于节点类型初始化;
D、迭代计算更新软标签的值,直到各个标签值不再变化,算法收敛。
3)基于定性Bayesian的医学推理模型
本实施方式在传统定性贝叶斯网络(Qualitative Bayesian Networks)的基础上构建区间定性网络作为医疗推理模型,主要解决定性影响和定性协作两个方面的问题:
定性影响。定性影响描述了定性贝叶斯网络中两个变量间的直接关系,标注在网络的有向边上,分为正影响(符号+)、负影响(符号-)、零影响(符号0)、不确定影响(符号?)四种。一般地,在构成定性推理网络基础的有向无环图(Directed Acyclic Graph,DAG)中,忽略零影响边。约定出现的变量均为二元随机变量,以大写英文字母表示;对应的小写英文字母为该变量的“真”取值。为计算网络中随机变量A对随机变量B的初始定性影响,本发明引入定性影响的新定义:
S(A,B)=δI
式中,δ取{+,-,?}中的元素,而I是定义在定性贝叶斯网络上的区间概率函数值;对任意考察随机变量E的区间概率函数值I(E),它满足:
I(E)=[L(E),U(E)](L(E)≤U(E)),
L(E)≤p(E)≤U(E)
以及
式中,p是定义在定性贝叶斯网络上的概率测度函数,Ω是随机事件的样本空间。本发明使用定义中的区间概率值I描述影响δ的不确定性:I越松散,则δ的不确定性越大;传统的定性贝叶斯网络,其影响符号在本发明所扩展的网络定义中均可以视作是取I=[1](即勒贝格测度为零的区间[1,1])时的特例。在区间定性网络中,若存在有向边(E,H),则应根据知识库中已有的条件概率或其估算结果推出E对H的初始定性影响,其计算方法如下:
其中,
对区间I1=[p,q],I2=[s,t],定义I1>I2,当且仅当s>q。把>号替换成<号,即得到I1<I2的定义。除此之外的情况,都称这两个区间是不可比较的。判定函数S’(E,H)的区间概率:
是对经典贝叶斯网络中初步判定定性影响时,所产生的不确定性之量化。这一对区间概率函数假定客观意义上的不确定性度量被函数值所给出的区间包括,区间的勒贝格测度则衡量了对此不确定性真值的认知清晰度。
另一方面,经典定性贝叶斯网络要求定性影响具有对称性,即对有定义的S(A,B),必有定义S(B,A),且S(A,B)=S(B,A)。在本发明扩展的定义中,这一要求不总能满足。从经典定性网络的要求出发,容易得出结论:若S(A,B)=δ[1],则S(A,B)=S(B,A)一定满足。若S(A,B)=δI(u|v),I≠[1],则有:
即假定A对B的影响是充分条件,则B对A的影响是必要条件。
定性协作。记网络中正在传递的信息为ΔI,待合成的定性影响为δi,则复合性;
协作的合成结果定义为:
特别地,若多于两个影响参与复合性协作,先合成所有相同符号的影响,再合成+和-,最后将此结果与?合成。传递性协作的合成结果定义为:
式中,对任意合法的区间I1=[p,q],I2=[s,t],定义其乘法为:
I1·I2=[min{L(I1)L(I2),L(I1)U(I2),U(I1)L(I2),U(I1)U(I2)},
max{L(I1)L(I2),L(I1)U(I2),U(I1)L(I2),U(I1)U(I2)}]
这里使用∪运算和区间乘法的合理性,在于所涉及的区间在概率近似的意义上都是足够紧致的:区间包含不确定性的真值,这一真值在独立事件的相互作用中仍然被区间的上下确界包夹,故只要保证上下确界的意义明确,使用∪运算和区间乘法就是合理的。由于扩展的定义能够完全涵盖经典定性贝叶斯网络的对称性、复合性和传递性三种性质,又针对经典网络没有定义的情况补充了完备的定义,故经典的符号传播算法可以直接修改为使用区间定性网络重新定义之算符的版本,且仍然能保持其正确性。
Claims (3)
1.基于异质医疗数据挖掘的甲状腺癌风险预测方法,该方法由以下步骤实现:
步骤一、收集医疗数据,并构建异质病历信息网络模型;
设定样本集合和标签集合,所述样本集合包括n个患者S={s1,...,sl,sl+1,...sn},为患者i的ni条记录,rij为元组(xij,tij),其中为在时间tij的一个d维向量;标签集合为C={1,...c},前l个患者si(i≤l)被标记为yi∈C,剩余u=n-l个患者sl+1,...,sl+u为未标记数据,通常l<<u;目标是为未标记的患者si预测标记
步骤一一、二进制化:将所有检查类别里的各条目值进行编码,即二进制转化,1和0分别用来表示具体检查类别下的某一条目值存在或不存在;
步骤一二、节点插入:在二进制转化步骤中,所有被标记为1的条目,在节点插入步骤中都将被插入到异质数据图中,相应的检查条目名称作为此数据图中相应节点名称,与检查条目关联的不同记录也将作为节点插入,并且以相应的边进行关联;
步骤一三、节点编辑:节点编辑将插入后的节点根据检查类别及具体条目进行类型编辑,异质患者数据信息网络中包括表示患者记录不同年份的节点及相应的检查类别节点,上述节点最终被进一步抽象为变异网络,检查条目对应具体的检查类别,健康检查记录被抽象为两个层次,即基本的异质信息网络和一个抽象的变异结构;
步骤一四、连接插入:把每条数据记录与不同检查类别下相应条目之间的连接权重插入数据图,即通过设置连接权重函数为相应的边赋以权重;
连接权重函数;
在某患者的某条记录中,类型为v的节点中的某个条目,被表示为患者该条记录节点和检查类别下对应的条目节点之间的连接,对于异质图中节点之间的连接权重,根据记录年份远近,对其重要性加以区别。具体计算公式如下:
g(t)=(t-startTime+1)/windowLength
其中,t为当前记录所示时间,windowLength为时间长度窗口,startTime为时间窗口的开始时间,最终生成的变异网络结构描述了患者记录与不同类型节点之间最终生成连接,获得任意两类节点所构成稀疏矩阵的集合;
标准化权重:对输出矩阵进行标准化处理,公式如下:
其中,D为对角矩阵;
步骤二、建立基于未知类别发现的学习模型;实现对未标记医疗数据的学习;
步骤二一、在步骤一中的标签集合中加入c+1类别标记,为步骤一的网络模型提供预测未知类别的机制;
定义
其中,为类型为v的节点标签,xvp为类型为v的节点p的类别标签;
当xvp已被标记,令
其中,为向量yvp的第k个类别对应的元素;
xvp未被标记时,令
步骤二二、设定计算标签作为软标签,计算导致高风险的相关疾病或致病相关因素的可能性;
令为m个节点类型的计算的软标签,其中,为表示xvp属于任意c+1个类别的可能性的向量,xvp的类别标签由计算得到;
当输入为n个患者的系列检查记录,输出为优化的F,根据F的值预测风险。
2.根据权利要求1所述的基于异质医疗数据挖掘的甲状腺癌风险预测方法,其特征在于,还包括步骤三,基于定性Bayesian的医学推理模型;构建区间定性网络作为医疗推理模型,验证步骤二得出的预测结论;
步骤三一、定性影响,定性贝叶斯网络中两个变量间的直接关系,包括正影响、负影响、零影响、不确定影响四种;将四种影响标注在网络的有向边上,定义出现的变量均为二元随机变量,计算网络中随机变量A对随机变量B的初始定性影响,定义在定性贝叶斯网络上的区间概率函数值描述影响的不确定性;在区间定性网络中,若存在有向边,则应根据知识库中已有的条件概率或其估算结果推出初始定性影响;
步骤三二、定性协作,对于多于两个影响参与复合性协作,先合成所有相同的影响,最后将此结果合成。
3.根据权利要求1所述的基于异质医疗数据挖掘的甲状腺癌风险预测方法,其特征在于,计算软标签F的过程为:
A、采用患者记录构建异质图得到相应矩阵;
B、计算标准化的权重;
C、对于节点类型初始化;
D、迭代计算更新软标签的值,直到各个标签值不再变化,算法收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810163600.8A CN108428478B (zh) | 2018-02-27 | 2018-02-27 | 基于异质医疗数据挖掘的甲状腺癌风险预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810163600.8A CN108428478B (zh) | 2018-02-27 | 2018-02-27 | 基于异质医疗数据挖掘的甲状腺癌风险预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108428478A true CN108428478A (zh) | 2018-08-21 |
CN108428478B CN108428478B (zh) | 2022-03-29 |
Family
ID=63157301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810163600.8A Active CN108428478B (zh) | 2018-02-27 | 2018-02-27 | 基于异质医疗数据挖掘的甲状腺癌风险预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108428478B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109801713A (zh) * | 2019-01-30 | 2019-05-24 | 华侨大学 | 一种基于图表模型的健康风险预测方法 |
CN110717047A (zh) * | 2019-10-22 | 2020-01-21 | 湖南科技大学 | 一种基于图卷积神经网络的Web服务分类方法 |
CN111460173A (zh) * | 2019-12-26 | 2020-07-28 | 四川大学华西医院 | 一种甲状腺癌的疾病本体模型的构建方法 |
CN111816317A (zh) * | 2020-07-16 | 2020-10-23 | 山东大学 | 一种疾病数据结构化方法及甲状腺癌风险预测系统 |
CN111814819A (zh) * | 2019-04-11 | 2020-10-23 | 黑芝麻智能科技(重庆)有限公司 | 用于机器学习的混合数据标记方法 |
CN111914562A (zh) * | 2020-08-21 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 电子信息分析方法、装置、设备及可读存储介质 |
CN112185583A (zh) * | 2020-10-14 | 2021-01-05 | 天津之以科技有限公司 | 一种基于贝叶斯网络的数据挖掘检疫方法 |
CN113012803A (zh) * | 2019-12-19 | 2021-06-22 | 京东方科技集团股份有限公司 | 计算机设备、系统、可读存储介质及医学数据分析方法 |
CN113140273A (zh) * | 2021-03-31 | 2021-07-20 | 厦门大学 | 一种基于深度学习的icu患者电子病历分析方法及系统 |
CN113241135A (zh) * | 2021-04-30 | 2021-08-10 | 山东大学 | 一种基于多模态融合的疾病风险预测方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110295622A1 (en) * | 2001-11-02 | 2011-12-01 | Siemens Medical Solutions Usa, Inc. | Healthcare Information Technology System for Predicting or Preventing Readmissions |
CN103493054A (zh) * | 2010-10-12 | 2014-01-01 | 美国西门子医疗解决公司 | 用于预测心血管病发展的医疗信息技术系统 |
CN106874663A (zh) * | 2017-01-26 | 2017-06-20 | 中电科软件信息服务有限公司 | 心脑血管疾病风险预测方法及系统 |
CN106897545A (zh) * | 2017-01-05 | 2017-06-27 | 浙江大学 | 一种基于深度置信网络的肿瘤预后预测系统 |
CN107680676A (zh) * | 2017-09-26 | 2018-02-09 | 电子科技大学 | 一种基于电子病历数据驱动的妊娠期糖尿病预测方法 |
-
2018
- 2018-02-27 CN CN201810163600.8A patent/CN108428478B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110295622A1 (en) * | 2001-11-02 | 2011-12-01 | Siemens Medical Solutions Usa, Inc. | Healthcare Information Technology System for Predicting or Preventing Readmissions |
CN103493054A (zh) * | 2010-10-12 | 2014-01-01 | 美国西门子医疗解决公司 | 用于预测心血管病发展的医疗信息技术系统 |
CN106897545A (zh) * | 2017-01-05 | 2017-06-27 | 浙江大学 | 一种基于深度置信网络的肿瘤预后预测系统 |
CN106874663A (zh) * | 2017-01-26 | 2017-06-20 | 中电科软件信息服务有限公司 | 心脑血管疾病风险预测方法及系统 |
CN107680676A (zh) * | 2017-09-26 | 2018-02-09 | 电子科技大学 | 一种基于电子病历数据驱动的妊娠期糖尿病预测方法 |
Non-Patent Citations (1)
Title |
---|
商金秋等: "基于电子病历可视分析的临床诊断模型", 《计算机系统应用》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109801713A (zh) * | 2019-01-30 | 2019-05-24 | 华侨大学 | 一种基于图表模型的健康风险预测方法 |
CN111814819A (zh) * | 2019-04-11 | 2020-10-23 | 黑芝麻智能科技(重庆)有限公司 | 用于机器学习的混合数据标记方法 |
CN111814819B (zh) * | 2019-04-11 | 2024-02-20 | 黑芝麻智能科技(重庆)有限公司 | 用于机器学习的混合数据标记方法 |
CN110717047B (zh) * | 2019-10-22 | 2022-06-28 | 湖南科技大学 | 一种基于图卷积神经网络的Web服务分类方法 |
CN110717047A (zh) * | 2019-10-22 | 2020-01-21 | 湖南科技大学 | 一种基于图卷积神经网络的Web服务分类方法 |
CN113012803A (zh) * | 2019-12-19 | 2021-06-22 | 京东方科技集团股份有限公司 | 计算机设备、系统、可读存储介质及医学数据分析方法 |
CN111460173A (zh) * | 2019-12-26 | 2020-07-28 | 四川大学华西医院 | 一种甲状腺癌的疾病本体模型的构建方法 |
CN111460173B (zh) * | 2019-12-26 | 2023-02-03 | 四川大学华西医院 | 一种甲状腺癌的疾病本体模型的构建方法 |
CN111816317A (zh) * | 2020-07-16 | 2020-10-23 | 山东大学 | 一种疾病数据结构化方法及甲状腺癌风险预测系统 |
CN111914562B (zh) * | 2020-08-21 | 2022-10-14 | 腾讯科技(深圳)有限公司 | 电子信息分析方法、装置、设备及可读存储介质 |
CN111914562A (zh) * | 2020-08-21 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 电子信息分析方法、装置、设备及可读存储介质 |
CN112185583B (zh) * | 2020-10-14 | 2022-05-31 | 天津之以科技有限公司 | 一种基于贝叶斯网络的数据挖掘检疫方法 |
CN112185583A (zh) * | 2020-10-14 | 2021-01-05 | 天津之以科技有限公司 | 一种基于贝叶斯网络的数据挖掘检疫方法 |
CN113140273B (zh) * | 2021-03-31 | 2022-05-10 | 厦门大学 | 一种基于深度学习的icu患者电子病历分析方法及系统 |
CN113140273A (zh) * | 2021-03-31 | 2021-07-20 | 厦门大学 | 一种基于深度学习的icu患者电子病历分析方法及系统 |
CN113241135A (zh) * | 2021-04-30 | 2021-08-10 | 山东大学 | 一种基于多模态融合的疾病风险预测方法和系统 |
CN113241135B (zh) * | 2021-04-30 | 2023-05-05 | 山东大学 | 一种基于多模态融合的疾病风险预测方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108428478B (zh) | 2022-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108428478B (zh) | 基于异质医疗数据挖掘的甲状腺癌风险预测方法 | |
WO2022135121A1 (zh) | 一种基于对比学习的分子图表示学习方法 | |
Zanga et al. | A survey on causal discovery: theory and practice | |
DeCost et al. | Scientific AI in materials science: a path to a sustainable and scalable paradigm | |
Wang et al. | Large-scale analysis of the accuracy of the journal classification systems of Web of Science and Scopus | |
CN112528034B (zh) | 一种基于知识蒸馏的实体关系抽取方法 | |
Zhao et al. | Inferring gene regulatory networks from time series data using the minimum description length principle | |
Yan et al. | Rare feature selection in high dimensions | |
CN111324696B (zh) | 实体抽取方法、实体抽取模型的训练方法、装置及设备 | |
CN113535984A (zh) | 一种基于注意力机制的知识图谱关系预测方法及装置 | |
CN105404632A (zh) | 基于深度神经网络对生物医学文本序列化标注的系统和方法 | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
CN114021584A (zh) | 基于图卷积网络和翻译模型的知识表示学习方法 | |
Miao et al. | A dynamic financial knowledge graph based on reinforcement learning and transfer learning | |
Sha et al. | Reconstructing growth and dynamic trajectories from single-cell transcriptomics data | |
Zhou et al. | Deep collaborative multi-task network: A human decision process inspired model for hierarchical image classification | |
Delussu et al. | Fuel prediction and reduction in public transportation by sensor monitoring and bayesian networks | |
Kurt Lienau et al. | Evidence, content and corroboration and the tree of life | |
Vergara et al. | A Schematic Review of Knowledge Reasoning Approaches Based on the Knowledge Graph | |
Lonij et al. | Open-world visual recognition using knowledge graphs | |
Jafar et al. | Cosine and cotangent similarity measures for intuitionistic fuzzy hypersoft sets with application in MADM problem | |
Nural et al. | Automated predictive big data analytics using ontology based semantics | |
Martino et al. | Semantic techniques for discovering architectural patterns in building information models | |
Ruppert | Visual analytics to support evidence-based decision making | |
Runghen et al. | Exploiting node metadata to predict interactions in large networks using graph embedding and neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |