CN112542243A - 一种icu电子病历知识图谱构建方法、系统和存储介质 - Google Patents

一种icu电子病历知识图谱构建方法、系统和存储介质 Download PDF

Info

Publication number
CN112542243A
CN112542243A CN202011417533.1A CN202011417533A CN112542243A CN 112542243 A CN112542243 A CN 112542243A CN 202011417533 A CN202011417533 A CN 202011417533A CN 112542243 A CN112542243 A CN 112542243A
Authority
CN
China
Prior art keywords
icu
patient
facts
knowledge
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011417533.1A
Other languages
English (en)
Other versions
CN112542243B (zh
Inventor
孙箫宇
李雪
于丹
来关军
魏泽林
张帅
包一平
王宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Neusoft Education Technology Group Co ltd
Original Assignee
Dalian Neusoft Education Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Neusoft Education Technology Group Co ltd filed Critical Dalian Neusoft Education Technology Group Co ltd
Priority to CN202011417533.1A priority Critical patent/CN112542243B/zh
Publication of CN112542243A publication Critical patent/CN112542243A/zh
Application granted granted Critical
Publication of CN112542243B publication Critical patent/CN112542243B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种ICU电子病历知识图谱构建方法、系统及存储介质,包括:创建ICU患者特征数据集;通过预处理后的ICU患者特征数据集和关联规则挖掘算法分别进行事实和推理的知识抽取,并采用三元组形式表示知识;根据特征数据集反映的已有事实,构建基于事实的知识图谱,并在此基础上,将多对多实体之间的推理知识映射到图结构中,完成基于事实和推理的ICU电子病历知识图谱构建;利用基于事实和推理的图嵌入方法,生成每个患者特征映射的低维稠密向量;计算各个患者低维稠密向量之间的相似度矩阵,根据相似度排序返回给定患者的Top k个相似电子病历。本发明采用基于事实和推理的方式构建ICU电子病历知识图谱,增加了ICU电子病历知识图谱的完备性。

Description

一种ICU电子病历知识图谱构建方法、系统和存储介质
技术领域
本发明涉及医学电子病历知识图谱技术领域,具体而言,尤其涉及ICU电子病历知识图谱构建方法、系统和存储介质。
背景技术
在知识图谱的构建方面,由于ICU电子病历涉及到大量医学领域专业知识,这与其他领域知识表示有所差异,因此往往需要专家根据规则加入先验知识,但人工提取知识工作量大、耗时长,对于大型数据库人工方式难以实现。也有研究通过引入医学领域其他知识库来完善知识图谱,但不同知识库之间存在多样性和异构性,新引入的实体和关系与现有知识库中存在的实体和关系通常匹配度不高,这为多知识库之间的融合带来了挑战。因此,为避免引入新知识库,有研究采用知识图谱推理的方法来完善知识图谱,即通过知识库中已有事实来推断出未知规则,利用推理挖掘出更多隐含知识来完善知识图谱。
目前,面向知识图谱的推理方法主要分为两类:基于演绎的知识图谱推理方法,如Datalog、产生式向前推理系统等;基于归纳的知识图谱推理方法,包括基于表示学习的推理(TransE、TransH、TransR模型)、AMIE基于规则推理等。但这些方法存在两个弊端:第一,以上方法产生的规则均为单个实体到单个实体之间的映射关系(如图1a所示),表示实体A与实体B之间关系为r,而无法表示出多对多的实体关系(如图1b所示);第二,AMIE等方法规则的产生依赖于实体与实体之间存在的链式结构r1(A,B)∧r2(B,C)→r3(A,C)(如图1c所示),这类规则的挖掘需要实体之间存在较强的逻辑关系,而对于ICU电子病历知识图谱而言,实体之间的逻辑连接性较弱,因此很难挖掘的出这一类的逻辑推理。
发明内容
为了解决上述现有技术中存在的弊端,本发明提供了一种基于事实和推理的ICU电子病历知识图谱构建方法和系统,采用基于事实和推理的方式构建ICU电子病历知识图谱,既能够涵盖已知事实的显性信息,又能通过关联规则算法挖掘出来的隐性信息来扩充图谱,以增加ICU电子病历知识图谱的完备性,同时也避免人工引入规则或多知识库融合带来的问题。本发明能有效解决ICU数据多样性强、实体之间关联性弱的弊端,通过构建完备的ICU电子病例知识图谱,有效挖掘出患者、疾病、用药情况等实体之间的潜在关系,并提出一种多对多实体关系的知识图谱表示方法,以提供更精准的电子病例相似度计算方法。
本发明提供了以下技术方案:
本发明提供了一种ICU电子病历知识图谱构建方法,所述方法包括:
创建ICU患者特征数据集;
对所述ICU患者特征数据集中的数据预处理;通过预处理后的ICU患者特征数据集和关联规则挖掘算法分别进行事实和推理的知识抽取,并采用三元组形式表示知识;根据所述ICU患者特征数据集反映的已有事实,构建基于事实的知识图谱,并在所述基于事实的知识图谱的基础上,将多对多实体之间的推理知识映射到图结构中,完成基于事实和推理的ICU电子病历知识图谱构建过程;
利用基于事实和推理的图嵌入方法,生成每个患者特征映射的低维稠密向量;
计算各个患者低维稠密向量之间的相似度矩阵,根据相似度排序返回给定患者排名靠前的k个相似电子病历,k为正整数。
进一步地,创建ICU患者特征数据集,包括:根据ICU电子病历采集患者信息,提取多维度属性来描述患者特征,每类信息所包含的具体属性用来描述患者的特征,进而创建ICU患者特征数据集。
进一步地,对所述ICU患者特征数据集中的数据预处理,包括:采用数据向上提升和记录精简的方式对所述ICU患者特征数据集中的数据预处理。
进一步地,所述数据向上提升的提升策略包括:根据细粒度原始特征顶点之间的相似性逐层合并,得到T级提升树形结构,T为大于1的正整数。
进一步地,所述记录精简包括:通过引入统计类信息,精简记录数量。
进一步地,基于事实和推理的ICU电子病历知识图谱构建包括:
基于所述ICU患者特征集中记录的患者信息所反映的已有事实进行知识抽取,得到基于事实的知识图谱,包括:根据所述ICU患者特征集中记录的患者信息所反映的已有事实,构造基于事实的图结构Gfacts=<V,E,w>;其中,V、E分别表示图构成顶点和边的集合,w表示边的权重,顶点node1与顶点node2之间边的权重w<node1,node2>表示由顶点node1游走到node2的概率;当node1→node2是基于事实的描述时,其边的权重w(node1,node2)=1,即顶点node1游走到node2的概率;所述ICU患者特征集中记录的患者信息为已有事实;
基于所述ICU患者特征集中记录的患者信息所反映的已有事实,构建事务数据库,每个患者的特征集合表示一个事务;
基于所述事务数据库,利用关联规则挖掘算法生成用于反映所述事务间关联关系的多条关联规则,实现基于推理进行知识抽取过程;
引入第i条关联规则Rule(i),i从1开始,并构造LHS(i)和RHS(i)的虚拟顶点,分别记作L(i)'和R(i)';所述第i条关联规则Rule(i)为:
Figure BDA0002819076610000032
Figure BDA0002819076610000031
Figure BDA0002819076610000041
其中,LHS(i)和RHS(i)分别表示Rule(i)的先导和后继,LHS(i)包含元素的集合记作
Figure BDA0002819076610000042
RHS(i)包含元素的集合记作
Figure BDA0002819076610000043
confi表示Rule(i)的置信度,取值范围为[0,1];
遍历所有符合条件的顶点P,当Gfacts中存在顶点P的邻接顶点同时包含LHS(i)中所有元素时,新增顶点P指向虚拟顶点L(i)'的有向边,边的权重为w(P,L(i)')=1;新增虚拟顶点L(i)'指向虚拟顶点R(i)'的有向边,边的权重为Rule(i)的置信度,即w(L(i)',R(i)')=confi;当前图构成顶点、边与权重的集合分别用V'、E'、w'表示,更新图结构G'=<V',E',w'>;
当所有符合条件的顶点P遍历结束时,更新i=i+1,按照上述引入第i条关联规则Rule(i)的方式,遍历下一条关联规则;当所有关联规则遍历结束时,算法终止,返回基于关联规则的图结构Grules=G'=<V',E',w'>。
进一步地,所述基于事实和推理的图嵌入方法包括:
根据传统随机游走算法生成初始路径序列paths=[path1,path2,...,pathP],P表示所有子路径的数量;
根据图结构Grules中顶点node(v)与顶点包含元素列表element_list(v)构成的键值对dict(v)={node(v):element_list(v)},v=1,2,...,|V|,V表示Grules中顶点数量;
通过键值对dict(v)映射关系,找到子路径p中每个节点v'的键值对dictp(v')={nodep(v'):element_listp(v')},p=1,2,...,|P|,v'=1,2,...,|N|,N表示子路径pathp的长度;
计算子路径p中每个节点v'的元素列表长度len_elmp(v')=len(element_listp(v')),p=1,2,...,|P|,v'=1,2,...,|N|;
针对子路径p中的各个节点v',当len_elmp(v')≤1时,表示节点v'只包含自身一个元素,则将nodep(v')直接插入新子路径path_newp中;当len_elmp(v')>1时,表示节点v'包含多个元素,则先将element_listp(v')进行乱序排列,每种乱序结果生成的概率为1/len_elmp(v')!,再将乱序后结果插入到path_newp中;
直到子路径p中的所有节点都加入到新子路径path_newp
将新子路径path_newp加入到新路径序列paths_new中;
直到所有新子路径都加入到新路径序列中,即paths_new=[path_new1,path_new2,...,path_newP];
输出基于事实和推理的新随机游走路径序列paths_new,算法结束。
本发明还提供了一种ICU电子病历知识图谱构建系统,所述系统包括:
创建模块,用于创建ICU患者特征数据集;
预处理模块,对所述创建模块创建的ICU患者特征数据集中的数据预处理;
知识图谱构建模块,用于通过所述预处理模块预处理之后的ICU患者特征数据集和关联规则挖掘算法分别进行事实和推理的知识抽取,并采用三元组形式表示知识;根据所述ICU患者特征数据集反映的已有事实,构建基于事实的知识图谱,并在所述基于事实的知识图谱的基础上,将多对多实体之间的推理知识映射到图结构中,完成基于事实和推理的ICU电子病历知识图谱构建过程;
图嵌入模块,用于利用基于事实和推理的图嵌入方法,生成每个患者特征映射的低维稠密向量;
相似度计算模块,用于计算图嵌入模块得到的各个患者低维稠密向量之间的相似度矩阵,根据相似度排序返回给定患者排名靠前的k个相似电子病历,k为正整数。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机指令集,计算机指令集被处理器执行时实现上述所提供的ICU电子病历知识图谱构建方法。
本发明的优点和积极效果:
1、创建ICU患者特征数据集。本发明采集多维度属性描述患者特征,从多个角度描述ICU患者信息。
2、数据预处理。ICU电子病历的患者特征多样性强、分类粒度细,同时每个患者的记录数繁多,存在大量的冗余信息。本发明通过数据向上提升和记录精简两种方式对原始数据进行预处理,数据向上提升可以提高ICU患者数据集中细粒度特征的泛化性,记录精简通过引入统计类去除冗余信息,能够精简记录数量以降低数据的复杂度。
3、基于事实和推理的ICU电子病历知识图谱构建。虽然每个ICU患者的电子病历特征多,但各个特征之间无明显的逻辑关系,导致患者与患者之间的关联性低,在表示为图结构时,节点间的连通性差,会存在大量的孤立节点,导致计算患者之间相似度时结果不准确。本发明通过ICU患者特征数据集和关联规则挖掘算法分别进行事实和推理的知识抽取,并采用三元组形式表示知识。特别地,在基于推理的知识抽取方法过程中,解决了多对多实体关联规则与图结构之间的映射关系。本发明采用基于事实和推理的方式构建ICU电子病历知识图谱,既能够涵盖已知事实的显性信息,又能通过关联规则算法挖掘出来的隐性信息来扩充图谱,以增加ICU电子病历知识图谱的完备性,同时也避免人工引入规则或多知识库融合带来的问题。
4、基于事实和推理的图嵌入方法。当推理生成的图结构中存在多对多节点的映射关系,本发明提出基于事实和推理的图嵌入方法,通过对传统随机游走(random walk)算法改进,生成图结构中每个患者对应节点的低维稠密向量。该向量可以保留节点在图网络中的拓扑结构以及节点内部信息,以解决图结构难以高效输入深度学习算法的问题。
5、计算相似度矩阵。可选择多种相似度度量方法相似度矩阵,根据相似度排序返回给定患者的Top k个相似电子病历,为ICU医生提供临床诊断参考或相似病例研究的辅助支持。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为推理实体关系;
图2为本发明实施例中一种ICU电子病历知识图谱构建方法的流程图;
图3为患者与疾病之间的图结构;
图4为二级提升后患者与疾病之间图结构;
图5为基于事实的三元组图结构;
图6为二级提升树形结构;
图7为基于事实的图结构表示方法;
图8为基于推理的图结构表示方法;
图9为Grules图结构举例。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
参见图2,其示出了本发明实施例中一种ICU电子病历知识图谱构建方法的流程图,该方法包括以下步骤:
第一,创建ICU患者特征数据集;
根据ICU电子病历采集患者信息,提取多维度属性来描述患者特征,每类信息所包含的具体属性用来描述患者的特征,进而创建ICU患者特征数据集。
第二,数据预处理;
本发明实施例中,采用数据向上提升和记录精简的方式对患者特征数据集中的数据预处理,以降低数据量并剔除冗余信息;
ICU患者特征数据集的多样性强、分类粒度细,同时每个患者的记录数繁多,因此通过数据向上提升和记录精简的方式对原始数据预处理,以较少数据量并剔除冗余信息,减少数据计算的复杂度。
数据向上提升可以增加细粒度特征的泛化性。ICU患者特征数据集的特征多样性强,而细粒度特征泛化性低,顶点之间的关联性小。以诊断情况为例,图3表示患者与疾病之间的关系(连边表示患者P被诊断为疾病D,其中每种疾病对应一个ICD-10编码)。由于ICD-10编码粒度细,其对应的疾病种类繁多,在构造ICU患者知识图谱时,患者与患者之间连接程度会降低甚至形成大量孤立顶点,即两个患者之间没有任何一条路径连通,这会导致特征之间距离过大,从而降低患者与患者之间的关联性,影响患者相似度的计算。因此,需要对细粒度的特征进行向上提升。
提升策略:根据细粒度原始特征顶点之间的相似性逐层合并,得到T级提升树形结构。
映射关系:映射关系分为层间映射(Inter-mapping)与层内映射(Intra-mapping)两种类型。层间映射(Inter-mapping)是指当顶点A是顶点B的父顶点时,则顶点A、B为层间映射关系,表示为“Inter-mapping”,顶点A、B之间的权重定义为w(A,B)=1/du(A),其中du(A)表示以顶点A为父顶点的子顶点个数;层内映射(Intra-mapping)是指当顶点C与顶点D属于同一层,且从属于同一父顶点时,则顶点C、D为层内映射关系,表示为“Intra-mapping”,顶点A、B之间的权重定义为w(A,B)=λ,其中λ为(0,1)区间内定值。
综上,将图3进行二级提升后,患者与疾病之间图结构表示为图4。数据向上提升可以增加细粒度特征的泛化性,增强顶点之间的关联性,为患者之间的相似度计算提供有益效果。
记录精简通过引入统计类去除冗余信息,精简记录数量以降低数据的复杂度。随着ICU患者入院时间的增加,患者的记录数量会愈来愈多,比如一名ICU患者在入院期间可能产生900多条用药记录。但这些记录会存在大量的冗余信息,如同一种药物对应不同医嘱时间会被记录多次,而大量冗余数据不但会增加计算复杂度,还会影响数据探测结果。为了解决此问题,需要对这一类数据(如用药情况、护理信息、出入液情况)进行记录精简,比起患者的单条记录我们更关心这些记录的统计信息,以用药情况为例,我们会将相同患者的相同用药记录进行合并,并新增“用药频次”属性统计用药次数。通过引入统计类信息,可以极大精简记录数量,提升后续算法计算效率和预测精度。
第三,基于事实和推理的ICU电子病历知识图谱构建;
通过ICU患者特征数据集和关联规则挖掘算法分别进行事实和推理的知识抽取,并采用三元组形式表示知识;根据ICU患者特征数据集反映的已有事实,构建基于事实的知识图谱,并在基于事实的知识图谱的基础上,将多对多实体之间的推理知识映射到图结构中,完成基于事实和推理的ICU电子病历知识图谱构建过程。
ICU电子病历的知识图谱是一种基于图的数据结构,由节点和边组成。“节点”代表现实存在的实体,如患者、药品、疾病等;“边”代表实体与实体之间的关系。本发明中采用三元组的形式表示知识,即(实体,实体,关系),知识库是三元组知识的集合,本发明采用基于事实和基于推理的知识抽取方法构建知识图谱。
(1)、基于事实的知识抽取方法
事实是描述实体与实体之间真实存在的关系,如“病人P1诊断为疾病D1”描述了一条客观存在的事实,用三元组形式表示知识(P1,D1,diagnosed)。由于ICU患者特征数据集是从数据库中采集到的患者相关信息,该信息是客观存在的真实记录,因此可用来描述事实。将ICU患者特征数据集中所有记录以三元组的形式表示出来,同时将“关系”用两个实体连边的权重定量表示,由于两个实体之间的关系是真实存在的,因此权重设为1,即实体Obj1与实体Obj2基于事实的知识三元组表示形式为(Obj1,Obj2,1),对应的图结构如图5。
(2)、基于推理的知识抽取方法
在事实知识抽取的基础上,通过关联规则挖掘算法,推理出实体、属性或关系之间的隐含关联规则,生成基于推理知识的三元组表示方法,进而丰富知识图谱。
(2.1)、构建事务数据库
根据基于事实的知识,以(key,value)键值对的形式构建事务数据库D,其中key为患者编码ICU_ID,value为每个患者编码对应特征的列表。项集表示所有特征的集合I={i1,i2,...,im};每个患者的特征集合表示一个事务,事务数据库表示所有事务的集合D={t1,t2,...tn},如表1所示。
表1.基于ICU患者事实知识的事务数据库D
Figure BDA0002819076610000111
(2.2)、关联规则的生成
首先定义三个概念:关联规则、支持度和置信度。
关联规则定义:关联规则是形如
Figure BDA0002819076610000116
的蕴涵式,其中,X和Y分别称为关联规则的先导(left-hand-side,LHS)和后继(right-hand-side,RHS)。
支持度定义:支持度用来表示项目集在数据库中的出现频率。项目集X的支持度定义为数据库中包含项目集X的计数t与事务总数T的比值,表示为
Figure BDA0002819076610000112
对于关联规则
Figure BDA0002819076610000117
其支持度定义为数据库中X、Y同时出现的事务数与事务总数的比值,表示为
Figure BDA0002819076610000113
置信度定义:置信度用来衡量规则的可信程度。对于规则
Figure BDA0002819076610000119
其置信度定义为数据库中同时包含X、Y的事务数与包含X事务数之比,表示为
Figure BDA0002819076610000114
置信度也可认为是条件概率,即
Figure BDA0002819076610000115
关联规则的生成需事先定义两个阈值,最小支持度min_sup和最小置信度min_conf。通过关联规则挖掘算法生成一系列规则,根据最小支持度min_sup,找出支持度大于min_sup的项集,构建频繁项集;在频繁项集中找置信度大于最小置信度min_conf的关联规则。最后生成的强关联规则即为基于推理的知识抽取,采用的关联规则挖掘算法可以使Apriori、FP Tree等。生成第i条关联规则表示为Rule(i):
Figure BDA0002819076610000118
confi=c∈[0,1],用来描述当先导LHS(i)发生,则后继RHS(i)发生的概率为confi
(3)、基于事实和推理的ICU电子病历知识图谱构建方法
Step301:根据已有事实,根据(1)描述的基于事实的知识抽取方法构造基于事实的图结构Gfacts=<V,E,w>。其中,V、E分别表示图构成顶点和边的集合,w表示边的权重,顶点node1与顶点node2之间边的权重w<node1,node2>表示由顶点node1游走到node2的概率;当node1→node2是基于事实的描述时,其边的权重w(node1,node2)=1,即顶点node1游走到node2的概率;转Step302;
Step302:引入第i条关联规则Rule(i),如式(1)所示(初始置i=1),并构造LHS(i)和RHS(i)的虚拟顶点,分别记作L(i)'和R(i)',转Step303;
Figure BDA0002819076610000121
其中,LHS(i)和RHS(i)分别表示Rule(i)的先导和后继,LHS(i)包含元素的集合记作
Figure BDA0002819076610000122
RHS(i)包含元素的集合记作
Figure BDA0002819076610000123
confi表示Rule(i)的置信度,取值范围为[0,1]。
Step303:当Gfacts中存在顶点P的邻接顶点同时包含LHS(i)中所有元素时,新增顶点P指向虚拟顶点L(i)'的有向边,边的权重为w(P,L(i)')=1;新增虚拟顶点L(i)'指向虚拟顶点R(i)'的有向边,边的权重为Rule(i)的置信度,即w(L(i)',R(i)')=confi;当前图构成顶点、边与权重的集合分别用V'、E'、w'表示,更新图结构G'=<V',E',w'>,转Step304;
Step304:遍历所有符合条件的顶点P,重复Step303;当所有符合条件的顶点P遍历结束时,转Step305;
Step305:更新i=i+1,遍历下一条关联规则,转Step302;当所有关联规则遍历结束时,算法终止,返回基于关联规则的图结构Grules=G'=<V',E',w'>。
第四,利用基于事实和推理的图嵌入方法,生成每个患者特征映射的低维稠密向量;该基于事实和推理的图嵌入方法是对随机游走算法的改进。
图嵌入式将高维图模型降维到低维稠密向量空间的一种技术。第三步已经将事实和推理的知识表示为图结构,但这种图结构数据往往是高维并难以处理的。图嵌入的目标是将图中的节点映射到一个低维稠密向量,该向量可以保留节点在图网络中的拓扑结构以及节点内部信息,以解决图结构难以高效输入深度学习算法的问题。目前常用的图嵌入算法有DeepWalk、Node2vec等,它们都是在随机游走(random walk)基础上随机生成多条节点序列,在送入网络中训练迭代优化。传统的随机游走算法被视为马尔科夫过程,只能处理单个节点到单个节点的游走序列,而本发明中基于推理生成的图结构中存在多对多节点的映射关系,因此提出基于事实和推理的图嵌入方法对传统random walk算法进行改进,先采用传统随机游走算法生成的初始序列,再根据图结构中顶点与顶点包含元素列表生成键值对,当元素列表长度大于1时,随机打乱元素列表,并将乱序后结果插入原初始序列中,以构建多对多节点之间的映射关系。
算法流程如下:
Step401:根据传统随机游走算法生成初始路径序列paths=[path1,path2,...,pathP],P表示所有子路径的数量,转Step402;
Step402:根据图结构Grules中顶点node(v)与顶点包含元素列表element_list(v)构成的键值对dict(v)={node(v):element_list(v)},v=1,2,...,|V|,V表示Grules中顶点数量;转Step403;
Step403:通过键值对dict(v)映射关系,找到子路径p中每个节点v'的键值对dictp(v')={nodep(v'):element_listp(v')},p=1,2,...,|P|,v'=1,2,...,|N|,N表示子路径pathp的长度,转Step404;
Step404:计算子路径p中每个节点v'的元素列表长度len_elmp(v')=len(element_listp(v')),p=1,2,...,|P|,v'=1,2,...,|N|,转Step405;
Step405:当len_elmp(v')≤1时,表示节点v'只包含自身一个元素,则将nodep(v')直接插入新子路径path_newp中,转Step406;当len_elmp(v')>1时,表示节点v'包含多个元素,则先将element_listp(v')进行乱序排列,每种乱序结果生成的概率为1/len_elmp(v')!,再将乱序后结果插入到path_newp中,转Step406;
Step406:执行Step405,直到子路径p中的所有节点都加入到新子路径path_newp,转Step407;
Step407:将新子路径path_newp加入到新路径序列paths_new中,转Step408;
Step408:执行Step407,直到所有新子路径都加入到新路径序列中,即paths_new=[path_new1,path_new2,...,path_newP],转Step409;
Step409:输出基于事实和推理的新随机游走路径序列paths_new,算法结束。
第五,计算相似度矩阵,根据相似度排序返回给定患者的排名靠前的k个(Top k个)相似电子病历,k为正整数。
通过知识图谱构建和图嵌入方法,可以得到每个患者特征映射成低维向量,患者x的向量表示为Emb(x)=vec(x)1*α,其中vec(x)1*α代表1*α维度的向量,相似度可以用欧式距离、cosine距离等度量,计算两两患者之间的相似度可构造ICU患者的相似度矩阵。对于给定患者,按相似度倒序排名,可返回与该患者相似度最高的Top k个电子病历。
为了更清楚的说明本发明实施例中的ICU电子病历知识图谱构建方法,下面结合具体实例对本发明中的ICU电子病历知识图谱构建方法的方法进行说明。
1、创建ICU患者特征数据集实施例
根据ICU电子病历采集患者信息,提取多维度属性来描述患者特征,创建ICU患者特征数据集。采集的患者信息主要包括患者基本信息、诊断情况、症状描述、用药情况、护理信息、手术信息、出入液信息和监测信息,将每类信息所包含的具体属性描述患者的特征。
基本信息:记录ICU患者的基本信息。包括患者编号、年龄、既往史、过敏史、过敏反映药物名称、身高、体重、患者病情状态等。
诊断情况:记录患者入院诊断信息。患者的诊断疾病采用ICD-10编码方式,由于ICU患者病情较复杂,所有会存在一个患者患有多种疾病的情况,此时每种疾病对应一个疾病优先级编号,其中1代表该患者最重要的疾病。
症状描述:记录患者入院症状的描述信息。包括查体、入院情况、辅助检查情况等。
用药情况:记录患者药品医嘱信息。包括医嘱编号、医嘱名称、频次、剂量、给药途径、单次剂量等。
护理信息:记录患者护理事件、压疮护理、皮肤护理信息。
手术信息:记录患者手术信息。包括术前诊断、手术名称、开始时间、术中诊断等。
出入液信息:记录患者出入液情况。包括出量入量标志、每时结算值、给药途径、科室药品分类等。
监测信息:记录患者(设备)呼吸机数据、(设备)监护仪数据。包括设备类型、参数时间、参数值等。
2、数据向上提升数据预处理实施例
数据向上提升通过构建层间映射(Inter-mapping)与层内映射(Intra-mapping)关系,以增加细粒度特征的泛化性。以高血压病为例,其中,“高血压1级”和“高血压病”为“Inter-mapping”层间映射关系,其连边的权重为与节点Node A相连所有子节点个数的倒数,为1/3;“高血压1级(中危)”和“高血压1级(高危)”为“Intra-mapping”层内映射关系,其连边的权重为k,k为(0,1)区间内定值。对高血压病二级提升后得到的树形结构如图6所示,其中,Layer 0表示原始特征顶点,通过对相似疾病进行合并,可将底层细粒度特征提升为Layer 1;同理,对layer 1顶点继续合并得到Layer 2。
3、基于事实和推理的ICU电子病历知识图谱构建方法实施例
已知事实:患者P1患有疾病A和疾病B,同时我们挖掘到关联规则
Figure BDA0002819076610000161
Figure BDA0002819076610000162
conf=0.95。Rule 1表示当同时患有疾病A和疾病B时,那么患有疾病C的概率是0.95。采用如下步骤实现基于事实和推理的图结构表示方法,将所有规则在图结构中表示,得到基于事实和推理的ICU电子病历知识图谱。
首先,根据已知事实,构造基于事实的图结构Gfact,如图7所示。因为患者P1患有疾病A和疾病B属于事实,因此边的权重w(P1,A)=1,w(P1,B)=1;
引入关联规则Rule 1,得到先导LHS(1)={A,B},后继RHS(1)={C}。构造LHS(1)和RHS(1)的虚拟顶点,分别记作AB(即L(i)')和C(即R(i)')。由于后继RHS(1)中只有一个元素C,为了方便起见我们用C代替R(i)'即可,无需额外引入新变量;
找到顶点P1满足其邻接顶点同时包含LHS(1)中所有元素,新增P1指向AB的有向边<P1,AB>,边的权重w(P1,AB)=1;新增AB指向C的有向边<AB,C>,边的权重w(AB,C)=0.95;
遍历无其他顶点满足其邻接顶点同时包含LHS(1)中所有元素;
返回基于推理的图结构Grules如图8所示。
4、基于事实和推理的图嵌入方法中改进随机游走算法实施例
如图9为Grules的图结构,基于关联规则的随机游走算法对图9输出路径序列进行说明。
根据传统随机游走算法生成初始路径序列paths=[path1]=[P1,AB,C];
图9结构存在3个键值对dict(P1)={P1:P1},dict(AB)={AB:[A,B]},dict(C)={C:C};
子路径path1中每个节点对应的键值对为dict(P1),dict(AB),dict(C);
计算子路径path1中每个节点元素列表长度分别为1,2,1,将长度为2的节点中元素进行乱序排列,每种乱序结果生成的概率p为1/2!=1/2;
新子路径
Figure BDA0002819076610000171
新子路径path_new1加入到新路径序列paths_new;
由于图中只存在一条子路径,因此paths_new=[path_new1];
输出基于事实和推理的新随机游走路径序列
Figure BDA0002819076610000172
基于事实和推理的新随机游走算法伪代码如下:
Figure BDA0002819076610000173
Figure BDA0002819076610000181
对应本发明中的一种ICU电子病历知识图谱构建方法,本发明还提供了一种ICU电子病历知识图谱构建系统,包括:
创建模块,用于创建ICU患者特征数据集;
预处理模块,对所述创建模块创建的ICU患者特征数据集中的数据预处理;
知识图谱构建模块,用于通过所述预处理模块预处理之后的ICU患者特征数据集和关联规则挖掘算法分别进行事实和推理的知识抽取,并采用三元组形式表示知识;根据所述ICU患者特征数据集反映的已有事实,构建基于事实的知识图谱,并在所述基于事实的知识图谱的基础上,将多对多实体之间的推理知识映射到图结构中,完成基于事实和推理的ICU电子病历知识图谱构建过程;
图嵌入模块,用于利用基于事实和推理的图嵌入方法,生成每个患者特征映射的低维稠密向量;
相似度计算模块,用于计算图嵌入模块得到的各个患者低维稠密向量之间的相似度矩阵,根据相似度排序返回给定患者排名靠前的k个相似电子病历,k为正整数。
创建模块具体用于:根据ICU电子病历采集患者信息,提取多维度属性来描述患者特征,每类信息所包含的具体属性用来描述患者的特征,进而创建ICU患者特征数据集。
预处理模块具体用于:采用数据向上提升和记录精简的方式对所述患者特征数据集中的数据预处理。
进一步地,所述数据向上提升的提升策略包括:根据细粒度原始特征顶点之间的相似性逐层合并,得到T级提升树形结构,T为大于1的正整数。
进一步地,所述记录精简包括:通过引入统计类信息,精简记录数量。
进一步地,所述知识图谱构建模块具体用于:
基于所述ICU患者特征集中记录的患者信息所反映的已有事实进行知识抽取,得到基于事实的知识图谱,包括:根据所述ICU患者特征集中记录的患者信息所反映的已有事实,构造基于事实的图结构Gfacts=<V,E,w>;其中,V、E分别表示图构成顶点和边的集合,w表示边的权重,顶点node1与顶点node2之间边的权重w<node1,node2>表示由顶点node1游走到node2的概率;当node1→node2是基于事实的描述时,其边的权重w(node1,node2)=1,即顶点node1游走到node2的概率;所述ICU患者特征集中记录的患者信息为已有事实;
基于所述ICU患者特征集中记录的患者信息所反映的已有事实,构建事务数据库,每个患者的特征集合表示一个事务;
基于所述事务数据库,利用关联规则挖掘算法生成用于反映所述事务间关联关系的多条关联规则,实现基于推理进行知识抽取过程;
引入第i条关联规则Rule(i),i从1开始,并构造LHS(i)和RHS(i)的虚拟顶点,分别记作L(i)'和R(i)';所述第i条关联规则Rule(i)为:
Figure BDA0002819076610000205
Figure BDA0002819076610000201
Figure BDA0002819076610000202
其中,LHS(i)和RHS(i)分别表示Rule(i)的先导和后继,LHS(i)包含元素的集合记作
Figure BDA0002819076610000203
RHS(i)包含元素的集合记作
Figure BDA0002819076610000204
confi表示Rule(i)的置信度,取值范围为[0,1];
遍历所有符合条件的顶点P,当Gfacts中存在顶点P的邻接顶点同时包含LHS(i)中所有元素时,新增顶点P指向虚拟顶点L(i)'的有向边,边的权重为w(P,L(i)')=1;新增虚拟顶点L(i)'指向虚拟顶点R(i)'的有向边,边的权重为Rule(i)的置信度,即w(L(i)',R(i)')=confi;当前图构成顶点、边与权重的集合分别用V'、E'、w'表示,更新图结构G'=<V',E',w'>;
当所有符合条件的顶点P遍历结束时,更新i=i+1,按照上述引入第i条关联规则Rule(i)的方式,遍历下一条关联规则;当所有关联规则遍历结束时,算法终止,返回基于关联规则的图结构Grules=G'=<V',E',w'>。
进一步地,所述图嵌入模块具体用于:
根据传统随机游走算法生成初始路径序列paths=[path1,path2,...,pathP],P表示所有子路径的数量;
根据图结构Grules中顶点node(v)与顶点包含元素列表element_list(v)构成的键值对dict(v)={node(v):element_list(v)},v=1,2,...,|V|,V表示Grules中顶点数量;
通过键值对dict(v)映射关系,找到子路径p中每个节点v'的键值对dictp(v')={nodep(v'):element_listp(v')},p=1,2,...,|P|,v'=1,2,...,|N|,N表示子路径pathp的长度;
计算子路径p中每个节点v'的元素列表长度len_elmp(v')=len(element_listp(v')),p=1,2,...,|P|,v'=1,2,...,|N|;
针对子路径p中的各个节点v',当len_elmp(v')≤1时,表示节点v'只包含自身一个元素,则将nodep(v')直接插入新子路径path_newp中;当len_elmp(v')>1时,表示节点v'包含多个元素,则先将element_listp(v')进行乱序排列,每种乱序结果生成的概率为1/len_elmp(v')!,再将乱序后结果插入到path_newp中;
直到子路径p中的所有节点都加入到新子路径path_newp
将新子路径path_newp加入到新路径序列paths_new中;
直到所有新子路径都加入到新路径序列中,即paths_new=[path_new1,path_new2,...,path_newP];
输出基于事实和推理的新随机游走路径序列paths_new,算法结束。
对于本发明实施例的而言,由于其与上面实施例中的相对应,所以描述的比较简单,相关相似之处请参见上面实施例中部分的说明即可,此处不再详述。
本发明实施例还公开了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机指令集,计算机指令集被处理器执行时实现如上文任一实施例所提供的基于事实和推理的ICU电子病历知识图谱构建方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种ICU电子病历知识图谱构建方法,其特征在于,所述方法包括:
创建ICU患者特征数据集;
对所述ICU患者特征数据集中的数据预处理;
通过预处理后的ICU患者特征数据集和关联规则挖掘算法分别进行事实和推理的知识抽取,并采用三元组形式表示知识;根据所述ICU患者特征数据集反映的已有事实,构建基于事实的知识图谱,并在所述基于事实的知识图谱的基础上,将多对多实体之间的推理知识映射到图结构中,完成基于事实和推理的ICU电子病历知识图谱构建过程;
利用基于事实和推理的图嵌入方法,生成每个患者特征映射的低维稠密向量;
计算各个患者低维稠密向量之间的相似度矩阵,根据相似度排序返回给定患者排名靠前的k个相似电子病历,k为正整数。
2.根据权利要求1所述的方法,其特征在于,创建ICU患者特征数据集,包括:根据ICU电子病历采集患者信息,提取多维度属性来描述患者特征,每类信息所包含的具体属性用来描述患者的特征,进而创建ICU患者特征数据集。
3.根据权利要求1所述的方法,其特征在于,对所述ICU患者特征数据集中的数据预处理,包括:采用数据向上提升和记录精简的方式对所述ICU患者特征数据集中的数据预处理。
4.根据权利要求3所述的方法,其特征在于,所述数据向上提升的提升策略包括:根据细粒度原始特征顶点之间的相似性逐层合并,得到T级提升树形结构,T为大于1的正整数。
5.根据权利要求3所述的方法,其特征在于,所述记录精简包括:通过引入统计类信息,精简记录数量。
6.根据权利要求1所述的方法,其特征在于,基于事实和推理的ICU电子病历知识图谱构建包括:
基于所述ICU患者特征集中记录的患者信息所反映的已有事实进行知识抽取,得到基于事实的知识图谱,包括:根据所述ICU患者特征集中记录的患者信息所反映的已有事实,构造基于事实的图结构Gfacts=<V,E,w>;其中,V、E分别表示图构成顶点和边的集合,w表示边的权重,顶点node1与顶点node2之间边的权重w<node1,node2>表示由顶点node1游走到node2的概率;当node1→node2是基于事实的描述时,其边的权重w(node1,node2)=1,即顶点node1游走到node2的概率;所述ICU患者特征集中记录的患者信息为已有事实;
基于所述ICU患者特征集中记录的患者信息所反映的已有事实,构建事务数据库,每个患者的特征集合表示一个事务;
基于所述事务数据库,利用关联规则挖掘算法生成用于反映所述事务间关联关系的多条关联规则,实现基于推理进行知识抽取过程;
引入第i条关联规则Rule(i),i从1开始,并构造LHS(i)和RHS(i)的虚拟顶点,分别记作L(i)'和R(i)';所述第i条关联规则Rule(i)为:
Figure FDA0002819076600000021
Figure FDA0002819076600000022
Figure FDA0002819076600000023
其中,LHS(i)和RHS(i)分别表示Rule(i)的先导和后继,LHS(i)包含元素的集合记作
Figure FDA0002819076600000024
RHS(i)包含元素的集合记作
Figure FDA0002819076600000025
confi表示Rule(i)的置信度,取值范围为[0,1];
遍历所有符合条件的顶点P,当Gfacts中存在顶点P的邻接顶点同时包含LHS(i)中所有元素时,新增顶点P指向虚拟顶点L(i)'的有向边,边的权重为w(P,L(i)')=1;新增虚拟顶点L(i)'指向虚拟顶点R(i)'的有向边,边的权重为Rule(i)的置信度,即w(L(i)',R(i)')=confi;当前图构成顶点、边与权重的集合分别用V'、E'、w'表示,更新图结构G'=<V',E',w'>;
当所有符合条件的顶点P遍历结束时,更新i=i+1,按照上述引入第i条关联规则Rule(i)的方式,遍历下一条关联规则;当所有关联规则遍历结束时,算法终止,返回基于关联规则的图结构Grules=G'=<V',E',w'>。
7.根据权利要求6所述的方法,其特征在于,所述基于事实和推理的图嵌入方法包括:
根据传统随机游走算法生成初始路径序列paths=[path1,path2,...,pathP],P表示所有子路径的数量;
根据图结构Grules中顶点node(v)与顶点包含元素列表element_list(v)构成的键值对dict(v)={node(v):element_list(v)},v=1,2,...,|V|,V表示Grules中顶点数量;
通过键值对dict(v)映射关系,找到子路径p中每个节点v'的键值对dictp(v')={nodep(v'):element_listp(v')},p=1,2,...,|P|,v'=1,2,...,|N|,N表示子路径pathp的长度;
计算子路径p中每个节点v'的元素列表长度len_elmp(v')=len(element_listp(v')),p=1,2,...,|P|,v'=1,2,...,|N|;
针对子路径p中的各个节点v',当len_elmp(v')≤1时,表示节点v'只包含自身一个元素,则将nodep(v')直接插入新子路径path_newp中;当len_elmp(v')>1时,表示节点v'包含多个元素,则先将element_listp(v')进行乱序排列,每种乱序结果生成的概率为1/len_elmp(v')!,再将乱序后结果插入到path_newp中;
直到子路径p中的所有节点都加入到新子路径path_newp
将新子路径path_newp加入到新路径序列paths_new中;
直到所有新子路径都加入到新路径序列中,即paths_new=[path_new1,path_new2,...,path_newP];
输出基于事实和推理的新随机游走路径序列paths_new,算法结束。
8.一种ICU电子病历知识图谱构建系统,其特征在于,所述系统包括:
创建模块,用于创建ICU患者特征数据集;
预处理模块,对所述创建模块创建的ICU患者特征数据集中的数据预处理;
知识图谱构建模块,用于通过所述预处理模块预处理之后的ICU患者特征数据集和关联规则挖掘算法分别进行事实和推理的知识抽取,并采用三元组形式表示知识;根据所述ICU患者特征数据集反映的已有事实,构建基于事实的知识图谱,并在所述基于事实的知识图谱的基础上,将多对多实体之间的推理知识映射到图结构中,完成基于事实和推理的ICU电子病历知识图谱构建过程;
图嵌入模块,用于利用基于事实和推理的图嵌入方法,生成每个患者特征映射的低维稠密向量;
相似度计算模块,用于计算图嵌入模块得到的各个患者低维稠密向量之间的相似度矩阵,根据相似度排序返回给定患者排名靠前的k个相似电子病历,k为正整数。
9.一种计算机可读存储介质,其特征在于,该计算机可读存储介质内存储有计算机指令集,计算机指令集被处理器执行时实现如权利要求1至7任一项所提供的ICU电子病历知识图谱构建方法。
CN202011417533.1A 2020-12-05 2020-12-05 一种icu电子病历知识图谱构建方法、系统和存储介质 Active CN112542243B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011417533.1A CN112542243B (zh) 2020-12-05 2020-12-05 一种icu电子病历知识图谱构建方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011417533.1A CN112542243B (zh) 2020-12-05 2020-12-05 一种icu电子病历知识图谱构建方法、系统和存储介质

Publications (2)

Publication Number Publication Date
CN112542243A true CN112542243A (zh) 2021-03-23
CN112542243B CN112542243B (zh) 2024-06-04

Family

ID=75016282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011417533.1A Active CN112542243B (zh) 2020-12-05 2020-12-05 一种icu电子病历知识图谱构建方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN112542243B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257431A (zh) * 2021-06-18 2021-08-13 武汉泰乐奇信息科技有限公司 一种基于虚拟人虚拟病例的自然人病例生成方法和系统
CN113284629A (zh) * 2021-07-16 2021-08-20 成都索贝数码科技股份有限公司 一种基于医疗大数据、依据社会属性构建疾病画像的方法
CN113380360A (zh) * 2021-06-07 2021-09-10 厦门大学 一种基于多模态病历图的相似病历检索方法及系统
CN115662647A (zh) * 2022-12-27 2023-01-31 北京大学第三医院(北京大学第三临床医学院) 一种相似疾病挖掘的方法和应用
CN115860152A (zh) * 2023-02-20 2023-03-28 南京星耀智能科技有限公司 一种面向人物军事知识发现的跨模态联合学习方法
CN117148705A (zh) * 2023-11-01 2023-12-01 博纯材料股份有限公司 基于数据监控分析的设备运行状态检测方法及系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427735A (zh) * 2018-02-28 2018-08-21 东华大学 基于电子病历的临床知识图谱构建方法
EP3382584A1 (en) * 2017-03-30 2018-10-03 Fujitsu Limited A system and a method to predict patient behaviour
CN108986871A (zh) * 2018-08-27 2018-12-11 东北大学 一种智慧医疗知识图谱的构建方法
CN109213871A (zh) * 2018-07-26 2019-01-15 南京邮电大学 患者信息知识图谱构建方法、可读存储介质和终端
CN109284396A (zh) * 2018-09-27 2019-01-29 北京大学深圳研究生院 医学知识图谱构建方法、装置、服务器及存储介质
US20190057774A1 (en) * 2017-08-15 2019-02-21 Computer Technology Associates, Inc. Disease specific ontology-guided rule engine and machine learning for enhanced critical care decision support
US20190294732A1 (en) * 2018-03-22 2019-09-26 Adobe Inc. Constructing enterprise-specific knowledge graphs
CN111159428A (zh) * 2019-12-30 2020-05-15 智慧神州(北京)科技有限公司 经济领域知识图谱事件关系自动抽取的方法和装置
CN111382272A (zh) * 2020-03-09 2020-07-07 西南交通大学 一种基于知识图谱的电子病历icd自动编码方法
CN111414486A (zh) * 2020-03-20 2020-07-14 厦门渊亭信息科技有限公司 一种基于路径排序算法的知识推理系统
CN111613339A (zh) * 2020-05-15 2020-09-01 山东大学 一种基于深度学习的相似病历查找方法与系统
CN111639190A (zh) * 2020-04-30 2020-09-08 南京理工大学 医疗知识图谱构建方法
CN111950285A (zh) * 2020-07-31 2020-11-17 合肥工业大学 多模态数据融合的医疗知识图谱智能自动构建系统和方法
CN112002411A (zh) * 2020-08-20 2020-11-27 杭州电子科技大学 一种基于电子病历的心脑血管病知识图谱问答方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3382584A1 (en) * 2017-03-30 2018-10-03 Fujitsu Limited A system and a method to predict patient behaviour
US20190057774A1 (en) * 2017-08-15 2019-02-21 Computer Technology Associates, Inc. Disease specific ontology-guided rule engine and machine learning for enhanced critical care decision support
CN108427735A (zh) * 2018-02-28 2018-08-21 东华大学 基于电子病历的临床知识图谱构建方法
US20190294732A1 (en) * 2018-03-22 2019-09-26 Adobe Inc. Constructing enterprise-specific knowledge graphs
CN109213871A (zh) * 2018-07-26 2019-01-15 南京邮电大学 患者信息知识图谱构建方法、可读存储介质和终端
CN108986871A (zh) * 2018-08-27 2018-12-11 东北大学 一种智慧医疗知识图谱的构建方法
CN109284396A (zh) * 2018-09-27 2019-01-29 北京大学深圳研究生院 医学知识图谱构建方法、装置、服务器及存储介质
CN111159428A (zh) * 2019-12-30 2020-05-15 智慧神州(北京)科技有限公司 经济领域知识图谱事件关系自动抽取的方法和装置
CN111382272A (zh) * 2020-03-09 2020-07-07 西南交通大学 一种基于知识图谱的电子病历icd自动编码方法
CN111414486A (zh) * 2020-03-20 2020-07-14 厦门渊亭信息科技有限公司 一种基于路径排序算法的知识推理系统
CN111639190A (zh) * 2020-04-30 2020-09-08 南京理工大学 医疗知识图谱构建方法
CN111613339A (zh) * 2020-05-15 2020-09-01 山东大学 一种基于深度学习的相似病历查找方法与系统
CN111950285A (zh) * 2020-07-31 2020-11-17 合肥工业大学 多模态数据融合的医疗知识图谱智能自动构建系统和方法
CN112002411A (zh) * 2020-08-20 2020-11-27 杭州电子科技大学 一种基于电子病历的心脑血管病知识图谱问答方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380360A (zh) * 2021-06-07 2021-09-10 厦门大学 一种基于多模态病历图的相似病历检索方法及系统
CN113257431A (zh) * 2021-06-18 2021-08-13 武汉泰乐奇信息科技有限公司 一种基于虚拟人虚拟病例的自然人病例生成方法和系统
CN113257431B (zh) * 2021-06-18 2021-09-28 武汉泰乐奇信息科技有限公司 一种基于虚拟人虚拟病例的自然人病例生成方法和系统
CN113284629A (zh) * 2021-07-16 2021-08-20 成都索贝数码科技股份有限公司 一种基于医疗大数据、依据社会属性构建疾病画像的方法
CN115662647A (zh) * 2022-12-27 2023-01-31 北京大学第三医院(北京大学第三临床医学院) 一种相似疾病挖掘的方法和应用
CN115662647B (zh) * 2022-12-27 2024-03-12 北京大学第三医院(北京大学第三临床医学院) 一种相似疾病挖掘的方法和应用
CN115860152A (zh) * 2023-02-20 2023-03-28 南京星耀智能科技有限公司 一种面向人物军事知识发现的跨模态联合学习方法
CN115860152B (zh) * 2023-02-20 2023-06-27 南京星耀智能科技有限公司 一种面向人物军事知识发现的跨模态联合学习方法
CN117148705A (zh) * 2023-11-01 2023-12-01 博纯材料股份有限公司 基于数据监控分析的设备运行状态检测方法及系统
CN117148705B (zh) * 2023-11-01 2024-01-16 博纯材料股份有限公司 基于数据监控分析的设备运行状态检测方法及系统

Also Published As

Publication number Publication date
CN112542243B (zh) 2024-06-04

Similar Documents

Publication Publication Date Title
CN112542243A (zh) 一种icu电子病历知识图谱构建方法、系统和存储介质
US8055603B2 (en) Automatic generation of new rules for processing synthetic events using computer-based learning processes
Zhao et al. EMR-based medical knowledge representation and inference via Markov random fields and distributed representation learning
US10545997B2 (en) Consensus sequence identification
US10152575B2 (en) Adherence measurement for carepath protocol compliance
WO2022116430A1 (zh) 基于大数据挖掘的模型部署方法、装置、设备及存储介质
Lavrac et al. Intelligent data analysis in medicine
CN116364299B (zh) 一种基于异构信息网络的疾病诊疗路径聚类方法及系统
Lin et al. Robust mixtures of factor analysis models using the restricted multivariate skew-t distribution
Jazayeri et al. Imputation of missing data in electronic health records based on patients’ similarities
Lin et al. Learning patient similarity via heterogeneous medical knowledge graph embedding
Nelakurthi et al. Finding cut from the same cloth: Cross network link recommendation via joint matrix factorization
Li et al. Patient multi-relational graph structure learning for diabetes clinical assistant diagnosis
CN114098638A (zh) 一种可解释的动态疾病严重程度预测方法
Johnson Mortality prediction and acuity assessment in critical care
Saraswat Knowledge Discovery With Hybrid Data Mining Approach
Kayaalp Learning dynamic Bayesian network structures from data
Cios et al. Data mining and data visualization
Cai et al. Contrastive Learning on Multimodal Analysis of Electronic Health Records
Wang et al. MD-Manifold: A Medical Distance Based Manifold Learning Approach for Heart Failure Readmission Prediction
Liu et al. KGCNA-CNN-BiLSTM: Knowledge graph and hybrid neural networks for drugs association prediction
Visweswaran Learning patient-specific models from clinical data
Da Mota Intelligent modeling to predict ejection fraction from echocardiographic reports
Mahamadou Development of clustering algorithms for categorical data and applications in Health
Alqaissi Real-Time Ontology-Based Intelligent Model for Infectious Diseases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 116000 room 206, no.8-9, software garden road, Ganjingzi District, Dalian City, Liaoning Province

Applicant after: Neusoft Education Technology Group Co.,Ltd.

Address before: 116000 room 206, no.8-9, software garden road, Ganjingzi District, Dalian City, Liaoning Province

Applicant before: Dalian Neusoft Education Technology Group Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant