CN116168825A - 基于知识图谱增强的自动可解释性疾病自动诊断装置 - Google Patents

基于知识图谱增强的自动可解释性疾病自动诊断装置 Download PDF

Info

Publication number
CN116168825A
CN116168825A CN202211687077.1A CN202211687077A CN116168825A CN 116168825 A CN116168825 A CN 116168825A CN 202211687077 A CN202211687077 A CN 202211687077A CN 116168825 A CN116168825 A CN 116168825A
Authority
CN
China
Prior art keywords
symptom
path
disease
symptoms
diseases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211687077.1A
Other languages
English (en)
Inventor
崔文娟
郭仕鹏
王鹏飞
杜一
周园春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN202211687077.1A priority Critical patent/CN116168825A/zh
Publication of CN116168825A publication Critical patent/CN116168825A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本公开涉及一种基于知识图谱增强的可解释性疾病自动诊断装置,所述装置包括:数据获取模块,用于获取患者的症状和医生对每一症状的补充说明;数据增强模块,用于结合所述补充说明,计算各症状的增强表示;路径推断模块,用于在知识图谱中基于所述增强表示进行路径推断,得到每一症状对应的路径集合;其中,所述知识图谱中的实体包括:疾病、症状、手术、药物、描述、相关疾病和相关症状,所述知识图谱中的关系包括:相关于、手术史有和疾病表现,所述路径集合中的路径是以疾病实体为终点的路径;症状推断模块,用于计算所有路径终点对应的疾病出现概率和/或奖励,以得到所述症状的诊断结果。本发明实现了疾病诊断和原因解释两个目的。

Description

基于知识图谱增强的自动可解释性疾病自动诊断装置
技术领域
本发明涉及知识图谱技术领域,具体涉及一种基于知识图谱增强的自动可解释性疾病自动诊断装置。
背景技术
传统疾病诊断主要依靠医生的经验,诊断结果受到环境与人为等因素的影响;同时,我国医疗资源分布不均匀,广大乡镇居民难以获得充足、优质的医疗服务。为了解决这一问题,合理地将机器学习技术应用至疾病诊断领域是十分必要的。基于人工智能技术的疾病自动诊断方法能够帮助患者及早发现疾病,同时也能够有效辅助医生进行诊断,降低误诊漏诊的概率。
对于疾病自动诊断问题,常见的主要有两种方式;一是将其视作疾病分类任务。训练一个诊断模型,它将病人出现的症状等相关信息作为输入,并计算各种疾病发生的概率,最终选取概率最大的疾病作为诊断结果。基于这一思路,目前已有使用CNN、RNN、
Transformer等结构的多种方法被提出。例如文献(Narges Razavian."Deep ehr:Chronic disease prediction using medical notes."Machine Learning forHealthcare Conference.PMLR,
2018)中的作者对比了包括CNN、BiLSTM,以及CNN与LSTM组合的多种方法,利用上述结构的模型提取输入信息的特征,再将其输入线性层进行分类,最终实现诊断。由于现实中疾病诊断的过程可以看作是一个以多种信息为依据进行决策的过程,因此另一种方法是将诊断转换为马尔可夫决策过程,这种方法大多基于强化学习方法,通过训练一个智能代理来解决马尔可夫决策问题(Liu,Siqi,Kee Yuan Ngiam,and Mengling Feng."Deepreinforcement learning for clinical decision support:a brief survey."arXivpreprint arXiv:1907.09475(2019).)。文献(Wei,Zhongyu,et al."Task-orienteddialogue system for automatic diagnosis."Proceedings of the 56th AnnualMeeting of the Association for Computational Linguistics(Volume 2:ShortPapers).2018.)提出了一个基于强化学习的自动诊断对话系统框架,通过分析与患者的对话实现疾病诊断。Xu等人(Xu,Lin,et al."End-to-end knowledge-routed relationaldialogue system for automatic diagnosis."Proceedings of the AAAI Conferenceon Artificial Intelligence.Vol.33.No.01.2019.)对其进行了改进,并提出了一种名为KR-DQN的方法,该方法能够将丰富的先验医疗知识无缝的融入到诊断过程中。其训练数据收集自互联网,并对其进行了一定程度的简化。
但现有方法存在以下几方面的问题:
1.在一类将疾病自动诊断视作分类问题的方法中,需要大量高质量训练数据进行训练;即使属于同一疾病,当对其的描述发生变化时,都有可能影响分类结果。同时,在疾病类别增多时,基于分类的方法准确度明显下降。最重要的是,由于深度学习模型的“黑盒”特性,本发明很难解释分类模型的行为,无法对最终的诊断结果做出合理的解释,影响了人们对模型的信心,也极大的限制了基于分类方法的自动诊断模型在医疗领域中的实际应用。
2.另一类基于对话的自动诊断方法也存在诸多问题。在现有的基于对话的自动诊断方法中,模型通过与患者进行多轮交互,实现对多个症状数据对提取,最终完成疾病诊断。模型总是倾向于获得更多信息,因此在诊断过程中会产生大量无意义的对话轮次,降低了用户体验。同时,当数据集中待提取的症状数据量较小时,其诊断准确度会大幅下降。在一示例使用的数据集中,大部分疾病表现的症状个数在1至3个,如图1所示,约有75%的疾病最多表现出3种症状。在此种情况下,基于对话的自动诊断方法无法取得良好效果。
3.现有方法仍是只依靠标注数据进行训练,没有或只融合了极少的先验医疗知识。如果能够将专业的医学知识纳入自动疾病诊断过程中,准确度会有较大提升。基于对话的诊断模型,自动生成的对话的质量也限制着后续的疾病诊断任务。现有方法使用的对话数据集都是通过机器生成或者经过大量简化的结果,在此基础上训练得到的模型难以推广至真实任务,也严重制约着现有方法的应用。
发明内容
为解决上述问题,本发明公开了一种基于知识图谱增强的自动可解释性疾病自动诊断装置,将问题定义为一个在医疗知识图谱上的马尔可夫决策问题,希望构建一个基于强化学习的自动诊断模型,输入患者出现的症状和其他补充信息,融合医学知识图谱的先验知识,最终诊断结果并返回一条可解释的决策路径,实现疾病诊断和原因解释两个目的。
本发明的技术内容包括:
一种基于知识图谱增强的可解释性疾病自动诊断装置,所述装置包括:
数据获取模块,用于获取患者的症状和医生对每一症状的补充说明;
数据增强模块,用于结合所述补充说明,计算各症状的增强表示;
路径推断模块,用于在知识图谱中基于所述增强表示进行路径推断,得到每一症状对应的路径集合;其中,所述知识图谱中的实体包括:疾病、症状、手术、药物、描述、相关疾病和相关症状,所述知识图谱中的关系包括:相关于、手术史有和疾病表现,所述路径集合中的路径是以疾病实体为终点的路径;
症状推断模块,用于计算所有路径终点对应的疾病出现概率和/或奖励,以得到所述症状的诊断结果。
进一步地,所述结合所述补充说明,计算各症状的增强表示,包括:
使用embedding层或医学词典预训练的Word2Vec模型,分别计算症状m的向量表示Vm和所述症状m对应的补充说明ti的向量表示
Figure BDA0004019626090000031
基于所述向量表示Vm和所述向量表示
Figure BDA0004019626090000032
得到所述症状m的增强表示V′m
进一步地,所述在知识图谱中进行所述增强表示的路径推断,得到每一症状对应的路径集合,包括:
在所述知识图谱中,查找所述症状对应的症状实体em,并将所述增强表示作为所述症状实体em的属性;
基于当前路径终点et,生成路径的历史信息h_t与所述症状实体em的属性,计算当前路径终点的状态st;其中,t表示推断步数;
根据强化学习智能体,生成所述状态st的全动作空间At;其中,所述强化学习智能体包括:双层全连接神经网络、数值网络和策略网络;
对全动作空间At进行剪枝,得到剪枝动作空间
Figure BDA0004019626090000033
对于剪枝动作空间
Figure BDA0004019626090000034
中的动作,使用余弦相似度评分fp选取最佳动作并执行,得到节点et+1,并将该节点加入现有路径中。
在达到最大步数T之后,基于剪枝动作空间
Figure BDA0004019626090000035
得到所述症状对应的路径集合。
进一步地,训练所述强化学习智能体的步骤,包括:
构建训练集;
使用所述双层全连接神经网络学习状态st的表示xt
基于所述表示xt,所述策略网络计算存在的下一步动作at
使用一个数值网络根据所述表示xt来学习数值v;
所述策略网络根据所述数值v进行参数优化;
所述数值网络根据训练数据进行参数更新。
进一步地,所述对全动作空间At进行剪枝,得到剪枝动作空间
Figure BDA0004019626090000036
包括:
Figure BDA0004019626090000037
Figure BDA0004019626090000038
其中,r为关系,e为实体,m为症状,At为全动作空间,fp为症状实体m与当前实体的余弦相似度评分。
进一步地,所述余弦相似度评分
Figure BDA0004019626090000041
其中,Vm表示所述症状的向量表示,V′m表示所述症状的增强表示,r表示关系,ek表示实体,D表示疾病实体集合。
进一步地,所述知识图谱基于TransE学习方法构建。
进一步地,计算所有路径终点对应的疾病出现概率和/或奖励,以得到所述症状的诊断结果,包括:
根据实际需求,在疾病出现概率或奖励中选择一种或多种作为诊断标准;
如果选择疾病出现概率,则统计所有路径终点对应的疾病出现次数,并基于各疾病的出现概率,得到所述症状的诊断结果;
如果选择奖励,则融合各症状的增强表示,得到融合症状嵌入
Figure BDA0004019626090000042
并通过计算所有路径终点的奖励/>
Figure BDA0004019626090000043
得到所述症状的诊断结果;其中,/>
Figure BDA0004019626090000044
为路径终点et的表示,fr表示V′m与/>
Figure BDA0004019626090000045
的点积;
如果选择疾病出现概率和奖励,则结合各疾病的出现概率和所述奖励Rt,得到所述症状的诊断结果。
与现有技术相比,本发明的积极效果为:
1.在本文中,本发明将自动疾病诊断任务定义为疾病知识图上的决策问题,并使用智能代理明确推理知识以做出决策。
2.本发明提出了一种基于强化学习的路径推理方法,该方法具有软奖励和动作剪枝策略,用于疾病诊断。
3.为了将更多的信息纳入到知识图中,本发明提出了一种增强的嵌入方法。
4.实验结果表明,本发明的模型在准确性和互操作性方面都优于所有基线模型。比较本发明提出的模型方法与传统方法的效果比较。实验验证使用同一验证数据,并对多种算法模型进行参数调优以获得当前模型下的最佳效果。
附图说明
图1每种疾病症状数量统计图。
图2模型整体结构。
图3强化学习模块示意图。
图4基于知识图谱增强的自动可解释性疾病自动诊断装置的框图。
图5各模型top-n准确度。
图6不同增强嵌入方法实验结果。
具体实施方式
下面将结合实施例和附图,对本发明的技术方案进行清楚、完整的描述,可以理解的是,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一、模型训练。
本发明的训练流程包括数据分析处理、知识图谱表示学习、强化学习模块构建与训练、疾病推理等步骤。本方法数据集来源真实电子病历,在对数据进行预处理和特征抽取后,得到包括疾病,症状,药物,手术等多种实体和实体之间关系的三元组。使用负采样方法构建三元组负例,使用TransE方法学习实体与关系的表示。再构建强化学习模块,训练决策智能体。智能体从多个症状出发,最终返回多条从症状指向疾病的路径。在疾病推理部分,设计了一个评分函数,对返回的多个结果进行评估,选择最佳结果作为最终的诊断结果。模型最终的结构如图2所示,从EMR中提取结构化数据以构建疾病知识图谱。提取非结构化文本数据以嵌入KG。该模型使用基于Actor-Critic强化学习的方法进行路径推断,最终返回从症状到疾病的路径。
1:数据分析处理
本方法首先进行数据处理与数据分析。通过调研领域文献以及与领域专家沟通后,定义了任务所需的实体种类,包括“疾病”,“症状”,“手术”,“药物”,“描述”,“相关疾病”,“相关症状”,并为这些实体定义了关系,分别为“相关于”,“手术史有”,“疾病表现”等。对于文本数据,本发明采用Jieba分词及去停用词技术对文本数据进行初步清洗,并使用TF-IDF算法提取了患者主诉中的特征词。在数据集中除了实体与关系信息外,还有医生诊断时对患者症状的补充说明,称作“属性”,数据处理阶段将这些属性信息以较短的文本形式保存。
2:知识图谱增强表示学习。
本方法目的是利用已有的实体和关系建立知识图谱,并对实体和关系进行表示学习。最简单的方式是使用one-hot向量对每种实体进行标记,但这种方法会使向量空间极其稀疏,不利于后续计算。TransE是一种简单有效的表示学习方法。对于一个事件三元组(头实体h,关系r,尾实体t),本发明首先使用embedding层获取实体的向量表示,并定义若干向量用来表示上文中定义的关系。本发明的训练目标是希望嵌入向量之间满足条件:h+r≈t。在实现过程中,使用余弦相似度评估h+r与t的相似程度。知识图谱中两两实体间未标注的情况是大多数,从计算的角度说,不可能将所有都标为negative,因此使用负采样技术既能够保障准确性,同时也加快了模型训练速度。简单来说,给定一个头实体h,负采样技术从大量的关系与实体中随机选择三元组记录中未出现过的实体与关系组合,作为负例进行训练。当模型收敛时,正例中,h+r与t的余弦相似度尽可能大,而负例则相反。
在使用TransE的基础上,本方法试图为知识图谱中融入更多信息,以提升下游任务的表现。因此提出了一种增强表示学习方法,其思路是将数据处理阶段中保存的“属性”转化为向量嵌入至实体表示中。尝试了两种获取属性向量的方法,分别是使用embedding层直接获取向量,和使用医学词典预训练的Word2Vec模型获取向量。将属性向量记作Vt,症状实体向量记作Vm,则增强向量表示V′m计算公式如下:
Figure BDA0004019626090000061
3:强化学习模块构建与训练。
当完成数据分析处理与知识图谱表示学习之后,接下来的目标是使用强化学习方法实现疾病诊断功能。强化学习模块使用Actor-Critic的实现方式。该模块使用一个双层全连接神经网络学习状态st的表示xt,一个策略网络π(At),一个数值网络根据表示xt来学习数值v。强化学习模块的结构定义如下:
xt=σ(σ(stW1+b1)W2+b2)
π(At)=softmax((xtWp+bP)ΘAt)
vt=xtWv+bv
这里,σ是非线性激活函数,本发明中使用了校正线性单元(ReLU),Θ表示Hadamard乘积,{W1,W2,Wp,Wv,b1,b2,bp,bv}是神经网络中的参数和偏差。其网络结构如图3所示。
当知识图谱规模较大时,每个节点可能会与大量节点相连,在进行转移步骤时会产生大量候选项。为了缓解过多后选项带来的准确度下降问题,本方法提出了一个高效的剪枝策略,实现对候选项数量的控制。剪枝策略可以描述为:
Figure BDA0004019626090000062
其中r为关系,e为实体,m为症状,At为全动作空间,fp为症状实体m与当前实体余弦相似度评分,计算公式如下:
Figure BDA0004019626090000071
其中m′为症状实体的增强表示,D为疾病集合,ek为路径中第k个实体。
同时设计了一个软奖励策略,鼓励智能代理充分利用知识图谱异构性来探索更多可能的节点。软奖励策略描述如下:
Figure BDA0004019626090000072
/>
其中fr(m′,et)计算m′和et的点积。
4:疾病推理
给定若干症状(m1,…,mn),疾病推理的目标是寻找到最有可能的疾病集合{d},同时返回一条推理路径。一种简单的方法是选择策略网络π生成的分数较高的n条路径作为结果返回,但这种方法不能保证路径的多样性。因为这种方法会导致策略网络π倾向于选择分数较高的相同的路径。因此,本发明中提出了一种行动概率和奖励引导的搜索方法,用以探索每个症状的候选路径和可能的疾病。疾病推理算法可描述为:
1)给定症状m,最大步数T,策略网络
Figure BDA0004019626090000073
以及每个步骤的预定义样本大小{K1,K2,…,KT}。
2)初始状态时,路径上仅有起点m,概率集合Q初始化为{1},奖励R初始化为0。
3)获取当前节点对应状态st,根据强化学习智能体生成全动作空间,再使用剪枝策略获得剪枝后的动作空间
Figure BDA0004019626090000074
剪枝后动作大小限定为Kt
4)将当前节点加入路径。对于每一个动作
Figure BDA0004019626090000075
计算概率q和奖励r,并将结果保存在Q与R中。概率的计算思想基于动作出现的频率,奖励的计算则依照上文提到的软奖励策略。
5)重复3),4)T次,最终得到长度为T的多条路径,保存以疾病为终点的路径。路径信息中包含了对应的概率和分数。
疾病推理算法将给定症状m、策略网络π、最大跳数T和每个步骤的预定义样本大小{K1,K2,…,KT}作为输入,返回相应的疾病集{d}和T-hop路径,同时计算每个路径的概率QT和得分ST。疾病推理算法以单个症状作为输入,返回可解释路径及诊断结果。对于存在多个症状的情况,疾病推理算法将各个症状逐一输入,再根据融合症状从所有返回结果中选取最佳结果。
二、疾病自动诊断测试。
本发明的可解释性疾病自动诊断装置,如图4所示,包括数据获取模块410、数据增强模块420、路径推断模块430和症状推断模块440。
数据获取模块410,用于获取患者的症状和医生对每一症状的补充说明;
数据增强模块420,用于结合所述补充说明,计算各症状的增强表示;
路径推断模块430,用于在知识图谱中基于所述增强表示进行路径推断,得到每一症状对应的路径集合;其中,所述知识图谱中的实体包括:疾病、症状、手术、药物、描述、相关疾病和相关症状,所述知识图谱中的关系包括:相关于、手术史有和疾病表现,所述路径集合中的路径是以疾病实体为终点的路径;
症状推断模块440,用于计算所有路径终点对应的疾病出现概率和/或奖励,以得到所述症状的诊断结果。
基于上述的解释性疾病自动诊断装置400,本发明的一个完整的推理过程可以解释为:输入一组症状(m1,…,mn)和文本标签(t1,…,ti),使用增强的嵌入方法将文本标签嵌入到多个症状嵌入中,以获得增强的症状嵌入(m′1,…,m′n)。使用疾病推理算法进行路径推断,从每个症状开始获得多组路径(p0,…,pn)。同时,计算融合症状嵌入
Figure BDA0004019626090000081
在疾病推理的步骤4)中,使用mf代替m计算奖励与概率。最终根据需求,可以选择最高奖励的结果或最高概率的结果作为最终的返回结果。
综上所述,本发明利用真实电子病历构建医疗知识图谱,并在图谱的基础上进行疾病的查询与推理,能够为诊断方法引入先验知识,从而提高结果精度。本方法设计实现的模型使用强化学习方法,实现了在图谱上的路径推理,返回结果中既包含了诊断结果,同时包括了完整的推理路径。相比已有方法仅返回诊断结果,本方法的结果具有更强的可解释性,同时路径上的每个节点和每条边都能为医生和患者提供更多的辅助信息。本研究针对当前具体问题场景,将传统疾病分类问题转化为医疗知识图谱的路径推断问题问题,从而取得了比传统算法更好的自动疾病诊断效果。
将本发明提出的模型方法与传统方法的效果比较。实验验证使用同一验证数据,并对多种算法模型进行参数调优以获得当前模型下的最佳效果。
1.评价指标
本研究的评价指标采用类似分类分析的评价指标。在分类任务中,常见的指标有Accuracy、Precision、Recall、F1-score。同时,本发明统计了Top-n的Accuracy,其中n取值从1至5。
具体地,本发明对真正例(True Positive)、真负例(True Negative)、假正例(False Positive)、假负例(False Negative)做出如下定义(表1),使得评价指标更加合理并具有实际意义。最终的评价指标召回率(recall)、精确率(precision)、F1-score由上述经过重新定义的真正例(True Positive)、真负例(True Negative)、假正例(FalsePositive)、假负例(False Negative)计算得到。Precision、Recall、F1-score的计算方式如下:
Figure BDA0004019626090000091
Figure BDA0004019626090000092
Figure BDA0004019626090000093
Figure BDA0004019626090000094
名称 含义
真正例(True Positive) 预测为正确的正样本
真负例(True Negative) 预测为正确的负样本
假正例(False Positive) 预测为错误的正样本
假负例(False Negative) 预测为错误的负样本
表1评价指标定义
2.模型效果比较
实验在测试集上将不同的自动疾病诊断算法与该发明中提出的疾病诊断模型进行比较,同时还对比了利用不同方式实现的增强嵌入方法对最终预测准确度的影响。本发明选取了几种最新的模型进行对比,分别是Diaformer模型、BED模型以及GAMP模型。除此之外,本发明也和机器学习的传统分类方法如XGBoost和SVM进行了比较。实验结果如表2所示,本发明的模型在不使用增强嵌入方法时,其各项指标均达到最高。同时本发明给出了不同模型的top-n准确率,结果如图5所示,本方法在n取1至5时均能够达到最佳效果。结果表明将自动疾病诊断任务转换为知识图谱上的路径推断任务这一思路的正确性,并对后续增强嵌入实验提供了基础。
Figure BDA0004019626090000101
表1模型结果对比
3.增强嵌入实验结果
现实生活中的疾病诊断是一个复杂的过程,医生必须考虑大量的信息才能对患者做出诊断。在真实的电子病历中,也存在大量的未利用信息。增强嵌入方法的目的就是将这些信息融入至知识图谱表示中,并在后续的预测中合理利用这些信息以提高准确率。本方法尝试了两种增强嵌入的方法。一种是使用embedding层获取属性嵌入向量,另一种是使用预训练的word2vec模型获取嵌入向量。两种方法的准确度如图6所示。实验结果显示使用增强嵌入方法后,模型性能实现明显提升。
上述实施例仅为例示性说明本发明的原理及其功效,而非用于限制本发明的范围。任何熟于此技术的本领域技术人员均可在不违背本发明的技术原理及精神下,对实施例作修改与变化。本发明的保护范围应以权力要求书所述为准。

Claims (8)

1.一种基于知识图谱增强的可解释性疾病自动诊断装置,其特征在于,所述装置包括:
数据获取模块,用于获取患者的症状和医生对每一症状的补充说明;
数据增强模块,用于结合所述补充说明,计算各症状的增强表示;
路径推断模块,用于在知识图谱中基于所述增强表示进行路径推断,得到每一症状对应的路径集合;其中,所述知识图谱中的实体包括:疾病、症状、手术、药物、描述、相关疾病和相关症状,所述知识图谱中的关系包括:相关于、手术史有和疾病表现,所述路径集合中的路径是以疾病实体为终点的路径;
症状推断模块,用于计算所有路径终点对应的疾病出现概率和/或奖励,以得到所述症状的诊断结果。
2.如权利要求1所述的装置,其特征在于,所述结合所述补充说明,计算各症状的增强表示,包括:
使用embedding层或医学词典预训练的Word2Vec模型,分别计算症状m的向量表示Vm和所述症状m对应的补充说明ti的向量表示
Figure FDA0004019626080000014
基于所述向量表示Vm和所述向量表示
Figure FDA0004019626080000015
得到所述症状m的增强表示V′m
3.如权利要求1所述的装置,其特征在于,所述在知识图谱中进行所述增强表示的路径推断,得到每一症状对应的路径集合,包括:
在所述知识图谱中,查找所述症状对应的症状实体em,并将所述增强表示作为所述症状实体em的属性;
基于当前路径终点et,生成路径的历史信息h_t与所述症状实体em的属性,计算当前路径终点的状态st;其中,t表示推断步数;
根据强化学习智能体,生成所述状态st的全动作空间At;其中,所述强化学习智能体包括:双层全连接神经网络、数值网络和策略网络;
对全动作空间At进行剪枝,得到剪枝动作空间
Figure FDA0004019626080000011
对于剪枝动作空间
Figure FDA0004019626080000012
中的动作,使用余弦相似度评分fp选取最佳动作并执行,得到节点et+1,并将该节点加入现有路径中。
在达到最大步数T之后,基于剪枝动作空间
Figure FDA0004019626080000013
得到所述症状对应的路径集合。
4.如权利要求3所述的装置,其特征在于,训练所述强化学习智能体的步骤,包括:
构建训练集;
使用所述双层全连接神经网络学习状态st的表示xt
基于所述表示xt,所述策略网络计算存在的下一步动作at
使用一个数值网络根据所述表示xt来学习数值v;
所述策略网络根据所述数值v进行参数优化;
所述数值网络根据训练数据进行参数更新。
5.如权利要求3所述的装置,其特征在于,所述对全动作空间At进行剪枝,得到剪枝动作空间
Figure FDA0004019626080000021
包括:/>
Figure FDA0004019626080000022
其中,r为关系,e为实体,m为症状,At为全动作空间,fp为症状实体m与当前实体的余弦相似度评分。/>
6.如权利要求5所述的装置,其特征在于,所述余弦相似度评分
Figure FDA0004019626080000023
Figure FDA0004019626080000024
其中,Vm表示所述症状的向量表示,V′m表示所述症状的增强表示,r表示关系,ek表示实体,D表示疾病实体集合。
7.如权利要求1所述的装置,其特征在于,所述知识图谱基于TransE学习方法构建。
8.如权利要求1所述的装置,其特征在于,计算所有路径终点对应的疾病出现概率和/或奖励,以得到所述症状的诊断结果,包括:
根据实际需求,在疾病出现概率或奖励中选择一种或多种作为诊断标准;
如果选择疾病出现概率,则统计所有路径终点对应的疾病出现次数,并基于各疾病的出现概率,得到所述症状的诊断结果;
如果选择奖励,则融合各症状的增强表示,得到融合症状嵌入
Figure FDA0004019626080000025
并通过计算所有路径终点的奖励/>
Figure FDA0004019626080000026
得到所述症状的诊断结果;其中,/>
Figure FDA0004019626080000027
为路径终点et的表示,fr表示V′m与/>
Figure FDA0004019626080000028
的点积;
如果选择疾病出现概率和奖励,则结合各疾病的出现概率和所述奖励Rt,得到所述症状的诊断结果。
CN202211687077.1A 2022-12-27 2022-12-27 基于知识图谱增强的自动可解释性疾病自动诊断装置 Pending CN116168825A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211687077.1A CN116168825A (zh) 2022-12-27 2022-12-27 基于知识图谱增强的自动可解释性疾病自动诊断装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211687077.1A CN116168825A (zh) 2022-12-27 2022-12-27 基于知识图谱增强的自动可解释性疾病自动诊断装置

Publications (1)

Publication Number Publication Date
CN116168825A true CN116168825A (zh) 2023-05-26

Family

ID=86415624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211687077.1A Pending CN116168825A (zh) 2022-12-27 2022-12-27 基于知识图谱增强的自动可解释性疾病自动诊断装置

Country Status (1)

Country Link
CN (1) CN116168825A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682553A (zh) * 2023-08-02 2023-09-01 浙江大学 一种融合知识与患者表示的诊断推荐系统
CN117690600A (zh) * 2024-02-01 2024-03-12 北方健康医疗大数据科技有限公司 基于知识图谱的传染病预测方法、系统、终端及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682553A (zh) * 2023-08-02 2023-09-01 浙江大学 一种融合知识与患者表示的诊断推荐系统
CN116682553B (zh) * 2023-08-02 2023-11-03 浙江大学 一种融合知识与患者表示的诊断推荐系统
CN117690600A (zh) * 2024-02-01 2024-03-12 北方健康医疗大数据科技有限公司 基于知识图谱的传染病预测方法、系统、终端及存储介质
CN117690600B (zh) * 2024-02-01 2024-04-30 北方健康医疗大数据科技有限公司 基于知识图谱的传染病预测方法、系统、终端及存储介质

Similar Documents

Publication Publication Date Title
CN112307218B (zh) 基于知识图谱的智能电厂典型设备故障诊断知识库构建方法
KR102153920B1 (ko) 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법
CN112712118B (zh) 一种面向医疗文本数据的过滤方法及系统
CN112002411A (zh) 一种基于电子病历的心脑血管病知识图谱问答方法
CN116168825A (zh) 基于知识图谱增强的自动可解释性疾病自动诊断装置
CN112863630A (zh) 基于数据和知识的个性化精准医疗问答系统
CN116682553B (zh) 一种融合知识与患者表示的诊断推荐系统
CN113707339B (zh) 一种多源异质数据库间概念对齐与内容互译方法及系统
CN113035362A (zh) 一种基于语义图网络的医疗预测方法及系统
CN110277167A (zh) 基于知识图谱的慢性非传染性疾病风险预测系统
CN112420151A (zh) 一种超声报告后结构化解析方法、系统、设备和介质
CN113673244B (zh) 医疗文本处理方法、装置、计算机设备和存储介质
CN112925918B (zh) 一种基于疾病领域知识图谱的问答匹配系统
CN116364299B (zh) 一种基于异构信息网络的疾病诊疗路径聚类方法及系统
CN112232065A (zh) 挖掘同义词的方法及装置
CN117077786A (zh) 一种基于知识图谱的数据知识双驱动智能医疗对话系统和方法
CN114077673A (zh) 一种基于btbc模型的知识图谱构建方法
CN115391494B (zh) 中医症候智能识别方法及装置
CN116541472A (zh) 一种医疗领域知识图谱构建的方法
CN113571184A (zh) 一种用于精神健康测评的对话交互设计方法及系统
CN117316466A (zh) 一种基于知识图谱与自然语言处理技术的临床决策方法、系统及设备
CN116822579A (zh) 基于对比学习的疾病分类icd自动编码方法和装置
CN115238026A (zh) 一种基于深度学习的医疗文本主题分割方法和装置
CN111143573A (zh) 基于用户反馈信息进行知识图谱目标节点预测的方法
CN115841861A (zh) 一种相似病历推荐方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination