CN113871003B - 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统 - Google Patents

一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统 Download PDF

Info

Publication number
CN113871003B
CN113871003B CN202111452519.XA CN202111452519A CN113871003B CN 113871003 B CN113871003 B CN 113871003B CN 202111452519 A CN202111452519 A CN 202111452519A CN 113871003 B CN113871003 B CN 113871003B
Authority
CN
China
Prior art keywords
concept
disease
causal
medical knowledge
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111452519.XA
Other languages
English (en)
Other versions
CN113871003A (zh
Inventor
李劲松
吕可伟
田雨
周天舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202111452519.XA priority Critical patent/CN113871003B/zh
Publication of CN113871003A publication Critical patent/CN113871003A/zh
Application granted granted Critical
Publication of CN113871003B publication Critical patent/CN113871003B/zh
Priority to PCT/CN2022/124227 priority patent/WO2023098288A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,本发明设计和构建了非结构化数据提取、映射和校准工具,从电子病历、医学文献、临床指南等多源异构医学知识源中提取与疾病诊疗相关的因果性知识,构建包含病史、症状、体征、实验室检查结果、用药、人口统计学信息等关键诊断信息的含因果性医学知识图谱,并在构建过程中设计相应的知识提取规则,减少含因果性医学知识图谱的噪声,提高疾病鉴别诊断模型的准确度和运行效率。本发明基于含因果性医学知识图谱,提取患者所有的个性化诊断数据,并充分利用患者数据中的阴性检查结果和阴性症状等阴性数据,利用疾病鉴别诊断模型开展显式推理,给出具有明确诊断依据的推理结果。

Description

一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统
技术领域
本发明属于医疗健康信息技术领域,尤其涉及一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统。
背景技术
疾病鉴别诊断是疾病诊疗过程中的重要一环,临床医生通过问诊,基于现有的医学知识和诊疗经验,根据患者当前的病史、实验室检查、体征等信息综合分析推理,给出患者疑似疾病的列表。但由于患者疾病情况复杂,变化多端,许多患者身患多种疾病,且部分疾病发病率低,医生缺乏相应的诊疗经验,在现实高强度工作条件下,容易发生漏诊和误诊的现象。以慢性肾病为例,据统计慢性肾病在实际患病人群中的知晓率仅为12.5%。
当前减少医生诊疗错误发生的常用方法是引入决策支持系统。基于决策支持系统强大的知识库和推理算法,可以帮助医生减少知识盲区,提醒医生患者患某些罕见疾病的可能性。常见的技术方案包括获取和推理两个模块,获取模块主要获取患者诊断所需的症状、实验室检查结果等特征,推理模块则是根据获取的特征信息,基于知识库中症状与疾病的关系等内容,基于规则推理、机器学习等算法得出患者疑似疾病列表。
现有技术方案存在如下缺陷:
1.基于电子病历构建的知识图谱大多只利用了EHR数据和简单的关系,没有构建疾病更深层次的关系,例如疾病与诊疗手段、疾病与药物、疾病与生活习惯等关系,同时EHR数据噪声非常大,建立起来的知识图谱质量不佳;
2.大多数疾病鉴别诊断的模型都是基于预先挑选的变量进行预测,没有充分利用患者所有的个性化数据;
3.大多数疾病鉴别诊断的算法研究只利用了阳性检查结果和阳性症状,而忽略了阴性检查结果和阴性症状的价值;
4.单纯基于图嵌入方式的知识图谱推理算法缺乏可解释性,而可解释性强的规则推理算法则过于简单,需要人为制定和更新规则,难以应对复杂多变的临床环境。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统。
本发明的目的是通过以下技术方案实现的:一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,该系统包括:
(1)知识源模块:管理知识图谱构建所需的医学知识源,获取疾病诊断相关知识;
(2)知识提取模块:针对结构化知识,确定表征因果关系的谓语集,查询和提取疾病诊断相关的因果性三元组;针对非结构化知识,确定包含因果关系描述的文本,对所述文本进行分词后提取因果性三元组;
(3)知识映射与校准模块:基于预设的映射规则,将不同医学知识源提取的三元组进行规范编码,并对概念的一词多名称问题进行概念校准,删除重复的三元组,形成三元组集;
(4)知识图谱构建模块:基于知识映射与校准模块输出的三元组集,采用自上而下的模式依次构建含因果性医学知识图谱的顶层类、实例、属性、以及实例间的关系;
(5)疾病鉴别诊断模块,包括:数据获取单元、数据预处理单元、个性化医学知识图谱生成单元和推理单元;
所述数据获取单元:获取患者数据并进行结构化处理,提取阳性数据和阴性数据,并分别映射为含因果性医学知识图谱对应的阳性概念集和阴性概念集;
所述数据预处理单元:将患者的单次访问记录作为单个样本,每个样本的数据集按照阳性概念集、阴性概念集、目标疾病诊断标签、目标疾病概念集进行整理;
所述个性化医学知识图谱生成单元:通过搜索含因果性医学知识图谱,基于每个样本的阳性概念集和目标疾病概念集生成阳性概念-类型集和个性化阳性医学知识图谱,基于每个样本的阴性概念集和目标疾病概念集生成阴性概念-类型集和个性化阴性医学知识图谱;
所述推理单元:构建基于图神经网络的疾病鉴别诊断模型,将所述个性化医学知识图谱生成单元的输出作为所述疾病鉴别诊断模型的输入,基于预训练的语言模型获取不同极性概念-类型集与目标疾病概念集对应的文本向量,基于多跳信息传递机制和注意力机制获取不同极性概念-类型集与目标疾病概念集对应的图向量,基于文本向量和图向量开展推理输出鉴别诊断的疾病排名和诊断依据。
进一步地,所述知识源模块中,所述医学知识源包括电子病历数据库、医学文献数据库、临床指南、权威教材以及SNOMED CT数据库;所述医学文献数据库采用SemMedDB文献库中的predication数据库。
进一步地,所述知识提取模块中,针对采用三元组形式存储的结构化知识,查询和提取满足以下两个条件的三元组:条件1,主语或宾语的语义类型必须为疾病、症状、体征、实验室检查结果、药物、人口统计学信息相关的语义类型;条件2,主语和宾语相关的因果性三元组在主语和宾语相关的所有三元组中的占比不小于预设阈值。
进一步地,所述知识提取模块中,针对非结构化知识,基于结构化知识提取的三元组中的概念构造概念集,利用正则表达式提取包含因果关系描述的文本后,针对文本中的每个句子,以句子描述的疾病作为三元组的主语或者宾语,对句子进行分词,提取满足以下条件1和条件2或者条件1和条件3的三元组:条件1,分词得到的词语属于名词;条件2,如果概念集包含该词语,且该词语在概念集中的语义类型为症状、体征、实验室检查结果相关语义类型,那么三元组主语为疾病,谓语为因果关系谓语,宾语为该词语;条件3,如果概念集包含该词语,且该词语在概念集中的语义类型为生活习惯、病毒、细菌、真菌、药物相关语义类型,那么三元组主语为该词语,谓语为因果关系谓语,宾语为疾病。
进一步地,所述知识映射与校准模块中,基于预设的映射规则,将不同医学知识源获取的三元组规范为UMLS编码;针对概念存在的一词多名称问题,分别设计概念对应的缩写词典、别名词典和商品名词典,完成概念名称的校准;删除不同医学知识源获取的重复三元组,形成三元组集。
进一步地,所述知识图谱构建模块中,所述顶层类包括临床发现、诊断程序、患者信息、临床药物、疾病诊断以及生活习惯,所述实例为三元组集中的概念,所述属性包括实例的中文全称、中文别名、英文全称、英文缩写、UMLS编码、SNOMED CT编码,所述关系为三元组集中的谓语。
进一步地,所述数据获取单元中,针对患者结构化数据,利用条件判断提取阳性数据和阴性数据;针对患者非结构化数据,利用正则表达式将非结构化数据转化为分句集,抽取部分分句并手动标注分句的极性标签,构造分句极性判断的语料库,利用语料库训练BERT模型,获取所有分句的极性标签,对不同极性的分句进行分词后,分别提取阳性分句中的阳性数据以及阴性分句中的阴性数据;将阳性数据和阴性数据分别映射为阳性概念集和阴性概念集。
进一步地,所述个性化医学知识图谱生成单元中,针对含因果性医学知识图谱中的实例,与该实例出现在同一三元组中的其他实例组成的集合作为该实例的相关概念集;
遍历每个样本的阳性概念集和目标疾病概念集中的所有概念,利用阳性概念、目标疾病概念和因果关系谓语构造三元组,若含因果性医学知识图谱包含该三元组,则将阳性概念和目标疾病概念的相关概念集的交集加入中间概念集;遍历结束后,合并中间概念集、阳性概念集和目标疾病概念集获得每个样本的阳性概念-类型集;
遍历每个样本的阳性概念-类型集中的两两不同概念,若两个不同概念与因果关系谓语组成的三元组属于含因果性医学知识图谱,则将该三元组加入该样本的个性化阳性医学知识图谱;
遍历每个样本的阴性概念集和目标疾病概念集中的所有概念,利用阴性概念、目标疾病概念和因果关系谓语构造三元组,若含因果性医学知识图谱包含该三元组,则将阴性概念和目标疾病概念的相关概念集的交集加入中间概念集;遍历结束后,合并中间概念集、阴性概念集和目标疾病概念集获得每个样本的阴性概念-类型集;
遍历每个样本的阴性概念-类型集中的两两不同概念,若两个不同概念与因果关系谓语组成的三元组属于含因果性医学知识图谱,则将该三元组加入该样本的个性化阴性医学知识图谱。
进一步地,所述推理单元中,文本向量的获取包括:对于概念
Figure 386550DEST_PATH_IMAGE001
和目标疾病概念
Figure 108519DEST_PATH_IMAGE002
,其中
Figure 175570DEST_PATH_IMAGE003
分别 为第i个样本的阳性概念-类型集和阴性概念-类型集,TD为目标疾病概念集,基于与node同 极性的个性化医学知识图谱预训练语言模型LM,将node和td作为LM的输入,将LM输出的向 量串联得到文本向量
Figure 705908DEST_PATH_IMAGE004
;遍历
Figure 583734DEST_PATH_IMAGE005
和TD中的所有概念,得到第i个样本的阳性 文本向量矩阵
Figure 809310DEST_PATH_IMAGE006
,遍历
Figure 306151DEST_PATH_IMAGE007
和TD中的所有概念,得到第i个样本的阴性文本向 量矩阵
Figure 550050DEST_PATH_IMAGE008
图向量的获取包括:
基于个性化医学知识图谱,利用TransE算法获取node对应的TransE向量
Figure 588325DEST_PATH_IMAGE009
,将
Figure 956990DEST_PATH_IMAGE010
转化为融合概念类型信息的转化向量
Figure 116576DEST_PATH_IMAGE011
基于多跳信息传递机制获取node与td在与node同极性的个性化医学知识图谱中 的所有K跳路径信息向量
Figure 231293DEST_PATH_IMAGE012
,包括:定义node与td所有K跳路径集
Figure 60709DEST_PATH_IMAGE013
由所有k个 首尾相连的三元组集组成,
Figure 306883DEST_PATH_IMAGE014
,记为:
Figure 722689DEST_PATH_IMAGE015
其中
Figure 82127DEST_PATH_IMAGE016
为路径
Figure 472657DEST_PATH_IMAGE017
中三元组的主语或宾语,
Figure 550334DEST_PATH_IMAGE018
为 路径path中三元组的谓语;
计算path对于td预测的贡献度
Figure 333613DEST_PATH_IMAGE019
Figure 813136DEST_PATH_IMAGE019
由path中采用条件随机场 计算得到的主语-谓语-宾语集类型
Figure 108988DEST_PATH_IMAGE020
的贡献度
Figure 673962DEST_PATH_IMAGE021
以及采用自注意力 机制计算得到的谓语集中谓语间相关性的贡献度
Figure 228309DEST_PATH_IMAGE022
相乘得到;
Figure 562338DEST_PATH_IMAGE023
是path以
Figure 966775DEST_PATH_IMAGE024
为条件的概率;
Figure 143678DEST_PATH_IMAGE025
是path以
Figure 862236DEST_PATH_IMAGE024
为条件为path中的每个谓语动态生成的得分矩阵;
获得
Figure 926138DEST_PATH_IMAGE026
中所有k跳路径的向量
Figure 704738DEST_PATH_IMAGE027
Figure 368937DEST_PATH_IMAGE028
其中
Figure 687923DEST_PATH_IMAGE029
为可学习的变换矩阵,
Figure 730966DEST_PATH_IMAGE030
为填充矩 阵;
利用
Figure 54368DEST_PATH_IMAGE031
引导所有的
Figure 612389DEST_PATH_IMAGE032
聚集,并通过双线性注意力机制函数计算加 权和,得到所有K跳路径信息向量
Figure 938328DEST_PATH_IMAGE033
利用
Figure 960510DEST_PATH_IMAGE033
更新
Figure 877651DEST_PATH_IMAGE034
获得图向量
Figure 391809DEST_PATH_IMAGE035
Figure 865647DEST_PATH_IMAGE036
其中
Figure 883281DEST_PATH_IMAGE037
Figure 236902DEST_PATH_IMAGE038
是可学习的转换矩阵,
Figure 831832DEST_PATH_IMAGE039
是非线性激活函数;
遍历
Figure 499573DEST_PATH_IMAGE040
和TD中的所有概念,得到第i个样本的阳性图向量矩阵
Figure 168452DEST_PATH_IMAGE041
, 遍历
Figure 264279DEST_PATH_IMAGE042
和TD中的所有概念,得到第i个样本的阴性图向量矩阵
Figure 487449DEST_PATH_IMAGE043
进一步地,将第i个样本获得的
Figure 552357DEST_PATH_IMAGE044
串联 后作为输入传递到全连接层,得到第i个样本所有目标疾病概念对应的概率矩阵
Figure 341322DEST_PATH_IMAGE045
;根据
Figure 240008DEST_PATH_IMAGE045
中的概率值从大到小输出第i个样本预测的疾病排名,并将每个目标疾病在个性化阳性医 学知识图谱和个性化阴性医学知识图谱中的路径path和贡献度
Figure 294683DEST_PATH_IMAGE046
作为诊断依 据,辅助医生进行疾病鉴别诊断。
本发明的有益效果是:本发明设计和构建了非结构化数据提取、映射和校准工具,从电子病历、医学文献、临床指南、SNOMED CT等多源异构医学知识源中提取与疾病诊疗相关的因果性知识,构建包含病史、症状、体征、实验室检查结果、用药、人口统计学信息等关键诊断信息的含因果性医学知识图谱,并在构建过程中设计相应的知识提取规则,减少含因果性医学知识图谱的噪声,提高疾病鉴别诊断模型的准确度和运行效率。本发明基于含因果性医学知识图谱,提取患者所有的个性化诊断数据,并充分利用患者数据中的阴性检查结果和阴性症状等阴性数据,利用疾病鉴别诊断模型开展显式推理,给出具有明确诊断依据的推理结果。
附图说明
图1为本发明实施例提供的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统框架图;
图2为本发明实施例提供的含因果性医学知识图谱构建时的数据流动路径图;
图3为本发明实例提供的基于含因果性医学知识图谱的疾病鉴别诊断流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明实施例提供一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,如图1所示,该系统包括以下模块:
1. 知识源模块:管理知识图谱构建所需的医学知识源信息,医学知识源与含因果性医学知识图谱的数据流动如图2所示,医学知识源包括电子病历数据库、医学文献数据库、临床指南、权威教材以及其他医学知识源。其中电子病历数据库主要采用Oracle数据库,医学文献数据库在这里主要采用的是美国国家医学图书馆构建的SemMedDB文献库中的predication数据库,采用mysql对该数据库进行加载和存储。基于IP地址、用户名、密码,加载和连接数据库,基于SQL查询数据库相关内容,返回相应的数据。其中电子病历数据库返回的数据信息包括表名、字段名、字段类型、具体数值,医学文献数据库返回的数据信息包括表名、字段名、字段类型、具体数值。临床指南和权威教材主要以文本形式存储。其他医学知识源这里主要指的是SNOMED CT(Systematized Nomenclature of Medicine-ClinicalTerms,系统化临床医学术语集)数据库,它以OWL(Web Ontology Language,网络本体语言)格式存储。
2. 知识提取模块
(1) 结构化知识提取:主要针对predication数据库和SNOMED CT数据库,其知识主要采用SPO(Subject-Predicate-Object)三元组形式存储。
对于predication数据库,利用SQL查询同时满足以下两个条件的三元组
Figure 100965DEST_PATH_IMAGE047
① 主语s和宾语o的语义类型集为
Figure 213277DEST_PATH_IMAGE048
Figure 876340DEST_PATH_IMAGE049
,疾病、症状、体征、实验室检 查结果、药物、人口统计学信息相关的语义类型集为
Figure 74103DEST_PATH_IMAGE050
,满足以下条件:
Figure 418496DEST_PATH_IMAGE051
② 所有谓语p的集合为
Figure 493638DEST_PATH_IMAGE052
,表征因果关系的谓语p的集合为
Figure 468547DEST_PATH_IMAGE053
Figure 950344DEST_PATH_IMAGE053
中通 常包含causes、produces、predisposes、isa等,满足以下条件:
Figure 426324DEST_PATH_IMAGE054
其中
Figure 982071DEST_PATH_IMAGE055
为三元组
Figure 190198DEST_PATH_IMAGE056
在predication数据库中出现的总次数,
Figure 972340DEST_PATH_IMAGE057
为三元组
Figure 596220DEST_PATH_IMAGE058
在predication数据库中出现的总次数;
对于SNOMED CT数据库,利用
Figure 662265DEST_PATH_IMAGE059
软件自带的SPARQL工具,查询获取疾病、症 状、体征、实验室检查结果、药物、人口统计学信息等三元组。
由于predication数据库和SNOMED CT数据库均以英文形式存储,所以利用谷歌翻译API将提取的三元组自动翻译为中文,并根据《英汉医学词典》对翻译后的三元组进行修正。
(2) 非结构化知识提取:主要针对电子病历数据库、权威教材和临床指南中的文本数据。
首先基于步骤(1)中结构化知识提取获取的概念(主语s、宾语o等均属于概念)及 语义类型构造概念集
Figure 775714DEST_PATH_IMAGE060
,其中a为概念总数,概念
Figure 904207DEST_PATH_IMAGE061
Figure 971258DEST_PATH_IMAGE062
为cs的 中文名称集,
Figure 767176DEST_PATH_IMAGE063
为cs的唯一标识符,
Figure 317106DEST_PATH_IMAGE064
为cs的语义类型集。
然后对于文本数据集
Figure 323108DEST_PATH_IMAGE065
Figure 554369DEST_PATH_IMAGE066
Figure 814580DEST_PATH_IMAGE067
,其中
Figure 738674DEST_PATH_IMAGE068
Figure 904076DEST_PATH_IMAGE069
为文本数据集H中各文本,
Figure 63662DEST_PATH_IMAGE070
Figure 303014DEST_PATH_IMAGE071
为文本D中各句子,hl为文本数据集H中的文本个 数,dl为文本D中的句子个数。对于文本数据集H中的每个文本,随机抽取若干个句子(例如 可以设置抽取文本中20%的句子),人工分析并确定文本数据集H中常见的因果关系谓语
Figure 771910DEST_PATH_IMAGE072
, 利用正则表达式提取文本数据集H中所有包含
Figure 424608DEST_PATH_IMAGE072
的文本
Figure 732093DEST_PATH_IMAGE073
。基于概念集CS自定义词典
Figure 481743DEST_PATH_IMAGE074
, 并将自定义词典
Figure 544377DEST_PATH_IMAGE074
加载至结巴分词工具中。对于每一个句子
Figure 622054DEST_PATH_IMAGE075
,基于结巴分词工 具对
Figure 874175DEST_PATH_IMAGE076
进行分词
Figure 353698DEST_PATH_IMAGE077
,其中
Figure 587233DEST_PATH_IMAGE078
Figure 276841DEST_PATH_IMAGE079
为句子
Figure 926128DEST_PATH_IMAGE080
的各词语,
Figure 322474DEST_PATH_IMAGE081
Figure 309934DEST_PATH_IMAGE082
为句子
Figure 96624DEST_PATH_IMAGE076
中各词语的词性,sl为句子
Figure 939815DEST_PATH_IMAGE076
的分词长度。对于文本中存在数字类型实验 室检查结果的情况,例如“24小时尿蛋白2g/24小时”,先利用正则表达式抽取相应的检查项 目、检查值与单位,再根据医院化验单上该检查项目检查值的正常范围,判断检查值是否正 常,再转化为概念集CS中的相应概念,例如24小时尿蛋白正常范围为小于0.15g/24小时,因 此上述检查值超过正常范围,对应CS中为 [(“蛋白尿”),“C0001925”,(“发现”)]。
考虑到文本
Figure 190668DEST_PATH_IMAGE083
中通常一句话是描述同一种疾病dis,因此以dis作为三元组的主语s或者宾语o,设名词词性集为N,症状、体征、实验室检查结果相关语义类型集为
Figure 703689DEST_PATH_IMAGE084
, 生活习惯、病毒、细菌、真菌、药物等相关语义类型集为
Figure 118621DEST_PATH_IMAGE085
,从
Figure 437607DEST_PATH_IMAGE086
的每一个句子
Figure 480649DEST_PATH_IMAGE076
中抽 取满足以下条件①和②或者①和③的所有三元组
Figure 554784DEST_PATH_IMAGE087
Figure 112804DEST_PATH_IMAGE088
3. 知识映射与校准模块
(1) 知识映射:由于文本数据提取的概念存在一词多名称问题,且SNOMED CT与SemMedDB编码方式不统一,因此需要将不同知识源提取的三元组规范为统一的编码方式。本发明含因果性医学知识图谱构建统一采用SemMedDB使用的UMLS(Unified MedicalLanguage System,统一医学语言系统)编码方式。通过SNOMED CT已有的UMLS与SNOMED CT概念之间的映射关系,基于预设的映射规则,实现SNOMED CT中提取的三元组的概念的编码方式向UMLS编码方式的映射。
(2) 知识校准:由于部分概念无法实现概念名称与UMLS中概念的完全匹配,例如 文本数据中常出现疾病和药物的缩写,疾病和药物别名或者药物的商品名,因此根据《中华 医典》、《实验诊断学》等权威教材构造相应的缩写词典、别名词典和商品名词典,根据词典 存储的对应关系完成概念名称的校准,然后再进行知识映射。同时对于不同医学知识源提 取的三元组
Figure 438744DEST_PATH_IMAGE089
进行去重操作,删除重复的三元组,最后形成三元组集TR。
4. 知识图谱构建模块
知识图谱构建参考SNOMED CT等知识图谱结构,采用自上而下的模式构建知识图谱,设计临床发现、诊断程序、患者信息、临床药物、疾病诊断、生活习惯等六个顶层类;然后定义每个顶层类的实例,例如二甲双胍和格列齐特是降糖药的实例,接着定义每个实例的属性,属性包括实例的中文全称、实例的中文别名、实例的英文全称、实例的英文缩写、实例的UMLS编码、实例的SNOMED CT编码等;最后基于三元组集TR定义不同实例之间的关系,例如糖尿病会导致血糖升高;最后形成含因果性医学知识图谱G
以糖尿病肾病作为实例举例说明,糖尿病肾病属于疾病诊断顶层类的实例,实例 的中文全称为“糖尿病肾病”,实例的中文别名为“糖尿病性肾病”、“糖尿病肾小球硬化症”, 实例的英文全称为“Diabetic Nephropathy”,实例的UMLS编码为“C0011881”,实例的 SNOMED CT编码为“236500003”,实例的英文缩写为“DN”。其相关的因果关系三元组
Figure 710194DEST_PATH_IMAGE090
包括(糖尿病肾病,导致,蛋白尿),(糖尿病肾病,导致,肾衰竭),(糖尿病肾病,导 致,血肌酐升高),(糖尿病肾病,导致,肾小球毛细血管基底膜增厚),(糖尿病,导致,糖尿病 肾病),(高血压,导致,糖尿病肾病),(高血糖,导致,糖尿病肾病),(糖尿病肾病,属于,慢性 肾病)等。
5. 疾病鉴别诊断模块
基于含因果性医学知识图谱的疾病鉴别诊断流程如图3所示。
(1) 数据获取单元:数据获取包括患者的结构化数据获取和非结构化数据获取。
结构化数据通常采用.csv或者.xlsx格式存储,可以直接根据表格中检查值的正常范围划分为阳性数据和阴性数据,例如血糖检查结果可以划分为血糖正常、血糖升高或血糖降低三大类,血糖正常为阴性数据,血糖升高或血糖降低为阳性数据。
非结构化数据获取参考上述的知识提取模块,考虑到医生在实际鉴别诊断中,不 仅会利用阳性检查结果和阳性症状等阳性数据,还会利用阴性检查结果和阴性症状等阴性 数据,例如“患者老年,肥胖,血糖升高5年,应首先考虑糖尿病,但患者当前胰岛素自身抗体 检查和谷氨酸脱羧酶抗体检查阴性,故暂不考虑I型糖尿病”。为了提取患者非结构化数据
Figure 830597DEST_PATH_IMAGE091
中阴性症状,即医生在电子病历中记载的患者当前没有的症状,例如“两肺未闻及干湿 罗音和哮鸣音”,首先要对句子
Figure 141492DEST_PATH_IMAGE092
的极性进行判断。由于句子中不同部分极性可能 不相同,例如“患者贫血貌,咽部略红,扁桃体无肿大,皮肤巩膜无黄染,浅表淋巴结未及肿 大”,因此定义句子分割相关的标点符号后,利用正则表达式将句子
Figure 864598DEST_PATH_IMAGE093
分成
Figure 882232DEST_PATH_IMAGE094
Figure 314482DEST_PATH_IMAGE095
Figure 847094DEST_PATH_IMAGE096
为句子
Figure 983677DEST_PATH_IMAGE097
的各分句,bl为句子
Figure 246031DEST_PATH_IMAGE098
的分句长 度。随机抽取若干位患者样本的非结构化数据,手动标注样本的非结构化数据中各分句的 极性后,构造极性判断的语料库
Figure 770554DEST_PATH_IMAGE099
Figure 728145DEST_PATH_IMAGE095
Figure 307900DEST_PATH_IMAGE096
为语料库C中的各分句,cl为语料库C中的分句总数,
Figure 300127DEST_PATH_IMAGE100
为分句 手动标注的极性标签,其中“1”表示阳性,“0”表示阴性;利用Google的BERT模型,将C作为训 练集,余下患者样本的所有分句集
Figure 729971DEST_PATH_IMAGE101
作为测试集,得到所有患者样本的所有非结构化数据 的分句的极性标签,然后参考上述知识提取模块中非结构化知识提取过程获取不同极性分 句中的阳性数据和阴性数据。
参考知识映射与校准模块中的映射和校准过程,获取患者阳性数据对应的阳性概念集,以及阴性数据对应的阴性概念集。
(2) 数据预处理单元
由于患者每次访问医疗机构被诊断的疾病可能不同,所以疾病鉴别诊断的单个样 本是某患者的一次访问记录。将上述数据整理为数据集
Figure 299493DEST_PATH_IMAGE102
,其中所有 样本的阳性概念集
Figure 309037DEST_PATH_IMAGE103
,所有样本的阴 性概念集
Figure 952508DEST_PATH_IMAGE104
Figure 631882DEST_PATH_IMAGE105
Figure 564066DEST_PATH_IMAGE106
为各样 本的阳性概念集,
Figure 501935DEST_PATH_IMAGE107
Figure 265492DEST_PATH_IMAGE108
为阳性概念,
Figure 240401DEST_PATH_IMAGE109
Figure 33783DEST_PATH_IMAGE110
为各样本的阴性概念集,
Figure 181867DEST_PATH_IMAGE111
Figure 3193DEST_PATH_IMAGE112
为阴性 概念,n为样本数,
Figure 8058DEST_PATH_IMAGE113
Figure 914834DEST_PATH_IMAGE114
为各样本的阳性概念数和阴性概念数,各样本的
Figure 866609DEST_PATH_IMAGE113
Figure 417808DEST_PATH_IMAGE114
不一定相 等。TD为目标疾病概念集,且
Figure 734519DEST_PATH_IMAGE115
,满足
Figure 518805DEST_PATH_IMAGE116
Figure 211954DEST_PATH_IMAGE117
,满足
Figure 133772DEST_PATH_IMAGE118
Figure 886964DEST_PATH_IMAGE119
n个样本的
Figure 299491DEST_PATH_IMAGE120
个目标疾病诊断标签,
Figure 920965DEST_PATH_IMAGE121
为第i个样本的目标疾病诊断标签。例如
Figure 305810DEST_PATH_IMAGE122
,TD = [C0595921, C0017601, C0011268, C1444681, C0017920],
Figure 26642DEST_PATH_IMAGE123
代表第i个样本 实际鉴别诊断结果为概念“C0011268”和概念“C0017920”对应的疾病,因此第i个样本对于 概念“C0011268”和概念“C0017920”为阳性样本,对于其他目标疾病概念则为阴性样本。
(3) 个性化医学知识图谱生成单元
对于第i个样本
Figure 270672DEST_PATH_IMAGE124
,基于
Figure 40045DEST_PATH_IMAGE125
Figure 669610DEST_PATH_IMAGE126
中的相关概念生成个 性化阳性医学知识图谱和个性化阴性医学知识图谱。
以个性化阳性医学知识图谱
Figure 561342DEST_PATH_IMAGE127
生成为例:
设置中间概念集
Figure 151724DEST_PATH_IMAGE128
并初始化为
Figure 98689DEST_PATH_IMAGE129
,设置个性化阳性医学知识图谱
Figure 723705DEST_PATH_IMAGE130
并初始化为
Figure 786339DEST_PATH_IMAGE129
,设置概念u在含因果性医学知识图谱G的相关概念集为
Figure 988650DEST_PATH_IMAGE131
并初始化 为
Figure 365405DEST_PATH_IMAGE129
,若
Figure 454715DEST_PATH_IMAGE132
Figure 891513DEST_PATH_IMAGE133
,若
Figure 253224DEST_PATH_IMAGE134
Figure 558303DEST_PATH_IMAGE135
,遍历G中所有三元组,最终获得概念u在含因果性医学知识图谱G的相关概念集
Figure 892332DEST_PATH_IMAGE136
① 构建个性化阳性医学知识图谱
Figure 873933DEST_PATH_IMAGE130
的阳性概念-类型集
Figure 660623DEST_PATH_IMAGE137
:若概念
Figure 769393DEST_PATH_IMAGE138
,则
Figure 20246DEST_PATH_IMAGE139
,遍历
Figure 798846DEST_PATH_IMAGE140
和TD中的所有概念,最终获得
Figure 682620DEST_PATH_IMAGE141
,其中概念集
Figure 204868DEST_PATH_IMAGE142
,NT为概念类型,如果
Figure 310227DEST_PATH_IMAGE143
,则
Figure 384363DEST_PATH_IMAGE144
,如果
Figure 145645DEST_PATH_IMAGE145
,则
Figure 2743DEST_PATH_IMAGE146
,否则
Figure 805351DEST_PATH_IMAGE147
② 若概念
Figure 660175DEST_PATH_IMAGE148
,则
Figure 705491DEST_PATH_IMAGE149
, 遍历
Figure 694176DEST_PATH_IMAGE150
中的所有概念,最终获得第i个样本的个性化阳性医学知识图谱
Figure 711811DEST_PATH_IMAGE151
同理可获得第i个样本的阴性概念集
Figure 878481DEST_PATH_IMAGE152
对应的阴性概念-类型集
Figure 411093DEST_PATH_IMAGE153
和个性 化阴性医学知识图谱
Figure 813256DEST_PATH_IMAGE154
。遍历所有样本,获得所有样本的阳性概念-类型集
Figure 75610DEST_PATH_IMAGE155
、个性化阳性医学知识图谱集
Figure 334553DEST_PATH_IMAGE156
、阴性概念-类型集
Figure 292145DEST_PATH_IMAGE157
、个 性化阴性医学知识图谱集
Figure 143338DEST_PATH_IMAGE158
Figure 932302DEST_PATH_IMAGE159
(4) 推理单元
将上述获得的第i个样本的
Figure 565409DEST_PATH_IMAGE160
作为基于图神经 网络的疾病鉴别诊断模型的输入,最后的鉴别诊断的疾病排名和诊断依据作为疾病鉴别诊 断模型的输出。
对于概念
Figure 400510DEST_PATH_IMAGE161
,目标疾病概念
Figure 410054DEST_PATH_IMAGE162
,需要获取node 与td的文本向量
Figure 866574DEST_PATH_IMAGE163
以及图向量
Figure 264058DEST_PATH_IMAGE164
,以捕捉node与td在患者数据以及
Figure 570143DEST_PATH_IMAGE165
中 的相关信息。
首先获取node与td的文本向量
Figure 117799DEST_PATH_IMAGE166
,基于与node同极性的个性化医学知识图 谱预训练语言模型LM,将LM作为文本编码器,将node和td作为LM的输入,将输出获得的node 向量和td向量串联得到文本向量
Figure 943673DEST_PATH_IMAGE167
的维度。
然后获取node与td的图向量
Figure 980899DEST_PATH_IMAGE168
,基于
Figure 134800DEST_PATH_IMAGE165
利用TransE算法获取node对应 的TransE向量
Figure 361513DEST_PATH_IMAGE169
的维度,考虑到
Figure 182838DEST_PATH_IMAGE170
并没有捕获在鉴 别诊断过程中的node类型信息,将node类型信息嵌入到
Figure 390966DEST_PATH_IMAGE171
中:
Figure 422376DEST_PATH_IMAGE172
其中
Figure 311834DEST_PATH_IMAGE173
Figure 784404DEST_PATH_IMAGE174
为融合了概念类型信息的 转化向量
Figure 740596DEST_PATH_IMAGE175
的维度,其中
Figure 869089DEST_PATH_IMAGE176
是可学习的向量权重和可学习的截距值对, node类型不同,
Figure 686872DEST_PATH_IMAGE177
值不同。
为了捕获node与td在与node同极性的个性化医学知识图谱中与其他概念的信息, 设置node与td之间最大的跳数为K,定义node与td所有K跳路径集
Figure 279528DEST_PATH_IMAGE178
为:
Figure 501562DEST_PATH_IMAGE179
对于路径
Figure 258296DEST_PATH_IMAGE180
中不同的谓语
Figure 551874DEST_PATH_IMAGE181
,使用可学习的变换矩阵
Figure 936719DEST_PATH_IMAGE182
表示node和td之间如何 传递信息,
Figure 985447DEST_PATH_IMAGE183
的值与node和td之间的距离相关。由于
Figure 88532DEST_PATH_IMAGE178
中的部分路径的跳数k小于K, 为了疾病鉴别诊断模型能够并行训练以加快训练速度,引入填充矩阵
Figure 920222DEST_PATH_IMAGE184
以保证变换矩阵的大小一致。同时考虑到不同路径path对 于td预测的贡献度不同,因此引入了注意力机制以区别不同路径path的贡献度。路径path 的贡献度设置为
Figure 64633DEST_PATH_IMAGE185
Figure 894049DEST_PATH_IMAGE185
主要由两部分构成:路径path中
Figure 609064DEST_PATH_IMAGE186
类 型和
Figure 244445DEST_PATH_IMAGE187
类型的贡献度以及
Figure 603882DEST_PATH_IMAGE187
之间相关性的贡献度。将
Figure 745144DEST_PATH_IMAGE186
类 型和
Figure 619559DEST_PATH_IMAGE187
类型记作
Figure 996314DEST_PATH_IMAGE188
Figure 334891DEST_PATH_IMAGE188
的贡献度记作
Figure 568427DEST_PATH_IMAGE189
,采用条件随 机场对
Figure 133400DEST_PATH_IMAGE190
建模,
Figure 681888DEST_PATH_IMAGE191
是路径path以文本向量
Figure 750338DEST_PATH_IMAGE192
为条件的概率:
Figure 154775DEST_PATH_IMAGE193
其中
Figure 331678DEST_PATH_IMAGE194
为概率函数,
Figure 50235DEST_PATH_IMAGE195
输出的是概念类型,
Figure 35509DEST_PATH_IMAGE196
表示 多层感知机,
Figure 689475DEST_PATH_IMAGE197
是一个谓语转化矩阵,m
Figure 963462DEST_PATH_IMAGE198
的数目。
路径path中
Figure 610344DEST_PATH_IMAGE187
之间相关性的贡献度设置为
Figure 715703DEST_PATH_IMAGE199
, 采用自注意力机制进行计算。以
Figure 665204DEST_PATH_IMAGE200
为条件为每一跳的每个谓语动态生成
Figure 800388DEST_PATH_IMAGE201
得 分矩阵,以文本向量
Figure 860748DEST_PATH_IMAGE200
作为输入,对于路径path中的第j跳用
Figure 820614DEST_PATH_IMAGE202
表示, 其中转化矩阵
Figure 65651DEST_PATH_IMAGE203
,路径path中所有跳
Figure 314229DEST_PATH_IMAGE204
聚集在一起形成k跳矩阵
Figure 975018DEST_PATH_IMAGE205
,获得路径path中
Figure 133598DEST_PATH_IMAGE187
之间的相关性
Figure 159323DEST_PATH_IMAGE206
Figure 19831DEST_PATH_IMAGE207
其中
Figure 484311DEST_PATH_IMAGE208
分别是query向量,key向 量和value向量;
Figure 622031DEST_PATH_IMAGE209
分别是query向量,key向量和value 向量对应的转化矩阵;d为中间变量,
Figure 192558DEST_PATH_IMAGE210
Figure 415729DEST_PATH_IMAGE211
进行归一化。
然后通过线性转化矩阵
Figure 746217DEST_PATH_IMAGE212
,将
Figure 535181DEST_PATH_IMAGE213
转化到
Figure 433867DEST_PATH_IMAGE214
空间,并利 用
Figure 754121DEST_PATH_IMAGE210
生成
Figure 498086DEST_PATH_IMAGE215
Figure 407136DEST_PATH_IMAGE216
最后路径path的贡献度
Figure 335778DEST_PATH_IMAGE217
为:
Figure 533541DEST_PATH_IMAGE218
结合上述所有信息获得
Figure 189519DEST_PATH_IMAGE219
中所有k跳路径的向量
Figure 953076DEST_PATH_IMAGE220
Figure 193564DEST_PATH_IMAGE221
然后利用文本向量
Figure 472099DEST_PATH_IMAGE222
引导所有不同跳数k
Figure 823446DEST_PATH_IMAGE223
聚集,并通过双线性 注意力机制函数
Figure 441509DEST_PATH_IMAGE224
计算加权和,得到所有K跳路径信息向量
Figure 462686DEST_PATH_IMAGE225
Figure 369462DEST_PATH_IMAGE226
其中
Figure 55658DEST_PATH_IMAGE227
,最后利用
Figure 856124DEST_PATH_IMAGE228
更新
Figure 438415DEST_PATH_IMAGE229
获得图向量
Figure 629225DEST_PATH_IMAGE230
Figure 702135DEST_PATH_IMAGE231
其中
Figure 966894DEST_PATH_IMAGE232
是可学习的转换矩阵,
Figure 844720DEST_PATH_IMAGE233
是 非线性激活函数。
遍历
Figure 726089DEST_PATH_IMAGE234
和TD中的所有概念,即可获得
Figure 19667DEST_PATH_IMAGE234
对于TD的文本向量矩阵
Figure 545457DEST_PATH_IMAGE235
和图向量矩阵
Figure 938393DEST_PATH_IMAGE236
同理可获得
Figure 431691DEST_PATH_IMAGE237
对于TD中所有概念的文本向量矩阵
Figure 263381DEST_PATH_IMAGE238
和图向量矩阵
Figure 33890DEST_PATH_IMAGE239
,然后将该
Figure 971628DEST_PATH_IMAGE240
串联后作为输入传递给全连接层函数
Figure 624327DEST_PATH_IMAGE241
,计算第i个样本
Figure 462970DEST_PATH_IMAGE242
个目标疾病概念对应的概率 矩阵
Figure 681461DEST_PATH_IMAGE243
Figure 947358DEST_PATH_IMAGE244
其中
Figure 821773DEST_PATH_IMAGE245
Figure 73894DEST_PATH_IMAGE246
是串联函数。
疾病鉴别诊断模型的损失函数
Figure 553416DEST_PATH_IMAGE247
采用的是BCEWithLogitsLoss损失函 数:
Figure 786952DEST_PATH_IMAGE248
其中
Figure 210980DEST_PATH_IMAGE249
是非线性激活函数,
Figure 391425DEST_PATH_IMAGE250
为目标疾病的权重矩阵,若疾病dis的正样 本有100个,负样本有300个,则疾病dis对应的权重为
Figure 522192DEST_PATH_IMAGE251
对于第i个样本对应的疾病鉴别诊断模型的最终输出
Figure 503793DEST_PATH_IMAGE252
Figure 290483DEST_PATH_IMAGE253
表示第i个样本的第j 个目标疾病的预测概率,若
Figure 133674DEST_PATH_IMAGE254
则说明第i个样本预 测为第j个目标疾病的概率大于预测为第
Figure 384527DEST_PATH_IMAGE255
个目标疾病的概率,最终按照预测概率从大到 小输出第i个样本预测的疾病排名和诊断依据,诊断依据为每个目标疾病对应的
Figure 897548DEST_PATH_IMAGE256
Figure 312480DEST_PATH_IMAGE257
中路径贡献度最大的三条推理路径以及对应的路径贡献度,将预测的疾病排名和诊断 依据提供给医生,辅助医生进行疾病鉴别诊断。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (10)

1.一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,其特征在于,该系统包括:
(1)知识源模块:管理知识图谱构建所需的医学知识源,获取疾病诊断相关知识;
(2)知识提取模块:针对结构化知识,确定表征因果关系的谓语集,查询和提取疾病诊断相关的因果性三元组;针对非结构化知识,确定包含因果关系描述的文本,对所述文本进行分词后提取因果性三元组;
(3)知识映射与校准模块:基于预设的映射规则,将不同医学知识源提取的三元组进行规范编码,并对概念的一词多名称问题进行概念校准,删除重复的三元组,形成三元组集;
(4)知识图谱构建模块:基于知识映射与校准模块输出的三元组集,采用自上而下的模式依次构建含因果性医学知识图谱的顶层类、实例、属性、以及实例间的关系;
(5)疾病鉴别诊断模块,包括:数据获取单元、数据预处理单元、个性化医学知识图谱生成单元和推理单元;
所述数据获取单元:获取患者数据并进行结构化处理,提取阳性数据和阴性数据,并分别映射为含因果性医学知识图谱对应的阳性概念集和阴性概念集;
所述数据预处理单元:将患者的单次访问记录作为单个样本,每个样本的数据集按照阳性概念集、阴性概念集、目标疾病诊断标签、目标疾病概念集进行整理;
所述个性化医学知识图谱生成单元:通过搜索含因果性医学知识图谱,基于每个样本的阳性概念集和目标疾病概念集生成阳性概念-类型集和个性化阳性医学知识图谱,基于每个样本的阴性概念集和目标疾病概念集生成阴性概念-类型集和个性化阴性医学知识图谱;
所述推理单元:构建基于图神经网络的疾病鉴别诊断模型,将所述个性化医学知识图谱生成单元的输出作为所述疾病鉴别诊断模型的输入,基于预训练的语言模型获取不同极性概念-类型集与目标疾病概念集对应的文本向量,基于多跳信息传递机制和注意力机制获取不同极性概念-类型集与目标疾病概念集对应的图向量,基于文本向量和图向量开展推理输出鉴别诊断的疾病排名和诊断依据。
2.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,其特征在于,所述知识源模块中,所述医学知识源包括电子病历数据库、医学文献数据库、临床指南、权威教材以及SNOMED CT数据库;所述医学文献数据库采用SemMedDB文献库中的predication数据库。
3.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,其特征在于,所述知识提取模块中,针对采用三元组形式存储的结构化知识,查询和提取满足以下两个条件的三元组:条件1,主语或宾语的语义类型必须为疾病、症状、体征、实验室检查结果、药物、人口统计学信息相关的语义类型;条件2,主语和宾语相关的因果性三元组在主语和宾语相关的所有三元组中的占比不小于预设阈值。
4.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,其特征在于,所述知识提取模块中,针对非结构化知识,基于结构化知识提取的三元组中的概念构造概念集,利用正则表达式提取包含因果关系描述的文本后,针对文本中的每个句子,以句子描述的疾病作为三元组的主语或者宾语,对句子进行分词,提取满足以下条件1和条件2或者条件1和条件3的三元组:条件1,分词得到的词语属于名词;条件2,如果概念集包含该词语,且该词语在概念集中的语义类型为症状、体征、实验室检查结果相关语义类型,那么三元组主语为疾病,谓语为因果关系谓语,宾语为该词语;条件3,如果概念集包含该词语,且该词语在概念集中的语义类型为生活习惯、病毒、细菌、真菌、药物相关语义类型,那么三元组主语为该词语,谓语为因果关系谓语,宾语为疾病。
5.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,其特征在于,所述知识映射与校准模块中,基于预设的映射规则,将不同医学知识源获取的三元组规范为UMLS编码;针对概念存在的一词多名称问题,分别设计概念对应的缩写词典、别名词典和商品名词典,完成概念名称的校准;删除不同医学知识源获取的重复三元组,形成三元组集。
6.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,其特征在于,所述知识图谱构建模块中,所述顶层类包括临床发现、诊断程序、患者信息、临床药物、疾病诊断以及生活习惯,所述实例为三元组集中的概念,所述属性包括实例的中文全称、中文别名、英文全称、英文缩写、UMLS编码、SNOMED CT编码,所述关系为三元组集中的谓语。
7.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,其特征在于,所述数据获取单元中,针对患者结构化数据,利用条件判断提取阳性数据和阴性数据;针对患者非结构化数据,利用正则表达式将非结构化数据转化为分句集,抽取部分分句并手动标注分句的极性标签,构造分句极性判断的语料库,利用语料库训练BERT模型,获取所有分句的极性标签,对不同极性的分句进行分词后,分别提取阳性分句中的阳性数据以及阴性分句中的阴性数据;将阳性数据和阴性数据分别映射为阳性概念集和阴性概念集。
8.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,其特征在于,所述个性化医学知识图谱生成单元中,针对含因果性医学知识图谱中的实例,与该实例出现在同一三元组中的其他实例组成的集合作为该实例的相关概念集;
遍历每个样本的阳性概念集和目标疾病概念集中的所有概念,利用阳性概念、目标疾病概念和因果关系谓语构造三元组,若含因果性医学知识图谱包含该三元组,则将阳性概念和目标疾病概念的相关概念集的交集分别加入中间概念集;遍历结束后,合并中间概念集、阳性概念集和目标疾病概念集获得每个样本的阳性概念-类型集;
遍历每个样本的阳性概念-类型集中的两两不同概念,若两个不同概念与因果关系谓语组成的三元组属于含因果性医学知识图谱,则将该三元组加入该样本的个性化阳性医学知识图谱;
遍历每个样本的阴性概念集和目标疾病概念集中的所有概念,利用阴性概念、目标疾病概念和因果关系谓语构造三元组,若含因果性医学知识图谱包含该三元组,则将阴性概念和目标疾病概念的相关概念集的交集分别加入中间概念集;遍历结束后,合并中间概念集、阴性概念集和目标疾病概念集获得每个样本的阴性概念-类型集;
遍历每个样本的阴性概念-类型集中的两两不同概念,若两个不同概念与因果关系谓语组成的三元组属于含因果性医学知识图谱,则将该三元组加入该样本的个性化阴性医学知识图谱。
9.根据权利要求1-8任一项所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,其特征在于,所述推理单元中,文本向量的获取包括:对于概念
Figure DEST_PATH_IMAGE002
和目标疾病概念
Figure DEST_PATH_IMAGE004
,其中
Figure DEST_PATH_IMAGE006
分别为第i个样本的阳性概念-类型集和阴性概念-类型集,TD为目标疾病概念集,基于与node同极性的个性化医学知识图谱预训练语言模型LM,将node和td作为LM的输入,将LM输出的向量串联得到文本向量
Figure DEST_PATH_IMAGE008
;遍历
Figure DEST_PATH_IMAGE010
和TD中的所有概念,得到第i个样本的阳性文本向量矩阵
Figure DEST_PATH_IMAGE012
,遍历
Figure DEST_PATH_IMAGE014
和TD中的所有概念,得到第i个样本的阴性文本向量矩阵
Figure DEST_PATH_IMAGE016
图向量的获取包括:
基于个性化医学知识图谱,利用TransE算法获取node对应的TransE向量
Figure DEST_PATH_IMAGE018
,将
Figure DEST_PATH_IMAGE020
转化为融合概念类型信息的转化向量
Figure DEST_PATH_IMAGE022
基于多跳信息传递机制获取node与td在与node同极性的个性化医学知识图谱中的所有K跳路径信息向量
Figure DEST_PATH_IMAGE024
,包括:定义node与td所有K跳路径集
Figure DEST_PATH_IMAGE026
由所有k个首尾相连的三元组集组成,
Figure DEST_PATH_IMAGE028
,记为:
Figure DEST_PATH_IMAGE030
其中
Figure DEST_PATH_IMAGE032
为路径
Figure DEST_PATH_IMAGE034
中三元组的主语或宾语,
Figure DEST_PATH_IMAGE036
为路径path中三元组的谓语;
计算path对于td预测的贡献度
Figure DEST_PATH_IMAGE038
Figure 966076DEST_PATH_IMAGE038
由path中采用条件随机场计算得到的主语-谓语-宾语集类型
Figure DEST_PATH_IMAGE040
的贡献度
Figure DEST_PATH_IMAGE042
以及采用自注意力机制计算得到的谓语集中谓语间相关性的贡献度
Figure DEST_PATH_IMAGE044
相乘得到;
Figure DEST_PATH_IMAGE046
是path以
Figure DEST_PATH_IMAGE048
为条件的概率;
Figure 555320DEST_PATH_IMAGE044
是path以
Figure 69478DEST_PATH_IMAGE048
为条件为path中的每个谓语动态生成的得分矩阵;
获得
Figure DEST_PATH_IMAGE050
中所有k跳路径的向量
Figure DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE054
其中
Figure DEST_PATH_IMAGE056
为可学习的变换矩阵,
Figure DEST_PATH_IMAGE058
为填充矩阵;
利用
Figure DEST_PATH_IMAGE060
引导所有的
Figure DEST_PATH_IMAGE062
聚集,并通过双线性注意力机制函数计算加权和,得到所有K跳路径信息向量
Figure DEST_PATH_IMAGE064
利用
Figure 448376DEST_PATH_IMAGE064
更新
Figure DEST_PATH_IMAGE066
获得图向量
Figure DEST_PATH_IMAGE068
Figure DEST_PATH_IMAGE070
其中
Figure DEST_PATH_IMAGE072
Figure DEST_PATH_IMAGE074
是可学习的转换矩阵,
Figure DEST_PATH_IMAGE076
是非线性激活函数;
遍历
Figure DEST_PATH_IMAGE078
和TD中的所有概念,得到第i个样本的阳性图向量矩阵
Figure DEST_PATH_IMAGE080
,遍历
Figure DEST_PATH_IMAGE082
和TD中的所有概念,得到第i个样本的阴性图向量矩阵
Figure DEST_PATH_IMAGE084
10.根据权利要求9所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,其特征在于,将第i个样本获得的
Figure DEST_PATH_IMAGE086
串联后作为输入传递到全连接层,得到第i个样本所有目标疾病概念对应的概率矩阵
Figure DEST_PATH_IMAGE088
;根据
Figure 777595DEST_PATH_IMAGE088
中的概率值从大到小输出第i个样本预测的疾病排名,并将每个目标疾病在个性化阳性医学知识图谱和个性化阴性医学知识图谱中的路径path和贡献度
Figure DEST_PATH_IMAGE090
作为诊断依据,辅助医生进行疾病鉴别诊断。
CN202111452519.XA 2021-12-01 2021-12-01 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统 Active CN113871003B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111452519.XA CN113871003B (zh) 2021-12-01 2021-12-01 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统
PCT/CN2022/124227 WO2023098288A1 (zh) 2021-12-01 2022-10-10 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111452519.XA CN113871003B (zh) 2021-12-01 2021-12-01 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统

Publications (2)

Publication Number Publication Date
CN113871003A CN113871003A (zh) 2021-12-31
CN113871003B true CN113871003B (zh) 2022-04-08

Family

ID=78985567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111452519.XA Active CN113871003B (zh) 2021-12-01 2021-12-01 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统

Country Status (2)

Country Link
CN (1) CN113871003B (zh)
WO (1) WO2023098288A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113871003B (zh) * 2021-12-01 2022-04-08 浙江大学 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统
CN114496234B (zh) * 2022-04-18 2022-07-19 浙江大学 一种基于认知图谱的全科患者个性化诊疗方案推荐系统
CN115658925B (zh) * 2022-11-21 2023-04-25 阿里健康科技(杭州)有限公司 医学知识组的生成方法、装置、计算机设备和存储介质
CN115905960B (zh) * 2023-03-08 2023-05-12 安徽通灵仿生科技有限公司 一种基于心室辅助装置的不良事件检测方法及装置
CN116434969B (zh) * 2023-06-14 2023-09-12 之江实验室 一种基于因果结构不变性的多中心慢性病预测装置
CN116502129B (zh) * 2023-06-21 2023-09-22 之江实验室 一种知识与数据协同驱动的不平衡临床数据分类系统
CN116525125B (zh) * 2023-07-04 2023-09-19 之江实验室 一种虚拟电子病历的生成方法及装置
CN116682553B (zh) * 2023-08-02 2023-11-03 浙江大学 一种融合知识与患者表示的诊断推荐系统
CN117059261A (zh) * 2023-08-21 2023-11-14 安徽农业大学 一种基于多模态知识图谱的畜禽疾病诊断方法及系统
CN117577340B (zh) * 2023-10-26 2024-04-16 杭州乐九医疗科技有限公司 一种基于数据融合的科研数据采集配置方法及系统
CN117423470B (zh) * 2023-10-30 2024-04-23 盐城市第三人民医院 一种慢性病临床决策支持系统及构建方法
CN117350302B (zh) * 2023-11-04 2024-04-02 湖北为华教育科技集团有限公司 一种基于语义分析的语言撰写文本纠错方法、系统及人机交互装置
CN117271700B (zh) * 2023-11-23 2024-02-06 武汉蓝海科创技术有限公司 集成智能学习功能的设备使用与维修知识库的构建系统
CN117453963B (zh) * 2023-12-26 2024-03-01 深圳市健怡康医疗器械科技有限公司 康复患者数据管理系统
CN117690600B (zh) * 2024-02-01 2024-04-30 北方健康医疗大数据科技有限公司 基于知识图谱的传染病预测方法、系统、终端及存储介质
CN117764204A (zh) * 2024-02-21 2024-03-26 神州医疗科技股份有限公司 一种医学领域中的强化学习数据构建方法及系统
CN117995392A (zh) * 2024-04-07 2024-05-07 北京惠每云科技有限公司 鉴别诊断生成方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111863237A (zh) * 2020-05-29 2020-10-30 东莞理工学院 一种基于深度学习的移动端疾病智能辅助诊断系统
CN112164460A (zh) * 2020-10-19 2021-01-01 科技谷(厦门)信息技术有限公司 一种基于医疗知识图谱的智能疾病辅助诊断系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2012225661A1 (en) * 2011-03-07 2013-09-19 Health Fidelity, Inc. Systems and methods for processing patient history data
US20170323071A1 (en) * 2016-05-05 2017-11-09 James Stewart Bates Systems and methods for generating medical diagnosis
CN111370127B (zh) * 2020-01-14 2022-06-10 之江实验室 一种基于知识图谱的跨科室慢性肾病早期诊断决策支持系统
CN113205504B (zh) * 2021-05-12 2022-12-02 青岛大学附属医院 基于知识图谱的人工智能肾肿瘤预测系统
CN113505236B (zh) * 2021-06-29 2023-08-04 朱一帆 医疗知识图谱的构建方法、装置、设备及计算机可读介质
CN113380400A (zh) * 2021-07-07 2021-09-10 中国科学院空间应用工程与技术中心 一种基于知识图谱和深度学习的中医智能诊疗辅助系统
CN113871003B (zh) * 2021-12-01 2022-04-08 浙江大学 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111863237A (zh) * 2020-05-29 2020-10-30 东莞理工学院 一种基于深度学习的移动端疾病智能辅助诊断系统
CN112164460A (zh) * 2020-10-19 2021-01-01 科技谷(厦门)信息技术有限公司 一种基于医疗知识图谱的智能疾病辅助诊断系统

Also Published As

Publication number Publication date
CN113871003A (zh) 2021-12-31
WO2023098288A1 (zh) 2023-06-08

Similar Documents

Publication Publication Date Title
CN113871003B (zh) 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统
US11942221B2 (en) Disambiguation of ambiguous portions of content for processing by automated systems
CN111708874B (zh) 基于复杂意图智能识别的人机交互问答方法与系统
Pezoulas et al. Medical data quality assessment: On the development of an automated framework for medical data curation
Friedman et al. Natural language processing in health care and biomedicine
Li et al. Intelligent diagnosis with Chinese electronic medical records based on convolutional neural networks
Fang et al. Feature Selection Method Based on Class Discriminative Degree for Intelligent Medical Diagnosis.
US10380251B2 (en) Mining new negation triggers dynamically based on structured and unstructured knowledge
Friedman et al. Natural language and text processing in biomedicine
Landolsi et al. Information extraction from electronic medical documents: state of the art and future research directions
WO2023029506A1 (zh) 病情分析方法、装置、电子设备及存储介质
Raghavan et al. emrkbqa: A clinical knowledge-base question answering dataset
CN113707339B (zh) 一种多源异质数据库间概念对齐与内容互译方法及系统
Zhu et al. Detecting concept relations in clinical text: Insights from a state-of-the-art model
US11170895B2 (en) Olfactory cognitive diagnosis
Ruan et al. QAnalysis: a question-answer driven analytic tool on knowledge graphs for leveraging electronic medical records for clinical research
Cao et al. Multi-information source hin for medical concept embedding
Yu et al. Dataset and enhanced model for eligibility criteria-to-sql semantic parsing
CN117577254A (zh) 医疗领域语言模型构建及电子病历文本结构化方法、系统
CN113314236A (zh) 一种面向高血压的智能问答系统
Johnsi et al. A concise survey on datasets, tools and methods for biomedical text mining
CN112669961A (zh) 一种基于大数据推理的智能分诊方法
Saigaonkar et al. Predicting chronic diseases using clinical notes and fine-tuned transformers
CN117194604B (zh) 一种智慧医疗病患问诊语料库构建方法
CN115312186B (zh) 一种糖尿病视网膜病变辅助筛查系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant