CN113871003B

CN113871003B - 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统

Info

Publication number: CN113871003B
Application number: CN202111452519.XA
Authority: CN
Inventors: 李劲松; 吕可伟; 田雨; 周天舒
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2022-04-08
Anticipated expiration: 2041-12-01
Also published as: CN113871003A; WO2023098288A1

Abstract

本发明公开了一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统，本发明设计和构建了非结构化数据提取、映射和校准工具，从电子病历、医学文献、临床指南等多源异构医学知识源中提取与疾病诊疗相关的因果性知识，构建包含病史、症状、体征、实验室检查结果、用药、人口统计学信息等关键诊断信息的含因果性医学知识图谱，并在构建过程中设计相应的知识提取规则，减少含因果性医学知识图谱的噪声，提高疾病鉴别诊断模型的准确度和运行效率。本发明基于含因果性医学知识图谱，提取患者所有的个性化诊断数据，并充分利用患者数据中的阴性检查结果和阴性症状等阴性数据，利用疾病鉴别诊断模型开展显式推理，给出具有明确诊断依据的推理结果。

Description

一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统

技术领域

本发明属于医疗健康信息技术领域，尤其涉及一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统。

背景技术

疾病鉴别诊断是疾病诊疗过程中的重要一环，临床医生通过问诊，基于现有的医学知识和诊疗经验，根据患者当前的病史、实验室检查、体征等信息综合分析推理，给出患者疑似疾病的列表。但由于患者疾病情况复杂，变化多端，许多患者身患多种疾病，且部分疾病发病率低，医生缺乏相应的诊疗经验，在现实高强度工作条件下，容易发生漏诊和误诊的现象。以慢性肾病为例，据统计慢性肾病在实际患病人群中的知晓率仅为12.5%。

当前减少医生诊疗错误发生的常用方法是引入决策支持系统。基于决策支持系统强大的知识库和推理算法，可以帮助医生减少知识盲区，提醒医生患者患某些罕见疾病的可能性。常见的技术方案包括获取和推理两个模块，获取模块主要获取患者诊断所需的症状、实验室检查结果等特征，推理模块则是根据获取的特征信息，基于知识库中症状与疾病的关系等内容，基于规则推理、机器学习等算法得出患者疑似疾病列表。

现有技术方案存在如下缺陷：

1.基于电子病历构建的知识图谱大多只利用了EHR数据和简单的关系，没有构建疾病更深层次的关系，例如疾病与诊疗手段、疾病与药物、疾病与生活习惯等关系，同时EHR数据噪声非常大，建立起来的知识图谱质量不佳；

2.大多数疾病鉴别诊断的模型都是基于预先挑选的变量进行预测，没有充分利用患者所有的个性化数据；

3.大多数疾病鉴别诊断的算法研究只利用了阳性检查结果和阳性症状，而忽略了阴性检查结果和阴性症状的价值；

4.单纯基于图嵌入方式的知识图谱推理算法缺乏可解释性，而可解释性强的规则推理算法则过于简单，需要人为制定和更新规则，难以应对复杂多变的临床环境。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统。

本发明的目的是通过以下技术方案实现的：一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统，该系统包括：

(1)知识源模块：管理知识图谱构建所需的医学知识源，获取疾病诊断相关知识；

(2)知识提取模块：针对结构化知识，确定表征因果关系的谓语集，查询和提取疾病诊断相关的因果性三元组；针对非结构化知识，确定包含因果关系描述的文本，对所述文本进行分词后提取因果性三元组；

(3)知识映射与校准模块：基于预设的映射规则，将不同医学知识源提取的三元组进行规范编码，并对概念的一词多名称问题进行概念校准，删除重复的三元组，形成三元组集；

(4)知识图谱构建模块：基于知识映射与校准模块输出的三元组集，采用自上而下的模式依次构建含因果性医学知识图谱的顶层类、实例、属性、以及实例间的关系；

(5)疾病鉴别诊断模块，包括：数据获取单元、数据预处理单元、个性化医学知识图谱生成单元和推理单元；

所述数据获取单元：获取患者数据并进行结构化处理，提取阳性数据和阴性数据，并分别映射为含因果性医学知识图谱对应的阳性概念集和阴性概念集；

所述数据预处理单元：将患者的单次访问记录作为单个样本，每个样本的数据集按照阳性概念集、阴性概念集、目标疾病诊断标签、目标疾病概念集进行整理；

所述个性化医学知识图谱生成单元：通过搜索含因果性医学知识图谱，基于每个样本的阳性概念集和目标疾病概念集生成阳性概念-类型集和个性化阳性医学知识图谱，基于每个样本的阴性概念集和目标疾病概念集生成阴性概念-类型集和个性化阴性医学知识图谱；

所述推理单元：构建基于图神经网络的疾病鉴别诊断模型，将所述个性化医学知识图谱生成单元的输出作为所述疾病鉴别诊断模型的输入，基于预训练的语言模型获取不同极性概念-类型集与目标疾病概念集对应的文本向量，基于多跳信息传递机制和注意力机制获取不同极性概念-类型集与目标疾病概念集对应的图向量，基于文本向量和图向量开展推理输出鉴别诊断的疾病排名和诊断依据。

进一步地，所述知识源模块中，所述医学知识源包括电子病历数据库、医学文献数据库、临床指南、权威教材以及SNOMED CT数据库；所述医学文献数据库采用SemMedDB文献库中的predication数据库。

进一步地，所述知识提取模块中，针对采用三元组形式存储的结构化知识，查询和提取满足以下两个条件的三元组：条件1，主语或宾语的语义类型必须为疾病、症状、体征、实验室检查结果、药物、人口统计学信息相关的语义类型；条件2，主语和宾语相关的因果性三元组在主语和宾语相关的所有三元组中的占比不小于预设阈值。

进一步地，所述知识提取模块中，针对非结构化知识，基于结构化知识提取的三元组中的概念构造概念集，利用正则表达式提取包含因果关系描述的文本后，针对文本中的每个句子，以句子描述的疾病作为三元组的主语或者宾语，对句子进行分词，提取满足以下条件1和条件2或者条件1和条件3的三元组：条件1，分词得到的词语属于名词；条件2，如果概念集包含该词语，且该词语在概念集中的语义类型为症状、体征、实验室检查结果相关语义类型，那么三元组主语为疾病，谓语为因果关系谓语，宾语为该词语；条件3，如果概念集包含该词语，且该词语在概念集中的语义类型为生活习惯、病毒、细菌、真菌、药物相关语义类型，那么三元组主语为该词语，谓语为因果关系谓语，宾语为疾病。

进一步地，所述知识映射与校准模块中，基于预设的映射规则，将不同医学知识源获取的三元组规范为UMLS编码；针对概念存在的一词多名称问题，分别设计概念对应的缩写词典、别名词典和商品名词典，完成概念名称的校准；删除不同医学知识源获取的重复三元组，形成三元组集。

进一步地，所述知识图谱构建模块中，所述顶层类包括临床发现、诊断程序、患者信息、临床药物、疾病诊断以及生活习惯，所述实例为三元组集中的概念，所述属性包括实例的中文全称、中文别名、英文全称、英文缩写、UMLS编码、SNOMED CT编码，所述关系为三元组集中的谓语。

进一步地，所述数据获取单元中，针对患者结构化数据，利用条件判断提取阳性数据和阴性数据；针对患者非结构化数据，利用正则表达式将非结构化数据转化为分句集，抽取部分分句并手动标注分句的极性标签，构造分句极性判断的语料库，利用语料库训练BERT模型，获取所有分句的极性标签，对不同极性的分句进行分词后，分别提取阳性分句中的阳性数据以及阴性分句中的阴性数据；将阳性数据和阴性数据分别映射为阳性概念集和阴性概念集。

进一步地，所述个性化医学知识图谱生成单元中，针对含因果性医学知识图谱中的实例，与该实例出现在同一三元组中的其他实例组成的集合作为该实例的相关概念集；

遍历每个样本的阳性概念集和目标疾病概念集中的所有概念，利用阳性概念、目标疾病概念和因果关系谓语构造三元组，若含因果性医学知识图谱包含该三元组，则将阳性概念和目标疾病概念的相关概念集的交集加入中间概念集；遍历结束后，合并中间概念集、阳性概念集和目标疾病概念集获得每个样本的阳性概念-类型集；

遍历每个样本的阳性概念-类型集中的两两不同概念，若两个不同概念与因果关系谓语组成的三元组属于含因果性医学知识图谱，则将该三元组加入该样本的个性化阳性医学知识图谱；

遍历每个样本的阴性概念集和目标疾病概念集中的所有概念，利用阴性概念、目标疾病概念和因果关系谓语构造三元组，若含因果性医学知识图谱包含该三元组，则将阴性概念和目标疾病概念的相关概念集的交集加入中间概念集；遍历结束后，合并中间概念集、阴性概念集和目标疾病概念集获得每个样本的阴性概念-类型集；

遍历每个样本的阴性概念-类型集中的两两不同概念，若两个不同概念与因果关系谓语组成的三元组属于含因果性医学知识图谱，则将该三元组加入该样本的个性化阴性医学知识图谱。

进一步地，所述推理单元中，文本向量的获取包括：对于概念

和目标疾病概念

，其中

分别为第i个样本的阳性概念-类型集和阴性概念-类型集，TD为目标疾病概念集，基于与node同极性的个性化医学知识图谱预训练语言模型LM，将node和td作为LM的输入，将LM输出的向量串联得到文本向量

；遍历

和TD中的所有概念，得到第i个样本的阳性文本向量矩阵

，遍历

和TD中的所有概念，得到第i个样本的阴性文本向量矩阵

；

图向量的获取包括：

基于个性化医学知识图谱，利用TransE算法获取node对应的TransE向量

，将

转化为融合概念类型信息的转化向量

；

基于多跳信息传递机制获取node与td在与node同极性的个性化医学知识图谱中的所有K跳路径信息向量

，包括：定义node与td所有K跳路径集

由所有k个首尾相连的三元组集组成，

，记为：

其中

为路径

中三元组的主语或宾语，

为路径path中三元组的谓语；

计算path对于td预测的贡献度

，

由path中采用条件随机场计算得到的主语-谓语-宾语集类型

的贡献度

以及采用自注意力机制计算得到的谓语集中谓语间相关性的贡献度

相乘得到；

是path以

为条件的概率；

是path以

为条件为path中的每个谓语动态生成的得分矩阵；

获得

中所有k跳路径的向量

：

其中

为可学习的变换矩阵，

为填充矩阵；

利用

引导所有的

聚集，并通过双线性注意力机制函数计算加权和，得到所有K跳路径信息向量

；

利用

更新

获得图向量

：

其中

和

是可学习的转换矩阵，

是非线性激活函数；

遍历

和TD中的所有概念，得到第i个样本的阳性图向量矩阵

，遍历

和TD中的所有概念，得到第i个样本的阴性图向量矩阵

。

进一步地，将第i个样本获得的

串联后作为输入传递到全连接层，得到第i个样本所有目标疾病概念对应的概率矩阵

；根据

中的概率值从大到小输出第i个样本预测的疾病排名，并将每个目标疾病在个性化阳性医学知识图谱和个性化阴性医学知识图谱中的路径path和贡献度

作为诊断依据，辅助医生进行疾病鉴别诊断。

本发明的有益效果是：本发明设计和构建了非结构化数据提取、映射和校准工具，从电子病历、医学文献、临床指南、SNOMED CT等多源异构医学知识源中提取与疾病诊疗相关的因果性知识，构建包含病史、症状、体征、实验室检查结果、用药、人口统计学信息等关键诊断信息的含因果性医学知识图谱，并在构建过程中设计相应的知识提取规则，减少含因果性医学知识图谱的噪声，提高疾病鉴别诊断模型的准确度和运行效率。本发明基于含因果性医学知识图谱，提取患者所有的个性化诊断数据，并充分利用患者数据中的阴性检查结果和阴性症状等阴性数据，利用疾病鉴别诊断模型开展显式推理，给出具有明确诊断依据的推理结果。

附图说明

图1为本发明实施例提供的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统框架图；

图2为本发明实施例提供的含因果性医学知识图谱构建时的数据流动路径图；

图3为本发明实例提供的基于含因果性医学知识图谱的疾病鉴别诊断流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明实施例提供一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统，如图1所示，该系统包括以下模块：

1. 知识源模块：管理知识图谱构建所需的医学知识源信息，医学知识源与含因果性医学知识图谱的数据流动如图2所示，医学知识源包括电子病历数据库、医学文献数据库、临床指南、权威教材以及其他医学知识源。其中电子病历数据库主要采用Oracle数据库，医学文献数据库在这里主要采用的是美国国家医学图书馆构建的SemMedDB文献库中的predication数据库，采用mysql对该数据库进行加载和存储。基于IP地址、用户名、密码，加载和连接数据库，基于SQL查询数据库相关内容，返回相应的数据。其中电子病历数据库返回的数据信息包括表名、字段名、字段类型、具体数值，医学文献数据库返回的数据信息包括表名、字段名、字段类型、具体数值。临床指南和权威教材主要以文本形式存储。其他医学知识源这里主要指的是SNOMED CT（Systematized Nomenclature of Medicine-ClinicalTerms，系统化临床医学术语集）数据库，它以OWL(Web Ontology Language，网络本体语言)格式存储。

2. 知识提取模块

(1) 结构化知识提取：主要针对predication数据库和SNOMED CT数据库，其知识主要采用SPO（Subject-Predicate-Object）三元组形式存储。

对于predication数据库，利用SQL查询同时满足以下两个条件的三元组

：

① 主语s和宾语o的语义类型集为

和

，疾病、症状、体征、实验室检查结果、药物、人口统计学信息相关的语义类型集为

，满足以下条件：

② 所有谓语p的集合为

，表征因果关系的谓语p的集合为

，

中通常包含causes、produces、predisposes、isa等，满足以下条件：

其中

为三元组

在predication数据库中出现的总次数，

为三元组

在predication数据库中出现的总次数；

对于SNOMED CT数据库，利用

软件自带的SPARQL工具，查询获取疾病、症状、体征、实验室检查结果、药物、人口统计学信息等三元组。

由于predication数据库和SNOMED CT数据库均以英文形式存储，所以利用谷歌翻译API将提取的三元组自动翻译为中文，并根据《英汉医学词典》对翻译后的三元组进行修正。

(2) 非结构化知识提取：主要针对电子病历数据库、权威教材和临床指南中的文本数据。

首先基于步骤(1)中结构化知识提取获取的概念（主语s、宾语o等均属于概念）及语义类型构造概念集

，其中a为概念总数，概念

，

为cs的中文名称集，

为cs的唯一标识符，

为cs的语义类型集。

然后对于文本数据集

，

，

，其中

至

为文本数据集H中各文本，

至

为文本D中各句子，hl为文本数据集H中的文本个数，dl为文本D中的句子个数。对于文本数据集H中的每个文本，随机抽取若干个句子（例如可以设置抽取文本中20%的句子），人工分析并确定文本数据集H中常见的因果关系谓语

，利用正则表达式提取文本数据集H中所有包含

的文本

。基于概念集CS自定义词典

，并将自定义词典

加载至结巴分词工具中。对于每一个句子

，基于结巴分词工具对

进行分词

，其中

至

为句子

的各词语，

至

为句子

中各词语的词性，sl为句子

的分词长度。对于文本中存在数字类型实验室检查结果的情况，例如“24小时尿蛋白2g/24小时”，先利用正则表达式抽取相应的检查项目、检查值与单位，再根据医院化验单上该检查项目检查值的正常范围，判断检查值是否正常，再转化为概念集CS中的相应概念，例如24小时尿蛋白正常范围为小于0.15g/24小时，因此上述检查值超过正常范围，对应CS中为 [（“蛋白尿”），“C0001925”，（“发现”）]。

考虑到文本

中通常一句话是描述同一种疾病dis，因此以dis作为三元组的主语s或者宾语o，设名词词性集为N，症状、体征、实验室检查结果相关语义类型集为

，生活习惯、病毒、细菌、真菌、药物等相关语义类型集为

，从

的每一个句子

中抽取满足以下条件①和②或者①和③的所有三元组

：

3. 知识映射与校准模块

(1) 知识映射：由于文本数据提取的概念存在一词多名称问题，且SNOMED CT与SemMedDB编码方式不统一，因此需要将不同知识源提取的三元组规范为统一的编码方式。本发明含因果性医学知识图谱构建统一采用SemMedDB使用的UMLS（Unified MedicalLanguage System，统一医学语言系统）编码方式。通过SNOMED CT已有的UMLS与SNOMED CT概念之间的映射关系，基于预设的映射规则，实现SNOMED CT中提取的三元组的概念的编码方式向UMLS编码方式的映射。

(2) 知识校准：由于部分概念无法实现概念名称与UMLS中概念的完全匹配，例如文本数据中常出现疾病和药物的缩写，疾病和药物别名或者药物的商品名，因此根据《中华医典》、《实验诊断学》等权威教材构造相应的缩写词典、别名词典和商品名词典，根据词典存储的对应关系完成概念名称的校准，然后再进行知识映射。同时对于不同医学知识源提取的三元组

进行去重操作，删除重复的三元组，最后形成三元组集TR。

4. 知识图谱构建模块

知识图谱构建参考SNOMED CT等知识图谱结构，采用自上而下的模式构建知识图谱，设计临床发现、诊断程序、患者信息、临床药物、疾病诊断、生活习惯等六个顶层类；然后定义每个顶层类的实例，例如二甲双胍和格列齐特是降糖药的实例，接着定义每个实例的属性，属性包括实例的中文全称、实例的中文别名、实例的英文全称、实例的英文缩写、实例的UMLS编码、实例的SNOMED CT编码等；最后基于三元组集TR定义不同实例之间的关系，例如糖尿病会导致血糖升高；最后形成含因果性医学知识图谱G。

以糖尿病肾病作为实例举例说明，糖尿病肾病属于疾病诊断顶层类的实例，实例的中文全称为“糖尿病肾病”，实例的中文别名为“糖尿病性肾病”、“糖尿病肾小球硬化症”，实例的英文全称为“Diabetic Nephropathy”，实例的UMLS编码为“C0011881”，实例的 SNOMED CT编码为“236500003”，实例的英文缩写为“DN”。其相关的因果关系三元组

包括（糖尿病肾病，导致，蛋白尿），（糖尿病肾病，导致，肾衰竭），（糖尿病肾病，导致，血肌酐升高），（糖尿病肾病，导致，肾小球毛细血管基底膜增厚），（糖尿病，导致，糖尿病肾病），（高血压，导致，糖尿病肾病），（高血糖，导致，糖尿病肾病），（糖尿病肾病，属于，慢性肾病）等。

5. 疾病鉴别诊断模块

基于含因果性医学知识图谱的疾病鉴别诊断流程如图3所示。

(1) 数据获取单元：数据获取包括患者的结构化数据获取和非结构化数据获取。

结构化数据通常采用.csv或者.xlsx格式存储，可以直接根据表格中检查值的正常范围划分为阳性数据和阴性数据，例如血糖检查结果可以划分为血糖正常、血糖升高或血糖降低三大类，血糖正常为阴性数据，血糖升高或血糖降低为阳性数据。

非结构化数据获取参考上述的知识提取模块，考虑到医生在实际鉴别诊断中，不仅会利用阳性检查结果和阳性症状等阳性数据，还会利用阴性检查结果和阴性症状等阴性数据，例如“患者老年，肥胖，血糖升高5年，应首先考虑糖尿病，但患者当前胰岛素自身抗体检查和谷氨酸脱羧酶抗体检查阴性，故暂不考虑I型糖尿病”。为了提取患者非结构化数据

中阴性症状，即医生在电子病历中记载的患者当前没有的症状，例如“两肺未闻及干湿罗音和哮鸣音”，首先要对句子

的极性进行判断。由于句子中不同部分极性可能不相同，例如“患者贫血貌，咽部略红，扁桃体无肿大，皮肤巩膜无黄染，浅表淋巴结未及肿大”，因此定义句子分割相关的标点符号后，利用正则表达式将句子

分成

，

至

为句子

的各分句，bl为句子

的分句长度。随机抽取若干位患者样本的非结构化数据，手动标注样本的非结构化数据中各分句的极性后，构造极性判断的语料库

，

至

为语料库C中的各分句，cl为语料库C中的分句总数，

为分句手动标注的极性标签，其中“1”表示阳性，“0”表示阴性；利用Google的BERT模型，将C作为训练集，余下患者样本的所有分句集

作为测试集，得到所有患者样本的所有非结构化数据的分句的极性标签，然后参考上述知识提取模块中非结构化知识提取过程获取不同极性分句中的阳性数据和阴性数据。

参考知识映射与校准模块中的映射和校准过程，获取患者阳性数据对应的阳性概念集，以及阴性数据对应的阴性概念集。

(2) 数据预处理单元

由于患者每次访问医疗机构被诊断的疾病可能不同，所以疾病鉴别诊断的单个样本是某患者的一次访问记录。将上述数据整理为数据集

，其中所有样本的阳性概念集

，所有样本的阴性概念集

，

至

为各样本的阳性概念集，

至

为阳性概念，

至

为各样本的阴性概念集，

至

为阴性概念，n为样本数，

和

为各样本的阳性概念数和阴性概念数，各样本的

和

不一定相等。TD为目标疾病概念集，且

，满足

；

，满足

。

为n个样本的

个目标疾病诊断标签，

为第i个样本的目标疾病诊断标签。例如

，TD = [C0595921, C0017601, C0011268, C1444681, C0017920]，

代表第i个样本实际鉴别诊断结果为概念“C0011268”和概念“C0017920”对应的疾病，因此第i个样本对于概念“C0011268”和概念“C0017920”为阳性样本，对于其他目标疾病概念则为阴性样本。

(3) 个性化医学知识图谱生成单元

对于第i个样本

，基于

和

中的相关概念生成个性化阳性医学知识图谱和个性化阴性医学知识图谱。

以个性化阳性医学知识图谱

生成为例：

设置中间概念集

并初始化为

，设置个性化阳性医学知识图谱

并初始化为

，设置概念u在含因果性医学知识图谱G的相关概念集为

并初始化为

，若

则

，若

则

，遍历G中所有三元组，最终获得概念u在含因果性医学知识图谱G的相关概念集

。

① 构建个性化阳性医学知识图谱

的阳性概念-类型集

：若概念

，则

，遍历

和TD中的所有概念，最终获得

，其中概念集

，NT为概念类型，如果

，则

，如果

，则

，否则

。

② 若概念

，则

，遍历

中的所有概念，最终获得第i个样本的个性化阳性医学知识图谱

。

同理可获得第i个样本的阴性概念集

对应的阴性概念-类型集

和个性化阴性医学知识图谱

。遍历所有样本，获得所有样本的阳性概念-类型集

、个性化阳性医学知识图谱集

、阴性概念-类型集

、个性化阴性医学知识图谱集

：

(4) 推理单元

将上述获得的第i个样本的

作为基于图神经网络的疾病鉴别诊断模型的输入，最后的鉴别诊断的疾病排名和诊断依据作为疾病鉴别诊断模型的输出。

对于概念

，目标疾病概念

，需要获取node 与td的文本向量

以及图向量

，以捕捉node与td在患者数据以及

中的相关信息。

首先获取node与td的文本向量

，基于与node同极性的个性化医学知识图谱预训练语言模型LM，将LM作为文本编码器，将node和td作为LM的输入，将输出获得的node 向量和td向量串联得到文本向量

的维度。

然后获取node与td的图向量

，基于

利用TransE算法获取node对应的TransE向量

的维度，考虑到

并没有捕获在鉴别诊断过程中的node类型信息，将node类型信息嵌入到

中：

其中

，

为融合了概念类型信息的转化向量

的维度，其中

是可学习的向量权重和可学习的截距值对， node类型不同，

值不同。

为了捕获node与td在与node同极性的个性化医学知识图谱中与其他概念的信息，设置node与td之间最大的跳数为K，定义node与td所有K跳路径集

为：

对于路径

中不同的谓语

，使用可学习的变换矩阵

表示node和td之间如何传递信息，

的值与node和td之间的距离相关。由于

中的部分路径的跳数k小于K，为了疾病鉴别诊断模型能够并行训练以加快训练速度，引入填充矩阵

以保证变换矩阵的大小一致。同时考虑到不同路径path对于td预测的贡献度不同，因此引入了注意力机制以区别不同路径path的贡献度。路径path 的贡献度设置为

，

主要由两部分构成：路径path中

类型和

类型的贡献度以及

之间相关性的贡献度。将

类型和

类型记作

，

的贡献度记作

，采用条件随机场对

建模，

是路径path以文本向量

为条件的概率：

其中

为概率函数，

输出的是概念类型，

表示多层感知机，

是一个谓语转化矩阵，m为

的数目。

路径path中

之间相关性的贡献度设置为

，采用自注意力机制进行计算。以

为条件为每一跳的每个谓语动态生成

得分矩阵，以文本向量

作为输入，对于路径path中的第j跳用

表示，其中转化矩阵

，路径path中所有跳

聚集在一起形成k跳矩阵

，获得路径path中

之间的相关性

：

其中

分别是query向量，key向量和value向量；

分别是query向量，key向量和value 向量对应的转化矩阵；d为中间变量，

对

进行归一化。

然后通过线性转化矩阵

，将

转化到

空间，并利用

生成

。

最后路径path的贡献度

为：

结合上述所有信息获得

中所有k跳路径的向量

：

然后利用文本向量

引导所有不同跳数k的

聚集，并通过双线性注意力机制函数

计算加权和，得到所有K跳路径信息向量

：

其中

，最后利用

更新

获得图向量

：

其中

是可学习的转换矩阵，

是非线性激活函数。

遍历

和TD中的所有概念，即可获得

对于TD的文本向量矩阵

和图向量矩阵

。

同理可获得

对于TD中所有概念的文本向量矩阵

和图向量矩阵

，然后将该

串联后作为输入传递给全连接层函数

，计算第i个样本

个目标疾病概念对应的概率矩阵

：

其中

，

是串联函数。

疾病鉴别诊断模型的损失函数

采用的是BCEWithLogitsLoss损失函数：

其中

是非线性激活函数，

为目标疾病的权重矩阵，若疾病dis的正样本有100个，负样本有300个，则疾病dis对应的权重为

。

对于第i个样本对应的疾病鉴别诊断模型的最终输出

，

表示第i个样本的第j 个目标疾病的预测概率，若

则说明第i个样本预测为第j个目标疾病的概率大于预测为第

个目标疾病的概率，最终按照预测概率从大到小输出第i个样本预测的疾病排名和诊断依据，诊断依据为每个目标疾病对应的

和

中路径贡献度最大的三条推理路径以及对应的路径贡献度，将预测的疾病排名和诊断依据提供给医生，辅助医生进行疾病鉴别诊断。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统，其特征在于，该系统包括：

2.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统，其特征在于，所述知识源模块中，所述医学知识源包括电子病历数据库、医学文献数据库、临床指南、权威教材以及SNOMED CT数据库；所述医学文献数据库采用SemMedDB文献库中的predication数据库。

3.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统，其特征在于，所述知识提取模块中，针对采用三元组形式存储的结构化知识，查询和提取满足以下两个条件的三元组：条件1，主语或宾语的语义类型必须为疾病、症状、体征、实验室检查结果、药物、人口统计学信息相关的语义类型；条件2，主语和宾语相关的因果性三元组在主语和宾语相关的所有三元组中的占比不小于预设阈值。

4.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统，其特征在于，所述知识提取模块中，针对非结构化知识，基于结构化知识提取的三元组中的概念构造概念集，利用正则表达式提取包含因果关系描述的文本后，针对文本中的每个句子，以句子描述的疾病作为三元组的主语或者宾语，对句子进行分词，提取满足以下条件1和条件2或者条件1和条件3的三元组：条件1，分词得到的词语属于名词；条件2，如果概念集包含该词语，且该词语在概念集中的语义类型为症状、体征、实验室检查结果相关语义类型，那么三元组主语为疾病，谓语为因果关系谓语，宾语为该词语；条件3，如果概念集包含该词语，且该词语在概念集中的语义类型为生活习惯、病毒、细菌、真菌、药物相关语义类型，那么三元组主语为该词语，谓语为因果关系谓语，宾语为疾病。

5.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统，其特征在于，所述知识映射与校准模块中，基于预设的映射规则，将不同医学知识源获取的三元组规范为UMLS编码；针对概念存在的一词多名称问题，分别设计概念对应的缩写词典、别名词典和商品名词典，完成概念名称的校准；删除不同医学知识源获取的重复三元组，形成三元组集。

6.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统，其特征在于，所述知识图谱构建模块中，所述顶层类包括临床发现、诊断程序、患者信息、临床药物、疾病诊断以及生活习惯，所述实例为三元组集中的概念，所述属性包括实例的中文全称、中文别名、英文全称、英文缩写、UMLS编码、SNOMED CT编码，所述关系为三元组集中的谓语。

7.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统，其特征在于，所述数据获取单元中，针对患者结构化数据，利用条件判断提取阳性数据和阴性数据；针对患者非结构化数据，利用正则表达式将非结构化数据转化为分句集，抽取部分分句并手动标注分句的极性标签，构造分句极性判断的语料库，利用语料库训练BERT模型，获取所有分句的极性标签，对不同极性的分句进行分词后，分别提取阳性分句中的阳性数据以及阴性分句中的阴性数据；将阳性数据和阴性数据分别映射为阳性概念集和阴性概念集。

8.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统，其特征在于，所述个性化医学知识图谱生成单元中，针对含因果性医学知识图谱中的实例，与该实例出现在同一三元组中的其他实例组成的集合作为该实例的相关概念集；

遍历每个样本的阳性概念集和目标疾病概念集中的所有概念，利用阳性概念、目标疾病概念和因果关系谓语构造三元组，若含因果性医学知识图谱包含该三元组，则将阳性概念和目标疾病概念的相关概念集的交集分别加入中间概念集；遍历结束后，合并中间概念集、阳性概念集和目标疾病概念集获得每个样本的阳性概念-类型集；

遍历每个样本的阴性概念集和目标疾病概念集中的所有概念，利用阴性概念、目标疾病概念和因果关系谓语构造三元组，若含因果性医学知识图谱包含该三元组，则将阴性概念和目标疾病概念的相关概念集的交集分别加入中间概念集；遍历结束后，合并中间概念集、阴性概念集和目标疾病概念集获得每个样本的阴性概念-类型集；

9.根据权利要求1-8任一项所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统，其特征在于，所述推理单元中，文本向量的获取包括：对于概念