CN113871003B - 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统 - Google Patents
一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统 Download PDFInfo
- Publication number
- CN113871003B CN113871003B CN202111452519.XA CN202111452519A CN113871003B CN 113871003 B CN113871003 B CN 113871003B CN 202111452519 A CN202111452519 A CN 202111452519A CN 113871003 B CN113871003 B CN 113871003B
- Authority
- CN
- China
- Prior art keywords
- concept
- disease
- causal
- medical knowledge
- negative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,本发明设计和构建了非结构化数据提取、映射和校准工具,从电子病历、医学文献、临床指南等多源异构医学知识源中提取与疾病诊疗相关的因果性知识,构建包含病史、症状、体征、实验室检查结果、用药、人口统计学信息等关键诊断信息的含因果性医学知识图谱,并在构建过程中设计相应的知识提取规则,减少含因果性医学知识图谱的噪声,提高疾病鉴别诊断模型的准确度和运行效率。本发明基于含因果性医学知识图谱,提取患者所有的个性化诊断数据,并充分利用患者数据中的阴性检查结果和阴性症状等阴性数据,利用疾病鉴别诊断模型开展显式推理,给出具有明确诊断依据的推理结果。
Description
技术领域
本发明属于医疗健康信息技术领域,尤其涉及一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统。
背景技术
疾病鉴别诊断是疾病诊疗过程中的重要一环,临床医生通过问诊,基于现有的医学知识和诊疗经验,根据患者当前的病史、实验室检查、体征等信息综合分析推理,给出患者疑似疾病的列表。但由于患者疾病情况复杂,变化多端,许多患者身患多种疾病,且部分疾病发病率低,医生缺乏相应的诊疗经验,在现实高强度工作条件下,容易发生漏诊和误诊的现象。以慢性肾病为例,据统计慢性肾病在实际患病人群中的知晓率仅为12.5%。
当前减少医生诊疗错误发生的常用方法是引入决策支持系统。基于决策支持系统强大的知识库和推理算法,可以帮助医生减少知识盲区,提醒医生患者患某些罕见疾病的可能性。常见的技术方案包括获取和推理两个模块,获取模块主要获取患者诊断所需的症状、实验室检查结果等特征,推理模块则是根据获取的特征信息,基于知识库中症状与疾病的关系等内容,基于规则推理、机器学习等算法得出患者疑似疾病列表。
现有技术方案存在如下缺陷:
1.基于电子病历构建的知识图谱大多只利用了EHR数据和简单的关系,没有构建疾病更深层次的关系,例如疾病与诊疗手段、疾病与药物、疾病与生活习惯等关系,同时EHR数据噪声非常大,建立起来的知识图谱质量不佳;
2.大多数疾病鉴别诊断的模型都是基于预先挑选的变量进行预测,没有充分利用患者所有的个性化数据;
3.大多数疾病鉴别诊断的算法研究只利用了阳性检查结果和阳性症状,而忽略了阴性检查结果和阴性症状的价值;
4.单纯基于图嵌入方式的知识图谱推理算法缺乏可解释性,而可解释性强的规则推理算法则过于简单,需要人为制定和更新规则,难以应对复杂多变的临床环境。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统。
本发明的目的是通过以下技术方案实现的:一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,该系统包括:
(1)知识源模块:管理知识图谱构建所需的医学知识源,获取疾病诊断相关知识;
(2)知识提取模块:针对结构化知识,确定表征因果关系的谓语集,查询和提取疾病诊断相关的因果性三元组;针对非结构化知识,确定包含因果关系描述的文本,对所述文本进行分词后提取因果性三元组;
(3)知识映射与校准模块:基于预设的映射规则,将不同医学知识源提取的三元组进行规范编码,并对概念的一词多名称问题进行概念校准,删除重复的三元组,形成三元组集;
(4)知识图谱构建模块:基于知识映射与校准模块输出的三元组集,采用自上而下的模式依次构建含因果性医学知识图谱的顶层类、实例、属性、以及实例间的关系;
(5)疾病鉴别诊断模块,包括:数据获取单元、数据预处理单元、个性化医学知识图谱生成单元和推理单元;
所述数据获取单元:获取患者数据并进行结构化处理,提取阳性数据和阴性数据,并分别映射为含因果性医学知识图谱对应的阳性概念集和阴性概念集;
所述数据预处理单元:将患者的单次访问记录作为单个样本,每个样本的数据集按照阳性概念集、阴性概念集、目标疾病诊断标签、目标疾病概念集进行整理;
所述个性化医学知识图谱生成单元:通过搜索含因果性医学知识图谱,基于每个样本的阳性概念集和目标疾病概念集生成阳性概念-类型集和个性化阳性医学知识图谱,基于每个样本的阴性概念集和目标疾病概念集生成阴性概念-类型集和个性化阴性医学知识图谱;
所述推理单元:构建基于图神经网络的疾病鉴别诊断模型,将所述个性化医学知识图谱生成单元的输出作为所述疾病鉴别诊断模型的输入,基于预训练的语言模型获取不同极性概念-类型集与目标疾病概念集对应的文本向量,基于多跳信息传递机制和注意力机制获取不同极性概念-类型集与目标疾病概念集对应的图向量,基于文本向量和图向量开展推理输出鉴别诊断的疾病排名和诊断依据。
进一步地,所述知识源模块中,所述医学知识源包括电子病历数据库、医学文献数据库、临床指南、权威教材以及SNOMED CT数据库;所述医学文献数据库采用SemMedDB文献库中的predication数据库。
进一步地,所述知识提取模块中,针对采用三元组形式存储的结构化知识,查询和提取满足以下两个条件的三元组:条件1,主语或宾语的语义类型必须为疾病、症状、体征、实验室检查结果、药物、人口统计学信息相关的语义类型;条件2,主语和宾语相关的因果性三元组在主语和宾语相关的所有三元组中的占比不小于预设阈值。
进一步地,所述知识提取模块中,针对非结构化知识,基于结构化知识提取的三元组中的概念构造概念集,利用正则表达式提取包含因果关系描述的文本后,针对文本中的每个句子,以句子描述的疾病作为三元组的主语或者宾语,对句子进行分词,提取满足以下条件1和条件2或者条件1和条件3的三元组:条件1,分词得到的词语属于名词;条件2,如果概念集包含该词语,且该词语在概念集中的语义类型为症状、体征、实验室检查结果相关语义类型,那么三元组主语为疾病,谓语为因果关系谓语,宾语为该词语;条件3,如果概念集包含该词语,且该词语在概念集中的语义类型为生活习惯、病毒、细菌、真菌、药物相关语义类型,那么三元组主语为该词语,谓语为因果关系谓语,宾语为疾病。
进一步地,所述知识映射与校准模块中,基于预设的映射规则,将不同医学知识源获取的三元组规范为UMLS编码;针对概念存在的一词多名称问题,分别设计概念对应的缩写词典、别名词典和商品名词典,完成概念名称的校准;删除不同医学知识源获取的重复三元组,形成三元组集。
进一步地,所述知识图谱构建模块中,所述顶层类包括临床发现、诊断程序、患者信息、临床药物、疾病诊断以及生活习惯,所述实例为三元组集中的概念,所述属性包括实例的中文全称、中文别名、英文全称、英文缩写、UMLS编码、SNOMED CT编码,所述关系为三元组集中的谓语。
进一步地,所述数据获取单元中,针对患者结构化数据,利用条件判断提取阳性数据和阴性数据;针对患者非结构化数据,利用正则表达式将非结构化数据转化为分句集,抽取部分分句并手动标注分句的极性标签,构造分句极性判断的语料库,利用语料库训练BERT模型,获取所有分句的极性标签,对不同极性的分句进行分词后,分别提取阳性分句中的阳性数据以及阴性分句中的阴性数据;将阳性数据和阴性数据分别映射为阳性概念集和阴性概念集。
进一步地,所述个性化医学知识图谱生成单元中,针对含因果性医学知识图谱中的实例,与该实例出现在同一三元组中的其他实例组成的集合作为该实例的相关概念集;
遍历每个样本的阳性概念集和目标疾病概念集中的所有概念,利用阳性概念、目标疾病概念和因果关系谓语构造三元组,若含因果性医学知识图谱包含该三元组,则将阳性概念和目标疾病概念的相关概念集的交集加入中间概念集;遍历结束后,合并中间概念集、阳性概念集和目标疾病概念集获得每个样本的阳性概念-类型集;
遍历每个样本的阳性概念-类型集中的两两不同概念,若两个不同概念与因果关系谓语组成的三元组属于含因果性医学知识图谱,则将该三元组加入该样本的个性化阳性医学知识图谱;
遍历每个样本的阴性概念集和目标疾病概念集中的所有概念,利用阴性概念、目标疾病概念和因果关系谓语构造三元组,若含因果性医学知识图谱包含该三元组,则将阴性概念和目标疾病概念的相关概念集的交集加入中间概念集;遍历结束后,合并中间概念集、阴性概念集和目标疾病概念集获得每个样本的阴性概念-类型集;
遍历每个样本的阴性概念-类型集中的两两不同概念,若两个不同概念与因果关系谓语组成的三元组属于含因果性医学知识图谱,则将该三元组加入该样本的个性化阴性医学知识图谱。
进一步地,所述推理单元中,文本向量的获取包括:对于概念和目标疾病概念,其中分别
为第i个样本的阳性概念-类型集和阴性概念-类型集,TD为目标疾病概念集,基于与node同
极性的个性化医学知识图谱预训练语言模型LM,将node和td作为LM的输入,将LM输出的向
量串联得到文本向量;遍历和TD中的所有概念,得到第i个样本的阳性
文本向量矩阵,遍历和TD中的所有概念,得到第i个样本的阴性文本向
量矩阵;
图向量的获取包括:
计算path对于td预测的贡献度,由path中采用条件随机场
计算得到的主语-谓语-宾语集类型的贡献度以及采用自注意力
机制计算得到的谓语集中谓语间相关性的贡献度相乘得到;是path以为条件的概率;是path以为条件为path中的每个谓语动态生成的得分矩阵;
进一步地,将第i个样本获得的串联
后作为输入传递到全连接层,得到第i个样本所有目标疾病概念对应的概率矩阵;根据
中的概率值从大到小输出第i个样本预测的疾病排名,并将每个目标疾病在个性化阳性医
学知识图谱和个性化阴性医学知识图谱中的路径path和贡献度作为诊断依
据,辅助医生进行疾病鉴别诊断。
本发明的有益效果是:本发明设计和构建了非结构化数据提取、映射和校准工具,从电子病历、医学文献、临床指南、SNOMED CT等多源异构医学知识源中提取与疾病诊疗相关的因果性知识,构建包含病史、症状、体征、实验室检查结果、用药、人口统计学信息等关键诊断信息的含因果性医学知识图谱,并在构建过程中设计相应的知识提取规则,减少含因果性医学知识图谱的噪声,提高疾病鉴别诊断模型的准确度和运行效率。本发明基于含因果性医学知识图谱,提取患者所有的个性化诊断数据,并充分利用患者数据中的阴性检查结果和阴性症状等阴性数据,利用疾病鉴别诊断模型开展显式推理,给出具有明确诊断依据的推理结果。
附图说明
图1为本发明实施例提供的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统框架图;
图2为本发明实施例提供的含因果性医学知识图谱构建时的数据流动路径图;
图3为本发明实例提供的基于含因果性医学知识图谱的疾病鉴别诊断流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明实施例提供一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,如图1所示,该系统包括以下模块:
1. 知识源模块:管理知识图谱构建所需的医学知识源信息,医学知识源与含因果性医学知识图谱的数据流动如图2所示,医学知识源包括电子病历数据库、医学文献数据库、临床指南、权威教材以及其他医学知识源。其中电子病历数据库主要采用Oracle数据库,医学文献数据库在这里主要采用的是美国国家医学图书馆构建的SemMedDB文献库中的predication数据库,采用mysql对该数据库进行加载和存储。基于IP地址、用户名、密码,加载和连接数据库,基于SQL查询数据库相关内容,返回相应的数据。其中电子病历数据库返回的数据信息包括表名、字段名、字段类型、具体数值,医学文献数据库返回的数据信息包括表名、字段名、字段类型、具体数值。临床指南和权威教材主要以文本形式存储。其他医学知识源这里主要指的是SNOMED CT(Systematized Nomenclature of Medicine-ClinicalTerms,系统化临床医学术语集)数据库,它以OWL(Web Ontology Language,网络本体语言)格式存储。
2. 知识提取模块
(1) 结构化知识提取:主要针对predication数据库和SNOMED CT数据库,其知识主要采用SPO(Subject-Predicate-Object)三元组形式存储。
由于predication数据库和SNOMED CT数据库均以英文形式存储,所以利用谷歌翻译API将提取的三元组自动翻译为中文,并根据《英汉医学词典》对翻译后的三元组进行修正。
(2) 非结构化知识提取:主要针对电子病历数据库、权威教材和临床指南中的文本数据。
然后对于文本数据集,,,其中
至为文本数据集H中各文本,至为文本D中各句子,hl为文本数据集H中的文本个
数,dl为文本D中的句子个数。对于文本数据集H中的每个文本,随机抽取若干个句子(例如
可以设置抽取文本中20%的句子),人工分析并确定文本数据集H中常见的因果关系谓语,
利用正则表达式提取文本数据集H中所有包含的文本。基于概念集CS自定义词典,
并将自定义词典加载至结巴分词工具中。对于每一个句子,基于结巴分词工
具对进行分词,其中至为句子的各词语,
至为句子中各词语的词性,sl为句子的分词长度。对于文本中存在数字类型实验
室检查结果的情况,例如“24小时尿蛋白2g/24小时”,先利用正则表达式抽取相应的检查项
目、检查值与单位,再根据医院化验单上该检查项目检查值的正常范围,判断检查值是否正
常,再转化为概念集CS中的相应概念,例如24小时尿蛋白正常范围为小于0.15g/24小时,因
此上述检查值超过正常范围,对应CS中为 [(“蛋白尿”),“C0001925”,(“发现”)]。
考虑到文本中通常一句话是描述同一种疾病dis,因此以dis作为三元组的主语s或者宾语o,设名词词性集为N,症状、体征、实验室检查结果相关语义类型集为,
生活习惯、病毒、细菌、真菌、药物等相关语义类型集为,从的每一个句子中抽
取满足以下条件①和②或者①和③的所有三元组:
3. 知识映射与校准模块
(1) 知识映射:由于文本数据提取的概念存在一词多名称问题,且SNOMED CT与SemMedDB编码方式不统一,因此需要将不同知识源提取的三元组规范为统一的编码方式。本发明含因果性医学知识图谱构建统一采用SemMedDB使用的UMLS(Unified MedicalLanguage System,统一医学语言系统)编码方式。通过SNOMED CT已有的UMLS与SNOMED CT概念之间的映射关系,基于预设的映射规则,实现SNOMED CT中提取的三元组的概念的编码方式向UMLS编码方式的映射。
(2) 知识校准:由于部分概念无法实现概念名称与UMLS中概念的完全匹配,例如
文本数据中常出现疾病和药物的缩写,疾病和药物别名或者药物的商品名,因此根据《中华
医典》、《实验诊断学》等权威教材构造相应的缩写词典、别名词典和商品名词典,根据词典
存储的对应关系完成概念名称的校准,然后再进行知识映射。同时对于不同医学知识源提
取的三元组进行去重操作,删除重复的三元组,最后形成三元组集TR。
4. 知识图谱构建模块
知识图谱构建参考SNOMED CT等知识图谱结构,采用自上而下的模式构建知识图谱,设计临床发现、诊断程序、患者信息、临床药物、疾病诊断、生活习惯等六个顶层类;然后定义每个顶层类的实例,例如二甲双胍和格列齐特是降糖药的实例,接着定义每个实例的属性,属性包括实例的中文全称、实例的中文别名、实例的英文全称、实例的英文缩写、实例的UMLS编码、实例的SNOMED CT编码等;最后基于三元组集TR定义不同实例之间的关系,例如糖尿病会导致血糖升高;最后形成含因果性医学知识图谱G。
以糖尿病肾病作为实例举例说明,糖尿病肾病属于疾病诊断顶层类的实例,实例
的中文全称为“糖尿病肾病”,实例的中文别名为“糖尿病性肾病”、“糖尿病肾小球硬化症”,
实例的英文全称为“Diabetic Nephropathy”,实例的UMLS编码为“C0011881”,实例的
SNOMED CT编码为“236500003”,实例的英文缩写为“DN”。其相关的因果关系三元组包括(糖尿病肾病,导致,蛋白尿),(糖尿病肾病,导致,肾衰竭),(糖尿病肾病,导
致,血肌酐升高),(糖尿病肾病,导致,肾小球毛细血管基底膜增厚),(糖尿病,导致,糖尿病
肾病),(高血压,导致,糖尿病肾病),(高血糖,导致,糖尿病肾病),(糖尿病肾病,属于,慢性
肾病)等。
5. 疾病鉴别诊断模块
基于含因果性医学知识图谱的疾病鉴别诊断流程如图3所示。
(1) 数据获取单元:数据获取包括患者的结构化数据获取和非结构化数据获取。
结构化数据通常采用.csv或者.xlsx格式存储,可以直接根据表格中检查值的正常范围划分为阳性数据和阴性数据,例如血糖检查结果可以划分为血糖正常、血糖升高或血糖降低三大类,血糖正常为阴性数据,血糖升高或血糖降低为阳性数据。
非结构化数据获取参考上述的知识提取模块,考虑到医生在实际鉴别诊断中,不
仅会利用阳性检查结果和阳性症状等阳性数据,还会利用阴性检查结果和阴性症状等阴性
数据,例如“患者老年,肥胖,血糖升高5年,应首先考虑糖尿病,但患者当前胰岛素自身抗体
检查和谷氨酸脱羧酶抗体检查阴性,故暂不考虑I型糖尿病”。为了提取患者非结构化数据中阴性症状,即医生在电子病历中记载的患者当前没有的症状,例如“两肺未闻及干湿
罗音和哮鸣音”,首先要对句子的极性进行判断。由于句子中不同部分极性可能
不相同,例如“患者贫血貌,咽部略红,扁桃体无肿大,皮肤巩膜无黄染,浅表淋巴结未及肿
大”,因此定义句子分割相关的标点符号后,利用正则表达式将句子分成,至为句子的各分句,bl为句子的分句长
度。随机抽取若干位患者样本的非结构化数据,手动标注样本的非结构化数据中各分句的
极性后,构造极性判断的语料库,至为语料库C中的各分句,cl为语料库C中的分句总数,为分句
手动标注的极性标签,其中“1”表示阳性,“0”表示阴性;利用Google的BERT模型,将C作为训
练集,余下患者样本的所有分句集作为测试集,得到所有患者样本的所有非结构化数据
的分句的极性标签,然后参考上述知识提取模块中非结构化知识提取过程获取不同极性分
句中的阳性数据和阴性数据。
参考知识映射与校准模块中的映射和校准过程,获取患者阳性数据对应的阳性概念集,以及阴性数据对应的阴性概念集。
(2) 数据预处理单元
由于患者每次访问医疗机构被诊断的疾病可能不同,所以疾病鉴别诊断的单个样
本是某患者的一次访问记录。将上述数据整理为数据集,其中所有
样本的阳性概念集,所有样本的阴
性概念集,至为各样
本的阳性概念集,至为阳性概念,至为各样本的阴性概念集,至为阴性
概念,n为样本数,和为各样本的阳性概念数和阴性概念数,各样本的和不一定相
等。TD为目标疾病概念集,且,满足;,满足。为n个样本的个目标疾病诊断标签,为第i个样本的目标疾病诊断标签。例如,TD =
[C0595921, C0017601, C0011268, C1444681, C0017920],代表第i个样本
实际鉴别诊断结果为概念“C0011268”和概念“C0017920”对应的疾病,因此第i个样本对于
概念“C0011268”和概念“C0017920”为阳性样本,对于其他目标疾病概念则为阴性样本。
(3) 个性化医学知识图谱生成单元
设置中间概念集并初始化为,设置个性化阳性医学知识图谱并初始化为,设置概念u在含因果性医学知识图谱G的相关概念集为并初始化
为,若则,若则
,遍历G中所有三元组,最终获得概念u在含因果性医学知识图谱G的相关概念集。
同理可获得第i个样本的阴性概念集对应的阴性概念-类型集和个性
化阴性医学知识图谱。遍历所有样本,获得所有样本的阳性概念-类型集、个性化阳性医学知识图谱集、阴性概念-类型集、个
性化阴性医学知识图谱集:
(4) 推理单元
首先获取node与td的文本向量,基于与node同极性的个性化医学知识图
谱预训练语言模型LM,将LM作为文本编码器,将node和td作为LM的输入,将输出获得的node
向量和td向量串联得到文本向量的维度。
对于路径中不同的谓语,使用可学习的变换矩阵表示node和td之间如何
传递信息,的值与node和td之间的距离相关。由于中的部分路径的跳数k小于K,
为了疾病鉴别诊断模型能够并行训练以加快训练速度,引入填充矩阵以保证变换矩阵的大小一致。同时考虑到不同路径path对
于td预测的贡献度不同,因此引入了注意力机制以区别不同路径path的贡献度。路径path
的贡献度设置为,主要由两部分构成:路径path中类
型和类型的贡献度以及之间相关性的贡献度。将类
型和类型记作,的贡献度记作,采用条件随
机场对建模,是路径path以文本向量为条件的概率:
路径path中之间相关性的贡献度设置为,
采用自注意力机制进行计算。以为条件为每一跳的每个谓语动态生成得
分矩阵,以文本向量作为输入,对于路径path中的第j跳用表示,
其中转化矩阵,路径path中所有跳聚集在一起形成k跳矩阵,获得路径path中之间的相关性:
对于第i个样本对应的疾病鉴别诊断模型的最终输出,表示第i个样本的第j
个目标疾病的预测概率,若则说明第i个样本预
测为第j个目标疾病的概率大于预测为第个目标疾病的概率,最终按照预测概率从大到
小输出第i个样本预测的疾病排名和诊断依据,诊断依据为每个目标疾病对应的和中路径贡献度最大的三条推理路径以及对应的路径贡献度,将预测的疾病排名和诊断
依据提供给医生,辅助医生进行疾病鉴别诊断。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (10)
1.一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,其特征在于,该系统包括:
(1)知识源模块:管理知识图谱构建所需的医学知识源,获取疾病诊断相关知识;
(2)知识提取模块:针对结构化知识,确定表征因果关系的谓语集,查询和提取疾病诊断相关的因果性三元组;针对非结构化知识,确定包含因果关系描述的文本,对所述文本进行分词后提取因果性三元组;
(3)知识映射与校准模块:基于预设的映射规则,将不同医学知识源提取的三元组进行规范编码,并对概念的一词多名称问题进行概念校准,删除重复的三元组,形成三元组集;
(4)知识图谱构建模块:基于知识映射与校准模块输出的三元组集,采用自上而下的模式依次构建含因果性医学知识图谱的顶层类、实例、属性、以及实例间的关系;
(5)疾病鉴别诊断模块,包括:数据获取单元、数据预处理单元、个性化医学知识图谱生成单元和推理单元;
所述数据获取单元:获取患者数据并进行结构化处理,提取阳性数据和阴性数据,并分别映射为含因果性医学知识图谱对应的阳性概念集和阴性概念集;
所述数据预处理单元:将患者的单次访问记录作为单个样本,每个样本的数据集按照阳性概念集、阴性概念集、目标疾病诊断标签、目标疾病概念集进行整理;
所述个性化医学知识图谱生成单元:通过搜索含因果性医学知识图谱,基于每个样本的阳性概念集和目标疾病概念集生成阳性概念-类型集和个性化阳性医学知识图谱,基于每个样本的阴性概念集和目标疾病概念集生成阴性概念-类型集和个性化阴性医学知识图谱;
所述推理单元:构建基于图神经网络的疾病鉴别诊断模型,将所述个性化医学知识图谱生成单元的输出作为所述疾病鉴别诊断模型的输入,基于预训练的语言模型获取不同极性概念-类型集与目标疾病概念集对应的文本向量,基于多跳信息传递机制和注意力机制获取不同极性概念-类型集与目标疾病概念集对应的图向量,基于文本向量和图向量开展推理输出鉴别诊断的疾病排名和诊断依据。
2.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,其特征在于,所述知识源模块中,所述医学知识源包括电子病历数据库、医学文献数据库、临床指南、权威教材以及SNOMED CT数据库;所述医学文献数据库采用SemMedDB文献库中的predication数据库。
3.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,其特征在于,所述知识提取模块中,针对采用三元组形式存储的结构化知识,查询和提取满足以下两个条件的三元组:条件1,主语或宾语的语义类型必须为疾病、症状、体征、实验室检查结果、药物、人口统计学信息相关的语义类型;条件2,主语和宾语相关的因果性三元组在主语和宾语相关的所有三元组中的占比不小于预设阈值。
4.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,其特征在于,所述知识提取模块中,针对非结构化知识,基于结构化知识提取的三元组中的概念构造概念集,利用正则表达式提取包含因果关系描述的文本后,针对文本中的每个句子,以句子描述的疾病作为三元组的主语或者宾语,对句子进行分词,提取满足以下条件1和条件2或者条件1和条件3的三元组:条件1,分词得到的词语属于名词;条件2,如果概念集包含该词语,且该词语在概念集中的语义类型为症状、体征、实验室检查结果相关语义类型,那么三元组主语为疾病,谓语为因果关系谓语,宾语为该词语;条件3,如果概念集包含该词语,且该词语在概念集中的语义类型为生活习惯、病毒、细菌、真菌、药物相关语义类型,那么三元组主语为该词语,谓语为因果关系谓语,宾语为疾病。
5.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,其特征在于,所述知识映射与校准模块中,基于预设的映射规则,将不同医学知识源获取的三元组规范为UMLS编码;针对概念存在的一词多名称问题,分别设计概念对应的缩写词典、别名词典和商品名词典,完成概念名称的校准;删除不同医学知识源获取的重复三元组,形成三元组集。
6.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,其特征在于,所述知识图谱构建模块中,所述顶层类包括临床发现、诊断程序、患者信息、临床药物、疾病诊断以及生活习惯,所述实例为三元组集中的概念,所述属性包括实例的中文全称、中文别名、英文全称、英文缩写、UMLS编码、SNOMED CT编码,所述关系为三元组集中的谓语。
7.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,其特征在于,所述数据获取单元中,针对患者结构化数据,利用条件判断提取阳性数据和阴性数据;针对患者非结构化数据,利用正则表达式将非结构化数据转化为分句集,抽取部分分句并手动标注分句的极性标签,构造分句极性判断的语料库,利用语料库训练BERT模型,获取所有分句的极性标签,对不同极性的分句进行分词后,分别提取阳性分句中的阳性数据以及阴性分句中的阴性数据;将阳性数据和阴性数据分别映射为阳性概念集和阴性概念集。
8.根据权利要求1所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,其特征在于,所述个性化医学知识图谱生成单元中,针对含因果性医学知识图谱中的实例,与该实例出现在同一三元组中的其他实例组成的集合作为该实例的相关概念集;
遍历每个样本的阳性概念集和目标疾病概念集中的所有概念,利用阳性概念、目标疾病概念和因果关系谓语构造三元组,若含因果性医学知识图谱包含该三元组,则将阳性概念和目标疾病概念的相关概念集的交集分别加入中间概念集;遍历结束后,合并中间概念集、阳性概念集和目标疾病概念集获得每个样本的阳性概念-类型集;
遍历每个样本的阳性概念-类型集中的两两不同概念,若两个不同概念与因果关系谓语组成的三元组属于含因果性医学知识图谱,则将该三元组加入该样本的个性化阳性医学知识图谱;
遍历每个样本的阴性概念集和目标疾病概念集中的所有概念,利用阴性概念、目标疾病概念和因果关系谓语构造三元组,若含因果性医学知识图谱包含该三元组,则将阴性概念和目标疾病概念的相关概念集的交集分别加入中间概念集;遍历结束后,合并中间概念集、阴性概念集和目标疾病概念集获得每个样本的阴性概念-类型集;
遍历每个样本的阴性概念-类型集中的两两不同概念,若两个不同概念与因果关系谓语组成的三元组属于含因果性医学知识图谱,则将该三元组加入该样本的个性化阴性医学知识图谱。
9.根据权利要求1-8任一项所述的基于含因果性医学知识图谱的疾病辅助鉴别诊断系统,其特征在于,所述推理单元中,文本向量的获取包括:对于概念和目标疾病概念,其中分别为第i个样本的阳性概念-类型集和阴性概念-类型集,TD为目标疾病概念集,基于与node同极性的个性化医学知识图谱预训练语言模型LM,将node和td作为LM的输入,将LM输出的向量串联得到文本向量;遍历和TD中的所有概念,得到第i个样本的阳性文本向量矩阵,遍历和TD中的所有概念,得到第i个样本的阴性文本向量矩阵;
图向量的获取包括:
计算path对于td预测的贡献度,由path中采用条件随机场计算得到的主语-谓语-宾语集类型的贡献度以及采用自注意力机制计算得到的谓语集中谓语间相关性的贡献度相乘得到;是path以为条件的概率;是path以为条件为path中的每个谓语动态生成的得分矩阵;
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111452519.XA CN113871003B (zh) | 2021-12-01 | 2021-12-01 | 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统 |
PCT/CN2022/124227 WO2023098288A1 (zh) | 2021-12-01 | 2022-10-10 | 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111452519.XA CN113871003B (zh) | 2021-12-01 | 2021-12-01 | 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113871003A CN113871003A (zh) | 2021-12-31 |
CN113871003B true CN113871003B (zh) | 2022-04-08 |
Family
ID=78985567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111452519.XA Active CN113871003B (zh) | 2021-12-01 | 2021-12-01 | 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113871003B (zh) |
WO (1) | WO2023098288A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113871003B (zh) * | 2021-12-01 | 2022-04-08 | 浙江大学 | 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统 |
CN114496234B (zh) * | 2022-04-18 | 2022-07-19 | 浙江大学 | 一种基于认知图谱的全科患者个性化诊疗方案推荐系统 |
CN115658925B (zh) * | 2022-11-21 | 2023-04-25 | 阿里健康科技(杭州)有限公司 | 医学知识组的生成方法、装置、计算机设备和存储介质 |
CN115905960B (zh) * | 2023-03-08 | 2023-05-12 | 安徽通灵仿生科技有限公司 | 一种基于心室辅助装置的不良事件检测方法及装置 |
CN116434969B (zh) * | 2023-06-14 | 2023-09-12 | 之江实验室 | 一种基于因果结构不变性的多中心慢性病预测装置 |
CN116502129B (zh) * | 2023-06-21 | 2023-09-22 | 之江实验室 | 一种知识与数据协同驱动的不平衡临床数据分类系统 |
CN116525125B (zh) * | 2023-07-04 | 2023-09-19 | 之江实验室 | 一种虚拟电子病历的生成方法及装置 |
CN116682553B (zh) * | 2023-08-02 | 2023-11-03 | 浙江大学 | 一种融合知识与患者表示的诊断推荐系统 |
CN117059261A (zh) * | 2023-08-21 | 2023-11-14 | 安徽农业大学 | 一种基于多模态知识图谱的畜禽疾病诊断方法及系统 |
CN117577340B (zh) * | 2023-10-26 | 2024-04-16 | 杭州乐九医疗科技有限公司 | 一种基于数据融合的科研数据采集配置方法及系统 |
CN117423470B (zh) * | 2023-10-30 | 2024-04-23 | 盐城市第三人民医院 | 一种慢性病临床决策支持系统及构建方法 |
CN117350302B (zh) * | 2023-11-04 | 2024-04-02 | 湖北为华教育科技集团有限公司 | 一种基于语义分析的语言撰写文本纠错方法、系统及人机交互装置 |
CN117271700B (zh) * | 2023-11-23 | 2024-02-06 | 武汉蓝海科创技术有限公司 | 集成智能学习功能的设备使用与维修知识库的构建系统 |
CN117453963B (zh) * | 2023-12-26 | 2024-03-01 | 深圳市健怡康医疗器械科技有限公司 | 康复患者数据管理系统 |
CN117690600B (zh) * | 2024-02-01 | 2024-04-30 | 北方健康医疗大数据科技有限公司 | 基于知识图谱的传染病预测方法、系统、终端及存储介质 |
CN117764204A (zh) * | 2024-02-21 | 2024-03-26 | 神州医疗科技股份有限公司 | 一种医学领域中的强化学习数据构建方法及系统 |
CN117995392A (zh) * | 2024-04-07 | 2024-05-07 | 北京惠每云科技有限公司 | 鉴别诊断生成方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111863237A (zh) * | 2020-05-29 | 2020-10-30 | 东莞理工学院 | 一种基于深度学习的移动端疾病智能辅助诊断系统 |
CN112164460A (zh) * | 2020-10-19 | 2021-01-01 | 科技谷(厦门)信息技术有限公司 | 一种基于医疗知识图谱的智能疾病辅助诊断系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2012225661A1 (en) * | 2011-03-07 | 2013-09-19 | Health Fidelity, Inc. | Systems and methods for processing patient history data |
US20170323071A1 (en) * | 2016-05-05 | 2017-11-09 | James Stewart Bates | Systems and methods for generating medical diagnosis |
CN111370127B (zh) * | 2020-01-14 | 2022-06-10 | 之江实验室 | 一种基于知识图谱的跨科室慢性肾病早期诊断决策支持系统 |
CN113205504B (zh) * | 2021-05-12 | 2022-12-02 | 青岛大学附属医院 | 基于知识图谱的人工智能肾肿瘤预测系统 |
CN113505236B (zh) * | 2021-06-29 | 2023-08-04 | 朱一帆 | 医疗知识图谱的构建方法、装置、设备及计算机可读介质 |
CN113380400A (zh) * | 2021-07-07 | 2021-09-10 | 中国科学院空间应用工程与技术中心 | 一种基于知识图谱和深度学习的中医智能诊疗辅助系统 |
CN113871003B (zh) * | 2021-12-01 | 2022-04-08 | 浙江大学 | 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统 |
-
2021
- 2021-12-01 CN CN202111452519.XA patent/CN113871003B/zh active Active
-
2022
- 2022-10-10 WO PCT/CN2022/124227 patent/WO2023098288A1/zh unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111863237A (zh) * | 2020-05-29 | 2020-10-30 | 东莞理工学院 | 一种基于深度学习的移动端疾病智能辅助诊断系统 |
CN112164460A (zh) * | 2020-10-19 | 2021-01-01 | 科技谷(厦门)信息技术有限公司 | 一种基于医疗知识图谱的智能疾病辅助诊断系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113871003A (zh) | 2021-12-31 |
WO2023098288A1 (zh) | 2023-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113871003B (zh) | 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统 | |
US11942221B2 (en) | Disambiguation of ambiguous portions of content for processing by automated systems | |
CN111708874B (zh) | 基于复杂意图智能识别的人机交互问答方法与系统 | |
Pezoulas et al. | Medical data quality assessment: On the development of an automated framework for medical data curation | |
Friedman et al. | Natural language processing in health care and biomedicine | |
Li et al. | Intelligent diagnosis with Chinese electronic medical records based on convolutional neural networks | |
Fang et al. | Feature Selection Method Based on Class Discriminative Degree for Intelligent Medical Diagnosis. | |
US10380251B2 (en) | Mining new negation triggers dynamically based on structured and unstructured knowledge | |
Friedman et al. | Natural language and text processing in biomedicine | |
Landolsi et al. | Information extraction from electronic medical documents: state of the art and future research directions | |
WO2023029506A1 (zh) | 病情分析方法、装置、电子设备及存储介质 | |
Raghavan et al. | emrkbqa: A clinical knowledge-base question answering dataset | |
CN113707339B (zh) | 一种多源异质数据库间概念对齐与内容互译方法及系统 | |
Zhu et al. | Detecting concept relations in clinical text: Insights from a state-of-the-art model | |
US11170895B2 (en) | Olfactory cognitive diagnosis | |
Ruan et al. | QAnalysis: a question-answer driven analytic tool on knowledge graphs for leveraging electronic medical records for clinical research | |
Cao et al. | Multi-information source hin for medical concept embedding | |
Yu et al. | Dataset and enhanced model for eligibility criteria-to-sql semantic parsing | |
CN117577254A (zh) | 医疗领域语言模型构建及电子病历文本结构化方法、系统 | |
CN113314236A (zh) | 一种面向高血压的智能问答系统 | |
Johnsi et al. | A concise survey on datasets, tools and methods for biomedical text mining | |
CN112669961A (zh) | 一种基于大数据推理的智能分诊方法 | |
Saigaonkar et al. | Predicting chronic diseases using clinical notes and fine-tuned transformers | |
CN117194604B (zh) | 一种智慧医疗病患问诊语料库构建方法 | |
CN115312186B (zh) | 一种糖尿病视网膜病变辅助筛查系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |