CN113972010A - 一种基于知识图谱和自适应机制的辅助疾病推理系统 - Google Patents
一种基于知识图谱和自适应机制的辅助疾病推理系统 Download PDFInfo
- Publication number
- CN113972010A CN113972010A CN202111258604.2A CN202111258604A CN113972010A CN 113972010 A CN113972010 A CN 113972010A CN 202111258604 A CN202111258604 A CN 202111258604A CN 113972010 A CN113972010 A CN 113972010A
- Authority
- CN
- China
- Prior art keywords
- disease
- data set
- model
- occurrence
- transe
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 248
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 248
- 230000007246 mechanism Effects 0.000 title claims abstract description 16
- 208000024891 symptom Diseases 0.000 claims abstract description 130
- 238000013519 translation Methods 0.000 claims abstract description 77
- 238000012549 training Methods 0.000 claims description 78
- 238000012360 testing method Methods 0.000 claims description 52
- 239000013598 vector Substances 0.000 claims description 29
- 230000011218 segmentation Effects 0.000 claims description 14
- 230000003044 adaptive effect Effects 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000000638 solvent extraction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000000034 method Methods 0.000 description 13
- 238000013136 deep learning model Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- UHOVQNZJYSORNB-UHFFFAOYSA-N Benzene Chemical compound C1=CC=CC=C1 UHOVQNZJYSORNB-UHFFFAOYSA-N 0.000 description 3
- 206010011224 Cough Diseases 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 210000004072 lung Anatomy 0.000 description 3
- 206010010904 Convulsion Diseases 0.000 description 2
- 201000005702 Pertussis Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 206010006451 bronchitis Diseases 0.000 description 2
- 230000036461 convulsion Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000026676 system process Effects 0.000 description 2
- 206010008479 Chest Pain Diseases 0.000 description 1
- 208000032923 Lobar pneumonia Diseases 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 206010035664 Pneumonia Diseases 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 210000004381 amniotic fluid Anatomy 0.000 description 1
- 208000006673 asthma Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 208000017574 dry cough Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002327 eosinophilic effect Effects 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 210000003141 lower extremity Anatomy 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 231100000572 poisoning Toxicity 0.000 description 1
- 230000000607 poisoning effect Effects 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Animal Behavior & Ethology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提出一种基于知识图谱和自适应机制的疾病推理系统,涉及计算机技术、辅助医疗机械的技术领域,以三元组<症状,发生部位,疾病>的知识图谱为数据结构,以TransE翻译模型和朴素贝叶斯分类器为基础构建疾病推理模型,首先将数据集划分的,为每一部分的数据集寻找合适个数的TransE翻译模型和朴素贝叶斯分类器搭配,实现自适应匹配,既能减少输入不平衡性对模型的影响,还能利用朴素贝叶斯分类器提升可解释性,提高系统对疾病推理的准确率,进一步辅助提高医疗工作人员的工作效率。
Description
技术领域
本发明涉及计算机技术、辅助医疗机械的技术领域,更具体地,涉及一种基于知识图谱和自适应机制的辅助疾病推理系统。
背景技术
随着计算机技术的发展,目前出现了很多基于计算机技术的疾病推理辅助医疗系统设备。基于计算机技术的疾病推理相比人工推理有很大的进步,而且辅助疾病推理系统作为医生诊断疾病的辅助工具,通过学习、继承和发扬医学专家的宝贵理论知识以及丰富的临床经验知识,借助信息技术和智能计算技术,根据患者当前的病症信息,对病情进行分析提示。
目前,辅助疾病推理系统所依据的推理技术例如借助深度学习的方法,将含有不同症状数的疾病输入到同一个深度学习模型中进行训练,未考虑到不同疾病含有症状数不同的问题,即输入不平衡性的问题,而且单个模型需要处理整个数据集。基于知识图谱的医学推理模型是一种典型的结构推理模型,知识图谱利用其图结构的特性,可直观表示医学实体以及实体间的关系,形成带语义的网络化知识库,增强医学知识的连通性,并支持领域知识的权威检索与浏览。
得益于知识图谱的兴起,当前也出现了一批运用知识图谱结合神经网络进行疾病推理的技术,为了让神经网络具备较好的特征识别能力,需要大量的标注数据和大量的时间训练。例如2019年12月24日,董丽丽、程炯等人在“计算机科学与探索”期刊上发表融合知识图谱与深度学习的疾病诊断方法研究的文章,该文章中所提出的方案能使8种不同的疾病的推理准确率能保持在80%以上,最高的准确率为86%,但其选取对比的8种疾病各自的疾病特征较为明显,当临床症状多且相似时,准确率会大幅下降,例如肺癌和支气管炎的临床症状多与吸烟、咳嗽有关,因此该系统就经常将这两种病互相误判,即在疾病推理时,临床症状相似的情况很多,则此时深度学习的可解释性不强,以及不同疾病的症状数不同造成的输入不平衡性的问题,都会可能造成模型的准确性和效率降低。另外,单个深度学习模型去处理整个数据集,处理负担也较重。
发明内容
为解决当前辅助疾病推理系统未考虑疾病症状输入不平衡性,造成疾病推理准确性低、效率低的问题,本发明提出一种基于知识图谱和自适应机制的辅助疾病推理系统,减少疾病输入不平衡性对系统准确率的影响,提升系统推理结果的可解释性,进一步辅助提高医疗工作人员的工作效率。
为了达到上述技术效果,本发明的技术方案如下:
一种基于知识图谱和自适应机制的疾病推理系统,所述系统包括:
数据获取模块,用于构建以三元组<症状,发生部位,疾病>为结构的知识图谱,确定由若干个三元组<症状,发生部位,疾病>组成的训练数据集;确定<症状,发生部位>组成的测试数据集;
疾病推理模型构建模块,基于TransE翻译模型和朴素贝叶斯分类器,构建疾病推理模型;
数据分割模块,用于将训练数据集划分,将测试数据集划分;
疾病推理模型训练模块,利用训练数据集训练疾病推理模型,确定训练数据集划分下,疾病推理模型中TransE翻译模型的个数n、朴素贝叶斯分类器的个数m及边界值M;
测试模块,以划分下的测试数据集<症状,发生部位>作为输入数据组,将输入数据组的数目与边界值M进行比较,输入至具有不同TransE翻译模型个数及朴素贝叶斯分类器个数的疾病推理模型中,输出疾病预测值。
在本技术方案中,以三元组<症状,发生部位,疾病>的知识图谱为数据结构,以TransE翻译模型和朴素贝叶斯分类器为基础,建立疾病推理模型,在数据集划分的基础下,训练疾病推理模型,为每一部分的数据集寻找合适个数的TransE翻译模型和朴素贝叶斯分类器搭配,实现自适应匹配,既能减少输入不平衡性对模型的影响,还能利用朴素贝叶斯分类器提升可解释性,提高系统对疾病推理的准确率,进一步辅助提高医疗工作人员的工作效率。
优选地,数据获取模块构建以三元组<症状,发生部位,疾病>为结构的知识图谱的过程为:
获取知识图谱所需医学字段,对医学字段进行分词操作,将“疾病”、“发生部位”、“症状”信息与除三者之外的无用信息进行分离;
对分离后的“疾病”、“发生部位”、“症状”信息做关键词提取,得到以三元组<症状,发生部位,疾病>为结构的知识图谱;
所述由若干个三元组<症状,发生部位,疾病>组成的训练数据集为若干个“疾病”病种分别对应下的<症状,发生部位>数据组成的三元组<症状,发生部位,疾病>集合;所述测试数据集为<症状,发生部位>数据组成的集合。
优选地,所需医学字段通过Python的urllib库从网页获取,基于Pkuseg分词包对医学字段进行分词操作,基于THUOCL_medical词库对分离后的“疾病”、“发生部位”、“症状”信息做关键词提取。
优选地,三元组<症状,发生部位,疾病>中的“症状”和“疾病”分别为头部实体和尾部实体,“发生部位”为关系,疾病推理模型构建模块基于TransE翻译模型将知识图谱中的三元组实体和关系均表示为同一空间中的向量,并将关系看作实体间的平移向量。
在此,知识图谱利用图结构的特性,可直观表示实体以及实体间的关系,TransE翻译模型将知识图谱中的三元组实体和关系均表示为同一空间中的向量弥补了传统方法训练复杂、不易拓展的缺点,对实体和关系的建模十分简单明了,可解释性强。
优选地,设头部“症状”实体表示为头向量h,“发生部位”关系表示成为向量r,尾部“疾病”实体表示为尾向量t,L类疾病分别为{b1,b2,…,bL},bj表示第j类疾病;设存在K组<症状,发生部位>数据待推理疾病,疾病推理模型构建模块基于TransE翻译模型和朴素贝叶斯分类器,构建的疾病推理模型为:
其中,疾病推理模型由n个TransE翻译模型的距离值和m个朴素贝叶斯分类器的概率值组成,表示TransE翻译模型在K组<症状,发生部位>数据输入时的距离值,通过累乘得到TransE翻译模型的最终距离值D(bj):
其中,P(tbj)指先验概率,是指一种“症状”特征在未进入朴素贝叶斯分类器前,这种症状属于疾病bj的概率;dmax为朴素贝叶斯分类器的最大概率值,在求取后添加负号,与n个TransE翻译模型的距离值相乘之后求取最小值,得到疾病推理模型,F表示疾病推理模型的预测结果。
在此,疾病推理问题,可以被视作TransE翻译模型的链接预测,TransE翻译模型越预测正确时,距离值越小,朴素贝叶斯分类器预测越正确,其输出值越大。
优选地,所述疾病推理模型训练模块利用训练数据集训练疾病推理模型时,训练数据集首先输入至TransE翻译模型,在TransE翻译模型中训练后得到“症状”头向量h、“发生部位”关系向量r、“疾病”实体尾向量t和先验概率P(tbj),其中,h+r与关系向量t的距离越近,三元组<症状,发生部位,疾病>的疾病与症状、发生部位之间的匹配越准确;否则,三元组<症状,发生部位,疾病>的疾病与症状、发生部位之间的匹配越偏离。
优选地,数据分割模块将训练数据集划分为两份,统计训练数据集三元组<症状,发生部位,疾病>中每一种疾病对应的所有<症状,发生部位>的数目,确定所有疾病中对应<症状,发生部位>数目中的最大值Max1,Max1为正整数;
边界值M从取1开始,以1/2Max1为止,逐次加1遍历,在从取1开始的每一个边界值M下,逐一将训练数据集中每个疾病对应的<症状,发生部位>的数目作为输入数目与边界值M对比,若输入数目小于边界值M时,训练数据集进入第一推理模型,所述第一推理模型为:
其中,n1表示第一推理模型中TransE翻译模型的个数,m1表示第一推理模型中朴素贝叶斯分类器的个数;若输入数目大于等于边界值M时,训练数据集进入第二推理模型,所述第二推理模型为:
其中,n2表示第二推理模型中TransE翻译模型的个数,m2表示第二推理模型中朴素贝叶斯分类器的个数;统计边界值M在依次取值下,经第一推理模型与第二推理模型分别推理疾病病种的准确率,在第一推理模型与第二推理模型推理疾病病种准确率相加的总准确率最高时,选定总准确率最高时对应的边界值MA作为训练数据集划分为两份时疾病推理模型的边界值,以及确定总准确率最高时对应的第一推理模型中TransE翻译模型的个数n1、朴素贝叶斯分类器的个数m1、第二推理模型中TransE翻译模型的个数n2、朴素贝叶斯分类器的个数m2。
在此,数据分割模块将训练数据集和测试数据集划分时,一方面考虑整个疾病推理系统所依据的硬件情况,一般划分的份数越多,疾病推理系统预测准确率越高,但运行时间和对硬件的要求也越高,另一方面,考虑若系统依托单个模型处理整个数据集时,处理负担大,将训练数据集和测试数据集划分可降低处理负担。此外,在数据集划分的基础下,为每一部分的数据集寻找合适个数的TransE翻译模型和朴素贝叶斯分类器搭配,实现自适应匹配,既能减少输入不平衡性对模型的影响,还能利用朴素贝叶斯分类器提升可解释性,提高系统对疾病推理的准确率。
优选地,数据分割模块将测试数据集<症状,发生部位>划分为两份,所述测试模块以划分下的测试数据集<症状,发生部位>作为输入数据组,首先逐一将测试数据集中同样的<症状,发生部位>测试数据组的数目作为输入数目,将输入数目与边界值MA进行比较,当输入数目小于边界值MA时,同样的<症状,发生部位>测试数据组进入第一推理模型,否则,同样的<症状,发生部位>测试数据组进入第二推理模型。
优选地,测试数据集输入至具有不同TransE翻译模型个数及朴素贝叶斯分类器个数的疾病推理模型后,输出的疾病预测值为疾病推理模型的预测结果F最小时,对应的疾病bj。
本发明还提出一种基于知识图谱和自适应机制的疾病推理设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现:
构建以三元组<症状,发生部位,疾病>为结构的知识图谱,确定由若干个三元组<症状,发生部位,疾病>组成的训练数据集;确定<症状,发生部位>组成的测试数据集;
基于TransE翻译模型和朴素贝叶斯分类器,构建疾病推理模型;将训练数据集划分,将测试数据集划分;利用训练数据集训练疾病推理模型,确定训练数据集划分下,疾病推理模型中TransE翻译模型的个数n、朴素贝叶斯分类器的个数m及边界值M;以划分下的测试数据集<症状,发生部位>作为输入数据组,将输入数据组的数目与边界值M进行比较,输入至疾病推理模型中,输出疾病预测值。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种基于知识图谱和自适应机制的疾病推理系统,以三元组<症状,发生部位,疾病>的知识图谱为数据结构,以TransE翻译模型和朴素贝叶斯分类器为基础构建疾病推理模型,然后在数据集划分的前提下,训练疾病推理模型,为每一部分的数据集寻找合适个数的TransE翻译模型和朴素贝叶斯分类器搭配,实现自适应匹配,避免大量症状不同的疾病一次性输入疾病推理模型的现象,减少输入不平衡性对模型的影响,还能利用朴素贝叶斯分类器提升可解释性,提高系统对疾病推理的准确率,进一步辅助提高医疗工作人员的工作效率。
附图说明
图1表示本发明实施例1中提出的基于知识图谱和自适应机制的疾病推理系统的结构示意图;
图2表示本发明实施例1中提出的基于知识图谱和自适应机制的疾病推理系统中构建知识图谱的流程图;
图3表示本发明实施例1中提出的基于知识图谱和自适应机制的疾病推理系统中TransE翻译模型的结构图;
图4表示本发明实施例1中提出的训练数据集划分为两份时,疾病推理的过程示意图;
图5表示本发明实施例2中提出的基于知识图谱和自适应机制的疾病推理设备的结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
考虑当前依托深度学习模型的疾病推理辅助系统或设备是利用大量的症状数不同的疾病输入深度学习模型,然后训练深度学习模型,深度学习模型训练时会受到输入不平衡性的影响,临床症状相似的情况较多,深度学习的可解释性不强,导致疾病推理的准确率下降,而且单个深度学习模型需要处理整个输入的数据集,模型处理负担较大的问题,本发明实施例中提出了一种基于知识图谱和自适应机制的疾病推理系统,以三元组<症状,发生部位,疾病>的知识图谱为数据结构,以TransE翻译模型和朴素贝叶斯分类器为基础,建立疾病推理模型,在数据集划分的基础下,训练疾病推理模型,为每一部分的数据集寻找合适个数的TransE翻译模型和朴素贝叶斯分类器搭配,实现自适应匹配,既能减少输入不平衡性对模型的影响,还能利用朴素贝叶斯分类器提升可解释性,提高系统对疾病推理的准确率,进一步辅助提高医疗工作人员的工作效率。
下面结合附图对所述系统进一步详细说明,系统的结构示意图如图1所示,参见图1,系统包括:
数据获取模块101,用于构建以三元组<症状,发生部位,疾病>为结构的知识图谱,确定由若干个三元组<症状,发生部位,疾病>组成的训练数据集;确定<症状,发生部位>组成的测试数据集;
疾病推理模型构建模块102,该模块基于TransE翻译模型和朴素贝叶斯分类器,构建疾病推理模型;
数据分割模块103,用于将训练数据集划分,将测试数据集划分;
疾病推理模型训练模块104,利用训练数据集训练疾病推理模型,确定训练数据集划分下,疾病推理模型中TransE翻译模型的个数n、朴素贝叶斯分类器的个数m及边界值M;
测试模块105,以划分下的测试数据集<症状,发生部位>作为输入数据组,将输入数据组的数目与边界值M进行比较,输入至具有不同TransE翻译模型个数及朴素贝叶斯分类器个数的疾病推理模型中,输出疾病预测值。
数据获取模块101构建以三元组<症状,发生部位,疾病>为结构的知识图谱的过程如图2所示,在本实施例中,疾病以“百日咳”、“苯中毒”、“喘息样支气管炎”“大量羊水吸入”、“单纯性肺嗜酸性粒细胞浸润症”、“大叶性肺炎”等为主,发生部位以“肺及肺系”、“头部”、“下肢”、“全身”、“鼻”等为主,症状以“干咳”、“惊厥”、“胸闷”、“痉挛性咳嗽”、“低热”、“抽搐”等为主,更多细节可参见表1。
表1
参见图2,构建过程具体为:
S1.获取知识图谱所需医学字段,对医学字段进行分词操作,将“疾病”、“发生部位”、“症状”信息与除三者之外的无用信息进行分离;
S2.对分离后的“疾病”、“发生部位”、“症状”信息做关键词提取,得到以三元组<症状,发生部位,疾病>为结构的知识图谱;
其中,由若干个三元组<症状,发生部位,疾病>组成的训练数据集为若干个“疾病”病种分别对应下的<症状,发生部位>数据组成的三元组<症状,发生部位,疾病>集合;所述测试数据集为<症状,发生部位>数据组成的集合。
在本实施例中,步骤S1中所述的所需医学字段通过Python的urllib库从网页获取,然后基于Pkuseg分词包对医学字段进行分词操作,基于THUOCL_medical词库对分离后的“疾病”、“发生部位”、“症状”信息做关键词提取。此外,在实际实施时,由于THUOCL_medical词库不一定涵盖了所有的词,因此结合人工进行检测和提取关键词。
在本实施例中,知识图谱利用图结构的特性,可直观表示实体以及实体间的关系,三元组<症状,发生部位,疾病>中的“症状”和“疾病”分别为头部实体和尾部实体,“发生部位”为关系,疾病推理模型构建模块102基于TransE翻译模型将知识图谱中的三元组实体和关系均表示为同一空间中的向量,并将关系看作实体间的平移向量,TransE翻译模型将知识图谱中的三元组实体和关系均表示为同一空间中的向量弥补了传统方法训练复杂、不易拓展的缺点,对实体和关系的建模十分简单明了,可解释性强。
在本实施例中,设头部“症状”实体表示为头向量h,“发生部位”关系表示成为向量r,尾部“疾病”实体表示为尾向量t,L类疾病分别为{b1,b2,…,bL},bj表示第j类疾病;设存在K组<症状,发生部位>数据待推理疾病,疾病推理模型构建模块102基于TransE翻译模型和朴素贝叶斯分类器,构建的疾病推理模型为:
其中,疾病推理模型由n个TransE翻译模型的距离值和m个朴素贝叶斯分类器的概率值组成,表示TransE翻译模型在K组<症状,发生部位>数据输入时的距离值,通过累乘得到TransE翻译模型的最终距离值D(bj):
其中,P(tbj)指先验概率,是指一种“症状”特征在未进入朴素贝叶斯分类器前,这种症状属于疾病bj的概率;dmax为朴素贝叶斯分类器的最大概率值,在求取后添加负号,与n个TransE翻译模型的距离值相乘之后求取最小值,得到疾病推理模型,F表示疾病推理模型的预测结果。即疾病推理问题,可以被视作TransE翻译模型的链接预测,TransE翻译模型越预测正确时,距离值越小,朴素贝叶斯分类器预测越正确,其输出值越大。
在本实施例中,疾病推理模型训练模块104利用训练数据集训练疾病推理模型时,训练数据集首先输入至TransE翻译模型,在TransE翻译模型中训练后得到“症状”头向量h、“发生部位”关系向量r、“疾病”实体尾向量t和先验概率P(tbj),其中,结合图3所示的TransE翻译模型的结构图,h+r与关系向量t的距离越近,三元组<症状,发生部位,疾病>的疾病与症状、发生部位之间的匹配越准确;否则,三元组<症状,发生部位,疾病>的疾病与症状、发生部位之间的匹配越偏离。
在本实施例中,数据分割模块103将训练数据集划分为两份,统计训练数据集三元组<症状,发生部位,疾病>中每一种疾病对应的所有<症状,发生部位>的数目,确定所有疾病中对应<症状,发生部位>数目中的最大值Max1,Max1为正整数;
边界值M从取1开始,以1/2Max1为止,逐次加1遍历,在从取1开始的每一个边界值M下,逐一将训练数据集中每个疾病对应的<症状,发生部位>的数目作为输入数目与边界值M对比,具体的实施过程中,结合表1所示的<症状,发生部位,疾病>内容,逐一输入每个疾病对应的所有症状和发生部位直到所有疾病训练完成,例如表1中的“百日咳”进入时,就将表2的前两列进行输入,存在的行数就是输入数目的个数,此时是8行,所以输入数目是8。
表2
所述的训练疾病推理模型是指利用整个数据集在不同的边界值,不同的n值(TransE翻译模型个数)和不同的m值(朴素贝叶斯分类器个数)里进行训练,保留(每个边界值,n值,m值)和对应的总体准确率如表4所示,最后选取总准确率最高时的边界值,n值,m值作为模型的参数。
表4
边界值M | n | m | 总体确率 |
1 | 1 | 1 | |
2 | 1 | 2 | |
3 | 2 | 1 | |
… | … | … | … |
训练数据集划分为两份时,疾病推理的过程示意图如图4所示,若输入数目小于边界值M时,训练数据集进入第一推理模型,所述第一推理模型为:
其中,n1表示第一推理模型中TransE翻译模型的个数,m1表示第一推理模型中朴素贝叶斯分类器的个数;若输入数目大于等于边界值M时,训练数据集进入第二推理模型,所述第二推理模型为:
其中,n2表示第二推理模型中TransE翻译模型的个数,m2表示第二推理模型中朴素贝叶斯分类器的个数;统计边界值M在依次取值下,经第一推理模型与第二推理模型分别推理疾病病种的准确率,在第一推理模型与第二推理模型推理疾病病种准确率相加的总准确率最高时,选定总准确率最高时对应的边界值MA作为训练数据集划分为两份时疾病推理模型的边界值,以及确定总准确率最高时对应的第一推理模型中TransE翻译模型的个数n1、朴素贝叶斯分类器的个数m1、第二推理模型中TransE翻译模型的个数n2、朴素贝叶斯分类器的个数m2。
总准确率是被分成两份的数据集进入第一推理模型及第二推理模型后的准确率相加后的结果,为输入数目小于边界值M时的疾病推理模型准确率加上输入数目大于等于边界值时的疾病推理模型准确率。
第一推理模型或第二推理模型推理疾病病种准确率的计算方法是预测正确的数目除以预测数目,比如分成两份时,有α个疾病的<症状,发生部位>的数目小于边界值,该模型预测疾病正确的数目为β,则输入数目小于边界值时的模型准确率β/α。
在此,数据分割模块103将训练数据集和测试数据集划分时,一方面考虑整个疾病推理系统所依据的硬件情况,一般划分的份数越多,疾病推理系统预测准确率越高,但运行时间和对硬件的要求也越高,另一方面,考虑若系统依托单个模型处理整个数据集时,处理负担大,将训练数据集和测试数据集划分可降低处理负担。此外,在数据集划分的基础下,为每一部分的数据集寻找合适个数的TransE翻译模型和朴素贝叶斯分类器搭配,实现自适应匹配,既能减少输入不平衡性对模型的影响,还能利用朴素贝叶斯分类器提升可解释性,提高系统对疾病推理的准确率。
在本实施例中,测试时,数据分割模块103将测试数据集<症状,发生部位>划分为两份,所述测试模块105以划分下的测试数据集<症状,发生部位>作为输入数据组,首先逐一将测试数据集中同样的<症状,发生部位>测试数据组的数目作为输入数目,将输入数目与边界值MA进行比较,当输入数目小于边界值MA时,同样的<症状,发生部位>测试数据组进入第一推理模型,否则,同样的<症状,发生部位>测试数据组进入第二推理模型。
测试数据集输入至具有不同TransE翻译模型个数及朴素贝叶斯分类器个数的疾病推理模型后,输出的疾病预测值为疾病推理模型的预测结果F最小时,对应的疾病bj。
实施例2
如图5所示,本发明还提出一种基于知识图谱和自适应机制的疾病推理设备,包括存储器106、处理器107及存储在存储器106上并可在处理器107上运行的计算机程序,所述处理器107执行计算机程序时,实现:
构建以三元组<症状,发生部位,疾病>为结构的知识图谱,确定由若干个三元组<症状,发生部位,疾病>组成的训练数据集;确定<症状,发生部位>组成的测试数据集;
基于TransE翻译模型和朴素贝叶斯分类器,构建疾病推理模型;将训练数据集划分,将测试数据集划分;利用训练数据集训练疾病推理模型,确定训练数据集划分下,疾病推理模型中TransE翻译模型的个数n、朴素贝叶斯分类器的个数m及边界值M;以划分下的测试数据集<症状,发生部位>作为输入数据组,将输入数据组的数目与边界值M进行比较,输入至疾病推理模型中,输出疾病预测值。
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于知识图谱和自适应机制的疾病推理系统,其特征在于,所述系统包括:
数据获取模块,用于构建以三元组<症状,发生部位,疾病>为结构的知识图谱,确定由若干个三元组<症状,发生部位,疾病>组成的训练数据集;确定<症状,发生部位>组成的测试数据集;
疾病推理模型构建模块,基于TransE翻译模型和朴素贝叶斯分类器,构建疾病推理模型;
数据分割模块,用于将训练数据集划分,将测试数据集划分;
疾病推理模型训练模块,利用训练数据集训练疾病推理模型,确定训练数据集划分下,疾病推理模型中TransE翻译模型的个数n、朴素贝叶斯分类器的个数m及边界值M;
测试模块,以划分下的测试数据集<症状,发生部位>作为输入数据组,将输入数据组的数目与边界值M进行比较,输入至具有不同TransE翻译模型个数及朴素贝叶斯分类器个数的疾病推理模型中,输出疾病预测值。
2.根据权利要求1所述的基于知识图谱和自适应机制的疾病推理系统,其特征在于,数据获取模块构建以三元组<症状,发生部位,疾病>为结构的知识图谱的过程为:
获取知识图谱所需医学字段,对医学字段进行分词操作,将“疾病”、“发生部位”、“症状”信息与除三者之外的无用信息进行分离;
对分离后的“疾病”、“发生部位”、“症状”信息做关键词提取,得到以三元组<症状,发生部位,疾病>为结构的知识图谱;
所述由若干个三元组<症状,发生部位,疾病>组成的训练数据集为若干个“疾病”病种分别对应下的<症状,发生部位>数据组成的三元组<症状,发生部位,疾病>集合;所述测试数据集为<症状,发生部位>数据组成的集合。
3.根据权利要求2所述的基于知识图谱和自适应机制的疾病推理系统,其特征在于,所需医学字段通过Python的urllib库从网页获取,基于Pkuseg分词包对医学字段进行分词操作,基于THUOCL_medical词库对分离后的“疾病”、“发生部位”、“症状”信息做关键词提取。
4.根据权利要求2所述的基于知识图谱和自适应机制的疾病推理系统,其特征在于,三元组<症状,发生部位,疾病>中的“症状”和“疾病”分别为头部实体和尾部实体,“发生部位”为关系,疾病推理模型构建模块基于TransE翻译模型将知识图谱中的三元组实体和关系均表示为同一空间中的向量,并将关系看作实体间的平移向量。
5.根据权利要求4所述的基于知识图谱和自适应机制的疾病推理系统,其特征在于,设头部“症状”实体表示为头向量h,“发生部位”关系表示成为向量r,尾部“疾病”实体表示为尾向量t,L类疾病分别为{b1,b2,…,bL},bj表示第j类疾病;设存在K组<症状,发生部位>数据待推理疾病,疾病推理模型构建模块基于TransE翻译模型和朴素贝叶斯分类器,构建的疾病推理模型为:
其中,疾病推理模型由n个TransE翻译模型的距离值和m个朴素贝叶斯分类器的概率值组成,表示TransE翻译模型在K组<症状,发生部位>数据输入时的距离值,通过累乘得到TransE翻译模型的最终距离值D(bj):
6.根据权利要求5所述的基于知识图谱和自适应机制的疾病推理系统,其特征在于,所述疾病推理模型训练模块利用训练数据集训练疾病推理模型时,训练数据集首先输入至TransE翻译模型,在TransE翻译模型中训练后得到“症状”头向量h、“发生部位”关系向量r、“疾病”实体尾向量t和先验概率P(tbj),其中,h+r与关系向量t的距离越近,三元组<症状,发生部位,疾病>的疾病与症状、发生部位之间的匹配越准确;否则,三元组<症状,发生部位,疾病>的疾病与症状、发生部位之间的匹配越偏离。
7.根据权利要求5所述的基于知识图谱和自适应机制的疾病推理系统,其特征在于,数据分割模块将训练数据集划分为两份,统计训练数据集三元组<症状,发生部位,疾病>中每一种疾病对应的所有<症状,发生部位>的数目,确定所有疾病中对应<症状,发生部位>数目中的最大值Max1,Max1为正整数;
边界值M从取1开始,以1/2Max1为止,逐次加1遍历,在从取1开始的每一个边界值M下,逐一将训练数据集中每个疾病对应的<症状,发生部位>的数目作为输入数目与边界值M对比,若输入数目小于边界值M时,训练数据集进入第一推理模型,所述第一推理模型为:
其中,n1表示第一推理模型中TransE翻译模型的个数,m1表示第一推理模型中朴素贝叶斯分类器的个数;若输入数目大于等于边界值M时,训练数据集进入第二推理模型,所述第二推理模型为:
其中,n2表示第二推理模型中TransE翻译模型的个数,m2表示第二推理模型中朴素贝叶斯分类器的个数;统计边界值M在依次取值下,经第一推理模型与第二推理模型分别推理疾病病种的准确率,在第一推理模型与第二推理模型推理疾病病种准确率相加的总准确率最高时,选定总准确率最高时对应的边界值MA作为训练数据集划分为两份时疾病推理模型的边界值,以及确定总准确率最高时对应的第一推理模型中TransE翻译模型的个数n1、朴素贝叶斯分类器的个数m1、第二推理模型中TransE翻译模型的个数n2、朴素贝叶斯分类器的个数m2。
8.根据权利要求7所述的基于知识图谱和自适应机制的疾病推理系统,其特征在于,数据分割模块将测试数据集<症状,发生部位>划分为两份,所述测试模块以划分下的测试数据集<症状,发生部位>作为输入数据组,首先逐一将测试数据集中同样的<症状,发生部位>测试数据组的数目作为输入数目,将输入数目与边界值MA进行比较,当输入数目小于边界值MA时,同样的<症状,发生部位>测试数据组进入第一推理模型,否则,同样的<症状,发生部位>测试数据组进入第二推理模型。
9.根据权利要求8所述的基于知识图谱和自适应机制的疾病推理系统,其特征在于,测试数据集输入至具有不同TransE翻译模型个数及朴素贝叶斯分类器个数的疾病推理模型后,输出的疾病预测值为疾病推理模型的预测结果F最小时,对应的疾病bj。
10.一种基于知识图谱和自适应机制的疾病推理设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行计算机程序时,实现:
构建以三元组<症状,发生部位,疾病>为结构的知识图谱,确定由若干个三元组<症状,发生部位,疾病>组成的训练数据集;确定<症状,发生部位>组成的测试数据集;
基于TransE翻译模型和朴素贝叶斯分类器,构建疾病推理模型;将训练数据集划分,将测试数据集划分;利用训练数据集训练疾病推理模型,确定训练数据集划分下,疾病推理模型中TransE翻译模型的个数n、朴素贝叶斯分类器的个数m及边界值M;以划分下的测试数据集<症状,发生部位>作为输入数据组,将输入数据组的数目与边界值M进行比较,输入至具有不同TransE翻译模型个数及朴素贝叶斯分类器个数的疾病推理模型中,输出疾病预测值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111258604.2A CN113972010B (zh) | 2021-10-27 | 2021-10-27 | 一种基于知识图谱和自适应机制的辅助疾病推理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111258604.2A CN113972010B (zh) | 2021-10-27 | 2021-10-27 | 一种基于知识图谱和自适应机制的辅助疾病推理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113972010A true CN113972010A (zh) | 2022-01-25 |
CN113972010B CN113972010B (zh) | 2024-06-21 |
Family
ID=79588821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111258604.2A Active CN113972010B (zh) | 2021-10-27 | 2021-10-27 | 一种基于知识图谱和自适应机制的辅助疾病推理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113972010B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115563286A (zh) * | 2022-11-10 | 2023-01-03 | 东北农业大学 | 一种基于知识驱动的奶牛疾病文本分类方法 |
CN116825364A (zh) * | 2023-08-29 | 2023-09-29 | 江苏盛泰科技集团有限公司 | 一种高危人群健康识别判定系统 |
CN116994686A (zh) * | 2023-09-26 | 2023-11-03 | 北斗云方(北京)健康科技有限公司 | 数据驱动的临床决策支持系统和方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108492887A (zh) * | 2018-04-13 | 2018-09-04 | 合肥工业大学 | 医疗知识图谱构建方法及装置 |
CN108565019A (zh) * | 2018-04-13 | 2018-09-21 | 合肥工业大学 | 多学科适用的临床检查组合推荐方法及装置 |
US20180322954A1 (en) * | 2017-05-08 | 2018-11-08 | Hefei University Of Technology | Method and device for constructing medical knowledge graph and assistant diagnosis method |
CN111292848A (zh) * | 2019-12-31 | 2020-06-16 | 同方知网(北京)技术有限公司 | 一种基于贝叶斯估计的医疗知识图谱辅助推理方法 |
-
2021
- 2021-10-27 CN CN202111258604.2A patent/CN113972010B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180322954A1 (en) * | 2017-05-08 | 2018-11-08 | Hefei University Of Technology | Method and device for constructing medical knowledge graph and assistant diagnosis method |
CN108492887A (zh) * | 2018-04-13 | 2018-09-04 | 合肥工业大学 | 医疗知识图谱构建方法及装置 |
CN108565019A (zh) * | 2018-04-13 | 2018-09-21 | 合肥工业大学 | 多学科适用的临床检查组合推荐方法及装置 |
CN111292848A (zh) * | 2019-12-31 | 2020-06-16 | 同方知网(北京)技术有限公司 | 一种基于贝叶斯估计的医疗知识图谱辅助推理方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115563286A (zh) * | 2022-11-10 | 2023-01-03 | 东北农业大学 | 一种基于知识驱动的奶牛疾病文本分类方法 |
CN115563286B (zh) * | 2022-11-10 | 2023-12-01 | 东北农业大学 | 一种基于知识驱动的奶牛疾病文本分类方法 |
CN116825364A (zh) * | 2023-08-29 | 2023-09-29 | 江苏盛泰科技集团有限公司 | 一种高危人群健康识别判定系统 |
CN116994686A (zh) * | 2023-09-26 | 2023-11-03 | 北斗云方(北京)健康科技有限公司 | 数据驱动的临床决策支持系统和方法 |
CN116994686B (zh) * | 2023-09-26 | 2023-12-15 | 北斗云方(北京)健康科技有限公司 | 数据驱动的临床决策支持系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113972010B (zh) | 2024-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Label co-occurrence learning with graph convolutional networks for multi-label chest x-ray image classification | |
US11853903B2 (en) | SGCNN: structural graph convolutional neural network | |
CN113972010A (zh) | 一种基于知识图谱和自适应机制的辅助疾病推理系统 | |
Sahu et al. | Hybrid Deep learning based Semi-supervised Model for Medical Imaging | |
CN109344250B (zh) | 基于医保数据的单病种诊断信息快速结构化方法 | |
CN108062978B (zh) | 一种急性冠状动脉综合征患者的主要不良心血管事件预测方法 | |
CN111949759A (zh) | 病历文本相似度的检索方法、系统及计算机设备 | |
CN108091397A (zh) | 一种基于提升-重采样和特征关联分析的缺血性心脏病患者的出血事件预测方法 | |
CN112489769A (zh) | 基于深度神经网络的慢性病智慧中医诊断与药物推荐系统 | |
CN115098620A (zh) | 一种注意力相似度迁移的跨模态哈希检索方法 | |
CN106909537A (zh) | 一种基于主题模型和向量空间的一词多义分析方法 | |
Yang et al. | Structural graphical lasso for learning mouse brain connectivity | |
US20230029947A1 (en) | Medical disease feature selection method based on improved salp swarm algorithm | |
CN104537280B (zh) | 基于文本关系相似性的蛋白质交互关系识别方法 | |
CN116881336A (zh) | 一种用于医学大数据的高效多模态对比深度哈希检索方法 | |
CN114093445B (zh) | 一种基于偏多标记学习的患者筛选标记方法 | |
Sushma et al. | An improved feature selection approach for chronic heart disease detection | |
Sun et al. | TSRNet: Diagnosis of COVID-19 based on self-supervised learning and hybrid ensemble model | |
CN113656594A (zh) | 一种基于飞行器维修的知识推理方法 | |
Li et al. | Improved deep belief network model and its application in named entity recognition of Chinese electronic medical records | |
Su et al. | Active sample selection and correction propagation on a gradually-augmented graph | |
Senyukova et al. | Ensemble decomposition learning for optimal utilization of implicitly encoded knowledge in biomedical applications | |
Sun et al. | Chemical-protein interaction extraction from biomedical literature: a hierarchical recurrent convolutional neural network method | |
Rabiha et al. | Diabetes Classification Using Support Vector Machine: Binary Classification Model | |
Darapaneni et al. | Multi-lesion detection using deep neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |