CN106951684A - 一种医学疾病诊断记录中实体消歧的方法 - Google Patents
一种医学疾病诊断记录中实体消歧的方法 Download PDFInfo
- Publication number
- CN106951684A CN106951684A CN201710112316.3A CN201710112316A CN106951684A CN 106951684 A CN106951684 A CN 106951684A CN 201710112316 A CN201710112316 A CN 201710112316A CN 106951684 A CN106951684 A CN 106951684A
- Authority
- CN
- China
- Prior art keywords
- entity
- disease
- disambiguation
- candidate
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 201000010099 disease Diseases 0.000 claims abstract description 263
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 263
- 238000003745 diagnosis Methods 0.000 claims abstract description 44
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 238000001914 filtration Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 101150035983 str1 gene Proteins 0.000 claims description 7
- 238000005295 random walk Methods 0.000 claims description 6
- 238000010561 standard procedure Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 4
- 238000011524 similarity measure Methods 0.000 claims 1
- 238000001356 surgical procedure Methods 0.000 claims 1
- 206010002383 Angina Pectoris Diseases 0.000 description 18
- 208000007814 Unstable Angina Diseases 0.000 description 11
- 206010002388 Angina unstable Diseases 0.000 description 8
- 201000004332 intermediate coronary syndrome Diseases 0.000 description 8
- 206010000891 acute myocardial infarction Diseases 0.000 description 6
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 4
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 208000009785 Inferior Wall Myocardial Infarction Diseases 0.000 description 2
- 238000002399 angioplasty Methods 0.000 description 2
- 230000003143 atherosclerotic effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 210000004351 coronary vessel Anatomy 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 208000019622 heart disease Diseases 0.000 description 2
- 238000002513 implantation Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 206010003211 Arteriosclerosis coronary artery Diseases 0.000 description 1
- 201000003176 Severe Acute Respiratory Syndrome Diseases 0.000 description 1
- 208000007718 Stable Angina Diseases 0.000 description 1
- 208000001910 Ventricular Heart Septal Defects Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000007630 basic procedure Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 208000029078 coronary artery disease Diseases 0.000 description 1
- 208000026758 coronary atherosclerosis Diseases 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004217 heart function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 201000003130 ventricular septal defect Diseases 0.000 description 1
Classifications
-
- G06F19/324—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
Abstract
本发明公布了一种疾病诊断记录中实体名称消歧的方法,基于异构伴病网络和图模型,对医学疾病诊断记录中多个待消歧的实体名称进行消歧。利用待消歧实体名称和候选实体名称之间的相似度作为局部信息,并将同一条记录中其它待消歧实体对当前待消歧实体的贡献作为全局信息,能提升医学实体名称消歧的准确率;根据疾病诊断记录和标注数据建立异构伴病网络,更直观可信的反映疾病与疾病、疾病与手术之间关系,准确、高效的将实体名称进行标准名称映射,解决诊断信息下医学疾病实体名称存在的歧义问题,满足实际应用需求。
Description
技术领域
本发明涉及自然语言文本信息处理及医疗大数据挖掘领域,尤其涉及一种基于医学疾病诊断记录的疾病实体和手术实体消歧的方法。
背景技术
医学疾病诊断记录包含病人诊断的主要疾病名称、次要诊断疾病名称(即伴随疾病名称)以及诊断疾病的手术等信息。对同一种疾病名称,由于疾病种类的繁多、医生经验差异等,同一疾病名称往往存在多种不同的表达形式,给医学电子病历数据的规范化带来很大挑战。
命名实体消歧的任务是对于文本中给定的实体指称(指称指实体在某一文章或领域内的名称),将其和知识库中对应的实体建立映射关系。命名实体消歧旨在解决文本中广泛存在的名称歧义问题,在自然语言处理应用中发挥着重要的作用,可以用于有效解决语义网络、信息检索、信息抽取、自动问答等自然处理任务。实体消歧主要分为两个步骤:(1)候选实体生成;(2)候选实体排序。候选实体生成是利用实体的上下文信息对给定的知识库进行检索,得到候选实体集合,常用方法为利用维基百科生成命名词典进行匹配、对实体进行扩展的匹配和基于搜索引擎(如Google等)的匹配方法;候选实体排序指对生成的候选实体进行排序,常用的方法为监督和非监督方法。监督方法包括二分类方法、基于概率模型和基于图模型等方法。监督学习方法能够利用标注信息,利用训练数据的特征对实体和候选实体之间的规律进行挖掘,缺点是需要人工标注数据,成本较高;非监督的学习方法包括信息检索和向量空间模型,不需要标注数据,能够利用实体上下文的语义信息,但特征提取较为困难。
目前关于命名实体消歧的研究日趋成熟,但针对医学领域疾病实体的消歧任务,由于疾病名称的多样化以及诊断信息不完整,无法直接利用一般命名实体消歧的方法,因此,目前还没有有效的医学领域疾病实体的消歧模型及方法。
发明内容
为克服现有技术不足,本发明提出一种基于医学疾病诊断记录的实体(疾病和手术)名称的消歧方法,能够准确、高效的将病人诊断记录中疾病实体映射到标准的疾病实体,同时也能利用疾病和手术的关系将手术实体也映射到标准的手术实体,解决部分诊断信息下医学疾病实体存在的歧义问题,满足实际应用需求。
本发明的核心是:根据医学疾病诊断记录的特点以及对疾病实体的特点的分析,提出一种基于异构伴病网络和图模型的医学疾病实体及相应手术实体的消歧方法。通过建立异构伴病网络获取疾病实体之间的伴随关系以及疾病实体和手术实体之间的关联关系,对待消歧的疾病实体和手术实体运用多层过滤机制生成候选疾病实体和手术实体,对候选疾病实体及候选手术实体建立图模型,并使用异构网络上的个性化网页排名(Personalized Page Rank)算法对候选疾病实体和候选手术实体进行排序,分别选取对应TopK的候选实体作为待消歧疾病名称对应的疾病实体和待消歧手术实体对应的手术实体。
具体地,本发明针对疾病诊断中的疾病实体和伴病实体的共现特性及主要诊断疾病的手术信息提取出疾病实体之间的关系以及疾病实体和手术实体之间的关系,构建由疾病实体和手术实体组成的异构伴病网络;针对待消歧的疾病实体,根据多层过滤机制从知识库中和疾病之间的层次关系检索生成候选疾病实体集合,针对待消歧的手术实体,使用多层过滤机制生成候选手术实体集合;针对候选疾病实体和手术实体构建以<待消歧疾病实体,候选疾病实体>,<待消歧手术实体,候选手术实体>为节点的图模型,节点的边及权重由异构伴病网络得到;针对候选疾病实体和手术实体的图模型,提出适用于异构网络的改进PPR算法:异构网络个性化网页排名He-PPR算法(Heterogeneous Personalized PageRank);使用He-PPR算法对候选疾病实体和手术实体进行打分,并根据得分选择Top K的候选疾病实体和手术实体作为待消歧疾病实体对应的标准疾病实体及待消歧手术实体对应的标准手术实体。
为方便说明,本说明书对所使用的参数符号进行统一设定如下:
诊断记录:R={R1,R2,...RT|Ri,i=1,...T}表示一条诊断记录,T表示诊断记录的数目;
标注数据:D={D1,D2,...DK|Di,i=1,...K}表示一条标注数据,K表示标注数据的数目;
待消歧诊断记录:其中mi,i=1,...l1表示一个待消歧疾病实体;oi,i=1,...l2表示一个待消歧手术实体;l1、l2分别表示待消歧的疾病实体、手术实体的数目;
待消歧疾病实体mi对应的候选实体:ci表示mi的候选实体的数目;
待消歧手术实体oi对应的候选实体:ci表示oi的候选实体的数目;
所有待消歧实体候选实体集合:
ICD-10:6位疾病编码库,nmi表示编码库中一个标准疾病名称;
ICD-9:6位手术编码库,noi表示编码库中一个标准手术操作名称。
本发明的技术方案是:
一种医学疾病诊断记录中实体消歧的方法,可对医学疾病诊断记录中多个待消歧的疾病实体以及手术实体同时进行消歧,所述方法以一条包含多个待消歧的疾病实体和手术实体的记录为输入数据(主诊断、副诊断、手术信息),首先根据医学实体标注数据和大量的诊断记录构建出异构伴病网络,根据多层过滤机制及疾病层次关系形成候选疾病实体及候选手术实体,并构建出由候选疾病实体和候选手术实体为节点的异构子图,构建出的子图中节点及边由异构伴病网络得到;对每个待消歧的疾病实体和候选手术实体,由异构网络个性化网页排名He-PPR算法计算其余待消歧实体的候选实体(疾病、手术)名称节点对该节点(即待消歧实体的一组候选实体,包括疾病、手术;)的消歧“贡献”,从而对待消歧实体的候选实体进行打分,选择Top K得分最高的节点的候选实体作为待消歧实体对应的标准实体。
具体包括以下步骤:
1)首先在医生疾病诊断记录R={R1,R2,...RT}及医学标注数据D={D1,D2,...DK}的基础上构造出异构伴病网络G=(V,E);
诊断记录中的诊断信息包括主诊断疾病、副诊断疾病、手术信息;标注数据是由医疗领域专业人员对部分诊断记录的标注结果,表明待消歧实体和标准实体之间的对应关系;异构伴病网络中节点是标准疾病实体和标准手术实体。
2)根据知识库ICD-10(国际疾病伤害及死因分类标准第十版)中3位、4位及6位疾病编码库构造疾病层次关系网络Gm=(Vm,Em),表示疾病之间的所属关系;
3)对一条待消歧疾病记录r={m1,m2,...ml1;o1,o2,...ol2}中的每一个实体(疾病、手术)mi、oi,经过数据预处理和多层过滤机制,从知识库ICD-10和疾病的层次关系中检索得到候选实体集合
针对待消歧疾病记录中每个实体进行消歧,每个实体均对应一组候选实体,每个待消歧实体对应的候选实体可有多个,可通过打分来进行排序;
4)对候选实体集合由异构伴病网络G构建候选实体子图G'=(V',E');
5)以候选实体(疾病、手术)构成的异构子图中的每一个待消歧实体对应的候选实体为节点,根据异构网络个性化网页排名算法(He-PPR)对每一个待消歧的实体对应候选实体节点进行打分;
6)对每一个待消歧实体,按照排序分数倒排后输出Top K对应的候选实体作为待消歧实体(疾病、手术)对应的标准实体(疾病、手术)。
针对上述医学疾病诊断记录中多个待消歧疾病实体和手术实体同时消歧的方法,进一步地:
步骤1):根据疾病诊断记录和标注数据构造异构伴病网络的方法,具体包括如下过程:
11)疾病诊断记录R={R1,R2,...RT},其中Ri表示第i条疾病诊断记录,包含病人主诊断疾病名称、副诊断疾病名称以及手术名称,表示为Ri={m1,m2,...ml1;o1,o2,...ol2},其中m1表示主诊断疾病,mi,i=2,...l1表示副诊断疾病;oi,i=1,...l2表示手术实体,对应主诊断疾病实体m1;
12)对每一条疾病诊断记录Ri,对Ri中的每一个非标准的实体(疾病、手术)名称mi∪oi,由标注数据D构建映射词典(<key,value>,其中key表示非标准实体,value表示对应的标准实体),找到其在疾病和手术知识库中对应的标准实体,记为N(mi)、N(oi);
不同的待消歧实体可对应相同的标准实体,如“不稳定性心绞痛(低危)”和“不稳定性心绞痛三支病变”都对应标准疾病名称“不稳定性心绞痛”。
13)对每一条疾病诊断记录Ri中的每一个非标准疾病实体对应的标准实体作为伴病网络中节点,任意两个非标准的疾病实体对应的标准实体N(mi1)、N(mi2),i1≠i2,节点之间存在一条边E=(N(mi1),N(mi2)),其中(N(mi1),N(mi2))出现的次数占N(mi1)、N(mi2)分别出现的次数之和表示边的权重W(N(mi1),N(mi2)),通过式1计算得到;
式1中,count(N(mi1),N(mi2))为N(mi1)、N(mi2)共同出现的疾病记录的条数;count(N(mi1),*)为包含N(mi1)的疾病记录的条数;count(*,N(mi2))为包含N(mi2)的疾病记录的条数;
14)将每一条疾病诊断记录Ri中的每一个非标准的手术实体作为伴病网络中另一类节点,任意两个非标准的手术实体对应的标准实体N(oi1)、N(oi2),i1≠i2之间存在一条边E=(N(oi1),N(oi2)),其中(N(oi1),N(oi2))出现的次数占N(oi1)、N(oi2)分别出现的次数之和表示边的权重W(N(oi1),N(oi2)),同样通过式1计算得到;
15)对每一条疾病诊断记录Ri中的主诊断疾病实体m1对应的手术集合o={o1,...ol2},m1、oi对应的标准实体N(m1)、N(oi)之间存在一条边,(m1,oi)出现的次数占N(m1)、N(oi)分别出现的次数之和表示边的权重W(N(m1),N(oi));
16)对每一条疾病诊断记录Ri,按照12)、13)、14)、15)构建异构伴病网络G=(V,E);
异构伴病网络节点包括:疾病和手术,其中疾病包括主诊断疾病和副诊断疾病,只有主诊断疾病对应手术信息。
步骤2)中,疾病的ICD-10编码中3位、4位和6位编码表示疾病之间的所属关系,编码位数越大,疾病名称细分越精确。3位ICD-10编码对应的疾病实体为祖先节点,4位ICD-10编码中前三位编码与其相同的疾病实体为父节点,以6位ICD-10编码前四位编码与其相同的疾病实体为叶子结点,构造疾病层次关系网络。同一父节点下的疾病实体称为兄弟疾病实体。
步骤3)中,对待消歧疾病记录中的实体(疾病、手术)进行数据预处理和多层过滤机制及疾病间层次关系生成候选实体集合,具体包括如下步骤:
31)对待消歧实体的数据预处理是指将原始的实体按照不同的模式进行匹配,删除数据中的非文本内容,如特殊符号等,将实体中的数字统一转化为阿拉伯数字等;数据预处理为下一步使用编辑距离进行匹配提供输入,具体处理方法如下:
311)删除文本末尾的标点符号,如“急性心肌梗死?”,处理结果为“急性心肌梗死”
312)文本中包含疾病编码时,需将编码提取出来,根据编码对应的实体生成候选实体。如“急性心肌梗死[I07788]”,处理结果为“急性心肌梗死”、“[I07788]”
313)文本中包含罗马数字时,转换为阿拉伯数字,如“心绞痛II-III级(CCS分)”,处理结果为“心绞痛2-3级(CCS分)”
32)对预处理后的待消歧实体按照多层过滤机制和疾病之间的层次关系生成候选实体,并计算两者之间的相似度。设定编辑距离的相似度阈值为Threshold编辑距离的相似度editSim即可通过式2计算得到:
其中,str1和str2分别表示待消歧实体和标准实体,editdis(str1,str2)表示str1、str2的编辑距离;当editSim(str1,str2)≥Threshold时,可将str2作为候选实体加入到候选实体集合中。
具体生成候选实体的步骤如下:
321)对预处理后的待消歧疾病实体mi和ICD-10 6位疾病编码库中疾病名称nmi进行精确匹配:
若精确匹配,将nmi加入到mi的候选实体集合中,且编辑距离相似度记为1,同时根据式2计算nmi在疾病层次关系网络中父节点疾病实体p(nmi)和兄弟节点疾病实体b(nmi)与mi的编辑距离相似度editSim(mi,p(nmi))、editSim(mi,b(nmi)),如果editSim(mi,p(nmi))≥Threshold或者editSim(mi,b(nmi))≥Threshold,则将p(nmi)或b(nmi)加入到中。
否则进行模糊匹配,两者的编辑距离相似度editSim(mi,nmi)由式2得到,当editSim(mi,nmi)≥Threshold时,将nmi加入到中。
322)对预处理后的待消歧手术实体oi和ICD-9手术编码库中的手术实体noi进行精确匹配:
若精确匹配,将noi加入到oi的候选实体集合中,且编辑距离相似度记为1;
否则进行模糊匹配,两者的编辑距离相似度由式2计算得到,当editSim(oi,noi)≥Threshold时,则将noi加入到候选实体集合中。
323)在321)和322)进行的同时,对预处理后的实体进行注音(可使用pypinyin开源库,https://pypi.python.org/pypi/pypinyin),计算待消歧实体和标准实体对应的拼音之间的编辑距离相似度,若编辑距离相似度大于等于Threshold且该标准实体不在候选实体集合,则将其添加到候选实体集合中。
324)根据步骤321)、322)、323),对一条疾病诊断记录中每一个待消歧实体(疾病、手术)名称mi、oi,由多层过滤机制和疾病层次关系网络生成的候选实体集合为
步骤4:根据候选实体及异构伴病网络生成异构候选实体子图,具体步骤如下:
41)对待消歧的疾病诊断记录中每一个待消歧实体mi(或oi),其对应的候选实体集合按照的形式转化为由待消歧实体和候选实体构成的对,以作为由待消歧实体对应的候选实体构成的子图中的节点,不同的待消歧实体也可能对应同一个候选实体,此时应视为两个节点和
42)对于41)中构造的异构伴病网络中的节点,节点之间的边及边权由步骤1异构伴病网络得到,分为三种类型的边,表示为式3~式5:
其中,表示两个标准疾病实体;分别表示两个标准手术实体;
43)对于42)中构造的节点之间的边,需要满足约束条件:同一待消歧实体mi(或oi)对应的候选实体之间没有边相连,表示为即在42)中添加到子图中的边需要满足该约束条件;约束条件的意义在于从子图中节点对其余节点“贡献”角度考虑,同一待消歧实体对应的不同候选实体之间是互斥关系,不会对彼此的消歧提供更多信息;
44)由41)、42)和43),可以得到由待消歧实体对应的候选实体构成的异构子图G'=(V',E');
步骤5:所述在4)构造的候选实体异构子图上,根据异构网络上个性化网页排名算法(He-PPR)计算每个待消歧实体对应的每个候选实体的得分,从而对候选实体进行排序;具体步骤如下:
51)使用异构网络He-PPR算法对子图中的节点进行打分,与同构网络上个性化网页排名算法(PPR)不同的是在同构网络中,在随机游走以一定概率α∈(0,1)沿着当前节点出边进行游走,同时以一定概率β∈(0,1)重新选择节点,其中α+β=1,并将跳转方向固定为同一个节点s,每次进行跳转时都跳转到该固定节点,得到以s节点作为源点时对图中其余节点的打分;以cohs(e)表示节点s对节点e的打分;而在异构网络中,节点e的得分贡献由异构网络中不同类型的节点同时决定,即节点在随机游走时以概率α沿着当前边进行随机游走,同时以概率β跳转到当前同一类型节点的子图中的某一固定点s,并以概率γ跳转到另一同类型节点的某一固定点s',其中α+β+γ=1则(s,s')对节点e的贡献记为coh(s,s')(e)。
52)具体的,每次选取疾病实体节点s和手术实体节点s',将(s,s')作为每次跳转的节点,在子图上运行PageRank算法:在子图中随机选择起始点t∈V'\s,s',按照51)中跳转概率进行随机游走,当子图中节点的PR值(节点相对于网络的重要性)收敛时,则将节点e的PR(e)记为coh(s,s')(e)。
53)对每一个待消歧实体,其在候选实体子图中每个候选实体的得分由两部分组成;分别为局部得分和全局得分,具体计算步骤如下:
531)局部得分指待消歧实体和候选实体之间的相似度,由编辑距离editSim计算得到,表示为editSim(s),s表示待消歧实体;
532)全局得分指除待消歧实体外的其他待消歧实体对应的候选实体对其的贡献。式6表示待消歧实体mi(以mi代表待消歧疾病实体和手术实体)对应的候选实体e的全局得分,由所有满足约束条件的(s,s')组成;式7表示约束条件,对待消歧的实体m和其它待消歧实体m',m'对应的多个候选实体对实体m的“贡献”由得分最高的节点组成;
其中
CONTRe(m,s,s')={(m,argmax(s,s')coh(s,s')(e))∈V',m≠m'} (式7)
533)对每一个待消歧的实体m对应的候选实体e的得分即为
score(e)=editSim(e)+coh(e) (式8)
6)步骤5所述返回Top K的节点作为待消歧实体对应的标准实体;即对每个待消歧实体mi,其对应的标准候选实体为
与现有技术相比,本发明的有益效果是:
本发明提供一种利用异构伴病网络和图模型进行医学疾病记录中实体消歧的方法。通过对疾病诊断记录和标注数据构建出异构伴病网络,并对候选实体子图采用异构网络上He-PPR算法得到每个待消歧实体对应的得分最高的Top K个候选实体,即为待消歧实体对应的K个标准实体。本发明提供的方法不仅利用待消歧实体和候选实体之间的相似度作为局部信息,还将同一条记录中其它待消歧实体对当前待消歧实体的“贡献”作为全局信息,能够提升医学实体消歧的准确率。此外,根据疾病诊断记录和标注数据建立异构伴病网络能够更加直观、可信的反映出疾病与疾病、疾病与手术之间的关系。本方法效率更高,消歧后得到的实体更专业准确,更具说服力。
附图说明
图1是本发明方法进行医学实体消歧的流程框图。
图2是本发明方法中生成异构伴病网络的流程框图。
图3是本发明方法中生成候选实体及候选子图的流程框图。
图4是本发明方法中基于异构候选子图进行排序的流程框图。
图5是本发明实施例构造得到的疾病层次关系网络。
图6是本发明实施例构造的异构伴病网络示意图;
其中,实线表示疾病实体之间的边;单点虚线表示疾病和手术实体之间的边;横线虚线表示手术实体之间的边。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种基于异构伴病网络和图模型进行疾病诊断记录中命名实体消歧的方法,通过建立异构伴病网络获取疾病实体之间的伴随关系以及疾病实体和手术实体之间的关联关系,对待消歧的疾病实体和手术实体运用多层过滤机制生成候选疾病实体和手术实体,对候选疾病实体及候选手术实体建立图模型,并使用异构网络上的个性化网页排名(Heterogeneous Personalized Page Rank,He-PPR)算法对候选疾病实体和候选手术实体进行排序,分别选取对应TopK的候选实体作为待消歧疾病对应的疾病实体和待消歧手术实体对应的手术实体;由此达到准确、高效的将病人诊断记录中疾病实体映射到标准的疾病实体,同时也能利用疾病和手术的关系将手术实体也映射到标准的手术实体,解决部分诊断信息下医学疾病实体存在的歧义问题的目的,从而满足实际应用需求。
图1是本发明提供方法的整体流程图,其中,本发明具体实施时,KB(KnowledgeBase,知识库)采用卫生部“医学标准实体库”(即ICD-10 6位疾病编码),将待消歧的实体映射到知识库中的标准实体。本方法首先根据疾病诊断记录和标注数据构建异构伴病网络,其次,对待消歧的诊断记录中的实体进行数据预处理,经过多层过滤机制和疾病之间的层次关系生成候选实体集合;之后,对候选实体构建异构候选子图;使用异构网络上He-PPR算法对候选子图中节点进行打分,结合局部信息和全局信息,得到每一个待消歧实体对应的TopK的标准实体。具体包括如下步骤:
1)根据疾病诊断记录及标注数据构建伴病网络
本步骤构建的异构伴病网络为候选子图的生成提供疾病实体与疾病实体、手术实体和手术实体以及疾病实体与手术实体之间的关系。图2为构建异构伴病网络的流程图。基本流程包括如下过程:
11)由标注数据构建实体映射词典<key,value>,key指标准实体,value指该标准实体对应的非标准实体;
12)对疾病诊断记录中的每一个待消歧实体mi和oi,根据映射词典找到mi和oi对应的标准实体,记为nmi和noi;
13)对诊断记录中的每两个待消歧的疾病实体mi和mj,其对应的标准实体nmi和nmj之间构建一条边,记为(nmi,nmj);对诊断记录中每两个待消歧的手术实体oi和oj,其对应的标准实体noi和noj之间构建一条边,记为(noi,noj);对诊断记录中主诊断疾病实体m1和手术实体oi,其对应的标准实体nm1和noi之间构建一条边,记为(nm1,noi)。
14)对所有的诊断记录重复步骤12)和13),对相同的边(nmi,nmj)、(noi,noj)、(nm1,noi),边的计数加一,根据式1)计算得到边的权重,最后得到伴病网络G=(V,E);
2)生成候选实体集合及候选实体子图
本步骤对待消歧的实体生成候选实体集合并在此基础上构建候选实体子图。简单来说,首先根据多层过滤机制和疾病层次关系网络对每一个待消歧实体生成候选实体集合,并依据伴病网络中疾病与疾病实体、疾病与手术实体之间的关系构建异构伴病子图。
图3是本发明的生成候选实体集合及候选实体子图的流程图。基本流程包括如下过程:
21)对待消歧实体(疾病、手术)进行数据预处理;
22)对预处理后实体,经过多层过滤机制和疾病层次关系网络,生成候选实体集合;
23)以候选实体作为子图中的节点,不同的待消歧实体对应的同一候选实体视为不同的节点;
24)候选实体子图的节点之间边如下:
3)对候选实体子图使用异构网络He-PPR算法进行排序;
图4即为基于异构候选子图进行排序的流程图。具体流程包括以下过程:
31)以候选子图中每一对不同类型的节点(s,s')为源点,分别使用He-PPR算法计算源点对图中其余节点的贡献;
32)针对节点对(s,s')作为源点,其对待消歧实体m对应的候选实体节点e的贡献,记为coh(s,s')(e);
33)对所有可能的源点节点对(s,s'),其对候选子图中节点e的“贡献”即节点e的全局得分为
coh(e)=∑coh(s,s')(e)*(editSim(s)+editSim(s')) (式11)
权重表示节点对(s,s')在候选子图中对节点对(s,s')的贡献的重要性程度。
34)对每一个待消歧的实体m对应的候选实体节点e,其排序得分由局部得分和全局得分组成;局部得分即待消歧实体和候选实体之间的相似度,由编辑距离相似度editSim(m,e)得到;全局得分即由He-PPR衡量其他待消歧实体对当前待消歧实体的贡献;故候选实体节点e的得分
score(e)=editSim(e)+coh(e) (式12)
为简洁起见,对同一待消歧实体m来说,editSim(m,e)可以记为editSim(e)。
35)对每一个待消歧的实体对应的候选实体节点,根据候选子图中节点的综合得分选择TopK的候选实体作为待消歧实体对应的标准实体;
通过上述方法,可以对每一待消歧实体对应的候选实体集合中筛选出G′中得分最高的K个节点,即为对应的标准实体。
本发明实施例基于某三甲医院提供的病人疾病诊断记录。输入数据为待消歧的疾病诊断记录,包括疾病实体和手术实体,对待消歧的疾病实体和手术实体进行预处理后,经过多层过滤机制和疾病层次关系网络生成候选实体集合,并构建候选实体子图。对每一个待消歧实体,通过对子图上对应的候选实体节点排序,挖掘出待消歧实体对应的标准实体。本发明方法能够解决现有医学病历电子化过程中存在的疾病实体消歧准确度偏低的难题,传统的疾病实体消歧的方法仅仅依靠字符串匹配已经无法满足现有需求。现采用基于异构伴病网络和图模型的实体消歧能够借助同一疾病记录中的其它疾病和手术信息提供更准确、可靠的消歧结果。
针对输入的待消歧的病人疾病诊断记录,包含主诊断疾病实体m0和副诊断疾病实体m1,...m10以及手术实体o1,...o10,即为一条疾病记录中所有的待消歧的实体。按照以下步骤,进行疾病实体和手术实体的消歧:
首先,在对疾病诊断中的实体进行消歧之前,根据疾病ICD-10的3位编码、4位编码、6为编码构造疾病层次关系网络;根据大量医学疾病诊断记录和标注数据构造异构伴病网络。下面步骤中候选实体生成和候选子图生成建立在该步骤基础上。
准备一:构造疾病层次关系网络
疾病的3位、4位和6位编码表示疾病之间的所属关系,编码位数越大,疾病名称细分越精确。以3位编码对应的疾病实体为祖先节点,4位编码前三位编码与其相同的疾病实体为父节点,以6位编码前四位编码与其相同的疾病实体为叶子结点,构造疾病层次关系网络。同一父节点下的疾病实体称为兄弟疾病实体。如图5以“心绞痛”为例,构造疾病之间的层次关系网络。
准备二:构造异构伴病网络
选取标注数据中标注为1的数据即标注了非标准疾病名称对应的标准疾病名称;如:“不稳定型心绞痛”在标注数据中对应的标准疾病名称为“不稳定性心绞痛”;由标注数据构造映射词典,表示非标准实体和标准实体之间的对应关系;
对大量的医学诊断记录中的疾病和手术实体,由映射词典找到对应的标准实体。根据实体之间是否“共现”来建立边的关系,在同一条诊断记录中的疾病实体之间有边相连,同一条诊断记录中的手术实体之间有边相连,同样的,同一条诊断记录中主诊断疾病实体对应的标准疾病实体和标准手术实体之间也都建立边。边的权重由下式计算
例如:在24万条诊断记录和1400条标注数据的基础上,构建出200个实体节点、600条边的异构网络。节点代表的实体“不稳定性心绞痛”和“冠状动脉粥样硬化”的连边的权重图6为异构伴病网络示意图,疾病实体和疾病实体、手术实体和手术实体以及疾病和手术之间存在边。
步骤一:分别对待消歧的疾病实体和手术实体进行预处理;
预处理过程是基于规则过滤的方法,对不规范的实体进行规范化,便于下一步生成候选疾病实体和手术实体;主要处理为(1)删除后缀(2)转换数字(3)提取字符子串。例如以一条疾病诊断记录为主诊断为例:“不稳定型心绞痛?”,副诊断:“急性心肌梗死后室间隔缺损[I30.889]”、“陈旧性下壁心肌梗死”、“心功能Ⅱ级”、“冠状动脉粥样硬化性心脏病”,手术:“冠状动脉药物洗脱支架置入术”、“置入一个血管支架”、“两根导管冠状动脉造影”、“经皮冠状动脉球囊扩张血管成形术”,经过预处理步骤后,分别对应为主诊断:“不稳定型心绞痛”,副诊断:“急性心肌梗死后室间隔缺损”、“陈旧性下壁心肌梗死”、“心功2级”、“冠状动脉粥样硬化性心脏病”,手术:“冠状动脉药物洗脱支架置入术”、“置入1个血管支架”、“2根导管冠状动脉造影”、“经皮冠状动脉球囊扩张血管成形术”
步骤二:对每一个待消歧的实体,首先和标准疾病和手术实体库中实体进行精确匹配;如能精确匹配,则将标准疾病库中匹配的实体加入候选实体集合;如“不稳定性心绞痛”和标准疾病库中实体“不稳定性心绞痛”精确匹配,则返回“不稳定性心绞痛”作为候选实体;
步骤三:对每一个待消歧的实体,计算待消歧实体和标准实体的编辑距离相似度
以主诊断疾病实体“不稳定型心绞痛”为例,根据经验,选定Threshold为0.3(一般取值在0.2~0.8,随着Threshold取值增大,生成的候选实体集合会变小),则经过多层过滤后生成的候选实体集合为C1={“不稳定性心绞痛”,“稳定性心绞痛”,“混合型心绞痛”,“变异性心绞痛”},经过疾病层次关系网络,选择与其在同一层次的兄弟疾病实体和父亲疾病实体C2={“心绞痛”},故其最终的候选疾病实体集合为C1∪C2={“不稳定性心绞痛”,“稳定性心绞痛”,“混合型心绞痛”,“变异性心绞痛”,“心绞痛”},对应的编辑距离相似度为0.86、0.86、0.57、0.43、0.43。
步骤四:对每一个待消歧的疾病实体,由步骤二、步骤三得到候选疾病实体;并将每一个候选实体所在疾病层次关系网络中同一父节点下的不在现有候选实体集合中且编辑距离相似度满足约束条件的的兄弟疾病实体也加入到候选疾病实体集合中;例如:“混合型心绞痛”、“劳力型心绞痛”在疾病层次关系网络中为兄弟疾病,且“劳力型心绞痛”的编辑距离相似度满足约束,故“混合型心绞痛”在候选实体集合中时,“劳力型心绞痛”也加入到候选疾病实体集合中。
需要注意的是,疾病实体之间才有层次关系网络,故手术实体在进行候选实体生成时只经过步骤二和步骤三。
步骤五:由候选实体和异构伴病网络构造候选子图
以步骤二生成的候选实体和待消歧的实体为节点对(便于区分不同待消歧实体对应的同一候选实体)组成候选实体子图中的节点,节点之间的边包括主诊断疾病实体m1的候选实体与副诊断疾病实体mi,i≠1的候选实体之间的边、副诊断疾病实体mi1和mi2对应的候选实体和之间的边、手术实体oi1和oi2对应的候选实体oi1 c和oi2 c之间的边以及主诊断疾病实体m1的候选实体与手术实体oi1的候选实体oi1 c之间的边。
由异构伴病网络可以得到候选实体节点之间的边及权重,构成异构候选实体子图。
步骤六:对候选子图中节点使用He-PPR算法计算每对节点(s,s')对候选实体节点e的贡献
对候选子图中的每一个候选实体对应的节点e来说,分别选定疾病候选实体节点s和手术候选实体节点s'为在网络中随机游走时的跳转的节点。节点以α(一般取值为0.4)沿着当前节点(疾病实体节点)出边进行游走,同时以一定概率β(一般取值为0.3)重新跳转到节点s,也以一定概率γ跳转到节点s'。其中α+β+γ=1,则(s,s')对节点e的贡献记为coh(s,s')(e)。
步骤七:计算每个候选实体的全局得分
对一个待消歧的疾病实体来说,候选实体的全局得分由公式coh(e)=∑coh(s,s')(e)*(editSim(s)+editSim(s'))计算得到。其中coh(s,s')(e)由步骤六计算得到,表示节点对(s,s')对候选实体e的贡献,(editSim(s)+editSim(s'))表示节点对的权重,权重越大,则该“贡献”就越重要。
步骤八:计算每个候选实体的总得分
候选实体e的总得分由两部分组成,分别称为局部得分和全局得分。局部得分表示为editSim(e),由编辑距离相似度度量;全局得分表示为coh(e),由He-PPR计算得到。总得分由下式计算得到。
score(e)=editSim(e)+coh(e)
步骤九:根据得分返回Top K结果
由步骤八得到每个候选实体的总得分后,将每个候选实体按照得分进行倒排,选取Top K的结果返回作为待消歧实体可能对应的候选实体。
上述具体过程运用到医疗疾病实体、手术、药物、症状等数据,综合考虑一条疾病诊断记录中多个待消歧实体对彼此消歧会提供全局信息,同时对多个待消歧实体进行消歧可以共享全局信息。通过本发明提供的技术方案,医学病理电子化等相关人员可以极大的提高效率和决策的科学性,快速准确的对诊断病例中的疾病进行消歧,并以此作为疾病名称标准化的合理依据。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (7)
1.一种疾病诊断记录中实体消歧的方法,基于异构伴病网络和图模型,对医学疾病诊断记录中多个待消歧的实体进行消歧;疾病诊断记录记作R={R1,R2,...RT|Ri,i=1,...T},Ri表示第i条疾病诊断记录,包含主诊断疾病名称、副诊断疾病名称以及手术名称,所述实体包括疾病实体和手术实体;疾病诊断记录中的医学标注数据记作D={D1,D2,...DK|Di,i=1,...K};所述方法以包含多个待消歧的实体mi(和oi)的待消歧记录r={m1,m2,...ml1;o1,o2,...ol2}作为输入,将待消歧记录r中每一个待消歧实体mi(和oi)对应的候选实体集合记为所有待消歧实体的候选实体集合记为针对待消歧记录r={m1,m2,...ml1;o1,o2,...ol2},所述方法包括如下步骤:
1)根据医生疾病诊断记录R={R1,R2,...RT|Ri,i=1,...T}和医学标注数据D={D1,D2,...DK|Di,i=1,...K},构造异构伴病网络G=(V,E),异构伴病网络节点包括疾病节点和手术节点,其中疾病包括主诊断疾病和副诊断疾病,主诊断疾病对应手术;包括如下过程:
11)将疾病诊断记录R={R1,R2,...RT|Ri,i=1,...T}中的第i条疾病诊断记录Ri表示为Ri={m1,m2,...ml1;o1,o2,...ol2},其中m1表示主诊断疾病名称;mi,i=2,...l1表示副诊断疾病名称;oi,i=1,...l2表示手术名称;每一条疾病诊断记录Ri中的每一个非标准实体记为mi(或oi)
12)由标注数据D构建映射词典,找到每一个非标准实体mi(或oi)对应的标准实体,记为nmi(或noi);建立映射(mi,nmi)(或(oi,noi));
13)将每一条疾病诊断记录Ri中的每个非标准疾病实体对应的标准实体作为伴病网络中的节点,每两个非标准疾病实体mi1、mi2对应的标准实体N(mi1)、N(mi2),i1≠i2之间存在一条边E=(N(mi1),N(mi2)),边(N(mi1),N(mi2))的权重通过式1计算得到:
式1中,count(N(mi1),N(mi2))为N(mi1)、N(mi2)共同出现的疾病记录的条数;count(N(mi1),*)为包含N(mi1)的疾病记录的条数;count(*,N(mi2))为包含N(mi2)的疾病记录的条数;
14)每一条疾病诊断记录Ri中每个非标准的手术实体对应的标准实体作为伴病网络中的节点,每两个不同非标准手术实体oi1、oi2对应的标准手术实体N(oi1)、N(oi2),i1≠i2之间存在一条边E=(N(oi1),N(oi2)),边的权重W(N(oi1),N(oi2))表示为(N(oi1),N(oi2))出现的次数占N(oi1)、N(oi2)分别出现的次数之和,通过式1计算得到;
15)每一条疾病诊断记录Ri中的主诊断疾病实体m1对应的手术集合o={o1,...ol2},将每一个手术对应的标准实体作为异构伴病网络中的手术类型节点,m1、oi对应的标准实体N(m1)、N(oi)之间存在一条边,用(m1,oi)出现的次数占N(m1)、N(oi)分别出现的次数之和表示边的权重W(N(m1),N(oi));
16)对每一条疾病诊断记录Ri,执行步骤12)、13)、14)、15),由此构建得到异构伴病网络G=(V,E);
2)构造疾病层次关系网络Gm=(Vm,Em),表示疾病之间的所属关系;
3)对一条待消歧疾病记录中的每一个实体mi、oi,经过数据预处理和多层过滤机制,从疾病编码库、手术编码库和所述疾病层次关系网络Gm中检索,得到候选实体集合(或);进一步得到所有待消歧实体的候选实体集合
4)利用所有待消歧实体和相应的候选实体集合通过异构伴病网络G构建得到候选实体子图G'=(V',E');包括如下过程:
41)对待消歧的疾病诊断记录中每一个待消歧实体mi(或oi),对应的候选实体集合按照的形式转化为由待消歧实体和候选实体构成的对,j∈[1,ci]作为由待消歧实体对应的候选实体构成的子图中的节点;当不同的待消歧实体对应同一个候选实体时,视为两个节点和
42)对于41)中构造的节点,节点之间的边由所述异构伴病网络得到,构成子图中节点的边包括:疾病实体和疾病实体之间的边、手术实体和手术实体之间的边、疾病实体和手术实体之间的边;主诊断疾病实体对应的多个候选疾病实体与所有的手术候选实体之间的边;
43)构造的子图中节点之间的边满足约束条件:同一待消歧实体mi(或oi)对应的候选实体之间没有边相连,表示为删去不满足上述约束条件的边;
由步骤41)、42)和43),得到由待消歧实体对应的候选实体构成的异构子图G'=(V',E');
5)对每一个待消歧实体,通过异构网络个性化网页排名算法He-PPR对所述待消歧实体对应的候选实体节点进行打分;具体包括如下步骤:
51)异构网络中,节点e的贡献由异构网络中不同类型的节点同时决定;节点在随机游走时以概率α随机游走,同时以概率β跳转到当前同一类型节点的子图中的某一固定点s,并以概率γ跳转到另一同类型节点子图中的某一固定点s',其中α+β+γ=1,将(s,s')对节点e的贡献记为coh(s,s')(e);
52)对每一个待消歧实体,根据编辑距离相似度计算得到所述待消歧实体的局部得分和全局得分,所述待消歧实体的得分为局部得分和全局得分之和;
6)输出得分最高的K个节点,作为待消歧实体对应的标准实体;
由此实现实体消歧。
2.如权利要求1所述实体消歧的方法,其特征是,所述疾病编码库为ICD-10 6位疾病编码库;所述手术编码库为ICD-9 6位手术编码库。
3.如权利要求1所述实体消歧的方法,其特征是,步骤2)具体根据ICD-10中3位、4位及6位疾病编码库构造疾病层次关系网络;所述疾病层次关系网络中,以3位ICD-10编码对应的疾病实体为祖先节点,以4位ICD-10编码中前三位编码与其相同的疾病实体为父节点,以6位ICD-10编码前四位编码与其相同的疾病实体为叶子结点。
4.如权利要求1所述实体消歧的方法,其特征是,步骤3)由预处理后的待消歧实体得到候选实体集合具体包括如下过程:
31)对一条待消歧疾病记录中的每一个实体mi(或oi),经过数据预处理和多层过滤机制,得到预处理后的待消歧实体;
32)设定编辑距离的相似度阈值为Threshold;根据式2计算编辑距离相似度:
其中,str1和str2分别表示待消歧实体和标准实体,editdis(str1,str2)表示str1、str2的编辑距离;当editSim(str1,str2)≥Threshold时,可将str2作为候选实体加入到候选实体集合中;具体是:
321)对预处理后的待消歧疾病实体mi与所述疾病编码库中的疾病名称nmi进行精确匹配:
若精确匹配,将nmi加入到mi的候选实体集合中,且编辑距离相似度记为1,同时根据式2计算nmi在疾病层次关系网络中父节点疾病实体p(nmi)和兄弟节点疾病实体b(nmi)与mi的编辑距离相似度editSim(mi,p(nmi))、editSim(mi,b(nmi));如果editSim(mi,p(nmi))≥Threshold或者editSim(mi,b(nmi))≥Threshold,则将p(nmi)或b(nmi)加入到中;
否则进行模糊匹配,由式2计算得到两者的编辑距离相似度editSim(mi,nmi);当editSim(mi,nmi)≥Threshold时,将nmi加入到中。
322)对预处理后的待消歧手术实体oi,与所述手术编码库中的手术实体进行精确匹配:
若精确匹配,将noi加入到oi的候选实体集合中,且编辑距离相似度记为1;
否则进行模糊匹配,两者的编辑距离相似度由式2计算得到,当editSim(oi,noi)≥Threshold时,则将noi加入到候选实体集合中;
323)在321)和322)进行的同时,对预处理后的实体进行注音,计算待消歧实体和标准实体对应的拼音之间的编辑距离相似度,若编辑距离相似度大于等于Threshold且该标准实体不在候选实体集合,则将其添加到候选实体集合中;
324)根据步骤321)、322)、323),对一条疾病诊断记录中每一个待消歧实体(疾病、手术)名称mi、oi,由多层过滤机制和疾病层次关系网络生成的候选实体集合为
5.如权利要求4所述实体消歧的方法,其特征是,步骤323)具体使用pypinyin开源库对预处理后的实体进行注音。
6.如权利要求1所述实体消歧的方法,其特征是,步骤51)所述跳转,具体执行如下操作:选取疾病实体节点s和手术实体节点s',将(s,s')作为每次跳转的节点,在子图上运行PageRank算法:在子图中随机选择起始点t∈V'\s,s',按照51)所述跳转概率进行随机游走;将节点相对于网络的重要性记为节点的PR值,当子图中节点的PR值收敛时,将节点e的PR(e)记为coh(s,s')(e)。
7.如权利要求1所述实体消歧的方法,其特征是,步骤52)具体计算如下:
521)局部得分指待消歧实体和候选实体之间的相似度,由编辑距离editSim计算得到,表示为editSim(s),s表示待消歧实体;
522)全局得分指除待消歧实体外的其他待消歧实体对应的候选实体对的贡献,由式4表示待消歧实体mi(以mi代表待消歧疾病实体和手术实体)对应的候选实体e的全局得分:
式4由所有满足约束条件的(s,s')组成;约束条件由式5表示:
CONTRe(m,s,s')={(m,argmax(s,s')coh(s,s')(e))∈V',m≠m'} (式5)
式5中,m为对待消歧的实体,m'对应的多个候选实体对实体m的贡献由得分最高的节点组成;
523)再通过式6计算得到每一个待消歧的实体m对应的候选实体e的得分:
score(e)=editSim(e)+coh(e) (式6)
式6中,score(e)为候选实体e的得分;editSim(e)为候选实体e的局部得分;coh(e)为候选实体e的全局得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710112316.3A CN106951684B (zh) | 2017-02-28 | 2017-02-28 | 一种医学疾病诊断记录中实体消歧的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710112316.3A CN106951684B (zh) | 2017-02-28 | 2017-02-28 | 一种医学疾病诊断记录中实体消歧的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106951684A true CN106951684A (zh) | 2017-07-14 |
CN106951684B CN106951684B (zh) | 2020-10-09 |
Family
ID=59467608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710112316.3A Expired - Fee Related CN106951684B (zh) | 2017-02-28 | 2017-02-28 | 一种医学疾病诊断记录中实体消歧的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106951684B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766322A (zh) * | 2017-08-31 | 2018-03-06 | 平安科技(深圳)有限公司 | 同名实体识别方法、电子设备及计算机可读存储介质 |
CN108346474A (zh) * | 2018-03-14 | 2018-07-31 | 湖南省蓝蜻蜓网络科技有限公司 | 基于单词的类内分布与类间分布的电子病历特征选择方法 |
CN108460011A (zh) * | 2018-02-01 | 2018-08-28 | 北京百度网讯科技有限公司 | 一种实体概念标注方法及系统 |
CN109359303A (zh) * | 2018-12-10 | 2019-02-19 | 枣庄学院 | 一种基于图模型的词义消歧方法和系统 |
CN109614615A (zh) * | 2018-12-04 | 2019-04-12 | 联想(北京)有限公司 | 实体匹配方法、装置及电子设备 |
CN110442682A (zh) * | 2019-08-09 | 2019-11-12 | 科大讯飞(苏州)科技有限公司 | 一种文本解析方法及装置 |
CN110555208A (zh) * | 2018-06-04 | 2019-12-10 | 北京三快在线科技有限公司 | 一种信息查询中的歧义消除方法、装置及电子设备 |
CN110674264A (zh) * | 2018-06-08 | 2020-01-10 | 北京国双科技有限公司 | 实体归一化方法及装置 |
CN110704696A (zh) * | 2019-10-10 | 2020-01-17 | 北京东软望海科技有限公司 | 数据标准化方法、装置、电子设备及可读存储介质 |
CN111428031A (zh) * | 2020-03-20 | 2020-07-17 | 电子科技大学 | 一种融合浅层语义信息的图模型过滤方法 |
CN111508555A (zh) * | 2020-04-15 | 2020-08-07 | 淮南师范学院 | 一组用于度量生物分子集的网络拓扑学特性的方法 |
CN111581973A (zh) * | 2020-04-24 | 2020-08-25 | 中国科学院空天信息创新研究院 | 一种实体消歧方法及系统 |
CN111599427A (zh) * | 2020-05-14 | 2020-08-28 | 郑州大学第一附属医院 | 一种一元化诊断的推荐方法、装置、电子设备及存储介质 |
CN112687399A (zh) * | 2020-12-11 | 2021-04-20 | 江苏省人民医院(南京医科大学第一附属医院) | 一种基于人工智能信息化的传染病监测与预警系统 |
CN112735545A (zh) * | 2020-12-31 | 2021-04-30 | 杭州依图医疗技术有限公司 | 自训练方法、模型、处理方法、装置及存储介质 |
WO2021114632A1 (zh) * | 2020-05-13 | 2021-06-17 | 平安科技(深圳)有限公司 | 疾病名称标准化方法、装置、设备及存储介质 |
CN113590791A (zh) * | 2021-07-30 | 2021-11-02 | 北京壹心壹翼科技有限公司 | 一种核保问询策略优化方法、装置、设备及存储介质 |
WO2021217850A1 (zh) * | 2020-04-26 | 2021-11-04 | 平安科技(深圳)有限公司 | 疾病名称对码方法、装置、计算机设备及存储介质 |
WO2023025255A1 (zh) * | 2021-08-27 | 2023-03-02 | 之江实验室 | 一种多中心医学诊断知识图谱表示学习方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719145A (zh) * | 2009-11-17 | 2010-06-02 | 北京大学 | 基于图书领域本体的个性化搜索方法 |
US20150178466A1 (en) * | 2013-12-23 | 2015-06-25 | Health Diagnostic Laboratory, Inc. | Methods for aggregate reporting of health data and devices thereof |
-
2017
- 2017-02-28 CN CN201710112316.3A patent/CN106951684B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719145A (zh) * | 2009-11-17 | 2010-06-02 | 北京大学 | 基于图书领域本体的个性化搜索方法 |
US20150178466A1 (en) * | 2013-12-23 | 2015-06-25 | Health Diagnostic Laboratory, Inc. | Methods for aggregate reporting of health data and devices thereof |
Non-Patent Citations (1)
Title |
---|
傅泽田等: "基于本体知识的诊断推理集成模型", 《农业系统科学与综合研究》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766322A (zh) * | 2017-08-31 | 2018-03-06 | 平安科技(深圳)有限公司 | 同名实体识别方法、电子设备及计算机可读存储介质 |
CN108460011B (zh) * | 2018-02-01 | 2022-03-25 | 北京百度网讯科技有限公司 | 一种实体概念标注方法及系统 |
CN108460011A (zh) * | 2018-02-01 | 2018-08-28 | 北京百度网讯科技有限公司 | 一种实体概念标注方法及系统 |
CN108346474A (zh) * | 2018-03-14 | 2018-07-31 | 湖南省蓝蜻蜓网络科技有限公司 | 基于单词的类内分布与类间分布的电子病历特征选择方法 |
CN108346474B (zh) * | 2018-03-14 | 2021-09-28 | 湖南省蓝蜻蜓网络科技有限公司 | 基于单词的类内分布与类间分布的电子病历特征选择方法 |
CN110555208A (zh) * | 2018-06-04 | 2019-12-10 | 北京三快在线科技有限公司 | 一种信息查询中的歧义消除方法、装置及电子设备 |
CN110674264A (zh) * | 2018-06-08 | 2020-01-10 | 北京国双科技有限公司 | 实体归一化方法及装置 |
CN109614615A (zh) * | 2018-12-04 | 2019-04-12 | 联想(北京)有限公司 | 实体匹配方法、装置及电子设备 |
CN109359303A (zh) * | 2018-12-10 | 2019-02-19 | 枣庄学院 | 一种基于图模型的词义消歧方法和系统 |
CN109359303B (zh) * | 2018-12-10 | 2023-04-07 | 枣庄学院 | 一种基于图模型的词义消歧方法和系统 |
CN110442682A (zh) * | 2019-08-09 | 2019-11-12 | 科大讯飞(苏州)科技有限公司 | 一种文本解析方法及装置 |
CN110704696A (zh) * | 2019-10-10 | 2020-01-17 | 北京东软望海科技有限公司 | 数据标准化方法、装置、电子设备及可读存储介质 |
CN111428031A (zh) * | 2020-03-20 | 2020-07-17 | 电子科技大学 | 一种融合浅层语义信息的图模型过滤方法 |
CN111508555A (zh) * | 2020-04-15 | 2020-08-07 | 淮南师范学院 | 一组用于度量生物分子集的网络拓扑学特性的方法 |
CN111581973A (zh) * | 2020-04-24 | 2020-08-25 | 中国科学院空天信息创新研究院 | 一种实体消歧方法及系统 |
WO2021217850A1 (zh) * | 2020-04-26 | 2021-11-04 | 平安科技(深圳)有限公司 | 疾病名称对码方法、装置、计算机设备及存储介质 |
WO2021114632A1 (zh) * | 2020-05-13 | 2021-06-17 | 平安科技(深圳)有限公司 | 疾病名称标准化方法、装置、设备及存储介质 |
CN111599427B (zh) * | 2020-05-14 | 2023-03-31 | 郑州大学第一附属医院 | 一种一元化诊断的推荐方法、装置、电子设备及存储介质 |
CN111599427A (zh) * | 2020-05-14 | 2020-08-28 | 郑州大学第一附属医院 | 一种一元化诊断的推荐方法、装置、电子设备及存储介质 |
CN112687399A (zh) * | 2020-12-11 | 2021-04-20 | 江苏省人民医院(南京医科大学第一附属医院) | 一种基于人工智能信息化的传染病监测与预警系统 |
CN112735545A (zh) * | 2020-12-31 | 2021-04-30 | 杭州依图医疗技术有限公司 | 自训练方法、模型、处理方法、装置及存储介质 |
CN113590791A (zh) * | 2021-07-30 | 2021-11-02 | 北京壹心壹翼科技有限公司 | 一种核保问询策略优化方法、装置、设备及存储介质 |
CN113590791B (zh) * | 2021-07-30 | 2023-11-24 | 北京壹心壹翼科技有限公司 | 一种核保问询策略优化方法、装置、设备及存储介质 |
WO2023025255A1 (zh) * | 2021-08-27 | 2023-03-02 | 之江实验室 | 一种多中心医学诊断知识图谱表示学习方法及系统 |
JP7433541B2 (ja) | 2021-08-27 | 2024-02-19 | 之江実験室 | 多中心医学診断知識グラフ表示学習方法及びシステム |
Also Published As
Publication number | Publication date |
---|---|
CN106951684B (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106951684A (zh) | 一种医学疾病诊断记录中实体消歧的方法 | |
CN111090461B (zh) | 一种基于机器翻译模型的代码注释生成方法 | |
Zhong et al. | A building regulation question answering system: A deep learning methodology | |
CN110825881A (zh) | 一种建立电力知识图谱的方法 | |
CN104699730A (zh) | 用于识别候选答案之间的关系的方法和系统 | |
CN104516942A (zh) | 概念驱动的自动分节标识 | |
Qu et al. | Distant supervision for neural relation extraction integrated with word attention and property features | |
Li et al. | A context-based automated approach for method name consistency checking and suggestion | |
CN112232065A (zh) | 挖掘同义词的方法及装置 | |
CN108564991A (zh) | 基于icd的数据化编码病历错误识别系统及其识别方法 | |
CN112635071B (zh) | 融合中西医知识的糖尿病知识图谱构建方法 | |
CN113688255A (zh) | 一种基于中文电子病历的知识图谱构建方法 | |
WO2011013007A2 (en) | Ontological information retrieval system | |
CN112349370B (zh) | 一种基于对抗网络+众包的电子病历语料构建方法 | |
CN111477295B (zh) | 一种基于隐语义模型的中医组方推荐方法及系统 | |
Mavromatis | Minimum description length modelling of musical structure | |
CN115171871A (zh) | 一种基于知识图谱与注意力机制的心血管疾病预测方法 | |
CN107085655B (zh) | 基于属性的约束概念格的中医数据处理方法及系统 | |
CN112883172B (zh) | 一种基于双重知识选择的生物医学问答方法 | |
Moen et al. | Care episode retrieval | |
Liu et al. | Mining verb-oriented commonsense knowledge | |
Long et al. | DiseaseNet: A novel disease diagnosis deep framework via fusing medical record summarization | |
Ren et al. | Extraction of transitional relations in healthcare processes from Chinese medical text based on deep learning | |
CN110060749A (zh) | 基于sev-sdg-cnn的电子病历智能诊断方法 | |
Zhang et al. | Construction of MeSH-like obstetric knowledge graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201009 |