CN114300128A - 用于辅助疾病智能诊断的医学概念链接系统及存储介质 - Google Patents
用于辅助疾病智能诊断的医学概念链接系统及存储介质 Download PDFInfo
- Publication number
- CN114300128A CN114300128A CN202111664296.3A CN202111664296A CN114300128A CN 114300128 A CN114300128 A CN 114300128A CN 202111664296 A CN202111664296 A CN 202111664296A CN 114300128 A CN114300128 A CN 114300128A
- Authority
- CN
- China
- Prior art keywords
- entity
- synonym
- medical
- entities
- medical concept
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 201000010099 disease Diseases 0.000 title description 18
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title description 18
- 238000003745 diagnosis Methods 0.000 title description 7
- 238000003058 natural language processing Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000005065 mining Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000012821 model calculation Methods 0.000 claims description 4
- 239000013589 supplement Substances 0.000 claims description 4
- 208000024891 symptom Diseases 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract 1
- 238000000034 method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 210000003484 anatomy Anatomy 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 101150026173 ARG2 gene Proteins 0.000 description 1
- 101100260702 Mus musculus Tinagl1 gene Proteins 0.000 description 1
- 101150088826 arg1 gene Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013329 compounding Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000002414 leg Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 231100000862 numbness Toxicity 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 210000000689 upper leg Anatomy 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明涉及一种医学概念链接系,其包括:存储单元,其存储与医学概念有关的知识图谱;获取单元,其获取用户的主诉;以及处理单元,其包括:主诉识别模块,其利用自然语言处理模型识别所获取的所述主诉中的mention的实体及其实体类型;关系识别模块,其基于自然语言处理模型抽取从所述主诉中识别出的所述mention的所述实体之间的关系;组合关系元组获取模块,其基于所识别的mention中的实体及其实体类型以及所抽取的关系,根据知识图谱中的医学概念间的关系而对实体及其关系进行组合从而获得组合关系元组;以及医学概念链接模块,其将组合关系元组实体链接至知识图谱中的对应医学概念中。本发明还涉及存储能够实现医学概念链接系统的功能的指令的存储介质。
Description
技术领域
本发明涉及一种用于辅助疾病智能诊断的医学概念链接系统及存储介质。
背景技术
本申请涉及人工智能、自然语言处理、知识图谱、机器学习领域,例如可以应用于智能问诊、智能问答、信息检索领域。
医学概念链接实际上是一种涉及医学的实体链接(Entity Linking)。如本领域的技术人员所知悉的,实体链接是指,基于给定实体(Entity,实体是知识图谱的基本单元以及这些基本单元组合的复合实体,也是文本中承载信息的重要语言单位)及其关系的知识图谱(Knowledge Graph),将已经利用标注好的mention(提及,即自然文本中表达实体的语言片段)的语料中的每个mention匹配到知识图谱中其对应的实体上。如果知识图谱中没有某一mention对应的实体,则认为该mention不可链接到当前知识图谱,标记为NIL。实体链接系统主要包含三个模块,分别为Candidate Entity Generation,Candidate EntityRanking,Unlinkable Mention Prediction。
然而,当前常规的实体链接所解决的问题通常是单个实体的链接,但是,在医学概念识别中,医学概念是两个实体或多个实体的复合。因此,常规的实体链接在实践医学概率链接时准确度不高且存在错误链接的可能。
此外,现有实体链接可以基于子图嵌入或知识图谱中知识进行排序,而医学概念知识图通常谱缺乏知识描述且医学概念是标准医学术语,因此,在患者主诉不能按照标准医学概念进行准确描述地情况下,医学概念可能无法被准确识别出来并且会出现对患者主诉的错误医学概念链接。
针对以上问题,需要一种改进的医学概念链接系统,其能够准确的识别患者主诉中的医学概念并且实现对医学概念的进一步准确确定。
发明内容
针对现有技术的上述缺陷,本申请提出了一种医学概念链接系统,其包括:存储单元,其被配置为存储与医学概念有关的知识图谱;获取单元,其被配置成获取用户的主诉;以及处理单元,其包括:
-主诉识别模块,其被配置为利用自然语言处理模型识别所获取的所述主诉中的mention的实体及其实体类型;
-关系识别模块,其被配置为基于自然语言处理模型抽取从所述主诉中识别出的所述mention的所述实体之间的关系;
-组合关系元组获取模块,其被配置为基于所识别的所述mention中的所述实体及其实体类型以及所抽取的所述关系,根据所述知识图谱中的所述医学概念间的关系而对所述实体及其关系进行组合从而获得组合关系元组;以及
-医学概念链接模块,其被配置为将所述组合关系元组实体链接至所述知识图谱中的对应医学概念中。
进一步地,医学概念链接系统还包括人机交互界面以及输出交互界面,其中,所述人机交互界面用于接收由用户输入的所述主诉,其包括所述用户的人群信息以及所述症状,其中,所述人机交互界面被构造成以所述用户可实现的任何形式接收所述主诉;并且其中,所述输出交互界面用于向所述用户显示医学链接结果。
进一步地,所述处理单元还包括实体同义词匹配模块,其被配置为将所获得的所述组合关系元组中所涉及的所述mention的每个实体与人工整理的同义词库进行匹配以进行实体同义词扩展。
进一步地,所述处理单元还包括实体同义词挖掘模块,其被配置为基于人工整理的所述同义词库以及自然语言处理匹配模型进行同义词挖掘以补充人工整理的所述同义词库。
进一步地,所述实体同义词挖掘模块将爬虫获取的互联网问诊数据进行NER实体标注,基于人工整理的所述同义词库中的实体进行BERT语义匹配模型计算,以对人工整理的所述同义词库中的所述实体进行挖掘以获得新同义词。
进一步地,所述实体同义词挖掘模块还被配置为对于BERT语义匹配模型所获得的新同义词进行人工参与修订并更新人工整理的所述同义词库,以获得初步挖掘同义词库。
进一步地,所述实体同义词挖掘模块还被配置为基于所述初步挖掘同义词库并再次基于爬虫获取的所述互联网问诊数据进行迭代挖掘以获取进一步的新同义词,以再次迭代更新所述初步挖掘同义词库以获得最终挖掘同义词库。
进一步地,所述医学链接系统包括语义匹配计算模块,其被配置为利用BERT语义匹配模型基于爬虫获取的互联网问诊数据对所述用户的所述mention中的所述实体中与所述最终初步挖掘同义词库中的实体无法匹配的实体进行额外语义匹配,从而获得与该实体语义匹配相似度高于确定阈值的实体同义词。
进一步地,所述组合关系元组获取模块被构造为将所述用户的所述主诉中的所述mention的所述实体中与所述最终同义词库中相匹配的同义词或者经额外语义匹配计算所获得同义词相关的所有实体分别应用至所述组合关系元组中以获得一组组合关系元组。
本申请还涉及一种存储介质,其存储指令,当所述指令被执行时,所述指令实现至少如上所述的功能。
利用本申请所公开的医学概念链接系统,其能够准确的识别患者主诉中的医学概念并且实现对医学概念的进一步准确确定,从而使得更准确且更广泛地识别用户主诉中可能出现的信息而不会遗漏。
附图说明
本发明的其他显著特征和优点从以下参考以下附图出于说明目的而提供的非限制性描述中得出,其中:
图1示出了根据本发明的实施例的医学概念链接系统的结构框图;
图2示出了根据本发明的实施例的医学概念链接系统所执行的流程的流程图;
图3示出了根据本发明的另一实施例的医学概念链接系统所执行的流程的流程图;
图4示出了根据本发明的实施例的医学概念链接系统所执行的流程的流程图的一部分;以及
图5示出了根据本发明的实施例的医学概念链接系统的总体结构图。
具体实施方式
图1示出了根据本发明的实施例的用于辅助疾病智能诊断的医学概念链接系统1的结构框图。
如图1所示,本申请的医学概念链接系统1包括存储单元12、获取单元14以及处理单元16,其中,处理单元16包括主诉识别模块162、关系识别模块164、组合关系元组获取模块166、以及医学概念链接模块168。
在本申请的实施例中,存储单元12存储与医学概念有关的知识图谱。
在本申请的实施例中,获取单元14被构造为获取用户的主诉信息。作为示例,本申请范围内的医学概念链接系统1的主诉获取模14块为人机交互界面,其中,该人机交互界面被构造为接收由用户输入的初始主诉。该人机交互界面构造成以用户可实现的任何形式(例如,语音输入、文字输入、图像识别)接收用户主诉。作为示例而非限制性的,该人机交互界面可以实施为键盘、鼠标、触摸屏幕、操纵杆、麦克风等任何可以接收用户所输入的初始信息的硬件或其组合。
在本申请的实施例中,主诉识别模块162被构造为利用自然语言处理(NLP)模型(或算法)识别所获取的主诉中的mention(如本领域普通技术人员所理解的,也成为提及)的实体及其实体类型。优选地,主诉识别模块162被构造为利用经训练的BERT模型中的NER(命名实体识别)识别所获取的主诉中的mention的实体及其实体类型。此外,可以设想在识别出mention的实体类型后,将这些mention进行标注。作为示例,在本申请的医学概念链接系统中,实体类型例如可以设定为包括解剖结构(例如,腰部等部位实体)、基本所见(例如,疼痛等症状实体)、修饰_程度(例如,严重等限定实体)、修饰_否认(例如,“不存在”等限定实体)等各种类型。如本领域的普通技术人员可以设想,实体类型的设定可以根据医学概念链接系统1中对实体类型的划分精细程度或粒度按照需要进行设定,例如实体类型可以按照实体的不同含义而归纳总结为数个、数十个甚至数百个等。作为示例而非限制性的,本申请中示例性地限定了60种实体类型。
在本申请的实施例中,关系识别模块164被构造为基于自然语言处理模型抽取主诉中识别出的mention的实体之间的关系。作为示例,关系识别模块164被构造为基于BERT模型抽取主诉中的识别出的mention的实体之间的关系。作为示例,在本申请的医学概念链接系统1中,实体之间的关系可以示例性地设定为包括40种关系,例如包括<发生部位Arg1:基本所见Arg2:解剖结构>,其中“发生部位”表示关系类型,“基本所见”以及“解剖结构”表示所识别出的具体实体。实体之间的其他关系例如还包括但不限于以下列表种所示出的项目,然而,显而易见的是,这些列表中的项目仅是示例性的,本领域的普通技术人员能够根据需要补充或者添加或者重新设计各种关系。
表1
其中,值得注意的是,对于修饰_否定的实体类型的关系提取可能需要通过依存句法和规则进行处理。
可以理解,上述基于BERT模型对于患者主诉中mention的实体类型识别以及关系抽取对于本领域的普通技术人员而言,其过程是常规且周知的,在此不再进行额外的冗余描述以避免使得本发明的重点模糊。
在本申请的实施例中,组合关系元组获取模块166被构造为基于所识别的mention中的实体及其实体类型以及所提取的关系,根据知识图谱中的医学概念间的关系对这些实体及其关系进行组合从而获得组合关系元组。组合关系元组在此表示基于知识图谱中的医学概念而获得的关于mention的实体及其实体类型及关系的元组表示。例如,在知识图谱中,临床所见医学概念可以由这些实体组合而成{病因事件:0,动作:1,侧别:0,解剖结构:1,修饰_时间点:0,修饰_程度:0,修饰_否认:0,基本所见:1,修饰_时间段:0,加重:0,缓解:0}(其中,0表示可选项,1表示必须项,并且“病因事件”“动作”等表示在主诉mention中所识别出的如之前所定义的相应实体类型中的对应实体),则可以根据在主诉的mention中所识别的上述实体而组合出复合该医学概念组合的组合关系元组。
在本申请的实施例中,医学概念链接模块168被构造为在获得组合关系元组后,则可以将该组合关系元组实体链接至知识图谱中的对应医学概念中。例如,在基于用户的主诉而获得关于mention的实体及其实体类型及关系的元组表示{病因事件:0,抬腿:1,左侧:0,大腿:1,修饰_时间点:0,修饰_程度:0,修饰_否认:0,疼痛且麻木:1,修饰_时间段:0,加重:0,缓解:0}的情况下,则可以将该组合关系元组对应地链接至知识图谱中的相关医学概念中。也就是说,用户的主诉现在可以按照知识图谱中的标准医学概念进行描述,从而对用户的主诉实现优化,有利于后续的医学诊断等流程,避免了冗杂信息等对于医学诊断过程的干扰。
优选地,由于用户的主诉中存在模糊性或者不准确性,因此为了增加对于用户主诉的医学概念链接的准确性和广泛覆盖性,在本申请的实施例中,医学概念链接系统1中的处理单元16还包括实体同义词匹配模块170。
在本申请的实施例中,实体同义词匹配模块170被构造为将所获得组合关系元组中所涉及的mention的每个实体与同义词库进行匹配以进行实体同义词扩展。作为示例,该同义词库可以是人工整理的同义词库。优选地,医学概念链接系统1的管理员可以基于word2vec算法和人工参与整理实体的同义词库。在这种情况下,医学概念链接模块被构造为在获得组合关系元组后,则可以将该组合关系元组以及涉及该组合关系元组中的实体的同义词替换组合关系元组实体并链接至知识图谱中的对应医学概念中。作为示例,例如基于一医学概念所获得的组合关系元组表示为{腰部;疼痛}(其中表示为0的可选项在此省略以表示简单)。而腰部基于同义词库中的对应同义词组{腰部;前腰;侧腰;后腰}而进行扩展,使得在进行医学概念链接时,{腰部;疼痛}{前腰;疼痛}{侧腰;疼痛}{后腰;疼痛}这些组合关系元组均会被实体链接至知识图谱中。
为了获取足够广泛的同义词库,本申请的医学概念链接系统1可以包括实体同义词挖掘模块172。在本申请中,实体同义词挖掘模块172被构造为基于人工整理的同义词库以及自然语言处理匹配模型进行同义词挖掘。作为示例,实体同义词挖掘模块被构造为基于人工整理的同义词库并基于BERT语义匹配模型进行同义词挖掘。基于人工整理的同义词库,将同一实体下的同义词两两组合标注为1,不同实体的同义词两两组合标注为0,进而训练BERT模型。此后,将爬虫获取的互联网问诊数据进行NER实体标注,基于人工整理的同义词库进行BERT语义匹配模型计算,从而对同义词进行进一步挖掘。然后,对于BERT语义匹配模型所计算出的经挖掘同义词进行人工参与修订(人工可以是少量修订),从而整理出初步挖掘同义词库。然后,基于该初步挖掘同义词库,按照之前所述的组合方式对BERT模型重新进行训练,并且再次基于爬虫获取的互联网问诊数据进行迭代挖掘获取进一步的同义词,从而再次更新初步挖掘同义词库。该挖掘同义词库能够被补充至人工整理的同义词库中以获得最终同义词库。因此,实体同义词挖掘模块172被构造为将爬虫获取的互联网问诊数据进行NER实体标注,基于人工整理的同义词库进行BERT语义匹配模型计算,从而对人工整理的同义词库中的实体进行进一步挖掘以获得新同义词。然后,实体同义词挖掘模块172被构造为对于BERT语义匹配模型所获得的新同义词进行人工参与修订并更新人工整理的同义词库,从而获得初步挖掘同义词库。可选地,实体同义词挖掘模块1722还被构造为基于初步挖掘同义词库并再次基于爬虫获取的互联网问诊数据进行迭代挖掘以获取进一步的新同义词,以再次迭代更新初步挖掘同义词库以获得最终挖掘同义词库。可以预见,该迭代更新的次数可以根据需要进行调节,例如取决于对同义词库中的同义词的精度要求。
此外,可以预见,存在组合关系元组的中某一实体在同义词库中不存在任何同义词组并且该实体的表述在知识图谱的医学概念中也无法找到相应的概念的情况,例如,用户主诉中对于部位的方言表述,使得原始组合关系元组中关于部位的实体无法在同义词库中找到对应同义词,也无法在知识图谱中直接找到与该实体对应的概念的情况,在这种情况下,也是为了确保对于医学概念链接的准确性,则可以对该实体进行额外的语义匹配计算。因此,优选地,本申请的医学链接系统1可以包括语义匹配计算模块174,该语义匹配计算模块174被构造为利用BERT语义匹配模型基于所爬虫的互联网问诊数据对实体进行额外语义匹配,从而获得与该实体语义匹配相似度高的实体同义词,然后利用该实体同义词进行医学概念实体链接。需要理解的是,在本文的范围中,“与该实体语义匹配相似度高的实体同义词”应该理解为实体同义词与该实体的语义匹配相似度高于一确定阈值,该确定阈值例如可以根据对匹配精确度(需要高阈值)和广泛度(需要低阈值)等的要求而进行调节。例如,如果用户主诉一实体“脖梗”,由于该实体在同义词库中没有对应的同义词组,因此也无法在知识图谱中找到相应的概念,因此,为了实现实体链接,语义匹配计算模块174将实体“脖梗”与互联网问诊数据对实体进行语义匹配,从而可以获得诸如“颈部”等具有高语义匹配相似度(例如大于或等于阈值0.7)的实体同义词,从而可以利用该具有高语义匹配相似度的实体同义词代替用户所主诉的实体进行医学概念链接。可以预见,在获得该实体同义词后,可以对该实体同义词进一步进行实体同义词匹配以增加针对用户所主诉的实体的链接的准确性和广泛性。还可以预见,可以将原实体“脖梗”增加至原同义词库中,从而补充同义词库。应该进一步理解的是,语义匹配相似度对于本领域普通技术人员而言是公知的,并且利用BERT语义匹配模型计算语义匹配相似度对于本领域的普通技术人员而言,也是常规的。当然,该语义匹配计算模块174也可以独立于实体在同义词库中是否存在适当的同义词而执行,换言之,该语义匹配计算模块174既可以在某一实体在同义词库中不存在适当的同义词而执行,也可以在某一实体在同义词库中存在适当的同义词的情况下执行,以确保对实体扩展的全面性。然而,在本发明的优选实施例中,为了更快速的实现额外语义匹配计算并避免与实体同义词挖掘重复的额外计算,优选地,仅针对那些在同义词库中未能找到适当同义词的那些实体进行额外语义匹配计算。
基于此,根据本发明的组合关系元组获取模块166还可以被构造为将用户的主诉中mention的实体与最终同义词库中相匹配的同义词或者经语义匹配计算所获得同义词相关的所有实体分别应用至组合关系元组中以获得一组组合关系元组,以实现后续的复合医学概念链接。
基于本申请的医学概念链接系统1,能够实现对实体同义词的挖掘以及语义匹配计算,从而提高医学概念链接的广泛性和准确性。进一步地,由于组合关系元组涉及多种实体以及涉及同义词的多个组合关系元组,因此,本发明的医学链接系统还实现了复合医学概念链接,从而可以提供全面且精确的医学概念知识图谱表述。
有利地,本申请范围的用于辅助疾病推理的系统的存储单元可以例如包括存储器,例如U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等或者其他可存储数据的硬件存储。进一步地,根据本发明的存储单元可以包括数据库、云存储等软件存储。进一步地,存储单元可以包括还可以存储用于实现本申请的用于辅助疾病推理的系统所执行的流程的任何软件程序。
有利地,本申请范围内的医学概念链接系统1还包括输出交互界面18,其中,该输出交互界面被构造为显示由系统所输出的医学概念链接结果。有利地,该输出交互界面优选地为屏幕,例如液晶显示器、有机发光二极管等形式。但是可以预见,作为示例而非限制性的,诊断交互界面还可以是语音播报装置、投影装置等输出装置硬件或其组合。
更有利地,本申请范围内的用于辅助疾病推理的系统中的人机交互界面和输出交互界面可以集成在一起。作为示例而非限制性的,例如,触摸屏幕可以是集成的人机交互界面和输出交互界面的示例。但是可以预见,包含屏幕的其他人机交互界面也可以与输出交互界面集成,从而实现两者的功能,例如显示器与键盘(或其他物理输入设备)的组合等。
发明人发现,利用本申请的医学概念链接系统,能够保持98%的精确度情况下,对知识图谱中的相应医学概念的召回率在80%以上。而在新的医学概念加入到知识图谱后,只需在人工少量参与下补充同义词,就能实现上述医学概念链接结果,从而大大提高了知识图谱的有效性和准确性。此外,基于BERT模型的语义匹配计算,对实体同义词库进行了有效扩展,提高医学概念链接的召回率。
虽然上文中描述了处理器的各种单独功能的模块,然而,本领域的普通技术人员可以理解,这些模块仅是示例性的。实际上,可以存在能够实现以上模块中的一个或多个功能的模块以及由一个或多个模块实现以上功能中的一种,这些设置可以根据本发明的实施需要而变化。
图2示出了根据本发明的实施例的用于辅助疾病智能诊断的医学概念链接系统所执行的流程的流程图。
在获取步骤200处,获取用户的主诉信息。主诉信息的字数没有限制,当然,限制主诉信息的字数的实施例也包含在本发明的范围中。
在主诉识别步骤202处,利用经训练的BERT模型中的NER识别所获取的主诉中的mention的实体及其实体类型。
在关系识别步骤204处,基于BERT模型抽取主诉中的识别出的mention的实体之间的关系。
在组合关系元组获取步骤206处,基于识别出的mention的实体及其实体类型以及实体之间的关系,根据知识图谱中的医学概念对实体及其关系进行组合以获得组合关系元组。
在医学概念链接步骤208处,将所获得组合关系元组实体链接至知识图谱中的对应医学概念中。
可选地,如图3所示,在组合关系元组获取步骤206和医学概念链接步骤208之间,可以存在实体同义词匹配步骤210,在该步骤210处,将所获得组合关系元组中所涉及的每个mention的实体与同义词库进行匹配以进行实体同义词扩展。为了获得足够广泛且准确地同义词库,还存在针对同义词的挖掘步骤,以获得准确的同义词库,在此虽然未在附图中示出,但是该方面也包含在本申请所要求的范围中。在存在实体同义词匹配步骤210的情况下,在医学概念链接步骤208处,将利用同义词库进行扩展后的扩展组合关系元组分别实体链接至知识图谱中的医学概念中。
可选地,如图4所示,如果在步骤210中没有找到某一实体的同义词组,在可以存在语义匹配计算步骤212,在该语义匹配计算步骤212处,利用BERT语义匹配模型基于所爬虫的互联网问诊数据对实体进行语义匹配,从而获得语义匹配相似度高于确定阈值的实体同义词。在这种情况下,在医学概念链接步骤208处,将实体同义词相关的组合关系元组分别实体链接至知识图谱中的医学概念中。
可选地,步骤212也可以独立于步骤210而存在。也即,无论是否在步骤210中获得与同义词库的成功扩展,均对组合关系元组中的实体执行步骤212,也即进行语义匹配,从而获得实体同义词。在这种情况下,医学概念连接步骤208包括将基于主诉mention的实体所获得的组合关系元组、基于同义词库所扩展的实体所获得组合关系元组以及基于实体语义匹配所获得组合关系元组中的一项或多项所组成的一组组合关系元组实体链接至知识图谱的相应医学概念中。
可选地,如图4所示,在语义匹配计算步骤212之后,可以存在同义词库更新步骤214,在该同义词库更新步骤214处,将在语义匹配计算步骤212中所获得实体同义词更新至同义词库中。
虽然上文按照先后顺序描述了本发明中可能执行的步骤,但是本领域的普通技术人员将会理解,上述步骤中的一个或多个的执行顺序可以交替或者能够同时执行而不脱离本发明的范围。也应该理解,虽然在此简单描述了各个执行步骤的内容,但是应该理解,本文描述的相关步骤可以根据上文参考图1对于相应模块的描述而进行相应的扩展。换言之,在此描述的各个步骤可以有利地由参照图1所述的相应模块执行,从而实现这些模块的功能。
当然,可以理解,图1中所述的一个或多个模块的功能可以由单个或更多个模块实现。相应地,在此描述的一个或多个步骤也可以类似地由单个或更多个模块实施。
如图5所示,图5示出了根据本发明的实施例的用于辅助疾病推理的系统的总体结构图,其中,基于相同的发明构思,所述用于辅助疾病推理的系统总体上至少包括如下部件:处理器501、存储器502、通信接口503和总线504;其中,所述处理器501、存储器502、通信接口503通过所述总线504完成相互间的通信;所述通信接口503用于实现用于辅助疾病推理的系统的信息交互通信以及与其他软件或硬件的信息传输;所述处理器501用于调用所述存储器502中的计算机程序,所述处理器执行所述程序时实现如本申请之前所述的用于辅助疾病推理的系统所执行的流程。
基于相同的发明构思,本发明的又一实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如本申请之前所述的用于辅助疾病推理的系统所执行的流程,在此不再赘述。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述用于辅助疾病推理的系统所执行的流程的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本发明实施例提供的计算机可读存储介质,其上存储的计算机程序的工作原理和有益效果和上述实施例提供的疾病推理系统类似,具体内容和参见上述实施例的介绍,本发明实施例对此不再详述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分。
还应该理解,可以根据具体要求而进行各种变型。例如,也可以使用定制硬件,和/或可以用硬件、软件、固件、中间件、微代码,硬件描述语言或其任何组合来实现特定元件。例如,所公开的用于辅助疾病推理的系统及其所执行的流程中的一些或全部可以通过使用根据本公开的逻辑和算法,用汇编语言或硬件编程语言(诸如VERILOG,VHDL,C++)对硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。
还应该理解,前述医学概念链接系统所执行的流程可以通过服务器-客户端模式来实现。例如,客户端可以接收用户输入的数据并将所述数据发送到服务器。客户端也可以接收用户输入的数据,进行前述用于辅助疾病推理的系统所执行的流程中的一部分处理,并将处理所得到的数据发送到服务器。服务器可以接收来自客户端的数据,并且执行前述医学概念链接系统系统所执行的流程或前述用于辅助疾病推理的系统所执行的流程中的另一部分,并将执行结果返回给客户端。客户端可以从服务器接收到医学概念链接系统所执行的流程的执行结果,并例如可以通过输出设备呈现给用户。
还应该理解医学概念链接系统的模块或组件可以分布在网络上。例如,可以使用一个处理器执行一些处理,而同时可以由远离该一个处理器的另一个处理器执行其他处理。医学概念链接系统的其他模块或组件也可以类似地分布。这样,医学概念链接系统可以被解释为在多个位置执行处理的分布式计算系统。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。
Claims (10)
1.一种医学概念链接系统,所述医学概念链接系统包括:
存储单元,其被配置为存储与医学概念有关的知识图谱;
获取单元,其被配置成获取用户的主诉;以及
处理单元,其包括:
主诉识别模块,其被配置为利用自然语言处理模型识别所获取的所述主诉中的mention的实体及其实体类型;
关系识别模块,其被配置为基于自然语言处理模型抽取从所述主诉中识别出的所述mention的所述实体之间的关系;
组合关系元组获取模块,其被配置为基于所识别的所述mention中的所述实体及其实体类型以及所抽取的所述关系,根据所述知识图谱中的所述医学概念间的关系而对所述实体及其关系进行组合从而获得组合关系元组;以及
医学概念链接模块,其被配置为将所述组合关系元组实体链接至所述知识图谱中的对应医学概念中。
2.根据权利要求1所述的医学概念链接系统,还包括人机交互界面以及输出交互界面,其中,所述人机交互界面用于接收由用户输入的所述主诉,其包括所述用户的人群信息以及所述症状,其中,所述人机交互界面被构造成以所述用户可实现的任何形式接收所述主诉;并且其中,所述输出交互界面用于向所述用户显示医学链接结果。
3.根据权利要求1或2所述的医学链接系统,其中,所述处理单元还包括:
实体同义词匹配模块,其被配置为将所获得的所述组合关系元组中所涉及的所述mention的每个实体与人工整理的同义词库进行匹配以进行实体同义词扩展。
4.根据权利要求3所述的医学链接系统,其中,所述处理单元还包括:
实体同义词挖掘模块,其被配置为基于人工整理的所述同义词库以及自然语言处理匹配模型进行同义词挖掘以补充人工整理的所述同义词库。
5.根据权利要求4所述的医学概念系统,其中,所述实体同义词挖掘模块将爬虫获取的互联网问诊数据进行NER实体标注,基于人工整理的所述同义词库中的实体进行BERT语义匹配模型计算,以对人工整理的所述同义词库中的所述实体进行挖掘以获得新同义词。
6.根据权利要求5所述的医学链接系统,其中,所述实体同义词挖掘模块还被配置为对于BERT语义匹配模型所获得的新同义词进行人工参与修订并更新人工整理的所述同义词库,以获得初步挖掘同义词库。
7.根据权利要求6所述的医学链接系统,其中,所述实体同义词挖掘模块还被配置为基于所述初步挖掘同义词库并再次基于爬虫获取的所述互联网问诊数据进行迭代挖掘以获取进一步的新同义词,以再次迭代更新所述初步挖掘同义词库以获得最终挖掘同义词库。
8.根据权利要求7所述的医学链接系统,其中,所述医学链接系统包括:
语义匹配计算模块,其被配置为利用BERT语义匹配模型基于爬虫获取的互联网问诊数据对所述用户的所述mention中的所述实体中与所述最终初步挖掘同义词库中的实体无法匹配的实体进行额外语义匹配,从而获得与该实体语义匹配相似度高于确定阈值的实体同义词。
9.根据权利要求8所述的医学概念系统,其中,所述组合关系元组获取模块被构造为将所述用户的所述主诉中的所述mention的所述实体中与所述最终同义词库中相匹配的同义词或者经额外语义匹配计算所获得同义词相关的所有实体分别应用至所述组合关系元组中以获得一组组合关系元组。
10.一种存储介质,其存储指令,当所述指令被执行时,所述指令实现至少如权利要求1-9中任一项所述的医学概念系统的功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111664296.3A CN114300128B (zh) | 2021-12-31 | 2021-12-31 | 用于辅助疾病智能诊断的医学概念链接系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111664296.3A CN114300128B (zh) | 2021-12-31 | 2021-12-31 | 用于辅助疾病智能诊断的医学概念链接系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114300128A true CN114300128A (zh) | 2022-04-08 |
CN114300128B CN114300128B (zh) | 2022-11-22 |
Family
ID=80974370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111664296.3A Active CN114300128B (zh) | 2021-12-31 | 2021-12-31 | 用于辅助疾病智能诊断的医学概念链接系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114300128B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021281A (zh) * | 2016-04-29 | 2016-10-12 | 京东方科技集团股份有限公司 | 医学知识图谱的构建方法、其装置及其查询方法 |
CN108447534A (zh) * | 2018-05-18 | 2018-08-24 | 灵玖中科软件(北京)有限公司 | 一种基于nlp的电子病历数据质量管理方法 |
CN110222201A (zh) * | 2019-06-26 | 2019-09-10 | 中国医学科学院医学信息研究所 | 一种专病知识图谱构建方法及装置 |
CN110991168A (zh) * | 2019-12-05 | 2020-04-10 | 京东方科技集团股份有限公司 | 同义词挖掘方法、同义词挖掘装置及存储介质 |
CN110990579A (zh) * | 2019-10-30 | 2020-04-10 | 清华大学 | 跨语言的医学知识图谱构建方法、装置与电子设备 |
CN112035635A (zh) * | 2020-08-28 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗领域意图识别方法、装置、设备及存储介质 |
CN112151188A (zh) * | 2020-10-19 | 2020-12-29 | 科技谷(厦门)信息技术有限公司 | 一种基于医疗知识图谱的智能疾病预测系统 |
CN112232065A (zh) * | 2020-10-29 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 挖掘同义词的方法及装置 |
CN112487202A (zh) * | 2020-11-27 | 2021-03-12 | 厦门理工学院 | 融合知识图谱与bert的中文医学命名实体识别方法、装置 |
CN112667799A (zh) * | 2021-03-15 | 2021-04-16 | 四川大学 | 一种基于语言模型和实体匹配的医疗问答系统构建方法 |
CN113094514A (zh) * | 2021-04-13 | 2021-07-09 | 北京工业大学 | 一种基于领域知识图谱的水务数据智能发现方法 |
-
2021
- 2021-12-31 CN CN202111664296.3A patent/CN114300128B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021281A (zh) * | 2016-04-29 | 2016-10-12 | 京东方科技集团股份有限公司 | 医学知识图谱的构建方法、其装置及其查询方法 |
CN108447534A (zh) * | 2018-05-18 | 2018-08-24 | 灵玖中科软件(北京)有限公司 | 一种基于nlp的电子病历数据质量管理方法 |
CN110222201A (zh) * | 2019-06-26 | 2019-09-10 | 中国医学科学院医学信息研究所 | 一种专病知识图谱构建方法及装置 |
CN110990579A (zh) * | 2019-10-30 | 2020-04-10 | 清华大学 | 跨语言的医学知识图谱构建方法、装置与电子设备 |
CN110991168A (zh) * | 2019-12-05 | 2020-04-10 | 京东方科技集团股份有限公司 | 同义词挖掘方法、同义词挖掘装置及存储介质 |
CN112035635A (zh) * | 2020-08-28 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗领域意图识别方法、装置、设备及存储介质 |
CN112151188A (zh) * | 2020-10-19 | 2020-12-29 | 科技谷(厦门)信息技术有限公司 | 一种基于医疗知识图谱的智能疾病预测系统 |
CN112232065A (zh) * | 2020-10-29 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 挖掘同义词的方法及装置 |
CN112487202A (zh) * | 2020-11-27 | 2021-03-12 | 厦门理工学院 | 融合知识图谱与bert的中文医学命名实体识别方法、装置 |
CN112667799A (zh) * | 2021-03-15 | 2021-04-16 | 四川大学 | 一种基于语言模型和实体匹配的医疗问答系统构建方法 |
CN113094514A (zh) * | 2021-04-13 | 2021-07-09 | 北京工业大学 | 一种基于领域知识图谱的水务数据智能发现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114300128B (zh) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11899705B2 (en) | Putative ontology generating method and apparatus | |
US11182679B2 (en) | Text-based inference chaining | |
US11625424B2 (en) | Ontology aligner method, semantic matching method and apparatus | |
Wang et al. | Knowledge graph quality control: A survey | |
US20190035505A1 (en) | Intelligent triage server, terminal and system based on medical knowledge base (mkb) | |
US20170185674A1 (en) | Ontology mapping method and apparatus | |
US8700589B2 (en) | System for linking medical terms for a medical knowledge base | |
CN111292848B (zh) | 一种基于贝叶斯估计的医疗知识图谱辅助推理方法 | |
US20170083547A1 (en) | Putative ontology generating method and apparatus | |
WO2023029506A1 (zh) | 病情分析方法、装置、电子设备及存储介质 | |
US20200365239A1 (en) | System and method for generating clinical trial protocol design document with selection of patient and investigator | |
CN110750649A (zh) | 知识图谱构建及智能应答方法、装置、设备及存储介质 | |
CN110675944A (zh) | 分诊方法及装置、计算机设备及介质 | |
CN113360671B (zh) | 一种基于知识图谱的医保医疗单据审核方法及其系统 | |
WO2015093541A1 (ja) | シナリオ生成装置、及びそのためのコンピュータプログラム | |
CN113707297A (zh) | 医疗数据的处理方法、装置、设备及存储介质 | |
CN104516942A (zh) | 概念驱动的自动分节标识 | |
WO2015161340A1 (en) | Ontology browser and grouping method and apparatus | |
US20190147038A1 (en) | Preserving and processing ambiguity in natural language | |
CN116682553A (zh) | 一种融合知识与患者表示的诊断推荐系统 | |
An et al. | Extracting causal relations from the literature with word vector mapping | |
CN112133425A (zh) | 一种基于智能推荐辅助医生优化诊疗过程的系统 | |
Efremova et al. | Multi-source entity resolution for genealogical data | |
US20230316095A1 (en) | Systems and methods for automated scribes based on knowledge graphs of clinical information | |
CN111339252B (zh) | 一种搜索方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240820 Address after: Unit 5B5, 5th Floor, Building 7, Guanghua Road, Chaoyang District, Beijing 100020 Patentee after: BEIJING ALLIN TECHNOLOGY CO.,LTD. Country or region after: China Address before: 100022 room 702, 7 / F, building 9, Guanghua Road, Chaoyang District, Beijing Patentee before: Beijing ouying Information Technology Co.,Ltd. Country or region before: China |
|
TR01 | Transfer of patent right |