CN114464312B - 用于辅助疾病推理的系统及存储介质 - Google Patents

用于辅助疾病推理的系统及存储介质 Download PDF

Info

Publication number
CN114464312B
CN114464312B CN202210001234.2A CN202210001234A CN114464312B CN 114464312 B CN114464312 B CN 114464312B CN 202210001234 A CN202210001234 A CN 202210001234A CN 114464312 B CN114464312 B CN 114464312B
Authority
CN
China
Prior art keywords
user
diagnosis
complaint
disease
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210001234.2A
Other languages
English (en)
Other versions
CN114464312A (zh
Inventor
韩雪冬
董皓
李景阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ouying Information Technology Co ltd
Original Assignee
Beijing Ouying Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ouying Information Technology Co ltd filed Critical Beijing Ouying Information Technology Co ltd
Priority to CN202210001234.2A priority Critical patent/CN114464312B/zh
Publication of CN114464312A publication Critical patent/CN114464312A/zh
Application granted granted Critical
Publication of CN114464312B publication Critical patent/CN114464312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明涉及用于辅助疾病推理的系统,包括:存储单元,其存储知识图谱以及多重图;获取单元,其获取用户的主诉;以及处理单元,其包括:医学概念链接模块,其将主诉的组合关系元组实体链接至相应医学概念中并获得主诉中的特征;诊断条件概率计算模块,其至少基于肯定症状和否定症状召回有关于症状的诊断并计算诊断相对症状的诊断条件概率;用户主诉语义计算模块,其利用BERT模型计算训练语料中的主诉与用户主诉的语义的相似度并筛选候选主诉并按照所召回的诊断过滤候选主诉;以及排序算法模块,其基于GBDT算法对所确定的所有诊断计算预测值并排序;以及诊断确定模块,其输出所有诊断的排序结果。本发明还涉及一种存储实现上述功能的指令的存储介质。

Description

用于辅助疾病推理的系统及存储介质
技术领域
本发明涉及一种用于辅助疾病推理的系统及存储介质。
背景技术
本发明总体设计人工智能、自然语言处理、知识图谱、机器学习领域,可以应用在智能问诊。
用户就诊前,根据用户的主诉描述,智能问诊系统能够预测可能的疾病。当前,智能问诊系统多是通过用户主诉或结合知识图谱,进行多分类算法来预测疾病。
然而,上述智能问诊存在明显的确定。一方面,智能问诊系统中对互联网问诊数据进行多分类预测,而这些预测多为同源语料评测,但是在实际应用中,智能问诊系统需要面临的环境多样,用户的预料的差别较大,难以产品化。另一方面,智能问诊系统所依托的互联网问诊数据质量较大,单一算法不能在实际产品中达到相对准确且有效的预期效果。
针对以上问题,需要一种改进的智能问诊系统,其能够基于用户的主诉有效且准确的实现对疾病的预测诊断,从而有助于用户根据自身的情况有针对性的进行诊疗。
发明内容
根据本公开的一个方面,涉及一种用于辅助疾病推理的系统。所述系统包括:存储单元,其被配置成存储与医学概念相关的知识图谱以及多重图;获取单元,其被配置为获取用户的主诉;以及处理单元,其包括:
-医学概念链接模块,其被配置为将基于有关于用户的主诉的组合关系元组实体链接至知识图谱中的相应医学概念中并获得主诉中的特征;
-诊断条件概率计算模块,其被配置至少基于用户主诉中的肯定症状和否定症状通过多重图召回有关于已知的肯定症状和否定症状的诊断并计算相关诊断相对于已知的肯定症状和否定症状的诊断条件概率;
-用户主诉语义计算模块,其被配置为利用BERT模型基于用户主诉的语义计算训练语料中的主诉与用户主诉的语义的相似度并筛选候选主诉,并且按照所召回的诊断过滤候选主诉中的诊断;以及
-排序算法模块,其被配置为基于GBDT算法对由诊断条件概率计算模块和用户主诉语义计算模块所确定的所有诊断计算相应预测值并进行排序;以及
-诊断确定模块,其被配置为输出由排序算法模块获得的对于所有诊断的排序结果。
进一步地,所述系统还包括人机交互界面以及诊断交互界面,其中,人机交互界面用于接收由用户输入的主诉,其包括用户基本信息以及用户症状,进一步地,所述人机交互界面构造成以用户可实现的任何形式接收主诉;并且其中,诊断交互界面用于向用户显示输出的排序结果。
进一步地,用户主诉语义计算模块还被配置为输出基于BERT模型的 pooledoutput向量。
进一步地,GBDT算法能够基于识别自用户主诉的语义的类别特征以及对所述类别特征按知识图谱中所扩展的特征并且基于所识别的类别特征和所扩展的特征的稠密特征以及BERT语义特征对由诊断条件概率计算模块和用户主诉语义计算模块所确定的所有诊断计算预测值并进行排序。
进一步地,排序算法模块选取诊断条件概率最高的三个诊断以及对基于BERT模型所计算的相似度最高的三个诊断作为GBDT特征。
进一步地,处理单元还包括业务规则干预模块,其被配置为对排序结果中的诊断进行划分并按诊断等级进行进一步排序。
进一步地,业务规则干预模块进一步被配置为将排序结果中的诊断划分为高可能疾病以及低可能疾病两个诊断等级。进一步地,高可能疾病和低可能疾病分别按照以下公式进行排序以实现按诊断等级进行排序:高可能疾病排序公式:bert_pred/3+3*gbdt_pred+10*incidence+2*(强证据个数/疾病主要特征个数)+负向强证据个数/(强证据个数+负向强证据个数);以及低可能疾病排序公式:bert_pred/3+3*gbdt_pred+10*incidence+2*(强证据个数/ 疾病主要特征个数)+(弱证据个数/疾病次要特征个数)+负向强证据个数/(强证据个数+负向强证据个数)+负向弱证据个数/(弱证据个数+负向弱证据个数)+age_weight,其中,bert_pred表示对于该诊断根据所述BERT模型所计算的语义的所述相似度;gbdt_pred表示该诊断经所述GBDT算法计算的预测值,强证据表示所述用户主诉中所包含的主要特征;弱证据表示所述用户主诉中所包含的次要特征;疾病主要特征表示所述知识图谱中疾病与特征之间的权重大于或等于0.8的特征;疾病次要特征表示所述知识图谱中疾病与特征之间的权重小于0.3的特征;负向强证据表示所述用户主诉中明确否认存在的强证据;负向弱证据表示所述用户主诉中明确否认存在的弱证据;incidence表示诊断的先验概率;age_weight表示在某年龄段中出现某疾病的概率。
进一步地,排序算法模块还可被配置为基于LR/GBDT算法对由诊断条件概率计算模块和用户主诉语义计算模块所确定的所有诊断计算相应预测值并进行排序。
根据本发明的另一个方面,涉及用于辅助疾病推理的存储介质,其存储指令,当指令由一个或多个处理器执行时,其实现如上所述的功能。
根据本申请的用于辅助疾病推理的系统,其能够基于用户的主诉有效且准确的实现对疾病的预测诊断,从而有助于用户根据自身的情况有针对性的进行诊疗。
附图说明
本发明的其他显著特征和优点从以下参考以下附图出于说明目的而提供的非限制性描述中得出,其中:
图1示出了示出了根据本发明的实施例的用于辅助疾病推理的系统的结构框图;
图2示出了根据本发明的实施例的GBDT算法的决策判断信息集合的一个示例;
图3示出了根据本发明的实施例的用于辅助疾病推理的系统所执行的流程的流程图;
图4示出了根据本发明的另一实施例的用于辅助疾病推理的系统所执行的流程的流程图;以及
图5示出了根据本发明的实施例的用于辅助疾病推理的系统的总体结构图。
具体实施方式
图1示出了根据本发明的实施例的用于辅助疾病推理的系统1的结构框图。如图1所示,根据本发明的用于辅助疾病推理的系统1至少包括获取单元12,处理单元14以及存储单元16。
在本发明的实施例中,获取单元12被构造为获取用户的主诉,该主诉包括用户的症状以及人群信息等。
在发明的实施例中,处理单元14至少包括医学概念链接模块1400、诊断条件概率计算模块1402、用户主诉语义计算模块1404、排序算法模块 1406、诊断确定模块1408。
此外,相比于现有技术而言,应该理解本申请所述实施例对于骨科方面的应用尤其能够基于用户的主诉更高效且更准确的实现对疾病的预测诊断。
在本发明的实施例中,医学概念链接模块1400被构造为将基于有关于用户的主诉的组合关系元组实体链接至知识图谱中的相应医学概念中并获得主诉中的特征。这些特征包括所识别出的肯定症状、病因事件、否定症状、年龄、性别、时间、疾病等实体。该实体链接例如根据如2021年12 月31日提交的申请号为202111664296.3的中国发明专利申请中所描述的医学概念链接系统所执行的过程步骤而实现对有关于用户的主诉的组合关系元组的实体链接,该申请通过引用并入本文。虽然在此陈述为获取主诉中的肯定症状、病因事件、否定症状,年龄、性别、时间、疾病等实体,然而,本申请不限于此。基于对于用户主诉的mention的识别,该医学链接模块1400还可以获得除上述信息之外的如实体类型、实体间关系等额外信息。这些信息虽然未在此完全列出,但是可以预见,能够基于医学链接模块获取关于用户主诉的任何语义相关信息。
说明性地,在此额外简述医学概念链接模块1400所实现的对有关于用户的主诉的组合关系元组的实体链接。医学概念链接模块1400利用自然语言处理(NLP)模型(或算法)(例如BERT模型)识别所获取的主诉中的 mention(如本领域普通技术人员所理解的,也成为提及)的实体及其实体类型;然后基于自然语言处理模型(例如BERT模型)抽取主诉中识别出的mention的实体之间的关系;基于识别出的mention的实体及其实体类型以及实体之间的关系,根据知识图谱中的医学概念对实体及其关系进行组合以获得组合关系元组;将所获得组合关系元组实体链接至知识图谱中的对应医学概念中。可选地,可以将所获得组合关系元组中所涉及的每个 mention的实体与同义词库进行匹配以进行实体同义词扩展。可选地,可以利用BERT语义匹配模型基于所爬虫的互联网问诊数据对实体进行语义匹配,从而获得与该实体语义匹配相似度高的可能实体同义词并由人工进行校验,从而获得该实体的同义词。可选地,将所获得实体同义词更新至同义词库中。
在本发明的实施例中,诊断条件概率计算模块1402被构造为至少基于肯定症状和否定症状通过多重图召回有关于已知的肯定症状和否定症状的诊断(或者疾病,在本文中,诊断与疾病的含义等同,其仅表示对于用户主诉的可能诊断的概率推理,不能代替医生的具体诊断,而仅作为用户自我了解以有助于诊疗的预先知识分享,相对地,在后文中,由医生或医院等确定的与用户相关的诊断被称之为“医学诊断”)并计算相关诊断相对于已知的肯定症状和否定症状的诊断条件概率,其中,对肯定症状和否定症状进行扩展以获得经扩展证据集合并获得所有相关疾病的诊断集合,然后计算诊断集合中的每个诊断相对于经扩展证据集合中的相关证据的诊断条件概率。该诊断条件概率的计算例如根据2021年6月16日提交的申请号为202110664433.7的中国发明专利申请中对于诊断条件概率计算来实现,该申请的全部内容通过引用并入本文。每个诊断的诊断条件概率例如涉及症状与疾病之间的敏感度和特异度以及诊断的人群概率。虽然,多重图与知识图谱相关联,但是考虑到多重图中包含知识图谱意外的额外信息,因此,再次将知识图谱与多重图均引用至本申请中。本领域的普通技术人员应该理解,多重图可以理解为是基于知识图谱的并且额外包括贝叶斯概率信息等,该多重图的定义也例如参见该申请202110664433.7中所记载的相应内容。虽然同时引用了多重图与知识图谱的两个概念,然而,本领域的普通技术人员可以设想将两者进行适当的组合以优化存储和计算。
此外,在本发明中,用于辅助疾病推理的“证据”表示用于做出相应“诊断”的依据,其例如包括但不限于“症状”、“年龄”、“性别”等各种用于获得“诊断”的因素。
在本发明的实施例中,诊断条件概率计算模块1402还被构造为按照诊断条件概率值的大小输出经排序的诊断。
在本发明的实施例中,用户主诉语义计算模块1404被构造为利用 BERT模型基于用户主诉的语义计算训练语料中的主诉与用户主诉的语义的相似度并筛选候选主诉,并且按照前述所召回的疾病过滤候选主诉的疾病。候选主诉在此定义为训练语料中基于BERT模型计算的与用户主诉语义的相似度大于或等于预定阈值的主诉。在用户主诉语义计算模块1404中,基于训练语料中的用户主诉训练BERT模型,使得经训练的BERT模型能够根据用户主诉从训练语料中搜索候选主诉并计算其相似度,并且进一步地根据从诊断条件概率计算模块1402所召回的疾病对候选主诉的疾病进行过滤。可以预见,为了有效召回训练预料中的候选主诉并过滤候选主诉的疾病,训练语料优选地为包括疾病名称字段的主诉语料。可以预见,作为过滤的结果,不包含于从多层贝叶斯网络计算模块所召回的疾病中的候选主诉的疾病将被滤除。作为示例,为了避免召回的候选主诉不平衡,可以设定针对所召回的每个疾病选取相似度最高的两个候选主诉。作为示例,训练语料为来自好大夫问诊数据等在线问诊数据库筛选的包括疾病名称字段的数据(例如8w条)。作为另外一个示例,训练语料也可以包括根据实际的病人病历数字获得语料库。为了与知识图谱更好的对应,指定对于知识图谱中的训练语料中所未包含的疾病,将其相似度给定为默认值0.1。本领域的普通技术人员应该了解,在本申请的范围中,基于训练语料训练 BERT模型的方法对于本申请的普通技术人员而言是公知的。
在本发明的实施例中,用户主诉语义计算模块1404还被构造为输出基于BERT模型的pooled output向量(其在本文中也可以称为BERT语义特征)。本领域的普通技术人员可以理解,本申请所涉及pooled_output是BERT 的[CLS]位置的向量经过Dense层得到的pooling输出,其是一个形状为 (batch_size,hidden_size)的张量。如本领域的普通技术人员将理解的,该pooled output向量是获取sequence_output的第一个tensor[CLS]进行全链接后的结果,例如,输入是(1,768)的形状,则全链接后也是一个(1,768),从而按照BERT领域中的定义表示输入的上下文之间的关系。应该理解,对于BERT模型所使用的这些字符的含义与本领域普通技术人员的常规理解一致。
在本发明的实施例中,排序算法模块1606被构造为基于GBDT算法对由诊断条件概率计算模块和用户主诉语义计算模块所确定的所有疾病计算相应预测值并进行排序。在本申请的范围中,GBDT算法能够基于识别自用户主诉的语义的类别特征以及对这些特征按知识图谱中kind_of关系所扩展的特征(如参考申请CN 202110664433.7所记载的)并且基于上述所识别的类别特征和所扩展的特征的稠密特征以及BERT语义特征对由诊断条件概率计算模块和用户主诉语义计算模块所确定的所有疾病(或诊断) 计算预测值并进行排序。优选地,在该GBDT算法中,选取诊断条件概率最高的三个诊断以及对基于BERT模型所计算的相似度最高的候选主诉的三个疾病作为GBDT算法的GBDT特征,在这种情况下,GBDT算法可以进一步与LR算法组合构成LR/GBDT算法进行排序。在本文的优选地实施例中。虽然排序算法模块1606被表述为选取诊断条件概率最高的三个诊断以及对基于BERT模型所计算的相似度最高的三个疾病作为GBDT特征但本领域的技术人员可以理解,该排序算法模块1606可以对任何数量的相应诊断进行排序。在本申请的范围内,基于选定的疾病作为GBDT特征从而对由诊断条件概率计算模块1402和用户主诉语义计算模块1404所输出的所有疾病进行排序的过程对于本领域技术人员而言可以通过对已知的 GBDT算法包进行适当的调整而实现,在此不再进行额外赘述而使得本申请的其他方面模糊。在本申请的范围中,类别特征可以包括知识图谱中所涉及的相关实体和实体类型,例如知识图谱中的症状、事件、时间、年龄、性别等,这些实体和实体类型例如是如中国发明专利申请202111664296.3 中所描述的那些实体及实体类型。可以设想,在实现医学概念链接时,能够在对用户主诉的mention进行识别时同时确定这些实体是否出现于用户主诉中、该实体是否为对应疾病或诊断的主要特征/次要特征/其他特征以及该特征的特征值类型或权重,其中,主要特征表示知识图谱中疾病与特征(症状)之间的权重(特异度)大于或等于0.8的特征(症状),次要特征表示知识图谱中疾病与特征(症状)之间的权重(特异度)小于0.8但是大于或等于0.3的特征(症状),而疾病与特征(症状)之间的权重(特异度) 小于0.3的特征(症状)将被表述为其他特征。关于特征值类型,根据对应疾病或诊断的相关实体的存在情况,可以将这些特征值例如确定且标注为: true、likely、unlikely、false、unknown等。这些特征值的含义可以定义如下:
首先,需要确定可以存在于知识图谱中的涉及症状概念之间关系:
·implies:由一个症状能够推导出另一个症状,但反向推导不一定成立。
例如【严重疼痛implies疼痛】、【明显疼痛implies疼痛】、【刺痛implies疼痛】。
·prompts-likelihood-of(p-l-o):语义相似,表现在用户描述或区分不准确。
例如【酸胀prompts-likelihood-of酸痛】、【钝痛 prompts-likelihood-of疼痛】、【锐痛prompts-likelihood-of刺痛】。
·prompts-unlikelihood-of(p-u-o):不太可能同时存在的症状。
例如【酸痛prompts-unlikelihood-of外伤】
·denies:用户明确一个症状,则意味着否定另外一个症状。
例如【疼痛denies感觉丧失】、【发凉denies发热】
·-(无),两个基本所见没有关系。例如【活动受限】与【头疼】
此外,考虑到解剖结构之间在语义描述时的模糊性,可以确定解剖结构之间的概念关系并在计算时扩展到相关解剖结构的同一症状之间。
·prompts-likelihood-of(p-l-o):语义相似,表现在用户描述或区分不准确以及implies:由一个解剖结构能够推导出另一个解剖结构,但反向推导不一定成立。
例如:【小臂疼痛prompts-likelihood-of(p-l-o)上肢疼痛】、【肩背部疼痛implies肩部疼痛】。
【腰背部疼痛prompts-likelihood-of腰部疼痛】、【颈项部部疼痛prompts-likelihood-of颈部疼痛】。
基于知识图谱的实体之间的上述关系,可以将上述true、likely、unlikely、false、unknown特征值进一步确定如下:
·确认:true。表示主诉中确定症状存在或明确解剖结构。
·否认:false。表示主诉中否证症状存在或者否认相应解剖结构。
·不明确:unknown。表示主诉中未涉及相关症状或解剖结构。
·有(true)相关症状(implies,p-l-o)指入:likely。例如:用户明确【肩部疼痛】,语义关联扩展的【肩部酸痛】的值是likely,这种情况下,【肩部酸痛】按“主要症状(也可以称为主要特征或疾病主要特征)”召回疾病,按“次要症状(也可以称为次要特征或疾病次要特征)”计算。
·有(true)负相关症状(denies,p-u-o)指入:false。例如:明确【感觉减退】,则否认【疼痛】、【外伤】与【无明显诱因】。
·有指向否认的(false)相关症状(implies,p-l-o):false。
·有指向确认的(true)负相关症状(denies,p-u-o)false。例如:否认【疼痛】,也同时否认了【明显疼痛】。
·其他:unlikely
此外,用户主诉中的症状的其他特征值可以按如下方式进行确定:
о有(true)相关指入症状:(implies)->true,(p-l-o)->likely
о有(true)负相关症状指入:(denies)->false,(p-u-o)->unlikely
о有指向否认的(false)相关症状(implies)->false,(p-l-o)->unlikely
о有指向确认的(true)负相关症状(denies)->false,(p-u-o)->unlikely
о其他:unknown
进一步地,在本申请的范围中,稠密特征应该理解为强证据/普通证据 /弱证据次数(正(表示肯定症状),负(表示否定症状))、降权值、年龄权重、性别权重、BERT模型的pooled output向量。在本文的上下文中,强证据对应于这种证据(特征或者症状):用户的症状命中疾病的主要特征并且其特征值类型为“true”。弱证据对应于这种证据(特征或者症状):用户的症状命中疾病的次要特征并且其特征值类型为“likely”。普通证据对应于这种证据(特征或者症状):用户的症状命中疾病的主要特征但其特征值为“likely”或者用户的症状命中疾病的次要特征但其特征值为“true”。
在本申请的实施例中,识别自用户的主诉的语义信息的类别特征、这些类别特征所扩展的特征、上述类别特征和所扩展的特征的稠密特征以及 BERT语义特征共同构成GBDT排序算法所需的信息,其例如可以是5154 维度的决策判断信息集合。特别地,图2以{腰部疼痛(其表示主诉中的症状);腰椎间盘突出(其表示可能的一种诊断)}为示例示出了该决策判断信息集合。在如本申请的5154维度的决策判断信息集合的情况下,例如包括如下维度:年龄(5类,共5维度)、性别(1类,共2维度),时间(21 类,共21维度)、事件(11类X 5决策维度,共55维度)、症状(525类 X 7决策维度,共3675维度)、疾病(22决策维度,共22维度)、诊断(202 类X 3决策维度,共606维度)以及BERT语义特征(768维度)。其中,关于症状“腰部疼痛”的“出度”和“入度”分别表示在知识图谱中从该症状指出的关系数以及指向该症状的关系数量。当然,本领域的普通技术人员可以设想,对于上述信息集合中的各项分类以及对应的决策维度可以改变以适应各种不同决策情况。换言之,上述5154维度的信息集合并不限制本发明的范围,而是仅仅作为示例给出,使得本领域的普通技术人员能够更好地理解本发明。
可选地,如前所述,本申请的实施例中所述的排序算法模块还可以将 GBDT算法与LR算法进行组合以实施LR/GBDT算法。在这种情况下,排序算法模块被构造为基于LR/GBDT算法对由诊断条件概率计算模块和用户主诉语义计算模块所确定的所有疾病进行排序。在这种情况下,仍然选取诊断条件概率最高的三个诊断以及对基于BERT模型所计算的相似度最高的候选主诉的三个疾病作为GBDT算法的GBDT特征。
可选地,虽然在此示例性的描述了排序算法模块应用GBDT算法对诊断进行排序,但是可以预见,其他深度学习算法,如DeepFM、TRF-BERT 也可以用于进行疾病排序。可替代地,可以选择这些排序算法中的一种或多种进行组合实现组合计算,从而实现更准确的诊断。
在本发明的实施例中,诊断确定模块1408被构造输出排序算法模块的排序结果。
可选地,在本发明的实施例中,本申请所述的用于辅助疾病推理的系统1还进一步包括业务规则干预模块1410,其被构造为对排序结果中的疾病或诊断进行划分并按疾病等级进行进一步排序。具体地,业务规则干预模块1410将排序结果中的诊断划分为高可能疾病以及低可能疾病,其中,高可能疾病满足以下条件:(1)非罕见病(即疾病的概率需要高于一定阈值);(2)非年龄段低发病(即该年龄段中该疾病发生的概率需要高于一定阈值);(3)强证据的次数>0或者弱证据次数>=2;(4)强证据的匹配度(强证据个数/疾病主要特征个数)>=0.8,或所有证据的匹配度(所有证据在疾病所有特征的占比)>=0.8,或bert_pred>=0.1且gbdt_pred>=0.6,或 bert_pred>=0.9且gbdt_pred>=0.1,其中bert_pred表示根据BERT模型所计算的语义的相似度且gbdt_pred表示该疾病经GBDT算法计算的预测值。同时,在业务规则干预模块1410排除疾病的主要特征都被否定或仅命中事件的疾病。
在对排序结果中的疾病或诊断进行划分后,分别按照高可能疾病和低可能疾病进行分别排序,其中,高可能疾病按照以下公式进行排序:
bert_pred/3+3*gbdt_pred+10*incidence+2*(强证据/疾病主要特征个数)+ 负向强证据/(强证据+负向强证据),其中,incidence表示疾病的概率(置信度或疾病的先验概率),也可以表示为P(dj)(如中国发明专利申请中 202110664433.7所定义的先验概率)。
此外,低可能疾病按照以下公式进行排序:
bert_pred/3+3*gbdt_pred+10*incidence+2*(强证据个数/疾病主要特征个数)+(弱证据个数/疾病次要特征个数)+负向强证据个数/(强证据个数+负向强证据个数)+负向弱证据个数/(弱证据个数+负向弱证据个数)+age_weight,其中,age_weight表示年龄权重,在此可以理解为在该年龄段中发生该疾病的概率。其中,负向证据表示用户否定的症状次数,如:没有“下肢疼痛”、“外伤”,负向证据数为2。而如果该证据为强证据,则表示用户否定的主要症状次数。
作为示例,本申请范围内的用于辅助疾病推理的系统1还包括人机交互界面,其中,该人机交互界面被构造为接收由用户输入的初始主诉。该人机交互界面构造成以用户可实现的任何形式(例如,语音输入、文字输入、图像识别)接收用户主诉。作为示例而非限制性的,该人机交互界面可以实施为键盘、鼠标、触摸屏幕、操纵杆、麦克风等任何可以接收用户所输入的初始信息的硬件或其组合。
有利地,本申请范围内的用于辅助疾病推理的系统1还包括诊断交互界面,其中,该诊断交互界面被构造为显示由系统输出的由业务规则干预模块所排序的诊断。有利地,该诊断交互界面优选地为屏幕,例如液晶显示器、有机发光二极管等形式。但是可以预见,作为示例而非限制性的,诊断交互界面还可以是语音播报装置、投影装置等输出装置硬件或其组合。
更有利地,本申请范围内的用于辅助疾病推理的系统1中的人机交互界面和诊断交互界面可以集成在一起。作为示例而非限制性的,例如,触摸屏幕可以是集成的人机交互界面和诊断交互界面的示例。但是可以预见,包含屏幕的其他人机交互界面也可以与诊断交互界面集成,从而实现两者的功能,例如显示器与键盘(或其他物理输入设备)的组合等。
在本申请的范围中,存储单元16被构造为存储与医学概念相关的知识图谱以及多重图。
有利地,本申请范围的用于辅助疾病推理的系统1的存储单元16可以例如包括存储器,例如U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等或者其他可存储数据的硬件存储。进一步地,根据本发明的存储单元可以包括数据库、云存储等软件存储。进一步地,存储单可以包括还可以存储用于实现本申请的用于辅助疾病推理的系统1所执行的流程的任何软件程序。
虽然以上描述了本申请范围的用于辅助疾病推理的系统1的处理单元 14中实现各种功能的各种单独模块,但这并非限定性的。在变型中,一个模块可以实现上述多个模块的能够活着多个模块可以实现上述单个模块中的功能,而不脱离本发明的范围。
图3示出了根据本发明的实施例的用于辅助疾病推理的系统1所执行的流程的流程图。
在步骤300处,获取用户的主诉。
在步骤302处,将基于有关于用户的主诉的组合关系元组实体链接至知识图谱中的相应医学概念中并获得主诉中的特征。这些特征包括所识别出的肯定症状、病因事件、否定症状、年龄、性别、时间、疾病等实体。该步骤302例如可以参考中国发明专利申请202111664296.3所记载的具体过程,该申请的全部内容通过引用并入本文。
在步骤304处,至少基于肯定症状和否定症状通过多重图召回有关于已知的肯定症状和否定症状的诊断并计算相关诊断相对于已知的肯定症状和否定症状的诊断条件概率,其中,对肯定症状和否定症状进行扩展以获得经扩展证据集合并获得所有相关疾病的诊断集合,然后计算诊断集合中的每个诊断相对于经扩展证据集合中的相关证据的诊断条件概率。该诊断条件概率的计算例如参见申请CN 202110664433.7对于诊断条件概率计算的记载,该申请的全部内容通过引用并入本文。
在步骤306处,利用BERT模型基于用户主诉语义计算训练语料中的主诉与用户主诉语义的相似度并筛选候选主诉,并且按照前述所召回的疾病过滤候选主诉的疾病。候选主诉在此定义为训练语料中基于BERT模型计算的与用户主诉语义的相似度大于或等于预定阈值的主诉。
在步骤308处,基于GBDT算法对由步骤304和步骤306所确定的所有疾病计算相应预测值并进行排序。在该步骤308中,GBDT算法能够基于识别自用户的主诉的语义信息的类别特征以及对这些特征按知识图谱中 kind_of关系所扩展的特征并且基于上述所识别的类别特征和所扩展的特征的稠密特征以及BERT语义特征对由步骤304和步骤306所确定的所有诊断进行排序。
在步骤310处,输出步骤308所获得排序结果。
图4示出了根据本发明的另一实施例的用于辅助疾病推理的系统1所执行的流程的流程图。相比于图3,图4与图3的区别在于,在步骤308 之后,可以存在步骤412,在该步骤412处,对步骤3308所得的排序结果中的诊断进行划分并按疾病等级进行进一步排序并将进一步排序结果输出。
虽然上文按照先后顺序描述了本发明中可能执行的步骤,但是本领域的普通技术人员将会理解,上述步骤中的一个或多个的执行顺序可以交替或者能够同时执行而不脱离本发明的范围。
如图5所示,图5示出了根据本发明的实施例的用于辅助疾病推理的系统的总体结构图,其中,基于相同的发明构思,所述用于辅助疾病推理的系统总体上至少包括如下部件:处理器501、存储器502、通信接口503 和总线504;其中,所述处理器501、存储器502、通信接口503通过所述总线504完成相互间的通信;所述通信接口503用于实现用于辅助疾病推理的系统的信息交互通信以及与其他软件或硬件的信息传输;所述处理器 501用于调用所述存储器502中的计算机程序,所述处理器执行所述程序时实现如本申请之前所述的用于辅助疾病推理的系统所执行的流程。
基于相同的发明构思,本发明的又一实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序或指令,这些计算机程序或指令被处理器执行时实现如本申请之前所述的用于辅助疾病推理的系统所执行的流程,在此不再赘述。存储介质的数量可以为一个或多个。存储介质可以为计算机可读存储介质。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述用于辅助疾病推理的系统所执行的流程的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本发明实施例提供的计算机可读存储介质,其上存储的计算机程序的工作原理和有益效果和上述实施例提供的疾病推理系统类似,具体内容和参见上述实施例的介绍,本发明实施例对此不再详述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分。
还应该理解,可以根据具体要求而进行各种变型。例如,也可以使用定制硬件,和/或可以用硬件、软件、固件、中间件、微代码,硬件描述语言或其任何组合来实现特定元件。例如,所公开的用于辅助疾病推理的系统及其所执行的流程中的一些或全部可以通过使用根据本公开的逻辑和算法,用汇编语言或硬件编程语言(诸如VERILOG,VHDL,C++)对硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。
还应该理解,前述用于辅助疾病推理的系统所执行的流程可以通过服务器-客户端模式来实现。例如,客户端可以接收用户输入的数据并将所述数据发送到服务器。客户端也可以接收用户输入的数据,进行前述用于辅助疾病推理的系统所执行的流程中的一部分处理,并将处理所得到的数据发送到服务器。服务器可以接收来自客户端的数据,并且执行前述用于辅助疾病推理的系统所执行的流程或前述用于辅助疾病推理的系统所执行的流程中的另一部分,并将执行结果返回给客户端。客户端可以从服务器接收到用于辅助疾病推理的系统所执行的流程的执行结果,并例如可以通过输出设备呈现给用户。
还应该理解,用于辅助疾病推理的系统的组件可以分布在网络上。例如,可以使用一个处理器执行一些处理,而同时可以由远离该一个处理器的另一个处理器执行其他处理。用于辅助疾病推理的系统的其他组件也可以类似地分布。这样,用于辅助疾病推理的系统可以被解释为在多个位置执行处理的分布式计算系统。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种用于辅助疾病推理的系统,所述系统包括:
存储单元,其被配置成存储与医学概念相关的知识图谱以及多重图;
获取单元,其被配置为获取用户的主诉;以及
处理单元,其包括:
医学概念链接模块,其被配置为将基于有关于用户的主诉的组合关系元组实体链接至知识图谱中的相应医学概念中并获得主诉中的特征;
诊断条件概率计算模块,其被配置至少基于所述用户主诉中的肯定症状和否定症状通过多重图召回有关于已知的所述肯定症状和所述否定症状的诊断并计算相关诊断相对于已知的所述肯定症状和所述否定症状的诊断条件概率;
用户主诉语义计算模块,其被配置为利用BERT模型基于所述用户主诉的语义计算训练语料中的主诉与所述用户主诉的语义的相似度并筛选候选主诉,并且按照所召回的诊断过滤所述候选主诉中的诊断;以及
排序算法模块,其被配置为基于GBDT算法对由所述诊断条件概率计算模块和所述用户主诉语义计算模块所确定的所有诊断计算相应预测值并进行排序;以及
诊断确定模块,其被配置为输出由所述排序算法模块获得的对于所有诊断的排序结果;
其中,所述处理单元还包括:
业务规则干预模块,其被配置为对所述排序结果中的诊断进行划分并按诊断等级进行进一步排序;所述业务规则干预模块进一步被配置为将所述排序结果中的诊断划分为高可能疾病以及低可能疾病两个诊断等级,所述高可能疾病和所述低可能疾病分别按照以下公式进行排序以实现按诊断等级进行排序:
高可能疾病排序公式:
bert_pred/3+3*gbdt_pred+10*incidence+2*(强证据个数/疾病主要特征个数)+负向强证据个数/(强证据个数+负向强证据个数);以及
低可能疾病排序公式:
bert_pred/3+3*gbdt_pred+10*incidence+2*(强证据个数/疾病主要特征个数)+(弱证据个数/疾病次要特征个数)+负向强证据个数/(强证据个数+负向强证据个数)+负向弱证据个数/(弱证据个数+负向弱证据个数)+age_weight,
其中,bert_pred表示对于该诊断根据所述BERT模型所计算的语义的所述相似度;gbdt_pred表示该诊断经所述GBDT算法计算的预测值,强证据表示所述用户主诉中所包含的主要特征;弱证据表示所述用户主诉中所包含的次要特征;疾病主要特征表示所述知识图谱中疾病与特征之间的权重大于或等于0.8的特征;疾病次要特征表示所述知识图谱中疾病与特征之间的权重小于0.3的特征;负向强证据表示所述用户主诉中明确否认存在的强证据;负向弱证据表示所述用户主诉中明确否认存在的弱证据;incidence表示诊断的先验概率;age_weight表示在某年龄段中出现某疾病的概率。
2.根据权利要求1所述的系统,所述系统还包括人机交互界面以及诊断交互界面,其中,所述人机交互界面用于接收由用户输入的所述主诉,其包括用户基本信息以及用户症状,进一步地,所述人机交互界面构造成以用户可实现的任何形式接收所述主诉;并且其中,所述诊断交互界面用于向用户显示输出的所述排序结果。
3.根据权利要求1或2所述的系统,其中,所述用户主诉语义计算模块还被配置为输出基于BERT模型的pooled output向量。
4.根据权利要求1或2所述的系统,其中,所述GBDT算法能够基于识别自所述用户主诉的所述语义的类别特征以及对所述类别特征按所述知识图谱中所扩展的特征并且基于所识别的所述类别特征和所扩展的所述特征的稠密特征以及BERT语义特征对由所述诊断条件概率计算模块和所述用户主诉语义计算模块所确定的所有诊断计算预测值并进行排序。
5.根据权利要求1或2所述的系统,其中,所述排序算法模块选取诊断条件概率最高的三个诊断以及对基于所述BERT模型所计算的相似度最高的三个诊断作为GBDT特征。
6.根据权利要求1或2所述的系统,其中,所述排序算法模块还可被配置为基于LR/GBDT算法对由所述诊断条件概率计算模块和所述用户主诉语义计算模块所确定的所有诊断计算相应预测值并进行排序。
7.一种存储介质,其存储指令,当所述指令被执行时,所述指令实现至少如权利要求1-6中任一项所述的系统的功能。
CN202210001234.2A 2022-01-04 2022-01-04 用于辅助疾病推理的系统及存储介质 Active CN114464312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210001234.2A CN114464312B (zh) 2022-01-04 2022-01-04 用于辅助疾病推理的系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210001234.2A CN114464312B (zh) 2022-01-04 2022-01-04 用于辅助疾病推理的系统及存储介质

Publications (2)

Publication Number Publication Date
CN114464312A CN114464312A (zh) 2022-05-10
CN114464312B true CN114464312B (zh) 2022-12-02

Family

ID=81406702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210001234.2A Active CN114464312B (zh) 2022-01-04 2022-01-04 用于辅助疾病推理的系统及存储介质

Country Status (1)

Country Link
CN (1) CN114464312B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115719640B (zh) * 2022-11-02 2023-08-08 联仁健康医疗大数据科技股份有限公司 中医主次症状识别系统、装置、电子设备及其存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021044431A1 (en) * 2019-09-08 2021-03-11 Camdoc Ltd. Methods, systems and software for improved diagnosis of a medical condition
WO2021163805A1 (en) * 2020-02-19 2021-08-26 Minerva Intelligence Inc. Methods, systems, and apparatus for probabilistic reasoning

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160048651A1 (en) * 2000-08-01 2016-02-18 Logical Images, Inc. System and method to aid diagnoses using sympticons
CN111191020B (zh) * 2019-12-27 2023-09-22 江苏省人民医院(南京医科大学第一附属医院) 基于机器学习和知识图谱的处方推荐方法和系统
CN112035635A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 医疗领域意图识别方法、装置、设备及存储介质
CN112232065B (zh) * 2020-10-29 2024-05-14 腾讯科技(深圳)有限公司 挖掘同义词的方法及装置
CN113782165A (zh) * 2021-04-02 2021-12-10 北京京东拓先科技有限公司 分诊方法及装置、计算机可存储介质
CN113077873B (zh) * 2021-05-06 2022-11-22 井颐医疗信息技术(杭州)有限公司 一种中医临床决策支持系统及方法
CN113409936B (zh) * 2021-06-16 2022-08-05 北京欧应信息技术有限公司 用于辅助疾病推理的系统及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021044431A1 (en) * 2019-09-08 2021-03-11 Camdoc Ltd. Methods, systems and software for improved diagnosis of a medical condition
WO2021163805A1 (en) * 2020-02-19 2021-08-26 Minerva Intelligence Inc. Methods, systems, and apparatus for probabilistic reasoning

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《E-Health: The Potential of Linked Data and Stream Reasoning for Personalised Healthcare》;Shamaila Iram et al.;《2011 Developments in E-systems Engineering》;20120213;46-49 *
基于领域语义知识库的疾病辅助诊断方法;陈德彦等;《软件学报》;20201014(第10期);191-207 *
整合BiLSTM-CRF网络和词典资源的中文电子病历实体识别;李纲等;《现代情报》;20200330(第04期);5-14+60 *

Also Published As

Publication number Publication date
CN114464312A (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
Thabtah et al. Data imbalance in classification: Experimental evaluation
Saleh et al. Learning ensemble classifiers for diabetic retinopathy assessment
US20210233658A1 (en) Identifying Relevant Medical Data for Facilitating Accurate Medical Diagnosis
Anbarasi et al. Enhanced prediction of heart disease with feature subset selection using genetic algorithm
Bhuvaneswari et al. A novel machine learning framework for diagnosing the type 2 diabetics using temporal fuzzy ant miner decision tree classifier with temporal weighted genetic algorithm
US20200265955A1 (en) Identifying Valid Medical Data for Facilitating Accurate Medical Diagnosis
Archenaa et al. Health recommender system using big data analytics
KR101875306B1 (ko) 의료용어 클러스터를 이용한 질병정보제공시스템
Lage et al. Learning interpretable concept-based models with human feedback
Patil et al. A proposed model for lifestyle disease prediction using support vector machine
US20190147993A1 (en) Clinical report retrieval and/or comparison
US10621499B1 (en) Systems and methods for semantic understanding of digital information
EP4131279A1 (en) Experience engine-method and apparatus of learning from similar patients
US20210391075A1 (en) Medical Literature Recommender Based on Patient Health Information and User Feedback
CN114464312B (zh) 用于辅助疾病推理的系统及存储介质
Johnson et al. Hcpcs2vec: Healthcare procedure embeddings for medicare fraud prediction
Sefrioui et al. Survival prediction of trauma patients: a study on US National Trauma Data Bank
Ahmad Mining health data for breast cancer diagnosis using machine learning
Tripathy et al. Innovative classification, regression model for predicting various diseases
CN117370565A (zh) 一种信息检索方法及系统
US20150169833A1 (en) Method and System for Supporting a Clinical Diagnosis
Songram et al. A study of features affecting on stroke prediction using machine learning
Sheik Abdullah et al. Assessment and evaluation of CHD risk factors using weighted ranked correlation and regression with data classification
Rashmi Hybrid model using unsupervised filtering based on ant colony optimization and multiclass SVM by considering medical data set
Hussain et al. A methodology to rank the patients prone to chronic diseases in telehealth

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant