CN115798733A - 一种用于孤儿病的智能辅助推理系统及方法 - Google Patents

一种用于孤儿病的智能辅助推理系统及方法 Download PDF

Info

Publication number
CN115798733A
CN115798733A CN202310024844.9A CN202310024844A CN115798733A CN 115798733 A CN115798733 A CN 115798733A CN 202310024844 A CN202310024844 A CN 202310024844A CN 115798733 A CN115798733 A CN 115798733A
Authority
CN
China
Prior art keywords
phenotype
orphan
terms
orphan disease
disease
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310024844.9A
Other languages
English (en)
Inventor
沈成国
许峥
许娟
史文钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Health China Technologies Co Ltd
Original Assignee
Digital Health China Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Health China Technologies Co Ltd filed Critical Digital Health China Technologies Co Ltd
Priority to CN202310024844.9A priority Critical patent/CN115798733A/zh
Publication of CN115798733A publication Critical patent/CN115798733A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种用于孤儿病的智能辅助推理系统及方法,通过病例文本和查找分析引擎大数据进行孤儿病数据挖掘,为解决当前公共医疗卫生领域的挑战性难题提供新的方法,在领域填补了孤儿病研究中的空白,通过孤儿病数据库提取表型知识,再基于表型知识对孤儿病权威数据库进行优化,优化的孤儿病权威数据库中的各个标准表型术语对应有与其各自对应的孤儿病之间的关联程度的统计信息,将实践数据与孤儿病权威数据库进行整合,实现表型知识的优化,由表型特征相似度量来代替表型特征简单匹配,从而实现更为灵活的孤儿病推荐,通过提供孤儿病表型特征网络,辅助医生深入探索孤儿病之间表型特征关联,并直观地鉴别孤儿病之间的表型特征差异。

Description

一种用于孤儿病的智能辅助推理系统及方法
技术领域
本发明属于数据处理和孤儿病推理技术领域,具体涉及一种用于孤儿病的智能辅助推理系统及方法。
背景技术
在网络和智能化设备发达的今天,现有技术无法让孤儿病患者快速找到病因,虽然在过去的10年罕见疾病基因组测序分析和解读系统,在基因组和表型数据的广泛采用的标准化格式和命名和优先过滤和查找变异等方面取得进展,为孟德尔疾病研究带来了福音,帮助发现大量具有相似性表型的病历,但这样的系统由于过去复杂和缺乏遗传咨询师和临床遗传专科科室,一般医生未有具体培训,面对孤儿病,往往束手无策,无法利用其识别出许多新型疾病,对疾病正确快速诊断构成了重点挑战;
此外,现有的一些孤儿病辅助推理系统在临床实践中有颇多的局限性,临床采集患者表型过程中,不可避免地会出现采集到的患者表型不准确不完整,或者采集到与患者所患疾病无关的表型的问题这使得采集到的患者表型信息很难和知识库中的患者所患疾病的表型信息很好地匹配,最终限制疾病检索结果的准确性。
发明内容
针对上述现有技术的不足,本申请提供一种用于孤儿病的智能辅助推理系统及方法。
第一方面本申请提出了一种用于孤儿病的智能辅助推理系统,包括:
孤儿病数据库构建模块,用于存储临床遗传专科医生所使用的终端在医疗系统中上传的孤儿病患者的病历文本,从所述病历文本中提取特征关键词;根据词类查找分析引擎对所述特征关键词进行搜索分析,得到搜索特征,统计孤儿病患者的确诊特征,比对所述确诊特征和搜索特征,得到孤儿病数据库,所述孤儿病数据库包括表型知识;
表型知识优化模块,用于从所述表型知识中提取临床表型术语、所述临床表型术语对应的孤儿病、表征所述临床表型术语对应的孤儿病和所述临床表型术语的关联程度信息,从孤儿病权威数据库中提取标准表型术语并将所述临床表型术语与所述临床表型术语各自对应的孤儿病对应的标准表型术语进行比较,根据比较结果对所述表型知识进行优化,得到优化后表型知识;
孤儿病智能辅助推理模块,用于根据优化后表型知识构建表型语义层级网络;根据孤儿病数据库构建表型特征网络并计算出表型共现关系和特异性,基于表型语义层级网络、表型共现关系和表型特征网络进行相似度计算,对表型特征进行相似度计算,得到初步的孤儿病推荐列表;基于表型语义层级网络、表型共现关系和初步的孤儿病推荐列表对表型进行优化,获得优化后的表型集合;利用可视化工具将表型语义层级网络、表型共现关系和表型特征网络转化为网络图,利用网络图展示推荐的孤儿病和优化后的表型集合,辅助医生对孤儿病进行推理。
在一些实施例的一些可选的实现方式中,所述孤儿病数据库构建模块,包括特征关键词提取单元和神经网络模型训练单元;
所述特征关键词提取单元,用于根据病历文本中的诊断结论生成病例视图,并对其进行逐一分析,病例信息中对于同一种诊断可能会出现不同的描述,利用正则表达式将该描述出现的标点符号去除,然后进行分词处理,将分词后的词汇均输入到预先训练好的神经网络模型中,输出特征关键词;
所述神经网络模型训练单元,用于构建训练集,所述训练集为若干个已知特征关键词对应的诊断记录;对训练集进行预处理后得到无向加权图的最终向量表示,将无向加权图的最终向量表示,输入到神经网络模型中,将已知特征关键词作为神经网络模型的标签,对神经网络模型进行训练,当神经网络模型的损失函数达到最小值时,停止训练,得到训练好的神经网络模型。
在一些实施例的一些可选的实现方式中,还包括时空特征分析单元、相关性特征对比单元和融合单元;
所述时空特征分析单元,用于针对不同孤儿病,分析患者的确诊特征和搜索特征的分布时空特点;
所述相关性特征对比单元,用于比较得出患者的确诊特征和搜索特征的相关性特征;
所述融合单元,用于将患者的确诊特征和搜索特征进行对比融合,构建孤儿病数据库。
在一些实施例的一些可选的实现方式中,所述表型知识优化模块包括:孤儿病权威数据库构建单元和表型知识内容信息提取单元;
所述孤儿病权威数据库构建单元,用于获取已有的遗传病知识库和孤儿病知识库;从所述遗传病知识库和所述孤儿病知识库中分别提取出多种已知孤儿病和所述多种已知孤儿病对应的已知表型术语;基于多种已知孤儿病和所述多种已知孤儿病对应的已知表型术语构建所述孤儿病权威知识库;
所述表型知识内容信息提取单元,用于基于现有术语库从所述表型知识中提取出所述临床表型术语;根据病历文本中的患者诊断结果确定所述临床表型术语各自对应的孤儿病;统计各个孤儿病下的临床表型术语的频数以及临床表型术语的频率指数,得到所述统计信息。
在一些实施例的一些可选的实现方式中,还包括表型术语匹配分析单元,表型术语处理单元和表型知识优化单元;
所述表型术语匹配分析单元,用于获取不存在匹配的标准表型术语的目标临床表型术语;计算所述目标临床表型术语在其所述对应的孤儿病中的出现频率,根据计算结果更新表型知识;
所述表型术语处理单元,用于针对不存在匹配的临床表型术语的标准表型术语,确定是否存在未进行匹配的临床表型术语;在确定不存在未进行匹配的临床表型术语时,从所述表型知识中删除所述不存在匹配的临床表型术语的标准表型术语;
所述表型知识优化单元,将存在匹配的标准表型术语的临床表型术语对应的统计信息按照与所述匹配的标准表型术语的对应关系存储到所述表型知识中,完成表型知识优化。
在一些实施例的一些可选的实现方式中,所述孤儿病智能辅助推理模块包括表型语义层级网络构建单元和表型特征网络构建单元;
所述表型语义层级网络构建单元,用于从表型本体知识库中提取的表型之间的语义关系将表型本体组织为网络;
所述表型特征网络构建单元,用于基于孤儿病数据库中的表型关系注释构建表型特征网络,用于体现孤儿病与表型之间的关联、孤儿病之间的直接表型关联以及潜在表型关联。
在一些实施例的一些可选的实现方式中,还包括相似度计算单元,用于采用表型集合之间的相似距离来衡量孤儿病在表型特征上的相似度;
在一些实施例的一些可选的实现方式中,还包括表型集合优化单元,用于通过在表型语义层级网络上对采集的患者的表型进行两次广度遍历,根据遍历结果对表型集合进行优化。
在一些实施例的一些可选的实现方式中,还包括网络视图展示界面,用于展示推荐的孤儿病和优化后的表型集合,辅助医生对孤儿病进行推理。
第二方面本申请提出了一种用于孤儿病的智能辅助推理方法,其特征在于:包括孤儿病数据库构建步骤、表型知识优化步骤和孤儿病智能辅助推理步骤;
所述孤儿病数据库构建步骤包括:
获取孤儿病患者的病历文本;
从所述病历文本中提取特征关键词;
根据词类查找分析引擎对所述特征关键词进行搜索分析得到搜索特征,并统计孤儿病患者的确诊特征;
比对所述确诊特征和搜索特征,得到孤儿病数据库;
所述表型知识优化步骤包括:
从所述表型知识中提取临床表型术语、所述临床表型术语对应的孤儿病、表征所述临床表型术语对应的孤儿病和所述临床表型术语的关联程度信息;
从孤儿病权威数据库中提取标准表型术语并将所述临床表型术语与所述临床表型术语各自对应的孤儿病对应的标准表型术语进行比较,得到比较结果;
根据比较结果对所述表型知识进行优化,得到优化后表型知识;
所述孤儿病智能辅助推理步骤包括:
根据优化后表型知识构建表型语义层级网络并根据孤儿病数据库构建表型特征网络;
计算出表型共现关系和特异性;
基于表型语义层级网络、表型共现关系和表型特征网络进行相似度计算,对表型特征进行相似度计算,得到初步的孤儿病推荐列表;
基于表型语义层级网络、表型共现关系和初步的孤儿病推荐列表对表型进行优化,获得优化后的表型集合;
利用可视化工具将表型语义层级网络、表型共现关系和表型特征网络转化为网络视图,利用网络视图展示推荐的孤儿病和优化后的表型集合,辅助医生对孤儿病进行推理。
本公开实施例的第三方面,提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述方法的步骤。
本公开实施例的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述方法的步骤。
本发明的有益效果:
1、通过病例文本和查找分析引擎大数据进行孤儿病数据挖掘,为解决当前公共医疗卫生领域的挑战性难题提供新的方法,在领域填补了孤儿病研究中的空白,通过对病例文本和查找分析引擎的数据进行比对融合,指导后续适用于不同特点的孤儿病病种的研究策略。
2、通过孤儿病数据库提取表型知识,再基于表型知识对孤儿病权威数据库进行优化,优化的孤儿病权威数据库中的各个标准表型术语对应有与其各自对应的孤儿病之间的关联程度的统计信息。将实践数据与孤儿病权威数据库进行整合,实现表型知识的优化,优化的表型知识具有实践数据的支撑,在临床实践中的可应用性和实用性更强。
3、采用了基于表型特征相似度的孤儿病推荐方法,由表型特征相似度量来代替表型特征简单匹配,从而实现更为灵活的孤儿病推荐,通过提供一个可视化的孤儿病表型特征网络,辅助医生深入探索孤儿病之间表型特征关联,并直观地鉴别孤儿病之间的表型特征差异。
附图说明
图1为本发明的系统原理框图。
图2为表型共性关系的网络视图示意图。
图3为孤儿病数据库构建步骤流程图。
图4为表型知识优化步骤流程图。
图5为孤儿病智能辅助推理步骤流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制;相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
第一方面本申请提出了一种用于孤儿病的智能辅助推理系统,如图1所示,包括:
孤儿病数据库构建模块,用于存储临床遗传专科医生所使用的终端在医疗系统中上传的孤儿病患者的病历文本,从所述病历文本中提取特征关键词;根据词类查找分析引擎对所述特征关键词进行搜索分析,得到搜索特征,统计孤儿病患者的确诊特征,比对所述确诊特征和搜索特征,得到孤儿病数据库,所述孤儿病数据库包括表型知识;
在一些实施例的一些可选的实现方式中,所述孤儿病数据库构建模块,包括特征关键词提取单元和神经网络模型训练单元;
所述特征关键词提取单元,用于根据病历文本中的诊断结论生成病例视图,并对其进行逐一分析,病例信息中对于同一种诊断可能会出现不同的描述,利用正则表达式将该描述出现的标点符号去除,然后进行分词处理,将分词后的词汇均输入到预先训练好的神经网络模型中,输出特征关键词;
其中,特征关键词是医学名词,构建合适的特征关键词对搜索引擎结果分析至关重要。既要减少因匹配度要求过高而导致的遗漏,也要避免因检索词匹配度过低,而导致的混杂信息增多,影响分析精度,本发明以孤儿病目录中确认的疾病名称、或其同义词、或英文名称、或特异性诊断指标(如突变基因)、或特异性治疗方法(如药物)作为匹配搜索日志的关键词,以兼顾查询准确性和特异性。并且特征关键词的选取可以是一个逐步优化的过程,可根据不同疾病、不同算法再做相应调整。
所述神经网络模型训练单元,用于构建训练集,所述训练集为若干个已知特征关键词对应的诊断记录;对训练集进行预处理后得到无向加权图的最终向量表示,将无向加权图的最终向量表示,输入到神经网络模型中,将已知特征关键词作为神经网络模型的标签,对神经网络模型进行训练,当神经网络模型的损失函数达到最小值时,停止训练,得到训练好的神经网络模型。
其中,预处理是指,将已知特征关键词作为标签,将每个诊断记录进行去标点符号、分词处理,得到每个诊断记录对应的若干个词汇;将每个词汇作为一个节点,如果任意两个词汇在诊断记录中有相邻出现的情况,则将两个词汇对应的两个节点进行连线,将同时出现的次数作为连线的权重,建立无向加权图;将无向加权图表示为邻接矩阵;得到无向加权图中每个节点的向量表示,将所有节点的向量表示进行加权求和后得到无向加权图的最终向量表示。
在一些实施例的一些可选的实现方式中,还包括时空特征分析单元、相关性特征对比单元和融合单元;
所述时空特征分析单元,用于针对不同孤儿病,分析患者的确诊特征和搜索特征的分布时空特点;
其中,分布时空特点主要是为了针对不同孤儿病的患者的确诊特征和搜索特征的人数随时间、空间的变化情况。
所述相关性特征对比单元,用于比较得出患者的确诊特征和搜索特征的相关性特征;
其中,比较确诊特征的患者数据与搜索特征的患者数据中各孤儿病病种人数/排名差异,获得两个数据的整体相关性特征,并进一步比较搜索人数/排名较高、或是直报人数/排名较高这两类疾病相邻两年间的病种交集,获得年度变化趋势特征。
所述融合单元,用于将患者的确诊特征和搜索特征进行对比融合,构建孤儿病数据库。
其中,比较确诊特征的患者数据与搜索特征的患者数据中各孤儿病患者的人数差异,获得不同孤儿病在数据统计后的排名特征,依据排名差异,将孤儿病进行融合排名,形成孤儿病名称表,根据孤儿病名称表从现有的孤儿病知识库(例如Orpha库或eRAM库)中提取对应的表型知识,从而完成孤儿病数据库的构建。
表型知识优化模块,用于从所述表型知识中提取临床表型术语、所述临床表型术语对应的孤儿病、表征所述临床表型术语对应的孤儿病和所述临床表型术语的关联程度信息,从孤儿病权威数据库中提取标准表型术语并将所述临床表型术语与所述临床表型术语各自对应的孤儿病对应的标准表型术语进行比较,根据比较结果对所述表型知识进行优化,得到优化后表型知识;
在一些实施例的一些可选的实现方式中,所述表型知识优化模块包括:孤儿病权威数据库构建单元和表型知识内容信息提取单元;
所述孤儿病权威数据库构建单元,用于获取已有的遗传病知识库和孤儿病知识库;从所述遗传病知识库和所述孤儿病知识库中分别提取出多种已知孤儿病和所述多种已知孤儿病对应的已知表型术语;基于多种已知孤儿病和所述多种已知孤儿病对应的已知表型术语构建所述孤儿病权威知识库;
其中,在这种实施方式中,已有的遗传病知识库中也包括有多种孤儿病和孤儿病对应的表型术语,因此,可作为数据源。已有的孤儿病知识库,包括大量的孤儿病和孤儿病对应的表型术语,可作为数据源。其中,已有的孤儿病遗传病知识库可以包括OMIM,Orpha和eRAM库,上述三种知识库基本能实现大部分孤儿病及其对应的表型术语的搜集,提高孤儿病权威知识库中的数据的全面性,在获取到这些已有的知识库后,这些已有的知识库中的孤儿病和对应的表型术语都已是规范形式,此时可以直接通过这些知识库的数据结构进行数据提取,比如:知识库中的某个分类下,都是孤儿病和孤儿病对应的表型术语,则将该分类下的所有数据进行提取即可。当从不同的已有的知识库中提取出孤儿病和孤儿病对应的表型术语后,将其进行存储,实现孤儿病权威知识库的构建。
所述表型知识内容信息提取单元,用于基于现有术语库从所述表型知识中提取出所述临床表型术语;根据病历文本中的患者诊断结果确定所述临床表型术语各自对应的孤儿病;统计各个孤儿病下的临床表型术语的频数以及临床表型术语的频率指数,得到所述统计信息。
在提取临床表型术语时,可以基于现有术语库进行提取。在本申请实施例中,为了实现HPO术语的识别,现有术语库为HPO中文术语库,HPO中文术语库的构建方式为:利用OMAHA术语集对HPO术语集进行同义词和下位词的富集,实现HPO术语集的扩充。其中,OMAHA术语集可以采用最新版本的术语集,以其顶层类概念,对CHPO中文术语进行同义词、下位词富集,对应的富集规则包括:
1、将OMAHA上述两类概念的首选术语、待定首选术语、许用术语合并后形成OMAHA同义词表。
2、将OMAHA同义词表与CHPO词汇表进行字符串比较,当OMAHA同义词表的任一词条与CHPO词汇表词条完全匹配,则将该OMAHA概念下所有同义词加入CHPO概念作为HPO中文同义词。
3、需要纳入该OMAHA概念的下位词作为该HPO叶节点概念的下位词。其中,添加的同义词、下位词可以经由医生审核后再进行加入。
进一步地,基于富集的HPO术语库,应用逆向最大匹配法以及基于规则的各种算法,可以实现识别病例文本中的HPO术语。其中,基于规则的算法需要对文本中的术语进行否定性判断,以及术语是描述患者本人还是其家属的判断等。
进一步地,对于术语识别算法,可以包括:相似度计算算法,匹配算法等,本质上可以理解为基于预设的各种规则(比如逆向最大匹配,否定性判断,上下文关系,预设的同义词词表等)将待识别的文本与术语库中的术语进行匹配,若匹配成功,那么当前待识别的文本对应的匹配术语便为提取出的临床表型术语。
进一步地,对于临床表型术语各自对应的孤儿病,在前述实施例中提到过,病例文本中包含有患者的诊断结果,通过提取诊断结果项的具体文本信 息或者国际疾病分类编码,便能确定孤儿病。对于一份病例文本来说,其中提取出的各个临床表型术语对应的孤儿病便为该份病例文本的诊断结果中的孤儿病。比如:某个白化病(一种孤儿病)患者的病例文本中提取出所有临床表型术语,对应的孤儿病均为白化病。此外,可以理解,由于一种孤儿病可能由多种临床表型术语共同决定,进而同一个临床表型术语可能出现在不同的孤儿病患者的病例文本中,即同一个临床表型术语可能与不同的孤儿病都有对应关系。
进一步地,对于统计信息,在本申请实施例中可以包括:频数以及临床表型术语的频率指数(即频数和TF-IDF)信息。其中,频数又称次数,一个孤儿病下的临床表型术语的频数即为在相同的孤儿病患者的电子病历中出现的次数。TF-IDF可以表示临床表型术语对于孤儿病的重要程度,可以理解为一种权重参数。在得到次数信息后,可以基于TF-IDF的计算规则计算 TF-IDF值。
在一些实施例的一些可选的实现方式中,还包括表型术语匹配分析单元,表型术语处理单元和表型知识优化单元;
所述表型术语匹配分析单元,用于获取不存在匹配的标准表型术语的目标临床表型术语;计算所述目标临床表型术语在其所述对应的孤儿病中的出现频率,根据计算结果更新表型知识;
其中,更新的方式为:若所述出现频率大于或者等于预设频率,且所述目标临床表型术语属于所述标准表型术语中的上位概念,不存储所述目标临床表型术语;若所述出现频率大于或者等于预设频率,且所述目标临床表型术语属于所述标准表型术语的下位概念,将所述目标临床表型术语和其对应的统计信息存储到所述表型知识中。
其中,假设预设频率为10%,如果出现频率小于10%,则不纳入表型知识。
如果出现频率大于或者等于预设频率,且属于表型知识中已有表型术语的任一上位概念(例如“攻击行为”),该目标表型术语不纳入表型知识。因为,通常这类上位概念已经在表型知识中有对应的隐含注释。
如果出现频率大于或者等于预设频率,且属于表型知识中的已有表型术语的任一下位概念(例如“女性间的攻击行为”),该目标表型术语纳入表型知识中,因为,通常这类下位概念本身会包含更多的信息量。
如果出现频率大于或者等于预设频率,但是与表型知识中的已有表型术语没有上位概念或者下位概念的关系,则该目标表型术语不纳入表型知识。因为,这类表型术语大概率是合并症和并发症。
所述表型术语处理单元,用于针对不存在匹配的临床表型术语的标准表型术语,确定是否存在未进行匹配的临床表型术语;在确定不存在未进行匹配的临床表型术语时,从所述表型知识中删除所述不存在匹配的临床表型术语的标准表型术语;
其中,例如“哺乳期喂养困难”该术语,大概率不会出现在成人病历中。再比如:有一些术语,虽然搜集在知识库中,但并没有临床实践数据,大概率也不会出现在患者的病历中。可以理解,权威知识库其涵盖孤儿病发病患者其幼年期、青年期、中年期等变化。但针对住院人群时,其幼年期病史往往不会在现病史中进行描述,因此将权威知识库对应的“疾病表型”组合进行裁剪,可提高孤儿病匹配率,有现实意义。此时,该方法还包括:针对不存在匹配的临床表型术语的标准表型术语,确定是否存在未进行匹配的临床表型术语;在确定不存在未进行匹配的临床表型术语时,从表型知识中删除不存在匹配的临床表型术语的标准表型术语。
所述表型知识优化单元,将存在匹配的标准表型术语的临床表型术语对应的统计信息按照与所述匹配的标准表型术语的对应关系存储到所述表型知识中,完成表型知识优化。
其中,将多个临床表型术语与多个临床表型术语各自对应的孤儿病对应的多个标准表型术语进行比较。其中,在进行比较时,基于同一孤儿病,将标准表型术语和临床表型术语进行比较。比如:白化病和白化病对应的临床表型术语,则在比较时,先在表型知识中找到白化病对应的数据类,然后再将临床表型术语与白化病该数据类下的各个标准表型术语进行比较。
可以理解,在比较时,将各个临床表型术语依次与标准表型术语进行一一匹配,基于预设的匹配规则(与前述实施例中在进行术语提取时的匹配规则同理)去查找是否有匹配的标准表型术语,查找匹配的结果便为比较结果。对于各个临床表型术语比较结果,有2种不同的情况,包括:存在与临床表型术语匹配的标准表型术语和不存在与临床表型术语匹配的标准表型术语,对于不存在与临床表型术语匹配的标准表型术语已在前面的实施例中进行详细说明,对于存在与临床表型术语匹配的标准表型术语,通过存在着匹配的标准表型术语的临床表型术语对表型知识进行优化。例如:假设临床表型术语为:“白内障”,其对应的孤儿病为“苯丙酮尿症”,在表型知识中的“苯丙酮尿症”该类下,查找到“白内障”该术语。则,将“白内障”该术语对应的统计信息与表型知识中的“白内障”术语进行对应存储。在存储时,例如:之前的表型知识中通过数据表存储数据,原来的数据表中,在各个孤儿病下,仅包括表型术语名称和表型术语ID这两个数据项,现在为各个孤儿病都新增两个数据项,分别为频数和TF-IDF这两个信息的数据项。当然,如果有更多的统计信息,设置与各个统计信息对应的数据项。那么在存储时,将“白内障”该术语对应的频数和TF-IDF存储到“苯丙酮尿症”的“白内障”这一术语下的这两个数据项中,实现按照对应关系进行存储。 在本申请实施例中,在进行优化时,对于与临床表型术语匹配的标准表型术语,可以将与其匹配的临床表型术语对应的统计信息按照与匹配的标准表型术语的对应关系存储到表型知识中进行更新,实现匹配的标准表型术语的统计信息的添加,完成表型知识的优化,提高可应用性和实用性。
孤儿病智能辅助推理模块,用于根据优化后表型知识构建表型语义层级网络;根据孤儿病数据库构建表型特征网络并计算出表型共现关系和特异性,基于表型语义层级网络、表型共现关系和表型特征网络进行相似度计算,对表型特征进行相似度计算,得到初步的孤儿病推荐列表;基于表型语义层级网络、表型共现关系和初步的孤儿病推荐列表对表型进行优化,获得优化后的表型集合;利用可视化工具将表型语义层级网络、表型共现关系和表型特征网络转化为网络图,利用网络图展示推荐的孤儿病和优化后的表型集合,辅助医生对孤儿病进行推理。
其中,根据孤儿病数据库构建表型特征网络并计算出表型共现关系和特异性,具体为:利用孤儿病数据库中的疾病-表型关系计算了孤儿病范围内的表型共现关系和特异性。
表型共现关系是指两个表型是否会在同一疾病中同时出现,表型特异性是指在孤儿病范围内,该表型的出现频率,出现频率越低,特异性越强。
表型之间的共现关系分数是根据以下方式来计算的:
Figure 671608DEST_PATH_IMAGE001
其中
Figure 491796DEST_PATH_IMAGE002
Figure 313121DEST_PATH_IMAGE003
代表两种表型,D代表同时包含
Figure 724511DEST_PATH_IMAGE002
Figure 631287DEST_PATH_IMAGE003
两种表型的所有孤儿病,w(d ,
Figure 520746DEST_PATH_IMAGE002
)和w(d ,
Figure 459228DEST_PATH_IMAGE003
)分别代表在疾病d中表型
Figure 41519DEST_PATH_IMAGE002
Figure 435591DEST_PATH_IMAGE003
发生的频率,除此之外,表型的特异性可以通过表型与表型本身的共现关系分数来表示,其计算公式为:
Figure 128740DEST_PATH_IMAGE004
Figure 659079DEST_PATH_IMAGE005
代表孤儿病范围内最大的表型共现关系分数。
在一些实施例的一些可选的实现方式中,所述孤儿病智能辅助推理模块包括表型语义层级网络构建单元和表型特征网络构建单元;
所述表型语义层级网络构建单元,用于从表型本体知识库中提取的表型之间的语义关系将表型本体组织为网络;
其中,HPO术语之间通过“is_a”的语义关系进行连接,子术语比父术语具有更为精确症状定义,并且一个表型术语可以有多个父术语来反映多种语义类型。我们构建的表型语义层级网络就是基于表型本体知识库,利用从HPO中提取的“表型A→is_a→表型B”这种三元语义关系将表型本体术语组织为网络。构建表型语义层级网络的意义在于,当临床医生采集的表型不准确时,可以将不准确的表型在表型语义层级网络进行广度优先遍历,得到与其语义相近的表型集,在该表型集中极有可能存在相对准确的表型。
所述表型特征网络构建单元,用于基于孤儿病数据库中的表型关系注释构建表型特征网络,用于体现孤儿病与表型之间的关联、孤儿病之间的直接表型关联以及潜在表型关联。
其中,利用孤儿病数据库提供的孤儿病-表型关系注释,构建了孤儿病表型特征网络,并利用可视化的方式更加方便直观地探索孤儿病的表型特征,该网络中包含了多种三元组关系。“表型→belong_to→疾病”用于体现疾病与表型之间的关联,并且可以通过疾病-表型-疾病关系反映具有相同表型特征的疾病之间的直接表型关联,此外,将有限的表型语义层级网络整合进来,形成了类似“疾病A←belong_to←表型B←is_a←表型C→belong_to→疾病D”的关系,“有限”是指在一条疾病-表型-疾病关系中,整合进来的表型网络迭代层级不超过两层,这种组织方式可以在表型语义层面探索疾病之间的潜在的表型关联。
在一些实施例的一些可选的实现方式中,还包括相似度计算单元,用于采用表型集合之间的相似距离来衡量孤儿病在表型特征上的相似度;
其中,表型集合之间的相似距离包括计算的表型集合之间的最小加权二分分配,加权边的权重为表型间的相似距离,最终用最小加权边集合的权重均值衡量疾病相似度;所述的表型间的相似距离为表型在表型语义层级网络上的最近层级距离。
在一些实施例的一些可选的实现方式中,还包括表型集合优化单元,用于通过在表型语义层级网络上对采集的患者的表型进行两次广度遍历,根据遍历结果对表型集合进行优化。
其中,将遍历后得到与采集表型的语义相关的第一表型集合;将所述的第一表型集合与候选疾病的表型集合取交集,得到在候选疾病中出现的准确的第二表型集合;根据孤儿病的表型共现关系获得与所述的第一表型集合具有共现关系的第三表型集合;将所述的第三表型集合与候选疾病的表型集合取交集,获得推荐的第四表型集合;合并第二表型集合和第四表型集合,删除或替换与其他表型没有共现关系的表型,获得优化后的表型集合。
在一些实施例的一些可选的实现方式中,还包括网络视图展示界面,用于展示推荐的孤儿病和优化后的表型集合,辅助医生对孤儿病进行推理。
其中,将表型共现关系可视化为了一个网络视图,如图2所示,图中的各个节点为采集的一系列表型,表型之间的连线代表它们存在共现关系,连线上的数字为共现分数,分数越高,共现关系越强,孤立节点则代表该表型与其他表型没有共现关系。
探索表型共现关系的意义在于,对于临床医生观测到的一组病人表型,可以利用表型共现关系,指出在采集到的表型中,哪些表型倾向于在同一孤儿病中出现,哪些表型不会在同一孤儿病中出现,有哪些未采集的表型与已采集的表型有高共现关系。将网络视图整合进孤儿病鉴别诊断流程中,可以帮助医生直观地分析采集表型的共现关系,一定程度上解决采集表型不完整的问题。这种可视化的疾病表型特征对比分析方法可以帮助医生深入探索疾病之间表型特征关联,并直观地鉴别疾病之间的表型特征差异,辅助医生对孤儿病完成推理。
第二方面本申请提出了一种用于孤儿病的智能辅助推理方法,其特征在于:包括孤儿病数据库构建步骤、表型知识优化步骤和孤儿病智能辅助推理步骤;
如图3所示,所述孤儿病数据库构建步骤包括:
S100:获取孤儿病患者的病历文本;
S200:从所述病历文本中提取特征关键词;
S300:根据词类查找分析引擎对所述特征关键词进行搜索分析得到搜索特征,并统计孤儿病患者的确诊特征;
S400:比对所述确诊特征和搜索特征,得到孤儿病数据库;
如图4所示,所述表型知识优化步骤包括:
T100:从所述表型知识中提取临床表型术语、所述临床表型术语对应的孤儿病、表征所述临床表型术语对应的孤儿病和所述临床表型术语的关联程度信息;
T200:从孤儿病权威数据库中提取标准表型术语并将所述临床表型术语与所述临床表型术语各自对应的孤儿病对应的标准表型术语进行比较,得到比较结果;
T300:根据比较结果对所述表型知识进行优化,得到优化后表型知识;
如图5所示,所述孤儿病智能辅助推理步骤包括:
K100:根据优化后表型知识构建表型语义层级网络并根据孤儿病数据库构建表型特征网络;
K200:计算出表型共现关系和特异性;
K300:基于表型语义层级网络、表型共现关系和表型特征网络进行相似度计算,对表型特征进行相似度计算,得到初步的孤儿病推荐列表;
K400:基于表型语义层级网络、表型共现关系和初步的孤儿病推荐列表对表型进行优化,获得优化后的表型集合;
K500:利用可视化工具将表型语义层级网络、表型共现关系和表型特征网络转化为网络视图,利用网络视图展示推荐的孤儿病和优化后的表型集合,辅助医生对孤儿病进行推理。
本公开实施例的第三方面,提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述方法的步骤。
本公开实施例的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述方法的步骤。
以上仅是本发明优选的实施方式,需指出的是,对于本领域技术人员在不脱离本技术方案的前提下,作出的若干变形和改进的技术方案应同样视为落入本权利要求书要求保护的范围。

Claims (10)

1.一种用于孤儿病的智能辅助推理系统,其特征在于:包括:
孤儿病数据库构建模块,用于存储临床遗传专科医生所使用的终端在医疗系统中上传的孤儿病患者的病历文本,从所述病历文本中提取特征关键词;根据词类查找分析引擎对所述特征关键词进行搜索分析,得到搜索特征,统计孤儿病患者的确诊特征,比对所述确诊特征和搜索特征,得到孤儿病数据库,所述孤儿病数据库包括表型知识;
表型知识优化模块,用于从所述表型知识中提取临床表型术语、所述临床表型术语对应的孤儿病、表征所述临床表型术语对应的孤儿病和所述临床表型术语的关联程度信息,从孤儿病权威数据库中提取标准表型术语并将所述临床表型术语与所述临床表型术语各自对应的孤儿病对应的标准表型术语进行比较,根据比较结果对所述表型知识进行优化,得到优化后表型知识;
孤儿病智能辅助推理模块,用于根据优化后表型知识构建表型语义层级网络;根据孤儿病数据库构建表型特征网络并计算出表型共现关系和特异性,基于表型语义层级网络、表型共现关系和表型特征网络进行相似度计算,对表型特征进行相似度计算,得到初步的孤儿病推荐列表;基于表型语义层级网络、表型共现关系和初步的孤儿病推荐列表对表型进行优化,获得优化后的表型集合;利用可视化工具将表型语义层级网络、表型共现关系和表型特征网络转化为网络图,利用网络图展示推荐的孤儿病和优化后的表型集合,辅助医生对孤儿病进行推理。
2.根据权利要求1所述的系统,其特征在于:所述孤儿病数据库构建模块,包括特征关键词提取单元和神经网络模型训练单元;
所述特征关键词提取单元,用于根据病历文本中的诊断结论生成病例视图,并对其进行逐一分析,病例信息中对于同一种诊断可能会出现不同的描述,利用正则表达式将该描述出现的标点符号去除,然后进行分词处理,将分词后的词汇均输入到预先训练好的神经网络模型中,输出特征关键词;
所述神经网络模型训练单元,用于构建训练集,所述训练集为若干个已知特征关键词对应的诊断记录;对训练集进行预处理后得到无向加权图的最终向量表示,将无向加权图的最终向量表示,输入到神经网络模型中,将已知特征关键词作为神经网络模型的标签,对神经网络模型进行训练,当神经网络模型的损失函数达到最小值时,停止训练,得到训练好的神经网络模型。
3.根据权利要求2所述的系统,其特征在于:还包括时空特征分析单元、相关性特征对比单元和融合单元;
所述时空特征分析单元,用于针对不同孤儿病,分析患者的确诊特征和搜索特征的分布时空特点;
所述相关性特征对比单元,用于比较得出患者的确诊特征和搜索特征的相关性特征;
所述融合单元,用于将患者的确诊特征和搜索特征进行对比融合,构建孤儿病数据库。
4.根据权利要求3所述的系统,其特征在于:所述表型知识优化模块包括:孤儿病权威数据库构建单元和表型知识内容信息提取单元;
所述孤儿病权威数据库构建单元,用于获取已有的遗传病知识库和孤儿病知识库;从所述遗传病知识库和所述孤儿病知识库中分别提取出多种已知孤儿病和所述多种已知孤儿病对应的已知表型术语;基于多种已知孤儿病和所述多种已知孤儿病对应的已知表型术语构建所述孤儿病权威知识库;
所述表型知识内容信息提取单元,用于基于现有术语库从所述表型知识中提取出所述临床表型术语;根据病历文本中的患者诊断结果确定所述临床表型术语各自对应的孤儿病;统计各个孤儿病下的临床表型术语的频数以及临床表型术语的频率指数,得到所述统计信息。
5.根据权利要求4所述的系统,其特征在于:还包括表型术语匹配分析单元,表型术语处理单元和表型知识优化单元;
所述表型术语匹配分析单元,用于获取不存在匹配的标准表型术语的目标临床表型术语;计算所述目标临床表型术语在其所述对应的孤儿病中的出现频率,根据计算结果更新表型知识;
所述表型术语处理单元,用于针对不存在匹配的临床表型术语的标准表型术语,确定是否存在未进行匹配的临床表型术语;在确定不存在未进行匹配的临床表型术语时,从所述表型知识中删除所述不存在匹配的临床表型术语的标准表型术语;
所述表型知识优化单元,将存在匹配的标准表型术语的临床表型术语对应的统计信息按照与所述匹配的标准表型术语的对应关系存储到所述表型知识中,完成表型知识优化。
6.根据权利要求5所述的系统,其特征在于:所述孤儿病智能辅助推理模块包括表型语义层级网络构建单元和表型特征网络构建单元;
所述表型语义层级网络构建单元,用于从表型本体知识库中提取的表型之间的语义关系将表型本体组织为网络;
所述表型特征网络构建单元,用于基于孤儿病数据库中的表型关系注释构建表型特征网络,用于体现孤儿病与表型之间的关联、孤儿病之间的直接表型关联以及潜在表型关联。
7.根据权利要求6所述的系统,其特征在于:还包括相似度计算单元,用于采用表型集合之间的相似距离来衡量孤儿病在表型特征上的相似度。
8.根据权利要求7所述的系统,其特征在于:还包括表型集合优化单元,用于通过在表型语义层级网络上对采集的患者的表型进行两次广度遍历,根据遍历结果对表型集合进行优化。
9.根据权利要求8所述的系统,其特征在于:还包括网络视图展示界面,用于展示推荐的孤儿病和优化后的表型集合,辅助医生对孤儿病进行推理。
10.一种用于孤儿病的智能辅助推理方法,其特征在于:包括孤儿病数据库构建步骤、表型知识优化步骤和孤儿病智能辅助推理步骤;
所述孤儿病数据库构建步骤包括:
获取孤儿病患者的病历文本;
从所述病历文本中提取特征关键词;
根据词类查找分析引擎对所述特征关键词进行搜索分析得到搜索特征,并统计孤儿病患者的确诊特征;
比对所述确诊特征和搜索特征,得到孤儿病数据库;
所述表型知识优化步骤包括:
从所述表型知识中提取临床表型术语、所述临床表型术语对应的孤儿病、表征所述临床表型术语对应的孤儿病和所述临床表型术语的关联程度信息;
从孤儿病权威数据库中提取标准表型术语并将所述临床表型术语与所述临床表型术语各自对应的孤儿病对应的标准表型术语进行比较,得到比较结果;
根据比较结果对所述表型知识进行优化,得到优化后表型知识;
所述孤儿病智能辅助推理步骤包括:
根据优化后表型知识构建表型语义层级网络并根据孤儿病数据库构建表型特征网络;
计算出表型共现关系和特异性;
基于表型语义层级网络、表型共现关系和表型特征网络进行相似度计算,对表型特征进行相似度计算,得到初步的孤儿病推荐列表;
基于表型语义层级网络、表型共现关系和初步的孤儿病推荐列表对表型进行优化,获得优化后的表型集合;
利用可视化工具将表型语义层级网络、表型共现关系和表型特征网络转化为网络视图,利用网络视图展示推荐的孤儿病和优化后的表型集合,辅助医生对孤儿病进行推理。
CN202310024844.9A 2023-01-09 2023-01-09 一种用于孤儿病的智能辅助推理系统及方法 Pending CN115798733A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310024844.9A CN115798733A (zh) 2023-01-09 2023-01-09 一种用于孤儿病的智能辅助推理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310024844.9A CN115798733A (zh) 2023-01-09 2023-01-09 一种用于孤儿病的智能辅助推理系统及方法

Publications (1)

Publication Number Publication Date
CN115798733A true CN115798733A (zh) 2023-03-14

Family

ID=85428771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310024844.9A Pending CN115798733A (zh) 2023-01-09 2023-01-09 一种用于孤儿病的智能辅助推理系统及方法

Country Status (1)

Country Link
CN (1) CN115798733A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116564539A (zh) * 2023-07-10 2023-08-08 神州医疗科技股份有限公司 基于信息抽取和实体归一的医学相似病例推荐方法和系统
CN116562266A (zh) * 2023-07-10 2023-08-08 中国医学科学院北京协和医院 文本分析方法、计算机设备及计算机可读存储介质
CN117727467A (zh) * 2024-02-07 2024-03-19 吉林大学 基于大数据的护理临床决策支持系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107785075A (zh) * 2017-11-01 2018-03-09 杭州依图医疗技术有限公司 基于文本病历的小儿发热疾病深度学习辅助诊断系统
CN112364174A (zh) * 2020-10-21 2021-02-12 山东大学 基于知识图谱的病人病历相似度评估方法及系统
CN112687397A (zh) * 2020-12-31 2021-04-20 四川大学华西医院 罕见病知识库的处理方法及装置、可读存储介质
WO2021169203A1 (zh) * 2020-02-27 2021-09-02 国家卫生健康委科学技术研究所 基于多层级结构相似度的单基因病名称推荐方法和系统
CN113889265A (zh) * 2021-10-15 2022-01-04 浙江大学 一种基于表型可视化的罕见病辅助推理的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107785075A (zh) * 2017-11-01 2018-03-09 杭州依图医疗技术有限公司 基于文本病历的小儿发热疾病深度学习辅助诊断系统
WO2021169203A1 (zh) * 2020-02-27 2021-09-02 国家卫生健康委科学技术研究所 基于多层级结构相似度的单基因病名称推荐方法和系统
CN112364174A (zh) * 2020-10-21 2021-02-12 山东大学 基于知识图谱的病人病历相似度评估方法及系统
CN112687397A (zh) * 2020-12-31 2021-04-20 四川大学华西医院 罕见病知识库的处理方法及装置、可读存储介质
CN113889265A (zh) * 2021-10-15 2022-01-04 浙江大学 一种基于表型可视化的罕见病辅助推理的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姜召芸;卢宇蓝;余乐;弓孟春;史文钊;张抒扬;周文浩;: "医学信息学在罕见病诊疗中的研究进展及应用" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116564539A (zh) * 2023-07-10 2023-08-08 神州医疗科技股份有限公司 基于信息抽取和实体归一的医学相似病例推荐方法和系统
CN116562266A (zh) * 2023-07-10 2023-08-08 中国医学科学院北京协和医院 文本分析方法、计算机设备及计算机可读存储介质
CN116562266B (zh) * 2023-07-10 2023-09-15 中国医学科学院北京协和医院 文本分析方法、计算机设备及计算机可读存储介质
CN116564539B (zh) * 2023-07-10 2023-10-24 神州医疗科技股份有限公司 基于信息抽取和实体归一的医学相似病例推荐方法和系统
CN117727467A (zh) * 2024-02-07 2024-03-19 吉林大学 基于大数据的护理临床决策支持系统及方法

Similar Documents

Publication Publication Date Title
CN109299239B (zh) 一种基于es的电子病历检索方法
CN112786194A (zh) 基于人工智能的医学影像导诊导检系统、方法及设备
CN111292848B (zh) 一种基于贝叶斯估计的医疗知识图谱辅助推理方法
CN115798733A (zh) 一种用于孤儿病的智能辅助推理系统及方法
US9460391B2 (en) Methods and systems for knowledge discovery
CN110413734B (zh) 一种医疗服务的智能搜索系统及方法
CN111191048B (zh) 基于知识图谱的急诊问答系统构建方法
CN112687397B (zh) 罕见病知识库的处理方法及装置、可读存储介质
CN111813957A (zh) 基于知识图谱的医疗导诊方法和可读存储介质
CN110675944A (zh) 分诊方法及装置、计算机设备及介质
CN111768869B (zh) 面向智能问答系统的医学指南图谱化构建搜索系统及方法
CN111465990B (zh) 用于医疗保健临床试验的方法和系统
CN113282689B (zh) 基于领域知识图谱的检索方法、装置
CN113764112A (zh) 一种在线医疗问答方法
CN113569023A (zh) 一种基于知识图谱的中文医药问答系统及方法
CN113889265A (zh) 一种基于表型可视化的罕见病辅助推理的方法及系统
US20140089246A1 (en) Methods and systems for knowledge discovery
US20240013931A1 (en) Method for constructing variation literature interpretation knowledge base, and interpretation method and electronic device
CN116340544B (zh) 一种基于知识图谱的中医药古籍可视分析方法与系统
Habert et al. Contextual acquisition of information categories
CN112149411A (zh) 一种抗生素临床使用领域本体构建方法
CN115186112B (zh) 一种基于辨证映射规则的医药数据检索方法及装置
Juckett et al. Concept detection using text exemplars aligned with a specialized ontology
Liu et al. Knowledge graph building from real-world multisource “dirty” clinical electronic medical records for intelligent consultation applications
CN113868387A (zh) 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20230314