CN110085307A - 一种基于多源知识图谱融合的智能导诊方法和系统 - Google Patents

一种基于多源知识图谱融合的智能导诊方法和系统 Download PDF

Info

Publication number
CN110085307A
CN110085307A CN201910271117.6A CN201910271117A CN110085307A CN 110085307 A CN110085307 A CN 110085307A CN 201910271117 A CN201910271117 A CN 201910271117A CN 110085307 A CN110085307 A CN 110085307A
Authority
CN
China
Prior art keywords
disease
symptom
department
weight
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910271117.6A
Other languages
English (en)
Other versions
CN110085307B (zh
Inventor
叶琪
何萍
刘道文
魏明月
姚华彦
薛魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI SHENKANG HOSPITAL DEVELOPMENT CENTER
East China University of Science and Technology
Original Assignee
SHANGHAI SHENKANG HOSPITAL DEVELOPMENT CENTER
East China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI SHENKANG HOSPITAL DEVELOPMENT CENTER, East China University of Science and Technology filed Critical SHANGHAI SHENKANG HOSPITAL DEVELOPMENT CENTER
Priority to CN201910271117.6A priority Critical patent/CN110085307B/zh
Publication of CN110085307A publication Critical patent/CN110085307A/zh
Application granted granted Critical
Publication of CN110085307B publication Critical patent/CN110085307B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明属于计算机应用领域,公开了一种基于知识图谱的智能导诊方法,该方法解决患者的精确导诊的问题。该方法包括:构建症状‑疾病‑科室知识图谱;采集用户症状描述信息、性别和年龄段信息;通过实体识别及症状标准化过程识别用户症状描述信息中的症状集、患者预判疾病集;将用户的症状集通过改进的TF‑IDF算法计算得到用户可能患有的疾病集和每种疾病的权重;利用用户可能患有的疾病集、每种疾病的权重和症状‑疾病‑科室知识图谱,通过融合疾病权重及疾病‑科室关联度的计算得到推荐的科室的权重;根据科室权重的排名,确定推荐的科室。

Description

一种基于多源知识图谱融合的智能导诊方法和系统
技术领域
本发明属于医疗信息处理领域,更为具体地,尤其涉及一种基于多源知识图谱融合的智能导诊的方法。
背景技术
病人去医院看病之前,往往不清楚自己应该挂哪个科室。通常会通过网络搜索与自身疾病相关的医院和科室来获得就诊的相关信息。然而由于各个医院的科室设置不相同并且网络中信息的不可靠,可能会导致患者选择了错误的医院及科室,甚至会成为虚假医疗广告的受害者。因此,从患者的角度来说,他们需要精准高效的导诊服务,这样不仅可以减少挂错号现象,节省了病人就诊时间,同时也缓解了医务人员工作压力和促进了医疗资源的合理配置。
现有导诊的方法包括以下几类:(1)人工在线咨询,患者通过在线论坛、聊天工具、电话交流等方式进行咨询,获得就诊建议。该方法得到的就诊建议具有很强的主观性,受被咨询人员专业水平的影响较大;(2)基于关键词选择的智能导诊系统,例如,在《医学信息学杂志》2018年第8期的论文《医院智能导诊系统设计与实现》中用户选择性别、年龄与患者部位和症状,利用基于关键词匹配的方式给出了就医指导。
现有技术中无法解决如下问题:(1)患者的主诉可能是一段病情陈述,如何从陈述中有效识别症状信息或用户预判的疾病信息;(2)如何选择最适合的医院及优势科室。虽然在现有技术中《信息系统工程》2017年的论文《基于自然语言理解的智能导诊系统设计》中采用基于自然语言理解的方式实现智能导诊。但该方法仅基于医学文献库,没有使用临床医疗数据,因此选择的科室与真实情况不一致,无法获取最适合的医院及优势科室。
发明内容
有鉴于此,本发明公开了一种基于多源知识图谱融合的智能导诊方法和系统。其具体方案如下:
构建症状-疾病-科室知识图谱;
采集用户症状描述信息、性别和年龄段信息;
通过实体识别及症状标准化过程识别用户症状描述信息中的症状集、患者预判疾病集;
将用户的症状集通过改进的TF-IDF算法计算得到用户可能患有的疾病集和每种疾病的权重;
利用用户可能患有的疾病集、每种疾病的权重和症状-疾病-科室知识图谱,通过融合疾病权重及疾病-科室关联度的计算得到推荐的科室的权重;
根据科室权重的排名,确定推荐的科室。
在其中的一实施例,构建症状-疾病-科室知识图谱的过程具体包括:定义疾病-症状-科室知识图谱的模式图,所述模式图包括疾病、症状、科室概念,疾病-症状、疾病-科室、疾病-疾病的关系;在预定的医疗百科网站抽取模式图中的疾病、症状概念相关的疾病词和症状词,将疾病词、症状词作为知识图谱的节点,然后利用疾病节点通过预定的医疗百科网站出现的症状关联词建立与疾病关键词之间“疾病-症状”关系,根据出现的疾病同义词建立“疾病-疾病”的同义关系;利用疾病名成分词典将临床医疗数据平台中的疾病名称进行标准化;在预定的临床医疗数据平台中抽取模式图中的疾病和科室概念,将疾病词、科室词作为知识图谱的节点,根据临床医疗数据中疾病对应的科室建立“疾病-科室”的关系。
改进的TF-IDF算法具体包括:获取任意疾病(d)与症状(s)在百度中联合搜索贡献度ns_d和疾病d在百度中的搜索贡献度nd
计算疾病d和症状s关联出现的概率probs_d,其公式为:
取出所述用户症状集S={s1,s2,...si,...,sn}中的每个症状si,搜索症状si在所述疾病-症状-科室知识图谱中映射的疾病,得到症状si对应的疾病集合并每个Di得到用户可能患有的疾病集
计算Di中每一种疾病的权重其公式为:
其中,疾病在所述疾病-症状-科室知识图谱中映射的症状集记为症状si在Di中疾病总数记为用户症状集对应的疾病总数为
将用户的症状集通过改进的TF-IDF算法计算得到用户可能患有的疾病集和每种疾病的权重步骤后增加疾病集和患者预判的疾病进行疾病权重融合过程,具体为:
若D中含有患者预判疾病dp,则增加查询项中该疾病dp的权重,计算方法为:
为患者预判疾病在疾病集中对应的权重值,n为患者预判疾病在疾病集中按权重排序得到的名次;
若D中不含有患者预判疾病,将患者预判疾病dp加入疾病集,并取所有疾病权重的平均值作为该预判疾病的权重,
通过融合疾病权重和疾病-科室的关联度的计算得到推荐的科室,具体包括:
根据临床医疗数据中疾病在科室中出现的频率,得到疾病到科室的边的关联系数Wij(di,Dpj);
对科室进行评分得出了一组带有权重的科室列表Dp={Dp1:W(Dp1),Dp2:W(Dp2),...,Dpn:W(Dpn)},其中,W(di)为疾病di的权重;
删除科室列表中与患者性别、年龄段无关的科室;
根据W(Dpi)值进行排序得到科室权重的排名。
所述通过实体识别及症状标准化过程识别用户症状描述信息中的症状集、预判的疾病集的过程,具体包括:
构建症状词成分词典和疾病词成分词典;
利用基于双向最大字符匹配的实体识别方法识别用户症状描述信息中的症状和患者预判疾病;
利用症状词成分词典将未识别出的不标准症状名称映射到标准症状;
将标准症状词和疾病词通过实体对齐到症状-疾病-科室知识图谱的对应的症状和疾病节点。
所述构建症状词成分词典和疾病成分词典的过程,具体为:
设定症状和疾病的成分,其中,疾病的3种成分为:原子疾病词、修饰词、部位词,症状的成分为:原子症状、部位词和修饰词;
根据设定的成分,利用临床医疗数据构建症状和疾病成分词典。
依据本发明的另一个方面,提供了一种基于多源知识图谱融合的智能导诊系统,其特征在于,所述系统包括:
采集模块,采集用户症状描述信息、性别和年龄段;
知识图谱模块,存储所构建的症状-疾病-科室知识图谱;
实体识别及症状标准化模块,将采集模块中采集的用户症状信息进行识别,得到用户症状描述信息中的症状集、预判的疾病集;
疾病集和权重管理模块,利用存储的症状-疾病-科室知识图谱的映射关系,将实体识别及症状标准化模块中得到的用户症状描述信息中的症状集、预判的疾病集,根据改进的TF-IDF算法计算得到患者可能患有的疾病集和疾病的权重;
科室推荐模块,将疾病集和权重管理模块得到的用户可能患有的疾病集和疾病的权重通过融合疾病权重及疾病-科室的关联度的计算得到推荐的科室。
在其中的一实施例,所述的实体识别及症状标准化模块,具体包括:
成分词典模块,存储所构建的症状词成分词典和疾病词成分词典;
实体识别模块,识别利用基于双向最大字符匹配的实体识别方法识别用户症状描述信息中的症状和患者预判疾病;
标准化模块,利用症状词成分词典将症状映射到标准症状;
映射模块,将标准症状词和疾病词通过实体对齐到症状-疾病-科室知识图谱的对应的症状和疾病节点,首先采用基于多元字符串相似算法的实体链接算法生成实体候选集,然后通过协作排序算法对候选实体集排序,按实体排序的结果将文本中的实体映射到知识库中最相似的实体上。
在其中的一实施例,科室推荐模块,具体包括:
计算模块,根据临床医疗数据中疾病在科室中出现的频率,得到疾病到科室的关联系数Wij(di,Dpj);
评分模块,将计算模块计算的疾病到科室的关联系数代入公式计算科室的评分,得出了一组带有权重的科室列表Dp={Dp1:W(Dp1),Dp2:W(Dp2),...,Dpn:W(Dpn)},其中,W(di)为疾病di的权重;
推荐模块,根据评分模块得到的科室列表,首先删除科室列表中与患者性别、年龄段无关的科室,然后根据科室的权重值排名给出推荐的科室。
相比于现有技术,本发明的基于多源知识图谱融合的智能导诊方法和系统解决了区域平台电子健康档案(electronic health records,HER)数据中疾病名和科室名多种表示方法和HER数据与医学数据融合的问题。
根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得清楚。
附图说明
读者在参照附图阅读了本发明的具体实施方式以后,将会更清楚地了解本发明的各个方面。其中,
图1示出依据本发明的一实施方式,基于多源知识图谱融合的智能导诊方法的流程图;
图2示出依据本发明的一实施方式,基于多源知识图谱融合的智能导诊系统的结构框图。
具体实施方式
参照图1,在该实施方式中,本发明的基于多源知识图谱融合的智能导诊方法透过以下步骤予以实现。
S110,构建症状-疾病-科室知识图谱;
S120,采集用户症状描述信息、性别和年龄段信息;
S130,通过实体识别及症状标准化过程识别用户症状描述信息中的症状集、患者预判疾病集;
S140,将用户的症状集通过改进的TF-IDF算法计算得到用户可能患有的疾病集和每种疾病的权重;
S150,利用用户可能患有的疾病集、每种疾病的权重和症状-疾病-科室知识图谱,通过融合疾病权重及疾病-科室关联度的计算得到推荐的科室的权重;
S160,根据科室权重的排名,确定推荐的科室。
在其中的一实施例,S110构建症状-疾病-科室知识图谱的过程具体包括:定义疾病-症状-科室知识图谱的模式图,所述模式图包括疾病、症状、科室概念,疾病-症状、疾病-科室、疾病-疾病的关系;在预定的医疗百科网站抽取模式图中的疾病、症状概念相关的疾病词和症状词,将疾病词、症状词作为知识图谱的节点,然后利用疾病节点通过预定的医疗百科网站出现的症状关联词建立与疾病关键词之间“疾病-症状”关系,根据出现的疾病同义词建立“疾病-疾病”的同义关系;利用疾病名成分词典将临床医疗数据平台中的疾病名称进行标准化;在预定的临床医疗数据平台中抽取模式图中的疾病和科室概念,将疾病词、科室词作为知识图谱的节点,根据临床医疗数据中疾病对应的科室建立“疾病-科室”的关系。
症状-疾病知识库的构建采用了自顶向下的策略,以8个医疗垂直网站和3个最大的中文百科站点为数据基础,依次经过了模式图定义、知识抽取、知识融合的构建过程。前期对知识图谱进行模式图的定义,定义知识图谱中的实体已经实体间的关系。然后以模式图为基础,对医疗百科网站中的内容进行知识抽取,抽取网站中的症状、疾病词等实体,并且构建实体间的“疾病-症状”和疾病同义词关系。
其中,疾病节点的属性包括性别和年龄段,例如“子宫内膜炎”的性别属性为“女”,“小儿感冒”的年龄属性为“儿童”。“疾病-症状”关系通过由百度贡献指数作为该症状是某个疾病引起的概率,用以计算不同症状对疾病的关联度。
疾病-科室知识库利用了与临床实际应用密切相关的区域平台EHR数据,并基于EHR中疾病名构建了疾病成分词典,依据症状-疾病知识库和疾病成分词典,通过数据清洗工作,对疾病名称进行标准化。以标准化的疾病名称作为知识图谱中的疾病节点,以对应的科室名称作为科室节点,并在其中连接“疾病-科室”关系。
区域平台EHR数据中每条记录包括某疾病挂号该科室的次数,以此次数作为权重附在对应的“疾病-科室”关系中,以在智能导诊算法中进行权重计算。其中科室节点的属性包括性别和年龄段,例如“妇产科”、“儿科”等,该属性的目的为了筛选和融合患者的性别、年龄信息。
症状-疾病-科室知识图谱是基于症状-疾病知识图谱和疾病-科室知识图谱,通过实体对齐以及对疾病词进行上下位及同义词关系识别技术对两个知识图谱进行融合得到的。基于症状-疾病-科室知识图谱,能识别出患者主诉中的症状和疾病词,进而通过智能导诊算法获得患者应该挂号的医院及科室。
S120步骤,所述通过实体识别及症状标准化过程识别用户症状描述信息中的症状集、预判的疾病集的过程,具体包括:
构建症状词成分词典和疾病词成分词典;
利用基于双向最大字符匹配的实体识别方法识别用户症状描述信息中的症状和患者预判疾病;
利用症状词成分词典将未识别出的不标准症状名称映射到标准症状;
将标准症状词和疾病词通过实体对齐到症状-疾病-科室知识图谱的对应的症状和疾病节点。
其中,所述构建症状词成分词典和疾病成分词典的过程,具体为:
设定症状和疾病的成分,其中,疾病的3种成分为:原子疾病词、修饰词、部位词,症状的成分为:原子症状、部位词和修饰词;
根据设定的成分,利用临床医疗数据构建症状和疾病成分词典。疾病名通常由3种成分组成:原子疾病词、修饰词、部位词。它们的定义和范围分别为:
原子疾病词:它是一个疾病名的一部分,但不可分成更细粒度的词语。如:糖尿病。
修饰词:疾病名中表示严重程度、性质、发病时期等修饰性词语。例如,“妊娠期”是“妊娠期高血压”的修饰词,“急性”是“急性肠胃炎”的修饰词。
部位词:疾病名中表示疾病所在部位的词语。如:“胃”是“胃溃疡”的部位词。
根据疾病构成成分,构建了一组疾病成分词典,词典示例如表1所示。
表1疾病成分词典
基于疾病成分词典,对EHR数据中不标准的疾病名称进行标准化,并且可以为上下位关系的识别提供依据。
在其中的一实施例,S140步骤中改进的TF-IDF算法具体包括:获取任意疾病(d)与症状(s)在百度中联合搜索贡献度ns_d和疾病d在百度中的搜索贡献度nd
计算疾病d和症状s关联出现的概率probs_d,其公式为:
取出所述用户症状集S={s1,s2,...si,...,sn}中的每个症状si,搜索症状si在所述疾病-症状-科室知识图谱中映射的疾病,得到症状si对应的疾病集合并每个Di得到用户可能患有的疾病集
计算Di中每一种疾病的权重其公式为:
其中,疾病在所述疾病-症状-科室知识图谱中映射的症状集记为症状si在Di中疾病总数记为用户症状集对应的疾病总数为
其中,将用户的症状集通过改进的TF-IDF算法计算得到用户可能患有的疾病集和每种疾病的权重步骤后增加疾病集和患者预判的疾病进行疾病权重融合过程,具体为:
若D中含有患者预判疾病dp,则增加查询项中该疾病dp的权重,计算方法为:
为患者预判疾病在疾病集中对应的权重值,n为患者预判疾病在疾病集中按权重排序得到的名次;
若D中不含有患者预判疾病,将患者预判疾病dp加入疾病集,并取所有疾病权重的平均值作为该预判疾病的权重,
在其中的一实施例,步骤S150,通过融合疾病权重和疾病-科室的关联度的计算得到推荐的科室,具体包括:
根据临床医疗数据中疾病在科室中出现的频率,得到疾病到科室的边的关联系数Wij(di,Dpj);
对科室进行评分得出了一组带有权重的科室列表Dp={Dp1:W(Dp1),Dp2:W(Dp2),...,Dpn:W(Dpn)},其中,W(di)为疾病di的权重;
删除科室列表中与患者性别、年龄段无关的科室;
根据W(Dpi)值进行排序得到科室权重的排名。
参照图2,在该实施方式中,提供了一种基于多源知识图谱融合的智能导诊系统,其特征在于,所述系统包括:
采集模块,采集用户症状描述信息、性别和年龄段;
知识图谱模块,存储所构建的症状-疾病-科室知识图谱;
实体识别及症状标准化模块,将采集模块中采集的用户症状信息进行识别,得到用户症状描述信息中的症状集、预判的疾病集:
疾病集和权重管理模块,利用存储的症状-疾病-科室知识图谱的映射关系,将实体识别及症状标准化模块中得到的用户症状描述信息中的症状集、预判的疾病集,根据改进的TF-IDF算法计算得到患者可能患有的疾病集和疾病的权重;
科室推荐模块,将疾病集和权重管理模块得到的用户可能患有的疾病集和疾病的权重通过融合疾病权重及疾病-科室的关联度的计算得到推荐的科室。
在其中的一实施例,所述的实体识别及症状标准化模块,具体包括:
成分词典模块,存储所构建的症状词成分词典和疾病词成分词典;
实体识别模块,识别利用基于双向最大字符匹配的实体识别方法识别用户症状描述信息中的症状和患者预判疾病;
标准化模块,利用症状词成分词典将症状映射到标准症状;
映射模块,将标准症状词和疾病词通过实体对齐到症状-疾病-科室知识图谱的对应的症状和疾病节点,首先采用基于多元字符串相似算法的实体链接算法生成实体候选集,然后通过协作排序算法对候选实体集排序,按实体排序的结果将文本中的实体映射到知识库中最相似的实体上。
在其中的一实施例,科室推荐模块,具体包括:
计算模块,根据临床医疗数据中疾病在科室中出现的频率,得到疾病到科室的关联系数Wij(di,Dpj);
评分模块,将计算模块计算的疾病到科室的关联系数代入公式计算科室的评分,得出了一组带有权重的科室列表Dp={Dp1:W(Dp1),Dp2:W(Dp2),...,Dpn:W(Dpn)},其中,W(di)为疾病di的权重;
推荐模块,根据评分模块得到的科室列表,首先删除科室列表中与患者性别、年龄段无关的科室,然后根据科室的权重值排名给出推荐的科室。
通过实验可以看出,实验结果表明本方法构建了健壮的症状-疾病-科室知识图谱,为智能导诊算法提供了数据支撑。基于此知识图谱,对网上患者真实问诊进行科室预测,在专业医生的标注结果下,如表2所示,准确率达到了0.81。
知识图谱的健壮性性方面,如表3所示,由疾病上下位及同义关系识别可以看出,疾病的上下位关系的F1值达到了0.983,疾病同义关系F1达到了0.986。
表3疾病关系识别情况
上文中,参照附图描述了本发明的具体实施方式。但是,本领域中的普通技术人员能够理解,在不偏离本发明的精神和范围的情况下,还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。

Claims (10)

1.一种基于多源知识图谱融合的智能导诊方法,其特征在于,所述方法包括以下步骤:
构建症状-疾病-科室知识图谱;
采集用户症状描述信息、性别和年龄段信息;
通过实体识别及症状标准化过程识别用户症状描述信息中的症状集、患者预判疾病集;
将用户的症状集通过改进的TF-IDF算法计算得到用户可能患有的疾病集和每种疾病的权重;
利用用户可能患有的疾病集、每种疾病的权重和症状-疾病-科室知识图谱,通过融合疾病权重及疾病-科室关联度的计算得到推荐的科室的权重;
根据科室权重的排名,确定推荐的科室。
2.如权利要求1所述的方法,其特征在于,所述构建症状-疾病-科室知识图谱,具体包括:
定义症状-疾病-科室知识图谱的模式图,所述模式图包括疾病、症状、科室概念,疾病-症状、疾病-科室、疾病-疾病的关系;
在预定的医疗百科网站抽取模式图中的疾病、症状概念相关的疾病词和症状词,将疾病词、症状词作为知识图谱的节点,然后利用疾病节点通过预定的医疗百科网站出现的症状关联词建立与疾病关键词之间“疾病-症状”关系,根据出现的疾病同义词建立“疾病-疾病”的同义关系;
利用疾病名成分词典将临床医疗数据平台中的疾病名称进行标准化;
在预定的临床医疗数据平台中抽取模式图中的疾病和科室概念,将疾病词、科室词作为知识图谱的节点,根据临床医疗数据中疾病对应的科室建立“疾病-科室”的关系。
3.如权利要求1所述的方法,其特征在于,所述改进的TF-IDF算法具体包括:
获取任意疾病(d)与症状(s)在百度中联合搜索贡献度ns-d和疾病d在百度中的搜索贡献度nd
计算疾病d和症状s关联出现的概率probs-d,其公式为:
取出所述用户症状集S={s1,s2,...si,...,sn}中的每个症状si,搜索症状si在所述疾病-症状-科室知识图谱中映射的疾病,得到症状si对应的疾病集合并每个Di得到用户可能患有的疾病集
计算Di中每一种疾病的权重其公式为:
其中,疾病在所述疾病-症状-科室知识图谱中映射的症状集记为症状si在Di中疾病总数记为用户症状集对应的疾病总数为
4.如权利要求3所述的方法,其特征在于,将用户的症状集通过改进的TF-IDF算法计算得到用户可能患有的疾病集和每种疾病的权重步骤后增加疾病集和患者预判的疾病进行疾病权重融合过程,具体为:
若D中含有患者预判疾病dp,则增加查询项中该疾病dp的权重,计算方法为:
为患者预判疾病在疾病集中对应的权重值,n为患者预判疾病在疾病集中按权重排序得到的名次;
若D中不含有患者预判疾病,将患者预判疾病dp加入疾病集,并取所有疾病权重的平均值作为该预判疾病的权重,
5.如权利要求1所述的方法,其特征在于,通过融合疾病权重和疾病-科室的关联度的计算得到推荐的科室,具体包括:
根据临床医疗数据中疾病在科室中出现的频率,得到疾病到科室的边的关联系数Wij(di,Dpj);
对科室进行评分得出了一组带有权重的科室列表Dp={Dp1:W(Dp1),Dp2:W(Dp2),…,Dpn:W(Dpn)},其中,W(di)为疾病di的权重;
删除科室列表中与患者性别、年龄段无关的科室;
根据W(Dpi)值进行排序得到科室权重的排名。
6.如权利要求1所述的方法,其特征在于,所述通过实体识别及症状标准化过程识别用户症状描述信息中的症状集、预判的疾病集的过程,具体包括:
构建症状词成分词典和疾病词成分词典;
利用基于双向最大字符匹配的实体识别方法识别用户症状描述信息中的症状和患者预判疾病;
利用症状词成分词典将未识别出的不标准症状名称映射到标准症状;
将标准症状词和疾病词通过实体对齐到症状-疾病-科室知识图谱的对应的症状和疾病节点。
7.如权利要求6所述的方法,其特征在于,所述构建症状词成分词典和疾病成分词典的过程,具体为:
设定症状和疾病的成分,其中,疾病的3种成分为:原子疾病词、修饰词、部位词,症状的成分为:原子症状、部位词和修饰词;
根据设定的成分,利用临床医疗数据构建症状和疾病成分词典。
8.一种基于多源知识图谱融合的智能导诊系统,其特征在于,所述系统包括:
采集模块,采集用户症状描述信息、性别和年龄段;
知识图谱模块,存储所构建的症状-疾病-科室知识图谱;
实体识别及症状标准化模块,将采集模块中采集的用户症状信息进行识别,得到用户症状描述信息中的症状集、预判的疾病集;
疾病集和权重管理模块,利用存储的症状-疾病-科室知识图谱的映射关系,将实体识别及症状标准化模块中得到的用户症状描述信息中的症状集、预判的疾病集,根据改进的TF-IDF算法计算得到患者可能患有的疾病集和疾病的权重;
科室推荐模块,将疾病集和权重管理模块得到的用户可能患有的疾病集和疾病的权重通过融合疾病权重及疾病-科室的关联度的计算得到推荐的科室。
9.如权利要求8所述的系统,其特征在于,所述的实体识别及症状标准化模块,具体包括:
成分词典模块,存储所构建的症状词成分词典和疾病词成分词典;
实体识别模块,识别利用基于双向最大字符匹配的实体识别方法识别用户症状描述信息中的症状和患者预判疾病;
标准化模块,利用症状词成分词典将症状映射到标准症状;
映射模块,将标准症状词和疾病词通过实体对齐到症状-疾病-科室知识图谱的对应的症状和疾病节点,首先采用基于多元字符串相似算法的实体链接算法生成实体候选集,然后通过协作排序算法对候选实体集排序,按实体排序的结果将文本中的实体映射到知识库中最相似的实体上。
10.如权利要求8所述的系统,其特征在于,所述科室推荐模块,具体包括:
计算模块,根据临床医疗数据中疾病在科室中出现的频率,得到疾病到科室的关联系数Wij(di,Dpj);
评分模块,将计算模块计算的疾病到科室的关联系数代入公式 计算科室的评分,得出了一组带有权重的科室列表Dp={Dp1:W(Dp1),Dp2:W(Dp2),…,Dpn:W(Dpn)},其中,W(di)为疾病di的权重;
推荐模块,根据评分模块得到的科室列表,首先删除科室列表中与患者性别、年龄段无关的科室,然后根据科室的权重值排名给出推荐的科室。
CN201910271117.6A 2019-04-04 2019-04-04 一种基于多源知识图谱融合的智能导诊方法和系统 Active CN110085307B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910271117.6A CN110085307B (zh) 2019-04-04 2019-04-04 一种基于多源知识图谱融合的智能导诊方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910271117.6A CN110085307B (zh) 2019-04-04 2019-04-04 一种基于多源知识图谱融合的智能导诊方法和系统

Publications (2)

Publication Number Publication Date
CN110085307A true CN110085307A (zh) 2019-08-02
CN110085307B CN110085307B (zh) 2023-02-03

Family

ID=67414360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910271117.6A Active CN110085307B (zh) 2019-04-04 2019-04-04 一种基于多源知识图谱融合的智能导诊方法和系统

Country Status (1)

Country Link
CN (1) CN110085307B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459321A (zh) * 2019-08-20 2019-11-15 山东众阳健康科技集团有限公司 一种基于证素的中医辅助诊断系统
CN110470303A (zh) * 2019-08-14 2019-11-19 新疆维吾尔自治区人民医院 一种医院内就诊导航方法及装置
CN111291163A (zh) * 2020-03-09 2020-06-16 西南交通大学 一种基于症状特征的疾病知识图谱检索方法
CN111292848A (zh) * 2019-12-31 2020-06-16 同方知网(北京)技术有限公司 一种基于贝叶斯估计的医疗知识图谱辅助推理方法
CN111326243A (zh) * 2020-02-05 2020-06-23 安徽科大讯飞医疗信息技术有限公司 分诊推荐方法、装置、电子设备和存储介质
CN111339252A (zh) * 2020-02-25 2020-06-26 腾讯科技(深圳)有限公司 一种搜索方法、装置及存储介质
CN111403011A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 挂号科室推送方法、装置、系统、电子设备及存储介质
CN111813957A (zh) * 2020-07-14 2020-10-23 深圳中兴网信科技有限公司 基于知识图谱的医疗导诊方法和可读存储介质
CN111897967A (zh) * 2020-07-06 2020-11-06 北京大学 一种基于知识图谱和社交媒体的医疗问诊推荐方法
CN111916193A (zh) * 2020-08-07 2020-11-10 平安科技(深圳)有限公司 智能就医方法、装置、计算机设备及存储介质
CN111985246A (zh) * 2020-08-27 2020-11-24 武汉东湖大数据交易中心股份有限公司 一种基于主要症状与伴随症状词的疾病认知系统
CN112015917A (zh) * 2020-09-07 2020-12-01 平安科技(深圳)有限公司 基于知识图谱的数据处理方法、装置及计算机设备
CN112131400A (zh) * 2020-09-11 2020-12-25 北京欧应信息技术有限公司 一种辅助门诊助手的医疗知识图谱的构建方法
CN112199509A (zh) * 2020-09-14 2021-01-08 山东众阳健康科技集团有限公司 一种基于知识图谱的导诊方法、系统和存储介质
CN112836058A (zh) * 2019-11-25 2021-05-25 北京搜狗科技发展有限公司 医疗知识图谱建立方法及装置、医疗知识图谱查询方法及装置
WO2021139232A1 (zh) * 2020-06-30 2021-07-15 平安科技(深圳)有限公司 基于医疗知识图谱的分诊方法、装置、设备及存储介质
CN113851219A (zh) * 2021-11-29 2021-12-28 山东交通学院 一种基于多模态知识图谱的智能导诊方法
WO2022222943A1 (zh) * 2021-04-21 2022-10-27 康键信息技术(深圳)有限公司 科室推荐方法、装置、电子设备及存储介质
CN115662593A (zh) * 2022-11-08 2023-01-31 北京健康在线技术开发有限公司 基于症状知识图谱的医患匹配方法、装置、设备及介质
WO2023095042A1 (en) * 2021-11-24 2023-06-01 Jio Platforms Limited A system and method for medical queries
CN117524405A (zh) * 2024-01-05 2024-02-06 长春中医药大学 一种基于云计算的妇科护理方法智能选择系统

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156812A (zh) * 2011-04-02 2011-08-17 中国医学科学院医学信息研究所 基于症状相似度分析的就医辅助决策方法
CN104484845A (zh) * 2014-12-30 2015-04-01 天津迈沃医药技术有限公司 基于医学信息本体数据库的疾病自我分析方法
CN105701342A (zh) * 2016-01-12 2016-06-22 西北工业大学 基于代理的直觉模糊理论医疗诊断模型的构建方法及装置
CN106096273A (zh) * 2016-06-08 2016-11-09 江苏华康信息技术有限公司 一种基于tf‑idf改进算法的疾病症状推导方法
CN106372439A (zh) * 2016-09-21 2017-02-01 北京大学 基于病例库的疾病症状及其权重知识的获取和处理方法
CN106650232A (zh) * 2016-11-09 2017-05-10 北京好运到信息科技有限公司 一种根据药物计算疾病发生概率的方法及其系统
CN106844308A (zh) * 2017-01-20 2017-06-13 天津艾登科技有限公司 一种使用语义识别进行自动化疾病编码转换的方法
CN107145744A (zh) * 2017-05-08 2017-09-08 合肥工业大学 医学知识图谱的构建方法、装置及辅助诊断方法
CN108133752A (zh) * 2017-12-21 2018-06-08 新博卓畅技术(北京)有限公司 一种基于tfidf的医学症状关键词提取优化及回收方法和系统
CN108182973A (zh) * 2017-12-29 2018-06-19 湖南大学 一种基于知识图谱推理的智能诊断技术
CN108492886A (zh) * 2018-03-26 2018-09-04 合肥工业大学 微创手术相似病案推荐方法、装置、设备及介质
CN108563725A (zh) * 2018-04-04 2018-09-21 华东理工大学 一种中文症状体征构成识别方法
CN108922608A (zh) * 2018-06-13 2018-11-30 平安医疗科技有限公司 智能导诊方法、装置、计算机设备和存储介质
CN108986907A (zh) * 2018-07-24 2018-12-11 郑州大学第附属医院 一种基于knn算法的远程医疗自动分诊方法
CN109299239A (zh) * 2018-09-29 2019-02-01 福建弘扬软件股份有限公司 一种基于es的电子病历检索方法
CN109559822A (zh) * 2018-11-12 2019-04-02 平安科技(深圳)有限公司 智能初诊方法、装置、计算机设备及存储介质
US20190252074A1 (en) * 2016-10-25 2019-08-15 Koninklijke Philips N.V. Knowledge graph-based clinical diagnosis assistant

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156812A (zh) * 2011-04-02 2011-08-17 中国医学科学院医学信息研究所 基于症状相似度分析的就医辅助决策方法
CN104484845A (zh) * 2014-12-30 2015-04-01 天津迈沃医药技术有限公司 基于医学信息本体数据库的疾病自我分析方法
CN105701342A (zh) * 2016-01-12 2016-06-22 西北工业大学 基于代理的直觉模糊理论医疗诊断模型的构建方法及装置
CN106096273A (zh) * 2016-06-08 2016-11-09 江苏华康信息技术有限公司 一种基于tf‑idf改进算法的疾病症状推导方法
CN106372439A (zh) * 2016-09-21 2017-02-01 北京大学 基于病例库的疾病症状及其权重知识的获取和处理方法
US20190252074A1 (en) * 2016-10-25 2019-08-15 Koninklijke Philips N.V. Knowledge graph-based clinical diagnosis assistant
CN106650232A (zh) * 2016-11-09 2017-05-10 北京好运到信息科技有限公司 一种根据药物计算疾病发生概率的方法及其系统
CN106844308A (zh) * 2017-01-20 2017-06-13 天津艾登科技有限公司 一种使用语义识别进行自动化疾病编码转换的方法
CN107145744A (zh) * 2017-05-08 2017-09-08 合肥工业大学 医学知识图谱的构建方法、装置及辅助诊断方法
CN108133752A (zh) * 2017-12-21 2018-06-08 新博卓畅技术(北京)有限公司 一种基于tfidf的医学症状关键词提取优化及回收方法和系统
CN108182973A (zh) * 2017-12-29 2018-06-19 湖南大学 一种基于知识图谱推理的智能诊断技术
CN108492886A (zh) * 2018-03-26 2018-09-04 合肥工业大学 微创手术相似病案推荐方法、装置、设备及介质
CN108563725A (zh) * 2018-04-04 2018-09-21 华东理工大学 一种中文症状体征构成识别方法
CN108922608A (zh) * 2018-06-13 2018-11-30 平安医疗科技有限公司 智能导诊方法、装置、计算机设备和存储介质
CN108986907A (zh) * 2018-07-24 2018-12-11 郑州大学第附属医院 一种基于knn算法的远程医疗自动分诊方法
CN109299239A (zh) * 2018-09-29 2019-02-01 福建弘扬软件股份有限公司 一种基于es的电子病历检索方法
CN109559822A (zh) * 2018-11-12 2019-04-02 平安科技(深圳)有限公司 智能初诊方法、装置、计算机设备及存储介质

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
宁建飞等: "基于词向量句子相似度量的医疗科室推荐", 《福建师范大学学报(自然科学版)》 *
张晓阳等: "基于LDA模型的餐厅推荐方法研究", 《计算机科学》 *
徐奕枫等: "智能导医系统中TF-IDF权重改进算法研究", 《计算机工程与应用》 *
李凌等: "医院现代化水平评价指标体系的构建", 《中华医院管理杂志》 *
林予松等: "基于VSM权重改进算法的智能导医系统", 《计算机应用与软件》 *
肖鹏等: "基于相容性分析的医疗诊断专家系统", 《计算机工程与应用》 *
郭永瑾等: "疾病诊断分组系统的建立及其在医院绩效管理中的应用", 《中国卫生政策研究》 *
马钰等: "面对智能导诊的个性化推荐算法", 《智能系统学报》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110470303A (zh) * 2019-08-14 2019-11-19 新疆维吾尔自治区人民医院 一种医院内就诊导航方法及装置
CN110459321A (zh) * 2019-08-20 2019-11-15 山东众阳健康科技集团有限公司 一种基于证素的中医辅助诊断系统
CN112836058A (zh) * 2019-11-25 2021-05-25 北京搜狗科技发展有限公司 医疗知识图谱建立方法及装置、医疗知识图谱查询方法及装置
CN111292848B (zh) * 2019-12-31 2023-05-16 同方知网数字出版技术股份有限公司 一种基于贝叶斯估计的医疗知识图谱辅助推理方法
CN111292848A (zh) * 2019-12-31 2020-06-16 同方知网(北京)技术有限公司 一种基于贝叶斯估计的医疗知识图谱辅助推理方法
CN111326243A (zh) * 2020-02-05 2020-06-23 安徽科大讯飞医疗信息技术有限公司 分诊推荐方法、装置、电子设备和存储介质
CN111326243B (zh) * 2020-02-05 2023-04-07 讯飞医疗科技股份有限公司 分诊推荐方法、装置、电子设备和存储介质
CN111339252B (zh) * 2020-02-25 2021-05-11 腾讯科技(深圳)有限公司 一种搜索方法、装置及存储介质
CN111339252A (zh) * 2020-02-25 2020-06-26 腾讯科技(深圳)有限公司 一种搜索方法、装置及存储介质
CN111291163B (zh) * 2020-03-09 2023-04-11 西南交通大学 一种基于症状特征的疾病知识图谱检索方法
CN111291163A (zh) * 2020-03-09 2020-06-16 西南交通大学 一种基于症状特征的疾病知识图谱检索方法
CN111403011B (zh) * 2020-03-12 2023-05-02 腾讯科技(深圳)有限公司 挂号科室推送方法、装置、系统、电子设备及存储介质
CN111403011A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 挂号科室推送方法、装置、系统、电子设备及存储介质
WO2021139232A1 (zh) * 2020-06-30 2021-07-15 平安科技(深圳)有限公司 基于医疗知识图谱的分诊方法、装置、设备及存储介质
CN111897967A (zh) * 2020-07-06 2020-11-06 北京大学 一种基于知识图谱和社交媒体的医疗问诊推荐方法
CN111813957A (zh) * 2020-07-14 2020-10-23 深圳中兴网信科技有限公司 基于知识图谱的医疗导诊方法和可读存储介质
CN111916193A (zh) * 2020-08-07 2020-11-10 平安科技(深圳)有限公司 智能就医方法、装置、计算机设备及存储介质
CN111985246A (zh) * 2020-08-27 2020-11-24 武汉东湖大数据交易中心股份有限公司 一种基于主要症状与伴随症状词的疾病认知系统
CN111985246B (zh) * 2020-08-27 2023-08-15 武汉东湖大数据交易中心股份有限公司 一种基于主要症状与伴随症状词的疾病认知系统
CN112015917A (zh) * 2020-09-07 2020-12-01 平安科技(深圳)有限公司 基于知识图谱的数据处理方法、装置及计算机设备
CN112131400A (zh) * 2020-09-11 2020-12-25 北京欧应信息技术有限公司 一种辅助门诊助手的医疗知识图谱的构建方法
CN112199509A (zh) * 2020-09-14 2021-01-08 山东众阳健康科技集团有限公司 一种基于知识图谱的导诊方法、系统和存储介质
WO2022222943A1 (zh) * 2021-04-21 2022-10-27 康键信息技术(深圳)有限公司 科室推荐方法、装置、电子设备及存储介质
WO2023095042A1 (en) * 2021-11-24 2023-06-01 Jio Platforms Limited A system and method for medical queries
CN113851219A (zh) * 2021-11-29 2021-12-28 山东交通学院 一种基于多模态知识图谱的智能导诊方法
CN115662593A (zh) * 2022-11-08 2023-01-31 北京健康在线技术开发有限公司 基于症状知识图谱的医患匹配方法、装置、设备及介质
CN115662593B (zh) * 2022-11-08 2023-06-23 北京健康在线技术开发有限公司 基于症状知识图谱的医患匹配方法、装置、设备及介质
CN117524405A (zh) * 2024-01-05 2024-02-06 长春中医药大学 一种基于云计算的妇科护理方法智能选择系统
CN117524405B (zh) * 2024-01-05 2024-03-26 长春中医药大学 一种基于云计算的妇科护理方法智能选择系统

Also Published As

Publication number Publication date
CN110085307B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN110085307A (zh) 一种基于多源知识图谱融合的智能导诊方法和系统
CN109299239B (zh) 一种基于es的电子病历检索方法
US8239216B2 (en) Searching an electronic medical record
CN112131393A (zh) 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法
CN112786194A (zh) 基于人工智能的医学影像导诊导检系统、方法及设备
CN111897967A (zh) 一种基于知识图谱和社交媒体的医疗问诊推荐方法
US11640403B2 (en) Methods and systems for automated analysis of behavior modification data
CN110838368A (zh) 一种基于中医临床知识图谱的机器人主动问诊方法
CN112614565A (zh) 一种基于知识图谱技术的中药经典名方智能推荐方法
WO2009037615A1 (en) System and method for analyzing electronic data records
WO2016120955A1 (ja) 行動予測装置、行動予測装置の制御方法、および行動予測装置の制御プログラム
CN109378066A (zh) 一种基于特征向量实现疾病预测的控制方法及控制装置
CN111191048A (zh) 基于知识图谱的急诊问答系统构建方法
Shah et al. Neural networks for mining the associations between diseases and symptoms in clinical notes
Zhang et al. Visualization of health‐subject analysis based on query term co‐occurrences
CN113764112A (zh) 一种在线医疗问答方法
CN113658712A (zh) 医患匹配方法、装置、设备及存储介质
KR20210059954A (ko) 의료 전문 자료의 과목 분류 시스템 및 방법
Baughman et al. Validation of the total visual acuity extraction algorithm (TOVA) for automated extraction of visual acuity data from free text, unstructured clinical records
CN110752027A (zh) 电子病历数据推送方法、装置、计算机设备和存储介质
Wang et al. A meta-learning based stress category detection framework on social media
Adebayo Predictive model for the classification of hypertension risk using decision trees algorithm
JP2009031900A (ja) 健診データ処理装置
CN109408635A (zh) 一种病历文档标准化处理系统及方法
Jana et al. Using nursing notes to predict length of stay in icu for critically ill patients

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant