CN111291163B - 一种基于症状特征的疾病知识图谱检索方法 - Google Patents

一种基于症状特征的疾病知识图谱检索方法 Download PDF

Info

Publication number
CN111291163B
CN111291163B CN202010158279.1A CN202010158279A CN111291163B CN 111291163 B CN111291163 B CN 111291163B CN 202010158279 A CN202010158279 A CN 202010158279A CN 111291163 B CN111291163 B CN 111291163B
Authority
CN
China
Prior art keywords
symptom
symptoms
disease
score
sum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010158279.1A
Other languages
English (en)
Other versions
CN111291163A (zh
Inventor
滕飞
郑少宇
马征
陈泽君
马虹
吴洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202010158279.1A priority Critical patent/CN111291163B/zh
Publication of CN111291163A publication Critical patent/CN111291163A/zh
Application granted granted Critical
Publication of CN111291163B publication Critical patent/CN111291163B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于症状特征的疾病知识图谱检索方法,对输入文本预处理,提取症状特征,在图谱中检索与符合症状特征的疾病节点,计算全部疾病节点与症状特征的相关度,将相关的内容依次按照相关度值从高到低依次呈现,节省检索时间,提高检索效率。

Description

一种基于症状特征的疾病知识图谱检索方法
技术领域
本发明属于信息处理技术领域,具体涉及一种基于症状特征的疾病知识图谱检索方法。
背景技术
知识图谱作为目前主流的知识存储介质之一,为各领域用户得到高效的检索服务和准确的检索结果提供了保障。然而在个别专业领域中,用户往往需要更为定制化的检索服务和专业化的检索结果,这种需求在医学领域知识图谱的信息检索中尤为突出,目前虽然不乏内容精良的医学领域图谱,但基于图谱提供的检索体验却差强人意。在检索方法方面,目前的医学领域图谱提供的检索方法仍比较单一,多数图谱仅能提供图谱中固定节点的详情查看,通常是用户在图形化界面中通过点击图谱节点进而得到该节点的详细信息,不能提供以自然语言为输入的节点检索服务,更遑论对自然语言输入进行关键词识别或联合检索;在检索结果方面,基于现有方法在医学领域图谱中难以得到专业化的检索结果,检索结果与输入内容在医学上的相关程度往往得不到有效区分,相关度高的内容得不到优先显示,使得使用者需要在大量检索结果中进行二次筛查,这种检索结果的专业性缺失,极大影响了用户的检索体验。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于症状特征的疾病知识图谱检索方法解决了现有检索方法不能提供以自然语言为输入的节点检索服务且检索结果与输入内容在医学上的相关程度往往得不到有效区分的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于症状特征的疾病知识图谱检索方法,包括以下步骤:
S1、对输入文本进行预处理,得到规范文本;
S2、对规范文本提取症状特征;
S3、在图谱中检索与符合症状特征的疾病节点;
S4、计算全部疾病节点与症状特征的相关度;
S5、对全部疾病节点进行分类,按相关度降序,得到检索结果。
进一步地,所述步骤S1具体为:
A1、将图谱中所有症状节点的“别名”属性值在文本中进行完全字符串匹配,将匹配得到的症状别名替换成该别名同一症状实体下的“标准名称”属性值;
A2、采用字符识别算法将文本中的汉字数字进行识别,转换为阿拉伯数字。
进一步地,所述步骤S2包括以下步骤:
S21、对规范文本提取时间点,将规范文本拆分为有关段、无关段和各时间段;
S22、将时间段中的有关症状与时间点进行绑定,得到有关症状特征;
S23、将有关症状特征与无关症状特征进行合并,得到文本中的完整症状特征。
进一步地,所述步骤S4中相关度的计算公式为:
Figure BDA0002404864210000021
其中,Rd,s为疾病节点d与症状特征的相关度,si为症状节点集合S=[s1,s2,…,si,…,sn]的元素,d为疾病节点,n为疾病节点对应的所有症状数,L(d,si)为疾病节点d,症状节点si的症状类型,所述症状类型包括:典型症状、常见症状、一般症状和罕见症状,四个症状类型具有固定分值:W典型症状、W常见症状、W一般症状和W罕见症状;Rd,s=典型症状分值和+常见症状分值和+一般症状分值和+罕见症状分值和。
进一步地,所述典型症状分值和、常见症状分值和、一般症状分值和罕见症状分值和满足如下约束:
MAX(典型症状分值和)>MAX(常见症状分值和)>MAX(一般症状分值和)>MAX(罕见症状分值和)。
进一步地,所述步骤S5具体为:将全部疾病节点根据医学领域特征进行分类,得到各科室、各类型疾病,并按相关度作降序排列,生成多维检索结果。
本发明对知识图谱本体有如下要求:
1、至少应当包含疾病、症状两个类;
2、对象属性至少应包含“(疾病)表现为(症状)”;
3、对疾病类而言,必须包含的数据属性为“标准名称”,建议包含的数据属性为“科室”、“疾病类型”,疾病类型的属性值至少包括“急性病”和“慢性病”;
4、对于任一疾病类实体,与其关系为“(疾病)表现为(症状)”的症状类实体必须包含的数据属性为“标准名称”、“持续时间”和“症状类型”,症状类型的属性值至少包括:“典型症状”、“常见症状”、“一般症状”、“罕见症状”;包含的数据属性为“别名”。
由于本发明提出的计算相关度评分与症状分类方式密切相关,若本领域技术人员在图谱构建过程中对症状类型的定义存在歧义,可能导致方法失效,因此在这里对四种症状类型进行定义解释,便于本领域技术人员在使用本方法时校准图谱内容:
1、典型症状:若某一疾病在其确诊病例中集中表现为某1-2个症状,且未出现(出现个数<1)这些症状时,医生一般不会考虑对该疾病展开排查。将这些症状定义为该疾病的典型症状。
2、常见症状:若某一疾病不存在典型症状,其确诊病例相对均匀地、大量地表现为几种症状(>2),仅当这些症状中的复数个(>1)症状同时出现时,医生才会考虑对该疾病进行排查。将这些的症状定义为该疾病的常见症状。
若某一疾病存在典型症状,那么可能存在部分症状常作为其典型症状的伴随症状出现,这些症状可能出现频率较高,但单独出现时不能成为是否需要对该疾病展开排查的依据。仅在典型症状出现的前提下,这些症状的存在会成为更优先对该疾病的展开排查的依据。这些症状我们同样称其为常见症状。
3、一般症状:对某一疾病而言,在其确诊病例的症状统计中,除去典型症状和常见症状(下简称典/常症状),还可能存在一些频数低于典/常症状但偶尔会出现的症状,这些症状在典/常症状存在的前提下可能成为是否对该疾病展开排查的依据,但其影响力小于典/常症状。
4、罕见症状:对某一疾病而言,部分症状出现频率极低,远小于平均值,甚至可能在大量病历中不出现,仅在论文、诊疗指南等医学文献中有记载。这些症状在典/常症状存在的前提下可能成为是否对该疾病展开排查的依据,其影响力为四种类型症状中最小。
本发明的有益效果为:
1、本发明基于图谱进行设计,拥有良好的拓展性能和可视化性能;
2、根据医学规则设计了症状特征与疾病节点的相关度评分方法,解决了目前疾病图谱检索的专业性缺失问题。
3、并实现自然语言为输入的检索服务,提高检索的灵活度,并对症状进行相关度计算,将相关的内容依次按照相关度值从高到低依次呈现,节省检索时间,提高检索效率。
附图说明
图1为一种基于症状特征的疾病知识图谱检索方法的流程图;
图2为对规范文本拆分结构示意图;
图3为症状与时间点进行绑定方法示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于症状特征的疾病知识图谱检索方法,包括以下步骤:
S1、对输入文本进行预处理,得到规范文本;
步骤S1具体为:
A1、将图谱中所有症状节点的“别名”属性值在文本中进行完全字符串匹配,将匹配得到的症状别名替换成该别名同一症状实体下的“标准名称”属性值;
A2、采用字符识别算法将文本中的汉字数字进行识别,转换为阿拉伯数字。
S2、对规范文本提取症状特征;
步骤S2包括以下步骤:
S21、对规范文本提取时间点,将规范文本拆分为有关段、无关段和各时间段;
如图2所示,文本中,根据参与检索的症状对检索结果的要求不同,将描述“要求与检索结果中的疾病在图谱中存在关系‘(疾病)表现为(症状)’的症状”(下简称“有关症状”)及其时间限制的部分称为有关段,描述“要求与检索结果中的疾病在图谱中不存在关系‘(疾病)表现为(症状)’的症状”(下简称无关症状)的部分称为无关段。在无关段中,无关症状的描述多由“无”,“未见”,“不伴”,“没有”等词引导,称这些词为无关症状引导词,为便于特征抽取,本发明要求输入过程中优先描述有关症状,故可认为,以第一个无关症状引导词为分界点,左侧为有关段,右侧为无关段。时间点是指文本中形如“阿拉伯数字+时间单位+限制方向”的字符串,由时间点将有关段分割而成的多个子段定义为时间段。
S22、将时间段中的有关症状与时间点进行绑定,得到有关症状特征;
如图3所示,将图谱中所有症状节点的“标准名称”属性值在各时间段中进行完全字符串匹配,得到该段中包含的症状。时间段中的症状(若当前段无症状则跳过该段)从左往右依次与输入文本中最靠前的时间点绑定;时间点参与绑定后不得再次使用,除非时间点耗尽后仍有段中存在症状未绑定时间点,则将该症状绑定至上一次参与绑定的时间点上,直至所有段中的症状都完成绑定。
以图2中的输入文本为例,有关段症状特征应为[“咳嗽”:“10天以下”,“咽痛”:“5天以下”]。无关症状则不存在时间限制。将有关症状特征与无关症状特征合并,得到该文本完整的症状特征。
S23、将有关症状特征与无关症状特征进行合并,得到文本中的完整症状特征。
S3、在图谱中检索与符合症状特征的疾病节点;
S4、计算全部疾病节点与症状特征的相关度;
步骤S4中相关度的计算公式为:
Figure BDA0002404864210000071
其中,Rd,s为疾病节点d与症状特征的相关度,si为症状节点集合S=[s1,s2,…,si,…,sn]的元素,d为疾病节点,n为疾病节点对应的所有症状数,L(d,si)为疾病节点d,症状节点si的症状类型,所述症状类型包括:典型症状、常见症状、一般症状和罕见症状,四个症状类型具有固定分值:W典型症状、W常见症状、W一般症状和W罕见症状
对属于上述四类症状节点中任意一类的单个节点,其为Rd,s提供的分值应当满足:
W典型症状>W常见症状>W一般症状>W罕见症状
在本实施例中,W典型症状=0.8,W常见症状=0.4,W一般症状=0.2,W罕见症状=0.1;
由于Rd,s=典型症状分值和+常见症状分值和+一般症状分值和+罕见症状分值和,为避免多个低证据力症状分值和大于高证据力症状分值和,还应满足约束:
MAX(典型症状分值和)>MAX(常见症状分值和)>MAX(一般症状分值和)>MAX(罕见症状分值和)。
在本实施例中,MAX(典型症状分值和)=0.8,MAX(常见症状分值和)=0.8,MAX(一般症状分值和)=0.4,MAX(罕见症状分值和)=0.2。
S5、对全部疾病节点进行分类,按相关度降序,得到检索结果。
步骤S5具体为:将全部疾病节点根据医学领域特征进行分类,得到各科室、各类型疾病,并按相关度作降序排列,生成多维检索结果。
本发明的有益效果为:
1、本发明基于图谱进行设计,拥有良好的拓展性能和可视化性能;
2、根据医学规则设计了症状特征与疾病节点的相关度评分方法,解决了目前疾病图谱检索的专业性缺失问题。
3、并实现自然语言为输入的检索服务,提高检索的灵活度,并对症状进行相关度计算,将相关的内容依次按照相关度值从高到低依次呈现,节省检索时间,提高检索效率。

Claims (3)

1.一种基于症状特征的疾病知识图谱检索方法,其特征在于,包括以下步骤:
S1、对输入文本进行预处理,得到规范文本;
S2、对规范文本提取症状特征;
S3、在图谱中检索与符合症状特征的疾病节点;
S4、计算全部疾病节点与症状特征的相关度;
S5、对全部疾病节点进行分类,按相关度降序,得到检索结果;
所述步骤S2包括以下步骤:
S21、对规范文本提取时间点,将规范文本拆分为有关段、无关段和各时间段;
S22、将时间段中的有关症状与时间点进行绑定,得到有关症状特征;
S23、将有关症状特征与无关症状特征进行合并,得到文本中的完整症状特征;
所述步骤S4中相关度的计算公式为:
Figure FDA0004056318590000011
其中,Rd,s为疾病节点d与症状特征的相关度,si为症状节点集合S=[s1,s2,…,i,…,n]的元素,d为疾病节点,n为疾病节点对应的所有症状数,L(,)为疾病节点d,症状节点si的症状类型,所述症状类型包括:典型症状、常见症状、一般症状和罕见症状,四个症状类型具有固定分值:W典型症状、W常见症状、W一般症状和W罕见症状;Rd,=典型症状分值和+常见症状分值和+一般症状分值和+罕见症状分值和;
所述典型症状分值和、常见症状分值和、一般症状分值和罕见症状分值和满足如下约束:
MAX(典型症状分值和)>MAX(常见症状分值和)>MAX(一般症状分值和)>MAX(罕见症状分值和)。
2.根据权利要求1所述的基于症状特征的疾病知识图谱检索方法,其特征在于,所述步骤S1具体为:
A1、将图谱中所有症状节点的“别名”属性值在文本中进行完全字符串匹配,将匹配得到的症状别名替换成该别名同一症状实体下的“标准名称”属性值;
A2、采用字符识别算法将文本中的汉字数字进行识别,转换为阿拉伯数字。
3.根据权利要求1所述的基于症状特征的疾病知识图谱检索方法,其特征在于,所述步骤S5具体为:将全部疾病节点根据医学领域特征进行分类,得到各科室、各类型疾病,并按相关度作降序排列,生成多维检索结果。
CN202010158279.1A 2020-03-09 2020-03-09 一种基于症状特征的疾病知识图谱检索方法 Active CN111291163B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010158279.1A CN111291163B (zh) 2020-03-09 2020-03-09 一种基于症状特征的疾病知识图谱检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010158279.1A CN111291163B (zh) 2020-03-09 2020-03-09 一种基于症状特征的疾病知识图谱检索方法

Publications (2)

Publication Number Publication Date
CN111291163A CN111291163A (zh) 2020-06-16
CN111291163B true CN111291163B (zh) 2023-04-11

Family

ID=71030918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010158279.1A Active CN111291163B (zh) 2020-03-09 2020-03-09 一种基于症状特征的疾病知识图谱检索方法

Country Status (1)

Country Link
CN (1) CN111291163B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220896B (zh) * 2021-04-27 2024-03-19 北京大数医达科技有限公司 多来源知识图谱生成方法、装置、终端设备
CN116403735B (zh) * 2023-06-05 2023-08-11 山东志诚普惠健康科技有限公司 一种云健康服务平台的数据交互系统及方法
CN116796046B (zh) * 2023-08-29 2023-11-10 武汉大学人民医院(湖北省人民医院) 基于罕见特征的病例检索方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109509551A (zh) * 2018-11-01 2019-03-22 新博卓畅技术(北京)有限公司 一种常见疾病智能诊断方法及系统
CN110085307A (zh) * 2019-04-04 2019-08-02 华东理工大学 一种基于多源知识图谱融合的智能导诊方法和系统
CN110838368A (zh) * 2019-11-19 2020-02-25 广州西思数字科技有限公司 一种基于中医临床知识图谱的机器人主动问诊方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3533066A1 (en) * 2016-10-25 2019-09-04 Koninklijke Philips N.V. Knowledge graph-based clinical diagnosis assistant
US20190006027A1 (en) * 2017-06-30 2019-01-03 Accenture Global Solutions Limited Automatic identification and extraction of medical conditions and evidences from electronic health records

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109509551A (zh) * 2018-11-01 2019-03-22 新博卓畅技术(北京)有限公司 一种常见疾病智能诊断方法及系统
CN110085307A (zh) * 2019-04-04 2019-08-02 华东理工大学 一种基于多源知识图谱融合的智能导诊方法和系统
CN110838368A (zh) * 2019-11-19 2020-02-25 广州西思数字科技有限公司 一种基于中医临床知识图谱的机器人主动问诊方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Intelligent Hospital Guidance System based on Multi-Round Conversation";Daowen Liu等;《2019 IEEE International Conference on Bioinformatics and Biomedicine》;20200206;全文 *
"面向中文文本的医学知识获取、表示与推理";赵超;《中国优秀硕士学位论文全文数据库》;20190115;全文 *

Also Published As

Publication number Publication date
CN111291163A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN111291163B (zh) 一种基于症状特征的疾病知识图谱检索方法
CN109460473B (zh) 基于症状提取和特征表示的电子病历多标签分类方法
US9594747B2 (en) Generation of a semantic model from textual listings
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
Crestan et al. Web-scale table census and classification
CN1728142B (zh) 信息检索系统中的短语识别方法和设备
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN108346474B (zh) 基于单词的类内分布与类间分布的电子病历特征选择方法
WO2012124608A1 (ja) 話題抽出装置及びプログラム
US9477729B2 (en) Domain based keyword search
KR20070089449A (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
CN109033132B (zh) 利用知识图谱计算文本和主体相关度的方法以及装置
CN113535974A (zh) 诊断推荐方法及相关装置、电子设备、存储介质
WO2022160454A1 (zh) 医疗文献的检索方法、装置、电子设备及存储介质
CN109299227B (zh) 基于语音识别的信息查询方法和装置
Fu et al. Automatic record linkage of individuals and households in historical census data
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
Wick et al. A unified approach for schema matching, coreference and canonicalization
CN111309944A (zh) 一种基于图数据库的数字人文搜索算法
Fu et al. Automatic cleaning and linking of historical census data using household information
CN111091883B (zh) 一种医疗文本处理方法、装置、存储介质及设备
JP2020126631A (ja) 文書に対してイベントのラベル付けを行う装置及び方法、並びに記録媒体
CN114530259A (zh) 一种病理知识库构建方法及系统
CN114385845A (zh) 基于图聚类的影像分类管理方法及系统
JP5239161B2 (ja) 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant