CN115033648A - 系统化医学领域知识图谱的构建方法及装置 - Google Patents

系统化医学领域知识图谱的构建方法及装置 Download PDF

Info

Publication number
CN115033648A
CN115033648A CN202210414405.4A CN202210414405A CN115033648A CN 115033648 A CN115033648 A CN 115033648A CN 202210414405 A CN202210414405 A CN 202210414405A CN 115033648 A CN115033648 A CN 115033648A
Authority
CN
China
Prior art keywords
data
knowledge
label
entity
storing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210414405.4A
Other languages
English (en)
Inventor
李宇萱
李向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Health Care Big Data Co ltd
Inspur Software Group Co Ltd
Original Assignee
Tianjin Health Care Big Data Co ltd
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Health Care Big Data Co ltd, Inspur Software Group Co Ltd filed Critical Tianjin Health Care Big Data Co ltd
Priority to CN202210414405.4A priority Critical patent/CN115033648A/zh
Publication of CN115033648A publication Critical patent/CN115033648A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了系统化医学领域知识图谱的构建方法及装置,属于知识图谱构建技术领域,本发明要解决的技术问题为如何实现覆盖知识广泛、精准且运用方便的医学领域知识图谱,采用的技术方案为:该方法具体如下:S1、设计知识图谱初始架构,创建主题数据表:通过主键和外键将每个表之间互相关联,形成整个知识图谱;S2、收集医学数据,构建原词与归一词相关词典表,并定时进行字典更新;S3、自顶向下构建知识图谱;S4、自底向上构建知识图谱;S5、多次执行步骤S3至步骤S4,并对每次获取的知识数据进行存储、更新和融合;S6、完成知识图谱的构建。

Description

系统化医学领域知识图谱的构建方法及装置
技术领域
本发明涉及知识图谱构建技术领域,具体地说是一种系统化医学领域知识图谱的构建方法及装置。
背景技术
知识图谱是抽象知识的结构化、形象化展现,是使用语义网络翻译成三元组形式并进行高质量结构化数据存储的知识库,是人工智能技术助力医疗领域发展的基础,是使智能化医疗更加精准可信的技术核心。
随着医疗信息化的发展与普及,现阶段逐步打造智慧医疗,医疗信息搜索引擎、医疗问答系统、医疗决策支持系统等技术应运而生,而其建设发展的基础必须要有一套准确完整的知识图谱进行支撑。由于各领域的特点不一,且现阶段的医学知识图谱结构比较简单,知识覆盖面不够广泛,在实际应用中存在着许多局限性,发展不够全面,故如何实现覆盖知识广泛、精准且运用方便的医学领域知识图谱是目前亟待解决的技术问题。
发明内容
本发明的技术任务是提供一种系统化医学领域知识图谱的构建方法及装置,来解决如何实现覆盖知识广泛、精准且运用方便的医学领域知识图谱的问题。
本发明的技术任务是按以下方式实现的,一种系统化医学领域知识图谱的构建方法,该方法具体如下:
S1、设计知识图谱初始架构,创建主题数据表:通过主键和外键将每个表之间互相关联,形成整个知识图谱;
S2、收集医学数据,构建原词与归一词相关词典表,并定时进行字典更新;
S3、自顶向下构建知识图谱;
S4、自底向上构建知识图谱;
S5、多次执行步骤S3至步骤S4,并对每次获取的知识数据进行存储、更新和融合;
S6、完成知识图谱的构建。
作为优选,步骤S1中的设计知识图谱初始架构,创建主题数据表包括标签层和数据层两部分,标签层表示该数据实体的类型;标签层包括标签定义表、标签关系表、数据层包括归一词管理表、术语标签映射表、原词与归一词映射表及术语关系表;
其中,标签定义表用于存储标签层中标签定义,即实体类型标签,每个实体类型标签均有唯一的标签ID索引;
标签关系表用于存储标签与标签之间的关系,以三元组形式进行存储;
归一词管理表用于存储疾病、药物及手术的单个实体字典,每个实体字典均有唯一的中文名称及ID;
术语标签映射表用于存储单个实体及其实体类型标签,例:“高血压-疾病”、“阿莫西林-药品”,当存在一个实体对应多个标签且标签存在子类与父类关系时,同时把子类标签实体对应到父类标签上,例:标签关系表中存在“疾病-子类-症状”,则在术语标签映射表中还应添加“高血压-症状”。
原词与归一词映射表用于存储原词所对应归一词名称字典,因实体命名具有差异性,一个归一词可能对应多个原词,例“冠状动脉粥样硬化性心脏病-冠心病”、“缺血性心脏病-冠心病”,通过定时爬取更新数据,实现基础字典的不断扩充;
术语关系表是以三元组+实体类型标签的形式,术语关系表用于存储处理好的知识数据。
作为优选,步骤S3中的自顶向下构建知识图谱具体如下:
S301、定义知识图谱数据模式层,即标签层,根据知识领域定义大致标签层框架,确定标签实体的名称、定义及标签实体类型,并将数据存放于标签定义表中;
S302、定义好标签实体间的关系,以三元组形式将数据存放于标签关系表中;
S303、通过已定义标签确定医学知识领域范围,获取相应知识信息;
S304、对获取到的知识信息进行数据处理;
S305、将处理好的数据存储于知识库,进行知识的更新和融合。
作为优选,步骤S4中的自底向上构建知识图谱具体如下:
S401、获取所需知识信息;其中,知识信息获取来源包括国家官网、企业官网或其他权威机构发布的医学知识信息或医学文献,百度百科、期刊论文、专利及词典获取到的知识信息以及通过专业技术总结得出的知识信息;
S402、对获取到的知识信息进行数据处理;
S403、将处理好的数据存储于知识库,进行知识的更新和融合;
S404、提取出处理好的数据中实体类型标签,并存放于标签定义表中;
S405、提取出处理好的数据中实体类型标签及实体与实体之间的关系,以三元组形式将数据存放于标签关系表中。
作为优选,步骤S5中的知识的更新和融合总体分为标签层融合和数据层融合,两层之间既有明确划分,又有密切关联;
其中,知识的更新和融合(即数据的处理和存储)具体如下:
S501、从步骤S3和步骤S4中获取到的知识数据进行处理,存储于术语关系表中;
S502、标签层进行数据存储,具体如下:
S50201、获取已有标签定义表中不存在的标签名称,并将其存储;
S50202、获取已有标签关系表中不存在的标签关系三元组,并将其存储;
S503、数据层进行数据存储,具体如下:
S50301、根据术语关系表提取知识起始实体和终止实体及其实体类型,将新实体数据导入知识库归一词管理表中,扩充字典;
S50302、根据术语关系表和归一词管理表,将归一词管理表中新增数据及其实体类型添加至术语标签映射表;
S50303、根据术语关系表和术语标签映射表,提取知识起始实体和终止实体及其实体类型,将已有归一词但无所对应类型的数据添加至术语标签映射表;
S50304、步骤S50302和步骤S50303在向术语标签映射表添加数据的过程中,判断在向术语标签映射表添加数据的过程中,若添加的实体类型存在父类类型,还应将其添加至父类类型上;
S50305、根据术语标签映射表,新增数据中归一词对应其本身,将数据添加至原词与归一词映射表中。
一种系统化医学领域知识图谱的构建装置,该装置包括,
创建单元,用于设计知识图谱初始架构,创建主题数据表:通过主键和外键将每个表之间互相关联,形成整个知识图谱;
收集更新单元,用于收集医学数据,构建原词与归一词相关词典表,并定时进行字典更新;
构建单元一,用于自顶向下构建知识图谱;
构建单元二,用于自底向上构建知识图谱;
存储单元,用于对每次获取的知识数据进行存储、更新和融合。
作为优选,创建单元包括标签层和数据层两部分,标签层表示该数据实体的类型;标签层包括标签定义表、标签关系表、数据层包括归一词管理表、术语标签映射表、原词与归一词映射表及术语关系表;
其中,标签定义表用于存储标签层中标签定义,即实体类型标签,每个实体类型标签均有唯一的标签ID索引;
标签关系表用于存储标签与标签之间的关系,以三元组形式进行存储;
归一词管理表用于存储疾病、药物及手术的单个实体字典,每个实体字典均有唯一的中文名称及ID;
术语标签映射表用于存储单个实体及其实体类型标签,例:“高血压-疾病”、“阿莫西林-药品”,当存在一个实体对应多个标签且标签存在子类与父类关系时,同时把子类标签实体对应到父类标签上,例:标签关系表中存在“疾病-子类-症状”,则在术语标签映射表中还应添加“高血压-症状”。
原词与归一词映射表用于存储原词所对应归一词名称字典,因实体命名具有差异性,一个归一词可能对应多个原词,例“冠状动脉粥样硬化性心脏病-冠心病”、“缺血性心脏病-冠心病”,通过定时爬取更新数据,实现基础字典的不断扩充;
术语关系表是以三元组+实体类型标签的形式,术语关系表用于存储处理好的知识数据;
构建单元一包括,
定义模块,用于定义知识图谱数据模式层,即标签层,根据知识领域定义大致标签层框架,确定标签实体的名称、定义及标签实体类型,并将数据存放于标签定义表中;
定义模块二,用于定义好标签实体间的关系,以三元组形式将数据存放于标签关系表中;
获取模块一,用于通过已定义标签确定医学知识领域范围,获取相应知识信息;
数据处理模块一,用于对获取到的知识信息进行数据处理;
更新融合模块一,用于将处理好的数据存储于知识库,进行知识的更新和融合;
构建模块二包括,
获取模块二,用于获取所需知识信息;
数据处理模块二,用于对获取到的知识信息进行数据处理;
更新融合模块二,用于将处理好的数据存储于知识库,进行知识的更新和融合;
提取模块一,用于提取出处理好的数据中实体类型标签,并存放于标签定义表中;
提取模块二,用于提取出处理好的数据中实体类型标签及实体与实体之间的关系,以三元组形式将数据存放于标签关系表中。
更优地,存储单元包括,
获取模块三,从构建单元一和构建单元二获取到的知识数据进行处理,存储于术语关系表中;
获取模块四,用于在标签层获取已有标签定义表中不存在的标签名称,并将其存储;
获取模块五,用于在标签层获取已有标签关系表中不存在的标签关系三元组,并将其存储;
扩充模块,用于在数据层根据术语关系表提取知识起始实体和终止实体及其实体类型,将新实体数据导入知识库归一词管理表中,扩充字典;
添加模块一,用于在数据层根据术语关系表和归一词管理表,将归一词管理表中新增数据及其实体类型添加至术语标签映射表;
添加模块二,用于在数据层根据术语关系表和术语标签映射表,提取知识起始实体和终止实体及其实体类型,将已有归一词但无所对应类型的数据添加至术语标签映射表;
判断模块,用于向术语标签映射表添加数据的过程中,判断在向术语标签映射表添加数据的过程中,若添加的实体类型存在父类类型,还应将其添加至父类类型上;
添加模块三,用于在数据层根据术语标签映射表,新增数据中归一词对应其本身,将数据添加至原词与归一词映射表中。
一种电子设备,包括:存储器和至少一个处理器;
其中,所述存储器上存储有计算机程序;
所述至少一个处理器执行所述存储器存储的计算机程序,使得所述至少一个处理器执行如上述的系统化医学领域知识图谱的构建方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如上述的系统化医学领域知识图谱的构建方法。
本发明的系统化医学领域知识图谱的构建方法及装置具有以下优点:
(一)本发明通过自顶向下和自底向上两种构建方式相结合的方法,实现了知识图谱的高效、准确、快速的构建及更新;
(二)本发明首先根据数据,通过标签层和数据层两部分构建知识图谱初始架构,建立知识库主题表,再根据主题表结构进行数据处理和存储,此架构将标签层和数据层合理分层又依据主外键紧密连接,达到了更充分高效的运用该知识图谱的效果;
(三)对于知识获取,相比于直接从已有知识库中导入知识信息,本发明还增加了从各大文献中利用自然语言处理技术提取所需知识,并利用深度学习模型处理,提取隐藏知识,扩大了知识范围,增加了知识涵盖量;
(四)本发明在构建知识图谱的过程中,通过数据缜密对比可减少冗余度,且达到解决了共指消解问题和实体消歧问题的目的;
(五)本发明达到既高效又精准,易保存易读取的目的,保证数据信息的精准性,并且能够助力于智能诊断、智能问答等应用系统开发研究。
附图说明
下面结合附图对本发明进一步说明。
附图1为系统化医学领域知识图谱的构建方法的流程框图;
附图2为自顶向下构建知识图谱的流程框图;
附图3为自底向上构建知识图谱的流程框图;
附图4为知识更新及融合的流程框图。
具体实施方式
参照说明书附图和具体实施例对本发明的系统化医学领域知识图谱的构建方法及装置作以下详细地说明。
实施例1:
如附图1所示,本实施例提供了一种系统化医学领域知识图谱的构建方法,该方法具体如下:
S1、设计知识图谱初始架构,创建主题数据表:通过主键和外键将每个表之间互相关联,形成整个知识图谱;
S2、收集医学数据,构建原词与归一词相关词典表,并定时进行字典更新;该字典基础数据是直接从各医院或医疗机构中获取到的原词数据,需经过专业数据治理,将单个实体进行统一归一化处理,形成“原词-归一词”形式的字典格式,以此构成基础字典,本发明中字典除获取的医院数据之外,还融合了ICD10国家标准版、常用临床医学名词、全国医疗卫生机构业务科室分类与代码、手术国家标准3.0、国家药监局、临床医学路径、Cmekg知识等权威知识文献;
S3、自顶向下构建知识图谱;
S4、自底向上构建知识图谱;
S5、多次执行步骤S3至步骤S4,并对每次获取的知识数据进行存储、更新和融合;
S6、完成知识图谱的构建。
本实施例中的步骤S1中的设计知识图谱初始架构,创建主题数据表包括标签层和数据层两部分,标签层表示该数据实体的类型;标签层包括标签定义表、标签关系表、数据层包括归一词管理表、术语标签映射表、原词与归一词映射表及术语关系表;
其中,标签定义表用于存储标签层中标签定义,即实体类型标签,每个实体类型标签均有唯一的标签ID索引;应注意根据标签定义,一个标签名称存在多个标签类型(STY:语义类型、RL:属性关系、DTY:链接、文本、数字、日期、URL、浮点数、整数、关系组ID),具体表结构如表1所示:
表1标签定义表
序号 字段名 中文 类型 备注
1 ENTITY_TYPE_ID 实体类型ID int 主键
2 ENTITY_TYPE_NAME_CN 实体类型中文名 varchar 索引
3 ENTITY_TYPE_DEF 实体类型定义 varchar
4 RECORD_TYPE 值类型 varchar 索引
5 SOURCE_ID 数据来源,代码来自归一词来源字典 varchar
6 STATUS 1正常-1删除 tinyint
标签关系表用于存储标签与标签之间的关系,以三元组形式进行存储;即“起始实体类型标签-标签间关系-终止实体类型标签”,并映射上实体类型标签ID,具体表结构如表2所示:
表2标签关系表
序号 字段名 中文 类型 备注
1 ENTITY_TYPE_REL_ID 实体类型间关系ID int 主键
2 ENTITY_TYPE1_ID 实体类型1的ID int 索引,外键
3 ENTITY_TYPE_REL_CODE 实体类型关系编码 varchar 索引,外键
4 ENTITY_TYPE2_ID 实体类型2的ID int 索引,外键
5 ENTITY_TYPE1_NAME 实体类型1的中文名称 varchar
6 DESC 类型间关系描述 varchar
7 ENTITY_TYPE1_NAME 实体类型2的中文名称 varchar
8 SOURCED_ID 数据来源ID int
9 STATUS 1正常-1删除 tinyint
归一词管理表用于存储疾病、药物及手术等单个实体字典,每个实体字典均有唯一的中文名称及ID;本实施例中运用MD5()函数为中文名称加密以此生成归一词ID,具体表结构如表3所示:
表3归一词管理表
序号 字段名 中文 类型 备注
1 NORMALIZE_TERM_ID 归一词ID varchar 主键,索引
2 NORMALIZE_TERM_CODE 归一词编码 varchar
3 NORMALIZE_TERM_CN 归一词中文名 varchar 索引
4 NORMALIZE_TERM_EN 归一词英文名 varchar
5 NORMALIZE_TERM_SOURCE_ID 归一词来源 int 外键
6 STATUS 1正常-1已删除 tinyint
术语标签映射表用于存储单个实体及其实体类型标签,例:“高血压-疾病”、“阿莫西林-药品”,当存在一个实体对应多个标签且标签存在子类与父类关系时,同时把子类标签实体对应到父类标签上,例:标签关系表中存在“疾病-子类-症状”,则在术语标签映射表中还应添加“高血压-症状”。具体表结构如表4所示:
表4术语标签映射表
序号 字段名 中文 类型 备注
1 TERM_TYPE_REL_ID 记录ID int 主键
2 NORMALIZE_TERM_ID 归一词ID varchar 索引,外键
3 ENTITY_TYPE_ID 实体类型ID int 索引,外键
4 STATUS 1正常-1已删除 tinyint 索引
5 REL_TYPE 0属性关系1子类关系 int
原词与归一词映射表用于存储原词所对应归一词名称字典,因实体命名具有差异性,一个归一词可能对应多个原词,例“冠状动脉粥样硬化性心脏病-冠心病”、“缺血性心脏病-冠心病”,通过定时爬取更新数据,实现基础字典的不断扩充;具体表结构如表5所示:
表5原词与归一词映射表
序号 字段名 中文 类型 备注
1 ORIGINAL_WORD_ID 原词ID bigint 主键
2 ORIGINAL_WORD 原词 varchar 索引
3 ENTITY_TYPE_ID 实体类型ID int 索引
4 NORMALIZE_TERM_ID 归一词ID varchar 索引,外键
5 SOURCE_ID 来源于标注任务项ID int
6 STATUS 1正常-1已删除 tinyint 索引
术语关系表是以三元组+实体类型标签的形式,术语关系表用于存储处理好的知识数据。具体表结构如表6所示:
表6术语关系表
序号 字段名 中文 类型 备注
1 ENTITY_WORD_REL_ID 记录唯一标识 varchar 主键
2 ENTITY_WORD1_ID 起始实体ID varchar
3 ENTITY1_TYPE_ID 起始实体类型ID bigint
4 ENTITY_WORD1_NAME 归一词ID varchar 索引
5 ENTITY_TYPE_REL_CODE 关系编码 int 索引
6 ENTITY_WORD2_ID 目标实体ID varchar 索引
ENTITY2_TYPE_ID 目标实体类型 bigint
ENTITY_WORD2_NAME 目标实体内容 varchar
STATUS 1正常-1已删除 int
SOURCE_ID 来源ID int 外键
如附图2所示,本实施例步骤S3中的自顶向下构建知识图谱具体如下:
S301、定义知识图谱数据模式层,即标签层,根据知识领域定义大致标签层框架,确定标签实体的名称、定义及标签实体类型(STY、RL、DTY),判断已有标签定义表中是否存在该标签:
若存在,则保留之前数据;
若不存在,则将新数据存放于标签定义表中;应注意根据标签定义,一个标签名称存在多个标签类型,达到实体消歧的目的;
S302、以“起始实体类型-实体类型间关系-终止实体类型”三元组形式定义好标签实体间的关系,并根据标签定义表获取到实体类型标签ID,将数据存放于标签关系表中;
S303、通过已定义标签确定医学知识领域范围,运用数据爬取、NLP等技术手段获取相应知识信息;
S304、对获取到的知识信息进行数据处理:将获取到的知识信息数据处理成三元组形式,并对实体进行类型标注且通过MD5()函数获取到实体ID;表中,进行知识的更新和融合。
S305、将数据存储于术语关系表、归一词管理表、术语标签映射表、原词与归一词映射。
如附图3所示,本实施例步骤S4中的自底向上构建知识图谱具体如下:
S401、获取所需知识信息;其中,知识信息获取来源包括国家官网、企业官网或其他权威机构发布的医学知识信息或医学文献,百度百科、期刊论文、专利及词典获取到的知识信息以及通过专业技术总结得出的知识信息;
S402、对获取到的知识信息进行数据处理:将获取到的知识信息数据处理成三元组形式,并对实体进行类型标注且通过MD5()函数获取到实体ID;
S403、将数据存储于术语关系表、归一词管理表、术语标签映射表、原词与归一词映射表中,进行知识的更新和融合;
S404、提取出处理好的数据中所有实体类型标签,对其标记唯一ID及标签类型,并存放于标签定义表中;
S405、提取出处理好的数据中实体类型标签及实体与实体之间的关系,处理为三元组形式,即“起始实体类型-实体类型间关系-终止实体类型”,根据标签定义表获取到实体类型标签ID,将数据存放于标签关系表中。
本实施例步骤S5中的知识的更新和融合总体分为标签层融合和数据层融合,两层之间既有明确划分,又有密切关联;
其中,知识的更新和融合(即数据的处理和存储)具体如下:
S501、从步骤S3和步骤S4中获取到的知识多为文献或大段文本,为半结构化或非结构化数据,根据不同知识、获取到的不同数据信息,将其进行知识标注或利用自然语言处理、模型处理等技术进行知识提取,处理成三元组形式数据,将实体进行类型标注,并为每个类型为STY类型的实体词创建ID,将数据存储于术语关系表;
S502、标签层进行数据存储,具体如下:
S50201、获取实体类型标签及关系标签中在已有标签定义表中不存在的标签名称,并为其定义唯一ID,存储于标签定义表,应注意处理好的知识数据中,起始实体类型标签均为STY类型,关系标签均为RL类型;
S50202、获取已有标签关系表中不存在的标签关系三元组,并将其存储于标签关系表;
S503、数据层进行数据存储,具体如下:
S50301、根据术语关系表,提取知识起始实体和终止实体及其实体类型,判断实体在归一词管理表中是否存在,应注意的是该表中实体均为原词,将其与库中原词与归一词映射表中已有原词实体及实体类型数据进行比对,若该条数据在现有库中已存在,则舍弃新数据,保留已存在数据;若不存在,则将该数据创建唯一索引“归一词ID”,将新实体数据导入知识库归一词管理表中,扩充字典;
S50302、根据术语关系表和归一词管理表,将归一词管理表中新增数据及其实体类型添加至术语标签映射表;
S50303、根据术语关系表和术语标签映射表,提取知识起始实体和终止实体及其实体类型,判断术语标签映射表是否存在该归一词所对应类型,将已有归一词但无所对应类型的数据添加至术语标签映射表;
S50304、步骤S50302和步骤S50303在向术语标签映射表添加数据的过程中,判断在向术语标签映射表添加数据的过程中,若添加的实体类型存在父类类型,还应将其添加至父类类型上;
S50305、根据术语标签映射表,新增数据中归一词对应其本身原词,将数据添加至原词与归一词映射表中。
实施例2:
本发明提供了一种系统化医学领域知识图谱的构建装置,该装置包括,
创建单元,用于设计知识图谱初始架构,创建主题数据表:通过主键和外键将每个表之间互相关联,形成整个知识图谱;
收集更新单元,用于收集医学数据,构建原词与归一词相关词典表,并定时进行字典更新;
构建单元一,用于自顶向下构建知识图谱;
构建单元二,用于自底向上构建知识图谱;
存储单元,用于对每次获取的知识数据进行存储、更新和融合。
本实施例中的创建单元包括标签层和数据层两部分,标签层表示该数据实体的类型;标签层包括标签定义表、标签关系表、数据层包括归一词管理表、术语标签映射表、原词与归一词映射表及术语关系表;
其中,标签定义表用于存储标签层中标签定义,即实体类型标签,每个实体类型标签均有唯一的标签ID索引;
标签关系表用于存储标签与标签之间的关系,以三元组形式进行存储;
归一词管理表用于存储疾病、药物及手术的单个实体字典,每个实体字典均有唯一的中文名称及ID;
术语标签映射表用于存储单个实体及其实体类型标签,例:“高血压-疾病”、“阿莫西林-药品”,当存在一个实体对应多个标签且标签存在子类与父类关系时,同时把子类标签实体对应到父类标签上,例:标签关系表中存在“疾病-子类-症状”,则在术语标签映射表中还应添加“高血压-症状”。
原词与归一词映射表用于存储原词所对应归一词名称字典,因实体命名具有差异性,一个归一词可能对应多个原词,例“冠状动脉粥样硬化性心脏病-冠心病”、“缺血性心脏病-冠心病”,通过定时爬取更新数据,实现基础字典的不断扩充;
术语关系表是以三元组+实体类型标签的形式,术语关系表用于存储处理好的知识数据;
本实施例中的构建单元一包括,
定义模块,用于定义知识图谱数据模式层,即标签层,根据知识领域定义大致标签层框架,确定标签实体的名称、定义及标签实体类型,并将数据存放于标签定义表中;
定义模块二,用于定义好标签实体间的关系,以三元组形式将数据存放于标签关系表中;
获取模块一,用于通过已定义标签确定医学知识领域范围,获取相应知识信息;
数据处理模块一,用于对获取到的知识信息进行数据处理;
更新融合模块一,用于将处理好的数据存储于知识库,进行知识的更新和融合;
本实施例中的构建模块二包括,
获取模块二,用于获取所需知识信息;
数据处理模块二,用于对获取到的知识信息进行数据处理;
更新融合模块二,用于将处理好的数据存储于知识库,进行知识的更新和融合;
提取模块一,用于提取出处理好的数据中实体类型标签,并存放于标签定义表中;
提取模块二,用于提取出处理好的数据中实体类型标签及实体与实体之间的关系,以三元组形式将数据存放于标签关系表中。
本实施例中的存储单元包括,
获取模块三,从构建单元一和构建单元二获取到的知识数据进行处理,存储于术语关系表中;
获取模块四,用于在标签层获取已有标签定义表中不存在的标签名称,并将其存储;
获取模块五,用于在标签层获取已有标签关系表中不存在的标签关系三元组,并将其存储;
扩充模块,用于在数据层根据术语关系表提取知识起始实体和终止实体及其实体类型,将新实体数据导入知识库归一词管理表中,扩充字典;
添加模块一,用于在数据层根据术语关系表和归一词管理表,将归一词管理表中新增数据及其实体类型添加至术语标签映射表;
添加模块二,用于在数据层根据术语关系表和术语标签映射表,提取知识起始实体和终止实体及其实体类型,将已有归一词但无所对应类型的数据添加至术语标签映射表;
判断模块,用于向术语标签映射表添加数据的过程中,判断在向术语标签映射表添加数据的过程中,若添加的实体类型存在父类类型,还应将其添加至父类类型上;
添加模块三,用于在数据层根据术语标签映射表,新增数据中归一词对应其本身,将数据添加至原词与归一词映射表中。
实施例3:
本实施例还提供了一种电子设备,包括:存储器和处理器;
其中,存储器存储计算机执行指令;
处理器执行所述存储器存储的计算机执行指令,使得处理器执行本发明任一实施例中的系统化医学领域知识图谱的构建方法。
处理器可以是中央处理单元(,CPU),还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通过处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可用于储存计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现电子设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器还可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,只能存储卡(SMC),安全数字(SD)卡,闪存卡、至少一个磁盘存储期间、闪存器件、或其他易失性固态存储器件。
实施例4:
本实施例还提供了一种计算机可读存储介质,其中存储有多条指令,指令由处理器加载,使处理器执行本发明任一实施例中的系统化医学领域知识图谱的构建方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RYM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种系统化医学领域知识图谱的构建方法,其特征在于,该方法具体如下:
S1、设计知识图谱初始架构,创建主题数据表:通过主键和外键将每个表之间互相关联,形成整个知识图谱;
S2、收集医学数据,构建原词与归一词相关词典表,并定时进行字典更新;
S3、自顶向下构建知识图谱;
S4、自底向上构建知识图谱;
S5、多次执行步骤S3至步骤S4,并对每次获取的知识数据进行存储、更新和融合;
S6、完成知识图谱的构建。
2.根据权利要求1所述的系统化医学领域知识图谱的构建方法,其特征在于,步骤S1中的设计知识图谱初始架构,创建主题数据表包括标签层和数据层两部分,标签层表示该数据实体的类型;标签层包括标签定义表、标签关系表、数据层包括归一词管理表、术语标签映射表、原词与归一词映射表及术语关系表;
其中,标签定义表用于存储标签层中标签定义,即实体类型标签,每个实体类型标签均有唯一的标签ID索引;
标签关系表用于存储标签与标签之间的关系,以三元组形式进行存储;
归一词管理表用于存储疾病、药物及手术的单个实体字典,每个实体字典均有唯一的中文名称及ID;
术语标签映射表用于存储单个实体及其实体类型标签,当存在一个实体对应多个标签且标签存在子类与父类关系时,同时把子类标签实体对应到父类标签上;
原词与归一词映射表用于存储原词所对应归一词名称字典,一个归一词对应多个原词,通过定时爬取更新数据,实现基础字典的不断扩充;
术语关系表是以三元组+实体类型标签的形式,术语关系表用于存储处理好的知识数据。
3.根据权利要求1所述的系统化医学领域知识图谱的构建方法,其特征在于,步骤S3中的自顶向下构建知识图谱具体如下:
S301、定义知识图谱数据模式层,即标签层,根据知识领域定义标签层框架,确定标签实体的名称、定义及标签实体类型,并将数据存放于标签定义表中;
S302、定义好标签实体间的关系,以三元组形式将数据存放于标签关系表中;
S303、通过已定义标签确定医学知识领域范围,获取相应知识信息;
S304、对获取到的知识信息进行数据处理;
S305、将处理好的数据存储于知识库,进行知识的更新和融合。
4.根据权利要求1所述的系统化医学领域知识图谱的构建方法,其特征在于,步骤S4中的自底向上构建知识图谱具体如下:
S401、获取所需知识信息;其中,知识信息获取来源包括国家官网、企业官网或其他权威机构发布的医学知识信息或医学文献,百度百科、期刊论文、专利及词典获取到的知识信息以及通过专业技术总结得出的知识信息;
S402、对获取到的知识信息进行数据处理;
S403、将处理好的数据存储于知识库,进行知识的更新和融合;
S404、提取出处理好的数据中实体类型标签,并存放于标签定义表中;
S405、提取出处理好的数据中实体类型标签及实体与实体之间的关系,以三元组形式将数据存放于标签关系表中。
5.根据权利要求1所述的系统化医学领域知识图谱的构建方法,其特征在于,步骤S5中的知识的更新和融合总体分为标签层融合和数据层融合;
其中,知识的更新和融合具体如下:
S501、从步骤S3和步骤S4中获取到的知识数据进行处理,存储于术语关系表中;
S502、标签层进行数据存储,具体如下:
S50201、获取已有标签定义表中不存在的标签名称,并将其存储;
S50202、获取已有标签关系表中不存在的标签关系三元组,并将其存储;
S503、数据层进行数据存储,具体如下:
S50301、根据术语关系表提取知识起始实体和终止实体及其实体类型,将新实体数据导入知识库归一词管理表中,扩充字典;
S50302、根据术语关系表和归一词管理表,将归一词管理表中新增数据及其实体类型添加至术语标签映射表;
S50303、根据术语关系表和术语标签映射表,提取知识起始实体和终止实体及其实体类型,将已有归一词但无所对应类型的数据添加至术语标签映射表;
S50304、步骤S50302和步骤S50303在向术语标签映射表添加数据的过程中,判断在向术语标签映射表添加数据的过程中,若添加的实体类型存在父类类型,还应将其添加至父类类型上;
S50305、根据术语标签映射表,新增数据中归一词对应其本身,将数据添加至原词与归一词映射表中。
6.一种系统化医学领域知识图谱的构建装置,其特征在于,该装置包括,
创建单元,用于设计知识图谱初始架构,创建主题数据表:通过主键和外键将每个表之间互相关联,形成整个知识图谱;
收集更新单元,用于收集医学数据,构建原词与归一词相关词典表,并定时进行字典更新;
构建单元一,用于自顶向下构建知识图谱;
构建单元二,用于自底向上构建知识图谱;
存储单元,用于对每次获取的知识数据进行存储、更新和融合。
7.根据权利要求6所述的系统化医学领域知识图谱的构建装置,其特征在于,创建单元包括标签层和数据层两部分,标签层表示该数据实体的类型;标签层包括标签定义表、标签关系表、数据层包括归一词管理表、术语标签映射表、原词与归一词映射表及术语关系表;
其中,标签定义表用于存储标签层中标签定义,即实体类型标签,每个实体类型标签均有唯一的标签ID索引;
标签关系表用于存储标签与标签之间的关系,以三元组形式进行存储;
归一词管理表用于存储疾病、药物及手术的单个实体字典,每个实体字典均有唯一的中文名称及ID;
术语标签映射表用于存储单个实体及其实体类型标签,当存在一个实体对应多个标签且标签存在子类与父类关系时,同时把子类标签实体对应到父类标签上;
原词与归一词映射表用于存储原词所对应归一词名称字典,一个归一词对应多个原词,通过定时爬取更新数据,实现基础字典的不断扩充;
术语关系表是以三元组+实体类型标签的形式,术语关系表用于存储处理好的知识数据;
构建单元一包括,
定义模块,用于定义知识图谱数据模式层,即标签层,根据知识领域定义标签层框架,确定标签实体的名称、定义及标签实体类型,并将数据存放于标签定义表中;
定义模块二,用于定义好标签实体间的关系,以三元组形式将数据存放于标签关系表中;
获取模块一,用于通过已定义标签确定医学知识领域范围,获取相应知识信息;
数据处理模块一,用于对获取到的知识信息进行数据处理;
更新融合模块一,用于将处理好的数据存储于知识库,进行知识的更新和融合;
构建模块二包括,
获取模块二,用于获取所需知识信息;
数据处理模块二,用于对获取到的知识信息进行数据处理;
更新融合模块二,用于将处理好的数据存储于知识库,进行知识的更新和融合;
提取模块一,用于提取出处理好的数据中实体类型标签,并存放于标签定义表中;
提取模块二,用于提取出处理好的数据中实体类型标签及实体与实体之间的关系,以三元组形式将数据存放于标签关系表中。
8.根据权利要求6或7所述的系统化医学领域知识图谱的构建装置,其特征在于,存储单元包括,
获取模块三,从构建单元一和构建单元二获取到的知识数据进行处理,存储于术语关系表中;
获取模块四,用于在标签层获取已有标签定义表中不存在的标签名称,并将其存储;
获取模块五,用于在标签层获取已有标签关系表中不存在的标签关系三元组,并将其存储;
扩充模块,用于在数据层根据术语关系表提取知识起始实体和终止实体及其实体类型,将新实体数据导入知识库归一词管理表中,扩充字典;
添加模块一,用于在数据层根据术语关系表和归一词管理表,将归一词管理表中新增数据及其实体类型添加至术语标签映射表;
添加模块二,用于在数据层根据术语关系表和术语标签映射表,提取知识起始实体和终止实体及其实体类型,将已有归一词但无所对应类型的数据添加至术语标签映射表;
判断模块,用于向术语标签映射表添加数据的过程中,判断在向术语标签映射表添加数据的过程中,若添加的实体类型存在父类类型,还应将其添加至父类类型上;
添加模块三,用于在数据层根据术语标签映射表,新增数据中归一词对应其本身,将数据添加至原词与归一词映射表中。
9.一种电子设备,其特征在于,包括:存储器和至少一个处理器;
其中,所述存储器上存储有计算机程序;
所述至少一个处理器执行所述存储器存储的计算机程序,使得所述至少一个处理器执行如权利要求1至5任一项所述的系统化医学领域知识图谱的构建方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如权利要求1至5中任一项所述的系统化医学领域知识图谱的构建方法。
CN202210414405.4A 2022-04-20 2022-04-20 系统化医学领域知识图谱的构建方法及装置 Pending CN115033648A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210414405.4A CN115033648A (zh) 2022-04-20 2022-04-20 系统化医学领域知识图谱的构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210414405.4A CN115033648A (zh) 2022-04-20 2022-04-20 系统化医学领域知识图谱的构建方法及装置

Publications (1)

Publication Number Publication Date
CN115033648A true CN115033648A (zh) 2022-09-09

Family

ID=83119907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210414405.4A Pending CN115033648A (zh) 2022-04-20 2022-04-20 系统化医学领域知识图谱的构建方法及装置

Country Status (1)

Country Link
CN (1) CN115033648A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115600603A (zh) * 2022-12-15 2023-01-13 南京邮电大学(Cn) 一种面向中文冠心病诊断报告的命名实体消歧方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420212A (zh) * 2020-11-27 2021-02-26 湖南师范大学 一种脑卒中医疗知识图谱的构建方法
CN114004237A (zh) * 2021-09-28 2022-02-01 深圳市罗湖区人民医院 一种基于膀胱癌知识图谱的智能问答系统构建方法
CN114255884A (zh) * 2021-12-13 2022-03-29 首都医科大学附属北京安贞医院 一种高血压药物治疗知识图谱构建方法以及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420212A (zh) * 2020-11-27 2021-02-26 湖南师范大学 一种脑卒中医疗知识图谱的构建方法
CN114004237A (zh) * 2021-09-28 2022-02-01 深圳市罗湖区人民医院 一种基于膀胱癌知识图谱的智能问答系统构建方法
CN114255884A (zh) * 2021-12-13 2022-03-29 首都医科大学附属北京安贞医院 一种高血压药物治疗知识图谱构建方法以及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115600603A (zh) * 2022-12-15 2023-01-13 南京邮电大学(Cn) 一种面向中文冠心病诊断报告的命名实体消歧方法
CN115600603B (zh) * 2022-12-15 2023-04-07 南京邮电大学 一种面向中文冠心病诊断报告的命名实体消歧方法

Similar Documents

Publication Publication Date Title
US11960832B2 (en) Cross-document intelligent authoring and processing, with arbitration for semantically-annotated documents
Berman Principles of big data: preparing, sharing, and analyzing complex information
US20170124158A1 (en) Method and system for ontology driven data collection and processing
US11216492B2 (en) Document annotation based on enterprise knowledge graph
CN112232074B (zh) 实体关系抽取方法、装置、电子设备及存储介质
US9224103B1 (en) Automatic annotation for training and evaluation of semantic analysis engines
US11397855B2 (en) Data standardization rules generation
WO2021146831A1 (zh) 实体识别的方法和装置、建立词典的方法、设备、介质
CN109857736A (zh) 医院异构系统的数据编码统一化方法及系统、设备、介质
Konstantinidis et al. The role of taxonomies in social media and the semantic web for health education
CN112347204B (zh) 药物研发知识库构建方法及装置
CN102567455A (zh) 利用语句的加权流行数据来管理文档的方法与系统
Grossman et al. A method for harmonization of clinical abbreviation and acronym sense inventories
CN115033648A (zh) 系统化医学领域知识图谱的构建方法及装置
CN109299214B (zh) 文本信息提取方法、装置、介质及电子设备
WO2022134577A1 (zh) 翻译错误识别方法、装置、计算机设备及可读存储介质
Topçu et al. Data standardization in digital libraries: An ETD case in Turkey
De Weerdt Creating, linking, and analyzing Chinese and Korean datasets: digital text annotation in MARKUS and COMPARATIVUS
WO2007117807A2 (en) Linguistic image labeling incorporating decision relevant perceptual and semantic data, and relationships data
Boudjellal et al. A silver standard biomedical corpus for Arabic language
Redd et al. A pilot study of a heuristic algorithm for novel template identification from VA electronic medical record text
Nuzzolese et al. MACJa: metadata and citations jailbreaker
CN112786132B (zh) 病历文本数据分割方法、装置、可读存储介质及电子设备
Goldberg et al. Address standardization
Pink Slot filling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination