CN115033648A - 系统化医学领域知识图谱的构建方法及装置 - Google Patents
系统化医学领域知识图谱的构建方法及装置 Download PDFInfo
- Publication number
- CN115033648A CN115033648A CN202210414405.4A CN202210414405A CN115033648A CN 115033648 A CN115033648 A CN 115033648A CN 202210414405 A CN202210414405 A CN 202210414405A CN 115033648 A CN115033648 A CN 115033648A
- Authority
- CN
- China
- Prior art keywords
- data
- knowledge
- label
- entity
- storing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 40
- 230000009897 systematic effect Effects 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000002596 correlated effect Effects 0.000 claims abstract description 5
- 238000013507 mapping Methods 0.000 claims description 72
- 238000010606 normalization Methods 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 35
- 230000000875 corresponding effect Effects 0.000 claims description 34
- 201000010099 disease Diseases 0.000 claims description 14
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 239000003814 drug Substances 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 229940079593 drug Drugs 0.000 claims description 10
- 230000009193 crawling Effects 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000007726 management method Methods 0.000 description 24
- 206010020772 Hypertension Diseases 0.000 description 8
- 208000024891 symptom Diseases 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 208000029078 coronary artery disease Diseases 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000003143 atherosclerotic effect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 208000019622 heart disease Diseases 0.000 description 2
- 208000031225 myocardial ischemia Diseases 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 102000008016 Eukaryotic Initiation Factor-3 Human genes 0.000 description 1
- 108010089790 Eukaryotic Initiation Factor-3 Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了系统化医学领域知识图谱的构建方法及装置,属于知识图谱构建技术领域,本发明要解决的技术问题为如何实现覆盖知识广泛、精准且运用方便的医学领域知识图谱,采用的技术方案为:该方法具体如下:S1、设计知识图谱初始架构,创建主题数据表:通过主键和外键将每个表之间互相关联,形成整个知识图谱;S2、收集医学数据,构建原词与归一词相关词典表,并定时进行字典更新;S3、自顶向下构建知识图谱;S4、自底向上构建知识图谱;S5、多次执行步骤S3至步骤S4,并对每次获取的知识数据进行存储、更新和融合;S6、完成知识图谱的构建。
Description
技术领域
本发明涉及知识图谱构建技术领域,具体地说是一种系统化医学领域知识图谱的构建方法及装置。
背景技术
知识图谱是抽象知识的结构化、形象化展现,是使用语义网络翻译成三元组形式并进行高质量结构化数据存储的知识库,是人工智能技术助力医疗领域发展的基础,是使智能化医疗更加精准可信的技术核心。
随着医疗信息化的发展与普及,现阶段逐步打造智慧医疗,医疗信息搜索引擎、医疗问答系统、医疗决策支持系统等技术应运而生,而其建设发展的基础必须要有一套准确完整的知识图谱进行支撑。由于各领域的特点不一,且现阶段的医学知识图谱结构比较简单,知识覆盖面不够广泛,在实际应用中存在着许多局限性,发展不够全面,故如何实现覆盖知识广泛、精准且运用方便的医学领域知识图谱是目前亟待解决的技术问题。
发明内容
本发明的技术任务是提供一种系统化医学领域知识图谱的构建方法及装置,来解决如何实现覆盖知识广泛、精准且运用方便的医学领域知识图谱的问题。
本发明的技术任务是按以下方式实现的,一种系统化医学领域知识图谱的构建方法,该方法具体如下:
S1、设计知识图谱初始架构,创建主题数据表:通过主键和外键将每个表之间互相关联,形成整个知识图谱;
S2、收集医学数据,构建原词与归一词相关词典表,并定时进行字典更新;
S3、自顶向下构建知识图谱;
S4、自底向上构建知识图谱;
S5、多次执行步骤S3至步骤S4,并对每次获取的知识数据进行存储、更新和融合;
S6、完成知识图谱的构建。
作为优选,步骤S1中的设计知识图谱初始架构,创建主题数据表包括标签层和数据层两部分,标签层表示该数据实体的类型;标签层包括标签定义表、标签关系表、数据层包括归一词管理表、术语标签映射表、原词与归一词映射表及术语关系表;
其中,标签定义表用于存储标签层中标签定义,即实体类型标签,每个实体类型标签均有唯一的标签ID索引;
标签关系表用于存储标签与标签之间的关系,以三元组形式进行存储;
归一词管理表用于存储疾病、药物及手术的单个实体字典,每个实体字典均有唯一的中文名称及ID;
术语标签映射表用于存储单个实体及其实体类型标签,例:“高血压-疾病”、“阿莫西林-药品”,当存在一个实体对应多个标签且标签存在子类与父类关系时,同时把子类标签实体对应到父类标签上,例:标签关系表中存在“疾病-子类-症状”,则在术语标签映射表中还应添加“高血压-症状”。
原词与归一词映射表用于存储原词所对应归一词名称字典,因实体命名具有差异性,一个归一词可能对应多个原词,例“冠状动脉粥样硬化性心脏病-冠心病”、“缺血性心脏病-冠心病”,通过定时爬取更新数据,实现基础字典的不断扩充;
术语关系表是以三元组+实体类型标签的形式,术语关系表用于存储处理好的知识数据。
作为优选,步骤S3中的自顶向下构建知识图谱具体如下:
S301、定义知识图谱数据模式层,即标签层,根据知识领域定义大致标签层框架,确定标签实体的名称、定义及标签实体类型,并将数据存放于标签定义表中;
S302、定义好标签实体间的关系,以三元组形式将数据存放于标签关系表中;
S303、通过已定义标签确定医学知识领域范围,获取相应知识信息;
S304、对获取到的知识信息进行数据处理;
S305、将处理好的数据存储于知识库,进行知识的更新和融合。
作为优选,步骤S4中的自底向上构建知识图谱具体如下:
S401、获取所需知识信息;其中,知识信息获取来源包括国家官网、企业官网或其他权威机构发布的医学知识信息或医学文献,百度百科、期刊论文、专利及词典获取到的知识信息以及通过专业技术总结得出的知识信息;
S402、对获取到的知识信息进行数据处理;
S403、将处理好的数据存储于知识库,进行知识的更新和融合;
S404、提取出处理好的数据中实体类型标签,并存放于标签定义表中;
S405、提取出处理好的数据中实体类型标签及实体与实体之间的关系,以三元组形式将数据存放于标签关系表中。
作为优选,步骤S5中的知识的更新和融合总体分为标签层融合和数据层融合,两层之间既有明确划分,又有密切关联;
其中,知识的更新和融合(即数据的处理和存储)具体如下:
S501、从步骤S3和步骤S4中获取到的知识数据进行处理,存储于术语关系表中;
S502、标签层进行数据存储,具体如下:
S50201、获取已有标签定义表中不存在的标签名称,并将其存储;
S50202、获取已有标签关系表中不存在的标签关系三元组,并将其存储;
S503、数据层进行数据存储,具体如下:
S50301、根据术语关系表提取知识起始实体和终止实体及其实体类型,将新实体数据导入知识库归一词管理表中,扩充字典;
S50302、根据术语关系表和归一词管理表,将归一词管理表中新增数据及其实体类型添加至术语标签映射表;
S50303、根据术语关系表和术语标签映射表,提取知识起始实体和终止实体及其实体类型,将已有归一词但无所对应类型的数据添加至术语标签映射表;
S50304、步骤S50302和步骤S50303在向术语标签映射表添加数据的过程中,判断在向术语标签映射表添加数据的过程中,若添加的实体类型存在父类类型,还应将其添加至父类类型上;
S50305、根据术语标签映射表,新增数据中归一词对应其本身,将数据添加至原词与归一词映射表中。
一种系统化医学领域知识图谱的构建装置,该装置包括,
创建单元,用于设计知识图谱初始架构,创建主题数据表:通过主键和外键将每个表之间互相关联,形成整个知识图谱;
收集更新单元,用于收集医学数据,构建原词与归一词相关词典表,并定时进行字典更新;
构建单元一,用于自顶向下构建知识图谱;
构建单元二,用于自底向上构建知识图谱;
存储单元,用于对每次获取的知识数据进行存储、更新和融合。
作为优选,创建单元包括标签层和数据层两部分,标签层表示该数据实体的类型;标签层包括标签定义表、标签关系表、数据层包括归一词管理表、术语标签映射表、原词与归一词映射表及术语关系表;
其中,标签定义表用于存储标签层中标签定义,即实体类型标签,每个实体类型标签均有唯一的标签ID索引;
标签关系表用于存储标签与标签之间的关系,以三元组形式进行存储;
归一词管理表用于存储疾病、药物及手术的单个实体字典,每个实体字典均有唯一的中文名称及ID;
术语标签映射表用于存储单个实体及其实体类型标签,例:“高血压-疾病”、“阿莫西林-药品”,当存在一个实体对应多个标签且标签存在子类与父类关系时,同时把子类标签实体对应到父类标签上,例:标签关系表中存在“疾病-子类-症状”,则在术语标签映射表中还应添加“高血压-症状”。
原词与归一词映射表用于存储原词所对应归一词名称字典,因实体命名具有差异性,一个归一词可能对应多个原词,例“冠状动脉粥样硬化性心脏病-冠心病”、“缺血性心脏病-冠心病”,通过定时爬取更新数据,实现基础字典的不断扩充;
术语关系表是以三元组+实体类型标签的形式,术语关系表用于存储处理好的知识数据;
构建单元一包括,
定义模块,用于定义知识图谱数据模式层,即标签层,根据知识领域定义大致标签层框架,确定标签实体的名称、定义及标签实体类型,并将数据存放于标签定义表中;
定义模块二,用于定义好标签实体间的关系,以三元组形式将数据存放于标签关系表中;
获取模块一,用于通过已定义标签确定医学知识领域范围,获取相应知识信息;
数据处理模块一,用于对获取到的知识信息进行数据处理;
更新融合模块一,用于将处理好的数据存储于知识库,进行知识的更新和融合;
构建模块二包括,
获取模块二,用于获取所需知识信息;
数据处理模块二,用于对获取到的知识信息进行数据处理;
更新融合模块二,用于将处理好的数据存储于知识库,进行知识的更新和融合;
提取模块一,用于提取出处理好的数据中实体类型标签,并存放于标签定义表中;
提取模块二,用于提取出处理好的数据中实体类型标签及实体与实体之间的关系,以三元组形式将数据存放于标签关系表中。
更优地,存储单元包括,
获取模块三,从构建单元一和构建单元二获取到的知识数据进行处理,存储于术语关系表中;
获取模块四,用于在标签层获取已有标签定义表中不存在的标签名称,并将其存储;
获取模块五,用于在标签层获取已有标签关系表中不存在的标签关系三元组,并将其存储;
扩充模块,用于在数据层根据术语关系表提取知识起始实体和终止实体及其实体类型,将新实体数据导入知识库归一词管理表中,扩充字典;
添加模块一,用于在数据层根据术语关系表和归一词管理表,将归一词管理表中新增数据及其实体类型添加至术语标签映射表;
添加模块二,用于在数据层根据术语关系表和术语标签映射表,提取知识起始实体和终止实体及其实体类型,将已有归一词但无所对应类型的数据添加至术语标签映射表;
判断模块,用于向术语标签映射表添加数据的过程中,判断在向术语标签映射表添加数据的过程中,若添加的实体类型存在父类类型,还应将其添加至父类类型上;
添加模块三,用于在数据层根据术语标签映射表,新增数据中归一词对应其本身,将数据添加至原词与归一词映射表中。
一种电子设备,包括:存储器和至少一个处理器;
其中,所述存储器上存储有计算机程序;
所述至少一个处理器执行所述存储器存储的计算机程序,使得所述至少一个处理器执行如上述的系统化医学领域知识图谱的构建方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如上述的系统化医学领域知识图谱的构建方法。
本发明的系统化医学领域知识图谱的构建方法及装置具有以下优点:
(一)本发明通过自顶向下和自底向上两种构建方式相结合的方法,实现了知识图谱的高效、准确、快速的构建及更新;
(二)本发明首先根据数据,通过标签层和数据层两部分构建知识图谱初始架构,建立知识库主题表,再根据主题表结构进行数据处理和存储,此架构将标签层和数据层合理分层又依据主外键紧密连接,达到了更充分高效的运用该知识图谱的效果;
(三)对于知识获取,相比于直接从已有知识库中导入知识信息,本发明还增加了从各大文献中利用自然语言处理技术提取所需知识,并利用深度学习模型处理,提取隐藏知识,扩大了知识范围,增加了知识涵盖量;
(四)本发明在构建知识图谱的过程中,通过数据缜密对比可减少冗余度,且达到解决了共指消解问题和实体消歧问题的目的;
(五)本发明达到既高效又精准,易保存易读取的目的,保证数据信息的精准性,并且能够助力于智能诊断、智能问答等应用系统开发研究。
附图说明
下面结合附图对本发明进一步说明。
附图1为系统化医学领域知识图谱的构建方法的流程框图;
附图2为自顶向下构建知识图谱的流程框图;
附图3为自底向上构建知识图谱的流程框图;
附图4为知识更新及融合的流程框图。
具体实施方式
参照说明书附图和具体实施例对本发明的系统化医学领域知识图谱的构建方法及装置作以下详细地说明。
实施例1:
如附图1所示,本实施例提供了一种系统化医学领域知识图谱的构建方法,该方法具体如下:
S1、设计知识图谱初始架构,创建主题数据表:通过主键和外键将每个表之间互相关联,形成整个知识图谱;
S2、收集医学数据,构建原词与归一词相关词典表,并定时进行字典更新;该字典基础数据是直接从各医院或医疗机构中获取到的原词数据,需经过专业数据治理,将单个实体进行统一归一化处理,形成“原词-归一词”形式的字典格式,以此构成基础字典,本发明中字典除获取的医院数据之外,还融合了ICD10国家标准版、常用临床医学名词、全国医疗卫生机构业务科室分类与代码、手术国家标准3.0、国家药监局、临床医学路径、Cmekg知识等权威知识文献;
S3、自顶向下构建知识图谱;
S4、自底向上构建知识图谱;
S5、多次执行步骤S3至步骤S4,并对每次获取的知识数据进行存储、更新和融合;
S6、完成知识图谱的构建。
本实施例中的步骤S1中的设计知识图谱初始架构,创建主题数据表包括标签层和数据层两部分,标签层表示该数据实体的类型;标签层包括标签定义表、标签关系表、数据层包括归一词管理表、术语标签映射表、原词与归一词映射表及术语关系表;
其中,标签定义表用于存储标签层中标签定义,即实体类型标签,每个实体类型标签均有唯一的标签ID索引;应注意根据标签定义,一个标签名称存在多个标签类型(STY:语义类型、RL:属性关系、DTY:链接、文本、数字、日期、URL、浮点数、整数、关系组ID),具体表结构如表1所示:
表1标签定义表
序号 | 字段名 | 中文 | 类型 | 备注 |
1 | ENTITY_TYPE_ID | 实体类型ID | int | 主键 |
2 | ENTITY_TYPE_NAME_CN | 实体类型中文名 | varchar | 索引 |
3 | ENTITY_TYPE_DEF | 实体类型定义 | varchar | |
4 | RECORD_TYPE | 值类型 | varchar | 索引 |
5 | SOURCE_ID | 数据来源,代码来自归一词来源字典 | varchar | |
6 | STATUS | 1正常-1删除 | tinyint |
标签关系表用于存储标签与标签之间的关系,以三元组形式进行存储;即“起始实体类型标签-标签间关系-终止实体类型标签”,并映射上实体类型标签ID,具体表结构如表2所示:
表2标签关系表
序号 | 字段名 | 中文 | 类型 | 备注 |
1 | ENTITY_TYPE_REL_ID | 实体类型间关系ID | int | 主键 |
2 | ENTITY_TYPE1_ID | 实体类型1的ID | int | 索引,外键 |
3 | ENTITY_TYPE_REL_CODE | 实体类型关系编码 | varchar | 索引,外键 |
4 | ENTITY_TYPE2_ID | 实体类型2的ID | int | 索引,外键 |
5 | ENTITY_TYPE1_NAME | 实体类型1的中文名称 | varchar | |
6 | DESC | 类型间关系描述 | varchar | |
7 | ENTITY_TYPE1_NAME | 实体类型2的中文名称 | varchar | |
8 | SOURCED_ID | 数据来源ID | int | |
9 | STATUS | 1正常-1删除 | tinyint |
归一词管理表用于存储疾病、药物及手术等单个实体字典,每个实体字典均有唯一的中文名称及ID;本实施例中运用MD5()函数为中文名称加密以此生成归一词ID,具体表结构如表3所示:
表3归一词管理表
序号 | 字段名 | 中文 | 类型 | 备注 |
1 | NORMALIZE_TERM_ID | 归一词ID | varchar | 主键,索引 |
2 | NORMALIZE_TERM_CODE | 归一词编码 | varchar | |
3 | NORMALIZE_TERM_CN | 归一词中文名 | varchar | 索引 |
4 | NORMALIZE_TERM_EN | 归一词英文名 | varchar | |
5 | NORMALIZE_TERM_SOURCE_ID | 归一词来源 | int | 外键 |
6 | STATUS | 1正常-1已删除 | tinyint |
术语标签映射表用于存储单个实体及其实体类型标签,例:“高血压-疾病”、“阿莫西林-药品”,当存在一个实体对应多个标签且标签存在子类与父类关系时,同时把子类标签实体对应到父类标签上,例:标签关系表中存在“疾病-子类-症状”,则在术语标签映射表中还应添加“高血压-症状”。具体表结构如表4所示:
表4术语标签映射表
序号 | 字段名 | 中文 | 类型 | 备注 |
1 | TERM_TYPE_REL_ID | 记录ID | int | 主键 |
2 | NORMALIZE_TERM_ID | 归一词ID | varchar | 索引,外键 |
3 | ENTITY_TYPE_ID | 实体类型ID | int | 索引,外键 |
4 | STATUS | 1正常-1已删除 | tinyint | 索引 |
5 | REL_TYPE | 0属性关系1子类关系 | int |
原词与归一词映射表用于存储原词所对应归一词名称字典,因实体命名具有差异性,一个归一词可能对应多个原词,例“冠状动脉粥样硬化性心脏病-冠心病”、“缺血性心脏病-冠心病”,通过定时爬取更新数据,实现基础字典的不断扩充;具体表结构如表5所示:
表5原词与归一词映射表
序号 | 字段名 | 中文 | 类型 | 备注 |
1 | ORIGINAL_WORD_ID | 原词ID | bigint | 主键 |
2 | ORIGINAL_WORD | 原词 | varchar | 索引 |
3 | ENTITY_TYPE_ID | 实体类型ID | int | 索引 |
4 | NORMALIZE_TERM_ID | 归一词ID | varchar | 索引,外键 |
5 | SOURCE_ID | 来源于标注任务项ID | int | |
6 | STATUS | 1正常-1已删除 | tinyint | 索引 |
术语关系表是以三元组+实体类型标签的形式,术语关系表用于存储处理好的知识数据。具体表结构如表6所示:
表6术语关系表
序号 | 字段名 | 中文 | 类型 | 备注 |
1 | ENTITY_WORD_REL_ID | 记录唯一标识 | varchar | 主键 |
2 | ENTITY_WORD1_ID | 起始实体ID | varchar | |
3 | ENTITY1_TYPE_ID | 起始实体类型ID | bigint | |
4 | ENTITY_WORD1_NAME | 归一词ID | varchar | 索引 |
5 | ENTITY_TYPE_REL_CODE | 关系编码 | int | 索引 |
6 | ENTITY_WORD2_ID | 目标实体ID | varchar | 索引 |
ENTITY2_TYPE_ID | 目标实体类型 | bigint | ||
ENTITY_WORD2_NAME | 目标实体内容 | varchar | ||
STATUS | 1正常-1已删除 | int | ||
SOURCE_ID | 来源ID | int | 外键 |
如附图2所示,本实施例步骤S3中的自顶向下构建知识图谱具体如下:
S301、定义知识图谱数据模式层,即标签层,根据知识领域定义大致标签层框架,确定标签实体的名称、定义及标签实体类型(STY、RL、DTY),判断已有标签定义表中是否存在该标签:
若存在,则保留之前数据;
若不存在,则将新数据存放于标签定义表中;应注意根据标签定义,一个标签名称存在多个标签类型,达到实体消歧的目的;
S302、以“起始实体类型-实体类型间关系-终止实体类型”三元组形式定义好标签实体间的关系,并根据标签定义表获取到实体类型标签ID,将数据存放于标签关系表中;
S303、通过已定义标签确定医学知识领域范围,运用数据爬取、NLP等技术手段获取相应知识信息;
S304、对获取到的知识信息进行数据处理:将获取到的知识信息数据处理成三元组形式,并对实体进行类型标注且通过MD5()函数获取到实体ID;表中,进行知识的更新和融合。
S305、将数据存储于术语关系表、归一词管理表、术语标签映射表、原词与归一词映射。
如附图3所示,本实施例步骤S4中的自底向上构建知识图谱具体如下:
S401、获取所需知识信息;其中,知识信息获取来源包括国家官网、企业官网或其他权威机构发布的医学知识信息或医学文献,百度百科、期刊论文、专利及词典获取到的知识信息以及通过专业技术总结得出的知识信息;
S402、对获取到的知识信息进行数据处理:将获取到的知识信息数据处理成三元组形式,并对实体进行类型标注且通过MD5()函数获取到实体ID;
S403、将数据存储于术语关系表、归一词管理表、术语标签映射表、原词与归一词映射表中,进行知识的更新和融合;
S404、提取出处理好的数据中所有实体类型标签,对其标记唯一ID及标签类型,并存放于标签定义表中;
S405、提取出处理好的数据中实体类型标签及实体与实体之间的关系,处理为三元组形式,即“起始实体类型-实体类型间关系-终止实体类型”,根据标签定义表获取到实体类型标签ID,将数据存放于标签关系表中。
本实施例步骤S5中的知识的更新和融合总体分为标签层融合和数据层融合,两层之间既有明确划分,又有密切关联;
其中,知识的更新和融合(即数据的处理和存储)具体如下:
S501、从步骤S3和步骤S4中获取到的知识多为文献或大段文本,为半结构化或非结构化数据,根据不同知识、获取到的不同数据信息,将其进行知识标注或利用自然语言处理、模型处理等技术进行知识提取,处理成三元组形式数据,将实体进行类型标注,并为每个类型为STY类型的实体词创建ID,将数据存储于术语关系表;
S502、标签层进行数据存储,具体如下:
S50201、获取实体类型标签及关系标签中在已有标签定义表中不存在的标签名称,并为其定义唯一ID,存储于标签定义表,应注意处理好的知识数据中,起始实体类型标签均为STY类型,关系标签均为RL类型;
S50202、获取已有标签关系表中不存在的标签关系三元组,并将其存储于标签关系表;
S503、数据层进行数据存储,具体如下:
S50301、根据术语关系表,提取知识起始实体和终止实体及其实体类型,判断实体在归一词管理表中是否存在,应注意的是该表中实体均为原词,将其与库中原词与归一词映射表中已有原词实体及实体类型数据进行比对,若该条数据在现有库中已存在,则舍弃新数据,保留已存在数据;若不存在,则将该数据创建唯一索引“归一词ID”,将新实体数据导入知识库归一词管理表中,扩充字典;
S50302、根据术语关系表和归一词管理表,将归一词管理表中新增数据及其实体类型添加至术语标签映射表;
S50303、根据术语关系表和术语标签映射表,提取知识起始实体和终止实体及其实体类型,判断术语标签映射表是否存在该归一词所对应类型,将已有归一词但无所对应类型的数据添加至术语标签映射表;
S50304、步骤S50302和步骤S50303在向术语标签映射表添加数据的过程中,判断在向术语标签映射表添加数据的过程中,若添加的实体类型存在父类类型,还应将其添加至父类类型上;
S50305、根据术语标签映射表,新增数据中归一词对应其本身原词,将数据添加至原词与归一词映射表中。
实施例2:
本发明提供了一种系统化医学领域知识图谱的构建装置,该装置包括,
创建单元,用于设计知识图谱初始架构,创建主题数据表:通过主键和外键将每个表之间互相关联,形成整个知识图谱;
收集更新单元,用于收集医学数据,构建原词与归一词相关词典表,并定时进行字典更新;
构建单元一,用于自顶向下构建知识图谱;
构建单元二,用于自底向上构建知识图谱;
存储单元,用于对每次获取的知识数据进行存储、更新和融合。
本实施例中的创建单元包括标签层和数据层两部分,标签层表示该数据实体的类型;标签层包括标签定义表、标签关系表、数据层包括归一词管理表、术语标签映射表、原词与归一词映射表及术语关系表;
其中,标签定义表用于存储标签层中标签定义,即实体类型标签,每个实体类型标签均有唯一的标签ID索引;
标签关系表用于存储标签与标签之间的关系,以三元组形式进行存储;
归一词管理表用于存储疾病、药物及手术的单个实体字典,每个实体字典均有唯一的中文名称及ID;
术语标签映射表用于存储单个实体及其实体类型标签,例:“高血压-疾病”、“阿莫西林-药品”,当存在一个实体对应多个标签且标签存在子类与父类关系时,同时把子类标签实体对应到父类标签上,例:标签关系表中存在“疾病-子类-症状”,则在术语标签映射表中还应添加“高血压-症状”。
原词与归一词映射表用于存储原词所对应归一词名称字典,因实体命名具有差异性,一个归一词可能对应多个原词,例“冠状动脉粥样硬化性心脏病-冠心病”、“缺血性心脏病-冠心病”,通过定时爬取更新数据,实现基础字典的不断扩充;
术语关系表是以三元组+实体类型标签的形式,术语关系表用于存储处理好的知识数据;
本实施例中的构建单元一包括,
定义模块,用于定义知识图谱数据模式层,即标签层,根据知识领域定义大致标签层框架,确定标签实体的名称、定义及标签实体类型,并将数据存放于标签定义表中;
定义模块二,用于定义好标签实体间的关系,以三元组形式将数据存放于标签关系表中;
获取模块一,用于通过已定义标签确定医学知识领域范围,获取相应知识信息;
数据处理模块一,用于对获取到的知识信息进行数据处理;
更新融合模块一,用于将处理好的数据存储于知识库,进行知识的更新和融合;
本实施例中的构建模块二包括,
获取模块二,用于获取所需知识信息;
数据处理模块二,用于对获取到的知识信息进行数据处理;
更新融合模块二,用于将处理好的数据存储于知识库,进行知识的更新和融合;
提取模块一,用于提取出处理好的数据中实体类型标签,并存放于标签定义表中;
提取模块二,用于提取出处理好的数据中实体类型标签及实体与实体之间的关系,以三元组形式将数据存放于标签关系表中。
本实施例中的存储单元包括,
获取模块三,从构建单元一和构建单元二获取到的知识数据进行处理,存储于术语关系表中;
获取模块四,用于在标签层获取已有标签定义表中不存在的标签名称,并将其存储;
获取模块五,用于在标签层获取已有标签关系表中不存在的标签关系三元组,并将其存储;
扩充模块,用于在数据层根据术语关系表提取知识起始实体和终止实体及其实体类型,将新实体数据导入知识库归一词管理表中,扩充字典;
添加模块一,用于在数据层根据术语关系表和归一词管理表,将归一词管理表中新增数据及其实体类型添加至术语标签映射表;
添加模块二,用于在数据层根据术语关系表和术语标签映射表,提取知识起始实体和终止实体及其实体类型,将已有归一词但无所对应类型的数据添加至术语标签映射表;
判断模块,用于向术语标签映射表添加数据的过程中,判断在向术语标签映射表添加数据的过程中,若添加的实体类型存在父类类型,还应将其添加至父类类型上;
添加模块三,用于在数据层根据术语标签映射表,新增数据中归一词对应其本身,将数据添加至原词与归一词映射表中。
实施例3:
本实施例还提供了一种电子设备,包括:存储器和处理器;
其中,存储器存储计算机执行指令;
处理器执行所述存储器存储的计算机执行指令,使得处理器执行本发明任一实施例中的系统化医学领域知识图谱的构建方法。
处理器可以是中央处理单元(,CPU),还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通过处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可用于储存计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现电子设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器还可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,只能存储卡(SMC),安全数字(SD)卡,闪存卡、至少一个磁盘存储期间、闪存器件、或其他易失性固态存储器件。
实施例4:
本实施例还提供了一种计算机可读存储介质,其中存储有多条指令,指令由处理器加载,使处理器执行本发明任一实施例中的系统化医学领域知识图谱的构建方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RYM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种系统化医学领域知识图谱的构建方法,其特征在于,该方法具体如下:
S1、设计知识图谱初始架构,创建主题数据表:通过主键和外键将每个表之间互相关联,形成整个知识图谱;
S2、收集医学数据,构建原词与归一词相关词典表,并定时进行字典更新;
S3、自顶向下构建知识图谱;
S4、自底向上构建知识图谱;
S5、多次执行步骤S3至步骤S4,并对每次获取的知识数据进行存储、更新和融合;
S6、完成知识图谱的构建。
2.根据权利要求1所述的系统化医学领域知识图谱的构建方法,其特征在于,步骤S1中的设计知识图谱初始架构,创建主题数据表包括标签层和数据层两部分,标签层表示该数据实体的类型;标签层包括标签定义表、标签关系表、数据层包括归一词管理表、术语标签映射表、原词与归一词映射表及术语关系表;
其中,标签定义表用于存储标签层中标签定义,即实体类型标签,每个实体类型标签均有唯一的标签ID索引;
标签关系表用于存储标签与标签之间的关系,以三元组形式进行存储;
归一词管理表用于存储疾病、药物及手术的单个实体字典,每个实体字典均有唯一的中文名称及ID;
术语标签映射表用于存储单个实体及其实体类型标签,当存在一个实体对应多个标签且标签存在子类与父类关系时,同时把子类标签实体对应到父类标签上;
原词与归一词映射表用于存储原词所对应归一词名称字典,一个归一词对应多个原词,通过定时爬取更新数据,实现基础字典的不断扩充;
术语关系表是以三元组+实体类型标签的形式,术语关系表用于存储处理好的知识数据。
3.根据权利要求1所述的系统化医学领域知识图谱的构建方法,其特征在于,步骤S3中的自顶向下构建知识图谱具体如下:
S301、定义知识图谱数据模式层,即标签层,根据知识领域定义标签层框架,确定标签实体的名称、定义及标签实体类型,并将数据存放于标签定义表中;
S302、定义好标签实体间的关系,以三元组形式将数据存放于标签关系表中;
S303、通过已定义标签确定医学知识领域范围,获取相应知识信息;
S304、对获取到的知识信息进行数据处理;
S305、将处理好的数据存储于知识库,进行知识的更新和融合。
4.根据权利要求1所述的系统化医学领域知识图谱的构建方法,其特征在于,步骤S4中的自底向上构建知识图谱具体如下:
S401、获取所需知识信息;其中,知识信息获取来源包括国家官网、企业官网或其他权威机构发布的医学知识信息或医学文献,百度百科、期刊论文、专利及词典获取到的知识信息以及通过专业技术总结得出的知识信息;
S402、对获取到的知识信息进行数据处理;
S403、将处理好的数据存储于知识库,进行知识的更新和融合;
S404、提取出处理好的数据中实体类型标签,并存放于标签定义表中;
S405、提取出处理好的数据中实体类型标签及实体与实体之间的关系,以三元组形式将数据存放于标签关系表中。
5.根据权利要求1所述的系统化医学领域知识图谱的构建方法,其特征在于,步骤S5中的知识的更新和融合总体分为标签层融合和数据层融合;
其中,知识的更新和融合具体如下:
S501、从步骤S3和步骤S4中获取到的知识数据进行处理,存储于术语关系表中;
S502、标签层进行数据存储,具体如下:
S50201、获取已有标签定义表中不存在的标签名称,并将其存储;
S50202、获取已有标签关系表中不存在的标签关系三元组,并将其存储;
S503、数据层进行数据存储,具体如下:
S50301、根据术语关系表提取知识起始实体和终止实体及其实体类型,将新实体数据导入知识库归一词管理表中,扩充字典;
S50302、根据术语关系表和归一词管理表,将归一词管理表中新增数据及其实体类型添加至术语标签映射表;
S50303、根据术语关系表和术语标签映射表,提取知识起始实体和终止实体及其实体类型,将已有归一词但无所对应类型的数据添加至术语标签映射表;
S50304、步骤S50302和步骤S50303在向术语标签映射表添加数据的过程中,判断在向术语标签映射表添加数据的过程中,若添加的实体类型存在父类类型,还应将其添加至父类类型上;
S50305、根据术语标签映射表,新增数据中归一词对应其本身,将数据添加至原词与归一词映射表中。
6.一种系统化医学领域知识图谱的构建装置,其特征在于,该装置包括,
创建单元,用于设计知识图谱初始架构,创建主题数据表:通过主键和外键将每个表之间互相关联,形成整个知识图谱;
收集更新单元,用于收集医学数据,构建原词与归一词相关词典表,并定时进行字典更新;
构建单元一,用于自顶向下构建知识图谱;
构建单元二,用于自底向上构建知识图谱;
存储单元,用于对每次获取的知识数据进行存储、更新和融合。
7.根据权利要求6所述的系统化医学领域知识图谱的构建装置,其特征在于,创建单元包括标签层和数据层两部分,标签层表示该数据实体的类型;标签层包括标签定义表、标签关系表、数据层包括归一词管理表、术语标签映射表、原词与归一词映射表及术语关系表;
其中,标签定义表用于存储标签层中标签定义,即实体类型标签,每个实体类型标签均有唯一的标签ID索引;
标签关系表用于存储标签与标签之间的关系,以三元组形式进行存储;
归一词管理表用于存储疾病、药物及手术的单个实体字典,每个实体字典均有唯一的中文名称及ID;
术语标签映射表用于存储单个实体及其实体类型标签,当存在一个实体对应多个标签且标签存在子类与父类关系时,同时把子类标签实体对应到父类标签上;
原词与归一词映射表用于存储原词所对应归一词名称字典,一个归一词对应多个原词,通过定时爬取更新数据,实现基础字典的不断扩充;
术语关系表是以三元组+实体类型标签的形式,术语关系表用于存储处理好的知识数据;
构建单元一包括,
定义模块,用于定义知识图谱数据模式层,即标签层,根据知识领域定义标签层框架,确定标签实体的名称、定义及标签实体类型,并将数据存放于标签定义表中;
定义模块二,用于定义好标签实体间的关系,以三元组形式将数据存放于标签关系表中;
获取模块一,用于通过已定义标签确定医学知识领域范围,获取相应知识信息;
数据处理模块一,用于对获取到的知识信息进行数据处理;
更新融合模块一,用于将处理好的数据存储于知识库,进行知识的更新和融合;
构建模块二包括,
获取模块二,用于获取所需知识信息;
数据处理模块二,用于对获取到的知识信息进行数据处理;
更新融合模块二,用于将处理好的数据存储于知识库,进行知识的更新和融合;
提取模块一,用于提取出处理好的数据中实体类型标签,并存放于标签定义表中;
提取模块二,用于提取出处理好的数据中实体类型标签及实体与实体之间的关系,以三元组形式将数据存放于标签关系表中。
8.根据权利要求6或7所述的系统化医学领域知识图谱的构建装置,其特征在于,存储单元包括,
获取模块三,从构建单元一和构建单元二获取到的知识数据进行处理,存储于术语关系表中;
获取模块四,用于在标签层获取已有标签定义表中不存在的标签名称,并将其存储;
获取模块五,用于在标签层获取已有标签关系表中不存在的标签关系三元组,并将其存储;
扩充模块,用于在数据层根据术语关系表提取知识起始实体和终止实体及其实体类型,将新实体数据导入知识库归一词管理表中,扩充字典;
添加模块一,用于在数据层根据术语关系表和归一词管理表,将归一词管理表中新增数据及其实体类型添加至术语标签映射表;
添加模块二,用于在数据层根据术语关系表和术语标签映射表,提取知识起始实体和终止实体及其实体类型,将已有归一词但无所对应类型的数据添加至术语标签映射表;
判断模块,用于向术语标签映射表添加数据的过程中,判断在向术语标签映射表添加数据的过程中,若添加的实体类型存在父类类型,还应将其添加至父类类型上;
添加模块三,用于在数据层根据术语标签映射表,新增数据中归一词对应其本身,将数据添加至原词与归一词映射表中。
9.一种电子设备,其特征在于,包括:存储器和至少一个处理器;
其中,所述存储器上存储有计算机程序;
所述至少一个处理器执行所述存储器存储的计算机程序,使得所述至少一个处理器执行如权利要求1至5任一项所述的系统化医学领域知识图谱的构建方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如权利要求1至5中任一项所述的系统化医学领域知识图谱的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210414405.4A CN115033648A (zh) | 2022-04-20 | 2022-04-20 | 系统化医学领域知识图谱的构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210414405.4A CN115033648A (zh) | 2022-04-20 | 2022-04-20 | 系统化医学领域知识图谱的构建方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115033648A true CN115033648A (zh) | 2022-09-09 |
Family
ID=83119907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210414405.4A Pending CN115033648A (zh) | 2022-04-20 | 2022-04-20 | 系统化医学领域知识图谱的构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115033648A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115600603A (zh) * | 2022-12-15 | 2023-01-13 | 南京邮电大学(Cn) | 一种面向中文冠心病诊断报告的命名实体消歧方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420212A (zh) * | 2020-11-27 | 2021-02-26 | 湖南师范大学 | 一种脑卒中医疗知识图谱的构建方法 |
CN114004237A (zh) * | 2021-09-28 | 2022-02-01 | 深圳市罗湖区人民医院 | 一种基于膀胱癌知识图谱的智能问答系统构建方法 |
CN114255884A (zh) * | 2021-12-13 | 2022-03-29 | 首都医科大学附属北京安贞医院 | 一种高血压药物治疗知识图谱构建方法以及装置 |
-
2022
- 2022-04-20 CN CN202210414405.4A patent/CN115033648A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420212A (zh) * | 2020-11-27 | 2021-02-26 | 湖南师范大学 | 一种脑卒中医疗知识图谱的构建方法 |
CN114004237A (zh) * | 2021-09-28 | 2022-02-01 | 深圳市罗湖区人民医院 | 一种基于膀胱癌知识图谱的智能问答系统构建方法 |
CN114255884A (zh) * | 2021-12-13 | 2022-03-29 | 首都医科大学附属北京安贞医院 | 一种高血压药物治疗知识图谱构建方法以及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115600603A (zh) * | 2022-12-15 | 2023-01-13 | 南京邮电大学(Cn) | 一种面向中文冠心病诊断报告的命名实体消歧方法 |
CN115600603B (zh) * | 2022-12-15 | 2023-04-07 | 南京邮电大学 | 一种面向中文冠心病诊断报告的命名实体消歧方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11960832B2 (en) | Cross-document intelligent authoring and processing, with arbitration for semantically-annotated documents | |
Berman | Principles of big data: preparing, sharing, and analyzing complex information | |
US20170124158A1 (en) | Method and system for ontology driven data collection and processing | |
US11216492B2 (en) | Document annotation based on enterprise knowledge graph | |
CN112232074B (zh) | 实体关系抽取方法、装置、电子设备及存储介质 | |
US9224103B1 (en) | Automatic annotation for training and evaluation of semantic analysis engines | |
US11397855B2 (en) | Data standardization rules generation | |
WO2021146831A1 (zh) | 实体识别的方法和装置、建立词典的方法、设备、介质 | |
CN109857736A (zh) | 医院异构系统的数据编码统一化方法及系统、设备、介质 | |
Konstantinidis et al. | The role of taxonomies in social media and the semantic web for health education | |
CN112347204B (zh) | 药物研发知识库构建方法及装置 | |
CN102567455A (zh) | 利用语句的加权流行数据来管理文档的方法与系统 | |
Grossman et al. | A method for harmonization of clinical abbreviation and acronym sense inventories | |
CN115033648A (zh) | 系统化医学领域知识图谱的构建方法及装置 | |
CN109299214B (zh) | 文本信息提取方法、装置、介质及电子设备 | |
WO2022134577A1 (zh) | 翻译错误识别方法、装置、计算机设备及可读存储介质 | |
Topçu et al. | Data standardization in digital libraries: An ETD case in Turkey | |
De Weerdt | Creating, linking, and analyzing Chinese and Korean datasets: digital text annotation in MARKUS and COMPARATIVUS | |
WO2007117807A2 (en) | Linguistic image labeling incorporating decision relevant perceptual and semantic data, and relationships data | |
Boudjellal et al. | A silver standard biomedical corpus for Arabic language | |
Redd et al. | A pilot study of a heuristic algorithm for novel template identification from VA electronic medical record text | |
Nuzzolese et al. | MACJa: metadata and citations jailbreaker | |
CN112786132B (zh) | 病历文本数据分割方法、装置、可读存储介质及电子设备 | |
Goldberg et al. | Address standardization | |
Pink | Slot filling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |