CN114819155A - 基于编辑距离的医学术语归一化方法、系统及介质 - Google Patents
基于编辑距离的医学术语归一化方法、系统及介质 Download PDFInfo
- Publication number
- CN114819155A CN114819155A CN202210526165.7A CN202210526165A CN114819155A CN 114819155 A CN114819155 A CN 114819155A CN 202210526165 A CN202210526165 A CN 202210526165A CN 114819155 A CN114819155 A CN 114819155A
- Authority
- CN
- China
- Prior art keywords
- entity
- word
- normalization
- words
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010606 normalization Methods 0.000 title claims abstract description 123
- 238000000034 method Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000002372 labelling Methods 0.000 claims abstract description 7
- 201000010099 disease Diseases 0.000 claims description 14
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 14
- 238000009411 base construction Methods 0.000 claims description 10
- 239000003814 drug Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 229940079593 drug Drugs 0.000 claims description 5
- 238000007792 addition Methods 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 2
- 238000001356 surgical procedure Methods 0.000 claims description 2
- 206010035664 Pneumonia Diseases 0.000 description 48
- 241000711573 Coronaviridae Species 0.000 description 38
- 210000004072 lung Anatomy 0.000 description 14
- 241000700605 Viruses Species 0.000 description 11
- 208000029078 coronary artery disease Diseases 0.000 description 10
- 206010061218 Inflammation Diseases 0.000 description 7
- 230000004054 inflammatory process Effects 0.000 description 7
- 231100000614 poison Toxicity 0.000 description 7
- 206010020772 Hypertension Diseases 0.000 description 6
- 239000002574 poison Substances 0.000 description 6
- 241000711902 Pneumovirus Species 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 208000011580 syndromic disease Diseases 0.000 description 3
- 230000003143 atherosclerotic effect Effects 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 208000019622 heart disease Diseases 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- WNXJIVFYUVYPPR-UHFFFAOYSA-N 1,3-dioxolane Chemical compound C1COCO1 WNXJIVFYUVYPPR-UHFFFAOYSA-N 0.000 description 1
- 102000008016 Eukaryotic Initiation Factor-3 Human genes 0.000 description 1
- 108010089790 Eukaryotic Initiation Factor-3 Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 231100000572 poisoning Toxicity 0.000 description 1
- 230000000607 poisoning effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 239000003440 toxic substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90348—Query processing by searching ordered data, e.g. alpha-numerically ordered data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于编辑距离的医学术语归一化方法、系统及介质,属于数据处理技术领域,要解决的技术问题为如何有效解决实体间共指消解问题,快速完成术语归一化并具备较高准确率。包括如下步骤:获取医学术语归一词作为实体归一词,并对实体归一词标注实体类型;将实体原词和与其对应的实体归一词、实体类型作为一个词组,将词组作为知识构建知识库;计算目标实体与知识库中各个实体原词之间的编辑距离,并选取与目标实体的编辑距离小于阈值的一个或多个实体原词;从知识库中匹配对应的实体归一词;如果归一词词组中匹配到的实体归一词为多个,通过人工判定的方式选择一个实体归一词为所述目标实体对应的实体归一词。
Description
技术领域
本发明涉及数据处理技术领域,具体地说是基于编辑距离的医学术语归一化方法、系统及介质。
背景技术
医学术语是医学领域中标准化的专业术语,包括疾病、药物、手术、症状、检查检验等不同类别的实体名词,制定术语标准化,严格定义实体词的概念与含义,是医学信息处理的基础,有效保障医学信息的规范化、标准化、统一化,减少了实体多义或同义现象,避免医学信息交流中的误解和歧义。
现阶段,随着医疗机构信息化不断深入,各种基于实际应用的医学术语名词标准的需求日益增加。伴随着医学的发展,疾病领域的区分更加细致化,各家医疗机构、科室之间的信息交流、共享、整合和利用因数据结构和表达的不同而无法达成。且由于地域差异性和口语化现象较为严重,导致存在多词同义现象,对之后进行医学信息研究和分析工作有很大影响。目前,医学领域术语归一化工作多为医学专业人员进行人工对比处理,需要耗费大量人力和精力,时间长效率低,并且由于地域广泛,沟通交流困难,很难达成一套统一的术语归一化体系。
如何有效解决实体间共指消解问题,快速完成术语归一化并具备较高准确率是目前亟待解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供基于编辑距离的医学术语归一化方法、系统及介质,来解决如何有效解决实体间共指消解问题,快速完成术语归一化并具备较高准确率的技术问题。
第一方面,本发明的一种基于编辑距离的医学术语归一化方法,包括如下步骤:
获取医学医学术语归一词作为实体归一词,并对实体归一词标注实体类型;
获取各个地区各个医院的实体原词,将实体原词和与其对应的实体归一词、实体类型作为一个词组,将词组作为知识构建知识库;
对于要获取归一词的目标实体,计算目标实体与知识库中各个实体原词之间的编辑距离,并选取与目标实体的编辑距离小于阈值的一个或多个实体原词,将所述一个或多个实体原词作为所述目标实体的原词组;
对于原词组中每个实体原词,从知识库中匹配对应的实体归一词,得到所述目标实体对应的归一词词组;
如果归一词词组中匹配到的实体归一词为多个,通过人工判定的方式选择一个实体归一词为所述目标实体对应的实体归一词。
更优的,如果目标实体对应的实体类型为已知,基于实体类型从知识库中筛选出与所述目标实体同一个类型的实体原词,对于每个筛选出的每个实体原词,计算目标实体与所述实体原词之间的编辑距离。
更优的,如果所述目标实体未存在于知识库中,对所述目标实体进行人工校验后,将所述目标实体作为新的实体原词,将所述新的实体原词以及对应的实体归一词和实体类型作为一个词组,将所述词组作为知识更新至所述知识库中。
作为优选,将目标实体与知识库中实体原词逐个进行字符串之间的编辑操作,计算出目标实体与实体原词之间的编辑距离,所述编辑操作包括添加、删除和修改;
所述编辑距离计算公式为:
其中,a表示,b表示,i表示,j表示,ai表示,bi表示。
作为优选,依据国家发行的标准数据集、期刊、医学相关知识文档和文献进行数据处理提取出各类型的医学术语归一词。
作为优选,所述实体类型包括疾病、药物、手术、检验检查以及操作。
第二方面,本发明的一种基于编辑距离的医学术语归一化系统,用于通过如第一方面任一项所述的基于编辑距离的医学术语归一化方法对医学术语进行归一化,所述系统包括:
数据采集模块,所述数据采集模块用于获取医学医学术语归一词作为实体归一词,并对实体归一词标注实体类型;
知识库构建模块,所述知识库构建模块用于获取各个地区各个医院的实体原词,将实体原词和与其对应的实体归一词、实体类型作为一个词组,将词组作为知识构建知识库;
实体归一化模块,所述实体归一化模块用于计算目标实体与知识库中各个实体原词之间的编辑距离,并选取与目标实体的编辑距离小于阈值的一个或多个实体原词,将所述一个或多个实体原词作为所述目标实体的原词组;对于原词组中每个实体原词,用于从知识库中匹配对应的实体归一词,得到所述目标实体对应的归一词词组;如果归一词词组中匹配到的实体归一词为多个,用于通过人工判定的方式选择一个实体归一词为所述目标实体对应的实体归一词;
知识库更新模块,所述知识库更新模块用于判断目标实体是否存在于知识库中,如果所述目标实体未存在于知识库中,用于对所述目标实体进行人工校验后,将所述目标实体作为新的实体原词,将所述新的实体原词以及对应的实体归一词和实体类型作为一个词组,将所述词组作为知识更新至所述知识库中。
更优的,所述实体归一模块用于判断所述模板实体类型是否已知,如果目标实体对应的实体类型为已知,用于基于实体类型从知识库中筛选出与所述目标实体同一个类型的实体原词,对于每个筛选出的每个实体原词,计算目标实体与所述实体原词之间的编辑距离。
作为优选,所述实体归一化模块用于将目标实体与知识库中实体原词逐个进行字符串之间的编辑操作,计算出目标实体与实体原词之间的编辑距离,所述编辑操作包括添加、删除和修改;
所述编辑距离计算公式为:
其中,a表示,b表示,i表示,j表示,ai表示,bi表示。
第三方面,本发明的一种介质,为计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行第一方面任一所述的方法。
本发明的基于编辑距离的医学术语归一化方法、系统及介质具有以下优点:
1、建立知识库,通过知识库将实际原词与归一词对齐,然后基于编辑距离将目标实体与原词对比,选取编辑距离最短的原词作为目标实体的原词组,对于原词组中每个原词,从知识库中匹配归一词得到目标实体对应的归一词,提高了准确率;
2、对于已知类型的目标实体,从知识库中筛选出与目标实体同一个类型的原词,对于筛选出的原词,分别计算目标实体与原词的编辑距离进行筛选,根据实体类型有选择的选取疾病、药物、手术等某一具体类别进行目标实体归一化,相比广泛无目的的搜索,精确了归一化的范围,提高效率和准确率,快速完成术语实体归一化的任务目标。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
图1为实施例1基于编辑距离的医学术语归一化方法的流程框图;
图2为实施例1基于编辑距离的医学术语归一化方法中编辑距离方法原理实例图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
本发明实施例提供基于编辑距离的医学术语归一化方法、系统及介质,用于解决如何有效解决实体间共指消解问题,快速完成术语归一化并具备较高准确率的技术问题。
实施例1:
本发明一种基于编辑距离的医学术语归一化方法,其特征在于包括如下步骤:
S100、获取医学医学术语归一词作为实体归一词,并对实体归一词标注实体类型;
S200、获取各个地区各个医院的实体原词,将实体原词和与其对应的实体归一词、实体类型作为一个词组,将词组作为知识构建知识库;
S300、对于要获取归一词的目标实体,计算目标实体与知识库中各个实体原词之间的编辑距离,并选取与目标实体的编辑距离小于阈值的一个或多个实体原词,将所述一个或多个实体原词作为所述目标实体的原词组;
S400、对于原词组中每个实体原词,从知识库中匹配对应的实体归一词,得到所述目标实体对应的归一词词组;
如果归一词词组中匹配到的实体归一词为多个,通过人工判定的方式选择一个实体归一词为所述目标实体对应的实体归一词。
本实施例步骤S100进行数据采集,该方步骤通过采集国家发行的标准数据集、期刊、国家发行的医学相关知识文档或文献等权威知识获取相关知识数据,进行数据结构化处理,目前知识库中已加入了《疾病分类与代码(修订版)》全国1.3版、疾病分类与代码国家临床版2.0、常用临床医学名词、医疗机构临床检验项目目录(2014年版)、全国医疗卫生机构业务科室分类与代码、手术国家标准3.0、国家药监局、临床医学路径、中医证候名称与分类代码、中医病症分类与代码、医保目录等18项知识来源进行术语标准词的规整。
步骤S200获取部分地域各个医疗机构的医疗数据,对常用医学名词进行数据治理,将非标准词作为原词逐个对应到其归一词上,以三元组(“实体原词”-“实体类型”-“实体归一词”)形式进行数据存储,可说明的是,一个原词只对应唯一一个归一词,一个归一词可对应一个或多个原词,且归一词本身为其对应的原词,以此基础构成知识库字典。现有知识库中数据量已达30万以上。
表1、原词与归一词映射表
序号 | 字段名 | 中文 | 类型 | 备注 |
1 | ORIGINAL_WORD_ID | 原词ID | bigint | 主键 |
2 | ORIGINAL_WORD | 原词 | varchar | 索引 |
3 | ENTITY_TYPE_ID | 实体类型ID | int | 索引 |
4 | NORMALIZE_TERM_ID | 归一词ID | varchar | 索引,外键 |
5 | SOURCE_ID | 来源于标注任务项ID | int | |
6 | STATUS | 1正常-1已删除 | tinyint | 索引 |
步骤S300获取字典中的原词数据,将目标实体与知识库中实体原词逐个进行字符串之间的编辑操作,计算出目标实体与实体原词之间的编辑距离,编辑距离计算公式为:
其中,a表示,b表示,i表示,j表示,ai表示,bi表示。
如图2中案例所示,编辑距离计算有三种编辑操作方式,以实体词1为“新冠肺炎”,实体词2为“新型冠状病毒”为例:
假设实体词2“新型冠状病毒肺炎”为固定模板,对实体词1“新冠肺炎”进行编辑操作。对两个实体词从后向前(或从前向后)进行匹配,先比较最后一个字符:“炎”≠“毒”,所以要对实体词1进行编辑操作,允许的操作有三种:添加、删除、修改。
1)添加
在实体词1中插入“毒”,即“新冠肺炎”变为“新冠肺炎毒”,进一步比较“新冠肺炎毒”与“新型冠状病毒”的编辑距离,即:
ED(“新冠肺炎”,“新型冠状病毒”)=ED(“新冠肺炎毒”,“新型冠状病毒”)+1=ED(“新冠肺炎”,“新型冠状病”)+1
2)删除
在实体词1中删除不匹配的字符“炎”,即“新冠肺炎”变为“新冠肺”,进一步比较“新冠肺”与“新型冠状病毒”的编辑距离,即:
ED(“新冠肺炎”,“新型冠状病毒”)=ED(“新冠肺”,“新型冠状病毒”)+1
3)修改
在实体词1中修改不匹配的字符“炎”变为“毒”,即“新冠肺炎”变为“新冠肺毒”,进一步比较“新冠肺毒”与“新型冠状病毒”的编辑距离,即:
ED(“新冠肺炎”,“新型冠状病毒”)=ED(“新冠肺毒”,“新型冠状病毒”)+1=ED(“新冠肺”,“新型冠状病”)+1
综上所述,ED(“新冠肺炎”,“新型冠状病毒”)=min{ED(“新冠肺炎”,“新型冠状病”),ED(“新冠肺”,“新型冠状病毒”),ED(“新冠肺”,“新型冠状病”)}+1
若已知:
ED(“新冠肺炎”,“新型冠状病”)=4
ED(“新冠肺”,“新型冠状病毒”)=5
ED(“新冠肺”,“新型冠状病”)=4
则:ED(“新冠肺炎”,“新型冠状病毒”)=min(4,5,4)+1=5
接下来用一个5*7的数组dp来记录动态规划的过程:
初始化:
结果:
0 | 新 | 型 | 冠 | 状 | 病 | 毒 | |
0 | 0 | 1 | 2 | 3 | 4 | 5 | 6 |
新 | 1 | 0 | 1 | 2 | 3 | 4 | 5 |
冠 | 2 | 1 | 1 | 2 | 3 | 4 | 5 |
肺 | 3 | 2 | 2 | 2 | 3 | 4 | 5 |
炎 | 4 | 3 | 2 | 3 | 3 | 4 | 5 |
故,实体词1为“新冠肺炎”,实体词2为“新型冠状病毒”,两者间的编辑距离为5。
步骤S300选取与目标实体对应的最短编辑距离的原词,若存在一个或多个相同最短编辑距离的原词,则以词组形式进行返回。以目标实体为“新型冠状肺炎”,实体词1为“新型冠状病毒”对应归一词为“新型冠状病毒肺炎”,实体词2为“新型冠心病”对应归一词为“冠状动脉粥样硬化心脏病”,实体词3为“高血压”对应归一词为“高血压病”为例。
ED1(“新型冠状肺炎”,“新型冠状病毒”)=2
ED2(“新型冠状肺炎”,“新冠肺炎”)=5
ED3(“新型冠状肺炎”,“高血压”)=6
故识别出目标实体对应最短编辑距离的原词为实体词1“新型冠状病毒”。
步骤S400通过获取到的原词词组再次与知识库字典中的术语原词进行数据对齐,获取到该原词所对应的归一词,即获取到目标实体所对应的一个或多个归一词组,与上步案例相同的,获取到目标实体“新型冠状肺炎”对应归一词为“新型冠状病毒肺炎”。若获取到多个目标实体归一词,则进行人工校验,选取最为准确的实体作为目标实体归一词。
作为实施例的改进,获取待归一化的目标实体,根据实体类型(若已知目标实体类型,则根据实体类型选取特定范围内的字典数据进行检索实现术语归一化;若未知目标实体类型,则不进行范围缩减,直接进行全局检索实现术语归一化。)选取特定范围内字典数据。即,该改进的实施中如果目标实体对应的实体类型为已知,基于实体类型从知识库中筛选出与所述目标实体同一个类型的实体原词,对于每个筛选出的每个实体原词,计算目标实体与所述实体原词之间的编辑距离。
针对实体类型进行具体类别选择后(疾病、药物、手术、检验检查、操作等),再进行编辑距离计算,即可分为疾病术语归一化、手术术语归一化、症状术语归一化等,有效避免不同类别实体间相似度较高的错误问题,提高了归一化的准确率。
作为进一步改进,若该目标实体未在已有知识库原词中存在,即编辑距离大于0,则通过人工校验实体归一化结果,可有选择性的将其添加至知识库中,将目标实体词作为归一词的原词,根据实体类型进行知识字典补充。
即如果所述目标实体未存在于知识库中,对所述目标实体进行人工校验后,将所述目标实体作为新的实体原词,将所述新的实体原词以及对应的实体归一词和实体类型作为一个词组,将所述词组作为知识更新至所述知识库中。
通过不断定期更新医院规整数据,捕捉获取更多可靠知识源数据,扩充知识库数据字典,补充更多归一词所对应原词数据,提高目标实体与原词正确对比率,进一步提高目标实体标准化的正确率。
实施例2:
本发明一种基于编辑距离的医学术语归一化系统,包括数据采集模块、知识库构建模块、实体归一化模块以及知识库更新模块,该模块用于执行实施1公开的方法,对医学术语进行归一化处理。
数据采集模块用于获取医学医学术语归一词作为实体归一词,并对实体归一词标注实体类型。
该模块通过采集国家发行的标准数据集、期刊、国家发行的医学相关知识文档或文献等权威知识获取相关知识数据,进行数据结构化处理,目前知识库中已加入了《疾病分类与代码(修订版)》全国1.3版、疾病分类与代码国家临床版2.0、常用临床医学名词、医疗机构临床检验项目目录(2014年版)、全国医疗卫生机构业务科室分类与代码、手术国家标准3.0、国家药监局、临床医学路径、中医证候名称与分类代码、中医病症分类与代码、医保目录等18项知识来源进行术语标准词的规整。
知识库构建模块用于获取各个地区各个医院的实体原词,将实体原词和与其对应的实体归一词、实体类型作为一个词组,将词组作为知识构建知识库。
该模块用于获取部分地域各个医疗机构的医疗数据,对常用医学名词进行数据治理,将非标准词作为原词逐个对应到其归一词上,以三元组(“实体原词”-“实体类型”-“实体归一词”)形式进行数据存储,可说明的是,一个原词只对应唯一一个归一词,一个归一词可对应一个或多个原词,且归一词本身为其对应的原词,以此基础构成知识库字典。现有知识库中数据量已达30万以上。
实体归一化模块用于计算目标实体与知识库中各个实体原词之间的编辑距离,并选取与目标实体的编辑距离小于阈值的一个或多个实体原词,将所述一个或多个实体原词作为所述目标实体的原词组;对于原词组中每个实体原词,用于从知识库中匹配对应的实体归一词,得到所述目标实体对应的归一词词组;如果归一词词组中匹配到的实体归一词为多个,用于通过人工判定的方式选择一个实体归一词为所述目标实体对应的实体归一词。
该模块用于获取字典中的原词数据,将目标实体与知识库中实体原词逐个进行字符串之间的编辑操作,计算出目标实体与实体原词之间的编辑距离,编辑距离计算公式为:
其中,a表示,b表示,i表示,j表示,ai表示,bi表示。
编辑距离计算有三种编辑操作方式,以实体词1为“新冠肺炎”,实体词2为“新型冠状病毒”为例:
假设实体词2“新型冠状病毒肺炎”为固定模板,对实体词1“新冠肺炎”进行编辑操作。对两个实体词从后向前(或从前向后)进行匹配,先比较最后一个字符:“炎”≠“毒”,所以要对实体词1进行编辑操作,允许的操作有三种:添加、删除、修改。
1)添加
在实体词1中插入“毒”,即“新冠肺炎”变为“新冠肺炎毒”,进一步比较“新冠肺炎毒”与“新型冠状病毒”的编辑距离,即:
ED(“新冠肺炎”,“新型冠状病毒”)=ED(“新冠肺炎毒”,“新型冠状病毒”)+1=ED(“新冠肺炎”,“新型冠状病”)+1
2)删除
在实体词1中删除不匹配的字符“炎”,即“新冠肺炎”变为“新冠肺”,进一步比较“新冠肺”与“新型冠状病毒”的编辑距离,即:
ED(“新冠肺炎”,“新型冠状病毒”)=ED(“新冠肺”,“新型冠状病毒”)+1
3)修改
在实体词1中修改不匹配的字符“炎”变为“毒”,即“新冠肺炎”变为“新冠肺毒”,进一步比较“新冠肺毒”与“新型冠状病毒”的编辑距离,即:
ED(“新冠肺炎”,“新型冠状病毒”)=ED(“新冠肺毒”,“新型冠状病毒”)+1=ED(“新冠肺”,“新型冠状病”)+1
综上所述,ED(“新冠肺炎”,“新型冠状病毒”)=min{ED(“新冠肺炎”,“新型冠状病”),ED(“新冠肺”,“新型冠状病毒”),ED(“新冠肺”,“新型冠状病”)}+1
若已知:
ED(“新冠肺炎”,“新型冠状病”)=4
ED(“新冠肺”,“新型冠状病毒”)=5
ED(“新冠肺”,“新型冠状病”)=4
则:ED(“新冠肺炎”,“新型冠状病毒”)=min(4,5,4)+1=5。
该实体归一化模块用于选取与目标实体对应的最短编辑距离的原词,若存在一个或多个相同最短编辑距离的原词,则以词组形式进行返回。以目标实体为“新型冠状肺炎”,实体词1为“新型冠状病毒”对应归一词为“新型冠状病毒肺炎”,实体词2为“新型冠心病”对应归一词为“冠状动脉粥样硬化心脏病”,实体词3为“高血压”对应归一词为“高血压病”为例。
ED1(“新型冠状肺炎”,“新型冠状病毒”)=2
ED2(“新型冠状肺炎”,“新冠肺炎”)=5
ED3(“新型冠状肺炎”,“高血压”)=6
故识别出目标实体对应最短编辑距离的原词为实体词1“新型冠状病毒”。
该实体归一化模块用于通过获取到的原词词组再次与知识库字典中的术语原词进行数据对齐,获取到该原词所对应的归一词,即获取到目标实体所对应的一个或多个归一词组,与上步案例相同的,获取到目标实体“新型冠状肺炎”对应归一词为“新型冠状病毒肺炎”。若获取到多个目标实体归一词,则进行人工校验,选取最为准确的实体作为目标实体归一词。
知识库更新模块用于判断目标实体是否存在于知识库中,如果所述目标实体未存在于知识库中,用于对所述目标实体进行人工校验后,将所述目标实体作为新的实体原词,将所述新的实体原词以及对应的实体归一词和实体类型作为一个词组,将所述词组作为知识更新至所述知识库中。
作为改进,该实体归一化模块获取待归一化的目标实体后,用于根据实体类型(若已知目标实体类型,则根据实体类型选取特定范围内的字典数据进行检索实现术语归一化;若未知目标实体类型,则不进行范围缩减,直接进行全局检索实现术语归一化。)选取特定范围内字典数据。
即,该改进的模块中,如果目标实体对应的实体类型为已知,基于实体类型从知识库中筛选出与所述目标实体同一个类型的实体原词,对于每个筛选出的每个实体原词,计算目标实体与所述实体原词之间的编辑距离。
实施例3:
本发明一种介质,为计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行实施例1公开的方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构,也可以是逻辑结构,即,有些模块可能由同一物理实体实现,或者,有些模块可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元可以通过机械方式或电气方式实现。例如,一个硬件单元可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。
Claims (10)
1.一种基于编辑距离的医学术语归一化方法,其特征在于包括如下步骤:
获取医学医学术语归一词作为实体归一词,并对实体归一词标注实体类型;
获取各个地区各个医院的实体原词,将实体原词和与其对应的实体归一词、实体类型作为一个词组,将词组作为知识构建知识库;
对于要获取归一词的目标实体,计算目标实体与知识库中各个实体原词之间的编辑距离,并选取与目标实体的编辑距离小于阈值的一个或多个实体原词,将所述一个或多个实体原词作为所述目标实体的原词组;
对于原词组中每个实体原词,从知识库中匹配对应的实体归一词,得到所述目标实体对应的归一词词组;
如果归一词词组中匹配到的实体归一词为多个,通过人工判定的方式选择一个实体归一词为所述目标实体对应的实体归一词。
2.根据权利要求1所述的基于编辑距离的医学术语归一化方法,其特征在于如果目标实体对应的实体类型为已知,基于实体类型从知识库中筛选出与所述目标实体同一个类型的实体原词,对于每个筛选出的每个实体原词,计算目标实体与所述实体原词之间的编辑距离。
3.根据权利要求1所述的基于编辑距离的医学术语归一化方法,其特征在于如果所述目标实体未存在于知识库中,对所述目标实体进行人工校验后,将所述目标实体作为新的实体原词,将所述新的实体原词以及对应的实体归一词和实体类型作为一个词组,将所述词组作为知识更新至所述知识库中。
5.根据权利要求1、2或3所述的基于编辑距离的医学术语归一化方法,其特征在于依据国家发行的标准数据集、期刊、医学相关知识文档和文献进行数据处理提取出各类型的医学术语归一词。
6.根据权利要求1、2或3所述的基于编辑距离的医学术语归一化方法,其特征在于所述实体类型包括疾病、药物、手术、检验检查以及操作。
7.一种基于编辑距离的医学术语归一化系统,其特征在于用于通过如权利要求1-6任一项所述的基于编辑距离的医学术语归一化方法对医学术语进行归一化,所述系统包括:
数据采集模块,所述数据采集模块用于获取医学医学术语归一词作为实体归一词,并对实体归一词标注实体类型;
知识库构建模块,所述知识库构建模块用于获取各个地区各个医院的实体原词,将实体原词和与其对应的实体归一词、实体类型作为一个词组,将词组作为知识构建知识库;
实体归一化模块,所述实体归一化模块用于计算目标实体与知识库中各个实体原词之间的编辑距离,并选取与目标实体的编辑距离小于阈值的一个或多个实体原词,将所述一个或多个实体原词作为所述目标实体的原词组;对于原词组中每个实体原词,用于从知识库中匹配对应的实体归一词,得到所述目标实体对应的归一词词组;如果归一词词组中匹配到的实体归一词为多个,用于通过人工判定的方式选择一个实体归一词为所述目标实体对应的实体归一词;
知识库更新模块,所述知识库更新模块用于判断目标实体是否存在于知识库中,如果所述目标实体未存在于知识库中,用于对所述目标实体进行人工校验后,将所述目标实体作为新的实体原词,将所述新的实体原词以及对应的实体归一词和实体类型作为一个词组,将所述词组作为知识更新至所述知识库中。
8.根据权利要求7所述的基于编辑距离的医学术语归一化系统,其特征在于所述实体归一模块用于判断所述模板实体类型是否已知,如果目标实体对应的实体类型为已知,用于基于实体类型从知识库中筛选出与所述目标实体同一个类型的实体原词,对于每个筛选出的每个实体原词,计算目标实体与所述实体原词之间的编辑距离。
10.一种介质,为计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行权利要求1至6任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210526165.7A CN114819155A (zh) | 2022-05-16 | 2022-05-16 | 基于编辑距离的医学术语归一化方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210526165.7A CN114819155A (zh) | 2022-05-16 | 2022-05-16 | 基于编辑距离的医学术语归一化方法、系统及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114819155A true CN114819155A (zh) | 2022-07-29 |
Family
ID=82514880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210526165.7A Pending CN114819155A (zh) | 2022-05-16 | 2022-05-16 | 基于编辑距离的医学术语归一化方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114819155A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581976A (zh) * | 2020-03-27 | 2020-08-25 | 平安医疗健康管理股份有限公司 | 医学术语的标准化方法、装置、计算机设备及存储介质 |
CN112287680A (zh) * | 2020-10-23 | 2021-01-29 | 微医云(杭州)控股有限公司 | 一种问诊信息的实体抽取方法、装置、设备及存储介质 |
CN113255353A (zh) * | 2021-05-31 | 2021-08-13 | 中国科学院计算技术研究所厦门数据智能研究院 | 一种实体标准化方法 |
CN113722429A (zh) * | 2021-08-11 | 2021-11-30 | 上海保链科技有限公司 | 数据归一化处理方法、装置、设备及计算机可读存储介质 |
CN113764112A (zh) * | 2021-09-16 | 2021-12-07 | 山东大学第二医院 | 一种在线医疗问答方法 |
CN114186070A (zh) * | 2021-12-08 | 2022-03-15 | 上海柯林布瑞信息技术有限公司 | 基于人工智能模型的医学术语归一化方法、装置 |
-
2022
- 2022-05-16 CN CN202210526165.7A patent/CN114819155A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581976A (zh) * | 2020-03-27 | 2020-08-25 | 平安医疗健康管理股份有限公司 | 医学术语的标准化方法、装置、计算机设备及存储介质 |
CN112287680A (zh) * | 2020-10-23 | 2021-01-29 | 微医云(杭州)控股有限公司 | 一种问诊信息的实体抽取方法、装置、设备及存储介质 |
CN113255353A (zh) * | 2021-05-31 | 2021-08-13 | 中国科学院计算技术研究所厦门数据智能研究院 | 一种实体标准化方法 |
CN113722429A (zh) * | 2021-08-11 | 2021-11-30 | 上海保链科技有限公司 | 数据归一化处理方法、装置、设备及计算机可读存储介质 |
CN113764112A (zh) * | 2021-09-16 | 2021-12-07 | 山东大学第二医院 | 一种在线医疗问答方法 |
CN114186070A (zh) * | 2021-12-08 | 2022-03-15 | 上海柯林布瑞信息技术有限公司 | 基于人工智能模型的医学术语归一化方法、装置 |
Non-Patent Citations (1)
Title |
---|
张帆: "《零基础学Python算法与数据结构 视频案例精讲》", 30 April 2022, 北京:北京理工大学出版社, pages: 254 - 259 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767410B (zh) | 临床医疗知识图谱的构建方法、装置、设备及存储介质 | |
Bourke et al. | Feasibility study and methodology to create a quality-evaluated database of primary care data. | |
US7580831B2 (en) | Dynamic dictionary and term repository system | |
US9165116B2 (en) | Patient data mining | |
CN102792298B (zh) | 使用特征化匹配的规则来匹配元数据源 | |
CN113360671B (zh) | 一种基于知识图谱的医保医疗单据审核方法及其系统 | |
Uzuner et al. | i2b2 workshop on natural language processing challenges for clinical records | |
US20020128861A1 (en) | Mapping clinical data with a health data dictionary | |
CN112233746A (zh) | 一种医疗数据自动标准化的方法 | |
US20200013491A1 (en) | Interoperable Record Matching Process | |
CN112489812B (zh) | 药物开发分析方法、装置、电子设备和存储介质 | |
Lee et al. | Automated extraction of Biomarker information from pathology reports | |
WO2021032055A1 (zh) | 临床试验报告自动录入方法及装置、电子设备、存储介质 | |
CN108170677B (zh) | 一种医疗术语抽取方法及装置 | |
CN112307216A (zh) | 药品知识图谱的构建方法和装置 | |
CN111986759A (zh) | 电子病历的解析方法、系统、计算机设备与可读存储介质 | |
CN113488180A (zh) | 一种临床指南知识建模方法及系统 | |
CN114819155A (zh) | 基于编辑距离的医学术语归一化方法、系统及介质 | |
CN115545017A (zh) | 基于节点相似度的医学术语归一化方法及系统 | |
CN108573010B (zh) | 关联异构系统同义数据的方法、装置、电子设备及介质 | |
Johnson et al. | Integrating data from natural language processing into a clinical information system. | |
KR101484766B1 (ko) | 의료정보 시스템에서의 전자서식 작성기 및 전자서식 작성 방법 | |
Sager et al. | Automatic encoding of clinical narrative | |
CN111816273B (zh) | 一种海量电子病历的大规模医学知识图谱构建方法 | |
Petrulevich | Place-name variation in medieval literature in the digital age |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |