CN114819155A - 基于编辑距离的医学术语归一化方法、系统及介质 - Google Patents

基于编辑距离的医学术语归一化方法、系统及介质 Download PDF

Info

Publication number
CN114819155A
CN114819155A CN202210526165.7A CN202210526165A CN114819155A CN 114819155 A CN114819155 A CN 114819155A CN 202210526165 A CN202210526165 A CN 202210526165A CN 114819155 A CN114819155 A CN 114819155A
Authority
CN
China
Prior art keywords
entity
word
normalization
words
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210526165.7A
Other languages
English (en)
Inventor
李宇萱
李向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN202210526165.7A priority Critical patent/CN114819155A/zh
Publication of CN114819155A publication Critical patent/CN114819155A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90348Query processing by searching ordered data, e.g. alpha-numerically ordered data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于编辑距离的医学术语归一化方法、系统及介质,属于数据处理技术领域,要解决的技术问题为如何有效解决实体间共指消解问题,快速完成术语归一化并具备较高准确率。包括如下步骤:获取医学术语归一词作为实体归一词,并对实体归一词标注实体类型;将实体原词和与其对应的实体归一词、实体类型作为一个词组,将词组作为知识构建知识库;计算目标实体与知识库中各个实体原词之间的编辑距离,并选取与目标实体的编辑距离小于阈值的一个或多个实体原词;从知识库中匹配对应的实体归一词;如果归一词词组中匹配到的实体归一词为多个,通过人工判定的方式选择一个实体归一词为所述目标实体对应的实体归一词。

Description

基于编辑距离的医学术语归一化方法、系统及介质
技术领域
本发明涉及数据处理技术领域,具体地说是基于编辑距离的医学术语归一化方法、系统及介质。
背景技术
医学术语是医学领域中标准化的专业术语,包括疾病、药物、手术、症状、检查检验等不同类别的实体名词,制定术语标准化,严格定义实体词的概念与含义,是医学信息处理的基础,有效保障医学信息的规范化、标准化、统一化,减少了实体多义或同义现象,避免医学信息交流中的误解和歧义。
现阶段,随着医疗机构信息化不断深入,各种基于实际应用的医学术语名词标准的需求日益增加。伴随着医学的发展,疾病领域的区分更加细致化,各家医疗机构、科室之间的信息交流、共享、整合和利用因数据结构和表达的不同而无法达成。且由于地域差异性和口语化现象较为严重,导致存在多词同义现象,对之后进行医学信息研究和分析工作有很大影响。目前,医学领域术语归一化工作多为医学专业人员进行人工对比处理,需要耗费大量人力和精力,时间长效率低,并且由于地域广泛,沟通交流困难,很难达成一套统一的术语归一化体系。
如何有效解决实体间共指消解问题,快速完成术语归一化并具备较高准确率是目前亟待解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供基于编辑距离的医学术语归一化方法、系统及介质,来解决如何有效解决实体间共指消解问题,快速完成术语归一化并具备较高准确率的技术问题。
第一方面,本发明的一种基于编辑距离的医学术语归一化方法,包括如下步骤:
获取医学医学术语归一词作为实体归一词,并对实体归一词标注实体类型;
获取各个地区各个医院的实体原词,将实体原词和与其对应的实体归一词、实体类型作为一个词组,将词组作为知识构建知识库;
对于要获取归一词的目标实体,计算目标实体与知识库中各个实体原词之间的编辑距离,并选取与目标实体的编辑距离小于阈值的一个或多个实体原词,将所述一个或多个实体原词作为所述目标实体的原词组;
对于原词组中每个实体原词,从知识库中匹配对应的实体归一词,得到所述目标实体对应的归一词词组;
如果归一词词组中匹配到的实体归一词为多个,通过人工判定的方式选择一个实体归一词为所述目标实体对应的实体归一词。
更优的,如果目标实体对应的实体类型为已知,基于实体类型从知识库中筛选出与所述目标实体同一个类型的实体原词,对于每个筛选出的每个实体原词,计算目标实体与所述实体原词之间的编辑距离。
更优的,如果所述目标实体未存在于知识库中,对所述目标实体进行人工校验后,将所述目标实体作为新的实体原词,将所述新的实体原词以及对应的实体归一词和实体类型作为一个词组,将所述词组作为知识更新至所述知识库中。
作为优选,将目标实体与知识库中实体原词逐个进行字符串之间的编辑操作,计算出目标实体与实体原词之间的编辑距离,所述编辑操作包括添加、删除和修改;
所述编辑距离计算公式为:
Figure BDA0003644550880000031
其中,a表示,b表示,i表示,j表示,ai表示,bi表示。
作为优选,依据国家发行的标准数据集、期刊、医学相关知识文档和文献进行数据处理提取出各类型的医学术语归一词。
作为优选,所述实体类型包括疾病、药物、手术、检验检查以及操作。
第二方面,本发明的一种基于编辑距离的医学术语归一化系统,用于通过如第一方面任一项所述的基于编辑距离的医学术语归一化方法对医学术语进行归一化,所述系统包括:
数据采集模块,所述数据采集模块用于获取医学医学术语归一词作为实体归一词,并对实体归一词标注实体类型;
知识库构建模块,所述知识库构建模块用于获取各个地区各个医院的实体原词,将实体原词和与其对应的实体归一词、实体类型作为一个词组,将词组作为知识构建知识库;
实体归一化模块,所述实体归一化模块用于计算目标实体与知识库中各个实体原词之间的编辑距离,并选取与目标实体的编辑距离小于阈值的一个或多个实体原词,将所述一个或多个实体原词作为所述目标实体的原词组;对于原词组中每个实体原词,用于从知识库中匹配对应的实体归一词,得到所述目标实体对应的归一词词组;如果归一词词组中匹配到的实体归一词为多个,用于通过人工判定的方式选择一个实体归一词为所述目标实体对应的实体归一词;
知识库更新模块,所述知识库更新模块用于判断目标实体是否存在于知识库中,如果所述目标实体未存在于知识库中,用于对所述目标实体进行人工校验后,将所述目标实体作为新的实体原词,将所述新的实体原词以及对应的实体归一词和实体类型作为一个词组,将所述词组作为知识更新至所述知识库中。
更优的,所述实体归一模块用于判断所述模板实体类型是否已知,如果目标实体对应的实体类型为已知,用于基于实体类型从知识库中筛选出与所述目标实体同一个类型的实体原词,对于每个筛选出的每个实体原词,计算目标实体与所述实体原词之间的编辑距离。
作为优选,所述实体归一化模块用于将目标实体与知识库中实体原词逐个进行字符串之间的编辑操作,计算出目标实体与实体原词之间的编辑距离,所述编辑操作包括添加、删除和修改;
所述编辑距离计算公式为:
Figure BDA0003644550880000041
其中,a表示,b表示,i表示,j表示,ai表示,bi表示。
第三方面,本发明的一种介质,为计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行第一方面任一所述的方法。
本发明的基于编辑距离的医学术语归一化方法、系统及介质具有以下优点:
1、建立知识库,通过知识库将实际原词与归一词对齐,然后基于编辑距离将目标实体与原词对比,选取编辑距离最短的原词作为目标实体的原词组,对于原词组中每个原词,从知识库中匹配归一词得到目标实体对应的归一词,提高了准确率;
2、对于已知类型的目标实体,从知识库中筛选出与目标实体同一个类型的原词,对于筛选出的原词,分别计算目标实体与原词的编辑距离进行筛选,根据实体类型有选择的选取疾病、药物、手术等某一具体类别进行目标实体归一化,相比广泛无目的的搜索,精确了归一化的范围,提高效率和准确率,快速完成术语实体归一化的任务目标。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
图1为实施例1基于编辑距离的医学术语归一化方法的流程框图;
图2为实施例1基于编辑距离的医学术语归一化方法中编辑距离方法原理实例图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
本发明实施例提供基于编辑距离的医学术语归一化方法、系统及介质,用于解决如何有效解决实体间共指消解问题,快速完成术语归一化并具备较高准确率的技术问题。
实施例1:
本发明一种基于编辑距离的医学术语归一化方法,其特征在于包括如下步骤:
S100、获取医学医学术语归一词作为实体归一词,并对实体归一词标注实体类型;
S200、获取各个地区各个医院的实体原词,将实体原词和与其对应的实体归一词、实体类型作为一个词组,将词组作为知识构建知识库;
S300、对于要获取归一词的目标实体,计算目标实体与知识库中各个实体原词之间的编辑距离,并选取与目标实体的编辑距离小于阈值的一个或多个实体原词,将所述一个或多个实体原词作为所述目标实体的原词组;
S400、对于原词组中每个实体原词,从知识库中匹配对应的实体归一词,得到所述目标实体对应的归一词词组;
如果归一词词组中匹配到的实体归一词为多个,通过人工判定的方式选择一个实体归一词为所述目标实体对应的实体归一词。
本实施例步骤S100进行数据采集,该方步骤通过采集国家发行的标准数据集、期刊、国家发行的医学相关知识文档或文献等权威知识获取相关知识数据,进行数据结构化处理,目前知识库中已加入了《疾病分类与代码(修订版)》全国1.3版、疾病分类与代码国家临床版2.0、常用临床医学名词、医疗机构临床检验项目目录(2014年版)、全国医疗卫生机构业务科室分类与代码、手术国家标准3.0、国家药监局、临床医学路径、中医证候名称与分类代码、中医病症分类与代码、医保目录等18项知识来源进行术语标准词的规整。
步骤S200获取部分地域各个医疗机构的医疗数据,对常用医学名词进行数据治理,将非标准词作为原词逐个对应到其归一词上,以三元组(“实体原词”-“实体类型”-“实体归一词”)形式进行数据存储,可说明的是,一个原词只对应唯一一个归一词,一个归一词可对应一个或多个原词,且归一词本身为其对应的原词,以此基础构成知识库字典。现有知识库中数据量已达30万以上。
表1、原词与归一词映射表
序号 字段名 中文 类型 备注
1 ORIGINAL_WORD_ID 原词ID bigint 主键
2 ORIGINAL_WORD 原词 varchar 索引
3 ENTITY_TYPE_ID 实体类型ID int 索引
4 NORMALIZE_TERM_ID 归一词ID varchar 索引,外键
5 SOURCE_ID 来源于标注任务项ID int
6 STATUS 1正常-1已删除 tinyint 索引
步骤S300获取字典中的原词数据,将目标实体与知识库中实体原词逐个进行字符串之间的编辑操作,计算出目标实体与实体原词之间的编辑距离,编辑距离计算公式为:
Figure BDA0003644550880000071
其中,a表示,b表示,i表示,j表示,ai表示,bi表示。
如图2中案例所示,编辑距离计算有三种编辑操作方式,以实体词1为“新冠肺炎”,实体词2为“新型冠状病毒”为例:
假设实体词2“新型冠状病毒肺炎”为固定模板,对实体词1“新冠肺炎”进行编辑操作。对两个实体词从后向前(或从前向后)进行匹配,先比较最后一个字符:“炎”≠“毒”,所以要对实体词1进行编辑操作,允许的操作有三种:添加、删除、修改。
1)添加
在实体词1中插入“毒”,即“新冠肺炎”变为“新冠肺炎毒”,进一步比较“新冠肺炎毒”与“新型冠状病毒”的编辑距离,即:
ED(“新冠肺炎”,“新型冠状病毒”)=ED(“新冠肺炎毒”,“新型冠状病毒”)+1=ED(“新冠肺炎”,“新型冠状病”)+1
2)删除
在实体词1中删除不匹配的字符“炎”,即“新冠肺炎”变为“新冠肺”,进一步比较“新冠肺”与“新型冠状病毒”的编辑距离,即:
ED(“新冠肺炎”,“新型冠状病毒”)=ED(“新冠肺”,“新型冠状病毒”)+1
3)修改
在实体词1中修改不匹配的字符“炎”变为“毒”,即“新冠肺炎”变为“新冠肺毒”,进一步比较“新冠肺毒”与“新型冠状病毒”的编辑距离,即:
ED(“新冠肺炎”,“新型冠状病毒”)=ED(“新冠肺毒”,“新型冠状病毒”)+1=ED(“新冠肺”,“新型冠状病”)+1
综上所述,ED(“新冠肺炎”,“新型冠状病毒”)=min{ED(“新冠肺炎”,“新型冠状病”),ED(“新冠肺”,“新型冠状病毒”),ED(“新冠肺”,“新型冠状病”)}+1
若已知:
ED(“新冠肺炎”,“新型冠状病”)=4
ED(“新冠肺”,“新型冠状病毒”)=5
ED(“新冠肺”,“新型冠状病”)=4
则:ED(“新冠肺炎”,“新型冠状病毒”)=min(4,5,4)+1=5
接下来用一个5*7的数组dp来记录动态规划的过程:
初始化:
Figure BDA0003644550880000081
Figure BDA0003644550880000091
结果:
0
0 0 1 2 3 4 5 6
1 0 1 2 3 4 5
2 1 1 2 3 4 5
3 2 2 2 3 4 5
4 3 2 3 3 4 5
故,实体词1为“新冠肺炎”,实体词2为“新型冠状病毒”,两者间的编辑距离为5。
步骤S300选取与目标实体对应的最短编辑距离的原词,若存在一个或多个相同最短编辑距离的原词,则以词组形式进行返回。以目标实体为“新型冠状肺炎”,实体词1为“新型冠状病毒”对应归一词为“新型冠状病毒肺炎”,实体词2为“新型冠心病”对应归一词为“冠状动脉粥样硬化心脏病”,实体词3为“高血压”对应归一词为“高血压病”为例。
ED1(“新型冠状肺炎”,“新型冠状病毒”)=2
ED2(“新型冠状肺炎”,“新冠肺炎”)=5
ED3(“新型冠状肺炎”,“高血压”)=6
故识别出目标实体对应最短编辑距离的原词为实体词1“新型冠状病毒”。
步骤S400通过获取到的原词词组再次与知识库字典中的术语原词进行数据对齐,获取到该原词所对应的归一词,即获取到目标实体所对应的一个或多个归一词组,与上步案例相同的,获取到目标实体“新型冠状肺炎”对应归一词为“新型冠状病毒肺炎”。若获取到多个目标实体归一词,则进行人工校验,选取最为准确的实体作为目标实体归一词。
作为实施例的改进,获取待归一化的目标实体,根据实体类型(若已知目标实体类型,则根据实体类型选取特定范围内的字典数据进行检索实现术语归一化;若未知目标实体类型,则不进行范围缩减,直接进行全局检索实现术语归一化。)选取特定范围内字典数据。即,该改进的实施中如果目标实体对应的实体类型为已知,基于实体类型从知识库中筛选出与所述目标实体同一个类型的实体原词,对于每个筛选出的每个实体原词,计算目标实体与所述实体原词之间的编辑距离。
针对实体类型进行具体类别选择后(疾病、药物、手术、检验检查、操作等),再进行编辑距离计算,即可分为疾病术语归一化、手术术语归一化、症状术语归一化等,有效避免不同类别实体间相似度较高的错误问题,提高了归一化的准确率。
作为进一步改进,若该目标实体未在已有知识库原词中存在,即编辑距离大于0,则通过人工校验实体归一化结果,可有选择性的将其添加至知识库中,将目标实体词作为归一词的原词,根据实体类型进行知识字典补充。
即如果所述目标实体未存在于知识库中,对所述目标实体进行人工校验后,将所述目标实体作为新的实体原词,将所述新的实体原词以及对应的实体归一词和实体类型作为一个词组,将所述词组作为知识更新至所述知识库中。
通过不断定期更新医院规整数据,捕捉获取更多可靠知识源数据,扩充知识库数据字典,补充更多归一词所对应原词数据,提高目标实体与原词正确对比率,进一步提高目标实体标准化的正确率。
实施例2:
本发明一种基于编辑距离的医学术语归一化系统,包括数据采集模块、知识库构建模块、实体归一化模块以及知识库更新模块,该模块用于执行实施1公开的方法,对医学术语进行归一化处理。
数据采集模块用于获取医学医学术语归一词作为实体归一词,并对实体归一词标注实体类型。
该模块通过采集国家发行的标准数据集、期刊、国家发行的医学相关知识文档或文献等权威知识获取相关知识数据,进行数据结构化处理,目前知识库中已加入了《疾病分类与代码(修订版)》全国1.3版、疾病分类与代码国家临床版2.0、常用临床医学名词、医疗机构临床检验项目目录(2014年版)、全国医疗卫生机构业务科室分类与代码、手术国家标准3.0、国家药监局、临床医学路径、中医证候名称与分类代码、中医病症分类与代码、医保目录等18项知识来源进行术语标准词的规整。
知识库构建模块用于获取各个地区各个医院的实体原词,将实体原词和与其对应的实体归一词、实体类型作为一个词组,将词组作为知识构建知识库。
该模块用于获取部分地域各个医疗机构的医疗数据,对常用医学名词进行数据治理,将非标准词作为原词逐个对应到其归一词上,以三元组(“实体原词”-“实体类型”-“实体归一词”)形式进行数据存储,可说明的是,一个原词只对应唯一一个归一词,一个归一词可对应一个或多个原词,且归一词本身为其对应的原词,以此基础构成知识库字典。现有知识库中数据量已达30万以上。
实体归一化模块用于计算目标实体与知识库中各个实体原词之间的编辑距离,并选取与目标实体的编辑距离小于阈值的一个或多个实体原词,将所述一个或多个实体原词作为所述目标实体的原词组;对于原词组中每个实体原词,用于从知识库中匹配对应的实体归一词,得到所述目标实体对应的归一词词组;如果归一词词组中匹配到的实体归一词为多个,用于通过人工判定的方式选择一个实体归一词为所述目标实体对应的实体归一词。
该模块用于获取字典中的原词数据,将目标实体与知识库中实体原词逐个进行字符串之间的编辑操作,计算出目标实体与实体原词之间的编辑距离,编辑距离计算公式为:
Figure BDA0003644550880000121
其中,a表示,b表示,i表示,j表示,ai表示,bi表示。
编辑距离计算有三种编辑操作方式,以实体词1为“新冠肺炎”,实体词2为“新型冠状病毒”为例:
假设实体词2“新型冠状病毒肺炎”为固定模板,对实体词1“新冠肺炎”进行编辑操作。对两个实体词从后向前(或从前向后)进行匹配,先比较最后一个字符:“炎”≠“毒”,所以要对实体词1进行编辑操作,允许的操作有三种:添加、删除、修改。
1)添加
在实体词1中插入“毒”,即“新冠肺炎”变为“新冠肺炎毒”,进一步比较“新冠肺炎毒”与“新型冠状病毒”的编辑距离,即:
ED(“新冠肺炎”,“新型冠状病毒”)=ED(“新冠肺炎毒”,“新型冠状病毒”)+1=ED(“新冠肺炎”,“新型冠状病”)+1
2)删除
在实体词1中删除不匹配的字符“炎”,即“新冠肺炎”变为“新冠肺”,进一步比较“新冠肺”与“新型冠状病毒”的编辑距离,即:
ED(“新冠肺炎”,“新型冠状病毒”)=ED(“新冠肺”,“新型冠状病毒”)+1
3)修改
在实体词1中修改不匹配的字符“炎”变为“毒”,即“新冠肺炎”变为“新冠肺毒”,进一步比较“新冠肺毒”与“新型冠状病毒”的编辑距离,即:
ED(“新冠肺炎”,“新型冠状病毒”)=ED(“新冠肺毒”,“新型冠状病毒”)+1=ED(“新冠肺”,“新型冠状病”)+1
综上所述,ED(“新冠肺炎”,“新型冠状病毒”)=min{ED(“新冠肺炎”,“新型冠状病”),ED(“新冠肺”,“新型冠状病毒”),ED(“新冠肺”,“新型冠状病”)}+1
若已知:
ED(“新冠肺炎”,“新型冠状病”)=4
ED(“新冠肺”,“新型冠状病毒”)=5
ED(“新冠肺”,“新型冠状病”)=4
则:ED(“新冠肺炎”,“新型冠状病毒”)=min(4,5,4)+1=5。
该实体归一化模块用于选取与目标实体对应的最短编辑距离的原词,若存在一个或多个相同最短编辑距离的原词,则以词组形式进行返回。以目标实体为“新型冠状肺炎”,实体词1为“新型冠状病毒”对应归一词为“新型冠状病毒肺炎”,实体词2为“新型冠心病”对应归一词为“冠状动脉粥样硬化心脏病”,实体词3为“高血压”对应归一词为“高血压病”为例。
ED1(“新型冠状肺炎”,“新型冠状病毒”)=2
ED2(“新型冠状肺炎”,“新冠肺炎”)=5
ED3(“新型冠状肺炎”,“高血压”)=6
故识别出目标实体对应最短编辑距离的原词为实体词1“新型冠状病毒”。
该实体归一化模块用于通过获取到的原词词组再次与知识库字典中的术语原词进行数据对齐,获取到该原词所对应的归一词,即获取到目标实体所对应的一个或多个归一词组,与上步案例相同的,获取到目标实体“新型冠状肺炎”对应归一词为“新型冠状病毒肺炎”。若获取到多个目标实体归一词,则进行人工校验,选取最为准确的实体作为目标实体归一词。
知识库更新模块用于判断目标实体是否存在于知识库中,如果所述目标实体未存在于知识库中,用于对所述目标实体进行人工校验后,将所述目标实体作为新的实体原词,将所述新的实体原词以及对应的实体归一词和实体类型作为一个词组,将所述词组作为知识更新至所述知识库中。
作为改进,该实体归一化模块获取待归一化的目标实体后,用于根据实体类型(若已知目标实体类型,则根据实体类型选取特定范围内的字典数据进行检索实现术语归一化;若未知目标实体类型,则不进行范围缩减,直接进行全局检索实现术语归一化。)选取特定范围内字典数据。
即,该改进的模块中,如果目标实体对应的实体类型为已知,基于实体类型从知识库中筛选出与所述目标实体同一个类型的实体原词,对于每个筛选出的每个实体原词,计算目标实体与所述实体原词之间的编辑距离。
实施例3:
本发明一种介质,为计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行实施例1公开的方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构,也可以是逻辑结构,即,有些模块可能由同一物理实体实现,或者,有些模块可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元可以通过机械方式或电气方式实现。例如,一个硬件单元可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。

Claims (10)

1.一种基于编辑距离的医学术语归一化方法,其特征在于包括如下步骤:
获取医学医学术语归一词作为实体归一词,并对实体归一词标注实体类型;
获取各个地区各个医院的实体原词,将实体原词和与其对应的实体归一词、实体类型作为一个词组,将词组作为知识构建知识库;
对于要获取归一词的目标实体,计算目标实体与知识库中各个实体原词之间的编辑距离,并选取与目标实体的编辑距离小于阈值的一个或多个实体原词,将所述一个或多个实体原词作为所述目标实体的原词组;
对于原词组中每个实体原词,从知识库中匹配对应的实体归一词,得到所述目标实体对应的归一词词组;
如果归一词词组中匹配到的实体归一词为多个,通过人工判定的方式选择一个实体归一词为所述目标实体对应的实体归一词。
2.根据权利要求1所述的基于编辑距离的医学术语归一化方法,其特征在于如果目标实体对应的实体类型为已知,基于实体类型从知识库中筛选出与所述目标实体同一个类型的实体原词,对于每个筛选出的每个实体原词,计算目标实体与所述实体原词之间的编辑距离。
3.根据权利要求1所述的基于编辑距离的医学术语归一化方法,其特征在于如果所述目标实体未存在于知识库中,对所述目标实体进行人工校验后,将所述目标实体作为新的实体原词,将所述新的实体原词以及对应的实体归一词和实体类型作为一个词组,将所述词组作为知识更新至所述知识库中。
4.根据权利要求1、2或3所述的基于编辑距离的医学术语归一化方法,其特征在于将目标实体与知识库中实体原词逐个进行字符串之间的编辑操作,计算出目标实体与实体原词之间的编辑距离,所述编辑操作包括添加、删除和修改;
所述编辑距离计算公式为:
Figure FDA0003644550870000021
其中,a表示,b表示,i表示,j表示,ai表示,bi表示。
5.根据权利要求1、2或3所述的基于编辑距离的医学术语归一化方法,其特征在于依据国家发行的标准数据集、期刊、医学相关知识文档和文献进行数据处理提取出各类型的医学术语归一词。
6.根据权利要求1、2或3所述的基于编辑距离的医学术语归一化方法,其特征在于所述实体类型包括疾病、药物、手术、检验检查以及操作。
7.一种基于编辑距离的医学术语归一化系统,其特征在于用于通过如权利要求1-6任一项所述的基于编辑距离的医学术语归一化方法对医学术语进行归一化,所述系统包括:
数据采集模块,所述数据采集模块用于获取医学医学术语归一词作为实体归一词,并对实体归一词标注实体类型;
知识库构建模块,所述知识库构建模块用于获取各个地区各个医院的实体原词,将实体原词和与其对应的实体归一词、实体类型作为一个词组,将词组作为知识构建知识库;
实体归一化模块,所述实体归一化模块用于计算目标实体与知识库中各个实体原词之间的编辑距离,并选取与目标实体的编辑距离小于阈值的一个或多个实体原词,将所述一个或多个实体原词作为所述目标实体的原词组;对于原词组中每个实体原词,用于从知识库中匹配对应的实体归一词,得到所述目标实体对应的归一词词组;如果归一词词组中匹配到的实体归一词为多个,用于通过人工判定的方式选择一个实体归一词为所述目标实体对应的实体归一词;
知识库更新模块,所述知识库更新模块用于判断目标实体是否存在于知识库中,如果所述目标实体未存在于知识库中,用于对所述目标实体进行人工校验后,将所述目标实体作为新的实体原词,将所述新的实体原词以及对应的实体归一词和实体类型作为一个词组,将所述词组作为知识更新至所述知识库中。
8.根据权利要求7所述的基于编辑距离的医学术语归一化系统,其特征在于所述实体归一模块用于判断所述模板实体类型是否已知,如果目标实体对应的实体类型为已知,用于基于实体类型从知识库中筛选出与所述目标实体同一个类型的实体原词,对于每个筛选出的每个实体原词,计算目标实体与所述实体原词之间的编辑距离。
9.根据权利要求7或8所述的基于编辑距离的医学术语归一化系统,其特征在于所述实体归一化模块用于将目标实体与知识库中实体原词逐个进行字符串之间的编辑操作,计算出目标实体与实体原词之间的编辑距离,所述编辑操作包括添加、删除和修改;
所述编辑距离计算公式为:
Figure FDA0003644550870000031
其中,a表示,b表示,i表示,j表示,ai表示,bi表示。
10.一种介质,为计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行权利要求1至6任一所述的方法。
CN202210526165.7A 2022-05-16 2022-05-16 基于编辑距离的医学术语归一化方法、系统及介质 Pending CN114819155A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210526165.7A CN114819155A (zh) 2022-05-16 2022-05-16 基于编辑距离的医学术语归一化方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210526165.7A CN114819155A (zh) 2022-05-16 2022-05-16 基于编辑距离的医学术语归一化方法、系统及介质

Publications (1)

Publication Number Publication Date
CN114819155A true CN114819155A (zh) 2022-07-29

Family

ID=82514880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210526165.7A Pending CN114819155A (zh) 2022-05-16 2022-05-16 基于编辑距离的医学术语归一化方法、系统及介质

Country Status (1)

Country Link
CN (1) CN114819155A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581976A (zh) * 2020-03-27 2020-08-25 平安医疗健康管理股份有限公司 医学术语的标准化方法、装置、计算机设备及存储介质
CN112287680A (zh) * 2020-10-23 2021-01-29 微医云(杭州)控股有限公司 一种问诊信息的实体抽取方法、装置、设备及存储介质
CN113255353A (zh) * 2021-05-31 2021-08-13 中国科学院计算技术研究所厦门数据智能研究院 一种实体标准化方法
CN113722429A (zh) * 2021-08-11 2021-11-30 上海保链科技有限公司 数据归一化处理方法、装置、设备及计算机可读存储介质
CN113764112A (zh) * 2021-09-16 2021-12-07 山东大学第二医院 一种在线医疗问答方法
CN114186070A (zh) * 2021-12-08 2022-03-15 上海柯林布瑞信息技术有限公司 基于人工智能模型的医学术语归一化方法、装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581976A (zh) * 2020-03-27 2020-08-25 平安医疗健康管理股份有限公司 医学术语的标准化方法、装置、计算机设备及存储介质
CN112287680A (zh) * 2020-10-23 2021-01-29 微医云(杭州)控股有限公司 一种问诊信息的实体抽取方法、装置、设备及存储介质
CN113255353A (zh) * 2021-05-31 2021-08-13 中国科学院计算技术研究所厦门数据智能研究院 一种实体标准化方法
CN113722429A (zh) * 2021-08-11 2021-11-30 上海保链科技有限公司 数据归一化处理方法、装置、设备及计算机可读存储介质
CN113764112A (zh) * 2021-09-16 2021-12-07 山东大学第二医院 一种在线医疗问答方法
CN114186070A (zh) * 2021-12-08 2022-03-15 上海柯林布瑞信息技术有限公司 基于人工智能模型的医学术语归一化方法、装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张帆: "《零基础学Python算法与数据结构 视频案例精讲》", 30 April 2022, 北京:北京理工大学出版社, pages: 254 - 259 *

Similar Documents

Publication Publication Date Title
CN111767410B (zh) 临床医疗知识图谱的构建方法、装置、设备及存储介质
Bourke et al. Feasibility study and methodology to create a quality-evaluated database of primary care data.
US7580831B2 (en) Dynamic dictionary and term repository system
US9165116B2 (en) Patient data mining
CN102792298B (zh) 使用特征化匹配的规则来匹配元数据源
CN113360671B (zh) 一种基于知识图谱的医保医疗单据审核方法及其系统
Uzuner et al. i2b2 workshop on natural language processing challenges for clinical records
US20020128861A1 (en) Mapping clinical data with a health data dictionary
CN112233746A (zh) 一种医疗数据自动标准化的方法
US20200013491A1 (en) Interoperable Record Matching Process
CN112489812B (zh) 药物开发分析方法、装置、电子设备和存储介质
Lee et al. Automated extraction of Biomarker information from pathology reports
WO2021032055A1 (zh) 临床试验报告自动录入方法及装置、电子设备、存储介质
CN108170677B (zh) 一种医疗术语抽取方法及装置
CN112307216A (zh) 药品知识图谱的构建方法和装置
CN111986759A (zh) 电子病历的解析方法、系统、计算机设备与可读存储介质
CN113488180A (zh) 一种临床指南知识建模方法及系统
CN114819155A (zh) 基于编辑距离的医学术语归一化方法、系统及介质
CN115545017A (zh) 基于节点相似度的医学术语归一化方法及系统
CN108573010B (zh) 关联异构系统同义数据的方法、装置、电子设备及介质
Johnson et al. Integrating data from natural language processing into a clinical information system.
KR101484766B1 (ko) 의료정보 시스템에서의 전자서식 작성기 및 전자서식 작성 방법
Sager et al. Automatic encoding of clinical narrative
CN111816273B (zh) 一种海量电子病历的大规模医学知识图谱构建方法
Petrulevich Place-name variation in medieval literature in the digital age

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination