CN114153995B - 医学术语的处理方法、装置、计算机设备和存储介质 - Google Patents
医学术语的处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN114153995B CN114153995B CN202210121022.8A CN202210121022A CN114153995B CN 114153995 B CN114153995 B CN 114153995B CN 202210121022 A CN202210121022 A CN 202210121022A CN 114153995 B CN114153995 B CN 114153995B
- Authority
- CN
- China
- Prior art keywords
- standard medical
- medical
- word
- term
- terms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
Abstract
本说明书实施方式提供了一种医学术语处理的方法、装置、计算机设备和存储介质。包括:针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语,将所述多个标准医学术语作为目标候选标准医学术语;对所述目标候选标准医学术语分别构建多维特征向量;使用所述医学原词生成的词向量与所述多维特征向量进行相似度运算,得出所述多维特征向量对应的目标候选标准医学术语与所述医学原词的相似度;基于所述相似度在目标候选标准医学术语中确定目标标准医学术语。通过采用多种召回策略提高召回候选标准医学术语的准确率,再根据相似度计算的结果确定目标标准医学术语,提高了医学术语编码人员的工作效率。
Description
技术领域
本说明书实施方式涉及自然语言处理领域,具体涉及医学术语的处理方法、装置、计算机设备和存储介质。
背景技术
在临床试验和研究中,需要对不良事件、检查项目、既往病史、适应症、用药原因、死亡原因等进行医学编码,以便将这些信息用于医学核查、统计分析、病例检索等。现有的基于字、词本身的精确或模糊匹配方法会匹配出大量无关的候选标准术语,同时也可能会漏掉语义一致但字面不一样的候选标准术语,导致需要人工对大量候选标准术语进行选择或多次检索。
发明内容
有鉴于此,本说明书多个实施方式致力于提供一种文献资料文本分类方法、模型构建方法、分类装置、计算机设备和计算机存储介质,以提供一种能对不同文献资料文本打上层次标签的方法。
本说明书实施方式提出了一种医学术语的处理方法,包括:针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语,将所述多个标准医学术语作为目标候选标准医学术语;其中,所述预设标准医学术语知识图谱库中包括若干标准医学术语;其中,所述医学原词对应所述标准医学术语具有关系数据;对所述目标候选标准医学术语分别构建多维特征向量;其中,所述多维特征向量基于所述目标候选标准医学术语对应所述医学原词的关系数据,以及所述目标候选标准医学术语的词向量生成;使用所述医学原词生成的词向量与所述多维特征向量进行相似度运算,得出所述多维特征向量对应的目标候选标准医学术语与所述医学原词的相似度;基于所述相似度在目标候选标准医学术语中确定目标标准医学术语。
本说明书实施方式提出了一种医学术语的处理装置,包括:候选标准医学术语召回模块,用于针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语,将所述多个标准医学术语作为目标候选标准医学术语;其中,所述预设标准医学术语知识图谱库中包括若干标准医学术语;其中,所述医学原词对应所述标准医学术语具有关系数据;多维特征向量构建模块,用于对所述目标候选标准医学术语分别构建多维特征向量;其中,所述多维特征向量基于所述目标候选标准医学术语对应所述医学原词的关系数据,以及所述目标候选标准医学术语的词向量生成;相似度运算模块,用于使用所述医学原词生成的词向量与所述多维特征向量进行相似度运算,得出所述多维特征向量对应的目标候选标准医学术语与所述医学原词的相似度;目标标准医学术语确定模块,用于基于所述相似度在候选标准医学术语中确定目标标准医学术语。
本说明书实施方式提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述实施方式所述的方法。
本说明书实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述实施方式所述的方法。
本说明书实施方式通过采用多种召回策略提高召回候选标签的准确率,再根据相似度计算的结果确定目标标准医学术语,可以在返回的目标标准术语尽量少的前提下提高返回的目标标准术语的准确率,进一步提高初始医学原词标准化编码的准确率,从而提高了医学术语编码人员的工作效率。
附图说明
图1所示为一实施方式提供的场景示例的交互示意图。
图2所示为一实施方式提供的场景示例的交互示意图。
图3所示为一实施方式提供的一种医学术语处理的方法示意图。
图4所示为一实施方式提供的标准医学术语知识图谱库中部分知识图谱示意图。
图5所示为一实施方式提供的一种医学术语处理的装置示意图。
具体实施方式
为了使本技术领域的人员更好的理解本说明书方案,下面将结合本说明书实施方式中的附图,对本说明书实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅是本说明书一部分实施方式,而不是全部的实施方式。基于本说明书中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本说明书保护的范围。
请参阅图1和图2。本说明书提供一个医学术语处理系统的场景示例,所述医学术语处理系统可以包括客户端和服务器。其中,服务器中存储有标准医学术语知识图谱库。其中,客户端装有实现医学术语标准化处理的程序。用户可能是医疗领域的工作者,需要确定医学原词所对应的标准医学术语。在一次医学术语处理的事件中,用户可能会希望在预设的标准医学术语知识图谱中获取输入的医学原词可能对应的标准医学术语,再由所述医疗领域的工作者进一步分析、判断。
用户首先会向客户端输入初始医学原词,客户端在接收到初始医学原词后对医学原词进行大小写转换、全半角转换、简繁体转换、分词处理、分词改写等预处理步骤得到医学原词。用户可以在客户端中确定需要使用的召回策略和各种召回策略需要返回的候选标准医学术语的个数。接着,客户端会将医学原词、需要使用的召回策略及对应返回的候选标准术语的个数发送给服务器并请求返回候选标准术语。服务器在接收到客户端发送的请求后,会将数据库中的标准医学术语的词向量与接收到的医学原词的词向量按照对应的召回策略进行匹配度运算并按照匹配度运算的结果对标准医学术语按照从大到小的顺序排序,并根据用户设定的需要召回的标准医学术语的个数返回标准医学术语,对返回后的结果进行合并去重得到目标候选标准医学术语。
当确定了目标候选标准医学术语后,客户端便会根据目标候选标准医学术语构成的词向量和目标候选标准医学术语与医学原词之间的编辑距离构建目标候选标准医学术语的特征向量。接着,客户端会将医学原词生成的词向量与目标候选标准医学术语的特征向量输入预设的相似度计算的深度学习模型中进行相似度计算,从而得到目标候选标准医学术语与医学原词之间的相似度。根据相似度运算的结果从高到低的顺序对目标候选标准医学术语进行排序。根据设定的输出目标标准医学术语的个数,客户端会输出目标标准医学术语。最后,客户端会在执行完医学术语标准化处理的程序后将目标标准医学术语通过显示器呈现给用户。
以上所述仅为本说明书提供的一个场景示例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。
本说明书实施方式提供一种医学术语的处理系统。所述医学术语的处理系统可以包括客户端和服务器。所述客户端可以是具有网络访问能力的电子设备。具体的,例如,客户端可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、电视机、智能音箱、麦克风等。其中,智能可穿戴设备包括但不限于智能手环、智能手表、智能眼镜、智能头盔、智能项链等。或者,客户端也可以为能够运行于所述电子设备中的软件。服务器可以是具有一定运算处理能力的电子设备。其可以具有网络通信模块、处理器和存储器等。当然,所述服务器也可以是指运行于所述电子设备中的软体。所述服务器还可以为分布式服务器,可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者,服务器还可以为若干服务器形成的服务器集群。或者,随着科学技术的发展,服务器还可以是能够实现说明书实施方式相应功能的新的技术手段。例如,可以是基于量子计算实现的新形态的“服务器”。
请参阅图3,本说明书实施方式提供一种医学术语的处理方法,所述方法包括以下步骤:
步骤S110:针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语,将所述多个标准医学术语作为目标候选标准医学术语;其中,所述预设标准医学术语知识图谱库中包括若干标准医学术语;其中,所述医学原词对应所述标准医学术语具有关系数据。
标准医学术语知识图谱库中包含了大量的医学术语,直接从标准医学术语知识图谱库中确定医学原词对应的标准医学术语计算量较大,耗费时间长。因此可以先在标准医学术语知识图谱库中通过简单匹配召回多个与医学原词可能相同的标准医学术语,再根据召回的结果进一步计算。
所述医学原词可以是医学领域的词语。具体的,例如,医学原词可以来源于不良事件的报告、检查项目、既往病史、适应症、用药原因、死亡原因。当然,也可以来源于文献资料。
所述标准医学术语知识图谱库可以是来源于收录医学词语的数据库。具体的,例如,MedDRA数据库是一个具有五层结构的医学编码数据库。根据MedDRA数据库中的医学实体、医学实体之间的属性、医学实体之间的联系等信息构建的医学知识图谱。请参阅图4。MedDRA标准术语库中包括了低位语(Lowest level term,LLT)、首位语(Preferred term,PT)、高位语(High level term,HLT)、高位组语(High level group term,HLGT)、系统器官分类(System organ class,SOC)五层数据结构,LLT为贫血,PT也为贫血,HLT为各种贫血(不另分类),HLGT为非溶血性贫血及骨髓抑制,SOC为血液及淋巴系统疾病。
所述目标候选标准医学术语为对不同召回策略召回的结果进行合并去重的结果。具体的,例如,在设定各种召回策略召回的候选标准术语为4的情况下,采用召回策略1在MedDRA标准术语库中召回的标准术语可以是A、B、C、D,采用召回策略2在MedDRA标准术语库中召回的标准术语可以是B、D、E、F,那么目标候选标准术语可以是A、B、C、D、E、F。
所述关系数据可以是目标候选标准医学术语与医学原词之间的编辑距离。具体的,例如,医学原词为“anemia”,目标候选标准医学术语为“anemic”,那么所述医学原词和所述目标候选标准医学术语之间的编辑距离为1。在医学原词和目标候选标准医学术语均为中文的情况下,需要计算医学原词生成的词向量和目标候选标准医学术语生成的词向量之间的编辑距离。
步骤S120:对所述目标候选标准医学术语分别构建多维特征向量;其中,所述多维特征向量基于所述目标候选标准医学术语对应所述医学原词的关系数据,以及所述目标候选标准医学术语的词向量生成。
根据目标候选标准医学术语的多维特征向量和医学原词的词向量就可以计算目标候选标准医学术语与医学原词之间的相似度。因此,为了确保输出的目标标准医学术语能较大程度的表征医学原词,多维特征向量构造的好坏对于相似度计算的结果有着较大的影响。在多维特征向量构造的不好的情况下,就可能存在输出的目标标准医学术语与医学原词之间有着较大的差异性。
所述多维特征向量用以表征目标候选标准医学术语。为了使得目标标准医学术语与医学原词之间相似度计算的结果尽可能的准确,可以将根据目标标准医学术语生成的词向量与医学原词生成的词向量之间的编辑距离和目标标准医学术语的词向量构造一个两维特征向量。
步骤S130:使用所述医学原词生成的词向量与所述多维特征向量进行相似度运算,得出所述多维特征向量对应的目标候选标准医学术语与所述医学原词的相似度。
根据相似度计算的结果可以确定目标标准医学术语。目标候选标准医学术语是通过医学原词与标准医学术语通过简单的匹配度运算得到的,因此召回的目标候选标准医学术语并非是医学原词对应的标准医学术语。通过进一步的相似度计算,就可以知道医学原词与目标候选标准医学术语之间的相关关系。
所述相似度运算为计算医学原词与目标候选标准医学词语可能相同的概率。可以通过医学原词生成的词向量与目标候选标准医学术语构造的特征向量输入深度学习模型得到其相似度运算的结果。
步骤S140:基于所述相似度在目标候选标准医学术语中确定目标标准医学术语。
目标候选标准医学术语数量相对较多,且并不一定可以表征医学原词。因此,为了使得医学原词对应的标准医学术语数量较少且结果较为精确,需要对目标候选标准医学术语与医学原词的相似度较大的目标候选标准医学术语作为医学原词的目标标准术语。
所述目标标准医学术语是根据相似度运算的结果确定的。具体的,例如,目标候选标准医学术语为10个,其与医学原词的相似度从大到小的排序结果为:A,0.92;B,0.91;C,0.89;D,0.85;E,0.82;F,0.79;G,0.72;H,0.67;I,0.65;J,0.51。在设定的需要返回的目标标准医学术语在4个的情况下,返回的目标医学术语可以为A、B、C、D;在设定的需要返回的目标标准医学术语与医学原词的相似度大于0.7的情况下,返回的目标医学术语可以为A、B、C、D、E、F、G。
所述确定目标标准医学术语的方法可以是对目标候选标准医学术语与医学原词相似度计算的结果进行排序,根据设定的需要输出的目标标准医学术语的个数确定目标标准医学术语。
在一些实施方式中,针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语,将所述多个标准医学术语作为目标候选标准医学术语前的步骤,还可以包括:对输入的初始医学原词进行预处理得到医学原词;其中,所述医学原词至少包括一个词语。
对输入的初始医学原词进行预处理,经过转换后的医学原词与标准医学术语知识图谱库中的标准医学术语进行匹配度和相似度运算的时候,可以避免一些特征相同,但由于计算机算法等原因导致在匹配度运算和相似度运算的时候出现判断失误的问题。
所述医学原词是对输入的初始医学原词进行一系列预处理得到的。具体的,例如,输入的初始医学原词是“alt”,经过预处理后可以得到其对应的医学原词“丙氨酸氨基转移酶”。
在一些实施方式中,对输入的初始医学原词进行预处理的步骤,可以包括:对所述初始医学原词进行转换;其中,所述转换至少包括以下之一:大小写转换、全半角转换、简繁体转换;对经过转换的初始医学术语原词进行分词处理,并对所述分词的词性进行标注;将所述分词进行改写得到医学原词;其中,所述改写至少包括以下之一:所述分词的错词改写、所述分词的同义词扩展;根据所述医学原词在所述标准医学术语知识图谱库中的词频设置权重。
对输入的初始医学原词进行预处理后得到的医学原词在标准医学术语知识图谱库中进行匹配的时候可以提高召回的候选标准医学术语的准确率。因此,对输入的初始医学术语原词进行预处理的程度关系到召回的候选标准术语的准确率。
所述权重设置可以是根据输入的初始医学原词分词的结果确定的权重。具体的,例如,输入的初始医学原词为“发热惊厥”,经过所述预处理的步骤后,得到的医学原词可以是“发热”、“惊厥”,根据“发热”和“惊厥”这两个词语在标准医学术语知识图谱库中的词频及对应的词性确定“发热”和“惊厥”这两个词的权重可以分别为0.6和0.4。
在一些实施方式中,针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语,将所述多个标准医学术语作为目标候选标准医学术语的步骤,可以包括:生成所述医学原词的词向量;将所述医学原词的词向量与所述标准医学术语知识图谱库中的标准医学术语生成的词向量根据指定的召回策略进行匹配度运算;其中,所述召回策略至少包括以下之一:基于字词的匹配度运算召回、基于编辑距离的匹配度运算召回、基于词向量的匹配度运算召回、基于词频的匹配度运算召回;根据所述匹配度运算的结果确定对应的召回策略召回的候选标准医学术语。
在一些实施方式中,可以基于匹配度运算的方法召回候选标准医学术语。因此,可以根据医学原词生成的词向量和标准医学术语知识图谱中的标准医学术语生成的词向量进行匹配度运算,并根据匹配度运算的结果对标准医学术语进行排序,根据设定的输出的候选标准医学术语的个数输入匹配度较大的标准医学术语作为候选标准医学术语。
所述生成所述医学原词的词向量的方法可以通过神经网络、单词共生矩阵的降维、概率模型、可解释的知识库方法和术语的显式表示所述医学原词。具体的,例如,可以将医学原词输入到fastText词向量生成模型,从而生成所述医学原词对应的词向量。
在一些实施方式中,将所述医学原词的词向量与所述标准医学术语知识图谱库中的标准医学术语生成的向量根据指定的召回策略进行匹配度运算的步骤,可以包括:将所述医学原词的词向量与所述标准医学术语知识图谱库中的标准医学术语生成的向量输入到预设第一深度学习模型中计算匹配度;按照所述匹配度的大小顺序,输出所述标准医学术语及所述标准医学术语对应的匹配度。
医学原词与标准医学术语知识图谱库中的标准医学术语的匹配度越大,说明其差异性越小。因此,可以通过计算医学原词与标准医学术语的匹配度确定需要输出的候选标准医学术语。
所述预设第一深度学习模型可以计算两个词向量之间的匹配度。具体的,例如,将医学原词生成的词向量和标准医学术语生成的词向量作为支持向量机模型的输入,医学原词与标准医学术语的相似度作为支持向量机模型的输出,从而可以直接得到医学原词与标准医学术语的匹配度。当然,也可以根据词频、两个词向量之间的编辑距离等确定医学原词与标准医学术语之间的匹配度。
在一些实施方式中,根据所述匹配度运算的结果确定对应的召回策略召回的候选标准医学术语的步骤,可以包括:设定不同召回策略召回的候选标准医学术语个数;根据所述匹配度和所述个数确定不同策略召回的候选标准医学术语;对不同的策略召回的候选标准医学术语合并,合并后的候选标准医学术语作为目标候选标准医学术语。
对于不同召回策略召回的候选标准医学术语有部分重合的情况。因此,需要针对不同的召回策略召回的候选标准医学术语进行合并去重,将合并去重后的结果作为目标候选标准医学术语。
所述设定不同召回策略召回的标准医学术语个数可以根据召回率进行选择。具体的,例如,对采用基于词向量的召回结果进行排序,分别尝试召回候选标准医学术语的个数为5, 10, 20, 30 ……等不同的结果,再对召回的候选标准术语与医学原词进行相似度计算,根据相似度计算的结果再确定不同召回策略需要返回的候选标准医学术语的个数。
在一些实施方式中,在将所述医学原词的词向量与所述标准医学术语知识图谱库中的标准医学术语生成的向量根据指定的召回策略进行匹配度运算的步骤前,还可以包括:根据预设的标准医学术语知识图谱库中的标准医学术语、标准医学术语的属性信息和标准医学术语之间的关系生成所述标准医学术语的词向量;其中,所述标准医学术语的词向量用以表征所述标准医学术语。
通过预先在标准医学术语知识图谱库中生成表征标准医学术语的词向量,在对医学原词与标准医学术语进行匹配度计算的时候,可以大大提高所述匹配度计算的效率。其中,标准医学术语对应的词向量可以存储在专门的词向量引擎中。
在一些实施方式中,对所述目标候选标准医学术语分别构建多维特征向量的步骤,可以包括:计算所述目标候选标准医学术语与医学原词之间的编辑距离;将所述编辑距离和所述目标候选标准医学术语的词向量作为所述目标候选标准医学术语的多维特征向量。
多维特征向量用于表征目标候选标准医学术语。在多维特征向量构造的不够好的情况下,医学原词与目标候选标准医学术语的相似度计算结果可能存在着较大的误差。因此,多维特征向量构造的好坏关系到返回的目标标准医学术语的准确性。
所述多维特征向量可以由标准医学术语生成的词向量与医学原词生成的词向量之间的编辑距离和标准医学术语生成的词向量得到。
在一些实施方式中,使用所述医学原词对应的词向量与所述多维特征向量进行相似度运算,得出所述多维特征向量对应的目标候选标准医学术语与所述医学原词的相似度的步骤,可以包括:将所述医学原词生成的向量与所述多维特征向量输入到预设第二深度学习模型中进行相似度计算。
相似度运算的结果除了与多维特征向量构造的好坏有关,还与选用的深度学习模型的选择和训练有着较大的关系。因此,选用合适的深度学习模型和合适的训练样本对于相似度运算的结果较为重要。
所述第二深度学习模型可以是将医学原词的词向量和多维特征向量作为输入,医学原词与目标候选标准医学术语之间的相似度作为输出的模型。具体的,例如,训练样本中包括了医学原词和目标候选标准医学术语,将其输入到决策树深度学习模型中进行训练,从而得到医学原词的词向量与目标候选标准医学术语的特征向量之间特征的相似点,并将其作为决策树深度学习模型的参数。
在一些实施方式中,基于所述相似度在目标候选标准医学术语中确定目标标准医学术语的步骤,可以包括:按照所述相似度大小的顺序,输出目标候选标准医学术语及对应的相似度;根据所述相似度大小的顺序和预设输出目标候选标准医学术语输出的个数确定目标标准医学术语。
在计算完医学原词与目标候选标准医学术语的相似度之后,还需要确定需要返回的目标标准医学术语。因此,可以先根据目标候选标准医学术语的相似度计算的结果对标准医学术语从高到低进行排序,最后根据用户确定的需要输出的标准医学术语的个数和排序结果确定需要输出的标准医学术语。
所述确定目标标准医学术语的方法可以分别尝试返回的目标候选标准医学术语的个数为3,5,7,9……等不同的结果,然后可以由使用者确定在返回的目标标准医学术语尽量少的情况下返回的目标标准医学术语较为准确。当然,也可以根据输出返回的目标候选标准医学术语的个数为3,5,7,9……等不同的结果的准确性直接指定需要返回的目标标准医学术语的个数。
在一些实施方式中,针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语,将所述多个标准医学术语作为目标候选标准医学术语前的步骤,还可以包括:获取构建标准医学术语知识图谱的数据;其中,所述数据包括医学实体、医学实体的属性信息、各医学实体之间的关系信息;根据所述医学实体、所述医学实体的属性信息、所述各医学实体之间的关系信息构建标准医学术语知识图谱;将所述标准医学术语知识图谱存储到所述标准医学术语知识图谱库中。
从知识图谱库中进行搜索的时候一方面可以提高检索效率,另一方面可以将与医学实体相关的实体判断所述医学实体是否与医学原词有对应关系。具体的,例如,实体为“apple”,其存在与两个知识图谱中。其中,一个知识图谱的上层为“fruits”,兄弟节点包括了“apple”、“pair”等;另一个知识图谱中的上层为“electronic equipment”,兄弟节点包括了“Samsung”、“华为”等。那么就可以根据输入的原词在知识图谱库中找到该原词对应的标准术语。
请参阅图5,在一些实施方式中可以提供一种医学术语的处理装置,可以包括:候选标准医学术语召回模块、多维特征向量构建模块、相似度运算模块、目标标准医学术语确定模块。
候选标准医学术语召回模块,用于针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语,将所述多个标准医学术语作为目标候选标准医学术语;其中,所述预设标准医学术语知识图谱库中包括若干标准医学术语;其中,所述医学原词对应所述标准医学术语具有关系数据。
多维特征向量构建模块,用于对所述目标候选标准医学术语分别构建多维特征向量;其中,所述多维特征向量基于所述目标候选标准医学术语对应所述医学原词的关系数据,以及所述目标候选标准医学术语的词向量生成。
相似度运算模块,用于使用所述医学原词生成的词向量与所述多维特征向量进行相似度运算,得出所述多维特征向量对应的目标候选标准医学术语与所述医学原词的相似度。
目标标准医学术语确定模块,用于基于所述相似度在候选标准医学术语中确定目标标准医学术语。
关于医学术语的处理装置实现的具体功能和效果,可以参照本说明书其他实施方式对照解释,在此不再赘述。所述医学术语的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。所述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一些实施方式中可以提供一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现所述实施方式中的方法步骤。
在一些实施方式中可以提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现所述实施方式中的方法步骤。
本领域普通技术人员可以理解实现所述实施方式方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如所述各方法的实施方式的流程。其中,本说明书所提供的各实施方式中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
本说明书多个实施方式之间,采用递进的方式进行描述。不同的实施方式着重于描述相较于其它实施方式不相同的部分。所属领域技术人员在阅读本说明书之后,可以获知本说明书中的多个实施方式,以及实施方式揭示的多个技术特征,可以进行更多种的组合,为使描述简洁,未对所述实施方式中的各个技术特征所有可能的组合都进行描述。然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的多个实施方式本身均着重于强调与其他实施方式不同的部分,各实施方式之间可以相互对照解释。所属领域技术人员基于一般的技术常识对本说明书中的多个实施方式的任意组合均涵盖于本说明书的揭示范围内。
以上所述仅为本案的实施方式而已,并不用以限制本案的权利要求保护范围。对于本领域技术人员来说,本案可以有各种更改和变化。凡在本案的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本案的权利要求范围之内。
Claims (10)
1.一种医学术语的处理方法,其特征在于,包括:
针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语,将所述多个标准医学术语作为目标候选标准医学术语;其中,所述预设标准医学术语知识图谱库中包括若干标准医学术语;其中,所述医学原词对应所述标准医学术语具有关系数据;
对所述目标候选标准医学术语分别构建多维特征向量;其中,所述多维特征向量基于所述目标候选标准医学术语对应所述医学原词的关系数据,以及所述目标候选标准医学术语的词向量生成;
使用所述医学原词生成的词向量与所述多维特征向量进行相似度运算,得出所述多维特征向量对应的目标候选标准医学术语与所述医学原词的相似度;
基于所述相似度在目标候选标准医学术语中确定目标标准医学术语;
其中,所述针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语,将所述多个标准医学术语作为目标候选标准医学术语,包括:生成所述医学原词的词向量;根据预设的标准医学术语知识图谱库中的标准医学术语、标准医学术语的属性信息和标准医学术语之间的关系生成所述标准医学术语的词向量;其中,所述标准医学术语的词向量用以表征所述标准医学术语;将所述医学原词的词向量与所述标准医学术语的向量输入到预设第一深度学习模型中计算匹配度;其中,所述第一深度学习模型对应有不同的召回策略;其中,所述召回策略至少包括以下中的两个:基于字词的匹配度运算召回、基于编辑距离的匹配度运算召回、基于词向量的匹配度运算召回、基于词频的匹配度运算召回;按照所述匹配度的大小顺序,输出所述标准医学术语及所述标准医学术语对应的匹配度;根据所述匹配度和不同召回策略对应的设定的个数确定不同召回策略召回的候选标准医学术语;将不同的召回策略召回的候选标准医学术语合并得到目标候选标准医学术语。
2.根据权利要求1所述的方法,其特征在于,针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语,将所述多个标准医学术语作为目标候选标准医学术语前的步骤,还包括:
对输入的初始医学原词进行预处理得到所述医学原词;其中,所述医学原词至少包括一个词语。
3.根据权利要求2所述的方法,其特征在于,对输入的初始医学原词进行预处理的步骤,包括:
对所述初始医学原词进行转换;其中,所述转换至少包括以下之一:大小写转换、全半角转换、简繁体转换;
对经过转换的初始医学术语原词进行分词处理,并对所述分词的词性进行标注;
将所述分词进行改写得到医学原词;其中,所述改写至少包括以下之一:所述分词的错词改写、所述分词的同义词扩展;
根据所述医学原词在所述标准医学术语知识图谱库中的词频设置权重。
4.根据权利要求1所述的方法,其特征在于,将不同的召回策略召回的候选标准医学术语合并得到目标候选标准医学术语的步骤,包括:
设定不同召回策略召回的候选标准医学术语个数;
根据所述匹配度和所述个数确定不同策略召回的候选标准医学术语;
对不同的策略召回的候选标准医学术语合并,得到目标候选标准医学术语。
5.根据权利要求1所述的方法,对所述目标候选标准医学术语分别构建多维特征向量的步骤,包括:
计算所述目标候选标准医学术语与医学原词之间的编辑距离;
将所述编辑距离和所述目标候选标准医学术语的词向量作为所述目标候选标准医学术语的多维特征向量。
6.根据权利要求1所述的方法,使用所述医学原词生成的词向量与所述多维特征向量进行相似度运算,得出所述多维特征向量对应的目标候选标准医学术语与所述医学原词的相似度的步骤,包括:
将所述医学原词生成的向量与所述多维特征向量输入到预设第二深度学习模型中进行相似度计算得到所述医学原词与所述目标候选标准医学术语的相似度;
按照所述相似度大小的顺序,输出目标候选标准医学术语及对应的相似度;
根据所述相似度大小的顺序和预设输出目标候选标准医学术语输出的个数确定目标标准医学术语。
7.根据权利要求1所述的方法,其特征在于,针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语,将所述多个标准医学术语作为目标候选标准医学术语前的步骤,还包括:
获取构建标准医学术语知识图谱的数据;其中,所述数据包括医学实体、医学实体的属性信息、各医学实体之间的关系信息;
根据所述医学实体、所述医学实体的属性信息、所述各医学实体之间的关系信息构建标准医学术语知识图谱;
将所述标准医学术语知识图谱存储到所述标准医学术语知识图谱库中。
8.一种医学术语的处理装置,其特征在于,包括:
候选标准医学术语召回模块,用于针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语,将所述多个标准医学术语作为目标候选标准医学术语;其中,所述预设标准医学术语知识图谱库中包括若干标准医学术语;其中,所述医学原词对应所述标准医学术语具有关系数据;
多维特征向量构建模块,用于对所述目标候选标准医学术语分别构建多维特征向量;其中,所述多维特征向量基于所述目标候选标准医学术语对应所述医学原词的关系数据,以及所述目标候选标准医学术语的词向量生成;
相似度运算模块,用于使用所述医学原词生成的词向量与所述多维特征向量进行相似度运算,得出所述多维特征向量对应的目标候选标准医学术语与所述医学原词的相似度;
目标标准医学术语确定模块,用于基于所述相似度在候选标准医学术语中确定目标标准医学术语;
其中,所述候选标准医学术语召回模块还用于生成所述医学原词的词向量;根据预设的标准医学术语知识图谱库中的标准医学术语、标准医学术语的属性信息和标准医学术语之间的关系生成所述标准医学术语的词向量;其中,所述标准医学术语的词向量用以表征所述标准医学术语;将所述医学原词的词向量与所述标准医学术语的向量输入到预设第一深度学习模型中计算匹配度;其中,所述第一深度学习模型对应有不同的召回策略;其中,所述召回策略至少包括以下中的两个:基于字词的匹配度运算召回、基于编辑距离的匹配度运算召回、基于词向量的匹配度运算召回、基于词频的匹配度运算召回;按照所述匹配度的大小顺序,输出所述标准医学术语及所述标准医学术语对应的匹配度;根据所述匹配度和不同召回策略对应的设定的个数确定不同召回策略召回的候选标准医学术语;将不同的召回策略召回的候选标准医学术语合并得到目标候选标准医学术语。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210121022.8A CN114153995B (zh) | 2022-02-09 | 2022-02-09 | 医学术语的处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210121022.8A CN114153995B (zh) | 2022-02-09 | 2022-02-09 | 医学术语的处理方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114153995A CN114153995A (zh) | 2022-03-08 |
CN114153995B true CN114153995B (zh) | 2022-05-24 |
Family
ID=80450798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210121022.8A Active CN114153995B (zh) | 2022-02-09 | 2022-02-09 | 医学术语的处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114153995B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116127979B (zh) * | 2023-04-04 | 2023-09-19 | 浙江太美医疗科技股份有限公司 | 命名实体名称标准化的方法和装置、电子设备和存储介质 |
CN116721778B (zh) * | 2023-08-10 | 2024-01-09 | 北方健康医疗大数据科技有限公司 | 一种医学术语标准化方法、系统、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010055146A (ja) * | 2008-08-26 | 2010-03-11 | Gifu Univ | 医療用語翻訳表示システム |
CN109582955A (zh) * | 2018-11-14 | 2019-04-05 | 金色熊猫有限公司 | 医疗术语的标准化方法、装置及介质 |
CN111581976A (zh) * | 2020-03-27 | 2020-08-25 | 平安医疗健康管理股份有限公司 | 医学术语的标准化方法、装置、计算机设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10319466B2 (en) * | 2012-02-20 | 2019-06-11 | Medicomp Systems, Inc | Intelligent filtering of health-related information |
US20200105391A1 (en) * | 2018-10-01 | 2020-04-02 | Cerner Innovation, Inc. | Dynamic management of treatments for one or more conditions |
CN112035511A (zh) * | 2020-08-31 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 基于医学知识图谱的目标数据搜索方法及相关设备 |
CN113191156A (zh) * | 2021-04-29 | 2021-07-30 | 浙江禾连网络科技有限公司 | 一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统与方法 |
CN113761151A (zh) * | 2021-05-07 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 同义词挖掘、问答方法、装置、计算机设备和存储介质 |
CN113220862A (zh) * | 2021-06-10 | 2021-08-06 | 中国平安人寿保险股份有限公司 | 标准问识别方法、装置及计算机设备及存储介质 |
-
2022
- 2022-02-09 CN CN202210121022.8A patent/CN114153995B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010055146A (ja) * | 2008-08-26 | 2010-03-11 | Gifu Univ | 医療用語翻訳表示システム |
CN109582955A (zh) * | 2018-11-14 | 2019-04-05 | 金色熊猫有限公司 | 医疗术语的标准化方法、装置及介质 |
CN111581976A (zh) * | 2020-03-27 | 2020-08-25 | 平安医疗健康管理股份有限公司 | 医学术语的标准化方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114153995A (zh) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457431B (zh) | 基于知识图谱的问答方法、装置、计算机设备和存储介质 | |
US20200242140A1 (en) | Method, apparatus, device and medium for determining text relevance | |
US8131684B2 (en) | Adaptive archive data management | |
CN114153995B (zh) | 医学术语的处理方法、装置、计算机设备和存储介质 | |
WO2021139343A1 (zh) | 基于自然语言处理的数据分析方法、装置和计算机设备 | |
CN112527999A (zh) | 引入农业领域知识的抽取式智能问答方法及系统 | |
CN111666401A (zh) | 基于图结构的公文推荐方法、装置、计算机设备及介质 | |
CN114119057B (zh) | 用户画像模型的构建系统 | |
CN110910991B (zh) | 一种医用自动图像处理系统 | |
CN115470338B (zh) | 一种基于多路召回的多场景智能问答方法和系统 | |
US20220107980A1 (en) | Providing an object-based response to a natural language query | |
CN114119058A (zh) | 用户画像模型的构建方法、设备及存储介质 | |
US11836633B2 (en) | Generating realistic counterfactuals with residual generative adversarial nets | |
US11163761B2 (en) | Vector embedding models for relational tables with null or equivalent values | |
US11481389B2 (en) | Generating an executable code based on a document | |
CN114547257B (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
Szczuka et al. | Using domain knowledge in initial stages of KDD: Optimization of compound object processing | |
CN115309995A (zh) | 一种基于需求文本的科技资源推送方法和装置 | |
CN115472257A (zh) | 一种招募用户的方法、装置、电子设备及存储介质 | |
CN115129863A (zh) | 意图识别方法、装置、设备、存储介质和计算机程序产品 | |
CN114676237A (zh) | 语句相似度确定方法、装置、计算机设备和存储介质 | |
CN114253990A (zh) | 数据库查询方法、装置、计算机设备和存储介质 | |
CN113961811A (zh) | 基于事件图谱的话术推荐方法、装置、设备及介质 | |
EP3570188A1 (en) | Generating an executable code based on a document | |
CN111428503B (zh) | 同名人物的识别处理方法及处理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |