CN114996466B - 一种医学标准映射模型的建立方法、系统及使用方法 - Google Patents

一种医学标准映射模型的建立方法、系统及使用方法 Download PDF

Info

Publication number
CN114996466B
CN114996466B CN202210918247.6A CN202210918247A CN114996466B CN 114996466 B CN114996466 B CN 114996466B CN 202210918247 A CN202210918247 A CN 202210918247A CN 114996466 B CN114996466 B CN 114996466B
Authority
CN
China
Prior art keywords
text
training
entity data
feature vector
medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210918247.6A
Other languages
English (en)
Other versions
CN114996466A (zh
Inventor
白焜太
杨雅婷
宋佳祥
刘硕
许娟
史文钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Health China Technologies Co Ltd
Original Assignee
Digital Health China Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Health China Technologies Co Ltd filed Critical Digital Health China Technologies Co Ltd
Priority to CN202210918247.6A priority Critical patent/CN114996466B/zh
Publication of CN114996466A publication Critical patent/CN114996466A/zh
Application granted granted Critical
Publication of CN114996466B publication Critical patent/CN114996466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及智慧医疗技术领域,且公开了一种医学标准映射模型的建立方法、系统及使用方法,本发明能够将医学实体数据按照原始词、标准词、标准词编码的类型进行准确的分类,并对分类后的训练数据进行预处理,从而得到统一化的实体数据集;利用统一化的实体数据集作为Bert模型的输入能够减少训练误差,且实体数据集是按照锚文本、正文本和负文本组成的三元组样本的形式进行划分,并能够提高特征向量获取的准确性,加强各文本的特征向量的联系性;同时,通过损失函数的计算和预设条件的设置,能够及时的停止Bert模型的训练,从而获取较准确的医学标准映射模型。

Description

一种医学标准映射模型的建立方法、系统及使用方法
技术领域
本发明涉及智慧医疗技术领域,具体为一种医学标准映射模型的建立方法、系统及使用方法。
背景技术
医学实体标准化,旨在将文本中提到的表示医学实体的原始词映射到知识库中的标准词。实际情况下,医学实体在书写记录中会有许多形态和语法的变化,并且经常会使用不同的词序或同义词,使得医学实体的标准化非常具有挑战性。例如:胃舒平和氢氧化铝,虽然它们的字面表现完全不同,但都映射到同一标准词(氢氧化铝);与此相对,扑感敏,扑尔敏,虽然它们的字面表现相近,但映射的标准词却完全不同(分别是酚氨咖敏、氯苯那敏)。
如何将这些术语原始词与知识库中的标准词联系起来,对于挖掘和分析生物医学领域的非结构化文本非常重要。
现有的方法可以分为两类:
一、基于规则的方法,使用字符串匹配或字典查询,这在很大程度上依赖于手工制作的规则和领域知识,其中,存在的缺陷为:耗时耗力,无法处理灵活多变场景。
二、基于候选词先召回后排序的两步框架,将当前查询的医学实体原始词,与标准词库进行tf-idf相似度计算,返回一定数量预测标准词,并通过分类模型进行0-1(是/否)分类进行最终结果确定,其中,存在的缺陷为:这种方法在相似度计算方面只考虑了字面相似度,对于原始词和对应标准词字面覆盖率低(即字面表现差异较大)的原始词结果会差强人意。
发明内容
本发明主要是提供一种医学标准映射模型的建立方法、系统及使用方法。
为了解决上述技术问题,本发明采用如下技术方案:
一种医学标准映射模型的建立方法,包括:
采集医学实体数据,对所述医学实体数据进行分类并构建实体数据集;
将所述实体数据集作为Bert模型的输入,并获取通过所述Bert模型进行训练后输出的特征向量;
构建损失函数,基于所述损失函数对获取的所述特征向量进行损失计算,并根据计算结果或预设条件判断是否停止训练;
若停止训练,则将停止时的Bert模型确定为医学标准映射模型。
进一步,所述采集医学实体数据,对所述医学实体数据进行分类并构建实体数据集,包括:
采集医学实体数据,将所述医学实体数据按照原始词、标准词、标准词编码的类型进行分类;
对分类后的所述医学实体数据进行数据形式构建,并将构建后获取的训练数据存入知识库;
预处理所述知识库中的所述训练数据,并生成实体数据集。
进一步,所述将所述实体数据集作为Bert模型的输入,并获取通过所述Bert模型进行训练后输出的特征向量,包括:
按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分;
将所述三元组样本作为Bert模型的输入进行训练,获取输出的所述三元组样本中各文本对应的特征向量。
进一步,在所述按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分中,包括:
选择在相同训练批次中与锚文本映射到不同标准词且距离最近的文本作为负文本。
进一步,所述构建损失函数,基于所述损失函数对获取的所述特征向量进行损失计算,并根据计算结果或预设条件判断是否停止训练,包括:
基于所述锚文本的特征向量和正文本的特征向量计算正向特征距离,基于所述锚文本的特征向量和负文本的特征向量计算反向特征距离;
构建损失函数,利用所述正向特征距离和反向特征距离进行损失计算;
在损失计算的过程中若损失函数的结果值连续没有降低的训练批次次数达到了预先设置的早停止次数,或者Bert模型的训练批次次数达到预先设置的阈值次数,则停止训练。
一种医学标准映射模型的建立系统,包括:
实体数据集生成模块,用于采集医学实体数据,对所述医学实体数据进行分类并构建实体数据集;
特征向量生成模块,用于将所述实体数据集作为Bert模型的输入,并获取通过所述Bert模型进行训练后输出的特征向量;
损失函数构建模块,用于构建损失函数,基于所述损失函数对获取的所述特征向量进行损失计算,并根据计算结果或预设条件判断是否停止训练;
模型确定模块,用于若停止训练,则将停止时的Bert模型确定为医学标准映射模型。
进一步,所述实体数据集生成模块,包括:
分类子模块,用于采集医学实体数据,将所述医学实体数据按照原始词、标准词、标准词编码的类型进行分类;
存储子模块,用于对分类后的所述医学实体数据进行数据形式构建,并将构建后获取的训练数据存入知识库;
预处理子模块,用于预处理所述知识库中的所述训练数据,并生成实体数据集。
进一步,所述特征向量生成模块,包括:
划分子模块,用于按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分;
特征向量生成子模块,用于将所述三元组样本作为Bert模型的输入进行训练,获取输出的所述三元组样本中各文本对应的特征向量。
进一步,在所述划分子模块中,包括:
选择单元,用于选择在相同训练批次中与锚文本映射到不同标准词且距离最近的文本作为负文本。
进一步,所述损失函数构建模块,包括:
特征距离计算子模块,用于基于所述锚文本的特征向量和正文本的特征向量计算正向特征距离,基于所述锚文本的特征向量和负文本的特征向量计算反向特征距离;
损失计算子模块,用于构建损失函数,利用所述正向特征距离和反向特征距离进行损失计算;
训练停止子模块,用于在损失计算的过程中若损失函数的结果值连续没有降低的训练批次次数达到了预先设置的早停止次数,或者Bert模型的训练批次次数达到预先设置的阈值次数,则停止训练。
一种医学标准映射模型的使用方法,利用所述医学标准映射模型进行待标准化原始词的标准化操作,包括:
将所述实体数据集中所有原始词的特征向量组成初始特征集;
将所述待标准化原始词输入所述医学标准映射模型,并输出待标准化原始词的特征向量;
计算所述初始特征集内各原始词的特征向量与所述待标准化原始词的特征向量的相似度;
获取与待标准化原始词的特征向量相似度最高的原始词;
确定该原始词对应的标准词,并映射至所述待标准化原始词。
一种计算机程序,包括计算机程序指令,所述计算机程序指令被处理器执行时用于实现所述的一种医学标准映射模型的建立方法对应的步骤。
一种存储介质,所述存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时用于实现所述的一种医学标准映射模型的建立方法对应的步骤。
一种终端设备,包括处理器和存储器,所述存储器用于存放至少一项计算机程序指令,所述计算机程序指令被处理器执行时用于实现所述的一种医学标准映射模型的建立方法对应的步骤。
有益效果:本发明能够将医学实体数据按照原始词、标准词、标准词编码的类型进行准确的分类,并对分类后的训练数据进行预处理,从而得到统一化的实体数据集;利用统一化的实体数据集作为Bert模型的输入能够减少训练误差,且实体数据集是按照锚文本、正文本和负文本组成的三元组样本的形式进行划分,并能够提高特征向量获取的准确性,加强各文本的特征向量的联系性;同时,通过损失函数的计算和预设条件的设置,能够及时的停止Bert模型的训练,从而获取较准确的医学标准映射模型。通过本发明的医学标准映射模型能够对待标准化原始词进行较为准确的标准化操作,降低待标准化原始词的标准难度,提高标准效率,对待标准化原始词匹配知识库中的原始词具有较强的稳定性和准确性。
附图说明
图1为本发明的一种医学标准映射模型的建立方法流程图;
图2为本发明的一种医学标准映射模型的使用方法流程图。
具体实施方式
以下将结合实施例对本发明涉及的一种医学标准映射模型的建立方法、系统及使用方法技术方案进一步详细说明。
如图1所示,一种医学标准映射模型的建立方法,包括:步骤S1~S4;
S1、采集医学实体数据,对所述医学实体数据进行分类并构建实体数据集;
S2、将所述实体数据集作为Bert模型的输入,并获取通过所述Bert模型进行训练后输出的特征向量;
S3、构建损失函数,基于所述损失函数对获取的所述特征向量进行损失计算,并根据计算结果或预设条件判断是否停止训练;
S4、若停止训练,则将停止时的Bert模型确定为医学标准映射模型。
进一步,步骤S1中所述采集医学实体数据,对所述医学实体数据进行分类并构建实体数据集,包括:
S11、采集医学实体数据,将所述医学实体数据按照原始词、标准词、标准词编码的类型进行分类;
其中,医学实体数据的来源为各医院,将获取的医学实体数据核验校对后按照原始词、标准词和标准词编码的类型进行统一分类;
S12、对分类后的所述医学实体数据进行数据形式构建,并将构建后获取的训练数据存入知识库;
其中,数据形式构建为按照原始词、标准词、标准词编码的标准格式校对具有联系的医学实体数据,如:白内障失明、白内障、H26.900;将处理后具有标准格式的医学实体数据作为训练数据,并利用所有的训练数据组成知识库;
S13、预处理所述知识库中的所述训练数据,并生成实体数据集。
其中,对知识库中的训练数据预处理指的是在将训练数据送入Bert模型,训练前,考虑每个原始词、标准词、标准词编码中各个元素对语义表征的影响程度,对知识库中的原始词、标准词、标准词编码进行预处理,预处理的方式包括但不限于:大小写转换,多余符号去除等;如:h26.900转换为H26.900,H26.900xt中去除xt保留H26.900等。
进一步,步骤S2中所述将所述实体数据集作为Bert模型的输入,并获取通过所述Bert模型进行训练后输出的特征向量,包括:
S21、按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分;
其中,将三元组样本中的锚文本、正文本、负文本分别标记为:
Figure 187180DEST_PATH_IMAGE001
Figure 15590DEST_PATH_IMAGE002
Figure 720241DEST_PATH_IMAGE003
,且
Figure 137447DEST_PATH_IMAGE001
Figure 387293DEST_PATH_IMAGE002
是映射到相同标准词的文本, 而
Figure 612652DEST_PATH_IMAGE003
是与
Figure 652152DEST_PATH_IMAGE001
Figure 533652DEST_PATH_IMAGE002
不同标准词的文本;
S22、将所述三元组样本作为Bert模型的输入进行训练,获取输出的所述三元组样本中各文本对应的特征向量。
其中,将
Figure 734826DEST_PATH_IMAGE001
Figure 990358DEST_PATH_IMAGE002
Figure 256385DEST_PATH_IMAGE003
输入Bert模型,对应输出为
Figure 100713DEST_PATH_IMAGE004
Figure 426784DEST_PATH_IMAGE005
Figure 904033DEST_PATH_IMAGE006
的特征向量;若训练不停止,则将获得的特征向量再次输入Bert模型不断循环,直至停止训练并输出。
进一步,在步骤S21中在所述按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分中,包括:
S212、选择在相同训练批次中与锚文本映射到不同标准词且距离最近的文本作为负文本。
其中,距离最近指的是:利用相同训练批次中锚文本的特征向量和所有文本的特征向量进行距离计算,距离计算的过程中所有的计算结果进行对比,选择距离最小的文本即为最近的负文本。
进一步,步骤S3中所述构建损失函数,基于所述损失函数对获取的所述特征向量进行损失计算,并根据计算结果或预设条件判断是否停止训练,包括:
S31、基于所述锚文本的特征向量和正文本的特征向量计算正向特征距离,基于所述锚文本的特征向量和负文本的特征向量计算反向特征距离;
其中,采用欧氏距离公式来进行特征向量距离的计算,公式如下:
Figure 629543DEST_PATH_IMAGE007
上式中,表示在n维空间中两个点x(
Figure 610269DEST_PATH_IMAGE008
),y(
Figure 169557DEST_PATH_IMAGE009
)之间的特征向量距离;通过该欧氏距离公式能够获取正向特征距离
Figure 540627DEST_PATH_IMAGE010
和反向特征距离
Figure 69828DEST_PATH_IMAGE011
;
S32、构建损失函数,利用所述正向特征距离和反向特征距离进行损失计算;
其中,损失函数公式为:
Figure 295273DEST_PATH_IMAGE012
其中,利用该损失函数公式能够计算结果值
Figure 900829DEST_PATH_IMAGE013
,该损失函数公式的目的是让锚文本
Figure 742883DEST_PATH_IMAGE001
和正文本
Figure 747879DEST_PATH_IMAGE002
这两个具有相同标准词的特征向量距离最小化,而让锚文本
Figure 968776DEST_PATH_IMAGE001
和负文本
Figure 666605DEST_PATH_IMAGE003
这两个不同标准词的特征向量距离最大化,从而使每个文本的特征向量都有更高的准确度,防止被负文本
Figure 492827DEST_PATH_IMAGE003
干扰;
其中,
Figure 832673DEST_PATH_IMAGE010
Figure 563868DEST_PATH_IMAGE004
Figure 432598DEST_PATH_IMAGE005
的空间欧式距离,
Figure 468818DEST_PATH_IMAGE011
Figure 268147DEST_PATH_IMAGE004
Figure 870161DEST_PATH_IMAGE006
的空间欧式距离;且在自然语言处理中,Bert模型训练的过程就是最小化损失函数的结果值的过程,通过在训练中结果值的不断变小,Bert模型的参数也会反向更新从而学到每个字向量更好的特征向量的表征,即在本文中为生成更准确的
Figure 362322DEST_PATH_IMAGE004
Figure 479314DEST_PATH_IMAGE005
Figure 833066DEST_PATH_IMAGE006
,直到确定停止训练时的Bert模型作为医学标准映射模型;
S33、在损失计算的过程中若损失函数的结果值连续没有降低的训练批次次数达到了预先设置的早停止次数,或者Bert模型的训练批次次数达到预先设置的阈值次数,则停止训练。
其中,在损失计算的过程中若损失函数的结果值连续没有降低的训练批次次数达到了预先设置的早停止次数指的是:将早停止次数设置为3,即表示为early stop=3,若训练时Bert模型的损失函数的结果值在连续3次训练批次次数中没有降低,则停止训练;Bert模型的训练批次次数达到预先设置的阈值次数指的是:预先设置的阈值次数为100次,则Bert模型连续训练达到设置的100次,则停止训练。一个训练批次意思表示为,将所有的训练数据送入Bert模型中,完成了一次前向计算和反向传播的过程。
有益效果:本发明能够将医学实体数据按照原始词、标准词、标准词编码的类型进行准确的分类,并对分类后的训练数据进行预处理,从而得到统一化的实体数据集;利用统一化的实体数据集作为Bert模型的输入能够减少训练误差,且实体数据集是按照锚文本、正文本和负文本组成的三元组样本的形式进行划分,并能够提高特征向量获取的准确性,加强各文本的特征向量的联系性;同时,通过损失函数的计算和预设条件的设置,能够及时的停止Bert模型的训练,从而获取较准确的医学标准映射模型。
一种医学标准映射模型的建立系统,包括:
实体数据集生成模块,用于采集医学实体数据,对所述医学实体数据进行分类并构建实体数据集;
特征向量生成模块,用于将所述实体数据集作为Bert模型的输入,并获取通过所述Bert模型进行训练后输出的特征向量;
损失函数构建模块,用于构建损失函数,基于所述损失函数对获取的所述特征向量进行损失计算,并根据计算结果或预设条件判断是否停止训练;
模型确定模块,用于若停止训练,则将停止时的Bert模型确定为医学标准映射模型。
进一步,所述实体数据集生成模块,包括:
分类子模块,用于采集医学实体数据,将所述医学实体数据按照原始词、标准词、标准词编码的类型进行分类;
存储子模块,用于对分类后的所述医学实体数据进行数据形式构建,并将构建后获取的训练数据存入知识库;
预处理子模块,用于预处理所述知识库中的所述训练数据,并生成实体数据集。
进一步,所述特征向量生成模块,包括:
划分子模块,用于按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分;
特征向量生成子模块,用于将所述三元组样本作为Bert模型的输入进行训练,获取输出的所述三元组样本中各文本对应的特征向量。
进一步,在所述划分子模块中,包括:
选择单元,用于选择在相同训练批次中与锚文本映射到不同标准词且距离最近的文本作为负文本。
进一步,所述损失函数构建模块,包括:
特征距离计算子模块,用于基于所述锚文本的特征向量和正文本的特征向量计算正向特征距离,基于所述锚文本的特征向量和负文本的特征向量计算反向特征距离;
损失计算子模块,用于构建损失函数,利用所述正向特征距离和反向特征距离进行损失计算;
训练停止子模块,用于在损失计算的过程中若损失函数的结果值连续没有降低的训练批次次数达到了预先设置的早停止次数,或者Bert模型的训练批次次数达到预先设置的阈值次数,则停止训练。
如图2所示,一种医学标准映射模型的使用方法,利用所述医学标准映射模型进行待标准化原始词的标准化操作,包括:步骤S5~S9;
S5、将所述实体数据集中所有原始词的特征向量组成初始特征集;
其中,利用所有原始词的特征向量组成向量集,并表示为F;
S6、将所述待标准化原始词输入所述医学标准映射模型,并输出待标准化原始词的特征向量;
其中,将待标准化原始词表示为m,并利用训练好的医学标准映射模型生成
Figure 538854DEST_PATH_IMAGE014
S7、计算所述初始特征集内各原始词的特征向量与所述待标准化原始词的特征向量的相似度;
其中,相似度计算公式为:
Figure 687070DEST_PATH_IMAGE015
上式中,用于计算在n维空间中两个点x(
Figure 743887DEST_PATH_IMAGE008
),y(
Figure 635751DEST_PATH_IMAGE009
)之间的余弦相似度;
S8、获取与待标准化原始词的特征向量相似度最高的原始词;
其中,该相似度最高的原始词表示为
Figure 664887DEST_PATH_IMAGE016
,其特征向量为
Figure 311900DEST_PATH_IMAGE017
S9、确定该原始词对应的标准词,并映射至所述待标准化原始词。
其中,设置映射公式为:
Figure 341167DEST_PATH_IMAGE018
上式中,利用
Figure 958093DEST_PATH_IMAGE019
确认向量集F中相似度最高的原始词
Figure 372894DEST_PATH_IMAGE016
,并基于返回的原始词
Figure 128492DEST_PATH_IMAGE016
,然后查询知识库表直接映射到标准词c,从而完成医学实体标准化操作。
有益效果:通过本发明的医学标准映射模型能够对待标准化原始词进行较为准确的标准化操作,降低待标准化原始词的标准难度,提高标准效率,对待标准化原始词匹配知识库中的原始词具有较强的稳定性和准确性。
一种计算机程序,包括计算机程序指令,所述计算机程序指令被处理器执行时用于实现所述的一种医学标准映射模型的建立方法对应的步骤。
一种存储介质,所述存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时用于实现所述的一种医学标准映射模型的建立方法对应的步骤。
一种终端设备,包括处理器和存储器,所述存储器用于存放至少一项计算机程序指令,所述计算机程序指令被处理器执行时用于实现所述的一种医学标准映射模型的建立方法对应的步骤。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种医学标准映射模型的建立方法,其特征在于,包括:
采集医学实体数据,对所述医学实体数据进行分类并构建实体数据集;
将所述实体数据集作为Bert模型的输入,并获取通过所述Bert模型进行训练后输出的特征向量;
构建损失函数,基于所述损失函数对获取的所述特征向量进行损失计算,并根据计算结果或预设条件判断是否停止训练;
若停止训练,则将停止时的Bert模型确定为医学标准映射模型;
所述采集医学实体数据,对所述医学实体数据进行分类并构建实体数据集,包括:
采集医学实体数据,将所述医学实体数据按照原始词、标准词、标准词编码的类型进行分类;
对分类后的所述医学实体数据进行数据形式构建,并将构建后获取的训练数据存入知识库;
预处理所述知识库中的所述训练数据,并生成实体数据集;
所述将所述实体数据集作为Bert模型的输入,并获取通过所述Bert模型进行训练后输出的特征向量,包括:
按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分;其中,所述锚文本、所述正文本和所述负文本分别标记为:
Figure DEST_PATH_IMAGE001
Figure 444660DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
,且
Figure 569611DEST_PATH_IMAGE001
Figure 866862DEST_PATH_IMAGE002
是映射到相同标准词的文本, 而
Figure 509196DEST_PATH_IMAGE003
是与
Figure 706828DEST_PATH_IMAGE001
Figure 612467DEST_PATH_IMAGE002
不同标准词的文本;
将所述三元组样本作为Bert模型的输入进行训练,获取输出的所述三元组样本中各文本对应的特征向量;所述特征向量分别为
Figure 394085DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
Figure 495902DEST_PATH_IMAGE006
在所述按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分中,包括:
选择在相同训练批次中与锚文本映射到不同标准词且距离最近的文本作为负文本;
采用欧氏距离公式来进行特征向量距离的计算,公式如下:
Figure DEST_PATH_IMAGE007
上式中,表示在n维空间中两个点x(
Figure 393713DEST_PATH_IMAGE008
),y(
Figure DEST_PATH_IMAGE009
)之间的特征向量距离;通过所述欧氏距离公式能够获取正向特征距离
Figure 657205DEST_PATH_IMAGE010
和反向特征距离
Figure DEST_PATH_IMAGE011
其中,损失函数公式为:
Figure 869661DEST_PATH_IMAGE012
其中,利用所述损失函数公式能够计算结果值
Figure DEST_PATH_IMAGE013
,所述损失函数公式的目的是让锚文本
Figure 978431DEST_PATH_IMAGE001
和正文本
Figure 652120DEST_PATH_IMAGE002
这两个具有相同标准词的特征向量距离最小化,而让锚文本
Figure 899562DEST_PATH_IMAGE001
和负文本
Figure 953975DEST_PATH_IMAGE003
这两个不同标准词的特征向量距离最大化,从而使每个文本的特征向量都有更高的准确度,防止被负文本
Figure 945064DEST_PATH_IMAGE003
干扰;
其中,
Figure 470330DEST_PATH_IMAGE010
Figure 544465DEST_PATH_IMAGE004
Figure 102486DEST_PATH_IMAGE014
的空间欧式距离,
Figure 320103DEST_PATH_IMAGE011
Figure 952072DEST_PATH_IMAGE004
Figure 869213DEST_PATH_IMAGE006
的空间欧式距离。
2.根据权利要求1所述的方法,其特征在于,所述构建损失函数,基于所述损失函数对获取的所述特征向量进行损失计算,并根据计算结果或预设条件判断是否停止训练,包括:
基于所述锚文本的特征向量和正文本的特征向量计算正向特征距离,基于所述锚文本的特征向量和负文本的特征向量计算反向特征距离;
构建损失函数,利用所述正向特征距离和反向特征距离进行损失计算;
在损失计算的过程中若损失函数的结果值连续没有降低的训练批次次数达到了预先设置的早停止次数,或者Bert模型的训练批次次数达到预先设置的阈值次数,则停止训练。
3.一种医学标准映射模型的建立系统,其特征在于,包括:
实体数据集生成模块,用于采集医学实体数据,对所述医学实体数据进行分类并构建实体数据集;
特征向量生成模块,用于将所述实体数据集作为Bert模型的输入,并获取通过所述Bert模型进行训练后输出的特征向量;
损失函数构建模块,用于构建损失函数,基于所述损失函数对获取的所述特征向量进行损失计算,并根据计算结果或预设条件判断是否停止训练;
模型确定模块,用于若停止训练,则将停止时的Bert模型确定为医学标准映射模型;
所述实体数据集生成模块,包括:
分类子模块,用于采集医学实体数据,将所述医学实体数据按照原始词、标准词、标准词编码的类型进行分类;
存储子模块,用于对分类后的所述医学实体数据进行数据形式构建,并将构建后获取的训练数据存入知识库;
预处理子模块,用于预处理所述知识库中的所述训练数据,并生成实体数据集;
所述特征向量生成模块,包括:
划分子模块,用于按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分;其中,所述锚文本、所述正文本和所述负文本分别标记为:
Figure 101480DEST_PATH_IMAGE001
Figure 606278DEST_PATH_IMAGE002
Figure 92754DEST_PATH_IMAGE003
,且
Figure 164484DEST_PATH_IMAGE001
Figure 369200DEST_PATH_IMAGE002
是映射到相同标准词的文本, 而
Figure 459778DEST_PATH_IMAGE003
是与
Figure 597499DEST_PATH_IMAGE001
Figure 43392DEST_PATH_IMAGE002
不同标准词的文本;
特征向量生成子模块,用于将所述三元组样本作为Bert模型的输入进行训练,获取输出的所述三元组样本中各文本对应的特征向量;所述特征向量分别为
Figure 735405DEST_PATH_IMAGE004
Figure 157902DEST_PATH_IMAGE014
Figure 353392DEST_PATH_IMAGE006
在所述划分子模块中,包括:
选择单元,用于选择在相同训练批次中与锚文本映射到不同标准词且距离最近的文本作为负文本;
采用欧氏距离公式来进行特征向量距离的计算,公式如下:
Figure 235766DEST_PATH_IMAGE007
上式中,表示在n维空间中两个点x(
Figure 149495DEST_PATH_IMAGE008
),y(
Figure 785138DEST_PATH_IMAGE009
)之间的特征向量距离;通过所述欧氏距离公式能够获取正向特征距离
Figure 615560DEST_PATH_IMAGE010
和反向特征距离
Figure 622830DEST_PATH_IMAGE011
其中,损失函数公式为:
Figure 43097DEST_PATH_IMAGE012
其中,利用所述损失函数公式能够计算结果值
Figure 325174DEST_PATH_IMAGE013
,所述损失函数公式的目的是让锚文本
Figure 744523DEST_PATH_IMAGE001
和正文本
Figure 188273DEST_PATH_IMAGE002
这两个具有相同标准词的特征向量距离最小化,而让锚文本
Figure 92907DEST_PATH_IMAGE001
和负文本
Figure 913095DEST_PATH_IMAGE003
这两个不同标准词的特征向量距离最大化,从而使每个文本的特征向量都有更高的准确度,防止被负文本
Figure 249267DEST_PATH_IMAGE003
干扰;
其中,
Figure 332761DEST_PATH_IMAGE010
Figure 456181DEST_PATH_IMAGE004
Figure 611219DEST_PATH_IMAGE014
的空间欧式距离,
Figure 270739DEST_PATH_IMAGE011
Figure 259555DEST_PATH_IMAGE004
Figure 404360DEST_PATH_IMAGE006
的空间欧式距离。
4.根据权利要求3所述的系统,其特征在于,所述损失函数构建模块,包括:
特征距离计算子模块,用于基于所述锚文本的特征向量和正文本的特征向量计算正向特征距离,基于所述锚文本的特征向量和负文本的特征向量计算反向特征距离;
损失计算子模块,用于构建损失函数,利用所述正向特征距离和反向特征距离进行损失计算;
训练停止子模块,用于在损失计算的过程中若损失函数的结果值连续没有降低的训练批次次数达到了预先设置的早停止次数,或者Bert模型的训练批次次数达到预先设置的阈值次数,则停止训练。
5.一种医学标准映射模型的使用方法,其特征在于,利用权利要求1-2中任一项所述医学标准映射模型进行待标准化原始词的标准化操作,包括:
将所述实体数据集中所有原始词的特征向量组成初始特征集;
将所述待标准化原始词输入所述医学标准映射模型,并输出待标准化原始词的特征向量;
计算所述初始特征集内各原始词的特征向量与所述待标准化原始词的特征向量的相似度;
获取与待标准化原始词的特征向量相似度最高的原始词;
确定该原始词对应的标准词,并映射至所述待标准化原始词。
6.一种存储介质,其特征在于,所述存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时用于实现权利要求1-2中任一项所述的一种医学标准映射模型的建立方法对应的步骤。
7.一种终端设备,其特征在于,包括处理器和存储器,所述存储器用于存放至少一项计算机程序指令,所述计算机程序指令被处理器执行时用于实现权利要求1-2中任一项所述的一种医学标准映射模型的建立方法对应的步骤。
CN202210918247.6A 2022-08-01 2022-08-01 一种医学标准映射模型的建立方法、系统及使用方法 Active CN114996466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210918247.6A CN114996466B (zh) 2022-08-01 2022-08-01 一种医学标准映射模型的建立方法、系统及使用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210918247.6A CN114996466B (zh) 2022-08-01 2022-08-01 一种医学标准映射模型的建立方法、系统及使用方法

Publications (2)

Publication Number Publication Date
CN114996466A CN114996466A (zh) 2022-09-02
CN114996466B true CN114996466B (zh) 2022-11-01

Family

ID=83021891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210918247.6A Active CN114996466B (zh) 2022-08-01 2022-08-01 一种医学标准映射模型的建立方法、系统及使用方法

Country Status (1)

Country Link
CN (1) CN114996466B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116150382B (zh) * 2023-04-19 2023-06-30 北京亚信数据有限公司 一种确定标准化医疗专业名词的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221530A (zh) * 2021-04-19 2021-08-06 杭州火石数智科技有限公司 一种基于circle loss的文本相似度匹配方法、装置、计算机设备和储存介质
CN113593661A (zh) * 2021-07-07 2021-11-02 青岛国新健康产业科技有限公司 临床术语标准化方法、装置、电子设备及存储介质
CN113762100A (zh) * 2021-08-19 2021-12-07 杭州米数科技有限公司 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质
CN114780738A (zh) * 2022-04-06 2022-07-22 中电通商数字技术(上海)有限公司 基于不同应用场景的医学影像检查项目名称标准化方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740143B (zh) * 2018-11-28 2022-08-23 平安科技(深圳)有限公司 基于机器学习的句子距离映射方法、装置和计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221530A (zh) * 2021-04-19 2021-08-06 杭州火石数智科技有限公司 一种基于circle loss的文本相似度匹配方法、装置、计算机设备和储存介质
CN113593661A (zh) * 2021-07-07 2021-11-02 青岛国新健康产业科技有限公司 临床术语标准化方法、装置、电子设备及存储介质
CN113762100A (zh) * 2021-08-19 2021-12-07 杭州米数科技有限公司 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质
CN114780738A (zh) * 2022-04-06 2022-07-22 中电通商数字技术(上海)有限公司 基于不同应用场景的医学影像检查项目名称标准化方法及系统

Also Published As

Publication number Publication date
CN114996466A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
US20210382937A1 (en) Image processing method and apparatus, and storage medium
WO2019153996A1 (zh) 一种语音识别文本纠错方法及装置
CN111259940B (zh) 一种基于空间注意力地图的目标检测方法
US20230039496A1 (en) Question-and-answer processing method, electronic device and computer readable medium
CN108154198B (zh) 知识库实体归一方法、系统、终端和计算机可读存储介质
WO2021034941A1 (en) A method for multi-modal retrieval and clustering using deep cca and active pairwise queries
CN114996466B (zh) 一种医学标准映射模型的建立方法、系统及使用方法
WO2019196718A1 (zh) 元素图像生成方法、装置及系统
CN116150382B (zh) 一种确定标准化医疗专业名词的方法及装置
US20220375576A1 (en) Apparatus and method for diagnosing a medical condition from a medical image
CN116303537A (zh) 数据查询方法及装置、电子设备、存储介质
CN111782817A (zh) 一种面向信息系统的知识图谱构建方法、装置及电子设备
CN112446405A (zh) 一种家电客服的用户意图引导方法及智能家电
US20200364259A1 (en) Image retrieval
CN111191035B (zh) 一种识别肺癌临床数据库文本实体的方法及装置
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN115859128B (zh) 一种基于档案数据交互相似度的分析方法和系统
CN117038099A (zh) 医疗类术语标准化方法以及装置
CN116704066A (zh) 图像生成模型的训练方法、装置、终端及存储介质
CN116719840A (zh) 一种基于病历后结构化处理的医疗信息推送方法
CN114691907B (zh) 一种跨模态检索的方法、设备及介质
US20240037335A1 (en) Methods, systems, and media for bi-modal generation of natural languages and neural architectures
CN114637846A (zh) 视频数据处理方法、装置、计算机设备和存储介质
CN110837494B (zh) 一种识别病历首页未特指诊断编码错误的方法及装置
CN112329430A (zh) 一种模型训练方法、文本相似度确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant