CN114996466B

CN114996466B - 一种医学标准映射模型的建立方法、系统及使用方法

Info

Publication number: CN114996466B
Application number: CN202210918247.6A
Authority: CN
Inventors: 白焜太; 杨雅婷; 宋佳祥; 刘硕; 许娟; 史文钊
Original assignee: Digital Health China Technologies Co Ltd
Current assignee: Digital Health China Technologies Co Ltd
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2022-11-01
Anticipated expiration: 2042-08-01
Also published as: CN114996466A

Abstract

本发明涉及智慧医疗技术领域，且公开了一种医学标准映射模型的建立方法、系统及使用方法，本发明能够将医学实体数据按照原始词、标准词、标准词编码的类型进行准确的分类，并对分类后的训练数据进行预处理，从而得到统一化的实体数据集；利用统一化的实体数据集作为Bert模型的输入能够减少训练误差，且实体数据集是按照锚文本、正文本和负文本组成的三元组样本的形式进行划分，并能够提高特征向量获取的准确性，加强各文本的特征向量的联系性；同时，通过损失函数的计算和预设条件的设置，能够及时的停止Bert模型的训练，从而获取较准确的医学标准映射模型。

Description

一种医学标准映射模型的建立方法、系统及使用方法

技术领域

本发明涉及智慧医疗技术领域，具体为一种医学标准映射模型的建立方法、系统及使用方法。

背景技术

医学实体标准化，旨在将文本中提到的表示医学实体的原始词映射到知识库中的标准词。实际情况下，医学实体在书写记录中会有许多形态和语法的变化，并且经常会使用不同的词序或同义词，使得医学实体的标准化非常具有挑战性。例如：胃舒平和氢氧化铝，虽然它们的字面表现完全不同，但都映射到同一标准词（氢氧化铝）；与此相对，扑感敏，扑尔敏，虽然它们的字面表现相近，但映射的标准词却完全不同（分别是酚氨咖敏、氯苯那敏）。

如何将这些术语原始词与知识库中的标准词联系起来，对于挖掘和分析生物医学领域的非结构化文本非常重要。

现有的方法可以分为两类：

一、基于规则的方法，使用字符串匹配或字典查询，这在很大程度上依赖于手工制作的规则和领域知识，其中，存在的缺陷为：耗时耗力，无法处理灵活多变场景。

二、基于候选词先召回后排序的两步框架，将当前查询的医学实体原始词，与标准词库进行tf-idf相似度计算，返回一定数量预测标准词，并通过分类模型进行0-1（是/否）分类进行最终结果确定，其中，存在的缺陷为：这种方法在相似度计算方面只考虑了字面相似度，对于原始词和对应标准词字面覆盖率低（即字面表现差异较大）的原始词结果会差强人意。

发明内容

本发明主要是提供一种医学标准映射模型的建立方法、系统及使用方法。

为了解决上述技术问题，本发明采用如下技术方案：

一种医学标准映射模型的建立方法，包括：

采集医学实体数据，对所述医学实体数据进行分类并构建实体数据集；

将所述实体数据集作为Bert模型的输入，并获取通过所述Bert模型进行训练后输出的特征向量；

构建损失函数，基于所述损失函数对获取的所述特征向量进行损失计算，并根据计算结果或预设条件判断是否停止训练；

若停止训练，则将停止时的Bert模型确定为医学标准映射模型。

进一步，所述采集医学实体数据，对所述医学实体数据进行分类并构建实体数据集，包括：

采集医学实体数据，将所述医学实体数据按照原始词、标准词、标准词编码的类型进行分类；

对分类后的所述医学实体数据进行数据形式构建，并将构建后获取的训练数据存入知识库；

预处理所述知识库中的所述训练数据，并生成实体数据集。

进一步，所述将所述实体数据集作为Bert模型的输入，并获取通过所述Bert模型进行训练后输出的特征向量，包括：

按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分；

将所述三元组样本作为Bert模型的输入进行训练，获取输出的所述三元组样本中各文本对应的特征向量。

进一步，在所述按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分中，包括：

选择在相同训练批次中与锚文本映射到不同标准词且距离最近的文本作为负文本。

进一步，所述构建损失函数，基于所述损失函数对获取的所述特征向量进行损失计算，并根据计算结果或预设条件判断是否停止训练，包括：

基于所述锚文本的特征向量和正文本的特征向量计算正向特征距离，基于所述锚文本的特征向量和负文本的特征向量计算反向特征距离；

构建损失函数，利用所述正向特征距离和反向特征距离进行损失计算；

在损失计算的过程中若损失函数的结果值连续没有降低的训练批次次数达到了预先设置的早停止次数，或者Bert模型的训练批次次数达到预先设置的阈值次数，则停止训练。

一种医学标准映射模型的建立系统，包括：

实体数据集生成模块，用于采集医学实体数据，对所述医学实体数据进行分类并构建实体数据集；

特征向量生成模块，用于将所述实体数据集作为Bert模型的输入，并获取通过所述Bert模型进行训练后输出的特征向量；

损失函数构建模块，用于构建损失函数，基于所述损失函数对获取的所述特征向量进行损失计算，并根据计算结果或预设条件判断是否停止训练；

模型确定模块，用于若停止训练，则将停止时的Bert模型确定为医学标准映射模型。

进一步，所述实体数据集生成模块，包括：

分类子模块，用于采集医学实体数据，将所述医学实体数据按照原始词、标准词、标准词编码的类型进行分类；

存储子模块，用于对分类后的所述医学实体数据进行数据形式构建，并将构建后获取的训练数据存入知识库；

预处理子模块，用于预处理所述知识库中的所述训练数据，并生成实体数据集。

进一步，所述特征向量生成模块，包括：

划分子模块，用于按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分；

特征向量生成子模块，用于将所述三元组样本作为Bert模型的输入进行训练，获取输出的所述三元组样本中各文本对应的特征向量。

进一步，在所述划分子模块中，包括：

选择单元，用于选择在相同训练批次中与锚文本映射到不同标准词且距离最近的文本作为负文本。

进一步，所述损失函数构建模块，包括：

特征距离计算子模块，用于基于所述锚文本的特征向量和正文本的特征向量计算正向特征距离，基于所述锚文本的特征向量和负文本的特征向量计算反向特征距离；

损失计算子模块，用于构建损失函数，利用所述正向特征距离和反向特征距离进行损失计算；

训练停止子模块，用于在损失计算的过程中若损失函数的结果值连续没有降低的训练批次次数达到了预先设置的早停止次数，或者Bert模型的训练批次次数达到预先设置的阈值次数，则停止训练。

一种医学标准映射模型的使用方法，利用所述医学标准映射模型进行待标准化原始词的标准化操作，包括：

将所述实体数据集中所有原始词的特征向量组成初始特征集；

将所述待标准化原始词输入所述医学标准映射模型，并输出待标准化原始词的特征向量；

计算所述初始特征集内各原始词的特征向量与所述待标准化原始词的特征向量的相似度；

获取与待标准化原始词的特征向量相似度最高的原始词；

确定该原始词对应的标准词，并映射至所述待标准化原始词。

一种计算机程序，包括计算机程序指令，所述计算机程序指令被处理器执行时用于实现所述的一种医学标准映射模型的建立方法对应的步骤。

一种存储介质，所述存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时用于实现所述的一种医学标准映射模型的建立方法对应的步骤。

一种终端设备，包括处理器和存储器，所述存储器用于存放至少一项计算机程序指令，所述计算机程序指令被处理器执行时用于实现所述的一种医学标准映射模型的建立方法对应的步骤。

有益效果：本发明能够将医学实体数据按照原始词、标准词、标准词编码的类型进行准确的分类，并对分类后的训练数据进行预处理，从而得到统一化的实体数据集；利用统一化的实体数据集作为Bert模型的输入能够减少训练误差，且实体数据集是按照锚文本、正文本和负文本组成的三元组样本的形式进行划分，并能够提高特征向量获取的准确性，加强各文本的特征向量的联系性；同时，通过损失函数的计算和预设条件的设置，能够及时的停止Bert模型的训练，从而获取较准确的医学标准映射模型。通过本发明的医学标准映射模型能够对待标准化原始词进行较为准确的标准化操作，降低待标准化原始词的标准难度，提高标准效率，对待标准化原始词匹配知识库中的原始词具有较强的稳定性和准确性。

附图说明

图1为本发明的一种医学标准映射模型的建立方法流程图；

图2为本发明的一种医学标准映射模型的使用方法流程图。

具体实施方式

以下将结合实施例对本发明涉及的一种医学标准映射模型的建立方法、系统及使用方法技术方案进一步详细说明。

如图1所示，一种医学标准映射模型的建立方法，包括：步骤S1~S4；

S1、采集医学实体数据，对所述医学实体数据进行分类并构建实体数据集；

S2、将所述实体数据集作为Bert模型的输入，并获取通过所述Bert模型进行训练后输出的特征向量；

S3、构建损失函数，基于所述损失函数对获取的所述特征向量进行损失计算，并根据计算结果或预设条件判断是否停止训练；

S4、若停止训练，则将停止时的Bert模型确定为医学标准映射模型。

进一步，步骤S1中所述采集医学实体数据，对所述医学实体数据进行分类并构建实体数据集，包括：

S11、采集医学实体数据，将所述医学实体数据按照原始词、标准词、标准词编码的类型进行分类；

其中，医学实体数据的来源为各医院，将获取的医学实体数据核验校对后按照原始词、标准词和标准词编码的类型进行统一分类;

S12、对分类后的所述医学实体数据进行数据形式构建，并将构建后获取的训练数据存入知识库；

其中，数据形式构建为按照原始词、标准词、标准词编码的标准格式校对具有联系的医学实体数据，如：白内障失明、白内障、H26.900；将处理后具有标准格式的医学实体数据作为训练数据，并利用所有的训练数据组成知识库;

S13、预处理所述知识库中的所述训练数据，并生成实体数据集。

其中，对知识库中的训练数据预处理指的是在将训练数据送入Bert模型，训练前，考虑每个原始词、标准词、标准词编码中各个元素对语义表征的影响程度，对知识库中的原始词、标准词、标准词编码进行预处理，预处理的方式包括但不限于：大小写转换，多余符号去除等；如：h26.900转换为H26.900，H26.900xt中去除xt保留H26.900等。

进一步，步骤S2中所述将所述实体数据集作为Bert模型的输入，并获取通过所述Bert模型进行训练后输出的特征向量，包括：

S21、按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分；

其中，将三元组样本中的锚文本、正文本、负文本分别标记为：

、

、

，且

和

是映射到相同标准词的文本, 而

是与

和

不同标准词的文本;

S22、将所述三元组样本作为Bert模型的输入进行训练，获取输出的所述三元组样本中各文本对应的特征向量。

其中，将

、

、

输入Bert模型，对应输出为

、

、

的特征向量；若训练不停止，则将获得的特征向量再次输入Bert模型不断循环，直至停止训练并输出。

进一步，在步骤S21中在所述按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分中，包括：

S212、选择在相同训练批次中与锚文本映射到不同标准词且距离最近的文本作为负文本。

其中，距离最近指的是：利用相同训练批次中锚文本的特征向量和所有文本的特征向量进行距离计算，距离计算的过程中所有的计算结果进行对比，选择距离最小的文本即为最近的负文本。

进一步，步骤S3中所述构建损失函数，基于所述损失函数对获取的所述特征向量进行损失计算，并根据计算结果或预设条件判断是否停止训练，包括：

S31、基于所述锚文本的特征向量和正文本的特征向量计算正向特征距离，基于所述锚文本的特征向量和负文本的特征向量计算反向特征距离；

其中，采用欧氏距离公式来进行特征向量距离的计算，公式如下：

上式中，表示在n维空间中两个点x（

），y（

）之间的特征向量距离；通过该欧氏距离公式能够获取正向特征距离

和反向特征距离

;

S32、构建损失函数，利用所述正向特征距离和反向特征距离进行损失计算；

其中，损失函数公式为：

其中，利用该损失函数公式能够计算结果值

，该损失函数公式的目的是让锚文本

和正文本

这两个具有相同标准词的特征向量距离最小化，而让锚文本

和负文本

这两个不同标准词的特征向量距离最大化，从而使每个文本的特征向量都有更高的准确度，防止被负文本

干扰；

其中，

为

与

的空间欧式距离，

为

与

的空间欧式距离；且在自然语言处理中，Bert模型训练的过程就是最小化损失函数的结果值的过程，通过在训练中结果值的不断变小，Bert模型的参数也会反向更新从而学到每个字向量更好的特征向量的表征，即在本文中为生成更准确的

、

、

，直到确定停止训练时的Bert模型作为医学标准映射模型;

S33、在损失计算的过程中若损失函数的结果值连续没有降低的训练批次次数达到了预先设置的早停止次数，或者Bert模型的训练批次次数达到预先设置的阈值次数，则停止训练。

其中，在损失计算的过程中若损失函数的结果值连续没有降低的训练批次次数达到了预先设置的早停止次数指的是：将早停止次数设置为3，即表示为early stop=3，若训练时Bert模型的损失函数的结果值在连续3次训练批次次数中没有降低，则停止训练；Bert模型的训练批次次数达到预先设置的阈值次数指的是：预先设置的阈值次数为100次，则Bert模型连续训练达到设置的100次，则停止训练。一个训练批次意思表示为，将所有的训练数据送入Bert模型中，完成了一次前向计算和反向传播的过程。

有益效果：本发明能够将医学实体数据按照原始词、标准词、标准词编码的类型进行准确的分类，并对分类后的训练数据进行预处理，从而得到统一化的实体数据集；利用统一化的实体数据集作为Bert模型的输入能够减少训练误差，且实体数据集是按照锚文本、正文本和负文本组成的三元组样本的形式进行划分，并能够提高特征向量获取的准确性，加强各文本的特征向量的联系性；同时，通过损失函数的计算和预设条件的设置，能够及时的停止Bert模型的训练，从而获取较准确的医学标准映射模型。

一种医学标准映射模型的建立系统，包括：

进一步，所述实体数据集生成模块，包括：

进一步，所述特征向量生成模块，包括：

进一步，在所述划分子模块中，包括：

进一步，所述损失函数构建模块，包括：

如图2所示，一种医学标准映射模型的使用方法，利用所述医学标准映射模型进行待标准化原始词的标准化操作，包括：步骤S5~S9;

S5、将所述实体数据集中所有原始词的特征向量组成初始特征集；

其中，利用所有原始词的特征向量组成向量集，并表示为F；

S6、将所述待标准化原始词输入所述医学标准映射模型，并输出待标准化原始词的特征向量；

其中，将待标准化原始词表示为m，并利用训练好的医学标准映射模型生成

；

S7、计算所述初始特征集内各原始词的特征向量与所述待标准化原始词的特征向量的相似度；

其中，相似度计算公式为：

上式中，用于计算在n维空间中两个点x（

），y（

）之间的余弦相似度；

S8、获取与待标准化原始词的特征向量相似度最高的原始词；

其中，该相似度最高的原始词表示为

，其特征向量为

；

S9、确定该原始词对应的标准词，并映射至所述待标准化原始词。

其中，设置映射公式为：

上式中，利用

确认向量集F中相似度最高的原始词

，并基于返回的原始词

，然后查询知识库表直接映射到标准词c，从而完成医学实体标准化操作。

有益效果：通过本发明的医学标准映射模型能够对待标准化原始词进行较为准确的标准化操作，降低待标准化原始词的标准难度，提高标准效率，对待标准化原始词匹配知识库中的原始词具有较强的稳定性和准确性。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种医学标准映射模型的建立方法，其特征在于，包括：

若停止训练，则将停止时的Bert模型确定为医学标准映射模型；

所述采集医学实体数据，对所述医学实体数据进行分类并构建实体数据集，包括：

预处理所述知识库中的所述训练数据，并生成实体数据集；

所述将所述实体数据集作为Bert模型的输入，并获取通过所述Bert模型进行训练后输出的特征向量，包括：

按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分；其中，所述锚文本、所述正文本和所述负文本分别标记为：

、

、

，且

和

是映射到相同标准词的文本, 而

是与

和

不同标准词的文本；

将所述三元组样本作为Bert模型的输入进行训练，获取输出的所述三元组样本中各文本对应的特征向量；所述特征向量分别为

、

、

；

在所述按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分中，包括：

选择在相同训练批次中与锚文本映射到不同标准词且距离最近的文本作为负文本；

采用欧氏距离公式来进行特征向量距离的计算，公式如下：

上式中，表示在n维空间中两个点x（

），y（

）之间的特征向量距离；通过所述欧氏距离公式能够获取正向特征距离

和反向特征距离

；

其中，损失函数公式为：

其中，利用所述损失函数公式能够计算结果值

，所述损失函数公式的目的是让锚文本

和正文本

这两个具有相同标准词的特征向量距离最小化，而让锚文本

和负文本

干扰；

其中，

为

与

的空间欧式距离，

为

与

的空间欧式距离。

2.根据权利要求1所述的方法，其特征在于，所述构建损失函数，基于所述损失函数对获取的所述特征向量进行损失计算，并根据计算结果或预设条件判断是否停止训练，包括：

3.一种医学标准映射模型的建立系统，其特征在于，包括：

模型确定模块，用于若停止训练，则将停止时的Bert模型确定为医学标准映射模型；

所述实体数据集生成模块，包括：

预处理子模块，用于预处理所述知识库中的所述训练数据，并生成实体数据集；

所述特征向量生成模块，包括：

划分子模块，用于按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分；其中，所述锚文本、所述正文本和所述负文本分别标记为：

、

、

，且

和

是映射到相同标准词的文本, 而

是与

和

不同标准词的文本；

特征向量生成子模块，用于将所述三元组样本作为Bert模型的输入进行训练，获取输出的所述三元组样本中各文本对应的特征向量；所述特征向量分别为

、

、

；

在所述划分子模块中，包括：

选择单元，用于选择在相同训练批次中与锚文本映射到不同标准词且距离最近的文本作为负文本；

采用欧氏距离公式来进行特征向量距离的计算，公式如下：

上式中，表示在n维空间中两个点x（

），y（

和反向特征距离

；

其中，损失函数公式为：

其中，利用所述损失函数公式能够计算结果值

，所述损失函数公式的目的是让锚文本

和正文本

这两个具有相同标准词的特征向量距离最小化，而让锚文本

和负文本

干扰；

其中，

为

与

的空间欧式距离，

为

与

的空间欧式距离。

4.根据权利要求3所述的系统，其特征在于，所述损失函数构建模块，包括：

5.一种医学标准映射模型的使用方法，其特征在于，利用权利要求1-2中任一项所述医学标准映射模型进行待标准化原始词的标准化操作，包括：

获取与待标准化原始词的特征向量相似度最高的原始词；

6.一种存储介质，其特征在于，所述存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时用于实现权利要求1-2中任一项所述的一种医学标准映射模型的建立方法对应的步骤。

7.一种终端设备，其特征在于，包括处理器和存储器，所述存储器用于存放至少一项计算机程序指令，所述计算机程序指令被处理器执行时用于实现权利要求1-2中任一项所述的一种医学标准映射模型的建立方法对应的步骤。