CN116975201A

CN116975201A - 一种基于深度学习的医学术语标准化方法

Info

Publication number: CN116975201A
Application number: CN202310728442.7A
Authority: CN
Inventors: 崔灿灿; 周景
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-10-31

Abstract

本发明公开了一种医学术语标准化方法，所述方法，包括：步骤1：获取原始数据集，对数据进行预处理，构造语义匹配召回模型的训练样本数据；步骤2：基于改进的有监督对比学习和RoBERTa双塔模型构建语义匹配召回模型CL‑RoBERTa，根据样本数据训练语义匹配召回模型；步骤3：使用T5结合prompttuning构建语义精准匹配模型，加入对抗训练机制对语义精准匹配模型进行训练；步骤4：给定术语原词和医学标准术语库，通过CL‑RoBERTa生成原词和医学标准术语库所有标准词的语义表征向量，根据向量之间的余弦相似度进行召回并得到标准词候选集，使用精准匹配模型对原词和标准词候选集分别进行精准排序得到最终标准词。该方法具有较高的性能，能够适用复杂的医学术语标准化场景。

Description

一种基于深度学习的医学术语标准化方法

技术领域

本发明涉及医疗文本数据处理技术领域，具体涉及一种基于深度学习的医学术语标准化方法。

背景技术

在医学诊断中，不同的医生对同一种疾病的医学术语可能有不同表述形式，这种医学术语表述形式多样的情况会导致统计分析和知识检索的过程中会存在较大的误差。因此，医学术语标准化在医疗信息化的发展中有着重要的研究意义。医学术语标准化任务是将临床诊断中对疾病名称、手术名称、检查方式等医学术语的多种表述形式，在标准化术语库中找到一个标准术语与之对应，例如将临床诊断中所描述“右股骨病灶活检术”对应到标准化术语库中的“股骨活组织检查”。

医学术语标准化的核心任务是原术语和标准术语之间的相似度匹配，现有的医学术语标准化任务多采用先召回后排序的方法。在召回阶段传统的相似度匹配如：BM25、编辑距离、tf-idf等基于统计学的方法，只依赖于两个实体之间的字面差异，未涉及到实体之间的深层语义表征。临床诊断中存在大量语义不同但字面相似度非常高的实体，如“脊柱生长阀置入术”和“脊柱生长阀修复术”和大量字面相似度低却表示相同语义的实体，如“脊柱生长阀置入术”和“脊柱后路生长棒植入术”，对于这种情况采用基于频率统计的算法召回，会导致真正的标准实体在召回阶段未被召回为候选实体，直接降低了最终结果的召回率。通过Word2Vec词向量方法进行召回的方式对背景语料的依赖性较强，对未登录词的表示效果较差，同时由于模型结构简单，Word2Vec词向量对实体语义表征不够丰富。在排序阶段以往的方案多使用RoBERTa、BERT等预训练语言模型将待匹配实体和候选实体集分别进行文本对语义匹配。这种传统fine tuning的方案下游任务与预训练任务不能够保持一致，导致模型预训练阶段学到的丰富的语言知识不能充分地应用到下游任务中。

发明内容

鉴于上述相关技术的不足，提供一种医学术语标准化的方法，提高医学术语标准化的精度。

目前，医学术语标准化任务研究逐渐转为先召回再排序的两阶段方法，两个阶段的误差都将影响最终的检测效果。为了提高最终结果的准确率，本文基于深度学习提出了语义召回加精准匹配的两阶段方案，对两个阶段分别进行改进：在召回阶段借鉴了对比学习思路，使RoBERTa模型能更好的学习语义的相关性，提升了字向量对医学术语的表征能力，从而提升召回阶段的精度。在排序阶段提出T5预训练语言模型结合prompt tuning方案，减少上游任务和下游任务不一致造成的知识遗失，同时将对抗训练应用到T5模型prompt tuning过程中，进一步提升模型的性能。

为了实现上述目的，本发明提供的技术方案如下：

步骤1：获取原始数据集，对数据进行预处理，分别构建语义召回模型和精准匹配模型训练数据；

步骤2：基于改进的有监督对比学习和RoBERTa双塔模型构建语义召回模型CL-RoBERTa，训练语义召回模型；

步骤3：构建语义精准匹配模型T5，加入对抗训练机制对语义精准匹配模型进行训练；

步骤4：给定术语原词和医学标准术语库，通过语义召回模型生成原词和医学标准术语库所有标准词的语义表征向量，根据向量之间的余弦相似度进行召回并得到标准词候选集，使用精准匹配模型对原词和标准词候选集分别进行精准匹配得到最终标准词。

本申请方法具有如下有益效果：

本发明公开的一种基于深度学习的医学术语标准化方法，将RoBERTa和T5模型的相结合，能够适应复杂的医学术语对齐场景，提升医学术语标准化的精度。

本发明设计使用双塔结构和有监督的对比学习思想改进RoBERTa模型，得到改进后的语义表征模型为CL-RoBERTa，用于生成医学术语语义向量，该模型能够有效缩小同类别样本的向量空间距离，拉大不同类别样本的向量空间距离，极大提升了RoBERTa模型的语义表征能力。提出T5预训练语言模型结合prompt tuning方案，减少上游任务和下游任务不一致造成的知识遗失，同时将对抗训练应用到T5模型prompt tuning过程中，进一步提升模型的性能。

附图说明

下面对本发明中所需要使用的附图进行介绍。

图1是所提出的CL-RoBERTa模型结构；

图2为医学术语标准化整体流程图；

具体实施方式

为了对本发明的技术方案更加清晰的说明，下面将基于附图对本发明进行详细地描述。

本发明提出了基于深度学习的语义召回加精准匹配两阶段医学术语标准化方法，在语义召回阶段使用语义表征模型CL-RoBERTa，分别得到原词和医学术语的语义表征向量，通过余弦相似度召回前10个最相似医学术语得到标准词候选术语集。在精准排序阶段利用T5结合prompt tuning构建语义构建的精准匹配模型，将原词和候选术语集分别进行精准排序，得到最终的标准词。语义召回阶段使用双塔结构和有监督的对比学习思想改进RoBERTa模型，得到改进后的语义表征模型为CL-RoBERTa，用于生成医学术语语义向量，该模型能够有效缩小同类别样本的向量空间距离，拉大不同类别样本的向量空间距离。在精准排序阶段针对传统fine tuning的方案下游任务与预训练任务不能够保持一致，导致模型预训练阶段学到的丰富的语言知识不能充分地应用到下游任务，使用T5结合prompttuning构建语义精准匹配模型，使得模型预训练阶段学到知识能够充分地应用到下游任务中。

实施例1：

本发明实施例提供一种基于深度学习的医学术语标准化方法，包括下述步骤：

步骤1：获取原始数据集，对数据进行预处理，分别构造语义召回模型和精准匹配模型训练数据；

步骤4：给定术语原词和医学标准术语库，通过语义召回模型生成原词和医学标准术语库所有标准词的语义表征向量，根据向量之间的余弦相似度进行召回并得到标准词候选集，使用精准匹配模型对原词和标准词候选集分别进行精准排序得到最终标准词。

在上述的步骤1中，具体包括如下步骤：

步骤11：获取样本数据，对数据进行预处理，按照相应的策略<原始词，标准词，1>和<原始词，非标准词，0>构造正负样本，作为步骤2语义召回模型的训练数据；

步骤12:通过“xxx和xxx+prompt内容”的形式构造语义精准匹配模型训练数据，例如通过“xxx和xxx+prompt内容”的形式构造语义精准匹配模型训练数据，例如<“右中下肺叶切除术”和“肺叶切除术”这两个术语含义相同吗？，是>；

在上述的步骤2中，如图1所示为CL-RoBERTa模型结构，具体包括如下步骤：

步骤21：构建基于RoBERTa双塔模型，左右两个塔参数共享；

步骤22：将语义召回模型的训练数据依次作为输入，分别送入CL-RoBERTa左右塔的Embedding层中；

步骤23：将Embedding层中输出结果送入transformer block层中，每一层的transformer block计算过程如式(1)–式(2)：

H＝LN(A^i-1+MHA(A^i-1)) (1)

其中A0＝E，Ai表示第i层的transformer block输出，MHA(multihead-attention)为多头注意力机制，LN(layer normalization)表示层归一化，FFN为全连接神经网络；

步骤24：通过式(1)–式(2)计算分别左塔和右塔得到最后一层transformer block的输出结果，对左、右塔输出结果在最后一个维度上纵向相加求和取平均得到ux、uy；

步骤25：使用改进的有监督对比学习设计新型损失函数训练双塔模型。损失函数的计算公式为式(3)：

其中P是训练集中标签为1的正样本，x是原词，y是标准词，ux、uy是将x、y分别输入CL-RoBERTa左塔和右塔得到语义向量表示，N是训练集中的标签为0负样本，m是原词，n是非标准词，um、vn是将m、n分别输入CL-RoBERTa左塔和右塔得到语义向量表示，τ是自定义调节的温度系数，sim表示余弦相似度；

步骤26:训练完成后得到语义表征模型CL-RoBERTa。

在上述的步骤3中，具体包括如下步骤：

步骤31：使用步骤1构造的语义精准匹配模型训练数据输入到T5模型中；

步骤32：T5模型embedding层的输出结果为x；

步骤33：x经过前向传播计算损失、反向传播计算得出梯度r；

步骤34：将模型embedding层梯度加到当前embedding的输出x上，得到新的输入x+r

步骤35：将x+r前向传播和反向传播得到对抗梯度t，将对抗梯度t与步骤32中的梯度相加为t+r；

步骤36：将embedding恢复为x的值；

步骤37：根据步骤3得到的梯度更新参数；

步骤38：重复步骤31到步骤37，得到语义精准匹配模型。

在上述的步骤4中，如图2所示，具体包括如下步骤：

步骤41：将医学术语原词字符序列s＝c1c2…cn作为输入，送入CL-RoBERTa左塔的Embedding层中，得到输出E＝e1e2…en；

步骤42：将E送入transformer block层中，得到最后一层transformer block的输出为Am＝{h1,h2,…,hn}，对特征向量集合Am在最后一个维度上纵向相加求和取平均得到u＝{x1,x2,…,xn}，该向量u作为医学术语原词的语义向量表示；

步骤43：将标准术语集G＝{g1,g2,…,gk}中的标准术语依次作为输入送入右塔，将gi送入右塔最终的输出结果vi＝{y1,y2,..,yn}作为医学术语标准词gi的语义向量表示；

步骤44：对医学术语原词语义向量u和vi计算余弦相似度得到相似度得分，计算公式为式(4)：

步骤45：通过公式(4)计算原词和标准术语库中所有术语的相似度得分，取得分最高的前10个医学术语标准词作为候选概念集Y，计算公式为式(5)：

Y＝Top₁₀(score(s,G)) (5)

步骤46：将原词和候选标准词分别进行组合，通过“xxx和xxx+prompt内容”的形式构成T5模型输入数据；

步骤47：将构造的数据输入到语义精准匹配模型T5中，模型输出“是”的结果作为医学术语原词所对应的标准词，模型输出“否”的结果丢弃。

以上所述仅为本发明的实施例，并不用来限制本发明，凡是在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的医学术语标准化方法，包括下述步骤：

步骤1：获取原始数据集，对数据进行预处理，分别构造语义匹配召回模型和精准匹配模型训练数据；

步骤2：基于改进的有监督对比学习和RoBERTa双塔模型构建语义匹配召回模型CL-RoBERTa，训练语义匹配召回模型；

步骤4：给定术语原词和医学标准术语库，通过语义匹配召回模型生成原词和医学标准术语库所有标准词的语义表征向量，根据向量之间的余弦相似度进行召回并得到标准词候选集，使用精准匹配模型对原词和标准词候选集分别进行精准排序得到最终标准词。

2.根据权利要求1所述的一种基于深度学习的医学术语标准化方法，所述步骤1具体包括：

步骤11：获取样本数据，对数据进行预处理，按照相应的策略<原始词，标准词，1>和<原始词，非标准词，0>构造正负样本，作为步骤2语义匹配召回模型的训练数据；

步骤12:通过“xxx和xxx+prompt内容”的形式构造语义精准匹配模型训练数据，例如<“右中下肺叶切除术”和“肺叶切除术”这两个术语含义相同吗？，是>。

3.根据权利要求1所述的所述构建语义召回模型CL-RoBERTa方法，其特征在于，该模型能够有效缩小同类别样本的向量空间距离，拉大不同类别样本的向量空间距离，有效提升RoBERTa的语义表征能力，所述步骤2具体包括：