CN117540734A

CN117540734A - 一种中文医学实体标准化方法、装置及设备

Info

Publication number: CN117540734A
Application number: CN202410037568.4A
Authority: CN
Inventors: 侯文慧; 王晓康; 王亚楠; 柳叶; 王坚强
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2024-01-10
Filing date: 2024-01-10
Publication date: 2024-02-09
Anticipated expiration: 2044-01-10
Also published as: CN117540734B

Abstract

本发明提供一种中文医学实体标准化方法、装置及设备，所述方法包括：预处理历史中文医学实体标准化数据；构建融合词格结构和医学语言模型的语义提取模型；利用语义提取模型构建基于动态负采样策略的候选生成模型架构；构建用于进行候选概念排序和概念数预测的联合学习模型架构；采用对抗训练算法，通过历史中文医学实体标准化数据对候选生成模型架构、联合学习模型架构进行训练，得到候选生成模型，以及联合学习模型；基于候选生成模型、联合学习模型处理待标准化的中文医学实体，得到对应的标准化结果。本发明的中文医学实体标准化方法用于高效、准确地对中文医学实体进行标准化处理。

Description

一种中文医学实体标准化方法、装置及设备

技术领域

本发明属于医学自然语言处理技术领域，具体涉及一种中文医学实体标准化方法、装置及设备。

背景技术

从临床文本中挖掘有价值的知识，对促进医学研究和提供临床决策支持具有重要意义。然而，由于医生经验和写作习惯的不同，临床文本中医学实体存在各种不规范表达，如同义词、缩写、拼写错误和文本缺失，可能会影响医疗文本挖掘任务的性能。这促进了医学实体标准化（Medical Entity Normalization, MEN）的研究，旨在将原始文本中的模糊医疗实体映射到知识库中的标准概念。

目前，英文医学实体标准化方法已取得重大进展，但针对中文医学实体标准化的研究非常有限。与英文相比，中文领域存在更多挑战：

（1）中文医学实体表达的多样性和歧义性更加明显，要求模型充分捕捉医学实体的语义信息，以有效地分辨相似概念。现有研究中，基于字符和单词的中文文本表示方法无法捕获完整的语义信息，不合理的分词结果会进一步导致语义误差的传递。因此，有必要同时考虑字符和多种分词方式来缓解这种情况。

（2）公开可用的中文医学标准知识库和可训练数据相对缺乏，导致小样本问题更严重。现有研究主要通过对英文标准概念和中文实体提及进行中英互译来扩充语料库，但较差的翻译质量限制了文本的匹配性能。因此，有必要开发更有效的解决方案来解决中文MEN的小样本学习问题。

（3）不同于英文MEN任务，中文MEN面临着“一对多”问题，即一个提及描述可能对应多个标准概念。现有研究采用了一些简单方法预测给定提及的对应概念数，但MEN性能的提升不够明显。因此，有必要进一步设计模型架构以利用概念数预测任务和（待规范实体，标准概念）匹配任务的交互获益。

发明内容

本发明要解决的技术问题是提供一种中文医学实体标准化方法、装置及设备，用于高效、准确地对中文医学实体进行标准化处理。

本发明的内容包括一种中文医学实体标准化方法，包括：

获取历史中文医学实体标准化数据，并进行预处理，所述历史中文医学实体标准化数据包括医学实体数据及对应的标准概念；

构建融合词格结构和医学语言模型的语义提取模型，所述语义提取模型能够基于输入的医学信息，结合字词融合技术学习中文医学实体表达；

基于所述语义提取模型构建候选生成模型架构；

构建用于进行候选概念排序和概念数预测的联合学习模型架构；

采用对抗训练算法，通过所述历史中文医学实体标准化数据对所述候选生成模型架构、联合学习模型架构进行训练，得到用于根据语义相似性算法而自知识库中为每个待规范实体匹配一组相似的标准概念的候选生成模型，以及能够在多个候选概念中选择确定一个或多个标准概念作为待规范实体的目标映射的联合学习模型；

基于所述候选生成模型、联合学习模型处理待标准化的中文医学实体，得到由对应所述待标准化的中文医学实体的概念信息形成的标准化结果。

作为一可选实施例，对历史中文医学实体标准化数据进行预处理，包括：

统一所述历史中文医学实体标准化数据的格式，滤除所述历史中文医学实体标准化数据中的冗余字符、标点；

构建包含字符、相应单词及频率信息的词格结构。

作为一可选实施例，所述构建融合词格结构和医学语言模型的语义提取模型，包括：

基于中文医学语料库中的数据对初始BERT模型进行预训练，得到用于生成字符嵌入信息的目标BERT模型；

基于所述目标BERT模型处理输入的中文医学实体描述中每个字符，生成对应的字符嵌入；

基于预置词格结构确定所述中文医学实体描述中每个字符对应的第一单词，并对所述第一单词进行拆分、组合后实现逐个第一单词的分类，共分为四个类别，每个类别包括的第二单词的首字符、中间字符、结尾字符和单一字符分别为所述第一单词的目标字符，且四个类别的第二单词数量以及各第二单词的字符数量不完全相同；

将四个类别中的所述第二单词经加权算法分别形成固定维度的向量，并将每个向量匹配加入对应的目标字符的字符嵌入中；

构建语义提取模型架构，并基于加入所述向量的字符嵌入以及中文医学实体描述训练得到能够生成字符的字词融合表示的语义提取模型。

作为一可选实施例，所述利用所述语义提取模型构建基于动态负采样策略的候选生成模型架构，包括：

以所述语义提取模型作为编码器处理输入的中文医学实体，得到对应每个单词的字词融合信息；

对所述字词融合信息进行平均池化操作处理，并利用余弦测距算法处理平均池化操作结果，得到每个所述单词的候选概念集；

基于所述候选概念集训练、调整所述语义提取模型，形成所述基于动态负采样策略的候选生成模型架构。

作为一可选实施例，所述基于所述候选概念集训练、调整所述语义提取模型，形成所述基于动态负采样策略的候选生成模型架构，包括：

将所述候选概念集中所述实体对应的正确概念设置为正样本，其他概念设置为负样本，基于最小化所述实体与正样本之间的距离，最大化所述实体与负样本之间的距离的规则训练、调整所述语义提取模型，并利用调整后的语义提取模型迭代更新负候选概念集，形成能够区分具有相似文字描述的实体的候选生成模型架构。

作为一可选实施例，所述构建用于进行候选概念排序和概念数预测的联合学习模型架构，包括：

构建初始联合学习模型架构，包括嵌入层、注意力层和输出层；

基于所述嵌入层配置为：

将中文医学实体与对应的候选概念处理形成目标序列，并将所述目标序列输入至所述语义提取模型中，得到对应所述中文医学实体的每个字符的字词融合表示；

基于所述嵌入层将所述中文医学实体与对应的候选概念作为候选排序任务的输入，将各个所述中文医学实体作为概念数预测任务的输入，利用所述字词融合表示和语义提取模型完成两项任务的输入数据的编码；

所述注意力层配置为利用多头注意力机制处理两项任务的输入数据的编码，以形成所述候选排序任务和概念数预测任务的新输入数据；

所述输出层配置为将所述新输入数据输入至两个前馈神经网络，得到所述中文医学实体与对应的候选概念的置信度得分，以及每个所述中文医学实体对应的概念数量。

作为一可选实施例，所述输出层中的两个前馈神经网络的损失函数均为焦点损失函数。

作为一可选实施例，所述方法还包括：

以最小化候选概念生成损失值、候选概念排序损失值和对应中文医学实体的概念数预测损失值之和为目标，采用FreeLB算法完成对所述候选生成模型架构、联合学习模型架构的对抗训练，并根据所述候选概念生成损失值、候选概念排序损失值和概念数预测损失值分别对应更新生成的所述候选生成模型、联合学习模型的参数。

本发明另一实施例同时提供一种中文医学实体标准化装置，包括：

获取模块，用于获取历史中文医学实体标准化数据，并进行预处理，所述历史中文医学实体标准化数据包括医学实体数据及对应的标准概念；

第一构建模块，用于构建融合词格结构和医学语言模型的语义提取模型，所述语义提取模型能够基于输入的医学信息，结合字词融合技术学习中文医学实体表达；

第二构建模块，用于根据所述语义提取模型构建基于动态负采样策略的候选生成模型架构；

第三构建模块，用于构建用于进行候选概念排序和概念数预测的联合学习模型架构；

训练模块，用于采用对抗训练算法，通过所述历史中文医学实体标准化数据对所述候选生成模型架构、联合学习模型架构进行训练，得到用于根据语义相似性算法而自知识库中为每个待规范实体匹配一组相似的标准概念的候选生成模型，以及能够在多个候选概念中选择确定一个或多个标准概念作为待规范实体的目标映射的联合学习模型；

处理模块，用于根据所述候选生成模型、联合学习模型处理待标准化的中文医学实体，得到由对应所述待标准化的中文医学实体的概念信息形成的标准化结果。

本发明另一实施例提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上文中任意一项实施例所述的中文医学实体标准化方法。

本发明的有益效果包括通过采用在中文医学语料库上预训练的语言模型编码医学实体的字符嵌入，为无上下文的临床实体提供医学知识，可以弥补医学训练语料库不足的问题。其次，将词格引入实体规范化模型，采用字词融合表示来充分捕捉中文实体的多粒度语义特征，有助于模型学习相似概念之间的细微差异，提高模型的辨别能力。再次，通过采用注意力机制来联合建模概念数预测和候选排序任务，可以充分利用两个任务之间的相互作用，有助于解决实体与概念的“一对多”问题。另外，通过在训练过程中引入了对抗性算法和动态负采样策略，可以提高语言模型对罕见样本和相似样本的语义学习能力，还能显著提高模型的鲁棒性和泛化能力。

附图说明

图1为本发明的中文医学实体标准化方法的流程示意图。

图2为本发明的中文医学实体标准化方法的另一流程示意图。

图3为本发明的中文医学实体标准化装置的结构框图。

具体实施方式

下面，结合附图对本发明的具体实施例进行详细的描述，但不作为本发明的限定。

应理解的是，可以对此处公开的实施例做出各种修改。因此，下述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例，并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本发明的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本发明进行了描述，但本领域技术人员能够确定地实现本发明的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本公开的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本公开的具体实施例；然而，应当理解，所公开的实施例仅仅是本公开的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此，本文所公开的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本公开的相同或不同实施例中的一个或多个。

下面，结合附图详细的说明本发明实施例。

如图1和图2所示，本发明提供一种中文医学实体标准化方法，包括：

S1：获取历史中文医学实体标准化数据，并进行预处理，所述历史中文医学实体标准化数据包括医学实体数据及对应的标准概念；

S2：构建融合词格结构和医学语言模型的语义提取模型，所述语义提取模型能够基于输入的医学信息，结合字词融合技术学习中文医学实体表达；

S3：利用所述语义提取模型构建基于动态负采样策略的候选生成模型架构；

S4：构建用于进行候选概念排序和概念数预测的联合学习模型架构；

S5：采用对抗训练算法，通过所述历史中文医学实体标准化数据对所述候选生成模型架构、联合学习模型架构进行训练，得到用于根据语义相似性算法而自知识库中为每个待规范实体匹配一组相似的标准概念的候选生成模型，以及能够在多个候选概念中选择确定一个或多个标准概念作为待规范实体的目标映射的联合学习模型；

S6：基于所述候选生成模型、联合学习模型处理待标准化的中文医学实体，得到由对应所述待标准化的中文医学实体的概念信息形成的标准化结果。

基于上述内容可知，本实施例是通过采用在中文医学语料库上预训练的语言模型编码医学实体的字符嵌入，为无上下文的临床实体提供医学知识，弥补医学训练语料库不足的问题。其次，通过将词格引入实体规范化模型，采用字词融合表示来充分捕捉中文实体的多粒度语义特征，有助于模型学习相似概念之间的细微差异，提高模型的辨别能力。再次，通过采用注意力机制来联合建模概念数预测和候选排序任务，可以充分利用两个任务之间的相互作用，有助于解决实体与概念之间的“一对多”问题。另外，通过在训练过程中引入了对抗性算法和动态负采样策略，可以提高语言模型对罕见样本和相似样本的语义学习能力，还能显著提高模型的鲁棒性和泛化能力。

进一步地，在对历史中文医学实体标准化数据进行预处理时，包括：

S7：统一所述历史中文医学实体标准化数据的格式，并滤除所述历史中文医学实体标准化数据中的冗余字符、标点；

S8：构建包含字符、相应单词及频率信息的词格结构。

本实施例的历史医学实体标准化数据包括大量待规范医学实体及其对应的标准概念，可以通过医学专业人员对电子病历、医学文献等进行人工标注，提取实体并映射到标准的医学术语。数据预处理是指将收集到的原始医学文本数据转化为统一格式，包括去除无用字符、Unicode文本标准化和繁简转换，例如，“(腹腔镜)胆囊切除术（51.2201）”可被处理为“腹腔镜胆囊切除术”。另外，通过将所述历史医学实体标准化数据集与一个在中文Giga word语料库上预训练的大型词嵌入词典进行匹配来构建词格结构，包括所有字符、对应单词及其频率。与基于字符和单词的方法相比，词格结构可以利用更多有用的单词信息，且能避免分词错误。

所述构建融合词格结构和医学语言模型的语义提取模型，包括：

S9：基于中文医学语料库中的数据对初始BERT模型进行预训练，得到用于生成字符嵌入信息的目标BERT模型；

S10：基于所述目标BERT模型处理输入的中文医学实体描述中每个字符，生成对应的字符嵌入；

S11：基于预置词格结构确定所述中文医学实体描述中每个字符对应的第一单词，并对所述第一单词进行拆分、组合后实现逐个第一单词的分类，共分为四个类别，每个类别包括的第二单词的首字符、中间字符、结尾字符和单一字符分别为所述第一单词的目标字符，且四个类别的第二单词数量以及第二单词的字符数量不完全相同；

S12：将四个类别中的所述第二单词经加权算法分别形成固定维度的向量，并将每个向量匹配加入对应的目标字符的字符嵌入中；

S13：构建语义提取模型架构，并基于加入所述向量的字符嵌入以及中文医学实体描述训练得到能够生成字符的字词融合表示的语义提取模型。

由于提取医学文本的语义特征比一般领域文本需要更多的特定知识，而且中文序列中的单词比英文隐含了更多的语义信息。因此，本实施例采用在包含6.5亿字符的中文临床自然语言文本语料上预训练的BERT模型作为编码器，如此可以集成中文医学领域的知识；另外，本实施例将单词信息添加到字符嵌入中，可以提取中文实体的多粒度语义特征。

例如，给定一个实体描述，使用WordPiece将其拆分为字符序列，其中/>是字符词汇，使用在中文医学语料库中预训练的MedBERT模型学习字符嵌入/>；

基于预置词格结构找到每个字符对应的所有单词，将其分类为四个单词集“BMES”，并利用加权算法获得每个单词集的嵌入、/>、/>、/>；

将四个单词集表示连接为一个固定维度的向量，并将其添加到对应的字符嵌入中。每个字符的最终嵌入为：/>。其中，连接操作可以尽可能多的保留4个单词集的原始信息。

在一实施例中，MedBERT模型包括输入嵌入层、编码器层、输出层，该模型的编码原理为：

输入嵌入层，将输入文本中的每个词元转换为对应的嵌入向量，主要包含三种嵌入表示。

词元嵌入：对于一个实体描述的字符序列，其中每个词元对应一个稠密向量，表示该词元的语义信息；

位置嵌入：为序列中的每个词元添加一个位置编码,表示其在序列中的位置，这可以帮助模型学习输入文本的顺序信息；

段嵌入：如果输入是两个句子,会添加一个段嵌入表示每个词元来自哪个句子，以更好地理解输入文本的语义，其取值为0或1。

编码器层由12层双向Transformer编码器堆叠而成，逐层学习输入文本的上下文表示，每个Transformer层中包含以下两个模块。多头自注意力模块通过计算词元嵌入向量之间的注意力分数，学习词元之间的相关性，从而在编码过程中更好地关注与当前位置相关的上下文信息。前馈全连接网络模块对每个位置的向量进行非线性变换，增加模型的特征提取能力，捕捉输入文本中更复杂的语义信息。

输出层：经过多层Transformer编码器后，每个词元均被编码成一个固定大小的向量，其中[CLS]词元对应的向量可以作为句子的表示。这些向量可以用于下游实体标准化任务。

在其中一种实施方式中，基于预置词格结构找到每个字符对应的所有单词，将其分类为四个单词集“BMES”，并利用加权算法获得每个单词集的表示这一步骤具体包括如下步骤：

1）寻找所有的匹配单词：对于实体描述中的任何字符，通过匹配预置词格结构识别包含该字符的所有单词，表示为/>。以实体 “右侧甲状腺切除术”中的字符“甲”为例，其对应的单词包括“甲、甲状、甲状腺”。

2）对所有匹配单词进行分类：将每个字符的所有匹配单词/>分类为四个单词集“BMES”，表示为：

其中，表示在本发明中使用的词典，B、M、E分别代表所有以/>为开头、中间和结尾的单词,S代表一个单独的/>。示例性的，以字符“甲”为开头的单词包括“甲状”和“甲状腺”，他们对应的分词标签为B，表示为：B（“甲”）={“甲状”，“甲状腺”}；同理，“甲”对应的其他单词还包括：S（“甲”）={“甲”}。此外，如果单词集为空，则会在空单词集中添加一个特殊单词“NONE”，即E（“甲”）={“NONE”}，M（“甲”）={“NONE”}。

通过明确区分匹配词的四个“BMES”类别，不仅可以引入单词嵌入，也不存在信息丢失，因为匹配结果可以从字符的四个单词集中准确地恢复。

3）压缩单词表示：提出一种加权方法，将BMES四个单词集分别压缩成四个固定维的向量。以单词集B为例，对于每个单词的上下文表示/>，使用每个单词的频率/>作为其权重得到单词集的加权表示：

其中，，即通过对单词/>包含的所有字符嵌入进行平均池化聚合而成；计算/>所基于的统计数据集由该任务的训练和验证数据组合而成。另外，如果较短单词/>被另一个匹配的较长单词覆盖，则/>的频率不会增加，这防止了较短单词的重复计数。/>，代表对四个单词集中的所有单词执行权重归一化，以进行整体比较。

基于上述内容可知，所述模型有三个关键点：1）将匹配词明确地分为四个“BMES”类别；2）在四个单词集之间执行整体权重归一化；3）在对字符和单词集的表示执行连接操作。该三个关键点可以保证模型尽可能多的保留了字符和单词的原始信息，有助于充分捕捉实体的多粒度语义。

在一实施例中，所述利用所述语义提取模型构建基于动态负采样策略的候选生成模型架构，包括：

S14：以所述语义提取模型作为编码器处理输入的中文医学实体，得到对应每个实体的字词融合信息；

S15：对所述字词融合信息进行平均池化操作处理，并利用余弦测距算法处理平均池化操作结果，得到每个所述实体的候选概念集；

S16：基于所述候选概念集训练、调整所述语义提取模型，形成所述基于动态负采样策略的候选生成模型架构。

其中，所述基于所述候选概念集训练、调整所述语义提取模型，形成所述基于动态负采样策略的候选生成模型架构，包括：

S17：将所述候选概念集中所述实体对应的正确概念设置为正样本，其他概念设置为负样本，基于最小化所述实体与正样本之间的距离，最大化所述实体与负样本之间的距离的规则训练、调整所述语义提取模型，并利用调整后的语义提取模型迭代更新负候选概念集，形成能够区分具有相似文字描述的实体的候选生成模型架构。

传统的神经网络方法使用整个医学概念清单作为待规范实体的候选概念，以过大的候选集为代价提供完全覆盖。然而，当面对覆盖范围更广的词汇表时，这种方法就会变得棘手，需要采取强有力的策略来减少候选集的规模，同时确保尽可能多地将正确的概念添加到候选集中。常见的方法包括字符串匹配和搜索引擎检索（如BM25），选择超过相似度阈值的概念组成待规范实体的候选集。这通常忽视了文本语义，降低了候选生成的召回率。对于每个待规范实体，我们利用所述语义提取模型，选择与其语义距离最近的个概念作为候选集。

训练语义提取模型的最常见方法是建立成对的训练数据集。通常，术语规范化任务数据集中只有正样本，因此需要一种自动负采样策略来帮助模型更有效地学习。最简单的负采样策略是随机抽样，这通常无法为模型提供足够的信息，导致较差的性能。因此，本实施例使用一种基于动态负采样的候选生成方法，通过迭代地更新难以区分的负样本（混淆样本）来提升模型的语义提取能力，从而提升候选召回率。具体地，假设有一个给定的实体提及，和包含/>个标准概念的知识库/>。在每次迭代中，首先采用S2中构建的基于词格结构和医学语言模型的语义提取框架，获得待规范实体/>和每个概念/>的字词融合表示/>，/>，其中蕴含了医学知识并融合了多粒度语义信息；然后通过平均池化操作将字词融合表示聚合为实体表示和/>；接着利用余弦距离测量/>和每个/>之间的语义相似度，从而为/>选择最相似的/>个概念作为候选集；进一步地，对于待规范实体/>，其对应的正确概念表示为/>，候选集中的其他概念表示为/>，使用多相似度(Multi-similarity, MS) 损失函数为目标来微调MedBERT：

其中、/>和/>是可调参数，/>和/>是/>的正、负候选者的索引，和/>是每个批次/>中待规范实体及其正、负候选概念间的余弦相似度。

该损失函数可以最小化与正样本之间的距离，同时最大化/>与负样本之间的距离，还能利用正样本对和负样本对之间的相似性来更新样本权重。这驱动模型在每次迭代中不断校准语义空间，区分具有相似文字描述的医学概念，提升候选概念的召回率。所述构建用于进行候选概念排序和概念数预测的联合学习模型架构，包括：

S18：构建初始联合学习模型架构，包括嵌入层、注意力层和输出层；

所述嵌入层配置为：

将所述中文医学实体与对应的候选概念作为候选排序任务的输入，将各个所述中文医学实体作为概念数预测任务的输入，利用所述字词融合表示和语义提取模型完成两项任务的输入数据的编码；

其中，所述输出层中的两个前馈神经网络的损失函数均为焦点损失函数。

本步骤旨在训练模型学习待规范实体和候选概念间的匹配关系，以从一组候选者中找到给定实体的相应概念。其中，中文实体可能面临“一对多”的问题，即一个实体对应多个标准概念，而标准概念的数量难以确定。为应对此问题，本实施例将候选排序与概念数预测任务联合建模。候选排序任务用于学习给定提及与候选概念之间的匹配关系，得到候选概念的置信度得分；概念数预测任务用于预测给定实体对应的候选概念数量。

具体地，在嵌入层中，假设待规范实体有/>个候选概念，以第/>个候选概念/>为例，模型将/>和/>连接起来，加上特殊的起始和分隔符，形成序列/>。该序列首先输入步骤S2所述的基于词格和医学语言模型的语义提取框架，获得每个字符的字词融合表示；然后，对该序列的所有字符执行平均池化，生成该序列的向量表示，作为候选排序任务的输入；同时，对待规范实体/>包含的字符执行平均池化，获得实体/>的向量表示/>，作为概念数预测任务的输入。

在注意力层中：

其中，/>都是模型参数,/>代表嵌入向量的维度，/>,/>代表注意力头的数量。

经过该过程，（待规范实体，候选概念）对的向量表示和待规范实体的向量表示得到充分交互，变为/>和/>，其被分别作为候选排序任务和概念数预测任务的新输入。

对于候选排序任务，将序列对表示输入前馈神经网络/>和一个softmax层，得到第/>个候选实体的得分：

考虑到正负样本的不平衡性，采用焦点损失函数：

其中,/>是可调参数；/>，/>意味着/>是/>的标准概念，否则/>。

类似的，对于蕴含数预测任务，将输入另一个前馈神经网络/>和softmax层，生成预测的蕴含数概率分布/>。该任务的焦点损失函数为：

其中是真实类别标签，/>是模型的预测概率。

进一步地，在对候选生成模型和联合学习模型进行训练时，本实施例采用的方法是对抗性训练法进行训练。对抗性训练是通过向单词嵌入中应用微小但故意恶化的扰动，可以使大型神经语言模型学会抵抗对抗性攻击，从而增强模型在嵌入空间中的鲁棒性。基于投影梯度下降（Projection Gradient Descent, PGD）的对抗性训练是使用最广泛的方法，但其成本远高于传统训练。FreeAT (Free Adversarial Training)和YOPO (You OnlyPropagate Once)分别为不同的对抗训练算法，它们在提高对抗训练效率的同时，实现了与标准PGD训练模型相当的鲁棒性和泛化能力。FreeLB通过最小化输入样本周围不同区域内的对抗性风险，可以进一步提高嵌入空间中的不变性。与标准PGD、FreeAT和YOPO相比，FreeLB从多个不同的范数约束中对多个对手强制执行不变性，帮助大规模语言模型在几个重要的NLP任务实现了更低的泛化误差。因此本实施例优选采用FreeLB算法进行模型训练。

在另一实施例中，所述方法还包括：

S19：以最小化候选概念生成损失值、候选概念排序损失值和对应中文医学实体的概念数预测损失值之和为目标，采用FreeLB算法完成对所述候选生成模型架构、联合学习模型架构的对抗训练，并根据所述候选概念生成损失值、候选概念排序损失值和概念数预测损失值分别对应更新生成的所述候选生成模型、联合学习模型的参数。

其中，FreeLB算法执行多次PGD迭代来生成对抗性示例，并在每次迭代中同时累积“自由”参数梯度，最后用累积的梯度一次更新模型参数。通过在/>处沿着平均梯度进行下降步骤，大致优化了以下目标：

这相当于用倍大的虚拟批替换原始批/>，该虚拟批由嵌入为/>的样本组成。与基于PGD的对抗性训练相比，FreeLB在几乎没有开销的情况下最小化了每个上升步骤的最大风险，前者在每个训练样本附近的单个估计点最小化了最大风险。本实施例中通过使用FreeLB对抗训练方法为字符嵌入添加扰动，可以提升语言模型在单词嵌入空间中的鲁棒性，从而提高其在下游候选排序和蕴含数预测任务中的泛化能力。

在一具体应用实例中，对于待规范医学实体‘右侧甲状腺叶切除术’，其对应的标准概念为‘单侧甲状腺叶切除术’。在预测模型中，候选生成模型得到的10个候选概念为：[‘单侧甲状腺叶切除术’,‘腔镜下甲状腺全部切除术’,‘甲状腺全部切除术’,‘腔镜下单侧甲状腺切除术’,‘单侧甲状腺切除伴他叶部分切除术’,‘单侧甲状腺切除伴峡部和其他叶部分切除术’,‘腔镜下甲状腺大部切除术’,‘甲状腺大部切除术’,‘腔镜下甲状腺部分切除术’,‘单侧甲状腺切除伴甲状腺峡部切除术’]；它们的置信度得分为：[0.7330747,0.6877869, 0.5889163, 0.5290445, 0.5070807, 0.49612274, 0.4843075,0.47307096, 0.46525, 0.17125105]；概念数预测模型预测得到的标准概念数量为1，因此，‘右侧甲状腺叶切除术’的预测结果为：‘单侧甲状腺叶切除术’,与真实标签一致。

如图3所示，本发明另一实施例同时提供一种中文医学实体标准化装置100，包括：

统一所述历史中文医学实体标准化数据的格式，滤除所述历史中文医学实体标准化数据中的冗余字符、标点；构建包含字符、相应单词及频率信息的词格结构。

基于预置词格结构确定所述中文医学实体描述中每个字符对应的第一单词，并对所述第一单词进行拆分、组合后实现逐个第一单词的分类，共分为四个类别，每个类别的第二单词的首字符、中间字符、结尾字符、单一字符分别为所述第一单词的目标字符，且四个类别的第二单词数量以及第二单词的字符数量不完全相同；

将所述候选概念集中所述单词对应的正确概念设置为正样本，其他概念设置为负样本，基于最小化所述单词与正样本之间的距离，最大化所述单词与负样本之间的距离的规则训练、调整所述语义提取模型，并利用调整后的语义提取模型迭代更新负候选概念，形成能够区分具有相似文字描述的实体的候选生成模型架构。

基于所述嵌入层配置为：

作为一可选实施例，所述方法还包括：

本发明另一实施例还提供一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行如上文中任一项实施例所述的中文医学实体标准化方法。

本发明另一实施例还提供一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制包括所述存储介质的设备执行如上文中任一项实施例所述的中文医学实体标准化方法。

本发明实施例还提供了一种计算机程序产品，所述计算机程序产品被有形地存储在计算机可读介质上并且包括计算机可读指令，所述计算机可执行指令在被执行时使至少一个处理器执行诸如上文所述实施例中的中文医学实体标准化方法。应理解，本实施例中的各个方案具有上述方法实施例中对应的技术效果，此处不再赘述。

需要说明的是，本申请的计算机存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质（RAM）、只读存储介质（ROM）、可擦式可编程只读存储介质（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储介质（CD-ROM）、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、天线、光缆、RF等等，或者上述的任意合适的组合。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的保护范围限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请中一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本申请中一个或多个实施例旨在涵盖落入本申请的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请中一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种中文医学实体标准化方法，其特征在于，包括：

利用所述语义提取模型构建基于动态负采样策略的候选生成模型架构；

2.根据权利要求1所述的中文医学实体标准化方法，其特征在于，对历史中文医学实体标准化数据进行预处理，包括：

构建包含字符、相应单词及频率信息的词格结构。

3.根据权利要求1所述的中文医学实体标准化方法，其特征在于，所述构建融合词格结构和医学语言模型的语义提取模型，包括：

4.根据权利要求1所述的中文医学实体标准化方法，其特征在于，所述利用所述语义提取模型构建基于动态负采样策略的候选生成模型架构，包括：

5.根据权利要求4所述的中文医学实体标准化方法，其特征在于，所述基于所述候选概念集训练、调整所述语义提取模型，形成所述基于动态负采样策略的候选生成模型架构，包括：

6.根据权利要求1所述的中文医学实体标准化方法，其特征在于，所述构建用于进行候选概念排序和概念数预测的联合学习模型架构，包括：

所述嵌入层配置为：

7.根据权利要求6所述的中文医学实体标准化方法，其特征在于，所述输出层中的两个前馈神经网络的损失函数均为焦点损失函数。

8.根据权利要求1所述的中文医学实体标准化方法，其特征在于，所述方法还包括：

9.一种中文医学实体标准化装置，其特征在于，包括：

10.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-8中任意一项所述的中文医学实体标准化方法。