CN116894436B

CN116894436B - 基于医学命名实体识别的数据增强方法及系统

Info

Publication number: CN116894436B
Application number: CN202311143040.7A
Authority: CN
Inventors: 宋佳祥; 白焜太; 刘硕; 杨雅婷; 许娟
Original assignee: Digital Health China Technologies Co Ltd
Current assignee: Digital Health China Technologies Co Ltd
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2023-12-15
Anticipated expiration: 2043-09-06
Also published as: CN116894436A

Abstract

本发明公开了基于医学命名实体识别的数据增强方法及系统，本方案将标注好的医学文本数据进入bert模型后得到文本的向量表示，通过变分自编码算法（VAE），生成和原始文本相似的新的向量。为了保持原有的标注位置及标注信息，将生成的新向量与实体的起始、结束位置以及实体的长度向量进行叠加，最后送入模型进行训练，通过生成算法生成相似的向量，从而达到数据增强的效果，提升各类训练模型的泛化性能，进一步提高康复医学诊断、方案制定或者辅助治疗的效率。

Description

基于医学命名实体识别的数据增强方法及系统

技术领域

本发明属于医学数据处理领域，具体涉及基于医学命名实体识别的数据增强方法及系统。

背景技术

数据就是生产力，数据的重要性在目前人工智能领域扮演着举足轻重的角色，以医学领域为例，医学数据对于基于深度学习方法辅助康复医学诊断、方案制定或辅助治疗过程的技术息息相关，并且深度模型的训练过程往往需要大量标注数据；

目前NLP领域中较为普遍的数据增强技术有：同义词替换法、回译法、文本生成，以上方法都是在数据源头进行的一系列处理，生成新的、类似于原始数据的新数据，但是此类数据的数据量大，并不能减少人工标注量，降低人工成本，提高工作效率，并且此类数据无法提升各类训练模型的泛化性能，从而无法提高康复医学诊断、方案制定或者辅助治疗的效率。

发明内容

针对上述现有技术的不足，本申请提供于信息抽取和实体归一的医学相似病例推荐方法和系统。

第一方面本申请提出了基于医学命名实体识别的数据增强方法，包括以下步骤：

从院方提供的病案首页中获取医学元素数据，通过正则表达式从原始诊断病例数据中提取医学文本语料，对所述医学文本语料进行标注得到医学标注文本；

将所述医学标注文本输入bert模型，获取原始医学文本向量表示，将所述原始医学文本向量进行同维度转换处理，得到相似医学文本向量表示；

将所述原始医学文本向量表示与所述相似医学文本向量表示进行向量拼接得到待分析医学文本向量表示；

获取所述待分析医学文本向量表示的起始位置向量信息、跨度向量信息以及结束位置向量信息后，根据向量信息将对应的起始位置向量、跨度向量以及结束位置向量进行拼接，得到增强医学文本向量表示；

将所述增强医学文本向量表示经过线性层按照医学片段类型进行分类，得到对应类别的增强医学片段数据，所述增强医学片段数据用于输入到下游神经网络中进行模型训练。

在一些实施例中，所述将所述医学标注文本输入bert模型，获取原始医学文本向量表示，将所述原始医学文本向量进行同维度转换处理，得到相似医学文本向量表示，包括：

将所述医学标注文本输入bert模型后，得到所述原始医学文本向量表示，将所述原始医学文本向量表示设定为样本输入集X_k，k表示样本数量，所述样本输入集X_k包括专属的正态分布p(Z|X_k)，所述正态分布包括均值μ和方差σ²两组参数；

将所述样本输入集X_k投影到隐空间得到所述样本输入集X_k的隐状态编码；

根据所述隐状态编码构建神经网络和/>，根据构建的神经网络从所述正态分布中采样得到中间样本集Z_k；

将所述中间样本集Z_k经过预设的生成器，得到相似数据集/>，所述相似数据集/>为所述相似医学文本向量表示。

在一些实施例中，所述将所述相似医学文本向量表示进行同维度转换得到同维度医学文本向量表示，将所述相似医学文本向量表示与所述同维度医学文本向量表示进行拼接处理得到第一拼接医学文本向量表示；

所述相似数据集对应的相似医学文本向量表示为sequence_output_vae1；

将所述相似医学文本向量表示进行同维度转换得到同维度医学文本向量表示为sequence_output_vae2；

将所述相似医学文本向量表示sequence_output_vae1与同维度医学文本向量表示sequence_output_vae2进行拼接操作，得到第一拼接医学文本向量表示sequence_output_concat。

在一些实施例中，所述分别从所述原始医学文本向量表示和所述第一拼接医学文本向量表示中获取向量信息，根据向量信息获取所述原始医学文本向量表示和所述第一拼接医学文本向量表示的对应向量，将所述原始医学文本向量表示和所述第一拼接医学文本向量表示的对应向量进行向量合并，得到增强医学文本向量表示，包括：

对所述第一拼接医学文本向量表示中的医学片段进行切片处理，获取相似起始位置向量信息，对所述相似起始位置向量信息对应的向量进行降维处理，根据相似起始位置向量信息的下标获取降维处理后对应的相似起始位置向量，对所述第一拼接医学文本向量表示中的医学片段进行切片处理，获取相似跨度向量信息，对所述相似跨度向量信息对应的向量进行降维处理，根据相似跨度向量信息的下标获取降维处理后对应的相似跨度向量，对所述第一拼接医学文本向量表示中的医学片段进行切片处理，获取相似结束位置向量信息，对所述相似结束位置向量信息对应的向量进行降维处理，根据相似结束位置向量信息的下标获取降维处理后对应的相似结束位置向量；

对所述原始医学文本向量表示中的医学片段进行切片处理，获取原始起始位置向量信息，对所述原始起始位置向量信息对应的向量进行降维处理，根据原始起始位置向量信息的下标获取降维处理后对应的原始起始位置向量，对所述原始医学文本向量表示中的医学片段进行切片处理，获取原始跨度向量信息，对所述原始跨度向量信息对应的向量进行降维处理，根据原始跨度向量信息的下标获取降维处理后对应的原始跨度向量，对所述原始医学文本向量表示中的医学片段进行切片处理，获取原始结束位置向量信息，对所述原始结束位置向量信息对应的向量进行降维处理，根据原始结束位置向量信息的下标获取降维处理后对应的原始结束位置向量；

将获取的原始起始位置向量、原始跨度向量、原始结束位置向量与相似起始位置向量、相似跨度向量、相似结束位置向量按照对应的位置信息分别进行合并得到增强医学文本向量表示spans_embedding；

第二方面本申请提出基于医学命名实体识别的数据增强系统，包括文本获取模块、相似向量获取模块、向量第一处理模块、向量第二处理模块和数据输出模块；

所述文本获取模块，用于从院方提供的病案首页中获取医学元素数据，通过正则表达式从原始诊断病例数据中提取医学文本语料，对所述医学文本语料进行标注得到医学标注文本；

所述相似向量获取模块，用于将所述医学标注文本输入bert模型，获取原始医学文本向量表示，将所述原始医学文本向量进行同维度转换处理，得到相似医学文本向量表示；

所述向量第一处理模块，用于将所述原始医学文本向量表示与所述相似医学文本向量表示进行向量拼接得到待分析医学文本向量表示；

所述向量第二处理模块，用于获取所述待分析医学文本向量表示的起始位置向量信息、跨度向量信息以及结束位置向量信息后，根据向量信息将对应的起始位置向量、跨度向量以及结束位置向量进行拼接，得到增强医学文本向量表示；

所述数据输出模块，用于将所述增强医学文本向量表示经过线性层按照医学片段类型进行分类，得到对应类别的增强医学片段数据，所述增强医学片段数据用于输入到下游神经网络中进行模型训练。

在一些实施例中，所述相似向量获取模块包括样本构建单元、编码单元、采样单元和相似向量表示输出单元；

所述样本构建单元，用于将所述医学标注文本输入bert模型后，得到所述原始医学文本向量表示，将所述原始医学文本向量表示设定为样本输入集X_k，k表示样本数量，所述样本输入集X_k包括专属的正态分布p(Z|X_k)，所述正态分布包括均值μ和方差σ²两组参数；

所述编码单元，用于将所述样本输入集X_k投影到隐空间得到所述样本输入集X_k的隐状态编码；

所述采样单元，用于根据所述隐状态编码构建神经网络和，根据构建的神经网络从所述正态分布中采样得到中间样本集Z_k；

所述相似向量表示输出单元，用于将所述中间样本集Z_k经过预设的生成器，得到相似数据集/>，所述相似数据集/>为所述相似医学文本向量表示。

在一些实施例中，所述向量第一处理模块包括第一拼接单元、原始向量获取单元和相似向量获取单元；

所述相似向量表示表征单元，用于将所述相似数据集对应的相似医学文本向量表示为sequence_output_vae1；

所述同维度向量转换单元，用于将所述相似医学文本向量表示进行同维度转换得到同维度医学文本向量表示为sequence_output_vae2；

所述拼接单元，用于将相似医学文本向量表示sequence_output_vae1与同维度医学文本向量表示sequence_output_vae2进行拼接操作，得到第一拼接医学文本向量表示sequence_output_concat。

在一些实施例中，所述向量第二处理模块，包括相似向量获取单元、原始向量获取单元和第二拼接单元；

所述相似向量获取单元，用于对所述第一拼接医学文本向量表示中的医学片段进行切片处理，获取相似起始位置向量信息，对所述相似起始位置向量信息对应的向量进行降维处理，根据相似起始位置向量信息的下标获取降维处理后对应的相似起始位置向量，对所述第一拼接医学文本向量表示中的医学片段进行切片处理，获取相似跨度向量信息，对所述相似跨度向量信息对应的向量进行降维处理，根据相似跨度向量信息的下标获取降维处理后对应的相似跨度向量，对所述第一拼接医学文本向量表示中的医学片段进行切片处理，获取相似结束位置向量信息，对所述相似结束位置向量信息对应的向量进行降维处理，根据相似结束位置向量信息的下标获取降维处理后对应的相似结束位置向量；

所述原始向量获取单元，用于对所述原始医学文本向量表示中的医学片段进行切片处理，获取原始起始位置向量信息，对所述原始起始位置向量信息对应的向量进行降维处理，根据原始起始位置向量信息的下标获取降维处理后对应的原始起始位置向量，对所述原始医学文本向量表示中的医学片段进行切片处理，获取原始跨度向量信息，对所述原始跨度向量信息对应的向量进行降维处理，根据原始跨度向量信息的下标获取降维处理后对应的原始跨度向量，对所述原始医学文本向量表示中的医学片段进行切片处理，获取原始结束位置向量信息，对所述原始结束位置向量信息对应的向量进行降维处理，根据原始结束位置向量信息的下标获取降维处理后对应的原始结束位置向量；

所述第二拼接单元，用于将获取的原始起始位置向量、原始跨度向量、原始结束位置向量与相似起始位置向量、相似跨度向量、相似结束位置向量按照对应的位置信息分别进行合并得到增强医学文本向量表示spans_embedding。

第三方面，本申请提出了一种计算机装置，计算机装置包括：

处理器，处理器用于执行存储器中存储的计算机程序时实现上述任一方法的步骤。

第四方面，本申请提出了一种计算机可读存储介质，其上存储有计算机指令，计算机指令被处理器执行时实现上述任一方法的步骤。

本发明的有益效果：

不需要人工标注进行额外的标注，减少人工标注量，降低人工成本，提高工作效率，通过生成算法生成相似的向量，从而达到数据增强的效果，提升各类训练模型的泛化性能，进一步提高康复医学诊断、方案制定或者辅助治疗的效率。

附图说明

图1为本发明的总体流程图。

图2为本发明的系统原理框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制；相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

第一方面本申请提出了基于医学命名实体识别的数据增强方法，如图1所示，包括以下步骤S100-S500：

S100：从院方提供的病案首页中获取医学元素数据，通过正则表达式从原始诊断病例数据中提取医学文本语料，对所述医学文本语料进行标注得到医学标注文本；

其中，数据来源：从院方提供的病案首页，通过正则，获取到诊断、检验、检查、手术等不同类型的数据。经过专业的医学标注人员进行标注，标注出需要的实体及其类型。

S200：将所述医学标注文本输入bert模型，获取原始医学文本向量表示，将所述原始医学文本向量进行同维度转换处理，得到相似医学文本向量表示；

其中，基于bert的模型架构，构建span（医学片段）以及span对应的类型，在bert模型后接入线性层实现对每一个span进行分类。

送入bert模型的向量包含了整个句子信息、每一个span起始位置信息、结束位置信息、跨度信息以及span的向量表示，如下表1所示：

表1

进一步的，从步骤S100和S200可知，3、主要是对原始文本句子实现增强的效果，即例子中的：慢性乙型病毒性肝炎。通过使用VAE算法，生成相似的向量表示：

VAE算法介绍：给定一个真实样本集X_k，假设存在一个专属X_k的正态分布p(Z|X_k)，正态分布有两组参数：均值μ和方差σ²，通过构建两个神经网络,，然后从这个正态分布中采样一个Z_k，

经过一个生成器，最小化的损失，最终得到与相似的，k表示样本数量；

VAE算法原理：VAE本质是一个生成式算法。生成式算法基本架构就是Encoder+Decoder，Encoder将输入X_k映射到隐空间，获得表征Z_k，Decoder将表征Z_k解码为原来的输入X_k。VAE算法是将表征Z_k加入了一个扰动变成了Z_k'，为了使增加的扰动对Z_k没有非常大的影响，经过以下几个步骤处理：

1、使用深度学习，将输入投影到某一隐空间 Latent Space的编码方式（也就是一个编码模型，称之为Encoder过程）。可获得所有输入的隐状态编码（Representation in Latent Space）

2、根据上述的隐状态编码，构建两个需要学习的层（μ，σ）。设置随机数epsilon，根据参数（μ，σ），可以随机获得一个新的扰动数据Z_k。重复多次，获得一个数据集（Z_k', '）；

3、训练神经网络，输入输出为（Z_k', '）。将扰动数据Z_k重新映射为原输入数据，称之为Decoder过程。

4、将Z_k经过预设的生成器，得到相似数据集/>，所述相似数据集为所述相似医学文本向量表示。

进一步的，代码表示步骤为：

# 文本经过bert模型后得到每一个字的向量表示

sequence_output=self.bert(input_ids=input_ids, token_type_ids=token_type_ids,attention_mask=attention_mask)

其中，sequence_output即为X_k；

input_ids为由字转化为数字的向量表示；

token_type_ids单句子任务可为None，主要是为了区分句子对使用；attention_mask单条文本输入时可为None，多条文本输入时以最长句子长度为准，实际句子长度部分为1，补齐的地方为0；

通过VAE算法代码，获取到，即sequence_output_vae1

S300：将所述原始医学文本向量表示与所述相似医学文本向量表示进行向量拼接得到待分析医学文本向量表示；

在一些实施例中，将所述原始医学文本向量表示与所述相似医学文本向量表示进行向量拼接得到待分析医学文本向量表示，包括：

其中，为了保证sequence_output_vae1中实体的信息没有被修改，将实体转换为与sequence_output_vae1相同维度的向量sequence_output_vae2后，将两个向量进行拼接操作，得到第一拼接医学文本向量表示sequence_output_concat.

S400：获取所述待分析医学文本向量表示的起始位置向量信息、跨度向量信息以及结束位置向量信息后，根据向量信息将对应的起始位置向量、跨度向量以及结束位置向量进行拼接，得到增强医学文本向量表示；

对所述第一拼接医学文本向量表示中的医学片段进行切片处理，获取相似起始位置向量信息，对所述相似起始位置向量信息对应的向量进行降维处理，根据相似起始位置向量信息的下标获取降维处理后对应的相似起始位置向量，其中，获取相似起始位置向量信息的代码表示为：

# 对spans切片获得spans start的向量，再进行降维

spans_start = spans[:, :, 0].view(spans.size(0), -1)

# 根据spans_start的下标获得对应的spans_start_embedding

spans_start_embedding=batched_index_select(sequence_output_concat,spans_start)

对所述第一拼接医学文本向量表示中的医学片段进行切片处理，获取相似跨度向量信息，对所述相似跨度向量信息对应的向量进行降维处理，根据相似跨度向量信息的下标获取降维处理后对应的相似跨度向量，其中，获取相似向量信息的代码表示为：

# 对spans切片获得spans width的向量，再进行降维

spans_width = spans[:, :, 2].view(spans.size(0), -1)

# 根据spans_width的下标获得对应的spans_width_embedding

spans_width_embedding = self.width_embedding(spans_width)

对所述第一拼接医学文本向量表示中的医学片段进行切片处理，获取相似结束位置向量信息，对所述相似结束位置向量信息对应的向量进行降维处理，根据相似结束位置向量信息的下标获取降维处理后对应的相似结束位置向量；其中，获取相似结束位置向量信息的代码表示为：

# 对spans切片获得spans end 的向量，再进行降维

spans_end = spans[:, :, 1].view(spans.size(0), -1)

# 根据spans_end的下标获得对应的spans_end_embedding

spans_start_embedding=batched_index_select(sequence_output_concat,spans_start)

其中，获取原始起始位置向量、原始跨度向量以及原始结束位置向量信息的获取代码与上述相似起始位置向量、相似跨度向量、相似结束位置向量的代码类似，将上述sequence_output_concat替换为sequence_output即可；

将获取的原始起始位置向量、原始跨度向量、原始结束位置向量与相似起始位置向量、相似跨度向量、相似结束位置向量按照对应的位置信息分别进行合并的代码表示为：

spans_embedding=torch.cat((spans_start_embedding,spans_end_embedding,spans_width_embedding), dim=-1)

进一步的，spans_embedding为最终的增强医学文本向量表示。

S500：将所述增强医学文本向量表示经过线性层按照医学片段类型进行分类，得到对应类别的增强医学片段数据，所述增强医学片段数据用于输入到下游神经网络中进行模型训练。

第二方面本申请提出基于医学命名实体识别的数据增强系统，如图2所示，包括文本获取模块、相似向量获取模块、向量第一处理模块、向量第二处理模块和数据输出模块；

所述向量第一处理模块，用于将所述原始医学文本向量表示与所述相似医学文本向量表示进行第一次向量拼接得到待分析医学文本向量表示，根据向量信息分别从所述待分析医学文本向量表示中获取所述原始医学文本向量表示和所述相似医学文本向量表示的对应向量；

所述向量第二处理模块，用于将所述原始医学文本向量表示和所述相似医学文本向量表示的对应向量进行第二次向量拼接，得到增强医学文本向量表示；

第四方面，本申请提出了一种计算机可读存储介质，其上存储有计算机指令，计算机指令被处理器执行时实现上述任一方法的步骤示例性地，计算机程序可以被分割成一个或多个模块/单元，一个或多个模块/单元被存储在存储器中，并由处理器执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机设备中的执行过程。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算机设备。计算机设备可以包括但不仅限于处理器和存储器。本领域技术人员可以理解，计算机设备可以包括更多或更少的部件，或者组合某些部件，或者不同的部件，例如，计算机设备还可以包括输入输出设备、网络接入设备、总线等。

处理器可以是中央处理单元（Central Processing Unit，CPU），也可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以是计算机设备的内部存储单元，例如，计算机设备的硬盘或内存。存储器也可以是计算机设备的外部存储设备，例如，计算机设备上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。进一步地，存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储计算机程序以及计算机设备所需的其它程序和数据。存储器还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上仅是本发明优选的实施方式，需指出的是，对于本领域技术人员在不脱离本技术方案的前提下，作出的若干变形和改进的技术方案应同样视为落入本权利要求书要求保护的范围。

Claims

1.基于医学命名实体识别的数据增强方法，其特征在于：包括以下步骤：

将所述医学标注文本输入bert模型，获取原始医学文本向量表示，将所述原始医学文本向量进行同维度转换处理，得到相似医学文本向量表示，其中，将所述医学标注文本输入bert模型后，得到所述原始医学文本向量表示，将所述原始医学文本向量表示设定为样本输入集X_k，k表示样本数量，所述样本输入集X_k包括专属的正态分布p(Z|X_k)，所述正态分布包括均值μ和方差σ²两组参数；

将所述中间样本集Z_k经过预设的生成器，得到相似数据集/>，所述相似数据集/>为所述相似医学文本向量表示；

将所述相似医学文本向量表示进行同维度转换得到同维度医学文本向量表示，将所述相似医学文本向量表示与所述同维度医学文本向量表示进行拼接处理得到第一拼接医学文本向量表示；

分别从所述原始医学文本向量表示和所述第一拼接医学文本向量表示中获取向量信息，根据向量信息获取所述原始医学文本向量表示和所述第一拼接医学文本向量表示的对应向量，将所述原始医学文本向量表示和所述第一拼接医学文本向量表示的对应向量进行向量合并，得到增强医学文本向量表示，其中，对所述第一拼接医学文本向量表示中的医学片段进行切片处理，获取相似起始位置向量信息，对所述相似起始位置向量信息对应的向量进行降维处理，根据相似起始位置向量信息的下标获取降维处理后对应的相似起始位置向量，对所述第一拼接医学文本向量表示中的医学片段进行切片处理，获取相似跨度向量信息，对所述相似跨度向量信息对应的向量进行降维处理，根据相似跨度向量信息的下标获取降维处理后对应的相似跨度向量，对所述第一拼接医学文本向量表示中的医学片段进行切片处理，获取相似结束位置向量信息，对所述相似结束位置向量信息对应的向量进行降维处理，根据相似结束位置向量信息的下标获取降维处理后对应的相似结束位置向量；

对所述原始医学文本向量表示中的医学片段进行切片处理，获取原始起始位置向量信息，对所述原始起始位置向量信息对应的向量进行降维处理，根据原始起始位置向量信息的下标获取降维处理后对应的原始起始位置向量，

对所述原始医学文本向量表示中的医学片段进行切片处理，获取原始跨度向量信息，对所述原始跨度向量信息对应的向量进行降维处理，根据原始跨度向量信息的下标获取降维处理后对应的原始跨度向量，对所述原始医学文本向量表示中的医学片段进行切片处理，获取原始结束位置向量信息，对所述原始结束位置向量信息对应的向量进行降维处理，根据原始结束位置向量信息的下标获取降维处理后对应的原始结束位置向量；

2.根据权利要求1所述的方法，其特征在于：所述将所述相似医学文本向量表示进行同维度转换得到同维度医学文本向量表示，将所述相似医学文本向量表示与所述同维度医学文本向量表示进行拼接处理得到第一拼接医学文本向量表示，包括：

3.基于医学命名实体识别的数据增强系统，其特征在于：包括文本获取模块、相似向量获取模块、向量第一处理模块、向量第二处理模块和数据输出模块；

所述相似向量获取模块，用于将所述医学标注文本输入bert模型，获取原始医学文本向量表示，将所述原始医学文本向量进行同维度转换处理，得到相似医学文本向量表示，所述相似向量获取模块包括样本构建单元、编码单元、采样单元和相似向量表示输出单元；

所述相似向量表示输出单元，用于将所述中间样本集Z_k经过预设的生成器，得到相似数据集/>，所述相似数据集/>为所述相似医学文本向量表示；

所述向量第一处理模块，用于将所述相似医学文本向量表示进行同维度转换得到同维度医学文本向量表示，将所述相似医学文本向量表示与所述同维度医学文本向量表示进行拼接处理得到第一拼接医学文本向量表示；

所述向量第二处理模块，用于分别从所述原始医学文本向量表示和所述第一拼接医学文本向量表示中获取向量信息，根据向量信息获取所述原始医学文本向量表示和所述第一拼接医学文本向量表示的对应向量，将所述原始医学文本向量表示和所述第一拼接医学文本向量表示的对应向量进行向量合并，得到增强医学文本向量表示，所述向量第二处理模块，包括相似向量获取单元、原始向量获取单元和第二拼接单元；

所述第二拼接单元，用于将获取的原始起始位置向量、原始跨度向量、原始结束位置向量与相似起始位置向量、相似跨度向量、相似结束位置向量按照对应的位置信息分别进行合并得到增强医学文本向量表示spans_embedding；

4.根据权利要求3所述的系统，其特征在于：所述向量第一处理模块包括相似向量表示表征单元、同维度向量转换单元和拼接单元；

所述相似向量表示表征单元，用于所述相似数据集对应的相似医学文本向量表示为sequence_output_vae1；

5.一种计算机装置，计算机装置包括：处理器，处理器用于执行存储器中存储的计算机程序时实现如权利要求1-2中任一方法所述的步骤。

6.一种计算机可读存储介质，其上存储有计算机指令，计算机指令被处理器执行时实现如权利要求1-2中任一方法所述的步骤。