CN113516196B

CN113516196B - 命名实体识别数据增强的方法、装置、电子设备和介质

Info

Publication number: CN113516196B
Application number: CN202110820558.4A
Authority: CN
Inventors: 单波; 罗杰; 魏文轩; 徐森; 何亮; 张勇
Original assignee: Xinjiang University; Unisound Intelligent Technology Co Ltd; State Grid Xinjiang Electric Power Co Ltd
Current assignee: Xinjiang University; Unisound Intelligent Technology Co Ltd; State Grid Xinjiang Electric Power Co Ltd
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2024-04-12
Anticipated expiration: 2041-07-20
Also published as: CN113516196A

Abstract

本发明涉及命名实体识别数据增强的方法、装置、电子设备和介质，该方法包括：获取第一数据集，将第一数据集进行扩充得到扩充数据集，将扩充数据集分为第一份扩充数据集和第二份扩充数据集；将第一份扩充数据集输入到BERT模型中得到句向量数据集；对句向量数据集聚类得到聚类结果；对聚类结果对抗训练确定簇数据集；使用GPT模型微调簇数据集得到第二数据集；使用第二数据集训练GPT模型得到预测模型；将第二份扩充数据集输入到预测模型中得到预测结果数据集；将预测结果数据集中的命名实体标签通配符替换为实体词典中的文字，确定第三数据集；将第三数据集与第一数据集合并得到最终的数据集。本申请实施例采用数据增强的方式可以减小所需要的数据量。

Description

命名实体识别数据增强的方法、装置、电子设备和介质

技术领域

本发明涉及命名实体识别数据技术领域，具体涉及一种命名实体识别数据增强的方法、装置、电子设备和介质。

背景技术

目前，命名实体识别任务难度较大，一般来讲，需要的数据量相对较大，才能能达到实际上线标准。在对命名实体识别任务的数据进行标注时，标注难度较大，成本比较高。现在技术在数据量较小的情况下，会出现指标较差的问题。

发明内容

本发明提供一种命名实体识别数据增强的方法、装置、电子设备和存储介质，能够解决上述技术问题。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明实施例提供了一种命名实体识别数据增强的方法，包括：

获取第一数据集，第一数据集包括：文字样本和文字样本对应的实体标签；

将第一数据集进行扩充得到扩充数据集，将扩充数据集分为第一份扩充数据集和第二份扩充数据集；

将第一份扩充数据集输入到预训练BERT模型中得到句向量数据集；

对句向量数据集进行聚类得到聚类结果；

对聚类结果进行对抗训练确定簇数据集；

使用预训练模型GPT微调簇数据集得到第二数据集；

使用第二数据集训练预训练模型GPT得到预测模型；

将第二份扩充数据集输入到预测模型中得到预测结果数据集；

将预测结果数据集中的命名实体标签通配符替换为实体词典中的文字，同时生成文字对应的实体标签，文字和实体标签组成第三数据集；

将第三数据集与第一数据集进行合并得到最终的数据集。

在一些实施例中，上述一种命名实体识别数据增强的方法中，将第一数据集进行扩充得到扩充数据集，包括：

确定第一数据集中的实体词典；

从第一数据集中抽取预设比例的数据集得到第四数据集，将实体词典中的实体词进行同类型替换到第四数据集中得到第五数据集，

合并第一数据集和第五数据集得到第六数据集；

将第六数据集中的实体词替换为标签得到扩充数据集；

将扩充数据集分为两份扩充数据集得到第一份扩充数据集和第二份扩充数据集。

在一些实施例中，上述一种命名实体识别数据增强的方法中，对聚类结果进行对抗训练确定簇数据集，包括：

步骤一：从聚类结果随机选取两个簇得到第一簇和第二簇；

步骤二：从第一簇中抽取第一样本数据，从第二簇中抽取第二样本数据；第一样本数据和第二样本数据组成样本对数据；

重复上述步骤一和步骤二直到数据量满足预定值得到簇数据集。

在一些实施例中，上述一种命名实体识别数据增强的方法中，使用预训练模型GPT微调簇数据集得到第二数据集，包括：

步骤一：获取簇数据集中的文字的字向量从而得到字向量数据集；

步骤二：对字向量数据集以此进行前向计算、损失计算、梯度计算得到变换后的字向量数据集；

重复上述步骤一和步骤二直到簇数据集中的每一条数据都进行了步骤一和步骤二得到第二数据集。

在一些实施例中，上述一种命名实体识别数据增强的方法中，对句向量数据集进行聚类得到聚类结果，包括：

使用kmeans算法对于句向量数据集中的数据进行聚类。

在一些实施例中，上述一种命名实体识别数据增强的方法中，获取簇数据集中的文字的字向量，包括：

通过预训练模型GPT的embedding模块获取得到文字的字向量。

在一些实施例中，上述一种命名实体识别数据增强的方法中，将第一份扩充数据集输入到预训练BERT模型中得到句向量数据集，包括：

通过预训练BERT模型的参数和前向计算确定句向量数据集。

第二方面，本发明实施例提供了一种命名实体识别数据增强的装置，包括：

获取模块：用于获取第一数据集，第一数据集包括：文字样本和文字样本对应的实体标签；

扩充模块：用于将第一数据集进行扩充得到扩充数据集，将扩充数据集分为第一份扩充数据集和第二份扩充数据集；

第一输入模块：用于将第一份扩充数据集输入到预训练BERT模型中得到句向量数据集；

聚类模块：用于对句向量数据集进行聚类得到聚类结果；

确定模块：用于对聚类结果进行对抗训练确定簇数据集；

微调模块：用于使用预训练模型GPT微调簇数据集得到第二数据集；

训练模块：用于使用第二数据集训练GPT模型得到预测模型；

第二输入模块：将第二份扩充数据集输入到预测模型中得到预测结果数据集；

替换模块：用于将预测结果数据集中的命名实体标签通配符替换为实体词典中的文字，同时生成文字对应的实体标签，文字和实体标签组成第三数据集；

合并模块：用于将第三数据集与第一数据集进行合并得到最终的数据集。

第三方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如上所述任一项所述一种命名实体识别数据增强的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如上所述任一项所述一种命名实体识别数据增强的方法。

本发明的有益效果是：获取第一数据集，将第一数据集进行扩充得到扩充数据集，将扩充数据集分为第一份扩充数据集和第二份扩充数据集；将第一份扩充数据集输入到BERT模型中得到句向量数据集；对句向量数据集聚类得到聚类结果；对聚类结果对抗训练确定簇数据集；使用GPT模型微调簇数据集得到第二数据集；使用第二数据集训练GPT模型得到预测模型；将第二份扩充数据集输入到预测模型中得到预测结果数据集；将预测结果数据集中的命名实体标签通配符替换为实体词典中的文字，确定第三数据集；将第三数据集与第一数据集合并得到最终的数据集。本申请实施例采用数据增强的方式可以减小所需要的数据量。

附图说明

图1为本发明实施例提供的一种命名实体识别数据增强的方法图一；

图2为本发明实施例提供的一种命名实体识别数据增强的方法图二；

图3为本发明实施例提供的一种命名实体识别数据增强装置图；

图4为本发明实施例提供的一种电子设备的示意性框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开，而非对本申请的限定。基于所描述的本申请的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

图1为本发明实施例提供的一种命名实体识别数据增强的方法图一。

S101：获取第一数据集，第一数据集包括：文字样本和文字样本对应的实体标签；

具体的，本申请实施例中，第一数据集是标注好的数据集其中X_i表示一条文字样本，Y_i表示X_i样本对应的实体标签，/>分别表示一个字，与这个字对应的实体标签。

S102：将第一数据集进行扩充得到扩充数据集，将扩充数据集分为第一份扩充数据集和第二份扩充数据集；

具体的，本申请实施例中，将第一数据集DATA进行扩充得到扩充数据集DATA_replace的步骤下文将结合步骤S201到S205详细介绍，将扩充数据集DATA_replace，均分为两份数据集得到第一份扩充数据集DATA_sub1和第二份扩充数据集DATA_sub2。

S103：将第一份扩充数据集输入到预训练BERT模型中得到句向量数据集；

具体的，本申请实施例中，将第一份扩充数据集DATA_sub1中的数据作为预训练BERT模型的输入，输出扩充数据集DATA_sub1中每一条数据的句向量的表示，得到句向量数据集DATA_vec。

S104：对句向量数据集进行聚类得到聚类结果；

具体的，本申请实施例中，输入是句向量数据集DATA_vec，得到聚类结果簇划分C_kmeans＝{C₁,C₂,...C_k}，通过聚类方法使得表达相同的句式聚类为一个簇，不同簇之间的表达差别较大。

S105：对聚类结果进行对抗训练确定簇数据集；

具体的，本申请实施例中，对聚类结果进行对抗训练让不同簇之间的数据组成句对确定簇数据集DATA_cluster。

S106：使用预训练模型GPT微调簇数据集得到第二数据集；

具体的，本申请实施例中，使用预训练模型GPT微调簇数据集DATA_cluster得到第二数据集DATA_adv。

S107：使用第二数据集训练预训练模型GPT得到预测模型；

具体的，本申请实施例中，使用第二数据集DATA_adv训练预训练模型GPT得到预测模型model.

S108：将第二份扩充数据集输入到预测模型中得到预测结果数据集；

具体的，本申请实施例中，第二份扩充数据集DATA_sub2中数据作为输入，使用模型model进行预测，得到的预测结果数据集

S109：将预测结果数据集中的命名实体标签通配符替换为实体词典中的文字，同时生成文字对应的实体标签，文字和实体标签组成第三数据集；

具体的，本申请实施例中对于预测结果数据集DATA_pred中的每一条数据进行替换操作，因为训练数据中，出现了大量的命名实体标签通配符，因此生成的Y_pred中的通配符根据词典Dict替换为文字，同时通过规则生成标签。比如。Y_pred＝(我想去<city>)，假如词典Dict中city命名实体的内容包括了上海，深圳等，则将Y_pred＝(我想去<city>)，替换为(X_gen＝[我想去上海]，Y_gen＝[O O O B-CITY I-CITY]，得到第三数据集DATA_gen。

S110：将第三数据集与第一数据集进行合并得到最终的数据集。

具体的，本申请实施例中，将第三数据集DATA_gen和第一数据集DATA合并得到最终的数据集。

本申请通过聚类方法使得表达相同的句式聚类为一个簇，不同簇之间的表达差别较大，再让不同簇之间的数据组成句对，作为生成模型的训练数据，同时使用了生成式预训练模型GPT，并且在训练的过程是使用了对抗训练的方式。这样可以保证生成模型的生成结果与输入数据的差异性较大，极大的保证了扩充数据的多样性，保证了生成数据的质量，得到了生成高质量扩充数据的目的。

S201：确定第一数据集中的实体词典；

S202：从第一数据集中抽取预设比例的数据集得到第四数据集，将实体词典中的实体词进行同类型替换到第四数据集中得到第五数据集，

S203：合并第一数据集和第五数据集得到第六数据集；

S204：将第六数据集中的实体词替换为标签得到扩充数据集；

S205：将扩充数据集分为两份扩充数据集得到第一份扩充数据集和第二份扩充数据集。

具体的，本申请实施例中，整理第一数据集DATA中出现的实体词典Dict，随机从第一数据集DATA抽取预设比例如15％的数据得到第四数据集，对于第四数据集中的样本(X_i,Y_i)中的标签不为“O”的实体根据实体词典进行同类型实体词的随机替换得到第五数据集，并将第五数据集合并到第一数据集DATA中，将第一数据集DATA中的数据每一条数据(X_i,Y_i)进行转换：将其中有标签的原始文字替换为标签。比如X＝[我要去北京],Y＝[O O O B-CITY I-CITY],将X替换为X^new＝[我要去<CITY>]，替换后得到的X^new组成扩充数据集DATA_replace。

步骤一：从聚类结果随机选取两个簇得到第一簇和第二簇；

具体的，本申请实施例从聚类结果C_kmeans随机选取两个簇C_i,C_j，从C_i,C_j中分别随机抽取一个样本的数据得到样本对数据重复上述步骤,直到数据量满足预定值,根据第一数据集规模大小而定，一般为第一数据集大小的2-4倍，得到簇数据集DATA_cluster。

具体的，本申请实施例针对DATA_cluster中的每一条数据(X_i,Y_i)，通过GPT模型的embedding模块获取得到X_i的文字的字向量

其中，embedding_table表示通过GPT模型的embedding模块得到字向量得到字向量数据集/>

针对字向量数据集使用GPT模型进行前向计算得到结果/>

其中，θ_gpt为GPT模型的参数；

该公式表示针对输入数据以及对应的预测结果/>求得的损失loss。

该公式表示loss对输入数据求导求得到的梯度；

其中，ε为0-1之间的一个参数，sign(grad)函数为求符号函数。当grad大于0时，sign(grad)＝1；当grad小于0时，sign(grad)＝-1。得到变换后的得到变换后的字向量数据集/>

重复上述步骤，直到簇数据集DATA_cluster中的每一条数据都进行了上述步骤。得到第二数据集

使用kmeans算法对于句向量数据集中的数据进行聚类。

具体的，本申请实施例中输入句向量数据集DATA_vec，输出簇划分C_kmeans＝{C₁,C₂,...C_k}，聚类的结果输出中，只包含了文字样本，不包含句向量，聚类簇个数为根据经验灵活设置。

通过预训练模型GPT的embedding模块获取得到文字的字向量。

具体的，本申请实施例通过预训练模型GPT的embedding模块获取得到X_i的中文字的字向量

通过预训练BERT模型的参数和前向计算确定句向量数据集。

具体的，本申请实施例中将第一份扩充数据集DATA_sub1中的数据作为输入，使用预训练BERT模型得到每一条数据的句向量的表示，

θ为BERT模型的参数，表示对于样本/>通过前向计算，得到输出，即句向量vec_i，得到句向量数据集DATA_vec，即

图3为本发明实施例提供的一种命名实体识别数据增强装置图。

第二方面，结合图3，本发明实施例提供了一种命名实体识别数据增强的装置，包括：

获取模块301：用于获取第一数据集，第一数据集包括：文字样本和文字样本对应的实体标签；

具体的，本申请实施例中，获取模块301获取第一数据集，第一数据集是标注好的数据集其中X_i表示一条文字样本，Y_i表示X_i样本对应的实体标签，/>分别表示一个字，与这个字对应的实体标签。

扩充模块302：用于将第一数据集进行扩充得到扩充数据集，将扩充数据集分为第一份扩充数据集和第二份扩充数据集；

具体的，本申请实施例中，扩充模块302将第一数据集DATA进行扩充得到扩充数据集DATA_replace，将扩充数据集DATA_replace均分为两份数据集得到第一份扩充数据集DATA_sub1和第二份扩充数据集DATA_sub2。

第一输入模块303：用于将第一份扩充数据集输入到预训练BERT模型中得到句向量数据集；

具体的，本申请实施例中，第一输入模块303将第一份扩充数据集DATA_sub1中的数据作为预训练BERT模型的输入，输出扩充数据集DATA_sub1中每一条数据的句向量的表示，得到句向量数据集DATA_vec。

聚类模块304：用于对句向量数据集进行聚类得到聚类结果；

具体的，本申请实施例中，聚类模块304输入是句向量数据集DATA_vec，得到聚类结果簇划分C_kmeans＝{C₁,C₂,...C_k}，通过聚类方法使得表达相同的句式聚类为一个簇，不同簇之间的表达差别较大。

确定模块305：用于对聚类结果进行对抗训练确定簇数据集；

具体的，本申请实施例中，确定模块305对聚类结果进行对抗训练让不同簇之间的数据组成句对确定簇数据集DATA_cluster。

微调模块306：用于使用预训练模型GPT微调簇数据集得到第二数据集；

具体的，本申请实施例中，微调模块306使用预训练模型GPT微调簇数据集DATA_cluster得到第二数据集DATA_adv。

训练模块307：用于使用第二数据集训练GPT模型得到预测模型；

具体的，本申请实施例中，训练模块307使用第二数据集DATA_adv训练预训练模型GPT得到预测模型model。

第二输入模块308：将第二份扩充数据集输入到预测模型中得到预测结果数据集；

具体的，本申请实施例中，第二输入模块308将第二份扩充数据集DATA_sub2中数据作为输入，使用模型model进行预测，得到的预测结果数据集

替换模块309：用于将预测结果数据集中的命名实体标签通配符替换为实体词典中的文字，同时生成文字对应的实体标签，文字和实体标签组成第三数据集；

具体的，本申请实施例中替换模块309将预测结果数据集DATA_pred中的每一条数据进行替换操作，因为训练数据中，出现了大量的命名实体标签通配符，因此生成的Y_pred中的通配符根据词典Dict替换为文字，同时通过规则生成标签。比如：Y_pred＝(我想去<city>)，假如词典Dict中city命名实体的内容包括了上海，深圳等，则将Y_pred＝(我想去<city>)，替换为(X_gen＝[我想去上海]，Y_gen＝[O O O B-CITY I-CITY]，得到第三数据集DATA_gen。

合并模块310：用于将第三数据集与第一数据集进行合并得到最终的数据集。

具体的，本申请实施例中，合并模块310将第三数据集DATA_gen和第一数据集DATA合并得到最终的数据集。

图4是本公开实施例提供的一种电子设备的示意性框图。

如图4所示，电子设备包括：至少一个处理器401、至少一个存储器402和至少一个通信接口403。电子设备中的各个组件通过总线系统404耦合在一起。通信接口403，用于与外部设备之间的信息传输。可理解，总线系统404用于实现这些组件之间的连接通信。总线系统304除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图4中将各种总线都标为总线系统404。

可以理解，本实施例中的存储器402可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器402存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本申请实施例提供的一种命名实体识别数据增强的方法中任一方法的程序可以包含在应用程序中。

在本申请实施例中，处理器401通过调用存储器402存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器401用于执行本申请实施例提供的一种命名实体识别数据增强的方法各实施例的步骤。

对句向量数据集进行聚类得到聚类结果；

对聚类结果进行对抗训练确定簇数据集；

使用预训练模型GPT微调簇数据集得到第二数据集；

使用第二数据集训练预训练模型GPT得到预测模型；

将第三数据集与第一数据集进行合并得到最终的数据集。

本申请实施例提供的一种命名实体识别数据增强的方法中任一方法可以应用于处理器401中，或者由处理器401实现。处理器401可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例提供的一种命名实体识别数据增强的方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器402，处理器401读取存储器402中的信息，结合其硬件完成一种命名实体识别数据增强的方法的步骤。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本申请的实施方式，但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种命名实体识别数据增强的方法，其特征在于，包括：

获取第一数据集，所述第一数据集包括：文字样本和文字样本对应的实体标签；

将所述第一数据集进行扩充得到扩充数据集，将所述扩充数据集均分为第一份扩充数据集和第二份扩充数据集；

将所述第一份扩充数据集输入到预训练BERT模型中得到句向量数据集；

对所述句向量数据集进行聚类得到聚类结果；

对所述聚类结果进行对抗训练确定簇数据集；

使用预训练GPT模型微调所述簇数据集得到第二数据集；

使用所述第二数据集训练预训练GPT模型得到预测模型；

将所述第二份扩充数据集输入到所述预测模型中得到预测结果数据集；

将所述预测结果数据集中的实体标签通配符替换为实体词典中的文字，同时生成替换后的文字对应的实体标签，所述替换后的文字和替换后的文字对应的实体标签组成第三数据集；

将所述第三数据集与所述第一数据集进行合并得到最终的数据集；

其中，所述将所述第一数据集进行扩充得到扩充数据集，包括：

确定所述第一数据集中的实体词典；

从所述第一数据集中抽取预设比例的数据集得到第四数据集，将所述实体词典中的实体词进行同类型替换到所述第四数据集中得到第五数据集，

合并所述第一数据集和所述第五数据集得到第六数据集；

将所述第六数据集中的实体词替换为实体标签得到扩充数据集；

将所述扩充数据集分为两份扩充数据集得到第一份扩充数据集和第二份扩充数据集。

2.根据权利要求1所述的一种命名实体识别数据增强的方法，其特征在于，所述对所述聚类结果进行对抗训练确定簇数据集，包括：

步骤S1：从所述聚类结果随机选取两个簇得到第一簇和第二簇；

步骤S2：从所述第一簇中抽取第一样本数据，从所述第二簇中抽取第二样本数据；所述第一样本数据和第二样本数据组成样本对数据；

重复上述步骤S1和步骤S2直到数据量满足预定值得到簇数据集。

3.根据权利要求1所述的一种命名实体识别数据增强的方法，其特征在于，所述使用预训练GPT模型微调所述簇数据集得到第二数据集，包括：

步骤A1：获取所述簇数据集中的文字的字向量从而得到字向量数据集；

步骤A2：对所述字向量数据集以此进行前向计算、损失计算、梯度计算得到变换后的字向量数据集；

重复上述步骤A1和步骤A2直到所述簇数据集中的每一条数据都进行了所述步骤A1和所述步骤A2得到第二数据集。

4.根据权利要求1所述的一种命名实体识别数据增强的方法，其特征在于，所述对所述句向量数据集进行聚类得到聚类结果，包括：

使用kmeans算法对于所述句向量数据集中的数据进行聚类。

5.根据权利要求3所述的一种命名实体识别数据增强的方法，其特征在于，所述获取所述簇数据集中的文字的字向量，包括：

通过所述预训练GPT模型的embedding模块获取得到文字的字向量。

6.根据权利要求1所述的一种命名实体识别数据增强的方法，其特征在于，将所述第一份扩充数据集输入到预训练BERT模型中得到句向量数据集，包括：

通过所述预训练BERT模型的参数进行前向计算确定句向量数据集。

7.一种命名实体识别数据增强的装置，其特征在于，包括：

获取模块：用于获取第一数据集，所述第一数据集包括：文字样本和文字样本对应的实体标签；

扩充模块：用于将所述第一数据集进行扩充得到扩充数据集，将所述扩充数据集均分为第一份扩充数据集和第二份扩充数据集；

第一输入模块：用于将所述第一份扩充数据集输入到预训练BERT模型中得到句向量数据集；

聚类模块：用于对所述句向量数据集进行聚类得到聚类结果；

确定模块：用于对所述聚类结果进行对抗训练确定簇数据集；

微调模块：用于使用预训练GPT模型微调所述簇数据集得到第二数据集；

训练模块：用于使用所述第二数据集训练预训练GPT模型得到预测模型；

第二输入模块：将所述第二份扩充数据集输入到所述预测模型中得到预测结果数据集；

替换模块：用于将所述预测结果数据集中的实体标签通配符替换为实体词典中的文字，同时生成替换后的文字对应的实体标签，所述文字和替换后的文字对应的实体标签组成第三数据集；

合并模块：用于将所述第三数据集与所述第一数据集进行合并得到最终的数据集；

确定所述第一数据集中的实体词典；

合并所述第一数据集和所述第五数据集得到第六数据集；

8.一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至6任一项所述一种命名实体识别数据增强的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至6任一项所述一种命名实体识别数据增强的方法。