CN113792551A

CN113792551A - 一种基于混合式迁移学习的命名实体识别方法

Info

Publication number: CN113792551A
Application number: CN202110915830.7A
Authority: CN
Inventors: 余肖生; 张合欢; 沈胜
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-12-14

Abstract

本发明公开了一种基于混合式迁移学习的命名实体识别方法，包括以下步骤：(1)数据预处理；(2)实例迁移；(3)模型预训练：使用源域数据集不断训练BiLSTM‑CRF模型，选取性能最好的参数并保留；(4)模型迁移。该基于混合式迁移学习的命名实体识别方法混合了样本迁移和模型迁移，以解决中文命名实体识别领域样本不足的问题，同时使用最大均值差异构建适应层以解决数据分布不一致的问题，实验过程中通过动态的选择超参数能够在一定程度上降低算法的负迁移现象。

Description

一种基于混合式迁移学习的命名实体识别方法

技术领域

本发明涉及命名实体识别技术领域，具体为一种基于混合式迁移学习的命名实体识别方法。

背景技术

随着深度学习成为机器学习的新领域，不少学者尝试使用深度学习技术来解决命名实体识别问题。尽管基于深度学习的命名实体识别方法取得了较好的效果，但是在实际应用中，获取足够的训练数据是非常困难的，训练数据的匮乏会导致深度学习的学习效果不佳。

而迁移学习能够将已经学习过的知识迁移并引用到新的问题中，目的是利用已经在大量数据中学好的知识来提高目标任务的性能，其已成为解决数据集规模较小这一问题的重要方法。传统的迁移学习方法分为基于实例的迁移学习、基于特征的迁移学习和基于模型的迁移学习等三类，常用于解决样本数量过少导致模型在训练过程中出现过拟合的现象。

但是在一定程度上会出现负迁移现象，还不能很好地适应文本域的变化，并且会出现数据集中训练集和测试集分布不一致的问题。

发明内容

本发明的目的在于提供一种基于混合式迁移学习的命名实体识别方法，以解决因训练数据的匮乏导致深度学习的学习效果不佳的问题，利用传统的迁移学习在一定程度上会出现负迁移现象，还不能很好地适应文本域的变化，并且会出现数据集中训练集和测试集分布不一致的问题。

为实现上述目的，本发明提供如下技术方案：一种基于混合式迁移学习的命名实体识别方法，包括以下步骤：

(1)数据预处理

获取源域数据集

与目标域数据集

(m，n分别表示源域数据集和目标域数据集的样例数，m>n)，获取数据集后进行清洗、整理，使用jieba对文本进行分词，用word2vec将每个样本转换成词向量样本。

(2)实例迁移

针对每一个目标域数据集样本

，计算

与源域数据集中所有样本在不同度量下的相似度距离D∈R^n×m×j(j为选取的相似度距离度量方法种类)，通过数据引力计算得到最终权重值P∈R^n×m×j，权值按降序排列后，由最佳迁移数来确定k个最相似的样本，即最终的迁移样本T_k，将其迁移至目标域数据集中得到扩充的目标域数据集T_trans＝T∪T_k。

(3)模型预训练

使用源域数据集多次训练BiLSTM-CRF模型，选取性能最好的参数W并保留。

(4)模型迁移

构建新的BiLSTM-CRF模型，用预训练模型保留的参数W做参数初始化；用扩充后的目标域数据集T_trans训练新的Bi-LSTM-CRF模型，通过损失函数迭代优化模型，W参与网络模型的更新迭代，并不断调整超参数。

进一步的，所述步骤(1)中，向量样本的向量维度选取100。

与现有技术相比，本发明的有益效果是：

1、本发明通过在BiLSTM-CRF模型中引入两种迁移学习方式：实例迁移和模型迁移，解决命名实体识别领域中深度学习方法因训练数据匮乏导致的效果不佳的问题；

MT-NER方法的实例迁移部分中，通过计算源域样本相对于目标域样本的相似度来权衡样本之间的权值大小，权值按降序排列后，由最佳迁移数来确定k个最相似的样本，即最终的迁移样本。

MT-NER算法的模型迁移部分中，首先利用大规模的源域样本来训练BiLSTM-CRF模型，得到性能较优的预训练模型，保存其参数特征，然后使用经过实例迁移扩充后的新目标域数据作为训练数据，利用预训练模型的参数初始化新的BiLSTM-CRF模型，采用finetune技术调整参数，并在损失函数中引入数据分布自适应项。

MT-NER算法混合两种迁移学习，能够更好地将源域中学习到的知识迁移至目标域中，实例迁移中最佳迁移数的设定能够动态地得到迁移效果的反馈，可以防止一定程度的负迁移现象；模型迁移中使用了finetune技术，能够帮助模型适应文本域的变化，并且数据分布自适应的设定能够解决数据集中训练集和测试集分布不一致的问题。

2、混合了样本迁移和模型迁移，以解决中文命名实体识别领域样本不足的问题，同时使用最大均值差异构建适应层以解决数据分布不一致的问题，实验过程中通过动态的选择超参数能够在一定程度上降低算法的负迁移现象。

附图说明

图1为本发明方法流程示意图；

图2为本发明BiLSTM-CRF框架图。

具体实施方式

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明提供一种技术方案：一种基于混合式迁移学习的命名实体识别方法，包括以下步骤：