CN111597810A

CN111597810A - 一种半监督解耦的命名实体识别方法

Info

Publication number: CN111597810A
Application number: CN202010286176.3A
Authority: CN
Inventors: 郝志峰; 吕迪; 温雯; 蔡瑞初; 陈炳丰; 李梓健
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-08-28
Anticipated expiration: 2040-04-13
Also published as: CN111597810B

Abstract

本发明公开了一种半监督解耦的命名实体识别方法，利用语法特征编码器及语义特征编码器来提取句子的语法特征信息以及语义结构特征信息；为确保语法和语义结构特征信息的有效性，增设句子信息解码器，利用提取出来的语法和语义结构特征信息重新解码出句子。并通过第一互信息计算器最小化语法和语义之间的互信息，使得两个特征编码器提取的信息交集部分越来越少；同时为防止信息都偏向于其中的语法特征提取器或者语义特征编码器而导致另一个特征编码器提取出来的信息为无效信息，分别利用最大化语法和句子信息解码器之间的互信息和最大化语义和句子信息编码器之间的互信息，以此有效提高命名实体识别模型的性能，提高命名实体的识别准确度。

Description

一种半监督解耦的命名实体识别方法

技术领域

本发明涉及数据挖掘、深度学习和神经网络技术领域，尤其涉及一种半监督解耦的命名实体识别方法。

背景技术

近年来，随着深度学习技术的迅速发展，深度学习在各行业都有许多给人们提供许多便利的应用，例如高铁站的人脸识别自动过闸机，车牌检测系统等。命名实体识别是自然语言处理的一个基础服务，其目的是识别句子中的人名、地名、组织机构等各种实体。由于这些命名实体数量不断增加，通常不可能在词典中穷尽列出，且其构成方法具有各自的一些规律性，因而，通常把对这些词的识别从词汇形态处理(如汉语切分)任务中独立处理，称为命名实体识别。在如今许多自然语言处理的人工智能应用中，命名实体识别是所有涉及自然语言处理领域工作必须首选攻克的难题。因为命名实体识别是从句子中提取对人们有用的信息，通过提取有效的关键词，才能更好应用于其他上层任务。例如智能客服，它必须识别出有效信息，方可作出符合人们期望的应答。目前在命名实体识别领域中，深度学习技术在其上面的表现尤其优秀，深度学习技术利用神经网络通过大量的标签数据充分拟合数据分布情况，可以有效提取句子的特征信息，避免花费大量时间在人工提取特征等类似的特征工程上，但是深度学习想要充分拟合数据，则需要大量的标签数据，在现实生活中，如果需要给数据打标签，不但效率低下并且需要浪费许多时间以及金钱。因此我们可以利用迁移学习，通过先在标签数据量较大的数据集上训练模型，然后通过迁移方法把学习到的“知识”迁移到标签数据量少的数据集上，从而达到就算标签数据量少的情况下我们的模型算法也能有较好的性能。

迁移学习一直是深度学习领域的一个难题，近年来在计算机视觉方面有很多关于迁移学习的工作，但是在序列数据上的迁移学习相关工作却很少，因为序列数据上进行迁移所遇到的困难和挑战对比于在图片数据上进行迁移来说会更加大，这导致了文本序列上迁移的工作很少。因此如何利用迁移源数据的规律去预测迁移目标数据中的实体，建立一个任务是命名实体识别的文本序列数据迁移模型具有重要的意义。

发明内容

本发明为解决现有的命名实体识别方法在标签数据不大的情况下，其识别效果较差的问题，提供了一种半监督解耦的命名实体识别方法。

为实现以上发明目的，而采用的技术手段是：

一种半监督解耦的命名实体识别方法，包括以下步骤：

S1.获取迁移源文本数据集及迁移目标文本数据集，并对其进行预处理；

S2.构建任务为命名实体识别的文本序列数据迁移模型；

S3.对所述文本序列数据迁移模型进行训练及测试；

S4.利用训练好的文本序列数据迁移模型进行命名实体识别。

优选的，步骤S1所述的预处理步骤具体包括：

S11.将所述迁移源文本数据集和迁移目标文本数据集中的所有句子中的单词转化为小写字母，并根据单词的出现次数由高到低进行排序，剔除出现频率最高的前N位，N为正整数，剩下的单词作为词典，即得到单词字典；

S12.划分具体的迁移方向，以迁移方向为单位，把迁移源文本数据和迁移目标文本数据两两配对，建立字符字典；

S13.建立迁移源文本数据集、迁移目标文本数据集对应的标签字典，并将对应的标签转化为标签字典上的索引号；

S14.把迁移源文本数据集和迁移目标文本数据集的所有句子中的单词转化为单词字典中的索引号，并且把每个句子长度都填充为一样的长度，即得到单词级输入；

S15.把迁移源文本数据集和迁移目标文本数据集的所有句子中的单词所对应的字符转化为字符字典的索引号，并将每个单词都填充为一样的单词长度，再将句子填充为一样的长度，即得到字符级输入。

优选的，所述步骤S1还包括将迁移源文本数据集划分为迁移源训练集、迁移源测试集，将迁移目标文本数据集划分为迁移目标训练集、迁移目标测试集。

优选的，步骤S2所述的文本序列数据迁移模型具体包括迁移源域和迁移目标域共享的语法特征编码器、迁移源域和迁移目标域共享的语义特征编码器、句子信息解码器、第一互信息计算器、第二互信息计算器、第三互信息计算器、标签分类器、领域判别器及特征输入器；其中：

特征输入器的输入为预处理得到的单词级数据及字符级数据，其通过一卷积神经网络将字符级数据提取得到字符级特征信息，随后将字符级特征信息及单词级特征信息拼接在一起，得到句子初始特征信息并输出；语法特征编码器的输入为句子初始特征信息，用于提取其语法特征信息；语义特征编码器的输入为句子初始特征信息，用于提取其语义结构特征信息；句子信息解码器的输入为语法特征信息及语义结构特征信息，基于所述语法特征信息及语义结构特征信息解码得到句子特征信息；领域判别器的输入为语义结构特征信息；第一互信息计算器的输入为语法特征信息与语义结构特征信息，用于计算语法特征信息与语义结构特征信息之间的最小互信息；第二互信息计算器的输入为语法特征信息与句子特征信息，用于计算语法特征信息与句子特征信息之间的最大互信息；第三互信息计算器的输入为语义结构特征信息与句子特征信息，用于计算语义结构特征信息与句子特征信息之间的最大互信息；标签分类器的输入为语法特征信息以及语义结构特征信息，基于所述语法特征信息以及语义结构特征信息得到命名实体识别的具体标签。

优选的，所述语法特征编码器及语义特征编码器采用维度为100维的长短时记忆神经网络；句子信息解码器采用全连接神经网络；领域判别器采用两层全连接神经网络，第一层为150维，第二层为100维，标签分类器采用CRF分类器，第一～三互信息计算器采用互信息神经网络计算器。

优选的，步骤S3中对所述文本序列数据迁移模型进行训练的具体步骤包括：

S31.将迁移源训练集和迁移目标训练集打乱；

S32.将特征提取部分所对应的神经网络的参数固定不动，分别从迁移源训练集和迁移目标训练集中取出一批训练数据，批量大小均为B，输入到第一互信息计算器～第三互信息计算器中进行训练；所述特征提取部分包括语法特征编码器、语义特征编码器、句子信息解码器；

S33.所述第一互信息计算器～第三互信息计算器的参数固定不动，分别从迁移源训练集和迁移目标训练集中取出一批数据，批量大小均为B，输入到所述文本序列数据迁移模型中，训练所述特征提取部分；其中的标签判别器输出整个句子每个单词的标签预测值序列y_{label_pre}，领域判别器输出一个预测值y_{domain_pre}，y_{label_pre}是一个B×L×C的张量，y_{domain_pre}是一个B×1的张量；其中B为批次大样本数量，L为句子长度，C是命名实体识别任务的标签数量；第一互信息计算器～第三互信息计算器计算输出的互信息分别为mi_{stru_syn}、mi_{stru_decoder}、mi_{syn_decoder}，句子信息解码器输出句子中每个单词的词嵌入矩阵的信息y_{info_decoder}，y_{info_decoder}是一个B×L×D的张量，其中D为词嵌入矩阵的维度；根据以上输出结果计算如下损失值：

标签分类器的损失值计算：

z为输入的句子，Y(z)为句子序列标签预测的所有结果集合，ψ为计算CRF的函数；

领域判别器的损失值计算：

句子信息解码器的损失值计算

总的损失函数为：

total_loss＝loss_label+λ·loss_decoder+β·loss_domain+ω·(mi_{stru_syn}-mi_{stru_decoder}-mi_{syn_decoder})

其中λ、β、ω是一个用作调整的超参数；

S34.计算出总的损失值后就算梯度利用梯度反向传播算法更新模型参数；

S35.重复步骤S31～S34直至所述文本序列数据迁移模型收敛，收敛的标准是模型总的损失值基本不变。

优选的，步骤S3中对所述文本序列数据迁移模型进行测试的具体步骤包括：

将迁移目标测试集全部输入到所述文本序列数据迁移模型，得到预测结果，将预测结果和标注结果进行比较，并计算其衡量指标F1Score。

与现有技术相比，本发明技术方案的有益效果是：

本发明的半监督解耦的命名实体识别方法，通过互信息和神经网络来提取不同数据集之间的不同标签实体所对应的语法和语义结构特征信息，从而提升模型的迁移效果，具体是利用语法特征编码器及语义特征编码器来提取句子的语法特征信息以及语义结构特征信息；为确保语法和语义结构特征信息的有效性，通过增加一个句子信息解码器，利用提取出来的语法和语义结构特征信息重新解码出句子。由于语法和语义结构信息从同一个特征空间提取出来，为了解耦这两个特征信息，通过第一互信息计算器最小化语法和语义之间的互信息，使得两个特征编码器提取的信息交集部分越来越少；同时为了防止信息都偏向于其中的语法特征提取器或者语义特征编码器而导致另一个特征编码器提取出来的信息为无效信息，分别利用第二、第三互信息计算器最大化语法和句子信息解码器之间的互信息和最大化语义和句子信息编码器之间的互信息，以此有效提高命名实体识别模型的性能，提高命名实体的识别准确度。

附图说明

图1为本发明的流程示意图。

图2为本发明的模型结构图。

图3为实施例中不同的数据集句子所代表的语法树图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

本实施例提供了一种半监督解耦的命名实体识别方法。

由于不同命名实体识别的数据集中存在一些不同的标签，因此不能简单的套用目前现有的迁移方法，例如在图片上进行迁移的方法能参考借鉴，而不能完全照用。一般来数据较多的数据集为迁移源数据集，数据量较少的数据集为迁移目标数据集。通过观察多个不同的迁移源数据集和迁移目标数据集，可以发现这些不同数据集之间的标签数据存在的一定的规律，即不同标签实体之间的语法子结构是一致的，如图3所示，这是两个来源于不同的数据集句子所代表的语法树，source domain代表迁移源数据集，target domain代表迁移目标数据集。叶子节点代表英语单词，最深灰色的英语单词指明该单词组成一个实体。圈出来的部分就是相同的子结构。而决定标签实体属于什么类型的是语义信息，而不同标签实体之间的语法子结构就是迁移模型中可以进行迁移的“知识”，因为假如不同数据集之间的不同标签的语法子结构相似，只要提取到了这部分语法结构信息，然后再与迁移目标数据集上的语义信息相结合起来预测所对应的实体标签，就能提高模型的在迁移目标数据集上的效果。下面对本实施例的半监督解耦的命名实体识别方法进行相依说明，如图1所示，其包括以下步骤：

S1.获取迁移源文本数据集及迁移目标文本数据集，并对其进行预处理；随后将迁移源文本数据集划分为迁移源训练集、迁移源测试集，将迁移目标文本数据集划分为迁移目标训练集、迁移目标测试集；

由于原始数据为文本数据集，都是文字型数据，因此需通过预处理将其转化为数字形式的矩阵数据。关于预处理的具体步骤，本实施例举例说明如下：

设需预测的句子是omg@wethekings is playing a show at Stetson，其标签序列为{O,O,O,O,O,O,O,B-ORG}，如下表1所示：

表1

S11.将所述迁移源文本数据集和迁移目标文本数据集中的所有句子中的单词转化为小写字母，并根据单词的出现次数由高到低进行排序，剔除出现频率最高的前20位，剩下的单词作为词典，即得到单词字典；

设单词词典如下表2所示，其中<PAD>是人为添加的单词，代表填充的意思，当需要填充到同样的句子长度是就需要使用<PAD>填充

表2

S12.划分具体的迁移方向，现在是ON->R1，以迁移方向为单位，把迁移源文本数据和迁移目标文本数据两两配对(注意迁移方向与数据集的顺序也有关，即R1->ON也是一种迁移方向)，建立字符字典，如下表3所示；

索引号	字符
		0	<PAD>
1	a
		2	c
3	d
		.........	.........
28	A
		.........	.........
70	@
		.........	.........

表3

S13.建立迁移源文本数据集、迁移目标文本数据集对应的标签字典，并将对应的标签转化为标签字典上的索引号，如下表4所示(其中仅展示一个数据集的标签字典，应该要为每个数据集都建立对应的标签字典)；

表4

通过上面五个步骤数据预处理后，可以得到句子最后的输入格式如下表5所示(设处理单词输入所有句子都填充到长度为10，处理字符输入时每个单词都填充到长度为10，每个句子都填充到长度为10，而标签输入需和单词输入同样长度)

表5

S2.构建任务为命名实体识别的文本序列数据迁移模型，如图2所示，该模型的组成包括：迁移源域和迁移目标域共享的语法特征编码器(见图2右半部分)、迁移源域和迁移目标域共享的语义特征编码器(见图2右半部分)、句子信息解码器(见图2右半部分)、第一互信息计算器(见图2右半部分)、第二互信息计算器(见图2右半部分)、第三互信息计算器(见图2右半部分)、标签分类器、领域判别器(见图2左下半部分)及特征输入器(见图2左上半部分)；其中：

特征输入器的输入为预处理得到的单词级数据及字符级数据，其通过一卷积神经网络将字符级数据提取得到字符级特征信息，随后将字符级特征信息及单词级特征信息拼接在一起，得到句子初始特征信息并输出；

语法特征编码器的输入为句子初始特征信息，用于提取其语法特征信息；

语义特征编码器的输入为句子初始特征信息，用于提取其语义结构特征信息；

句子信息解码器的输入为语法特征信息及语义结构特征信息，基于所述语法特征信息及语义结构特征信息解码得到句子特征信息；

领域判别器的输入为语义结构特征信息；然后再通过最小化语法和语义结构特征之间的互信息，就能分离语法信息集合和语义信息集合，从而指导语义特征提取器提取语义信息；

第一互信息计算器的输入为语法特征信息与语义结构特征信息，用于计算语法特征信息与语义结构特征信息之间的最小互信息；

第二互信息计算器的输入为语法特征信息与句子特征信息，用于计算语法特征信息与句子特征信息之间的最大互信息；

第三互信息计算器的输入为语义结构特征信息与句子特征信息，用于计算语义结构特征信息与句子特征信息之间的最大互信息；

标签分类器的输入为语法特征信息以及语义结构特征信息，基于所述语法特征信息以及语义结构特征信息得到命名实体识别的具体标签。

其中语法特征编码器及语义特征编码器均采用维度为100维的长短时记忆神经网络；句子信息解码器采用全连接神经网络；领域判别器采用两层全连接神经网络，第一层为150维，第二层为100维，标签分类器采用CRF分类器，第一～三互信息计算器采用现有网上开源的互信息神经网络计算器。

S3.对所述文本序列数据迁移模型进行训练及测试；

其中模型的训练分为两个阶段，首先互信息解耦语法语义训练阶段，再为语法与语义信息的特征提取训练阶段，具体步骤如下：

S31.将迁移源训练集和迁移目标训练集打乱；

标签分类器的损失值计算：

领域判别器的损失值计算：

句子信息解码器的损失值计算

总的损失函数为：

其中λ、β、ω是一个用作调整的超参数；

其中模型的测试步骤如下：将迁移目标测试集全部输入到所述文本序列数据迁移模型，得到预测结果，将预测结果和标注结果进行比较，并计算其衡量指标F1Score，F1Score越高代表模型性能越好。其中F1Score是任务为命名实体识别的文本序列数据迁移模型的评价指标。

S4.利用训练好的文本序列数据迁移模型进行命名实体识别。将待识别句子输入到该模型即可得到命名实体识别的结果。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种半监督解耦的命名实体识别方法，其特征在于，包括以下步骤：

S2.构建任务为命名实体识别的文本序列数据迁移模型；

S3.对所述文本序列数据迁移模型进行训练及测试；

S4.利用训练好的文本序列数据迁移模型进行命名实体识别。

2.根据权利要求1所述的半监督解耦的命名实体识别方法，其特征在于，步骤S1所述的预处理步骤具体包括：

3.根据权利要求1所述的半监督解耦的命名实体识别方法，其特征在于，所述步骤S1还包括将迁移源文本数据集划分为迁移源训练集、迁移源测试集，将迁移目标文本数据集划分为迁移目标训练集、迁移目标测试集。

4.根据权利要求3所述的半监督解耦的命名实体识别方法，其特征在于，步骤S2所述的文本序列数据迁移模型具体包括迁移源域和迁移目标域共享的语法特征编码器、迁移源域和迁移目标域共享的语义特征编码器、句子信息解码器、第一互信息计算器、第二互信息计算器、第三互信息计算器、标签分类器、领域判别器及特征输入器；其中：

5.根据权利要求4所述的半监督解耦的命名实体识别方法，其特征在于，所述语法特征编码器及语义特征编码器采用维度为100维的长短时记忆神经网络；句子信息解码器采用全连接神经网络；领域判别器采用两层全连接神经网络，第一层为150维，第二层为100维；标签分类器采用CRF分类器，第一～三互信息计算器采用互信息神经网络计算器。

6.根据权利要求5所述的半监督解耦的命名实体识别方法，其特征在于，步骤S3中对所述文本序列数据迁移模型进行训练的具体步骤包括：

S31.将迁移源训练集和迁移目标训练集打乱；

标签分类器的损失值计算：

领域判别器的损失值计算：

句子信息解码器的损失值计算

总的损失函数为：

其中λ、β、ω是一个用作调整的超参数；

7.根据权利要求5所述的半监督解耦的命名实体识别方法，其特征在于，步骤S3中对所述文本序列数据迁移模型进行测试的具体步骤包括：