CN113221575A

CN113221575A - Pu强化学习的远程监督命名实体识别方法

Info

Publication number: CN113221575A
Application number: CN202110607269.6A
Authority: CN
Inventors: 罗森林; 高依萌; 潘丽敏; 吴舟婷; 尹继泽
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-08-06
Anticipated expiration: 2041-05-28
Also published as: CN113221575B

Abstract

本发明涉及PU强化学习的远程监督命名实体识别方法，属于自然语言处理与机器学习领域。主要为了解决中文命名实体识别任务的远程监督样本存在噪声标记、模型学习样本特征效率低下问题和训练过程缺乏有效监测机制。本发明首先利用BLSTM模型对文本提取单条样本序列特征和多标签评分信息；然后，基于PU强化学习，训练样本选择器，从标记语料和远程监督语料中筛选出正样本和负样本。再将负样本送入去噪还原器得到还原样本。再引入无偏、一致地估计任务损失的损失函数，使用正样本和还原样本训练中文命名实体识别模型；最后重复上述模型训练，直到筛选标记语料趋于稳定。在ICT语料、EC语料和NEWS进行了实验，结果表明本发明能达到较好的去噪效果。

Description

PU强化学习的远程监督命名实体识别方法

技术领域

本发明涉及PU强化学习的远程监督命名实体识别方法，属于自然语言处理与机器学习领域。

背景技术

目前命名实体识别(NER)任务在特定应用领域(如ICT领域)，人力和时间的不足导致难以获得领域内大规模标记语料。目前基于小规模标记语料的中文命名实体识别方法主要使用自动化扩大标记语料规模方法。

自动化扩大标记语料规模的中文命名实体识别方法通过计算机自动标注无标记语料或转换其他标记语料，使领域内标记语料的规模增大。自动标注的语料提高了模型的性能，但是此类语料携带的错误难以解决。其中，远程监督使用预定义的实体词典作为额外知识源，自动标注语料时经常引入不完整标记和噪声标记，这些标记误差累积传播造成模型训练效率低。并且对样本的错误标记缺少一个有效的监测机制。筛除错误样本的等低效处理方法使得部分样本未能被模型学习，导致模型学习样本特征效率低下。

综上所述，现有的自动化扩大标记语料规模的中文命名实体识别方法在小规模标记语料上主要存在以下问题：(1)在标注语料时引入错误的标记(包括不完整标记和噪声标记)造成误差累积传播。对于错误样本的低效处理方法导致部分样本未能被模型学习，导致模型学习样本特征效率低下。(2)含噪声样本对模型训练的干扰缺乏有效的监测机制，造成训练迭代次数多、效果不好。

发明内容

本发明的目的是针对中文命名实体识别任务的远程监督样本存在不完整标记问题、噪声标记问题、模型学习样本特征效率低下问题和训练过程缺乏有效监测机制问题，提出了PU强化学习的远程监督命名实体识别方法。

本发明的设计原理为：首先，建立中文命名实体识别模型提取单条样本序列特征和多标签评分信息对命名实体进行分类；其次，获取人工标记语料和远程监督语料；然后，基于PU强化学习，训练样本选择器，从标记语料和远程监督语料中筛选出正样本和待还原负样本。再将待还原负样本送入去噪还原器进行重建还原得到还原样本。再引入能够无偏、一致地估计任务损失的损失函数，使用正样本和还原样本训练中文命名实体识别模型；最后，重复样本选择器、去噪还原器和中文命名实体识别模型的训练过程，直到筛选出的部分标记语料不变为止。

本发明的技术方案是通过如下步骤实现的：

步骤1，利用BLSTM对非结构化文本提取单条样本序列特征。

步骤2，利用条件随机场和sigmoid(或者softmax)进行单类(或者多类)命名实体标注和分类，获取多标签评分信息。

步骤3，利用专家规则和远程监督方法获取标记语料和远程监督语料。

步骤4，基于PU强化学习，训练样本选择器，从标记语料和远程监督语料中筛选出正样本和待还原负样本。

步骤5，利用去噪还原器对有噪声标记的负样本进行重建还原得到还原样本。

步骤6，引入能够无偏、一致地估计任务损失的损失函数，使用正样本和还原样本训练中文命名实体识别模型和PU强化学习模型。

步骤7，样本选择器根据任务损失更新参数后，接受中文命名实体识别模型处理后的标记语料和远程监督语料信息，然后决定再筛选标记语料。

步骤8，按照上述过程，交替训练样本选择器、去噪还原器和中文命名实体识别模型，当筛选出的部分标记语料不变时，停止训练。

上述方法对远程监督中文命名实体识别任务有很好的效果。

有益效果

相比传统远程监督中文命名实体识别方法，本发明可以对不完整标记和噪声标记进行样本去噪还原，从而保证了标记样本的保真度，避免了误差累积传播的问题。同时，对负样本的还原处理提高了模型学习样本特征效率，学习到的样本特征覆盖性更高。

相比缺乏有效监测机制的传统自动标注方法，本发明可以使用PU强化学习利用正样本和无标签样本减轻不完全标注问题，通过无偏差和一致地估计任务风险，从而保证了对噪声样本监测机制的有效性，避免了噪声样本对模型训练的干扰。

附图说明

图1为本发明PU强化学习的远程监督命名实体识别方法原理图。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合实例对本发明方法的实施方式做进一步详细说明。

实验数据采用ICT语料、EC语料和NEWS中文命名实体识别语料。三种语料所在的领域、包含的命名实体类别和使用的命名实体词典信息如表1所示。三种语料的具体分配如表2所示。

表1语料基础信息

表2语料分配信息

实验的过程中的超参数类别平衡率为50，隐层大小为400，文本长度限制为100。使用学习率为0.01的Adam优化算法训练模型。

实验采用Precision、Recall和F1-measure评价命名实体识别的结果。设置TP为识别的真命名实体数，FP为识别的假命名实体数，FN为未识别的真命名实体数，TN为未识别的假命名实体数。Precision表示识别的真命名实体数占识别的总命名实体数的比例，如式(1)所示。Recall表示识别的真命名实体数占真命名实体数的比例，如式(2)所示。F1-measure为Precision和Recall的调和平均数，如式(3)所示。

Precision＝TP/(TP+FP) (1)

Recall＝TP/(TP+FN) (2)

本次实验在一台计算机和一台服务器上进行，计算机的具体配置为：Inter i7-6700，CPU 2.40GHz，内存4G，操作系统是windows 10，64位；服务器的具体配置为：IntelXeon CPU E5-2680v4，RAM 64G，操作系统是Linux Ubuntu 64位。

本次实验的具体流程为：

步骤1，利用BLSTM对非结构化文本提取样本序列特征。

步骤1.1，利用BERT-WWM将每个字符转化为对应的数值向量。

步骤1.2，利用BLSTM提取正向和反向文本单条样本序列特征向量

步骤2，利用条件随机场和sigmoid(或者softmax)进行单类(或者多类)命名实体标注和分类。

步骤2.1，通过线性链式条件随机场标注特征向量序列，标注过程在于根据观测变量(特征向量)和状态转移概率矩阵得到对应的状态变量，确定标签。

步骤2.2，若识别特定的单类命名实体，可将其看作二分类问题，使用sigmoid函数σ(·)进行评分和标注，如式(4)所示。每个特征向量

对应一个0或1的值，0表示字符为负类(不属于命名实体)，1表示字符为正类(属于命名实体)。

其中，w是权值，b是偏置项。

是中文命名实体识别模型的输出层，目的是根据特征向量进行多标签评分。

步骤2.3，同理，若识别特定的多类命名实体，可将其看作多分类问题，使用softmax函数进行评分和标注。

步骤2.4，将非结构化文本中的字符与标注结果中的标签一一对应，得到命名实体标记样本并以命名实体-类别对的形式输出。例如，“北京”两个字具有地点类型的命名实体标签，输出时表示为“(北京，地点)”。

步骤3.1，利用专家规则人工标记一小部分样本，记作标记语料H。

步骤3.2，基于命名实体词典，使用正向最大匹配算法自动标注无标记语料，称作远程监督语料A。

步骤4.1，将标记语料H和远程监督语料A合并到候选语料C中。每一轮训练，从C中采用一个随机规模的语料B。对于C中的远程监督样本，样本选择器从集合{1,0}发出动作，决定判定它为正样本或者待还原负样本。

步骤4.1.1，样本选择器利用了反映了单条样本序列特征及多标签评分信息的状态向量s_t执行筛选动作。

步骤4.1.1.1，单条样本的序列特征向量表示，通过合并第二个BLSTM层的正反向末尾输出向量得到。

步骤4.1.1.2，多标签评分信息由向量或者矩阵表示，由中文命名实体识别模型输出层的数值向量组成。

步骤4.1.2，样本选择器发出动作a_t∈{0，1}，表明是否选择第t条远程监督样本。当a_t＝0时，不选择第t条远程监督样本；当a_t＝1时，选择第t条远程监督样本。样本选择器输出的动作值为A_θ(s_t，a_t)，如式(5)所示。

其中，θ是参数为{w_a，b}的感知机

σ(·)是sigmoid函数。感知机的输出为阈值，如果发出动作1的阈值为0.4，则发出动作0的阈值为0.6，它们的和一定为1。使A_θ(s_t，a_t)达到较大阈值的动作即为样本选择器真正发出的动作。

步骤4.4，样本选择器基于标记语料H进行初始化训练。如果标记语料H不存在，则从远程监督语料中随机抽取一半语料用于初始化训练。在样本选择器的后续训练过程中，以中文命名实体识别模型返回的任务损失为梯度权重，利用之前筛选出的标记语料和之后重建还原得到的还原样本更新参数，如式(6)所示。其中lr是学习率，R_l(f)是任务损失。

步骤5，利用去噪还原器对待还原负样本进行重建还原得到还原样本。

步骤5.1，分类得到的正样本作为去噪还原器的训练集。向正样本集引入一个损坏过程

其代表给定数据样本x产生有噪声标记的负样本

概率，记作损坏集。

步骤5.2，从正样本集中随机选择一个训练样本x，选择对应损坏样本

步骤5.3，将

作为训练样本来估计去噪还原器的重构分布。

步骤5.4，去噪还原器的编码器和解码器均为前馈神经网络。

步骤5.5，输出的还原样本包含还原正样本和无标记样本两部分。

步骤5.5.1，利用得分匹配评估样本还原程度，样本还原程度低于10％的样本仍被记作无标记样本输出。样本还原程度达到90％以上的样本被记作正样本输出。

步骤6.1，使用正样本和还原样本训练中文命名实体识别模型。输入、输出随机变量分别为

和

设置

为分类器，损失函数是映射

所有样本的损失如式(7)所示。

R_l(f)＝E_x，yl(f(x)，y) (7)

其中E_x，y表示期望，在一般的监督学习情况下，R_l为经验损失

基于语料训练出的分类器f^*需要使

最小化。

步骤6.2，为了进行无偏的PU(unbiased PU，uPU)学习，即使用正类和无标记类字符评估R_l，需要同时包含正负样本。

其中

和

分别表示无标记类和正类字符的数学表示，n_u和n_p分别表示无标记类和正类字符的数目。

步骤6.3，已知

是R_l的一个无偏估计，当损失函数l有上界的时候，

也是R_l的一个一致估计。因此，通过设置损失函数为平均绝对误差，强制l受到约束，将其与非负约束结合，如式(11)所示。

给定字符嵌入e(w)，w表示字符，被预测为正类的概率如式(12)所示。

其中σ(·)是sigmoid函数，w_p是可训练的参数，b是偏置项。

步骤6.4，标签y的预测风险式(12)所示。

l(f(w)，y)＝|y-f(w)| (13)

其中l(f(w)，y)是有上界的。当存在两类以上的命名实体时，正类可以细分为若干类别，此时f使用softmax函数，标签y不仅限于0和1(负类字符对应的标签一定为0)。

步骤6.5，基于正样本和去噪样本语料，已训练的中文命名实体识别模型计算任务损失用于样本选择器的参数更新。

任务损失的数学定义如式(14)所示。其中，

为正类字符集合无偏经验损失，

为正类无偏损失概率，

为无标记类字符集合无偏经验损失，π_p是正类字符数目与无标记类字符数目的比例。类别不平衡问题导致π_p非常小，f倾向于预测字符为负类，因此引入类别权重γ。

实验PU强化学习的远程监督命名实体识别方法，对ICT语料、EC语料和NEWS进行了命名实体识别实验，本发明在ICT语料上的命名实体识别的F1值为76％，在EC语料上的F1值为62％，在NEWS语料上的F1值为88％，说明了本发明在中文命名实体识别任务上具有很好的效果。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.PU强化学习的远程监督命名实体识别方法，其特征在于所述方法包括如下步骤：

步骤1，利用BLSTM对非结构化文本提取单条样本序列特征；

步骤2，利用条件随机场和sigmoid(或者softmax)进行单类(或者多类)命名实体标注和分类，获取多标签评分信息；

步骤3，利用专家规则和远程监督方法获取标记语料和远程监督语料；

步骤4，基于PU强化学习，训练样本选择器，从标记语料和远程监督语料中筛选出正样本和待还原负样本；

步骤5，利用去噪还原器对有噪声标记的负样本进行重建还原得到还原样本；

步骤6，引入能够无偏、一致地估计任务损失的损失函数，使用正样本和还原样本训练中文命名实体识别模型和PU强化学习模型；

步骤7，样本选择器根据任务损失更新参数后，接受中文命名实体识别模型处理后的标记语料和远程监督语料信息，然后决定再筛选标记语料；

2.根据权利要求1所述的基于PU强化学习的远程监督命名实体识别方法，其特征在于：步骤5中利用去噪还原器对待还原负样本进行重建还原得到还原样本，分类得到的正样本作为去噪还原器的训练集，向正样本集引入一个损坏过程

其代表给定数据样本x产生有噪声标记的负样本

概率，记作损坏集，从正样本集中随机选择一个训练样本x，选择对应损坏样本

将

作为训练样本来估计去噪还原器的重构分布，去噪还原器的编码器和解码器均为前馈神经网络，输出的还原样本包含还原正样本和无标记样本两部分，利用得分匹配评估样本还原程度，样本还原程度低于10％的样本仍被记作无标记样本输出，样本还原程度达到90％以上的样本被记作正样本输出，在样本选择器的后续训练过程中，以中文命名实体识别模型返回的任务损失为梯度权重，利用筛选出的标记语料和之后重建还原得到的还原样本更新参数。

3.根据权利要求1所述的基于PU强化学习的远程监督命名实体识别方法，其特征在于：步骤6中引入能够无偏、一致地估计任务损失的损失函数，如下式所示，使用正样本和还原样本训练中文命名实体识别模型和PU强化学习模型，

其中，

为任务损失，

为正类字符集合无偏经验损失，

为无标记类字符集合无偏经验损失，

为正类无偏损失概率，π_p是正类字符数目与无标记类字符数目的比例，γ为类别权重。