CN113221575A - Pu强化学习的远程监督命名实体识别方法 - Google Patents
Pu强化学习的远程监督命名实体识别方法 Download PDFInfo
- Publication number
- CN113221575A CN113221575A CN202110607269.6A CN202110607269A CN113221575A CN 113221575 A CN113221575 A CN 113221575A CN 202110607269 A CN202110607269 A CN 202110607269A CN 113221575 A CN113221575 A CN 113221575A
- Authority
- CN
- China
- Prior art keywords
- sample
- named entity
- training
- positive
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及PU强化学习的远程监督命名实体识别方法,属于自然语言处理与机器学习领域。主要为了解决中文命名实体识别任务的远程监督样本存在噪声标记、模型学习样本特征效率低下问题和训练过程缺乏有效监测机制。本发明首先利用BLSTM模型对文本提取单条样本序列特征和多标签评分信息;然后,基于PU强化学习,训练样本选择器,从标记语料和远程监督语料中筛选出正样本和负样本。再将负样本送入去噪还原器得到还原样本。再引入无偏、一致地估计任务损失的损失函数,使用正样本和还原样本训练中文命名实体识别模型;最后重复上述模型训练,直到筛选标记语料趋于稳定。在ICT语料、EC语料和NEWS进行了实验,结果表明本发明能达到较好的去噪效果。
Description
技术领域
本发明涉及PU强化学习的远程监督命名实体识别方法,属于自然语言处理与机器学习领域。
背景技术
目前命名实体识别(NER)任务在特定应用领域(如ICT领域),人力和时间的不足导致难以获得领域内大规模标记语料。目前基于小规模标记语料的中文命名实体识别方法主要使用自动化扩大标记语料规模方法。
自动化扩大标记语料规模的中文命名实体识别方法通过计算机自动标注无标记语料或转换其他标记语料,使领域内标记语料的规模增大。自动标注的语料提高了模型的性能,但是此类语料携带的错误难以解决。其中,远程监督使用预定义的实体词典作为额外知识源,自动标注语料时经常引入不完整标记和噪声标记,这些标记误差累积传播造成模型训练效率低。并且对样本的错误标记缺少一个有效的监测机制。筛除错误样本的等低效处理方法使得部分样本未能被模型学习,导致模型学习样本特征效率低下。
综上所述,现有的自动化扩大标记语料规模的中文命名实体识别方法在小规模标记语料上主要存在以下问题:(1)在标注语料时引入错误的标记(包括不完整标记和噪声标记)造成误差累积传播。对于错误样本的低效处理方法导致部分样本未能被模型学习,导致模型学习样本特征效率低下。(2)含噪声样本对模型训练的干扰缺乏有效的监测机制,造成训练迭代次数多、效果不好。
发明内容
本发明的目的是针对中文命名实体识别任务的远程监督样本存在不完整标记问题、噪声标记问题、模型学习样本特征效率低下问题和训练过程缺乏有效监测机制问题,提出了PU强化学习的远程监督命名实体识别方法。
本发明的设计原理为:首先,建立中文命名实体识别模型提取单条样本序列特征和多标签评分信息对命名实体进行分类;其次,获取人工标记语料和远程监督语料;然后,基于PU强化学习,训练样本选择器,从标记语料和远程监督语料中筛选出正样本和待还原负样本。再将待还原负样本送入去噪还原器进行重建还原得到还原样本。再引入能够无偏、一致地估计任务损失的损失函数,使用正样本和还原样本训练中文命名实体识别模型;最后,重复样本选择器、去噪还原器和中文命名实体识别模型的训练过程,直到筛选出的部分标记语料不变为止。
本发明的技术方案是通过如下步骤实现的:
步骤1,利用BLSTM对非结构化文本提取单条样本序列特征。
步骤2,利用条件随机场和sigmoid(或者softmax)进行单类(或者多类)命名实体标注和分类,获取多标签评分信息。
步骤3,利用专家规则和远程监督方法获取标记语料和远程监督语料。
步骤4,基于PU强化学习,训练样本选择器,从标记语料和远程监督语料中筛选出正样本和待还原负样本。
步骤5,利用去噪还原器对有噪声标记的负样本进行重建还原得到还原样本。
步骤6,引入能够无偏、一致地估计任务损失的损失函数,使用正样本和还原样本训练中文命名实体识别模型和PU强化学习模型。
步骤7,样本选择器根据任务损失更新参数后,接受中文命名实体识别模型处理后的标记语料和远程监督语料信息,然后决定再筛选标记语料。
步骤8,按照上述过程,交替训练样本选择器、去噪还原器和中文命名实体识别模型,当筛选出的部分标记语料不变时,停止训练。
上述方法对远程监督中文命名实体识别任务有很好的效果。
有益效果
相比传统远程监督中文命名实体识别方法,本发明可以对不完整标记和噪声标记进行样本去噪还原,从而保证了标记样本的保真度,避免了误差累积传播的问题。同时,对负样本的还原处理提高了模型学习样本特征效率,学习到的样本特征覆盖性更高。
相比缺乏有效监测机制的传统自动标注方法,本发明可以使用PU强化学习利用正样本和无标签样本减轻不完全标注问题,通过无偏差和一致地估计任务风险,从而保证了对噪声样本监测机制的有效性,避免了噪声样本对模型训练的干扰。
附图说明
图1为本发明PU强化学习的远程监督命名实体识别方法原理图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合实例对本发明方法的实施方式做进一步详细说明。
实验数据采用ICT语料、EC语料和NEWS中文命名实体识别语料。三种语料所在的领域、包含的命名实体类别和使用的命名实体词典信息如表1所示。三种语料的具体分配如表2所示。
表1语料基础信息
表2语料分配信息
实验的过程中的超参数类别平衡率为50,隐层大小为400,文本长度限制为100。使用学习率为0.01的Adam优化算法训练模型。
实验采用Precision、Recall和F1-measure评价命名实体识别的结果。设置TP为识别的真命名实体数,FP为识别的假命名实体数,FN为未识别的真命名实体数,TN为未识别的假命名实体数。Precision表示识别的真命名实体数占识别的总命名实体数的比例,如式(1)所示。Recall表示识别的真命名实体数占真命名实体数的比例,如式(2)所示。F1-measure为Precision和Recall的调和平均数,如式(3)所示。
Precision=TP/(TP+FP) (1)
Recall=TP/(TP+FN) (2)
本次实验在一台计算机和一台服务器上进行,计算机的具体配置为:Inter i7-6700,CPU 2.40GHz,内存4G,操作系统是windows 10,64位;服务器的具体配置为:IntelXeon CPU E5-2680v4,RAM 64G,操作系统是Linux Ubuntu 64位。
本次实验的具体流程为:
步骤1,利用BLSTM对非结构化文本提取样本序列特征。
步骤1.1,利用BERT-WWM将每个字符转化为对应的数值向量。
步骤2,利用条件随机场和sigmoid(或者softmax)进行单类(或者多类)命名实体标注和分类。
步骤2.1,通过线性链式条件随机场标注特征向量序列,标注过程在于根据观测变量(特征向量)和状态转移概率矩阵得到对应的状态变量,确定标签。
步骤2.2,若识别特定的单类命名实体,可将其看作二分类问题,使用sigmoid函数σ(·)进行评分和标注,如式(4)所示。每个特征向量对应一个0或1的值,0表示字符为负类(不属于命名实体),1表示字符为正类(属于命名实体)。
步骤2.3,同理,若识别特定的多类命名实体,可将其看作多分类问题,使用softmax函数进行评分和标注。
步骤2.4,将非结构化文本中的字符与标注结果中的标签一一对应,得到命名实体标记样本并以命名实体-类别对的形式输出。例如,“北京”两个字具有地点类型的命名实体标签,输出时表示为“(北京,地点)”。
步骤3,利用专家规则和远程监督方法获取标记语料和远程监督语料。
步骤3.1,利用专家规则人工标记一小部分样本,记作标记语料H。
步骤3.2,基于命名实体词典,使用正向最大匹配算法自动标注无标记语料,称作远程监督语料A。
步骤4,基于PU强化学习,训练样本选择器,从标记语料和远程监督语料中筛选出正样本和待还原负样本。
步骤4.1,将标记语料H和远程监督语料A合并到候选语料C中。每一轮训练,从C中采用一个随机规模的语料B。对于C中的远程监督样本,样本选择器从集合{1,0}发出动作,决定判定它为正样本或者待还原负样本。
步骤4.1.1,样本选择器利用了反映了单条样本序列特征及多标签评分信息的状态向量st执行筛选动作。
步骤4.1.1.1,单条样本的序列特征向量表示,通过合并第二个BLSTM层的正反向末尾输出向量得到。
步骤4.1.1.2,多标签评分信息由向量或者矩阵表示,由中文命名实体识别模型输出层的数值向量组成。
步骤4.1.2,样本选择器发出动作at∈{0,1},表明是否选择第t条远程监督样本。当at=0时,不选择第t条远程监督样本;当at=1时,选择第t条远程监督样本。样本选择器输出的动作值为Aθ(st,at),如式(5)所示。
其中,θ是参数为{wa,b}的感知机σ(·)是sigmoid函数。感知机的输出为阈值,如果发出动作1的阈值为0.4,则发出动作0的阈值为0.6,它们的和一定为1。使Aθ(st,at)达到较大阈值的动作即为样本选择器真正发出的动作。
步骤4.4,样本选择器基于标记语料H进行初始化训练。如果标记语料H不存在,则从远程监督语料中随机抽取一半语料用于初始化训练。在样本选择器的后续训练过程中,以中文命名实体识别模型返回的任务损失为梯度权重,利用之前筛选出的标记语料和之后重建还原得到的还原样本更新参数,如式(6)所示。其中lr是学习率,Rl(f)是任务损失。
步骤5,利用去噪还原器对待还原负样本进行重建还原得到还原样本。
步骤5.4,去噪还原器的编码器和解码器均为前馈神经网络。
步骤5.5,输出的还原样本包含还原正样本和无标记样本两部分。
步骤5.5.1,利用得分匹配评估样本还原程度,样本还原程度低于10%的样本仍被记作无标记样本输出。样本还原程度达到90%以上的样本被记作正样本输出。
步骤6,引入能够无偏、一致地估计任务损失的损失函数,使用正样本和还原样本训练中文命名实体识别模型和PU强化学习模型。
Rl(f)=Ex,yl(f(x),y) (7)
步骤6.2,为了进行无偏的PU(unbiased PU,uPU)学习,即使用正类和无标记类字符评估Rl,需要同时包含正负样本。
给定字符嵌入e(w),w表示字符,被预测为正类的概率如式(12)所示。
其中σ(·)是sigmoid函数,wp是可训练的参数,b是偏置项。
步骤6.4,标签y的预测风险式(12)所示。
l(f(w),y)=|y-f(w)| (13)
其中l(f(w),y)是有上界的。当存在两类以上的命名实体时,正类可以细分为若干类别,此时f使用softmax函数,标签y不仅限于0和1(负类字符对应的标签一定为0)。
步骤6.5,基于正样本和去噪样本语料,已训练的中文命名实体识别模型计算任务损失用于样本选择器的参数更新。
任务损失的数学定义如式(14)所示。其中,为正类字符集合无偏经验损失,为正类无偏损失概率,为无标记类字符集合无偏经验损失,πp是正类字符数目与无标记类字符数目的比例。类别不平衡问题导致πp非常小,f倾向于预测字符为负类,因此引入类别权重γ。
步骤7,样本选择器根据任务损失更新参数后,接受中文命名实体识别模型处理后的标记语料和远程监督语料信息,然后决定再筛选标记语料。
步骤8,按照上述过程,交替训练样本选择器、去噪还原器和中文命名实体识别模型,当筛选出的部分标记语料不变时,停止训练。
实验PU强化学习的远程监督命名实体识别方法,对ICT语料、EC语料和NEWS进行了命名实体识别实验,本发明在ICT语料上的命名实体识别的F1值为76%,在EC语料上的F1值为62%,在NEWS语料上的F1值为88%,说明了本发明在中文命名实体识别任务上具有很好的效果。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.PU强化学习的远程监督命名实体识别方法,其特征在于所述方法包括如下步骤:
步骤1,利用BLSTM对非结构化文本提取单条样本序列特征;
步骤2,利用条件随机场和sigmoid(或者softmax)进行单类(或者多类)命名实体标注和分类,获取多标签评分信息;
步骤3,利用专家规则和远程监督方法获取标记语料和远程监督语料;
步骤4,基于PU强化学习,训练样本选择器,从标记语料和远程监督语料中筛选出正样本和待还原负样本;
步骤5,利用去噪还原器对有噪声标记的负样本进行重建还原得到还原样本;
步骤6,引入能够无偏、一致地估计任务损失的损失函数,使用正样本和还原样本训练中文命名实体识别模型和PU强化学习模型;
步骤7,样本选择器根据任务损失更新参数后,接受中文命名实体识别模型处理后的标记语料和远程监督语料信息,然后决定再筛选标记语料;
步骤8,按照上述过程,交替训练样本选择器、去噪还原器和中文命名实体识别模型,当筛选出的部分标记语料不变时,停止训练。
2.根据权利要求1所述的基于PU强化学习的远程监督命名实体识别方法,其特征在于:步骤5中利用去噪还原器对待还原负样本进行重建还原得到还原样本,分类得到的正样本作为去噪还原器的训练集,向正样本集引入一个损坏过程其代表给定数据样本x产生有噪声标记的负样本概率,记作损坏集,从正样本集中随机选择一个训练样本x,选择对应损坏样本将作为训练样本来估计去噪还原器的重构分布,去噪还原器的编码器和解码器均为前馈神经网络,输出的还原样本包含还原正样本和无标记样本两部分,利用得分匹配评估样本还原程度,样本还原程度低于10%的样本仍被记作无标记样本输出,样本还原程度达到90%以上的样本被记作正样本输出,在样本选择器的后续训练过程中,以中文命名实体识别模型返回的任务损失为梯度权重,利用筛选出的标记语料和之后重建还原得到的还原样本更新参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110607269.6A CN113221575B (zh) | 2021-05-28 | 2021-05-28 | Pu强化学习的远程监督命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110607269.6A CN113221575B (zh) | 2021-05-28 | 2021-05-28 | Pu强化学习的远程监督命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221575A true CN113221575A (zh) | 2021-08-06 |
CN113221575B CN113221575B (zh) | 2022-08-02 |
Family
ID=77082218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110607269.6A Active CN113221575B (zh) | 2021-05-28 | 2021-05-28 | Pu强化学习的远程监督命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221575B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688622A (zh) * | 2021-09-05 | 2021-11-23 | 安徽清博大数据科技有限公司 | 一种基于ner识别情景喜剧对话幽默度的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN111738003A (zh) * | 2020-06-15 | 2020-10-02 | 中国科学院计算技术研究所 | 命名实体识别模型训练方法、命名实体识别方法和介质 |
CN111914558A (zh) * | 2020-07-31 | 2020-11-10 | 湖北工业大学 | 基于句袋注意力远程监督的课程知识关系抽取方法及系统 |
WO2021082366A1 (zh) * | 2019-10-28 | 2021-05-06 | 南京师范大学 | 基于交互式与迭代式学习的地名标注语料库智能构建方法 |
-
2021
- 2021-05-28 CN CN202110607269.6A patent/CN113221575B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
WO2021082366A1 (zh) * | 2019-10-28 | 2021-05-06 | 南京师范大学 | 基于交互式与迭代式学习的地名标注语料库智能构建方法 |
CN111738003A (zh) * | 2020-06-15 | 2020-10-02 | 中国科学院计算技术研究所 | 命名实体识别模型训练方法、命名实体识别方法和介质 |
CN111914558A (zh) * | 2020-07-31 | 2020-11-10 | 湖北工业大学 | 基于句袋注意力远程监督的课程知识关系抽取方法及系统 |
Non-Patent Citations (2)
Title |
---|
JIZE YIN 等: "Chinese Named Enitity Recognition with Character-Level BLSTM and Soft Attention Model", 《JOURNAL OF BEIJING INSTITUTE OF TECHNOLOGY》 * |
冯艳红等: "基于BLSTM的命名实体识别方法", 《计算机科学》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688622A (zh) * | 2021-09-05 | 2021-11-23 | 安徽清博大数据科技有限公司 | 一种基于ner识别情景喜剧对话幽默度的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113221575B (zh) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992668B (zh) | 一种基于自注意力的企业舆情分析方法和装置 | |
US11900250B2 (en) | Deep learning model for learning program embeddings | |
CN112069310A (zh) | 基于主动学习策略的文本分类方法及系统 | |
Miahi et al. | Genetic Neural Architecture Search for automatic assessment of human sperm images | |
CN112070138A (zh) | 多标签混合分类模型的构建方法、新闻分类方法及系统 | |
CN113254675B (zh) | 基于自适应少样本关系抽取的知识图谱构建方法 | |
CN113138920B (zh) | 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置 | |
CN113469186A (zh) | 一种基于少量点标注的跨域迁移图像分割方法 | |
CN113010683B (zh) | 基于改进图注意力网络的实体关系识别方法及系统 | |
CN113723083A (zh) | 基于bert模型的带权消极监督文本情感分析方法 | |
CN113222072A (zh) | 基于K-means聚类和GAN的肺部X光图像分类方法 | |
CN111782804A (zh) | 基于TextCNN同分布文本数据选择方法、系统及存储介质 | |
CN113221575B (zh) | Pu强化学习的远程监督命名实体识别方法 | |
CN115344696A (zh) | 一种基于主动学习的开放域小样本文本学习方法 | |
Priya et al. | Self-adaptive hybridized lion optimization algorithm with transfer learning for ancient Tamil character recognition in stone inscriptions | |
CN116610846A (zh) | 用于牛养殖的配种筛选方法及其系统 | |
Marconi et al. | Hyperbolic manifold regression | |
CN111126443A (zh) | 基于随机游走的网络表示学习方法 | |
CN116521863A (zh) | 一种基于半监督学习的标签抗噪文本分类方法 | |
CN114896402A (zh) | 一种文本关系抽取方法、装置、设备和计算机存储介质 | |
CN114519344A (zh) | 一种基于论元子图提示生成与引导的篇章级多事件抽取方法 | |
Liu et al. | Long-tailed Recognition by Learning from Latent Categories | |
Zhang et al. | Feature-induced label distribution for learning with noisy labels | |
CN113032558A (zh) | 融合维基知识的变分半监督百度百科分类方法 | |
CN117932073B (zh) | 一种基于提示工程的弱监督文本分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |