CN111460824B - 一种基于对抗迁移学习的无标注命名实体识别方法 - Google Patents
一种基于对抗迁移学习的无标注命名实体识别方法 Download PDFInfo
- Publication number
- CN111460824B CN111460824B CN202010237531.8A CN202010237531A CN111460824B CN 111460824 B CN111460824 B CN 111460824B CN 202010237531 A CN202010237531 A CN 202010237531A CN 111460824 B CN111460824 B CN 111460824B
- Authority
- CN
- China
- Prior art keywords
- vector
- representing
- label
- data
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于对抗迁移学习的无标注命名实体识别方法,构建无标注命名实体识别模型,包括步骤:输入源领域或者目标领域的文本,并映射为词嵌入向量;将词嵌入向量输入到双向长短期记忆网络中提取出特征向量;将特征向量输入到对抗判别器,将源领域和目标领域的数据映射到同一数据分布空间中;将特征向量输入到条件随机场中,计算输入文本所有可能的标签序列的概率,选择概率最大的标签序列作为最终的预测标签;通过联合训练命名实体识别任务和对抗训练任务,得到最佳的模型参数;输入目标领域的数据,通过CRF层输出预测标签。本发明通过对抗判别器可以将源领域和目标领域数据映射到同一分布的空间内,从而提高目标领域数据的实体预测效果。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于对抗迁移学习的无标注命名实体识别方法。
背景技术
近年来,深度学习技术的迅速发展使其成为自然语言处理领域的主要研究手段和方法。在命名实体识别任务上,使用基于深度学习的序列标注模型在多个数据集上取得了最佳效果,并且可以处理非结构化数据的情景。
但目前绝大多数命名实体识别任务都是基于大量的标注样本训练模型才能达到比较好的预测效果。而训练样本需要大量的人工进行标注,这需要耗费时间以及财力。
为了减少人工标注工作,近年来有一些工作用于无标注的命名实体识别,大致可以分为以下两类工作:1、基于远程监督的命名实体识别,远程监督可以达到一个不错的预测效果,但是需要预先构建领域相关的词典,而领域相关的词典又是需要人工来构建,如果构建的词典中启发种子词的质量不高,就很难达到一个比较好的收敛效果。2、基于迁移学习的方法,在其他领域的数据集上训练好一个模型,然后迁移到新数据中进行预测,但是由于旧领域和新领域的数据分布并不是一致的,所以直接迁移方法的预测效果相对较差。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于对抗迁移学习的无标注命名实体识别方法。本发明利用对抗训练将源领域和目标领域数据映射到同一分布空间,从而提高模型从源领域迁移到目标领域的实体预测效果。
本发明的目的能够通过以下技术方案实现:
一种基于对抗迁移学习的无标注命名实体识别方法,构建无标注命名实体识别模型,模型包括Bi-LSTM、CRF层以及对抗判别器,所述方法包括步骤:
在模型中输入源领域或者目标领域的文本,通过共享的词嵌入层,将文本中的每一个单词映射为词嵌入向量;
以句子为单位,将词嵌入向量输入到双向长短期记忆网络(Bi-direction Long-short term memory network,Bi-LSTM)中,通过双向长短期记忆网络提取出特征向量,特征向量包含单词之间的上下文关系;
将双向长短期记忆网络提取出的特征向量输入到对抗判别器中,通过对抗训练,将源领域和目标领域的数据映射到同一数据分布空间中;
将双向长短期记忆网络提取出的特征向量输入到条件随机场(condition randomfield,CRF)中,通过条件随机场来计算输入文本所有可能的标签序列的概率,选择概率最大的标签序列作为最终的预测标签,完成命名实体识别;
通过联合训练命名实体识别任务和对抗训练任务,得到最佳的模型参数;
得到最终模型后,输入目标领域的数据,通过CRF层输出预测标签,完成目标领域数据的无标注命名实体识别。
具体地,所述在模型中输入源领域或者目标领域的文本,将文本中的每一个单词映射为词嵌入向量的步骤中,每一个词嵌入向量可以表示如下:
其中,xi代表不同单词对应的索引;ew(xi)代表将单词映射到对应预训练的词嵌入向量;其中,预训练的词嵌入向量采用的是Glove预训练的词向量。ec(xi)代表将单词内的所有字符映射到对应的字符嵌入向量,这里字符嵌入向量采用了随机初始化的方法,向量中的每个元素的值在正态分布中随机采样;CNN(ec(xi))代表将得到的字符嵌入向量通过卷积神经网络(Convolutional Neural Network,CNN)卷积操作得到该单词字符级别的向量表示;代表向量拼接;通过得到词级别的词嵌入向量和字符级别的向量表示,再通过拼接操作,就可以得到每个单词对应的词嵌入向量。
具体地,所述以句子为单位,将词嵌入向量输入到双向长短期记忆网络中,提取出特征向量的步骤中,双向长短期记忆网络提取上下文关系可以表示如下:
其中,vi代表单词的词嵌入向量,单向的长短期记忆网络只对过去的序列信息进行编码,而忽略了未来时间步提取出来的序列信息;在此采用了双向Bi-LSTM提取信息,和分别表示前向和后向Bi-LSTM提取出来的特征向量。代表向量拼接。
最后得到句子级别的特征向量表示如下:
H={h1,h2,…,ht}
其中t代表句子中的单词数。
具体地,所述将双向长短期记忆网络提取出的特征向量输入到对抗判别器中,通过对抗训练,将源领域和目标领域的数据映射到同一数据分布空间中的步骤中,对抗训练的过程如下:
在此使用了一个对抗判别器,其输入是上一步骤中Bi-LSTM提取出来的特征向量,目的是为了对输入的特征向量进行分类任务,判别输入的特征向量是来自源领域的数据还是目标领域的数据。对抗判别器的计算可以表示如下:
其中,d∈{0,1}代表了输入数据x是源领域数据还是目标领域数据,θLSTM表示Bi-LSTM的参数,θd表示对抗判别器的参数,wc表示对抗判别器的权重矩阵,zd表示输入对抗判别器的向量,zd计算如下:
average(H)表示对句子级别的特征向量求平均值,wh表示映射矩阵,f(·)表示非线性激活函数。
至此,对抗判别器的损失函数公式如下:
最终对抗训练的损失函数表示如下:
其中,ns代表源领域的训练样本数量,nt代表目标领域的训练样本数量。
由对抗训练得到最优参数可以由下面的式子表示:
通过最大化LAdv可得到最优对抗判别器参数的θd,通过最小化LAdv可得到最优Bi-LSTM参数的θLSTM,这是对抗训练中一个互相制衡的过程,该过程可以通过在对抗判别器之前加入梯度反转层实现,在反向传播时,梯度反转层可以将对抗判别器的损失函数值反转,而在正向传播时,梯度反转层没有作用。
具体地,所述将双向长短期记忆网络提取出的特征向量输入到条件随机场中,计算输入文本所有可能的标签序列的概率,选择概率最大的标签序列作为最终的预测标签,完成命名实体识别的步骤中,条件随机场的输出概率计算如下:
其中,θLSTM表示Bi-LSTM的参数,θCRF表示CRF的参数。
具体地,所述通过联合训练命名实体识别任务和对抗训练任务,得到最佳的模型参数的步骤中,联合训练的损失函数表示如下:
LNER+Adv=λ1Lner(θLSTM,θCRF)+λ2LAdv(θLSTM,θd)
其中λ1和λ2分别代表NER任务和对抗训练任务的损失函数权重。
本发明相较于现有技术,具有以下的有益效果:
本发明利用对抗训练将源领域和目标领域数据映射到同一分布空间,从而提高模型从源领域迁移到目标领域的实体预测效果。
附图说明
图1为本发明中一种基于对抗迁移学习的无标注命名实体识别方法的流程图。
图2为本发明实施例中基于对抗迁移学习的无标注命名实体识别的模型结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示为一种基于对抗迁移学习的无标注命名实体识别方法的流程图,所述方法构建无标注命名实体识别模型,所述模型结构如图2所示,包括Bi-LSTM、CRF层以及对抗判别器,所述方法包括步骤:
(1)在无标注命名实体识别模型中输入源领域或者目标领域的文本,将文本中的每一个单词映射为词嵌入向量。
文本中每一个单词映射得到的词嵌入向量表示为:
其中,xi代表单词对应的索引,即单词从0开始排序的位置;ew(xi)代表将单词映射到对应预训练的词嵌入向量;其中,预训练的词嵌入向量采用的是GloVe预训练的词向量。ec(xi)代表将单词内的所有字符映射到对应的字符嵌入向量,这里字符嵌入向量采用了随机初始化的方法,字符嵌入向量中的每个元素的值在正态分布中随机采样;CNN(ec(xi))代表将得到的字符嵌入向量通过卷积神经网络(Convolutional Neural Network,CNN)进行卷积操作得到该单词字符级别的向量表示;代表向量拼接;通过得到词级别的词嵌入向量和字符级别的向量表示,再通过拼接操作,得到每个单词对应的词嵌入向量。
(2)以句子为单位,将词嵌入向量输入到双向长短期记忆网络(Bi-directionLong-short term memory network,Bi-LSTM)中,通过双向长短期记忆网络提取出句子的特征向量。
所述双向长短期记忆网络提取的句子的特征向量包含单词之间的上下文关系,因此提取的句子的特征向量表示为:
其中,vi代表单词的词嵌入向量,单向的长短期记忆网络只对过去的序列信息进行编码,而忽略了未来时间步提取出来的序列信息;因此采用了双向Bi-LSTM提取信息,和分别表示前向和后向LSTM提取出来的特征向量,代表向量拼接。
最后得到句子级别的特征向量表示为:
H={h1,h2,…,ht}
其中,t代表句子中的单词数。
(3)将双向长短期记忆网络提取出的句子级别的特征向量输入到对抗判别器中,通过对抗训练,将源领域和目标领域的数据映射到同一数据分布空间中。
本发明中使用了一个对抗判别器,其输入是上一步骤中Bi-LSTM提取出来的特征向量,目的是为了对输入的特征向量进行分类任务,判别输入的特征向量是来自源领域的数据还是目标领域的数据。所述对抗训练采用用源领域和目标领域的数据对对抗判别器进行训练。
对抗判别器计算输入数据概率分布,计算公式表示为:
其中,d∈{0,1}代表了输入数据x是源领域数据还是目标领域数据:0表示源领域数据,1表示目标领域数据;θLSTM表示Bi-LSTM的参数,θd表示对抗判别器的参数,wc表示对抗判别器的权重矩阵,zd表示对抗判别器的输入向量,zd计算公式为:
其中,average(H)表示对句子级别的特征向量求平均值,wh表示映射矩阵,f(·)表示非线性激活函数。
因此,对抗判别器的损失函数公式如下:
最终对抗训练的损失函数表示如下:
其中,ns代表源领域的训练样本数量,nt代表目标领域的训练样本数量。
由对抗训练得到最优参数可以由下面的式子表示:
通过最大化LAdv可得到最优对抗判别器参数的θd,通过最小化LAdv可得到最优Bi-LSTM参数的θLSTM,这是对抗训练中一个互相制衡的过程,该过程可以通过在对抗判别器之前加入梯度反转层实现,在反向传播时,梯度反转层可以将对抗判别器的损失函数值反转,而在正向传播时,梯度反转层没有作用。
(4)将双向长短期记忆网络提取出的特征向量输入到条件随机场(conditionrandom field,CRF)中,通过条件随机场来计算输入文本所有可能的标签序列的概率,然后选择概率最大的标签序列作为最终的预测标签,完成命名实体识别。
条件随机场的输出概率计算公式如下:
其中,θLSTM表示Bi-LSTM的参数,θCRF表示CRF的参数。
(5)通过联合训练命名实体识别任务和对抗训练任务,得到最佳的模型参数。
联合训练的损失函数表示如下:
LNER+Adv=λ1Lner(θLSTM,θCRF)+λ2LAdv(θLSTM,θd)
其中,λ1和λ2分别代表NER任务和对抗训练任务的损失函数权重。
(6)得到最终无标注命名实体识别模型后,输入目标领域的数据,通过CRF层输出预测标签,完成目标领域数据的无标注命名实体识别。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.一种基于对抗迁移学习的无标注命名实体识别方法,其特征在于,构建无标注命名实体识别模型,模型包括Bi-LSTM、CRF层以及对抗判别器,所述方法包括步骤:
在模型中输入源领域或者目标领域的文本,将文本中的每一个单词映射为词嵌入向量;
以句子为单位,将词嵌入向量输入到双向长短期记忆网络中,通过双向长短期记忆网络提取出特征向量;
将双向长短期记忆网络提取出的特征向量输入到对抗判别器中,通过对抗训练,将源领域和目标领域的数据映射到同一数据分布空间中;
将双向长短期记忆网络提取出的特征向量输入到条件随机场中,通过条件随机场来计算输入文本所有可能的标签序列的概率,然后选择概率最大的标签序列作为最终的预测标签,完成命名实体识别;
通过联合训练命名实体识别任务和对抗训练任务,得到最佳的模型参数;
得到最终模型后,输入目标领域的数据,通过CRF层输出预测标签,完成目标领域数据的无标注命名实体识别;
所述在模型中输入源领域或者目标领域的文本,将文本中的每一个单词映射为词嵌入向量的步骤中,文本中每一个单词映射得到的词嵌入向量表示为:
6.根据权利要求5所述的方法,其特征在于,所述通过联合训练命名实体识别任务和对抗训练任务,得到最佳的模型参数的步骤中,联合训练的损失函数表示如下:
LNER+Adv=λ1Lner(θLSTM,θCRF)+λ2LAdv(θLSTM,θd)
其中,λ1和λ2分别代表NER任务和对抗训练任务的损失函数权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010237531.8A CN111460824B (zh) | 2020-03-30 | 2020-03-30 | 一种基于对抗迁移学习的无标注命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010237531.8A CN111460824B (zh) | 2020-03-30 | 2020-03-30 | 一种基于对抗迁移学习的无标注命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460824A CN111460824A (zh) | 2020-07-28 |
CN111460824B true CN111460824B (zh) | 2022-06-14 |
Family
ID=71680240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010237531.8A Active CN111460824B (zh) | 2020-03-30 | 2020-03-30 | 一种基于对抗迁移学习的无标注命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460824B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112162635B (zh) * | 2020-09-27 | 2022-03-25 | 华南理工大学 | 空中手写单词序列合成模型生成方法及合成方法 |
CN112541355B (zh) * | 2020-12-11 | 2023-07-18 | 华南理工大学 | 一种实体边界类别解耦的少样本命名实体识别方法与系统 |
CN112866257B (zh) * | 2021-01-22 | 2023-09-26 | 网宿科技股份有限公司 | 一种域名检测方法、系统及装置 |
CN112926324B (zh) * | 2021-02-05 | 2022-07-29 | 昆明理工大学 | 融合词典与对抗迁移的越南语事件实体识别方法 |
CN113869037B (zh) * | 2021-09-27 | 2024-06-21 | 北京航空航天大学 | 基于内容增强网络嵌入的主题标签表示学习方法 |
CN114861667B (zh) * | 2022-05-16 | 2023-04-28 | 中电金信软件有限公司 | 一种命名实体标签识别方法及装置 |
CN115630649B (zh) * | 2022-11-23 | 2023-06-30 | 南京邮电大学 | 一种基于生成模型的医学中文命名实体识别方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10170114B2 (en) * | 2013-05-30 | 2019-01-01 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
US9836453B2 (en) * | 2015-08-27 | 2017-12-05 | Conduent Business Services, Llc | Document-specific gazetteers for named entity recognition |
CN108229582A (zh) * | 2018-02-01 | 2018-06-29 | 浙江大学 | 一种面向医学领域的多任务命名实体识别对抗训练方法 |
US11574122B2 (en) * | 2018-08-23 | 2023-02-07 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
CN109165385B (zh) * | 2018-08-29 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
CN110705713A (zh) * | 2019-08-26 | 2020-01-17 | 北方工业大学 | 一种基于生成对抗网络的领域特有特征对齐方法 |
-
2020
- 2020-03-30 CN CN202010237531.8A patent/CN111460824B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111460824A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460824B (zh) | 一种基于对抗迁移学习的无标注命名实体识别方法 | |
CN111694924B (zh) | 一种事件抽取方法和系统 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN111753189B (zh) | 一种少样本跨模态哈希检索共同表征学习方法 | |
CN112800776B (zh) | 双向gru关系抽取数据处理方法、系统、终端、介质 | |
CN112487820B (zh) | 一种中文医疗命名实体识别方法 | |
CN112364174A (zh) | 基于知识图谱的病人病历相似度评估方法及系统 | |
CN114757182A (zh) | 一种改进训练方式的bert短文本情感分析方法 | |
CN113190656A (zh) | 一种基于多标注框架与融合特征的中文命名实体抽取方法 | |
CN112926324A (zh) | 融合词典与对抗迁移的越南语事件实体识别方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113626589A (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN116341557A (zh) | 一种糖尿病医学文本命名实体识别方法 | |
CN115146021A (zh) | 文本检索匹配模型的训练方法、装置、电子设备及介质 | |
CN111507103B (zh) | 一种利用部分标注集的自训练神经网络分词模型 | |
CN116561314B (zh) | 基于自适应阈值选择自注意力的文本分类方法 | |
CN115186670B (zh) | 一种基于主动学习的领域命名实体识别方法及系统 | |
CN117371452A (zh) | 一种基于演示和标签增强的网格标记细粒度概念方法 | |
CN116522165A (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN116541722A (zh) | 一种基于对比学习的法律案例相似性匹配方法 | |
CN113626537B (zh) | 一种面向知识图谱构建的实体关系抽取方法及系统 | |
CN115221880A (zh) | 一种命名实体识别方法及终端 | |
CN114580423A (zh) | 一种基于Bert与Scat的页岩气领域命名实体识别方法 | |
CN114065781B (zh) | 一种基于翻译机制的实体和关系联合抽取系统和使用方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |