CN111191461B - 一种基于课程学习的远程监督关系抽取方法 - Google Patents
一种基于课程学习的远程监督关系抽取方法 Download PDFInfo
- Publication number
- CN111191461B CN111191461B CN201911395765.9A CN201911395765A CN111191461B CN 111191461 B CN111191461 B CN 111191461B CN 201911395765 A CN201911395765 A CN 201911395765A CN 111191461 B CN111191461 B CN 111191461B
- Authority
- CN
- China
- Prior art keywords
- sentence
- relation
- packet
- vector
- bag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 49
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000002457 bidirectional effect Effects 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 2
- 230000006403 short-term memory Effects 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 claims 1
- 238000012856 packing Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 11
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000011478 gradient descent method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000009411 base construction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于课程学习的远程监督关系抽取方法,属于人工智能和自然语言处理技术领域。本方法将关系抽取器看作学生网络,针对关系抽取任务,设计一个导师网络来监督关系抽取器的训练过程。导师网络接收关系抽取器的相关特征信息输入,学习出包中每个句子的权重,然后将其反馈到关系抽取器中,使得质量好的句子更多参与到关系抽取器的训练过程中。本方法为了高效地协同训练两个网络,在交替局部梯度下降方法基础上进行改进,提出一种适用于关系抽取任务的联合优化方法。本发明提高了噪声环境下关系抽取的效果,在主流的关系抽取数据集中优于传统方法。
Description
技术领域
本发明涉及一种远程监督关系抽取方法,属于人工智能和自然语言处理技术领域。
背景技术
信息抽取(Information Extraction)是自然语言处理中的一项基本任务,通过对非结构化文本进行处理抽取结构化信息,作为后续自然语言处理任务的输入。在知识爆炸的时代,人们每天都需要面对海量数据,合理利用信息抽取系统高效地处理文本提取有用的信息就变得极为重要。信息抽取作为自然语言处理中极为重要的一环,本身也是由一系列子任务构成的,例如命名实体识别、关系抽取和事件抽取等。
关系抽取(Relation Extraction,RE)是信息抽取的一项关键技术,其目的是挖掘实体间存在的语义关系,对于知识库自动构建、问答系统等领域有着极为重要的意义。远程监督关系抽取(Distant Supervision Relation Extraction,DSRE)通过外部知识库代替人工对语料进行标注,可以低成本地获取大量标注数据,是目前主流的关系抽取方法。
知识库中有大量形如“实体1,实体2,实体1、2关系”的三元组,远程监督将一个无标注语料库对齐到已知的知识库,知识库中的每一条三元组都对应一个句子集合,这种句子集合称为包(Bag)。包中的句子都是从无标注语料库中获得,且同一个包中的句子都含有相同的实体对(即对应三元组中的两个实体)。远程监督关系抽取假设包中的每一个句子都具有对应实体对的关系,这使得在获得大量标注数据的同时,也引入了大量的噪声即错误标注的数据。
远程监督关系抽取的目标是训练一个关系抽取器,然后针对一个未标注的包(在知识库中该包的实体对间不存在关系),预测该包的关系,从而得到一个新的知识(三元组)。训练数据含有大量的噪声会导致神经网络拟合到噪声上,影响关系抽取的效果。目前,缓解噪声数据的主流方法是多实例学习(Multi Instance Learning),即从一个包中只选出一个句子来预测该包对应实体对的关系,但包中往往有多个标注正确的句子,并且有些句子可能隐式地表示了包的关系,因此多实例学习浪费了数据集中大量句子的语义信息。
发明内容
本发明的目的是为了解决现有的远程监督关系抽取方法在噪声环境下抽取效果差,无法充分挖掘包中句子的语义信息的技术问题,创造性地提出一种基于课程学习的远程监督关系抽取方法。
本发明所述方法,将关系抽取器看作学生网络(StudentNet),针对关系抽取任务,设计一个导师网络(MentorNet)来监督关系抽取器的训练过程。导师网络接收关系抽取器的相关特征信息输入,学习出包中每个句子的权重,然后将其反馈到关系抽取器中,使得质量好的句子更多参与到关系抽取器的训练过程中。同时,本方法为了高效地协同训练两个网络,在交替局部梯度下降方法基础上进行改进,提出了一个适用于关系抽取任务的联合优化方法。
有益效果
本发明方法与现有技术相比,具有如下有益效果:
本发明将课程学习领域的导师网络引入到远程监督关系抽取领域,并对相关算法进行改进,提高了噪声环境下关系抽取的效果。本方法制定了一个针对关系抽取的导师网络,使其在训练时考虑了关系抽取器中的特征,更加充分挖掘了包内句子信息。协同训练两个网络使之达到数据正则化的效果,提升了关系抽取器泛化能力。本方法在主流的关系抽取数据集中取得了优于传统方法的效果。
附图说明
图1是本方法的整体框架图;
图2是PCNN的结构图;
图3是针对关系抽取的导师网络结构图;
图4是本发明方法与一些目前存在方法的Precision/Recall曲线图。
具体实施方式
下面结合附图对本发明方法做进一步详细说明。
本实施例详细阐述了本方法在关系抽取主流数据集下具体实施时的方法和效果。如图1所示,一种基于课程学习的远程监督关系抽取方法,包括以下步骤:
步骤1:获取知识库,将知识数据集中的句子,按包进行划分。
将知识数据集中的句子按照对应的实体对划分成包,使包中的句子具有相同的实体对,并将该实体对对应的关系赋给每个句子。
步骤2:获取关系抽取器的相关特征。
具体包括以下步骤:
步骤2.1:获取包中每个句子的向量表示(Sentence Embedding)。如图2所示,包括以下步骤:
步骤2.1.1:得到句子中每个词语的向量表示。
对于一个句子S={w1,w2,…,w|S|},每个单词wi的向量表示,包括词嵌入表示(WordEmbedding)和相对位置嵌入表示(Position Embedding)两部分。其中,词嵌入表示通过Word2vec算法在大规模文本上训练获得。相对位置嵌入表示,指句子中每个词到实体对中每个实体的相对距离嵌入到向量。词嵌入表示的维度为km,相对位置嵌入表示的维度为kd,最终得到词表示的维度为k=km+2kd;S中每个词的表示则
步骤2.1.2:用一个含有m个卷积核{f1,f2,…,fm}的分段卷积神经网络(PiecewiseConvolutional Neural Network,PCNN),得到句子S的向量表示。其中,fm表示第m个卷积核,每一个卷积核l表示卷积核的长度,k表示卷积核的宽度。
首先,通过m个卷积核提取卷积特征cij:
cij=fi*wj-l+1:j (1)
然后,对于每个卷积核fi对应的卷积结果ci,按照句子中的两个实体位置划分为三部分{ci1,ci2,ci3},进行分段最大池化操作:
pij=max(cij) (2)
其中,1≤i≤m,1≤j≤3。
se=tanh(p1:m) (3)
步骤2.2:获取包中每个句子对应关系的向量表示(Label Embedding)。
数据集中,实体对之间存在已知的关系总数为N,则关系集合为R={r1,r2,…,rN},可以通过Embedding技术等,将每种关系表示为维度为dr的向量,则包中的每一个句子都对应一个关系标签向量从而包Bi对应一个关系标签矩阵
步骤2.3:获取包中每个句子的损失值。
包括以下步骤:
首先,计算关系集合R中每个关系在句子S的预测得分:
o=Ws*se+bs (4)
然后,利用Softmax计算关系ri的概率:
其中,θ为关系抽取器中可训练参数,oj表示关系集合中第j个关系在句子S的预测得分。
最后,利用交叉熵损失函数,得到句子S对应的损失值L:
步骤2.4:计算当前训练进度(Epoch Percentage Embedding)。
其中,训练一次整个训练集称为1个epoch,k表示当前关系抽取器训练到第k个epoch,maxEpochs表示总的epoch数量,将epochPercent离散化到[0,99]间的整数。
为方便导师网络基于包进行处理,将包对应一个训练进度集合E={ee1,ee2,…,een},E中元素都相同于ee,然后可以利用Embeddging技术,将每一个eet∈E嵌入到向量de表示向量的维度,则包Bi对应的训练进度矩阵
步骤3:用导师网络预测包中每个句子的权重。
导师网络结构如图4所示,主要由一层双向长短期记忆神经网络(Long ShortTerm Memory Neural Network,LSTM)和两层全连接层组成,导师网络的输入即为步骤2得到的4个关系抽取器的特征信息。通过导师网络预测包中每个句子的权重主要有两个步骤:
步骤3.1:通过双向长短期记忆神经网络捕捉包中句子的损失信息。
通过步骤2.3,得到包Bi对应的损失值集合Ls={l1,l2,…,ln},对于每第t个损失值lt∈Ls,其对应的滑动平均为通过双向长短期记忆神经网络对进行编码捕捉损失值的方差信息,双向长短期记忆神经网络的隐藏层大小为dh,则第t个损失对应的输出向量为则损失值集合Ls对应的双向长短期记忆神经网络的输出向量矩阵为
步骤3.2:通过两个全连接层预测包的句子权重。
具体包括以下步骤:
首先,对步骤2和步骤3.1得到的信息进行水平拼接,得到输入矩阵:
I=[EE;SE;LE;LO] (8)
然后,将I经过两层全连接得到句子权重v:
v=sigmoid(W2tanh(W1IT+b1)+b2) (9)
步骤4:用导师网络预测出来的句子权重直接作用于关系抽取器中的句子向量,得到包对应关系的概率。
步骤4.1:计算包Bi对应的权重性向量表示:
步骤4.2:计算包Bi对应关系ri的概率
首先,计算关系集合R中每个关系在包Bi的预测得分:
然后,利用Softmax计算关系ri的概率:
其中,Θs表示关系抽取器的网络参数,Θm表示导师网络的网络参数,q(ri|Bi;Θs,Θm)表示关系ri的概率。
步骤5:根据训练集和优化目标,对两个网络参数进行联合优化更新。优化目标如下:
其中,D={B1,B2,…,B|D|}是训练数据集的包集合,λ为超参数。
步骤6:根据训练好的模型,针对未标注的包,预测该包的关系,从而获得新的三元组知识,进而挖掘出包中句子的语义信息。
实验验证对比如下:
本发明方法和各种基准方法的在NYT数据集上的实验对比结果如下所示,在P@N指标和AUC值上,与基线方法相比,本发明方法均取得了较大的效果提升。另外,从图4可以看出,本发明方法的关系抽取效果优于现有效果较好的关系抽取方法。
表1基线方法和课程学习方法的P@N指标
表2基线方法和课程学习方法的AUC值
Claims (9)
1.一种基于课程学习的远程监督关系抽取方法,其特征在于,包括以下步骤:
步骤1:获取知识库,将知识数据集中的句子,按包进行划分;
步骤2:获取关系抽取器的相关特征,包括以下步骤:
首先,获取包中每个句子的向量表示;
然后,获取包中每个句子对应关系的向量表示;
之后,获取包中每个句子的损失值;
最后,计算当前训练进度;
步骤3:用导师网络预测包中每个句子的权重,包括以下步骤:
首先,通过双向长短期记忆神经网络捕捉包中句子的损失信息;
然后,通过两个全连接层预测包的句子权重;
步骤4:用导师网络预测出来的句子权重直接作用于关系抽取器中的句子向量,得到包对应关系的概率;
步骤5:根据训练集和优化目标,对两个网络参数进行联合优化更新;
步骤6:根据训练好的模型,针对未标注的包,预测该包的关系,从而获得新的三元组知识,进而挖掘出包中句子的语义信息。
2.如权利要求1所述的一种基于课程学习的远程监督关系抽取方法,其特征在于,所述步骤2,其中,获取包中每个句子的向量表示的方法如下:
步骤2.1.1:得到句子中每个词语的向量表示;
对于一个句子S={w1,w2,…,w|S|},每个单词wi的向量表示,包括词嵌入表示和相对位置嵌入表示两部分,其中,词嵌入表示通过Word2vec算法在大规模文本上训练获得;相对位置嵌入表示,指句子中每个词到实体对中每个实体的相对距离嵌入到向量;词嵌入表示的维度为km,相对位置嵌入表示的维度为kd,最终得到词表示的维度为k=km+2kd;S中每个词的表示则
首先,通过m个卷积核提取卷积特征cij:
cij=fi*wj-l+1:j (1)
然后,对于每个卷积核fi对应的卷积结果ci,按照句子中的两个实体位置划分为三部分{ci1,ci2,ci3},进行分段最大池化操作:
pij=max(cij) (2)
其中,1≤i≤m,1≤j≤3;
se=tanh(p1:m) (3)
4.如权利要求1所述的一种基于课程学习的远程监督关系抽取方法,其特征在于,所述步骤2,其中,获取包中每个句子的损失值的方法如下:
首先,计算关系集合R中每个关系在句子S的预测得分:
o=Ws*se+bs (4)
然后,利用Softmax计算关系ri的概率:
其中,θ为关系抽取器中可训练参数,oj表示关系集合中第j个关系在句子S的预测得分;
最后,利用交叉熵损失函数,得到句子S对应的损失值L:
7.如权利要求1所述的一种基于课程学习的远程监督关系抽取方法,其特征在于,所述步骤3,其中,通过两个全连接层预测包的句子权重的方法如下:
首先,对获取到的关系抽取器的相关特征,和通过双向长短期记忆神经网络捕捉包中句子的损失信息进行水平拼接,得到输入矩阵:
I=[EE;SE;LE;LO] (8)
然后,将I经过两层全连接得到句子权重v:
v=sigmoid(W2 tanh(W1IT+b1)+b2) (9)
8.如权利要求1所述的一种基于课程学习的远程监督关系抽取方法,其特征在于,所述步骤4的实现方法如下:
步骤4.1:计算包Bi对应的权重性向量表示:
步骤4.2:计算包Bi对应关系ri的概率:
首先,计算关系集合R中每个关系在包Bi的预测得分:
然后,利用Softmax计算关系ri的概率:
其中,Θs表示关系抽取器的网络参数,Θm表示导师网络的网络参数,q(ri|Bi;Θs,Θm)表示关系ri的概率。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910491099 | 2019-06-06 | ||
CN2019104910992 | 2019-06-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191461A CN111191461A (zh) | 2020-05-22 |
CN111191461B true CN111191461B (zh) | 2021-08-03 |
Family
ID=70707970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911395765.9A Active CN111191461B (zh) | 2019-06-06 | 2019-12-30 | 一种基于课程学习的远程监督关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191461B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832440B (zh) * | 2020-06-28 | 2024-04-02 | 高新兴科技集团股份有限公司 | 人脸特征提取模型的构建方法、计算机存储介质及设备 |
CN112613306B (zh) * | 2020-12-31 | 2024-08-02 | 恒安嘉新(北京)科技股份公司 | 抽取实体关系的方法、装置、电子设备、及存储介质 |
CN113076391B (zh) * | 2021-01-27 | 2022-09-20 | 北京理工大学 | 一种基于多层注意力机制的远程监督关系抽取方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294593A (zh) * | 2016-07-28 | 2017-01-04 | 浙江大学 | 结合从句级远程监督和半监督集成学习的关系抽取方法 |
CN106354710A (zh) * | 2016-08-18 | 2017-01-25 | 清华大学 | 一种神经网络关系抽取方法 |
CN107273349A (zh) * | 2017-05-09 | 2017-10-20 | 清华大学 | 一种基于多种语言的实体关系抽取方法及服务器 |
CN108629772A (zh) * | 2018-05-08 | 2018-10-09 | 上海商汤智能科技有限公司 | 图像处理方法及装置、计算机设备和计算机存储介质 |
CN108733792A (zh) * | 2018-05-14 | 2018-11-02 | 北京大学深圳研究生院 | 一种实体关系抽取方法 |
-
2019
- 2019-12-30 CN CN201911395765.9A patent/CN111191461B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294593A (zh) * | 2016-07-28 | 2017-01-04 | 浙江大学 | 结合从句级远程监督和半监督集成学习的关系抽取方法 |
CN106354710A (zh) * | 2016-08-18 | 2017-01-25 | 清华大学 | 一种神经网络关系抽取方法 |
CN107273349A (zh) * | 2017-05-09 | 2017-10-20 | 清华大学 | 一种基于多种语言的实体关系抽取方法及服务器 |
CN108629772A (zh) * | 2018-05-08 | 2018-10-09 | 上海商汤智能科技有限公司 | 图像处理方法及装置、计算机设备和计算机存储介质 |
CN108733792A (zh) * | 2018-05-14 | 2018-11-02 | 北京大学深圳研究生院 | 一种实体关系抽取方法 |
Non-Patent Citations (3)
Title |
---|
Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks;D.Zeng 等;《Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing》;20150930;第1753-1762页 * |
MentorNet: Regularizing Very Deep Neural Networks on Corrupted Labels;L.Jiang 等;《arXiv》;20180813;第1-21页 * |
MSnet:Multi-Head Self-Attention Network for Distantly Supervised Relation Extraction;TINGTING SUN 等;《IEEE Access》;20190425;第54472-54482页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111191461A (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107563498B (zh) | 基于视觉与语义注意力相结合策略的图像描述方法及系统 | |
US20240177047A1 (en) | Knowledge grap pre-training method based on structural context infor | |
CN106650756B (zh) | 基于知识迁移的多模态循环神经网络的图像文本描述方法 | |
CN108416065B (zh) | 基于层级神经网络的图像-句子描述生成系统及方法 | |
CN111444305A (zh) | 一种基于知识图谱嵌入的多三元组联合抽取方法 | |
CN112347268A (zh) | 一种文本增强的知识图谱联合表示学习方法及装置 | |
CN110334219A (zh) | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 | |
CN110298037A (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN112883738A (zh) | 基于神经网络和自注意力机制的医学实体关系抽取方法 | |
CN109299216A (zh) | 一种融合监督信息的跨模态哈希检索方法和系统 | |
CN110825881A (zh) | 一种建立电力知识图谱的方法 | |
CN107590134A (zh) | 文本情感分类方法、存储介质及计算机 | |
CN111191461B (zh) | 一种基于课程学习的远程监督关系抽取方法 | |
CN109684449B (zh) | 一种基于注意力机制的自然语言语义表征方法 | |
CN112905762B (zh) | 一种基于同等注意力图网络的视觉问答方法 | |
CN107766320A (zh) | 一种中文代词消解模型建立方法及装置 | |
CN112232086A (zh) | 一种语义识别方法、装置、计算机设备及存储介质 | |
CN114491039B (zh) | 基于梯度改进的元学习少样本文本分类方法 | |
CN111881292B (zh) | 一种文本分类方法及装置 | |
CN113157919B (zh) | 语句文本方面级情感分类方法及系统 | |
CN112749556B (zh) | 多语言模型的训练方法和装置、存储介质和电子设备 | |
CN108154156B (zh) | 基于神经主题模型的图像集成分类方法及装置 | |
CN112966525A (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN109710787B (zh) | 基于深度学习的图像描述方法 | |
CN109271632B (zh) | 一种监督的词向量学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |