CN107943784A

CN107943784A - 基于生成对抗网络的关系抽取方法

Info

Publication number: CN107943784A
Application number: CN201711063765.XA
Authority: CN
Inventors: 刘兵; 蒋方玲; 蒋黎明; 龚向坚
Original assignee: University of South China
Current assignee: University of South China
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2018-04-20
Anticipated expiration: 2037-11-02
Also published as: CN107943784B

Abstract

本发明公开了一种基于生成对抗网络的关系抽取方法，包括准备训练文本和待分析文本；对训练文本和待分析文本进行分词和句法分析；将得到的分词和句法分析结果转换为句法分析树图像；对生成器和判别器进行训练得到生成对抗网络模型；采用生成对抗网络对待分析文本进行关系抽取。本发明简化了其他基于深度学习方法的输入数据处理过程，放弃了相对繁琐的向量化过程，输入数据处理相对简单，利用的特征相对目前基于深度学习的关系抽取方法更丰富，关系识别过程模拟人的思维模式，将生成对抗网络应用到关系抽取中，充分发挥生成对抗网络的自动学习图像中特征的能力，提高关系抽取的效果，而且方法简单可靠。

Description

基于生成对抗网络的关系抽取方法

技术领域

本发明具体涉及一种基于生成对抗网络的关系抽取方法。

背景技术

随着信息技术的迅速发展，互联网上的资源爆炸式增长。互联网中社交媒体数据、百科、论坛、专业文献、新闻等非结构化文本数据包含了丰富的领域知识信息。众多领域专家利用互联网上的文本数据构建结构化的领域知识库，以指导领域内业务问题的推理决策。知识库包含了领域相关实体以及实体间的关系，利用关系抽取技术从海量非结构化的文本中识别抽取领域实体的语义关系是构建知识库的关键步骤。

目前关系抽取的方法主要分为两类：基于规则的方法以及基于机器学习的方法。基于规则的方法主要利用人类的经验和总结设置特定的规则，抽取文本中的实体关系。基于规则的方法规则的设定费时费力，需要专业的领域人才设置规则。规则在不同领域数据上的迁移能力较弱，需要针对每一个领域数据编写适当的规则。基于机器学习的方法目前主要有基于特征的方法、基于核函数的方法、基于深度学习的方法。基于特征的方法和基于核函数的方法需要人工选择大量对关系抽取有辨别性的特征，定义特征模板，抽取特征，工作相对繁琐。基于深度学习的方法将文本特征信息映射为向量，利用CNN、RNN等模型学习实体间关系的特征进行识别分类。相对于传统方法，基于深度学习的方法模拟人的思维方式，性能上有一定的提升。但其特征的向量化过程相对复杂，同时普遍没有考虑对关系抽取有一定影响的文本整体结构信息。

发明内容

本发明的目的在于提供一种方法简单可靠、将对关系抽取有判别性的特征图像化处理的基于生成对抗网络的关系抽取方法。

本发明提供的这种基于生成对抗网络的关系抽取方法，包括如下步骤：

S1.准备训练文本和待分析文本；所述训练文本中的实体和实体间的关系已经标注，待分析文本中的实体已经进行了标注；

S2.采用自然语言处理工具对训练文本和待分析文本进行分词和句法分析；

S3.采用图形绘制工具将步骤S2得到的分词和句法分析结果转换为句法分析树图像；

S4.采用步骤S3获取的训练文本的句法分析树图像和标注的文本中实体间的关系，对生成器和判别器进行相互竞争的迭代训练，从而得到训练好的生成对抗网络模型；

S5.采用步骤S4得到的生成对抗网络，输入步骤S3获取的待分析文本的句法分析树图像，对待分析文本进行关系抽取。

步骤S2所述的自然语言处理工具为Stanford Parser或者具有类似功能的自然语言处理工具。

步骤S3所述的图形绘制工具为Graphviz或者具有类似功能的图形绘制工具。

步骤S4所述的对生成器和判别器进行相互竞争的迭代训练，具体为采用随机梯度下降法对生成器和判别器进行相互竞争的迭代训练。

所述的采用随机梯度下降法对生成器和判别器进行相互竞争的迭代训练，具体为采用如下步骤进行训练：

A.生成m组训练文本及相应的句法分析树图像；

B.初始化判别器D和生成器G，并且每一次迭代中均包括依次判别器D的训练和生成器G的训练；

C.采用m个噪声向量和m个训练样本的句法分析树图像作为输入，采用如下公式计算梯度，并在判别器D的原有参数上增加计算得到的梯度更新判别器D的参数：

式中zⁱ表示第i个噪声向量,xⁱ表示第i个训练样本，D_y(xⁱ)表示第i个训练样本判断为关系y的概率，实体间的关系的个数定义为N_r，y^r表示第r种关系；N_r+1表示判别器的输入图像是生成器生成的假图像；D_y ^r(x)表示输入图像x中的实体间的关系是y^r关系的概率；表示用于更新判别器D的梯度；

D.采用m个噪声向量作为输入，采用如下公式计算梯度，并在生成器G的原有参数上增加计算得到的梯度并更新生成器G的参数：

式中，表示用于更新生成器G的梯度；G(zⁱ)表示第i个噪声向量经过G后生成的图像；

E.以下式为目标函数，重复步骤C和D，直至训练完成，从而得到最终的训练模型：

本发明提供的这种基于生成对抗网络的关系抽取方法，简化了其他基于深度学习方法的输入数据处理过程，放弃了相对繁琐的向量化过程，将对关系抽取有判别性的词汇特征、句法特征、词汇相对位置、上下文信息、句子整体结构信息图像化，作为生成对抗网络的输入，模型的输入数据处理相对简单，利用的特征相对目前基于深度学习的关系抽取方法更丰富，关系识别过程模拟人的思维模式，将生成对抗网络应用到关系抽取中，充分发挥生成对抗网络的自动学习图像中特征的能力，提高关系抽取的效果，而且本发明方法简单可靠。

附图说明

图1为本发明方法的方法流程图。

图2为本发明的实施例中的句法分析树图像的示意图。

具体实施方式

如图1所示为本发明方法的方法流程图：本发明提供的这种基于生成对抗网络的关系抽取方法，包括如下步骤：

S1.准备训练文本和待分析文本；所述训练文本中的实体和实体间的关系已经进行了标注，待分析文本中的实体已经进行了标注；

S2.采用自然语言处理工具对训练文本和待分析文本进行分词和句法分析；自然语言处理工具可以采用Stanford Parser或者具有类似功能的自然语言处理工具；

S3.采用图形绘制工具将步骤S2得到的分词和句法分析结果转换为句法分析树图像；图形绘制工具可以采用Graphviz或者具有类似功能的图形绘制工具；

采用多层卷积层、平均化池、softmax全连接层实现判别器D，每一个卷积层后做批量归一化和指数线性单元处理。采用多层反卷积层实现生成器G。在判别器D中，输入数据经过多层卷积层做卷积操作，将输入数据映射到隐层空间，继而经过全连接层，融合学习到的特征，最后利用softmax实现分类；

对于一个给定的图像，其实体间对应的关系定义为y，实体间的关系的个数定义为N_r，y^r表示第r种关系。N_r+1表示判别器的输入图像是生成器生成的假图像，表示输入图像x中的实体间的关系是y^r关系的概率；

随机噪声z作为生成器的输入，生成器生成句法分析树图像语料生成的句法分析树图像x和生成器生成的图像作为判别器的输入，对于语料生成的句法分析树图像x，判别器输出两个实体间最有可能的某一种关系y^r，对于生成器生成的句法分析树图像，判别器判定两个实体间是生成的假图像，输出通过判别器的类别判定，最终实现关系的抽取；

对生成器和判别器进行相互竞争的迭代训练，具体为采用随机梯度下降法对生成器和判别器进行相互竞争的迭代训练，具体包括如下步骤进行训练：

A.生成m组训练文本及相应的句法分析树图像；

E.以下式为目标函数，重复步骤C和D，直至训练完成，从的得到最终的训练模型：

以下结合一个具体实施例对本发明进行进一步说明：

对于要输入的句子文本利用Stanford Parser进行分词。比如说例句“人们喜欢美丽的花儿”的分词结果是“人们喜欢美丽的花儿。”

对分词后的结果利用Stanford Parser进行句法分析。比如说例句“人们喜欢美丽的花儿。”句法分析结果是

利用图形绘制工具Graphviz将Stanford Parser的句法分析结果转化为PNG格式句法分析树图像，生成的句法分析树图像作为判别器的输入。如图2所示是语句“人们喜欢美丽的花儿”的句法分析树图像。

采用多层卷积层、平均化池、softmax全连接层实现判别器D。每一个卷积层后做批量归一化和指数线性单元处理。采用多层反卷积层实现生成器G。如表1所示的网络结构可以作为生成器G和判别器D的一种具体实现。

表1

句法分析树图像在判别器D中经过多层卷积层做卷积操作，将输入数据映射到隐层空间，继而经过全连接层，融合学习到的特征，最后利用softmax实现分类；从而实现对待分析文本的关系抽取。

本发明所提出的方法是有监督的深度学习方法。需要少量的带标签的数据输入生成对抗网络模型中，通过正反向传播和模型参数的自动更新逐渐达到目标函数，得到训练好的模型。设定整个训练过程需要训练迭代的次数，以正态分布初始化噪声向量，取一定数量的带有关系标签的文本数据(比如说2000个句子)生成句法分析树图像。将生成的句法分析树图像，图像中实体间关系类别和噪声向量作为判别器输入，经过判别器网络处理后，计算梯度，更新判别器的参数。取和判别器训练相同数目的噪声向量输入生成器，生成器生成句法分析树图像，交由判别器判断，判别器给出判断，通过计算梯度反馈给生成器，更新生成器的参数。经过相互迭代训练，判别器的判别能力越来越强，生成器生成的图像也越来越真，达到训练的迭代次数后，训练过程终止。得到的判别器即可用于待分析文本的关系抽取。

如图2所示的句法分析树图像，输入训练好的判别器，经过多层卷积层、平均化池、全连接、softmax操作后，判别器判定实体“人们”和“花儿”间的关系是“喜欢”。

Claims

1.一种基于生成对抗网络的关系抽取方法，包括如下步骤：

S4.采用步骤S3得到的训练文本的句法分析树图像和标注的文本中实体间的关系，对生成器和判别器进行相互竞争的迭代训练，从而得到训练好的生成对抗网络模型；

2.根据权利要求1所述的基于生成对抗网络的关系抽取方法，其特征在于步骤S2所述的自然语言处理工具为Stanford Parser或者具有类似功能的自然语言处理工具。

3.根据权利要求2所述的基于生成对抗网络的关系抽取方法，其特征在于步骤S3所述的图形绘制工具为Graphviz或者具有类似功能的图形绘制工具。

4.根据权利要求3所述的基于生成对抗网络的关系抽取方法，其特征在于步骤S4所述的对生成器和判别器进行相互竞争的迭代训练，具体为采用随机梯度下降法对生成器和判别器进行相互竞争的迭代训练。

5.根据权利要求4所述的基于生成对抗网络的关系抽取方法，其特征在于所述的采用随机梯度下降法对生成器和判别器进行相互竞争的迭代训练，具体为采用如下步骤进行训练：

A.生成m组训练文本及相应的句法分析树图像；

<mrow> <mo>&dtri;</mo> <msub> <mi>&theta;</mi> <mi>d</mi> </msub> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mo>&lsqb;</mo> <msub> <mi>logD</mi> <mi>y</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mi>i</mi> </msup> <mo>)</mo> </mrow> <mo>+</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msubsup> <mi>D</mi> <mi>y</mi> <mrow> <msub> <mi>N</mi> <mi>r</mi> </msub> <mo>+</mo> <mn>1</mn> </mrow> </msubsup> <mo>(</mo> <mrow> <mi>G</mi> <mrow> <mo>(</mo> <msup> <mi>z</mi> <mi>i</mi> </msup> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow>

<mrow> <mo>&dtri;</mo> <msub> <mi>&theta;</mi> <mi>g</mi> </msub> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>logD</mi> <mi>y</mi> </msub> <mrow> <mo>(</mo> <mi>G</mi> <mo>(</mo> <msup> <mi>z</mi> <mi>i</mi> </msup> <mo>)</mo> <mo>)</mo> </mrow> <mo>)</mo> </mrow>