CN111651528A

CN111651528A - 基于生成式对抗网络的开放式实体关系抽取方法

Info

Publication number: CN111651528A
Application number: CN202010396741.1A
Authority: CN
Inventors: 罗森林; 白崇有; 潘丽敏; 郭佳; 吴舟婷
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-09-11

Abstract

本发明涉及基于生成式对抗网络的开放式实体关系抽取方法，属于自然语言处理与机器学习领域。针对微博数据短小杂乱的特点，以及现有方法未考虑句子间语义相似性导致抽取的实体关系对准确率低且冗余的问题，提出一种基于生成式对抗网络的开放式实体关系抽取方法。该方法首先通过关系词和论元抽取规则得到实体三元组，通过语法分析树筛选三元组得到候选实体关系对。其次利用生成式对抗网络计算句子相似度，根据相似度阈值，划分相似句子组，并结合组内句子包含的实体关系对与其对应的置信度，合并组内实体关系对。本发明在NLP&&CC微博语料上进行实验，结果表明通过计算实体关系对置信度和划分相似句子组，合并组内实体关系对，提高了准确率和召回率，达到了去冗余的效果。

Description

基于生成式对抗网络的开放式实体关系抽取方法

技术领域

本发明涉及基于生成式对抗网络的开放式实体关系抽取方法，属于自然语言处理与机器学习领域。

背景技术

原始文本都是无结构化的。开放式实体关系抽取技术能够从原始文本中，抽取出实体以及实体对之间存在的关系，形成三元组，三元组的形式为<实体1，关系，实体2>。实体关系抽取技术是很多其他自然语言处理任务的基础，比如知识库构建、问答系统等。

为了解决微博数据的杂乱冗余性质引发的关系抽取器抽取结果准确率低且冗余的问题，研究开放式实体关系抽取技术。因此，本发明将提供基于生成式对抗网络的开放式实体关系抽取方法来提高系统抽取实体关系的能力。

本发明需要解决的基本问题是：从杂乱无序的微博数据中，抽取不限类别的实体、实体关系，形成结构化的数据。现有的开放式实体关系抽取系统和方法，主要包括以下几种：

1.TextRunner系统和WOE系统

TextRunner是第一个开放式信息抽取系统，通过词性和基本名词短语等特征训练朴素贝叶斯模型，抽取实体之间的关系。WOE系统将维基百科数据作为训练集，通过实验证明利用数据中的依存关系可以有效提升TextRunner系统的能力。TextRunner和WOE系统都属于先识别命名实体，再抽取关系的方法。

2.基于规则的方法

ReVerb首先确定一个以动词为中心的关系短语，结合语义规则和语法规则约束抽取实体关系三元组，然后通过位置约束规则抽取实体关系三元组。该方法通过词性标注、命名实体识别和人工制定规则匹配抽取实体关系对。对于多语言的开放信息抽取，Gamallo等采用基于规则的依存分析抽取英语、葡萄牙语、加利西亚语和西班牙语的实体关系。

3.针对中文的开放式实体关系抽取系统

针对中文的开放式实体关系抽取主要有三个系统：ZORE、UnCORE和CORE。ZORE对句子进行依存分析，得到依存解析树，然后依据实体与关系词之间的依存关系迭代抽取句子的实体三元组。UnCORE系统通过制定句子中实体之间和关系指示词之间的位置限制规则，抽取候选关系三元组，然后利用信息增益筛选关系指示词，结合类型排序方法获得每个实体关系类型的关系指示词，最后通过关系词和句式规则对候选三元组进行过滤。CORE首先使用CKIP解析器分析句法结构，然后通过“head-driven”准则识别句子中的中心关系指示词，最后结合依存关系寻找中心实体词。

综上所述，现有开放式实体关系抽取方法难以处理杂乱冗余的微博数据，所以本发明提出基于生成式对抗网络的开放式实体关系抽取方法。

发明内容

本发明的目的是为缓解现有方法在微博数据集上准确率低，结果冗余的问题，提高开放式实体关系抽取性能，提出基于生成式对抗网络的开放式实体关系抽取方法。

本发明的设计原理为：首先，对数据进行预处理，包括：提取微博数据的正文，对正文进行分句、分词、去停用词和词性标注，利用依存分析工具，得到依存句法解析树；其次，通过基本名词识别规则确定候选论元，结合关系词抽取规则和论元抽取规则得到实体关系三元组，利用语法分析树筛选实体关系三元组，得到候选实体关系对；然后，基于生成式对抗网络(GAN,Generative Adversarial Networks)计算句子相似度Sim，得到所有句子的句子相似度矩阵；最后，根据句子相似度矩阵和相似度阈值划分相似句子组，在每个相似句子组内，分别计算每个实体关系三元组的置信度，结合组内句子包含的实体关系对与其对应的置信度，合并组内实体关系对作为该句子组的最优实体关系三元组。

本发明的技术方案是通过如下步骤实现的：

步骤1，对微博数据进行预处理。

步骤1.1，提取微博数据的正文。

步骤1.2，对微博数据的正文进行分句、分词、去停用词和词性标注。

步骤1.3，利用依存分析工具，得到依存句法解析树。

步骤1.4，利用语法分析工具，得到语法分析树。

步骤2，抽取候选实体关系对。

步骤2.1，结合基本名词短语规则、关系词抽取规则和论元抽取规则抽取实体关系三元组。

步骤2.2，通过语法分析树，对实体关系三元组进行筛选，生成实体关系三元组候选集。

步骤3，计算句子相似度。

步骤3.1，基于生成式对抗网络计算句子相似度Sim。

步骤3.2，重复步骤3.1得到句子相似度矩阵。

步骤4，实体关系对合并。

步骤4.1，根据句子相似度矩阵和相似度阈值划分相似句子组。

步骤4.2，结合组内句子包含的实体关系三元组其对应的置信度，合并组内实体关系对，作为该句子组的最优实体关系三元组。

有益效果

相比于现有的开放式实体关系抽取系统和方法，本发明能够有效缓解微博数据实体关系对抽取结果准确率低且冗余的问题。

附图说明

图1为本发明基于生成式对抗网络的开放式实体关系抽取方法的原理图。

图2为依存句法示例图。

图3为语法分析树示例图。

图4为基于生成式对抗网络的句子相似度计算方法的原理图。

图5为生成式对抗网络挖掘两个句子相同特征的原理图。

图6为实体关系对合并原理图。

具体实施方式

为了更好地说明本发明的目的和优点，下面结合实例对本发明方法的实施方式做进一步详细说明。

具体流程为：

步骤1，对微博数据进行预处理。

步骤1.1，提取正文内容，使用正则表达式过滤html标签和噪声符号，同时将正文中的繁体转换为简体。

步骤1.2，对正文数据进行分句，结合哈工大的语言云LTP对每个句子进行分词、词性标注和依存关系分析，并将包含少于4个有效词(包括名词、动词、形容词、数词、时间词等)的文本去除。

步骤1.3，依存句法分析通过分析句子中语言单位内成分之间的依存关系揭示其句法结构，利用哈工大提供的LTP依存分析工具分析句子“白宫预算委员会的民主党星期一发布报告”中成分之间的依存关系见图2。依存句法标注关系及含义见表1。

表1.依存句法标注关系表

步骤1.4，引入语法信息去除噪声，语法分析树是一个有序的、有根节点的树，它能够描述句子的语法结构。利用斯坦福解析器分析句子的语法结构，并获取语法分析树。使用该工具分析句子“小明助手小红抵达上海”的语法结构见图3。

步骤2，抽取候选实体关系对。

步骤2.1，首先根据词性标注结果和名词短语抽取规则得到基本名词短语；其次将句子中存在VOB(动宾关系)或FOB(前置宾语)依存关系路径的动词视为候选关系词；最后将基本名词短语中的成分与候选关系词存在SBV(主谓关系)、VOB、FOB的作为该动词的论元，得到“SBV-关系词-VOB”和“SBV-FOB-关系词”两种依存关系路径的实体关系对。

具有否定结构的句子需要特殊处理，例如，“部分大学生没有参加晚会”，按照上述实体关系对抽取规则得到“e1：部分大学生，e2：晚会，r：参加”实体关系对，结果不正确，所以需要考虑否定词，正确结果应是：“e1：部分大学生，e2：晚会，r：没有参加”。

通过建立一个否定词集来识别否定词，对于识别出来的否定词，将其加入与之存在依存关系路径(ADV)的关系词中。否定词包括：非、没、无、不、防止、没有、难以、禁止、难以、忘记、忽略、放弃、杜绝、拒绝、差点儿、差点儿没、不明不白。

步骤2.2，通过语法分析树，对实体关系三元组进行筛选，生成实体关系三元组候选集。从图3的语法分析树可以看到每两个单词都是连接的。并且紧密相连的单词之间的距离通常很短。因此，对于句子中的每个候选实体关系三元组，在语法分析树中计算实体关系三元组中的关系关键字与实体关系三元组中的两个实体的距离之和。对于每个关系关键字，选择距离和最短的实体对和该关系组成三元组，同时将该关系的其他三元组删除。

步骤3，计算句子相似度。

步骤3.1，基于生成式对抗网络计算句子相似度的方法原理见图4。传统的神经网络方法只关注句子更好的向量表示，比如，给出一个句子对，X＝x₁,x₂,…,x_m和Y＝y₁,y₂,…,y_n，目标是计算这两个句子的相似性。首先，X和Y中的每个单词被映射为词向量，分别使用x_i∈R^d和y_j∈R^d表示，其中d表示词向量的维度；其次使用LSTM获得句子中每个单词对应的隐层状态；然后在隐层状态上进行最大池化操作来获得句子的表示H_X和H_Y；最后根据具有l₁范数的曼哈顿距离相似度函数计算两个句子表示(H_X和H_Y)的相似度得分，公式表示如式1所示，

S(X,Y)＝exp(-‖H_X-H_Y‖₁) (1)

另外，本方法添加生成式对抗网络来挖掘两个句子的共同特征，把挖取到的共同特征和公式1计算的相似度分数相结合，把组合的特征输入到softmax层来获得相似度分布，公式如式2所示，

其中，c∈{0,…C-1}是一个相似度标签,C＝2，F_G∈R^k是生成的共同特征表示向量，

表示连接操作，W_s∈R^C×(k+1)和b_s∈R^C是softmax层的参数。

损失函数通常采用交叉熵，定义如公式3所示，

其中，θ^s表示参数集合，包含所有可训练的参数，(X,Y,c)是数据集D中的样例，(c＝j)∈{0,1}。

本方法中的生成式对抗网络用于挖掘两个句子的共同特征，图5说明了该网络的细节。该网络提取句子共同特征主要包括以下几个步骤：

(1)如果一个单词出现在两个句子中，那么在进行相似度计算过程中这个单词可能比其他单词更加重要，并且他们的隐层状态也会包含更多的共同信息。所以选择两句话中重叠单词的隐层状态表示用于共同特征挖掘。获得这些隐层状态表示之后，采用最大池化操作，从而获得句子的表示向量，最终句子X和Y被表示成F_X∈R^k和F_Y∈R^k。

(2)使用生成式对抗网络中的生成器产生共同特征，比如说将F_Y输入到生成器中，会产生新的特征表示，公式如4所示，

F_G＝G(F_Y)＝tanh(W_gF_y+b_g) (4)

其中，W_g∈R^k×k和b_g∈R^k是生成器G的参数。生成器生成新的特征表示之后与判别器进行对抗来保留与F_X共同的信息。

(3)如果无法将新生成的特征F_G与F_X区分开，则基于句子Y生成的特征也将包含句子X的信息，也就是说F_G是句子X和Y的共同特征。为此，在生成式对抗网络中引入一个判别器D用于评价F_G。将F(F_X或者F_G)输入D中，判别器将会输出一个概率分布用于判断F来自于句子X或Y。该概率分布由判别器中的softmax函数来计算，公式如5所示，

D(l_F|F)＝p_d(l_F|F)＝softmax(W_dF+b_d) (5)

其中，W_d∈R^2×k和b_d∈R²是判别器的参数，l_F∈{0,1},当F来自于句子X时，l_F＝1。

(4)下面分别定义判别器和生成器的损失函数。对于判别器，最小化预测分布p_d(l_F|F)和真实标签分布的交叉熵，公式如式6所示，

其中，θ^d表示判别器中的所有参数。假设相似的句子对有更多的共性，对于相似的句子对，一个句子在生成器上产生的特征表示会跟另外一个句子的特征表示相近。对于不相似的句子对，正好相反。因此设计了一个新的生成器，它根据句子相似性标签与判别器进行协作和对抗。该生成器根据句子相似性来最大化所生成的特征的标签预测。公式如式7所示，

其中，θ^g是生成器的所有参数。最后把公式(3)(6)和(7)进行组合得到整个模型最终的目标函数，如式8所示，

J(θ)＝J_s(θ^s)+J_d(θ^d)-J_g(θ^g) (8)

推断阶段将模型最后一层softmax层的输出的概率分布的第二个值作为句子对的相似度Sim。

步骤3.2，重复上述句子相似度计算方法得到句子集中所有句子相互之间的相似度，生成句子相似度矩阵。

步骤4，实体关系对合并。

步骤4.1，实体关系对合并原理图见图6。通过句子相似度计算得到句子相似度矩阵，把相似度大于阈值的句子划分成一组。句子相似度矩阵划分成相似句子组的具体步骤如下：

(1)在句子集中选择一个句子X，把该句子添加到相似度句子组1中，在句子集中删除句子X；

(2)定位X在句子相似度矩阵中的行数i，把矩阵第i行上相似度大于0.75的所有句子加入句子组1中，并在句子集中删除它们；

(3)随机在剩余句子中选择一个句子Y，如果句子Y与句子组1中任一句子相似度大于0.75，则把Y添加到句子组1中，反之新建一个相似句子组，把Y添加进去，重复(2)；

(4)不断迭代(3)，直至句子集为空，得到n个相似句子组。

步骤4.2，对组内句子包含的所有实体关系三元组(e1,r,e2)，其中，e1∈R^d、e2∈R^d和r∈R^d都是使用word2vec工具获得的词向量。对于每个三元组，首先计算v_relation，v_relation的计算公式为v_relation＝e1-e2，v_relation包含实体关系三元组的真实关系的特征；其次计算v_relation和关系r的乘积，计算公式为

w_i表示组内第i个三元组的置信度，置信度越高表示该三元组越可信。然后对所有三元组的置信度进行归一化，公式为

q表示句子组内三元组的数量；最后根据置信度，对组内所有候选实体关系对进行排序，取排序最高的实体关系对替换组内所有句子的候选实体关系对，作为该句子组的最优实体关系对。

测试结果：基于生成式对抗网络的开放式实体关系抽取方法，在社交文本(2013年NLP&&CC会议发布的面向中文微博观点要素抽取评测任务公开语料)上进行开放式实体关系抽取方法的对比实验，对比方法包括ZORE(2014年)和CORE(2014年)。本发明优于ZORE和CORE，实现了提高准确率以及去冗余的效果，结果如表2所示，有效实现了开放式实体关系抽取。

表2.对比试验结果

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于生成式对抗网络的开放式实体关系抽取方法，其特征在于所述方法包括如下步骤：

步骤1，对微博数据进行预处理，包括：提取微博数据的正文，对微博数据的正文进行分句、分词、去停用词和词性标注，利用依存分析工具，得到依存句法解析树，利用语法分析工具，得到语法分析树；

步骤2，结合基本名词短语规则、关系词抽取规则和论元抽取规则抽取实体关系三元组，通过语法分析树，对实体关系三元组进行筛选，生成实体关系对候选集；

步骤3，基于生成式对抗网络计算句子相似度Sim，得到句子相似度矩阵；

步骤4，根据句子相似度矩阵和相似度阈值划分相似句子组，然后结合组内句子包含的实体关系对与其对应的置信度，合并组内实体关系对，作为该句子组的最优实体关系三元组。

2.根据权利要求1所述的基于生成式对抗网络的开放式实体关系抽取方法，其特征在于：步骤1中对句子同时进行依存句法分析和语法分析，得到依存句法解析树和语法分析树。

3.根据权利要求1所述的基于生成式对抗网络的开放式实体关系抽取方法，其特征在于：步骤2中通过依存句法解析树得到候选实体关系三元组，引入语法分析树，通过语法信息对候选实体关系三元组进行筛选。

4.根据权利要求1所述的基于生成式对抗网络的开放式实体关系抽取方法，其特征在于：步骤3基于生成式对抗网络计算句子相似度Sim，本方法使用LSTM得到句子的句子向量表示，使用生成式对抗网络获得句子对的共同特征表示，其次使用具有l₁范数的曼哈顿距离相似度函数计算两个句子表示的相似度得分，然后将该相似度得分与句子对的共同特征表示相结合作为组合特征，最后把组合的特征输入softmax层获得相似度值Sim，进而得到句子相似度矩阵。

5.根据权利要求1所述的基于生成式对抗网络的开放式实体关系抽取方法，其特征在于：步骤4中计算实体关系三元组的置信度时，首先计算v_relation，v_relation的计算公式为v_relation＝e1-e2，v_relation包含实体关系三元组的真实关系的特征，其次计算v_relation和关系r的乘积，计算公式为

w_i表示第i个三元组的置信度，置信度越高表示该三元组越可信，然后对所有三元组的置信度进行归一化，公式为

最后根据置信度，对组内所有候选实体关系对进行排序，取排序最高的实体关系对替换组内所有句子的候选实体关系对，作为该句子组的最优实体关系对。