CN113076421A

CN113076421A - 一种社交噪音文本实体关系抽取优化方法及系统

Info

Publication number: CN113076421A
Application number: CN202110364805.4A
Authority: CN
Inventors: 刘晓明; 李承祖; 冯乙洋; 多小川; 贺靖涵
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-07-06
Anticipated expiration: 2041-04-02
Also published as: CN113076421B

Abstract

本发明一种社交噪音文本实体关系抽取优化方法及系统，可解决社交文本领域数据标注成本大、数据更新速度快、数据集本身存在偏差以及原有模型可能陷入虚假相关性的问题。该方法将因果推断引入自然语言处理生成词向量的过程中，应用因果推断中干预与反事实的优势，实现了数据增强并减弱数据集本身带来的偏差。不仅能够减少人力标注数据的投入成本，而且能够有效模拟实际场景中文本的不规范性与创新性，提高模型对于社交噪音文本实体关系抽取的鲁棒性。与此同时，由于方法本身对于词向量进行处理，因此对于现有各类模型均有较好的适应性与应用可能性。

Description

一种社交噪音文本实体关系抽取优化方法及系统

技术领域

本发明属于实体关系提取优化技术领域，特别涉及一种社交噪音文本实体关系抽取优化方法及系统。

背景技术

实体关系提取技术已经成为大数据分析和构建知识图谱的关键一环，该技术的目标为输出句子中所有的(主体，关系类型，客体)三元组为目标。随着该领域的不断发展，新的方法不断被提出。最早期的pipeline流水线模型将实体提取与关系提取分为先后的两个步骤，但该方法容易产生累积误差。随后许多研究人员提出了多种实体关系联合抽取模型，减少了累积误差。现有的实体关系联合提取模型大致可分为基于编码器的模型和任务分解的模型两类。前者直接采用encoder-decoder编码器-解码器结构，代表模型有NovelTagging与CopyRE。NovelTagging使用Decoder输出每个词所对应的标签，而标签由单词位置、关系类型与关系角色三部分组成。CopyRE中Decoder依次提取出句子中的关系类型、主体和客体，按此顺序提取完句子中所有的三元组。而任务分解的模型采用的主要思想为将实体关系提取任务进行分解，首先提取出所有可能的主体或客体，随后进行关系提取进一步确定是否存在关于该主体或客体的关系。该思想的代表模型为CasREL。不同于以往模型使用单分类器预测各个关系的概率的方法，该模型创造性地针对不同关系使用关系特定分类器，突出地改善了实体关系提取任务的完成效果。在实体关系提取任务中，若单个句子中存在多个关系，则多个三元组之间实体对重叠、单个实体重叠、实体嵌套的现象将对模型的性能提出更高要求。对于实体嵌套现象，传统的运用指针标记主客体开始与结束位置的方法难以针对该现象导致的问题进行改善。TPLinker模型通过对主体与客体的头与尾分别进行组合的方式巧妙地化解了该问题，且该模型同时采用了类似于CasREL的多个关系分类器的方法，对句子中存在多种关系现象的关系提取任务达到了较好的普适性。

对于上述涉及的抽取模型，其对于已有的规范标记数据均有较好表现效果。然而，由于社交噪音文本本身缺少系统标记数据，并且数据更新较快，大规模标记数据耗费成本较大，且时效性较短。同时由于社交噪音文本本身的日常化及口语化的特性，其实体规范性与句法顺序规范性均不同于一般关系提取任务基于的规范文本。在利用标准数据进行正常训练进而迁移到社交文本领域时，其模型对于社交文本的泛化性与鲁棒性均较差。

除此以外，标注数据集本身存在一定的比例偏差(Bias)，在实体关系抽取领域具体表现为数据样本中某个客体与某种关系类型经常同时出现，而这种现象不具有一般性，或者主体大部分出现在客体之前等现象。如果在此类数据集上不加改动直接进行训练，对于前者可能会由于模型拟合会导致某客体与关系获得了一种虚假的相关性(SpuriousCorrelation)，即该客体和关系本身在逻辑上并不具有相关意义但由于数据集中从统计概率角度经常一起出现，进而模型错误地认为二者之间存在相关性；对于后者可能会在主体客体位置分布上由于前面提到的虚假相关性进而对于客体在前主体在后的情况无法做到准确预测甚至出现结果主客体颠倒的情况。因此，以往方法均是在统计意义上研究实体、关系、句子的相关性，不能有效减少或避免上述现象的发生。

发明内容

本发明的目的在于提供一种社交噪音文本实体关系抽取优化方法及系统，以解决上述问题。

为实现上述目的，本发明采用以下技术方案：

一种社交噪音文本实体关系抽取优化方法，包括以下步骤：

S1，利用原始数据集同类关系下的主体客体以及利用同一类别的实体替代主体客体的方法来构建语义反事实语料库；

S2，利用语法结构和识别结果标准构建反事实检验器，筛选出有利用价值的语义反事实并入原始数据，未通过检验的语义反事实数据将被删除并通过S1补齐数目；

S3，利用相对位置编码提取词语位置信息，通过对主客体的位置编码调换完成句法位置反事实生成；

S4，扩充的数据集利用BERT预训练模型作为编码器得到对应的词向量；

S5，在反事实扩充数据集的词向量的基础上，基于句法位置编码与词向量组成的数据，通过对于其中的反事实数据与原数据做同样的变换处理得到消除引入位置编码影响后的反事实词向量，作为抽取模型的输入；

S6，多分类器将数据输入得到的词向量作为模型输入进行训练，模型利用现有各类实体关系抽取模型，得到最终抽取结果；

S7，将待抽取文本经过BERT预训练模型得到对应词向量后输入已训练模型完成实体关系抽取。

进一步的，S1中，语义反事实语料库生成是通过对于同一类型关系建立的主体客体数据库进行抽取，该语料库充当反事实原始语料库，建立方式包括利用原始数据集同类关系下的主体客体、以及利用外部同一类别的实体替代主体客体；以语义相似程度作为衡量标准，利用抽取结果进行替换填充，进而在原始数据基础上生成与原数据不同但语义得到丰富的反事实数据。

进一步的，S2中，反事实检验器常用的检验标准有句法结构是否合理、主体客体词性与实体类别信息是否统一、是否能够被在原数据集上训练的模型识别得到；如果句法结构合理、词性与类别统一、能够被原模型抽取得到，则证明该反事实数据具有利用价值，被后续使用；如果未通过检验，则重新利用主体客体数据库中进行生成；外部实时数据被引入以扩充反事实原始语料库。

进一步的，S3中，句法位置反事实生成是面向数据集中固有的主体与客体之间位置存在前后关系的现象，对于主体在后客体在前的情况，引入句子中单词词语位置表示；在主体在前客体在后数据的基础上，对于主体与客体前后关系的位置表示进行改变进而生成关于句法位置的反事实，其通过对于主体客体对应的位置表示进行调换，得到反事实的位置表示；位置表示可以通过计算相对位置编码得到。

进一步的，S4中，对于生成的语义反事实及句法位置反事实，成功通过检验的语义反事实作为正常数据加入原始数据集中扩充增强数据，将扩充的数据集利用BERT预训练模型作为编码器得到对应的词向量。

进一步的，S5中，在反事实扩充数据集的词向量的基础上，选取数据集中的一部分数据生成反事实词向量；句法位置的位置编码与其反事实位置编码被加入进来以协助生成过程，首先将正常句法位置编码与词向量放入transformer网络中进行训练，目标是贴近原本的词向量表示；训练完成后，将反事实位置编码与原词向量放入transformer网络中，输出得到包含替换后句法关系信息的反事实词向量；结合反事实的数据输入模块将原数据与反事实结合起来，得到了通过BERT预训练模型的词向量以及在此基础上的部分反事实词向量，这些将作为输入传递进最终的模型进行训练。

进一步的，S6中，独立于反事实生成模块与数据输入模块，其实现了基于词向量的关系实体联合信息抽取。由于其本身与输入数据独立，因此该模块可适用于现各种联合抽取模型，包括TPLinker、CasRel等。上述模型通过利用反事实词向量与正常词向量在数据集上进行训练，即可得到最终抽取模型。该模型由于利用因果推断中的反事实进行优化，对于前面提到的数据集问题以及虚假偏差问题均有所解决。

进一步的，S7中，在训练完成后，将预测数据通过BERT等预训练模型得到对应词向量，进而输入已训练的模型进行实体关系抽取。

进一步的，一种社交噪音文本实体关系抽取优化系统，包括反事实生成模块、结合反事实的数据输入模块和模型训练模块；

反事实生成模块用于利用原始数据集同类关系下的主体客体以及利用同一类别的实体替代主体客体的方法来构建语义反事实语料库；利用语法结构和识别结果标准构建反事实检验器，筛选出有利用价值的语义反事实并入原始数据，未通过检验的语义反事实数据将被删除并通过S1补齐数目；利用相对位置编码提取词语位置信息，通过对主客体的位置编码调换完成句法位置反事实生成；

结合反事实的数据输入模块用于扩充的数据集利用BERT预训练模型作为编码器得到对应的词向量；在反事实扩充数据集的词向量的基础上，基于句法位置编码与词向量组成的数据，通过对于其中的反事实数据与原数据做同样的变换处理得到消除引入位置编码影响后的反事实词向量，作为抽取模型的输入；

模型训练模块用于多分类器将数据输入得到的词向量作为模型输入进行训练，模型利用现有各类实体关系抽取模型，得到最终抽取结果；将待抽取文本经过BERT预训练模型得到对应词向量后输入已训练模型完成实体关系抽取。

与现有技术相比，本发明有以下技术效果：

本发明针对社交噪音文本关系提取任务，在目前联合抽取模型的基础上，引入因果推断思想改善社交噪音文本存在的数据缺少、数据集标注成本及数据集自身存在比例偏差(Bias)问题，引入位置编码表示(position embedding)改善句法顺序不规范问题，引入因果推断中的干预与反事实操作提升对于社交文本不规范性的处理效果。下面对上述三点以及发明优点进行具体解释：

第一：通过反事实生成，对于已有数据集进行扩充，降低了数据标注成本，同时可以通过与外部同类别实体数据库进行简单对接，增强了数据的时效性与多样性。

第二：将因果推断引入到关系抽取领域，代替了先前方法对于数据集处理的统计概率角度，可以降低或解决由于数据集比例偏差导致的虚假相关性问题，进而提高对于数据集比例较少的样本类型的抽取效果。

第三：引入仅包含句法结构信息的位置编码表示，可以在对于反事实生成时保持句意合理，通过神经网络变换消除引入位置编码的影响而仅保留词语位置顺序不同的影响，确保反事实生成的合理性，模拟在句意一定的前提下主客体位置不同的情况，提高抽取模型对于位置的泛化性能。

第四：由于本发明对于前期数据处理与输入进行改动实现，因此对于现有的各类联合抽取模型具有较好的适应性与应用价值。

附图说明

图1为联合抽取模型整体训练示意图。

图2为实体关系抽取因果图结构

图3为反事实模块数据生成功能示意图。

图4为反事实与已有数据输入训练流程。

具体实施方式

以下结合附图对本发明进一步说明：

一种社交噪音文本实体关系抽取优化方法，包括以下步骤：

本发明所述的社交噪音文本实体关系抽取优化方法，其应用到训练具体抽取模型的实现流程如附图1所示，包括三大部分，分别为反事实生成模块、结合反事实的数据输入模块、模型训练模块，各部分具体如下。

1、反事实生成模块。

根据建立的实体关系抽取因果图结构，如附图2所示，其基于已有少样本标记数据集，利用反事实生成原则，即其他因素保持不变仅改变研究的特征进而探究该特征与最终效果之间的因果关系，完成小数据集的数据增强，具体可分为两个部分：语义反事实生成及句法位置反事实生成，如附图3所示。

语义反事实生成是面向社交噪音文本中常见的实体表述不规范现象，通过对于同一类型关系建立的主体客体数据库进行抽取，该语料库充当反事实原始语料库，建立方式包括利用原始数据集同类关系下的主体客体、以及利用外部同一类别(人称、地点等)的实体替代主体客体等。以语义相似程度作为衡量标准，利用抽取结果进行替换填充，进而在原始数据基础上生成与原数据不同但语义得到丰富的反事实数据。其具体生成方式需要遵循不同语义约束规则，如主体客体的词性统一规则，又如主体客体的实体类别信息一致规则等。基于上述规则约束下生成的反事实数据，通过反事实检验器，进一步检验反事实生成的合理性与正确性。反事实检验器常用的检验标准有句法结构是否合理、主体客体词性与实体类别信息是否统一、是否能够被在原数据集上训练的模型识别得到。如果句法结构合理、词性与类别统一、能够被原模型抽取得到，则证明该反事实数据具有利用价值，可以被后续使用。如果未通过检验，则重新利用主体客体数据库中进行生成。另外，基于主体客体的实体类别信息，外部实时数据可以被引入以扩充反事实原始语料库，进而提高反事实生成效果。

句法位置反事实生成是面向数据集中固有的主体与客体之间位置存在前后关系的现象，对于较为少见的主体在后客体在前的问题，引入句子中单词词语位置表示(position embedding)，在较为普遍的主体在前客体在后数据的基础上，对于主体与客体前后关系的位置表示进行改变进而生成关于句法位置的反事实。其通过对于主体客体对应的位置表示进行调换，得到反事实的位置表示。位置表示可以通过计算相对位置编码(Relative Position Embedding)得到。由于位置表示仅包含位置信息，不包含句义信息，因此调换操作不改变句意，符合反事实生成原则。

2、结合反事实的数据输入模块。

在反事实生成模块的基础上，就可搭建结合反事实的数据输入模块，其最终目标是得到正常词向量与部分包含反事实信息的词向量(word embedding)，如附图4所示。

对于生成的语义反事实及句法位置反事实，分别采取不同的策略得到最终输入数据，如附图4所示。成功通过检验的语义反事实可以作为正常数据加入原始数据集中扩充增强数据。为了得到量化表示，将扩充的数据集利用BERT预训练模型作为编码器(encoder)得到对应的词向量。

在反事实扩充数据集的词向量的基础上，选取数据集中的一部分数据生成反事实词向量。句法位置的位置编码(position embedding)与其反事实位置编码被加入进来以协助生成过程。首先将正常句法位置编码与词向量放入transformer网络中进行训练，目标是贴近原本的词向量表示。训练完成后，将反事实位置编码与原词向量放入transformer网络中，输出得到包含替换后句法关系信息的反事实词向量。由于通过transformer网络的变换，其引入位置向量操作的影响已被抵消或减少，主要剩余反事实位置向量所带来的因果效应造成最终词向量的不同。

如前面所述，结合反事实的数据输入模块将原数据与反事实结合起来，得到了通过BERT预训练模型的词向量以及在此基础上的部分反事实词向量，这些将作为输入传递进最终的模型进行训练。

3、模型训练模块。

独立于反事实生成模块与数据输入模块，其实现了基于词向量的关系实体联合信息抽取。由于其本身与输入数据独立，因此该模块可适用于现各种联合抽取模型，包括TPLinker、CasRel等。上述模型通过利用反事实词向量与正常词向量在数据集上进行训练，即可得到最终抽取模型。该模型由于利用因果推断中的反事实进行优化，对于前面提到的数据集问题以及虚假偏差问题均有所解决。

在训练完成后，将预测数据通过BERT等预训练模型得到对应词向量，进而输入已训练的模型即可进行实体关系抽取。

本发明所述的社交噪音文本实体关系抽取优化方法，可解决社交文本领域数据标注成本大、数据更新速度快、数据集本身存在偏差以及原有模型可能陷入虚假相关性的问题。该方法将因果推断引入自然语言处理生成词向量的过程中，应用因果推断中干预与反事实的优势，实现了数据增强并减弱数据集本身带来的偏差。不仅能够减少人力标注数据的投入成本，而且能够有效模拟实际场景中文本的不规范性与创新性，提高模型对于社交噪音文本实体关系抽取的鲁棒性。与此同时，由于方法本身对于词向量进行处理，因此对于现有各类模型均有较好的适应性与应用可能性。

Claims

1.一种社交噪音文本实体关系抽取优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法，其特征在于，S1中，语义反事实语料库生成是通过对于同一类型关系建立的主体客体数据库进行抽取，该语料库充当反事实原始语料库，建立方式包括利用原始数据集同类关系下的主体客体、以及利用外部同一类别的实体替代主体客体；以语义相似程度作为衡量标准，利用抽取结果进行替换填充，进而在原始数据基础上生成与原数据不同但语义得到丰富的反事实数据。

3.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法，其特征在于，S2中，反事实检验器常用的检验标准有句法结构是否合理、主体客体词性与实体类别信息是否统一、是否能够被在原数据集上训练的模型识别得到；如果句法结构合理、词性与类别统一、能够被原模型抽取得到，则证明该反事实数据具有利用价值，被后续使用；如果未通过检验，则重新利用主体客体数据库中进行生成；外部实时数据被引入以扩充反事实原始语料库。

4.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法，其特征在于，S3中，句法位置反事实生成是面向数据集中固有的主体与客体之间位置存在前后关系的现象，对于主体在后客体在前的情况，引入句子中单词词语位置表示；在主体在前客体在后数据的基础上，对于主体与客体前后关系的位置表示进行改变进而生成关于句法位置的反事实，其通过对于主体客体对应的位置表示进行调换，得到反事实的位置表示；位置表示可以通过计算相对位置编码得到。

5.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法，其特征在于，S4中，对于生成的语义反事实及句法位置反事实，成功通过检验的语义反事实作为正常数据加入原始数据集中扩充增强数据，将扩充的数据集利用BERT预训练模型作为编码器得到对应的词向量。

6.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法，其特征在于，S5中，在反事实扩充数据集的词向量的基础上，选取数据集中的一部分数据生成反事实词向量；句法位置的位置编码与其反事实位置编码被加入进来以协助生成过程，首先将正常句法位置编码与词向量放入transformer网络中进行训练，目标是贴近原本的词向量表示；训练完成后，将反事实位置编码与原词向量放入transformer网络中，输出得到包含替换后句法关系信息的反事实词向量；结合反事实的数据输入模块将原数据与反事实结合起来，得到了通过BERT预训练模型的词向量以及在此基础上的部分反事实词向量，这些将作为输入传递进最终的模型进行训练。

7.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法，其特征在于，S6中，独立于反事实生成模块与数据输入模块，实现了基于词向量的关系实体联合信息抽取；总体流程为将词向量输入进神经网络，计算得到预测结果，将其与训练数据中的正确结果进行比较得到损失，而后利用反向传播梯度下降等优化算法对于模型参数进行更新；上述模型通过利用反事实词向量与正常词向量在数据集上进行训练，即可得到最终抽取模型。

8.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法，其特征在于，S7中，在训练完成后，将预测数据通过BERT等预训练模型得到对应词向量，进而输入已训练的模型进行实体关系抽取。

9.一种社交噪音文本实体关系抽取优化系统，其特征在于，包括反事实生成模块、结合反事实的数据输入模块和模型训练模块；