CN113076421A - 一种社交噪音文本实体关系抽取优化方法及系统 - Google Patents

一种社交噪音文本实体关系抽取优化方法及系统 Download PDF

Info

Publication number
CN113076421A
CN113076421A CN202110364805.4A CN202110364805A CN113076421A CN 113076421 A CN113076421 A CN 113076421A CN 202110364805 A CN202110364805 A CN 202110364805A CN 113076421 A CN113076421 A CN 113076421A
Authority
CN
China
Prior art keywords
counterfactual
data
model
word vector
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110364805.4A
Other languages
English (en)
Other versions
CN113076421B (zh
Inventor
刘晓明
李承祖
冯乙洋
多小川
贺靖涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202110364805.4A priority Critical patent/CN113076421B/zh
Publication of CN113076421A publication Critical patent/CN113076421A/zh
Application granted granted Critical
Publication of CN113076421B publication Critical patent/CN113076421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明一种社交噪音文本实体关系抽取优化方法及系统,可解决社交文本领域数据标注成本大、数据更新速度快、数据集本身存在偏差以及原有模型可能陷入虚假相关性的问题。该方法将因果推断引入自然语言处理生成词向量的过程中,应用因果推断中干预与反事实的优势,实现了数据增强并减弱数据集本身带来的偏差。不仅能够减少人力标注数据的投入成本,而且能够有效模拟实际场景中文本的不规范性与创新性,提高模型对于社交噪音文本实体关系抽取的鲁棒性。与此同时,由于方法本身对于词向量进行处理,因此对于现有各类模型均有较好的适应性与应用可能性。

Description

一种社交噪音文本实体关系抽取优化方法及系统
技术领域
本发明属于实体关系提取优化技术领域,特别涉及一种社交噪音文本实体关系抽取优化方法及系统。
背景技术
实体关系提取技术已经成为大数据分析和构建知识图谱的关键一环,该技术的目标为输出句子中所有的(主体,关系类型,客体)三元组为目标。随着该领域的不断发展,新的方法不断被提出。最早期的pipeline流水线模型将实体提取与关系提取分为先后的两个步骤,但该方法容易产生累积误差。随后许多研究人员提出了多种实体关系联合抽取模型,减少了累积误差。现有的实体关系联合提取模型大致可分为基于编码器的模型和任务分解的模型两类。前者直接采用encoder-decoder编码器-解码器结构,代表模型有NovelTagging与CopyRE。NovelTagging使用Decoder输出每个词所对应的标签,而标签由单词位置、关系类型与关系角色三部分组成。CopyRE中Decoder依次提取出句子中的关系类型、主体和客体,按此顺序提取完句子中所有的三元组。而任务分解的模型采用的主要思想为将实体关系提取任务进行分解,首先提取出所有可能的主体或客体,随后进行关系提取进一步确定是否存在关于该主体或客体的关系。该思想的代表模型为CasREL。不同于以往模型使用单分类器预测各个关系的概率的方法,该模型创造性地针对不同关系使用关系特定分类器,突出地改善了实体关系提取任务的完成效果。在实体关系提取任务中,若单个句子中存在多个关系,则多个三元组之间实体对重叠、单个实体重叠、实体嵌套的现象将对模型的性能提出更高要求。对于实体嵌套现象,传统的运用指针标记主客体开始与结束位置的方法难以针对该现象导致的问题进行改善。TPLinker模型通过对主体与客体的头与尾分别进行组合的方式巧妙地化解了该问题,且该模型同时采用了类似于CasREL的多个关系分类器的方法,对句子中存在多种关系现象的关系提取任务达到了较好的普适性。
对于上述涉及的抽取模型,其对于已有的规范标记数据均有较好表现效果。然而,由于社交噪音文本本身缺少系统标记数据,并且数据更新较快,大规模标记数据耗费成本较大,且时效性较短。同时由于社交噪音文本本身的日常化及口语化的特性,其实体规范性与句法顺序规范性均不同于一般关系提取任务基于的规范文本。在利用标准数据进行正常训练进而迁移到社交文本领域时,其模型对于社交文本的泛化性与鲁棒性均较差。
除此以外,标注数据集本身存在一定的比例偏差(Bias),在实体关系抽取领域具体表现为数据样本中某个客体与某种关系类型经常同时出现,而这种现象不具有一般性,或者主体大部分出现在客体之前等现象。如果在此类数据集上不加改动直接进行训练,对于前者可能会由于模型拟合会导致某客体与关系获得了一种虚假的相关性(SpuriousCorrelation),即该客体和关系本身在逻辑上并不具有相关意义但由于数据集中从统计概率角度经常一起出现,进而模型错误地认为二者之间存在相关性;对于后者可能会在主体客体位置分布上由于前面提到的虚假相关性进而对于客体在前主体在后的情况无法做到准确预测甚至出现结果主客体颠倒的情况。因此,以往方法均是在统计意义上研究实体、关系、句子的相关性,不能有效减少或避免上述现象的发生。
发明内容
本发明的目的在于提供一种社交噪音文本实体关系抽取优化方法及系统,以解决上述问题。
为实现上述目的,本发明采用以下技术方案:
一种社交噪音文本实体关系抽取优化方法,包括以下步骤:
S1,利用原始数据集同类关系下的主体客体以及利用同一类别的实体替代主体客体的方法来构建语义反事实语料库;
S2,利用语法结构和识别结果标准构建反事实检验器,筛选出有利用价值的语义反事实并入原始数据,未通过检验的语义反事实数据将被删除并通过S1补齐数目;
S3,利用相对位置编码提取词语位置信息,通过对主客体的位置编码调换完成句法位置反事实生成;
S4,扩充的数据集利用BERT预训练模型作为编码器得到对应的词向量;
S5,在反事实扩充数据集的词向量的基础上,基于句法位置编码与词向量组成的数据,通过对于其中的反事实数据与原数据做同样的变换处理得到消除引入位置编码影响后的反事实词向量,作为抽取模型的输入;
S6,多分类器将数据输入得到的词向量作为模型输入进行训练,模型利用现有各类实体关系抽取模型,得到最终抽取结果;
S7,将待抽取文本经过BERT预训练模型得到对应词向量后输入已训练模型完成实体关系抽取。
进一步的,S1中,语义反事实语料库生成是通过对于同一类型关系建立的主体客体数据库进行抽取,该语料库充当反事实原始语料库,建立方式包括利用原始数据集同类关系下的主体客体、以及利用外部同一类别的实体替代主体客体;以语义相似程度作为衡量标准,利用抽取结果进行替换填充,进而在原始数据基础上生成与原数据不同但语义得到丰富的反事实数据。
进一步的,S2中,反事实检验器常用的检验标准有句法结构是否合理、主体客体词性与实体类别信息是否统一、是否能够被在原数据集上训练的模型识别得到;如果句法结构合理、词性与类别统一、能够被原模型抽取得到,则证明该反事实数据具有利用价值,被后续使用;如果未通过检验,则重新利用主体客体数据库中进行生成;外部实时数据被引入以扩充反事实原始语料库。
进一步的,S3中,句法位置反事实生成是面向数据集中固有的主体与客体之间位置存在前后关系的现象,对于主体在后客体在前的情况,引入句子中单词词语位置表示;在主体在前客体在后数据的基础上,对于主体与客体前后关系的位置表示进行改变进而生成关于句法位置的反事实,其通过对于主体客体对应的位置表示进行调换,得到反事实的位置表示;位置表示可以通过计算相对位置编码得到。
进一步的,S4中,对于生成的语义反事实及句法位置反事实,成功通过检验的语义反事实作为正常数据加入原始数据集中扩充增强数据,将扩充的数据集利用BERT预训练模型作为编码器得到对应的词向量。
进一步的,S5中,在反事实扩充数据集的词向量的基础上,选取数据集中的一部分数据生成反事实词向量;句法位置的位置编码与其反事实位置编码被加入进来以协助生成过程,首先将正常句法位置编码与词向量放入transformer网络中进行训练,目标是贴近原本的词向量表示;训练完成后,将反事实位置编码与原词向量放入transformer网络中,输出得到包含替换后句法关系信息的反事实词向量;结合反事实的数据输入模块将原数据与反事实结合起来,得到了通过BERT预训练模型的词向量以及在此基础上的部分反事实词向量,这些将作为输入传递进最终的模型进行训练。
进一步的,S6中,独立于反事实生成模块与数据输入模块,其实现了基于词向量的关系实体联合信息抽取。由于其本身与输入数据独立,因此该模块可适用于现各种联合抽取模型,包括TPLinker、CasRel等。上述模型通过利用反事实词向量与正常词向量在数据集上进行训练,即可得到最终抽取模型。该模型由于利用因果推断中的反事实进行优化,对于前面提到的数据集问题以及虚假偏差问题均有所解决。
进一步的,S7中,在训练完成后,将预测数据通过BERT等预训练模型得到对应词向量,进而输入已训练的模型进行实体关系抽取。
进一步的,一种社交噪音文本实体关系抽取优化系统,包括反事实生成模块、结合反事实的数据输入模块和模型训练模块;
反事实生成模块用于利用原始数据集同类关系下的主体客体以及利用同一类别的实体替代主体客体的方法来构建语义反事实语料库;利用语法结构和识别结果标准构建反事实检验器,筛选出有利用价值的语义反事实并入原始数据,未通过检验的语义反事实数据将被删除并通过S1补齐数目;利用相对位置编码提取词语位置信息,通过对主客体的位置编码调换完成句法位置反事实生成;
结合反事实的数据输入模块用于扩充的数据集利用BERT预训练模型作为编码器得到对应的词向量;在反事实扩充数据集的词向量的基础上,基于句法位置编码与词向量组成的数据,通过对于其中的反事实数据与原数据做同样的变换处理得到消除引入位置编码影响后的反事实词向量,作为抽取模型的输入;
模型训练模块用于多分类器将数据输入得到的词向量作为模型输入进行训练,模型利用现有各类实体关系抽取模型,得到最终抽取结果;将待抽取文本经过BERT预训练模型得到对应词向量后输入已训练模型完成实体关系抽取。
与现有技术相比,本发明有以下技术效果:
本发明针对社交噪音文本关系提取任务,在目前联合抽取模型的基础上,引入因果推断思想改善社交噪音文本存在的数据缺少、数据集标注成本及数据集自身存在比例偏差(Bias)问题,引入位置编码表示(position embedding)改善句法顺序不规范问题,引入因果推断中的干预与反事实操作提升对于社交文本不规范性的处理效果。下面对上述三点以及发明优点进行具体解释:
第一:通过反事实生成,对于已有数据集进行扩充,降低了数据标注成本,同时可以通过与外部同类别实体数据库进行简单对接,增强了数据的时效性与多样性。
第二:将因果推断引入到关系抽取领域,代替了先前方法对于数据集处理的统计概率角度,可以降低或解决由于数据集比例偏差导致的虚假相关性问题,进而提高对于数据集比例较少的样本类型的抽取效果。
第三:引入仅包含句法结构信息的位置编码表示,可以在对于反事实生成时保持句意合理,通过神经网络变换消除引入位置编码的影响而仅保留词语位置顺序不同的影响,确保反事实生成的合理性,模拟在句意一定的前提下主客体位置不同的情况,提高抽取模型对于位置的泛化性能。
第四:由于本发明对于前期数据处理与输入进行改动实现,因此对于现有的各类联合抽取模型具有较好的适应性与应用价值。
附图说明
图1为联合抽取模型整体训练示意图。
图2为实体关系抽取因果图结构
图3为反事实模块数据生成功能示意图。
图4为反事实与已有数据输入训练流程。
具体实施方式
以下结合附图对本发明进一步说明:
一种社交噪音文本实体关系抽取优化方法,包括以下步骤:
S1,利用原始数据集同类关系下的主体客体以及利用同一类别的实体替代主体客体的方法来构建语义反事实语料库;
S2,利用语法结构和识别结果标准构建反事实检验器,筛选出有利用价值的语义反事实并入原始数据,未通过检验的语义反事实数据将被删除并通过S1补齐数目;
S3,利用相对位置编码提取词语位置信息,通过对主客体的位置编码调换完成句法位置反事实生成;
S4,扩充的数据集利用BERT预训练模型作为编码器得到对应的词向量;
S5,在反事实扩充数据集的词向量的基础上,基于句法位置编码与词向量组成的数据,通过对于其中的反事实数据与原数据做同样的变换处理得到消除引入位置编码影响后的反事实词向量,作为抽取模型的输入;
S6,多分类器将数据输入得到的词向量作为模型输入进行训练,模型利用现有各类实体关系抽取模型,得到最终抽取结果;
S7,将待抽取文本经过BERT预训练模型得到对应词向量后输入已训练模型完成实体关系抽取。
本发明所述的社交噪音文本实体关系抽取优化方法,其应用到训练具体抽取模型的实现流程如附图1所示,包括三大部分,分别为反事实生成模块、结合反事实的数据输入模块、模型训练模块,各部分具体如下。
1、反事实生成模块。
根据建立的实体关系抽取因果图结构,如附图2所示,其基于已有少样本标记数据集,利用反事实生成原则,即其他因素保持不变仅改变研究的特征进而探究该特征与最终效果之间的因果关系,完成小数据集的数据增强,具体可分为两个部分:语义反事实生成及句法位置反事实生成,如附图3所示。
语义反事实生成是面向社交噪音文本中常见的实体表述不规范现象,通过对于同一类型关系建立的主体客体数据库进行抽取,该语料库充当反事实原始语料库,建立方式包括利用原始数据集同类关系下的主体客体、以及利用外部同一类别(人称、地点等)的实体替代主体客体等。以语义相似程度作为衡量标准,利用抽取结果进行替换填充,进而在原始数据基础上生成与原数据不同但语义得到丰富的反事实数据。其具体生成方式需要遵循不同语义约束规则,如主体客体的词性统一规则,又如主体客体的实体类别信息一致规则等。基于上述规则约束下生成的反事实数据,通过反事实检验器,进一步检验反事实生成的合理性与正确性。反事实检验器常用的检验标准有句法结构是否合理、主体客体词性与实体类别信息是否统一、是否能够被在原数据集上训练的模型识别得到。如果句法结构合理、词性与类别统一、能够被原模型抽取得到,则证明该反事实数据具有利用价值,可以被后续使用。如果未通过检验,则重新利用主体客体数据库中进行生成。另外,基于主体客体的实体类别信息,外部实时数据可以被引入以扩充反事实原始语料库,进而提高反事实生成效果。
句法位置反事实生成是面向数据集中固有的主体与客体之间位置存在前后关系的现象,对于较为少见的主体在后客体在前的问题,引入句子中单词词语位置表示(position embedding),在较为普遍的主体在前客体在后数据的基础上,对于主体与客体前后关系的位置表示进行改变进而生成关于句法位置的反事实。其通过对于主体客体对应的位置表示进行调换,得到反事实的位置表示。位置表示可以通过计算相对位置编码(Relative Position Embedding)得到。由于位置表示仅包含位置信息,不包含句义信息,因此调换操作不改变句意,符合反事实生成原则。
2、结合反事实的数据输入模块。
在反事实生成模块的基础上,就可搭建结合反事实的数据输入模块,其最终目标是得到正常词向量与部分包含反事实信息的词向量(word embedding),如附图4所示。
对于生成的语义反事实及句法位置反事实,分别采取不同的策略得到最终输入数据,如附图4所示。成功通过检验的语义反事实可以作为正常数据加入原始数据集中扩充增强数据。为了得到量化表示,将扩充的数据集利用BERT预训练模型作为编码器(encoder)得到对应的词向量。
在反事实扩充数据集的词向量的基础上,选取数据集中的一部分数据生成反事实词向量。句法位置的位置编码(position embedding)与其反事实位置编码被加入进来以协助生成过程。首先将正常句法位置编码与词向量放入transformer网络中进行训练,目标是贴近原本的词向量表示。训练完成后,将反事实位置编码与原词向量放入transformer网络中,输出得到包含替换后句法关系信息的反事实词向量。由于通过transformer网络的变换,其引入位置向量操作的影响已被抵消或减少,主要剩余反事实位置向量所带来的因果效应造成最终词向量的不同。
如前面所述,结合反事实的数据输入模块将原数据与反事实结合起来,得到了通过BERT预训练模型的词向量以及在此基础上的部分反事实词向量,这些将作为输入传递进最终的模型进行训练。
3、模型训练模块。
独立于反事实生成模块与数据输入模块,其实现了基于词向量的关系实体联合信息抽取。由于其本身与输入数据独立,因此该模块可适用于现各种联合抽取模型,包括TPLinker、CasRel等。上述模型通过利用反事实词向量与正常词向量在数据集上进行训练,即可得到最终抽取模型。该模型由于利用因果推断中的反事实进行优化,对于前面提到的数据集问题以及虚假偏差问题均有所解决。
在训练完成后,将预测数据通过BERT等预训练模型得到对应词向量,进而输入已训练的模型即可进行实体关系抽取。
本发明所述的社交噪音文本实体关系抽取优化方法,可解决社交文本领域数据标注成本大、数据更新速度快、数据集本身存在偏差以及原有模型可能陷入虚假相关性的问题。该方法将因果推断引入自然语言处理生成词向量的过程中,应用因果推断中干预与反事实的优势,实现了数据增强并减弱数据集本身带来的偏差。不仅能够减少人力标注数据的投入成本,而且能够有效模拟实际场景中文本的不规范性与创新性,提高模型对于社交噪音文本实体关系抽取的鲁棒性。与此同时,由于方法本身对于词向量进行处理,因此对于现有各类模型均有较好的适应性与应用可能性。

Claims (9)

1.一种社交噪音文本实体关系抽取优化方法,其特征在于,包括以下步骤:
S1,利用原始数据集同类关系下的主体客体以及利用同一类别的实体替代主体客体的方法来构建语义反事实语料库;
S2,利用语法结构和识别结果标准构建反事实检验器,筛选出有利用价值的语义反事实并入原始数据,未通过检验的语义反事实数据将被删除并通过S1补齐数目;
S3,利用相对位置编码提取词语位置信息,通过对主客体的位置编码调换完成句法位置反事实生成;
S4,扩充的数据集利用BERT预训练模型作为编码器得到对应的词向量;
S5,在反事实扩充数据集的词向量的基础上,基于句法位置编码与词向量组成的数据,通过对于其中的反事实数据与原数据做同样的变换处理得到消除引入位置编码影响后的反事实词向量,作为抽取模型的输入;
S6,多分类器将数据输入得到的词向量作为模型输入进行训练,模型利用现有各类实体关系抽取模型,得到最终抽取结果;
S7,将待抽取文本经过BERT预训练模型得到对应词向量后输入已训练模型完成实体关系抽取。
2.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法,其特征在于,S1中,语义反事实语料库生成是通过对于同一类型关系建立的主体客体数据库进行抽取,该语料库充当反事实原始语料库,建立方式包括利用原始数据集同类关系下的主体客体、以及利用外部同一类别的实体替代主体客体;以语义相似程度作为衡量标准,利用抽取结果进行替换填充,进而在原始数据基础上生成与原数据不同但语义得到丰富的反事实数据。
3.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法,其特征在于,S2中,反事实检验器常用的检验标准有句法结构是否合理、主体客体词性与实体类别信息是否统一、是否能够被在原数据集上训练的模型识别得到;如果句法结构合理、词性与类别统一、能够被原模型抽取得到,则证明该反事实数据具有利用价值,被后续使用;如果未通过检验,则重新利用主体客体数据库中进行生成;外部实时数据被引入以扩充反事实原始语料库。
4.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法,其特征在于,S3中,句法位置反事实生成是面向数据集中固有的主体与客体之间位置存在前后关系的现象,对于主体在后客体在前的情况,引入句子中单词词语位置表示;在主体在前客体在后数据的基础上,对于主体与客体前后关系的位置表示进行改变进而生成关于句法位置的反事实,其通过对于主体客体对应的位置表示进行调换,得到反事实的位置表示;位置表示可以通过计算相对位置编码得到。
5.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法,其特征在于,S4中,对于生成的语义反事实及句法位置反事实,成功通过检验的语义反事实作为正常数据加入原始数据集中扩充增强数据,将扩充的数据集利用BERT预训练模型作为编码器得到对应的词向量。
6.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法,其特征在于,S5中,在反事实扩充数据集的词向量的基础上,选取数据集中的一部分数据生成反事实词向量;句法位置的位置编码与其反事实位置编码被加入进来以协助生成过程,首先将正常句法位置编码与词向量放入transformer网络中进行训练,目标是贴近原本的词向量表示;训练完成后,将反事实位置编码与原词向量放入transformer网络中,输出得到包含替换后句法关系信息的反事实词向量;结合反事实的数据输入模块将原数据与反事实结合起来,得到了通过BERT预训练模型的词向量以及在此基础上的部分反事实词向量,这些将作为输入传递进最终的模型进行训练。
7.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法,其特征在于,S6中,独立于反事实生成模块与数据输入模块,实现了基于词向量的关系实体联合信息抽取;总体流程为将词向量输入进神经网络,计算得到预测结果,将其与训练数据中的正确结果进行比较得到损失,而后利用反向传播梯度下降等优化算法对于模型参数进行更新;上述模型通过利用反事实词向量与正常词向量在数据集上进行训练,即可得到最终抽取模型。
8.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法,其特征在于,S7中,在训练完成后,将预测数据通过BERT等预训练模型得到对应词向量,进而输入已训练的模型进行实体关系抽取。
9.一种社交噪音文本实体关系抽取优化系统,其特征在于,包括反事实生成模块、结合反事实的数据输入模块和模型训练模块;
反事实生成模块用于利用原始数据集同类关系下的主体客体以及利用同一类别的实体替代主体客体的方法来构建语义反事实语料库;利用语法结构和识别结果标准构建反事实检验器,筛选出有利用价值的语义反事实并入原始数据,未通过检验的语义反事实数据将被删除并通过S1补齐数目;利用相对位置编码提取词语位置信息,通过对主客体的位置编码调换完成句法位置反事实生成;
结合反事实的数据输入模块用于扩充的数据集利用BERT预训练模型作为编码器得到对应的词向量;在反事实扩充数据集的词向量的基础上,基于句法位置编码与词向量组成的数据,通过对于其中的反事实数据与原数据做同样的变换处理得到消除引入位置编码影响后的反事实词向量,作为抽取模型的输入;
模型训练模块用于多分类器将数据输入得到的词向量作为模型输入进行训练,模型利用现有各类实体关系抽取模型,得到最终抽取结果;将待抽取文本经过BERT预训练模型得到对应词向量后输入已训练模型完成实体关系抽取。
CN202110364805.4A 2021-04-02 2021-04-02 一种社交噪音文本实体关系抽取优化方法及系统 Active CN113076421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110364805.4A CN113076421B (zh) 2021-04-02 2021-04-02 一种社交噪音文本实体关系抽取优化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110364805.4A CN113076421B (zh) 2021-04-02 2021-04-02 一种社交噪音文本实体关系抽取优化方法及系统

Publications (2)

Publication Number Publication Date
CN113076421A true CN113076421A (zh) 2021-07-06
CN113076421B CN113076421B (zh) 2023-03-28

Family

ID=76615360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110364805.4A Active CN113076421B (zh) 2021-04-02 2021-04-02 一种社交噪音文本实体关系抽取优化方法及系统

Country Status (1)

Country Link
CN (1) CN113076421B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806548A (zh) * 2021-11-19 2021-12-17 北京北大软件工程股份有限公司 基于深度学习模型的信访要素抽取方法及抽取系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170139984A1 (en) * 2015-11-13 2017-05-18 International Business Machines Corporation Method And System For Semantic-Based Queries Using Word Vector Representation
CN109408642A (zh) * 2018-08-30 2019-03-01 昆明理工大学 一种基于距离监督的领域实体属性关系抽取方法
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
CN110597998A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合句法分析的军事想定实体关系抽取方法及装置
CN110888980A (zh) * 2019-10-10 2020-03-17 天津大学 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN111241295A (zh) * 2020-01-03 2020-06-05 浙江大学 基于语义句法交互网络的知识图谱关系数据抽取方法
CN111435410A (zh) * 2019-01-14 2020-07-21 阿里巴巴集团控股有限公司 用于医疗文本的关系抽取方法及其装置
CN112257441A (zh) * 2020-09-15 2021-01-22 浙江大学 一种基于反事实生成的命名实体识别增强方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170139984A1 (en) * 2015-11-13 2017-05-18 International Business Machines Corporation Method And System For Semantic-Based Queries Using Word Vector Representation
CN109408642A (zh) * 2018-08-30 2019-03-01 昆明理工大学 一种基于距离监督的领域实体属性关系抽取方法
CN111435410A (zh) * 2019-01-14 2020-07-21 阿里巴巴集团控股有限公司 用于医疗文本的关系抽取方法及其装置
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
CN110597998A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合句法分析的军事想定实体关系抽取方法及装置
CN110888980A (zh) * 2019-10-10 2020-03-17 天津大学 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN111241295A (zh) * 2020-01-03 2020-06-05 浙江大学 基于语义句法交互网络的知识图谱关系数据抽取方法
CN112257441A (zh) * 2020-09-15 2021-01-22 浙江大学 一种基于反事实生成的命名实体识别增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAO GAN ET AL.: ""Subsequence-Level Entity Attention LSTM for Relation Extraction"", 《INTERNATIONAL COMPUTER CONFERENCE ON WAVELET ACTIVE MEDIA TECHNOLOGY AND INFORMATION PROCESSING》 *
何晓艺: ""面向领域文本知识实体识别及关系抽取的关键技术研究"", 《万方数据知识服务平台》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806548A (zh) * 2021-11-19 2021-12-17 北京北大软件工程股份有限公司 基于深度学习模型的信访要素抽取方法及抽取系统

Also Published As

Publication number Publication date
CN113076421B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN110929030B (zh) 一种文本摘要和情感分类联合训练方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN113191148B (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN113157859B (zh) 一种基于上位概念信息的事件检测方法
CN111274817A (zh) 一种基于自然语言处理技术的智能化软件成本度量方法
CN111832293A (zh) 基于头实体预测的实体和关系联合抽取方法
CN115827844B (zh) 一种基于Sparql语句生成的知识图谱问答方法和系统
Li et al. Dual CNN for relation extraction with knowledge-based attention and word embeddings
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113919366A (zh) 一种面向电力变压器知识问答的语义匹配方法和装置
CN115292520B (zh) 一种面向多源移动应用知识图谱构建方法
CN114168754A (zh) 一种基于句法依赖和融合信息的关系抽取方法
CN115238045A (zh) 一种生成式事件论元抽取方法、系统及存储介质
CN111859858A (zh) 从文本中提取关系的方法及装置
CN113076421B (zh) 一种社交噪音文本实体关系抽取优化方法及系统
CN114048314A (zh) 一种自然语言隐写分析方法
CN113377844A (zh) 面向大型关系型数据库的对话式数据模糊检索方法及装置
CN115757325B (zh) 一种xes日志智能转换方法及系统
CN117056451A (zh) 一种基于语境增强的新能源汽车投诉文本方面-观点对抽取方法
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN115169285A (zh) 一种基于图解析的事件抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant