CN112257441A - 一种基于反事实生成的命名实体识别增强方法 - Google Patents

一种基于反事实生成的命名实体识别增强方法 Download PDF

Info

Publication number
CN112257441A
CN112257441A CN202010967301.7A CN202010967301A CN112257441A CN 112257441 A CN112257441 A CN 112257441A CN 202010967301 A CN202010967301 A CN 202010967301A CN 112257441 A CN112257441 A CN 112257441A
Authority
CN
China
Prior art keywords
entity
sample
counterfactual
data
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010967301.7A
Other languages
English (en)
Other versions
CN112257441B (zh
Inventor
张寅�
曾祥极
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010967301.7A priority Critical patent/CN112257441B/zh
Publication of CN112257441A publication Critical patent/CN112257441A/zh
Application granted granted Critical
Publication of CN112257441B publication Critical patent/CN112257441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于反事实生成的命名实体识别增强方法,所述方法包含如下步骤:1)从已有标注数据中获取本地实体集合,并按照实体类型进行分类;2)针对已有标注数据中的每一个样本,用实体集合中的实体随机替换样本中的任一个实体,替换后的样本为反事实样本;3)利用判别器对反事实样本进行判别,如果是合理的则用于增强原有的标注数据。与现有的方法相比,本发明有如下益处:1)无需额外的标注资源,如相似领域的数据集或者实体字典;2)无需大量的未标注数据,可解决某些领域缺乏数据的难题;3)能够打破输出特征与输出标签之间部分的伪相关,从而提高模型的泛化能力。

Description

一种基于反事实生成的命名实体识别增强方法
技术领域
本发明属于命名实体识别的技术领域,具体涉及一种基于已有训练样本生成反事实样本的命名实体识别增强方法。
背景技术
命名实体识别(Named Entity Recognition,NER)技术是构建结构化知识的一种基本技术,它是指从文本中抽取命名式的提及并对其进行分类,比如人名、地名和机构名等。该技术在医疗、金融和法律等领域均有大量应用,比如在医疗领域,命名实体识别可以从医学文本中抽取有意义的诊断、手术和部位等实体,这可为下游的知识图谱构建、知识推理和问答系统提供重要的基础。
现有主流的实体抽取主要是基于神经网络的方法,这类方法把实体抽取看作是一个学习问题,首先标注大量的训练文本,然后将训练文本送到实体识别模型中去学习。实体识别模型一般是将命名实体识别任务看作序列标注问题,将循环神经网络(LSTM、GRU等)或者是预训练语言模型(ELMo、BERT等)作为编码器来编码句子,然后再利用多层感知机针对句子中每个字符进行标签的分类,最后根据标签来确定实体的位置。这类方法有一个明显的缺点,需要大量的实体标注数据才能使得模型学习到比较好的效果。
为了克服这个问题,有许多方案被发明出来用于解决少量标注数据的场景。比如,迁移学习可以将相似实体抽取领域数据集的先验知识迁移到当前领域,这使得当前领域只需要少部分标注数据就可以达到比较好的效果;自训练可以利用已有的标注数据对未标注的数据进行打标,这种方法可以自动的从未标注的数据中产生监督数据,有效地减轻了数据标注的工作量。然而,这些方案仍然存在一些问题。一方面,对于某些特殊领域,相似领域的数据集很难找到,如果没有相似领域的数据集,迁移学习就无法利用先验知识来增强现有领域的实体抽取模型。另一方面,同样地,在某些领域大量的无标注数据也很难找到。比如在医疗领域,由于隐私保护的原因,人们很难获取到大量的电子医疗文本,这使得自训练的方案也无法有效的展开。
因此,在一些无法收集到大量文本数据以及无相似领域数据集的场景,命名实体识别任务只能在少量的标注数据中进行。少量标注数据场景下模型性能不高的原因之一是由于数据集的选择偏差而导致模型在学习输入数据与输出标签的映射关系时存在着统计学习中的伪相关(Spurious Correlations)。这种伪相关可以生动地被计算机视觉中的一个例子所解释:假如有一个包含牛和骆驼的图像数据集,如果这个数据集在收集图像数据的时候只考虑动物的栖息地,那么在该数据集训练的分类器将会建立起输入数据中的风景(绿色草地、沙漠)和输出标签(牛、骆驼)之间的映射关系。作为结果,如果将一只在沙滩上的牛的照片送入到这个分类器,那么这个分类器将会做出错误的分类。这是因为构建数据集时的选择偏差而导致分类器学到了风景部分特征和输出标签之间的伪相关,决定分类器输出标签的最本质和最稳定的特征应该是动物本身的特征。
发明内容
为了解决背景技术中小数据集导致的伪相关问题,本发明提供了一种与主流实体抽取模型无关的数据增强方法。该方法能够在一定程度上克服这种伪相关的问题,能够让模型学习到更本质、更稳定的特征,从而提高模型的稳定性和泛化性能。该方法能被运用于各种少量标注的命名实体识别的场景中。
为了达到上述目的,本方法的具体步骤如下:
一种基于反事实生成的命名实体识别增强方法,其包括如下步骤:
S1:依次遍历已有标注数据的训练集
Figure BDA0002682806190000021
中的所有数据样本x,抽取数据样本x中的所有实体e,并按照实体类别进行分类,实体类别为t的所有数据样本构成本地实体集合
Figure BDA0002682806190000022
所有的本地实体集合为
Figure BDA0002682806190000023
S2:以训练集
Figure BDA0002682806190000024
中已有标注数据的数据样本(x,y)作为观测样本,按照S21~S24生成反事实样本:
S21:逐一遍历训练集
Figure BDA0002682806190000025
中的所有观测样本(x,y),针对每一个单独的观测样本(x,y),执行S22~S24:
S22:随机从该观测样本的所有实体中选择一个实体类别为t的实体e,用于实体替换;
S23:根据选中实体e对应的实体类型t,确定其对应的本地实体集合
Figure BDA0002682806190000026
S24:遍历该本地实体集合
Figure BDA0002682806190000027
针对本地实体集合中的每一个候选实体
Figure BDA0002682806190000031
如果候选实体e′与用于替换的实体e不相同,则用候选实体e′替换掉观测样本(x,y)中的实体e,每一次替换都会产生一个新的反事实样本(xc,yc);针对每一个观测样本(x,y),一共产生n-1个新的反事实样本(xc,yc),其中n为本地实体集合
Figure BDA0002682806190000032
中的候选实体数量;
S3:使用判别器对S2中生成的反事实样本进行判别,如果一个反事实样本(xc,yc)中被替换后的实体e′能够被判别器准确的识别出来,则将该反事实样本判别为合理的;
所述判别器是一个由编码器和序列标注器两部分组成的命名实体识别模型;所述编码器用于对观测样本的输入句子x和反事实样本的输入句子xc进行编码,编码后句子中的每个语义单元将会获得一个d维的表示向量;所述序列标注器由多层感知机组成,用于对每个输入的语义单元进行分类;所述判别器预先在已有标注数据的训练集
Figure BDA0002682806190000033
上进行训练,从而获得反事实样本判别所需要的先验知识;
S4:将S3中所有被判别为合理的反事实样本和训练集
Figure BDA0002682806190000034
中的观测样本进行组合,形成一个增强的训练数据集
Figure BDA0002682806190000035
用于最终的命名实体识别模型的训练。
在上述方案的基础上,本发明的各步骤还可以进一步采用如下优选方式实现。
作为优选,所述的编码器为预训练语言模型或者循环神经网络模型。
进一步的,所述的编码器为循环神经网络模型时,需要额外的预训练静态词向量进行语义单元的嵌入才可输入到编码器中。
作为优选,所述序列标注器中,序列标注的标注体系采用BIO标注体系。
进一步的,所述序列标注器的输入大小与所述语义单元的表示向量的维度d相同;所述序列标注器的输出层的大小为2m+1,其中m为数据集的实体类型个数。
进一步的,所述的预训练语言模型包括ELMo或BERT。
进一步的,所述的循环神经网络模型包括LSTM或GRU。
作为优选,所述的语义单元是最小不可分割的输入符号,包括字符、词语或者短语。
本发明可以看作是对已有观测样本的实体和上下文进行解耦合,并对它们进行重组。本发明通过对实体和上下文的重组,提高了训练数据的多样性,有效地打破了实体抽取模型流程中输入数据与输出标签中的部分伪相关,从而提高了模型的健壮性和泛化能力。
附图说明
图1是本发明的整体流程示意图。
图2是反事实样本生成示例。
图3是结构因果图模型。
具体实施方式
作为本发明的一种较佳实现形式,提供了一种基于反事实生成的命名实体识别增强方法,该方法能够自动增强命名实体识别数据集,具体包括如下步骤:
1、获取本地实体集合
本地实体是指实体全部来自于已有的标注数据,而非额外的实体字典等外部资源。获取本地实体集合ε主要有以下步骤:
1)将已有的标注数据集
Figure BDA0002682806190000041
按照一定地比例划分为三份:训练集
Figure BDA0002682806190000042
开发集
Figure BDA0002682806190000043
和测试集
Figure BDA0002682806190000044
其中训练集
Figure BDA0002682806190000045
用于实体抽取模型的训练,开发集
Figure BDA0002682806190000046
用于调模型的超参数,测试集
Figure BDA0002682806190000047
则用来测试模型的性能。本发明主要对训练集
Figure BDA0002682806190000048
进行增强。
2)依次遍历已有标注数据的训练集
Figure BDA0002682806190000049
中的所有数据样本x,抽取数据样本x中的所有实体e,并按照实体类别进行分类,实体类别为t的所有数据样本构成本地实体集合
Figure BDA00026828061900000410
值得注意的是,这里的实体类别t可以不止一种,因此对应地也有不同的本地实体集合
Figure BDA00026828061900000411
所有的本地实体集合记为
Figure BDA00026828061900000412
2、反事实样本生成
训练集
Figure BDA00026828061900000413
中已有标注的数据样本(x,y)是采集于真实世界的样本,本发明中称为观测样本。本方法的核心思想是基于在观测样本上的自动化修改,产生反事实样本来增加训练样本的多样性,从而打破背景技术中提到的伪相关问题。修改的主要手段是把句子中的实体和上下文进行解耦合,并用一个不同的实体去干预句子中的实体,即替换掉某一个实体。反事实样本的详细生成步骤如下:
1)逐一遍历训练集
Figure BDA00026828061900000414
中的所有观测样本(x,y),对每个观测样本执行后续步骤2)~4);
2)针对每一个单独的观测样本(x,y),随机从该样本的所有实体中选择一个实体e,记该实体的类型为t,该实体用于后续步骤的实体替换;
3)为了保持新产生的反事实样本的语义连贯性,本方法选择与选中实体e有着相同实体类型t的实体e′来进行替换,因此可以确定对应的本地实体集合
Figure BDA0002682806190000051
4)遍历该实体集合
Figure BDA0002682806190000052
针对本地实体集合中的每一个候选实体
Figure BDA0002682806190000053
如果候选实体e′与用于替换的实体e不相同,则用候选实体e′替换掉观测样本(x,y)中将被替换的实体e。每一次替换都会产生一个新的反事实样本(xc,yc)。如果本地实体集合
Figure BDA0002682806190000054
中有n个候选实体,那么针对每一个观测样本(x,y),将会产生n-1个新的反事实样本(xc,yc)。
3、反事实样本判别
考虑到并不是所有的反事实样本(xc,yc)都是合理的,而且有部分可能会带来噪音,进而导致实体抽取模型的性能下降,因此设计了一个额外的判别器对上一步中生成的反事实样本进行判别。判别器是一个命名实体识别模型,判别器主要由编码器和序列标注器两部分组成,具体如下:
1)编码器主要负责对观测样本的输入句子x和反事实样本的输入句子xc进行编码,编码后句子中的每个语义单元将会获得一个d维的表示向量。特别地,这里的语义单元可以为字符、词语或者短语,具体情况视分词器(tokenizer)而定。编码器既可以由上下文相关的预训练语言模型(如ELMo、BERT等)组成,也可以由循环神经网络(如LSTM、GRU等)构成。针对后者这种情况,还需要额外的预训练静态词向量(如word2vec、GloVe等)进行语义单元的嵌入才可输入到编码器中。
2)序列标注器由多层感知机组成,用于对每个输入的语义单元进行分类。序列标注器的输入大小与上一步所述的语义单元表示向量的维度d相同,输出大小则与序列标注的标注体系有关。本发明的标注体系采用命名实体识别常见的BIO标注体系,假设数据集的实体类型有m个,那么输出层的大小为2m+1。
随机初始化的判别器没有较为完备的先验知识去指导反事实样本(xc,yc)的判别,因此判别器需要在原有观测样本的训练集
Figure BDA0002682806190000055
进行训练,从而获得反事实样本判别所需要的先验知识,训练后的判别器可用于样本的判别。判别标准是:将每一个新的反事实样本(xc,yc)送入该训练好的判别器,如果判别器能够正确的预测出样本中被替换后的实体e′,那么这个反事实样本就被判别为是合理的。
4、当所有的反事实样本都经过判别器判别后,即可将所有被判别为合理的反事实样本和训练集
Figure BDA0002682806190000061
中的观测样本进行组合,形成一个增强的训练数据集
Figure BDA0002682806190000062
一旦增强的训练数据集
Figure BDA0002682806190000063
准备好,命名实体识别模型就可以在这个新的增强的数据集上进行训练。
在实体识别任务上基于结构因果模型的伪关系测量方法,其特点包括如下步骤:
1)将句子中的实体和上下文解耦合,分别表示为两个不同的变量E和C;
2)为了描述命名实体识别任务的推理流程,用变量G表示影响变量E和C的因素,实体E和上下文C共同决定着输入句子X,同时,对于同一个已经训练好的实体抽取模型,不同的输入句子X决定着模型性能Y,结构因果图模型建模为:
G→E→X→Y
G→C→X→Y
3)设计特殊的语义单元[empty]去分别干预实体或者上下文中的语义单元,一旦某个语义单元被替换为[empty],那么这个语义单元的嵌入向量的所有维度将会置为0;
4)利用平均因果效应(Average Causal Effect,ACE)来测量实体E和上下文C对模型性能Y的影响,表示如下:
ACEC=E(y|do(c0))-E(y|do(c))
ACEE=E(y|do(e0))-E(y|do(e))
5)因果效应可以一定程度上反应实体识别中的伪关系,利用训练好的实体抽取模型在测试集分别测试实体和上下文的因果效应;
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图与医疗领域的诊断抽取数据对技术方案进行描述。值得注意的是,所描述的实施例仅仅是本申请中的一部分实施例,而不是全部的实施例。该实施例中的具体步骤如前苏搜狐,不再赘述,下面主要展示其具体参数和技术效果。
实施例
本实施例的具体实施方法如图1所示,步骤如下:
1.获取本地集合
从电子医疗记录中收集医学文本,并利用文本打标工具(Label Studio)对医学文本中的诊断进行标注。如图1中步骤(1)所示,获取本地实体集合的详细步骤如下:
1)将已标注的医学文本划分为三部分:训练集(80%)、开发集(10%)和测试集(10%)。
2)依次遍历训练集中的所有样本,抽取所有实体并按照实体类型进行分类,形成本地实体集合。由于此处只有诊断类型的实体,因此只有一种本地实体集合,诊断集合。
2.反事实样本生成
反事实样本的生成如图1中步骤(2)所示,详细步骤如下:
1)逐一遍历训练集中的所有医学文本。
2)针对每一个医学文本,随机的从中选择一个诊断实体(乳头状腺癌),该实体将会用于后续的实体替换步骤。
3)为了保持新产生的反事实样本的语义连贯性,采用同样是诊断类型的候选实体对上述步骤中被选中的实体进行替换,候选实体来自于诊断集合。
4)遍历诊断集合,针对每一个候选实体,如果候选实体与被选中的实体相同则跳过,反之则利用该候选实体替换掉被选中的实体,进而产生一个新的反事实样本,此处候选实体为白内障。此处的诊断集合总共有10个候选实体,那么针对当前的医学文本,将会产生9个新的反事实样本。
生成反事实样本的过程可以看作是对现有句子的实体和上下文进行重组,特别地,图2展示了训练集中只有两个观测样本的重组实例。
3.反事实样本的判别
图1中步骤(3)所示,反事实样本的判别需要一个带有先验知识的判别器对其进行判别,选用预训练语言模型作为编码器,多层感知机作为序列标注器。本实施例中,判别器配置如下:
1)编码器为预训练模型BERT-base,其中隐藏层数目为6,隐藏向量大小为512。
2)感知机的层数为2,由于只有一种实体类型,故输出标签为{O,B-Diagnosis,I-DIagnosis},由此可得出感知机的输出维度为3。
判别器会预先在已有的训练集中进行训练,针对每一个反事实样本,如果训练过的判别器能够成功地预测出被替换的实体(白内障),那么这个反事实样本会被认为是合理的。
4.所有合理的反事实样本和训练集中的样本会组成一个新的增强训练集,最终实体抽取模型的训练将会在增强训练集上进行。
5.伪特征测量
为了测量输入数据中伪特征存在的位置,本发明引入了结构因果模型对实体抽取过程进行了建模,并测量不同部分对模型性能的因果效应,具体的步骤如下:
1)将输入句子中的实体和上下文进行解耦合,分别表示为两个不同的变量E和C;
2)考虑到实体E和上下文C均可以为一个人或者某个生成句子的装置所产生,所以将此单独表示为变量G,即用变量G表示影响变量E和C的因素。实体E和上下文C又共同决定着输入句子X,同时,对于同一个已经训练好的实体抽取模型,不同的输入句子X决定着模型性能Y。因此,结构因果图模型建模为:
G→E→X→Y
G→C→X→Y
具体而言,该结构因果模型可建模为以下式子:
g:=fG(UG)
e:=fE(g,UE)
c:=fC(g,UC)
x:=fX(e,c,UX)
y:=fY(x,UY)
其中U*代表未观测的因素总和。
3)本发明利用干预手段去测试实体E和上下文C在模型性能Y上的因果效应,并设计了一个特殊的语义单元[empty]去分别替换实体E或者上下文C中的语义单元,一旦某个语义单元为[empty],那么这个语义单元的嵌入向量的所有维度将会被置0,对实体E或者上下文C的干预分别记为do(e0)和do(c0);
4)本发明利用平均因果效应(Average Causal Effect,ACE)来测量实体E和上下文C对模型性能Y的影响,表示如下:
ACEC=E(y|do(c0))-E(y|do(c))
ACEE=E(y|do(e0))-E(y|do(e))
其中c和e分别代表未干预的上下文和实体。
5)平均因果效应ACEC和ACEE分别代表着实体表征和上下文表征在实体抽取模型中的重要程度,值越高说明重要程度越高。实体抽取模型在训练集
Figure BDA0002682806190000091
上训练好之后,就可以利用上一步所述的公式对测试集
Figure BDA0002682806190000092
进行测量。重要程度越高,说明伪相关的特征越少。
如图3(a)所示,伪特征测量主要是利用结构因果模型去测量输入句子中实体和上下文对模型性能的影响大小,即平均因果效应ACE。测量方法中用特殊语义单元[empty]去替换上下文或者实体中的语义单元,如图3(b)和图3(c)所示。测试数据来自于测试集,测试的结果显示在实体抽取模型当中,实体表征的重要性要远大于上下文的表征。在利用本发明的反事实样本进行增强之后,实体表征的重要性增加了且泛化性能大大提升,这说明伪关系更多地存在于上下文的表征与输出标签当中。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (8)

1.一种基于反事实生成的命名实体识别增强方法,其特征在于,包括如下步骤:
S1:依次遍历已有标注数据的训练集
Figure FDA0002682806180000011
中的所有数据样本x,抽取数据样本x中的所有实体e,并按照实体类别进行分类,实体类别为t的所有数据样本构成本地实体集合
Figure FDA0002682806180000018
所有的本地实体集合为
Figure FDA0002682806180000017
S2:以训练集
Figure FDA0002682806180000012
中已有标注数据的数据样本(x,y)作为观测样本,按照S21~S24生成反事实样本:
S21:逐一遍历训练集
Figure FDA0002682806180000013
中的所有观测样本(x,y),针对每一个单独的观测样本(x,y),执行S22~S24:
S22:随机从该观测样本的所有实体中选择一个实体类别为t的实体e,用于实体替换;
S23:根据选中实体e对应的实体类型t,确定其对应的本地实体集合
Figure FDA0002682806180000019
S24:遍历该本地实体集合
Figure FDA00026828061800000110
针对本地实体集合中的每一个候选实体
Figure FDA00026828061800000111
如果候选实体e′与用于替换的实体e不相同,则用候选实体e′替换掉观测样本(x,y)中的实体e,每一次替换都会产生一个新的反事实样本(xc,yc);针对每一个观测样本(x,y),一共产生n-1个新的反事实样本(xc,yc),其中n为本地实体集合
Figure FDA00026828061800000112
中的候选实体数量;
S3:使用判别器对S2中生成的反事实样本进行判别,如果一个反事实样本(xc,yc)中被替换后的实体e′能够被判别器准确的识别出来,则将该反事实样本判别为合理的;
所述判别器是一个由编码器和序列标注器两部分组成的命名实体识别模型;所述编码器用于对观测样本的输入句子x和反事实样本的输入句子xc进行编码,编码后句子中的每个语义单元将会获得一个d维的表示向量;所述序列标注器由多层感知机组成,用于对每个输入的语义单元进行分类;所述判别器预先在已有标注数据的训练集
Figure FDA0002682806180000014
上进行训练,从而获得反事实样本判别所需要的先验知识;
S4:将S3中所有被判别为合理的反事实样本和训练集
Figure FDA0002682806180000015
中的观测样本进行组合,形成一个增强的训练数据集
Figure FDA0002682806180000016
用于最终的命名实体识别模型的训练。
2.如权利要求1所述的基于反事实生成的命名实体识别增强方法,其特征在于,所述的编码器为预训练语言模型或者循环神经网络模型。
3.如权利要求2所述的基于反事实生成的命名实体识别增强方法,其特征在于,所述的编码器为循环神经网络模型时,需要额外的预训练静态词向量进行语义单元的嵌入才可输入到编码器中。
4.如权利要求1所述的基于反事实生成的命名实体识别增强方法,其特征在于,所述序列标注器中,序列标注的标注体系采用BIO标注体系。
5.如权利要求4所述的基于反事实生成的命名实体识别增强方法,其特征在于,所述序列标注器的输入大小与所述语义单元的表示向量的维度d相同;所述序列标注器的输出层的大小为2m+1,其中m为数据集的实体类型个数。
6.如权利要求2所述的基于反事实生成的命名实体识别增强方法,其特征在于,所述的预训练语言模型包括ELMo或BERT。
7.如权利要求2所述的基于反事实生成的命名实体识别增强方法,其特征在于,所述的循环神经网络模型包括LSTM或GRU。
8.如权利要求1所述的基于反事实生成的命名实体识别增强方法,其特征在于,所述的语义单元是最小不可分割的输入符号,包括字符、词语或者短语。
CN202010967301.7A 2020-09-15 2020-09-15 一种基于反事实生成的命名实体识别增强方法 Active CN112257441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010967301.7A CN112257441B (zh) 2020-09-15 2020-09-15 一种基于反事实生成的命名实体识别增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010967301.7A CN112257441B (zh) 2020-09-15 2020-09-15 一种基于反事实生成的命名实体识别增强方法

Publications (2)

Publication Number Publication Date
CN112257441A true CN112257441A (zh) 2021-01-22
CN112257441B CN112257441B (zh) 2024-04-05

Family

ID=74231310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010967301.7A Active CN112257441B (zh) 2020-09-15 2020-09-15 一种基于反事实生成的命名实体识别增强方法

Country Status (1)

Country Link
CN (1) CN112257441B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801305A (zh) * 2021-03-19 2021-05-14 腾讯科技(深圳)有限公司 应对策略预测处理方法、装置、计算机设备和存储介质
CN113076421A (zh) * 2021-04-02 2021-07-06 西安交通大学 一种社交噪音文本实体关系抽取优化方法及系统
CN113824725A (zh) * 2021-09-24 2021-12-21 中国人民解放军国防科技大学 一种基于因果机器学习的网络安全监测分析方法与系统
WO2022222224A1 (zh) * 2021-04-19 2022-10-27 平安科技(深圳)有限公司 基于深度学习模型的数据增强方法、装置、设备及介质
CN116341556A (zh) * 2023-05-29 2023-06-27 浙江工业大学 基于数据增强的小样本康复医疗命名实体识别方法与装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959252A (zh) * 2018-06-28 2018-12-07 中国人民解放军国防科技大学 基于深度学习的半监督中文命名实体识别方法
CN109635280A (zh) * 2018-11-22 2019-04-16 园宝科技(武汉)有限公司 一种基于标注的事件抽取方法
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN110704633A (zh) * 2019-09-04 2020-01-17 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及存储介质
CN111145052A (zh) * 2019-12-26 2020-05-12 北京法意科技有限公司 司法文书的结构化分析方法及系统
CN111523314A (zh) * 2020-07-03 2020-08-11 支付宝(杭州)信息技术有限公司 模型对抗训练、命名实体识别方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN108959252A (zh) * 2018-06-28 2018-12-07 中国人民解放军国防科技大学 基于深度学习的半监督中文命名实体识别方法
CN109635280A (zh) * 2018-11-22 2019-04-16 园宝科技(武汉)有限公司 一种基于标注的事件抽取方法
CN110704633A (zh) * 2019-09-04 2020-01-17 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及存储介质
CN111145052A (zh) * 2019-12-26 2020-05-12 北京法意科技有限公司 司法文书的结构化分析方法及系统
CN111523314A (zh) * 2020-07-03 2020-08-11 支付宝(杭州)信息技术有限公司 模型对抗训练、命名实体识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石教祥;朱礼军;望俊成;王政;魏超;: "面向少量标注数据的命名实体识别研究", 情报工程, no. 04 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801305A (zh) * 2021-03-19 2021-05-14 腾讯科技(深圳)有限公司 应对策略预测处理方法、装置、计算机设备和存储介质
CN112801305B (zh) * 2021-03-19 2021-07-16 腾讯科技(深圳)有限公司 应对策略预测处理方法、装置、计算机设备和存储介质
CN113076421A (zh) * 2021-04-02 2021-07-06 西安交通大学 一种社交噪音文本实体关系抽取优化方法及系统
CN113076421B (zh) * 2021-04-02 2023-03-28 西安交通大学 一种社交噪音文本实体关系抽取优化方法及系统
WO2022222224A1 (zh) * 2021-04-19 2022-10-27 平安科技(深圳)有限公司 基于深度学习模型的数据增强方法、装置、设备及介质
CN113824725A (zh) * 2021-09-24 2021-12-21 中国人民解放军国防科技大学 一种基于因果机器学习的网络安全监测分析方法与系统
CN113824725B (zh) * 2021-09-24 2023-04-07 中国人民解放军国防科技大学 一种基于因果机器学习的网络安全监测分析方法与系统
CN116341556A (zh) * 2023-05-29 2023-06-27 浙江工业大学 基于数据增强的小样本康复医疗命名实体识别方法与装置

Also Published As

Publication number Publication date
CN112257441B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
Silva et al. Embracing domain differences in fake news: Cross-domain fake news detection using multi-modal data
CN110019839B (zh) 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN112257441B (zh) 一种基于反事实生成的命名实体识别增强方法
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN110334213B (zh) 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法
Sha et al. Assessing algorithmic fairness in automatic classifiers of educational forum posts
CN111209384A (zh) 基于人工智能的问答数据处理方法、装置及电子设备
CN113191148B (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN113343690B (zh) 一种文本可读性自动评估方法及装置
CN111914550A (zh) 一种面向限定领域的知识图谱更新方法及系统
CN116383399A (zh) 一种事件舆情风险预测方法及系统
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN115203338A (zh) 一种标签及标签实例推荐方法
CN114757183B (zh) 一种基于对比对齐网络的跨领域情感分类方法
CN113886524A (zh) 一种基于短文本的网络安全威胁事件抽取方法
CN115659947A (zh) 基于机器阅读理解及文本摘要的多项选择答题方法及系统
CN116976321A (zh) 文本处理方法、装置、计算机设备、存储介质和程序产品
CN116578708A (zh) 一种基于图神经网络的论文数据姓名消歧算法
CN117454987B (zh) 基于事件自动抽取的矿山事件知识图谱构建方法及装置
CN117390140B (zh) 基于机器阅读理解的中文方面级情感分析方法及系统
CN110245234A (zh) 一种基于本体和语义相似度的多源数据样本关联方法
CN113705159A (zh) 商户名称的标注方法、装置、设备及存储介质
CN117312577A (zh) 基于多层语义图卷积神经网络交通事件知识图谱构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant