CN114548090B - 基于卷积神经网络和改进级联标注的快速关系抽取方法 - Google Patents
基于卷积神经网络和改进级联标注的快速关系抽取方法 Download PDFInfo
- Publication number
- CN114548090B CN114548090B CN202210442561.1A CN202210442561A CN114548090B CN 114548090 B CN114548090 B CN 114548090B CN 202210442561 A CN202210442561 A CN 202210442561A CN 114548090 B CN114548090 B CN 114548090B
- Authority
- CN
- China
- Prior art keywords
- entity
- head
- text
- labeling
- head entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于卷积神经网络和改进级联标注的快速关系抽取方法。首先,基于由膨胀卷积、门控单元和残差连接组成的深度神经网络的文本编码器将初始文本进行编码,得到具有丰富上下文语义的文本编码表示。然后,根据得到的文本编码,采用改进级联标注,头实体标注器标注出所有头实体的跨度以及它们对应的实体类型。接着,通过文本编码表示和头实体的特征表示,尾实体标注器标注出每个头实体对应的所有的尾实体。最后,通过真实世界中的关系抽取任务来验证。本发明具有快速的训练和预测优势,能满足面向海量文本的关系抽取场景的需求。
Description
技术领域
本发明属于人工智能自然语言处理领域,具体为基于卷积神经网络和改进级联标注的快速关系抽取方法。
背景技术
自然语言处理技术是认知智能的核心技术之一,是支撑语义搜索、智能问答、辅助大数据分析等人工智能应用场景的知识基础,而其中关系抽取任务的目标是确定自然文本中两个实体之间的关系。最近关系抽取的研究取得了重大进展,然而,在真实的应用场景,关系抽取模型需要同时保持速度和性能的较高需求。例如,金融领域的投资者的投资决策依赖于从大量实时新闻和金融政治数据中抽取关系三元组构成的知识图谱。然而,大多数现有的方法缺乏考虑模型训练和推理所消耗的时间,无法有效地从文本中提取关系。早期研究采用近似频率计数和降维来加速无监督关系抽取中的相似性计算,并采用神经度量学习方法来加速关系抽取,基于卷积神经网络(CNN)的各种方法在解决这一问题方面也显示出了有效性。然而,这些努力未能解决关系抽取在性能和速度方面的挑战。关系抽取性能的最新进展主要是由于采用了带有Transformer的编码器基于预训练的语言模型(PLMS),如BERT和RoBERTa,它们具有强大的能力来捕获远程依赖关系和上下文语义特征。然而,Transformer中基于token对的注意操作需要在GPU中消耗大量时间和内存。此外,PLMs的内存消耗限制了模型训练和推理期间的批量大小,这意味着模型被限制在有限的计算资源内设置相对较小的批量大小。虽然这在训练中不是一个严重的问题,但它限制了推理的并行处理能力。另一方面,最近的工作也显示了级联二进制标记框架在解决重叠关系方面的有效性。然而,该框架存在两个缺点:关系冗余和泛化差。关系冗余,即对所有关系提取尾部实体,会导致大量无意义的计算。此外,由于级联二进制标记框架将多标签问题简化为二进制分类问题,因此需要启发式阈值调整,并引入边界决策错误。
本发明设计了一种新的卷积结构来解决编码器的计算效率问题,而不是使用Transformer。它通过膨胀卷积、门控单元和残差连接显著加快了训练和推理速度。首先,膨胀卷积使网络输出的接收区域相对于网络深度呈指数增长,这导致计算路径大幅缩短,并捕获任意长距离的依赖关系。换言之,使用膨胀卷积可以实现层数较少的普通卷积的高效率。其次,门控单元用于控制哪些信息应该通过层的层次结构传播。然后利用残差连接避免梯度消失,实现深度卷积网络。我们的卷积编码器不仅大大减少了模型训练和推理所消耗的时间,而且保证了在关系抽取中的竞争性能。随后,我们引入了实体类型到预定义关系(类型-关系)的映射机制和位置相关的自适应阈值策略,以改进级联二进制标记框架。具体而言,头部实体类型和预定义关系之间的映射是保持的,当头部实体类型被确定时,其潜在的对应关系也被确定。在这种机制下,在预测重叠关系时避免了对所有关系的遍历。此外,将实体类型信息纳入关系抽取可以提高其最终性能。在执行二进制标记时,位置相关自适应阈值将全局阈值替换为句子中不同位置的可学习阈值。通过基于等级的排序损失函数学习阈值,该函数在训练中将正类分数推到阈值以上,将负类分数拉到阈值以下。标记器将一个位置设置为1,其得分高于其位置相关阈值,或将一个位置设置为0,其得分较低。该策略避免了阈值调整,并使阈值可调整到不同的标记位置,从而实现更好的泛化。
发明内容
本发明公开了基于卷积神经网络和改进级联标注的快速关系抽取方法。首先,基于由膨胀卷积、门控单元和残差连接组成的深度神经网络的文本编码器将初始文本进行编码,得到具有丰富上下文语义的文本编码表示,从而解决了关系抽取中使用预训练模型作为编码器导致模型训练和预测缓慢的效率瓶颈问题。然后,根据得到的文本编码,采用改进级联标注,头实体标注器标注出所有头实体的跨度以及它们对应的实体类型。进而,提出实体-关系映射机制,使得关系抽取模型能确定当前实体类型所有可能对应的潜在关系。接着,通过文本编码表示和头实体的特征表示,尾实体标注器标注出每个头实体对应的所有的尾实体,从而组成所有抽取到的三元组集合。最后,通过真实世界中的关系抽取任务来验证本发明,结果表明,本发明公开的快速关系抽取模型将训练速度提到了3~10倍,推理速度提高了7~15倍,模型参数相比采用预训练模型的方法缩小了100倍,同时保持了优秀的抽取性能,证实了本发明具有快速的训练和预测优势,能满足面向海量文本的关系抽取场景的需求。
为达到上述目的,本发明的技术方案如下:
基于卷积神经网络和改进级联标注的快速关系抽取方法,其特征在于:具体步骤如下:
1)卷积神经网络编码:
基于由膨胀卷积、门控单元和残差连接组成的深度神经网络的文本编码器将初始文本进行编码,得到具有丰富上下文语义的文本编码表示;
2)头实体标注器:
根据得到的文本编码,采用改进级联标注,头实体标注器标注出所有头实体的跨度以及它们对应的实体类型;
3)头实体类型与关系类型映射:
通过文本编码表示和头实体的特征表示;
4)尾实体标注器:
尾实体标注器标注出每个头实体对应的所有的尾实体;
5)快速关系抽取模型训练及预测:
通过真实世界中的关系抽取任务来验证。
作为本发明进一步改进,所述步骤1)具体如下:
给定一个预定义的关系集合R,对于所有的自然文本S,其包含一个实体集合E和对应的实体类型集合T,关系抽取的任务是抽取出所有的关系三元组,其中三个变量分别代表关系三元组中的头实体、关系和尾实体,关系三元组的集合用Z表示,即;
假设输入编码器的自然文本的向量表示为,其中每个字符单元的向量表示都是其对应的静态预训练词向量和可训练的位置向量的线性组合,该基于卷积神经网络的编码器包含L个堆叠的块,用Block(·)来表示,那么输入文本经过编码器编码之后得到的具有上下文语义的文本向量特征表示,其中w表示x经过卷积神经网络编码得到的向量特征,计算如下:
其中编码器包含的每一个Block都是由两个膨胀卷积,一个门控单元和一个残差连接组成的;
其中下标中的a和b表示两个不同的膨胀卷积得到的结果;
在两个膨胀卷积之上实现一个门控单元,同时,加入一个残差连接,第i层Block的最终输出即为:
其中sigmoid是一个激活函数,将每个维度的数值映射到0~1之间,然后与逐位相乘,下标i表示此时为第i个Block的输出结果,同时也是第i+1个Block的输入向量,最终的文本向量特征表示H即为最后一个Block即第L个堆叠的Block的输出结果。
作为本发明进一步改进,所述步骤2)具体如下:
将文本向量表示H通过一层自注意力网络得到头实体辅助特征;然后,将文本向量特征H与头实体辅助特征进行拼接之后通过两个全连接层的计算;最后,针对每一种预定义的实体类型,使用起始指针和结束指针来分别标注头实体的起始位置和结束位置,得到所有的头实体的跨度表示以及对应的实体类型。
对于头实体的标注过程,将所述步骤1)得到的文本向量表示与头实体标注特异性特征进行拼接,然后,针对文本中的每一个位置,分别计算第i个位置和第j种实体类型作为头实体的起始位置的得分和结束位置的得分,计算方式为:
当某个位置的得分高于其对应位置的自适应阈值时,标注器会将其标注为1,否则标注为0。
作为本发明进一步改进,所述步骤2)中自适应阈值的具体实现方式如下:
通过上述头实体标注器标注头实体过程,将所有待抽取的头实体的跨度及其对应的实体类型抽取出来。
作为本发明进一步改进,所述步骤3)具体如下:
维护一层实体类型嵌入层和一层相对位置嵌入层,首先,根据所述步骤1)得到的文本向量表示H,获得头实体的起始位置特征和结束位置特征,根据实体类型嵌入层获得头实体类型特征,根据相对位置嵌入层获得相对位置特征和,然后,将上述所有的特征进行拼接即来组成最终的头实体特征,通过头实体类型与关系类型映射机制,确定当前头实体对应的所有潜在关系集合R’。
作为本发明进一步改进,所述步骤4)具体如下:
作为本发明进一步改进,所述步骤4)中自适应阈值的具体实现方式如下:
经过尾实体标注器标注尾实体过程,完成了针对所有的关系及其对应的尾实体的抽取过程,从而构成了所有的关系三元组。作为本发明进一步改进,所述步骤5)训练阶段具体如下:
首先,基于卷积神经网络将静态预训练词向量表示的自然文本编码表示为具有丰富上下文语义的句子表示,接下来,通过改进级联标注来对实体和关系进行标注,最后,对于模型的标注与真实标签之间的差异,采用排序损失进行损失计算,遵循监督学习的方式来优化模型的损失,更新模型的网络参数,最终得到训练完成的快速关系抽取模型。
作为本发明进一步改进,所述步骤5)预测阶段具体如下:
首先,将待抽取的原始文本利用静态预训练词向量表示,接下来,使用快速关系抽取模型来进行前向计算,最后,将模型最终的计算结果进行解码得到抽取出的关系三元组,完成模型的预测过程。
与现有技术相比,本发明具有以下优点和有益效果:
本发明提出了基于卷积神经网络和改进级联标注的快速关系抽取方法,借助膨胀卷积、门控单元和残差连接在使得编码器结构简单和运算量小的情况下,尽可能保证编码器的捕捉长距离句子之间信息依赖的能力,从而使得快速关系抽取取得更好的速度和性能。同时,借助级联标注框架,可以处理重叠关系的情景,采用实体类型到预定义关系之间的映射机制,可以缓解关系冗余的问题,采用位置相关的自适应阈值则可以使得模型获得更好的泛化性和稳定性,解决了二进制标注传统的泛化性差的难题。在关系抽取任务上进行了验证,证明了本发明提出的快速关系抽取方法具有较好的通用性,同时能够保证实际应用中的高效率。因此本发明具有较好的应用前景和推广范围。
附图说明
图1为本发明方法的逻辑流程图;
图2为本发明方法的模型流程图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
本发明提出了一种基于卷积神经网络和改进级联标注的快速关系抽取方法,借助膨胀卷积、门控单元和残差连接在使得编码器结构简单和运算量小的情况下,尽可能保证编码器的捕捉长距离句子之间信息依赖的能力,从而使得快速关系抽取取得更好的速度和性能。同时,借助级联标注框架,可以处理重叠关系的情景,采用实体类型到预定义关系之间的映射机制,可以缓解关系冗余的问题,采用位置相关的自适应阈值则可以使得模型获得更好的泛化性和稳定性,解决了二进制标注传统的泛化性差的难题。在关系抽取任务上进行了验证,证明了本发明提出的快速关系抽取方法具有较好的通用性,同时能够保证实际应用中的高效率。因此本发明具有较好的应用前景和推广范围。
作为本发明一种具体实施例,本发明提供逻辑流程图如图1以及模型流程图如图2所示的一种基于卷积神经网络和改进级联标注的快速关系抽取方法,包括步骤为:
1)卷积神经网络编码。
关系抽取的过程是根据预先给定的自然文本和预定义关系集合,抽取出所有的实体和关系,从而组成最终的三元组集合。给定一个预定义的关系集合R,对于所有的自然文本S,其包含一个实体集合E和对应的实体类型集合T,关系抽取的任务是抽取出所有的关系三元组,其中三个变量分别代表关系三元组中的头实体、关系和尾实体,关系三元组的集合用Z表示,即。
理论上,为了具有建模任意长距离依赖文本信息的能力,在不使用注意力机制的情况下,可以通过叠加足够深的普通卷积层网络来实现。但是,堆叠太多的网络层在带来参数量增大,训练难度上升等问题的同时,也严重影响了编码器的运算速度和编码效率。因此,采用基于膨胀卷积、门控单元和残差连接的深度神经网络结构作为编码器:膨胀卷积通过扩大卷积核的感受野可以使用更少的参数和层数捕捉更长的上下文信息,门控单元可以控制深层网络中的信息流动,残差连接有效缓解梯度消失的问题,确保了神经网络的深度。
假设输入编码器的自然文本的向量表示为,其中每个字符单元的向量表示都是其对应的静态预训练词向量和可训练的位置向量的线性组合,该基于卷积神经网络的编码器包含L个堆叠的块,用Block(·)来表示,那么输入文本经过编码器编码之后得到的具有上下文语义的文本向量特征表示,其中w表示x经过卷积神经网络编码得到的向量特征,计算如下:
其中编码器包含的每一个Block都是由两个膨胀卷积,一个门控单元和一个残差连接组成的,它包括一定数量的特定大小的卷积核,针对输入文本的向量维度大小和文本长度来确保文本的输入和输出向量维度保持一致。
其中下标中的a和b表示两个不同的膨胀卷积得到的结果,对于所有的Block,我们利用padding的方法确保输出维度和输出维度保持匹配。然后,我们在两个膨胀卷积之上实现一个门控单元,用来控制神经网络不同层之间的重要信息的流动,同时,加入一个残差连接来避免梯度爆炸和梯度消失,使得训练进程更加容易,也可以在一定程度上确保信息的多通道流动,第i层Block的最终输出即为:
其中sigmoid是一个激活函数,将每个维度的数值映射到0~1之间,然后与逐位相乘,直觉上就是给信息流动加了一个门来控制其流量,残差连接则简单实现为将输入文本向量表示直接逐位相加到输出文本向量表示之上。下标i表示此时为第i个Block的输出结果,同时也是第i+1个Block的输入向量。显然,最终的文本向量特征表示H即为最后一个Block(第L个堆叠的Block)的输出结果。
通过上述方法进行基于卷积神经网络的文本编码,能够大幅提高关系抽取中文本编码的效率,在获得大幅编码速度提升的同时,保证编码的质量,从而确保关系抽取的最终性能效果,满足了快速关系抽取的核心需求。
2)头实体标注器。
在关系抽取中,得到高质量的文本编码向量表示之后,可以采取多种不同的方法进行后续的头实体、关系和尾实体的标注。然而,在真实的应用场景中,往往大量出现重叠的关系,导致某一种实体和关系可能参与构建多个三元组,所以使用简单的关系抽取方式在理论和实践中都不能较为完整和准确的抽取出所有关系三元组。最近,基于级联标注的方法在重叠关系的抽取中取得了很多成果,所以可以以级联标注框架为主设计合适的快速关系抽取标注框架。但是,传统的级联标注框架具有较多的不足,比如会产生关系冗余和泛化性差的问题。针对关系冗余和泛化性差两个问题,分别采用相的改进措施进行改进,形成改进级联标注框架,所采用的两点创新如下:
针对关系冗余的问题,由于为了满足重叠关系的抽取需求,在抽取了所有的头实体之后,需要针对每一种关系类型都执行一次尾实体的抽取,这产生了大量的关系冗余。真实情况是每一种实体可能只和极少数的关系有联系,关系冗余的问题带来了大量的无意义的计算,影响了关系抽取模型抽取实体和关系的整体速度。基于此,提出一种头实体类型-关系类型的映射机制,来大幅缩减关系类型的计算量,具体实现形式为:针对所有的预定义的实体类型和关系类型,确定它们之间的映射关系,即当头实体的类型被确定的时候,它可能对应的所有的潜在的关系类型均被确定,而在后续阶段只需要针对这些潜在的关系类型进行尾实体的抽取即可,大大减少了模型计算量,提高了尾实体标注效率。而在头实体标注的时候,不能仅仅确定头实体的跨度范围信息,而应该同时确定头实体的类型信息,便于应用映射机制来确定关系类型,所以针对K种头实体类型,应该分别执行K次头实体的标注,这点与传统的级联标注框架中的头实体标注有所不同。
针对泛化性差的问题,由于在标注头实体和尾实体时采用的基于跨度的标注方式,仅仅标注实体的起始位置和结束位置,虽然降低了实体抽取问题的难度,但是带来了泛化性较差的问题,在某些环境下,模型对于实体的起始位置和结束位置较难分辨,容易导致边界的标注错误。基于此,提出一种位置相关的自适应阈值来提高模型在级联标注中的泛化性,具体实现形式为:针对文本的每一个需要标注的位置,额外设置一个可调整的阈值位置,当文本在该位置的得分高于其对应的阈值时,将该位置标注为1(有效位),否则标注为0(无效位),这种自适应阈值的好处是,可以根据文本自身的特点在不同的位置设置不同的置信度,因为往往文本不同位置标注的置信度标准是不同的,采用全局的阈值往往导致局部最优的结果,而且根据验证集来调整全局阈值更容易导致较差的泛化性,常常出现模型在测试集上表现很好,但是在测试集上表现却差的比较明显的情况,采用位置相关的自适应阈值有效的缓解了上述问题,保证了快速关系抽取的整体性能。
将文本向量表示H通过一层自注意力网络得到头实体辅助特征;然后,将文本向量特征H与头实体辅助特征进行拼接之后通过两个全连接层的计算;最后,针对每一种预定义的实体类型,使用起始指针和结束指针来分别标注头实体的起始位置和结束位置,并采用位置依赖的动态适应性阈值来增强标注准确性,自此就得到了所有的头实体的跨度表示以及对应的实体类型。采用基于改进的级联标注方法,有利于维持模型的标注准确性,提升模型的泛化性。
采用先标注头实体,然后标注其对应的关系和尾实体的方式是一种典型的级联标注框架,而为了弥补框架自身的不足,提出了类型-关系的映射机制和位置相关的自适应阈值来缓解级联标注的关系冗余和泛化性差的问题。
由于基于卷积的编码器共享了大部分的参数,它平等的看待文本句子中的每个字符单元,却不能更加注意当前文本中最重要的信息位置,所以,模型需要利用两个不同的自注意力层来分别生成头实体标注特异性特征和尾实体特异性特征,以头实体标注特异性特征为例,其计算方式为:
对于头实体的标注过程,将上一阶段得到的文本向量表示与头实体标注特异性特征进行拼接,然后,针对文本中的每一个位置,分别计算第i个位置和第j种实体类型作为头实体的起始位置的得分和结束位置的得分,计算方式为:
为了进一步提高头实体标注器的标注准确度和获得更好的模型泛化性,不采用在每个位置进行sigmoid激活计算从而选取全局阈值的方式,而是采用位置相关的自适应阈值来替代,目的是让标注器自动的去学习最适合的动态阈值。当某个位置的得分高于其对应位置的自适应阈值时,标注器会将其标注为1,否则标注为0。
下面介绍位置相关的自适应阈值的具体实现方式:
通过上述头实体标注器标注头实体过程,将所有待抽取的头实体的跨度及其对应的实体类型抽取出来。
通过上述头实体标注器标注头实体过程,可将所有待抽取的头实体的跨度及其对应的实体类型抽取出来,以便于后续阶段确定潜在实体类型和对应的尾实体。头实体标注的过程可以视作为针对每一种头实体类型,执行一次头实体起始位置和结束位置在所有位置上的得分计算,并将高于对应位置相关自适应阈值的位置确定为有效位置,即该位置是某个实体的起始位置或者结束位置。相较于传统的级联标注框架,经过改进的标注方式可以使得模型获取更多的实体信息,从而有利于后续标注的效率和准确性。此外,使用分别针对每种类型进行实体标注的方法可以在一定程度上解决传统级联标注框架难以解决的嵌套实体问题。
3)头实体类型与关系类型映射。
传统的级联标注框架没有引入实体类型的信息,所以在后续标注阶段无法使用头实体的类型信息,而且需要针对预定义的每一种关系执行一次尾实体的标注,大大降低了标注和抽取的效率,影响整体的计算速度,不适合快速关系抽取的应用场景。基于此,引入了头实体类型与关系类型映射过程,利用头实体的类型来确定其可能对应的所有潜在关系,而在后续尾实体标注阶段就只需要针对这些潜在关系分别计算尾实体标注阶段的各个位置的得分,从而得到更为准确的结果,以及大大加快了模型运算的速度,符合快速关系抽取的需求。
头实体类型与关系类型映射的实现方式是:模型内部维护一张实体类型到关系类型的映射表,同一种实体类型可以对应多种关系类型。具体来讲,维护一层实体类型嵌入层和一层相对位置嵌入层,首先,根据前述阶段得到的文本向量表示H,获得头实体的起始位置特征和结束位置特征,根据实体类型嵌入层获得头实体类型特征,根据相对位置嵌入层获得相对位置特征和,然后,将上述所有的特征进行拼接即来组成最终的头实体特征,通过头实体类型与关系类型映射机制,确定当前头实体对应的所有潜在关系集合R’ ,目的是通过引入实体类型信息来更加准确的帮助模型辨别尾实体的跨度信息。
通过上述头实体类型与关系类型映射过程,实现在级联标注框架中缓解关系冗余问题,带来更高计算效率。大量的实验研究表明,将头实体的类型信息引入关系抽取中有利于提高最终抽取的总体性能,在该映射机制中,不仅通过实体类型来大大缩减关系和尾实体的计算量,而且利用头实体的类型信息为后续尾实体阶段的标注提供了一定的提示和辅助作用,有利于快速关系抽取的性能保持,在关系数量极多的时候,映射机制带来的效率提升是非常显著的。
4)尾实体标注器。
在经过基于卷积神经网络编码,头实体标注器标注头实体和头实体类型与关系类型映射过程之后,为了抽取出所有的头实体、关系和尾实体组成有效关系三元组,模型需要在最终阶段针对每一种预定义的关系执行尾实体的标注识别操作。该过程与头实体标注过程十分类似,基本采用相同的计算方式和损失函数,唯一的区别是头实体标注的过程所有的头实体类型是确定数量的,而尾实体的标注取决于当前头实体的类型,所有关系类型的集合是动态变化的。如果在这个过程中将头实体标注时的实体类型当作尾实体标注时的关系类型,那么两个阶段就是完全相同的。
经过尾实体标注器标注尾实体过程,完成了针对所有的关系及其对应的尾实体的抽取过程,从而构成了所有的关系三元组。
经过尾实体标注器标注尾实体过程,完成了针对所有的关系及其对应的尾实体的抽取过程,从而构成了所有的关系三元组。在尾实体的标注过程中,利用到了头实体类型与关系类型的映射机制达到了计算加速的目的,利用位置相关的自适应阈值来缓解传统级联标注框架泛化性差的问题,取得了预期的较好效果,均适应了快速关系抽取的核心要求和突出特点。
5)快速关系抽取模型训练及预测。
上述步骤实现的快速关系抽取模型整体架构图如图2所示,完成模型构建后,即可进行快速关系抽取模型训练及预测。在训练阶段,首先,基于卷积神经网络将静态预训练词向量表示的自然文本编码表示为具有丰富上下文语义的句子表示,接下来,通过改进级联标注来对实体和关系进行标注,最后,对于模型的标注与真实标签之间的差异,采用排序损失进行损失计算,遵循一般监督学习的方式来优化模型的损失,更新模型的网络参数,最终得到训练完成的快速关系抽取模型。在预测阶段,首先,将待抽取的原始文本利用静态预训练词向量表示,接下来,使用快速关系抽取模型来进行前向计算,最后,将模型最终的计算结果进行解码得到抽取出的关系三元组,完成模型的预测过程。
在给定自然文本S与预定义关系集合R的前提下,将自然文本S中的所有的实体对以及它们之间所属的关系抽取出来,形成关系三元组集合Z。采用基于排序损失的损失函数,训练后得到的关系抽取模型用于自然语言处理其他下游任务如智能问答。通常采用关系抽取模型在测试集上的表现来评价关系抽取模型性能的好坏,采用的评价指标是准确率P、召回率R以及F1值,而直接采用模型训练和预测所需的时间来评价模型速度的优劣。本发明提出了一种基于卷积神经网络和改进级联标注的快速关系抽取方法,借助膨胀卷积、门控单元和残差连接在使得编码器结构简单和运算量小的情况下,尽可能保证编码器的捕捉长距离句子之间信息依赖的能力,从而使得快速关系抽取取得更好的速度和性能。同时,借助级联标注框架,可以处理重叠关系的情景,采用实体类型到预定义关系之间的映射机制,可以缓解关系冗余的问题,采用位置相关的自适应阈值则可以使得模型获得更好的泛化性和稳定性,解决了二进制标注传统的泛化性差的难题。在关系抽取任务上进行了验证,证明了本发明提出的快速关系抽取方法具有较好的通用性,同时能够保证实际应用中的高效率。因此本发明具有较好的应用前景和推广范围。
实施例1
作为本发明一种具体实施例,本发明提供训练配置流程表如下表所示的一种基于卷积神经网络和改进级联标注的快速关系抽取方法的训练和预测。
将快速关系抽取模型在真实的中文和英文数据集上进行关系抽取任务的训练和预测,且所有的其它实施例中均使用和本实施例相同的数据。其中,中文数据集使用百度发布的DuIE关系抽取训练集,其含有11958条训练数据,1498条验证数据和1489条测试数据,并定义了48种不同的关系类型;英文数据集使用纽约时报语料与Freebase进行远程监督得到的NYT关系抽取数据集,其含有70339条训练数据和4006条测试数据,并定义了29种不同的关系类型。由于模型具有较好的鲁棒性和泛化性,在中英文的不同场景下都可以使用相同的超参数设置。具体实施如下:模型的输入文本向量采用128维的中英文对应的静态预训练词向量,后续的隐状态向量对应的维度则为128维。基于卷积神经网络的编码器中采用核大小为3的卷积核,头实体类型嵌入层维护的头实体类型向量维度为64。模型结构方面,采用了6层堆叠的块(Block),每个块中的膨胀卷积率分别为1,2,4,1,1和1。在训练阶段,使用AdamW算法优化器,学习率设置为0.003,并且在训练的前6%的更新步采用线性的热启动。在每一层网络中采用0.1的dropout来防止过拟合和增强泛化性,其他的所有网络层参数均为随机初始化。一般来讲,需要根据不同的训练任务和场景调整训练的batch和step,但是快速关系抽取模型具有较好的稳定性,直接将batch设置为32,以及在大约经过10000个step前向计算和反向更新之后,模型会收敛到理想的结果,进而完成快速关系抽取模型的训练过程。
将训练完成的快速关系抽取模型应用在真实场景下的测试数据,并将模型抽取的关系三元组的结果与实际结果进行对比,发现模型在中文和英文等多种不同的场景下均达到了80%以上的精确率P,召回率R以及F1得分,说明快速关系抽取模型在实际的应用场景中可以达到优秀和先进的性能。
实施例2
基于卷积神经网络和改进级联标注的快速关系抽取模型具有快速的推理能力,首先,模型具有的参数量较少,大约是目前其他关系抽取模型的参数量的1%,所以模型需要的计算时间和计算资源均大大降低;而在抽取真实世界的自然文本中的关系三元组时,模型处理一条自然文本平均耗时不到5ms,速度比其他方法提高了7~15倍。
在实际应用中,经常需要模型可以一次处理很多个自然文本,保证模型运算的并行性。在计算资源有限的情况下,传统的利用预训练语言模型作为编码器的关系抽取方法仅仅能一次处理抽取8个以内甚至4个以内的自然文本,而快速关系抽取模型由于参数量和计算量的巨大优势则可以一次处理几百条甚至上千条自然文本,具有更强的并行处理能力。
实施例3
基于卷积神经网络和改进级联标注的快速关系抽取模型易于训练,而且训练消耗时间较少,相较于其他关系抽取方法,其具有更短的单次参数更新周转时间和更少的总参数更新周转次数,所以需要更少的总训练时间。比如,在训练数据量约70000条的情况下,将batch的大小设置为32,并将模型训练60个epoch,最终大约仅需要100分钟的时间,速度比其他方法提高了3~10倍。
实施例4
基于卷积神经网络和改进级联标注的快速关系抽取模型采用6层堆叠的块(Block)来进行输入文本的编码,同时保证了关系抽取的性能和效率。通过增加模型的堆叠数量,可以继续提高关系抽取的性能表现,同时,其抽取速度也会收到一定影响。比如,将6层编码器增加到9层编码器,将在最终的关系抽取性能表现中提高近1%~2%,其训练所需时间约增加了50%,推理速度约降低了40%。但是,其相比其他关系抽取方法仍然具有非常显著的速度优势,同时,减少编码器的堆叠层数将获取更快的抽取速度,所以其具有较好的灵活性,可以针对具体的实际情况进行模型结构的选择。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。
Claims (1)
1.基于卷积神经网络和改进级联标注的快速关系抽取方法,其特征在于:具体步骤如下:
1)卷积神经网络编码:
基于由膨胀卷积、门控单元和残差连接组成的深度神经网络的文本编码器将初始文本进行编码,得到具有丰富上下文语义的文本编码表示;
所述步骤1)具体如下:
给定一个预定义的关系集合R,对于所有的自然文本S,其包含一个实体集合E和对应的
实体类型集合T,关系抽取的任务是抽取出所有的关系三元组,其中三个变量分别
代表关系三元组中的头实体、关系和尾实体,关系三元组的集合用Z表
示,即;
假设输入编码器的自然文本的向量表示为,其中每个字符单元的向量表
示都是其对应的静态预训练词向量和可训练的位置向量的线性组合,该基于卷积神经
网络的编码器包含L个堆叠的块,用Block(·)来表示,那么输入文本经过编码器编码之后
得到的具有上下文语义的文本向量特征表示,其中w表示x经过卷积神经网
络编码得到的向量特征,计算如下:
其中编码器包含的每一个Block都是由两个膨胀卷积,一个门控单元和一个残差连接组成的;
其中下标中的a和b表示两个不同的膨胀卷积得到的结果;
在两个膨胀卷积之上实现一个门控单元,同时,加入一个残差连接,第i层Block的最终输出即为:
其中sigmoid是一个激活函数,将每个维度的数值映射到0~1之间,然后与逐位相
乘,下标i表示此时为第i个Block的输出结果,同时也是第i+1个Block的输入向量,最终的
文本向量特征表示H即为最后一个Block即第L个堆叠的Block的输出结果;
2)头实体标注器:
根据得到的文本编码,采用改进级联标注,头实体标注器标注出所有头实体的跨度以及它们对应的实体类型;
所述步骤2)具体如下:
将文本向量表示H通过一层自注意力网络得到头实体辅助特征;然后,将文本向量
特征H与头实体辅助特征进行拼接之后通过两个全连接层的计算;最后,针对每一种预
定义的实体类型,使用起始指针和结束指针来分别标注头实体的起始位置和结束位置,得
到所有的头实体的跨度表示以及对应的实体类型;
对于头实体的标注过程,将所述步骤1)得到的文本向量表示与头
实体标注特异性特征进行拼接,然后,针对文本中的每一个位置,分
别计算第i个位置和第j种实体类型作为头实体的起始位置的得分和结束位置的得分,计算方式为:
当某个位置的得分高于其对应位置的自适应阈值时,标注器会将其标注为1,否则标注为0;
所述步骤2)中自适应阈值的具体实现方式如下:
通过上述头实体标注器标注头实体过程,将所有待抽取的头实体的跨度及其对应的实体类型抽取出来;
3)头实体类型与关系类型映射:
通过文本编码表示和头实体的特征表示;
所述步骤3)具体如下:
维护一层实体类型嵌入层和一层相对位置嵌入层,首先,根据所述步骤1)得
到的文本向量表示H,获得头实体的起始位置特征和结束位置特征,根据实体类
型嵌入层获得头实体类型特征,根据相对位置嵌入层获得相对位置特征和,然后,将上述所有的特征进行拼接即来组成最
终的头实体特征,通过头实体类型与关系类型映射机制,确定当前头实体对应的所有
潜在关系集合R’;
4)尾实体标注器:
尾实体标注器标注出每个头实体对应的所有的尾实体;
所述步骤4)具体如下:
所述步骤4)中自适应阈值的具体实现方式如下:
经过尾实体标注器标注尾实体过程,完成了针对所有的关系及其对应的尾实体的抽取过程,从而构成了所有的关系三元组;
5)快速关系抽取模型训练及预测:
通过真实世界中的关系抽取任务来验证;
所述步骤5)训练阶段具体如下:
首先,基于卷积神经网络将静态预训练词向量表示的自然文本编码表示为具有丰富上下文语义的句子表示,接下来,通过改进级联标注来对实体和关系进行标注,最后,对于模型的标注与真实标签之间的差异,采用排序损失进行损失计算,遵循监督学习的方式来优化模型的损失,更新模型的网络参数,最终得到训练完成的快速关系抽取模型;
所述步骤5)预测阶段具体如下:
首先,将待抽取的原始文本利用静态预训练词向量表示,接下来,使用快速关系抽取模型来进行前向计算,最后,将模型最终的计算结果进行解码得到抽取出的关系三元组,完成模型的预测过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210442561.1A CN114548090B (zh) | 2022-04-26 | 2022-04-26 | 基于卷积神经网络和改进级联标注的快速关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210442561.1A CN114548090B (zh) | 2022-04-26 | 2022-04-26 | 基于卷积神经网络和改进级联标注的快速关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114548090A CN114548090A (zh) | 2022-05-27 |
CN114548090B true CN114548090B (zh) | 2022-07-26 |
Family
ID=81666768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210442561.1A Active CN114548090B (zh) | 2022-04-26 | 2022-04-26 | 基于卷积神经网络和改进级联标注的快速关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114548090B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304062B (zh) * | 2023-05-17 | 2023-07-21 | 南京物浦大数据有限公司 | 一种基于级联深度学习模型的公平竞争审查方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487807B (zh) * | 2020-12-09 | 2023-07-28 | 重庆邮电大学 | 一种基于膨胀门卷积神经网络的文本关系抽取方法 |
CN114297408A (zh) * | 2021-12-31 | 2022-04-08 | 中科国力(镇江)智能技术有限公司 | 一种基于级联二进制标注框架的关系三元组抽取方法 |
-
2022
- 2022-04-26 CN CN202210442561.1A patent/CN114548090B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114548090A (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657239B (zh) | 基于注意力机制和语言模型学习的中文命名实体识别方法 | |
CN110413785A (zh) | 一种基于bert和特征融合的文本自动分类方法 | |
CN110020438A (zh) | 基于序列识别的企业或组织中文名称实体消歧方法和装置 | |
CN113190656B (zh) | 一种基于多标注框架与融合特征的中文命名实体抽取方法 | |
CN112487820B (zh) | 一种中文医疗命名实体识别方法 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN113221571B (zh) | 基于实体相关注意力机制的实体关系联合抽取方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN115964459B (zh) | 基于食品安全认知图谱的多跳推理问答方法及系统 | |
CN115983274B (zh) | 一种基于两阶段标签校正的噪声事件抽取方法 | |
CN115238693A (zh) | 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法 | |
Szűcs et al. | Seq2seq deep learning method for summary generation by lstm with two-way encoder and beam search decoder | |
CN114548090B (zh) | 基于卷积神经网络和改进级联标注的快速关系抽取方法 | |
CN114969269A (zh) | 基于实体识别和关系抽取的虚假新闻检测方法及系统 | |
CN114780725A (zh) | 一种基于深度聚类的文本分类算法 | |
CN114564953A (zh) | 一种基于多种词嵌入融合与注意力机制的情感目标抽取模型 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN114781356B (zh) | 一种基于输入共享的文本摘要生成方法 | |
CN115169429A (zh) | 一种轻量化方面级文本情感分析方法 | |
CN114925695A (zh) | 一种命名实体识别方法、系统、设备及存储介质 | |
Wang et al. | End-to-end relation extraction using graph convolutional network with a novel entity attention | |
CN118114667B (zh) | 基于多任务学习和注意力机制的命名实体识别模型 | |
CN117521656B (zh) | 一种面向中文文本的端到端中文实体关系联合抽取方法 | |
CN111079416B (zh) | 基于共享控制门结构的中文文本校正方法 | |
CN117313724A (zh) | 一种基于标签嵌入提取特征的命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |