CN115034302A

CN115034302A - 优化信息融合策略的关系抽取方法、装置、设备及介质

Info

Publication number: CN115034302A
Application number: CN202210641239.1A
Authority: CN
Inventors: 琚生根; 周煜坤; 赵振宇; 鄢凡力
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-09-09
Anticipated expiration: 2042-06-07
Also published as: CN115034302B

Abstract

本申请公开了优化信息融合策略的关系抽取方法、装置、设备及介质，优化信息融合策略的关系抽取方法包括：将经过预处理的目标文本输入至预训练模型的编码器，得到第一实体的第一实体向量、第二实体的第二实体向量及目标文本的句向量；将第一实体向量与句向量进行融合，得到第一实体的第一复合特征向量，将第二实体向量与句向量进行融合，得到第二实体的第二复合特征向量；根据上下文特征向量，将第一复合特征向量与第二复合特征向量进行融合，得到第一实体与第二实体的关系表示；将关系表示输入至分类层，得到第一实体与第二实体的语义关系。复合特征向量融合了目标文本的全局信息与局部信息，得到准确性和可靠性更高的语义关系。

Description

优化信息融合策略的关系抽取方法、装置、设备及介质

技术领域

本发明涉及信息抽取领域，尤其涉及一种优化信息融合策略的关系抽取方法、装置、设备及介质。

背景技术

信息抽取是将非结构化文本中包含的信息进行结构化处理，得到表格相同的信息组织格式。文本的关系抽取用于从文本中抽取两个目标实体之间存在的语义关系，是信息抽取的一项子任务步骤。从非结构化文本中提取准确地的语义关系对自然语言应用领域，如信息抽取、自动问答、机器翻译及知识图谱等具有重要意义。

现有技术会将从编码器中获得的每种信息(如句向量、实体向量等)，在关系抽取中作为同等重要的角色。通过将获取到的信息进行简单的拼接，得到两个实体之间存在的语义关系。然而，在复杂的语言环境中，每种信息的重要性存在着差异。两个实体的语义、位置、主宾关系等隐含信息存在着不同，两个实体在关系抽取中的重要程度也是不相同的。因此，将获取到的每种信息作为同等重要的信息送入分类器，无法根据每种信息的重要程度得到语义关系，影响了抽取的语义关系的有效性，进而影响了信息抽取的可靠性与准确性。

发明内容

有鉴于此，本发明的目的是为了克服现有技术中的不足，提供一种优化信息融合策略的关系抽取方法、装置、设备及介质，以解决抽取的语义关系有效性不足的问题。

第一方面，本申请提供一种优化信息融合策略的关系抽取方法，所述方法包括：

将经过预处理的目标文本输入至预训练模型的编码器，得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量，其中，所述预训练模型包括N层的Transformer层，所述第一实体、第二实体均为所述目标文本中的实体；

根据所述预训练模型的第M层的Transformer层输出的隐状态向量，得到上下文特征向量，其中，M的取值范围为[1，N-1]；

将所述第一实体向量与所述句向量进行融合，得到所述第一实体的第一复合特征向量，将所述第二实体向量与所述句向量进行融合，得到所述第二实体的第二复合特征向量；

根据所述上下文特征向量，将所述第一复合特征向量与所述第二复合特征向量进行融合，得到所述第一实体与所述第二实体的关系表示；

将所述关系表示输入至分类层，得到所述第一实体与所述第二实体的语义关系。

结合第一方面，在第一种可能的实现方式中，所述根据所述上下文特征向量，将所述第一复合特征向量与所述第二复合特征向量进行融合，得到所述第一实体与所述第二实体的关系表示，包括：

将所述上下文特征向量进行线性变换计算，得到所述第一实体的第一特征向量和所述第二实体的第二特征向量；

根据所述第一特征向量和所述第一复合特征向量，得到所述第一实体的第一权重，并根据所述第二特征向量和所述第二复合特征向量，得到所述第二实体的第二权重；

根据所述第一权重和所述第二权重，将所述第一复合特征向量与所述第二复合特征向量进行融合，得到所述第一实体与所述第二实体的关系表示。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述根据所述第一权重和所述第二权重，将所述第一复合特征向量与所述第二复合特征向量进行融合，得到所述第一实体与所述第二实体的关系表示，包括：

对所述第一权重进行归一化计算，得到所述第一实体的第一归一化权值，并对所述第二权重进行归一化计算，得到所述第二实体的第二归一化权值；

根据所述第一归一化权值和所述第二归一化权值，将所述第一复合特征向量与所述第二复合特征向量进行融合，得到所述第一实体与所述第二实体的关系表示。

结合第一方面，在第三种可能的实现方式中，所述将经过预处理的目标文本输入至预训练模型的编码器，得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量，包括：

将经过预处理的目标文本输入至预训练模型的编码器，获取所述预训练模型的第N层的Transformer层输出的隐状态向量；

根据所述第N层的Transformer层输出的隐状态向量，得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量。

结合第一方面，在第四种可能的实现方式中，所述根据所述预训练模型的第M层的Transformer层输出的隐状态向量，得到上下文特征向量，包括：

获取所述预训练模型的第M层的Transformer层输出的所有的隐状态向量，并对所述所有的隐状态向量进行平均运算，得到上下文特征向量。

结合第一方面，在第五种可能的实现方式中，所述目标文本的预处理过程包括：

在所述目标文本的句首添加句首标记，并在所述目标文本的句尾添加句尾标记；

在所述第一实体的两侧及所述第二实体的两侧分别添加实体位置标记。

结合第一方面，在第六种可能的实现方式中，所述分类层包括依次连接的全连接层和softmax层。

第二方面，本申请提供一种优化信息融合策略的关系抽取装置，所述装置包括：

目标文本输入模块，用于将经过预处理的目标文本输入至预训练模型的编码器，得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量，其中，所述预训练模型包括N层的Transformer层，所述第一实体、第二实体均为所述目标文本中的实体；

上下文特征向量模块，用于根据所述预训练模型的第M层的Transformer层输出的隐状态向量，得到上下文特征向量，其中，M的取值范围为[1，N-1]；

复合特征向量模块，用于将所述第一实体向量与所述句向量进行融合，得到所述第一实体的第一复合特征向量，将所述第二实体向量与所述句向量进行融合，得到所述第二实体的第二复合特征向量；

复合特征融合模块，用于根据所述上下文特征向量，将所述第一复合特征向量与所述第二复合特征向量进行融合，得到所述第一实体与所述第二实体的关系表示；

关系表示分类模块，用于将所述关系表示输入至分类层，得到所述第一实体与所述第二实体的语义关系。

第三方面，本申请提供一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器执行时，实现如第一方面所述的优化信息融合策略的关系抽取方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如第一方面所述的优化信息融合策略的关系抽取方法。

本申请提供了一种优化信息融合策略的关系抽取方法，所述优化信息融合策略的关系抽取方法包括：将经过预处理的目标文本输入至预训练模型的编码器，得到第一实体的第一实体向量、第二实体的第二实体向量及目标文本的句向量；将第一实体向量与句向量进行融合，得到第一实体的第一复合特征向量，将第二实体向量与句向量进行融合，得到第二实体的第二复合特征向量；根据上下文特征向量，将第一复合特征向量与第二复合特征向量进行融合，得到第一实体与第二实体的关系表示；将关系表示输入至分类层，得到第一实体与第二实体的语义关系。本申请将目标文本的句向量融入了实体向量，得到的复合特征向量融合了目标文本的全局信息与局部信息。通过确定第一实体、第二实体对语义关系抽取的重要程度，并对第一实体和第二实体进行融合，可得到准确性和可靠性更高的语义关系。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明保护范围的限定。在各个附图中，类似的构成部分采用类似的编号。

图1示出了本发明实施例提供的第一种优化信息融合策略的关系抽取方法的流程图；

图2示出了本发明实施例提供的第二种优化信息融合策略的关系抽取方法的流程图；

图3示出了本发明实施例提供的得到第一实体与第二实体的关系表示的流程图；

图4示出了本发明实施例提供的优化信息融合策略的关系抽取装置的结构示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下文中，可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本发明的各种实施例中被清楚地限定。

实施例1

请参阅图1，图1示出了本发明实施例提供的优化信息融合策略的关系抽取方法的流程图。图1中的优化信息融合策略的关系抽取方法包括以下步骤：

步骤110，将经过预处理的目标文本输入至预训练模型的编码器，得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量。

语义关系抽取是预训练模型的分类任务，要求预训练模型在不添加外部知识和人工设计，以及不使用外部NLP(Natural Language Processing，自然语言处理)工具的条件下，有效地利用给定句子文本及目标实体的信息。语义关系抽取的目标是，从目标文本中识别出给定的第一实体和第二实体之间的语义关系。将包括目标句子的经过预处理的目标文本输入至预训练模型的编码器，通过预训练模型的网络编码，获取目标文本的句向量、第一实体的第一实体向量、及第二实体的第二实体向量。

为便于理解本申请，本实施例中的预训练模型为BERT(Bidirectional EncoderRepresentation from Transformers)模型，可以有效地改善自然语言处理任务，提高网络编码效果。需要理解的是，BERT模型包括N层的Transformer层。第一实体和第二实体为需要进行语义关系抽取的目标实体，且第一实体、第二实体均为所述目标文本中的实体。句向量是融合了整个目标文本信息的全局特征，而第一实体向量是与第一实体相关的局部特征，第二实体向量是与第二实体相关的局部特征。句向量、第一实体向量及第二实体向量是语义关系抽取任务中起决定性的三种信息。

请一并参阅图2，图2示出了本发明实施例提供的第二种优化信息融合策略的关系抽取方法的流程图。作为一个示例，所述目标文本的预处理过程包括：

步骤101，在所述目标文本的句首添加句首标记，并在所述目标文本的句尾添加句尾标记。

将目标文本输入预训练模型之前，需对目标文本进行预处理。通过为目标实体和目标文本添加用于显示位置的标记，可以有效提升语义关系抽取结果的准确性可靠性。通过在目标文本的句首添加句首标记[CLS]，以获取整个目标文本信息。在目标文本的句尾添加句尾标记[SEP]，以作为结束符号。

步骤102，在所述第一实体的两侧及所述第二实体的两侧分别添加实体位置标记。

将目标文本输入至预训练模型时，可采用不同的预处理方法在实体的两侧添加实体位置标记，得到经过预处理的目标文本T。具体地，以在第一实体两侧添加实体位置标记E11和E12，在第二实体两侧添加实体位置标记E21和E22为例，若给出的文本为：The mostcommon<e1>audits</e1>were about<e2>waste</e2>and recycling，其中，audits为第一实体，waste为第二实体。经过预处理后的目标文本为：[CLS]The most common E11auditsE12 were about E21 waste E22 and recycling[SEP]。

以在第一实体和第二实体两侧添加实体位置标记@和#为例，还需要获取第一实体和第二实体的实体类型，并在实体类型的两侧添加标记*和^。举例而言，若给出的文本为：token:[“bill”，“was”，“born”，“in”，“Seattle”]，其中，Bill为第一实体，Seattle为第二实体。需要理解的是，给出的文本一并给出了person是实体Bill的NER类型，city是实体Seattle的NER类型。经过预处理后的目标文本为：[CLS]@*person*bill@was born in#^city^Seattle#[SEP]。

作为一个示例，所述将经过预处理的目标文本输入至预训练模型的编码器，得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量，包括：

将经过预处理的目标文本T输入至预训练模型的编码器，获取所述预训练模型的第N层的Transformer层输出的隐状态向量；

通常越深层次的Transformer层输出的隐状态越适用于下游任务微调。本实施例中，获取预训练模型的第N层的Transformer层输出的隐状态向量，即获取预训练模型的倒数第一层的Transformer层输出的隐状态向量。具体地，第N层的Transformer层输出的隐状态向量包括第一实体的隐状态向量H_i和H_j，第二实体的隐状态向量H_m和H_n，句首标记[CLS]的隐状态向量H_[CLS]，其中，H_i、H_j、H_m、H_n、H_[CLS]∈R^h，h为隐状态的维度。

具体地，取第一实体的头部的实体位置标记，作为第一实体向量H_e1，取第二实体的头部的实体位置标记，作为第二实体向量H_e2。此外，还可以将第一实体的隐状态向量和第二实体的隐状态向量进行平均运算，得到第一实体向量H_e1和第二实体向量H_e2，第一实体向量H_e1和第二实体向量H_e2的计算公式分别为：

对于句首标记[CLS]的隐状态向量，直接记为目标文本的句向量H₀，句向量H₀计算公式为：

H₀＝H_[CLS]

步骤120，根据所述预训练模型的第M层的Transformer层输出的隐状态向量，得到上下文特征向量。

为有效利用模型信息，并提供上下文特征向量，对预训练模型的第M层的Transformer层输出的隐状态向量加以利用，其中，M的取值范围为[1，N-1]。根据第M层的Transformer层输出的隐状态向量，得到上下文特征向量。上下文特征向量是一种词嵌入，随着输入的文本的变化而发生变化，反映了文本的具体结构和语义信息。需要理解的是，M在[1，N-1]范围内的任意取值都可以实现本申请的方案，而M的最优取值为N-1。为便于理解本申请，本实施例中M的取值为N-1，即根据预训练模型的倒数第二层的Transformer层输出的隐状态向量，得到上下文特征向量。

作为一个示例，所述根据所述预训练模型的第M层的Transformer层输出的隐状态向量，得到上下文特征向量，包括：

设H₀′至H′_k对应第M层的Transformer层输出的所有的隐状态向量，且H₀′、H_k′_∈R_h，h为隐状态的维度。对所有的隐状态向量进行平均运算，得到上下文特征向量H_s，上下文特征向量H_s的计算公式为：

步骤130，将所述第一实体向量与所述句向量进行融合，得到所述第一实体的第一复合特征向量，将所述第二实体向量与所述句向量进行融合，得到所述第二实体的第二复合特征向量。

句向量是一种全局特征，用于表示文本中整个句子的语义信息。第一实体向量和第二实体向量是一种局部特征，用于表示与实体相关的语义信息。在语义关系抽取中，语义关系类型由众多复杂的因素决定，不仅与第一实体和第二实体相关，还会与关键谓词、介词。文本段及句子的语义信息相关。

假设目标文本为：The<e1>distraction</e1>caused by the student coupledwith limited vision down the track，caused the<e2>incident</e2>to occur，其中，distraction为第一实体，incident为第二实体，且第一实体与第二实体语义关系为Cause-Effect(e1,e2)，即为因-果关系。直接通过第一实体和第二实体的局部语义特征，无法准确地确定出第一实体和第二实体的语义关系为因果关系，需要结合目标文本中整个句子的全局语义特征，确定第一实体和第二实体的语义关系。

对句向量H₀和第一实体向量H_e1进行向量相加，得到第一复合特征向量H₁，对句向量H₀和第二实体向量H_e2进行向量相加，得到第二复合特征向量H₂，第一复合特征向量H₁和第二复合特征向量H₂的计算公式分别为：

H₁＝H_e1+H₀

H₂＝H_e2+H₀

其中，H₁、H_2∈R^h，h为向量的维度。H₁和H₂融合了句向量表示和实体向量表示，是一种复合特征。第一复合特征向量和第二复合特征向量有效利用了全局特征，完成对第一实体和第二实体的局部特征和全局特征的融合，进而能够结合目标文本中整个句子的全局语义特征，确定第一实体和第二实体的语义关系。

步骤140，根据所述上下文特征向量，将所述第一复合特征向量与所述第二复合特征向量进行融合，得到所述第一实体与所述第二实体的关系表示。

H₁和H₂作为复合特征包括了全局特征又包括了局部特征。由于第一实体和第二实体的语义、位置、主宾关系等隐含信息不同，同时，在不同语境中，第一实体和第二实体在语义关系抽取中的重要程度也存在不同的差异。

请一并参阅图3，图3示出了本发明实施例提供的得到第一实体与第二实体的关系表示的流程图。分别确定第一复合特征向量、第二复合特征向量与上下文特征向量的相似度，第一实体和第二实体在语义关系抽取中的重要程度，进而将第一复合特征向量与第二复合特征向量进行融合，得到第一实体与第二实体的关系表示。

本实施例中，提供了一种自适应信息融合模块实现图中流程，并通过自适应信息融合模块确定第一实体、第二实体对语义关系抽取的重要程度，并对第一实体和第二实体进行融合，得到第一实体与第二实体的关系表示。

作为一个示例，所述根据所述上下文特征向量，将所述第一复合特征向量与所述第二复合特征向量进行融合，得到所述第一实体与所述第二实体的关系表示，包括：

上下文特征向量随输入文本的变化而发生变化，反映了文本的具体结构和语义信息。本实施例中，通过上下文特征向量为第一复合特征向量和第二复合特征向量赋予权值，作为第一实体和第二实体在语义关系抽取中的重要程度。

具体地，将上下文特征向量进行线性变换计算，得到第一实体的第一特征向量S₁和第二实体的第二特征向量S₂，第一特征向量S₁和第二特征向量S₂的计算公式分别为：

S₁＝H_S×W₁+b₁

S₂＝H_S×W₂+b₂

其中，W₁为对应第一实体的线性变换矩阵，W₂为对应第二实体的线性变换矩阵，b₁为线性变换矩阵W₁的偏置项，b₂为线性变换矩阵W₂的偏置项，W₁、W_2∈R^h*h，b₁、b_2∈R^h，h为向量的维度。

通过平均内积运算计算第一复合特征向量H₁与第一特征向量W₁之间的相似度，得到第一实体对语义关系抽取的重要度的第一权重p₁。通过平均内积运算计算第二复合特征向量H₂与第二特征向量W₂之间的相似度，得到第二实体对语义关系抽取的重要度的第二权重p₂。第一权重p₁和第二权重p₂的计算公式分别为：

p₁＝ρ(S₁，H₁)

p₂＝ρ(S₂，H₂)

根据第一权重p₁和第二权重p₂，确定第一实体和第二实体对语义关系抽取的重要度，并将第一复合特征向量H₁与第二复合特征向量H₂进行融合，得到第一实体与第二实体的关系表示。

在一个可选的示例中，所述根据所述第一权重和所述第二权重，将所述第一复合特征向量与所述第二复合特征向量进行融合，得到所述第一实体与所述第二实体的关系表示，包括：

可选用任意的归一化函数对第一权重p₁和第二权重p₂分别进行归一化计算，在此不做限定。本实施例中，通过softmax函数对第一权重p₁和第二权重p₂分别进行归一化计算，得到第一归一化权值att₁和第二归一化权值att₂的计算公式为：

att₁，att₂＝softmax(p₁，p₂)

第一归一化权值att₁用于表示第一实体对语义关系抽取的重要程度，第二归一化权值att₂用于表示第二实体对语义关系抽取的重要程度。通过第一归一化权值att₁和第二归一化权值att₂，对第一复合特征向量H₁与第二复合特征向量H₂进行融合，得到第一实体与第二实体的关系表示X，具体地，关系表示X的计算公式为：

X＝concat(att₁×H₁，att₂×H₂)

其中，X_∈R^h，h为向量的维度。本申请得到的关系表示X，有利于聚焦于对分类更有帮助的部分，有效完成了信息融合，生成准确性与可靠性更高的语义关系。

步骤150，将所述关系表示输入至分类层，得到所述第一实体与所述第二实体的语义关系。

将关系表示输入至分类层，对关系表示进行分类，得到第一实体与第二实体的语义关系。

本实施例提供一种用于得到语义关系的融合模型。可将本申请的语义抽取方法应用于本实施例中提供的融合模型，训练融合模型参数，能够得到更准确更可靠的第一实体与第二实体的语义关系。

相对于现有的基于CNN(Convolutional Neural Networks，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)、基于GNN(Graph Neural Networks，图神经网络)等关系抽取方法，本申请的优化信息融合策略的关系抽取方法能够组合局部特征与全局特征，得到复合特征表示。应用本申请的方法的融合模型在语义关系抽取时，确定了不同信息的特征对分类的重要程度，进而使融合模型能够聚焦于模型中的关键特征，提高了得到的语义关系的准确性与可靠性。

作为一个示例，所述分类层包括依次连接的全连接层和softmax层。

训练模型参数及预测样本类别时，将关系表示X依次输入至全连接层和softmax层，分类关系表示X，输出的归一化概率p的计算公式为：

h＝(activation(X×W₃+b₃)×W₄+b₄

p＝softmax(h)

W₃和W₄均为线性变换矩阵，且W_3∈R^2h*h，W_2∈R^h*L，b₃为线性变换矩阵W₃的偏置项，b₄为线性变换矩阵W₄的偏置项，且b_3∈R^h，b_3∈R^L，其中，h为向量的维度。activation为非线性激活函数ReLU(Rectified linear unit，修正线性单元)或tanh(hyperbolic tangent，双曲正切)。p为归一化概率，p中每个元素代表了样本属于各个关系类型的归一化概率，其中，h、p_∈R^L，可根据p计算模型损失和预测样本类别。需要理解的是，TACRED、TACREV及Semeval2010Task8均为本实施例中数据集，L为数据集中关系类型的个数，也可以根据实际需求输入其他任意的数据集，在此不做赘述。

融合模型训练过程中，计算为归一化概率p与样本真实类别的one-hot向量间的交叉熵损失，并作为损失函数。模型的预测阶段中，将归一化概率p中最大值对应的类别作为输出。记

为模型的预测阶段中的输出，

的计算公式为：

此外，为避免融合模型过拟合，可在融合模型中添加dropout层，并以一定概率的丢弃网络值，在此不做赘述。

实施例2

请参阅图4，图4示出了本发明实施例提供的优化信息融合策略的关系抽取装置的结构示意图。所述优化信息融合策略的关系抽取装置200包括：

目标文本输入模块210，用于将经过预处理的目标文本输入至预训练模型的编码器，得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量，其中，所述预训练模型包括N层的Transformer层，所述第一实体、第二实体均为所述目标文本中的实体；

上下文特征向量模块220，用于根据所述预训练模型的第M层的Transformer层输出的隐状态向量，得到上下文特征向量，其中，M的取值范围为[1，N-1]；

复合特征向量模块230，用于将所述第一实体向量与所述句向量进行融合，得到所述第一实体的第一复合特征向量，将所述第二实体向量与所述句向量进行融合，得到所述第二实体的第二复合特征向量；

复合特征融合模块240，用于根据所述上下文特征向量，将所述第一复合特征向量与所述第二复合特征向量进行融合，得到所述第一实体与所述第二实体的关系表示；

关系表示分类模块250，用于将所述关系表示输入至分类层，得到所述第一实体与所述第二实体的语义关系。

作为一个示例，所述复合特征融合模块240，包括：

线性变换子模块，用于将所述上下文特征向量进行线性变换计算，得到所述第一实体的第一特征向量和所述第二实体的第二特征向量；

权重得到子模块，用于根据所述第一特征向量和所述第一复合特征向量，得到所述第一实体的第一权重，并根据所述第二特征向量和所述第二复合特征向量，得到所述第二实体的第二权重；

权重融合子模块，用于根据所述第一权重和所述第二权重，将所述第一复合特征向量与所述第二复合特征向量进行融合，得到所述第一实体与所述第二实体的关系表示。

在一个可选的示例中，所述权重融合子模块，包括：

归一化计算子模块，用于对所述第一权重进行归一化计算，得到所述第一实体的第一归一化权值，并对所述第二权重进行归一化计算，得到所述第二实体的第二归一化权值；

关系表示得到子模块，用于根据所述第一归一化权值和所述第二归一化权值，将所述第一复合特征向量与所述第二复合特征向量进行融合，得到所述第一实体与所述第二实体的关系表示。

作为一个示例，所述目标文本输入模块210，包括：

第N层隐状态模块，用于将经过预处理的目标文本输入至预训练模型的编码器，获取所述预训练模型的第N层的Transformer层输出的隐状态向量；

实体向量和句向量子模块，用于根据所述第N层的Transformer层输出的隐状态向量，得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量。

作为一个示例，所述上下文特征向量模块220，还用于获取所述预训练模型的第M层的Transformer层输出的所有的隐状态向量，并对所述所有的隐状态向量进行平均运算，得到上下文特征向量。

作为一个示例，所述优化信息融合策略的关系抽取装置200，还包括：

文本标记添加模块，用于在所述目标文本的句首添加句首标记，并在所述目标文本的句尾添加句尾标记；

实体标记添加模块，用于在所述第一实体的两侧及所述第二实体的两侧分别添加实体位置标记。

优化信息融合策略的关系抽取装置200用于执行上述的优化信息融合策略的关系抽取方法中的对应步骤，各个功能的具体实施，在此不再一一描述。此外，实施例1中可选示例也同样适用于实施例2的优化信息融合策略的关系抽取装置200。

本申请实施例还提供一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器执行时，实现如本申请实施例所述的优化信息融合策略的关系抽取方法。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如本申请实施例所述的优化信息融合策略的关系抽取方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种优化信息融合策略的关系抽取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的优化信息融合策略的关系抽取方法，其特征在于，所述根据所述上下文特征向量，将所述第一复合特征向量与所述第二复合特征向量进行融合，得到所述第一实体与所述第二实体的关系表示，包括：

3.根据权利要求2所述的优化信息融合策略的关系抽取方法，其特征在于，所述根据所述第一权重和所述第二权重，将所述第一复合特征向量与所述第二复合特征向量进行融合，得到所述第一实体与所述第二实体的关系表示，包括：

4.根据权利要求1所述的优化信息融合策略的关系抽取方法，其特征在于，所述将经过预处理的目标文本输入至预训练模型的编码器，得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量，包括：

5.根据权利要求1所述的优化信息融合策略的关系抽取方法，其特征在于，所述根据所述预训练模型的第M层的Transformer层输出的隐状态向量，得到上下文特征向量，包括：

6.根据权利要求1所述的优化信息融合策略的关系抽取方法，其特征在于，所述目标文本的预处理过程包括：

7.根据权利要求1所述的优化信息融合策略的关系抽取方法，其特征在于，所述分类层包括依次连接的全连接层和softmax层。

8.一种优化信息融合策略的关系抽取装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器执行时，实现如权利要求1至7中任一项所述的优化信息融合策略的关系抽取方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的优化信息融合策略的关系抽取方法。