CN115034302A - 优化信息融合策略的关系抽取方法、装置、设备及介质 - Google Patents
优化信息融合策略的关系抽取方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115034302A CN115034302A CN202210641239.1A CN202210641239A CN115034302A CN 115034302 A CN115034302 A CN 115034302A CN 202210641239 A CN202210641239 A CN 202210641239A CN 115034302 A CN115034302 A CN 115034302A
- Authority
- CN
- China
- Prior art keywords
- entity
- vector
- feature vector
- target text
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了优化信息融合策略的关系抽取方法、装置、设备及介质,优化信息融合策略的关系抽取方法包括:将经过预处理的目标文本输入至预训练模型的编码器,得到第一实体的第一实体向量、第二实体的第二实体向量及目标文本的句向量;将第一实体向量与句向量进行融合,得到第一实体的第一复合特征向量,将第二实体向量与句向量进行融合,得到第二实体的第二复合特征向量;根据上下文特征向量,将第一复合特征向量与第二复合特征向量进行融合,得到第一实体与第二实体的关系表示;将关系表示输入至分类层,得到第一实体与第二实体的语义关系。复合特征向量融合了目标文本的全局信息与局部信息,得到准确性和可靠性更高的语义关系。
Description
技术领域
本发明涉及信息抽取领域,尤其涉及一种优化信息融合策略的关系抽取方法、装置、设备及介质。
背景技术
信息抽取是将非结构化文本中包含的信息进行结构化处理,得到表格相同的信息组织格式。文本的关系抽取用于从文本中抽取两个目标实体之间存在的语义关系,是信息抽取的一项子任务步骤。从非结构化文本中提取准确地的语义关系对自然语言应用领域,如信息抽取、自动问答、机器翻译及知识图谱等具有重要意义。
现有技术会将从编码器中获得的每种信息(如句向量、实体向量等),在关系抽取中作为同等重要的角色。通过将获取到的信息进行简单的拼接,得到两个实体之间存在的语义关系。然而,在复杂的语言环境中,每种信息的重要性存在着差异。两个实体的语义、位置、主宾关系等隐含信息存在着不同,两个实体在关系抽取中的重要程度也是不相同的。因此,将获取到的每种信息作为同等重要的信息送入分类器,无法根据每种信息的重要程度得到语义关系,影响了抽取的语义关系的有效性,进而影响了信息抽取的可靠性与准确性。
发明内容
有鉴于此,本发明的目的是为了克服现有技术中的不足,提供一种优化信息融合策略的关系抽取方法、装置、设备及介质,以解决抽取的语义关系有效性不足的问题。
第一方面,本申请提供一种优化信息融合策略的关系抽取方法,所述方法包括:
将经过预处理的目标文本输入至预训练模型的编码器,得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量,其中,所述预训练模型包括N层的Transformer层,所述第一实体、第二实体均为所述目标文本中的实体;
根据所述预训练模型的第M层的Transformer层输出的隐状态向量,得到上下文特征向量,其中,M的取值范围为[1,N-1];
将所述第一实体向量与所述句向量进行融合,得到所述第一实体的第一复合特征向量,将所述第二实体向量与所述句向量进行融合,得到所述第二实体的第二复合特征向量;
根据所述上下文特征向量,将所述第一复合特征向量与所述第二复合特征向量进行融合,得到所述第一实体与所述第二实体的关系表示;
将所述关系表示输入至分类层,得到所述第一实体与所述第二实体的语义关系。
结合第一方面,在第一种可能的实现方式中,所述根据所述上下文特征向量,将所述第一复合特征向量与所述第二复合特征向量进行融合,得到所述第一实体与所述第二实体的关系表示,包括:
将所述上下文特征向量进行线性变换计算,得到所述第一实体的第一特征向量和所述第二实体的第二特征向量;
根据所述第一特征向量和所述第一复合特征向量,得到所述第一实体的第一权重,并根据所述第二特征向量和所述第二复合特征向量,得到所述第二实体的第二权重;
根据所述第一权重和所述第二权重,将所述第一复合特征向量与所述第二复合特征向量进行融合,得到所述第一实体与所述第二实体的关系表示。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述根据所述第一权重和所述第二权重,将所述第一复合特征向量与所述第二复合特征向量进行融合,得到所述第一实体与所述第二实体的关系表示,包括:
对所述第一权重进行归一化计算,得到所述第一实体的第一归一化权值,并对所述第二权重进行归一化计算,得到所述第二实体的第二归一化权值;
根据所述第一归一化权值和所述第二归一化权值,将所述第一复合特征向量与所述第二复合特征向量进行融合,得到所述第一实体与所述第二实体的关系表示。
结合第一方面,在第三种可能的实现方式中,所述将经过预处理的目标文本输入至预训练模型的编码器,得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量,包括:
将经过预处理的目标文本输入至预训练模型的编码器,获取所述预训练模型的第N层的Transformer层输出的隐状态向量;
根据所述第N层的Transformer层输出的隐状态向量,得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量。
结合第一方面,在第四种可能的实现方式中,所述根据所述预训练模型的第M层的Transformer层输出的隐状态向量,得到上下文特征向量,包括:
获取所述预训练模型的第M层的Transformer层输出的所有的隐状态向量,并对所述所有的隐状态向量进行平均运算,得到上下文特征向量。
结合第一方面,在第五种可能的实现方式中,所述目标文本的预处理过程包括:
在所述目标文本的句首添加句首标记,并在所述目标文本的句尾添加句尾标记;
在所述第一实体的两侧及所述第二实体的两侧分别添加实体位置标记。
结合第一方面,在第六种可能的实现方式中,所述分类层包括依次连接的全连接层和softmax层。
第二方面,本申请提供一种优化信息融合策略的关系抽取装置,所述装置包括:
目标文本输入模块,用于将经过预处理的目标文本输入至预训练模型的编码器,得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量,其中,所述预训练模型包括N层的Transformer层,所述第一实体、第二实体均为所述目标文本中的实体;
上下文特征向量模块,用于根据所述预训练模型的第M层的Transformer层输出的隐状态向量,得到上下文特征向量,其中,M的取值范围为[1,N-1];
复合特征向量模块,用于将所述第一实体向量与所述句向量进行融合,得到所述第一实体的第一复合特征向量,将所述第二实体向量与所述句向量进行融合,得到所述第二实体的第二复合特征向量;
复合特征融合模块,用于根据所述上下文特征向量,将所述第一复合特征向量与所述第二复合特征向量进行融合,得到所述第一实体与所述第二实体的关系表示;
关系表示分类模块,用于将所述关系表示输入至分类层,得到所述第一实体与所述第二实体的语义关系。
第三方面,本申请提供一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器执行时,实现如第一方面所述的优化信息融合策略的关系抽取方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如第一方面所述的优化信息融合策略的关系抽取方法。
本申请提供了一种优化信息融合策略的关系抽取方法,所述优化信息融合策略的关系抽取方法包括:将经过预处理的目标文本输入至预训练模型的编码器,得到第一实体的第一实体向量、第二实体的第二实体向量及目标文本的句向量;将第一实体向量与句向量进行融合,得到第一实体的第一复合特征向量,将第二实体向量与句向量进行融合,得到第二实体的第二复合特征向量;根据上下文特征向量,将第一复合特征向量与第二复合特征向量进行融合,得到第一实体与第二实体的关系表示;将关系表示输入至分类层,得到第一实体与第二实体的语义关系。本申请将目标文本的句向量融入了实体向量,得到的复合特征向量融合了目标文本的全局信息与局部信息。通过确定第一实体、第二实体对语义关系抽取的重要程度,并对第一实体和第二实体进行融合,可得到准确性和可靠性更高的语义关系。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本发明实施例提供的第一种优化信息融合策略的关系抽取方法的流程图;
图2示出了本发明实施例提供的第二种优化信息融合策略的关系抽取方法的流程图;
图3示出了本发明实施例提供的得到第一实体与第二实体的关系表示的流程图;
图4示出了本发明实施例提供的优化信息融合策略的关系抽取装置的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
实施例1
请参阅图1,图1示出了本发明实施例提供的优化信息融合策略的关系抽取方法的流程图。图1中的优化信息融合策略的关系抽取方法包括以下步骤:
步骤110,将经过预处理的目标文本输入至预训练模型的编码器,得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量。
语义关系抽取是预训练模型的分类任务,要求预训练模型在不添加外部知识和人工设计,以及不使用外部NLP(Natural Language Processing,自然语言处理)工具的条件下,有效地利用给定句子文本及目标实体的信息。语义关系抽取的目标是,从目标文本中识别出给定的第一实体和第二实体之间的语义关系。将包括目标句子的经过预处理的目标文本输入至预训练模型的编码器,通过预训练模型的网络编码,获取目标文本的句向量、第一实体的第一实体向量、及第二实体的第二实体向量。
为便于理解本申请,本实施例中的预训练模型为BERT(Bidirectional EncoderRepresentation from Transformers)模型,可以有效地改善自然语言处理任务,提高网络编码效果。需要理解的是,BERT模型包括N层的Transformer层。第一实体和第二实体为需要进行语义关系抽取的目标实体,且第一实体、第二实体均为所述目标文本中的实体。句向量是融合了整个目标文本信息的全局特征,而第一实体向量是与第一实体相关的局部特征,第二实体向量是与第二实体相关的局部特征。句向量、第一实体向量及第二实体向量是语义关系抽取任务中起决定性的三种信息。
请一并参阅图2,图2示出了本发明实施例提供的第二种优化信息融合策略的关系抽取方法的流程图。作为一个示例,所述目标文本的预处理过程包括:
步骤101,在所述目标文本的句首添加句首标记,并在所述目标文本的句尾添加句尾标记。
将目标文本输入预训练模型之前,需对目标文本进行预处理。通过为目标实体和目标文本添加用于显示位置的标记,可以有效提升语义关系抽取结果的准确性可靠性。通过在目标文本的句首添加句首标记[CLS],以获取整个目标文本信息。在目标文本的句尾添加句尾标记[SEP],以作为结束符号。
步骤102,在所述第一实体的两侧及所述第二实体的两侧分别添加实体位置标记。
将目标文本输入至预训练模型时,可采用不同的预处理方法在实体的两侧添加实体位置标记,得到经过预处理的目标文本T。具体地,以在第一实体两侧添加实体位置标记E11和E12,在第二实体两侧添加实体位置标记E21和E22为例,若给出的文本为:The mostcommon<e1>audits</e1>were about<e2>waste</e2>and recycling,其中,audits为第一实体,waste为第二实体。经过预处理后的目标文本为:[CLS]The most common E11auditsE12 were about E21 waste E22 and recycling[SEP]。
以在第一实体和第二实体两侧添加实体位置标记@和#为例,还需要获取第一实体和第二实体的实体类型,并在实体类型的两侧添加标记*和^。举例而言,若给出的文本为:token:[“bill”,“was”,“born”,“in”,“Seattle”],其中,Bill为第一实体,Seattle为第二实体。需要理解的是,给出的文本一并给出了person是实体Bill的NER类型,city是实体Seattle的NER类型。经过预处理后的目标文本为:[CLS]@*person*bill@was born in#^city^Seattle#[SEP]。
作为一个示例,所述将经过预处理的目标文本输入至预训练模型的编码器,得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量,包括:
将经过预处理的目标文本T输入至预训练模型的编码器,获取所述预训练模型的第N层的Transformer层输出的隐状态向量;
根据所述第N层的Transformer层输出的隐状态向量,得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量。
通常越深层次的Transformer层输出的隐状态越适用于下游任务微调。本实施例中,获取预训练模型的第N层的Transformer层输出的隐状态向量,即获取预训练模型的倒数第一层的Transformer层输出的隐状态向量。具体地,第N层的Transformer层输出的隐状态向量包括第一实体的隐状态向量Hi和Hj,第二实体的隐状态向量Hm和Hn,句首标记[CLS]的隐状态向量H[CLS],其中,Hi、Hj、Hm、Hn、H[CLS]∈Rh,h为隐状态的维度。
具体地,取第一实体的头部的实体位置标记,作为第一实体向量He1,取第二实体的头部的实体位置标记,作为第二实体向量He2。此外,还可以将第一实体的隐状态向量和第二实体的隐状态向量进行平均运算,得到第一实体向量He1和第二实体向量He2,第一实体向量He1和第二实体向量He2的计算公式分别为:
对于句首标记[CLS]的隐状态向量,直接记为目标文本的句向量H0,句向量H0计算公式为:
H0=H[CLS]
步骤120,根据所述预训练模型的第M层的Transformer层输出的隐状态向量,得到上下文特征向量。
为有效利用模型信息,并提供上下文特征向量,对预训练模型的第M层的Transformer层输出的隐状态向量加以利用,其中,M的取值范围为[1,N-1]。根据第M层的Transformer层输出的隐状态向量,得到上下文特征向量。上下文特征向量是一种词嵌入,随着输入的文本的变化而发生变化,反映了文本的具体结构和语义信息。需要理解的是,M在[1,N-1]范围内的任意取值都可以实现本申请的方案,而M的最优取值为N-1。为便于理解本申请,本实施例中M的取值为N-1,即根据预训练模型的倒数第二层的Transformer层输出的隐状态向量,得到上下文特征向量。
作为一个示例,所述根据所述预训练模型的第M层的Transformer层输出的隐状态向量,得到上下文特征向量,包括:
获取所述预训练模型的第M层的Transformer层输出的所有的隐状态向量,并对所述所有的隐状态向量进行平均运算,得到上下文特征向量。
设H0′至H′k对应第M层的Transformer层输出的所有的隐状态向量,且H0′、Hk′∈Rh,h为隐状态的维度。对所有的隐状态向量进行平均运算,得到上下文特征向量Hs,上下文特征向量Hs的计算公式为:
步骤130,将所述第一实体向量与所述句向量进行融合,得到所述第一实体的第一复合特征向量,将所述第二实体向量与所述句向量进行融合,得到所述第二实体的第二复合特征向量。
句向量是一种全局特征,用于表示文本中整个句子的语义信息。第一实体向量和第二实体向量是一种局部特征,用于表示与实体相关的语义信息。在语义关系抽取中,语义关系类型由众多复杂的因素决定,不仅与第一实体和第二实体相关,还会与关键谓词、介词。文本段及句子的语义信息相关。
假设目标文本为:The<e1>distraction</e1>caused by the student coupledwith limited vision down the track,caused the<e2>incident</e2>to occur,其中,distraction为第一实体,incident为第二实体,且第一实体与第二实体语义关系为Cause-Effect(e1,e2),即为因-果关系。直接通过第一实体和第二实体的局部语义特征,无法准确地确定出第一实体和第二实体的语义关系为因果关系,需要结合目标文本中整个句子的全局语义特征,确定第一实体和第二实体的语义关系。
对句向量H0和第一实体向量He1进行向量相加,得到第一复合特征向量H1,对句向量H0和第二实体向量He2进行向量相加,得到第二复合特征向量H2,第一复合特征向量H1和第二复合特征向量H2的计算公式分别为:
H1=He1+H0
H2=He2+H0
其中,H1、H2∈Rh,h为向量的维度。H1和H2融合了句向量表示和实体向量表示,是一种复合特征。第一复合特征向量和第二复合特征向量有效利用了全局特征,完成对第一实体和第二实体的局部特征和全局特征的融合,进而能够结合目标文本中整个句子的全局语义特征,确定第一实体和第二实体的语义关系。
步骤140,根据所述上下文特征向量,将所述第一复合特征向量与所述第二复合特征向量进行融合,得到所述第一实体与所述第二实体的关系表示。
H1和H2作为复合特征包括了全局特征又包括了局部特征。由于第一实体和第二实体的语义、位置、主宾关系等隐含信息不同,同时,在不同语境中,第一实体和第二实体在语义关系抽取中的重要程度也存在不同的差异。
请一并参阅图3,图3示出了本发明实施例提供的得到第一实体与第二实体的关系表示的流程图。分别确定第一复合特征向量、第二复合特征向量与上下文特征向量的相似度,第一实体和第二实体在语义关系抽取中的重要程度,进而将第一复合特征向量与第二复合特征向量进行融合,得到第一实体与第二实体的关系表示。
本实施例中,提供了一种自适应信息融合模块实现图中流程,并通过自适应信息融合模块确定第一实体、第二实体对语义关系抽取的重要程度,并对第一实体和第二实体进行融合,得到第一实体与第二实体的关系表示。
作为一个示例,所述根据所述上下文特征向量,将所述第一复合特征向量与所述第二复合特征向量进行融合,得到所述第一实体与所述第二实体的关系表示,包括:
将所述上下文特征向量进行线性变换计算,得到所述第一实体的第一特征向量和所述第二实体的第二特征向量;
根据所述第一特征向量和所述第一复合特征向量,得到所述第一实体的第一权重,并根据所述第二特征向量和所述第二复合特征向量,得到所述第二实体的第二权重;
根据所述第一权重和所述第二权重,将所述第一复合特征向量与所述第二复合特征向量进行融合,得到所述第一实体与所述第二实体的关系表示。
上下文特征向量随输入文本的变化而发生变化,反映了文本的具体结构和语义信息。本实施例中,通过上下文特征向量为第一复合特征向量和第二复合特征向量赋予权值,作为第一实体和第二实体在语义关系抽取中的重要程度。
具体地,将上下文特征向量进行线性变换计算,得到第一实体的第一特征向量S1和第二实体的第二特征向量S2,第一特征向量S1和第二特征向量S2的计算公式分别为:
S1=HS×W1+b1
S2=HS×W2+b2
其中,W1为对应第一实体的线性变换矩阵,W2为对应第二实体的线性变换矩阵,b1为线性变换矩阵W1的偏置项,b2为线性变换矩阵W2的偏置项,W1、W2∈Rh*h,b1、b2∈Rh,h为向量的维度。
通过平均内积运算计算第一复合特征向量H1与第一特征向量W1之间的相似度,得到第一实体对语义关系抽取的重要度的第一权重p1。通过平均内积运算计算第二复合特征向量H2与第二特征向量W2之间的相似度,得到第二实体对语义关系抽取的重要度的第二权重p2。第一权重p1和第二权重p2的计算公式分别为:
p1=ρ(S1,H1)
p2=ρ(S2,H2)
根据第一权重p1和第二权重p2,确定第一实体和第二实体对语义关系抽取的重要度,并将第一复合特征向量H1与第二复合特征向量H2进行融合,得到第一实体与第二实体的关系表示。
在一个可选的示例中,所述根据所述第一权重和所述第二权重,将所述第一复合特征向量与所述第二复合特征向量进行融合,得到所述第一实体与所述第二实体的关系表示,包括:
对所述第一权重进行归一化计算,得到所述第一实体的第一归一化权值,并对所述第二权重进行归一化计算,得到所述第二实体的第二归一化权值;
根据所述第一归一化权值和所述第二归一化权值,将所述第一复合特征向量与所述第二复合特征向量进行融合,得到所述第一实体与所述第二实体的关系表示。
可选用任意的归一化函数对第一权重p1和第二权重p2分别进行归一化计算,在此不做限定。本实施例中,通过softmax函数对第一权重p1和第二权重p2分别进行归一化计算,得到第一归一化权值att1和第二归一化权值att2的计算公式为:
att1,att2=softmax(p1,p2)
第一归一化权值att1用于表示第一实体对语义关系抽取的重要程度,第二归一化权值att2用于表示第二实体对语义关系抽取的重要程度。通过第一归一化权值att1和第二归一化权值att2,对第一复合特征向量H1与第二复合特征向量H2进行融合,得到第一实体与第二实体的关系表示X,具体地,关系表示X的计算公式为:
X=concat(att1×H1,att2×H2)
其中,X∈Rh,h为向量的维度。本申请得到的关系表示X,有利于聚焦于对分类更有帮助的部分,有效完成了信息融合,生成准确性与可靠性更高的语义关系。
步骤150,将所述关系表示输入至分类层,得到所述第一实体与所述第二实体的语义关系。
将关系表示输入至分类层,对关系表示进行分类,得到第一实体与第二实体的语义关系。
本实施例提供一种用于得到语义关系的融合模型。可将本申请的语义抽取方法应用于本实施例中提供的融合模型,训练融合模型参数,能够得到更准确更可靠的第一实体与第二实体的语义关系。
相对于现有的基于CNN(Convolutional Neural Networks,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)、基于GNN(Graph Neural Networks,图神经网络)等关系抽取方法,本申请的优化信息融合策略的关系抽取方法能够组合局部特征与全局特征,得到复合特征表示。应用本申请的方法的融合模型在语义关系抽取时,确定了不同信息的特征对分类的重要程度,进而使融合模型能够聚焦于模型中的关键特征,提高了得到的语义关系的准确性与可靠性。
作为一个示例,所述分类层包括依次连接的全连接层和softmax层。
训练模型参数及预测样本类别时,将关系表示X依次输入至全连接层和softmax层,分类关系表示X,输出的归一化概率p的计算公式为:
h=(activation(X×W3+b3)×W4+b4
p=softmax(h)
W3和W4均为线性变换矩阵,且W3∈R2h*h,W2∈Rh*L,b3为线性变换矩阵W3的偏置项,b4为线性变换矩阵W4的偏置项,且b3∈Rh,b3∈RL,其中,h为向量的维度。activation为非线性激活函数ReLU(Rectified linear unit,修正线性单元)或tanh(hyperbolic tangent,双曲正切)。p为归一化概率,p中每个元素代表了样本属于各个关系类型的归一化概率,其中,h、p∈RL,可根据p计算模型损失和预测样本类别。需要理解的是,TACRED、TACREV及Semeval2010Task8均为本实施例中数据集,L为数据集中关系类型的个数,也可以根据实际需求输入其他任意的数据集,在此不做赘述。
融合模型训练过程中,计算为归一化概率p与样本真实类别的one-hot向量间的交叉熵损失,并作为损失函数。模型的预测阶段中,将归一化概率p中最大值对应的类别作为输出。记为模型的预测阶段中的输出,的计算公式为:
此外,为避免融合模型过拟合,可在融合模型中添加dropout层,并以一定概率的丢弃网络值,在此不做赘述。
本申请提供了一种优化信息融合策略的关系抽取方法,所述优化信息融合策略的关系抽取方法包括:将经过预处理的目标文本输入至预训练模型的编码器,得到第一实体的第一实体向量、第二实体的第二实体向量及目标文本的句向量;将第一实体向量与句向量进行融合,得到第一实体的第一复合特征向量,将第二实体向量与句向量进行融合,得到第二实体的第二复合特征向量;根据上下文特征向量,将第一复合特征向量与第二复合特征向量进行融合,得到第一实体与第二实体的关系表示;将关系表示输入至分类层,得到第一实体与第二实体的语义关系。本申请将目标文本的句向量融入了实体向量,得到的复合特征向量融合了目标文本的全局信息与局部信息。通过确定第一实体、第二实体对语义关系抽取的重要程度,并对第一实体和第二实体进行融合,可得到准确性和可靠性更高的语义关系。
实施例2
请参阅图4,图4示出了本发明实施例提供的优化信息融合策略的关系抽取装置的结构示意图。所述优化信息融合策略的关系抽取装置200包括:
目标文本输入模块210,用于将经过预处理的目标文本输入至预训练模型的编码器,得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量,其中,所述预训练模型包括N层的Transformer层,所述第一实体、第二实体均为所述目标文本中的实体;
上下文特征向量模块220,用于根据所述预训练模型的第M层的Transformer层输出的隐状态向量,得到上下文特征向量,其中,M的取值范围为[1,N-1];
复合特征向量模块230,用于将所述第一实体向量与所述句向量进行融合,得到所述第一实体的第一复合特征向量,将所述第二实体向量与所述句向量进行融合,得到所述第二实体的第二复合特征向量;
复合特征融合模块240,用于根据所述上下文特征向量,将所述第一复合特征向量与所述第二复合特征向量进行融合,得到所述第一实体与所述第二实体的关系表示;
关系表示分类模块250,用于将所述关系表示输入至分类层,得到所述第一实体与所述第二实体的语义关系。
作为一个示例,所述复合特征融合模块240,包括:
线性变换子模块,用于将所述上下文特征向量进行线性变换计算,得到所述第一实体的第一特征向量和所述第二实体的第二特征向量;
权重得到子模块,用于根据所述第一特征向量和所述第一复合特征向量,得到所述第一实体的第一权重,并根据所述第二特征向量和所述第二复合特征向量,得到所述第二实体的第二权重;
权重融合子模块,用于根据所述第一权重和所述第二权重,将所述第一复合特征向量与所述第二复合特征向量进行融合,得到所述第一实体与所述第二实体的关系表示。
在一个可选的示例中,所述权重融合子模块,包括:
归一化计算子模块,用于对所述第一权重进行归一化计算,得到所述第一实体的第一归一化权值,并对所述第二权重进行归一化计算,得到所述第二实体的第二归一化权值;
关系表示得到子模块,用于根据所述第一归一化权值和所述第二归一化权值,将所述第一复合特征向量与所述第二复合特征向量进行融合,得到所述第一实体与所述第二实体的关系表示。
作为一个示例,所述目标文本输入模块210,包括:
第N层隐状态模块,用于将经过预处理的目标文本输入至预训练模型的编码器,获取所述预训练模型的第N层的Transformer层输出的隐状态向量;
实体向量和句向量子模块,用于根据所述第N层的Transformer层输出的隐状态向量,得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量。
作为一个示例,所述上下文特征向量模块220,还用于获取所述预训练模型的第M层的Transformer层输出的所有的隐状态向量,并对所述所有的隐状态向量进行平均运算,得到上下文特征向量。
作为一个示例,所述优化信息融合策略的关系抽取装置200,还包括:
文本标记添加模块,用于在所述目标文本的句首添加句首标记,并在所述目标文本的句尾添加句尾标记;
实体标记添加模块,用于在所述第一实体的两侧及所述第二实体的两侧分别添加实体位置标记。
作为一个示例,所述分类层包括依次连接的全连接层和softmax层。
优化信息融合策略的关系抽取装置200用于执行上述的优化信息融合策略的关系抽取方法中的对应步骤,各个功能的具体实施,在此不再一一描述。此外,实施例1中可选示例也同样适用于实施例2的优化信息融合策略的关系抽取装置200。
本申请实施例还提供一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器执行时,实现如本申请实施例所述的优化信息融合策略的关系抽取方法。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如本申请实施例所述的优化信息融合策略的关系抽取方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种优化信息融合策略的关系抽取方法,其特征在于,所述方法包括:
将经过预处理的目标文本输入至预训练模型的编码器,得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量,其中,所述预训练模型包括N层的Transformer层,所述第一实体、第二实体均为所述目标文本中的实体;
根据所述预训练模型的第M层的Transformer层输出的隐状态向量,得到上下文特征向量,其中,M的取值范围为[1,N-1];
将所述第一实体向量与所述句向量进行融合,得到所述第一实体的第一复合特征向量,将所述第二实体向量与所述句向量进行融合,得到所述第二实体的第二复合特征向量;
根据所述上下文特征向量,将所述第一复合特征向量与所述第二复合特征向量进行融合,得到所述第一实体与所述第二实体的关系表示;
将所述关系表示输入至分类层,得到所述第一实体与所述第二实体的语义关系。
2.根据权利要求1所述的优化信息融合策略的关系抽取方法,其特征在于,所述根据所述上下文特征向量,将所述第一复合特征向量与所述第二复合特征向量进行融合,得到所述第一实体与所述第二实体的关系表示,包括:
将所述上下文特征向量进行线性变换计算,得到所述第一实体的第一特征向量和所述第二实体的第二特征向量;
根据所述第一特征向量和所述第一复合特征向量,得到所述第一实体的第一权重,并根据所述第二特征向量和所述第二复合特征向量,得到所述第二实体的第二权重;
根据所述第一权重和所述第二权重,将所述第一复合特征向量与所述第二复合特征向量进行融合,得到所述第一实体与所述第二实体的关系表示。
3.根据权利要求2所述的优化信息融合策略的关系抽取方法,其特征在于,所述根据所述第一权重和所述第二权重,将所述第一复合特征向量与所述第二复合特征向量进行融合,得到所述第一实体与所述第二实体的关系表示,包括:
对所述第一权重进行归一化计算,得到所述第一实体的第一归一化权值,并对所述第二权重进行归一化计算,得到所述第二实体的第二归一化权值;
根据所述第一归一化权值和所述第二归一化权值,将所述第一复合特征向量与所述第二复合特征向量进行融合,得到所述第一实体与所述第二实体的关系表示。
4.根据权利要求1所述的优化信息融合策略的关系抽取方法,其特征在于,所述将经过预处理的目标文本输入至预训练模型的编码器,得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量,包括:
将经过预处理的目标文本输入至预训练模型的编码器,获取所述预训练模型的第N层的Transformer层输出的隐状态向量;
根据所述第N层的Transformer层输出的隐状态向量,得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量。
5.根据权利要求1所述的优化信息融合策略的关系抽取方法,其特征在于,所述根据所述预训练模型的第M层的Transformer层输出的隐状态向量,得到上下文特征向量,包括:
获取所述预训练模型的第M层的Transformer层输出的所有的隐状态向量,并对所述所有的隐状态向量进行平均运算,得到上下文特征向量。
6.根据权利要求1所述的优化信息融合策略的关系抽取方法,其特征在于,所述目标文本的预处理过程包括:
在所述目标文本的句首添加句首标记,并在所述目标文本的句尾添加句尾标记;
在所述第一实体的两侧及所述第二实体的两侧分别添加实体位置标记。
7.根据权利要求1所述的优化信息融合策略的关系抽取方法,其特征在于,所述分类层包括依次连接的全连接层和softmax层。
8.一种优化信息融合策略的关系抽取装置,其特征在于,所述装置包括:
目标文本输入模块,用于将经过预处理的目标文本输入至预训练模型的编码器,得到第一实体的第一实体向量、第二实体的第二实体向量及所述目标文本的句向量,其中,所述预训练模型包括N层的Transformer层,所述第一实体、第二实体均为所述目标文本中的实体;
上下文特征向量模块,用于根据所述预训练模型的第M层的Transformer层输出的隐状态向量,得到上下文特征向量,其中,M的取值范围为[1,N-1];
复合特征向量模块,用于将所述第一实体向量与所述句向量进行融合,得到所述第一实体的第一复合特征向量,将所述第二实体向量与所述句向量进行融合,得到所述第二实体的第二复合特征向量;
复合特征融合模块,用于根据所述上下文特征向量,将所述第一复合特征向量与所述第二复合特征向量进行融合,得到所述第一实体与所述第二实体的关系表示;
关系表示分类模块,用于将所述关系表示输入至分类层,得到所述第一实体与所述第二实体的语义关系。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器执行时,实现如权利要求1至7中任一项所述的优化信息融合策略的关系抽取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的优化信息融合策略的关系抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210641239.1A CN115034302B (zh) | 2022-06-07 | 2022-06-07 | 优化信息融合策略的关系抽取方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210641239.1A CN115034302B (zh) | 2022-06-07 | 2022-06-07 | 优化信息融合策略的关系抽取方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115034302A true CN115034302A (zh) | 2022-09-09 |
CN115034302B CN115034302B (zh) | 2023-04-11 |
Family
ID=83122863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210641239.1A Active CN115034302B (zh) | 2022-06-07 | 2022-06-07 | 优化信息融合策略的关系抽取方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115034302B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252991A (zh) * | 2023-10-25 | 2023-12-19 | 北京华科软科技有限公司 | 一种体素构造与边界表示的融合方法及三维图形引擎 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334354A (zh) * | 2019-07-11 | 2019-10-15 | 清华大学深圳研究生院 | 一种中文关系抽取方法 |
KR102194837B1 (ko) * | 2020-06-30 | 2020-12-23 | 건국대학교 산학협력단 | 지식기반 질문 응답 방법 및 장치 |
CN113128229A (zh) * | 2021-04-14 | 2021-07-16 | 河海大学 | 一种中文实体关系联合抽取方法 |
CN114398855A (zh) * | 2022-01-13 | 2022-04-26 | 北京快确信息科技有限公司 | 基于融合预训练的文本抽取方法、系统及介质 |
-
2022
- 2022-06-07 CN CN202210641239.1A patent/CN115034302B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334354A (zh) * | 2019-07-11 | 2019-10-15 | 清华大学深圳研究生院 | 一种中文关系抽取方法 |
KR102194837B1 (ko) * | 2020-06-30 | 2020-12-23 | 건국대학교 산학협력단 | 지식기반 질문 응답 방법 및 장치 |
CN113128229A (zh) * | 2021-04-14 | 2021-07-16 | 河海大学 | 一种中文实体关系联合抽取方法 |
CN114398855A (zh) * | 2022-01-13 | 2022-04-26 | 北京快确信息科技有限公司 | 基于融合预训练的文本抽取方法、系统及介质 |
Non-Patent Citations (1)
Title |
---|
张一凡等: ""基于多信息融合的实体关系联合抽取方法"", 《计算机与数字工程》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252991A (zh) * | 2023-10-25 | 2023-12-19 | 北京华科软科技有限公司 | 一种体素构造与边界表示的融合方法及三维图形引擎 |
CN117252991B (zh) * | 2023-10-25 | 2024-03-29 | 北京华科软科技有限公司 | 一种体素构造与边界表示的融合方法及三维图形引擎 |
Also Published As
Publication number | Publication date |
---|---|
CN115034302B (zh) | 2023-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dahouda et al. | A deep-learned embedding technique for categorical features encoding | |
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN111222305B (zh) | 一种信息结构化方法和装置 | |
Abdullah et al. | Fake news classification bimodal using convolutional neural network and long short-term memory | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111401077A (zh) | 语言模型的处理方法、装置和计算机设备 | |
CN112163092B (zh) | 实体及关系抽取方法及系统、装置、介质 | |
CN111723569A (zh) | 一种事件抽取方法、装置和计算机可读存储介质 | |
CN112183094A (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN111159412A (zh) | 分类方法、装置、电子设备及可读存储介质 | |
CN114662476B (zh) | 一种融合词典与字符特征的字符序列识别方法 | |
CN112597306A (zh) | 一种基于bert的旅游评论意见挖掘方法 | |
CN112800239A (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN116228383A (zh) | 风险预测方法及装置、存储介质和电子设备 | |
CN114861630A (zh) | 信息获取及相关模型的训练方法、装置、电子设备和介质 | |
CN115545030A (zh) | 实体抽取模型的训练方法、实体关系抽取方法及装置 | |
CN115034302B (zh) | 优化信息融合策略的关系抽取方法、装置、设备及介质 | |
CN116150367A (zh) | 一种基于方面的情感分析方法及系统 | |
US20240152702A1 (en) | Specific target-oriented social media tweet sentiment analysis method | |
CN112905796A (zh) | 基于再注意力机制的文本情绪分类方法及系统 | |
CN109635289B (zh) | 词条分类方法及审计信息抽取方法 | |
CN111950281A (zh) | 一种基于深度学习和上下文语义的需求实体共指检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |