CN112989788A - 关系三元组的提取方法、装置、设备及介质 - Google Patents
关系三元组的提取方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112989788A CN112989788A CN202110272414.XA CN202110272414A CN112989788A CN 112989788 A CN112989788 A CN 112989788A CN 202110272414 A CN202110272414 A CN 202110272414A CN 112989788 A CN112989788 A CN 112989788A
- Authority
- CN
- China
- Prior art keywords
- entity
- target
- relation
- probability sequence
- position probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能技术领域,揭示了一种关系三元组的提取方法、装置、设备及介质,其中方法包括:获取待分析的文本数据;将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。从而实现了先通过所述目标关系三元组提取模型的编码模型确定所有实体,然后通过所述目标关系三元组提取模型的级联解码器确定所有实体在所有关系下可能的关系三元组,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。
Description
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种关系三元组的提取方法、装置、设备及介质。
背景技术
关系事实是知识图谱的重要组成部分,其中大部分由语义关系连接的两个实体组成。这些关系事实以(subject头主体、relation关系、object尾客体)的形式出现,被称为关系三元组。从自然语言文本中提取关系三元组是构建大规模知识图谱的关键步骤。
现有技术采用Seq2Seq模型和基于图卷积网络的GCNS模型提取关系三元组,没有很好的解决重叠实体的关系提取,导致提取到的关系三元组是不完整和不准确的。
发明内容
本申请的主要目的为提供一种关系三元组的提取方法、装置、设备及介质,旨在解决现有技术采用Seq2Seq模型和基于图卷积网络的GCNS模型提取关系三元组,没有很好的解决重叠实体的关系提取,导致提取到的关系三元组是不完整和不准确的技术问题。
为了实现上述发明目的,本申请提出一种关系三元组的提取方法,所述方法包括:
获取待分析的文本数据;
将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;
根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。
进一步的,所述将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组提取的步骤之前,还包括:
获取多个训练样本和预设关系集合,所述训练样本包括:文本样本数据、关系三元组标定数据;
从所述多个训练样本中提取一个所述训练样本作为目标训练样本;
将所述目标训练样本的所述文本样本数据输入待训练的关系三元组提取模型的所述编码模型进行编码,得到所述目标训练样本对应的目标文本编码向量;
通过所述待训练的关系三元组提取模型的所述级联解码器对所述目标文本编码向量的每个编码向量进行实体开始位置概率和实体结束位置概率的计算,得到所述目标训练样本对应的实体开始位置概率序列和实体结束位置概率序列;
通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标训练样本对应的所述实体开始位置概率序列和所述实体结束位置概率序列进行实体识别,得到所述目标训练样本对应的待分析的实体集合;
通过所述待训练的关系三元组提取模型的所述级联解码器,针对所述目标训练样本对应的所述待分析的实体集合中的每个实体,根据所述目标文本编码向量,计算每个所述实体在所述预设关系集合中的每个关系下的尾实体开始位置概率序列和尾实体结束位置概率序列,得到所述目标训练样本对应的各个实体各自对应的尾实体开始位置概率序列集合和尾实体结束位置概率序列集合;
将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入损失函数进行计算,得到所述待训练的关系三元组提取模型的损失值,根据所述损失值更新所述待训练的关系三元组提取模型的参数,更新后的所述待训练的关系三元组提取模型被用于下一次计算所述目标训练样本的所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合;
重复执行所述从所述多个训练样本中提取一个所述训练样本作为目标训练样本的步骤,直至所述损失值达到第一收敛条件或迭代次数达到第二收敛条件,将所述损失值达到第一收敛条件或迭代次数达到第二收敛条件的所述待训练的关系三元组提取模型,确定为所述目标关系三元组提取模型。
进一步的,所述通过所述待训练的关系三元组提取模型的所述级联解码器对所述目标文本编码向量的每个编码向量进行实体开始位置概率和实体结束位置概率的计算,得到所述目标训练样本对应的实体开始位置概率序列和实体结束位置概率序列的步骤,包括:
通过所述待训练的关系三元组提取模型的所述级联解码器,对所述目标文本编码向量的每个所述编码向量进行所述实体开始位置概率的计算,根据计算得到的所有所述实体开始位置概率得到所述目标训练样本对应的所述实体开始位置概率序列;
通过所述待训练的关系三元组提取模型的所述级联解码器,对所述目标文本编码向量的每个所述编码向量进行所述实体结束位置概率的计算,根据计算得到的所有所述实体结束位置概率得到所述目标训练样本对应的所述实体结束位置概率序列;
其中,所述实体开始位置概率Pi start_s和所述实体结束位置概率Pi end_s计算公式为:
Pi start_s=σ(Wstartxi+bstart)
Pi end_s=σ(Wendxi+bend)
Pi start_s是所述目标文本编码向量中第i个所述编码向量作为实体的开始位置的概率,Pi end_s是所述目标文本编码向量中第i个所述编码向量作为实体的结束位置的概率,xi所述目标文本编码向量中第i个所述编码向量,Wstart是第一权重,Wend是第二权重,bstart是第一偏移量,bend是第二偏移量,σ()是sigmoid激活函数。
进一步的,所述通过所述待训练的关系三元组提取模型的所述级联解码器,针对所述目标训练样本对应的所述待分析的实体集合中的每个实体,根据所述目标文本编码向量,计算每个所述实体在所述预设关系集合中的每个关系下的尾实体开始位置概率序列和尾实体结束位置概率序列,得到所述目标训练样本对应的各个实体各自对应的尾实体开始位置概率序列集合和尾实体结束位置概率序列集合的步骤,包括:
通过所述待训练的关系三元组提取模型的所述级联解码器从所述目标训练样本对应的所述待分析的实体集合中提取出一个实体,作为待评估的头实体;
根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列和所述尾实体结束位置概率序列,得到所述待评估的头实体对应的所述尾实体开始位置概率序列集合和所述尾实体结束位置概率序列集合;
通过所述待训练的关系三元组提取模型的所述级联解码器重复执行所述通过所述待训练的关系三元组提取模型的所述级联解码器从所述目标训练样本对应的所述待分析的实体集合中提取出一个实体,作为待评估的头实体的步骤,直至确定所述目标训练样本对应的所述待分析的实体集合中各个所述实体各自对应的所述尾实体开始位置概率序列集合和所述尾实体结束位置概率序列。
进一步的,所述根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列和所述尾实体结束位置概率序列,得到所述待评估的头实体对应的所述尾实体开始位置概率序列集合和所述尾实体结束位置概率序列集合的步骤,包括:
通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列,根据计算得到的所有所述尾实体开始位置概率序列得到所述待评估的头实体对应的所述尾实体开始位置概率序列集合;
通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体结束位置概率序列,根据计算得到的所有所述尾实体结束位置概率序列得到所述待评估的头实体对应的所述尾实体结束位置概率序列集合;
其中,所述尾实体开始位置概率序列和所述尾实体结束位置概率序列计算公式为:
Pi start_o是所述待评估的头实体在关系r(关系r是指所述预设关系集合中的关系)下的所述尾实体开始位置概率序列的第i个值,也就是所述目标文本编码向量中第i个所述编码向量在关系r下作为所述待评估的头实体的尾实体的开始位置的概率;Pi end_o是所述待评估的头实体在关系r下的所述尾实体结束位置概率序列的第i个值,是所述目标文本编码向量中第i个所述编码向量在关系r下作为所述待评估的头实体的尾实体的结束位置的概率,xi是所述目标文本编码向量中第i个所述编码向量,是第三权重,是第四权重,是第三偏移量,是第四偏移量,σ()是sigmoid激活函数,是所述待评估的头实体在所述目标文本编码向量中的所有所述编码向量的平均值。
进一步的,所述将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入损失函数进行计算,得到所述待训练的关系三元组提取模型的损失值的步骤,包括:
将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入基于似然函数构建的所述损失函数进行计算,得到所述待训练的关系三元组提取模型的所述损失值;
所述损失函数的计算公式Jθ为:
其中,Pθ(s|x)是第一似然函数,是尾实体为不为空时的第二似然函数;是尾实体为空时的第二似然函数;|D|是所述多个训练样本中所述训练样本的数量,Tj是指所述目标训练样本对应的所述待分析的实体集合,Tj|s是以Tj中的实体s作为头实体,R\Tj|s是以Tj中的实体s作为头实体在所述预设关系集合R的所有关系下,log()是对数函数。
其中,其中,L是所述目标训练样本的所述文本样本数据的字符数量;z为ture时I(z)为1,否则I(z)为0,z代表自变量;
start_s是所述目标训练样本的所述实体开始位置概率序列,end_s是所述目标训练样本的所述实体结束位置概率序列,中t属于start_s时是所述目标训练样本的所述实体开始位置概率序列的第i个值,中t属于end_s时是所述目标训练样本的所述实体结束位置概率序列的第i个值,中t属于start_s时是指所述目标训练样本的所述关系三元组标定数据中实体开始位置标定数据的第i个值,中t属于end_s时是指所述目标训练样本的所述关系三元组标定数据中实体结束位置标定数据的第i个值;
start_o是所述目标训练样本的各个实体各自对应的所述尾实体开始位置概率序列集合,end_o是所述目标训练样本的各个实体各自对应的所述尾实体结束位置概率序列集合,中t属于start_o时是所述目标训练样本的第i个实体对应的所述尾实体开始位置概率序列集合,中t属于end_o时是所述目标训练样本的第i个实体对应的所述尾实体结束位置概率序列集合;中t属于start_o时是指所述目标训练样本的第i个实体在所述关系三元组标定数据中的尾实体开始位置概率序列标定数据,中t属于end_o时是指所述目标训练样本的第i个实体在所述关系三元组标定数据中的尾实体结束位置概率序列标定数据。
本申请还提出了一种关系三元组的提取装置,所述装置包括:
数据获取模块,用于获取待分析的文本数据;
关系三元组提取模块,用于将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;
目标关系三元组集合确定模块,用于根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。
本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的关系三元组的提取方法、装置、设备及介质,通过获取待分析的文本数据,将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型,根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合,从而实现了先通过所述目标关系三元组提取模型的编码模型确定所有实体,然后通过所述目标关系三元组提取模型的级联解码器确定所有实体在所有关系下可能的关系三元组,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。
附图说明
图1为本申请一实施例的关系三元组的提取方法的流程示意图;
图2为本申请一实施例的关系三元组的提取装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
为了解决现有技术采用Seq2Seq模型和基于图卷积网络的GCNS模型提取关系三元组,没有很好的解决重叠实体的关系提取,导致提取到的关系三元组是不完整和不准确的技术问题,本申请提出了一种关系三元组的提取方法,所述方法应用于人工智能技术领域。所述关系三元组的提取方法通过先基于编码模型、级联解码器训练得到的目标关系三元组提取模型,然后将文本数据输入目标关系三元组提取模型进行所有实体的预测、所有实体在所有关系下可能的关系三元组的提取,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。
参照图1,本申请实施例中提供一种关系三元组的提取方法,所述方法包括:
S1:获取待分析的文本数据;
S2:将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;
S3:根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。
本实施例通过获取待分析的文本数据,将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型,根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合,从而实现了先通过所述目标关系三元组提取模型的编码模型确定所有实体,然后通过所述目标关系三元组提取模型的级联解码器确定所有实体在所有关系下可能的关系三元组,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。
重叠实体,是指同一文本数据的关系三元组中的关系可能在头实体或尾实体上共享实体。比如,文本数据“李明患有韧带损伤,一种运动损失的常见病症”,李明与“韧带损伤”和“运动损伤”同时拥有“患有”的关系,所以关系三元组“李明(头实体),患有(关系),韧带损伤(尾实体)”和“李明(头实体),患有(关系),运动损伤(尾实体)”在关系“患有”下在头实体共享实体“李明”,也就是说,关系三元组“李明,患有,韧带损伤”和“李明,患有,运动损伤”存在重叠实体,在此举例不做具体限定。
对于S1,可以获取用户输入的待分析的文本数据,也可以从数据库中获取待分析的文本数据,还可以是第三方应用系统发送的待分析的文本数据。
待分析的文本数据,是需要提取关系三元组的文本数据。
对于S2,将所述待分析的文本数据输入目标关系三元组提取模型,通过目标关系三元组提取模型的编码模型进行实体预测,得到实体预测结果;然后通过目标关系三元组提取模型的级联解码器对实体预测结果中每个实体在所有关系(也就是基于编码模型、级联解码器训练得到的目标关系三元组提取模型时采用的预设关系集合中的所有关系)下所有可能的关系三元组的预测。
对于S3,从获取尾实体开始位置概率阈值和尾实体结束位置概率阈值;获取所述目标关系三元组提取模型输出的关系三元组预测结果;从关系三元组预测结果的实体预测结果中获取一个实体作为目标实体;从所有关系(也就是基于编码模型、级联解码器训练得到的目标关系三元组提取模型时采用的预设关系集合中的所有关系)中获取一种关系作为目标关系;从关系三元组预测结果中获取目标实体在目标关系下的尾实体开始位置预测概率序列和尾实体结束位置预测概率序列;从目标实体在目标关系下的尾实体开始位置预测概率序列中找出大于尾实体开始位置概率阈值的值,将找出的值对应的待分析的文本数据中的字符作为目标实体在目标关系下的尾实体开始位置字符;从目标实体在目标关系下的尾实体结束位置预测概率序列中找出大于尾实体结束位置概率阈值的值,将找出的值对应的待分析的文本数据中的字符作为目标实体在目标关系下的尾实体结束位置字符;根据目标实体在目标关系下的尾实体开始位置字符、目标实体在目标关系下的尾实体结束位置字符从待分析的文本数据中确定目标实体在目标关系下的所有尾实体;分别将目标实体、目标关系、目标实体在目标关系下的每个尾实体作为一个关系三元组;重复执行所述从所有关系中获取一种关系作为目标关系的步骤,直至确定所述目标实体在预设关系集合中的所有关系下的关系三元组;重复执行所述从关系三元组预测结果的实体预测结果中获取一个实体作为目标实体的步骤,直至确定所述待分析的文本数据的所有关系三元组;将所述待分析的文本数据的所有关系三元组作为所述待分析的文本数据对应的目标关系三元组集合。
可以理解的是,在另一个实施例中,也可以将步骤S3实现为所述目标关系三元组提取模型的输出层,在此不做限定。
在一个实施例中,上述将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组提取的步骤之前,还包括:
S21:获取多个训练样本和预设关系集合,所述训练样本包括:文本样本数据、关系三元组标定数据;
S22:从所述多个训练样本中提取一个所述训练样本作为目标训练样本;
S23:将所述目标训练样本的所述文本样本数据输入待训练的关系三元组提取模型的所述编码模型进行编码,得到所述目标训练样本对应的目标文本编码向量;
S24:通过所述待训练的关系三元组提取模型的所述级联解码器对所述目标文本编码向量的每个编码向量进行实体开始位置概率和实体结束位置概率的计算,得到所述目标训练样本对应的实体开始位置概率序列和实体结束位置概率序列;
S25:通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标训练样本对应的所述实体开始位置概率序列和所述实体结束位置概率序列进行实体识别,得到所述目标训练样本对应的待分析的实体集合;
S26:通过所述待训练的关系三元组提取模型的所述级联解码器,针对所述目标训练样本对应的所述待分析的实体集合中的每个实体,根据所述目标文本编码向量,计算每个所述实体在所述预设关系集合中的每个关系下的尾实体开始位置概率序列和尾实体结束位置概率序列,得到所述目标训练样本对应的各个实体各自对应的尾实体开始位置概率序列集合和尾实体结束位置概率序列集合;
S27:将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入损失函数进行计算,得到所述待训练的关系三元组提取模型的损失值,根据所述损失值更新所述待训练的关系三元组提取模型的参数,更新后的所述待训练的关系三元组提取模型被用于下一次计算所述目标训练样本的所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合;
S28:重复执行所述从所述多个训练样本中提取一个所述训练样本作为目标训练样本的步骤,直至所述损失值达到第一收敛条件或迭代次数达到第二收敛条件,将所述损失值达到第一收敛条件或迭代次数达到第二收敛条件的所述待训练的关系三元组提取模型,确定为所述目标关系三元组提取模型。
本实施例实现了基于编码模型、级联解码器训练得到目标关系三元组提取模型,从而实现了先通过所述目标关系三元组提取模型的编码模型确定所有实体,然后通过所述目标关系三元组提取模型的级联解码器确定所有实体在所有关系下可能的关系三元组,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。
对于S21,可以获取用户输入的多个训练样本,也可以从数据库中获取多个训练样本,还可以是第三方应用系统发送的多个训练样本。
可以获取用户输入的预设关系集合,也可以从数据库中获取预设关系集合,还可以是第三方应用系统发送的预设关系集合。
每个所述训练样本包括一个文本样本数据和一个关系三元组标定数据。
在同一个所述训练样本中,关系三元组标定数据是对文本样本数据的标定数据。
文本样本数据,是一段文本数据。
关系三元组标定数据包括:实体标定数据、在预设关系集合中各个关系下实体标定数据中各个实体各自对应的尾实体开始位置概率序列标定数据、在预设关系集合中各个关系下实体标定数据中各个实体各自对应的尾实体结束位置概率序列标定数据。尾实体开始位置概率序列标定数据中的值是二进制标签。尾实体结束位置概率序列标定数据中的值是二进制标签。
实体标定数据包括:实体开始位置标定数据、实体结束位置标定数据。实体开始位置标定数据中的值是二进制标签。实体结束位置标定数据中的值是二进制标签。二进制标签包括:0、1。
对于S22,依次从所述多个训练样本中提取一个所述训练样本,将提取的所述训练样本作为目标训练样本。
对于S23,所述编码模型可以采用Bert模型(预训练语言模型),也可以采用LSTM模型(长短期记忆模型)。
将所述目标训练样本的所述文本样本数据输入待训练的关系三元组提取模型的所述编码模型进行每个字的编码,获取待训练的关系三元组提取模型的所述编码模型输出的编码向量,将得到的编码向量作为所述目标训练样本对应的目标文本编码向量。
对于S24,通过所述待训练的关系三元组提取模型的所述级联解码器的底层标注模块分别对所述目标文本编码向量中的每个编码向量进行实体开始位置概率,将计算的所有实体开始位置概率作为所述目标训练样本的文本样本数据对应的实体开始位置概率序列;通过所述待训练的关系三元组提取模型的所述级联解码器分别对所述目标文本编码向量的每个编码向量进行实体结束位置概率的计算,将计算的所有实体结束位置概率作为所述目标训练样本是文本样本数据对应的实体结束位置概率序列。
对于S25,通过所述待训练的关系三元组提取模型的所述级联解码器的底层标注模块,采用第一二进制分类器和实体开始位置概率阈值对所述目标训练样本对应的所述实体开始位置概率序列分配二进制标签,得到所述目标训练样本对应的实体开始位置二进制标签,采用第二二进制分类器和实体结束位置概率阈值对所述目标训练样本对应的所述实体结束位置概率序列分配二进制标签,得到所述目标训练样本对应的实体结束位置二进制标签序列;采用最接近的起始和结束对匹配原则根据所述目标训练样本对应的所述实体开始位置二进制标签序列和所述实体结束位置二进制标签序列进行实体识别,将识别得到的所有实体作为所述目标训练样本对应的待分析的实体集合。
其中,采用第一二进制分类器将所述目标训练样本对应的所述实体开始位置概率序列中大于实体开始位置概率阈值的值对应的所述目标训练样本对应的实体开始位置二进制标签序列赋值为1,将所述目标训练样本对应的所述实体开始位置概率序列中小于或等于实体开始位置概率阈值的值对应的所述目标训练样本对应的实体开始位置二进制标签序列赋值为第二标签。比如,所述实体开始位置概率序列的第一个值和第三个值大于实体开始位置概率阈值,则将所述目标训练样本对应的实体开始位置二进制标签序列第一个位置和第三个位置的值确定为第一标签,在此举例不做具体限定。
其中,采用第二二进制分类器将所述目标训练样本对应的所述实体结束位置概率序列中大于实体结束位置概率阈值的值对应的所述目标训练样本对应的实体结束位置二进制标签序列赋值为第一标签,将所述目标训练样本对应的所述实体结束位置概率序列中小于或等于实体结束位置概率阈值的值对应的所述目标训练样本对应的实体结束位置二进制标签序列赋值为第二标签。
采用最接近的起始和结束对匹配原则,比如,将所述目标训练样本的所述文本样本数据为“ABCDEFGH”,所述目标训练样本对应的所述实体开始位置二进制标签序列为[10001000],所述目标训练样本对应的所述实体结束位置二进制标签序列[00100100],将[10001000]的第一个1和[00100100]第一个1作为最接近的起始和结束对,将[10001000]的第二个1和[00100100]第二个1作为最接近的起始和结束对,[10001000]的第一个1和[00100100]第一个1匹配得到实体“ABC”,[10001000]的第二个1和[00100100]第二个1匹配得到实体“EF”,在此举例不做具体限定。
对于S26,通过所述待训练的关系三元组提取模型的所述级联解码器,假设所述目标训练样本对应的所述待分析的实体集合中每个实体是头实体,然后将每个假设的头实体在所述预设关系集合中的每个关系下根据所述目标文本编码向量进行尾实体开始位置概率序列和尾实体结束位置概率序列的计算。也就是说,所述目标训练样本对应的每个实体各自对应的尾实体开始位置概率序列集合是该实体在所述预设关系集合中的各个关系下的尾实体开始位置概率序列的集合,所述目标训练样本对应的每个实体各自对应的尾实体结束位置概率序列集合是该实体在所述预设关系集合中的各个关系下的尾实体结束位置概率序列的集合。
对于S27,将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入损失函数进行计算,将计算结果作为所述待训练的关系三元组提取模型的损失值。
根据所述损失值更新所述待训练的关系三元组提取模型的参数的方法可以从现有技术中选择,在此不做赘述。
对于S28,重复执行步骤S22至步骤S28,直至所述损失值达到第一收敛条件或迭代次数达到第二收敛条件。
所述第一收敛条件是指相邻两次计算的所述损失值的大小满足lipschitz条件(利普希茨连续条件)。
所述迭代次数达到第二收敛条件是指所述待训练的关系三元组提取模型被用于计算所述目标训练样本的所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合的次数,也就是说,计算一次,迭代次数增加1。
在一个实施例中,上述通过所述待训练的关系三元组提取模型的所述级联解码器对所述目标文本编码向量的每个编码向量进行实体开始位置概率和实体结束位置概率的计算,得到所述目标训练样本对应的实体开始位置概率序列和实体结束位置概率序列的步骤,包括:
S241:通过所述待训练的关系三元组提取模型的所述级联解码器,对所述目标文本编码向量的每个所述编码向量进行所述实体开始位置概率的计算,根据计算得到的所有所述实体开始位置概率得到所述目标训练样本对应的所述实体开始位置概率序列;
S242:通过所述待训练的关系三元组提取模型的所述级联解码器,对所述目标文本编码向量的每个所述编码向量进行所述实体结束位置概率的计算,根据计算得到的所有所述实体结束位置概率得到所述目标训练样本对应的所述实体结束位置概率序列;
其中,所述实体开始位置概率Pi start_s和所述实体结束位置概率Pi end_s计算公式为:
Pi start_s=σ(Wstartxi+bstart)
Pi end_s=σ(Wendxi+bend)
Pi start_s是所述目标文本编码向量中第i个所述编码向量作为实体的开始位置的概率,Pi end_s是所述目标文本编码向量中第i个所述编码向量作为实体的结束位置的概率,xi所述目标文本编码向量中第i个所述编码向量,Wstart是第一权重,Wend是第二权重,bstart是第一偏移量,bend是第二偏移量,σ()是sigmoid激活函数。
本实施例对所述目标文本编码向量的每个编码向量进行实体开始位置概率和实体结束位置概率的计算,为确定所述目标训练样本对应的待分析的实体集合提供了基础。
对于S241,通过所述待训练的关系三元组提取模型的所述级联解码器分别对所述目标文本编码向量的每个所述编码向量进行所述实体开始位置概率的计算,将计算得到的所有所述实体开始位置概率按所述编码向量在所述目标文本编码向量中的位置数据组成序列,将组成的序列作为所述目标训练样本对应的所述实体开始位置概率序列。比如,所述目标训练样本对应的所述实体开始位置概率序列中第5个实体开始位置概率表述所述目标文本编码向量中第5个所述编码向量是实体的开始位置的概率,在此举例不做具体限定。
所述实体开始位置概率,是指归属实体的开始位置的概率。
对于S242,通过所述待训练的关系三元组提取模型的所述级联解码器分别对所述目标文本编码向量的每个所述编码向量进行所述实体结束位置概率的计算,将计算得到的所有所述实体结束位置概率按所述编码向量在所述目标文本编码向量中的顺序组成序列,将组成的序列作为所述目标训练样本对应的所述实体结束位置概率序列。
所述实体结束位置概率,是指归属实体的结束位置的概率。
在一个实施例中,上述通过所述待训练的关系三元组提取模型的所述级联解码器,针对所述目标训练样本对应的所述待分析的实体集合中的每个实体,根据所述目标文本编码向量,计算每个所述实体在所述预设关系集合中的每个关系下的尾实体开始位置概率序列和尾实体结束位置概率序列,得到所述目标训练样本对应的各个实体各自对应的尾实体开始位置概率序列集合和尾实体结束位置概率序列集合的步骤,包括:
S261:通过所述待训练的关系三元组提取模型的所述级联解码器从所述目标训练样本对应的所述待分析的实体集合中提取出一个实体,作为待评估的头实体;
S262:根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列和所述尾实体结束位置概率序列,得到所述待评估的头实体对应的所述尾实体开始位置概率序列集合和所述尾实体结束位置概率序列集合;
S263:通过所述待训练的关系三元组提取模型的所述级联解码器重复执行所述通过所述待训练的关系三元组提取模型的所述级联解码器从所述目标训练样本对应的所述待分析的实体集合中提取出一个实体,作为待评估的头实体的步骤,直至确定所述目标训练样本对应的所述待分析的实体集合中各个所述实体各自对应的所述尾实体开始位置概率序列集合和所述尾实体结束位置概率序列。
本实施例采用所述目标训练样本对应的所述待分析的实体集合根据所述预设关系集合和所述目标文本编码向量进行每个实体在每个关系下的尾实体开始位置概率序列和尾实体结束位置概率序列的计算,从而实现了假设所述目标训练样本对应的所述待分析的实体集合中每个实体是头实体,然后将每个假设的头实体在所述预设关系集合中的每个关系下根据所述目标文本编码向量进行尾实体开始位置概率序列和尾实体结束位置概率序列的计算,有利于找出所述目标训练样本对应的所述待分析的实体集合中的所有实体在所述预设关系集合中的所有关系下所有可能的关系三元组,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。
对于S261,通过所述待训练的关系三元组提取模型的所述级联解码器依次从所述目标训练样本对应的所述待分析的实体集合中提取出一个实体,将提取出的实体假设为头实体,将假设的头实体作为待评估的头实体。
对于S262,通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列,得到所述待评估的头实体对应的所述尾实体开始位置概率序列集合;通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体结束位置概率序列,得到所述待评估的头实体对应的所述尾实体结束位置概率序列集合。也就是说,每个所述尾实体开始位置概率序列值包括一种关系下所述待评估的头实体对应的尾实体开始位置概率。每个所述尾实体结束位置概率序列包括一种关系下所述待评估的头实体对应的尾实体结束位置概率。
对于S263,通过所述待训练的关系三元组提取模型的所述级联解码器重复执行步骤S261至步骤S263,直至确定所述目标训练样本对应的所述待分析的实体集合中各个所述实体各自对应的所述尾实体开始位置概率序列集合和所述尾实体结束位置概率序列。
在一个实施例中,上述根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列和所述尾实体结束位置概率序列,得到所述待评估的头实体对应的所述尾实体开始位置概率序列集合和所述尾实体结束位置概率序列集合的步骤,包括:
S2621:通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列,根据计算得到的所有所述尾实体开始位置概率序列得到所述待评估的头实体对应的所述尾实体开始位置概率序列集合;
S2622:通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体结束位置概率序列,根据计算得到的所有所述尾实体结束位置概率序列得到所述待评估的头实体对应的所述尾实体结束位置概率序列集合;
其中,所述尾实体开始位置概率序列和所述尾实体结束位置概率序列计算公式为:
Pi start_o是所述待评估的头实体在关系r(关系r是指所述预设关系集合中的关系)下的所述尾实体开始位置概率序列的第i个值,也就是所述目标文本编码向量中第i个所述编码向量在关系r下作为所述待评估的头实体的尾实体的开始位置的概率;Pi end_o是所述待评估的头实体在关系r下的所述尾实体结束位置概率序列的第i个值,是所述目标文本编码向量中第i个所述编码向量在关系r下作为所述待评估的头实体的尾实体的结束位置的概率,xi是所述目标文本编码向量中第i个所述编码向量,是第三权重,是第四权重,是第三偏移量,是第四偏移量,σ()是sigmoid激活函数,是所述待评估的头实体在所述目标文本编码向量中的所有所述编码向量的平均值。
本实施例采用所述预设关系集合中的每个关系根据所述目标文本编码向量进行所述待评估的头实体对应的所述尾实体开始位置概率序列和所述尾实体结束位置概率序列的计算,从而有利于找出所述目标训练样本对应的所述待分析的实体集合中的所有实体在所述预设关系集合中的所有关系下所有可能的关系三元组,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。
对于S2621,通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列,将计算得到的所有所述尾实体开始位置概率序列按所述编码向量在所述目标文本编码向量中的位置数据组成序列,将组成的序列作为所述待评估的头实体对应的所述尾实体开始位置概率序列集合。比如,所述待评估的头实体对应的所述尾实体开始位置概率序列集合中第3个所述尾实体开始位置概率序列表述所述目标文本编码向量中第3个所述编码向量是所述待评估的头实体的尾实体的开始位置的概率,在此举例不做具体限定。
所述尾实体开始位置概率序列,是指归属所述待评估的头实体在关系r下的尾实体的开始位置的概率的序列。所述尾实体开始位置概率序列中的值的数量与所述目标训练样本的所述文本样本数据的字符数量相同。
对于S2622,通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体结束位置概率序列,将计算得到的所有所述尾实体结束位置概率序列按所述编码向量在所述目标文本编码向量中的位置数据组成序列,将组成的序列作为所述待评估的头实体对应的所述尾实体结束位置概率序列集合。
所述尾实体结束位置概率序列,是指归属所述待评估的头实体在关系r下的尾实体的结束位置的概率的序列。所述尾实体结束位置概率序列中的值的数量与所述目标训练样本的所述文本样本数据的字符数量相同。
在一个实施例中,上述将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入损失函数进行计算,得到所述待训练的关系三元组提取模型的损失值的步骤,包括:
将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入基于似然函数构建的所述损失函数进行计算,得到所述待训练的关系三元组提取模型的所述损失值;
所述损失函数的计算公式Jθ为:
其中,Pθ(s|x)是第一似然函数,是尾实体为不为空时的第二似然函数;是尾实体为空时的第二似然函数;|D|是所述多个训练样本中所述训练样本的数量,Tj是指所述目标训练样本对应的所述待分析的实体集合,Tj|s是以Tj中的实体s作为头实体,R\Tj|s是以Tj中的实体s作为头实体在所述预设关系集合R的所有关系下,log()是对数函数。
本实施例实现了计算所述待训练的关系三元组提取模型的所述损失值,为更新所述待训练的关系三元组提取模型的参数提供了数据基础。
其中,其中,L是所述目标训练样本的所述文本样本数据的字符数量;z为ture时I(z)为1,否则I(z)为0,z代表自变量;
start_s是所述目标训练样本的所述实体开始位置概率序列,end_s是所述目标训练样本的所述实体结束位置概率序列,中t属于start_s时是所述目标训练样本的所述实体开始位置概率序列的第i个值,中t属于end_s时是所述目标训练样本的所述实体结束位置概率序列的第i个值,中t属于start_s时是指所述目标训练样本的所述关系三元组标定数据中实体开始位置标定数据的第i个值,中t属于end_s时是指所述目标训练样本的所述关系三元组标定数据中实体结束位置标定数据的第i个值;
start_o是所述目标训练样本的各个实体各自对应的所述尾实体开始位置概率序列集合,end_o是所述目标训练样本的各个实体各自对应的所述尾实体结束位置概率序列集合,中t属于start_o时是所述目标训练样本的第i个实体对应的所述尾实体开始位置概率序列集合,中t属于end_o时是所述目标训练样本的第i个实体对应的所述尾实体结束位置概率序列集合;中t属于start_o时是指所述目标训练样本的第i个实体在所述关系三元组标定数据中的尾实体开始位置概率序列标定数据,中t属于end_o时是指所述目标训练样本的第i个实体在所述关系三元组标定数据中的尾实体结束位置概率序列标定数据。
本实施例实现了根据所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合计算损失函数的第一似然函数和尾实体为不为空时的第二似然函数,为更新所述待训练的关系三元组提取模型的参数提供了数据基础。
可以理解的是,s是头实体,o是尾实体,r是关系。
参照图2,本申请还提出了一种关系三元组的提取装置,所述装置包括:
数据获取模块100,用于获取待分析的文本数据;
关系三元组提取模块200,用于将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;
目标关系三元组集合确定模块300,用于根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。
本实施例通过获取待分析的文本数据,将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型,根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合,从而实现了先通过所述目标关系三元组提取模型的编码模型确定所有实体,然后通过所述目标关系三元组提取模型的级联解码器确定所有实体在所有关系下可能的关系三元组,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存关系三元组的提取方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种关系三元组的提取方法。所述关系三元组的提取方法,包括:获取待分析的文本数据;将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。
本实施例通过获取待分析的文本数据,将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型,根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合,从而实现了先通过所述目标关系三元组提取模型的编码模型确定所有实体,然后通过所述目标关系三元组提取模型的级联解码器确定所有实体在所有关系下可能的关系三元组,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种关系三元组的提取方法,包括步骤:获取待分析的文本数据;将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。
上述执行的关系三元组的提取方法,通过获取待分析的文本数据,将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型,根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合,从而实现了先通过所述目标关系三元组提取模型的编码模型确定所有实体,然后通过所述目标关系三元组提取模型的级联解码器确定所有实体在所有关系下可能的关系三元组,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种关系三元组的提取方法,其特征在于,所述方法包括:
获取待分析的文本数据;
将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;
根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。
2.根据权利要求1所述的关系三元组的提取方法,其特征在于,所述将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组提取的步骤之前,还包括:
获取多个训练样本和预设关系集合,所述训练样本包括:文本样本数据、关系三元组标定数据;
从所述多个训练样本中提取一个所述训练样本作为目标训练样本;
将所述目标训练样本的所述文本样本数据输入待训练的关系三元组提取模型的所述编码模型进行编码,得到所述目标训练样本对应的目标文本编码向量;
通过所述待训练的关系三元组提取模型的所述级联解码器对所述目标文本编码向量的每个编码向量进行实体开始位置概率和实体结束位置概率的计算,得到所述目标训练样本对应的实体开始位置概率序列和实体结束位置概率序列;
通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标训练样本对应的所述实体开始位置概率序列和所述实体结束位置概率序列进行实体识别,得到所述目标训练样本对应的待分析的实体集合;
通过所述待训练的关系三元组提取模型的所述级联解码器,针对所述目标训练样本对应的所述待分析的实体集合中的每个实体,根据所述目标文本编码向量,计算每个所述实体在所述预设关系集合中的每个关系下的尾实体开始位置概率序列和尾实体结束位置概率序列,得到所述目标训练样本对应的各个实体各自对应的尾实体开始位置概率序列集合和尾实体结束位置概率序列集合;
将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入损失函数进行计算,得到所述待训练的关系三元组提取模型的损失值,根据所述损失值更新所述待训练的关系三元组提取模型的参数,更新后的所述待训练的关系三元组提取模型被用于下一次计算所述目标训练样本的所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合;
重复执行所述从所述多个训练样本中提取一个所述训练样本作为目标训练样本的步骤,直至所述损失值达到第一收敛条件或迭代次数达到第二收敛条件,将所述损失值达到第一收敛条件或迭代次数达到第二收敛条件的所述待训练的关系三元组提取模型,确定为所述目标关系三元组提取模型。
3.根据权利要求2所述的关系三元组的提取方法,其特征在于,所述通过所述待训练的关系三元组提取模型的所述级联解码器对所述目标文本编码向量的每个编码向量进行实体开始位置概率和实体结束位置概率的计算,得到所述目标训练样本对应的实体开始位置概率序列和实体结束位置概率序列的步骤,包括:
通过所述待训练的关系三元组提取模型的所述级联解码器,对所述目标文本编码向量的每个所述编码向量进行所述实体开始位置概率的计算,根据计算得到的所有所述实体开始位置概率得到所述目标训练样本对应的所述实体开始位置概率序列;
通过所述待训练的关系三元组提取模型的所述级联解码器,对所述目标文本编码向量的每个所述编码向量进行所述实体结束位置概率的计算,根据计算得到的所有所述实体结束位置概率得到所述目标训练样本对应的所述实体结束位置概率序列;
其中,所述实体开始位置概率Pi start_s和所述实体结束位置概率Pi end_s计算公式为:
Pi start_s=σ(Wstartxi+bstart)
Pi end_s=σ(Wendxi+bend)
Pi start_s是所述目标文本编码向量中第i个所述编码向量作为实体的开始位置的概率,Pi end_s是所述目标文本编码向量中第i个所述编码向量作为实体的结束位置的概率,xi所述目标文本编码向量中第i个所述编码向量,Wstart是第一权重,Wend是第二权重,bstart是第一偏移量,bend是第二偏移量,σ()是sigmoid激活函数。
4.根据权利要求2所述的关系三元组的提取方法,其特征在于,所述通过所述待训练的关系三元组提取模型的所述级联解码器,针对所述目标训练样本对应的所述待分析的实体集合中的每个实体,根据所述目标文本编码向量,计算每个所述实体在所述预设关系集合中的每个关系下的尾实体开始位置概率序列和尾实体结束位置概率序列,得到所述目标训练样本对应的各个实体各自对应的尾实体开始位置概率序列集合和尾实体结束位置概率序列集合的步骤,包括:
通过所述待训练的关系三元组提取模型的所述级联解码器从所述目标训练样本对应的所述待分析的实体集合中提取出一个实体,作为待评估的头实体;
根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列和所述尾实体结束位置概率序列,得到所述待评估的头实体对应的所述尾实体开始位置概率序列集合和所述尾实体结束位置概率序列集合;
通过所述待训练的关系三元组提取模型的所述级联解码器,重复执行所述通过所述待训练的关系三元组提取模型的所述级联解码器从所述目标训练样本对应的所述待分析的实体集合中提取出一个实体,作为待评估的头实体的步骤,直至确定所述目标训练样本对应的所述待分析的实体集合中各个所述实体各自对应的所述尾实体开始位置概率序列集合和所述尾实体结束位置概率序列。
5.根据权利要求4所述的关系三元组的提取方法,其特征在于,所述根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列和所述尾实体结束位置概率序列,得到所述待评估的头实体对应的所述尾实体开始位置概率序列集合和所述尾实体结束位置概率序列集合的步骤,包括:
通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列,根据计算得到的所有所述尾实体开始位置概率序列得到所述待评估的头实体对应的所述尾实体开始位置概率序列集合;
通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体结束位置概率序列,根据计算得到的所有所述尾实体结束位置概率序列得到所述待评估的头实体对应的所述尾实体结束位置概率序列集合;
其中,所述尾实体开始位置概率序列和所述尾实体结束位置概率序列计算公式为:
Pi start_o是所述待评估的头实体在关系r(关系r是指所述预设关系集合中的关系)下的所述尾实体开始位置概率序列的第i个值,也就是所述目标文本编码向量中第i个所述编码向量在关系r下作为所述待评估的头实体的尾实体的开始位置的概率;Pi end_o是所述待评估的头实体在关系r下的所述尾实体结束位置概率序列的第i个值,是所述目标文本编码向量中第i个所述编码向量在关系r下作为所述待评估的头实体的尾实体的结束位置的概率,xi是所述目标文本编码向量中第i个所述编码向量,是第三权重,是第四权重,是第三偏移量,是第四偏移量,σ()是sigmoid激活函数,是所述待评估的头实体在所述目标文本编码向量中的所有所述编码向量的平均值。
6.根据权利要求2所述的关系三元组的提取方法,其特征在于,所述将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入损失函数进行计算,得到所述待训练的关系三元组提取模型的损失值的步骤,包括:
将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入基于似然函数构建的所述损失函数进行计算,得到所述待训练的关系三元组提取模型的所述损失值;
所述损失函数的计算公式Jθ为:
其中,L是所述目标训练样本的所述文本样本数据的字符数量;z为ture时I(z)为1,否则I(z)为0,z代表自变量;
start_s是所述目标训练样本的所述实体开始位置概率序列,end_s是所述目标训练样本的所述实体结束位置概率序列,中t属于start_s时是所述目标训练样本的所述实体开始位置概率序列的第i个值,中t属于end_s时是所述目标训练样本的所述实体结束位置概率序列的第i个值,中t属于start_s时是指所述目标训练样本的所述关系三元组标定数据中实体开始位置标定数据的第i个值,中t属于end_s时是指所述目标训练样本的所述关系三元组标定数据中实体结束位置标定数据的第i个值;
8.一种关系三元组的提取装置,其特征在于,所述装置包括:
数据获取模块,用于获取待分析的文本数据;
关系三元组提取模块,用于将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;
目标关系三元组集合确定模块,用于根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110272414.XA CN112989788A (zh) | 2021-03-12 | 2021-03-12 | 关系三元组的提取方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110272414.XA CN112989788A (zh) | 2021-03-12 | 2021-03-12 | 关系三元组的提取方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112989788A true CN112989788A (zh) | 2021-06-18 |
Family
ID=76335390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110272414.XA Pending CN112989788A (zh) | 2021-03-12 | 2021-03-12 | 关系三元组的提取方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989788A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115114899A (zh) * | 2022-06-27 | 2022-09-27 | 浙江数创未来科技有限公司 | 文本解析方法、系统及电子设备 |
CN117097442A (zh) * | 2023-10-19 | 2023-11-21 | 深圳大普微电子股份有限公司 | 一种数据解码方法、系统、设备及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476023A (zh) * | 2020-05-22 | 2020-07-31 | 北京明朝万达科技股份有限公司 | 识别实体关系的方法及装置 |
CN111666427A (zh) * | 2020-06-12 | 2020-09-15 | 长沙理工大学 | 一种实体关系联合抽取方法、装置、设备及介质 |
-
2021
- 2021-03-12 CN CN202110272414.XA patent/CN112989788A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476023A (zh) * | 2020-05-22 | 2020-07-31 | 北京明朝万达科技股份有限公司 | 识别实体关系的方法及装置 |
CN111666427A (zh) * | 2020-06-12 | 2020-09-15 | 长沙理工大学 | 一种实体关系联合抽取方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
ZHEPEI WEI ET AL.: "A Novel Cascade Binary Tagging Framework for Relational Triple Extraction", 《ARXIV:1909.03227V4》, pages 1 - 13 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115114899A (zh) * | 2022-06-27 | 2022-09-27 | 浙江数创未来科技有限公司 | 文本解析方法、系统及电子设备 |
CN117097442A (zh) * | 2023-10-19 | 2023-11-21 | 深圳大普微电子股份有限公司 | 一种数据解码方法、系统、设备及计算机可读存储介质 |
CN117097442B (zh) * | 2023-10-19 | 2024-01-16 | 深圳大普微电子股份有限公司 | 一种数据解码方法、系统、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112380840B (zh) | 文本纠错方法、装置、设备及介质 | |
CN109446514B (zh) | 新闻实体识别模型的构建方法、装置和计算机设备 | |
CN110704588A (zh) | 基于长短期记忆网络的多轮对话语义分析方法和系统 | |
CN111832294B (zh) | 标注数据的选择方法、装置、计算机设备和存储介质 | |
EP3499384A1 (en) | Word and sentence embeddings for sentence classification | |
CN110688853B (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN109977394B (zh) | 文本模型训练方法、文本分析方法、装置、设备及介质 | |
CN112989788A (zh) | 关系三元组的提取方法、装置、设备及介质 | |
CN113673698A (zh) | 适用于bert模型的蒸馏方法、装置、设备及存储介质 | |
CN114026556A (zh) | 义素预测方法、计算机设备和存储介质背景 | |
CN109710921B (zh) | 词语相似度的计算方法、装置、计算机设备及存储介质 | |
CN115170934A (zh) | 一种图像分割方法、系统、设备及存储介质 | |
CN113792682A (zh) | 基于人脸图像的人脸质量评估方法、装置、设备及介质 | |
CN112766485A (zh) | 命名实体模型的训练方法、装置、设备及介质 | |
CN113238797B (zh) | 基于分层对比学习的代码特征提取方法及系统 | |
Janz et al. | Learning a generative model for validity in complex discrete structures | |
CN112733911A (zh) | 实体识别模型的训练方法、装置、设备和存储介质 | |
CN114822683A (zh) | 药物与靶标的相互作用预测方法、装置、设备及存储介质 | |
CN110175273A (zh) | 文本处理方法、装置、计算机可读存储介质和计算机设备 | |
CN114416984A (zh) | 基于人工智能的文本分类方法、装置、设备及存储介质 | |
CN110413994B (zh) | 热点话题生成方法、装置、计算机设备和存储介质 | |
CN112836762A (zh) | 模型蒸馏方法、装置、设备及存储介质 | |
CN113268564B (zh) | 相似问题的生成方法、装置、设备及存储介质 | |
CN112002310A (zh) | 领域语言模型构建方法、装置、计算机设备及存储介质 | |
CN115186062A (zh) | 多模态预测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |