CN112989788A - 关系三元组的提取方法、装置、设备及介质 - Google Patents

关系三元组的提取方法、装置、设备及介质 Download PDF

Info

Publication number
CN112989788A
CN112989788A CN202110272414.XA CN202110272414A CN112989788A CN 112989788 A CN112989788 A CN 112989788A CN 202110272414 A CN202110272414 A CN 202110272414A CN 112989788 A CN112989788 A CN 112989788A
Authority
CN
China
Prior art keywords
entity
target
relation
probability sequence
position probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110272414.XA
Other languages
English (en)
Inventor
王健宗
吴天博
程宁
李泽远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110272414.XA priority Critical patent/CN112989788A/zh
Publication of CN112989788A publication Critical patent/CN112989788A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及人工智能技术领域,揭示了一种关系三元组的提取方法、装置、设备及介质,其中方法包括:获取待分析的文本数据;将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。从而实现了先通过所述目标关系三元组提取模型的编码模型确定所有实体,然后通过所述目标关系三元组提取模型的级联解码器确定所有实体在所有关系下可能的关系三元组,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。

Description

关系三元组的提取方法、装置、设备及介质
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种关系三元组的提取方法、装置、设备及介质。
背景技术
关系事实是知识图谱的重要组成部分,其中大部分由语义关系连接的两个实体组成。这些关系事实以(subject头主体、relation关系、object尾客体)的形式出现,被称为关系三元组。从自然语言文本中提取关系三元组是构建大规模知识图谱的关键步骤。
现有技术采用Seq2Seq模型和基于图卷积网络的GCNS模型提取关系三元组,没有很好的解决重叠实体的关系提取,导致提取到的关系三元组是不完整和不准确的。
发明内容
本申请的主要目的为提供一种关系三元组的提取方法、装置、设备及介质,旨在解决现有技术采用Seq2Seq模型和基于图卷积网络的GCNS模型提取关系三元组,没有很好的解决重叠实体的关系提取,导致提取到的关系三元组是不完整和不准确的技术问题。
为了实现上述发明目的,本申请提出一种关系三元组的提取方法,所述方法包括:
获取待分析的文本数据;
将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;
根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。
进一步的,所述将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组提取的步骤之前,还包括:
获取多个训练样本和预设关系集合,所述训练样本包括:文本样本数据、关系三元组标定数据;
从所述多个训练样本中提取一个所述训练样本作为目标训练样本;
将所述目标训练样本的所述文本样本数据输入待训练的关系三元组提取模型的所述编码模型进行编码,得到所述目标训练样本对应的目标文本编码向量;
通过所述待训练的关系三元组提取模型的所述级联解码器对所述目标文本编码向量的每个编码向量进行实体开始位置概率和实体结束位置概率的计算,得到所述目标训练样本对应的实体开始位置概率序列和实体结束位置概率序列;
通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标训练样本对应的所述实体开始位置概率序列和所述实体结束位置概率序列进行实体识别,得到所述目标训练样本对应的待分析的实体集合;
通过所述待训练的关系三元组提取模型的所述级联解码器,针对所述目标训练样本对应的所述待分析的实体集合中的每个实体,根据所述目标文本编码向量,计算每个所述实体在所述预设关系集合中的每个关系下的尾实体开始位置概率序列和尾实体结束位置概率序列,得到所述目标训练样本对应的各个实体各自对应的尾实体开始位置概率序列集合和尾实体结束位置概率序列集合;
将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入损失函数进行计算,得到所述待训练的关系三元组提取模型的损失值,根据所述损失值更新所述待训练的关系三元组提取模型的参数,更新后的所述待训练的关系三元组提取模型被用于下一次计算所述目标训练样本的所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合;
重复执行所述从所述多个训练样本中提取一个所述训练样本作为目标训练样本的步骤,直至所述损失值达到第一收敛条件或迭代次数达到第二收敛条件,将所述损失值达到第一收敛条件或迭代次数达到第二收敛条件的所述待训练的关系三元组提取模型,确定为所述目标关系三元组提取模型。
进一步的,所述通过所述待训练的关系三元组提取模型的所述级联解码器对所述目标文本编码向量的每个编码向量进行实体开始位置概率和实体结束位置概率的计算,得到所述目标训练样本对应的实体开始位置概率序列和实体结束位置概率序列的步骤,包括:
通过所述待训练的关系三元组提取模型的所述级联解码器,对所述目标文本编码向量的每个所述编码向量进行所述实体开始位置概率的计算,根据计算得到的所有所述实体开始位置概率得到所述目标训练样本对应的所述实体开始位置概率序列;
通过所述待训练的关系三元组提取模型的所述级联解码器,对所述目标文本编码向量的每个所述编码向量进行所述实体结束位置概率的计算,根据计算得到的所有所述实体结束位置概率得到所述目标训练样本对应的所述实体结束位置概率序列;
其中,所述实体开始位置概率Pi start_s和所述实体结束位置概率Pi end_s计算公式为:
Pi start_s=σ(Wstartxi+bstart)
Pi end_s=σ(Wendxi+bend)
Pi start_s是所述目标文本编码向量中第i个所述编码向量作为实体的开始位置的概率,Pi end_s是所述目标文本编码向量中第i个所述编码向量作为实体的结束位置的概率,xi所述目标文本编码向量中第i个所述编码向量,Wstart是第一权重,Wend是第二权重,bstart是第一偏移量,bend是第二偏移量,σ()是sigmoid激活函数。
进一步的,所述通过所述待训练的关系三元组提取模型的所述级联解码器,针对所述目标训练样本对应的所述待分析的实体集合中的每个实体,根据所述目标文本编码向量,计算每个所述实体在所述预设关系集合中的每个关系下的尾实体开始位置概率序列和尾实体结束位置概率序列,得到所述目标训练样本对应的各个实体各自对应的尾实体开始位置概率序列集合和尾实体结束位置概率序列集合的步骤,包括:
通过所述待训练的关系三元组提取模型的所述级联解码器从所述目标训练样本对应的所述待分析的实体集合中提取出一个实体,作为待评估的头实体;
根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列和所述尾实体结束位置概率序列,得到所述待评估的头实体对应的所述尾实体开始位置概率序列集合和所述尾实体结束位置概率序列集合;
通过所述待训练的关系三元组提取模型的所述级联解码器重复执行所述通过所述待训练的关系三元组提取模型的所述级联解码器从所述目标训练样本对应的所述待分析的实体集合中提取出一个实体,作为待评估的头实体的步骤,直至确定所述目标训练样本对应的所述待分析的实体集合中各个所述实体各自对应的所述尾实体开始位置概率序列集合和所述尾实体结束位置概率序列。
进一步的,所述根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列和所述尾实体结束位置概率序列,得到所述待评估的头实体对应的所述尾实体开始位置概率序列集合和所述尾实体结束位置概率序列集合的步骤,包括:
通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列,根据计算得到的所有所述尾实体开始位置概率序列得到所述待评估的头实体对应的所述尾实体开始位置概率序列集合;
通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体结束位置概率序列,根据计算得到的所有所述尾实体结束位置概率序列得到所述待评估的头实体对应的所述尾实体结束位置概率序列集合;
其中,所述尾实体开始位置概率序列和所述尾实体结束位置概率序列计算公式为:
Figure BDA0002974916180000051
Figure BDA0002974916180000052
Pi start_o是所述待评估的头实体在关系r(关系r是指所述预设关系集合中的关系)下的所述尾实体开始位置概率序列的第i个值,也就是所述目标文本编码向量中第i个所述编码向量在关系r下作为所述待评估的头实体的尾实体的开始位置的概率;Pi end_o是所述待评估的头实体在关系r下的所述尾实体结束位置概率序列的第i个值,是所述目标文本编码向量中第i个所述编码向量在关系r下作为所述待评估的头实体的尾实体的结束位置的概率,xi是所述目标文本编码向量中第i个所述编码向量,
Figure BDA0002974916180000053
是第三权重,
Figure BDA0002974916180000054
是第四权重,
Figure BDA0002974916180000055
是第三偏移量,
Figure BDA0002974916180000056
是第四偏移量,σ()是sigmoid激活函数,
Figure BDA0002974916180000057
是所述待评估的头实体在所述目标文本编码向量中的所有所述编码向量的平均值。
进一步的,所述将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入损失函数进行计算,得到所述待训练的关系三元组提取模型的损失值的步骤,包括:
将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入基于似然函数构建的所述损失函数进行计算,得到所述待训练的关系三元组提取模型的所述损失值;
所述损失函数的计算公式Jθ为:
Figure BDA0002974916180000058
其中,Pθ(s|x)是第一似然函数,
Figure BDA0002974916180000059
是尾实体为不为空时的第二似然函数;
Figure BDA00029749161800000510
是尾实体为空时的第二似然函数;|D|是所述多个训练样本中所述训练样本的数量,Tj是指所述目标训练样本对应的所述待分析的实体集合,Tj|s是以Tj中的实体s作为头实体,R\Tj|s是以Tj中的实体s作为头实体在所述预设关系集合R的所有关系下,log()是对数函数。
进一步的,所述Pθ(s|x)是第一似然函数,
Figure BDA00029749161800000511
是尾实体为不为空时的第二似然函数,具体计算公式为包括:
Figure BDA0002974916180000061
Figure BDA0002974916180000062
其中,其中,L是所述目标训练样本的所述文本样本数据的字符数量;z为ture时I(z)为1,否则I(z)为0,z代表自变量;
start_s是所述目标训练样本的所述实体开始位置概率序列,end_s是所述目标训练样本的所述实体结束位置概率序列,
Figure BDA0002974916180000063
中t属于start_s时
Figure BDA0002974916180000064
是所述目标训练样本的所述实体开始位置概率序列的第i个值,
Figure BDA0002974916180000065
中t属于end_s时
Figure BDA0002974916180000066
是所述目标训练样本的所述实体结束位置概率序列的第i个值,
Figure BDA0002974916180000067
中t属于start_s时
Figure BDA0002974916180000068
是指所述目标训练样本的所述关系三元组标定数据中实体开始位置标定数据的第i个值,
Figure BDA0002974916180000069
中t属于end_s时
Figure BDA00029749161800000610
是指所述目标训练样本的所述关系三元组标定数据中实体结束位置标定数据的第i个值;
start_o是所述目标训练样本的各个实体各自对应的所述尾实体开始位置概率序列集合,end_o是所述目标训练样本的各个实体各自对应的所述尾实体结束位置概率序列集合,
Figure BDA00029749161800000611
中t属于start_o时
Figure BDA00029749161800000612
是所述目标训练样本的第i个实体对应的所述尾实体开始位置概率序列集合,
Figure BDA00029749161800000613
中t属于end_o时
Figure BDA00029749161800000614
是所述目标训练样本的第i个实体对应的所述尾实体结束位置概率序列集合;
Figure BDA00029749161800000615
中t属于start_o时
Figure BDA00029749161800000616
是指所述目标训练样本的第i个实体在所述关系三元组标定数据中的尾实体开始位置概率序列标定数据,
Figure BDA00029749161800000617
中t属于end_o时
Figure BDA00029749161800000618
是指所述目标训练样本的第i个实体在所述关系三元组标定数据中的尾实体结束位置概率序列标定数据。
本申请还提出了一种关系三元组的提取装置,所述装置包括:
数据获取模块,用于获取待分析的文本数据;
关系三元组提取模块,用于将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;
目标关系三元组集合确定模块,用于根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。
本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的关系三元组的提取方法、装置、设备及介质,通过获取待分析的文本数据,将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型,根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合,从而实现了先通过所述目标关系三元组提取模型的编码模型确定所有实体,然后通过所述目标关系三元组提取模型的级联解码器确定所有实体在所有关系下可能的关系三元组,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。
附图说明
图1为本申请一实施例的关系三元组的提取方法的流程示意图;
图2为本申请一实施例的关系三元组的提取装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
为了解决现有技术采用Seq2Seq模型和基于图卷积网络的GCNS模型提取关系三元组,没有很好的解决重叠实体的关系提取,导致提取到的关系三元组是不完整和不准确的技术问题,本申请提出了一种关系三元组的提取方法,所述方法应用于人工智能技术领域。所述关系三元组的提取方法通过先基于编码模型、级联解码器训练得到的目标关系三元组提取模型,然后将文本数据输入目标关系三元组提取模型进行所有实体的预测、所有实体在所有关系下可能的关系三元组的提取,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。
参照图1,本申请实施例中提供一种关系三元组的提取方法,所述方法包括:
S1:获取待分析的文本数据;
S2:将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;
S3:根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。
本实施例通过获取待分析的文本数据,将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型,根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合,从而实现了先通过所述目标关系三元组提取模型的编码模型确定所有实体,然后通过所述目标关系三元组提取模型的级联解码器确定所有实体在所有关系下可能的关系三元组,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。
重叠实体,是指同一文本数据的关系三元组中的关系可能在头实体或尾实体上共享实体。比如,文本数据“李明患有韧带损伤,一种运动损失的常见病症”,李明与“韧带损伤”和“运动损伤”同时拥有“患有”的关系,所以关系三元组“李明(头实体),患有(关系),韧带损伤(尾实体)”和“李明(头实体),患有(关系),运动损伤(尾实体)”在关系“患有”下在头实体共享实体“李明”,也就是说,关系三元组“李明,患有,韧带损伤”和“李明,患有,运动损伤”存在重叠实体,在此举例不做具体限定。
对于S1,可以获取用户输入的待分析的文本数据,也可以从数据库中获取待分析的文本数据,还可以是第三方应用系统发送的待分析的文本数据。
待分析的文本数据,是需要提取关系三元组的文本数据。
对于S2,将所述待分析的文本数据输入目标关系三元组提取模型,通过目标关系三元组提取模型的编码模型进行实体预测,得到实体预测结果;然后通过目标关系三元组提取模型的级联解码器对实体预测结果中每个实体在所有关系(也就是基于编码模型、级联解码器训练得到的目标关系三元组提取模型时采用的预设关系集合中的所有关系)下所有可能的关系三元组的预测。
对于S3,从获取尾实体开始位置概率阈值和尾实体结束位置概率阈值;获取所述目标关系三元组提取模型输出的关系三元组预测结果;从关系三元组预测结果的实体预测结果中获取一个实体作为目标实体;从所有关系(也就是基于编码模型、级联解码器训练得到的目标关系三元组提取模型时采用的预设关系集合中的所有关系)中获取一种关系作为目标关系;从关系三元组预测结果中获取目标实体在目标关系下的尾实体开始位置预测概率序列和尾实体结束位置预测概率序列;从目标实体在目标关系下的尾实体开始位置预测概率序列中找出大于尾实体开始位置概率阈值的值,将找出的值对应的待分析的文本数据中的字符作为目标实体在目标关系下的尾实体开始位置字符;从目标实体在目标关系下的尾实体结束位置预测概率序列中找出大于尾实体结束位置概率阈值的值,将找出的值对应的待分析的文本数据中的字符作为目标实体在目标关系下的尾实体结束位置字符;根据目标实体在目标关系下的尾实体开始位置字符、目标实体在目标关系下的尾实体结束位置字符从待分析的文本数据中确定目标实体在目标关系下的所有尾实体;分别将目标实体、目标关系、目标实体在目标关系下的每个尾实体作为一个关系三元组;重复执行所述从所有关系中获取一种关系作为目标关系的步骤,直至确定所述目标实体在预设关系集合中的所有关系下的关系三元组;重复执行所述从关系三元组预测结果的实体预测结果中获取一个实体作为目标实体的步骤,直至确定所述待分析的文本数据的所有关系三元组;将所述待分析的文本数据的所有关系三元组作为所述待分析的文本数据对应的目标关系三元组集合。
可以理解的是,在另一个实施例中,也可以将步骤S3实现为所述目标关系三元组提取模型的输出层,在此不做限定。
在一个实施例中,上述将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组提取的步骤之前,还包括:
S21:获取多个训练样本和预设关系集合,所述训练样本包括:文本样本数据、关系三元组标定数据;
S22:从所述多个训练样本中提取一个所述训练样本作为目标训练样本;
S23:将所述目标训练样本的所述文本样本数据输入待训练的关系三元组提取模型的所述编码模型进行编码,得到所述目标训练样本对应的目标文本编码向量;
S24:通过所述待训练的关系三元组提取模型的所述级联解码器对所述目标文本编码向量的每个编码向量进行实体开始位置概率和实体结束位置概率的计算,得到所述目标训练样本对应的实体开始位置概率序列和实体结束位置概率序列;
S25:通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标训练样本对应的所述实体开始位置概率序列和所述实体结束位置概率序列进行实体识别,得到所述目标训练样本对应的待分析的实体集合;
S26:通过所述待训练的关系三元组提取模型的所述级联解码器,针对所述目标训练样本对应的所述待分析的实体集合中的每个实体,根据所述目标文本编码向量,计算每个所述实体在所述预设关系集合中的每个关系下的尾实体开始位置概率序列和尾实体结束位置概率序列,得到所述目标训练样本对应的各个实体各自对应的尾实体开始位置概率序列集合和尾实体结束位置概率序列集合;
S27:将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入损失函数进行计算,得到所述待训练的关系三元组提取模型的损失值,根据所述损失值更新所述待训练的关系三元组提取模型的参数,更新后的所述待训练的关系三元组提取模型被用于下一次计算所述目标训练样本的所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合;
S28:重复执行所述从所述多个训练样本中提取一个所述训练样本作为目标训练样本的步骤,直至所述损失值达到第一收敛条件或迭代次数达到第二收敛条件,将所述损失值达到第一收敛条件或迭代次数达到第二收敛条件的所述待训练的关系三元组提取模型,确定为所述目标关系三元组提取模型。
本实施例实现了基于编码模型、级联解码器训练得到目标关系三元组提取模型,从而实现了先通过所述目标关系三元组提取模型的编码模型确定所有实体,然后通过所述目标关系三元组提取模型的级联解码器确定所有实体在所有关系下可能的关系三元组,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。
对于S21,可以获取用户输入的多个训练样本,也可以从数据库中获取多个训练样本,还可以是第三方应用系统发送的多个训练样本。
可以获取用户输入的预设关系集合,也可以从数据库中获取预设关系集合,还可以是第三方应用系统发送的预设关系集合。
每个所述训练样本包括一个文本样本数据和一个关系三元组标定数据。
在同一个所述训练样本中,关系三元组标定数据是对文本样本数据的标定数据。
文本样本数据,是一段文本数据。
关系三元组标定数据包括:实体标定数据、在预设关系集合中各个关系下实体标定数据中各个实体各自对应的尾实体开始位置概率序列标定数据、在预设关系集合中各个关系下实体标定数据中各个实体各自对应的尾实体结束位置概率序列标定数据。尾实体开始位置概率序列标定数据中的值是二进制标签。尾实体结束位置概率序列标定数据中的值是二进制标签。
实体标定数据包括:实体开始位置标定数据、实体结束位置标定数据。实体开始位置标定数据中的值是二进制标签。实体结束位置标定数据中的值是二进制标签。二进制标签包括:0、1。
对于S22,依次从所述多个训练样本中提取一个所述训练样本,将提取的所述训练样本作为目标训练样本。
对于S23,所述编码模型可以采用Bert模型(预训练语言模型),也可以采用LSTM模型(长短期记忆模型)。
将所述目标训练样本的所述文本样本数据输入待训练的关系三元组提取模型的所述编码模型进行每个字的编码,获取待训练的关系三元组提取模型的所述编码模型输出的编码向量,将得到的编码向量作为所述目标训练样本对应的目标文本编码向量。
对于S24,通过所述待训练的关系三元组提取模型的所述级联解码器的底层标注模块分别对所述目标文本编码向量中的每个编码向量进行实体开始位置概率,将计算的所有实体开始位置概率作为所述目标训练样本的文本样本数据对应的实体开始位置概率序列;通过所述待训练的关系三元组提取模型的所述级联解码器分别对所述目标文本编码向量的每个编码向量进行实体结束位置概率的计算,将计算的所有实体结束位置概率作为所述目标训练样本是文本样本数据对应的实体结束位置概率序列。
对于S25,通过所述待训练的关系三元组提取模型的所述级联解码器的底层标注模块,采用第一二进制分类器和实体开始位置概率阈值对所述目标训练样本对应的所述实体开始位置概率序列分配二进制标签,得到所述目标训练样本对应的实体开始位置二进制标签,采用第二二进制分类器和实体结束位置概率阈值对所述目标训练样本对应的所述实体结束位置概率序列分配二进制标签,得到所述目标训练样本对应的实体结束位置二进制标签序列;采用最接近的起始和结束对匹配原则根据所述目标训练样本对应的所述实体开始位置二进制标签序列和所述实体结束位置二进制标签序列进行实体识别,将识别得到的所有实体作为所述目标训练样本对应的待分析的实体集合。
其中,采用第一二进制分类器将所述目标训练样本对应的所述实体开始位置概率序列中大于实体开始位置概率阈值的值对应的所述目标训练样本对应的实体开始位置二进制标签序列赋值为1,将所述目标训练样本对应的所述实体开始位置概率序列中小于或等于实体开始位置概率阈值的值对应的所述目标训练样本对应的实体开始位置二进制标签序列赋值为第二标签。比如,所述实体开始位置概率序列的第一个值和第三个值大于实体开始位置概率阈值,则将所述目标训练样本对应的实体开始位置二进制标签序列第一个位置和第三个位置的值确定为第一标签,在此举例不做具体限定。
其中,采用第二二进制分类器将所述目标训练样本对应的所述实体结束位置概率序列中大于实体结束位置概率阈值的值对应的所述目标训练样本对应的实体结束位置二进制标签序列赋值为第一标签,将所述目标训练样本对应的所述实体结束位置概率序列中小于或等于实体结束位置概率阈值的值对应的所述目标训练样本对应的实体结束位置二进制标签序列赋值为第二标签。
采用最接近的起始和结束对匹配原则,比如,将所述目标训练样本的所述文本样本数据为“ABCDEFGH”,所述目标训练样本对应的所述实体开始位置二进制标签序列为[10001000],所述目标训练样本对应的所述实体结束位置二进制标签序列[00100100],将[10001000]的第一个1和[00100100]第一个1作为最接近的起始和结束对,将[10001000]的第二个1和[00100100]第二个1作为最接近的起始和结束对,[10001000]的第一个1和[00100100]第一个1匹配得到实体“ABC”,[10001000]的第二个1和[00100100]第二个1匹配得到实体“EF”,在此举例不做具体限定。
对于S26,通过所述待训练的关系三元组提取模型的所述级联解码器,假设所述目标训练样本对应的所述待分析的实体集合中每个实体是头实体,然后将每个假设的头实体在所述预设关系集合中的每个关系下根据所述目标文本编码向量进行尾实体开始位置概率序列和尾实体结束位置概率序列的计算。也就是说,所述目标训练样本对应的每个实体各自对应的尾实体开始位置概率序列集合是该实体在所述预设关系集合中的各个关系下的尾实体开始位置概率序列的集合,所述目标训练样本对应的每个实体各自对应的尾实体结束位置概率序列集合是该实体在所述预设关系集合中的各个关系下的尾实体结束位置概率序列的集合。
对于S27,将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入损失函数进行计算,将计算结果作为所述待训练的关系三元组提取模型的损失值。
根据所述损失值更新所述待训练的关系三元组提取模型的参数的方法可以从现有技术中选择,在此不做赘述。
对于S28,重复执行步骤S22至步骤S28,直至所述损失值达到第一收敛条件或迭代次数达到第二收敛条件。
所述第一收敛条件是指相邻两次计算的所述损失值的大小满足lipschitz条件(利普希茨连续条件)。
所述迭代次数达到第二收敛条件是指所述待训练的关系三元组提取模型被用于计算所述目标训练样本的所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合的次数,也就是说,计算一次,迭代次数增加1。
在一个实施例中,上述通过所述待训练的关系三元组提取模型的所述级联解码器对所述目标文本编码向量的每个编码向量进行实体开始位置概率和实体结束位置概率的计算,得到所述目标训练样本对应的实体开始位置概率序列和实体结束位置概率序列的步骤,包括:
S241:通过所述待训练的关系三元组提取模型的所述级联解码器,对所述目标文本编码向量的每个所述编码向量进行所述实体开始位置概率的计算,根据计算得到的所有所述实体开始位置概率得到所述目标训练样本对应的所述实体开始位置概率序列;
S242:通过所述待训练的关系三元组提取模型的所述级联解码器,对所述目标文本编码向量的每个所述编码向量进行所述实体结束位置概率的计算,根据计算得到的所有所述实体结束位置概率得到所述目标训练样本对应的所述实体结束位置概率序列;
其中,所述实体开始位置概率Pi start_s和所述实体结束位置概率Pi end_s计算公式为:
Pi start_s=σ(Wstartxi+bstart)
Pi end_s=σ(Wendxi+bend)
Pi start_s是所述目标文本编码向量中第i个所述编码向量作为实体的开始位置的概率,Pi end_s是所述目标文本编码向量中第i个所述编码向量作为实体的结束位置的概率,xi所述目标文本编码向量中第i个所述编码向量,Wstart是第一权重,Wend是第二权重,bstart是第一偏移量,bend是第二偏移量,σ()是sigmoid激活函数。
本实施例对所述目标文本编码向量的每个编码向量进行实体开始位置概率和实体结束位置概率的计算,为确定所述目标训练样本对应的待分析的实体集合提供了基础。
对于S241,通过所述待训练的关系三元组提取模型的所述级联解码器分别对所述目标文本编码向量的每个所述编码向量进行所述实体开始位置概率的计算,将计算得到的所有所述实体开始位置概率按所述编码向量在所述目标文本编码向量中的位置数据组成序列,将组成的序列作为所述目标训练样本对应的所述实体开始位置概率序列。比如,所述目标训练样本对应的所述实体开始位置概率序列中第5个实体开始位置概率表述所述目标文本编码向量中第5个所述编码向量是实体的开始位置的概率,在此举例不做具体限定。
所述实体开始位置概率,是指归属实体的开始位置的概率。
对于S242,通过所述待训练的关系三元组提取模型的所述级联解码器分别对所述目标文本编码向量的每个所述编码向量进行所述实体结束位置概率的计算,将计算得到的所有所述实体结束位置概率按所述编码向量在所述目标文本编码向量中的顺序组成序列,将组成的序列作为所述目标训练样本对应的所述实体结束位置概率序列。
所述实体结束位置概率,是指归属实体的结束位置的概率。
在一个实施例中,上述通过所述待训练的关系三元组提取模型的所述级联解码器,针对所述目标训练样本对应的所述待分析的实体集合中的每个实体,根据所述目标文本编码向量,计算每个所述实体在所述预设关系集合中的每个关系下的尾实体开始位置概率序列和尾实体结束位置概率序列,得到所述目标训练样本对应的各个实体各自对应的尾实体开始位置概率序列集合和尾实体结束位置概率序列集合的步骤,包括:
S261:通过所述待训练的关系三元组提取模型的所述级联解码器从所述目标训练样本对应的所述待分析的实体集合中提取出一个实体,作为待评估的头实体;
S262:根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列和所述尾实体结束位置概率序列,得到所述待评估的头实体对应的所述尾实体开始位置概率序列集合和所述尾实体结束位置概率序列集合;
S263:通过所述待训练的关系三元组提取模型的所述级联解码器重复执行所述通过所述待训练的关系三元组提取模型的所述级联解码器从所述目标训练样本对应的所述待分析的实体集合中提取出一个实体,作为待评估的头实体的步骤,直至确定所述目标训练样本对应的所述待分析的实体集合中各个所述实体各自对应的所述尾实体开始位置概率序列集合和所述尾实体结束位置概率序列。
本实施例采用所述目标训练样本对应的所述待分析的实体集合根据所述预设关系集合和所述目标文本编码向量进行每个实体在每个关系下的尾实体开始位置概率序列和尾实体结束位置概率序列的计算,从而实现了假设所述目标训练样本对应的所述待分析的实体集合中每个实体是头实体,然后将每个假设的头实体在所述预设关系集合中的每个关系下根据所述目标文本编码向量进行尾实体开始位置概率序列和尾实体结束位置概率序列的计算,有利于找出所述目标训练样本对应的所述待分析的实体集合中的所有实体在所述预设关系集合中的所有关系下所有可能的关系三元组,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。
对于S261,通过所述待训练的关系三元组提取模型的所述级联解码器依次从所述目标训练样本对应的所述待分析的实体集合中提取出一个实体,将提取出的实体假设为头实体,将假设的头实体作为待评估的头实体。
对于S262,通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列,得到所述待评估的头实体对应的所述尾实体开始位置概率序列集合;通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体结束位置概率序列,得到所述待评估的头实体对应的所述尾实体结束位置概率序列集合。也就是说,每个所述尾实体开始位置概率序列值包括一种关系下所述待评估的头实体对应的尾实体开始位置概率。每个所述尾实体结束位置概率序列包括一种关系下所述待评估的头实体对应的尾实体结束位置概率。
对于S263,通过所述待训练的关系三元组提取模型的所述级联解码器重复执行步骤S261至步骤S263,直至确定所述目标训练样本对应的所述待分析的实体集合中各个所述实体各自对应的所述尾实体开始位置概率序列集合和所述尾实体结束位置概率序列。
在一个实施例中,上述根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列和所述尾实体结束位置概率序列,得到所述待评估的头实体对应的所述尾实体开始位置概率序列集合和所述尾实体结束位置概率序列集合的步骤,包括:
S2621:通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列,根据计算得到的所有所述尾实体开始位置概率序列得到所述待评估的头实体对应的所述尾实体开始位置概率序列集合;
S2622:通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体结束位置概率序列,根据计算得到的所有所述尾实体结束位置概率序列得到所述待评估的头实体对应的所述尾实体结束位置概率序列集合;
其中,所述尾实体开始位置概率序列和所述尾实体结束位置概率序列计算公式为:
Figure BDA0002974916180000171
Figure BDA0002974916180000172
Pi start_o是所述待评估的头实体在关系r(关系r是指所述预设关系集合中的关系)下的所述尾实体开始位置概率序列的第i个值,也就是所述目标文本编码向量中第i个所述编码向量在关系r下作为所述待评估的头实体的尾实体的开始位置的概率;Pi end_o是所述待评估的头实体在关系r下的所述尾实体结束位置概率序列的第i个值,是所述目标文本编码向量中第i个所述编码向量在关系r下作为所述待评估的头实体的尾实体的结束位置的概率,xi是所述目标文本编码向量中第i个所述编码向量,
Figure BDA0002974916180000173
是第三权重,
Figure BDA0002974916180000174
是第四权重,
Figure BDA0002974916180000175
是第三偏移量,
Figure BDA0002974916180000176
是第四偏移量,σ()是sigmoid激活函数,
Figure BDA0002974916180000177
是所述待评估的头实体在所述目标文本编码向量中的所有所述编码向量的平均值。
本实施例采用所述预设关系集合中的每个关系根据所述目标文本编码向量进行所述待评估的头实体对应的所述尾实体开始位置概率序列和所述尾实体结束位置概率序列的计算,从而有利于找出所述目标训练样本对应的所述待分析的实体集合中的所有实体在所述预设关系集合中的所有关系下所有可能的关系三元组,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。
对于S2621,通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列,将计算得到的所有所述尾实体开始位置概率序列按所述编码向量在所述目标文本编码向量中的位置数据组成序列,将组成的序列作为所述待评估的头实体对应的所述尾实体开始位置概率序列集合。比如,所述待评估的头实体对应的所述尾实体开始位置概率序列集合中第3个所述尾实体开始位置概率序列表述所述目标文本编码向量中第3个所述编码向量是所述待评估的头实体的尾实体的开始位置的概率,在此举例不做具体限定。
所述尾实体开始位置概率序列,是指归属所述待评估的头实体在关系r下的尾实体的开始位置的概率的序列。所述尾实体开始位置概率序列中的值的数量与所述目标训练样本的所述文本样本数据的字符数量相同。
对于S2622,通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体结束位置概率序列,将计算得到的所有所述尾实体结束位置概率序列按所述编码向量在所述目标文本编码向量中的位置数据组成序列,将组成的序列作为所述待评估的头实体对应的所述尾实体结束位置概率序列集合。
所述尾实体结束位置概率序列,是指归属所述待评估的头实体在关系r下的尾实体的结束位置的概率的序列。所述尾实体结束位置概率序列中的值的数量与所述目标训练样本的所述文本样本数据的字符数量相同。
在一个实施例中,上述将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入损失函数进行计算,得到所述待训练的关系三元组提取模型的损失值的步骤,包括:
将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入基于似然函数构建的所述损失函数进行计算,得到所述待训练的关系三元组提取模型的所述损失值;
所述损失函数的计算公式Jθ为:
Figure BDA0002974916180000191
其中,Pθ(s|x)是第一似然函数,
Figure BDA0002974916180000192
是尾实体为不为空时的第二似然函数;
Figure BDA0002974916180000193
是尾实体为空时的第二似然函数;|D|是所述多个训练样本中所述训练样本的数量,Tj是指所述目标训练样本对应的所述待分析的实体集合,Tj|s是以Tj中的实体s作为头实体,R\Tj|s是以Tj中的实体s作为头实体在所述预设关系集合R的所有关系下,log()是对数函数。
本实施例实现了计算所述待训练的关系三元组提取模型的所述损失值,为更新所述待训练的关系三元组提取模型的参数提供了数据基础。
Figure BDA0002974916180000194
也就是对于所述目标训练样本对应的目标文本编码向量,实体s在关系r下存在尾实体时的第二似然函数。
Figure BDA0002974916180000195
也就是对于所述目标训练样本对应的目标文本编码向量,实体s在关系r下不存在尾实体时的第二似然函数。
在一个实施例中,上述Pθ(s|x)是第一似然函数,
Figure BDA0002974916180000196
是尾实体为不为空时的第二似然函数,具体计算公式为包括:
Figure BDA0002974916180000197
Figure BDA0002974916180000198
其中,其中,L是所述目标训练样本的所述文本样本数据的字符数量;z为ture时I(z)为1,否则I(z)为0,z代表自变量;
start_s是所述目标训练样本的所述实体开始位置概率序列,end_s是所述目标训练样本的所述实体结束位置概率序列,
Figure BDA0002974916180000199
中t属于start_s时
Figure BDA00029749161800001910
是所述目标训练样本的所述实体开始位置概率序列的第i个值,
Figure BDA0002974916180000201
中t属于end_s时
Figure BDA0002974916180000202
是所述目标训练样本的所述实体结束位置概率序列的第i个值,
Figure BDA0002974916180000203
中t属于start_s时
Figure BDA0002974916180000204
是指所述目标训练样本的所述关系三元组标定数据中实体开始位置标定数据的第i个值,
Figure BDA0002974916180000205
中t属于end_s时
Figure BDA0002974916180000206
是指所述目标训练样本的所述关系三元组标定数据中实体结束位置标定数据的第i个值;
start_o是所述目标训练样本的各个实体各自对应的所述尾实体开始位置概率序列集合,end_o是所述目标训练样本的各个实体各自对应的所述尾实体结束位置概率序列集合,
Figure BDA0002974916180000207
中t属于start_o时
Figure BDA0002974916180000208
是所述目标训练样本的第i个实体对应的所述尾实体开始位置概率序列集合,
Figure BDA0002974916180000209
中t属于end_o时
Figure BDA00029749161800002010
是所述目标训练样本的第i个实体对应的所述尾实体结束位置概率序列集合;
Figure BDA00029749161800002011
中t属于start_o时
Figure BDA00029749161800002012
是指所述目标训练样本的第i个实体在所述关系三元组标定数据中的尾实体开始位置概率序列标定数据,
Figure BDA00029749161800002013
中t属于end_o时
Figure BDA00029749161800002014
是指所述目标训练样本的第i个实体在所述关系三元组标定数据中的尾实体结束位置概率序列标定数据。
本实施例实现了根据所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合计算损失函数的第一似然函数和尾实体为不为空时的第二似然函数,为更新所述待训练的关系三元组提取模型的参数提供了数据基础。
可以理解的是,s是头实体,o是尾实体,r是关系。
可以理解的是,
Figure BDA00029749161800002015
是尾实体为空时的第二似然函数的公式与尾实体为不为空时的第二似然函数的公式相同,取值范围不同。
Figure BDA00029749161800002016
其中,当尾实体为空时,
Figure BDA00029749161800002017
中的
Figure BDA00029749161800002018
参照图2,本申请还提出了一种关系三元组的提取装置,所述装置包括:
数据获取模块100,用于获取待分析的文本数据;
关系三元组提取模块200,用于将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;
目标关系三元组集合确定模块300,用于根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。
本实施例通过获取待分析的文本数据,将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型,根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合,从而实现了先通过所述目标关系三元组提取模型的编码模型确定所有实体,然后通过所述目标关系三元组提取模型的级联解码器确定所有实体在所有关系下可能的关系三元组,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存关系三元组的提取方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种关系三元组的提取方法。所述关系三元组的提取方法,包括:获取待分析的文本数据;将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。
本实施例通过获取待分析的文本数据,将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型,根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合,从而实现了先通过所述目标关系三元组提取模型的编码模型确定所有实体,然后通过所述目标关系三元组提取模型的级联解码器确定所有实体在所有关系下可能的关系三元组,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种关系三元组的提取方法,包括步骤:获取待分析的文本数据;将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。
上述执行的关系三元组的提取方法,通过获取待分析的文本数据,将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型,根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合,从而实现了先通过所述目标关系三元组提取模型的编码模型确定所有实体,然后通过所述目标关系三元组提取模型的级联解码器确定所有实体在所有关系下可能的关系三元组,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种关系三元组的提取方法,其特征在于,所述方法包括:
获取待分析的文本数据;
将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;
根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。
2.根据权利要求1所述的关系三元组的提取方法,其特征在于,所述将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组提取的步骤之前,还包括:
获取多个训练样本和预设关系集合,所述训练样本包括:文本样本数据、关系三元组标定数据;
从所述多个训练样本中提取一个所述训练样本作为目标训练样本;
将所述目标训练样本的所述文本样本数据输入待训练的关系三元组提取模型的所述编码模型进行编码,得到所述目标训练样本对应的目标文本编码向量;
通过所述待训练的关系三元组提取模型的所述级联解码器对所述目标文本编码向量的每个编码向量进行实体开始位置概率和实体结束位置概率的计算,得到所述目标训练样本对应的实体开始位置概率序列和实体结束位置概率序列;
通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标训练样本对应的所述实体开始位置概率序列和所述实体结束位置概率序列进行实体识别,得到所述目标训练样本对应的待分析的实体集合;
通过所述待训练的关系三元组提取模型的所述级联解码器,针对所述目标训练样本对应的所述待分析的实体集合中的每个实体,根据所述目标文本编码向量,计算每个所述实体在所述预设关系集合中的每个关系下的尾实体开始位置概率序列和尾实体结束位置概率序列,得到所述目标训练样本对应的各个实体各自对应的尾实体开始位置概率序列集合和尾实体结束位置概率序列集合;
将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入损失函数进行计算,得到所述待训练的关系三元组提取模型的损失值,根据所述损失值更新所述待训练的关系三元组提取模型的参数,更新后的所述待训练的关系三元组提取模型被用于下一次计算所述目标训练样本的所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合;
重复执行所述从所述多个训练样本中提取一个所述训练样本作为目标训练样本的步骤,直至所述损失值达到第一收敛条件或迭代次数达到第二收敛条件,将所述损失值达到第一收敛条件或迭代次数达到第二收敛条件的所述待训练的关系三元组提取模型,确定为所述目标关系三元组提取模型。
3.根据权利要求2所述的关系三元组的提取方法,其特征在于,所述通过所述待训练的关系三元组提取模型的所述级联解码器对所述目标文本编码向量的每个编码向量进行实体开始位置概率和实体结束位置概率的计算,得到所述目标训练样本对应的实体开始位置概率序列和实体结束位置概率序列的步骤,包括:
通过所述待训练的关系三元组提取模型的所述级联解码器,对所述目标文本编码向量的每个所述编码向量进行所述实体开始位置概率的计算,根据计算得到的所有所述实体开始位置概率得到所述目标训练样本对应的所述实体开始位置概率序列;
通过所述待训练的关系三元组提取模型的所述级联解码器,对所述目标文本编码向量的每个所述编码向量进行所述实体结束位置概率的计算,根据计算得到的所有所述实体结束位置概率得到所述目标训练样本对应的所述实体结束位置概率序列;
其中,所述实体开始位置概率Pi start_s和所述实体结束位置概率Pi end_s计算公式为:
Pi start_s=σ(Wstartxi+bstart)
Pi end_s=σ(Wendxi+bend)
Pi start_s是所述目标文本编码向量中第i个所述编码向量作为实体的开始位置的概率,Pi end_s是所述目标文本编码向量中第i个所述编码向量作为实体的结束位置的概率,xi所述目标文本编码向量中第i个所述编码向量,Wstart是第一权重,Wend是第二权重,bstart是第一偏移量,bend是第二偏移量,σ()是sigmoid激活函数。
4.根据权利要求2所述的关系三元组的提取方法,其特征在于,所述通过所述待训练的关系三元组提取模型的所述级联解码器,针对所述目标训练样本对应的所述待分析的实体集合中的每个实体,根据所述目标文本编码向量,计算每个所述实体在所述预设关系集合中的每个关系下的尾实体开始位置概率序列和尾实体结束位置概率序列,得到所述目标训练样本对应的各个实体各自对应的尾实体开始位置概率序列集合和尾实体结束位置概率序列集合的步骤,包括:
通过所述待训练的关系三元组提取模型的所述级联解码器从所述目标训练样本对应的所述待分析的实体集合中提取出一个实体,作为待评估的头实体;
根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列和所述尾实体结束位置概率序列,得到所述待评估的头实体对应的所述尾实体开始位置概率序列集合和所述尾实体结束位置概率序列集合;
通过所述待训练的关系三元组提取模型的所述级联解码器,重复执行所述通过所述待训练的关系三元组提取模型的所述级联解码器从所述目标训练样本对应的所述待分析的实体集合中提取出一个实体,作为待评估的头实体的步骤,直至确定所述目标训练样本对应的所述待分析的实体集合中各个所述实体各自对应的所述尾实体开始位置概率序列集合和所述尾实体结束位置概率序列。
5.根据权利要求4所述的关系三元组的提取方法,其特征在于,所述根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列和所述尾实体结束位置概率序列,得到所述待评估的头实体对应的所述尾实体开始位置概率序列集合和所述尾实体结束位置概率序列集合的步骤,包括:
通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体开始位置概率序列,根据计算得到的所有所述尾实体开始位置概率序列得到所述待评估的头实体对应的所述尾实体开始位置概率序列集合;
通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标文本编码向量,分别计算所述待评估的头实体在所述预设关系集合中的每个关系下的所述尾实体结束位置概率序列,根据计算得到的所有所述尾实体结束位置概率序列得到所述待评估的头实体对应的所述尾实体结束位置概率序列集合;
其中,所述尾实体开始位置概率序列和所述尾实体结束位置概率序列计算公式为:
Figure FDA0002974916170000041
Figure FDA0002974916170000042
Pi start_o是所述待评估的头实体在关系r(关系r是指所述预设关系集合中的关系)下的所述尾实体开始位置概率序列的第i个值,也就是所述目标文本编码向量中第i个所述编码向量在关系r下作为所述待评估的头实体的尾实体的开始位置的概率;Pi end_o是所述待评估的头实体在关系r下的所述尾实体结束位置概率序列的第i个值,是所述目标文本编码向量中第i个所述编码向量在关系r下作为所述待评估的头实体的尾实体的结束位置的概率,xi是所述目标文本编码向量中第i个所述编码向量,
Figure FDA0002974916170000043
是第三权重,
Figure FDA0002974916170000044
是第四权重,
Figure FDA0002974916170000045
是第三偏移量,
Figure FDA0002974916170000046
是第四偏移量,σ()是sigmoid激活函数,
Figure FDA0002974916170000047
是所述待评估的头实体在所述目标文本编码向量中的所有所述编码向量的平均值。
6.根据权利要求2所述的关系三元组的提取方法,其特征在于,所述将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入损失函数进行计算,得到所述待训练的关系三元组提取模型的损失值的步骤,包括:
将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入基于似然函数构建的所述损失函数进行计算,得到所述待训练的关系三元组提取模型的所述损失值;
所述损失函数的计算公式Jθ为:
Figure FDA0002974916170000051
其中,Pθ(s|x)是第一似然函数,
Figure FDA0002974916170000052
是尾实体为不为空时的第二似然函数;
Figure FDA0002974916170000053
是尾实体为空时的第二似然函数;|D|是所述多个训练样本中所述训练样本的数量,Tj是指所述目标训练样本对应的所述待分析的实体集合,Tj|s是以Tj中的实体s作为头实体,R\Tj|s是以Tj中的实体s作为头实体在所述预设关系集合R的所有关系下,log()是对数函数。
7.根据权利要求6所述的关系三元组的提取方法,其特征在于,所述Pθ(s|x)是第一似然函数,
Figure FDA0002974916170000054
是尾实体为不为空时的第二似然函数,具体计算公式为包括:
Figure FDA0002974916170000055
Figure FDA0002974916170000056
其中,L是所述目标训练样本的所述文本样本数据的字符数量;z为ture时I(z)为1,否则I(z)为0,z代表自变量;
start_s是所述目标训练样本的所述实体开始位置概率序列,end_s是所述目标训练样本的所述实体结束位置概率序列,
Figure FDA0002974916170000057
中t属于start_s时
Figure FDA0002974916170000058
是所述目标训练样本的所述实体开始位置概率序列的第i个值,
Figure FDA0002974916170000059
中t属于end_s时
Figure FDA00029749161700000510
是所述目标训练样本的所述实体结束位置概率序列的第i个值,
Figure FDA00029749161700000511
中t属于start_s时
Figure FDA00029749161700000512
是指所述目标训练样本的所述关系三元组标定数据中实体开始位置标定数据的第i个值,
Figure FDA00029749161700000513
中t属于end_s时
Figure FDA00029749161700000514
是指所述目标训练样本的所述关系三元组标定数据中实体结束位置标定数据的第i个值;
start_o是所述目标训练样本的各个实体各自对应的所述尾实体开始位置概率序列集合,end_o是所述目标训练样本的各个实体各自对应的所述尾实体结束位置概率序列集合,
Figure FDA0002974916170000061
中t属于start_o时
Figure FDA0002974916170000062
是所述目标训练样本的第i个实体对应的所述尾实体开始位置概率序列集合,
Figure FDA0002974916170000063
中t属于end_o时
Figure FDA0002974916170000064
是所述目标训练样本的第i个实体对应的所述尾实体结束位置概率序列集合;
Figure FDA0002974916170000065
中t属于start_o时
Figure FDA0002974916170000066
是指所述目标训练样本的第i个实体在所述关系三元组标定数据中的尾实体开始位置概率序列标定数据,
Figure FDA0002974916170000067
中t属于end_o时
Figure FDA0002974916170000068
是指所述目标训练样本的第i个实体在所述关系三元组标定数据中的尾实体结束位置概率序列标定数据。
8.一种关系三元组的提取装置,其特征在于,所述装置包括:
数据获取模块,用于获取待分析的文本数据;
关系三元组提取模块,用于将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;
目标关系三元组集合确定模块,用于根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202110272414.XA 2021-03-12 2021-03-12 关系三元组的提取方法、装置、设备及介质 Pending CN112989788A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110272414.XA CN112989788A (zh) 2021-03-12 2021-03-12 关系三元组的提取方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110272414.XA CN112989788A (zh) 2021-03-12 2021-03-12 关系三元组的提取方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN112989788A true CN112989788A (zh) 2021-06-18

Family

ID=76335390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110272414.XA Pending CN112989788A (zh) 2021-03-12 2021-03-12 关系三元组的提取方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112989788A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114899A (zh) * 2022-06-27 2022-09-27 浙江数创未来科技有限公司 文本解析方法、系统及电子设备
CN117097442A (zh) * 2023-10-19 2023-11-21 深圳大普微电子股份有限公司 一种数据解码方法、系统、设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476023A (zh) * 2020-05-22 2020-07-31 北京明朝万达科技股份有限公司 识别实体关系的方法及装置
CN111666427A (zh) * 2020-06-12 2020-09-15 长沙理工大学 一种实体关系联合抽取方法、装置、设备及介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476023A (zh) * 2020-05-22 2020-07-31 北京明朝万达科技股份有限公司 识别实体关系的方法及装置
CN111666427A (zh) * 2020-06-12 2020-09-15 长沙理工大学 一种实体关系联合抽取方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHEPEI WEI ET AL.: "A Novel Cascade Binary Tagging Framework for Relational Triple Extraction", 《ARXIV:1909.03227V4》, pages 1 - 13 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114899A (zh) * 2022-06-27 2022-09-27 浙江数创未来科技有限公司 文本解析方法、系统及电子设备
CN117097442A (zh) * 2023-10-19 2023-11-21 深圳大普微电子股份有限公司 一种数据解码方法、系统、设备及计算机可读存储介质
CN117097442B (zh) * 2023-10-19 2024-01-16 深圳大普微电子股份有限公司 一种数据解码方法、系统、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN112380840B (zh) 文本纠错方法、装置、设备及介质
CN109446514B (zh) 新闻实体识别模型的构建方法、装置和计算机设备
CN110704588A (zh) 基于长短期记忆网络的多轮对话语义分析方法和系统
CN111832294B (zh) 标注数据的选择方法、装置、计算机设备和存储介质
EP3499384A1 (en) Word and sentence embeddings for sentence classification
CN110688853B (zh) 序列标注方法、装置、计算机设备和存储介质
CN109977394B (zh) 文本模型训练方法、文本分析方法、装置、设备及介质
CN112989788A (zh) 关系三元组的提取方法、装置、设备及介质
CN113673698A (zh) 适用于bert模型的蒸馏方法、装置、设备及存储介质
CN114026556A (zh) 义素预测方法、计算机设备和存储介质背景
CN109710921B (zh) 词语相似度的计算方法、装置、计算机设备及存储介质
CN115170934A (zh) 一种图像分割方法、系统、设备及存储介质
CN113792682A (zh) 基于人脸图像的人脸质量评估方法、装置、设备及介质
CN112766485A (zh) 命名实体模型的训练方法、装置、设备及介质
CN113238797B (zh) 基于分层对比学习的代码特征提取方法及系统
Janz et al. Learning a generative model for validity in complex discrete structures
CN112733911A (zh) 实体识别模型的训练方法、装置、设备和存储介质
CN114822683A (zh) 药物与靶标的相互作用预测方法、装置、设备及存储介质
CN110175273A (zh) 文本处理方法、装置、计算机可读存储介质和计算机设备
CN114416984A (zh) 基于人工智能的文本分类方法、装置、设备及存储介质
CN110413994B (zh) 热点话题生成方法、装置、计算机设备和存储介质
CN112836762A (zh) 模型蒸馏方法、装置、设备及存储介质
CN113268564B (zh) 相似问题的生成方法、装置、设备及存储介质
CN112002310A (zh) 领域语言模型构建方法、装置、计算机设备及存储介质
CN115186062A (zh) 多模态预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination