CN114840680A - 一种实体关系联合抽取方法、装置、存储介质及终端 - Google Patents

一种实体关系联合抽取方法、装置、存储介质及终端 Download PDF

Info

Publication number
CN114840680A
CN114840680A CN202210290410.9A CN202210290410A CN114840680A CN 114840680 A CN114840680 A CN 114840680A CN 202210290410 A CN202210290410 A CN 202210290410A CN 114840680 A CN114840680 A CN 114840680A
Authority
CN
China
Prior art keywords
entity
character
loss value
layer
entropy loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210290410.9A
Other languages
English (en)
Inventor
刘旭生
陈勇达
徐斌
刘芳
张烁
孙荣
韩维
杨睿
徐胤
刘一凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Co ltd Customer Service Center
Advanced Institute of Information Technology AIIT of Peking University
Original Assignee
State Grid Co ltd Customer Service Center
Advanced Institute of Information Technology AIIT of Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Co ltd Customer Service Center, Advanced Institute of Information Technology AIIT of Peking University filed Critical State Grid Co ltd Customer Service Center
Priority to CN202210290410.9A priority Critical patent/CN114840680A/zh
Publication of CN114840680A publication Critical patent/CN114840680A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种实体关系联合抽取方法,方法包括:获取待抽取的目标文本数据;将目标文本数据输入预先训练的实体关系联合抽取模型中;实体关系联合抽取模型包括BERT编码层、CRF层和sigmoid得分层;预先训练的实体关系联合抽取模型训练过程包括,将BERT编码层输出的字符表示向量输入CRF层得到第一交叉熵损失值;根据每个字符的拼接向量输入sigmoid得分层得到第二交叉熵损失值;每个字符的拼接向量是由CRF层输出的字符的实体预测标签与BERT编码层输出的字符表示向量拼接的;输出目标文本数据对应的实体参数和关系参数。本申请可提升关系抽取任务的准确性,模型能自动学习两个任务的相关信息,也能有效减小因流水线工作导致的累积误差,提升模型抽取准确度。

Description

一种实体关系联合抽取方法、装置、存储介质及终端
技术领域
本发明涉及信息处理技术领域,特别涉及一种实体关系联合抽取方法、装 置、存储介质及终端。
背景技术
知识图谱是指以图的形式描述客观世界中的概念、实体、事件及其之间关 系的知识库。随着人工智能技术的不断发展,知识图谱在语义搜索、问答系统、 推荐系统等领域得到广泛应用。关系抽取技术是知识图谱建设的核心环节,直 接影响知识图谱构建的规模和质量。关系抽取(RelationExtraction)是信息抽 取的关键内容,旨在发现现实世界实体(Entity)间的语义关系。近些年来,该 项技术被广泛应用在许多机器学习和自然语言处理任务中。
在现有的技术方案中,目前普遍使用的实体关系抽取方案主要是基于流水 线的技术路线实现,即先通过算法模型1进行命名实体识别,在已有实体标注 的基础上通过模型2进行实体关系抽取。例如申请编号为201510082318.3的发 明专利《训练命名实体识别模型的方法、命名实体识别方法及装置》通过训练 循环神经网络进行命名实体识别。申请编号为202010222471.2的发明专利《一 种基于深度学习的实体关系抽取方法》提出一种基于CNN和LSTM组合模型的关 系抽取方法,通过对CNN和LSTM模型串联、并联等方式,构建了五种模型对实 体关系进行分类,最后将五个模型的输出结果组合评分,选取评分最高的关系 类别作为最终的关系分类。该方法即是在已有实体标注的基础上完成关系分类, 其关系抽取的质量严重依赖前序的实体识别结果的质量,引起累积误差。以上 的流水线方法,将实体识别与关系抽取分别作为两个独立任务完成实体关系抽 取,忽略了实体识别和关系抽取两项任务的相关性,两项任务的模型参数无法 共享,导致模型学习的信息会有丢失,从而降低了模型处理的准确度。
发明内容
本申请实施例提供了一种实体关系联合抽取方法、装置、存储介质及终端。 为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。 该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施 例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详 细说明的序言。
第一方面,本申请实施例提供了一种实体关系联合抽取方法,方法包括:
获取待抽取的目标文本数据;
将目标文本数据输入预先训练的实体关系联合抽取模型中;
其中,所述实体关系联合抽取模型包括BERT编码层、CRF层和sigmoid得 分层;所述预先训练的实体关系联合抽取模型训练过程包括,将所述BERT编码 层输出的字符表示向量输入所述CRF层得到第一交叉熵损失值;根据每个字符 的拼接向量输入所述sigmoid得分层得到第二交叉熵损失值;所述每个字符的 拼接向量是由所述CRF层输出的字符的实体预测标签与所述BERT编码层输出的 字符表示向量拼接的;
输出目标文本数据对应的实体参数和关系参数。
可选的,所述预先训练的实体关系联合抽取模型训练过程还包括:
创建实体关系联合抽取模型;
获取并预处理原始数据,生成训练语料;
将训练语料输入实体关系联合抽取模型中,得到第一交叉熵损失值和第二 交叉熵损失值;
根据第一交叉熵损失值和第二交叉熵损失值生成预先训练的实体关系联合 抽取模型。
可选的,获取并预处理原始数据,生成训练语料,包括:
获取原始数据;
将原始数据转化为计算机可处理的结构化数据;
剔除结构化数据中的冗余数据,得到最终的结构化数据;
构建领域知识模型;其中,领域知识模型至少包括本体类别、本体属性以 及本体间关系;
根据本体类别、本体属性以及本体间关系对最终的结构化数据进行数据标 注,得到标注后的数据;
将标注后的数据按照预设比例进行划分,得到训练语料。
可选的,所述将所述训练语料输入所述实体关系联合抽取模型中,包括:
将所述训练语料输入所述BERT编码层中,得到每个字符的表示向量。
可选的,根据每个字符的拼接向量输入所述sigmoid得分层得到第二交叉 熵损失值,包括:
sigmoid得分层将每个字符的拼接向量进行排列组合,生成多组字符的拼 接向量;
sigmoid得分层确定第一关系,根据第一关系计算每组字符的拼接向量之 间的关系得分;其中,第一关系是预设关系中任意一个关系;
sigmoid得分层根据关系得分计算每组字符的拼接向量之间的概率值,生 成每组字符的拼接向量对应的多个概率值;
sigmoid得分层根据每组字符的拼接向量对应的多个概率值计算关系部分 的第二交叉熵损失值。
可选的,根据第一交叉熵损失值和第二交叉熵损失值生成预先训练的实体 关系联合抽取模型,包括:
将第一交叉熵损失值和第二交叉熵损失值作和,得到目标损失值;
当目标损失值到达预设阈值时,生成预先训练的实体关系联合抽取模型。
可选的,所述方法还包括:
当所述目标损失值未到达预设阈值时,将所述目标损失值反向传播以更新 模型的参数,并继续执行所述将所述训练语料输入所述实体关系联合抽取模型 中的步骤。
第二方面,本申请实施例提供了一种实体关系联合抽取装置,装置包括:
文本数据获取模块,用于获取待抽取的目标文本数据;
文本数据输入模块,用于将目标文本数据输入预先训练的实体关系联合抽 取模型中;
其中,所述实体关系联合抽取模型包括BERT编码层、CRF层和sigmoid得 分层;所述预先训练的实体关系联合抽取模型训练过程包括,将所述BERT编码 层输出的字符表示向量输入所述CRF层得到第一交叉熵损失值;根据每个字符 的拼接向量输入所述sigmoid得分层得到第二交叉熵损失值;所述每个字符的 拼接向量是由所述CRF层输出的字符的实体预测标签与所述BERT编码层输出的 字符表示向量拼接的;
参数输出模块,用于输出目标文本数据对应的实体参数和关系参数。
第三方面,本申请实施例提供一种计算机存储介质,计算机存储介质存储 有多条指令,指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供一种终端,可包括:处理器和存储器;其中, 存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步 骤。
本申请实施例提供的技术方案可以包括以下有益效果:
在本申请实施例中,实体关系联合抽取装置首先获取待抽取的目标文本数 据,然后将目标文本数据输入预先训练的实体关系联合抽取模型中;实体关系 联合抽取模型包括BERT编码层、CRF层和sigmoid得分层;预先训练的实体关 系联合抽取模型训练过程包括,将BERT编码层输出的字符表示向量输入CRF层 得到第一交叉熵损失值;根据每个字符的拼接向量输入sigmoid得分层得到第 二交叉熵损失值;每个字符的拼接向量是由CRF层输出的字符的实体预测标签 与BERT编码层输出的字符表示向量拼接的,最后输出目标文本数据对应的实体 参数和关系参数。由于将CRF层输出的字符的实体预测标签与BERT编码层输出 的字符表示向量拼接输入sigmoid得分层,使得训练过程能更多利用实体识别 的结果信息,可提升关系抽取任务的准确性,从而模型能自动学习两个任务的 相关信息,也能有效减小因流水线工作导致的累积误差,提升模型抽取准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的, 并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明 的实施例,并与说明书一起用于解释本发明的原理。
图1是本申请实施例提供的一种实体关系联合抽取方法的流程示意图;
图2是本申请实施例提供的一种实体关系联合抽取模型训练过程示意图;
图3是本申请实施例提供的一种实体关系联合抽取模型的网络结构示意图;
图4是本申请实施例提供的一种数据标注格式示意图;
图5是本申请实施例提供的一种实体关系抽取流程图;
图6是本申请实施例提供的一种实体关系联合抽取装置的结构示意图;
图7是本申请实施例提供的一种终端的结构示意图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人 员能够实践它们。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实 施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前 提下所获得的所有其它实施例,都属于本发明保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同 或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一 致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的 一些方面相一致的装置和方法的例子。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述 目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言, 可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中, 除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联 关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同 时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一 种“或”的关系。
本申请提供了一种实体关系联合抽取方法、装置、存储介质及终端,以解 决上述相关技术问题中存在的问题。本申请提供的技术方案中,由于将CRF层 输出的字符的实体预测标签与BERT编码层输出的字符表示向量拼接输入 sigmoid得分层,使得训练过程能更多利用实体识别的结果信息,可提升关系 抽取任务的准确性,从而模型能自动学习两个任务的相关信息,也能有效减小 因流水线工作导致的累积误差,提升模型抽取准确度,下面采用示例性的实施 例进行详细说明。
下面将结合附图1-附图5,对本申请实施例提供的实体关系联合抽取方法 进行详细介绍。该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系 的实体关系联合抽取装置上。该计算机程序可集成在应用中,也可作为独立的 工具类应用运行。
请参见图1,为本申请实施例提供了一种实体关系联合抽取方法的流程示 意图。如图1所示,本申请实施例的方法可以包括以下步骤:
S101,获取待抽取的目标文本数据;
其中,文本,是指书面语言的表现形式,通常是具有完整、系统含义的一 个句子或多个句子的组合,一个文本可以是一个句子、一个段落或者一个篇章。 文本数据是由多个字符组成的描述文本。
通常,目标文本数据可以是模型训练时划分出的测试集,也可以是从本地 数据库或者内存中获取的,还可以是实时线上进行收集的。
在一种可能的实现方式中,在进行实体关系联合抽取时,首先运行线上数 据收集脚本,运行完成后可根据设置的定时器以预设周期不间断的实时收集线 上的文本数据。
S102,将目标文本数据输入预先训练的实体关系联合抽取模型中;
其中,实体关系联合抽取模型包括BERT编码层、CRF层和sigmoid得分层; 所述预先训练的实体关系联合抽取模型训练过程包括,将所述BERT编码层输出 的字符表示向量输入所述CRF层得到第一交叉熵损失值;根据每个字符的拼接 向量输入所述sigmoid得分层得到第二交叉熵损失值;所述每个字符的拼接向 量是由所述CRF层输出的字符的实体预测标签与所述BERT编码层输出的字符表 示向量拼接的。
通常,预先训练的实体关系联合抽取模型是对描述文本中实体和关系进行 抽取的数学模型。该数学模型由预训练BERT模型、CRF层以及多头选择的 Sigmoid关系得分层构成。
在本申请实施例中,在生成预先训练的实体关系联合抽取模型时,首先创 建实体关系联合抽取模型,然后获取并预处理原始数据,生成训练语料,其次 将训练语料输入实体关系联合抽取模型中,得到实体部分的第一交叉熵损失值 和关系部分的第二交叉熵损失值,最后根据第一交叉熵损失值和第二交叉熵损 失值生成预先训练的实体关系联合抽取模型。
在一种可能的实现方式中,在得到目标文本数据后,可将该目标文本数据 输入预先训练的实体关系联合抽取模型中进行处理,处理完成后可输出目标文 本数据对应的实体参数和关系参数。
S103,输出目标文本数据对应的实体参数和关系参数。
在一种可能的实现方式中,训练后的模型部署上线,可将待抽取的数据输 入模型进行实体和关系的联合抽取,得到模型预测的实体和关系。
例如,目标文本数据为“小明出生在北京”这个句子,在进行实体关系联 合抽取后,可输出实体参数为“小明”与“北京”两个实体,关系参数为“出 生地”。
进一步地,考虑到本专利采用的实体关系联合抽取方法,模型参数量较大, 在大规模训练数据情况下容易得到更好的表现,而封闭领域的训练数据标注需 要大量的人工成本,因为本专利采用增量学习方法。即在模型上线应用的初期 阶段,对模型抽取得到的实体和实体间关系,由领域专家进行数据质检,对模 型抽取的结果进行检验标注,将检验后的实体和关系数据存入知识库,同时原 始文本和检验后的实体关系将保存作为增量的训练数据,当增量训练数据达到 一定规模后,系统自动提取增量训练数据对模型进行增量学习,完成增量训练 后进行模型的在线热更,从而逐渐提升模型抽取的准确率。
具体的,由于数据质检的工作量过大,在经过一定时间周期的数据质检与 模型增量训练,得到表现较好的模型后,可将数据的全量质检该改为部分质检。 基于主动学习机制,系统在抽取的实体和关系时,将得分分别低于阈值α和β 的实体和关系加入待质检分组中,由领域专家完成数据标注得到最终的标注结 果,标注数据将作为训练数据进行模型增量训练,实现模型优化。
在本申请实施例中,实体关系联合抽取装置首先获取待抽取的目标文本数 据,然后将目标文本数据输入预先训练的实体关系联合抽取模型中;实体关系 联合抽取模型包括BERT编码层、CRF层和sigmoid得分层;预先训练的实体关 系联合抽取模型训练过程包括,将BERT编码层输出的字符表示向量输入CRF层 得到第一交叉熵损失值;根据每个字符的拼接向量输入sigmoid得分层得到第 二交叉熵损失值;每个字符的拼接向量是由CRF层输出的字符的实体预测标签 与BERT编码层输出的字符表示向量拼接的,最后输出目标文本数据对应的实体 参数和关系参数。由于将CRF层输出的字符的实体预测标签与BERT编码层输出 的字符表示向量拼接输入sigmoid得分层,使得训练过程能更多利用实体识别 的结果信息,可提升关系抽取任务的准确性,从而模型能自动学习两个任务的 相关信息,也能有效减小因流水线工作导致的累积误差,提升模型抽取准确度。
请参见图2,为本申请实施例提供了一种预先训练的实体关系联合抽取模 型训练的流程示意图。如图2所示,本申请实施例的方法可以包括以下步骤:
S201,创建实体关系联合抽取模型;
其中,实体关系联合抽取模型是采用预训练BERT模型、CRF层以及多头选 择的Sigmoid关系得分层组成的。
具体的,实体关系联合抽取模型的网络结构图例如图3所示,预训练BERT 模型是采用BERT神经网络训练的,多头选择的Sigmoid关系得分层是根据机器 学习中Sigmoid函数得到的。
S202,获取并预处理原始数据,生成训练语料;
在本申请实施例中,在生成训练语料时,首先获取原始数据,再将原始数 据转化为计算机可处理的结构化数据,然后剔除结构化数据中的冗余数据,得 到最终的结构化数据,再构建领域知识模型;其中,领域知识模型至少包括本 体类别、本体属性以及本体间关系,其次根据本体类别、本体属性以及本体间 关系对最终的结构化数据进行数据标注,得到标注后的数据,最后将标注后的 数据按照预设比例进行划分,得到训练语料。
具体的,在将标注后的数据按照预设比例进行划分,可以7:2:1划分为训 练集、验证集和测试集,将训练集确定为训练语料。
在一种可能的实现方式中,将原始数据转化为计算机可处理的数据结构, 同时删除无用的、不规则的文本,即去除对提取实体和关系无用的信息,得到 最终的结构化数据。然后结合业务需要,由领域业务专家和知识图谱专家自顶 向下进行领域知识建模。由上至下定义本体的类别、本体包含的属性、本体间 关系等信息完成领域知识模型。最后根据领域知识模型对最终的结构化数据进 行数据标注,得到标注后的数据,最后将标注后的数据按照预设比例进行划分, 得到训练语料。
具体的,在根据领域知识模型对最终的结构化数据进行数据标注时,例如 图4中的数据标注格式表所示,采用实体关系联合标注策略进行数据标注,对 文本中的每个字分配一个标签,其中“O”代表非实体标签,其他实体部分的标 签为其对应的实体类别。使用“BIES”符号来表示一个字符在实体中的位置信 息,其中“B”代表实体的起始字符,“I”代表实体的中间字符,“E”代表实体 的结束字符,“S”代表一个字符的实体。每个关系的主体实体起始位置标注其 对应的关系类别和关系指向的客体实体的起始位置。
S203,将训练语料输入实体关系联合抽取模型中,得到实体部分的第一交 叉熵损失值和关系部分的第二交叉熵损失值;
通常,如图3所示的模型,该模型能同时完成实体识别和所有实体间关系 的抽取。模型结构包括BERT编码层、CRF层和sigmoid得分层。编码层采用预 训练模型BERT提取字符的表示向量,BERT模型能提取更为复杂的字符表示信 息,同时预训练模型对大规模训练数据的依赖程度相对降低。在BERT编码层之 上,采用CRF层计算每个字符的实体标签,进而得到实体的类别和边界。在CRF 层之上连接Sigmoid得分层,CRF层预测的实体标签将输入Sigmoid得分层。 Sigmoid得分层对一组实体对的所有可能关系进行预测,可对两个实体间的多 种关系同时进行抽取。
需要说明的是,本专利提出的基于多头选择任务的实体关系联合抽取模型 将实识别任务中的实体预测标签作为sigmoid得分层的输入,使得关系抽取任 务能更好地融合实体标签信息,进而实现更准确的实体关系分类。
在本申请实施例中,在将训练语料输入实体关系联合抽取模型中,得到实 体部分的第一交叉熵损失值和关系部分的第二交叉熵损失值时,首先将训练语 料输入BERT编码层中,得到每个字符的表示向量,再将每个字符的表示向量输 入CRF层中,得到每个字符的实体预测标签,然后根据每个字符的实体预测标 签计算实体部分的第一交叉熵损失值,再将每个字符的表示向量和与其对应的 实体预测标签进行拼接,生成每个字符的拼接向量,最后将每个字符的拼接向 量输入所述sigmoid得分层中,得到关系部分的第二交叉熵损失值。
具体的,对于每个输入字符wi,通过拼接BERT提取的字符表示向量hi和实 体预测标签gi得到Sigmoid得分层的输入zi
zi=[hi;gi],i=0,…,n。
进一步地,在将每个字符的拼接向量输入sigmoid得分层中,输出关系部 分的第二交叉熵损失值时,sigmoid得分层将每个字符的拼接向量进行排列组 合,生成多组字符的拼接向量,sigmoid得分层确定第一关系,根据第一关系 计算每组字符的拼接向量之间的关系得分;其中,第一关系是预设关系中任意 一个关系,sigmoid得分层根据关系得分计算每组字符的拼接向量之间的概率 值,生成每组字符的拼接向量对应的多个概率值,sigmoid得分层根据每组字 符的拼接向量对应的多个概率值计算关系部分的第二交叉熵损失值。
具体的,在给定关系rk时,通过计算字符wi与字符wj间的关系得分为:
s(r)(zj,zi,rk)=V(r)f(U(r)zj+W(r)zi+b(r))
其中,上角标r为关系抽取任务的标记,f(·)代表激活函数,V(r)∈Rl, U(r)∈Rl ×(d+b),W(r)∈Rl×(d+b),b(r)∈Rl,d为BERT输出的隐变量维度,b是 实体识别标签编码的维度,l是输出层的维度。
字符wi通过关系rk指向字符wj的概率为:
Pr(head=wj,label=rk|wi)=σ(s(r)(zj,zi,rk)
其中,σ(·)代表sigmoid函数。
S204,根据第一交叉熵损失值和第二交叉熵损失值生成预先训练的实体关 系联合抽取模型。
在本申请实施例中,在根据第一交叉熵损失值和第二交叉熵损失值生成预 先训练的实体关系联合抽取模型时,首先将第一交叉熵损失值和第二交叉熵损 失值作和,得到目标损失值。
进一步地,当目标损失值到达预设阈值时,生成预先训练的实体关系联合 抽取模型;或者,当目标损失值未到达预设阈值时,将目标损失值反向传播以 更新模型的参数,并继续执行将训练语料输入实体关系联合抽取模型中的步骤。
例如,在实体识别和关系抽取的两个子任务中均采用交叉熵损失函数,将 两个子任务的损失函数求和作为最终实体关系联合抽取任务的目标函数:
Figure BDA0003561616410000111
Figure BDA0003561616410000112
为实体识别任务中交叉熵损失值,
Figure BDA0003561616410000113
为关系抽 取任务中交叉熵损失值。
例如图5所示,图5是本申请提供的实体关系抽取流程图,在模型上线应 用的初期阶段,对模型抽取得到的实体和实体间关系,由领域专家进行数据质 检,对模型抽取的结果进行检验标注,将检验后的实体和关系数据存入知识库, 同时原始文本和检验后的实体关系将保存作为增量的训练数据,当增量训练数 据达到一定规模后,系统自动提取增量训练数据对模型进行增量学习,完成增 量训练后进行模型的在线热更,从而逐渐提升模型抽取的准确率。
在本申请实施例中,实体关系联合抽取装置首先获取待抽取的目标文本数 据,然后将目标文本数据输入预先训练的实体关系联合抽取模型中;实体关系 联合抽取模型包括BERT编码层、CRF层和sigmoid得分层;预先训练的实体关 系联合抽取模型训练过程包括,将BERT编码层输出的字符表示向量输入CRF层 得到第一交叉熵损失值;根据每个字符的拼接向量输入sigmoid得分层得到第 二交叉熵损失值;每个字符的拼接向量是由CRF层输出的字符的实体预测标签 与BERT编码层输出的字符表示向量拼接的,最后输出目标文本数据对应的实体 参数和关系参数。由于将CRF层输出的字符的实体预测标签与BERT编码层输出 的字符表示向量拼接输入sigmoid得分层,使得训练过程能更多利用实体识别 的结果信息,可提升关系抽取任务的准确性,从而模型能自动学习两个任务的 相关信息,也能有效减小因流水线工作导致的累积误差,提升模型抽取准确度。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明 装置实施例中未披露的细节,请参照本发明方法实施例。
请参见图6,其示出了本发明一个示例性实施例提供的实体关系联合抽取 装置的结构示意图。该实体关系联合抽取装置可以通过软件、硬件或者两者的 结合实现成为终端的全部或一部分。该装置1包括文本数据获取模块10、文本 数据输入模块20、参数输出模块30。
文本数据获取模块10,用于获取待抽取的目标文本数据;
文本数据输入模块20,用于将目标文本数据输入预先训练的实体关系联合 抽取模型中;
其中,所述实体关系联合抽取模型包括BERT编码层、CRF层和sigmoid得 分层;所述预先训练的实体关系联合抽取模型训练过程包括,将所述BERT编码 层输出的字符表示向量输入所述CRF层得到第一交叉熵损失值;根据每个字符 的拼接向量输入所述sigmoid得分层得到第二交叉熵损失值;所述每个字符的 拼接向量是由所述CRF层输出的字符的实体预测标签与所述BERT编码层输出的 字符表示向量拼接的;
参数输出模块30,用于输出目标文本数据对应的实体参数和关系参数。
需要说明的是,上述实施例提供的实体关系联合抽取装置在执行实体关系 联合抽取方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可 以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划 分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施 例提供的实体关系联合抽取装置与实体关系联合抽取方法实施例属于同一构思, 其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请实施例中,实体关系联合抽取装置首先获取待抽取的目标文本数 据,然后将目标文本数据输入预先训练的实体关系联合抽取模型中;实体关系 联合抽取模型包括BERT编码层、CRF层和sigmoid得分层;预先训练的实体关 系联合抽取模型训练过程包括,将BERT编码层输出的字符表示向量输入CRF层 得到第一交叉熵损失值;根据每个字符的拼接向量输入sigmoid得分层得到第 二交叉熵损失值;每个字符的拼接向量是由CRF层输出的字符的实体预测标签 与BERT编码层输出的字符表示向量拼接的,最后输出目标文本数据对应的实体 参数和关系参数。由于将CRF层输出的字符的实体预测标签与BERT编码层输出 的字符表示向量拼接输入sigmoid得分层,使得训练过程能更多利用实体识别 的结果信息,可提升关系抽取任务的准确性,从而模型能自动学习两个任务的 相关信息,也能有效减小因流水线工作导致的累积误差,提升模型抽取准确度。
本发明还提供一种计算机可读介质,其上存储有程序指令,该程序指令被 处理器执行时实现上述各个方法实施例提供的实体关系联合抽取方法。
本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使 得计算机执行上述各个方法实施例的实体关系联合抽取方法。
请参见图7,为本申请实施例提供了一种终端的结构示意图。如图7所示, 终端1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接 口1003,存储器1005,至少一个通信总线1002。
其中,通信总线1002用于实现这些组件之间的连接通信。
其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可 选用户接口1003还可以包括标准的有线接口、无线接口。
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI 接口)。
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各 种接口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存 储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内 的数据,执行电子设备1000的各种功能和处理数据。可选的,处理器1001可 以采用数字信号处理(Digital SignalProcessing,DSP)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处 理器(Central Processing Unit,CPU)、图像处理器(Graphics ProcessingUnit, GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、 用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制; 调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成 到处理器1001中,单独通过一块芯片进行实现。
其中,存储器1005可以包括随机存储器(Random Access Memory,RAM), 也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1005包括非 瞬时性计算机可读介质(non-transitory computer-readable storage medium)。 存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可 包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的 指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功 能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方 法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图7所示,作为一种计算机存储介质的存储器 1005中可以包括操作系统、网络通信模块、用户接口模块以及实体关系联合抽 取应用程序。
在图7所示的终端1000中,用户接口1003主要用于为用户提供输入的接 口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的 实体关系联合抽取应用程序,并具体执行以下操作:
获取待抽取的目标文本数据;
将目标文本数据输入预先训练的实体关系联合抽取模型中;其中,所述实 体关系联合抽取模型包括BERT编码层、CRF层和sigmoid得分层;所述预先训 练的实体关系联合抽取模型训练过程包括,将所述BERT编码层输出的字符表示 向量输入所述CRF层得到第一交叉熵损失值;根据每个字符的拼接向量输入所 述sigmoid得分层得到第二交叉熵损失值;所述每个字符的拼接向量是由所述 CRF层输出的字符的实体预测标签与所述BERT编码层输出的字符表示向量拼接 的;
输出目标文本数据对应的实体参数和关系参数。
在一个实施例中,处理器1001在生成预先训练的实体关系联合抽取模型时, 具体执行以下操作:
创建实体关系联合抽取模型;
获取并预处理原始数据,生成训练语料;
将训练语料输入实体关系联合抽取模型中,得到第一交叉熵损失值和第二 交叉熵损失值;
根据第一交叉熵损失值和第二交叉熵损失值生成预先训练的实体关系联合 抽取模型。
在一个实施例中,处理器1001在执行获取并预处理原始数据,生成训练语 料时,具体执行以下操作:
获取原始数据;
将原始数据转化为计算机可处理的结构化数据;
剔除结构化数据中的冗余数据,得到最终的结构化数据;
构建领域知识模型;其中,领域知识模型至少包括本体类别、本体属性以 及本体间关系;
根据本体类别、本体属性以及本体间关系对最终的结构化数据进行数据标 注,得到标注后的数据;
将标注后的数据按照预设比例进行划分,得到训练语料。
在一个实施例中,处理器1001在执行将所述训练语料输入所述实体关系联 合抽取模型中,具体执行以下操作:
将所述训练语料输入所述BERT编码层中,得到每个字符的表示向量。
在一个实施例中,处理器1001在执行根据每个字符的拼接向量输入所述 sigmoid得分层得到第二交叉熵损失值时,具体执行以下操作:
sigmoid得分层将每个字符的拼接向量进行排列组合,生成多组字符的拼 接向量;
sigmoid得分层确定第一关系,根据第一关系计算每组字符的拼接向量之 间的关系得分;其中,第一关系是预设关系中任意一个关系;
sigmoid得分层根据关系得分计算每组字符的拼接向量之间的概率值,生 成每组字符的拼接向量对应的多个概率值;
sigmoid得分层根据每组字符的拼接向量对应的多个概率值计算关系部分 的第二交叉熵损失值。
在一个实施例中,处理器1001在执行根据第一交叉熵损失值和第二交叉熵 损失值生成预先训练的实体关系联合抽取模型时,具体执行以下操作:
将第一交叉熵损失值和第二交叉熵损失值作和,得到目标损失值;
当目标损失值到达预设阈值时,生成预先训练的实体关系联合抽取模型;
在一个实施例中,处理器1001还执行以下操作:
当目标损失值未到达预设阈值时,将目标损失值反向传播以更新模型的参 数,并继续执行将训练语料输入实体关系联合抽取模型中的步骤。
在本申请实施例中,实体关系联合抽取装置首先获取待抽取的目标文本数 据,然后将目标文本数据输入预先训练的实体关系联合抽取模型中;实体关系 联合抽取模型包括BERT编码层、CRF层和sigmoid得分层;预先训练的实体关 系联合抽取模型训练过程包括,将BERT编码层输出的字符表示向量输入CRF层 得到第一交叉熵损失值;根据每个字符的拼接向量输入sigmoid得分层得到第 二交叉熵损失值;每个字符的拼接向量是由CRF层输出的字符的实体预测标签 与BERT编码层输出的字符表示向量拼接的,最后输出目标文本数据对应的实体 参数和关系参数。由于将CRF层输出的字符的实体预测标签与BERT编码层输出 的字符表示向量拼接输入sigmoid得分层,使得训练过程能更多利用实体识别 的结果信息,可提升关系抽取任务的准确性,从而模型能自动学习两个任务的 相关信息,也能有效减小因流水线工作导致的累积误差,提升模型抽取准确度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,实体关系联合抽取的程序可 存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实 施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体或随机存储 记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之 权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种实体关系联合抽取方法,其特征在于,所述方法包括:
获取待抽取的目标文本数据;
将所述目标文本数据输入预先训练的实体关系联合抽取模型中;
其中,所述实体关系联合抽取模型包括BERT编码层、CRF层和sigmoid得分层;所述预先训练的实体关系联合抽取模型训练过程包括,将所述BERT编码层输出的字符表示向量输入所述CRF层得到第一交叉熵损失值;根据每个字符的拼接向量输入所述sigmoid得分层得到第二交叉熵损失值;所述每个字符的拼接向量是由所述CRF层输出的字符的实体预测标签与所述BERT编码层输出的字符表示向量拼接的;
输出所述目标文本数据对应的实体参数和关系参数。
2.根据权利要求1所述的方法,其特征在于,所述预先训练的实体关系联合抽取模型训练过程还包括:
创建实体关系联合抽取模型;
获取并预处理原始数据,生成训练语料;
将所述训练语料输入所述实体关系联合抽取模型中,得到第一交叉熵损失值和第二交叉熵损失值;
根据所述第一交叉熵损失值和所述第二交叉熵损失值生成预先训练的实体关系联合抽取模型。
3.根据权利要求2所述的方法,其特征在于,所述获取并预处理原始数据,生成训练语料,包括:
获取原始数据;
将所述原始数据转化为计算机可处理的结构化数据;
剔除所述结构化数据中的冗余数据,得到最终的结构化数据;
构建领域知识模型;其中,所述领域知识模型至少包括本体类别、本体属性以及本体间关系;
根据所述本体类别、本体属性以及本体间关系对最终的结构化数据进行数据标注,得到标注后的数据;
将标注后的数据按照预设比例进行划分,得到训练语料。
4.根据权利要求2所述的方法,其特征在于,所述将所述训练语料输入所述实体关系联合抽取模型中,包括:
将所述训练语料输入所述BERT编码层中,得到每个字符的表示向量。
5.根据权利要求1所述的方法,其特征在于,所述根据每个字符的拼接向量输入所述sigmoid得分层得到第二交叉熵损失值,包括:
sigmoid得分层将所述每个字符的拼接向量进行排列组合,生成多组字符的拼接向量;
sigmoid得分层确定第一关系,根据所述第一关系计算每组字符的拼接向量之间的关系得分;其中,所述第一关系是预设关系中任意一个关系;
sigmoid得分层根据所述关系得分计算所述每组字符的拼接向量之间的概率值,生成每组字符的拼接向量对应的多个概率值;
sigmoid得分层根据所述每组字符的拼接向量对应的多个概率值计算关系部分的第二交叉熵损失值。
6.根据权利要求2所述的方法,其特征在于,所述根据所述第一交叉熵损失值和所述第二交叉熵损失值生成预先训练的实体关系联合抽取模型,包括:
将所述第一交叉熵损失值和所述第二交叉熵损失值作和,得到目标损失值;
当所述目标损失值到达预设阈值时,生成预先训练的实体关系联合抽取模型。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
当所述目标损失值未到达预设阈值时,将所述目标损失值反向传播以更新模型的参数,并继续执行所述将所述训练语料输入所述实体关系联合抽取模型中的步骤。
8.一种实体关系联合抽取装置,其特征在于,所述装置包括:
文本数据获取模块,用于获取待抽取的目标文本数据;
文本数据输入模块,用于将所述目标文本数据输入预先训练的实体关系联合抽取模型中;
其中,所述实体关系联合抽取模型包括BERT编码层、CRF层和sigmoid得分层;所述预先训练的实体关系联合抽取模型训练过程包括,将所述BERT编码层输出的字符表示向量输入所述CRF层得到第一交叉熵损失值;根据每个字符的拼接向量输入所述sigmoid得分层得到第二交叉熵损失值;所述每个字符的拼接向量是由所述CRF层输出的字符的实体预测标签与所述BERT编码层输出的字符表示向量拼接的;
参数输出模块,用于输出所述目标文本数据对应的实体参数和关系参数。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1-7任意一项的方法步骤。
10.一种终端,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1-7任意一项的方法步骤。
CN202210290410.9A 2022-03-23 2022-03-23 一种实体关系联合抽取方法、装置、存储介质及终端 Pending CN114840680A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210290410.9A CN114840680A (zh) 2022-03-23 2022-03-23 一种实体关系联合抽取方法、装置、存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210290410.9A CN114840680A (zh) 2022-03-23 2022-03-23 一种实体关系联合抽取方法、装置、存储介质及终端

Publications (1)

Publication Number Publication Date
CN114840680A true CN114840680A (zh) 2022-08-02

Family

ID=82561481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210290410.9A Pending CN114840680A (zh) 2022-03-23 2022-03-23 一种实体关系联合抽取方法、装置、存储介质及终端

Country Status (1)

Country Link
CN (1) CN114840680A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115186669A (zh) * 2022-08-30 2022-10-14 北京睿企信息科技有限公司 一种实体关系抽取方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115186669A (zh) * 2022-08-30 2022-10-14 北京睿企信息科技有限公司 一种实体关系抽取方法及系统

Similar Documents

Publication Publication Date Title
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN107291783B (zh) 一种语义匹配方法及智能设备
CN113849653B (zh) 一种文本分类方法及装置
CN115131698B (zh) 视频属性确定方法、装置、设备及存储介质
CN110969023B (zh) 文本相似度的确定方法及装置
CN117151222B (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN116975256B (zh) 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统
CN117474507A (zh) 一种基于大数据应用技术的智能招聘匹配方法及系统
CN115438674A (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN111666376A (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN116561274A (zh) 一种基于数字人技术与自然语言大模型的知识问答方法
CN112349294A (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
CN114490926A (zh) 一种相似问题的确定方法、装置、存储介质及终端
CN114255300A (zh) 流程图的提取模型训练方法、获取方法、设备及介质
CN114840680A (zh) 一种实体关系联合抽取方法、装置、存储介质及终端
CN113254814A (zh) 网络课程视频打标签方法、装置、电子设备及介质
CN112560487A (zh) 一种基于国产设备的实体关系抽取方法及系统
CN114139531B (zh) 一种基于深度学习的医疗实体预测方法及系统
CN113722477B (zh) 基于多任务学习的网民情绪识别方法、系统及电子设备
CN115292533A (zh) 视觉定位驱动的跨模态行人检索方法
CN112347150B (zh) 一种学者学术标签标注方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination