CN112364166A - 关系抽取模型的建立方法以及关系抽取方法 - Google Patents

关系抽取模型的建立方法以及关系抽取方法 Download PDF

Info

Publication number
CN112364166A
CN112364166A CN202011309475.0A CN202011309475A CN112364166A CN 112364166 A CN112364166 A CN 112364166A CN 202011309475 A CN202011309475 A CN 202011309475A CN 112364166 A CN112364166 A CN 112364166A
Authority
CN
China
Prior art keywords
entity
text sample
relationship
category
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011309475.0A
Other languages
English (en)
Other versions
CN112364166B (zh
Inventor
周玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongkefan Language Technology Co ltd
Original Assignee
Beijing Zhongkefan Language Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongkefan Language Technology Co ltd filed Critical Beijing Zhongkefan Language Technology Co ltd
Publication of CN112364166A publication Critical patent/CN112364166A/zh
Application granted granted Critical
Publication of CN112364166B publication Critical patent/CN112364166B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了关系抽取模型建立方法,包括:对标注出实体、实体类别及关系类别的文本样本进行预处理;抽取出标注后的文本样本中包含相同实体对的多个语句作为一个语句包,获取文本样本的语句包组;基于文本样本的实体有向无环图以及标注出的文本样本的实体,获取每个实体的候选实体类别以及候选实体类别的父类别;基于文本样本的关系有向无环图以及每个实体的候选实体类别及父类别,获取实体对的候选关系以及候选关系的父关系;使用TextCNN获取多层多分类损失;使用分层注意力网络获取分层注意力损失;基于分层多分类损失、分层注意力损失构建关系抽取模型,以标注出的关系类别作为训练目标对关系抽取模型进行训练。

Description

关系抽取模型的建立方法以及关系抽取方法
技术领域
本公开涉及一种关系抽取模型的建立方法以及关系抽取方法,属于 自然语言处理、信息抽取技术领域。
背景技术
随着通信技术和互联网技术的飞速发展,每天在网络上产生的数据 爆炸式增长,使用字符串索引和检索数据时正在遇到越来越多的噪声, 如何使用语义定义数据,从海量数据中高效地获取有价值的信息和知识 逐渐成为日益迫切的需求,将数据自动结构化,去伪存真,将数据中的 信息转化为经验证的知识是自然语言处理领域的一个难题。
在这个背景下,以语义形式定义、以知识方式存储的知识图谱应运 而生。现存的很多大规模知识图谱例如Wikipedia和Freebase等,利用三 元组作为语义单元结构化地存储了现实世界的知识。其中三元组的获取 就依赖于信息抽取技术,一般分为实体抽取、关系抽取或联合抽取。
三元组由两个实体和一个关系组成,实体是一类指代各种具体事物 的专有名词,例如人名和地名,关系则指两种实体对的内在联系,例如 “中国的首都是北京”。实体在待抽取的原文中可以找到实体指称项,而 关系一般较为抽象,很多时候在原文中没有显式地表明,例如“我喜欢 读鲁迅的《朝花夕拾》”,暗含了“鲁迅是《朝花夕拾》的作者”这样的 关系。目前,关系抽取作为三元组抽取的重要组成部分得到了广泛的应 用,是从自然语言文本中按照语义结构化数据的重要方法。
现有的关系抽取都基于有监督分类的方式,需要大量的人工标注数 据,高质量标注数据往往成为关系抽取的瓶颈。针对这个问题,基于远 程监督的关系抽取方法提出可以通过对纯文本和知识库之间进行交互来 自动产生训练数据和抽取结果。但是,这种远程监督产生的训练数据存 在一个严重的问题,就是产生的训练数据噪音非常严重,因为并不是所 有的包含两个实体的句子都会反映他们两者之间的关系。传统方法往往 构建大量的特征工程,尽可能减少错标和漏标,或者使用一些神经网络 结构从单一的实体方面或关系方面来解决问题。
发明内容
为了解决上述技术问题中的至少一个,本公开提供一种关系抽取模 型的建立方法、关系抽取方法、关系抽取模型的建立装置、关系抽取装 置、电子设备以及可读存储介质。
本公开的关系抽取模型的建立方法、关系抽取方法、关系抽取模型 的建立装置、关系抽取装置、电子设备以及可读存储介质通过以下技术 方案实现。
根据本公开的一个方面,提供一种关系抽取模型的建立方法,包括: 获取标注后的文本样本集,所述标注后的文本样本集包括多个标注出实 体、实体类别以及关系类别的文本样本;对标注出实体、实体类别以及 关系类别的每个文本样本进行预处理;抽取出标注后的每个文本样本中 包含相同实体对的多个语句作为一个语句包,获取每个文本样本的语句 包组,每个文本样本的语句包组至少包括一个语句包;至少基于预先构 建的文本样本集的每个文本样本的实体有向无环图以及标注出的所述文 本样本集的每个文本样本的实体,获取每个实体的候选实体类别以及候 选实体类别的所有父实体类别;至少基于预先构建的文本样本集的每个 文本样本的关系有向无环图以及每个实体的候选实体类别以及候选实体 类别的所有父实体类别,获取实体对的候选关系以及候选关系的所有父 关系;至少基于每个实体的候选实体类别以及候选实体类别的所有父实 体类别,以及所述文本样本集的每个文本样本的每个实体的标注出的实 体类别,至少使用TextCNN获取多层多分类损失;至少基于实体对的候 选关系以及候选关系的所有父关系,以及每个文本样本的语句包组,至 少使用分层注意力网络获取分层注意力损失;以及基于所述分层多分类 损失以及所述分层注意力损失构建关系抽取模型,以标注出的关系类别 作为训练目标对所述关系抽取模型进行训练。
根据本公开的至少一个实施方式的关系抽取模型的建立方法,对标 注出实体、实体类别以及关系类别的每个文本样本进行预处理,包括: 基于知识图谱的实体概念结构将标注后的文本样本集的每个文本样本的 样本空间的实体类别编码为实体类别向量,基于知识图谱的关系概念结 构将标注后的文本样本集的每个文本样本的样本空间的关系编码为关系 向量;获取所述文本样本集中的每个文本样本的词向量。
根据本公开的至少一个实施方式的关系抽取模型的建立方法,文本 样本的实体、实体类别以及关系类别的标注,至少通过对文本样本集中 的每个文本样本进行命名实体识别,从而标注出每个文本样本的实体、 实体类别以及关系类别。
根据本公开的至少一个实施方式的关系抽取模型的建立方法,所述 预先构建的文本样本集的每个文本样本的实体有向无环图基于知识图谱 中的实体概念结构构造,所述预先构建的文本样本集的每个文本样本的 关系有向无环图基于知识图谱中的关系概念结构构造。
根据本公开的至少一个实施方式的关系抽取模型的建立方法,所述 实体类别向量优选为one-hot向量,所述关系向量优选为one-hot向量, 所述词向量优选为GloVe向量。
根据本公开的至少一个实施方式的关系抽取模型的建立方法,每个 所述语句包由所述文本样本中的原文词汇组成。
根据本公开的至少一个实施方式的关系抽取模型的建立方法,至少 基于每个实体的候选实体类别以及候选实体类别的所有父实体类别,以 及所述文本样本集的每个文本样本的每个实体的标注出的实体类别,至 少使用TextCNN获取多层多分类损失,包括:将所述词向量、实体类别 向量以及基于所述实体有向无环图生成的实体类别层级特征矩阵作为 TextCNN的输入,其中,词向量使用TextCNN进行编码。
根据本公开的至少一个实施方式的关系抽取模型的建立方法,至少 基于实体对的候选关系以及候选关系的所有父关系,以及每个文本样本 的语句包组,至少使用分层注意力网络获取分层注意力损失,包括:将 每个所述语句包的语句的词向量以及词向量的位置编码作为分层注意 力网络的输入,使用分层注意力网络以及标准注意力机制对语句进行编 码,获得语句的嵌入表示;基于所有语句的嵌入表示,以及实体对的候 选关系以及候选关系的所有父关系,使用标准注意力机制获得细粒度的 关系表示;基于所述细粒度的关系表示,对文本样本的关系有向无环图 中在叶子节点到根节点之间的每一层关系计算一次标准注意力,获得所 述分层注意力损失。
根据本公开的至少一个实施方式的关系抽取模型的建立方法,基于 所述分层多分类损失以及所述分层注意力损失构建关系抽取模型,以标 注出的关系类别作为训练目标对所述关系抽取模型进行训练,包括:基 于所述每个文本样本的语句包组、每个文本样本的关系有向无环图中在 叶子节点到根节点之间的每一层关系以及文本样本的实体有向无环图, 计算交叉熵损失,使用随机梯度下降算法对交叉熵损失进行优化,以获 得所述关系抽取模型的模型参数。
根据本公开的另一个方面,提供一种关系抽取方法,使用上述任 一项的建立方法建立的关系抽取模型进行关系抽取,包括:对目标文 本进行实体识别,识别出所述目标文本的至少一个实体;以及使用所述 关系抽取模型对进行了实体识别后的所述目标文本进行关系抽取,将条 件概率最大的关系作为所述目标文本的实体对关系。
根据本公开的至少一个实施方式的关系抽取方法,将大于预先设定 的条件概率阈值的所有关系作为所述目标文本的实体对关系。
根据本公开的又一个方面,提供一种关系抽取模型的建立装置,包 括:预处理模块,所述预处理模块获取标注后的文本样本集,所述标注 后的文本样本集包括多个标注出实体、实体类别以及关系类别的文本样 本;所述预处理模块对标注出实体、实体类别以及关系类别的每个文本 样本进行预处理;语句包获取模块,所述语句包获取模块抽取出标注后 的每个文本样本中包含相同实体对的多个语句作为一个语句包,获取每 个文本样本的语句包组,每个文本样本的语句包组至少包括一个语句包; 候选实体类别及父类别获取模块,所述候选实体类别及父类别获取模块 至少基于预先构建的文本样本集的每个文本样本的实体有向无环图以及 标注出的所述文本样本集的每个文本样本的实体,获取每个实体的候选 实体类别以及候选实体类别的所有父实体类别;候选关系及父类别获取 模块,所述候选关系及父类别获取模块至少基于预先构建的文本样本集 的每个文本样本的关系有向无环图以及每个实体的候选实体类别以及候 选实体类别的所有父实体类别,获取实体对的候选关系以及候选关系的 所有父关系;多层多分类损失获取模块,所述分层多分类损失获取模块 至少基于每个实体的候选实体类别以及候选实体类别的所有父实体类别,以及所述文本样本集的每个文本样本的每个实体的标注出的实体类别, 至少使用TextCNN获取多层多分类损失;分层注意力损失获取模块,所 述分层注意力损失获取模块至少基于实体对的候选关系以及候选关系的 所有父关系,以及每个文本样本的语句包组,至少使用分层注意力网络 获取分层注意力损失;以及训练模块,所述训练模块基于所述分层多分类损失以及所述分层注意力损失构建关系抽取模型,以标注出的关系类 别作为训练目标对所述关系抽取模型进行训练。
根据本公开的又一个方面,提供一种关系抽取装置,包括:实体识 别模块,所述实体识别模块对目标文本进行实体识别,识别出所述目 标文本的至少一个实体;以及根据上述任一项所述的方法建立的关系抽 取模型,所述关系抽取模型对进行了实体识别后的所述目标文本进行关 系抽取,将条件概率最大的关系作为所述目标文本的实体对关系。
根据本公开的再一个方面,提供一种电子设备,包括:存储器,所 述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储 的执行指令,使得所述处理器执行上述任一项所述的方法。
根据本公开的再一个方面,提供一种可读存储介质,所述可读存储 介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述任 一项所述的方法。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本 公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且 附图包括在本说明书中并构成本说明书的一部分。
图1是本公开的一个实施方式的关系抽取模型的建立方法的流程示 意图。
图2是本公开的一个实施方式的关系抽取方法的流程示意图。
图3为本公开的一个实施方式的具有关系抽取模型建立装置和/关系 抽取装置的电子设备的结构示意框图。
附图标记说明
1000电子设备
1002预处理模块
1004语句包获取模块
1006候选实体类别及父类别获取模块
1008候选关系及父类别获取模块
1010多层多分类损失获取模块
1012分层注意力损失获取模块
1014训练模块
1016实体识别模块
1100总线
1200处理器
1300存储器
1400其他电路。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解 的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开 的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公 开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方 式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明 本公开的技术方案。
除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供 可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特 征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下, 各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变 得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或 表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共 性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外, 在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺 寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来 执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序 相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样 的部件。
当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到” 另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结 合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接 在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时,不存在中 间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或 不具有中间部件。
为了描述性目的,本公开可使用诸如“在……之下”、“在……下方”、 “在……下”、“下”、“在……上方”、“上”、“在……之上”、“较高的”和“侧 (例如,如在“侧壁”中)”等的空间相对术语,从而来描述如附图中示出的 一个部件与另一(其它)部件的关系。除了附图中描绘的方位之外,空间相 对术语还意图包含设备在使用、操作和/或制造中的不同方位。例如,如 果附图中的设备被翻转,则被描述为“在”其它部件或特征“下方”或“之下” 的部件将随后被定位为“在”所述其它部件或特征“上方”。因此,示例性术 语“在……下方”可以包含“上方”和“下方”两种方位。此外,设备可被另外 定位(例如,旋转90度或者在其它方位处),如此,相应地解释这里使用 的空间相对描述语。
这里使用的术语是为了描述具体实施例的目的,而不意图是限制性 的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个 (种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用 术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整 体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个 或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还 要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被 用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技 术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
图1是本公开一个实施方式的关系抽取模型的建立方法100,包括:
102、获取标注后的文本样本集,标注后的文本样本集包括多个标注 出实体、实体类别以及关系类别的文本样本;
104、对标注出实体、实体类别以及关系类别的每个文本样本进行预 处理;
106、抽取出标注后的每个文本样本中包含相同实体对的多个语句作 为一个语句包,获取每个文本样本的语句包组,每个文本样本的语句包 组至少包括一个语句包;
108、至少基于预先构建的文本样本集的每个文本样本的实体有向无 环图以及标注出的文本样本集的每个文本样本的实体,获取每个实体的 候选实体类别以及候选实体类别的所有父实体类别;至少基于预先构建 的文本样本集的每个文本样本的关系有向无环图以及每个实体的候选实 体类别以及候选实体类别的所有父实体类别,获取实体对的候选关系以 及候选关系的所有父关系;
110、至少基于每个实体的候选实体类别以及候选实体类别的所有父 实体类别,以及文本样本集的每个文本样本的每个实体的标注出的实体 类别(实际类别),至少使用TextCNN获取多层多分类损失;至少基于实 体对的候选关系以及候选关系的所有父关系,以及每个文本样本的语句 包组,至少使用分层注意力网络获取分层注意力损失;以及
112、基于分层多分类损失以及分层注意力损失构建关系抽取模型, 以标注出的关系类别作为训练目标对关系抽取模型进行训练。
本公开的关系抽取模型的建立方法在建立关系抽取模型时,在实体 约束方面,利用语义的限定性缩小分类空间,借鉴分层多分类的思想来 拟合实体间的DAG(有向无环图)结构。
假设一组实体对之间的内部关系不会超出它们背后类别的关系空间。
例如一个地名和另一个地名之间不可能存在“夫妻”这样的存在于 人物类别的关系,分层多分类的损失函数可以有效利用这一点,提高后 续关系抽取的准确率。具体实现时,可以按照分层多分类的方式,对具 有父子关系的节点输出结果矩阵做差并求二范数,加权并入到损失函数 中,使父子节点输出的关系分布不同的得到更大的惩罚(惩罚指得分很 低,例如“父亲”类别实体预测出一些“丈夫”类别实体的特有关系, 像“结婚日期”时,惩罚这种情况)。
本公开的关系抽取模型的建立方法在建立关系抽取模型时,在关系 分类方面,利用语义的传递性,即如果子类实体之间存在某种关系,则 父类实体一定可以存在这种关系或关系的父类关系。
例如“唐僧骑着白龙马”,“唐僧”属于人物类别,“白龙马”属于马 类别,可以知道“人物”可以骑“马”。
如果继续向上追溯,将“马”换为“动物”类别,“人物”骑“动物” 不符合先验定义,但“骑”这个关系的父类关系例如“驯服”是可以应 用到人物和动物之间的。
在训练样本中,“马”这个类别可能非常少,导致无法抽取出关系, 但如果使用分层注意力,将马的父类同时纳入考量,“动物”类实体可能 在样本中的数量会大大提升,此时可以抽取到一个“驯服”的关系,牺 牲了关系的粒度,但是增大了召回率。
面对一些样本数据极少的长尾类别无法准确拟合出其类别时,按照 其样本较大的父类可能的关系予以覆盖,虽然牺牲了一些粒度,但是会 大大提高关系抽取的召回。
本公开的关系抽取模型的建立方法最后将实体约束和关系分类两部 分通过损失函数连接在一起,形成一个联合模型即本公开的关系抽取模 型,同时提升关系抽取的准确率和召回率。
根据本公开的优选实施方式,对标注出实体、实体类别以及关系类 别的每个文本样本进行预处理,包括:
基于知识图谱的实体概念结构将标注后的文本样本集的每个文本样 本的样本空间的实体类别编码为实体类别向量,基于知识图谱的关系概 念结构将标注后的文本样本集的每个文本样本的样本空间的关系编码为 关系向量;获取文本样本集中的每个文本样本的词向量。
根据本公开的优选实施方式,文本样本的实体、实体类别以及关系 类别的标注,至少通过对文本样本集中的每个文本样本进行命名实体识 别(NER),从而标注出每个文本样本的实体、实体类别以及关系类别。
根据本公开的优选实施方式,预先构建的文本样本集的每个文本样 本的实体有向无环图基于知识图谱中的实体概念结构构造,预先构建的 文本样本集的每个文本样本的关系有向无环图基于知识图谱中的关系 概念结构构造。
上述实施方式中,实体类别向量优选为one-hot向量,关系向量优 选为one-hot向量,词向量优选为GloVe向量。
优选的,上述实施方式中,每个语句包由文本样本中的原文词汇组 成。
优选地,上述实施方式中,知识图谱可以为谷歌知识图谱或者百度 知识图谱。
根据本公开的优选实施方式,至少基于每个实体的候选实体类别以 及候选实体类别的所有父实体类别,以及文本样本集的每个文本样本的 每个实体的标注出的实体类别(实际类别),至少使用TextCNN获取多层 多分类损失,包括:
将词向量、实体类别向量以及基于实体有向无环图生成的实体类别 层级特征矩阵作为TextCNN的输入,其中,词向量使用TextCNN进行编 码。
根据本公开的优选实施方式,至少基于实体对的候选关系以及候选 关系的所有父关系,以及每个文本样本的语句包组,至少使用分层注意 力网络获取分层注意力损失,包括:
将每个语句包的语句的词向量以及词向量的位置编码作为分层注 意力网络的输入,使用分层注意力网络以及标准注意力机制对语句进行 编码,获得语句的嵌入表示;
基于所有语句的嵌入表示,以及实体对的候选关系以及候选关系的 所有父关系,使用标准注意力机制获得细粒度的关系表示;
基于细粒度的关系表示,对文本样本的关系有向无环图(DAG)中 在叶子节点到根节点之间的每一层关系计算一次标准注意力(标准 ATTENTION),获得分层注意力损失。
上述实施方式中,分层多分类损失的目标在于使子节点与父节点抽 取到的关系分布尽量相同,以达到相互校正提高准确率的目的。
Figure BDA0002789297730000111
λ(E)为分层多分类损失的一种函数形式,其中E={en:n∈N},N表 示DAG中的某叶子节点及它到根节点间所有的路径节点,n表示某一具体 节点,en表示训练数据中每个节点实际应该获取到的标签类别,eπ(n)表 示预测出的标签类别。
例如一个人实际具有“出生日期,姓名,性别,年龄,籍贯”,预测 出的类别包含“出生日期,海拔,年龄,肤色”,预测与实际不符的部分 将使得分变低,此得分将作为最终损失函数的组成部分。
上述实施方式中,知识图谱向量空间可以由实体entity、关系relation 和事实fact组成,G={E,R,F},样本空间由{h,r,t}组成,其中h∈E,t ∈E,r∈R,(h,r,t)∈F;为了将实体和关系向量化表示,先将训练数据 预训练为GloVe向量,将关系也映射为one-hot向量,此处增加一种空关 系,用来兼容两个实体间没有关系的情况。
根据本公开的优选实施方式,基于分层多分类损失以及分层注意力 损失构建关系抽取模型,以标注出的关系类别作为训练目标对关系抽取 模型进行训练,包括:
基于每个文本样本的语句包组、每个文本样本的关系有向无环图 (DAG)中在叶子节点到根节点之间的每一层关系以及文本样本的实体 有向无环图(DAG),计算交叉熵损失,使用随机梯度下降算法对交叉熵 损失进行优化,以获得关系抽取模型的模型参数。
最终的损失函数可以表达为:
Figure BDA0002789297730000112
其中π指所有语句包的集合,
Figure RE-GDA0002842357570000113
指L2正则,
Figure RE-GDA0002842357570000114
是 分层分类损失,
Figure RE-GDA0002842357570000115
指分层多分类的交叉熵损失 (即分层注意力损失)。
如图2所示,根据本公开的一个实施方式的关系抽取方法200,使 用上述任一个实施方式的建立方法建立的关系抽取模型进行关系抽取, 包括:
202、对目标文本进行实体识别,识别出目标文本的至少一个实体; 以及
204、使用关系抽取模型对进行了实体识别后的目标文本进行关系抽 取,将条件概率最大的关系作为目标文本的实体对关系。
根据本公开的优选实施方式,将大于预先设定的条件概率阈值的所 有关系作为目标文本的实体对关系。
图3是本公开的一个实施方式的具有关系抽取模型的建立装置和/或 关系抽取装置的电子设备1000结构示意图,如图3所示,关系抽取模型 的建立装置包括:
预处理模块1002,预处理模块1002获取标注后的文本样本集,标注 后的文本样本集包括多个标注出实体、实体类别以及关系类别的文本样 本;预处理模块1002对标注出实体、实体类别以及关系类别的每个文本 样本进行预处理;
语句包获取模块1004,语句包获取模块1004抽取出标注后的每个文 本样本中包含相同实体对的多个语句作为一个语句包,获取每个文本样 本的语句包组,每个文本样本的语句包组至少包括一个语句包;
候选实体类别及父类别获取模块1006,候选实体类别及父类别获取 模块1006至少基于预先构建的文本样本集的每个文本样本的实体有向无 环图以及标注出的文本样本集的每个文本样本的实体,获取每个实体的 候选实体类别以及候选实体类别的所有父实体类别;
候选关系及父类别获取模块1008,候选关系及父类别获取模块1008 至少基于预先构建的文本样本集的每个文本样本的关系有向无环图以及 每个实体的候选实体类别以及候选实体类别的所有父实体类别,获取实 体对的候选关系以及候选关系的所有父关系;
多层多分类损失获取模块1010,分层多分类损失获取模块1010至少 基于每个实体的候选实体类别以及候选实体类别的所有父实体类别,以 及文本样本集的每个文本样本的每个实体的标注出的实体类别(实际类 别),至少使用TextCNN获取多层多分类损失;
分层注意力损失获取模块1012,分层注意力损失获取模块1012至少 基于实体对的候选关系以及候选关系的所有父关系,以及每个文本样本 的语句包组,至少使用分层注意力网络获取分层注意力损失;以及
训练模块1014,训练模块1014基于分层多分类损失以及分层注意力 损失构建关系抽取模型,以标注出的关系类别作为训练目标对关系抽取 模型进行训练。
本公开的一个实施方式的关系抽取装置,包括:实体识别模块1016, 实体识别模块1016对目标文本进行实体识别,识别出目标文本的至少 一个实体;以及
根据上述关系抽取模型的建立装置建立的关系抽取模型,关系抽取 模型对进行了实体识别后的目标文本进行关系抽取,将条件概率最大的 关系作为目标文本的实体对关系。
该电子设备1000还可以包括执行上述方法中各个或几个步骤的 相应模块。因此,可以由相应模块执行上述方法中的每个步骤或几个 步骤,并且该电子设备1000还可以包括这些模块中的一个或多个模块。 模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者 由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介 质内用于由处理器来实现、或者通过某种组合来实现。
该电子设备1000的硬件结构可以利用总线架构来实现。总线架构 可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和 总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300 和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围 设备、电压调节器、功率管理电路、外部天线等的各种其它电路1400 连接。
总线1100可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或 扩展工业标准体系结构(EISA,Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。 为便于表示,该图中仅用一条连接线表示,但并不表示仅有一根总线 或一种类型的总线。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理 解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的 可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式 的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根 据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这 应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行 上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以 被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。 在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通 信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行 时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他 实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件) 而被配置为执行上述方法之一。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具 体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基 于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装 置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、 装置或设备而使用。
就本说明书而言,“可读存储介质”可以是任何可以包含、存储、 通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指 令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示 例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装 置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储 器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装 置,以及便携式只读存储器(CDROM)。另外,可读存储介质甚至可以 是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸 或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在存储器中。
应当理解,本公开的各部分可以用硬件、软件或它们的组合来实 现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由 合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现, 和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或 他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路 的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编 程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施方式方法的全 部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存 储于一种可读存储介质中,该程序在执行时,包括方法实施方式的步 骤之一或其组合。
此外,在本公开各个实施方式中的各功能单元可以集成在一个处 理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上 单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现, 也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模 块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可 读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实 施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指 结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包 含于本申请的至少一个实施方式/方式或示例中。在本说明书中,对上 述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且, 描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/ 方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本 领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例 以及不同实施方式/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指 示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此, 限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该 特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三 个等,除非另有明确具体的限定。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说 明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术 人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这 些变化或变型仍处于本公开的范围内。

Claims (10)

1.一种关系抽取模型的建立方法,其特征在于,包括:
获取标注后的文本样本集,所述标注后的文本样本集包括多个标注出实体、实体类别以及关系类别的文本样本;
对标注出实体、实体类别以及关系类别的每个文本样本进行预处理;
抽取出标注后的每个文本样本中包含相同实体对的多个语句作为一个语句包,获取每个文本样本的语句包组,每个文本样本的语句包组至少包括一个语句包;
至少基于预先构建的文本样本集的每个文本样本的实体有向无环图以及标注出的所述文本样本集的每个文本样本的实体,获取每个实体的候选实体类别以及候选实体类别的所有父实体类别;至少基于预先构建的文本样本集的每个文本样本的关系有向无环图以及每个实体的候选实体类别以及候选实体类别的所有父实体类别,获取实体对的候选关系以及候选关系的所有父关系;
至少基于每个实体的候选实体类别以及候选实体类别的所有父实体类别,以及所述文本样本集的每个文本样本的每个实体的标注出的实体类别,至少使用TextCNN获取多层多分类损失;至少基于实体对的候选关系以及候选关系的所有父关系,以及每个文本样本的语句包组,至少使用分层注意力网络获取分层注意力损失;以及
基于所述分层多分类损失以及所述分层注意力损失构建关系抽取模型,以标注出的关系类别作为训练目标对所述关系抽取模型进行训练。
2.根据权利要求1所述的关系抽取模型的建立方法,其特征在于,对标注出实体、实体类别以及关系类别的每个文本样本进行预处理,包括:
基于知识图谱的实体概念结构将标注后的文本样本集的每个文本样本的样本空间的实体类别编码为实体类别向量,基于知识图谱的关系概念结构将标注后的文本样本集的每个文本样本的样本空间的关系编码为关系向量;获取所述文本样本集中的每个文本样本的词向量。
3.根据权利要求1或2所述的关系抽取模型的建立方法,其特征在于,文本样本的实体、实体类别以及关系类别的标注,至少通过对文本样本集中的每个文本样本进行命名实体识别,从而标注出每个文本样本的实体、实体类别以及关系类别。
4.根据权利要求1至3中任一项所述的关系抽取模型的建立方法,其特征在于,所述预先构建的文本样本集的每个文本样本的实体有向无环图基于知识图谱中的实体概念结构构造,所述预先构建的文本样本集的每个文本样本的关系有向无环图基于知识图谱中的关系概念结构构造。
5.根据权利要求2所述的关系抽取模型的建立方法,其特征在于,所述实体类别向量优选为one-hot向量,所述关系向量优选为one-hot向量,所述词向量优选为GloVe向量。
6.一种关系抽取方法,其特征在于,使用权利要求1至5中任一项所述的建立方法建立的关系抽取模型进行关系抽取,包括:
对目标文本进行实体识别,识别出所述目标文本的至少一个实体;以及
使用所述关系抽取模型对进行了实体识别后的所述目标文本进行关系抽取,将条件概率最大的关系作为所述目标文本的实体对关系。
7.一种关系抽取模型的建立装置,其特征在于,包括:
预处理模块,所述预处理模块获取标注后的文本样本集,所述标注后的文本样本集包括多个标注出实体、实体类别以及关系类别的文本样本;所述预处理模块对标注出实体、实体类别以及关系类别的每个文本样本进行预处理;
语句包获取模块,所述语句包获取模块抽取出标注后的每个文本样本中包含相同实体对的多个语句作为一个语句包,获取每个文本样本的语句包组,每个文本样本的语句包组至少包括一个语句包;
候选实体类别及父类别获取模块,所述候选实体类别及父类别获取模块至少基于预先构建的文本样本集的每个文本样本的实体有向无环图以及标注出的所述文本样本集的每个文本样本的实体,获取每个实体的候选实体类别以及候选实体类别的所有父实体类别;
候选关系及父类别获取模块,所述候选关系及父类别获取模块至少基于预先构建的文本样本集的每个文本样本的关系有向无环图以及每个实体的候选实体类别以及候选实体类别的所有父实体类别,获取实体对的候选关系以及候选关系的所有父关系;
多层多分类损失获取模块,所述分层多分类损失获取模块至少基于每个实体的候选实体类别以及候选实体类别的所有父实体类别,以及所述文本样本集的每个文本样本的每个实体的标注出的实体类别,至少使用TextCNN获取多层多分类损失;
分层注意力损失获取模块,所述分层注意力损失获取模块至少基于实体对的候选关系以及候选关系的所有父关系,以及每个文本样本的语句包组,至少使用分层注意力网络获取分层注意力损失;以及
训练模块,所述训练模块基于所述分层多分类损失以及所述分层注意力损失构建关系抽取模型,以标注出的关系类别作为训练目标对所述关系抽取模型进行训练。
8.一种关系抽取装置,其特征在于,包括:
实体识别模块,所述实体识别模块对目标文本进行实体识别,识别出所述目标文本的至少一个实体;以及
根据权利要求1至5中任一项所述的方法建立的关系抽取模型,所述关系抽取模型对进行了实体识别后的所述目标文本进行关系抽取,将条件概率最大的关系作为所述目标文本的实体对关系。
9.一种电子设备,其特征在于,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行权利要求1至5中任一项所述的方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至5中任一项所述的方法。
CN202011309475.0A 2020-11-02 2020-11-20 关系抽取模型的建立方法以及关系抽取方法 Active CN112364166B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011201720 2020-11-02
CN2020112017206 2020-11-02

Publications (2)

Publication Number Publication Date
CN112364166A true CN112364166A (zh) 2021-02-12
CN112364166B CN112364166B (zh) 2022-02-01

Family

ID=74532998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011309475.0A Active CN112364166B (zh) 2020-11-02 2020-11-20 关系抽取模型的建立方法以及关系抽取方法

Country Status (1)

Country Link
CN (1) CN112364166B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378570A (zh) * 2021-06-01 2021-09-10 车智互联(北京)科技有限公司 一种实体识别模型的生成方法、计算设备及可读存储介质
CN113901151A (zh) * 2021-09-30 2022-01-07 北京有竹居网络技术有限公司 用于关系抽取的方法、装置、设备和介质
CN114398483A (zh) * 2021-12-10 2022-04-26 北京航空航天大学 一种预包装食品分类方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902171A (zh) * 2019-01-30 2019-06-18 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及系统
US20190303395A1 (en) * 2018-03-30 2019-10-03 State Street Corporation Techniques to determine portfolio relevant articles
US20200034465A1 (en) * 2018-07-30 2020-01-30 International Business Machines Corporation Increasing the accuracy of a statement by analyzing the relationships between entities in a knowledge graph
CN111324742A (zh) * 2020-02-10 2020-06-23 同方知网(北京)技术有限公司 一种数字人文知识图谱的构建方法
CN111324743A (zh) * 2020-02-14 2020-06-23 平安科技(深圳)有限公司 文本关系抽取的方法、装置、计算机设备及存储介质
CN111428036A (zh) * 2020-03-23 2020-07-17 浙江大学 一种基于生物医学文献的实体关系挖掘方法
CN111522959A (zh) * 2020-07-03 2020-08-11 科大讯飞(苏州)科技有限公司 实体分类方法、系统和计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190303395A1 (en) * 2018-03-30 2019-10-03 State Street Corporation Techniques to determine portfolio relevant articles
US20200034465A1 (en) * 2018-07-30 2020-01-30 International Business Machines Corporation Increasing the accuracy of a statement by analyzing the relationships between entities in a knowledge graph
CN109902171A (zh) * 2019-01-30 2019-06-18 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及系统
CN111324742A (zh) * 2020-02-10 2020-06-23 同方知网(北京)技术有限公司 一种数字人文知识图谱的构建方法
CN111324743A (zh) * 2020-02-14 2020-06-23 平安科技(深圳)有限公司 文本关系抽取的方法、装置、计算机设备及存储介质
CN111428036A (zh) * 2020-03-23 2020-07-17 浙江大学 一种基于生物医学文献的实体关系挖掘方法
CN111522959A (zh) * 2020-07-03 2020-08-11 科大讯飞(苏州)科技有限公司 实体分类方法、系统和计算机可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378570A (zh) * 2021-06-01 2021-09-10 车智互联(北京)科技有限公司 一种实体识别模型的生成方法、计算设备及可读存储介质
CN113378570B (zh) * 2021-06-01 2023-12-12 车智互联(北京)科技有限公司 一种实体识别模型的生成方法、计算设备及可读存储介质
CN113901151A (zh) * 2021-09-30 2022-01-07 北京有竹居网络技术有限公司 用于关系抽取的方法、装置、设备和介质
CN114398483A (zh) * 2021-12-10 2022-04-26 北京航空航天大学 一种预包装食品分类方法

Also Published As

Publication number Publication date
CN112364166B (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
CN107977361B (zh) 基于深度语义信息表示的中文临床医疗实体识别方法
CN112364166B (zh) 关系抽取模型的建立方法以及关系抽取方法
WO2023134084A1 (zh) 多标签识别方法、装置、电子设备及存储介质
CN112148916A (zh) 一种基于监督的跨模态检索方法、装置、设备及介质
CN110532558B (zh) 一种基于句子结构深层解析的多意图识别方法及系统
CN108416058A (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN112507704B (zh) 多意图识别方法、装置、设备及存储介质
CN113051356A (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN112613306B (zh) 抽取实体关系的方法、装置、电子设备、及存储介质
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN113177412A (zh) 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN114372470B (zh) 基于边界检测和提示学习的中文法律文本实体识别方法
CN111881292B (zh) 一种文本分类方法及装置
CN115577678A (zh) 文档级事件因果关系识别方法、系统、介质、设备及终端
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN112101031A (zh) 一种实体识别方法、终端设备及存储介质
CN111639185B (zh) 关系信息抽取方法、装置、电子设备和可读存储介质
CN113158676A (zh) 专业实体与关系联合抽取方法、系统及电子设备
US20220392205A1 (en) Method for training image recognition model based on semantic enhancement
CN113849653A (zh) 一种文本分类方法及装置
CN114528374A (zh) 一种基于图神经网络的电影评论情感分类方法及装置
CN116050352A (zh) 文本编码方法和装置、计算机设备及存储介质
CN115374325A (zh) 网站分类方法、装置、分类设备及存储介质
CN112395407A (zh) 企业实体关系的抽取方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant