CN110442725A - 实体关系抽取方法及装置 - Google Patents

实体关系抽取方法及装置 Download PDF

Info

Publication number
CN110442725A
CN110442725A CN201910750310.8A CN201910750310A CN110442725A CN 110442725 A CN110442725 A CN 110442725A CN 201910750310 A CN201910750310 A CN 201910750310A CN 110442725 A CN110442725 A CN 110442725A
Authority
CN
China
Prior art keywords
semantic relation
relationship
instance
cluster
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910750310.8A
Other languages
English (en)
Other versions
CN110442725B (zh
Inventor
何莹
李直旭
陈志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201910750310.8A priority Critical patent/CN110442725B/zh
Publication of CN110442725A publication Critical patent/CN110442725A/zh
Application granted granted Critical
Publication of CN110442725B publication Critical patent/CN110442725B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种实体关系抽取方法及装置,属于自然语言处理技术领域。包括:将实例输入至分类模型中,输出实例中实体对的语义关系,分类模型为树形结构,分类模型中最底层的每一叶子节点均包含一种已知的语义关系;树形结构是由最底层的叶子节点进行从下至上聚类后所确定的,树形结构为至少三层;分类模型中除最底层的叶子节点之外的节点均对应一个分类器。由于树形结构为至少三层,从而分类模型中包含两个以上的分类器。相较于通过一个分类器同时区分成不同的语义关系,通过两个以上的分类器可更容易区分语义相近的语义关系。另外,由于实例中实体对的语义关系是按照树形结构进行逐层分类所确定的,从而也可更容易区分语义相近的语义关系。

Description

实体关系抽取方法及装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种实体关系抽取方法及装置。
背景技术
随着互联网的快速发展,非结构化文本信息呈爆炸式的增长趋势,海量的数据为用户提供了一个取之不尽的信息源,但也使得信息抽取任务面临着严重的挑战。在相关技术中,主要使用的是基于远程监督的实体关系抽取方式。具体地,将关系抽取任务建模成一个单节点分类任务,也即利用一个分类器来区分语义关系。由于是通过一个分类器同时区分成千上万种语义关系,从而语义相近的实例在区分语义关系时容易被混淆,从而导致实例的实体关系抽取结果不准确。
发明内容
为了解决上述问题,本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的实体关系抽取方法及装置。
根据本发明实施例的第一方面,提供了一种实体关系抽取方法,包括:
将实例输入至分类模型中,输出实例中实体对的语义关系,分类模型为树形结构,分类模型中最底层的每一叶子节点均包含一种已知的语义关系;树形结构是由最底层的叶子节点进行从下至上聚类后所确定的,树形结构为至少三层;分类模型中除最底层的叶子节点之外的节点均对应一个分类器,分类模型中每一分类器均是基于已标注语义关系的样本实例进行训练后得到的。
根据本发明实施例的第二方面,提供了一种实体关系抽取装置,包括:
输出模块,用于将实例输入至分类模型中,输出实例中实体对的语义关系,分类模型为树形结构,分类模型中最底层的每一叶子节点均包含一种已知的语义关系;树形结构是由最底层的叶子节点进行从下至上聚类后所确定的,树形结构为至少三层;分类模型中除最底层的叶子节点之外的节点均对应一个分类器,分类模型中每一分类器均是基于已标注语义关系的样本实例进行训练后得到的。
根据本发明实施例的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与处理器通信连接的至少一个存储器,其中:
存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的实体关系抽取方法。
根据本发明的第四方面,提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的实体关系抽取方法。
本发明实施例提供的实体关系抽取方法及装置,通过根据语义关系之间的相似性,对语义关系进行从下至上的聚类,以得到树形结构的分类模型。将实例输入至分类模型中,可输出实例中实体对的语义关系。由于树形结构为至少三层,从而分类模型中至少包含两个以上的分类器。相较于通过一个分类器同时区分成不同的语义关系,通过两个以上的分类器可以更容易区分语义相近的语义关系。另外,由于实例中实体对的语义关系是按照树形结构进行逐层分类所确定的,从而也可以更容易区分语义相近的语义关系。
应当理解的是,以上的一般描述和后文的细节描述是示例性和解释性的,并不能限制本发明实施例。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中提供的一种PCNN模型的结构示意图;
图2为本发明实施例提供的一种实体关系抽取方法的流程示意图;
图3为本发明实施例提供的一种树形结构的构建示意图;
图4为本发明实施例提供的一种树形结构的剪枝过程示意图;
图5为本发明实施例提供的一种树形结构的剪枝过程示意图;
图6为本发明实施例提供的一种树形结构的示意图;
图7为本发明实施例提供的一种正负样本实例的选择过程示意图;
图8为本发明实施例提供的一种第一曲线与第二曲线之间的映射关系示意图;
图9为本发明实施例提供的一种电子设备的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实体关系抽取,主要指的是从自然语言文本中抽取某种指定语义关系的实体对,即将自然语言文本转化成结构化的三元组形式(entity1,relation,entity2)存储。例如,自然语言文本“中国的首都是北京”可用三元组(中国,首都,北京)表示。其中,XX是XX的首都,就是一种语义关系。目前,实体关系抽取根据监督模式的不同,可将目前使用范围较广的实体关系抽取方法大致分成两类:基于半监督的实体关系抽取方法和基于远程监督的实体关系抽取方法。
其中,基于半监督学习的实体关系抽取方法主要是通过少量的标记语料生成抽取模式(pattern),反过来利用这些抽取模式(pattern),可以从文本中抽取到新的三元组。如此迭代,新抽取到的三元组可以生成更多的抽取模式(pattern),同时新的抽取模式(pattern)又会抽取到更多的三元组。
虽然,基于半监督的实体关系抽取方法只需要少量的标记语料,但这类方法由于是直接从作为样本的标记语料生成抽取模式,样本的质量直接影响着抽取模式,从而导致抽取结果的质量对样本的敏感度较高,也即样本的质量直接决定着抽取的质量。其次,由于每次迭代生成的抽取模式都是针对固定某种语义关系,从而每轮迭代只能抽取某种语义关系下的三元组。另外,多次迭代循环处理会导致大量的时间开销。最后,前几轮迭代中抽取到的错误抽取模式或三元组会引入更多的错误抽取模式和三元组,极大地影响了抽取的质量。
而现有的基于远程监督的实体关系抽取方法可解决上述问题,基于远程监督的实体关系抽取方法主要是结合embedding和CNN构建预测模型,其中效果较好地是PCNN(Piece-Wise-CNN)模型,其基本结构如图1所示。向量表示层的输入除了学习句中每个单词的embedding之外,还考虑到越靠近目标实体的单词为实体关系的预测任务提供的信息越重要,从而添加了单词的位置向量。然后,通过卷积层学习句子层级的特征,池化层一般化特征,最后利用Softmax判断句子最有可能表示的语义关系。这类方法不仅解决了基于半监督学习的实体关系抽取方法中因训练语料规模不足所导致的一系列问题,而且能自动地学习特征,节省了大量的人工和时间。
然而,目前基于远程监督的实体关系抽取方法,其主要是将关系抽取任务建模成一个单节点分类任务,也即利用一个分类器来区分语义关系。由于是通过一个分类器同时区分成千上万种语义关系,从而语义相近的实例在区分语义关系时容易被混淆,从而导致实例的实体关系抽取结果不准确。
针对上述问题,本发明实施例提供了一种实体关系抽取方法。参见图2,该方法包括:201、获取实例;202、将实例输入至分类模型中,输出实例中实体对的语义关系,分类模型为树形结构,分类模型中最底层的每一叶子节点均包含一种已知的语义关系;树形结构是由最底层的叶子节点进行从下至上聚类后所确定的,树形结构为至少三层;分类模型中除最底层的叶子节点之外的节点均对应一个分类器,分类模型中每一分类器均是基于已标注语义关系的样本实例进行训练后得到的。
在201中,实例可以为具体的文本,如一个句子,通过分类模型可以确定该句子中实体对的语义关系。实例还可以为由若干个文本组成的实体包,通过分类模型可以确定该实体包整体对应的语义关系。其中,若干个文本均包含相同的实体对。
在202中,需要说明的是,每一分类器根据需求可采用不同的模型,如可以采用PCNN模型,本发明实施例对此不作具体限定。
另外,在通过分类模型确定实例中实体对的语义关系时,实例会按照分类模型的树形结构逐层被划分至下层节点,直至被划分至最底层的叶子节点。由于最底层的叶子节点均包含一种已知的语义关系,从而最终可根据实例被划分至的最底层的叶子节点,确定该实例中实体对的语义关系。
本发明实施例提供的方法,通过根据语义关系之间的相似性,对语义关系进行从下至上的聚类,以得到树形结构的分类模型。将实例输入至分类模型中,可输出实例中实体对的语义关系。由于树形结构为至少三层,从而分类模型中至少包含两个以上的分类器。相较于通过一个分类器同时区分成不同的语义关系,通过两个以上的分类器可以更容易区分语义相近的语义关系。另外,由于实例中实体对的语义关系是按照树形结构进行逐层分类所确定的,从而也可以更容易区分语义相近的语义关系。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不对构建树形结构的方式作具体限定,包括但不限于:将最底层的每一叶子节点作为一个关系簇,并由所有关系簇组成关系簇集合,根据关系簇集合,构建树形结构。
关于根据关系簇集合,构建树形结构的方式,本发明实施例对此不作具体限定。具体地,可依据关系簇之间的相关性,将关系簇集合中的关系簇进行两两组合,以构成树形结构。其中,相关性可以通过语义关系之间的相似度进行体现,本发明实施例对此不作具体限定。需要说明的是,由上述实施例的内容可知,最底层的每一叶子节点均包含一种已知的语义关系,将最底层的叶子节点作为关系簇,关系簇之间的组合其实质是语义关系的组合。
例如,以最底层的一个叶子节点A包含一种语义关系a,最底层的一个叶子节点B包含一种语义关系b为例,可将叶子节点A作为关系簇A,将叶子节点B作为关系簇B,将关系簇A与关系簇B进行组合,可以得到新的节点C,也即关系簇C。此时,关系簇C即包含语义关系a和b。另外,在上述组合过程中,可以确定在树形结构中,A和B均是C的孩子节点,而C是A和B的父节点。而关系簇每次的组合过程中均会产生这样的组合关系,后续可以依据这样的组合关系,构建树形结构。
本发明实施例提供的方法,由于树形结构为至少三层,从而分类模型中至少包含两个以上的分类器。相较于通过一个分类器同时区分成不同的语义关系,通过两个以上的分类器可以更容易区分语义相近的语义关系。另外,由于实例中实体对的语义关系是按照树形结构进行逐层分类所确定的,从而也可以更容易区分语义相近的语义关系。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不对根据关系簇集合,构建树形结构的方式作具体限定,包括但不限于:获取关系簇集合中每两个关系簇之间的关系簇相似度,若最大关系簇相似度大于第一预设阈值,则将最大关系簇相似度对应的两个关系簇组合成新的关系簇添加至关系簇集合中,并从关系簇集合中删除最大关系簇相似度对应的两个关系簇,重复上述过程,直至关系簇集合中每两个关系簇之间的关系簇相似度均不大于第一预设阈值为止;根据每次组合成新的关系簇时的组合关系,构建树形结构。
具体地,对于初始的情形,也即关系簇集合中每一关系簇均是最底层的叶子节点。此时,可先计算关系簇集合中每两个关系簇之间的关系簇相似度。其中,关系簇相似度可以根据关系簇包含的语义关系所确定,本发明实施例对此不作具体限定。在计算完每两个关系簇之间的关系簇相似度,可从所有计算得到的所有关系簇相似度中确定最大关系簇相似度。将最大关系簇相似度对应的两个关系簇组合成新的关系簇添加至关系簇集合中,并从关系簇集合中删除最大关系簇相似度对应的两个关系簇。此时,根据上述两个关系簇组合成新的关系簇时的组合关系,按照上述示例中关系簇A与关系簇B组合成树结构的方式,开始构建树形结构。
随着上述过程迭代执行,关系簇集合中的关系簇不仅限于最底层的叶子节点,还会包含由最底层的叶子节点经过多次组合后形成的关系簇。无论关系簇是哪种类型,均可以采用上述方式重复进行关系簇集合中关系簇的组合,直至关系簇集合中不再存在一组关系簇,其之间的关系簇相似度大于第一预设阈值为止。其中,第一预设阈值的取值可以根据实际需求进行设置,本发明实施例对此不作具体限定。此时,按照每次执行上述过程时产生的组合关系,可以基本完成树形结构的构建。具体如图3所示,图3示出了一种构建树形结构的可能结果。在图3中,最底层的关系簇(叶子节点)按照上述过程,从下至上可基本完成树形结构的构建。例如,最底层的叶子节点1与节点2进行组合可得到关系簇6,最底层的叶子节点3与节点4进行组合可得到关系簇7,关系簇6与关系簇7进行组合可得到关系簇8,最底层的叶子节点5与关系簇8进行组合可得到关系簇9。
由上述过程可知,关系簇组合到最后,关系簇集合还是会剩下一些关系簇无法再继续进行组合。这些关系簇在上述构建得到的树形结构中,体现为没有父节点的节点。如图3所示,这些节点要么通过组合形成了一颗二叉树,要么为一个孤立节点(也即最底层的叶子节点中一直没有参与组合的叶子节点)。而形成完整的树形结构,这些节点必须要继续向上汇聚,以汇聚到根节点。因此,在通过上述过程完成类似图3的基本树形结构后,需要进一步对树形结构进行完善。
语义关系通常是由实体对进行体现的,如在“乔布斯是苹果公司的CEO”这句话中,语义关系为XX是XX的CEO,该语义关系是通过“乔布斯”与“苹果公司”这对实体对进行体现的。而实体的类型主要为3种,分别是人物、地点及组织关系,从而实体对的组合类型主要为6种,分别为人物-人物、地点-地点、组织关系-组织关系、人物-地点、人物-组织关系及地点-组织关系。而每种语义关系其可能与哪种实体对的组合类型产生关联也是可以确定。例如,语义关系“XX是XX的CEO”,该语义关系只可能与“人物-组织关系”这个实体对的组合类型产生关联。
综上,可以将每种实体对的组合类型作为一个节点,按照语义关系与实体对的组合类型之间的关联性,将关系簇集合中剩下的关系簇所对应的节点连接至实体对的组合类型所对应的节点。然后,将每种实体对的组合类型对应的节点连接至同一个根节点。此时,即可构建成完整的树形结构。
本发明实施例提供的方法,由于树形结构为至少三层,从而分类模型中至少包含两个以上的分类器。相较于通过一个分类器同时区分成不同的语义关系,通过两个以上的分类器可以更容易区分语义相近的语义关系。另外,由于实例中实体对的语义关系是按照树形结构进行逐层分类所确定的,从而也可以更容易区分语义相近的语义关系。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不对获取关系簇集合中每两个关系簇之间的关系簇相似度的方式作具体限定,包括但不限于:对于关系簇集合中任意两个关系簇,将任意两个关系簇分别作为第一关系簇及第二关系簇,获取第一关系簇中包含的每种语义关系与第二关系簇中包含的每种语义关系之间的语义关系相似度;根据第一关系簇中包含的每种语义关系与第二关系簇中包含的每种语义关系之间的语义关系相似度,确定第一关系簇与第二关系簇之间的关系簇相似度。
例如,以第一关系簇为A,第二关系簇为B,且A与B均包含两种以上的语义关系为例。若A包含r1、r2及r3这三种语义关系,而B包含r4及r5这两种语义关系,则可以计算r1分别与r4及r5之间的语义关系相似度、r2分别与r4及r5之间的语义关系相似度,以及r3分别与r4及r5之间的语义关系相似度。在得到上述所有语义相似度后,可以根据这些语义相似度,进一步确定第一关系簇与第二关系簇之间的关系簇相似度。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不对获取第一关系簇中包含的每种语义关系与第二关系簇中包含的每种语义关系之间的语义关系相似度的方式作具体限定,包括但不限于:对于第一关系簇中包含的任一种语义关系及第二关系簇中包含的任一种语义关系,将两种语义关系分别作为第一语义关系及第二语义关系,确定知识库中包含第一语义关系的实体对,并组成第一实体对集合,确定知识库中包含第二语义关系的实体对,并组成第二实体对集合;根据第一实体对集合及第二实体对集合,获取第一语义关系与第二语义关系之间的语义关系相似度。其中,知识库可以通过预先收集得到,知识库中包含已经确定实体关系的实体对。
例如,以第一语义关系为ri,第二语义关系为rj为例。在知识库中可以确定所有包含ri的实体对,并由这些实体对组成第一实体对集合Pi。在知识库中可以确定所有包含rj的实体对,并由这些实体对组成第一实体对集合Pj。由于Pi及Pj中会存在一些实体对在知识库中包含有相同的语义关系,而这在反映Pi中的实体对与Pj中的实体对之间的相似性同时,还可以进一步反映出ri与rj之间的相似性,从而依据该特性,根据Pi及Pj,可以计算出ri与rj之间的语义关系相似度。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不对根据第一实体对集合及第二实体对集合,获取第一语义关系与第二语义关系之间的语义关系相似度的方式作具体限定,包括但不限于:获取第一实体对集合中每一实体对与第二实体对集合中每一实体对之间的相似度;根据第一实体对集合中实体对的数量、第二实体对集合中实体对的数量、以及第一实体对集合中每一实体对与第二实体对集合中每一实体对之间的相似度,获取第一语义关系与第二语义关系之间的语义关系相似度。
其中,以第一语义关系为ri,第二语义关系为rj为例,ri与rj之间的语义关系相似度可以记为rSim(ri,rj)。本发明实施例不对根据第一实体对集合中实体对的数量、第二实体对集合中实体对的数量、以及第一实体对集合中每一实体对与第二实体对集合中每一实体对之间的相似度,获取第一语义关系与第二语义关系之间的语义关系相似度的方式作具体限定,包括但不限于通过如下公式进行计算:
在上述公式中,|Pi|表示第一实体对集合中实体对的数量,|Pj|表示第二实体对集合中实体对的数量,min(|Pi|,|Pj|)表示取两者间的较小值。表示Pi中的实体对与Pj中的实体对之间的相似度,前面求和符号指的是将对于由Pi中的实体对及Pj中的实体对组合而成的每一组实体对,计算每一组实体对内的两个实体对之间的相似度,再将所有实体对组对应的相似度进行求和。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不对获取第一实体对集合中每一实体对与第二实体对集合中每一实体对之间的相似度的方式作具体限定,包括但不限于:对于第一实体对集合中的任一个实体对及第二实体对集合中的任一个实体对,将两个实体对分别作为第一实体对及第二实体对,确定第一实体对在知识库中出现过的所有语义关系,并作为第一语义关系集合,确定第二实体对在知识库中出现过的所有语义关系,并作为第二语义关系集合;根据第一语义关系集合、第二语义关系集合及知识库,获取第一实体对与第二实体对之间的相似度。
例如,以第一实体对集合Pi包含的实体对为{p1、p4、p3},而第二实体对集合Pj包含的实体对为{p2、p5}为例。为了便于理解,以获取第一实体对集合中的实体对p1与第二实体对集合中的实体对p2之间的相似度为例,也即将p1作为第一实体对,而p2作为第二实体对。若确定p1在知识库中出现过的所有语义关系,所组成的第一语义关系集合为Ri={r1、r2}。而p2在知识库中出现过的所有语义关系,所组成的第二语义关系集合为Rj={r1、r3}。此时,根据Ri、Rj及知识库,即可计算出p1与p2之间的相似度。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不对根据第一语义关系集合、第二语义关系集合及知识库,获取第一实体对与第二实体对之间的相似度的方式作具体限定,包括但不限于:获取第一语义关系集合与第二语义关系集合之间的交集,并获取第一语义关系集合与第二语义关系集合之间的并集;根据交集中每种语义关系在知识库中出现的次数及并集中每种语义关系在知识库中出现的次数,确定第一实体对与第二实体对之间的相似度。
其中,以Pi中的实体对为第一实体对,Pj中的实体对为第二实体对为例,之间的相似度可通过进行表示。本发明实施例不对根据交集中每种语义关系在知识库中出现的次数及并集中每种语义关系在知识库中出现的次数,确定第一实体对与第二实体对之间的相似度的方式作具体限定,包括但不限于通过如下公式进行计算:
在上述公式中,分子表示交集中每种语义关系在知识库中出现的次数之和,分母表示并集中每种语义关系在知识库中出现的次数之和。
例如,基于上述示例,第一语义关系集合为Ri={r1、r2},第二语义关系集合为Rj={r1、r3}。由此可知,Ri与Rj之间的交集为{r1},而Ri与Rj之间的并集为{r1、r2、r3}。若r1在知识库中出现的次数为5次,而r2在知识库中出现的次数为3次,r3在知识库中出现的次数为9次,则 也即之间的相似度为0.294。
按照上述实体对之间相似度的计算方式,可以获取第一实体对集合中每一实体对与第二实体对集合中每一实体对之间的相似度,从而根据第一实体对集合中实体对的数量、第二实体对集合中实体对的数量、以及第一实体对集合中每一实体对与第二实体对集合中每一实体对之间的相似度,可获取第一语义关系与第二语义关系之间的语义关系相似度。接着,按照上述语义关系之间语义关系相似度的计算方式,可以获取第一关系簇中包含的每种语义关系与第二关系簇中包含的每种语义关系之间的语义关系相似度,从而根据第一关系簇中包含的每种语义关系与第二关系簇中包含的每种语义关系之间的语义关系相似度,可确定第一关系簇与第二关系簇之间的关系簇相似度。
考虑到关系簇中包含的语义关系可能有一种,也可能会有多种,从而可结合关系簇中具体包含的语义关系,计算关系簇之间的关系簇相似度。基于上述说明及上述实施例的内容,作为一种可选实施例,本发明实施例不对根据第一关系簇中包含的每种语义关系与第二关系簇中包含的每种语义关系之间的语义关系相似度,确定第一关系簇与第二关系簇之间的关系簇相似度的方式作具体限定,包括但不限于:若第一关系簇与第二关系簇均仅包含一种语义关系,则将第一关系簇中包含的语义关系与第二关系簇中包含的语义关系之间的语义关系相似度,作为第一关系簇与第二关系簇之间的关系簇相似度;若第一关系簇与第二关系簇中存在关系簇包含两种以上的语义关系,则根据第一关系簇中包含的每种语义关系与第二关系簇中包含的每种语义关系之间的语义关系相似度,确定最大语义关系相似度,并将最大语义关系相似度作为第一关系簇与第二关系簇之间的关系簇相似度。
具体地,若第一关系簇与第二关系簇均仅包含一种语义关系,也即说明第一关系簇与第二关系簇实则均为最底层的叶子节点。此时,对于两个叶子节点分别包含的语义关系,可直接按照上述计算过程,计算两种语义关系之间的语义关系相似度,作为第一关系簇与第二关系簇之间的关系簇相似度。若第一关系簇与第二关系簇中存在关系簇包含两种以上的语义关系,则第一关系簇与第二关系簇之间的关系簇相似度的计算过程可参考如下公式:
在上述公式中,Ca表示第一关系簇,Cb表示第二关系簇,Sim(Ca,Cb)表示第一关系簇与第二关系簇之间的关系簇相似度。rSim(ri,rj)表示Ca中包含的语义关系ri与Cb中包含的语义关系rj之间的语义关系相似度,从所有语义关系相似度中选取max最大值,即为Ca与Cb之间的关系簇相似度。通过上述过程可计算关系簇之间的关系簇相似度,根据关系簇相似度即可对关系簇集合中的关系簇进行组合,以构建得到树形结构。
考虑到利用树形结构的分类模型进行分类时,若存在节点(关系簇)其包含的语义关系过于少,则在通过该节点进行分类时,往往起不到较好分类效果,反而增加了分类次数,使得时间复杂度更高。针对该情形,在根据每次组合成新的关系簇时的组合关系,构建树形结构之后,还可以对构建得到的树形结构进行剪枝。
关于对构建得到的树形结构进行剪枝的方式,本发明实施例对此不作具体限定,包括但不限于:遍历树形结构,若树形结构中存在满足第一预设条件的目标节点,则从树形结构中删除目标节点及目标节点以下的其它目标节点,并将目标节点以下所有最底层的叶子节点与目标节点的父节点直接连接,重复上述遍历及删除过程,直至树形结构不存在满足第一预设条件的目标节点为止;其中,目标节点为树形结构中除最底层的叶子节点之外的节点,第一预设条件为目标节点以下所有最底层的叶子节点的总数量小于第二预设阈值。
其中,第二预设阈值的取值可以根据实际需求进行设置,本发明实施例对此不作具体限定。为了便于理解,现以图4中的树形结构为例,对剪枝的过程进行说明。在图4中,以节点(关系簇)C2包含的语义关系的种类为4、节点C1包含的语义关系的种类为2,节点C5包含的语义关系的种类为3为例。其中,节点C2包含的语义关系的种类为4,也即节点C2以下所有最底层的叶子节点的总数量为4。同理,节点C1以下所有最底层的叶子节点的总数量为2,节点C5以下所有最底层的叶子节点的总数量为3。
以第一预设阈值为5为例,按照上述第一预设条件的定义以及上述剪枝策略,由于节点C2以下所有最底层的叶子节点的总数量为4,是小于5的,且节点C2不为最底层的叶子节点,从而可从树形结构中删除C2,并将C2以下所有最底层的叶子节点与C2的父节点直接连接,也即与C3连接。同理,由于C1及C5具有相同的父节点C6,从而可以从树形结构中删除C1及C5,并分别将C1与C5以下所有最底层的叶子节点与父节点C6直接连接。经过上述剪枝过程,剪枝后得到的树形结构可参考图5。需要说明的是,由于经过剪枝后,树形结构会进行新的重组,从而树形结构可能不再是由之前两两组合形成的二叉树结构,而是多分枝结构。
本发明实施例提供的方法,通过对分类模型的树形结构进行剪枝,从而可解决一些节点因其包含的语义关系过于少,导致在通过该节点进行分类时,不能起到较好分类效果,反而增加了分类次数的问题。因此,对树形结构进行剪枝,可降低后续分类时的时间复杂度。
通过上述过程,在构建得到树形结构后,可进一步对树形结构每一节点,也即分类模型中每一分类器进行训练。为了便于理解分类器的训练过程,本发明实施例以分类模型中每一分类器为PCNN模型为例,分类模型的树形结构可具体参考图6。在图6中,最上面的节点为根节点。由于样本实例的语义关系已经标注,从而每一样本实例在分类正确的前提下,每一样本实例被分类至根节点下哪一个孩子节点是可以确定的。基于该关系,可先利用大量已标注语义关系的样本示例对根节点的分类器进行训练。
在训练完根节点的分类器后,对于任一样本实例,可将该样本实例输入至根节点的分类器,根节点的分类器可以输出该样本实例与根节点的每一孩子节点之间的匹配度。确定所有匹配度中的最大匹配度,可将该样本实例分配至最大匹配度对应的孩子节点,并将该样本实例用于训练该孩子节点的分类器。其它的样本实例同理,也可以按照上述方式进行分配。通过这样逐层向下的训练过程,可以完成分类模型中所有分类器的训练。
基于上述实施例的内容,作为一种可选实施例,样本实例可以分为正样本实例及负样本实例,训练过程中可以利用正样本实例及负样本实例对分类器进行训练。
由上述过程可知,在分配样本实例时,是按照与节点之间的匹配度进行分类的。例如,如图6所示,某一样本实例在用于训练完根节点的分类器后,若该样本实例与根节点最左边的孩子节点之间的匹配度是最大的,则按照上述样本实例向下分配的方式,该样本实例需被分配至根节点最左边的孩子节点,以用于对该孩子节点进行训练。而依据该样本实例其已标注的语义关系,该样本实例应当被分配至最右边的孩子节点。此时,若不对该样本实例进行调整,继续将该样本实例作为正样本实例,用于训练最左边孩子节点的分类器,则会影响该分类器后续分类时的准确度。
为了解决上述问题,在按照上述过程从上至下分配样本实例的同时,还可以对正负样本实例进行选择。基于上述实施例的内容,作为一种可选实施例,本发明实施例不对正负样本实例的选择过程作具体限定,包括但不限于:对于分类模型中任一对作为父子节点的两个分类器,将两个分类器分别作为第一分类器及第二分类器,第一分类器在分类模型中与第二分类器直接连接且作为第二分类器的父节点;对于用于训练第一分类器的任一正样本实例,若任一正样本实例被分配至用于继续训练第二分类器且分配错误,则将任一正样本实例作为第二分类器的负样本实例,并用于训练第二分类器。
为了便于理解,现结合图7对正负样本实例的选择过程进行说明。在图7中,位于上层的为父节点,也即第一分类器,位于下层左侧的为孩子节点,也即为第二分类器,而位于右边的兄弟节点则可以作为第三分类器。在第一分类器中位于左边框内的“减号”,表示第一分类器的负样本实例,而位于右边框内的“加号”,表示第一分类器的正样本实例。对于第一分类器右边框内的任一“加号”,也即任一正样本实例,若该正样本实例按照匹配度的大小被分配至用于继续训练第二分类器,而实际该正样本实例应该是作为第三分类器的正样本实例,也即分配错误。此时,可将该正样本实例作为第二分类器的负样本实例对第二分类器进行训练。如图7中所示,child node1中左边框中的加号,即为被分配错误的正样本实例可被作为负样本实例,用于训练child node1的分类器。
本发明实施例提供的方法,由于可以对正负样本实例进行选择,从而可以避免正样本实例的误分配,进而提高分类器的训练效果。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不对将实例输入至分类模型中,输出实例中实体对的语义关系的方式作具体限定,包括但不限于:将实例从上至下遍历分类模型,对于实例遍历至的任一节点,将实例输入至任一节点对应的分类器中,输出实例与任一节点的每一孩子节点之间的匹配度,将实例划分至最大匹配度对应的孩子节点,重复上述遍历及划分过程,直至实例遍历至最底层的叶子节点为止,将实例被划分至的最底层的叶子节点所包含的语义关系,作为实例中实体对的语义关系。
具体地,该过程中的实例可以为待确定语义关系的实例,也可以为用于测试的样本实例,本发明实施例对此不作具体限定。以用于测试的样本实例为例,测试样本实例会从根节点开始,会被一步步地划分到某个最底层的叶子结点,且该最底层的叶子节点所包含的语义关系,即为该测试样本实例的最终标注结果。
由上述实施例的内容可知,实际实施过程中,实例可以为具体的文本,如句子,通过分类模型可以确定该句子中实体对的语义关系。实例还可以为由若干个文本组成的实体包,通过分类模型可以确定该实体包整体对应的语义关系。其中,若干个文本均包含相同的实体对。而在实例为实体包时,实际利用分类模型确定实体包的语义关系的结果,可以用于反向对分类模型进行更新。通过该更新过程,可以解决相关技术中远程监督的实体关系抽取方法所存在的问题:不同语义关系之间用于训练的样本实例其数量不平衡,会导致分类模型忽略对只有少量训练样本实例的语义关系的学习,从而导致严重的分类错误。
基于上述说明及上述实施例的内容,作为一种可选实施例,在将实例输入至分类模型中,输出实例中实体对的语义关系之后,还可以依据实例的输出结果反向对分类模型进行更新。关于对分类模型进行更新的方式,本发明实施例对此不作具体限定,包括但不限于:获取实例输入至分类模型后,输出的匹配度列表,匹配度列表是由实例与目标节点之间的匹配度,以及实例与目标节点的每一兄弟节点之间的匹配度所组成的,目标节点为实例被划分至的最底层的叶子节点;确定匹配度列表中大于第三预设阈值的匹配度,根据大于第三预设阈值的匹配度所对应的语义关系对实例进行标注,并根据标注后的实例对分类模型中的分类器进行训练。
其中,第三预设阈值的取值可以根据实际需求进行设置,本发明实施例对此不作具体限定。具体地,第三预设阈值可以通过学习第一曲线与第二曲线之间的映射关系mapping,从而获取使得训练结果中精确率大于第五预设阈值的匹配度值,并将该匹配度值作为第三预设阈值。其中,第五预设阈值可以为0.95,本发明实施例对此不作具体限定。第一曲线为分类模型训练过程中精确率和置信度之间的曲线,第二曲线为分类模型测试过程中精确率与匹配度之间的曲线。其中,曲线之间的mapping过程可参考图8。在图8中,位于上方的两条线分别为第一曲线及第一曲线拟合后的直线,位于下方的两条线分别为第二曲线以及第二曲线拟合后的直线,由图8可知第五预设阈值为0.95时,第三预设阈值大于0.95且大概为0.952。
为了便于理解,现以图4为例,对更新过程进行说明。对于某实例,若该实例被分配至“CTO-of”这个最底层的叶子节点,也即节点(分类器)C5下的孩子节点。此时,可以获取由C5输出的该实例与“CTO-of”这个叶子节点之间的匹配度,还可以获取由C5输出的该实例分别与“CFO-of”及“CIO-of”之间的匹配度,也即该实例与“CTO-of”这个节点的每一兄弟节点之间的匹配度。
若该实例与“CTO-of”这个叶子节点之间的匹配度为0.94,且作为最大匹配度,该实例与“CFO-of”这个叶子节点之间的匹配度为0.83,该实例与“CIO-of”这个叶子节点之间的匹配度为0.78,而第三预设阈值为0.8,则可以确定大于第三预设阈值的匹配度所对应的语义关系为“CTO-of”及“CFO-of”这两种。此时,可以利用这两种语义关系分别对该实例进行标注,从而作为两种样本实例对分类模型中的分类器进行训练。
在实例数量增多时,不同实例通过分类模型后最终输出的匹配度,其取值范围可能不同的。以图4为例,某一实例被分配至C5,且通过C5后得到的3个匹配度其取值可能都在0.8左右,如上述示例中的0.94、0.83及0.78。而另一个实例被分配至C1,且通过C1后得到的2个匹配度其取值可能都在2以上。由此可见,若将通过C5后得到的3个匹配度作为一个匹配度列表,将通过C1后得到的2个匹配度作为另一个匹配度列表。由此可见,这两个匹配度列表的取值范围是不同的。若需要利用多个实例对分类模型进行更新,则不同实例对应的匹配度列表其取值范围需要统一成一个标准,从而以多个实例为基础,从全局角度对分类模型进行更新。
基于上述说明及上述实施例的内容,作为一种可选实施例,在实例为多个时,在将实例输入至分类模型中,输出实例中实体对的语义关系之后,还可以依据实例的输出结果反向对分类模型进行更新。
关于对分类模型进行更新的方式,本发明实施例对此不作具体限定,包括但不限于:将所有实例组成实例集合,获取实例集合中每一实例输入至分类模型后,输出的匹配度列表,并对每一实例的匹配度列表进行标准化,确定实例集合对应的所有匹配度列表中大于第四预设阈值的匹配度,并根据大于第四预设阈值的匹配度所对应的语义关系,对大于第四预设阈值的匹配度所对应的实例进行标注,并根据标注后的实例对分类模型中的分类器进行训练。
其中,对于任一实例,任一实例的匹配度列表是由任一实例与目标节点之间的匹配度,以及任一实例与目标节点的每一兄弟节点之间的匹配度所组成的,目标节点为任一实例被划分至的最底层的叶子节点。另外,第四预设阈值的取值可以根据实际需求进行设置,本发明实施例对此不作具体限定。
具体地,为了便于理解标准化过程,结合图4,以某一实例被分配至C5,且通过C5后得到的3个匹配度,对该3个匹配度组成的匹配度列表进行标准化为例。其中,标准化过程可参考如下公式:
在上述公式中,s表示该3个匹配度中的某一匹配度,min(score)表示该3个匹配度中的最小值,max(score)表示该三个匹配度中的最大值,news表示对s进行标准化后的值。通过上述公式,可以计算得到该3个匹配度中每一匹配度标准化后的值。
在对匹配度列表进行标准化后,可以使得所有匹配度列表都对应同一取值范围,也即0至1。此时,可以对实例集合中所有实例的匹配度列表中的匹配度进行整体排序,并确定这些匹配度哪些匹配度是大于第四预设阈值的。在确定哪些匹配度大于第四预设阈值之后,由于这些大于第四预设阈值的匹配度,其所属的实例及语义关系都是确定的,从而可直接对实例进行标注。例如,对于某一大于第四预设阈值的匹配度,可利用该匹配度对应的语义关系对该匹配度对应的实例进行标注。接着,可利用这些已标注的实例,对分类模型中的分类器进行训练。
需要说明的是,在利用这些已标注的实例,对分类模型中的分类器进行训练后,可从实例集合中删除这些已经用于训练的实例。由于对分类模型进行了再次训练,从而实例集合中剩下的实例在通过分类模型,输出的匹配度其值也会发生改变,可能会再次产生大于第四预设阈值的匹配度。此时,实例集合可能还具有继续被用于训练的价值,从而可以继续利用实例集合继续对分类模型进行训练。基于上述说明及上述实施例的内容,作为一种可选实施例,在根据标注后的实例对分类模型中的分类器进行训练之后,还可以利用实例集合继续对分类模型进行训练。
本发明实施例不对利用实例集合继续对分类模型进行训练的方式作具体限定,包括但不限于:从实例集合中删除已标注的实例,重复执行上述获取匹配度列表、根据匹配度列表进行对实例进行标注以及根据已标注的实例对分类模型中的分类器进行训练的过程,直至实例集合满足第二预设条件为止。其中,第二预设条件包括实例集合中剩下实例的所有匹配度列表中不存在大于第四预设阈值的匹配度和/或实例集合中剩下实例的匹配度列表趋于稳定。
需要说明的是,以实例集合中某一实例的匹配度列表中包含2个匹配度值为例,该实例的匹配度列表趋于稳定可以指的是,上一次训练过程中该实例通过分类模型输出的两个匹配度,与下一次训练过程中该实例通过分类模型输出的两个匹配度,两次输出的差异小于某一预设阈值,则可以确定该实例在训练过程中匹配度列表趋于稳定,也即基本不可能再“突然”产生大于第四预设阈值的匹配度,以使得实例集合中的实例能被用于对分类模型的训练。
本发明实施例提供的方法,由于可以利用实际应用中学习到的实例及语义关系反向对分类模型进行更新,从而可以有效缓解不同语义关系之间用于训练的样本实例其数量不平衡的现象。另外,由于可以循环学习,利用新学习到的关系事实迭代式地更新分类模型,从而有利于分类模型学习新的特征,进而有效地提高了分类模型的精确率和召回率。
基于上述实施例的内容,本发明实施例提供了一种实体关系抽取装置,该实体关系抽取装置用于执行上述方法实施例中提供的实体关系抽取方法,该装置包括:
输出模块,用于将实例输入至分类模型中,输出实例中实体对的语义关系,分类模型为树形结构,分类模型中最底层的每一叶子节点均包含一种已知的语义关系;树形结构是由最底层的叶子节点进行从下至上聚类后所确定的,树形结构为至少三层;分类模型中除最底层的叶子节点之外的节点均对应一个分类器,分类模型中每一分类器均是基于已标注语义关系的样本实例进行训练后得到的。
作为一种可选实施例,构建模块,包括:
获取模块,用于将最底层的每一叶子节点作为一个关系簇,并由所有关系簇组成关系簇集合,获取关系簇集合中每两个关系簇之间的关系簇相似度;
迭代组合模块,用于当最大关系簇相似度大于第一预设阈值时,则将最大关系簇相似度对应的两个关系簇组合成新的关系簇添加至关系簇集合中,并从关系簇集合中删除最大关系簇相似度对应的两个关系簇,重复上述过程,直至关系簇集合中每两个关系簇之间的关系簇相似度均不大于第一预设阈值为止;
构建模块,用于根据每次组合成新的关系簇时的组合关系,构建树形结构。
作为一种可选实施例,获取模块,包括:
获取单元,用于对于关系簇集合中任意两个关系簇,将任意两个关系簇分别作为第一关系簇及第二关系簇,获取第一关系簇中包含的每种语义关系与第二关系簇中包含的每种语义关系之间的语义关系相似度;
确定单元,用于根据第一关系簇中包含的每种语义关系与第二关系簇中包含的每种语义关系之间的语义关系相似度,确定第一关系簇与第二关系簇之间的关系簇相似度。
作为一种可选实施例,获取单元,包括:
确定子单元,用于对于第一关系簇中包含的任一种语义关系及第二关系簇中包含的任一种语义关系,将两种语义关系分别作为第一语义关系及第二语义关系,确定知识库中包含第一语义关系的实体对,并组成第一实体对集合,确定知识库中包含第二语义关系的实体对,并组成第二实体对集合;
获取子单元,用于根据第一实体对集合及第二实体对集合,获取第一语义关系与第二语义关系之间的语义关系相似度。
作为一种可选实施例,获取子单元,用于获取第一实体对集合中每一实体对与第二实体对集合中每一实体对之间的相似度;根据第一实体对集合中实体对的数量、第二实体对集合中实体对的数量、以及第一实体对集合中每一实体对与第二实体对集合中每一实体对之间的相似度,获取第一语义关系与第二语义关系之间的语义关系相似度。
作为一种可选实施例,获取子单元,用于对于第一实体对集合中的任一个实体对及第二实体对集合中的任一个实体对,将两个实体对分别作为第一实体对及第二实体对,确定第一实体对在知识库中出现过的所有语义关系,并作为第一语义关系集合,确定第二实体对在知识库中出现过的所有语义关系,并作为第二语义关系集合;根据第一语义关系集合、第二语义关系集合及知识库,获取第一实体对与第二实体对之间的相似度。
作为一种可选实施例,获取子单元,用于获取第一语义关系集合与第二语义关系集合之间的交集,并获取第一语义关系集合与第二语义关系集合之间的并集;根据交集中每种语义关系在知识库中出现的次数及并集中每种语义关系在知识库中出现的次数,确定第一实体对与第二实体对之间的相似度。
作为一种可选实施例,确定单元,用于若第一关系簇与第二关系簇均仅包含一种语义关系,则将第一关系簇中包含的语义关系与第二关系簇中包含的语义关系之间的语义关系相似度,作为第一关系簇与第二关系簇之间的关系簇相似度;若第一关系簇与第二关系簇中存在关系簇包含两种以上的语义关系,则根据第一关系簇中包含的每种语义关系与第二关系簇中包含的每种语义关系之间的语义关系相似度,确定最大语义关系相似度,并将最大语义关系相似度作为第一关系簇与第二关系簇之间的关系簇相似度。
作为一种可选实施例,该装置还包括:
剪枝模块,用于遍历树形结构,若树形结构中存在满足第一预设条件的目标节点,则从树形结构中删除目标节点及目标节点以下的其它目标节点,并将目标节点以下所有最底层的叶子节点与目标节点的父节点直接连接,重复上述遍历及删除过程,直至树形结构不存在满足第一预设条件的目标节点为止;
其中,目标节点为树形结构中除最底层的叶子节点之外的节点,第一预设条件为目标节点以下所有最底层的叶子节点的总数量小于第二预设阈值。
作为一种可选实施例,样本实例包括正样本实例及负样本实例;相应地,该装置还包括:
正负样本实例选取模块,用于对于分类模型中任一对作为父子节点的两个分类器,将两个分类器分别作为第一分类器及第二分类器,第一分类器在分类模型中与第二分类器直接连接且作为第二分类器的父节点;对于用于训练第一分类器的任一正样本实例,若任一正样本实例被分配至用于继续训练第二分类器且分配错误,则将任一正样本实例作为第二分类器的负样本实例,并用于训练第二分类器。
作为一种可选实施例,输出模块,用于将实例从上至下遍历分类模型,对于实例遍历至的任一节点,将实例输入至任一节点对应的分类器中,输出实例与任一节点的每一孩子节点之间的匹配度,将实例划分至最大匹配度对应的孩子节点,重复上述遍历及划分过程,直至实例遍历至最底层的叶子节点为止,将实例被划分至的最底层的叶子节点所包含的语义关系,作为实例中实体对的语义关系。
作为一种可选实施例,实例为由若干个文本组成的实体包,若干个文本均包含相同的实体对;相应地,该装置还包括:
第一训练模块,用于获取实例输入至分类模型后,输出的匹配度列表,匹配度列表是由实例与目标节点之间的匹配度,以及实例与目标节点的每一兄弟节点之间的匹配度所组成的,目标节点为实例被划分至的最底层的叶子节点;确定匹配度列表中大于第三预设阈值的匹配度,根据大于第三预设阈值的匹配度所对应的语义关系对实例进行标注,并根据标注后的实例对分类模型中的分类器进行训练。
作为一种可选实施例,实例为由若干个文本组成的实体包,若干个文本均包含相同的实体对,实例的数量为多个;相应地,该装置还包括:
第二训练模块,用于将所有实例组成实例集合,获取实例集合中每一实例输入至分类模型后,输出的匹配度列表,并对每一实例的匹配度列表进行标准化,确定实例集合对应的所有匹配度列表中大于第四预设阈值的匹配度,并根据大于第四预设阈值的匹配度所对应的语义关系,对大于第四预设阈值的匹配度所对应的实例进行标注,并根据标注后的实例对分类模型中的分类器进行训练;其中,对于任一实例,任一实例的匹配度列表是由任一实例与目标节点之间的匹配度,以及任一实例与目标节点的每一兄弟节点之间的匹配度所组成的,目标节点为任一实例被划分至的最底层的叶子节点。
本发明实施例提供的装置,通过根据语义关系之间的相似性,对语义关系进行从下至上的聚类,以得到树形结构的分类模型。将实例输入至分类模型中,可输出实例中实体对的语义关系。由于树形结构为至少三层,从而分类模型中至少包含两个以上的分类器。相较于通过一个分类器同时区分成不同的语义关系,通过两个以上的分类器可以更容易区分语义相近的语义关系。另外,由于实例中实体对的语义关系是按照树形结构进行逐层分类所确定的,从而也可以更容易区分语义相近的语义关系。
图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行如下方法:将实例输入至分类模型中,输出实例中实体对的语义关系,分类模型为树形结构,分类模型中最底层的每一叶子节点均包含一种已知的语义关系;树形结构是由最底层的叶子节点进行从下至上聚类后所确定的,树形结构为至少三层;分类模型中除最底层的叶子节点之外的节点均对应一个分类器,分类模型中每一分类器均是基于已标注语义关系的样本实例进行训练后得到的。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:将实例输入至分类模型中,输出实例中实体对的语义关系,分类模型为树形结构,分类模型中最底层的每一叶子节点均包含一种已知的语义关系;树形结构是由最底层的叶子节点进行从下至上聚类后所确定的,树形结构为至少三层;分类模型中除最底层的叶子节点之外的节点均对应一个分类器,分类模型中每一分类器均是基于已标注语义关系的样本实例进行训练后得到的。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (16)

1.一种实体关系抽取方法,其特征在于,包括:
将实例输入至分类模型中,输出所述实例中实体对的语义关系,所述分类模型为树形结构,所述分类模型中最底层的每一叶子节点均包含一种已知的语义关系;所述树形结构是由最底层的叶子节点进行从下至上聚类后所确定的,所述树形结构为至少三层;所述分类模型中除最底层的叶子节点之外的节点均对应一个分类器,所述分类模型中每一分类器均是基于已标注语义关系的样本实例进行训练后得到的。
2.根据权利要求1所述的实体关系抽取方法,其特征在于,所述树形结构通过如下过程构建:
将最底层的每一叶子节点作为一个关系簇,并由所有关系簇组成关系簇集合,获取所述关系簇集合中每两个关系簇之间的关系簇相似度,若最大关系簇相似度大于第一预设阈值,则将最大关系簇相似度对应的两个关系簇组合成新的关系簇添加至所述关系簇集合中,并从所述关系簇集合中删除最大关系簇相似度对应的两个关系簇,重复上述过程,直至所述关系簇集合中每两个关系簇之间的关系簇相似度均不大于所述第一预设阈值为止;
根据每次组合成新的关系簇时的组合关系,构建所述树形结构。
3.根据权利要求2所述的实体关系抽取方法,其特征在于,所述获取所述关系簇集合中每两个关系簇之间的关系簇相似度,包括:
对于所述关系簇集合中任意两个关系簇,将所述任意两个关系簇分别作为第一关系簇及第二关系簇,获取所述第一关系簇中包含的每种语义关系与所述第二关系簇中包含的每种语义关系之间的语义关系相似度;
根据所述第一关系簇中包含的每种语义关系与所述第二关系簇中包含的每种语义关系之间的语义关系相似度,确定所述第一关系簇与所述第二关系簇之间的关系簇相似度。
4.根据权利要求3所述的实体关系抽取方法,其特征在于,所述获取所述第一关系簇中包含的每种语义关系与所述第二关系簇中包含的每种语义关系之间的语义关系相似度,包括:
对于所述第一关系簇中包含的任一种语义关系及所述第二关系簇中包含的任一种语义关系,将两种语义关系分别作为第一语义关系及第二语义关系,确定知识库中包含第一语义关系的实体对,并组成第一实体对集合,确定所述知识库中包含第二语义关系的实体对,并组成第二实体对集合;
根据所述第一实体对集合及所述第二实体对集合,获取所述第一语义关系与所述第二语义关系之间的语义关系相似度。
5.根据权利要求4所述的实体关系抽取方法,其特征在于,所述根据所述第一实体对集合及所述第二实体对集合,获取所述第一语义关系与所述第二语义关系之间的语义关系相似度,包括:
获取所述第一实体对集合中每一实体对与所述第二实体对集合中每一实体对之间的相似度;
根据所述第一实体对集合中实体对的数量、所述第二实体对集合中实体对的数量、以及所述第一实体对集合中每一实体对与所述第二实体对集合中每一实体对之间的相似度,获取所述第一语义关系与所述第二语义关系之间的语义关系相似度。
6.根据权利要求5所述的实体关系抽取方法,其特征在于,所述获取所述第一实体对集合中每一实体对与所述第二实体对集合中每一实体对之间的相似度,包括:
对于所述第一实体对集合中的任一个实体对及所述第二实体对集合中的任一个实体对,将两个实体对分别作为第一实体对及第二实体对,确定所述第一实体对在所述知识库中出现过的所有语义关系,并作为第一语义关系集合,确定所述第二实体对在所述知识库中出现过的所有语义关系,并作为第二语义关系集合;
根据所述第一语义关系集合、所述第二语义关系集合及所述知识库,获取所述第一实体对与所述第二实体对之间的相似度。
7.根据权利要求6所述的实体关系抽取方法,其特征在于,所述根据所述第一语义关系集合、所述第二语义关系集合及所述知识库,获取所述第一实体对与所述第二实体对之间的相似度,包括:
获取所述第一语义关系集合与所述第二语义关系集合之间的交集,并获取所述第一语义关系集合与所述第二语义关系集合之间的并集;
根据所述交集中每种语义关系在所述知识库中出现的次数及所述并集中每种语义关系在所述知识库中出现的次数,确定所述第一实体对与所述第二实体对之间的相似度。
8.根据权利要求3至7中任一项所述的实体关系抽取方法,其特征在于,所述根据所述第一关系簇中包含的每种语义关系与所述第二关系簇中包含的每种语义关系之间的语义关系相似度,确定所述第一关系簇与所述第二关系簇之间的关系簇相似度,包括:
若所述第一关系簇与所述第二关系簇均仅包含一种语义关系,则将第一关系簇中包含的语义关系与所述第二关系簇中包含的语义关系之间的语义关系相似度,作为所述第一关系簇与所述第二关系簇之间的关系簇相似度;
若所述第一关系簇与所述第二关系簇中存在关系簇包含两种以上的语义关系,则根据所述第一关系簇中包含的每种语义关系与所述第二关系簇中包含的每种语义关系之间的语义关系相似度,确定最大语义关系相似度,并将所述最大语义关系相似度作为所述第一关系簇与所述第二关系簇之间的关系簇相似度。
9.根据权利要求2所述的实体关系抽取方法,其特征在于,所述根据每次组合成新的关系簇时的组合关系,构建所述树形结构之后,还包括:
遍历所述树形结构,若所述树形结构中存在满足第一预设条件的目标节点,则从所述树形结构中删除所述目标节点及所述目标节点以下的其它目标节点,并将所述目标节点以下所有最底层的叶子节点与所述目标节点的父节点直接连接,重复上述遍历及删除过程,直至所述树形结构不存在满足所述第一预设条件的目标节点为止;
其中,所述目标节点为所述树形结构中除最底层的叶子节点之外的节点,所述第一预设条件为目标节点以下所有最底层的叶子节点的总数量小于第二预设阈值。
10.根据权利要求1所述的实体关系抽取方法,其特征在于,所述样本实例包括正样本实例及负样本实例;相应地,所述分类模型中的分类器通过如下过程进行训练:
对于所述分类模型中任一对作为父子节点的两个分类器,将所述两个分类器分别作为第一分类器及第二分类器,所述第一分类器在所述分类模型中与所述第二分类器直接连接且作为所述第二分类器的父节点;
对于用于训练所述第一分类器的任一正样本实例,若所述任一正样本实例被分配至用于继续训练所述第二分类器且分配错误,则将所述任一正样本实例作为所述第二分类器的负样本实例,并用于训练所述第二分类器。
11.根据权利要求1所述的实体关系抽取方法,其特征在于,所述将实例输入至分类模型中,输出所述实例中实体对的语义关系,包括:
将所述实例从上至下遍历所述分类模型,对于所述实例遍历至的任一节点,将所述实例输入至所述任一节点对应的分类器中,输出所述实例与所述任一节点的每一孩子节点之间的匹配度,将所述实例划分至最大匹配度对应的孩子节点,重复上述遍历及划分过程,直至所述实例遍历至最底层的叶子节点为止,将所述实例被划分至的最底层的叶子节点所包含的语义关系,作为所述实例中实体对的语义关系。
12.根据权利要求1所述的实体关系抽取方法,其特征在于,所述实例为由若干个文本组成的实体包,所述若干个文本均包含相同的实体对;相应地,所述将实例输入至分类模型中,输出所述实例中实体对的语义关系之后,还包括:
获取所述实例输入至所述分类模型后,输出的匹配度列表,所述匹配度列表是由所述实例与目标节点之间的匹配度,以及所述实例与所述目标节点的每一兄弟节点之间的匹配度所组成的,所述目标节点为所述实例被划分至的最底层的叶子节点;
确定所述匹配度列表中大于第三预设阈值的匹配度,根据大于所述第三预设阈值的匹配度所对应的语义关系对所述实例进行标注,并根据标注后的实例对所述分类模型中的分类器进行训练。
13.根据权利要求1所述的实体关系抽取方法,其特征在于,所述实例为由若干个文本组成的实体包,所述若干个文本均包含相同的实体对,所述实例的数量为多个;相应地,所述将实例输入至分类模型中,输出所述实例中实体对的语义关系之后,还包括:
将所有实例组成实例集合,获取所述实例集合中每一实例输入至所述分类模型后,输出的匹配度列表,并对每一实例的匹配度列表进行标准化,确定所述实例集合对应的所有匹配度列表中大于第四预设阈值的匹配度,并根据大于所述第四预设阈值的匹配度所对应的语义关系,对大于所述第四预设阈值的匹配度所对应的实例进行标注,并根据标注后的实例对所述分类模型中的分类器进行训练;其中,对于任一实例,所述任一实例的匹配度列表是由所述任一实例与目标节点之间的匹配度,以及所述任一实例与所述目标节点的每一兄弟节点之间的匹配度所组成的,所述目标节点为所述任一实例被划分至的最底层的叶子节点。
14.一种实体关系抽取装置,其特征在于,包括:
输出模块,用于将实例输入至分类模型中,输出所述实例中实体对的语义关系,所述分类模型为树形结构,所述分类模型中最底层的每一叶子节点均包含一种已知的语义关系;所述树形结构是由最底层的叶子节点进行从下至上聚类后所确定的,所述树形结构为至少三层;所述分类模型中除最底层的叶子节点之外的节点均对应一个分类器,所述分类模型中每一分类器均是基于已标注语义关系的样本实例进行训练后得到的。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至13任一所述的方法。
16.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至13任一所述的方法。
CN201910750310.8A 2019-08-14 2019-08-14 实体关系抽取方法及装置 Active CN110442725B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910750310.8A CN110442725B (zh) 2019-08-14 2019-08-14 实体关系抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910750310.8A CN110442725B (zh) 2019-08-14 2019-08-14 实体关系抽取方法及装置

Publications (2)

Publication Number Publication Date
CN110442725A true CN110442725A (zh) 2019-11-12
CN110442725B CN110442725B (zh) 2022-02-25

Family

ID=68435533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910750310.8A Active CN110442725B (zh) 2019-08-14 2019-08-14 实体关系抽取方法及装置

Country Status (1)

Country Link
CN (1) CN110442725B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339314A (zh) * 2020-02-19 2020-06-26 北京百度网讯科技有限公司 一种三元组数据的生成方法、装置和电子设备
CN111522959A (zh) * 2020-07-03 2020-08-11 科大讯飞(苏州)科技有限公司 实体分类方法、系统和计算机可读存储介质
CN111814484A (zh) * 2020-07-03 2020-10-23 海信视像科技股份有限公司 语义识别方法、装置、电子设备及可读存储介质
CN112925856A (zh) * 2019-12-06 2021-06-08 中国移动通信集团重庆有限公司 实体关系分析方法、装置、分析设备及计算机存储介质
CN114328797A (zh) * 2021-11-09 2022-04-12 腾讯科技(深圳)有限公司 内容搜索方法、装置、电子设备、存储介质及程序产品
WO2022100357A1 (zh) * 2020-11-12 2022-05-19 福建亿榕信息技术有限公司 一种构建部署文本实体关系提取模型的方法和存储设备
TWI807400B (zh) * 2021-08-27 2023-07-01 台達電子工業股份有限公司 產生實體關係抽取模型的裝置及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117411A (zh) * 2009-12-30 2011-07-06 日电(中国)有限公司 用于构建多级别分类模型的方法和系统
CN106909654A (zh) * 2017-02-24 2017-06-30 北京时间股份有限公司 一种基于新闻文本信息的多级分类系统及方法
RU2628436C1 (ru) * 2016-04-12 2017-08-16 Общество с ограниченной ответственностью "Аби Продакшн" Классификация текстов на естественном языке на основе семантических признаков
CN109754012A (zh) * 2018-12-29 2019-05-14 新华三大数据技术有限公司 实体语义关系分类方法、模型训练方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117411A (zh) * 2009-12-30 2011-07-06 日电(中国)有限公司 用于构建多级别分类模型的方法和系统
RU2628436C1 (ru) * 2016-04-12 2017-08-16 Общество с ограниченной ответственностью "Аби Продакшн" Классификация текстов на естественном языке на основе семантических признаков
CN106909654A (zh) * 2017-02-24 2017-06-30 北京时间股份有限公司 一种基于新闻文本信息的多级分类系统及方法
CN109754012A (zh) * 2018-12-29 2019-05-14 新华三大数据技术有限公司 实体语义关系分类方法、模型训练方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李金洋 等: "中文分类体系的构建与查询系统", 《计算机应用》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925856A (zh) * 2019-12-06 2021-06-08 中国移动通信集团重庆有限公司 实体关系分析方法、装置、分析设备及计算机存储介质
CN112925856B (zh) * 2019-12-06 2023-09-19 中国移动通信集团重庆有限公司 实体关系分析方法、装置、分析设备及计算机存储介质
CN111339314A (zh) * 2020-02-19 2020-06-26 北京百度网讯科技有限公司 一种三元组数据的生成方法、装置和电子设备
CN111522959A (zh) * 2020-07-03 2020-08-11 科大讯飞(苏州)科技有限公司 实体分类方法、系统和计算机可读存储介质
CN111814484A (zh) * 2020-07-03 2020-10-23 海信视像科技股份有限公司 语义识别方法、装置、电子设备及可读存储介质
CN111814484B (zh) * 2020-07-03 2024-01-26 海信视像科技股份有限公司 语义识别方法、装置、电子设备及可读存储介质
WO2022100357A1 (zh) * 2020-11-12 2022-05-19 福建亿榕信息技术有限公司 一种构建部署文本实体关系提取模型的方法和存储设备
TWI807400B (zh) * 2021-08-27 2023-07-01 台達電子工業股份有限公司 產生實體關係抽取模型的裝置及方法
CN114328797A (zh) * 2021-11-09 2022-04-12 腾讯科技(深圳)有限公司 内容搜索方法、装置、电子设备、存储介质及程序产品
CN114328797B (zh) * 2021-11-09 2024-03-19 腾讯科技(深圳)有限公司 内容搜索方法、装置、电子设备、存储介质及程序产品

Also Published As

Publication number Publication date
CN110442725B (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN110442725A (zh) 实体关系抽取方法及装置
Bang et al. Explaining a black-box by using a deep variational information bottleneck approach
US10430689B2 (en) Training a classifier algorithm used for automatically generating tags to be applied to images
CN108984683A (zh) 结构化数据的提取方法、系统、设备及存储介质
CN110263323A (zh) 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统
CN107145503A (zh) 基于word2vec的远监督非分类关系提取方法及系统
CN110162593A (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN109408811A (zh) 一种数据处理方法及服务器
CN109241524A (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN110489755A (zh) 文本生成方法和装置
CN108920622A (zh) 一种意图识别的训练方法、训练装置和识别装置
CN108280064A (zh) 分词、词性标注、实体识别及句法分析的联合处理方法
CN106021364A (zh) 图片搜索相关性预测模型的建立、图片搜索方法和装置
CN106570708A (zh) 一种智能客服知识库的管理方法及系统
CN110059160A (zh) 一种端到端的基于上下文的知识库问答方法及装置
CN108154198A (zh) 知识库实体归一方法、系统、终端和计算机可读存储介质
CN107145514B (zh) 基于决策树和svm混合模型的中文句型分类方法
CN108496190B (zh) 用于从电子数据结构中提取属性的注释系统
CN110070909A (zh) 一种基于深度学习的融合多特征的蛋白质功能预测方法
CN108763376A (zh) 融合关系路径、类型、实体描述信息的知识表示学习方法
CN106897559A (zh) 一种面向多数据源的症状体征类实体识别方法及装置
CN109815336A (zh) 一种文本聚合方法及系统
CN109308319A (zh) 文本分类方法、文本分类装置和计算机可读存储介质
CN110362824A (zh) 一种自动纠错的方法、装置、终端设备及存储介质
CN112395393A (zh) 一种基于多任务多示例的远程监督关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant