CN113609291A - 实体分类方法、装置、电子设备和存储介质 - Google Patents

实体分类方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113609291A
CN113609291A CN202110860579.9A CN202110860579A CN113609291A CN 113609291 A CN113609291 A CN 113609291A CN 202110860579 A CN202110860579 A CN 202110860579A CN 113609291 A CN113609291 A CN 113609291A
Authority
CN
China
Prior art keywords
entity
type
representation
information
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110860579.9A
Other languages
English (en)
Inventor
李直旭
陈志刚
何莹
牛雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Suzhou Technology Co Ltd
Original Assignee
Iflytek Suzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iflytek Suzhou Technology Co Ltd filed Critical Iflytek Suzhou Technology Co Ltd
Priority to CN202110860579.9A priority Critical patent/CN113609291A/zh
Publication of CN113609291A publication Critical patent/CN113609291A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种实体分类方法、装置、电子设备和存储介质,其中方法包括:确定目标实体及其候选类型;基于目标实体的实体表示和候选类型的类型表示,确定目标实体和候选类型的匹配结果,实体表示是基于对应实体的实体信息和/或实体三元组信息确定的,类型表示是基于对应类型的类型信息和/或类型三元组信息确定的;基于目标实体和候选类型的匹配结果,确定目标实体的实体类型。本发明提供的方法、装置、电子设备和存储介质,实现基于实体和类型的双视角实体分类,其中应用相较于实体的信息更加容易获取和维护的类型信息和/或类型三元组信息,获取信息丰富的类型表示,保证实体分类的可用性,提高实体分类的可靠性和准确性。

Description

实体分类方法、装置、电子设备和存储介质
技术领域
本发明涉及知识图谱处理技术领域,尤其涉及一种实体分类方法、装置、电子设备和存储介质。
背景技术
随着大数据和人工智能的飞速发展,知识图谱(Knowledge Graph,KG)应运而生。在知识图谱中,数据以图的形式被组织,图中的节点主要为实体和概念,节点间相连的边则表示实体的属性或者实体之间的关系。
实体类型在知识图谱中非常重要。目前的实体分类多参考知识图谱内部的信息,利用知识图谱中包含的各个实体之间的关系训练实体表示,并基于实体表示进行实体分类。但是上述方案严重依赖知识图谱中实体之间关系的稠密程度,对于关系稀疏的实体表现不佳。
发明内容
本发明提供一种实体分类方法、装置、电子设备和存储介质,用以解决现有技术中实体分类严重依赖知识图谱中实体间关系的稠密程度,关系稀释的实体分类可靠性差的问题。
本发明提供一种实体分类方法,包括:
确定目标实体及其候选类型;
基于所述目标实体的实体表示和所述候选类型的类型表示,确定所述目标实体和所述候选类型的匹配结果,所述实体表示是基于对应实体的实体信息和/或实体三元组信息确定的,所述类型表示是基于对应类型的类型信息和/或类型三元组信息确定的;
基于所述目标实体和所述候选类型的匹配结果,确定所述目标实体的实体类型。
根据本发明提供的一种实体分类方法,所述目标实体的实体表示是基于如下步骤确定的:
基于所述实体信息中的实体名称和/或实体摘要文本,确定所述目标实体的实体信息表示;
和/或,基于所述实体三元组信息中的谓词和尾部,确定所述实体三元组信息的实体三元组表示;
基于所述实体信息表示或所述实体三元组表示,或基于所述实体信息表示和所述实体三元组表示之间的相关性,确定所述目标实体的实体表示。
根据本发明提供的一种实体分类方法,所述基于所述实体三元组信息中的谓词和尾部,确定所述实体三元组信息的实体三元组表示,包括:
基于所述实体三元组信息中的谓词表示和尾部表示之间的相关性,确定所述实体三元组表示;
其中,所述谓词表示是基于所述目标实体对应的各三元组中的谓词及其头实体的重合情况确定的,所述尾部表示是基于所述目标实体对应的各三元组中尾部的语义确定的。
根据本发明提供的一种实体分类方法,所述谓词表示是基于如下步骤确定的:
以所述目标实体对应的各三元组中谓词为节点,以谓词的头实体的重合情况为边权重,构建谓词关系图;
基于所述谓词关系图,确定所述谓词表示。
根据本发明提供的一种实体分类方法,所述候选类型的类型表示是基于如下步骤确定的:
基于所述类型信息中的类型名称和/或类型摘要文本,确定所述候选类型的类型信息表示;
和/或,基于所述类型三元组信息中的类型关系和尾部类型,确定所述候选类型的类型三元组表示;
基于所述类型信息表示或所述类型三元组表示,或基于所述类型信息表示和所述类型三元组表示之间的相关性,确定所述候选类型的类型表示。
根据本发明提供的一种实体分类方法,所述基于所述类型三元组信息中的类型关系和尾部类型,确定所述候选类型的类型三元组表示,包括:
基于所述三元组信息中的类型关系表示和尾部类型表示之间的相关性,确定所述实体三元组表示;
所述类型关系表示是基于所述候选类型对应的各三元组中类型关系的语义确定的,所述尾部类型表示是基于所述候选类型对应的各三元组中尾部类型的语义确定的。
根据本发明提供的一种实体分类方法,所述基于所述目标实体和所述候选类型的匹配结果,确定所述目标实体的实体类型,包括:
从各候选类型中,选取与所述目标实体的匹配结果的得分最高的候选类型,作为所述目标实体的实体类型。
本发明还提供一种实体分类装置,包括:
确定单元,用于确定目标实体及其候选类型;
匹配单元,用于基于所述目标实体的实体表示和所述候选类型的类型表示,确定所述目标实体和所述候选类型的匹配结果,所述实体表示是基于对应实体的实体信息和/或实体三元组信息确定的,所述类型表示是基于对应类型的类型信息和/或类型三元组信息确定的;
分类单元,用于基于所述目标实体和所述候选类型的匹配结果,确定所述目标实体的实体类型。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述实体分类方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述实体分类方法的步骤。
本发明提供的实体分类方法、装置、电子设备和存储介质,通过对目标实体的实体表示和候选类型的类型表示进行匹配,实现基于实体和类型的双视角实体分类,其中应用相较于实体的信息更加容易获取和维护的类型信息和/或类型三元组信息,获取信息丰富的类型表示,从而弥补目标实体在知识图谱中关系稀疏导致可参考的信息较少的问题,保证实体分类的可用性,提高实体分类的可靠性和准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图简要地说明,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的实体分类方法的流程示意图之一;
图2是本发明提供的目标实体的实体表示确定方法的流程示意图;
图3是本发明提供的谓词表示确定方法的流程示意图;
图4是本发明提供的候选类型的类型表示确定方法的流程示意图;
图5是本发明提供的实体分类方法的流程示意图之二;
图6是本发明提供的实体分类装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在知识图谱中,数据以图的形式被组织,图中的节点主要为实体和概念,节点间相连的边则表示实体的属性或者实体之间的关系。例如,在商品推荐领域下的知识图谱,可以将商品视为节点,将商品之间的相似性或者关联性视为节点之间的边。
传统的面向知识图谱的实体分类方法,多是将实体分类到一小组粗粒度类型,例如仅将实体分类为人物、组织或者地点等。然而分类过粗会损失很多信息,因此越来越多的研究趋向于更细粒度的实体分类。
细粒度实体分类致力于赋予实体更加细粒度的类型信息,这些类型可以用路径的形式表示。例如,列奥纳多·达·芬奇可以与更为具体的类型路径“人物/艺术家/画家”相关联。显然,细粒度类型(例如画家、艺术家)在数据挖掘中比粗粒度类型(例如人物)能够提供更具体的语义信息,因此也更有意义。由此可见,实体类型的粒度越细,在基于知识图谱的任务中就越有用,例如知识图谱补全、实体链接、关系抽取和问答系统等。
目前,细粒度实体分类多倾向于根据知识图谱的内部信息推断实体缺失的类型,例如首先根据知识图谱中包含的关系、连续型属性值、描述等信息将实体嵌入到一个低维的向量空间中,然后根据嵌入结果将实体划分为不同的语义类型。然而,尽管上述方法及其变形被广泛应用于许多与知识图谱相关的应用,但它们对与其他实体仅有稀疏关系的实体无能为力。
不仅如此,传统的表示学习方法大多是在一个封闭的知识图谱中对实体和关系进行表示,这使得这类方法无法适用于新加入的实体。但是在真实的知识图谱构建过程中,新实体的出现是无法避免的,如果通过传统的表示学习方法无法获得新实体的表示,这会使得针对这类实体的下游任务难以进行。
考虑到上述问题,本发明实施例提供了一种实体分类方法,以实现细粒度的实体分类。图1是本发明提供的实体分类方法的流程示意图之一,如图1所示,该方法包括:
步骤110,确定目标实体及其候选类型。
此处,目标实体即需要进行分类的实体,目标实体的候选类型即对目标实体进行实体分类所得实体类型的候选项,候选类型可以由多个,候选类型可以是预先设定好的固定可选的类型,也可以是对目标实体进行粗粒度分类所得粗粒度类型下的各细粒度类型,还可以是根据目标实体所属技术领域确定的该领域下固定可选的类型,本发明实施例对此不作具体限定。
例如,目标实体为文学作品A,其候选类型可以是小说类型下的各细粒度类型,例如“武侠小说”、“人情小说”、“科幻小说”、“都市小说”等。
步骤120,基于目标实体的实体表示和候选类型的类型表示,确定目标实体和候选类型的匹配结果,实体表示是基于对应实体的实体信息和/或实体三元组信息确定的,类型表示是基于对应类型的类型信息和/或类型三元组信息确定的。
具体地,目标实体的实体信息用于反映实体本身的信息,例如实体的名称,实体的介绍文本等。目标实体的实体三元组信息用于反映以目标实体作为头实体的三元组所反映的信息,此处以目标实体作为头实体的三元组可以表示为“目标实体,谓词,尾部”的形式,其中谓词可以是目标实体与尾部的尾实体之间的关系,例如“文学作品A,作者,作家C”,谓词也可以是目标实体的属性,对应尾部为属性值,例如“文学作品A,创作年代,XX年代”。实体三元组信息可以包括以目标实体作为头实体的三元组中的谓词和尾部所反映的信息。
目标实体的实体表示可基于目标实体的实体信息和/或实体三元组信息确定,其中基于实体信息确定的实体表示可以涵盖目标实体本身的信息,基于实体三元组信息确定的实体表示可以吸纳实体三元组中隐含的与目标实体相关的信息,从而丰富实体表示所包含的内容。实体表示的确定,可以仅依赖实体信息或者实体三元组信息,也可以结合此两者,本发明实施例对此不作具体限定。
候选类型的类型信息用于反映类型本身的信息,例如类型的名称、类型的介绍文本等。候选类型的类型三元组信息用于反映以候选类型作为头实体的三元组所反映的信息,此处以候选类型作为头实体的三元组可视为类型实体三元组,具体表示为“候选类型,关系,其他类型”的形式,即类型三元组用于展现各种类型之间的关系,此处的关系可以用于表示两种类型的相似程度或者相关程度,例如可以通过属于两个类型的实体的重合程度确定。类型三元组信息可以包含以候选类型作为头实体的三元组中的关系和尾部类型所反映的信息。
候选类型的类型表示可基于候选类型的类型信息和/或类型三元组信息确定,其中基于类型信息确定的类型表示可以涵盖候选类型本身的信息,基于类型三元组信息确定的类型表示可以吸纳类型三元组中隐含的与候选类型相关的信息,从而丰富类型表示所包含的内容。类型表示的确定,可以仅依赖类型信息或者类型三元组信息,也可以结合此两者,本发明实施例对此不作具体限定。
在得到目标实体的实体表示和候选类型的类型表示,即可基于实体表示和类型表示,对目标实体和候选类型进行匹配,从而获取此两者的匹配结果,此处的匹配结果可以是目标实体和候选类型的匹配得分,匹配得分越高则候选类型为目标实体的实体类型的概率越高。匹配结果还可以为是否匹配,本发明实施例对此不作具体限定。
通过实体表示和类型表示的匹配,使得实体分类不再单纯依赖于基于知识图谱获取的实体相关的信息,转而加入类型相关的信息,从而可以从实体和类型两个视角下进行实体分类,从而提高实体分类的可靠性和准确性。且类型视角下,与实体相比,候选类型的数量规模更小,新增类型的概率更低,类型信息和/或类型三元组信息的获取和维护难度更小,更加容易得到信息丰富的类型表示,因此结合类型表示的实体分类,可以弥补目标实体在知识图谱中关系稀疏导致可参考的信息较少的问题,从而提高实体分类的可靠性。
步骤130,基于目标实体和候选类型的匹配结果,确定目标实体的实体类型。
具体地,针对目标实体及其对应的一个或者多个候选类型的匹配结果,即可得到目标实体的实体类型。例如,基于一个候选类型的匹配得分,可以根据匹配得分与预先设置的阈值之间的大小关系,确定候选类型是否为实体类型;基于多个候选类型的匹配得分,可以从中选取匹配得分最高的候选类型作为实体类型,也可以将最高的匹配得分与预先设置的阈值进行比较,如果大于阈值,则确定该匹配得分对应的候选类型为实体类型。
本发明实施例提供的方法,通过对目标实体的实体表示和候选类型的类型表示进行匹配,实现基于实体和类型的双视角实体分类,其中应用相较于实体的信息更加容易获取和维护的类型信息和/或类型三元组信息,获取信息丰富的类型表示,从而弥补目标实体在知识图谱中关系稀疏导致可参考的信息较少的问题,保证实体分类的可用性,提高实体分类的可靠性和准确性。
基于上述实施例,图2是本发明提供的目标实体的实体表示确定方法的流程示意图,如图2所示,目标实体的实体表示是基于如下步骤确定的:
步骤210,基于实体信息中的实体名称和/或实体摘要文本,确定目标实体的实体信息表示。
具体地,实体信息涵盖了实体本身的信息,其中包含的实体名称是实体的直接标识,实体摘要文本则可以简明、确切地记述实体的相关信息,例如目标实体为一部文学作品,目标实体的实体名称即作品名称,实体摘要文本即用于介绍该部文学作品的文本,例如“文学作品A是一部长篇小说,XX年代作家C所著。小说以主角小明和小李的爱情悲剧为主线,展现了古代社会世态百相”。
目标实体的实体信息表示可以基于目标实体的实体名称和/或实体摘要文本确定,例如可以将实体名称的语义编码作为实体信息,或者将实体摘要文本的语义编码作为实体信息,或者将实体名称和实体摘要文本此两者的语义编码融合作为实体信息,具体融合方式可以是拼接、加权相加等,本发明实施例对此不作具体限定。
和/或,步骤220,基于实体三元组信息中的谓词和尾部,确定实体三元组信息的实体三元组表示。
具体地,实体三元组信息中包含了以目标实体为首实体的三元组的谓词和尾部,实体三元组信息中的谓词和尾部可以是一一对应的,也可以是一个谓词对应多个尾部,本发明实施例不对实体三元组信息中谓词的数量作具体限定。
目标实体的实体三元组表示可以基于实体三元组信息中的谓词和尾部确定,例如可以根据实体三元组信息中谓词和尾部之间的对应关系,拼接相对应的谓词和尾部的语义,从而得到实体三元组表示,也可以结合谓词和尾部之间的相关性,对谓词和尾部的语义进行选择性的融合,从而得到实体三元组表示,本发明实施例对此不作具体限定。
步骤230,基于实体信息表示或实体三元组表示,或基于实体信息表示和实体三元组表示之间的相关性,确定目标实体的实体表示。
具体地,在确定实体表示时,可以仅应用步骤210得到的实体信息表示,确定目标实体的实体表示,例如直接将实体信息表示作为实体表示,或者对实体信息表示做进一步的特征提取得到实体表示;此外,还可以仅应用步骤220得到的实体三元组表示,确定目标实体的实体表示,例如直接将实体三元组表示作为实体表示,或者对实体三元组表示做进一步的特征提取得到实体表示。
此外,还可以结合步骤210得到的实体信息表示,和步骤220得到的实体三元组表示,确定实体表示,在此过程中,考虑到实体信息和实体三元组信息之间存在隐藏的联系和交互,例如人们在阅读目标实体的实体信息,尤其是实体摘要文本时可以明显感知到实体信息所展示的内容可能更加接近于实体三元组信息中的某些谓词和尾部所表示的内容,而和另外一些谓词和尾部所表示内容的关联并不高,因此本发明实施例中可以应用实体信息表示和实体三元组表示之间的相关性,在对实体信息表示和实体三元组表示进行融合时,突出两者之间相关性更高的部分,弱化两者之间相关性较低的部分,从而使得融合所得的实体表示能够更加贴近人类思维在实体分类时的关注点,提高实体表示对于目标实体及其相关信息的表征能力。
例如,人们在阅读目标实体人物“小红”的实体摘要文本时发现实体摘要文本着重于介绍小红的绘画作品,那么在“小红”的实体三元组信息中,谓词为“作品”或者“绘画作品”的三元组显然比谓词为“出生”、“家人”等的三元组的相关性更高、更加重要,因此在生成实体表示时,可以突出与作品相关的内容,弱化与作品关联较小或者无关的内容。
进一步地,实体信息表示和实体三元组表示之间的相关性可以通过对实体信息表示和实体三元组表示进行注意力交互实现,相应地基于相关性确定的实体表示,可以是对实体信息表示和实体三元组表示进行注意力交互所得的结果。例如实体表示可以体现为如下形式:
Figure BDA0003182638170000111
式中,Ee为实体表示,att(·,·)为注意力交互函数,[Een;Eed]为实体信息表示,其中Een为实体名称的编码表示,Eed为实体摘要文本的编码表示;
Figure BDA0003182638170000112
为实体三元组表示。
本发明实施例提供的方法,应用实体信息表示和/或实体三元组表示,实现了目标实体的实体表示。其中在结合实体信息表示和实体三元组表示进行实体表示时,应用了两者之间的相关性,有助于提高实体表示对于目标实体及其相关信息的表征能力,进而提高实体分类的准确性和可靠性。
基于上述任一实施例,步骤220包括:
基于实体三元组信息中的谓词表示和尾部表示之间的相关性,确定实体三元组表示;
其中,谓词表示是基于目标实体对应的各三元组中的谓词及其头实体的重合情况确定的,尾部表示是基于目标实体对应的各三元组中尾部的语义确定的。
具体地,考虑到目标实体所处三元组中的谓词可能是多种多样的,而多种多样的谓词之间可能存在相似或者关联,整合谓词之间的关联可以在谓词表示中以更加整合的方式体现目标实体在实体三元组中的谓词的选择偏向,进而反映目标实体表意的倾向。此处,谓词表示可以基于目标实体对应的各三元组中的各个谓词,以及各个谓词之间的相关性确定,谓词之间的相关性可以具体表示为谓词所在三元组中头实体的重合情况,例如通过已有的知识图谱,可以得到第i个谓词pi和第j个谓词pj所在的各个三元组中头实体的集合,分别记为ES(pi)和ES(pj),可以通过衡量ES(pi)和ES(pj)的重合情况,确定谓词pi和pj的相关性,进而作用于谓词表示的确定。
尾部表示则可以基于目标实体所处三元组中的尾部的语义确定,此处尾部的语义可以是尾部名词自身的语义,也可以是结合了与尾部名词相关的信息,例如针对尾部名词的描述文本得到的语义,本发明实施例对此不作具体限定。例如尾部为属性值时,可以直接将属性值的语义信息作为尾部表示,又例如尾部为尾实体,可以将尾实体的实体摘要文本的语义信息作为尾部表示。
在不同实体三元组中的谓词和尾部之间,同样存在着隐藏的联系和交互,例如针对同一个谓词“作品”,假设头实体的类型是画家,则其对应的尾部通常是画作,假设头实体的类型为音乐家,则其对应的尾部通常是音乐作品,显然画作和音乐作品是两种不同类型的作品。相反在了解实体三元组的谓词和尾部的前提下,谓词和尾部所提供的信息可以为区分头实体的类型提供帮助,由此可见谓词和尾部之间的隐藏交互和关联,对于增强实体三元组信息的语义表示,乃至增强目标实体的语义表示,均能有所助益。
进一步地,谓词表示和尾部表示之间的相关性可以通过对谓词表示和尾部表示进行注意力交互实现,相应地基于相关性确定的实体三元组表示,可以是对谓词表示和尾部表示进行注意力交互所得的结果。例如实体三元组表示可以体现为如下形式:
Figure BDA0003182638170000121
式中,
Figure BDA0003182638170000122
即实体三元组表示,
Figure BDA0003182638170000123
由谓词注意力交互的表示
Figure BDA0003182638170000124
和尾部注意力交互的表示
Figure BDA0003182638170000125
拼接得到。
其中,谓词注意力交互的表示
Figure BDA0003182638170000126
即实体三元组信息中各个谓词的注意力表示的集合,
Figure BDA0003182638170000127
Figure BDA0003182638170000128
Figure BDA0003182638170000129
为第1个谓词至第n个谓词的注意力表示,n为实体三元组信息中的谓词总数,其中第i个谓词的注意力表示
Figure BDA0003182638170000131
可以是:
Figure BDA0003182638170000132
式中,att(·,·)为注意力交互函数,
Figure BDA00031826381700001310
为第i个谓词的谓词表示,Eet为尾部表示。
尾部注意力交互的表示
Figure BDA0003182638170000133
即实体三元组信息中各个尾部的注意力表示的集合,
Figure BDA0003182638170000134
Figure BDA0003182638170000135
Figure BDA0003182638170000136
为第1个尾部至第n个尾部的注意力表示,其中第i个尾部的注意力表示
Figure BDA0003182638170000137
可以是:
Figure BDA0003182638170000138
式中,att(·,·)为注意力交互函数,
Figure BDA0003182638170000139
为第i个尾部的尾部表示,Eep为谓词表示。
本发明实施例提供的方法,基于谓词表示和尾部表示之间的相关性确定实体三元组表示,有助于提高实体三元组表示的可靠性,从而提高实体分类的可靠性。
基于上述任一实施例,图3是本发明提供的谓词表示确定方法的流程示意图,如图3所示,谓词表示是基于如下步骤确定的:
步骤310,以目标实体对应的各三元组中谓词为节点,以谓词的头实体的重合情况为边权重,构建谓词关系图。
步骤320,基于谓词关系图,确定谓词表示。
具体地,考虑到目标实体所处三元组中,多种多样的谓词之间可能存在相似或者关联,为了应用谓词之间的关联以提高目标实体的实体表示的可靠性,可以通过构建谓词关系图并对谓词关系图作进一步特征提取的方式,获取包含谓词之间关联的谓词表示。
此处,谓词关系图的构建,是以目标实体的实体三元组信息中的每个谓词作为一个节点,以每两个谓词的头实体的重合情况作为对应两个节点之间边的权重实现的。其中,谓词所在三元组中头实体的重合情况可以表现为两个谓词所在三元组中头实体集合的交集占比,例如可通过如下公式表示谓词关系图中谓词pi到谓词pj的边的权重:
Figure BDA0003182638170000141
式中,
Figure BDA0003182638170000146
即谓词pi到谓词pj的边的权重,也就是对于谓词pi而言谓词pj的关联程度,len(·)表示数量,谓词pi和谓词pj所在三元组中头实体集合分别为ES(pi)和ES(pj),len(ES(pi)∩ES(pj))为同时在两个头实体集合内的头实体数量,len(ES(pi))为ES(pi)中的头实体数量。
在得到谓词关系图之后,即可对谓词关系图进行特征提取,从而得到谓词表示。此处的谓词表示即包含了谓词关系图中各个节点的信息,也包含了谓词关系图中各节点之间的连接关系,因而能够全面、完整地展现实体三元组信息中包含的谓词部分的特征。
进一步地,对谓词关系图进行特征提取,可以通过图卷积网络(GraphConvolutional Network,GCN)或者图卷积网络的各种变形实现。例如,可以通过对谓词关系图进行多次卷积,获取谓词表示,其中单次卷积可以表示为如下形式:
Figure BDA0003182638170000142
Figure BDA0003182638170000143
其中,
Figure BDA0003182638170000144
是第k次卷积得到谓词pi的表示,Neighbour(pi)即谓词pi在谓词关系图中与谓词pi相连的谓词集合,
Figure BDA0003182638170000145
是第k-1次卷积得到谓词pj的表示。当k=0时,
Figure BDA0003182638170000151
为谓词pi的编码表示,例如可以是通过热独one-hot编码所得的
Figure BDA0003182638170000152
又例如通过bert-as-service编码得到的语义表示。
经多次卷积之后,即可得到谓词表示
Figure BDA0003182638170000153
基于上述任一实施例,图4是本发明提供的候选类型的类型表示确定方法的流程示意图,如图4所示,候选类型的类型表示是基于如下步骤确定的:
步骤410,基于类型信息中的类型名称和/或类型摘要文本,确定候选类型的类型信息表示。
具体地,类型信息涵盖了类型本身的信息,其中包含的类型名称是类型的直接标识,类型摘要文本则可以简明、确切地记述类型的相关信息,例如候选类型为武侠小说,候选类型的类型名称即武侠小说,类型摘要文本即用于介绍武侠小说这一类型的文本,例如“武侠小说多以侠客和义士为主人公,描写他们身怀绝技和见义勇为的行为”。
候选类型的类型信息表示可以基于候选类型的类型名称和/或类型摘要文本确定,例如可以将类型名称的语义编码作为类型信息,或者将类型摘要文本的语义编码作为类型信息,或者将类型名称和类型摘要文本此两者的语义编码融合作为类型信息,具体融合方式可以是拼接、加权相加等,本发明实施例对此不作具体限定。
和/或,步骤420,基于类型三元组信息中的类型关系和尾部类型,确定候选类型的类型三元组表示。
具体地,类型三元组信息中包含了以候选类型为首实体的三元组的类型关系和尾部类型,类型三元组信息中的类型关系和尾部类型可以是一一对应的,也可以是一个类型关系对应多个尾部类型,本发明实施例不对类型三元组信息中类型关系的数量作具体限定。
候选类型的类型三元组表示可以基于类型三元组信息中的类型关系和尾部类型确定,例如可以根据类型三元组信息中类型关系和尾部类型之间的对应关系,拼接相对应的类型关系和尾部类型的语义,从而得到类型三元组表示,也可以结合类型关系和尾部类型之间的相关性,对类型关系和尾部类型的语义进行选择性的融合,从而得到类型三元组表示,本发明实施例对此不作具体限定。
步骤430,基于类型信息表示或类型三元组表示,或基于类型信息表示和类型三元组表示之间的相关性,确定候选类型的类型表示。
具体地,在确定类型表示时,可以仅应用步骤410得到的类型信息表示,确定候选类型的类型表示,例如直接将类型信息表示作为类型表示,或者对类型信息表示做进一步的特征提取得到类型表示;此外,还可以仅应用步骤420得到的类型三元组表示,确定候选类型的类型表示,例如直接将类型三元组表示作为类型表示,或者对类型三元组表示做进一步的特征提取得到类型表示。
此外,还可以结合步骤410得到的类型信息表示,和步骤420得到的类型三元组表示,确定类型表示,在此过程中,考虑到类型信息和类型三元组信息之间存在隐藏的联系和交互,例如人们在阅读某个候选类型的类型信息,尤其是类型摘要文本时可以明显感知到类型信息所展示的内容可能更加接近于类型三元组信息中的某些类型关系和尾部类型所表示的内容,而和另外一些类型关系和尾部类型所表示内容的关联并不高,因此本发明实施例中可以应用类型信息表示和类型三元组表示之间的相关性,在对类型信息表示和类型三元组表示进行融合时,突出两者之间相关性更高的部分,弱化两者之间相关性较低的部分,从而使得融合所得的类型表示能够更加贴近人类思维在实体分类时对于候选类型了解认知的关注点,提高类型表示对于候选类型及其相关信息的表征能力。
进一步地,类型信息表示和类型三元组表示之间的相关性可以通过对类型信息表示和类型三元组表示进行注意力交互实现,相应地基于相关性确定的类型表示,可以是对类型信息表示和类型三元组表示进行注意力交互所得的结果。例如类型表示可以体现为如下形式:
Figure BDA0003182638170000171
式中,Et为类型表示,att(·,·)为注意力交互函数,[Etn;Etd]为类型信息表示,其中Etn为类型名称的编码表示,Etd为类型摘要文本的编码表示;
Figure BDA0003182638170000172
为类型三元组表示。
本发明实施例提供的方法,应用类型信息表示和/或类型三元组表示,实现了候选类型的类型表示。其中在结合类型信息表示和类型三元组表示进行类型表示时,应用了两者之间的相关性,有助于提高类型表示对于候选类型及其相关信息的表征能力,进而提高实体分类的准确性和可靠性。
基于上述任一实施例,步骤420包括:
基于三元组信息中的类型关系表示和尾部类型表示之间的相关性,确定实体三元组表示;
类型关系表示是基于候选类型对应的各三元组中类型关系的语义确定的,尾部类型表示是基于候选类型对应的各三元组中尾部类型的语义确定的。
具体地,相较于目标实体所处三元组中的多种多样的谓词,候选类型的类型关系的种类较少,且每个类型可能存在的类型关系都较为相近,因此考虑候选类型的各种类型关系之间的关系,并不能够像考虑目标实体的各种谓词之间的关系一般得到更加丰富的信息,反而可能导致各种类型关系的表示结果过于相似。因此,本发明实施例中,针对候选类型所在三元组中的各种类型关系,仅获取各种类型关系的语义以构建类型关系表示。
尾部类型表示则可以基于候选类型所处三元组中尾部类型的语义确定,此处尾部类型的语义可以是尾部类型名词自身的语义,也可以是结合了与尾部类型名词相关的信息,例如针对尾部类型名词的描述文本得到的语义,本发明实施例对此不作具体限定。例如可以直接将尾部类型的语义信息作为尾部类型表示,也可以将尾部类型的类型摘要文本的语义信息作为尾部类型表示。
在不同类型三元组中的类型关系和尾部类型之间,同样存在着隐藏的联系和交互,类型关系和尾部类型之间的相关性,对于增强类型三元组信息的语义表示,乃至增强候选类型的语义表示,均能够有所助益。进一步地,类型关系表示和尾部类型之间的相关性可以通过对类型关系表示和尾部类型表示进行注意力交互实现,相应地基于相关性确定的类型三元组表示,可以是对类型关系表示和尾部类型表示进行注意力交互所得的结果。例如类型三元组表示可以体现为如下形式:
Figure BDA0003182638170000181
式中,
Figure BDA0003182638170000182
即类型三元组表示,
Figure BDA0003182638170000183
由类型关系注意力交互的表示
Figure BDA0003182638170000184
和尾部类型注意力交互的表示
Figure BDA0003182638170000185
拼接得到。
其中,类型关系注意力交互的表示
Figure BDA0003182638170000186
即类型三元组信息中各个类型关系的注意力表示的集合,
Figure BDA0003182638170000187
Figure BDA0003182638170000188
Figure BDA0003182638170000189
为第1个类型关系至第n个类型关系的注意力表示,m为实体三元组信息中的类型关系总数,其中第i个类型关系的注意力表示
Figure BDA00031826381700001810
可以是:
Figure BDA00031826381700001811
式中,att(·,·)为注意力交互函数,
Figure BDA00031826381700001812
为第i个类型关系的类型关系表示,Ett为尾部类型表示。
尾部类型注意力交互的表示
Figure BDA00031826381700001813
即类型三元组信息中各个尾部类型意力表示的集合,
Figure BDA0003182638170000191
Figure BDA0003182638170000192
Figure BDA0003182638170000193
为第1个尾部类型至第m个尾部类型的注意力表示,其中第i个尾部类型的注意力表示
Figure BDA0003182638170000194
可以是:
Figure BDA0003182638170000195
式中,att(·,·)为注意力交互函数,
Figure BDA0003182638170000196
为第i个尾部类型的尾部类型表示,Etp为类型关系表示。
本发明实施例提供的方法,基于类型关系表示和尾部类型表示之间的相关性确定类型三元组表示,有助于提高类型三元组表示的可靠性,从而提高实体分类的可靠性。
基于上述任一实施例,步骤130包括:
从各候选类型中,选取与目标实体的匹配结果的得分最高的候选类型,作为目标实体的实体类型。
具体地,针对一个目标实体对应多个候选类型的情况,可以应用该目标实体的实体表示分别与各个候选类型的类型表示进行匹配,从而得到该目标实体与各个候选类型的匹配结果。此处,目标实体与各个候选类型的匹配结果中,均包含了用于衡量匹配度高低的得分,得分越高,则目标实体属于该候选类型的概率越高,
因此,在得到目标实体与各个候选类型之间的匹配结果后,即可从中选取中得分最高的匹配结果所对应的候选类型,作为目标实体的实体类型。
基于上述任一实施例,图5是本发明提供的实体分类方法的流程示意图之二,如图5所示,实体分类方法可以从两个视角分别获取目标实体的实体表示,以及候选类型的类型表示,再结合此两者进行匹配。
其中,针对于目标实体,可以首先获取目标实体的实体名称、实体描述文本,以及目标实体作为头实体的三元组内的谓词集合和尾部集合。针对实体名称、实体描述文本,可以分别获取实体名称的语义表示和实体描述文本的语义表示,并将此两者拼接,作为实体信息表示。对应在图5中,圆圈中设置加号的符号代表拼接操作。
针对实体的三元组内的谓词集合和尾部集合,可以对谓词集合中的每个谓词进行one-hot编码,由此得到长度为谓词数量、谓词序号对应的下标置为1以外其他都置为0的各个谓词的谓词向量。在此基础上,可以将谓词作为节点,将每两个谓词的头实体的重合情况作为对应两个节点之间边的权重,构建谓词关系图,并通过对谓词关系图进行特征提取,得到每个谓词的谓词表示。针对尾部集合中的每个尾部,可以获取每个尾部的语义构建尾部表示。
在此基础上,可以对谓词集合的谓词表示和尾部集合的尾部表示作注意力交互计算(Attention),并对注意力交互所得的谓词注意力表示和尾部注意力表示进行拼接,从而得到实体三元组表示。
接着,对实体信息表示和实体三元组表示作注意力交互计算,从而得到实体表示。
针对于任意候选类型,可以首先获取候选类型的类型名称、类型描述文本,以及候选类型作为头实体的三元组内的类型关系集合和尾部类型集合。针对类型名称、类型描述文本,可以分别获取类型名称的语义表示和类型描述文本的语义表示,并将此两者拼接,作为类型信息表示。
针对候选类型的类型关系的三元组内的类型关系集合和尾部类型集合,可以将类型关系集合中的每个类型关系的语义表示作为每个类型关系的类型关系表示。针对尾部类型集合中的每个尾部类型,可以获取每个尾部类型的语义构建尾部类型表示。
在此基础上,可以对类型关系集合的类型关系表示和尾部类型集合的尾部类型表示作注意力交互计算(Attention),并对注意力交互所得的类型关系注意力表示和尾部类型注意力表示进行拼接,从而得到类型三元组表示。
接着,对类型信息表示和类型三元组表示作注意力交互计算,从而得到类型表示。
此后,可以对实体表示和类型表示进行匹配评分,并输出匹配得分作为匹配结果,由此来确定目标实体所属的类型。对应到图5中,圆圈中设置乘号的符号表示匹配评分所用的函数,例如可以是sigmod函数,或者是其余类型的激活函数。以sigmod函数为例,匹配得分可以表示为如下形式:
y′=sigmod(Score(Ee,Et))
式中,y′为最终输出的匹配得分,即匹配结果。Score(Ee,Et)表示基于实体表示Ee和类型表示Et运算的评分函数。
本发明实施例提供的方法,通过多重注意力机制挖掘各个部分之间的隐藏交互,从而能够得到更高质量的实体表示和类型表示。实体和类型的摘要文本以及三元组信息的引入,不仅增强了实体和类型的语义表示能力,且能够适用于新增实体和关系稀疏的实体,有效保证了实体分类方法的可靠性。
其中,对于新增的实体,可以仅应用包含实体名称和实体摘要文本的实体信息构建实体表示,无需重新进行全局训练。而对于关系稀疏的实体,也可以通过非关系型的三元组以及实体摘要文本获取丰富的语义信息,从而确定实体表示,保证了实体分类方法的鲁棒性。
基于上述任一实施例,图5示出的实体分类方式可以通过端到端的模型实现,此处的模型内部具备初始表示层、隐藏表示层以及得分函数层。
其中,初始表示层用于对输入的实体信息、实体三元组信息、类型信息和类型三元组信息进行初始化表示,从而得到实体信息表示、类型信息表示,以及目标实体的谓词表示和尾部表示,候选类型的类型关系表示和尾部实体表示。
隐藏表示层用于通过注意力交互的方式,感知目标实体的谓词表示和尾部表示之间的相关性,从而得到实体三元组表示;感知候选类型的类型关系表示和尾部实体表示之间的相关性,从而得到类型三元组表示。并且在此基础上,隐藏表示层还用于通过注意力交互的方式,感知目标实体的实体信息表示和实体三元组表示之间的相关性,从而得到实体表示,感知候选类型的类型信息表示和类型三元组表示之间的相关性,从而得到类型表示。
得分函数层用于根据实体表示和类型表示进行匹配打分,从而得到针对于目标实体的,候选类型的匹配得分。
此外,上述模型的训练,可以以样本实体的实体信息、实体三元组信息、候选类型的类型信息和类型三元组信息为样本,以样本实体是否属于候选类型为标签实现。例如,若样本实体属于候选类型,则匹配得分的目标值为1,否则匹配得分的目标值为0。具体在训练时,可以应用标准交叉熵函数(standard cross entropy)作为损失函数,使得模型的预测值尽可能接近实际标签。
基于上述任一实施例,图6是本发明提供的实体分类装置的结构示意图,如图6所示,该装置包括:
确定单元610,用于确定目标实体及其候选类型;
匹配单元620,用于基于所述目标实体的实体表示和所述候选类型的类型表示,确定所述目标实体和所述候选类型的匹配结果,所述实体表示是基于对应实体的实体信息和/或实体三元组信息确定的,所述类型表示是基于对应类型的类型信息和/或类型三元组信息确定的;
分类单元630,用于基于所述目标实体和所述候选类型的匹配结果,确定所述目标实体的实体类型。
本发明实施例提供的装置,通过对目标实体的实体表示和候选类型的类型表示进行匹配,实现基于实体和类型的双视角实体分类,其中应用相较于实体的信息更加容易获取和维护的类型信息和/或类型三元组信息,获取信息丰富的类型表示,从而弥补目标实体在知识图谱中关系稀疏导致可参考的信息较少的问题,保证实体分类的可用性,提高实体分类的可靠性和准确性。
基于上述任一实施例,该装置还包括实体表示单元,包括:
实体信息表示子单元,用于基于所述实体信息中的实体名称和/或实体摘要文本,确定所述目标实体的实体信息表示;
和/或,实体三元组表示子单元,用于基于所述实体三元组信息中的谓词和尾部,确定所述实体三元组信息的实体三元组表示;
实体表示子单元,用于基于所述实体信息表示或所述实体三元组表示,或基于所述实体信息表示和所述实体三元组表示之间的相关性,确定所述目标实体的实体表示。
基于上述任一实施例,实体三元组表示子单元用于:
基于所述实体三元组信息中的谓词表示和尾部表示之间的相关性,确定所述实体三元组表示;
其中,所述谓词表示是基于所述目标实体对应的各三元组中的谓词及其头实体的重合情况确定的,所述尾部表示是基于所述目标实体对应的各三元组中尾部的语义确定的。
基于上述任一实施例,实体三元组表示子单元用于:
以所述目标实体对应的各三元组中谓词为节点,以谓词的头实体的重合情况为边权重,构建谓词关系图;
基于所述谓词关系图,确定所述谓词表示。
基于上述任一实施例,该装置还包括类型表示单元,用于:
类型信息表示子单元,用于基于所述类型信息中的类型名称和/或类型摘要文本,确定所述候选类型的类型信息表示;
和/或,类型三元组表示子单元,用于基于所述类型三元组信息中的类型关系和尾部类型,确定所述候选类型的类型三元组表示;
类型表示子单元,用于基于所述类型信息表示或所述类型三元组表示,或基于所述类型信息表示和所述类型三元组表示之间的相关性,确定所述候选类型的类型表示。
基于上述任一实施例,类型三元组表示子单元用于:
基于所述三元组信息中的类型关系表示和尾部类型表示之间的相关性,确定所述实体三元组表示;
所述类型关系表示是基于所述候选类型对应的各三元组中类型关系的语义确定的,所述尾部类型表示是基于所述候选类型对应的各三元组中尾部类型的语义确定的。
基于上述任一实施例,分类单元630用于:
从各候选类型中,选取与所述目标实体的匹配结果的得分最高的候选类型,作为所述目标实体的实体类型。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行实体分类方法,该方法包括:确定目标实体及其候选类型;基于所述目标实体的实体表示和所述候选类型的类型表示,确定所述目标实体和所述候选类型的匹配结果,所述实体表示是基于对应实体的实体信息和/或实体三元组信息确定的,所述类型表示是基于对应类型的类型信息和/或类型三元组信息确定的;基于所述目标实体和所述候选类型的匹配结果,确定所述目标实体的实体类型。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的实体分类方法,该方法包括:确定目标实体及其候选类型;基于所述目标实体的实体表示和所述候选类型的类型表示,确定所述目标实体和所述候选类型的匹配结果,所述实体表示是基于对应实体的实体信息和/或实体三元组信息确定的,所述类型表示是基于对应类型的类型信息和/或类型三元组信息确定的;基于所述目标实体和所述候选类型的匹配结果,确定所述目标实体的实体类型。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的实体分类方法,该方法包括:确定目标实体及其候选类型;基于所述目标实体的实体表示和所述候选类型的类型表示,确定所述目标实体和所述候选类型的匹配结果,所述实体表示是基于对应实体的实体信息和/或实体三元组信息确定的,所述类型表示是基于对应类型的类型信息和/或类型三元组信息确定的;基于所述目标实体和所述候选类型的匹配结果,确定所述目标实体的实体类型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种实体分类方法,其特征在于,包括:
确定目标实体及其候选类型;
基于所述目标实体的实体表示和所述候选类型的类型表示,确定所述目标实体和所述候选类型的匹配结果,所述实体表示是基于对应实体的实体信息和/或实体三元组信息确定的,所述类型表示是基于对应类型的类型信息和/或类型三元组信息确定的;
基于所述目标实体和所述候选类型的匹配结果,确定所述目标实体的实体类型。
2.根据权利要求1所述的实体分类方法,其特征在于,所述目标实体的实体表示是基于如下步骤确定的:
基于所述实体信息中的实体名称和/或实体摘要文本,确定所述目标实体的实体信息表示;
和/或,基于所述实体三元组信息中的谓词和尾部,确定所述实体三元组信息的实体三元组表示;
基于所述实体信息表示或所述实体三元组表示,或基于所述实体信息表示和所述实体三元组表示之间的相关性,确定所述目标实体的实体表示。
3.根据权利要求2所述的实体分类方法,其特征在于,所述基于所述实体三元组信息中的谓词和尾部,确定所述实体三元组信息的实体三元组表示,包括:
基于所述实体三元组信息中的谓词表示和尾部表示之间的相关性,确定所述实体三元组表示;
其中,所述谓词表示是基于所述目标实体对应的各三元组中的谓词及其头实体的重合情况确定的,所述尾部表示是基于所述目标实体对应的各三元组中尾部的语义确定的。
4.根据权利要求3所述的实体分类方法,其特征在于,所述谓词表示是基于如下步骤确定的:
以所述目标实体对应的各三元组中谓词为节点,以谓词的头实体的重合情况为边权重,构建谓词关系图;
基于所述谓词关系图,确定所述谓词表示。
5.根据权利要求1所述的实体分类方法,其特征在于,所述候选类型的类型表示是基于如下步骤确定的:
基于所述类型信息中的类型名称和/或类型摘要文本,确定所述候选类型的类型信息表示;
和/或,基于所述类型三元组信息中的类型关系和尾部类型,确定所述候选类型的类型三元组表示;
基于所述类型信息表示或所述类型三元组表示,或基于所述类型信息表示和所述类型三元组表示之间的相关性,确定所述候选类型的类型表示。
6.根据权利要求5所述的实体分类方法,其特征在于,所述基于所述类型三元组信息中的类型关系和尾部类型,确定所述候选类型的类型三元组表示,包括:
基于所述三元组信息中的类型关系表示和尾部类型表示之间的相关性,确定所述实体三元组表示;
所述类型关系表示是基于所述候选类型对应的各三元组中类型关系的语义确定的,所述尾部类型表示是基于所述候选类型对应的各三元组中尾部类型的语义确定的。
7.根据权利要求1至6中任一项所述的实体分类方法,其特征在于,所述基于所述目标实体和所述候选类型的匹配结果,确定所述目标实体的实体类型,包括:
从各候选类型中,选取与所述目标实体的匹配结果的得分最高的候选类型,作为所述目标实体的实体类型。
8.一种实体分类装置,其特征在于,包括:
确定单元,用于确定目标实体及其候选类型;
匹配单元,用于基于所述目标实体的实体表示和所述候选类型的类型表示,确定所述目标实体和所述候选类型的匹配结果,所述实体表示是基于对应实体的实体信息和/或实体三元组信息确定的,所述类型表示是基于对应类型的类型信息和/或类型三元组信息确定的;
分类单元,用于基于所述目标实体和所述候选类型的匹配结果,确定所述目标实体的实体类型。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述实体分类方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述实体分类方法的步骤。
CN202110860579.9A 2021-07-27 2021-07-27 实体分类方法、装置、电子设备和存储介质 Pending CN113609291A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110860579.9A CN113609291A (zh) 2021-07-27 2021-07-27 实体分类方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110860579.9A CN113609291A (zh) 2021-07-27 2021-07-27 实体分类方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113609291A true CN113609291A (zh) 2021-11-05

Family

ID=78305863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110860579.9A Pending CN113609291A (zh) 2021-07-27 2021-07-27 实体分类方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113609291A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324749A (zh) * 2020-05-15 2020-06-23 支付宝(杭州)信息技术有限公司 一种实体分类方法、系统、及装置
CN111368096A (zh) * 2020-03-09 2020-07-03 中国平安人寿保险股份有限公司 基于知识图谱的信息分析方法、装置、设备和存储介质
CN111444344A (zh) * 2020-03-27 2020-07-24 腾讯科技(深圳)有限公司 实体分类方法、装置、计算机设备和存储介质
CN111460826A (zh) * 2020-03-31 2020-07-28 科大讯飞(苏州)科技有限公司 实体分类方法以及相关装置
WO2021031480A1 (zh) * 2019-08-21 2021-02-25 广州视源电子科技股份有限公司 文本生成方法和装置
CN112948505A (zh) * 2021-03-30 2021-06-11 太原理工大学 一种实体关系分类的模型构建方法、设备及存储介质
CN112989032A (zh) * 2019-12-17 2021-06-18 医渡云(北京)技术有限公司 实体关系分类方法、装置、介质及电子设备
US20210216722A1 (en) * 2020-01-15 2021-07-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for processing sematic description of text entity, and storage medium
US20210216716A1 (en) * 2020-04-23 2021-07-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, electronic device, and storage medium for entity linking

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021031480A1 (zh) * 2019-08-21 2021-02-25 广州视源电子科技股份有限公司 文本生成方法和装置
CN112989032A (zh) * 2019-12-17 2021-06-18 医渡云(北京)技术有限公司 实体关系分类方法、装置、介质及电子设备
US20210216722A1 (en) * 2020-01-15 2021-07-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for processing sematic description of text entity, and storage medium
CN111368096A (zh) * 2020-03-09 2020-07-03 中国平安人寿保险股份有限公司 基于知识图谱的信息分析方法、装置、设备和存储介质
CN111444344A (zh) * 2020-03-27 2020-07-24 腾讯科技(深圳)有限公司 实体分类方法、装置、计算机设备和存储介质
CN111460826A (zh) * 2020-03-31 2020-07-28 科大讯飞(苏州)科技有限公司 实体分类方法以及相关装置
US20210216716A1 (en) * 2020-04-23 2021-07-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, electronic device, and storage medium for entity linking
CN111324749A (zh) * 2020-05-15 2020-06-23 支付宝(杭州)信息技术有限公司 一种实体分类方法、系统、及装置
CN112948505A (zh) * 2021-03-30 2021-06-11 太原理工大学 一种实体关系分类的模型构建方法、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周琦;陆叶;李婷玉;王亚;张再跃;曹存根;: "基于语义文法的地理实体位置关系的获取", 计算机科学, no. 07, pages 208 - 215 *

Similar Documents

Publication Publication Date Title
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN111914054A (zh) 用于大规模语义索引的系统和方法
CN113095415B (zh) 一种基于多模态注意力机制的跨模态哈希方法及系统
CN110390018A (zh) 一种基于lstm的社交网络评论生成方法
Chang et al. Research on detection methods based on Doc2vec abnormal comments
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN113553848B (zh) 长文本分类方法、系统、电子设备、计算机可读存储介质
CN113282711B (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN115017303A (zh) 基于新闻文本进行企业风险评估的方法、计算设备和介质
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN114764566B (zh) 用于航空领域的知识元抽取方法
CN114611520A (zh) 一种文本摘要生成方法
CN114742016A (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN112632223B (zh) 案事件知识图谱构建方法及相关设备
CN113051904A (zh) 一种面向小规模知识图谱的链接预测方法
CN113704393A (zh) 关键词提取方法、装置、设备及介质
CN112036439A (zh) 依存关系分类方法及相关设备
CN115794998A (zh) 一种基于对比学习的专业领域术语挖掘方法
CN116127097A (zh) 一种结构化文本关系抽取方法、装置、设备
CN115269846A (zh) 文本处理方法、装置、电子设备及存储介质
CN110852066A (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination