CN115470356A - 一种知识图谱构建方法、装置及电子设备 - Google Patents
一种知识图谱构建方法、装置及电子设备 Download PDFInfo
- Publication number
- CN115470356A CN115470356A CN202110653469.5A CN202110653469A CN115470356A CN 115470356 A CN115470356 A CN 115470356A CN 202110653469 A CN202110653469 A CN 202110653469A CN 115470356 A CN115470356 A CN 115470356A
- Authority
- CN
- China
- Prior art keywords
- entity
- attribute
- entities
- identified
- mention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种知识图谱构建方法、装置及电子设备。其中,所述方法包括:对目标文本进行属性标记,确定所述目标文本中存在的各个属性以及所述各个属性的类别;在所述各个属性中确定类别为预设类别的属性,作为实体提及,其中,所述预设类别的属性为预先设置的能够唯一标识所描述的实体的属性;针对每个实体提及,确定在所述目标文本中与该实体提及关联且不为实体提及的属性,得到该实体提及所标识的实体的属性;确定各实体提及在所述目标文本中的关联关系,得到各实体提及所标识的实体之间的关系;根据各实体提及所标识的实体的属性以及各实体提及所标识的实体之间的关系构建知识图谱。可以使得构建得到的知识图谱中信息更加全面。
Description
技术领域
本发明涉及知识图谱技术领域,特别是涉及一种知识图谱构建方法、装置及电子设备。
背景技术
知识图谱中包括节点和边,其中节点用于表示实体,边用于连接两个节点,并且用于表示该两个节点所表示的实体之间的关系。因此知识图谱为用于表示实体以及实体之间的关系的知识网络。许多应用的实现需要基于知识图谱所表示的实体以及实体之间的关系,因此如何准确构建知识图谱成为亟待解决的技术问题。
相关技术中,可以从非结构文本中抽取用于表示实体与实体之间的关系的关系三元组和用于表示实体的属性的属性三元组,并基于提取到的关系三元组和属性三元组构建知识图谱。
但是,如果在非结构文本中实体和/或属性未以三元组的形式出现,则该实体或属性无法被抽取到,示例性的,如果非结构文本中存在孤立的实体[小明],则在构建得到的知识图谱中将无法体现出[小明]这一实体,导致知识图谱中的信息相对非结构文本中的信息有所缺失,即构建得到的知识图谱中的信息不够全面。
发明内容
本发明实施例的目的在于提供一种知识图谱构建方法、装置及电子设备,以使得构建得到的知识图谱中的信息更全面。具体技术方案如下:
在本发明实施例的第一方面,提供了一种知识图谱构建方法,所述方法包括:
对目标文本进行属性标记,确定所述目标文本中存在的各个属性以及所述各个属性的类别;
在所述各个属性中确定类别为预设类别的属性,作为实体提及,其中,所述预设类别的属性为预先设置的能够唯一标识所描述的实体的属性;
针对每个实体提及,确定在所述目标文本中与该实体提及关联且不为实体提及的属性,得到该实体提及所标识的实体的属性;
确定各实体提及在所述目标文本中的关联关系,得到各实体提及所标识的实体之间的关系;
根据各实体提及所标识的实体的属性以及各实体提及所标识的实体之间的关系构建知识图谱。
在一种可能的实施例中,所述对目标文本进行属性标记,确定所述目标文本中存在的各个属性以及所述各个属性的类别,包括:
将目标文本输入至预先经过训练的属性标记模型,得到所述属性标记模型输出的所述目标文本中存在的各个属性以及所述各个属性的类别;
其中,所述属性标记模型包括第一预训练子模型和标记子模型,所述第一预训练子模型的输入为输入至所述属性标记模型的文本,输出为所输入的文本中包含的各个分词的词向量,所述标记子模型的输入为所述各个分词的词向量,输出为各个分词中存在的属性以及属性的类别,所述第一预训练子模型是通过无监督学习的方式训练得到的。
在一种可能的实施例中,所述针对每个实体提及,确定在所述目标文本中与该实体提及关联且不为实体提及的属性,得到该实体提及所标识的实体的属性,包括:
针对每个实体提及以及每个不为实体提及的属性,将该实体提及、该属性以及所述目标文本输入至预先经过训练的关系判断模型,得到所述关系判断模型输出的第一输出结果,所述第一输出结果用于表示该实体提及与该属性在所述目标文本中的关联关系;
如果所述第一输出结果表示该实体提及与该属性存在关联关系,将该属性确定为该实体提及所标识的实体的属性;
所述确定各实体提及在所述目标文本中的关联关系,得到各实体提及所标识的实体之间的关系,包括:
针对每两个实体提及,将该两个实体提及以及所述目标文本输入至所述关系判断模型,得到所述关系判断模型输出的第二输出结果,所述第二输出结果用于表示该两个实体提及在所述目标文本中的关联关系;
根据所述第二输出结果所表示的关联关系,确定该两个实体提及所标识的实体间的关联关系;
其中,所述关系判断模型包括第二预训练子模型和判断子模型,所述第二预训练子模型的输入为输入至所述关系判断模型的文本,输出为所输入的文本中包含的各个分词的词向量,所述判断子模型的输入为所述各个分词的词向量以及输入至所述关系判断模型的属性,输出为输入至所述关系判断模型的属性之间的关联关系,所述第二预训练子模型是通过无监督学习的方式训练得到的。
在一种可能的实施例中,在所述根据各实体提及所标识的实体的属性以及各实体提及所标识的实体之间的关系构建知识图谱之后,所述方法还包括:
判断任意两个实体提及所标识的实体是否相同;
如果所述任意两个实体提及所标识的实体相同,合并所述任意两个实体提及所标识的实体。
在一种可能的实施例中,所述判断任意两个实体提及所标识的实体是否相同,包括:
判断任意两个实体提及是否属于针对同一实体预设的标识库,其中,所述标识库中包括同一实体的多个标识;
如果所述任意两个实体提及属于针对同一实体预设的标识库,确定所述任意两个实体提及所标识的实体相同。
在一种可能的实施例中,所述判断任意两个实体提及所标识的实体是否相同,包括:
确定任意两个实体提及所标识的实体的属性是否匹配;
如果所述任意两个实体提及所标识的实体的属性匹配,确定所述任意两个实体提及所标识的实体相同。
在一种可能的实施例中,所述确定各实体提及在所述目标文本中的关联关系,得到各实体提及所标识的实体之间的关系,包括:
针对每两个实体提及,确定该两个实体提及在所述目标文本中的关联关系,作为预测关联关系;
判断所述预测关联关系是否属于预设关联关系集合,其中,所述预设关联关系集合为针对该两个实体提及的类别预先设置的;
如果所述预测关联关系属于所述预设关联关系集合,确定该两个实体提及所标识的实体间存在所述预测关联关系;
如果所述预测关联关系不属于所述预设关联关系集合,确定该两个实体提及所标识的实体间不存在关联关系。
在本发明实施例的第二方面,提供了一种知识图谱构建装置,所述装置包括:
属性标记模块,用于对目标文本进行属性标记,确定所述目标文本中存在的各个属性以及所述各个属性的类别;
实体提及模块,用于在所述各个属性中确定类别为预设类别的属性,作为实体提及,其中,所述预设类别的属性为预先设置的能够唯一标识所描述的实体的属性;
属性归属模块,用于针对每个实体提及,确定在所述目标文本中与该实体提及关联且不为实体提及的属性,得到该实体提及所标识的实体的属性;
实体关联模块,用于确定各实体提及在所述目标文本中的关联关系,得到各实体提及所标识的实体之间的关系;
图谱构建模块,用于根据各实体提及所标识的实体的属性以及各实体提及所标识的实体之间的关系构建知识图谱。
在一种可能的实施例中,所述属性标记模块对目标文本进行属性标记,确定所述目标文本中存在的各个属性以及所述各个属性的类别,包括:
将目标文本输入至预先经过训练的属性标记模型,得到所述属性标记模型输出的所述目标文本中存在的各个属性以及所述各个属性的类别;
其中,所述属性标记模型包括第一预训练子模型和标记子模型,所述第一预训练子模型的输入为输入至所述属性标记模型的文本,输出为所输入的文本中包含的各个分词的词向量,所述标记子模型的输入为所述各个分词的词向量,输出为各个分词中存在的属性以及属性的类别,所述第一预训练子模型是通过无监督学习的方式训练得到的。
在一种可能的实施例中,所述属性归属模块针对每个实体提及,确定在所述目标文本中与该实体提及关联且不为实体提及的属性,得到该实体提及所标识的实体的属性,包括:
针对每个实体提及以及每个不为实体提及的属性,将该实体提及、该属性以及所述目标文本输入至预先经过训练的关系判断模型,得到所述关系判断模型输出的第一输出结果,所述第一输出结果用于表示该实体提及与该属性在所述目标文本中的关联关系;
如果所述第一输出结果表示该实体提及与该属性存在关联关系,将该属性确定为该实体提及所标识的实体的属性;
所述确定各实体提及在所述目标文本中的关联关系,得到各实体提及所标识的实体之间的关系,包括:
针对每两个实体提及,将该两个实体提及以及所述目标文本输入至所述关系判断模型,得到所述关系判断模型输出的第二输出结果,所述第二输出结果用于表示该两个实体提及在所述目标文本中的关联关系;
根据所述第二输出结果所表示的关联关系,确定该两个实体提及所标识的实体间的关联关系;
其中,所述关系判断模型包括第二预训练子模型和判断子模型,所述第二预训练子模型的输入为输入至所述关系判断模型的文本,输出为所输入的文本中包含的各个分词的词向量,所述判断子模型的输入为所述各个分词的词向量以及输入至所述关系判断模型的属性,输出为输入至所述关系判断模型的属性之间的关联关系,所述第二预训练子模型是通过无监督学习的方式训练得到的。
在一种可能的实施例中,所述装置还包括实体融合模块,用于判断任意两个实体提及所标识的实体是否相同;
如果所述任意两个实体提及所标识的实体相同,合并所述任意两个实体提及所标识的实体。
在一种可能的实施例中,所述实体融合模块判断任意两个实体提及所标识的实体是否相同,包括:
判断任意两个实体提及是否属于针对同一实体预设的标识库,其中,所述标识库中包括同一实体的多个标识;
如果所述任意两个实体提及属于针对同一实体预设的标识库,确定所述任意两个实体提及所标识的实体相同。
在一种可能的实施例中,所述实体融合模块判断任意两个实体提及所标识的实体是否相同,包括:
确定任意两个实体提及所标识的实体的属性是否匹配;
如果所述任意两个实体提及所标识的实体的属性匹配,确定所述任意两个实体提及所标识的实体相同。
在一种可能的实施例中,所述实体关联模块确定各实体提及在所述目标文本中的关联关系,得到各实体提及所标识的实体之间的关系,包括:
针对每两个实体提及,确定该两个实体提及在所述目标文本中的关联关系,作为预测关联关系;
判断所述预测关联关系是否属于预设关联关系集合,其中,所述预设关联关系集合为针对该两个实体提及的类别预先设置的;
如果所述预测关联关系属于所述预设关联关系集合,确定该两个实体提及所标识的实体间存在所述预测关联关系;
如果所述预测关联关系不属于所述预设关联关系集合,确定该两个实体提及所标识的实体间不存在关联关系。
在本发明实施例的第三方面,提供了一种电子设备,包括:
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面任一所述的方法步骤。
在本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一所述的方法步骤。
本发明实施例有益效果:
本发明实施例提供的知识图谱构建方法、装置及电子设备,可以通过属性标记的方式全面的标记出目标文本中存在的各个属性,并通过将预设类别的属性设置为实体提及的方式区别标记出目标文本中存在的实体,再通过判断实体提及与属性、实体提及与实体提及之间的关系,确定出各属性归属的实体以及实体与实体之间的关系。由于本发明实施例是通过先标记属性,再基于属性之间的关系组合属性得到实体的属性以及实体之间的关系的,因此即使一个属性孤立地存在于目标文本中,也能够被标记出来并体现在构建得到的知识图谱中,因此构建得到的知识图谱中信息更加全面。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明实施例提供的知识图谱构建方法的一种流程示意图;
图2为本发明实施例提供的属性标记模型的一种结构示意图;
图3为本发明实施例提供的关系判断模型的一种结构示意图;
图4为本发明实施例提供的知识图谱构建方法的另一种流程示意图;
图5为本发明实施例提供的知识图谱构建装置的一种结构示意图;
图6为本发明实施例提供的电子设备的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1所示为本发明实施例提供的知识图谱构建方法的一种流程示意图,可以包括:
S101,对目标文本进行属性标记,确定目标文本中存在的各个属性以及各个属性的类别。
S102,在各个属性中确定类别为预设类别的属性,作为实体提及。
S103,针对每个实体提及,确定在目标文本中与该实体提及关联且不为实体提及的属性,得到该实体提及所标识的实体的属性。
S104,确定各实体提及在目标文本中的关联关系,得到各实体提及所标识的实体之间的关系。
S105,根据各实体提及所标识的实体的属性以及各实体提及所标识的实体之间的关系构建知识图谱。
选用该实施例,可以通过属性标记的方式全面的标记出目标文本中存在的各个属性,并通过将预设类别的属性设置为实体提及的方式区别标记出目标文本中存在的实体,再通过判断实体提及与属性、实体提及与实体提及之间的关系,确定出各属性归属的实体以及实体与实体之间的关系。由于本发明实施例是通过先标记属性,再基于属性之间的关系组合属性得到实体的属性以及实体之间的关系的,因此即使一个属性孤立地存在于目标文本中,也能够被标记出来并体现在构建得到的知识图谱中,因此构建得到的知识图谱中信息更加全面。
其中,在S101中,目标文本可以是非结构化文本,例如目标文本可以是某特定领域的书籍、论文等。属性为实体在某个维度上的特征,示例性的,属性可以是[年龄:18]、[居住地:杭州]、[性别:男]、[姓名:张三]等。一个属性的类别为该属性所表示的维度,例如属性[年龄:18]和属性[年龄:28]都是表示年龄这一维度上的特征,因此属性[年龄:18]和属性[年龄:28]的类别相同。而属性[年龄:18]和属性[姓名:张三]为不同维度上的特征,因此属性[年龄:18]和属性[姓名:张三]为不同类别的属性。
关于属性标记的方式将在下文中进行详细的示例性说明,在此不再赘述。
在S102中,预设类别的属性为预先设置的能够唯一标识所描述的实体的属性,可以理解的是,在不同应用场景中涉及的实体可能不同,并且不同类别的属性能够唯一标识所描述的实体,因此在不同可能的应用场景中预设类别的属性可以不同。
示例性的,假设目标文本中所涉及的实体包括一个公司内的员工和部门,则对于员工,由于姓名和工号都可以唯一标识员工,因此可以预先设置属性类别[姓名]或属性类别[工号]作为预设类别。对于部门,由于部门名称可以唯一标识部门,因此可以预先设置属性类别[部门名称]作为预设类别。
又假设目标文本中所涉及的实体包括多个不同公司的员工,则对于员工,可能不同公司中存在工号相同的员工,则工号无法唯一标识员工,因此可以预先设置属性类别[姓名]作为预设类别。又由于公司名称可以唯一标识公司,因此可以预先设置属性类别[公司名称]作为预设类别。
可以理解的是,由于预设类别的属性为预先设置的能够唯一标识所描述的实体的属性,因此实体提及能够唯一标识实体。例如在不考虑存在同名人员的情况下,假设属性[姓名:张三]为实体提及,属性[姓名:张三]显然可以唯一标识一个人员。
在S103中,下文中为描述方便将不为实体提及的属性称为特征属性,以区别属性中的实体提及。如果一个实体提及与一个特征属性关联,则可以认为该特征属性与该实体提及用于描述同一实体,而实体提及能够唯一标识其描述的实体,因此可以认为该特征属性用于描述该实体提及所标识的属性。
示例性的,假设实体提及[姓名:张三]与特征属性[年龄:18]关联,则可以认为特征属性[年龄:18]用于描述实体提及[姓名:张三]所标识的实体,即实体提及[姓名:张三]所标识的人员具备特征属性[年龄:18]。
可以是遍历每个实体提及-特征属性对,判断该实体提及-特征属性对涉及的实体提及与特征属性是否关联,如果该实体提及-特征属性对涉及的实体提及与特征属性关联,则将该特征属性确定为该实体提及所标识的实体的属性。
关于如何判断实体提及与特征属性是否关联将在下文中进行详细的示例性说明,在此不再赘述。
在S104中,如前述分析,由于实体提及能够唯一标识实体,因此理论上两个不同的实体提及所标识的实体不同,因此当两个实体提及在目标文本中关联时,可以认为该两个实体提及各自标识的实体关联。因此,可以根据各实体提及在目标文本中的关联关系,得到各实体提及所标识的实体之间的关系。
示例性的,假设实体提及[姓名:张三]与实体提及[姓名:李四]在目标文本中存在朋友关系,则可以认为实体提及[姓名:张三]所标识的人员与实体提及[姓名:李四]所标识的人员存在朋友关系。
在S105中,可以是针对各实体提及所标识的实体创建节点,并根据各实体提及所标识的实体的属性以及各实体提及所标识的实体之间,建立各节点之间的边,从而得到知识图谱。
为了更清楚的对本发明实施例提供的知识图谱构建方法进行说明,下面将对属性标记的流程进行说明:
在一种可能的实施例中,可以是将目标文本输入至预先经过训练的属性标记模型,得到属性标记模型输出的目标文本中存在的各个属性以及各个属性的类别。
可以理解的是,在训练属性标记模型时,需要利用到大量的标注有属性以及属性类别的样本文本,而为样本文本标注属性以及属性类别需要消耗较多的人力成本。
基于此,在另一种可能的实施例中,属性标记模型可以如图2所示,包括第一预训练子模型201和标记子模型202,第一预训练子模型201的输入为输入至属性标记模型的文本,输出为所输入的文本包含的各个分词的词向量,标记子模型202的输入为各个分词的词向量,输出为各个分词中存在的属性以及属性的类别。第一预训练子模型201是通过无监督学习的方式训练得到的。
选用该实施例,可以通过将属性标记模型划分为第一预训练子模型和标记子模型的方式,将属性标记模型中能够通过无监督学习进行训练的部分分离出来,从而只需要对标记子模型进行有监督的训练,而标记子模型为属性标记模型的一部分,标记子模型的规模小于属性标记模型的规模,因此在对标记子模型进行有监督学习的训练时所需使用的样本文本少于对整个属性标记模型进行有监督学习的训练时所需使用的样本文本。因此可以有效降低训练属性标记模型的人力成本。
为了更清楚的对本发明实施例提供的知识图谱构建方法进行说明,下面将分别对如何判断实体提及与特征属性是否关联以及实体提及与实体提及是否关联进行说明:
在一种可能的实施例中,对于判断实体提及与特征属性是否关联,可以是将目标文本、实体提及以及特征属性输入至预先经过训练的关系判断模型,得到关系判断模型输出的第一输出结果。其中,第一输出结果用于表示该实体提及与该特征属性在目标文本中的关联关系。
对于判断实体提及与实体提及是否关联,可以是将目标文本以及两个实体提及输入至该关系判断模型,得到关系判断模型输出的第二输出结果。其中,第二输出结果用于表示该两个实体提及在目标文本中的关联关系。
可以理解的是,在训练关系判断模型时,需要利用到大量的标注有关联关系的样本文本以及样本属性对,而为样本文本标注关联关系需要消耗较多的人力成本。
基于此,在另一种可能的实施例中,关系判断模型可以如图3所示,包括第二预训练子模型301和判断子模型302,第二预训练子模型301的输入为输入至关系判断模型的文本,输出为所输入的文本中包含的各个分词的词向量,判断子模型302的输入为各个分词的词向量以及输入至关系判断模型的属性,输出为输入至关系判断模型的属性之间的关联关系,第二预训练子模型301是通过无监督学习的方式训练得到的。
选用该实施例,可以通过将关系判断模型划分为第二预训练子模型和判断子模型的方式,将关系判断模型中能够通过无监督学习进行训练的部分分离出来,从而只需要对判断子模型进行有监督的训练,而判断子模型为属性标记模型的一部分,判断子模型的规模小于关系判断模型的规模,因此在对判断子模型进行有监督学习的训练时所需使用的样本文本少于对整个关系判断模型进行有监督学习的训练时所需使用的样本文本。因此可以有效降低训练关系判断模型的人力成本。
前述的第一预训练子模型和第二预训练子模型可以是两个不同的模型,也可以是相同的模型。当第一预训练子模型和第二预训练子模型为同一模型时,由于属性标记模型核关系判断模型可以复用相同的子模型,因此可以降低训练得到属性标记模型与关系判断模型所需的计算资源。
训练得到第一预训练子模型和第二预训练子模型的无监督学习方式根据应用场景的不同可以不同,例如,无监督学习方式可以包括但不限于:BERT(一种无监督学习方式)、ALBERT(一种无监督学习方式)、GPT(一种无监督学习方式)等。
在训练第一预训练子模型和/或第二预训练子模型时,可以是利用相关领域的文本进行无监督学习,以使得训练得到的第一预训练子模型和/或第二预训练子模型能够学习到相关领域的文本中分词规律以及语法。
可以理解的是,虽然理论上实体提及能够唯一标识一个实体,但是在实际应用中,一个实体可能具有多个实体提及,例如一个名为张三的人员,可能具有实体提及[姓名:张三]、实体提及[姓名:小张]等,因此可能导致一个实体的属性以及关联关系被分散至多个实体。
示例性的,假设实体提及[姓名:张三]与特征属性[年龄:18]关联,实体提及[姓名:小张]与特征属性[住址:杭州市]关联,则构建得到的知识图谱中将存在两个实体,其中,一个实体为姓名为张三年龄为18的人员,另一个实体为姓名为小张住址在杭州市的人员。
根据该知识图谱,相关人员可能无法直观地获取到张三居住在杭州市这一信息,而需要进一步整合知识图谱中的信息才能够知悉张三居住在杭州市,操作较为繁琐,
基于此,在一种可能的实施例中,可以如图4所示,图4所示为本发明实施例提供的知识图谱构建方法的另一种流程示意图,可以包括:
S401,对目标文本进行属性标记,确定目标文本中存在的各个属性以及各个属性的类别。
该步骤与前述S101相同,可以参见前述关于S101的相关说明,在此不再赘述。
S402,在各个属性中确定类别为预设类别的属性,作为实体提及。
该步骤与前述S102相同,可以参见前述关于S101的相关说明,在此不再赘述。
S403,针对每个实体提及,确定在目标文本中与该实体提及关联且不为实体提及的属性,得到该实体提及所标识的实体的属性。
该步骤与前述S103相同,可以参见前述关于S103的相关说明,在此不再赘述。
S404,确定各实体提及在目标文本中的关联关系,得到各实体提及所标识的实体之间的关系。
该步骤与前述S104相同,可以参见前述关于S104的相关说明,在此不再赘述。
S405,判断任意两个实体提及所标识的实体是否相同。
判断实体提及所标识的实体是否相同的方式根据应用场景的不同,示例性的,在一种可能的实施例中,可以是预先建立标识库,并在标识库中存储用于标识同一实体的不同实体提及,在判断两个实体提及所标识的实体是否相同时,可以是检索元数据库中以判断该两个实体提及所标识的实体是否相同。
可以理解的是,标识库中难以包含所有标识相同实体的实体提及,因此在一些场景中可能无法根据元数据库准确判断实体提及所标识的实体是否相同。
基于此,在一种可能的实施例中,可以是确定任意两个实体提及所标识的实体的属性是否匹配,如果该任意两个实体提及所标识的实体的属性匹配,则确定任意两个实体所标识的实体相同。
示例性的,可以是分别将两个实体提及所标识的实体的属性转换为特征向量,并计算基于两个实体的属性转换得到的特征向量之间的相似度,如果相似度大于预设相似度阈值,则认为该两个实体提及所标识的实体相同,如果相似度不大于预设相似度阈值,则认为该两个实体提及所标识的实体不同。
S406,如果该任意两个实体提及所标识的实体相同,合并该任意两个实体提及所标识的实体。
合并两个实体提及所标识的实体,是指合并两个实体提及所标识的实体的属性以及关联关系。示例性的,假设一个实体为姓名为张三年龄为18的人员,另一个实体为姓名为小张且与李四是朋友关系的人员,则合并后的实体为姓名为张三或小张、年龄为18且与李四是朋友关系的人员。
S407,根据各实体提及所标识的实体的属性以及各实体提及所标识的实体之间的关系构建知识图谱。
该步骤与前述S105相同,可以参见前述关于S105的相关说明,在此不再赘述。
选用该实施例,可以通过合并实体的方式整合知识图谱中关于同一实体的信息,便于后续处理。
在一些应用场景中,确定出的实体提及之间的关联关系可能不够准确,示例性的,在确定得到的关联关系中实体提及[姓名:张三]与实体提及[城市名:杭州市]为朋友关系,而实际上实体提及[姓名:张三]所标识的人员与实体提及[城市名:杭州市]所标识的城市应该为住址关系。
基于此,在一种可能的实施例中,在确定实体提及之间的关联关系时可以针对每两个实体提及,确定该两个实体提及在目标文本中的关联关系,作为预测关联关系。并判断预测关联关系是否属于预设关联关系集合,其中,预设关联关系集合为针对该两个实体提及的类别预先设置的。如果预测关联关系属于预设关联关系集合,则确定该两个实体提及所标识的实体间存在该预测关联关系,反之,如果预测关联关系不属于预设关联关系集合,确定该两个实体提及所标识的实体间不存在关联关系。
示例性的,可以预先针对属性类别[姓名]与属性类别[城市名]设置预设关联关系集合,由于人员与城市之间的关系可能为住址、籍贯、曾住地等关系,因此预设关联关系集合中可以包括住址、籍贯、曾住地等关系。
如果在确定得到的关联关系中实体提及[姓名:张三]与实体提及[城市名:杭州市]为朋友关系,即预测关联关系为朋友关系,则由于朋友关系并不属于针对属性类别[姓名]与属性类别[城市名]设置的预设关联关系集合,此时可以认为确定得到的关联关系不准确,因此确定实体提及[姓名:张三]与实体提及[城市名:杭州市]不存在关联关系。
如果在确定得到的关联关系中实体提及[姓名:张三]与实体提及[城市名:杭州市]为籍贯关系,即预测关联关系为籍贯关系,则由于籍贯关系属于针对属性类别[姓名]与属性类别[城市名]设置的预设关联关系集合,此时可以认为确定得到的关联关系准确,因此确定实体提及[姓名:张三]与实体提及[城市名:杭州市]存在籍贯关系。
参见图5,图5所示为本发明实施例提供的知识图谱构建装置的一种结构示意图,可以包括:
属性标记模块501,用于对目标文本进行属性标记,确定所述目标文本中存在的各个属性以及所述各个属性的类别;
实体提及模块502,用于在所述各个属性中确定类别为预设类别的属性,作为实体提及,其中,所述预设类别的属性为预先设置的能够唯一标识所描述的实体的属性;
属性归属模块503,用于针对每个实体提及,确定在所述目标文本中与该实体提及关联且不为实体提及的属性,得到该实体提及所标识的实体的属性;
实体关联模块504,用于确定各实体提及在所述目标文本中的关联关系,得到各实体提及所标识的实体之间的关系;
图谱构建模块505,用于根据各实体提及所标识的实体的属性以及各实体提及所标识的实体之间的关系构建知识图谱。
在一种可能的实施例中,所述属性标记模块501对目标文本进行属性标记,确定所述目标文本中存在的各个属性以及所述各个属性的类别,包括:
将目标文本输入至预先经过训练的属性标记模型,得到所述属性标记模型输出的所述目标文本中存在的各个属性以及所述各个属性的类别;
其中,所述属性标记模型包括第一预训练子模型和标记子模型,所述第一预训练子模型的输入为输入至所述属性标记模型的文本,输出为所输入的文本中包含的各个分词的词向量,所述标记子模型的输入为所述各个分词的词向量,输出为各个分词中存在的属性以及属性的类别,所述第一预训练子模型是通过无监督学习的方式训练得到的。
在一种可能的实施例中,所述属性归属模块503针对每个实体提及,确定在所述目标文本中与该实体提及关联且不为实体提及的属性,得到该实体提及所标识的实体的属性,包括:
针对每个实体提及以及每个不为实体提及的属性,将该实体提及、该属性以及所述目标文本输入至预先经过训练的关系判断模型,得到所述关系判断模型输出的第一输出结果,所述第一输出结果用于表示该实体提及与该属性在所述目标文本中的关联关系;
如果所述第一输出结果表示该实体提及与该属性存在关联关系,将该属性确定为该实体提及所标识的实体的属性;
所述实体关联模块504确定各实体提及在所述目标文本中的关联关系,得到各实体提及所标识的实体之间的关系,包括:
针对每两个实体提及,将该两个实体提及以及所述目标文本输入至所述关系判断模型,得到所述关系判断模型输出的第二输出结果,所述第二输出结果用于表示该两个实体提及在所述目标文本中的关联关系;
根据所述第二输出结果所表示的关联关系,确定该两个实体提及所标识的实体间的关联关系;
其中,所述关系判断模型包括第二预训练子模型和判断子模型,所述第二预训练子模型的输入为输入至所述关系判断模型的文本,输出为所输入的文本中包含的各个分词的词向量,所述判断子模型的输入为所述各个分词的词向量以及输入至所述关系判断模型的属性,输出为输入至所述关系判断模型的属性之间的关联关系,所述第二预训练子模型是通过无监督学习的方式训练得到的。
在一种可能的实施例中,所述装置还包括实体融合模块,用于判断任意两个实体提及所标识的实体是否相同;
如果所述任意两个实体提及所标识的实体相同,合并所述任意两个实体提及所标识的实体。
在一种可能的实施例中,所述实体融合模块判断任意两个实体提及所标识的实体是否相同,包括:
判断任意两个实体提及是否属于针对同一实体预设的标识库,其中,所述标识库中包括同一实体的多个标识;
如果所述任意两个实体提及属于针对同一实体预设的标识库,确定所述任意两个实体提及所标识的实体相同。
在一种可能的实施例中,所述实体融合模块判断任意两个实体提及所标识的实体是否相同,包括:
确定任意两个实体提及所标识的实体的属性是否匹配;
如果所述任意两个实体提及所标识的实体的属性匹配,确定所述任意两个实体提及所标识的实体相同。
在一种可能的实施例中,所述实体关联模块504确定各实体提及在所述目标文本中的关联关系,得到各实体提及所标识的实体之间的关系,包括:
针对每两个实体提及,确定该两个实体提及在所述目标文本中的关联关系,作为预测关联关系;
判断所述预测关联关系是否属于预设关联关系集合,其中,所述预设关联关系集合为针对该两个实体提及的类别预先设置的;
如果所述预测关联关系属于所述预设关联关系集合,确定该两个实体提及所标识的实体间存在所述预测关联关系;
如果所述预测关联关系不属于所述预设关联关系集合,确定该两个实体提及所标识的实体间不存在关联关系。
本发明实施例还提供了一种电子设备,如图6所示,包括:
存储器601,用于存放计算机程序;
处理器602,用于执行存储器601上所存放的程序时,实现如下步骤:
对目标文本进行属性标记,确定所述目标文本中存在的各个属性以及所述各个属性的类别;
在所述各个属性中确定类别为预设类别的属性,作为实体提及,其中,所述预设类别的属性为预先设置的能够唯一标识所描述的实体的属性;
针对每个实体提及,确定在所述目标文本中与该实体提及关联且不为实体提及的属性,得到该实体提及所标识的实体的属性;
确定各实体提及在所述目标文本中的关联关系,得到各实体提及所标识的实体之间的关系;
根据各实体提及所标识的实体的属性以及各实体提及所标识的实体之间的关系构建知识图谱。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一知识图谱构建方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一知识图谱构建方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质以及计算机程序产品的实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种知识图谱构建方法,其特征在于,所述方法包括:
对目标文本进行属性标记,确定所述目标文本中存在的各个属性以及所述各个属性的类别;
在所述各个属性中确定类别为预设类别的属性,作为实体提及,其中,所述预设类别的属性为预先设置的能够唯一标识所描述的实体的属性;
针对每个实体提及,确定在所述目标文本中与该实体提及关联且不为实体提及的属性,得到该实体提及所标识的实体的属性;
确定各实体提及在所述目标文本中的关联关系,得到各实体提及所标识的实体之间的关系;
根据各实体提及所标识的实体的属性以及各实体提及所标识的实体之间的关系构建知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述对目标文本进行属性标记,确定所述目标文本中存在的各个属性以及所述各个属性的类别,包括:
将目标文本输入至预先经过训练的属性标记模型,得到所述属性标记模型输出的所述目标文本中存在的各个属性以及所述各个属性的类别;
其中,所述属性标记模型包括第一预训练子模型和标记子模型,所述第一预训练子模型的输入为输入至所述属性标记模型的文本,输出为所输入的文本中包含的各个分词的词向量,所述标记子模型的输入为所述各个分词的词向量,输出为各个分词中存在的属性以及属性的类别,所述第一预训练子模型是通过无监督学习的方式训练得到的。
3.根据权利要求1所述的方法,其特征在于,所述针对每个实体提及,确定在所述目标文本中与该实体提及关联且不为实体提及的属性,得到该实体提及所标识的实体的属性,包括:
针对每个实体提及以及每个不为实体提及的属性,将该实体提及、该属性以及所述目标文本输入至预先经过训练的关系判断模型,得到所述关系判断模型输出的第一输出结果,所述第一输出结果用于表示该实体提及与该属性在所述目标文本中的关联关系;
如果所述第一输出结果表示该实体提及与该属性存在关联关系,将该属性确定为该实体提及所标识的实体的属性;
所述确定各实体提及在所述目标文本中的关联关系,得到各实体提及所标识的实体之间的关系,包括:
针对每两个实体提及,将该两个实体提及以及所述目标文本输入至所述关系判断模型,得到所述关系判断模型输出的第二输出结果,所述第二输出结果用于表示该两个实体提及在所述目标文本中的关联关系;
根据所述第二输出结果所表示的关联关系,确定该两个实体提及所标识的实体间的关联关系;
其中,所述关系判断模型包括第二预训练子模型和判断子模型,所述第二预训练子模型的输入为输入至所述关系判断模型的文本,输出为所输入的文本中包含的各个分词的词向量,所述判断子模型的输入为所述各个分词的词向量以及输入至所述关系判断模型的属性,输出为输入至所述关系判断模型的属性之间的关联关系,所述第二预训练子模型是通过无监督学习的方式训练得到的。
4.根据权利要求1所述的方法,其特征在于,在所述根据各实体提及所标识的实体的属性以及各实体提及所标识的实体之间的关系构建知识图谱之后,所述方法还包括:
判断任意两个实体提及所标识的实体是否相同;
如果所述任意两个实体提及所标识的实体相同,合并所述任意两个实体提及所标识的实体。
5.根据权利要求4所述的方法,其特征在于,所述判断任意两个实体提及所标识的实体是否相同,包括:
判断任意两个实体提及是否属于针对同一实体预设的标识库,其中,所述标识库中包括同一实体的多个标识;
如果所述任意两个实体提及属于针对同一实体预设的标识库,确定所述任意两个实体提及所标识的实体相同。
6.根据权利要求4所述的方法,其特征在于,所述判断任意两个实体提及所标识的实体是否相同,包括:
确定任意两个实体提及所标识的实体的属性是否匹配;
如果所述任意两个实体提及所标识的实体的属性匹配,确定所述任意两个实体提及所标识的实体相同。
7.根据权利要求1所述的方法,其特征在于,所述确定各实体提及在所述目标文本中的关联关系,得到各实体提及所标识的实体之间的关系,包括:
针对每两个实体提及,确定该两个实体提及在所述目标文本中的关联关系,作为预测关联关系;
判断所述预测关联关系是否属于预设关联关系集合,其中,所述预设关联关系集合为针对该两个实体提及的类别预先设置的;
如果所述预测关联关系属于所述预设关联关系集合,确定该两个实体提及所标识的实体间存在所述预测关联关系;
如果所述预测关联关系不属于所述预设关联关系集合,确定该两个实体提及所标识的实体间不存在关联关系。
8.一种知识图谱构建装置,其特征在于,所述装置包括:
属性标记模块,用于对目标文本进行属性标记,确定所述目标文本中存在的各个属性以及所述各个属性的类别;
实体提及模块,用于在所述各个属性中确定类别为预设类别的属性,作为实体提及,其中,所述预设类别的属性为预先设置的能够唯一标识所描述的实体的属性;
属性归属模块,用于针对每个实体提及,确定在所述目标文本中与该实体提及关联且不为实体提及的属性,得到该实体提及所标识的实体的属性;
实体关联模块,用于确定各实体提及在所述目标文本中的关联关系,得到各实体提及所标识的实体之间的关系;
图谱构建模块,用于根据各实体提及所标识的实体的属性以及各实体提及所标识的实体之间的关系构建知识图谱。
9.一种电子设备,其特征在于,包括:
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求:1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110653469.5A CN115470356A (zh) | 2021-06-11 | 2021-06-11 | 一种知识图谱构建方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110653469.5A CN115470356A (zh) | 2021-06-11 | 2021-06-11 | 一种知识图谱构建方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115470356A true CN115470356A (zh) | 2022-12-13 |
Family
ID=84363292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110653469.5A Pending CN115470356A (zh) | 2021-06-11 | 2021-06-11 | 一种知识图谱构建方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115470356A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235285A (zh) * | 2023-11-09 | 2023-12-15 | 支付宝(杭州)信息技术有限公司 | 融合知识图谱数据的方法及装置 |
-
2021
- 2021-06-11 CN CN202110653469.5A patent/CN115470356A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235285A (zh) * | 2023-11-09 | 2023-12-15 | 支付宝(杭州)信息技术有限公司 | 融合知识图谱数据的方法及装置 |
CN117235285B (zh) * | 2023-11-09 | 2024-02-02 | 支付宝(杭州)信息技术有限公司 | 融合知识图谱数据的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112163424B (zh) | 数据的标注方法、装置、设备和介质 | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
US20170277756A1 (en) | Approach to Recommending Mashups | |
CN111708938B (zh) | 用于信息处理的方法、装置、电子设备和存储介质 | |
CN112784063B (zh) | 一种成语知识图谱构建方法及装置 | |
CN110704626A (zh) | 一种用于短文本的分类方法及装置 | |
CN112528703A (zh) | 一种识别表格结构的方法、装置及电子设备 | |
CN108021713B (zh) | 一种文档聚类的方法和装置 | |
CN115470356A (zh) | 一种知识图谱构建方法、装置及电子设备 | |
CN115248890A (zh) | 用户兴趣画像的生成方法、装置、电子设备以及存储介质 | |
CN112163098A (zh) | 一种知识图谱的创建方法、装置、存储介质和服务器 | |
CN112163415A (zh) | 针对反馈内容的用户意图识别方法、装置及电子设备 | |
CN113988085B (zh) | 文本语义相似度匹配方法、装置、电子设备及存储介质 | |
CN113011153B (zh) | 文本相关性检测方法、装置、设备及存储介质 | |
CN113688243B (zh) | 语句中实体的标注方法、装置、设备以及存储介质 | |
CN110895924A (zh) | 一种文档内容朗读方法、装置、电子设备及可读存储介质 | |
CN115292506A (zh) | 应用于办公领域的知识图谱本体构建方法和装置 | |
CN112579747B (zh) | 一种身份信息提取方法及装置 | |
CN113220843A (zh) | 确定信息关联关系的方法、装置、存储介质和设备 | |
JP2017102599A (ja) | 推定装置、パラメタ学習装置、方法、及びプログラム | |
CN111831818A (zh) | 文本信息识别方法、装置及存储介质 | |
CN113806558B (zh) | 问题选择方法、知识图谱构建方法、装置及电子设备 | |
CN113807429B (zh) | 企业的分类方法、装置、计算机设备和存储介质 | |
KR20190017606A (ko) | 온라인 소셜 네트워크 서비스 데이터로부터 공간 기반 사회적 행위를 추출하는 방법 및 시스템 | |
CN112784593B (zh) | 一种文档处理方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |