CN109635120B - 知识图谱的构建方法、装置和存储介质 - Google Patents

知识图谱的构建方法、装置和存储介质 Download PDF

Info

Publication number
CN109635120B
CN109635120B CN201811273943.6A CN201811273943A CN109635120B CN 109635120 B CN109635120 B CN 109635120B CN 201811273943 A CN201811273943 A CN 201811273943A CN 109635120 B CN109635120 B CN 109635120B
Authority
CN
China
Prior art keywords
document
entity type
target
type
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811273943.6A
Other languages
English (en)
Other versions
CN109635120A (zh
Inventor
郝学峰
王云天
曹亚男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811273943.6A priority Critical patent/CN109635120B/zh
Publication of CN109635120A publication Critical patent/CN109635120A/zh
Application granted granted Critical
Publication of CN109635120B publication Critical patent/CN109635120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种知识图谱的构建方法、装置和存储介质,该方法包括:根据多个类型的样本文档的第一实体类型、每个第一实体类型的第一属性,获取目标实体类型、每个目标实体类型的目标属性;获取至少一个待处理文档的第二实体类型、每个第二实体类型的第二属性;根据待处理文档的第二实体类型、每个第二实体类型的第二属性、目标实体类型,以及,每个目标实体类型的目标属性,获取每个待处理文档对应的目标实体类型、目标属性;根据每个待处理文档对应的目标实体类型、目标属性,获取垂直行业的知识图谱。本发明预先获取垂直领域中各种类型的文档的目标实体类型和目标属性,进而对待处理文档的实体类型和属性进行分类,构建垂直行业的知识图谱。

Description

知识图谱的构建方法、装置和存储介质
技术领域
本发明涉及知识图谱技术领域,尤其涉及一种知识图谱的构建方法、装置和存储介质。
背景技术
知识图谱(Knowledge Graph)又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。面向通用领域的知识图谱构建,业界都有较多的积累和实践,随着知识图谱技术的发展,基于图谱数据管理的优势逐步被挖掘并为大众认可,越来越多的垂直行业希望通过知识图谱的技术节约成本、提高业务效率。
现有技术中,面向通用技术领域的知识图谱的构建:首先由技术人员手工构建标准实体类别,以及每个标准实体类别中的多个标准属性;再在文档中抽取知识对应的实体类别以及实体类别的属性;进而根据实体类型、属性与标准实体类型、标准属性的映射,将文档与对应的标准实体类型、标准属性对应;进而获取每个标准实体类型下每个标准属性对应的文档,即将文档进行分类,获取通用领域的知识图谱。
通用技术领域的知识图谱的构建对象大多为网页文档,而垂直行业的文档种类繁多,如数据库文档、office文档或者多媒体文档等,因此通用领域的知识图谱的构建方法不适用于垂直行业。
发明内容
本发明提供一种知识图谱的构建方法、装置和存储介质,通过预先获取垂直领域中各种类型的文档的目标实体类型和目标属性,进而对待处理文档的实体类型和属性进行分类,构建垂直行业的知识图谱。
本发明的第一方面提供知识图谱的构建方法,包括:
根据每个类型的样本文档的第一实体类型,以及,所述每个类型的样本文档的第一实体类型的第一属性,获取目标实体类型,以及,每个所述目标实体类型的目标属性,所述目标实体类型为:多个所述第一实体类型的集合,每个所述目标实体类型的目标属性为:同一所述第一实体类型的第一属性的集合;
获取至少一个待处理文档的第二实体类型,以及,每个所述待处理文档的第二实体类型的第二属性;
根据至少一个所述待处理文档的第二实体类型、每个所述待处理文档的第二实体类型的第二属性、所述目标实体类型,以及,每个所述目标实体类型的目标属性,获取每个所述待处理文档对应的目标实体类型,以及,目标属性;
根据每个所述待处理文档对应的目标实体类型,以及,目标属性,获取所述待处理文档对应的垂直行业的知识图谱。
可选的,所述获取目标实体类型,以及,每个所述目标实体类型的目标属性之前,还包括:
根据所述每个类型的样本文档的格式信息,以及,格式信息与实体类型、属性的对应关系,获取所述每个类型的样本文档的第一实体类型,以及,所述每个类型的样本文档的第一实体类型的第一属性。
可选的,所述获取目标实体类型,以及,每个所述目标实体类型的目标属性,包括:
采用有监督的分类方式,对所述每个类型的样本文档的第一实体类型进行聚类,获取所述目标实体类型;以及,
采用有监督的分类方式,对同一所述第一实体类型的第一属性进行聚类,以及,每个所述目标实体类型的目标属性。
可选的,所述获取至少一个待处理文档的第二实体类型,以及,每个所述待处理文档的第二实体类型的第二属性,包括:
根据每个所述待处理文档的文档类型,以及,每个所述文档类型对应的抽取规则,抽取每个所述待处理文档的第二实体类型,获取每个所述待处理文档的第二实体类型的第二属性。
可选的,所述获取每个所述待处理文档对应的目标实体类型,以及,目标属性,包括:
将与所述第二实体类型相同的目标实体类型,作为所述待处理文档对应的目标实体类型,以及,将所述第二实体类型相同的目标实体类型中,与所述第二属性相同的目标属性作为所述待处理文档对应的目标属性。
可选的,所述获取所述待处理文档对应的垂直行业的知识图谱之前,还包括:
根据每个所述待处理文档对应的目标实体类型,以及,目标属性,获取多个文档集合,每个所述文档集合对应的目标实体类型相同。
可选的,所述获取所述待处理文档对应的垂直行业的知识图谱,包括:
在每个所述文档集合中,根据每个所述待处理文档的实体类型对应的实体的语义,将实体的语义相同的文档进行融合,获取所述待处理文档对应的垂直行业的知识图谱。
可选的,所述获取多个文档集合之后,还包括:
在多个所述文档集合中的待处理文档中,删除目标内容,所述目标内容为包含有预设删除数据的内容。
本发明的第二方面提供一种知识图谱的构建装置,包括:
目标实体类型获取模块,用于根据每个类型的样本文档的第一实体类型,以及,所述每个类型的样本文档的第一实体类型的第一属性,获取目标实体类型,以及,每个所述目标实体类型的目标属性,所述目标实体类型为:多个所述第一实体类型的集合,每个所述目标实体类型的目标属性为:同一所述第一实体类型的第一属性的集合;
第二实体类型获取模块,用于获取至少一个待处理文档的第二实体类型,以及,每个所述待处理文档的第二实体类型的第二属性;
待处理文档处理模块,用于根据至少一个所述待处理文档的第二实体类型、每个所述待处理文档的第二实体类型的第二属性、所述目标实体类型,以及,每个所述目标实体类型的目标属性,获取每个所述待处理文档对应的目标实体类型,以及,目标属性;
知识图谱获取模块,用于根据每个所述待处理文档对应的目标实体类型,以及,目标属性,获取所述待处理文档对应的垂直行业的知识图谱。
可选的,所述装置还包括:第一实体类型获取模块;
所述第一实体类型获取模块,用于根据所述每个类型的样本文档的格式信息,以及,格式信息与实体类型、属性的对应关系,获取所述每个类型的样本文档的第一实体类型,以及,所述每个类型的样本文档的第一实体类型的第一属性。
可选的,所述目标实体类型获取模块,具体用于采用有监督的分类方式,对所述每个类型的样本文档的第一实体类型进行聚类,获取所述目标实体类型;以及,采用有监督的分类方式,对同一所述第一实体类型的第一属性进行聚类,以及,每个所述目标实体类型的目标属性。
可选的,所述第二实体类型获取模块,具体用于根据每个所述待处理文档的文档类型,以及,每个所述文档类型对应的抽取规则,抽取每个所述待处理文档的第二实体类型,获取每个所述待处理文档的第二实体类型的第二属性。
可选的,所述目标实体类型获取模块,具体用于将与所述第二实体类型相同的目标实体类型,作为所述待处理文档对应的目标实体类型,以及,将所述第二实体类型相同的目标实体类型中,与所述第二属性相同的目标属性作为所述待处理文档对应的目标属性。
可选的,所述装置还包括:文档集合获取模块;
所述文档集合获取模块,用于根据每个所述待处理文档对应的目标实体类型,以及,目标属性,获取多个文档集合,每个所述文档集合对应的目标实体类型相同。
可选的,所述知识图谱获取模块,具体用于在每个所述文档集合中,根据每个所述待处理文档的实体类型对应的实体的语义,将实体的语义相同的文档进行融合,获取所述待处理文档对应的垂直行业的知识图谱。
可选的,所述装置还包括:删除模块;
所述删除模块,用于在多个所述文档集合中的待处理文档中,删除目标内容,所述目标内容为包含有预设删除数据的内容。
本发明的第三方面提供一种知识图谱的构建装置,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述知识图谱的构建装置执行上述知识图谱的构建方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机执行指令,当所述计算机执行指令被处理器执行时,实现上述知识图谱的构建方法。
本发明提供一种知识图谱的构建方法、装置和存储介质,该方法包括:根据多个类型的样本文档的第一实体类型、每个第一实体类型的第一属性,获取目标实体类型、每个目标实体类型的目标属性;获取至少一个待处理文档的第二实体类型、每个第二实体类型的第二属性;根据待处理文档的第二实体类型、每个第二实体类型的第二属性、目标实体类型,以及,每个目标实体类型的目标属性,获取每个待处理文档对应的目标实体类型、目标属性;根据每个待处理文档对应的目标实体类型、目标属性,获取垂直行业的知识图谱。本发明预先获取垂直领域中各种类型的文档的目标实体类型和目标属性,进而对待处理文档的实体类型和属性进行分类,构建垂直行业的知识图谱。
附图说明
图1为本发明提供的知识图谱的构建方法适用的场景示意图;
图2为本发明提供的知识图谱的构建方法的流程示意图一;
图3为本发明提供的一垂直领域的知识图谱问答界面变化示意图;
图4为本发明提供的知识图谱的构建方法的流程示意图二;
图5为本发明提供的知识图谱的构建方法的流程示意图三;
图6为本发明提供的知识图谱的构建装置的结构示意图一;
图7为本发明提供的知识图谱的构建装置的结构示意图二;
图8为本发明提供的知识图谱的构建装置的结构示意图三。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
通用领域的知识图谱构建的对象大多为网页文档,示例性的,在终端上搜索“信用卡、类型”时,终端为用户返回的结果包括:办理信用卡的网页文档、网络用户提到的关于信用卡类型的网页文档等,但用户可能需要的搜索结果是信用卡分为哪几种类型,且每一种类型的信用卡的使用规则等。但现有技术中并未对该金融垂直领域的文档进行知识图谱的建立,因此,用户在网页上搜索时,得不到准确的结果。
现有技术中并未对垂直领域的文档进行知识图谱的构建,通用领域的知识图谱构建的对象大多为网页文档,而在垂直领域,数据来源种类繁多,如:数据库文档、office文档或者多媒体文档等,现有技术中的文档知识抽取的方式并不适用这些类型的文档,无法获取这些类型的文档的Schema,即文档的实体类型和属性,进而无法对这些文档进行知识图谱的构建。具体的,垂直行业的知识图谱的构建即对该垂直行业的所有文档按照实体类型、属性进行分类,在用户进行搜索时,为用户返回准确的文档。
图1为本发明提供的知识图谱的构建方法适用的场景示意图,如图1所示,本发明提供的知识图谱的构建方法适用的场景包括:知识图谱的构建装置和服务器。其中,服务器为一垂直领域的服务器,该服务器中包含有该垂直领域的多个类型的文档,构建该垂直领域的知识图谱需要知识图谱的构建装置在该服务器中获取多个类型的不同的文档,进而根据文档的实体类型和属性进行分类。
图2为本发明提供的知识图谱的构建方法的流程示意图一,图2所示方法流程的执行主体可以为知识图谱的构建装置,该知识图谱的构建装置可由任意的软件和/或硬件实现。如图2所示,本实施例提供的知识图谱的构建方法可以包括:
S201,根据每个类型的样本文档的第一实体类型,以及,每个类型的样本文档的第一实体类型的第一属性,获取目标实体类型,以及,每个目标实体类型的目标属性,目标实体类型为:多个第一实体类型的集合,每个目标实体类型的目标属性为:同一第一实体类型的第一属性的集合。
本实施例中,知识图谱的构建装置在对应的垂直行业的服务器中获取多个类型的文档样本,其中,文档样本可以为数据库文档、办公office文档或多媒体文档。这些垂直行业的每个类型中的文档样本具有内部格式,而这些内部格式与该垂直行业的Schema具有一定的对应关系,知识图谱的构建装置可以根据每个类型的文档的格式信息,获取每个文档样本的Schema,即每个文档样本的实体类型和属性。如office文档中的word文档,可以根据文档的主标题、一级标题、二级标题等固定格式对应的内容获取该文档对应的Schema,即该文档的实体类型和属性。
示例性的,word文档A的主标题、一级标题、二级标题分别为:信用卡、信用卡的类型、白金卡的年费;则知识图谱的构建装置可以获取该word文档A的实体类型为信用卡类,属性为:白金卡、年费。
相应的,知识图谱的构建装置在获取每个类型的样本文档的第一实体类型,以及,每个类型的样本文档的第一实体类型的第一属性后,构建该垂直行业的行业Schema,即本实施例中的目标实体类型,以及,每个目标实体类型的目标属性。
具体的,目标实体类型为:多个第一实体类型的集合;即目标实体类型是该垂直行业的所有的第一实体类型的加和。可以想到的是,还可以根据获取的该垂直行业的每个文档的实体类型的名称和语义,对具有相同的实体类型的名称的实体类型进行整合,以及对语义相同的实体类型进行整合;整合的具体方式是将该多个相同的实体对应的文档集合在一个文档集合中,当用户搜索的实体类型为该实体类型时,将该相同的实体对应的文档集合中的多个文档返回给用户。
示例性的,文档A和文档B的实体类型均为“商业贷款类”,文档C的实体为“信用卡类”,则将文档A和文档B整合在一个文档集合中,将文档C整合在另一个文档集合中。
其中,每个目标实体类型的目标属性为:同一第一实体类型的第一属性的集合;即本实施例中是将同一实体类型包含的所有的属性,作为第一实体类型的属性,而同一第一实体类型可以为目标实体类型中的一个实体类型。据此,目标实体类型的属性包括该目标实体类型包含的所有的属性。可以想到的是,目标实体类型的属性包括:与目标实体类型名称相同的实体类型对应的属性,以及,与目标实体类型语义相同的实体类型对应的属性。
进一步的,本实施例中的知识图谱的构建装置在获取每个类型的样本文档的第一实体类型,以及,每个类型的样本文档的第一实体类型的第一属性后,可以根据有监督的机器学习自动化分类方式,获取神经网络深度学习的方式获取该垂直行业的目标实体类型,以及,每个目标实体类型的目标属性。即采用上述方式对该垂直行业的实体类型、属性进行聚类,获取该垂直行业的目标实体类型,以及,每个目标实体类型的目标属性。
S202,获取至少一个待处理文档的第二实体类型,以及,每个待处理文档的第二实体类型的第二属性。
本实施例中,待处理文档可以为垂直行业的任意类型的文档,如待处理文档可以为数据库文档、办公office文档或多媒体文档。待处理文档可以是垂直行业的部分文档,也可以是该垂直行业的所有的文档。
其中,本实施例中获取待处理文档第二实体类型,以及,每个待处理文档的第二实体类型的第二属性的具体方式可以是:采用预先设置的抽取算子,对文档进行知识抽取,获取每个文档的实体类型,以及属性。可以想到的是,不同类型的文档,预先配置有不同的抽取算子,该不同的抽取算子预先存储在知识图谱的构建装置中。知识图谱的构建装置根据每个待处理的文档的类型,调用不同的抽取算子对文档进行知识抽取,获取每个文档的第二实体类型,以及,每个待处理文档的第二实体类型的第二属性。
具体的,针对数据库文档,可以根据多个数据库文档样本,以及每个文档样本对应的实体类型和属性,训练获取数据库文档的Schema抽取算子,当待处理文档为数据库文档时,采用数据库文档的Schema抽取算子抽取数据库文档的Schema;针对表格文档,该表格文档可以是excel文档,或者word文档中的表格文档,则采用表格抽取的算子,抽取表格文档的Schema;针对文本文档,该文本文档可以是word文档,则采用实体-属性KV抽取的算子,抽取文本文档的Schema;针对多媒体文档,该多媒体文档可以为音视频文档或图像文档,可以采用现有技术中的文档转换技术将多媒体文档转换为文本文档,采用KV抽取的算子,抽取文本文档的Schema。
S203,根据至少一个待处理文档的第二实体类型、每个待处理文档的第二实体类型的第二属性、目标实体类型,以及,每个目标实体类型的目标属性,获取每个待处理文档对应的目标实体类型,以及,目标属性。
本实施例中,获取每个待处理文档的第二实体类型、每个待处理文档的第二实体类型的第二属性之后,可以根据知识图谱的构建装置预先创建的该垂直行业的目标实体类型,以及,每个目标实体类型的目标属性,获取每个待处理文档的目标实体类型和目标属性。其中,知识图谱的构建装置对待处理文档进行知识抽取获取的实体类型的名称、属性的名称与目标实体类型的名称、目标属性的名称可能不一致。
本实施例中,可以根据每个待处理文档的第二实体类型的语义以及目标实体类型的名称的语义,将与第二实体类型的语义相同的目标实体类型作为该待处理文档的目标实体类型。进一步的,在该与第二实体类型的语义相同的目标实体类型对应的目标属性中获取该待处理文档的目标属性,具体的,也可以根据待处理文档的第二属性的语义和目标实体类型对应的目标属性的语义,获取该待处理文档的目标属性。
S204,根据每个待处理文档对应的目标实体类型,以及,目标属性,获取待处理文档对应的垂直行业的知识图谱。
本实施例中,知识图谱的构建装置在获取每个待处理文档的目标实体类型,以及,目标属性后,可以先将具有相同的目标实体类型的文档设置在一个文档集合中。相应的,针对同一个文档集合,获取该文档集合中每个文档的实体,如可采用现有技术中的三元组信息抽取方式获取每个文档的实体,在该文档集合中,将具有相同的实体的文档进行融合,即在该文档集合中,将包含有相同实体的文档存储在一个子集合中。
相应的,按照相同的方法,根据每个文档的实体类型,以及,实体,将不同的文档进行归一融合,构建该垂直行业的知识图谱。在用户进行搜索时,可以准确确定文档集合,为用户返回准确的知识图谱信息。
示例性的,图3为本发明提供的一垂直领域的知识图谱问答界面变化示意图,如图3中的界面301所示,搜索界面设置有搜索框,当用户在搜索框中输入“商业贷款”后,为用户返回该垂直领域(金融领域)有关于“商业贷款”的知识的界面302,该界面302上包含有关于“商业贷款”的知识,可以为文档,如上述的文档A和文档B。用户可以通过点击文档A或文档B的链接,进入文档A或文档B的显示界面。
本实施例提供的知识图谱的构建方法包括:根据每个类型的样本文档的第一实体类型,以及,每个类型的样本文档的第一实体类型的第一属性,获取目标实体类型,以及,每个目标实体类型的目标属性,目标实体类型为:多个第一实体类型的集合,每个目标实体类型的目标属性为:同一第一实体类型的第一属性的集合;获取至少一个待处理文档的第二实体类型,以及,每个待处理文档的第二实体类型的第二属性;根据至少一个待处理文档的第二实体类型、每个待处理文档的第二实体类型的第二属性、目标实体类型,以及,每个目标实体类型的目标属性,获取每个待处理文档对应的目标实体类型,以及,目标属性;根据每个待处理文档对应的目标实体类型,以及,目标属性,获取待处理文档对应的垂直行业的知识图谱。本实施例预先获取垂直领域中各种类型的文档的目标实体类型和目标属性,进而对待处理文档的实体类型和属性进行分类,构建垂直行业的知识图谱。
在上述实施例的基础上,下面结合图4对本发明提供的知识图谱的构建方法中如何获取目标实体类型、目标属性,以及如何对不同类型的文档的知识抽取,建立知识图谱进行详细说明,图4为本发明提供的知识图谱的构建方法的流程示意图二,如图4所示,本实施例提供的知识图谱的构建方法可以包括:
S401,根据每个类型的样本文档的格式信息,以及,格式信息与实体类型、属性的对应关系,获取每个类型的样本文档的第一实体类型,以及,每个类型的样本文档的第一实体类型的第一属性。
本实施例中,垂直行业的每个类型的文档均具有其内部格式。示例性的,金融行业的关于公司上市的信息,均采用某一个类型的文档,且该文档的格式信息相同,如文档内容的格式均是“xx公司在xx年xx月上市”的格式,如文档对应的实体类型为“公司类别”,具体的属性为“上市”,属性值为“上市时间”。
其中,在知识图谱的构建装置中预先设置有文档格式信息与实体类型、属性的对应关系,针对固定的文档格式,其对应的实体类型和属性是相同的。本实施例中,知识图谱的构建装置根据每个类型的样本文档的格式信息,确定每个样本文档的格式与预设的格式信息的映射关系,将与样本文档相同的预设格式信息对应的实体类型、属性作为样本文档的第一实体类型、第一属性。
可以想到的是,知识图谱的构建装置可以预先获取该垂直行业的多个格式信息与实体类型、属性的对应关系,该对应关系可以是由多个已知文档的格式信息、实体类型、属性作为参数,训练获取得到的。
S402,采用有监督的分类方式,对每个类型的样本文档的第一实体类型进行聚类,获取目标实体类型;以及,采用有监督的分类方式,对同一第一实体类型的第一属性进行聚类,获取每个目标实体类型的目标属性。
本实施例中,采用有监督的分类方式,将每个类型的样本文档的第一实体类型作为参数,获取该垂直行业的目标实体类型。具体的,对每个类型的样本文档的第一实体类型进行聚类,获取目标实体类型。
可以想到的是,在由知识图谱的构建装置对多个第一实体类型进行聚类后,可以显示该聚类后的实体类型,又该垂直行业的技术人员对实体类型进行校正后,获取目标实体类型。具体的,对实体类型进行校正可以是对一些包含有敏感词语的实体类型进行删除。
进一步的,知识图谱的构建装置采用有监督的分类方式,对同一第一实体类型的第一属性进行聚类,以及,每个目标实体类型的目标属性。在同一目标实体类型中,可能包含有多个属性,采用相同的方式,对同一目标实体类型的第一属性进行聚类,获取每个目标实体类型的目标属性。
S403,根据每个待处理文档的文档类型,以及,每个文档类型对应的抽取规则,抽取每个待处理文档的第二实体类型,以及,每个待处理文档的第二实体类型的第二属性。
本实施例中,待处理文档可以为垂直行业的任意类型的文档,如待处理文档可以为数据库文档、办公office文档或多媒体文档。在知识图谱的构建装置预先存储有每个文档类型对应的抽取规则。
其中,本实施例中,在知识图谱的构建装置预先设置有多个类型文档对应的抽取算子,对文档进行知识抽取,获取每个文档的实体类型,以及属性。知识图谱的构建装置根据每个待处理文档的文档类型,调用每个文档类型对应的抽取规则,抽取每个待处理文档的第二实体类型,以及,每个待处理文档的第二实体类型的第二属性。
具体的,针对数据库文档,可以根据多个数据库文档样本,以及每个文档样本对应的实体类型和属性,训练获取数据库文档的Schema抽取算子,当待处理文档为数据库文档时,采用数据库文档的Schema抽取算子抽取数据库文档的第二实体类型和第二属性;针对表格文档,该表格文档可以是excel文档,或者word文档中的表格文档,则采用表格抽取的算子,抽取表格文档的第二实体类型和第二属性;针对文本文档,该文本文档可以是word文档,则采用实体-属性KV抽取的算子,抽取文本文档的第二实体类型和第二属性;针对多媒体文档,该多媒体文档可以为音视频文档或图像文档,可以采用现有技术中的文档转换技术将多媒体文档转换为文本文档,采用KV抽取的算子,抽取文本文档的第二实体类型和第二属性。
S404,将与第二实体类型相同的目标实体类型,作为待处理文档对应的目标实体类型,以及,将第二实体类型相同的目标实体类型中,与第二属性相同的目标属性作为待处理文档对应的目标属性。
本实施例中,知识图谱的构建装置获取每个待处理文档的第二实体类型、每个待处理文档的第二实体类型的第二属性之后,可以根据知识图谱的构建装置预先创建的该垂直行业的目标实体类型,以及,每个目标实体类型的目标属性,获取每个待处理文档的目标实体类型和目标属性。
具体的,知识图谱的构建装置将与第二实体类型相同的目标实体类型,作为待处理文档对应的目标实体类型,以及,将第二实体类型相同的目标实体类型中,与第二属性相同的目标属性作为待处理文档对应的目标属性。这样,知识图谱的构建装置获取了每个待处理文档的目标实体类型和目标属性,为构建知识图谱建立的基础。
S405,根据每个待处理文档对应的目标实体类型,以及,目标属性,获取多个文档集合,每个文档集合对应的目标实体类型相同。
本实施例中,知识图谱的构建装置在获取每个待处理文档的目标实体类型,以及,目标属性后,可以先将具有相同的目标实体类型的文档存储在一个文档集合中。其中,相同的目标实体类型可以是具有相同的目标实体类型名称,或者是具有相同的语义。
S406,在每个文档集合中,根据每个待处理文档的实体类型对应的实体的语义,将实体的语义相同的文档进行融合,获取待处理文档对应的垂直行业的知识图谱。
知识图谱的构建装置在多个文档集合后,每个文档集合对应的实体类型相同,如均属于“旅游交通类”。本实施例中,针对同一个文档集合,获取该文档集合中每个文档的实体,如可采用现有技术中的三元组信息抽取方式获取每个文档的实体,在该文档集合中,将具有相同的实体的文档进行融合,即在该文档集合中,将包含有相同实体的文档存储在一个子集合中。
示例性的,“旅游交通类”类对应的文档集合中包含有文档A、文档B、文档C、文档D,该四个文档对应的实体分别为:飞机、高铁、高铁和大巴;则在文档集合中,将包含有相同实体的文档进行融合,即将文档B和文档C存储在该“旅游交通类”类文档集合中的一个子集合中。
具体的,可以根据该文档集合中每个实体的语义将相同实体语义的文档进行融合,即将包含有相同实体的文档存储在一个子集合中。本实施例中根据每个文档的实体类型,以及,实体,将文档进行归一融合,构建该垂直行业的知识图谱。在用户进行搜索时,可以准确地确定文档集合,为用户返回准确的知识图谱信息。
本实施例中,根据每个类型的样本文档的格式信息,以及,格式信息与实体类型、属性的对应关系,获取每个类型的样本文档的第一实体类型和第一属性,采用有监督的分类方式,对每个类型的样本文档的第一实体类型、第一属性进行聚类,获取目标实体类型和目标属性,避免了现有技术中采用人工制定获取标准Schema的方式,提高了效率;且根据每个待处理文档的文档类型,以及,每个文档类型对应的抽取规则,抽取每个待处理文档的第二实体类型和第二属性,本实施例中的知识图谱的构建方式适用于所有类型的文档;进一步的,将待处理文档的实体类型、属性和目标实体类型、目标属性进行映射,获取待处理文档的目标实体类型、目标属性,且将包含有相同实体的文档进行融合,能够获取垂直行业的知识图谱,提高用户的搜索效率。
在上述实施例的基础上,下面结合图5对本发明提供的知识图谱的构建方法进行进一步说明,图5为本发明提供的知识图谱的构建方法的流程示意图三,如图5所示,本实施例提供的知识图谱的构建方法可以包括:
S501,根据每个类型的样本文档的格式信息,以及,格式信息与实体类型、属性的对应关系,获取每个类型的样本文档的第一实体类型,以及,每个类型的样本文档的第一实体类型的第一属性。
S502,采用有监督的分类方式,对每个类型的样本文档的第一实体类型进行聚类,获取目标实体类型;以及,采用有监督的分类方式,对同一第一实体类型的第一属性进行聚类,获取每个目标实体类型的目标属性。
S503,根据每个待处理文档的文档类型,以及,每个文档类型对应的抽取规则,抽取每个待处理文档的第二实体类型,以及,每个待处理文档的第二实体类型的第二属性。
S504,将与第二实体类型相同的目标实体类型,作为待处理文档对应的目标实体类型,以及,将第二实体类型相同的目标实体类型中,与第二属性相同的目标属性作为待处理文档对应的目标属性。
S505,根据每个待处理文档对应的目标实体类型,以及,目标属性,获取多个文档集合,每个文档集合对应的目标实体类型相同。
S506,在多个文档集合中的待处理文档中,删除目标内容,目标内容为包含有预设删除数据的内容。
垂直行业的文档虽然种类多样,但由于文档已经在内部使用,且来源比较单一,其内容质量相对较高,没有通用知识图谱复杂。在构建知识图谱前,需要对问的那个进行清洗处理,主要的清洗需求在于一些有较为明确约束的字符串值或者要作为计算公式输入的数字或日期等类型,属性约束和类型信息都保留在schema上,本方案针对常见的基本类型提供了通用的清洗策略包,保证通常情况下,从schema获取属性类型和约束后根据对应策略包进行自动清洗。
本实施例中,对文档的清洗指的是多个文档集合中的待处理文档中,删除目标内容,目标内容为包含有预设删除数据的内容,其中,预设删除数据的内容可以是包含有敏感数据的词语。
S507,在每个文档集合中,根据每个待处理文档的实体类型对应的实体的语义,将实体的语义相同的文档进行融合,获取待处理文档对应的垂直行业的知识图谱。
本实施例中,在构建垂直行业的知识图谱之前,需要对文档集合中的文档内容进行清洗,具体的,是在包含有预设删除数据的内容的文档中删除这些内容,使得为用户返回的文档中不包含有敏感数据。
图6为本发明提供的知识图谱的构建装置的结构示意图一,如图6所示,该知识图谱的构建装置600包括:目标实体类型获取模块601、第二实体类型获取模块602、待处理文档处理模块603和知识图谱获取模块604。
目标实体类型获取模块601,用于根据每个类型的样本文档的第一实体类型,以及,每个类型的样本文档的第一实体类型的第一属性,获取目标实体类型,以及,每个目标实体类型的目标属性,目标实体类型为:多个第一实体类型的集合,每个目标实体类型的目标属性为:同一第一实体类型的第一属性的集合。
第二实体类型获取模块602,用于获取至少一个待处理文档的第二实体类型,以及,每个待处理文档的第二实体类型的第二属性;
待处理文档处理模块603,用于根据至少一个待处理文档的第二实体类型、每个待处理文档的第二实体类型的第二属性、目标实体类型,以及,每个目标实体类型的目标属性,获取每个待处理文档对应的目标实体类型,以及,目标属性;
知识图谱获取模块604,用于根据每个待处理文档对应的目标实体类型,以及,目标属性,获取待处理文档对应的垂直行业的知识图谱。
本实施例提供的知识图谱的构建装置与上述知识图谱的构建方法实现的原理和技术效果类似,在此不作赘述。
可选的,图7为本发明提供的知识图谱的构建装置的结构示意图二,如图7所示,该知识图谱的构建装置600还包括:第一实体类型获取模块605、文档集合获取模块606和删除模块607。
第一实体类型获取模块605,用于根据每个类型的样本文档的格式信息,以及,格式信息与实体类型、属性的对应关系,获取每个类型的样本文档的第一实体类型,以及,每个类型的样本文档的第一实体类型的第一属性。
可选的,目标实体类型获取模块601,具体用于采用有监督的分类方式,对每个类型的样本文档的第一实体类型进行聚类,获取目标实体类型;以及,采用有监督的分类方式,对同一第一实体类型的第一属性进行聚类,以及,每个目标实体类型的目标属性。
可选的,第二实体类型获取模块602,具体用于根据每个待处理文档的文档类型,以及,每个文档类型对应的抽取规则,抽取每个待处理文档的第二实体类型,获取每个待处理文档的第二实体类型的第二属性。
可选的,目标实体类型获取模块601,具体用于将与第二实体类型相同的目标实体类型,作为待处理文档对应的目标实体类型,以及,将第二实体类型相同的目标实体类型中,与第二属性相同的目标属性作为待处理文档对应的目标属性。
文档集合获取模块606,用于根据每个待处理文档对应的目标实体类型,以及,目标属性,获取多个文档集合,每个文档集合对应的目标实体类型相同。
可选的,知识图谱获取模块604,具体用于在每个文档集合中,根据每个待处理文档的实体类型对应的实体的语义,将实体的语义相同的文档进行融合,获取待处理文档对应的垂直行业的知识图谱。
删除模块607,用于在多个文档集合中的待处理文档中,删除目标内容,目标内容为包含有预设删除数据的内容。
图8为本发明提供的知识图谱的构建装置的结构示意图三,该知识图谱的构建装置例如可以是终端设备,比如智能手机、平板电脑、计算机等。如图8所示,该知识图谱的构建装置800包括:存储器801和至少一个处理器802。
存储器801,用于存储程序指令。
处理器802,用于在程序指令被执行时实现本实施例中的知识图谱的构建方法,具体实现原理可参见上述实施例,本实施例此处不再赘述。
该知识图谱的构建装置800还可以包括及输入/输出接口803。
输入/输出接口803可以包括独立的输出接口和输入接口,也可以为集成输入和输出的集成接口。其中,输出接口用于输出数据,输入接口用于获取输入的数据,上述输出的数据为上述方法实施例中输出的统称,输入的数据为上述方法实施例中输入的统称。
本发明还提供一种可读存储介质,可读存储介质中存储有执行指令,当知识图谱的构建装置的至少一个处理器执行该执行指令时,当计算机执行指令被处理器执行时,实现上述实施例中的知识图谱的构建方法。
本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。知识图谱的构建装置的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得知识图谱的构建装置实施上述的各种实施方式提供的知识图谱的构建方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在上述网络设备或者终端设备的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:ApplicationSpecific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种知识图谱的构建方法,其特征在于,包括:
根据每个类型的样本文档的第一实体类型,以及,所述每个类型的样本文档的第一实体类型的第一属性,获取目标实体类型,以及,每个所述目标实体类型的目标属性,所述目标实体类型为:多个所述第一实体类型的集合,每个所述目标实体类型的目标属性为:同一所述第一实体类型的第一属性的集合,所述实体类型为知识图谱中实体的类型;
获取至少一个待处理文档的第二实体类型,以及,每个所述待处理文档的第二实体类型的第二属性;
根据至少一个所述待处理文档的第二实体类型、每个所述待处理文档的第二实体类型的第二属性、所述目标实体类型,以及,每个所述目标实体类型的目标属性,获取每个所述待处理文档对应的目标实体类型,以及,目标属性;
根据每个所述待处理文档对应的目标实体类型,以及,目标属性,获取所述待处理文档对应的垂直行业的知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述获取目标实体类型,以及,每个所述目标实体类型的目标属性之前,还包括:
根据所述每个类型的样本文档的格式信息,以及,格式信息与实体类型、属性的对应关系,获取所述每个类型的样本文档的第一实体类型,以及,所述每个类型的样本文档的第一实体类型的第一属性。
3.根据权利要求2所述的方法,其特征在于,所述获取目标实体类型,以及,每个所述目标实体类型的目标属性,包括:
采用有监督的分类方式,对所述每个类型的样本文档的第一实体类型进行聚类,获取所述目标实体类型;以及,
采用有监督的分类方式,对同一所述第一实体类型的第一属性进行聚类,以及,每个所述目标实体类型的目标属性。
4.根据权利要求1所述的方法,其特征在于,所述获取至少一个待处理文档的第二实体类型,以及,每个所述待处理文档的第二实体类型的第二属性,包括:
根据每个所述待处理文档的文档类型,以及,每个所述文档类型对应的抽取规则,抽取每个所述待处理文档的第二实体类型,获取每个所述待处理文档的第二实体类型的第二属性。
5.根据权利要求1所述的方法,其特征在于,所述获取每个所述待处理文档对应的目标实体类型,以及,目标属性,包括:
将与所述第二实体类型相同的目标实体类型,作为所述待处理文档对应的目标实体类型,以及,将所述第二实体类型相同的目标实体类型中,与所述第二属性相同的目标属性作为所述待处理文档对应的目标属性。
6.根据权利要求1所述的方法,其特征在于,所述获取所述待处理文档对应的垂直行业的知识图谱之前,还包括:
根据每个所述待处理文档对应的目标实体类型,以及,目标属性,获取多个文档集合,每个所述文档集合对应的目标实体类型相同。
7.根据权利要求6所述的方法,其特征在于,所述获取所述待处理文档对应的垂直行业的知识图谱,包括:
在每个所述文档集合中,根据每个所述待处理文档的实体类型对应的实体的语义,将实体的语义相同的文档进行融合,获取所述待处理文档对应的垂直行业的知识图谱。
8.一种知识图谱的构建装置,其特征在于,包括:
目标实体类型获取模块,用于根据每个类型的样本文档的第一实体类型,以及,所述每个类型的样本文档的第一实体类型的第一属性,获取目标实体类型,以及,每个所述目标实体类型的目标属性,所述目标实体类型为:多个所述第一实体类型的集合,每个所述目标实体类型的目标属性为:同一所述第一实体类型的第一属性的集合,所述实体类型为知识图谱中实体的类型;
第二实体类型获取模块,用于获取至少一个待处理文档的第二实体类型,以及,每个所述待处理文档的第二实体类型的第二属性;
待处理文档处理模块,用于根据至少一个所述待处理文档的第二实体类型、每个所述待处理文档的第二实体类型的第二属性、所述目标实体类型,以及,每个所述目标实体类型的目标属性,获取每个所述待处理文档对应的目标实体类型,以及,目标属性;
知识图谱获取模块,用于根据每个所述待处理文档对应的目标实体类型,以及,目标属性,获取所述待处理文档对应的垂直行业的知识图谱。
9.一种知识图谱的构建装置,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述知识图谱的构建装置执行权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机执行指令,当所述计算机执行指令被处理器执行时,实现权利要求1-7任一项所述的方法。
CN201811273943.6A 2018-10-30 2018-10-30 知识图谱的构建方法、装置和存储介质 Active CN109635120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811273943.6A CN109635120B (zh) 2018-10-30 2018-10-30 知识图谱的构建方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811273943.6A CN109635120B (zh) 2018-10-30 2018-10-30 知识图谱的构建方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN109635120A CN109635120A (zh) 2019-04-16
CN109635120B true CN109635120B (zh) 2020-06-09

Family

ID=66066862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811273943.6A Active CN109635120B (zh) 2018-10-30 2018-10-30 知识图谱的构建方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN109635120B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110187678B (zh) * 2019-04-19 2021-11-05 广东省智能制造研究所 一种制造业加工设备信息存储和数字化应用系统
CN110377885B (zh) * 2019-06-14 2023-09-26 北京百度网讯科技有限公司 转换pdf文件的方法、装置、设备和计算机存储介质
CN110611651B (zh) * 2019-07-19 2022-05-27 中国工商银行股份有限公司 网络监控方法、网络监控装置和电子设备
CN111209411B (zh) * 2020-01-03 2023-12-12 北京明略软件系统有限公司 一种文档分析的方法及装置
CN113434627A (zh) * 2020-03-18 2021-09-24 中国电信股份有限公司 工单的处理方法、装置和计算机可读存储介质
CN111858962B (zh) * 2020-07-27 2023-04-07 腾讯科技(成都)有限公司 数据处理方法、装置及计算机可读存储介质
US20230315703A1 (en) * 2020-08-31 2023-10-05 Siemens Ltd., China Data Fusion Method and Apparatus Based on Knowledge Graph, and Electronic Device
CN112084410B (zh) * 2020-09-10 2023-07-25 北京百度网讯科技有限公司 文档类型的推荐方法、装置、电子设备及可读存储介质
CN113190687B (zh) * 2021-05-08 2023-03-24 上海爱数信息技术股份有限公司 知识图谱的确定方法、装置、计算机设备及存储介质
CN113221572B (zh) * 2021-05-31 2024-05-07 抖音视界有限公司 一种信息处理方法、装置、设备及介质
CN113254665A (zh) * 2021-06-01 2021-08-13 北京爱奇艺科技有限公司 一种知识图谱扩充方法、装置、电子设备及存储介质
CN113407678B (zh) * 2021-06-30 2023-08-01 竹间智能科技(上海)有限公司 知识图谱构建方法、装置和设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8655711B2 (en) * 2008-11-25 2014-02-18 Microsoft Corporation Linking enterprise resource planning data to business capabilities
EP2932404A4 (en) * 2012-12-12 2016-08-10 Google Inc PROVIDING RESEARCH RESULTS BASED ON A COMPOSITION REQUEST
CN106776711B (zh) * 2016-11-14 2020-04-07 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN107665252B (zh) * 2017-09-27 2020-08-25 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN108304493B (zh) * 2018-01-10 2020-06-12 深圳市腾讯计算机系统有限公司 一种基于知识图谱的上位词挖掘方法及装置

Also Published As

Publication number Publication date
CN109635120A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109635120B (zh) 知识图谱的构建方法、装置和存储介质
US7937338B2 (en) System and method for identifying document structure and associated metainformation
CN110909725A (zh) 识别文本的方法、装置、设备及存储介质
US8868609B2 (en) Tagging method and apparatus based on structured data set
US11093520B2 (en) Information extraction method and system
CN104504081A (zh) 全媒体检测及监播大数据行为智能分析系统
CN110232126B (zh) 热点挖掘方法及服务器和计算机可读存储介质
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
US20140379719A1 (en) System and method for tagging and searching documents
CN114610845B (zh) 基于多系统的智能问答方法、装置和设备
CN109582847B (zh) 一种信息处理方法及装置、存储介质
EP3961426A2 (en) Method and apparatus for recommending document, electronic device and medium
US11657078B2 (en) Automatic identification of document sections to generate a searchable data structure
CN111563382A (zh) 文本信息的获取方法、装置、存储介质及计算机设备
US10216989B1 (en) Providing additional information for text in an image
CN111143394B (zh) 知识数据处理方法、装置、介质及电子设备
CN111027832A (zh) 一种税务风险确定方法、装置及存储介质
US11328005B2 (en) Machine learning (ML) based expansion of a data set
US10963690B2 (en) Method for identifying main picture in web page
CN114359924A (zh) 数据处理方法、装置、设备及存储介质
CN113408323A (zh) 表格信息的提取方法、装置、设备及存储介质
CN113407678B (zh) 知识图谱构建方法、装置和设备
US20220408155A1 (en) System and method for providing media content
CN116521729A (zh) 一种基于Elasticsearch的信息分类搜索方法及装置
CN113806368A (zh) 一种将文档识别并自动建立数据库的系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant