CN109657066A - 基于多视角的知识图谱构建方法、装置和计算机设备 - Google Patents
基于多视角的知识图谱构建方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN109657066A CN109657066A CN201811377623.5A CN201811377623A CN109657066A CN 109657066 A CN109657066 A CN 109657066A CN 201811377623 A CN201811377623 A CN 201811377623A CN 109657066 A CN109657066 A CN 109657066A
- Authority
- CN
- China
- Prior art keywords
- pedigree
- entity
- visual angle
- conglomerate
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 66
- 238000010276 construction Methods 0.000 title claims abstract description 27
- 230000000007 visual effect Effects 0.000 claims abstract description 175
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000005192 partition Methods 0.000 claims abstract description 19
- 238000004590 computer program Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 239000003086 colorant Substances 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010030 laminating Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Abstract
本申请涉及大数据领域的一种基于多视角的知识图谱构建方法、装置和计算机设备。所述方法包括:获取与集团企业标识对应的多个谱系视角;所述谱系视角具有对应的业务定义;根据所述集团企业标识获取相应的原始数据;利用所述业务定义以及所述原始数据,识别每个谱系视角对应的实体以及实体之间的关系类型;对每个谱系视角下的各个实体进行角色划分;根据实体被划分的角色以及实体之间的关系类型,构建与所述集团企业标识对应的多个谱系视角下的知识图谱。采用本方法无需多次操作,即可得到能够直观反映集团企业中多个公司之间不同关系类型的知识图谱。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于多视角的知识图谱构建方法、装置和计算机设备。
背景技术
集团企业通常包括母公司、分公司、子公司、控股公司、参股公司等多种公司。除了母公司与分公司、子公司、控股公司、参股公司之间具有一定的关系之外,各个分公司、子公司、控股公司、参股公司之间通常也存在千丝万缕的联系。
目前市面上出现了一些网站可以查询到一个公司与其他公司之间关系。公司之间的关系可以通过图谱的方式予以展示。但是这些图谱只是从被查询的这个公司出发,展示与其对应的其他公司之间的投资关系。图谱的视角和维度都较为单一。如果通过这种传统的图谱来查看一个集团企业中所有公司之间的关联关系,则需要针对该集团企业的每家公司分别进行查询。不仅操作繁琐,而且无法直观的反映出该集团企业中各家公司之间的关系。
发明内容
基于此,有必要针对上述技术问题,提供一种无需多次操作,即可得到直观反映集团企业中多个公司之间不同关系类型的知识图谱的基于多视角的知识图谱构建方法、装置和计算机设备。
一种基于多视角的知识图谱构建方法,所述方法包括:
获取与集团企业标识对应的多个谱系视角;所述谱系视角具有对应的业务定义;
根据所述集团企业标识获取相应的原始数据;
利用所述业务定义以及所述原始数据,识别每个谱系视角对应的实体以及实体之间的关系类型;
对每个谱系视角下的各个实体进行角色划分;
根据实体被划分的角色以及实体之间的关系类型,构建与所述集团企业标识对应的多个谱系视角下的知识图谱。
在其中一个实施例中,所述根据所述集团企业标识获取相应的原始数据包括:
获取所述集团企业标识对应的多个公司以及自然人;
通过第三方平台爬取与所述公司以及自然人对应的外部数据,将所述外部数据迁移至大数据平台;
通过本地数据库获取与所述公司以及自然人对应的内部数据,将所述内部数据迁移至大数据平台;
将大数据平台中与所述公司以及自然人对应的内部数据以及外部数据标记为与所述集团标识对应的原始数据。
在其中一个实施例中,所述利用所述业务定义以及所述原始数据,识别每个谱系视角对应的实体以及实体之间的关系类型包括:
根据所述业务定义获取谱系视角对应的企业范围以及关系类型;
将所述企业范围对应的多个公司和/或自然人标记为实体;
获取与所述关系类型对应的关键字,利用所述关键字在所述原始数据中识别每个谱系视角对应的多个实体之间的关系类型。
在其中一个实施例中,所述根据实体被划分的角色以及实体之间的关系类型,构建与所述集团企业标识对应的多个谱系视角下的知识图谱包括:
获取每个谱系视角下被划分角色后的实体;所述被划分角色后的实体包括视角顶点、中间节点以及末端节点;
将所述关系类型作为所述视角顶点、中间节点以及末端节点之间的属性;
分别利用每个谱系视角对应的所述属性在所述视角顶点、中间节点以及末端节点建立相应的有向连接,生成多个谱系视角下的知识图谱。
在其中一个实施例中,所述方法还包括:
接收终端发送的追溯请求,所述追溯请求中携带了待追溯的谱系视角;
根据所述带追溯的谱系视角获取预设历史时刻对应的历史知识图谱以及当前时刻对应的当前知识图谱;
将所述历史知识图谱与所述当前知识图谱进行比对;
若存在差异节点,则在所述当前知识图谱中对所述差异节点进行标记。
在其中一个实施例中,所述方法还包括:
利用所述原始数据识别与所述集团企业标识对应的多个行业;
对所述多个行业进行分析,生成分析视图;
将所述分析视图叠加至所述知识图谱中。
一种基于多视角的知识图谱构建装置,所述装置包括:
获取与集团企业标识对应的多个谱系视角;所述谱系视角具有对应的业务定义;
根据所述集团企业标识获取相应的原始数据;
利用所述业务定义以及所述原始数据,识别每个谱系视角对应的实体以及实体之间的关系类型;
对每个谱系视角下的各个实体进行角色划分;
根据实体被划分的角色以及实体之间的关系类型,构建与所述集团企业标识对应的多个谱系视角下的知识图谱。
在其中一个实施例中,所述装置还包括:
追溯模块,用于接收终端发送的追溯请求,所述追溯请求中携带了待追溯的谱系视角;根据所述带追溯的谱系视角获取预设历史时刻对应的历史知识图谱以及当前时刻对应的当前知识图谱;将所述历史知识图谱与所述当前知识图谱进行比对;若存在差异节点,则在所述当前知识图谱中对所述差异节点进行标记。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
上述基于多视角的知识图谱构建方法、装置、计算机设备和存储介质,通过获取与集团企业标识对应的多个谱系视角以及原始数据,利用多个谱系视角对应的业务定义对原始数据进行数据加工,识别出每个谱系视角对应的实体以及实体之间的关系类型。通过对每个谱系视角下的各个实体进行角色划分,由此可以根据实体被划分的角色以及实体之间的关系类型,构建与集团企业标识对应的多个谱系视角下的知识图谱。在整个过程中,无需多次操作,可以一次性生成多种谱系视角对应的知识图谱,该知识图谱不仅能够直观地反映集团企业与多个下属公司之间的关联关系,也能够直观地反映多个下属公司之间不同的关系类型。
附图说明
图1为一个实施例中基于多视角的知识图谱构建方法的应用场景图;
图2为一个实施例中基于多视角的知识图谱构建方法的流程示意图;
图3为一个实施例中知识图谱追溯步骤的流程示意图;
图4为一个实施例中基于多视角的知识图谱构建装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的基于多视角的知识图谱构建方法,可以应用于如图1所示的应用环境中。其中,服务器102通过网络与多个第三方平台104进行通信。其中,服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。当需要构建一个集团企业的知识图谱时,服务器102获取与集团企业标识对应的多个谱系视角,每个谱系视角具有对应的业务定义。服务器102在多个第三方平台104爬取与该集团企业中的所有公司以及自然人对应的外部数据。服务器102通过本地数据库获取与该集团企业中的所有公司以及自然人对应的内部数据。服务器102将外部数据与内部数据作为原始数据迁移至大数据平台。大数据平台可以部署在服务器本地。服务器102利用业务定义以及原始数据,识别每个谱系视角对应的实体以及实体之间的关系类型。服务器102对每个谱系视角下的各个实体进行角色划分,根据实体被划分的角色以及实体之间的关系类型,构建与集团企业标识对应的多个谱系视角下的知识图谱。由此得到能够反映该集团企业中多个公司之间不同关系类型的知识图谱。
在一个实施例中,如图2所示,提供了一种基于多视角的知识图谱构建方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取与集团企业标识对应的多个谱系视角;谱系视角具有对应的业务定义。
当需要对一个集团企业构建知识图谱时,可以预先设置该集团企业对应的多个谱系视角。每个谱系视角都可以具有对应的业务定义。业务定义中包括了谱系视角对应的关系类型、企业范围以及视角顶点。谱系视角对应的关系类型可以有一种,也可以有多种,不同的谱系视角对应的关系类型可以相同,也可以不同。例如,谱系视角可以包括:集团本部视角、实际控制人视角、最终受益人视角以及强经济依附关系视角等多种。关系类型包括投资关系、隐性关系、增信关系、供应链关系以及信贷关系等多种。例如,集团本部视角对应的关系类型为投资关系,最终受益人视角对应的关系类型为投资关系与隐性关系。企业范围包括了公司(即公司法人)与自然人。不同谱系视角对应的企业范围可以不同。例如,集团本部视角可以是以集团控股母公司为视角顶点的集团族谱,其对应的企业范围包括控股母公司及其下属单一成员公司或者其他具有法人资格的公司。实际控制人视角可以是以集团控股母公司的控制人为视角顶点的谱系,包括集团控股母公司最终控制人及其下属公司。
步骤204,根据集团企业标识获取相应的原始数据。
服务器可以根据集团企业标识获取相应的原始数据。在其中一个实施例中,服务器获取集团企业标识对应的多个公司以及自然人,通过第三方平台爬取与公司以及自然人对应的外部数据,将外部数据迁移至大数据平台。服务器通过本地数据库获取与公司以及自然人对应的内部数据,将内部数据迁移至大数据平台。服务器将大数据平台中与公司以及自然人对应的内部数据以及外部数据标记为与集团标识对应的原始数据。
其中,外部数据包括工商数据、银监数据、人民银行数据、公司年报等,内部数据包括运营数据以及业务数据等。传统的图谱构建,只是采用外部数据,所构建出的图谱只能部分反映公司之间的关联关系。本实施例中,服务器采集了与集团企业标识对应的内部数据以及外部数据,由此能够以更加全面的数据作为基础,构建出更加全面、准确的知识图谱。
步骤206,利用业务定义以及原始数据,识别每个谱系视角对应的实体以及实体之间的关系类型。
服务器根据各个谱系视角对应的业务定义对原始数据进行数据加工。其中,每个谱系视角具体对应的企业范围,每个企业范围都包括多个公司和/或自然人,服务器可以将企业范围对应的多个企业和/或自然人标记为实体。服务器获取各个谱系视角的关系类型的关键字,利用关键字在原始数据中进行信息抽取,包括实体抽取、关系抽取以及属性抽取。
例如,当谱系视角对应的关系类型为投资关系时,服务器可以根据投资关系对应的关键字,如投资比例等,在原始数据中进行实体抽取、关系抽取以及属性抽取。其中,抽取到的属性即为实体之间的投资关系。
步骤208,对每个谱系视角下的各个实体进行角色划分。
步骤210,根据实体被划分的角色以及实体之间的关系类型,构建与集团公司标识对应的多个谱系视角下的知识图谱。
服务器对各个谱系视角下的实体进行角色划分。具体的,服务器可以根据各个谱系视角下每个实体的重要程度进行角色划分。例如,服务器可以采用PageRank算法根据各个谱系视角下每个实体的重要程度,对各实体进行角色划分。被划分角色后的实体包括视角顶点、中间节点以及末端节点。服务器将视角顶点、中间节点以及末端节点之间的关系类型作为两两之间的属性,分别利用每个谱系视角对应的属性在视角顶点、中间节点以及末端节点建立相应的有向连接,生成多个谱系视角下的知识图谱。
本实施例中,通过获取与集团企业标识对应的多个谱系视角以及原始数据,利用多个谱系视角对应的业务定义对原始数据进行数据加工,识别出每个谱系视角对应的实体以及实体之间的关系类型。通过对每个谱系视角下的各个实体进行角色划分,由此可以根据实体被划分的角色以及实体之间的关系类型,构建与集团企业标识对应的多个谱系视角下的知识图谱。在整个过程中,无需多次操作,可以一次性生成多种谱系视角对应的知识图谱,该知识图谱不仅能够直观地反映集团企业与多个下属公司之间的关联关系,也能够直观地反映多个下属公司之间不同的关系类型。
在一个实施例中,利用业务定义以及原始数据,识别每个谱系视角对应的实体以及实体之间的关系类型包括:根据业务定义获取谱系视角对应的企业范围以及关系类型;将企业范围对应的多个公司和/或自然人标记为实体;获取与关系类型对应的关键字,利用关键字在原始数据中识别每个谱系视角对应的多个实体之间的关系类型。
在构建知识图谱时,服务器可以将公司或自然人标记为相应的实体。具体的,服务器可以根据各个谱系视角对应的企业范围识别对应的实体。不同的谱系视角对应的实体可以是相同的,也可以是不同的。服务器根据各个谱系视角对应的业务定义对原始数据进行数据加工。其中,每个谱系视角具体对应的企业范围,每个企业范围都包括多个公司和/或自然人,服务器可以将企业范围对应的多个公司和/或自然人标记为实体。例如,集团本部视角下,服务器可以将控股母公司及其下属单一成员公司、其他具有法人资格的公司以及持股的自然人等标记为相应的实体。在最终受益人视角下,服务器将集团控股母公司最终受益人及其投资的公司标记为相应的实体。最终受益人可以是持股比例超过阈值的自然人,如持股超过25%的自然人可以为最终受益人。
服务器可以通过大数据平台对各个谱系视角下的实体以及实体之间的关系进行识别。具体的,服务器获取各个谱系视角的关系类型的关键字,利用关键字在原始数据中进行信息抽取,包括实体抽取、关系抽取以及属性抽取。属性抽取即根据抽取到的实体、关系,继续抽取实体与实体之间的关系。例如,当谱系视角对应的关系类型包括投资关系时,服务器可以根据投资关系对应的关键字,如投资比例等,在原始数据中进行实体抽取、关系抽取以及属性抽取。其中,抽取到的属性即为实体之间的投资关系。当谱系视角对应的关系类型包括交易关系时,服务器可以根据交易金额、交易次数等在原始数据中进行实体抽取、关系抽取以及属性抽取。其中,抽取到的属性即为实体之间的交易关系。
例如,谱系视角为集团本部视角时,可以识别出具有投资关系的各个实体,谱系视角为最终受益人视角时,可以识别具有投资关系的各个实体以及具有隐性关系的各个实体,谱系视角为强经济依附关系视角时,可以识别出具有投资关系的各个实体、具有增信关系的各个实体、具有供应链关系的各个实体等。
服务器对各个谱系视角下的信息进行抽取之后,将抽取到的实体、属性、实体作为三元组,将三元组以关系型数据的形式对应谱系视角写入HDFS文件中。在构建知识图谱时,服务器可以直接在HDFS文件中调用相应的三元组,生成多个谱系视角对应的知识图谱。
本实施例中,通过对原始数据进行数据加工,由此能够从更加全面的数据中准确的识别出每个谱系视角下实体与实体之间的关系,从而有效提高了知识图谱的准确性。
在一个实施例中,根据实体被划分的角色以及实体之间的关系类型,构建与集团企业标识对应的多个谱系视角下的知识图谱包括:获取每个谱系视角下被划分角色后的实体;被划分角色后的实体包括视角顶点、中间节点以及末端节点;将关系类型作为视角顶点、中间节点以及末端节点之间的属性;分别利用每个谱系视角对应的属性在视角顶点、中间节点以及末端节点建立相应的有向连接,生成多个谱系视角下的知识图谱。
服务器对各个谱系视角下的多个实体,依照其相应的重要程度进行角色划分。每个谱系视角的业务定义中,都定义了该谱系视角对应的视角顶点。服务器对各个谱系视角下的实体进行角色划分时,可以将视角顶点作为谱系视角下重要程度最高的实体节点。被划分角色后的实体包括视角顶点、中间节点以及末端节点。其中,中间节点可以作为视角顶点与末端节点之间的连接节点。视角顶点也可以与末端节点之间直接关联。服务器可以参照上述实施例,在识别出节点与节点之间的关系后,将节点之间的关系作为其对应的属性,按照实体、属性、实体作为三元组,将三元组以关系型数据的形式对应谱系视角写入HDFS文件中。在服务器对每个谱系视角下的实体进行角色划分之后,可以根据实体对应的角色从HDFS文件调取相应的三元组,生成节点之间的有向向量,根据有向向量建立节点之间的有向连接,从而生成每个谱系视角下的知识图谱。
其中,服务器可以通过并发操作,同时构建多个谱系视角下的知识图谱,即将集团企业对应的多个谱系视角下的知识图谱一次性全部构建完成。由此可以通过该知识图谱直观地反映集团企业与多个下属公司之间的关联关系,以及直观地反映多个下属公司之间不同的关系类型。
进一步的,考虑到集团企业中通常会涉及较多的公司,为了便于用户查看知识图谱,服务器还可以对不同角色的实体采用不同的标识和不同的颜色。例如,视角顶点可以采用突出的颜色,如红色,末端节点可以采用不太明亮的颜色,如淡蓝色。服务器还可以对不同的关系类型标注不同的颜色。
在一个实施例中,如图3所示,该方法还包括:知识图谱追溯的步骤,该步骤具体包括:
步骤302,接收终端发送的追溯请求,追溯请求中携带了待追溯的谱系视角。
步骤304,根据带追溯的谱系视角获取预设历史时刻对应的历史知识图谱以及当前时刻对应的当前知识图谱。
步骤306,将历史知识图谱与当前知识图谱进行比对。
步骤308,若存在差异节点,则在当前知识图谱中对差异节点进行标记。
用户查看知识图谱时,可能需要了解知识图谱的变迁。终端可以在知识图谱的显示界面中,输入相应的谱系视角,生成追溯请求。追溯请求中所携带的谱系视角也可以称为待追溯的谱系视角。追溯请求中可以携带的谱系视角可以有一个,也可以有多个。
服务器接收终端上传的追溯请求,根据追溯请求中写的待追溯的谱系视角,获取该谱系视角对应的预设历史时刻的历史知识图谱,以及当前时刻对应的当前知识图谱。预设历史时刻可以是通过解析追溯请求获得的,即可以是终端输入的。预设历史时刻也可以是对服务器进行预先设置的。
服务器将将历史知识图谱与当前知识图谱进行比对,若两者存在差异节点,则在当前知识图谱中对差异节点进行标记。其中,服务器可以在当前知识图谱中利用不同颜色或线条或者不同的图标对差异节点进行标记。例如,服务器可以在当前知识图谱中的差异节点的有向向量的连线采用虚线连接,对差异节点采用灰色图标展示。
在传统的知识图谱中,只是对当前时刻的知识图谱进行展示,无法对知识图谱进行追溯。而本实施例中,有效解决了知识图谱无法追溯的问题,并且可以针对不同的谱系视角进行追溯,从而能够清晰的展示不同谱系视角下知识图谱的迁徙。
在一个实施例中,该方法还包括:利用原始数据识别与集团企业标识对应的多个行业;对多个行业进行分析,生成分析视图;将分析视图叠加至知识图谱中。
服务器在采集了集群企业对应的原始数据之后,可以通过大数据平台对原始数据进行数据加工。数据加工中除了需要识别各个谱系视角下的实体以及实体与实体之间的关系之外,还可以识别与集团企业标识对应的多个行业,提取相应的行业数据。服务器对多个行业的行业数据进行分析,包括:对行业分布进行分析、对行业集中度进行分析以及对最大行业的成员进行分析等。
例如,通过对行业分布进行分析,可以得到该集团企业中行业分布为:制造业(35%)、房地产业(29%)、住宿和餐饮业(10%)、建筑业(10%)、批发零售业(8%)、文化、体育和娱乐业(8%)。通过行业集中度分析,可以得到前五大行业为:制造业、房地产业、住宿和餐饮业、建筑业、批发零售业。
通过进行行业数据分析,服务器可以生成相应的分析视图,将分析视图叠加至知识图谱中。由此可以通过知识图谱反映更多的公司经营信息。
应该理解的是,虽然图2和图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种基于多视角的知识图谱构建装置,包括:谱系获取模块402、数据采集模块404、实体识别模块406、角色划分模块408以及图谱构建模块410,其中:
谱系获取模块402,用于获取与集团企业标识对应的多个谱系视角;谱系视角具有对应的业务定义。
数据采集模块404,用于根据集团企业标识获取相应的原始数据。
实体识别模块406,用于利用业务定义以及原始数据,识别每个谱系视角对应的实体以及实体之间的关系类型。
角色划分模块408,用于对每个谱系视角下的各个实体进行角色划分。
图谱构建模块410,用于根据实体被划分的角色以及实体之间的关系类型,构建与集团企业标识对应的多个谱系视角下的知识图谱。
在一个实施例中,数据采集模块404还用于获取集团企业标识对应的多个公司以及自然人;通过第三方平台爬取与公司以及自然人对应的外部数据,将外部数据迁移至大数据平台;通过本地数据库获取与公司以及自然人对应的内部数据,将内部数据迁移至大数据平台;将大数据平台中与公司以及自然人对应的内部数据以及外部数据标记为与集团标识对应的原始数据。
在一个实施例中,实体识别模块406还用于根据业务定义获取谱系视角对应的企业范围以及关系类型;将企业范围对应的多个公司和/或自然人标记为实体;获取与关系类型对应的关键字,利用关键字在原始数据中识别每个谱系视角对应的多个实体之间的关系类型。
在一个实施例中,图谱构建模块410还用于获取每个谱系视角下被划分角色后的实体;被划分角色后的实体包括视角顶点、中间节点以及末端节点;将关系类型作为视角顶点、中间节点以及末端节点之间的属性;分别利用每个谱系视角对应的属性在视角顶点、中间节点以及末端节点建立相应的有向连接,生成多个谱系视角下的知识图谱。
在一个实施例中,该装置还包括:追溯模块,用于接收终端发送的追溯请求,追溯请求中携带了待追溯的谱系视角;根据带追溯的谱系视角获取预设历史时刻对应的历史知识图谱以及当前时刻对应的当前知识图谱;将历史知识图谱与当前知识图谱进行比对;若存在差异节点,则在当前知识图谱中对差异节点进行标记。
在一个实施例中,该装置还包括:分析视图叠加模块,用于利用原始数据识别与集团企业标识对应的多个行业;对多个行业进行分析,生成分析视图;将分析视图叠加至知识图谱中。
关于基于多视角的知识图谱构建装置的具体限定可以参见上文中对于基于多视角的知识图谱构建方法的限定,在此不再赘述。上述基于多视角的知识图谱构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储谱系视角对应的业务定义、集团企业的原始数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于多视角的知识图谱构建方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于多视角的知识图谱构建方法,所述方法包括:
获取与集团企业标识对应的多个谱系视角;所述谱系视角具有对应的业务定义;
根据所述集团企业标识获取相应的原始数据;
利用所述业务定义以及所述原始数据,识别每个谱系视角对应的实体以及实体之间的关系类型;
对每个谱系视角下的各个实体进行角色划分;
根据实体被划分的角色以及实体之间的关系类型,构建与所述集团企业标识对应的多个谱系视角下的知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述根据所述集团企业标识获取相应的原始数据包括:
获取所述集团企业标识对应的多个公司以及自然人;
通过第三方平台爬取与所述公司以及自然人对应的外部数据,将所述外部数据迁移至大数据平台;
通过本地数据库获取与所述公司以及自然人对应的内部数据,将所述内部数据迁移至大数据平台;
将大数据平台中与所述公司以及自然人对应的内部数据以及外部数据标记为与所述集团标识对应的原始数据。
3.根据权利要求1所述的方法,其特征在于,所述利用所述业务定义以及所述原始数据,识别每个谱系视角对应的实体以及实体之间的关系类型包括:
根据所述业务定义获取谱系视角对应的企业范围以及关系类型;
将所述企业范围对应的多个公司和/或自然人标记为实体;
获取与所述关系类型对应的关键字,利用所述关键字在所述原始数据中识别每个谱系视角对应的多个实体之间的关系类型。
4.根据权利要求1所述的方法,其特征在于,所述根据实体被划分的角色以及实体之间的关系类型,构建与所述集团企业标识对应的多个谱系视角下的知识图谱包括:
获取每个谱系视角下被划分角色后的实体;所述被划分角色后的实体包括视角顶点、中间节点以及末端节点;
将所述关系类型作为所述视角顶点、中间节点以及末端节点之间的属性;
分别利用每个谱系视角对应的所述属性在所述视角顶点、中间节点以及末端节点建立相应的有向连接,生成多个谱系视角下的知识图谱。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收终端发送的追溯请求,所述追溯请求中携带了待追溯的谱系视角;
根据所述带追溯的谱系视角获取预设历史时刻对应的历史知识图谱以及当前时刻对应的当前知识图谱;
将所述历史知识图谱与所述当前知识图谱进行比对;
若存在差异节点,则在所述当前知识图谱中对所述差异节点进行标记。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用所述原始数据识别与所述集团企业标识对应的多个行业;
对所述多个行业进行分析,生成分析视图;
将所述分析视图叠加至所述知识图谱中。
7.一种基于多视角的知识图谱构建装置,其特征在于,所述装置包括:
谱系获取模块,用于获取与集团企业标识对应的多个谱系视角;所述谱系视角具有对应的业务定义;
数据采集模块,用于根据所述集团企业标识获取相应的原始数据;
实体识别模块,用于利用所述业务定义以及所述原始数据,识别每个谱系视角对应的实体以及实体之间的关系类型;
角色划分模块,用于对每个谱系视角下的各个实体进行角色划分;
图谱构建模块,用于根据实体被划分的角色以及实体之间的关系类型,构建与所述集团企业标识对应的多个谱系视角下的知识图谱。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
追溯模块,用于接收终端发送的追溯请求,所述追溯请求中携带了待追溯的谱系视角;根据所述带追溯的谱系视角获取预设历史时刻对应的历史知识图谱以及当前时刻对应的当前知识图谱;将所述历史知识图谱与所述当前知识图谱进行比对;若存在差异节点,则在所述当前知识图谱中对所述差异节点进行标记。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811377623.5A CN109657066A (zh) | 2018-11-19 | 2018-11-19 | 基于多视角的知识图谱构建方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811377623.5A CN109657066A (zh) | 2018-11-19 | 2018-11-19 | 基于多视角的知识图谱构建方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109657066A true CN109657066A (zh) | 2019-04-19 |
Family
ID=66111291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811377623.5A Pending CN109657066A (zh) | 2018-11-19 | 2018-11-19 | 基于多视角的知识图谱构建方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109657066A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175239A (zh) * | 2019-04-23 | 2019-08-27 | 成都数联铭品科技有限公司 | 一种知识图谱的构建方法及系统 |
CN110659981A (zh) * | 2019-09-26 | 2020-01-07 | 北京明略软件系统有限公司 | 企业依存关系识别方法、装置及电子设备 |
CN110750650A (zh) * | 2019-09-30 | 2020-02-04 | 中盈优创资讯科技有限公司 | 企业知识图谱的构建方法及装置 |
CN111626854A (zh) * | 2020-04-16 | 2020-09-04 | 苏宁金融科技(南京)有限公司 | 可疑业务筛查图谱生成方法、装置、计算机设备 |
CN112231285A (zh) * | 2020-10-20 | 2021-01-15 | 北京恒华龙信数据科技有限公司 | 基于数据资源的知识图谱生成方法及装置 |
CN112905853A (zh) * | 2021-03-05 | 2021-06-04 | 北京中经惠众科技有限公司 | 知识图谱构建过程的故障检测方法、装置、设备和介质 |
CN112988735A (zh) * | 2021-05-13 | 2021-06-18 | 江苏数兑科技有限公司 | 一种基于知识图谱的智能数据分析方法 |
CN113672598A (zh) * | 2021-10-22 | 2021-11-19 | 国能(北京)商务网络有限公司 | 一种面向供应链采购的多视角数据维度模型的构建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012073899A (ja) * | 2010-09-29 | 2012-04-12 | Teikoku Databank Ltd | 取引関係マップ生成システム及びプログラム |
CN107066599A (zh) * | 2017-04-20 | 2017-08-18 | 北京文因互联科技有限公司 | 一种基于知识库推理的相似上市公司企业检索分类方法及系统 |
CN108596439A (zh) * | 2018-03-29 | 2018-09-28 | 北京中兴通网络科技股份有限公司 | 一种基于知识图谱的企业风险预测方法及系统 |
-
2018
- 2018-11-19 CN CN201811377623.5A patent/CN109657066A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012073899A (ja) * | 2010-09-29 | 2012-04-12 | Teikoku Databank Ltd | 取引関係マップ生成システム及びプログラム |
CN107066599A (zh) * | 2017-04-20 | 2017-08-18 | 北京文因互联科技有限公司 | 一种基于知识库推理的相似上市公司企业检索分类方法及系统 |
CN108596439A (zh) * | 2018-03-29 | 2018-09-28 | 北京中兴通网络科技股份有限公司 | 一种基于知识图谱的企业风险预测方法及系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175239A (zh) * | 2019-04-23 | 2019-08-27 | 成都数联铭品科技有限公司 | 一种知识图谱的构建方法及系统 |
CN110659981A (zh) * | 2019-09-26 | 2020-01-07 | 北京明略软件系统有限公司 | 企业依存关系识别方法、装置及电子设备 |
CN110750650A (zh) * | 2019-09-30 | 2020-02-04 | 中盈优创资讯科技有限公司 | 企业知识图谱的构建方法及装置 |
CN111626854A (zh) * | 2020-04-16 | 2020-09-04 | 苏宁金融科技(南京)有限公司 | 可疑业务筛查图谱生成方法、装置、计算机设备 |
CN112231285A (zh) * | 2020-10-20 | 2021-01-15 | 北京恒华龙信数据科技有限公司 | 基于数据资源的知识图谱生成方法及装置 |
CN112905853A (zh) * | 2021-03-05 | 2021-06-04 | 北京中经惠众科技有限公司 | 知识图谱构建过程的故障检测方法、装置、设备和介质 |
CN112988735A (zh) * | 2021-05-13 | 2021-06-18 | 江苏数兑科技有限公司 | 一种基于知识图谱的智能数据分析方法 |
CN113672598A (zh) * | 2021-10-22 | 2021-11-19 | 国能(北京)商务网络有限公司 | 一种面向供应链采购的多视角数据维度模型的构建方法 |
CN113672598B (zh) * | 2021-10-22 | 2022-01-21 | 国能(北京)商务网络有限公司 | 一种面向供应链采购的多视角数据维度模型的构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657066A (zh) | 基于多视角的知识图谱构建方法、装置和计算机设备 | |
CN109657067A (zh) | 知识图谱的展示方法、装置、计算机设备和存储介质 | |
CN108874644A (zh) | 数据监控方法、装置、计算机设备及存储介质 | |
CN111414485B (zh) | 企业客户关联关系图谱构建方法、装置、存储器和计算机 | |
Gori et al. | One-dimensional long-range percolation: A numerical study | |
CN109670048A (zh) | 基于风控管理的图谱构建方法、装置和计算机设备 | |
CN103488475B (zh) | 多维数据分析系统和多维数据分析方法 | |
CN109543925A (zh) | 基于机器学习的风险预测方法、装置、计算机设备和存储介质 | |
CN109284920A (zh) | 基于大数据的用户信息风险评定的方法及系统 | |
CN114218568B (zh) | 一种应用于云服务的大数据攻击处理方法及系统 | |
CN109033139A (zh) | 客户信息查询方法、装置、计算机设备和存储介质 | |
CN103810094B (zh) | 一种测试案例的执行方法、装置和测试工具 | |
CN107944866B (zh) | 交易记录排重方法及计算机可读存储介质 | |
CN109325868A (zh) | 问卷数据处理方法、装置、计算机设备和存储介质 | |
CN110781311A (zh) | 一种企业一致行动人运算系统及方法 | |
CN110008180A (zh) | 财务数据记录方法、装置、计算机设备和存储介质 | |
CN110275703A (zh) | 键值对数据的赋值方法、装置、计算机设备和存储介质 | |
CN109614457B (zh) | 一种基于深度学习的地理信息的识别方法及装置 | |
CN105282702B (zh) | 一种室内的定位方法及用户终端 | |
CN104778308B (zh) | 飞机结构型材的识别方法和装置 | |
Oleynikov et al. | ARACE–a new method for verbal decision analysis | |
CN110232629A (zh) | 风控策略预警方法、装置、计算机设备和存储介质 | |
Chukwu et al. | Trends in Rental Values of Residential Properties in Enugu, Nigeria; A Comparative Study between New Haven and Achara Layouts | |
CN110378564A (zh) | 监控模型生成方法、装置、终端设备及存储介质 | |
CN112528038B (zh) | 基于多层图结构担保联通体唯一性识别方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |