CN111813956A - 知识图谱构建方法、装置、信息穿透方法和系统 - Google Patents
知识图谱构建方法、装置、信息穿透方法和系统 Download PDFInfo
- Publication number
- CN111813956A CN111813956A CN202010644740.4A CN202010644740A CN111813956A CN 111813956 A CN111813956 A CN 111813956A CN 202010644740 A CN202010644740 A CN 202010644740A CN 111813956 A CN111813956 A CN 111813956A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- rdf
- constructing
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种知识图谱构建方法、装置、信息穿透方法和系统,所述方法包含:获取待分析目标的注册信息数据源和网页数据源,根据所述注册信息数据源和所述网页数据源构建领域本体信息;利用所述领域本体信息构建Karma模型,并通过Karma模型对所述注册信息数据和所述网页数据信息进行数据融合分析获得第一RDF数据;基于所述领域本体信息通过Jena推理引擎对所述第一RDF数据进行补全修正后获得第二RDF数据,根据所述第二RDF数据通过Neo4j图数据库构建获得知识图谱。
Description
技术领域
本发明涉及知识图谱技术领域,尤其是涉及一种知识图谱构建方法、装置、信息穿透方法和系统。
背景技术
在大数据时代,为了高效利用海量的互联网数据,国内外互联网公司纷纷以此为基础构建知识图谱,知识图谱以其强大的知识组织能力和语义处理能力在智能问答、语义推荐、舆情分析等众多领域发挥着重要作用。但是目前针对银行大数据应用领域的知识图谱非常匮乏。
虽然银行积累了大量的客户信息和企业信息,但银行传统的数据分析和机器学习方式更多的只是将客户和企业作为单独的个体进行分析,许多客户和企业的基础信息仅仅是孤立的存在,没有实现数据之间的互联互通,没有形成统一数据标准并有效整合起来,系统无法在客户群体间和企业群体间进行深层次关系挖掘和穿透。客户经理也无法直观全面了解客户相关的企业法人、企业信息以及企业之间的关联信息,很难深度挖掘出企业最终受益人、深度挖掘和钻取目标客户信息及关联信息等有效的营销信息,无法为客户提供分层次有针对性客户服务和营销管理。基于上述的情况,客户经理只能去各大公开网站手工进行对公客户相关企业信息搜集,对客户相关企业信息进行人工分析挖掘目标客户进行营销,但一个对公客户经理的精力是有限的,无法快速有效的在海量的企业中寻找到优质重点客户。
鉴于此,如何打破企业、法人等信息孤点,实现客户企业信息的互联互通,将企业大数据高效的利用起来,进行企业集团信息穿透,解决企业集团信息壁垒问题在当前环境中尤为重要。
发明内容
本发明目的在于提供一种知识图谱构建方法、装置及信息穿透系统,实现企业数据的互联互通,将异构、多源的数据有效融合予以构建统一的知识图谱,利用该知识图谱予以展现更精准的目标数据。
为达上述目的,本发明所提供的知识图谱构建方法,所述方法包含:获取待分析目标的注册信息数据源和网页数据源,根据所述注册信息数据源和所述网页数据源构建领域本体信息;利用所述领域本体信息构建Karma模型,并通过Karma模型对所述注册信息数据和所述网页数据信息进行数据融合分析获得第一RDF数据;基于所述领域本体信息通过Jena推理引擎对所述第一RDF数据进行补全修正后获得第二RDF数据,根据所述第二RDF数据通过Neo4j图数据库构建获得知识图谱。
在上述知识图谱构建方法中,优选的,获取待分析目标的注册信息数据源和网页数据源,根据所述注册信息数据源和所述网页数据源构建领域本体信息包含:于所述注册信息数据源中获得注册信息数据,将所述网页数据源转化为结构化数据后获得网页数据信息;根据所述注册信息数据和所述网页数据信息分析获得两者各自的数据属性及两者之间的语义关联关系;根据所述数据属性和所述语义关联关系构建领域本体信息。
在上述知识图谱构建方法中,优选的,利用所述领域本体信息构建Karma模型包含:根据所述注册信息数据和所述网页信息数据构建多源化结构数据;利用CRF模型学习语义分析所述多源化结构数据与所述领域本体信息之间的映射关系;通过所述领域本体信息和所述映射关系构建Karma模型。
在上述知识图谱构建方法中,优选的,通过Jena推理引擎对所述第一RDF数据进行推理补全获得第二RDF数据包含:通过Jena推理引擎分析所述第一RDF数据中各数据之间的层次关系,将所述层次关系补入所述第一RDF数据中,获得第二RDF数据。
在上述知识图谱构建方法中,优选的,通过Jena推理引擎对所述第一RDF数据进行推理补全获得第二RDF数据包含:通过OWL推理机分析所述第一RDF数据中各数据的类别信息,将所述类别信息与预定阈值比较,根据比较结果补全所述第一RDF数据中对应数据的类别信息,获得第二RDF数据。
在上述知识图谱构建方法中,优选的,基于所述领域本体信息通过Jena推理引擎对所述第一RDF数据进行推理补全获得第二RDF数据还包含:根据所述领域本体信息对所述第一RDF数据进行一致性检测,对不一致数据进行标识。
在上述知识图谱构建方法中,优选的,基于所述领域本体信息通过Jena推理引擎对所述第一RDF数据进行推理补全获得第二RDF数据还包含:获取预定的规则语言,通过Jena推理引擎的自定义规则语法将所述规则语言转化为推理规则;在所述领域本体信息约束下,根据所述推理规则分析所述第一RDF数据中各数据之间的关系,获得自定义规则关系;将所述自定义规则关系补入所述第一RDF数据中,获得第二RDF数据。
本发明还提供一种信息穿透方法,所述方法包含:获取待分析目标的注册信息数据源和网页数据源,根据所述注册信息数据源和所述网页数据源构建领域本体信息;利用所述领域本体信息构建Karma模型,并通过Karma模型对所述注册信息数据和所述网页数据信息进行数据融合分析获得第一RDF数据;基于所述领域本体信息通过Jena推理引擎对所述第一RDF数据进行补全修正后获得第二RDF数据,根据所述第二RDF数据通过Neo4j图数据库构建获得知识图谱;根据接收到的查询请求分析获得查询要素,根据所述查询要素和所述知识图谱获得所述查询请求对应目标的相关信息,将相关信息展示输出。
本发明还提供一种知识图谱构建装置,所述装置包含知识获取模块、知识融合模块和知识加工模块;所述知识获取模块用于获取待分析目标的注册信息数据源和网页数据源,根据所述注册信息数据源和所述网页数据源构建领域本体信息;所述知识融合模块用于利用所述领域本体信息构建Karma模型,并通过Karma模型对所述注册信息数据和所述网页数据信息进行数据融合分析获得第一RDF数据;所述知识加工模块用于基于所述领域本体信息通过Jena推理引擎对所述第一RDF数据进行补全修正后获得第二RDF数据,根据所述第二RDF数据通过Neo4j图数据库构建获得知识图谱。
本发明还提供一种包含上述知识图谱构建装置的信息穿透系统,所述系统还包含企业实体查询装置、法人实体查询装置和关系查询装置;所述企业实体查询装置用于根据接收到的企业名称于所述知识图谱中定位获得对应的企业信息,将所述企业信息的一个或多个关联关系通过预设标识标定后展示输出;所述法人实体查询装置用于根据接收到的法人名称于所述知识图谱中定位获得对应的法人信息,根据所述法人信息关联的一个或多个企业信息生成关系图谱并展示输出;所述关系查询装置用于根据接收到的至少两个法人名称于所述知识图谱中获得所述法人名称对应法人之间的关联关系,将所述关联关系展示输出。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
本发明的有益技术效果在于:利用知识图谱技术以企业法人为核心”将异构、多源的数据组织成一个企业关系网络,将银行孤立的客户、企业基础数据节点融合到统一的企业知识图谱中,帮助银行打破企业、法人等信息孤点,实现客户企业信息的互联互通,将银行的企业大数据高效的利用起来,进行企业集团信息穿透,解决企业集团信息壁垒问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例所提供的知识图谱构建方法的流程示意图;
图2为本发明一实施例所提供的知识图谱构建装置的结构示意图;
图3为本发明一实施例所提供的知识推理的结构示意图;
图4为本发明一实施例所提供的信息穿透系统的结构示意图;
图5为本发明一实施例所提供的以企业名称查询的结果示意图;
图6为本发明一实施例所提供的以法人查询的结果示意图;
图7为本发明一实施例所提供的以法人之间的关系查询的结果示意图;
图8为本发明一实施例所提供的电子设备的结构示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
请参考图1所示,本发明所提供的一种知识图谱构建方法,所述方法包含:
S101获取待分析目标的注册信息数据源和网页数据源,根据所述注册信息数据源和所述网页数据源构建领域本体信息;
S102利用所述领域本体信息构建Karma模型,并通过Karma模型对所述注册信息数据和所述网页数据信息进行数据融合分析获得第一RDF数据;
S103基于所述领域本体信息通过Jena推理引擎对所述第一RDF数据进行补全修正后获得第二RDF数据,根据所述第二RDF数据通过Neo4j图数据库构建获得知识图谱。
在上述实施例中,步骤S101获取待分析目标的注册信息数据源和网页数据源,根据所述注册信息数据源和所述网页数据源构建领域本体信息可包含:于所述注册信息数据源中获得注册信息数据,将所述网页数据源转化为结构化数据后获得网页数据信息;根据所述注册信息数据和所述网页数据信息分析获得两者各自的数据属性及两者之间的语义关联关系;根据所述数据属性和所述语义关联关系构建领域本体信息。
实际工作中,步骤S101的目的在于对基础数据的准备和抽取,该基础数据主要有两部分组成,一部分为工商注册信息数据,另一部分则是以企业等待分析目标为中心所获取的网页相关数据,因网页相关数据具有良好的实效性,因此可极大的丰富工商注册信息数据等原始数据;例如某集团的年营业额、世界影响、公益事业信息等,具可对原始数据予以补充和更新。其中,所述工商注册信息数据即注册信息数据是结构化的数据信息,具体可参考如下表1所示:
表1
所述网页相关数据为多源异构数据信息,在数据抽取后,将该网页相关数据转化为与企业等待分析目标相关的词条页面经过非结构化数据知识要素提取(实体抽取和关系抽取)获得对应的网页信息数据的结构化数据予以存储。具体的,在抽取数据过程中可将关系实例定义为如下形式:概念实例1两个实例间的关系概念实例2>。以海信集团有限公司的百科词条为例,可以表达成对个三元组的形式:<海信集团有限公司公司名称海信集团有限公司>、<海信集团有限公司外文名称Hisense>、<海信集团有限公司总部地址中国山东省青岛市>等。
在本发明一实施例中,利用所述领域本体信息构建Karma模型包含:根据所述注册信息数据和所述网页信息数据构建多源化结构数据;利用CRF模型学习语义分析所述多源化结构数据与所述领域本体信息之间的映射关系;通过所述领域本体信息和所述映射关系构建Karma模型。实际工作中,上述流程S102主要是利用领域本体信息构建Karma模型进行数据的集成和融合;整体可包含以下四部分:
(1)对获取到的数据集进行分析和整理,抽取出类、对象属性、数据属性等本体的相关概念,完成领域本体信息的构建。
(2)导入多数据源的结构化数据集,该方法适用导入的数据格式包括电子表格,关系数据库、JSON等。将领域本体信息和多数据源的结构化数据导入,设置字段数据列的语义类型,根据规则识别领域本体中的类、对象属性和数据属性,在领域本体和多数据源的结构化数据之间建立语义映射,解决一词多义或多词一义等语义异构问题。
(3)导入构建的领域本体信息,在Karam中利用CRF模型学习语义分析完成数据和本体概念的映射,在本体的约束下,抽取数据源中数据之间的关系,构建Karam模型。采用CRF模型去学习基于先前用户提出的数据类型,根据领域本体和数据字段识别不同字段的语义类型和数据间的映射关系,从而为未分配语义的字段推荐语义类型;Karam可以根据值域、定义域、属性等约束条件来推荐语义关系,指定语义类型之间的关系。Karam基于领域本体和所分配的语义类型之间的映射,计算出连接所有的语义类型关系的最小斯坦纳树Steiner Tree,这颗树对应着最简洁的语义模型。
(4)发布统一的RDF数据集,可以对RDF数据进行知识推理进一步挖掘隐含的知识,也可以对企业知识图谱中的数据进行补全和修正。以此,利用上层的领域本体对多源数据集进行统一集成,消除数据的格式差异、表达方式差异和语义差异,发布具有语法规范、语义清晰特性的RDF数据。
其中,所述领域本体信息是对已有的结构化数据集、网页数据集进行整体分析,结合企业知识图谱面向的特定人群,进行概念和属性的抽取,将抽取到的概念和属性之间的语义关联表示为三元组的结构,抽取的部分三元组如下所示:{公司持有股票公司;公司具有分支机构公司;公司具有法人法人;公司具有经营范围经营范围;公司具有公司状态公司状态;公司具有经营状况经营状况}、{公司具有公司中文名称公司中文名称;公司具有地址公司地址;公司具有员工人数人数值;公司具有公司简介公司简介;公司具有公司英文名称公司英文名称;法人具有法人姓名法人姓名;法人具有法人ID法人ID;公司状态具有公司规模公司规模;公司状态具有公司类型公司类型;经营状况具有总资产资产值;经营状况具有主营收入收入值}。根据如上抽取出来的三元组,得到企业法人本体主要的类和属性,具体如下表2所示。所述CRF模型学习语义是通过分析企业领域内概念和属性之间的语音关联,构建企业法人本体的RDF图。所述Karma模块是基于数据集成工具Karma完成对企业数据的快速集成,构建Karma模型描述本体与数据之间的语义映射,发布统一的RDF数据。
表2
在本发明一实施例中,步骤S103中通过Jena推理引擎对所述第一RDF数据进行推理补全获得第二RDF数据可包含:通过Jena推理引擎分析所述第一RDF数据中各数据之间的层次关系,将所述层次关系补入所述第一RDF数据中,获得第二RDF数据。在实际工作中,上述实施例中主要是针对RDF数据进行进一步完善和应用,基于企业知识图谱的RDF数据即第一RDF数据,结合企业法人本体和规则推理进一步挖掘隐含的语义知识,并且完成知识的一致性监测、类别补全和上下位推理,从而获得处理后的第二RDF数据;以便于后续通过构建解析器将第二RDF数据(已挖掘隐含的知识)导入Neo4j图数据库,实现RDF数据的存储和可视化。其中,将第一RDF数据转化为第二RDF数据主要是是采用Jena的推理引擎进行本体推理,具体实现步骤如下:
(1)Model是Jena核心的数据结构,首先要用模型工厂类创建知识库的相关信息,这包括本体和RDF三元组数据。
(2)通过推理机注册类型构建特定的推理机,将其与模型对象(Model)绑定,生成具有推理功能的模型对象(InfModel)。
(3)根据实际的业务需求,利用Jena API对已建立的数据模型进行推理和计算。包括自定义规则推理、上下位推理、缺失类别补全和一致性检测。
具体的,可以通过引入RDFS推理机,上下位关系表示的核心词汇是rdfs:subClassOf和rdfs:subPropertyOf,利用RDFS中subClassOf和subPropertyOf关键字进行本体概念之间上下位关系推理;通过引入OWL推理机,根据Jena推理引擎提供的validate接口对RDF三元组数据进行遍历,获取不一致数据的相关信息,生成检测报告并打印不一致实例的具体信息;在本体的约束下,根据Jena的自定义规则语法将自然语言转化成具体的推理规则,利用Jena API与推理机引擎进行交互,实现自定义规则推理。
在本发明一实施例中,通过Jena推理引擎对所述第一RDF数据进行推理补全获得第二RDF数据可包含:
上下位推理,即通过OWL推理机分析所述第一RDF数据中各数据的类别信息,将所述类别信息与预定阈值比较,根据比较结果补全所述第一RDF数据中对应数据的类别信息,获得第二RDF数据;
又或者,一致性检测即根据所述领域本体信息对所述第一RDF数据进行一致性检测,对不一致数据进行标识;
又或者,自定义规则推理即获取预定的规则语言,通过Jena推理引擎的自定义规则语法将所述规则语言转化为推理规则;在所述领域本体信息约束下,根据所述推理规则分析所述第一RDF数据中各数据之间的关系,获得自定义规则关系;将所述自定义规则关系补入所述第一RDF数据中,获得第二RDF数据。
在实际工作中,所述自定义推理规则可采用Jena常用的推理部分,通常包括两个步骤,首先根据领域专家或工作人员的提前分析和总结,将需要解决的具体问题描述成自然语言的形式。其次,在本体的约束下,根据Jena的自定义规则语法将自然语言转化成具体的推理规则,利用Jena API与推理引擎进行交互,实现推理过程。规则是由规则头、规则体、名称和方向四部分组成。其表示方法如下[ruleName:(?A?R1?B)(?B?R2?C)(?A?R3?C)],其中A、B、C表示类或者实例,R1、R2、R3表示对象属性或数据属性,上述规则表示通过A与B之间有R1关系,B与C有R2关系,推导出A与C之间存在R3关系;分析企业法人领域特征之后构建Jena推理的部分规则如下:
规则1:[ruleholdshare:(?x p:control?y)->(?X p:has_shares?y)];
规则2:[ruleconntrans1:(?x p:has_shares ?y)(?x p:has_shares ?z)->(?yp:conn_trans ?z)];
规则3:[ruleconntrans2:(?x p:has_branch ?y)(?y p:conn_trans ?z)->(?xp:conn_trans ?z)];
规则4:[rulebranch:(?x p:has_branch ?y)(?y p:has_branch ?z)->(?x p:has_branch ?z)];
其中,规则1表达的含义是掌控一家公司则一定是这家公司的股东。规则2某人或某公司同时是两家公司的股东,那么这两家公司存在有关联交易。规则3公司A的分支机构B与公司C存在交易,那么公司A也与C存在关联关系。规则4公司A的分支机构B具有分支机构C,那么公司A也与C存在分支机构关系。
所述上下位推理在知识图谱的应用中,它能清晰的描述出概念或实例之间的层次关系。比如,用户要查询两个概念“互联网公司”与“法人实体”,在查询的同时触发推理操作,遍历所有的三元组数据后可以得到结果:“互联网公司”与“法人实体”之间存在上下位关系。
上述实施例在实际应用环节还可加入另一种推理补全即缺失类别补全,同一实体可能被划分为不同类别,而类与类之间存在继承、包含、互斥等相互关联,因此可能会存在类别的缺失,因此在知识图谱构建过程可以通过引入OWL推理机进行缺失类别补全,针对个体类别做出完备推理,即补全该个体的所有类别。
在基于多数据源构建知识图谱的过程中,经常会出现同一实体属于两个互斥的类别(如男人和女人),或者某类实体中同一属性对应多个不同的值(如人的性别),这样就会出现知识的不一致性;为此,上述一致性检测主要是依据企业法人本体中对概念的相关约束和定义,对知识图谱中的三元组数据进行一致性检测,并对不一致数据进行标识。
传统的Neo4j图数据库是针对知识图谱的原始RDF文件进行操作,在存储性能、查询效率等各方面都不能满足大数据的需求,以及针对数据间关系的复杂性和动态变化等问题,在本发明一实施例中将RDF数据导入到Neo4j图数据库,实现RDF数据的存储和可视化,完成知识图谱的构建。
在本发明一实施例中还提供一种信息穿透方法,所述方法包含:获取待分析目标的注册信息数据源和网页数据源,根据所述注册信息数据源和所述网页数据源构建领域本体信息;利用所述领域本体信息构建Karma模型,并通过Karma模型对所述注册信息数据和所述网页数据信息进行数据融合分析获得第一RDF数据;基于所述领域本体信息通过Jena推理引擎对所述第一RDF数据进行补全修正后获得第二RDF数据,根据所述第二RDF数据通过Neo4j图数据库构建获得知识图谱;根据接收到的查询请求分析获得查询要素,根据所述查询要素和所述知识图谱获得所述查询请求对应目标的相关信息,将相关信息展示输出。在该实施例中主要利用构建好的知识图谱完成数据检索工作,例如根据用户输入的查询请求通过语义分析法或者关键字提取法获得对应的查询目标,根据所述查询目标确定所述知识图谱中对应的查询节点,再根据查询请求中的查询要求,例如关联关系或法人关系等内容以所述查询节点为中心进行进一步筛选,由此获得查询目标的相关信息。
请参考图2所示,本发明还提供一种知识图谱构建装置,所述装置包含知识获取模块2、知识融合模块3和知识加工模块4;所述知识获取模块2用于获取待分析目标的注册信息数据源和网页数据源,根据所述注册信息数据源和所述网页数据源构建领域本体信息;所述知识融合模块3用于利用所述领域本体信息构建Karma模型,并通过Karma模型对所述注册信息数据和所述网页数据信息进行数据融合分析获得第一RDF数据;所述知识加工模块4用于基于所述领域本体信息通过Jena推理引擎对所述第一RDF数据进行补全修正后获得第二RDF数据,根据所述第二RDF数据通过Neo4j图数据库构建获得知识图谱。在实际工作中,上述知识获取模块2所收集的注册信息数据源和网页数据源主要可来源于工商注册信息数据源21和百科类网页数据源22;根据工商注册信息数据源21和百科类网页数据源22分析多源异构数据集构建企业领域本体31,还可针对结构化数据导入Karma进行建模的方式获得Karma模型,具体可采用CRF学习语义类型32进行Steiner tree抽取关系来构建Karma模型33;接着利用Karma模型33发布统一的RDF数据通过前述Jena推理引擎进行知识推理41获得第二RDF数据42;最后将所述第二RDF数据42导入Neo4j图数据库43构建获得知识图谱。
请参考图3所示,在上述实施例中所述知识推理41可包含自定义规则推理411、上下位推理412、缺失类别补全413和一致性检测414四部分,各部分实现推理流程已在前述实施例中详细说明,在此就不再一一解释复述。
请参考图4所示,本发明还提供一种包含上述知识图谱构建装置的信息穿透系统,所述系统还包含企业实体查询装置51、法人实体查询装置52和关系查询装置53;所述企业实体查询装置51用于根据接收到的企业名称于所述知识图谱中定位获得对应的企业信息,将所述企业信息的一个或多个关联关系通过预设标识标定后展示输出;所述法人实体查询装置52用于根据接收到的法人名称于所述知识图谱中定位获得对应的法人信息,根据所述法人信息关联的一个或多个企业信息生成关系图谱并展示输出;所述关系查询装置53用于根据接收到的至少两个法人名称于所述知识图谱中获得所述法人名称对应法人之间的关联关系,将所述关联关系展示输出。
在上述实施例中所述信息穿透系统将异构、多源的数据组织成一个关系网络,提供从多关系角度分析问题的能力,可深层次挖掘数据背后的价值。通过系统建立企业、个人、关系、事件的关系图谱,客户经理可以通过可视化查询企业关系网络,穿透客户底层,挖掘企业最终受益人,为客户精准营销综合化服务提供决策依据。通过系统提供在客户企业群体间进行深层次关系挖掘的能力,客户经理可以利用企业知识图谱挖掘穿透企业担保链条,根据链条中企业风险情况,及时撤销链条中担保人资格,中断风险传导。
所述企业实体查询装置51是基于企业法人知识图谱,根据客户经理输入的企业名称,返回查询到的企业一维关系并以图谱的方式进行展示。通过不同的颜色的节点区分不同的实体类型,客户经理可以通过点击企业节点,逐层穿透,深入查询企业之间的关联关系,寻找营销机会推荐或风险信息揭示,如图5所示的按企业查询的知识图谱。
所述法人实体查询装置52同企业实体查询类似,是根据客户经理输入的法人名称,查询该法人相关的企业信息并以图谱的方式进行展示,客户经理可以根据兴趣指定不同的节点将图谱展开,对法人相关信息进行穿透,深入挖掘个人与法人显、隐性关联关系,寻找营销机会推荐或风险信息揭示,如图6所示的按法人查询的知识图谱。
所述关系查询装置53是针对企业之间存在的关联关系进行查询,通过指定不同企业的企业法人名称,返回连接两者之间存在的最短路径并展示相关属性,客户经理可以直观的分析企业之间的关联关系,如图7所示的企业法人之间的关系图谱。
本发明的有益技术效果在于:利用知识图谱技术以企业法人为核心”将异构、多源的数据组织成一个企业关系网络,将银行孤立的客户、企业基础数据节点融合到统一的企业知识图谱中,帮助银行打破企业、法人等信息孤点,实现客户企业信息的互联互通,将银行的企业大数据高效的利用起来,进行企业集团信息穿透,解决企业集团信息壁垒问题。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
如图8所示,该电子设备600还可以包括:通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是,电子设备600也并不是必须要包括图8中所示的所有部件;此外,电子设备600还可以包括图8中没有示出的部件,可以参考现有技术。
如图8所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制电子设备600的各个部件的操作。
其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。
输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。
存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种知识图谱构建方法,其特征在于,所述方法包含:
获取待分析目标的注册信息数据源和网页数据源,根据所述注册信息数据源和所述网页数据源构建领域本体信息;
利用所述领域本体信息构建Karma模型,并通过Karma模型对所述注册信息数据和所述网页数据信息进行数据融合分析获得第一RDF数据;
基于所述领域本体信息通过Jena推理引擎对所述第一RDF数据进行补全修正后获得第二RDF数据,根据所述第二RDF数据通过Neo4j图数据库构建获得知识图谱。
2.根据权利要求1所述的知识图谱构建方法,其特征在于,获取待分析目标的注册信息数据源和网页数据源,根据所述注册信息数据源和所述网页数据源构建领域本体信息包含:
于所述注册信息数据源中获得注册信息数据,将所述网页数据源转化为结构化数据后获得网页数据信息;
根据所述注册信息数据和所述网页数据信息分析获得两者各自的数据属性及两者之间的语义关联关系;
根据所述数据属性和所述语义关联关系构建领域本体信息。
3.根据权利要求2所述的知识图谱构建方法,其特征在于,利用所述领域本体信息构建Karma模型包含:
根据所述注册信息数据和所述网页信息数据构建多源化结构数据;
利用CRF模型学习语义分析所述多源化结构数据与所述领域本体信息之间的映射关系;
通过所述领域本体信息和所述映射关系构建Karma模型。
4.根据权利要求1所述的知识图谱构建方法,其特征在于,通过Jena推理引擎对所述第一RDF数据进行推理补全获得第二RDF数据包含:
通过Jena推理引擎分析所述第一RDF数据中各数据之间的层次关系,将所述层次关系补入所述第一RDF数据中,获得第二RDF数据。
5.根据权利要求1所述的知识图谱构建方法,其特征在于,通过Jena推理引擎对所述第一RDF数据进行推理补全获得第二RDF数据包含:
通过OWL推理机分析所述第一RDF数据中各数据的类别信息,将所述类别信息与预定阈值比较,根据比较结果补全所述第一RDF数据中对应数据的类别信息,获得第二RDF数据。
6.根据权利要求1所述的知识图谱构建方法,其特征在于,基于所述领域本体信息通过Jena推理引擎对所述第一RDF数据进行推理补全获得第二RDF数据还包含:根据所述领域本体信息对所述第一RDF数据进行一致性检测,对不一致数据进行标识。
7.根据权利要求1所述的知识图谱构建方法,其特征在于,基于所述领域本体信息通过Jena推理引擎对所述第一RDF数据进行推理补全获得第二RDF数据还包含:获取预定的规则语言,通过Jena推理引擎的自定义规则语法将所述规则语言转化为推理规则;在所述领域本体信息约束下,根据所述推理规则分析所述第一RDF数据中各数据之间的关系,获得自定义规则关系;将所述自定义规则关系补入所述第一RDF数据中,获得第二RDF数据。
8.一种信息穿透方法,其特征在于,所述方法包含:
获取待分析目标的注册信息数据源和网页数据源,根据所述注册信息数据源和所述网页数据源构建领域本体信息;
利用所述领域本体信息构建Karma模型,并通过Karma模型对所述注册信息数据和所述网页数据信息进行数据融合分析获得第一RDF数据;
基于所述领域本体信息通过Jena推理引擎对所述第一RDF数据进行补全修正后获得第二RDF数据,根据所述第二RDF数据通过Neo4j图数据库构建获得知识图谱;
根据接收到的查询请求分析获得查询要素,根据所述查询要素和所述知识图谱获得所述查询请求对应目标的相关信息,将相关信息展示输出。
9.一种知识图谱构建装置,其特征在于,所述装置包含知识获取模块、知识融合模块和知识加工模块;
所述知识获取模块用于获取待分析目标的注册信息数据源和网页数据源,根据所述注册信息数据源和所述网页数据源构建领域本体信息;
所述知识融合模块用于利用所述领域本体信息构建Karma模型,并通过Karma模型对所述注册信息数据和所述网页数据信息进行数据融合分析获得第一RDF数据;
所述知识加工模块用于基于所述领域本体信息通过Jena推理引擎对所述第一RDF数据进行补全修正后获得第二RDF数据,根据所述第二RDF数据通过Neo4j图数据库构建获得知识图谱。
10.一种包含权利要求9所述的知识图谱构建装置的信息穿透系统,其特征在于,所述系统还包含企业实体查询装置、法人实体查询装置和关系查询装置;
所述企业实体查询装置用于根据接收到的企业名称于所述知识图谱中定位获得对应的企业信息,将所述企业信息的一个或多个关联关系通过预设标识标定后展示输出;
所述法人实体查询装置用于根据接收到的法人名称于所述知识图谱中定位获得对应的法人信息,根据所述法人信息关联的一个或多个企业信息生成关系图谱并展示输出;
所述关系查询装置用于根据接收到的至少两个法人名称于所述知识图谱中获得所述法人名称对应法人之间的关联关系,将所述关联关系展示输出。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一所述方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至7任一所述方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010644740.4A CN111813956A (zh) | 2020-07-07 | 2020-07-07 | 知识图谱构建方法、装置、信息穿透方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010644740.4A CN111813956A (zh) | 2020-07-07 | 2020-07-07 | 知识图谱构建方法、装置、信息穿透方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111813956A true CN111813956A (zh) | 2020-10-23 |
Family
ID=72842364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010644740.4A Pending CN111813956A (zh) | 2020-07-07 | 2020-07-07 | 知识图谱构建方法、装置、信息穿透方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111813956A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463990A (zh) * | 2020-12-17 | 2021-03-09 | 北京国电通网络技术有限公司 | 电网基建知识图谱构造方法、装置、电子设备及存储介质 |
CN112581164A (zh) * | 2020-12-10 | 2021-03-30 | 上海明略人工智能(集团)有限公司 | 电商用户兴趣点的获取方法、系统、存储介质及电子设备 |
CN112767144A (zh) * | 2021-03-18 | 2021-05-07 | 中国工商银行股份有限公司 | 一种银行金融营销推荐方法及装置 |
CN113127650A (zh) * | 2021-05-17 | 2021-07-16 | 国网上海市电力公司 | 一种基于图数据库的技术图谱构建方法和系统 |
CN113342808A (zh) * | 2021-05-26 | 2021-09-03 | 电子科技大学 | 一种基于机电设备的知识图谱推理引擎架构系统 |
CN114003734A (zh) * | 2021-11-22 | 2022-02-01 | 四川大学华西医院 | 乳腺癌风险因素知识体系模型、知识图谱系统及构建方法 |
CN115391545A (zh) * | 2022-04-26 | 2022-11-25 | 航天宏图信息技术股份有限公司 | 一种面向多平台协同观测任务的知识图谱构建方法和装置 |
CN117556059A (zh) * | 2024-01-12 | 2024-02-13 | 天津滨电电力工程有限公司 | 一种基于知识融合与推理充电站数据的检测及矫正方法 |
CN117556059B (zh) * | 2024-01-12 | 2024-05-31 | 天津滨电电力工程有限公司 | 一种基于知识融合与推理充电站数据的检测及矫正方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284394A (zh) * | 2018-09-12 | 2019-01-29 | 青岛大学 | 一种从多源数据集成视角构建企业知识图谱的方法 |
-
2020
- 2020-07-07 CN CN202010644740.4A patent/CN111813956A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284394A (zh) * | 2018-09-12 | 2019-01-29 | 青岛大学 | 一种从多源数据集成视角构建企业知识图谱的方法 |
Non-Patent Citations (2)
Title |
---|
于小洋: ""企业法人知识图谱的构建及应用研究"", 《中国优秀硕士学位论文全文数据库》, pages 8 - 46 * |
林莉 等: ""基于企业知识图谱构建的可视化研究"", 《青岛大学学报(自然科学版)》, pages 55 - 60 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112581164A (zh) * | 2020-12-10 | 2021-03-30 | 上海明略人工智能(集团)有限公司 | 电商用户兴趣点的获取方法、系统、存储介质及电子设备 |
CN112463990A (zh) * | 2020-12-17 | 2021-03-09 | 北京国电通网络技术有限公司 | 电网基建知识图谱构造方法、装置、电子设备及存储介质 |
CN112767144A (zh) * | 2021-03-18 | 2021-05-07 | 中国工商银行股份有限公司 | 一种银行金融营销推荐方法及装置 |
CN113127650A (zh) * | 2021-05-17 | 2021-07-16 | 国网上海市电力公司 | 一种基于图数据库的技术图谱构建方法和系统 |
CN113342808A (zh) * | 2021-05-26 | 2021-09-03 | 电子科技大学 | 一种基于机电设备的知识图谱推理引擎架构系统 |
CN113342808B (zh) * | 2021-05-26 | 2022-11-08 | 电子科技大学 | 一种基于机电设备的知识图谱推理引擎架构系统 |
CN114003734A (zh) * | 2021-11-22 | 2022-02-01 | 四川大学华西医院 | 乳腺癌风险因素知识体系模型、知识图谱系统及构建方法 |
CN114003734B (zh) * | 2021-11-22 | 2023-06-30 | 四川大学华西医院 | 乳腺癌风险因素知识体系系统、知识图谱系统及构建方法 |
CN115391545A (zh) * | 2022-04-26 | 2022-11-25 | 航天宏图信息技术股份有限公司 | 一种面向多平台协同观测任务的知识图谱构建方法和装置 |
CN117556059A (zh) * | 2024-01-12 | 2024-02-13 | 天津滨电电力工程有限公司 | 一种基于知识融合与推理充电站数据的检测及矫正方法 |
CN117556059B (zh) * | 2024-01-12 | 2024-05-31 | 天津滨电电力工程有限公司 | 一种基于知识融合与推理充电站数据的检测及矫正方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111813956A (zh) | 知识图谱构建方法、装置、信息穿透方法和系统 | |
EP3819792A2 (en) | Method, apparatus, device, and storage medium for intention recommendation | |
CN109284394A (zh) | 一种从多源数据集成视角构建企业知识图谱的方法 | |
US10268645B2 (en) | In-database provisioning of data | |
KR20210141640A (ko) | 이기종 데이터 소스에 저장된 데이터의 자연어 기반 처리 방법 | |
US20160171054A1 (en) | Data discovery and description service | |
CN106407208B (zh) | 一种城市管理本体知识库的构建方法及系统 | |
US20130117202A1 (en) | Knowledge-based data quality solution | |
US20140379627A1 (en) | Domains for knowledge-based data quality solution | |
US20130117219A1 (en) | Architecture for knowledge-based data quality solution | |
US9746932B2 (en) | Gesture inferred vocabulary bindings | |
CN105468605A (zh) | 一种实体信息图谱生成方法及装置 | |
US11449477B2 (en) | Systems and methods for context-independent database search paths | |
CN111708774B (zh) | 一种基于大数据的产业分析系统 | |
CN114138985B (zh) | 文本数据处理的方法、装置、计算机设备以及存储介质 | |
CN111967761A (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
CN110888930A (zh) | 基于知识图谱的金融知识查询服务接口设计与实现方法 | |
CN113434634A (zh) | 知识图谱构建方法、装置 | |
Wongthongtham et al. | Ontology and trust based data warehouse in new generation of business intelligence: State-of-the-art, challenges, and opportunities | |
CN103390044A (zh) | 一种连锁类兴趣点数据识别方法及装置 | |
CN115640406A (zh) | 一种基于多源异构大数据分析处理与知识图谱构建方法 | |
CN114637740A (zh) | 一种基于知识表示和知识提取的新型图谱平台构建方法 | |
US20170357697A1 (en) | Using adaptors to manage data indexed by dissimilar identifiers | |
CN113407734B (zh) | 基于实时大数据的知识图谱系统的构建方法 | |
CN116467291A (zh) | 一种知识图谱存储与搜索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |