CN110866123B - 基于数据模型构建数据图谱的方法及构建数据图谱的系统 - Google Patents
基于数据模型构建数据图谱的方法及构建数据图谱的系统 Download PDFInfo
- Publication number
- CN110866123B CN110866123B CN201911074301.8A CN201911074301A CN110866123B CN 110866123 B CN110866123 B CN 110866123B CN 201911074301 A CN201911074301 A CN 201911074301A CN 110866123 B CN110866123 B CN 110866123B
- Authority
- CN
- China
- Prior art keywords
- data
- classes
- model
- class
- cluster analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013499 data model Methods 0.000 title claims abstract description 24
- 238000007621 cluster analysis Methods 0.000 claims abstract description 45
- 238000013075 data extraction Methods 0.000 claims abstract description 19
- 238000013506 data mapping Methods 0.000 claims abstract description 19
- 238000010276 construction Methods 0.000 claims abstract description 16
- 238000012098 association analyses Methods 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 3
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 2
- 238000012954 risk control Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于数据模型构建数据图谱的方法及构建数据图谱的系统,属于数据图谱领域,要解决的技术问题为如何将数据以数据图谱的形式进行存储以提高数据查询效率。方法包括:对数据资源进行聚类分析;根据上述聚类分析得到的类结合不同的业务场景建立本体模型;结合场景对上述聚类分析得到的类进行关联分析,得到领域模型;对本体模型属性和数据库字段进行对应,得到数据映射关系;生成图谱数据并得到数据图谱;得到超级档案。系统包括聚类分析模块、本体模型构建模块、本体模型构建模块、领域模型构建模块、数据映射模块、数据抽取模块以及超级档案构建模块。
Description
技术领域
本发明涉及数据图谱领域,具体地说是一种基于数据模型构建数据图谱的方法及构建数据图谱的系统。
背景技术
近年来,数字经济已经成为全球经济发展的新引擎,未来也将成为中国领先全球、率先打开第四次工业革命之门的“钥匙”。以人工智能技术为基础,将大数据与业务相结合打造创新为核心的大数据应用,积极推动数字经济发展、完善社会治理、提升政府服务和监管能力正成为我国大数据产业发展的趋势。对政府来说,大数据既包括来源于跨部门、跨系统的业务数据,也包括来源于公共服务的社会数据,还包括互联网、移动互联网、物联网等来源的其他数据,如何实现这些多源、异构数据的融合和关联,进而从大数据中洞察价值,助推社会公共安全有效治理、纳税人风险尽早识别,是社会和政府共同关注的课题。对大型企业来说,随着客户集团化以及供应链、担保链、资金链的不断发展,大企业的风险模式更加复杂隐蔽,容易发生牵一发而动全身的连锁风险,传统的风险控制体系已经不足以解决多发的关联性风险,如何实现企业大数据的融合关联,真正解决企业风险控制的痛点,是企业大数据分析面临的最大挑战。当前市场对这些数据的利用还主要集中在简单的查询及报表统计等层次,人员信息、企业信息等各种数据相互之间的多级关联数据大多是存储在传统关系型数据库中,通过外键等形式建立关联关系进行查询。
这种多级关联的数据在查询时会随着关系复杂度的增加查询时间呈现几何式增长,我们查询小明的朋友会消耗0.1秒,当我们查询小明的朋友的朋友的朋友等关系时则会消耗上百倍甚至更多的时间,极为耗费资源,而且难以真正发现数据背后的隐藏价值,探索事件的“幕后黑手”。
知识图谱正在成为实现多源异构超媒体数据融合的一种关键技术。知识图谱本质上是一种语义网络,基于知识图谱技术的本体建模,本质上是为多源、异构、类型多样的大数据提供了一种高抽象概念层次的统一数据模型。基于这样一个数据模型,通过一组图谱生成工具把各种来源、异构、海量的大数据进行汇聚、融合、和关联在一起进行存储。基于知识图谱的大数据分析,实现了大数据的本质语义关联,比传统的关系型数据库更加自由多样化,能够更好地满足用户对大数据金矿的价值探索和情报发现需求。
传统关系型数据库在大数据量多级复杂关系查询时会极大的降低查询效率,而且在数据相关性、推荐算法等方面显得更加无力,严重影响数据计算分析和用户体验基于上述分析,基于上述缺陷,如何将数据以数据图谱的形式进行存储以提高数据查询效率,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供一种基于数据模型构建数据图谱的方法及构建数据图谱的系统,来解决如何将数据以数据图谱的形式进行存储以提高数据查询效率的问题。
第一方面,本发明提供一种基于数据模型构建数据图谱的方法,包括如下步骤:
S100、对数据资源进行聚类分析,将数据对象分类至不同的类或簇,得到多个类,每个类中的数据对象相似,不同类之间的数据对象相异;
S200、根据上述聚类分析得到的类结合不同的业务场景建立本体模型,每个本体模型对应一个类;
S300、结合场景对上述聚类分析得到的类进行关联分析,得到领域模型;
S400、基于本体模型与关系数据库的实体之间的对应关系,对本体模型属性和数据库字段进行对应,得到数据映射关系;
S500、基于数据映射关系,将数据抽取到图数据库中,生成图谱数据并得到数据图谱,关系型数据库中的表名对应本体模型的本体名称,关系型数据库中的字段对应本体模型的属性;
S600、对数据库中的本体模型以及本体模型之间的关系建立索引,并对数据图谱中数据对象、属性以及数据对象之间的关联关系建立以数据对象为中心的索引,得到超级档案。
作为优选,步骤S100中通过层次聚类法对数据资源进行聚类分析,包括如下步骤:
S110设定样本空间,o=[w1,w2,.......wn];
S120计算样本空间中任意两个样本点之间的距离,得到距离矩阵;
S130构造N个类,每个类的平台高度均为0;
S140依据类之间相似性度量算法选取两个类合为一个新类,并以选取的两个类之间的距离作为新类的平台高度;
S150更新类以及距离矩阵,如果类等于1,则执行步骤S150,否则执行步骤S140;
S160画聚类图;
S170决定类的个数。
作为优选,步骤S200中建立本体模型后,根据需要确定本体模型需要展示的属性。
作为优选,步骤S300中结合场景对上述聚类分析得到的类进行关联分析,并构建领域模型,包括如下步骤:
结合业务场景对上述聚类分析得到的类进行行为分析;
通过寻找概念类,将上述聚类分析得到的类绘制成UML类图中的类,建立类之间的关联关系;
通过添加属性的方法建立领域模型。
作为优选,步骤S500中借助数据抽取工具将数据抽取到图数据库中;
数据抽取工具包括但不限于NIFI、CMSP。
作为优选,步骤S600中,超级档案中提供一数据对象以档案式的超级档案信息,超级档案信息包括但不限于数据对象的属性信息、关系信息、事件信息以及文档信息。
第二方面,本发明提供一种基于数据模型构建数据图谱的系统,用于执行如第一方面任一项所述的基于数据模型构建数据图谱的方法,得到数据图谱,所述系统包括:
聚类分析模块,所述聚类分析模块用于对数据资源进行聚类分析,将数据对象分类至不同的类或簇,得到多个类,每个类中的数据对象相似,不同类之间的数据对象相异;
本体模型构建模块,所述本体模型构建模块用于根据上述聚类分析得到的类结合不同的业务场景建立本体模型,每个本体模型对应一个类;
领域模型构建模块,所述领域模型构建模块用于结合场景对上述聚类分析得到的类进行关联分析,得到领域模型;
数据映射模块,所述数据映射模块用于基于本体模型与关系数据库的实体之间的对应关系,对本体模型属性和数据库字段进行对应,得到数据映射关系;
数据抽取模块,所述数据抽取模块用于将数据抽取到图数据库中,生成图谱数据并得到数据图谱,关系型数据库中的表名对应本体模型的本体名称,关系型数据库中的字段对应本体模型的属性;
超级档案构建模块,所述超级档案构建模块用于对数据库中的本体模型以及本体模型之间的关系建立索引,并对数据图谱中数据对象、属性以及数据对象之间的关联关系建立以数据对象为中心的索引,得到超级档案。
作为优选,聚类分析模块用于通过层次聚类法对数据资源进行聚类分析,且支持如下功能:
设定样本空间;
计算样本空间中任意两个样本点之间的距离,得到距离矩阵;
构造N个类,每个类的平台高度均为0;
依据类之间相似性度量算法选取两个类合为一个新类,并以选取的两个类之间的距离作为新类的平台高度;
更新类以及距离矩阵,如果类等于1,则执行步骤S150,否则执行步骤S140;
画聚类图;
决定类的个数。
作为优选,领域模型构建模块支持如下功能:
结合业务场景对上述聚类分析得到的类进行行为分析;
通过寻找概念类,将上述聚类分析得到的类绘制成UML类图中的类,建立类之间的关联关系;
通过添加属性的方法建立领域模型。
作为优选,数据抽取模块借助数据抽取工具将数据抽取到图数据库中;
数据抽取工具包括但不限于NIFI、CMSP。
本发明的基于数据模型构建数据图谱的方法及构建数据图谱的系统具有以下优点:通过建立本体模型,采用图数据库的形式进行存储进而展现,每一个查询都会在有限范围内索引可以极大提升多关系数据的查询效率,并且数据图谱的展现形式让相关性推荐及关联度分析变得更为简单。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
附图1为实施例1基于数据模型构建数据图谱的方法的流程框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
需要理解的是,在本发明实施例中的“多个”,是指两个或两个以上。
本发明实施例提供一种基于数据模型构建数据图谱的方法及构建数据图谱的系统,用于解决如何将数据以数据图谱的形式进行存储以提高数据查询效率的技术问题。
实施例1:
本发明的一种基于数据模型构建数据图谱的方法,包括如下步骤:
S100、对数据资源进行聚类分析,将数据对象分类至不同的类或簇,得到多个类,每个类中的数据对象相似,不同类之间的数据对象相异;
S200、根据上述聚类分析得到的类结合不同的业务场景建立本体模型,每个本体模型对应一个类;
S300、结合场景对上述聚类分析得到的类进行关联分析,得到领域模型;
S400、基于本体模型与关系数据库的实体之间的对应关系,对本体模型属性和数据库字段进行对应,得到数据映射关系;
S500、基于数据映射关系,将数据抽取到图数据库中,生成图谱数据并得到数据图谱,关系型数据库中的表名对应本体模型的本体名称,关系型数据库中的字段对应本体模型的属性;
S600、对数据库中的本体模型以及本体模型之间的关系建立索引,并对数据图谱中数据对象、属性以及数据对象之间的关联关系建立以数据对象为中心的索引,得到超级档案。
其中,步骤S100中通过层次聚类法对数据资源进行聚类分析,具体包括如下分步骤:
S110设定样本空间,o=[w1,w2,.......wn];
S120计算样本空间中任意两个样本点之间的距离,得到距离矩阵;
S130构造N个类,每个类的平台高度均为0;
S140依据类之间相似性度量算法选取两个类合为一个新类,并以选取的两个类之间的距离作为新类的平台高度;
S150更新类以及距离矩阵,如果类等于1,则执行步骤S150,否则执行步骤S140;
S160画聚类图;
S170决定类的个数。
步骤S200中建立本体模型后,根据需要确定本体模型需要展示的属性。
步骤S300中结合场景对上述聚类分析得到的类进行关联分析,并构建领域模型,具体为:结合业务场景对上述聚类分析得到的类进行行为分析,通过寻找概念类,将上述聚类分析得到的类绘制成UML类图中的类,建立类之间的关联关系,通过添加属性的方法建立领域模型。如市场监管领域的类包含企业、产品、人等类,人有姓名、性别等属性,企业同产品有生产关系,企业和人有雇佣或者法人关系,这些类和关系合在一起构成了监管领域。
领域模型是一种特殊的业务模型,它分析范围是整个行业,抽象出行业里共性和内在规律性的业务进行可视化表示。它专注于分析问题领域本身,发掘重要的业务领域概念,并建立业务领域概念之间的关系。依据领域模型可构建不同模型之间的现实关系,实现对现实业务的抽象概括,每一个本体模型均是现实业务的真实写照。在本实施例中,领域模型为所有本体模型的汇总,可标识本体模型之间的关联关系。
本体模型和传统关系型数据库如Oracle、mysql等的实体具有对应关系,步骤S400中,选择好本体模型属性和数据字段进行对应,得到数据映射关系,使得数据抽取时能够以及数据映射关系进行。
步骤S500中,借助数据抽取工具如NIFI、CMSP等,将数据对象按照数据映射关系抽取到图数据库中,关系型数据库中的表名对应本体模型的名称,关系型数据库中字段对应本体模型的属性。
步骤S600中超级档案中提供一数据对象以档案式的超级档案信息,超级档案信息包括但不限于数据对象的属性信息、关系信息、事件信息以及文档信息。即可提供全息动态多维的一对象一档案式的超级档案信息,便于数据的快速检索。比如,企业的超级档案信息包含这个企业所有的属性信息,以及与这个企业相关的所有的法定代表人、董事成员、自然人股东成员、历史融资事件等全面信息,对企业名称、人员名称、关系类型等属性建立索引,提供全息、多维、动态、虚实结合的超级档案智能搜索和交互式可视化的关系探索分析能力。
实施例2:
本发明的一种基于数据模型构建数据图谱的系统,包括聚类分析模块、本体模型构建模块、本体模型构建模块、领域模型构建模块、数据映射模块、数据抽取模块以及超级档案构建模块。
聚类分析模块用于对数据资源进行聚类分析,将数据对象分类至不同的类或簇,得到多个类,每个类中的数据对象相似,不同类之间的数据对象相异。该模块用于通过层次聚类法对数据资源进行聚类分析,且支持如下功能:
(1)设定样本空间;
(2)计算样本空间中任意两个样本点之间的距离,得到距离矩阵;
(3)构造N个类,每个类的平台高度均为0;
(4)依据类之间相似性度量算法选取两个类合为一个新类,并以选取的两个类之间的距离作为新类的平台高度;
(5)更新类以及距离矩阵,如果类等于1,则执行步骤S150,否则执行步骤S140;
(6)画聚类图;
(7)决定类的个数。
本体模型构建模块用于根据上述聚类分析得到的类结合不同的业务场景建立本体模型,每个本体模型对应一个类。本体模型构建模块用于支持用户根据需要确定本体模型需要展示的属性。
领域模型构建模块用于结合场景对上述聚类分析得到的类进行关联分析,得到领域模型。该模块支持如下功能:
(1)结合业务场景对上述聚类分析得到的类进行行为分析;
(2)通过寻找概念类,将上述聚类分析得到的类绘制成UML类图中的类,建立类之间的关联关系;
(3)通过添加属性的方法建立领域模型。
数据映射模块用于基于本体模型与关系数据库的实体之间的对应关系,对本体模型属性和数据库字段进行对应,得到数据映射关系,以使得在抽取模型将数据对象抽取到图数据库时,依据数据映射关系进行数据抽取。关系型数据库诸如Oracle、mysql等。
数据抽取模块用于借助数据抽取工具NIFI、CMSP等将数据抽取到图数据库中,生成图谱数据并得到数据图谱,关系型数据库中的表名对应本体模型的本体名称,关系型数据库中的字段对应本体模型的属性。
超级档案构建模块用于对数据库中的本体模型以及本体模型之间的关系建立索引,并对数据图谱中数据对象、属性以及数据对象之间的关联关系建立以数据对象为中心的索引,得到超级档案。
本发明的一种基于数据模型构建数据图谱的系统可执行实施例1公开的一种基于数据模型构建数据图谱的方法,将数据以图谱数据的形式存储,便于快速搜索。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (7)
1.基于数据模型构建数据图谱的方法,其特征在于包括如下步骤:
S100、对数据资源进行聚类分析,将数据对象分类至不同的类或簇,得到多个类,每个类中的数据对象相似,不同类之间的数据对象相异;
S200、根据上述聚类分析得到的类结合不同的业务场景建立本体模型,每个本体模型对应一个类;
S300、结合场景对上述聚类分析得到的类进行关联分析,得到领域模型;
S400、基于本体模型与关系数据库的实体之间的对应关系,对本体模型属性和数据库字段进行对应,得到数据映射关系;
S500、基于数据映射关系,将数据抽取到图数据库中,生成图谱数据并得到数据图谱,关系型数据库中的表名对应本体模型的本体名称,关系型数据库中的字段对应本体模型的属性;
S600、对数据库中的本体模型以及本体模型之间的关系建立索引,并对数据图谱中数据对象、属性以及数据对象之间的关联关系建立以数据对象为中心的索引,得到超级档案;
步骤S200中建立本体模型后,根据需要确定本体模型需要展示的属性;
步骤S300中结合场景对上述聚类分析得到的类进行关联分析,并构建领域模型,包括如下步骤:
结合业务场景对上述聚类分析得到的类进行行为分析;
通过寻找概念类,将上述聚类分析得到的类绘制成UML类图中的类,建立类之间的关联关系;
通过添加属性的方法建立领域模型。
2.根据权利要求1所述的基于数据模型构建数据图谱的方法,其特征在于步骤S100中通过层次聚类法对数据资源进行聚类分析,包括如下步骤:
S110设定样本空间;
S120计算样本空间中任意两个样本点之间的距离,得到距离矩阵;
S130构造N个类,每个类的平台高度均为0;
S140依据类之间相似性度量算法选取两个类合为一个新类,并以选取的两个类之间的距离作为新类的平台高度;
S150更新类以及距离矩阵,如果类等于1,则执行步骤S150,否则执行步骤S140;
S160画聚类图;
S170决定类的个数。
3.根据权利要求1或2所述的基于数据模型构建数据图谱的方法,其特征在于步骤S500中借助数据抽取工具将数据抽取到图数据库中;
数据抽取工具包括但不限于NIFI、CMSP。
4.根据权利要求1或2所述的基于数据模型构建数据图谱的方法,其特征在于步骤S600中,超级档案中提供一数据对象以档案式的超级档案信息,超级档案信息包括但不限于数据对象的属性信息、关系信息、事件信息以及文档信息。
5.基于数据模型构建数据图谱的系统,其特征在于用于执行如权利要求1-4任一项所述的基于数据模型构建数据图谱的方法,得到数据图谱,所述系统包括:
聚类分析模块,所述聚类分析模块用于对数据资源进行聚类分析,将数据对象分类至不同的类或簇,得到多个类,每个类中的数据对象相似,不同类之间的数据对象相异;
本体模型构建模块,所述本体模型构建模块用于根据上述聚类分析得到的类结合不同的业务场景建立本体模型,每个本体模型对应一个类;
领域模型构建模块,所述领域模型构建模块用于结合场景对上述聚类分析得到的类进行关联分析,得到领域模型;
数据映射模块,所述数据映射模块用于基于本体模型与关系数据库的实体之间的对应关系,对本体模型属性和数据库字段进行对应,得到数据映射关系;
数据抽取模块,所述数据抽取模块用于将数据抽取到图数据库中,生成图谱数据并得到数据图谱,关系型数据库中的表名对应本体模型的本体名称,关系型数据库中的字段对应本体模型的属性;
超级档案构建模块,所述超级档案构建模块用于对数据库中的本体模型以及本体模型之间的关系建立索引,并对数据图谱中数据对象、属性以及数据对象之间的关联关系建立以数据对象为中心的索引,得到超级档案;
领域模型构建模块支持如下功能:
结合业务场景对上述聚类分析得到的类进行行为分析;
通过寻找概念类,将上述聚类分析得到的类绘制成UML类图中的类,建立类之间的关联关系;
通过添加属性的方法建立领域模型。
6.根据权利要求5所述的基于数据模型构建数据图谱的系统,其特征在于聚类分析模块用于通过通过层次聚类法对数据资源进行聚类分析,且支持如下功能:
设定样本空间;
计算样本空间中任意两个样本点之间的距离,得到距离矩阵;
构造N个类,每个类的平台高度均为0;
依据类之间相似性度量算法选取两个类合为一个新类,并以选取的两个类之间的距离作为新类的平台高度;
更新类以及距离矩阵,如果类等于1,则执行步骤S150,否则执行步骤S140;
画聚类图;
决定类的个数。
7.根据权利要求5或6所述的基于数据模型构建数据图谱的系统,其特征在于数据抽取模块借助数据抽取工具将数据抽取到图数据库中;
数据抽取工具包括但不限于NIFI、CMSP。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911074301.8A CN110866123B (zh) | 2019-11-06 | 2019-11-06 | 基于数据模型构建数据图谱的方法及构建数据图谱的系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911074301.8A CN110866123B (zh) | 2019-11-06 | 2019-11-06 | 基于数据模型构建数据图谱的方法及构建数据图谱的系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110866123A CN110866123A (zh) | 2020-03-06 |
CN110866123B true CN110866123B (zh) | 2023-10-27 |
Family
ID=69653288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911074301.8A Active CN110866123B (zh) | 2019-11-06 | 2019-11-06 | 基于数据模型构建数据图谱的方法及构建数据图谱的系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110866123B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488406B (zh) * | 2020-04-16 | 2024-02-23 | 南京安链数据科技有限公司 | 一种图数据库管理方法 |
CN111666355B (zh) * | 2020-06-12 | 2023-09-08 | 远光软件股份有限公司 | 一种领域、数据、场景三层模型的模型构建方法及装置 |
CN111797243A (zh) * | 2020-07-03 | 2020-10-20 | 中国烟草总公司湖南省公司 | 知识图谱数据系统构建方法、系统、终端及可读存储介质 |
CN112100314B (zh) * | 2020-08-16 | 2022-07-22 | 复旦大学 | 一种基于软件开发问答网站的api教程汇编生成方法 |
CN112000851B (zh) * | 2020-08-28 | 2023-03-28 | 北京计算机技术及应用研究所 | 一种键值模型、文档模型和图模型数据的统一存储方法 |
CN112181947A (zh) * | 2020-09-29 | 2021-01-05 | 浪潮云信息技术股份公司 | 一种多环节资源数据的组织方法 |
CN112256887B (zh) * | 2020-10-28 | 2022-06-24 | 福建亿榕信息技术有限公司 | 基于知识图谱的智能供应链管理方法 |
CN112800149B (zh) * | 2021-02-18 | 2023-08-08 | 浪潮云信息技术股份公司 | 基于数据血缘分析的数据治理方法及系统 |
CN113297252A (zh) * | 2021-05-28 | 2021-08-24 | 北京信息科技大学 | 一种模式无感知的数据查询服务方法 |
CN113360674A (zh) * | 2021-06-23 | 2021-09-07 | 浪潮软件科技有限公司 | 一种基于动态本体模型的认知图谱分析方法 |
CN113419719B (zh) * | 2021-06-29 | 2023-10-13 | 北京仁科互动网络技术有限公司 | 一种基于业务场景的接口用例生成方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018036239A1 (zh) * | 2016-08-24 | 2018-03-01 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
CN110297872A (zh) * | 2019-06-28 | 2019-10-01 | 浪潮软件集团有限公司 | 一种科技领域知识图谱的构建、查询方法及系统 |
-
2019
- 2019-11-06 CN CN201911074301.8A patent/CN110866123B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018036239A1 (zh) * | 2016-08-24 | 2018-03-01 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
CN110297872A (zh) * | 2019-06-28 | 2019-10-01 | 浪潮软件集团有限公司 | 一种科技领域知识图谱的构建、查询方法及系统 |
Non-Patent Citations (1)
Title |
---|
朱振华 ; 于晓昀 ; 李超 ; .基于知识图谱的人员关系预测方法研究.电脑知识与技术.2018,(28),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110866123A (zh) | 2020-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866123B (zh) | 基于数据模型构建数据图谱的方法及构建数据图谱的系统 | |
CN110781236A (zh) | 一种构建政务大数据治理体系的方法 | |
Chen et al. | The thematic and citation landscape of data and knowledge engineering (1985–2007) | |
CN107193967A (zh) | 一种多源异构行业领域大数据处理全链路解决方案 | |
CN106447346A (zh) | 一种智能电力客服系统的构建方法及系统 | |
CN113392227A (zh) | 面向轨道交通领域的元数据知识图谱引擎系统 | |
CN106484808B (zh) | 一种交通对象全息电子档案数据建模方法 | |
CN112115314A (zh) | 一种政务通用大数据聚合检索系统及构建方法 | |
CN102073701A (zh) | 一种基于语义定义的多数据源的数据查询方法 | |
CN115438199A (zh) | 一种基于智慧城市场景数据中台技术的知识平台系统 | |
Yuan et al. | Geospatial data mining and knowledge discovery | |
CN114706996A (zh) | 一种基于多元异构数据挖掘的供应链在线知识图谱构建方法 | |
CN117076463B (zh) | 一种智慧城市多源数据汇聚存储系统 | |
CN117217412B (zh) | 一种基于资源化利用的无废城市建设管理系统 | |
CN113254517A (zh) | 一种基于互联网大数据的服务提供方法 | |
CN117216109A (zh) | 一种多类型混合数据的数据查询方法、装置及存储介质 | |
Liu et al. | Female employment data analysis based on decision tree algorithm and association rule analysis method | |
CN116303336A (zh) | 一种基于数据编织架构的数据管理方法 | |
Meng et al. | Design and Implementation of Knowledge Graph Platform of Power Marketing | |
CN114036316A (zh) | 基于知识图谱可视化的智能实验室管理系统 | |
Su et al. | [Retracted] Design and Application of Intelligent Management Platform Based on Big Data | |
Liu et al. | Current status and application analysis of graph database technology | |
CN109242301A (zh) | 一种基于大数据架构的土地绩效交互式实时分析方法 | |
He et al. | Construction of Military Knowledge Graph Based on Neo4j and MongoDB | |
Jiang et al. | An object-deputy approach for chinese genealogy collaborative management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |