CN111125352B - 一种基于知识图谱的关联数据可视化数据驾驶舱构建方法 - Google Patents

一种基于知识图谱的关联数据可视化数据驾驶舱构建方法 Download PDF

Info

Publication number
CN111125352B
CN111125352B CN201911333622.5A CN201911333622A CN111125352B CN 111125352 B CN111125352 B CN 111125352B CN 201911333622 A CN201911333622 A CN 201911333622A CN 111125352 B CN111125352 B CN 111125352B
Authority
CN
China
Prior art keywords
index
data
indexes
graph
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911333622.5A
Other languages
English (en)
Other versions
CN111125352A (zh
Inventor
申强斌
赵霖星
段飞虎
印东敏
冯自强
张宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Original Assignee
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongfang Knowledge Network Digital Publishing Technology Co ltd filed Critical Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority to CN201911333622.5A priority Critical patent/CN111125352B/zh
Publication of CN111125352A publication Critical patent/CN111125352A/zh
Application granted granted Critical
Publication of CN111125352B publication Critical patent/CN111125352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations

Abstract

本发明公开了一种基于知识图谱的关联数据可视化数据驾驶舱构建方法,包括:提取原始数据表格中的指标数据,并按统一规范格式入库,形成指标数据库;公开出版物中提取原始表格所有的指标,并将所提取的指标作为图谱节点构建知识图谱;根据不同的指标类别构建统计图表;通过知识图谱将指标所在同一子集下的相关联的指标的统计图展示出来,构建可视化数据驾驶舱。通过对数据的整理分析来构建知识图谱以此来快速生成相关指标数据驾驶舱,减少构建驾驶舱所消耗的时间、人力物力等问题。

Description

一种基于知识图谱的关联数据可视化数据驾驶舱构建方法
技术领域
本发明涉及机器学习领域、知识图谱领域和可视化技术领域,尤其涉及一种基于知识图谱的关联数据可视化数据驾驶舱构建方法。
背景技术
随着技术的不断发展,各类机构内部产生的信息量越来越大,普通的内部系统越来越不能满足自身业务的需求,动态的直观的获取到相关信息变得越来越困难。
可视化数据驾驶舱能够将各类机构数据形象化、具体化、直观化的展现出来。通过使用常见的图表形式来展示所关心的数据信息,能够清晰的了解当前各种信息的变化情况,从而为决策提供支持。而可视化数据驾驶舱展示的数据来源是需要手工来将相关联的信息展示在可视化数据驾驶舱中的。在大量数据中找到相关数据并构建可视化数据驾驶舱比较耗时和费力。且组建可视化驾驶舱的物料可能在不同的可视化驾驶舱之中都可能会用到,重复构建会带来时间上的浪费,又浪费了不必要的体力精力,甚至有可能构建错误,导致不同可视化驾驶舱相同指标出现歧义等问题。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于知识图谱的关联数据可视化数据驾驶舱构建方法,该方法通过自动分析指标之间的相关度来构建指标知识图谱,通过指标知识图谱将指标之间的关系关联起来,在组建可视化数据驾驶舱时,通过指标知识图谱将相关指标的组件查找出来从而动态构建可视化数据驾驶舱。
本发明的目的通过以下的技术方案来实现:
一种基于知识图谱的关联数据可视化数据驾驶舱构建方法,包括:
A提取原始数据表格中的指标数据,并按统一规范格式入库,形成指标数据库;
B从公开出版物中提取原始表格所有的指标,并将所提取的指标作为图谱节点构建知识图谱;
C根据不同的指标类别构建统计图表;
D通过知识图谱将指标所在同一子集下的相关联的指标的统计图展示出来,构建可视化数据驾驶舱。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
该方法通过机器学习分析指标之间的相关度来自动构建指标知识图谱,然后为各指标构建可视化驾驶舱所需的物料,根据指标知识图谱获取相关指标物料来动态构建可视化驾驶舱。通过对数据的整理分析来构建知识图谱以此来快速生成相关指标数据驾驶舱,减少构建驾驶舱所消耗的时间、人力物力等问题。
附图说明
图1是基于知识图谱的关联数据可视化数据驾驶舱构建方法流程图;
图2是通过知识图谱关联指标构建可视化数据驾驶舱的方法流程图;
图3是由指标构建的指标知识图谱图;
图4是聚类优化后的指标知识图谱图;
图5是小麦产量走势图;
图6是查询指标后展示的驾驶舱示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为基于知识图谱的关联数据可视化数据驾驶舱构建方法流程,包括以下步骤:
步骤10提取原始数据表格中的指标数据,并按统一规范格式入库,形成指标数据库;
步骤20从公开出版物中提取原始表格所有的指标,并将所提取的指标作为图谱节点构建知识图谱;
基于同一表格中同时出现得指标具有较强的相关性这一前提来计算指标之间的关联度,例如:原始表格中的两指标在同一张表格中同时出现一次,则两指标之间相关度加1,依次遍历所有原始表格中的指标数据,计算两两指标的关联度,同时将原始表格中的未出现在图谱上的指标补充到知识图谱中,这样就形成了以关联度为权重指标为节点的指标关联度图谱。
目前这样的知识图谱是一个互相关联的指标知识图谱。我们需要聚类将其划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远。
也就是说距离较远的两个指标,它们之间边的关联度较低,距离较近的两个指标之间边的关联度较高。然后对这个图谱进行切图。让切图后不同的子图间边关联度和尽可能的低,而子图内的边关联度和尽可能的高。即子图间距离尽量较远,子图内部尽量相似。这样就完成了将原来一个大的指标知识图谱聚类为不同子集的过程。
子图的切分聚类采用的算法为谱聚类算法,具体方法为:
(1)将指标集合作为点集合V,指标之间的关联度作为两点之间的权重Wij
(2)计算每个点的度
Figure BDA0002330336050000031
(3)根据每个点的度构建度矩阵D
Figure BDA0002330336050000032
(4)利用所有点之间的权重值,得到图的邻接矩阵W;
(5)计算出拉普拉斯矩阵L=D-W;
(6)构建标准化后的拉普拉斯矩阵D-1/2LD-1/2
使用Ncut切图进行切图
RatioCut切图函数为:
Figure BDA0002330336050000041
优化目标为argmintr(HTLH)s.t.HTDH=I
进一步令H=D-1/2F则有HTLH=FTD-1/2LD-1/2F,于是优化目标变为:
arg min tr(FTD-1/2LD-1/2F)s.t.FTF=I;
(7)计算D-1/2LD-1/2最小的k1个特征值所各自对应的特征向量f;
(8)将各自对应的特征向量f组成的矩阵按行标准化,最终组成n×k1维的特征矩阵F;
(9)对F中的每一行作为一个k1维的样本,共n个样本,用输入的聚类方法进行聚类,聚类维数为k2;
(10)得到簇划分(c1,c2,c3,....,ck2)。
步骤30根据不同的指标类别构建统计图表;
将指标指定到统计图表的Y轴,将指标的其他属性(如年份)指定为统计图表的X轴来动态生成图表,生成后的图表信息挂载在对应的指标节点下。
步骤40通过知识图谱将指标所在同一子集下的相关联的指标的统计图展示出来,构建可视化数据驾驶舱;如图2所示具体包括如下步骤:
步骤401查看指定指标;
步骤402通过知识图谱统计同一子集下的相关联指标,获取到相同子集下的相关指标;
步骤403根据相关指标信息,获取到挂载在此指标下的统计图表信息;
步骤404按照一定的布局形式,将获取到的统计图表信息组建成可视化数据驾驶舱。
下面结合实施例对基于知识图谱的关联数据可视化数据驾驶舱系统进行详细说明。
将原始表格中的数据进行数据格式化统一入库。在不同的数据、不同的业务情况下,数据库的结构可能有所不同,我们这里以农业数据为例来说明一下,如表1为农业数据数据库的结构,其中属性id为每条记录的唯一标识,标明了记录的唯一性,指标名称为从原始表格中提取出来的指标名称,比如玉米产量、小麦产量等,类别是指标的分类,比如种植业、畜牧业等,时间是指标数据的年份,单位是指标信息的单位,数量是某个地域下某个时间的指标产量;
表1
Figure BDA0002330336050000051
如表2为指标数据的具体内容:
表2
Figure BDA0002330336050000052
遍历原始表格中的数据,将原始表格中的指标提取出来,在同一原始表格中出现的两两指标之间的关联度加1,两两指标在同一原始表格中出现的的次数越多,关联度的值越高。这样就形成了以指标为节点的关联度为权重的指标知识图谱如图3所示;然后使用谱聚类算法对图谱进行聚类得到最优子图如图4所示。
在获取知识图谱后,我们可以为知识图谱添加相关的物料信息,也就是和指标相关的各类统计图表,将各类统计图表挂载在知识图谱上。
比如我们为分类是种植业的指标构建了折线图,将折线图的Y轴指定显示为各指标产量,X轴指定为指标年份,这样就构建出各个指标下的不同年份的产量走势图,也就是构建了小麦产量走势图,水稻产量走势图和玉米产量走势图。小麦产量走势图示意图如图5所示。
同样的,我们也可以将X轴指定为地域,就构建了不同地域下各指标产量的统计图表。为各个指标分类构建统计图表后,将做好的统计图表挂载在对应的指标节点上,这样就完成了图谱节点的物料信息的添加,可以为后续的驾驶舱构建提供这些物料。
当图谱信息和物料信息准备完毕后,在查看某一指标的可视化数据驾驶舱时,通过图谱先定位到要查看的指标节点,然后将同一子集下的相关节点,也就是和指标关联度最高的相关指标也查找出来。在这些指标上我们又挂载了相关的统计图表。将这些指标的统计图表按一定的预定布局展示出来就形成了某一指标的可视化数据驾驶舱。以小麦产量指标为例,小麦产量所在的最优子集内部还有玉米产量和水稻产量,将这三者的统计图表按一定的预定布局展示出来就形成了可视化数据驾驶舱。可视化驾驶舱示意图如图6所示。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (3)

1.一种基于知识图谱的关联数据可视化数据驾驶舱构建方法,其特征在于,所述方法包括:
A提取原始数据表格中的指标数据,并按统一规范格式入库,形成指标数据库;
B从公开出版物中提取原始表格所有的指标,并将所提取的指标作为图谱节点构建知识图谱;
C根据不同的指标类别构建统计图表;
D通过知识图谱将指标所在同一子集下的相关联的指标的统计图展示出来,构建可视化数据驾驶舱;
步骤B中基于同一表格中同时出现的指标具有较强的相关性来计算指标之间的关联度,以关联度为权重指标为节点的指标关联度知识图谱,并将关联度知识图谱划分为两个或两个以上最优子图;
所述子图切分聚类采用谱聚类算法,包括:
将指标集合作为点集合V,指标之间的关联度作为两点之间的权重Wij
计算每个点的度
根据每个点的度构建度矩阵D
利用所有点之间的权重值,得到图的邻接矩阵W;
计算出拉普拉斯矩阵L=D-W;
构建标准化后的拉普拉斯矩阵D-1/2LD-1/2
计算D-1/2LD-1/2最小的k1个特征值所各自对应的特征向量f;
将各自对应的特征向量f组成的矩阵按行标准化,最终组成n×k1维的特征矩阵F;
对F中的每一行作为一个k1维的样本,共n个样本,用输入的聚类方法进行聚类,聚类维数为k2;
得到簇划分(c1,c2,c3,....,ck2)。
2.如权利要求1所述的基于知识图谱的关联数据可视化数据驾驶舱构建方法,其特征在于,步骤C具体包括:将指标指定到统计图表的Y轴,将指标的其他属性指定为统计图表的X轴来动态生成图表,生成后的图表信息挂载在对应的指标节点下;所述其他属性包括年份。
3.如权利要求1所述的基于知识图谱的关联数据可视化数据驾驶舱构建方法,其特征在于,步骤D具体包括:
D1查看指定指标;
D2通过知识图谱统计同一子集下的相关联指标,获取到相同子集下的相关指标;
D3根据相关指标信息,获取到挂载在此指标下的统计图表信息;
D4按照一定的布局形式,将获取到的统计图表信息组建成可视化数据驾驶舱。
CN201911333622.5A 2019-12-23 2019-12-23 一种基于知识图谱的关联数据可视化数据驾驶舱构建方法 Active CN111125352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911333622.5A CN111125352B (zh) 2019-12-23 2019-12-23 一种基于知识图谱的关联数据可视化数据驾驶舱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911333622.5A CN111125352B (zh) 2019-12-23 2019-12-23 一种基于知识图谱的关联数据可视化数据驾驶舱构建方法

Publications (2)

Publication Number Publication Date
CN111125352A CN111125352A (zh) 2020-05-08
CN111125352B true CN111125352B (zh) 2023-05-16

Family

ID=70500973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911333622.5A Active CN111125352B (zh) 2019-12-23 2019-12-23 一种基于知识图谱的关联数据可视化数据驾驶舱构建方法

Country Status (1)

Country Link
CN (1) CN111125352B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015912B (zh) * 2020-08-25 2023-07-04 杭州指令集智能科技有限公司 一种基于知识图谱的指标智能可视化方法及装置
CN112434200A (zh) * 2020-11-30 2021-03-02 北京思特奇信息技术股份有限公司 一种数据展示方法、系统及电子设备
CN116244410B (zh) * 2023-02-16 2023-10-20 北京三维天地科技股份有限公司 一种基于知识图谱和自然语言的指标数据分析方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951499A (zh) * 2017-03-16 2017-07-14 中国人民解放军国防科学技术大学 一种基于翻译模型的知识图谱表示方法
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN108228874A (zh) * 2018-01-18 2018-06-29 北京邮电大学 基于人工智能技术的通用知识图谱可视化装置及方法
CN108763333A (zh) * 2018-05-11 2018-11-06 北京航空航天大学 一种基于社会媒体的事件图谱构建方法
CN110110094A (zh) * 2019-04-22 2019-08-09 华侨大学 基于社交网络知识图谱的跨网络人物关联方法
CN110442731A (zh) * 2019-07-24 2019-11-12 中电科新型智慧城市研究院有限公司 一种基于交通管理知识图谱的交通运行管理系统
CN110457484A (zh) * 2019-06-26 2019-11-15 重庆兆光科技股份有限公司 一种基于图的逻辑表达方法、系统、介质和设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2973045A4 (en) * 2013-03-15 2017-03-08 Robert Haddock Intelligent internet system with adaptive user interface providing one-step access to knowledge
US10776965B2 (en) * 2013-07-26 2020-09-15 Drisk, Inc. Systems and methods for visualizing and manipulating graph databases
US20160328443A1 (en) * 2015-05-06 2016-11-10 Vero Analytics, Inc. Knowledge Graph Based Query Generation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951499A (zh) * 2017-03-16 2017-07-14 中国人民解放军国防科学技术大学 一种基于翻译模型的知识图谱表示方法
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN108228874A (zh) * 2018-01-18 2018-06-29 北京邮电大学 基于人工智能技术的通用知识图谱可视化装置及方法
CN108763333A (zh) * 2018-05-11 2018-11-06 北京航空航天大学 一种基于社会媒体的事件图谱构建方法
CN110110094A (zh) * 2019-04-22 2019-08-09 华侨大学 基于社交网络知识图谱的跨网络人物关联方法
CN110457484A (zh) * 2019-06-26 2019-11-15 重庆兆光科技股份有限公司 一种基于图的逻辑表达方法、系统、介质和设备
CN110442731A (zh) * 2019-07-24 2019-11-12 中电科新型智慧城市研究院有限公司 一种基于交通管理知识图谱的交通运行管理系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
数字图书馆资源知识聚合可视化模型构建研究;李洁等;《情报学报》;20161224(第12期);全文 *
面向知识图谱的知识推理研究进展;官赛萍等;《软件学报》;20180208(第10期);全文 *

Also Published As

Publication number Publication date
CN111125352A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111125352B (zh) 一种基于知识图谱的关联数据可视化数据驾驶舱构建方法
CN110618983B (zh) 基于json文档结构的工业大数据多维分析与可视化方法
CN107103050A (zh) 一种大数据建模平台及方法
AU2011224139B2 (en) Analysis of object structures such as benefits and provider contracts
CN108804513A (zh) 大数据平台的自动可视化分析方法
CN105740333A (zh) 一种可视化的广告管理平台和实现方法
CN108710628A (zh) 一种基于草图交互的面向多模态数据的可视分析方法和系统
US20230401227A1 (en) Interactive data exploration
US11481654B2 (en) Cognitive rule engine
US20190377728A1 (en) Method and system for data analysis with visualization
US11093473B2 (en) Hierarchical tree data structures and uses thereof
US20180246920A1 (en) Methods And Systems For Extracting And Visualizing Patterns In Large-Scale Data Sets
US20240095227A1 (en) Chart engine
Sheng et al. CEPV: A tree structure information extraction and visualization tool for big knowledge graph
US11580127B1 (en) User interfaces for database visualizations
JPH09218878A (ja) 情報提示装置
CN114547077A (zh) 基层政务表格数据智能处理系统及方法
Berro et al. A content-driven ETL processes for open data
JP7419200B2 (ja) 重要度解析装置、方法及びプログラム
CN114462834A (zh) 一种基于多渠道数据融合的区域画像构建方法及系统
CN108564101A (zh) 一种基于多属性聚类的数据融合方法及装置
CN117171381B (zh) 基于结构化数据表的交互式图数据构建方法、系统及装置
CN116244612B (zh) 一种基于自学习参数度量的http流量聚类方法及装置
US20230325383A1 (en) User interface for query composition and data visualization
CN113538058B (zh) 一种面向网络购物平台的多层次用户画像可视化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230403

Address after: Room B201-B203, B205-B210, 2nd Floor, Building B-2, Zhongguancun Dongsheng Science and Technology Park, No. 66 Xixiaokou Road, Haidian District, Beijing, 100192 (Dongsheng District)

Applicant after: TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLISHING TECHNOLOGY CO.,LTD.

Address before: 100084 Beijing city Haidian District Tsinghua University Tsinghua Yuan 36 zone B1410, Huaye building 1412, room 1414

Applicant before: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co.,Ltd.

Applicant before: TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLISHING TECHNOLOGY CO.,LTD.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant