CN107315842A - 一种基于聚类分析的非结构化数据集可视化方法 - Google Patents

一种基于聚类分析的非结构化数据集可视化方法 Download PDF

Info

Publication number
CN107315842A
CN107315842A CN201710601728.3A CN201710601728A CN107315842A CN 107315842 A CN107315842 A CN 107315842A CN 201710601728 A CN201710601728 A CN 201710601728A CN 107315842 A CN107315842 A CN 107315842A
Authority
CN
China
Prior art keywords
data
clustering
feature
unstructured data
unstructured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710601728.3A
Other languages
English (en)
Inventor
蔡予
陈大伟
韩欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Tak Billiton Information Technology Ltd By Share Ltd
Original Assignee
Shanghai Tak Billiton Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Tak Billiton Information Technology Ltd By Share Ltd filed Critical Shanghai Tak Billiton Information Technology Ltd By Share Ltd
Priority to CN201710601728.3A priority Critical patent/CN107315842A/zh
Publication of CN107315842A publication Critical patent/CN107315842A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于聚类分析的非结构化数据集可视化方法,包括以下步骤:步骤(1)针对非结构化数据集中的内容信息特征进行存储;步骤(2)基于聚类分析对所述非结构化存储数据集进行解析,得到半结构化表信息;步骤(3)基于聚类分析得到的半结构化表信息进一步数据解析;步骤(4)基于需求选取对应维度信息,制定可视化策略,将所述展示数据进行可视化内容展示。本发明支持非结构化层次信息的可视化,通过聚类分析,可以对非结构数据节点的原始内容进行一种“所见即所得”的展示,相比于传统导入关系型数据再分析的方法,更加高效和自然。

Description

一种基于聚类分析的非结构化数据集可视化方法
技术领域
本发明涉及数据可视化技术领域,具体为一种基于聚类分析的非结构化数据集可视化方法。
背景技术
随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,各行业和个人数据量的需求增加,使得非结构化数据的数量日趋增大,非结构化数据存储系统开始流行。
针对于非结构化数据可视化领域的相关技术还未成熟,不像关系型数据库那样有很多配套的可视化管理工具,如Oracle,SQL Server和MySQL等都有相应的可视化管理工具来简化用户的操作和使用。
目前用户对非结构化数据集进行搜索,仅能获得单一独立的信息。然而大量的数据堆积,使得用户无法对信息进行概括归纳,形成有语义内容的知识,并可交互直观可视化的多维度观测,进一步高效的管理该系统。或者用户需要通过将非结构化数据转换成结构化数据,比如存入关系型数据库,或者转换成execl文件,再对其进行分析可视化,极大的浪费了用户的工作时间。
发明内容
本发明所解决的技术问题在于提供一种基于聚类分析的非结构化数据集可视化方法,以解决上述背景技术中的问题。
本发明所解决的技术问题采用以下技术方案来实现:一种基于聚类分析的非结构化数据集可视化方法,包括以下步骤:
步骤(1)针对非结构化数据集中的内容信息特征进行存储;
步骤(2)基于聚类分析对所述非结构化存储数据集进行解析,得到半结构化表信息;
步骤(3)基于聚类分析得到的半结构化表信息进一步数据解析;
步骤(4)基于需求选取对应维度信息,制定可视化策略,将所述展示数据进行可视化内容展示。
进一步地,步骤(1)中,所述非结构化数据包括:办公文档、文本、图像、XML/HTML、各类报表、视频和三维造型,所述内容信息特征包括文本的基于分词的词频特征、图像的纹理和轮廓特征、视频的关键帧特征和三维造型的投影轮廓特征;其存储方法为利用JSON格式进行存储。
进一步地,步骤(2)中,所述半结构化数据就是介于完全结构化数据和完全无结构的数据之间的数据,HTML文档就属于半结构化数据;半结构化数据是自描述的,数据的结构和内容混在一起,没有明显的区分;其解析方法为基于K-means方法将样例数据聚类成K个簇。
进一步地,所述完全结构化数据包括关系型数据库、面向对象数据库中的数据,完全无结构的数据包括声音、图像文件。
进一步地,步骤(3)中,所述数据解析包括数据过滤,筛选,聚合,内联操作得到展示数据。
进一步地,步骤(4)中,所述可视化内容展示空间为平面或三维空间,所述展示的内容包括非结构数据的原始数据和元数据项,所述元数据项包括基本属性、语义特征和应用场景;在进行可视化内容展示时提供四种节点交互功能:视图概览、移动变换、区域缩放、焦点变换和节点细节查询,以支持用户进行交互分析。
进一步地,步骤(4)中,可视化内容展示方式包括柱状图、饼图、折线图、热点图、地图、雷达图、热力图、K线图、关系图、树形图、箱线图、平行坐标图、仪表盘图、标签云图、漏斗图。
与已公开技术相比,本发明存在以下优点:1)本发明支持非结构化层次信息的可视化,通过聚类分析,可以对非结构数据节点的原始内容进行一种“所见即所得”的展示,相比于传统导入关系型数据再分析的方法,更加高效和自然。
2)本发明基于聚类分析对非结构化数据进行一种信息重构,相比于传统基于文件夹目录树的组织模式,能够更客观的体现数据的语义关联,能够更好的体现用户的交互意图。
3)本发明采用多维的可视化布局,可以进行多方位信息展示,并且拥有多种交互方法,可以让用户从不同侧面对非结构化数据存储仓库中包含的元数据项进行观察和分析。
附图说明
图1为本发明的系统流程示意图。
图2为本发明的具体实施例所提出的一种聚类分析后的可视化散点展示图。
具体实施方式
为了使本发明的技术手段、创作特征、工作流程、使用方法达成目的与功效易于明白了解,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1、图2所示,一种基于聚类分析的非结构化数据集可视化方法,包括以下步骤:
步骤(1)针对非结构化数据集中的内容信息特征进行存储,比如利用JSON格式进行存储。
本发明的方法使用的非结构化数据包括文本、图像、视频等数据类型,以及三维造型等广义非结构化数据。数据内容体现为数据节点特征,如文本基于分词的词频特征、图像的纹理和轮廓特征、视频的关键帧特征和三维造型的投影轮廓特征等。存储类型可以是JSON文件
步骤(2)基于聚类分析对所述非结构化存储数据进行解析,得到半结构化表信息;比如基于K-means方法将样例数据聚类成K个簇
本步骤所生成的半结构化数据就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。
步骤(3)针对基于聚类分析得到的半结构化表信息进行进一步解析操作,如字段解析,数据统计,最大值、最小值和平均值,得到进一步的展示数据;
步骤(4)根据需求选取对应数据维度,拖拽到对应图表、地图、控件、组件的坐标轴进行绑定;进一步根据可视化内容展示选择图表、地图、控件、组件拖拽到画布;添加交互设置。
本步骤所述的可视化策略包括图表库、控件库和地理信息系统(GIS)。图表库支持多种图表类型,图表类型包括柱形图、条形图、折线图、饼图、面积图、组合图、仪表盘和矢量地图,控件库包括文本框、单选框、复选框、图片、线条、下拉框、滑动条、下拉列表、按钮、列表。地理信息系统(GIS,Geographic Information System)是一门综合性学科,结合地理学与地图学以及遥感和计算机科学,已经广泛的应用在不同的领域,是用于输入、存储、查询、分析和显示地理数据的计算机系统,GIS是一种基于计算机的工具,它可以对空间信息进行分析和处理(简而言之,是对地球上存在的现象和发生的事件进行成图和分析)。GIS技术把地图这种独特的视觉化效果和地理分析功能与解析后的数据(例如查询和统计分析等)集成在一起。
本发明支持非结构化数据节点内容的直观呈现;支持非结构化数据元数据项如物理属性、语义特征、应用场景的展示;支持数据节点之间基于内容的语义关联分析;支持一种焦点+文本内容的展示方式;支持可视形态的焦点转移、视图旋转缩放等交互操作。
本发明对非结构化数据集进行聚类分析后,可以得到半结构化数据信息,半结构化数据就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。通过对基于聚类分析得到的半结构化数据集进行解析后,进行可视化展示,帮助用户发现海量的非结构化层次信息中隐藏的规律和模式,辅助用户认知和决策。
以上显示和描述了本发明的基本原理、主要特征及本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明的要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.一种基于聚类分析的非结构化数据集可视化方法,其特征在于:包括以下步骤:
步骤(1)针对非结构化数据集中的内容信息特征进行存储;
步骤(2)基于聚类分析对所述非结构化存储数据集进行解析,得到半结构化表信息;
步骤(3)基于聚类分析得到的半结构化表信息进一步数据解析;
步骤(4)基于需求选取对应维度信息,制定可视化策略,将所述展示数据进行可视化内容展示。
2.根据权利要求1所述的一种基于聚类分析的非结构化数据集可视化方法,其特征在于:步骤(1)中,所述非结构化数据包括:办公文档、文本、图像、XML/HTML、各类报表、视频和三维造型,所述内容信息特征包括文本的基于分词的词频特征、图像的纹理和轮廓特征、视频的关键帧特征和三维造型的投影轮廓特征;其存储方法包括利用JSON格式进行存储。
3.根据权利要求1所述的一种基于聚类分析的非结构化数据集可视化方法,其特征在于:步骤(2)中,所述半结构化数据就是介于完全结构化数据和完全无结构的数据之间的数据,HTML文档就属于半结构化数据;半结构化数据是自描述的,数据的结构和内容混在一起,没有明显的区分;其解析方法包括基于K-means方法将样例数据聚类成K个簇。
4.根据权利要求3所述的一种基于聚类分析的非结构化数据集可视化方法,其特征在于:所述完全结构化数据包括关系型数据库、面向对象数据库中的数据,完全无结构的数据包括声音、图像文件。
5.根据权利要求1所述的一种基于聚类分析的非结构化数据集可视化方法,其特征在于:步骤(3)中,所述数据解析包括数据过滤,筛选,聚合,内联操作得到展示数据。
6.根据权利要求1所述的一种基于聚类分析的非结构化数据集可视化方法,其特征在于:步骤(4)中,所述可视化内容展示空间为平面或三维空间,所述展示的内容包括非结构数据的原始数据和元数据项,所述元数据项包括基本属性、语义特征和应用场景;在进行可视化内容展示时提供四种节点交互功能:视图概览、移动变换、区域缩放、焦点变换和节点细节查询,以支持用户进行交互分析。
7.根据权利要求1所述的一种基于聚类分析的非结构化数据集可视化方法,其特征在于:步骤(4)中,可视化内容展示方式包括柱状图、饼图、折线图、热点图、地图、雷达图、热力图、K线图、关系图、树形图、箱线图、平行坐标图、仪表盘图、标签云图、漏斗图。
CN201710601728.3A 2017-07-21 2017-07-21 一种基于聚类分析的非结构化数据集可视化方法 Pending CN107315842A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710601728.3A CN107315842A (zh) 2017-07-21 2017-07-21 一种基于聚类分析的非结构化数据集可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710601728.3A CN107315842A (zh) 2017-07-21 2017-07-21 一种基于聚类分析的非结构化数据集可视化方法

Publications (1)

Publication Number Publication Date
CN107315842A true CN107315842A (zh) 2017-11-03

Family

ID=60179113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710601728.3A Pending CN107315842A (zh) 2017-07-21 2017-07-21 一种基于聚类分析的非结构化数据集可视化方法

Country Status (1)

Country Link
CN (1) CN107315842A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108817A (zh) * 2017-12-08 2018-06-01 武夷学院 一种基于树结构和网络结构的认知结构可视化方法
CN108460087A (zh) * 2018-01-22 2018-08-28 北京邮电大学 探索式高维数据可视化装置及方法
CN109241144A (zh) * 2018-04-24 2019-01-18 中国银行股份有限公司 一种运维数据挖掘及合规检查方法与系统
CN109446247A (zh) * 2018-09-12 2019-03-08 石家庄铁道大学 科技创新类数据可视化分析与展示方法
CN109446384A (zh) * 2018-10-31 2019-03-08 厦门市美亚柏科信息股份有限公司 用于生成人员组织架构信息的方法和系统
CN115934492A (zh) * 2023-01-09 2023-04-07 中兴系统技术有限公司 一种基于智能运维平台大数据的数据采集方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923549A (zh) * 2009-07-29 2010-12-22 北京航天理想科技有限公司 自定义可视化智能轨迹线索分析系统及建立方法
CN102663089A (zh) * 2012-04-09 2012-09-12 中国科学院软件研究所 一种基于球极映射的非结构化数据可视化方法
CN104809634A (zh) * 2015-05-11 2015-07-29 中国旅游研究院 旅游数据调研与监测系统
CN105022733A (zh) * 2014-04-18 2015-11-04 中科鼎富(北京)科技发展有限公司 Dinfo-oec文本分析挖掘方法与设备
US20160196564A1 (en) * 2015-01-05 2016-07-07 Saama Technologies Inc. Systems and methods for analyzing consumer sentiment with social perspective insight
US9672279B1 (en) * 2014-09-30 2017-06-06 EMC IP Holding Company LLC Cluster labeling system for documents comprising unstructured text data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923549A (zh) * 2009-07-29 2010-12-22 北京航天理想科技有限公司 自定义可视化智能轨迹线索分析系统及建立方法
CN102663089A (zh) * 2012-04-09 2012-09-12 中国科学院软件研究所 一种基于球极映射的非结构化数据可视化方法
CN105022733A (zh) * 2014-04-18 2015-11-04 中科鼎富(北京)科技发展有限公司 Dinfo-oec文本分析挖掘方法与设备
US9672279B1 (en) * 2014-09-30 2017-06-06 EMC IP Holding Company LLC Cluster labeling system for documents comprising unstructured text data
US20160196564A1 (en) * 2015-01-05 2016-07-07 Saama Technologies Inc. Systems and methods for analyzing consumer sentiment with social perspective insight
CN104809634A (zh) * 2015-05-11 2015-07-29 中国旅游研究院 旅游数据调研与监测系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108817A (zh) * 2017-12-08 2018-06-01 武夷学院 一种基于树结构和网络结构的认知结构可视化方法
CN108460087A (zh) * 2018-01-22 2018-08-28 北京邮电大学 探索式高维数据可视化装置及方法
CN109241144A (zh) * 2018-04-24 2019-01-18 中国银行股份有限公司 一种运维数据挖掘及合规检查方法与系统
CN109241144B (zh) * 2018-04-24 2022-02-08 中国银行股份有限公司 一种运维数据挖掘及合规检查方法与系统
CN109446247A (zh) * 2018-09-12 2019-03-08 石家庄铁道大学 科技创新类数据可视化分析与展示方法
CN109446247B (zh) * 2018-09-12 2022-08-30 石家庄铁道大学 科技创新类数据可视化分析与展示方法
CN109446384A (zh) * 2018-10-31 2019-03-08 厦门市美亚柏科信息股份有限公司 用于生成人员组织架构信息的方法和系统
CN115934492A (zh) * 2023-01-09 2023-04-07 中兴系统技术有限公司 一种基于智能运维平台大数据的数据采集方法

Similar Documents

Publication Publication Date Title
CN107315842A (zh) 一种基于聚类分析的非结构化数据集可视化方法
US9563674B2 (en) Data exploration user interface
US8972443B2 (en) Distributed platform for network analysis
WO2015060893A1 (en) Systems and methods for interest-driven data visualization systems utilizing visualization image data and trellised visualizations
CN106354760A (zh) 基于变形统计地图的多视图时空数据可视化方法与应用
CN108446381A (zh) 一种基于Web的数据可视化系统与方法
CN110019555A (zh) 一种关系数据语义化建模方法
Trame et al. Exploring the lineage of volunteered geographic information with heat maps
US20190286669A1 (en) Search system, apparatuse, and method
Cruz et al. A visual approach to multimedia querying and presentation
JPH1049544A (ja) 視覚的多次元データ分析支援方法及び装置
Sebillo et al. The metaphor GIS query language
Laxmaiah et al. A conceptual metadata framework for spatial data warehouse
US20050120027A1 (en) Method and device for presenting, managing and exploiting graphical queries in data management systems
Agugiaro et al. 7.2 3D GIS for cultural heritage sites: The queryarch3d prototype
Massari et al. Virgilio: A non-immersive VR system to browse multimedia databases
Sabol et al. Visual knowledge discovery in dynamic enterprise text repositories
Liao et al. Application study of information visualization in digital library
Shi et al. A new interactive information visualization framework based on the object-oriented views of querying and visualizing databases
Massari et al. Virtual reality systems for browsing multimedia
Cong-cong et al. Notice of Retraction: Study of Image Display with NetCDF Data on WebGIS
Schneider GIS functionality in multimedia atlases: spatial analysis for everyone
van Oosterom et al. Spatial, thematic, and temporal views
Frye et al. Modeling active database-driven cartography within GIS databases
Abdalla et al. A unified approach for spatial data query

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171103

RJ01 Rejection of invention patent application after publication