CN112612933B - 一种分类数据可视化方法 - Google Patents

一种分类数据可视化方法 Download PDF

Info

Publication number
CN112612933B
CN112612933B CN202110010234.4A CN202110010234A CN112612933B CN 112612933 B CN112612933 B CN 112612933B CN 202110010234 A CN202110010234 A CN 202110010234A CN 112612933 B CN112612933 B CN 112612933B
Authority
CN
China
Prior art keywords
content
data
coordinates
class
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110010234.4A
Other languages
English (en)
Other versions
CN112612933A (zh
Inventor
李海卜
张振海
陈海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academic Journals Electronic Publishing House Co ltd
Tongfang Knowledge Network Beijing Technology Co ltd
Original Assignee
China Academic Journals Electronic Publishing House Co ltd
Tongfang Knowledge Network Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academic Journals Electronic Publishing House Co ltd, Tongfang Knowledge Network Beijing Technology Co ltd filed Critical China Academic Journals Electronic Publishing House Co ltd
Priority to CN202110010234.4A priority Critical patent/CN112612933B/zh
Publication of CN112612933A publication Critical patent/CN112612933A/zh
Application granted granted Critical
Publication of CN112612933B publication Critical patent/CN112612933B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分类数据可视化方法,包括:基于词向量技术获取内容初始坐标;根据内容初始坐标计算并调整分类的坐标,生成类位置坐标;利用类位置及其内容所确定的区域,调整内容在分类内的坐标并确定;根据确定的内容坐标,生成相应的类的多边形表示,即生成分类边界,并依次由子类边界合成父类边界,直至合成整个分类数据的边界;将分类和内容按缩放需要计算相应的分类和标题缩放区间,并将数据内容分层,分配相应的缩放层级;将数据导入支持空间索引的数据库中,配合地图服务即可在前端以地图的交互方式可视化分类数据。

Description

一种分类数据可视化方法
技术领域
本发明涉及数字出版技术领域,尤其涉及一种分类数据可视化方法。
背景技术
传统的文献检索通常是首先输入要检索的关键词,再进行检索。随着知识的爆炸式增长,各种新的概念层出不穷,有时候人们无法准确描述需要检索的内容。另一方面,有时候人们只是想了解所关心领域当前的热门概念,或者只是想随意浏览下所关心领域的相关知识。此外,有时候人们可能期望找到更多的知识隐含的关联关系,以期望实现知识创新。以上需求都要求有一种简单直观的交互方式为用户展示所感兴趣的领域知识以及知识之间的关联关系,辅助用户快速获取信息,甚至是揭示隐含的知识。
知识通常以分类的形式进行组织,而分类通常具有层次结构,例如领域词表中的上下位关系,领域本体中的子类关系,中图分类法中的按学科领域的划分等。
可视化采用不同的视觉符号来表示不同类型的关系,这决定了层次数据可视化的两种主要方法。
节点链接法:将单个个体绘制成一个节点,节点之间的连线表示个体之间的层次关系。代表技术有空间树,锥形树等。这种方法直观清晰,特别擅长于表示承接的层次关系。但是,当个体数目太多,特别是广度和深度相差较大时,节点链接方法的可读性较差——大量数据点聚集在屏幕局部范围,难以较高地利用有限的屏幕空间。
空间填充法:用空间中的分块区域表示数据中的个体,并用外层区域对内层区域的包围表示彼此之间的层次关系。其中的代表方法是树图。和节点链接法相比,这种方法更适合于显示包含和从属的关系,且具有高效的屏幕空间利用率,可呈现更多的数据。此方法的缺点在于数据中的层次信息表达不如节点链接法清晰。
地图是一种典型的利用空间填充法表示地理空间数据的方式,通过区域包含表示地理范围的包含关系,通过点或者面表征地理位置上的具体特征,通过线来表示地理位置的连接关系。近年来,随着谷歌地图、百度地图等典型的基于Web的GIS系统的普及,特别是移动互联网的到来,使得地图已经成为一种人们日常使用频次很高的应用。本发明参照WebGIS的交互形式,将具有树形结构分类的知识放到地图中,用户可以使用拖拽,缩放等简单的交互手段快速浏览知识点,而不用手动输入相应的检索。地图也是一种树形导航系统,不同于普通的树形导航,地图不但可以显示类信息,而且可以将分类的内容显示出来,由于采用的分层、分区域按需加载的方式,地图可以支持大规模数据的应用。同时,地图还可以支持叠加各种应用图层和交互特效,例如数据上的统计视图。最后,通过分类间的临近关系,包含关系,通过词直接的临近关系,关联关系,通过类和词之间的包含关系,可以直观地揭示出知识之间的关系,甚至是某些隐含关系。
发明内容
为解决上述技术问题,本发明的目的是提供一种分类数据可视化方法,该方法将分类数据变换成空间数据,进而导入空间数据库中,再对接地图服务,实现了一种以地图的交互方式可视化分类数据的方法。
本发明的目的通过以下的技术方案来实现:
一种分类数据可视化方法,包括:
A基于词向量技术获取内容初始坐标;
B根据内容初始坐标计算并调整分类的坐标,生成类位置坐标;
C利用类位置及其内容所确定的区域,调整内容在分类内的坐标并确定;
D根据确定的内容坐标,生成相应的类的多边形表示,即生成分类边界,并依次由子类边界合成父类边界,直至合成整个分类数据的边界;
E将分类和内容按缩放需要计算相应的分类和标题缩放区间,并将数据内容分层,分配相应的缩放层级;
F将数据导入支持空间索引的数据库中,配合地图服务即可在前端以地图的交互方式可视化分类数据。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
该分类数据可视化方法尤其适用于大规模分类数据可视化的场景,特别是当分类层次过深,分类中内容过多时。上述优点也是空间填充法的优点,采用一般的节点链接法很难有效地可视化大规模分类数据,而通过空间填充法,更具体地,通过地图的形式,可以充分而高效地利用屏幕空间,基于地图上缩放的交互方式,巧妙地实现大规模数据可视化。如果缩放区间足够多,再结合相应的缓存技术,该方法所能可视化的分类数据规模几乎是没有上限的,因为缩放的交互方式使特定时刻屏幕所需展现的内容始终是可控有限的。
该分类数据可视化方法实现了一种任意分类数据转换为空间数据的有效方法,从而可以保证方法的广泛适用性。该分类数据可视化方法利用分类中内容的词向量生成初始坐标,再基于物理引擎对于力与运动的模拟,将内容视为物体,最终得到分类数据的空间坐标。该方法对于适用于任意内容以词为载体的分类数据。
该分类数据可视化方法可以在一定程度上可视化分类及其内容的关联关系。得益于自然语言处理中的词向量技术,内容的初始坐标能够大概率地将相近的概念放在一起,而之后基于物理引擎的调整,基本维持了内容间的相对方位关系,因此无论是分类的位置,还是内容的位置,都在一定程度上可以揭示相近或者相关概念。
该分类数据可视化方法为在分类数据上进一步可视化数据之间的关联、数据蕴含的其他相关信息提供了基础。例如,在中图分类法的地图上,可以叠加文献发文趋势的统计数据图层,从而揭示当前的研究热点。再如,可以通过内容之间的共现关联,找到不同内容之间的“路径”,从而为研究人员发现事物之间潜在的联系提供可视化工具。
附图说明
图1是分类数据可视化方法流程图;
图2是生成内容初始坐标示例;
图3是生成类位置坐标示例;
图4是调整分类内容位置后的示例;
图5是生成并合成分类边界示例;
图6是支持缩放的地图服务示例。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为分类数据可视化方法流程,包括:
步骤10基于词向量技术获取内容初始坐标;
步骤20根据内容初始坐标计算并调整分类的坐标,生成类位置坐标;
步骤30利用类位置及其内容所确定的区域,调整内容在分类内的坐标并确定;
步骤40根据确定的内容坐标,生成相应的类的多边形表示,即生成分类边界,并依次由子类边界合成父类边界,直至合成整个分类数据的边界;
步骤50将分类和内容按缩放需要计算相应的分类和标题缩放区间,并将数据内容分层,分配相应的缩放层级;
步骤60将数据导入支持空间索引的数据库中,配合地图服务即可在前端以地图的交互方式可视化分类数据。
上述步骤10具体包括:
生成内容初始坐标,一般通过自然语言处理中的词向量技术实现。利用词向量技术生成,并通过降维技术将词向量降到二维,避免降维后的二维坐标离群或者两个坐标过近,因此对坐标进行一次调整,该调整通过计算所涉及的所有坐标的中心点,利用物理引擎,通过力的作用进行扩散及聚合,最终得到的坐标即为内容初始坐标。基于词向量技术初始化的坐标具有较好的可解释性,能够做到相关概念的位置较为接近,从而达到可视化揭示内容关联的目的。典型的词向量技术有:word2vec,glove,ELMo和Bert等。
通常词向量是高维的,要做到有效地可视化,需要降到二维或者三维。典型的降维方法是t-SNE。
通常,降维后的数据还不能直接用于后续处理,主要原因在于内容的坐标可能过远或者过近。如果过远,分类内容会覆盖过大的空间,但在空间内的实际内容过于稀疏,而且会和其他分类覆盖的空间产生交集;如果过近,在后期可视化时,如果考虑内容重叠问题,可能需要放大很多级才能完全显示,甚至需要放大到最底层。因此,在降维后,通常需要借助物理引擎对内容的坐标做一次扩散和聚合操作,让同一个分类中的内容既保持相对的紧凑,又不至于过近。物理引擎使用一个刚体球来模拟一个关键词,利用刚体碰撞后不会重叠的特性使内容扩散开,然后给每个内容刚体一个向心力,使其向中间汇聚。如图2所示为生成内容初始坐标的示例,其中每个点代表具体内容。
上述步骤20生成类位置坐标基于步骤10生成的内容初始坐标进行计算,典型的计算方法是计算内容的中心坐标作为类位置坐标。
同时,依据类中内容的坐标,可以确定类的范围,以一定半径的圆表示;对类位置进行调整,同理,由于分类的位置在空间上可能过远或者过近,亦需要对分类位置进行一定地调整。同样基于物理引擎,使用一个刚体球来模拟一个分类,利用刚体碰撞后不会重叠的特性使分类扩散开,然后给每个分类刚体一个向心力,使其向中间汇聚。如图3所示为生成类位置坐标示例,其中每个圆代表一个具体分类,相应圆心即为其位置。
上述步骤30为调整内容坐标,在确定类位置坐标后,由于类是作为一个圆形物体进行建模,在物理引擎作用下趋于相对稳定后,在类之间会产生大量空隙,因此需打破圆形的概念边界,利用分类圆之间的中分线可以计算出包含分类圆的多边形边界,分类之间由圆形产生的间隙基本被多边形覆盖,通过作用力的模拟使内容扩散填充类间空隙,此时让分类内容在多边形内自由扩散,在保证分类内容不越过多边形边界的前提下尽量填充多边形区域,最终得到内容坐标。如图4所示是调整分类内容位置后的示例。
上述步骤40生成并合并分类边界,基于步骤30生成的内容坐标,即可生成分类边界。典型的生成分类边界的方法是构造泰森多边形,通过分类内容的泰森多边形边界即可生成分类的边界。由于分类通常具有层次结构,再将内容进行分层,使其能够随着分类的缩放逐步展示;所述内容分层依据内容权重,以保证权重高的内容率先显示。需要根据所有子类的边界进一步合成父类的边界。以此类推,可以合成所有分类的边界,直至根类。如图5是生成并合并分类边界示例。
上述步骤50计算缩放区间,内容数据分层具体包括:为了实现地图上的缩放操作,需要对分类计算缩放区间,如果有分类标题,还需要进一步计算标题的位置和缩放区间。在分类多边形内部查找一块较大的矩形区域,以矩形的中心作为标题位置,根据标题是否可在多边形内显示确定标题最小缩放值。之后,需要依据缩放区间对内容数据分层,将数据分布到不同的缩放区间中,使其能够随着分类的缩放逐步展示,从而实现地图上缩放操作时加载不同数据的需要,所述内容分层依据内容权重,以保证权重高的内容率先显示。
上述步骤60对接地图服务,地图是分类数据最终的可视化交互形式,如图6是支持缩放的地图服务示例。在步骤50之后,即可生成地图所需的空间数据,将该数据导入空间数据库中,所谓空间数据库一般指支持空间索引和空间运算,例如MySQL。生成的数据包括分类的边界数据、内容的坐标数据、缩放区间数据、类标题数据及地理特征数据。
地图显示内容主要包括分类多边形、分类标题、关键词、检索结果等,相应的后端需要提供分类多边形图层服务,分类标题图层服务,关键词图层服务以及关键词检索服务等。
在地图服务前端,负责地图的绘制及基础操作交互,例如采用Canvas进行绘制,响应拖拽、缩放、内容检索等基本操作。
为了实现较好的前端性能,通常在加载数据时需要采用一定的预取缓存技术,即预加载一部分视图框周边的数据,在缩放和拖动的过程中,在视图区域未超出数据区之前加载数据。
为了实现更好地揭示数据关联或者潜在知识的目的,通常需要在地图上增加更为丰富的可视化功能。例如统计数据图层,再如内容直接的关联路径。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (6)

1.一种分类数据可视化方法,其特征在于,所述方法包括以下步骤:
A基于词向量技术获取内容初始坐标;
B根据内容初始坐标计算并调整分类的坐标,生成类位置坐标;
C利用类位置及其内容所确定的区域,调整内容在分类内的坐标并确定;
D根据确定的内容坐标,生成相应的类的多边形表示,即生成分类边界,并依次由子类边界合成父类边界,直至合成整个分类数据的边界;
E将分类和内容按缩放需要计算相应的分类和标题缩放区间,并将数据内容分层,分配相应的缩放层级;
F将数据导入支持空间索引的数据库中,配合地图服务即可在前端以地图的交互方式可视化分类数据;
所述步骤B中生成的类位置坐标具体包括:类位置由类中内容的位置决定,因此用内容的中心位置表征类的中心位置,以类中内容确定类的范围半径;对类位置进行调整,利用物理引擎,将分类看作运动的物体,在力的作用下经过扩散及聚合,最终达到稳定的状态,得到类位置坐标即类中心位置;
所述步骤C中通过作用力的模拟使内容扩散填充类间空隙,维持了内容间的相对方位关系,最终得到分类数据的空间坐标。
2.如权利要求1所述的分类数据可视化方法,其特征在于,所述步骤A具体包括:利用词向量技术生成,并通过降维技术将词向量降到二维,避免降维后的二维坐标离群或者两个坐标过近,因此对坐标进行一次调整,该调整通过计算所涉及的所有坐标的中心点,利用物理引擎,通过力的作用进行扩散及聚合,最终得到的坐标即为内容初始坐标。
3.如权利要求1所述的分类数据可视化方法,其特征在于,所述步骤D具体包括:依据步骤C中所确定的内容坐标,利用泰森多边形即可生成相应的类的多边形表示,即构成分类边界,由于数据是层次化的分类数据,需要自底向上基于子类合成父类边界,直至合成整个分类的边界。
4.如权利要求1所述的分类数据可视化方法,其特征在于,所述步骤E中计算标题缩放区间、数据内容分层具体包括:对步骤D中生成的分类边界,确定相应的缩放区间,如果分类有标题,计算相应标题的位置与缩放区间,再将内容进行分层,使其能够随着分类的缩放逐步展示;所述内容分层依据内容权重,以保证权重高的内容率先显示。
5.如权利要求1所述的分类数据可视化方法,其特征在于,所述步骤F具体包括:将生成的数据导入空间数据库中,即可进行空间运算,从而编制相应的后台服务,配合绘图技术以地图服务的形式进行数据可视化交互,可视化交互操作包括缩放、拖拽与要素检索。
6.如权利要求1或5所述的分类数据可视化方法,其特征在于,所述数据包括分类的边界数据、内容的坐标数据、缩放区间数据、类标题数据及地理特征数据。
CN202110010234.4A 2021-01-05 2021-01-05 一种分类数据可视化方法 Active CN112612933B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110010234.4A CN112612933B (zh) 2021-01-05 2021-01-05 一种分类数据可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110010234.4A CN112612933B (zh) 2021-01-05 2021-01-05 一种分类数据可视化方法

Publications (2)

Publication Number Publication Date
CN112612933A CN112612933A (zh) 2021-04-06
CN112612933B true CN112612933B (zh) 2024-03-26

Family

ID=75253320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110010234.4A Active CN112612933B (zh) 2021-01-05 2021-01-05 一种分类数据可视化方法

Country Status (1)

Country Link
CN (1) CN112612933B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656653B (zh) * 2021-10-18 2022-02-18 远江盛邦(北京)网络安全科技股份有限公司 网络疆域地图的构建方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495877A (zh) * 2011-12-05 2012-06-13 中国科学院地理科学与资源研究所 一种湖泊营养物生态分区边界识别的技术方法
CN105787002A (zh) * 2016-02-22 2016-07-20 上海新炬网络技术有限公司 一种基于业务的地图多层级显示方法
CN108319733A (zh) * 2018-03-29 2018-07-24 华中师范大学 一种基于地图的教育大数据分析方法及系统
CN109977179A (zh) * 2019-02-19 2019-07-05 中电海康集团有限公司 一种分层的网格划分实现海量地物标记点聚散可视化方法
CN110677810A (zh) * 2018-07-03 2020-01-10 百度在线网络技术(北京)有限公司 用于生成地理围栏的方法和装置
CN110765219A (zh) * 2019-08-05 2020-02-07 上海晶赞融宣科技有限公司 地理围栏生成方法、装置、计算机设备和存储介质
CN111309944A (zh) * 2020-01-20 2020-06-19 同方知网(北京)技术有限公司 一种基于图数据库的数字人文搜索算法
CN111709420A (zh) * 2020-06-18 2020-09-25 北京易真学思教育科技有限公司 文本检测方法、电子设备及计算机可读介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495877A (zh) * 2011-12-05 2012-06-13 中国科学院地理科学与资源研究所 一种湖泊营养物生态分区边界识别的技术方法
CN105787002A (zh) * 2016-02-22 2016-07-20 上海新炬网络技术有限公司 一种基于业务的地图多层级显示方法
CN108319733A (zh) * 2018-03-29 2018-07-24 华中师范大学 一种基于地图的教育大数据分析方法及系统
CN110677810A (zh) * 2018-07-03 2020-01-10 百度在线网络技术(北京)有限公司 用于生成地理围栏的方法和装置
CN109977179A (zh) * 2019-02-19 2019-07-05 中电海康集团有限公司 一种分层的网格划分实现海量地物标记点聚散可视化方法
CN110765219A (zh) * 2019-08-05 2020-02-07 上海晶赞融宣科技有限公司 地理围栏生成方法、装置、计算机设备和存储介质
CN111309944A (zh) * 2020-01-20 2020-06-19 同方知网(北京)技术有限公司 一种基于图数据库的数字人文搜索算法
CN111709420A (zh) * 2020-06-18 2020-09-25 北京易真学思教育科技有限公司 文本检测方法、电子设备及计算机可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
网络流量日志可视化关键技术研究与实现;王美;中国优秀硕士学位论文全文数据库 信息科技辑(第05期);全文 *

Also Published As

Publication number Publication date
CN112612933A (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
Scharl et al. The geospatial web: how geobrowsers, social software and the Web 2.0 are shaping the network society
Dodge et al. Geographic visualization: concepts, tools and applications
EP1510938B1 (en) A method of providing a visualisation graph on a computer and a computer for providing a visualisation graph
US8793604B2 (en) Spatially driven content presentation in a cellular environment
Blaser et al. Visualization in an early stage of the problem-solving process in GIS
JP2005010854A (ja) 情報提示方法および装置
Clarke et al. Contemporary American cartographic research: A review and prospective
Wang et al. Adaptively exploring population mobility patterns in flow visualization
Pecchioli et al. ISEE: Information access through the navigation of a 3D interactive environment
Keenan Spatial Decision Support Systems: a conning of age
Khanwalkar et al. Exploration of large image corpuses in virtual reality
CN112612933B (zh) 一种分类数据可视化方法
Delort Hierarchical cluster visualization in web mapping systems
Turetken et al. Visualization of web spaces: state of the art and future directions
Gaillard et al. Visualisation and personalisation of multi-representations city models
US20030231209A1 (en) Data processing system
Anastopoulou et al. Cartographic perspectives on spatial and thematic levels of detail in augmented reality: a review of existing approaches
Liu et al. Visualizing events in time-varying scientific data
Touya et al. Incorporating ideas of structure and meaning in interactive multi scale mapping environments
Douma et al. SpicyNodes: Radial layout authoring for the general public
Niebling et al. Analyzing spatial distribution of photographs in cultural heritage applications
Edwardes et al. Geo-enabling spatially relevant data for mobile information use and visualisation
Bandrova et al. A conceptual framework for using geospatial Big Data for web mapping
Kienreich et al. Infosky: A system for visual exploration of very large, hierarchically structured knowledge spaces
Eyl The harmony information landscape: interactive, three-dimensional navigation through an information space

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant