CN115344723A - 基于改进构造性覆盖聚类算法的数字文化可视化方法 - Google Patents

基于改进构造性覆盖聚类算法的数字文化可视化方法 Download PDF

Info

Publication number
CN115344723A
CN115344723A CN202210641162.8A CN202210641162A CN115344723A CN 115344723 A CN115344723 A CN 115344723A CN 202210641162 A CN202210641162 A CN 202210641162A CN 115344723 A CN115344723 A CN 115344723A
Authority
CN
China
Prior art keywords
clustering
initial
class
data
clustering result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210641162.8A
Other languages
English (en)
Inventor
张以文
胡悦
王庆人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202210641162.8A priority Critical patent/CN115344723A/zh
Publication of CN115344723A publication Critical patent/CN115344723A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于改进构造性覆盖聚类算法的数字文化可视化方法,属于计算机技术领域,包括采集包含名人信息的数据,构建初始未学习数据集;基于初始未学习数据集进行初始划分,获得初始聚类结果;针对初始聚类结果,计算每个类的标准差和各类中心间的相似度值,并基于标准差和相似度调整聚类数目,得到最优的聚类结果;利用可视化技术,将最优的聚类结果进行可视化展示。本发明对名人信息出现大量的、零碎的、不成体系等问题进行有效的挖掘处理,以对这些数据进行完整美观地可视化。

Description

基于改进构造性覆盖聚类算法的数字文化可视化方法
技术领域
本发明涉及计算机技术领域,具体涉及一种基于改进构造性覆盖聚类算法的数字文化可视化方法。
背景技术
自20世纪60年代以来,在计算机媒介支撑下,人文知识的获取、分析、集成和展示方式都在发生重大变化。海量的图书、报纸、期刊、照片、绘本、乐曲、视频等资料被数字化,并上传到互联网供大众获取和使用,随之出现了许多优秀的历史信息化项目,例如中国历代人物传记数据库(China Biographical Database Project,CBDB)提取、整理了与近百万名历史人物相关的时空事件和关系信息。面对这种日益强化的数字化现状,2016年IEEEVIS 会议将数字人文和可视化两个领域的专家聚在一起进行研讨,打破了传统文理学科与技术之间的壁垒,为可视化技术在数字人文领域的应用开辟了新的思路。
相关技术中,申请公布号为CN105740341A的中国发明专利申请公开了一种基于GIS网络拓扑结构的历史名人事件年谱方法,实现步骤包括:确定输入多类型或感兴趣的历史名人、事件的名称;将历史名人、事件的地点信息与地名地址数据库建立关联;设计和组织历史名人要素类、历史重大事件要素类、历史小事件要素类、名人小事件关联要素类的数据结构;构建历史名人事件的网络拓扑结构图;通过图论和网络联通分析,得到基于GIS可视化的历史名人年谱和历史事件年谱。在分布式网络环境下集成海量历史名人和事件信息,实现形象直观和方便快捷的历史名人事件GIS年谱。
但其基于GIS可视化技术,得到将历史人名年谱和历史时间年谱,但未对大量数据进行处理,无法送碎片化的海量信息中提取到有效信息。
申请公布号为CN113918785A的中国发明专利申请公开了一种基于聚类集成学习的企业数据分析方法,实现步骤包括:S1、获取待分析的产业的资料,并找出待分析产业中主要的多个待分析企业;本实施例分析了广州地区的海洋产业。S2、爬取待分析企业的相关数据;S3、对所爬取的数据进行预处理,并整理预处理过的数据为数据集;S4、采用KMeans作为基聚类器,对数据集进行聚类集成学习,得到基础聚类结果;S5、利用基础聚类结果构造联合矩阵; S6、采用单链接层次聚类对联合矩阵进行处理,得到最终待分析企业的聚类集成结果。
但传统的KMeans聚类算法需要预先指定聚类的数目和手动选择初始聚类中心,依赖于初始聚类中心得到一组聚类中心,计算速度慢;而且直接使用结果,可能会导致结果中样本类别分布不均匀。因此,难以对历史名人信息诸如徽州名人信息出现的大量的、零碎的、不成体系等问题进行有效的挖掘并处理,无法实现对这些数据进行完整美观地可视化。
徽州文化因其悠久的历史、丰富的内涵,在中国乃至世界文化之林中独领风骚,其中徽州名人在中华史上占有重要一页,研究徽州的历史和文化,徽州名人是一个十分值得研究的重要方面。随着中国传统文化的繁荣与发展,将可视化技术应用到徽州名人挖掘中,对于传播和弘扬徽州文化的丰富内涵,增强文化自信,促进国际文化交流有着至关重要的作用。利用可视化技术的化繁为简、直观清晰、易于理解,有效增强数据交互等特性,可以有效地支撑和推动徽州文化的表达、研究和传播。
网络上关于徽州名人的信息仅限于一些网页或者博客,这些大量的碎片化的信息不利于公众了解和传承徽州文化,同样也不利于领域内专家查阅和分析徽州文化。因此,亟需一种实现徽州名人信息可视化的方法。
发明内容
本发明所要解决的技术问题在于如何对大量的、零碎的、不成体系的信息进行挖掘处理后进行可视化呈现。
本发明通过以下技术手段实现解决上述技术问题的:
本发明提出了一种基于改进构造性覆盖聚类算法的数字文化可视化方法,所述方法包括:
采集包含名人信息的数据,构建初始未学习数据集;
基于所述初始未学习数据集进行初始划分,获得初始聚类结果;
针对所述初始聚类结果,计算每个类的标准差和各类中心间的相似度值,并基于标准差和相似度调整聚类数目,得到最优的聚类结果;
利用可视化技术,将所述最优的聚类结果进行可视化展示。
本发明利用基于构造性覆盖的聚类算法对包含名人信息的进行聚类分析,得到初始聚类结果,并对初始聚类结果进行分析,聚合相似的类和分裂具有较大标准差的类,在迭代过程中自动调整聚类的数目,得到最优的聚类结果,相较于传统的覆盖聚类算法获得的覆盖聚类结果没有加以分析,直接使用结果,可能会导致结果中样本类别分布不均匀相比,本发明对覆盖聚类结果进行分析后进行可视化显示,对名人信息出现大量的、零碎的、不成体系等问题进行有效的挖掘处理,以对这些数据进行完整美观地可视化。
进一步地,所述包含名人信息的数据包括结构化数据和非结构化数据。
进一步地,所述采集包含名人信息的数据,构建初始未学习数据集,包括:
采集包含名人信息的数据;
对所述数据进行预处理,得到预处理后数据;
根据预处理后的数据,构建所述初始未学习数据集。
进一步地,所述基于所述初始未学习数据集进行初始划分,获得初始聚类结果,包括:
分别求出所述初始未学习数据集中的样本点x与簇类中心点c的距离rx, x∈D,D为所述初始未学习数据集;
将各样本点x对应的距离rx求和,得到求和结果rD→c
基于距离rx和求和结果rD→c,计算每个未学习样本x的权重:
Figure RE-GDA0003853054300000031
基于赋予权重后的样本点,获得簇类中心点c所属覆盖的半径,确定所述初始聚类结果,所述初始聚类结果包括聚类数目Nc和初始聚类中心点集合。
进一步地,所述针对所述初始聚类结果,计算每个类的标准差和各类中心间的相似度值,并基于标准差和相似度调整聚类数目,得到最优的聚类结果,包括:
计算各类内样本到类中心的标准向量差,并基于所述标准向量差对所述初始聚类结果进行分裂处理,得到分裂后的聚类结果;
基于所述分裂后的聚类结果,计算各类中心间的相似度值;
基于所述各类中心间的相似度值,对各类进行聚合处理,得到所述最优的聚类结果。
进一步地,所述计算各类内样本到类中心的标准向量差,并基于所述标准向量差对所述初始聚类结果进行分裂处理,得到分裂后的聚类结果,包括:
对于所述初始聚类结果,计算各类内样本到类中心的标准向量差:σi=(σ1i2i,...,σni)T,i=1,2,…,Nc,Nc表示当前存在的类的数目,n为样本点的维度;
计算每个类的标准向量差σi中的最大分量σimax、每个类的标准向量差中最大分量的均值
Figure RE-GDA0003853054300000041
确定存在某一类Ci中的最大分量σimax大于
Figure RE-GDA0003853054300000042
且满足
Figure RE-GDA0003853054300000043
和|Ci|>TN时,则将Ci这个类分裂为两个类Ci+和Ci-,删除类Ci
其中:Ci+和Ci-的值分别为在类Ci中相应的最大分量σimax加上和减去σimax
Figure RE-GDA0003853054300000044
Figure RE-GDA0003853054300000045
分别表示第i个类的类内平均距离和总体平均距离,|Ci|表示第i个类中样本数,TN表示每一类中允许的最少样本数目。
进一步地,所述基于所述分裂后的聚类结果,计算各类中心间的相似度值,包括:
计算各类中心间的相似度值为:
Figure RE-GDA0003853054300000046
其中i=1,2,…,Nc-1,j=1,2,…,Nc
进一步地,所述基于所述各类中心间的相似度值,对各类进行聚合处理,得到所述最优的聚类结果,包括:
将获得的所有相似度值进行排序,将最大的两个类进行聚合,并更新合并后的聚类中心,得到所述最优的聚类结果。
进一步地,所述利用可视化技术,将所述最优的聚类结果进行可视化展示,包括:
按照所述最优的聚类结果的数据类型,将所述最优的聚类结果存储至数据库;
利用可视化技术将所述数据库中的数据映射到图像空间,进行可视化展示。
进一步地,所述利用可视化技术将所述数据库中的数据映射到图像空间,进行可视化展示,包括:
将所述数据库中的数据表示为层级分类表,所述层级分类表中列出了事件相关人物,并关联实体数据库的实体ID;
采用GIS技术,将所述层级分类表进行可视化展示。
本发明的优点在于:
(1)本发明利用基于构造性覆盖的聚类算法对包含名人信息的进行聚类分析,得到初始聚类结果,并对初始聚类结果进行分析,聚合相似的类和分裂具有较大标准差的类,在迭代过程中自动调整聚类的数目,得到最优的聚类结果,相较于传统的覆盖聚类算法获得的覆盖聚类结果没有加以分析,直接使用结果,可能会导致结果中样本类别分布不均匀相比,本发明对覆盖聚类结果进行分析后进行可视化显示,对名人信息出现大量的、零碎的、不成体系等问题进行有效的挖掘处理,对这些数据进行完整美观地可视化。
(2)本发明在进行聚类处理时,不需要预先指定聚类的数目,也不需要手动选择初始中心,而是根据数据间的关系,自适应地确定聚类数目,并且不依赖于初始聚类中心而是根据数据之间的相似性关系得到一组聚类中心,计算速度快。
(3)提出时空可视化平台实现空间地理和时间轴结合,方便用户在信息检索的同时,提供了详尽的原始文字材料和信息线索,使人文学者可以以一种可视化、交互式的方式探索名人的生平。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是本发明一实施例中提出的基于改进构造性覆盖聚类算法的数字文化可视化方法的流程示意图;
图2是本发明一实施例中提出的基于改进构造性覆盖聚类算法的数字文化可视化方法的整体流程示意图;
图3是本发明一实施例中可视化平台结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提出了一种基于改进构造性覆盖聚类算法的数字文化可视化方法,所述方法包括以下步骤:
S10、采集包含名人信息的数据,构建初始未学习数据集。
S20、基于所述初始未学习数据集进行初始划分,获得初始聚类结果。
S30、针对所述初始聚类结果,计算每个类的标准差和各类中心间的相似度值,并基于标准差和相似度调整聚类数目,得到最优的聚类结果。
S40、利用可视化技术,将所述最优的聚类结果进行可视化展示。
本实施例利用基于构造性覆盖的聚类算法对包含名人信息的进行聚类分析,得到初始聚类结果,并对初始聚类结果进行分析,聚合相似的类和分裂具有较大标准差的类,在迭代过程中自动调整聚类的数目,得到最优的聚类结果,相较于传统的覆盖聚类算法获得的覆盖聚类结果没有加以分析,直接使用结果,可能会导致结果中样本类别分布不均匀相比,本发明对覆盖聚类结果进行分析后进行可视化显示,对名人信息出现大量的、零碎的、不成体系等问题进行有效的挖掘处理,对这些数据进行完整美观地可视化。
在一实施例中,步骤S10中,所述包含名人信息的数据包括结构化数据和非结构化数据。
需要说明的是,名人信息比如徽州名人信息具有碎片化、信息覆盖范围广等特点,因此,名人数据主要从古籍文献等信息源获取。获取的数据包括结构化数据和非结构化数据,其中结构化数据较少,非结构化数据包括文本数据、音频、图片和视频等文件数据。
在一实施例中,所述步骤S10,具体包括以下步骤:
S11、采集包含名人信息的数据;
S12、对所述数据进行预处理,得到预处理后数据;
S13、根据预处理后的数据,构建所述初始未学习数据集。
需要说明的是,由于采集到的数据碎片化严重,需要先经过数据清洗(数等预处理,再进入信息分析提取阶段。
需要说明的是,本实施例所采用的的数据预处理手段包括但不限于数据标准化、数据清洗等手段。
在一实施例中,所述步骤S20,包括以下步骤:
S21、分别求出所述初始未学习数据集中的样本点x与簇类中心点c的距离rx,x∈D,D为所述初始未学习数据集;
S22、将各样本点x对应的距离rx求和,得到求和结果rD→c
S23、基于距离rx和求和结果rD→c,计算每个未学习样本x的权重:
Figure RE-GDA0003853054300000071
S24、基于赋予权重后的样本点,获得簇类中心点c所属覆盖的半径
Figure RE-GDA0003853054300000072
确定所述初始聚类结果,所述初始聚类结果包括聚类数目Nc和初始聚类中心点集合C={C1,C2,....,C}。
本实施例基于改进的覆盖聚类算法实现文本信息分类和文本信息自动化提取,最终提取出关键信息,如时间、地点、人物、事件等。但在涉及古籍文本数据,还需要借助古籍文本语料库进行文本挖掘。
需要说明的是,每个数据点对于每个领域覆盖的半径贡献值是不同的,距离簇中心越远的数据点对于簇中心的贡献值越小,反之越近的数据点对于簇中心的贡献值越大。所以基于每个数据点相对簇中心贡献值获取簇的半径,使得相似的数据更大概率聚在同一个簇中,不相似的数据更大概率聚在不同簇中。
在传统覆盖聚类算法中,聚类半径的获取是直接求取未学习过的所有样本点到该簇中心的距离之和得均值,当求取前几个簇的半径时,未学习的样本点较多,按照传统覆盖半径求取方式获得,会导致前几个簇的覆盖半径偏大,影响最终聚类结果。本实施例为了提高聚类结果的精度,提出基于概率的半径求取方法:对于簇中心而言,距离簇中心越近的样本点属于该簇中心所在类别概率越大,反之,概率越小。基于该理论,相对于当前簇中心,为每个未学习过的样本点赋予权重值(即求取概率),通过带权重的样本点确定合理的领域覆盖半径。
本实施例在进行聚类处理时,不需要预先指定聚类的数目,也不需要手动选择初始中心,而是根据数据间的关系,自适应地确定聚类数目,并且不依赖于初始聚类中心而是根据数据之间的相似性关系得到一组聚类中心,计算速度快。
在一实施例中,所述步骤S30,具体包括以下步骤:
S31、计算各类内样本到类中心的标准向量差,并基于所述标准向量差对所述初始聚类结果进行分裂处理,得到分裂后的聚类结果;
S32、基于所述分裂后的聚类结果,计算各类中心间的相似度值;
S33、基于所述各类中心间的相似度值,对各类进行聚合处理,得到所述最优的聚类结果。
需要说明的是,在传统覆盖聚类算法中没有对获得的覆盖聚类结果加以分析,直接使用覆盖聚类之后的聚类结果,导致聚类结果中样本类别分布不均匀,有些类别样本数目过多,有些类别中样本数目过少。为了解决这个问题,本实施例所采用的改进覆盖聚类算法CA-QGS是基于商空间粒度分析的覆盖聚类算法,改进了传统覆盖聚类算法中确定领域半径的新策略,根据CA-QGS得到基于粒度分析的并行覆盖聚类结果即为一系列的簇集合C;并基于商空间理论的概念提出了分裂机制和聚合机制,对聚类结果加以分析,聚合相似的类和分裂具有较大标准差的类,在迭代过程中自动调整聚类数目,最终经过少量常数次的迭代帮助数据集确定合适的聚类数目,为数据集找到合理的划分方式。
在一实施例中,所述步骤S31,具体包括以下步骤:
S311、对于所述初始聚类结果,计算各类内样本到类中心的标准向量差:σi=(σ1i2i,...,σni)T,i=1,2,…,Nc,Nc表示当前存在的类的数目,n为样本点的维度;
S312、计算每个类的标准向量差σi中的最大分量σimax、每个类的标准向量差中最大分量的均值
Figure RE-GDA0003853054300000091
S313、确定存在某一类Ci中的最大分量σimax大于
Figure RE-GDA0003853054300000092
且满足
Figure RE-GDA0003853054300000093
和|Ci|>TN时,则将Ci这个类分裂为两个类Ci+和Ci-,删除类Ci
其中:Ci+和Ci-的值分别为在类Ci中相应的最大分量σimax加上和减去σimax,而其他分量保持不变,
Figure RE-GDA0003853054300000097
Figure RE-GDA0003853054300000098
分别表示第i个类的类内平均距离(即计算类中样本点到类中心的平均距离)和总体平均距离(即各个样本点到其类内中心的总体平均距离),|Ci|表示第i个类中样本数,TN表示每一类中允许的最少样本数目(若少于此数,就不能单独成为一类)。
应当理解的是,若不存在某一类Ci中的最大分量σimax大于
Figure RE-GDA0003853054300000094
且满足
Figure RE-GDA0003853054300000095
和|Ci|>TN,则说明该分类是正确的,无需进行再分裂,保持原来的类即可,即类Ci
在一实施例中,所述步骤S32中,计算各类中心间的相似度值为:
Figure RE-GDA0003853054300000096
其中,dij表示第i个类中心和第j个类中心的距离,i=1,2,…,Nc-1,j=1,2,…,Nc
在一实施例中,所述步骤S33,具体为:
将获得的所有相似度值进行排序,将最大的两个类进行聚合,并更新合并后的聚类中心,得到所述最优的聚类结果。
需要说明的是,将获得的所有Sij进行排序,将最大Sij的两个类进行聚合,并更新合并后的聚类中心。若用户指定聚类数目值,根据最终类数目k值确定聚合类别的次数;若用户没有指定聚类数目,则根据计算得到的各类中心间的相似度值,将Sij最大的两个类进行合并,根据数据之间的相似度关系自适应的确定最终聚类数目k值。
本实施例数据的预处理分为两个阶段:(1)执行CA-QGS初始化算法,该算法根据数据之间的相似性关系自适应地识别聚类数目k且对初始聚类中心没有依赖性,不需要预先指定初始聚类中心点。(2)利用第一阶段获得的聚类中心结果进行Lloyd迭代,最终完成高效率和高精度的聚类。
在一实施例中,所述步骤S40,具体包括以下步骤:
S41、按照所述最优的聚类结果的数据类型,将所述最优的聚类结果存储至数据库。
需要说明的是,根据数据类型的不同,数据资源汇聚可实现多种数据存储方式。结构化数据以文件的形式存储,如JSON、CSV、XML等,也可以表结构的形式存储在结构化数据库中,如MySQL、SQLite等;非结构化数据可存储在非结构化数据库中,如MongoDB等。
具体地,可视化平台可采用B/S网络结构模式,用户只需打开浏览器输入项目网址即可访问和使用名人可视化交互系统。在系统开发/部署模式上,采用业界共识的前后端分离模式,即前端JavaScript函数通过Ajax调用后端的 RESTful API接口,并使用返回的JSON格式数据进行HTML页面内容的填充和交互,其中:
前端开发使用经典的HTML5、CSS3、JavaScript来分别完成前端布局、渲染和交互功能。为提高代码的可读性、可维护性以及提升界面的美观度,使用Bootstrap、jQuery等前端开发框架。为了完成地理信息可视化、时间轴,分别使用Leaflet、jQuery的Ion.RangeSlider插件和E Charts等JavaScript工具。
后端开发主要采用Node.js来实现对后端数据库的查询与API接口的构建,主要通过API向数据库请求四类数据:人物、人物关系、事件和地点。其中,只有人物关系数据是请求存储在SQLite数据库的CBDB数据,其他都是请求存储在MySQL数据库中的年谱实体数据,但都是通过同一个端口统一提供JSON格式数据服务,消除了不同类型数据的来源数据库之间的差异。
S42、利用可视化技术将所述数据库中的数据映射到图像空间,进行可视化展示。
需要说明的是,通过可视化技术将名人数据映射到图像空间,比如,采用文本数据可视化、多维数据可视化、时空数据可视化以及关联相应的媒体对象(如文章、图像、视频等)可视化等相关技术,为用户提供直观、可交互的图形化界面并使用户可以交互式探索和分析人物关系。
在一实施例中,所述步骤S42,具体包括以下步骤:
S421、将所述数据库中的数据表示为层级分类表,所述层级分类表中列出了事件相关人物,并关联实体数据库的实体ID。
具体地,首先对数据库中的信息进行叠加与筛选,具体为:
(1)多实体知识库的信息叠加查询与实体定位。实体知识库是各类实体自身的知识组织体系,通常表现为层级分类表,用以表达同类实体之间的关系,如事件类别、人物、地点。基于这些知识组织体系,用户除了可以实现快速信息筛选和信息定位。
通过多分类表的结构,还可以实现拓展查询和叠加查询。用户选择感兴趣的实体范围,如选择与胡雪岩是“亲属关系”的人在“所有地点”发生的事件,即可叠加查询出与事件发生地关联的事件信息。本发明中的人物和行政区划,关联了相应的实体数据库(CBDB、CHGIS)中的实体ID。
(2)允许用户选择在时空可视化交互区呈现的信息类型,如交往人物,社会地位状态等。此部分允许用户在任何步骤打开或关闭某一信息,便于用户针对自己的需求产生相应的可视化结果。
S422、采用GIS技术,将所述层级分类表进行可视化展示。
需要说明的是,具体包括时空可视化和事件信息两个过程:
时空可视化是整个平台的主体,由一个可交互的GIS系统和一个与之关联的时间轴组成。GIS系统底图是使用中国历史地理信息平台(CHGIS)提供的天地图(包括现代行政区划及其标记),在上层覆盖了古代徽州地图,用户可以自由打开或关闭这些图层。用户可以拖动时间轴的两个时间锚点来选定一个感兴趣的时间范围(单位是年)。所有筛选出的事件相关人物,只要能在CBDB 中找到相应人物实体的籍贯地,则在地图上以籍贯地的经纬度将人物映射在地图上。每一个人物被点击时,则显示相关信息,如姓名、别名、生卒年等,这些信息均来自CBDB。
事件信息是指对年谱文本知识重构、加工整理得倒的年谱事件原文以及原数据信息库,既可以接受知识库和时间轴的筛选,又与GIS系统相互关联。当所感兴趣的实体范围被限定后,用户点击地点则年谱信息库显示此地点在这段时间中发生过的所有事件信息。每条事件以事件卡片的形式展现年谱原文。
本实施例通过提出时空可视化平台实现空间地理和时间轴结合,方便用户在信息检索的同时,提供了详尽的原始文字材料和信息线索,使人文学者可以以一种可视化、交互式的方式探索名人的生平。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于改进构造性覆盖聚类算法的数字文化可视化方法,其特征在于,所述方法包括:
采集包含名人信息的数据,构建初始未学习数据集;
基于所述初始未学习数据集进行初始划分,获得初始聚类结果;
针对所述初始聚类结果,计算每个类的标准差和各类中心间的相似度值,并基于标准差和相似度调整聚类数目,得到最优的聚类结果;
利用可视化技术,将所述最优的聚类结果进行可视化展示。
2.如权利要求1所述的基于改进构造性覆盖聚类算法的数字文化可视化方法,其特征在于,所述包含名人信息的数据包括结构化数据和非结构化数据。
3.如权利要求1所述的基于改进构造性覆盖聚类算法的数字文化可视化方法,其特征在于,所述采集包含名人信息的数据,构建初始未学习数据集,包括:
采集包含名人信息的数据;
对所述数据进行预处理,得到预处理后数据;
根据预处理后的数据,构建所述初始未学习数据集。
4.如权利要求1所述的基于改进构造性覆盖聚类算法的数字文化可视化方法,其特征在于,所述基于所述初始未学习数据集进行初始划分,获得初始聚类结果,包括:
分别求出所述初始未学习数据集中的样本点x与簇类中心点c的距离rx,x∈D,D为所述初始未学习数据集;
将各样本点x对应的距离rx求和,得到求和结果rD→c
基于距离rx和求和结果rD→c,计算每个未学习样本x的权重:
Figure FDA0003684150910000011
基于基于赋予权重后的样本点,获得簇类中心点c所属覆盖的半径,确定所述初始聚类结果,所述初始聚类结果包括聚类数目Nc和初始聚类中心点集合。
5.如权利要求1所述的基于改进构造性覆盖聚类算法的数字文化可视化方法,其特征在于,所述针对所述初始聚类结果,计算每个类的标准差和各类中心间的相似度值,并基于标准差和相似度调整聚类数目,得到最优的聚类结果,包括:
计算各类内样本到类中心的标准向量差,并基于所述标准向量差对所述初始聚类结果进行分裂处理,得到分裂后的聚类结果;
基于所述分裂后的聚类结果,计算各类中心间的相似度值;
基于所述各类中心间的相似度值,对各类进行聚合处理,得到所述最优的聚类结果。
6.如权利要求5所述的基于改进构造性覆盖聚类算法的数字文化可视化方法,其特征在于,所述计算各类内样本到类中心的标准向量差,并基于所述标准向量差对所述初始聚类结果进行分裂处理,得到分裂后的聚类结果,包括:
对于所述初始聚类结果,计算各类内样本到类中心的标准向量差:σi=(σ1i2i,...,σni)T,i=1,2,…,Nc,Nc表示当前存在的类的数目,n为样本点的维度;
计算每个类的标准向量差σi中的最大分量σimax、每个类的标准向量差中最大分量的均值
Figure FDA0003684150910000021
确定存在某一类Ci中的最大分量σimax大于
Figure FDA0003684150910000022
且满足
Figure FDA0003684150910000023
和|Ci|>TN时,则将Ci这个类分裂为两个类Ci+和Ci-,删除类Ci
其中:Ci+和Ci-的值分别为在类Ci中相应的最大分量σimax加上和减去σimax
Figure FDA0003684150910000024
Figure FDA0003684150910000025
分别表示第i个类的类内平均距离和总体平均距离,|Ci|表示第i个类中样本数,TN表示每一类中允许的最少样本数目。
7.如权利要求5所述的基于改进构造性覆盖聚类算法的数字文化可视化方法,其特征在于,所述基于所述分裂后的聚类结果,计算各类中心间的相似度值,包括:
计算各类中心间的相似度值为:
Figure FDA0003684150910000026
其中i=1,2,…,Nc-1,j=1,2,…,Nc
8.如权利要求5所述的基于改进构造性覆盖聚类算法的数字文化可视化方法,其特征在于,所述基于所述各类中心间的相似度值,对各类进行聚合处理,得到所述最优的聚类结果,包括:
将获得的所有相似度值进行排序,将最大的两个类进行聚合,并更新合并后的聚类中心,得到所述最优的聚类结果。
9.如权利要求1所述的基于改进构造性覆盖聚类算法的数字文化可视化方法,其特征在于,所述利用可视化技术,将所述最优的聚类结果进行可视化展示,包括:
按照所述最优的聚类结果的数据类型,将所述最优的聚类结果存储至数据库;
利用可视化技术将所述数据库中的数据映射到图像空间,进行可视化展示。
10.如权利要求9所述的基于改进构造性覆盖聚类算法的数字文化可视化方法,其特征在于,所述利用可视化技术将所述数据库中的数据映射到图像空间,进行可视化展示,包括:
将所述数据库中的数据表示为层级分类表,所述层级分类表中列出了事件相关人物,并关联实体数据库的实体ID;
采用GIS技术,将所述层级分类表进行可视化展示。
CN202210641162.8A 2022-06-08 2022-06-08 基于改进构造性覆盖聚类算法的数字文化可视化方法 Pending CN115344723A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210641162.8A CN115344723A (zh) 2022-06-08 2022-06-08 基于改进构造性覆盖聚类算法的数字文化可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210641162.8A CN115344723A (zh) 2022-06-08 2022-06-08 基于改进构造性覆盖聚类算法的数字文化可视化方法

Publications (1)

Publication Number Publication Date
CN115344723A true CN115344723A (zh) 2022-11-15

Family

ID=83948492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210641162.8A Pending CN115344723A (zh) 2022-06-08 2022-06-08 基于改进构造性覆盖聚类算法的数字文化可视化方法

Country Status (1)

Country Link
CN (1) CN115344723A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541617A (zh) * 2023-06-29 2023-08-04 安徽大学 参会用户及地点推荐方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503140A (zh) * 2016-10-20 2017-03-15 安徽大学 一种基于Hadoop云平台Web资源个性化推荐系统及方法
CN114139033A (zh) * 2021-11-26 2022-03-04 中国人民解放军国防科技大学 一种基于动态核发育的时序数据聚类方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503140A (zh) * 2016-10-20 2017-03-15 安徽大学 一种基于Hadoop云平台Web资源个性化推荐系统及方法
CN114139033A (zh) * 2021-11-26 2022-03-04 中国人民解放军国防科技大学 一种基于动态核发育的时序数据聚类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周媛媛: "构造性并行覆盖算法的改进及其在服务推荐中的应用研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 7, 15 July 2019 (2019-07-15), pages 1 - 72 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541617A (zh) * 2023-06-29 2023-08-04 安徽大学 参会用户及地点推荐方法及系统
CN116541617B (zh) * 2023-06-29 2023-09-19 安徽大学 参会用户及地点推荐方法及系统

Similar Documents

Publication Publication Date Title
US8972443B2 (en) Distributed platform for network analysis
JP5607164B2 (ja) セマンティック・トレーディング・フロア
Yang et al. Comparison of complex network analysis software: Citespace, SCI 2 and Gephi
Risch et al. The STARLIGHT information visualization system
TWI230344B (en) Method and system for online analytical processing (OLAP)
CN110189802B (zh) 基于指标存储模型的双向映射队列研究信息系统
CN110532309B (zh) 一种高校图书馆用户画像系统的生成方法
CN111291191B (zh) 一种广电知识图谱构建方法及装置
WO2009082046A1 (en) System and method for analysis of information
TW200407736A (en) System and method for classifying patents and displaying patent classification
Deufemia et al. Investigative analysis across documents and drawings: visual analytics for archaeologists
CN113190593A (zh) 一种基于数字人文知识图谱的搜索推荐方法
CN106776910A (zh) 一种搜索结果的显示方法及装置
CN115344723A (zh) 基于改进构造性覆盖聚类算法的数字文化可视化方法
Cuenca et al. VERTIGo: A visual platform for querying and exploring large multilayer networks
CN111311463A (zh) 基于数据标签建立人口画像的数据处理方法及系统
Martins et al. Geographically-aware information retrieval for collections of digitized historical maps
Peng et al. Viewing streaming spatially-referenced data at interactive rates
Zhang et al. Visualization of location-referenced web textual information based on map mashups
US11113290B1 (en) Information visualization display using associative clustered tiling and tessellation
Kozielski et al. Beyond Databases, Architectures and Structures. Advanced Technologies for Data Mining and Knowledge Discovery: 12th International Conference, BDAS 2016, Ustroń, Poland, May 31-June 3, 2016, Proceedings
Rocha et al. Healthcare decision-making over a geographic, socioeconomic, and image data warehouse
Tanin et al. Browsing large online data tables using generalized query previews
Shyamala et al. An effective web page reorganization through heap tree and farthest first clustering approach
Jia et al. An ontology‐based semantic description model of ubiquitous map images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination