CN110110074A - 一种基于动态网络分析的时序文献数据分析方法及装置 - Google Patents
一种基于动态网络分析的时序文献数据分析方法及装置 Download PDFInfo
- Publication number
- CN110110074A CN110110074A CN201910388412.XA CN201910388412A CN110110074A CN 110110074 A CN110110074 A CN 110110074A CN 201910388412 A CN201910388412 A CN 201910388412A CN 110110074 A CN110110074 A CN 110110074A
- Authority
- CN
- China
- Prior art keywords
- data
- literature
- dynamic network
- clustering
- temporal aspect
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000003012 network analysis Methods 0.000 title claims abstract description 23
- 238000013173 literature analysis Methods 0.000 title claims abstract description 19
- 230000002123 temporal effect Effects 0.000 claims abstract description 46
- 238000012800 visualization Methods 0.000 claims abstract description 41
- 230000000007 visual effect Effects 0.000 claims abstract description 39
- 238000007621 cluster analysis Methods 0.000 claims abstract description 4
- 239000013256 coordination polymer Substances 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 10
- 238000013499 data model Methods 0.000 claims description 9
- 230000015271 coagulation Effects 0.000 claims description 6
- 238000005345 coagulation Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 5
- 238000013075 data extraction Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 abstract description 10
- 238000004458 analytical method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
- G06F16/287—Visualization; Browsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于动态网络分析的时序文献数据分析方法及装置,属于文献数据分析技术领域,本发明要解决的技术问题为如何避免节点链接法中节点及属性可视化结果重叠,突破节点链接法、邻接矩阵等网络数据表示方法,同时突破展示时序信息的局限性,采用的技术方案为:①一种基于动态网络分析的时序文献数据分析方法,该方法包括如下步骤:S1、提取时序特征数据;S2、聚类分析;S3、可视化布局;S4、时序特征可视化。②一种基于动态网络分析的时序文献数据分析装置,该装置包括时序特征数据提取单元、聚类分析单元、可视化布局单元以及时序特征可视化单元。
Description
技术领域
本发明涉及文献数据分析技术领域,具体地说是一种基于动态网络分析的时序文献数据分析方法及装置。
背景技术
学术社交网络通常是通过研究人员之间的合著关系以及他们发表的著作之间的文献引用关系表示的。一些常用变量,例如,题目、作者、引用,是了解文献关系的重要参考项。但是随着文献网络关系中涉及的实体及其关系数据量的增多,文献网络在可视界面上将变得庞大且杂乱,影响文献网络的可视分析效果。针对这种情况,可以通过一些可视化技术,如聚类、阈值过滤,用于简化可视视图,再通过着色渲染,网络视图可以更形象的展示特征。但是,当数据集中包含有时序信息时,就需要借助新的可视技术才能高效的实现可视显示。与科学计算领域其它包含时空信息的动态数据集相比,学术社交网络总是包含大量用来表示实体及实体关系的直线或曲线,所以学术社交网络的可视表达方式总是错综复杂,难以辨别特征。
当文献数据包含时序数据时,文献数据分析方法必须引入一个新的可视方法,将时间相关的特征显示为一个维度的数据,一种有效的可视方法是把时间可视编码表示成直线,并且单独显示在可视界面的底部。一些重要的事件可以通过绑定到时间线上,并通过交互的方式显示事业的详情。使用常规的时间可视编码方式,时间跨度越大或时间点越多,时间线越长,需要跨越整个甚至多个可视界面,既不能对时序数据进行有效的可视化,也不便于发现时序数据中的时序特征。为了解决时间线过长的问题,研究人员提出了很多解决方案,比如,先通过聚类的方法简化时间维度,然后对时间维度着以不同的颜色。这些解决方案的关键在于设计聚类算法和着色方案,而且使用这些解决方案设计的可视界面,使用者需要更多的时间用于查找时序特征。
文献数据集经常包含大量复杂的信息,所以对文献数据集采用网络类的可视化方法进行展示,展示结果往往是杂乱无章的。为了让展示结果更加清晰,一些面向网络的简化算法被提出来用于简化网络视图,这些算法在不影响网络拓扑结构和时序信息上下文的前提下,显著降低了动态网络的可视复杂度,但是也有一些用户可能关心的时序信息因为过度的数据过滤而被隐藏起来。
综上所述,如何避免节点链接法中节点及属性可视化结果重叠,突破节点链接法、邻接矩阵等网络数据表示方法,同时突破展示时序信息的局限性是目前现有技术中存在的技术问题。
专利号为CN108509481A的专利文献公开了一种基于文献共引聚类的研究前沿可视分析方法:建立所研究领域的文献数据库,对所下载的论文数据进行编码;抽取文献数据库中引用次数靠前的施引文献作为核心高被引施引文献,引用次数靠前的外部参考文献作为高被引外部参考文献,将高被引外部参考文献添加到核心高被引施引文献中共同作为核心高被引的施引文献;生成核心高被引施引文献的直引矩阵和共引矩阵;将共引矩阵中为零的数值通过直引矩阵中对应位置的数值变换来赋值;基于共引矩阵,生成共引网络并从网络中找到稠密的子图;对前沿话题进行术语抽取;对共引网络的聚类结果进行可视分析设计。但是该技术方案不能避免节点链接法中节点及属性可视化结果重叠,无法突破节点链接法、邻接矩阵等网络数据表示方法,无法展示时序信息的局限性。
发明内容
本发明的技术任务是提供一种基于动态网络分析的时序文献数据分析方法及装置,来解决如何避免节点链接法中节点及属性可视化结果重叠,突破节点链接法、邻接矩阵等网络数据表示方法,同时突破展示时序信息的局限性的问题。
本发明的技术任务是按以下方式实现的,一种基于动态网络分析的时序文献数据分析方法,该方法包括如下步骤:
S1、提取时序特征数据;
S2、聚类分析;
S3、可视化布局;
S4、时序特征可视化。
作为优选,所述步骤S1中提取时序特征数据的具体步骤如下:
S101、定义S表示时序文献数据集合,时序文献数据采用结构性或非结构性文本的数据格式存储;定义Ri表示S中一条数据记录,0≤i≤n,n表示S的长度,n∈N+;得出:
S:={R1,R2,…,Ri,…,Rn};
S102、时序文献数据包含的数据字段分别为标题、作者列表、发表年份、DOI号、关键词以及摘要,得出:
Ri:={title,authors,year,doi,keywords,abstract,…};
S103、基于时序文献数据分析,挖掘出网络型关系数据,定义动态网络数据G:=(V,RE);其中,V表示顶点集合;RE表示时链集合,RE:=(vi,vj,w,seq),vi∈V,vj∈V,w表示时链边的权重,seq表示时序特征序列;
S104、针对时序文献数据,定义动态网络数据G=f(R);其中,f(R)表示时序特征数据提取方法。
更优地,所述步骤S104中时序特征数据提取方法的具体步骤如下:
S10401、按关键词过滤:关键词是用户感兴趣的特征表达,通过关键词过滤提取出符合用户关注点的数据记录集合S;遍历数据集合S,判断记录r中是否包含关键词特征:
若是,则将记录r添加到候选数据集合CP中;
S10402、计算时间跨度:从候选数据集合CP中,提取时间维度的信息,计算时间维度的起止时间;针对时序文献数据,得出时间跨度的公式为:
ry=maxYear(CP)-minYear(CP)+1;
其中,minYear表示开始时间对应的最小年份值;maxYear表示终止时间对应的最大年份值;ry表示时间跨度,ry将决定动态网络数据模型中时间序列seq的长度;
S10403、提取合作关系特征:遍历候选数据集合CP,针对CP中每一条记录r,提到作者节点信息,添加到顶点集合V中;提取合作关系特征e,e=(vi,vj),添加e到时链集合RE中,并根据记录r的时间属性,更新e的权重和时序特征序列seq中对应年份的值,对应的表达式为:
e[r.year-minYear]+=r.w;
其中,[r.year-minYear]表示数值对应数组e中的一个数组坐标i,i≥0,即第i年对应的权重;
S10404、返回动态网络数据模型G:=(V,RE)。
作为优选,所述步骤S2中聚类分析的具体步骤如下:
S201、原数据文件应用时序文献数据特征提取算法,生成动态网络数据G,通过应用标准的Clauset-Newman-Moore凝聚式聚类算法,计算得到G的聚类分组为{G1,G2,…,Gi,…,Gn},每个聚类分组Gi对应一个分组权重;
S202、动态网络数据G中聚类分组Gi:=(Vi,REi)的权重等于所有节点的权重之和,对应的表达公式为:Gi.w=∑i(vi.w),其中,0≤i≤n。
作为优选,所述步骤S3中可视化布局的具体步骤如下:
S301、提取动态网络聚类特征:调用标准的Clauset-Newman-Moore聚类分析算法,计算动态网络图G的聚类分组,G:=(G1,G2,G3,…,Gn);
S302、计算每个聚类分组在可视界面中对应的矩形布局区域:针对可视化界面的像素分辨率(宽度和高度),结合G中各个聚类分组的权重,调用标准的正等树图矩阵分割算法,计算得出每个聚类分组对应的矩形布局区域;
S303、计算聚类分组的引力中心点:针对每个聚类分组对应的矩形布局区域,取矩形的中心点fi作为每个聚类分组Gi的引力中心点;
S304、可视化布局:采用力引导布局算法并结合交互干预和冲突检测算法,计算得到G在可视化界面中的最终布局效果,对G进行可视化布局。
作为优选,所述步骤S4中时序特征可视化的具体步骤如下:
S401、基于动态网络数据定义G:=(V,RE),RE:=(vi,vj,w,seq);其中,RE是时序特征的数据模型,seq保存着时间序列数据;
S402、针对RE采用ColorWall(色块墙)的可视化方法,将seq中的时间序列数据经过可视化编码后,绘制在(vi,vj)的关系曲线边上。
更优地,所述步骤S402中(vi,vj)的关系曲线采用60度夹角曲线段的顺时针方向表示节点vi到节点vj的指向关系,时序特征数据按时间增序沿曲线段方向排列。
一种基于动态网络分析的时序文献数据分析装置,该装置包括,
时序特征数据提取单元,用于从时序文献数据中提取时序特征数据,根据时序特征数据挖掘出网络型关系数据,根据网络型关系数据定义动态网络数据;
聚类分析单元,用于根据原数据文件应用时序文献数据特征提取算法,生成动态网络数据G,通过应用标准的Clauset-Newman-Moore凝聚式聚类算法,计算得到G的聚类分组Gi,聚类分组Gi权重等于节点的权重之和;
可视化布局单元,用于针对聚类分组{G1,G2,…,Gi,…,Gn}以及每个分组对应的分组权重,基于可视化界面的宽度和高度,调用标准正等树图矩阵分割算法,计算得到每个聚类分组Gi在可视化界面中对应的布局区域,布局区域的中心点记为fi,作为Gi的引力中心点,采用力引导布局算法并结合冲突检测算法,计算得到G在可视化界面中的最终布局效果;
时序特征可视化单元,用于针对RE采用ColorWall(色块墙)的可视化方法,将seq中的时间序列数据经过可视化编码后,绘制在(vi,vj)的关系曲线边上。
本发明的基于动态网络分析的时序文献数据分析方法及装置具有以下优点:
(一)、本发明基于动态网络图分析理论,对时序文献数据进行分析处理,探索潜藏在文献数据中的时序特征,突破了如节点链接法、邻接矩阵等网络数据表示方法,无法展示时序信息的局限性,通过冲突检测算法解决了节点链接法中节点及属性可视化结果重叠的问题;
(二)、本发明提出了一种支持交互干预和冲突检测的可视化流程以及时序特征编码算法(称作色块墙),使时序文献数据通过数据预处理、几何映射、图像渲染等,再通过交互界面操作将用户关心的特征通过可视界面呈现出来;
(三)、本发明提出一种新颖的可视化方法,解决了传统节点链接法无法显示时序信息的局限性,将时序文献数据通过特征提取分析得到作者合作关系的动态网络数据模型,应用这种可视化方法,得到了一种高效的可视化分析模型,基于最终的可视化效果,可以快速的定位高频、低频、突增或突降等时序特征。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于动态网络分析的时序文献数据分析方法的流程框图;
附图2为ColorWall的可视化示意图;
附图3为基于动态网络分析的时序文献数据分析装置的结构框图。
具体实施方式
参照说明书附图和具体实施例对本发明的一种基于动态网络分析的时序文献数据分析方法及装置作以下详细地说明。
实施例1:
如附图1所示,本发明的基于动态网络分析的时序文献数据分析方法,该方法包括如下步骤:
S1、提取时序特征数据,具体步骤如下:
S101、定义S表示时序文献数据集合,时序文献数据采用结构性或非结构性文本的数据格式存储;定义Ri表示S中一条数据记录,0≤i≤n,n表示S的长度,n∈N+;得出:
S:={R1,R2,…,Ri,…,Rn};
S102、时序文献数据包含的数据字段分别为标题、作者列表、发表年份、DOI号、关键词以及摘要,得出:
Ri:={title,authors,year,doi,keywords,abstract,…};
S103、基于时序文献数据分析,挖掘出网络型关系数据,定义动态网络数据G:=(V,RE);其中,V表示顶点集合;RE表示时链集合,RE:=(vi,vj,w,seq),vi∈V,vj∈V,w表示时链边的权重,seq表示时序特征序列;
S104、针对时序文献数据,定义动态网络数据G=f(R);其中,f(R)表示时序特征数据提取方法,具体步骤如下:
S10401、按关键词过滤:关键词是用户感兴趣的特征表达,通过关键词过滤提取出符合用户关注点的数据记录集合S;遍历数据集合S,判断记录r中是否包含关键词特征:
若是,则将记录r添加到候选数据集合CP中;
S10402、计算时间跨度:从候选数据集合CP中,提取时间维度的信息,计算时间维度的起止时间;针对时序文献数据,得出时间跨度的公式为:
ry=maxYear(CP)-minYear(CP)+1;
其中,minYear表示开始时间对应的最小年份值;maxYear表示终止时间对应的最大年份值;ry表示时间跨度,ry将决定动态网络数据模型中时间序列seq的长度;
S10403、提取合作关系特征:遍历候选数据集合CP,针对CP中每一条记录r,提到作者节点信息,添加到顶点集合V中;提取合作关系特征e,e=(vi,vj),添加e到时链集合RE中,并根据记录r的时间属性,更新e的权重和时序特征序列seq中对应年份的值,对应的表达式为:
e[r.year-minYear]+=r.w;
其中,[r.year-minYear]表示数值对应数组e中的一个数组坐标i,i≥0,即第i年对应的权重;
S10404、返回动态网络数据模型G:=(V,RE)。
其中,时序文献数据特征提取算法的主要代码如下:
本发明提出的文献数据分析方法涉及数据分析、时序文献数据特征提取算法、可视化编码、可视化绘制四个流程,在可视化编码过程中,通过一种嵌入式的时序特征可视化方法解决传统节点链接图不能显示时序特征的局限性。
S2、聚类分析,具体步骤如下:
S201、原数据文件应用时序文献数据特征提取算法,生成动态网络数据G,通过应用标准的Clauset-Newman-Moore凝聚式聚类算法,计算得到G的聚类分组为{G1,G2,…,Gi,…,Gn},每个聚类分组Gi对应一个分组权重;
S202、动态网络数据G中聚类分组Gi:=(Vi,REi)的权重等于所有节点的权重之和,对应的表达公式为:Gi.w=∑i(vi.w),其中,0≤i≤n。
S3、可视化布局,被称为EGIB算法,具体步骤如下:
S301、提取动态网络聚类特征:调用标准的Clauset-Newman-Moore聚类分析算法,计算动态网络图G的聚类分组,G:=(G1,G2,G3,…,Gn);
S302、计算每个聚类分组在可视界面中对应的矩形布局区域:针对可视化界面的像素分辨率(宽度和高度),结合G中各个聚类分组的权重,调用标准的正等树图矩阵分割算法,计算得出每个聚类分组对应的矩形布局区域;
S303、计算聚类分组的引力中心点:针对每个聚类分组对应的矩形布局区域,取矩形的中心点fi作为每个聚类分组Gi的引力中心点;
S304、可视化布局:采用力引导布局算法并结合交互干预和冲突检测算法,计算得到G在可视化界面中的最终布局效果,对G进行可视化布局。
其中,EGIB可视化布局算法的主要代码如下:
EGIB可视化布局算法最重要的一步是在采用力引导布局算法的过程中,增加了交互干预和冲突检测算法。其中,力引导布局算法是一种循环递近的算法,每一次循环都会基于一个输入值计算输出一个中间结果值;具体是力引导布局算法是可视化中对网络数据进行可视化布局的现有常规算法,使用力引导算法可以在二维空间中布局网络节点,节点之间用线连接,称为连线。各连线的长度几乎相等,且尽可能不相交。节点和连线都被施加了力的作用,力是根据节点和连线的相对位置计算的。根据力的作用,来计算节点和连线的运动轨迹,并不断降低它们的能量,最终达到一种能量很低的安定状态。
交互干预是在算法启动前通过交互操作预设网络中某些节点的位置坐标,这些节点的位置坐标在算法执行过程中不再改变;
冲突检测算法主要是防止两个节点之间的距离少于设置的临界阈值,即保证两个节点不会离的太近,在力引导布局算法每一次循环结束后,可以通过程序干预的方式临时暂停算法执行,并对这个中间结果值应用冲突检测算法,调整这个中间结果的值,基于调整后的中间结果值作为输入,再启动算法的下一个循环周期,以此类推。
S4、时序特征可视化,具体步骤如下:
S401、基于动态网络数据定义G:=(V,RE),RE:=(vi,vj,w,seq);其中,RE是时序特征的数据模型,seq保存着时间序列数据;
S402、针对RE采用ColorWall(色块墙)的可视化方法,将seq中的时间序列数据经过可视化编码后,绘制在(vi,vj)的关系曲线边上。其中,(vi,vj)的关系曲线采用60度夹角曲线段的顺时针方向表示节点vi到节点vj的指向关系,时序特征数据按时间增序沿曲线段方向排列,如附图2所示,其中ABC三点分别表示三位作者,BA之间的曲线按顺时针方向表示B指向A的有向关系,同理BC之间曲线表示B指向C,CA之间的曲线表示C指向A。
实施例2:
如附图3所示,基于动态网络分析的时序文献数据分析装置,该装置包括,
时序特征数据提取单元,用于从时序文献数据中提取时序特征数据,根据时序特征数据挖掘出网络型关系数据,根据网络型关系数据定义动态网络数据;
聚类分析单元,用于根据原数据文件应用时序文献数据特征提取算法,生成动态网络数据G,通过应用标准的Clauset-Newman-Moore凝聚式聚类算法,计算得到G的聚类分组Gi,聚类分组Gi权重等于节点的权重之和;
可视化布局单元,用于针对聚类分组{G1,G2,…,Gi,…,Gn}以及每个分组对应的分组权重,基于可视化界面的宽度和高度,调用标准正等树图矩阵分割算法,计算得到每个聚类分组Gi在可视化界面中对应的布局区域,布局区域的中心点记为fi,作为Gi的引力中心点,采用力引导布局算法并结合冲突检测算法,计算得到G在可视化界面中的最终布局效果;
时序特征可视化单元,用于针对RE采用ColorWall(色块墙)的可视化方法,将seq中的时间序列数据经过可视化编码后,绘制在(vi,vj)的关系曲线边上。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种基于动态网络分析的时序文献数据分析方法,其特征在于,该方法包括如下步骤:
S1、提取时序特征数据;
S2、聚类分析;
S3、可视化布局;
S4、时序特征可视化。
2.根据权利要求1所述的基于动态网络分析的时序文献数据分析方法,其特征在于,所述步骤S1中提取时序特征数据的具体步骤如下:
S101、定义S表示时序文献数据集合,时序文献数据采用结构性或非结构性文本的数据格式存储;定义Ri表示S中一条数据记录,0≤i≤n,n表示S的长度,n∈N+;得出:
S:={R1,R2,…,Ri,…,Rn};
S102、时序文献数据包含的数据字段分别为标题、作者列表、发表年份、DOI号、关键词以及摘要,得出:
Ri:={title,authors,year,doi,keywords,abstract,…};
S103、基于时序文献数据分析,挖掘出网络型关系数据,定义动态网络数据G:=(V,RE);其中,V表示顶点集合;RE表示时链集合,RE:=(vi,vj,w,seq),vi∈V,vj∈V,w表示时链边的权重,seq表示时序特征序列;
S104、针对时序文献数据,定义动态网络数据G=f(R);其中,f(R)表示时序特征数据提取方法。
3.根据权利要求2所述的基于动态网络分析的时序文献数据分析方法,其特征在于,所述步骤S104中时序特征数据提取方法的具体步骤如下:
S10401、按关键词过滤:关键词是用户感兴趣的特征表达,通过关键词过滤提取出符合用户关注点的数据记录集合S;遍历数据集合S,判断记录r中是否包含关键词特征:
若是,则将记录r添加到候选数据集合CP中;
S10402、计算时间跨度:从候选数据集合CP中,提取时间维度的信息,计算时间维度的起止时间;针对时序文献数据,得出时间跨度的公式为:
ry=maxYear(CP)-minYear(CP)+1;
其中,minYear表示开始时间对应的最小年份值;maxYear表示终止时间对应的最大年份值;ry表示时间跨度,ry将决定动态网络数据模型中时间序列seq的长度;
S10403、提取合作关系特征:遍历候选数据集合CP,针对CP中每一条记录r,提到作者节点信息,添加到顶点集合V中;提取合作关系特征e,e=(vi,vj),添加e到时链集合RE中,并根据记录r的时间属性,更新e的权重和时序特征序列seq中对应年份的值,对应的表达式为:
e[r.year-minYear]+=r.w;
其中,[r.year-minYear]表示数值对应数组e中的一个数组坐标i,i≥0,即第i年对应的权重;
S10404、返回动态网络数据模型G:=(V,RE)。
4.根据权利要求1所述的基于动态网络分析的时序文献数据分析方法,其特征在于,所述步骤S2中聚类分析的具体步骤如下:
S201、原数据文件应用时序文献数据特征提取算法,生成动态网络数据G,通过应用标准的Clauset-Newman-Moore凝聚式聚类算法,计算得到G的聚类分组为{G1,G2,…,Gi,…,Gn},每个聚类分组Gi对应一个分组权重;
S202、动态网络数据G中聚类分组Gi:=(Vi,REi)的权重等于所有节点的权重之和,对应的表达公式为:Gi.w=∑i(vi.w),其中,0≤i≤n。
5.根据权利要求1所述的基于动态网络分析的时序文献数据分析方法,其特征在于,所述步骤S3中可视化布局的具体步骤如下:
S301、提取动态网络聚类特征:调用标准的Clauset-Newman-Moore聚类分析算法,计算动态网络图G的聚类分组,G:=(G1,G2,G3,…,Gn);
S302、计算每个聚类分组在可视界面中对应的矩形布局区域:针对可视化界面的像素分辨率,结合G中各个聚类分组的权重,调用标准的正等树图矩阵分割算法,计算得出每个聚类分组对应的矩形布局区域;
S303、计算聚类分组的引力中心点:针对每个聚类分组对应的矩形布局区域,取矩形的中心点fi作为每个聚类分组Gi的引力中心点;
S304、可视化布局:采用力引导布局算法并结合交互干预和冲突检测算法,计算得到G在可视化界面中的最终布局效果,对G进行可视化布局。
6.根据权利要求1所述的基于动态网络分析的时序文献数据分析方法,其特征在于,所述步骤S4中时序特征可视化的具体步骤如下:
S401、基于动态网络数据定义G:=(V,RE),RE:=(vi,vj,w,seq);其中,RE是时序特征的数据模型,seq保存着时间序列数据;
S402、针对RE采用ColorWall的可视化方法,将seq中的时间序列数据经过可视化编码后,绘制在(vi,vj)的关系曲线边上。
7.根据权利要求6所述的基于动态网络分析的时序文献数据分析方法,其特征在于,所述步骤S402中(vi,vj)的关系曲线采用60度夹角曲线段的顺时针方向表示节点vi到节点vj的指向关系,时序特征数据按时间增序沿曲线段方向排列。
8.一种基于动态网络分析的时序文献数据分析装置,其特征在于,该装置包括,
时序特征数据提取单元,用于从时序文献数据中提取时序特征数据,根据时序特征数据挖掘出网络型关系数据,根据网络型关系数据定义动态网络数据;
聚类分析单元,用于根据原数据文件应用时序文献数据特征提取算法,生成动态网络数据G,通过应用标准的Clauset-Newman-Moore凝聚式聚类算法,计算得到G的聚类分组Gi,聚类分组Gi权重等于节点的权重之和;
可视化布局单元,用于针对聚类分组{G1,G2,…,Gi,…,Gn}以及每个分组对应的分组权重,基于可视化界面的宽度和高度,调用标准正等树图矩阵分割算法,计算得到每个聚类分组Gi在可视化界面中对应的布局区域,布局区域的中心点记为fi,作为Gi的引力中心点,采用力引导布局算法并结合冲突检测算法,计算得到G在可视化界面中的最终布局效果;
时序特征可视化单元,用于针对RE采用ColorWall的可视化方法,将seq中的时间序列数据经过可视化编码后,绘制在(vi,vj)的关系曲线边上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910388412.XA CN110110074A (zh) | 2019-05-10 | 2019-05-10 | 一种基于动态网络分析的时序文献数据分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910388412.XA CN110110074A (zh) | 2019-05-10 | 2019-05-10 | 一种基于动态网络分析的时序文献数据分析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110110074A true CN110110074A (zh) | 2019-08-09 |
Family
ID=67489305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910388412.XA Pending CN110110074A (zh) | 2019-05-10 | 2019-05-10 | 一种基于动态网络分析的时序文献数据分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110110074A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111309917A (zh) * | 2020-03-11 | 2020-06-19 | 上海交通大学 | 基于会议期刊星系图的超大规模学术网络可视化方法及系统 |
CN113704412A (zh) * | 2021-08-31 | 2021-11-26 | 交通运输部科学研究院 | 交通运输领域变革性研究文献早期识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217073A (zh) * | 2014-08-26 | 2014-12-17 | 重庆邮电大学 | 一种网络社团引力导引的可视化布局方法 |
CN105589948A (zh) * | 2015-12-18 | 2016-05-18 | 重庆邮电大学 | 一种文献引用网络可视化及文献推荐方法及系统 |
CN107527295A (zh) * | 2017-08-24 | 2017-12-29 | 中南大学 | 基于时态合著网络的学术团队动态社区发现方法及其质量评估方法 |
CN108509481A (zh) * | 2018-01-18 | 2018-09-07 | 天津大学 | 基于文献共引聚类的研究前沿可视分析方法 |
-
2019
- 2019-05-10 CN CN201910388412.XA patent/CN110110074A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217073A (zh) * | 2014-08-26 | 2014-12-17 | 重庆邮电大学 | 一种网络社团引力导引的可视化布局方法 |
CN105589948A (zh) * | 2015-12-18 | 2016-05-18 | 重庆邮电大学 | 一种文献引用网络可视化及文献推荐方法及系统 |
CN107527295A (zh) * | 2017-08-24 | 2017-12-29 | 中南大学 | 基于时态合著网络的学术团队动态社区发现方法及其质量评估方法 |
CN108509481A (zh) * | 2018-01-18 | 2018-09-07 | 天津大学 | 基于文献共引聚类的研究前沿可视分析方法 |
Non-Patent Citations (1)
Title |
---|
MING JING ET.AL.: ""Interactive temporal display through collaboration networks visualization"", 《INFORMATIONVISUALIZATION》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111309917A (zh) * | 2020-03-11 | 2020-06-19 | 上海交通大学 | 基于会议期刊星系图的超大规模学术网络可视化方法及系统 |
CN113704412A (zh) * | 2021-08-31 | 2021-11-26 | 交通运输部科学研究院 | 交通运输领域变革性研究文献早期识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gajer et al. | Grip: Graph drawing with intelligent placement | |
Ersoy et al. | Skeleton-based edge bundling for graph visualization | |
Liu et al. | Graph-based method for face identification from a single 2D line drawing | |
CN111275820B (zh) | 基于二维平面绘制三维墙体方法、装置、终端和存储介质 | |
CN107644067A (zh) | 一种二三维一体化的跨平台室内地图显示方法 | |
JP2007328456A (ja) | オブジェクト表示処理装置、オブジェクト表示処理方法、およびオブジェクト表示処理用プログラム | |
CN109543162A (zh) | 数据的多图表展示方法、装置、计算机设备和存储介质 | |
KR20140142470A (ko) | 나무 모델과 숲 모델 생성 방법 및 장치 | |
McGrath et al. | Visualizing complexity in networks: Seeing both the forest and the trees | |
CN110110074A (zh) | 一种基于动态网络分析的时序文献数据分析方法及装置 | |
CN104899258A (zh) | 面向海量文献信息可交互可视化分析系统架构 | |
CN105955935A (zh) | 一种文字控件的实现方法及其装置 | |
CN110414429A (zh) | 人脸聚类方法、装置、设备和存储介质 | |
CN109669751A (zh) | 一种输入框的绘制方法、装置、终端及计算机存储介质 | |
Di Battista et al. | Automatic layout of PERT diagrams with X-PERT | |
JP2017004305A (ja) | 解析モデル作成支援システム、解析モデル作成支援装置及び解析モデル作成支援プログラム | |
JP2005055573A (ja) | 高速表示処理装置 | |
CN109657023B (zh) | 景区动态电子地图绘制方法、服务器及系统 | |
CN104766367A (zh) | 一种计算三维模型处理中三维网格拓扑结构图构造方法 | |
CN109461198A (zh) | 网格模型的处理方法及装置 | |
CN114627207A (zh) | 流程图处理方法以及装置 | |
CN106648634A (zh) | 一种屏幕截屏的方法及装置 | |
CN105844689A (zh) | 一种使用维度空间技术进行多维数据同步管理的方法 | |
Kumar et al. | Automatic retargeting of web page content | |
Wiley et al. | Representation of interwoven surfaces in 2 1/2 D drawing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190809 |