CN110110074A

CN110110074A - 一种基于动态网络分析的时序文献数据分析方法及装置

Info

Publication number: CN110110074A
Application number: CN201910388412.XA
Authority: CN
Inventors: 张丽; 井明
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2019-08-09

Abstract

本发明公开了一种基于动态网络分析的时序文献数据分析方法及装置，属于文献数据分析技术领域，本发明要解决的技术问题为如何避免节点链接法中节点及属性可视化结果重叠，突破节点链接法、邻接矩阵等网络数据表示方法，同时突破展示时序信息的局限性，采用的技术方案为：①一种基于动态网络分析的时序文献数据分析方法，该方法包括如下步骤：S1、提取时序特征数据；S2、聚类分析；S3、可视化布局；S4、时序特征可视化。②一种基于动态网络分析的时序文献数据分析装置，该装置包括时序特征数据提取单元、聚类分析单元、可视化布局单元以及时序特征可视化单元。

Description

一种基于动态网络分析的时序文献数据分析方法及装置

技术领域

本发明涉及文献数据分析技术领域，具体地说是一种基于动态网络分析的时序文献数据分析方法及装置。

背景技术

学术社交网络通常是通过研究人员之间的合著关系以及他们发表的著作之间的文献引用关系表示的。一些常用变量，例如，题目、作者、引用，是了解文献关系的重要参考项。但是随着文献网络关系中涉及的实体及其关系数据量的增多，文献网络在可视界面上将变得庞大且杂乱，影响文献网络的可视分析效果。针对这种情况，可以通过一些可视化技术，如聚类、阈值过滤，用于简化可视视图，再通过着色渲染，网络视图可以更形象的展示特征。但是，当数据集中包含有时序信息时，就需要借助新的可视技术才能高效的实现可视显示。与科学计算领域其它包含时空信息的动态数据集相比，学术社交网络总是包含大量用来表示实体及实体关系的直线或曲线，所以学术社交网络的可视表达方式总是错综复杂，难以辨别特征。

当文献数据包含时序数据时，文献数据分析方法必须引入一个新的可视方法，将时间相关的特征显示为一个维度的数据，一种有效的可视方法是把时间可视编码表示成直线，并且单独显示在可视界面的底部。一些重要的事件可以通过绑定到时间线上，并通过交互的方式显示事业的详情。使用常规的时间可视编码方式，时间跨度越大或时间点越多，时间线越长，需要跨越整个甚至多个可视界面，既不能对时序数据进行有效的可视化，也不便于发现时序数据中的时序特征。为了解决时间线过长的问题，研究人员提出了很多解决方案，比如，先通过聚类的方法简化时间维度，然后对时间维度着以不同的颜色。这些解决方案的关键在于设计聚类算法和着色方案，而且使用这些解决方案设计的可视界面，使用者需要更多的时间用于查找时序特征。

文献数据集经常包含大量复杂的信息，所以对文献数据集采用网络类的可视化方法进行展示，展示结果往往是杂乱无章的。为了让展示结果更加清晰，一些面向网络的简化算法被提出来用于简化网络视图，这些算法在不影响网络拓扑结构和时序信息上下文的前提下，显著降低了动态网络的可视复杂度，但是也有一些用户可能关心的时序信息因为过度的数据过滤而被隐藏起来。

综上所述，如何避免节点链接法中节点及属性可视化结果重叠，突破节点链接法、邻接矩阵等网络数据表示方法，同时突破展示时序信息的局限性是目前现有技术中存在的技术问题。

专利号为CN108509481A的专利文献公开了一种基于文献共引聚类的研究前沿可视分析方法：建立所研究领域的文献数据库，对所下载的论文数据进行编码；抽取文献数据库中引用次数靠前的施引文献作为核心高被引施引文献，引用次数靠前的外部参考文献作为高被引外部参考文献，将高被引外部参考文献添加到核心高被引施引文献中共同作为核心高被引的施引文献；生成核心高被引施引文献的直引矩阵和共引矩阵；将共引矩阵中为零的数值通过直引矩阵中对应位置的数值变换来赋值；基于共引矩阵，生成共引网络并从网络中找到稠密的子图；对前沿话题进行术语抽取；对共引网络的聚类结果进行可视分析设计。但是该技术方案不能避免节点链接法中节点及属性可视化结果重叠，无法突破节点链接法、邻接矩阵等网络数据表示方法，无法展示时序信息的局限性。

发明内容

本发明的技术任务是提供一种基于动态网络分析的时序文献数据分析方法及装置，来解决如何避免节点链接法中节点及属性可视化结果重叠，突破节点链接法、邻接矩阵等网络数据表示方法，同时突破展示时序信息的局限性的问题。

本发明的技术任务是按以下方式实现的，一种基于动态网络分析的时序文献数据分析方法，该方法包括如下步骤：

S1、提取时序特征数据；

S2、聚类分析；

S3、可视化布局；

S4、时序特征可视化。

作为优选，所述步骤S1中提取时序特征数据的具体步骤如下：

S101、定义S表示时序文献数据集合，时序文献数据采用结构性或非结构性文本的数据格式存储；定义R_i表示S中一条数据记录，0≤i≤n，n表示S的长度，n∈N⁺；得出：

S:＝{R₁，R₂，…，R_i，…，R_n}；

S102、时序文献数据包含的数据字段分别为标题、作者列表、发表年份、DOI号、关键词以及摘要，得出：

R_i:＝{title,authors,year,doi,keywords,abstract,…}；

S103、基于时序文献数据分析，挖掘出网络型关系数据，定义动态网络数据G:＝(V，RE)；其中，V表示顶点集合；RE表示时链集合，RE:＝(v_i，v_j，w，seq)，v_i∈V，v_j∈V，w表示时链边的权重，seq表示时序特征序列；

S104、针对时序文献数据，定义动态网络数据G＝f(R)；其中，f(R)表示时序特征数据提取方法。

更优地，所述步骤S104中时序特征数据提取方法的具体步骤如下：

S10401、按关键词过滤：关键词是用户感兴趣的特征表达，通过关键词过滤提取出符合用户关注点的数据记录集合S；遍历数据集合S，判断记录r中是否包含关键词特征：

若是，则将记录r添加到候选数据集合CP中；

S10402、计算时间跨度：从候选数据集合CP中，提取时间维度的信息，计算时间维度的起止时间；针对时序文献数据，得出时间跨度的公式为：

ry＝maxYear(CP)-minYear(CP)+1；

其中，minYear表示开始时间对应的最小年份值；maxYear表示终止时间对应的最大年份值；ry表示时间跨度，ry将决定动态网络数据模型中时间序列seq的长度；

S10403、提取合作关系特征：遍历候选数据集合CP，针对CP中每一条记录r，提到作者节点信息，添加到顶点集合V中；提取合作关系特征e，e＝(v_i,v_j)，添加e到时链集合RE中，并根据记录r的时间属性，更新e的权重和时序特征序列seq中对应年份的值，对应的表达式为：

e[r.year-minYear]+＝r.w；

其中，[r.year-minYear]表示数值对应数组e中的一个数组坐标i，i≥0，即第i年对应的权重；

S10404、返回动态网络数据模型G:＝(V，RE)。

作为优选，所述步骤S2中聚类分析的具体步骤如下：

S201、原数据文件应用时序文献数据特征提取算法，生成动态网络数据G，通过应用标准的Clauset-Newman-Moore凝聚式聚类算法，计算得到G的聚类分组为{G₁，G₂，…，G_i，…，G_n},每个聚类分组G_i对应一个分组权重；

S202、动态网络数据G中聚类分组G_i:＝(V_i，RE_i)的权重等于所有节点的权重之和，对应的表达公式为：G_i.w＝∑_i(v_i.w)，其中，0≤i≤n。

作为优选，所述步骤S3中可视化布局的具体步骤如下：

S301、提取动态网络聚类特征：调用标准的Clauset-Newman-Moore聚类分析算法，计算动态网络图G的聚类分组，G:＝(G₁，G₂，G₃，…，G_n)；

S302、计算每个聚类分组在可视界面中对应的矩形布局区域：针对可视化界面的像素分辨率(宽度和高度)，结合G中各个聚类分组的权重，调用标准的正等树图矩阵分割算法，计算得出每个聚类分组对应的矩形布局区域；

S303、计算聚类分组的引力中心点：针对每个聚类分组对应的矩形布局区域，取矩形的中心点f_i作为每个聚类分组G_i的引力中心点；

S304、可视化布局：采用力引导布局算法并结合交互干预和冲突检测算法，计算得到G在可视化界面中的最终布局效果，对G进行可视化布局。

作为优选，所述步骤S4中时序特征可视化的具体步骤如下：

S401、基于动态网络数据定义G:＝(V，RE)，RE:＝(v_i，v_j，w，seq)；其中，RE是时序特征的数据模型，seq保存着时间序列数据；

S402、针对RE采用ColorWall(色块墙)的可视化方法，将seq中的时间序列数据经过可视化编码后，绘制在(v_i,v_j)的关系曲线边上。

更优地，所述步骤S402中(v_i,v_j)的关系曲线采用60度夹角曲线段的顺时针方向表示节点v_i到节点v_j的指向关系，时序特征数据按时间增序沿曲线段方向排列。

一种基于动态网络分析的时序文献数据分析装置，该装置包括，

时序特征数据提取单元，用于从时序文献数据中提取时序特征数据，根据时序特征数据挖掘出网络型关系数据，根据网络型关系数据定义动态网络数据；

聚类分析单元，用于根据原数据文件应用时序文献数据特征提取算法，生成动态网络数据G，通过应用标准的Clauset-Newman-Moore凝聚式聚类算法，计算得到G的聚类分组G_i，聚类分组G_i权重等于节点的权重之和；

可视化布局单元，用于针对聚类分组{G₁，G₂，…，G_i，…，G_n}以及每个分组对应的分组权重，基于可视化界面的宽度和高度，调用标准正等树图矩阵分割算法，计算得到每个聚类分组G_i在可视化界面中对应的布局区域，布局区域的中心点记为f_i，作为G_i的引力中心点，采用力引导布局算法并结合冲突检测算法，计算得到G在可视化界面中的最终布局效果；

时序特征可视化单元，用于针对RE采用ColorWall(色块墙)的可视化方法，将seq中的时间序列数据经过可视化编码后，绘制在(v_i,v_j)的关系曲线边上。

本发明的基于动态网络分析的时序文献数据分析方法及装置具有以下优点：

(一)、本发明基于动态网络图分析理论，对时序文献数据进行分析处理，探索潜藏在文献数据中的时序特征，突破了如节点链接法、邻接矩阵等网络数据表示方法，无法展示时序信息的局限性，通过冲突检测算法解决了节点链接法中节点及属性可视化结果重叠的问题；

(二)、本发明提出了一种支持交互干预和冲突检测的可视化流程以及时序特征编码算法(称作色块墙)，使时序文献数据通过数据预处理、几何映射、图像渲染等，再通过交互界面操作将用户关心的特征通过可视界面呈现出来；

(三)、本发明提出一种新颖的可视化方法，解决了传统节点链接法无法显示时序信息的局限性，将时序文献数据通过特征提取分析得到作者合作关系的动态网络数据模型，应用这种可视化方法，得到了一种高效的可视化分析模型，基于最终的可视化效果，可以快速的定位高频、低频、突增或突降等时序特征。

附图说明

下面结合附图对本发明进一步说明。

附图1为基于动态网络分析的时序文献数据分析方法的流程框图；

附图2为ColorWall的可视化示意图；

附图3为基于动态网络分析的时序文献数据分析装置的结构框图。

具体实施方式

参照说明书附图和具体实施例对本发明的一种基于动态网络分析的时序文献数据分析方法及装置作以下详细地说明。

实施例1：

如附图1所示，本发明的基于动态网络分析的时序文献数据分析方法,该方法包括如下步骤：

S1、提取时序特征数据，具体步骤如下：

S:＝{R₁，R₂，…，R_i，…，R_n}；

R_i:＝{title,authors,year,doi,keywords,abstract,…}；

S104、针对时序文献数据，定义动态网络数据G＝f(R)；其中，f(R)表示时序特征数据提取方法，具体步骤如下：

若是，则将记录r添加到候选数据集合CP中；

ry＝maxYear(CP)-minYear(CP)+1；

e[r.year-minYear]+＝r.w；

S10404、返回动态网络数据模型G:＝(V，RE)。

其中，时序文献数据特征提取算法的主要代码如下：

本发明提出的文献数据分析方法涉及数据分析、时序文献数据特征提取算法、可视化编码、可视化绘制四个流程，在可视化编码过程中，通过一种嵌入式的时序特征可视化方法解决传统节点链接图不能显示时序特征的局限性。

S2、聚类分析，具体步骤如下：

S3、可视化布局，被称为EGIB算法，具体步骤如下：

其中，EGIB可视化布局算法的主要代码如下：

EGIB可视化布局算法最重要的一步是在采用力引导布局算法的过程中，增加了交互干预和冲突检测算法。其中，力引导布局算法是一种循环递近的算法，每一次循环都会基于一个输入值计算输出一个中间结果值；具体是力引导布局算法是可视化中对网络数据进行可视化布局的现有常规算法，使用力引导算法可以在二维空间中布局网络节点，节点之间用线连接，称为连线。各连线的长度几乎相等，且尽可能不相交。节点和连线都被施加了力的作用，力是根据节点和连线的相对位置计算的。根据力的作用，来计算节点和连线的运动轨迹，并不断降低它们的能量，最终达到一种能量很低的安定状态。

交互干预是在算法启动前通过交互操作预设网络中某些节点的位置坐标，这些节点的位置坐标在算法执行过程中不再改变；

冲突检测算法主要是防止两个节点之间的距离少于设置的临界阈值，即保证两个节点不会离的太近，在力引导布局算法每一次循环结束后，可以通过程序干预的方式临时暂停算法执行，并对这个中间结果值应用冲突检测算法，调整这个中间结果的值，基于调整后的中间结果值作为输入，再启动算法的下一个循环周期，以此类推。

S4、时序特征可视化，具体步骤如下：

S402、针对RE采用ColorWall(色块墙)的可视化方法，将seq中的时间序列数据经过可视化编码后，绘制在(v_i,v_j)的关系曲线边上。其中，(v_i,v_j)的关系曲线采用60度夹角曲线段的顺时针方向表示节点v_i到节点v_j的指向关系，时序特征数据按时间增序沿曲线段方向排列，如附图2所示，其中ABC三点分别表示三位作者，BA之间的曲线按顺时针方向表示B指向A的有向关系，同理BC之间曲线表示B指向C，CA之间的曲线表示C指向A。

实施例2：

如附图3所示，基于动态网络分析的时序文献数据分析装置，该装置包括，

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于动态网络分析的时序文献数据分析方法，其特征在于，该方法包括如下步骤：

S1、提取时序特征数据；

S2、聚类分析；

S3、可视化布局；

S4、时序特征可视化。

2.根据权利要求1所述的基于动态网络分析的时序文献数据分析方法，其特征在于，所述步骤S1中提取时序特征数据的具体步骤如下：

S:＝{R₁，R₂，…，R_i，…，R_n}；

R_i:＝{title,authors,year,doi,keywords,abstract,…}；

3.根据权利要求2所述的基于动态网络分析的时序文献数据分析方法，其特征在于，所述步骤S104中时序特征数据提取方法的具体步骤如下：

若是，则将记录r添加到候选数据集合CP中；

ry＝maxYear(CP)-minYear(CP)+1；

e[r.year-minYear]+＝r.w；

S10404、返回动态网络数据模型G:＝(V，RE)。

4.根据权利要求1所述的基于动态网络分析的时序文献数据分析方法，其特征在于，所述步骤S2中聚类分析的具体步骤如下：

5.根据权利要求1所述的基于动态网络分析的时序文献数据分析方法，其特征在于，所述步骤S3中可视化布局的具体步骤如下：

S302、计算每个聚类分组在可视界面中对应的矩形布局区域：针对可视化界面的像素分辨率，结合G中各个聚类分组的权重，调用标准的正等树图矩阵分割算法，计算得出每个聚类分组对应的矩形布局区域；

6.根据权利要求1所述的基于动态网络分析的时序文献数据分析方法，其特征在于，所述步骤S4中时序特征可视化的具体步骤如下：

S402、针对RE采用ColorWall的可视化方法，将seq中的时间序列数据经过可视化编码后，绘制在(v_i,v_j)的关系曲线边上。

7.根据权利要求6所述的基于动态网络分析的时序文献数据分析方法，其特征在于，所述步骤S402中(v_i,v_j)的关系曲线采用60度夹角曲线段的顺时针方向表示节点v_i到节点v_j的指向关系，时序特征数据按时间增序沿曲线段方向排列。

8.一种基于动态网络分析的时序文献数据分析装置，其特征在于，该装置包括，

时序特征可视化单元，用于针对RE采用ColorWall的可视化方法，将seq中的时间序列数据经过可视化编码后，绘制在(v_i,v_j)的关系曲线边上。