CN108509481B

CN108509481B - 基于文献共引聚类的研究前沿可视分析方法

Info

Publication number: CN108509481B
Application number: CN201810050342.2A
Authority: CN
Inventors: 张加万; 代文静; 王萌; 郭青云
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-01-18
Filing date: 2018-01-18
Publication date: 2019-08-27
Anticipated expiration: 2038-01-18
Also published as: CN108509481A

Abstract

本发明涉及一种基于文献共引聚类的研究前沿可视分析方法：建立所研究领域的文献数据库，对所下载的论文数据进行编码；抽取文献数据库中引用次数靠前的施引文献作为核心高被引施引文献，引用次数靠前的外部参考文献作为高被引外部参考文献，将高被引外部参考文献添加到核心高被引施引文献中共同作为核心高被引的施引文献；生成核心高被引施引文献的直引矩阵和共引矩阵；将共引矩阵中为零的数值通过直引矩阵中对应位置的数值变换来赋值；基于共引矩阵，生成共引网络并从网络中找到稠密的子图；对前沿话题进行术语抽取；对共引网络的聚类结果进行可视分析设计。

Description

基于文献共引聚类的研究前沿可视分析方法

技术领域

本发明涉及文献计量学和可视分析技术领域，使用一种文献共引和直引相结合的方法对人工智能领域的研究前沿进行可视挖掘和演变分析。

背景技术

研究前沿代表了科学技术最具活力的领域，也吸引了许多研究者的兴趣。研究前沿的侦测对于研究者认识最新的领域，从整体查看研究话题状态，并抓住重要的跨学科机遇是非常重要的。前沿话题的发展和联系也为研究者提供了一种从时间和领域维度上查看研究话题的视角，并帮助启发新的发现。通常，前沿话题由一组高被引的论文组成，这组论文代表了当前文献的结构特征，尤其是那些比较新的文献。随着新发现的出现和研究人员兴趣的转移，引文网络结构和前沿话题会随时间发生变化。了解特定领域的研究前沿，不仅能了解目前发展现状和未来趋势，也能为政府制定相关技术政策提供依据，因此研究前沿的侦测和趋势分析对科学研究者有着重大的意义。

文献共引是由美国情报学家亨利.斯莫尔于1973年提出的概念[1],主要目标是确定科学知识领域的知识结构。经过大量研究者的努力，文献共引已经推广到与文献相关的各种特征对象上，形成了词共引、文献共引、著者共引、期刊共引、主题共引和类共引等多种共引方式。在共引分析领域最常见的是文献共引分析研究和作者共引分析研究。

目前用来侦测研究前沿的主要文献计量技术有：引用分析、直接引用、文献耦合、共引分析、共词分析、关键词分析和合著分析等，其中在近年来被广泛使用的是文献耦合分析和共引分析。在前沿话题的研究中，文献共引分析可以有效的展示高被引文章之间的引用联系，从而体现文章的话题集中趋势，在话题的侦测和时间演变上被广泛应用，产生了大量的文献。然而，由于部分核心施引文献是近年发表的，还未被共同引用，如何将其分配到引用网络中仍然是一个需要解决的问题。有些研究者将这部分文献直接忽略，导致了一个局部的引用结构图。一些人制定了非常复杂和模糊的规则来解决这个问题。

前沿话题侦测完成后，对话题的后续解读和趋势分析也是需要重点关注的问题。然而，在对研究前沿进行可视化分析的研究中，必须解决如何将当前核心施引论文分配到簇以及如何使用可视化分析来展示这些前沿的问题。其中引用关系的视觉表现有多种方式，1965年，Derek J.de Solla Price在他的文章“科学论文网络”[2]中指出了科学论文之间的网络关系，然而目前很少有人将可视分析技术应用到前沿话题的侦测和时间演变中。本发明为此提供一种研究前沿话题的可视分析方法，帮助用户在话题间进行交互探索，从而更好的观察共引网络结构和话题演变趋势。

[1]Small H.Co‐citation in the scientific literature:A new measure ofthe relationship between two documents[J].Journal of the Association forInformation Science and Technology,1973,24(4):265-269.

[2]Price D J D S.Networks of scientific papers[J].Science,1965:510-515.

发明内容

本发明的目的是提供一种使话题的共引结构更加完备，可进行用户交互的研究前沿可视分析方法。在前沿话题的侦测和趋势分析中，本发明包含了除去数据间内部引用的外部引用，并运用直引的方式将最新的未被共引的文献添加到共引网络当中，使网络结构更加完善。同时本话题对话题间结构和演变趋势进行了可视分析设计，使用户可以从节点，网络结构，时间演变三个维度进行话题探索。技术方案如下：

一种基于文献共引聚类的研究前沿可视分析方法，包括以下步骤：

步骤一、建立所研究领域的文献数据库，对所下载的论文数据进行编码，这些论文称为施引文献，其中包含论文的基本信息：论文题目，摘要，关键字，作者，被引数量，参考文献；

步骤二、从施引文献的基本信息中，抽取参考文献并进行编码，同时建立施引文献和参考文献的引用关系数据表，参考文献包含内部参考文献IR，外部参考文献ER，其中，内部参考文献代表该参考文献在文献数据库中，否则为外部参考文献；

步骤三、抽取文献数据库中引用次数靠前的施引文献作为核心高被引施引文献，引用次数靠前的外部参考文献作为高被引外部参考文献，将高被引外部参考文献添加到核心高被引施引文献中共同作为核心高被引的施引文献；根据上一步骤构成的引用关系数据表可以生成核心高被引施引文献的直引矩阵，直引矩阵描述了核心高被引的施引文献之间的直接引用关系，如果一篇施引文献引用了另一篇施引文献，则在直引矩阵中对应位置标注为1，共引矩阵使用共同引用的方式描述两篇施引文献的相似度，称为共引相似度，共引矩阵可以由直引矩阵直接转化而成，共引矩阵中第i个节点和第j个节点的元素即共引相似度为：

c_i，c_j表示节点i和j的引用次数；

步骤四、遍历共引矩阵，将共引矩阵中为零的数值通过直引矩阵中对应位置的数值变换来赋值，其变换公式为：

其中t_value为0.7；

步骤五、基于共引矩阵，生成共引网络并从网络中找到稠密的子图，根据节点间相互距离和权重应用拓扑聚类方法将网络划分成簇，从而找到在每个簇中具有高密度链接的紧密结合的部分；

步骤六、将上一步骤中划分为簇的网络数据转化为json格式，并在力导向图force-directed Graph中展示和发掘，其中：每个节点代表一篇论文；不同的颜色表征着不同的话题领域；节点大小由中介中心性来指示节点的重要性，最大节点尺寸标记中介中心度大于0.5，中间节点尺寸表示中介中心度在0.3和0.5之间，普通节点表示中介中心度小于0.3；

步骤七、对前沿话题进行术语抽取，选择文献数据库中施引文献的关键词作为特征词，对每个簇的关键字进行术语频率统计，计算其相似性，将这些关键字按单数/复数，拼写错误，缩略词或包含关系进行合并，并对关键字进行手工清洗以确保其准确性；确定阈值，选取符合阈值的关键字进行可视化展示和分析；

步骤八、对共引网络的聚类结果进行可视分析设计，增加可视导航和过滤操作，用以观察两个簇之间的关系并帮助探索共引网络结构，提供时间演变共引网络结构视图，分析簇群的可统计属性并进行展示，包括单个簇的节点总数，总引用次数和平均出版年份。

与现有的技术相比，本发明在生成共引网络时，不仅仅考虑了已经被共同引用的文章，还加入了最新发表的未被共同引用的文章，提高了共引网络结构的准确性和全面性。其次，提供了一种探索话题之间关系以及演变趋势的可视化分析框架，采用交互过滤方式来促进理解前沿话题的差异和共性，提高用户对关键信息的阅读和认知能力。另外，本发明对外部引用进行了编码和可视化展示，增加了簇群间的耦合性，提供了对该话题的核心和基础文献的认识，便于用户识别奠定该领域的核心文献。

附图说明

图1是基于文献共引聚类的研究前沿可视分析方法的流程图；

图2是对人工智能领域文献共引聚类后的前沿话题结果图题结果图，(a)到(j)代表10个研究前沿话题，依次是分类，识别，特征选择，图像去噪，强化学习，神经网络，优化问题，三维表示，粗糙集和模糊系统；

图3是话题结果图中对每个簇群属性统计的结果图：

(a)是簇群大小的结果图

(b)是簇群总引用次数的结果图

(c)是簇群平均出版年份的结果图

图4是对表征前沿话题的关键字的两个词云结果示例图

(a)是分类话题下的关键字的词云结果图

(b)是识别话题下的关键字的词云结果图

图5是在不包含外部参考文献的情况下，前沿话题在2010年到2015年间每年随时间变化的文献趋势结果图

图6是在包含外部参考文献的情况下，前沿话题在2010年到2015年间每年随时间变化的文献趋势结果图

具体实施方式

本发明提供一种基于文献共引聚类的研究前沿可视分析方法，在考虑共引网络的同时，增加了直引因素的影响，并包含了外部参考文献，使话题的共引结构更加完备。同时本发明运用可视分析技术对话题间结构和演变趋势进行了分析，使用户可以从节点，网络结构，时间演变三个维度进行话题探索，提高了用户对关键信息的阅读和认知能力。

下面结合附图和具体实施流程对本发明进行详细的说明，本发明方法包含以下步骤：

步骤一、建立人工智能领域在2010年到2015年间的文献数据库。根据CCF期刊分类，选取人工智能领域的22个核心期刊，在SCI数据库中下载对应核心期刊的论文，建立人工智能领域文献数据库。文献数据库包含2010年到2015年，约10,900篇的论文基本信息，所包含论文称为施引文献。施引文献基本信息字段包括：题目，摘要，关键字，所属期刊，作者，被引数量，发表年份，参考文献。

步骤二、根据建立的文献数据库，对施引文献的参考文献进行切割和编码，同时记录施引文献和参考文献的引用和被引用关系，生成施引文献和参考文献的引用关系数据表。被编码的参考文献若已存在于文献数据库中，视为内部参考文献，其余参考文献称为外部参考文献，其中内部参考文献为10916篇，外部参考文献为252544篇，外部参考文献约为内部参考文献的25倍。数据预处理中，外部参考文献中杂乱编码的引用次数为168次，百分比低于0.01％，因此除去了乱码的论文。文献数据库中，被引用过的文献占85.12％。

步骤三、选取文献数据库中高被引的施引文献和高被引的外部参考文献作为基础数据进行共引分析。分别对施引文献和外部参考文献设置选取阈值，达到阈值则选取出来，在经过不同阈值的效果比较之后，最终抽取文献数据库中引用数达到前10％的施引文献，和引用次数达到40次的外部参考文献。将选取出的外部参考文献和施引文共同作为核心高被引的施引文献。根据上一步骤构成的引用关系数据表可以生成核心高被引施引文献的直引矩阵。如果一篇施引文献引用了另一篇施引文献，则在直引矩阵中对应位置标注为1。共引矩阵使用共同引用的方式描述两篇施引文献的相似度，称为共引相似度，根据余弦系数方法可以由直引矩阵转化成共引矩阵，方法表示如下。其中第i个节点和第j个节点的共引相似度为：

c_i，c_j表示节点i和j的引用次数。

步骤四、将选取出但未被共同引用的核心施引文献分配到共引矩阵中。查看共引矩阵，由于所下载论文年份较新，尚未被共同引用，矩阵中很多值为零。为此将直引和共引放到同一维度下进行了考量，通过设置一个t_value值来使用一个变换的余弦系数方法，t_value取值范围为[0,1)。经过测试，t_value设置为0.7。这种混合相似性的方法有效地结合了共引的相似性和直引的相似性，增强了新的施引文献特别是最新论文的影响。经此计算方法，近500篇施引文献被重新分配到共引矩阵中。不但增强了网络结构的耦合性，也使得聚类结果衡量指标更加稳定。

步骤五、基于共引矩阵产生一个无向有权重的共引网络图，将该网络通过拓扑聚类方法分为簇，该方法不需要启发式的输入类别参数。为了从网络中找到稠密的子图，本发明采用社区检测算法。其中，纽曼算法可以帮助找到在每个簇中具有高密度链接的紧密结合的部分，纽曼提出的模块化Q度量了网络可以分为多个独立块的程度。模块化Q值的范围是0到1，Q值越低表明网络不能被缩减为具有清晰边界的簇，Q值越高意味着网络结构良好。因此，模块化Q值等于或非常接近于1的网络易于呈现出一些重要的特殊情况，其中各个簇彼此简单隔离。

假设一个网络包含n个节点。首先，假定网络可以分成两个簇，簇1和簇2，对于这个特定的分割集合，如果节点i属于簇1，则s_i＝1，如果它属于簇2，则s_i＝-1。节点i和节点j之间的边数量是A_ij，通常为0或1，A_ij是矩阵的元素。如果边随机放置，节点i和节点j之间的边的期望数是k_ik_j/2m，其中k_i和k_j是节点i和节点j的度数，即链接该节点的边的数量，m代表着网络中的总边数，模块性Q的计算公式可以表示为：

本发明中使用了快速贪心算法来检测无向有权重的共引网络中的稠密簇群，经过上面步骤所提到的不同阈值的计算比较，最佳的模块化Q数值为0.61。

步骤六、将在步骤五中得到的拓扑聚类结果转化为json格式，并在力导向图(force-directed Graph)中展示。附图说明中的图2则为力导向图的展示结果，基于引用关系的人工智能共引网络中共有17个簇，由于其中的7个簇的节点个数少于5个，这部分网络节点将被舍弃。如图2所示，中间部分是前沿话题分布的布局，由8047个边和1346个节点组成，共10个研究前沿话题，并分别用(a)到(j)标记，(a)到(j)的注释依次是分类，识别，特征选择，图像去噪，强化学习，神经网络，优化问题，三维表示，粗糙集和模糊系统。图中，(b)和(c)包含更多的节点和边，表明更多研究人员的研究领域处在特征选择和识别中。相比之下(d)和(h)分别仅包含14个节点和15个节点，表明图像去噪和3D呈现领域不是很热点的领域，可能较少的机构侧重于这两个子领域。从簇群之间的连接关系来看，特征选择(c)和神经网络(f)与其他簇群间有更多的边联系。

针对图2中节点大小，节点大小根据中介中心性被分为三个层次，其中，每个节点代表一篇论文。节点越大表明论文越重要。最大节点表示中介中心性大于0.5，表明在簇群中向心性更强。中间节点表明中介中心度在0.3和0.5之间。普通节点表示中介中心度小于0.3，大部分节点的中介中心度都小于0.3。如图2，(b)和(c)领域中分别包括2个和3个大节点以及更多的普通节点，表明这两个领域有更深的历史积累和一些转折的发展阶段。

步骤七、对前沿话题进行术语抽取，提取每个话题下频率最高的特征词来代表该领域。在本发明中选择文献数据库中每个施引文献的关键词作为特征词，进行关键词小写字母变换，然后统计出现频率。由于有10个簇结果，产生了10个关键词文件，共3190个独特关键字。初步清理数据，提取每个关键词的词干，分析两词之间的相似性和差异性，并将这些关键字按单数/复数，拼写错误，缩略词或包含关系进行合并。相似性越高的关键词越可能被合并成一个单词，相应的频率根据合并的单词而改变。最后，为了确保关键字的准确性，对关键字进行手动处理，经此得到2762个唯一的关键字。

其中具体术语抽取和数据清洗步骤如下：

1.提取关键词：提取每个簇中的施引文献的关键词，进行频率统计，保存3190个唯一关键字，并为10个簇生成10个关键词文件。

2.抽取词干并进行合并：抽取每个关键词的词干，计算词干间的Levenshtein比率，r＝(sum-ldist)/sum，其中“sum”是两个词干的总长度，“lidst”是Levenshtein距离。用此比较关键词的相似度，将相似度大于0.9的合并为一个。此步骤解决了关键词单数/复数，拼写错误，包含关系的重复性问题，但是未解决首字母缩略词的问题。

3.手工清洗：人工检查关键字的包含关系和语义相似性关系，若存在则将其合并。

簇群中关键词和频率提取完成后，选取符合阈值的关键字进行可视化展示和分析，使用词云视图呈现这些特征词。词云是文本数据的可视化表示，通常用于描述关键字元数据，或可视化自由文本。词云的使用是通过不同的颜色和字体大小来标记一个簇的上下文的有力方式，并且对于快速感知最突出的术语也是有用的。通过词云的表现特征，可以将该前沿话题领域进行术语抽取和命名。如图4，展示了两个词云结果图作为示例，其中图4(a)表示分类话题下的前30项特征词，图4(b)表示识别话题下的前30项特征词。

步骤八、对共引聚类结果进行可视分析设计。可视设计是指用可视分析的方式来获取信息，可视分析作为一种交互式视觉分析的科学，相比于单纯的文字和数字信息更加直接，能帮助人深入地理解信息。可视设计中增加了可视导航和过滤操作，便于观察两个簇之间的关系并帮助探索共引网络结构，同时提供了时间演变的共引网络结构视图，便于用户分析该话题每年的文献发展趋势和发展联系。

为了更好展示前沿话题的发展状态和发展阶段，本发明选取了三个统计属性对多个话题的发展状况进行展示和比较，三个属性分别是单个簇的节点总数，总引用次数和平均出版年份，其中簇大小表示核心施引文献数量的多少；总引用次数是所有核心施引文献的引用次数的总计，反映了簇群规模；平均发表年份表明了话题“热度”，反映了研究变化的速度以及是否有一些新的发展。在附图说明中的图3则为这三个衡量指标的结果图，图3(a)表示簇群大小的统计结果，图3(b)表示簇群总引用次数的统计结果，图3(c)表示簇群平均出版年份的统计结果，其中(a)至(j)的标注与图2相同。例如，特征选择领域具有最大数目的节点和总引用次数，相反图像去噪领域具有最少数量的节点和引用总引用次数，表征着该领域相关研究较少，与长期广泛使用的特征选择相比，图像去噪领域较为薄弱。在计算平均出版年份中，包含了选取出来的核心外部参考文献的年份，因此平均年份会低于2010年。假如一个簇包含更多的外部参考文献，其平均出版年份会更低。

前沿话题在六年中会随时间进行演变，为更好的挖掘和探索网络结构的演变趋势，本发明提供了两种类型的过滤操作——单过滤器和多过滤器。这两个过滤器的区别在于网络中是否包含之前的共引网络结构。如附图说明中的图5所示，“S”表示单过滤器，为每年的文献共引结构分布提供了展示方式，结果图展示了该年份所发表的论文的耦合和内聚关系，通过观察每年的网络图，可以方便地探索每个领域的结构演变。图6所示，“M”表示多过滤器，每个网络图视图中，不仅包含了该年份所发表的文献共引结构还包含了该年份以前的所发表的核心文献网络。其中，“base”视图表征了2010年以前的核心外部参考文献的共引网络结构，从结构图中可以分析得知哪个领域有更多的基础文献。例如，2010年之前，特征选择，识别和分类领域比其他领域有更多的节点，表明这三个领域的历史较长，许多研究者对这些领域都有兴趣。此外，观察2010到2015年的核心文献共引网络，可以观察到每年都有很多的特征选择，识别和分类领域的论文。而强化学习领域在“base”网络中只有六个节点。强化学习的论文数量在2012年以前一直很少，论文数量一直在稳步增加，但仍在20篇以下。此外可以观察到在2010年和2011年，神经网络领域的节点数量很少。相反，自2012年以来，更多该领域的论文被发表，因此可以推断之后可能会发布更多关于该领域的论文。

使用本发明中的基于文献共引聚类的研究前沿可视分析方法，用户可以自行整合所感兴趣领域的信息，运用本发明方法来生成该领域的前沿话题并进行探索和分析，帮助用户更加全面、准确的分析文献领域的发展和演变。

尽管上面结合附图说明对本发明进行了实施描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的相关技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。

Claims

1.一种基于文献共引聚类的研究前沿可视分析方法，包括以下步骤：

步骤三、抽取文献数据库中引用次数靠前的施引文献作为核心高被引施引文献，引用次数靠前的外部参考文献作为高被引外部参考文献，将高被引外部参考文献添加到核心高被引施引文献中共同作为核心高被引的施引文献；根据上一步骤构成的引用关系数据表生成核心高被引的施引文献的直引矩阵，直引矩阵描述了核心高被引的施引文献之间的直接引用关系，如果一篇施引文献引用了另一篇施引文献，则在直引矩阵中对应位置标注为1，共引矩阵使用共同引用的方式描述两篇施引文献的相似度，称为共引相似度，共引矩阵可以由直引矩阵直接转化而成，共引矩阵中第i个节点和第j个节点的元素即共引相似度为：

c_i，c_j表示节点i和j的引用次数；

其中t_value为0.7；

步骤六、将上一步骤中划分为簇的网络数据转化为json格式，并在力导向图force-directed Graph中展示和发掘，其中：每个节点代表一篇论文；不同的颜色表征着不同的话题领域；节点大小由中介中心度来指示节点的重要性，最大节点尺寸标记中介中心度大于0.5，中间节点尺寸表示中介中心度在0.3和0.5之间，普通节点表示中介中心度小于0.3；