CN116541519A

CN116541519A - 一种基于引文分析和主题建模辅助文献综述的论文可视化方法

Info

Publication number: CN116541519A
Application number: CN202310235933.8A
Authority: CN
Inventors: 秦红星; 唐铃钧
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-08-04

Abstract

本发明涉及一种基于引文分析和主题建模辅助文献综述的论文可视化方法，包括：获取原始论文数据集，并根据论文之间的引用关系创建耦合相似矩阵和共被引相似性矩阵；提取论文的主题和论文主题的概率分布；将论文主题的概率分布输入t‑sne得到论文在二维平面上的散点图并利用Kruskal算法计算得到t‑sne引文网络图进行可视化显示；计算论文主题概率分布之间的相似性创建内容相似性矩阵；根据耦合相似矩阵、共被引相似性矩阵和内容相似性计算综合相似性矩阵；并通过d3.js生成对应的耦合引文网络图、共被引引文网络图和综合引文网络图进行可视化显示，并根据论文之间的引用关系向用户推荐论文，提高用户文献综述的效率。

Description

一种基于引文分析和主题建模辅助文献综述的论文可视化方法

技术领域

本发明属于可视分析技术领域，具体涉及一种基于引文分析和主题建模辅助文献综述的论文可视化方法。

背景技术

文献综述简称综述，又称文献回顾，文献分析。是对某一领域，某一专业或某一方面的课题、问题或研究专题搜集大量相关资料，然后通过阅读、分析、归纳、整理当前课题、问题或研究专题的最新进展、学术见解或建议，对其做出综合性介绍和阐述的一种学术研究。

论文可视化常用于辅助用户文献综述的过程，文献综述包括收集论文集，根据标准筛选合适的论文阅读，阅读过程中进行记录并随着对领域认识的加深更新自己的筛选标准，随时整理组织笔记，再进行检索，是一个反复迭代费时费力的过程，因此许多系统会模拟这个过程来辅助用户进行文献综述。

现有的文献辅助方法主要通过输入关键字或根据已经阅读过的文章推荐相关文章，通过关键字或根据已经阅读过的文章推荐相关文章会导致不能准确的反应论文之间隐形的相关信息，从而使用户在文献综述时不能准确的找到需要的文章，而论文之间的相关性可以表现再多个方面，任何只涉及一方面的工具都是不完整的，用户常常需要借助不同的工具在不同层次之间比较论文之间的相关性，从而寻找需要的文章来辅助文献综述，在切换不同的工具以及整合零散信息的过程中容易丢失信息并且更加费时费力。

发明内容

为了解决背景技术中存在的问题，本发明提供一种基于引文分析和主题建模辅助文献综述的论文可视化方法，根据论文之间的引用关系和论文主题的概率分布基于引文分析和主题建模构造可视化t-sne引文网络图、耦合引文网络图、共被引引文网络图和综合引文网络图，使用户可以直观的在多个方面对文本进行相关性对比，获取论文之间隐形的相关信息，并通过论文之间的引用关系向用户推荐论文，提高用户文献综述的效率，包括：

S1：获取原始论文数据集，其中，所述原始论文数据包括：论文的标题、论文的摘要、论文的关键字、论文的参考文献和论文被引用的数量；

S2：根据论文的参考文献得到论文之间的引用关系，并创建耦合相似矩阵M1和共被引相似性矩阵M2，其中，耦合相似矩阵M1中的每个元素表示两篇论文是否引用了相同的论文；被引相似性矩阵M2的每个元素表示两篇论文是否被同一篇论文引用；

S3：将原始论文数据集中论文的标题、论文的摘要和论文的关键字输入ToPMine提取论文的关键词组，将论文的关键词组输入phraseLDA得到论文的主题和论文主题的概率分布；将论文主题的概率分布输入t-sne进行降维处理得到论文在二维平面上的聚类散点图；

S4：将聚类散点图中的点作为论文节点，将论文节点之间的距离作为权值，利用Kruskal算法计算最小生成树，根据最小生成树连接对应的论文节点生成t-sne引文网络图进行可视化显示；

S5：根据论文主题概率分布之间的余弦相似性创建内容相似性矩阵M3；

S6：将耦合相似矩阵M1、共被引相似性矩阵M2和内容相似性矩阵M3分别归一化处理为皮尔逊相关系数矩阵后再线性相加得到融合后的综合相似性矩阵M4；

S7：将耦合相似矩阵M1、共被引相似性矩阵M2和综合相似性矩阵M4通过d3.js分别转化为耦合引文网络图、共被引引文网络图和综合引文网络图进行可视化显示；

S8：获取用户输入的种子论文T_a，并根据论文之间的引用关系向用户推荐论文。

本发明至少具有以下有益效果

本发明基于引文分析和主题建模构造可视化t-sne引文网络图、耦合引文网络图、共被引引文网络图和综合引文网络图，使用户可以直观的在多个方面对文本进行相关性对比，获取论文之间隐形的相关信息，并通过论文之间的引用关系向用户推荐论文，提高用户文献综述的效率。

说明书附图

图1为本发明的方法流程图；

图2为本发明耦合引文网络图、t-sne引文网络图、共被引引文网络图和综合引文网络图的显示示意图；

图3为本发明的论文推荐示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1，本发明提供一种基于引文分析和主题建模辅助文献综述的论文可视化方法，包括：

获取的原始论文数据集是预处理后的数据，数据预处理包括：去掉停用词和词形还原；词形还原，即根据单词词性去掉词缀，保留词干部分，如将过去式、进行时、第三人称单数等动词时态变为一般现在时，复数名词变为单数名词，被动变主动等。

本发明采用vispubdata开源数据，其中，包含了1990年到2020年在InfoVis、VAST、Vis发表的全部可视化论文，共3394篇，其中，每一个数据包含论文的标题、论文的摘要、论文的关键字、论文被引用的数量、论文的参考文献、论文的作者、论文的发表年份等；

例如，当论文A和论文B都引用了论文C时，则耦合相似矩阵M1中索引为论文A和论文B的元素为1，反之为0；

例如，当论文A和论文B都被论文C引用时，则共被引相似性矩阵M2中索引为论文A和论文B元素为1，反之为0；

ToPMine是phraseLDA当中的第一步，即提取出所有高频词组，作为第二部主题划分的输入。

phraseLDA主要是通过两个步骤来实现，第一步把由词组成的文本集转换成由短语组成的文本集，即先处理文本集，提取出所有高频短语词组，结合上下文计算短语重要性，筛选掉低重要性短语，根据短语分割文本；第二步将短语集合作为输入，同时在LDA中加入约束条件，使属于同一个短语的子短语不能划分到其他主题下。在第二步过程中，比起直接按词频过滤，即出现次数低的词语被过滤掉保留下出现次数高的词语，考虑上下文得到的结果会更符合人们的认知标准，因此对挖掘出的短语集合结合上下文计算其重要度，过滤掉重要度低的短语。

T-SNE是一种十分适用于可视化的降维算法，鉴于此特性，在文本可视化中将聚类好的文本作为输入，呈现在二维平面上是最近常用的显示学科知识结构方法。T-SNE算法的基本思想是，两个在高维空间相近的点经过降维以后在低维空间也是相近的。

在高维空间中，两个点的距离远近可以用概率分布来表示，假设有两个点x_i和x_j，p_j/i指在高维空间中点x_j在点x_i领域的概率，值越大表示两个点距离越近，反之值越小两个点距离越远；相应地，用q_j/i指在低维空间中点x_j在点x_i领域的概率。T-SNE采用的是联合概率分布，这样使得在高维空间中p_j/i＝p_j/i,同样低维空间中也是对称的q_j/i＝q_j/i，高维空间中相似度即距离远近分布概率公式如下，其中x_k和x_l是空间中任意一对不相同的点，σ是空间中所有点的方差：

T-SNE降维主要用于可视化，即适合降到二维，在平面当中进行展示。

利用Kruskal算法计算最小生成树，算法主要思想是如下：将连通网中所有的边按照权值大小做升序排序，从权值最小的边开始选择，只要此边不和已选择的边一起构成环路，就可以选择它组成最小生成树,对于，N个顶点的连通网，挑选出N-1条符合条件的边，这些边组成的生成树就是最小生成树。

S5：根据论文主题概率分布之间的余弦相似性创建内容相似性矩阵M3；其中，内容相似性矩阵M3中的每一个元素表示两个论文主题概率分布之间的余弦相似度。

将耦合相似矩阵M1、共被引相似性矩阵M2和内容相似性矩阵M3分别归一化处理为皮尔逊相关系数矩阵M1′、M2′和M3′，并将M1′、M2′和M3′线性相加得到融合后的相似性矩阵M4，其表达式为M4＝M1′+M2′+M3′；

计算两个论文之间的皮尔逊相关系数，如下所示：

其中，M_x,y′表示文章x和y之间皮尔逊相关系数，x_i表示文章x的主题概率分布中第i个主题的概率，y_i表示文章y的主题概率分布中第i个主题的概率；N表示主题概率分布的长度；

将矩阵M1、M2和M3中的元素分别乘以对应的皮尔逊相关系数生成皮尔逊相关系数矩阵M1′、M2′和M3′；

请参阅图2，S7：将耦合相似矩阵M1、共被引相似性矩阵M2和综合相似性矩阵M4通过d3.js分别转化为耦合引文网络图、共被引引文网络图和综合引文网络图进行可视化显示；

优选地，所述根据论文之间的引用关系向用户推荐论文向用户推荐论文包括：

根据论文之间的引用关系向用户推荐T_a引用的论文；用户从T_a引用的论文中选择感兴趣的论文；对种子论文T_a和种子论文T_a引用的论文设置权重分数w₁，并对用户选择的感兴趣论文和感兴趣论文引用的论文设置权重分数w₂，得到推荐得分矩阵M5；将M5和M4归一化处理为皮尔逊相关系数矩阵M5′和M4′，将M5′和M4′相加得到最终得分矩阵M6；并根据最终得分矩阵M6中论文的得分向用户推荐论文。

优选地，属于种子论文T_a和种子论文T_a引用的论文得w₁＝2分，属于用户选择的感兴趣论文和感兴趣论文引用的论文得w₂＝1分；得到行为S列为R的推荐得分矩阵M5，S表示种子论文T_a、种子论文T_a引用的论文、用户选择的感兴趣论文和感兴趣论文引用的论文数量之和；R表示原始论文数据集中论文的数量。

优选地，所述将耦合相似矩阵M1、共被引相似性矩阵M2和综合相似性矩阵M4通过d3.js分别转化为耦合引文网络图、共被引引文网络图和综合引文网络图包括：

设置一个相似度阈值x，m_ij表示综合相似性矩阵M4中的第i行第j列对应的元素；其中，i和j对应行索引和列索引分别对应论文i和j，当m_ij大于阈值x时，则将i和j放入点集合N，将(i，j)放入边集合L；将点集合N和边集合L输入d3.js生成综合引文网络图，同理可将耦合相似矩阵M1和共被引相似性矩阵M2转化为耦合引文网络图和共被引引文网络图。

优选地，耦合引文网络图、t-sne引文网络图、共被引引文网络图和综合引文网络图中的论文节点通过不同的颜色进行可视化显示，每个论文节点的颜色取决于该论文的主题概率分布中概率最高的主题，概率最高的主题相同的论文节点颜色相同，概率最高的主题不相同的论文节点颜色不相同。在本发明中共设置8种颜色分别对应不同的主题，每个论文节点的颜色对应其中的一种，便于用户更直观的获取论文之间的相关性信息。

优选地，耦合引文网络图、t-sne引文网络图、共被引引文网络图和综合引文网络图中论文节点通过不同的直径进行可视化显示，每个论文节点的直径取决于该论文被引用的数量，被引用的数量相同的论文节点直径相同，被引用的数量不相同的论文节点直径不相同。

请参阅图2和图3，实施例，本发明利用Djang搭建前后端交互平台对耦合引文网络图、共被引引文网络图和综合引文网络图进行可视化显示；

优选地，所述前后端交互平台包括：图形索引交互区域、属性展示区域和得分推荐区域；

所述图形索引交互区域包括：耦合引文网络图索引、共被引引文网络图索引、T-SNE引文网络图索引和综合引文网络图索引；

所述图形展示交互区域用于在用户点击图形索引交互区域中的网络图索引时展示对应的网络图；

所述得分推荐区域用于推荐最终得分矩阵M6中得分最高的D个论文，用户可以从推荐的论文中选择添加种子论文和感兴趣的论文进一步的进行文献综述，在本发明中得分矩阵M6中包含了所有文章的得分，按照得分排名顺序选择6个得分最高的论文进行推荐，用户选择文章查看其属性信息，进行文献综述。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于引文分析和主题建模辅助文献综述的论文可视化方法，其特征在于，包括：

2.根据权利要求1所述的一种基于引文分析和主题建模辅助文献综述的论文可视化方法，其特征在于，所述根据论文之间的引用关系向用户推荐论文向用户推荐论文包括：

3.根据权利要求2所述的一种基于引文分析和主题建模辅助文献综述的论文可视化方法，其特征在于，属于种子论文T_a和种子论文T_a引用的论文得w₁＝2分，属于用户选择的感兴趣论文和感兴趣论文引用的论文得w₂＝1分；得到行为S列为R的推荐得分矩阵M5，S表示种子论文T_a、种子论文T_a引用的论文、用户选择的感兴趣论文和感兴趣论文引用的论文数量之和；R表示原始论文数据集中论文的数量。

4.根据权利要求1所述的一种基于引文分析和主题建模辅助文献综述的论文可视化方法，其特征在于，所述将耦合相似矩阵M1、共被引相似性矩阵M2和综合相似性矩阵M4通过d3.js分别转化为耦合引文网络图、共被引引文网络图和综合引文网络图包括：

5.根据权利要求4所述的一种基于引文分析和主题建模辅助文献综述的论文可视化方法，其特征在于，耦合引文网络图、t-sne引文网络图、共被引引文网络图和综合引文网络图中的论文节点通过不同的颜色进行可视化显示，每个论文节点的颜色取决于该论文的主题概率分布中概率最高的主题，概率最高的主题相同的论文节点颜色相同，概率最高的主题不相同的论文节点颜色不相同。

6.根据权利要求4所述的一种基于引文分析和主题建模辅助文献综述的论文可视化方法，其特征在于，耦合引文网络图、t-sne引文网络图、共被引引文网络图和综合引文网络图中论文节点通过不同的直径进行可视化显示，每个论文节点的直径取决于该论文被引用的数量，被引用的数量相同的论文节点直径相同，被引用的数量不相同的论文节点直径不相同。