CN105956130A

CN105956130A - 多信息融合的科研文献主题发现和跟踪方法及其系统

Info

Publication number: CN105956130A
Application number: CN201610304040.4A
Authority: CN
Inventors: 周厚奎; 王陈燕
Original assignee: Jiyang College of Zhejiang A&F University
Current assignee: Jiyang College of Zhejiang A&F University
Priority date: 2016-05-09
Filing date: 2016-05-09
Publication date: 2016-09-21
Anticipated expiration: 2036-05-09
Also published as: CN105956130B

Abstract

本发明公开了一种多信息融合的科研主题发现和跟踪方法及其系统，其方法包括步骤：S1，指定学科的科研文献下载，文献元数据的整理；S2，文献元数据的预处理形成文献数据集；S3，建立综合利用文本和引用信息的多源信息融合的科研文献概率主题模型，发现主题词的分布和主题核心文献的分布；S4，以获取的主题核心文献分布和主题词分布为基础，结合文献的时间信息，利用主题跟踪计算公式，跟踪科研主题的变化情况。本发明的实施例所提供的科研主题发现和跟踪方法和系统，可以实现揭示挖掘预设科研领域的科研主题，科研人员的研究兴趣随时间变化的规律，有助于把握科研主题的演化脉络。

Description

多信息融合的科研文献主题发现和跟踪方法及其系统

技术领域

本发明涉及一种科研领域的数据挖掘技术，特别涉及一种多信息融合的科研主题发现和跟踪方法及其系统。

背景技术

科研文献记录学术研究的成果，是研究人员进行学术传播和学术交流的重要手段。任何科研成果都是在继承前人的研究成果的基础上进行改进和创新而得到的。随着网络的发展和IEEE、ACM、DBLP等电子文献资源数据库的建立，积累的科研文献的数量越来越多。科研人员往往仅熟悉本专业领域的科研主题及其变化情况。当科研人员进入一个新的研究领域，面对如此浩瀚的科研文献，他们迫切希望能够迅速的发现该领域的科研主题及跟踪主题的发展变化情况。自动的科研主题发现和跟踪技术能帮助科研人员快速的了解科技主题和其发展变化情况，具有非常重要的现实意义。

现有的科研主题发现和跟踪技术，主要是在Blei等人提出的LDA主题模型的基础上发展而来。这些技术主要利用科研文献中词的共现关系即“词袋模型”来发现主题，利用文献的时间信息来跟踪主题的发展变化。然而科研文献和新闻文本等不同，其包含丰富的结构性的信息，例如文献的作者、发表的时间、发表的刊物、参考文献、被引用的情况等，这些信息对科研主题的发现是有较大影响的。特别需要指出的是，和新闻信息等相比，科研文献具有较强的传承性，新的研究总是在原有研究的基础上发展而来的，这些传承主要体现在文献的引用和被引用的信息上。由此可见，科研文献的引用信息在其主题发现和跟踪技术上具有重要的作用。另外一个方面，由于科研文献的内容中包含大量的科研背景信息和部分噪声信息，基于“词袋模型”的主题发现和跟踪技术，例如LDA主题模型，在科研主题的发现应用中存在诸多问题，包括主题的重复，大量背景词占据主题的高频词，部分主题丢失等问题。而科研文献的引用往往是由专业的研究人员根据研究文献之间的传承情况而精心选择的，被一篇文献引用的文献往往是和该文献的研究内容密切相关的，即引用关系所包含的噪声信息会更少。利用引用关系来发现科研主题可以克服基于“词袋模型”的主题发现技术某些不足。

Zhou等人利用类似LDA的概率生成模型来对科研文献的引用进行建模，实现了科研主题的发现，并结合文献的时间信息来进行主题跟踪研究(参见“Wang,X.,Zhai,C.,Roth,D.,2013.Understanding evolution of research themes:a probabilisticgenerative model for citations.In Proceedings of the 19th ACM SIGKDDinternational conference on Knowledge discovery and data mining,p.1115-1123.”)。该方法可以实现不同科研主题发现，包括主题的关键词及分布，主题的最具影响力的文献，结合文献的时间信息可以跟踪主题的变化等。He等人公开一种利用科研文献之间的引用信息来进行主题发现和跟踪的技术方法，该方法被称作继承主题模型实现了利用文献的引用关系网络来发现科研文献之间思想和技术的继承情况(参见“He,Q.,Chen,B.,Pei,J.,Qiu,B.,Mitra,P.,Giles,L.,2009.Detecting topic evolution in scientificliterature:how can citations help？.In Proceedings of the 18th ACM conferenceon Information and knowledge management,p.957-966.”)。这两个现有技术，仅利用引用关系来发现主题，没有考虑词的共现关系，存在一定的不足之处。

Nallapati等人公开了一种Link-PLSA-LDA主题模型，该模型通过组合使用PLSA对被引用的文档建模和使用Link-LDA对引用的文档建模来联合进行文本和引用的建模(参见“Nallapati,R.M.,Ahmed,A.,Xing,E.P.,Cohen,W.W.,2008.Joint latent topic modelsfor text and citations.In Proceedings of the 14th ACM SIGKDD internationalconference on Knowledge discovery and data mining,p.542-550.”)。Guo等人公开了一种BPT(Bernoulli process topic)模型，该主题模型从科研文献的两个作用(即文档本身和其它文档的引用)对主题建模的区别和联系来进行主题发现建模，该技术可以用于主题发现、文献的主题分布、引用推荐和主题演化等方面(参见“Guo,Z.,Zhang,Z.,Zhu,S.,Chi,Y.,&Gong,Y.(2014).A two-level topic model towards knowledge discoveryfrom citation networks.Knowledge&Data Engineering IEEE Transactions on,26(4),780-794.”)。该模型和Link-PLSA-LDA模型类似，是从文档和引用两个角度分别对文档进行建模，利用类似LDA的模型对文档进行建模，利用Bernoulli过程对文档的引用结构进行建模，两个建模过程通过参数进行耦合。这两项已公开的技术虽然都同时利用了科研文献的文档和引用信息来发现和跟踪主题，但是它们不能得到主题的最具影响力的文献信息。

Lu等人公开了一项采用CTM(collective topic model)技术来发现与主题相关的具有里程碑意义论文的研究成果(参见“Z.Lu,N.Mamoulis,and D.W.Cheung,A CollectiveTopic model for Milestone Paper Discovery,Proceedings of the 37th Annual ACMSIGIR Conference(SIGIR),pp.1019-1022,Gold Coast,Australia,July2014.”)。该项技术综合利用了科研文献的作者、文献发表的刊物和文献之间的引用关系等信息来发现科研主题的具有里程碑意义的论文。但是该项技术只能发现某一科研主题的核心论文、某一作者所发表的核心论文和某一刊物的核心论文，不能发现相应的科研主题的词的分布，也没有考虑文献时间信息，因此也不能跟踪主题的变化情况。

科研文献的内容信息、引用信息和时间信息在其主题发现和跟踪应用中都具有非常重要的作用。现有的技术大多仅利用了科研文献的部分信息来完成科研主题的发现和跟踪，或者是利用了科研文献的多种信息但仅能实现科研主题发现和跟踪的部分任务。综合利用科研文献的多源信息例如内容、作者、引用等来挖掘科研主题(包括主题词的分布、主题核心论文的分布等)和跟踪主题的变化(主题随时间分布的变化)在科研文献数据挖掘领域具有非常重要的意义，对帮助科研工作者开展科研工作和促进科研的发展也具有重要的作用。

发明的内容

本发明要解决的技术问题：克服现有的科研主题发现和跟踪技术的不足，提供了一种融合多种信息的科研主题发现和跟踪的方法，该方法综合利用了科研文献的内容信息、引用信息、时间信息来发现和跟踪科研主题，提高了发现主题的质量(发现的主题包括主题词分布和主题核心论文的分布)及更好的把握主题的变化趋势。在该方法的基础上提出了一种可以实际应用的科研主题发现和跟踪的系统。

本发明的技术解决方案：多信息融合的科研主题发现和跟踪方法，包括科研文献的获取和文献整理、文献信息的预处理、多源信息融合的科研主题发现和跟踪几个步骤。科研文献的获取和文献整理负责获取一定量的科研文献数据并按照一定的元数据格式组成文献语料库。文献信息的预处理包括从元数据语料库中获取文献的文档词频矩阵、引用关系矩阵、文档词汇表信息。多源信息融合的科研主题发现和跟踪包括基于内容和引用的主题发现模型，主题随时间变化的主题跟踪方法。采用上述技术方案的能实际运行的多源信息融合的科研主题发现和跟踪系统。

为解决上述技术问题，本发明提供了一种多信息融合的科研主题发现和跟踪方法，所述方法包括以下步骤：

S1.指定学科的科研文献下载，文献元数据的整理；

S2.文献元数据的预处理形成文献数据集；

S3.建立综合利用文本和引用信息的多源信息融合的科研文献概率主题模型，发现主题词的分布和主题核心文献的分布；

S4.以获取的主题核心文献分布和主题词分布为基础，结合文献的时间信息，利用主题跟踪计算公式，跟踪科研主题的变化情况。

上述步骤S1中每篇文献整理得到的元数据包括：文献的ID(文献ID是按照文献的发表时间顺序直接指定的)、文献的发表时间、文献的作者、文献的内容(仅包括标题、关键词和摘要)、文献的引用信息。

上述步骤S2中的文献元数据预处理包括：文献内容的预处理和文献引用信息的预处理。其中文献内容的预处理包括去除停止词、数字、非英文字符，单词的词干化，去除在所有文献中出现次数少于4次的低频词，构建文献的文档词频矩阵，构建所有文档的词汇表，构建数据集中文献之间的引用关系矩阵。

上述步骤S3具体包括：

S31.根据数据集的文献引用关系建立文献引用概率主题模型R1。该概率主题模型将主题考虑为文献即引用的集合，其具体的生成过程为：根据文献主题分布D_{doc_topic}(；d)～θ_d和主题文献分布利用吉布斯采样来生成主题，得到每个主题的核心文献的分布其中有θ_d～Dir(α)和

S32.对S31步骤中生成的主题按照属于该主题的文献的概率从高到低进行排序，取每个主题中概率排在前五分之一的文献组成新的主题

S33.对S32步骤中生成的每个主题利用组成该主题的文献的内容建立基于“词袋”模型的概率主题模型R2。该概率主题模型将主题考虑为词的集合，其具体的生成过程为：根据文献主题分布D_{doc_topic}(；d)～θ′_d来生成主题z′_d,n，再根据主题词的分布来生成文献的词，利用吉布斯采样来生成模型参数即主题词的分布和文献主题的分布θ′_m,k′，其中有θ′_d～Dir(α)和所得主题模型的参数和θ′_m,k′组成主题{z_k′:θ′_m,k′}。

上述步骤S4中的主题z_k′跟踪过程具体包括：

S41.将属于主题{z_k′:θ′_m,k′}的文献按照文献所属的时间t，以年y为单位离散到对应的时间窗口t_d；

S42.按照以下公式计算主题z_k′在时间窗口t_d的主题强度p(z_k′|t_d):其中λ和μ为加权系数，D_t和N_t分别为时间窗口t_d内所包含的总文献数和总单词数；

S43.以年为单位的时间为横坐标，每年时间上计算得到的主题强度p(z_k′|t_d)为纵坐标，绘制出主题随时间变化的曲线。

本发明还提供了一种多信息融合的科研主题发现和跟踪系统，所述系统包括：

数据下载和整理模块：用于对指定学科的科研文献进行下载，将原始文献记录整理成文献元数据；

元数据预处理模块：用于对文献元数据进行主题分析之前的预处理，包括去除停止词、数字、非字母字符，单词词干化，去除低频词，构建文献的文档词频矩阵，构建所有文档的词汇表，构建数据集中文献之间的引用关系矩阵

科研主题发现模块：用于发现科研文献中所包含的主题，包括两层主题模型，第一层主题模型利用文献之间的引用关系进行概率主题建模发现主题文献的分布，第二层主题模型在第一层主题模型发现的主题基础上再进行基于“词袋”模型的主题建模发现最终的科研主题；

科研主题跟踪模块：用于对主题发现模块发现的主题进行跟踪，绘制科研主题随着时间变化的曲线，包括主题的时间离散化、主题强度的计算、主题强度变化的曲线绘制。

上述的科研主题发现模块，其特征在于，用于发现科研文献中所包含的主题具体包括：

根据数据集的文献引用关系建立文献引用概率主题模型R1。该概率主题模型R1的特征在于，根据文献主题分布D_{doc_topic}(；d)～θ_d和主题文献分布利用吉布斯采样来生成主题，得到每个主题的核心文献的分布其中有θ_d～Dir(α)和其中，吉布斯采样算法公式如下所示：

其中，表示除去下标为i的文档和下标为t的引用以外的其它的文档和引用，表示属于主题z_k的文档d_i的被引用的数量，表示属于主题z_k的文档d_i所引用的文档的被引用的数量，α_k是θ_i,k的狄利克雷Dirichlet先验参数向量，θ_i,k表示文档i的第k个主题的概率分布，β_j是的狄利克雷先验参数向量，表示主题k的第j个核心文献的概率分布。其中第j个核心文献的概率分布的计算公式如下所示：

对主题按照属于该主题的文献的概率从高到低进行排序，取每个主题中概率排在前五分之一的文献组成新的主题

对每个主题利用组成该主题的文献的内容建立基于“词袋”模型的概率主题模型R2。该概率主题模型R2的特征在于，根据文献主题分布D_{doc_topic}(；d)～θ′_d来生成主题z′_d,n，再根据主题词的分布来生成文献的词，利用吉布斯采样算法公式来生成模型参数即主题词的分布和文献主题的分布θ′_m,k′，其中有θ′_d～Dir(α)和用所得主题模型的参数和θ′_m,k′组成主题{z_k′:θ′_m,k′}。其中，吉布斯采样算法公式如下所示：

主题模型的参数θ′_m,k′和计算公式分别如下所示：

上述的科研主题跟踪模块，其特征在于，具体包括：

将属于主题{z_k′:θ′_m,k′}的文献按照文献所属的时间t，以年y为单位离散到对应的时间窗口t_d；

按照以下公式计算主题z_k′在时间窗口t_d的主题强度p(z_k′|t_d):其中λ和μ为加权系数，D_t和N_t分别为时间窗口t_d内所包含的总文献数和总单词数；

以年为单位的时间为横坐标，每年时间上计算得到的主题强度p(z_k′|t_d)为纵坐标，绘制出主题随时间变化的曲线。

本发明提供的实施例的有益效果：

本发明针对科研文献具有丰富的结构化信息的特点，综合利用科研文献的文本信息和引用信息并结合文献的时间信息实现了对科研主题的发现和跟踪。和传统的单纯的基于文本的方法或单纯的基于引用信息的方法相比，本发明综合利用科研文献的多源信息，不仅可以获得主题词的分布还可以获得主题核心论文的分布，获得的科研主题更具代表性，本发明的主题发现模型性能更优异；此外，本发明还结合文献的时间信息实现了对科研主题随时间变化过程的跟踪。本发明的实施例所提供的科研主题发现和跟踪方法和系统，可以实现揭示挖掘预设科研领域的科研主题，科研人员的研究兴趣随时间变化的规律，有助于把握科研主题的演化脉络。

附图说明

图1为本发明多信息融合的科研主题发现和跟踪方法的流程图；

图2为本实施例中多信息融合的主题发现模型的概率图；

图3为本实施例中主题14“人脸识别”随时间变化的曲线图；

图4为本实施例中主题5“图像分割”随时间变化的曲线图；

图5为本实施例中主题9“字符识别”随时间变化的曲线图；

图6为本实施例中主题19“对象跟踪”随时间变化的曲线图；

图7为本实施例中LDA、引用LDA和多源信息融合主题模型的困惑度比较示意图；

图8为本发明实施例的多信息融合的科研主题发现和跟踪系统的结构示意图；

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式做进一步的详细描述。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

图1为本发明多信息融合的科研主题发现和跟踪方法具体实施例的流程图。如图1所示，本实施例多信息融合的科研主题发现和跟踪方法的工作流程包括如下步骤：

S1：根据要研究的科研领域选择相关的文献进行下载，对下载的文献记录进行整理得到指定格式的文献元数据。

在本实施例中，可以通过计算机来执行数据下载和整理模块、元数据预处理模块、科研主题发现模块和科研主题跟踪模块的功能。在本步骤中，通过计算机下载模式识别和图像处理领域的国际顶级期刊《IEEE模式分析与机器智能汇刊》(IEEE TPAMI-IEEETransactions on Pattern Analysis and Machine Intelligence)从1995年1月到2012年9月的所有论文(少量的主编写的文章除外)，共计得到2719篇研究文献。对采集得到的每篇文献记录进行整理得到文献元数据，包括每篇文献的ID号pmid(根据文献的发表时间顺序进行编号，同一期论文则按照出版时页码顺序进行编号)、文献的发表时间year(精确到年份)、文献的作者author、文献的内容text(这里仅包括标题、关键词和摘要这三部分)、文献的引用文献序列cit(指该文献的参考文献并且属于下载文献集的范围内的文献)。将所有下载的2719篇文献的原始记录均整理成文献元数据后，进入步骤S2。

S2：对S1中所得文献元数据进行数据预处理得到文献元数据集。

在本步骤中，对S1中得到的文献元数据集进行预处理，包括过滤停用词、数字、非英文字母字符，单词的词干化，去除在所有文献中出现次数少于4次的低频词，预处理完成后可以整理得到由881个词项构成的词典V、2719篇文献和881个词构成的文献词频矩阵D＝[d_ij]_2719×881(其中d_ij表示第i篇文献中第j个词的词频大小)，以及2719篇文献之间的引用关系矩阵C＝[c_mn]_2719×2719(其中c_mn表示第m篇文献与第n篇文献是否有引用关系，如果c_mn＝1表示有引用关系，否则表示没有引用关系)。对科研文献进行预处理之后，进入步骤S3。

S3：构建采集的科研文献元数据集的多源信息融合的科研概率主题模型，发现主题词的分布和主题核心文献的分布。

在本步骤中，构建采集的科研文献的多信息融合的主题发现模型，该模型的概率图如图2所示，具体包括三个子步骤：

S31.根据采集的科研文献元数据集的文献引用关系矩阵C建立基于引用的概率主题模型R1。该概率主题模型将主题考虑为文献即引用的集合，其具体的生成过程为：根据文献主题分布D_{doc_topic}(；d)～θ_d和主题文献分布利用吉布斯采样来生成主题，得到每个主题的核心文献的分布其中有θ_d～Dir(α)和其中，吉布斯采样算法公式如下所示：

其中，表示除去下标为i的文档和下标为t的引用以外的其它的文档和引用，表示属于主题z_k的文档d_i的被引用的数量，表示属于主题z_k的文档d_i所引用的文档的被引用的数量，α_k是θ_i,k的狄利克雷Dirichlet先验参数向量，θ_i,k表示文档i的第k个主题的概率分布，β_j是的狄利克雷先验参数向量，表示主题k的第j个核心文献的概率分布，这里k表示概率主题模型R1的主题数的下标其总数取K＝10，i表示文档数的下标其总数是2719篇，j表示文献之间引用关系的数量的下标其总数是2401，α_k和β_j取值分别为0.5和0.01。

在本实施例中，运行上述S31步骤中的吉布斯采样100次迭代后，整个采样过程将趋于收敛，此时为每篇文献分配了相应的主题，采用狄利克雷分布的期望估计主题k的第j个核心文献的概率分布的计算公式如下所示：

S32.对S31步骤中生成的主题文献分布按照属于该主题的文献的概率从高到低进行排序，这里排序算法采用选择排序法，取每个主题k中概率排在前五分之一的文献m组成新的主题

S33.对S32步骤中生成的每个主题利用组成该主题的文献的为新的文献集建立基于“词袋”模型的概率主题模型R2。该概率主题模型将主题考虑为词的集合，其具体的生成过程为：根据文献主题分布D_{doc_topic}(；d)～θ′_d来生成主题z′_d,n，再根据主题词的分布来生成文献的词，利用吉布斯采样来生成模型参数即主题词的分布和文献主题的分布θ′_m,k′，其中有θ′_d～Dir(α)和所得主题模型的参数和θ′_m,k′组成主题{z_k′:θ′_m,k′}。其中，本子步骤中的吉布斯采样算法公式如下所示：

其中，表示下标i从相应的主题中去除以后的属于主题k′的单词w_t的数量，表示下标i从相应的文档中去除以后的属于文档d_m的主题k′的数量，α_k′是θ′_m,k′的狄利克雷Dirichlet先验参数向量，θ′_m,k′表示文档m的第k′个主题的概率分布，β_t是的狄利克雷先验参数向量，表示主题k′的第t个词项的概率分布，这里k′表示概率主题模型R2的主题数的下标其总数取K′＝3，表示单词组成的向量，表示主题组成的向量，α_k′和β_t取值分别为0.5和0.01。

运行上述的S33步骤中的吉布斯采样100次迭代后，整个采样过程将趋于收敛，此时为每个单词和文档分别分配了相应的主题，采用狄利克雷分布的期望估计模型的参数的θ′_m,k′和计算公式如下所示：

θ_{m, k^{'}}^{'} = \frac{n_{m}^{(k^{'})} + α_{k^{'}}}{Σ_{k^{'} = 1}^{K^{'}} (n_{m}^{(k^{'})} + α_{k^{'}})}

在本步骤中，经过多信息融合的主题发现模型计算得到2719篇科研文献的30个主题，每个主题的描述包括两部分：(a)与主题最相关的前10个词项及相应的概率；(b)与主题最相关的前10篇核心文献及相应的概率。计算得到2719篇科研文献的其中具有代表性的4个主题词项的分布和主题核心论文的分布分别如表1和表2所示：

表1：4个主题词项的分布

表2：4个主题核心论文的分布

续表2

经过上述建立的多源信息融合的科研概率主题模型，发现TPAMI期刊的2719篇科研文献的30个主题词的概率分布和主题核心文献的概率分布以后，进入步骤S4。

S4：以上述S3步骤中获取的TPAMI期刊的2719篇科研文献的30个主题核心文献的概率分布和主题词的概率分布为基础，结合文献的时间信息，利用主题跟踪计算公式，跟踪科研主题的变化情况。

本步骤中的主题{z_k′:θ′_m,k′}的跟踪过程具体包括如下三个步骤：

S41.将属于主题{z_k′:θ′_m,k′}的文献集{d_m}(m＝1,2,…,M)按照每个文献所属的时间t，以年y为单位离散到对应的时间窗口t_d；

S42.按照以下公式计算主题{z_k′:θ′_m,k′}在时间窗口t_d的主题强度其中λ和μ为加权系数，d:t_d＝y表示时间窗口t_d为年y时所包含的文档d，D_t和N_t分别为时间窗口t_d内所包含的总文献数和总单词数；

S43.以年为单位的时间为横坐标，在每年时间上计算得到的主题强度p(z_k′|t_d)为纵坐标，绘制出主题随时间变化的曲线。

通过本步骤的具体实施，可以得到TPAMI期刊的2719篇文献上发现的30个主题在1995年至2012年间随时间变化的规律。该实验的结果有助于科研人员全面了解人工智能和图像处理领域重要研究主题随时间的发展变化情况，为科研主题的跟踪提供了依据。附图3-6给出了步骤S3的表1和表2中的四个重要主题随时间变化的规律的曲线。主题“人脸识别”是人工智能和图像处理领域的重要主题之一，如图3所示，该主题随时间的变化呈现出双峰的特性，第一个研究峰值出现在1997年，第二个研究的峰值出现在2007年。主题“图像分割”是图像处理领域的重要主题之一，如图4所示该主题在2008年以前一直是较为热门的研究主题，从1995开始到2007年大致每隔三年一个周期的上下波动，呈现出一定的周期性。如图5所示，主题“字符识别”在1995年至2004年间呈现出双峰，其第一、二个研究高峰分别出现在1997年、2002年，2004年以后随时间增加其研究热度呈逐年下降趋势。主题“对象跟踪”是计算机视觉领域的重要研究主题之一，其随时间变化的规律如图6所示，该主题的研究热度呈现出双峰特性，分别在2002年和2006年到达研究热度的峰值。

在本实施例中，利用多源信息融合的科研主题发现模型的计算公式运算上述的科研主题估算参数，获取科研主题概率分布的结果；以获得的科研主题概率分布结合文献的时间信息，并利用科研主题跟踪计算公式得到科研主题随时间变化的曲线。通过上述步骤获取的科研主题发现和跟踪的结果不仅揭示了科研文献的主题，也能揭示挖掘预设科研领域科研的主题随时间演化的规律。

在实际应用中，困惑度(Perplexity)是评价模型泛化能力的标准指标，困惑度值越小，说明模型泛化能力越强。为了评价本发明的多信息融合的科研主题发现模型的泛化能力，本实施例将2719篇科研文献进一步分为两部分，其中，1360篇文档作为训练集，1359篇文档作为测试集。在本发明的话题发现模型中，对于测试集D_test中的科研文献困惑度计算公式如下：

P e r p l e x i t y (D_{t e s t}) = \exp {- \frac{Σ_{d = 1}^{M} l o g p (w_{d})}{Σ_{d = 1}^{M} N_{d}}}

上式中N_d表示文档d中单词的数量，w_d＝(w_1d,w_2d…w_id…w_nd)表示组成文档d的单词的向量，M是测试集中文档总数量，这里取值为1359。

附图7给出了本实施例中的主题发现模型、基于文档内容的标准LDA主题模型和基于引用关系的LDA主题模型(参见“Wang,X.,Zhai,C.,Roth,D.,2013.Understandingevolution of research themes:a probabilistic generative model forcitations.In Proceedings of the 19th ACM SIGKDD international conference onKnowledge discovery and data mining,p.1115-1123.”)三者困惑度值的比较实验结果。从图7中，我们可以发现本实施例中的主题发现模型比其它两个对比模型具有更低的困惑度值，即具有更好的模型泛化能力；而当主题数量大于30时，三个模型的困惑度的值都保持基本不变，这说明本实施例中主题数量取30是较合适的，能比较好的反映出TPAMI数据集中包含的真实的主题数。

另外一个能够较好的反应主题模型性能优劣的指标是sKL(symmetric Kullback–Leibler)散度。sKL散度可以用来度量一对概率分布的相似性，是一种概率分布之间的距离度量。对发现的主题用sKL散度来度量其散度值，可以评价发现主题的差异性，避免相似或重复主题过多的缺点。在本实施例中，采用如下的计算公式来计算两个主题之间的sKL散度值：

s K L (θ_{i}, θ_{j}) = Σ_{k = 1}^{N} \frac{1}{2} [θ_{i k} l o g \frac{θ_{i k}}{θ_{j k}} + θ_{j k} l o g \frac{θ_{j k}}{θ_{i k}}]

上式中，θ_i,θ_j表示两个主题的概率分布，N表示主题所包含的分量数量。利用上述公式分别计算本实施例中的30个主题任意两个主题之间的sKL散度值，再对所得结果求平均得到30个主题的平均sKL散度值，其结果如下表3所示。从表3的结果中，可以说明本发明的实施例的主题发现的结果要优于基于文档内容的标准LDA主题模型和基于引用关系的LDA主题模型，此外和采用困惑度的实验结果类似，当主题数取30时所得的sKL散度值最高，这说明本发明实施例中主题数取30是合适的。

表3:三种主题发现模型的主题的sKL散度值对比结果

主题数	10	30	50
				Content-LDA	12.3	13.2	12.1
Citation-LDA	13.8	14.3	13.5
				Citation-Content-LDA	14.1	15.3	13.7

在本实施例中，下载TPAMI期刊的从1995年1月到2012年9月的共计2719篇论文，对原始数据进行整理得到文献元数据，并对元数据文献进行预处理得到元数据数据集；利用多源信息融合的科研主题发现模型的计算公式运算上述的科研主题估算参数，获取科研主题概率分布的结果；以获得的科研主题概率分布结合文献的时间信息，并利用科研主题跟踪计算公式得到科研主题随时间变化的曲线。通过上述步骤获取的科研主题发现和跟踪的结果不仅揭示了科研文献的主题，也能揭示挖掘预设科研领域科研的主题随时间演化的规律，具有非常重要的现实意义。

图8示出了本发明实施例的一种多信息融合的科研主题发现和跟踪系统，其包括：数据下载和整理模块，用于对指定学科的科研文献进行下载，将原始文献记录整理成文献元数据；元数据预处理模块，用于对文献元数据进行去除停止词、过滤低频词等预处理操作；科研主题发现模块，用于发现科研文献中所包含的主题；科研主题跟踪模块：用于对主题发现模块发现的主题进行跟踪，绘制科研主题随着时间变化的曲线。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种多信息融合的科研主题发现和跟踪方法，其特征在于，包括以下步骤：

S1，指定学科的科研文献下载，文献元数据的整理；

S2，文献元数据的预处理形成文献数据集；

S3，建立综合利用文本和引用信息的多源信息融合的科研文献概率主题模型，发现主题词的分布和主题核心文献的分布；

S4，以获取的主题核心文献分布和主题词分布为基础，结合文献的时间信息，利用主题跟踪计算公式，跟踪科研主题的变化情况。

上述步骤S3具体包括：

S31，根据数据集的文献引用关系建立文献引用概率主题模型R1。该概率主题模型R1的特征在于，根据文献主题分布D_{doc_topic}(；d)～θ_d和主题文献分布利用吉布斯采样来生成主题，得到每个主题的核心文献的分布其中有θ_d～Dir(α)和

S32，对S31步骤中生成的主题按照属于该主题的文献的概率从高到低进行排序，取每个主题中概率排在前五分之一的文献组成新的主题

S33，对S32步骤中生成的每个主题利用组成该主题的文献的内容建立基于“词袋”模型的概率主题模型R2。该概率主题模型R2的特征在于，根据文献主题分布D_{doc_topic}(；d)～θ′_d来生成主题z′_d,n，再根据主题词的分布来生成文献的词，利用吉布斯采样算法公式来生成模型参数即主题词的分布和文献主题的分布θ′_m,k′，其中有θ′_d～Dir(α)和用所得主题模型的参数和θ′_m,k′组成主题

上述步骤S4具体包括：

S41、将属于主题的文献按照文献所属的时间t，以年y为单位离散到对应的时间窗口t_d；

S42、按照以下公式计算主题z_k′在时间窗口t_d的主题强度p(z_k′|t_d):

其中λ和μ为加权系数，D_t和N_t分别为时间窗口t_d内所包含的总文献数和总单词数；

S43、以年为单位的时间为横坐标，每年时间上计算得到的主题强度p(z_k′|t_d)为纵坐标，绘制出主题随时间变化的曲线。

2.根据权利要求1所述的多信息融合的科研主题发现和跟踪方法，其特征在于，步骤S1中每篇文献整理得到的元数据包括：按照文献的发表时间顺序直接指定的文献ID，文献的发表时间，文献的作者，仅包括标题、关键词和摘要的文献内容，文献的引用信息。

3.根据权利要求1所述的多信息融合的科研主题发现和跟踪方法，其特征在于，步骤S2中的文献元数据的预处理过程，具体包括：去除停止词、数字、非英文字符，单词的词干化，去除在所有文献中出现次数少于4次的低频词，构建文献的文档词频矩阵，构建所有文档的词汇表，构建数据集中文献之间的引用关系矩阵。

4.根据权利要求1所述的多信息融合的科研主题发现和跟踪方法，其特征在于，步骤S31中的吉布斯采样算法公式如下所示：

其中，表示除去下标为i的文档和下标为t的引用以外的其它的文档和引用，表示属于主题z_k的文档d_i的被引用的数量，表示属于主题z_k的文档d_i所引用的文档的被引用的数量，α_k是θ_i,k的狄利克雷Dirichlet先验参数向量，θ_i,k表示文档i的第k个主题的概率分布，β_j是的狄利克雷先验参数向量，表示主题k的第j个核心文献的概率分布。

5.根据权利要求1所述的多信息融合的科研主题发现和跟踪方法，其特征在于，步骤S31中的主题的核心文献的分布计算公式如下所示：

6.根据权利要求1所述的多信息融合的科研主题发现和跟踪方法，其特征在于，步骤S33中的吉布斯采样算法公式如下所示：

其中，表示下标i从相应的主题中去除以后的属于主题k′的单词w_t的数量，表示下标i从相应的文档中去除以后的属于文档d_m的主题k′的数量，α_k′是θ′_m,k′的狄利克雷Dirichlet先验参数向量，θ′_m,k′表示文档m的第k′个主题的概率分布，β_t是的狄利克雷先验参数向量，表示主题k′的第t个词项的概率分布，这里k′表示概率主题模型R2的主题数的下标，表示单词组成的向量，表示主题组成的向量。

7.根据权利要求1所述的多信息融合的科研主题发现和跟踪方法，其特征在于，步骤S33中的主题模型的参数θ′_m,k′和计算公式分别如下所示：

8.多信息融合的科研主题发现和跟踪系统，其特征在于，所述系统包括：

元数据预处理模块：用于对文献元数据进行主题分析之前的预处理，包括去除停止词、数字、非字母字符，单词词干化，去除低频词，构建文献的文档词频矩阵，构建所有文档的词汇表，构建数据集中文献之间的引用关系矩阵；

9.根据权利要求8所述科研主题发现模块，其特征在于，用于发现科研文献中所包含的主题具体包括：

对每个主题利用组成该主题的文献的内容建立基于“词袋”模型的概率主题模型R2。该概率主题模型R2的特征在于，根据文献主题分布D_{doc_topic}(；d)～θ′_d来生成主题z′_d,n，再根据主题词的分布来生成文献的词，利用吉布斯采样算法公式来生成模型参数即主题词的分布和文献主题的分布θ′_m,k′，其中有θ′_d～Dir(α)和用所得主题模型的参数和θ′_m,k′组成主题其中，吉布斯采样算法公式如下所示：

主题模型的参数θ′_m,k′和计算公式分别如下所示：

10.根据权利要求8所述的科研主题跟踪模块，其特征在于，具体包括：

将属于主题的文献按照文献所属的时间t，以年y为单位离散到对应的时间窗口t_d；

按照以下公式计算主题z_k′在时间窗口t_d的主题强度p(z_k′|t_d):