CN103605671B

CN103605671B - 科研信息演化的分析方法和装置

Info

Publication number: CN103605671B
Application number: CN201310522710.6A
Authority: CN
Inventors: 徐硕; 史庆伟; 乔晓东; 朱礼军
Original assignee: INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Current assignee: INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority date: 2013-10-29
Filing date: 2013-10-29
Publication date: 2017-01-11
Anticipated expiration: 2033-10-29
Also published as: CN103605671A; KR101679249B1; KR20150050465A

Abstract

提供了一种科研信息演化的分析方法和装置，方法包括：通过采集单元采集预设领域的二篇以上科研文献；通过预处理单元对科研文献的进行预处理，并构建二篇以上科研文献的作者主题演化模型；通过获取单元设定科研信息估算参数，利用演化运算公式运算科研估算参数，以获取科研信息演化结果。在本发明提供的实施例中，采集预设领域的科研文献，对科研文献进行预处理，并构建科研文献的作者主题演化模型，利用演化运算公式获取科研信息演化结果，科研信息演化结果在揭示科研文献的主题、科研人员的研究兴趣的同时，也能揭示挖掘预设科研领域科研的主题、科研人员的研究兴趣等随时间变化的规律，有助于把握预设领域内科研主题的演化脉络。

Description

科研信息演化的分析方法和装置

技术领域

本发明涉及科研信息分析的技术领域，尤其是涉及科研信息演化的分析方法和装置。

背景技术

科研文献作为学术成果的主要载体，凝聚了科研人员的大量汗水和智慧，是人类社会中传播知识、进行学术交流的重要手段，任何科学研究的成果都是建立在之前的科学研究的基础之上的。普赖斯科研文献指数增长定律和逻辑曲线增长模型表明：科研文献的数量正呈指数级增长。为了准确把握科技发展现状，可以结合科研文献的特征信息，从海量的科研文献中找出科技主题及其内部的发展脉络。其中，科研文献资源包含大量的特征信息，例如单词与单词之间的潜在语义关系、科研文献主题与作者的关系（作者的研究兴趣）、研究热点的兴起、成熟到衰退的过程等。

在现有技术中，Rosen-Zvi等人在LDA模型中引入作者隐变量，用作者-主题（Author-Topic，AT）分布取代LDA模型中的科研文献-主题分布。AT模型可以有效地挖掘科研文献的作者与科研文献的主题之间的联系，找出科研人员的研究兴趣。然而，AT模型隐式地假设每个科研人员只有一个研究兴趣，为克服这一限制条件，Mimno等人在AT模型的基础上构建了作者-身份-主题（Author-Persona-Topic，APT）模型。该模型将科研人员的“身份”（Persona）与研究兴趣相对应，并给出了一种估计研究兴趣个数的启发式方法。然而，AT和APT模型在挖掘科研人员的研究兴趣时，都是只考虑了其撰写的科研文献，而均未直接考虑时间因素的影响，所以无法揭示科研文献的主题、科研人员的研究兴趣随时间变化的规律。

发明内容

本发明提供一种科研信息演化的分析方法和装置，用于解决现有技术中不能揭示科研文献的主题、科研人员的研究兴趣随时间变化的规律的问题。

为解决现有技术中的上述问题，本发明提供了一种科研信息演化的分析方法，其中，包括：

通过采集单元采集预设领域的二篇以上科研文献；

通过预处理单元对所述科研文献进行预处理，并构建所述二篇以上科研文献的作者主题演化模型；

通过获取单元设定科研信息估算参数，利用演化运算公式运算所述科研估算参数，以获取科研信息演化结果。

本发明还提供了一种科研信息演化的分析装置，其中包括：采集单元、预处理单元和获取单元；

所述采集单元用于采集预设领域的二篇以上科研文献；

所述预处理单元用于对所述科研文献的进行预处理，并构建所述二篇以上科研文献的作者主题演化模型；

所述获取单元用于设定科研信息估算参数，利用演化运算公式运算所述科研估算参数，以获取科研信息演化结果。

本发明提供的实施例的有益效果：

在本实施例中，采集预设领域的二篇以上科研文献，对科研文献进行预处理，并构建二篇以上科研文献的作者主题演化模型，设定科研信息估算参数，利用演化运算公式运算科研估算参数，以获取科研信息演化结果，科研信息演化结果在揭示科研文献的主题、科研人员的研究兴趣的同时，也能揭示挖掘预设科研领域科研的主题、科研人员的研究兴趣等随时间变化的规律，有助于把握预设领域内科研主题的演化脉络。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明科研信息演化的分析方法第一实施例的流程图；

图2为本发明科研信息演化的分析方法第二实施例的流程图；

图3为本实施例中AToT模型的概率图；

图4为本实施例中主题“增强学习”随时间变化的趋势图；

图5为本实施例中主题“EM和混合模型”随时间变化的趋势图；

图6为本实施例中主题“眼睛识别及因子分析”随时间变化的趋势图；

图7为本实施例中主题“数据模型及学习算法”随时间变化的趋势图；

图8为本实施例中主题“支持向量机和核方法”随时间变化的趋势图；

图9为本实施例中主题“神经网络”随时间变化的趋势图；

图10为本实施例中主题“语音识别”随时间变化的趋势图；

图11为本实施例中主题“贝叶斯学习”随时间变化的趋势图；

图12为本实施例中科研文献的时间分布图；

图13为本实施例中科研人员研究主题的时间演化模型图；

图14为本实施例中AT模型和AToT模型的困惑度比较示意图；

图15为本发明科研信息演化的分析装置第一实施例的结构示意图；

图16为本发明科研信息演化的分析装置第二实施例的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语）具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

图1为本发明科研信息演化的分析方法第一实施例的流程图。如图1所示，本实施例科研信息演化的分析方法的工作流程包括如下步骤：

步骤101、通过采集单元采集预设领域的二篇以上科研文献。

在本实施例中，可以通过电脑来执行采集单元、预处理单元和获取单元的功能。在本步骤中，通过采集单元采集预设领域的二篇以上科研文献，例如，可以通过采集单元采集某个科研领域的1000篇科研文献。通过采集单元采集预设领域的二篇以上科研文献之后，进入步骤102。

步骤102、通过预处理单元对科研文献进行预处理，并构建二篇以上科研文献的作者主题演化模型。

在本步骤中，通过预处理单元对采集到的所有科研文献进行预处理，包括过滤停用单词、数字和低于预设频率的单词等，并对科研文献的作者姓名进行消歧操作，姓名消歧方法包括：人工消歧法、半自动消歧法、自动消歧法以及混合消歧法等，预处理完成后可以整理得到由V个词项构成的词典以及A个作者组成的科技工作者集合，并将科研文献的发表时间进行归一化处理到区间(0,1)。构建采集到各科研文献的作者主题演化模型（Author-Topic over Time，AToT），具体包括：采用吉布斯采样算法公式计算主题词项参数Φ、作者主题参数Θ、科研文献m中第n个单词的主题分配z_m,n和科研文献m中第n个单词的作者分配x_m,n。其中，吉布斯采样算法公式如下所示：

P (z_{m, n}, x_{m, n} | w, z_{&Not; (m, n)}, x_{&Not; (m, n)}, t, a, α, β, Ψ) &Proportional; \frac{n_{z_{m, n}}^{(w_{m, n})} + β_{w_{m, n}} - 1}{Σ_{v = 1}^{V} (n_{z_{m, n}}^{(v)} + β_{v} - 1)}

\frac{n_{x_{m, n}}^{(z_{m, n})} + α_{z_{m, n}} - 1}{Σ_{k = 1}^{K} (n_{x_{m, n}}^{(k)} + α_{k}) - 1} \times Beta (ψ_{z_{m,, n}, 1}, ψ_{z_{m, n}, 2})

其中，K表示采集的至少二篇科研文献隐含的主题数量，N_m表示科研文献m中单词的数量，a_m表示撰写科研文献m的作者形成的向量，A_m表示撰写科研文献m的作者数量，ψ_k表示主题k随时间变化的贝塔Beta分布参数向量，z_m,n表示科研文献m中第n个单词的主题分配，x_m,n表示科研文献m中第n个单词的作者分配，w_m,n表示科研文献m中第n个单词，t_m,n表示科研文献m中第n个单词的时间戳，α是θ_a（a=1,…,A）的狄利克雷Dirichlet先验参数向量，θ_a表示作者a的主题概率分布，β是的狄利克雷先验参数向量，表示主题k的词项概率分布，z_﹁m,n表示分配到单词w_m,n的主题以外的所有主题变量，x_﹁m,n表示分配到单词w_m,n的作者以外的所有作者变量，表示词项v被分配主题z_m,n的次数，表示作者x_m,n所负责的单词被分配主题k的次数。

通过预处理单元对科研文献进行预处理，并构建二篇以上科研文献的作者主题演化模型之后，进入步骤103。

步骤103、通过获取单元设定科研信息估算参数，利用演化运算公式运算科研估算参数，以获取科研信息演化结果。

在本步骤中，利用步骤102中预处理结果，通过获取单元采用的近似推断算法设定科研信息估算参数，其中，科研信息估算参数包括：主题词项参数作者主题参数和主题时间参数科研文献m中第n个单词的主题分配z_m,n和科研文献m中第n个单词的作者分配x_m,n。其中，设定主题词项参数作者主题参数科研文献m中第n个单词的主题分配z_m,n和科研文献m中第n个单词的作者分配x_m,n的近似推断算法包括：变分期望最大化、期望传播、以及吉布斯采样等。而设定主题时间参数Ψ可以采用的近似推断算法：最大似然估计法、矩估计法、计划评审技术（ProgramEvaluation and Review Technique，PERT）估计法、双边幂分布（Two-Sided PowerDistribution，TSP）估计法以及分位数估计法等。

然后，利用演化计算公式运算上述的科研估算参数，以获取科研信息演化结果，其中，演化计算公式如下所示：

P(k,t|a)＝P(k|a)p(k|t)＝θ_a,k×Beta(ψ_k,1,ψ_k,2)

其中，θ_a，k表示科研文献作者a主题k的概率分布，ψ_k,1和ψ_k,2表示主题k随时间变化的Beta分布参数，Beta(·,·)表示贝塔分布的概率密度函数。

在本实施例中，利用演化计算公式运算上述的科研估算参数，以获取科研信息演化结果，并将科研信息演化结果显示给用户，例如通过显示单元向用户显示科研信息演化结果，通过上述步骤获取的科研信息演化结果不仅揭示科研文献的主题、科研人员的研究兴趣，也能揭示挖掘预设科研领域科研的主题、科研人员的研究兴趣等随时间演化的规律。

图2为本发明科研信息演化的分析方法第二实施例的流程图，图3为本实施例中AToT模型的概率图，图4为本实施例中主题“增强学习”随时间变化的趋势图，图5为本实施例中主题“EM和混合模型”随时间变化的趋势图，图6为本实施例中主题“眼睛识别及因子分析”随时间变化的趋势图，图7为本实施例中主题“数据模型及学习算法”随时间变化的趋势图，图8为本实施例中主题“支持向量机和核方法”随时间变化的趋势图，图9为本实施例中主题“神经网络”随时间变化的趋势图，图10为本实施例中主题“语音识别”随时间变化的趋势图，图11为本实施例中主题“贝叶斯学习”随时间变化的趋势图，图12为本实施例中科研文献的时间分布图，图13为本实施例中科研人员研究主题的时间演化模型图，图14为本实施例中AT模型和AToT模型的困惑度比较示意图。如图2所示，本实施例科研信息演化的分析方法的工作流程具体包括如下步骤：

步骤201、通过采集单元采集预设领域的二篇以上科研文献。

在本实施例中，采集整理《神经信息处理系统》（Neural Information ProcessingSystem，NIPS）从1987年至1999年共13年的会议论文全文，科研文献的数量为1740篇，进入步骤202。

步骤202、通过预处理单元对科研文献进行预处理。

在本步骤中，通过预处理单元对采集到的所有科研文献的进行预处理，包括过滤停用单词、数字和低于预设频率的单词等，并对科研文献的作者姓名进行消歧操作，姓名消歧方法包括：人工消歧法、半自动消歧法、自动消歧法以及混合消歧法等，预处理完成后可以整理得到由V个词项构成的词典以及A个作者组成的科技工作者集合，并将科研文献的发表时间进行归一化处理到区间(0,1)。本实施例中，通过预处理单元对采集的NIPS会议论文进行预处理，预处理完成后可以整理得到由V个单词项构成的单词集合、A个作者组成的科技工作者集合，并将NIPS会议论文的发表时间归一化到区间(0,1)，其中，V=12364，A=2037。对科研文献的进行预处理之后，进入步骤203。

步骤203、构建采集的科研文献的作者主题演化模型。

在本步骤中，构建采集的科研文献的AToT模型，AToT模型的概率图如图3所示，具体包括：采用吉布斯采样算法公式计算主题词项参数Φ、作者主题参数Θ、科研文献m中第n个单词的主题分配z_m，n和科研文献m中第n个单词的作者分配x_m,n。其中，吉布斯采样算法公式如下所示：

P (z_{m, n}, x_{m, n} | w, z_{&Not; (m, n)}, x_{&Not; (m, n)}, t, a, α, β, Ψ) &Proportional; \frac{n_{z_{m, n}}^{(w_{m, n})} + β_{w_{m, n}} - 1}{Σ_{v = 1}^{V} (n_{z_{m, n}}^{(v)} + β_{v} - 1)}

\frac{n_{x_{m, n}}^{(z_{m, n})} + α_{z_{m, n}} - 1}{Σ_{k = 1}^{K} (n_{x_{m, n}}^{(k)} + α_{k}) - 1} \times Beta (ψ_{z_{m,, n}, 1}, ψ_{z_{m, n}, 2})

其中，K表示采集的至少二篇科研文献隐含的主题数量，N_m表示科研文献m中单词的数量，a_m表示撰写科研文献m的作者形成的向量，A_m表示撰写科研文献m的作者数量，ψ_k表示主题k随时间变化的贝塔Beta分布参数向量，z_m,n表示科研文献m中第n个单词的主题分配，x_m,n表示科研文献m中第n个单词的作者分配，w_m,n表示科研文献m中第n个单词，t_m,n表示科研文献m中第n个单词的时间戳，α是θ_a（a=1,…,A）的狄利克雷Dirichlet先验参数向量，θ_a表示作者a的主题概率分布，β是的狄利克雷先验参数向量，表示主题k的词项概率分布，z_﹁m,n表示分配到单词w_m,n的主题以外的所有主题变量，x_﹁m,n表示分配到单词w_m,n的作者以外的所有作者变量，表示词项v被分配主题z_m,n的次数，表示作者x_m,n所负责的单词被分配主题k的次数，其中，可以令K=100，α_k=50/K（k∈[1,K]），β_v=0.1（v∈[1,V]）。构建二篇以上科研文献的作者主题演化模型之后，进入步骤204。

步骤204、通过获取单元设定科研信息估算参数。

在本步骤中，根据步骤203构建的AToT模型，利用步骤202中预处理结果，通过获取单元采用的近似推断算法设定科研信息估算参数，其中，科研信息估算参数包括：主题词项参数作者主题参数和主题时间参数科研文献m中第n个单词的主题分配z_m,n和科研文献m中第n个单词的作者分配x_m,n。

在本实施例中，运行2000次吉布斯采样迭代，整个过程将趋于收敛，此时为每个单词w_m,n分配了相应的主题z_m,n和作者x_m,n，采用狄利克雷分布的期望估计主题k的词项概率分布参数和作者a的主题概率分布参数θ_a，和θ_a的计算公式如下所示：

θ_{a, k} = \frac{n_{a}^{(k)} + α_{k}}{Σ_{k = 1}^{K} (n_{a}^{(k)} + α_{k})}

为提高ψ_k的计算速度，采用矩估计法计算主题k随时间变化的Beta分布参数向量ψ_k，计算公式如下所示：

ψ_{k, 1} = t_{k} (\frac{t_{k} (1 - t_{k})}{s_{k}^{2}} - 1)

ψ_{k, 2} = (1 - t_{k}) (\frac{t_{k} (1 - t_{k})}{s_{k}^{2}} - 1)

其中，t_k表示预设领域的主题k采样的均值，表示预设领域主题k采样方差，其中，t_k和的计算公式分别如下所示：

t_{k} = \frac{Σ_{m = 1}^{M} (n_{m}^{(k)} \times t_{m})}{Σ_{v = 1}^{V} n_{k}^{(v)}}

s_{k}^{2} = \frac{Σ_{m = 1}^{M} (n_{m}^{(k)} \times t_{m}^{2})}{Σ_{v = 1}^{V} n_{k}^{(v)}} - t_{k}^{2}

其中，表示科研文献m中的单词被分配主题k的次数。

在本步骤中，利用作者主题演化模型计算得到1740篇科研文献的100个主题，每个主题的描述包括三部分：（a）与主题最相关的前10个词项及相应的概率；（b）与主题最相关的前10个科研人员及相应的概率；（c）主题随时间的变化趋势。计算得到1740篇科研文献的其中8个主题如表1所示：

表1

通过获取单元设定科研信息估算参数，计算出1740篇科研文献的100个主题词项概率、作者主题概率以及主题时间参数之后，进入步骤205。

步骤205、利用演化运算公式运算科研估算参数，以获取科研信息演化结果。

在本步骤中，利用演化计算公式运算上述的科研估算参数，以获取科研信息演化结果，其中，演化计算公式如下所示：

P(k,t|a)＝P(k|a)p(k|t)＝θ_a,k×Beta(ψ_k,1,ψ_k,2)

其中，θ_a，k表示科研文献作者a主题k的概率，ψ_k,1和ψ_k,2表示主题k随时间变化的Beta分布，Beta(·,·)表示贝塔分布的概率密度函数。

对于每个科研人员a∈[1,A]，将得到一个大小为K×(1999-1987+1)=100×13的矩阵，该矩阵的每个元素表示该科研人员在特定时间点对特定主题的感兴趣程度。以表1中的科研人员Sejnowski为例来介绍技术方案。

科研人员Sejnowski于1987至1999年之间，在NIPS会议上共发表科研文献43篇，其中，43篇科研文献的时间分布图如图12所示，Sejnowski在不同时期的研究主题的时间演化模型图如图13所示，图13中采用的是辛顿Hinton图来展示Sejnowski在不同时期的研究主题的时间演化，将对不同主题感兴趣的程度表示为矩形的面积，矩形面积越大，说明Sejnowski对该主题的研究兴趣越高。从图13中可以看出，在1987年至1999年期间，Sejnowski的研究主题主要是“脸谱识别与因子分析”（主题51），“神经网络”（主题37）和“数据模型与学习算法”（主题58），其中，Sejnowski早期（1989年至1993年）的研究兴趣是眼睛识别及因子分析”，而从1994年开始Sejnowski的研究主题扩展到“神经网络”（1994年）和“数据模型及学习算法”（1996年），而且研究强度较大（发表文献数量增多）。1997年以后Sejnowski的研究主题又回归到“眼睛识别及因子分析”上，研究强度也有所下降。在1987年至1999年整个期间，Sejnowski一直围绕自己的主要研究主题“眼睛识别及因子分析”开展研究工作。

在实际应用中，困惑度（Perplexity）是评价模型泛化能力的标准指标，困惑度值越小，说明模型泛化能力越强。为了评价作者主题演化AToT模型的泛化能力，本实施例将1740篇科研文献进一步分为两部分，其中，1557篇文档作为训练集，183篇文档作为测试集，测试集中包含102篇单作者科研文献，而且测试集中出现的所有作者必须在训练集中也出现。在AToT模型中，对于测试集中的科研文献困惑度计算公式如下：

Perplexity (w_{\tilde{m, \cdot}} t_{\tilde{m}, \cdot} | a_{\tilde{m}}, α, β, Ψ) = \exp [- \frac{1 nP (w_{\tilde{m}, \cdot}, t_{\tilde{m}, \cdot}, α, β, Ψ)}{N_{\tilde{m}}}]

其中，

P (w_{\tilde{m}, \cdot}, t_{\tilde{m}, \cdot} | a_{\tilde{m}}, α, β, Ψ) = \underset{z_{\tilde{m}, \cdot}}{Σ} p (t_{\tilde{m}, \cdot} | ψ_{z_{\tilde{m}, n}}) \times

根据训练集得到的参数Φ、Θ和Ψ，估算出困惑度计算公式中的Φ、Θ和Ψ的具体值，本实施例对测试集运行S（例如S=10）次吉布斯采样，困惑度取S次采样的平均值。从图14中可以看出，主题数量超过10个时，AToT模型的困惑度明显小于AT模型，说明AToT模型的性能要优于AT模型。

图15为本发明科研信息演化的分析装置第一实施例的结构示意图。如图15所示，本实施例科研信息演化的分析装置包括：采集单元701、预处理单元702和获取单元703。其中，采集单元701用于采集预设领域的二篇以上科研文献，预处理单元702用于对科研文献的进行预处理，并构建二篇以上科研文献的作者主题演化模型，获取单元703用于设定科研信息估算参数，利用演化运算公式运算科研估算参数，以获取科研信息演化结果。

其中，预处理单元702构建二篇以上科研文献的作者主题演化模型，具体为：采用吉布斯采样算法公式计算主题词项参数Φ、作者主题参数Θ、科研文献m中第n个单词的主题分配z_m,n和科研文献m中第n个单词的作者分配x_m,n；其中，吉布斯采样算法公式如下所示：

P (z_{m, n}, x_{m, n} | w, z_{&Not; (m, n)}, x_{&Not; (m, n)}, t, a, α, β, Ψ) &Proportional; \frac{n_{z_{m, n}}^{(w_{m, n})} + β_{w_{m, n}} - 1}{Σ_{v = 1}^{V} (n_{z_{m, n}}^{(v)} + β_{v} - 1)} \times

\frac{n_{x_{m, n}}^{(z_{m, n})} + α_{z_{m, n}} - 1}{Σ_{k = 1}^{K} (n_{x_{m, n}}^{(k)} + α_{k}) - 1} \times Beta (ψ_{z_{m,, n}, 1}, ψ_{z_{m, n}, 2})

获取单元703设定科研信息估算参数，具体包括：采用狄利克雷分布的期望估计主题k的词项概率分布参数和作者a的主题概率分布参数θ_a：

θ_{a, k} = \frac{n_{a}^{(k)} + α_{k}}{Σ_{k = 1}^{K} (n_{a}^{(k)} + α_{k})}

采用矩估计法计算主题k随时间变化的Beta分布参数向量ψ_k，计算公式如下所示：

ψ_{k, 1} = t_{k} (\frac{t_{k} (1 - t_{k})}{s_{k}^{2}} - 1)

ψ_{k, 2} = (1 - t_{k}) (\frac{t_{k} (1 - t_{k})}{s_{k}^{2}} - 1)

其中，t_k表示预设领域的主题k采样的均值，表示预设领域主题k采样方差，所述t_k和的计算公式分别如下所示：

t_{k} = \frac{Σ_{m = 1}^{M} (n_{m}^{(k)} \times t_{m})}{Σ_{v = 1}^{V} n_{k}^{(v)}}

s_{k}^{2} = \frac{Σ_{m = 1}^{M} (n_{m}^{(k)} \times t_{m}^{2})}{Σ_{v = 1}^{V} n_{k}^{(v)}} - t_{k}^{2}

其中，表示科研文献m中的单词被分配主题k的次数。

获取单元703利用演化运算公式运算所述科研估算参数，以获取科研信息演化结果中，所述演化计算公式如下所示：

P(k,t|a)＝P(k|a)p(k|t)＝θ_a,k×Beta(ψ_k,1,ψ_k,2)

其中，θ_a，k表示作者a主题k的概率分布，ψ_k,1和ψ_k,2表示主题k随时间变化的Beta分布参数向量。

在本实施例中，通过采集单元采集预设领域的二篇以上科研文献，通过预处理单元对科研文献进行预处理，并构建二篇以上科研文献的作者主题演化模型，通过获取单元设定科研信息估算参数，利用演化运算公式运算科研估算参数，以获取科研信息演化结果，科研信息演化结果在揭示科研文献的主题、科研人员的研究兴趣的同时，也能揭示挖掘预设科研领域科研的主题、科研人员的研究兴趣等随时间变化的规律，有助于把握预设领域内科研主题的演化脉络。

图16为本发明科研信息演化的分析装置第二实施例的结构示意图。如图16所示，本实施例科研信息演化的分析装置还包括：显示单元704，显示单元704用于将科研信息演化结果显示给用户，显示单元704的显示方式包括采用折线图和/或辛顿Hinton图，以方便用户直观地科研人员的研究主题等随时间变化的规律。

本技术领域技术人员可以理解，本发明可以涉及用于执行本申请中所述操作中的一项或多项操作的设备。所述设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备，所述通用计算机有存储在其内的程序选择性地激活或重构。这样的计算机程序可以被存储在设备（例如，计算机）可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘（包括软盘、硬盘、光盘、CD-ROM、和磁光盘）、随即存储器（RAM）、只读存储器（ROM）、电可编程ROM、电可擦ROM（EPROM）、电可擦除可编程ROM（EEPROM）、闪存、磁性卡片或光线卡片。可读介质包括用于以由设备（例如，计算机）可读的形式存储或传输信息的任何机构。例如，可读介质包括随即存储器（RAM）、只读存储器（ROM）、磁盘存储介质、光学存储介质、闪存装置、以电的、光的、声的或其他的形式传播的信号（例如载波、红外信号、数字信号）等。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来生成机器，从而通过计算机或其他可编程数据处理方法的处理器来执行的指令创建了用于实现结构图和/或框图和/或流图的框或多个框中指定的方法。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种科研信息演化的分析方法，其特征在于，包括：

通过采集单元采集预设领域的二篇以上科研文献；

通过获取单元设定科研信息估算参数，利用演化运算公式运算所述科研估算参数，以获取科研信息演化结果；

其中，科研信息估算参数包括：主题词项参数作者主题参数和主题时间参数科研文献m中第n个单词的主题分配z_m,n和科研文献m中第n个单词的作者分配x_m,n；

ψ_k表示主题k随时间变化的贝塔Beta分布参数向量。

2.根据权利要求1所述的科研信息演化的分析方法，其特征在于，还包括：

通过显示单元将所述科研信息演化结果显示给用户，显示方式包括采用折线图和/或辛顿Hinton图。

3.根据权利要求1所述的科研信息演化的分析方法，其特征在于，通过预处理单元对所述科研文献的进行预处理，具体包括：

过滤所述科研文献中的停用单词、数字和低于预设频率的单词，对所述科研文献的作者姓名进行消歧；

获取所述二篇以上科研文献的A个作者和V个词项，以及对所述二篇以上科研文献的发表时间进行归一化处理。

4.根据权利要求1所述的科研信息演化的分析方法，其特征在于，构建所述二篇以上科研文献的作者主题演化模型，具体包括：

采用吉布斯采样算法公式计算主题词项参数Φ、作者主题参数Θ、科研文献m中第n个单词的主题分配z_m,n和科研文献m中第n个单词的作者分配x_m,n；

吉布斯采样算法公式如下所示：

其中，K表示采集的至少二篇科研文献隐含的主题数量，N_m表示科研文献m中单词的数量，a_m表示撰写科研文献m的作者形成的向量，A_m表示撰写科研文献m的作者数量，ψ_k表示主题k随时间变化的贝塔Beta分布参数向量，z_m,n表示科研文献m中第n个单词的主题分配，x_m,n表示科研文献m中第n个单词的作者分配，w_m,n表示科研文献m中第n个单词，t_m,n表示科研文献m中第n个单词的时间戳，α是θ_a(a＝1,…,A)的狄利克雷Dirichlet先验参数向量，θ_a表示作者a的主题概率分布，β是(k＝1,…,K)的狄利克雷先验参数向量，表示主题k的词项概率分布，z_﹁m,n表示分配到单词w_m,n的主题以外的所有主题变量，x_﹁m,n表示分配到单词w_m,n的作者以外的所有作者变量，表示词项v被分配主题z_m,n的次数，表示作者x_m,n所负责的单词被分配主题k的次数。

5.根据权利要求4所述的科研信息演化的分析方法，其特征在于，设定科研信息估算参数，具体包括：

采用狄利克雷分布的期望估计主题k的词项概率分布参数和作者a的主题概率分布参数θ_a的计算公式如下所示：

ψ_{k, 1} = t_{k} (\frac{t_{k} (1 - t_{k})}{s_{k}^{2}} - 1)

ψ_{k, 2} = (1 - t_{k}) (\frac{t_{k} (1 - t_{k})}{s_{k}^{2}} - 1)

t_{k} = \frac{Σ_{m = 1}^{M} (n_{m}^{(k)} \times t_{m})}{Σ_{v = 1}^{V} n_{k}^{(v)}}

s_{k}^{2} = \frac{Σ_{m = 1}^{M} (n_{m}^{(k)} \times t_{m}^{2})}{Σ_{v = 1}^{V} n_{k}^{(v)}} - t_{k}^{2}

其中，表示科研文献m中的单词被分配主题k的次数。

6.根据权利要求4或5所述的科研信息演化的分析方法，其特征在于，利用演化运算公式运算所述科研估算参数，以获取科研信息演化结果中，所述演化计算公式如下所示：

P(k,t|a)＝P(k|a)p(k|t)＝θ_a,k×Beta(ψ_k,1,ψ_k,2)

其中，表示作者a主题k的概率，ψ_k,1和ψ_k,2表示主题k随时间变化的Beta分布参数。

7.一种科研信息演化的分析装置，其特征在于，包括：采集单元、预处理单元和获取单元；

所述采集单元用于采集预设领域的二篇以上科研文献；

所述预处理单元用于对所述科研文献进行预处理，并构建所述二篇以上科研文献的作者主题演化模型；

所述获取单元用于设定科研信息估算参数，利用演化运算公式运算所述科研估算参数，以获取科研信息演化结果；

ψ_k表示主题k随时间变化的贝塔Beta分布参数向量。

8.根据权利要求7所述的科研信息演化的分析装置，其特征在于，还包括：

显示单元，用于将所述科研信息演化结果显示给用户，所述显示单元的显示方式包括采用折线图和/或辛顿Hinton图。

9.根据权利要求7所述的科研信息演化的分析装置，其特征在于，所述预处理单元构建所述二篇以上科研文献的作者主题演化模型，具体包括：

吉布斯采样算法公式如下所示：

其中，K表示采集的至少二篇科研文献隐含的主题数量，N_m表示科研文献m中单词的数量，a_m表示撰写科研文献m的作者形成的向量，A_m表示撰写科研文献m的作者数量，ψ_k表示主题k随时间变化的贝塔Beta分布参数向量，z_m,n表示科研文献m中第n个单词的主题分配，x_m,n表示科研文献m中第n个单词的作者分配，w_m，n表示科研文献m中第n个单词，t_m，n表示科研文献m中第n个单词的时间戳，α是θ_a(a＝1,…,A)的狄利克雷Dirichlet先验参数向量，θ_a表示作者a的主题概率分布，β是(k＝1,…,K)的狄利克雷先验参数向量，表示主题k的词项概率分布，z_﹁m,n表示分配到单词w_m,n的主题以外的所有主题变量，x_﹁m,n表示分配到单词w_m,n的作者以外的所有作者变量，表示词项v被分配主题z_m,n的次数，表示作者x_m,n所负责的单词被分配主题k的次数。

10.根据权利要求9所述的科研信息演化的分析装置，其特征在于，所述获取单元设定科研信息估算参数，具体包括：

采用狄利克雷分布的期望估计主题k的词项概率分布参数和作者a的主题概率分布参数θ_a：

ψ_{k, 1} = t_{k} (\frac{t_{k} (1 - t_{k})}{s_{k}^{2}} - 1)

ψ_{k, 2} = (1 - t_{k}) (\frac{t_{k} (1 - t_{k})}{s_{k}^{2}} - 1)

t_{k} = \frac{Σ_{m = 1}^{M} (n_{m}^{(k)} \times t_{m})}{Σ_{v = 1}^{V} n_{k}^{(v)}}

s_{k}^{2} = \frac{Σ_{m = 1}^{M} (n_{m}^{(k)} \times t_{m}^{2})}{Σ_{v = 1}^{V} n_{k}^{(v)}} - t_{k}^{2}

其中，表示科研文献m中的单词被分配主题k的次数。

11.根据权利要求9或10所述的科研信息演化的分析装置，其特征在于，所述获取单元利用演化运算公式运算所述科研估算参数，以获取科研信息演化结果中，所述演化计算公式如下所示：

P(k,t|a)＝P(k|a)p(k|t)＝θ_a,k×Beta(ψ_k,1,ψ_k,2)

其中，θ_a，k表示作者a主题k的概率，ψ_k,1和ψ_k,2表示主题k随时间变化的Beta分布参数。