CN111831905A

CN111831905A - 基于团队科研影响力及可持续性建模的推荐方法和装置

Info

Publication number: CN111831905A
Application number: CN202010566334.0A
Authority: CN
Inventors: 于建军; 杜冠瑶; 王月
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2020-10-27
Anticipated expiration: 2040-06-19
Also published as: CN111831905B

Abstract

本发明公开了一种基于团队科研影响力及可持续性建模的推荐方法和装置。本方法为：1)根据设置的科研影响力特征属性类别，对科研影响力特征进行分类；2)设置一标签库；对每一个科研成果特征，将其与该标签库中的标签进行相似度匹配，将匹配的标签作为对应科研成果特征的属性名、根据属性名对应的科研成果特征的特征值作为该属性名对应的属性值；3)通过设置的目标函数和属性值对属性名进行筛选，选取多个属性名作为核心指标，得到一最佳核心指标集；4)根据该最佳核心指标集，获取各科研团队对应的指标值，根据所获取的指标值计算对应科研团队的一体化科研影响力；5)根据各科研团队的一体化科研影响力进行科研团队的推荐。

Description

基于团队科研影响力及可持续性建模的推荐方法和装置

技术领域

本发明属于计算机软件技术领域，是一种通过机器学习的方法主动学习和识别团队科研影响力和可持续性的特征属性，进而利用多源数据和多因素特征建模团队科研影响力和可持续性，最后实现感兴趣或领域权威团队推荐。

背景技术

推荐研究领域的权威或感兴趣团队是推荐系统重要应用方向。科研团队推荐本质上是通过计算由一系列科研人员组成的团队的科研影响力以及科研可持续性来获得。科研影响力是团队在科研过程中表现的一种能力，可表现为科研成果、团队水平、项目经费、个人影响力等等多种形式，是团队中个人综合能力的累加。科研可持续性是未来时刻的科研影响力，即未来时刻的科研影响力表现。一般来说，科研过程中很多特征因素是隐性的、非可直观获得的，如科技论文的影响力，本身就需要从论文数量、论文质量、作者单位、原创性、合著网络等诸多特征组合进行计算而获得。另外，科研可持续性更关注科研影响力的时间因素，即较短时间内的特征因素的计算结果。因此，如何从目前科研大数据中自动提取核心特征因素，从而建模团队科研影响力，并推荐领域相关团队是推荐系统亟需解决的问题。有效地利用大数据和科研特征，还能更准确全面地了解科研团队，包括职业发展历程、学术产出能力、学术地位、可持续能力等，并有利于从中找到人才培养的共性规律。

针对科研影响力特征属性的分类和表示机制，一般使用类H型指标或网络型指标来表示，类H型指标主要是考虑学者总发文量和被引频次的一个混合量化指标，网络型指标主要基于作者的引用关系和合作关系来构建。这些特征属性一般从学者论文以及论文引用数据中提取。针对基于多因素特征的科研影响力建模，一般是利用类H型指标或网络型指标中一个指标或多个指标的组合加权来构建，从而提供基于类H型指标的学术影响力评价，或者提供基于合著网络的学术影响力评价。针对基于多因素特征的可持续性建模，一般是计算下一个时刻学术影响力，作为科研团队未来能力计算结果。最后是结合科研影响力和可持续性计算结果，进行排序推荐(如图1所示)。

现有面向科研团队的推荐算法在解决特征提取、影响力和可持续性建模方面存在适用性问题。首先，未充分考虑科研影响力特性。随着科研不断发展和变化，刻画科研影响力的影响因素也越来越多，包括科研成果、团队水平、项目经费、个人影响力等等形式，科研成果从形式上包括学术书籍/论文、期刊/会议、专利、科研项目/基金等信息，同时每个单项信息又与文本内容、网络关系和时间等特征相关。如何自动学习出特征因素，并针对性和系统性的将各类特征进行分类表示和有效提取，是目前现有科研影响力特征提取方法还未解决的。另外，现有科研影响力评价指标体系主要还是人为设定，存在指标重复或冗余等问题，需要选择有代表性且低冗余的指标并自动学习其权重指标。然后，现有科研影响力指标体系一般只用于预测，属于二分类问题。如何计算下一个时刻科研影响力实质上是一个状态演化问题。最后科研团队推荐更关注排序而非绝对值，即判断不同团队的影响力是否有差距，以及在未来变化情况。

针对多因素特征提取，主流方法主要包含类H型指标和网络型指标两大类。类H型指标主要针对论文因素，特征提取时，认为科研人员发表的所有论文中至多有h篇文章每篇被引次数至少为h，而其余的所有文章每篇被引次数均不大于h。通常认为，一位科研人员的H指数的值越大，则他在学术领域获得的成就越突出。网络型指标是指根据科研人员之间在网络中的关系对科研人员学术能力进行评价的指标，主要是基于作者的引用关系和合作关系来构建。基于类H型指标的科研影响力计算往往只针对论文，数据比较片面，不能很好的反映实际科研影响力。基于网络型指标的科研影响力往往从论文等合著网络角度建模，即关注于网络关系特性。而在科研过程中，建模科研影响力的因素有很多，科研属性以及社会关系网络属性都是反映科研能力不可或缺的重要因素，仅仅从单个指标去考虑往往是不够全面和深入的，将多个指标组合使用对科研人员的综合学术能力进行评价则更为合理，另一方面，随着科研大数据的产生，这些指标从科研大数据中提取也变为可能，如基本学术属性、研究方向、合作模式特征、领域内地位、短期科研行为等等。因此，需要利用大数据和机器学习算法，将可能的特征进行识别和表示，进而用于构建影响力评价指标体系。

针对科研影响力建模，主流方法主要采用人工设定指标体系，并根据经验设置相关权重，从而计算出科研影响力得分和排序。这类方法存在指标设定不完整，或存在指标重复或冗余等问题，即需要厘清不同特征因素之间的关联关系，找到核心特征指标，以便更为准确的建模科研影响力。另一方面，科研影响力是一个长时间积累的过程，但同时短期内也存在演化和转变现象，如团队中核心成员离开等，如何分析长短期特征因素，并结合来建模科研影响力是需要重点考虑的问题。

针对科研可持续性问题，目前主要通过建立科研评价指标，将构建的科研影响力评价指标集合作为特征输入，归纳为二分类问题，并结合一定的规则和策略进行预测。从实用角度，应更关注发展趋势而不是关注有或无的概率问题，即在时间序列和空间状态转移下，计算未来时刻的科研影响力。

发明内容

本发明的目的是解决上述现有技术对特征属性的分类和表示机制、团队科研影响力建模以及可持续性建模问题，提出一种基于团队科研影响力及可持续性建模的推荐方法和装置。本发明通过科研影响力特征属性的分类和表示机制、基于多因素特征的团队科研影响力建模以及基于多因素特征的可持续性分析，来准确刻画科研影响力的特征属性，实现机器可自动学习的特征解析、识别和解释，实现感兴趣科研团队的推荐。

本发明的技术方案为：

一种基于团队科研影响力及可持续性建模的推荐方法，其步骤包括：

1)根据设置的科研影响力特征属性类别，对科研影响力特征进行分类；所述科研影响力特征按照属性类别分为科研成果特征、网络特征和时间特征；

2)设置一标签库；对每一个科研成果特征，将其与该标签库中的标签进行相似度匹配，将匹配的标签作为对应科研成果特征的属性名Name、根据属性名Name对应的科研成果特征的特征值作为该属性名Name对应的属性值；

3)通过设置的目标函数和属性值对属性名进行筛选，选取多个属性名作为核心指标，得到一最佳核心指标集；

4)根据该最佳核心指标集，获取各科研团队对应的指标值，根据所获取的指标值计算对应科研团队的一体化科研影响力；

5)根据各科研团队的一体化科研影响力进行科研团队的推荐。

进一步的，确定科研成果特征的属性名Name的方法为：对于划分为成果特征的各个特征值，根据预先设置的科研大数据的文本库从各特征值中提取关键词，然后利用长短时记忆神经网络学习算法对提取的各关键词进行二分类学习，如果根据二分类学习结果判定其中n个关键词是同一属性A，则将该n个关键词的属性名均标记为属性A，将该n个关键词的相关值之和作为属性A的属性值。

进一步的，获取所述网络特征的方法为：从发表论文的合著信息、从专利文献的合著信息、从项目的共同参与信息中提取所述网络特征；以及从获取的文本中提取所述网络特征，其方法为：1)从文本中找出至少两个用户名，并在两个用户名之间往前追溯N个字节，以及往后追溯N个字段，作为学习关系的限定文本；2)从该限定文本中提取预设的合作关键词；3)通过TF-IDF文本相似度计算模型计算当前合作关键词与标准关系库中的合作关键词的相似度；4)将匹配的合作关键词作为该文本中所找出用户名的合作关系。

进一步的，通过启发式学习方法获取所述时间特征，并计算不同时间特征对成果特征、网络特征的影响，保留对成果特征、网络特征影响最大的时间特征。

进一步的，得到所述最佳核心指标集的方法为：

21)设置一目标函数

其中p_cc为最佳核心指标集中的两指标之间的平均相似性，p_cd用于表征最佳核心指标集合中的指标与其他指标集d中指标之间的相似度；其他指标集合d为基础指标集去除最佳核心指标集之后的指标集合，步骤2)所得属性名构成该基础指标集；

22)设置最佳核心指标集数量和其它指标集数量均大于n的约束条件；随机选取该基础指标集中的两个指标为起始点，访问并标记该两指标为初始指标，纳入集合c；将基础指标集中除初始指标以外的指标纳入指标集d；然后从指标集合d中依次取出一个指标纳入集合c，并计算当前F值；

23)改变初始指标，重复步骤22)，直到基础指标集中所有指标都作为初始指标；然后对所有的F值进行比较，F值最大的一种情况对应的指标集合c作为最佳核心指标集。

进一步的，根据所获取的指标值计算科研团队的一体化科研影响力的方法为：采用SVD模型进行科研影响力建模，利用所得模型

计算科研团队的一体化科研影响力；其中r_ui表示用户u对特征i的评分，特征i对应于当前科研团队的指标值i，b_ui＝μ+b_i+b_u为偏好因子，μ是全局评分均值，b_i表示特征i得分偏离平均分的程度，b_u表示用户u评分偏离平均分的程度；q_i为特征i的特征向量，p_u为用户u的特征向量；

为隐式反馈因子，Y(u)为隐式反馈集，即用户u表示过偏好的特征集合，y_k为隐式特征向量，β_k为相应的特征权重。

进一步的，当特征i为文本特征时，特征i的特征向量

用户u的特征向量

其中，W(u,tx)表示文本特征中与用户u相关的关键字tx的权重；y_tx(tx)为关键字tx的特征向量，K(u)表示为用户u的文本特征关键字集合,K(i)表示为特征i的文本特征关键字集合；当特征i为固定型网络特征时，用户u的特征向量

其中N(u)表示用户u具备固定型网络特征的特征集合，λ为衰减因子，rd为用户间的关系维度，y_j为指标值j对应的特征值，m为非零特征值个数；当特征i为计数型网络特征时，用户u的特征向量

其中α_u,j为用户u对特征j的操作次数；A(u)为用户u具备计数型网络特征的特征集合。

进一步的，计算各科研团队的科研可持续性，获取对应科研团队的下一个时刻科研影响力；然后结合各科研团队的一体化科研影响力和科研可持续性计算结果进行科研团队的综合推荐。

进一步的，获取科研团队的下一个时刻科研影响力的方法为：

31)建立用户科研影响力的状态空间模型，包括状态方程p_(t)u＝G_tp_(t-1)u+w_t和观测方程r_(t)ui＝F_tp_(t)uq_i+v_t；其中，p_(t)u表示时间点t上用户u的特征向量，即模型的状态变量；r_(t)ui为时间点t上用户u对特征i的评分，即模型的观测变量；G_t为状态转移矩阵，F_t为观测矩阵，w_t为状态噪声，v_t为观测噪声，q_i为特征i的特征向量；

32)采用EM算法和Kalman滤波算法对用户科研影响力状态向量进行估计求解，得到下一时刻用户的特征向量p_u；

33)根据下一时刻用户的特征向量p_u，用观测方程计算下一时刻的科研影响力r_ui。

一种基于团队科研影响力及可持续性建模的推荐装置，其特征在于，包括影响力评价指标体系构建单元、科研团队的一体化科研影响力计算单元和推荐单元；其中，

影响力评价指标体系构建单元，用于根据设置的科研影响力特征属性类别，对科研影响力特征进行分类；所述科研影响力特征按照属性类别分为科研成果特征、网络特征和时间特征；然后对每一个科研成果特征，将其与标签库中的标签进行相似度匹配，将匹配的标签作为对应科研成果特征的属性名Name、根据属性名Name对应的科研成果特征的特征值作为该属性名Name对应的属性值；然后通过设置的目标函数和属性值对属性名进行筛选，选取多个属性名作为核心指标，得到一最佳核心指标集作为科研团队的影响力评价指标体系；

科研团队的一体化科研影响力计算单元，用于根据该最佳核心指标集，获取各科研团队对应的指标值，根据所获取的指标值计算对应科研团队的一体化科研影响力；

推荐单元，用于根据各科研团队的一体化科研影响力进行科研团队的推荐。

基于团队科研影响力及可持续性建模的推荐方法本质上一种基于模型的推荐算法，是在大数据环境下利用机器学习算法主动学习和识别科研影响力相关特征，分析特征属性间的关联关系，基于学术网络结构、研究方向等文本属性，以及时间因素构建科研影响力模型，全面提供对团队科研能力的刻画和分析；同时基于时间序列和状态转移特性，分析科研能力的下一时刻的发展趋势；最后结合现有科研影响力和未来发展趋势，通过排序算法进行TopN推荐。

本发明面向科研影响力特征属性的分类和表示机制，利用机器学习算法主动学习和识别科研影响力的特征属性，分析特征属性间的关联关系，形成基于网络结构、文本内容，以及时间的多特征因素表示机制；基于最大化不相似集，利用深度优先搜索算法对特征属性进行过滤，选择有代表性且低冗余的指标来计算科研影响力，基于决策树机器学习算法计算特征权重，最终计算得到团队科研影响力；时间序列模型通过分析时间序列和状态转移机制，模拟科研影响力发展趋势，借以计算未来时刻的科研影响力。对科研影响力和不同时刻的可持续性进行组合，基于目标优化矩阵学习获得权重，基于成对排序模型对组合结果进行排序推荐。在推荐时，影响力结果高的科研团队具有较高的排序值，即其推荐排名位置靠前。

例如，大量的科研影响力计算表明，科研影响力主要从论文、专利、软著等互联网科研大数据中提取相关文本内容，如作者单位、研究方向、关键字，关系网络，如合著关系、师生关系、共同参会、申请项目等，在对特性属性分类的基础上，需要识别出当前哪些特征属性会影响到科研能力的计算结果，即如何抽取合理的特征属性、计算出该特征的权重，并作为评价指标输入到评价模型，从而给出当前团队科研影响力。科研影响力是对历史科研数据的评价，即抽取科研大数据中科研团队数据，转换分解到各个特征，进而计算得出结果值进行排序。可持续性计算则是为了进一步判断当前团队未来时刻的科研影响力。在推荐时则结合现有科研影响力和可持续性计算结果进行综合排序。

本发明的关键点及对应的技术效果

关键点1，科研影响力特征属性的分类和表示机制。科研影响力是对科研团队研究能力的一种数值计算结果，随着科研大数据的产生，通过机器学习方法可从海量数据中挖掘出可能影响科研能力的指标。一般来说，科研影响力可从科研团队所产生的历史成果价值、产生这些成果的社交关系，以及成果在设定时间范围内的发布等获得。成果特征可表达为文本特征，如论文主题、研究方向、专利主题等；社交关系可表达为合著网络特征，如共同合作发表论文；成果频率可表达为时间特征。对特征分类的基础上，需要将各类特征属性映射到三个特征分类中，并进行特征的自动学习和提取。针对文本内容的特征提取，主要是通过基于神经网络的机器学习算法，将可能的相关特征表示为二分类问题，并认为相似数据可表达为同一个特征属性。如在建模文本内容特性时，研究方向中的“数据挖掘”、“机器学习”、“Data Mining”、“Machine Learning”等可识别为同一个科研属性特征，标注为“机器学习”特征属性，并进行叠加计算该特征数值。针对网络特征，可通过基于文本相似度算法和关系距离算法识别出关系类型，如从大量的新闻、论文等学习出各类关系，如合著论文、共同出席会议、合作项目、师生关系等。时间特征可通过启发式学习方法，计算不同时间刻度对其它两类特征的影响。通过对科研影响力特征属性统一描述的基础上，本发明可通过机器学习算法识别出具体特征的名称定义和属性定义。

通过对科研影响力特征属性进行分类，可将科研影响力评价指标转化为对特征属性的分类表达，再通过机器学习算法将特征表达为一系列特征属性名称和值。

技术效果：通过科研影响力特征属性的分类和表示机制，将可能的特征进行识别和表示，进而用于构建影响力评价指标体系。

关键点2，基于多因素特征的团队科研影响力建模。在科研影响力特征属性的分类和表示机制的基础上，需要对自动学习获取的特征进行相关关系分析，并定义相应的计算模型，实现科研影响力的建模。特征相关关系分析主要目的是为了选择无冗余且能最佳反映科研影响力的指标。本发明通过定义目标函数，选取最大化非相似性集合的方式对这些基础指标进行筛选和凝练。即保证目标函数中最大化核心集内的不相似性与核心集和外围集的相似性。这样使得核心指标集中的指标最具有代表性，即使去掉了部分指标，核心指标集中的指标仍然能代表去掉指标的特性；并且使得核心指标集的指标之间具代表性。在完成指标集的定义基础上，本发明基于SVD模型对科研影响力进行计算和建模。

技术效果：完成核心指标集的筛选和凝练，构建一体化科研影响力计算方法，实现科研影响力到特征属性的分解和计算。

关键点3，基于多因素特征的可持续性分析。科研可持续性主要是计算未来时刻的科研影响力。在科研可持续性计算方面，本发明采用生物进化模型来模拟影响力变化，以选择、新增、突变、退出等规则模拟可持续性变化情况，从而表达科研影响力的变化情况，并可通过直观数值表达。另一方面，考虑到科研可持续性更关注相对变化，本发明通过时间序列模型计算下一时刻的科研影响力。

技术效果：基于生物进化模型模拟科研影响力演化情况，并通过时间序列模型计算未来时刻的科研影响力。

本发明方案整体上具有以下的优点和特点：

1)本发明通过科研影响力特征属性的分类表示和特征自动提取机制，以及核心指标集的筛选和凝练方法，从而构建合理、全面的科研影响力计算公式。

2)本发明通过构建一体化科研影响力计算方法，实现科研影响力到特征属性的分解和计算，并通过时间序列模型和演化模型计算下一时刻的科研影响力，从而使得推荐更为准确。

本发明通过科研影响力特征属性的分类和表示机制，实现科研影响力特征属性的细粒度描述，方便特征属性的机器自动识别；通过基于多因素特征的团队科研影响力建模，解决特征属性的相互关联关系和加权计算问题；通过基于多因素特征的可持续性分析，实现未来时刻科研影响力计算，最后基于成对排序模型对结果进行推荐排序；在推荐时，影响力结果高的科研团队具有较高的排序值，即其推荐排名位置靠前。

本发明将细粒度的描述刻画科研影响力的特征属性，使得科研影响力和可持续性可被分解和特征识别，并可通过特征属性过滤和组合机制实现科研影响力解释和计算，从而能够更准确的推荐用户感兴趣的科研团队或该领域的权威团队。

附图说明

图1为传统推荐方法流程图；

图2为本发明推荐方法流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明的方法流程如图2所示，本发明提供的基于团队科研影响力及可持续性建模的推荐方法和装置包括以下几个步骤：

步骤S2.1：设置科研影响力特征属性分类和表达方法。

科研影响力可从科研团队所产生的历史成果价值、产生这些成果的社交关系，以及成果在设定时间范围内的发布等获得。根据原始数据初始特征的数据特点，将原始特征划分为科研成果特征、网络特征和时间特征等三类。以成果特征为例，其数据格式一般以文本格式为主，包括：论文主题、研究方向、专利主题等。成果特征属于文本特征可以表达为多个文本属性的名称值对的集合。

P_c＝{(Name,Value)}

为后续自动识别特征属性，并标注特征属性的属性名Name，本发明设置一标签库，对于每一个待识别和归类的属性，将通过与标签库中的相关标签进行相似度匹配，选择合适的标签给属性设置合适的属性名Name。

步骤S2.2：特征属性识别。通过机器学习方法，给出具体特征的名称定义和属性定义。

对于划分为成果特征的各个特征属性，本发明根据预先设置的科研大数据的文本库，针对不同的属性值，提取对应的关键词，并利用改进型RNN神经网络，即长短时记忆神经网络学习算法，对划分为成果特征中的文本内容的关键词进行二分类学习，以此判断是否属于同一个属性问题。例如：提取到关键词“神经网络”、“决策树”、“贝叶斯分类”、“逻辑回归”、“支持向量机”等，通过RNN可判定为同一方向，并可给这些关键词标注为“机器学习”。神经网络模型在表达其分类值与实际值之间的误差时通常是用损失函数来衡量。其中，交叉熵损失函数常用来处理二分类问题，对于单个样本的交叉熵表达为：

其中，在二分类问题中，y表示输入样本x的label，正类为1，负类为0；

表示输入样本x预测为正的概率P。

在此基础上，利用神经网络的前向计算、反向计算(更新神经网络中每一个参数的权重)，进而实现分类。

在类似的属性被判定为同一属性后其相关值则一并进行加和。若n个关键词通过上述处理后被判断为是同一属性A，则将n个关键词都标记为属性A，然后将n个关键词的相关值(例如：该关键词在所选训练数据文本范围中的出现频率或出现次数)之和作为属性A的属性值。

网络关系可表达为合著网络特征，社交关系中存在显性特征，如从发表论文中获取合著信息、从专利中获取合著信息、从项目中获取共同参与信息等。即这类信息特征可直接提取并计算。但仍存在一些关系需要从文本中提取，如从一段新闻中提取人员之间共同出席会议、从主页中提取师生关系等。本发明通过基于文本相似度算法和关系距离算法识别出关系类型。主要步骤包括：1)从文本中找出至少两个用户名，并在两个用户名之间往前追溯N个字节，以及往后追溯N个字段，作为学习关系的限定文本；2)从限定文本中提取可能的合作关键词，合作关键词可预先设置；3)通过TF-IDF文本相似度计算模型，计算当前合作关键词与标准关系库中的关键词的相似度；4)将匹配的合作关键词作为该文本中所找出用户名的合作关系。如从一段文本中学习出共同参加IEEE国际会议。

本文采用状态空间模型建立用户科研影响力状态空间模型，从而将时间特征对用户科研影响力的影响充分考虑进来，并采用EM(Expectation Maximization，期望最大化)算法和Kalman滤波算法求解状态空间模型参数。从而利用用户科研影响力状态空间模型计算未来时刻科研影响力。

步骤S2.3：构建影响力评价指标体系，筛选核心指标集。通过定义目标函数，选取最大化非相似性集合的方式对这些特征属性指标进行筛选和凝练。通过步骤S2.1和S2.2，本发明将原始特征划分为三类，即成果特征、合著网络特征和时间特征等。其中，三个特征分别通过神经网络、文本相似度算法和关系距离算法、启发式学习方法等诸多算法，获得各自的特征属性名称和值。且每一类特征分别包含多个特征属性指标，例如：成果特征有“机器学习”、“用户行为分析”和“云计算”等文本格式的特征属性指标。由于汇集后的特征属性指标数量过多，可能存在冗余等一系列问题，故需对其进行筛选和凝练。考虑到对科研影响力进行评价时如果只选取单一属性作为评价指标往往过于简单，不能从多个角度对学者情况、地位、状态进行刻画，因此需要找出若干属性中有代表性又低冗余的多个属性来综合评价科研人员的学术影响力。考虑到不同属性的相互影响和冗余在评价体系中的常见性，本发明采用最大化不相似集的方法来提取构建核心指标集合，集合内为选取的有代表性的属性。该方法所得到的指标集合不损失其原有的实际意义，并可以为其他类似的属性冗余问题提供解决思路，具有一定的普适性。该方法的目标函数可以表示为：

其中c代表核心指标集合，d代表其它指标集合，p_cc指核心指标集中的所有指标两两之间的平均相似性。目标函数的分子1-p_cc用于表征核心指标集合之间的不相似度，分母中的p_cd用于表征核心指标集合和其它指标集(即基础指标集去除核心指标集)之间的相似度。

同时，本发明还设置了核心指标集数量和其它指标集数量均大于2的约束条件，这是为了避免只选出一个指标。基于目标函数的公式采用了类似于深度优先的搜索方法找出核心指标集，算法步骤如下：1)首先随机选取基础指标集中某两个指标为起始点，访问并标记该两指标为初始指标，纳入集合c，基础指标集中剩余指标纳入集合d；2)从集合d中分别依次搜索1个，2个…，直至|d|个指标纳入集合c，每纳入新的指标后，重新计算集合内所有指标的F值并记录下来，直至遍历d中所有组合；3)改变初始指标，在不选取原有初始指标的情况下选取新的指标重复过程2)，直到遍历所有组合。4)重复过程3)，不断计算并记录F，直到所有指标都作为初始指标进行过搜索。此时，对所有的F值进行比较，选取F最大的一种情况，得到其最佳核心指标集。

步骤S2.4：根据得到的最佳核心指标集，针对任一科研团队提取、挖掘对应的指标值，构建该团队的一体化科研影响力计算方法。即针对各类特性，提供特征属性的计算方法，并基于SVD模型构建一体化科研影响力计算方法。证明本发明具有较好的泛化能力。

采用SVD模型进行科研影响力建模。令r_ui表示任意用户u对特征i(核心指标集之一)的评分，评分值域既可使用归一化的0,1值，也可使用离散整数值。评分集则可表示为一个大小为|U|*|I|的矩阵。

改进的SVD模型可表示为：

其中b_ui＝μ+b_i+b_u为偏好因子，μ是全局评分均值，b_i表示特征i得分偏离平均分的程度，b_u表示用户u评分偏离平均分的程度。q_i为特征i的特征向量，p_u为用户u的特征向量，q_i ^Tp_u为潜在因素特征，即分别对应了特征和用户在各个隐藏特质上的特征向量，即分别表示用户对特征的偏好程度矩阵和特征i对特征的拥有程度矩阵，q_i ^T是q_i的转置矩阵。通过评分数据来推断特征i所具有的属性和用户u对这些特征的偏好程度。

隐式反馈是用户的隐式行为记录，是反映科研用户兴趣偏好的重要依据之一，隐式反馈可以从如下行为中获取：科研用户对文献或成果的浏览行为记录、关注/收藏记录、下载记录、搜索记录等，若有以上行为记录，则可认为用户存在隐式偏好。

为隐式反馈因子。Y(u)为隐式反馈集，即为用户u表示过偏好的特征集合(即最佳核心指标对应的若干特征)，y_k为隐式特征向量，β_k为相应的特征权重，在本项目中，通过权重学习，设定为β_k＝|Y(u)|^-0.5。隐式特征向量获取方法：基于前面生成的最佳核心指标集(集合中为挑选出的有代表性的属性)，隐式特征向量在每个属性维度上，默认属性值为0，若能取得用户的隐式行为记录，例如对应到某个属性特征上有浏览行为，或关注/收藏行为，则相应的属性值加1。

文本特征计算方式可表达为：

其中，u表示用户，i表示事物item，tx表示为关键字，W(u,tx)表示文本特征中跟用户u相关的关键字tx的权重；y_tx(tx)表示为关键字tx的特征向量，归一化为[0,1]值。W(u,tx)所表示的权重值越大，则tx与u(用户)或i(item)的相关度越高，且满足L2范数归一化条件；K(*)表示为u或i的文本特征关键字集合；

和

分别表示用户对文本特征的偏好程度矩阵和i对文本特征的拥有程度矩阵。下文

和

同理可得。

在计算交互关系时，交互关系可细分为两类：计数型和固定型。计数型交互关系指的是频率将影响计算结果，如合作论文数量、参加会议次数等。而固定型交互关系则不受操作频率影响，如师生关系等。

令N(u)表示用户u具备固定型交互关系的特征集合，则有：

其中，y_j为指标值j对应的特征值，m为非零特征值个数。同一科研团队中的其它用户对当前用户也具有影响，设定衰减因子λ，即关注值随着用户间的关系维度rd衰减，并设rd≤2。

针对计数型交互关系，有：

其中α_u,j为用户u对特征j的操作次数，并使用L2范数进行归一化处理；A(u)为用户u具备计数型网络特征的特征集合。

针对时间因素建模，通过启发式学习方法，可设定不同的周期，并设定最小变化单位为△t：b_day＝{b_△ti},i∈[0,t_max)

其中，该时间周期内，b_day表示各偏好因子的变化情况；t_max表示最大周期数。

最终基于SVD模型的科研影响力模型可表示为：

上述过程为针对同一科研团队中的某一成员或用户所开展的全部操作。进一步的，对团队中所有成员进行操作、加和并做归一化处理，得到

步骤S2.5：科研影响力演变模式。模拟生物进化机制，对团队科研影响力进行未来演化模式进行预测。

借鉴生物进化理论，科研影响力随着时间变化，进化过程涉及影响力变异、选择、新增、退出。

在t时刻，科研影响力可表达为多因素特征的偏好向量。

其中，UI_t代表用户U在各个时刻的偏好向量集合；

代表t时刻的影响科研影响力的某一因素(偏好向量/特征向量)。在t+1时刻，将以如下规则生成新的多因素特征的偏好向量：1)选择：以概率p进行择优选择。以概率p₁在已有偏好向量(影响科研影响力的因素)中加入q条特征属性之间的关联关系，已有偏好向量根据用户兴趣标签生成；关联关系可从隐式反馈信息中获得，例如用户间的关注/收藏行为记录、下载记录、搜索记录等。这些连接关系的一边随机选定，另一边则由P_to×N(in(to))(即当前偏好P_to和入度N(in(to))乘积)优先度决定；以概率p₂增加主题，一边新偏好的连接关系初始化为1，另一边则随机选择。2)新增：以概率1-p新增偏好。增加特征偏好数量为y，一边新偏好的连接关系初始化为1，另一边则随机选择特征属性之间的关联关系；以概率p₃在所有偏好中加入r条关联关系，这些连接关系的一边随机选定，另一边则由P_to×N(in(to))优先度决定。3)突变：每个偏好以概率r₁发生突变，突变后连接关系入度为2，即N(in(to))＝2；以概率r₂增加1条连接关系；以概率r₃减少1条连接关系；以概率r₄保持连接关系不变。r₁+r₂+r₃+r₄＝1。4)退出：检查每个偏好的连接关系，如连接关系为0，则影响力中删除该主偏好。利用历史数据，对上述演化规则中的参数进行训练学习确定。最后基于生物进化模型来表示科研影响力的进化过程。

步骤S.2.6：科研可持续性计算。获取下一个时刻科研影响力。

状态空间模型可反映出系统内不可观测的用户潜在的属性特征与可观测评分之间的联系，通过评分矩阵推断出用户潜在属性特征的相关性质，建立的用户科研影响力的状态空间模型如下：

状态方程：p_(t)u＝G_tp_(t-1)u+w_t

观测方程：r_(t)ui＝F_tp_(t)uq_i+v_t

w_t～N(0,W)

v_t～N(0,V)

其中p_(t)u表示时间点t上用户u的特征向量，也是模型的状态变量；r_(t)ui为时间点t上用户u对特征i的评分，也是模型的观测变量。

G_t为状态转移矩阵，F_t为观测矩阵，状态噪声w_t和v_t观测噪声都是独立同分布，且满足均值为0，协方差为W和V的高斯分布。

模型具有以下统计特征：

且有：

其中，l_tt'为克罗内克函数，且

从而获得最优解的问题可以转化为对

求解。令P_(t)u＝{p_(0)u,p_(1)u,...,p_(t)u},R_(t)ui＝{r_(0)ui,r_(1)ui,...,r_(t)ui},模型参数为θ＝{F_t,G_t,W,V}。

采用EM(Expectation Maximization，期望最大化)算法和Kalman滤波算法对用户科研影响力状态向量进行估计求解。

算法步骤为：

1)初始化参数θ的初始值θ₀和观测序列R_(t)ui＝{r_(0)ui,r_(1)ui,...,r_(t)ui}；

2)重复(a)和(b)直到模型参数θ收敛：

(a)E步：

首先根据状态方程和t时刻预测的用户特征状态向量来预测t+1时刻用户特征状态向量的先验估计p_(t+1|t)u：

p_(t+1|t)u＝G_tp_(t|t)u

对先验协方差G_t进行预测：

获得Kalman增益：

K_t＝C_t+1|tF_t ^T(F_tC_t+1|tF_t ^T+V)^-1

更新系统状态：

p_(t+1|t+1)u＝p_(t+1|t)u+K_t(r_(t+1)ui-F_tp_(t+1|t)u)

对后验协方差F_t进行更新：

C_t+1|t+1＝C_t+1|t-K_tF_tC_t+1|t

进行递归平滑可得：

p_(t|T)u＝p_(t|t)u-J_t(p_(t+1|T)u-G_tp_(t+1|t)u)

(b)M步：

此步目的为最大化E步的条件期望，由上一步可得对数似然函数为：

给出t时刻的模型参数θ_t和评分数据序列R_(t)ui(注：观测序列R_(t)ui为r_(t)ui的集合，R_(t)ui＝{r_(0)ui,r_(1)ui,...,r_(t)ui})，期望值可以表示为：

l(θ|θ_t)＝E[lnP(θ|R_(t)ui,θ_t)]

对上式各项求偏导：

对于观测矩阵：

可得：

对于观测噪声协方差矩阵：

可得：

对于状态转移矩阵：

可得：

对于状态噪声协方差矩阵：

可得：

将本步骤的结果带回E步，不断循环E步和M步，当达到收敛条件或预设迭代次数后，停止算法，至此得到模型所有参数。

通过科研影响力的时间维度，可利用上述状态空间模型，用状态方程计算任一时刻用户的特征向量p_u，用观测方程计算任意时刻的科研影响力r_ui。

步骤S.2.7：结合团队科研影响力和可持续性计算结果进行综合推荐。对科研影响力和不同时刻的可持续性进行组合，基于目标优化矩阵学习获得权重。

可通过步骤S2.5和步骤S2.6计算下一时刻的科研影响力

对组合的新计算科研影响力结果值，基于成对排序模型进行推荐排序。

进一步优化排序结果。成对排序对于任意一个正样本(u,i)和负样本(u,j)，其目标是对

给出比

更高的预测值。即，若用户对一个事物的喜好度大于另一事物，则

损失函数为：

该损失函数δ为非连续函数，可进一步以连续函数c(sigmoid函数)代替，以进行优化。

利用成对排序算法，对排序结果进行优化，进而提高推荐效果。

步骤S2.8：基于准确度和新颖度等指标对推荐结果进行评价修正。选择一定比例的训练集，通过历史数据、历史行为和感兴趣内容分析，对模型的参数学习和优化，同时对模型的权重进行不断调整和优化。在此基础上，利用测试数据集，针对执行时间、MAP@n、新颖性等指标进行模型评估。通过指标验证和优化，支持行为预测的准确性和多样性。

步骤S2.9：流程结束。提供TopN科研团队推荐。

下面以实施具体说明本发明方法的实现。

本发明涉及的科研大数据，主要包括论文、专利、主页、项目、新闻中提取相关数据，提取的主要数据包括正文、时间和关系。针对正文等文本数据，本发明通过基于神经网络的机器学习算法学习出相关特征属性名称和值。如，关键词“神经网络”、“决策树”、“贝叶斯分类”、“逻辑回归”、“支持向量机”等通过学习可判定为同一方向，并可给这些关键词标注为“机器学习”。并将此类关键词相关的值合并累加。针对网络关系通过基于文本相似度算法和关系距离算法识别出关系类型。如从“某某单位某某人A、XX单位B博士等出席开幕式并致辞，来自国内外的110余名青年学者参加了某IEEE会议”学习出A和B共同出席了XX会议。如从某A主页中的2019年毕业生中可提取出B、C等学生，即A与B、C为师生关系。

通过机器学习算法，可学习出各类特征属性和属性值，进一步的利用基于目标函数和深度优先搜索方法找出核心指标集。如下表所示：

针对各类特性，以及归类后的评价指标，提供特征属性的计算方法，并基于SVM模型构建一体化科研影响力计算方法，可计算出个人的科研影响力值，并累加计算团队的科研影响力值。

用户	影响力值	所属团队
			user1	0.138445	group1
user2	0.174648	group1
			user3	0.387516	group1
user4	0.351437	group1
			user5	0.163548	group1
user6	0.136484	group2
			user7	0.231237	group2
user8	0.263534	group2
			user9	0.274845	group2
user10	0.298364	group2

模拟生物进化机制，对团队科研影响力进行未来演化模式进行计算。并利用时间序列模型通过分析时间序列，预测下一段时间可能发生的结果。采取等分时间，计算未来5个时刻的科研影响力。

对科研影响力和不同时刻的可持续性进行组合，基于目标优化矩阵学习获得权重，得到η₀＝0.5，η₁＝0.1，η₂＝0.1，η₃＝0.1，η₄＝0.1，η₅＝0.1。

进一步可以获得

用户组	影响力值加权加和
		group1	0.243476
group2	0.233822
		group3	0.445979
group4	0.294993
		group5	0.173961

基于成对排序模型对综合团队科研影响力和可持续性进行推荐排序。在排序时，通过准确率和新颖度两个指标对排序结果进行验证。选择一定比例的训练集，通过历史数据、历史行为和感兴趣内容分析，对各模型的参数学习和优化。在此基础上，利用测试数据集，针对执行时间、MAP@n、新颖性等指标进行模型评估，得到Top5排序。

如上述实例，利用基于团队科研影响力及可持续性建模的推荐方法和装置，将能够实现团队科研影响力以及科研可持续建模，并为用户推荐其可能感兴趣或权威科研团队。

尽管为说明目的公开了本发明的具体内容、实施算法以及附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于团队科研影响力及可持续性建模的推荐方法，其步骤包括：

2.如权利要求1所述的推荐方法，其特征在于，确定科研成果特征的属性名Name的方法为：对于划分为成果特征的各个特征值，根据预先设置的科研大数据的文本库从各特征值中提取关键词，然后利用长短时记忆神经网络学习算法对提取的各关键词进行二分类学习，如果根据二分类学习结果判定其中n个关键词是同一属性A，则将该n个关键词的属性名均标记为属性A，将该n个关键词的相关值之和作为属性A的属性值。

3.如权利要求1所述的推荐方法，其特征在于，获取所述网络特征的方法为：从发表论文的合著信息、从专利文献的合著信息、从项目的共同参与信息中提取所述网络特征；以及从获取的文本中提取所述网络特征，其方法为：1)从文本中找出至少两个用户名，并在两个用户名之间往前追溯N个字节，以及往后追溯N个字段，作为学习关系的限定文本；2)从该限定文本中提取预设的合作关键词；3)通过TF-IDF文本相似度计算模型计算当前合作关键词与标准关系库中的合作关键词的相似度；4)将匹配的合作关键词作为该文本中所找出用户名的合作关系。

4.如权利要求1所述的推荐方法，其特征在于，通过启发式学习方法获取所述时间特征，并计算不同时间特征对成果特征、网络特征的影响，保留对成果特征、网络特征影响最大的时间特征。

5.如权利要求1所述的推荐方法，其特征在于，得到所述最佳核心指标集的方法为：

21)设置一目标函数

6.如权利要求1所述的推荐方法，其特征在于，根据所获取的指标值计算科研团队的一体化科研影响力的方法为：采用SVD模型进行科研影响力建模，利用所得模型

7.如权利要求6所述的推荐方法，其特征在于，当特征i为文本特征时，特征i的特征向量

用户u的特征向量

8.如权利要求1所述的推荐方法，其特征在于，计算各科研团队的科研可持续性，获取对应科研团队的下一个时刻科研影响力；然后结合各科研团队的一体化科研影响力和科研可持续性计算结果进行科研团队的综合推荐。

9.如权利要求8所述的推荐方法，其特征在于，获取科研团队的下一个时刻科研影响力的方法为：

10.一种基于团队科研影响力及可持续性建模的推荐装置，其特征在于，包括影响力评价指标体系构建单元、科研团队的一体化科研影响力计算单元和推荐单元；其中，