CN112100470B

CN112100470B - 基于论文数据分析的专家推荐方法、装置、设备及存储介质

Info

Publication number: CN112100470B
Application number: CN202010914996.2A
Authority: CN
Inventors: 孙圣力; 李�杰; 李青山; 司华友
Original assignee: Beijing Guoxin Yunfu Technology Co ltd; Nanjing Boya Blockchain Research Institute Co ltd; Peking University
Current assignee: Beijing Guoxin Yunfu Technology Co ltd; Nanjing Boya Blockchain Research Institute Co ltd; Peking University
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2022-11-15
Anticipated expiration: 2040-09-03
Also published as: CN112100470A

Abstract

本发明提供了一种基于论文数据分析的专家推荐方法、装置、设备及存储介质，其中的专家推荐方法包括：获取需求文档及需求文档的关键词；使用网络爬虫爬取到与需求文档的关键词相关论文的论文标题、论文摘要、作者及所属期刊；基于所述论文标题和论文摘要获取所述论文与所述需求文档之间的文本相似度；基于所述论文作者信息获取所述论文的各论文作者对论文的贡献率；基于所属期刊获取所述论文的经标准化处理后的复合影响因子；基于所述文本相似度、所述贡献率及所述复合影响因子计算出各论文作者的推荐分数。本发明以文本相似度、作者贡献率及论文影响因子三个维度计算出候选专家的推荐分数，最终实现专家推荐，显著提升了专家推荐的推荐精准度及推荐效率。

Description

基于论文数据分析的专家推荐方法、装置、设备及存储介质

技术领域

本发明设置文本处理领域，具体而言，本申请涉及一种基于论文数据分析的专家推荐方法、装置、设备及存储介质。

背景技术

在科技服务领域，企业对技术专家的依赖度较高，当企业遇到特定技术问题时往往希望能够寻求到最合适的相关专家的帮助。但是由于信息不对称，寻找合适的专家的成本比较高，效率低，专家查找困难。因此，高效的专家推荐方法是有必要的。

传统的专家推荐一般采用专家库查找方式，但是专家库缺乏统一的标准和规范，且存在信息量少、信息更新不及时等明显缺陷。

发明内容

为了解决上述技术问题中的至少一个，本发明第一方面提供了一种基于论文数据分析的专家推荐方法，其包括：

获取需求文档及所述需求文档的关键词；

使用网络爬虫爬取到与所述需求文档的关键词相关的论文的论文标题、论文摘要、论文作者及所属期刊；

基于所述论文标题和论文摘要获取所述论文与所述需求文档之间的文本相似度；

基于所述论文作者信息获取所述论文的各个论文作者对论文的贡献率；

基于所属期刊获取所述论文的经标准化处理后的复合影响因子；

基于所述文本相似度、所述贡献率及所述复合影响因子计算各论文作者的推荐分数。

本发明第二方面提供了一种基于论文数据分析的专家推荐装置，其包括：

需求文档获取模块，用于获取需求文档及所述需求文档的关键词；

爬取模块，用于使用网络爬虫爬取到与所述需求文档的关键词相关的论文的论文标题、论文摘要、论文作者及所属期刊；

文本相似度获取模块，用于基于所述论文标题和论文摘要获取所述论文与所述需求文档之间的文本相似度；

贡献率获取模块，用于基于所述论文作者信息获取所述论文的各个论文作者对论文的贡献率；

复合影响因子获取模块，用于基于所属期刊获取所述论文的经标准化处理后的复合影响因子；

推荐分数计算模块，用于基于所述文本相似度、所述贡献率及所述复合影响因子计算各论文作者的推荐分数。

本发明第三方面提供了一种电子设备，包括存储器、处理器及存储在存储器内并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明第一方面提供的专家推荐方法。

本发明第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行所述程序时实现本发明第一方面提供的专家推荐方法。

采用网络爬虫技术，本发明能够获得到大量的与需求文档相关的论文数据。在此基础上，本发明于文本相似度、论文作者的贡献率及论文的复合影响因子三个维度计算出各候选专家的推荐分数，最终实现专家推荐，本发明显著提升了专家推荐的推荐精准度及推荐效率，降低了推荐成本。

附图说明

图1为本申请实施例的基于论文数据分析的专家推荐方法的流程图；

图2为本申请实施例的基于论文数据分析的专家推荐方法的流程图；

图3为本申请实施例的基于论文数据分析的专家推荐装置的结构框图；

图4为本申请实施例的电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本申请提供的基于论文数据分析的专家推荐方法、装置、设备及存储介质，旨在解决现有技术中的上述技术问题。

下面以具体实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

实施例一

本申请实施例提供了一种基于论文数据分析的专家推荐方法100，如图1所示，该专家推荐方法100包括：

步骤S101、获取需求文档及所述需求文档的关键词。

例如，需求文档是专家需求方提供的一份技术描述文档，其中描述了需求方所感兴趣的目标技术，需求方所需要的正是与该目标技术相关且技术水平高的专家。关键词则是与该技术最相关的词句，如该技术的名称，该技术所应有的场景等等，关键词一般由需求方提供。

步骤S102、使用网络爬虫爬取到与所述需求文档的关键词相关的论文的论文标题、论文摘要、论文作者及所属期刊。

即，以需求文档的关键词为爬取基准词，采用已有的网络爬虫工具从预定的目标网站爬取与关键词相关的论文的论文标题、论文摘要、论文作者及所属期刊等四个方面的信息。

如，本实施例中，选择从知网上爬取发表时间在15年内的相关论文的链接，然后解析链接获得论文的上述四个方面的信息，最后将解析到的信息按论文标题分别整理好并保存在本地，每篇论文的相关信息被分别保存在一个文档内。

至此，爬取到的所有论文中的所有论文作者均被作为候选专家，本实施例的后续步骤中所有完成的即是从这些候选专家中挑选出合适的专家进行推荐。

步骤S103、基于所述论文标题和所述论文摘要获取所述论文与所述需求文档之间的文本相似度。

人工智能发展至今，获取两篇文档之间的文本相似度的算法非常多，本领域技术人员在实现本发明时，可以根据需要选择已知的各种文本相似度算法。

本发明中提供了一种优选的文本相似度计算方法，如图2所示的，其具体过程如下：

S1031、将整理好的每篇文档的论文标题和论文摘要合并以形成论文索引文档，当然，每篇论文均形成一与其对应的论文索引文档。

S1032、对所述论文索引文档和所述需求文档分别进行分词处理。

本实施例中，采用百度公司开发的jieba(结巴)中文分词方法对论文索引文档和需求文档分别进行分词处理，从而获得分词处理后的论文索引文档和需求文档，优选的，可以参照百度停用词表、哈工大停用词表等工具剔除掉分词中的停用词。

可选的，为了方便后续的LDA主题模型提取主题词，对经分词处理后的各论文索引文档和需求文档分别进行词典构造，从而将其表示为词袋模型以作为LDA主题模型的输入。

S1033、使用LDA主题模型分别提取出经分词处理后的所述论文索引文档和所述需求文档的若干主题词。

使用LDA主题模型提取文档的主题词是一种非常成熟的主题词提取模型，其算法思想及工作过程为本领域一般技术人员所熟悉，当然，其算法本身也并非本发明所要保护的对象。为了使得本发明更容易实施，本说明书还是选择对LDA主题模型提取文档的主题词的算法思想作出示例性描述，如图4所示，其算法思想大致如下：

将目标文档看作不同主题构成的概率分布，将主题看作不同词语构成的概率分布。主题词的提取过程为：

获取一篇文档d；

从Dirichlet分布α中取样文档d的主题分布ρ，主题分布ρ由Dirichlet分布α生成；

从主题的多项式分布ρ中取样文档d的第i个词的主题t_i；

从Dirichlet分布β中取样主题t_i对应的词分布δ_ti，词分布δ_ti由Dirichlet分布β生成；

从词的多项式分布δ_ti中采样最终生成的主题词语w_i。

使用LDA主题模型获取目标文档的主题词，可以预先设置所要获取的主题词的数目。如，本实施例中，经过LDA主题模型提取后，每篇论文索引文档和需求文档均输出词频最高的5个主题词。

可以认为，这5个主题词最能实现对所属的文档的特征表征。

S1034、使用word2vec模型分别将所述论文索引文档和所述需求文档的若干主题词映射为若干词向量。

使用word2vec模型将文档的各主题词映射为高维空间内的词向量为本领域成熟的文档处理技术，此处不再进行详细描述，本领域技术人员在实施本发明时可以参考现有技术中的相关描述。

本实施例中，由于每篇论文索引文档和需求文档均输出5个主题词。因此，经过word2vec模型的映射处理后，每篇论文索引文档和需求文档均输出5个词向量，每个词向量与一个主题词相对应。5个词向量即组成所属文档的文本向量。

S1035、基于所述论文索引文档和所述需求文档的若干词向量计算所述论文索引文档与所述需求文档之间的文本相似度。

由于经过步骤S1034的处理，每篇论文索引文档和需求文档均具有5组词向量。因此，本实施例中，直接采用余弦相似度算法即能快速计算出论文索引文档与需求文档之间的文本相似度，余弦相似度算法的计算公式为：

其中，λ为相似度，a为论文索引文档的文本向量，b为需求文档的文本向量。

计算出的文本相似度的数值在0～1范围内，其数值越大，说明该论文索引文档与需求文档之间的文本相似度越高，即该论文与需求文档之间的相关性越强。

步骤S104、基于所述论文作者信息获取所述论文的各论文作者对论文的贡献率。

本实施例中，采用Harmonic算法获取论文中的各论文作者对论文的贡献率，其计算公式为：

其中：

γ_i为论文中排名第i位的论文作者的贡献率，n为论文的作者数量。

与文本相似度一样，贡献率的数值也在0～1范围内。

步骤S105、基于所属期刊获取所述论文的经标准化处理后的复合影响因子。

每种期刊均拥有一公认的复合影响因子，为了实现数据的格式归一化，保证分析结果的准确度。查询到复合影响因子后，对复合影响因子进行标准化，以将其数值控制在0～1范围内。

本实施例中，采用最为简单的min-max处理方法对复合影响因子进行标准化处理，具体为：

在获取到所有论文的复合影响因子数据后，找到其中的最大值max和最小值min。针对篇论文的复合影响因子，作出如下处理：

其中：θ′为标准化处理后的复合影响因子，θ为查询到的初始复合影响因子。

需要说明的上，上述步骤S103～S105的执行顺序可以互换。本实施例中，为了提升处理效率，步骤S103～S105并行执行。

至此，针对每位候选专家(即论文作者)，我们已经获得了如下三个维度的信息：

1、该候选专家所属论文与需求文档的相似度，当然，该候选专家可能出现在多篇论文中，针对其所属的每篇论文均输出一个相似度数值。如果某篇论文作者中不包括该候选专家，那么该候选专家对应的该论文与需求文档的相似度被置为零。

2、该候选专家在所述论文中的贡献率，同样的，该候选专家可能出现在多篇论文中，针对其所属的每篇论文均输出一个贡献率数值。如果某篇论文作者中不包括该候选专家，那么该候选专家对该论文的贡献率被置为零。

3、该候选专家所属论文的标准化的复合影响因子，同样的，该候选专家可能出现在多篇论文中，针对其所属的每篇论文均输出一个标准化的复合影响因子数值。如果某篇论文作者中不包括该候选专家，那么该候选专家对应的该论文的复合影响因子数值置为零。

步骤S106、基于所述文本相似度、所述贡献率及所述复合影响因子计算出各论文作者的推荐分数。

如上文所说的，针对每位候选专家(即论文作者)，已经获取到其对应的文本相似度、贡献率及复合影响因子三个维度的信息。基于这三个维度的信息即能对实现对所有的候选专家的依次打分，最终推荐出最合适的专家。

具体的，本实施例中，候选专家的推荐分数的计算公式如下：

其中：

K_i为第i位论文作者的推荐分数，γ_ji是第i位论文作者在第j篇论文中的贡献率，θ_j为第j篇论文所属期刊的复合影响因子标准化后的数值，λ_j为第j篇论文与需求文档的相似度,n为论文的数量。

可见，分数越高的候选专家，其越可能是需求方最需要的技术专家。可选的，本发明可以按推荐分数的高低对所有的候选专家进行排名，最后将排名前10位的专家推荐给需求方。

实施例二

本实施例提供了一种基于论文数据分析的专家推荐装置200，如图3所示的，该专家推荐装置200包括需求文档获取模块201、爬取模块202、文本相似度获取模块203、贡献率获取模块204、复合影响因子获取模块205、推荐分数计算模块206，其中：

需求文档获取模块201，用于获取需求文档及所述需求文档的关键词。

爬取模块202，用于使用网络爬虫爬取到与所述需求文档的关键词相关的论文的论文标题、论文摘要、论文作者及所属期刊。

文本相似度获取模块203，用于基于所述论文标题和论文摘要获取所述论文与所述需求文档之间的文本相似度。

贡献率获取模块204，用于基于所述论文作者信息获取所述论文的各个论文作者对论文的贡献率。

复合影响因子获取模块205，用于基于所属期刊获取所述论文的经标准化处理后的复合影响因子。

推荐分数计算模块206，用于基于所述文本相似度、所述贡献率及所述复合影响因子计算各论文作者的推荐分数。

由于所述专家推荐装置200的各功能模块的处理过程与前述实施例一中的专家推荐100对应的方法步骤的处理过程完全一致，因此本实施例不再对专家推荐装置200的各功能模块的处理过程进行重复描述，可以参考实施例一中的相关描述。

实施例三

图4为本申请实施例提供的电子设备300的结构示意图，如图4所示，该电子设备300包括处理器301和存储器303，处理器301和存储器303相连，如通过总线302相连。

处理器301可以是CPU，通用处理器、DSP，ASIC，FPGA或者其他可编程器件、晶体管逻辑器件、硬件部件或者其他任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器301也可以是实现计算功能的组合，例如包括一个或多个微处理器组合，DSP和微处理器的组合等。

总线302可以包括一通路，在上述组件之间传送信息。总线302可以是PCI总线或EISA总线等。总线302可以分为地址总线、数据总线、控制总线等。为了便于表示，图中仅以一条粗线表示，但是并不表示仅有一根总线或一种类型的总线。

存储器303可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可以储存信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储、磁盘存储介质或其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器303用于存储本申请方案的应用程序代码，并由处理器301来控制执行。处理器301用于执行存储器303中存储的应用程序代码，以实现实施例一的任一项的专家推荐方法。

本申请实施例最后还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现实施例一中任一项的专家推荐方法。

上文对本发明进行了足够详细的具有一定特殊性的描述。所属领域内的普通技术人员应该理解，实施例中的描述仅仅是示例性的，在不偏离本发明的真实精神和范围的前提下做出所有改变都应该属于本发明的保护范围。本发明所要求保护的范围是由所述的权利要求书进行限定的，而不是由实施例中的上述描述来限定的。

Claims

1.一种基于论文数据分析的专家推荐方法，其特征在于，其包括：

获取需求文档及所述需求文档的关键词；

基于所述论文标题和所述论文摘要获取所述论文与所述需求文档之间的文本相似度；

基于所述论文作者信息获取所述论文的各论文作者对论文的贡献率；

基于所述文本相似度、所述贡献率及所述复合影响因子计算出各论文作者的推荐分数；

各论文作者的推荐分数的计算公式如下：

其中：

K_i为第i位论文作者的推荐分数，γ_ji是第i位论文作者在第j篇论文中的贡献率，θ_j为第j篇论文所属期刊的复合影响因子标准化后的数值，λ_j为第j篇论文与需求文档的相似度，n为论文的数量；

采用Harmonic算法获取所述论文中的各论文作者对论文的贡献率，其计算公式为：

其中：

γ_i为论文中排名第i位的论文作者的贡献率，n为论文的作者数量；

所述基于所述论文标题和论文摘要获取所述论文与所述需求文档之间的文本相似度包括：

将所述论文标题和所述论文摘要合并以形成论文索引文档，每篇论文均形成一与其对应的论文索引文档；

对所述论文索引文档和所述需求文档分别进行分词处理；

使用LDA主题模型分别提取出经分词处理后的所述论文索引文档和所述需求文档的若干主题词；

使用word2vec模型分别将所述论文索引文档和所述需求文档的若干主题词映射为若干词向量；

基于所述论文索引文档和所述需求文档的若干词向量计算所述论文索引文档与所述需求文档之间的文本相似度。

2.如权利要求1所述的专家推荐方法，其特征在于：

使用jieba中文分词方法对所述论文索引文档和所述需求文档分别进行分词处理，并剔除其中的停用词。

3.如权利要求1所述的专家推荐方法，其特征在于：在使用LDA主题模型提取经分词处理后的所述论文索引文档和所述需求文档的主题词之前，还包括：

对经分词处理后的所述论文索引文档和所述需求文档进行词典构造，将其表示为词袋模型以作为LDA主题模型的输入。

4.如权利要求1所述专家推荐方法，其特征在于：基于所述论文索引文档和所述需求文档的若干词向量，采用余弦相似度算法计算所述论文索引文档与所述需求文档之间的文本相似度。

5.一种基于论文数据分析的专家推荐装置，其特征在于，其包括：

文本相似度获取模块，用于基于所述论文标题和所述论文摘要获取所述论文与所述需求文档之间的文本相似度；

推荐分数计算模块，用于基于所述文本相似度、所述贡献率及所述复合影响因子计算各论文作者的推荐分数；

各论文作者的推荐分数的计算公式如下：

其中：

其中：

对所述论文索引文档和所述需求文档分别进行分词处理；

6.一种电子设备，包括存储器、处理器及存储在存储器内并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至4任一项所述的专家推荐方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1至4任一项所述的专家推荐方法。