CN110968782B

CN110968782B - 一种面向学者的用户画像构建及应用方法

Info

Publication number: CN110968782B
Application number: CN201910976349.1A
Authority: CN
Inventors: 王大玲; 陈英豪; 冯时; 张一飞
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2023-04-07
Anticipated expiration: 2039-10-15
Also published as: CN110968782A

Abstract

本发明提供一种面向学者的用户画像构建及应用方法。首先，从国内学者的个人主页上获取学者基本信息，从国内外著名学术网站上获取学者的研究信息，在此基础上对上述信息进行预处理，从而获得构建学者画像所需的语料库；之后，通过对学者基本属性和研究属性的挖掘，构建学者画像；最后，基于学者画像，实现学者搜索与专家发现、论文审稿人推荐、合作学者推荐等应用。该发明对于学者寻找项目和论文工作的合作者、学术会议和期刊主办者寻找论文审稿人、以及刚刚从事一个新的研究领域的入门者寻找领域的资深学者，均具有支持和帮助作用。

Description

一种面向学者的用户画像构建及应用方法

技术领域

本发明涉及知识管理及应用领域，主要涉及一种基于学术资源、面向学者的用户画像构建方法及基于用户画像的学术资源搜索、推荐等应用技术，具体涉及一种面向学者的用户画像构建及应用方法。

背景技术

用户画像是基于用户的属性、兴趣、社会关系等信息构建的用户模型。作为一类特定的用户画像，学者画像将更侧重于学术方向、研究领域、发表论文、从事科研项目及与其他学者的合作关系等内容。学者画像是一个近些年才产生的概念，但其中涉及的技术，包括学术信息抽取、研究兴趣挖掘、社交网络挖掘等技术，则早已被提出和研究，并且在国内外已有成熟的学者画像构建系统，在推动学术发展等方面取得了很好的效果。

在学者画像涉及的技术方面，对于信息抽取，早期的研究工作主要集中在从一些特定结构的文档中抽取信息。随着互联网的发展，很多有价值的信息都包含在相关网页中，因此越来越多的学者开始关注于从大数据量的网页中直接抽取有用信息。目前，国际上比较著名的学术资源网站DBLP，是计算机领域内以科研学者为核心的一个英文文献集成网站，它在一定程度上完成了学者的研究属性，尤其是学术论文、合作学者、相关会议等属性画像的构建，并且实现了较好的姓名消歧工作。在国内，清华大学的Aminer，是一个基于学者画像的新型在线学术搜索与挖掘系统，它完成了从开放互联网中进行研究者属性抽取、学者姓名消歧、信息集成、研究兴趣挖掘、学术网络挖掘等各项构建学者画像的相关工作，并且成功地对异构实体进行建模，从而提供了基于主题的搜索、学术影响力分析、跨领域合作推荐以及学术相似性分析等各种上层应用。上海交通大学AceMap，则将更多地精力放在了深入探究学者变迁和科研项目的发展方向领域，他们在对国内人才项目进行立体学术画像的基础上，着重对信息科学部进行深入剖析，研究信息科学部下各个子学科的合作关系和发展方向，并且搜集研究了科研学者们不同时期所在机构的变迁情况。

发明内容

基于上述研究成果，本发明提出一种基于学术资源、主要面向国内学者的用户画像构建方法，以及几种基于用户画像的学术资源搜索与推荐等应用技术。首先，从国内学者的个人主页上获取学者基本信息，从国内外著名学术网站上获取学者的研究信息，在此基础上对上述信息进行预处理，从而获得构建学者画像所需的语料库；之后，通过对学者基本属性和研究属性的挖掘，构建学者画像；最后，基于学者画像，实现学者搜索与专家发现、论文审稿人推荐、合作学者推荐等应用。

本发明是基于学术资源、面向学者的用户画像构建方法及基于用户画像的学术资源搜索、推荐等应用技术，应用Web数据获取、文本挖掘、个性化搜索与推荐技术，提出有效的学者画像构建、展示及应用方法。与相关工作相比，本发明的特色在于面向国内学者、规则与机器学习技术相结合的方法、不同的学术资源推荐模式以及画像及应用结果的展示。

针对国内不同层次的学者和专家对于学术资源的个性化需求，本发明提供了一种基于学术资源的学者画像构建方法以及几种基于学者画像的学术资源搜索、推荐等应用。

本发明提出了一种面向学者的用户画像构建及应用方法，包括以下步骤：

步骤1：构建学术资源语料库，通过对来自Web上学者数据的获取及处理，构建学术资源语料库，具体步骤如下：

(1)获取学者基本信息，通过对目标网站的结构信息的分析，获取学者的基本信息的文本内容，所述结构信息包括URL组成规则、页面跳转规则、学者信息分布以及HTML源代码；

(2)获取学者研究信息，通过分析学者发表的论文、论文发表的会议或期刊，以及所述学者的合作学者的信息，获取学者的更全面的研究信息；

(3)处理学者信息并构建学者信息语料库，首先对获取的学者的基本信息和研究信息进行处理，然后根据处理得到的包含学者基本信息和研究信息的、统一格式的纯文本txt文件构建所述学者信息语料库；

步骤2：构建学者画像，基于步骤1构建的学者信息语料库，通过深入的分析和挖掘，获得学者画像所需信息，构建学者画像，具体步骤如下：

(1)挖掘学者基本属性，在得到的学者信息语料库的基础上，抽取学者的姓名、任职信息、职称信息及联系方式，并进行学者缺失性别的预测；

(2)挖掘学者研究属性，所述学者研究属性包括学者研究兴趣及学者之间学术关系，所述学者研究兴趣通过采用文档主题生成模型LDA，并在学者论文中挖掘相关主题作为所述学者的研究兴趣，然后通过生成词云图直观再现所述学者研究兴趣，所述学者之间学术关系包括学者之间的合作关系和相似关系，所述合作关系的学者称为合作学者，所述相似关系的学者称为相似学者，对于所述合作关系的挖掘，通过设计相关算法挖掘出所有合作学者，并计算出所有合作学者中每一位学者的合作次数，对于所述相似关系的挖掘，基于学者的研究兴趣实现所述学者的相似学者的挖掘；

(3)构建学者画像，首先通过步骤(1)得到的学者基本属性构建学者的基本属性画像，通过步骤(2)得到的学者研究属性构建学者研究属性画像，然后将所述学者基本属性与研究属性通过学者姓名关键字集成起来即可完成整个学者画像的构建，最后将所述学者的基本属性和研究属性的数据集成起来存入表中，所述表的关键字是学者的姓名，所述关键字之外的其余各部分是所述学者的除姓名之外的其他属性信息，最终构建的学者画像属性包括<学者基本属性，学者研究属性>，具体表述为<姓名与任职，联系方式，职称，性别，研究兴趣，词云图，相似学者，合作学者>；

步骤3：学者画像的应用方法，通过构建得到的学者画像实现学者检索与专家发现、论文审稿人推荐、合作学者推荐的应用，具体表述为：

(1)学者检索与专家发现，所述学者检索是指输入学者姓名作为查询关键词，在学者信息数据库中搜索与所述学者姓名相匹配的学者姓名，一旦找到匹配项则将所述学者的所有属性信息传递给前端按照网页模板进行渲染输出，所述专家发现是指将输入的研究领域作为查询关键词，分别与数据库中的每一位学者的所有研究兴趣进行匹配，如遇到匹配项则将当前学者的姓名返回；

(2)论文审稿人推荐，所述论文审稿人的推荐包括基于会议名称的推荐、基于研究领域的推荐、以及基于特定论文的推荐，所述基于会议名称的推荐是指通过输入会议名称查找参与过所述会议的审稿人和在发表过所述会议论文的作者中征集审稿人，所述基于研究领域的推荐是指对于一个新的学术会议，首先根据所述新的学术会议的征文主题，确定所述新的学术会议的研究领域，然后输入所述研究领域作为查询关键字匹配学者的研究兴趣，并且将所有匹配的学者按照发表论文的总数量降序输出，得到推荐的论文审稿人信息；所述基于特定论文的推荐是指通过遍历计算特定论文题目的特征向量在每一位学者所发表的全部论文题目中出现的次数，得到所述学者相对于所述特定论文的推荐度；

(3)合作学者推荐，所述合作学者推荐是指为学者推荐可以同学者合作撰写论文或开展研究的学者，推荐方法包括基于学者姓名的合作学者推荐、基于会议名称的合作学者推荐、基于研究领域的合作学者推荐和基于特定论文的合作学者推荐。

所述的步骤1中的步骤(1)获取学者基本信息，通过对目标网站的结构信息的分析，获取学者的基本信息的文本内容，所述结构信息包括URL组成规则、页面跳转规则、学者信息分布以及HTML源代码，具体步骤如下：

1.1.1)输入学者目录页的网址作为初始的URL，发起网页请求；

1.1.2)接收网站的应答，并下载所述网页请求的请求网页资源；

1.1.3)对网页的HTML源码进行解析，并定位所述输入学者的主页URL链接的标签，以及所述输入学者的个人介绍信息的标签，将定位得到的学者主页URL链接存入URL列表，将定位得到的学者个人介绍信息存入txt文本；

1.1.4)从存放学者主页URL链接的URL列表里选取一个新的URL，发起网页请求，转步骤1.1.2)。

所述的步骤1中的步骤(2)获取学者研究信息，通过分析学者发表的论文、论文发表的会议或期刊，以及所述学者的合作学者的信息，获取学者的更全面的研究信息，具体步骤如下：

1.2.1)将论文资源网站上的学者网页的URL链接加入到待爬取URL列表里；

1.2.2)从所述待爬取URL列表里中随机选取一个URL链接请求网页资源；

1.2.3)下载请求得到的网页资源中的网页，并解析所述网页；

1.2.4)分别定位并且提取学者的论文、论文发表的期刊杂志或者会议以及论文合作作者信息；

1.2.5)检查所述待爬取URL列表是否为空，若所述待爬取URL列表为空则结束，否则转至步骤1.2.2)；

1.2.6)将提取的学者的论文、论文发表的期刊杂志或者会议以及论文合作作者信息存在临时数据库中，此外，合作的国外学者的论文发表的期刊杂志或者会议以及论文合作作者信息存在以json格式保存的文件中，将下载的国内外学者的论文全文以pdf形式存在数据集中。

所述的步骤1中的步骤(3)处理学者信息并构建学者信息语料库，首先对获取的学者的基本信息和研究信息进行处理，然后根据处理得到的包含学者基本信息和研究信息的、统一格式的纯文本txt文件构建所述学者信息语料库，具体步骤如下：

1.3.1)重构学者基本信息，重构包含学者基本信息的个人简介的txt文本文件，得到包含学者基本信息的、统一格式的纯文本txt文件，具体步骤如下：

S1.1：将包含学者基本信息的个人简介的txt文本文件按照所在文件夹中的位置顺序重命名；

S1.2：设置文件和文件内容的编码格式统一为“utf-8”；

S1.3：删除文件里多余的回车、换行和制表符；

S1.4：将包含学者基本信息的个人简介的txt文本文件开头的空格删除；

1.3.2)处理学者研究信息，对所述研究信息中的下载的学者论文、论文发表信息以及合作学者信息进行处理后，得到包含研究信息的、统一格式的纯文本txt文件，具体步骤如下：

S2.1：将已下载的学者论文、论文发表信息以及合作学者信息分别存入不同的excel文件；

S2.2：解析以json格式保存的国外学者论文发表的期刊杂志或者会议以及论文合作作者信息并存入excel中；

S2.3：将国内外学者的论文全文的pdf文件解析成纯文本格式，并且存入txt文件；

1.3.3)将处理后的包含学者基本信息的、统一格式的纯文本txt文件，以及处理后的包含学者研究信息的、统一格式的纯文本txt文件作为学者信息语料库。

所述的步骤2中的步骤(1)挖掘学者基本属性，在得到的学者信息语料库的基础上，抽取学者的姓名、任职信息、职称信息及联系方式，并进行学者缺失性别的预测，具体步骤如下：

2.1.1)抽取学者姓名和任职信息，使用字符串查找函数string.find并且以特殊字符作为判断条件，进行学者姓名和任职信息的抽取，并将抽取得到的学者姓名和任职信息分别存入不同的excel表格中；

2.1.2)抽取学者职称信息，采用基于规则的方法抽取学者职称信息，并将抽取得到的学者职称信息存入excel表格中，所述规则的制定方式为：

S2.1：直接在学者的个人介绍中搜索职称相关的词汇；

S2.2：查找范围限制在介绍内容的前ε个字节，忽略大于ε个字节之后出现的关键词汇，ε表示用于限制查找范围的字节的预设值；

S2.3：如果在所述查找范围内没有发现任何关键词汇，则为所述学者的职称设置一个缺省值；

2.1.3)抽取学者的邮箱联系方式，采用正则表达式及其相关技术抽取学者的邮箱，具体表述为：首先定义正则表达式模式，然后采用所述正则表达式re库的查找匹配函数以及分组与捕获函数完成学者邮箱的提取，所述正则表达式模式定义为：“[0-9a-zA-Z_]+@[a-zA-Z0-9.]+”、“[0-9a-zA-Z_]+[@#][a-zA-Z0-9.]+”；

2.1.4)预测学者性别，采用梯度提升树算法基于学者姓名来实现所述学者性别的预测，具体步骤如下：

S4.1：将具有性别标签的学者信息作为训练集D，并定义所述训练集总记录数为|D|；

S4.2：将所述训练集划分成男性姓名集合D_m和女性姓名集合D_f两部分，并定义男性姓名在训练集中的记录数为|D_m|，女性姓名在训练集中的记录数为|D_f|，因此|D|＝|D_m|+|D_f|；

S4.3：利用collections程序包里的Counter类分别统计D_m和D_f中每个字出现的次数，并定义w₁表示每个学者名字中的第一个字，|w_1m|表示w₁在D_m集合中出现的次数，|w_1f|表示w₁在D_f集合中出现的次数，w₂表示每个学者名字中的第二个字，|w_2m|表示w₂在D_m集合中出现的次数，|w_2f|表示w₂在D_f集合中出现的次数；

S4.4：利用公式(1)～公式(4)计算w₁和w₂分别在D_m和D_f中出现的概率：

x₁＝|w_1m|/|D_m| (1)

x₂＝|w_1f|/|D_f| (2)

x₃＝|w_2m|/|D_m| (3)

x₄＝|w_2f|/|D_f| (4)

式中，x₁表示每个学者名字中的第一个字w₁在D_m中出现的概率，x₂表示每个学者名字中的第一个字w₁在D_f中出现的概率，x₃表示每个学者名字中的第二个字w₂在D_m中出现的概率，x₄表示每个学者名字中的第二个字w₂在D_f中出现的概率；

S4.5：根据公式(1)～公式(4)累计计算所述训练集中每个学者的名字中的第一个字和第二个字分别在D_m和D_f中出现的概率，得到所述训练集中的所有学者的特征向量集合的矩阵，如公式(5)所示

式中，s_q表示所述训练集中的第q个学者，q满足q＝1,2,…,z，z表示所述训练集中所有学者的总数，y表示性别标签，x_q1表示所述训练集中的第q个学者的名字中第一个字w₁在D_m中出现的概率，x_q2表示所述训练集中的第q个学者的名字中第一个字w₁在D_f中出现的概率，x_q3表示所述训练集中的第q个学者的名字中第二个字w₂在D_m中出现的概率，x_q4表示所述训练集中的第q个学者的名字中第二个字w₂在D_f中出现的概率，y_q表示所述训练集中的第q个学者的性别标签；

S4.6：根据公式(5)得到的矩阵，构建性别预测模型，并基于所述预测模型对缺失的性别进行预测。

所述的步骤2中的步骤(2)中的所述学者研究兴趣通过采用文档主题生成模型LDA，并在学者论文中挖掘相关主题作为所述学者的研究兴趣，然后通过生成词云图直观再现所述学者研究兴趣，具体表述为：

S1.1：对论文数据进行预处理，所述预处理包括对论文进行分词、剔除停用词、取词干操作；

S1.2：构建词频特征矩阵，具体表述为：

式中，W_j表示预处理后的论文数据集中的第j个词汇，j满足1≤j≤n，n表示预处理后的论文数据集中的所有词汇总数，p_i表示第i篇学者论文，1≤i≤m，m表示学者发表过的论文总数，f_ij代表第j个词汇W_j在第i篇论文p_i中出现的频率；

S1.3：根据公式(6)构建的词频特征矩阵，构建LDA模型，得到学者论文中的主题对应的关键词作为学者的研究兴趣；

S1.4：根据得到的研究兴趣，通过配置WordCloud词云生成器即可生成词云图并保存词云图；

所述的步骤2中的步骤(2)中对于所述合作关系的挖掘，通过设计相关算法挖掘出所有合作学者，并计算出所有合作学者中每一位学者的合作次数，具体表述为：

S2.1：从保存的excel中读取已有的目标学者所有论文中出现过的学者，并存入列表中；

S2.2：将所述目标学者自身的名字从所述列表中删除；

S2.3：将删除目标学者自身名字的列表复制一份转换为字典，所述字典的键为所述目标学者所有论文中出现过的除目标学者自身之外的学者的姓名，将所述字典的所有键的值初始化为0，以自动消除所述键中重复的学者姓名；

S2.4：遍历步骤S2.2得到的列表，将所述字典中与当前列表元素相等的键所对应的值加一，遍历完成后，所述字典中的键表示与目标学者合作过的学者姓名，所述字典中的键所对应的值表示与目标学者合作过的学者与目标学者的合作次数；

所述的步骤2中的步骤(2)中对于所述相似关系的挖掘，基于学者的研究兴趣实现所述学者的相似学者的挖掘，具体表述为：

S3.1：读取数据库中的目标学者的研究兴趣；

S3.2：对于数据库中所有学者分别执行步骤S3.3和步骤S3.4；

S3.3：读取检索过程中的当前学者的研究兴趣，并初始化所述当前学者与目标学者的相似度值为0；

S3.4：将读取到的所述当前学者的研究兴趣与目标学者的研究兴趣逐一进行比对，如果所述对比结果为相同则相似度加一，并保存所述当前学者姓名和相似度值，遍历对比所有学者的研究兴趣与目标学者的研究兴趣。

所述的步骤3中的步骤(1)学者检索与专家发现的应用中，需要注意的是如果搜索到多个与学者姓名匹配的结果则输出的顺序是按照匹配学者们的发表论文总数目进行降序排列，所述降序排序方法具体表述为：

S1.1：读取输入的目标研究领域作为关键字；

S1.2：对数据库中所有学者执行步骤S1.3和步骤S1.4；

S1.3：选取检索过程中的当前学者的所有研究兴趣分别与所述关键字进行比对，查看是否相等；

S1.4：如果对比结果为相等，则记录所述当前学者的姓名与发表论文总数，否则继续检索下一学者；

S1.5：将所有对比结果为相等的学者姓名按照论文总数降序输出作为查询结果；

所述的步骤3中的步骤(2)所述基于会议名称的推荐是指通过输入会议名称查找参与过所述会议的审稿人和发表过所述会议论文的作者中征集审稿人，具体表述为：

S2.1：读取用户输入的目标会议名称作为查询关键字；

S2.2：对数据库中所有学者执行步骤S2.3和步骤S2.4；

S2.3：选取检索过程中的当前学者发表过论文的所有会议分别与所述关键字进行比对，查看是否相等；

S2.4：如果对比结果为相等，则记录所述当前学者的姓名与在所述目标会议上发表论文的数量，并将所述论文数量标记为学者的推荐度，否则继续检索下一学者；

S2.5：将所有对比结果为相等的学者姓名以及所述推荐度按照所述推荐度降序输出；

所述的步骤3中的步骤(2)所述基于研究领域的推荐是指对于一个新的学术会议，首先根据所述新的学术会议的征文主题，确定所述新的学术会议的研究领域，然后输入所述研究领域作为查询关键字匹配学者的研究兴趣，并且将所有匹配的学者按照发表论文的总数量降序输出，得到推荐的论文审稿人信息，具体表述为：

S3.1：读取用户输入的目标研究领域作为查询关键字；

S3.2：对数据库中所有学者执行步骤S3.3和步骤S3.4；

S3.3：选取检索过程中的当前学者发表过论文的所有研究领域与所述关键字进行比对，查看是否相等；

S3.4：如果对比结果为相等，则记录所述当前学者的姓名与在所述目标研究领域内发表论文的数量，并将所述论文数量标记为学者的推荐度，否则继续检索下一学者；

S3.5：将所有对比结果为相等的学者姓名以及所述推荐度按照所述推荐度降序输出；

所述的步骤3中的步骤(2)所述基于特定论文的推荐是指通过遍历计算特定论文题目的特征向量在每一位学者所发表的全部论文题目中出现的次数，得到所述学者相对于所述特定论文的推荐度，具体表述为：

S4.1：将每位学者发表的论文处理成带有词频的关键词词袋，所述论文处理包括分词、剔除停用词、计算词频；

S4.2：读取输入的论文题目，对所述论文题目进行分词、去除停用词、计算词频处理后，提取经过处理后剩余的关键词作为输入特征向量；

S4.3：遍历每一位学者所发表过的所有论文题目，分别计算输入特征向量中第h个关键词在第l位学者所发表的全部论文题目中出现的次数ΣC_hl，作为第l位学者相对于特定论文的推荐度；

S4.4：对数据库中的所有学者根据所述推荐度降序排列，将前k位学者作为推荐的审稿人，其中k值根据论文所需的审稿人数确定；

所述步骤S4.1中对所有学者发表的论文进行处理非常耗时，可以选择离线完成，或者选择仅仅在与特定论文相关的领域中的学者发表过的论文进行处理，然后继续执行所述步骤S4.2～步骤S4.4，得到特定论文审稿人的推荐；

所述的步骤3中的步骤(3)基于学者姓名的合作学者推荐，具体表述为：

S5.1：读取输入的目标学者姓名作为查询关键字；

S5.2：根据所述关键字在数据库中搜索与所述目标学者合作次数排名前λ的学者作为一级合作学者，将所述一级合作学者以及所述目标学者与所述一级合作学者的具体合作次数暂存在一级合作学者列表中，λ根据一级合作学者的标准确定；

S5.3：根据所述关键字在数据库中搜索与所述一级合作学者合作次数排在前γ的学者作为二级合作学者，按照所述一级合作学者列表逐个查询所述二级合作学者，γ根据二级合作学者的标准确定；

S5.4：计算每个二级合作学者的推荐度，将搜索到的二级合作学者同所述二级合作学者的推荐度一起记录下来；

S5.5：在搜索到的一级合作学者中将输入的目标学者本身删除；

S5.6：在搜索到的二级合作学者中将输入的目标学者本身以及所包含的一级合作学者删除；

S5.7：将计算得到的推荐度按照从高到低排序，如果两个合作学者的推荐度相同则排序方式为按照输入的目标学者的论文总数与合作学者的论文总数之差的绝对值从小到大排序。

所述的步骤2.1.4)预测学者性别，采用梯度提升树算法基于学者姓名来实现所述学者性别的预测，基于学者为中文姓名的性别预测，进一步表述为：

S1：去掉所述中文姓名中的姓氏的影响；

S2：重名直接按照所述训练集中结果输出，如果待预测学者的名字与所述训练集中的名字完全相同，则直接按照所述训练集中的性别标签输出；

S3：对于一个字的名字，则自动重复所述字作为所述名字的第二个字，由于中文名字中有相当一部分只包含一个字，所以在为了保证特征维数的一致，同时提升预测精度的情况下，将一个字的名字复制一份作为所述名字的第二个字；

S4：对于四个字的姓名则只选取后两个字作为名字，因为前两个字大多为复姓。

本发明的有益效果是：

本发明提供一种基于学术资源、面向国内学者的学者画像构建方法以及几种基于学者画像的学术资源搜索、推荐等应用，其有益效果体现在：1)系统本身的功能，采用本发明提出的方法可以构建包括学者基本属性和研究属性(研究兴趣、论文、合作学者)的学者画像并通过图和文字予以展示，通过输入学者姓名搜索学者信息或推荐合作学者，通过输入研究领域发现相关学者信息，通过输入会议名称、研究领域、论文名称推荐审稿人；2)在构建应用系统界面方面，采用本发明提出的方法可以构建集学者画像构建、展示、搜索、推荐功能于一体的系统应用界面；3)在性别预测方法上，实验证明，采用本发明提出的基于中文特点改进的性别预测方法，较传统的朴素贝叶斯和梯度提升决策树方法在预测准确性方面均具有明显提升。

附图说明

图1为本发明的面向学者的用户画像构建及应用方法框架图。

图2为本发明实施例中的学者画像构建与应用系统功能图。

图3为本发明实施例中基于学者姓名的合作者推荐原理图。

图4为本发明实施例中Django框架工作过程示意图。

图5为本发明实施例中系统文件组织结构图。

图6为本发明实施例中的学者画像应用系统界面图。

图7为本发明实施例中的学者画像应用系统界面的前端页面跳转规则图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明最终提供一个学者画像构建及应用系统，其功能如图2所示。此外，用户可以基于技术方案中的各步骤定制其中的某些功能。其中，整个网站的搭建采用Django框架来实现。Django框架是开源的用python语言写成的Web应用框架，它采用MVT模式搭建网站。

一种面向学者的用户画像构建及应用方法，其总体框架图如图1所示，包括如下步骤：

(1)获取学者基本信息，通过对目标网站的结构信息的分析，获取学者的基本信息的文本内容，所述结构信息包括URL组成规则、页面跳转规则、学者信息分布以及HTML源代码，具体步骤如下：

1.1.1)输入学者目录页的网址作为初始的URL，利用python中的requests库函数发起网页请求；

1.1.3)利用python第三方程序包BeautifulSoup对网页的HTML源码进行解析，并定位所述输入学者的主页URL链接的标签，在之前分析网页源码的基础上使用BeautifulSoup中的查找方法来定位学者主页URL链接、学者个人介绍等所需信息所在的标签并且将这些信息提取出来并存储到不同的文档中，具体地，将待爬取学者的URL链接放至URL列表，将学者的个人介绍信息存入txt文本；

(2)获取学者研究信息，学者研究信息即学者的研究方向、领域和兴趣，除个人主页中有部分介绍外，大都包含在学者发表的论文、论文发表的会议或期刊、以及与其合作学者的信息中，同时，经调查分析发现，DBLP、ACM、Aminer等论文资源网站上包含了所需的信息，以DBLP结构分析为例，当输入一名学者的姓名时，点击查询会发现此网页列出了已收录该学者的所有论文，并且每篇论文中包括了论文题目、论文作者以及发表的期刊杂志或者会议等信息。为了爬取学者的论文、论文发表的期刊或会议以及合作学者等信息，进一步分析网页源代码发现论文题目在class为“title”，itemprop为“name”的标签里；论文作者在itemprop为“name”的标签下的itemprop为“name”的标签里；论文发表的期刊杂志与会议信息在itemprop为“isPartOf”的标签下的itemprop为“name”的标签里。

因此，通过分析学者发表的论文、论文发表的会议或期刊，以及所述学者的合作学者的信息，获取学者的更全面的研究信息，具体步骤如下：

1.2.1)将DBLP学者网页的URL链接加入待爬取URL列表里；

1.2.2)选取一个URL链接使用requests函数请求网页资源；

1.2.3)下载网页并使用BeautifulSoup函数解析该网页；

1.2.4)利用BeautifulSoup库中find或者find_all方法分别定位并且提取学者的论文、论文发表的期刊杂志或者会议以及论文合作作者信息；

(3)处理学者信息并构建学者信息语料库，首先对获取的学者的基本信息和研究信息进行处理，然后根据处理得到的包含学者基本信息和研究信息的、统一格式的纯文本txt文件构建所述学者信息语料库，上述步骤(1)和步骤(2)所获得的数据文件无法直接作为语料库用于学者画像属性的挖掘，因此需要在对上述两类文件处理的基础上进行语料库的构建，具体概述为：

1.3.1)重构对学者基本信息，在步骤(1)中提及，包含学者基本信息的个人介绍被存在txt文本文件中，每一个txt都包含一个学者的个人介绍，由于这些个人介绍是直接从网页中得到的，而每个学者填写的个人信息风格、标准不尽相同，因此txt文件的内容存在很多脏数据，包括：无法识别的字符，多余的回车、换行、制表符，不一致的分割符等，为解决这些问题，需要对这些txt文件进行重构，基于此，学者基本信息处理的流程为：

S1.1：使用python中os函数库里的os.rename函数将包含学者基本信息的个人简介的txt文本文件按照所在文件夹中的位置顺序重命名；

S1.2：使用open和encode函数设置文件和文件内容的编码格式统一为“utf-8”；

S1.3：采用正则表达式里的re.sub函数删除文件里多余的回车、换行和制表符；

S1.4：采用string对象里的string.lstrip函数将包含学者基本信息的个人简介的txt文本文件开头的空格删除；

S1.5：将单独爬取到的学者姓名和任职信息分别写入对应的文件，并且用特殊字符“/”将其与学者的其他介绍信息隔开；

1.3.2)处理学者研究信息，对所述研究信息中的下载的学者论文、论文发表信息以及合作学者信息进行处理后，得到包含研究信息的、统一格式的纯文本txt文件，根据步骤(2)的结果，具体步骤如下：

S2.1：将已下载的学者论文、论文发表信息以及合作学者信息分别存入不同的excel文件，以便接下来的工作可以直接使用；

具体地，首先导入python的第三方程序包openpyxl来处理excel文件，主要使用openpyxl.load_workbook、get_sheet_by_name以及save函数将学者的论文、论文发表信息以及合作学者信息分别存入不同的excel文件中，文件名分别为“paper.xlsx”、“press.xlsx”和“coauthor.xlsx”。然后下载安装python第三方程序包json，使用其中的json.load、json.dump以及python字典操作函数将json格式的数据读出并存入excel中。最后，使用python第三方程序包pdfminer中的多种操作来删除pdf文件中的图片、表格以及公式等非文本信息，进而将其解析为纯文本格式并且存入txt文件中；

1.3.3)将处理后的包含学者基本信息和研究信息的、统一格式的纯文本txt文件作为学者信息语料库，在接下来的步骤2中，通过对信息的深入挖掘，构建学者画像。

(1)挖掘学者基本属性，在得到的学者信息语料库的基础上，抽取学者的姓名、任职信息、职称信息及联系方式，并进行学者缺失性别的预测，具体步骤如下：

2.1.1)抽取学者姓名和任职信息，经过上述所有步骤处理之后，已经利用BeautifulSoup库直接从网页上抽取了特定位置的学者姓名和任职信息，将它们写进了对应学者的个人介绍中，并且与其他介绍内容之间以特殊字符“/”隔开，因此，只需要使用字符串查找函数string.find并且以所述特殊字符“/”作为判断条件，进行学者姓名、学校和学院等信息的抽取，并将抽取得到的学者的姓名、学校、学院信息分别存入不同的excel表格中，等待进一步的使用；

2.1.2)抽取学者职称信息，来自不同单位的学者的个人介绍格式之间差距很大，很难根据统一的上下文信息来定位抽取学者的职称，并且个人介绍中存在很多无关信息，同时，职称并非在所有的介绍页中均为显式信息，这种情况下，采用目前比较流行的机器学习算法来抽取职称信息需要人工标注大量的数据进行训练，并且信息抽取领域前沿的树形条件随机场、马尔可夫逻辑语句因子图模型的正确率也只在90％左右，相比规则学习的方法并没有很大的优势，因此，采用基于规则的方法抽取学者职称信息，并将抽取得到的学者职称信息存入excel表格中，所述规则的制定方式为：

S2.1：直接在学者的个人介绍中搜索职称相关的词汇；

S2.2：查找范围限制在介绍内容的前1000字节，忽略之后出现的关键词汇；

2.1.3)学者联系方式抽取，通过对学者的个人介绍分析可见，在个人介绍中学者留下的联系方式基本都是邮箱，因此本发明抽取学者的邮箱作为联系信息，由于邮箱大多具有统一的格式，并且其中大都包含“@”和“#”等特殊符号，给查找定位和匹配提供了充分的条件，因此，学者以邮箱为联系方式的抽取，采用正则表达式及其相关技术抽取学者的邮箱，具体抽取算法设计为“[0-9a-zA-Z_]+@[a-zA-Z0-9.]+”、“[0-9a-zA-Z_]+[@#][a-zA-Z0-9.]+”等正则表达式模式，进而采用正则表达式re库的查找匹配函数以及分组与捕获函数完成了学者邮箱的提取；

2.1.4)预测学者隐性属性的性别属性，很多学者的个人介绍中不会出现性别信息，无法像之前的职称、联系方式的等属性一样直接从个人介绍信息中抽取，这里把这类属性称之为隐藏属性，本发明采用梯度提升树(GBDT)算法基于学者姓名来实现所述学者性别的预测，具体步骤如下：

S4.2：将所述训练集划分成男性姓名集合D_m和女性姓名集合D_f两部分，并定义男性姓名在训练集中的记录数|D_m|，女性姓名在训练集中的记录数为|D_f|，因此|D|＝|D_m|+|D_f|；

x₁＝|w_1m|/|D_m| (1)

x₂＝|w_1f|/|D_f| (2)

x₃＝|w_2m|/|D_m| (3)

x₄＝|w_2f|/|D_f| (4)

S4.5：根据公式(1)～公式(4)累计计算所述训练集中每个学者的名字中的第一个字和第二个字分别在D_m和D_f中出现的概率，得到所述训练集中的所有学者s_q(q＝1,2,…,z)的特征向量<x₁,x₂,x₃,x₄,y>(y为性别标签)的集合的矩阵，如公式(5)所示，

实际上，上述特征矩阵构建过程中，本发明考虑到，中文姓名和英文姓名有较大不同，基于学者中文姓名的性别预测有其独有的特点，因此，采用了这样一些改进途径：

S4.5.1：去掉姓氏的影响，因为中文姓名的姓氏为继承自父母的字，本身不具备性别特点；

S4.5.2：重名直接按照训练集中结果输出，如果测试集中有名字与训练集中的名字完全相同，则直接按照训练集中的性别标签输出；

S4.5.3：一个字的名字使其重复第一个字，由于中文名字中有相当一部分只包含一个字，所以在为了保证特征维数的一致，同时提升预测精度的情况下，将一个字的名字复制一份作为该名字的第二个字；

S4.5.4：四字姓名则只选取后两个字，因为前两个字大多为复姓。

利用上述性别预测方法较传统方法的准确率比较如表1所示，由该表可见，无论采用朴素贝叶斯、还是梯度提升决策树预测方法，改进后的准确率较改进前均有提高，而改进后的梯度提升决策树预测方法准确率最高。

表1性别预测算法准确率表

算法	直接应用	基于中文特点改进
			NB(朴素贝叶斯)	0.81665	0.82659
GBDT(梯度提升决策树)	0.82361	0.83321

S4.6：根据公式(5)得到的矩阵，采用python第三方机器学习库sklearn中的GradientBoostingClassifier函数进行模型的训练和预测。

(2)挖掘学者研究属性，所述学者研究属性包括学者研究兴趣及学者之间学术关系，所述学者研究兴趣通过采用文档主题生成模型LDA(Latent Dirichlet Allocation)，并在学者论文中挖掘相关主题作为所述学者的研究兴趣，然后通过生成词云图直观再现所述学者研究兴趣，所述学者之间学术关系包括学者之间的合作关系和相似关系，所述合作关系的学者称为合作学者，所述相似关系的学者称为相似学者，对于所述合作关系的挖掘，通过设计相关算法挖掘出所有合作学者，并计算出所有合作学者中每一位学者的合作次数，对于所述相似关系的挖掘，基于学者的研究兴趣实现所述学者的相似学者的挖掘；

学者研究兴趣通过采用文档主题生成模型LDA，并在学者论文中挖掘相关主题作为所述学者的研究兴趣，然后通过生成词云图直观再现所述学者研究兴趣，具体表述为：

S1.2：构建词频特征矩阵(其中f_ij代表第j个词汇W_j在第i篇论文p_i中出现的频率)，具体表述为：

S1.3：根据公式(6)构建的词频特征矩阵，采用python机器学习库sklearn中的LatentDirichletAllocation和fit_transform两个函数构建LDA模型，得到学者论文中的主题对应的关键词作为学者的研究兴趣；

S1.4：根据得到的研究兴趣，通过配置WordCloud词云生成器即可生成词云图并保存词云图，调用plt.show函数显示词云图，并且使用to_file函数保存词云图；

对于所述合作关系的挖掘，上述步骤中，所获取的论文信息中包含了合作学者并对其进行了处理，但是，如果只是简单地将某一学者的每一篇论文的作者搜集起来，显然会有大量重复的姓名，并且这些姓名里还包含着这位学者本身，因此，需要在此基础上重新设计算法挖掘出所有合作学者，并计算出所有合作学者中每一位学者的合作次数，具体表述为：

S2.2：将所述目标学者自身的名字从所述列表中删除；

S2.3：将列表复制一份转换为字典，字典的键为学者姓名，所有键的值初始化为0，以自动消除其中重复的学者名字；

对于相似关系的挖掘，相似关系即两者研究兴趣的相似程度，如果两位学者的研究兴趣相似，那么就将两学者之间视为相似的关系，反之亦反，因此，基于学者的研究兴趣实现所述学者的相似学者的挖掘，具体表述为：

S3.1：读取数据库中的目标学者的研究兴趣；

S3.2：对于数据库中所有学者分别执行步骤S3.3和步骤S3.4；

(3)构建学者画像，首先通过步骤(1)得到的学者基本属性构建学者的基本属性画像，通过步骤(2)得到的学者研究属性构建学者研究属性画像，然后将所述学者基本属性与研究属性通过学者姓名关键字集成起来即可完成整个学者画像的构建，最后将所述学者的基本属性和研究属性的数据集成起来存入表中，所述表的关键字是学者的姓名，所述关键字之外的其余各部分是所述学者的除姓名之外的其他属性信息，最终构建的学者画像属性包括<学者基本属性，学者研究属性>，具体表述为<姓名与任职，联系方式，职称，性别，研究兴趣，词云图，相似学者，合作学者>。

(1)学者检索与专家发现，所述学者检索是指输入学者姓名作为查询关键词，在学者信息数据库中搜索与所述学者姓名相匹配的学者姓名，一旦找到匹配项则将所述学者的所有属性信息传递给前端按照网页模板进行渲染输出，所述专家发现是指将输入的研究领域作为查询关键词，分别与数据库中的每一位学者的所有研究兴趣进行匹配，如遇到匹配项则将当前学者的姓名返回，需要注意的是如果搜索到多个与学者姓名匹配的结果则输出的顺序是按照匹配学者们的发表论文总数目进行降序排列，这种排序方法认为学者发表的论文数目越多，则代表该学者更具有学术影响力，所述降序排序方法具体表述为：

S1.1：读取输入的目标研究领域作为关键字；

S1.2：对数据库中所有学者执行步骤S1.3和步骤S1.4；

S1.5：将所有对比结果为相等的学者姓名按照论文总数降序输出作为查询结果。

(2)论文审稿人推荐，由于论文的来源不同，审稿人的推荐方法也不尽相同，例如，对于学术会议，一般需要在论文提交前征集审稿人；对于期刊论文，则可以在论文提交后寻找审稿人，针对已有历史的会议、新的会议、期刊等不同来源的论文，所述论文审稿人的推荐包括基于会议名称的推荐、基于研究领域的推荐、以及基于特定论文的推荐，所述基于会议名称的推荐是指通过输入会议名称查找参与过所述会议的审稿人和在发表过所述会议论文的作者中征集审稿人，所述基于研究领域的推荐是指对于一个新的学术会议，首先根据所述新的学术会议的征文主题，确定所述新的学术会议的研究领域，然后输入所述研究领域作为查询关键字匹配学者的研究兴趣，并且将所有匹配的学者按照发表论文的总数量降序输出，得到推荐的论文审稿人信息；所述基于特定论文的推荐是指通过遍历计算特定论文题目的特征向量在每一位学者所发表的全部论文题目中出现的次数，得到所述学者相对于所述特定论文的推荐度；

基于会议名称的推荐：对于已经召开过几届的学术会议，主要考虑从该会议以前的审稿人和发表论文的作者中征集审稿人，因此，基于会议名称的推荐是指通过输入会议名称查找参与过所述会议的审稿人和发表过所述会议论文的作者中征集审稿人，具体表述为：

S2.1：读取用户输入的目标会议名称作为查询关键字；

S2.2：对数据库中所有学者执行步骤S2.3和步骤S2.4；

S2.5：将所有对比结果为相等的学者姓名以及所述推荐度按照所述推荐度降序输出。

基于研究领域的推荐：对于一个新的学术会议，上述“基于会议名称的推荐”就无法实施，这时可以根据会议的征文主题，采用针对研究领域的推荐，基于研究领域的推荐是指对于一个新的学术会议，首先根据所述新的学术会议的征文主题，确定所述新的学术会议的研究领域，然后输入所述研究领域作为查询关键字，经过算法处理，输出为所有推荐的论文审稿人的信息，根据输入的研究领域关键字匹配学者的研究兴趣，并且将所有匹配的学者按照发表论文的总数量降序输出，得到推荐的论文审稿人信息，这个处理过程类似于“基于会议名称的推荐”中S2.3和S2.4的匹配方法，与其不同的是这里发表论文的总数量被作为该学者的推荐度同学者姓名一同输出，具体表述为：

S3.1：读取用户输入的目标研究领域作为查询关键字；

S3.2：对数据库中所有学者执行步骤S3.3和步骤S3.4；

S3.5：将所有对比结果为相等的学者姓名以及所述推荐度按照所述推荐度降序输出。

基于特定论文的推荐：对于学术期刊论文以及项目申请书，是在论文和申请提交之后寻找审稿人，这种情况下，除了采用“基于研究领域的推荐”外，还可以采用这种针对特定论文的推荐，基于特定论文的推荐是指通过遍历计算特定论文题目的特征向量在每一位学者所发表的全部论文题目中出现的次数，得到所述学者相对于所述特定论文的推荐度，具体表述为：

S4.1：将每位学者发表的论文处理成带有词频的关键词词袋包括分词、剔除停用词、计算词频等处理)；

S4.2：读取输入的论文题目，对其进行分词、去除停用词、计算词频处理后，提取经过处理后剩余的关键词作为输入特征向量；

所述步骤S4.1中对所有学者发表过的论文进行处理非常耗时，可以选择离线完成，或者选择仅仅在与特定论文相关的领域中的学者发表过的论文进行处理，然后继续执行所述步骤S4.2～步骤S4.4，得到特定论文审稿人的推荐。

(3)合作学者推荐：合作学者推荐是指为学者们推荐可以同其合作撰写论文或开展研究的学者。

基于学者姓名的合作学者推荐，这种推荐的输入是学者姓名，系统为其推荐可以合作的学者，本发明对该推荐的基本思路如图3所示，图中S代表查询源点，即输入的学者；节点1-5代表与该学者合作次数排在top-5学者，称为一级合作学者；源点指向一级合作学者有向边上的权重v₁-v₅代表该学者与其一级合作学者的具体合作次数；最外一层的节点代表与该学者的一级学者合作次数排在top-5的学者，称之为二级合作学者，同理边上的权重代表他们具体的合作次数。该算法的实现即是通过中间层的一级合作学者来搜索二级合作学者，在二级合作学者的结果中删去该学者本身以及该学者的一级合作学者，最后将符合条件的二级合作学者按照推荐度从大到小输出，其中推荐度是指由源点到最外层节点的两条边上权重的加和。

基于图2，基于学者姓名的合作学者推荐，具体表述为：

S5.1：读取输入的目标学者姓名作为查询关键字；

S5.2：根据所述关键字在数据库中搜索与所述目标学者合作次数排名top-5的学者作为一级合作学者，将这些一级合作学者与具体合作次数暂存在一级合作学者列表中；

S5.3：根据所述关键字在数据库中搜索与一级合作学者合作次数排在前γ的学者作为二级合作学者，按照一级合作学者列表逐个查询二级合作学者；

S5.4：计算每个二级学者的推荐度，将搜索到的二级学者同所述二级学者的推荐度一起记录下来；

S5.6：在搜索到的二级合作学者中将输入的目标学者本身以及所包含的一级学者删除；

合作学者的推荐除了基于学者姓名的合作学者推荐，本发明还提出包括基于会议名称的合作学者推荐、基于研究领域的合作学者推荐和基于特定论文的合作学者推荐，基于会议名称即某位学者想要在某个会议上发表一篇论文，该学者就可以输入会议名称来寻找可以和自己合作撰写文章的学者；基于研究领域即一个学者准备在某个具体的研究领域上撰写一篇论文，该学者便可以输入该研究领域来搜寻可以和他在这个研究领域共同撰写文章的合作学者；基于特定论文即某一位学者拟定了论文的题目但还没有开始撰写论文，这个时候他便可以输入该论文题目为自己匹配一个合作学者，这些方法类似于步骤(2)论文审稿人推荐的过程，因此不再赘述。

Django框架的具体的工作方式如图4所示，根据Django的工作方式，本发明的文件组织结构如图5所示，具体的文件配置如表2所示，它表示了用户输入的URL具体由哪个视图来处理，每个视图又选择哪个模板进行渲染。

表2 Django文件的配置

利用本发明提供的上述技术方案构建的学者画像应用系统界面如图6所示，其前端页面跳转规则如图7所示，各部分均通过各种图(柱状图、折线图、饼图、词云图等)、表的形式直观地展示结果。

Claims

1.一种面向学者的用户画像构建及应用方法，其特征在于，包括以下步骤：

(1)挖掘学者基本属性，在得到的学者信息语料库的基础上，抽取学者的姓名、任职信息、职称信息及联系方式，并进行学者缺失性别的预测；具体步骤如下：

S2.1：直接在学者的个人介绍中搜索职称相关的词汇；

x₁＝|w_1m|/|D_m| (1)

x₂＝|w_1f|/|D_f| (2)

x₃＝|w_2m|/|D_m| (3)

x₄＝|w_2f|/|D_f| (4)

S4.6：根据公式(5)得到的矩阵，构建性别预测模型，并基于所述预测模型对缺失的性别进行预测；

2.根据权利要求1所述的一种面向学者的用户画像构建及应用方法，其特征在于，所述的步骤1中的步骤(1)获取学者基本信息，通过对目标网站的结构信息的分析，获取学者的基本信息的文本内容，所述结构信息包括URL组成规则、页面跳转规则、学者信息分布以及HTML源代码，具体步骤如下：

1.1.1)输入学者目录页的网址作为初始的URL，发起网页请求；

3.根据权利要求1所述的一种面向学者的用户画像构建及应用方法，其特征在于，所述的步骤1中的步骤(2)获取学者研究信息，通过分析学者发表的论文、论文发表的会议或期刊，以及所述学者的合作学者的信息，获取学者的更全面的研究信息，具体步骤如下：

1.2.3)下载请求得到的网页资源中的网页，并解析所述网页；

4.根据权利要求1所述的一种面向学者的用户画像构建及应用方法，其特征在于，所述的步骤1中的步骤(3)处理学者信息并构建学者信息语料库，首先对获取的学者的基本信息和研究信息进行处理，然后根据处理得到的包含学者基本信息和研究信息的、统一格式的纯文本txt文件构建所述学者信息语料库，具体步骤如下：

S1.2：设置文件和文件内容的编码格式统一为“utf-8”；

S1.3：删除文件里多余的回车、换行和制表符；

5.根据权利要求1所述的一种面向学者的用户画像构建及应用方法，其特征在于，所述的步骤2中的步骤(2)中的所述学者研究兴趣通过采用文档主题生成模型LDA，并在学者论文中挖掘相关主题作为所述学者的研究兴趣，然后通过生成词云图直观再现所述学者研究兴趣，具体表述为：

S1.2：构建词频特征矩阵，具体表述为：

S2.2：将所述目标学者自身的名字从所述列表中删除；

S3.1：读取数据库中的目标学者的研究兴趣；

S3.2：对于数据库中所有学者分别执行步骤S3.3和步骤S3.4；

S3.4：将读取到的所述当前学者的研究兴趣与目标学者的研究兴趣逐一进行对比，如果所述对比结果为相同则相似度加一，并保存所述当前学者姓名和相似度值，遍历对比所有学者的研究兴趣与目标学者的研究兴趣。

6.根据权利要求1所述的一种面向学者的用户画像构建及应用方法，其特征在于，所述的步骤3中的步骤(1)学者检索与专家发现的应用中，需要注意的是如果搜索到多个与学者姓名匹配的结果则输出的顺序是按照匹配学者们的发表论文总数目进行降序排列，所述降序排序方法具体表述为：

S1.1：读取输入的目标研究领域作为关键字；

S1.2：对数据库中所有学者执行步骤S1.3和步骤S1.4；

S1.3：选取检索过程中的当前学者的所有研究兴趣分别与所述关键字进行对比，查看是否相等；

S2.1：读取用户输入的目标会议名称作为查询关键字；

S2.2：对数据库中所有学者执行步骤S2.3和步骤S2.4；

S2.3：选取检索过程中的当前学者发表过论文的所有会议分别与所述关键字进行对比，查看是否相等；

S3.1：读取用户输入的目标研究领域作为查询关键字；

S3.2：对数据库中所有学者执行步骤S3.3和步骤S3.4；

S3.3：选取检索过程中的当前学者发表过论文的所有研究领域与所述关键字进行对比，查看是否相等；

所述步骤S4.1中对所有学者发表过的论文进行处理非常耗时，可以选择离线完成，或者选择仅仅在与特定论文相关的领域中的学者发表过的论文进行处理，然后继续执行所述步骤S4.2～步骤S4.4，得到特定论文审稿人的推荐；

S5.1：读取输入的目标学者姓名作为查询关键字；

7.根据权利要求1所述的一种面向学者的用户画像构建及应用方法，其特征在于，所述的步骤2.1.4)预测学者性别，采用梯度提升树算法基于学者姓名来实现所述学者性别的预测，基于学者为中文姓名的性别预测，进一步表述为：

S1：去掉所述中文姓名中的姓氏的影响；