CN111241283A

CN111241283A - 一种科研学者画像的快速表征方法

Info

Publication number: CN111241283A
Application number: CN202010040201.XA
Authority: CN
Inventors: 蔡世民; 王锐杰; 李健强
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-06-05
Anticipated expiration: 2040-01-15
Also published as: CN111241283B

Abstract

该发明公开了一种科研学者画像的快速表征方法，涉及数据挖掘领域。该发明在数据库中用多字段联合查询，通过数据融合匹配的方式将多个分散数据集结合，形成了科研学者<s>与摘要文本<a>之间的一对多关系；对全数据集的摘要语料进行相应的文本向量表示，以此作为表征学者画像维度差异性的关键语料。区别于过去基于统计学基础所构建的学者画像维度，本发明利用机器学习方法，在相关算法的基础上，对于所有摘要文本语料进行了聚类，利用同类结果的相似关系检索关键词字段，经统计排序最终形成画像标签的排序向量集合，

用于表征科研学者的研究兴趣。同时，这一排序向量对于科研学者的研究领域相似度计算和社区划分等方面都具有应用价值。

Description

一种科研学者画像的快速表征方法

技术领域

本发明涉及数据挖掘领域，特别是学术研究中针对科研学者画像的快速表征方法。

背景技术

随着互联网技术的蓬勃发展，越来越多的用户行为和生产行为数据被我们所记录，在商业、生活和科研领域的数据量都呈现出了爆发式的增加，由此我们迎来了大数据时代。在大数据时代，用户的信息在各式各样的站点和网络中出现，用户画像是一种对目标群体进行详细刻绘、结合相关用途进行画像设计，从而利用相应的标签信息为群体提供服务的有效工具。在学术大数据领域，由于学术数据的日益完善，对于科研学者这一群体的分析挖掘提供了更加丰富的佐证，也为科研学者画像的构建提供了新的思路。

学者的学术画像有助于对学者的研究兴趣、社区划分和影响力评估等方面进行更准确的分析，对于相关的学术推荐和学术合作提供重要依据。由于当前学术数据呈现指数增长趋势，全球学术论文已超过3亿篇，科研学术领域的工作者也已达到1亿人，给科研学者画像带来了更多的机遇和挑战。因此，如果能够提供一种在大规模学术数据集上对科研学者的画像维度进行快速表征的方法，就可以大大减少工作量、并且提高画像的多样性。

近年来，科研学者画像的研究尚处于起步阶段，目前已知的一些画像构建方法有如下缺点：

数据集之间缺乏有效的清洗和融合，在没有对数据孤岛进行有效连通之前，得到的信息往往都以偏概全。因此，采用合理、高效的数据融合方法既可以提升数据的多样性，又可以为科研学者画像的准确性提供保障。

画像构建使用的标签的种类有限。在大量采用直接数据的情况下，缺少对于数据文本的二次利用，也缺乏使用自然语言处理等相关技术对于文本进行再挖掘，从而提取出间接数据。因为，在有限的文本语料中进行充分挖掘可以提升数据价值，这对于画像之间的差异性刻画尤其重要。

传统的画像构建方法大多都从最基本的统计学角度进行分析。缺乏运用当前更加合理准确的人工智能和机器学习领域相关工具解决问题的思考，因此，刻画出的画像维度不够鲜明，对于画像模型真正的应用场景考虑并不周全，难以进行有效的使用。

发明内容

本发明提供了一种科研学者画像的快速表征方法。充分利用科研学者所发表的学术论文数据，通过数据驱动，发明一种能够结合自然语言处理技术和机器学习算法的画像维度快速表征方法，能够对科研学者的研究兴趣的维度进行快速准确的刻画。除此以外，该方法具有自适应性，适用于不同种类不同领域的学术数据集，并且能够对大规模数据集的进行批量处理。

在本发明中，选取了易取、免费的学术论文摘要作为主要语料。在学术论文的结构中，由于论文的摘要是整个文章的精简说明，它用简短文字陈述论文内容，概况出论文的主要观点。因此，摘要文本内容与难以获取的全文文本内容相比，不仅具有很高的挖掘价值，而且易于获取。因此，本发明提供的方法将重心放在学术论文的摘要文本上，利用相关文本挖掘和向量表征方法，结合机器学习中的聚类算法，形成一种通用数据的提取、处理和表征流程，从而提出了一种能够对科研学者画像维度进行快速表征的方法。

本发明所提出的一种科研学者画像的快速表征方法，包括下列步骤：

步骤1：对学者数据库和论文数据库进行数据融合匹配，其中学者库中“姓名”与论文库中“作者名”进行关联，对于重名问题进行姓名-邮箱-机构三重绑定验证，以降低数据融合过程中误差出现的可能性，对于数据量和数据字段缺失严重的目标进行排除；

步骤2：从融合筛选后的数据中提取出论文摘要的语料文本，形成科研学者<s>-学术论文<p>-摘要文本<a>之间的直接关系，并且精简为科研学者<s>-摘要文本<a>的直接对应关系；

步骤3：保留学术论文<p>中的“关键字”字段，如缺失则置空；步骤2和步骤3为整个构建方法提供直接数据，接下来对该数据进行预处理；

步骤4：利用词频-逆向文件频率来对每份数据中的摘要文本<a>进行有效词或有效短语的预处理，找到能体现差异性的关键词，得到文本语料的向量化特征；

步骤5：对步骤4中所有预处理得到的向量化特征进行粗聚类，将摘要文本语料根据词性差异进行有效划分；

步骤6：对步骤5中的聚类结果，通过逆向查询论文关键词，并对同类别中的学术论文“关键词”字段进行统计和词频排序，根据排名第一的关键词对聚类结果进行标注，从而标注出所有的学术论文的相应标签；

步骤7：根据标注结果，对科研学者所著的所有学术论文进行标签统计，对标签名和标签权重值进行统计排序，取权重值前五的标签名和标签权重构成排序向量集合

完了对科研学者画像维度的快速表征。

步骤6的方法为基于聚类算法的内部相似性原理，对于同一类中包含的语料给予同一标注；标注的来源为科研论文的“关键词”字段，由于该字段在不同数据集的学术论文中缺失严重，故无法直接进行统计；所以根据聚类结果对同一类中所有论文的“关键词”字段进行词频统计，取统计数量最高的“关键词”对该类别文本进行标注。

本发明和现有的画像维度表征方法相比，本发明的创新点在于：

1、重点针对摘要文本进行挖掘。在数据库中用多字段联合查询，通过数据融合匹配的方式将多个分散数据集结合，形成了科研学者<s>与摘要文本<a>之间的一对多关系。对全数据集的摘要语料进行相应的文本向量表示，以此作为表征学者画像维度差异性的关键语料。

2、方法最后提取出了一种新的学术画像维度。区别于过去基于统计学基础所构建的学者画像维度，本发明利用机器学习方法，在相关算法的基础上，对于所有摘要文本语料进行了聚类，利用同类结果的相似关系检索关键词字段，经统计排序最终形成画像标签的排序向量集合，

附图说明

图1为科研学者画像的快速表征方法流程图。

图2为学者-论文-摘要三维结构示意图。

图3为学者-摘要-标签三维结构示意图。

图4为摘要文本聚类算法流程图。

图5为某科研学者画像的兴趣表征结果。

具体实施方式

为了使本发明的目的更加清晰，以下结合附图进行进一步详细介绍：

图1是对本发明所提出的科研学者画像的快速表征方法的具体流程。首先，对多个数据集进行数据融合匹配，该结果包含了科研学者<s>-学术论文<p>-摘要文本<a>三层维度结构，为图2所示。对数据融合之后得到的摘要文本<a>进行TF-IDF文本特征提取，得到论文摘要中关键短语的权重向量，以此权重向量来表征语料文本，然后使用K-Means聚类算法，根据文本的权重向量将不同的论文聚合为不同的类别，再通过对“关键词字段”的逆向检索，统计排序后得到各聚类的标注结果，由此完成对数据集中所有摘要文本的标注。由此得到关于科研学者-摘要文本-画像标签的结果如图3所示。

其中，文本特征提取具体过程如下：

通常认为，如果文本中的某个词在一段文本中频繁出现，那么这个词对这段文本越重要，越能够表征这段文本。因此，需要对摘要文本中的词进行简单的词频统计，得到TF向量。在进行词频计算之前，需要事先去掉不需要统计的无关词组，该无关词组为每篇论文都会大概率出现，但与论文内容无关的词组。

对于图2中得到的论文摘要文本表征为W＝(w₁,w₂,…,w_i,…,w_n)，其TF向量计算方法为：

其中

表示在摘要文本中词w_i出现的次数，T_w表示统计的总词数；

同时，对于一些经常出现的高频词,例如介词，冠词等没有实际意义，仅在文本中仅仅起到连接作用的，对于文本语意表达并不能起到表征作用，需要降低其权重；因此对于摘要文本W，还需要计算其逆向文件频率IDF，得到文本的IDF向量；IDF向量的计算方法为：

其中，T_d表示语料库中的总文档数，

表示语料库中包含词w_i的文档数。

最后，文本的TF-IDF矩阵计算为词频TF和逆向文件频率IDF的乘积，即：

TF-IDF(W)＝TF(W)*IDF(W)

这样就得到了论文摘要的向量化特征。

对摘要文本的特征提取过后，进一步根据特征将摘要文本划分为互不相交的摘要簇(a₁,a₂,..a_j..,a_k)，其主要步骤如图4所示。

其中，按照图4所示的方法进行摘要簇的划分时，摘要簇的中心μ_j按照如下的方法计算：

其中N(a_j)表示属于簇a_j中的样本个数，x_i表示第i篇摘要的TF-IDF向量；

将每篇摘要文本重新划分到一个类，使用的是摘要文本向量到各个类中心的距离最短的原则，这个距离计算为：

μ_j的第i个分量，第一次实施聚类将随机指定摘要文本属于某个摘要簇，经过两次迭代后，将得到如图3所示的互不相交的摘要簇；

对不同的摘要簇分别提取出每篇摘要中的关键词

得到每个摘要簇的关键词表征:

对摘要簇中的关键字进行词频统计，将摘要簇的关键字表征转化为向量化的词频表征并排序。于是，摘要簇的类别标注为：

Cate(P^j)＝max(sort(sum(P^j)))

由此，得到的科研学者-摘要文本-画像标签结果如图3所示。

在构建完成摘要文本-画像标签的网络关系的基础上，利用科研学者-摘要文本的二部图网络关系构建得到科研学者的画像维度表示，具体做法如下所述：

对科研学者所发表的论文进行统计。某个科研学者所发表的论文集合可以表示为Rⁱ＝(P¹,P²,P^j,...,Pⁿ)，对其发表的n篇论文中，基于以上聚类方法得到的论文标签，统计其发表的所有论文中各个标签对应的论文数，得到带权重的学者的维度向量。于是，学者的带权维度向量Hⁱ计算为：

Hⁱ＝sum(cate(P^j))

最后，对带权科研学者维度向量计算前k个作为该学者的最终画像维度

也就是，科研学者画像维度

计算方法为：

最终构建得到的科研学者的画像维度表示如图5所示。