CN112836014A

CN112836014A - 一种面向多领域跨学科的专家遴选方法

Info

Publication number: CN112836014A
Application number: CN202110133319.1A
Authority: CN
Inventors: 戴欢; 陈敏璇; 王金鹏
Original assignee: Suzhou Chengdu Network Technology Co ltd; Suzhou University of Science and Technology
Current assignee: Suzhou Chengdu Network Technology Co ltd; Suzhou University of Science and Technology
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-05-25

Abstract

本发明的目的在于提供一种面向多领域跨学科的专家遴选方法，将专家的多领域跨学科研究方向关键词作为专家特征，根据论文与专家研究方向关键词的匹配度，解决了由于论文内容涉及多领域跨学科无法匹配到合适专家的难题。该算法首先基于word2vec将论文与专家的研究方向关键词词语向量化，利于定量度量关键词之间的关系；其次，根据论文与专家的研究方向关键词词向量使用欧氏距离计算论文与专家之间的相似度；最后基于论文与专家的相似度计算专家匹配度，从而实现专家遴选。

Description

一种面向多领域跨学科的专家遴选方法

技术领域

本发明涉及信息管理技术领域，具体为一种面向多领域跨学科的专家遴选方法。

背景技术

随着科学技术的进步，许多新兴学科和交叉学科不断涌出，选出合适的评审专家不仅能够将论文准确匹配到适合的专家，还能够节省专家以及送审论文的时间。目前在单一学科中已经能匹配到符合需求的同行评审专家。但是在多领域跨学科中专家遴选仍然具有挑战性，在论文领域划分方面、专家研究方向方面存在一定难度，并且由于论文内容涉及跨学科，传统方法通过专家所属学科判断论文送审结果的正确性，不能较好地解决跨学科性问题，最终导致论文送审结果出现偏差。

基于此，本发明提出了将专家的多领域跨学科研究方向关键词作为专家特征，根据论文与专家研究方向关键词的匹配度，解决了由于论文内容涉及多领域跨学科无法匹配到合适专家的难题。因此，本发明提供了面向多领域跨学科的专家遴选算法，达到了多领域中匹配对应研究方向评审专家的目的，极大节省专家以及送审论文的时间。

发明内容

本发明为了解决在多领域跨学科中的专家遴选任务，提出的方法首先基于Word2vec将论文与专家的研究方向关键词词语向量化。其次，根据论文与专家的研究方向关键词词向量基于欧氏距离计算论文与专家之间的相似度。最后基于论文与专家的相似度计算专家匹配度，从而实现专家遴选。

一种面向多领域跨学科的专家遴选方法，包括以下几个步骤：

(1)对论文进行特征提取得到论文研究方向关键词；

(2)使用Word2vec将论文及专家的研究方向关键词向量化；

(3)对论文与专家的研究方向关键词词向量之间进行欧氏距离计算得到相似度矩阵；

(4)对上个步骤得到的词向量相似度矩阵分析得到专家遴选列表。

附图说明

图1为本发明一种面向多领域跨学科的专家遴选方法的流程图。

图2为本发明Word2vec技术中构建的CBOW模型图。

图3为欧氏距离与余弦相似度对比结果图。

图4在本发明在不同Seed参数下的结果图。

图5为本发明在不同Windows参数下的结果图。

图6为本发明在最优Word2vec模型参数下的结果图。

图7为本发明在不同论文总数下的结果图。

具体实施方式

为了使本发明的目的，技术方案和优点更加清楚，下面将结合附图和具体实施例对本发明作进一步的详细描述。

本发明涉及信息管理技术领域，具体为一种面向多领域跨学科的专家遴选方法。如图1所示，一种面向多领域跨学科的专家遴选方法，包括以下步骤：

(1)数据预处理：对论文进行特征提取得到论文研究方向关键词；

(2)词语向量化：使用Word2vec将论文及专家的研究方向关键词向量化；

(3)词向量相似度计算：对论文与专家的研究方向关键词词向量之间进行欧氏距离计算得到相似度矩阵；

(4)将步骤3得到的词向量相似度矩阵分析得到专家遴选列表；

数据预处理：对论文进行特征提取任务分为文本分词、去除停用词、文本特征提取三个部分。首先对论文摘要文本基于JIEBA文本分词方法进行分词处理，将文本中的语句划分为词语。文本分词前，论文摘要文本T可表示为关于语句的集合：T＝{S₁，S₂，……，S_q}；

文本分词：其中Sq表示论文摘要文本T中第q个语句。然后将句子Sq所有分词情况的词语基于JIEBA自带词典构成有向无环图，采用动态规划查找m种形式中最大概率路径，得到句子Sq的最终分词形式。经过文本分词后，划分的论文摘要T可被表示为一个词语集合：T_jieba＝{W₁，W₂，……，W_k}，其中，W_k表示论文摘要T经过JIEBA文本分词得到的词语集合T_jieba中第k个词语W_k。

去除停用词：文本在分词处理之后会出现一些无用的词，比如所有的标点符号、数字、以及例如“你”、“我”、“他”、“的”等词语或汉字，这些词语包含信息少，且出现频率高，占用较大空间，在后续算法中属于无用的输入词。因此，为了进一步文本特征选择的准确性与高效性，在文本特征提取前需要去除这些停用词。

文本特征提取：由于无法将整篇论文作为输入，本发明基于TF-IDF方法从论文摘要中提取出能够代表整篇论文的词语作为论文的研究方向关键词，仅对提取出的特征关键词进行分析，减小了算法中的数据维度。将词语集合T_last＝{W₁，W₂，……，W_h}中每个词语都经过TF-IDF计算，按照结果大小选取摘要关键词。词语的TF-IDF计算公式为：

其中，

表示词语W_h的词频，

表示词语W_h的逆文档频率。

词语向量化：提取出论文的关键词后，为定量度量论文与专家研究方向关键词之间的关系，本发明使用Word2vec模型处理文本数据，将论文与专家的研究方向关键词映射为K维的词向量。图2是本发明中构建的CBOW模型图。

词向量相似度计算：论文与专家的研究方向关键词转化为词向量后，为将论文与专家进行数值匹配，算法基于欧氏距离对论文和专家的研究方向关键词词向量之间进行相似度计算。本发明使用的欧氏距离相似度计算用于衡量论文与专家研究方向关键词词向量之间的绝对距离。因此，计算论文与专家研究方向关键词之间的欧氏距离dist的公式为

其中，

是论文摘要T通过文本特征提取的第n个论文研究方向关键词wd_n对应的词向量，

是第j个专家的第k个研究方向关键词ed_k对应的词向量。

图3是本发明使用欧氏距离与余弦相似度对比结果图。

本发明使用的专家数据库数据来自于Aminer系统筛选出的近三年毕业的1043个博士专家，其中包括了计算机、医学、马克思主义、物理、环境等多领域方面的专家。数据库中的每位专家都包含专家姓名，所属学科，所属院系和若干个关于研究方向的关键词等信息。论文关键词词库使用的是Word2vec的经典语料库，将研究方向关键词使用纯文本形式保存，进行规格化处理变为可用的关键词词库。

本发明最后使用专家遴选列表结果中遴选成功的论文数目及遴选准确率评价算法的正确性。通过改变Word2vec中的参数进行实验发现，参数设置不同会对算法结果产生影响。本发明提出的方法，在算法在所有Seed参数值下的遴选准确度较高，且在Seed参数为1时遴选实验结果最好，并且随着模型中Seed参数增大，专家遴选准确率降低。在所有Windows参数取值下的准确率均高于其他两种算法。并且Windows参数取值为5时，算法结果准确率更高。根据上述改变Seed和Windows取值的实验结果分析，选取参数的最优值。并且在选取的参数最优值的情况下，本发明方法的专家遴选准确率较高。通过实验结果表明，本发明的面向多领域跨学科的专家遴选方法的准确率达到90％以上，能够有效实现多领域跨学科的专家遴选。

上述实施例子为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例子的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种面向多领域跨学科的专家遴选方法，其特征在于，包括以下几个步骤：

步骤S1、对论文进行特征提取得到论文研究方向关键词；

步骤S2、使用Word2vec将论文及专家的研究方向关键词向量化；

步骤S3、对论文与专家的研究方向关键词词向量之间进行欧氏距离计算得到相似度矩阵；

步骤S4、对步骤S3得到的词向量相似度矩阵分析得到专家遴选列表。

2.对于权利要求1所述的面向多领域跨学科的专家遴选方法，其特征在于，步骤S1是首先对论文摘要文本进行分词，在去除停用词后，根据词语出现的词频高低来提取论文的研究方向关键词，具体步骤如下：

(1)首先基于JIEBA文本分词方法对摘要文本进行分词处理，将文本中的语句划分为词语，划分前的论文可表示为关于语句的集合：T＝{S₁，S₂，……，S_q}，其中，Sq表示论文摘要文本T中第q个语句。在经过JIEBA分词后，论文摘要文本则可以表示为关于词语的集合：T_jieba＝{W₁，W₂，……，W_k}，其中W_k表示论文摘要T经过JIEBA文本分词得到的词语集合T_jieba中第k个词语W_k；

(2)基于“哈工大停用词词表”去除词语集合T_jieba中的无用词语，同时可以根据具体情况在停用词表中自定义添加论文数据集中出现次数较多且无用的词语，得到论文摘要文本新的词语集合T_last＝{W₁，W₂，……，W_h}，其中，W_h表示摘要文本的词语集合T_jieba在去除停用词后的新词语集合T_last中的第h个词语；

(3)基于TF-IDF从论文摘要中提取出能够代表整篇论文的词语作为论文的研究方向关键词。将词语集合T_last＝{W₁，W₂，……，W_h}中每个词语都经过TF-IDF计算，按照结果大小选取摘要关键词。词语的TF-IDF计算公式为：

其中，

表示词语W_k的词频，

表示词语W_h的逆文档频率。

3.对于权利要求1所述的面向多领域跨学科的专家遴选方法，其特征在于，步骤S2使用Word2vec技术将论文及专家的研究方向关键词向量化，具体如下：

(1)将论文与专家的研究方向关键词映射为K维的词向量，

(2)论文与专家的研究方向关键词映射为数值向量后，论文与专家才能基于关键词相似度计算得到论文与专家研究方向的匹配度。

4.对于权利要求1所述的面向多领域跨学科的专家遴选方法，其特征在于，步骤S3使用欧氏距离计算论文与专家的研究方向关键词之间的相似度矩阵：

其中，

是第j个专家的第k个研究方向关键词ed_k对应的词向量。

5.根据权利要求1所述的一种面向多领域跨学科的专家遴选算法，其特征在于，步骤S5将步骤S4得到的论文与专家研究方向关键词的词向量相似度矩阵进行数据分析返回给专家遴选系统得到专家遴选列表，以提高面向多领域跨学科的专家遴选方法的准确性和效率。