CN112836014A - 一种面向多领域跨学科的专家遴选方法 - Google Patents

一种面向多领域跨学科的专家遴选方法 Download PDF

Info

Publication number
CN112836014A
CN112836014A CN202110133319.1A CN202110133319A CN112836014A CN 112836014 A CN112836014 A CN 112836014A CN 202110133319 A CN202110133319 A CN 202110133319A CN 112836014 A CN112836014 A CN 112836014A
Authority
CN
China
Prior art keywords
paper
word
expert
keywords
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110133319.1A
Other languages
English (en)
Inventor
戴欢
陈敏璇
王金鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Chengdu Network Technology Co ltd
Suzhou University of Science and Technology
Original Assignee
Suzhou Chengdu Network Technology Co ltd
Suzhou University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Chengdu Network Technology Co ltd, Suzhou University of Science and Technology filed Critical Suzhou Chengdu Network Technology Co ltd
Priority to CN202110133319.1A priority Critical patent/CN112836014A/zh
Publication of CN112836014A publication Critical patent/CN112836014A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的在于提供一种面向多领域跨学科的专家遴选方法,将专家的多领域跨学科研究方向关键词作为专家特征,根据论文与专家研究方向关键词的匹配度,解决了由于论文内容涉及多领域跨学科无法匹配到合适专家的难题。该算法首先基于word2vec将论文与专家的研究方向关键词词语向量化,利于定量度量关键词之间的关系;其次,根据论文与专家的研究方向关键词词向量使用欧氏距离计算论文与专家之间的相似度;最后基于论文与专家的相似度计算专家匹配度,从而实现专家遴选。

Description

一种面向多领域跨学科的专家遴选方法
技术领域
本发明涉及信息管理技术领域,具体为一种面向多领域跨学科的专家遴选方法。
背景技术
随着科学技术的进步,许多新兴学科和交叉学科不断涌出,选出合适的评审专家不仅能够将论文准确匹配到适合的专家,还能够节省专家以及送审论文的时间。目前在单一学科中已经能匹配到符合需求的同行评审专家。但是在多领域跨学科中专家遴选仍然具有挑战性,在论文领域划分方面、专家研究方向方面存在一定难度,并且由于论文内容涉及跨学科,传统方法通过专家所属学科判断论文送审结果的正确性,不能较好地解决跨学科性问题,最终导致论文送审结果出现偏差。
基于此,本发明提出了将专家的多领域跨学科研究方向关键词作为专家特征,根据论文与专家研究方向关键词的匹配度,解决了由于论文内容涉及多领域跨学科无法匹配到合适专家的难题。因此,本发明提供了面向多领域跨学科的专家遴选算法,达到了多领域中匹配对应研究方向评审专家的目的,极大节省专家以及送审论文的时间。
发明内容
本发明为了解决在多领域跨学科中的专家遴选任务,提出的方法首先基于Word2vec将论文与专家的研究方向关键词词语向量化。其次,根据论文与专家的研究方向关键词词向量基于欧氏距离计算论文与专家之间的相似度。最后基于论文与专家的相似度计算专家匹配度,从而实现专家遴选。
一种面向多领域跨学科的专家遴选方法,包括以下几个步骤:
(1)对论文进行特征提取得到论文研究方向关键词;
(2)使用Word2vec将论文及专家的研究方向关键词向量化;
(3)对论文与专家的研究方向关键词词向量之间进行欧氏距离计算得到相似度矩阵;
(4)对上个步骤得到的词向量相似度矩阵分析得到专家遴选列表。
附图说明
图1为本发明一种面向多领域跨学科的专家遴选方法的流程图。
图2为本发明Word2vec技术中构建的CBOW模型图。
图3为欧氏距离与余弦相似度对比结果图。
图4在本发明在不同Seed参数下的结果图。
图5为本发明在不同Windows参数下的结果图。
图6为本发明在最优Word2vec模型参数下的结果图。
图7为本发明在不同论文总数下的结果图。
具体实施方式
为了使本发明的目的,技术方案和优点更加清楚,下面将结合附图和具体实施例对本发明作进一步的详细描述。
本发明涉及信息管理技术领域,具体为一种面向多领域跨学科的专家遴选方法。如图1所示,一种面向多领域跨学科的专家遴选方法,包括以下步骤:
(1)数据预处理:对论文进行特征提取得到论文研究方向关键词;
(2)词语向量化:使用Word2vec将论文及专家的研究方向关键词向量化;
(3)词向量相似度计算:对论文与专家的研究方向关键词词向量之间进行欧氏距离计算得到相似度矩阵;
(4)将步骤3得到的词向量相似度矩阵分析得到专家遴选列表;
数据预处理:对论文进行特征提取任务分为文本分词、去除停用词、文本特征提取三个部分。首先对论文摘要文本基于JIEBA文本分词方法进行分词处理,将文本中的语句划分为词语。文本分词前,论文摘要文本T可表示为关于语句的集合:T={S1,S2,……,Sq};
文本分词:其中Sq表示论文摘要文本T中第q个语句。然后将句子Sq所有分词情况的词语基于JIEBA自带词典构成有向无环图,采用动态规划查找m种形式中最大概率路径,得到句子Sq的最终分词形式。经过文本分词后,划分的论文摘要T可被表示为一个词语集合:Tjieba={W1,W2,……,Wk},其中,Wk表示论文摘要T经过JIEBA文本分词得到的词语集合Tjieba中第k个词语Wk
去除停用词:文本在分词处理之后会出现一些无用的词,比如所有的标点符号、数字、以及例如“你”、“我”、“他”、“的”等词语或汉字,这些词语包含信息少,且出现频率高,占用较大空间,在后续算法中属于无用的输入词。因此,为了进一步文本特征选择的准确性与高效性,在文本特征提取前需要去除这些停用词。
文本特征提取:由于无法将整篇论文作为输入,本发明基于TF-IDF方法从论文摘要中提取出能够代表整篇论文的词语作为论文的研究方向关键词,仅对提取出的特征关键词进行分析,减小了算法中的数据维度。将词语集合Tlast={W1,W2,……,Wh}中每个词语都经过TF-IDF计算,按照结果大小选取摘要关键词。词语的TF-IDF计算公式为:
Figure BDA0002924874770000021
其中,
Figure BDA0002924874770000022
表示词语Wh的词频,
Figure BDA0002924874770000023
表示词语Wh的逆文档频率。
词语向量化:提取出论文的关键词后,为定量度量论文与专家研究方向关键词之间的关系,本发明使用Word2vec模型处理文本数据,将论文与专家的研究方向关键词映射为K维的词向量。图2是本发明中构建的CBOW模型图。
词向量相似度计算:论文与专家的研究方向关键词转化为词向量后,为将论文与专家进行数值匹配,算法基于欧氏距离对论文和专家的研究方向关键词词向量之间进行相似度计算。本发明使用的欧氏距离相似度计算用于衡量论文与专家研究方向关键词词向量之间的绝对距离。因此,计算论文与专家研究方向关键词之间的欧氏距离dist的公式为
Figure BDA0002924874770000031
其中,
Figure BDA0002924874770000032
是论文摘要T通过文本特征提取的第n个论文研究方向关键词wdn对应的词向量,
Figure BDA0002924874770000033
是第j个专家的第k个研究方向关键词edk对应的词向量。
图3是本发明使用欧氏距离与余弦相似度对比结果图。
本发明使用的专家数据库数据来自于Aminer系统筛选出的近三年毕业的1043个博士专家,其中包括了计算机、医学、马克思主义、物理、环境等多领域方面的专家。数据库中的每位专家都包含专家姓名,所属学科,所属院系和若干个关于研究方向的关键词等信息。论文关键词词库使用的是Word2vec的经典语料库,将研究方向关键词使用纯文本形式保存,进行规格化处理变为可用的关键词词库。
本发明最后使用专家遴选列表结果中遴选成功的论文数目及遴选准确率评价算法的正确性。通过改变Word2vec中的参数进行实验发现,参数设置不同会对算法结果产生影响。本发明提出的方法,在算法在所有Seed参数值下的遴选准确度较高,且在Seed参数为1时遴选实验结果最好,并且随着模型中Seed参数增大,专家遴选准确率降低。在所有Windows参数取值下的准确率均高于其他两种算法。并且Windows参数取值为5时,算法结果准确率更高。根据上述改变Seed和Windows取值的实验结果分析,选取参数的最优值。并且在选取的参数最优值的情况下,本发明方法的专家遴选准确率较高。通过实验结果表明,本发明的面向多领域跨学科的专家遴选方法的准确率达到90%以上,能够有效实现多领域跨学科的专家遴选。
上述实施例子为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例子的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种面向多领域跨学科的专家遴选方法,其特征在于,包括以下几个步骤:
步骤S1、对论文进行特征提取得到论文研究方向关键词;
步骤S2、使用Word2vec将论文及专家的研究方向关键词向量化;
步骤S3、对论文与专家的研究方向关键词词向量之间进行欧氏距离计算得到相似度矩阵;
步骤S4、对步骤S3得到的词向量相似度矩阵分析得到专家遴选列表。
2.对于权利要求1所述的面向多领域跨学科的专家遴选方法,其特征在于,步骤S1是首先对论文摘要文本进行分词,在去除停用词后,根据词语出现的词频高低来提取论文的研究方向关键词,具体步骤如下:
(1)首先基于JIEBA文本分词方法对摘要文本进行分词处理,将文本中的语句划分为词语,划分前的论文可表示为关于语句的集合:T={S1,S2,……,Sq},其中,Sq表示论文摘要文本T中第q个语句。在经过JIEBA分词后,论文摘要文本则可以表示为关于词语的集合:Tjieba={W1,W2,……,Wk},其中Wk表示论文摘要T经过JIEBA文本分词得到的词语集合Tjieba中第k个词语Wk
(2)基于“哈工大停用词词表”去除词语集合Tjieba中的无用词语,同时可以根据具体情况在停用词表中自定义添加论文数据集中出现次数较多且无用的词语,得到论文摘要文本新的词语集合Tlast={W1,W2,……,Wh},其中,Wh表示摘要文本的词语集合Tjieba在去除停用词后的新词语集合Tlast中的第h个词语;
(3)基于TF-IDF从论文摘要中提取出能够代表整篇论文的词语作为论文的研究方向关键词。将词语集合Tlast={W1,W2,……,Wh}中每个词语都经过TF-IDF计算,按照结果大小选取摘要关键词。词语的TF-IDF计算公式为:
Figure FDA0002924874760000011
其中,
Figure FDA0002924874760000012
表示词语Wk的词频,
Figure FDA0002924874760000013
表示词语Wh的逆文档频率。
3.对于权利要求1所述的面向多领域跨学科的专家遴选方法,其特征在于,步骤S2使用Word2vec技术将论文及专家的研究方向关键词向量化,具体如下:
(1)将论文与专家的研究方向关键词映射为K维的词向量,
(2)论文与专家的研究方向关键词映射为数值向量后,论文与专家才能基于关键词相似度计算得到论文与专家研究方向的匹配度。
4.对于权利要求1所述的面向多领域跨学科的专家遴选方法,其特征在于,步骤S3使用欧氏距离计算论文与专家的研究方向关键词之间的相似度矩阵:
Figure FDA0002924874760000014
其中,
Figure FDA0002924874760000015
是论文摘要T通过文本特征提取的第n个论文研究方向关键词wdn对应的词向量,
Figure FDA0002924874760000016
是第j个专家的第k个研究方向关键词edk对应的词向量。
5.根据权利要求1所述的一种面向多领域跨学科的专家遴选算法,其特征在于,步骤S5将步骤S4得到的论文与专家研究方向关键词的词向量相似度矩阵进行数据分析返回给专家遴选系统得到专家遴选列表,以提高面向多领域跨学科的专家遴选方法的准确性和效率。
CN202110133319.1A 2021-01-29 2021-01-29 一种面向多领域跨学科的专家遴选方法 Pending CN112836014A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110133319.1A CN112836014A (zh) 2021-01-29 2021-01-29 一种面向多领域跨学科的专家遴选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110133319.1A CN112836014A (zh) 2021-01-29 2021-01-29 一种面向多领域跨学科的专家遴选方法

Publications (1)

Publication Number Publication Date
CN112836014A true CN112836014A (zh) 2021-05-25

Family

ID=75932740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110133319.1A Pending CN112836014A (zh) 2021-01-29 2021-01-29 一种面向多领域跨学科的专家遴选方法

Country Status (1)

Country Link
CN (1) CN112836014A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093670A (zh) * 2023-07-18 2023-11-21 北京智信佳科技有限公司 一种论文智能推荐专家的实现方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093670A (zh) * 2023-07-18 2023-11-21 北京智信佳科技有限公司 一种论文智能推荐专家的实现方法

Similar Documents

Publication Publication Date Title
He et al. Cross-modal subspace learning via pairwise constraints
Rezaei et al. Multi-document extractive text summarization via deep learning approach
CN112818093A (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN114048354B (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
CN113962293A (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN112051986A (zh) 基于开源知识的代码搜索推荐装置及方法
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN110990003B (zh) 一种基于词嵌入技术的api推荐方法
CN115098690A (zh) 一种基于聚类分析的多数据文档分类方法及系统
CN113343680B (zh) 一种基于多类型病历文本的结构化信息提取方法
Pengcheng et al. Fast Chinese calligraphic character recognition with large-scale data
CN110347812A (zh) 一种面向司法文本的搜索排序方法及系统
CN112836014A (zh) 一种面向多领域跨学科的专家遴选方法
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN110674293B (zh) 一种基于语义迁移的文本分类方法
Pfahler et al. Self-Supervised Pretraining of Graph Neural Network for the Retrieval of Related Mathematical Expressions in Scientific Articles
CN114298020B (zh) 一种基于主题语义信息的关键词向量化方法及其应用
Zhai et al. TRIZ technical contradiction extraction method based on patent semantic space mapping
CN111339303B (zh) 一种基于聚类与自动摘要的文本意图归纳方法及装置
Banerjee et al. A novel centroid based sentence classification approach for extractive summarization of COVID-19 news reports
CN114580557A (zh) 基于语义分析的文献相似度确定方法及装置
Rajkumar et al. An efficient feature extraction with subset selection model using machine learning techniques for Tamil documents classification
Liu et al. Comparative research on structure function recognition based on deep learning
Xing et al. Biorel: a large-scale dataset for biomedical relation extraction
Yang et al. Fast Multiview Anchor-Graph Clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination