CN113377945A - 一种面向项目需求的科技专家智能推荐方法 - Google Patents

一种面向项目需求的科技专家智能推荐方法 Download PDF

Info

Publication number
CN113377945A
CN113377945A CN202110654909.9A CN202110654909A CN113377945A CN 113377945 A CN113377945 A CN 113377945A CN 202110654909 A CN202110654909 A CN 202110654909A CN 113377945 A CN113377945 A CN 113377945A
Authority
CN
China
Prior art keywords
expert
thesis
paper
vector
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110654909.9A
Other languages
English (en)
Other versions
CN113377945B (zh
Inventor
黄煜鹏
穆磊
邓蔚
曾刚
翁智蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Gongwu Keyun Technology Co ltd
Original Assignee
Chengdu Gongwu Keyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Gongwu Keyun Technology Co ltd filed Critical Chengdu Gongwu Keyun Technology Co ltd
Priority to CN202110654909.9A priority Critical patent/CN113377945B/zh
Publication of CN113377945A publication Critical patent/CN113377945A/zh
Application granted granted Critical
Publication of CN113377945B publication Critical patent/CN113377945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明公开了一种面向项目需求的科技专家智能推荐方法,涉及智能推荐技术领域,包括S1导入论文训练样本训练论文词嵌入模型和KNN召回模型,获得优化后的论文词嵌入模型和KNN召回模型,S2项目需求导入到优化后的论文词嵌入模型获取该项目需求的需求向量,S3需求向量输入到优化后的KNN召回模型获取相似论文集合,并根据相似论文集合获取专家待推荐集合,S4根据专家待推荐集合获取每位候选专家的论文成果集,S5排序层模型根据论文成果集计算每位候选专家的评分,按照评分高低排序取出topN反馈推荐结果;通过上述方法可以根据项目的需求获得更加智能精准的科技专家匹配结果,实现面向项目需求的智能专家任务推荐。

Description

一种面向项目需求的科技专家智能推荐方法
技术领域
本发明涉及智能推荐技术领域,尤其涉及一种面向项目需求的科技专家智能推荐方法。
背景技术
科技项目是指以科学研究和技术开发为内容而单独立项的项目,科技项目的开展是我国科技计划实施的一种具体表现方式,项目所产生的科学价值、经济价值、社会价值对科学和社会的进步,经济的发展有着深远意义。
领域顶尖人才是企业创新的保证,但目前很多企业在遇到领域技术难题时会面临内部人才储备不足,亟需求助外部专家,高校作为我国科研的主阵地,拥有大量极具科技创新力的人才,能够为企业解决技术难题提供充足的专家资源,目前部分企业会利用关系网,通过权威推荐获取领域人才;或者根据领域关键词检索科研成果,再根据其作者信息获取相关专家。前者过度依赖社会资源,仅适用于某些知名企业,对于中小企业来说局限性较大。而后者存在机械匹配字词、缺乏特征的缺点,导致查重率与查全率均偏低。这也造成了企业无法及时、准确发掘本领域专家,导致知识与产业之间难以精准对接。
发明内容
本发明的目的就在于为了解决上述问题设计了一种面向项目需求的科技专家智能推荐方法。
本发明通过以下技术方案来实现上述目的:
一种面向项目需求的科技专家智能推荐方法,包括:
S1、导入论文训练样本训练论文词嵌入模型和KNN召回模型,获得优化后的论文词嵌入模型和KNN召回模型;
S2、项目需求导入到优化后的论文词嵌入模型获取该项目需求的需求向量;
S3、需求向量输入到优化后的KNN召回模型获取相似论文集合,并根据相似论文集合获取专家待推荐集合;
S4、根据专家待推荐集合获取每位候选专家的论文成果集;
S5、排序层模型根据论文成果集计算每位候选专家的评分,按照评分高低排序取出topN反馈推荐结果。
本发明的有益效果在于:通过上述方法可以根据项目的需求获得更加智能精准的科技专家匹配结果,实现面向项目需求的智能专家任务推荐。
附图说明
图1是本发明一种面向项目需求的科技专家智能推荐方法的流程示意图;
图2是本发明一种面向项目需求的科技专家智能推荐方法中论文词嵌入模型的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要理解的是,术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,“设置”、“连接”等术语应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面结合附图,对本发明的具体实施方式进行详细说明。
一种面向项目需求的科技专家智能推荐方法,包括:
S1、导入论文训练样本训练论文词嵌入模型和KNN召回模型,获得优化后的论文词嵌入模型和KNN召回模型,论文词嵌入模型包括分词层、Word2vec层、TF-IDF层和输出层,训练论文词嵌入模型包括:(文档中没有关于KNN召回模型的训练过程,不知是否为现有技术,如果跟现有技术有差别,请提供召回模型的训练过程,可参照词嵌入模型的训练过程S11-S15)
S11、提取每个论文训练样本的标题、关键词和摘要融合为一个组合文档,并通过分词层过滤停用词,分析层采用jieba分词器;
S12、过滤后的组合文档导入Word2vec层获得语料库中每个词的词向量A;
S13、标题、关键词和摘要分别作为单一文档导入Word2vec层获得各自单一文档的词向量B;
S14、词向量B导入TF-IDF层计算词权重再取平均值获得TF-IDF加权的词向量C;
S15、三个词向量C再次赋予标题、关键词和摘要的权重并取均值后获得论文向量,
Figure BDA0003113388090000041
其中t、k、a指的是标题、关键词、摘要。wt,wk,wa为标题、关键词、摘要中的词对应的词向量,idf为对应的idf权重,n1、n2、n3为三者各自包含的词汇总数,wvt、wvk、wva为三者各自的权重,分别为0.45、0.3、0.25。
S2、项目需求导入到优化后的论文词嵌入模型获取该项目需求的需求向量。
S3、需求向量输入到优化后的KNN召回模型获取相似论文集合,并根据相似论文集合获取专家待推荐集合。
S4、根据专家待推荐集合获取每位候选专家的论文成果集;
S5、排序层模型根据论文成果集计算每位候选专家的评分,按照评分高低排序取出topN反馈推荐结果,具体包括:
S51、将每位候选专家的论文成果集嵌入得到论文向量,构成文档矩阵;
S52、基于余弦相似度来度量该候选专家每篇论文的论文向量与需求向量的相似度,
Figure BDA0003113388090000042
其中,u表示需求向量,p表示论文向量,|u|表示特征向量模长;
S53、根据论文的被引数、下载数度量论文的质量,Q(p)=log(cp+1)+
Figure BDA0003113388090000051
其中,cp表示论文的被引数,dp表示论文的下载数,通常情况下论文的下载数远多于被引数,其重要程度比被引数低,因此得分占比更低;
根据论文发表的时间确定论文的时间惩罚,
Figure BDA0003113388090000052
其中,yc表示当前年份,yp表示论文的发表年份,该算法可以根据α来调整效果,α越大其惩罚力度越小,时间因子影响程度越小;
根据论文发表中的排名顺序度量该候选专家在论文中的贡献程度,
Figure BDA0003113388090000053
Figure BDA0003113388090000054
其中index(ep,p)为专家ep在论文p中的排名顺序,dep为专家的论文作品集合,β用于调节顺序对分数的影响,其算法本质是对该顺序进行softmax计算;
S54、采用高斯核函数度量该候选专家每篇论文的论文向量与需求向量的相关度,
Figure BDA0003113388090000055
P代表论文向量,u代表需求向量,σ值主要是用于函数调节,当σ越小,仅仅只有最接近于需求向量的论文向量才能得到较高的分数;
S55、根据相似度、论文质量、时间惩罚、排名顺序和相关度对每篇论文中该候选专家进行基础评分,Rate(u,p,ep)=cos(u,p)*R(ep)*T(p)*Q(p)*G(u,p),;
S56、根据该候选专家所有论文的基础评分与需求向量进行运算求和,得到该候选专家最终的评分,Rank(u,ep)=∑p∈(p1,…,pn)Rate(u,p,ep),其中(p1,…,pn)为专家ep的论文作品集;
S57、根据所有候选专家最终的评分进行排序,按照评分高低排序取出topN反馈推荐结果。
在训练论文词嵌入模型和KNN召回模型时,采用将标题和关键词这些重要信息单独提取出来训练的方法,通过标题、文档、摘要等信息分别计算文档向量并赋予不同的权重加权平均的方法,提升论文向量的质量,优化论文词嵌入模型和KNN召回模型,更加精准的筛选出与项目需求文档最相似的论文,专家评分模型基于相似论文集合对专家做出精准评分应用于专家候选集排序,该模型引入了论文的多方面指标,输入更加精准的相似论文集,提高专家候选集质量,可以实现更加智能化、精准化的科技专家匹配。
本发明的技术方案不限于上述具体实施例的限制,凡是根据本发明的技术方案做出的技术变形,均落入本发明的保护范围之内。

Claims (4)

1.一种面向项目需求的科技专家智能推荐方法,其特征在于,包括:
S1、导入论文训练样本训练论文词嵌入模型和KNN召回模型,获得优化后的论文词嵌入模型和KNN召回模型;
S2、项目需求导入到优化后的论文词嵌入模型获取该项目需求的需求向量;
S3、需求向量输入到优化后的KNN召回模型获取相似论文集合,并根据相似论文集合获取专家待推荐集合;
S4、根据专家待推荐集合获取每位候选专家的论文成果集;
S5、排序层模型根据论文成果集计算每位候选专家的评分,按照评分高低排序取出topN反馈推荐结果。
2.根据权利要求1所述的一种面向项目需求的科技专家智能推荐方法,其特征在于,在S1中,论文词嵌入模型包括分词层、Word2vec层、TF-IDF层和输出层,训练论文词嵌入模型包括:
S11、提取每个论文训练样本的标题、关键词和摘要融合为一个组合文档,并通过分词层过滤停用词;
S12、过滤后的组合文档导入Word2vec层获得语料库中每个词的词向量A;
S13、标题、关键词和摘要分别作为单一文档导入Word2vec层获得各自单一文档的词向量B;
S14、词向量B导入TF-IDF层计算词权重再取平均值获得TF-IDF加权的词向量C;
S15、三个词向量C再次赋予标题、关键词和摘要的权重并取均值后获得论文向量。
3.根据权利要求2所述的一种面向项目需求的科技专家智能推荐方法,其特征在于,在S1中,标题、关键词和摘要的权重分别为0.45、0.3、0.25。
4.根据权利要求1所述的一种面向项目需求的科技专家智能推荐方法,其特征在于,在S5中包括:
S51、将每位候选专家的论文成果集嵌入得到论文向量,构成文档矩阵;
S52、度量该候选专家每篇论文的论文向量与需求向量的相似度;
S53、度量该候选专家每篇论文的质量、时间惩罚和该候选专家在论文中的贡献程度;
S54、度量该候选专家每篇论文的论文向量与需求向量的相关度;
S55、根据相似度、论文质量、时间惩罚、排名顺序和相关度对每篇论文中该候选专家进行基础评分;
S56、根据该候选专家所有论文的基础评分与需求向量进行运算求和,得到该候选专家最终的评分;
S57、根据所有候选专家最终的评分进行排序,按照评分高低排序取出topN反馈推荐结果。
CN202110654909.9A 2021-06-11 2021-06-11 一种面向项目需求的科技专家智能推荐方法 Active CN113377945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110654909.9A CN113377945B (zh) 2021-06-11 2021-06-11 一种面向项目需求的科技专家智能推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110654909.9A CN113377945B (zh) 2021-06-11 2021-06-11 一种面向项目需求的科技专家智能推荐方法

Publications (2)

Publication Number Publication Date
CN113377945A true CN113377945A (zh) 2021-09-10
CN113377945B CN113377945B (zh) 2023-04-07

Family

ID=77574063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110654909.9A Active CN113377945B (zh) 2021-06-11 2021-06-11 一种面向项目需求的科技专家智能推荐方法

Country Status (1)

Country Link
CN (1) CN113377945B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN103718205A (zh) * 2011-04-27 2014-04-09 右脑界面公众有限责任公司 用于内容的协同上载的方法及装置
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
KR101760472B1 (ko) * 2016-02-02 2017-07-21 윤필립 디아이와이 프로젝트 제작 과정 컨텐츠를 이용한 스킬업 관리시스템
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法
CN111737495A (zh) * 2020-06-28 2020-10-02 福州数据技术研究院有限公司 基于领域自分类的中高端人才智能推荐系统及其方法
CN111813898A (zh) * 2020-08-28 2020-10-23 北京智源人工智能研究院 基于语义搜索的专家推荐方法、装置、设备及存储介质
CN112417154A (zh) * 2020-11-25 2021-02-26 上海创米科技有限公司 确定文献相似度的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103718205A (zh) * 2011-04-27 2014-04-09 右脑界面公众有限责任公司 用于内容的协同上载的方法及装置
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
KR101760472B1 (ko) * 2016-02-02 2017-07-21 윤필립 디아이와이 프로젝트 제작 과정 컨텐츠를 이용한 스킬업 관리시스템
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法
CN111737495A (zh) * 2020-06-28 2020-10-02 福州数据技术研究院有限公司 基于领域自分类的中高端人才智能推荐系统及其方法
CN111813898A (zh) * 2020-08-28 2020-10-23 北京智源人工智能研究院 基于语义搜索的专家推荐方法、装置、设备及存储介质
CN112417154A (zh) * 2020-11-25 2021-02-26 上海创米科技有限公司 确定文献相似度的方法和装置

Also Published As

Publication number Publication date
CN113377945B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
US11347963B2 (en) Systems and methods for identifying semantically and visually related content
CN104077306B (zh) 一种搜索引擎的结果排序方法及系统
CN105138653B (zh) 一种基于典型度和难度的题目推荐方法及其推荐装置
CN109447266B (zh) 一种基于大数据的农业科技服务智能分拣方法
TW201344477A (zh) 標題關鍵字推薦方法及系統
CN107229738B (zh) 一种基于文档评分模型和相关度的学术论文搜索排序方法
CN107016122A (zh) 基于时间迁移的知识推荐方法
CN111639258B (zh) 一种基于神经网络的新闻推荐方法
CN111401040A (zh) 一种适用于word文本的关键词提取方法
CN109063171B (zh) 基于语义的资源匹配方法
CN111984873A (zh) 一种服务推荐系统和方法
CN105808739A (zh) 基于Borda算法的搜索结果排序方法
CN115439139A (zh) 一种基于电商大数据的用户兴趣分析方法
Artama et al. Classification of official letters using TF-IDF method
Miklosik et al. A framework for constructing optimisation models to increase the visibility of organizations' information in search engines
Alobaid et al. Typology-based semantic labeling of numeric tabular data
CN108269172B (zh) 基于综合相似度迁移的协同过滤方法
Lin et al. A dataset and baselines for e-commerce product categorization
CN113377945B (zh) 一种面向项目需求的科技专家智能推荐方法
CN114139634A (zh) 一种基于成对标签权重的多标签特征选择方法
CN115525819A (zh) 一种面向信息茧房的跨领域推荐方法
CN114969245A (zh) 用于知识产权侵权风险评估的信息检索方法和装置
Roszkowska Application the TOPSIS methods for ordering offers in buyer-seller transaction
Kusniyati et al. Analysis of matric product matching between cosine similarity with term frequency-inverse document frequency (TF-IDF) and Word2Vec in PT. Pricebook digital Indonesia
Thali et al. Survey on job recommendation systems using machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant