CN108763520A - 一种面向技术领域的专业人才搜索方法 - Google Patents
一种面向技术领域的专业人才搜索方法 Download PDFInfo
- Publication number
- CN108763520A CN108763520A CN201810544758.XA CN201810544758A CN108763520A CN 108763520 A CN108763520 A CN 108763520A CN 201810544758 A CN201810544758 A CN 201810544758A CN 108763520 A CN108763520 A CN 108763520A
- Authority
- CN
- China
- Prior art keywords
- scientific
- field
- technical
- talent
- technological achievement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种面向技术领域的专业人才搜索方法。本发明首先对海量科技成果数据资源进行文本处理和知识挖掘,生成技术领域词库和对应的词向量库。然后构建人才‑技术领域专业能力模型:对科技成果所属技术领域进行智能化标注并生成人才与技术领域的关系;综合科技成果的质量评分、人才贡献度、技术领域偏重度,构建人才‑技术领域专业能力模型。最后根据步骤2中的人才‑技术领域专业能力模型,计算得到所有人才在各技术领域的专业能力评分,生成相应索引文件并部署实现面向技术领域的专业人才搜索引擎。本发明基于大数据实现人才‑技术领域专业能力评分的智能计算,面向技术领域进行人才搜索比较便捷高效,排序结果比较科学合理。
Description
技术领域
本发明涉及搜索引擎技术领域,特别是涉及一种面向技术领域的专业人才搜索方法。
背景技术
人才是第一资源,企业在创新过程中对专业技术人才求贤若渴。虽然高校院所等科研机构拥有大量的技术人才,但是由于科技信息“不对称”、缺乏科技大数据和智能搜索技术,企业往往缺少有效途径快速找到特定技术领域的专业人才。目前一些所谓的人才库或专家库系统只是收集了有限的人才及其技术领域描述信息,很多信息描述是主观填写的,不能客观反映人才的专业能力情况,不能满足根据特定技术领域精准有效搜索匹配专业人才的需求。
随着大数据与人工智能技术的兴起,科技成果数据资源的开发和利用将有效解决上述的这些问题。本发明中的科技成果指的是学术论文、专利、科研项目三大类,这些科技成果数据信息包含成果类型、名称、成员、关键词、摘要、全文描述等文本信息。2016年5月,国务院办公厅印发的《促进科技成果转移转化行动方案》,明确鼓励运用云计算、大数据等新一代信息技术,加强科技成果数据资源的开发利用,提供符合用户需求的精准科技成果信息。因此,针对海量科技成果数据资源进行分析处理,实现智能化的技术领域人才搜索方法与系统是非常必要和有意义的。
发明内容
本发明的目的在于利用科技人才及其学术论文、专利和科研项目等客观存在的科技成果数据资源,通过自然语言处理和机器学习等技术生成技术领域词库和词向量库、构建人才-技术领域专业能力模型,并实现面向技术领域的专业人才搜索方法。
本发明方法包括以下步骤:
步骤1:生成技术领域词库和词向量库
利用自然语言处理与机器学习技术,对海量科技成果数据资源进行文本处理、技术领域词识别,形成技术领域词库T,同时通过词向量训练得到对应的词向量库A;对每一个技术领域词ti∈T,都有且只有一个对应的词向量ai∈A。
步骤2:构建人才-技术领域专业能力模型
步骤2.1:生成人才-技术领域关系
通过对海量科技成果数据资源进行文本处理,实现科技成果所属技术领域的智能化标注,进而得到人才与科技成果的关联、人才与技术领域的关联关系。
步骤2.2:计算科技成果的质量评分
Spaper、Spatent和Sproject分别表示学术论文、专利、科研项目三种类型科技成果的评分模型,其表达式如下:
Spaper=log(k·dc+10)·grade(dr)
Spatent=patentType(da)
Sproject=fund(db)·projectType(de)
其中,dc为论文被引用次数,k为调节因子,调节论文引用次数对于分值的影响,dr为论文发表期刊的等级,grade(dr)表示对应论文期刊等级的常数影响值;da表示专利类型,patentType(da)为不同专利类型对应的常数影响值;db和de分别为项目经费和项目类别,fund(db)和projectType(de)分别为项目经费和项目类别对项目质量的影响值。
步骤2.3:计算科技成果的人才贡献度
科技成果的人才贡献度C,用正比例函数来表示其排名与贡献程度的关系:
其中,m表示人才在该科技成果中的排名,即第几成员,1≤m≤4。
步骤2.4:计算科技成果的技术领域偏重度
使用相关技术领域词向量的加权平均来表示科技成果的主题向量,该主题向量与技术领域词向量的归一化余弦相似度,即为该科技成果的技术领域偏重度;
为科技成果k的主题向量,设tki为科技成果k中的第i个技术领域词,aki为对应的词向量,tki∈T,aki∈A,xki为tki在科技成果k中出现的词频,n表示科技成果k中包含的技术领域词总数量,xk为上式中的xki之和;
Wki表示科技成果k对于tki的技术领域偏重度,通过计算词向量aki与主题向量的归一化余弦相似度得到;
将tki用tf表示,tf∈T,tf表示T中第f个技术领域词,则对应的aki表示为af,Wki表示为W′kf,则得到下式
步骤2.5:构建人才-技术领域专业能力模型
将科技成果的质量评分、人才贡献度和技术领域偏重度三者相乘,计算得到人才就参与该科技成果的技术领域专业能力分值;人才-技术领域专业能力是该人才所参与的各相关科技成果的技术领域专业能力分值之和,人才-技术领域专业能力模型如下:
其中,Vpf表示人才p对于技术领域tf的专业能力,k代表该人才p参与的第几项科技成果,Sk为科技成果k的质量评分,Cpk为该人才p在科技成果k中的贡献度。
科技成果k是学术论文、专利或科研项目,Sk表示如下:
其中,α、β和γ则分别是学术论文、专利或科研项目三种类型科技成果质量权重的调节因子,三者的取值范围为[0,1],其和为1。
步骤3:生成索引文件实现搜索引擎
根据步骤2中的人才-技术领域专业能力模型进行计算得到所有人才在各技术领域的专业能力评分,生成相应索引文件并部署实现搜索引擎;用户在搜索框中输入技术领域词,即可搜索得到该技术领域专业能力从高到低排序的人才列表。
与现有技术相比,本发明有如下优点:
本发明通过对海量科技成果数据资源的文本处理和知识挖掘,生成技术领域词库和语义词向量;实现科技成果所属技术领域的智能化标注,并得到人才与技术领域的关系;综合科技成果的质量评分、人才贡献度、技术领域偏重度,构建了人才-技术领域专业能力模型;有效实现了一种面向技术领域的专业人才搜索排序方法和系统。
附图说明
图1是本发明的流程图。
图2是人才-技术领域专业能力关联图。
具体实施方式
以下结合附图1对本发明作进一步说明:
本发明的具体步骤是:
1.生成技术领域词库和词向量库
利用自然语言处理与机器学习技术,对海量科技成果数据资源进行文本处理、技术领域词识别等知识挖掘,形成技术领域词库T,同时通过词向量训练得到对应的词向量库A。对每一个技术领域词ti∈T,都有且只有一个对应的词向量ai∈A。
2.构建人才-技术领域专业能力模型
人才针对特定技术领域的专业能力,与人才-技术领域的关系、科技成果的质量评分、人才贡献度和技术领域偏重度有关,下面介绍人才-技术领域专业能力模型的构建,见图2。
2.1生成人才-技术领域关系
通过对海量科技成果数据资源进行文本处理,实现科技成果所属技术领域的智能化标注,进而得到人才与科技成果以及人才与技术领域的关联关系。
2.2计算科技成果的质量评分
要衡量人才的能力水平,首先需要计算该人才所参与的科技成果的质量,所以需要一种评分模型对所有科技成果进行打分。本发明以Spaper、Spatent和Sproject来分别表示学术论文、专利、科研项目三种类型科技成果的评分模型,表达式如下:
Spaper=log(k·dc+10)·grade(dr)
Spatent=patentType(da)
Sproject=fund(db)·projectType(de)
其中,dc为论文被引用次数,k为调节因子,调节论文引用次数对于分值的影响,dr为论文发表期刊的等级,grade(dr)表示对应论文期刊等级的常数影响值。da表示专利类型,patentType(da)为不同专利类型对应的常数影响值。db和de分别为项目经费和项目类别,fund(db)和projectType(de)分别为项目经费和项目类别对项目质量的影响值。
2.3计算科技成果的人才贡献度
对于特定科技成果的所有参与成员,一般来说排名越靠前的成员对该科技成果的贡献度越高。科技成果的人才贡献度C,可以用简单的正比例函数来表示其排名与贡献程度的关系:
其中,m表示人才在该科技成果中的排名,即第几成员,1≤m≤4,排名靠后的成员勿略不计。
2.4计算科技成果的技术领域偏重度
一项科技成果可以同时属于多个技术领域,但与这些技术领域的相关度是不同的,这是对计算人才对于特定技术领域的专业能力是有关系的。
本发明使用相关技术领域词向量的加权平均来表示科技成果的主题向量,该主题向量与技术领域词向量的归一化余弦相似度,即可得到该科技成果的技术领域偏重度。
为科技成果k的主题向量,设tki为科技成果k中的第i个技术领域词,aki为对应的词向量,tki∈T,aki∈A,xki为tki在科技成果k中出现的词频,n表示科技成果k中包含的技术领域词总数量,xk为上式中的xki之和。
Wki表示科技成果k对于tki的技术领域偏重度,通过计算词向量aki与主题向量的归一化余弦相似度得到。
将tki用tf表示,tf∈T,tf表示T中第f个技术领域词,则对应的aki可以表示为af,Wki表示为W′kf,则得到下式
2.5构建人才-技术领域专业能力
将科技成果的质量评分、人才贡献度和技术领域偏重度三者相乘,可以计算得到人才就参与该科技成果的技术领域专业能力分值。人才-技术领域专业能力是该人才所参与的各相关科技成果的技术领域专业能力分值之和,人才-技术领域专业能力模型如下:
其中,Vpf表示人才p对于技术领域tf的专业能力,k代表该人才p参与的第几项科技成果,Sk为科技成果k的质量评分,Cpk为该人才p在科技成果k中的贡献度。
科技成果k可以是学术论文、专利或科研项目,因此Sk可以如下表示:
其中,α、β和γ则分别是学术论文、专利或科研项目三种类型科技成果质量权重的调节因子,三者的取值范围为[0,1],其和为1。
3.生成索引文件实现搜索引擎
根据人才-技术领域专业能力模型进行计算得到所有人才在各技术领域的专业能力评分,生成相应索引文件并部署实现面向技术领域的专业人才搜索引擎。用户在搜索框中输入技术领域词,即可搜索得到该技术领域专业能力从高到低排序的人才列表。
Claims (1)
1.一种面向技术领域的专业人才搜索方法,其特征在于,该方法包含如下步骤:
步骤1:生成技术领域词库和词向量库
利用自然语言处理与机器学习技术,对海量科技成果数据资源进行文本处理、技术领域词识别,形成技术领域词库T,同时通过词向量训练得到对应的词向量库A;对每一个技术领域词ti∈T,都有且只有一个对应的词向量ai∈A。;
步骤2:构建人才-技术领域专业能力模型
步骤2.1:生成人才-技术领域关系
通过对海量科技成果数据资源进行文本处理,实现科技成果所属技术领域的智能化标注,进而得到人才与科技成果的关联、人才与技术领域的关联关系;
步骤2.2:计算科技成果的质量评分
Spaper、Spatent和Sproject分别表示学术论文、专利、科研项目三种类型科技成果的评分模型,其表达式如下:
Spaper=log(k·dc+10)·grade(dr)
Spatent=patentType(da)
Sproject=fund(db)·projectType(de)
其中,dc为论文被引用次数,k为调节因子,调节论文引用次数对于分值的影响,dr为论文发表期刊的等级,grade(dr)表示对应论文期刊等级的常数影响值;da表示专利类型,patentType(da)为不同专利类型对应的常数影响值;db和de分别为项目经费和项目类别,fund(db)和projectType(de)分别为项目经费和项目类别对项目质量的影响值;
步骤2.3:计算科技成果的人才贡献度
科技成果的人才贡献度C,用正比例函数来表示其排名与贡献程度的关系:
其中,m表示人才在该科技成果中的排名,即第几成员,1≤m≤4,排名靠后的成员;
步骤2.4:计算科技成果的技术领域偏重度
使用相关技术领域词向量的加权平均来表示科技成果的主题向量,该主题向量与技术领域词向量的归一化余弦相似度,即为该科技成果的技术领域偏重度;
为科技成果k的主题向量,设tki为科技成果k中的第i个技术领域词,aki为对应的词向量,tki∈T,aki∈A,xki为tki在科技成果k中出现的词频,n表示科技成果k中包含的技术领域词总数量,xk为上式中的xki之和;
Wki表示科技成果k对于tki的技术领域偏重度,通过计算词向量aki与主题向量的归一化余弦相似度得到;
将tki用tf表示,tf∈T,tf表示T中第f个技术领域词,则对应的aki可以表示为af,Wki表示为W′kf,则得到下式
步骤2.5:构建人才-技术领域专业能力模型
将科技成果的质量评分、人才贡献度和技术领域偏重度三者相乘,计算得到人才就参与该科技成果的技术领域专业能力分值;人才-技术领域专业能力是该人才所参与的各相关科技成果的技术领域专业能力分值之和,人才-技术领域专业能力模型如下:
其中,Vpf表示人才p对于技术领域tf的专业能力,k代表该人才p参与的第几项科技成果,Sk为科技成果k的质量评分,Cpk为该人才p在科技成果k中的贡献度;
科技成果k可以是学术论文、专利或科研项目,Sk可以如下表示如下:
其中,α、β和γ则分别是学术论文、专利或科研项目三种类型科技成果质量权重的调节因子,三者的取值范围为[0,1],其和为1;
步骤3:生成索引文件实现搜索引擎
根据步骤2中的人才-技术领域专业能力模型进行计算得到所有人才在各技术领域的专业能力评分,生成相应索引文件并部署实现搜索引擎;用户在搜索框中输入技术领域词,即可搜索得到该技术领域专业能力从高到低排序的人才列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810544758.XA CN108763520B (zh) | 2018-05-31 | 2018-05-31 | 一种面向技术领域的专业人才搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810544758.XA CN108763520B (zh) | 2018-05-31 | 2018-05-31 | 一种面向技术领域的专业人才搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108763520A true CN108763520A (zh) | 2018-11-06 |
CN108763520B CN108763520B (zh) | 2021-07-02 |
Family
ID=64000818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810544758.XA Active CN108763520B (zh) | 2018-05-31 | 2018-05-31 | 一种面向技术领域的专业人才搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763520B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740947A (zh) * | 2019-01-08 | 2019-05-10 | 上海市研发公共服务平台管理中心 | 基于专利数据的专家挖掘方法、系统、存储介质及电子终端 |
CN110134851A (zh) * | 2019-05-05 | 2019-08-16 | 北京科技大学 | 一种基于领域内网的搜索引擎系统及构建方法 |
CN113806598A (zh) * | 2021-09-23 | 2021-12-17 | 广东省通信产业服务有限公司广州分公司 | 一种利于云搜索的专业人才分类统计数据库及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120095593A (ko) * | 2011-02-21 | 2012-08-29 | 아이피텍코리아 주식회사 | 특허 기술 가치평가 방법 |
CN104268720A (zh) * | 2014-10-17 | 2015-01-07 | 重庆市科学技术研究院 | 一种科技人才职称分类评价方法 |
CN107229738A (zh) * | 2017-06-18 | 2017-10-03 | 杭州电子科技大学 | 一种基于文档评分模型和相关度的学术论文搜索排序方法 |
CN107480936A (zh) * | 2017-07-11 | 2017-12-15 | 杭州电子科技大学 | 一种基于科研成果数据的人才能力刻画方法 |
-
2018
- 2018-05-31 CN CN201810544758.XA patent/CN108763520B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120095593A (ko) * | 2011-02-21 | 2012-08-29 | 아이피텍코리아 주식회사 | 특허 기술 가치평가 방법 |
CN104268720A (zh) * | 2014-10-17 | 2015-01-07 | 重庆市科学技术研究院 | 一种科技人才职称分类评价方法 |
CN107229738A (zh) * | 2017-06-18 | 2017-10-03 | 杭州电子科技大学 | 一种基于文档评分模型和相关度的学术论文搜索排序方法 |
CN107480936A (zh) * | 2017-07-11 | 2017-12-15 | 杭州电子科技大学 | 一种基于科研成果数据的人才能力刻画方法 |
Non-Patent Citations (1)
Title |
---|
杨志华: ""行业特色型大学教师科技创新能力评价指标研究"", 《中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740947A (zh) * | 2019-01-08 | 2019-05-10 | 上海市研发公共服务平台管理中心 | 基于专利数据的专家挖掘方法、系统、存储介质及电子终端 |
CN110134851A (zh) * | 2019-05-05 | 2019-08-16 | 北京科技大学 | 一种基于领域内网的搜索引擎系统及构建方法 |
CN110134851B (zh) * | 2019-05-05 | 2021-10-15 | 北京科技大学 | 一种基于领域内网的搜索引擎系统及构建方法 |
CN113806598A (zh) * | 2021-09-23 | 2021-12-17 | 广东省通信产业服务有限公司广州分公司 | 一种利于云搜索的专业人才分类统计数据库及方法 |
CN113806598B (zh) * | 2021-09-23 | 2024-04-05 | 广东省通信产业服务有限公司广州分公司 | 一种利于云搜索的专业人才分类统计数据库及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108763520B (zh) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | Target-dependent sentiment classification with BERT | |
CN108830416B (zh) | 基于用户行为的广告点击率预测方法 | |
Snehvrat et al. | The state of ambidexterity research: a data mining approach | |
CN106598950B (zh) | 一种基于混合层叠模型的命名实体识别方法 | |
CN106250438B (zh) | 基于随机游走模型的零引用文章推荐方法及系统 | |
CN109241294A (zh) | 一种实体链接方法及装置 | |
CN107590133A (zh) | 基于语义的招聘职位与求职简历匹配的方法及系统 | |
Olczyk | Bibliometric approach to tracking the concept of international competitiveness | |
CN104573046A (zh) | 一种基于词向量的评论分析方法及系统 | |
CN108763520A (zh) | 一种面向技术领域的专业人才搜索方法 | |
CN110083696A (zh) | 基于元结构技术的全局引文推荐方法、推荐系统 | |
CN107656920B (zh) | 一种基于专利的科技人才推荐方法 | |
CN109063147A (zh) | 基于文本相似度的在线课程论坛内容推荐方法及系统 | |
Abuhay et al. | Analysis of computational science papers from iccs 2001-2016 using topic modeling and graph theory | |
Deac-Petruşel et al. | A sentiment-based similarity model for recommendation systems | |
CN103605493A (zh) | 基于图形处理单元的并行排序学习方法及系统 | |
Shu et al. | An improved adaboost algorithm based on uncertain functions | |
CN106897436B (zh) | 一种基于变分推断的学术研究热点关键词提取方法 | |
CN105893363A (zh) | 一种获取知识点的相关知识点的方法及系统 | |
CN102663123B (zh) | 基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统 | |
You et al. | An improved artificial bee colony algorithm for solving parameter identification problems | |
CN105468657B (zh) | 一种获取领域重要知识点的方法和系统 | |
Tian et al. | Domain adaptation for named entity recognition using crfs | |
CN106897736A (zh) | 一种多领域非协作分布式检索结果融合系统及其融合方法 | |
Nguyen et al. | NOWJ1@ ALQAC 2023: Enhancing Legal Task Performance with Classic Statistical Models and Pre-trained Language Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |