CN107656920B - 一种基于专利的科技人才推荐方法 - Google Patents

一种基于专利的科技人才推荐方法 Download PDF

Info

Publication number
CN107656920B
CN107656920B CN201710825493.6A CN201710825493A CN107656920B CN 107656920 B CN107656920 B CN 107656920B CN 201710825493 A CN201710825493 A CN 201710825493A CN 107656920 B CN107656920 B CN 107656920B
Authority
CN
China
Prior art keywords
scientific
patent document
vector
word
talents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710825493.6A
Other languages
English (en)
Other versions
CN107656920A (zh
Inventor
徐小良
吴远超
王宇翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201710825493.6A priority Critical patent/CN107656920B/zh
Publication of CN107656920A publication Critical patent/CN107656920A/zh
Application granted granted Critical
Publication of CN107656920B publication Critical patent/CN107656920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources

Abstract

本发明公开了一种基于专利的科技人才推荐方法。该方法包括以下步骤:对专利数据进行预处理,利用科技词对专利文档进行表示;使用词嵌入模型,以词频为权重进行加权平均,对专利文档语义向量化;聚合科技人才的相关专利文档对其科研能力进行表示;将技术需求进行语义向量化,利用余弦相似度计算技术需求与各专利文档之间的相关度,用高斯核函数确定技术需求与各专利文档的计算权重,最后以局部线性加权的方式得到技术需求与科技人才之间的相关度评分;最后,根据相关度评分进行排序,将评分靠前的科技人才作为推荐结果。该方法对科技人才的科研能力和技术需求等实现了语义化表示,同时克服了传统方法中的维度灾难问题。

Description

一种基于专利的科技人才推荐方法
技术领域
本发明涉及自然语言处理和推荐领域,具体涉及一种基于专利的科技人才推荐方法。
背景技术
促进科技成果转移转化是实施创新驱动发展战略的重要任务,是加强科技与经济紧密结合的关键环节,对于推进结构性改革尤其是供给侧结构性改革、支撑经济转型升级和产业结构调整,促进大众创业、万众创新,打造经济发展新引擎具有重要意义。2016年国务院发布《促进科技成果转移转化行动方案》,明确鼓励运用新一代信息技术,加强科技成果数据资源开发利用。然而,在专利等科技成果数据资源开发利用中,智能匹配符合用户需求的精准科技成果及相应人才信息是亟需解决的一个关键技术问题。
目前,很多网络文献资源库和技术对接交易平台只能提供基于关键词的成果与人才搜索功能,检索结果不精准,用户体验差,难以针对企业具体技术问题精准检索成果并推荐合适人才。为了提高人才推荐的精准度,主要的解决方法是引入相应的语义技术,如利用传统的词袋模型(Bag Of Words,BOW)并应用奇异值分解(Singular ValueDecomposition,SVD)进行降维的潜在语义分析模型(Latent Semantic Analysis,LSA)、在LSA的基础上提出的概率潜在语义分析模型(Probabilistic latent semantic analysis,pLSA)和潜在狄利克雷分配模型(Latent Dirichlet allocation,LDA)等。这些方法中,简单的将人才的所有成果数据拼接成一个大文档,粒度较粗,无法准确刻画该人才的领域科研能力。同时,这些方法不能有效解决维度灾难的问题。
发明内容
为解决上述问题,本发明提出了一种基于专利的科技人才推荐方法。该方法聚合科技人才的相关专利文档对其科研能力进行表示,并引入词嵌入(word embedding)技术,对专利文档进行语义向量化,进而将每个科技人才的科研能力表示为一个低维的实数向量组,解决了维度灾难问题。在针对技术需求进行推荐时,使用局部线性加权的方法计算综合评分,按得分高低进行推荐,其特征刻画更准确,从而可以得到更佳的推荐效果。
本发明所提出的一种基于专利的科技人才推荐方法具体内容如下:
1.专利数据预处理
对所有专利数据,通过数据处理和机器学习的方法,构建出科技词袋T和对应的词嵌入表示E。对每一个科技词ti∈T,都有且只有一个对应的语义向量ei∈E。然后使用此科技词袋,对每一篇专利文档进行中文分词,且只保留出现在科技词袋T中的词,得到专利文档集合D={d1,d2,...di,...,dn},其中di表示某一篇专利文档,该专利文档由一组科技词组成:
Figure BDA0001407401540000021
其中,
Figure BDA0001407401540000022
代表文档di的第k个科技词,且
Figure BDA0001407401540000023
是科技词袋T中的某个词。
同时还需要对数据进行结构化处理。提取专利发明人作为科技人才,并进行关联,消歧等处理,得到科技人才集合P。每一个科技人才pi的专利文档集合用Di表示:
Figure BDA0001407401540000024
其中,
Figure BDA0001407401540000025
代表技术人才pi的第k篇专利文档,且
Figure BDA0001407401540000028
是专利文档集合的一个子集。n是该科技人才的专利文档总数。
2.专利文档语义向量化
对预处理后的专利文档di,遍历其中的每个科技词
Figure BDA0001407401540000026
在词嵌入模型中找出对应的语义向量
Figure BDA0001407401540000027
同时使用词频作为每个语义向量的权重,对查找到的语义向量进行加权平均,最终得到一个同样维度的实数向量,作为该专利文档的向量表示。具体公式如下:
Figure BDA0001407401540000031
其中vi代表专利文档di的语义向量化表示,是一个低维的实数向量,其维度取决于预训练的词嵌入模型,一般在100-200维之间。
Figure BDA0001407401540000032
代表词
Figure BDA0001407401540000033
在文档di中的词频。
Figure BDA0001407401540000034
表示词
Figure BDA0001407401540000035
在词嵌入模型中的实数向量表示,该向量拥有语义上相近的词,空间中也相近的良好性质。3.科技人才的科研能力语义表示
经过对专利文档的语义向量化,对于某个科技人才pi,其文档集合Di可语义表示为Vi
Figure BDA0001407401540000036
其中
Figure BDA0001407401540000037
代表科技人才pi发表的第k篇专利文档
Figure BDA0001407401540000038
的语义向量,n是该科技人才发表的专利文档总数。
4.针对技术需求的科技人才推荐
一个科技人才针对某一技术需求的科研能力的相关度评分,使用局部线性加权的方式进行计算。使用上述相同的语义向量化方法,将用户的技术需求表示成语义向量u。计算科技人才的每一篇专利文档与技术需求的带权相似度,最后进行求和,得到最终评分。因此相关度评分可以表示如下:
Figure BDA0001407401540000039
Figure BDA00014074015400000310
代表科技人才pi的第k篇专利文档向量
Figure BDA00014074015400000311
对技术需求向量u的权重,此处使用高斯核函数来进行计算。如果文档向量和技术需求向量在空间中越相近,则对评分的贡献越大。反之则贡献越小。计算公式如下:
Figure BDA00014074015400000312
其中,σ为调节参数。σ的值越小,则对评分的贡献越集中在技术需求向量u的附近。当σ很小时,只有靠近用技术需求向量的很少的局部点会对评分有贡献,对于距离较远的点贡献几乎为0。根据经验,一般取σ=0.05。
Figure BDA0001407401540000041
代表科技人才pi的第k篇专利文档向量
Figure BDA0001407401540000042
对技术需求向量u的相似程度。相似度的刻画有很多方式,此处使用余弦距离来表示两个向量之间的相似度。具体公式如下:
Figure BDA0001407401540000043
综上所述,科技人才pi针对技术需求u的相关度评分公式为:
Figure BDA0001407401540000044
计算完所有的评分以后,根据分数从高到低对科技人才进行部分排序,获取排名靠前的返回给用户,作为推荐结果。
与现有技术相比,本发明有如下优点:
本发明在进行科技人才推荐的时候,引入词嵌入进行语义向量化,将科技人才的科研能力表达成一组低维的实数向量组,避免了传统方法的维度灾难问题。在此基础上,使用专利文档向量组表示科技人才的科研能力,克服了语义表达粒度过大,语义出现偏差等问题,从而更准确的刻画科技人才的科研能力。最后,本发明使用局部线性加权的方式计算科技人才针对特定技术需求的科研能力相关度评分,语义越靠近技术需求的专利文档对相关度评分贡献越多,从而可以很好的发现围绕某一技术需求有较强科研能力的科技人才。
附图说明
图1是本发明的流程图;
图2是高斯核函数中调节参数的取值对权重的影响。
具体实施方式
下面结合附图对本发明进一步说明。
图1描述了本发明的流程图,下面结合图1给出详细说明。
步骤1,专利数据预处理
对所有专利数据,通过数据处理和机器学习的方法,构建出科技词袋T和对应的词嵌入表示E。对每一个科技词ti∈T,都有且只有一个对应的语义向量ei∈E。然后使用此科技词袋,对每一篇专利文档进行中文分词,且只保留出现在科技词袋T中的词,得到专利文档集合D={d1,d2,...di,...,dn},其中di表示某一篇专利文档,该专利文档由一组科技词组成:
Figure BDA0001407401540000051
其中,
Figure BDA0001407401540000052
代表文档di的第k个科技词,且
Figure BDA0001407401540000053
是科技词袋T中的某个词。
同时还需要对数据进行结构化处理。提取专利发明人作为科技人才,并进行关联,消歧等处理,得到科技人才集合P。每一个科技人才pi的专利文档集合用Di表示:
Figure BDA0001407401540000054
其中,
Figure BDA0001407401540000055
代表技术人才pi的第k篇专利文档,且
Figure BDA0001407401540000056
是专利文档集合的一个子集。n是该科技人才的专利文档总数。
步骤2,专利文档语义向量化
对预处理后的专利文档di,遍历其中的每个科技词
Figure BDA0001407401540000057
在词嵌入模型中找出对应的语义向量
Figure BDA0001407401540000058
同时使用词频作为每个语义向量的权重,对查找到的语义向量进行加权平均,最终得到一个同样维度的实数向量,作为该专利文档的向量表示。具体公式如下:
Figure BDA0001407401540000059
其中vi代表专利文档di的语义向量化表示,是一个低维的实数向量,其维度取决于预训练的词嵌入模型,一般在100-200维之间。
Figure BDA00014074015400000510
代表词
Figure BDA00014074015400000511
在文档di中的词频。
Figure BDA00014074015400000512
表示词
Figure BDA00014074015400000513
在词嵌入模型中的实数向量表示,该向量拥有语义上相近的词,空间中也相近的良好性质。
步骤3,科技人才的科研能力语义表示
经过对专利文档的语义向量化,对于某个科技人才pi,其文档集合Di可语义表示为Vi
Figure BDA00014074015400000514
其中
Figure BDA00014074015400000515
代表科技人才pi发表的第k篇专利文档
Figure BDA00014074015400000516
的语义向量,n是该科技人才发表的专利文档总数。
步骤4,针对技术需求的科技人才推荐
一个科技人才针对某一技术需求的科研能力的相关度评分,使用局部线性加权的方式进行计算。使用上述相同的语义向量化方法,将用户的技术需求表示成语义向量u。计算科技人才的每一篇专利文档与技术需求的带权相似度,最后进行求和,得到最终评分。因此相关度评分可以表示如下:
Figure BDA0001407401540000061
Figure BDA0001407401540000062
代表科技人才pi的第k篇专利文档向量
Figure BDA0001407401540000063
对技术需求向量u的权重,此处使用高斯核函数来进行计算。如果文档向量和技术需求向量在空间中越相近,则对评分的贡献越大。反之则贡献越小。计算公式如下:
Figure BDA0001407401540000064
其中,σ为调节参数。σ的值越小,则对评分的贡献越集中在技术需求向量u的附近。当σ很小时,只有靠近用技术需求向量的很少的局部点会对评分有贡献,对于距离较远的点贡献几乎为0。参数σ与局部权重的关系如图2所示。根据经验,一般取σ=0.05。
Figure BDA0001407401540000065
代表科技人才pi的第k篇专利文档向量
Figure BDA0001407401540000066
对技术需求向量u的相似程度。相似度的刻画有很多方式,此处使用余弦距离来表示两个向量之间的相似度。具体公式如下:
Figure BDA0001407401540000067
综上所述,科技人才pi针对技术需求u的相关度评分公式为:
Figure BDA0001407401540000068
如图1所示,计算完所有的评分以后,根据分数从高到低对科技人才进行部分排序,获取排名靠前的返回给用户,作为推荐结果。

Claims (1)

1.一种基于专利的科技人才推荐方法,其特征在于该方法包含如下步骤:
步骤1:专利数据预处理
对所有专利数据,通过数据处理和机器学习的方法,构建出科技词袋T和对应的词嵌入表示E;对每一个科技词ti∈T,都有且只有一个对应的语义向量ei∈E;然后使用此科技词袋,对每一篇专利文档进行中文分词,且只保留出现在科技词袋T中的词,得到专利文档集合D={d1,d2,...,di,...,dn},其中di表示某一篇专利文档,该专利文档由一组科技词组成:
Figure FDA0002618571640000011
其中,
Figure FDA0002618571640000012
代表文档di的第k个科技词,且
Figure FDA0002618571640000013
是科技词袋T中的某个词;
同时对数据进行结构化处理;提取专利发明人作为科技人才,并进行关联,消歧处理,得到科技人才集合P;每一个科技人才pi的专利文档集合用Di表示:
Figure FDA0002618571640000014
其中,
Figure FDA0002618571640000015
代表科技人才pi的第k篇专利文档,且
Figure FDA0002618571640000016
是专利文档集合的一个子集;n′是该科技人才的专利文档总数;
步骤2:专利文档语义向量化
对预处理后的专利文档di,遍历其中的每个科技词
Figure FDA0002618571640000017
在词嵌入模型中找出对应的语义向量
Figure FDA0002618571640000018
同时使用词频作为每个语义向量的权重,对查找到的语义向量进行加权平均,最终得到一个同样维度的实数向量,作为该专利文档的向量表示;具体公式如下:
Figure FDA0002618571640000019
其中vi代表专利文档di的语义向量化表示,是一个低维的实数向量,其维度取决于预训练的词嵌入模型;
Figure FDA00026185716400000110
代表词
Figure FDA00026185716400000111
在文档di中的词频;
步骤3:科技人才的科研能力语义表示
经过对专利文档的语义向量化,对于某个科技人才pi,其文档集合Di可语义表示为Vi
Figure FDA0002618571640000021
其中
Figure FDA0002618571640000022
代表科技人才pi发表的第k篇专利文档
Figure FDA0002618571640000023
的语义向量;
步骤4:针对技术需求的科技人才推荐
科技人才针对某一技术需求的科研能力的相关度评分,使用局部线性加权的方式进行计算;使用上述相同的语义向量化,将技术需求表示成语义向量u,计算科技人才的每一篇专利文档与技术需求的带权相似度,最后进行求和,得到最终相关度评分;相关度评分可以表示如下:
Figure FDA0002618571640000024
Figure FDA0002618571640000025
代表科技人才pi的第k篇专利文档向量
Figure FDA0002618571640000026
对技术需求向量u的权重,此处使用高斯核函数来进行计算;如果文档向量和技术需求向量在空间中越相近,则对评分的贡献越大;反之则贡献越小;计算公式如下:
Figure FDA0002618571640000027
其中,σ为调节参数;
Figure FDA0002618571640000028
代表科技人才pi的第k篇专利文档向量
Figure FDA0002618571640000029
对技术需求向量u的相似程度;
科技人才pi针对技术需求u的相关度评分公式为:
Figure FDA00026185716400000210
根据相关度评分从高到低对科技人才进行排序,获取排名靠前的作为推荐结果。
CN201710825493.6A 2017-09-14 2017-09-14 一种基于专利的科技人才推荐方法 Active CN107656920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710825493.6A CN107656920B (zh) 2017-09-14 2017-09-14 一种基于专利的科技人才推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710825493.6A CN107656920B (zh) 2017-09-14 2017-09-14 一种基于专利的科技人才推荐方法

Publications (2)

Publication Number Publication Date
CN107656920A CN107656920A (zh) 2018-02-02
CN107656920B true CN107656920B (zh) 2020-12-18

Family

ID=61130440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710825493.6A Active CN107656920B (zh) 2017-09-14 2017-09-14 一种基于专利的科技人才推荐方法

Country Status (1)

Country Link
CN (1) CN107656920B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609961A (zh) * 2018-05-29 2019-12-24 南京大学 一种基于词嵌入的协同过滤推荐方法
CN110796398A (zh) * 2020-01-03 2020-02-14 杭州皓智天诚信息科技有限公司 一种智能评测系统
CN113158074A (zh) * 2021-03-26 2021-07-23 广东工业大学 一种基于多交互维度的简历岗位匹配方法、系统和设备
CN113537922B (zh) * 2021-05-31 2024-02-13 东莞理工学院 一种基于大数据的科技项目人才推荐系统及方法
CN113608719B (zh) * 2021-07-21 2023-05-05 江苏徐工工程机械研究院有限公司 一种软件开发需求质量的评价方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6438579B1 (en) * 1999-07-16 2002-08-20 Agent Arts, Inc. Automated content and collaboration-based system and methods for determining and providing content recommendations
CN103631859A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种面向科技项目的评审专家智能推荐方法
CN103823896A (zh) * 2014-03-13 2014-05-28 蚌埠医学院 一种学科特征值算法及基于其的项目评审专家推荐算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6438579B1 (en) * 1999-07-16 2002-08-20 Agent Arts, Inc. Automated content and collaboration-based system and methods for determining and providing content recommendations
CN103631859A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种面向科技项目的评审专家智能推荐方法
CN103823896A (zh) * 2014-03-13 2014-05-28 蚌埠医学院 一种学科特征值算法及基于其的项目评审专家推荐算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于语义的科技专家推荐系统研究;吴远超;《中国优秀硕士学位论文全文数据库信息科技辑》;20190115(第1期);第I138-4700页 *
科技项目评审专家推荐系统模型;胡斌 等;《电子科技》;20120715;第25卷(第7期);第1-5页 *

Also Published As

Publication number Publication date
CN107656920A (zh) 2018-02-02

Similar Documents

Publication Publication Date Title
CN107656920B (zh) 一种基于专利的科技人才推荐方法
KR102085217B1 (ko) 특허문서의 유사도 판단 방법, 장치 및 시스템
Devika et al. Sentiment analysis: a comparative study on different approaches
Shi et al. Functional and contextual attention-based LSTM for service recommendation in mashup creation
CN104573046B (zh) 一种基于词向量的评论分析方法及系统
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN106708929B (zh) 视频节目的搜索方法和装置
CN110413783A (zh) 一种基于注意力机制的司法文本分类方法及系统
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN112084307B (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
CN109325146A (zh) 一种视频推荐方法、装置、存储介质和服务器
CN114997288A (zh) 一种设计资源关联方法
CN106570196B (zh) 视频节目的搜索方法和装置
CN113220862A (zh) 标准问识别方法、装置及计算机设备及存储介质
Gao et al. Text categorization based on improved Rocchio algorithm
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN110287396A (zh) 文本匹配方法及装置
CN109189955A (zh) 一种自动检索关键词的确定方法和装置
CN112182211B (zh) 文本分类方法及装置
Kutuzov et al. Neural embedding language models in semantic clustering of web search results
CN111339303B (zh) 一种基于聚类与自动摘要的文本意图归纳方法及装置
CN113705217A (zh) 一种面向电力领域知识学习的文献推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant