CN107656920B - 一种基于专利的科技人才推荐方法 - Google Patents
一种基于专利的科技人才推荐方法 Download PDFInfo
- Publication number
- CN107656920B CN107656920B CN201710825493.6A CN201710825493A CN107656920B CN 107656920 B CN107656920 B CN 107656920B CN 201710825493 A CN201710825493 A CN 201710825493A CN 107656920 B CN107656920 B CN 107656920B
- Authority
- CN
- China
- Prior art keywords
- scientific
- patent document
- vector
- word
- talents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
Abstract
本发明公开了一种基于专利的科技人才推荐方法。该方法包括以下步骤:对专利数据进行预处理,利用科技词对专利文档进行表示;使用词嵌入模型,以词频为权重进行加权平均,对专利文档语义向量化;聚合科技人才的相关专利文档对其科研能力进行表示;将技术需求进行语义向量化,利用余弦相似度计算技术需求与各专利文档之间的相关度,用高斯核函数确定技术需求与各专利文档的计算权重,最后以局部线性加权的方式得到技术需求与科技人才之间的相关度评分;最后,根据相关度评分进行排序,将评分靠前的科技人才作为推荐结果。该方法对科技人才的科研能力和技术需求等实现了语义化表示,同时克服了传统方法中的维度灾难问题。
Description
技术领域
本发明涉及自然语言处理和推荐领域,具体涉及一种基于专利的科技人才推荐方法。
背景技术
促进科技成果转移转化是实施创新驱动发展战略的重要任务,是加强科技与经济紧密结合的关键环节,对于推进结构性改革尤其是供给侧结构性改革、支撑经济转型升级和产业结构调整,促进大众创业、万众创新,打造经济发展新引擎具有重要意义。2016年国务院发布《促进科技成果转移转化行动方案》,明确鼓励运用新一代信息技术,加强科技成果数据资源开发利用。然而,在专利等科技成果数据资源开发利用中,智能匹配符合用户需求的精准科技成果及相应人才信息是亟需解决的一个关键技术问题。
目前,很多网络文献资源库和技术对接交易平台只能提供基于关键词的成果与人才搜索功能,检索结果不精准,用户体验差,难以针对企业具体技术问题精准检索成果并推荐合适人才。为了提高人才推荐的精准度,主要的解决方法是引入相应的语义技术,如利用传统的词袋模型(Bag Of Words,BOW)并应用奇异值分解(Singular ValueDecomposition,SVD)进行降维的潜在语义分析模型(Latent Semantic Analysis,LSA)、在LSA的基础上提出的概率潜在语义分析模型(Probabilistic latent semantic analysis,pLSA)和潜在狄利克雷分配模型(Latent Dirichlet allocation,LDA)等。这些方法中,简单的将人才的所有成果数据拼接成一个大文档,粒度较粗,无法准确刻画该人才的领域科研能力。同时,这些方法不能有效解决维度灾难的问题。
发明内容
为解决上述问题,本发明提出了一种基于专利的科技人才推荐方法。该方法聚合科技人才的相关专利文档对其科研能力进行表示,并引入词嵌入(word embedding)技术,对专利文档进行语义向量化,进而将每个科技人才的科研能力表示为一个低维的实数向量组,解决了维度灾难问题。在针对技术需求进行推荐时,使用局部线性加权的方法计算综合评分,按得分高低进行推荐,其特征刻画更准确,从而可以得到更佳的推荐效果。
本发明所提出的一种基于专利的科技人才推荐方法具体内容如下:
1.专利数据预处理
对所有专利数据,通过数据处理和机器学习的方法,构建出科技词袋T和对应的词嵌入表示E。对每一个科技词ti∈T,都有且只有一个对应的语义向量ei∈E。然后使用此科技词袋,对每一篇专利文档进行中文分词,且只保留出现在科技词袋T中的词,得到专利文档集合D={d1,d2,...di,...,dn},其中di表示某一篇专利文档,该专利文档由一组科技词组成:
同时还需要对数据进行结构化处理。提取专利发明人作为科技人才,并进行关联,消歧等处理,得到科技人才集合P。每一个科技人才pi的专利文档集合用Di表示:
2.专利文档语义向量化
对预处理后的专利文档di,遍历其中的每个科技词在词嵌入模型中找出对应的语义向量同时使用词频作为每个语义向量的权重,对查找到的语义向量进行加权平均,最终得到一个同样维度的实数向量,作为该专利文档的向量表示。具体公式如下:
其中vi代表专利文档di的语义向量化表示,是一个低维的实数向量,其维度取决于预训练的词嵌入模型,一般在100-200维之间。代表词在文档di中的词频。表示词在词嵌入模型中的实数向量表示,该向量拥有语义上相近的词,空间中也相近的良好性质。3.科技人才的科研能力语义表示
经过对专利文档的语义向量化,对于某个科技人才pi,其文档集合Di可语义表示为Vi:
4.针对技术需求的科技人才推荐
一个科技人才针对某一技术需求的科研能力的相关度评分,使用局部线性加权的方式进行计算。使用上述相同的语义向量化方法,将用户的技术需求表示成语义向量u。计算科技人才的每一篇专利文档与技术需求的带权相似度,最后进行求和,得到最终评分。因此相关度评分可以表示如下:
其中,σ为调节参数。σ的值越小,则对评分的贡献越集中在技术需求向量u的附近。当σ很小时,只有靠近用技术需求向量的很少的局部点会对评分有贡献,对于距离较远的点贡献几乎为0。根据经验,一般取σ=0.05。
综上所述,科技人才pi针对技术需求u的相关度评分公式为:
计算完所有的评分以后,根据分数从高到低对科技人才进行部分排序,获取排名靠前的返回给用户,作为推荐结果。
与现有技术相比,本发明有如下优点:
本发明在进行科技人才推荐的时候,引入词嵌入进行语义向量化,将科技人才的科研能力表达成一组低维的实数向量组,避免了传统方法的维度灾难问题。在此基础上,使用专利文档向量组表示科技人才的科研能力,克服了语义表达粒度过大,语义出现偏差等问题,从而更准确的刻画科技人才的科研能力。最后,本发明使用局部线性加权的方式计算科技人才针对特定技术需求的科研能力相关度评分,语义越靠近技术需求的专利文档对相关度评分贡献越多,从而可以很好的发现围绕某一技术需求有较强科研能力的科技人才。
附图说明
图1是本发明的流程图;
图2是高斯核函数中调节参数的取值对权重的影响。
具体实施方式
下面结合附图对本发明进一步说明。
图1描述了本发明的流程图,下面结合图1给出详细说明。
步骤1,专利数据预处理
对所有专利数据,通过数据处理和机器学习的方法,构建出科技词袋T和对应的词嵌入表示E。对每一个科技词ti∈T,都有且只有一个对应的语义向量ei∈E。然后使用此科技词袋,对每一篇专利文档进行中文分词,且只保留出现在科技词袋T中的词,得到专利文档集合D={d1,d2,...di,...,dn},其中di表示某一篇专利文档,该专利文档由一组科技词组成:
同时还需要对数据进行结构化处理。提取专利发明人作为科技人才,并进行关联,消歧等处理,得到科技人才集合P。每一个科技人才pi的专利文档集合用Di表示:
步骤2,专利文档语义向量化
对预处理后的专利文档di,遍历其中的每个科技词在词嵌入模型中找出对应的语义向量同时使用词频作为每个语义向量的权重,对查找到的语义向量进行加权平均,最终得到一个同样维度的实数向量,作为该专利文档的向量表示。具体公式如下:
其中vi代表专利文档di的语义向量化表示,是一个低维的实数向量,其维度取决于预训练的词嵌入模型,一般在100-200维之间。代表词在文档di中的词频。表示词在词嵌入模型中的实数向量表示,该向量拥有语义上相近的词,空间中也相近的良好性质。
步骤3,科技人才的科研能力语义表示
经过对专利文档的语义向量化,对于某个科技人才pi,其文档集合Di可语义表示为Vi:
步骤4,针对技术需求的科技人才推荐
一个科技人才针对某一技术需求的科研能力的相关度评分,使用局部线性加权的方式进行计算。使用上述相同的语义向量化方法,将用户的技术需求表示成语义向量u。计算科技人才的每一篇专利文档与技术需求的带权相似度,最后进行求和,得到最终评分。因此相关度评分可以表示如下:
其中,σ为调节参数。σ的值越小,则对评分的贡献越集中在技术需求向量u的附近。当σ很小时,只有靠近用技术需求向量的很少的局部点会对评分有贡献,对于距离较远的点贡献几乎为0。参数σ与局部权重的关系如图2所示。根据经验,一般取σ=0.05。
综上所述,科技人才pi针对技术需求u的相关度评分公式为:
如图1所示,计算完所有的评分以后,根据分数从高到低对科技人才进行部分排序,获取排名靠前的返回给用户,作为推荐结果。
Claims (1)
1.一种基于专利的科技人才推荐方法,其特征在于该方法包含如下步骤:
步骤1:专利数据预处理
对所有专利数据,通过数据处理和机器学习的方法,构建出科技词袋T和对应的词嵌入表示E;对每一个科技词ti∈T,都有且只有一个对应的语义向量ei∈E;然后使用此科技词袋,对每一篇专利文档进行中文分词,且只保留出现在科技词袋T中的词,得到专利文档集合D={d1,d2,...,di,...,dn},其中di表示某一篇专利文档,该专利文档由一组科技词组成:
同时对数据进行结构化处理;提取专利发明人作为科技人才,并进行关联,消歧处理,得到科技人才集合P;每一个科技人才pi的专利文档集合用Di表示:
步骤2:专利文档语义向量化
对预处理后的专利文档di,遍历其中的每个科技词在词嵌入模型中找出对应的语义向量同时使用词频作为每个语义向量的权重,对查找到的语义向量进行加权平均,最终得到一个同样维度的实数向量,作为该专利文档的向量表示;具体公式如下:
步骤3:科技人才的科研能力语义表示
经过对专利文档的语义向量化,对于某个科技人才pi,其文档集合Di可语义表示为Vi:
步骤4:针对技术需求的科技人才推荐
科技人才针对某一技术需求的科研能力的相关度评分,使用局部线性加权的方式进行计算;使用上述相同的语义向量化,将技术需求表示成语义向量u,计算科技人才的每一篇专利文档与技术需求的带权相似度,最后进行求和,得到最终相关度评分;相关度评分可以表示如下:
其中,σ为调节参数;
科技人才pi针对技术需求u的相关度评分公式为:
根据相关度评分从高到低对科技人才进行排序,获取排名靠前的作为推荐结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710825493.6A CN107656920B (zh) | 2017-09-14 | 2017-09-14 | 一种基于专利的科技人才推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710825493.6A CN107656920B (zh) | 2017-09-14 | 2017-09-14 | 一种基于专利的科技人才推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107656920A CN107656920A (zh) | 2018-02-02 |
CN107656920B true CN107656920B (zh) | 2020-12-18 |
Family
ID=61130440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710825493.6A Active CN107656920B (zh) | 2017-09-14 | 2017-09-14 | 一种基于专利的科技人才推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107656920B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609961A (zh) * | 2018-05-29 | 2019-12-24 | 南京大学 | 一种基于词嵌入的协同过滤推荐方法 |
CN110796398A (zh) * | 2020-01-03 | 2020-02-14 | 杭州皓智天诚信息科技有限公司 | 一种智能评测系统 |
CN113158074A (zh) * | 2021-03-26 | 2021-07-23 | 广东工业大学 | 一种基于多交互维度的简历岗位匹配方法、系统和设备 |
CN113537922B (zh) * | 2021-05-31 | 2024-02-13 | 东莞理工学院 | 一种基于大数据的科技项目人才推荐系统及方法 |
CN113608719B (zh) * | 2021-07-21 | 2023-05-05 | 江苏徐工工程机械研究院有限公司 | 一种软件开发需求质量的评价方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6438579B1 (en) * | 1999-07-16 | 2002-08-20 | Agent Arts, Inc. | Automated content and collaboration-based system and methods for determining and providing content recommendations |
CN103631859A (zh) * | 2013-10-24 | 2014-03-12 | 杭州电子科技大学 | 一种面向科技项目的评审专家智能推荐方法 |
CN103823896A (zh) * | 2014-03-13 | 2014-05-28 | 蚌埠医学院 | 一种学科特征值算法及基于其的项目评审专家推荐算法 |
-
2017
- 2017-09-14 CN CN201710825493.6A patent/CN107656920B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6438579B1 (en) * | 1999-07-16 | 2002-08-20 | Agent Arts, Inc. | Automated content and collaboration-based system and methods for determining and providing content recommendations |
CN103631859A (zh) * | 2013-10-24 | 2014-03-12 | 杭州电子科技大学 | 一种面向科技项目的评审专家智能推荐方法 |
CN103823896A (zh) * | 2014-03-13 | 2014-05-28 | 蚌埠医学院 | 一种学科特征值算法及基于其的项目评审专家推荐算法 |
Non-Patent Citations (2)
Title |
---|
基于语义的科技专家推荐系统研究;吴远超;《中国优秀硕士学位论文全文数据库信息科技辑》;20190115(第1期);第I138-4700页 * |
科技项目评审专家推荐系统模型;胡斌 等;《电子科技》;20120715;第25卷(第7期);第1-5页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107656920A (zh) | 2018-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107656920B (zh) | 一种基于专利的科技人才推荐方法 | |
KR102085217B1 (ko) | 특허문서의 유사도 판단 방법, 장치 및 시스템 | |
Devika et al. | Sentiment analysis: a comparative study on different approaches | |
Shi et al. | Functional and contextual attention-based LSTM for service recommendation in mashup creation | |
CN104573046B (zh) | 一种基于词向量的评论分析方法及系统 | |
CN103207913B (zh) | 商品细粒度语义关系的获取方法和系统 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN110413783A (zh) | 一种基于注意力机制的司法文本分类方法及系统 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN112084307B (zh) | 一种数据处理方法、装置、服务器及计算机可读存储介质 | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
CN109325146A (zh) | 一种视频推荐方法、装置、存储介质和服务器 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN113220862A (zh) | 标准问识别方法、装置及计算机设备及存储介质 | |
Gao et al. | Text categorization based on improved Rocchio algorithm | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN110287396A (zh) | 文本匹配方法及装置 | |
CN109189955A (zh) | 一种自动检索关键词的确定方法和装置 | |
CN112182211B (zh) | 文本分类方法及装置 | |
Kutuzov et al. | Neural embedding language models in semantic clustering of web search results | |
CN111339303B (zh) | 一种基于聚类与自动摘要的文本意图归纳方法及装置 | |
CN113705217A (zh) | 一种面向电力领域知识学习的文献推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |