CN107656920B

CN107656920B - 一种基于专利的科技人才推荐方法

Info

Publication number: CN107656920B
Application number: CN201710825493.6A
Authority: CN
Inventors: 徐小良; 吴远超; 王宇翔
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2017-09-14
Filing date: 2017-09-14
Publication date: 2020-12-18
Anticipated expiration: 2037-09-14
Also published as: CN107656920A

Abstract

本发明公开了一种基于专利的科技人才推荐方法。该方法包括以下步骤：对专利数据进行预处理，利用科技词对专利文档进行表示；使用词嵌入模型，以词频为权重进行加权平均，对专利文档语义向量化；聚合科技人才的相关专利文档对其科研能力进行表示；将技术需求进行语义向量化，利用余弦相似度计算技术需求与各专利文档之间的相关度，用高斯核函数确定技术需求与各专利文档的计算权重，最后以局部线性加权的方式得到技术需求与科技人才之间的相关度评分；最后,根据相关度评分进行排序，将评分靠前的科技人才作为推荐结果。该方法对科技人才的科研能力和技术需求等实现了语义化表示，同时克服了传统方法中的维度灾难问题。

Description

一种基于专利的科技人才推荐方法

技术领域

本发明涉及自然语言处理和推荐领域，具体涉及一种基于专利的科技人才推荐方法。

背景技术

促进科技成果转移转化是实施创新驱动发展战略的重要任务，是加强科技与经济紧密结合的关键环节，对于推进结构性改革尤其是供给侧结构性改革、支撑经济转型升级和产业结构调整，促进大众创业、万众创新，打造经济发展新引擎具有重要意义。2016年国务院发布《促进科技成果转移转化行动方案》，明确鼓励运用新一代信息技术，加强科技成果数据资源开发利用。然而，在专利等科技成果数据资源开发利用中，智能匹配符合用户需求的精准科技成果及相应人才信息是亟需解决的一个关键技术问题。

目前，很多网络文献资源库和技术对接交易平台只能提供基于关键词的成果与人才搜索功能，检索结果不精准，用户体验差，难以针对企业具体技术问题精准检索成果并推荐合适人才。为了提高人才推荐的精准度，主要的解决方法是引入相应的语义技术，如利用传统的词袋模型(Bag Of Words,BOW)并应用奇异值分解(Singular ValueDecomposition,SVD)进行降维的潜在语义分析模型(Latent Semantic Analysis，LSA)、在LSA的基础上提出的概率潜在语义分析模型(Probabilistic latent semantic analysis，pLSA)和潜在狄利克雷分配模型(Latent Dirichlet allocation，LDA)等。这些方法中，简单的将人才的所有成果数据拼接成一个大文档，粒度较粗，无法准确刻画该人才的领域科研能力。同时，这些方法不能有效解决维度灾难的问题。

发明内容

为解决上述问题，本发明提出了一种基于专利的科技人才推荐方法。该方法聚合科技人才的相关专利文档对其科研能力进行表示，并引入词嵌入(word embedding)技术，对专利文档进行语义向量化，进而将每个科技人才的科研能力表示为一个低维的实数向量组，解决了维度灾难问题。在针对技术需求进行推荐时，使用局部线性加权的方法计算综合评分，按得分高低进行推荐，其特征刻画更准确，从而可以得到更佳的推荐效果。

本发明所提出的一种基于专利的科技人才推荐方法具体内容如下：

1.专利数据预处理

对所有专利数据，通过数据处理和机器学习的方法，构建出科技词袋T和对应的词嵌入表示E。对每一个科技词t_i∈T,都有且只有一个对应的语义向量e_i∈E。然后使用此科技词袋，对每一篇专利文档进行中文分词，且只保留出现在科技词袋T中的词，得到专利文档集合D＝{d₁,d₂,...d_i,...,d_n}，其中d_i表示某一篇专利文档，该专利文档由一组科技词组成：

其中，

代表文档d_i的第k个科技词，且

是科技词袋T中的某个词。

同时还需要对数据进行结构化处理。提取专利发明人作为科技人才，并进行关联，消歧等处理，得到科技人才集合P。每一个科技人才p_i的专利文档集合用D_i表示：

其中，

代表技术人才p_i的第k篇专利文档，且

是专利文档集合的一个子集。n是该科技人才的专利文档总数。

2.专利文档语义向量化

对预处理后的专利文档d_i,遍历其中的每个科技词

在词嵌入模型中找出对应的语义向量

同时使用词频作为每个语义向量的权重，对查找到的语义向量进行加权平均，最终得到一个同样维度的实数向量，作为该专利文档的向量表示。具体公式如下：

其中v_i代表专利文档d_i的语义向量化表示，是一个低维的实数向量，其维度取决于预训练的词嵌入模型，一般在100-200维之间。

代表词

在文档d_i中的词频。

表示词

在词嵌入模型中的实数向量表示，该向量拥有语义上相近的词，空间中也相近的良好性质。3.科技人才的科研能力语义表示

经过对专利文档的语义向量化，对于某个科技人才p_i，其文档集合D_i可语义表示为V_i：

其中

代表科技人才p_i发表的第k篇专利文档

的语义向量，n是该科技人才发表的专利文档总数。

4.针对技术需求的科技人才推荐

一个科技人才针对某一技术需求的科研能力的相关度评分，使用局部线性加权的方式进行计算。使用上述相同的语义向量化方法，将用户的技术需求表示成语义向量u。计算科技人才的每一篇专利文档与技术需求的带权相似度，最后进行求和，得到最终评分。因此相关度评分可以表示如下：

代表科技人才p_i的第k篇专利文档向量

对技术需求向量u的权重，此处使用高斯核函数来进行计算。如果文档向量和技术需求向量在空间中越相近，则对评分的贡献越大。反之则贡献越小。计算公式如下：

其中，σ为调节参数。σ的值越小，则对评分的贡献越集中在技术需求向量u的附近。当σ很小时，只有靠近用技术需求向量的很少的局部点会对评分有贡献，对于距离较远的点贡献几乎为0。根据经验，一般取σ＝0.05。

代表科技人才p_i的第k篇专利文档向量

对技术需求向量u的相似程度。相似度的刻画有很多方式，此处使用余弦距离来表示两个向量之间的相似度。具体公式如下：

综上所述，科技人才p_i针对技术需求u的相关度评分公式为：

计算完所有的评分以后，根据分数从高到低对科技人才进行部分排序，获取排名靠前的返回给用户，作为推荐结果。

与现有技术相比，本发明有如下优点：

本发明在进行科技人才推荐的时候，引入词嵌入进行语义向量化，将科技人才的科研能力表达成一组低维的实数向量组，避免了传统方法的维度灾难问题。在此基础上，使用专利文档向量组表示科技人才的科研能力，克服了语义表达粒度过大，语义出现偏差等问题，从而更准确的刻画科技人才的科研能力。最后，本发明使用局部线性加权的方式计算科技人才针对特定技术需求的科研能力相关度评分，语义越靠近技术需求的专利文档对相关度评分贡献越多，从而可以很好的发现围绕某一技术需求有较强科研能力的科技人才。

附图说明

图1是本发明的流程图；

图2是高斯核函数中调节参数的取值对权重的影响。

具体实施方式

下面结合附图对本发明进一步说明。

图1描述了本发明的流程图，下面结合图1给出详细说明。

步骤1，专利数据预处理

其中，

代表文档d_i的第k个科技词，且

是科技词袋T中的某个词。

其中，

代表技术人才p_i的第k篇专利文档，且

步骤2，专利文档语义向量化

对预处理后的专利文档d_i,遍历其中的每个科技词

在词嵌入模型中找出对应的语义向量

代表词

在文档d_i中的词频。

表示词

在词嵌入模型中的实数向量表示，该向量拥有语义上相近的词，空间中也相近的良好性质。

步骤3，科技人才的科研能力语义表示

其中

代表科技人才p_i发表的第k篇专利文档

的语义向量，n是该科技人才发表的专利文档总数。

步骤4，针对技术需求的科技人才推荐

代表科技人才p_i的第k篇专利文档向量

其中，σ为调节参数。σ的值越小，则对评分的贡献越集中在技术需求向量u的附近。当σ很小时，只有靠近用技术需求向量的很少的局部点会对评分有贡献，对于距离较远的点贡献几乎为0。参数σ与局部权重的关系如图2所示。根据经验，一般取σ＝0.05。

代表科技人才p_i的第k篇专利文档向量

综上所述，科技人才p_i针对技术需求u的相关度评分公式为：

如图1所示，计算完所有的评分以后，根据分数从高到低对科技人才进行部分排序，获取排名靠前的返回给用户，作为推荐结果。

Claims

1.一种基于专利的科技人才推荐方法，其特征在于该方法包含如下步骤：

步骤1：专利数据预处理

对所有专利数据，通过数据处理和机器学习的方法，构建出科技词袋T和对应的词嵌入表示E；对每一个科技词t_i∈T,都有且只有一个对应的语义向量e_i∈E；然后使用此科技词袋，对每一篇专利文档进行中文分词，且只保留出现在科技词袋T中的词，得到专利文档集合D＝{d₁,d₂,...,d_i,...,d_n}，其中d_i表示某一篇专利文档，该专利文档由一组科技词组成：