CN107656920A - 一种基于专利的科技人才推荐方法 - Google Patents
一种基于专利的科技人才推荐方法 Download PDFInfo
- Publication number
- CN107656920A CN107656920A CN201710825493.6A CN201710825493A CN107656920A CN 107656920 A CN107656920 A CN 107656920A CN 201710825493 A CN201710825493 A CN 201710825493A CN 107656920 A CN107656920 A CN 107656920A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msubsup
- scientific
- word
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 59
- 238000011160 research Methods 0.000 claims abstract description 16
- 238000005516 engineering process Methods 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 5
- 240000004760 Pimpinella anisum Species 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 5
- 238000007796 conventional method Methods 0.000 abstract 1
- 238000010348 incorporation Methods 0.000 abstract 1
- 238000006116 polymerization reaction Methods 0.000 abstract 1
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000001737 promoting effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013550 semantic technology Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于专利的科技人才推荐方法。该方法包括以下步骤:对专利数据进行预处理,利用科技词对专利文档进行表示;使用词嵌入模型,以词频为权重进行加权平均,对专利文档语义向量化;聚合科技人才的相关专利文档对其科研能力进行表示;将技术需求进行语义向量化,利用余弦相似度计算技术需求与各专利文档之间的相关度,用高斯核函数确定技术需求与各专利文档的计算权重,最后以局部线性加权的方式得到技术需求与科技人才之间的相关度评分;最后,根据相关度评分进行排序,将评分靠前的科技人才作为推荐结果。该方法对科技人才的科研能力和技术需求等实现了语义化表示,同时克服了传统方法中的维度灾难问题。
Description
技术领域
本发明涉及自然语言处理和推荐领域,具体涉及一种基于专利的科技人才推荐方法。
背景技术
促进科技成果转移转化是实施创新驱动发展战略的重要任务,是加强科技与经济紧密结合的关键环节,对于推进结构性改革尤其是供给侧结构性改革、支撑经济转型升级和产业结构调整,促进大众创业、万众创新,打造经济发展新引擎具有重要意义。2016年国务院发布《促进科技成果转移转化行动方案》,明确鼓励运用新一代信息技术,加强科技成果数据资源开发利用。然而,在专利等科技成果数据资源开发利用中,智能匹配符合用户需求的精准科技成果及相应人才信息是亟需解决的一个关键技术问题。
目前,很多网络文献资源库和技术对接交易平台只能提供基于关键词的成果与人才搜索功能,检索结果不精准,用户体验差,难以针对企业具体技术问题精准检索成果并推荐合适人才。为了提高人才推荐的精准度,主要的解决方法是引入相应的语义技术,如利用传统的词袋模型(Bag Of Words,BOW)并应用奇异值分解(Singular ValueDecomposition,SVD)进行降维的潜在语义分析模型(Latent Semantic Analysis,LSA)、在LSA的基础上提出的概率潜在语义分析模型(Probabilistic latent semantic analysis,pLSA)和潜在狄利克雷分配模型(Latent Dirichlet allocation,LDA)等。这些方法中,简单的将人才的所有成果数据拼接成一个大文档,粒度较粗,无法准确刻画该人才的领域科研能力。同时,这些方法不能有效解决维度灾难的问题。
发明内容
为解决上述问题,本发明提出了一种基于专利的科技人才推荐方法。该方法聚合科技人才的相关专利文档对其科研能力进行表示,并引入词嵌入(word embedding)技术,对专利文档进行语义向量化,进而将每个科技人才的科研能力表示为一个低维的实数向量组,解决了维度灾难问题。在针对技术需求进行推荐时,使用局部线性加权的方法计算综合评分,按得分高低进行推荐,其特征刻画更准确,从而可以得到更佳的推荐效果。
本发明所提出的一种基于专利的科技人才推荐方法具体内容如下:
1.专利数据预处理
对所有专利数据,通过数据处理和机器学习的方法,构建出科技词袋T和对应的词嵌入表示E。对每一个科技词ti∈T,都有且只有一个对应的语义向量ei∈E。然后使用此科技词袋,对每一篇专利文档进行中文分词,且只保留出现在科技词袋T中的词,得到专利文档集合D={d1,d2,...di,...,dn},其中di表示某一篇专利文档,该专利文档由一组科技词组成:
其中,代表文档di的第k个科技词,且是科技词袋T中的某个词。
同时还需要对数据进行结构化处理。提取专利发明人作为科技人才,并进行关联,消歧等处理,得到科技人才集合P。每一个科技人才pi的专利文档集合用Di表示:
其中,代表技术人才pi的第k篇专利文档,且是专利文档集合的一个子集。n是该科技人才的专利文档总数。
2.专利文档语义向量化
对预处理后的专利文档di,遍历其中的每个科技词在词嵌入模型中找出对应的语义向量同时使用词频作为每个语义向量的权重,对查找到的语义向量进行加权平均,最终得到一个同样维度的实数向量,作为该专利文档的向量表示。具体公式如下:
其中vi代表专利文档di的语义向量化表示,是一个低维的实数向量,其维度取决于预训练的词嵌入模型,一般在100-200维之间。代表词在文档di中的词频。表示词在词嵌入模型中的实数向量表示,该向量拥有语义上相近的词,空间中也相近的良好性质。3.科技人才的科研能力语义表示
经过对专利文档的语义向量化,对于某个科技人才pi,其文档集合Di可语义表示为Vi:
其中代表科技人才pi发表的第k篇专利文档的语义向量,n是该科技人才发表的专利文档总数。
4.针对技术需求的科技人才推荐
一个科技人才针对某一技术需求的科研能力的相关度评分,使用局部线性加权的方式进行计算。使用上述相同的语义向量化方法,将用户的技术需求表示成语义向量u。计算科技人才的每一篇专利文档与技术需求的带权相似度,最后进行求和,得到最终评分。因此相关度评分可以表示如下:
代表科技人才pi的第k篇专利文档向量对技术需求向量u的权重,此处使用高斯核函数来进行计算。如果文档向量和技术需求向量在空间中越相近,则对评分的贡献越大。反之则贡献越小。计算公式如下:
其中,σ为调节参数。σ的值越小,则对评分的贡献越集中在技术需求向量u的附近。当σ很小时,只有靠近用技术需求向量的很少的局部点会对评分有贡献,对于距离较远的点贡献几乎为0。根据经验,一般取σ=0.05。
代表科技人才pi的第k篇专利文档向量对技术需求向量u的相似程度。相似度的刻画有很多方式,此处使用余弦距离来表示两个向量之间的相似度。具体公式如下:
综上所述,科技人才pi针对技术需求u的相关度评分公式为:
计算完所有的评分以后,根据分数从高到低对科技人才进行部分排序,获取排名靠前的返回给用户,作为推荐结果。
与现有技术相比,本发明有如下优点:
本发明在进行科技人才推荐的时候,引入词嵌入进行语义向量化,将科技人才的科研能力表达成一组低维的实数向量组,避免了传统方法的维度灾难问题。在此基础上,使用专利文档向量组表示科技人才的科研能力,克服了语义表达粒度过大,语义出现偏差等问题,从而更准确的刻画科技人才的科研能力。最后,本发明使用局部线性加权的方式计算科技人才针对特定技术需求的科研能力相关度评分,语义越靠近技术需求的专利文档对相关度评分贡献越多,从而可以很好的发现围绕某一技术需求有较强科研能力的科技人才。
附图说明
图1是本发明的流程图;
图2是高斯核函数中调节参数的取值对权重的影响。
具体实施方式
下面结合附图对本发明进一步说明。
图1描述了本发明的流程图,下面结合图1给出详细说明。
步骤1,专利数据预处理
对所有专利数据,通过数据处理和机器学习的方法,构建出科技词袋T和对应的词嵌入表示E。对每一个科技词ti∈T,都有且只有一个对应的语义向量ei∈E。然后使用此科技词袋,对每一篇专利文档进行中文分词,且只保留出现在科技词袋T中的词,得到专利文档集合D={d1,d2,...di,...,dn},其中di表示某一篇专利文档,该专利文档由一组科技词组成:
其中,代表文档di的第k个科技词,且是科技词袋T中的某个词。
同时还需要对数据进行结构化处理。提取专利发明人作为科技人才,并进行关联,消歧等处理,得到科技人才集合P。每一个科技人才pi的专利文档集合用Di表示:
其中,代表技术人才pi的第k篇专利文档,且是专利文档集合的一个子集。n是该科技人才的专利文档总数。
步骤2,专利文档语义向量化
对预处理后的专利文档di,遍历其中的每个科技词在词嵌入模型中找出对应的语义向量同时使用词频作为每个语义向量的权重,对查找到的语义向量进行加权平均,最终得到一个同样维度的实数向量,作为该专利文档的向量表示。具体公式如下:
其中vi代表专利文档di的语义向量化表示,是一个低维的实数向量,其维度取决于预训练的词嵌入模型,一般在100-200维之间。代表词在文档di中的词频。表示词在词嵌入模型中的实数向量表示,该向量拥有语义上相近的词,空间中也相近的良好性质。
步骤3,科技人才的科研能力语义表示
经过对专利文档的语义向量化,对于某个科技人才pi,其文档集合Di可语义表示为Vi:
其中代表科技人才pi发表的第k篇专利文档的语义向量,n是该科技人才发表的专利文档总数。
步骤4,针对技术需求的科技人才推荐
一个科技人才针对某一技术需求的科研能力的相关度评分,使用局部线性加权的方式进行计算。使用上述相同的语义向量化方法,将用户的技术需求表示成语义向量u。计算科技人才的每一篇专利文档与技术需求的带权相似度,最后进行求和,得到最终评分。因此相关度评分可以表示如下:
代表科技人才pi的第k篇专利文档向量对技术需求向量u的权重,此处使用高斯核函数来进行计算。如果文档向量和技术需求向量在空间中越相近,则对评分的贡献越大。反之则贡献越小。计算公式如下:
其中,σ为调节参数。σ的值越小,则对评分的贡献越集中在技术需求向量u的附近。当σ很小时,只有靠近用技术需求向量的很少的局部点会对评分有贡献,对于距离较远的点贡献几乎为0。参数σ与局部权重的关系如图2所示。根据经验,一般取σ=0.05。
代表科技人才pi的第k篇专利文档向量对技术需求向量u的相似程度。相似度的刻画有很多方式,此处使用余弦距离来表示两个向量之间的相似度。具体公式如下:
综上所述,科技人才pi针对技术需求u的相关度评分公式为:
如图1所示,计算完所有的评分以后,根据分数从高到低对科技人才进行部分排序,获取排名靠前的返回给用户,作为推荐结果。
Claims (1)
1.一种基于专利的科技人才推荐方法,其特征在于该方法包含如下步骤:
步骤1:专利数据预处理
对所有专利数据,通过数据处理和机器学习的方法,构建出科技词袋T和对应的词嵌入表示E;对每一个科技词ti∈T,都有且只有一个对应的语义向量ei∈E;然后使用此科技词袋,对每一篇专利文档进行中文分词,且只保留出现在科技词袋T中的词,得到专利文档集合D={d1,d2,...di,...,dn},其中di表示某一篇专利文档,该专利文档由一组科技词组成:
<mrow>
<msub>
<mi>d</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mo>{</mo>
<msubsup>
<mi>t</mi>
<mn>1</mn>
<mi>i</mi>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>t</mi>
<mn>2</mn>
<mi>i</mi>
</msubsup>
<mo>,</mo>
<mo>...</mo>
<msubsup>
<mi>t</mi>
<mi>k</mi>
<mi>i</mi>
</msubsup>
<mo>,</mo>
<mo>...</mo>
<mo>,</mo>
<msubsup>
<mi>t</mi>
<mi>m</mi>
<mi>i</mi>
</msubsup>
<mo>}</mo>
</mrow>
其中,代表文档di的第k个科技词,且是科技词袋T中的某个词;
同时对数据进行结构化处理;提取专利发明人作为科技人才,并进行关联,消歧处理,得到科技人才集合P;每一个科技人才pi的专利文档集合用Di表示:
<mrow>
<msub>
<mi>D</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mo>{</mo>
<msubsup>
<mi>d</mi>
<mn>1</mn>
<mi>i</mi>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>d</mi>
<mn>2</mn>
<mi>i</mi>
</msubsup>
<mo>,</mo>
<mo>...</mo>
<mo>,</mo>
<msubsup>
<mi>d</mi>
<mi>k</mi>
<mi>i</mi>
</msubsup>
<mo>,</mo>
<mo>...</mo>
<msubsup>
<mi>d</mi>
<mi>n</mi>
<mi>i</mi>
</msubsup>
<mo>}</mo>
</mrow>
其中,代表科技人才pi的第k篇专利文档,且是专利文档集合的一个子集;n是该科技人才的专利文档总数;
步骤2:专利文档语义向量化
对预处理后的专利文档di,遍历其中的每个科技词在词嵌入模型中找出对应的语义向量同时使用词频作为每个语义向量的权重,对查找到的语义向量进行加权平均,最终得到一个同样维度的实数向量,作为该专利文档的向量表示;具体公式如下:
<mrow>
<msub>
<mi>v</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>m</mi>
</mfrac>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<mi>t</mi>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>t</mi>
<mi>k</mi>
<mi>i</mi>
</msubsup>
<mo>,</mo>
<msub>
<mi>d</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>&CenterDot;</mo>
<msubsup>
<mi>e</mi>
<mi>k</mi>
<mi>i</mi>
</msubsup>
</mrow>
其中vi代表专利文档di的语义向量化表示,是一个低维的实数向量,其维度取决于预训练的词嵌入模型;代表词在文档di中的词频;
步骤3:科技人才的科研能力语义表示
经过对专利文档的语义向量化,对于某个科技人才pi,其文档集合Di可语义表示为Vi:
<mrow>
<msub>
<mi>V</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mo>{</mo>
<msubsup>
<mi>v</mi>
<mn>1</mn>
<mi>i</mi>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>v</mi>
<mn>2</mn>
<mi>i</mi>
</msubsup>
<mo>,</mo>
<mo>...</mo>
<mo>,</mo>
<msubsup>
<mi>v</mi>
<mi>k</mi>
<mi>i</mi>
</msubsup>
<mo>,</mo>
<mo>...</mo>
<mo>,</mo>
<msubsup>
<mi>v</mi>
<mi>n</mi>
<mi>i</mi>
</msubsup>
<mo>}</mo>
</mrow>
其中代表科技人才pi发表的第k篇专利文档的语义向量;
步骤4:针对技术需求的科技人才推荐
科技人才针对某一技术需求的科研能力的相关度评分,使用局部线性加权的方式进行计算;使用上述相同的语义向量化,将技术需求表示成语义向量u,计算科技人才的每一篇专利文档与技术需求的带权相似度,最后进行求和,得到最终相关度评分;相关度评分可以表示如下:
<mrow>
<mi>S</mi>
<mi>c</mi>
<mi>o</mi>
<mi>r</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>p</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<mi>w</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>v</mi>
<mi>k</mi>
<mi>i</mi>
</msubsup>
<mo>,</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
<mo>&CenterDot;</mo>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>v</mi>
<mi>k</mi>
<mi>i</mi>
</msubsup>
<mo>,</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
代表科技人才pi的第k篇专利文档向量对技术需求向量u的权重,此处使用高斯核函数来进行计算;如果文档向量和技术需求向量在空间中越相近,则对评分的贡献越大;反之则贡献越小;计算公式如下:
<mrow>
<mi>w</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>v</mi>
<mi>k</mi>
<mi>i</mi>
</msubsup>
<mo>,</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>exp</mi>
<mo>{</mo>
<mo>-</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msubsup>
<mi>v</mi>
<mi>k</mi>
<mi>i</mi>
</msubsup>
<mo>-</mo>
<mi>u</mi>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<mn>2</mn>
<msup>
<mi>&sigma;</mi>
<mn>2</mn>
</msup>
</mrow>
</mfrac>
<mo>}</mo>
</mrow>
其中,σ为调节参数;
代表科技人才pi的第k篇专利文档向量对技术需求向量u的相似程度;
科技人才pi针对技术需求u的相关度评分公式为:
<mrow>
<mi>S</mi>
<mi>c</mi>
<mi>o</mi>
<mi>r</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>p</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<mi>exp</mi>
<mo>{</mo>
<mo>-</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msubsup>
<mi>v</mi>
<mi>k</mi>
<mi>i</mi>
</msubsup>
<mo>-</mo>
<mi>u</mi>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<mn>2</mn>
<msup>
<mi>&sigma;</mi>
<mn>2</mn>
</msup>
</mrow>
</mfrac>
<mo>}</mo>
<mo>&CenterDot;</mo>
<mfrac>
<mrow>
<msubsup>
<mi>v</mi>
<mi>k</mi>
<mi>i</mi>
</msubsup>
<mo>&CenterDot;</mo>
<mi>u</mi>
</mrow>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msubsup>
<mi>v</mi>
<mi>k</mi>
<mi>i</mi>
</msubsup>
<mo>|</mo>
<mo>|</mo>
<mo>&CenterDot;</mo>
<mo>|</mo>
<mo>|</mo>
<mi>u</mi>
<mo>|</mo>
<mo>|</mo>
</mrow>
</mfrac>
</mrow>
根据相关度评分从高到低对科技人才进行排序,获取排名靠前的作为推荐结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710825493.6A CN107656920B (zh) | 2017-09-14 | 2017-09-14 | 一种基于专利的科技人才推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710825493.6A CN107656920B (zh) | 2017-09-14 | 2017-09-14 | 一种基于专利的科技人才推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107656920A true CN107656920A (zh) | 2018-02-02 |
CN107656920B CN107656920B (zh) | 2020-12-18 |
Family
ID=61130440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710825493.6A Expired - Fee Related CN107656920B (zh) | 2017-09-14 | 2017-09-14 | 一种基于专利的科技人才推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107656920B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609961A (zh) * | 2018-05-29 | 2019-12-24 | 南京大学 | 一种基于词嵌入的协同过滤推荐方法 |
CN110796398A (zh) * | 2020-01-03 | 2020-02-14 | 杭州皓智天诚信息科技有限公司 | 一种智能评测系统 |
CN113158074A (zh) * | 2021-03-26 | 2021-07-23 | 广东工业大学 | 一种基于多交互维度的简历岗位匹配方法、系统和设备 |
CN113537922A (zh) * | 2021-05-31 | 2021-10-22 | 东莞理工学院 | 一种基于大数据的科技项目人才推荐系统及方法 |
CN113608719A (zh) * | 2021-07-21 | 2021-11-05 | 江苏徐工工程机械研究院有限公司 | 一种软件开发需求质量的评价方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6438579B1 (en) * | 1999-07-16 | 2002-08-20 | Agent Arts, Inc. | Automated content and collaboration-based system and methods for determining and providing content recommendations |
CN103631859A (zh) * | 2013-10-24 | 2014-03-12 | 杭州电子科技大学 | 一种面向科技项目的评审专家智能推荐方法 |
CN103823896A (zh) * | 2014-03-13 | 2014-05-28 | 蚌埠医学院 | 一种学科特征值算法及基于其的项目评审专家推荐算法 |
-
2017
- 2017-09-14 CN CN201710825493.6A patent/CN107656920B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6438579B1 (en) * | 1999-07-16 | 2002-08-20 | Agent Arts, Inc. | Automated content and collaboration-based system and methods for determining and providing content recommendations |
CN103631859A (zh) * | 2013-10-24 | 2014-03-12 | 杭州电子科技大学 | 一种面向科技项目的评审专家智能推荐方法 |
CN103823896A (zh) * | 2014-03-13 | 2014-05-28 | 蚌埠医学院 | 一种学科特征值算法及基于其的项目评审专家推荐算法 |
Non-Patent Citations (2)
Title |
---|
吴远超: "基于语义的科技专家推荐系统研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
胡斌 等: "科技项目评审专家推荐系统模型", 《电子科技》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609961A (zh) * | 2018-05-29 | 2019-12-24 | 南京大学 | 一种基于词嵌入的协同过滤推荐方法 |
CN110796398A (zh) * | 2020-01-03 | 2020-02-14 | 杭州皓智天诚信息科技有限公司 | 一种智能评测系统 |
CN113158074A (zh) * | 2021-03-26 | 2021-07-23 | 广东工业大学 | 一种基于多交互维度的简历岗位匹配方法、系统和设备 |
CN113537922A (zh) * | 2021-05-31 | 2021-10-22 | 东莞理工学院 | 一种基于大数据的科技项目人才推荐系统及方法 |
CN113537922B (zh) * | 2021-05-31 | 2024-02-13 | 东莞理工学院 | 一种基于大数据的科技项目人才推荐系统及方法 |
CN113608719A (zh) * | 2021-07-21 | 2021-11-05 | 江苏徐工工程机械研究院有限公司 | 一种软件开发需求质量的评价方法及系统 |
CN113608719B (zh) * | 2021-07-21 | 2023-05-05 | 江苏徐工工程机械研究院有限公司 | 一种软件开发需求质量的评价方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107656920B (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107656920B (zh) | 一种基于专利的科技人才推荐方法 | |
KR102085217B1 (ko) | 특허문서의 유사도 판단 방법, 장치 및 시스템 | |
Uçkan et al. | Extractive multi-document text summarization based on graph independent sets | |
CN104573046B (zh) | 一种基于词向量的评论分析方法及系统 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN103207913B (zh) | 商品细粒度语义关系的获取方法和系统 | |
CN107305539A (zh) | 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法 | |
CN110728153A (zh) | 基于模型融合的多类别情感分类方法 | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN112084307B (zh) | 一种数据处理方法、装置、服务器及计算机可读存储介质 | |
Gao et al. | Text classification research based on improved Word2vec and CNN | |
Zhang et al. | Continuous word embeddings for detecting local text reuses at the semantic level | |
Odeh et al. | Arabic text categorization algorithm using vector evaluation method | |
CN108090178A (zh) | 一种文本数据分析方法、装置、服务器和存储介质 | |
Wu et al. | ECNU at SemEval-2017 task 3: Using traditional and deep learning methods to address community question answering task | |
CN110472240A (zh) | 基于tf-idf的文本特征提取方法和装置 | |
CN105843925A (zh) | 一种基于改进bow算法的相似图片搜索方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
Angelpreethi et al. | An enhanced architecture for feature based opinion mining from product reviews | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
Agustina et al. | The Implementation of TF-IDF and Word2Vec on Booster Vaccine Sentiment Analysis Using Support Vector Machine Algorithm | |
Sharaff et al. | Document Summarization by Agglomerative nested clustering approach | |
Gao et al. | Text categorization based on improved Rocchio algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201218 |