CN113221000A - 一种人才数据智能检索及推荐方法 - Google Patents
一种人才数据智能检索及推荐方法 Download PDFInfo
- Publication number
- CN113221000A CN113221000A CN202110535808.XA CN202110535808A CN113221000A CN 113221000 A CN113221000 A CN 113221000A CN 202110535808 A CN202110535808 A CN 202110535808A CN 113221000 A CN113221000 A CN 113221000A
- Authority
- CN
- China
- Prior art keywords
- information
- talent
- cij
- talent information
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了了一种人才数据智能检索及推荐方法,主要是根据用户检索条件,快速的展示匹配的内容,同时了解用户偏好,向用户推荐相似人才信息。本发明融合了时间特性和流行度的排序方法,不仅仅关注了相似性,同时还考虑了质量问题,使得推荐更加高效;在海量的人才数据中对帮助用户更加高效、高质量的找到所需的人才信息具有积极作用。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种人才数据智能检索及推荐方法。
背景技术
传统的推荐算法主要分为三大类:基于内容的推荐算法、协同过滤推荐算法以及混合推荐算法。
协同过滤推荐算法基于其他用户的兴趣爱好及历史记录向目标用户进行推荐。协同过滤推荐算法可分为两类:一类是基于用户的协同过滤算法,另一类是基于物品的协同过滤算法。协同过滤算法的不足之处在于:随着用户数越来越大,计算用户兴趣相似度矩阵将越来越困难,另外基于用户的协同过滤推荐算法很难对推荐结果做出解释。
基于内容的过滤推荐通过分析用户感兴趣的资源和资源库中其他资源的相似度,选择相似度较高的资源为目标用户进行推荐,一般是选用word2vec或TFIDF来获取对象的特征,然后基于相似度如余弦距离的求解来进行排序,但这种方法一般会出现一义多词和一词多义的现象往往导致关键字并不能准确表示文档特征的问题,词汇的相似并不足以表示文献的近似关系,无法捕捉到文献的语义特征。同时无论该篇文献自身质量的高低,在这种情况下,用户得到的推荐结果和用户兴趣相似,但质量并不能保证。
混合推荐算法是考虑到每种独立的推荐算法都存在自身的缺陷,在实际的推荐系统中可将各种推荐算法结合使用形成混合推荐算法,以提高推荐精度和覆盖率。
发明内容
基于背景技术存在的技术问题,本发明提出了一种人才数据智能检索及推荐方法,主要是根据用户检索条件,快速的展示匹配的内容,同时了解用户偏好,向用户推荐相似人才信息。在海量的人才数据中,对帮助用户更加高效、高质量的找到所需的人才信息具有积极作用。
本发明采用的技术方案是:
一种人才数据智能检索及推荐方法,其特征在于,包括以下步骤:
(1)采用网络爬虫获取人才库并进行结构化处理,基本信息以简历形式存储在数据库中;其中还包括其学术文献、专利等知识产权数据。
(2)设置关键词,从人才数据库中搜索相应的人才信息;如直接搜索人名、学术文献、专业、行业、产业等。
(3)根据关键词匹配人才库获取到目标人才信息集合X={x1,x2...xi...xn},其中xi为目标人才信息,i=1,2...n;这部分可直接通过数据库查询的方式得到结果,这部分考虑到展示顺序问题,以作者所拥有的文献量进行倒叙排序。
(4)基于以上的搜索结果,对目标人才信息集合X中的任一目标人才信息xi进行相关推荐,对目标人才信息xi进行预处理,获取其姓名、专业、方向、文献信息,其中文献信息xi_know={k1,k2...kj...km},主要包括标题、摘要、关键词三部分,其中kj为目标人才信息xi中的第j篇文献,j=1,2...m;
(5)基于协同过滤的思想,利用目标人才信息的专业、方向、行业信息,从数据库中获取候选人才信息;
(6)对目标人才信息的文献信息xi_know={k1,k2...kj...km}与候选人才信息的文献信息y_know={y1,y2...yt}进行特征表示,这部分考虑到传统的基于word2vec或者TFIDF的方法无法捕捉到文献的语义特征,选择bert预训练,直接进行向量表示,得到结果为xi_emb={ke1,ke2...kem},y_emb={ye1,ye2...yet};
(7)将目标人才信息的文献特征xi_emb={ke1,ke2...kem}与候选人才信息的文献特征y_emb={ye1,ye2...yeh}输入到聚类模型中,选择k-means方法,其中k值选择为m,以目标人才信息xi_know={k1,k2...km}为聚类中心进行聚类,最终获得m个类别簇cluster={C1,C2...Cm},其中Ci={ci1,ci2..cih};
(8)排序,考虑到传统的都是基于相似度来进行排序,只是考虑到相似性,没有考虑到其他因素,如随着时间的增长,研究者的研究方向会随着时间的推移而变化,研究者的兴趣也随着时间而发生变化,又或者,增加流行度,以流行度来定义热度概念,故本方法提出了融合时间性和流行度的排序算法。相似度S(xi,cij)=cos(xi,cij)*wt(xi)*wf(cij),其中xi为目标人才信息,cij为以xi为聚类中心的第j个人才信息,wt(xi)为xi的时间权重,wf(cij)为cij的流行度,其中其中t为文献发表时间,tc为当前时间,tt为时间间隔,若tt=2,a=0.8,则将作者近两年赋予较高权重;wf(cij)为流行度求解,是基于数据库来进行的求解,对近n年内文献进行DBSCAN聚类,获取聚类结果,则其中|C(cij)|为cij所在簇的数量,|all|为近n年内文献总量;
(9)最终将排序结果较前的人才信息进行推荐展示。
本发明的优点是:
本发明融合协同过滤思想的基于内容的推荐算法,综合两者优点,效果更好;
本发明方法选用bert预训练模型来代替word2vec、tfidf等特征表示,解决了一义多词和一词多义的现象导致关键字并不能准确表示文档特征以及词汇的相似并不足以表示文献的近似关系的问题,增强了语义特性;
本发明融合了时间特性和流行度的排序方法,不仅仅关注了相似性,同时还考虑了质量问题,使得推荐更加高效。
附图说明
图1为本发明一种人才数据智能检索及推荐方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1。
如图1所示,一种人才数据智能检索及推荐方法,包括以下步骤:
(1)采用网络爬虫获取人才库并进行结构化处理,基本信息以简历形式存储在数据库中;其中还包括其学术文献、专利等知识产权数据。
(2)设置关键词,从人才数据库中搜索相应的人才信息;如直接搜索人名、学术文献、专业、行业、产业等。
(3)根据关键词匹配人才库获取到目标人才信息集合X={x1,x2...xi...xn},其中xi为目标人才信息,i=1,2...n;这部分可直接通过数据库查询的方式得到结果,这部分考虑到展示顺序问题,以作者所拥有的文献量进行倒叙排序。
(4)基于以上的搜索结果,对目标人才信息集合X中的任一目标人才信息xi进行相关推荐,对目标人才信息xi进行预处理,获取其姓名、专业、方向、文献信息,其中文献信息xi_know={k1,k2...kj...km},主要包括标题、摘要、关键词三部分,其中kj为目标人才信息xi中的第j篇文献,j=1,2...m;
(5)基于协同过滤的思想,利用目标人才信息的专业、方向、行业信息,从数据库中获取候选人才信息;
(6)对目标人才信息的文献信息xi_know={k1,k2...kj...km}与候选人才信息的文献信息y_know={y1,y2...yt}进行特征表示,这部分考虑到传统的基于word2vec或者TFIDF的方法无法捕捉到文献的语义特征,选择bert预训练,直接进行向量表示,得到结果为xi_emb={ke1,ke2...kem},y_emb={ye1,ye2...yet};
(7)将目标人才信息的文献特征xi_emb={ke1,ke2...kem}与候选人才信息的文献特征y_emb={ye1,ye2...yeh}输入到聚类模型中,选择k-means方法,其中k值选择为m,以目标人才信息xi_know={k1,k2...km}为聚类中心进行聚类,最终获得m个类别簇cluster={C1,C2...Cm},其中Ci={ci1,ci2..cih};
(8)排序,考虑到传统的都是基于相似度来进行排序,只是考虑到相似性,没有考虑到其他因素,如随着时间的增长,研究者的研究方向会随着时间的推移而变化,研究者的兴趣也随着时间而发生变化,又或者,增加流行度,以流行度来定义热度概念,故本方法提出了融合时间性和流行度的排序算法。相似度S(xi,cij)=cos(xi,cij)*wt(xi)*wf(cij),其中xi为目标人才信息,cij为以xi为聚类中心的第j个人才信息,wt(xi)为xi的时间权重,wf(cij)为cij的流行度,其中其中t为文献发表时间,tc为当前时间,tt为时间间隔,若tt=2,a=0.8,则将作者近两年赋予较高权重;wf(cij)为流行度求解,是基于数据库来进行的求解,对近n年内文献进行DBSCAN聚类,获取聚类结果,则其中|C(cij)|为cij所在簇的数量,|all|为近n年内文献总量;
(9)最终将排序结果较前的人才信息进行推荐展示。
本发明的核心原理是:本发明融合了时间特性和流行度的排序方法,融合协同过滤思想的基于内容的推荐算法,使得推荐更加高效。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (2)
1.一种人才数据智能检索及推荐方法,其特征在于,包括以下步骤:
(1)采用网络爬虫获取人才库并进行结构化处理,基本信息以简历形式存储在数据库中;
(2)设置关键词,从人才数据库中搜索相应的人才信息;
(3)根据关键词匹配人才库获取到目标人才信息集合X={x1,x2...xi...xn},其中xi为目标人才信息,i=1,2...n;
(4)基于以上的搜索结果,对目标人才信息集合X中的任一目标人才信息xi进行相关推荐,对目标人才信息xi进行预处理,获取其姓名、专业、方向、文献信息,其中文献信息xi_know={k1,k2...kj...km},主要包括标题、摘要、关键词三部分,其中kj为目标人才信息xi中的第j篇文献,j=1,2...m;
(5)基于协同过滤的思想,利用目标人才信息的专业、方向、行业信息,从数据库中获取候选人才信息;
(6)对目标人才信息的文献信息xi_know={k1,k2...kj...km}与候选人才信息的文献信息y_know={y1,y2...yt}进行特征表示,选择bert预训练,直接进行向量表示,得到结果为xi_emb={ke1,ke2...kem},y_emb={ye1,ye2...yet};
(7)将目标人才信息的文献特征xi_emb={ke1,ke2...kem}与候选人才信息的文献特征y_emb={ye1,ye2...yeh}输入到聚类模型中,选择k-means方法,其中k值选择为m,以目标人才信息xi_know={k1,k2...km}为聚类中心进行聚类,最终获得m个类别簇cluster={C1,C2...Cm},其中Ci={ci1,ci2..cih};
(8)排序,相似度S(xi,cij)=cos(xi,cij)*wt(xi)*wf(cij),其中xi为目标人才信息,cij为以xi为聚类中心的第j个人才信息,wt(xi)为xi的时间权重,wf(cij)为cij的流行度,其中其中t为文献发表时间,tc为当前时间,tt为时间间隔,若tt=2,a=0.8,则将作者近两年赋予较高权重;wf(cij)为流行度求解,是基于数据库来进行的求解,对近n年内文献进行DBSCAN聚类,获取聚类结果,则其中|C(cij)|为cij所在簇的数量,|all|为近n年内文献总量;
(9)最终将排序结果较前的人才信息进行推荐展示。
2.根据权利要求1所述的一种人才数据智能检索及推荐方法,其特征在于,步骤(2)中所述的人才信息包括人名、学术文献、专业、行业、产业。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110535808.XA CN113221000B (zh) | 2021-05-17 | 2021-05-17 | 一种人才数据智能检索及推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110535808.XA CN113221000B (zh) | 2021-05-17 | 2021-05-17 | 一种人才数据智能检索及推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221000A true CN113221000A (zh) | 2021-08-06 |
CN113221000B CN113221000B (zh) | 2023-02-28 |
Family
ID=77092416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110535808.XA Active CN113221000B (zh) | 2021-05-17 | 2021-05-17 | 一种人才数据智能检索及推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221000B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806518A (zh) * | 2021-09-23 | 2021-12-17 | 湖北天天数链技术有限公司 | 匹配方法及装置、简历推荐方法及装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064982A (zh) * | 2013-01-22 | 2013-04-24 | 桂林电子科技大学 | 一种专利检索时智能推荐专利的方法 |
CN103455613A (zh) * | 2013-09-06 | 2013-12-18 | 南京大学 | 基于MapReduce模型的兴趣感知服务推荐方法 |
CN104182543A (zh) * | 2014-09-05 | 2014-12-03 | 上海理工大学 | 基于相似性传播与流行度降维的混合推荐方法 |
CN105786781A (zh) * | 2016-03-14 | 2016-07-20 | 裴克铭管理咨询(上海)有限公司 | 一种基于主题模型的职位描述文本相似度计算方法 |
CN105893641A (zh) * | 2016-07-01 | 2016-08-24 | 中国传媒大学 | 一种职位推荐方法 |
CN107341261A (zh) * | 2017-07-13 | 2017-11-10 | 南京邮电大学 | 一种面向位置社交网络的兴趣点推荐方法 |
CN107657347A (zh) * | 2017-09-30 | 2018-02-02 | 桂林电子科技大学 | 一种面向群组的旅游推荐方法 |
CN108921670A (zh) * | 2018-07-04 | 2018-11-30 | 重庆大学 | 一种融合用户潜在兴趣、时空数据和类别流行度的药品交易推荐方法 |
CN109460969A (zh) * | 2018-10-26 | 2019-03-12 | 北京唐冠天朗科技开发有限公司 | 一种基于大数据的人才推荐方法 |
US20190108275A1 (en) * | 2017-10-06 | 2019-04-11 | Elsevier, Inc. | Systems and methods for providing recommendations for academic and research entities |
CN110287410A (zh) * | 2019-06-05 | 2019-09-27 | 达疆网络科技(上海)有限公司 | 一种o2o电商场景下用户的多种推荐算法的融合方法 |
CN111241361A (zh) * | 2020-01-09 | 2020-06-05 | 福州数据技术研究院有限公司 | 基于云平台的企业与高校的智能引荐系统及方法 |
CN111737495A (zh) * | 2020-06-28 | 2020-10-02 | 福州数据技术研究院有限公司 | 基于领域自分类的中高端人才智能推荐系统及其方法 |
-
2021
- 2021-05-17 CN CN202110535808.XA patent/CN113221000B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064982A (zh) * | 2013-01-22 | 2013-04-24 | 桂林电子科技大学 | 一种专利检索时智能推荐专利的方法 |
CN103455613A (zh) * | 2013-09-06 | 2013-12-18 | 南京大学 | 基于MapReduce模型的兴趣感知服务推荐方法 |
CN104182543A (zh) * | 2014-09-05 | 2014-12-03 | 上海理工大学 | 基于相似性传播与流行度降维的混合推荐方法 |
CN105786781A (zh) * | 2016-03-14 | 2016-07-20 | 裴克铭管理咨询(上海)有限公司 | 一种基于主题模型的职位描述文本相似度计算方法 |
CN105893641A (zh) * | 2016-07-01 | 2016-08-24 | 中国传媒大学 | 一种职位推荐方法 |
CN107341261A (zh) * | 2017-07-13 | 2017-11-10 | 南京邮电大学 | 一种面向位置社交网络的兴趣点推荐方法 |
CN107657347A (zh) * | 2017-09-30 | 2018-02-02 | 桂林电子科技大学 | 一种面向群组的旅游推荐方法 |
US20190108275A1 (en) * | 2017-10-06 | 2019-04-11 | Elsevier, Inc. | Systems and methods for providing recommendations for academic and research entities |
CN108921670A (zh) * | 2018-07-04 | 2018-11-30 | 重庆大学 | 一种融合用户潜在兴趣、时空数据和类别流行度的药品交易推荐方法 |
CN109460969A (zh) * | 2018-10-26 | 2019-03-12 | 北京唐冠天朗科技开发有限公司 | 一种基于大数据的人才推荐方法 |
CN110287410A (zh) * | 2019-06-05 | 2019-09-27 | 达疆网络科技(上海)有限公司 | 一种o2o电商场景下用户的多种推荐算法的融合方法 |
CN111241361A (zh) * | 2020-01-09 | 2020-06-05 | 福州数据技术研究院有限公司 | 基于云平台的企业与高校的智能引荐系统及方法 |
CN111737495A (zh) * | 2020-06-28 | 2020-10-02 | 福州数据技术研究院有限公司 | 基于领域自分类的中高端人才智能推荐系统及其方法 |
Non-Patent Citations (1)
Title |
---|
田保军等: "云计算环境下混合协同过滤优化技术研究", 《计算机应用研究》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806518A (zh) * | 2021-09-23 | 2021-12-17 | 湖北天天数链技术有限公司 | 匹配方法及装置、简历推荐方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113221000B (zh) | 2023-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737495B (zh) | 基于领域自分类的中高端人才智能推荐系统及其方法 | |
KR102075833B1 (ko) | 미술 작품 추천 큐레이션 방법 및 시스템 | |
CN111191122A (zh) | 一种基于用户画像的学习资源推荐系统 | |
Xie et al. | Community-aware user profile enrichment in folksonomy | |
KR101166130B1 (ko) | 컨텐츠 태그를 이용하여 사용자 프로파일을 구성하는 방법및 장치, 그리고 생성된 사용자 프로파일을 이용하여컨텐츠를 추천하는 방법 | |
Zhang et al. | Personalized social image recommendation method based on user-image-tag model | |
CN112632397A (zh) | 基于多类型学术成果画像及混合推荐策略的个性化推荐方法 | |
Sang et al. | Learn to personalized image search from the photo sharing websites | |
Silva et al. | Tag recommendation for georeferenced photos | |
Wu et al. | An incremental community detection method for social tagging systems using locality-sensitive hashing | |
Roopak et al. | OntoKnowNHS: ontology driven knowledge centric novel hybridised semantic scheme for image recommendation using knowledge graph | |
Zahálka et al. | Interactive multimodal learning for venue recommendation | |
Nazemi et al. | Visual analytics for technology and innovation management: An interaction approach for strategic decision making | |
Ionescu et al. | Benchmarking image retrieval diversification techniques for social media | |
CN113221000B (zh) | 一种人才数据智能检索及推荐方法 | |
Zhang et al. | Through the eyes of a poet: Classical poetry recommendation with visual input on social media | |
Chen et al. | Exploiting aesthetic features in visual contents for movie recommendation | |
Redi et al. | A multimedia retrieval framework based on automatic graded relevance judgments | |
Zhu | A book recommendation algorithm based on collaborative filtering | |
Chakraborty et al. | A COMPREHENSIVE REVIEW ON IMAGE BASED STYLE PREDICTION AND ONLINE FASHION RECOMMENDATION. | |
CN109885748A (zh) | 基于语意特征的优化推荐方法 | |
Liang et al. | Enhancing scenic recommendation and tour route personalization in tourism using UGC text mining | |
Dridi et al. | Leveraging social information for personalized search | |
Singh et al. | Comprehensive analysis of multimodal recommender systems | |
Gadepalli et al. | Tag and resource-aware collaborative filtering algorithms for resource recommendation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |