CN110111083A - 一种基于深度学习构建职业规划的系统 - Google Patents

一种基于深度学习构建职业规划的系统 Download PDF

Info

Publication number
CN110111083A
CN110111083A CN201910401147.4A CN201910401147A CN110111083A CN 110111083 A CN110111083 A CN 110111083A CN 201910401147 A CN201910401147 A CN 201910401147A CN 110111083 A CN110111083 A CN 110111083A
Authority
CN
China
Prior art keywords
module
deep learning
information
crawler
job
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910401147.4A
Other languages
English (en)
Inventor
钟实
潘志锋
陈少燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianhai Huan Que Technology Co Ltd
Original Assignee
Shenzhen Qianhai Huan Que Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Huan Que Technology Co Ltd filed Critical Shenzhen Qianhai Huan Que Technology Co Ltd
Priority to CN201910401147.4A priority Critical patent/CN110111083A/zh
Publication of CN110111083A publication Critical patent/CN110111083A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1057Benefits or employee welfare, e.g. insurance, holiday or retirement packages

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度学习构建职业规划的系统,其包括综合爬虫模块、职位信息提取模块、简历信息提取模块、NLP自然语言处理模块和职业预测模块;所述综合爬虫模块从互联网上爬取职位信息及简历信息;所述职位信息提取模块从所述综合爬虫模块中提取职位信息;所述简历信息提取模块从所述综合爬虫模块提取简历信息;所述NLP自然语言处理模块分别从所述职位信息提取模块和所述简历信息提取模块提取职位信息和简历信息进行学习;所述职业预测模块根据所述NLP自然语言处理模块学习的结果预测职业发展的趋势。本发明解决了如何利用机器深度学习方法,构建真正有效的职业规划路径系统的问题。

Description

一种基于深度学习构建职业规划的系统
技术领域
本发明涉及的是职业规划技术领域,具体而言,尤其涉及一种基于深度学习构建职业规划的系统。
背景技术
随着网络技术、通信技术及电子技术的飞速发展,人们向往的智慧城市正在一步步实现,智慧城市的核心是用一种更智慧的方法利用物联网、大数据等为核心的新一代信息技术来改变社会,在先前致力于解决就业问题的技术中,有些提供了职业性向测评系统,测查个人的性格、兴趣、能力等方面的特点,将结果用于指导求职者的职业规划。但是这些系统只能提供测评分析和解释,当面对求职者有强烈的职业规划的需求时,测评系统是无能为力的。现有技术中虽然也存在一些职业规划系统,但是无法完全满足求职者的需求。
现有技术中的同类职业规划系统,主要有如下几种方式:(1)专利CN108280632A一种基于大数据的职业规划系统,其通过自动搜集职业信息数据,根据用户在客户端输入的关键字智能生成职业规划推荐书,帮助用户规划职业道路,其特征在于包括职业信息平台、VPN代理服务器、自动化数据搜集模块、数据中心、深度学习组件、职业规划生成单元,客户端、无线通信单元及移动终端,自动化数据搜集单元通过VPN代理服务器访问职业信息平台数据,自动化数据搜集单元、数据中心、深度学习单元、职业规划生成单元及客户端依次连接;(2)专利CN109002906A一种职业规划路径架构系统及处理方法,其包括职位库模块、职业规划路径模块、职业推荐模块;所述职位库模块用于提供标准化的职位供求职者选择,包括由职位数据构建的职位库;所述职业规划路径模块包括由职业规划路径数据构建的职业规划路径库;所述职业推荐模块用于根据求职者输入的履历数据或求职者在职位库模块中选择的职位,推荐职业规划路径和新职位;(3)专利CN104834668B基于知识库的职位推荐系统,其包括人力资源专有知识库构建模块,人才信息爬取模块,信息抽取、融合、比较模块和职位推荐模块;人力资源专有知识库构建模块用于构建与人力资源相关的转有知识库;人才信息爬取模块用于爬取整合与应聘者相关的个人信息;信息抽取、融合、比较模块用于对抓取得到的数据进行分析、处理,对人才需求与职位进行映射和比较,进而对用户需求进行建模分析。职位推荐模块用于对待推荐用户进行职位查询,按照相关度、兴趣、朋友圈信息进行推荐。
以上三种技术都存在一定的缺陷,无法达成输出有效职业发规划的目标,主要是:专利CN108280632A采集的目标数据主要是职业信息数据,职位信息数据都是单点孤立信息,从一个职位向另外一个职位跃迁及发展的关联性无法从职业信息数据中得到的,因此,通过这种方式采集数据生成的职业规划推荐书,应该只能指导目前就业或目前需要补充的技能及能力,并不能真正达到职业规划的目的;专利CN109002906A提及了利用公共来源数据来生成职位路径信息,本方法存在两个较明显的问题,一、涉及到大量的人工处理操作职位信息,对人的工作量要求大;二、职位规划路径信息采集来源是百度百科和维基百科以及一些线下渠道,这些来源的数据存在时间滞后性、片面性和僵化思维性的问题;专利CN104834668B主要利用用户及职位的信息生成职位推荐的信息,重点在于单个时点对用户和职位的匹配分析,不考虑用户的职业成长问题,因此没有分析生成用户的职业发展路径;同时也没有根据用户的职业发展目标归纳出应具备的相关学历、技能,能力等信息。因此,急需发明一种能够利用机器深度学习方法,构建真正有效的职业规划路径的系统。
发明内容
本发明的目的在于提供一种基于深度学习构建职业规划的系统,以便于解决如何利用机器深度学习方法,构建真正有效的职业规划路径系统的问题。
本发明一种基于深度学习构建职业规划的系统可以通过下列技术方案来实现:
本发明一种基于深度学习构建职业规划的系统包括综合爬虫模块、职位信息提取模块、简历信息提取模块、NLP自然语言处理模块和职业预测模块;所述综合爬虫模块从互联网上爬取职位信息及简历信息;所述职位信息提取模块从所述综合爬虫模块中提取职位信息;所述简历信息提取模块从所述综合爬虫模块提取简历信息;所述NLP自然语言处理模块分别从所述职位信息提取模块和所述简历信息提取模块提取职位信息、简历信息进行学习;所述职业预测模块根据所述NLP自然语言处理模块学习的结果预测职业发展的趋势。
优选地,本发明一种基于深度学习构建职业规划的系统进一步包括简历库管理模块,其管理存储从所述综合爬虫模块或/和简历库中获取的简历信息。
优选地,本发明一种基于深度学习构建职业规划的系统进一步包括薪酬预测模块;其根据所述NLP自然语言处理模块学习的结果预测薪酬发展的趋势。
优选地,所述综合爬虫模块包括代理IP池、爬虫服务器集群、REDIS数据库、数据回写调度器、爬取任务调度器和数据层;所述爬虫服务器集群通过所述代理IP池从互联网上爬取职位和简历信息;所述REDIS数据库分别与所述代理IP池、所述爬虫服务器集群连接;所述数据回写调度器和所述爬取任务调度器都设置在所述爬虫服务器集群、所述数据层之间。
优选地,所述REDIS数据库是基于内存REDIS key-value型数据库。
优选地,所述职位信息提取模块和所述简历信息提取模块分别通过使用XPATH及REGEX对所述综合爬虫模块从不同求职网站来源的职位信息、简历信息进行信息整理及抽取的操作。
优选地,所述NLP自然语言处理模块包括职位分类语料库、职位分类模块、职业技能语料库和职业技能命名实体提取模块;所述职位分类语料库通过人工及半自动的方式进行语料库的标注,所述职位分类语料库中数据会被分割成训练、验证和测试数据,所述职位分类模块对所述职位分类语料库的标注职位信息进行训练;所述职业技能语料库标注职位描述中的职位技能关键字,所述职业技能命名实体提取模块通过训练、验证和测试所述职业技能的语料库进行深度学习。
优选地,所述职位分类模块为基于BI-LSTM深度学习的模型;所述职业技能命名实体提取模块是基于BI-LSTM-CRF深度学习的模型。
优选地,所述职业预测模块包括职业发展路径生成模块、职业发展路径预测模块和职业技能需求倒推模块。
优选地,所述职业技能需求倒推模块通过采用TF-IDF算法挖掘职位信息。
本发明一种基于深度学习构建职业规划的系统具有以下技术效果:
本发明一种基于深度学习构建职业规划的系统通过引入深度学习技术分析简历及职位需求信息,构建用户职业路径模型,主要有如下优点:
1.通过互联网采集的信息数据是最具时效性,得出的分析结果更加符合时代职业发展的趋势;
2.通过深度学习技术应用于海量数据,最大程度的涵盖了个人职业成长路径的各个分支及可能性,避免人工介入造成主观局限;
3.通过比对个人简历的成长经历及职位技能需求,我们可以从职业成长的发展过程推演出职业路径,而不是单一时点的职位需求和个人能力匹配,更加符合职业规划路径所需要的过程分析;
4.除了分析职业发展规划,我们也给出了对应职业发展进程中,个人劳动报酬可能的发展趋势,将个人报酬和职业发展结合,才是一个最全面职业发展规划,让用户全面的看到个人职业发展所能得到的成果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明所提供的一种基于深度学习构建职业规划的系统的结构连接示意图,包括综合爬虫模块、NLP自然语言处理模块、职业发展路径生成模块;
图2是图1所示的综合爬虫模块的结构连接示意图;
图3是图1所示的NLP自然语言处理模块结构示意图;
图4是图1所示的职业发展路径生成模块工作的流程图。
10,互联网;11,综合爬虫模块;111,代理IP池;112,爬虫服务器集群;113,REDIS数据库;114,数据回写调度器;115,爬取任务调度器;116,数据层;12,职位信息提取模块;13,简历库管理模块;14,简历信息提取模块;15,NLP自然语言处理模块;16,职业预测模块;161,职业发展路径生成模块;162,职业发展路径预测模块;163,职业技能需求倒推模块,17,薪酬预测模块;20,简历库。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和展示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,在本发明中,除非另有明确的规定和限定,第一特征在第二特征之上或之下可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征之上、上方和上面包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征之下、下方和下面包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
此外,术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
请参阅图1,本发明一种基于深度学习构建职业规划的系统包括综合爬虫模块11、职位信息提取模块12、简历库管理模块13、简历信息提取模块14、NLP自然语言处理模块15、职业预测模块16和薪酬预测模块17;所述综合爬虫模块11从互联网10上爬取职位及简历信息;所述职位信息提取模块12从所述综合爬虫模块11中提取职位信息;所述简历库管理模块13管理存储从所述综合爬虫模块11或/和简历库20中获取的简历信息;所述简历信息提取模块14从所述简历库管理模块13和/或所述综合爬虫模块11提取简历信息;所述NLP自然语言处理模块15分别从所述职位信息提取模块12和所述简历信息提取模块14提取职位信息和简历信息进行学习;所述职业预测模块16根据所述NLP自然语言处理模块15学习的结果预测职业发展的趋势;所述薪酬预测模块17根据所述NLP自然语言处理模块15学习的结果预测薪酬发展的趋势。
请参阅图2,所述综合爬虫模块11是全面基于SCRAPY的爬虫框架,实现对求职网站及职场社交网站中职位数据、简历数据的爬取,通过部署多台SCRAPYD爬虫服务器协同工作,实现全网爬虫的运行和管理。
所述综合爬虫模块11包括代理IP池111、爬虫服务器集群112、REDIS数据库113、数据回写调度器114、爬取任务调度器115和数据层116;所述爬虫服务器集群112通过所述代理IP池111从互联网上爬取职位和简历信息,所述代理IP池111通过不停更换代理IP访问目标网站,避免因频繁抓取目标网站数据而被目标网站防御性封闭IP,导致抓取数据失败,从而保证成功爬取信息;所述REDIS数据库13是基于内存REDIS key-value型数据库,其分别与所述代理IP池111、所述爬虫服务器集群112连接,其能保证高效的数据刷新,也保证SCRAPYD爬虫框架提取代理IP的读取速度;所述数据回写调度器114和所述爬取任务调度器115都设置在所述爬虫服务器集群112、所述数据层116之间,所述数据回写调度器114将大量并行的数据库写入请求转换成高速的串行写入,保证数据的安全;所述爬取任务调度器115最大程度保证任务均衡分布,高效利用每台爬虫服务器。
所述综合爬虫模块11提供基于JSON的WEB控制API,保证爬取的职位信息、简历信息读取以及所述爬虫服务器集群112的控制及调度。
所述职位信息提取模块12通过使用XPATH及REGEX(正则表达式)对所述综合爬虫模块11从不同求职网站来源的非结构化的职位信息进行信息整理及抽取的操作,来自各个求职网站的职位信息都是以HTML格式存储,通过XPATH路径表达式可以很方便的选取HTML文档中的节点或者节点集,提取速度快,方便将信息内容进行结构化的整理;然后通过采用REGEX(正则表达式)对内容信息字符串进行逻辑操作,组成一个“规则字符串”,实现非常规内容信息的提取:例如日期,职位职级等信息。所述职位信息提取模块12针对不同来源的工作信息提供适配的信息提取规则,提取的结构化数据以JSON的格式存储在非关系类型的全文数据库内,在本实施例中,全文数据库采用ElasticSearch。
所述简历库管理模块13管理存储从所述综合爬虫模块11或/和简历库20中获取的简历信息,所述简历信息包括从企业人力资源管理系统导入的个人档案信息,企业拥有的员工简历及求职者简历等。
所述简历信息提取模块14通过XPATH及REGEX(正则表达式)对所述简历库管理模块13进行简历信息的提取,通过深度学习来分析大量简历数据内容来提取职位间转换信息数据,模块自动剔除个人隐私数据,提取的是脱敏后的数据,保障了个人信息的安全。
请参阅图3,所述NLP自然语言处理模块15包括职位分类语料库、职位分类模块、职业技能语料库和职业技能命名实体提取(NER)模块;所述职位分类语料库为人工及半自动的标注方式,所述职位分类模块为基于BI-LSTM深度学习的职位分类模型;所述职位分类语料库主要来自所述综合爬虫模块1111爬取的各大求职网站的职位信息,通过人工及半自动的方式进行语料库的标注,所述职位分类语料库中数据会被分割成训练、验证和测试数据,通过所述职位分类模块中BI-LSTM神经网络,针对职位信息分类的问题进行深度学习。为了使网络适应一个问题,网络中的权重不停通过反向传播来优化,首先进行正向传播,通过网络传递值并生成结果,然后进行反向传播,使用给定输入增量的正确输出,计算每个权重的误差,并计算每个权重的数值梯度。最后优化器使用梯度对每个权重进行小的更改,从而得到更好的模型,通过此训练好的所述职位分类模块,输入简历中的职位描述信息可以推倒出一个规范的职业类别。
所述职业技能语料库使用人工或半自动的标注方式,所述职业技能命名实体提取(NER)模块是基于BI-LSTM-CRF深度学习的模型;所述职业技能语料库标注职位描述中的职位技能关键字,所述职业技能命名实体提取(NER)模块就像一个“深度学习算法工程师”的一样,其具有常用的关键技能:图形应用算法,计算机视觉,图像处理,机器学习,模式识别,Caffe,Tensorflow,MXNet,PyTorch;通过训练,验证和测试所述职业技的语料库,结合BI-LSTM-CRF进行深度学习。
所述NLP自然语言处理模块15通过在上述两个功能外层再封装一个基于JSON的调用API,提供职位信息分类及技能实体抽取的功能。
请参阅图1,所述职业预测模块16包括职业发展路径生成模块161、职业发展路径预测模块162和职业技能需求倒推模块163。
请参阅图4,所述职业发展路径生成模块161结合所述职位分类模块提取简历信息中的工作经历、职位名称及职位描述等信息进行标准化分类;再利用简历大数据,统计各个职位类别转换数,填入到职位转换的矩阵中,形成职位转换二位统计矩阵;最后根据各个职位转换数据可以生成职位间转换的概率,得出统计概率,再将正态分布应用到统计概率中,筛选出最大可能性的那些转换职位方向,从而生成各个职位对应的职位路径发展树。
所述职业发展路径预测模块162是利用了LSTM深度学习模型构建职业推荐模型,用户把自己相关信息包括但不限于个人信息,教育背景,职业背景,内外部环境等信息输入模型后,可以输出一个最优的职业规划方案。基于LSTM的深度学习模型通过求职者的职业历史相关数据来构造学习模型,这些数据可能包括但不限于公司属性、地区属性、人员属性等;公司属性包括但不限于:公司简介,公司业务,行业领域等;地区属性包括但不限于:地区,商圈,及其他特定地理信息相关联属性等;人员属性包括但不限于:年龄,性别,政治背景,教育背景等。深度学习模型将这些信息作为输入信息,通过训练,验证,测试这些数据,最后生成一个职业推荐分析矩阵模型。用户通过把个人信息,教育背景,职业背景信息输入矩阵模型,矩阵就会自动计算生成一份个人职业规划路径方案。
所述职业技能需求倒推模块163通过采用TF-IDF算法挖掘职位描述信息的最重要的关键技能及教育等实体信息,从而得到某个职位需要具备的相关技能,教育培训及工作经历等。TF-IDF算法是建立在这样一个假设之上的:如果某个短语在一篇文本中出现的频率高,并且在其他文本中很少出现,则认为此短语具有很好的类别区分能力,适合用来分类。模块将职位描述按照职位类别进行分类,同时将技能,教育等实体提取出来,然后应用TF-IDF算法,例如:分析某类职位的技能的算法描述:
技能/教育的实体w在某类职位描述文本d中的词频tf(Term Frequency),即w在某类职位描述文本d中出现次数count(w,d)和某类·职位描述文本d中总词数size(d)的比值:
tf(w,d)=count(w,d)/size(d)
技能/教育实体w在全部类别职位描述文本集合中的逆向文档频率idf(InverseDocument Frequency),即全部类别的职位描述文本总数n与词w所出现文件数docs(w,D)比值的对数:
idf=log(n/docs(w,D))
将tf与idf的值进行相乘,可以获得各个技能/教育实体在某类职位中权重。将tf-idf值排序后,可以得到各类职位的需求的最优先的技能/教育的实体信息。
所述薪酬预测模块17通过采集各大求职网站获得,通过采用基于线下回归或者逻辑回归的深度学习模型来进行曲线拟合,根据部分历史工资数据进行建模;选取另一部分工资数据对所建的模型进行测试,查看测试点与曲线的偏离程度,获得工资预测模型。获得模型后,用户可以根据对应的变量因子,如地区,行业,职位,公司类型,规模等来查询工资的历史数据及预测将来的变化趋势。
本发明一种基于深度学习构建职业规划的系统具有的有益效果为:
与现有技术相比,本发明一种基于深度学习构建职业规划的系统通过引入深度学习技术分析简历及职位需求信息,构建用户职业路径模型,主要有如下优点:
1.通过互联网采集的信息数据是最具时效性,得出的分析结果更加符合时代职业发展的趋势;
2.通过深度学习技术应用于海量数据,最大程度的涵盖了个人职业成长路径的各个分支及可能性,避免人工介入造成主观局限;
3.通过比对个人简历的成长经历及职位技能需求,我们可以从职业成长的发展过程推演出职业路径,而不是单一时点的职位需求和个人能力匹配,更加符合职业规划路径所需要的过程分析;
4.除了分析职业发展规划,我们也给出了对应职业发展进程中,个人劳动报酬可能的发展趋势,将个人报酬和职业发展结合,才是一个最全面职业发展规划,让用户全面的看到个人职业发展所能得到的成果。
本发明以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度学习构建职业规划的系统,其特征在于,其包括综合爬虫模块、职位信息提取模块、简历信息提取模块、NLP自然语言处理模块和职业预测模块;所述综合爬虫模块从互联网上爬取职位信息及简历信息;所述职位信息提取模块从所述综合爬虫模块中提取职位信息;所述简历信息提取模块从所述综合爬虫模块提取简历信息;所述NLP自然语言处理模块分别从所述职位信息提取模块和所述简历信息提取模块提取职位信息、简历信息进行学习;所述职业预测模块根据所述NLP自然语言处理模块学习的结果预测职业发展的趋势。
2.根据权利要求1所述的一种基于深度学习构建职业规划的系统,其特征在于,其进一步包括简历库管理模块,其管理存储从所述综合爬虫模块或/和简历库中获取的简历信息。
3.根据权利要求1或2任一所述的一种基于深度学习构建职业规划的系统,其特征在于,其进一步包括薪酬预测模块;其根据所述NLP自然语言处理模块学习的结果预测薪酬发展的趋势。
4.根据权利要求1所述的一种基于深度学习构建职业规划的系统,其特征在于,所述综合爬虫模块包括代理IP池、爬虫服务器集群、REDIS数据库、数据回写调度器、爬取任务调度器和数据层;所述爬虫服务器集群通过所述代理IP池从互联网上爬取职位和简历信息;所述REDIS数据库分别与所述代理IP池、所述爬虫服务器集群连接;所述数据回写调度器和所述爬取任务调度器都设置在所述爬虫服务器集群、所述数据层之间。
5.根据权利要求4所述的一种基于深度学习构建职业规划的系统,其特征在于,所述REDIS数据库是基于内存REDIS key-value型数据库。
6.根据权利要求1所述的一种基于深度学习构建职业规划的系统,其特征在于,所述职位信息提取模块和所述简历信息提取模块使用XPATH及REGEX分别通过所述综合爬虫模块对互联网上的职位信息、简历信息进行信息整理及抽取的操作。
7.根据权利要求1所述的一种基于深度学习构建职业规划的系统,其特征在于,所述NLP自然语言处理模块包括职位分类语料库、职位分类模块、职业技能语料库和职业技能命名实体提取模块;所述职位分类语料库通过人工及半自动的方式进行语料库的标注,所述职位分类语料库中数据会被分割成训练、验证和测试数据,所述职位分类模块对所述职位分类语料库的标注职位信息进行训练;所述职业技能语料库标注职位描述中的职位技能关键字,所述职业技能命名实体提取模块通过训练、验证和测试所述职业技能的语料库进行深度学习。
8.根据权利要求7所述的一种基于深度学习构建职业规划的系统,其特征在于,所述职位分类模块为基于BI-LSTM深度学习的模型;所述职业技能命名实体提取模块是基于BI-LSTM-CRF深度学习的模型。
9.根据权利要求1所述的一种基于深度学习构建职业规划的系统,其特征在于,所述职业预测模块包括职业发展路径生成模块、职业发展路径预测模块和职业技能需求倒推模块。
10.根据权利要求9所述的一种基于深度学习构建职业规划的系统,其特征在于,所述职业技能需求倒推模块通过采用TF-IDF算法挖掘职位信息。
CN201910401147.4A 2019-05-15 2019-05-15 一种基于深度学习构建职业规划的系统 Pending CN110111083A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910401147.4A CN110111083A (zh) 2019-05-15 2019-05-15 一种基于深度学习构建职业规划的系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910401147.4A CN110111083A (zh) 2019-05-15 2019-05-15 一种基于深度学习构建职业规划的系统

Publications (1)

Publication Number Publication Date
CN110111083A true CN110111083A (zh) 2019-08-09

Family

ID=67490057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910401147.4A Pending CN110111083A (zh) 2019-05-15 2019-05-15 一种基于深度学习构建职业规划的系统

Country Status (1)

Country Link
CN (1) CN110111083A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889431A (zh) * 2019-10-28 2020-03-17 杭州电子科技大学 基于K-Means算法改进的高频职业技能生命曲线聚类方法
CN111126607A (zh) * 2020-04-01 2020-05-08 阿尔法云计算(深圳)有限公司 一种模型训练的数据处理方法、装置与系统
CN112330510A (zh) * 2020-11-20 2021-02-05 龙马智芯(珠海横琴)科技有限公司 一种志愿推荐方法、装置、服务器及计算机可读存储介质
CN112884423A (zh) * 2019-11-29 2021-06-01 北京国双科技有限公司 一种信息处理方法、装置、电子设备及存储介质
CN113221013A (zh) * 2021-06-04 2021-08-06 金保信社保卡科技有限公司 职业发展规划应用方法及系统
CN113722476A (zh) * 2021-07-30 2021-11-30 的卢技术有限公司 一种基于深度学习的简历信息提取方法及系统
CN114331380A (zh) * 2021-12-31 2022-04-12 北京百度网讯科技有限公司 职业流动关系的预测方法、系统、设备及存储介质
CN117371625A (zh) * 2023-12-07 2024-01-09 中科软股教育科技(北京)股份有限公司 基于大数据分析的职业发展预测系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280632A (zh) * 2018-03-31 2018-07-13 成都主题智链信息技术有限公司 一种基于大数据的职业规划系统
US20180232751A1 (en) * 2017-02-15 2018-08-16 Randrr Llc Internet system and method with predictive modeling
CN109002906A (zh) * 2018-06-25 2018-12-14 上海学民网络科技有限公司 一种职业规划路径架构系统及处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180232751A1 (en) * 2017-02-15 2018-08-16 Randrr Llc Internet system and method with predictive modeling
CN108280632A (zh) * 2018-03-31 2018-07-13 成都主题智链信息技术有限公司 一种基于大数据的职业规划系统
CN109002906A (zh) * 2018-06-25 2018-12-14 上海学民网络科技有限公司 一种职业规划路径架构系统及处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黑马程序员编著: "《解析Python网络爬虫 核心技术、Scrapy框架、分布式爬虫》", 31 July 2018 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889431A (zh) * 2019-10-28 2020-03-17 杭州电子科技大学 基于K-Means算法改进的高频职业技能生命曲线聚类方法
CN112884423A (zh) * 2019-11-29 2021-06-01 北京国双科技有限公司 一种信息处理方法、装置、电子设备及存储介质
CN111126607A (zh) * 2020-04-01 2020-05-08 阿尔法云计算(深圳)有限公司 一种模型训练的数据处理方法、装置与系统
CN111126607B (zh) * 2020-04-01 2020-09-29 阿尔法云计算(深圳)有限公司 一种模型训练的数据处理方法、装置与系统
CN112330510A (zh) * 2020-11-20 2021-02-05 龙马智芯(珠海横琴)科技有限公司 一种志愿推荐方法、装置、服务器及计算机可读存储介质
CN113221013A (zh) * 2021-06-04 2021-08-06 金保信社保卡科技有限公司 职业发展规划应用方法及系统
CN113722476A (zh) * 2021-07-30 2021-11-30 的卢技术有限公司 一种基于深度学习的简历信息提取方法及系统
CN114331380A (zh) * 2021-12-31 2022-04-12 北京百度网讯科技有限公司 职业流动关系的预测方法、系统、设备及存储介质
CN117371625A (zh) * 2023-12-07 2024-01-09 中科软股教育科技(北京)股份有限公司 基于大数据分析的职业发展预测系统及方法
CN117371625B (zh) * 2023-12-07 2024-02-06 中科软股教育科技(北京)股份有限公司 基于大数据分析的职业发展预测系统及方法

Similar Documents

Publication Publication Date Title
Battle et al. Characterizing exploratory visual analysis: A literature review and evaluation of analytic provenance in tableau
CN110111083A (zh) 一种基于深度学习构建职业规划的系统
Akerkar et al. Intelligent techniques for data science
Cao et al. A bat-inspired approach to define transition rules for a cellular automaton model used to simulate urban expansion
Das et al. A CV parser model using entity extraction process and big data tools
Chen et al. Online sales prediction via trend alignment-based multitask recurrent neural networks
Wang et al. Analysing CV corpus for finding suitable candidates using knowledge graph and BERT
CN115526590A (zh) 一种结合专家知识和算法的高效人岗匹配与复推方法
Chen et al. A computer-assisted automatic conceptual design system for the distributed multi-disciplinary resource environment
Ermolayev et al. Towards evolving knowledge ecosystems for big data understanding
Wang Analysis of students’ behavior in english online education based on data mining
Palshikar et al. Automatic Shortlisting of Candidates in Recruitment.
US10896034B2 (en) Methods and systems for automated screen display generation and configuration
Vignesh et al. Efficient student profession prediction using XGBoost algorithm
Malawana et al. The Public Sentiment analysis within Big data Distributed system for Stock market prediction–A case study on Colombo Stock Exchange
Gajanayake et al. Candidate selection for the interview using github profile and user analysis for the position of software engineer
US11314488B2 (en) Methods and systems for automated screen display generation and configuration
Patel et al. Explainable prediction of Qcodes for NOTAMs using column generation
Manna et al. Comparative analysis of different classifiers on crisis-related tweets: an elaborate study
Georgiou et al. Software technologies skills: A graph-based study to capture their associations and dynamics
CN113222471A (zh) 一种基于新媒体数据的资产风控方法及设备
Roy et al. Automated Resume Classification Using Machine Learning
Kadhum et al. An Efficient Bug Reports Assignment for IoT Application with Auto-Tuning Structure of ELM Using Dragonfly Optimizer
Wang et al. Intelligent Crowdsourced Testing
Yedida et al. Old but Gold: Reconsidering the value of feedforward learners for software analytics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination