CN114691892A - 一种基于大数据的退役军人职业规划方法及系统 - Google Patents

一种基于大数据的退役军人职业规划方法及系统 Download PDF

Info

Publication number
CN114691892A
CN114691892A CN202210425884.XA CN202210425884A CN114691892A CN 114691892 A CN114691892 A CN 114691892A CN 202210425884 A CN202210425884 A CN 202210425884A CN 114691892 A CN114691892 A CN 114691892A
Authority
CN
China
Prior art keywords
data
retired
post
browser
big
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210425884.XA
Other languages
English (en)
Inventor
李佳璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Junzhifu Beijing Technology Co ltd
Original Assignee
Junzhifu Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Junzhifu Beijing Technology Co ltd filed Critical Junzhifu Beijing Technology Co ltd
Priority to CN202210425884.XA priority Critical patent/CN114691892A/zh
Publication of CN114691892A publication Critical patent/CN114691892A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于职业规划技术领域,具体提供一种基于大数据的退役军人职业规划方法及系统,其中方法包括:根据职业分类词库找到合适军人岗位数据,并构建自有知识图谱;使用Scrapy分布式爬虫抓取招聘网站数据;根据知识图谱清洗所述招聘网站数据使岗位归属到具体行业并展示。该方案通过人工智能及大数据技术,获取并分析全国各地就业市场中适合退役军人的千万级岗位数据,以便退役军人清晰了解岗位需求,正确评估自身能力,作出学历教育、技能培训或者就业创业选择。通过全面采用计算机科学技术,方便对企业资源进行统计管理,从而为每年退役军人提供极具竞争力的就业机会,大力的推动了社会政治经济的发展,智能化还能减少人为的失误,准确方便。

Description

一种基于大数据的退役军人职业规划方法及系统
技术领域
本发明涉及职业规划技术领域,更具体地,涉及一种基于大数据的退役军人职业规划方法及系统。
背景技术
目前现有的有关退役军人职业规划方面的数据库都可以对一些热门、创新型行业进行了人才大数据分析,主要在宏观上对行业的市场需求量,岗位的专业要求、供需关系等进行了概述呈现。如“工业和信息化人才大数据中心”等。
但是,现有的“工业和信息化人才大数据中心”没有详细的数据展示,只是给出了宏观的数据,并没有详情的给出人才培养方案和诊断工作,比如:人工智能-算法研发工程师,如何才能成为算法工程师,企业的招聘需求是什么?求职者应该如何学习、如何提升技能,如何提升学历、如何求职、如何面试等等,形成完整的职业规划闭环。另一方面,没有厘清产业链、人才链和专业链之间的内部数据逻辑,无法为退役军人发展提供数据分析、数据决策;无法及时获取产业行业需求数据、岗位任职资格标准;无法关联分析产业岗位人才需求与专业(群)之间关系;无法对产业高质量发展所需人才的数量、质量和结构进行分析预测等问题。
发明内容
本发明针对现有技术中存在的职业规划数据库技术问题。
本发明提供了一种基于大数据的退役军人职业规划方法,包括以下步骤:
S1,根据职业分类词库找到合适军人岗位数据,并构建自有知识图谱;
S2,使用Scrapy分布式爬虫抓取招聘网站数据;
S3,根据知识图谱清洗所述招聘网站数据使岗位归属到具体行业并展示。
优选地,所述S2具体包括:
S21,定义目标链接,将招聘目标网站作为目标链接以动态配置的方式读取,使用Selenium把爬虫程序伪装成浏览器向招聘网站服务器请求数据,通过Selenium引入浏览器驱动,并获取浏览器选项并修改浏览器选项;使用修改后的浏览器选项启动浏览器,移除Selenium中的window.navigator.webdriver配置,给浏览器指定用户文件夹;
S22,关闭浏览器,再使用Selenium操作浏览器,实现以登录状态访问相关招聘网站的所有网页数据。
优选地,所述S21具体包括:
以8080端口启动浏览器,忽略证书错误,指定用户文件夹,使用修改后的浏览器选项启动浏览器,移除Selenium中的 window.navigator.webdriver配置,给浏览器指定一个AutomationProfile文件夹,让所述AutomationProfile文件夹记录到登录信息,在打开的浏览器中,打开相关招聘网站,然后手动登录即可。
优选地,所述S22具体包括:登录后,岗位数据所在链接发生变更,需要更新脚本文件,首页进行单独访问,后续的2~12页使用循环进行访问。
优选地,所述S3具体还包括:设置一个10~30秒的停歇时间,并引入代理,解决爬虫频繁访问会被封禁的问题,接着浏览器能够执行服务器返回数据中的JavaScript代码,从而使得能够获取到想要的数据,引入Beautiful Soup解析网页数据,分析网页数据找到数据的接口地址,抓取数据灌入kafka消息队列。
优选地,所述S3具体包括:使用Maxwell数据同步工具将业务数据同步到kafka消息队列中,使用Flume清洗工具消费kafka消息队列中的数据,根据知识图谱清洗数据使岗位归属到具体行业、格式化具体数据并落盘,以及将数据再次发送到kafka消息队列工用户查阅。
优选地,所述S3中消费kafka消息队列中的数据具体包括:将数据放入到Kafka对应的主题,接下来在DWD层对数据进行动态分流,将不同的流写入到对应的Kafka的Topic中,进行动态分流。
优选地,所述S3具体包括:
首先,通过读取配置表信息进行分流的,通过FlinkCDC读取配置表信息,判断数据是放到主流中写到kafka中的事实数据还是放到侧输出流中要写到kudu的维度数据;
然后,在DWM层做聚合,为DWS层的一些聚合指标的获取提供服务并减少重复计算,在维度关联时,去kudu里去查询维度表,在这里进行维度查询的优化;
再然后,将聚合统计好的指标写入到Clinkhouse数据库,使用 ADS层作为可视化工具提供一个数据服务的接口,由所述接口来获取ClickHouse数据库中的数据,并且提供给可视化工具;
最后,使用SpringBoot进行数据接口的编写,实现读取ClickHouse数据库并以可视化的方式展示到easyv数据大屏供用户查阅。
本发明还提供了一种基于大数据的退役军人职业规系统,所述系统用于实现基于大数据的退役军人职业规划方法的步骤,具体包括:
建模模块,根据职业分类词库找到合适军人岗位数据,并构建自有知识图谱;
爬取模块,使用Scrapy分布式爬虫抓取招聘网站数据;
展示模块,根据知识图谱清洗所述招聘网站数据使岗位归属到具体行业并展示。
本发明还提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现基于大数据的退役军人职业规划方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现基于大数据的退役军人职业规划方法的步骤。
有益效果:本发明提供的一种基于大数据的退役军人职业规划方法及系统,其中方法包括:根据职业分类词库找到合适军人岗位数据,并构建自有知识图谱;使用Scrapy分布式爬虫抓取招聘网站数据;根据知识图谱清洗所述招聘网站数据使岗位归属到具体行业并展示。该方案通过人工智能及大数据技术,获取并分析全国各地就业市场中适合退役军人的千万级岗位数据,以便退役军人清晰了解岗位需求,正确评估自身能力,作出学历教育、技能培训或者就业创业选择。通过全面采用计算机科学技术,方便对企业资源进行统计管理,从而为每年退役军人提供极具竞争力的就业机会,大力的推动了社会政治经济的发展,智能化还能减少人为的失误,准确方便,还可带来其他方面的经济效益。
附图说明
图1为本发明提供的一种基于大数据的退役军人职业规划方法流程图;
图2为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为本发明提供的一种基于大数据的退役军人职业规划方法,包括以下步骤:
S1,根据职业分类词库找到合适军人岗位数据,并构建自有知识图谱;
S2,使用Scrapy分布式爬虫抓取招聘网站数据;
S3,根据知识图谱清洗所述招聘网站数据使岗位归属到具体行业并展示。
在一个具体的实施场景中:
S1,本产品根据国家分类词库(即中华人民共和国职业分类词库) 找到合适军人岗位数据,构建自有知识图谱用于岗位识别、抓取、识别等。其中,Scrapy一款主流的分布式爬虫框架,用于外部数据抓取。
S2,使用Scrapy分布式爬虫抓取招聘网站数据。具体包括:
首先,定义目标链接,将招聘目标网站作为目标链接以动态配置的方式读取,使用Selenium把爬虫程序伪装成浏览器向招聘网站服务器请求数据,通过Selenium引入谷歌浏览器驱动,并获取谷歌浏览器选项。具体地,以8080端口启动谷歌浏览器,忽略证书错误,指定用户文件夹。使用修改后的浏览器选项启动浏览器,移除Selenium中的window.navigator.webdriver配置,给谷歌浏览器指定一个AutomationProfile文件夹。让这个AutomationProfile文件夹记录到登录信息即可,在打开的浏览器中,打开相关招聘网站,然后手动登录即可(无账号需要注册);
其中,Selenium是一个用于Web应用程序测试的工具,即为一个操作浏览器访问服务器的库。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7,8,9,10,11), Mozilla Firefox,Safari,Google Chrome,Opera,Edge等。这个工具的主要功能包括:测试与浏览器的兼容性——测试应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成.Net、Java、Perl等不同语言的测试脚本。
然后,关闭谷歌浏览器,再使用Selenium操作浏览器,实现以登录状态访问相关招聘网站的所有网页数据。
需要注意的一点是,登录后,岗位数据所在链接发生变更,需要更新脚本文件,首页进行单独访问,后续的2~12页使用循环进行访问,同时为了保证页面的加载,设置一个10~30秒的停歇时间,也能一定程度上降低对网站的过度访问,此外还需要引入代理,解决爬虫频繁访问会被封禁的问题,接着浏览器能够执行服务器返回数据中的 JavaScript代码,从而使得能够获取到想要的数据,引入Beautiful Soup 解析网页数据,分析网页数据找到数据的接口地址,抓取数据灌入 kafka消息队列。
其中,JavaScript(简称“JS”)是一种具有函数优先的轻量级,解释型或即时编译型的编程语言。python一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Beautiful Soup一个可以从HTML或XML文件中提取数据的Python库。kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。
最后,使用Maxwell数据同步工具将业务数据同步到kafka消息队列中。同时Maxwell提供了bootstrap功能,可以用来将历史数据同步到kafka消息队列中。接下来使用Flume清洗工具消费kafka 消息队列中的数据,根据知识图谱清洗数据使岗位归属到具体行业、格式化具体数据并落盘以及将数据再次发送到kafka消息队列工用户查询。
下面针对数据仓库的ODS,DWD,DWM,DWS,ADS及维度DIM层中数据流转说明:
ODS层是原始数据。在消费kafka消息队列中的数据时,为了防止中途出现异常,方便找到原始数据,之后将数据放入到Kafka对应的主题,接下来在DWD层对数据进行动态分流,将不同的流写入到对应的Kafka的Topic中,进行动态分流时,是通过读取配置表信息进行分流的,通过FlinkCDC读取配置表信息,判断数据是放到主流中写到kafka中的事实数据还是放到侧输出流中要写到kudu的维度数据,之后在DWM层做一些轻度聚合,为DWS层的一些聚合指标的获取提供服务并减少重复计算,接下来维度关联的时候,需要去 kudu里去查询维度表,在这里进行维度查询的优化,一方面是利用 Redis进行旁路缓存,另一方面是加入了Flink支持的异步IO处理,之后使用DWS层是为了指标的聚合统计,最后将聚合统计好的指标写入到Clinkhouse数据库,在使用ADS层就是为可视化工具提供一个数据服务的接口,由这个服务接口来获取ClickHouse中的数据,并且提供给可视化工具,在做关键词分析时用到了IK分词器,它提供了智能分词功能,会将一个字符串分解成一个包含多个关键词字符串的集合,聚合出高频次的词语,组合成岗位技能标签,最后使用SpringBoot进行了数据接口的编写,实现读取ClickHouse 数据并以可视化的方式展示到easyv数据大屏。
其中,上述各字符串的定义及用途解释如下:
Scrapy一款主流的分布式爬虫框架,用于外部数据抓取。
kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。
Topic是一类消息,Kafka集群能够同时负责多类消息的分发,订阅此类消息能获取到相关消息。
Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
Maxwell是一款数据同步工具,用于监听数据库变更并同步数据库变更并生成JSON格式的消息,作为生产者发送给Kafka等。
bootstrap是Maxwell的初始化数据功能。
ODS全称是Operational Data Store,操作数据存储.“面向主题的”,数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,装入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而分类的。但是,这一层面的数据却不等同于原始数据。在源数据装入这一层时,要进行诸如去噪(例如有一条数据中人的年龄是300岁,这种属于异常数据,就需要提前做一些处理)、去重(例如在个人资料表中,同一ID却有两条重复数据,在接入的时候需要做一步去重)、字段命名规范等一系列操作。
DWD全称是Data Warehouse Detail是数据仓库的细节数据层,是对阶段层数据进行沉淀,减少了抽取的复杂性,同时ODS/DWD 的信息模型组织主要遵循企业业务事务处理的形式,将各个专业数据进行集中,明细层跟阶段层的粒度一致,属于分析的公共资源。
DWM全称Data WareHouse Middle数据中间层,轻度汇总层数据仓库中DWD层和DMS层之间的一个过渡层次,是对DWD层的生产数据进行轻度综合和汇总统计(可以把复杂的清洗,处理包含,如根据页面展示日志生成的会话数据)。轻度综合层与DWD的主要区别在于二者的应用领域不同,DWD的数据来源于生产型系统,并未满意一些不可预见的需求而进行沉淀;轻度综合层则面向分析型应用进行细粒度的统计和沉淀。
DWS全称Data WareHouse Servce数据服务层,又称数据集市或宽表。按照业务划分,如流量、订单、用户等,生成字段比较多的宽表,用于提供后续的业务查询,在线分析处理查询分析,数据分发等。
ADS全称Application Data Service数据应用层,该层主要是提供给数据产品和数据分析使用的数据,一般会存放在数据库系统中供线上系统使用;也可能存放在分析系统中,供数据分析和数据挖掘使用,比如常用的数据报表就是存在这里的。
DIM全称Dimension维度层,建立一致数据分析维表,可以降低数据计算口径和算法不统一风险。以维度作为建模驱动,基于每个维度的业务含义,通过定义维度及维度主键,添加维度属性、关联维度等定义计算逻辑和雪花模型,完成属性定义的过程并建立一致的数据分析维表。同时您可以定义维度主子关系,子维度的属性将合并至主维度使用,进一步保证维度的一致性和便捷使用性。
kudu是一个既支持随机读写、又支持在线分析处理查询分析的大数据存储引擎。
Flink是一个对有界和无界数据。
本发明实施例还提供了一种基于大数据的退役军人职业规系统,所述系统用于实现上述基于大数据的退役军人职业规划方法的步骤,具体包括:
建模模块,根据职业分类词库找到合适军人岗位数据,并构建自有知识图谱;
爬取模块,使用Scrapy分布式爬虫抓取招聘网站数据;
展示模块,根据知识图谱清洗所述招聘网站数据使岗位归属到具体行业并展示。
请参阅图2为本发明提供的一种计算机可读存储介质的实施例示意图。如图2所示,本实施例提供了一种计算机可读存储介质1400,其上存储有计算机程序1411,该计算机程序1411被处理器执行时实现如下步骤:S1,根据职业分类词库找到合适军人岗位数据,并构建自有知识图谱;
S2,使用Scrapy分布式爬虫抓取招聘网站数据;
S3,根据知识图谱清洗所述招聘网站数据使岗位归属到具体行业并展示。
有益效果:
1、社会效益
由于软件和信息技术产业是我国的核心产业,对经济社会发展的先导性、战略性产业,软件和信息技术产业在推进信息化和工业化融合,转变发展方式,维护国家安全等方面发挥着重要作用。退役军人职业规划大数据系统全面采用计算机科学技术,方便对企业资源进行统计管理,从而保持长期合作,为退役军人提供极具竞争力的就业机会。大力的推动了社会政治经济的发展,实现了计算机自动化的运用。
2、经济效益
本方案由于采用网络方式,因此投入比较多,但此系统可以实现资源共享,支持系统的运行,用户可以直接使用,满足他们的所有需求。本系统可以节省不少人员,因此可以带来一些经济效益。另外,直接用系统进行分析就可以看到最直接的结果,此系统可以减少人为的失误,准确方便,还可带来其他方面的经济效益。
3.技术效益
通过自主研发且具有自主知识产权的人工智能及大数据等新型技术,为退役军人提供轻松便捷的导引,方便用户正确看待个人能力,明确职业倾向、发展目标,同时基于导引结果,精准匹配个性化的学历教育、技能培训或者就业创业,为退役军人提供高效服务。
通过人工智能及大数据技术,获取并分析全国各地就业市场中适合退役军人的千万级岗位数据(涵盖供需规模、结构、趋势、经验要求等多个维度),以便退役军人清晰了解岗位需求,正确评估自身能力,作出学历教育、技能培训或者就业创业选择。
依托资深技术团队,致力于打造优质产品,切实解决退役军人个性化需求;依托资深人力资源和职业发展规划师全程参与设计,为退役军人提供全流程服务。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/ 或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (10)

1.一种基于大数据的退役军人职业规划方法,其特征在于,包括以下步骤:
S1,根据职业分类词库找到合适军人岗位数据,并构建自有知识图谱;
S2,使用Scrapy分布式爬虫抓取招聘网站数据;
S3,根据知识图谱清洗所述招聘网站数据使岗位归属到具体行业并展示。
2.根据权利要求1所述的基于大数据的退役军人职业规划方法,其特征在于,所述S2具体包括:
S21,定义目标链接,将招聘目标网站作为目标链接以动态配置的方式读取,使用Selenium把爬虫程序伪装成浏览器向招聘网站服务器请求数据,通过Selenium引入浏览器驱动,并获取浏览器选项并修改浏览器选项;使用修改后的浏览器选项启动浏览器,移除Selenium中的window.navigator.webdriver配置,给浏览器指定用户文件夹;
S22,关闭浏览器,再使用Selenium操作浏览器,实现以登录状态访问相关招聘网站的所有网页数据。
3.根据权利要求2所述的基于大数据的退役军人职业规划方法,其特征在于,所述S21具体包括:
以8080端口启动浏览器,忽略证书错误,指定用户文件夹,使用修改后的浏览器选项启动浏览器,移除Selenium中的window.navigator.webdriver配置,给浏览器指定一个AutomationProfile文件夹,让所述AutomationProfile文件夹记录到登录信息,在打开的浏览器中,打开相关招聘网站,然后手动登录即可。
4.根据权利要求3所述的基于大数据的退役军人职业规划方法,其特征在于,所述S22具体包括:登录后,岗位数据所在链接发生变更,需要更新脚本文件,首页进行单独访问,后续的2~12页使用循环进行访问。
5.根据权利要求4所述的基于大数据的退役军人职业规划方法,其特征在于,所述S3具体还包括:设置一个10~30秒的停歇时间,并引入代理,解决爬虫频繁访问会被封禁的问题,接着浏览器能够执行服务器返回数据中的JavaScript代码,从而使得能够获取到想要的数据,引入Beautiful Soup解析网页数据,分析网页数据找到数据的接口地址,抓取数据灌入kafka消息队列。
6.根据权利要求3所述的基于大数据的退役军人职业规划方法,其特征在于,所述S3具体包括:使用Maxwell数据同步工具将业务数据同步到kafka消息队列中,使用Flume清洗工具消费kafka消息队列中的数据,根据知识图谱清洗数据使岗位归属到具体行业、格式化具体数据并落盘,以及将数据再次发送到kafka消息队列工用户查阅。
7.根据权利要求6所述的基于大数据的退役军人职业规划方法,其特征在于,所述S3中消费kafka消息队列中的数据具体包括:将数据放入到Kafka对应的主题,接下来在DWD层对数据进行动态分流,将不同的流写入到对应的Kafka的Topic中,进行动态分流。
8.根据权利要求7所述的基于大数据的退役军人职业规划方法,其特征在于,所述S3具体包括:
首先,通过读取配置表信息进行分流的,通过FlinkCDC读取配置表信息,判断数据是放到主流中写到kafka中的事实数据还是放到侧输出流中要写到kudu的维度数据;
然后,在DWM层做聚合,为DWS层的一些聚合指标的获取提供服务并减少重复计算,在维度关联时,去kudu里去查询维度表,在这里进行维度查询的优化;
再然后,将聚合统计好的指标写入到Clinkhouse数据库,使用ADS层作为可视化工具提供一个数据服务的接口,由所述接口来获取ClickHouse数据库中的数据,并且提供给可视化工具;
最后,使用SpringBoot进行数据接口的编写,实现读取ClickHouse数据库并以可视化的方式展示到easyv数据大屏供用户查阅。
9.一种基于大数据的退役军人职业规系统,其特征在于,所述系统用于实现如权利要求1-8任一项所述的基于大数据的退役军人职业规划方法的步骤,具体包括:
建模模块,根据职业分类词库找到合适军人岗位数据,并构建自有知识图谱;
爬取模块,使用Scrapy分布式爬虫抓取招聘网站数据;
展示模块,根据知识图谱清洗所述招聘网站数据使岗位归属到具体行业并展示。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现如权利要求1-8任一项所述的基于大数据的退役军人职业规划方法的步骤。
CN202210425884.XA 2022-04-21 2022-04-21 一种基于大数据的退役军人职业规划方法及系统 Pending CN114691892A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210425884.XA CN114691892A (zh) 2022-04-21 2022-04-21 一种基于大数据的退役军人职业规划方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210425884.XA CN114691892A (zh) 2022-04-21 2022-04-21 一种基于大数据的退役军人职业规划方法及系统

Publications (1)

Publication Number Publication Date
CN114691892A true CN114691892A (zh) 2022-07-01

Family

ID=82144991

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210425884.XA Pending CN114691892A (zh) 2022-04-21 2022-04-21 一种基于大数据的退役军人职业规划方法及系统

Country Status (1)

Country Link
CN (1) CN114691892A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115455205A (zh) * 2022-09-21 2022-12-09 深圳今日人才信息科技有限公司 一种基于时序知识图谱的职业发展规划的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010124334A1 (en) * 2009-05-01 2010-11-04 Apply Direct Pty Ltd System and method for providing computer-enabled employment search services
CN104834668A (zh) * 2015-03-13 2015-08-12 浙江奇道网络科技有限公司 基于知识库的职位推荐系统
US20170364850A1 (en) * 2016-06-17 2017-12-21 Accenture Global Solutions Limited Workforce strategy insights
US20180131803A1 (en) * 2016-11-08 2018-05-10 Microsoft Technology Licensing, Llc Mobile data insight platforms for data analysis
CN108280632A (zh) * 2018-03-31 2018-07-13 成都主题智链信息技术有限公司 一种基于大数据的职业规划系统
CN108920544A (zh) * 2018-06-13 2018-11-30 桂林电子科技大学 一种基于知识图谱的个性化职位推荐方法
WO2019122011A1 (en) * 2017-12-21 2019-06-27 Urban Software Institute GmbH Computer system and method for extracting dynamic content from websites
CN113886604A (zh) * 2021-10-20 2022-01-04 前锦网络信息技术(上海)有限公司 一种职位知识图谱生成方法和系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010124334A1 (en) * 2009-05-01 2010-11-04 Apply Direct Pty Ltd System and method for providing computer-enabled employment search services
CN104834668A (zh) * 2015-03-13 2015-08-12 浙江奇道网络科技有限公司 基于知识库的职位推荐系统
US20170364850A1 (en) * 2016-06-17 2017-12-21 Accenture Global Solutions Limited Workforce strategy insights
US20180131803A1 (en) * 2016-11-08 2018-05-10 Microsoft Technology Licensing, Llc Mobile data insight platforms for data analysis
CN109923568A (zh) * 2016-11-08 2019-06-21 微软技术许可有限责任公司 用于数据分析的移动数据洞察平台
WO2019122011A1 (en) * 2017-12-21 2019-06-27 Urban Software Institute GmbH Computer system and method for extracting dynamic content from websites
CN108280632A (zh) * 2018-03-31 2018-07-13 成都主题智链信息技术有限公司 一种基于大数据的职业规划系统
CN108920544A (zh) * 2018-06-13 2018-11-30 桂林电子科技大学 一种基于知识图谱的个性化职位推荐方法
CN113886604A (zh) * 2021-10-20 2022-01-04 前锦网络信息技术(上海)有限公司 一种职位知识图谱生成方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PYTHON小屋屋主: ""Python+selenium模拟登录拉勾网爬取招聘信息"", pages 1 - 5, Retrieved from the Internet <URL:https://cloud.tencent.com.cn/developer/article/1952336> *
关鑫洁;黄思奇;位磊;: "基于Python的求职信息采集分析系统设计与实现", 计算机时代, no. 03, 15 March 2020 (2020-03-15), pages 36 - 38 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115455205A (zh) * 2022-09-21 2022-12-09 深圳今日人才信息科技有限公司 一种基于时序知识图谱的职业发展规划的方法

Similar Documents

Publication Publication Date Title
Lombardi Knowledge transfer and organizational performance and business process: past, present and future researches
Ebert et al. Global software engineering: Evolution and trends
Chen et al. E-business adoption research: state of the art
Boons et al. A process perspective on industrial symbiosis: Theory, methodology, and application
Bebensee et al. Exploring Web 2.0 applications as a mean of bolstering up knowledge management
Giacumo et al. Emerging evidence on the use of big data and analytics in workplace learning: A systematic literature review
Mackenzie 48 million configurations and counting: platform numbers and their capitalization
Perez-Castillo et al. A systematic mapping study on enterprise architecture mining
Li et al. Digital Platform Ecosystem Dynamics: The Roles of Product Scope, Innovation, and Collaborative Network Centrality.
Ying et al. How does intelligent manufacturing affects enterprise innovation? The mediating role of organisational learning
Wang et al. Can we benchmark code review studies? a systematic mapping study of methodology, dataset, and metric
Bion et al. How R helps Airbnb make the most of its data
Domahidi et al. Outlining the way ahead in computational communication science: An introduction to the IJoC Special Section on “computational methods for communication science: Toward a strategic roadmap.”
Indriasari et al. Adoption of design thinking, agile software development and co-creation: A qualitative study towards digital banking innovation success
Phan et al. Building a conceptual framework for using big data analytics in the banking sector
CN114691892A (zh) 一种基于大数据的退役军人职业规划方法及系统
Pérez et al. A proposed model-driven approach to manage architectural technical debt life cycle
Kraan et al. Analytics tools and infrastructure
Domahidi et al. Computational communication science| outlining the way ahead in computational communication science: An introduction to the IJoC special section on “computational methods for communication science: Toward a strategic roadmap”
Alwazae et al. Template-driven best practice documentation
Bakar et al. Service-oriented enterprise architecture (SoEA) adoption and maturity measurement model: a systematic literature review
Grambau et al. Reference Architecture framework for enhanced social media data analytics for Predictive Maintenance models
Hauder et al. Analyzing task and technology characteristics for enterprise architecture management tool support
Kehrer et al. A systematic literature review of big data literature for EA evolution
Chirumalla et al. Capturing and sharing lessons learned across boundaries: A video-based approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination