CN107203872B - 基于大数据的区域人才需求量化分析方法 - Google Patents

基于大数据的区域人才需求量化分析方法 Download PDF

Info

Publication number
CN107203872B
CN107203872B CN201710381520.5A CN201710381520A CN107203872B CN 107203872 B CN107203872 B CN 107203872B CN 201710381520 A CN201710381520 A CN 201710381520A CN 107203872 B CN107203872 B CN 107203872B
Authority
CN
China
Prior art keywords
dimension
index
analysis
idxn
dimensions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710381520.5A
Other languages
English (en)
Other versions
CN107203872A (zh
Inventor
杨子江
魏墨济
李晨
朱世伟
李宪毅
杨爱芹
于俊凤
李思思
徐蓓蓓
刘翠琴
张铭君
董婷
冯海洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES
Original Assignee
INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES filed Critical INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES
Priority to CN201710381520.5A priority Critical patent/CN107203872B/zh
Publication of CN107203872A publication Critical patent/CN107203872A/zh
Application granted granted Critical
Publication of CN107203872B publication Critical patent/CN107203872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明的基于大数据的区域人才需求量化分析方法,以零散的各类组织招聘信息数据为采集和分析对象,采用大数据处理技术进行汇总、统计、挖掘等处理,为区域人才政策和计划的制定提供论据和支撑;其次,动态跟踪追寻人才需求变化的底层根源,实现宏观‑微观不同分析视角的切换;再次,依据用户分析目标,组合各类指标维度构建不同指标体系,可在相同数据基础上同时进行多主题分析,生成多份分析报告,借助信息化技术提高数据利用率降低分析成本;最后,图表模式的分析结果呈现,可满足多类用户不同角度的信息解读,同时满足政府、企业和个人等多方信息需求。

Description

基于大数据的区域人才需求量化分析方法
技术领域
本发明涉及一种区域人才需求量化分析方法,更具体的说,尤其涉及一种基于大数据的区域人才需求量化分析方法。
背景技术
人才是区域经济发展的第一资源和基础性资源,在很大程度上影响或决定着区域经济的发展方向、发展速度、发展潜力、市场竞争力和经济效益。因此,大到国家,中到省、自治区,小到地市,微到区县,各层各级行政区都希望对本区域的人才情况有着直观量化的掌控,从而根据区域经济优势及人才供需缺口,制定相匹配的人才发展计划和人才引进政策,宏观调控区域资源和人才的优化配置,进一步推进本地区经济又好又快的发展。
当前各层各级区域对人才供需现状的分析,一般是通过抽样式的调查问卷或购买咨询公司分析报告等人工服务介入的形式获取第一手数据,虽然加工后可直接获得定性结论,但存在如下三类问题:
一、范围窄
人才供需的分析都需要预先定义报告的主题也即分析的目标,一次只能分析一个目标,针对一个主题形成报告。而且受分析人员人力、报告时限及材料收集的限制,分析的目标不能过于宽泛,分析的维度不能过多,时间跨度也不能过大。因此,很难一次同时生成多个主题的报告。目前的分析报告大多是五年内一个行业或领域内有限维度的相关分析。
二、耗时长
确定分析目标后无论是调查问卷还是咨询公司,都需要花较长的时间去收集整理相关数据,而收集的数据大多来自年鉴库、省志库等统计资料库,这些资料库通常是在年末汇总具有一定滞后性的,很难实时地反映当前人才供需情况。随着分析指标的增多和时间跨度的增大,数据收集的难度会随之增大,信息的可靠性也会随之降低。此外,数据收集后的整理去噪规则的编写和多维度分析模型的构建也需要投入大量的人力和时间去处理。且在报告最终呈现前无法提前检验分析模型的有效性,当模型出现偏差时需多次迭代模型构建、数据分析、报告撰写等过程,无形地增加分析耗时。
三、成本高
一次人才供需分析,各个阶段都需大量人工介入,致使单次分析耗费的人力和财务成本较高。即使拥有一系列历史分析报告,由于每次分析的人员组成、目标数据和模型功能等因素不同,导致了数据割裂、目标模型单一等问题,使得之前报告的各项成果、数据、参数、指标、模型等很难被重用,每次分析的成本很难被降低。
大数据时代的来临,网络上承载的信息愈加丰富。其涵盖各行业各领域人才供需的详细信息,通过分布式网络爬虫在网络上采集人才的需求和供给相关数据,再利用大数据处理方法及数据挖掘算法量化分析方法,构建区域视角下人才供需分析系统,可有效解决人工分析所面临的上述三类问题,为区域人才的量化分析提供解决方案。
发明内容
本发明为了克服上述技术问题的缺点,提供了一种基于大数据的区域人才需求量化分析方法。
本发明的基于大数据的区域人才需求量化分析方法,其特征在于,通过以下步骤来实现:
a).确定目标数据源和采集范围,优质可量化且能够实时反映区域人才需求的数据是做好分析的前提,因此选取的目标数据源为:招聘网站,大型组织、大学、人社局网站的招聘板块,以及编制招考信息;
由于单独一个区域的分析不能体现本区域的优势及不足,需要对多个同级区域对比分析才能找到问题,为政策的制定提供依据;因此除了采集指定区域外,也将同一行政区下所有与指定区域同级的区域也纳入到采集的范围;
b).采集目标源数据,大型组织、大学、人社局网站的招聘模块和编制招考信息的更新频率不高,直接采用现有分布式爬虫的抓取策略采集信息;
由于招聘网站同时服务于诸多实体组织,承载着诸多组织的招聘信息,更新频率极高,若不能及时有效的捕捉将会严重影响分析的准确性,导致结果的误导;然而受目标数据源服务器的限制,同一IP地址的爬虫在一定时间内只能采集同一目标服务器限定的数据,故采用将同一招聘网站平均分配到多个爬取节点的方法进行目标数据源的信息采集;
c).信息提取,由于所采集的数据是原始的非结构化网页,其中杂陈广告、友情链接、同类推荐无关信息,首先采用DOM树的方法和基于行块分布函数方法抽取目标网页中的数据;然后从非结构化的网页数据中提取包括组织名称、岗位、职位、月薪、学历、工作年限、组织规模、所属行业、组织性质、招聘人数、提供福利、岗位职责、岗位要求、年龄要求、工作地点、发布时间在内的招聘信息,形成结构化数据,每个招聘信息定义一个指标维度,所有的指标维度组成指标维度列表;
d).数据清洗,首先将各指标维度所采用指标体系进行标准化、将各指标维度值进行标准化,以实现指标维度的标准化处理;
然后,将同一媒体、多个媒体中重复发布的招聘信息进行去重处理,从而过滤重复发布的信息;
e).数据存储,所提取的每一个指标维度使用结构化数据库中一列存储,为方便招聘信息的归类统计将网页URL、招聘信息媒体来源、所属区域也作为一个指标维度存储于数据库一列;为方便时间跨度方面的统计分析,将招聘信息的有效持续结束时间也作为一个指标维度存储于数据库一列;同时若指标维度是区间标度属性,则在存储过程中将其分成区间起始值和区间终止值分别存储指标维度的首尾值;
f).指标维度分类,从招聘信息中提取的诸多指标维度根据其功用分为四类:区域维度、动态维度、目标维度和限定维度;区域维度用于指定分析的目标区域,区域维度的分析以分成两类:本区域人才需求分析和多区域人才需求对比分析;动态维度用于指定分析的时间范围,动态维度的分析以分成两类:一定时间段的整体宏观分析和时间演化分析;
目标维度包含五个:需求量、月薪、福利、岗位职责和岗位要求,需求量即招聘人数,其中需求量和月薪是区间标度类属性,将通过均值呈现其结果;福利属于标称类属性,将通过众数呈现其结果;而岗位职责和岗位要求则是一串无限定文本,将通过文本分析使用频繁模式算法呈现结果;
除区域维度、动态维度和目标维度外的其他指标维度均是限定维度;
g).分析分类,各种指标维度按照不同方式组合可产生诸多不同结果,为使结果条理清晰更易于被用户所理解,采用区域维度和动态维度相组合的方式对分析进行大类划分;分析分为四型分析:Ⅰ型分析、Ⅱ型分析、Ⅲ型分析和Ⅳ型分析;
其中,Ⅰ型分析为本区域一定时间段内整体宏观人才需求分析;Ⅱ型分析为本区域随时间演化人才需求趋势分析;Ⅲ型分析为多区域一定时间段整体宏观人才需求对比分析;Ⅳ型分析为多区域随时间演化人才需求变化趋势对比分析;
上述四型分析按其分析所获的结果是以量的形式体现还是以序的形式体现,又将每一类分为需求量化分析和需求热点分析两个小类,共计八个小类的分析;目标维度中的指标维度福利属于标称属性,单纯的统计其数量意义不大,因此福利分析不纳入各型的量化分析,仅对其进行热点分析;
h).分析方法,五类目标维度按其分析结果分为数值型、带有统计值的标称型和文本型三类,其中需求量和月薪两类目标维度分析结果属于数值型数据,目标维度福利的分析结果为带有统计值的标称型数据,而岗位职责和岗位要求两类目标维度分析结果属于文本型数据;量化分析侧重结果的直观体现,而热点分析侧重结果的顺序排列;
i).分析结果可视化,采用种类丰富的图表对分析结果进行展示,对于数值型分析结果采用仪表盘、饼图、折线图、柱图、雷达图、矩形树图或表格图表展示,仪表盘适合于一维单值分析结果的展示,饼图、单系列折线图和单系列柱图适合于一维多值分析结果的展示,多系列折线图、多系列柱图、雷达图一般适合于二维多值分析结果的展示,矩形树图和表格适合于高维多值分析结果的展示;
对于带统计值的标称型分析结果采用散点图展示;对于文本型分析结果,若其为热点分析所得到的多个关键词,则采用关键词球状旋转效果加表格的形式展示,若其为量化分析所得到的长句,则采用表格展示。
本发明的基于大数据的区域人才需求量化分析方法,步骤b)中所述的招聘网站的数据采集具体通过以下步骤来实现:
b-1).将所有目标招聘网站的域名分配到全部爬取节点;
b-2).在将域名分给所有爬取节点的同时,为不同的爬取节点分配互不相交的职位类别及标识该职位类别的参数,以此将招聘网站划分成互不相交的子集分配给各爬取节点,每个爬取节点负责一个子集的采集;
b-3).各爬取节点通过招聘网站加所分配职位类别参数的方式,向招聘网站发送请求,获取工作岗位列表,此列表即是需要采集的目标数据源列表URL_Init_List;
b-4).为避免同一时间过于集中地采集同一域名的招聘网站,在得到 URL_Init_List后不即刻采集网页,而是将URL_Init_List中的URL地址进行混排生成最终采集目标数据源列表URL_Final_List,混排方法如下:
首先将URL_Init_List中的URL地址按照主机分组划分成若干子列表;然后采用随机方法随机挑选一个子列表,并在该子列表中随机选择一个未被选中过的URL地址放入URL_Final_List;迭代子列表和URL地址的选择过程直至选完所有子列表的所有URL地址;
b-5).爬取节点在得到URL_Final_List后,采集网页数据。
本发明的基于大数据的区域人才需求量化分析方法,步骤c)中所述的招聘信息的提取通过以下步骤来实现:
c-1).由于每个招聘网站的格式都较为固定,因此首先为每个招聘网站设计模板,然后利用正则表达式提取所需指标维度,并将从非结构化页面中提取的各个指标维度的值存储于结构化数据库中;
c-2).由于大型组织、大学、人社局网站的招聘板块以及编制招考信息在发布招聘信息时较为随意,没有固定的格式,并会在详情页面中使用表格展示招聘信息,故直接从表格中提取指标维度值,方法如下:
c-2-1).获取表格,在详情页面中由于页面布局的原因可能会存在多个表格的情形,所以首先通过能够标识表格的属性在多个表格中抽取记录招聘信息的表格;
c-2-2).表格去噪,在处理表格时首先去除控制页面显示格式的DIV、 CSS及与表格无关的HTML标签,只保留与表格显示和控制相关的table、 tr、td、colspan标签;
c-2-3).表格标准化,因为表格无规定格式,在处理过程中分割多行多列的单元格,将表格转化成简单表格,使表格中的每个单元格只占一行一列且只有一个值;
c-2-4).判断表格横竖,判断记录招聘信息的表格是横表还是纵表,取表格的第一行表格的单元格值和第一列表格的单元格值,分别与各个指标维度进行匹配,比较第一行和第一列单元格值的命中率,若第一行单元格值的命中率高则为横表,否则为纵表;
c-2-5).提取键值序列,若表格为横表,则将第一行单元格的值映射到相应的指标维度,相应列单元格的值即为指标维度的值,形成键值对将无结构的HTML表格转化成结构化的键值对,进而存储到结构化数据库;
纵表与横表类似,将第一列单元格的值映射到指标维度,相应行单元格的值即为指标维度的值,提取键值对存储到结构化数据库。
本发明的基于大数据的区域人才需求量化分析方法,步骤d)中,各指标维度所采用指标体系的标准化方法为:首先,将指标维度使用最广泛的指标体系作为标准指标体系;其次,抽取标准指标体系中的指标作为概念构建本体,将各级指标体系映射到本体概念层次结构的类和子类;再次,抽取指标维度使用的其他指标体系中的指标;最后依据其他指标体系中指标与本体中概念的功能相似性,将其他指标体系中的指标作为概念的实例引入本体,通过本体概念与本体实例之间的关系,建立标准指标体系与其他指标体系之间的映射关系,将指标体系统一到标准指标体系,实现多指标体系指标维度的标准化;
各指标维度值的标准化方法为:针对指标维度值不一致的情形,采用量化表或公式的方式统一指标维度的赋值;,首先规定一种赋值为标准值;然后利用量化表或公式,为指标维度的各种不同赋值建立映射关系,将不同的赋值转化为标准值;
同一媒体中重复发布的招聘信息去重方法为:URL是互联网资源的唯一标识,因此判断同一媒体发布的信息是否存在重复的URL,同一URL地址的信息只采集一次即可实现去重;
多个媒体中重复发布的招聘信息去重方法为:同一招聘信息发布于不同媒体其URL地址不同,需要对比不同媒体招聘内容中提取的各个指标维度是否相似,通过以下方法来实现:
d-1).首先对比从不同媒体获取的招聘信息中组织名称是否相同,若相同则对比招聘职位是否相同,若相同执行步骤d-2);
d-2).对比岗位职责和岗位要求的相似度,通过文本相似度算法,若岗位职责和岗位要求的相似度均超过75%,则执行步骤d-3);
d-3).对比不同媒体招聘信息的发布时间,若发布时间差小于7天转入步骤d-4);
d-4).对比结果判定为重复信息,统一不同媒体中各指标维度值;对于序数属性类的指标维度取较低的值作为统一值;对于标称属性类的指标维度取各指标维度值的合集作为统一值;对于区间数值属性类的指标维度取各指标维度值的最小和最大值,按照加权平均的方法求取平均数作为统一值;
d-5).确定非重复招聘信息,若步骤d-1)、d-2)和d-3)中有任意一条不满足,则认为是非重复招聘信息,提取信息后直接存储于结构化数据库中。
本发明的基于大数据的区域人才需求量化分析方法,步骤g)中八个小类的分析为:Ⅰ型需求量化分析、Ⅰ型需求热点分析、Ⅱ型需求量化分析、Ⅱ型需求热点分析、Ⅲ型需求量化分析、Ⅲ型需求热点分析、Ⅳ型需求量化分析、Ⅳ型需求热点分析;
Ⅰ型需求量化分析,从多角度多层面对指定区域的人才需求量、月薪水平,以及对人才的技能和素质要求做出有效分析,分析流程如下:
g-1-1).首先,在区域维度中选择一个区域作为分析区域;
g-1-2).其次,在动态维度中选择一个时间段作为分析时段;
g-1-3).再次,在限定维度中选择0个、1个或多个指标维度作为分析的限定条件,每个限定维度选择一个值或多个值;
g-1-4).最后,在目标维度中选择一个指标维度作为分析维度;
当选择的目标维度是需求量时,未指定限定维度,则宏观地说明划定时间段内指定区域总的人才需求量有多少;如果指定单一限定维度,则分析划定时间段内指定区域在诸如不同行业、不同类型、不同规模企业或不同学历方面人才的需求量;通过限定维度的组合,可分析指定区域更为详细的人才需求情况;
当选择的目标维度是月薪时,未指定限定维度,则宏观地说明划定时间段内指定区域提供的平均月薪有多少;如果指定单一限定维度,则分析划定时间段内指定区域在诸如不同行业、不同类型、不同规模企业或不同学历方面人才的平均月薪差别;通过限定维度的组合,可分析指定区域不同类型人才薪水对比情况;
当选择的目标维度是岗位职责时,未指定限定维度,则宏观地说明划定时间段内指定区域最需要人才掌握的技能是什么;如果指定单一限定维度,则分析划定时间段内指定区域在诸如不同行业、不同类型、不同规模企业或不同学历方面对人才技能的不同需求;通过限定维度的组合,可分析指定区域不同类型组织对人才技能的详细需求;
当选择的目标维度是岗位要求时,未指定限定维度,则宏观地说明划定时间段内指定区域对人才的素质要求是什么;如果指定单一限定维度,则分析划定时间段内指定区域在诸如不同行业、不同类型、不同规模企业或不同学历方面对人才素质的需求;通过限定维度的组合,可分析指定区域不同类型组织对人才素质的详细需求;
Ⅰ型需求热点分析,从多角度多层面对指定区域的热招岗位、高薪岗位,最具激励性的福利待遇,以及需要优先引进人才必备的技能和素质做出有效分析,分析流程如下:
g-2-1).首先,在区域维度中选择一个区域作为分析区域;
g-2-2).其次,在动态维度中选择一个时间段作为分析时段;
g-2-3).再次,在限定维度中选择0个、1个或多个指标维度作为分析的限定条件,每个限定维度选择一个值或多个值;
g-2-4).最后,在目标维度中选择一个指标维度作为分析维度;
当选择的目标维度是需求量时,限定维度中的指标维度岗位类别默认为不限、其他限定维度未指定时,获得划定时间段指定区域的热招岗位;如果指定单一限定维度,则分析划定时间段内指定区域在诸如不同行业、不同规模企业或不同类型企业的热招岗位;通过限定维度的组合,可分析指定区域更为详细的热招岗位;
当选择的目标维度是月薪时,限定维度中的指标维度岗位类别默认为不限、其他限定维度未指定时,获得划定时间段指定区域的高薪岗位;如果指定单一限定维度,则分析划定时间段内指定区域在诸如不同行业、不同规模企业或不同类型企业的高薪岗位;通过限定维度的组合,可分析指定区域更为详细的高薪岗位的不同;
当选择的目标维度是福利时,未指定限定维度,获得划定时间段指定区域都会提供的基本福利;如果指定单一限定维度,则分析划定时间段内指定区域在诸如不同行业、不同规模企业或不同类型企业的福利基本水平;特别的,当指定的单一限定维度是职位类别时,可分析从事某职业所能获得的基本福利待遇,从而帮助发现除薪水以外的提升岗位吸引力的刺激性福利;通过限定维度的组合,可分析指定区域更为详细的福利差别;
当选择的目标维度是岗位职责时,未指定限定维度,则宏观地说明划定时间段内指定区域所需热门技能,从侧面反映区域经济发展所依赖的支撑技术点;如果指定单一限定维度,则分析划定时间段内指定区域在诸如不同行业、不同类型或不同规模企业所需热门技能;特别的,当指定的单一限定维度是职位类别时,可分析从事某职业所必备的基本技能,可帮助发现下一步应着力引进具备何种引领技能的人才;通过限定维度的组合,可分析指定区域更为详细的人才技能要求差异;
当选择的目标维度是岗位要求时,未指定限定维度,则宏观地说明划定时间段内指定区域所需人才的基本素质要求;如果指定单一限定维度,则分析划定时间段内指定区域在诸如不同行业、不同类型或不同规模企业对人才素质的需求;特别的,当指定的单一限定维度是职位类别时,可分析从事某职业所必备的专业素养,为应聘者的自我提升提供指导;通过限定维度的组合,可分析指定区域更为详细的从业者专业素养的差异,从而辅助从业者规划职业生涯;
Ⅱ型需求量化分析,从多角度多层面对指定区域不同阶段的人才需求量变化、月薪水平变化,以及对人才的技能和素质要求变化做出有效分析,分析流程如下:
g-3-1).首先,在区域维度中选择一个区域作为分析区域;
g-3-2).其次,在动态维度中选择对比时段作为分析时段,所选定的对比时段通常是月度、季度或年度等自然时间分割节点;
g-3-3).再次,在限定维度中选择0个、1个或多个指标维度作为分析的限定条件,每个限定维度选择一个值或多个值;
g-3-4).最后,在目标维度中选择一个指标维度作为分析维度;
当选择的目标维度是需求量时,未指定限定维度,则宏观地说明指定区域不同时段人才需求量的变化情况,如果指定单一限定维度,则分析指定区域在诸如相同行业、相同类型、相同规模企业或相同学历方面的人才在不同时间段需求量的变动趋势;通过限定维度的组合,可分析指定区域不同时段更为详细的人才需求变动情况;
当选择的目标维度是月薪时,未指定限定维度,则宏观地说明指定区域不同时间段提供平均月薪的涨落情况;如果指定单一限定维度,则分析指定区域在诸如相同行业、相同类型、相同规模企业或相同学历方面人才平均月薪随时间演进的变化情况;通过限定维度的组合,可分析指定区域不同类型人才薪水变化情况;
当选择的目标维度是岗位职责时,未指定限定维度,则宏观地说明指定区域随时间演进对人才掌握技能的变化;如果指定单一限定维度,则分析指定区域不同时间段在诸如相同行业、相同类型、相同规模企业或相同学历方面对人才技能需求的变化;通过限定维度的组合,可分析指定区域相同类型人才技能需求走向;
当选择的目标维度是岗位要求时,未指定限定维度,则宏观地说明指定区域对人才素质要求的变化情况;如果指定单一限定维度,则分析指定区域不同时间段在诸如相同行业、相同类型、相同规模企业或相同学历方面对人才素质需求的变化情况;通过限定维度的组合,可分析指定区域相同类型组织随时间演进对人才素质的需求变化情况;
Ⅱ型需求热点分析,从多角度多层面对指定区域不同阶段的热招岗位变化、高薪岗位变化、基本福利变化,以及需要优先引进人才必备技能和素质的变化做出有效分析,分析流程如下:
g-4-1).首先,在区域维度中选择一个区域作为分析区域;
g-4-2).其次,在动态维度中选择对比时段作为分析时段,所选定的对比时段通常是月度、季度或年度等自然时间分割节点;
g-4-3).再次,在限定维度中选择0个、1个或多个指标维度作为分析的限定条件,每个限定维度选择一个值或多个值;
g-4-4).最后,在目标维度中选择一个指标维度作为分析维度;
当选择的目标维度是需求量时,限定维度中的指标维度岗位类别默认为不限、其他限定维度未指定时,获得指定区域不同时段热招岗位的变化;如果指定单一限定维度,则分析指定区域不同时段在诸如相同行业、相同规模企业或相同类型企业的热招岗位的变化;通过限定维度的组合,可分析指定区域不同时段更为详细热招岗位的变化;
当选择的目标维度是月薪时,限定维度中的指标维度岗位类别默认为不限、其他限定维度未指定时,获得指定区域高薪岗位随时间演进的变化;如果指定单一限定维度,则分析指定区域在诸如相同行业、相同规模企业或相同类型企业高薪岗位的变化情况;通过限定维度的组合,可分析指定区域不同时段更为详细的高薪岗位的变化;
当选择的目标维度是福利时,未指定限定维度,获得指定区域所提供基本福利的演变情况;如果指定单一限定维度,则分析指定区域在诸如相同行业、相同规模企业或相同类型企业基本福利的演变情况;特别的,当指定的单一限定维度是职位类别时,可分析随时间演进从事某职业所能获得基本福利待遇的变化情况;通过限定维度的组合,可分析指定区域不同时段更为详细的基本福利变化;
当选择的目标维度是岗位职责时,未指定限定维度,则宏观地说明指定区域所需热门技能的变化,从侧面反映区域经济发展所依赖的支撑技术点的发展及创新情况;如果指定单一限定维度,则分析指定区域不同时段在诸如相同行业、相同类型或相同规模企业所需热门技能的变化;特别的,当指定的单一限定维度是职位类别时,可分析随时间演进某职业的热门技能变化,为从业人员的自我充电提供方向;通过限定维度的组合,可分析指定区域随时间演进更为详细的人才技能要求变化;
当选择的目标维度是岗位要求时,未指定限定维度,则宏观地说明指定区域所需人才基本素质要求的变化;如果指定单一限定维度,可分析不同时段在相同行业、相同类型或相同规模企业等对人才基本素质要求的变化;特别的,当指定的单一限定维度是职位类别时,可分析随时间演进从事某职业所必备基本专业素养的变化趋势,为应聘者的自我完善提供指导;通过限定维度的组合,可分析指定区域随时间演进更为详细的从业者专业素养变化;
Ⅲ型需求量化分析,从多角度多层面对不同区域的人才需求量、月薪水平,以及对人才的技能和素质要求做出有效分析,分析流程如下:
g-5-1).首先,在区域维度中选择多个区域作为对比分析区域;
g-5-2).其次,在动态维度中选择一个时间段作为分析时段;
g-5-3).再次,在限定维度中选择0个、1个或多个指标维度作为分析的限定条件,每个限定维度选择一个值或多个值;
g-5-4).最后,在目标维度中选择一个指标维度作为分析维度;
当选择的目标维度是需求量时,未指定限定维度,则宏观地对比划定时间段内不同区域的人才需求量;如果指定单一限定维度,则分析划定时间段内不同区域在诸如相同行业、相同类型、相同规模企业或不同学历方面人才需求量的对比;通过限定维度的组合,可分析不同区域相同类型人才需求情况;
当选择的目标维度是月薪时,未指定限定维度,则宏观地对比划定时间段内不同区域提供的平均月薪差别;如果指定单一限定维度,则分析划定时间段内不同区域在诸如相同行业、相同类型、相同规模企业或相同学历方面人才平均月薪的差别;通过限定维度的组合,可分析不同区域相同类型人才薪水对比情况;
当选择的目标维度是岗位职责时,未指定限定维度,则宏观地对比划定时间段内不同区域所需人才的技能差别;如果指定单一限定维度,则分析划定时间段内不同区域在诸如相同行业、相同类型、相同规模企业或相同学历方面需求人才技能需求的差别;通过限定维度的组合,可分析不同区域不同类型组织对人才技能的详细需求;
当选择的目标维度是岗位要求时,未指定限定维度,则宏观地对比划定时间段内不同区域所需人才的岗位素质差别;如果指定单一限定维度,则分析划定时间段内不同区域在诸如相同行业、相同岗位或相同学历方面需求人才素质的差别;通过限定维度的各种组合,可分析不同区域相同类型组织对人才素质需求的差别;
Ⅲ型需求热点分析,从多角度多层面对多个区域的热招岗位、高薪岗位,最具激励性的福利待遇,以及需要优先引进人才必备的技能和素质做出有效分析,分析流程如下:
g-6-1).首先,在区域维度中选择多个区域作为对比分析区域;
g-6-2).其次,在动态维度中选择一个时间段作为分析时段;
g-6-3).再次,在限定维度中选择0个、1个或多个指标维度作为分析的限定条件,每个限定维度选择一个值或多个值;
g-6-4).最后,在目标维度中选择一个指标维度作为分析维度;
当选择的目标维度是需求量时,限定维度中的指标维度岗位类别默认为不限、其他限定维度未指定时,获得划定时间段不同区域的热招岗位;如果指定单一限定维度,则分析划定时间段内不同区域在诸如相同行业、相同规模企业或相同类型企业的热招岗位;通过限定维度的组合,可分析不同区域更为详细的热招岗位;
当选择的目标维度是月薪时,限定维度中的指标维度岗位类别默认为不限、其他限定维度未指定时,获得划定时间段不同区域的高薪岗位;如果指定单一限定维度,则分析划定时间段内不同区域在诸如相同行业、相同规模企业或相同类型企业的高薪岗位差别;通过限定维度的组合,可分析不同区域更为详细的高薪岗位的不同;
当选择的目标维度是福利时,未指定限定维度,获得划定时间段不同区域都会提供基本福利的不同;如果指定单一限定维度,则分析划定时间段内不同区域在诸如相同行业、相同规模企业或相同类型企业的福利基本水平的差别;特别的,当指定的单一限定维度是职位类别时,可分析从事某职业所能获得的基本福利待遇的差别,从而帮助找出除薪水以外增强本区域岗位吸引力的刺激性福利待遇;通过限定维度的组合,可分析不同区域更为详细的福利差别;
当选择的目标维度是岗位职责时,未指定限定维度,则宏观地说明划定时间段内不同区域所需热门技能,从侧面反映不同区域经济发展所依赖的支撑技术点,为区域间的互补合作提供指导;如果指定单一限定维度,则分析不同区域在诸如相同行业、相同类型或相同规模企业所需热门技能的差异;特别的,当指定的单一限定维度是职位类别时,可分析不同区域对从从事某职业所必备基本技能的要求,为求职者更好地选择区域以发挥自身技能优势提供依据;通过限定维度的组合,可分析不同区域更为详细的专业技能要求的差异;
当选择的目标维度是岗位要求时,未指定限定维度,则宏观地说明划定时间段内不同区域所需人才的基本素质要求,从侧面反映区域文化对人才偏好的影响;通过指定单一限定维度,可分析不同区域在相同行业、不同类型或不同规模企业等对人才素质要求的差别;特别的,当指定的单一限定维度是职位类别时,可分析在不同区域从事某职业所必备的专业素养;通过限定维度的组合,可对比分析在不同区域
Ⅳ型需求量化分析,从多角度多层面对不同区域不同阶段的人才需求量变化、月薪水平变化,以及对人才的技能和素质要求变化做出有效对比分析,分析流程为:
g-7-1).首先,在区域维度中选择多个区域作为对比分析区域;
g-7-2).其次,在动态维度中选择对比时段作为分析时段,所选定的对比时段通常是月度、季度或年度等自然时间分割节点;
g-7-3).再次,在限定维度中选择0个、1个或多个指标维度作为分析的限定条件,每个限定维度选择一个值或多个值;
g-7-4).最后,需要在目标维度中选择一个指标维度作为分析维度;
当选择的目标维度是需求量时,未指定限定维度,则宏观地分析多个区域不同时段人才需求量的变化情况;如果指定单一限定维度,则分析不同区域在诸如相同行业、相同类型、相同规模企业或相同学历方面不同时间段人才需求量的变动趋势;通过限定维度的组合,可分析不同区域不同时段更为详细的人才需求变动情况;
当选择的目标维度是月薪时,未指定限定维度,则宏观地分析多个区域不同时间段提供平均月薪的涨落情况,对比不同区域提供月薪的增幅情况;如果指定单一限定维度,可分析不同区域在诸如相同行业、相同类型、相同规模企业或相同学历方面人才平均月薪随时间演进的变化情况,从侧面反映不同区域经济的增速;通过限定维度的各种组合,可分析不同区域相同类型人才薪水增幅情况;
当选择的目标维度是岗位职责时,未指定限定维度,则宏观地分析不同区域随时间演进对人才掌握技能的变化情况;如果指定单一限定维度,则分析多个区域在诸如相同行业、相同岗位或相同学历方面对人才技能需求随时间演进的变化情况,从侧面反映不同区域技术发展路径的差别;通过限定维度的各种组合,可对比多个区域相同类型组织对人才技能需求走向的差别;
当选择的目标维度是岗位要求时,未指定限定维度,则宏观地分析不同区域随时间演进对人才素质要求的变化情况;如果指定单一限定维度,则分析多个区域在诸如相同行业、相同岗位或相同学历方面对人才素质要求随时间演进的变化情况;通过限定维度的各种组合,可分析多个区域相同类型组织随时间演进对人才素质的需求变化情况;
Ⅳ型需求热点分析,从多角度多层面对不同区域不同阶段热招岗位、高薪岗位、基本福利的变化趋势,以及需要优先引进人才必备技能和素质的变迁做出有效对比分析,分析流程如下:
g-8-1).首先,需要在区域维度中选择多个区域作为对比分析区域;
g-8-2).其次,需要在动态维度中选择对比时段作为分析时段,所选定的对比时段通常是月度、季度或年度等自然时间分割节点;
g-8-3).再次,在限定维度中选择0个、1个或多个指标维度作为分析的限定条件,每个限定维度选择一个值或多个值;
g-8-4).最后,需要在目标维度中选择一个指标维度作为分析维度,
当选择的目标维度是需求量时,限定维度中的指标维度岗位类别默认为不限、其他限定维度未指定时,则获得不同区域不同时段的热招岗位,从侧面反映了不同区域人才缺口的变化情况;如果指定一维限定维度,可分析不同区域在诸如相同行业、相同规模或相同类型企业的热招岗位随时间演进的变化;通过限定维度的组合,可对比分析不同区域更为详细的热招岗位随时间演进的变化;
当选择的目标维度是月薪时,限定维度中的指标维度岗位类别默认为不限、其他限定维度未指定时,则获得不同区域高薪岗位随时间演进的变化,从侧面反映随时间演进不同区域社会财富的流向;如果指定单一限定维度,则分析不同区域在诸如相同行业、相同规模或相同类型企业高薪岗位随时间演进的变化情况;通过限定维度的组合,可对比分析不同区域更为详细的高薪岗位随时间演进的变化;
当选择的目标维度是福利时,未指定限定维度,则宏观地说明不同区域所提供基本福利随时间演变的变化情况;如果指定单一限定维度,则分析不同区域诸如相同行业、相同类型或相同规模企业基本福利随时间演变的变化情况;特别的,当指定的单一限定维度是职位类别时,可分析不同区域从事某职业所能获得基本福利待遇随时间演进的变化情况;通过限定维度的组合,可对比分析在不同区域更为详细的基本福利的变化;
当选择的目标维度是岗位职责时,未指定限定维度,则宏观地说明不同区域随时间演进所需热门技能的变化,从侧面反映不同地区区域经济发展所依赖支撑技术点的发展及创新情况;如果指定单一限定维度,则分析不同区域在诸如相同行业、相同类型或相同规模企业所需热门技能随时间演进的变化;特别的,当指定的单一限定维度是职位类别时,可分析在不同区域从事某职业所需热门技能变化;通过限定维度的组合,可分析不同区域更为详细的所需热门技能随时间演进的变化;
当选择的目标维度是岗位要求时,未指定限定维度,则宏观地说明不同区域随时间演进所需人才基本素质要求的变化,从侧面反映不同地区区域文化宣传对人才偏好变化的影响;通过指定单一限定维度,则分析不同区域在诸如相同行业、相同类型或相同规模企业对人才基本素质要求随时间演进的变化;特别的,当指定的单一限定维度是职位类别时,可分析在不同区域从事某职业所必备基本专业素养随时间演变的变化趋势;通过限定维度的组合,可对比分析不同区更为详细的所需基本素养随时间演进的变化。
本发明的基于大数据的区域人才需求量化分析方法,步骤h)中数值型数据的量化分析方法如下:
h-1-1).记录限定维度选择顺序;
h-1-2).按照有序的限定维度、区域维度和动态维度的顺序,记录选中的指标维度及每个选定指标维度选中的值,将其转化成不等长矩阵,其中矩阵每一行代表一个选中的指标维度,一行中的一个元素代表对应指标维度选中的值;
假定包含区域维度和动态维度共选中了idxn个指标维度,选中的指标维度分别为Chose_Index1,Chose_Index2,…,Chose_Indexidxn,每个限定维度选中值的个数为Chose_an1,Chose_an2,…,Chose_anidxn,选中的值分别是 Chose_Index1_Atb1,Chose_Index1_Atb2,…,Chose_Index1_Atban1, Chose_Index2_Atb1,Chose_Index2_Atb2,…,Chose_Index2_Atban2,…, Chose_Indexidxn_Atb1,Chose_Indexidxn_Atb2,…,Chose_Indexidxn_Atbanidxn
则转化的数组共idxn维,第i维为指标维度Chose_Indexi,第i维的长度为Chose_ani,第i维数组的值分别为Chose_Indexi_Atb1, Chose_Indexi_Atb2,…,Chose_Indexi_Atbani
h-1-3).取出矩阵第一维数组第一个元素作为根节点,按照深度优先遍历不等长矩阵,将其转化为一棵树;
h-1-4).取出矩阵第一维数组的后续元素作为根节点,按照深度优先遍历不等长矩阵,将其转化成一棵树;
h-1-5).迭代操作步骤h-1-4),直至第一维数组元素为空;
h-1-6).按照第一维数组的元素顺序,自左至右排列矩阵转化而成多棵树的根节点顺序构建森林,森林中共有Chose_an1棵树;
h-1-7).首先按照自左至右遍历森林中的树,然后按照深度优先遍历每棵树,记录每一个遍历从树根至叶子所经历的完整路径,如 [Chose_Index1_Atb1->Chose_Index2_Atb1->Chose_Index3_Atb1->…-> Chose_Indexidxn_Atb1]、[Chose_Index1_Atb1->Chose_Index2_Atb1-> Chose_Index3_Atb1->…->Chose_Indexidxn_Atb2]、…、[Chose_Index1_Atb1-> Chose_Index2_Atb1->Chose_Index3_Atb1->…->Chose_Indexidxn_Atbanidxn],共有Chose_an1×Chose_an2×…×Chose_anidxn条路径;
h-1-8).结合属性值所属指标维度,将一条遍历路径转化为一条数据查询限定规则;如路径[Chose_Index1_Atb1->Chose_Index2_Atb1-> Chose_Index3_Atb1->…->Chose_Indexidxn_Atb1]转化为一条规则: Chose_Index1 matches Chose_Index1_Atb1 And Chose_Index2 matches Chose_Index2_Atb1 And Chose_Index3 matches Chose_Index3_Atb1And… And Chose_Indexidxn matches Chose_Indexidxn_Atb1,共有Chose_an1× Chose_an2×…×Chose_anidxn条数据查询规则;
h-1-9).按照顺序抽取一条数据查询规则,在抓取的数据中进行查询,找出满足规则的数据集合Dataseti
若目标维度为需求量,则对Dataseti进行统计求和获取结果Resulti
若目标维度为平均月薪,则对Dataseti进行统计平均获取结果Resulti
h-1-10).迭代操作h-1-9),直至抽取完所有的数据查询规则,汇总每条数据查询规则所获得的结果Resulti,返回量化分析结果集ResultSet;
步骤h)中数值型数据的热点分析方法如下:
在需求量和平均月薪的热点分析中,限定维度岗位默认为不限,因此在统计指标维度的选择情况时,并不统计该指标维度;其前9步操作与数值型数据的量化分析的步骤h-1-1)至h-1-9)相同;
h-2-10).迭代操作h-1-9),直至抽取完所有的数据查询规则,对比每条数据查询规则所获得的结果Resulti,按照用户设定抽取前若干项结果作为热点结果集TopResultSet,并抽取其对应的岗位集合TopJob;
步骤h)中带统计值的标称型分析方法如下:
在福利的热点分析中,生成数据查询规则的方法与数值型数据的量化分析的步骤h-1-1)至h-1-8)相同;
h-3-9).按照顺序抽取一条数据查询规则,在抓取的数据中进行查询,找出满足规则的数据集合Dataseti,统计Dataseti中各项福利的个数,构建福利集合WelfareSeti及相应的福利个数集合WelfareQuantitySeti
h-3-10).迭代操作h-3-9),直至抽取完所有的数据查询规则,对比每条数据查询规则所获得的福利个数集合WelfareQuantitySeti,按照用户设定抽取前若干项结果作为热点结果集TopWelfareSeti,并抽取其对应的福利个数集合WelfareQuantitySeti
步骤h)中文本型数据的量化分析方法如下:
在岗位职责和岗位要求的量化分析中,生成数据查询规则的方法与数值型数据的量化分析的步骤h-1-1)至h-1-8)相同;
h-4-9).按照顺序抽取一条数据查询规则,在抓取的数据中进行查询,找出满足规则的数据集合Dataseti,该Dataseti中的每条数据Dataj均为文本型结果,然后进行如下操作:
h-4-9-1).将每条数据Dataj作为一个元组,对其进行分词操作,将每个分词作为一个元素;
h-4-9-2).使用分词后的元组构建FP-Tree;
h-4-9-3).依据用户设定的最小支持度,使用频繁模式算法发现频繁模式;
h-4-9-4).查找每个元组中出现频繁模式次数最多最长的短句,将短句去重后组成新的句子作为查询结果Resulti
h-4-10).迭代操作h-4-9),直至抽取完所有的数据查询规则,汇总每条数据查询规则所获得的结果Resulti,返回量化分析结果集ResultSet;
步骤h)中文本型数据的热点分析方法如下:
在岗位职责和岗位要求的量化分析中,生成数据查询规则的方法与数值型数据的量化分析的步骤h-1-1)至h-1-8)相同;
h-5-9).按照顺序抽取一条数据查询规则,在抓取的数据中进行查询,找出满足规则的数据集合Dataseti,该Dataseti中的每条数据Dataj均为文本型结果,然后进行如下操作:
h-5-9-1).将每条数据Dataj作为一个元组,对其进行分词操作,将每个分词作为一个元素;
h-5-9-2).使用分词后的元组构建FP-Tree;
h-5-9-3).依据用户设定的最小支持度,使用频繁模式算法发现频繁模式;
h-5-9-4).利用每个行业的技能或素养词典,查找频繁模式中的技能或素养,利用此代表技能或素养的频繁模式构建查询结果Resulti
h-5-10).迭代操作h-5-9),直至抽取完所有的数据查询规则,汇总每条数据查询规则所获得的结果Resulti,返回分析结果集ResultSet。
本发明的基于大数据的区域人才需求量化分析方法,步骤i)中数值型数据的量化分析结果可视化方法如下:
i-1-1).初始时令选择多值的维度数Dimension_Count=0;
i-1-2).查看区域维度、动态维度和限定维度,计算选择多值的维度数,
若区域维度选择了多个区域,则Dimension_Count加1;
若动态维度选择了多个对比时段,则Dimension_Count加1;
从限定维度中取出一个指标维度,若该指标维度选择了多个值,则 Dimension_Count加1,迭代此操作,直至限定维度中的指标维度为空;
i-1-3).若Dimension_Count的值等于0,表明除目标维度需求量或月薪外,其余指标维度至多选取了一个值,则最终得到的数值型结果为单一值,采用仪表盘展现,仪表盘的刻度即为最终结果;
i-1-4).若Dimension_Count的值等于1,表明除目标维度需求量或月薪外,有一个指标维度选择了多个值,将此选择了多值的指标维度称为 Chart_Index,其余指标维度至多选取了一个值,则最终得到的结果为一维数组,采用饼图、单系列折线图或单系列柱图展现;单系列折线图和单系列柱形图的纵坐标表示岗位数或平均月薪,横坐标表示Chart_Index,折线图中的一个折点和柱形图中的一列对应着Chart_Index的一个值;饼图中的一个区域对应着Chart_Index的一个值,使用区域的大小说明岗位数或平均月薪;
i-1-5).若Dimension_Count的值等于2,表明除目标维度需求量或月薪外,有两个指标维度选择了多个值,其余指标维度至多选取了一个值;
i-1-5-1).若选择了多值的两个指标维度中包含区域维度或动态维度,则将含有多值的区域维度或动态维度标识为Chart_Index1,将最后选中的限定维度标识为Chart_Index2;
i-1-5-2).若选择了多值的两个指标维度中包含区域维度和动态维度,则将动态维度标识为Chart_Index1,将区域维度标识为Chart_Index2;
i-1-5-3).若选择了多值的两个指标维度中不包含区域维度或动态维度,将指标维度按照选择顺序分别标识为Chart_Index2和Chart_Index1;
分析所得到的最终结果为二维数组,应采用多系列折线图或多系列柱图展现;多系列折线图和多系列柱形图的纵坐标表示岗位数或平均月薪,横坐标表示Chart_Index1,图表中的一个系列表示Chart_Index2的一个选择值;
i-1-6).若Dimension_Count的值大于2,表明除目标维度需求量或月薪外,至少有三个指标维度选择了多个值,假定选中了多值的指标维度个数为idxn,
i-1-6-1).若选择了多值的指标维度中包含区域维度或动态维度,则将含有多值的区域维度或动态维度标识为Chart_Index1,将最后选中的限定维度标识为Chart_Index2;
i-1-6-2).若选择了多值的指标维度中包含区域维度和动态维度,则将动态维度标识为Chart_Index1,将区域维度标识为Chart_Index2;
i-1-6-3).若选择了多值的指标维度中不包含区域维度或动态维度,将指标维度按照选择顺序分别标识为Chart_Index2和Chart_Index1;
i-1-6-4).将其他选择了多值的限定维度按照选择顺序依次标识为 Chose_Indexidxn-2,Chose_Indexidxn-3,…,Chose_Index1,假定限定维度 Chose_Index1,Chose_Index2,…,Chose_Indexidxn-2选定值的个数分别是 ChIdxN1,ChIdxN2,…,ChIdxNidxn-2
首先,使用限定维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-2构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn-2行idxn-1列的表格,表格的第1列到第idxn-2列分别对应限定维度Chose_Index1,…,Chose_Indexidxn-2;表格第i行j列单元格的值则为限定维度Chose_Indexj
Figure DEST_PATH_GDA0001370006670000221
个值,其中j<idxn-1;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-2个小单元格,合并后的单元格i将取Chose_Indexj的第i个值;
最后,第idxn-1列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-2个单元格,每个单元格中包含一个多系列折线图或多系列柱图;多系列折线图和多系列柱形图的纵坐标表示岗位数或平均月薪,横坐标表示Chart_Index1,图表中的一个系列表示Chart_Index2的一个选择值;
步骤i)中数值型数据的热点分析结果可视化方法如下:
热点分析的热招岗位和高薪岗位分析限定维度岗位的默认值为不限,也即默认选定了指标维度岗位的所有值,因此至少有一个指标维度选择了多个值;图表生成方案如下:
i-2-1).初始时令选择多值的维度数Dimension_Count=0;
i-2-2).查看区域维度、动态维度和限定维度,计算选择多值的维度数,
若区域维度选择了多个区域,则Dimension_Count加1;
若动态维度选择了多个对比时段,则Dimension_Count加1;
从限定维度中取出一个指标维度,若该指标维度选择了多个值,则 Dimension_Count加1,迭代此操作,直至限定维度中的指标维度为空;
i-2-3).若Dimension_Count的值等于1,表明除限定维度岗位外,其余指标维度至多选取了一个值,则最终得到的结果为一维数组,直接采用一个柱形图展现既可;柱形图的纵坐标表示热招岗位的岗位数或高薪岗位的平均月薪,横坐标表示限定维度岗位,图中的每一列对应一个根据条件选出的具体岗位名称,其自左至右降序排列;
i-2-4).若Dimension_Count的值等于2,表明除限定维度岗位外,还有一个指标维度选取了多个值,将此指标维度标识为Chose_Index;
i-2-4-1).若该Chose_Index是动态维度,参与对比分析的时间段个数为itvn,则构建一个1行itvn列的表格,表格的一列表示一个参与对比分析的时间段,每一个单元格为相应时间段内热招岗位或高薪岗位情况,采用一个柱形图展现;
i-2-4-2).若该Chose_Index是区域维度或其他限定维度,选中值的个数为vlun,则构建一个vlun行1列的表格,表格的一行表示一个区域或一个限定维度的值,每一个单元格表示相应区域或限定条件的热招岗位或高薪岗位情况,采用一个柱形图展现;
i-2-5).若Dimension_Count的值大于2,表明除限定维度岗位外,还有至少两个指标维度选取了多个值,假定选中了多值的指标维度个数为 idxn;
i-2-5-1).若选择了多值的指标维度中包含动态维度,假定参与对比分析的时间段个数为itvn,
若选择了多值的指标维度中包含区域维度,将区域维度标识为 Chose_Indexidxn-2,将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn-3,Chose_Indexidxn-4,…,Chose_Index1
若选择了多值的指标维度中不包含区域维度,将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn-2,Chose_Indexidxn-3,…, Chose_Index1
假定限定维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-2选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn-2
首先,使用指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-2构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn-2行idxn-1+itvn列的表格,表格的第 1列到第idxn-2列分别对应指标维度Chose_Index1,…,Chose_Indexidxn-2;表格第i行j列单元格的值则为限定维度Chose_Indexj
Figure DEST_PATH_GDA0001370006670000231
个值,其中j<idxn-1;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-2个小单元格,合并后的单元格i将取Chose_Indexj的第i个值;
最后,第idxn-1列到第idxn-1+itvn列分别对应一个对比时段的情况,每一列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-2个单元格,每一个单元格表示一个对比时段相应区域或限定条件的热招岗位或高薪岗位情况,采用一个柱形图展现;
i-2-5-2).若选择了多值的指标维度中不包含动态维度:
若选择了多值的指标维度中包含区域维度,将区域维度标识为 Chose_Indexidxn-1,将其他选择了多值的限定维度按照选择顺序依次标识为 Chose_Indexidxn-2,Chose_Indexidxn-3,…,Chose_Index1
若选择了多值的指标维度中不包含区域维度,将其他选择了多值的限定
维度按照选择顺序依次标识为Chose_Indexidxn-1,Chose_Indexidxn-2,…,
Chose_Index1
假定指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-1选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn-1
首先,使用指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-1构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn-1行idxn列的表格,表格的第1列到第idxn-1列分别对应指标维度Chose_Index1,…,Chose_Indexidxn-1;表格第i 行j列单元格的值则为限定维度Chose_Indexj
Figure DEST_PATH_GDA0001370006670000241
个值,其中j<idxn;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-1个小单元格,合并后的单元格i将取Chose_Indexj的第i个值;
最后,第idxn列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-1个单元格,每一个单元格表示相应区域或限定条件的热招岗位或高薪岗位情况,采用一个柱形图展现;
步骤i)中带统计值的标称型分析结果可视化方法如下:
仅对指标维度福利进行热点分析,通过对各组织提供福利的统计可得到各种福利的热点,在此也采用单系列柱形图加表格的形式展示,图表生成方案如下:
i-3-1).初始时令选择多值的维度数Dimension_Count=0;
i-3-2).查看区域维度、动态维度和限定维度,计算选择多值的维度数,
若区域维度选择了多个区域,则Dimension_Count加1;
若动态维度选择了多个对比时段,则Dimension_Count加1;
从限定维度中取出一个指标维度,若该指标维度选择了多个值,则Dimension_Count加1,迭代此操作,直至限定维度中的指标维度为空;
i-3-3).若Dimension_Count的值等于1,表明有一个指标维度选取了多个值,将此指标维度标识为Chose_Index;
i-3-3-1).若该Chose_Index是动态维度,参与对比分析的时间段个数为itvn,则构建一个1行itvn列的表格,表格的一列表示一个参与对比分析的时间段,每一个单元格为相应时间段内提供福利待遇情况,采用一个柱形图展现;柱形图的横坐标表示福利,纵坐标为各种福利的统计值,图中的每一列对应一个根据条件选出的福利名称,其自左至右降序排列;
i-3-3-2).若该Chose_Index是区域维度或其他限定维度,选中值的个数为vlun,则构建一个vlun行1列的表格,表格的一行表示一个区域或一个限定维度的值,每一个单元格表示相应区域或限定条件下提供福利待遇情况,采用一个柱形图展现;
i-3-4).若Dimension_Count的值大于1,表明至少两个指标维度选取了多个值,假定选中了多值的指标维度个数为idxn;
i-3-4-1).若选择了多值的指标维度中包含动态维度,假定参与对比分析的时间段个数为itvn;
若选择了多值的指标维度中包含区域维度,将区域维度标识为 Chose_Indexidxn-1,将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn-2,Chose_Indexidxn-3,…,Chose_Index1
若选择了多值的指标维度中不包含区域维度,将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn-1,Chose_Indexidxn-2,…, Chose_Index1
假定限定维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-1选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn-1
首先,使用指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-1构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn-1行idxn-1+itvn列的表格,表格的第1 列到第idxn-1列分别对应指标维度Chose_Index1,…,Chose_Indexidxn-1;表格第i行j列单元格的值则为限定维度Chose_Indexj
Figure DEST_PATH_GDA0001370006670000261
个值,其中j<idxn;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-1个小单元格,合并后的单元格i将取Chose_Indexj的第i个值;
最后,第idxn-1列到第idxn-1+itvn列分别对应一个对比时段的情况,每一列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-1个单元格,每一个单元格表示一个对比时段相应区域或限定条件下提供福利待遇情况,采用一个柱形图展现;
i-3-4-2).若选择了多值的指标维度中不包含动态维度,
若选择了多值的指标维度中包含区域维度,将区域维度标识为 Chose_Indexidxn,将其他选择了多值的限定维度按照选择顺序依次标识为 Chose_Indexidxn-1,Chose_Indexidxn-2,…,Chose_Index1
若选择了多值的指标维度中不包含区域维度,将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn,Chose_Indexidxn-1,…, Chose_Index1
假定指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn
首先,使用指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn行idxn+1列的表格,表格的第1列到第idxn列分别对应指标维度Chose_Index1,…,Chose_Indexidxn;表格第i行j 列单元格的值则为限定维度Chose_Indexj
Figure DEST_PATH_GDA0001370006670000271
个值,其中j<idxn+1;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn个小单元格,合并后的单元格i将取Chose_Indexj的第i个值;
最后,第idxn列有ChIdxN1×ChIdxN2×...×ChIdxNidxn个单元格,每一个单元格表示相应区域或限定条件下提供福利待遇情况,采用一个柱形图展现;
步骤i)中文本型数据分析结果可视化方法如下:
指标维度岗位职责和岗位要求的量化分析结果和热点分析结果均以文本的形式体现,不同之处在于量化分析的结果为长句,而热点分析所得到的多个关键词;对此量化分析将采用表格加文本内容的形式展现,热点分析将采用表格加球状旋转效果展现,图表生成方案如下:
i-4-1).初始时令选择多值的维度数Dimension_Count=0;
i-4-2).查看区域维度、动态维度和限定维度,计算选择多值的维度数;
若区域维度选择了多个区域,则Dimension_Count加1;
若动态维度选择了多个对比时段,则Dimension_Count加1;
从限定维度中取出一个指标维度,若该指标维度选择了多个值,则Dimension_Count加1,迭代此操作,直至限定维度中的指标维度为空;
i-4-3).若Dimension_Count的值等于1,表明有一个指标维度选取了多个值,将此指标维度标识为Chose_Index;
i-4-3-1).若该Chose_Index是动态维度,参与对比分析的时间段个数为itvn,则构建一个1行itvn列的表格,表格的一列表示一个参与对比分析的时间段;量化分析中每一个单元格为相应时间段内岗位职责或岗位要求情况,直接实用文本填充;热点分析中每一个单元格为相应时间段内热门技能或基本素养情况,采用关键词球状旋转效果展现,将技能或素养关键词均匀的分布到球体上,并随着鼠标的滑动而旋转;
i-4-3-2).若该Chose_Index是区域维度或其他限定维度,选中值的个数为vlun,则构建一个vlun行1列的表格,表格的一行表示一个区域或一个限定维度的值,量化分析中每一个单元格为相应区域或限定条件下岗位职责或岗位要求情况;热点分析中每一个单元格为相应区域或限定条件下热门技能或基本素养情况;
i-4-4).若Dimension_Count的值大于1,表明至少两个指标维度选取了多个值,假定选中了多值的指标维度个数为idxn;
i-4-4-1).若选择了多值的指标维度中包含动态维度,假定参与对比分析的时间段个数为itvn;
若选择了多值的指标维度中包含区域维度,将区域维度标识为 Chose_Indexidxn-1,将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn-2,Chose_Indexidxn-3,…,Chose_Index1
若选择了多值的指标维度中不包含区域维度,将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn-1,Chose_Indexidxn-2,…, Chose_Index1
假定限定维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-1选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn-1
首先,使用指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-1构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn-1行idxn-1+itvn列的表格,表格的第1 列到第idxn-1列分别对应指标维度Chose_Index1,…,Chose_Indexidxn-1;表格第i行j列单元格的值则为限定维度Chose_Indexj
Figure DEST_PATH_GDA0001370006670000281
个值,其中j<idxn;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-1个小单元格,合并后的单元格i将取Chose_Indexj的第i个值;
最后,第idxn-1列到第idxn-1+itvn列分别对应一个对比时段的情况,每一列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-1个单元格,量化分析中每一个单元格为相应时间段内岗位职责或岗位要求情况,直接实用文本填充;热点分析中每一个单元格为相应时间段内热门技能或基本素养情况,采用关键词球状旋转效果展现,将技能或素养关键词均匀的分布到球体上,并随着鼠标的滑动而旋转;
i-4-4-2).若选择了多值的指标维度中不包含动态维度,
若选择了多值的指标维度中包含区域维度,将区域维度标识为 Chose_Indexidxn,将其他选择了多值的限定维度按照选择顺序依次标识为 Chose_Indexidxn-1,Chose_Indexidxn-2,…,Chose_Index1
若选择了多值的指标维度中不包含区域维度,将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn,Chose_Indexidxn-1,…, Chose_Index1
假定指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn
首先,使用指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn行idxn+1列的表格,表格的第1列到第 idxn列分别对应指标维度Chose_Index1,…,Chose_Indexidxn;表格第i行j 列单元格的值则为限定维度Chose_Indexj
Figure DEST_PATH_GDA0001370006670000291
个值,其中j<idxn+1;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn个小单元格,合并后的单元格i将取Chose_Indexj的第i个值;
最后,第idxn列有ChIdxN1×ChIdxN2×...×ChIdxNidxn个单元格,量化分析中每一个单元格为相应区域或限定条件下岗位职责或岗位要求情况;热点分析中每一个单元格为相应区域或限定条件下热门技能或基本素养情况。
本发明的有益效果是:首先,在区域视角下,以零散的各类组织招聘信息数据为采集和分析对象,采用大数据处理技术进行汇总、统计、挖掘等处理,秒级获取区域人才需求分析和多区域人才需求对比分析,为区域人才政策和计划的制定提供论据和支撑;其次,通过上卷和下钻分析粒度的变换,动态跟踪追寻人才需求变化的底层根源,实现宏观-微观不同分析视角的切换;再次,依据用户分析目标,组合各类指标维度构建不同指标体系,可在相同数据基础上同时进行多主题分析,生成多份分析报告,借助信息化技术提高数据利用率降低分析成本;最后,图表模式的分析结果呈现,可满足多类用户不同角度的信息解读,同时满足政府、企业和个人等多方信息需求。
附图说明
图1给出了第一维数组第一个元素作为根节点的树。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
本发明提出了一种基于大数据的区域人才需求量化分析系统,基于大数据的区域人才需求量化分析方法的步骤如下:
步骤一:区域内人才需求相关数据采集
在本步骤中首先需要明确采集目标,在纷繁多样的网络数据中准确定位能够反映人才需求的数据,然后根据目标数据源的特点确定采集方法。因此,本步骤包含以下两个阶段:
阶段一:确定采集目标
1、确定目标数据源类型
人才需求分析的基础是数据,优质可量化,且能够实时反映区域人才需求的数据是做好分析的前提。因此,本系统所面临的首要问题即是目标数据源的确定。当前,人才的真实需求掌握在政府机关、事业单位、企业等各级各类实体组织中,其对人才需求最直接的体现即为招聘信息。因此,招聘信息可作为系统分析的目标数据对象。然而通过抽样或问卷调查等人工方式,从各实体组织中获取区域内较为完备的招聘信息数据集并非是一种有效的常态机制。且人工的方式不具有可持续性,而需求会随时变化,难以满足精准分析的要求。
网络作为信息的集散地,为公众信息发布提供实时平台,因此从网络上寻找组织招聘信息线索,是实时获取人才需求动态的有效方式。大型组织一般拥有自己的网站,招聘信息可在站内发布。中小型组织即使部分也有自己的网站,然而在知名度和影响力不足的情况下很难被大众所关注,因此一般会在专门的招聘网站发布招聘信息。政府机关和事业单位一般都是通过招考信息发布招聘信息。此外,各大学的校招网和各区域人社网网站等也都是招聘信息集中发布平台。
综上,本系统的目标数据源大致可分为三类:招聘网站,大型组织、大学、人社局等网站的招聘版块,以及编制招考信息。
2、确定目标数据源采集范围
确定好目标数据源类型后下一步则要决定在多大范围内采集这些目标数据源。
首先,本系统目标是为区域提供人才需求分析,因此,处在本区域内实体组织网站的招聘版块及面向本区域的招聘网站是采集的首要目标。
其次,单独一个区域的分析并不能体现本区域的优势及不足,只有在多个同级区域对比分析中才能找到问题,为政策的制定提供依据,因此,本系统将同一行政区下所有与指定区域同级的区域也都纳入到采集的范围。
例如,指定某一地市为分析区域,则该地市所属省或自治区内的所有地市均需被纳入采集范围,也即需要采集该省或自治区内所有招聘网站,大型组织、大学、人社局等网站的招聘版块,以及编制招考信息。
阶段二:设计采集方案
随着网络信息的爆炸,分布式爬虫已成为搜索、舆情、自动问答等依赖网络数据系统的基本网络数据采集工具。本系统也采用分布式爬虫采集指定范围内的目标数据源。
大型组织、大学、人社局等网站的招聘版块和编制招考信息的更新频率不高,可直接使用现有分布式爬虫的抓取策略采集信息。而招聘网站同时服务于诸多实体组织,承载着诸多组织的招聘信息,更新频率极高,特别在用人高峰期及毕业投档期其更新频率会更高,若不能及时有效的捕捉将会严重影响分析的准确性,导致结果的误导。受目标数据源服务器的限制,同一IP地址的爬虫在一定时间内只能采集同一目标服务器限定的数据。当前抓取策略的种子链接分配策略一般是以域名(主机)为单位,将同一域名的数据交由一个爬取节点采集。显然,将一个招聘网站完全交由一个爬取节点采集,无法做到数据采集的完备性。因此,本系统将一个招聘网站分配到多个爬取节点共同采集。
针对招聘网站的数据采集,本发明采用的方案为:
1、将所有目标招聘网站的域名分配到全部爬取节点。
2、将同一域名的招聘网站信息分割为互不相交的子集,每个爬取节点负责一个子集的采集。划分招聘网站信息的方法有多种,本发明采用职位类别划分网站。一般招聘网站均将职位类别列为工作分类的重要维度,并使用一个参数标识该维度,通过域名加参数的方式即可获得该职位类别下工作岗位的详细列表。利用职位类别可将招聘网站大致划分成互不相交子集。因此本发明利用这个特性,在将域名分给所有爬取节点的同时,为不同的爬取节点分配互不相交的职位类别及标识该职位类别的参数,以此将招聘网站划分成互不相交的子集分配给各爬取节点。
3、各爬取节点通过招聘网站加所分配职位类别参数的方式,向招聘网站发送请求,获取工作岗位列表,此列表即是需要采集的目标数据源列表 URL_Init_List。
4、为进一步避免同一时间过于集中地采集同一域名的招聘网站,本系统并没有在得到URL_Init_List后即刻采集网页,而是将URL_Init_List中的 URL地址进行混排生成最终采集目标数据源列表URL_Final_List。其方案如下:
首先将URL_Init_List中的URL地址按照主机分组划分成若干子列表;然后采用随机方法随机挑选一个子列表,并在该子列表中随机选择一个未被选中过的URL地址放入URL_Final_List;迭代子列表和URL地址的选择过程直至选完所有子列表的所有URL地址。
5、爬取节点在得到URL_Final_List后,采集网页数据。
步骤二:信息提取、清洗和存储
阶段一:信息提取
1、有效信息提取
依据URL_Final_List列表的URL地址所采集的数据是原始的非结构化网页,其中会杂陈诸多广告、友情链接、同类推荐等无关信息。因此在预处理中过滤此类无关信息抽取有效信息是后续处理的关键。本发明采用 DOM树的方法和基于行块分布函数方法抽取目标网页中的数据。
2、结构化信息提取
在剔除无关信息后所获得网页仍是非结构化的HTML代码块,而各类数据分析算法所处理的数据对象均是结构化数据,因此从非结构化的数据中准确提取结构化的数据是后续处理的前提。并非网页中的所有数据均是提取目标,结合人才需求分析目标,通过对各类招聘信息的整理汇总,需要从招聘信息中提取组织名称、岗位、职位、月薪、学历、工作年限、组织规模、所属行业、组织性质、招聘人数、提供福利、岗位职责、岗位要求、年龄要求、工作地点、发布时间等信息,每个信息定义一个指标维度,所有的指标维度组成指标维度列表。指标维度的抽取方法如下。
2-1每个招聘类的网站格式都较为固定。通常通过岗位列表罗列招聘信息,再通过超链接详情页面展示每个招聘的详细信息,而详情页面所展示的内容也有较为固定的格式。因此可通过为每个招聘网站设计模板的方式,利用正则表达式提取所需信息,在非结构化页面中提取各个指标维度的值存储于结构化数据库。
2-2各类网站的招聘板块和编制招考信息在发布招聘信息时则较为随意没有固定的格式,通常会在详情页面中使用表格(table)展示招聘信息。然而哪些指标维度会出现在表格中则较为随意,并非每次都会出现全部指标维度,且指标维度并没有固定的展示顺序也较为随意,显然正则表达式的方法并不适于此种情形的数据提取。因此本发明直接处理表格从中提取指标维度的值,方案如下:
(1)获取表格
在详情页面中由于页面布局的原因可能会存在多个表格的情形,所以首先通过能够标识表格的属性在多个表格中抽取记录招聘信息的表格。
(2)表格去噪
网页中的表格使用HTML语言书写,其中会存在诸多控制页面显示格式的DIV、CSS及与表格无关的HTML标签,在处理表格时首先去除无效标签,只保留与表格显示和控制相关的标签,如table、tr、td、colspan等。
(3)表格标准化
因为并无规定格式所以表格的样式会很随意,在处理过程中需分割多行多列的单元格,将表格转化成简单表格,使得表格中的每个单元格只占一行一列且只有一个值。
(4)判断表格横竖
发布招聘信息时既可采用横表(将指标维度放到第一行,下面每行存储一个岗位的信息),也可采用纵表(将指标维度放到第一列,右面其余每列存储一个岗位的信息),因此需要判断记录招聘信息的表格是横表还是纵表。取表格的第一行表格的单元格值和第一列表格的单元格值,分别与各个指标维度进行匹配,比较第一行和第一列单元格值的命中率,若第一行单元格值的命中率高则为横表,否则为纵表。
(5)提取键值序列
若表格为横表,则将第一行单元格的值映射到相应的指标维度,相应列单元格的值即为指标维度的值,形成键值对将无结构的HTML表格转化成结构化的键值对,进而存储到结构化数据库。
纵表与横表类似,将第一列单元格的值映射到指标维度,相应行单元格的值即为指标维度的值,提取键值对存储到结构化数据库。
阶段二:数据清洗
1、指标维度标准化
不同网站在发布招聘信息时并无统一标准,这就造成不同网站招聘信息中各维度所使用的指标体系不一致。以维度组织性质为例,各网站所采用的指标体系就有超过六种之多,其中既有按“国家机关、全民企业单位、全民事业单位、社会团体、集体企业、民办企业、外资企业”指标体系分类的网站,也有按“党政机关、科研设计单位、高等教育单位、中等、初等教育单位、医疗卫生单位、艰苦行业事业单位、其他事业单位、国有企业、三资企业、艰苦行业企业、其他企业、部队”指标体系分类的网站,还有按“国家行政企业事业单位、公私合作企业事业单位、中外合资企业事业单位、社会组织机构、国际组织机构、外资企业事业单位、私营企业事业单位、集体企业事业单位、国防军事企业事业单位”指标体系分类的网站等等不一而足。
此外,不同网站招聘信息中给出的各指标维度值也并不统一。如指标维度组织规模,部分网站直接使用“大、中、小、微”为其赋值,也有部分网站通过从业人员数为其赋值,另有部分网站通过营业收入为其赋值。
综上,指标维度标准化包含两类:一是指标维度所采用指标体系的标准化,二是指标维度值的标准化。
1-1多指标体系标准化
针对各指标维度所采用的指标体系不一致的情形,采用具体的方法为各个指标体系构建映射方法。首先,将指标维度使用最广泛的指标体系作为标准指标体系;其次,抽取标准指标体系中的指标作为概念构建本体,将各级指标体系映射到本体概念层次结构的类和子类;再次,抽取指标维度使用的其他指标体系中的指标;最后依据其他指标体系中指标与本体中概念的功能相似性,将其他指标体系中的指标作为概念的实例引入本体。通过本体概念与本体实例之间的关系,建立标准指标体系与其他指标体系之间的映射关系,将指标体系统一到标准指标体系,实现多指标体系指标维度的标准化。
1-2指标维度值标准化
针对指标维度值不一致的情形,采用量化表或公式的方式统一指标维度的赋值。首先规定一种赋值为标准值;然后利用量化表或公式,为指标维度的各种不同赋值建立映射关系,将不同的赋值转化为标准值。
2、数据去重
一个组织为扩大招聘信息的受众覆盖面,将会在一个媒体持续发布一段时间,还可能会在多个媒体中广泛发布,因此从网页中提取的信息在存储之前需要进行清洗,过滤重复发布的信息。
2-1同一媒体发布数据去重
URL是互联网资源的唯一标识,因此判断同一媒体发布的信息是否重复可以依靠资源的URL,同一URL地址的信息只需采集存储一次即可。
2-2多个媒体发布数据去重
同一招聘信息发布于不同媒体其URL地址不同,因此不能简单依靠 URL地址判断信息是否重复,需要对比不同媒体招聘内容中提取的各个指标维度是否相似。
(1)对比组织名称是否相同,若相同则对比招聘职位是否相同,若相同转入(2);
(2)对比岗位职责和岗位要求的相似度,通过文本相似度算法,若相似度超过75%转入(3)
(3)对比不同媒体招聘信息的发布时间,若发布时间差小于7天转入(4)
(4)对比结果判定为重复信息,统一不同媒体中各指标维度值。对于诸如学历等序数属性类的指标维度取较低的值作为统一值;对于诸如福利等标称属性类的指标维度取各指标维度值的合集作为统一值;对于诸如需求量、月薪等区间数值属性类的指标维度取各指标维度值的最小和最大值,按照加权平均的方法求取平均数作为统一值。
(5)若(1)、(2)、(3)中有任意一条不满足,则认为是非重复招聘信息,提取信息后直接存储于结构化数据库中
阶段三:数据存储
为便于各指标维度的分析宜采用结构化的数据库存储从网页中提取的数据。鉴于区域人才需求量化分析所涉及的数据并不仅局限于本区域,而是综合同一行政区下所有与指定区域同级的区域数据一同分析,因此随着区域的范围的扩大,数据也是成倍增长。结合各类数据库的特征,在区域范围较小时,可采用关系数据进行存储。随着区域范围的增大,建议采用基于分布式文件存储的数据库,如MongoDB、HBase等。
网页中所提取的每一个指标维度使用结构化数据库中一列存储。为方便招聘信息的归类统计将网页URL、招聘信息媒体来源、所属区域也作为一个指标维度存储于数据库一列。此外为方便时间跨度方面的统计分析,将招聘信息的有效持续结束时间也作为一个指标维度存储于数据库一列。同时若指标维度是区间标度属性,如招聘人数、月薪。则在存储过程中将其分成区间起始值和区间终止值分别存储指标维度的首尾值。
步骤三:区域人才需求量化分析
阶段一:指标维度分类
从招聘信息中提取的诸多指标维度根据其功用分为四类:区域维度、动态维度、目标维度和限定维度。
1、区域维度
区域维度用于指定分析的目标区域。区域维度的分析可以分成两类:本区域人才需求分析和多区域人才需求对比分析。
2、动态维度
动态维度用于指定分析的时间范围。动态维度的分析可以分成两类:一定时间段的整体宏观分析和时间演化分析。
3、目标维度
人才需求分析的主要目标在于向用户展示本区域需要什么样的人才、人才需求量有多少、为人才能够提供什么样的薪水和待遇等等。因此系统将人才需求量化分析结果所关注的指标维度指定为目标维度,也即目标维度指定了统计结果的呈现角度。目标维度包含五个:需求量(招聘人数)、月薪、福利、岗位职责和岗位要求。其中需求量和月薪是区间标度类属性,将通过均值呈现其结果;福利属于标称类属性,将通过众数呈现其结果;而岗位职责和岗位要求则是一串无限定文本,将通过文本分析使用频繁模式算法呈现结果。
4、限定维度
限定维度用于指定分析的限定条件。除区域维度、动态维度和目标维度外的其他指标维度均是限定维度,包含岗位、职位、学历、年限、组织规模、所属行业等等指标维度。
阶段二:分析分类
各种指标维度按照不同方式组合可产生诸多不同结果,为使结果条理清晰更易于被用户所理解,采用区域维度和动态维度相组合的方式对分析进行大类划分。分析可分为四型分析:Ⅰ型分析、Ⅱ型分析、Ⅲ型分析和Ⅳ型分析。
其中,Ⅰ型分析为本区域一定时间段内整体宏观人才需求分析;Ⅱ型分析为本区域随时间演化人才需求趋势分析;Ⅲ型分析为多区域一定时间段整体宏观人才需求对比分析;Ⅳ型分析为多区域随时间演化人才需求变化趋势对比分析。
而四型分析按其分析所获的结果是以量的形式体现还是以序的形式体现,又可将每一类分为需求量化分析和需求热点分析两个小类,共计八个小类的分析。目标维度中的指标维度福利属于标称属性,单纯的统计其数量意义不大,因此福利分析不纳入各型的量化分析,仅对其进行热点分析。
下面分别介绍每类分析解决的问题及分析流程。
1、Ⅰ型需求量化分析
Ⅰ型需求量化分析可从多角度多层面对指定区域的人才需求量、月薪水平,以及对人才的技能和素质要求做出有效分析,全面量化剖析指定区域人才的情况,明确区域人才构成,实现量化“知己”。分析流程如下。
首先,需要在区域维度中选择一个区域作为分析区域;
其次,需要在动态维度中选择一个时段作为分析时段;
再次,在限定维度中选择0到多个指标维度作为分析的限定条件,限定维度的选择并无任何要求,可以不选择任一限定维度,也可以选择一个限定维度的一个值或多个值,还可以选择多个限定维度,每个限定维度选择一个值或每个限定维度选择多个值;
最后,需要在目标维度中选择一个指标维度作为分析维度,
①当选择的目标维度是需求量时,未指定限定维度,可宏观地说明划定时间段内指定区域总的人才需求量有多少。通过指定单一限定维度,可分析划定时间段内指定区域在不同行业、不同类型、不同规模企业或不同学历等方面人才的需求量。通过限定维度的组合,可分析指定区域更为详细的人才需求情况,如分析计算机软件行业国有企业对应届毕业生和有10 年以上工作经验人才的需求量分别是多少,或分析从事服务业的民营企业对中专、大专和本科不同学历人才的需求量分别是多少等等。
②当选择的目标维度是月薪时,未指定限定维度,可宏观地说明划定时间段内指定区域提供的平均月薪有多少。通过指定单一限定维度,可分析划定时间段内指定区域在不同行业、不同类型、不同规模企业或不同学历等方面人才的平均月薪差别。通过限定维度的各种组合,可分析指定区域不同类型人才薪水对比情况,如分析计算机软件行业国有企业不同工作年限能够拿到的平均月薪,或学历对从事服务业的民营企业所拿平均月薪的影响等等。
③当选择的目标维度是岗位职责时,未指定限定维度,可宏观地说明划定时间段内指定区域最需要人才掌握的技能是什么。通过指定单一限定维度,可分析划定时间段内指定区域在不同行业、不同岗位或不同学历等方面对人才技能的不同需求。通过限定维度的各种组合,可分析指定区域不同类型组织对人才技能的详细需求,如分析不同行业相同岗位对技能需求的异同,或相同行业不同岗位对技能需求的异同等等。
④当选择的目标维度是岗位要求时,未指定限定维度,可宏观地说明划定时间段内指定区域对人才的素质要求是什么。通过指定单一限定维度,可分析划定时间段内指定区域在不同行业、不同岗位或不同学历等方面对人才素质的要求。通过限定维度的各种组合,可分析指定区域不同类型组织对人才素质的详细需求,如分析不同行业相同岗位不同学历对素质需求的异同,或相同行业不同性质的企业对素质需求的异同等等。
2、Ⅰ型需求热点分析
Ⅰ型需求热点分析可从多角度多层面对指定区域的热招岗位、高薪岗位,最具激励性的福利待遇,以及需要优先引进人才必备的技能和素质做出有效分析,明确区域发展擅长领域及优势,发现人才发展缺口,从市场需求角度为区域持续发展提供方向指导。分析流程如下。
首先,需要在区域维度中选择一个区域作为分析区域;
其次,需要在动态维度中选择一个时段作为分析时段;
再次,在限定维度中选择0到多个指标维度作为分析的限定条件,此分析中限定维度的选择并无任何要求,可以不选择任一限定维度,也可以选择一个限定维度的一个值或多个值,还可以选择多个限定维度,每个限定维度选择一个值或每个限定维度选择多个值;
最后,需要在目标维度中选择一个指标维度作为分析维度,
①当选择的目标维度是需求量时,限定维度中的指标维度岗位类别值默认为不限(若在此处设定岗位类别值为某一特定岗位,如销售管理或人力资源,则其分析为量化分析,其结果可由Ⅰ型需求量化分析得到),其他限定维度未指定,可获得划定时间段指定区域的热招岗位,从侧面反映了区域紧缺人才。指定一维限定维度,可分析不同行业、不同规模或不同类型企业等的热招岗位。通过限定维度的组合,可对比分析相同行业不同规模不同性质企业热招岗位的不同等等。
②当选择的目标维度是月薪时,限定维度中的指标维度岗位类别值默认为不限,其他限定维度未指定,可获得划定时间段指定区域的高薪岗位,从侧面反映了区域所需高端人才岗位。通过指定单一限定维度,可分析不同行业、不同规模或不同类型企业等的高薪岗位。通过限定维度的组合,可对比分析相同行业不同规模不同性质企业高薪岗位的不同等等。
③当选择的目标维度是福利时,未指定限定维度,可宏观地说明划定时间段内指定区域都会提供的基本福利,从侧面反映区域提供福利的基本水平。通过指定单一限定维度,可分析不同行业、不同类型或不同规模企业等的福利基本水平。特别的,当指定的单一限定维度是职位类别时,可分析从事某职业所能获得的基本福利待遇,从而帮助发现除薪水以外的提升岗位吸引力的刺激性福利。通过限定维度的组合,可对比分析在不同规模企业中从事相同职业获得福利的差别,或相同行业不同性质企业的福利差别等等。
④当选择的目标维度是岗位职责时,未指定限定维度,可宏观地说明划定时间段内指定区域所需热门技能,从侧面反映区域经济发展所依赖的支撑技术点。通过指定单一限定维度,可分析不同行业、不同类型或不同规模企业等所需热门技能。特别的,当指定的单一限定维度是职位类别时,可分析从事某职业所必备的基本技能,辅以科技文献预测分析,可帮助发现下一步应着力引进具备何种引领技能的人才,以促进技术的持续创新发展。通过限定维度的组合,可对比分析不同规模企业从事相同职业专业技能要求的差异,或相同行业不同性质企业对人才技能要求的差异等等。
⑤当选择的目标维度是岗位要求时,未指定限定维度,可宏观地说明划定时间段内指定区域所需人才的基本素质要求。通过指定单一限定维度,可分析不同行业、不同类型或不同规模企业等对人才素质的要求。特别的,当指定的单一限定维度是职位类别时,可分析从事某职业所必备的专业素养,为应聘者的自我提升提供指导。通过限定维度的组合,可对比分析不同性质企业从事相同职业专业素养的差异,或相同行业相同企业不同年龄段的从业者专业素养的差异,从而辅助从业者规划职业生涯。
3、Ⅱ型需求量化分析
Ⅱ型需求量化分析可从多角度多层面对指定区域不同阶段的人才需求量变化、月薪水平变化,以及对人才的技能和素质要求变化做出有效对比分析,采用发展的眼光纵向量化剖析指定区域,以里程碑式的区域人才发展路径,折射经济发展趋势,实现不同阶段的量化“知己”。分析流程如下。
首先,需要在区域维度中选择一个区域作为分析区域;
其次,需要在动态维度中选择对比时段作为分析时段,所选定的对比时段通常是月度、季度或年度等自然时间分割节点;
再次,在限定维度中选择0到多个指标维度作为分析的限定条件,此分析中限定维度的选择并无任何要求,可以不选择任一限定维度,也可以选择一个限定维度的一个值或多个值,还可以选择多个限定维度,每个限定维度选择一个值或每个限定维度选择多个值;
最后,需要在目标维度中选择一个指标维度作为分析维度,
①当选择的目标维度是需求量时,未指定限定维度,可宏观地说明指定区域不同时段人才需求量的变化情况,从侧面反映区域内人才的饱和程度。通过指定单一限定维度,可分析指定区域在相同行业、相同类型、相同规模企业或相同学历等方面的人才在不同时间段需求量的变动趋势,从侧面宏观分析职位需求走势、行业走势乃至经济走势。通过限定维度的组合,可分析指定区域不同时段更为详细的人才需求变动情况,如分析计算机软件行业国有企业对应届毕业生的需求量变化情况,或分析从事服务业的民营企业对学历要求的变化趋势等等。
②当选择的目标维度是月薪时,未指定限定维度,可宏观地说明指定区域不同时间段提供平均月薪的涨落情况。通过指定单一限定维度,可分析指定区域在相同行业、相同类型、相同规模企业或相同学历等方面人才平均月薪随时间演进的变化情况,从侧面反映社会财富的在各社会分工中的分配情况。通过限定维度的各种组合,可分析指定区域不同类型人才薪水变化情况,如分析计算机软件行业国有企业应届毕业生平均月薪的变化,或随时间演进学历对从事服务业的民营企业所拿平均月薪涨幅的影响等等。
③当选择的目标维度是岗位职责时,未指定限定维度,可宏观地说明指定区域随时间演进对人才掌握技能的变化。通过指定单一限定维度,可分析指定区域不同时间段在相同行业、相同岗位或相同学历等方面对人才技能需求的变化,从侧面反映了技术的走向。通过限定维度的各种组合,可分析指定区域相同类型人才技能需求走向,如分析教育培训行业具有硕士学位的人员掌握技能的变化情况等等。
④当选择的目标维度是岗位要求时,未指定限定维度,可宏观地说明指定区域对人才素质要求的变化情况。通过指定单一限定维度,可分析指定区域不同时间段在相同行业、相同岗位或相同学历等方面对人才素质要求的变化情况。通过限定维度的各种组合,可分析指定区域相同类型组织随时间演进对人才素质的需求变化情况,如分析相同行业相同性质的企业对招聘人员素质需求的变化等等。
4、Ⅱ型需求热点分析
Ⅱ型需求热点分析可从多角度多层面对指定区域不同阶段热招岗位变化、高薪岗位变化、基本福利变化,以及需要优先引进人才必备技能和素质的变化做出有效分析,纵览随时间的演进人才需求的变化走势,明确人才缺口的变化趋势,紧跟变化的脚步适时调整人才计划,指导引才方向。分析流程如下。
首先,需要在区域维度中选择一个区域作为分析区域;
其次,需要在动态维度中选择对比时段作为分析时段,所选定的对比时段通常是月度、季度或年度等自然时间分割节点;
再次,在限定维度中选择0到多个指标维度作为分析的限定条件,此分析中限定维度的选择并无任何要求,可以不选择任一限定维度,也可以选择一个限定维度的一个值或多个值,还可以选择多个限定维度,每个限定维度选择一个值或每个限定维度选择多个值;
最后,需要在目标维度中选择一个指标维度作为分析维度,
①当选择的目标维度是需求量时,限定维度中的指标维度岗位类别值默认为不限(若在此处设定岗位类别值为某一特定岗位,如销售管理或人力资源,则其分析为量化分析,其结果可由Ⅱ型需求量化分析得到),其他限定维度未指定,可获得指定区域不同时段的热招岗位的变化,从侧面反映了区域人才缺口的变化情况。指定一维限定维度,可分析不同时段在相同行业、相同规模或相同类型企业等热招岗位的变化。通过限定维度的组合,可对比分析不同时段相同行业相同规模相同性质企业热招岗位的变化等等。
②当选择的目标维度是月薪时,限定维度中的指标维度岗位类别值默认为不限,其他限定维度未指定,可获得指定区域高薪岗位随时间演进的变化,从侧面反映随时间演进社会财富的流向。通过指定单一限定维度,可分析指定区域在相同行业、相同规模或相同类型企业等高薪岗位的变化情况。通过限定维度的组合,可对比分析不同时段相同行业相同规模相同性质企业高薪岗位的变化等等。
③当选择的目标维度是福利时,未指定限定维度,可宏观地说明指定区域所提供基本福利的演变情况。通过指定单一限定维度,可分析不同时段在相同行业、相同类型或相同规模企业等基本福利的演变情况。特别的,当指定的单一限定维度是职位类别时,可分析随时间演进从事某职业所能获得基本福利待遇的变化情况。通过限定维度的组合,可对比分析不同时段在相同规模企业中从事相同职业获得基本福利的变化,或不同时段相同行业相同性质企业的基本福利变化等等。
④当选择的目标维度是岗位职责时,未指定限定维度,可宏观地说明指定区域所需热门技能的变化,从侧面反映区域经济发展所依赖支撑技术点的发展及创新情况。通过指定单一限定维度,可分析指定区域不同时段在相同行业、相同类型或相同规模企业等所需热门技能的变化。特别的,当指定的单一限定维度是职位类别时,可分析随时间演进某职业的热门技能变化,为从业人员的自我充电提供方向。通过限定维度的组合,可分析随时间演进相同规模企业相同职业热门技能的变化等等。
⑤当选择的目标维度是岗位要求时,未指定限定维度,可宏观地说明划定时间段内指定区域所需人才基本素质要求的变化,从侧面反映区域文化宣传对人才偏好变化的影响。通过指定单一限定维度,可分析不同时段在相同行业、相同类型或相同规模企业等对人才基本素质要求的变化。特别的,当指定的单一限定维度是职位类别时,可分析随时间演进从事某职业所必备基本专业素养的变化趋势,为应聘者的自我完善提供指导。通过限定维度的组合,可对比分析相同性质企业从事相同职业专业基本素养的变化,或相同行业相同企业相同年龄段的从业者基本专业素养的变化趋势等等。
5、Ⅲ型需求量化分析
Ⅲ型需求量化分析可从多角度多层面对不同区域的人才需求量、月薪水平,提供给人才的福利待遇,以及对人才的技能和素质要求做出有效对比分析,全面量化剖析不同区域的人才情况,分析不同区域人才构成情况,通过多区域对比,实现量化“知己”“知彼”。分析流程如下。
首先,需要在区域维度中选择多个区域作为对比分析区域;
其次,需要在动态维度中选择一个时段作为分析时段;
再次,在限定维度中选择0到多个指标维度作为分析的限定条件,限定维度的选择并无任何要求,可以不选择任一限定维度,也可以选择一个限定维度的一个值或多个值,还可以选择多个限定维度,每个限定维度选择一个值或每个限定维度选择多个值;
最后,需要在目标维度中选择一个指标维度作为分析维度,
①当选择的目标维度是需求量时,未指定限定维度,可宏观地对比划定时间段内不同区域的人才需求量。通过指定单一限定维度,可分析划定时间段内不同区域在相同行业、相同类型、相同规模企业或相同学历等方面人才需求量的对比。通过限定维度的组合,可分析不同区域相同类型人才需求情况,如分析不同区域在计算机软件行业国有企业对应届毕业生需求量的对比,或分析不同区域从事服务业的民营企业对中专、大专和本科不同学历人才的需求量对比等等。
②当选择的目标维度是月薪时,未指定限定维度,可宏观地对比划定时间段内不同区域提供的平均月薪差别,从侧面反映不同区域人均收入水平。通过指定单一限定维度,可分析划定时间段内不同区域在相同行业、相同类型、相同规模企业或相同学历等方面人才平均月薪的差别,从侧面反映不同区域行业的竞争力。通过限定维度的各种组合,可分析不同区域相同类型人才薪水对比情况,如对比分析不同区域计算机软件行业人均月薪水平,或不同区域学历对从事服务业的民营企业所拿平均月薪的影响强弱等等。
③当选择的目标维度是岗位职责时,未指定限定维度,可宏观地对比划定时间段内不同区域所需人才的技能差别。通过指定单一限定维度,可分析划定时间段内不同区域在相同行业、相同岗位或相同学历等方面需求人才技能需求的差别,从侧面反映不同区域相同行业发展的侧重点。通过限定维度的各种组合,可分析不同区域相同类型组织对人才技能需求的差别,如分析不同区域通信行业销售管理人员需掌握技能的差别,或不同区域股份制企业销售人员需掌握技能的差别等等。
④当选择的目标维度是岗位要求时,未指定限定维度,可宏观地对比划定时间段内不同区域所需人才的岗位素质差别。通过指定单一限定维度,可分析划定时间段内不同区域在相同行业、相同岗位或相同学历等方面需求人才素质的差别。通过限定维度的各种组合,可分析不同区域相同类型组织对人才素质需求的差别,如分析不同区域通信行业销售管理人员需具备岗位素质的差别,或不同区域股份制企业销售人员需具备岗位素质的差别等等。
6、Ⅲ型需求热点分析
Ⅲ型需求热点分析可从多角度多层面对多个区域的热招岗位、高薪岗位,最具激励性的福利待遇,以及需要优先引进人才必备的技能和素质做出有效分析。对比发现不同区域优势行业,借助区域间的合作,弥补自身短板。找出与本区域优势行业相同的区域,对比薪水和福利差别,增强岗位吸引力,提升本区域优势行业的竞争力。分析流程如下。
首先,需要在区域维度中选择多个区域作为对比分析区域;
其次,需要在动态维度中选择一个时段作为分析时段;
再次,在限定维度中选择0到多个指标维度作为分析的限定条件,此分析中限定维度的选择并无任何要求,可以不选择任一限定维度,也可以选择一个限定维度的一个值或多个值,还可以选择多个限定维度,每个限定维度选择一个值或每个限定维度选择多个值;
最后,需要在目标维度中选择一个指标维度作为分析维度,
①当选择的目标维度是需求量时,限定维度中的指标维度岗位类别值默认为不限(若在此处设定岗位类别值为某一特定岗位,如销售管理或人力资源,则其分析为量化分析,其结果可由Ⅲ型需求量化分析得到),其他限定维度未指定,可获得划定时间段不同区域的热招岗位,从侧面反映区域间人才引进的竞争关系。指定一维限定维度,可分析不同区域相同行业、相同规模或相同类型企业等的热招岗位差别。通过限定维度的组合,可对比分析不同区域相同行业相同规模相同性质企业热招岗位的不同等等,从侧面反映跨区域行业间的竞争情况。
②当选择的目标维度是月薪时,限定维度中的指标维度岗位类别值默认为不限,其他限定维度未指定,可获得划定时间段不同区域的高薪岗位,从侧面反映不同区域高端人才岗位的吸引力。通过指定单一限定维度,可分析不同区域相同行业、相同规模或相同类型企业等的高薪岗位差别。通过限定维度的组合,可对比分析不同区域相同行业相同规模相同性质企业高薪岗位的不同等等。
③当选择的目标维度是福利时,未指定限定维度,可宏观地说明划定时间段内不同区域提供基本福利的不同,从侧面反映不同区域提供福利基本水平的差别。通过指定单一限定维度,可分析不同区域相同行业、相同类型或相同规模企业等福利基本水平的差别。特别的,当指定的单一限定维度是职位类别时,可分析在不同区域从事某职业所能获得基本福利待遇的差别,从而帮助找出除薪水以外增强本区域岗位吸引力的刺激性福利待遇。通过限定维度的组合,可对比分析不同区域在相同规模企业中从事相同职业获得福利的差别,或不同区域相同行业相同性质企业的福利差别等等。
④当选择的目标维度是岗位职责时,未指定限定维度,可宏观地说明划定时间段内不同区域所需热门技能,从侧面反映不同区域经济发展所依赖的支撑技术点,为区域间的互补合作提供指导。通过指定单一限定维度,可分析不同区域相同行业、相同类型或相同规模企业等所需热门技能的差异。特别的,当指定的单一限定维度是职位类别时,可分析不同区域对从事某职业所必备基本技能的要求,为求职者更好地选择区域以发挥自身技能优势提供依据。通过限定维度的组合,可对比分析不同区域在相同规模企业从事相同职业专业技能要求的差异等等。
⑤当选择的目标维度是岗位要求时,未指定限定维度,可宏观地说明划定时间段内不同区域所需人才的基本素质要求,从侧面反映区域文化对人才偏好的影响。通过指定单一限定维度,可分析不同区域在相同行业、不同类型或不同规模企业等对人才素质要求的差别。特别的,当指定的单一限定维度是职位类别时,可分析在不同区域从事某职业所必备的专业素养。通过限定维度的组合,可对比分析在不同区域相同性质企业中从事相同职业专业素养的差异等等。
7、Ⅳ型需求量化分析
Ⅳ型需求量化分析可从多角度多层面对不同区域不同阶段的人才需求量变化、月薪水平变化,提供给人才的福利待遇变化,以及对人才的技能和素质要求变化做出有效对比分析,采用纵向发展的眼光和横向对比的眼光量化剖析区域人才需求,以区域不同阶段的人才诉求为点串成区域人才需求走向的线,通过对比多个区域人才需求的增量和增幅,折射区域经济的增速,总结不同区域不同人才发展路径的得失,为更好的指定人才政策提供数据支持。分析流程如下。
首先,需要在区域维度中选择多个区域作为对比分析区域;
其次,需要在动态维度中选择对比时段作为分析时段,所选定的对比时段通常是月度、季度或年度等自然时间分割节点;
再次,在限定维度中选择0到多个指标维度作为分析的限定条件,此分析中限定维度的选择并无任何要求,可以不选择任一限定维度,也可以选择一个限定维度的一个值或多个值,还可以选择多个限定维度,每个限定维度选择一个值或每个限定维度选择多个值;
最后,需要在目标维度中选择一个指标维度作为分析维度,
①当选择的目标维度是需求量时,未指定限定维度,可宏观地分析多个区域不同时段人才需求量的变化情况,对比不同区域人才需求的增速情况。通过指定单一限定维度,可分析不同区域在相同行业、相同类型、相同规模企业或相同学历等方面不同时间段人才需求量的变动趋势。通过限定维度的组合,可分析不同区域不同时段更为详细的人才需求变动情况,如分析不同区域计算机软件行业国有企业随时间的演进对应届毕业生需求量变化趋势情况等等。
②当选择的目标维度是月薪时,未指定限定维度,可宏观地分析多个区域不同时间段提供平均月薪的涨落情况,对比不同区域提供月薪的增幅情况。通过指定单一限定维度,可分析不同区域在相同行业、相同类型、相同规模企业或相同学历等方面人才平均月薪随时间演进的变化情况,从侧面反映不同区域经济的增速。通过限定维度的各种组合,可分析不同区域相同类型人才薪水增幅情况,如分析不同区域计算机软件行业国有企业应届毕业生逐年平均月薪的增幅等等。
③当选择的目标维度是岗位职责时,未指定限定维度,可宏观地分析不同区域随时间演进对人才掌握技能的变化情况。通过指定单一限定维度,可分析多个区域在相同行业、相同岗位或相同学历等方面对人才技能需求随时间演进的变化情况,从侧面反映不同区域技术发展路径的差别。通过限定维度的各种组合,可对比多个区域相同类型组织对人才技能需求走向的差别,如分析不同区域相同行业相同岗位对技能需求变化情况等等。
④当选择的目标维度是岗位要求时,未指定限定维度,可宏观地分析不同区域随时间演进对人才素质要求的变化情况。通过指定单一限定维度,可分析多个区域在相同行业、相同岗位或相同学历等方面对人才素质要求随时间演进的变化情况。通过限定维度的各种组合,可分析多个区域相同类型组织随时间演进对人才素质的需求变化情况,如分析不同区域相同行业相同岗位对素质需求的变化情况等等。
8、Ⅳ型需求热点分析
Ⅳ型需求热点分析可从多角度多层面对不同区域不同阶段热招岗位、高薪岗位、基本福利的变化趋势,以及需要优先引进人才必备技能和素质的变迁做出有效对比分析,纵览随时间的演进不同区域紧缺和高端人才需求的变迁路径,及技能和岗位素质的变更,折射区域行业的革新和文化的演变。分析流程如下。
首先,需要在区域维度中选择多个区域作为对比分析区域;
其次,需要在动态维度中选择对比时段作为分析时段,所选定的对比时段通常是月度、季度或年度等自然时间分割节点;
再次,在限定维度中选择0到多个指标维度作为分析的限定条件,此分析中限定维度的选择并无任何要求,可以不选择任一限定维度,也可以选择一个限定维度的一个值或多个值,还可以选择多个限定维度,每个限定维度选择一个值或每个限定维度选择多个值;
最后,需要在目标维度中选择一个指标维度作为分析维度,
①当选择的目标维度是需求量时,限定维度中的指标维度岗位类别值默认为不限(若在此处设定岗位类别值为某一特定岗位,如销售管理或人力资源,则其分析为量化分析,其结果可由Ⅳ型需求量化分析得到),其他限定维度未指定,可获得不同区域不同时段的热招岗位,从侧面反映了不同区域人才缺口的变化情况。指定一维限定维度,可分析不同区域在相同行业、相同规模或相同类型企业等热招岗位随时间演进的变化。通过限定维度的组合,可对比分析不同区域相同行业相同规模相同性质企业热招岗位随时间演进的变化等等。
②当选择的目标维度是月薪时,限定维度中的指标维度岗位类别值默认为不限,其他限定维度未指定,可获得不同区域高薪岗位随时间演进的变化,从侧面反映随时间演进不同区域社会财富的流向。通过指定单一限定维度,可分析不同区域在相同行业、相同规模或相同类型企业高薪岗位随时间演进的变化情况。通过限定维度的组合,可对比分析不同区域相同行业相同规模相同性质企业高薪岗位的变化趋势等等。
③当选择的目标维度是福利时,未指定限定维度,可宏观地说明不同区域所提供基本福利随时间演变的变化情况。通过指定单一限定维度,可分析不同区域相同行业、相同类型或相同规模企业等基本福利随时间演变的变化情况。特别的,当指定的单一限定维度是职位类别时,可分析不同区域从事某职业所能获得基本福利待遇随时间演进的变化情况。通过限定维度的组合,可对比分析在不同区域相同规模企业中从事相同职业获得基本福利的变化等等。
④当选择的目标维度是岗位职责时,未指定限定维度,可宏观地说明不同区域随时间演进所需热门技能的变化,从侧面反映不同地区区域经济发展所依赖支撑技术点的发展及创新情况。通过指定单一限定维度,可分析不同区域在相同行业、相同类型或相同规模企业等所需热门技能随时间演进的变化。特别的,当指定的单一限定维度是职位类别时,可分析在不同区域从事某职业所需热门技能变化。通过限定维度的组合,可分析不同区域相同规模企业相同职业所需热门技能随时间演进的变化等等。
⑤当选择的目标维度是岗位要求时,未指定限定维度,可宏观地说明不同区域随时间演进所需人才基本素质要求的变化,从侧面反映不同地区区域文化宣传对人才偏好变化的影响。通过指定单一限定维度,可分析不同区域在相同行业、相同类型或相同规模企业等对人才基本素质要求随时间演进的变化。特别的,当指定的单一限定维度是职位类别时,可分析在不同区域从事某职业所必备基本专业素养随时间演变的变化趋势。通过限定维度的组合,可对比分析不同区域相同性质企业从事相同职业专业基本素养随时间演进的变化等等。
阶段三:分析方案
五类目标维度按其分析结果可分为数值型、带有统计值的标称型和文本型三类。其中需求量和月薪两类目标维度分析结果属于数值型数据,目标维度福利的分析结果为带有统计值的标称型数据,而岗位职责和岗位要求两类目标维度分析结果属于文本型数据。
量化分析侧重结果的直观体现,而热点分析侧重结果的顺序排列,因此下面分别针对这两类分析阐述三类分析结果的分析方案。
1、数值型分析方案(需求量和月薪)
1-1量化分析
分析方案如下。
(1)记录限定维度选择顺序。
(2)按照有序的限定维度、区域维度和动态维度的顺序,记录选中的指标维度及每个选定指标维度选中的值,将其转化成不等长矩阵,其中矩阵每一行代表一个选中的指标维度,一行中的一个元素代表对应指标维度选中的值。
假定包含区域维度和动态维度共选中了idxn个指标维度,选中的指标维度分别为Chose_Index1,Chose_Index2,…,Chose_Indexidxn,每个限定维度选中值的个数为Chose_an1,Chose_an2,…,Chose_anidxn,选中的值分别是 Chose_Index1_Atb1,Chose_Index1_Atb2,…,Chose_Index1_Atban1, Chose_Index2_Atb1,Chose_Index2_Atb2,…,Chose_Index2_Atban2,…, Chose_Indexidxn_Atb1,Chose_Indexidxn_Atb2,…,Chose_Indexidxn_Atbanidxn
则转化的数组共idxn维,第i维为指标维度Chose_Indexi,第i维的长度为Chose_ani,第i维数组的值分别为Chose_Indexi_Atb1, Chose_Indexi_Atb2,…,Chose_Indexi_Atbani
(3)取出矩阵第一维数组第一个元素作为根节点,按照深度优先遍历不等长矩阵,将其转化为一棵树;如图1所示,给出了第一维数组第一个元素作为根节点的树;
(4)取出矩阵第一维数组的后续元素作为根节点,按照深度优先遍历不等长矩阵,将其转化成一棵树。
(5)迭代操作(4),直至第一维数组元素为空。
(6)按照第一维数组的元素顺序,自左至右排列矩阵转化而成多棵树的根节点顺序构建森林,森林中共有Chose_an1棵树。
(7)首先按照自左至右遍历森林中的树,然后按照深度优先遍历每棵树,记录每一个遍历从树根至叶子所经历的完整路径,如[Chose_Index1_Atb1-> Chose_Index2_Atb1->Chose_Index3_Atb1->…->Chose_Indexidxn_Atb1]、 [Chose_Index1_Atb1->Chose_Index2_Atb1->Chose_Index3_Atb1->…-> Chose_Indexidxn_Atb2]、…、[Chose_Index1_Atb1->Chose_Index2_Atb1-> Chose_Index3_Atb1->…->Chose_Indexidxn_Atbanidxn]等,共有Chose_an1× Chose_an2×…×Chose_anidxn条路径。
(8)结合属性值所属指标维度,将一条遍历路径转化为一条数据查询限定规则。如路径[Chose_Index1_Atb1->Chose_Index2_Atb1-> Chose_Index3_Atb1->…->Chose_Indexidxn_Atb1]转化为一条规则: Chose_Index1 matches Chose_Index1_Atb1 And Chose_Index2 matches Chose_Index2_Atb1 And Chose_Index3 matches Chose_Index3_Atb1And… And Chose_Indexidxn matches Chose_Indexidxn_Atb1,共有Chose_an1× Chose_an2×…×Chose_anidxn条数据查询规则。
(9)按照顺序抽取一条数据查询规则,在抓取的数据中进行查询,找出满足规则的数据集合Dataseti
若目标维度为需求量,则对Dataseti进行统计求和获取结果Resulti
若目标维度为平均月薪,则对Dataseti进行统计平均获取结果Resulti
(10)迭代操作(9),直至抽取完所有的数据查询规则,汇总每条数据查询规则所获得的结果Resulti,返回量化分析结果集ResultSet。
1-2热点分析
在需求量和平均月薪的热点分析中,限定维度岗位默认为不限,因此在统计指标维度的选择情况时,并不统计该指标维度。其前9步操作与量化分析的操作(1)到操作(9)相同,不再赘述。
(10)迭代操作(9),直至抽取完所有的数据查询规则,对比每条数据查询规则所获得的结果Resulti,按照用户设定抽取前若干项结果作为热点结果集TopResultSet,并抽取其对应的岗位集合TopJob。
2、带统计值的标称型分析方案
在福利的热点分析中,生成数据查询规则的方法与数值型分析方案量化分析的操作(1)到操作(8)相同,不再赘述。
(9)按照顺序抽取一条数据查询规则,在抓取的数据中进行查询,找出满足规则的数据集合Dataseti,统计Dataseti中各项福利的个数,构建福利集合WelfareSeti及相应的福利个数集合WelfareQuantitySeti
(10)迭代操作(9),直至抽取完所有的数据查询规则,对比每条数据查询规则所获得的福利个数集合WelfareQuantitySeti,按照用户设定抽取前若干项结果作为热点结果集TopWelfareSeti,并抽取其对应的福利个数集合 WelfareQuantitySeti
3、文本型分析方案
3-1量化分析
在岗位职责和岗位要求的量化分析中,生成数据查询规则的方法与数值型分析方案量化分析的操作(1)到操作(8)相同,不再赘述。
(9)按照顺序抽取一条数据查询规则,在抓取的数据中进行查询,找出满足规则的数据集合Dataseti,该Dataseti中的每条数据Dataj均为文本型结果,
①将每条数据Dataj作为一个元组,对进行分词操作,将每个分词作为一个元素。
②使用分词后的元组构建FP-Tree。
③依据用户设定的最小支持度,使用频繁模式算法发现频繁模式。
④查找每个元组中出现频繁模式次数最多最长的短句,将短句去重后组成新的句子作为查询结果Resulti
(10)迭代操作(9),直至抽取完所有的数据查询规则,汇总每条数据查询规则所获得的结果Resulti,返回量化分析结果集ResultSet。
3-2热点分析
在岗位职责和岗位要求的量化分析中,生成数据查询规则的方法与数值型分析方案量化分析的操作(1)到操作(8)相同,不再赘述。
(9)按照顺序抽取一条数据查询规则,在抓取的数据中进行查询,找出满足规则的数据集合Dataseti,该Dataseti中的每条数据Dataj均为文本型结果,
①将每条数据Dataj作为一个元组,对进行分词操作,将每个分词作为一个元素。
②使用分词后的元组构建FP-Tree。
③依据用户设定的最小支持度,使用频繁模式算法发现频繁模式。
④利用每个行业的技能或素养词典,查找频繁模式中的技能或素养,利用此代表技能或素养的频繁模式构建查询结果Resulti
(10)迭代操作(9),直至抽取完所有的数据查询规则,汇总每条数据查询规则所获得的结果Resulti,返回分析结果集ResultSet。
步骤四:分析结果可视化
基于大数据的区域人才需求量化分析系统可服务于政府人才策略制定者、各类组织人事人员、各行从业人员、求职者等不同类型的用户,也即其所提供分析结果面向的信息接受者类型不同。分析结果的解读直接影响接受者获取信息量的大小,面对的接受者类型不同需要解读的角度也应有所不同。虽然多角度解读有助于全面阐述结果的意义,然后面对不同类型的信息接受者,并非解读的越全面用户体验也越好,与信息接收者类型不匹配角度的解读反而会使信息混乱或分散,增加信息的不确定性(熵值)。因此全面平铺直叙的文本解读方式并不适合于面向多类型信息接收者系统的结果呈现。种类丰富的图表其直观地表现能力,为不同类型信息接收者提供了从不同角度解读分析结果的想象空间,各类信息接收者可从自身角度出发对各种量化或对比分析图表进行有效解读,而不失信息完整性。
JavaScript脚本具有平台无关、相对安全、事件驱动等特性,适合于客户端的运行和展现,目前已有众多基于JavaScript脚本的图表生成控件,如 ECharts、HighCharts、D3、RGraph等。可采用其中一种控件辅助生成图表。
阶段一:目标维度与图表类型(图表类型选择)
五类目标维度按其分析结果可分为数值型、带有统计值的标称型和文本型三类。其中需求量和月薪两类目标维度分析结果属于数值型数据,目标维度福利的分析结果为带有统计值的标称型数据,而岗位职责和岗位要求两类目标维度分析结果属于文本型数据。
对于数值型分析结果可采用仪表盘、饼图、折线图、柱图、雷达图、矩形树图、表格等图表展示,各类图表容纳坐标数量不同其表达能力不同。如仪表盘一般适合于一维单值分析结果的展示;饼图、单系列折线图和单系列柱图适合于一维多值分析结果的展示;多系列折线图、多系列柱图、雷达图一般适合于二维多值分析结果的展示;矩形树图和表格适合于高维多值分析结果的展示等等。
对于带统计值的标称型分析结果可采用散点图展示。
对于文本型分析结果,若其为热点分析所得到的多个关键词,则采用关键词球状旋转效果加表格的形式展示,若其为量化分析所得到的长句,则采用表格展示。
阶段二:图表类型选择(图表类型生成方案)
如前所述,按照分析结果侧重量、序的不同可分为量化分析和热点分析。下面分别针对这两类分析阐述三类分析结果的呈现方案。
1、数值型分析结果(需求量和月薪)
1-1量化分析
重视量的量化分析依据选择多个值的指标维度数,自动选择合适图表进行显示,图表生成方案如下。
(1)初始时令选择多值的维度数Dimension_Count=0;
(2)查看区域维度、动态维度和限定维度,计算选择多值的维度数,
若区域维度选择了多个区域,则Dimension_Count加1;
若动态维度选择了多个对比时段,则Dimension_Count加1;
从限定维度中取出一个指标维度,若该指标维度选择了多个值,则 Dimension_Count加1,迭代此操作,直至限定维度中的指标维度为空。
(3)若Dimension_Count的值等于0,表明除目标维度需求量或月薪外,其余指标维度至多选取了一个值,则最终得到的数值型结果为单一值,应采用仪表盘展现,仪表盘的刻度即为最终结果。
(4)若Dimension_Count的值等于1,表明除目标维度需求量或月薪外,有一个指标维度选择了多个值,将此选择了多值的指标维度称为 Chart_Index,其余指标维度至多选取了一个值,则最终得到的结果为一维数组,应采用饼图、单系列折线图或单系列柱图展现。使用的图表可由用户根据需要自行指定。单系列折线图和单系列柱形图的纵坐标表示岗位数或平均月薪,横坐标表示Chart_Index,折线图中的一个折点和柱形图中的一列对应着Chart_Index的一个值。饼图中的一个区域对应着Chart_Index 的一个值,使用区域的大小说明岗位数或平均月薪。
(5)若Dimension_Count的值等于2,表明除目标维度需求量或月薪外,有两个指标维度选择了多个值,其余指标维度至多选取了一个值,
①若选择了多值的两个指标维度中包含区域维度或动态维度,则将含有多值的区域维度或动态维度标识为Chart_Index1,将最后选中的限定维度标识为Chart_Index2,
②若选择了多值的两个指标维度中包含区域维度和动态维度,则将动态维度标识为Chart_Index1,将区域维度标识为Chart_Index2,
③若选择了多值的两个指标维度中不包含区域维度或动态维度,将指标维度按照选择顺序分别标识为Chart_Index2和Chart_Index1,
分析所得到的最终结果为二维数组,应采用多系列折线图或多系列柱图展现。使用的图表可由用户根据需要自行指定。多系列折线图和多系列柱形图的纵坐标表示岗位数或平均月薪,横坐标表示Chart_Index1,图表中的一个系列表示Chart_Index2的一个选择值。
(6)若Dimension_Count的值大于2,表明除目标维度需求量或月薪外,至少有三个指标维度选择了多个值,假定选中了多值的指标维度个数为 idxn,
①若选择了多值的指标维度中包含区域维度或动态维度,则将含有多值的区域维度或动态维度标识为Chart_Index1,将最后选中的限定维度标识为Chart_Index2,
②若选择了多值的指标维度中包含区域维度和动态维度,则将动态维度标识为Chart_Index1,将区域维度标识为Chart_Index2,
③若选择了多值的指标维度中不包含区域维度或动态维度,将指标维度按照选择顺序分别标识为Chart_Index2和Chart_Index1,
④将其他选择了多值的限定维度按照选择顺序依次标识为 Chose_Indexidxn-2,Chose_Indexidxn-3,…,Chose_Index1,假定限定维度 Chose_Index1,Chose_Index2,…,Chose_Indexidxn-2选定值的个数分别是 ChIdxN1,ChIdxN2,…,ChIdxNidxn-2
首先,使用限定维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-2构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn-2行idxn-1列的表格,表格的第1列到第idxn-2列分别对应限定维度Chose_Index1,…,Chose_Indexidxn-2。表格第i行j列单元格的值则为限定维度Chose_Indexj
Figure DEST_PATH_GDA0001370006670000571
个值,其中j<idxn-1;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-2个小单元格,合并后的单元格i将取Chose_Indexj的第i个值;
最后,第idxn-1列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-2个单元格,每个单元格中包含一个多系列折线图或多系列柱图。使用的图表类型可由用户根据需要自行指定。多系列折线图和多系列柱形图的纵坐标表示岗位数或平均月薪,横坐标表示Chart_Index1,图表中的一个系列表示Chart_Index2的一个选择值。
1-2热点分析
由前述分析说明可知,热点分析的热招岗位和高薪岗位分析限定维度岗位的默认值为不限,也即默认选定了指标维度岗位的所有值,因此至少有一个指标维度选择了多个值。重视序的热点分析采用单系列柱形图加表格的形式展示,图表生成方案如下。
(1)初始时令选择多值的维度数Dimension_Count=0;
(2)查看区域维度、动态维度和限定维度,计算选择多值的维度数,
若区域维度选择了多个区域,则Dimension_Count加1;
若动态维度选择了多个对比时段,则Dimension_Count加1;
从限定维度中取出一个指标维度,若该指标维度选择了多个值,则Dimension_Count加1,迭代此操作,直至限定维度中的指标维度为空。
(3)若Dimension_Count的值等于1,表明除限定维度岗位外,其余指标维度至多选取了一个值,则最终得到的结果为一维数组,直接采用一个柱形图展现既可。柱形图的纵坐标表示热招岗位的岗位数或高薪岗位的平均月薪,横坐标表示限定维度岗位,图中的每一列对应一个根据条件选出的具体岗位名称,其自左至右降序排列。
(4)若Dimension_Count的值等于2,表明除限定维度岗位外,还有一个指标维度选取了多个值,将此指标维度标识为Chose_Index,
①若该Chose_Index是动态维度,参与对比分析的时间段个数为itvn,则构建一个1行itvn列的表格,表格的一列表示一个参与对比分析的时间段,每一个单元格为相应时间段内热招岗位或高薪岗位情况,采用一个柱形图展现。
②若该Chose_Index是区域维度或其他限定维度,选中值的个数为 vlun,则构建一个vlun行1列的表格,表格的一行表示一个区域或一个限定维度的值,每一个单元格表示相应区域或限定条件的热招岗位或高薪岗位情况,采用一个柱形图展现。
(5)若Dimension_Count的值大于2,表明除限定维度岗位外,还有至少两个指标维度选取了多个值,假定选中了多值的指标维度个数为idxn,
①若选择了多值的指标维度中包含动态维度,假定参与对比分析的时间段个数为itvn,
若选择了多值的指标维度中包含区域维度,将区域维度标识为 Chose_Indexidxn-2,将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn-3,Chose_Indexidxn-4,…,Chose_Index1
若选择了多值的指标维度中不包含区域维度,将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn-2,Chose_Indexidxn-3,…, Chose_Index1
假定限定维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-2选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn-2
首先,使用指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-2构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn-2行idxn-1+itvn列的表格,表格的第 1列到第idxn-2列分别对应指标维度Chose_Index1,…,Chose_Indexidxn-2。表格第i行j列单元格的值则为限定维度Chose_Indexj
Figure DEST_PATH_GDA0001370006670000591
个值,其中j<idxn-1;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-2个小单元格,合并后的单元格i将取Chose_Indexj的第i个值;
最后,第idxn-1列到第idxn-1+itvn列分别对应一个对比时段的情况,每一列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-2个单元格,每一个单元格表示一个对比时段相应区域或限定条件的热招岗位或高薪岗位情况,采用一个柱形图展现。
②若选择了多值的指标维度中不包含动态维度,
若选择了多值的指标维度中包含区域维度,将区域维度标识为 Chose_Indexidxn-1,将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn-2,Chose_Indexidxn-3,…,Chose_Index1
若选择了多值的指标维度中不包含区域维度,将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn-1,Chose_Indexidxn-2,…, Chose_Index1
假定指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-1选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn-1
首先,使用指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-1构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn-1行idxn列的表格,表格的第1列到第idxn-1列分别对应指标维度Chose_Index1,…,Chose_Indexidxn-1。表格第i 行j列单元格的值则为限定维度Chose_Indexj
Figure DEST_PATH_GDA0001370006670000592
个值,其中j<idxn;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-1个小单元格,合并后的单元格i将取Chose_Indexj的第i个值;
最后,第idxn列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-1个单元格,每一个单元格表示相应区域或限定条件的热招岗位或高薪岗位情况,采用一个柱形图展现。
2、带统计值的标称型分析结果(福利)
由前所述,仅对指标维度福利进行热点分析,通过对各组织提供福利的统计可得到各种福利的热点,在此也采用单系列柱形图加表格的形式展示,图表生成方案如下。
(1)初始时令选择多值的维度数Dimension_Count=0;
(2)查看区域维度、动态维度和限定维度,计算选择多值的维度数,
若区域维度选择了多个区域,则Dimension_Count加1;
若动态维度选择了多个对比时段,则Dimension_Count加1;
从限定维度中取出一个指标维度,若该指标维度选择了多个值,则 Dimension_Count加1,迭代此操作,直至限定维度中的指标维度为空。
(3)若Dimension_Count的值等于1,表明有一个指标维度选取了多个值,将此指标维度标识为Chose_Index,
①若该Chose_Index是动态维度,参与对比分析的时间段个数为itvn,则构建一个1行itvn列的表格,表格的一列表示一个参与对比分析的时间段,每一个单元格为相应时间段内提供福利待遇情况,采用一个柱形图展现。柱形图的横坐标表示福利,纵坐标为各种福利的统计值,图中的每一列对应一个根据条件选出的福利名称,其自左至右降序排列。
②若该Chose_Index是区域维度或其他限定维度,选中值的个数为 vlun,则构建一个vlun行1列的表格,表格的一行表示一个区域或一个限定维度的值,每一个单元格表示相应区域或限定条件下提供福利待遇情况,采用一个柱形图展现。
(4)若Dimension_Count的值大于1,表明至少两个指标维度选取了多个值,假定选中了多值的指标维度个数为idxn,
①若选择了多值的指标维度中包含动态维度,假定参与对比分析的时间段个数为itvn,
若选择了多值的指标维度中包含区域维度,将区域维度标识为Chose_Indexidxn-1,将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn-2,Chose_Indexidxn-3,…,Chose_Index1
若选择了多值的指标维度中不包含区域维度,将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn-1,Chose_Indexidxn-2,…, Chose_Index1
假定限定维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-1选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn-1
首先,使用指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-1构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn-1行idxn-1+itvn列的表格,表格的第1 列到第idxn-1列分别对应指标维度Chose_Index1,…,Chose_Indexidxn-1。表格第i行j列单元格的值则为限定维度Chose_Indexj
Figure DEST_PATH_GDA0001370006670000611
个值,其中j<idxn;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-1个小单元格,合并后的单元格i将取Chose_Indexj的第i个值;
最后,第idxn-1列到第idxn-1+itvn列分别对应一个对比时段的情况,每一列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-1个单元格,每一个单元格表示一个对比时段相应区域或限定条件下提供福利待遇情况,采用一个柱形图展现。
②若选择了多值的指标维度中不包含动态维度,
若选择了多值的指标维度中包含区域维度,将区域维度标识为 Chose_Indexidxn,将其他选择了多值的限定维度按照选择顺序依次标识为 Chose_Indexidxn-1,Chose_Indexidxn-2,…,Chose_Index1
若选择了多值的指标维度中不包含区域维度,将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn,Chose_Indexidxn-1,…, Chose_Index1
假定指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn
首先,使用指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn行idxn+1列的表格,表格的第1列到第 idxn列分别对应指标维度Chose_Index1,…,Chose_Indexidxn。表格第i行j 列单元格的值则为限定维度Chose_Indexj
Figure DEST_PATH_GDA0001370006670000621
个值,其中j<idxn+1;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn个小单元格,合并后的单元格i将取Chose_Indexj的第i个值;
最后,第idxn列有ChIdxN1×ChIdxN2×...×ChIdxNidxn个单元格,每一个单元格表示相应区域或限定条件下提供福利待遇情况,采用一个柱形图展现。
3、文本性分析结果(岗位职责和岗位要求)
指标维度岗位职责和岗位要求的量化分析结果和热点分析结果均以文本的形式体现,不同之处在于量化分析的结果为长句,而热点分析所得到的多个关键词。对此量化分析将采用表格加文本内容的形式展现,热点分析将采用表格加球状旋转效果展现,图表生成方案如下。
(1)初始时令选择多值的维度数Dimension_Count=0;
(2)查看区域维度、动态维度和限定维度,计算选择多值的维度数,
若区域维度选择了多个区域,则Dimension_Count加1;
若动态维度选择了多个对比时段,则Dimension_Count加1;
从限定维度中取出一个指标维度,若该指标维度选择了多个值,则 Dimension_Count加1,迭代此操作,直至限定维度中的指标维度为空。
(3)若Dimension_Count的值等于1,表明有一个指标维度选取了多个值,将此指标维度标识为Chose_Index,
①若该Chose_Index是动态维度,参与对比分析的时间段个数为itvn,则构建一个1行itvn列的表格,表格的一列表示一个参与对比分析的时间段。量化分析中每一个单元格为相应时间段内岗位职责或岗位要求情况,直接实用文本填充;热点分析中每一个单元格为相应时间段内热门技能或基本素养情况,采用关键词球状旋转效果展现,将技能或素养关键词均匀的分布到球体上,并随着鼠标的滑动而旋转。
②若该Chose_Index是区域维度或其他限定维度,选中值的个数为 vlun,则构建一个vlun行1列的表格,表格的一行表示一个区域或一个限定维度的值,量化分析中每一个单元格为相应区域或限定条件下岗位职责或岗位要求情况;热点分析中每一个单元格为相应区域或限定条件下热门技能或基本素养情况。
(4)若Dimension_Count的值大于1,表明至少两个指标维度选取了多个值,假定选中了多值的指标维度个数为idxn,
①若选择了多值的指标维度中包含动态维度,假定参与对比分析的时间段个数为itvn,
若选择了多值的指标维度中包含区域维度,将区域维度标识为 Chose_Indexidxn-1,将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn-2,Chose_Indexidxn-3,…,Chose_Index1
若选择了多值的指标维度中不包含区域维度,将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn-1,Chose_Indexidxn-2,…, Chose_Index1
假定限定维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-1选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn-1
首先,使用指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-1构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn-1行idxn-1+itvn列的表格,表格的第1 列到第idxn-1列分别对应指标维度Chose_Index1,…,Chose_Indexidxn-1。表格第i行j列单元格的值则为限定维度Chose_Indexj
Figure DEST_PATH_GDA0001370006670000631
个值,其中j<idxn;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-1个小单元格,合并后的单元格i将取Chose_Indexj的第i个值;
最后,第idxn-1列到第idxn-1+itvn列分别对应一个对比时段的情况,每一列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-1个单元格,量化分析中每一个单元格为相应时间段内岗位职责或岗位要求情况,直接实用文本填充;热点分析中每一个单元格为相应时间段内热门技能或基本素养情况,采用关键词球状旋转效果展现,将技能或素养关键词均匀的分布到球体上,并随着鼠标的滑动而旋转。
②若选择了多值的指标维度中不包含动态维度,
若选择了多值的指标维度中包含区域维度,将区域维度标识为 Chose_Indexidxn,将其他选择了多值的限定维度按照选择顺序依次标识为 Chose_Indexidxn-1,Chose_Indexidxn-2,…,Chose_Index1
若选择了多值的指标维度中不包含区域维度,将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn,Chose_Indexidxn-1,…, Chose_Index1
假定指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn
首先,使用指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn行idxn+1列的表格,表格的第1列到第 idxn列分别对应指标维度Chose_Index1,…,Chose_Indexidxn。表格第i行j 列单元格的值则为限定维度Chose_Indexj
Figure DEST_PATH_GDA0001370006670000641
个值,其中j<idxn+1;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn个小单元格,合并后的单元格i将取Chose_Indexj的第i个值;
最后,第idxn列有ChIdxN1×ChIdxN2×...×ChIdxNidxn个单元格,量化分析中每一个单元格为相应区域或限定条件下岗位职责或岗位要求情况;热点分析中每一个单元格为相应区域或限定条件下热门技能或基本素养情况。

Claims (1)

1.一种基于大数据的区域人才需求量化分析方法,其特征在于,通过以下步骤来实现:
a).确定目标数据源和采集范围,优质可量化且能够实时反映区域人才需求的数据是做好分析的前提,因此选取的目标数据源为:招聘网站,大型组织、大学、人社局网站的招聘板块,以及编制招考信息;
由于单独一个区域的分析不能体现本区域的优势及不足,需要对多个同级区域对比分析才能找到问题,为政策的制定提供依据;因此除了采集指定区域外,也将同一行政区下所有与指定区域同级的区域也纳入到采集的范围;
b).采集目标数据源,大型组织、大学、人社局网站的招聘模块和编制招考信息的更新频率不高,直接采用分布式爬虫的抓取策略采集信息;
由于招聘网站同时服务于诸多实体组织,承载着诸多组织的招聘信息,更新频率极高,若不能及时有效的捕捉将会严重影响分析的准确性,导致结果的误导;然而受目标数据源服务器的限制,同一IP地址的爬虫在一定时间内只能采集同一目标服务器限定的数据,故采用将同一招聘网站平均分配到多个爬取节点的方法进行目标数据源的信息采集;
c).信息提取,由于所采集的数据是原始的非结构化网页,其中杂陈广告、友情链接、同类推荐无关信息,首先采用DOM树的方法和基于行块分布函数方法抽取目标网页中的数据;然后从非结构化的网页数据中提取包括组织名称、岗位、职位、月薪、学历、工作年限、组织规模、所属行业、组织性质、招聘人数、提供福利、岗位职责、岗位要求、年龄要求、工作地点、发布时间在内的招聘信息,形成结构化数据,每个招聘信息定义一个指标维度,所有的指标维度组成指标维度列表;
d).数据清洗,首先将各指标维度所采用指标体系进行标准化、将各指标维度值进行标准化,以实现指标维度的标准化处理;
然后,将同一媒体、多个媒体中重复发布的招聘信息进行去重处理,从而过滤重复发布的信息;
e).数据存储,所提取的每一个指标维度使用结构化数据库中一列存储,为方便招聘信息的归类统计将招聘信息所属区域也作为一个指标维度存储于数据库一列;为方便时间跨度方面的统计分析,将招聘信息的有效持续时间也作为一个指标维度存储于数据库一列;同时若指标维度是区间标度属性,则在存储过程中将其分成区间起始值和区间终止值分别存储指标维度的首尾值;
f).指标维度分类,从招聘信息中提取的诸多指标维度根据其功用分为四类:区域维度、动态维度、目标维度和限定维度;区域维度用于指定分析的目标区域,区域维度的分析分成两类:本区域人才需求分析和多区域人才需求对比分析;动态维度用于指定分析的时间范围,动态维度的分析分成两类:一定时间段的整体宏观分析和时间演化分析;
目标维度包含五个:需求量、月薪、福利、岗位职责和岗位要求,需求量即招聘人数,其中需求量和月薪是区间标度类属性,将通过均值呈现其结果;福利属于标称类属性,将通过众数呈现其结果;而岗位职责和岗位要求则是一串无限定文本,将通过文本分析使用频繁模式算法呈现结果;
除区域维度、动态维度和目标维度外的其他指标维度均是限定维度;
g).分析分类,各种指标维度按照不同方式组合可产生诸多不同结果,为使结果条理清晰更易于被用户所理解,采用区域维度和动态维度相组合的方式对分析进行大类划分;分析分为四型分析:Ⅰ型分析、Ⅱ型分析、Ⅲ型分析和Ⅳ型分析;
其中,Ⅰ型分析为本区域一定时间段内整体宏观人才需求分析;Ⅱ型分析为本区域随时间演化人才需求趋势分析;Ⅲ型分析为多区域一定时间段整体宏观人才需求对比分析;Ⅳ型分析为多区域随时间演化人才需求变化趋势对比分析;
上述四型分析按其分析所获的结果是以量的形式体现还是以序的形式体现,又将每一类分为需求量化分析和需求热点分析两个小类,共计八个小类的分析;目标维度中的指标维度福利属于标称属性,单纯的统计其数量意义不大,因此福利分析不纳入各型的量化分析,仅对其进行热点分析;
h).分析方法,五类目标维度按其分析结果分为数值型、带有统计值的标称型和文本型三类,其中需求量和月薪两类目标维度分析结果属于数值型数据,目标维度福利的分析结果为带有统计值的标称型数据,而岗位职责和岗位要求两类目标维度分析结果属于文本型数据;量化分析侧重结果的直观体现,而热点分析侧重结果的顺序排列;
i).分析结果可视化,采用种类丰富的图表对分析结果进行展示,对于数值型分析结果采用仪表盘、饼图、折线图、柱形图、雷达图、矩形树图或表格图表展示;
对于带统计值的标称型分析结果采用散点图展示;对于文本型分析结果,若其为热点分析所得到的多个关键词,则采用关键词球状旋转效果加表格的形式展示,若其为量化分析所得到的长句,则采用表格展示;
步骤b)中所述的招聘网站的数据采集具体通过以下步骤来实现:
b-1).将所有目标招聘网站的域名分配到全部爬取节点;
b-2).在将域名分给所有爬取节点的同时,为不同的爬取节点分配互不相交的职位类别及标识该职位类别的参数,以此将招聘网站划分成互不相交的子集分配给各爬取节点,每个爬取节点负责一个子集的采集;
b-3).各爬取节点通过招聘网站加所分配职位类别参数的方式,向招聘网站发送请求,获取工作岗位列表,此列表即是需要采集的目标数据源列表URL_Init_List;
b-4).为避免同一时间过于集中地采集同一域名的招聘网站,在得到URL_Init_List后不即刻采集网页,而是将URL_Init_List中的URL地址进行混排生成最终采集目标数据源列表URL_Final_List,混排方法如下:
首先将URL_Init_List中的URL地址按照随机分组划分成若干子列表;然后采用随机方法随机挑选一个子列表,并在该子列表中随机选择一个未被选中过的URL地址放入URL_Final_List;迭代子列表和URL地址的选择过程直至选完所有子列表的所有URL地址;
b-5).爬取节点在得到URL_Final_List后,采集网页数据;
步骤c)中所述的招聘信息的提取通过以下步骤来实现:
c-1).由于每个招聘网站的格式都较为固定,因此首先为每个招聘网站设计模板,然后利用正则表达式提取所需指标维度,并将从非结构化页面中提取的各个指标维度的值存储于结构化数据库中;
c-2).由于大型组织、大学、人社局网站的招聘板块以及编制招考信息在发布招聘信息时较为随意,没有固定的格式,并会在详情页面中使用表格展示招聘信息,故直接从表格中提取指标维度值,方法如下:
c-2-1).获取表格,在详情页面中由于页面布局的原因可能会存在多个表格的情形,所以首先通过能够标识表格的属性在多个表格中抽取记录招聘信息的表格;
c-2-2).表格去噪,在处理表格时首先去除控制页面显示格式的DIV、CSS及与表格无关的HTML标签,只保留与表格显示和控制相关的table、tr、td、colspan标签;
c-2-3).表格标准化,因为表格无规定格式,在处理过程中分割多行多列的单元格,将表格转化成简单表格,使表格中的每个单元格只占一行一列且只有一个值;
c-2-4).判断表格横竖,判断记录招聘信息的表格是横表还是纵表,取表格的第一行表格的单元格值和第一列表格的单元格值,分别与各个指标维度进行匹配,比较第一行和第一列单元格值的命中率,若第一行单元格值的命中率高则为横表,否则为纵表;
c-2-5).提取键值序列,若表格为横表,则将第一行单元格的值映射到相应的指标维度,相应列单元格的值即为指标维度的值,将无结构的HTML表格转化成结构化的键值对,进而存储到结构化数据库;
若表格为纵表,将第一列单元格的值映射到指标维度,相应行单元格的值即为指标维度的值,提取键值对存储到结构化数据库;
步骤d)中,各指标维度所采用指标体系的标准化方法为:首先,将指标维度使用标准指标体系表示;其次,抽取标准指标体系中的指标作为概念构建本体,将各级指标体系映射到本体概念层次结构的类和子类;再次,抽取指标维度使用的其他指标体系中的指标;最后依据其他指标体系中指标与本体中概念的功能相似性,将其他指标体系中的指标作为概念的实例引入本体,通过本体概念与本体实例之间的关系,建立标准指标体系与其他指标体系之间的映射关系,将指标体系统一到标准指标体系,实现多指标体系指标维度的标准化;
各指标维度值的标准化方法为:针对指标维度值不一致的情形,采用量化表或公式的方式统一指标维度的赋值;首先规定一种赋值为标准值;然后利用量化表或公式,为指标维度的各种不同赋值建立映射关系,将不同的赋值转化为标准值;
同一媒体中重复发布的招聘信息去重方法为:URL是互联网资源的唯一标识,因此判断同一媒体发布的信息是否存在重复的URL,同一URL地址的信息只采集一次即可实现去重;
多个媒体中重复发布的招聘信息去重方法为:同一招聘信息发布于不同媒体其URL地址不同,需要对比不同媒体招聘内容中提取的各个指标维度是否相似,通过以下方法来实现:
d-1).首先对比从不同媒体获取的招聘信息中组织名称是否相同,若相同则对比招聘职位是否相同,若相同执行步骤d-2);
d-2).对比岗位职责和岗位要求的相似度,通过文本相似度算法,若岗位职责和岗位要求的相似度均超过75%,则执行步骤d-3);
d-3).对比不同媒体招聘信息的发布时间,若发布时间差小于7天转入步骤d-4);
d-4).对比结果判定为重复信息,统一不同媒体中各指标维度值;对于序数属性类的指标维度取较低的值作为统一值;对于标称属性类的指标维度取各指标维度值的合集作为统一值;对于区间数值属性类的指标维度取各指标维度值的最小和最大值,按照加权平均的方法求取平均数作为统一值;
d-5).确定非重复招聘信息,若步骤d-1)、d-2)和d-3)中有任意一条不满足,则认为是非重复招聘信息,提取信息后直接存储于结构化数据库中;
步骤g)中八个小类的分析为:Ⅰ型需求量化分析、Ⅰ型需求热点分析、Ⅱ型需求量化分析、Ⅱ型需求热点分析、Ⅲ型需求量化分析、Ⅲ型需求热点分析、Ⅳ型需求量化分析、Ⅳ型需求热点分析;
Ⅰ型需求量化分析,从多角度多层面对指定区域的人才需求量、月薪水平,以及对人才的技能和素质要求做出有效分析,分析流程如下:
g-1-1).首先,在区域维度中选择一个区域作为分析区域;
g-1-2).其次,在动态维度中选择一个时间段作为分析时段;
g-1-3).再次,在限定维度中选择0个、1个或多个指标维度作为分析的限定条件,每个限定维度选择一个值或多个值;
g-1-4).最后,在目标维度中选择一个指标维度作为分析维度;
当选择的目标维度是需求量时,未指定限定维度,则分析划定时间段内指定区域总的人才需求量;指定单一限定维度,则分析划定时间段内指定区域在不同行业、不同性质、不同规模企业或不同学历方面人才的需求量;通过限定维度的组合,分析划定时间段内指定区域详细的人才需求情况;
当选择的目标维度是月薪时,未指定限定维度,则分析划定时间段内指定区域提供的平均月薪;指定单一限定维度,则分析划定时间段内指定区域在不同行业、不同性质、不同规模企业或不同学历方面人才的平均月薪差别;通过限定维度的组合,分析划定时间段内指定区域详细的人才薪水对比情况;
当选择的目标维度是岗位职责时,未指定限定维度,则分析划定时间段内指定区域最需要人才掌握的技能;指定单一限定维度,则分析划定时间段内指定区域在不同行业、不同性质、不同规模企业或不同学历方面对人才技能的不同需求;通过限定维度的组合,分析划定时间段内指定区域对人才技能的详细需求;
当选择的目标维度是岗位要求时,未指定限定维度,则分析划定时间段内指定区域对人才的素质要求;指定单一限定维度,则分析划定时间段内指定区域在不同行业、不同性质、不同规模企业或不同学历方面对人才素质的需求;通过限定维度的组合,分析划定时间段内指定区域人才素质的详细需求;
Ⅰ型需求热点分析,从多角度多层面对指定区域的热招岗位、高薪岗位,最具激励性的福利待遇,以及需要优先引进人才必备的技能和素质做出有效分析,分析流程如下:
g-2-1).首先,在区域维度中选择一个区域作为分析区域;
g-2-2).其次,在动态维度中选择一个时间段作为分析时段;
g-2-3).再次,在限定维度中选择0个、1个或多个指标维度作为分析的限定条件,每个限定维度选择一个值或多个值;
g-2-4).最后,在目标维度中选择一个指标维度作为分析维度;
当选择的目标维度是需求量时,限定维度中的指标维度岗位类别为不限、其他限定维度未指定时,获得划定时间段指定区域的热招岗位;指定单一限定维度,则分析划定时间段内指定区域在不同行业、不同规模企业或不同类型企业的热招岗位;通过限定维度的组合,分析划定时间段内指定区域详细的热招岗位;
当选择的目标维度是月薪时,限定维度中的指标维度岗位类别为不限、其他限定维度未指定时,获得划定时间段指定区域的高薪岗位;指定单一限定维度,则分析划定时间段内指定区域在不同行业、不同规模企业或不同性质企业的高薪岗位;通过限定维度的组合,分析划定时间段内指定区域详细的高薪岗位的情况;
当选择的目标维度是福利时,未指定限定维度,获得划定时间段内指定区域都会提供的福利;指定单一限定维度,则分析划定时间段内指定区域在不同行业、不同规模企业或不同性质企业的福利水平;通过限定维度的组合,分析指定区域详细的福利差别;
当选择的目标维度是岗位职责时,未指定限定维度,则分析划定时间段内指定区域所需热门技能,从侧面反映区域经济发展所依赖的支撑技术点;指定单一限定维度,则分析划定时间段内指定区域在不同行业、不同性质或不同规模企业所需热门技能;通过限定维度的组合,分析指定区域详细的人才技能要求差异;
当选择的目标维度是岗位要求时,未指定限定维度,则分析划定时间段内指定区域所需人才的素质要求;指定单一限定维度,则分析划定时间段内指定区域在不同行业、不同性质或不同规模企业对人才素质的需求;通过限定维度的组合,分析指定区域详细的从业者专业素养的差异,从而辅助从业者规划职业生涯;
Ⅱ型需求量化分析,从多角度多层面对指定区域不同阶段的人才需求量变化、月薪水平变化,以及对人才的技能和素质要求变化做出有效分析,分析流程如下:
g-3-1).首先,在区域维度中选择一个区域作为分析区域;
g-3-2).其次,在动态维度中选择对比时段作为分析时段,所选定的对比时段是月度、季度或年度自然时间分割节点;
g-3-3).再次,在限定维度中选择0个、1个或多个指标维度作为分析的限定条件,每个限定维度选择一个值或多个值;
g-3-4).最后,在目标维度中选择一个指标维度作为分析维度;
当选择的目标维度是需求量时,未指定限定维度,则分析指定区域不同时段人才需求量的变化情况;指定单一限定维度,则分析指定区域在相同行业、相同性质、相同规模企业或相同学历方面的人才在不同时间段需求量的变动趋势;通过限定维度的组合,分析指定区域不同时段详细的人才需求变动情况;
当选择的目标维度是月薪时,未指定限定维度,则分析指定区域不同时间段提供平均月薪的涨落情况;指定单一限定维度,则分析指定区域在相同行业、相同性质、相同规模企业或相同学历方面人才平均月薪随时间演进的变化情况;通过限定维度的组合,分析指定区域相同类型人才薪水变化情况;
当选择的目标维度是岗位职责时,未指定限定维度,则分析指定区域随时间演进对人才掌握技能的变化;指定单一限定维度,则分析指定区域不同时间段在相同行业、相同性质、相同规模企业或相同学历方面对人才技能需求的变化;通过限定维度的组合,分析指定区域相同类型人才技能需求走向;
当选择的目标维度是岗位要求时,未指定限定维度,则分析指定区域对人才素质要求的变化情况;指定单一限定维度,则分析指定区域不同时间段在相同行业、相同性质、相同规模企业或相同学历方面对人才素质需求的变化情况;通过限定维度的组合,分析指定区域相同类型组织随时间演进对人才素质的需求变化情况;
Ⅱ型需求热点分析,从多角度多层面对指定区域不同阶段的热招岗位变化、高薪岗位变化、福利变化,以及需要优先引进人才必备技能和素质的变化做出有效分析,分析流程如下:
g-4-1).首先,在区域维度中选择一个区域作为分析区域;
g-4-2).其次,在动态维度中选择对比时段作为分析时段,所选定的对比时段是月度、季度或年度自然时间分割节点;
g-4-3).再次,在限定维度中选择0个、1个或多个指标维度作为分析的限定条件,每个限定维度选择一个值或多个值;
g-4-4).最后,在目标维度中选择一个指标维度作为分析维度;
当选择的目标维度是需求量时,限定维度中的指标维度岗位类别为不限、其他限定维度未指定时,获得指定区域不同时段热招岗位的变化;如果指定单一限定维度,则分析指定区域不同时段在相同行业、相同规模企业或相同性质企业的热招岗位的变化;通过限定维度的组合,分析指定区域不同时段详细热招岗位的变化;
当选择的目标维度是月薪时,限定维度中的指标维度岗位类别为不限、其他限定维度未指定时,获得指定区域高薪岗位随时间演进的变化;如果指定单一限定维度,则分析指定区域在相同行业、相同规模企业或相同性质企业高薪岗位的变化情况;通过限定维度的组合,分析指定区域不同时段详细的高薪岗位的变化;
当选择的目标维度是福利时,未指定限定维度,获得指定区域所提供福利的演变情况;指定单一限定维度,则分析指定区域在相同行业、相同规模企业或相同性质企业福利的演变情况;通过限定维度的组合,分析指定区域不同时段详细的福利变化;
当选择的目标维度是岗位职责时,未指定限定维度,则分析指定区域所需热门技能的变化,从侧面反映区域经济发展所依赖的支撑技术点的发展及创新情况;指定单一限定维度,则分析指定区域不同时段在相同行业、相同性质或相同规模企业所需热门技能的变化;通过限定维度的组合,分析指定区域随时间演进详细的人才技能要求变化;
当选择的目标维度是岗位要求时,未指定限定维度,则分析指定区域所需人才素质要求的变化;指定单一限定维度,分析不同时段在相同行业、相同性质或相同规模企业对人才素质要求的变化;通过限定维度的组合,分析指定区域随时间演进详细的从业者专业素养变化;
Ⅲ型需求量化分析,从多角度多层面对不同区域的人才需求量、月薪水平,以及对人才的技能和素质要求做出有效分析,分析流程如下:
g-5-1).首先,在区域维度中选择多个区域作为对比分析区域;
g-5-2).其次,在动态维度中选择一个时间段作为分析时段;
g-5-3).再次,在限定维度中选择0个、1个或多个指标维度作为分析的限定条件,每个限定维度选择一个值或多个值;
g-5-4).最后,在目标维度中选择一个指标维度作为分析维度;
当选择的目标维度是需求量时,未指定限定维度,则对比划定时间段内不同区域的人才需求量;指定单一限定维度,则分析划定时间段内不同区域在相同行业、相同性质、相同规模企业或不同学历方面人才需求量的对比;通过限定维度的组合,分析不同区域相同类型人才需求情况;
当选择的目标维度是月薪时,未指定限定维度,则对比划定时间段内不同区域提供的平均月薪差别;指定单一限定维度,则分析划定时间段内不同区域在相同行业、相同性质、相同规模企业或相同学历方面人才平均月薪的差别;通过限定维度的组合,分析不同区域相同类型人才薪水对比情况;
当选择的目标维度是岗位职责时,未指定限定维度,则对比划定时间段内不同区域所需人才的技能差别;指定单一限定维度,则分析划定时间段内不同区域在相同行业、相同性质、相同规模企业或相同学历方面人才技能需求的差别;通过限定维度的组合,分析不同区域相同类型组织对人才技能的详细需求;
当选择的目标维度是岗位要求时,未指定限定维度,则对比划定时间段内不同区域所需人才的岗位素质差别;指定单一限定维度,则分析划定时间段内不同区域在相同行业、相同岗位或相同学历方面需求人才素质的差别;通过限定维度的各种组合,分析不同区域相同类型组织对人才素质需求的差别;
Ⅲ型需求热点分析,从多角度多层面对多个区域的热招岗位、高薪岗位,最具激励性的福利待遇,以及需要优先引进人才必备的技能和素质做出有效分析,分析流程如下:
g-6-1).首先,在区域维度中选择多个区域作为对比分析区域;
g-6-2).其次,在动态维度中选择一个时间段作为分析时段;
g-6-3).再次,在限定维度中选择0个、1个或多个指标维度作为分析的限定条件,每个限定维度选择一个值或多个值;
g-6-4).最后,在目标维度中选择一个指标维度作为分析维度;
当选择的目标维度是需求量时,限定维度中的指标维度岗位类别为不限、其他限定维度未指定时,获得划定时间段不同区域的热招岗位;指定单一限定维度,则分析划定时间段内不同区域在相同行业、相同规模企业或相同性质企业的热招岗位;通过限定维度的组合,分析不同区域详细的热招岗位;
当选择的目标维度是月薪时,限定维度中的指标维度岗位类别为不限、其他限定维度未指定时,获得划定时间段不同区域的高薪岗位;指定单一限定维度,则分析划定时间段内不同区域在相同行业、相同规模企业或相同性质企业的高薪岗位差别;通过限定维度的组合,分析不同区域详细的高薪岗位的不同;
当选择的目标维度是福利时,未指定限定维度,获得划定时间段不同区域都会提供福利的不同;指定单一限定维度,则分析划定时间段内不同区域在相同行业、相同规模企业或相同性质企业的福利水平的差别;通过限定维度的组合,分析不同区域详细的福利差别;
当选择的目标维度是岗位职责时,未指定限定维度,则分析划定时间段内不同区域所需热门技能,从侧面反映不同区域经济发展所依赖的支撑技术点,为区域间的互补合作提供指导;指定单一限定维度,则分析不同区域在相同行业、相同性质或相同规模企业所需热门技能的差异;通过限定维度的组合,分析不同区域详细的专业技能要求的差异;
当选择的目标维度是岗位要求时,未指定限定维度,则分析划定时间段内不同区域所需人才的素质要求,从侧面反映区域文化对人才偏好的影响;通过指定单一限定维度,可分析不同区域在相同行业、不同性质或不同规模企业对人才素质要求的差别;通过限定维度的组合,对比分析在不同区域在相同行业、不同性质或不同规模企业对人才专业素养要求的差别;
Ⅳ型需求量化分析,从多角度多层面对不同区域不同阶段的人才需求量变化、月薪水平变化,以及对人才的技能和素质要求变化做出有效对比分析,分析流程为:
g-7-1).首先,在区域维度中选择多个区域作为对比分析区域;
g-7-2).其次,在动态维度中选择对比时段作为分析时段,所选定的对比时段是月度、季度或年度自然时间分割节点;
g-7-3).再次,在限定维度中选择0个、1个或多个指标维度作为分析的限定条件,每个限定维度选择一个值或多个值;
g-7-4).最后,需要在目标维度中选择一个指标维度作为分析维度;
当选择的目标维度是需求量时,未指定限定维度,则分析多个区域不同时段人才需求量的变化情况;指定单一限定维度,则分析不同区域在相同行业、相同性质、相同规模企业或相同学历方面不同时间段人才需求量的变动趋势;通过限定维度的组合,分析不同区域不同时段详细的人才需求变动情况;
当选择的目标维度是月薪时,未指定限定维度,则分析多个区域不同时间段提供平均月薪的涨落情况,对比不同区域提供月薪的增幅情况;指定单一限定维度,分析不同区域在相同行业、相同性质、相同规模企业或相同学历方面人才平均月薪随时间演进的变化情况,从侧面反映不同区域经济的增速;通过限定维度的各种组合,分析不同区域相同类型人才薪水增幅情况;
当选择的目标维度是岗位职责时,未指定限定维度,则分析不同区域随时间演进对人才掌握技能的变化情况;指定单一限定维度,则分析多个区域在相同行业、相同岗位或相同学历方面对人才技能需求随时间演进的变化情况,从侧面反映不同区域技术发展路径的差别;通过限定维度的各种组合,对比多个区域相同类型组织对人才技能需求走向的差别;
当选择的目标维度是岗位要求时,未指定限定维度,则分析不同区域随时间演进对人才素质要求的变化情况;指定单一限定维度,则分析多个区域在相同行业、相同岗位或相同学历方面对人才素质要求随时间演进的变化情况;通过限定维度的各种组合,分析多个区域相同类型组织随时间演进对人才素质的需求变化情况;
Ⅳ型需求热点分析,从多角度多层面对不同区域不同阶段热招岗位、高薪岗位、福利的变化趋势,以及需要优先引进人才必备技能和素质的变迁做出有效对比分析,分析流程如下:
g-8-1).首先,需要在区域维度中选择多个区域作为对比分析区域;
g-8-2).其次,需要在动态维度中选择对比时段作为分析时段,所选定的对比时段是月度、季度或年度自然时间分割节点;
g-8-3).再次,在限定维度中选择0个、1个或多个指标维度作为分析的限定条件,每个限定维度选择一个值或多个值;
g-8-4).最后,需要在目标维度中选择一个指标维度作为分析维度,
当选择的目标维度是需求量时,限定维度中的指标维度岗位类别为不限、其他限定维度未指定时,则获得不同区域不同时段的热招岗位,从侧面反映了不同区域人才缺口的变化情况;指定一维限定维度,分析不同区域在相同行业、相同规模或相同性质企业的热招岗位随时间演进的变化;通过限定维度的组合,对比分析不同区域更为详细的热招岗位随时间演进的变化;
当选择的目标维度是月薪时,限定维度中的指标维度岗位类别为不限、其他限定维度未指定时,则获得不同区域高薪岗位随时间演进的变化,从侧面反映随时间演进不同区域社会财富的流向;指定单一限定维度,则分析不同区域在相同行业、相同规模或相同性质企业高薪岗位随时间演进的变化情况;通过限定维度的组合,对比分析不同区域更为详细的高薪岗位随时间演进的变化;
当选择的目标维度是福利时,未指定限定维度,则分析不同区域所提供福利随时间演变的变化情况;指定单一限定维度,则分析不同区域相同行业、相同性质或相同规模企业福利随时间演变的变化情况;通过限定维度的组合,对比分析在不同区域详细的福利的变化;
当选择的目标维度是岗位职责时,未指定限定维度,则分析不同区域随时间演进所需热门技能的变化,从侧面反映不同地区区域经济发展所依赖支撑技术点的发展及创新情况;指定单一限定维度,则分析不同区域在相同行业、相同性质或相同规模企业所需热门技能随时间演进的变化;通过限定维度的组合,分析不同区域详细的所需热门技能随时间演进的变化;
当选择的目标维度是岗位要求时,未指定限定维度,则分析不同区域随时间演进所需人才素质要求的变化,从侧面反映不同地区区域文化宣传对人才偏好变化的影响;通过指定单一限定维度,则分析不同区域在相同行业、相同性质或相同规模企业对人才素质要求随时间演进的变化;通过限定维度的组合,对比分析不同区详细的所需素养随时间演进的变化;
步骤h)中数值型数据的量化分析方法如下:
h-1-1).记录限定维度选择顺序;
h-1-2).按照有序的限定维度、区域维度和动态维度的顺序,记录选中的指标维度及每个选定指标维度选中的值,将其转化成不等长矩阵,其中矩阵每一行代表一个选中的指标维度,一行中的一个元素代表对应指标维度选中的值;
假定包含区域维度和动态维度共选中了idxn个指标维度,选中的指标维度分别为Chose_Index1,Chose_Index2,…,Chose_Indexidxn,每个限定维度选中值的个数为Chose_an1,Chose_an2,…,Chose_anidxn,选中的值分别是Chose_Index1_Atb1,Chose_Index1_Atb2,…,Chose_Index1_Atban1,Chose_Index2_Atb1,Chose_Index2_Atb2,…,Chose_Index2_Atban2,…,Chose_Indexidxn_Atb1,Chose_Indexidxn_Atb2,…,Chose_Indexidxn_Atbanidxn
则转化的数组共idxn维,第i维为指标维度Chose_Indexi,第i维的长度为Chose_ani,第i维数组的值分别为Chose_Indexi_Atb1,Chose_Indexi_Atb2,…,Chose_Indexi_Atbani
h-1-3).取出矩阵第一维数组第一个元素作为根节点,按照深度优先遍历不等长矩阵,将其转化为一棵树;
h-1-4).取出矩阵第一维数组的后续元素作为根节点,按照深度优先遍历不等长矩阵,将其转化成一棵树;
h-1-5).迭代操作步骤h-1-4),直至第一维数组元素为空;
h-1-6).按照第一维数组的元素顺序,自左至右排列矩阵转化而成多棵树的根节点顺序构建森林,森林中共有Chose_an1棵树;
h-1-7).首先按照自左至右遍历森林中的树,然后按照深度优先遍历每棵树,记录每一个遍历从树根至叶子所经历的完整路径,如[Chose_Index1_Atb1->Chose_Index2_Atb1->Chose_Index3_Atb1->…->Chose_Indexidxn_Atb1]、[Chose_Index1_Atb1->Chose_Index2_Atb1->Chose_Index3_Atb1->…->Chose_Indexidxn_Atb2]、…、[Chose_Index1_Atb1->Chose_Index2_Atb1->Chose_Index3_Atb1->…->Chose_Indexidxn_Atbanidxn],共有Chose_an1×Chosen_an2×…×Chose_anidxn条路径;
h-1-8).结合属性值所属指标维度,将一条遍历路径转化为一条数据查询限定规则;如路径[Chose_Index1_Atb1->Chose_Index2_Atb1->Chose_Index3_Atb1->…->Chose_Indexidxn_Atb1]转化为一条规则:Chose_Index1 matches Chose_Index1_Atb1 And Chose_Index2 matches Chose_Index2_Atb1 And Chose_Index3 matches Chose_Index3_Atb1And…And Chose_Indexidxn matches Chose_Indexidxn_Atb1,共有Chose_an1×Chose_an2×…×Chose_anidxn条数据查询规则;
h-1-9).按照顺序抽取一条数据查询规则,在抓取的数据中进行查询,找出满足规则的数据集合Dataseti
若目标维度为需求量,则对Dataseti进行统计求和获取结果Resulti
若目标维度为平均月薪,则对Dataseti进行统计平均获取结果Resulti
h-1-10).迭代操作h-1-9),直至抽取完所有的数据查询规则,汇总每条数据查询规则所获得的结果Resulti,返回量化分析结果集ResultSet;
步骤h)中数值型数据的热点分析方法如下:
在需求量和平均月薪的热点分析中,限定维度岗位默认为不限,因此在统计指标维度的选择情况时,并不统计该指标维度;其前9步操作与数值型数据的量化分析的步骤h-1-1)至h-1-9)相同;
h-2-10).迭代操作h-1-9),直至抽取完所有的数据查询规则,对比每条数据查询规则所获得的结果Resulti,按照用户设定抽取前若干项结果作为热点结果集TopResultSet,并抽取其对应的岗位集合TopJob;
步骤h)中带统计值的标称型分析方法如下:
在福利的热点分析中,生成数据查询规则的方法与数值型数据的量化分析的步骤h-1-1)至h-1-8)相同;
h-3-9).按照顺序抽取一条数据查询规则,在抓取的数据中进行查询,找出满足规则的数据集合Dataseti,统计Dataseti中各项福利的个数,构建福利集合WelfareSeti及相应的福利个数集合WelfareQuantitySeti
h-3-10).迭代操作h-3-9),直至抽取完所有的数据查询规则,对比每条数据查询规则所获得的福利个数集合WelfareQuantitySeti,按照用户设定抽取前若干项结果作为热点结果集TopWelfareSeti,并抽取其对应的福利个数集合WelfareQuantitySeti
步骤h)中文本型数据的量化分析方法如下:
在岗位职责和岗位要求的量化分析中,生成数据查询规则的方法与数值型数据的量化分析的步骤h-1-1)至h-1-8)相同;
h-4-9).按照顺序抽取一条数据查询规则,在抓取的数据中进行查询,找出满足规则的数据集合Dataseti,该Dataseti中的每条数据Dataj均为文本型结果,然后进行如下操作:
h-4-9-1).将每条数据Dataj作为一个元组,对其进行分词操作,将每个分词作为一个元素;
h-4-9-2).使用分词后的元组构建FP-Tree;
h-4-9-3).依据用户设定的最小支持度,使用频繁模式算法发现频繁模式;
h-4-9-4).查找每个元组中出现频繁模式次数最多的短句,将短句去重后组成新的句子作为查询结果Resulti
h-4-10).迭代操作h-4-9),直至抽取完所有的数据查询规则,汇总每条数据查询规则所获得的结果Resulti,返回量化分析结果集ResultSet;
步骤h)中文本型数据的热点分析方法如下:
在岗位职责和岗位要求的量化分析中,生成数据查询规则的方法与数值型数据的量化分析的步骤h-1-1)至h-1-8)相同;
h-5-9).按照顺序抽取一条数据查询规则,在抓取的数据中进行查询,找出满足规则的数据集合Dataseti,该Dataseti中的每条数据Dataj均为文本型结果,然后进行如下操作:
h-5-9-1).将每条数据Dataj作为一个元组,对进行分词操作,将每个分词作为一个元素;
h-5-9-2).使用分词后的元组构建FP-Tree;
h-5-9-3).依据用户设定的最小支持度,使用频繁模式算法发现频繁模式;
h-5-9-4).利用每个行业的技能或素养词典,查找频繁模式中的技能或素养,利用技能或素养的频繁模式构建查询结果Resulti
h-5-10).迭代操作h-5-9),直至抽取完所有的数据查询规则,汇总每条数据查询规则所获得的结果Resulti,返回分析结果集ResultSet;
步骤i)中数值型数据的量化分析结果可视化方法如下:
i-1-1).初始时令选择多值的维度数Dimension_Count=0;
i-1-2).查看区域维度、动态维度和限定维度,计算选择多值的维度数,
若区域维度选择了多个区域,则Dimension_Count加1;
若动态维度选择了多个对比时段,则Dimension_Count加1;
从限定维度中取出一个指标维度,若该指标维度选择了多个值,则Dimension_Count加1,迭代此操作,直至限定维度中的指标维度为空;
i-1-3).若Dimension_Count的值等于0,表明除目标维度需求量或月薪外,其余指标维度至多选取了一个值,则最终得到的数值型结果为单一值,采用仪表盘展现,仪表盘的刻度即为最终结果;
i-1-4).若Dimension_Count的值等于1,表明除目标维度需求量或月薪外,有一个指标维度选择了多个值,将此选择了多值的指标维度称为Chart_Index,其余指标维度至多选取了一个值,则最终得到的结果为一维数组,采用饼图、单系列折线图或单系列柱形图展现;单系列折线图和单系列柱形图的纵坐标表示岗位数或平均月薪,横坐标表示Chart_Index,折线图中的一个折点和柱形图中的一列对应着Chart_Index的一个值;饼图中的一个区域对应着Chart_Index的一个值,使用区域的大小说明岗位数或平均月薪;
i-1-5).若Dimension_Count的值等于2,表明除目标维度需求量或月薪外,有两个指标维度选择了多个值,其余指标维度至多选取了一个值;
i-1-5-1).若选择了多值的两个指标维度中包含区域维度或动态维度,则将含有多值的区域维度或动态维度标识为Chart_Index1,将限定维度标识为Chart_Index2;
i-1-5-2).若选择了多值的两个指标维度中包含区域维度和动态维度,则将动态维度标识为Chart_Index1,将区域维度标识为Chart_Index2;
i-1-5-3).若选择了多值的两个指标维度中不包含区域维度或动态维度,将指标维度按照选择顺序分别标识为Chart_Index2和Chart_Index1;
分析所得到的最终结果为二维数组,采用多系列折线图或多系列柱形图展现;多系列折线图和多系列柱形图的纵坐标表示岗位数或平均月薪,横坐标表示Chart_Index1,图表中的一个系列表示Chart_Index2的一个选择值;
i-1-6).若Dimension_Count的值大于2,表明除目标维度需求量或月薪外,至少有三个指标维度选择了多个值,假定选中了多值的指标维度个数为idxn,
i-1-6-1).若选择了多值的指标维度中包含区域维度或动态维度,则将含有多值的区域维度或动态维度标识为Chart_Index1,将最后选中的限定维度标识为Chart_Index2;
i-1-6-2).若选择了多值的指标维度中包含区域维度和动态维度,则将动态维度标识为Chart_Index1,将区域维度标识为Chart_Index2;
i-1-6-3).若选择了多值的指标维度中不包含区域维度或动态维度,将最后选择的两个指标维度按照选择顺序分别标识为Chart_Index2和Chart_Index1;
i-1-6-4).将其他选择了多值的限定维度按照选择顺序依次标识为Chosen_Indexidxn-2,Chosen_Indexidxn-3,…,Chosen_Index1,假定限定维度Chosen_Index1,Chosen_Index2,…,Chosen_Indexidxn-2选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn-2
首先,使用限定维度Chosen_Index1,Chosen_Index2,…,Chosen_Indexidxn-2构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn-2行idxn-1列的表格,表格的第1列到第idxn-2列分别对应限定维度Chosen_Index1,…,Chosen_Indexidxn-2;表格第i行j列单元格的值则为限定维度Chosen_Indexj
Figure FDA0002453636310000191
个值,其中j<idxn-1;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-2个小单元格,合并后的单元格i将取Chosen_Indexj的第i个值;
最后,第idxn-1列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-2个单元格,每个单元格中包含一个多系列折线图或多系列柱形图;多系列折线图和多系列柱形图的纵坐标表示岗位数或平均月薪,横坐标表示Chart_Index1,图表中的一个系列表示Chart_Index2的一个选择值;
步骤i)中数值型数据的热点分析结果可视化方法如下:
热点分析的热招岗位和高薪岗位分析限定维度岗位的默认值为不限,也即默认选定了指标维度岗位的所有值,因此至少有一个指标维度选择了多个值;图表生成方案如下:
i-2-1).初始时令选择多值的维度数Dimension_Count=0;
i-2-2).查看区域维度、动态维度和限定维度,计算选择多值的维度数,
若区域维度选择了多个区域,则Dimension_Count加1;
若动态维度选择了多个对比时段,则Dimension_Count加1;
从限定维度中取出一个指标维度,若该指标维度选择了多个值,则Dimension_Count加1,迭代此操作,直至限定维度中的指标维度为空;
i-2-3).若Dimension_Count的值等于1,表明除限定维度岗位外,其余指标维度至多选取了一个值,则最终得到的结果为一维数组,直接采用一个柱形图展现;柱形图的纵坐标表示热招岗位的岗位数或高薪岗位的平均月薪,横坐标表示限定维度岗位,图中的每一列对应一个根据条件选出的具体岗位名称,其自左至右降序排列;
i-2-4).若Dimension_Count的值等于2,表明除限定维度岗位外,还有一个指标维度选取了多个值,将此指标维度标识为Chose_Index;
i-2-4-1).若该Chose_Index是动态维度,参与对比分析的时间段个数为itvn,则构建一个1行itvn列的表格,表格的一列表示一个参与对比分析的时间段,每一个单元格为相应时间段内热招岗位或高薪岗位情况,采用一个柱形图展现;
i-2-4-2).若该Chose_Index是区域维度或其他限定维度,选中值的个数为vlun,则构建一个vlun行1列的表格,表格的一行表示一个区域或一个限定维度的值,每一个单元格表示相应区域或限定条件的热招岗位或高薪岗位情况,采用一个柱形图展现;
i-2-5).若Dimension_Count的值大于2,表明除限定维度岗位外,还有至少两个指标维度选取了多个值,假定选中了多值的指标维度个数为idxn;
i-2-5-1).若选择了多值的指标维度中包含动态维度,假定参与对比分析的时间段个数为itvn,
若选择了多值的指标维度中包含区域维度,将区域维度标识为Chosen_Indexidxn-2,将其他选择了多值的限定维度按照选择顺序依次标识为Chosen_Indexidxn-3,Chosen_Indexidxn-4,…,Chosen_Index1
若选择了多值的指标维度中不包含区域维度,将其他选择了多值的限定维度按照选择顺序依次标识为Chosen_Indexidxn-2,Chosen_Indexidxn-3,…,Chosen_Index1
假定限定维度Chosen_Index1,Chosen_Index2,…,Chosen_Indexidxn-2选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn-2
首先,使用指标维度Chosen_Index1,Chosen_Index2,…,Chosen_Indexidxn-2构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn-2行idxn-1+itvn列的表格,表格的第1列到第idxn-2列分别对应指标维度Chosen_Index1,…,Chosen_Indexidxn-2;表格第i行j列单元格的值则为限定维度Chosen_Indexj
Figure FDA0002453636310000211
个值,其中j<idxn-1;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-2个小单元格,合并后的单元格i将取Chosen_Indexj的第i个值;
最后,第idxn-1列到第idxn-1+itvn列分别对应一个对比时段的情况,每一列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-2个单元格,每一个单元格表示一个对比时段相应区域或限定条件的热招岗位或高薪岗位情况,采用一个柱形图展现;
i-2-5-2).若选择了多值的指标维度中不包含动态维度:
若选择了多值的指标维度中包含区域维度,将区域维度标识为Chosen_Indexidxn-1,将其他选择了多值的限定维度按照选择顺序依次标识为Chosen_Indexidxn-2,Chosen_Indexidxn-3,…,Chosen_Index1
若选择了多值的指标维度中不包含区域维度,将其他选择了多值的限定维度按照选择顺序依次标识为Chosen_Indexidxn-1,Chosen_Indexidxn-2,…,Chosen_Index1
假定指标维度Chosen_Index1,Chosen_Index2,…,Chosen_Indexidxn-1选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn-1
首先,使用指标维度Chosen_Index1,Chosen_Index2,…,Chosen_Indexidxn-1构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn-1行idxn列的表格,表格的第1列到第idxn-1列分别对应指标维度Chosen_Index1,…,Chosen_Indexidxn-1;表格第i行j列单元格的值则为限定维度Chosen_Indexj
Figure FDA0002453636310000212
个值,其中j<idxn;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-1个小单元格,合并后的单元格i将取Chosen_Indexj的第i个值;
最后,第idxn列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-1个单元格,每一个单元格表示相应区域或限定条件的热招岗位或高薪岗位情况,采用一个柱形图展现;
步骤i)中带统计值的标称型分析结果可视化方法如下:
仅对指标维度福利进行热点分析,通过对各组织提供福利的统计可得到各种福利的热点,在此也采用单系列柱形图加表格的形式展示,图表生成方案如下:
i-3-1).初始时令选择多值的维度数Dimension_Count=0;
i-3-2).查看区域维度、动态维度和限定维度,计算选择多值的维度数,
若区域维度选择了多个区域,则Dimension_Count加1;
若动态维度选择了多个对比时段,则Dimension_Count加1;
从限定维度中取出一个指标维度,若该指标维度选择了多个值,则Dimension_Count加1,迭代此操作,直至限定维度中的指标维度为空;
i-3-3).若Dimension_Count的值等于1,表明有一个指标维度选取了多个值,将此指标维度标识为Chose_Index;
i-3-3-1).若该Chose_Index是动态维度,参与对比分析的时间段个数为itvn,则构建一个1行itvn列的表格,表格的一列表示一个参与对比分析的时间段,每一个单元格为相应时间段内提供福利待遇情况,采用一个柱形图展现;柱形图的横坐标表示福利,纵坐标为各种福利的统计值,图中的每一列对应一个根据条件选出的福利名称,其自左至右降序排列;
i-3-3-2).若该Chose_Index是区域维度或其他限定维度,选中值的个数为vlun,则构建一个vlun行1列的表格,表格的一行表示一个区域或一个限定维度的值,每一个单元格表示相应区域或限定条件下提供福利待遇情况,采用一个柱形图展现;
i-3-4).若Dimension_Count的值大于1,表明至少两个指标维度选取了多个值,假定选中了多值的指标维度个数为idxn;
i-3-4-1).若选择了多值的指标维度中包含动态维度,假定参与对比分析的时间段个数为itvn;
若选择了多值的指标维度中包含区域维度,将区域维度标识为Chosen_Indexidxn-1,将其他选择了多值的限定维度按照选择顺序依次标识为Chosen_Indexidxn-2,Chosen_Indexidxn-3,…,Chosen_Index1
若选择了多值的指标维度中不包含区域维度,将其他选择了多值的限定维度按照选择顺序依次标识为Chosen_Indexidxn-1,Chosen_Indexidxn-2,…,Chosen_Index1
假定限定维度Chosen_Index1,Chosen_Index2,…,Chosen_Indexidxn-1选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn-1
首先,使用指标维度Chosen_Index1,Chosen_Index2,…,Chosen_Indexidxn-1构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn-1行idxn-1+itvn列的表格,表格的第1列到第idxn-1列分别对应指标维度Chosen_Index1,…,Chosen_Indexidxn-1;表格第i行j列单元格的值则为限定维度Chosen_Indexj
Figure FDA0002453636310000231
个值,其中j<idxn;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-1个小单元格,合并后的单元格i将取Chosen_Indexj的第i个值;
最后,第idxn-1列到第idxn-1+itvn列分别对应一个对比时段的情况,每一列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-1个单元格,每一个单元格表示一个对比时段相应区域或限定条件下提供福利待遇情况,采用一个柱形图展现;
i-3-4-2).若选择了多值的指标维度中不包含动态维度,
若选择了多值的指标维度中包含区域维度,将区域维度标识为Chosen_Indexidxn,将其他选择了多值的限定维度按照选择顺序依次标识为Chosen_Indexidxn-1,Chosen_Indexidxn-2,…,Chosen_Index1
若选择了多值的指标维度中不包含区域维度,将其他选择了多值的限定维度按照选择顺序依次标识为Chosen_Indexidxn,Chosen_Indexidxn-1,…,Chosen_Index1
假定指标维度Chosen_Index1,Chosen_Index2,…,Chosen_Indexidxn选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn
首先,使用指标维度Chosen_Index1,Chosen_Index2,…,Chosen_Indexidxn构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn行idxn+1列的表格,表格的第1列到第idxn列分别对应指标维度Chosen_Index1,…,Chosen_Indexidxn;表格第i行j列单元格的值则为限定维度Chosen_Indexj
Figure FDA0002453636310000241
个值,其中j<idxn+1;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn个小单元格,合并后的单元格i将取Chosen_Indexj的第i个值;
最后,第idxn列有ChIdxN1×ChIdxN2×...×ChIdxNidxn个单元格,每一个单元格表示相应区域或限定条件下提供福利待遇情况,采用一个柱形图展现;
步骤i)中文本型数据分析结果可视化方法如下:
指标维度岗位职责和岗位要求的量化分析结果和热点分析结果均以文本的形式体现,不同之处在于量化分析的结果为长句,而热点分析所得到的为多个关键词;对此量化分析将采用表格加文本内容的形式展现,热点分析将采用表格加球状旋转效果展现,图表生成方案如下:
i-4-1).初始时令选择多值的维度数Dimension_Count=0;
i-4-2).查看区域维度、动态维度和限定维度,计算选择多值的维度数;
若区域维度选择了多个区域,则Dimension_Count加1;
若动态维度选择了多个对比时段,则Dimension_Count加1;
从限定维度中取出一个指标维度,若该指标维度选择了多个值,则Dimension_Count加1,迭代此操作,直至限定维度中的指标维度为空;
i-4-3).若Dimension_Count的值等于1,表明有一个指标维度选取了多个值,将此指标维度标识为Chose_Index;
i-4-3-1).若该Chose_Index是动态维度,参与对比分析的时间段个数为itvn,则构建一个1行itvn列的表格,表格的一列表示一个参与对比分析的时间段;量化分析中每一个单元格为相应时间段内岗位职责或岗位要求情况,直接使用文本填充;热点分析中每一个单元格为相应时间段内热门技能或素养情况,采用关键词球状旋转效果展现,将技能或素养关键词均匀的分布到球体上,并随着鼠标的滑动而旋转;
i-4-3-2).若该Chose_Index是区域维度或其他限定维度,选中值的个数为vlun,则构建一个vlun行1列的表格,表格的一行表示一个区域或一个限定维度的值,量化分析中每一个单元格为相应区域或限定条件下岗位职责或岗位要求情况;热点分析中每一个单元格为相应区域或限定条件下热门技能或素养情况;
i-4-4).若Dimension_Count的值大于1,表明至少两个指标维度选取了多个值,假定选中了多值的指标维度个数为idxn;
i-4-4-1).若选择了多值的指标维度中包含动态维度,假定参与对比分析的时间段个数为itvn;
若选择了多值的指标维度中包含区域维度,将区域维度标识为Chosen_Indexidxn-1,将其他选择了多值的限定维度按照选择顺序依次标识为Chosen_Indexidxn-2,Chosen_Indexidxn-3,…,Chosen_Index1
若选择了多值的指标维度中不包含区域维度,将其他选择了多值的限定维度按照选择顺序依次标识为Chosen_Indexidxn-1,Chosen_Indexidxn-2,…,Chosen_Index1
假定限定维度Chosen_Index1,Chosen_Index2,…,Chosen_Indexidxn-1选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn-1
首先,使用指标维度Chosen_Index1,Chosen_Index2,…,Chosen_Indexidxn-1构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn-1行idxn-1+itvn列的表格,表格的第1列到第idxn-1列分别对应指标维度Chosen_Index1,…,Chosen_Indexidxn-1;表格第i行j列单元格的值则为限定维度Chosen_Indexj
Figure FDA0002453636310000251
个值,其中j<idxn;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-1个小单元格,合并后的单元格i将取Chosen_Indexj的第i个值;
最后,第idxn-1列到第idxn-1+itvn列分别对应一个对比时段的情况,每一列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-1个单元格,量化分析中每一个单元格为相应时间段内岗位职责或岗位要求情况,直接使用文本填充;热点分析中每一个单元格为相应时间段内热门技能或素养情况,采用关键词球状旋转效果展现,将技能或素养关键词均匀的分布到球体上,并随着鼠标的滑动而旋转;
i-4-4-2).若选择了多值的指标维度中不包含动态维度,
若选择了多值的指标维度中包含区域维度,将区域维度标识为Chosen_Indexidxn,将其他选择了多值的限定维度按照选择顺序依次标识为Chosen_Indexidxn-1,Chosen_Indexidxn-2,…,Chosen_Index1
若选择了多值的指标维度中不包含区域维度,将其他选择了多值的限定维度按照选择顺序依次标识为Chosen_Indexidxn,Chosen_Indexidxn-1,…,Chosen_Index1
假定指标维度Chosen_Index1,Chosen_Index2,…,Chosen_Indexidxn选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn
首先,使用指标维度Chosen_Index1,Chosen_Index2,…,Chosen_Indexidxn构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn行idxn+1列的表格,表格的第1列到第idxn列分别对应指标维度Chosen_Index1,…,Chosen_Indexidxn;表格第i行j列单元格的值则为限定维度Chosen_Indexj
Figure FDA0002453636310000261
个值,其中j<idxn+1;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn个小单元格,合并后的单元格i将取Chosen_Indexj的第i个值;
最后,第idxn列有ChIdxN1×ChIdxN2×...×ChIdxNidxn个单元格,量化分析中每一个单元格为相应区域或限定条件下岗位职责或岗位要求情况;热点分析中每一个单元格为相应区域或限定条件下热门技能或素养情况。
CN201710381520.5A 2017-05-26 2017-05-26 基于大数据的区域人才需求量化分析方法 Active CN107203872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710381520.5A CN107203872B (zh) 2017-05-26 2017-05-26 基于大数据的区域人才需求量化分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710381520.5A CN107203872B (zh) 2017-05-26 2017-05-26 基于大数据的区域人才需求量化分析方法

Publications (2)

Publication Number Publication Date
CN107203872A CN107203872A (zh) 2017-09-26
CN107203872B true CN107203872B (zh) 2020-06-02

Family

ID=59905287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710381520.5A Active CN107203872B (zh) 2017-05-26 2017-05-26 基于大数据的区域人才需求量化分析方法

Country Status (1)

Country Link
CN (1) CN107203872B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021655A (zh) * 2017-12-01 2018-05-11 广东工业大学 一种数据处理方法、装置、设备及可读存储介质
CN108255979A (zh) * 2017-12-28 2018-07-06 山东浪潮商用系统有限公司 一种数据汇总方法、数据汇总平台及系统
CN108170826A (zh) * 2018-01-08 2018-06-15 北京国信宏数科技有限责任公司 一种基于互联网大数据的宏观经济分析方法及系统
CN108280583A (zh) * 2018-01-26 2018-07-13 重庆工商大学 基于大数据的岗位技能需求分析方法
CN108399251A (zh) * 2018-03-05 2018-08-14 贵州工程应用技术学院 一种多层数据展现的智能生成器和数据展现方法
CN108596436A (zh) * 2018-03-28 2018-09-28 郑州铁路职业技术学院 基于计算机的经济指标实时监控分析方法
CN108833490A (zh) * 2018-05-24 2018-11-16 郑州云海信息技术有限公司 一种分布式数据采集系统及其方法
CN110609894A (zh) * 2018-05-28 2019-12-24 吴俊逸 基于文字挖掘的资料交换平台及利用其的方法
JP7126881B2 (ja) * 2018-07-02 2022-08-29 株式会社神戸製鋼所 人材育成支援システム及びプログラム
CN109118173A (zh) * 2018-08-06 2019-01-01 常州天正工业发展股份有限公司 一种指导技能学习的方法及装置
CN109214651A (zh) * 2018-08-06 2019-01-15 常州天正工业发展股份有限公司 一种判断岗位技能要求变化的方法及装置
CN109829567A (zh) * 2019-01-02 2019-05-31 平安科技(深圳)有限公司 基于机器学习的学位调控方法、装置和计算机设备
CN110602067A (zh) * 2019-08-29 2019-12-20 北京孚耐尔科技有限公司 基于流量分析的数据报文快速提取和调用的方法和装置
CN111046306B (zh) * 2019-12-30 2023-06-09 四川华迪信息技术有限公司 一种浏览器动态展示就业信息分析结果图表的方法
CN112149031B (zh) * 2020-08-24 2024-04-26 广州市标准化研究院 一种基于云服务的文化产业创意综合公共服务平台及方法
CN112506986A (zh) * 2020-11-19 2021-03-16 阿坝师范学院 基于web招聘信息的特定专业人才技能需求挖掘系统
CN112883100A (zh) * 2021-02-07 2021-06-01 北京九征智云科技有限公司 基于大数据人工智能的数据分析可视化方法、系统及装置
CN114741497A (zh) * 2022-03-08 2022-07-12 北京元年科技股份有限公司 生成数据简报的方法、装置、设备及计算机可读存储介质
CN116029685A (zh) * 2023-03-29 2023-04-28 中国电子科技集团公司第十五研究所 面向多维人力资源信息的人才池智能汇集方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462431A (zh) * 2014-12-16 2015-03-25 浪潮软件集团有限公司 一种爬取网页招聘信息的方法
CN105930326A (zh) * 2015-11-26 2016-09-07 无锡子木教育科技有限公司 专业建设调研与课程开发系统
CN106021274A (zh) * 2016-04-29 2016-10-12 北京格分维科技有限公司 一种基于大数据的人才能力评价模型系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462431A (zh) * 2014-12-16 2015-03-25 浪潮软件集团有限公司 一种爬取网页招聘信息的方法
CN105930326A (zh) * 2015-11-26 2016-09-07 无锡子木教育科技有限公司 专业建设调研与课程开发系统
CN106021274A (zh) * 2016-04-29 2016-10-12 北京格分维科技有限公司 一种基于大数据的人才能力评价模型系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于MapReduce 的网络爬虫设计与实现;李晨 等;《山东科学》;20150430;第28卷(第2期);第102-105页 *

Also Published As

Publication number Publication date
CN107203872A (zh) 2017-09-26

Similar Documents

Publication Publication Date Title
CN107203872B (zh) 基于大数据的区域人才需求量化分析方法
CN107239892B (zh) 基于大数据的区域人才供需平衡量化分析方法
US11709871B2 (en) Computer implemented method for quantifying the relevance of documents
CN107203849B (zh) 基于大数据的区域人才供给量化分析方法
Mena‐Chalco et al. Brazilian bibliometric coauthorship networks
Ruiz-Rodríguez et al. Measurement and characterisation of the Digital Divide of Spanish regions at enterprise level. A comparative analysis with the European context
Özmen Uysal Business ethics research with an accounting focus: A bibliometric analysis from 1988 to 2007
Torres-Salinas et al. Library Catalog Analysis as a tool in studies of social sciences and humanities: An exploratory study of published book titles in Economics
Fu et al. Identifying spatiotemporal urban activities through linguistic signatures
KR20120054020A (ko) 시맨틱 트레이딩 플로어
Kim et al. Through 100 years of Ecological Society of America publications: development of ecological research topics and scientific collaborations
Yalçın et al. Scientometric Analysis of the Researches About Technological Pedagogical Content Knowledge and Scholarly Communication.
Longley et al. The UK geography of the e-society: a national classification
Wei et al. A document co-citation analysis method for investigating emerging trends and new developments: a case of twenty-four leading business journals
Vakkari et al. Disciplinary contributions to research topics and methodology in Library and Information Science—Leading to fragmentation?
Jankowski Mixed-data multicriteria evaluation for regional planning: a systematic approach to the decisionmaking process
Romanko et al. The use of online job sites for measuring skills and labour market trends: A review
Ritze Web-scale web table to knowledge base matching
Ojo et al. The segmentation of local government areas: Creating a new geography of nigeria
Hérubel Citation studies in the humanities and social sciences: A selective and annotated bibliography
Mohammed et al. A bibliometric analysis for audit research: evidence from Algerian Scientific Journals Platforms (ASJP)
Martínez et al. Enhancing Job Searches in Mexico City with Language Technologies
Qurrata et al. Waqf Sustainability or Sustainable Waqf? A Bibliometric Analysis
D'Ignazio —Researching
RU2555232C2 (ru) Способ формирования и эксплуатации базы данных

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant