CN111414522A - 基于网络爬虫的招聘信息可视化分析系统 - Google Patents

基于网络爬虫的招聘信息可视化分析系统 Download PDF

Info

Publication number
CN111414522A
CN111414522A CN202010099729.4A CN202010099729A CN111414522A CN 111414522 A CN111414522 A CN 111414522A CN 202010099729 A CN202010099729 A CN 202010099729A CN 111414522 A CN111414522 A CN 111414522A
Authority
CN
China
Prior art keywords
information
unit
recruitment
input box
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010099729.4A
Other languages
English (en)
Other versions
CN111414522B (zh
Inventor
郭盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wangpin Consulting Co ltd
Original Assignee
Beijing Wangpin Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wangpin Consulting Co ltd filed Critical Beijing Wangpin Consulting Co ltd
Priority to CN202010099729.4A priority Critical patent/CN111414522B/zh
Publication of CN111414522A publication Critical patent/CN111414522A/zh
Application granted granted Critical
Publication of CN111414522B publication Critical patent/CN111414522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于网络爬虫的招聘信息可视化分析系统,包括:数据处理模块包括:数据采集单元;数据提取单元;数据清洗单元用于过滤重复信息形成一级筛选数据集;求职者检索模块包括:检索输入单元;信息匹配单元用于筛选一级筛选数据集中满足检索信息要求的招聘信息形成二级筛选数据集;目的地识别单元;居住地限定单元;要求输入单元;信息筛选单元用于根据要求信息筛选出符合要求信息的招聘信息形成三级筛选数据集;可视化显示模块,用于依据目的地信息将三级筛选数据集中的招聘信息显示于电子地图上。本发明具有能够在满足搜索者(求职者)满足搜索要求的同时,按照到达目的地方便程度个性化、可视化推荐展示的有益效果。

Description

基于网络爬虫的招聘信息可视化分析系统
技术领域
本发明涉及招聘信息可视化分析技术领域。更具体地说,本发明涉及一种基于网络爬虫的招聘信息可视化分析系统。
背景技术
随着互联网的发展,网上求职和招聘已成为主流的求职招聘途径,网上招聘系统为求职者和用人单位/牵线搭桥,为双方最大限度地提供了便利。然而,求职者面对海量的职场信息,他们可能花大量的时间也难以找到合适的职位信息。一些招聘网站推出了基于关键词列表的职位搜索器,允许注册的用户订阅多个这样的搜索器,网站招聘系统根据用户描述向用户发布招聘信息,向用户发布招聘信息时,多以列表文字的形式进行罗列展现,直观表达不够清晰,且对于有固定居所的求职者,如何满足其个性化需求,在满足搜索要求的同时,按照到达目的地方便程度个性化、可视化推荐展示是目前急需解决的问题。
应聘者在眼花缭乱的招聘信息中不知如何选择最适合自己的工作,因此需要对这些海量的招聘信息进行更深入的更高层次的分析。系统通过网络爬虫技术对网络上海量的招聘信息进行爬取,并对其进行相关的数据清洗工作,对清洗后的数据进行可视化分析。实现了对爬取到的招聘信息进行分类查看、模糊查询以及多条件联合查询,按关键字对招聘信息进行爬取等功能。随着大数据分析技术日渐成熟,可以在合理的时间内对海量的数据进行管理、整理以及分析,从而发掘出数据之间隐藏的关联规则以及预测未来的发展趋势。
发明内容
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种基于网络爬虫的招聘信息可视化分析系统,其能够在满足搜索者(求职者)满足搜索要求的同时,按照到达目的地方便程度个性化、可视化推荐展示。
为了实现根据本发明的这些目的和其它优点,提供了一种基于网络爬虫的招聘信息可视化分析系统,包括:
数据处理模块,其包括:
数据采集单元,用于采用网络爬虫技术在人力资源网站上采集目标数据源;
数据提取单元,其与数据采集单元连接,用于抽取目标数据源中的招聘数据构成招聘数据集,招聘数据集包括多条招聘信息,每条招聘信息包括展示信息,展示信息包括公司性质、职位薪水、工作地点中的至少一种和公司名称、职位类别;
数据清洗单元,其与数据提取单元连接,数据清洗单元中预存储职位类别分类表,数据清洗单元按照预存职位类别分类表将职位类别名称统一,然后过滤重复信息形成一级筛选数据集,其中,若展示信息包括工作地点,重复信息为公司名称、工作地点、职位类别相同的招聘信息,若展示信息不包括工作地点,重复信息为公司名称、职位类别相同的招聘信息;
求职者检索模块,其包括:
检索输入单元,其包括用于检索者输入检索信息的公司名称输入框、职位薪水输入框、公司性质输入框、工作地点输入框、职位类别输入框,其中,职位薪水输入框包括用于输入薪资上限的框体和用于输入薪资下限的框体,公司性质输入框包括选项为私企、国企、外企、事业单位的既定义关键词,工作地点输入框包括按照被包含关系由大至小设置的省、城市、详细地址的既定义关键词选项,职位类别输入框用于输入职位类别名称,每个输入框还包括不限的既定义关键词选项;
信息匹配单元,其与检索输入单元及数据清洗单元连接,用于获取检索者输入的检索信息,并筛选一级筛选数据集中满足检索信息要求的招聘信息,形成二级筛选数据集;
目的地识别单元,其与信息匹配单元连接,用于识别二级筛选数据集中招聘信息对应的地理位置,作为目的地信息;
居住地限定单元,其用于检索者输入居住地信息;
要求输入单元,其包括用于输入要求信息的交通工具限定框、显示要求限定框,其中,交通工具限定框包括公共交通、自驾、出租车、不限的既定义关键词选项,显示要求限定框包括时间要求、路程要求、收费要求的既定义关键词选项,交通工具限定框的优先级优于显示要求限定框;
信息筛选单元,其与目的地识别单元、居住地限定单元及要求输入单元连接,用于依据目的地信息和居住地信息,并根据要求信息筛选出符合要求信息的招聘信息,形成三级筛选数据集;
可视化显示模块,其与信息筛选单元连接,用于依据目的地信息将三级筛选数据集中的招聘信息显示于电子地图上。
优选的是,展示信息还包括发布时间,数据清洗单元在过滤重复信息前还包括剔除发布时间长于一个月的招聘信息。
优选的是,每条招聘信息还包括限定信息,限定信息包括年龄限定、身高限定、体重限定、政治面貌限定、工作经验限定、性别限定、学历限定、专业限定、外语水平限定、计算机水平限定中的至少一种;
检索输入单元还包括用于检索者输入基本信息的年龄输入框、身高输入框、体重输入框、政治面貌输入框、工作经验输入框、性别输入框、学历输入框、专业输入框、外语水平输入框、计算机水平输入框;
信息匹配单元在计算与一级筛选数据集中的招聘信息的相似度前,剔除一级筛选数据集中招聘信息中限定信息与检索者基本信息不匹配的招聘信息。
优选的是,目的地识别单元识别二级筛选数据集中招聘信息对应的地理位置作为目的地信息具体为:
判断工作地点是否为具体地址,若是,以工作地点作为目的地信息;
若否,依据公司名称获取公司具体地址,判断公司地址是否归属于工作地点,若是,以公司地址作为目的地信息;
若否,以工作地点代表范围内的最优地点作为目的地信息,并标注为模糊信息,对应筛选的招聘信息作为模糊招聘信息。
优选的是,三级筛选数据集中的模糊招聘信息显示区别于其他招聘信息的显示。
优选的是,其他招聘信息按照符合程度渐变显示。
本发明至少包括以下有益效果:
能够在满足搜索者(求职者)满足搜索要求的同时,按照到达目的地方便程度个性化、可视化推荐展示,具体为:通过数据清洗单元、信息匹配单元、信息筛选单元配合逐步实现三级筛选,第一步剔除无效重复数据,第二步,剔除不满足检索者要求信息数据,有效提高输出数据有效性,进一步,个性化判断目的地和居住地间关系,进行第三级筛选,有效满足居住地固定检索者的个性化需求;以地理位置为纽带,实现地图可视化,为我们对信息的理解提供更为清晰的空间认知框架。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明的其中一种技术方案所述基于网络爬虫的招聘信息可视化分析系统的结构框图。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
如图1所示,本发明提供一种基于网络爬虫的招聘信息可视化分析系统,包括:
数据处理模块,其包括:
数据采集单元,用于采用网络爬虫技术在人力资源网站上采集目标网页,构成目标数据源;
数据提取单元,其与数据采集单元连接,用于抽取目标数据源中的招聘数据构成招聘数据集,招聘数据集包括多条并列平行的招聘信息,每条招聘信息包括展示信息,展示信息包括公司性质、职位薪水、工作地点中的至少一种,和公司名称、职位类别;
数据清洗单元,其与数据提取单元连接,数据清洗单元中预存储职位类别分类表,按照被包含关系将职位类别由小至大分为职位类别细类、职位类别小类、职位类别大类,职位类别的限定具体可以参考现行分类规则,其中一种具体如下表1所示,其中,职位类别分类表中记载的为职位类别细类,数据清洗单元按照预存职位类别分类表将职位类别名称统一,然后过滤重复信息形成一级筛选数据集,其中,若展示信息包括工作地点,重复信息为公司名称、工作地点、职位类别相同的招聘信息,若展示信息不包括工作地点,重复信息为公司名称、职位类别相同的招聘信息;
表1职位类别划分
Figure BDA0002386472240000051
求职者检索模块,其包括:
检索输入单元,其包括用于检索者输入检索信息的公司名称输入框、职位薪水输入框、公司性质输入框、工作地点输入框、职位类别输入框,其中,公司名称输入框用于输入公司名称,职位薪水输入框包括用于输入薪资上限的框体和用于输入薪资下限的框体,公司性质输入框包括选项为私企、国企、外企、事业单位的既定义关键词,工作地点输入框包括按照被包含关系由大至小设置的省、城市、详细地址的既定义关键词选项,职位类别输入框用于输入职位类别名称,每个输入框还包括不限的既定义关键词选项;
信息匹配单元,其与检索输入单元及数据清洗单元连接,用于获取检索者输入的检索信息,并筛选一级筛选数据集中满足检索信息要求的招聘信息,形成二级筛选数据集,获取的检索信息具体可如下表2所示:
表2检索信息
公司名称 公司性质 职位薪水 工作地点 职位类别
不限 国企 不限 南京 水处理工程师
依据表2,筛选一级筛选数据集中满足检索信息要求的招聘信息具体为:筛选获取满足公司性质为国企、工作地点为南京、职位类别为水处理工程师的招聘信息;
目的地识别单元,其与信息匹配单元连接,用于识别二级筛选数据集中招聘信息对应的地理位置,作为目的地信息;
居住地限定单元,其用于检索者输入居住地信息;
要求输入单元,其包括用于输入要求信息的交通工具限定框、显示要求限定框,其中,交通工具限定框包括公共交通(公交、地铁)、自驾、出租车(其包括现有意义上的顺风车、打的等,收费按照现有出租车收费标准统一计算)、不限的既定义关键词选项,显示要求限定框包括时间要求、路程要求、收费要求的既定义关键词选项,交通工具限定框的优先级优于显示要求限定框,即在满足交通工具限定框内限定交通工具的条件下计算是否满足显示要求限定框的限定要求,要求信息具体可如下表3所示:
表3要求信息
Figure BDA0002386472240000061
信息筛选单元,其与目的地识别单元、居住地限定单元及要求输入单元连接,用于依据目的地信息和居住地信息,并根据要求信息筛选出符合要求信息的招聘信息,形成三级筛选数据集;
可视化显示模块,其与信息筛选单元连接,用于依据目的地信息将三级筛选数据集中的招聘信息显示于电子地图上,具体为,依据目的地信息定位三级筛选数据集招聘信息在电子地图上的对应地点并显示,外显示形式具体可为图标,点击该图标可显示图标对应隐藏信息,例如该招聘信息具体内容。
在上述技术方案中,招聘信息可视化分析的基础是数据,而这类数据目前存在于各大人力资源网站,例如,智联招聘、猎聘网等,目标网页中含有的招聘信息是原始的非结构化网页,其中包含广告等无关信息,可采用行块分布函数方法剔除无关信息,后从非结构化的数据中准确的提取结构化的数据,形成招聘数据集,公司性质包括私企、国企、外企、事业单位、无,工作地点可以为具体地点(例如XX市XX街道XX号,即可具体定位的地点),也可以是宽范围限定(例如XX市),数据清洗单元按照预存职位类别分类表将职位类别名称统一具体为:确定职位类别名称与职位类别细类中各名称的相似度,确定相似度最高的职位类别细类名称为职位类别名称,其中,职位类别细类的获取具体为:每隔一定时间采用网络爬虫技术在人力资源网站上采集目标数据源,提取目标数据源中的职位类别名称,剔除与原始存在的职位类别细类相同的职位类别名称,得预筛选职位类别集,判断预筛选职位类别集中职位名称与职位类别细类中各名称的相似度,按照相似度由低到高,人工判断预筛选职位类别集中职位名称是否为新兴职位,若是,将其补充至职位类别分类表,若否,删除,判断至第一次出现“否”之后停止;根据要求信息筛选出符合要求信息的招聘信息,形成三级筛选数据集具体为:
当要求信息为要求信息1时,判断以出租车作为交通工具的条件下,单程由居住地到达目的地时间,并判断该时间是否短于1h,若是,则该目的地对应的招聘信息构成三级筛选数据集中的一条,其中,时间长短的判断依据正常交通进行判断;
当要求信息为要求信息2时,判断不限交通工具的条件下,单程由居住地到达目的地最低费用,并判断该费用是否少于10元,若是,则该目的地对应的招聘信息构成三级筛选数据集中的一条,其中,不限交通工具时最低费用的判断为使用上述三种交通条件下依次判断后比较的结果;
当要求信息为要求信息3时,判断是否存在以公共交通作为交通工具的条件,存在以公共交通作为交通工具的条件具体可设定为存在地铁或公交,且人行走距离小于预定距离(具体可为2km);使用过程中,利用数据处理模块获得一级筛选数据集,利用求职者检索模块获得三级筛选数据集,将三级筛选数据集对应的招聘信息通过可视化显示模块显示;采用这种技术方案,能够在满足搜索者(求职者)满足搜索要求的同时,按照到达目的地方便程度个性化、可视化推荐展示,具体为:通过数据清洗单元、信息匹配单元、信息筛选单元配合逐步实现三级筛选,第一步剔除无效重复数据,第二步,剔除不满足检索者要求信息数据,有效提高输出数据有效性,进一步,个性化判断目的地和居住地间关系,进行第三级筛选,有效满足居住地固定检索者的个性化需求。
在另一种技术方案中,展示信息还包括发布时间,数据清洗单元在过滤重复信息前还包括剔除发布时间长于一个月的招聘信息。采用这种方案,进一步剔除无效信息。
在另一种技术方案中,每条招聘信息还包括限定信息,限定信息包括年龄限定、身高限定、体重限定、政治面貌限定、工作经验限定、性别限定、学历限定、专业限定、外语水平限定、计算机水平限定中的至少一种;
检索输入单元还包括用于检索者输入基本信息的年龄输入框、身高输入框、体重输入框、政治面貌输入框、工作经验输入框、性别输入框、学历输入框、专业输入框、外语水平输入框、计算机水平输入框,其中,年龄输入框用于检索者输入年龄;身高输入框用于检索者输入身高;体重输入框用于检索者输入体重;政治面貌输入框用于检索者输入政治面貌,其具体包括党员、群众;工作经验输入框用于检索者输入工作经验,其具体可按照0、1年以下、1-3年、3-5年、5-7年、7-9年、10年以上进行划分;性别输入框用于检索者输入性别,其具体包括男、女;学历输入框用于检索者输入学历,其具体包括初中、高中、大专、本科、硕士、博士;专业输入框用于检索者输入专业;外语水平输入框用于检索者输入外语水平;计算机水平输入框用于检索者输入计算机水平,检索输入单元的全部输入框还包括不选的既定义关键词;
信息匹配单元在计算与一级筛选数据集中的招聘信息的相似度前,剔除一级筛选数据集中招聘信息中限定信息与检索者基本信息不匹配的招聘信息,即匹配检索者的基本信息是否满足招聘信息中限定信息的要求。采用这种方案,为检索者进一步筛选有效招聘信息。
在另一种技术方案中,目的地识别单元识别二级筛选数据集中招聘信息对应的地理位置作为目的地信息具体为:
判断工作地点是否为具体地址(具体地址为能够定位至具体地点,例如门牌号、楼栋名称等,能够定位至具体位置的地址),若是,以工作地点作为目的地信息;
若否,依据公司名称获取公司具体地址,判断公司地址是否归属于工作地点,若是,以公司地址作为目的地信息,当工作地点不为具体地点时,其应当为具体地址的上位地址,概括的为一较大范围,例如表2中呈现的南京,判断公司地址是否归属于工作地点具体为判断公司地址是否坐落于工作地点包含的范围内,若是,则确定公司地址归属于工作地点,若是,则确定公司地址不归属于工作地点;
若否,以工作地点代表范围内的最优地点作为目的地信息,并标注为模糊信息,对应筛选的招聘信息作为模糊招聘信息,其中,最优地点的确定依据显示要求限定框中既定义关键词选项确定,若选项为时间,则以在既定交通工具下,到达居住地时间最短的地点作为最优地点,若选项为路程,则以在既定交通工具下,到达居住地路程最短的地点作为最优地点,若选项为收费,则以在既定交通工具下,到达居住地收费最少的地点作为最优地点;
当目的地信息为模糊信息,要求信息为要求信息1时,判断以出租车作为交通工具的条件下,单程由居住地到达目的地范围内(最优地点)的最短时间,并判断该时间是否短于1h,若是,则该目的地对应的招聘信息构成三级筛选数据集中的一条,其中,时间长短的判断依据正常交通进行判断。采用这种方案,确定目的地信息时,以工作地点为主导,并综合考虑工作地点和公司地址间的关系,在提高确定目的地信息准确度的情况下,允许模糊信息存在,有效避免检索漏项。
在另一种技术方案中,三级筛选数据集中的模糊招聘信息显示区别于其他招聘信息的显示。采用这种方案,具体可采用不同图标、不同颜色、或者不同大小等方式区别显示模糊招聘信息,便于检索者更为直观的区分。
在另一种技术方案中,其他招聘信息(区别于三级筛选数据集中的模糊招聘信息)按照符合程度渐变显示。采用这种方案,符合程度具体指满足要求信息的程度,如果显示要求限定框内设定的为时间要求,则按照时间长短渐变显示;、如果显示要求限定框内设定的为路程要求,则按照路程长短渐变显示;如果显示要求限定框内设定的为收费要求,则按照收费高低渐变显示。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (6)

1.基于网络爬虫的招聘信息可视化分析系统,其特征在于,包括:
数据处理模块,其包括:
数据采集单元,用于采用网络爬虫技术在人力资源网站上采集目标数据源;
数据提取单元,其与数据采集单元连接,用于抽取目标数据源中的招聘数据构成招聘数据集,招聘数据集包括多条招聘信息,每条招聘信息包括展示信息,展示信息包括公司性质、职位薪水、工作地点中的至少一种和公司名称、职位类别;
数据清洗单元,其与数据提取单元连接,数据清洗单元中预存储职位类别分类表,数据清洗单元按照预存职位类别分类表将职位类别名称统一,然后过滤重复信息形成一级筛选数据集,其中,若展示信息包括工作地点,重复信息为公司名称、工作地点、职位类别相同的招聘信息,若展示信息不包括工作地点,重复信息为公司名称、职位类别相同的招聘信息;
求职者检索模块,其包括:
检索输入单元,其包括用于检索者输入检索信息的公司名称输入框、职位薪水输入框、公司性质输入框、工作地点输入框、职位类别输入框,其中,职位薪水输入框包括用于输入薪资上限的框体和用于输入薪资下限的框体,公司性质输入框包括选项为私企、国企、外企、事业单位的既定义关键词,工作地点输入框包括按照被包含关系由大至小设置的省、城市、详细地址的既定义关键词选项,职位类别输入框用于输入职位类别名称,每个输入框还包括不限的既定义关键词选项;
信息匹配单元,其与检索输入单元及数据清洗单元连接,用于获取检索者输入的检索信息,并筛选一级筛选数据集中满足检索信息要求的招聘信息,形成二级筛选数据集;
目的地识别单元,其与信息匹配单元连接,用于识别二级筛选数据集中招聘信息对应的地理位置,作为目的地信息;
居住地限定单元,其用于检索者输入居住地信息;
要求输入单元,其包括用于输入要求信息的交通工具限定框、显示要求限定框,其中,交通工具限定框包括公共交通、自驾、出租车、不限的既定义关键词选项,显示要求限定框包括时间要求、路程要求、收费要求的既定义关键词选项,交通工具限定框的优先级优于显示要求限定框;
信息筛选单元,其与目的地识别单元、居住地限定单元及要求输入单元连接,用于依据目的地信息和居住地信息,并根据要求信息筛选出符合要求信息的招聘信息,形成三级筛选数据集;
可视化显示模块,其与信息筛选单元连接,用于依据目的地信息将三级筛选数据集中的招聘信息显示于电子地图上。
2.如权利要求1所述的基于网络爬虫的招聘信息可视化分析系统,其特征在于,展示信息还包括发布时间,数据清洗单元在过滤重复信息前还包括剔除发布时间长于一个月的招聘信息。
3.如权利要求1所述的基于网络爬虫的招聘信息可视化分析系统,其特征在于,每条招聘信息还包括限定信息,限定信息包括年龄限定、身高限定、体重限定、政治面貌限定、工作经验限定、性别限定、学历限定、专业限定、外语水平限定、计算机水平限定中的至少一种;
检索输入单元还包括用于检索者输入基本信息的年龄输入框、身高输入框、体重输入框、政治面貌输入框、工作经验输入框、性别输入框、学历输入框、专业输入框、外语水平输入框、计算机水平输入框;
信息匹配单元在计算与一级筛选数据集中的招聘信息的相似度前,剔除一级筛选数据集中招聘信息中限定信息与检索者基本信息不匹配的招聘信息。
4.如权利要求3所述的基于网络爬虫的招聘信息可视化分析系统,其特征在于,目的地识别单元识别二级筛选数据集中招聘信息对应的地理位置作为目的地信息具体为:
判断工作地点是否为具体地址,若是,以工作地点作为目的地信息;
若否,依据公司名称获取公司具体地址,判断公司地址是否归属于工作地点,若是,以公司地址作为目的地信息;
若否,以工作地点代表范围内的最优地点作为目的地信息,并标注为模糊信息,对应筛选的招聘信息作为模糊招聘信息。
5.如权利要求4所述的基于网络爬虫的招聘信息可视化分析系统,其特征在于,三级筛选数据集中的模糊招聘信息显示区别于其他招聘信息的显示。
6.如权利要求5所述的基于网络爬虫的招聘信息可视化分析系统,其特征在于,其他招聘信息按照符合程度渐变显示。
CN202010099729.4A 2020-02-18 2020-02-18 基于网络爬虫的招聘信息可视化分析系统 Active CN111414522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010099729.4A CN111414522B (zh) 2020-02-18 2020-02-18 基于网络爬虫的招聘信息可视化分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010099729.4A CN111414522B (zh) 2020-02-18 2020-02-18 基于网络爬虫的招聘信息可视化分析系统

Publications (2)

Publication Number Publication Date
CN111414522A true CN111414522A (zh) 2020-07-14
CN111414522B CN111414522B (zh) 2023-03-24

Family

ID=71490842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010099729.4A Active CN111414522B (zh) 2020-02-18 2020-02-18 基于网络爬虫的招聘信息可视化分析系统

Country Status (1)

Country Link
CN (1) CN111414522B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199570A (zh) * 2020-10-29 2021-01-08 重庆撼地大数据有限公司 基于网络爬虫的房地产信息可视化分析系统和方法
CN112506986A (zh) * 2020-11-19 2021-03-16 阿坝师范学院 基于web招聘信息的特定专业人才技能需求挖掘系统
CN112613839A (zh) * 2020-12-25 2021-04-06 大连工业大学 一种公共就业指导方法及系统
CN113807088A (zh) * 2021-09-22 2021-12-17 长沙麦都网络科技有限公司 职位匹配系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170039254A1 (en) * 2015-08-03 2017-02-09 International Business Machines Corporation Searching and visualizing data for a network search based on relationships within the data
CN107239892A (zh) * 2017-05-26 2017-10-10 山东省科学院情报研究所 基于大数据的区域人才供需平衡量化分析方法
CN107563725A (zh) * 2017-08-25 2018-01-09 浙江网新恒天软件有限公司 一种优化繁琐人才招聘过程的招聘系统
US20180150534A1 (en) * 2016-11-29 2018-05-31 Multiposting Sas Job posting data normalization and enrichment
CN109165918A (zh) * 2018-08-10 2019-01-08 安徽网才信息技术股份有限公司 一种社区就业平台
US20190019159A1 (en) * 2017-07-17 2019-01-17 ExpertHiring, LLC Method and system for managing, matching, and sourcing employment candidates in a recruitment campaign
US20190019160A1 (en) * 2017-07-17 2019-01-17 ExpertHiring, LLC Method and system for managing, matching, and sourcing employment candidates in a recruitment campaign
CN110334112A (zh) * 2019-07-18 2019-10-15 中科鼎富(北京)科技发展有限公司 一种简历信息检索方法及装置
CN110609939A (zh) * 2019-09-11 2019-12-24 北京网聘咨询有限公司 基于Web的分布式招聘信息采集系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170039254A1 (en) * 2015-08-03 2017-02-09 International Business Machines Corporation Searching and visualizing data for a network search based on relationships within the data
US20180150534A1 (en) * 2016-11-29 2018-05-31 Multiposting Sas Job posting data normalization and enrichment
CN107239892A (zh) * 2017-05-26 2017-10-10 山东省科学院情报研究所 基于大数据的区域人才供需平衡量化分析方法
US20190019159A1 (en) * 2017-07-17 2019-01-17 ExpertHiring, LLC Method and system for managing, matching, and sourcing employment candidates in a recruitment campaign
US20190019160A1 (en) * 2017-07-17 2019-01-17 ExpertHiring, LLC Method and system for managing, matching, and sourcing employment candidates in a recruitment campaign
CN107563725A (zh) * 2017-08-25 2018-01-09 浙江网新恒天软件有限公司 一种优化繁琐人才招聘过程的招聘系统
CN109165918A (zh) * 2018-08-10 2019-01-08 安徽网才信息技术股份有限公司 一种社区就业平台
CN110334112A (zh) * 2019-07-18 2019-10-15 中科鼎富(北京)科技发展有限公司 一种简历信息检索方法及装置
CN110609939A (zh) * 2019-09-11 2019-12-24 北京网聘咨询有限公司 基于Web的分布式招聘信息采集系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
汤义好: "网络爬虫在采集岗位招聘数据方面的应用实践", 《电脑知识与技术》 *
谭镇阳等: "基于网络爬虫的招聘信息可视化分析系统", 《信息通信》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199570A (zh) * 2020-10-29 2021-01-08 重庆撼地大数据有限公司 基于网络爬虫的房地产信息可视化分析系统和方法
CN112506986A (zh) * 2020-11-19 2021-03-16 阿坝师范学院 基于web招聘信息的特定专业人才技能需求挖掘系统
CN112613839A (zh) * 2020-12-25 2021-04-06 大连工业大学 一种公共就业指导方法及系统
CN113807088A (zh) * 2021-09-22 2021-12-17 长沙麦都网络科技有限公司 职位匹配系统

Also Published As

Publication number Publication date
CN111414522B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN111414522B (zh) 基于网络爬虫的招聘信息可视化分析系统
CN105183869B (zh) 楼宇知识图谱数据库及其构建方法
López-Robles et al. Understanding the intellectual structure and evolution of Competitive Intelligence: A bibliometric analysis from 1984 to 2017
CN109684440A (zh) 基于层级标注的地址相似度度量方法
Kong et al. CoPFun: An urban co-occurrence pattern mining scheme based on regional function discovery
CN108345596A (zh) 楼宇信息融合服务平台
KR101073385B1 (ko) 연구자의 연구정보 분석 장치 및 그 방법 그리고 방법에 관한 컴퓨터가 실행할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
CN110533212A (zh) 基于大数据的城市内涝舆情监测预警方法
Liao et al. Applying crowdsourcing techniques in urban planning: A bibliometric analysis of research and practice prospects
US20090222440A1 (en) Search engine for carrying out a location-dependent search
CN110727852A (zh) 一种推送招聘推荐服务的方法、装置及终端
CN112182246A (zh) 通过大数据分析建立企业画像的方法、系统、介质及应用
Galbrun et al. Siren: An interactive tool for mining and visualizing geospatial redescriptions
Higgs et al. GIScience, environmental justice, & estimating populations at risk: The case of landfills in Wales
CN112199570A (zh) 基于网络爬虫的房地产信息可视化分析系统和方法
KR20170025454A (ko) 소셜 미디어 데이터의 시공간 분석 시스템 및 방법
CN116384889A (zh) 基于自然语言处理技术的情报大数据智能分析方法
CN112395513A (zh) 一种舆情传播力分析方法
CN105786810B (zh) 类目映射关系的建立方法与装置
Bueno et al. Application of an opinion consensus aggregation model based on OWA operators to the recommendation of tourist sites
Zhang et al. Cluster analysis of PM2. 5 pollution in China using the frequent itemset clustering approach
CN110928922B (zh) 一种基于大数据挖掘的公共政策分析模型部署方法及其系统
Liu et al. Feature recognition of urban industrial land renewal based on POI and RS data: The case of beijing
CN112506930B (zh) 一种基于机器学习技术的数据洞察系统
Almozayen et al. Data mining techniques: a systematic mapping review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant