CN113807088A

CN113807088A - 职位匹配系统

Info

Publication number: CN113807088A
Application number: CN202111109095.7A
Authority: CN
Inventors: 刘晓
Original assignee: Changsha Mida Network Technology Co ltd
Current assignee: Changsha Mida Network Technology Co ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2021-12-17

Abstract

本发明涉及一种职位匹配系统，通过基于爬虫单元对互联网上公开的招聘信息进行爬取，以得到岗位信息的结构化数据；基于数据清洗单元对结构化数据进行格式的清理以得到相应的公告内容；再通过结构化提取单元公告内容进行结构化提取以得到公告相关信息和相应的招聘岗位信息；最后通过岗位匹配单元基于ElasticSearch搜索技术向用户推荐和用户简历信息相匹配的招聘岗位。从而能够使用户能够快速找到符合自身报考的岗位，且能够指导报岗优中选优，增加考上的机会。

Description

职位匹配系统

技术领域

本发明属于职位匹配技术领域，具体涉及一种职位匹配系统。

背景技术

随着近些年就业压力的不断增大，越来越多的人选择通过公务员考试来找到一份和自己的个人简历相匹配的职位。同时随着公务员招聘规模的不断扩大，出现了越来越多的职位供大家进行选择。而如何从庞大的招聘信息中找到适合自己报考的职位已经成为了本领域技术人员亟需解决的技术问题。

发明内容

为了解决现有技术存在的职位报考困难、职位匹配效率低的问题，本发明提供了一种职位匹配系统，其具有职位匹配效率更高、查找速度更快等特点。

根据本发明的具体实施方式的一种职位匹配系统，包括：

爬虫单元，用于基于预设语义匹配规则对互联网上公开的招聘信息进行爬取，以得到岗位信息的结构化数据；

数据清洗单元，用于对所述结构化数据进行格式的清理以得到相应的公告内容；

结构化提取单元，用于对所述公告内容进行结构化提取以得到公告相关信息和相应的招聘岗位信息；以及

岗位匹配单元，用于基于ElasticSearch搜索技术向用户推荐和用户简历信息相匹配的招聘岗位。

进一步的，所述预设语义匹配规则包括：

正文标题语义识别规则，用于识别招考公告信息归属年份、考试类别和地区；

文章内容语义识别规则，用于识别招聘信息中的正文内容；

内容附件语义识别规则，用于对正文内容中的附件进行下载和相应的分析扫描；以及

职位内容语义识别规则，用于识别确定excel栏目中表头字段信息再进行数据抽取，同时对公告正文内的Table表格的职位信息进行识别与结构化抽取。

进一步的，所述数据清洗单元的清理内容至少包括正文内容中的html、css、style、javascript标签以及多余的空行。

进一步的，所述结构化提取单元提取到的公告相关信息包括：

所属地区、考试类别、报考招聘信息年份、报名时间和报名地址。

进一步的，所述结构化提取单元提取到的招聘岗位信息包括：

岗位名称和岗位要求，其中岗位要求至少包括学历、专业、学位、应届、资格证书、年龄、性别、民族、户籍、政治面貌、学校、工作经验和服务基层项目。

进一步的，所述岗位匹配单元包括岗位匹配引擎词库，用于为ElasticSearch搜索提供检索库；其中所述匹配引擎词库至少包括：专业词库、专业包含词库、专业同义词库、教师包含词库、搜索同议词库和资格证书。

进一步的，所述结构化提取单元提取招聘岗位信息包括：

对新增专业进行管理，排除无效的专业，对指定的方向专业进行提取，排除其他专业的干扰以确定所需要的专业。

进一步的，所述爬虫单元基于网站招聘栏目的网址URL进行岗位信息的结构化数据的提取。

进一步的，所述爬虫单元还用于爬取岗位的报名人数，根据意向岗位的用户画像形成用户竞争力模型，结合匹配度给用户提供综合选岗建议。

进一步的，所述爬虫单元还用于爬取历年考试进面分数，给用户提供类比选岗建议。

本发明的有益效果为：通过基于爬虫单元对互联网上公开的招聘信息进行爬取，以得到岗位信息的结构化数据；基于数据清洗单元对结构化数据进行格式的清理以得到相应的公告内容；再通过结构化提取单元公告内容进行结构化提取以得到公告相关信息和相应的招聘岗位信息；最后通过岗位匹配单元基于ElasticSearch搜索技术向用户推荐和用户简历信息相匹配的招聘岗位。从而能够使用户能够快速找到符合自身报考的岗位，且能够指导报岗优中选优，增加考上的机会。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例提供的职位匹配系统的原理图；

图2是根据一示例性实施例提供的结构化提取单元的提取原理图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

参照图1所示，本发明的实施例提供了一种职位匹配系统，包括：

数据清洗单元，用于对结构化数据进行格式的清理以得到相应的公告内容；

结构化提取单元，用于对公告内容进行结构化提取以得到公告相关信息和相应的招聘岗位信息；以及

具体的，爬虫单元在搭建好抓取网址管理后台,通过收集公职行业公开招聘栏目的网址，同时配置好相关的采集参数，如地区、考试类别、分页参数等，在搭建自动化采集系统前需要建立相应的语义匹配规则，几十个单节点的爬虫从上万的URL网址库中进行正文内容的精准提取、去重、保存图片到本地，同时会对公告内容的附近进行识别单独存储以便后续岗位信息结构化抽取。

然后数据清洗单元根据采集提取过来的公告内容，再进行数据清洗，让公告内容足够干净，避免在前台看到时布局错位或者影响到结构化提取系统。

结构化提取单元主要分为两部分，一是提取公告相关的信息，如所属地区、考试类别、报考招聘信息年份、报考相关时间(报名时间、报名确认时间、缴费时间、准考证打印时间、笔试时间、面试时间)、报名地址等，二是提取岗位信息，如岗位名称、岗位要求(学历、专业、学位、应届、资格证书、年龄、性别、民族、户籍、政治面貌、学校、工作经验、服务基层项目等)。

最后岗位匹配单元利用ElasticSearch搜索技术，对岗位精准推荐给用户。其中Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。Elasticsearch用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。当然本领域还可采用其他搜索方式，本发明在此不做限制。这样在公职领域第一时间快速找到符合自身报考的岗位，且通过大数据指导报岗优中选优，增加考上的机会。

在本发明的一些具体实施例中，预设语义匹配规则包括：

文章内容语义识别规则，用于识别招聘考试信息网站中的正文内容的招聘考试信息；

职位内容语义识别规则(工作单位、上级主管单位、职位代码、职位性质、职位简介、职位名称等)，用于识别确定excel栏目中表头字段信息再进行数据抽取，同时对公告正文内的Table表格的职位信息进行识别与结构化抽取

职位招聘结构化提取字段(工作单位、上级主管单位、职位代码、职位性质、职位简介、职位名称、工作地区、部门代码、招聘人数、学历要求、专业要求、年龄要求、学历性质、单位性质、民族要求、应届要求、工作年限、户籍要求、生源地、学位、性别、定向招录、学校要求、资格证书)都会设置语义识别规则，用于识别确定excel栏目中表头字段信息再进行数据抽取，同时也会对公告正文内的Table表格的职位信息也会进行识别与结构化抽取。

数据清洗单元的清理内容至少包括正文内容中的html、css、style、javascript标签以及多余的空行。

结构化提取单元提取到的公告相关信息包括：

结构化提取单元提取到的招聘岗位信息包括：

岗位名称和岗位要求，其中岗位要求至少包括学历、专业、学位、应届、资格证书、年龄、性别、民族、户籍、政治面貌、学校、工作经验、服务基层项目。

岗位匹配单元包括岗位匹配引擎词库，用于为ElasticSearch搜索提供检索库；其中所述匹配引擎词库至少包括：专业词库、专业包含词库、专业同义词库、教师包含词库、搜索同议词库和资格证书。

结构化提取单元提取招聘岗位信息包括：

具体的，先搭建好抓取网址管理后台,人工收集公职行业政府官方网站的招聘栏目的网址URL，并将URL地址录入到网址库系统中，同时配置好相关的采集参数，如地区、考试类别、分页参数等；

在搭建自动化采集系统前需要建立相应的语义匹配规则

定义正文标题语义识别规则，在后续的程序中来识别这条招考公告信息归属年份，考试类别，地区；

定义文章内容语义识别规则，在后续的程序中来识别这条正文内容是不是我们所需要的招聘考试信息；

定义通用文章内容附件语义识别规则，在后续的程序中来识别正文中附件进行下载与分析扫描；

定义职位结构化提取字段(工作单位、上级主管单位、职位代码、职位性质、职位简介、职位名称、工作地区、部门代码、招聘人数、学历要求、专业要求、年龄要求、学历性质、单位性质、民族要求、应届要求、工作年限、户籍要求、生源地、学位、性别、定向招录、学校要求、资格证书)的语义识别规则，用于识别确定excel栏目中表头字段信息再进行数据抽取，或者是正内中Table表职位内容进行抽取。

爬虫单元就会通过以上信息，几十个单节点的爬虫从上万的URL网址库中进行正文内容的精准提取、去重、保存图片到本地，同时会对公告内容的附近进行识别单独存储以便后续岗位信息结构化抽取。

数据清洗单元根据采集提取过来的公告内容，再进行数据清洗，去除掉正文内容中的html、css、style、javascript标签，同时把正文中多余的空行删除，保留标准的“p”标签格式，让公告内容足够干净，避免在前台看到时布局错位或者影响到结构化提取。

结构化提取单元的提取主要分为两部分，一是提取公告相关的信息，如所属地区、考试类别、报考招聘信息年份、报考相关时间、报名地址等，二是提取岗位信息，如岗位名称、岗位要求(学历、专业、学位、应届、资格证书、年龄等)

以上两项数据提取中，需要对于每一项提取的数据提前设置大量的语义库，根据每一项语义库与正则配合从公告内容与附件中提取关键信息，岗位信息的提取主要是对附件进行逐行扫描分析，先识别附件表头，再对表头以下进行岗位信息的逐行语义分析匹配提取，最后形成结构化数据保存在数据库中。

参照图2所示，新增专业的操作包括新增专业管理、新增专业发现，其中新增专业的管理需要进行入库、更新远程词库、更新数据索引；排出专业包括：确定有限的描述方式、优化提取算法、增加排除专业字段、数据后台人工审核、修改；指定方向专业包括确定有限的描述方式，提取到不同学历的专业字段，数据后台人工审核；排除学位干扰包括收集有限的学位关键词，更新远程词库，更新数据索引。

岗位匹配单元通过建立岗位匹配引擎词库，如专业词库、专业包含词库、专业同义词库、教师包含词库、搜索同议词库、资格证书等，利用ElasticSearch搜索技术，对岗位精准推荐给用户。根据用户填写的简历，从海量的职位库中，筛选出符合用户报考的职位，根据职位的学历、专业等要求与用户简历信息的相关度进行评分、排序，转换成星级呈现在APP内，帮助用户快速找到适合的职位。并且爬虫单元还用于爬取岗位的报名人数，根据意向岗位的用户画像形成用户竞争力模型，结合匹配度给用户提供综合选岗建议。还可爬取历年考试进面分数，给用户提供类比选岗建议。

本发明上述实施例所提供的职位匹配系统，通过基于爬虫单元对互联网上的招聘信息进行爬取，以得到岗位信息的结构化数据；基于数据清洗单元对结构化数据进行格式的清理以得到相应的公告内容；再通过结构化提取单元公告内容进行结构化提取以得到公告相关信息和相应的招聘岗位信息；最后通过岗位匹配单元基于ElasticSearch搜索技术向用户推荐和用户简历信息相匹配的招聘岗位。从而能够使用户能够快速找到符合自身报考的岗位，且能够指导报岗优中选优，增加考上的机会。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种职位匹配系统，其特征在于，包括：

2.根据权利要求1所述的职位匹配系统，其特征在于，所述预设语义匹配规则包括：

文章内容语义识别规则，用于识别招聘信息中的正文内容；

3.根据权利要求1所述的职位匹配系统，其特征在于，所述数据清洗单元的清理内容至少包括正文内容中的html、css、style、javascript标签以及多余的空行。

4.根据权利要求1所述的职位匹配系统，其特征在于，所述结构化提取单元提取到的公告相关信息包括：

5.根据权利要求1所述的职位匹配系统，其特征在于，所述结构化提取单元提取到的招聘岗位信息包括：

6.根据权利要求1所述的职位匹配系统，其特征在于，所述岗位匹配单元包括岗位匹配引擎词库，用于为ElasticSearch搜索提供检索库；其中所述匹配引擎词库至少包括：专业词库、专业包含词库、专业同义词库、教师包含词库、搜索同议词库和资格证书。

7.根据权利要求1所述的职位匹配系统，其特征在于，所述结构化提取单元提取招聘岗位信息包括：

8.根据权利要求1至7任一项所述的职位匹配系统，其特征在于，所述爬虫单元基于网站招聘栏目的网址URL进行岗位信息的结构化数据的提取。

9.根据权利要求1所述的职位匹配系统，其特征在于，所述爬虫单元还用于爬取岗位的报名人数，根据意向岗位的用户画像形成用户竞争力模型，结合匹配度给用户提供综合选岗建议。

10.根据权利要求1所述的职位匹配系统，其特征在于，所述爬虫单元还用于爬取历年考试进面分数，给用户提供类比选岗建议。