CN112307290A

CN112307290A - 基于互联网的人才信息定向抓取方法

Info

Publication number: CN112307290A
Application number: CN202010984080.4A
Authority: CN
Inventors: 张书华; 张雪丹
Original assignee: Shenzhen Qidi Career Technology Co ltd
Current assignee: Shenzhen Qidi Career Technology Co ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2021-02-02

Abstract

本发明公开了基于互联网的人才信息定向抓取方法，包括以下步骤：抓取配置：将爬虫分布在实行抓取操作的主机上，通过主机控制爬虫，设置单个或多个人才网站的抓取配置信息，然后通过主机控制抓取信息的爬虫进入目标人才网站；抓取文本：先根据抓取配置信息利用各个人才网站自带的筛选功能进行初步的个人简历筛选，减少抓取的工作量，然后根据抓取配置信息从人才网站内抓取下载筛选后的文本数据，下载的文本数据包括网页文本数据、word文本数据和PDF文本数据；在抓取简历后便进行了多次筛选，删除了大量的问题简历，确保简历数据的整体质量，而且还对不同格式的简历进行了转换，让简历的格式统一，方便使用者进行人才筛选。

Description

基于互联网的人才信息定向抓取方法

技术领域

本发明涉及信息处理技术领域，具体为基于互联网的人才信息定向抓取方法。

背景技术

网络招聘即基于Web的招聘，是利用包含各种特性和资源的超媒体求职招聘程序来创造一种有意义的求职招聘环境，在这种求职招聘环境中求职招聘得到促进和支持。

申请号为CN201810097482.5的专利公开了基于大数据的人才招聘系统及方法，发明公开了基于大数据的人才招聘系统及方法，涉及企业招聘领域。本发明包括如下步骤：S001、采集海量简历信息，创建人才大数据信息库；S002、通过人才大数据信息库训练样本；S003、深度学习训练人才评分模型；S004、通过人才评分模型进行简历评分；S005、协同过滤算法互推人才和企业；S006、将人才能力信息可视化处理。本发明通过网络爬虫技术海量采集网站简历信息形成人才大数据库，利用深度学习算法构建人才数据评分模型，采用协同推荐算法快速精准推荐企业招聘人才并建立可视化人才能力评分图表，能够准确的进行人才能力评估，提升了企业在线求职灵活度，帮助企业和个人实现快速匹配。

但是，该基于大数据的人才招聘系统及方法也存在很多的问题，影响使用，例如，其人才简历多是直接从各个招聘网站爬取，由于各个招聘网站的经营策略不同，其获取的个人简历格式也不同，这给简历的筛选识别带来麻烦，而且简历没有经过检测筛选便进入人才信息库，简历质量参差不齐，简历重复缺项严重，给最后的人才筛选带来麻烦，为此提出基于互联网的人才信息定向抓取方法，来解决此问题。

发明内容

本发明的目的在于提供基于互联网的人才信息定向抓取方法，解决了人才简历多是直接从各个招聘网站爬取，由于各个招聘网站的经营策略不同，其获取的个人简历格式也不同，这给简历的筛选识别带来麻烦，而且简历没有经过检测筛选便进入人才信息库，简历质量参差不齐，简历重复缺项严重，给最后人才筛选带来麻烦的问题。

为实现上述目的，本发明提供如下技术方案：基于互联网的人才信息定向抓取方法，包括以下步骤：

步骤1：抓取配置：将爬虫分布在实行抓取操作的主机上，通过主机控制爬虫，设置单个或多个人才网站的抓取配置信息，然后通过主机控制抓取信息的爬虫进入目标人才网站；

步骤2：抓取文本：先根据抓取配置信息利用各个人才网站自带的筛选功能进行初步的个人简历筛选，减少抓取的工作量，然后根据抓取配置信息从人才网站内抓取下载筛选后的文本数据，下载的文本数据包括网页文本数据、word文本数据和PDF文本数据；

步骤3：初步筛选：对抓取下载的文本数据进行整理和筛选，首先删除无效的或空白的文本数据，接着删除存在大量信息残缺的文本数据，文本数据整理和筛选完成后，保留剩余的文本数据，然后将保留下的文本数据作为原始文本数据储存至原始数据库；

步骤4：编译转换：对原始文本数据中的信息进行编译转换，主要是对原始文本数据中的图片、表格和文字信息等进行编译转换，各种格式的原始文本数据需要编译转换成统一的相关程序可以识别的通用文本数据，然后将编译转换后的通用文本数据存储进入索引数据库；

步骤5：人才筛选：将专用的筛选器载入索引数据库，使用者可以按照学历专业、职称、工作经历、掌握技能、年龄等标准在筛选器中进行筛选，从而得到相应的人才信息。

优选的，所述在步骤1中，抓取的对象设置为应聘者发布的个人简历，且要求是近一年内更新或刷新过的个人简历。

优选的，所述在步骤2中，初步筛选以学历、技能筛选为主，年龄和工作时间筛选为辅。

优选的，所述在步骤2中，抓取下载的文本数据以word文本数据和PDF文本数据最优，网页文本数据次之。

优选的，所述在步骤3中，原始文本数据储存进入原始数据库前需要进行冗余判断，删除数据信息重复的文本数据。

优选的，所述在步骤4中，先对储存进入索引数据库的通用文本数据按照学历进行初步分类，形成初步分类集，然后再对初步分类集内部的通用文本数据按照技能进行再次分类，最后将分类好的信息进行储存。

优选的，所述在步骤4中，通用文本数据便是个人简历，内部信息按照统一的模板进行分布，个人简历编译转换时应将全部的图片、表格和文字等信息全部转换。

优选的，所述在步骤4中，编译转换后的通用文本数据存储进入索引数据库后，对储存进入索引数据库的通用文本数据进行冗余判断，删除数据信息重复的文本数据。

优选的，所述在步骤4中，索引数据库内部的通用文本数据与原始数据库内部对应的原始文本数据进行超链接，并将超链接储存进入通用文本数据。

优选的，所述在步骤5中，还可以将索引数据库内部的信息整合成Excel文本，使用者只需启动Excel文本阅读软件的筛选功能，便能按照需要进行检索。

与现有技术相比，本发明的有益效果是：本发明在抓取人才简历后便对简历进行了多次筛选，删除了大量的问题简历，确保简历数据的整体质量，而且还对不同格式的简历进行了转换，让简历的格式统一，方便使用者进行人才筛选。

具体实施方式

下面将通过实施例的方式对本发明作更详细的描述，这些实施例仅是举例说明性的而没有任何对本发明范围的限制。

本发明提供一种技术方案：基于互联网的人才信息定向抓取方法，包括以下步骤：

实施例一：

抓取配置：将爬虫分布在实行抓取操作的主机上，通过主机控制爬虫，设置单个或多个人才网站的抓取配置信息，然后通过主机控制抓取信息的爬虫进入目标人才网站；抓取文本：先根据抓取配置信息利用各个人才网站自带的筛选功能进行初步的个人简历筛选，减少抓取的工作量，然后根据抓取配置信息从人才网站内抓取下载筛选后的文本数据，下载的文本数据包括网页文本数据、word文本数据和PDF文本数据；初步筛选：对抓取下载的文本数据进行整理和筛选，首先删除无效的或空白的文本数据，接着删除存在大量信息残缺的文本数据，文本数据整理和筛选完成后，保留剩余的文本数据，然后将保留下的文本数据作为原始文本数据储存至原始数据库；编译转换：对原始文本数据中的信息进行编译转换，主要是对原始文本数据中的图片、表格和文字信息等进行编译转换，各种格式的原始文本数据需要编译转换成统一的相关程序可以识别的通用文本数据，然后将编译转换后的通用文本数据存储进入索引数据库；人才筛选：将专用的筛选器载入索引数据库，使用者可以按照学历专业、职称、工作经历、掌握技能、年龄等标准在筛选器中进行筛选，从而得到相应的人才信息。

实施例二：

在实施例一中，再加上下述工序：

在步骤1中，抓取的对象设置为应聘者发布的个人简历，且要求是近一年内更新或刷新过的个人简历，方便进行准确抓取，确保抓取的精准性。

实施例三：

在实施例二中，再加上下述工序：

在步骤2中，初步筛选以学历、技能筛选为主，年龄和工作时间筛选为辅，抓取下载的文本数据以word文本数据和PDF文本数据最优，网页文本数据次之，提升抓取简历的质量，方便进行筛选。

实施例四：

在实施例三中，再加上下述工序：

在步骤3中，原始文本数据储存进入原始数据库前需要进行冗余判断，删除数据信息重复的文本数据，减少冗余，避免简历重复。

实施例五：

在实施例四中，再加上下述工序：

在步骤4中，先对储存进入索引数据库的通用文本数据按照学历进行初步分类，形成初步分类集，然后再对初步分类集内部的通用文本数据按照技能进行再次分类，最后将分类好的信息进行储存，通用文本数据便是个人简历，内部信息按照统一的模板进行分布，个人简历编译转换时应将全部的图片、表格和文字等信息全部转换，编译转换后的通用文本数据存储进入索引数据库后，对储存进入索引数据库的通用文本数据进行冗余判断，删除数据信息重复的文本数据，索引数据库内部的通用文本数据与原始数据库内部对应的原始文本数据进行超链接，并将超链接储存进入通用文本数据，方便使用者筛选简历，提升筛选的质量。

实施例六：

在实施例五中，再加上下述工序：

在步骤5中，还可以将索引数据库内部的信息整合成Excel文本，使用者只需启动Excel文本阅读软件的筛选功能，便能按照需要进行检索，提供另一种筛选方法。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于互联网的人才信息定向抓取方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于互联网的人才信息定向抓取方法，其特征在于：所述在步骤1中，抓取的对象设置为应聘者发布的个人简历，且要求是近一年内更新或刷新过的个人简历。

3.根据权利要求1所述的基于互联网的人才信息定向抓取方法，其特征在于：所述在步骤2中，初步筛选以学历、技能筛选为主，年龄和工作时间筛选为辅。

4.根据权利要求1所述的基于互联网的人才信息定向抓取方法，其特征在于：所述在步骤2中，抓取下载的文本数据以word文本数据和PDF文本数据最优，网页文本数据次之。

5.根据权利要求1所述的基于互联网的人才信息定向抓取方法，其特征在于：所述在步骤3中，原始文本数据储存进入原始数据库前需要进行冗余判断，删除数据信息重复的文本数据。

6.根据权利要求1所述的基于互联网的人才信息定向抓取方法，其特征在于：所述在步骤4中，先对储存进入索引数据库的通用文本数据按照学历进行初步分类，形成初步分类集，然后再对初步分类集内部的通用文本数据按照技能进行再次分类，最后将分类好的信息进行储存。

7.根据权利要求1所述的基于互联网的人才信息定向抓取方法，其特征在于：所述在步骤4中，通用文本数据便是个人简历，内部信息按照统一的模板进行分布，个人简历编译转换时应将全部的图片、表格和文字等信息全部转换。

8.根据权利要求1所述的基于互联网的人才信息定向抓取方法，其特征在于：所述在步骤4中，编译转换后的通用文本数据存储进入索引数据库后，对储存进入索引数据库的通用文本数据进行冗余判断，删除数据信息重复的文本数据。

9.根据权利要求1所述的基于互联网的人才信息定向抓取方法，其特征在于：所述在步骤4中，索引数据库内部的通用文本数据与原始数据库内部对应的原始文本数据进行超链接，并将超链接储存进入通用文本数据。

10.根据权利要求1所述的基于互联网的人才信息定向抓取方法，其特征在于：所述在步骤5中，还可以将索引数据库内部的信息整合成Excel文本，使用者只需启动Excel文本阅读软件的筛选功能，便能按照需要进行检索。