CN105868968A

CN105868968A - 基于机器学习的招聘信息解析系统及其方法

Info

Publication number: CN105868968A
Application number: CN201610251667.8A
Authority: CN
Inventors: 杨洋; 杨雪峰; 赵泛舟; 李训耕
Original assignee: GUANGZHOU AIPING INFORMATION TECHNOLOGY Co Ltd
Current assignee: GUANGZHOU AIPING INFORMATION TECHNOLOGY Co Ltd
Priority date: 2016-04-21
Filing date: 2016-04-21
Publication date: 2016-08-17

Abstract

本发明涉及基于机器学习的招聘信息解析系统及其方法，解析系统包括数据采集模型和机器学习模型；所述数据采集模型爬取互联网招聘网站的不规则的招聘网页信息进行解析并生成训练数据；机器学习模型包括单信息源模型以及处理各类信息源的综合模型，单信息源模型是由训练数据中的单信息源模块分类数据训练所得，综合模型是由训练数据中的综合信息详细分类数据训练所得，互联网招聘网站、数据采集模型与机器学习模型连接，所采用的机器学习模型为条件随机场模型。招聘网页信息经过分析后得到训练数据后详细分类，采用机器学习模型中的条件随机场模型来对招聘信息中的具体语句块与短语进行分类标注，处理正则表达式不能匹配的数据，有效处理复杂或者新型职位的招聘信息解析与分析问题。

Description

基于机器学习的招聘信息解析系统及其方法

技术领域

本发明涉及招聘信息解析系统，更具体地说是指基于机器学习的招聘信息解析系统及其方法。

背景技术

现有招聘信息解析与分析系统只能利用人为制定的规则来提取企业招聘岗位的各项需求与职责，并且不能对所解析的信息进行有效分析。

但随着社会发展与行业职能的细分，招聘简历信息复杂度大大提升，而且书写格式区别较大，给原始解析系统造成了解析困难。人为通过正则表达式制定的规则已经不能满足目前招聘信息解析的准确性需求，与进一步分析其招聘目标的需求。

发明内容

本发明的目的在于克服现有技术的缺陷，提供基于机器学习的招聘信息解析系统及其方法。

为实现上述目的，本发明采用以下技术方案：基于机器学习的招聘信息解析系统，包括数据采集模型和机器学习模型；所述数据采集模型爬取互联网招聘网站的不规则的招聘网页信息进行解析并生成训练数据；所述机器学习模型包括单信息源模型以及处理各类信息源的综合模型，所述单信息源模型是由所述训练数据中的单信息源模块分类数据训练所得，所述综合模型是由所述训练数据中的综合信息详细分类数据训练所得，所述互联网招聘网站、数据采集模型分别与所述机器学习模型连接，所采用的所述机器学习模型为输入不规则的文本信息后输出所要提取的有信息的程序，该程序是根据实际情况采用条件随机场模型。

其进一步技术方案为：所述训练数据包括模块分类数据以及详细分类数据，所述单信息源模型由所述模块分类数据训练所得，所述综合模型由所述详细分类数据训练得到。

其进一步技术方案为：所述模块分类数据包括岗位职责，任职要求，薪酬福利，公司介绍以及联系方式。

其进一步技术方案为：所述详细分类数据是所述模块分类数据的子分类。

其进一步技术方案为：所述综合模型包含一个模块分类模型与一个详细分类模型；所述模块分类模型由所述模块分类数据训练得到，且所述模块分类模型与所述详细分类机器学习模型连接。

本发明还提供了基于机器学习的招聘信息解析系统的搭建方法，其具体步骤如下：

步骤1.通过互联网招聘网站，网络爬虫对预先指定的网站进行搜索，抓取其中的招聘网页信息，对网页的文本信息进行正则表达式搜索，通过正则表达式搜索相关的信息，并按已有标签分类存储；

步骤2.如果网页中无法通过正则表达式搜索到相关信息，或者通过正则表达式搜索出来的信息不够全面，将同一来源高质量规则化数据利用正则表达式解析，生成用于机器学习模型的训练数据，利用已有的数据标签，在大量数据中进行直接的匹配标注，生成大量的包含不规则表达模式的训练数据；

步骤3.模型训练分为两步，第一步训练模块分类标注模型，第二步训练详细分类标注模型；第一步的模型输出要作为第二步的模型输入；

步骤4.首先将所有数据统一，进行综合训练，得到一个可以处理各类信息源的综合模型；

步骤5.针对不同信息源，只利用同信息源数据训练子模型(每个信息源有一个模块分类模型与一个训练分类模型)，用来处理信息源明确的数据，加速解析准确度；

步骤6.利用已有正则表达式处理分类好的数据，将不能匹配的数据提取出来进一步增强正则表达式与分类模型，行程闭环系统，增强系统覆盖性与准确性。

本发明还提供了一种基于机器学习的招聘信息解析系统的运行方法，其步骤如下：

步骤1.输入招聘网页地址或直接输入招聘信息；

步骤2.自动获取解析网页内容，按照网页标签与内容，利用机器学习模型与专家系统将招聘信息粗分块；

步骤3.将粗分块信息进行详细分类。

其进一步技术方案为：所述的步骤1，网页内容包括是否包含网页信息以及纯文本信息，按照网页是否包含网页信息或纯文本信息进行标签后在进行粗分块。

其进一步技术方案为：所述的步骤2，在执行整个系统的运行流程中，首先判断网页内容是否包含网页信息，如果是，则进行单信息源正则表达匹配，以便得到模块分类数据；若网页内容是纯文本信息，则通过机器学习综合模型以及正则表达匹配进行处理后得到模块与详细分类初步数据。

其进一步技术方案为：所述的步骤3,所述模块分类数据经过机器学习单信息源模型以及正则表达匹配处理后，得到详细分类数据；模块与详细分类初步数据经过所述综合模型处理后得到所述详细分类数据。

本发明与现有技术相比的有益效果是：本发明的基于机器学习的招聘信息解析系统，通过互联网招聘网站与机器学习模型连接，将招聘网页信息经过分析后得到训练数据，在由训练数据详细分类，采用机器学习模型中的条件随机场模型来对招聘信息中的具体语句块与短语进行分类标注，处理正则表达式处理不能匹配的数据，有效处理复杂或者新型职位的招聘信息解析与分析问题。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

图1为本发明具体实施例提供基于机器学习的招聘信息解析系统的搭建流程图；

图2为本发明具体实施例提供基于机器学习的招聘信息解析系统的运行流程图。

附图标记

10 互联网招聘网站 101 网络爬虫

102 招聘网页信息 11 正则表达式

12 训练数据 121 单信息源模块分类数据

122 单信息源模块 123 综合信息详细分类数据

124 综合模型 13 机器学习综合模型

131 模块分类数据 132 详细分类数据

具体实施方式

为了更充分理解本发明的技术内容，下面结合具体实施例对本发明的技术方案进一步介绍和说明，但不局限于此。

参考图1-图2所示的流程示意图，来理解本发明一种基于机器学习的招聘信息解析系统，可以运用在招聘信息解析过程中，可以有效处理复杂或者新型职位的招聘信息解析与分析问题。

基于机器学习的招聘信息解析系统，包括数据采集模型和机器学习模型；所述的数据采集模型爬取互联网招聘网站10的不规则的招聘网页信息102进行解析并生成训练数据12；机器学习模型包括单信息源模型以及综合模型124，其中，单信息源模型是由训练数据12中的单信息源模块分类数据121训练得到，综合模型124是由训练数据12中的综合信息详细分类数据123构成，并且，综合模型124可以处理各类信息源；互联网招聘网站10与机器学习模型连接，单信息源模型与综合模型都是机器学习模型，互联网招聘网站是一个数据源。

上述的机器学习模块为一个程序，给定输入后给出输出的程序，其中输入为那些不规则的文本信息，输出为提取出来的有用信息；该程序主要是根据数据实际情况自动总结的过程，具体采用了随机条件场模型，这就是一种具体的机器学习模型。首先，利用网络爬虫101在互联网招聘网站10中爬取对预先指定的网站进行搜索，抓取其中的招聘网页信息102，对网页的文本信息进行正则表达式11搜索，通过正则表达式11搜索相关的信息，并对齐进行分类，一个为模块分类，另一个是详细分类(即内容分类)。抓取到的数据(即招聘信息)还分为单信息源模型和综合模型，如果网页中无法通过正则表达式搜索到相关信息，或者通过正则表达式11搜索出来的信息不够全面，此时会将由机器学习模型，将网页信息102(包含html标签等信息)进行归类分析，再提取并生成新的正则表达式11；其中，如果网页中无法通过正则表达式搜索到相关信息，或者通过正则表达式11搜索出来的信息不够全面，网页中的信息经过解析生成机器学习模型的训练数据12，该训练数据12再由单信息源模型以及综合模型124对应分类，训练数据12由单信息源模型分类形成单信息源模块分类数据121，训练数据12由综合模型124分类形成综合信息详细分类数据123。其中，训练机器学习模块为一个程序，给定输入后给出输出，其中，输入为不规则的文本信息，输出为提取出来的有用的信息，正则表达11为一系列规则，也可以为一个程序，主要是认为制定的，而机器学习模型是根据数据实际情况自动总结而成，这个自动总结过程主要是利用条件随机产生一个模型，用该模型筛选出有用的文本信息。实际使用中可以采用条件随机场这样的通用程序构件，也可以进一步针对招聘领域的术语，对条件随机场的参数进行设置，比如，从时事新闻数据库中寻找到与招聘领域相关的热门关键词，以实现对新兴职业的信息搜索，并对其正则表达式进行动态更新。

另外，上述的正则表达式是一系列规则(也可以理解为一个程序)，是人为制定的一系列规则。

上述的基于机器学习的招聘信息解析系统，通过互联网招聘网站10与机器学习模型连接，将招聘网页信息102经过分析后得到训练数据12，在由训练数据12详细分类，采用机器学习模型中的条件随机场模型来对招聘信息中的具体语句块与短语进行分类标注，处理正则表达式11处理不能匹配的数据，有效处理复杂或者新型职位的招聘信息解析与分析问题。更近一步，上述的训练数据12包括模块分类数据以及详细分类数据132，上述的单信息源模型由模块分类数据构成，综合模型124由详细分类数据132构成，这样，即可将训练数据12的信息详细分类，以备解析与分析所用。

另外，模块分类数据包括岗位职责，任职要求，薪酬福利，公司介绍，联系方式等模块。

详细分类数据132是模块分类数据的子分类，具体类别可以根据信息来源制定，包括但不限于年龄要求，学历要求，工作年限，工作经验，所需技能等。

上述的综合模型124包含一个模块分类模型与一个训练分类模型，模块分类模型由所述详细分类数据132训练得到，且训练分类模型与详细分类机器学习模型连接，这样，既可以将详细分类数据132进行分类，还可以进一步将该详细分类数据132中不能匹配的数据进一步提取出来进行训练分类，提高系统覆盖性与准确性。

在本实施例中还提供了基于机器学习的招聘信息解析系统的搭建具体步骤：

步骤1.通过互联网招聘网站10，利用网络爬虫101爬取招聘网页信息102，对预先指定的网站进行搜索，抓取其中的招聘网页信息102，对网页的文本信息进行正则表达式11搜索，通过正则表达式11搜索相关的信息，并按已有标签分类存储；

步骤2.如果网页中无法通过正则表达式搜索到相关信息，或者通过正则表达式11搜索出来的信息不够全面，将同一来源高质量规则化数据利用正则表达式11解析，生成用于机器学习模型的训练数据12。利用已有的数据标签，在大量数据中进行直接的匹配标注，生成大量的包含不规则表达模式的训练数据12。

步骤3.模型训练分为两步，第一步训练模块分类标注模型，第二步训练详细分类标注模型。第一步的模型输出要作为第二步的模型输入。

步骤4.首先将所有数据统一，进行综合训练，得到一个可以处理各类信息源的综合模型124。

步骤5.针对不同信息源，只利用同信息源数据训练子模型(每个信息源有一个模块分类模型与一个训练分类模型)，用来处理信息源明确的数据，加速解析准确度。

步骤6.利用已有正则表达式11处理分类好的数据，将不能匹配的数据提取出来进一步增强正则表达式11与分类模型，行程闭环系统，增强系统覆盖性与准确性。

由于目前招聘网站数量巨大，所提供信息粒度不统一，并且招聘信息发布者对职位职能定位不统一，这些问题造成了招聘信息复杂度的大幅度提升。而已有的基于正则表达式11的规则化系统不能处理不规则的信息输入，而且复杂度很高时很难进一步改进，这导致系统不能有效匹配没有考虑到的信息输入。本发明在基于原有的正则表达式11规则系统，为其添加了机器学习智能模块，可以有效处理复杂或者新型职位的招聘信息解析与分析问题。

由于原有正则表达式11系统只能准确匹配规则制定者所设计好的语言表达模式，不能模糊处理语义问题。而机器学习系统可以泛化匹配要求，综合的判断一段信息是否为所需匹配字段。

基于单独正则表达式11的系统不能有效发现所设计的正则表达式11的缺陷。而所添加的机器学习系统可以帮助设计者发现改进正则表达式11有哪些潜在问题不能处理，可以帮助设计更好的正则表达式11。

另外，本实施例还提供了基于机器学习的招聘信息解析系统的运行流程：

步骤1.输入招聘网页地址或直接输入招聘信息。

步骤2.自动获取解析网页内容，按照网页标签与内容，利用机器学习

模型与专家系统将招聘信息粗分块。

步骤3.将粗分块信息进行详细分类。

更近一步的，在步骤1中，上述的网页内容包括是否包含网页信息以及纯文本信息，按照网页是否包含网页信息或纯文本信息进行标签后在进行粗分块。

另外，在步骤2中，在执行整个系统的运行流程中，首先判断网页内容是否包含网页信息(包含html标签等信息)，如果是，则进行单信息源正则表达匹配，以便得到模块分类数据；若网页内容是纯文本信息，则通过机器学习综合模型13以及正则表达匹配进行处理后得到模块与详细分类初步数据。

更近一步，在步骤3中，上述的模块分类数据经过机器学习单信息源模型以及正则表达匹配处理后，得到详细分类数据132。

另外，在步骤3中，上述的模块与详细分类初步数据经过综合模型124处理后得到详细分类数据132。这样，即可实现有效处理复杂或者新型职位的招聘信息解析与分析问题。

上述仅以实施例来进一步说明本发明的技术内容，以便于读者更容易理解，但不代表本发明的实施方式仅限于此，任何依本发明所做的技术延伸或再创造，均受本发明的保护。本发明的保护范围以权利要求书为准。

Claims

1.基于机器学习的招聘信息解析系统，其特征在于，包括数据采集模型和机器学习模型；所述数据采集模型爬取互联网招聘网站的不规则的招聘网页信息进行解析并生成训练数据；所述机器学习模型包括单信息源模型以及处理各类信息源的综合模型，所述单信息源模型是由所述训练数据中的单信息源模块分类数据训练所得，所述综合模型是由所述训练数据中的综合信息详细分类数据训练所得，所述互联网招聘网站、数据采集模型分别与所述机器学习模型连接，所采用的所述机器学习模型为输入不规则的文本信息后输出所要提取的有信息的程序，该程序是根据实际情况采用条件随机场模型。

2.根据权利要求1所述的基于机器学习的招聘信息解析系统，其特征在于，所述训练数据包括模块分类数据以及详细分类数据，所述单信息源模型由所述模块分类数据训练所得，所述综合模型由所述详细分类数据训练得到。

3.根据权利要求2所述的基于机器学习的招聘信息解析系统，其特征在于，所述模块分类数据包括岗位职责，任职要求，薪酬福利，公司介绍以及联系方式。

4.根据权利要求3所述的基于机器学习的招聘信息解析系统，其特征在于，所述详细分类数据是所述模块分类数据的子分类。

5.根据权利要求4所述的基于机器学习的招聘信息解析系统，其特征在于，所述综合模型包含一个模块分类模型与一个详细分类模型；所述模块分类模型由所述模块分类数据训练得到，且所述模块分类模型与所述详细分类机器学习模型连接。

6.基于机器学习的招聘信息解析系统的搭建方法，其特征在于，搭建具体步骤如下：

7.一种基于机器学习的招聘信息解析系统的运行方法，其特征在于，运行步骤如下：

步骤1.输入招聘网页地址或直接输入招聘信息；

步骤3.将粗分块信息进行详细分类。

8.根据权利要求7所述的运行方法，其特征在于，所述的步骤1，网页内容包括是否包含网页信息以及纯文本信息，按照网页是否包含网页信息或纯文本信息进行标签后在进行粗分块。

9.根据权利要求8所述的运行方法，其特征在于，所述的步骤2，在执行整个系统的运行流程中，首先判断网页内容是否包含网页信息，如果是，则进行单信息源正则表达匹配，以便得到模块分类数据；若网页内容是纯文本信息，则通过机器学习综合模型以及正则表达匹配进行处理后得到模块与详细分类初步数据。

10.根据权利要求9所述的运行方法，其特征在于，所述的步骤3,模块分类数据经过机器学习单信息源模型以及正则表达匹配处理后，得到详细分类数据；模块与详细分类初步数据经过所述综合模型处理后得到所述详细分类数据。