CN110705281B

CN110705281B - 一种基于机器学习的简历信息抽取方法

Info

Publication number: CN110705281B
Application number: CN201910796584.0A
Authority: CN
Inventors: 江永青; 陈运文; 桂洪冠; 周明星; 纪达麒; 连明杰
Original assignee: Datagrand Information Technology Shanghai Co ltd
Current assignee: Datagrand Information Technology Shanghai Co ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2022-12-20
Anticipated expiration: 2039-08-27
Also published as: CN110705281A

Abstract

本发明公开了一种基于机器学习的简历信息抽取方法，包括以下步骤：构建行业关键词库；根据多个样本简历和行业关键词库的数据构建简历向量模型；将待抽取简历处理成结构化字段和非结构化字段；从结构化字段中正则提取出个人基本信息；利用分类器预测待抽取简历所属行业；简历向量模型将非结构化数据与行业关键词进行匹配，生成待抽取简历的行业特征向量。本发明简历信息提取准确率高，且能够对不同格式、不同行业的简历信息进行提取，应用更加广泛。

Description

一种基于机器学习的简历信息抽取方法

技术领域

本发明涉及文本处理技术领域，尤其涉及一种基于机器学习的简历信息抽取方法。

背景技术

求职者在书写简历的时候，经常会使用各种形式的模板、结构，或者不同形式的书写风格，以较好地描写自己的履历，面试官也能够看到不同风格的丰富的求职者信息。但是对于简历匹配系统来说，数据处理非常繁琐，包括数据清洗、数据去重、字段抽取等，因为不同简历的风格样式各不相同，因此不同简历数据的处理也会异常复杂。

同时，由于简历的描述内容千差万别，且某些用户在其简历中未写明行业类别，目前简历信息抽取系统无法准确抽取出行业类别，且提取不同风格样式的简历时，提取结果的准确性很难得到保证。

发明内容

有鉴于此，本发明提供了一种基于机器学习的简历信息抽取方法，用以解决上述背景技术中存在的问题。

一种基于机器学习的简历信息抽取方法，具体包括以下步骤：

S1，构建行业关键词库，所述行业关键词库包括若干种行业以及每种行业对应的行业关键词列表；

S2，将多个样本简历数据输入word2vector模型进行训练和测试，生成简历向量模型；

S3，将待抽取简历预处理成结构化字段和非结构化字段；

S4，从所述结构化字段中正则提取出求职者的个人基本信息；

S5，利用分类器从所述非结构化字段中预测待抽取简历所属行业；

S6，对所述非结构化字段进行分词，将分词得到的每个词输入简历向量模型，并根据待抽取简历所属行业对应的行业关键词组，得到待抽取简历的行业特征向量。

优选地，所述步骤S1中构建行业关键词库的具体步骤为：

获取多份样本简历；

按照行业类别对多份样本简历进行分组；

对每份样本简历进行分词，利用卡方检验方法计算每个词与每个行业类别的关联性；

按照行业类别，对切分得到的所有词进行关联度排序，得到各个行业的行业关键词列表，构建出行业关键词库。

优选地，每个行业对应唯一一个行业关键词组。

优选地，所述行业关键词组中包含1024个关键词。

优选地，所述行业特征向量为1024维向量。

优选地，所述分类器采用的是SVM分类器。

优选地，所述个人基本信息包括名字、出生日期、学校。

本发明的有益效果是：

本申请的方法通过将待抽取简历处理成结构化字段和非结构化字段，结构化字段使用正则的方法抽取，非结构化字段通过机器学习模型进行抽取，有效解决了人工提取简历信息繁琐、工作量大的问题，简历信息提取准确率高，且本申请能够对不同格式、不同行业的简历信息进行提取，应用更加广泛。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明的流程图。

具体实施方式

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面通过具体的实施例并结合附图对本申请做进一步的详细描述。

本申请的基于机器学习的简历信息抽取方法，具体包括以下步骤：

S1，构建行业关键词库，所述行业关键词库包括若干种行业以及每种行业对应的行业关键词列表。

本实施例中的行业指的是行业类别下的具体细分行业(一种类别行业下可能会存在多级类目的细分行业)。

每个行业对应有唯一一个行业关键词组，每个行业关键词组中包含1024个关键词。

具体地，构建行业关键词库的步骤为：

获取多份样本简历；按照行业类别对多份样本简历进行分组；对每份样本简历进行分词，利用卡方检验方法计算每个词与每个行业类别的关联性；按照行业类别，对切分得到的所有词进行关联度排序，得到各个行业的行业关键词列表，构建出行业关键词库。

例如获取若干份样本简历，这若干份样本简历涵盖了机械行业、电气行业等多种行业。

对每份样本简历进行分词，利用卡方检验的方法计算每个词与每个行业类别的关联性，如切分得到的某一关键词“器件”，对获取到的多个样本简历进行统计，可得到如下表：

特征选择	属于“机械”	不属于“机械”	总计
				包含“器件”的文档	A	B	A+B
不包含“器件”的文档	C	D	C+D
				总数	A+C	B+D	N

由卡方检验的计算公式

可计算得出“器件”这个关键词与“机械”类文档的关联性

同理，可计算出“器件”这个关键词与电气行业等其他行业的关联性。按照该方法，可计算出每个词与每个行业类别的关联性。

然后，根据每个词与机械行业的关联性对所有切分得到的词进行排序，可得到机械行业的行业关键词列表；根据每个词与电气行业的关联性对所有切分得到的词进行排序，可得到电气行业的行业关键词列表，同理，可得到其他行业的关键词列表。

最后，将得到的所有行业的关键词列表存储起来，构建出行业关键词库。

S2，将多个样本简历的数据输入word2vector模型进行训练和测试，生成简历向量模型。

具体地，将多个样本简历分为训练简历和测试简历，将训练简历数据及其所对应的行业关键词输入word2vector模型中进行训练，得到初始的简历向量模型；然后，将测试简历数据输入word2vector模型中进行测试，确定初始的简历抽取模型是否能有效地预测相似简历，若测试简历的相似值达到设定值时则得到满足要求的简历向量模型。

S3，将待抽取简历预处理成结构化字段和非结构化字段。

所述个人基本信息包括名字、出生日期、学校等信息。

S5，利用分类器从所述非结构化字段中预测待抽取简历所属行业。

本实施例中，所述分类器采用的是SVM分类器，来识别出待抽取简历的行业类别。

同一行业下可能会存在多级类目行业，因此分类器在预测待抽取简历所述行业时，采用自顶向下的分类方法，即：

首先对一级类目(如金融业)进行预测，一级类目预测完成后，对该一级类目下的二级类目(如保险业)进行预测，二级类目预测完成后，对该二级类目下的三级类目(如人寿保险)进行预测，从而预测出待抽取简历的行业类别(如人寿保险)。

S6，对所述非结构化字段进行分词，将分词得到的每个词输入简历向量模型，通过简历向量模型计算非结构化字段中的每个词与待抽取简历所属行业对应的行业关键词列表中的每个关键词之间的相似度，若相似度分值大于某一设定阈值，则将该向量维度置1，从而得到待抽取简历的行业特征向量。

本实施例中，所述行业特征向量为1024维向量。

求职者的个人基本信息、行业特征向量就是最终要得到的简历抽取内容。

本申请的方法通过将待抽取简历处理成结构化字段和非结构化字段，结构化字段使用正则的方法抽取，非结构化字段通过机器学习模型进行抽取，有效解决了人工提取简历信息繁琐、工作量大的问题，且本申请能够对不同格式、不同行业的简历信息进行提取，应用更加广泛。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于机器学习的简历信息抽取方法，其特征在于，具体包括以下步骤：

S3，将待抽取简历预处理成结构化字段和非结构化字段；

2.根据权利要求1所述的基于机器学习的简历信息抽取方法，其特征在于，所述步骤S1中构建行业关键词库的具体步骤为：

获取多份样本简历；

按照行业类别对多份样本简历进行分组；

按照行业类别，对切分得到的词进行关联度排序，得到各个行业的行业关键词列表，构建出行业关键词库。

3.根据权利要求2所述的基于机器学习的简历信息抽取方法，其特征在于，每个行业对应唯一一个行业关键词组。

4.根据权利要求2或3所述的基于机器学习的简历信息抽取方法，其特征在于，所述行业关键词组中包含1024个关键词。

5.根据权利要求1所述的基于机器学习的简历信息抽取方法，其特征在于，所述行业特征向量为1024维向量。

6.根据权利要求1所述的基于机器学习的简历信息抽取方法，其特征在于，所述分类器采用的是SVM分类器。

7.根据权利要求1所述的基于机器学习的简历信息抽取方法，其特征在于，所述个人基本信息包括名字、出生日期、学校。