CN110069782A

CN110069782A - 一种基于机器学习的简历质量判断方法

Info

Publication number: CN110069782A
Application number: CN201910343057.4A
Authority: CN
Inventors: 张刚; 芦孙慧; 黄龙; 余智通; 吕巧飞
Original assignee: Xi'an Muge Network Technology Co Ltd
Current assignee: Xi'an Muge Network Technology Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2019-07-30

Abstract

本发明涉及一种基于机器学习的简历质量判断方法，所述方法主要是根据贝叶斯网络结构进行简历质量的划分，把简历和目标职位需求进行匹配，然后进行简历质量排序，最终自动把把简历质量最好的十个简历反馈与后台管理系统。本发明可以大大优化后台运行成本，节省人力资源，优化部门分工体系等，对于公司海量数据库资源的质量判断，能够整合资源，更好的服务于科研机构和企业人才资源引进，同时本发明能够降低后台运维成本，同时具有较高的模型结果精度，满足了公司科聘部门的业务需求。

Description

一种基于机器学习的简历质量判断方法

技术领域

本发明涉及机器学习领域，尤其涉及一种基于机器学习的简历质量判断方法。

背景技术

在当今经济快速发展的时代背景下，我国对科研科技领域人才的需求量巨大，尤其是顶尖行业人才缺失严重。特别是在“人工智能”、“大数据”和“云计算”有关的岗位需求同比每年呈倍增加，且应届毕业生供给率低，猎头市场活跃。一些公司相关业务是为科研科技领域的招聘单位和求职者提供在线服务的平台，实现科技领域人才需求与供给之间的匹配，目前后台已经积累了大量各行业人才，但是在简历匹配精准度方面还有待提高。

目前，对于简历文档质量判断的方法主要有基于随机森林模型(RF)，SVM分类模型，KNN分类模型，神经网络分类模型。其中神经网络分类模型构建需要大量的人工标注词汇，和训练时间，算法构建周期长，设备运行昂贵。因此我们需要一种新的方法进行简历质量判断，减少人力审查简历和标注，减少时间消耗，降低后台运行成本。这是本领域技术人员急需解决的问题。

发明内容

本发明解决的技术问题在于提供一种基于机器学习的简历质量判断方法，可以有效的解决后台运行压力大，人力资源浪费严重的问题。

本发明是通过以下技术方案来实现，包括如下步骤：

步骤1：从后台获取目标简历文本，并把目标简历文本存储于简历数据库文档内；

步骤2：通过简历数据库文档进行文本预处理，使用中文分词对简历文本进行构建数据类型格式，筛选待提取词汇向量。

步骤2包括以下子步骤：

步骤2.1：通过中文分词进行进行专业特有名词进行数据类型格式构建，通过专业特有名词进行简历分类。

步骤2.2：进行技能掌握程度，经验，特有名词，资历进行类别标记；

步骤2.3：对标记类别进行筛选；

步骤3：进行文本特征提取，提取标记名词，进行对预先设定的词向量的数据库进行匹配，构成质量判断词库，形成人才判别标准类别标签；

步骤4：从已知质量的文档中标记词向量，统计词频，根据已有词向量和标记类别训练参数模型，得到学习词向量和标签类别之间的数据特征维度关系和轻量级的训练模型，在未分类的简历文档库上验证该模型的准确率，统计模型的学习效率和在测试集上的准确度。

步骤5：通过训练模型，得到简历质量的判断结果，并将十个最优简历反馈给设备管理平台。

更进一步的：所述建立数据库文档通过后台管理系统进行简历文本上传，生成简历数据库。

更进一步的：所述文本特征提取包括匹配标准包括毕业学校、文化程度、工作经验、以及在某一专业特有的技能术语，主要提取简历中是否出现重点学科以及现有提供职位关键词、以及已工作年限等信息量，并加以统计形成待分类的数据向量。

更进一步的：所述机器学习采用贝叶斯网络结构，通过类别标签作为先验概率，预测未知测试简历文档的质量等级。

附图说明与现有技术相比，本发明具有以下有益的技术效果：

本发明是基于机器学习方法构建分类模型，对于公司简历库文档进行质量分析，匹配后台职位。其根据特有的职位关键词和专业词库，能够实时快速对目标简历进行归类，节省大量人力成本、而且模型对简历质量判断的结果准确度高。

附图说明

图1为本发明的算法流程图；

图2为本发明的质量判断构建模型；

具体实施方式

下面结合附图对本发明做进一步详细描述，所述是对本发明的解释而不是限定。

如图所示，本发明公开了一种基于机器学习的简历质量判断方法，包括以下步骤：

步骤1：从后台获取目标简历文本，并把目标简历文本存储于简历数据库文档内。通过后台管理系统，管理员上传简历文件，形成简历文件数据库，同时进行数据库备份。假如公司人才库。

步骤2包括以下子步骤：

步骤2.1：通过中文分词进行进行专业特有名词进行数据类型格式构建，通过专业特有名词进行简历分类，主要为专业，职业经历进行分类。

步骤2.2：进行技能掌握程度，经验，资历进行特有名词标记，标记工作经验、工作内容，学历，职业技能，专业类软件进行标记。例如招聘算法工程师时需要标记深度学习架构(例:Caffe，MxNet，tensorflow)深度学习方法(如RCNN、CNN、LSTM)等等。

步骤2.3：对标记特有名词进行筛选。

文本预处理模块使用中文分词模式，将简历文档中的个人介绍、工作经验、学习经历等进行文标记字提取，然后根据汉语语言表达习惯划分词性，使之转化为数据处理中特有的词向量。

步骤3：进行文本特征提取，提取标记名词，进行对预先设定的词向量的数据库进行匹配，构成质量判断词库，形成人才判别标准类别标签。

步骤4：已知质量的文档中标记词向量，统计词频，根据已有词向量和标记类别训练参数模型，得到学习词向量和标签类别之间的数据特征维度关系和轻量级的训练模型，在未分类的简历文档库上验证该模型的准确率，统计模型的学习效率和在测试集上的准确度。从待分类的简历文档中选取90％作为训练数据集数据，剩下10％作为测试数据集数据，输入机器学习训练算法中进行训练，得到轻量级的训练模型；使用现有的原始简历数据，将数据集划分为训练数据集和验证数据集，原始的训练数据集包含金融管理专业、自动化学科专业、机械与精密仪器专业、人工智能专业、生物医学专业、计算机专业等30多个主要应用学科简历。简历质量判断模块根据输入词汇向量以及统计频率判断该简历文档是否为目标职位需求文档。通过基于机器学习方法训练模型，并使用最终训练模型对简历文档质量进行判断，可以大大优化后台运行成本，节省人力资源，优化部门分工体系等，对于公司海量数据库资源的质量判断，能够整合资源，更好的服务于科研机构和企业人才资源引进，同时本发明能够降低后台运维成本，同时具有较高的模型结果精度，满足了公司科聘部门的业务需求。

步骤5：通过训练模型，得到简历质量的判断结果，判断职位需求和简历匹配度，然后将结果反馈给设备管理平台。在管理员不提取资料情况下，后台反馈的简历为质量最优的前十名候选人简历。

文本特征提取包括匹配标准包括毕业学校、文化程度、工作经验、以及在某一专业特有的技能术语，主要提取简历中是否出现重点学科以及现有提供职位关键词、以及已工作年限等信息量，并加以统计形成待分类的数据向量。

机器学习采用贝叶斯网络结构，通过类别标签作为先验概率，预测未知测试简历文档的质量等级。该方法具有处理多类别问题的能力，且在数据较少的情况下荏仍然有效。

以上给出的实施例是实现本发明较优的例子，本发明不限于上述实施例。本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换，均属于本发明的保护范围。

Claims

1.一种基于机器学习的简历质量判断系统，其特征在于，包括如下步骤：

步骤2包括以下子步骤：

步骤2.1：通过中文分词进行进行专业特有名词进行数据类型格式构建，通过专业特有名词进行简历分类；

步骤2.3：对标记类别进行筛选；

步骤5：通过训练模型，得到简历质量的判断结果，反馈于后台。

2.根据权利要求1所述的有一种基于机器学习的简历质量判断系统，其特征在于：所述建立数据库文档通过后台管理系统进行简历文本上传，生成简历数据库。

3.根据权利要求1所述的有一种基于机器学习的简历质量判断系统，其特征在于：所述文本特征提取包括匹配标准包括毕业学校、文化程度、工作经验、以及在某一专业特有的技能术语。

4.根据权利要求1所述的有一种基于机器学习的简历质量判断系统，其特征在于：所述机器学习采用贝叶斯网络结构，通过类别标签作为先验概率，预测未知测试简历文档的质量等级。