CN110069782A - 一种基于机器学习的简历质量判断方法 - Google Patents

一种基于机器学习的简历质量判断方法 Download PDF

Info

Publication number
CN110069782A
CN110069782A CN201910343057.4A CN201910343057A CN110069782A CN 110069782 A CN110069782 A CN 110069782A CN 201910343057 A CN201910343057 A CN 201910343057A CN 110069782 A CN110069782 A CN 110069782A
Authority
CN
China
Prior art keywords
resume
machine learning
quality
quality estimation
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910343057.4A
Other languages
English (en)
Inventor
张刚
芦孙慧
黄龙
余智通
吕巧飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Muge Network Technology Co Ltd
Original Assignee
Xi'an Muge Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Muge Network Technology Co Ltd filed Critical Xi'an Muge Network Technology Co Ltd
Priority to CN201910343057.4A priority Critical patent/CN110069782A/zh
Publication of CN110069782A publication Critical patent/CN110069782A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于机器学习的简历质量判断方法,所述方法主要是根据贝叶斯网络结构进行简历质量的划分,把简历和目标职位需求进行匹配,然后进行简历质量排序,最终自动把把简历质量最好的十个简历反馈与后台管理系统。本发明可以大大优化后台运行成本,节省人力资源,优化部门分工体系等,对于公司海量数据库资源的质量判断,能够整合资源,更好的服务于科研机构和企业人才资源引进,同时本发明能够降低后台运维成本,同时具有较高的模型结果精度,满足了公司科聘部门的业务需求。

Description

一种基于机器学习的简历质量判断方法
技术领域
本发明涉及机器学习领域,尤其涉及一种基于机器学习的简历质量判断方法。
背景技术
在当今经济快速发展的时代背景下,我国对科研科技领域人才的需求量巨大,尤其是顶尖行业人才缺失严重。特别是在“人工智能”、“大数据”和“云计算”有关的岗位需求同比每年呈倍增加,且应届毕业生供给率低,猎头市场活跃。一些公司相关业务是为科研科技领域的招聘单位和求职者提供在线服务的平台,实现科技领域人才需求与供给之间的匹配,目前后台已经积累了大量各行业人才,但是在简历匹配精准度方面还有待提高。
目前,对于简历文档质量判断的方法主要有基于随机森林模型(RF),SVM分类模型,KNN分类模型,神经网络分类模型。其中神经网络分类模型构建需要大量的人工标注词汇,和训练时间,算法构建周期长,设备运行昂贵。因此我们需要一种新的方法进行简历质量判断,减少人力审查简历和标注,减少时间消耗,降低后台运行成本。这是本领域技术人员急需解决的问题。
发明内容
本发明解决的技术问题在于提供一种基于机器学习的简历质量判断方法,可以有效的解决后台运行压力大,人力资源浪费严重的问题。
本发明是通过以下技术方案来实现,包括如下步骤:
步骤1:从后台获取目标简历文本,并把目标简历文本存储于简历数据库文档内;
步骤2:通过简历数据库文档进行文本预处理,使用中文分词对简历文本进行构建数据类型格式,筛选待提取词汇向量。
步骤2包括以下子步骤:
步骤2.1:通过中文分词进行进行专业特有名词进行数据类型格式构建,通过专业特有名词进行简历分类。
步骤2.2:进行技能掌握程度,经验,特有名词,资历进行类别标记;
步骤2.3:对标记类别进行筛选;
步骤3:进行文本特征提取,提取标记名词,进行对预先设定的词向量的数据库进行匹配,构成质量判断词库,形成人才判别标准类别标签;
步骤4:从已知质量的文档中标记词向量,统计词频,根据已有词向量和标记类别训练参数模型,得到学习词向量和标签类别之间的数据特征维度关系和轻量级的训练模型,在未分类的简历文档库上验证该模型的准确率,统计模型的学习效率和在测试集上的准确度。
步骤5:通过训练模型,得到简历质量的判断结果,并将十个最优简历反馈给设备管理平台。
更进一步的:所述建立数据库文档通过后台管理系统进行简历文本上传,生成简历数据库。
更进一步的:所述文本特征提取包括匹配标准包括毕业学校、文化程度、工作经验、以及在某一专业特有的技能术语,主要提取简历中是否出现重点学科以及现有提供职位关键词、以及已工作年限等信息量,并加以统计形成待分类的数据向量。
更进一步的:所述机器学习采用贝叶斯网络结构,通过类别标签作为先验概率,预测未知测试简历文档的质量等级。
附图说明与现有技术相比,本发明具有以下有益的技术效果:
本发明是基于机器学习方法构建分类模型,对于公司简历库文档进行质量分析,匹配后台职位。其根据特有的职位关键词和专业词库,能够实时快速对目标简历进行归类,节省大量人力成本、而且模型对简历质量判断的结果准确度高。
附图说明
图1为本发明的算法流程图;
图2为本发明的质量判断构建模型;
具体实施方式
下面结合附图对本发明做进一步详细描述,所述是对本发明的解释而不是限定。
如图所示,本发明公开了一种基于机器学习的简历质量判断方法,包括以下步骤:
步骤1:从后台获取目标简历文本,并把目标简历文本存储于简历数据库文档内。通过后台管理系统,管理员上传简历文件,形成简历文件数据库,同时进行数据库备份。假如公司人才库。
步骤2:通过简历数据库文档进行文本预处理,使用中文分词对简历文本进行构建数据类型格式,筛选待提取词汇向量。
步骤2包括以下子步骤:
步骤2.1:通过中文分词进行进行专业特有名词进行数据类型格式构建,通过专业特有名词进行简历分类,主要为专业,职业经历进行分类。
步骤2.2:进行技能掌握程度,经验,资历进行特有名词标记,标记工作经验、工作内容,学历,职业技能,专业类软件进行标记。例如招聘算法工程师时需要标记深度学习架构(例:Caffe,MxNet,tensorflow)深度学习方法(如RCNN、CNN、LSTM)等等。
步骤2.3:对标记特有名词进行筛选。
文本预处理模块使用中文分词模式,将简历文档中的个人介绍、工作经验、学习经历等进行文标记字提取,然后根据汉语语言表达习惯划分词性,使之转化为数据处理中特有的词向量。
步骤3:进行文本特征提取,提取标记名词,进行对预先设定的词向量的数据库进行匹配,构成质量判断词库,形成人才判别标准类别标签。
步骤4:已知质量的文档中标记词向量,统计词频,根据已有词向量和标记类别训练参数模型,得到学习词向量和标签类别之间的数据特征维度关系和轻量级的训练模型,在未分类的简历文档库上验证该模型的准确率,统计模型的学习效率和在测试集上的准确度。从待分类的简历文档中选取90%作为训练数据集数据,剩下10%作为测试数据集数据,输入机器学习训练算法中进行训练,得到轻量级的训练模型;使用现有的原始简历数据,将数据集划分为训练数据集和验证数据集,原始的训练数据集包含金融管理专业、自动化学科专业、机械与精密仪器专业、人工智能专业、生物医学专业、计算机专业等30多个主要应用学科简历。简历质量判断模块根据输入词汇向量以及统计频率判断该简历文档是否为目标职位需求文档。通过基于机器学习方法训练模型,并使用最终训练模型对简历文档质量进行判断,可以大大优化后台运行成本,节省人力资源,优化部门分工体系等,对于公司海量数据库资源的质量判断,能够整合资源,更好的服务于科研机构和企业人才资源引进,同时本发明能够降低后台运维成本,同时具有较高的模型结果精度,满足了公司科聘部门的业务需求。
步骤5:通过训练模型,得到简历质量的判断结果,判断职位需求和简历匹配度,然后将结果反馈给设备管理平台。在管理员不提取资料情况下,后台反馈的简历为质量最优的前十名候选人简历。
文本特征提取包括匹配标准包括毕业学校、文化程度、工作经验、以及在某一专业特有的技能术语,主要提取简历中是否出现重点学科以及现有提供职位关键词、以及已工作年限等信息量,并加以统计形成待分类的数据向量。
机器学习采用贝叶斯网络结构,通过类别标签作为先验概率,预测未知测试简历文档的质量等级。该方法具有处理多类别问题的能力,且在数据较少的情况下荏仍然有效。
以上给出的实施例是实现本发明较优的例子,本发明不限于上述实施例。本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换,均属于本发明的保护范围。

Claims (4)

1.一种基于机器学习的简历质量判断系统,其特征在于,包括如下步骤:
步骤1:从后台获取目标简历文本,并把目标简历文本存储于简历数据库文档内;
步骤2:通过简历数据库文档进行文本预处理,使用中文分词对简历文本进行构建数据类型格式,筛选待提取词汇向量。
步骤2包括以下子步骤:
步骤2.1:通过中文分词进行进行专业特有名词进行数据类型格式构建,通过专业特有名词进行简历分类;
步骤2.2:进行技能掌握程度,经验,特有名词,资历进行类别标记;
步骤2.3:对标记类别进行筛选;
步骤3:进行文本特征提取,提取标记名词,进行对预先设定的词向量的数据库进行匹配,构成质量判断词库,形成人才判别标准类别标签;
步骤4:从已知质量的文档中标记词向量,统计词频,根据已有词向量和标记类别训练参数模型,得到学习词向量和标签类别之间的数据特征维度关系和轻量级的训练模型,在未分类的简历文档库上验证该模型的准确率,统计模型的学习效率和在测试集上的准确度。
步骤5:通过训练模型,得到简历质量的判断结果,反馈于后台。
2.根据权利要求1所述的有一种基于机器学习的简历质量判断系统,其特征在于:所述建立数据库文档通过后台管理系统进行简历文本上传,生成简历数据库。
3.根据权利要求1所述的有一种基于机器学习的简历质量判断系统,其特征在于:所述文本特征提取包括匹配标准包括毕业学校、文化程度、工作经验、以及在某一专业特有的技能术语。
4.根据权利要求1所述的有一种基于机器学习的简历质量判断系统,其特征在于:所述机器学习采用贝叶斯网络结构,通过类别标签作为先验概率,预测未知测试简历文档的质量等级。
CN201910343057.4A 2019-04-26 2019-04-26 一种基于机器学习的简历质量判断方法 Pending CN110069782A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910343057.4A CN110069782A (zh) 2019-04-26 2019-04-26 一种基于机器学习的简历质量判断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910343057.4A CN110069782A (zh) 2019-04-26 2019-04-26 一种基于机器学习的简历质量判断方法

Publications (1)

Publication Number Publication Date
CN110069782A true CN110069782A (zh) 2019-07-30

Family

ID=67368950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910343057.4A Pending CN110069782A (zh) 2019-04-26 2019-04-26 一种基于机器学习的简历质量判断方法

Country Status (1)

Country Link
CN (1) CN110069782A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111221936A (zh) * 2020-01-02 2020-06-02 中科鼎富(北京)科技发展有限公司 一种信息匹配方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291715A (zh) * 2016-03-30 2017-10-24 阿里巴巴集团控股有限公司 简历评估方法和装置
CN108399525A (zh) * 2017-02-04 2018-08-14 王珣昱 一种基于数据挖掘和机器学习的人才评估方法
CN109636337A (zh) * 2018-12-12 2019-04-16 北京唐冠天朗科技开发有限公司 一种基于大数据的人才库构建方法及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291715A (zh) * 2016-03-30 2017-10-24 阿里巴巴集团控股有限公司 简历评估方法和装置
CN108399525A (zh) * 2017-02-04 2018-08-14 王珣昱 一种基于数据挖掘和机器学习的人才评估方法
CN109636337A (zh) * 2018-12-12 2019-04-16 北京唐冠天朗科技开发有限公司 一种基于大数据的人才库构建方法及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111221936A (zh) * 2020-01-02 2020-06-02 中科鼎富(北京)科技发展有限公司 一种信息匹配方法、装置、电子设备及存储介质
CN111221936B (zh) * 2020-01-02 2023-11-07 鼎富智能科技有限公司 一种信息匹配方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108829681B (zh) 一种命名实体提取方法及装置
CN105260356B (zh) 基于多任务学习的中文交互文本情感与话题识别方法
US20190164109A1 (en) Similarity Learning System and Similarity Learning Method
CN112613501A (zh) 信息审核分类模型的构建方法和信息审核方法
CN109635668B (zh) 基于软标签集成卷积神经网络的人脸表情识别方法及系统
CN109271521A (zh) 一种文本分类方法及装置
CN106919673A (zh) 基于深度学习的文本情绪分析系统
Rashid et al. Feature level opinion mining of educational student feedback data using sequential pattern mining and association rule mining
CN111694937A (zh) 基于人工智能的面试方法、装置、计算机设备及存储介质
CN110991163A (zh) 一种文档比对分析方法、装置、电子设备及存储介质
CN109783637A (zh) 基于深度神经网络的电力检修文本挖掘方法
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN113434688B (zh) 用于舆情分类模型训练的数据处理方法和装置
CN109933783A (zh) 一种不良资产经营领域的合同要素化方法
CN112199496A (zh) 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法
CN111782793A (zh) 智能客服处理方法和系统及设备
CN106227802A (zh) 一种基于中文自然语言处理和多核分类器的多信源股价预测方法
CN115455189A (zh) 基于提示学习的政策文本分类方法
CN104834718A (zh) 基于最大熵模型的事件论元识别方法及系统
CN110069782A (zh) 一种基于机器学习的简历质量判断方法
CN111191029B (zh) 基于监督学习和文本分类的ac构建方法
CN111723182A (zh) 一种用于漏洞文本的关键信息抽取方法及装置
CN111651994A (zh) 一种信息抽取方法、装置、电子设备和存储介质
CN116795978A (zh) 一种投诉信息处理方法、装置、电子设备及介质
CN113111869B (zh) 提取文字图片及其描述的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190730