CN110069782A - 一种基于机器学习的简历质量判断方法 - Google Patents
一种基于机器学习的简历质量判断方法 Download PDFInfo
- Publication number
- CN110069782A CN110069782A CN201910343057.4A CN201910343057A CN110069782A CN 110069782 A CN110069782 A CN 110069782A CN 201910343057 A CN201910343057 A CN 201910343057A CN 110069782 A CN110069782 A CN 110069782A
- Authority
- CN
- China
- Prior art keywords
- resume
- machine learning
- quality
- quality estimation
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 title abstract description 12
- 239000013598 vector Substances 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000012797 qualification Methods 0.000 claims description 3
- 238000013179 statistical model Methods 0.000 claims description 3
- 238000011160 research Methods 0.000 abstract description 4
- 238000005457 optimization Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1053—Employment or hiring
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Medical Informatics (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于机器学习的简历质量判断方法,所述方法主要是根据贝叶斯网络结构进行简历质量的划分,把简历和目标职位需求进行匹配,然后进行简历质量排序,最终自动把把简历质量最好的十个简历反馈与后台管理系统。本发明可以大大优化后台运行成本,节省人力资源,优化部门分工体系等,对于公司海量数据库资源的质量判断,能够整合资源,更好的服务于科研机构和企业人才资源引进,同时本发明能够降低后台运维成本,同时具有较高的模型结果精度,满足了公司科聘部门的业务需求。
Description
技术领域
本发明涉及机器学习领域,尤其涉及一种基于机器学习的简历质量判断方法。
背景技术
在当今经济快速发展的时代背景下,我国对科研科技领域人才的需求量巨大,尤其是顶尖行业人才缺失严重。特别是在“人工智能”、“大数据”和“云计算”有关的岗位需求同比每年呈倍增加,且应届毕业生供给率低,猎头市场活跃。一些公司相关业务是为科研科技领域的招聘单位和求职者提供在线服务的平台,实现科技领域人才需求与供给之间的匹配,目前后台已经积累了大量各行业人才,但是在简历匹配精准度方面还有待提高。
目前,对于简历文档质量判断的方法主要有基于随机森林模型(RF),SVM分类模型,KNN分类模型,神经网络分类模型。其中神经网络分类模型构建需要大量的人工标注词汇,和训练时间,算法构建周期长,设备运行昂贵。因此我们需要一种新的方法进行简历质量判断,减少人力审查简历和标注,减少时间消耗,降低后台运行成本。这是本领域技术人员急需解决的问题。
发明内容
本发明解决的技术问题在于提供一种基于机器学习的简历质量判断方法,可以有效的解决后台运行压力大,人力资源浪费严重的问题。
本发明是通过以下技术方案来实现,包括如下步骤:
步骤1:从后台获取目标简历文本,并把目标简历文本存储于简历数据库文档内;
步骤2:通过简历数据库文档进行文本预处理,使用中文分词对简历文本进行构建数据类型格式,筛选待提取词汇向量。
步骤2包括以下子步骤:
步骤2.1:通过中文分词进行进行专业特有名词进行数据类型格式构建,通过专业特有名词进行简历分类。
步骤2.2:进行技能掌握程度,经验,特有名词,资历进行类别标记;
步骤2.3:对标记类别进行筛选;
步骤3:进行文本特征提取,提取标记名词,进行对预先设定的词向量的数据库进行匹配,构成质量判断词库,形成人才判别标准类别标签;
步骤4:从已知质量的文档中标记词向量,统计词频,根据已有词向量和标记类别训练参数模型,得到学习词向量和标签类别之间的数据特征维度关系和轻量级的训练模型,在未分类的简历文档库上验证该模型的准确率,统计模型的学习效率和在测试集上的准确度。
步骤5:通过训练模型,得到简历质量的判断结果,并将十个最优简历反馈给设备管理平台。
更进一步的:所述建立数据库文档通过后台管理系统进行简历文本上传,生成简历数据库。
更进一步的:所述文本特征提取包括匹配标准包括毕业学校、文化程度、工作经验、以及在某一专业特有的技能术语,主要提取简历中是否出现重点学科以及现有提供职位关键词、以及已工作年限等信息量,并加以统计形成待分类的数据向量。
更进一步的:所述机器学习采用贝叶斯网络结构,通过类别标签作为先验概率,预测未知测试简历文档的质量等级。
附图说明与现有技术相比,本发明具有以下有益的技术效果:
本发明是基于机器学习方法构建分类模型,对于公司简历库文档进行质量分析,匹配后台职位。其根据特有的职位关键词和专业词库,能够实时快速对目标简历进行归类,节省大量人力成本、而且模型对简历质量判断的结果准确度高。
附图说明
图1为本发明的算法流程图;
图2为本发明的质量判断构建模型;
具体实施方式
下面结合附图对本发明做进一步详细描述,所述是对本发明的解释而不是限定。
如图所示,本发明公开了一种基于机器学习的简历质量判断方法,包括以下步骤:
步骤1:从后台获取目标简历文本,并把目标简历文本存储于简历数据库文档内。通过后台管理系统,管理员上传简历文件,形成简历文件数据库,同时进行数据库备份。假如公司人才库。
步骤2:通过简历数据库文档进行文本预处理,使用中文分词对简历文本进行构建数据类型格式,筛选待提取词汇向量。
步骤2包括以下子步骤:
步骤2.1:通过中文分词进行进行专业特有名词进行数据类型格式构建,通过专业特有名词进行简历分类,主要为专业,职业经历进行分类。
步骤2.2:进行技能掌握程度,经验,资历进行特有名词标记,标记工作经验、工作内容,学历,职业技能,专业类软件进行标记。例如招聘算法工程师时需要标记深度学习架构(例:Caffe,MxNet,tensorflow)深度学习方法(如RCNN、CNN、LSTM)等等。
步骤2.3:对标记特有名词进行筛选。
文本预处理模块使用中文分词模式,将简历文档中的个人介绍、工作经验、学习经历等进行文标记字提取,然后根据汉语语言表达习惯划分词性,使之转化为数据处理中特有的词向量。
步骤3:进行文本特征提取,提取标记名词,进行对预先设定的词向量的数据库进行匹配,构成质量判断词库,形成人才判别标准类别标签。
步骤4:已知质量的文档中标记词向量,统计词频,根据已有词向量和标记类别训练参数模型,得到学习词向量和标签类别之间的数据特征维度关系和轻量级的训练模型,在未分类的简历文档库上验证该模型的准确率,统计模型的学习效率和在测试集上的准确度。从待分类的简历文档中选取90%作为训练数据集数据,剩下10%作为测试数据集数据,输入机器学习训练算法中进行训练,得到轻量级的训练模型;使用现有的原始简历数据,将数据集划分为训练数据集和验证数据集,原始的训练数据集包含金融管理专业、自动化学科专业、机械与精密仪器专业、人工智能专业、生物医学专业、计算机专业等30多个主要应用学科简历。简历质量判断模块根据输入词汇向量以及统计频率判断该简历文档是否为目标职位需求文档。通过基于机器学习方法训练模型,并使用最终训练模型对简历文档质量进行判断,可以大大优化后台运行成本,节省人力资源,优化部门分工体系等,对于公司海量数据库资源的质量判断,能够整合资源,更好的服务于科研机构和企业人才资源引进,同时本发明能够降低后台运维成本,同时具有较高的模型结果精度,满足了公司科聘部门的业务需求。
步骤5:通过训练模型,得到简历质量的判断结果,判断职位需求和简历匹配度,然后将结果反馈给设备管理平台。在管理员不提取资料情况下,后台反馈的简历为质量最优的前十名候选人简历。
文本特征提取包括匹配标准包括毕业学校、文化程度、工作经验、以及在某一专业特有的技能术语,主要提取简历中是否出现重点学科以及现有提供职位关键词、以及已工作年限等信息量,并加以统计形成待分类的数据向量。
机器学习采用贝叶斯网络结构,通过类别标签作为先验概率,预测未知测试简历文档的质量等级。该方法具有处理多类别问题的能力,且在数据较少的情况下荏仍然有效。
以上给出的实施例是实现本发明较优的例子,本发明不限于上述实施例。本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换,均属于本发明的保护范围。
Claims (4)
1.一种基于机器学习的简历质量判断系统,其特征在于,包括如下步骤:
步骤1:从后台获取目标简历文本,并把目标简历文本存储于简历数据库文档内;
步骤2:通过简历数据库文档进行文本预处理,使用中文分词对简历文本进行构建数据类型格式,筛选待提取词汇向量。
步骤2包括以下子步骤:
步骤2.1:通过中文分词进行进行专业特有名词进行数据类型格式构建,通过专业特有名词进行简历分类;
步骤2.2:进行技能掌握程度,经验,特有名词,资历进行类别标记;
步骤2.3:对标记类别进行筛选;
步骤3:进行文本特征提取,提取标记名词,进行对预先设定的词向量的数据库进行匹配,构成质量判断词库,形成人才判别标准类别标签;
步骤4:从已知质量的文档中标记词向量,统计词频,根据已有词向量和标记类别训练参数模型,得到学习词向量和标签类别之间的数据特征维度关系和轻量级的训练模型,在未分类的简历文档库上验证该模型的准确率,统计模型的学习效率和在测试集上的准确度。
步骤5:通过训练模型,得到简历质量的判断结果,反馈于后台。
2.根据权利要求1所述的有一种基于机器学习的简历质量判断系统,其特征在于:所述建立数据库文档通过后台管理系统进行简历文本上传,生成简历数据库。
3.根据权利要求1所述的有一种基于机器学习的简历质量判断系统,其特征在于:所述文本特征提取包括匹配标准包括毕业学校、文化程度、工作经验、以及在某一专业特有的技能术语。
4.根据权利要求1所述的有一种基于机器学习的简历质量判断系统,其特征在于:所述机器学习采用贝叶斯网络结构,通过类别标签作为先验概率,预测未知测试简历文档的质量等级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910343057.4A CN110069782A (zh) | 2019-04-26 | 2019-04-26 | 一种基于机器学习的简历质量判断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910343057.4A CN110069782A (zh) | 2019-04-26 | 2019-04-26 | 一种基于机器学习的简历质量判断方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110069782A true CN110069782A (zh) | 2019-07-30 |
Family
ID=67368950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910343057.4A Pending CN110069782A (zh) | 2019-04-26 | 2019-04-26 | 一种基于机器学习的简历质量判断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110069782A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111221936A (zh) * | 2020-01-02 | 2020-06-02 | 中科鼎富(北京)科技发展有限公司 | 一种信息匹配方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291715A (zh) * | 2016-03-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 简历评估方法和装置 |
CN108399525A (zh) * | 2017-02-04 | 2018-08-14 | 王珣昱 | 一种基于数据挖掘和机器学习的人才评估方法 |
CN109636337A (zh) * | 2018-12-12 | 2019-04-16 | 北京唐冠天朗科技开发有限公司 | 一种基于大数据的人才库构建方法及电子设备 |
-
2019
- 2019-04-26 CN CN201910343057.4A patent/CN110069782A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291715A (zh) * | 2016-03-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 简历评估方法和装置 |
CN108399525A (zh) * | 2017-02-04 | 2018-08-14 | 王珣昱 | 一种基于数据挖掘和机器学习的人才评估方法 |
CN109636337A (zh) * | 2018-12-12 | 2019-04-16 | 北京唐冠天朗科技开发有限公司 | 一种基于大数据的人才库构建方法及电子设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111221936A (zh) * | 2020-01-02 | 2020-06-02 | 中科鼎富(北京)科技发展有限公司 | 一种信息匹配方法、装置、电子设备及存储介质 |
CN111221936B (zh) * | 2020-01-02 | 2023-11-07 | 鼎富智能科技有限公司 | 一种信息匹配方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829681B (zh) | 一种命名实体提取方法及装置 | |
CN105260356B (zh) | 基于多任务学习的中文交互文本情感与话题识别方法 | |
US20190164109A1 (en) | Similarity Learning System and Similarity Learning Method | |
CN112613501A (zh) | 信息审核分类模型的构建方法和信息审核方法 | |
CN109635668B (zh) | 基于软标签集成卷积神经网络的人脸表情识别方法及系统 | |
CN109271521A (zh) | 一种文本分类方法及装置 | |
CN106919673A (zh) | 基于深度学习的文本情绪分析系统 | |
Rashid et al. | Feature level opinion mining of educational student feedback data using sequential pattern mining and association rule mining | |
CN111694937A (zh) | 基于人工智能的面试方法、装置、计算机设备及存储介质 | |
CN110991163A (zh) | 一种文档比对分析方法、装置、电子设备及存储介质 | |
CN109783637A (zh) | 基于深度神经网络的电力检修文本挖掘方法 | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN109933783A (zh) | 一种不良资产经营领域的合同要素化方法 | |
CN112199496A (zh) | 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN106227802A (zh) | 一种基于中文自然语言处理和多核分类器的多信源股价预测方法 | |
CN115455189A (zh) | 基于提示学习的政策文本分类方法 | |
CN104834718A (zh) | 基于最大熵模型的事件论元识别方法及系统 | |
CN110069782A (zh) | 一种基于机器学习的简历质量判断方法 | |
CN111191029B (zh) | 基于监督学习和文本分类的ac构建方法 | |
CN111723182A (zh) | 一种用于漏洞文本的关键信息抽取方法及装置 | |
CN111651994A (zh) | 一种信息抽取方法、装置、电子设备和存储介质 | |
CN116795978A (zh) | 一种投诉信息处理方法、装置、电子设备及介质 | |
CN113111869B (zh) | 提取文字图片及其描述的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190730 |