CN110705281B - 一种基于机器学习的简历信息抽取方法 - Google Patents
一种基于机器学习的简历信息抽取方法 Download PDFInfo
- Publication number
- CN110705281B CN110705281B CN201910796584.0A CN201910796584A CN110705281B CN 110705281 B CN110705281 B CN 110705281B CN 201910796584 A CN201910796584 A CN 201910796584A CN 110705281 B CN110705281 B CN 110705281B
- Authority
- CN
- China
- Prior art keywords
- industry
- resume
- extracted
- information extraction
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于机器学习的简历信息抽取方法,包括以下步骤:构建行业关键词库;根据多个样本简历和行业关键词库的数据构建简历向量模型;将待抽取简历处理成结构化字段和非结构化字段;从结构化字段中正则提取出个人基本信息;利用分类器预测待抽取简历所属行业;简历向量模型将非结构化数据与行业关键词进行匹配,生成待抽取简历的行业特征向量。本发明简历信息提取准确率高,且能够对不同格式、不同行业的简历信息进行提取,应用更加广泛。
Description
技术领域
本发明涉及文本处理技术领域,尤其涉及一种基于机器学习的简历信息抽取方法。
背景技术
求职者在书写简历的时候,经常会使用各种形式的模板、结构,或者不同形式的书写风格,以较好地描写自己的履历,面试官也能够看到不同风格的丰富的求职者信息。但是对于简历匹配系统来说,数据处理非常繁琐,包括数据清洗、数据去重、字段抽取等,因为不同简历的风格样式各不相同,因此不同简历数据的处理也会异常复杂。
同时,由于简历的描述内容千差万别,且某些用户在其简历中未写明行业类别,目前简历信息抽取系统无法准确抽取出行业类别,且提取不同风格样式的简历时,提取结果的准确性很难得到保证。
发明内容
有鉴于此,本发明提供了一种基于机器学习的简历信息抽取方法,用以解决上述背景技术中存在的问题。
一种基于机器学习的简历信息抽取方法,具体包括以下步骤:
S1,构建行业关键词库,所述行业关键词库包括若干种行业以及每种行业对应的行业关键词列表;
S2,将多个样本简历数据输入word2vector模型进行训练和测试,生成简历向量模型;
S3,将待抽取简历预处理成结构化字段和非结构化字段;
S4,从所述结构化字段中正则提取出求职者的个人基本信息;
S5,利用分类器从所述非结构化字段中预测待抽取简历所属行业;
S6,对所述非结构化字段进行分词,将分词得到的每个词输入简历向量模型,并根据待抽取简历所属行业对应的行业关键词组,得到待抽取简历的行业特征向量。
优选地,所述步骤S1中构建行业关键词库的具体步骤为:
获取多份样本简历;
按照行业类别对多份样本简历进行分组;
对每份样本简历进行分词,利用卡方检验方法计算每个词与每个行业类别的关联性;
按照行业类别,对切分得到的所有词进行关联度排序,得到各个行业的行业关键词列表,构建出行业关键词库。
优选地,每个行业对应唯一一个行业关键词组。
优选地,所述行业关键词组中包含1024个关键词。
优选地,所述行业特征向量为1024维向量。
优选地,所述分类器采用的是SVM分类器。
优选地,所述个人基本信息包括名字、出生日期、学校。
本发明的有益效果是:
本申请的方法通过将待抽取简历处理成结构化字段和非结构化字段,结构化字段使用正则的方法抽取,非结构化字段通过机器学习模型进行抽取,有效解决了人工提取简历信息繁琐、工作量大的问题,简历信息提取准确率高,且本申请能够对不同格式、不同行业的简历信息进行提取,应用更加广泛。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明的流程图。
具体实施方式
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面通过具体的实施例并结合附图对本申请做进一步的详细描述。
本申请的基于机器学习的简历信息抽取方法,具体包括以下步骤:
S1,构建行业关键词库,所述行业关键词库包括若干种行业以及每种行业对应的行业关键词列表。
本实施例中的行业指的是行业类别下的具体细分行业(一种类别行业下可能会存在多级类目的细分行业)。
每个行业对应有唯一一个行业关键词组,每个行业关键词组中包含1024个关键词。
具体地,构建行业关键词库的步骤为:
获取多份样本简历;按照行业类别对多份样本简历进行分组;对每份样本简历进行分词,利用卡方检验方法计算每个词与每个行业类别的关联性;按照行业类别,对切分得到的所有词进行关联度排序,得到各个行业的行业关键词列表,构建出行业关键词库。
例如获取若干份样本简历,这若干份样本简历涵盖了机械行业、电气行业等多种行业。
对每份样本简历进行分词,利用卡方检验的方法计算每个词与每个行业类别的关联性,如切分得到的某一关键词“器件”,对获取到的多个样本简历进行统计,可得到如下表:
特征选择 | 属于“机械” | 不属于“机械” | 总计 |
包含“器件”的文档 | A | B | A+B |
不包含“器件”的文档 | C | D | C+D |
总数 | A+C | B+D | N |
然后,根据每个词与机械行业的关联性对所有切分得到的词进行排序,可得到机械行业的行业关键词列表;根据每个词与电气行业的关联性对所有切分得到的词进行排序,可得到电气行业的行业关键词列表,同理,可得到其他行业的关键词列表。
最后,将得到的所有行业的关键词列表存储起来,构建出行业关键词库。
S2,将多个样本简历的数据输入word2vector模型进行训练和测试,生成简历向量模型。
具体地,将多个样本简历分为训练简历和测试简历,将训练简历数据及其所对应的行业关键词输入word2vector模型中进行训练,得到初始的简历向量模型;然后,将测试简历数据输入word2vector模型中进行测试,确定初始的简历抽取模型是否能有效地预测相似简历,若测试简历的相似值达到设定值时则得到满足要求的简历向量模型。
S3,将待抽取简历预处理成结构化字段和非结构化字段。
S4,从所述结构化字段中正则提取出求职者的个人基本信息;
所述个人基本信息包括名字、出生日期、学校等信息。
S5,利用分类器从所述非结构化字段中预测待抽取简历所属行业。
本实施例中,所述分类器采用的是SVM分类器,来识别出待抽取简历的行业类别。
同一行业下可能会存在多级类目行业,因此分类器在预测待抽取简历所述行业时,采用自顶向下的分类方法,即:
首先对一级类目(如金融业)进行预测,一级类目预测完成后,对该一级类目下的二级类目(如保险业)进行预测,二级类目预测完成后,对该二级类目下的三级类目(如人寿保险)进行预测,从而预测出待抽取简历的行业类别(如人寿保险)。
S6,对所述非结构化字段进行分词,将分词得到的每个词输入简历向量模型,通过简历向量模型计算非结构化字段中的每个词与待抽取简历所属行业对应的行业关键词列表中的每个关键词之间的相似度,若相似度分值大于某一设定阈值,则将该向量维度置1,从而得到待抽取简历的行业特征向量。
本实施例中,所述行业特征向量为1024维向量。
求职者的个人基本信息、行业特征向量就是最终要得到的简历抽取内容。
本申请的方法通过将待抽取简历处理成结构化字段和非结构化字段,结构化字段使用正则的方法抽取,非结构化字段通过机器学习模型进行抽取,有效解决了人工提取简历信息繁琐、工作量大的问题,且本申请能够对不同格式、不同行业的简历信息进行提取,应用更加广泛。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (7)
1.一种基于机器学习的简历信息抽取方法,其特征在于,具体包括以下步骤:
S1,构建行业关键词库,所述行业关键词库包括若干种行业以及每种行业对应的行业关键词列表;
S2,将多个样本简历数据输入word2vector模型进行训练和测试,生成简历向量模型;
S3,将待抽取简历预处理成结构化字段和非结构化字段;
S4,从所述结构化字段中正则提取出求职者的个人基本信息;
S5,利用分类器从所述非结构化字段中预测待抽取简历所属行业;
S6,对所述非结构化字段进行分词,将分词得到的每个词输入简历向量模型,并根据待抽取简历所属行业对应的行业关键词组,得到待抽取简历的行业特征向量。
2.根据权利要求1所述的基于机器学习的简历信息抽取方法,其特征在于,所述步骤S1中构建行业关键词库的具体步骤为:
获取多份样本简历;
按照行业类别对多份样本简历进行分组;
对每份样本简历进行分词,利用卡方检验方法计算每个词与每个行业类别的关联性;
按照行业类别,对切分得到的词进行关联度排序,得到各个行业的行业关键词列表,构建出行业关键词库。
3.根据权利要求2所述的基于机器学习的简历信息抽取方法,其特征在于,每个行业对应唯一一个行业关键词组。
4.根据权利要求2或3所述的基于机器学习的简历信息抽取方法,其特征在于,所述行业关键词组中包含1024个关键词。
5.根据权利要求1所述的基于机器学习的简历信息抽取方法,其特征在于,所述行业特征向量为1024维向量。
6.根据权利要求1所述的基于机器学习的简历信息抽取方法,其特征在于,所述分类器采用的是SVM分类器。
7.根据权利要求1所述的基于机器学习的简历信息抽取方法,其特征在于,所述个人基本信息包括名字、出生日期、学校。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910796584.0A CN110705281B (zh) | 2019-08-27 | 2019-08-27 | 一种基于机器学习的简历信息抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910796584.0A CN110705281B (zh) | 2019-08-27 | 2019-08-27 | 一种基于机器学习的简历信息抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110705281A CN110705281A (zh) | 2020-01-17 |
CN110705281B true CN110705281B (zh) | 2022-12-20 |
Family
ID=69193942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910796584.0A Active CN110705281B (zh) | 2019-08-27 | 2019-08-27 | 一种基于机器学习的简历信息抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110705281B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111311180B (zh) * | 2020-02-10 | 2023-03-24 | 腾讯云计算(北京)有限责任公司 | 简历筛选方法及装置 |
CN111352979B (zh) * | 2020-03-31 | 2024-01-12 | 中国建设银行股份有限公司 | 一种基于简历信息的行业分析方法及系统 |
CN113298488B (zh) * | 2021-04-30 | 2023-06-06 | 北京五八赶集信息技术有限公司 | 行业问题库构建方法、装置、电子设备和计算机可读介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590133A (zh) * | 2017-10-24 | 2018-01-16 | 武汉理工大学 | 基于语义的招聘职位与求职简历匹配的方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060074909A1 (en) * | 2004-09-28 | 2006-04-06 | Bradley Fredericks | Automated resume evaluation system |
-
2019
- 2019-08-27 CN CN201910796584.0A patent/CN110705281B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590133A (zh) * | 2017-10-24 | 2018-01-16 | 武汉理工大学 | 基于语义的招聘职位与求职简历匹配的方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于集成学习的网页主题识别算法;葛东谋等;《电子测试》;20131130(第19期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110705281A (zh) | 2020-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108399228B (zh) | 文章分类方法、装置、计算机设备及存储介质 | |
CN111966917B (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN109446517B (zh) | 指代消解方法、电子装置及计算机可读存储介质 | |
Stein et al. | Intrinsic plagiarism analysis | |
Boenninghoff et al. | Similarity learning for authorship verification in social media | |
CN110851598B (zh) | 文本分类方法、装置、终端设备及存储介质 | |
CN110705281B (zh) | 一种基于机器学习的简历信息抽取方法 | |
Ahmad et al. | Bengali word embeddings and it's application in solving document classification problem | |
CN110162771B (zh) | 事件触发词的识别方法、装置、电子设备 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN112395421B (zh) | 课程标签的生成方法、装置、计算机设备及介质 | |
CN110032650B (zh) | 一种训练样本数据的生成方法、装置及电子设备 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN104850617A (zh) | 短文本处理方法及装置 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN112084308A (zh) | 用于文本类型数据识别的方法、系统及存储介质 | |
CN110019556B (zh) | 一种话题新闻获取方法、装置及其设备 | |
Shah et al. | Legal clause extraction from contract using machine learning with heuristics improvement | |
Hussain et al. | A technique for perceiving abusive bangla comments | |
CN112287215A (zh) | 一种智能就业推荐方法和装置 | |
CN115687790B (zh) | 基于大数据的广告推送方法、系统及云平台 | |
CN111241269B (zh) | 一种短信文本分类方法、装置、电子设备及存储介质 | |
Sun | Research on product attribute extraction and classification method for online review | |
CN108021609B (zh) | 文本情感分类方法、装置、计算机设备和存储介质 | |
CN111291180A (zh) | 一种工单数据分类方法、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |