CN105787047A - 一种简历信息的抽取解析转换方法 - Google Patents
一种简历信息的抽取解析转换方法 Download PDFInfo
- Publication number
- CN105787047A CN105787047A CN201610108668.7A CN201610108668A CN105787047A CN 105787047 A CN105787047 A CN 105787047A CN 201610108668 A CN201610108668 A CN 201610108668A CN 105787047 A CN105787047 A CN 105787047A
- Authority
- CN
- China
- Prior art keywords
- information
- experience
- resume
- extraction
- work
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及互联网应用领域,具体为一种简历信息的抽取解析转换方法,包括,计算机读入存放简历的文件路径,读取文件流,抽取出文本内容,输出一个大文本字符串,读入抽取的大文本字符串,进行解析,将解析出的简历信息组成简历信息模型;本发明用计算机实现简历的信息的抽取解析转换,相比人工,速度更快,可以达到人工效率的100倍以上,同时文件简历被自动转换为统一的格式还会方便日后的查询或者信息再利用。
Description
技术领域
本发明涉及互联网应用领域,具体为一种简历信息的抽取解析转换方法。
背景技术
简历是求职者给招聘单位的自己个人信息简要介绍,包含基本信息:姓名、性别、年龄、籍贯、居住地、政治面貌、学历、联系电话、email、工作经验、身份证号等,以及自我评价、工作经历、实践经历、项目经历、学习经历、培训经历、求职期望、证件、荣誉、特长等,现在的互联网渗透率高,很多人找工作都是通过网络投递简历,但是通过网络投递的简历各式各样,这对于收简历的这些企业来说,查看处理这些简历是一个很大的工作量,由于每个人的简历内容没有统一格式,对企业来说,怎样将这些通过各种渠道获取的各式各样的简历管理起来,使其发挥它们更大的价值一直是企业人资比较头疼的一件事情。
发明内容
简历是求职者给招聘单位的自己个人信息简要介绍,包含基本信息:姓名、性别、年龄、籍贯、居住地、政治面貌、学历、联系电话、email、工作经验、身份证号等,以及自我评价、工作经历、实践经历、项目经历、学习经历、培训经历、求职期望、证件、荣誉、特长等,现在的互联网渗透率高,很多人找工作都是通过网络投递简历,但是通过网络投递的简历各式各样,这对于收简历的这些企业来说,查看处理这些简历是一个很大的工作量,由于每个人的简历内容没有统一格式,对企业来说,怎样将这些通过各种渠道获取的各式各样的简历管理起来,使其发挥它们更大的价值一直是企业人资比较头疼的一件事情。本发明提供一种简历信息的抽取解析转换方法,可以将不同来源、不同格式的文件简历抽取解析转换成统一的信息格式,方便日后查询和信息再利用。
为了达到上述目的,本发明采用以下技术方案,包括:
抽取:计算机读入存放简历的文件路径,读取文件流,抽取出文本内容,输出一个大文本字符串,支持的文件格式包括但不限于txt、doc、docx、xls、xlsx、pdf、html、htm和mht。
解析:计算机读入上一步抽取的大文本字符串,进行解析。
进一步地,在解析时的具体逻辑原理如下:将简历按照语义拆分成信息段的集合,将涵盖多条记录的负责信息段解析成普通信息段集合,解析信息段按照先易后难、先准确后模糊的原则进行。
具体地:
1、先将简历按照语义上(基本信息、自我评价、工作经历、实践经历、项目经历、学习经历、培训经历、求职期望、证件、荣誉、特长)拆分成信息段的集合;
2、如果信息段比较复杂,涵盖多条记录,如像工作经历、项目经历、学习经历这样的有可能是多条信息的复杂信息段,则先解析成普通信息段(一个普通信息段对应一条记录)的集合;
3、解析信息段按照先易后难、先准确后模糊的原则进行,如基本信息的解析,会先解析性别、电话、email、身份证号、学历、政治面貌等容易被准确解析的信息字段,然后再解析籍贯、居住地等较复杂的信息字段,然后再解析年龄(如简历没有年龄信息,但是提供了生日信息,则可以算出年龄信息)和工作经验(如简历没有工作经验信息,但是提供了开始工作年份,则可以算出工作经验)等字段,最后才是姓名字段。
转换:将解析出的简历的信息按照基本信息(涵盖:姓名、性别、年龄、籍贯、居住地、政治面貌、学历、联系电话、EMail、工作经验、身份证号等字段)、工作经历集(每条工作经历信息涵盖:工作单位名称、起止时间、单位的性质、行业、规模、所在部门、岗位、薪资、工作描述等字段)、项目经历集(每条项目经历信息涵盖:项目名称、起止时间、项目描述等字段)、教育经历集(每条教育经历信息涵盖:学校名称、起止时间、学历、专业等)、自我评价、实践经历、培训经历、求职期望、证件、荣誉、特长等组装成一个简历的信息模型。
本发明的有益效果是:本发明用计算机实现简历的信息的抽取解析转换,相比人工,速度更快,可以达到人工效率的100倍以上,同时文件简历被自动转换为统一的格式还会方便日后的查询或者信息再利用。
附图说明
图1为本发明的一种简历信息的抽取解析转换方法的流程图。
具体实施方式
本发明提供一种计算机实现的文件简历的信息的抽取解析转换方法,可以将不同来源(可以是各个招聘网站的简历,也可以是求职者自制的简历)不同格式(支持txt、doc、docx、xls、xlsx、pdf、html、htm、mht等文件格式)的文件简历抽取解析转换成统一的信息格式。
本发明可以是操作单个文件简历,也可以操作批量文件简历,但具体逻辑步骤是一样的,为了使本技术领域的人员更好的理解本申请中的技术方案,下面将结合附图和实施例来对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
一种简历信息的抽取解析转换方法,其详细实施方式如图1所示:
在步骤S100中,计算机读入存放简历的文件路径,读取文件流,抽取出文本内容,输出一个大文本字符串。
在步骤S200中,计算机读入上一步抽取的大文本字符串,进行解析。
在步骤S300中,将解析出的简历信息组成简历信息模型。
进一步的,在步骤S200中,具体逻辑原理为:
将简历按照语义拆分成信息段的集合,将涵盖多条记录的负责信息段解析成普通信息段集合,解析信息段按照先易后难、先准确后模糊的原则进行。
具体地,将简历按照基本信息、自我评价、工作经历、实践经历、项目经历、学习经历、培训经历、求职期望、证件、荣誉和特长拆分成信息段的集合;
将工作经历、项目经历、学习经历、培训经历可能是多条信息的复杂信息段先解析成普通信息段的集合,一个普通信息段对应一条记录;
解析信息段按照先易后难、先准确后模糊的原则进行,基本信息的解析会先解析性别、电话、email、身份证号、学历、政治面貌、等容易被准确解析的信息字段,然后再解析籍贯、居住地等较复杂的信息字段,然后再解析年龄(如简历没有年龄信息,但是提供了生日信息,则可以算出年龄信息)和工作经验(如简历没有工作经验信息,但是提供了开始工作年份,则可以算出工作经验)等字段,最后才是姓名字段。
信息字段的匹配抽取依赖于一个强大的字典库和一个复杂算法,这些也都涵盖在本发明内。
具体地,在步骤S300中,将解析出的简历的信息按照基本信息(涵盖:姓名、性别、年龄、籍贯、居住地、政治面貌、学历、联系电话、EMail、工作经验、身份证号等字段)、工作经历集(每条工作经历信息涵盖:工作单位名称、起止时间、单位的性质、行业、规模、所在部门、岗位、薪资、工作描述等字段)、项目经历集(每条项目经历信息涵盖:项目名称、起止时间、项目描述等字段)、教育经历集(每条教育经历信息涵盖:学校名称、起止时间、学历、专业等)、自我评价、实践经历、培训经历、求职期望、证件、荣誉、特长等组装成一个简历的信息模型。
本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明,因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
Claims (4)
1.一种简历信息的抽取解析转换方法,其特征在于,包括:
在步骤S100中,计算机读入存放简历的文件路径,读取文件流,抽取出文本内容,输出一个大文本字符串;
在步骤S200中,计算机读入上一步抽取的大文本字符串,进行解析;
在步骤S300中,将解析出的简历信息组成简历信息模型。
2.根据权利要求1所述的一种简历信息的抽取解析转换方法,其特征在于,在步骤S200中的逻辑原理为,将简历按照语义拆分成信息段的集合,将涵盖多条记录的负责信息段解析成普通信息段集合,解析信息段按照先易后难、先准确后模糊的原则进行。
3.根据权利要求2所述的一种简历信息的抽取解析转换方法,其特征在于,将简历按照基本信息、自我评价、工作经历、实践经历、项目经历、学习经历、培训经历、求职期望、证件、荣誉和特长拆分成信息段的集合;
将工作经历、项目经历、学习经历和培训经历是多条信息的复杂信息段先解析成普通信息段的集合,一个普通信息段对应一条记录。
4.根据权利要求1所述的一种简历信息的抽取解析转换方法,其特征在于,在步骤S300中,将解析出的简历的信息按照基本信息(涵盖:姓名、性别、年龄、籍贯、居住地、政治面貌、学历、联系电话、EMail、工作经验和身份证号字段)、工作经历集(每条工作经历信息涵盖:工作单位名称、起止时间、单位的性质、行业、规模、所在部门、岗位、薪资和工作描述字段)、项目经历集(每条项目经历信息涵盖:项目名称、起止时间和项目描述字段)、教育经历集(每条教育经历信息涵盖:学校名称、起止时间、学历和专业)、自我评价、实践经历、培训经历、求职期望、证件、荣誉和特长组装成一个简历的信息模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610108668.7A CN105787047A (zh) | 2016-02-29 | 2016-02-29 | 一种简历信息的抽取解析转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610108668.7A CN105787047A (zh) | 2016-02-29 | 2016-02-29 | 一种简历信息的抽取解析转换方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105787047A true CN105787047A (zh) | 2016-07-20 |
Family
ID=56402825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610108668.7A Pending CN105787047A (zh) | 2016-02-29 | 2016-02-29 | 一种简历信息的抽取解析转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105787047A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563725A (zh) * | 2017-08-25 | 2018-01-09 | 浙江网新恒天软件有限公司 | 一种优化繁琐人才招聘过程的招聘系统 |
CN107957984A (zh) * | 2016-10-14 | 2018-04-24 | 深圳梵摩健康科技有限公司 | 求职者的简历生成方法及系统 |
CN108874928A (zh) * | 2018-05-31 | 2018-11-23 | 平安科技(深圳)有限公司 | 简历数据信息解析处理方法、装置、设备及存储介质 |
CN109271479A (zh) * | 2018-09-29 | 2019-01-25 | 广东润弘科技有限公司 | 一种简历结构化处理方法 |
CN109766438A (zh) * | 2018-12-12 | 2019-05-17 | 平安科技(深圳)有限公司 | 简历信息提取方法、装置、计算机设备和存储介质 |
CN110020327A (zh) * | 2019-04-16 | 2019-07-16 | 上海大易云计算股份有限公司 | 一种基于垂直搜索引擎的简历解析系统 |
CN111325031A (zh) * | 2020-02-17 | 2020-06-23 | 北京字节跳动网络技术有限公司 | 简历解析方法及装置 |
CN111737969A (zh) * | 2020-07-27 | 2020-10-02 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和系统 |
-
2016
- 2016-02-29 CN CN201610108668.7A patent/CN105787047A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107957984A (zh) * | 2016-10-14 | 2018-04-24 | 深圳梵摩健康科技有限公司 | 求职者的简历生成方法及系统 |
CN107563725A (zh) * | 2017-08-25 | 2018-01-09 | 浙江网新恒天软件有限公司 | 一种优化繁琐人才招聘过程的招聘系统 |
CN108874928A (zh) * | 2018-05-31 | 2018-11-23 | 平安科技(深圳)有限公司 | 简历数据信息解析处理方法、装置、设备及存储介质 |
CN108874928B (zh) * | 2018-05-31 | 2024-02-02 | 平安科技(深圳)有限公司 | 简历数据信息解析处理方法、装置、设备及存储介质 |
CN109271479A (zh) * | 2018-09-29 | 2019-01-25 | 广东润弘科技有限公司 | 一种简历结构化处理方法 |
CN109766438A (zh) * | 2018-12-12 | 2019-05-17 | 平安科技(深圳)有限公司 | 简历信息提取方法、装置、计算机设备和存储介质 |
CN110020327A (zh) * | 2019-04-16 | 2019-07-16 | 上海大易云计算股份有限公司 | 一种基于垂直搜索引擎的简历解析系统 |
CN111325031A (zh) * | 2020-02-17 | 2020-06-23 | 北京字节跳动网络技术有限公司 | 简历解析方法及装置 |
CN111325031B (zh) * | 2020-02-17 | 2023-06-23 | 抖音视界有限公司 | 简历解析方法及装置 |
CN111737969A (zh) * | 2020-07-27 | 2020-10-02 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和系统 |
CN111737969B (zh) * | 2020-07-27 | 2020-12-08 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105787047A (zh) | 一种简历信息的抽取解析转换方法 | |
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
Chen et al. | Using social media images as data in social science research | |
CN104809176B (zh) | 藏语实体关系抽取方法 | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
Stamatatos et al. | Overview of the PAN/CLEF 2015 evaluation lab | |
CN109460551B (zh) | 签名信息提取方法及装置 | |
CN102207948B (zh) | 一种事件陈述句素材库的生成方法 | |
Kawade et al. | Sentiment analysis: machine learning approach | |
Niu et al. | Sentiment classification for microblog by machine learning | |
CN103049435A (zh) | 文本细粒度情感分析方法及装置 | |
CN101499062A (zh) | 用于收集实体别名的方法和设备 | |
CN109344187B (zh) | 一种司法判决书案情信息结构化处理系统 | |
CN108121715B (zh) | 一种文字标签方法及文字标签装置 | |
CN110321549B (zh) | 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法 | |
CN110795932B (zh) | 基于地质本体的地质报告文本信息提取方法 | |
CN114357117A (zh) | 事务信息查询方法、装置、计算机设备及存储介质 | |
CN104268283A (zh) | 一种自动解析互联网网页的方法 | |
Rosanensi et al. | Analysis sentiment and tourist response to rinjani mountain tour based on comments from photo upload in instagram | |
CN112749283A (zh) | 一种面向法律领域的实体关系联合抽取方法 | |
CN112015907A (zh) | 一种学科知识图谱快速构建方法、装置及存储介质 | |
US20170235835A1 (en) | Information identification and extraction | |
CN111199151A (zh) | 数据处理方法、及数据处理装置 | |
Ding et al. | Scoring tourist attractions based on sentiment lexicon | |
CN110309355A (zh) | 内容标签的生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160720 |
|
WD01 | Invention patent application deemed withdrawn after publication |