CN105787047A

CN105787047A - 一种简历信息的抽取解析转换方法

Info

Publication number: CN105787047A
Application number: CN201610108668.7A
Authority: CN
Inventors: 范志刚
Original assignee: Henan Zhongou Enterprise Consultation Co Ltd
Current assignee: Henan Zhongou Enterprise Consultation Co Ltd
Priority date: 2016-02-29
Filing date: 2016-02-29
Publication date: 2016-07-20

Abstract

本发明涉及互联网应用领域，具体为一种简历信息的抽取解析转换方法，包括，计算机读入存放简历的文件路径，读取文件流，抽取出文本内容，输出一个大文本字符串，读入抽取的大文本字符串，进行解析，将解析出的简历信息组成简历信息模型；本发明用计算机实现简历的信息的抽取解析转换，相比人工，速度更快，可以达到人工效率的100倍以上，同时文件简历被自动转换为统一的格式还会方便日后的查询或者信息再利用。

Description

一种简历信息的抽取解析转换方法

技术领域

本发明涉及互联网应用领域，具体为一种简历信息的抽取解析转换方法。

背景技术

简历是求职者给招聘单位的自己个人信息简要介绍，包含基本信息：姓名、性别、年龄、籍贯、居住地、政治面貌、学历、联系电话、email、工作经验、身份证号等，以及自我评价、工作经历、实践经历、项目经历、学习经历、培训经历、求职期望、证件、荣誉、特长等，现在的互联网渗透率高，很多人找工作都是通过网络投递简历，但是通过网络投递的简历各式各样，这对于收简历的这些企业来说，查看处理这些简历是一个很大的工作量，由于每个人的简历内容没有统一格式，对企业来说，怎样将这些通过各种渠道获取的各式各样的简历管理起来，使其发挥它们更大的价值一直是企业人资比较头疼的一件事情。

发明内容

简历是求职者给招聘单位的自己个人信息简要介绍，包含基本信息：姓名、性别、年龄、籍贯、居住地、政治面貌、学历、联系电话、email、工作经验、身份证号等，以及自我评价、工作经历、实践经历、项目经历、学习经历、培训经历、求职期望、证件、荣誉、特长等，现在的互联网渗透率高，很多人找工作都是通过网络投递简历，但是通过网络投递的简历各式各样，这对于收简历的这些企业来说，查看处理这些简历是一个很大的工作量，由于每个人的简历内容没有统一格式，对企业来说，怎样将这些通过各种渠道获取的各式各样的简历管理起来，使其发挥它们更大的价值一直是企业人资比较头疼的一件事情。本发明提供一种简历信息的抽取解析转换方法，可以将不同来源、不同格式的文件简历抽取解析转换成统一的信息格式，方便日后查询和信息再利用。

为了达到上述目的，本发明采用以下技术方案，包括：

抽取：计算机读入存放简历的文件路径，读取文件流，抽取出文本内容，输出一个大文本字符串，支持的文件格式包括但不限于txt、doc、docx、xls、xlsx、pdf、html、htm和mht。

解析：计算机读入上一步抽取的大文本字符串，进行解析。

进一步地，在解析时的具体逻辑原理如下：将简历按照语义拆分成信息段的集合，将涵盖多条记录的负责信息段解析成普通信息段集合，解析信息段按照先易后难、先准确后模糊的原则进行。

具体地：

1、先将简历按照语义上（基本信息、自我评价、工作经历、实践经历、项目经历、学习经历、培训经历、求职期望、证件、荣誉、特长）拆分成信息段的集合；

2、如果信息段比较复杂，涵盖多条记录，如像工作经历、项目经历、学习经历这样的有可能是多条信息的复杂信息段，则先解析成普通信息段（一个普通信息段对应一条记录）的集合；

3、解析信息段按照先易后难、先准确后模糊的原则进行，如基本信息的解析，会先解析性别、电话、email、身份证号、学历、政治面貌等容易被准确解析的信息字段，然后再解析籍贯、居住地等较复杂的信息字段，然后再解析年龄（如简历没有年龄信息，但是提供了生日信息，则可以算出年龄信息）和工作经验（如简历没有工作经验信息，但是提供了开始工作年份，则可以算出工作经验）等字段，最后才是姓名字段。

转换：将解析出的简历的信息按照基本信息（涵盖：姓名、性别、年龄、籍贯、居住地、政治面貌、学历、联系电话、EMail、工作经验、身份证号等字段）、工作经历集(每条工作经历信息涵盖：工作单位名称、起止时间、单位的性质、行业、规模、所在部门、岗位、薪资、工作描述等字段)、项目经历集(每条项目经历信息涵盖：项目名称、起止时间、项目描述等字段)、教育经历集(每条教育经历信息涵盖：学校名称、起止时间、学历、专业等)、自我评价、实践经历、培训经历、求职期望、证件、荣誉、特长等组装成一个简历的信息模型。

本发明的有益效果是：本发明用计算机实现简历的信息的抽取解析转换，相比人工，速度更快，可以达到人工效率的100倍以上，同时文件简历被自动转换为统一的格式还会方便日后的查询或者信息再利用。

附图说明

图1为本发明的一种简历信息的抽取解析转换方法的流程图。

具体实施方式

本发明提供一种计算机实现的文件简历的信息的抽取解析转换方法，可以将不同来源（可以是各个招聘网站的简历，也可以是求职者自制的简历）不同格式（支持txt、doc、docx、xls、xlsx、pdf、html、htm、mht等文件格式）的文件简历抽取解析转换成统一的信息格式。

本发明可以是操作单个文件简历，也可以操作批量文件简历，但具体逻辑步骤是一样的，为了使本技术领域的人员更好的理解本申请中的技术方案，下面将结合附图和实施例来对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请的一部分实施例，基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

一种简历信息的抽取解析转换方法，其详细实施方式如图1所示：

在步骤S100中，计算机读入存放简历的文件路径，读取文件流，抽取出文本内容，输出一个大文本字符串。

在步骤S200中，计算机读入上一步抽取的大文本字符串，进行解析。

在步骤S300中，将解析出的简历信息组成简历信息模型。

进一步的，在步骤S200中，具体逻辑原理为：

将简历按照语义拆分成信息段的集合，将涵盖多条记录的负责信息段解析成普通信息段集合，解析信息段按照先易后难、先准确后模糊的原则进行。

具体地，将简历按照基本信息、自我评价、工作经历、实践经历、项目经历、学习经历、培训经历、求职期望、证件、荣誉和特长拆分成信息段的集合；

将工作经历、项目经历、学习经历、培训经历可能是多条信息的复杂信息段先解析成普通信息段的集合，一个普通信息段对应一条记录；

解析信息段按照先易后难、先准确后模糊的原则进行，基本信息的解析会先解析性别、电话、email、身份证号、学历、政治面貌、等容易被准确解析的信息字段，然后再解析籍贯、居住地等较复杂的信息字段，然后再解析年龄（如简历没有年龄信息，但是提供了生日信息，则可以算出年龄信息）和工作经验（如简历没有工作经验信息，但是提供了开始工作年份，则可以算出工作经验）等字段，最后才是姓名字段。

信息字段的匹配抽取依赖于一个强大的字典库和一个复杂算法，这些也都涵盖在本发明内。

具体地，在步骤S300中，将解析出的简历的信息按照基本信息（涵盖：姓名、性别、年龄、籍贯、居住地、政治面貌、学历、联系电话、EMail、工作经验、身份证号等字段）、工作经历集(每条工作经历信息涵盖：工作单位名称、起止时间、单位的性质、行业、规模、所在部门、岗位、薪资、工作描述等字段)、项目经历集(每条项目经历信息涵盖：项目名称、起止时间、项目描述等字段)、教育经历集(每条教育经历信息涵盖：学校名称、起止时间、学历、专业等)、自我评价、实践经历、培训经历、求职期望、证件、荣誉、特长等组装成一个简历的信息模型。

本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明，因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

Claims

1.一种简历信息的抽取解析转换方法，其特征在于，包括：

在步骤S100中，计算机读入存放简历的文件路径，读取文件流，抽取出文本内容，输出一个大文本字符串；

在步骤S200中，计算机读入上一步抽取的大文本字符串，进行解析；

在步骤S300中，将解析出的简历信息组成简历信息模型。

2.根据权利要求1所述的一种简历信息的抽取解析转换方法，其特征在于，在步骤S200中的逻辑原理为，将简历按照语义拆分成信息段的集合，将涵盖多条记录的负责信息段解析成普通信息段集合，解析信息段按照先易后难、先准确后模糊的原则进行。

3.根据权利要求2所述的一种简历信息的抽取解析转换方法，其特征在于，将简历按照基本信息、自我评价、工作经历、实践经历、项目经历、学习经历、培训经历、求职期望、证件、荣誉和特长拆分成信息段的集合；

将工作经历、项目经历、学习经历和培训经历是多条信息的复杂信息段先解析成普通信息段的集合，一个普通信息段对应一条记录。

4.根据权利要求1所述的一种简历信息的抽取解析转换方法，其特征在于，在步骤S300中，将解析出的简历的信息按照基本信息（涵盖：姓名、性别、年龄、籍贯、居住地、政治面貌、学历、联系电话、EMail、工作经验和身份证号字段）、工作经历集(每条工作经历信息涵盖：工作单位名称、起止时间、单位的性质、行业、规模、所在部门、岗位、薪资和工作描述字段)、项目经历集(每条项目经历信息涵盖：项目名称、起止时间和项目描述字段)、教育经历集(每条教育经历信息涵盖：学校名称、起止时间、学历和专业)、自我评价、实践经历、培训经历、求职期望、证件、荣誉和特长组装成一个简历的信息模型。