CN109948120A

CN109948120A - 一种基于二元化的简历解析方法

Info

Publication number: CN109948120A
Application number: CN201910260863.5A
Authority: CN
Inventors: 钟实; 陈少燕; 潘志锋
Original assignee: Shenzhen Qianhai Huan Que Technology Co Ltd
Current assignee: Shenzhen Qianhai Huan Que Technology Co Ltd
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2019-06-28
Anticipated expiration: 2039-04-02
Also published as: CN109948120B

Abstract

本发明公开了一种基于二元化的简历解析方法包括：批量读入简历；把批量读入简历的转换成HTML以及TXT文本格式；判断转换成HTML格式的简历是否可以套用简历精确识别模板；根据正则表达式的方法，利用XPATH对转化成HTML文本格式的简历信息进行解析，并对解析后的简历信息进行评分，判断是否高于预定义的阈值；利用TensorFlow构建的BI‑LSTM‑CRF机器学习模型进行简历信息命名实体提取；利用标签字典及结合命名实体提取识别出简历信息，进行简历信息各个板块切割；遍历各个简历板块内容，利用数据链表存储提取出的简历信息内容；将经过简析的简历信息用JSON或XML结构化数据进行存储。本发明可以在有限的简历样本的基础上，实现对简历信息的精准识别。

Description

一种基于二元化的简历解析方法

技术领域

本发明涉及的是简历解析方法，具体而言，尤其涉及一种基于二元化的简历解析方法。

背景技术

简历解析，可以归类为自然语言处理(Natural Language Processing)的一个任务集，其中一个重要部分是命名实体识别(NER)，在简历分析的任务，需要识别出待处理简历文本中包括：人名，邮件地址，电话号码，籍贯，教育经历中的学校、专业、日期，工作经历中的职位、公司名称、日期等各种信息。

现有技术中的同类简历解析技术，主要有如下几种方式：(1)专利CN105787047A公开的一种简历信息的抽取解析转换方法，其包括计算机读入存放简历的文件路径，读取文件流，抽取出文本内容，输出一个大文本字符串，读入抽取的大文本字符串，进行解析，将解析出的简历信息组成简历信息模型；(2)专利CN107145584A公开了一种基于n gram模型的简历解析方法，该方法为：预先收集简历样本，将常用字段关键词划分为不同类别形成分类词典，采用n gram模型统计出每一常用字段关键词转变到各样本关联词的转移概率，查找待解析简历中与常用字段关键词相匹配的目标关键词，如果目标关键词对应的转移概率大于预定阈值，根据目标关键词更新每一常用字段关键词对应的转移概率，并对待解析简历中的有效关键词增加前缀标注和后缀标注，对待解析简历的文本内容进行分段提取并输出；(3)专利CN107392143A公开了一种基于SVM文本分类的简历精确解析方法，其包括：一、在.net framework下操作Microsoft office，将各种格式的简历文件转换为PDF格式，再由PDF转换为xml格式文件；二、提取xml格式下各简历文本行的标签并生成相应的特征向量；三、对各简历文本行进行标注，根据标注值和各简历文本行对应的特征向量采用SVM进行分类训练，得到分类器；四、根据得到的分类器对各简历进行切割，并分块解析提取信息，从而完成各简历的精确解析。

以上这三种技术都存在着一定的局限性，要想在实用层面达到简历解析的目标存在着一定的障碍，主要是：专利CN105787047A并没有提出信息抽取的具体算法模型，提出的只是概念性的方案：匹配提取过于依赖于强大的字典库和复杂的算法模型，而需要建立这么高水准的字典库和算法模型难度非常大；专利CN107145584A主要针对有明确来源的简历，这种简历往往都是按照预定的标准格式，简历的各大模块都有信息提示前缀关键词，可以依据前缀关键词生成前缀词典，用于协助确认简历关键词的内容分割提取，但对于没有明确来源的简历，而这些往往占据简历的大部分，内容前并没有信息提示前缀关键词，采用此方法，无法有效提取出简历信息；专利CN107392143A利用SVM来尝试识别XML标签内简历信息，但是因为XML模板差异很大，在样本有限的前提下进行解析训练，标签识别成功率较低，这就要求要有海量的样本进行解析训练，这在现实应用中是比较难实现的。因此，鉴于上述多个方案于实际实施过程上的缺失之处，而加以修正、改良，同时本着求好的精神及理念，并由专业的知识、经验的辅助，以及在多方巧思、试验后，方创设出本设计，故提供一种基于二元化的简历解析方法，用于解决在实用层面达到简历解析的目标的问题。

发明内容

本发明的目的在于提供一种基于二元化的简历解析方法，以便于解决在实用层面达到简历解析的目标的问题。

本发明一种基于二元化的简历解析方法可以通过下列技术方案来实现：

本发明一种基于二元化的简历解析方法包括：step1，批量读入简历；step2，把批量读入简历的转换成HTML以及TXT文本格式；Step3，判断转换成HTML文本格式的简历信息是否可以套用简历精确识别模板，如果可以就跳到Step4，如果不可以就跳到Step5；Step4，根据正则表达式的方法，利用XPATH对转化成HTML文本格式的简历信息进行解析，并对解析后的简历信息进行评分，判断是否高于预定义的阈值，若评分高于预定义的阈值，则跳到Step8，若评分低于预定义的阈值，则跳转到Step5；Step5，利用TensorFlow构建的BI-LSTM-CRF机器学习模型进行简历信息命名实体提取；Step6，利用标签字典及结合命名实体提取识别出简历信息，进行简历信息各个板块切割；Step7，遍历各个简历板块内容，利用数据链表存储提取出的简历信息内容；Step8，将经过简析的简历信息用JSON或XML结构化数据进行存储。

优选地，在step1中，通过提供WEB接口形式，接受经HTTP POST请求传入的简历信息。

优选地，所述简历信息为单个简历文件时，则读取指定目录内的所述单个简历文件。

优选地，所述简历信息为批量简历压缩包时，则读取指定目录内的所述批量简历压缩包，调用相关解压程序，将所述批量简历压缩包发送到解压的队列中进行解压。

优选地，在step2中，利用文本转换工具Libreoffice及PDF to TXT分别将简历源文档转换成HTML以及TXT文本格式。

优选地，简历源文档为MHT、docx、doc或者PDF文本格式。

优选地，在step5中，采用Python语言下包含GPU加速的TensorFlow版本。

优选地，在step5中，基于BI-LSTM-CRF的模型构造一个混合了大量不同类型的简历信息的语料标注库，其采用人工或者半自动方式标注语料库，基于标注好的语料库，生成一个训练模型，在这个训练模型中，采用类似双层长短记忆网络(BI-LSTM)来表示每个词，这个词向量由两部分合并，一部分是基于中文维基语料库并利用GloVe训练的出来的词向量另一部分，是字符级别的向量该训练模型的下面一层是CRF层，进行句子级的序列标注，通过挖掘词与相邻词的标识的相互影响关系。

优选地，在step6中，各个板块包括基本信息、求职意向、自我评估、教育经历、工作经历、项目经验、实习经历、培训经历和语言能力。

本发明一种基于二元化的简历解析方法具有以下技术效果：

本发明一种基于二元化的简历解析方法通过结合规则类算法和深度学习算法，引入二元解析方法，一方面针对符合相对标准格式的简历，采用正则表达式模板来精确解析；另一方面对于无法明确来源进行匹配的简历，则会使用BI-LSTM-CRF模型的深度学习算法再进行命名实体提取的二元简历信息提取，有效的规避了单纯使用一种算法存在的缺陷，兼具规则类模型的信息识别精确性及深度学习模型的良好适应性两方面的优势，可以达到有效精确提取简历信息的目标，具有良好的实用性；同时通过这种方法，可以在有限的简历样本的基础上，实现对简历信息的精准识别。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明所提供的一种基于二元化的简历解析方法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和展示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，在本发明中，除非另有明确的规定和限定，第一特征在第二特征之上或之下可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征之上、上方和上面包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征之下、下方和下面包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

此外，术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

请参阅图1，本发明一种基于二元化的简历解析方法包括：step1，批量读入简历；此步骤主要负责将简历信息读入到系统中：通过提供WEB接口形式，接受经HTTP POST请求传入的单个简历文件或者通过ZIP/RAR等格式的批量简历压缩包；读取指定目录内的单个简历文件或者批量简历压缩包；如果读取的是批量简历压缩包，调用相关解压程序，将批量简历压缩包发送到解压的队列中进行解压。

step2，把批量读入简历的转换成HTML以及TXT文本格式；利用文本转换工具Libreoffice及PDF to TXT分别将简历源文档(MHT、docx、doc、PDF)转换成HTML以及TXT文本格式。

Step3，判断转换成HTML文本格式的简历信息是否可以套用简历精确识别模板；如果可以套用简历精确识别模板就跳到Step4；如果不可以套用简历精确识别模板就跳到Step5。

Step4，根据正则表达式的方法，利用XPATH对转化成HTML文本格式的简历信息进行解析，并对解析后的简历信息进行评分，判断是否高于预定义的阈值。XPATH是XML路径语言(XML Path Language)，它是一种用来确定XML文档中某部分位置的语言；利用XPATH基于XML的树状结构，提供在数据结构树中找寻节点的能力，在转换后得到的HTML(类XML)文本格式的简历信息，通过XPATH来定位某些特定的信息(称为简历签名)；利用XPATH对HTML文本格式的简历信息进行不同板块的分割，针对不同的板块进行信息识别提取，通用的简历格式包含的模块一般主要有：基本信息、求职意向、自我评估、教育经历、工作经历、项目经验、实习经历、培训经历、语言能力和奖项；可以针对这些模块特点分别进行信息提取的处理，可以分成基本信息类：利用先导的关键字，判定关键字后面信息的内容，例如姓名，出生日期等进行实际信息提取；经历类(教育经历、工作经历，项目经验、实习经历、培训经历等)：用正则表达式来提取内容块的日期范围，同时利用相对日期的位置配合XPATH来提取公司名、职位名称、工作描述等对应内容；同时对解析后的简历信息进行评分，若评分高于预定义的阈值，则跳到Step8；若评分低于预定义的阈值，则跳转到Step5。

Step5，利用TensorFlow构建的BI-LSTM-CRF机器学习模型进行简历信息命名实体提取。采用Tensorflow构建简历信息解析机器学习框架，为了加速机器学习的效率，在本实施例中，选用GPU作为加速器的硬件设备，因而选用了Python语言下包含GPU加速的TensorFlow版本(tensorflow-gpu)；要实现基于BI-LSTM-CRF的模型进行对公司名称、职位、日期、人名、学校名称以及专业等简历信息的命名实体识别，首先需要构造一个混合了大量不同类型的简历信息的语料标注库，采用人工或者半自动方式标注语料库；基于标注好的语料库，生成一个训练模型，在这个训练模型中，为了尽量捕捉每个词的信息，我们使用类似双层长短记忆网络(BI-LSTM)来表示每个词，这个词向量由两部分合并，一部分是基于中文维基语料库并利用GloVe训练的出来的词向量另一部分，是字符级别的向量该训练模型的下面一层是CRF层，进行句子级的序列标注，通过挖掘词与相邻词的标识的相互影响关系，提升预测结果的正确性；BI-LSTM-CRF模型可以在机器学习框架Tensorflow中进行训练，经过调整优化语料库，可以得到一个可用的简历信息提取模型。

Step6，利用标签字典及结合命名实体提取识别出简历信息，进行简历信息各个板块切割。转化后的TXT文本格式的简历信息输入到经过训练的BI-LSTM-CRF模型，结合标签字典以及命名实体提取信息，来定位各个简历板块的标签及各个板块起始位置，根据定位信息，把简历信息切割各个板块，各个板块包括基本信息、求职意向、自我评估、教育经历、工作经历、项目经验、实习经历、培训经历、语言能力和奖项。

Step7，遍历各个简历板块内容，利用数据链表存储提取出的简历信息内容。

Step8，将经过简析的简历信息用JSON或XML结构化数据进行存储。

本发明一种基于二元化的简历解析方法与现有技术相比，具有的有益效果为：

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，应包含在本发明的保护范围之内。

Claims

1.一种基于二元化的简历解析方法，其特征在于，其包括：step1，批量读入简历；step2，把批量读入简历的转换成HTML以及TXT文本格式；Step3，判断转换成HTML文本格式的简历信息是否可以套用简历精确识别模板，如果可以就跳到Step4，如果不可以就跳到Step5；Step4，根据正则表达式的方法，利用XPATH对转化成HTML文本格式的简历信息进行解析，并对解析后的简历信息进行评分，判断是否高于预定义的阈值，若评分高于预定义的阈值，则跳到Step8，若评分低于预定义的阈值，则跳转到Step5；Step5，利用TensorFlow构建的BI-LSTM-CRF机器学习模型进行简历信息命名实体提取；Step6，利用标签字典及结合命名实体提取识别出简历信息，进行简历信息各个板块切割；Step7，遍历各个简历板块内容，利用数据链表存储提取出的简历信息内容；Step8，将经过简析的简历信息用JSON或XML结构化数据进行存储。

2.根据权利要求1所述的一种基于二元化的简历解析方法，其特征在于，在step1中，通过提供WEB接口形式，接受经HTTP POST请求传入的简历信息。

3.根据权利要求2所述的一种基于二元化的简历解析方法，其特征在于，所述简历信息为单个简历文件时，则读取指定目录内的所述单个简历文件。

4.根据权利要求2所述的一种基于二元化的简历解析方法，其特征在于，所述简历信息为批量简历压缩包时，则读取指定目录内的所述批量简历压缩包，调用相关解压程序，将所述批量简历压缩包发送到解压的队列中进行解压。

5.根据权利要求1所述的一种基于二元化的简历解析方法，其特征在于，在step2中，利用文本转换工具Libreoffice及PDF to TXT分别将简历源文档转换成HTML以及TXT文本格式。

6.根据权利要求5所述的一种基于二元化的简历解析方法，简历源文档为MHT、docx、doc或者PDF文本格式。

7.根据权利要求1所述的一种基于二元化的简历解析方法，其特征在于，在step5中，采用Python语言下包含GPU加速的TensorFlow版本。

8.根据权利要求1所述的一种基于二元化的简历解析方法，其特征在于，在step5中，基于BI-LSTM-CRF的模型构造一个混合了大量不同类型的简历信息的语料标注库，其采用人工或者半自动方式标注语料库，基于标注好的语料库，生成一个训练模型，在这个训练模型中，采用类似双层长短记忆网络(BI-LSTM)来表示每个词，这个词向量由两部分合并，一部分是基于中文维基语料库并利用GloVe训练的出来的词向量另一部分，是字符级别的向量该训练模型的下面一层是CRF层，进行句子级的序列标注，通过挖掘词与相邻词的标识的相互影响关系。

9.根据权利要求1所述的一种基于二元化的简历解析方法，其特征在于，在step6中，各个板块包括基本信息、求职意向、自我评估、教育经历、工作经历、项目经验、实习经历、培训经历和语言能力。