CN108664474B

CN108664474B - 一种基于深度学习的简历解析方法

Info

Publication number: CN108664474B
Application number: CN201810489651.XA
Authority: CN
Inventors: 马龙; 雷画雨; 姚卓君
Original assignee: Zhongan Information Technology Service Co Ltd
Current assignee: Zhongan Information Technology Service Co Ltd
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2023-04-18
Anticipated expiration: 2038-05-21
Also published as: CN108664474A

Abstract

本发明公开了一种基于深度学习的简历解析方法，其包括以下步骤：数据预处理：将简历统一转换为文本格式，确定简历的内容分段标签，并将简历文本按行进行数据标记；模型训练：利用神经网络将简历文本按行表达为一个固定长度的向量，在获得行向量后，根据所述行向量对简历进行内容分段；信息提取：在完成内容分段后，从指定的内容段中提取标签字段，获得相关信息。通过本技术方案，能够提高解析简历以及信息提取准确度。

Description

一种基于深度学习的简历解析方法

技术领域

本发明涉及信息提取技术领域，尤其涉及一种基于深度学习的简历解析方法。

背景技术

现实生活中，许多公司的人力资源部门都会囤积到大量人才的简历，经整理收集成为简历库。但是简历文本并不是一个完全结构化的内容，它的模板多种多样，格式花样层出不穷，因而在分类整理和精确检索上存在非常多的困难。因此，许多公司花大价值收集而来的简历库，通常难以充分发挥价值。为了能够充分利用简历库，需要将简历按照标签整理为结构化的内容，例如：姓名，电话，邮箱，学历，毕业院校，工作经历，职业标签，职位意向，技术特征，等等。而这，催生了简历解析技术的需求。简历解析，就是针对各种不同格式的简历，按照要求提取结构化字段的过程，是后续进一步的人才职位匹配工作的基础，也是充分利用简历库，节约成本的有效方式。

但是简历文本在逻辑上，有着它固有的特点：内容上它通常是呈分段排列。目前，有通过传统的机器学习技术来对文本进行分段，但这种分段方法和提取信息的错误率较高，不能满足于相关技术领域对于准确率的要求。

因此，一种更准确科学的分段方法，在根据此分段方法从不同内容的分段中提取相应的实体信息，成为相关领域需要解决的技术问题之一。

发明内容

为了克服现有技术的不足，本发明所解决的技术问题是提供一种能够提高信息提取效率的基于深度学习的简历解析方法。

为解决上述技术问题，本发明所采用的技术方案内容具体如下：

一种基于深度学习的简历解析方法，其包括以下步骤：

数据预处理：将简历统一转换为文本格式，确定简历的内容分段标签，并将简历文本按行进行数据标记；

模型训练：利用RNN神经网络将简历文本按行表达为一个固定长度的向量从而获得行向量，并根据所述行向量对简历进行内容分段；

信息提取：在完成内容分段后，从指定的内容段中提取标签字段，获得相关信息。

为提高简历解析的效率，提高信息提取的准确度，在本技术方案中，发明人通过利用RNN神经网络，将简历文本中的每一行文本都通过深度学习模型编码为行向量。利用行向量实现对简历进行内容分段，其好处在于能够将语义特征用一个实数向量的方式表达出来，从而方便后续处理，提高信息处理的效率。

进一步地，利用行向量进行表述，能够对任意不规范形式的简历进行信息提取，不需局限于简历的格式，一方面方便后续处理，另一方面也提高了处理方法的适用性；

更进一步地，采用此方案，还能达到降低人工特征工程工作量的技术目的，无需通过人工对简历信息进行分类，提高提取效率。在本技术方案中，并不需要通过特定的格式文件的标记，例如xml，html等各种特殊标记来作为特征，也不需要通过特征工程来提取特征，我们只需要通过深度学习模型训练出每个符号对应的符号向量。这样的好处是既减少了特征工程的工作量，又充分利用了语言的有序性特点，对提高准确性和减少工作量很有帮助。

优选地，在所述模型训练步骤中，将简历文本按行表达为一个固定长度的向量的步骤包括：

获取符号向量：对所述简历文本中的每个符号表示为一个固定长度的实数向量；

获取行向量：通过神经网络根据构成该行文本的所述符号向量，依据时序来训练成一个固定长度的向量，得到行向量。

作为一种优选的实施方式，在本方案中，发明人一方面通过对所述简历文本中的每个符号表示为一个固定长度的实数向量，这一过程可以达到的有益效果是每个符号表达的特征及其相关性能够通过实数向量完整表达出来；另一方面，在得到行向量的是通过神经网络根据构成该行文本的所述符号向量，依据时序来训练而获得，这种方式能够在不丢失句子序列信息的情况下，提取特征。

更优选地，在所述获取符号向量步骤中，简历文本中的所述符号包括中文字符、英文字符、数字字符、标点字符、制表符、空格符中的一种或多种。

需要说明的是，采用符号向量能够最大化利用简历文本中的各种特征，因为不同的内容段，不仅仅是表达的内容有区别，采用的标点符号，空格多少，制表符美化等，都成为了构成差异的特征。采用符号向量则充分提取了这些特征，使得提取的准确率和效果更好。

优选地，在所述模型训练步骤中，在将简历文本按行表达为一个固定长度的向量时，还对该行文本设定一个上下文窗口k。

更优选地，所述内容分段的步骤包括：

以所述行向量对应的行为基准，获取该行的前k行文本，以及获取该行的后k行文本；

通过神经网络将所述文本行表达成2k+1个行向量，然后将所述2k+1个行向量合并成一个向量，并输入到分类器中进行类别判定以实现内容分段。

作为一种优选的实施方式，在获取行向量的过程当中，还包括对该行文本设定一个上下文窗口k，即结合该行文本的前k行(上文)，以及后k行(下文)进行类别判定，从而完成该行文本的内容分段。通过本技术方案，能够充分利用该行文本的上下文内容来进行分类决策，由于人类的行文习惯，通常一行句子都会和上下文构成关系，或承前，或启后，因此采取此种方式可以大幅提高了预测结果的准确性。

进一步地，将所述2k+1个行向量合并成一个向量的方式是加权求和或者直接串联。

需要说明的是，在合并向量的过程中，采用加权求和的方式具有的有益效果是降低参数数量，减少训练时间；采用直接串联的方式具有的有益效果是充分利用了每行文本的特征，将会有更高的准确率。

优选地，在信息提取步骤中，提取标签字段的方法是NER。NER是提取标签字段的标准方式。

优选地，在所述模型训练步骤中所述RNN神经网络是LSTM或GRU。

优选地，在所述数据预处理步骤中，所述文本格式是txt格式。

需要说明的是，采用txt的格式可以使得后续处理更为简便，处理速度更高。在其他的一些实施方式中，其他文本格式如doc、docx、wps等，也均可适用在本技术方案当中。

与现有技术相比，本发明的有益效果在于：

1、本发明基于深度学习的简历解析方法，利用行向量实现对简历进行内容分段，从而能够将语义特征用一个实数向量的方式表达出来，从而方便后续处理，提高信息处理的效率；进一步地，能够对任意不规范形式的简历进行信息提取，不需局限于简历的格式，进而更进一步地方便后续处理。

2、本发明基于深度学习的简历解析方法，一方面通过对所述简历文本中的每个符号表示为一个固定长度的实数向量，这一过程可以达到的有益效果是每个符号表达的特征及其相关性能够通过实数向量完整表达出来；

3、本发明基于深度学习的简历解析方法，在得到行向量的是通过神经网络根据构成该行文本的所述符号向量，依据时序来训练而获得，这种方式能够在不丢失句子序列信息的情况下，提取特征；

4、本发明基于深度学习的简历解析方法，采用符号向量能够最大化利用简历文本中的各种特征，。采用符号向量则充分提取了这些特征，使得提取的准确率和效果更好；

5、本发明基于深度学习的简历解析方法，采用上下文窗口的模式，充分利用了简历文本的上下文相关性，大大提高了预测结果准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1为本发明基于深度学习的简历解析方法的基础实施方式的流程步骤示意图；

图2为本发明基于深度学习的简历解析方法获取符号向量方式的一种优选实施方式的示意图；

图3为本发明基于深度学习的简历解析方法获取行向量方式的一种优选实施方式的示意图；

图4为本发明基于深度学习的简历解析方法所述行向量对简历进行内容分段方式的一种优选实施方式的示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明的具体实施方式、结构、特征及其功效，详细说明如下：

实施例1

如图1所示是为本发明基于深度学习的简历解析方法的基础实施方式的流程步骤示意图，该方法包括：

在本技术方案中，发明人通过利用RNN神经网络，将简历文本中的每一行文本都通过深度学习模型编码为行向量。利用行向量实现对简历进行内容分段，其好处在于能够将语义特征用一个实数向量的方式表达出来，从而方便后续的内容分段处理，提高信息处理的效率，进而实现提高简历解析的效率。

实施例2

本实施例列举在一种具体的实施方式当中，上述过程实现方式：

(1)数据预处理：

首先将简历统一转换为txt文本格式(仅仅是内容文本，不包含格式文件的标记字符，例如xml标记，html标记等，这样具有通用性，不局限于某种特定格式的简历)，并确定简历的内容分段标签(例如：可分为个人信息段，教育经历段，项目经历段，工作经历段等)，将简历文本按行进行数据标记，例如：

内容	标签
		姓名：xx性别：男	个人信息
电话：15573223342	个人信息
		2000.9-2004.6清华大学自动化本科	教育经历
2004.9-2006.6北京大学理论物理硕士	教育经历

(2)模型训练：

首先获取符号向量：对所述简历文本中的每个符号表示为一个固定长度的实数向量；即简历文本中的每个符号(包括汉字,英文符号,标点,序号,空格等)都可表示为一个固定长度的实数向量，如图2所示，以“我”字为例，被表达成了一个向量。

然后，获取行向量：通过神经网络根据构成该行文本的所述符号向量，依据时序来训练成一个固定长度的向量，得到行向量。例如图3，一行文字“毕业院校”由符号向量X₀，X₁，X₂，X₃根据时序一次输入RNN单元，进而编码成行向量h₃。

接着进行内容分段，在获得了行向量后，我们根据得到的行向量来进行简历的内容分段。假设我们对简历文本中的某一行进行分类，取窗口大小为K，那么模型的输入分别为：该行文本的前K行(上文)，该行文本，以及该行文本的后K行(下文)。通过RNN将这些文本行表达成2K+1个行向量，继而通过加权求和或者直接串联等方式，将这2K+1个行向量合并成一个向量，并输入到分类器中进行类别判定，这样就完成了该行文本的内容分段，这样做的一个好处就是充分利用了该行文本的上下文内容来进行分类决策。如图4所示是取K＝1的情况(包含当前行文本，以及一行上文和一行下文)。

图4为判断“电话:15573223342”这行文本的类别，它的上文为“姓名:xx性别：男”，下文为:“2000.9-2004.6清华大学自动化本科”，三行文本一起输入到深度学习模型中，最终得出“电话：15573223342”的类别为“个人信息”。

(3)信息提取：对已有的内容分段后，从指定的内容段中提取标签。可以采用基于规则和基于命名实体识别的方法，并结合领域知识从指定的内容段中提取特定实体标签。例如从个人信息中提取姓名，电话，性别等信息，从教育经历中提取学历、学位等。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种基于深度学习的简历解析方法，其特征在于，其包括以下步骤：

信息提取：在完成内容分段后，从指定的内容段中提取标签字段，获得相关信息；

其中，利用RNN神经网络将简历文本按行表达为一个固定长度的向量从而获得行向量，包括：

获取行向量：通过神经网络根据构成该行文本的所述符号向量，依据时序来训练成一个固定长度的向量，得到行向量；

在所述模型训练步骤中，在将简历文本按行表达为一个固定长度的向量时，还对该行文本设定一个上下文窗口k；

其中，所述内容分段的步骤包括：

2.如权利要求1所述的基于深度学习的简历解析方法，其特征在于，在所述获取符号向量步骤中，简历文本中的所述符号包括中文字符、英文字符、数字字符、标点字符、制表符、空格符中的一种或多种。

3.如权利要求1所述的基于深度学习的简历解析方法，其特征在于，将所述2k+1个行向量合并成一个向量的方式是加权求和或者直接串联。

4.如权利要求1所述的基于深度学习的简历解析方法，其特征在于，在信息提取步骤中，提取标签字段的方法是NER。

5.如权利要求1-4任一项所述的基于深度学习的简历解析方法，其特征在于，在所述模型训练步骤中，所述RNN神经网络是LSTM或GRU。

6.如权利要求1-4任一项所述的基于深度学习的简历解析方法，其特征在于，在所述数据预处理步骤中，所述文本格式是txt格式。