CN110442841B

CN110442841B - 识别简历的方法及装置、计算机设备、存储介质

Info

Publication number: CN110442841B
Application number: CN201910534813.1A
Authority: CN
Inventors: 石明川; 姚飞
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2024-02-02
Anticipated expiration: 2039-06-20
Also published as: CN110442841A; WO2020252919A1

Abstract

本发明实施例提供了一种识别简历的方法及装置、计算机设备、存储介质。一方面，该方法包括：接收待识别的目标简历；将所述目标简历输入到深度神经语言程序学DNLP系统，其中，所述DNLP系统是采用双向长短时记忆循环神经网络BI‑LSTM‑CRF模型训练得到的；使用所述DNLP系统确定所述目标简历使用的简历模板；按照所述简历模板提取所述目标简历中的特征信息。通过本发明，解决了现有技术中简历识别率低的技术问题。

Description

识别简历的方法及装置、计算机设备、存储介质

【技术领域】

本发明涉及计算机领域，尤其涉及一种识别简历的方法及装置、计算机设备、存储介质。

【背景技术】

简历识别是属于一种半结构化文本识别，因其没有传统非结构化文本的自然语序概念，所以识别困难。

现有技术中的简历识别系统，是基于关键字的一种识别系统。比如"人名"，"手机号码"，"工作经历"等等，但是半结构文本中若不存在这些关键词，传统的简历识别系统则无法识别对应的语料。在现有技术进行简历识别时，基于关键词识别，通常采用正则表达式进行。期间包含各种简历格式带来识别困难的问题。比如：人名关键词后紧跟的是简历的人名，但是人名也存在字数、中英文、空格等一系列问题，简历中可能包括多个人名，多个时间段等，往往存在工作经历和项目经历的中识别混乱问题，因为这部分在简历中没有统一的格式，这样导致简历的识别率非常低下，还需要通过人工来辅助筛选。

针对相关技术中存在的上述问题，目前尚未发现有效的解决方案。

【发明内容】

有鉴于此，本发明实施例提供了一种识别简历的方法及装置、计算机设备、存储介质。

一方面，本发明实施例提供了一种识别简历的方法，所述方法包括：接收待识别的目标简历；将所述目标简历输入到深度神经语言程序学DNLP系统，其中，所述DNLP系统是采用双向长短时记忆循环神经网络BI-LSTM-CRF模型训练得到的；使用所述DNLP系统确定所述目标简历使用的简历模板；按照所述简历模板提取所述目标简历中的特征信息。

可选的，在将所述目标简历输入到深度神经语言程序学DNLP系统之前，所述方法还包括：确定多个简历样本；使用所述多个简历样本训练BI-LSTM-CRF模型的初始神经网络，得到所述DNLP系统。

可选的，使用所述多个简历样本训练BI-LSTM-CRF模型的初始神经网络包括：采用监督分类的方式分割每个所述简历样本的简历文本，得到多个可以对应人工标签的文本块，其中，每个文本块对应简历中的一个类别属性；对所述文本块进行分词，并提取每个文本块的特征词；采用所述文本块和对应的特征词训练所述BI-LSTM-CRF模型的初始神经网络。

可选的，采用监督分类的方式分割每个所述简历样本的简历文本包括：分割每个所述简历样本中的以下简历文本：自我介绍、教育经历、工作经历、学习经历、项目经历；使用标签信息标注所述简历文本。

可选的，提取每个文本块的特征词包括：采用词频-逆向文件频率TF-IDF算法提取每个文本块的特征词；其中，tfidf＝tf*idf，每个文本块取tfidf的topn作为特征词，n为大于1的正整数；其中，n_i，j是当前词在文本块d_j中的出现次数，分母是d_j中所有词的出现次数之和，k是i的任一取值；/>|D|为简历样本中的文件总数，|{j：t_i∈d_j}|为包含词语t_i的文件数目。

可选的，采用所述文本块和对应的特征词训练所述BI-LSTM-CRF模型的初始神经网络包括：在所述BI-LSTM-CRF模型的BI层中，利用预训练或随机初始化的embedding矩阵将所述文本块的句子中的每个字由one-hot向量映射为低维稠密的字向量，在输入下一层之前，设置脱离以缓解过拟合；在所述BI-LSTM-CRF模型的LSTM层中，提取句子特征，将一个句子的各个特征词序列作为双向LSTM各个时间步的输入，再将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接，得到完整的隐状态序列，输出pi，其中，pi是归属i标签的概率；在所述BI-LSTM-CRF模型的CRF层中，进行句子级的序列标注，得到线性CRF，其中，所述线性CRF的计算公式中对于句子x的标签等于y的打分为：其中，一个长度等于句子长度的标签序列y＝(y1,y2,...,yn)；利用Softmax得到归一化后的概率为：/>y是所有标签的任一取值。

可选的，在训练所述BI-LSTM-CRF模型的初始神经网络时，在所述BI-LSTM-CRF模型的CRF层中，采用以下最大化对数似然函数对样本数据进行处理：

logP(y^x|x)＝score(x,y^x)-log(∑_y'exp(score(x,y')))；其中，(x,y^x)为训练样本。

另一方面，本发明实施例提供了一种识别简历的装置，所述装置包括：接收模块，用于接收待识别的目标简历；输入模块，用于将所述目标简历输入到深度神经语言程序学DNLP系统，其中，所述DNLP系统是采用双向长短时记忆循环神经网络BI-LSTM-CRF模型训练得到的；确定模块，用于使用所述DNLP系统确定所述目标简历使用的简历模板；提取模块，用于按照所述简历模板提取所述目标简历中的特征信息。

可选的，所述装置还包括：确定模块，用于在所述输入模块将所述目标简历输入到深度神经语言程序学DNLP系统之前，确定多个简历样本；训练模块，用于使用所述多个简历样本训练BI-LSTM-CRF模型的初始神经网络，得到所述DNLP系统。

可选的，所述训练模块包括：分割单元，用于采用监督分类的方式分割每个所述简历样本的简历文本，得到多个可以对应人工标签的文本块，其中，每个文本块对应简历中的一个类别属性；提取单元，用于对所述文本块进行分词，并提取每个文本块的特征词；训练单元，用于采用所述文本块和对应的特征词训练所述BI-LSTM-CRF模型的初始神经网络。

可选的，所述分割单元包括：分割子单元，用于分割每个所述简历样本中的以下简历文本：自我介绍、教育经历、工作经历、学习经历、项目经历；使用标签信息标注所述简历文本。

可选的，所述提取单元包括：提取子单元，用于采用词频-逆向文件频率TF-IDF算法提取每个文本块的特征词；其中，tfidf＝tf*idf，每个文本块取tfidf的top n作为特征词，n为大于1的正整数；其中，n_i，j是当前词在文本块d_j中的出现次数，分母是d_j中所有词的出现次数之和，k是i的任一取值；/>|D|为简历样本中的文件总数，|{j：t_i∈d_j}|为包含词语t_i的文件数目。

可选的，所述训练模块包括：第一处理单元，用于在所述BI-LSTM-CRF模型的BI层中，利用预训练或随机初始化的embedding矩阵将所述文本块的句子中的每个字由one-hot向量映射为低维稠密的字向量，在输入下一层之前，设置脱离以缓解过拟合；第二处理单元，用于在所述BI-LSTM-CRF模型的LSTM层中，提取句子特征，将一个句子的各个特征词序列作为双向LSTM各个时间步的输入，再将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接，得到完整的隐状态序列，输出pi，其中，pi是归属i标签的概率；第三处理单元，用于在所述BI-LSTM-CRF模型的CRF层中，进行句子级的序列标注，得到线性CRF，其中，所述线性CRF的计算公式中对于句子x的标签等于y的打分为：其中，一个长度等于句子长度的标签序列y＝(y1，y2，...，yn)；利用Softmax得到归一化后的概率为：/>y′是所有标签的任一取值。

可选的，所述第三处理单元还包括：处理子单元，用于采用以下最大化对数似然函数对样本数据进行处理：logP(y^x|x)＝score(x，y^x)-log(∑_y′exp(score(x，y′)))；其中，(x，y^x)为训练样本。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，将所述目标简历输入到深度神经语言程序学DNLP系统，并使用所述DNLP系统确定所述目标简历使用的简历模板，最后按照所述简历模板提取所述目标简历中的特征信息，通过先识别简历的模板，再从对应模板中提取特征信息，解决了现有技术中简历识别率低的技术问题，提高了简历的识别率。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的一种识别简历的移动终端的硬件结构框图；

图2是根据本发明实施例的识别简历的方法的流程图；

图3是本发明实施例训练BI-LSTM-CRF模型的流程图；

图4是根据本发明实施例的识别简历的装置的结构框图。

【具体实施方式】

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、服务器、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的一种识别简历的计算机终端的硬件结构框图。如图1所示，计算机终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的识别简历的方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种识别简历的方法，图2是根据本发明实施例的识别简历的方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，接收待识别的目标简历；

步骤S204，将所述目标简历输入到深度神经语言程序学DNLP系统，其中，所述DNLP系统是采用双向长短时记忆循环神经网络BI-LSTM-CRF模型训练得到的；

步骤S206，使用所述DNLP系统确定所述目标简历使用的简历模板；所述简历模板包括多个实体版块；

本实施例的简历模板是指目标简历采用的简历样式或简历布局，在不同的简历模板中，同一个实体版块(如工作经历)的内容分布在文本的不同位置，通过确定目标简历的简历模板可以确定各个待确定的文本内容在目标简历中的位置；

步骤S208，按照所述简历模板提取所述目标简历中的特征信息。

通过本实施例的方案，将所述目标简历输入到深度神经语言程序学DNLP系统，并使用所述DNLP系统确定所述目标简历使用的简历模板，最后按照所述简历模板提取所述目标简历中的特征信息，通过先识别简历的模板，再从对应模板中提取特征信息，解决了现有技术中简历识别率低的技术问题，提高了简历的识别率。

本实施例在按照所述简历模板提取所述目标简历中的特征信息之后，可以将特征信息按照用户设置的指定模板重新排版布局，以便于集中化采集，或者是仅将用户关注的特征信息(如毕业院校)提取出来，并与简历标识或其他关键信息进行绑定后，再格式化展示，以减少用户在纷繁复杂的简历中查找关键信息的时间。

在本实施例中，在将所述目标简历输入到深度神经语言程序学DNLP系统之前，还包括：确定多个简历样本；使用所述多个简历样本训练BI-LSTM-CRF模型的初始神经网络，得到所述DNLP系统。

图3是本发明实施例训练BI-LSTM-CRF模型的流程图，如图3所示，使用所述多个简历样本训练BI-LSTM-CRF模型的初始神经网络包括：

S302，采用监督分类的方式分割每个所述简历样本的简历文本，得到多个可以对应人工标签的文本块，其中，每个文本块对应简历中的一个类别属性；

具体的，采用监督分类的方式分割每个所述简历样本的简历文本包括：分割每个所述简历样本中的以下简历文本(实体版块)：自我介绍、教育经历、工作经历、学习经历、项目经历；使用标签信息标注所述简历文本。简历样本中，一个完整的简历都是有多个简历文本组成的，但是不同模板的简历，同样的简历文本可能分布在不同的位置；该部分是对简历的各个实体版块进行学习的过程；

S304，对所述文本块进行分词，并提取每个文本块的特征词；可以通过对标记后的文本块进行分词、近义词匹配，来抽取关键的特征词。

具体的，提取每个文本块的特征词的方案包括：采用词频-逆向文件频率TF-IDF算法提取每个文本块的特征词；其中，tfidf＝tf*idf，每个文本块取tfidf的top n作为特征词，n为大于1的正整数，优选的，n＝15；其中，n_i，j是当前词在文本块d_j中的出现次数，分母是d_j中所有词的出现次数之和，k是i的任一取值；/>|D|为简历样本中的文件总数，|{j：t_i∈d_j}|为包含词语t_i的文件数目。

TF-IDF可以过滤掉常见的词语，保留重要的词语，抽取得到特征词。

S306，采用所述文本块和对应的特征词训练所述BI-LSTM-CRF模型的初始神经网络。

通过将样本的简历文本分割成不同的实体模块(简历文本)，进而对不同的实体模块进行学习。

在本实施例的一个实施方式中，采用各个类别的文本块对BI-LSTM-CRF模型对进行训练学习，得到各个类别的识别模型包括：可以使用基于字的Bi-LSTM-CRF，如B-PER、I-PER代表人名首字、人名非首字，B-SCH、I-SCH代表学校首字、学校非首字等，对各个实体模块的识别模型进行训练学习。BI-LSTM-CRF模型的神经网络包括三层逻辑结构。采用所述文本块和对应的特征词训练所述BI-LSTM-CRF模型的初始神经网络包括：

在所述BI-LSTM-CRF模型的BI层(也叫查找层)中，利用预训练或随机初始化的embedding矩阵将所述文本块的句子中的每个字由one-hot向量映射为低维稠密的字向量，在输入下一层之前，设置脱离以缓解过拟合；

在所述BI-LSTM-CRF模型的LSTM层中，提取句子特征，将一个句子的各个特征词序列作为双向LSTM各个时间步的输入，再将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接，得到完整的隐状态序列，输出pi，其中，pi是归属i标签的概率；

在所述BI-LSTM-CRF模型的CRF层中，进行句子级的序列标注，得到线性CRF，其中，所述线性CRF的计算公式中对于句子x的标签等于y的打分为：

其中，句子长度的标签序列y＝(y1，y2，...，yn)，A为CRF层的转移矩阵；利用Softmax得到归一化后的概率为：/>y′是所有标签的任一取值。

本实施例的softmax只做了局部的考虑，也就是说，当前词的tag，是不受其它的tag的影响的。

可选的，在训练所述BI-LSTM-CRF模型的初始神经网络时，在所述BI-LSTM-CRF模型的CRF层中，采用以下最大化对数似然函数对样本数据进行处理：logP(y^x|x)＝score(x，y^x)-log(∑_y′exp(score(x，y′)))；其中，(x，y^x)为训练样本。本实施例的整个序列的打分等于各个位置的打分之和，而每个位置的打分由两部分得到，一部分是由LSTM输出的pi决定，另一部分则由CRF的转移矩阵A决定。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种识别简历的装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本发明实施例的识别简历的装置的结构框图，如图4所示，该装置包括：

接收模块40，用于接收待识别的目标简历；

输入模块42，用于将所述目标简历输入到深度神经语言程序学DNLP系统，其中，所述DNLP系统是采用双向长短时记忆循环神经网络BI-LSTM-CRF模型训练得到的；

确定模块44，用于使用所述DNLP系统确定所述目标简历使用的简历模板；

提取模块46，用于按照所述简历模板提取所述目标简历中的特征信息。

可选的，所述训练模块包括：第一处理单元，用于在所述BI-LSTM-CRF模型的BI层中，利用预训练或随机初始化的embedding矩阵将所述文本块的句子中的每个字由one-hot向量映射为低维稠密的字向量，在输入下一层之前，设置脱离以缓解过拟合；第二处理单元，用于在所述BI-LSTM-CRF模型的LSTM层中，提取句子特征，将一个句子的各个特征词序列作为双向LSTM各个时间步的输入，再将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接，得到完整的隐状态序列，输出pi，其中，pi是归属i标签的概率；第三处理单元，用于在所述BI-LSTM-CRF模型的CRF层中，进行句子级的序列标注，得到线性CRF，其中，所述线性CRF的计算公式中对于句子x的标签等于y的打分为：其中，一个长度等于句子长度的标签序列y＝(y1,y2,...,yn)；利用Softmax得到归一化后的概率为：/>y'是所有标签的任一取值。

可选的，所述第三处理单元还包括：处理子单元，用于采用以下最大化对数似然函数对样本数据进行处理：logP(y^x|x)＝score(x,y^x)-log(∑_y'exp(score(x,y')))；其中，(x,y^x)为训练样本。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，接收待识别的目标简历；

S2，将所述目标简历输入到深度神经语言程序学DNLP系统，其中，所述DNLP系统是采用双向长短时记忆循环神经网络BI-LSTM-CRF模型训练得到的；

S3，使用所述DNLP系统确定所述目标简历使用的简历模板；

S4，按照所述简历模板提取所述目标简历中的特征信息。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，接收待识别的目标简历；

S3，使用所述DNLP系统确定所述目标简历使用的简历模板；

S4，按照所述简历模板提取所述目标简历中的特征信息。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种识别简历的方法，其特征在于，所述方法包括：

接收待识别的目标简历；

将所述目标简历输入到深度神经语言程序学DNLP系统，其中，所述DNLP系统是采用双向长短时记忆循环神经网络BI-LSTM-CRF模型训练得到的；

使用所述DNLP系统确定所述目标简历使用的简历模板；

按照所述简历模板提取所述目标简历中的特征信息；

在将所述目标简历输入到深度神经语言程序学DNLP系统之前，所述方法还包括：

确定多个简历样本；

使用所述多个简历样本训练BI-LSTM-CRF模型的初始神经网络，得到所述DNLP系统；

使用所述多个简历样本训练BI-LSTM-CRF模型的初始神经网络包括：

采用监督分类的方式分割每个所述简历样本的简历文本，得到多个可以对应人工标签的文本块，其中，每个文本块对应简历中的一个类别属性；

对所述文本块进行分词，并提取每个文本块的特征词；

采用所述文本块和对应的特征词训练所述BI-LSTM-CRF模型的初始神经网络；

提取每个文本块的特征词包括：

采用词频-逆向文件频率TF-IDF算法提取每个文本块的特征词；

其中，tfidf＝tf*idf，每个文本块取tfidf的top n作为特征词，n为大于1的正整数；

其中，n_i，j是当前词在文本块d_j中的出现次数，分母是d_j中所有词的出现次数之和，k是i的任一取值；

|D|为简历样本中的文件总数，|{j：t_i∈d_j}|为包含词语t_i的文件数目。

2.根据权利要求1所述的方法，其特征在于，采用监督分类的方式分割每个所述简历样本的简历文本包括：

分割每个所述简历样本中的以下简历文本：自我介绍、教育经历、工作经历、学习经历、项目经历；

使用标签信息标注所述简历文本。

3.根据权利要求1所述的方法，其特征在于，采用所述文本块和对应的特征词训练所述BI-LSTM-CRF模型的初始神经网络包括：

在所述BI-LSTM-CRF模型的BI层中，利用预训练或随机初始化的embedding矩阵将所述文本块的句子中的每个字由one-hot向量映射为低维稠密的字向量，在输入下一层之前，设置脱离以缓解过拟合；

其中，句子长度的标签序列y＝(y1,y2,...,yn)，A为CRF层的转移矩阵；

利用Softmax得到归一化后的概率为：

y′是所有标签的任一取值。

4.根据权利要求3所述的方法，其特征在于，在训练所述BI-LSTM-CRF模型的初始神经网络时，在所述BI-LSTM-CRF模型的CRF层中，采用以下最大化对数似然函数对样本数据进行处理：

logP(y^x|x)＝score(x,y^x)-log(∑_y′exp(score(x,y′)))；

其中，(x,y^x)为训练样本。

5.一种识别简历的装置，其特征在于，所述装置包括：

接收模块，用于接收待识别的目标简历；

输入模块，用于将所述目标简历输入到深度神经语言程序学DNLP系统，其中，所述DNLP系统是采用双向长短时记忆循环神经网络BI-LSTM-CRF模型训练得到的；

确定模块，用于使用所述DNLP系统确定所述目标简历使用的简历模板；

提取模块，用于按照所述简历模板提取所述目标简历中的特征信息；

确定模块，用于在所述输入模块将所述目标简历输入到深度神经语言程序学DNLP系统之前，确定多个简历样本；

训练模块，用于使用所述多个简历样本训练BI-LSTM-CRF模型的初始神经网络，得到所述DNLP系统；

所述训练模块包括：分割单元，用于采用监督分类的方式分割每个所述简历样本的简历文本，得到多个可以对应人工标签的文本块，其中，每个文本块对应简历中的一个类别属性；

提取单元，用于对所述文本块进行分词，并提取每个文本块的特征词；

训练单元，用于采用所述文本块和对应的特征词训练所述BI-LSTM-CRF模型的初始神经网络；

所述提取单元包括：提取子单元，用于采用词频-逆向文件频率TF-IDF算法提取每个文本块的特征词；

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

7.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。