CN110442841B - 识别简历的方法及装置、计算机设备、存储介质 - Google Patents
识别简历的方法及装置、计算机设备、存储介质 Download PDFInfo
- Publication number
- CN110442841B CN110442841B CN201910534813.1A CN201910534813A CN110442841B CN 110442841 B CN110442841 B CN 110442841B CN 201910534813 A CN201910534813 A CN 201910534813A CN 110442841 B CN110442841 B CN 110442841B
- Authority
- CN
- China
- Prior art keywords
- resume
- lstm
- text
- dnlp
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000013528 artificial neural network Methods 0.000 claims abstract description 31
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 9
- 230000001537 neural effect Effects 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 42
- 238000004590 computer program Methods 0.000 claims description 17
- 238000002372 labelling Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 210000005036 nerve Anatomy 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种识别简历的方法及装置、计算机设备、存储介质。一方面,该方法包括:接收待识别的目标简历;将所述目标简历输入到深度神经语言程序学DNLP系统,其中,所述DNLP系统是采用双向长短时记忆循环神经网络BI‑LSTM‑CRF模型训练得到的;使用所述DNLP系统确定所述目标简历使用的简历模板;按照所述简历模板提取所述目标简历中的特征信息。通过本发明,解决了现有技术中简历识别率低的技术问题。
Description
【技术领域】
本发明涉及计算机领域,尤其涉及一种识别简历的方法及装置、计算机设备、存储介质。
【背景技术】
简历识别是属于一种半结构化文本识别,因其没有传统非结构化文本的自然语序概念,所以识别困难。
现有技术中的简历识别系统,是基于关键字的一种识别系统。比如"人名","手机号码","工作经历"等等,但是半结构文本中若不存在这些关键词,传统的简历识别系统则无法识别对应的语料。在现有技术进行简历识别时,基于关键词识别,通常采用正则表达式进行。期间包含各种简历格式带来识别困难的问题。比如:人名关键词后紧跟的是简历的人名,但是人名也存在字数、中英文、空格等一系列问题,简历中可能包括多个人名,多个时间段等,往往存在工作经历和项目经历的中识别混乱问题,因为这部分在简历中没有统一的格式,这样导致简历的识别率非常低下,还需要通过人工来辅助筛选。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
【发明内容】
有鉴于此,本发明实施例提供了一种识别简历的方法及装置、计算机设备、存储介质。
一方面,本发明实施例提供了一种识别简历的方法,所述方法包括:接收待识别的目标简历;将所述目标简历输入到深度神经语言程序学DNLP系统,其中,所述DNLP系统是采用双向长短时记忆循环神经网络BI-LSTM-CRF模型训练得到的;使用所述DNLP系统确定所述目标简历使用的简历模板;按照所述简历模板提取所述目标简历中的特征信息。
可选的,在将所述目标简历输入到深度神经语言程序学DNLP系统之前,所述方法还包括:确定多个简历样本;使用所述多个简历样本训练BI-LSTM-CRF模型的初始神经网络,得到所述DNLP系统。
可选的,使用所述多个简历样本训练BI-LSTM-CRF模型的初始神经网络包括:采用监督分类的方式分割每个所述简历样本的简历文本,得到多个可以对应人工标签的文本块,其中,每个文本块对应简历中的一个类别属性;对所述文本块进行分词,并提取每个文本块的特征词;采用所述文本块和对应的特征词训练所述BI-LSTM-CRF模型的初始神经网络。
可选的,采用监督分类的方式分割每个所述简历样本的简历文本包括:分割每个所述简历样本中的以下简历文本:自我介绍、教育经历、工作经历、学习经历、项目经历;使用标签信息标注所述简历文本。
可选的,提取每个文本块的特征词包括:采用词频-逆向文件频率TF-IDF算法提取每个文本块的特征词;其中,tfidf=tf*idf,每个文本块取tfidf的topn作为特征词,n为大于1的正整数;其中,ni,j是当前词在文本块dj中的出现次数,分母是dj中所有词的出现次数之和,k是i的任一取值;/>|D|为简历样本中的文件总数,|{j:ti∈dj}|为包含词语ti的文件数目。
可选的,采用所述文本块和对应的特征词训练所述BI-LSTM-CRF模型的初始神经网络包括:在所述BI-LSTM-CRF模型的BI层中,利用预训练或随机初始化的embedding矩阵将所述文本块的句子中的每个字由one-hot向量映射为低维稠密的字向量,在输入下一层之前,设置脱离以缓解过拟合;在所述BI-LSTM-CRF模型的LSTM层中,提取句子特征,将一个句子的各个特征词序列作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接,得到完整的隐状态序列,输出pi,其中,pi是归属i标签的概率;在所述BI-LSTM-CRF模型的CRF层中,进行句子级的序列标注,得到线性CRF,其中,所述线性CRF的计算公式中对于句子x的标签等于y的打分为: 其中,一个长度等于句子长度的标签序列y=(y1,y2,...,yn);利用Softmax得到归一化后的概率为:/>y是所有标签的任一取值。
可选的,在训练所述BI-LSTM-CRF模型的初始神经网络时,在所述BI-LSTM-CRF模型的CRF层中,采用以下最大化对数似然函数对样本数据进行处理:
logP(yx|x)=score(x,yx)-log(∑y'exp(score(x,y')));其中,(x,yx)为训练样本。
另一方面,本发明实施例提供了一种识别简历的装置,所述装置包括:接收模块,用于接收待识别的目标简历;输入模块,用于将所述目标简历输入到深度神经语言程序学DNLP系统,其中,所述DNLP系统是采用双向长短时记忆循环神经网络BI-LSTM-CRF模型训练得到的;确定模块,用于使用所述DNLP系统确定所述目标简历使用的简历模板;提取模块,用于按照所述简历模板提取所述目标简历中的特征信息。
可选的,所述装置还包括:确定模块,用于在所述输入模块将所述目标简历输入到深度神经语言程序学DNLP系统之前,确定多个简历样本;训练模块,用于使用所述多个简历样本训练BI-LSTM-CRF模型的初始神经网络,得到所述DNLP系统。
可选的,所述训练模块包括:分割单元,用于采用监督分类的方式分割每个所述简历样本的简历文本,得到多个可以对应人工标签的文本块,其中,每个文本块对应简历中的一个类别属性;提取单元,用于对所述文本块进行分词,并提取每个文本块的特征词;训练单元,用于采用所述文本块和对应的特征词训练所述BI-LSTM-CRF模型的初始神经网络。
可选的,所述分割单元包括:分割子单元,用于分割每个所述简历样本中的以下简历文本:自我介绍、教育经历、工作经历、学习经历、项目经历;使用标签信息标注所述简历文本。
可选的,所述提取单元包括:提取子单元,用于采用词频-逆向文件频率TF-IDF算法提取每个文本块的特征词;其中,tfidf=tf*idf,每个文本块取tfidf的top n作为特征词,n为大于1的正整数;其中,ni,j是当前词在文本块dj中的出现次数,分母是dj中所有词的出现次数之和,k是i的任一取值;/>|D|为简历样本中的文件总数,|{j:ti∈dj}|为包含词语ti的文件数目。
可选的,所述训练模块包括:第一处理单元,用于在所述BI-LSTM-CRF模型的BI层中,利用预训练或随机初始化的embedding矩阵将所述文本块的句子中的每个字由one-hot向量映射为低维稠密的字向量,在输入下一层之前,设置脱离以缓解过拟合;第二处理单元,用于在所述BI-LSTM-CRF模型的LSTM层中,提取句子特征,将一个句子的各个特征词序列作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接,得到完整的隐状态序列,输出pi,其中,pi是归属i标签的概率;第三处理单元,用于在所述BI-LSTM-CRF模型的CRF层中,进行句子级的序列标注,得到线性CRF,其中,所述线性CRF的计算公式中对于句子x的标签等于y的打分为: 其中,一个长度等于句子长度的标签序列y=(y1,y2,...,yn);利用Softmax得到归一化后的概率为:/>y′是所有标签的任一取值。
可选的,所述第三处理单元还包括:处理子单元,用于采用以下最大化对数似然函数对样本数据进行处理:logP(yx|x)=score(x,yx)-log(∑y′exp(score(x,y′)));其中,(x,yx)为训练样本。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,将所述目标简历输入到深度神经语言程序学DNLP系统,并使用所述DNLP系统确定所述目标简历使用的简历模板,最后按照所述简历模板提取所述目标简历中的特征信息,通过先识别简历的模板,再从对应模板中提取特征信息,解决了现有技术中简历识别率低的技术问题,提高了简历的识别率。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例的一种识别简历的移动终端的硬件结构框图;
图2是根据本发明实施例的识别简历的方法的流程图;
图3是本发明实施例训练BI-LSTM-CRF模型的流程图;
图4是根据本发明实施例的识别简历的装置的结构框图。
【具体实施方式】
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、服务器、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例的一种识别简历的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的识别简历的方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种识别简历的方法,图2是根据本发明实施例的识别简历的方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,接收待识别的目标简历;
步骤S204,将所述目标简历输入到深度神经语言程序学DNLP系统,其中,所述DNLP系统是采用双向长短时记忆循环神经网络BI-LSTM-CRF模型训练得到的;
步骤S206,使用所述DNLP系统确定所述目标简历使用的简历模板;所述简历模板包括多个实体版块;
本实施例的简历模板是指目标简历采用的简历样式或简历布局,在不同的简历模板中,同一个实体版块(如工作经历)的内容分布在文本的不同位置,通过确定目标简历的简历模板可以确定各个待确定的文本内容在目标简历中的位置;
步骤S208,按照所述简历模板提取所述目标简历中的特征信息。
通过本实施例的方案,将所述目标简历输入到深度神经语言程序学DNLP系统,并使用所述DNLP系统确定所述目标简历使用的简历模板,最后按照所述简历模板提取所述目标简历中的特征信息,通过先识别简历的模板,再从对应模板中提取特征信息,解决了现有技术中简历识别率低的技术问题,提高了简历的识别率。
本实施例在按照所述简历模板提取所述目标简历中的特征信息之后,可以将特征信息按照用户设置的指定模板重新排版布局,以便于集中化采集,或者是仅将用户关注的特征信息(如毕业院校)提取出来,并与简历标识或其他关键信息进行绑定后,再格式化展示,以减少用户在纷繁复杂的简历中查找关键信息的时间。
在本实施例中,在将所述目标简历输入到深度神经语言程序学DNLP系统之前,还包括:确定多个简历样本;使用所述多个简历样本训练BI-LSTM-CRF模型的初始神经网络,得到所述DNLP系统。
图3是本发明实施例训练BI-LSTM-CRF模型的流程图,如图3所示,使用所述多个简历样本训练BI-LSTM-CRF模型的初始神经网络包括:
S302,采用监督分类的方式分割每个所述简历样本的简历文本,得到多个可以对应人工标签的文本块,其中,每个文本块对应简历中的一个类别属性;
具体的,采用监督分类的方式分割每个所述简历样本的简历文本包括:分割每个所述简历样本中的以下简历文本(实体版块):自我介绍、教育经历、工作经历、学习经历、项目经历;使用标签信息标注所述简历文本。简历样本中,一个完整的简历都是有多个简历文本组成的,但是不同模板的简历,同样的简历文本可能分布在不同的位置;该部分是对简历的各个实体版块进行学习的过程;
S304,对所述文本块进行分词,并提取每个文本块的特征词;可以通过对标记后的文本块进行分词、近义词匹配,来抽取关键的特征词。
具体的,提取每个文本块的特征词的方案包括:采用词频-逆向文件频率TF-IDF算法提取每个文本块的特征词;其中,tfidf=tf*idf,每个文本块取tfidf的top n作为特征词,n为大于1的正整数,优选的,n=15;其中,ni,j是当前词在文本块dj中的出现次数,分母是dj中所有词的出现次数之和,k是i的任一取值;/>|D|为简历样本中的文件总数,|{j:ti∈dj}|为包含词语ti的文件数目。
TF-IDF可以过滤掉常见的词语,保留重要的词语,抽取得到特征词。
S306,采用所述文本块和对应的特征词训练所述BI-LSTM-CRF模型的初始神经网络。
通过将样本的简历文本分割成不同的实体模块(简历文本),进而对不同的实体模块进行学习。
在本实施例的一个实施方式中,采用各个类别的文本块对BI-LSTM-CRF模型对进行训练学习,得到各个类别的识别模型包括:可以使用基于字的Bi-LSTM-CRF,如B-PER、I-PER代表人名首字、人名非首字,B-SCH、I-SCH代表学校首字、学校非首字等,对各个实体模块的识别模型进行训练学习。BI-LSTM-CRF模型的神经网络包括三层逻辑结构。采用所述文本块和对应的特征词训练所述BI-LSTM-CRF模型的初始神经网络包括:
在所述BI-LSTM-CRF模型的BI层(也叫查找层)中,利用预训练或随机初始化的embedding矩阵将所述文本块的句子中的每个字由one-hot向量映射为低维稠密的字向量,在输入下一层之前,设置脱离以缓解过拟合;
在所述BI-LSTM-CRF模型的LSTM层中,提取句子特征,将一个句子的各个特征词序列作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接,得到完整的隐状态序列,输出pi,其中,pi是归属i标签的概率;
在所述BI-LSTM-CRF模型的CRF层中,进行句子级的序列标注,得到线性CRF,其中,所述线性CRF的计算公式中对于句子x的标签等于y的打分为:
其中,句子长度的标签序列y=(y1,y2,...,yn),A为CRF层的转移矩阵;利用Softmax得到归一化后的概率为:/>y′是所有标签的任一取值。
本实施例的softmax只做了局部的考虑,也就是说,当前词的tag,是不受其它的tag的影响的。
可选的,在训练所述BI-LSTM-CRF模型的初始神经网络时,在所述BI-LSTM-CRF模型的CRF层中,采用以下最大化对数似然函数对样本数据进行处理:logP(yx|x)=score(x,yx)-log(∑y′exp(score(x,y′)));其中,(x,yx)为训练样本。本实施例的整个序列的打分等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分是由LSTM输出的pi决定,另一部分则由CRF的转移矩阵A决定。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种识别简历的装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的识别简历的装置的结构框图,如图4所示,该装置包括:
接收模块40,用于接收待识别的目标简历;
输入模块42,用于将所述目标简历输入到深度神经语言程序学DNLP系统,其中,所述DNLP系统是采用双向长短时记忆循环神经网络BI-LSTM-CRF模型训练得到的;
确定模块44,用于使用所述DNLP系统确定所述目标简历使用的简历模板;
提取模块46,用于按照所述简历模板提取所述目标简历中的特征信息。
可选的,所述装置还包括:确定模块,用于在所述输入模块将所述目标简历输入到深度神经语言程序学DNLP系统之前,确定多个简历样本;训练模块,用于使用所述多个简历样本训练BI-LSTM-CRF模型的初始神经网络,得到所述DNLP系统。
可选的,所述训练模块包括:分割单元,用于采用监督分类的方式分割每个所述简历样本的简历文本,得到多个可以对应人工标签的文本块,其中,每个文本块对应简历中的一个类别属性;提取单元,用于对所述文本块进行分词,并提取每个文本块的特征词;训练单元,用于采用所述文本块和对应的特征词训练所述BI-LSTM-CRF模型的初始神经网络。
可选的,所述分割单元包括:分割子单元,用于分割每个所述简历样本中的以下简历文本:自我介绍、教育经历、工作经历、学习经历、项目经历;使用标签信息标注所述简历文本。
可选的,所述提取单元包括:提取子单元,用于采用词频-逆向文件频率TF-IDF算法提取每个文本块的特征词;其中,tfidf=tf*idf,每个文本块取tfidf的top n作为特征词,n为大于1的正整数;其中,ni,j是当前词在文本块dj中的出现次数,分母是dj中所有词的出现次数之和,k是i的任一取值;/>|D|为简历样本中的文件总数,|{j:ti∈dj}|为包含词语ti的文件数目。
可选的,所述训练模块包括:第一处理单元,用于在所述BI-LSTM-CRF模型的BI层中,利用预训练或随机初始化的embedding矩阵将所述文本块的句子中的每个字由one-hot向量映射为低维稠密的字向量,在输入下一层之前,设置脱离以缓解过拟合;第二处理单元,用于在所述BI-LSTM-CRF模型的LSTM层中,提取句子特征,将一个句子的各个特征词序列作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接,得到完整的隐状态序列,输出pi,其中,pi是归属i标签的概率;第三处理单元,用于在所述BI-LSTM-CRF模型的CRF层中,进行句子级的序列标注,得到线性CRF,其中,所述线性CRF的计算公式中对于句子x的标签等于y的打分为: 其中,一个长度等于句子长度的标签序列y=(y1,y2,...,yn);利用Softmax得到归一化后的概率为:/>y'是所有标签的任一取值。
可选的,所述第三处理单元还包括:处理子单元,用于采用以下最大化对数似然函数对样本数据进行处理:logP(yx|x)=score(x,yx)-log(∑y'exp(score(x,y')));其中,(x,yx)为训练样本。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,接收待识别的目标简历;
S2,将所述目标简历输入到深度神经语言程序学DNLP系统,其中,所述DNLP系统是采用双向长短时记忆循环神经网络BI-LSTM-CRF模型训练得到的;
S3,使用所述DNLP系统确定所述目标简历使用的简历模板;
S4,按照所述简历模板提取所述目标简历中的特征信息。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,接收待识别的目标简历;
S2,将所述目标简历输入到深度神经语言程序学DNLP系统,其中,所述DNLP系统是采用双向长短时记忆循环神经网络BI-LSTM-CRF模型训练得到的;
S3,使用所述DNLP系统确定所述目标简历使用的简历模板;
S4,按照所述简历模板提取所述目标简历中的特征信息。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (7)
1.一种识别简历的方法,其特征在于,所述方法包括:
接收待识别的目标简历;
将所述目标简历输入到深度神经语言程序学DNLP系统,其中,所述DNLP系统是采用双向长短时记忆循环神经网络BI-LSTM-CRF模型训练得到的;
使用所述DNLP系统确定所述目标简历使用的简历模板;
按照所述简历模板提取所述目标简历中的特征信息;
在将所述目标简历输入到深度神经语言程序学DNLP系统之前,所述方法还包括:
确定多个简历样本;
使用所述多个简历样本训练BI-LSTM-CRF模型的初始神经网络,得到所述DNLP系统;
使用所述多个简历样本训练BI-LSTM-CRF模型的初始神经网络包括:
采用监督分类的方式分割每个所述简历样本的简历文本,得到多个可以对应人工标签的文本块,其中,每个文本块对应简历中的一个类别属性;
对所述文本块进行分词,并提取每个文本块的特征词;
采用所述文本块和对应的特征词训练所述BI-LSTM-CRF模型的初始神经网络;
提取每个文本块的特征词包括:
采用词频-逆向文件频率TF-IDF算法提取每个文本块的特征词;
其中,tfidf=tf*idf,每个文本块取tfidf的top n作为特征词,n为大于1的正整数;
其中,ni,j是当前词在文本块dj中的出现次数,分母是dj中所有词的出现次数之和,k是i的任一取值;
|D|为简历样本中的文件总数,|{j:ti∈dj}|为包含词语ti的文件数目。
2.根据权利要求1所述的方法,其特征在于,采用监督分类的方式分割每个所述简历样本的简历文本包括:
分割每个所述简历样本中的以下简历文本:自我介绍、教育经历、工作经历、学习经历、项目经历;
使用标签信息标注所述简历文本。
3.根据权利要求1所述的方法,其特征在于,采用所述文本块和对应的特征词训练所述BI-LSTM-CRF模型的初始神经网络包括:
在所述BI-LSTM-CRF模型的BI层中,利用预训练或随机初始化的embedding矩阵将所述文本块的句子中的每个字由one-hot向量映射为低维稠密的字向量,在输入下一层之前,设置脱离以缓解过拟合;
在所述BI-LSTM-CRF模型的LSTM层中,提取句子特征,将一个句子的各个特征词序列作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接,得到完整的隐状态序列,输出pi,其中,pi是归属i标签的概率;
在所述BI-LSTM-CRF模型的CRF层中,进行句子级的序列标注,得到线性CRF,其中,所述线性CRF的计算公式中对于句子x的标签等于y的打分为:
其中,句子长度的标签序列y=(y1,y2,...,yn),A为CRF层的转移矩阵;
利用Softmax得到归一化后的概率为:
y′是所有标签的任一取值。
4.根据权利要求3所述的方法,其特征在于,在训练所述BI-LSTM-CRF模型的初始神经网络时,在所述BI-LSTM-CRF模型的CRF层中,采用以下最大化对数似然函数对样本数据进行处理:
logP(yx|x)=score(x,yx)-log(∑y′exp(score(x,y′)));
其中,(x,yx)为训练样本。
5.一种识别简历的装置,其特征在于,所述装置包括:
接收模块,用于接收待识别的目标简历;
输入模块,用于将所述目标简历输入到深度神经语言程序学DNLP系统,其中,所述DNLP系统是采用双向长短时记忆循环神经网络BI-LSTM-CRF模型训练得到的;
确定模块,用于使用所述DNLP系统确定所述目标简历使用的简历模板;
提取模块,用于按照所述简历模板提取所述目标简历中的特征信息;
确定模块,用于在所述输入模块将所述目标简历输入到深度神经语言程序学DNLP系统之前,确定多个简历样本;
训练模块,用于使用所述多个简历样本训练BI-LSTM-CRF模型的初始神经网络,得到所述DNLP系统;
所述训练模块包括:分割单元,用于采用监督分类的方式分割每个所述简历样本的简历文本,得到多个可以对应人工标签的文本块,其中,每个文本块对应简历中的一个类别属性;
提取单元,用于对所述文本块进行分词,并提取每个文本块的特征词;
训练单元,用于采用所述文本块和对应的特征词训练所述BI-LSTM-CRF模型的初始神经网络;
所述提取单元包括:提取子单元,用于采用词频-逆向文件频率TF-IDF算法提取每个文本块的特征词;
其中,tfidf=tf*idf,每个文本块取tfidf的top n作为特征词,n为大于1的正整数;
其中,ni,j是当前词在文本块dj中的出现次数,分母是dj中所有词的出现次数之和,k是i的任一取值;
|D|为简历样本中的文件总数,|{j:ti∈dj}|为包含词语ti的文件数目。
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
7.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910534813.1A CN110442841B (zh) | 2019-06-20 | 2019-06-20 | 识别简历的方法及装置、计算机设备、存储介质 |
PCT/CN2019/103268 WO2020252919A1 (zh) | 2019-06-20 | 2019-08-29 | 识别简历的方法及装置、计算机设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910534813.1A CN110442841B (zh) | 2019-06-20 | 2019-06-20 | 识别简历的方法及装置、计算机设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110442841A CN110442841A (zh) | 2019-11-12 |
CN110442841B true CN110442841B (zh) | 2024-02-02 |
Family
ID=68428319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910534813.1A Active CN110442841B (zh) | 2019-06-20 | 2019-06-20 | 识别简历的方法及装置、计算机设备、存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110442841B (zh) |
WO (1) | WO2020252919A1 (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143517B (zh) * | 2019-12-30 | 2023-09-05 | 浙江阿尔法人力资源有限公司 | 人选标签预测方法、装置、设备和存储介质 |
CN111144373B (zh) * | 2019-12-31 | 2020-12-04 | 广州市昊链信息科技股份有限公司 | 一种信息识别方法、装置、计算机设备和存储介质 |
CN111428480B (zh) * | 2020-03-06 | 2023-11-21 | 广州视源电子科技股份有限公司 | 简历识别方法、装置、设备及存储介质 |
CN111460084A (zh) * | 2020-04-03 | 2020-07-28 | 中国建设银行股份有限公司 | 一种简历结构化抽取模型训练方法及系统 |
CN111598462B (zh) * | 2020-05-19 | 2022-07-12 | 厦门大学 | 一种面向校园招聘的简历筛选方法 |
CN111966785B (zh) * | 2020-07-31 | 2023-06-20 | 中国电子科技集团公司第二十八研究所 | 一种基于层叠序列标注的简历信息抽取方法 |
CN112541125B (zh) * | 2020-12-25 | 2024-01-12 | 北京百度网讯科技有限公司 | 序列标注模型训练方法、装置及电子设备 |
CN112733550B (zh) * | 2020-12-31 | 2023-07-25 | 科大讯飞股份有限公司 | 基于知识蒸馏的语言模型训练方法、文本分类方法及装置 |
CN112767106B (zh) * | 2021-01-14 | 2023-11-07 | 中国科学院上海高等研究院 | 自动化审计方法、系统、计算机可读存储介质及审计设备 |
CN113076245A (zh) * | 2021-03-30 | 2021-07-06 | 山东英信计算机技术有限公司 | 一种开源协议的风险评估方法、装置、设备及存储介质 |
CN113361253B (zh) * | 2021-05-28 | 2024-04-09 | 北京金山数字娱乐科技有限公司 | 识别模型训练方法及装置 |
CN113297845B (zh) * | 2021-06-21 | 2022-07-26 | 南京航空航天大学 | 一种基于多层次双向循环神经网络的简历块分类方法 |
CN113627139A (zh) * | 2021-08-11 | 2021-11-09 | 平安国际智慧城市科技股份有限公司 | 企业申报表生成方法、装置、设备及存储介质 |
CN114821603B (zh) * | 2022-03-03 | 2023-09-01 | 北京百度网讯科技有限公司 | 票据识别方法、装置、电子设备以及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6874002B1 (en) * | 2000-07-03 | 2005-03-29 | Magnaware, Inc. | System and method for normalizing a resume |
CN107862303A (zh) * | 2017-11-30 | 2018-03-30 | 平安科技(深圳)有限公司 | 表格类图像的信息识别方法、电子装置及可读存储介质 |
CN108897726A (zh) * | 2018-05-03 | 2018-11-27 | 平安科技(深圳)有限公司 | 一种电子简历的创建方法、存储介质和服务器 |
CN109214382A (zh) * | 2018-07-16 | 2019-01-15 | 顺丰科技有限公司 | 一种基于crnn的票据信息识别算法、设备及存储介质 |
CN109214385A (zh) * | 2018-08-15 | 2019-01-15 | 腾讯科技(深圳)有限公司 | 数据采集方法、数据采集装置及存储介质 |
CN109635288A (zh) * | 2018-11-29 | 2019-04-16 | 东莞理工学院 | 一种基于深度神经网络的简历抽取方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070005549A1 (en) * | 2005-06-10 | 2007-01-04 | Microsoft Corporation | Document information extraction with cascaded hybrid model |
CN105159962B (zh) * | 2015-08-21 | 2018-08-17 | 北京全聘致远科技有限公司 | 职位推荐方法与装置、简历推荐方法与装置、招聘平台 |
US10489439B2 (en) * | 2016-04-14 | 2019-11-26 | Xerox Corporation | System and method for entity extraction from semi-structured text documents |
CN107943911A (zh) * | 2017-11-20 | 2018-04-20 | 北京大学深圳研究院 | 数据抽取方法、装置、计算机设备及可读存储介质 |
CN108664474B (zh) * | 2018-05-21 | 2023-04-18 | 众安信息技术服务有限公司 | 一种基于深度学习的简历解析方法 |
CN109710930A (zh) * | 2018-12-20 | 2019-05-03 | 重庆邮电大学 | 一种基于深度神经网络的中文简历解析方法 |
-
2019
- 2019-06-20 CN CN201910534813.1A patent/CN110442841B/zh active Active
- 2019-08-29 WO PCT/CN2019/103268 patent/WO2020252919A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6874002B1 (en) * | 2000-07-03 | 2005-03-29 | Magnaware, Inc. | System and method for normalizing a resume |
CN107862303A (zh) * | 2017-11-30 | 2018-03-30 | 平安科技(深圳)有限公司 | 表格类图像的信息识别方法、电子装置及可读存储介质 |
CN108897726A (zh) * | 2018-05-03 | 2018-11-27 | 平安科技(深圳)有限公司 | 一种电子简历的创建方法、存储介质和服务器 |
CN109214382A (zh) * | 2018-07-16 | 2019-01-15 | 顺丰科技有限公司 | 一种基于crnn的票据信息识别算法、设备及存储介质 |
CN109214385A (zh) * | 2018-08-15 | 2019-01-15 | 腾讯科技(深圳)有限公司 | 数据采集方法、数据采集装置及存储介质 |
CN109635288A (zh) * | 2018-11-29 | 2019-04-16 | 东莞理工学院 | 一种基于深度神经网络的简历抽取方法 |
Non-Patent Citations (1)
Title |
---|
基于特征融合的中文简历解析方法研究;陈毅;《计算机工程与应用》;第244-249页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110442841A (zh) | 2019-11-12 |
WO2020252919A1 (zh) | 2020-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442841B (zh) | 识别简历的方法及装置、计算机设备、存储介质 | |
CN109190110B (zh) | 一种命名实体识别模型的训练方法、系统及电子设备 | |
WO2021135469A1 (zh) | 基于机器学习的信息抽取方法、装置、计算机设备及介质 | |
CN110909549B (zh) | 对古汉语进行断句的方法、装置以及存储介质 | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN112287069B (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN112101041B (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN108304373B (zh) | 语义词典的构建方法、装置、存储介质和电子装置 | |
EP3869358A1 (en) | Method and apparatus for recognizing entity word, electronic device and storage medium | |
WO2021151270A1 (zh) | 图像结构化数据提取方法、装置、设备及存储介质 | |
CN110851599A (zh) | 一种中文作文自动评分方法及教辅系统 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN112215008A (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
CN112632278A (zh) | 一种基于多标签分类的标注方法、装置、设备及存储介质 | |
CN111143507B (zh) | 一种基于复合式问题的阅读理解方法 | |
CN110795548A (zh) | 智能问答方法、装置及计算机可读存储介质 | |
CN112597300A (zh) | 文本聚类方法、装置、终端设备及存储介质 | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN105593845A (zh) | 基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法 | |
CN112131881A (zh) | 信息抽取方法及装置、电子设备、存储介质 | |
CN113657105A (zh) | 基于词汇增强的医学实体抽取方法、装置、设备及介质 | |
CN112966117A (zh) | 实体链接方法 | |
CN113486173A (zh) | 文本标注神经网络模型及其标注方法 | |
CN113111159A (zh) | 问答记录生成方法、装置、电子设备及存储介质 | |
CN112307190A (zh) | 医学文献排序方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |