CN110888927B - 简历信息抽取方法及系统 - Google Patents
简历信息抽取方法及系统 Download PDFInfo
- Publication number
- CN110888927B CN110888927B CN201911114587.8A CN201911114587A CN110888927B CN 110888927 B CN110888927 B CN 110888927B CN 201911114587 A CN201911114587 A CN 201911114587A CN 110888927 B CN110888927 B CN 110888927B
- Authority
- CN
- China
- Prior art keywords
- model
- resume
- training
- label
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种简历信息抽取方法及系统,该方法包括A.获取简历数据;B.利用BERT中文预训练模型和数据增广技术对简历数据转换成简历文本后根据其句子特征进行分类;C.将分类好的简历文本句子利用BERT+BiGRU+CNN+CRF模型进行命名实体识别,进而提取出需要的信息元;D.将提取出来的信息元存储在数据库中,结构化输出对应的信息。而该系统主要由简历获取模块、输入模块、分类模块、信息元抽取模块、存储模块和输出模块六个模块组成。本发明使用了增量学习方法,在分类模型的数据预处理中使用了分句方式,使语言模型能够在继承过去参数的基础上,通过增量式地输入新训练数据来调整参数,具有更好的连续性和泛化能力。
Description
技术领域
本发明涉及信息抽取技术领域,尤指一种简历信息抽取方法及系统。
背景技术
现代信息技术和存储技术的快速发展以及互联网的迅速蔓延,使得人们在日常生活会频繁接触到各种文本信息,文本信息已经成为互联网传输数据最多的部分。面对海量的数据,如何提取和整理出有用的部分,是一个需求紧迫的显示问题。因此,人们提出了信息抽取技术,借助自动化技术从海量的数据中找到真正需要的信息,而文本信息提取技术一般是指把自然语言文本里包含的实体、关系、事件等信息进行提取,将其结构化并存储在数据库中的一种文本处理技术。目前,针对简历这种半结构化文本的研究中,主要利用基于深度学习的方式处理简历数据。
深度学习是指构建了阶层式的人工神经网络,通过对数据进行多层处理,逐渐将初始的“低层”特征表示转化为“高层”特征表示后,用“简单模型”即可完成复杂的分类等学习任务。传统的深度学习是一种批量学习,在进行学习之前,需要准备好所有的数据。对于每一次新数据的加入,都要重新学习和重新训练。
另外,在对信息数据处理的时候,将这些非数值化的信息文本数据转换成数值化的形式无疑更有利于被计算机处理。在各种信息数据的处理中,都是基于文本的特征来对文本数据进行各种操作,所以会使用将文本数据转换成向量的形式来表示文本的特征。传统对文本向量化的预处理过程中,首先将文本进行分词后,然后对这些词进行向量化,用向量来表示文本的特征,从而得到一种与原始文本有着某种关系的特征向量表达方式,以这种特征向量化后的数据为起点进行后面的各种数据处理工作。
其中,实现文本分类是处理文本信息的基本功能,也是文本信息抽取的核心技术。在大量信息数据中,首先对它们进行分类,从而可以在分类好的信息数据中更加方便地获取到需要的信息。目前流行的分类技术主要分为三种:基于有监督的特征选择分类方法、基于半监督的特征选择分类方法和基于无监督的聚类方法。
在现有技术中,仍存在以下缺陷:
1.因为传统深度学习是一种批量学习,在每一次学习前需要准备好所有的数据,对于每次学习都要重新训练模型,这会耗费大量的时间和空间,从而影响效率;
2.目前传统的信息抽取技术,都要通过对文本进行分词,再对词进行特征向量化后,才继续下一步处理。但是在中文文本中,词与词之间并没有明显的分界线,所以分词的好坏会影响到最后的信息抽取结果;
3.目前监督分类方法使用得比较多,是现在分类技术的主流,但监督分类准确率直接受训练样本的数量和标注质量的影响,需要耗费大量的人力和时间去训练或者标注数据,否则数据量少和标注质量差的数据会使监督分类方法的准确率降低很多;而无监督分类方法的目的是对样本中潜在的结构或者分布作相似对比,把相似的对象堆叠在一起,并没有明确的类别划分和确切的答案,该方法虽然节省了人力和时间,但具有很大的不确定性;
4.目前流行的半监督训练方法有:提取数据中方差最大的特征在少量标记数据上做监督学习;或以重建输入数据的方式获得输入数据的潜在表示,再对少量标记数据做监督学习等等。而这些半监督训练方法学到的特征可能并不是模型真正需要的特征,从而造成过拟合的现象。
发明内容
为解决上述问题,本发明提供一种基于增量学习的MixMatch半监督训练模型的简历信息抽取方法及系统,使得模型处于半监督学习时,具有更好的连续性和泛化能力。
为实现上述目的,本发明采用的技术方案是:一种简历信息抽取方法,包括如下步骤:
A.获取简历数据;
B.利用BERT中文预训练模型和数据增广技术对简历数据转换成简历文本后根据其句子特征进行分类;
C.将分类好的简历文本句子利用BERT+BiGRU+CNN+CRF模型进行命名实体识别,进而提取出需要的信息元;
D.将提取出来的信息元存储在数据库中,结构化输出对应的信息。
还有一种简历信息抽取系统,包括
简历获取模块,用于获取简历文件;
输入模块,用于将简历文件转换成便于处理的简历文本,并对简历文本按句子转换成向量;
分类模块,作为分类模型的输入,把经过输入模块处理过的句子进行分类;
信息元抽取模块,用于对这些分类好的句子使用命名实体识别技术,抽取出所需要的信息元;
存储模块,用于将提取出来的信息元存储在数据库中;
输出模块,用于将存储在数据库里的信息以结构化的方式呈现给用户。
本发明的有益效果在于:
1.相对于采用传统深度学习技术的简历信息抽取系统,本发明采用了增量学习的技术,一方面是无需保留历史数据从而减少了数据存储空间的消耗,另一方面是在新的训练过程中保留了旧的训练结构从而节省了训练时间;
2.本发明使用句子特征向量化和字特征向量化,避开了由于对中文文本分词可能造成的不好效果的影响,同时使用了对向量进行矩阵增广的数据增强技术,增强训练样本的特征表达;
3.本发明使用BERT+BiGRU+CNN+CRF模型来实现命名实体识别,相比于目前的BERT+BiGRU+CRF模型,本发明仅使用了BiGRU的深层特征抽取技术,然后修改了对数据预测分类技术的部分,加上配合使用了CNN的特征分类技术,从而达到更好的分类效果;
4.相对于以往的无监督学习和监督学习,本发明采用了半监督学习的学习形式,既减少了人工参与的工作量,又得到了比较高的准确率;同时对比目前的半监督学习方法,本发明采用的基于MixMatch的半监督学习方法更能获得模型所需要的特征,从而更好地防止过拟合现象,达到更好的半监督训练效果。
附图说明
图1是本发明的简历信息抽取方法的流程示意图。
图2是本发明中分类模型预训练的流程示意图。
图3是本发明的简历信息抽取系统的结构流程示意图。
具体实施方式
下面结合附图和实例对本发明作进一步详细说明。
请参阅图1-2所示,本发明关于一种简历信息抽取方法,包括如下步骤:
A.获取简历数据;
B.利用BERT中文预训练模型和数据增广技术对简历数据转换成简历文本后根据其句子特征进行分类;
C.将分类好的简历文本句子利用BERT+BiGRU+CNN+CRF模型进行命名实体识别,进而提取出需要的信息元;
D.将提取出来的信息元存储在数据库中,结构化输出对应的信息。
上述技术方案为了减少分词对处理结果的影响,在步骤B中直接将简历文本中句子转换成向量作为分类模型的输入,然后在步骤C中对这些分类好的句子使用命名实体识别技术,抽取出所需要的信息元。
本技术方案在步骤B中使用了一种基于增量学习的MixMatch半监督训练模型的方法,使得模型处于半监督学习时具有更好的连续性和泛化能力。增量学习是指模型在日后可以不断从新数据中学习到新特征实现自我更新;MixMatch技术是指在输入单元中使用了能够增加数据集特征的数据增广技术、在输出单元中使用了能够对预测标签最小化熵的Sharpen技术、在模型训练的迭代过程中使用了MixUp数据混合技术。通过这样,使用少量标注的简历句子数据就能训练出效果良好并且有效防止过拟合现象的文本分类模型。
而本技术方案在步骤C中使用的训练模型是由四个层,分别是BERT层+双向门控循环单元(BiGRU)层+卷积神经网络(CNN)层+条件随机场(CRF)层来实现命名实体识别。其中BERT层是用来充当模型的输入层,负责将输入进来的数据进行向量化预处理;BIGRU层用于对向量化后的数据进行深层次的特征提取;CNN层根据特征向量对数据标记上预测标签;CRF层通过考虑预测标签之间的关系进行标签序列排序的优化。
具体地,所述步骤B中包括第一数据预处理和第一神经网络模型训练两个步骤,所述步骤C中包括第二数据预处理和第二神经网络模型训练两个步骤。
其中,所述第一数据预处理包括以下分步骤:
B1.输入由输入模块得到的简历文本集合c,对简历文本集合c={c_1,c_2,…c_n}进行分句,其中c_n表示第n份简历,并形成句序列s={st_1…st_n},其中st_n表示第n个句子;
B2.对句序列s进行分割,将句序列s的a%分为训练集e,句序列s的b%分为验证集d,最后剩下的句序列s的(100-a-b)%分为未标注集u,其中a、b为工程经验参数;
B3.对训练集e和验证集d进行人工标注分类,设训练集e标注对应的标签集为p;
例如:将简历的句子分成6个类别:个人信息类(标记为bas ic)、带过去时间的经历类(标记为ptime)、带现在时间的经历类(标记为ctime)、不带时间的学习经历类(标记为sexp)、不带时间的工作经历类(标记为wexp)、不含有用信息类(标记为noinfo);
B4.将训练集e、未标注集u分别经过BERT中文预训练模型转成为转成形状为[I,J,K]的特征向量集,其中I表示使用第几层的输出作为句向量,J表示为一个句子的最大长度,若一个句子超过J个字符,句子长度则截断为J,若一个句子少于J个字符,则填充”[PAD]”(该词为BERT的空填充词),K为BERT模型的隐藏层数目,I、J、K为工程经验参数;
B5.将经过步骤B4中BERT中文预训练模型转成形状为[I,J,K]的特征向量训练集作一次数据增广,得到增广后的训练集e0(例如:e0=[e0,0]),并记录下增广后的训练集的长度L_e;
B6.对未标注集u作多次数据增广,得到增广后的未标注集u0,并记录下增广后的未标注集u0的长度L_u。
以上是在输入单元中使用了BERT中文预训练模型和数据增广技术来预处理简历文本。
在B步骤中,还利用SoftMax函数对输出单元的输入进行相应计算的方式从而进行文本分类,具体公式如下:
class=softmax(w1ht+b1)
其中w1表示BiGRU单元到输出单元的待训练的权重系数矩阵,b1表示待训练相对应的偏置,ht表示在t时刻从BiGRU单元到输出单元的隐层输入,class表示此时各个标签的预测概率。
这样预测出来的猜测标签集分布会非常均匀,因此使用了一种最小化熵的方法——Sharpen算法来降低猜测标签集的熵,例如:原本一个数据集有A,B两个分类,其中A类占50%,B类占50%,经过Shaprpen算法计算后,A类变成了占90%,B类只占10%,最后可以得到熵最小化后的猜测标签集y,具体公式表示如下:
为了保证迭代过程中数据集的稳定性,使数据集尽可能服从同一分布,具体步骤见第一神经网络模型训练过程,包括以下分步骤:
B7.用B5步骤中增广后的训练集e0来初始化简历特征句分类模型(BERT+BiGRU+SoftMax),得到一个分类模型m1;
B8.将验证集d作为分类模型m1的输入,检验分类模型m1的效果,并且记录下验证集d的检验结果为d_1;
B9.对于B6步骤中增广后的未标注集u0的标签,先依靠分类模型m1预测出未标注集u0的第一次预测标签集y1,然后用求平均的方式通过y1计算得到平均分类概率其中u为增广次数,i为未标注集的第i个句子,y为模型m1对数据预测出来的对应标签,θ为模型m1参数,最后对平均分类概率使用Sharpen算法,得到未标注集u0的第二次标签集p0,将第二次标签集p0作为未标注集u0的最终的猜测标签集p0;
B10.令步骤B5中增广后的训练集e0和其对应步骤B3中的标签集p合并成为合并训练集e1=[e0,p],令步骤B6中增广后的未标注集u0和其对应步骤B9中最终的猜测标签集p0合并成为合并未标注集u1=[u0,p0];
B11.将步骤B10中的合并训练集e1和合并未标注集u1合并,再随机重排得到混合数据集W;
B12.使用Mixup数据混合技术,将合并训练集e1和混合数据集W的a%混合得到混合训练集e2=e1+a%*W,再将合并未标注集u1和混合数据集W的(1-a%)混合得到混合未标注集u2=u1+(1-a%)*W;
B13.将混合训练集e2[:L_e]分出来成为新的子集训练集e3,混合训练集e2[L_e:]分出来成为对应子集训练集e3的标签集p1,对新的子集训练集e3作一次数据增广,得到增广后的训练集e4,并记录下增广后的训练集e4的长度L_e0,把增广后的训练集e4作为分类模型m1的输入,得到预测标签集p3,将预测标签集p3和原始标签集p1作对比,然后对分类模型m1的参数进行调整,得到新的分类模型m2;
B14.将验证集d作为分类模型m2的输入,检验分类模型m2的效果,并且记录下验证集d的检验结果为d_2;
B15.将混合未标注集u2[:L_u]分出来成为新的未标注集u3,对新的未标注集u3作多次数据增广,得到增广后的未标注集u4,记录下未标注集u4的长度L_u0,依靠分类模型m2预测出未标注集u4的第一次预测标签集y2,然后用求平均的方式通过y2计算得到平均分类概率最后对平均分类概率使用Sharpen算法,得到未标注集u4的第二次标签集p4,将第二次标签集p4作为未标注集u4的最终的猜测标签集p4;
B16.令B13步骤中分出的新的子集训练集e3和其对应新的标签集p1合并成为新的合并训练集e5=[e3,p1],令步骤B15中分出的新的未标注集u3和其对应最终得到的猜测标签集p4合并成为新的合并未标注集u5=[u3,p4];
B17.然后将步骤B16中新的合并训练集e5和新的合并未标注集u5合并,再随机重排得到混合数据集W_1;
B18.使用Mixup混合方法,将步骤B16中新的合并训练集e5和步骤B17中的混合数据集W_1的a%混合得到混合训练集e6=e5+a%*W_1,将步骤B16中新的合并未标注集u5和混合数据集W_1的(1-a%)混合得到混合未标注集u6=u5+(1-a%)*W_1;
B19.不断重复迭代步骤B13-B18,其中结束迭代的条件如下:
(1)未标注集的集合为空;
(2)d_i值之间的差异很小。
其中,所述第二数据预处理包括以下分步骤:
C1.获取已分类好的简历信息文本集D,其中D_n表示第n个简历文本,每个简历文本包含数据格式为D_n=[S,Label],其中S表示简历句子序列,Label表示S序列对应的分类标签序列,再抽出句序列S=(S_1…S_n),其中S_n表示第n个句子;
C2.把句序列S=(S_1…S_n)分割成为字符序列w={w_1…w_n},其中w_n表示第n个字符;
C3.对于C2步骤中得到的字符序列w进行人工命名实体识别的标注,并且句子首部添加字段[CLS],对应标签也为[CLS],而句子尾部添加字段[SEP],对应标签也为[SEP],最后得到标注好了的字符序列集wd={wd_1…wd_n},其中wd_n是第n个被标注了的字符;
在C3步骤中,使用了BIEO标注集,比如:B-NAME、I-NAME、E-NAME代表人名首字、人名非首尾字、人名尾字,B-LOC、I-LOC、E-LOC代表地名首字、地名非首尾字、地名尾字,B-SCHOOL、I-SCHOOL、E-SCHOOL代表学校名首字、学校名非首尾字、学校名尾字,O代表该字不属于命名实体的一部分,例如:“[CLS][CLS]小[B-NAME]明[E-NAME]毕[O]业[O]于[0]东[B-LOC]莞[E-LOC]的[O]东[B-SCHOOL]莞[I-SCHOOL]理[I-SCHOOL]工[I-SCHOOL]学[I-SCHOOL]院[E-SCHOOL]。[SEP][SEP]”。最后得到标注好了的字符序列集wd={wd_1…wd_n},其中wd_n是第n个被标注了的字符;
C4.把简历信息文本集D的R%部分和100%-R%-N%部分,经过步骤C2、C3处理成为标注好了的训练集e7和测试集t,最后简历信息文本集的N%只经过步骤C2处理成为验证集d0,其中R和N为工程经验参数。
而所述第二神经网络模型训练包括以下分步骤:
C5.将训练集e7用来初始化简历信息元抽取模型,得到一个预训练好了的模型m3,训练过程如下:
(1)模型第一层是输入层,在这里使用了官方训练好了的BERT语言模型作为输入层。加载了BERT官方中文预训练模型,能够自动将输入的数据转化成字向量表示,通过输入层得到向量集合Vector=(v_1…v_n),其中v_n表示第n个字符的向量表示。
(2)模型的第二层是BiGRU层,对向量集合Vector进行高级语义特征抽取,BiGRU层增强了层与层之间特征的传递,实现了特征复用,可以弥补梯度消失或梯度爆炸的缺陷。
(3)模型的第三层是CNN层,CNN层对前面提取的深层高级语义表示进行卷积和池化操作以获得最终的语义特征表示,再将其输入到softmax层,实现对文本的分类。
(4)模型最后一层为CRF层,CRF的优点在于其为一个位置进行标注的过程中可以利用到此前已经标注的信息,利用Viterbi解码来得到最优序列;
C6.将验证集d0作为模型m3的输入,检验模型m3的性能,可以及时发现模型或参数的问题,进而进行调整,得到新的模型m4;
C7.将测试集t作为模型m4的输入,预测出测试集t的标签,并就预测的标签和测试集人工标注的标签对比,评估模型m4的性能,评估结果用F1分数来表示,记录评估结果为F_1;
C8.将验证集d0作为模型m4的输入,检验模型m4的性能,可以及时发现模型或参数的问题,进而进行调整,得到新的模型m5;
C9.将测试集t作为模型m5的输入,预测出测试集t的标签,并就预测标签和测试集人工标注的标签对比,评估模型m5的性能,评估结果用F2分数来表示,记录评估结果为F_2;
C10.不断迭代步骤C6-C9,直到F_n的结果最大或者差异变小,结束迭代,保存好最终的简历信息元抽取模型mn,其中n为工程经验参数。
请参阅图3所示,本发明还关于一种简历信息抽取系统,包括
简历获取模块,用于获取简历文件;
输入模块,用于将简历文件转换成便于处理的简历文本,并对简历文本按句子转换成向量;
分类模块,作为分类模型的输入,把经过输入模块处理过的句子进行分类;
信息元抽取模块,用于对这些分类好的句子使用命名实体识别技术,抽取出所需要的信息元;
存储模块,用于将提取出来的信息元存储在数据库中;
输出模块,用于将存储在数据库里的信息以结构化的方式呈现给用户。
为了能够实时地接受用户的简历信息元抽取请求,本系统将简历信息元抽取系统的BERT中文预处理模型、训练好的简历特征句分类模型、训练好的简历信息元抽取模型预先加载到内存模块中,采用B/S模式,每当有用户发起处理请求,能够及时处理,返回结果。
系统的具体运行如下:
输入模块:对每一种格式的简历文件,例如:后缀名为docx和pdf的文件,提取出简历中所有的文本内容,形成简历文本文件集contents={c_1,c_2,…c_n},其中c_n表示第n份简历。
分类模块:将简历文本文件集contents作为分类模块的输入,从预训练好了的分类模型(BERT+BiGRU+SoftMax)输出得到带有分类标签的句序列S_L。
比如:经过输入模块得到的简历数据为S=(“王泉庚,男,汉族,1972年10月出生,毕业于中欧国际工商学院工商管理硕士”),经过分类模块输出得到S_L=(“王泉庚”:‘name’;“男”:‘sex’;“汉族”:‘nation’;“1972年10月出生”:‘btime’;“毕业于中欧国际工商学院工商管理硕士”:‘s_exp’),其中name、sex、nat ion、btime和s_exp分别表示分类标签名字,性别,民族,出生日期,学历相关信息。
信息元抽取模块:将带有分类标签的句序列S_L作为信息元抽取模块的输入,使用训练好了的简历信息元抽取模型(BERT+BiGRU+CNN+CRF)来对句子进行命名实体识别,从信息元抽取模型中输出得到带有各种实体标签的字序列W_L。
比如:将分类好的句子S_L=(“毕业于中欧国际工商学院工商管理硕士”:‘s_exp’)作命名实体识别得到W_L=(“毕[O]业[O]于[O]中[B-SCHOOL]欧[I-SCHOOL]国[I-SCHOOL]际[I-SCHOOL]工[I-SCHOOL]商[I-SCHOOL]学[I-SCHOOL]院[E-SCHOOL]工[B-PRO]商[I-PRO]管[I-PRO]理[E-PRO]硕[B-EDU]士[E-EDU]”:‘s_exp’),其中O表示无意义信息;B-SCHOOL、I-SCHOOL、E-SCHOOL分别表示学校名首字、学校名非首尾字、学校名尾字;B-PRO、I-PRO、E-PRO分别表示专业名首字、专业名非首尾字、专业名尾字;B-EDU、E-EDU分别表示学位名首字、学位名尾字。将字按照实体标签顺序连接起来形成实体信息词,并通过句子类别和句子实体信息的对应,可以判断出句子类别‘s_exp’会包含有信息实体:‘SCHOOL’、‘PRO’和‘EDU’。
存储模块:以标签为字段、以数据信息为内容,将信息元抽取模块的输出记录到数据库中。
输出模块:根据存储在数据库的字段,结构化输出对应的信息。
具体地,所述分类模块包括
输入单元,将通过输入模块得到的简历文本进一步处理成便于计算机处理的向量形式;
BiGRU单元,对向量化后的文本进行深层次特征提取,并根据特征计算分类类别的概率权重;
输出单元,对分类类别的概率权重进行相应计算完成文本分类。
其中,所述输入单元中使用了BERT中文预训练模型和数据增广技术来预处理简历文本;而BiGRU单元可以看做是由向前GRU和反向GRU两部分组成的神经网络模型,公式如下所示:
而输出单元的输入为上一BiGRU单元的输出,利用SoftMax函数进行文本分类。
所述信息元抽取模块使用的训练模型为BERT-BiGRU-CNN-CRF模型,其中BERT层是用来充当模型的输入层,负责将输入进来的数据进行向量化预处理;BIGRU层用于对向量化后的数据进行深层次的特征提取;CNN层根据特征向量对数据标记上预测标签;CRF层通过考虑预测标签之间的关系进行标签序列排序的优化。
对用于命名实体识别的模型BERT+BiGRU+CNN+CRF可以用其他模型替换。
以上实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通工程技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
Claims (5)
1.一种简历信息抽取方法,其特征在于:包括如下步骤:
A.获取简历数据;
B.利用BERT中文预训练模型和数据增广技术对简历数据转换成简历文本后根据其句子特征进行分类;
C.将分类好的简历文本句子利用BERT+BiGRU+CNN+CRF模型进行命名实体识别,进而提取出需要的信息元;
D.将提取出来的信息元存储在数据库中,结构化输出对应的信息;
所述步骤B中包括第一数据预处理和第一神经网络模型训练两个步骤,所述步骤C中包括第二数据预处理和第二神经网络模型训练两个步骤;
所述第一数据预处理包括以下分步骤:
B1.输入由输入模块得到的简历文本集合c,对简历文本集合c进行分句,形成句序列s;
B2.对句序列s进行分割,将句序列s分为训练集e、验证集d和未标注集u;
B3.对训练集e和验证集d进行人工标注分类,设训练集e标注对应的标签集为p;
B4.将训练集e、未标注集u分别经过BERT中文预训练模型转成为转成形状为[I,J,K]的特征向量集,其中I表示使用第几层的输出作为句向量,J表示为一个句子的最大长度,若一个句子超过J个字符,句子长度则截断为J,若一个句子少于J个字符,则填充”[PAD]”,K为BERT模型的隐藏层数目;
B5.将经过步骤B4中BERT中文预训练模型转成形状为[I,J,K]的特征向量训练集作一次数据增广,得到增广后的训练集e0,并记录下增广后的训练集的长度L_e;
B6.对未标注集u作多次数据增广,得到增广后的未标注集u0,并记录下增广后的未标注集的长度L_u;
所述第一神经网络模型训练包括以下分步骤:
B7.用B5步骤中增广后的训练集e0来初始化简历特征句分类模型,得到一个分类模型m1;
B8.将验证集d作为分类模型m1的输入,检验分类模型m1的效果,并且记录下验证集d的检验结果为d_1;
B9.对于B6步骤中增广后的未标注集u0的标签,先依靠分类模型m1预测出未标注集u0的第一次预测标签集y1,然后用求平均的方式通过y1计算得到平均分类概率,最后对平均分类概率使用Sharpen算法,得到未标注集u0的第二次标签集p0,将第二次标签集p0作为未标注集u0的最终的猜测标签集p0;
B10.令步骤B5中增广后的训练集e0和其对应步骤B3中的标签集p合并成为合并训练集e1,令步骤B6中增广后的未标注集u0和其对应步骤B9中最终的猜测标签集p0合并成为合并未标注集u1;
B11.将步骤B10中的合并训练集e1和合并未标注集u1合并,再随机重排得到混合数据集W;
B12.使用Mixup数据混合技术,将合并训练集e1和混合数据集W的a%混合得到混合训练集e2,再将合并未标注集u1和混合数据集W的(1-a%)混合得到混合未标注集u2;
B13.将混合训练集e2分出来成为新的子集训练集e3,混合训练集e2分出来成为对应子集训练集e3的标签集p1,对新的子集训练集e3作一次数据增广,得到增广后的训练集e4,并记录下增广后的训练集e4的长度L_e0,把增广后的训练集e4作为分类模型m1的输入,得到预测标签集p3,将预测标签集p3和原始标签集p1作对比,然后对分类模型m1的参数进行调整,得到新的分类模型m2;
B14.将验证集d作为分类模型m2的输入,检验分类模型m2的效果,并且记录下验证集d的检验结果为d_2;
B15.将混合未标注集u2分出来成为新的未标注集u3,对新的未标注集u3作多次数据增广,得到增广后的未标注集u4,记录下未标注集u4的长度L_u0,依靠分类模型m2预测出未标注集u4的第一次预测标签集y2,然后用求平均的方式通过y2计算得到平均分类概率,最后对平均分类概率使用Sharpen算法,得到未标注集u4的第二次标签集p4,将第二次标签集p4作为未标注集u4的最终的猜测标签集p4;
B16.令B13步骤中分出的新的子集训练集e3和其对应新的标签集p1合并成为新的合并训练集e5,令步骤B15中分出的新的未标注集u3和其对应最终得到的猜测标签集p4合并成为新的合并未标注集u5;
B17.然后将步骤B16中新的合并训练集e5和新的合并未标注集u5合并,再随机重排得到混合数据集W_1;
B18.使用Mixup混合方法,将步骤B16中新的合并训练集e5和步骤B17中的混合数据集W_1的a%混合得到混合训练集e6,将步骤B16中新的合并未标注集u5和混合数据集W_1的(1-a%)混合得到混合未标注集u6;
B19.不断重复迭代步骤B13-B18;
所述第二数据预处理包括以下分步骤:
C1.获取已分类好的简历信息文本集D,其中D_n表示第n个简历文本,每个简历文本包含数据格式为D_n=[S,Label],其中S表示简历句子序列,Label表示S序列对应的分类标签序列,再抽出句序列S=(S_1…S_n),其中S_n表示第n个句子;
C2.把句序列S=(S_1…S_n)分割成为字符序列w={w_1…w_n},其中w_n表示第n个字符;
C3.对于C2步骤中得到的字符序列w进行人工命名实体识别的标注,并且句子首部添加字段[CLS],对应标签也为[CLS],而句子尾部添加字段[SEP],对应标签也为[SEP],最后得到标注好了的字符序列集wd={wd_1…wd_n},其中wd_n是第n个被标注了的字符;
C4.把简历信息文本集D的R%部分和100%-R%-N%部分,经过步骤C2、C3处理成为标注好了的训练集e7和测试集t,最后简历信息文本集的N%只经过步骤C2处理成为验证集d0;
所述第二神经网络模型训练包括以下分步骤:
C5.将训练集e7用来初始化简历信息元抽取模型,得到一个预训练好了的模型m3;
C6.将验证集d0作为模型m3的输入,检验模型m3的性能,可以及时发现模型或参数的问题,进而进行调整,得到新的模型m4;
C7.将测试集t作为模型m4的输入,预测出测试集t的标签,并就预测的标签和测试集人工标注的标签对比,评估模型m4的性能,评估结果用F1分数来表示,记录评估结果为F_1;
C8.将验证集d0作为模型m4的输入,检验模型m4的性能,可以及时发现模型或参数的问题,进而进行调整,得到新的模型m5;
C9.将测试集t作为模型m5的输入,预测出测试集t的标签,并就预测标签和测试集人工标注的标签对比,评估模型m5的性能,评估结果用F2分数来表示,记录评估结果为F_2;
C10.不断迭代步骤C6-C9,直到F_n的结果最大或者差异变小,结束迭代,保存好最终的简历信息元抽取模型mn,其中n为工程经验参数。
2.一种根据权利要求1所述的简历信息抽取方法的简历信息抽取系统,其特征在于:包括
简历获取模块,用于获取简历文件;
输入模块,用于将简历文件转换成便于处理的简历文本,并对简历文本按句子转换成向量;
分类模块,作为分类模型的输入,把经过输入模块处理过的句子进行分类;
信息元抽取模块,用于对这些分类好的句子使用命名实体识别技术,抽取出所需要的信息元;
存储模块,用于将提取出来的信息元存储在数据库中;
输出模块,用于将存储在数据库里的信息以结构化的方式呈现给用户。
3.根据权利要求2所述的简历信息抽取系统,其特征在于:所述分类模块包括
输入单元,将通过输入模块得到的简历文本进一步处理成便于计算机处理的向量形式;
BiGRU单元,对向量化后的文本进行深层次特征提取,并根据特征计算分类类别的概率权重;
输出单元,对分类类别的概率权重进行相应计算完成文本分类。
4.根据权利要求3所述的简历信息抽取系统,其特征在于:所述输入单元中使用了BERT中文预训练模型和数据增广技术来预处理简历文本,所述输出单元利用SoftMax函数进行文本分类。
5.根据权利要求2所述的简历信息抽取系统,其特征在于:所述信息元抽取模块使用的训练模型为BERT-BiGRU-CNN-CRF模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911114587.8A CN110888927B (zh) | 2019-11-14 | 2019-11-14 | 简历信息抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911114587.8A CN110888927B (zh) | 2019-11-14 | 2019-11-14 | 简历信息抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110888927A CN110888927A (zh) | 2020-03-17 |
CN110888927B true CN110888927B (zh) | 2023-04-18 |
Family
ID=69747565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911114587.8A Active CN110888927B (zh) | 2019-11-14 | 2019-11-14 | 简历信息抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110888927B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506732B (zh) * | 2020-04-20 | 2023-05-26 | 北京中科凡语科技有限公司 | 一种文本多层次标签分类方法 |
CN113111181B (zh) * | 2021-04-07 | 2023-10-20 | 中信百信银行股份有限公司 | 文本数据处理方法、装置、电子设备及存储介质 |
CN113220768A (zh) * | 2021-06-04 | 2021-08-06 | 杭州投知信息技术有限公司 | 基于深度学习的简历信息结构化方法及系统 |
CN113297845B (zh) * | 2021-06-21 | 2022-07-26 | 南京航空航天大学 | 一种基于多层次双向循环神经网络的简历块分类方法 |
CN114139545A (zh) * | 2021-12-07 | 2022-03-04 | 北京金山数字娱乐科技有限公司 | 信息提取方法及装置 |
CN114490939B (zh) * | 2022-01-25 | 2022-09-02 | 北京华宇元典信息服务有限公司 | 争议焦点推荐方法及装置 |
CN114861630A (zh) * | 2022-05-10 | 2022-08-05 | 马上消费金融股份有限公司 | 信息获取及相关模型的训练方法、装置、电子设备和介质 |
CN115422934B (zh) * | 2022-07-08 | 2023-06-16 | 中国科学院空间应用工程与技术中心 | 一种航天文本数据的实体识别与链接方法、系统 |
CN115456584A (zh) * | 2022-09-16 | 2022-12-09 | 深圳今日人才信息科技有限公司 | 基于深度学习模型和专家系统的相似jd召回与推荐方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635288A (zh) * | 2018-11-29 | 2019-04-16 | 东莞理工学院 | 一种基于深度神经网络的简历抽取方法 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
-
2019
- 2019-11-14 CN CN201911114587.8A patent/CN110888927B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635288A (zh) * | 2018-11-29 | 2019-04-16 | 东莞理工学院 | 一种基于深度神经网络的简历抽取方法 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110888927A (zh) | 2020-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110888927B (zh) | 简历信息抽取方法及系统 | |
AU2021203831B2 (en) | Image classification and labeling | |
CN109697232B (zh) | 一种基于深度学习的中文文本情感分析方法 | |
Ozdemir et al. | Feature Engineering Made Easy: Identify unique features from your dataset in order to build powerful machine learning systems | |
CN111552807B (zh) | 一种短文本多标签分类方法 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN109034186B (zh) | 基于da-rbm分类器模型的手写数据识别方法 | |
CN110046356B (zh) | 标签嵌入的微博文本情绪多标签分类方法 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
CN113946677B (zh) | 基于双向循环神经网络和注意力机制的事件识别分类方法 | |
CN110472245B (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
CN114239585A (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN112732872B (zh) | 面向生物医学文本的基于主题注意机制的多标签分类方法 | |
CN113948217A (zh) | 一种基于局部特征整合的医学嵌套命名实体识别方法 | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
CN114372465A (zh) | 基于Mixup和BQRNN的法律命名实体识别方法 | |
CN114781375A (zh) | 一种基于bert与注意力机制的军事装备关系抽取方法 | |
CN115687610A (zh) | 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质 | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 | |
CN116340513A (zh) | 一种基于标签与文本交互的多标签情感分类方法和系统 | |
CN116578671A (zh) | 一种情感-原因对提取方法及装置 | |
CN116629258A (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN116108127A (zh) | 一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法 | |
CN112836482A (zh) | 一种基于模板的序列生成模型生成问题的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |