CN115169349A

CN115169349A - 基于albert的中文电子简历命名实体识别方法

Info

Publication number: CN115169349A
Application number: CN202210760880.7A
Authority: CN
Inventors: 余丹丹; 黄洁; 党同心; 张克; 王硕; 熊芳勇
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-10-11

Abstract

本发明属于计算机技术领域，特别涉及一种基于ALBERT的中文电子简历命名实体识别方法，利用已训练的ALBERT模型对输入的电子简历中文字符进行特征提取，将中文字符映射为融合字特征、位置特征和文本特征的字向量；通过提取字向量序列中的上下文语义信息来获取电子简历特征矩阵；学习特征矩阵中相邻标签之间的依赖关系，并通过设置标签之间转移的约束条件来获取全局最优标签序列。本发明利用ALBERT模型来实现电子简历中文字符特征的提取，能够减少计算参数，加快训练速度；并进一步利用BiLSTM提取上下文语义信息，通过CRF学习标签之间以来关系来获取全局最优标签序列，具有较好的鲁棒性和实用性。

Description

基于ALBERT的中文电子简历命名实体识别方法

技术领域

本发明属于计算机技术领域，特别涉及一种基于ALBERT的中文电子简历命名实体识别方法。

背景技术

大数据和互联网技术的发展为人们的生活带来了便捷，网络招聘与在线简历投递已成为当下人们寻求职务的主流方式，各大企业的人力资源部门会收到海量电子简历，如何快速高效的从这些电子简历中提取出企业感兴趣的关键信息是一个亟待解决的问题。电子简历属于文本信息，命名实体识别可以自动从大量的非结构化文本信息中抽取出事先定义好的实体类型。不同于通用领域的实体识别只分辨出组织、时间和位置，电子简历信息中包含的实体类型更丰富，且较为统一，实体识别难度更高。

目前电子简历命名实体识别(Named Entity Recognition，NER)的研究方法主要有三种:基于规则和词典匹配的方法、基于统计机器学习的方法以及基于深度学习的方法。基于规则和词典匹配的方法是由领域专家设计实体抽取规则，然后根据规则生成涵盖实体的词典，进而对文本中的实体进行抽取。该方法只要有完整合理的语言规则或词典，就能取得良好的效果。基于统计机器学习的方法将NER任务转换为将简历中的实体分配特定类型标签。通过分析语料库特点，人工选定特征建立统计学习模型，在大规模语料上进行训练来完成实体标注。常用的统计学习模型有最大熵模型(Maximum Entropy Model,MEM)、隐马尔可夫模型(Hidden Markov Model,HMM)和条件随机场(Conditional RandomField，CRF)等。当下，深度学习方法被广泛应用到命名实体识别任务中，其以低人工参与度和高识别准确率的优势迅速在NER任务中占领了主要地位。其中，基于规则和词典匹配的方法依赖于专家经验，规则和词典的开发不仅需要丰富的专业知识，而且极其耗时费力，在字典中完整列出所有规则或定义所有相关实体概念也是相当困难的，这极大地限制了此类方法的识别效果和迁移能力；基于统计机器学习的方法虽然能解决基于规则和词典匹配方法的问题，但仍旧需要准确的特征工程和庞大的语料库；基于深度学习的BERT模型仍存在一些弊端，其具有大量的模型参数，对于模型训练，其有效性依赖于较大的数据量和较长的时间。在某些特定领域，文本数据获取困难，标注成本大，BERT模型的效果便不再理想。

发明内容

为此，本发明提供一种基于ALBERT的中文电子简历命名实体识别方法，使用较少的模型参数和较短的训练时间达到更优的电子简历命名实体识别性能，便于实际场景应用。

按照本发明所提供的设计方案，提供一种基于ALBERT的中文电子简历命名实体识别方法，包含如下内容：

利用已训练的ALBERT模型对输入的电子简历中文字符进行特征提取，将中文字符映射为融合字特征、位置特征和文本特征的字向量；

通过提取字向量序列中的上下文语义信息来获取电子简历特征矩阵；

学习特征矩阵中相邻标签之间的依赖关系，并通过设置标签之间转移的约束条件来获取全局最优标签序列。

作为本发明基于ALBERT的中文电子简历命名实体识别方法，进一步地，ALBERT模型包含字嵌入层和编码层，其中，针对输入的中文字符序列，字嵌入层通过查询词汇表将每个字符转换为字向量，并利用文本向量区分不同句子，位置向量区分输入字符序列的时序性，将字向量、文本向量和位置向量进行相加；并利用编码层对三向量相加的结果进行训练学习获取融合字特征、位置特征和文本特征的字向量。

作为本发明基于ALBERT的中文电子简历命名实体识别方法，进一步地，ALBERT模型采用O(V×H)→O(V×E+E×H)当H＞＞E的因式分解过程来设置字向量维度，其中，E表示字向量大小，H表示隐藏层大小，V表示词汇表大小，模型参数规模由O(V×H)转换为 O(V×E+E×H)。

作为本发明基于ALBERT的中文电子简历命名实体识别方法，进一步地，ALBERT模型中共享全连接层和注意力层的全部参数，其中，共享参数过程表示为 O(12×L×H×H)→O(12×H×H)，L为隐藏层数量，H表示隐藏层大小。

作为本发明基于ALBERT的中文电子简历命名实体识别方法，进一步地，ALBERT模型中利用注意力机制将每个字向量分解为Q、K、V三个子向量，利用每个字符的Q子向量与上下文字符的子向量K、子向量V，通过子向量之间的点乘运算使字符融合上下文语义信息。

作为本发明基于ALBERT的中文电子简历命名实体识别方法，进一步地，子向量之间的点乘运算表示为Attention(Q,K,V)＝Softmax(QK^T/d_k ^-1/2)V，其中，d_k表示字向量维。

作为本发明基于ALBERT的中文电子简历命名实体识别方法，进一步地，ALBERT模型中利用多头注意力机制从不同角度计算输入中文字符之间的相似度，进而依据相似度来获取每个中文字符的动态字向量。

作为本发明基于ALBERT的中文电子简历命名实体识别方法，进一步地，利用BiLSTM 提取字向量序列中的上下文语义信息来获取电子简历特征矩阵；并通过条件随机场CRF学习特征矩阵中相邻标签之间的依赖关系来获取全局最优标签序列。

作为本发明基于ALBERT的中文电子简历命名实体识别方法，进一步地，CRF中，利用标签转移矩阵来生成标签序列概率，并通过对标签序列概率进行归一化处理来获取标签序列条件概率；对于给定的训练样本，利用训练样本的对数似然函数的最大化求解来获取输入中文字符的最优标签序列。

作为本发明基于ALBERT的中文电子简历命名实体识别方法，进一步地，训练样本p(y,x) 的对数似然函数表示为：

其中，_y′_k表示预设标签组合中第 k个正确标签序列。

本发明的有益效果：

本发明利用ALBERT模型来实现电子简历中文字符特征的提取，能够减少计算参数，加快训练速度；并进一步利用BiLSTM提取上下文语义信息，通过CRF学习标签之间以来关系来获取全局最优标签序列，具有较好的鲁棒性和实用性。

附图说明：

图1为实施例中基于ALBERT的中文电子简历命名实体识别流程示意；

图2为实施例中ALBERT嵌入层示意；

图3为实施例中整体模型框架示意；

图4为实施例中LSTM单元结构示意。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

针对现有电子简历实体识别准确率低，采用BERT预训练语言模型虽能取得较高的准确率，但BERT模型参数量过大，训练时间长，其实际应用场景受限等的情形，本发明实施例，参见图1所示，提供一种基于ALBERT的中文电子简历命名实体识别方法，包含如下内容：

S101、利用已训练的ALBERT模型对输入的电子简历中文字符进行特征提取，将中文字符映射为融合字特征、位置特征和文本特征的字向量；

S102、通过提取字向量序列中的上下文语义信息来获取电子简历特征矩阵；

S103、学习特征矩阵中相邻标签之间的依赖关系，并通过设置标签之间转移的约束条件来获取全局最优标签序列。

本案实施例中，利用ALBERT模型来实现电子简历中文字符特征的提取，能够减少计算参数，加快训练速度。

进一步地，ALBERT模型包含字嵌入层和编码层，其中，针对输入的中文字符序列，字嵌入层通过查询词汇表将每个字符转换为字向量，并利用文本向量区分不同句子，位置向量区分输入字符序列的时序性，将字向量、文本向量和位置向量进行相加；并利用编码层对三向量相加的结果进行训练学习获取融合字特征、位置特征和文本特征的字向量。

基于ALBERT模型的字嵌入实现对语料集中字的向量化表达，参见图2所示，分为两个部分：一部分为字嵌入层，即图中的x_t→D_t；另一部分为Transformer的编码层，即图中的Trm；字嵌入层首先通过查询词汇表将每个字符转换为字向量，即将文本序列表示为 x＝{x₁,x₂,…,x_n}，此外，还有文本向量和位置向量，文本向量用来区分输入的不同句话，分别用0和1表示，位置向量表示输入序列的时序性，然后三特征向量相加形成D_t，最后通过多层Transformer(Trm)训练学习得到特征向量H_t，H_t融合了字特征、位置特征以及文本特征，是充分学习了上下文信息的字向量。与现有BERT模型相比，本案实施例中的ALBERT可采用嵌入向量参数因式分解、跨层参数共享等方法，能够进一步有效减少计算参数，加快训练速度。

在BERT模型中，词向量维度与隐藏层向量维度是相等的，但这种设置并不合理，词向量仅包含词的信息，而隐藏层向量学习了上下文语义，融合了词向量特征、文本特征以及位置特征，包含了更多的信息，且若训练词表过大，会造成模型达到数亿甚至数十亿的参数量，这对硬件设备的计算能力是极高的挑战。因此，本案实施例中的ALBERT模型采用因式分解的方式来降低参数量，被映射到低维空间的one-hot向量通过高维矩阵分配到高维空间，如公式(1)所示，以此来减少参数量。例如，在ALBERT-base模型中，词向量大小等于128，则总参数量为12M，当词向量大小等于768时，BERT-base的总参数量为108M。表1展示了在进行嵌入向量参数因式分解后BERT与ALBERT不同版本下的参数量对比。

O(V×H)→O(V×E+E×H)当H＞＞E (1)

式中，E表示词向量大小，H表示隐藏层大小，V表示词表大小，模型参数规模由 O(V×H)转换为O(V×E+E×H)，当H＞＞E时，参数量显著降低。

表1 BERT和ALBERT模型的参数分析

进一步地，本案实施例中的ALBERT采用跨层参数共享的方式来进一步减少参数量以及提升模型稳定性。通过共享全连接层和注意力层的全部参数使训练速度大幅度提高，模型效果稍有降低。如公式(2)所示。

O(12×L×H×H)→O(12×H×H) (2)

式中，L为隐藏层数量，共享隐藏层参数后，参数量从O(12×L×H×H)降为O(12×H×H)。

为了弥补由于参数减少而造成的性能损失，本案实施例中的ALBERT可将BERT模型采用的NSP(Next Sentence Prediction)训练任务替换为SOP(Sentence-OrderPrediction)。因为， NSP包含了主题预测和关系连贯性预测两个训练任务，主题预测较为简单，容易造成了下游任务性能的降低。本案中的ALBERT则只保留了关系连贯性预测，正样本和NSP任务中的正样本相同，为同一篇文章中两个顺序相连的句子，负样本则通过调换正样本中两个句子的顺序来获得。

ALBERT模型实为双向多层Transformer的编码结构,Transformer的核心为注意力机制，首先将每个字向量分解为Q(Query)，K(Key)，V(Value)三个子向量，使每个字符的Q与上下文字符的K点乘，计算相似度权重，再点乘V，使该字符融合了上下文语义信息。具体计算公式可如(3)所示。

Attention(Q,K,V)＝Softmax(QK^T/d_k ^-1/2)V (3)

其中，Q,K,V表示输入文本经过变换后的输入矩阵，d_k表示字向量维度，为避免当字向量维度过大时SoftMax操作后梯度变小的现象，使QK^T的点乘结果除以缩放因子

为了扩展模型关注不同位置的能力，可通过增加注意单元的“表示子空间”，Transformer 采用“多头(MultiHead)”模式，公式如(4)和(5)所示：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (4)

MultiHead(Q,K,V)＝Concat(head₁,…,head_k)W^o (5)

式中，W_i ^Q、W_i ^K、W_i ^V分别表示第i个head的Q、K、V，W^o表示输出矩阵。

进一步地，本案实施例中的ALBERT通过Transformer中的多头注意力机制从不同角度计算输入字符之间的相似度，以此获得每个字符的动态词向量作为BiLSTM层的输入。

参见图3所示，ALBERT层的输入为n个字序列，在ALBERT层将输入的每个字符映射为字向量，通过对输入文本进行特征提取，输出为融合了字特征、位置特征和文本特征的字向量H_t；利用BiLSTM提取字向量序列中的上下文语义信息来获取电子简历特征矩阵；并通过条件随机场CRF学习特征矩阵中相邻标签之间的依赖关系来获取全局最优标签序列。其中， BiLSTM层为正向

和反向

的组合，字向量序列H_t经过该层提取出上下文语义信息，并得到特征矩阵P_t；CRF层通过学习标签之间的依赖关系, 为标签之间的转移添加约束条件，最终获取全局最优标签序列。

为避免远距离依赖问题，本案实施例可采用双向LSTM(Long Short-Term Memory，LSTM) 网络学习上下文语义信息，LSTM通过引入门的机制控制信息的记忆和遗忘比例。LSTM的隐藏层由特殊的存储单元组成。每个单元包含四个部分：循环记忆单元、处理输入信息的输入门、控制输出信息的输出门和丢弃不重要信息的遗忘门。对于每个位置t,LSTM用输入向量H_t和前一个状态P_t-1计算当前隐藏状态P_t。LSTM单元结构如图4所示。其计算公式如式(6) ～式(11)所示：

其中，

分别表示t时刻的遗忘门、输出门、输入门和记忆单元状态。

为待学习的权重矩阵，b_f，b_o，b_i，b_c代表各个门控单元的偏置向量。σ()和tanh()为不同神经单元的激活函数。

在自然语言处理问题中，每个词都受到其前后词的影响，考虑文本的上下文信息对当前词状态的判断具有重要意义。因此，本案实施例可采用BiLSTM进行特征提取。BiLSTM模块可以同时考虑句子中每个字符的上下文信息，并将其结合起来，得到更全面的表示。BiLSTM 模块从嵌入层接收输入向量H＝[H₁,…,H_n]，进一步获取文本的序列信息，学习文本的上下文特征，经过正向

和反向

对信息融合后，返回另一个n维序列P＝[P₁,…,P_n]，与输入序列的每一步输入信息相对应。P_t的最终表示如公式(12)所示。

本案实施例中，进一步地，CRF中，利用标签转移矩阵来生成标签序列概率，并通过对标签序列概率进行归一化处理来获取标签序列条件概率；对于给定的训练样本，利用训练样本的对数似然函数的最大化求解来获取输入中文字符的最优标签序列。

CRF层的作用为学习标签间的转移矩阵，降低错误标签出现的概率。BiLSTM层可以通过softmax函数获取输入字符在各个标签类型下的得分，但是，softmax层输出的标签得分是相互独立的，会出现一些非法的情况。例如，姓名的开头词B-NAME后面跟着籍贯的非开头词I-LOC等。CRF层可以利用相邻标签之间的依赖信息进行句子级标签标注，通过添加标签的转移分数矩阵计算出整体序列的最优解，得到全局最优标签。

以序列P＝[P₁,P₂,…,P_n]为输入，CRF层利用过去和未来标签预测出最可能的标签序列 y＝(y₁,y₂,…,y_n)，定义转移矩阵

其中l_ij表示从标签i转移到标签j的概率，则产生标记序列y＝(y₁,y₂,…,y_n)的概率为:

对于p(x,y)使用Soft max函数做归一化，则得到标记序列y的条件概率为:

假设所有的标签组合为Y，y_j′∈Y表示Y中第j个正确标签序列。则对于给定的训练样本p(y,x) 的对数似然为:

训练时通过使用维特比算法最大化对数似然函数得到针对输入序列x＝(x₁,x₂,…,x_n)的最优标签序列:

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于ALBERT的中文电子简历命名实体识别方法，其特征在于，包含如下内容：

2.根据权利要求1所述的基于ALBERT的中文电子简历命名实体识别方法，其特征在于，ALBERT模型包含字嵌入层和编码层，其中，针对输入的中文字符序列，字嵌入层通过查询词汇表将每个字符转换为字向量，并利用文本向量区分不同句子，位置向量区分输入字符序列的时序性，将字向量、文本向量和位置向量进行相加；并利用编码层对三向量相加的结果进行训练学习获取融合字特征、位置特征和文本特征的字向量。

3.根据权利要求1或2所述的基于ALBERT的中文电子简历命名实体识别方法，其特征在于，ALBERT模型采用O(V×H)→O(V×E+E×H)当H＞＞E的因式分解过程来设置字向量维度，其中，E表示字向量大小，H表示隐藏层大小，V表示词汇表大小，模型参数规模由O(V×H)转换为O(V×E+E×H)。

4.根据权利要求1或2所述的基于ALBERT的中文电子简历命名实体识别方法，其特征在于，ALBERT模型中共享全连接层和注意力层的全部参数，其中，共享参数过程表示为O(12×L×H×H)→O(12×H×H)，L为隐藏层数量，H表示隐藏层大小。

5.根据权利要求1所述的基于ALBERT的中文电子简历命名实体识别方法，其特征在于，ALBERT模型中利用注意力机制将每个字向量分解为Q、K、V三个子向量，利用每个字符的Q子向量与上下文字符的子向量K、子向量V，通过子向量之间的点乘运算使字符融合上下文语义信息。

6.根据权利要求5所述的基于ALBERT的中文电子简历命名实体识别方法，其特征在于，子向量之间的点乘运算表示为Attention(Q,K,V)＝Softmax(QK^T/d_k ^-1/2)V，其中，d_k表示字向量维。

7.根据权利要求1或6所述的基于ALBERT的中文电子简历命名实体识别方法，其特征在于，ALBERT模型中利用多头注意力机制从不同角度计算输入中文字符之间的相似度，进而依据相似度来获取每个中文字符的动态字向量。

8.根据权利要求1所述的基于ALBERT的中文电子简历命名实体识别方法，其特征在于，利用BiLSTM提取字向量序列中的上下文语义信息来获取电子简历特征矩阵；并通过条件随机场CRF学习特征矩阵中相邻标签之间的依赖关系来获取全局最优标签序列。

9.根据权利要求8所述的基于ALBERT的中文电子简历命名实体识别方法，其特征在于，CRF中，利用标签转移矩阵来生成标签序列概率，并通过对标签序列概率进行归一化处理来获取标签序列条件概率；对于给定的训练样本，利用训练样本的对数似然函数的最大化求解来获取输入中文字符的最优标签序列。

10.根据权利要求1所述的基于ALBERT的中文电子简历命名实体识别方法，其特征在于，训练样本p(y,x)的对数似然函数表示为：

其中，y′_k表示预设标签组合中第k个正确标签序列。