CN117131845A

CN117131845A - 一种基于预训练语言模型和白化风格化的简历重构方法

Info

Publication number: CN117131845A
Application number: CN202311122400.5A
Authority: CN
Inventors: 吕建成; 屈茜; 刘权辉; 刘祥根; 叶庆; 张新宇; 蔡云逸; 余兰兰
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-09-01
Filing date: 2023-09-01
Publication date: 2023-11-28
Anticipated expiration: 2043-09-01
Also published as: CN117131845B

Abstract

本发明公开了一种基于预训练语言模型和白化风格化的简历重构方法，包括以下步骤：步骤1：获取简历数据，对数据进行预处理作为训练数据集和测试数据集；步骤2：构建性别分类器和规范化分类器；步骤3：构建简历复述模型并进行训练，简历复述模型以GPT2模型为主体，在靠近输出端的某一层连接用于对重构简历进行白化和风格化的白化‑风格化模块；步骤4：将简历输入步骤3训练完成的简历复述模型，即可得到风格重构简历；本发明构建的复述模型可以对简历进行性别中性化或规范化重写，并且将原始简历内容在词语级别和语义信息层面的多角度约束融入到生成过程中，对简历风格化改写提供依据。

Description

一种基于预训练语言模型和白化风格化的简历重构方法

技术领域

本发明涉及计算机技术领域，具体涉及一种基于预训练语言模型和白化风格化的简历重构方法。

背景技术

随着人工智能与大数据技术的进一步发展，NLP技术渗透到了各个行业，AI辅助简历撰写的应用程序已经出现，并且在市场上得到了广泛应用。这些应用程序使用自然语言处理和机器学习技术，通过分析大量简历和职位描述，自动生成优化的简历，以提高求职者的招聘成功率。然而，对于简历风格化的修订尚且欠缺，而这是不那么明显却依然很重要的一块。最近，人工智能系统越来越多的用于自动化许多招聘流程(如智能简历筛选)，由于从训练数据和从简历中推断的个人信息中学习到的偏见，一些人群可能会在没有人类指导和干预的情况下被人工智能算法歧视。这引起了对算法招聘公平性和道德的担忧。如此前亚马逊使用的人工智能招聘工具，被证明是对女性求职者具有偏见的。然而，有大量证据已经证明从不含任何标签的书写文本就可以以较高的正确率(70～80％)推断出书写者的性别，因此通过简单的不报告性别而实施的性别匿名化可能存在问题。

实际上，在自然语言文本生成领域，消除性别偏见已经得到重视。现有方法，有的通过对词嵌入向量进行编辑，消除词嵌入中的性别倾向。然而，通过编辑嵌入向量来消除单词性别倾向可能会破坏单词的语义，从而导致其在上下文中的意义发生变化。此外，编辑之后仍然可能在模型生成新文本的过程中纳入性别信息或偏见。也有方法针对消除具体文本段落中的性别歧视和倾向的研究，一种可以用来消除文本文档偏见的机器学习技术是文本风格迁移，这是一种将文本实例从一个域转换到另一个域的技术，尽可能保持原始内容和含义不变的同时改变文体风格。这些方法中，基于关键字替换的局限性较大，操作不够灵活且可能导致最后文本不够流畅。基于神经网络生成方法注重于去掉性别信息，而没有重视在这个过程中，对原始文本的其他性别无关的内容和信息的保持，可能会丢失重要信息，这对于简历的重写是十分关键的。

发明内容

本发明针对现有技术存在的问题提供一种基于预训练语言模型和白化风格化的简历重构方法。

本发明采用的技术方案是：一种基于预训练语言模型和白化风格化的简历重构方法，包括以下步骤：

步骤1：获取简历数据，对数据进行预处理作为训练数据集和测试数据集；

步骤2：构建性别分类器和规范化分类器；

步骤3：构建简历复述模型并进行训练，简历复述模型以GPT2模型为主体，在靠近输出端的某一层连接用于对重构简历进行白化和风格化的白化-风格化模块；

白化-风格化模块首先对重构简历进行白化转换，即去除输入表达中的风格信息，生成只包含基本内容信息的文本表示；然后对白化后的文本表示进行风格化恢复；

步骤4：将简历输入步骤3训练完成的简历复述模型，即可得到风格重构简历。

进一步的，所述步骤1中预处理包括对简历数据进行数据清洗，通过正则表达式去除包含乱码和非法符号的数据；得到简历正文和应聘者性别数据对。

进一步的，所述步骤2中性别分类器和规范化分类器采用基于GPT模型的分类模型，性别分类器输出简历作者性别，规范化分类器输出规范化标签；性别分类器和规范化分类器均使用交叉熵损失函数进行模型训练。

进一步的，所述白化转换过程如下：

计算潜在表达z的协方差矩阵

∑_z＝E[(z-z_μ)(z-z_μ)^T]

式中：z_μ为z的均值，T表示转置操作，E为期望；

将协方差矩阵与单位矩阵I之间差值的弗罗贝尔乌斯范数最小化：

式中：W为白化矩阵，F表示弗罗贝尼乌斯范数；

白化变换表示为：

c＝Wz

式中：z为输入简历的潜在表达，c为白化后的潜在表达。

进一步的，所述风格化过程如下：

代表风格特征的协方差矩阵∑_s进行分解：

式中：为特征值对角矩阵，/>为特征向量矩阵，S为风格化矩阵；

风格化矩阵如下：

风格化转换如下：

式中：为风格化的潜在表示。

进一步的，所述步骤4中训练过程中采用的多目标优化函数为将以下目标最小化：

式中：x为输入简历，y为重构后的简历；logp(y|x)为原始简历x的条件概率，f_gen(y)为对于重构简历的性别目标函数，f_formal(y)为对于重构简历的性别目标函数，f_cont(x，y)为定义在x和y之间的内容函数；

其中f_gen(y)采用性别分类器的性别预测概率的负对数；f_formal(y)采用规范化分类器的规范化预测概率的负对数；

f_cont(x，y)定义如下：

式中：为词语层级约束函数，f_{cont_sent}(x,y)为句子层级约束函数，γ₁和γ₂为加权超参数；

式中：n为模型构建的字典的大小，x_i为原始简历中的词，y_j为重构简历中的词，d_x、d_y分别为原始简历和重构简历中的词个数，T_ij为转移矩阵，c(x_i，y_j)为词语x_i和y_j的嵌入表示之间的欧式距离；subject to表示受限于；

f_{cont_sent}(x,y)＝cos(x,y)

式中：x和y均为句子向量。

进一步的，所述多目标优化函数求解过程如下：

最小化重构误差，同时各个约束的损失低于阈值：

f_gen(y)≤μ₁,f_rormal(y)≤μ₂，f_cont(x,y)≤ε₁

式中：μ₁、μ₂和ε₁均为可调整的超参数；

构建拉格朗日函数，然后使用梯度下降来优化拉格朗日乘数和y得到最优解。

本发明的有益效果是：

(1)本发明基于预训练模型进行简历风格化修正方法，采用了预训练大模型强大的语言生成能力，使得生成的简历文本在流畅度和目标风格满足方面质量更高；

(2)本发明可以对简历内容进行性别中性化或规范化重写，两种风格重新可以通过多目标优化的方法同时实施或根据需求进行某一种风格改写，使用更灵活；

(3)本发明采用多目标优化函数，从原始简历在词语构成和语义信息层面进行多角度约束，使得生成的建立更多的保留了原始建立中的内容信息，提高了实用性和有效性。

附图说明

图1为本发明方法流程示意图。

图2为本发明中简历复述模型结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明。

如图1所示，一种基于预训练语言模型和白化风格化的简历重构方法，包括以下步骤：

简历数据为简历与性别一一对应的匿名简历数据对；

预处理包括对简历数据进行数据清洗，通过正则表达式(也可以采用其他自然语言处理方法)去除包含乱码和非法符号的数据；得到简历正文和应聘者性别数据对。

随机无放回的从数据集中抽取数据，取90％作为训练集，5％作为验证集，5％作为测试集，分别用于训练模型参数、调整模型参数和测试模型效果。

步骤2：构建性别分类器和规范化分类器；

性别分类器和规范化分类器采用基于GPT模型的分类模型，性别分类器输出简历作者性别，规范化分类器输出规范化标签；性别分类器和规范化分类器均使用交叉熵损失函数进行模型训练。

性别分类器使用简历数据进行训练，输入为简历正文，模型输出为简历性别；损失函数采用交叉熵函数：

式中：y_i为样本i的label，正类为1，负类为0，p_i为样本i预测为正类的概率，N为。

规范化分类器基于GPT模型的分类模型，采用从网络上下载的公开数据集GYAFC训练规范称分类器，模型输出为规范化标签(规范文本/不规范文本)，同样使用交叉熵损失函数进行模型训练。

步骤3：构建简历复述模型(即图1中的复述模型)并进行训练，简历复述模型以GPT2模型为主体，在输出端连接用于对重构简历进行白化和风格化的白化-风格化模块；

建立复述模型如图2所示，主体部分为GPT2预训练模型，是由48个Transformer解码单元堆叠组成的深度网络模型；在GPT2模型靠近输出端的部分连接白化-风格化模块。

首先搭建由48个Transformer解码单元堆叠组成的深度网络GPT2模型，使用在大量公开数据集上预训练好的开源的预训练权重对该模型进行初始化。

对于原始GPT2模型，可变长度的简历x＝(x₁，x₂，...x_T)以字符为单位作为输入。GPT2模型由48层transformer解码单元的堆叠而成，每个transformer解码单元如图2所示。主要包括掩码多头自注意力层和前向反馈层，以及功能化的标准化层，用于对简历文本进行编码。

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^o

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

Attention是自注意力计算过程，它计算一段文本中的每个词与其他所有词的关系，学习句子内部的词与词之间的依赖关系，能够捕获句子的内部结构。MultiHead是多头注意力机制，Q、K、V是多头注意力层的输入，即输入向量；为K的维度平方根；通过h个不同的线性变换对Q、K、V进行投影，通过计算多次来捕获不同子空间上的相关信息。最后将不同的attention结果拼接起来，得到词与词之间多尺度更全面的联系。

FFN＝max(0，xW₁+b₁)W₂+b₂

output＝LN(x+subLayer(input))

式中：LN为标准化层，为层归一化操作；FFN为全连接层，subLayer为子层相应的计算公式，即前面提到的MultiHead或FFN公式，output为子层输出。

编码器的输入是预处理过的文本，每层transformer decoder模块的输出作为下一层的输入，最后的输出为针对原始简历重构的简历。

为了使得GPT复述模型更好的捕获简历语言特征，能够更高质量的实现原始简历的复述，我们在简历数据集上通过白化-风格化方法调整模型。

在使用白化-风格化的过程中构造伪平行数据集，在模型靠近输出端插入一个可学习参数的由线性层组成的风格化模块，来实现简历的复述模型。

白化转换可以除去输入表达中的风格信息，生成只包含基本内容信息的风格自由版本表达。首先计算输入潜在表达z的协方差矩阵

∑_z＝E[(z-z_μ)(z-z_μ)^T]

式中：z_μ为z的均值，T表示转置操作，E为期望；

通常情况下，通过特征值分解对∑_z进行因子分解，但特征值分解计算复杂，而且不可微分，无法通过反向传播进行优化。

本发明的方法对协方差矩阵进行约束，使z自然白化；将协方差矩阵与身份矩阵I之间差值的弗罗贝尔乌斯范数最小化：

式中：W为白化矩阵，F表示这是弗罗贝尔乌斯范数；

白化矩阵允许通过反向传播优化，而不需要特征值分解。白化转换可以表示为：

c＝Wz

式中：z为输入简历的潜在表达，c为白化后的潜在表达，为简历的样式自由形式。

将c视为残差，即c＝z-s，其中s表示被去除的样式属性信息。

风格化过程为对白化后的文本表示重新进行风格化建模，将白化特征的协方差矩阵与潜在表征的协方差矩阵进行匹配。∑_z为代表风格特征的协方差矩阵。

风格化过程如下：

代表风格特征的协方差矩阵Σ_z进行分解：

式中：为特征值对角矩阵，/>为特征向量矩阵，S为风格化矩阵，/>

风格化矩阵如下：

本发明中首先通过模型G中的附加模块获取矩阵S，即S＝MLP(z)；随后，通过计算矩阵S的列的L2范数，将其分解为两个矩阵，得到S＝VD；其中，的列向量为单位向量，/>为对角矩阵，其对角元素与S中每列向量L2范数相对应。为了更好的逼近U_s和Λ_s，V为正交矩阵，并且矩阵D中的每个对角项都是正的。

为了确保V列向量的正交性，引入正则化：

其中，I为单位矩阵；

风格化转换如下：

式中：为风格化的潜在表示。

通过白化-风格化这一类似对偶过程的转换，得到可以完成文本风格结构并从结构版回复完整内容的复述模型。这个以过程使得复述模型更加深入的捕获句子的主干内容，提高了其对简历内容的复述能力。

在简历风格重写中，目标是在保留原始简历，为了确保生成的文本符合目标风格，定义了一个多目标约束函数，在复述模型G的表达空间中执行多目标优化来得到风格重写后的简历。

训练过程中采用的多目标优化函数为将以下目标最小化：即给定输入简历x，目标是找到一个y，将以下目标最小化：

式中：x为输入简历，y为重构后的简历；log p(y|x)为原始简历x的条件概率，f_gen(y)为对于重构简历的性别目标函数，f_formal(y)为对于重构简历的性别目标函数，f_cont(x，y)为定义在x和y之间的内容函数；多目标优化即从复述模型根据输入简历x采样一个概率足够大的y，同时尽可能保证在内容和性格风格、规范化风格上的约束。可以灵活的进行风格重构，同时进行两种风格重写或只针对一个风格进行重构，只需在执行多目标优化的时候去掉f_gen(y)或f_formal(y)即可。

约束函数具体如下：

f_gen(y)采用性别分类器的性别预测概率的负对数f_gen(y)＝-log p_gender(y)；需要生成性别中性化的建立，所以理想情况下的预测值既不是男性也不是女性，为0.5。

f_formal(y)采用规范化分类器的规范化预测概率的负对数；f_formal(y)＝-log p_formal(y)，目标为规范化，即P_pformal(y)的理想状态是趋近于1。

f_cont(x，y)定义了原始简历和重构简历之间的内容约束，为了保证尽可能的忠于原始内容，设置了词语层级和句子层级两个级别的约束函数。对于词级相似度，使用词移动距离WMD，将两个文本文档之间的不相似度视为一个文档中的嵌入次到达另一个文档中的嵌入词所需“移动”的最小距离。

式中：n为模型构建的字典的大小，x_i为原始简历中的词，y_j为重构简历中的词，d_x、d_y分别为原始简历和重构简历中的词个数，T_ij为转移矩阵，表示从单次x_i有多少权重要流入到单词y_j，将在线性规划求解中一起优化。c(x_i，x_j)为词语x_i和y_j的嵌入表示之间的欧式距离；最后词移动距离可以使用线性规划求解得到。这个约束衡量了x和y之间的词汇重叠，是一种单词覆盖率的代表，可以鼓励生成的重构简历尽可能多的保留与风格改变无关的词汇。subject to为数学符号，表示受限于。

句子级别的约束定义为两个句向量之间的余弦相似度：

f_{cont_sent}(x，y)＝cos(x，y)

式中：x和y均为句子向量。

其中句子向量x和y由GPT编码。直觉上，余弦相似度计算了上下文语境中简历之间的语义相似度，鼓励总体内容维持不变。

f_cont(x，y)定义如下：

多目标优化函数求解过程如下：

最小化重构误差，同时各个约束的损失低于阈值：

f_gen(y)≤μ₁，f_formal(y)≤μ₂,f_cont(x,y)≤ε₁

式中：μ₁、μ₂和ε₁均为可调整的超参数；

其中，α和β是拉格朗日乘数。最优输出则是我们所需要的风格重构后的简历。我们使用梯度下降来优化拉格朗日乘数和y来找到y^*：

本发明利用预训练大规模强大的语言生成能力，使得生成的简历文本在流畅度和目标风格满足方面质量更高；对于给定的原始简历，对简历内容进行性别中性化或规范化重写，两种风格化重写可以通过多目标优化的方法同时实施或根据需求进行某一种风格改写，可以灵活的应用以提高简历质量；在模型进行简历风格重塑的生成过程中，提供了关于原始简历在词语构成和语义信息层面的多角度约束，使得生成的简历更多的保留了原始简历中的内容信息，提高了本发明方法的实用性和有效性。

Claims

1.一种基于预训练语言模型和白化风格化的简历重构方法，其特征在于，包括以下步骤：

步骤2：构建性别分类器和规范化分类器；

步骤3：构建简历复述模型并进行训练，简历复述模型以GPT2模型为主体，在输出端连接用于对重构简历进行白化和风格化的白化-风格化模块；

2.根据权利要求1所述的一种基于预训练语言模型和白化风格化的简历重构方法，其特征在于，所述步骤1中预处理包括对简历数据进行数据清洗，通过正则表达式去除包含乱码和非法符号的数据；得到简历正文和应聘者性别数据对。

3.根据权利要求1所述的一种基于预训练语言模型和白化风格化的简历重构方法，其特征在于，所述步骤2中性别分类器和规范化分类器采用基于GPT模型的分类模型，性别分类器输出简历作者性别，规范化分类器输出规范化标签；性别分类器和规范化分类器均使用交叉熵损失函数进行模型训练。

4.根据权利要求1所述的一种基于预训练语言模型和白化风格化的简历重构方法，其特征在于，所述白化转换过程如下：

计算潜在表达z的协方差矩阵

Σ_z＝E[(z-z_μ)(z-z_μ)^T]

式中：z_μ为z的均值，T表示转置操作，E为期望；

式中：W为白化矩阵，F表示弗罗贝尼乌斯范数；

白化变换表示为：

c＝Wz

式中：z为输入简历的潜在表达，c为白化后的潜在表达。

5.根据权利要求4所述的一种基于预训练语言模型和白化风格化的简历重构方法，其特征在于，所述风格化过程如下：

代表风格特征的协方差矩阵Σ_s进行分解：

风格化矩阵如下：

风格化转换如下：

式中：为风格化的潜在表示。

6.根据权利要求1所述的一种基于预训练语言模型和白化风格化的简历重构方法，其特征在于，所述步骤4中训练过程中采用的多目标优化函数为将以下目标最小化：

式中：x为输入简历，y为重构后的简历；log p(y|x)为原始简历x的条件概率，f_gen(y)为对于重构简历的性别目标函数，f_formal(y)为对于重构简历的性别目标函数，f_cont(x，y)为定义在x和y之间的内容函数；

f_cont(x，y)定义如下：

式中：为词语层级约束函数，f_{cont_sent}(x，y)为句子层级约束函数，γ₁和γ₂为加权超参数；

f_{cont_sent}(x，y)＝cos(x，y)

式中：x和y均为句子向量。

7.根据权利要求6所述的一种基于预训练语言模型和白化风格化的简历重构方法，其特征在于，所述多目标优化函数求解过程如下：

最小化重构误差，同时各个约束的损失低于阈值：

f_gen(y)≤μ₁，f_formal(y)≤μ₂，f_cont(x，y)≤ε₁

式中：μ₁、μ₂和ε₁均为可调整的超参数；