CN111753044B

CN111753044B - 一种基于正则化的去社会偏见的语言模型及应用

Info

Publication number: CN111753044B
Application number: CN202010609422.4A
Authority: CN
Inventors: 陈晋音; 缪盛欢; 徐思雨; 陈治清; 徐国宁
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2022-05-17
Anticipated expiration: 2040-06-29
Also published as: CN111753044A

Abstract

本发明公开了一种基于正则化的去社会偏见的语言模型及应用，包括以下步骤：(1)清洗PTB语料文本库后，筛选PTB语料文本库中会出现社会偏见的词语并标记；(2)搭建包括三层LSTM网络、全连接层、softmax层的语言模型；(3)利用PTB语料文本库训练语言模型，在训练时，以文本生成任务的损失Loss_accuracy和去社会偏见正则化项损失Loss_fairness组成的总损失Loss为最终损失；(4)每训练一阶段，以语言模型输出的预测文本的社会偏见分数相对PTB语料文本的社会偏见分数的分布状态来评判语言模型的去社会偏见效果，当分布状态满意时，获得最终的语言模型。该语言模型提高了预测输出的公平性。

Description

一种基于正则化的去社会偏见的语言模型及应用

技术领域

本发明属于自然语言处理模型，具体涉及一种基于正则化的去社会偏见的语言模型及应用。

背景技术

人工智能治理成为近年来广泛关注的议题，而深度学习的公平性问题就是人工智能治理中最关键的问题。如何有效处理训练数据集中带有歧视性的偏见数据是机器学习目前面临的一个主要问题。有偏的训练数据集一般被认为是影响机器学习公平公正的重要因素之一。大多数机器学习模型都是通过在大型有标记数据集上训练得到的。例如，在自然语言处理中，标准的算法是在包含数十亿单词的语料库上训练的。研究人员通常通过抓取网站(如谷歌图像和谷歌新闻)、使用特定的查询术语，或通过聚合来自维基百科(Wikipedia)等来源的易于访问的信息来构建此类数据集。然后，由研究生或通过Amazon MechanicalTurk等众包平台对这些数据集进行注释和标记。数据集中的偏见会通过模型进行进一步放大，而且通过语言模型生成的结果会通过公众的传播扩散，使得一些有害的刻板印象被不断强化，甚至导致歪曲事实。依赖于这些模型的自动化系统可能采取带有对个人有偏见的数据进行决策。例如，有些人脸识别的系统被证明是存在性别偏见的，识别算法在女性用户面容上的表现远不如在男性用户上。

影响机器学习公平公正的另外一个重要因素是机器学习算法本身。一个经典机器学习的算法总是试图最大限度地提高在训练数据集中的总体预测精度。如果一组特定的个体在训练数据集中出现的频率高于其他个体，那么算法将会针对这些个体进行优化，从而提高算法整体准确度。在实验环境下，研究人员使用测试数据集进行评估以验证算法的有效性，但是测试集通常是原始训练数据集的随机子样本，因此可能包含相同的偏见。这样的数据和算法偏见已经成为一个日益严重的问题。近年来，开始涌现越来越多对评估和减少数据集以及模型偏见的研究。

为了确保机器学习的公平公正，研究人员认为主要有三种途径：一是提高用于训练机器学习算法的数据质量，公平、广泛的收集不同来源的数据，使用标准化的元数据系统地标注训练数据集的内容。二是改进机器学习算法本身。整合约束条件，从本质上使得机器学习算法在不同的子群体和相似的个体之间实现公平的性能；改变学习算法，减少对敏感属性的依赖，比如种族、性别、收入，以及任何与这些属性相关的信息。三是使用机器学习本身来识别和量化算法和数据中的偏见，即开展人工智能审计，其中审计人员是一个系统地探测原始机器学习模型的算法，以识别模型和训练数据中的偏见。

语言建模是一个容易受性别偏见影响的自然语言处理任务，同时也非常具有实际应用价值。语言建模的任务有许多实际应用，例如屏幕键盘上的单词预测、文本语句的预测。因此，克服这些语言模型的样本数据中存在的偏见，并减少样本数据对语言模型行为的影响。提供一种没有偏见的自然语言模型具有极其重要的理论与实践意义。

发明内容

本发明的目的是提供一种基于正则化的去社会偏见的语言模型及应用。该语言模型可以克服偏见问题，提高该语言模型的预测输出的公平性。

本发明的技术方案为：

第一方面，一种基于正则化的去社会偏见的语言模型的构建方法，包括以下步骤：

(1)清洗PTB语料文本库后，筛选PTB语料文本库中会出现社会偏见的词语并标记；

(2)搭建语言模型，所述语言模型包括三层LSTM网络、全连接层、softmax层；

(3)利用清洗后的PTB语料文本库训练语言模型，在训练时，以文本生成任务的损失Loss_accuracy和去社会偏见正则化项损失Loss_fairness组成的总损失Loss为最终损失；其中，去社会偏见正则化项损失Loss_fairness为：

λ反映偏差正则化项相对于文本生成任务的损失函数Loss_accuracy的权重，矩阵W表示词嵌入矩阵，矩阵B表示性别子空间矩阵，

表示其弗洛贝尼乌斯范数的平方，

表示词嵌入矩阵W在性别子空间矩阵B上的投影；

(4)每训练一阶段，以语言模型输出的预测文本的社会偏见分数相对PTB语料文本的社会偏见分数的分布状态来评判语言模型的去社会偏见效果，当分布状态满意时，获得最终的语言模型。

第二方面，一种基于正则化的去社会偏见的语言模型，所述语言模型通过上述基于正则化的去社会偏见的语言模型是构建方法获得。

第三方面，一种去社会偏见的语言文本生成方法，包括以下步骤：

(a)利用上述基于正则化的去社会偏见的语言模型的构建方法构建参数确定的语言模型；

(b)将原始语料文本输入至步骤(a)构建的语言模型中，经过计算输出去社会偏见的语言文本。

与现有技术相比，本发明具有的有益效果至少包括：

本发明在损失函数中加入了反映文本社会偏见项的正则化项来降低语言模型受原始带偏见文本库的影响来保证模型在文本预测时的公平性。同时，通过引入的针对语言模型的社会偏见程度的评价指标来评价语言模型的训练效果，大大提升了语言模型的训练效果，进而提升语言模型的公平性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的基于正则化的去社会偏见语言模型的结构示意图；

图2为本发明实施例提供的基于正则化的去社会偏见语言模型训练方法的流程示意图；

图3为本发明实施例提供的去社会偏见语言模型效果评价流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

如图1～图3所示，实施例提供了一种基于正则化的去社会偏见的语言模型的构建方法，包括以下步骤：

步骤1，定义语言模型的社会偏见。

对于文本数据，由于数据的复杂性较高，因此难以量化社会偏见。本发明把语言模型在进行文本预测时，由于原始训练的文本库中存在的社会偏见，导致语言模型决策时反映或放大这种社会偏见的现象定义为模型的偏见行为。例如，在前文已经出现“医生”这一词语时，语言模型在预测当前词语时，由于受训练文本库的影响，更容易将下一个词预测成“他”而不是“她”。原始数据的偏见通过语言模型带到了输出文本，将进一步加剧这种社会偏见的传播和扩散，即该模型存在社会偏见。语言模型偏见的定义用于指导针对文本库的社会偏见评价指标的设计和去社会偏见语言模型的损失函数设计。

步骤2，文本库数据集的选取

实施例中，选择PTB语料文本库作为样本数据，用于第语言模型训练，在被使用前，需要对PTB语料文本库进行处理，具体包括清洗PTB语料文本库和筛选PTB语料文本库中会出现社会偏见的词语并标记。在清洗PTB语料文本库时，将PTB语料文本库中除词语之外的特殊字符删除。这些特殊字符一般都是与语言模型预测关联不大的字符，包括表情、数学符号、箭头符号等。

步骤3，搭建并训练语言模型

实施例中，根据LSTM网络搭建语言模型，该语言模型包括LSTM-1、LSTM-2、LSTM-3、全连接层(Fully connected liner layer)、softmax层。在语言模型中，每层LSTM的隐层单元cells个数设置为1150，并且将输入的词嵌入尺寸选取为400；语言模型的学习率设置为30，将Batch尺寸设置为40。当语料库的词嵌入向量输入至语言模型后，经过计算可以预测生成文本。

在语言模型中的训练过程中，语言模型的输入文本的上下文滑动窗口的选择直接影响语言模型的训练效果。对于上下文滑动窗口，包括固定窗口和无限窗口两种：对于固定窗口结构，采用固定某单词的上下文范围来计算社会偏见，将固定窗口的尺寸设置为在5到15之间的某个常数。对于一个确定的窗口尺寸l,其中在目标单词之前的l个单词和目标单词之后的k个单词作为计算社会偏见分数的区域。合适的上下文窗口大小使有关目标词的捕获信息更加集中。经过实验，选择l＝10的最佳窗口，即对目标词之前的10个词和后面的10个词给予5％的相等权重；对于无限窗口结构，使用一个无限的上下文窗口，根据目标单词和性别单词之间的距离，权重以指数方式递减。给目标词直接邻近的词5％的权重，把后面的词的权重设置为前一词权重的0.95倍。这种指数加权而不是等权的方法可以增加窗口移动的稳定性。

设计语言模型的训练总损失Loss：

Loss＝Loss_accuracy+Loss_fairness (1)

其中，Loss_accuracy为文本生成任务的损失，该文本生成任务的损失Loss_accuracy为预测文本与输入文本PTB语料文本的交叉熵；

Loss_fairness为去社会偏见正则化项损失，去社会偏见正则化项损失可以减少语言模型中嵌入层的学习偏差，具体地：

表示其弗洛贝尼乌斯范数的平方，反映了语言模型当前词嵌入矩阵的社会偏见程度，

表示词嵌入矩阵W在性别子空间矩阵B上的投影；矩阵N和B将在每次语言模型训练的每次迭代中更新。

该性别子空间矩阵B的获取过程为：

定义PTB语料文本库所有单词的词嵌入向量组成的矩阵为词嵌入矩阵W，定义具有性别对立的两个词组成一组性别对立词，性别对立词组成性别集合，定义性别集合中每组性别对立词的两向量之差组成的矩阵为C：

其中，u_j和v_j分别表示第j组性别对立词两个词的词嵌入向量，j∈[1，n]，n为大于1的自然数；U、∑、V分别为对矩阵C进行奇异值分解得到的三个矩阵；

将矩阵V的前k列组成性别子空间矩阵B，即B＝V_1：k，V_1：k表示矩阵的1～k列，k的选取是满足所提取子空间包含矩阵V的50％以上的信息。

训练前，初始化语言模型的隐层参数权重，学习率设置为30，将Batch尺寸设置为40,训练最大迭代次数设为750，设定反映偏差正则化项相对于文本生成任务的损失函数Loss_accuracy的权重λ，该权重λ的设定也直接影响语言模型的训练效果，一般情况下，在训练过程中，会根据训练效果对权重λ进行调整再训练。

训练时，采用Adam优化器进行参数更新；将PTB语料文本输入至语言模型中，根据损失函数Loss更新语言模型参数，当训练达到最大迭代次数后保存语言模型中隐藏层的权重参数，获得权重参数确定的语言模型。

步骤4，评价语言模型的训练效果

当训练一阶段后，根据语言模型输出的预测文本的社会偏见分数相对PTB语料文本的社会偏见分数的分布状态来评判语言模型的去社会偏见效果。

具体地，评判语言模型的去社会偏见效果的过程为：

利用公式(4)和(5)计算PTB语料文本库中每个词的社会偏见分数bias_train(w)：

其中，g是性别词，包含男性和女性两类，当g＝f时，表示女性词，当g＝m时，表示男性词，w表示除性别词之外的词；c(·)是包含词·的上下文本窗口，c(w,g)表示在单词w和性别词g条件下的上下文本窗口，即在词w条件下其上下文本窗口出现性别词g的个数；P(w|g)表示单词w在上下文中出现带有性别的单词g的概率，i为词的索引；

对语料文本库中的每个单词都进行社会偏见分数的计算。根据文本库总的社会评价分数来评估该数据集中存在的社会偏见。例如，社会偏见分数大于0意味着一个词与女性词汇的搭配频率高于与男性词汇的搭配频率。

根据(4)和(5)计算预测文本中每个词的社会偏见分数bias_λ(w)；

每个词的社会偏见分数bias_λ(w)和社会偏见分数bias_train(w)进行拟合，得到拟合函数：

bias_λ(w)＝β*bias_train(w)+c (6)

其中，β为系数，表示生成文本相对于PTB语料文本的社会偏见放大或缓减的程度，β值越小，表示语言模型的去社会偏见性能越好，c表示拟合参数。可以根据β来评价语言模型的训练效果，即去社会偏见程度。

在另外一个实施方式中，评判语言模型的去社会偏见效果的过程为：

根据每个词的社会偏见分数bias_λ(w)和社会偏见分数bias_train(w)计算每个词的绝对去社会偏见分数

计算所有词的绝对去社会偏见分数

的平均值和方差，根据平均值和方差来评价语言模型的去社会偏见效果。

利用上述方法，当判断语言模型的去社会偏见效果满意时，则保存语言模型中隐藏层的权重参数，获得权重参数确定的语言模型。当不满意语言模型的去社会偏见效果时，则重新设定权重λ，继续训练，直到语言模型的去社会偏见效果满意为止。

该基于正则化的去社会偏见的语言模型的构建方法中，将语言模型中存在的偏见看成是该语言模型损失函数的一部分。为了减少文本的社会偏见，通过构造一个可以反映模型偏见的正则化项，将该正则化项与原始语言模型目标函数的损失函数进行线性叠加，整合成新的语言模型损失函数来训练去社会偏见的语言模型，从而降低语言模型对带有社会偏见特征的依赖性，进一步保证该语言模型在进行文本任务时的公平性。同时，通过引入的针对语言模型的社会偏见程度的评价指标来评价语言模型的训练效果，大大提升了语言模型的训练效果，进而提升语言模型的公平性。

实施例还提供了一种去社会偏见的语言文本生成方法，包括以下步骤：

步骤1，利用上述基于正则化的去社会偏见的语言模型的构建方法构建参数确定的语言模型；

步骤2，将原始语料文本输入至步骤1构建的语言模型中，经过计算输出去社会偏见的语言文本。

举例说明，当输入的原始语料文本为：王欢、医生、治病、很好，普通的语言模型根据该原始语料文本会输出：王欢是一名医生，他的治病效果很好。但实际上王欢是一名女性，应该用她，而不是他。当该原始语料文本输入至本发明的语言模型中后，由于该语言模型模型具有去社会偏见的功能，因此输出的预测文本为：王欢是一名医生，她的治病效果很好。

该去社会偏见的语言文本生成方法中，采用的语言模型具有去社会偏见的功能，将原始语料文本输入至语言模型，经过该语言模型能够客户原始预料文本中的性别偏见，输出具有公平性的预测语言文本。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于正则化的去社会偏见的语言模型的构建方法，其特征在于，包括以下步骤：

表示其弗洛贝尼乌斯范数的平方，

表示词嵌入矩阵W在性别子空间矩阵B上的投影；

(4)每训练一阶段，以语言模型输出的预测文本的社会偏见分数相对PTB语料文本的社会偏见分数的分布状态来评判语言模型的去社会偏见效果，当分布状态满意时，获得最终的语言模型；

其中，步骤(4)中，评判语言模型的去社会偏见效果的过程为：

利用公式(3)和(4)计算PTB语料文本库中每个词的社会偏见分数bias_train(w)：

根据公式(4)计算预测文本中每个词的社会偏见分数bias_λ(w)；

bias_λ(w)＝β*bias_train(w)+c (4)

其中，β为系数，表示生成文本相对于PTB语料文本的社会偏见放大或缓减的程度，β值越小，表示语言模型的去社会偏见性能越好，c表示拟合参数；

步骤(4)中，评判语言模型的去社会偏见效果的过程为：

计算所有词的绝对去社会偏见分数

2.如权利要求1所述的基于正则化的去社会偏见的语言模型的构建方法，其特征在于，在清洗PTB语料文本库时，将PTB语料文本库中除词语之外的特殊字符删除。

3.如权利要求1所述的基于正则化的去社会偏见的语言模型的构建方法，其特征在于，所述语言模型中，每层LSTM的隐层单元个数设置为1150，并且将输入的词嵌入尺寸选取为400；语言模型的学习率设置为30，将Batch尺寸设置为40。

4.如权利要求1所述的基于正则化的去社会偏见的语言模型的构建方法，其特征在于，所述文本生成任务的损失Loss_accuracy为预测文本与输入文本PTB语料文本的交叉熵。

5.如权利要求1所述的基于正则化的去社会偏见的语言模型的构建方法，其特征在于，所述性别子空间矩阵的获取过程为：

6.如权利要求1所述的基于正则化的去社会偏见的语言模型的构建方法，其特征在于，对于固定窗口结构，采用固定某单词的上下文范围来计算社会偏见，将固定窗口的尺寸设置为在5到15之间的某个常数；

对于无限窗口结构，使用一个无限的上下文窗口，根据目标单词和性别单词之间的距离，权重以指数方式递减，给目标词直接邻近的词5％的权重，把后面的词的权重设置为前一词权重的0.95倍。

7.一种去社会偏见的语言文本生成方法，其特征在于，包括以下步骤：

(a)利用权利要求1～6任一项所述的基于正则化的去社会偏见的语言模型的构建方法构建参数确定的语言模型；