CN108596255A

CN108596255A - 兼顾公平性的上下文感知学习的结果预测分类器

Info

Publication number: CN108596255A
Application number: CN201810378883.8A
Authority: CN
Inventors: 朱斐; 刘晓飞; 伏玉琛; 钟珊
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2018-09-28
Also published as: WO2019205544A1

Abstract

本发明公开了一种兼顾公平性的上下文感知学习的结果预测分类器，分类器采用如下分类步骤：（1）初始化分类器的探索参数；（2）初始化分类器的权重矩阵；（3）判断数据库中是否有数据，如是，则随机选取其中一条数据的特征，转至步骤（4），如否，则结束训练；（4）根据选取赌博臂的概率取出分类样本；（5）根据权重矩阵预测结果；（6）接收实际结果的反馈，判断是否满足条件，如是，则预测失败，转至步骤（7），如否，则转至步骤（3）；（7）更新分类器的权重矩阵。本发明分类器利用划分结果更新分类器，根据特征划分出类别，如划分错误，则进行分类器权重矩阵的更新，从而使分类器划分出的类别更准确了，使得预测成功率更高。

Description

兼顾公平性的上下文感知学习的结果预测分类器

技术领域

本发明涉及数据分类领域，具体涉及一种兼顾公平性的上下文感知学习的结果预测分类器。

背景技术

目前，机器学习的很多方法已经应用到人们生活中的各领域，如各类决策系统等。但是，随着研究的不断深入，机器学习所存在的问题也开始显现，如使用机器学习方法的分类系统在欠缺公平性、无法及时感知所做决策的上下文环境等。因此，越来越多人开始关注机器学习中的公平性问题，以避免所做决策存在偏颇、有失公平性，导致结果不够准确。

决策问题可以通过分类算法进行建模、解决。如某个问题是从A、B、C、D中做决策，选择其中一项，则其过程可以建模为一个分类问题，目标类是A、B、C、D这4个类别，分类结果为这4个类中的一个，分类结果即为决策结果。

分类是机器学习的一类重要的研究领域。在机器学习领域，分类是指在已有数据的基础上学习到一个称之为分类器(Classifier)的函数或模型，该函数或模型能够把数据映射到给定类别中的一个或多个，从而可以应用于预测。分类器的构造和实施大致经过以下几个步骤：(1)选定样本(包含正样本和负样本)，将所有样本分成训练样本和测试样本两部分；(2)在训练样本上执行分类器学习算法，生成分类模型；(3)在测试样本上执行分类，生成预测结果，计算评估指标，评价分类模型的性能；(4)根据分类的评估结果对分类器进行优化。

由于分类器是基于数据训练而生成的，因此，如果数据存在偏向性，则训练得到的分类器模型也会带有偏向性，造成所作出的决策自然也带有偏向性和不公平性。而在实际的环境中，由于各种因素，我们所采集到的数据不可避免的存在偏向性，由于这种偏向性的存在，学习分类器模型所使用的数据不能反映出真实环境的数据分布，这样就会导致所训练得到的分类器模型无法适用于真实环境中。故而，设计一种无论数据是否带有偏向性，模型本身能兼顾公平的分类器非常有现实价值。

在机器学习中，赌博机(bandit)是一类重要的模型，分单臂赌博机模型和多臂赌博机模型。在本发明中统称为赌博臂问题。赌博臂问题集中体现了在线学习及更宽泛的强化学习中一个核心的权衡问题：是应该探索(exploration)去尝试新的可能性，还是应该守成(exploitation)，坚持目前已知的最好选择。赌博机问题模型是构成一系列动态的分配问题，智能体要通过取用赌博臂探索环境来获取有价值的信息，然后通过利用这些有价值的信息来增加总的奖赏值。本发明提供一种兼顾公平性的上下文感知学习的结果预测分类器，结合解决上下文赌博臂问题用到的探索与利用的方法来进一步改善预测效果，并设计一个具有公平性的赌博臂反馈分类器来应对预测过程中的不公平性。

发明内容

本发明的发明目的是提供一种兼顾公平性的上下文感知学习的结果预测分类器，结合解决上下文赌博机问题用到的探索与利用的方法来进一步预测效果，并设计一个具有公平性的赌博机反馈分类器来应对预测过程中的不公平性。

为实现上述发明目的，本发明提供以下的技术方案：一种兼顾公平性的上下文感知学习的结果预测分类器，

所述分类器通过有序的训练样本((X1,y1),...,(Xt-1,yt-1))进行t-1轮训练后得到映射f_t-1，在第t轮训练时，分类器根据映射f_t-1得出测试样本(Xt,yt)的预测值并且更新映射，分类器采用如下分类步骤：

(1)初始化分类器的探索参数γ∈(0,0.5)；

(2)初始化分类器的权重矩阵W元素全为0；

(3)判断数据库中是否有数据，如是，则随机选取其中一条数据的特征x_t，转至步骤(4)，如否，则结束训练；

(4)根据选取赌博臂的概率P[r]取出分类样本

其中，r是赌博臂的编号，取(0，k)的任意值；

γ是探索系数；

w_rx是选取第r个赌博臂的奖赏值；

k是赌博臂的总数；

P表示概率，P[]是一个数组，里面存放着选取对应的赌博臂的概率；

(5)根据权重矩阵预测结果

(6)接收实际结果yt的反馈，判断是否满足如下条件：如是，则预测失败，转至步骤(7)，如否，则转至步骤(3)；

(7)根据如下公式更新分类器的权重矩阵：

其中，为随机变量，表示随机试验各种结果的实值单值函数；

W^t+1[r]为更新后选取赌博臂r的权重；

W^t[r]为更新前选取赌博臂r的权重。

上文中，

E(·)是数学期望，是试验中每次可能结果的概率乘以其结果的总和，是最基本的数学特征之一。正是我们希望分类器做的，即:只在分类器预测错误的时候更新分类器。

上述技术方案中，所述

上述技术方案中，步骤(2)中，权重矩阵W为维度是k*d的矩阵。

上述技术方案中，步骤(3)中，x_t∈R^d，x_t为一个维度为1*d的矩阵，用数字描述特征。

上述技术方案中，步骤(5)中，预测结果的值为r，r为0表示是一类，r为1表示另一类，r为使得W^t[r]x_t较大的数，如果W^t[1]x_t大于W^t[0]x_t，则预测结果为1所代表的那一类，如果W^t[1]x_t小于W^t[0]x_t，则预测结果为成功0所代表的那一类。

上述技术方案中，分类器根据如下公式计算分类器总的错误预测次数：

其中，∑是求和符号，用于求多项式的和；

y_i表示第t轮训练所选取的特征的标签；

表示第t轮训练所选取的特征的标签；

表示只有当时才等于1。

上述技术方案中，数据库中的数据集线性可分以使

上述技术方案中，分类器根据如下公式计算累计损失：

其中，是预测值的损失。

上述技术方案中，分类器根据如下公式计算预测值的铰链损失：

其中，W是权值向量；

X是特征向量。

由于上述技术方案运用，本发明与现有技术相比具有以下优点：本发明公开的兼顾公平性的上下文感知学习的结果预测分类器，分类器不是单纯的根据特征划分出类别就结束了，还要利用划分结果更新分类器，根据特征划分出类别，如划分错误，则进行分类器权重矩阵的更新，从而使分类器划分出的类别更准确了，使得预测成功率更高。

附图说明

图1为本发明公开的兼顾公平性的上下文感知学习的结果预测分类器的分类步骤流程图。

具体实施方式

下面结合本发明的原理、附图以及实施例对本发明进一步描述

参见图1，如其中的图例所示，一种兼顾公平性的上下文感知学习的结果预测分类器，

(1)初始化分类器的探索参数γ∈(0,0.5)；

(2)初始化分类器的权重矩阵W元素全为0；

(4)根据选取赌博臂的概率P[r]取出分类样本

其中，r是赌博臂的编号，取(0，k)的任意值；

γ是探索系数；

w_rx是选取第r个赌博臂的奖赏值；

k是赌博臂的总数；

(5)根据权重矩阵预测结果

(6)接收实际结果y_t的反馈，判断是否满足如下条件：如是，则预测失败，转至步骤(7)，如否，则转至步骤(3)；

(7)根据如下公式更新分类器的权重矩阵：

W^t+1[r]为更新后选取赌博臂r的权重；

W^t[r]为更新前选取赌博臂r的权重。

一种实施方式中，所述

一种实施方式中，步骤(2)中，权重矩阵W为维度是k*d的矩阵。

一种实施方式中，步骤(3)中，x_t∈R^d，x_t为一个维度为1*d的矩阵，用数字描述特征。

一种实施方式中，步骤(5)中，预测结果的值为r，r为0表示是一类，r为1表示另一类，r为使得W^t[r]x_t较大的数，如果W^t[1]x_t大于W^t[0]x_t，则预测结果为1所代表的那一类，如果W^t[1]x_t小于W^t[0]x_t，则预测结果为成功0所代表的那一类。

一种实施方式中，分类器根据如下公式计算分类器总的错误预测次数：

其中，∑是求和符号，用于求多项式的和；

y_i表示第t轮训练所选取的特征的标签；

表示第t轮训练所选取的特征的标签；

表示只有当时才等于1。

一种实施方式中，数据库中的数据集线性可分以使

一种实施方式中，分类器根据如下公式计算累计损失：

其中，是预测值的损失。

一种实施方式中，分类器根据如下公式计算预测值的铰链损失：

其中，W是权值向量；

X是特征向量。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种兼顾公平性的上下文感知学习的结果预测分类器，其特征在于，所述分类器通过有序的训练样本((X1,y1),...,(Xt-1,yt-1))进行t-1轮训练后得到映射f_t-1，在第t轮训练时，分类器根据映射f_t-1得出测试样本(Xt,yt)的预测值并且更新映射，分类器采用如下分类步骤：

(1)初始化分类器的探索参数γ∈(0,0.5)；

(2)初始化分类器的权重矩阵W元素全为0；

(4)根据选取赌博臂的概率P[r]取出分类样本

其中，r是赌博臂的编号，取(0，k)的任意值；

γ是探索系数；

w_rx是选取第r个赌博臂的奖赏值；

k是赌博臂的总数；

(5)根据权重矩阵预测结果

(7)根据如下公式更新分类器的权重矩阵：

W^t+1[r]为更新后选取赌博臂r的权重；

W^t[r]为更新前选取赌博臂r的权重。

2.根据权利要求1所述的兼顾公平性的上下文感知学习的结果预测分类器，其特征在于，所述

3.根据权利要求1所述兼顾公平性的上下文感知学习的结果预测分类器，其特征在于，步骤(2)中，权重矩阵W为维度是k*d的矩阵。

4.根据权利要求1所述的兼顾公平性的上下文感知学习的结果预测分类器，其特征在于，步骤(3)中，x_t∈R^d，x_t为一个维度为1*d的矩阵，用数字描述特征。

5.根据权利要求1所述的兼顾公平性的上下文感知学习的结果预测分类器，其特征在于，步骤(5)中，预测结果的值为r，r为0表示是一类，r为1表示另一类，r为使得W^t[r]x_t较大的数，如果W^t[1]x_t大于W^t[0]x_t，则预测结果为1所代表的那一类，如果W^t[1]x_t小于W^t[0]x_t，则预测结果为成功0所代表的那一类。

6.根据权利要求1所述的兼顾公平性的上下文感知学习的结果预测分类器，其特征在于，分类器根据如下公式计算分类器总的错误预测次数：

其中，∑是求和符号，用于求多项式的和；

y_i表示第t轮训练所选取的特征的标签；

表示第t轮训练所选取的特征的标签；

表示只有当时才等于1。

7.根据权利要求1所述的兼顾公平性的上下文感知学习的结果预测分类器，其特征在于，数据库中的数据集线性可分以使

8.根据权利要求1所述的兼顾公平性的上下文感知学习的结果预测分类器，其特征在于，分类器根据如下公式计算累计损失：

其中，是预测值的损失。

9.根据权利要求1所述的兼顾公平性的上下文感知学习的结果预测分类器，其特征在于，分类器根据如下公式计算预测值的铰链损失：

其中，W是权值向量；

X是特征向量。