CN113705720A

CN113705720A - 机器学习中应用权重修正来减低加权训练偏差的方法

Info

Publication number: CN113705720A
Application number: CN202111048118.8A
Authority: CN
Inventors: 肖恩雷克; 蔡肇伟
Original assignee: National Astronomical Observatories of CAS
Current assignee: National Astronomical Observatories of CAS
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2021-11-26
Anticipated expiration: 2041-09-08
Also published as: US20230072631A1; CN113705720B

Abstract

本发明开发了一种机器学习中应用权重修正来减低加权训练偏差的方法，所述方法包括以下步骤：S1.标记各个群类的样本数量:计算训练数据中各个群类的样本数N_i，其中i为赋予群类的标签；S2.计算各个群类中样本的平均权重：在训练数据的某群类i中，将每个样本j的权重w_ij相加总和，然后除以N_i，并标记该群类i的平均权重w_i；S3.使用机器学习算法对训练数据中样本的特征与其相对应的标签做分类回归；S4.将机器学习分类器计算出对群类i的概率P_w(i)，通过应用权重修正公式对其进行修正，得到修正后的概率P(i)；S5.使用修正后的概率P(i)做出最终的分类决策。此方法能够提高分类器为机器学习应用中的新数据分配概率的准确性。

Description

机器学习中应用权重修正来减低加权训练偏差的方法

技术领域

本发明涉及人工智能领域，具体涉及机器学习技术，尤其是机器学习中通过权重修正，在机器学贝叶斯习分类器加权训练后修正偏差的方法。

背景技术

机器学习的基本目标是创建一个能够对输入的新样本进行快速分类的机器。例如，人们可能想要可以对包含猫或者狗的图片进行分类的程序。这样的程序被称为“分类器”。最常用的构造“分类器”的方法就是将已知群类类型的样本输入到机器学习的算法中进行“训练”。在训练后，分类器会产生两个结果。首先，它会估计样本属于每个群类的概率。然后使用估计的概率为每个样本分配一个群类标签。分配标签最常见的做法是用它最可能所属的群类的名称来标记每个样本，这种类型的分类器称为“贝叶斯分类器(Bayesclassifier)”。如果概率估计准确，使用贝叶斯分类器会尽可能降低错误分类的数量。每个群类的概率在机器学习的程序运行过程中通常没有被明确地计算及公布出来。在机器学习程序内部有一些类似作用的量；这些内部计算出的量，无论是否代表着真实的概率，都对训练数据中各群类样本的数量非常敏感。

当一群类目标样本在训练数据中数量相对较少时，常见的做法是强制平衡用于训练分类器的数据，例如重复少量群类的样本，或丢弃常见群类中的部分样本，以期将每群类样本以接近均等数量混合，使数量较少的群类在重新混合的数据集中，和其他群类具有数量相当的训练数据样本，从而加强调整机器学习训练分类器对稀有群类的分类决策几率。

为了更好地阐明分类器可能“忽略”稀有数据的原因，我们举一个简单的例子：如图1所示，给定训练样本图像中包含狗、狼、及北美郊狼，使用程序进行分类，以机器学习算法训练贝叶斯分类器将这三群类识别出来。利用机器学习对这三群类犬科动物的图像进行分类的过程，训练数据有两个明显的特性在做机器学习算法训练时必须注意：(1)由于狗在母群中数量众多，狗的图像在训练数据中通常比其他两种动物的图像更为常见；(2)三群类之间存在内在部分的特征重叠。如果分类器能够从图像中提取动物大小，以获得动物质量的估计值，按群类别划分的直方图将为如图1中的右上图所示。

在这种训练数据特征(在此例仅有动物质量为特征w)数量较少的情况下，可以从训练数据的直方图估计准确训练的分类器产生的概率。计算分两步完成：首先找到新样本所属的特征测量值区间，然后取每种群类型的训练数据的数量除以该特征测量值区间中各群类样本的总数。图2中右上图表明使用这样的估计方式。因为狗的样本数量在每个特征测量值区间中都超过了北美郊狼的数量,贝叶斯分类器永远不会将任何一个样本分配给北美郊狼这个群类。通过对稀有群类增加权重来解决这个问题，相当于强迫机器学习算法过度考虑稀有群类的样本存在的数量。训练数据借由调整每个群类别的样本数量而使得各群类权重相同，其“操纵加权”后数据的直方图如图二中右下图所示。由于分类器判别的群类的概率与直方图直接相关，如果某一常见群类的特征测量值区间与稀有群类的特征测量值区间相同，“操纵加权”的方法会产生不准确且有偏差的分类概率。

图1中，直方图基于区分狗、狼和北美郊狼的图片识别说明了加权对训练数据的影响。图1右上方的直方图表示未加权的原始数据，右下方的直方图是当数据在操纵加权后，各群类样本的数量相等的结果。垂直阴影部分表示贝叶斯分类器将新样本分配标记给某种群类的特征测量值区间。由此图可以看出，贝叶斯分类器在没有加权的情况下，不会将新样本分配给北美郊狼群类。

图2总结了机器学习使用加权数据训练贝叶斯分类器的标准流程。在这个图中的右上角，每个群类的相对大小代表了它在原始训练数据中的样本量的比例。一般来说，机器学习算法生成的分类器会估计某输入样本属于每个群类的概率，并依估算出的概率作为输入样本的分类依据。该过程从图2左上角开始，其中标记的训练数据被输入到加权器中依给定的机器学习算法训练。加权器的工作是为每个样本分配一个权重。一般为避免稀少群类因样本数量小，在训练数据中原始出现概率过低，而被提升被分类器忽略的问题，机器学习算法的使用者会将稀少群类的权重调升，例如将以所有群类均给予同样权重来训练训练贝叶斯分类器。这在图上通过各群类的相对大小变得相等来显示。机器学习流程的下一步是将强制平衡权重后的训练数据输入到机器学习算法，提供给分类器中(灰色虚线框)的概率计算器，再依计算出输入样本属于各群类概率，做出分类判断，建立可识别稀少群类的分类器。

对于机器学习的训练数据进行类别加权平衡的做法，会导致分类器产生分类判断概率与输入的训练数据中真实类别概率的偏差。因为概率用于分配分类标签，所以概率偏差直接影响分类器分配的分类标签的统计准确性。

发明内容

针对现有机器分类训练中，对于稀少样本的群类过度加权后计算概率存在偏差的技术问题，本发明的目的在于提供一种机器学习中应用权重修正的加权训练来修正偏差的方法。

为实现上述目的，本发明机器学习中应用权重修正来减低加权训练偏差的方法，所述方法包括以下步骤：

S1.标记机器学习分类器所使用的训练数据中的各个群类样本的数量：计算训练数据集中第i群类样本的总数，并标记为N_i；

S2.将训练数据输入加权，依照使用者给定的数据加权办法，计算在训练数据的某群类i中，每个数据样本j的权重w_ij；

S3.计算各个群类中样本的平均权重w_i；

S4.将训练数据中样本的特征与其相对应的标签以机器学习算法做分类回归；

S5.将机器学习训练后，机器学习分类器计算出对第i群类样本的概率P_w(i)，通过权重修正器，应用权重修正公式对其进行修正，得到修正后的概率P(i)；

S6.使用修正后的概率P(i)做出最终的分类决策。

进一步，所述分类器为贝叶斯分类器。

进一步，所述分类器包括两个子单元，分别为概率计算器和标记器；

所述概率计算器，用于计算每个单一输入样本属于某群类的概率；

所述标记器，使用概率计算器计算出对于输入样本属于每个群类的概率，来决定将该样本分配给某单个群类，做出分类决策。

进一步，所述S2中加权，是为每个训练数据样本分配一个权重，作为贝叶斯分类器训练概率计算的依据。

进一步，所述S2中所述“使用者给定的数据加权办法”，意指由使用者依照每个重点群类的数据样本量或个人喜好所选择的权重。

进一步，所述S3中，分类器计算第i群类样本的平均权重w_i的方法为：在训练数据的第i群类中，将每个样本j的权重w_ij相加总和，然后除以第i群类样本的总数N_i，并标记该群类i的平均权重w_i，此平均权重w_i可依下列公式计算：

进一步，所述权重修正器，用于对概率计算器计算出的概率P_w(i)应用权重修正公式进行修正，得到更加准确的修正后的概率。

进一步，所述权重修正器的权重修正公式：

其中，i为每个对象群类的标签，每个群类内样本数据的平均权重为w_i，分类器计算出第i群类的样本数据的新概率为P_w(i)，机器学习算法造成的训练加权偏差，通过上述公式计算的修正概率来消除。

进一步，在计算各个群类的平均权重过程中，除依机器学习数据特别要求外，每个样本权重默认为1。

进一步，通过将每个分类器计算出的每个群类的概率，除以相应类别的权重修正量来纠正加权偏差，然后对所有类别的概率进行重新归一化。

进一步，去权重过程中，首先控制常见样本的数量在可计算范围内，当常见样本的数量超出阈值，通过随机丢弃常见样本，使得常见样本的数量控制为小于或等于稀有样本数量的2倍。

根据本发明所述的在机器学习中应用重建自然加权的方法及程序，其可以在加权训练后，修正机器学习中对于稀少样本的群类过度加权而造成偏差，提高了贝叶斯分类器在某些场景下识别新数据中稀少群类的概率的准确性。

附图说明

图1以三种犬科动物为示例，展示了利用机器学习现有技术中，分类器对于稀少样本的群类过度加权而造成加权偏差的原理；

图2展示了现有机器学习技术中对于稀少样本的群类过度加权，以期增加贝叶斯分类器学习选择稀少群类的原理流程图；

图3展示了根据本发明所述的机器学习中应用权重修正来减低加权训练偏差的方法,在机器学习加权训练后修正加权偏差的流程图；

图4展示了根据本发明的在机器学习中应用权重修正来减低加权训练偏差的方法，在实施例一进行计算的结果示意图；

图5展示了根据本发明的机器学习中应用权重修正来减低加权训练偏差的方法，在实施例二进行计算的结果示意图。

具体实施方式

下面将结合附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

当前常用的机器学习分类器训练，为了增加贝叶斯分类器学习选择稀少群类的几率及效率，机器学习程序或使用者会对于训练数据集中样本稀少的群类过度加权。此处“过度加权”稀量群类的数据的方法，可以描述为：以调整训练数据里每个群类中固有的样本数量，以更好地平衡感兴趣群类别及其他不同群类训练样本的计数数量。由于机器学习程序训练出的分类器，对于分类概率是由对应训练样本内每个群类所占比例定义的，因此，以改变训练数据各群类的样本数量来改变训练加权，会引起最后分类的偏差。

本发明解决技术背景中所述问题的方案是：机器学习程序对分类器训练时，对于稀有群类的权重必要性的增加，或减少常见群类的权重，以利机器学习算法优先将其计算资源集中在精细分别不同群类在共有表征区间的最佳分类边界上，以及确保分类器的更多资源用于解决新样本是否属于稀有群类别的问题。在训练最后，将分类器的概率计算器计算出每个输入样本属于每个群类的概率，依照加权改变的量做反向修正，再由修正后的概率分配该样本应属的分类标签。本发明提供一种机器学习中应用权重修正来减低加权训练偏差的方法，该方法能够在修正加权后，恢复分类器概率准确性。

本发明提供的技术的应用不限于校正加权偏差，亦可解决通过除群类别标签之外的因素，对训练数据进行加权调整造成的分类概率偏差。与实际应用机器学习分类器的数据相比，训练数据不平衡是很常见的。通过将训练数据不平衡的群类概率除以群类个别的相应权重，来调整数据不平衡偏差，然后对所有群类别的概率进行重新归一化的过程，称为“权重修正”程序。权重修正本身虽然不能检测或测量训练数据中的群类数量不平衡偏差，但是一旦知道此项偏差，权重修正就可以解决训练数据的偏差，而不必重新训练分类器。

图3展示了根据本发明所述的机器学习中应用权重修正来减低加权训练偏差的方法,在机器学习加权训练后修正加权偏差的流程图。

图3展示了在本发明对于机器学习中，在具有样本稀少群类及样本较多的群类做学习分类的方法，应用重建自然加权的方法及程序修正一般机器学习对稀少群类过度加权造成的分类偏差。本发明机器学习中应用权重修正来减低加权训练偏差的方法，包括以下步骤：

S2.将训练数据输入加权器(weighter)，依照使用者给定的数据加权办法，计算在训练数据的某群类i中，每个数据样本j的权重w_ij；

所述“使用者给定的数据加权办法”，指由使用者依照每个重点群类的数据样本量或个人喜好所选择的权重。通常给定的加权方法是为了平衡机器学习算法对原数据中不同群类的关注，相对于统计权重，过度加重少样本的群类在机器学习过程的重要性。举例来说，为有效学习选取某在训练数据里样本数相对小的群类，使用者可以将该群类的权重以多倍数增加，使该群类的权重乘以样本数量与其他大样本群类的权重乘以样本数量相同或更高。

S3.计算各个群类中样本的平均权重：在训练数据(weighted data)的某群类i中，将每个样本j的权重w_ij相加总和，然后除以第i群类样本的总数N_i，并标记该群类i的平均权重w_i。此平均权重w_i可依下列公式计算：

S5.将机器学习训练后，机器学习分类器计算出对第i群类样本的概率P_w(i)，通过权重修正器，应用权重修正公式对其进行修正，得到修正后的概率P(i)；此处所述权重修正公式定义如下：

其中，i为每个对象群类的标签，每个群类内样本数据的平均权重为w_i，分类器计算出第i群类的样本数据的新概率为P_w(i)。机器学习算法造成的训练加权偏差，最终可以通过上述公式计算的修正概率来消除；

S6.使用修正后的概率P(i)做出最终的分类决策。

图3中，双线框部分显示了权重修正器，权重修正器应用于数据的标准过程中所处的阶段，以及其在分类器中的作用。本发明中，分类器为贝叶斯分类器，分类器包括两个子单元，分别为概率计算器和标记器；概率计算器：用于计算每个单一输入样本属于某群类的概率；标记器：使用概率计算器计算出对于输入样本属于每个群类的概率，来决定将该样本分配给某单个群类，做出分类决策。

概率计算器产生的概率，首先输入权重修正器，权重修正器将它们除以训练中使用的平均权重，重新归一化，然后再将修正后的概率传递给标记器分类标记。标记器根据计算的概率性地分配标签，输出数据集的样本数量统计将与输入数据集中的样本数量统计匹配，训练数据集的样本数量统计也与输入集数据匹配，这可以通过数据图例区域的相对大小来说明。在计算各个群类的平均权重过程中，除依机器学习数据特别要求外，每个样本权重默认为1。去权重过程中，首先控制常见样本的数量在可计算范围内，当常见样本的数量超出阈值，通过随机丢弃常见样本，使得常见样本的数量控制为小于或等于稀有样本数量的2倍。

此处所提及“权重修正”方法的优点，在于这种方法可以提高了机器学习分类器对新数据分配概率的正确性。正确的概率使得分类器的使用者可以研究其对实际样本分类后的统计，评估未标记数据分类后的可靠性和完备性，在不重新训练整个分类器的情况下，调整标记器中的决策边界，以满足使用者在完备性和可靠性方面不同着重程度的需求。

“权重修正”方法解决了机器学习分类器的偏差概率的问题，尤其是机器学习分类器在对样本比例或权重调整后的数据进行训练时，产生的有偏差概率的问题。无论比例或权重调整是通过对稀少样本的群类加权还是丢弃数据中数量较多群类的部分样本来完成的，权重修正是通过将概率除以权重来消除概率中引入的偏差的过程。当对常见样本数据量过多，罕见样本量很少的训练集进行分类时，尤其适合使用本发明提供的方法。这是我们在本申请中申请保护的发明点。

我们使用模拟数据以及天文观测的真实数据，对“权重修正”方法的有效性进行了测试。这些测试的结果表明“权重修正”方法按预期工作。

使用模拟试验，可以对分类器应该产生测试样本的真实概率作分析计算，以直接测量分类器产生的概率的准确性，从而明显地量化“权重修正”所带来的改进。

在另一例子中，我们对模拟数据和真实天文数据集进行了测试。图4和图5代表了所获得的测试结果。

图4中，展示了模拟数据集中真实概率与分类器计算出的概率的差距。图中显示了对于三类模拟星体。其中第一类星体(群类1)在母群里占有60％，第二类星体(群类2)占有38％，而第三类星体(群类3)占有2％。

图4中每个小图显示每个群类别的概率趋势，测试数据中的占比以其百分比在图表上方标记。群类1代表最常见的群类，群类2群类次之，而群类4是最罕见的群类。x轴代表训练集中使用的样本数量，y轴代表每个样本的真实概率与其模型概率之间的平均距离(Kullback-Leibler散度)，其值越高越代表真实概率与其模型概率的差距愈大。显示的趋势线分别为：红色长条实线代表使用没有加权的数据产生的概率差距的“基线”(base)；蓝色短虚线显示使用“加权”(weighted)数据产生的概率差距；紫色短虚线表示将本发明所提出的权重修正方法(deweighted)应用于加权数据训练后的模型的概率差距结果。由图上可以看出，使用加权数据训练分类器会造成分类偏颇(蓝色条纹线)的结果，而权重修正过程成功地将分类器的概率恢复到与无权重，接近真实的无偏数据(紫色条纹线到红色实线)的拟合结果。当数据样本增加，加权模型和有偏差模型所计算出的真实概率与其模型概率的差距就愈大。权重修正方法使得机器学习模型产生的模型样本分类概率与对数据真实概率的差距下降且趋于平稳，而且权重修正过程成功地提高了分类器计算概率的准确性。-

图5为对真实天文数据的测试。它显示了分类器应用在实际数据上达到的完备性(C)和可靠性(R)之间的差异，以及如果其概率准确应该达到的结果。换句话说，直线越接近零，概率就越准确。完备性是给定群类别被成功识别的比例，可靠性是给定群类别正确识别的比例。正如预期的那样，权重导致稀有对象过于完备和不可靠，因为许多目标实际上来自被错误分配给它们的公共类。

图5中展示本发明机器学习中应用权重修正来减低加权训练偏差的方法，在天文学应用上的观测到的实际结果(标示为obs)和统计模型上预期的结果(标示为mdl)之间的差异。图5的上列五个子图代表实际结果的完备性与统计预期计算的模型完备性之间的差异，而下列五个子图代表这两种结果在可靠性上的差异。图5每行代表一种不同类型的天体，每行顶端的文字标示该行所代表天体类型，以及该天体在训练数据中的比例。每个子图的x轴代表训练集中的样本总数。图中绘制的浅灰色线标示机器学习分类器能够准确标示各类天体的理想情况；红色实线代表样本“基线”，即为来自原始数据的未加权数据样本；蓝色短短虚线表示“加权”后的样本数；而紫色长虚线表示应用本发明机器学习中应用权重修正来减低加权训练偏差的方法，来修正机器学习分类器加权偏差的结果。随着总样本数大小增加的情况下，加权模型趋向于偏离理想值及真实基线，而权重修正后的分类器和理想值及真实基线趋向于一致。

在以上对天文学天体测试实施例中，本发明的修正方法及程序权重修正改进了分类器对加权数据的拟合性能，使其具有更准确的修正概率。

Claims

1.机器学习中应用权重修正来减低加权训练偏差的方法，其特征在于，所述方法包括以下步骤：

S3.计算各个群类中样本的平均权重w_i；

S6.使用修正后的概率P(i)做出最终的分类决策。

2.如权利要求1所述的机器学习中应用权重修正来减低加权训练偏差的方法，其特征在于，所述分类器为贝叶斯分类器。

3.如权利要求1所述的机器学习中应用权重修正来减低加权训练偏差的方法，步骤S2中所述“使用者给定的数据加权办法”，指由使用者依照每个重点群类的数据样本量或个人喜好所选择的权重。

4.如权利要求1所述的机器学习中应用权重修正来减低加权训练偏差的方法，其特征在于，所述分类器包括两个子单元，分别为概率计算器和标记器；

所述概率计算器，用于计算每个单一输入样本属于某群类的概率；所述标记器，使用概率计算器计算出对于输入样本属于每个群类的概率，来决定将该样本分配给某单个群类，做出分类决策。

5.如权利要求2所述的机器学习中应用权重修正来减低加权训练偏差的方法，其特征在于，所述S2中加权，是为每个训练数据样本分配一个权重，作为贝叶斯分类器训练概率计算的依据。

6.如权利要求1所述的机器学习中应用权重修正来减低加权训练偏差的方法，其特征在于，所述S3中，分类器计算第i群类样本的平均权重w_i的方法为：在训练数据的第i群类中，将每个样本j的权重w_ij相加总和，然后除以第i群类样本的总数N_i，并标记该群类i的平均权重w_i，此平均权重w_i可依下列公式计算：

7.如权利要求3所述的机器学习中应用权重修正来减低加权训练偏差的方法，其特征在于，所述权重修正器用于对概率计算器计算出的概率P_w(i)应用权重修正公式进行修正，得到更加准确的修正后的概率。

8.如权利要求6所述的机器学习中应用权重修正来减低加权训练偏差的方法，其特征在于，所述权重修正器的权重修正公式：

9.如权利要求7所述的机器学习中应用权重修正来减低加权训练偏差的方法，其特征在于，在计算各个群类的平均权重过程中，除依机器学习数据特别要求外，每个样本权重默认为1。

10.如权利要求8所述的机器学习中应用权重修正来减低加权训练偏差的方法，其特征在于，通过将每个分类器计算出的每个群类的概率，除以相应类别的权重修正量来纠正加权偏差，然后对所有类别的概率进行重新归一化。