CN113642226A - 基于多目标进化算法的公平机器学习模型的训练方法 - Google Patents
基于多目标进化算法的公平机器学习模型的训练方法 Download PDFInfo
- Publication number
- CN113642226A CN113642226A CN202110653352.7A CN202110653352A CN113642226A CN 113642226 A CN113642226 A CN 113642226A CN 202110653352 A CN202110653352 A CN 202110653352A CN 113642226 A CN113642226 A CN 113642226A
- Authority
- CN
- China
- Prior art keywords
- machine learning
- learning models
- fairness
- indexes
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/06—Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Genetics & Genomics (AREA)
- Physiology (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多目标进化算法的公平机器学习模型的训练方法,尤其是在伦理问题的公平性背景中的基于多目标进化算法的公平机器学习模型的训练方法。根据场景确定多个正交性的公平性指标和准确性指标;根据多个正交性的公平性指标和准确性指标建模为多个优化目标;根据基于种群的多目标进化算法的多个算子以及多个优化目标对机器学习模型进行演化。同时考虑多个具有正交性的公平性指标和准确性指标,通过使用多个指标可以多角度的评估模型公平性,使评估更加全面。不会重复从同一角度评估,避免计算资源的浪费或被动增加该指标的重要性。通过提高种群内模型的多样性,生成具有高质量和多样的机器学习模型。
Description
技术领域
本发明实施例涉及机器学习技术,尤其涉及一种在伦理问题的公平性背景 中的基于多目标进化算法的公平机器学习模型的训练方法。
背景技术
随着机器学习在不同应用中的广泛使用,机器学习的安全性和公平性的要 求越来越高。大量的研究者尝试解决机器学习中不公平性的问题。
随着机器学习在不同应用中的广泛使用,安全和公平性约束已经成为研究 人员和工程师面临的一个巨大问题。机器学习在法庭上被用来评估被告重新犯 罪的可能性。它被用于不同的医疗领域,在儿童福利系统和自动驾驶汽车。所 有这些应用程序都对我们的生活有直接影响。因此,在设计这些类型的敏感工 具时,考虑公平性约束是一项至关重要的任务。
大量的研究者尝试解决机器学习中不公平性的情况。然而,度量不公平性 的定义是难以确定的,需要考虑定义公平的哲学和伦理争论,因此,创建公平 量化的广义概念是具有挑战性的。度量公平性的指标通常要么强调个人(例如每 个人都被平等对待),要么强调群体公平,而后者则进一步区分于群体内部(如 女性vs男性)和群体之间的公平。目前,使用已确立的定义组合这些理想在数 学上是难以处理的。
有研究表明,大量的公平性的度量指标是相互冲突的,例如Demographic Parity与Equalized Odds、Individual fairness与Group fairness等,同 时也表明:通常增加公平性往往会导致整体准确性或其相关指标降低。因此, 大量的学者尝试在不同的公平性指标间,与公平性指标与准确性之间进行折中 处理。
如图1所示,目前的一种实现方式为,以预测准确性指标为目标,使用训 练数据训练机器学习模型。根据某个公平性指标对训练后获得的模型进行评估。 该模型被一个或多个公平性指标是否判为公平。如果公平,则输出模型。如果 不公平,则不使用该模型。通过对训练数据进行处理,如去除掉偏见数据,使 用处理后的训练数据再次训练模型。上述实现方式在模型训练过程中未考虑公 平性。
如图2所示,目前的另一种实现方式为,以预测准确性指标和单个公平性 指标的加权和为目标,使用训练数据训练机器学习模型。根据某个公平性指标 对训练后获得的模型进行评估。判断该模型被一个或多个公平性指标是否判公 平。如果公平,则输出模型。如果不公平,则不使用该模型。通过对训练数据 进行处理,如去掉偏见数据,或者改变预测准确性指标和单个公平性指标的加 权和公式,再次训练模型。上述实现方式在机器学习模型训练过程中只考虑一 个公平性指标,并且需要在训练前决定公平性指标和模型准确性指标的权值, 一次训练只能获得一个相应的模型。因此,当处理不同问题时,需要调整其不同的权重值,来达到用户可接受的结果。当不同的用户需要在不同公平性指标 与准确性指标之间具有不同的折中要求时,只能重新运行算法才能得到另一个 折中方案的结果。
可见,目前大多采用对某一种公平性的度量指标进行优化。然而,公平性 的度量指标有很多,且多个公平性指标之间存在冲突的情况,公平性的增加, 导致准确性的降低。只考虑一个公平性衡量指标训练机器学习模型时,使用另 一个公平性衡量指标评估所获得的模型时,可能因为两种指标的评估角度不同 或矛盾性而获得相反的评估结果。如何获得在多种角度的公平性与准确性之间 达到不同的优选折中方案成为亟待解决的问题。
发明内容
本发明提供一种基于多目标进化算法的公平机器学习模型的训练方法,以 实现生成预测率高、更公平、且具有多样性的机器学习模型,得到多个侧重不 同评估指标的、具有多样性的机器学习模型,提高机器学习模型的公平性和准 确性。
第一方面,本发明实施例提供了一种基于多目标进化算法的公平机器学习 模型的训练方法,包括:
根据场景确定多个正交性的公平性指标和准确性指标;
根据多个正交性的公平性指标和准确性指标建模为多个优化目标;
根据基于种群的多目标进化算法的多个算子以及所述多个优化目标对机器 学习模型进行演化。
在上述实施方式的基础上,基于自然繁衍和适者生存法则和多目标进化算 法的多个算子以及所述多个优化目标对机器学习模型进行演化,包括:
步骤1、对多个第一机器学习模型进行训练;
步骤2、在多个第一机器学习模型之间进行演化,得到多个第二机器学习 模型;
步骤3、根据训练后的第一机器学习模型和训练后的多个第二机器学习模 型的准确性指标和多个公平性指标,确定多个第三机器学习模型。
第二方面,本发明实施例还提供了一种基于多目标进化算法的公平机器学 习模型的训练装置,包括:
指标确定单元,用于根据场景确定多个正交性的公平性指标和准确性指标;
建模单元,用于根据多个正交性的公平性指标和准确性指标建模为多个优 化目标;
演化单元,用于根据基于种群的多目标进化算法的多个算子以及所述多个 优化目标对机器学习模型进行演化。
在上述实施方式的基础上,演化单元包括:
第一机器学习模型训练模块,用于对多个第一机器学习模型进行训练;
演化模块,用于在多个第一机器学习模型之间进行演化,得到多个第二机 器学习模型;
第三机器学习模型确定模块,用于根据训练后的第一机器学习模型和训练 后的多个第二机器学习模型的准确性指标和多个公平性指标,确定多个第三机 器学习模型。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器 及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现 如本申请实施例所示的基于多目标进化算法的公平机器学习模型的训练方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质, 计算机可执行指令在由计算机处理器执行时用于执行如本申请实施例所示的基 于多目标进化算法的公平机器学习模型的训练方法。
本发明实施例提供的基于多目标进化算法的公平机器学习模型的训练方法, 根据场景确定多个正交性的公平性指标和准确性指标;根据多个正交性的公平 性指标和准确性指标建模为多个优化目标;根据基于种群的多目标进化算法的 多个算子以及所述多个优化目标对机器学习模型进行演化。本申请实施例提供 的基于多目标进化算法的公平机器学习模型的训练方法,同时考虑多个具有正 交性的公平性指标和准确性指标,通过使用多个指标可以多角度的评估模型公 平性,使评估更加全面。同时,由于其“正交性”,不会重复从同一角度评估, 避免计算资源的浪费或被动增加该指标的重要性。此外,使用多目标进化算法 同时优化模型预测准确率和多个公平性指标,不需要人为设计权重,同时可以获得一组非互相支配的机器学习模型。通过提高种群内模型的多样性,生成具 有高质量和多样的机器学习模型,为用户提供更多选择。在上述实施方式的基 础上,对多个第一机器学习模型进行训练;在多个第一机器学习模型之间进行 演化,得到多个第二机器学习模型;根据训练后的第一机器学习模型和训练后 的多个第二机器学习模型的准确性指标和多个公平性指标,确定多个第三机器 学习模型。相对于目前针对一种公平性指标进行优化,本发明实施例能够在多 个第一机器学习模型之间进行演化,得到的多个第二机器学习模型,使得第二 机器学习模型保存有第一机器学习模型的部分特点,根据训练后的第一机器学 习模型和训练后的多个第二机器学习模型的准确性指标和多个公平性指标,确 定多个第三机器学习模型,能够基于多个公平性指标和准确性指标共同确定第 三机器学习模型,确定的第三机器学习模型能够兼顾多个、具有多样性的、正 交性的公平性衡量指标,在准确性与多个公平性之间得到不同的优选折中方案 集,提高机器学习模型集在公平性和准确性上的表现。
附图说明
图1是现有技术的一种模型训练示意图;
图2是现有技术的另一种模型训练示意图;
图3是本发明实施例一中的基于多目标进化算法的公平机器学习模型的训 练方法的流程图;
图4是本发明实施例二中的基于多目标进化算法的公平机器学习模型的训 练方法的流程图;
图5是本发明实施例三中的基于多目标进化算法的公平机器学习模型的训 练装置的结构示意图;
图6是本发明实施例四中的计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此 处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需 要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结 构。
实施例一
图3为本发明实施例一提供的基于多目标进化算法的公平机器学习模型的 训练方法的流程图,本实施例可适用于对机器学习使用的机器学习模型进行训 练的情况,该方法可以由计算机设备来执行,具体包括如下步骤:
根据场景确定多个正交性的公平性指标和准确性指标;根据多个正交性的 公平性指标和准确性指标建模为多个优化目标;根据基于种群的多目标进化算 法的多个算子以及所述多个优化目标对机器学习模型进行演化。
其中,根据基于种群的多目标进化算法的多个算子以及所述多个优化目标 对机器学习模型进行演化,可以通过下述方式实施:
步骤1、对多个第一机器学习模型进行训练。
预先配置训练集Dt和验证集Dv。可以配置第一数量n个第一机器学习模型, n为大于1的整数。使用训练集Dt对第一机器学习模型进行训练,得到n个第 一机器学习模型,记为M1,…,Mn。多个第一机器学习模型又可称为第一学习模 型集。
步骤2、在多个第一机器学习模型之间进行演化,得到多个第二机器学习 模型。
多个第二机器学习模型又可称为第二学习模型集。演化又可称为进化,含 义相同。本申请实施例基于多目标进化算法(MOEA)对第一机器学习模型进行 演化,得到多个第二机器学习模型。根据步骤1训练得到的第一机器学习模型, 基于多目标进化算法,从多个第一机器学习模型中选择出父代机器学习模型。 基于多目标进化算法,在父代机器学习模型之间进行交叉,将子代机器学习模 型。基于多目标进化算法,对子代机器学习模型进行变异,将变异后的子代机 器学习模型作为第二机器学习模型。
可选的,步骤21、根据多个第一机器学习模型选择多个父代机器学习模型。
选择出的父代机器学习模型的数量可以为第二数量μ,第一机器学习模型 的数量可以为第一数量n,第一数量n大于第二数量μ。
在一种实现方式中,步骤21可通过下述方式实施:根据多目标进化算法的 选择算子,从第一数量的第一机器学习模型中选择第二数量的父代机器学习模 型,第二数量小于第一数量。
多目标进化算法通过选择算子Os,从n个第一机器学习模型中选择μ个父 代机器学习模型。
步骤22、对多个父代机器学习模型进行交叉,得到多个子代机器学习模型 的第三数量与第一数量相同,均为n个。
在上述实施方式中,步骤22可通过下述方式实施:根据多目标进化算法的 交叉算子对第二数量的父代机器学习模型进行交叉,得到第一数量的子代机器 学习模型。
多目标进化算法通过交叉算子Oc,对第二数量μ个父代机器学习模型进行 交叉,得到第一数量的子代机器学习模型。
步骤23、对多个子代机器学习模型进行异变,得到多个第二机器学习模型。
在上述实施方式中,步骤23可通过下述方式实施:根据多目标进化算法的 变异算子,对第一数量的子代机器学习模型进行异变,将变异后的子代机器学 习模型作为第二机器学习模型。
多目标进化算法通过选择算子Om对子代机器学习模型进行变异,得到第一 数量n个第二机器学习模型,记为M′1,…,M′n。
上述实施例中,多目标进化算法通过选择算子、交叉算子、变异算子对机 器学习模型进行处理,能够模拟自然的繁衍和适者生存,对机器学习模型进行 演化,迭代生成预测率高、更公平、且具有多样性的机器学习模型。
步骤3、根据多个训练后的第一机器学习模型和训练后的多个第二机器学 习模型的准确性指标和多个公平性指标,确定多个第三机器学习模型。
多个第三机器学习模型又可称为第三学习模型集。根据第一机器学习模型 计算出多个第一公平性指标和第一准确性指标。对第二机器学习模型的进行训 练,根据训练后的第二机器学习模型计算多个第二公平性指标和第二准确性指 标。根据多个第一公平性指标、第一准确性指标、多个第二公平性指标以及第 二准确性指标能够从第一机器学习模型和第二机器学习模型中选择出更优的第 一数量n个第三机器学习模型。可以对步骤3进行迭代处理,通过多次迭代, 得到优化的多个第三机器学习模型。由于第三机器学习模型是基于第一公平性 指标、第一准确性指标、多个第二公平性指标以及第二准确性指标选择出的, 因此随着迭代的进行,得到第三机器学习模型能够具备更优的多项公平性指标 和准确性。
本发明实施例提供的基于多目标进化算法的公平机器学习模型的训练方法, 根据场景确定多个正交性的公平性指标和准确性指标;根据多个正交性的公平 性指标和准确性指标建模为多个优化目标;根据基于种群的多目标进化算法的 多个算子以及所述多个优化目标对机器学习模型进行演化。本申请实施例提供 的基于多目标进化算法的公平机器学习模型的训练方法,同时考虑多个具有正 交性的公平性指标和准确性指标,通过使用多个指标可以多角度的评估模型公 平性,使评估更加全面。同时,由于其“正交性”,不会重复从同一角度评估, 避免计算资源的浪费或被动增加该指标的重要性。此外,使用多目标进化算法 同时优化模型预测准确率和多个公平性指标,不需要人为设计权重,同时可以获得一组非互相支配的机器学习模型。通过提高种群内模型的多样性,生成具 有高质量和多样的机器学习模型,为用户提供更多选择。
本发明实施例提供的基于多目标进化算法的公平机器学习模型的训练方法, 通过多目标学习算法提高机器学习模型的多方面公平性。具体的,通过将不同 公平性衡量指标和准确性衡量指标建模为多个优化目标,同时考虑多个不同评 估指标,如多个公平性指标和准确性指标,不需要人为设定权值或公式将多个 指标集成为单目标。由于不存在针对各单一评估指标所设计权值的限定,用户 使用时可以通过具体场景的需求,从训练后的多个第三机器学习模型中权衡选 择合适的模型。
此外,本发明实施例提供的基于多目标进化算法的公平机器学习模型的训 练方法,通过基于种群的多目标进化算法提升公平的机器模型训练速度。具体 的,多目标进化算法通过多目标学习算法的选择算子、交叉算子、变异算子和 替换算子,模拟大自然的繁衍和适者生存,对机器学习模型进行演化,迭代生 成预测率高、更公平、且具有多样性的多个第三机器学习模型。由于多目标进 化算法基于种群的特征,可以通过提高种群内多样性,生成具有高质量和多样 性的机器学习模型,给用户提供多样化的选择。同时,提供多个侧重不同评估 指标的、具有多样性的高质量的机器学习模型,可用于构建集成模型。
在上述实施方式的基础上,对多个第一机器学习模型进行训练;在多个第 一机器学习模型之间进行演化,得到多个第二机器学习模型;根据训练后的第 一机器学习模型和训练后的多个第二机器学习模型的准确性指标和多个公平性 指标,确定多个第三机器学习模型。相对于目前针对一种公平性指标进行优化, 本发明实施例能够在多个第一机器学习模型之间进行演化,得到的多个第二机 器学习模型,使得第二机器学习模型保存有第一机器学习模型的部分特点,根 据训练后的第一机器学习模型和训练后的多个第二机器学习模型的准确性指标 和多个公平性指标,确定多个第三机器学习模型,能够基于多个公平性指标和 准确性指标共同确定第三机器学习模型,确定的第三机器学习模型能够兼顾多个、具有多样性的、正交性的公平性衡量指标,在准确性与多个公平性之间得 到不同的优选折中方案集,提高机器学习模型集在公平性和准确性上的表现。
实施例二
图4为本发明实施例二提供的基于多目标进化算法的公平机器学习模型的 训练方法的流程图,作为对上述实施例的进一步说明,该方法包括:
步骤210、对多个第一机器学习模型进行训练。
在一种实现方式中,随机初始化多个第一机器学习模型;根据训练数据集 对每个第一机器学习模型进行训练。
可以使用相同的训练集对第一机器学习模型和第二机器学习模型进行训练。 步骤210使用的训练数据集Dt与步骤230中训练第二机器学习模型所使用的数 据集Dt相同,进而保证机器学习模型训练过程的稳定性,以便在训练数据不变 的前提下,基于公平性指标和准确性筛选更优的第三机器学习模型。
步骤220、在多个第一机器学习模型之间进行演化,得到多个第二机器学 习模型。
步骤220可参照上述实施例中步骤2的说明。
步骤230、对每个第二机器学习模型进行训练。
在上述实施方式中,步骤230可实施为:根据训练数据集对每个第二机器 学习模型进行训练。
使用步骤210中的训练数据集Dt对每个第二机器学习模型进行训练。
步骤240、对于任意一个训练后的第二机器学习模型,根据训练后的第二 机器学习模型确定多个第二公平性指标和第二准确性指标。
对针对每个训练后的第二机器学习模型计算多个第二公平性指标和第二准 确性指标。假设有m个公平性指标,则每个第二机器学习模型得到m个第二公 平性指标,以及一个第二准确性指标。对于任意一个第二机器学习模型i,其 得到m个第二公平性指标记为:E′i,1,E′i,2,…,E′i,m和一个第二准确性指标记为: E′i,m+1。
步骤250、对于任意一个训练后的第一机器学习模型,根据训练后的第一 机器学习模型确定多个第一公平性指标和第一准确性指标。
第一机器学习模型和第二机器学习模型所使用的计算的公平性指标计算方 式形同。基于第一机器学习模型得到的公平性指标称为第一公平性指标,基于 第二机器学习模型得到的公平性指标称为第二公平性指标。
步骤260、根据第一公平性指标和第一准确性指标、第二公平性指标和第 二准确性指标,确定多个第三机器学习模型。
可选的,在得到第一公平性指标和第一准确性指标、第二公平性指标和第 二准确性指标后,基于多目标进化算法,通过替换算子Or和种群多样评估从2n 个机器学习模型中选择出n个机器学习模型作为第三机器学习模型。
可选的,步骤260可通过下述方式实施:根据第一准确性指标、第二公平 性指标和第二准确性指标的数值进行排序;根据排序结果的顺序,确定多个第 三机器学习模型。
可以预先为各个公平性指标配置权重,将权重以及计算得到的公平性指标 的乘积,作为公平性评价参数。进而得到各第一公平性指标、第二公平性指标、 第一准确性指标以及第二准确性指标对应的公平性评价参数。
通过统计每个机器学习模型(第一机器学习模型以及第二机器学习模型) 的公平性评价参数的总和得到每个机器学习模型的评分,基于该评分进行排序。 将评分较大的第一数量的机器学习模型确定为第三机器学习模型。
进一步的,在步骤260确定多个第三机器学习模型之后,还包括:
将多个第三机器学习模型确定为新的训练后的多个第一机器学习模型,循 环执行步骤2、在多个第一机器学习模型之间进行演化,得到多个第二机器学 习模型;至步骤3、根据训练后的第一机器学习模型和训练后的多个第二机器 学习模型的准确性指标和多个公平性指标,确定多个第三机器学习模型。直至 满足截止条件。
由于机器学习模型需要多次迭代进行优化,因此在确定n个第三机器学习 模型之后,将多个第三机器学习模型确定为新的训练后的多个第一机器学习模 型,并循环执行步骤220至步骤260。
可选的,截止条件可以由用户进行配置。可选的,截止条件包括:迭代次 数与预设迭代次数匹配;或者,迭代时长与预设执行时长匹配等。
可以将迭代的次数或者迭代的时间作为截止条件。当迭代次数满足预设迭 代次数,或者迭代时间达到预设迭代时长时,确定满足截止条件。
本发明实施例提供的基于多目标进化算法的公平机器学习模型的训练,能 够基于多个公平性指标和准确性对第一机器学习模型和第二机器学习模型进行 筛选,得到更加优化的第三机器学习模型。通过多次迭代,使得第三机器学习 模型能够具备多个公平性指标平衡的同时,具备较高的准确性。
实施例三
图5为本发明实施例三提供的基于多目标进化算法的公平机器学习模型的 训练装置的结构示意图,本实施例可适用于对机器学习使用的机器学习模型进 行训练的情况,该装置可以由计算机设备来执行,该装置包括:指标确定单元, 用于根据场景确定多个正交性的公平性指标和准确性指标;建模单元,用于根 据多个正交性的公平性指标和准确性指标建模为多个优化目标;演化单元,用 于根据基于种群的多目标演化算法的多个算子以及所述多个优化目标对机器学 习模型进行演化。
在上述实施方式的基础上,演化单元包括:第一机器学习模型训练模块310、 演化模块320和第三机器学习模型确定模块330。
第一机器学习模型训练模块310,用于对多个第一机器学习模型进行训练;
演化模块320,用于在多个第一机器学习模型之间进行演化,得到多个第 二机器学习模型;
第三机器学习模型确定模块330,用于根据训练后的第一机器学习模型和 训练后的多个第二机器学习模型的准确性指标和多个公平性指标,确定多个第 三机器学习模型。
在上述实施例的基础上,演化模块320用于:
根据多个第一机器学习模型选择多个父代机器学习模型;
对多个父代机器学习模型进行交叉,得到多个子代机器学习模型;
对多个子代机器学习模型进行异变,得到多个第二机器学习模型。
在上述实施例的基础上,演化模块320用于:
根据多目标进化算法的选择算子,从第一数量的第一机器学习模型中选择 第二数量的父代机器学习模型,第二数量小于第一数量;
根据多目标进化算法的交叉算子对第二数量的父代机器学习模型进行交叉, 得到第一数量的子代机器学习模型;
根据多目标进化算法的变异算子,对第一数量的子代机器学习模型进行异 变,将变异后的子代机器学习模型作为第二机器学习模型。
在上述实施例的基础上,第三机器学习模型确定模块330用于:
对每个第二机器学习模型进行训练;
对于任意一个训练后的第二机器学习模型,根据训练后的第二机器学习模 型确定多个第二公平性指标和第二准确性指标;
对于任意一个训练后的第一机器学习模型,根据训练后的第一机器学习模 型确定多个第一公平性指标和第一准确性指标;
根据第一公平性指标和第一准确性指标、第二公平性指标和第二准确性指 标,确定多个第三机器学习模型。
在上述实施例的基础上,还包括循环模块,循环模块用于:
将多个第三机器学习模型确定为新的训练后的多个第一机器学习模型,循 环执行步骤2至步骤3,直至满足截止条件。
在上述实施例的基础上,第一机器学习模型训练模块310用于:
随机初始化多个第一机器学习模型;
根据训练数据集对每个第一机器学习模型进行训练;
相应的,演化模块320用于:
根据训练数据集对每个第二机器学习模型进行训练。
在上述实施例的基础上,第三机器学习模型确定模块330用于:
根据第一准确性指标、第二公平性指标和第二准确性指标的数值进行排序;
根据排序结果的顺序,确定多个第三机器学习模型。
本发明实施例提供的基于多目标进化算法的公平机器学习模型的训练装置, 指标确定单元根据场景确定多个正交性的公平性指标和准确性指标;建模单元 根据多个正交性的公平性指标和准确性指标建模为多个优化目标;演化单元根 据基于种群的多目标进化算法的多个算子以及所述多个优化目标对机器学习模 型进行演化。本申请实施例提供的基于多目标进化算法的公平机器学习模型的 训练装置,同时考虑多个具有正交性的公平性指标和准确性指标,通过使用多 个指标可以多角度的评估模型公平性,使评估更加全面。同时,由于其“正交 性”,不会重复从同一角度评估,避免计算资源的浪费或被动增加该指标的重要 性。此外,使用多目标进化算法同时优化模型预测准确率和多个公平性指标, 不需要人为设计权重,同时可以获得一组非互相支配的机器学习模型。通过提 高种群内模型的多样性,生成具有高质量和多样的机器学习模型,为用户提供 更多选择。
本发明实施例提供的基于多目标进化算法的公平机器学习模型的训练装置, 通过多目标学习算法提高机器学习模型的多方面公平性。具体的,通过将不同 公平性衡量指标和准确性衡量指标建模为多个优化目标,同时考虑多个不同评 估指标,如多个公平性指标和准确性指标,不需要人为设定权值或公式将多个 指标集成为单目标。由于不存在针对各单一评估指标所设计权值的限定,用户 使用时可以通过具体场景的需求,从训练后的多个第三机器学习模型中权衡选 择合适的模型。
此外,本发明实施例提供的基于多目标进化算法的公平机器学习模型的训 练装置,通过基于种群的多目标进化算法提升公平的机器模型训练速度。具体 的,多目标进化算法通过多目标学习算法的选择算子、交叉算子、变异算子和 替换算子,模拟大自然的繁衍和适者生存,对机器学习模型进行演化,迭代生 成预测率高、更公平、且具有多样性的多个第三机器学习模型。由于多目标进 化算法基于种群的特征,可以通过提高种群内多样性,生成具有高质量和多样 性的机器学习模型,给用户提供多样化的选择。同时,提供多个侧重不同评估 指标的、具有多样性的高质量的机器学习模型,可用于构建集成模型。
在上述实施方式的基础上,第一机器学习模型训练模块310对多个第一机 器学习模型进行训练;演化模块320在多个第一机器学习模型之间进行演化, 得到多个第二机器学习模型;第三机器学习模型确定模块330根据训练后的第 一机器学习模型和训练后的多个第二机器学习模型的准确性指标和多个公平性 指标,确定多个第三机器学习模型相对于目前针对一种公平性指标进行优化, 本发明实施例能够在多个第一机器学习模型之间进行演化,得到的多个第二机 器学习模型,使得第二机器学习模型保存有第一机器学习模型的部分特点,根 据训练后的第一机器学习模型和训练后的多个第二机器学习模型的准确性指标 和多个公平性指标,确定多个第三机器学习模型,能够基于多个公平性指标和准确性指标共同确定第三机器学习模型,确定的第三机器学习模型能够兼顾多 个、具有多样性的、正交性的公平性衡量指标,在准确性与多个公平性之间得 到不同的优选折中方案集,提高机器学习模型集在公平性和准确性上的表现。
本发明实施例所提供的基于多目标进化算法的公平机器学习模型的训练装 置可执行本发明任意实施例所提供的基于多目标进化算法的公平机器学习模型 的训练方法,具备执行方法相应的功能模块和有益效果。
实施例四
图6为本发明实施例四提供的一种计算机设备的结构示意图,如图6所示, 该计算机设备包括处理器40、存储器41、输入装置42和输出装置43;计算机 设备中处理器40的数量可以是一个或多个,图6中以一个处理器40为例;计 算机设备中的处理器40、存储器41、输入装置42和输出装置43可以通过总线 或其他方式连接,图6中以通过总线连接为例。
存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可 执行程序以及模块,如本发明实施例中的基于多目标进化算法的公平机器学习 模型的训练方法对应的程序指令/模块(例如,基于多目标进化算法的公平机器 学习模型的训练装置中的第一机器学习模型训练模块310、演化模块320和第 三机器学习模型确定模块330)。处理器40通过运行存储在存储器41中的软件 程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即 实现上述的基于多目标进化算法的公平机器学习模型的训练方法。
存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储 操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用 所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括 非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固 态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设 置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实 例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置42可用于接收输入的数字或字符信息,以及产生与计算机设备的 用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设 备。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,计算机可 执行指令在由计算机处理器执行时用于执行一种基于多目标进化算法的公平机 器学习模型的训练方法,该方法包括:
根据场景确定多个正交性的公平性指标和准确性指标;
根据多个正交性的公平性指标和准确性指标建模为多个优化目标;
根据基于种群的多目标进化算法的多个算子以及所述多个优化目标对机器 学习模型进行演化。
在上述实施例的基础上,基于自然繁衍和适者生存法则和多目标进化算法 的多个算子以及所述多个优化目标对机器学习模型进行演化,包括:
步骤1、对多个第一机器学习模型进行训练;
步骤2、在多个第一机器学习模型之间进行演化,得到多个第二机器学习 模型;
步骤3、根据多个训练后的第一机器学习模型和训练后的多个第二机器学 习模型的准确性指标和多个公平性指标,确定多个第三机器学习模型。
在上述实施例的基础上,在多个第一机器学习模型之间进行演化,得到多 个第二机器学习模型,包括:
根据多个第一机器学习模型选择多个父代机器学习模型;
对多个父代机器学习模型进行交叉,得到多个子代机器学习模型;
对多个子代机器学习模型进行异变,得到多个第二机器学习模型。
在上述实施例的基础上,根据多个第一机器学习模型选择多个父代机器学 习模型,包括:
根据多目标进化算法的选择算子,从第一数量的第一机器学习模型中选择 第二数量的父代机器学习模型,第二数量小于第一数量;
对多个父代机器学习模型进行交叉,得到多个子代机器学习模型,包括:
根据多目标进化算法的交叉算子对第二数量的父代机器学习模型进行交叉, 得到第一数量的子代机器学习模型;
对多个子代机器学习模型进行异变,得到多个第二机器学习模型,包括:
根据多目标进化算法的变异算子,对第一数量的子代机器学习模型进行异 变,将变异后的子代机器学习模型作为第二机器学习模型。
在上述实施例的基础上,根据多个训练后的第一机器学习模型和训练后的 多个第二机器学习模型的准确性指标和多个公平性指标,确定多个第三机器学 习模型,包括:
对每个第二机器学习模型进行训练;
对于任意一个训练后的第二机器学习模型,根据训练后的第二机器学习模 型确定多个第二公平性指标和第二准确性指标;
对于任意一个训练后的第一机器学习模型,根据训练后的第一机器学习模 型确定多个第一公平性指标和第一准确性指标;
根据第一公平性指标和第一准确性指标、第二公平性指标和第二准确性指 标,确定多个第三机器学习模型。
在上述实施例的基础上,在确定多个第三机器学习模型之后,还包括:
将多个第三机器学习模型确定为新的训练后的多个第一机器学习模型,循 环执行步骤2至步骤3,直至满足截止条件。
在上述实施例的基础上,对多个第一机器学习模型进行训练,包括:
根据训练数据集对每个第一机器学习模型进行训练;
相应的,对每个第二机器学习模型进行训练,包括:
根据训练数据集对每个第二机器学习模型进行训练。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计 算机可执行指令不限于如上的方法操作,还可以执行本发明任意实施例所提供 的基于多目标进化算法的公平机器学习模型的训练方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到, 本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很 多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上 或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机 软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、 闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以 是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述基于多目标进化算法的公平机器学习模型的训练装置 的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不 局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体 名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员 会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进 行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽 然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以 上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例, 而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种基于多目标进化算法的公平机器学习模型的训练方法,其特征在于,包括:
根据场景确定多个正交性的公平性指标和准确性指标;
根据多个正交性的公平性指标和准确性指标建模为多个优化目标;
根据基于种群的多目标进化算法的多个算子以及所述多个优化目标对机器学习模型进行演化。
2.根据权利要求1所述的方法,其特征在于,所述基于自然繁衍和适者生存法则和多目标进化算法的多个算子以及所述多个优化目标对机器学习模型进行演化,包括:
步骤1、对多个第一机器学习模型进行训练;
步骤2、在所述多个第一机器学习模型之间进行演化,得到多个第二机器学习模型;
步骤3、根据多个所述训练后的第一机器学习模型和训练后的多个第二机器学习模型的准确性指标和多个公平性指标,确定多个第三机器学习模型。
3.根据权利要求2所述的方法,其特征在于,在所述多个第一机器学习模型之间进行演化,得到多个第二机器学习模型,包括:
根据所述多个第一机器学习模型选择多个父代机器学习模型;
对所述多个父代机器学习模型进行交叉,得到多个子代机器学习模型;
对所述多个子代机器学习模型进行异变,得到多个第二机器学习模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述多个第一机器学习模型选择多个父代机器学习模型,包括:
根据多目标进化算法的选择算子,从第一数量的第一机器学习模型中选择第二数量的父代机器学习模型,所述第二数量小于所述第一数量;
相应的,所述对所述多个父代机器学习模型进行交叉,得到多个子代机器学习模型,包括:
根据所述多目标进化算法的交叉算子对所述第二数量的父代机器学习模型进行交叉,得到第一数量的子代机器学习模型;
相应的,所述对所述多个子代机器学习模型进行异变,得到多个第二机器学习模型,包括:
根据所述多目标进化算法的变异算子,对第一数量的子代机器学习模型进行异变,将变异后的子代机器学习模型作为第二机器学习模型。
5.根据权利要求2所述的方法,其特征在于,所述根据多个所述训练后的第一机器学习模型和训练后的多个第二机器学习模型的准确性指标和多个公平性指标,确定多个第三机器学习模型,包括:
对每个所述第二机器学习模型进行训练;
对于任意一个训练后的第二机器学习模型,根据所述训练后的第二机器学习模型确定多个第二公平性指标和第二准确性指标;
对于任意一个训练后的第一机器学习模型,根据所述训练后的第一机器学习模型确定多个第一公平性指标和第一准确性指标;
根据所述第一公平性指标和所述第一准确性指标、所述第二公平性指标和所述第二准确性指标,确定多个第三机器学习模型。
6.根据权利要求5所述的方法,其特征在于,在确定多个第三机器学习模型之后,还包括:
将多个第三机器学习模型确定为新的训练后的多个第一机器学习模型,循环执行步骤2至步骤3,直至满足截止条件。
7.根据权利要求5所述的方法,其特征在于,对多个第一机器学习模型进行训练,包括:
根据训练数据集对多个所述第一机器学习模型进行训练;
相应的,所述对每个所述第二机器学习模型进行训练,包括:
根据所述训练数据集对每个所述第二机器学习模型进行训练。
8.一种基于多目标进化算法的公平机器学习模型的训练装置,其特征在于,包括:
指标确定单元,用于根据场景确定多个正交性的公平性指标和准确性指标;
建模单元,用于根据多个正交性的公平性指标和准确性指标建模为多个优化目标;
演化单元,用于根据基于种群的多目标进化算法、多目标进化算法的多个算子以及所述多个优化目标对机器学习模型进行演化。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的基于多目标进化算法的公平机器学习模型的训练方法。
10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的基于多目标进化算法的公平机器学习模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110653352.7A CN113642226A (zh) | 2021-06-11 | 2021-06-11 | 基于多目标进化算法的公平机器学习模型的训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110653352.7A CN113642226A (zh) | 2021-06-11 | 2021-06-11 | 基于多目标进化算法的公平机器学习模型的训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113642226A true CN113642226A (zh) | 2021-11-12 |
Family
ID=78416020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110653352.7A Pending CN113642226A (zh) | 2021-06-11 | 2021-06-11 | 基于多目标进化算法的公平机器学习模型的训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113642226A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114492214A (zh) * | 2022-04-18 | 2022-05-13 | 支付宝(杭州)信息技术有限公司 | 利用机器学习的选择算子确定、策略组合优化方法及装置 |
-
2021
- 2021-06-11 CN CN202110653352.7A patent/CN113642226A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114492214A (zh) * | 2022-04-18 | 2022-05-13 | 支付宝(杭州)信息技术有限公司 | 利用机器学习的选择算子确定、策略组合优化方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kou et al. | Optimal computing budget allocation for the vector evaluated genetic algorithm in multi-objective simulation optimization | |
US20210390416A1 (en) | Variable parameter probability for machine-learning model generation and training | |
US20210287097A1 (en) | Execution of a genetic algorithm having variable epoch size with selective execution of a training algorithm | |
JP2008538429A (ja) | ゼータ統計を用いるモデル最適化方法及びシステム | |
Whiteson et al. | Machine learning for event selection in high energy physics | |
US8639643B2 (en) | Classification of a document according to a weighted search tree created by genetic algorithms | |
CN109344969B (zh) | 神经网络系统及其训练方法以及计算机可读介质 | |
CN113642226A (zh) | 基于多目标进化算法的公平机器学习模型的训练方法 | |
CN110956261A (zh) | 一种评价指标的确定方法及系统 | |
CN111412795B (zh) | 测试点设置方案生成方法及装置 | |
Chen et al. | A new multiobjective evolutionary algorithm for community detection in dynamic complex networks | |
CN116545764B (zh) | 一种工业互联网的异常数据检测方法、系统和设备 | |
CN109977030B (zh) | 一种深度随机森林程序的测试方法及设备 | |
CN112365576B (zh) | 庄园组件位置的推荐方法、装置及服务器 | |
US11829883B2 (en) | Executing a genetic algorithm on a low-power controller | |
CN113837474A (zh) | 区域土壤重金属污染指数预测方法及装置 | |
CN113627513A (zh) | 一种训练数据生成方法、系统、电子设备及存储介质 | |
Yasin et al. | Optimal least squares support vector machines parameter selection in predicting the output of distributed generation | |
CN117494119B (zh) | 一种基于群智能优化算法的模型构建方法及装置 | |
CN114048860A (zh) | 提高机器学习模型公平性的多目标训练方法及计算机设备 | |
CN115796054B (zh) | 一种情景发现和脆弱性分析方法、系统、终端及存储介质 | |
Muñoz et al. | Benchmarking algorithm portfolio construction methods | |
Pan et al. | An Evolutionary Framework for Modelling Unknown Behaviours of Other Agents | |
Mascherini et al. | M-GA: A genetic algorithm to search for the best conditional Gaussian Bayesian network | |
Wei et al. | Compromise rank genetic programming for automated nonlinear design of disaster management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |