CN113205184B

CN113205184B - 基于异质性混杂数据的不变学习方法及装置

Info

Publication number: CN113205184B
Application number: CN202110466244.9A
Authority: CN
Inventors: 崔鹏; 刘家硕
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2023-01-31
Anticipated expiration: 2041-04-28
Also published as: CN113205184A

Abstract

本发明公开了一种基于异质性混杂数据的不变学习方法及装置，首先利用异质性的混杂训练数据，使用不稳定协变量与目标变量之间的关系进行异质性识别，将混杂的异质性数据划分为多环境，再利用学习到的多环境训练数据在模型优化的过程中加入不变性正则项进行不变学习，并得到稳定协变量，进一步获得估计更加准确的不稳定协变量，更好地进行异质性识别来得到更好的环境划分，最终算法会给出最优的异质性环境划分、不同协变量的稳定性指数以及模型参数。通过协变量的稳定性指数来区分不同协变量的相对鲁棒性，对于模型输入可以得到更为准确的预测结果，在图像分类等多种领域有很高的应用价值。

Description

基于异质性混杂数据的不变学习方法及装置

技术领域

本发明涉及机器学习技术领域，特别涉及一种基于异质性混杂数据的不变学习方法及装置。

背景技术

传统的机器学习方法基于经验风险最小化，当训练数据存在潜在的异质性、混杂因子或分布偏移时，此类方法通常表现出较差的泛化性能，故在真实环境下的预测性能不稳定。域泛化学习希望保证模型对于潜在的最坏情况进行优化，从而实现更加稳定的预测性能，其中不变学习为代表性方法，主要希望利用已有的多环境数据，从中找到跨环境不变的表征用来预测，从而实现跨域稳定的预测性能。在实际应用中，多环境数据往往是很难获得的，因数据收集过程中往往将多个数据来源的数据混杂在一起，使得得到的数据往往有着内在的异质性而缺失环境标签，这也使得当前的不变学习方法在实际场景中应用收到了局限。

在真实的应用场景中，例如图像分类任务中，代表颜色、纹理、背景的协变量相较于代表目标物体的协变量在不同环境中变化会更加剧烈，表现为不同协变量鲁棒性的不同，当在实际场景下应用时，若应用于训练数据中少见的场景时，机器学习模型的分类表现会受到很大影响。图像分类中现有的不变学习方法主要依赖于已有的多环境数据，从中找出不变的表征，从而实现稳定的域泛化性能。由于现有不变学习方法依赖于已有的多环境数据，导致了其在实际应用中的局限性。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于异质性混杂数据的不变学习方法，该方法基于实际情境中数据为不同数据源的混杂以及不同协变量具有不同程度鲁棒性的观察，从混杂数据中识别出潜在的异质性，并进行更加有效的不变学习。

本发明的另一个目的在于提出一种基于异质性混杂数据的不变学习装置。

为达到上述目的，本发明一方面实施例提出了一种基于异质性混杂数据的不变学习方法，包括：

S1，获取异质性混杂数据，所述异质性混杂数据包括协变量集合和目标变量集合；

S2，根据从协变量的空间到目标变量的映射建立模型；

S3，将所述协变量集合中协变量的每一维权重构成的权重向量初始化为全1的向量，并将权重向量作为协变量当前权重向量；

S4，利用协变量当前权重向量，以及预先定义好的划分环境数目，使用与所述划分环境数目相同的模型对全体数据进行聚类，得到所述划分环境数目个划分好的环境；

S5，对于所述划分好的环境，使用不变学习方法来学习步骤S2建立的模型的当前参数以及协变量的相对稳定性权重；

S6，利用当前学习得到的相对稳定性权重，重新返回步骤S4；

S7，重复步骤S4至S6，采用梯度下降训练模型，直到模型收敛训练结束，将当前模型的当前参数作为最终的模型参数，当前协变量作为最终的协变量权重向量；

S8，获取测试样本，将所述测试样本中协变量赋予步骤S7得到的最终的协变量权重向量，得到所述测试样本修正后的协变量，将所述修正后的协变量输入步骤S7训练完毕的模型，模型输出为所述测试样本的目标变量预测结果。

为达到上述目的，本发明另一方面实施例提出了一种基于异质性混杂数据的不变学习装置，包括：

获取模块，用于获取异质性混杂数据，所述异质性混杂数据包括协变量集合和目标变量集合；

建立模块，用于根据从协变量的空间到目标变量的映射建立模型；

初始化模块，用于将所述协变量集合中协变量的每一维权重构成的权重向量初始化为全1的向量，并将权重向量作为协变量当前权重向量；

划分模块，用于利用协变量当前权重向量，以及预先定义好的划分环境数目，使用与所述划分环境数目相同的模型对全体数据进行聚类，得到所述划分环境数目个划分好的环境；

学习模块，用于对于所述划分好的环境，使用不变学习方法来学习建立分类神经网络模型的当前参数以及协变量的相对稳定性权重；

迭代模块，用于利用当前学习得到的相对稳定性权重，重新返回所述划分模块；

训练模块，用于采用梯度下降训练模型，直到模型收敛训练结束，将当前模型的当前参数作为最终的模型参数，当前协变量作为最终的协变量权重向量；

输出模块，用于获取测试样本，将所述测试样本中协变量赋予步骤S7得到的最终的协变量权重向量，得到所述测试样本修正后的协变量，将所述修正后的协变量输入步骤S7训练完毕的模型，模型输出为所述测试样本的目标变量预测结果。

本发明实施例的基于异质性混杂数据的不变学习方法及装置，具有以下有益效果：

1、本发明对于异质性的混杂数据进行异质性识别，划分产生异质多环境来进行不变学习，实现更加稳定的域泛化性能。

2、本发明在不变学习的同时对协变量的相对稳定性进行估计，并据此在异质性识别中对不同协变量进行加权，来得到更加异质性的多环境以及相应的不变特征集合。

3、使用本发明的优化线性回归/逻辑回归模型，可以显著提升模型对于稳定协变量参数估计的准确性，在复杂多变的测试环境中保持稳定的预测性能

4、本发明可以提供很强的算法域泛化性能保证，在实际应用中，很可能出现数据中的关联关系随着时间、地域、用户类型的变化而不同，如果使用现有经验风险最小化方法优化的模型，在这种变化下会面临很大的性能损失。而本方法则可以有效的应对这样的变化，使得模型在数据分布存在差异的时候具有好的泛化性能。

5、本发明提出的不变学习方法，对于利用异质性的混杂训练数据，使用不稳定协变量与目标变量之间的关系进行异质性识别，将混杂的异质性数据划分为多环境，之后利用学习到的多环境训练数据在模型优化的过程中加入不变性正则项进行不变学习，有效地降低了不变学习算法对于多环境数据的依赖。在图像分类的任务中，相较于之前的方法强烈依赖于多环境数据的获得与质量，本方法会对混杂图像数据中的异质性进行识别并划分环境，例如利用图片的背景、风格等不同划分出不同场景、风格下的环境，这样的环境可以帮助不变学习抵抗图像背景、风格等与图像标签存在的虚假关联，从而让模型更多的利用稳定的、可解释的特征来进行预测，从而可以实现更强的鲁棒性与域泛化性能的稳定性。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于异质性混杂数据的不变学习方法流程图；

图2为根据本发明一个实施例的基于异质性混杂数据的不变学习装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于异质性混杂数据的不变学习方法及装置。

首先将参照附图描述根据本发明实施例提出的基于异质性混杂数据的不变学习方法。

图1为根据本发明一个实施例的基于异质性混杂数据的不变学习方法流程图。

如图1所示，该基于异质性混杂数据的不变学习方法包括以下步骤：

步骤S1，获取异质性混杂数据，异质性混杂数据包括协变量集合和目标变量集合。

进一步地，获取异质性混杂数据，包括：

获取异质性混杂数据：选取来自于不同数据源e∈ε的异质性训练数据D＝{D^e}_e∈ε,其中ε为环境的集合，D^e＝(X^e，Y^e)，X^e为来自环境e的所有训练样本的协变量组成的改环境协变量矩阵(每个环境中的训练样本可能有多个，每个训练样本中的协变量是一个多维数据，所有训练样本的协变量的维度相同)，Y^e为来自环境e的所有训练样本的目标变量组成的该环境的目标变量数组(每个训练样本中的目标变量是一个一维数据)(每个环境下选取的训练样本数目不一定相同)。将所有环境的协变量数组组成协变量集合(该集合是一个矩阵，大小为所有训练样本的总个数乘以协变量的维度)，将所有环境的目标变量数组组成目标变量集合。这里环境标签e是混杂数据潜在的环境构成，而不是特定的环境标签，因真实场景中大多没有环境标签。

本发明可以应用于图像分类任务中，本实施例对图片中的骆驼与马进行分类，其中绝大多数的骆驼图片背景为沙漠，绝大多数的马的图片背景为草地；少数相反。

本实施例的输入全部的图片与对应类别标签，输入的全部图片中存在着两个潜在的环境，一个环境为骆驼在沙漠中，马在草地上；另一个环境为骆驼在草地上，马在沙漠中。但所有数据均混杂在了一起，没有环境标签。

步骤S2，建立分类神经网络模型。

将模型抽象为了从协变量X的空间到目标变量Y的映射，本发明并不针对特定的模型进行设计，适用于优化各种模型。

具体地，一般的图像分类神经网络即可。

步骤S3，将协变量集合中协变量的每一维权重构成的权重向量初始化为全1的向量，并将权重向量作为协变量当前权重向量M。

步骤S4，利用协变量当前权重向量，以及预先定义好的划分环境数目，使用与划分环境数目相同的模型对全体数据进行聚类，得到划分环境数目个划分好的环境。

具体地，利用协变量当前权重向量M，以及预先定义好的划分环境数目K，使用K个相同的模型对全体数据((1-M)⊙X，Y)进行聚类，得到K个划分好的环境ε_{learn}，具体步骤为：

(a)初始时将全部数据随机划分为K个环境；

(b)对于划分好的K个环境，分别训练K个模型来对数据进行拟合，得到K个模型参数θ_d(d∈[K])；

(c)对于每个数据点(x_i，y_i)，为其分配新的类别标签为argmin_d∈[K]l(x_i，y_i；θ_d)，之后重复步骤(b)。

步骤S5，对于划分好的环境，使用不变学习方法来学习步骤S2建立的模型的当前参数以及协变量的相对稳定性权重。

具体地，对于当前划分好的环境ε_{learn}，使用不变学习方法来同时学习步骤2)建立的模型的当前参数θ以及协变量的相对稳定性权重M：

其中

为环境e中的损失函数，具体形式为：

其中M0表示了M中大于0的元素数目，λ为认为设定的超参数，要求λ>0。

步骤S6，利用当前学习得到的相对稳定性权重，重新返回步骤S4。

具体地，重复步骤S4)到步骤S6，采用梯度下降训练模型，最终直到模型收敛，此时的模型当前参数θ即为最终的模型参数，模型训练完毕，此时的协变量当前权重向量M即为最终的协变量权重向量。

步骤S7，重复步骤S4至S6，采用梯度下降训练模型，直到模型收敛训练结束，将当前模型的当前参数作为最终的模型参数，当前协变量作为最终的协变量权重向量。

步骤S8，获取测试样本，将测试样本中协变量赋予步骤S7得到的最终的协变量权重向量，得到测试样本修正后的协变量，将修正后的协变量输入步骤S7训练完毕的模型，模型输出为测试样本的目标变量预测结果。

进一步的，得到最终的模型参数θ与协变量权重M之后，可以直接用来对测试数据/未知数据进行预测；协变量权重一定程度上可以刻画不同协变量在多环境下的稳定性程度，权重越高证明该协变量与目标变量Y的关系越稳定，越适合用来预测；反之则会倾向于虚假关联，不适合用其进行预测。

在本发明的实施例中，利用协变量权重向量M，可以区分出输入图片中的动物与背景，本发明的方法会倾向于利用背景的不同来划分环境，从而使得不变学习模型不能利用背景来预测标签,即不能利用沙漠来预测骆驼，不能利用草地来预测马。

根据本发明实施例提出的基于异质性混杂数据的不变学习方法，首先利用异质性的混杂训练数据，使用不稳定协变量与目标变量之间的关系进行异质性识别，将混杂的异质性数据划分为多环境，之后利用学习到的多环境训练数据在模型优化的过程中加入不变性正则项进行不变学习，并得到稳定协变量，进一步可以获得估计更加准确的不稳定协变量，从而更好地进行异质性识别来得到更好的环境划分，最终算法会给出最优的异质性环境划分、不同协变量的稳定性指数以及模型参数。应用时，通过协变量的稳定性指数来区分不同协变量的相对鲁棒性，对于模型输入可以得到更为准确的预测结果。本发明基于实际情境中不同协变量具有不同程度鲁棒性的观察，以及真实情况下的训练数据绝大多数为多个数据来源的混杂的观察，对混杂数据中的异质性进行识别，并据此指导不变学习，得到更加有效的域泛化模型，在图像分类等多种领域有很高的应用价值。

其次参照附图描述根据本发明实施例提出的基于异质性混杂数据的不变学习装置。

如图2所示，该基于异质性混杂数据的不变学习装置包括：获取模块201、建立模块202、初始化模块203、划分模块204、学习模块205、迭代模块206、训练模块207和输出模块208。

获取模块201，用于获取异质性混杂数据，异质性混杂数据包括协变量集合和目标变量集合。

建立模块202，用于根据从协变量的空间到目标变量的映射建立模型。

初始化模块203，用于将协变量集合中协变量的每一维权重构成的权重向量初始化为全1的向量，并将权重向量作为协变量当前权重向量。

划分模块204，用于利用协变量当前权重向量，以及预先定义好的划分环境数目，使用与划分环境数目相同的模型对全体数据进行聚类，得到划分环境数目个划分好的环境。

学习模块205，用于对于划分好的环境，使用不变学习方法来学习建立的模型的当前参数以及协变量的相对稳定性权重。

迭代模块206，用于利用当前学习得到的相对稳定性权重，重新返回划分模块。

训练模块207，用于采用梯度下降训练模型，直到模型收敛训练结束，将当前模型的当前参数作为最终的模型参数，当前协变量作为最终的协变量权重向量。

输出模块208，用于获取测试样本，将测试样本中协变量赋予步骤S7得到的最终的协变量权重向量，得到测试样本修正后的协变量，将修正后的协变量输入步骤S7训练完毕的模型，模型输出为测试样本的目标变量预测结果。

进一步地，获取模块，进一步用于，

选取来自于不同数据源e∈ε的异质性训练数据D＝{D^e}_e∈ε,其中ε为环境的集合，D^e＝(X^e，Y^e)，X^e为来自环境e的所有训练样本的协变量组成的该环境协变量矩阵，Y^e为来自环境e的所有训练样本的目标变量组成的该环境的目标变量数组；

将所有环境的协变量数组组成协变量集合，将所有环境的目标变量数组组成目标变量集合。

进一步地，划分模块进一步用于：

初始时将全部数据随机划分为K个环境，K为环境数目；

对于划分好的K个环境，分别训练K个模型来对数据进行拟合，得到K个模型参数；

对于每个数据点，为其分配新的类别标签，之后返回上一步。

需要说明的是，前述对方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的基于异质性混杂数据的不变学习装置，首先利用异质性的混杂训练数据，使用不稳定协变量与目标变量之间的关系进行异质性识别，将混杂的异质性数据划分为多环境，之后利用学习到的多环境训练数据在模型优化的过程中加入不变性正则项进行不变学习，并得到稳定协变量，进一步可以获得估计更加准确的不稳定协变量，从而更好地进行异质性识别来得到更好的环境划分，最终算法会给出最优的异质性环境划分、不同协变量的稳定性指数以及模型参数。应用时，通过协变量的稳定性指数来区分不同协变量的相对鲁棒性，对于模型输入可以得到更为准确的预测结果。本发明基于实际情境中不同协变量具有不同程度鲁棒性的观察，以及真实情况下的训练数据绝大多数为多个数据来源的混杂的观察，对混杂数据中的异质性进行识别，并据此指导不变学习，得到更加有效的域泛化模型，在图像分类等多种领域有很高的应用价值。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于异质性混杂数据的不变学习方法，所述不变学习方法用于图像的分类，其特征在于，包括以下步骤：

S1，获取图像的异质性混杂数据，所述异质性混杂数据包括协变量集合和目标变量集合；

获取异质性混杂数据，包括：

选取来自于不同数据源e∈ε的异质性训练数据D＝{D^e}_e∈ε,其中ε为环境的集合，D^e＝(X^e,Y^e)，X^e为来自环境e的所有训练样本的协变量组成的环境协变量矩阵，Y^e为来自环境e的所有训练样本的目标变量组成的该环境的目标变量数组；将所有环境的协变量数组组成协变量集合，将所有环境的目标变量数组组成目标变量集合；

S2，根据从协变量的空间到目标变量的映射建立模型；

S4，利用协变量当前权重向量，以及预先定义好的划分环境数目，使用与所述划分环境数目相同的模型对全体数据进行聚类，得到所述划分环境数目个划分好的环境；其中，

所述S4进一步包括：

S41，初始时将全部图像的异质性混杂数据，根据图像的背景和\或风格划分为不同场景下的K个环境，K为所述环境数目；

S42，对于划分好的K个环境，分别训练K个模型来对数据进行拟合，得到K个模型参数；

S43，对于每个数据点，为其分配新的类别标签，之后重复步骤S42，其中，类别标签为基于异质性混杂数据划分的图像环境标签；

S6，利用当前学习得到的相对稳定性权重，重新返回步骤S4；

2.一种基于异质性混杂数据的不变学习装置，所述不变学习装置用于图像的分类，其特征在于，包括：

获取模块，用于获取图像的异质性混杂数据，所述异质性混杂数据包括协变量集合和目标变量集合；

所述获取模块，进一步用于，选取来自于不同数据源e∈ε的异质性训练数据D＝{D^e}_e∈ε,其中ε为环境的集合，D^e＝(X^e,Y^e)，X^e为来自环境e的所有训练样本的协变量组成的该环境协变量矩阵，Y^e为来自环境e的所有训练样本的目标变量组成的环境的目标变量数组；将所有环境的协变量数组组成协变量集合，将所有环境的目标变量数组组成目标变量集合；

划分模块，用于利用协变量当前权重向量，以及预先定义好的划分环境数目，使用与所述划分环境数目相同的模型对全体数据进行聚类，得到所述划分环境数目个划分好的环境；其中，所述划分模块进一步用于：初始时将全部图像的异质性混杂数据全部数据，根据图像的背景和\或风格划分为不同场景下的K个环境，K为所述环境数目；对于划分好的K个环境，分别训练K个模型来对数据进行拟合，得到K个模型参数；对于每个数据点，为其分配新的类别标签，之后返回上一步，其中，类别标签为基于异质性混杂数据划分的图像环境标签；

学习模块，用于对于所述划分好的环境，使用不变学习方法来学习建立的模型的当前参数以及协变量的相对稳定性权重；

输出模块，用于获取测试样本，将所述测试样本中协变量赋予最终的协变量权重向量，得到所述测试样本修正后的协变量，将所述修正后的协变量输入训练完毕的模型，模型输出为所述测试样本的目标变量预测结果。