CN111626351A

CN111626351A - 一种用于获取数据分布的概念漂移量的方法和系统

Info

Publication number: CN111626351A
Application number: CN202010452947.1A
Authority: CN
Inventors: 刘世霞; 杨维铠; 李振
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-04
Anticipated expiration: 2040-05-26
Also published as: CN111626351B

Abstract

本发明提出了一种用于获取数据分布的概念漂移量的方法和系统。其中，该方法包括：获取包括训练数据和测试数据的全部数据；使用高斯混合模型对全部数据进行聚类，获取全部数据的多个聚类簇；分别获取多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量；利用多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量，获取全部数据的数据分布的概念漂移量。由此，能够准确地获取到数据分布的概念漂移量，以准确地判断出数据分布的变化情况，大大提高了系统的可靠性。

Description

一种用于获取数据分布的概念漂移量的方法和系统

技术领域

本发明涉及机器学习技术领域，特别涉及一种用于获取数据分布的概念漂移量的方法、系统、计算机系统以及计算机可读存储介质。

背景技术

近年来，数据驱动的机器学习在许多领域都取得了巨大的成功，如天气预测、个性化推荐、产品缺陷检测等。然而，数据驱动的机器学习方法大都显式或隐式地基于一个假设，即训练数据和测试数据属于同一数据分布。但在现实应用中，许多领域的数据分布通常会随着时间的推移不断发生变化，且这一变化可能无法提前预见。数据分布发生的变化称为概念漂移。概念漂移的出现可能导致某领域的基于历史数据进行训练并部署运行的模型在新数据上的预测结果不再可信与有效，因此需要一个可靠的方法和系统来获取衡量数据分布的概念漂移程度。

发明内容

本发明中使用数据分布的概念漂移量来衡量数据分布的概念漂移程度，提出了一种用于获取数据分布的概念漂移量的方法、系统、计算机系统以及计算机可读存储介质。

根据本发明的一个方面，提出了一种用于获取数据分布的概念漂移量的方法，该方法包括：获取包括训练数据和测试数据的全部数据；使用高斯混合模型对全部数据进行聚类，获取全部数据的多个聚类簇；分别获取多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量；利用多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量，获取全部数据的数据分布的概念漂移量。

根据本发明的另一个方面，提出了一种用于获取数据分布的概念漂移量的计算机可读存储介质，所述计算机可读存储介质具有存储其中的程序指令，所述程序指令可由计算设备执行以使得计算设备执行如上所述的方法。

根据本发明的又一个方面，提出了一种用于获取数据分布的概念漂移量的计算机系统，包括：存储器；以及至少一个处理器，其可操作地耦合到存储器并配置用于执行如上所述的方法。

根据本发明的再一个方面，提出了一种用于获取数据分布的概念漂移量的系统，所述系统包括分别用于执行如上所述的方法的各个步骤的模块。

附图说明

通过参照附图阅读下面对说明性实施例的详细说明可更好地理解发明本身以及其优选使用模式、目标、特征以及优点，在附图中：

图1为根据本发明的一个具体实施例的主板生产线上用于主板缺陷检测的10条主板产品的属性记录；

图2为根据本发明的一个实施例的用于获取数据分布的概念漂移量的计算机系统的结构示意图；

图3为根据本发明实施例的用于获取数据分布的概念漂移量的方法的流程图；；

图4为根据本发明的一个具体实施例的获取数据分布的概念漂移量的示意图。

具体实施方式

以下描述包括体现本发明技术的示例性方法、系统、技术和指令序列。然而，应该理解，在一个或多个方面，可以在没有这些具体细节的情况下实践所描述的发明。在其他情况下，没有详细示出公知的协议、结构和技术，以免模糊本发明。本领域普通技术人员将理解，所描述的技术和机制可以应用于获取数据分布的概念漂移量的各种体系结构。

下面参照附图来说明本发明的实施例。在下面的说明中，阐述了许多具体细节以便更全面地了解本发明。但是，对于本技术领域内的技术人员明显的是，本发明的实现可不具有这些具体细节中的一些。此外，应当理解的是，本发明并不限于所介绍的特定实施例。相反，可以考虑用下面的特征和要素的任意组合来实施本发明，而无论它们是否涉及不同的实施例。因此，下面的方面、特征、实施例和优点仅作说明之用而不应被看作是所附权利要求的要素或限定，除非权利要求中明确提出。

本发明的目的是获取数据分布的概念漂移量，也就是衡量数据(包括训练数据和测试数据)分布的差异度量。训练数据和测试数据的全部数据均为以下数据类型的一种或多种：表格数据、图像数据、视频数据、文本数据或其他用户指定数据(如社交数据、日志数据等)。表格数据例如多条产品属性记录、多条天气记录等等。例如，图1示出了主板生产线上用于主板缺陷检测的10条主板产品的属性记录，其中包括记录101-记录110共10条记录。记录101、记录102、记录103是三件主板类型为A(例如是无缺陷的产品)的产品的属性记录(包括长度、宽度、厚度等)；记录104、记录105是两件主板类型为B(例如是有缺陷的产品)的产品的属性记录。记录101-105作为训练数据用于模型的构建。记录106、记录107是两件主板类型为A的产品的属性记录，但由于工艺发生变化，其厚度低于记录101、记录102、记录103的厚度。记录108、记录109、记录110是三件主板类型为B的产品的属性记录，其各属性和记录104、记录105一致。记录106-110作为测试数据。希望对于记录101-110，得到所有数据的数据分布的概念漂移量，并根据得到的所有数据的数据分布的概念漂移量，确定原来的机器学习模型是否可以继续使用；如果得到的概念漂移量较高，则意味着原来的机器学习模型不再适用，则需要重新训练模型；如果得到的概念漂移量较低，则意味着原来的机器学习模型可以继续使用，无需重新训练模型。

在本领域，概念漂移量没有一个明确的计算方式。任何可以衡量数据(包括训练数据与测试数据)分布差异的度量均可用为该数据(包括训练数据和测试数据)的数据分布的概念漂移量。本发明的例子中上述度量考虑使用能量距离，即将获得的该数据的能量距离作为该数据的数据分布的概念漂移量。能量距离能直接比较包括训练数据和测试数据的全部数据所构成的数据分布的差异并将差异的度量值作为概念漂移量。为了更准确地得到概念漂移量，避免因直接比较训练数据和测试数据带来的不匹配问题而造成的概念漂移量的不合适的估计，本发明考虑使用高斯混合模型对包括测试数据和训练数据的全部数据通过聚类进一步地划分为多个聚类簇，并根据划分的结果，对多个聚类簇的每个聚类簇分别计算该聚类簇中包含的所有数据(包括训练数据和测试数据)的数据分布的概念漂移量，从而最终得到该全部数据(包括训练数据和测试数据)分布的概念漂移量，并根据概念漂移量是否超出指定的阈值决定是否需要重新训练模型。

图2示出了根据本发明的实施例的一种用于获取数据分布的概念漂移量的系统200。如图2所示，获取数据分布的概念漂移量的系统200包括高斯混合模型聚类模块210，以及概念漂移量计算模块220。高斯混合模型聚类模块210获取包括训练数据201以及测试数据202的全部数据，进行聚类，得到聚类结果并产生多个聚类簇203。概念漂移量计算模块220获取包括训练数据201和测试数据202的全部数据，以及高斯混合模型聚类模块210产生的多个聚类簇203，来得到概念漂移量204。当得到的概念漂移量204超出指定的阈值时，系统200可以做进一步的操作(图2中未示出进一步的操作)，例如：报警，指示用户需要重新训练模型等等。该获取数据分布的概念漂移量的系统200可实现为一般的计算机系统上的应用程序，或者实现为服务器系统上的应用程序，或者实现为网络应用程序，或者实现为云平台上的应用程序。

图3示出了根据本发明的实施例利用图2所示的用于获取数据分布的概念漂移量的计算机系统200进行概念漂移量获取的方法的流程图。如图3所示，在步骤310，高斯混合模型聚类模块210获取包括训练数据和测试数据的全部数据。在步骤320，高斯混合模型聚类模块210使用高斯混合模型对全部数据进行聚类，获取全部数据的多个聚类簇。图4示出了对图1所示的10条产品的属性记录得到的两个聚类簇。记录101、记录102、记录103、记录106、记录107都是主板类型A的产品的属性记录，彼此较为相像，因此形成聚类簇1；记录104、记录105、记录108、记录109、记录110都是主板类型B的产品的属性记录，彼此较为相像，因此形成聚类簇2。本领域技术人员可以知道，在步骤320中使用的聚类方法可以是现有的任意聚类方法(如K-Means聚类，均值漂移聚类、谱聚类等)或未来开发的任意聚类方法。

在步骤330中，概念漂移量计算模块220分别获取多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量。这一步可以使用本领域所熟知的任何可以衡量包括训练数据与测试数据的所有数据的数据分布的差异的度量作为每个聚类簇中包含的所有数据的数据分布的概念漂移量。本发明的实施例中该度量可以使用能量距离、全变差距离、Hellinger距离等。

在本发明的一个实施例中，图4示出了图1所示的10条产品的属性记录聚类得到的聚类簇1和聚类簇2及二者包含的样本记录。图4中的聚类簇1中，使用能量距离计算聚类簇1中的训练样本记录101、记录102、记录103与测试样本记录106、记录107之间的分布差异。图4的聚类簇1中，每个节点表示一条记录，每两个节点之间的连边旁的数字表示相连的两条记录之间的距离。聚类簇1中包括3个训练样本(记录101、记录102、记录103)和2个测试样本(记录106、记录107)。根据各条记录的参数可以计算(利用参数的欧式距离)得到记录101与记录102之间距离为1，记录102与记录103之间距离为1,记录101与记录103之间距离为1。则系统可以得出聚类簇1中三个训练样本内平均距离为(1+1+1)/3＝1。并且根据各条记录的参数可以计算(利用参数的欧式距离)记录106与记录107之间距离为1。则系统可得两个测试样本内平均距离为1/1＝1。此外，根据各条记录的参数可以计算(利用参数的欧式距离)得到记录101与记录106之间距离为10，记录101与记录107之间距离为10，记录102与记录106之间距离为10，记录102与记录107之间距离为10，记录103与记录106之间距离为10，记录103与记录107之间距离为10。则系统可得三个训练样本和两个测试样本间平均距离为(10+10+10+10+10+10)/6＝10。能量距离可以被定义为：[2*(训练样本和测试样本间的平均距离)-(训练样本内的平均距离+测试样本内的平均距离)]/[2*(训练样本和测试样本间的平均距离)]。则最终得到聚类簇1的能量距离为(2*10-(1+1))/(2*10)＝0.9，作为聚类簇1中包含的所有数据的数据分布的概念漂移量。在图4中的聚类簇2中，根据各条记录的参数可以计算(利用参数的欧式距离)得到任意两条记录之间的距离均为1。同样使用能量距离计算聚类簇2中的训练样本记录104、记录105和测试样本记录108、记录109、记录110之间的分布差异。系统得出训练样本内平均距离为1/1＝1；测试样本内平均距离为(1+1+1)/3＝1；训练样本和测试样本间平均距离为(1+1+1+1+1+1)/6＝1，最终得到能量距离为(2*1-(1+1))/(2*1)＝0，作为聚类簇2中包含的所有数据的数据分布的概念漂移量。

在步骤340中，利用多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量，获取全部数据的数据分布的概念漂移量。这一步可以使用多种方法。在一种实施方式中，可以选取多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量中的最大值作为全部数据的数据分布的概念漂移量。如在图4所示的例子中，聚类簇1中包含的所有数据的数据分布的概念漂移量为0.9，聚类簇2中包含的所有数据的数据分布的概念漂移量为0，最大值为0.9，则全部数据的数据分布的概念漂移量为0.9。

在另一种实施方式中，也可以将多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量的平均值作为全部数据的数据分布的概念漂移量。如在图4所示的例子中，聚类簇1中包含的所有数据的数据分布的概念漂移量为0.9，聚类簇2中包含的所有数据的数据分布的概念漂移量为0，平均值为0.45，则全部数据的数据分布的概念漂移量为0.45。

在另一种实施方式中，也可以将多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量中的中位值作为全部数据的数据分布的概念漂移量。如在图4所示的例子中，聚类簇1中包含的所有数据的数据分布的概念漂移量为0.9，聚类簇2中包含的所有数据的数据分布的概念漂移量为0，中位值为0.45，则全部数据的数据分布的概念漂移量为0.45。

在另一种实施方式中，也可以将多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量的加权平均值作为全部数据的数据分布的概念漂移量。在一种实施方式中，每个聚类簇的权重可以用该聚类簇中测试数据样本的数目来表示。如在图4所示的例子中，聚类簇1中包含的所有数据的数据分布的概念漂移量为0.9，权重为2，聚类簇2中包含的所有数据的数据分布的概念漂移量为0，权重为3，加权平均值为(2*0.9+3*0)/(2+3)＝0.36，则全部数据的数据分布的概念漂移量为0.36。在另一种实施方式中，每个聚类簇的权重可以用该聚类簇中测试数据样本数目占所述聚类簇中所有样本数目的比例来表示。如在图4所示的例子中，聚类簇1中包含的所有数据的数据分布的概念漂移量为0.9，权重为2/5＝0.4，聚类簇2中包含的所有数据的数据分布的概念漂移量为0，权重为3/5＝0.6，加权平均值为(0.4*0.9+0.6*0)/(0.4+0.6)＝0.36，则全部数据的数据分布的概念漂移量为0.36。在又一种实施方式中，每个聚类簇的权重也可以由用户指定，也就是说，每个聚类簇的权重可为用户指定的权重。

由以上描述，本领域技术人员可以知道，不同的概念漂移量的计算方法获得的概念漂移量的值也是不同的。如果关心数据分布的概念漂移量的总体水平，可以采用多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量的平均值、中位值或加权平均值得到的全部数据的数据分布的概念漂移量。如果关心发生概念漂移最严重的聚类簇，可以采用多个聚类簇的每个聚类簇包含的所有数据的数据分布的概念漂移量的最大值得到全部数据的数据分布的概念漂移量。

在一种实施方式中，图3还进一步包括步骤350：将获得的全部数据的数据分布的概念漂移量与指定的阈值相比较。图3还进一步包括步骤360：响应于全部数据的数据分布的概念漂移量大于等于指定的阈值，判定所述原来的机器学习模型可能不再适用，需要重新训练模型，该方法结束。图3还进一步包括步骤370：响应于全部数据的数据分布的概念漂移量小于指定的阈值，判定原来的机器学习模型可以继续使用，无需重新训练模型，该方法结束。具体给定的阈值可以由用户根据使用的不同的概念漂移量的计算方法设置不同的值。

针对图4，在使用加权平均值作为全部数据的数据分布的概念漂移量的一种实施方式中，得到的概念漂移量为0.36。该概念漂移值大于给定的阈值0.2，判定所述原来的机器学习模型不再适用，需要重新训练模型。具体地，可将记录106、记录107也添加为训练数据，并重新训练得到新的模型来替换旧的模型。

本发明可以是系统、方法和/或计算机可读存储介质。计算机可读存储介质上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。本发明的方法可以在独立的计算机系统上执行，也可以在分布式计算系统上执行，甚至可以在云平台上执行。

这里参照根据本发明实施例的方法、装置(系统)和计算机可读存储介质的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机可读存储介质的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于获取数据分布的概念漂移量的方法，其特征在于，包括：

获取包括训练数据和测试数据的全部数据；

使用高斯混合模型对所述全部数据进行聚类，获取所述全部数据的多个聚类簇；

分别获取所述多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量；

利用所述多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量，获取所述全部数据的数据分布的概念漂移量。

2.根据权利要求1所述的方法，其特征在于，还包括：

将获得的所述全部数据的数据分布的概念漂移量与给定的阈值相比较；

响应于所述全部数据的数据分布的概念漂移量大于等于所述给定的阈值，判定利用所述训练数据得到的机器学习模型不再适用，需要重新训练模型。

3.根据权利要求1所述的方法，其特征在于，该方法还包括：

响应于所述全部数据的数据分布的概念漂移量小于所述给定的阈值，判定利用所述训练数据得到的机器学习模型能够继续使用。

4.根据权利要求1所述的方法，其特征在于，所述获取所述全部数据的数据分布的概念漂移量的步骤包括：使用所述多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量的加权平均值作为所述全部数据的数据分布的概念漂移量。

5.根据权利要求4所述的方法，其特征在于，所述加权平均值中所述多个聚类簇的每个聚类簇的权重为以下之一：

所述每个聚类簇中测试数据样本的数目；

所述每个聚类簇中测试数据样本数目占所述每个聚类簇中所有样本数目的比例；

用户指定的权重。

6.根据权利要求1所述的方法，其特征在于，所述获取所述全部数据的数据分布的概念漂移量的步骤还包括：

使用所述多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量中的最大值作为所述全部数据的数据分布的概念漂移量；或者

使用所述多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量的平均值作为所述全部数据的数据分布的概念漂移量；或者

使用所述多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量中的中位值作为所述全部数据的数据分布的概念漂移量。

7.根据权利要求1所述的方法，其特征在于，所述多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量为对应的聚类簇中包含的所有数据的以下计算结果之一：

能量距离；

全变差距离；

Hellinger距离。

8.根据权利要求1所述的方法，其特征在于，采用以下方法之一获取所述全部数据的多个聚类簇：

高斯混合模型聚类；或者

K-Means聚类；或者

均值漂移聚类；或者

谱聚类。

9.根据权利要求1-7中任一项所述的方法，其特征在于，所述包括训练数据和测试数据的全部数据包括：

表格数据；和/或

图像数据；和/或

视频数据；和/或

文本数据；和/或

用户指定数据。

10.一种用于获取数据分布的概念漂移量的计算机可读存储介质，所述计算机可读存储介质具有存储其中的程序指令，其特征在于，所述程序指令可由计算设备执行以使得计算设备执行如权利要求1-9中任一项所述的方法。

11.一种用于获取数据分布的概念漂移量的计算机系统，其特征在于，包括：

存储器；以及

至少一个处理器，可操作地耦合到所述存储器并配置用于执行如权利要求1-9中任一项所述的方法。

12.一种用于获取数据分布的概念漂移量的系统，其特征在于，所述系统包括用于执行权利要求1-9中任一项的方法的各个步骤的模块。