CN106156857B

CN106156857B - 变分推理的数据初始化的方法和装置

Info

Publication number: CN106156857B
Application number: CN201510148685.9A
Authority: CN
Inventors: 刘春辰; 王虎; 冯璐
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2019-06-28
Anticipated expiration: 2035-03-31
Also published as: JP2016194914A; CN106156857A; JP6172317B2

Abstract

本发明的实施例涉及用于混合模型选择的方法和装置。该方法包括：基于训练样本集来确定候选初始化参数的集合；利用预定的统计模型，基于候选初始化参数的集合确定目标初始化参数的集合；以及基于目标初始化参数的集合来确定目标模型。

Description

变分推理的数据初始化的方法和装置

技术领域

本发明的实施例总体上涉及机器学习领域，并且更具体地，涉及变分推理的数据初始化的方法和装置。

背景技术

混合模型(mixture model)是一种使用混合分布用于密度估计的概率模型，其可以表示一个大群体中存在子群体。混合模型可以包括多种模型，例如高斯混合模型、分段线性混合模型等，这些模型已被广泛应用于多种领域，诸如文档分类、手写识别、模糊图像分割等。

在实践中，混合模型的模型选择是一个非常重要而又具有挑战性的问题。业界已经提出了一些方法来进行混合模型的模型选择，其中变分推理(variational inference)是一种比较有效的方法，其试图给出边际对数似然的解析近似。然而，变分推理对于初始化较为敏感，如果初始化不适当，则变分推理的效果可能会变得很差，从而无法准确地选择模型。因此，初始化已经成为影响变分推理的精度和效率的重要因素。

目前，变分推理的初始化方法例如可以包括随机初始化、基于聚类的初始化等等。然而，随机初始化通常需要尝试大量的初始化样本来实现，处理耗时较长，从而会造成模型选择的速度较慢。另外，基于聚类的初始化对于以聚类为目标的混合模型(例如，高斯混合模型) 可能是比较有效的，但是对于以回归/分类为目标的混合模型而言并不适合使用，所以基于聚类的初始化通用性较低。

因此，需要一种更为通用且高效的初始化方案来实现混合模型选择。

发明内容

总体上，本发明的实施例提出一种变分推理的数据初始化的技术方案。

在本发明的一个方面，提供一种变分推理的数据初始化的方法。所述方法包括：基于训练样本集来确定候选初始化参数的集合，候选初始化参数包括候选初始化模型参数和候选初始化隐变量中的至少一个；利用预定的统计模型，基于候选初始化参数的集合确定目标初始化参数的集合；以及基于目标初始化参数的集合来确定目标模型。

在本发明的另一方面，提供一种用于混合模型选择的装置。装置包括：候选初始化参数确定单元，被配置为基于训练样本集来确定候选初始化参数的集合；目标初始化参数确定单元，被配置为利用预定的统计模型，基于候选初始化参数的集合确定目标初始化参数的集合；以及目标模型确定单元，被配置为基于目标初始化参数的集合来确定目标模型。

在根据本发明的实施例中，不局限于某种特定混合模型类型，因此本发明的方案具有良好的通用性。同时，在本发明的实施例中，从候选初始化参数的集合中选择部分性能较优的候选初始化参数来作为目标初始化参数，可以提高得到目标模型的速度，从而本发明的方案较为高效。本发明的其他特征和优点将通过下文描述而变得容易理解。

附图说明

通过结合附图对本发明示例性实施方式进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显，其中：

图1示出了根据本发明实施例的用于混合模型选择的方法的示意性流程图；

图2示出了根据本发明实施例的用于混合模型选择的方法的示意性流程图；

图3示出了根据本发明实施例的用于确定目标初始化参数的集合的方法的示意性流程图；

图4示出了根据本发明实施例的用于混合模型选择的方法的一个图形化表示的示意图；

图5示出了根据本发明实施例的用于混合模型选择的装置的示意性框图；以及

图6示出了适于用来实现本发明实施例的示例性计算机系统的示意性框图。

在附图中，相同或相似的标号被用来表示相同或相似的元素。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

以下将详细描述本发明实施例的机制和原理。除非特别声明，在下文和权利要求中使用的术语“基于”表示“至少部分地基于”。术语“包括”表示开放性包括，即“包括但不限于”。术语“多个”表示“两个或更多”。术语“一个实施例”表示“至少一个实施例”。术语“另一实施例”表示“至少一个另外的实施例”。其他术语的定义将在下文描述中给出。

图1示出了根据本发明实施例的用于混合模型选择的方法100的流程图。传统上，变分推理的初始化方法采用随机初始化、基于聚类的初始化等方法。然而，这些初始化方法通常具有处理速度较慢、通用性不高等问题，这些都是混合模型选择中的亟待解决的问题。通过下文描述将会理解，利用根据本发明的实施例的方法100，这些问题可以被得到有效地解决。

方法100开始于步骤S110，在此基于训练样本集来确定候选初始化参数的集合。

在本发明实施例中，初始化参数可以包括初始化模型参数和初始化隐变量中的至少一个。通过训练初始化模型参数和初始化隐变量可以生成一个混合模型，所生成的混合模型可以包括更新的隐变量、更新的模型参数、模型结构，等等。在本公开的上下文中，候选初始化参数和目标初始化参数均为初始化参数。也就是说，候选初始化参数可以是候选初始化模型参数、候选初始化隐变量或者二者的组合，并且目标初始化参数可以是目标初始化模型参数、目标初始化隐变量或者二者的组合。

在本发明实施例中，“隐变量”可以表示不能被直接观测到、而需要通过样本数据推导得出的变量。隐变量的变分分布可以用于描述样本数据被聚类到对应类别的概率。应当注意的是，在本发明实施例中，“隐变量”并不限于一种变量，而是可以包含“隐变量的变分分布”和/或其他适当的信息。在本公开中，隐变量可以包括初始化隐变量、更新的隐变量，等等，其中初始化隐变量表示用于进行训练的隐变量，而更新的隐变量表示训练后得到隐变量。在本公开的上下文中，“更新的隐变量”有时也称为“更新隐变量”，二者可以替换使用。

隐变量例如可以实现为矩阵的形式、数据集合的形式或者其他任何适当的形式。在一个实施例中，隐变量可以是一个k×n维的矩阵，其中k是该矩阵的行数，表示隐变量的样本组数目；n是该矩阵的列数，表示用于确定隐变量的训练样本集中的样本数目。该矩阵中的一行对应于一个样本组，每行中的每个元素的值可以是0或者1。例如，如果该矩阵中的一行中的第i个元素是1，则表示与该行相对应的样本组中包含训练样本集中的第i个样本；如果该行中的第j个元素是0，则表示与该行相对应的样本组中不包含训练样本集中的第j个样本。应当理解，上述矩阵中的元素的值不一定必须为0或者1，也可以是任何其他适当的数值。以上示例仅仅是为了讨论方便之目的，无意限制本发明的范围。在另一个实施例中，隐变量可以是一个数据集合，例如可以包括k个样本组，每个样本组中有一个或多个样本。应当理解，上述示例仅仅是为了讨论之目的，并无意限制本发明的范围。本领域技术人员可以通过任何适当的方式来实现本发明的实施例中的各种隐变量。

在本发明的实施例中，“模型”一般是指混合模型，例如候选模型、中间模型以及目标模型，等等。模型可以通过对初始化隐变量进行训练来生成。如此生成的模型可以包括隐变量(也称为更新的隐变量或更新隐变量)、模型参数(也称为更新的模型参数)、模型结构，等等。模型参数可以根据混合模型的类型不同而不同，由于混合模型通常是一类模型的总称，并且一个混合模型可由多个子模型组合而成，因此模型参数与具体的混合模型的类型相关联。举例而言，对于高斯混合模型而言，模型参数可以包括每个子模型所服从的高斯分布的均值和方差。对于分片线性模型而言，模型参数则可以包括门节点的条件控制参数和叶子节点的回归系数及偏差。模型结构也与混合模型的类型相关联。举例而言，对于高斯混合模型而言，模型结构可以包括子模型的个数及子模型合并系数，等等。对于分片线性模型而言，模型结构则可以包括学习出的树结构。应当理解，上述示例仅仅是出于讨论之目的，无意以任何方式限制本发明的范围。另外，在本发明的实施例中提到的“统计模型”不同于混合模型。统计模型例如可以包括高斯过程模型、student-t过程模型等。

在根据本发明的实施例中，在步骤S110，可以基于训练样本集来确定候选模型，然后基于候选模型的第一初始化参数和更新初始化参数中的至少一个，生成候选初始化参数的集合。候选模型是根据第一初始化参数而生成的，并且更新初始化参数被包含在候选模型的输出中。该实施例将在以下结合图2所示的方法进行进一步描述。

作为替代方案，在根据本发明的实施例中，可以采用随机方法来生成候选初始化参数的集合。在一个实施例中，可以对训练样本集随机分组，以及基于该分组结果来确定候选初始化隐变量的集合中的候选初始化隐变量。在另一个实施例中，可以基于训练样本集，确定候选初始化模型参数所服从的分布，然后可以对所确定的分布进行采样，以生成候选初始化模型参数的集合中的候选初始化模型参数。举例而言，当训练样本集中的特征值为实数时，候选初始化模型参数所服从的分布可以采用高斯分布；当特征值为{0,1}时，候选初始化模型参数所服从的分布可以采用伯努利分布；而当特征值为整数时，候选初始化模型参数所服从的分布可以采用泊松分布等。因此，通过判断训练样本集中的特征值，可以确定候选初始化模型参数所服从的分布，进而可以通过对所确定的分布进行采样来生成候选初始化模型参数。

接下来，方法100进行到步骤S120，在此利用预定的统计模型，基于候选初始化参数的集合确定目标初始化参数的集合。

根据本发明的实施例，可以根据候选初始化参数的集合对目标初始化参数的集合进行初始化。然后，可以执行以下操作一次或多次：利用目标初始化参数的集合中的目标初始化参数以及与目标初始化参数相对应的临时模型的性能来训练预定的统计模型；以及基于经过训练的预定的统计模型从候选初始化参数的集合中选择候选初始化参数，以更新目标初始化参数的集合。执行上述操作一次，可以得到一个更新目标初始化参数。因此，通过执行上述操作一次或多次，可以得到目标初始化参数的集合，该集合中包括一个或多个目标初始化参数。

在一个实施例中，可以从候选初始化参数的集合中选择至少一个候选初始化参数，作为目标初始化参数的集合中的目标初始化参数，从而完成对目标初始化参数的集合的初始化操作。

在一个实施例中，可以利用经过训练的预定的统计模型来预测与候选初始化参数的集合中的候选初始化参数相对应的临时模型的性能。举例而言，可以利用统计模型来计算与候选初始化参数相对应的临时模型的性能的均值和方差，并且根据均值和方差来确定与候选初始化参数相对应的临时模型的性能预测值。然后，可以按照所预测的性能，选择候选初始化参数的集合中的至少一个候选初始化参数来更新目标初始化参数的集合。例如，可以将候选初始化参数的集合中的与所预测的最优性能相对应的候选初始化参数确定为目标初始化参数的集合中的一个目标初始化参数，并且从候选初始化参数的集合中去除与所预测的最优性能相对应的候选初始化参数。

仍然参考图1，方法100进行到步骤S130，在此基于目标初始化参数的集合来确定目标模型。

根据本发明的实施例，在步骤S120确定的目标初始化参数的集合中可以包括一个或多个目标初始化参数。在一个实施例中，如果步骤 S120所得到的目标初始化参数的数目为1，则在步骤S130可以通过训练该目标初始化参数来得到一个模型，并将该模型作为目标模型。

在另一个实施例中，如果在步骤S120确定了多个目标初始化参数，则在步骤S130中，可以通过训练该多个目标初始化参数来生成多个中间模型，然后可以基于中间模型的性能来确定目标模型。例如可以按照各个中间模型的性能，来从其中选择一个中间模型作为目标模型。

通过上述描述可以理解，本发明的实施例不涉及特定类型的混合模型的具体特性或要求，因此具有良好的通用性，并不局限于特定类型的混合模型。同时，本发明的实施例也是一种高效的解决方案。以下将通过图2所示的实施例来讨论本发明的实施例的进一步的优点。

图2示出了根据本发明实施例的用于混合模型选择的方法200的示意性流程图。方法200可以被认为是方法100的具体实施例。应当理解，所示的实施例仅是出于讨论之目的，无意以任何方式限制本发明的范围。

方法200开始于步骤S210，在此基于训练样本集来确定候选模型。

在根据本发明的一个实施例中，可以基于训练样本集来确定一个或多个第一初始化参数，并可以根据第一初始化参数生成候选模型。第一初始化参数可以通过对训练样本集中的样本进行随机分组来得到，或者可以通过对训练样本集中的样本进行聚类来得到。

当基于训练样本集确定出多个第一初始化参数时，可以生成多个模型来作为在步骤S210所确定的候选模型。在一个实施例中，可以基于训练样本集来确定多个第一初始化参数，基于多个第一初始化参数生成多个初始模型，以及根据多个初始模型的性能来选择该多个初始模型中的至少一个作为候选模型。

模型的性能可以包括多种因素，例如精度、时效性，等等。模型的性能可以通过多种方式来确定，例如计算均方根误差、平均绝对值误差、似然率等。以精度为例，对于预测/分类混合模型而言，可以将候选模型用于测试数据的预测/分类，从而得到对应的预测/分类精度。对于聚类模型而言，可以计算候选模型的聚类精度，例如标准互信息等。

备选地或附加地，可以从生成的多个模型中选择其一来作为候选模型。选择的方式可以有多种，例如可以从生成的多个模型中随机选择至少一个候选模型，也可以按照某种排序或要求来选择。应当理解，上述举例仅仅是为了讨论之目的，无意限制本发明的范围。本领域的技术人员可以利用任何适当的选择方法从多个模型中选择至少一个候选模型。

在步骤S220，基于候选模型的第一初始化参数和更新初始化参数中的至少一个，生成候选初始化参数的集合。

根据本发明的实施例，可以基于候选模型的第一初始化参数、更新参数或者二者，来生成候选初始化参数的集合。其中，该候选模型根据该第一初始化参数而生成，并且更新初始化参数表示该候选模型输出的样本分组结果。

在根据本发明的一个实施例中，可以基于候选模型的第一初始化参数，生成第三初始化参数的集合。第三初始化参数的集合可以包含与第一初始化参数相关联的一个或多个参数，并可以通过多种方式来生成。在一个实施例中，可以通过对候选模型的第一初始化参数以及参考参数进行加权求和，来生成第三初始化参数的集合中的第三初始化参数。然后，可以将第三初始化参数的集合作为候选初始化参数的集合。在一个实施例中，第三初始化参数例如可以是基于候选模型的第一初始化隐变量而生成的一个隐变量，以下称为第三初始化隐变量；参考隐变量可以是一个均匀采样的隐变量，其可以与第一初始化隐变量的形式相同，例如是k×n维的矩阵，其中k是该矩阵的行数并且表示第一初始化隐变量的样本组数目，n是该矩阵的列数并且表示训练样本集中的样本数目。在一个实施例中，假设第一初始化隐变量被表示为qz_initial，参考隐变量被表示为qz_new，则第三初始化隐变量可以通过以下来计算：

qz＝a*qz_initial+(1+a)*qz_new (1)

其中，a表示对第一初始化隐变量的加权因子，qz表示第三初始化隐变量，并且qz也对应地是一个k×n维的矩阵，该矩阵中的每个元素的值可以是0或者1，或者是本领域技术人员常用的其他适当的数值。

作为替代方案，可以基于候选模型的更新参数，生成第四初始化参数的集合，并且可以基于第四初始化参数的集合，确定候选初始化参数的集合。在一个实施例中，第四初始化参数例如可以是根据候选模型的更新隐变量而生成的一个隐变量，以下称为第四初始化隐变量。在此情况下，可以从候选模型的更新隐变量中的多个样本组中选择一个样本组；将所选择的样本组分为多个子组；以及重复前两个操作直至生成的所有子组总数与更新隐变量中剩余样本组数目之和等于第一初始化隐变量的样本组数目。由此，可以确定第四初始化隐变量的集合中的一个第四初始化隐变量。然后，可以将第四初始化参数的集合作为候选初始化参数的集合。

作为又一替代方案，可以基于第三初始化参数的集合和第四初始化参数的集合这两者来确定候选初始化参数的集合。在一个实施例中，可以将第三初始化参数的集合与第四初始化参数的集合这二者的并集来确定为候选初始化参数的集合。作为替代，在一个实施例中，可以从第三和第四初始化参数的集合中分别确定一个子集，然后可以将两个子集的并集确定为候选初始化参数的集合。上述子集的确定方法可以有多种，例如可以随机地从第三和第四初始化参数的集合中分别确定一个子集。应当理解，上述示例仅仅是为了讨论的目的，而无意对本发明的范围进行限制。本领域技术员人员可以利用其它任何适当的手段来基于第三初始化参数的集合和第四初始化参数的集合，确定候选初始化参数的集合。

应当理解，以上实施例仅仅是为了讨论之目的，无意限制本发明的范围。在根据本发明的其他实施例中，方法200的步骤S210和S220 可以被替换成利用随机方法来生成候选初始化参数的集合，如步骤 S110中所讨论的那样。

仍然参考图2，方法200进行到步骤S230，根据候选初始化参数的集合对目标初始化参数的集合进行初始化。

对目标初始化参数的集合进行初始化可以通过多种方式来进行。在一个实施例中，可以从候选初始化参数的集合中选择至少一个候选初始化参数，作为目标初始化参数的集合中的目标初始化参数。在一个附加实施例中，还可以从候选初始化参数的集合中去除所选择的该至少一个候选初始化参数。上述选择过程可以利用多种方法来实现，例如可以进行随机选择，也即从候选初始化参数的集合中随机选择一个或多个候选初始化参数来作为目标初始化参数。又例如，可以从候选初始化参数的集合中选择距离最远的多个候选初始化参数来作为目标初始化参数的集合中的多个目标初始化参数。这个距离例如可以通过计算欧式距离、汉明距离、马氏距离、夹角余弦或者本领域技术员人员可用的其他适当计算方法来获得。以此方式，可以基于候选初始化参数的集合来初始化目标初始化参数的集合。

在步骤S240，利用目标初始化参数的集合中的目标初始化参数以及与目标初始化参数相对应的临时模型的性能来训练预定的统计模型。

在根据本发明的实施例中，预定的统计模型例如可以是用户根据需要或者偏好指定的或者是系统预先设定的统计模型。预定的统计模型可以是高斯过程模型、student-t过程模型或者其他适当的统计模型。

在一个实施例中，可以利用目标初始化参数的集合中的所有目标初始化参数及其相对应的临时模型的性能来构造一个新的训练样本集。该新的训练样本集中的每个样本可以通过(x,y)来表示，其中x表示目标初始化参数，y表示与该目标初始化参数相对应的临时模型的性能。然后，可以在该新的训练样本集上进行监督学习以训练预定的统计模型。

在步骤S250，基于经过训练的预定的统计模型从候选初始化参数的集合中选择候选初始化参数，以更新目标初始化参数的集合。

根据本发明的实施例，可以利用经过训练的预定的统计模型来预测与候选初始化参数的集合中的候选初始化参数相对应的临时模型的性能。在一个实施例中，可以利用经过训练的预定统计模型来计算与候选初始化参数相对应的临时模型的性能的均值和方差，然后根据该均值和方差来确定与候选初始化参数相对应的临时模型的性能预测值。

在完成性能预测之后，可以按照所预测的性能，选择候选初始化参数的集合中的至少一个候选初始化参数来更新目标初始化参数的集合。在一个实施例中，可以将候选初始化参数的集合中的与所预测的最优性能相对应的候选初始化参数确定为目标初始化参数的集合中的一个目标初始化参数。在一个附加实施例中，还可以从候选初始化参数的集合中去除与所预测的最优性能相对应的候选初始化参数。这样，在更新目标初始化参数的集合的同时，还可以实现对候选初始化参数的集合的更新。

应当理解，方法200的步骤S230-S250仅仅是示例性的，而并非是对本发明的范围的限制。根据本发明的实施例，在步骤S250更新目标初始化参数的集合之后，可以继续返回步骤S230，来利用更新后的目标初始化参数的集合中的目标初始化参数以及与其相对应的临时模型的性能来继续训练预定的统计模型。然后，可以基于经过训练的预定的统计模型从候选初始化参数的集合中选择候选初始化参数，再次更新目标初始化参数的集合。上述步骤S230-S250可以多次执行，直到达到预设的执行次数。

继续参考图2，方法200进行到步骤S260，通过训练目标初始化参数的集合中的每个目标初始化参数来生成中间模型。

在一个实施例中，可以针对目标初始化参数的集合中的每个目标初始化参数，在训练样本集上进行学习，例如进行监督或者无监督学习，自动学习混合模型的模型参数、更新的隐变量变分分布以及模型结构，以生成与每个目标初始化参数相对应的模型，该模型被称为中间模型。

在步骤S270，基于中间模型的性能来确定目标模型。

模型的性能可以包括多种因素，例如精度、时效性等，并可以通过多种方式来确定。以精度为例，如果中间模型是预测/分类混合模型，可以将中间模型用于测试数据的预测/分类，从而得到对应的预测/分类精度。如果中间模型是聚类模型，可以计算中间模型的聚类精度，例如标准互信息等。

在一个实施例中，可以通过基于每个中间模型的更新的隐变量变分分布、模型参数和模型结构，来确定每个中间模型精度、时效性或者其他特性，继而可以得到每个中间模型的性能。然后，可以对所确定的性能对多个中间模型进行排序，例如，按照性能从高到低的顺序排列该多个中间模型。随后，可以从多个中间模型中选出性能最优的一个中间模型作为目标模型。

作为可选步骤，在步骤S270之后，可以将根据本发明的实施例得到的目标模型提供给用户，以便用户使用。

图3示出了根据本发明实施例的用于确定目标初始化隐变量的方法300的示意性流程图。方法300可以认为是方法100的步骤S120 的具体实施例以及方法200的步骤S230-S250的具体实施例。应当理解，所示的实施例仅是出于讨论之目的，无意以任何方式限制本发明的范围。

方法300开始于步骤S310，在此从候选初始化参数的集合中选择至少一个候选初始化参数，作为目标初始化参数的集合中的目标初始化参数。

在一个实施例中，可以从候选初始化参数的集合中随机选择一个或多个候选初始化参数。在一个替代实施例中，可以从候选初始化参数的集合中选择距离最远的多个候选初始化参数来作为目标初始化参数的集合中的多个目标初始化参数。这个距离例如可以通过计算欧式距离、汉明距离、马氏距离、夹角余弦或者本领域技术员人员可用的其他适当计算方法来获得。应当理解，以上实施例仅仅是示例性的，并非是对本发明的范围的限制。除此以外，还可以通过其他适当的方式来从候选初始化参数的集合中选择至少一个候选初始化参数。

在步骤S320，从候选初始化参数的集合中去除选择的至少一个候选初始化参数。

在一个实施例中，假设候选初始化参数的集合中原有N个候选初始化参数，表示为Z₁、Z₂……、Z_N，并且在步骤S310从候选初始化参数的集合中选择了一个候选初始化参数Z₁，则在步骤S320将Z₁从候选初始化参数的集合中去除。这样，候选初始化参数的集合中被更新为具有N-1个候选初始化参数，即Z₂……、Z_N。

在另一个实施例中，假设在步骤S310从候选初始化参数的集合中选择了多个(例如j个)候选初始化参数Z₁、……Z_j，则在步骤S320 将Z₁、……Z_j从候选初始化参数的集合中去除。这样，候选初始化参数的集合中被更新为具有N-j个候选初始化参数，即Z_j+1……、Z_N。

在步骤S330，生成与目标初始化参数的集合中的目标初始化参数相对应的临时模型。

根据本发明的实施例，可以针对目标初始化参数的集合中的每个目标初始化参数，在训练样本集上进行学习，从而生成与每个目标初始化参数相对应的模型，在此称为“临时模型”。在一个实施例中，针对每个目标初始化参数，可以在训练样本集上进行监督或者无监督学习，来自动学习混合模型的模型参数、更新隐变量(或者更新的隐变量变分分布)以及模型结构，从而得到对应的临时模型。通过这种方式，可以生成与目标初始化参数的集合中的每个目标初始化参数相对应的临时模型。

在一个实施例中，上述训练过程可以是轻型训练(lightly train)，也即，执行变分推理算法预设步数以学习出与目标初始化参数相对应的混合模型，无需执行变分推理算法直至其收敛。通过这种方式，可以提高运行速度，减少处理时间。应当理解，上述示例并不是对本发明的范围的限制，在本发明的替代实施例中，在上述训练过程中可以进行完全学习(fully train)，也即执行变分推理算法直至其收敛以学出与目标初始化参数相对应的混合模型。

在步骤S340，利用目标初始化参数的集合中的目标初始化参数及其相对应的临时模型的性能来训练预定的统计模型。

在一个实施例中，在步骤S340首先需要确定与目标初始化参数相对应的临时模型的性能。在一个实施例中，可以针对目标初始化参数，在训练样本集上进行监督或者无监督学习，自动学习混合模型的模型参数、更新隐变量(或者更新的隐变量变分分布)以及模型结构，从而得到与目标初始化参数相对应的临时模型。然后，可以通过计算模型的精度、时效性等来得到临时模型的性能。以精度为例，对于预测/ 分类混合模型而言，可以在测试数据的预测/分类中使用临时模型的更新的隐变量变分分布、模型参数和模型结构，从而得到对应的预测/分类精度。对于聚类模型而言，可以计算临时模型的聚类精度，例如标准互信息等。

通过上述方式，所得到的与目标初始化参数相对应的临时模型的性能有可能具有一个或多个特征(例如精度、时效性等)。另外，就精度而言，其也可能具有多种形式，每种形式也可以构成性能的一个特征。在一个实施例中，当与目标初始化参数的集合中的第i个目标初始化参数相对应的临时模型的性能具有一个特征，例如仅为该临时模型的某一形式的精度时，可以利用目标初始化参数的集合中的目标初始化参数及其相对应的临时模型的性能来构造一个新的训练样本集中的一个样本。该样本例如可以通过(x_i,y_i)来表示，其中x_i表示目标初始化参数的集合中的第i个目标初始化参数，y_i表示与第i个目标初始化参数相对应的临时模型的性能(例如某一形式的精度)。

在另一个实施例中，当与目标初始化参数的集合中的第j个目标初始化参数相对应的临时模型的性能具有多个(例如m个)特征，例如多种形式的精度和/或多种形式的时效性时，可以构造新的训练样本集中的多个样本。该多个样本例如可以通过(x_j,y_jp)来表示，其中x_j表示第j个目标初始化参数，y_ip表示与第i个目标初始化参数相对应的临时模型的性能的第p个特征，其中p＝1,2,...,m。

在构建好新的训练样本集之后，可以在该新的训练样本集上进行监督学习以训练预定的统计模型。预定的统计模型例如可以是用户预先设置的或者是系统要求的统计模型。预定的统计模型例如可以是高斯过程模型、student-t过程模型或者其他适当的统计模型。

应当理解上述实施例仅仅是示例性的，无意对本发明的范围进行限制。在本发明的其他实施例中，在构造新的训练样本集时，可以基于目标初始化参数的集合中的所有目标初始化参数来进行，也可以仅基于部分目标初始化参数来进行。

在步骤S350，利用经过训练的预定的统计模型来预测与候选初始化参数的集合中的候选初始化参数相对应的临时模型的性能。

在此步骤中，可以利用经过训练的预定统计模型来计算与候选初始化参数相对应的临时模型的性能的均值和方差。然后，可以根据所计算的均值和方差来确定与候选初始化参数相对应的临时模型的性能预测值。

在一个实施例中，如果在步骤S340中得到的与目标初始化参数的集合中的第i个目标初始化参数相对应的临时模型的性能具有一个特征，对应的样本为(x_i,y_i)，则在步骤S350中利用经过训练的预定统计模型可以计算该临时模型的性能的一个均值(例如表示为mean_i)和一个方差(例如表示为variance_i)。然后，可以基于该均值和方差来得到一个性能预测值。例如，可以如下计算：

P_i＝mean_i+α*variance_i (2)

其中P_i表示与第i个目标初始化参数相对应的性能预测值；α表示加权因子，其例如可以被用户根据需要进行设定或者预定为某个固定值。

在另一个实施例中，如果在步骤S340中得到的临时模型的性能具有多个特征，对应的样本为(x_j,y_jp)，则在步骤S350中利用经过训练的预定统计模型可以计算该临时模型的性能的多个均值(例如mean_jp) 和多个方差(例如variance_jp)。然后，可以基于这些均值和方差来得到一个性能预测值。例如，可以如下计算：

其中P_j表示与第j个目标初始化参数相对应的性能预测值；α表示加权因子，其例如可以被用户根据需要进行设定或者预定为某个固定值。

应当理解，在本发明的实施例中，性能预测值可以通过多种其他适当的方式来得到。以上实施例仅仅是为了便于讨论之目的，无意对本发明的范围进行限制。

在步骤S360，按照所预测的性能，选择候选初始化参数的集合中的至少一个候选初始化参数来更新目标初始化参数的集合。

在一个实施例中，可以将候选初始化参数的集合中的与所预测的最优性能相对应的候选初始化参数确定为目标初始化参数的集合中的一个目标初始化参数。然后，可以从候选初始化参数的集合中去除与所预测的最优性能相对应的候选初始化参数，从而可以更新候选初始化参数的集合。在一种实现方式中，可以基于所确定的性能对候选初始化参数的集合中的候选初始化参数进行排序。例如，可以按照性能预测值从高到低的顺序对候选初始化参数进行排序。由此，可以选择与最优性能(即，性能预测值最大的性能)相对应一个候选初始化参数。在这种情况下，在步骤S360可以将选出的一个候选初始化参数加入到目标初始化参数的集合中，从而完成对目标初始化参数的集合的更新。

作为备选方案，在一个实施例中，可以选择与排序靠前的两个或两个以上性能相关联的候选初始化参数。在这种情况下，在步骤S360 可以将选出的两个或两个以上候选初始化参数加入到目标初始化参数的集合中，从而完成对目标初始化参数的集合的更新。

在步骤S370，确定目标初始化参数的数目是否达到预定阈值。

在一个实施例中，可以对于目标初始化参数的集合中的元素数目设定一个预定阈值，该预定阈值可以是本领域技术人员根据经验或者偏好设置的，也以是系统固定设置的。如果确定目标初始化参数的集合中的目标初始化参数的数目未达到该预定阈值，则可以迭代地执行步骤S330至S360，以确定的新的目标初始化参数。如果确定目标初始化参数的集合中的目标初始化参数的数目达到该预定阈值，则可以停止迭代；然后，可以通过训练目标初始化参数来生成中间模型，并基于中间模型的性能来确定目标模型。

图4示出了根据本发明实施例的用于混合模型选择的方法的一个图形化表示400的示意图。图4示出的混合模型选择过程与图1的步骤S110-S130相对应。如图4所示，首先，可以基于训练样本集来确定候选初始化参数的集合。该候选初始化参数的集合可以包括一个或多个候选初始化参数，其被分别表示为Z₁,Z₂,…,Z_k1，其中k1表示候选初始化参数的数目。然后，可以利用预定的统计模型，基于候选初始化参数的集合确定目标初始化参数的集合。该目标初始化参数的集合可以包括一个或多个目标初始化参数，其被分别表示为Z₁,Z₂,…,Z_k2，其中k2表示目标初始化参数的数目。接下来，可以基于该目标初始化参数的集合来确定目标模型。如图4所示，例如可以通过训练多个目标初始化参数Z₁,Z₂,…,Z_k2来生成多个中间模型，即中间模型1、中间模型2、……中间模型k2，然后可以基于这k2个中间模型的性能来选择其中之一来作为目标模型。

应当理解，图4所示的图仅仅是示例性的，无意以任何方式限制本发明的范围。根据本发明的实施例，并不一定要从与目标初始化参数Z₁,Z₂,…,Z_k2相对应的中间模型1、中间模型2、……中间模型k2 来得到目标模型。例如，在一个备选实施例中，当目标初始化参数的数目为1时，可以直接将与其对应的模型确定为目标模型。应当理解，上述实施例仅仅是示例性的，并不是对本发明的范围的限制。在本发明的范围内，本领域技术人员可以对本发明的实施例进行各种变形。

图5示出了根据本发明实施例的用于混合模型选择的装置500的示意性框图。如图所示，装置500包括：候选初始化参数确定单元510，被配置为基于训练样本集来确定候选初始化参数的集合；目标初始化参数确定单元520，被配置为利用预定的统计模型，基于候选初始化参数的集合确定目标初始化参数的集合；以及目标模型确定单元530，被配置为基于目标初始化参数的集合来确定目标模型。

在一个实施例中，目标初始化参数确定单元520可以包括：初始化单元，被配置为根据候选初始化参数的集合对目标初始化参数的集合进行初始化；统计模型训练单元，被配置为利用目标初始化参数的集合中的目标初始化参数以及与目标初始化参数相对应的临时模型的性能来训练预定的统计模型；以及第一更新单元，被配置为基于经过训练的预定的统计模型从候选初始化参数的集合中选择候选初始化参数，以更新目标初始化参数的集合。

在一个实施例中，初始化单元可以包括：第一选择单元，被配置为从候选初始化参数的集合中选择至少一个候选初始化参数，作为目标初始化参数的集合中的目标初始化参数。

在一个实施例中，第一更新单元可以包括：性能预测单元，被配置为利用经过训练的预定的统计模型来预测与候选初始化参数的集合中的候选初始化参数相对应的临时模型的性能；以及第二更新单元，被配置为按照所预测的性能，选择候选初始化参数的集合中的至少一个候选初始化参数来更新目标初始化参数的集合。

在一个实施例中，性能预测单元可以包括：第一计算单元，被配置为利用统计模型来计算与候选初始化参数相对应的临时模型的性能的均值和方差；以及第二计算单元，被配置为根据均值和方差来确定与候选初始化参数相对应的临时模型的性能预测值。

在一个实施例中，第二更新单元可以包括：目标初始化参数获取单元，被配置为将候选初始化参数的集合中的与所预测的最优性能相对应的候选初始化参数确定为目标初始化参数的集合中的一个目标初始化参数；以及候选初始化参数更新单元，被配置为从候选初始化参数的集合中去除与所预测的最优性能相对应的候选初始化参数。

在一个实施例中，候选初始化参数确定单元510可以包括：候选模型确定单元，被配置为基于训练样本集来确定候选模型；以及生成单元，被配置为基于候选模型的第一初始化参数和更新初始化参数中的至少一个，生成候选初始化参数的集合，其中候选模型根据第一初始化参数而生成，并且更新初始化参数被包含在候选模型的输出中。

在一个实施例中，候选初始化参数确定单元510可以包括：分布确定单元，被配置为基于训练样本集，确定候选初始化参数所服从的分布，其中候选初始化参数是候选初始化模型参数；以及采样单元，被配置为对所确定的分布进行采样，以生成候选初始化参数的集合中的候选初始化参数。

在一个实施例中，候选初始化参数确定单元510可以包括：分组单元，被配置为对训练样本集随机分组；以及候选初始化隐变量确定单元，被配置为基于分组结果，确定候选初始化参数的集合中的候选初始化参数，其中候选初始化参数是候选初始化隐变量。

在一个实施例中，目标模型确定单元530可以包括：中间模型生成单元，被配置为通过训练目标初始化参数的集合中的每个目标初始化参数来生成中间模型；以及目标模型生成单元，被配置为基于中间模型的性能来确定目标模型。

为清晰起见，在图5中没有示出装置500包含的可选单元以及各个单元所包含的子单元。应当理解，装置500可以利用各种方式实现。例如，在某些实施例中，装置500可以利用软件和/或固件来实现。例如，装置500可以被实现为包含在计算机可读介质上的计算机程序产品，其中的每个单元是通过计算机指令来实现其功能的程序模块。备选地或附加地，装置500可以部分地或者完全地基于硬件来实现。例如，装置500可被实现为集成电路(IC)芯片、专用集成电路(ASIC) 或者片上系统(SOC)。现在已知或者将来开发的其他方式也是可行的，本发明的范围在此方面不受限制。

图6示出了适于用来实现本发明实施例的示例性计算机系统600 的示意性框图。如图所示，计算机系统600包括中央处理单元(CPU) 601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储单元608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有CPU 601执行各种处理等所需的数据。CPU601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)单元605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入单元606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出单元607；包括硬盘等的存储单元608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信单元609。通信单元609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口 605。可移动介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动610上，以便于从其上读出的计算机程序根据需要被安装入存储单元608。

特别地，根据本发明的实施例，上文描述的各个过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行各方法的程序代码。在这样的实施例中，该计算机程序可以通过通信单元609从网络上被下载和安装，和/或从可移动介质611 被安装。

一般而言，本发明的各种示例实施例可以在硬件或专用电路、软件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

而且，流程图中的各框可以被看作是方法步骤，和/或计算机程序代码的操作生成的操作，和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如，本发明的实施例包括计算机程序产品，该计算机程序产品包括有形地实现在机器可读介质上的计算机程序，该计算机程序包含被配置为实现上文描述方法的程序代码。

在本公开的上下文中，机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备，或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备，或其任意合适的组合。

用于实现本发明的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器，使得程序代码在被计算机或其他可编程的数据处理装置执行的时候，引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。

另外，尽管操作以特定顺序被描绘，但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成，或者执行所有图示的操作以获取期望结果。在某些情况下，多任务或并行处理会是有益的。同样地，尽管上述讨论包含了某些特定的实施细节，但这并不应解释为限制任何发明或权利要求的范围，而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。

针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外，前述说明书和附图存在启发的益处，涉及本发明的这些实施例的技术领域的技术人员将会想到此处阐明的本发明的其他实施例。

将会理解，本发明的实施例不限于公开的特定实施例，并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语，但是它们仅在通用和描述的意义上使用，而并不用于限制目的。

Claims

1.一种计算机系统实现的、用于模糊图像分割的变分推理的数据初始化方法，所述计算机系统包括存储器和处理器，所述存储器被配置为存储程序，所述处理器耦合至所述存储器并且被配置为执行所述程序以执行所述方法，所述方法包括：

在计算机系统处：

基于所获得的训练样本集数据来确定候选初始化参数的集合；

利用预定的统计模型，基于所述候选初始化参数的集合确定目标初始化参数的集合；以及

基于所述目标初始化参数的集合来确定目标模型；

其中基于所述候选初始化参数的集合确定目标初始化参数的集合包括：

根据所述候选初始化参数的集合对所述目标初始化参数的集合进行初始化；以及

执行以下操作一次或多次：

利用所述目标初始化参数的集合中的目标初始化参数以及与所述目标初始化参数相对应的临时模型的性能来训练所述预定的统计模型；以及

基于经过训练的所述预定的统计模型从所述候选初始化参数的集合中选择候选初始化参数，以更新所述目标初始化参数的集合，用以选择模糊图像分割的混合模型。

2.根据权利要求1所述的方法，其中根据所述候选初始化参数的集合对所述目标初始化参数的集合进行初始化包括：

从所述候选初始化参数的集合中选择至少一个候选初始化参数，作为所述目标初始化参数的集合中的目标初始化参数。

3.根据权利要求1所述的方法，其中基于经过训练的所述预定的统计模型从所述候选初始化参数的集合中选择候选初始化参数，以更新所述目标初始化参数的集合包括：

利用经过训练的所述预定的统计模型来预测与所述候选初始化参数的集合中的候选初始化参数相对应的临时模型的性能；以及

按照所预测的性能，选择所述候选初始化参数的集合中的至少一个候选初始化参数来更新所述目标初始化参数的集合。

4.根据权利要求3所述的方法，其中利用经过训练的所述预定的统计模型来预测与所述候选初始化参数的集合中的候选初始化参数相对应的临时模型的性能包括：

利用所述统计模型来计算与所述候选初始化参数相对应的临时模型的性能的均值和方差；以及

根据所述均值和所述方差来确定与所述候选初始化参数相对应的临时模型的性能预测值。

5.根据权利要求3所述的方法，其中按照所预测的性能，选择所述候选初始化参数的集合中的至少一个候选初始化参数来更新所述目标初始化参数的集合包括：

将所述候选初始化参数的集合中的与所预测的最优性能相对应的候选初始化参数确定为所述目标初始化参数的集合中的一个目标初始化参数；以及

从所述候选初始化参数的集合中去除与所预测的最优性能相对应的所述候选初始化参数。

6.根据权利要求1所述的方法，其中基于训练样本集来确定候选初始化参数的集合包括：

基于所述训练样本集来确定候选模型；以及

基于所述候选模型的第一初始化参数和更新初始化参数中的至少一个，生成所述候选初始化参数的集合，其中所述候选模型根据所述第一初始化参数而生成，并且所述更新初始化参数被包含在所述候选模型的输出中。

7.根据权利要求1所述的方法，其中基于训练样本集来确定候选初始化参数的集合包括：

基于所述训练样本集，确定所述候选初始化参数所服从的分布，其中所述候选初始化参数是候选初始化模型参数；以及

对所确定的分布进行采样，以生成所述候选初始化参数的集合中的候选初始化参数。

8.根据权利要求1所述的方法，其中基于训练样本集来确定候选初始化参数的集合包括：

对所述训练样本集随机分组；以及

基于所述分组结果，确定所述候选初始化参数的集合中的候选初始化参数，其中所述候选初始化参数是候选初始化隐变量。

9.根据权利要求1所述的方法，其中基于所述目标初始化参数的集合来确定目标模型包括：

通过训练所述目标初始化参数的集合中的每个目标初始化参数来生成中间模型；以及

基于所述中间模型的性能来确定所述目标模型。

10.一种用于模糊图像分割的混合模型选择的计算机系统，所述计算机系统包括：

存储器，被配置为存储程序；

处理器，耦合至所述存储器并且被配置为执行所述程序以使所述计算机系统执行以下动作：

基于所获取的训练样本集数据来确定候选初始化参数的集合；

基于所述目标初始化参数的集合来确定目标模型；

使用目标模型来进行机器学习；

根据所述候选初始化参数的集合对所述目标初始化参数的集合进行初始化；

11.根据权利要求10所述的计算机系统，其中根据所述候选初始化参数的集合对所述目标初始化参数的集合进行初始化包括：

12.根据权利要求10所述的计算机系统，其中基于经过训练的所述预定的统计模型从所述候选初始化参数的集合中选择候选初始化参数，以更新所述目标初始化参数的集合包括：

13.根据权利要求12所述的计算机系统，其中利用经过训练的所述预定的统计模型来预测与所述候选初始化参数的集合中的候选初始化参数相对应的临时模型的性能包括：

14.根据权利要求12所述的计算机系统，其中按照所预测的性能，选择所述候选初始化参数的集合中的至少一个候选初始化参数来更新所述目标初始化参数的集合包括：

15.根据权利要求10所述的计算机系统，其中基于训练样本集来确定候选初始化参数的集合包括：

基于所述训练样本集来确定候选模型；以及

16.根据权利要求10所述的计算机系统，其中基于训练样本集来确定候选初始化参数的集合包括：

17.根据权利要求10所述的计算机系统，其中基于训练样本集来确定候选初始化参数的集合包括：

对所述训练样本集随机分组；以及

18.根据权利要求10所述的计算机系统，其中基于所述目标初始化参数的集合来确定目标模型包括：

基于所述中间模型的性能来确定所述目标模型。