CN106156858A

CN106156858A - 分片线性模型生成系统和生成方法

Info

Publication number: CN106156858A
Application number: CN201510150198.6A
Authority: CN
Inventors: 王虎; 刘春辰; 冯璐; 藤卷辽平
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2016-11-23
Also published as: JP6164320B2; JP2016194909A

Abstract

本公开的实施方式提供了一种分片线性模型生成系统及生成方法，该系统包括：获取装置，用于获取多个任务的数据；第一设置装置，用于设置用于表征所述多个任务之间的相关性的任务相关隐变量，其中每个任务与一个分片线性模型相关；第二设置装置，用于设置多个分片线性模型的模型结构，并且初始化相应的模型参数和分层隐变量；以及模型优化装置，用于基于所述多个任务的数据、所述任务相关隐变量以及所述分层隐变量优化所述模型结构和所述模型参数。

Description

分片线性模型生成系统和生成方法

技术领域

本公开的各个实施方式涉及机器学习领域，并且更具体地涉及一种分片线性模型生成系统和生成方法。

背景技术

分片线性模型(例如分层混合专家HME)已经广泛用于许多企业级机器学习应用中。HME比普通的线性模型更加灵活，而且其保留了利用基于概率规则对特征空间进行分区和采用分片局部线性专家的重要优点。HME的学习过程包括分区结构确定以及对各个专家(expert)的建模。当训练样本非常嘈杂并且样本容量不足时这变得具有挑战性，并且灵活的HME由于对训练数据集的过拟合而可能导致很差的泛化性能。

在实际应用中，通常存在相关的机器学习任务的集合，例如以预测社区中的建筑物的能源需求。一种简单的方法是独立地解决这些任务(单任务学习，STL)，而忽略了这些相关的任务之间的共性。在多任务学习(MTL)中，通过利用任务间合适的共享信息来协同地学习这些相关的任务。协同地学习多个相关的任务有效地增加了每个任务的样本容量，并且因此具有改进泛化性能的潜能。

多任务学习通过任务间共享信息把不同任务间的样本协同处理，以增加样本的数量，从而能够避免它拟合噪声。然而，当前多任务学习技术主要用于模型结构固定的场景，比如线性回归，但是针对诸如HME之类的分片线性模型，既要学习模型结构，又要学习模型参数，当前多任务学习做不到这一点。

发明内容

本公开的目的包括提供一种分片线性模型生成系统和生成方法，以至少部分解决现有技术中的上述问题。

根据本公开的一个方面，提供了一种分片线性模型生成系统，包括：获取装置，用于获取多个任务的数据；第一设置装置，用于设置用于表征所述多个任务之间的相关性的任务相关隐变量，其中每个任务与一个分片线性模型相关；第二设置装置，用于设置多个分片线性模型的模型结构，并且初始化相应的模型参数和分层隐变量；以及模型优化装置，用于基于所述多个任务的数据、所述任务相关隐变量以及所述分层隐变量优化所述模型结构和所述模型参数。

根据本公开的一个示例性实施方式，所述任务相关隐变量用于表征所述多个任务中的各个任务与所述多个分片线性模型中的各个分片线性模型的对应关系。

根据本公开的一个示例性实施方式，所述模型结构包括树结构。

根据本公开的一个示例性实施方式，所述系统还包括：分层隐变量优化装置，用于基于所述多个任务的数据、所述任务相关隐变量、所述模型结构和所述模型参数优化所述分层隐变量。

根据本公开的一个示例性实施方式，所述系统还包括：任务相关隐变量优化装置，用于基于所述多个任务的数据、所述分层隐变量、所述模型结构和所述模型参数优化所述任务相关隐变量。

根据本公开的一个示例性实施方式，所述系统还包括：硬划分装置，用于在优化所述任务相关隐变量之后，基于所述任务相关隐变量对所述多个任务进行硬划分并且更新所述任务相关隐变量。

根据本公开的一个示例性实施方式，所述系统还包括：判定装置，用于判定所述模型结构和所述模型参数是否达到最优。

根据本公开的一个示例性实施方式，所述判定装置根据所述模型结构和模型参数的拟合程度来判定所述模型结构和所述模型参数是否达到最优。

根据本公开的另一方面，提供了一种分片线性模型生成方法，包括：获取多个任务的数据；设置用于表征所述多个任务之间的相关性的任务相关隐变量，其中每个任务与一个分片线性模型相关；设置多个分片线性模型的模型结构，并且初始化相应的模型参数和分层隐变量；以及基于所述多个任务的数据、所述任务相关隐变量以及所述分层隐变量优化所述模型结构和所述模型参数。

根据本公开的一个示例性实施方式，所述方法还包括：基于所述多个任务的数据、所述任务相关隐变量、所述模型结构和所述模型参数优化所述分层隐变量。

根据本公开的一个示例性实施方式，所述方法还包括：基于所述多个任务的数据、所述分层隐变量、所述模型结构和所述模型参数优化所述任务相关隐变量。

根据本公开的一个示例性实施方式，所述方法还包括：在优化所述任务相关隐变量之后，基于所述任务相关隐变量对所述多个任务进行硬划分并且更新所述任务相关隐变量。

根据本公开的一个示例性实施方式，所述方法还包括：判定所述模型结构和所述模型参数是否达到最优。

根据本公开的一个示例性实施方式，判定所述模型结构和所述模型参数是否达到最优包括：根据所述模型结构和模型参数的拟合程度来判定所述模型结构和所述模型参数是否达到最优。

在本公开的各个实施方式的技术方案中，由于模型生成过程中增加了一个新的隐变量来表征任务之间的相关性，以便辅助分片线性模型的生成，使得能够利用多个任务的数据进行建模，从而提高了模型生成精度。

此外，由于将每个任务设置为仅与一个分片线性模型相关，使得根据本公开的分片线性模型生成系统和生成方法能够处理更大的数据。

附图说明

当结合附图阅读下文对示范性实施方式的详细描述时，这些以及其它目的、特征和优点将变得显而易见，在附图中：

图1示意性地示出了根据本公开的一个实施方式的分片线性模型生成方法的流程图；

图2示意性地示出了根据本公开的一个实施方式的分片线性模型生成系统的框图；以及

图3采用图形方式示意性地示出了根据本公开的一个实施方式的分片模型生成方法的步骤。

具体实施方式

下面将参考附图中的若干示例性实施方式来描述本公开的原理和方法。应当理解，描述这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。

在描述根据本公开的各个实施方式的分片线性模型生成方法和生成系统之前，首先对在本文中出现的一些技术概念进行说明。

分片线性模型

分片线性模型的先驱是回归树，在回归树中分区由规则链指定，并且局部专家是恒定值。尽管回归树的表示是高度可解释的，但是各个专家的预测能力并不高，并且为了获得高预测性能而可能使得树深度趋向于很大。

分层混合专家(HME)

HME采用分治策略来构建分片模型。它们的树状分区结构由门控函数确定，门控函数是概率软分区函数。尽管通过设计门控函数，HME可以表达任何分区结构，但是在本文中使用规则链(树状)分区结构作为示例，以使得所学习的分区结构是实际上可理解的。

HME模型被定义如下：

p (y | x, θ; γ) = Σ_{j = 1}^{E} Π_{i &Element; ϵ_{j}} ψ_{g} (x, i, j) \cdot p (y | x, φ_{j}) - - - (1)

其中θ和γ是来自门控节点的参数，E是专家的数目，ε_j是包含从根节点到第j个专家节点的唯一路径上的门控节点的所有索引的索引集。g(x，α_i)被称作由α_i＝(β_i；γ_i)参数化的门控函数，并且ψ_g(x，i，j)是x属于专家j以及i的左子树的概率。p(y|x，φ_j)是具有由参数化的高斯噪声的第j个专家的条件分布。

用于混合模型的因式分解渐进贝叶斯(FAB)

假设目前具有观测数据，并且z^N＝z⁽¹⁾，...，z^(N)，z⁽ⁿ⁾∈{1，0}^C表示对应于x^N的隐变量，隐变量指示哪个混合分量生成x⁽ⁿ⁾。这种隐变量模型可以通过因式分解渐进贝叶斯(FAB)推理求解，FAB推理是最近开发的基于因式分解信息准则(FIC)的贝叶斯近似推理。FIC作为边际对数似然函数的渐进近似被导出为：

{FIC}^{mm} = \max_{q} E [\log p (x^{N}, z^{N} | \overset{&OverBar;}{θ}) - \frac{D_{z}}{2} \log N - \underset{k}{Σ} \frac{D_{k}}{2} \log \underset{n}{Σ} z_{k}^{n}] + H (q) - - - (2)

其中q(z^N)是z^N上的变分分布，并且是模型参数的最大似然估计。FIC^mm中最重要的项是其为FAB推理提供了理论上希望的性质，诸如不相干的隐变量的自动缩减和参数可标识性。

FAB优化了FIC的易控制的下限。该下限相对于q和θ的交替最大化确保了FIC下限的单调增加。

多任务学习(MTL)

机器学习中的MTL的通用范式是最小化处罚经验损失：

其中w是将要根据训练样本估计的参数，是训练集上的经验损失，并且Ω(w)是对任务相关性进行编码的正则项。对于任务相关性的不同假设导致不同的正则项。在多任务学习领域中，存在任务之间使用正则化的模型关系的许多现有技术。

在下文中，将结合图1至图3所示的示例性实施例对本发明的构思进行说明。在以下描述中将以HME模型作为分片线性模型的示例对本公开的原理进行说明，然而本公开并不限于HME模型，而是可以适用于其它分片线性模型。

本公开的主旨是利用多任务学习来解决生成分片线性模型的挑战性问题，其结合了因式分解渐进贝叶斯和多任务学习。首先，假设任务的子集遵循相同分布。在本公开的上下文中，多任务学习旨在找出隶属于相同分布的任务的集群，并且利用分片线性模型(例如HME模型)拟合每个集群。相同集群中的任务可以利用彼此的强度来提升学习性能。

图1示意性地示出了根据本公开的一个实施方式的分片线性模型生成方法的流程图。如图1所示，分片线性模型生成方法总体上可以包括：在101，获取多个任务的数据；在102，设置用于表征多个任务之间的相关性的任务相关隐变量，其中每个任务与一个分片线性模型相关；在103，设置多个分片线性模型的模型结构，并且初始化其模型参数和分层隐变量；以及在107，基于多个任务的数据、任务相关隐变量以及分层隐变量优化模型结构和模型参数。下面将对各个步骤进行具体描述。

在步骤101中，可以获取N个任务的数据。

在步骤102中，设置用于表征多个任务之间的相关性的任务相关隐变量，其中每个任务与一个分片线性模型相关。作为示例，任务相关隐变量用于表征多个任务中的各个任务与多个分片线性模型中的各个分片线性模型的对应关系。也就是说可以采用每个任务属于某个模型的概率来表征任务之间的相关性。如果两个任务属于同一模型，则认为这两个任务是相关的。在本公开中，每个任务仅对应于一个分片线性模型，因而能够处理更大的数据。

在步骤103中，设置多个分片线性模型的模型结构，并且初始化其模型参数和分层隐变量。作为示例，该模型结构可以是树结构，并且上述初始化过程可以随机进行。

根据一个示例性实施方式，分片线性模型生成方法可以包括在步骤103之后并且在步骤107之前的步骤104：基于多个任务的数据、任务相关隐变量、模型结构和模型参数优化分层隐变量。由于在步骤103中随机初始化了分层隐变量，因此在该步骤中可以对其进行优化。分层隐变量用于说明如何划分数据，继而将特征空间划分成片，每片用局部专家表述。分层隐变量划片的过程不是按特征划分，而是按样本划分，即哪些样本一起放在一个片中，哪些样本放在另一片中。在特定示例中，可以根据概率对每个样本进行划分。具体的优化方法可以采用在下文中将要描述的等式13所描述的过程。

根据一个示例性实施方式，分片线性模型生成方法可以包括在步骤104之后并且在步骤107之前的步骤105：基于多个任务的数据、分层隐变量、模型结构和模型参数优化任务相关隐变量。由于在步骤102中设置的任务相关隐变量是经随机初始化而产生的，因此需要对其进行优化。在这一步骤中，可以采用在步骤104中经过优化分层隐变量，并且结合多个任务的数据、模型结构和模型参数对任务相关隐变量进行优化。具体的优化方法可以采用在下文中将要描述的等式11所描述的过程。

根据一个示例性实施方式，分片线性模型生成方法可以包括在步骤105之后并且在步骤107之前的步骤106：基于任务相关隐变量对多个任务进行硬划分并且更新任务相关隐变量。硬划分强制使得某个任务仅属于一个模型，即要么属于这个模型，要么属于那个模型，从而避免了很大的空间开销。因此，根据本公开的分片线性模型除了能够提高预测精度外，还对计算资源进行了优化，能够适应大数据场景。具体的优化方法可以采用在下文中将要描述的等式12所描述的过程。

根据一个示例性实施方式，在步骤107中，可以利用在步骤104中经过优化的分层隐变量和在步骤105中经过优化的任务相关隐变量，并且结合多个任务的数据对模型结构和模型参数进行优化。具体的优化方法可以采用在下文中将要描述的等式14所描述的过程。

根据一个示例性实施方式，分片线性模型生成方法可以包括在步骤107之后的步骤108：判定模型性结构和模型参数是否达到最优，如果是，则执行输出分片线性模型的步骤109，如果否，则返回执行步骤104。上述判定的评价指标可以是模型与数据的拟合程度，该拟合程度不可能无上限地增长，而是存在一个上限，在递增过程中增到一定程度后继续优化时的增量很小。增量足够小时认为已经得到最优模型，因而停止优化，并且在步骤109中输出得到的分片线性模型。

在上文中参照图1中所示的特定实施方式描述了根据本公开的分片线性模型生成原理。然而本领域技术人员能够理解的是，根据本公开的分片线性模型生成方法并不限于上述具体步骤，而是以权利要求所限定的范围为准。根据不同的需求，本领域技术人员容易想到省略或添加一个或多个步骤。

接下来，将根据特定示例来阐释可以用于步骤104至107中的优化方法。

首先，若干符号首先定义如下。

N:任务的数目

L:每个任务中的样本的数目

x^NL,y^NL:分别为训练数据集的特征和标记

D:用于生成数据的真实模型

M:混合的HME模型的数目

z:从任务到模型的分配向量

ζ:从样本到HME的专家的分配向量

多任务学习考虑任务的划分(由z指示)以及每个任务中的样本的划分(由ζ指示)，并且主要兴趣点是边际似然估计p(y^NL|x^NL,D)。因此，导出对q(z^N)和q(ζ^NL)的边际对数似然函数的下限如下。

\begin{matrix} \log p (y^{NL} | x^{NL}, D) &GreaterEqual; \underset{z^{N}}{Σ} q (z^{N}) [\log p (y^{NL}, z^{N} | x^{NL}, D) - \log q (z^{N})] \\ = \underset{z^{N}}{Σ} q (z^{N}) [Σ_{c = 1}^{M} \log p (y^{N_{c} L} | x^{N_{c} L}, D_{c}) + \log p (z^{N} | α)] + H (q (z^{N})) \end{matrix} - - - (4)

\log p (y^{N_{c} L} | x^{N_{c} L}, D_{c}) &GreaterEqual; \underset{ζ_{c}^{N_{c} L}}{Σ} q (ζ_{c}^{N_{c} L}) \log p (y^{N_{c} L}, ζ_{c}^{N_{c} L} | x^{N_{c} L}, D_{c}) + H (q (ζ_{c}^{N_{c} L})) - - - (5)

其中N_c是第c个集群中的任务的数目。在此，通过假设如下等式(6)而基于来应用硬划分。

p (y^{NL} | x^{NL}, z_{c}^{N}, D_{c}) = p (y^{N_{c} L} | x^{N_{c} L}, D_{c}) - - - (6)

因此，通过组合等式(4)和(5)得到下限。

\begin{matrix} \log p (y^{NL} | x^{NL}, D) &GreaterEqual; H (q (z^{N})) + \underset{z^{N}}{Σ} (z^{N}) [\log p (z^{N} | α) \\ + \underset{ζ_{c}^{N_{c} L}}{Σ} q (ζ_{c}^{N_{c} L}) \log p (y^{N_{c} L}, ζ_{c}^{N_{c} L} | x^{N_{c} L}, D_{c}) + Σ_{c = 1}^{M} H (q (ζ_{c}^{N_{c} L}))] \\ = : VLB (q, x^{NL}, D) \end{matrix} - - - (7)

可以确保max_q{VLB(q,x^NL,y^NL,D})与logp(y^NL|x^NL,D)一致。

接下来描述因式分解渐进近似。

假设任务集群之间以及每个任务集群中的样本集群之间相互独立，并且随后利用拉普拉斯方法近似得到因式分解信息准则(FIC)。

\begin{matrix} {FIC}_{smtl} (y^{NL}, x^{NL}, D) = \max_{q} {J (q, ρ, y^{NL}, x^{NL})} \\ J (q, ρ, y^{NL}, x^{NL}) = H (q (x^{N})) + \underset{z^{N}}{Σ} q (z^{N}) \log p (z^{N} | α) \\ + Σ_{c = 1}^{M} \underset{z_{c}^{N}, ζ_{c}^{NL}}{Σ} Π_{n = 1}^{N} q (z_{cn}) {q (ζ_{c}^{NL}) [\log p (y^{NL}, ζ_{c}^{NL} | x^{NL}, z_{nc}, ρ_{c}) \\ - Σ_{i = 1}^{G_{c}} (\frac{D_{β_{ci}}}{2} \log {ng}_{i}) - Σ_{j = 1}^{E_{c}} (\frac{D_{φ_{cj}}}{2} \log {ne}_{j})] \\ + H (q (ζ_{c}^{NL}))} \end{matrix} - - - (8)

其中ρ＝(α,ρ₁,...,ρ_M)，α是用于每个集群的混合比率向量，并且ρ_c＝(β_c,γ_c,φ_c)是用于第c个HEM模型的参数，c＝1,...,M。

{ng}_{i} = Σ_{n = 1}^{N_{c}} Σ_{l = 1}^{L} \underset{j &Element; G_{i}}{Σ} ζ_{cj}^{nl},

{ne}_{j} = Σ_{n = 1}^{N_{c}} Σ_{l = 1}^{L} ζ_{cj}^{nl}

在上述过程中，仅根据边际对数似然函数的近似来判断FIC。

接下来，描述可以用于在上文中所述的分片线性模型生成方法的FAB算法。

FAB算法在实践中使FIC的渐进地一致的下限最大化。下限被推导如下：

\begin{matrix} {FIC}_{smtl} (y^{NL}, x^{NL}, D) &GreaterEqual; H (q (z^{N})) + \underset{z^{N}}{Σ} q (z^{N}) \log p (z^{N} | α) \\ + Σ_{c = 1}^{M} \underset{z_{n}^{N} ζ_{c}^{NL}}{Σ} Σ_{n = 1}^{N} q (z_{nc}) {q (ζ_{c}^{NL}) [\log p (y^{NL}, ζ_{c}^{NL} | x^{NL}, z_{nc}, ρ_{c}) \\ - Σ_{i = 1}^{G_{c}} (\frac{D_{β_{ci}}}{2} L ({ng}_{i}, {qng}_{i})) - Σ_{j = 1}^{E_{c}} (\frac{D_{φ_{cj}}}{2} L ({ne}_{j}, {qne}_{j})) \\ + H (q (ζ_{c}^{NL}))} \\ = : K_{smtl} (q, \tilde{q}, ρ, y^{NL}, x^{NL}) \end{matrix} - - - (9)

其中，L(a,b)≡logb+(a-b)/b；qng_i和qne_i是ng_i和ne_i的近似，具有新参数(分布)

{qng}_{i} = Σ_{n = 1}^{N_{c}} Σ_{l = 1}^{L} \underset{j &Element; G_{i}}{Σ} \tilde{q} (ζ_{cj}^{nl}),

{qne}_{j} = Σ_{n = 1}^{N_{c}} Σ_{l = 1}^{L} \tilde{q} (ζ_{cj}^{nl})

随后，我们得到以下优化问题：

M^{*}, q^{*}, {\tilde{q}}^{*}, ρ^{*} = {\arg \max}_{M, q, \tilde{q}, ρ} K_{smtl} (q, \tilde{q}, ρ, y^{NL}, x^{NL}) - - - (10)

FAB算法利用E步骤和M步骤相对于q和θ交替最大化。E步骤优化变分分布q如下：

q^{(t)} (z_{nc}) &Proportional; α_{c}^{(t - 1)} \exp [K_{hme}^{(t - 1)} (n, c)] - - - (11)

其中

\begin{matrix} K_{hme} (n, c) = \underset{ζ_{c}^{nL}}{Σ} q (ζ_{c}^{nL}) [\log p (y^{nL}, ζ_{c}^{nL} | x^{nL}, \overset{&OverBar;}{θ_{c}}) \\ - Σ_{i = 1}^{G_{c}} (\frac{D_{β_{ci}}}{2} \log Σ_{l = 1}^{L} \underset{j &Element; G_{i}}{Σ} \tilde{q} (ζ_{cj}^{nl})) \\ - Σ_{j = 1}^{E_{c}} (\frac{D_{φ_{cj}}}{2} \log Σ_{l = 1}^{L} \tilde{q} (ζ_{cj}^{nl})) \\ - \log q (ζ_{c}^{nL})] \end{matrix}

式11可以用于实现在上文中所描述的步骤105中对任务相关隐变量的优化。

随后，对各个任务应用硬划分：

z_{nc}^{t} = \{\begin{matrix} 1 & if c = {\arg \max}_{c} q^{(t)} (z_{nc}) \\ 0 & otherwise \end{matrix} - - - (12)

式12可以用于实现在上文中所描述的步骤106中多个任务进行硬划分。

E步骤针对第c个模型优化

q^{(t)} (ζ_{cj}^{nl}) &Proportional; \underset{i &Element; ϵ_{j}}{Π} ψ_{g} (x_{nl}, i, j) p (y_{nl} | x_{nl}, φ_{cj}^{(t - 1)}) \exp {- Σ_{i &Element; ϵ_{j}}^{G \ root} \frac{1}{2} \frac{D_{β_{ci}}}{{qng}_{i}} - \frac{1}{2} \frac{D_{φ_{cj}}}{{qne}_{j}}} . - - - (13)

其中ψ_g(x_nl,i,j)是x_nl属于由(β_ci,γ_ci)参数化的给定HME模型的专家j以及i的左子树的概率。

式13可以用于实现在上文中所描述的步骤104中对分层隐变量的优化。

M步骤优化参数如下：

α_{c}^{(t)} = Σ_{n = 1}^{N} q^{(t)} (z_{nc}) / N

\begin{matrix} γ_{ci}^{(t)}, β_{ci}^{(t)} = \underset{γ_{ci}, β_{ci}}{\arg \max} {Σ_{n = 1}^{N} Σ_{l = 1}^{L} \underset{j &Element; G_{i}}{Σ} q^{(t)} (z_{nc}) \cdot q^{(t)} (ζ_{cj}^{nl}) \cdot \log ψ_{g} (x_{nl}, i, j) \\ - \frac{D_{β_{ci}}}{2} \log ({qng}_{i}^{(t)})} \end{matrix}

\begin{matrix} φ_{cj}^{(t)} = \underset{S_{cj}, φ_{cj}}{\arg \max} {Σ_{n = 1}^{N} Σ_{l = 1}^{L} q^{(t)} (z_{nc}) \cdot q^{(t)} (ζ_{cj}^{nl}) \cdot \log p (y_{nl} | x_{nl}, φ_{cj}) \\ - \frac{D_{φ_{cj}}}{2} \log ({qne}_{j}^{(t)})} \end{matrix} - - - (14)

式14可以用于实现在上文中所描述的步骤107中对模型结构和模型参数的优化。

图2示意性地示出了根据本公开的一个实施方式的分片线性模型生成系统的框图。如图2所示，分片线性模型生成系统总体上可以包括：获取装置201，用于获取多个任务的数据；第一设置装置202，用于设置用于表征多个任务之间的相关性的任务相关隐变量，其中每个任务与一个分片线性模型相关；第二设置装置203，用于设置多个分片线性模型的模型结构，并且初始化其模型参数和分层隐变量；以及模型优化装置207，用于基于多个任务的数据、任务相关隐变量以及分层隐变量优化模型结构和模型参数。下面将对各个模块进行具体描述。

在获取装置201中，可以获取N个任务的数据。

在第一设置装置202中，设置用于表征多个任务之间的相关性的任务相关隐变量，其中每个任务与一个分片线性模型相关。作为示例，任务相关隐变量用于表征多个任务中的各个任务与多个分片线性模型中的各个分片线性模型的对应关系。也就是说可以采用每个任务属于某个模型的概率来表征任务之间的相关性。如果两个任务属于同一模型，则认为这两个任务是相关的。在本公开中，每个任务仅对应于一个分片线性模型，因而能够处理更大的数据。

在第二设置装置203中，设置多个分片线性模型的模型结构，并且初始化其模型参数和分层隐变量。作为示例，该模型结构可以是树结构，并且上述初始化过程可以随机进行。

根据一个示例性实施方式，分片线性模型生成系统还可以包括分层隐变量优化装置204，用于基于多个任务的数据、任务相关隐变量、模型结构和模型参数优化分层隐变量。由于在第二设置装置203中随机初始化了分层隐变量，因此在该步骤中可以对其进行优化。分层隐变量用于说明如何划分数据，继而将特征空间划分成片，每片用局部专家表述。分层隐变量划片的过程不是按特征划分，而是按样本划分，即哪些样本一起放在一个片中，哪些样本放在另一片中。在特定示例中，可以根据概率对每个样本进行划分。具体的优化方法可以采用在下文中将要描述的等式13所描述的过程。

根据一个示例性实施方式，分片线性模型生成系统还可以包括任务相关隐变量优化装置205，用于基于多个任务的数据、分层隐变量、模型结构和模型参数优化任务相关隐变量。由于在第一设置装置202中设置的任务相关隐变量是经随机初始化而产生的，因此可以对其进行优化。在任务相关隐变量优化装置205中，可以采用在分层隐变量优化装置204中经过优化的分层隐变量，并且结合多个任务的数据、模型结构和模型参数对任务相关隐变量进行优化。具体的优化方法可以采用在上文中描述的等式11所示的过程。

根据一个示例性实施方式，分片线性模型生成系统还可以包括硬划分装置206，用于基于任务相关隐变量对多个任务进行硬划分并且更新任务相关隐变量。硬划分强制使得某个任务仅属于一个模型，即要么属于这个模型，要么属于那个模型，从而避免了很大的空间开销。因此，根据本公开的分片线性模型除了能够提高预测精度外，还对计算资源进行了优化，能够适应大数据场景。具体的优化方法可以采用在下文中将要描述的等式12所描述的过程。

根据一个示例性实施方式，在模型优化装置207中，可以利用在分层隐变量优化装置204中经过优化的分层隐变量和在任务相关隐变量优化装置205中经过优化的任务相关隐变量，并且结合多个任务的数据对模型结构和模型参数进行优化。具体的优化方法可以采用在上文中描述的等式14所示的过程。

根据一个示例性实施方式，分片线性模型生成系统还可以包括判定装置208，用于判定模型优化装置207输出的模型性结构和模型参数是否达到最优，如果是，则输出装置209将输出得到的分片线性模型，如果否，则分层隐变量优化装置204、任务相关隐变量优化装置205、硬划分装置206和模型优化装置207继续对模型结构和模型参数进行优化。上述判定的评价指标可以是模型与数据的拟合程度，该拟合程度不可能无上限地增长，而是存在一个上限，在递增过程中增到一定程度后继续优化时的增量很小。增量足够小时认为已经得到最优模型，因而停止优化，并且输出装置209输出得到的分片线性模型。

图2中所示的分片线性模型生成系统对应于图1中所示的分片线性模型生成方法。因此在上文中结合图1对分片线性模型生成方法的描述同样适用于图2中所示的分片线性模型生成系统，在此将不再赘述。

图3采用图形方式示意性地示出了根据本公开的一个实施方式的分片模型生成方法的步骤。如图3所示，首先，在上面的图中示出了输入多个任务的数据T1、T2…TN，其中每个任务的数据均表示为一些离散数据点。随后，在中间的图中，采用根据图1中所示的优化步骤进行建模。可以看出，每个任务仅可以用于对一个模型进行建模，例如T1和T4可以分别用于对模型HME1进行建模，T2可以用于对模型HME2进行建模，T3可以用于对模型HME3进行建模。最后，在下面的图中输出了多个经优化的模型，例如分层混合专家模型HME(T1)、HME(T2)…HME(TN)。

根据本发明，由于模型生成过程中增加了一个新的隐变量来表征任务之间的相关性，以便辅助分片线性模型的生成，使得能够利用多个任务的数据进行建模，从而提高了模型生成精度。此外，由于将每个任务设置为仅与一个分片线性模型相关，使得根据本公开的分片线性模型生成系统和生成方法能够处理更大的数据。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明，但是应该理解，本发明并不限于所公开的具体实施方式。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种分片线性模型生成系统，包括：

获取装置，用于获取多个任务的数据；

第一设置装置，用于设置用于表征所述多个任务之间的相关性的任务相关隐变量，其中每个任务与一个分片线性模型相关；

第二设置装置，用于设置多个分片线性模型的模型结构，并且初始化相应的模型参数和分层隐变量；以及

模型优化装置，用于基于所述多个任务的数据、所述任务相关隐变量以及所述分层隐变量优化所述模型结构和所述模型参数。

2.根据权利要求1所述的分片线性模型生成系统，其中所述任务相关隐变量用于表征所述多个任务中的各个任务与所述多个分片线性模型中的各个分片线性模型的对应关系。

3.根据权利要求1所述的分片线性模型生成系统，其中所述模型结构包括树结构。

4.根据权利要求1所述的分片线性模型生成系统，还包括：

分层隐变量优化装置，用于基于所述多个任务的数据、所述任务相关隐变量、所述模型结构和所述模型参数优化所述分层隐变量。

5.根据权利要求1所述的分片线性模型生成系统，还包括：

任务相关隐变量优化装置，用于基于所述多个任务的数据、所述分层隐变量、所述模型结构和所述模型参数优化所述任务相关隐变量。

6.根据权利要求5所述的分片线性模型生成系统，还包括：

硬划分装置，用于在优化所述任务相关隐变量之后，基于所述任务相关隐变量对所述多个任务进行硬划分并且更新所述任务相关隐变量。

7.根据权利要求1所述的分片线性模型生成系统，还包括：

判定装置，用于判定所述模型结构和所述模型参数是否达到最优。

8.根据权利要求7所述的分片线性模型生成系统，其中所述判定装置根据所述模型结构和模型参数的拟合程度来判定所述模型结构和所述模型参数是否达到最优。

9.一种分片线性模型生成方法，包括：

获取多个任务的数据；

设置用于表征所述多个任务之间的相关性的任务相关隐变量，其中每个任务与一个分片线性模型相关；

设置多个分片线性模型的模型结构，并且初始化相应的模型参数和分层隐变量；以及

基于所述多个任务的数据、所述任务相关隐变量以及所述分层隐变量优化所述模型结构和所述模型参数。

10.根据权利要求9所述的分片线性模型生成方法，其中所述任务相关隐变量用于表征所述多个任务中的各个任务与所述多个分片线性模型中的各个分片线性模型的对应关系。

11.根据权利要求9所述的分片线性模型生成方法，其中所述模型结构包括树结构。

12.根据权利要求9所述的分片线性模型生成方法，还包括：

基于所述多个任务的数据、所述任务相关隐变量、所述模型结构和所述模型参数优化所述分层隐变量。

13.根据权利要求9所述的分片线性模型生成方法，还包括：

基于所述多个任务的数据、所述分层隐变量、所述模型结构和所述模型参数优化所述任务相关隐变量。

14.根据权利要求13所述的分片线性模型生成方法，还包括：在优化所述任务相关隐变量之后，基于所述任务相关隐变量对所述多个任务进行硬划分并且更新所述任务相关隐变量。

15.根据权利要求9所述的分片线性模型生成方法，还包括：

判定所述模型结构和所述模型参数是否达到最优。

16.根据权利要求15所述的分片线性模型生成方法，其中判定所述模型结构和所述模型参数是否达到最优包括：

根据所述模型结构和模型参数的拟合程度来判定所述模型结构和所述模型参数是否达到最优。