CN104160412A

CN104160412A - 潜变量模型估计装置和方法

Info

Publication number: CN104160412A
Application number: CN201380009657.8A
Authority: CN
Inventors: 藤卷辽平; 森永聪
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-05-31
Filing date: 2013-04-30
Publication date: 2014-11-19
Anticipated expiration: 2033-04-30
Also published as: US20130325782A1; EP2858012A1; SG11201407897YA; MX2014013721A; US9043261B2; JPWO2013179579A1; EP2858012A4; MX338266B; JP6020561B2; CN104160412B; WO2013179579A1

Abstract

提供了潜变量模型估计装置，该潜变量模型估计装置即使在模型候选的数目随着潜状态数以及观测概率的种类的增加而呈指数增加时，也能够实现高速模型选择。变分概率计算单元(71)通过最大化基准值来计算变分概率，该基准值被定义为近似量的下界，其中关于对完全变量的估计量执行边缘化对数似然函数的拉普拉斯近似。模型估计单元(72)通过对于每个潜状态估计观测概率的种类和参数来估计优化潜变量模型。收敛确定单元(73)确定基准值是否收敛，当计算变分概率时变分概率计算单元(71)使用该基准值。

Description

潜变量模型估计装置和方法

技术领域

本发明涉及对于具有序列依赖性(sequence dependence)的多元数据(multivariate data)的潜变量模型估计装置和方法、以及潜变量模型估计程序，具体地涉及用于近似模型后验概率以最大化模型后验概率的下界(lower bound)从而估计具有序列依赖性的多元数据的潜变量模型的潜变量模型估计装置和方法、以及潜变量模型估计程序。

背景技术

存在具有序列依赖性的各种数据。具有连续性依赖性的数据的示例包括具有时间依赖性的数据、取决于字符序列的文本以及取决于碱基序列的基因数据。

由从汽车获取的传感器数据、医学检查的试验数据历史以及电力需求历史所代表的数据是具有“序列依赖性(在示例中是时间依赖性)”的多元数据。数据的分析被应用于许多生产上重要的领域。例如，可以想到，可以通过分析从汽车获取的传感器数据来对汽车的故障原因进行分析以实现快速修理。还可以想到，可以通过分析医学检查的试验数据历史来实现疾病风险的估计以及疾病的预防。还可以想到，通过分析电力需求历史来预测电力需求以为过量或不足做准备。

通常，使用具有序列依赖性的潜变量模型(例如，隐式马尔科夫模型：hidden Markov model)来对这样的数据进行建模。例如，为了使用隐式马尔科夫模型，有必要判定潜状态数、观测概率分布的种类以及分布参数。在潜状态数和观测概率分布的种类被发现的情况下，可以使用期望最大化方法(例如，参见非专利文献(NPTL)1)来估计参数。

潜状态数或观测概率分布的种类被发现的问题通常称为“模型选择问题”或“系统识别问题”，并且是构建可靠模型的重要问题。因此，提出了各种技术。

例如，NPTL 2提出了用于通过变分贝叶斯方法(variationalBayesian method)来最大化变分自由能量的方法，作为用于判定潜状态数的方法。例如，NPTL 3提出了非参数贝叶斯方法，其中使用层级狄利克雷过程(hierarchical Dirichlet process)先验分布作为用于判定潜状态数的方法。

在NTPL 4中，完全边缘相似性函数近似于混合模型，并且其下界被最大化，该混合模型是与时间依赖性无关的潜变量模型的代表性示例。

引用列表

非专利文献

NPTL 1：C.Bishop,Pattern Recognition and Machine Learning,Springer,2007,pp.610-629

NPTL 2：Beal,M.J.Variational Algorithms for ApproximateBayesian Inference.Chapter 3,PhD thesis,University College London,2003

NPTL 3：van Gael,J.,Saatci,Y,Teh,Y.-W.,and Ghahramani,Z.Beam sampling for the infinite hidden Markov model.In ICML,2008

NPTL 4：Ryohei Fujimaki,Satoshi Morinaga:Factorized AsymptoticBayesian Inference for Mixture Modeling.Proceedings of the fifteenthinternational conference on Artificial Intelligence and Statistics(AISTATS),2012

发明内容

技术问题

在NPTL 2中所公开的方法中，很遗憾地，因为当边缘化的相似性函数的下界被最大化时，假设潜状态以及分布参数在变分分布上是独立的，所以边缘化相似性的近似精度降低。

在NPTL 3中所公开的方法中，虽然基于蒙特卡洛法(Monte Carlomethod)的优化算法是公知的，但是遗憾的是，计算量变得极大。

由于极大的计算量而导致实际上难以通过在NPTL 2和NPTL 3中公开的方法来判定观测概率的种类。

将通过以观测概率分布是混合多项式曲线为例来描述计算量的问题。因为潜状态对于下面的讨论没有影响，所以潜状态被省略。在某个潜状态的观测是多项式曲线的情况下，有必要正确地选择曲线的阶，诸如一阶曲线(直线)、二阶曲线以及三阶曲线。在上述方法中，有必要计算关于所有模型候选的信息量准则，诸如包括三个潜状态数、两个直线和两个二阶曲线的情况、以及包括五个潜状态数、三个三阶曲线以及两个四阶曲线的情况。假设潜状态数为10并且曲线的最大阶数为10，存在数十万的模型候选。假设潜状态数为20并且曲线的最大阶数为20，存在百亿的模型候选。模型候选的数目随着要被搜索的模型的复杂度的增加而呈指数增加。因为，实际上难以通过在NPTL 2和NPTL 3中所公开的方法来执行计算。

因为在潜变量之间需要独立性，所以在NPTL 4中所公开的技术无法应用于具有序列依赖性的潜变量模型。在NPTL 4中所公开的技术中，因为不考虑在潜变量之间的序列依赖性，所以按照NPTL 4的等式(15)来计算潜变量的变分分布。然而，该等式不适于在潜变量之间存在序列依赖性的情况，并且不保证获得适当的模型。此外，遗憾的是，无法计算在潜变量之间的转移概率。

因此，本发明的目的在于，即使模型候选数目随着在具有关于多元数据的序列依赖性的潜变量模型的学习问题中潜状态数以及观测概率的种类的增加而呈指数增长，也以高速实现模型选择。

对问题的解决方案

根据本发明的潜变量模型估计装置，包括：变分概率计算单元，该变分概率计算单元通过最大化基准值来计算变分概率，该基准值被定义为近似量的下界，其中关于对完全变量的估计量执行边缘化对数似然函数的拉普拉斯近似；模型估计单元，该模型估计单元通过估计在每个潜状态中的观测概率的种类和参数来估计最优潜变量模型；以及收敛确定单元，该收敛确定单元确定基准值是否收敛，该基准值由所述变分概率计算单元使用以计算变分概率。

而且，根据本发明的潜变量模型估计方法，包括：通过最大化基准值来计算变分概率，该基准值被定义为近似量的下界，其中关于对完全变量的估计量执行边缘化对数似然函数的拉普拉斯近似；通过估计在每个潜状态中的观测概率的种类和参数来估计最优潜变量模型；以及确定基准值是否收敛，该基准值用于计算变分概率。

此外，根据本发明的潜变量模型估计程序使得计算机执行：变分概率计算处理，该变分概率计算处理通过最大化基准值来计算变分概率，该基准值被定义为近似量的下界，其中关于对完全变量的估计量执行边缘化对数似然函数的拉普拉斯近似；模型估计处理，该模型估计处理通过估计在每个潜状态中的观测概率的种类和参数来估计最优潜变量模型；以及收敛确定处理，该收敛确定处理确定基准值是否收敛，该基准值在变分概率计算处理中用于计算变分概率。

本发明的有益效果

根据本发明，即使模型候选数目随着潜状态数以及观测概率的种类的增加而呈指数增长，也可以以高速选择模型。

附图说明

图1是图示根据本发明的第一示例性实施例的潜变量模型估计装置的框图；

图2是图示潜变量变分概率计算处理单元104的示例的框图；

图3是图示根据本发明的第一示例性实施例的处理过程的示例的流程图；

图4是图示潜变量变分概率计算处理单元104的操作的流程图；

图5是图示根据本发明的第二示例性实施例的潜变量模型估计装置的框图；以及

图6是图示本发明的潜变量模型估计装置的概要的框图。

具体实施方式

在下文中，将参考附图描述本发明的示例性实施例。在以下描述中，为方便起见，在数学公式中的记号有时与句子中的记号不同。例如，在数学公式中的符号“～”被描述为在变量上方，而为了方便起见，在句子中符号“～”被描述为在右侧。在数学公式中的记号与在句子中的记号之间的差异在本领域技术人员能够理解的差异范围内。

本发明的潜变量模型估计装置估计具有序列依赖性的潜变量模型。在以下描述中，具有时间依赖性的数据用作具有序列依赖性的数据的示例。然而，本发明不限于具有时间依赖性的数据，而是本发明可以适用于具有序列依赖性的任何数据。例如，本发明可以适用于取决于字符序列的数据、取决于碱基序列的数据以及取决于另一序列的数据。

将在下面具体地描述具有序列依赖性的潜变量模型的代表模型的隐式马尔科夫模型(见等式(1))。

[公式1]

\begin{matrix} p (x^{N}, z^{N} | M) = &Integral; Π_{n = 1}^{N} {p (z_{n}^{1} | α) Π_{k = 1}^{K} Π_{t = 2}^{T_{n}} p_{k} {(z_{n}^{t} | β_{k})}^{z_{nk}^{t - 1}} \\ \times Π_{k = 1}^{K} Π_{t = 1}^{T_{n}} p {(x_{n}^{t} | φ_{k})}^{z_{nk}^{t}}} p (θ | M) dθ, \end{matrix}

等式1

假设取决于时间的数据串xⁿ(n＝1,...,N)被输入。此时，假设每个xⁿ是具有长度Tn的多元数据串(xⁿ＝xⁿ1,...,xⁿT,t＝1,...,N)。然后，关于观测变量xⁿt定义潜变量zⁿt＝(zⁿt1,...,zⁿtK)。zⁿtk＝1是指xⁿt是从第k个潜状态生成的数据，并且zⁿtk＝0是指其他。Σ_k＝1 ^Kzⁿtk＝1成立。x和z的集合被称为“完全变量”。作为其对比x被称为非完全变量。与完全变量相关的隐式马尔科夫模型的联合分布(simultaneous distribution)在等式(1)中被定义为P(x，z)。与隐式变量相关的隐式马尔科夫模型的变分分布由在时间t在第k个潜状态zⁿtk中的分布q(zⁿtk)以及在时间t-1到时间t的从第k个状态转移到第j个状态的分布q(zⁿt-1k,zⁿtj)来表示。

在等式(1)中，K指示潜状态数。θ＝(α1,...,αK,β1,...,βK,φ1,...,φK)指示模型参数。其中αk指示在第k个潜状态中的初始概率，βk指示从第k个潜状态的转移概率，并且φk指示关于第k个潜状态的观测参量。S1,...,SK指示与φk相对应的观测概率的种类。例如，在多元数据生成概率的情况下，可以是S1到SK的候选是{正态分布，对数正态分布，指数分布}，并且在多项式曲线输出的情况下，候选是{零阶曲线、一阶曲线、二阶曲线、三阶曲线}。

虽然总是使用隐式马尔科夫模型描述来特定的示例，但是本发明还可以被适用于隐式马尔科夫模型的扩展模型的类似模型(诸如隐式半马尔科夫模型以及因子化隐式马尔科夫模型)。类似地，虽然在本说明书中描述了目标变量X的分布，但是本发明还可以适用于诸如回归和判别的情况，其中观测分布是条件模型P(Y|X)(Y是具有目标的随机变量)。

第一示例性实施例

图1是图示根据本发明的第一示例性实施例的潜变量模型估计装置的框图。潜变量模型估计装置100包括数据输入设备101、潜状态数设定单元102、初始化处理单元103、潜变量变分概率计算处理单元104、模型优化处理单元105、最优性确定处理单元106、最优模型选择处理单元107以及模型估计结果输出设备108。输入数据111被输入到潜变量模型估计装置100，并且关于输入数据111优化潜状态数以及观测概率的种类，并且作为模型估计结果112输出该潜状态数以及观测概率的种类。

图2是图示潜变量变分概率计算处理单元104的示例的框图。潜变量变分概率计算处理单元104包括前向概率计算处理单元1041、归一化常数存储单元1042、后向概率计算处理单元1043以及前向/后向概率总计处理单元1044。由模型优化处理单元105估计的估计模型1045和输入数据111被输入到潜变量变分概率计算处理单元104，并且潜变量变分概率计算处理单元104输出潜变量变分概率1046以及前向概率归一化常数1047。

输入设备101是输入数据111所输入到的输入接口设备。在对输入数据111进行输入中，还对输入设备101同时输入对模型进行估计所需要的诸如观测概率的种类以及潜状态数的候选值的参数。

潜状态数设定单元102从潜状态数的输入候选值中选择模型的潜状态数，并且设定潜状态值。在下文中，K指示设定的潜状态值。

初始化处理单元103执行出于估计的目的的初始化处理。初始化可以通过任何方法来执行。初始化的示例包括用于在每个潜状态中随机设定观测概率的种类并且根据所设定的种类来随机设定每个观测概率的参数的方法、以及用于随机设定潜变量变分概率的方法。

潜变量变分概率计算处理单元104计算潜变量变分概率。此时，由于参数θ是通过初始化处理单元103或者模型优化处理单元106来计算的，所以潜变量变分概率计算处理单元104使用参数θ的计算值。潜变量变分概率计算处理单元104通过最大化下面的优化基准A来计算变分概率。优化基准A被定义为近似量的下界，其中关于对完全变量的估计量(例如，最大似然估计量或最大后验估计量)执行边缘化的对数似然函数的拉普拉斯近似。可以使用关于完全变量的估计量的最优性以及对数函数的凹度来推导下界。

将通过以隐式马尔科夫模型为例来描述该过程。首先讨论边缘化的对数似然函数的下界。下界由下述等式(2)来表示。

[公式2]

\log p (x^{N} | M) &GreaterEqual; \underset{z^{N}}{Σ} q (z^{N}) \log (\frac{p (x^{N}, z^{N} | M)}{q (z^{N})})

等式(2)

在等式(2)中，通过最大化变分概率q(z^N)来使等号成立。下面的等式(3)被获得为边缘化的对数似然函数的近似等式，使得使用完全变量的最大似然估计量来对分子的完全变量的边缘化的似然度执行拉普拉斯近似。

[公式3]

其中，上标栏指示对于完全变量的最大似然估计量。D_*指示上标参数*的维度。

使用最大似然估计量最大化关于等式(3)的对数似然函数的性质以及对数函数是凹函数的事实通过等式(4)来计算等式(3)的下界。

[公式4]

\begin{matrix} g (q, \tilde{q} {, x}^{N}, θ) \\ = Σ_{n = 1}^{N} \underset{z_{n}}{Σ} q (z_{n}) [\log p (x_{n}, z_{n} | θ) + Σ_{k, t = 1}^{K, T_{n}} z_{nk}^{t} \log δ_{k}^{t} \\ - \log q (z^{N})] + \underset{&OverBar;}{Σ_{n, t = 1}^{N, T_{n}} \log Δ^{t} - \frac{D_{α}}{2} \log N - Σ_{k = 1}^{K} (\frac{D_{β_{k}}}{2} \times} \\ \underset{&OverBar;}{(\log (Σ_{n, t}^{N, T_{n} - 1} \tilde{q} (z_{nk}^{t})) - 1) + \frac{D_{φ_{k}}}{2} (\log (Σ_{n, t}^{N, T_{n}} \tilde{q} (z_{nk}^{t})) - 1))}, \end{matrix}

通过关于q最大化等式(4)来计算潜变量的变分分布q(zⁿtk)以及q(zⁿt-1k,zⁿtj)。然而，当上标(i)指示在潜变量变分概率计算处理单元104、模型优化处理单元105以及最优性确定处理单元106的重复计算中的第(i)此重复时，q⁽ⁱ⁾被固定为q～＝q^(i-1)并且θ＝θ^(i-1)。

在等式(4)中，B是加下划线的部分。B可以由稍后描述的等式(8)来参考。

将参考图2描述包括在潜变量变分概率计算处理单元104中的元素。输入数据111以及估计模型被输入到前向概率计算处理单元1041。前向概率计算处理单元1041计算在获得从时间1到时间t的观测(xⁿ1,...,xⁿt)的情况下的zⁿt的概率作为前向概率。此时，在考虑到使用优化基准A计算的模型复杂度(例如，等式(4)中与δtk有关的术语)的情况下计算的前向概率。在归一化常数存储单元1042中，前向概率计算处理单元1041存储归一化常数，其将zⁿt的概率的潜状态总数设定为1。

类似地，后向概率计算处理单元1043计算在获得从时间t+1到时间T的观测(xⁿt+1,...,xⁿT)情况下的xⁿt的概率作为后向概率。在计算后向概率中，从归一化常数存储单元1042中读出在与前向概率的计算同时获得的归一化常数。此时，在考虑到使用优化基准A计算的模型复杂度(例如，等式(4)中与δtk有关的术语)的情况下计算后向概率。

最后，前向/后向概率总计处理单元1044从前向概率和后向概率计算变分分布。例如，前向/后向概率总计处理单元1044计算q(zⁿtk)作为在获得xⁿ1,...,xⁿT中的zⁿtk的概率。前向/后向概率总计处理单元1044使用下面的等式(5)计算q(zⁿtk)作为前向概率和后向概率的乘积。

[公式5]

q^{(i)} (z_{nk}^{t}) = f_{nk}^{t (i)} b_{nk}^{t (i)}

等式(5)

前向/后向概率总计处理单元1044计算q(zⁿt-1j,zⁿtk)作为在获得xⁿ1,...,xⁿt-1的情况下的zⁿt-1j的概率、从潜状态j到潜状态k的转移概率、在潜状态k中的观测xnt的概率以及在获得(xⁿt+1,...,xⁿT)的情况下的xⁿt的概率的乘积。具体地，前向/后向概率总计处理单元1044使用下面的等式(6)(参见用于等式(6)的左侧q～的定义的等式(7))计算q(zⁿt-1j,zⁿtk)。

[公式6]

将通过以隐式马尔科夫模型作为示例描述该过程。使用下面的等式(7)来计算前向概率以及后向概率。

[公式7]

f_{nk}^{t (i)} = \{\begin{matrix} \begin{matrix} \frac{1}{ζ_{n}^{1 (i)}} α_{k}^{(i - 1)} \tilde{p} (x_{n}^{1} | φ_{k}^{(i - 1)}) & if t = 1 \end{matrix} \\ \frac{1}{ζ_{n}^{t (i)}} \tilde{p} (x_{n}^{t} | φ_{k}^{(i - 1)}) Σ_{j = 1}^{K} f_{nj}^{t - 1 (i)} β_{jk}^{(i - 1)} \end{matrix}

b_{nk}^{t (i)} = \{\begin{matrix} \frac{1}{ζ_{n}^{t + 1 (i)}} Σ_{j = 1}^{K} b_{n}^{t + 1 (i)} \tilde{p} (x_{n}^{t + 1} | φ_{j}^{(i - 1)}) β_{kj}^{(i - 1)} \\ \begin{matrix} 1 & if t = T_{n} \end{matrix} \end{matrix}

\tilde{p} (x_{n}^{t} | φ_{k}^{(i - 1)}) = p (x_{n}^{t} | φ_{k}^{(i - 1)}) δ_{k}^{t (i - 1)} .

等式(7)

其中，f^tnk(等式(7)的第一等式)表示前向概率，并且b^tnk(等式(7)的第二等式)表示后向概率。更具体地，在等式(7)中，前向概率以及后向概率二者都被描述为递归等式。可以从t＝1按顺序计算前向概率，并且可以从t＝T按顺序计算后向概率。归一化常数通过ζ^tn来计算。后向概率计算处理单元1043可以使用归一化常数来计算后向概率，归一化常数是由用于计算前向概率的前向概率计算处理单元1041计算的。

等式(5)的第三等式包括与δ相关的乘法。这意味着考虑使用优化基准A计算的模型复杂度。

模型优化处理单元105优化关于等式(4)的模型(参数θ及其种类S)。具体地，当q和q～被固定为潜变量的变分分布(q⁽ⁱ⁾)时计算等式(4)中的模型最大化G，

潜变量的变分分布(q⁽ⁱ⁾)由潜变量变分概率计算处理单元104来计算。该处理的重点是，在由等式(4)定义的G中，因为可以在每个分量中解析优化函数，所以可以在不考虑分量的种类的组合(S1到SK中的哪一个被指派)的情况下单独地优化S1到SK以及参数φ₁到φ_K。因此，在优化该分量的种类中，可以在避免组合爆炸的同时将执行优化。

最优性确定处理单元106确定使用等式(4)所计算的优化基准A是否收敛。当优化基准A不收敛时，重复从潜变量变分概率计算处理单元104到最优性确定处理单元106的多个处理。在使用等式(4)所计算的优化基准A的计算中，因为潜状态不是独立的，所以Σzn q(zn)logq(zn)的计算需要指数时间的计算量。然而，可以使用存储在归一化常数存储单元1042中的归一化常数来有效地执行计算。例如，使用下面的等式(8)来计算隐式马尔科夫模型。

[公式8]

在等式(8)中指示的B是在等式(4)中加下划线的部分。

重复从潜变量变分概率计算处理单元104到最优性确定处理单元106的多个处理以更新变分分布以及模型，这允许适当的模型被选择。通过重复来保证优化基准A的单调增长。

当优化基准A收敛时，与通过从潜变量变分概率计算处理单元104到最优性确定处理单元106的循环处理所计算的优化基准A、以及通过前一循环处理所计算的优化基准A中的较大的一个相对应的模型被设定为关于由潜状态数设定单元102设定的潜状态数K的最优模型。当针对所有的候选值完成了模型优化时，该处理转移到模型估计结果输出设备108。当还未对其

执行优化的候选存在时，该处理转移到潜状态数设定单元102。

模型估计结果输出设备108输出最优潜状态数、观测概率的种类、参数和变分分布作为模型估计结果输出112。

例如，潜状态数设定单元102、初始化处理单元103、潜变量变分概率计算处理单元104(前向概率计算处理单元1041、归一化常数存储单元1042、后向概率计算处理单元1043以及前向/后向概率总计处理单元1044)、模型优化处理单元105、最优性确定处理单元106、最优模型选择处理单元107以及模型估计结果输出设备108由根据潜变量模型估计程序进行操作的计算机的CPU来实现。CPU从记录有潜变量模型估计程序的计算机可读记录介质中读取潜变量模型估计程序，并且CPU仅根据潜变量模型估计程序来提供上述要素的操作。

替代地，潜状态数设定单元102、初始化处理单元103、潜变量变分概率计算处理单元104、模型优化处理单元105、最优性确定处理单元106、最优模型选择处理单元107以及模型估计结果输出设备108可以单独地通过硬件来实现。在潜变量变分概率计算处理单元104中，前向概率计算处理单元1041、归一化常数存储单元1042、后向概率计算处理单元1043以及前向/后向概率总计处理单元1044可以单独地通过硬件来实现。

图3是图示本发明的第一示例性实施例的处理过程的示例的流程图。输入数据111通过数据输入设备101来输入(步骤S100)。

潜状态数设定单元102在潜状态数的候选值中选择并设定还未对其执行优化的潜状态数的候选值(步骤S101)。

初始化处理单元103出于估计的目的执行用于设定潜状态数的参数和潜变量变分概率的初始化处理(步骤S102)。

潜变量变分概率计算处理单元104计算潜变量的变分概率(步骤S103)。

模型优化处理单元105估计在每个潜状态中的观测概率的种类和参数(步骤S104)。可以说，该处理是在每个潜状态中的模型的优化。

最优化确定处理单元106确定优化基准A是否收敛(例如，S105)。最优性确定处理单元106计算在步骤S103到S105中的当前循环处理中获得的优化基准A与在步骤S103到S105中的前一循环处理中获得的优化基准A之间的差。当该差的绝对值小于或等于预定阈值时，可以做出优化基准A收敛的确定。当该差的绝对值大于阈值时，可以做出优化基准A不收敛的确定。例如，优化基准A之间的差是通过绝对值来计算的。替代地，可以采用用于通过相对的差确定收敛的方法。

当在步骤S105中确定了优化基准A不收敛时，重复步骤S103到S105的多个处理。

当在S105中确定了优化基准A收敛时，最优模型选择处理单元107将在步骤S103到S105中的当前循环处理中优化的模型的优化基准A(潜状态数、观测概率种类和参数)与在步骤S103到S105中的前一循环处理中优化的模型的优化基准A作比较，并且最优模型选择处理单元107将与较大优化基准A相对应的模型设定为最优模型(步骤S106)。

潜状态数设定单元102确定是否剩余还未被估计的潜状态数的候选(步骤S107)。当潜状态数候选剩余时，重复在步骤S102到S107中的多个处理。另一方面，当潜状态数的候选没有剩余时，模型估计结果输出设备108输出模型估计结果(步骤S108)，并且该处理结束。

图4是图示第一示例性实施例的潜变量变分概率计算处理单元104的操作(换句话说，在步骤S103中的处理过程)的流程图。

前向概率计算处理单元1041针对第n个数据的第t个时间计算前向概率f^t(i)nk(步骤S111)。此时，前向概率计算处理单元1041还计算归一化常数，并且将归一化常数存储在归一化常数存储单元1042中(步骤S112)。

然后，前向概率计算处理单元1041检查是否对所有的时间t完成了前向概率的计算(步骤S113)。当前向概率的计算没有完成时，重复在步骤S111和S112中的多个处理。当前向概率的计算完成时，该流程前往步骤S114中的处理。

后向概率计算处理单元1043针对第n个数据的第t个时间计算后向概率b^t(i)nk(步骤S114)。然后，后向概率计算处理单元1043检查是否针对所有的时间t完成了后向概率的计算(步骤S115)。当后向概率的计算没有完成时，重复在步骤S114中的处理。当后向概率的计算完成时，该流程前往步骤S116中的处理。

前向/后向概率总计处理单元1044通过执行针对第n个数据的所有时间的前向概率以及后向概率的总计的处理来计算变分分布(步骤S116)。

前向/后向概率总计处理单元1044检查是否针对所有与n相关的数据完成了变分分布计算处理(步骤S117)。当变分分布计算没有完成时，重复从步骤S111开始的多个处理。当变分分布计算处理完成时，该处理结束。

即使模型候选的数目随着潜状态数以及观测概率的种类的增加呈指数增加，也可以通过本发明的操作(具体地，潜变量变分概率计算处理单元104中的操作)来高速选择模型。

如上所述，由于在潜变量之间需要独立性，所以在NPTL 4中公开的技术无法适用于具有序列依赖性的潜变量模型。另一方面，在本发明中，可以估计具有序列依赖性的多元数据的潜变量模型。

第二示例性实施例

图5是图示根据本发明的第二示例性实施例的潜变量模型估计装置的框图。与第一示例性实施例的潜变量模型估计装置100(参见图1)相比，第二示例性实施例的潜变量模型估计装置200不包括最优模型选择处理单元107，而包括潜状态数选择处理单元201。

数据输入设备101、潜状态数设定单元102、初始化处理单元103、潜变量变分概率计算处理单元104、模型优化处理单元105、最优性确定处理单元106以及模型估计结果输出设备108与第一示例性实施例中的那些相同。

第一示例性实施例的潜变量模型估计装置100执行对潜状态数候选的模型优化，并且选择最大化优化基准A的模型。另一方面，在第二示例性实施例的潜变量模型估计装置200中，在潜变量变分概率计算处理单元104的处理之后，潜状态数选择处理单元201从模型中移除减少的潜状态。

具体地，潜状态数选择处理单元201关于q(zⁿtk)移除满足以下等式(9)的状态的潜状态，q(zⁿtk)是由潜变量变分概率计算处理单元104计算的。

[公式9]

Σ_{n, t = 1}^{N, T_{n}} q^{(i)} (z_{nk}^{t}) \leq ϵ

等式(9)

等式(9)的右侧所指示的ε是与输入数据111同时输入的阈值。也就是说，潜状态数选择处理单元201移除小于或等于阈值ε的潜状态。

出于以下原因使用等式(9)来适当地移除潜状态。当观测等式(7)的前向概率时，针对小的潜状态(也就是说，对应于小的δtk的潜状态)，前向概率减小。在后向概率中，小的潜状态不对迁移状态做出过多贡献。因此，在从前向概率以及后向概率计算的变分分布中，小的潜状态的概率通过重复优化而逐渐减小(因为当潜状态在前一更新步骤中减小时，潜状态在下一个更新步骤中容易倾向于减小)。根据上述配置，与潜变量模型估计装置100不同，没有必要优化潜状态数的多个候选，而是有利地，可以同时估计潜状态数、观测概率的种类和参数、以及变分分布，以抑制计算成本。

在第二示例性实施例中，例如，潜状态数设定单元102、初始化处理单元103、潜变量变分概率计算处理单元104、潜状态数选择处理单元201、模型优化处理单元105、最优性确定处理单元106以及模型估计结果输出设备108由根据潜变量模型估计程序进行操作的计算机的CPU来实现。CPU从记录有潜变量模型估计程序的计算机可读记录介质中读取潜变量模型估计程序，并且CPU仅根据潜变量模型估计程序来提供上述要素的操作。第二示例性实施例的每个要素可以单独地通过硬件来实现。

示例1

将通过以对于汽车的传感器数据的运行模式分析为例描述本发明的第一示例性实施例的应用示例。在下面的示例中，为了方便起见，描述一维示例。然而，本发明还可以适用于多维。

诸如“运行模式”的时间序列可以被解析为关于从放置在具有第一示例性实施例的潜变量模型估计装置的汽车中的传感器获得的多维时间序列数据的不同性质。在从传感器数据的对异常行为的故障诊断或检测的情况下，传感器的行为很大程度上取决于运行模式。因此，有必要解析为模式并进行分析，并且重要的是使解析和分析自动化。

例如，假设X是发动机转速并且Y是速度，考虑多项式回归输出的隐式马尔科夫模型。此时，要估计的模型是潜状态数、潜状态的回归阶数(Sk)、回归参数(φk)、初始概率(αk)、转移概率(βk)以及变分分布(q)。

K＝1到10作为潜状态数的候选值与发动机转和速度速的时间序列数据一起被输入到潜变量模型估计装置100。潜状态数设定单元102按顺序设定从K＝1到10的潜状态数。初始化处理单元103在初始化处理中对K个潜状态随机地设定回归阶数以及其他参数。通过潜变量变分概率计算处理单元104到最优性确定处理单元106来估计模型。通过该处理来将不同的运行状态自动地分离为具有不同阶数和系数的回归模型，不同的运行状态诸如与在速度增加的同时发动机转度保持恒定的状态(恒定加速)相对应的X到Y的零阶多项式、与发动机转速以及速度二者减小的状态(减速期间)相对应的X到Y的一阶多项式、以及与在速度逐渐增加的同时发动机转速突然增加的状态(突然加速)相对应的X到Y的二阶多项式。此外，因为最优模型选择处理单元107自动地选择最佳潜状态数，所以例如取决于驾驶员的驾驶特性(模式)的数目可以自动地被检测，并且被分离为适当数目的运行模式。

示例2

将通过以从医疗护理日志(接收数据)的病症分析为例来描述本发明的第二示例性实施例的应用示例。例如，患有心肌梗塞(myocardialinfarction)的病人经常提前发生生活方式病，诸如高血压和糖尿病。即使生活方式病曾经是可治愈的，但是生活方式病也经常复发。可以通过分析疾病模式(disease pattern)来研究降低疾病风险的措施，并且疾病模式分析也可以用于生活方式修改项目。

在该示例中，排列了多个逻辑值的多维逻辑值向量时间序列被用作输入数据，并且逻辑值中的每一个指示人是否具有高血压(1指示该人具有高血压，并且0指示该人不具有高血压)。多维伯努利观测隐式马尔科夫模型被用作要被估计的模型。

作为潜状态数的Kmax以及选择阈值ε与输入数据一起被输入。在潜状态中的候选值被设为Kmax，并且伯努利分布参数被随机初始化。通过潜变量变分概率计算处理单元104到最优性确定处理单元106来估计模型。通过该处理，疾病模式可以被分成高血压和糖尿病共存的模式、高血脂的治愈以及复发反复的模式(正在进行药物治疗)以及生活方式病很难发生的模式，与非典型模式相对应的潜状态减少并且由潜状态数选择处理单元201移除，并且仅典型模式可以被提取为最终的估计结果。

图6是图示本发明的潜变量模型估计装置的概要的框图。本发明的潜变量模型估计装置包括变分概率计算单元71、模型估计单元72以及收敛确定单元73。

变分概率计算单元71(例如，潜变量变分概率计算处理单元104)通过最大化基准值(例如，优化基准A)来计算变分概率，该基准值被定义为针对其对完全变量的估计量执行边缘化对数似然函数的拉普拉斯近似的近似量的下界。

模型估计单元72(例如，模型优化处理单元105)通过估计在每个潜状态中的观测概率的种类和参数来估计最优潜变量模型。

收敛确定单元73(例如，最优性确定处理单元106)确定由变分概率计算单元71用于计算变分概率的基准值是否收敛。

变分概率计算单元71计算变分概率，模型估计单元72估计最优潜变量模型，并且收敛确定单元73确定基准值是否收敛，即，循环处理是否被重复。可以包括最优模型选择单元(例如，最优模型选择处理单元107)，当基准值收敛时，将当前基准值与在前一循环处理中的基准值相比较，该最优模型选择单元选择与较大的基准值相对应的潜变量模型作为最优潜变量模型。

变分概率计算单元71计算变分概率，模型估计单元72估计最优潜变量模型，并且收敛确定单元73确定基准值是否收敛，即，循环处理是否被重复。可以包括潜状态移除单元(例如，潜状态数选择处理单元201)，潜状态移除单元根据变分概率计算单元的计算结果来移除满足预定条件的潜状态。

模型估计单元72可以估计隐式马尔科夫模型作为潜变量模型。

本申请要求2012年5月31日提交的临时美国专利申请No.61/653855的优先权，其全部公开通过引用被并入于此。

尽管已经参考在上文的示例性实施例描述了本发明，但是本发明不限于此。本领域技术人员能够理解的各种改变可以在本发明的范围在其配置和细节方面进行。

工业实用性

本发明适合应用于用于具有序列依赖性的多元数据的潜变量模型估计装置。

附图标记列表

101 数据输入设备

102 潜状态数设定单元

103 初始化处理单元

104 潜变量变分概率计算处理单元

105 模型优化处理单元

106 最优性确定处理单元

107 最优模型选择处理单元

108 模型估计结果输出设备

201 潜状态数选择处理单元

Claims

1.一种潜变量模型估计装置，包括：

变分概率计算单元，所述变分概率计算单元通过最大化基准值来计算变分概率，所述基准值被定义为近似量的下界，其中关于对完全变量的估计量执行边缘化对数似然函数的拉普拉斯近似；

模型估计单元，所述模型估计单元通过估计在每个潜状态中的观测概率的种类和参数来估计最优潜变量模型；以及

收敛确定单元，所述收敛确定单元确定基准值是否收敛，所述基准值由所述变分概率计算单元使用以计算变分概率。

2.根据权利要求1所述的潜变量模型估计装置，进一步包括：最优模型选择单元，所述最优模型选择单元选择潜变量模型作为最优潜变量模型，当在重复循环处理中基准值收敛时，并且当将在当前循环处理中的基准值与在前一循环处理中的基准值作比较时，所述潜变量模型对应于较大的基准值，在所述循环处理中，所述变分概率计算单元计算变分概率，所述模型估计单元估计最优潜变量模型，并且所述收敛确定单元确定基准值是否收敛。

3.根据权利要求1所述的潜变量模型估计装置，进一步包括：潜状态移除单元，所述潜状态移除单元根据在重复循环处理中所述变分概率计算单元的计算结果来移除满足预定条件的潜状态，在所述循环处理中，所述变分概率计算单元计算变分概率，所述模型估计单元估计最优潜变量模型，并且所述收敛确定单元确定基准值是否收敛。

4.根据权利要求1至3中的任何一项所述的潜变量模型估计装置，其中，所述模型估计单元估计隐式马尔科夫模型作为潜变量模型。

5.一种潜变量模型估计方法，包括：

通过最大化基准值来计算变分概率，所述基准值被定义为近似量的下界，其中关于对完全变量的估计量执行边缘化对数似然函数的拉普拉斯近似；

通过估计在每个潜状态中的观测概率的种类和参数来估计最优潜变量模型；以及

确定基准值是否收敛，所述基准值用于计算变分概率。

6.根据权利要求5所述的潜变量模型估计方法，进一步包括选择潜变量模型作为最优潜变量模型，当在重复循环处理中基准值收敛时，并且当将在当前循环处理中的基准值与在前一循环处理中的基准值作比较时，所述潜变量模型对应于较大的基准值，在所述循环处理中，计算变分概率，估计最优潜变量模型，并且确定基准值是否收敛。

7.根据权利要求5所述的潜变量模型估计方法，进一步包括根据在重复循环处理中变分概率的计算结果来移除满足预定条件的潜状态，在所述循环处理中，计算变分概率，估计最优潜变量模型，并且确定基准值是否收敛。

8.根据权利要求5至7中的任何一项所述的潜变量模型估计方法，其中，隐式马尔科夫模型被估计作为潜变量模型。

9.一种潜变量模型估计程序，所述潜变量模型估计程序使得计算机执行：

变分概率计算处理，所述变分概率计算处理通过最大化基准值来计算变分概率，所述基准值被定义为近似量的下界，其中关于对完全变量的估计量执行边缘化对数似然函数的拉普拉斯近似；

模型估计处理，所述模型估计处理通过估计在每个潜状态中的观测概率的种类和参数来估计最优潜变量模型；以及

收敛确定处理，所述收敛确定处理确定基准值是否收敛，所述基准值在所述变分概率计算处理中用于计算变分概率。

10.根据权利要求9所述的潜变量模型估计程序，其中，所述潜变量模型估计程序使得计算机执行最优模型选择处理，所述最优模型选择处理选择潜变量模型作为最优潜变量模型，当在重复所述变分概率计算处理、所述模型估计处理和所述收敛确定处理的循环处理中基准值收敛时，并且当将在当前循环处理中的基准值与在前一循环处理中的基准值作比较时，所述潜变量模型对应于较大的基准值。

11.根据权利要求9所述的潜变量模型估计程序，其中，所述潜变量模型估计程序使得计算机执行潜状态移除处理，所述潜状态移除处理根据在重复所述变分概率计算处理、所述模型估计处理和所述收敛确定处理的循环处理中所述变分概率计算处理的计算结果来移除满足预定条件的潜状态。

12.根据权利要求9至11中的任何一项所述的潜变量模型估计程序，其中，所述潜变量模型估计程序使得计算机在所述模型估计处理中估计隐式马尔科夫模型作为潜变量模型。