CN102799567A

CN102799567A - 信息处理装置、信息处理方法和程序

Info

Publication number: CN102799567A
Application number: CN201210153203.5A
Authority: CN
Inventors: 矶崎隆司
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-05-24
Filing date: 2012-05-17
Publication date: 2012-11-28
Also published as: US20120303572A1; US8983892B2; JP2012243256A; JP5845630B2

Abstract

在此公开信息处理装置、信息处理方法和程序。基于数据计算具有最高似然的概率函数。计算统计物理学中的正则分布和正则分布的温度参数作为所述数据的波动。使用具有最高似然的概率函数、计算出的波动和所述正则分布来估计概率函数。本公开可应用于估计和使用概率函数的装置。

Description

信息处理装置、信息处理方法和程序

技术领域

本技术涉及信息处理装置、信息处理方法和程序，更具体地，涉及能够在基于数据估计概率函数时，在没有设置参数等的情况下估计最佳概率函数的信息处理装置、信息处理方法和程序。

背景技术

存在使用通过学习预先给定数据所获得的分类规则，对随后获得的数据进行分类的已知技术。在这种技术中，估计数据背后的数据产生源的真实概率分布或者与该真实概率分布接近的概率分布。为了估计概率分布，已经研究了诸如混合高斯分布、隐马尔可夫模型和贝叶斯网络之类的许多模型。

发明内容

在1992年东京大学出版社出版的东京大学文理学院的统计课文“Scientific Statistics”中，当基于数据估计概率函数时，根据相对频率计算出概率函数。然而，在这种方法中，当数据量小时出现过多学习。因此，根据冗余的实验已经明显的是，这种估计不是具有鲁棒性的估计。

在C.P.Robert所著的“The Bayesian Choice:From Decision-TheoreticFoundations to Computational Implementation”，Springer-Verlag,New York,NY，第二版,2007中，公开了使用先验分布的贝叶斯（Bayesian）统计，其中将不是数据的分析者的先验信念(也称作先验频率或虚拟频率)添加至一频率。根据这种方法，可以避免过多的学习。然而，当分析者没有先验知识或需要进行客观的分析时，难以量化地设置客观的先验信念或客观的先验频率。

在S.Yang和K.C.Chang所著的“Comparison of Score Metrics for BayesianNetwork Learning”，IEEE Transactions on Systems,Man,and Cybernetics Part A,Systems and Humans,Vol.32,No.3,页数419~428,2002中，公开了在多变量贝叶斯网络结构的干扰的方面推荐特定值的方法。然而，对于S.Yang和K.C.Chang所著的“Comparison of Score Metrics for Bayesian Network Learning”，IEEE Transactions on Systems,Man,and Cybernetics Part A,Systems andHumans,Vol.32,No.3,页数419~428,2002中推荐的值，不存在理论上的基础。进一步，由于没有充分地检查数据的各种集合，因此最佳性尚不清楚。

在这些参数中，在多变量的情况下存在理论的不一致。为此原因，推荐称作等效样本大小（ESS）的另一参数。根据T.Silander P.Kontkane和P.Myllymaki所著的“On sensitivity of the map Bayesian Network structure to theequivalent sample size parameter”，Proceedings of Conference on Uncertainty inArtificial Intelligence,页数360~367,2007，参数的最佳值对于数据的每个集合而言相当大地改变，并且优化是困难的。在H.Steck所著的“Learning theBayesian Network structure:Dirichlet prior versus data”，Proceedings ofConference on Uncertainty in Artificial Intelligence,页数511~518,2008中建议了这种优化方法。H.Steck所著的“Learning the Bayesian Network structure:Dirichlet prior versus data”，Proceedings of Conference on Uncertainty inArtificial Intelligence,页数511~518,2008将称作BDeu的贝叶斯统计的方法与称作AIC的非贝叶斯统计的方法相组合，由此缺少理论的连贯性。然而，因为精度由于小的数据量而恶化，因此难以通过使用小的数据量来执行最佳估计。进一步，因为这种方法专于多变量网络结构的估计并且由此可能不能用于一般概率函数的估计，因此一般不使用这种方法。

在日本待审专利申请公开No.2008-299524以及T.Isozaki，N.Nato和M.Ueno所著的““Data Temperature”in Minimum Free Energies for ParameterLearning of Bayesian Networks”,International Journal on Artificial IntelligenceTools,Vol.18,No.5,页数653～671,2009中，公开了通过使用自由能量最小化原理估计概率的方法。这种方法已知为相比于诸如贝叶斯估计之类的最大似然估计更加具有鲁棒性的方法。然而，由于在假设正依赖于数据量的函数的情况下设置温度，因此没有实现最佳。进一步，由于存在使得最佳确定困难的参数，因此这种方法类似于贝叶斯统计。

期望提供这样的技术：当基于数据估计概率函数时，在不设置参数等的情况下，在自由能量最小化方面估计最佳的概率函数。

根据本技术的实施例，提供了一种信息处理装置，包含：第一计算单元，其基于数据计算具有最高似然的概率函数；第二计算单元，其计算统计物理学中的正则分布和正则分布的参数作为所述数据的波动；以及估计单元，其使用由第一计算单元计算出的具有最高似然的概率函数、第二估计单元计算出的波动和所述正则分布来估计概率函数。

所述第一计算单元可以计算经验分布函数。

可以用贝叶斯后验概率函数替代具有最高似然的概率函数。

所述第二计算单元计算所述数据的波动作为与正则分布的温度对应的参数。可以使用具有最高似然的概率函数、经验分布函数、贝叶斯后验概率函数和估计出的概率函数中的至少一个计算所述数据的波动。

所述数据的波动可以不包括提前设置的另一参数或者针对数据的每个集合计算出的参数。

所述第二计算单元可以使用库尔贝克-莱布勒信息计算所述数据的波动。

当所述第二计算单元计算所述数据的波动时，可以使用n个数据条目，并且可以通过所述估计单元基于(n-1)个数据条目计算出的概率函数、以及基于n个数据条目计算出的具有最高似然的概率函数、贝叶斯后验概率函数和经验分布函数之一来计算库尔贝克-莱布勒信息。

可以用同样地基于上至j(其中0≤j≤n-1)个数据条目计算出的概率函数的几何平均值替代基于(n-1)个数据条目计算出的概率函数。当j＝0时，可以使用均匀分布函数。

可以用同样地基于上至j个数据条目计算出的具有最高似然的概率函数、贝叶斯后验概率函数和经验分布函数之一的几何平均值替换基于n个数据条目计算出的具有最高似然的概率函数、贝叶斯后验概率函数和经验分布函数之一，其中0≤j≤n-1。

可以通过使用利用以基于n个数据条目计算出的概率函数替换基于(n-1)个数据条目计算出的概率函数而计算出的正则分布和数据的波动执行的递归计算，估计所述概率函数。

可以使用估计单元估计出的概率函数执行统计假说测试。

可以使用根据所述估计单元估计出的概率函数计算的互信息量、G平方统计和概率函数比之一。

可以使用根据所述估计单元估计出的概率函数计算的卡方统计。

可以使用所述估计单元估计出的概率函数来选择统计模型。

可以选择具有根据所述估计单元估计出的概率函数计算的最低熵的模型。

所述估计单元估计的概率函数可以是多变量联合概率函数或者条件概率函数。

所述信息处理装置可以是检测统计因和果的因果检测装置或分类器。

所述多变量概率函数可以是贝叶斯网络、因果贝叶斯网络、马尔科夫网络和马尔科夫逻辑网络之一。

根据本技术的另一方面，提供了一种信息处理方法，包含：基于数据计算具有最高似然的概率函数；计算统计物理学中的正则分布和正则分布的参数作为所述数据的波动；以及使用具有最高似然的概率函数、所述数据的波动和所述正则分布来估计概率函数。

根据本技术的又一方面，提供了一种用于使得计算机运行处理的程序，所述处理包括：基于数据计算具有最高似然的概率函数；计算统计物理学中的正则分布和正则分布的参数作为所述数据的波动；以及使用具有最高似然的概率函数、所述数据的波动和所述正则分布来估计概率函数。

根据本技术的方面，基于数据计算具有最高似然的概率函数；计算统计物理学中的正则分布和正则分布的参数作为所述数据的波动；并且使用具有最高似然的概率函数、所述数据的波动和所述正则分布来估计概率函数。

根据本技术的实施例，当基于数据估计概率函数时，可以在不设置参数等的情况下估计最佳的概率函数。

附图说明

图1是图示根据本技术的一实施例的估计概率函数的信息处理装置的示图；

图2是图示根据本技术的另一实施例的估计概率函数的信息处理装置的示图；

图3是图示根据本技术的又一实施例的估计概率函数的信息处理装置的示图；以及

图4是图示记录介质的示图。

具体实施方式

下文将参照附图详细描述本公开的优选实施例。注意，在本说明书和附图中，用相同的附图标记指示具有基本上相同功能和结构的结构要素，并且省略这些结构要素的重复说明。

信息处理装置的配置

图1是图示根据本技术的一实施例的信息处理装置的配置的示图。图1中所示的信息处理装置10包括输入单元21、控制单元22、存储单元23和输出单元24。控制单元22包括最大似然估计单元41、温度确定单元42和概率函数估计单元43。这里将描述N个预定离散随机变量的情况，但是假设也包括N=1的情况。

控制单元22是诸如中央处理单元(CPU)之类的程序控制设备，其根据存储单元23中存储的程序工作。将N个离散随机变量和每个离散随机变量的内部状态存储在存储单元23中。进一步，数据作为数据库存储在存储单元23中。

将用于指定要计算的随机变量的概率函数的参数输入至输入单元21。可替换地，使用数据库中该数据附近的m个数据，或者可以输入关于要使用的数据的详细信息作为参数。概率函数可以指定包括多个变量的联合概率函数或条件概率函数。输入单元21将输入信息输出至控制单元22。

当将离散概率变量表示为{X_i}(i=1，...,n)时，预定变量X_i的内部状态j的概率在此被描述到P(X_i＝j)。当联合概率函数具有两个变量时，可以将概率描述为P(X_i=k,X_j=1)。进一步，当条件概率函数具有两个变量时，可以将概率描述为P(X_i=1|X_j=m,X_k=q)。

基于到输入单元21的输入，证明要估计的概率函数或概率值。接下来，基于此信息，最大似然估计单元41从存储单元23中存储的数据库计算对应的频率，并且计算经历最大似然估计的概率函数或概率值。接下来，温度确定单元42整合最大似然信息和来自数据库的信息并且确定温度。基于此信息，概率函数估计单元43计算最终的概率函数或最终的概率值，并且输出单元24将计算结果输出至外部。

在本技术的实施例中，由于没有未确定的参数，因此用户不需要调节和设置参数。因此，可以减轻用户的负担。进一步，相比于最大似然估计器，可以实现更加鲁棒(robust)的估计。根据本公开的实施例，可以获得这种兼容性优点。下文将进行更加具体的描述。

第一实施例

将在根据第一实施例的具有一个变量的概率函数的估计的示例中描述图1中所示的信息处理装置10执行的处理。

首先，存储单元23存储{x}作为一个概率变量，并且还存储概率变量的三个内部状态。假设将用于概率变量的数据的十种情况输入至输入单元21。可以将情况存储在存储单元23中。内部状态例如是指高、中或低状态。作为状态，高状态出现四次，中间状态出现三次，低状态出现三次。此信息输入至输入单元21并且存储在存储单元23中。

接下来，最大似然估计单元41可以通过参照针对每三个状态输入的情况罗列每个状态X_i(其中i=1,2和3)的频率ni。接下来，通过最大似然估计，可以由下面的等式(1)使用数据数目n=10计算相对频率(即，概率函数)。

[等式1]

在等式1中，

[等式2]

下面将

描述为P帽（hat）。最大似然估计单元41通过使用存储单元23中存储的上述信息，基于等式(1)中表示的概率函数P来执行计算。

接下来，温度确定单元42量化数据的波动。下文将数据的波动称为温度。温度为高的状态是指数据波动大的状态。温度为低的状态是指数据波动小的状态。当数据数目小的时候，估计的函数有可能不是合适的。然而，如稍后描述的，引入温度的概念。因此，即使在数据数目小的时候，也可以使得估计的函数合适。

如等式(2)中那样，使用基于n个数据条目之中满足“n＞j”的j个数据条目估计出的概率函数P_j(X)定义几何平均值。

[等式3]

P_{n - 1}^{G} (X) = {[Π_{j = 0}^{n - 1} Pj (X)]}^{1 / n} . . . (2)

这里，将概率函数定义为P₀(X_i)=1/|X|。|X|指示变量X的内部状态的数目。因此，P₀(X)是均匀概率函数。这里，由于|X|等于3，因此P₀(X_i)等于1/3，而不依赖于状态i。使用等式(1)和等式(2)定义对于数据数目n(其中n≥1)的温度T：下面的等式(3)。

[等式4]

在等式(3)中，用库尔贝克-莱布勒信息定义温度T的右侧。因此，通过库尔贝克-莱布勒信息的特性满足“T≥0”。进一步，当n≥1时,如等式(4)中那样定义β。

β=1/(1+T) …(4)

温度T被转换为等式(4)中所定义的量β。当n=0时，将β定义为0。

接下来，概率函数估计单元43估计n≥1时的概率函数。这里，可以使用通过利用自由能量最小原理得到的以下等式(5)中所表达的正则分布来获得估计结果P(X_i)。

[等式5]

在等式(5)中，当n=0时，估计结果是P₀(X_i)=1/|X|。估计的函数作为估计结果输出至输出单元24并且供给后级(未示出)的处理。

最大似然估计单元41基于可用的数据计算具有最高似然的概率函数。温度确定单元42计算统计物理学中的正则分布和所述正则分布的参数作为数据的波动。概率函数估计单元43使用具有最高似然的概率函数、计算出的波动和正则分布来估计概率函数。由此，可以通过计算作为正则分布的参数的数据的波动来自动地校正最大似然估计器。

最大似然估计单元41可以配置为基于可用的数据计算经验分布函数。进一步，最大似然估计单元41基于可用的数据计算经验分布函数。温度确定单元42可以配置为计算统计物理学中的正则分布和所述正则分布的参数作为数据的波动。概率函数估计单元43可以配置为估计通过正则分布的使用所估计的概率函数。利用这种配置，自动估计经验分布的估计可以通过计算作为正则分布的参数的数据的波动来执行。

进一步，最大似然估计单元41可以配置为计算最高似然的概率函数或者计算贝叶斯后验概率函数。当计算贝叶斯后验概率函数时，可以反映先验知识。

当温度确定单元42计算温度(计算数据的波动)时，温度确定单元42计算作为与正则分布的温度对应的参数的温度。可以使用具有最高似然的概率函数、经验分布函数、贝叶斯后验概率函数或估计出的概率函数的至少一个来计算数据的波动。由此，可以基于数据的波动确切地计算参数。

当温度确定单元42计算数据的波动(温度)时，在不包括提前设置的另一参数或者针对数据的每个集合计算出的参数的情况下执行计算。因此，由于用户无需设置参数，因而可以在没有对于用户的不必要负担的情况下简单并精确地很好估计概率函数。

当温度确定单元42计算数据的波动时，使用库尔贝克-莱布勒信息计算数据的波动。当使用库尔贝克-莱布勒信息时，可以将波动限制到等于或大于0的量。因此，当与正则分布一起使用时，可以高精度地估计概率函数。

当温度确定单元42计算数据的波动时，使用n个数据条目，由此可以通过基于n个数据条目计算出的并且具有最高似然的概率函数、贝叶斯后验概率函数、或经验分布函数以及基于(n-1)个数据条目计算出的概率函数来计算库尔贝克-莱布勒信息。在这种配置中，上面的等式(3)改变为下面的等式(6)。

[等式6]

在该等式中，可以将估计与基于前一数据执行的估计之间的差确切地计算为波动。

当温度确定单元42计算数据的波动时，如上面的等式(3)中那样使用n个数据条目。因此，基于n个数据条目计算出的并且具有最高似然的概率函数、贝叶斯后验概率函数或经验分布函数以及基于(n-1)个数据条目计算出的概率可以通过同样地基于上至j(范围0≤j≤n-1之一)个数据条目所计算出的概率函数的几何平均值而计算出。此时，当j＝0时，可以使用均匀分布函数。由此，可以将相对于基于之前数据获得的平均值的偏差确切地计算为波动。

当温度确定单元42计算数据的波动时，基于n个数据条目计算出的并且具有最高似然的概率函数、贝叶斯后验概率函数或经验分布函数可以通过同样地基于上至j(范围0≤j≤n-1之一)个数据条目所计算出的概率函数、贝叶斯后验概率函数或经验分布函数的几何平均值而计算出。在这种配置中，将上面的等式(3)变为下面的等式(7)。

[等式7]

由此，可以将相对于基于之前数据获得的平均值的偏差确切地计算为波动。

当温度确定单元42计算数据的波动时，可以通过递归计算的使用来估计概率函数，所述递归计算是通过以基于n个数据条目和正则分布计算出的概率函数替换基于(n-1)个数据条目计算出的概率函数、使用所述波动而执行的。因此，当使用递归计算时，计算量可能增大，但是精度可以得到改善。

第二实施例

由于第一实施例可以容易地延伸至两个或更多个变量的条件概率和联合概率的情况，因此下面根据第二实施例描述两个或更多个变量的条件概率和联合概率。可以分析联合概率并且将其表示为条件概率和以下式子的乘积：

P(X₁,X₂,...,X_n)

=P(X_n|X_n-1,...,X₂,X₁)...P(X₂|X₁)P(X₁)。

因此，可以只考虑条件概率。

在条件概率的情况下，当例示针对变量{X}的变量{Y，Z}的给定配对的条件概率时，仅针对各条件之中所有的特定状态{Y=y,Z=z}来估计独立变量{X}的概率。当通过将索引附于条件变量{Y，Z}的特定状态形成j时，在假设nj是满足{Y，Z}的状态为j这一条件的数据的量、i是变量{X}的每个状态的索引并且nij是X=i的数据的频率的情况下，如等式(1)中那样，按照下面的等式(8)获得经历最大似然估计的条件概率函数P帽(X|Y，Z)。

[等式8]

如等式(2)中那样获得下面的等式(9)。

[等式9]

P_{nj - 1}^{G} (X | Y, Z) = {[Π_{m = 0}^{nj - 1} Pm (X | Y, Z)]}^{1 / nj} . . . (9)

当将索引j附于等式(3)时，获得下面的等式(10)。

[等式10]

在等式(4)中，定义了温度β_j。将正态分布的等式(5)计算到下面的等式(11)。

[等式11]

可替换地，当即使对于j针对温度T_j计算平均值并且将平均值设置为T时，也表示了下面的等式(12)。

[等式12]

可以使用从等式(4)中的T计算出的β，而不是等式(11)中的β_j。

第三实施例

接下来，根据第三实施例描述通过使用G²统计量对于三个变量的条件独立测试的情况。执行三个变量的条件独立测试的信息处理装置具有图2中所示的配置。图2中所示的信息处理装置100包括输入单元121、控制单元122、存储单元123和输出单元124。控制单元122包括最大似然估计单元141、温度确定单元142、概率函数估计单元143、统计量计算单元144、阈值确定单元145和独立性确定单元146。

将描述信息处理装置100的处理。存储单元123存储概率变量{X,Y，Z}，并且还存储其三个内部状态。进一步，存储单元123存储对于变量的十个先前情况作为数据库。

假设将用以在{X,Y，Z}中X和Y的Z的条件下执行条件独立测试的指令输入至输入单元121。然而，条件变量Z也包括空集的情况。在这种情况下，这种测试是X和Y的独立测试。当将G²统计量表示到G²时，在假设N为数据的数目的情况下，与信息理论中的互信息量I(X;Y)的关系是等式(13)的关系。

[等式13]

在此等式中，P帽代表最大似然估计器。用估计出的概率函数P替代互信息量I(X;Y)或G²统计量中的最大似然估计器P帽。例如，可以将上述的第一或第二实施例中描述的方法用作估计方法。即，统计量计算单元144使用下面的等式(14)计算统计量。

[等式14]

G^{2} = 2 N \underset{x, y, z}{Σ} P (x, y, z) \log \frac{P (x | y, z)}{P (x | z)} . . . (14)

代替等式(14)中的G²统计量，可以使用下面的等式(15)中的G²统计量。

[等式15]

X^{2} = N \underset{x, y, z}{Σ} \frac{{P (x, y | z) - P (x | z) P (y | z)}^{2}}{P (x | z) P (y | z)} = N \underset{x, y, z}{Σ} \frac{{P (y, z) (P (x | y, z) - P (x | z))}^{2}}{P (x) P (y)} . . . (15)

最大似然估计单元141、温度确定单元142、概率函数估计单元143估计概率函数。由于最大似然估计单元141、温度确定单元142和概率函数估计单元143分别与图1中所示的最大似然估计单元41、温度确定单元42和概率函数估计单元43相同，因此可以通过应用上面描述的第一实施例或第二实施例来估计概率函数。

将测试的5%的信息之类的阈值输入至输入单元121，并且阈值确定单元145基于该阈值计算关于数据量和自由度的G²统计量或者来自χ²分布的χ²统计量的阈值X² _th。可替换地，可以将测试的数表作为数据库存储在存储单元123中，并且可以参照该数表表示阈值X² _th。基于计算出的G²统计量或χ²统计量的阈值X² _th，独立性确定单元146确定条件独立假说是否被拒绝。确定结果供给输出单元124并且输出至后级(未示出)的处理。

在第三实施例中，通过图2中所示的信息处理装置100执行处理。然而，信息处理装置100的控制单元122的最大似然估计单元141、温度确定单元142和概率函数估计单元143具有与图1中所示的信息处理装置10的控制单元12的最大似然估计单元41、温度确定单元42和概率函数估计单元43相同的配置。即，在信息处理装置100中，估计概率函数的单元在第一或第二实施例中具有相同的配置。进一步，第一或第二实施例中描述的概率函数的估计也可应用于第三实施例。

概率函数的估计和统计假说的测试可应用于第三实施例。通过执行这种测试，假说测试的精度可以得到改善。

在根据第三实施例的测试统计假说的信息处理装置100中，统计量计算单元144配置为使用互信息量、G平方统计量和来自概率函数（其如第一或第二实施例中描述的估计概率函数的信息处理装置10中那样被估计出）的概率函数比来执行计算。由此，可以改善G平方测试或者似然比测试的精度。

进一步，可以使用从估计的概率函数计算出的卡方统计来执行测试。由此，可以改善卡方测试的精度。

第四实施例

接下来，根据第四实施例描述通过使用熵的模型选择。在第四实施例中，描述将选择具有最低熵的模型的判据用作模型选择的指南的示例。

图3中所示的信息处理装置200包括输入单元221、控制单元222、存储单元223和输出单元224。控制单元222包括最大似然估计单元241、温度确定单元242、概率函数估计单元243、模型熵计算单元244、模型列举单元245和模型比较单元246。

将描述信息处理装置200的处理。存储单元223存储概率变量{X,Y，Z}，并且还存储它的三个内部状态。进一步，存储单元223存储对于这些变量的十个先前情况作为数据库。

将用以在{X,Y，Z}的概率分布表达式中选择最佳模型的指令输入至输入单元221。作为联合概率分布的表达式，考虑如下的多个模型，如：所有的概率彼此独立的分布，即，P(X,Y，Z)=P(X)P(Y)P(Z)，或者一些概率彼此独立的分布，例如，P(X,Y，Z)=P(X)P(Y|Z)P(Z|X)。

控制单元222从模型列举单元245中选择要处理的预定模型，并且将所选择的模型供给最大似然估计单元241。计算从模型列举单元245中选择出的模型的概率分布，并且通过最大似然估计单元241、温度确定单元242和概率函数估计单元243的处理估计所有的概率函数。

由于最大似然估计单元241、温度确定单元242和概率函数估计单元243分别与图1中所示的信息处理装置10的最大似然估计单元41、温度确定单元42和概率函数估计单元43相同，因此第一或第二实施例中描述的概率函数的估计也可应用于第四实施例。

基于估计出的概率函数，模型熵计算单元244例如计算预定模型的熵。当预定模型是P(X,Y，Z)=P(X)P(Y|X)P(Z|X)时，预定模型的熵是下面的等式(16)。

[等式16]

H (X, Y, Z) = - \underset{x, y, z}{Σ} P (X) P (Y | X) P (Z | X) \log P (X) P (Y | X) P (Z | X) . . . (16)

计算出的模型的熵存储在模型比较单元246中。当存储了所有模型的熵时，模型比较单元246选择具有最低熵的模型并且将选择结果输出至输出单元224。由此，通过估计概率函数并且基于估计出的概率函数选择模型，模型选择的精度可以得到改善。

根据第四实施例的选择模型的信息处理装置200可以选择具有最小熵的模型，所述熵从如第一或第二实施例中描述的估计概率函数的信息处理装置10中那样估计出的概率函数计算出。由此，可以参照熵改善模型选择的精度。

可以通过根据第三实施例的执行统计假说的信息处理装置和根据第四实施例的选择统计模型的信息处理装置中的至少一个来配置估计多变量概率的信息处理装置。这种信息处理装置能够改善多变量概率函数的估计精度。

可以将估计多变量概率函数的信息处理装置配置为检测统计因和果的因果检测装置。由此，可以改善因果检测的精度。

可以将估计多变量概率函数的信息处理装置配置为分类器。由此，可以改善分类器的精度。

可以将估计多变量概率函数的信息处理装置配置为贝叶斯网络、因果贝叶斯网络、马尔科夫网络和马尔科夫逻辑网络中的一个。由此，可以改善上述模型的估计精度。

第五实施例

下文将进一步描述应用了第一至第四实施例之一的特定示例。首先，描述将第五实施例中估计出的概率函数应用于推荐系统的情况。

作为推荐系统，可以例示向用户推荐书籍、音乐、电影等的系统。通常，推荐系统推荐适合于用户喜好的商品或服务。然而，当推荐系统推荐商品或服务时，在某些情况下显示或指令推荐评级。在显示或指令推荐评级时，在某些情况下使用过去由已经使用了商品或服务的其它用户所给出的反馈信息。可以考虑在来自用户的反馈中将星数(如，五颗星的最高评级和一颗星的最低评级)用作评价的指标的系统。

在这种情况下，向用户推荐的商品或服务的推荐评级可以是作为在某些情况下来自其它用户的反馈信息所给出的评估指标的期望值。例如，将四颗星显示为作为来自一百个用户的反馈信息的期望值，或者将四颗星显示为作为来自两个用户的反馈信息的期望值。在两种情况下，相比于来自两个用户的反馈信息，可以认为来自一百个用户的前一反馈信息更加可靠。

然而，在通常的期望值中可能没有表示出这种差异。即使显示分散值时也没有差异。然而，当如上面描述的那样应用引入温度的概念的概率函数的估计时，前者(来自一百个用户的反馈信息)的期望值的波动减小(即，温度降低)，而后者(来自两个用户的反馈信息)的期望值的波动增大(即，温度升高)。

因为由于温度高的后者中的温度差异校正了所估计的概率函数的偏差，因此星数低于四，由此程度(degree)在后者中比前者中增加得更多。当显示波动的大小时，用户可以获得自动地校正了由于小的数据数目所引起的过高估计或过低估计的概率的评级。进一步，用户可以看到信息的可靠性。由此，用户可以更加精确地理解反馈信息，由此可以使用反馈信息作为决定材料。根据本技术的实施例，可以提供这种决定材料作为合适的信息。

第六实施例

接下来，将描述使用第六实施例中估计出的概率函数检测疾病和症状之间的因果关系的系统。这里，准备{结核病(T)、肺癌(L)、支气管炎(B)、胸透X射线结果(X)、呼吸困难(D)、吸烟状况(S)}作为概率变量。下面将括号中的字母用作缩写。

变量之间的因果关系从数据中估计出，并且进一步量化为条件概率函数。条件独立性的测试有效的这一事实在因果关系的估计中是已知的，由此这里使用这种测试估计概率函数。可以将第三实施例中例示的G²统计量用作测试的统计量。估计的精度在条件变量的集合增大时恶化。因此，以升序评估条件变量的集合的大小。作为这种方法，可应用称作PC算法的技术。

将独立性设置为空假说，而将依赖性设置为备选假说。输入变量的集合、数据的集合和测试的阈值。当在变量的所有配对中存在依赖性并且独立性未被拒绝时，从变量的配对中排除变量。首先，可以检查条件变量的集合是空集的情况。即，对变量{X,Y}的所有配对执行等式(13)中G²=2NI(X;Y)的计算。当测试未拒绝独立假说时，确定在变量X和Y之间不存在依赖性，由此从指示依赖性的配对中排除变量。当独立性假说被拒绝时，不排除变量。

接下来，当存在条件集合的一个配对(将此条件设为变量Z)时，计算G²=2NI(X；Y|Z)。同样地，当拒绝独立假说时，从指示依赖性的配对中排除变量。当存在条件集合的两个配对(将此条件设置为变量{Z,W}的配对)时，计算G²=2NI(X;Y|{Z,W}，并且同样地执行测试。通过重复此处理，对于所有的条件集合最终拒绝了依赖性的配对的集合保留作为指示依赖性的配对。在配对中，如{X—Y}中那样给出没有方向的线。

通过应用称作取向法则的技术执行处理以如{X→Y}中那样将没有方向的线改变为具有方向的线。当重复这种处理时，最终形成变量用作顶点并且具有方向的线和没有方向的线彼此链接的网络。输出这种网络作为因果网络。例如，形成并输出{S—C}、{S—B}、{C→D}、{B→D}、{C→X}和{T→X}的因果网络。

进一步，可以将因果关系表示为统计关系。由于网络中没有方向的线是统计上不可识别的因和果，因此用户可以用变量的背景知识指定方向。例如，用户将{S—C}指定到{S→C}。进一步，用户将{S—C}指定到{C→S]以规定{S—C}的因和果。由此，由于所有的线都改变为具有方向的线，因此将所有的关系表示为贝叶斯网络。

通过使用上述的处理，可以针对每个变量确定称作主控的变量的配对。例如，针对变量D确定出{B,C}称作主控的变量的配对。针对变量X确定出{C,T}称作主控的变量的配对。在针对所有的变量确定主控的条件下估计条件概率函数。当不存在主控时，概率函数变为一般的概率函数。如第一或第二实施例中那样基于数据的集合估计所有的概率函数。由此，与网络结构一起估计并输出所有的(条件)概率函数。

第七实施例

接下来，将描述文档分类系统作为使用第六实施例中估计出的概率函数的应用。文档分类系统称作监督学习系统。因此，该系统包括学习单元和估计单元。本技术的实施例可应用于系统的学习单元。

将文本文档和类别分类结果的M个集合输入至学习单元。通过形态分析(morphological analysis)将输入的文本文档分割为词语。将词语存储为分类器的概率变量。假设词语的概率变量具有两个状态来确定词语是否出现在每个文档中。可替换地，可以根据出现的数目提前产生类别。这里假设前者。

然后，文档分类类别也用作概率变量，由此可以检查文档分类类别和每个词语之间的概率变量的依赖性。在文档分类类别和词语之间具有弱依赖性关系的词语可以通过使用互信息量等来检查，并且可以作为变量被提前删除。由于词汇之间存在关联，因此可以将关联表示为贝叶斯网络以产生具有高精度的文档分类器。可以通过统计模型的选择来学习贝叶斯网络的网络结构。可以通过第四实施例中描述的熵最小化模型的选择来学习贝叶斯网络的网络结构。

输入从N个词汇产生的概率变量的配对、其两个状态和关于每个变量的每个文档的出现状态的数据的m个集合。可以通过如第四实施例中描述的那样计算每个模型的熵来估计具有最低熵的网络结构。

当存在太多的组合时，提前减少变量。可替换地，可以使用称作贪心算法的方法、限制依赖性的复杂度的方法等。通过执行处理，可以实现具有最佳输出的网络结构。变量X和作为条件的变量的集合(这里，将三个变量{Y，Z,W}用作示例)的配对作为输出而给出。将变量X和变量集合的配对表示为{X|Y，Z,W}。

接下来，学习单元计算所设置的网络结构中的所有条件概率。作为输入，通过将文档分类变量X_C添加至网络中确定出的条件集合{Y，Z,W}的配对所形成的配对{Y，Z,W，X_C}是与数据的集合一起针对所有词汇的变量X而给出的，其被表示为Condition(X)。在第七实施例中，可以如第一或第二实施例中那样估计条件概率函数P(X|Condition(X))。

给出所有词汇变量的条件概率函数作为输出。计算对于每个词汇变量X_i的条件概率函数P(X|Condition(X_i))和概率函数P(X_C)。然后，学习单元的学习结束，并且将每个输出存储在存储单元中。

在估计单元中，给出期待重新分类的文本文档数据作为输入。通过形态分析将文本文档分割为词汇。通过参照存储单元中存储的所有词汇概率变量的条件概率函数，从与新文本文档中词汇的出现有关的信息提取出对应的条件概率函数的值。当该值称作条件概率值时，如下面的等式(17)中那样计算指示条件概率值输入的文档被分类到的类型的条件概率函数。

[等式17]

P (Xc | {e}) P (Xc) \underset{i}{Π} P (Xi = ei | {Condition (Xi) \ Xc} = {E}, Xc) . . . (17)

在等式(17)中，由于确定了所有的词汇变量的状态，因此{e}指示词汇变量的配对。进一步，右侧的X_i=e_i指示变量词汇X_i的状态是e_i。

[等式18]

{Condition(X)\X_C}={E}

该等式指示Condition(X)的变量的配对的状态是排除文档分类变量的{E}。结果，可以将文档输入至具有最高概率值的类别。于是，将具有最高概率值的类别建议为输出。

本技术的实施例可应用于使用概率函数执行处理的装置，并且这里描述的示例仅是示例，本技术不限于此。

根据实施例，可以估计校正了依赖于数据量的偏差的概率函数。进一步，由于不存在用户针对数据的每个集合调节的参数，因此小的数据量的精度和丢失计算成本可以是兼容的。

记录介质

可以通过硬件或软件执行上述的一系列处理。当通过软件执行这一系列处理时，可以将用于软件的程序安装在通用计算机等中。这里，计算机的示例包括嵌入了专用软件的计算机和能够通过安装各种程序运行各种功能的通用个人计算机。

图4是图示通过软件运行上述一系列处理的计算机的硬件的配置示例的框图。在该计算机中，中央处理单元(CPU)1001、只读存储器(ROM)1002和随机存取存储器(RAM)1003经由总线1004彼此连接。进一步，输入/输出接口1005连接至总线1004。输入单元1006、输出单元1007、存储单元1008、通信单元1009和驱动器1010连接至输入/输出接口1005。

输入单元1006通过键盘、鼠标、麦克风等配置。输出单元1007通过显示器、扬声器等配置。存储单元1008通过硬盘、非易失性存储器等配置。通信单元1009通过网络接口等配置。驱动器1010驱动诸如磁盘、光盘、磁光盘或半导体存储器之类的可移除介质1011。

在具有上述配置的计算机中，CPU 1001例如通过经由输入/输出接口1005和总线1004在RAM 1003上加载和运行存储单元1008中存储的程序来运行上述一系列处理。

例如，可以将计算机(CPU 1001)运行的程序记录在可移除介质1011中作为用于供给的封装介质。进一步，可以经由有线或无线传输介质(如，局域网、因特网或数字卫星广播)提供所述程序。

在计算机中，通过在驱动器1010上安放可移除介质1011，可以经由输入/输出接口1005将程序安装在存储单元1008上。进一步，程序可以由通信单元1009经由有线或无线传输介质进行接收，并且可以安装在存储单元1008上。进一步，程序可以提前安装在ROM 1002或存储单元1008上。

计算机运行的程序可以是以说明书中描述的次序按时间顺序处理的程序，或者是并行或者当被调用时在必要时刻处理的程序。

在说明书中，系统指示包括多个装置的整个装置。

本技术的实施例不限于上述实施例，而是可以在不脱离本技术的主旨的情况下以各种形式加以修改。

本技术可以按照如下那样配置。

(1)

一种信息处理装置，包含：

第一计算单元，其基于数据计算具有最高似然的概率函数；

第二计算单元，其计算统计物理学中的正则分布和正则分布的参数作为所述数据的波动；以及

估计单元，其使用由第一计算单元计算出的具有最高似然的概率函数、由第二估计单元计算出的波动和所述正则分布来估计概率函数。

(2)

如权利要求1所述的信息处理装置，其中，所述第一计算单元计算经验分布函数。

(3)

如权利要求1所述的信息处理装置，其中，用贝叶斯后验概率函数替代具有最高似然的概率函数。

(4)

如权利要求1所述的信息处理装置，其中，所述第二计算单元使用具有最高似然的概率函数、经验分布函数、贝叶斯后验概率函数和估计出的概率函数中的至少一个计算所述数据的波动。

(5)

如权利要求1所述的信息处理装置，其中，所述数据的波动不包括提前设置的另一参数或者针对数据的每个集合计算出的参数。

(6)

如权利要求1所述的信息处理装置，其中，所述第二计算单元使用库尔贝克-莱布勒信息计算所述数据的波动。

(7)

如权利要求1所述的信息处理装置，其中，当所述第二计算单元计算所述数据的波动时，使用n个数据条目，并且通过所述估计单元基于(n-1)个数据条目计算出的概率函数、以及基于n个数据条目计算出的具有最高似然的概率函数、贝叶斯后验概率函数和经验分布函数之一来计算库尔贝克-莱布勒信息。

(8)

如权利要求7所述的信息处理装置，其中，用同样地基于上至j(其中0≤j≤n-1)个数据条目计算出的概率函数的几何平均值替代基于(n-1)个数据条目计算出的概率函数。

(9)

如权利要求7所述的信息处理装置，其中，用同样地基于上至j(其中0≤j≤n-1)个数据条目计算出的具有最高似然的概率函数、贝叶斯后验概率函数和经验分布函数之一的几何平均值替换基于n个数据条目计算出的具有最高似然的概率函数、贝叶斯后验概率函数和经验分布函数之一。

(10)

如权利要求7所述的信息处理装置，其中，通过使用利用以基于n个数据条目计算出的概率函数替换基于(n-1)个数据条目计算出的概率函数而计算出的正则分布和数据的波动执行的递归计算，估计所述概率函数。

(11)

如权利要求1所述的信息处理装置，其中，使用由估计单元估计出的概率函数执行统计假说测试。

(12)

如权利要求11所述的信息处理装置，其中，使用从由所述估计单元估计出的概率函数计算的互信息量、G平方统计量和概率函数比之一。

(13)

如权利要求11所述的信息处理装置，其中，使用从由所述估计单元估计出的概率函数计算的卡方统计量。

(14)

如权利要求1所述的信息处理装置，其中，使用由所述估计单元估计出的概率函数来选择统计模型。

(15)

如权利要求14所述的信息处理装置，其中，选择从由所述估计单元估计出的概率函数计算的具有最小熵的模型。

(16)

如权利要求1所述的信息处理装置，其中，由所述估计单元估计出的概率函数是多变量联合概率函数或者条件概率函数。

(17)

如权利要求16所述的信息处理装置，其中，所述信息处理装置是检测统计因和果的因果检测装置或分类器。

(18)

如权利要求16所述的信息处理装置，其中，所述多变量概率函数是贝叶斯网络、因果贝叶斯网络、马尔科夫网络和马尔科夫逻辑网络之一。

(19)

一种信息处理方法，包含：

基于数据计算具有最高似然的概率函数；

计算统计物理学中的正则分布和正则分布的参数作为所述数据的波动；以及

使用具有最高似然的概率函数、所述数据的波动和所述正则分布来估计概率函数。

(20)

一种用于使得计算机运行处理的程序，所述处理包括：

基于数据计算具有最高似然的概率函数；

本领域技术人员应当理解，依据设计需要和其它因素，可以出现各种修正、组合、部分组合和替换，只要其在所附权利要求书或其等同体的范围内即可。

本公开包含与2011年5月24日向日本专利局提交的日本优先权专利申请JP 2011-115925中公开的主题有关的主题，其全部内部通过引用的方式合并在此。

Claims

1.一种信息处理装置，包含：

第一计算单元，其基于数据计算具有最高似然的概率函数；

2.如权利要求1所述的信息处理装置，其中，所述第一计算单元计算经验分布函数。

3.如权利要求1所述的信息处理装置，其中，用贝叶斯后验概率函数替代具有最高似然的概率函数。

4.如权利要求1所述的信息处理装置，其中，所述第二计算单元使用具有最高似然的概率函数、经验分布函数、贝叶斯后验概率函数和估计出的概率函数中的至少一个计算所述数据的波动。

5.如权利要求1所述的信息处理装置，其中，所述数据的波动不包括提前设置的另一参数或者针对数据的每个集合计算出的参数。

6.如权利要求1所述的信息处理装置，其中，所述第二计算单元使用库尔贝克-莱布勒信息计算所述数据的波动。

7.如权利要求1所述的信息处理装置，其中，当所述第二计算单元计算所述数据的波动时，使用n个数据条目，并且通过所述估计单元基于(n-1)个数据条目计算出的概率函数、以及基于n个数据条目计算出的具有最高似然的概率函数、贝叶斯后验概率函数和经验分布函数之一来计算库尔贝克-莱布勒信息。

8.如权利要求7所述的信息处理装置，其中，用同样地基于上至j个数据条目计算出的概率函数的几何平均值替代基于(n-1)个数据条目计算出的概率函数，其中0≤j≤n-1。

9.如权利要求7所述的信息处理装置，其中，用同样地基于上至j个数据条目计算出的具有最高似然的概率函数、贝叶斯后验概率函数和经验分布函数之一的几何平均值替换基于n个数据条目计算出的具有最高似然的概率函数、贝叶斯后验概率函数和经验分布函数之一，其中0≤j≤n-1。

10.如权利要求7所述的信息处理装置，其中，通过使用利用以基于n个数据条目计算出的概率函数替换基于(n-1)个数据条目计算出的概率函数而计算出的正则分布和数据的波动执行的递归计算，估计所述概率函数。

11.如权利要求1所述的信息处理装置，其中，使用由估计单元估计出的概率函数执行统计假说测试。

12.如权利要求11所述的信息处理装置，其中，使用从由所述估计单元估计出的概率函数计算的互信息量、G平方统计量和概率函数比之一。

13.如权利要求11所述的信息处理装置，其中，使用从由所述估计单元估计出的概率函数计算的卡方统计量。

14.如权利要求1所述的信息处理装置，其中，使用由所述估计单元估计出的概率函数来选择统计模型。

15.如权利要求14所述的信息处理装置，其中，选择具有从由所述估计单元估计出的概率函数计算的最小熵的模型。

16.如权利要求1所述的信息处理装置，其中，由所述估计单元估计出的概率函数是多变量联合概率函数或者条件概率函数。

17.如权利要求16所述的信息处理装置，其中，所述信息处理装置是检测统计因和果的因果检测装置或分类器。

18.如权利要求16所述的信息处理装置，其中，所述多变量概率函数是贝叶斯网络、因果贝叶斯网络、马尔科夫网络和马尔科夫逻辑网络之一。

19.一种信息处理方法，包含：

基于数据计算具有最高似然的概率函数；

20.一种用于使得计算机运行处理的程序，所述处理包括：

基于数据计算具有最高似然的概率函数；