CN103177177A

CN103177177A - 信息处理设备、估计器生成方法和程序

Info

Publication number: CN103177177A
Application number: CN2012103205273A
Authority: CN
Inventors: 小林由幸; 儿嶋环
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-09-08
Filing date: 2012-08-31
Publication date: 2013-06-26
Anticipated expiration: 2032-08-31
Also published as: US20130066452A1; CN103177177B

Abstract

本发明公开了一种信息处理设备、估计器生成方法和程序，其中该信息处理设备包括：特征量向量计算部，当给出每一个均被配置成包括输入数据和对应于输入数据的目标变量的多个学习数据时，将输入数据输入到多个基函数中以计算特征量向量，其中该特征量向量包括来自各个基函数的输出值作为元素；分布调整部，调整特征量空间中由特征量向量指定的点的分布，以使得点的分布变得更接近预定分布；以及函数生成部，关于多个学习数据，生成根据特征量向量的输入而输出目标变量的估计值的估计函数。

Description

信息处理设备、估计器生成方法和程序

技术领域

本技术涉及一种信息处理设备、估计器生成方法和程序。

背景技术

近年来，用于自动地从难以定量地确定特征的任意数据组提取该数据组的特征量的方法正引起关注。例如，已知如下方法：将任意音乐数据作为输入并且自动地构造用于自动提取该音乐数据所属的音乐风格的算法。诸如爵士、古典以及流行的音乐风格不是根据乐器的类型或演奏模式而定量地确定的。因此，在过去，通常认为在给出了任意音乐数据时，难以自动地从音乐数据提取音乐风格。

然而，实际上，区分音乐风格的特征潜在地包括在信息项的各种组合中，诸如包括在音乐数据中的音调的组合、组合音调的方式、乐器类型的组合以及旋律线或低音线的结构。因此，关于通过机器学习对用于提取这样的特征的算法（下文中，称为特征量提取器）的自动构造的可能性，已进行了对特征量提取器的研究。作为一个研究结果，可以引用在JP-A-2009-48266中描述的、基于遗传算法的特征量提取器的自动构造方法。遗传算法是模拟生物进化过程并且在机器学习的过程中将选择、交叉（crossover）和突变纳入考虑的算法。

通过使用在上述专利文献中描述的特征量提取器自动构造算法，可以自动构造用于从任意音乐数据中提取该音乐数据所属的音乐风格的特征量提取器。另外，专利文献中描述的特征量提取器自动构造算法是高度通用的，并且能够自动地构造用于不仅从音乐数据还从任意数据组提取该数据组的特征量的特征量提取器。因此，期望专利文献中描述的特征量提取器自动构造算法应用于对人工数据（诸如，音乐数据和图像数据）的特征量分析和对自然存在的各种观察量的特征量分析。

发明内容

上述文献中描述的特征量提取器自动构造算法使用之前准备的学习数据来自动构造特征量提取公式。较大数量的学习数据导致自动构造的特征量提取公式的性能较高。然而，构造特征量提取公式可利用的存储容量是有限的。另外，当学习数据的数量较大时，实现特征量提取公式的构造需要较高的计算性能。因此，期望如下配置：其优选地使用来自大量地提供的学习数据的、有助于提高特征量提取公式的性能的有用学习数据。通过实现这样的配置，可以获得具有较高精确度的特征量提取公式。因此，期望提高使用特征量提取公式来估计结果的估计器的性能。

本技术是在上述情形下做出的。本技术旨在提供一种新颖且改进的信息处理设备、估计器生成方法和程序，其能够生成更高性能的估计器。

根据本技术的一方面，提供了一种信息处理设备，其包括：特征量向量计算部，当给出每一个均被配置成包括输入数据和对应于输入数据的目标变量的多个学习数据时，将输入数据输入到多个基函数中以计算特征量向量，其中这些特征量向量包括来自各个基函数的输出值作为元素；分布调整部，调整特征量空间中由特征量向量指定的点的分布，以使得点的分布变得更接近预定分布；以及函数生成部，关于多个学习数据，生成根据特征量向量的输入而输出目标变量的估计值的估计函数。

另外，根据本技术的另一方面，提供了一种估计器生成方法，其包括：当给出每一个均被配置成包括输入数据和对应于输入数据的目标变量的多个学习数据时，将输入数据输入到多个基函数中以计算特征量向量，其中这些特征量向量包括来自各个基函数的输出值作为元素；调整特征量空间中由特征量向量指定的点的分布，以使得点的分布变得更接近预定分布；以及关于多个学习数据，生成根据特征量向量的输入而输出目标变量的估计值的估计函数。

另外，根据本技术的又一方面，提供了一种用于使得计算机实现以下功能的程序：特征量向量计算功能，当给出每一个均被配置成包括输入数据和对应于输入数据的目标变量的多个学习数据时，将输入数据输入到多个基函数中以计算特征量向量，其中这些特征量向量包括来自各个基函数的输出值作为元素；分布调整功能，调整特征量空间中由特征量向量指定的点的分布，以使得点的分布变得更接近预定分布；以及函数生成功能，关于多个学习数据，生成根据特征量向量的输入而输出目标变量的估计值的估计函数。

本技术的另一方面是提供一种存储有上述程序的计算机可读记录介质。

如上所述，本技术使得可以生成更高性能的估计器。

附图说明

图1是示出用于利用通过机器学习构造的估计器来估计结果的系统配置的图；

图2是示出用于估计器构造的学习数据的配置的图；

图3是示出估计器的结构的图；

图4是示出估计器的构造方法的流程图；

图5是示出估计器的构造方法的流程图；

图6是示出估计器的构造方法的流程图；

图7是示出估计器的构造方法的流程图；

图8是示出估计器的构造方法的流程图；

图9是示出估计器的构造方法的流程图；

图10是示出估计器的构造方法的流程图；

图11是示出估计器的构造方法的流程图；

图12是示出估计器的构造方法的流程图；

图13是示出在线学习的图；

图14是示出关于基于离线学习的估计器的构造方法和基于在线学习的估计器方法的构造要解决的问题的图；

图15是示出根据实施例的信息处理设备的功能配置的图；

图16是示出根据实施例的估计特征构造部的详细功能配置的图；

图17是示出特征量空间中的学习数据的分布与估计器的精度之间的关系的图；

图18是示出特征量空间中的学习数据的分布与估计器的精度之间的关系以及在线学习的效果的图；

图19是示出根据实施例对学习数据进行采样的方法的图；

图20是示出根据实施例的学习数据的有效采样方法的流程图；

图21是示出根据实施例的学习数据的有效采样方法的图；

图22是示出根据实施例的学习数据的有效采样方法的图；

图23是示出根据实施例的学习数据的有效采样方法的图；

图24是示出根据实施例的学习数据的有效采样方法的图；

图25是示出根据实施例的学习数据的有效采样方法的图；

图26是示出根据实施例的学习数据的有效采样方法的图；

图27是示出根据实施例的有效加权方法的流程图；

图28是示出根据实施例的有效加权方法的图；

图29是示出根据实施例的有效加权方法的图；

图30是示出根据实施例的有效加权方法的图；

图31是示出根据实施例的有效采样/加权方法的流程图；

图32是示出根据实施例的变型的学习数据的选择方法的流程图；

图33是示出根据实施例的变型的学习数据的选择方法的流程图；

图34是示出根据实施例的变型的学习数据的加权方法的流程图；

图35是示出根据实施例的变型的学习数据的选择方法的流程图；

图36是示出根据实施例的变型的学习数据的加权方法的流程图；

图37是示出用于构造图像识别器的学习数据生成方法的图；

图38是示出用于构造语言分析器的学习数据的生成方法的图；

图39是示出通过应用在线学习而获得的效果的图；以及

图40是示出能够实现根据实施例的信息处理设备的功能的硬件配置的示例的图示。

具体实施方式

在下文中，将参照附图详细描述本公开内容的优选实施例。注意，在本说明书和附图中，具有基本上相同的结构和功能的结构元件以相同的附图标记来表示，并且省略对这些结构元件的重复说明。

[描述流程]

这里，将简要阐述以下描述的流程。

参照图1至图12，首先将描述估计器的自动构造方法。随后，参照图13和图14，将对基于估计器的在线学习的自动构造方法进行描述。随后，参照图15和图16，将对根据实施例的信息处理设备10的功能配置进行描述。随后，参照图17至图19，将对根据实施例的学习数据集成方法进行描述。

随后，参照图20至图26，将对根据实施例的学习数据的有效采样方法进行描述。随后，参照图27至图30，将对根据实施例的有效加权方法进行描述。随后，参照图31，将对根据实施例的学习数据的有效采样方法和加权方法的组合方法进行描述。

随后，参照图32，将对根据实施例的变型（变型1）的学习数据的采样方法进行描述。随后，参照图33和图34，将对根据实施例的变型（变型2）的学习数据的采样方法进行描述。随后，参照图35和图36，将对根据实施例的变型（变型3）的学习数据的采样方法进行描述。

随后，参照图37，将对根据实施例的技术对于图像识别器的自动构造方法的应用方法进行描述。随后，参照图38，将对根据实施例的技术对于语言分析器的自动构造方法的应用方法进行描述。随后，参照图39，将对根据实施例的在线学习的效果进行描述。随后，参照图40，将对能够实现根据实施例的信息处理设备10的功能的硬件配置的示例进行描述。

最后，将对实施例的技术构思进行描述，并且将对从该技术构思获得的工作效果进行简要描述。

（描述项）

1：介绍

1-1：估计器的自动构造方法

1-1-1：估计器的配置

1-1-2：构造处理流程

1-2：用于实现在线学习

2：实施例

2-1：信息处理设备10的功能配置

2-2：学习数据集成方法

2-2-1：特征量空间中的学习数据的分布和估计器的精度

2-2-2：用于在数据集成时进行采样的配置

2-2-3：用于在数据集成时进行加权的配置

2-2-4：用于在数据集成时进行采样和加权的配置

2-3：有效采样/加权方法

2-3-1：采样方法

2-3-2：加权方法

2-3-3：组合方法

2-4：采样处理和加权处理的变型

2-4-1：变型1（基于距离的处理）

2-4-2：变型2（基于聚类的处理）

2-4-3：变型3（基于密度估计技术的处理）

3：应用示例

3-1：图像识别器的自动构造方法

3-2：语言分析器的自动构造方法

4：硬件配置的示例

5：总结

<1：介绍>

以下描述的实施例涉及一种估计器的自动构造方法。另外，实施例涉及添加用于估计器构造的学习数据（下文中，称为在线学习）的配置。在详细描述根据实施例的技术之前，将对为了实现估计器的自动构造方法和在线学习而要解决的问题进行描述。在以下描述中，将给出基于遗传算法的估计器的自动构造方法的示例。然而，根据实施例的技术的应用范围不限于上述范围。

[1-1：估计器的自动构造方法]

以下将描述估计器的自动构造方法。

（1-1-1：估计器的配置）

参照图1至图3，首先将描述估计器的配置。图1是示出使用估计器的系统的系统配置的示例的图。图2是示出用于估计器构造的学习数据的配置的示例的图。图3是示出估计器的结构和构造方法的概况的图。

参照图1，例如，信息处理设备10执行估计器的构造和估计值的计算。信息处理设备10使用多个学习数据(X₁,t₁)，...,(X_N,t_N)来构造估计器。在以下描述中，学习数据的集合可被称为学习数据集。另外，信息处理设备10通过使用所构造的估计器来根据输入数据X计算估计值y。估计值y用于识别输入数据X。例如，当估计值y大于预定阈值Th时，输出识别结果“是”；而当估计值y小于预定阈值Th时，输出识别结果“否”。

参照图2，将更具体地来考虑估计器的配置。图2中例示的学习数据集用于构造图像识别器，该图像识别器用于识别“海”的图像。在该情况下，由信息处理设备10构造的估计器输出表示输入图像的“海的概率”的估计值y。如图2所示，学习数据被配置为包括数据X_k和目标变量t_k（k=1至N）的对。数据X_k表示第k个图像数据（图像#k）。目标变量t_k是这样的变量：当图像#k是“海”的图像时，其为1；而当图像#k不是“海”的图像时，其为0。

在图2的示例中，图像#1是“海”的图像；图像#2是“海”的图像；…，图像#N不是“海”的图像。在该情况下，目标变量t_k是t₁＝1，t₂=1，…以及t_N=0。当输入学习数据集时，信息处理设备10基于所输入的学习数据集执行机器学习，并且构造输出估计值y的估计器，该估计值y表示输入图像的“海的概率”。输入图像的“海的概率”越高，则估计值y越接近1；而当“海的概率”越低时，估计值y越接近0。

当输入新的输入数据X（图像X）时，信息处理设备10将图像X输入到使用学习数据集所构造的估计器中，并且计算表示图像X的“海的概率”的估计值y。通过使用估计值y，可以识别图像X是否是“海”的图像。例如，当估计值y≥（预定阈值Th）时，输入图像X被识别为“海”的图像。另一方面，当估计值y＜（预定阈值Th）时，输入图像X被识别为非“海”的图像。

实施例涉及用于自动地构造如上所述的估计器的技术。注意，以上已经描述了用于构造图像识别器的估计器。然而，根据实施例的技术可应用于关于各种估计器的自动构造方法。例如，根据实施例的技术可应用于构造语言分析器，或者应用于分析音乐的旋律线和/或码进行（codeprogression）的音乐分析器。另外，根据实施例的技术可应用于再现自然现象（诸如，蝴蝶和/或云的移动）的移动预测器。

根据实施例的技术可应用于在例如JP-A-2009-48266、日本专利申请第2010-159598号、日本专利申请第2010-159597号、日本专利申请第2009-277083号、日本专利申请第2009-277084号等中公开的算法。另外，根据实施例的技术可应用于诸如AdaBoost的集成学习方法或者诸如其中使用Kernel的SVM或SVR的学习方法。当根据实施例的技术应用于诸如AdaBoost的集成学习方法时，弱学习器对应于以下将描述的基函数φ。另外，当根据本实施例的技术应用于诸如SVM或SVR的学习方法时，Kernel对应于以下将描述的基函数φ。SVM是支持向量机的缩写；SVR是支持向量回归的缩写；以及RVM是相关向量机的缩写。

参照图3，对估计器的结构进行描述。如图3所示，估计器被配置成包括基函数列表（φ₁,…,φ_M）和估计函数f。基函数列表（φ₁,…,φ_M）包括M个基函数φ_k（k=1至M）。基函数φ_k是响应于输入数据X的输入而输出特征量z_k的函数。估计函数f是响应于特征量向量Z=（z₁，...,z_M）的输入而输出估计值y的函数，该特征量向量Z包括M个特征量z_k（k=1至M）作为元素。基函数φ_k是通过组合先前准备的一个或多个处理函数而生成的。

对于处理函数，例如，可使用三角函数、指数函数、四则运算、数字滤波器、微分算子、中值滤波器、归一化计算、白噪声的附加处理、图像处理滤波器。例如，当输入数据X是图像时，使用基函数φ_j(X)=AddWhiteNoise(Median(Blur(X)))，其中组合白噪声的附加处理AddWhiteNoise()、中值滤波器Median()、模糊处理Blur()等。基函数φ_j表示按顺序对输入数据X进行模糊处理、中值滤波器处理以及白噪声的附加处理。

（1-1-2：构造处理流程）

通过基于学习数据集的机器学习来确定基函数φ_k（k=1至M）的配置、基函数列表的配置以及估计函数f的配置。将详细描述通过机器学习进行的估计器的构造处理。

（完整配置）

参照图4，对完整处理流程进行描述。图4是示出整个处理流程的流程图。以下处理由信息处理设备10来执行。

如图4所示，首先将学习数据集输入信息处理设备10中（S101）。数据X和目标变量t的对被输入作为学习数据。当输入学习数据集时，信息处理设备10组合处理函数以生成基函数（S102）。随后，信息处理设备10将数据X输入到基函数中并且计算特征量向量Z（S103）。随后，信息处理设备10估计基函数并生成估计函数（S104）。

随后，信息处理设备10确定是否满足预定终止条件（S105）。当满足预定终止条件时，信息处理设备10使处理前进到步骤S106。另一方面，当不满足预定终止条件时，信息处理设备10将处理返回到步骤S102，并且重复处理步骤S102至S104。当处理进行到步骤S106时，信息处理设备10输出估计函数（S106）。如上所述，重复处理步骤S102至S104。在以下描述中，在第τ次重复处理中，在步骤S102中所生成的基函数将被称为第τ代基函数。

（基函数的生成（S102））

这里，参照图5至图10，对步骤S102中的处理（基函数的生成）进行详细描述。

参照图5，信息处理设备10确定当前的代是否是第二代以后（S111）。即，信息处理设备10确定正要执行的步骤S102中的处理是否是从第二次以后的重复开始的重复处理。当该处理是第二代时，信息处理设备10使处理前进到步骤S113。另一方面，当该处理不是第二代以后时（当该处理是第一代时），信息处理设备10使处理前进到步骤S112。当处理进行到步骤S112时，信息处理设备10随机地生成基函数（S112）。另一方面，当处理进行到步骤S113时，信息处理设备10进化生成基函数（S113）。当步骤S112或S113中的处理完成时，信息处理设备10终止步骤S102中的处理。

（S112：基函数的随机生成）

参照图6和图7，对步骤S112中的处理进行更详细的描述。步骤S112中的处理涉及第一基函数的生成处理。

参照图6，信息处理设备10开始与基函数的索引m（m=0至M-1）相关的处理循环（S121）。随后，信息处理设备10随机地生成基函数φ_m(x)（S122）。随后，信息处理设备10确定基函数的索引m是否已达到M-1。当基函数的索引m尚未达到M-1时，信息处理设备10使基函数的索引m递增，并且将处理返回到步骤S121（S124）。另一方面，当基函数的索引m是m=M-1时，信息处理设备10终止处理循环（S124）。当在步骤S124中终止处理循环时，信息处理设备10完成步骤S112中的处理。

（步骤S122的详细描述）

参照图7，对步骤S122中的处理进行详细描述。

如图7所示，当在步骤S122中开始处理时，信息处理设备10随机地确定基函数的原型（S131）。对于原型，除了以上已经描述的处理函数之外，可使用诸如线性项、高斯核和S形核的处理函数。随后，信息处理设备10随机地确定所确定的原型的参数，并且生成基函数（S132）。

（S113：基函数的进化生成）

参照图8至图10，对步骤S113中的处理进行更详细的描述。步骤S113中的处理涉及用于生成第τ代（τ>2或更大）基函数的处理。在执行步骤S113中的处理之前，已获得第（τ-1）代基函数φ_m，τ-1（m=1至M）和基函数φ_m，τ-1的评价值v_m,τ-1。

参照图8，信息处理设备10更新基函数的数量M（S141）。即，信息处理设备10确定第τ代基函数的数量M_τ。随后，信息处理设备10基于关于第（τ-1）代基函数φ_m，τ-1（m=1至M）的评估值v_τ-1={v_1，τ-1,…,v_M,τ-1}，从（τ-19）代基函数中选择e个有用的基函数，并且对第τ代基函数φ_1，τ，...,φ_e,τ进行相同设置（S142）。

随后，信息处理设备10从交叉、突变、随机生成中随机地选择用于生成剩余（M_τ-e个）基函数φ_e+1,τ，...,φ_Mτ，τ的方法。当选择交叉时，信息处理设备10使处理前进到步骤S144。当选择突变时，信息处理设备10使处理前进到步骤S145。当选择随机生成时，信息处理设备10使处理前进到步骤S146。

当处理进行到步骤S144时，信息处理设备10根据在步骤S142中选择的所选基函数φ_1，τ，...,φ_e，τ来交叉基函数，并且生成新的基函数φ_m',τ(m'≥e+1)（S144）。当处理进行到步骤S145时，信息处理设备10根据在步骤S142中选择的所选基函数φ_1，τ，...,φ_e，τ来使基函数突变，并生成新的基函数φ_m′，τ(m'≥e+1)（S145）。另一方面，当处理进行到步骤S146时，信息处理设备10随机地生成新的基函数φ_m',τ(m'≥e+1)（S146）。

当完成步骤S144、S145和S146中的任意步骤的处理时，信息处理设备10使处理前进到步骤S147。在使处理前进到步骤S147之后，信息处理设备10确定第τ代基函数是否达到M（M=M_τ）（S147）。当第τ代基函数尚未达到M时，信息处理设备10再次将处理返回到步骤S143。另一方面，当第τ代基函数已达到M时，信息处理设备10终止步骤S113中的处理。

（S144的详细描述：交叉）

参照图9，对步骤S144中的处理进行详细描述。

如图9所示，在开始步骤S144中的处理之后，信息处理设备10从在步骤S142中选择的基函数φ_1，τ，...,φ_e，τ中随机选择具有相同原型的两个基函数（S151）。随后，信息处理设备10对所选择的两个基函数所拥有的参数进行交叉以生成新的基函数（S152）。

（S145的详细描述：突变）

参照图10，对步骤S145中的处理进行详细描述。

如图10所示，在开始步骤S145中的处理之后，信息处理设备10从在步骤S142中选择的基函数φ_1，τ，...,φ_e，τ中随机选择基函数（S161）。随后，信息处理设备10随机地改变所选择的基函数所拥有的一部分参数以生成新的基函数（S162）。

（S146的详细描述：随机生成）

参照图7，对步骤S146中的处理进行详细描述。

在开始步骤S122中的处理之后，信息处理设备10随机地确定基函数的原型（S131）。对于该原型，除了以上已描述的处理函数之外，可使用诸如线性项、高斯核、S形核等的处理函数。随后，信息处理设备10随机地确定所确定的原型的参数以生成基函数（S132）。

已对步骤S102中的处理（基函数的生成）进行了详细描述。（基函数的计算（S103））

随后，参照图11，对步骤S103中的处理（基函数的生成）进行详细描述。

如图11所示，信息处理设备10开始与包括在学习数据集中的第i个数据X⁽ⁱ⁾的索引i相关的处理循环（S171）。例如，当N个数据对{X⁽¹⁾，...,X^(N)}被输入作为学习数据集时，关于i=1至N执行处理循环。随后，信息处理设备10开始关于基函数φ_m的索引m的处理循环（S172）。例如，当生成M个基函数时，关于m=1至M执行处理循环。

随后，信息处理设备10计算特征量z_mi=φ_m(x⁽ⁱ⁾)（S713）。随后，信息处理设备10使处理前进到步骤S174，并且继续关于基函数的索引m的处理循环。当关于基函数的索引m的处理循环终止时，信息处理设备10使处理前进到步骤S175并且继续关于索引i的处理循环。当关于索引i的处理循环终止时，信息处理设备10终止步骤S103中的处理。

已对步骤S103中的处理（基函数的计算）进行了详细描述。

（基函数的评价/估计函数的生成（S104））

参照图12，对步骤S104中的处理（基函数的评价/估计函数的生成）进行详细描述。

如图12所示，信息处理设备10通过基于AIC参考的增大和减小方法的回归/辨别学习来计算估计函数的参数w={w₀，...,w_M}（S181）。即，信息处理设备10通过回归/辨别学习来计算向量w=={w₀,…,w_M}，以使得特征量z_mi=φ_m,τ(x⁽ⁱ⁾)和目标变量t⁽ⁱ⁾的对根据估计函数f彼此适合。其中，估计函数f(x)是f(x)=∑w_mφ_m，τ(x)+w₀。随后，信息处理设备10设置参数w为0的基函数的评价值v，并且将其它基函数的评价值v设置为1（S182）。即，评价值v为1的基函数是有用的基函数。

已对步骤S104中的处理（基函数的评价/估计函数的生成）进行了详细描述。

与估计器构造相关的处理流程如上所述。因此，重复从步骤S102至S104的处理，并且通过进化技术顺序地更新基函数，从而获得具有高估计精度的估计函数。即，通过应用上述方法，自动地构造高性能估计器。

[1-2.用于实现在线学习]

在通过机器学习自动地构造估计器的算法的情况下，学习数据的数量越大，所构造的估计器的性能就越高。因此，优选地通过使用尽可能多的学习数据来构造估计器。然而，用于存储学习数据的信息处理设备10的存储器容量是有限的。另外，当学习数据的数量较大时，实现估计器构造需要较高的计算性能。由于这样的原因，只要使用通过批处理来构造估计器的上述方法（下文中称为离线学习），估计器的性能就受到信息处理设备10所保持的资源的限制。

本技术的发明人已做出能够顺序地添加学习数据的配置（下文中称为在线学习）。沿着图13所示的处理流程来执行通过在线学习进行的估计器构造。首先，如图13所示，将学习数据集输入到信息处理设备10中（步骤1）。随后，信息处理设备10使用所输入的学习数据集来通过上述估计器自动构造方法来构造估计器（步骤2）。

随后，信息处理设备10顺序地或者在预定的定时获得所添加的学习数据（步骤3）。随后，信息处理设备10集成在（步骤1）中所输入的学习数据集和在（步骤3）中所获得的学习数据（步骤4）。此时，信息处理设备10执行学习数据的采样处理和/或加权处理，以生成集成的学习数据集。信息处理设备10使用集成的学习数据集，并且构造新的估计器（步骤2）。此时，信息处理设备10使用上述估计器自动构造方法来构造估计器。

可在每次进行构造时输出在（步骤2）中所构造的估计器。重复从（步骤2）至（步骤4）的处理。在每次重复处理时更新学习数据集。例如，当在每次重复处理时添加学习数据时，用于估计器的构造处理的学习数据的数量增加，从而提高了估计器的性能。然而，由于信息处理设备10的资源具有限制，因此在（步骤4）中执行的对学习数据的集成处理中，需要精心设计集成方法以使得更有用的学习数据用于估计器构造。

（问题的总结）

如图14所示，当应用离线学习时，由于用于估计器的构造处理的学习数据的数量是有限的，因此对于进一步改进估计器的性能存在限制。另一方面，通过应用在线学习，由于可以添加学习数据，因此期望可以进一步改进估计器的性能。然而，由于信息处理设备10的资源具有限制，因此为了在有限的资源内进一步改进估计器的性能，需要精心设计学习数据的集成方法。已做出以下根据实施例的技术来解决上述问题。

<2：实施例>

以下将描述本技术的实施例。

[2-1：信息处理设备10的功能配置]

参照图15和图16，对根据本实施例的信息处理设备10的功能配置进行描述。图15是示出根据本实施例的信息处理设备10的整个功能配置的图。另一方面，图16是示出根据本实施例的估计器构造部12的整个功能配置的图。

（整个功能配置）

参照图15，对整个功能配置进行描述。如图15所示，信息处理设备10被配置成主要包括学习数据获得部11、估计器构造部12、输入数据获得部13以及结果识别部14。

当估计器的构造处理开始时，学习数据获得部11获得用于估计器构造的学习数据。例如，学习数据获得部11读取存储在存储装置（未示出）中的学习数据。或者，学习数据获得部11经由网络从提供学习数据的系统获得学习数据。另外，学习数据获得部11可获得附有标签的数据，并且基于标签生成包括数据和目标变量的对的学习数据。

学习数据获得部11获得的学习数据的集合（学习数据集）被输入到估计器构造部12。当输入学习数据集时，估计器构造部12基于所输入的学习数据集通过机器学习来构造估计器。例如，估计器构造部12通过使用基于上述遗传算法的估计器自动构造方法来构造估计器。当从学习数据获得部11输入所添加的学习数据时，估计器构造部12集成学习数据并且通过使用所集成的学习数据集来构造估计器。

估计器构造部12构造的估计器被输入到结果识别部14中。估计器用于获得关于任意输入数据的识别结果。当输入数据获得部13获得作为识别对象的输入数据时，所获得的输入数据被输入到结果识别部14中。当输入了输入数据时，结果识别部14将输入数据输入到估计器中，并且基于从估计器输出的估计值来生成识别结果。例如，如图1所示，结果识别部14将估计值y与预定阈值Th进行比较，并且根据比较结果输出识别结果。

以上对信息处理设备10的整个功能配置进行了描述。

（估计器构造部12的功能配置）

参照图16，对估计器构造部12的功能配置进行详细描述。如图16所示，估计器构造部12被配置成包括基函数列表生成部121、特征量计算部122、估计函数生成部123以及学习数据集成部124。

当估计器的构造处理开始时，基函数列表生成部121生成基函数列表。基函数列表生成部121生成的基函数列表被输入到特征量计算部122。另外，学习数据集被输入到特征量计算部122。当输入了基函数列表和学习数据集时，特征量计算部122将包括在所输入的学习数据集中的数据输入到包括在基函数列表中的基函数中以计算特征量。特征量计算部122算出的特征量对（特征量向量）被输入到估计函数生成部123。

当输入特征量向量时，估计函数生成部123基于构成所输入的特征量向量和学习数据的目标变量、通过回归/辨别学习来生成估计函数。当应用基于遗传算法的估计器构造方法时，估计函数生成部123计算每个基函数对于所生成的估计函数的贡献率（评价值），以基于贡献率确定是否满足终止条件。当满足终止条件时，估计函数生成部123输出包括基函数列表和估计函数的估计器。

另一方面，当不满足终止条件时，估计函数生成部123向基函数列表生成部121通知各个基函数对于所生成的估计函数的贡献率。在接收到该通知时，基函数列表生成部121通过遗传算法基于各个基函数的贡献率来更新基函数列表。当更新了基函数列表时，基函数列表生成部121将更新后的基函数列表输入到特征量计算部122。当输入了更新后的基函数列表时，特征量计算部122使用更新后的基函数列表来计算特征量向量。特征量计算部122算出的特征量向量被输入到估计函数生成部123。

如上所述，当应用基于遗传算法的估计器构造方法时，重复执行估计函数生成部123对估计函数的生成处理、基函数列表生成部121对基函数列表的更新处理以及特征量计算部122对特征量向量的计算处理，直至满足终止条件为止。当满足终止条件时，从估计函数生成部123输出估计器。

当输入添加的学习数据时，所输入的添加的学习数据被输入到特征量计算部122和学习数据集成部124。当输入添加的学习数据时，特征量计算部122将构成添加的学习数据的数据输入到包括在基函数列表中的各个基函数中，以生成特征量。对应于添加的学习数据的特征量向量和对应于现有学习数据的特征量向量被输入到学习数据集成部124中。现有学习数据也被输入到学习数据集成部124中。

学习数据集成部124基于以下将描述的学习数据集成方法来集成现有的学习数据集和添加的学习数据。例如，学习数据集成部124使学习数据稀疏化和/或为学习数据设置权重，以使得特征量空间中由特征量向量表示的坐标（下文中称为特征量坐标）的分布导致预定分布。当学习数据被稀疏化时，使用稀疏化后的学习数据集作为集成后的学习数据集。另一方面，当为学习数据设置权重时，通过估计函数生成部123进行的回归/辨别学习来考虑为每个学习数据设置的权重。

当集成了学习数据时，通过使用集成后的学习数据集来执行估计器的自动构造处理。具体地，集成后的学习数据集和与包括在集成后的学习数据集中的学习数据对应的特征量向量从学习数据集成部124输入到估计函数生成部123中，并且估计函数生成部123生成估计函数。另外，当应用基于遗传算法的估计器构造方法时，通过使用集成后的学习数据集来执行贡献率的计算和基函数列表的更新。

已对估计器构造部12的功能配置进行了详细描述。

[2-2：学习数据集成方法]

随后，对根据实施例的学习数据集成方法进行描述。通过学习数据集成部124的功能来实现此处描述的学习数据集成方法。

（2-2-1：特征量空间中的学习数据分布和估计器的精度）

参照图17，考虑了特征量空间中的学习数据分布与估计器的精度之间的关系。图17是示出特征量空间中的学习数据分布的示例的图。

通过将构成学习数据的数据输入到包括在基函数列表中的每个基函数中来获得特征量向量。即，学习数据对应于一个特征量向量（特征量坐标）。因此，特征量坐标的分布在这里称为特征量空间中的学习数据分布。特征量空间中的学习数据分布例如如图17所示。为了说明的目的，在图17所示的示例中，给出了二维特征量空间的示例。然而，特征量空间的维数不限于上述。

参照图17所示的示例中的特征量坐标的分布，在第四象限中存在稀疏区域。如上所述，通过对每个学习数据的回归/辨别学习来生成估计函数，从而良好地表示特征量向量与目标变量之间的关系。因此，关于特征量坐标的密度稀疏的稀疏区域，估计函数无法良好地表示特征量向量与目标变量之间的关系的可能性较高。因此，当与作为识别处理对象的输入数据对应的特征量坐标位于稀疏区域中时，几乎不能期望获得高精度识别结果。

如图18所示，当学习数据的数量增加时，稀疏区域被消除，并且即使当可输入对应于输入数据的任意区域时，也期望获得能够以高精度输出识别结果的估计器。另外，即使当学习数据的数量相对小时，在特征量坐标均匀地分布在特征量空间中时，也期望可以获得能够以高精度输出识别结果的估计器。在这样的情形下，本技术的发明人做出这样的配置：其中，当集成学习数据时，考虑特征量坐标的分布，以使得与集成后的学习数据集对应的特征量坐标的分布具有预定分布（例如，均匀分布、高斯分布等）。

（2-2-2：数据集成时的采样配置）

参照图19，对采样学习数据的方法进行描述。图19是示出对学习数据进行采样的方法的图。

如上所述，当应用在线学习时，由于可以顺序地添加学习数据，因此可以通过使用大量学习数据来构造估计器。然而，当信息处理设备10的存储器资源具有限制时，需要减少在集成学习数据时用于估计器构造的学习数据的数量。此时，学习数据不是随机地被稀疏化，而是通过在考虑特征量坐标的分布的同时来使学习数据稀疏化，可以在不破坏估计器的精度的情况下减少学习数据的数量。例如，如图19所示，在密集区域中，多个特征量坐标被稀疏化；而在稀疏区域中，特征量坐标被尽可能多地留下。

通过使用上述方法使学习数据稀疏化，使得与集成后的学习数据集对应的特征量坐标的密度均衡化。即，尽管减少了学习数据的数量，但是由于特征量坐标均匀地分布在整个特征量空间中，因此当执行回归/辨别学习以生成估计函数时，将特征量空间的全部纳入考虑。结果，甚至当信息处理设备10的存储器资源有限时，也可以构造能够以高精度估计识别结果的估计器。

（2-2-3：数据集成时的加权配置）

随后，对用于为学习数据设置权重的方法进行描述。

当信息处理设备10的存储器资源有限时，在集成数据时使学习数据稀疏化的方法是有效的。另一方面，当存储器资源具有足够的容量时，替代使学习数据稀疏化，可以通过为学习数据设置权重来提高估计器的性能。例如，对于包括稀疏区域中的特征量坐标的学习数据，设置较大的权重；而对于包括密集区域中的特征量坐标的学习数据，设置较小的权重。当执行回归/辨别学习以生成估计函数时，将为每个学习数据设置的权重纳入考虑。

（2-2-4：数据集成时的采样和加权的配置）

可组合对学习数据进行采样的方法和为学习数据设置权重的方法。例如，在使得学习数据稀疏化以获得特征量坐标的预定分布之后，为包括在稀疏化后的学习数据集中的学习数据设置与特征量坐标的密度对应的权重。因此，通过组合稀疏化处理和加权处理，即使当存储器资源具有限制时也可以获得具有较高精度的估计器。

[2-3：有效采样/加权方法]

随后，对学习数据的有效采样/加权方法进行描述。

（2-3-1：采样方法）

参照图20，对学习数据的有效采样方法进行描述。图20是示出学习数据的有效采样方法的图。

如图20所示，信息处理设备10通过使用特征量计算部122的功能来计算关于每个学习数据的特征量向量（特征量坐标）（S201）。随后，信息处理设备10通过特征量计算部122的功能对所算出的特征量坐标进行归一化（S202）。例如，如图21所示，特征量计算部122对关于每个特征量的值进行归一化，以使得方差为1并且平均值为0。如此已被归一化的特征量坐标被输入到学习数据集成部124。

随后，信息处理设备10通过使用学习数据集成部124的功能来随机地生成哈希函数“g”（S203）。例如，学习数据集成部124生成输出以下公式（1）所示的5位值的多个哈希函数“g”。此时，学习数据集成部124生成Q个哈希函数g_q（q=1至Q）。其中，函数h_j（j=1至5）由以下公式（2）来定义。另外，“d”和Threshold由随机数来确定。

当使得特征量坐标的分布更接近均匀分布时，均匀随机数用作用于确定Threshold的随机数。当使得特征量坐标的分布更接近高斯分布时，高斯随机数用作用于确定Threshold的随机数。其它分布与上述相同。“d”是通过使用作为与用于计算z_d的基函数的贡献率对应的偏差（bias）的随机数来确定的。例如，对于用于计算z_d的基函数的较大贡献率，使用生成d的概率较高的随机数。

g(Z)＝{h₁(Z)，h₂(Z)，h₃(Z)，h₄(Z)，h₅(Z)}

…(1)

h_{j} (Z) = \{\begin{matrix} 1 & (z_{d} > Threshold) \\ 0 & (z_{d} \leq Threshold) \end{matrix}

…(2)

在生成哈希函数g_q（q=1至Q）之后，学习数据集成部124将与各个学习数据对应的特征量向量Z输入到哈希函数g_q中以计算哈希值。学习数据集成部124基于所算出的哈希值而将学习数据分配给桶（bucket）（S204）。用语“桶”在这里表示与可能为哈希值的值相关联的区域。

例如，假设哈希值为5位且Q=256的情况。在该情况下，桶的配置如图22所示。如图22所示，由于哈希值是5位，因此为一个哈希函数g_q分配32个桶（在下文中，称为桶集）。另外，由于Q=256，因此分配了256个桶集。以该情况为例，将对将学习数据分配给桶的方法进行描述

当给出与学习数据对应的特征量向量Z时，通过使用256个哈希函数g₁至g₂₅₆来计算256个哈希值。例如，当g₁(Z)=2（以十进制数表示）时，学习数据集成部124将学习数据分配给在对应于g₁的桶集中与2对应的桶。同样地，计算g_q(Z)（q=2至256），并且将学习数据分配给对应于各个值的桶。在图22所示的示例中，两种不同的学习数据以白色圆圈和黑色圆圈来表示，并且示意性地表示了与各个桶的对应关系。

在将学习数据分配给桶之后，学习数据集成部124按预定顺序从桶中选择一个学习数据（S205）。例如，学习数据集成部124如图23所示那样从左上方开始对桶进行扫描（哈希函数的索引q越小，则分配给桶的值越小）并且选择分配给桶的一个学习数据。

从桶中选择学习数据的规则如图24所示。第一，学习数据集成部124跳过空桶。第二，当选择了一个学习数据时，学习数据集成部124从其它桶消除相同的学习数据。第三，当多个学习数据被分配给一个桶时，学习数据集成部124随机地选择一个学习数据。学习数据集成部124保持所选择的学习数据的信息。

在选择一个学习数据之后，学习数据集成部124确定是否已选择预定数量的学习数据（S206）。当已选择预定数量的学习数据时，学习数据集成部124输出所选择的预定数量的学习数据作为集成后的学习数据集，并且终止与学习数据的集成相关的一系列处理。另一方面，当尚未选择预定数量的学习数据时，学习数据集成部124使处理前进到步骤S205。

以上描述了学习数据的有效采样方法。特征量空间与桶之间的对应关系在图25中的虚构图示中示出。通过使用以上方法对学习数据的采样结果例如在图26中示出（均匀分布的示例）。参照图26，表明了稀疏区域中所包括的特征量坐标按原样保留；并且密集区域中所包括的特征量坐标被稀疏化。应注意，当没有使用上述桶时，对用于对学习数据进行采样的学习数据集成部124施加了相当大的计算负荷。

（2-3-2：加权方法）

参照图27，以下对学习数据的有效加权方法进行描述。图27是示出学习数据的有效加权方法的图。

如图27所示，信息处理设备10通过使用特征量计算部122的功能来计算关于每个学习数据的特征量向量（特征量坐标）（S211）。随后，信息处理设备10通过特征量计算部122的功能来对所算出的特征量坐标进行归一化（S212）。例如，如图21所示，特征量计算部122对关于每个特征量的值进行归一化，以使得方差为1并且平均值为0。如此已被归一化的特征量坐标被输入到学习数据集成部124。

随后，信息处理设备10通过使用学习数据集成部124的功能来随机地生成哈希函数“g”（S213）。例如，学习数据集成部124生成多个输出以上公式（1）所示的5位值的哈希函数“g”。此时，学习数据集成部124生成Q个哈希函数g_q（g=1至Q）。其中，函数h_j（j=1至5）由以上公式（2）来定义。另外，“d”和Threshold由随机数来确定。

当使得特征量坐标的分布更接近均匀分布时，将均匀随机数用作用于确定Threshold的随机数。当使得特征量坐标的分布更接近高斯分布时，将高斯随机数用作用于确定Threshold的随机数。其它分布与上述相同。“d”是通过使用作为与用于计算z_d的基函数的贡献率对应的偏差的随机数来确定的。例如，对于用于计算z_d的基函数的较大贡献率，使用生成d的概率较高的随机数。

在生成哈希函数g_q（q=1至Q）之后，学习数据集成部124将与各个学习数据对应的特征量向量Z输入到哈希函数g_q中以计算哈希值。学习数据集成部124基于所算出的哈希值而将学习数据分配给桶（S214）。随后，学习数据集成部124计算关于每个学习数据的密度（S215）。假设例如如图28所示将学习数据分配给桶。这里关注以白色圆圈表示的学习数据。

在该情况下，学习数据集成部124关于与哈希函数对应的桶集，对分配给包括白色圆圈的桶的学习数据的数量进行计数。例如，参考与哈希函数g₁对应的桶集，分配给包括白色圆圈的桶的学习数据的数量是1。同样地，参考与哈希函数g₂对应的桶集，分配给包括白色圆圈的桶的学习数据的数量是2。学习数据集成部124关于与哈希函数g₁至g₂₅₆对应的桶集，对分配给包括白色圆圈的桶的学习数据的数量进行计数。

学习数据集成部124计算所计数得到的数量的平均值并且采用所算出的平均值作为与白色圆圈对应的学习数据的密度。同样地，学习数据集成部124计算每个学习数据的密度。各个学习数据的密度如图29B所示那样表示。颜色深的区域的密度较高，而颜色浅的区域的密度较低。

在计算关于每个学习数据的密度之后，学习数据集成部124使处理前进到步骤S217（S216）。当处理进行到步骤S217时，学习数据集成部124根据所算出的密度计算要为每个学习数据设置的权重（S217）。例如，学习数据集成部124将密度的倒数设置为权重。关于每个学习数据设置的权重的分布如图30B所示那样表示。颜色深的区域的密度较高，而颜色浅的区域的密度较低。参照图30，表明密集区域的权重较小，而稀疏区域中的权重较大。

在如此计算要为每个学习数据设置的权重之后，学习数据集成部124终止一系列加权处理。以上已描述了学习数据的有效加权方法。应注意，如果不使用上述桶，则对学习数据进行加权所需的计算负荷变得相当大。

（2-3-3：组合方法）

参照图31，对上述有效采样方法和有效加权方法的组合方法进行描述。图31是示出上述有效采样方法和有效加权方法的组合方法的流程图。

如图31所示，学习数据集成部124执行学习数据的采样处理（S221）。沿着图20所示的处理流程来执行采样处理。当获得预定数量的学习数据时，学习数据集成部124对所获得的学习数据执行加权处理（S222）。沿着图27所示的处理流程执行加权处理。可利用在采样处理期间算出的特征量向量和/或哈希函数。在执行采样处理和加权处理之后，学习数据集成部124终止一系列处理。

以上已描述了学习数据的有效采样/加权方法。对有效采样/加权方法进行了描述以有效地使得特征量坐标的分布更接近预定分布。然而，利用桶对数据的采样/加权方法的应用范围不限于上述。例如，关于任意数据组，在基于哈希函数将数据分配给桶之后，通过根据图24所示的规则从桶对数据进行采样，从而可以有效地使得任意数据的组的分布更接近预定分布。这对于加权处理是相同的。

[2-4：关于采样处理和加权处理的变型]

随后，以下对关于采样处理和加权处理的变型进行描述。

（2-4-1：变型1（基于距离的处理））

参照图32，以下对基于特征量坐标之间的距离的学习数据采样方法进行描述。图32是示出基于特征量坐标之间的距离的学习数据采样方法的流程图。

如图32所示，学习数据集成部124随机地选择一个特征量坐标（S231）。学习数据集成部124将索引j初始化为1（S232）。随后，学习数据集成部124从尚未选择的J个特征量坐标中将第j个特征量坐标设置为目标坐标（S233）。学习数据集成部124计算已经选择的每个特征量坐标与对象坐标之间的距离（S234）。随后，学习数据集成部124提取所算出的距离D的最小值D_min（S235）。

随后，学习数据集成部124确定是否j=J（S236）。当j=J时，学习数据集成部124使处理前进到步骤S237。另一方面，当j≠J时，学习数据集成部124使处理前进到步骤S233。当处理进行到步骤S237时，学习数据集成部124选择最小值D_min最大的对象坐标（特征量坐标）（S237）。随后，学习数据集成部124确定在步骤S231和S237中所选择的特征量坐标的数量是否已达到预定数量（S238）。

当在步骤S231和S237中所选择的特征量坐标的数量已达到预定数量时，学习数据集成部124输出与所选择的特征量坐标对应的学习数据作为集成后的学习数据集，并且终止一系列处理。另一方面，当在步骤S231和S237中所选择的特征量坐标的数量尚未达到预定数量时，学习数据集成部124使处理前进到步骤S232。

以上已描述了基于特征量坐标之间的距离的学习数据采样方法。

（2-4-2：变型2（基于聚类的处理））

随后，以下对基于聚类的学习数据采样/加权方法进行描述。在以下描述中，尽管将分开描述采样方法和加权方法，但是可将这些方法相互组合。

（学习数据的选择）

参照图33，以下对基于聚类的学习数据采样/加权方法进行描述。图33是示出基于聚类的学习数据采样方法的流程图。

如图33所示，学习数据集成部124将特征量向量分类成预定数量的聚类（S241）。对于聚类技术，例如，可使用k均值（k-means）方法、层级聚类（hierarchical clustering）等。随后，学习数据集成部124从各个聚类按顺序逐个选择特征量向量（S242）。学习数据集成部124输出与所选择的特征量向量对应的学习数据对作为集成后的学习数据集，并且终止一系列处理。

（权重的设置）

参照图34，以下对基于聚类的学习数据加权方法进行描述。图34是示出基于聚类的学习数据加权方法的流程图。

如图34所示，学习数据集成部124将特征量向量分类成预定数量的聚类（S251）。对于聚类技术，例如，可用k均值方法、层级聚类等。随后，学习数据集成部124对各个聚类的元素数量进行计数，并且计算元素数量的倒数（S252）。学习数据集成部124输出所算出的元素数量的倒数作为权重，并且终止一系列处理。

以上已描述了基于聚类的学习数据采样/加权方法。

（2-4-3：变型3（基于密度估计技术的处理））

以下对基于密度估计技术的学习数据采样/加权方法进行描述。在以下描述中，尽管将分开描述采样方法和加权方法，但是可将这些方法相互组合。

（学习数据的选择）

参照图35，以下对基于密度估计技术的学习数据采样方法进行描述。图35是示出基于密度估计技术的学习数据采样方法的流程图。

如图35所示，学习数据集成部124对特征量坐标的密度进行建模（S261）。对于对密度进行建模，例如，可使用诸如GMM（高斯混合模型）的密度估计技术。学习数据集成部124基于所构造的模型来计算各个特征量坐标的密度（S262）。学习数据集成部124以与密度的倒数成比例的概率从尚未选择的特征量坐标中随机地选择特征量坐标（S263）。

随后，学习数据集成部124确定是否已选择预定数量的特征量坐标（S264）。当尚未选择预定数量的特征量坐标时，学习数据集成部124使处理前进到步骤S263。另一方面，当已选择预定数量的特征量坐标时，学习数据集成部124输出与所选择的特征量坐标对应的学习数据对作为集成后的学习数据集，并且终止一系列处理。

（权重设置）

参照图36，以下对基于密度估计技术的学习数据加权方法进行描述。图36是示出基于密度估计技术的学习数据加权方法的流程图。

如图36所示，学习数据集成部124对特征量坐标的密度进行建模（S271）。对于对密度进行建模，例如，使用诸如GMM的密度估计技术。随后，学习数据集成部124基于所构造的模型计算各个特征量坐标的密度（S272）。学习数据集成部124将所算出的密度的倒数设置为权重，并且终止一系列处理。

以上已描述了基于密度估计技术的学习数据采样/加权方法。

<3：应用示例>

以下对应用根据实施例的技术的示例进行描述。根据实施例的技术可应用于较宽范围。根据实施例的技术应用于各种辨别器和分析器（诸如图像数据的辨别器、文本数据的辨别器、声音数据的辨别器、信号数据的辨别器等）的自动构造。以下对作为应用示例的、对于图像识别器的自动构造方法和语言分析器的自动构造方法的应用进行描述。

[3-1：图像识别器的自动构造方法]

参照图37，以下对对于图像识别器的自动构造方法的应用进行描述。图37是示出用于构造图像识别器的学习数据集的生成方法的图。用语“图像识别器”在这里表示如下算法：例如，当输入图像时，其自动识别该图像是否是“花”的图像、“天空”的图像还是“寿司”的图像。

在以上描述中，假设给出了被配置成包括数据“X”和目标变量“t”的学习数据。然而，当期望在线学习时，优选地从例如通过对网络服务进行爬行和抓取（crawl）而获得的信息（下文中称为所获得的信息）自动地生成学习数据集。例如，假设获得图37A所示的信息。所获得的信息被配置成包括图像和给予该图像的标签。当构造识别输入图像是否是例如“花”的图像的图像识别器时，信息处理设备10将目标变量t=1分配给标签包括“花”的图像，并且将目标变量t=0分配给除“花”之外的图像（参照图37中的表B）。

同样地，当构造识别输入图像是否是“天空”的图像的图像识别器时，信息处理设备10将目标变量t=1分配给标签包括“天空”的图像，并且将目标变量t=0分配给除上述之外的图像（参照图37中的表C）。另外，当构造识别输入图像是否是“寿司”的图像的图像识别器时，信息处理设备10将目标变量t=1分配给标签包括“寿司”的图像，并且将目标变量t=0分配给不除上述之外的图像（参照图37中的表D）。通过使用如上所述的标签，生成可以用于构造期望的图像识别器的学习数据集。

当生成了学习数据集时，可以通过执行以上已描述的学习数据的集成处理和估计器的构造处理来自动构造图像识别器（用于从估计值“y”获得识别结果的装置）所使用的估计器（用于估计值“y”的计算装置）。已描述了对于图像识别器的自动构造方法的应用。

[3-2：语言分析器的自动构造方法]

参照图38，对对于语言分析器的自动构造方法的应用进行描述。图38是示出用于构造语言分析器的学习数据集的生成方法的图。用语“语言分析器”在这里表示如下算法：当输入文本时，其自动识别文本是否与例如“政治”、“经济”或“娱乐”有关。

在以上描述中，假设给出被配置成包括数据“X”和目标变量“t”的学习数据。然而，当期望在线学习时，优选地，从例如通过对网络服务进行爬行和抓取而获得的信息（所获得的信息）自动地生成学习数据集。例如，假设获得图38A所示的信息。所获得的信息被配置成包括文本和给予该文本的标签。当构造识别输入文本是否是与例如“政治”有关的文本的语言分析器时，信息处理设备10将目标变量t=1分配给标签与“政治”有关的文本，并且将目标变量t=0分配给除“政治”之外的文本（参照图38中的表B）。

同样地，当构造识别输入文本是否是与“经济”有关的文本的语言分析器时，信息处理设备10将目标变量t=1分配给标签与“经济”有关的文本，并且将目标变量t=0分配给除上述之外的文本（参照图38中的C）。因此，通过使用标签，可以生成用于构造期望的语言分析器的学习数据集。当生成了学习数据集时，通过执行学习数据的上述集成处理和估计器的构造处理时，可以自动构造用于语言分析器（用于从估计值“y”获得识别结果的装置）的估计器（用于估计值“y”的计算装置）。

（在线学习的效果）

通过使用语言分析器的上述自动构造方法来进行实验。图39中示出了实验结果。在图39所示的曲线图中，横轴表示逝去时间（单位：天），并且纵轴表示平均F值（平均F度量）。实线（在线，1k）和虚线（在线，4k）表示利用通过在线学习顺序地连续更新的学习数据集的实验的结果。另一方面，链线（离线，1k）和点划线（离线，4k）表示通过离线学习的实验结果。1k表示用于估计器构造的学习数据的数量被设置为1000。另一方面，4k表示用于估计器构造的学习数据的数量被设置为4000。

如图39所表明的，用于估计器构造的较大数量的学习数据导致估计器的精度较高。在离线学习的情况下，精度不久就停止增加。相反，在在线学习的情况下，精度随时间过去而增加。在过去了特定时段之后，在线学习的结果显著优于离线学习的结果。根据以上实验结果，显而易见的是，可以通过利用在线学习更新学习数据集来实现估计器的高精度。尽管此处示出了语言分析器的自动构造方法的实验结果，但是期望可以通过其他识别器的自动构造方法来获得相同效果。

（效果的总结）

如上所述，通过实现在线学习，提高了估计器的精度。对于估计器构造技术，可使用各种方法，诸如在例如JP-A 2009-48266、日本专利申请第2010-159598号的描述、日本专利申请第2010-159597号的描述、日本专利申请第2009-277083号的描述、日本专利申请第2009-277084号的描述等中所述的算法。因此，在各种识别器中，可以提高精度。通过提供用于通过使用从网络服务等获得的信息自动生成学习数据集的配置，可以连续地提高估计器的精度而不需要维护。另外，通过顺序地更新学习数据集，由于使用新的学习数据集来不断地构造估计器，因此估计器可以灵活地对应于新标签的使用或标签含义伴随技术进步的变化。

<4：硬件配置的示例>

上述信息处理设备10中所包括的每个构成元件的功能可以通过使用例如图40所示的硬件配置来实现。即，可以通过使用计算机程序控制图40所示的硬件来实现各个构成元件的功能。可采用任意硬件配置，即，移动信息终端，诸如移动电话、PHS、PDA、游戏机或包括个人计算机的各种信息家用电子设备。以上的PHS是个人手持电话系统的缩写，并且以上的PDA是个人数字助理的缩写。

如图40所示，该硬件主要包括CPU 902、ROM 904、RAM 906、主机总线908和桥接器910。此外，该硬件包括外部总线912、接口914、输入单元916、输出单元918、存储单元920、驱动器922、连接端口924以及通信单元926。此外，CPU是中央处理单元的缩写。另外，ROM是只读存储器的缩写。此外，RAM是随机存取存储器的缩写。

CPU 902用作例如算术处理单元或控制单元，并且基于记录在ROM904、RAM 906、存储单元920或可移动记录介质928上的各种程序控制各结构元件的整个操作或部分操作。ROM 904是用于存储例如要加载在CPU 902上的程序或在算术运算中使用的数据等的装置。RAM 906暂时地或永久地存储例如要加载在CPU 902上的程序或者在执行程序中任意改变的各种参数。

这些结构元件通过例如能够执行高速数据传输的主机总线908而连接到彼此。对于其部分，主机总线908通过桥接器910连接到例如数据传输速度相对低的外部总线912。此外，输入单元916是例如鼠标、键盘、触摸板、按钮、开关或控制杆（lever）。另外，输入单元916可以是可以通过使用红外射线或其它无线波传送控制信号的远程控制器。

例如，输出单元918是诸如CRT、LCD、PDP或ELD的显示设备、诸如扬声器或耳机的音频输出设备、打印机、移动电话或传真机，其可以在视觉上或听觉上向用户通知所获取的信息。此外，CRT是阴极射线管的缩写。LCD是液晶显示器的缩写。PDP是等离子显示面板的缩写。另外，ELD是电致发光显示器的缩写。

存储单元920是用于存储各种数据的设备。例如，存储单元920是诸如硬盘驱动器（HDD）的磁存储设备、半导体存储设备、光学存储设备或磁光存储设备。HDD是硬盘驱动器的缩写。

驱动器922是读取记录在可移动记录介质928（诸如磁盘、光盘、磁光盘或半导体存储器）上的信息或将信息写入可移动记录介质928的设备。可移动记录介质928例如是DVD介质、蓝光介质、HD-DVD介质、各种类型的半导体存储介质等。当然，可移动记录介质928可以例如是其上安装有非接触式IC芯片的电子设备或IC卡。IC是集成电路的缩写。

连接端口924是诸如USB端口、IEEE1394端口、SCS、RS-232C端口或用于连接外接设备930的端口（诸如光学音频端子）的端口。外接设备930例如是打印机、移动音乐播放器、数字摄像装置、数字摄像机或IC记录器。另外，USB是通用串行总线的缩写。另外，SCSI是小型计算机系统接口的缩写。

通信单元926是用于连接到网络932的通信设备，并且例如是用于有线或无线LAN、蓝牙（注册商标）或WUSB的通信卡、光通信路由器、ADSL路由器或各种通信调制解调器。连接到通信单元926的网络932由有线连接的或无线连接的网络构成，并且例如是因特网、家用LAN、红外通信、可见光通信、广播或卫星通信。另外，LAN是局域网的缩写。另外，WUSB是无线USB的缩写。此外，ADSL是非对称数字用户线路的缩写。

至此，已描述了硬件配置的示例。

<5：总结>

最后，对实施例的技术构思进行简要总结。以下技术构思可应用于各种信息处理设备，包括例如PC、移动电话、游戏机、信息终端、信息家用电子设备、汽车导航系统等。

上述信息处理设备的功能配置可如下来表示。例如，以下信息处理设备（1）调整特征量坐标的分布以使得特征量空间中的特征量坐标的分布变得更接近预定分布。特别地，如以下（2）所述，信息处理设备使学习数据稀疏化，以使得特征量空间中的特征量坐标的分布变得更接近预定分布。而且，如以下（3）所述，进行用于对各个学习数据进行加权的处理。不必说，如以下（4）所述，稀疏化处理和加权处理可彼此组合。通过应用以上方法使得特征量空间中的特征量坐标的分布更接近预定分布（例如，均匀分布或高斯分布），可以提高估计器的性能。

（1）一种信息处理设备，包括：

特征量向量计算部，当给出每一个均被配置成包括输入数据和对应于所述输入数据的目标变量的多个学习数据时，将所述输入数据输入到多个基函数中以计算特征量向量，其中所述特征量向量包括来自各个基函数的输出值作为元素；

分布调整部，调整特征量空间中由所述特征量向量指定的点的分布，以使得所述点的分布变得更接近预定分布；以及

函数生成部，关于所述多个学习数据，生成根据所述特征量向量的输入而输出所述目标变量的估计值的估计函数。

（2）根据（1）所述的信息处理设备，其中，所述分布调整部使所述学习数据稀疏化，以使得所述特征量空间中由所述特征量向量指定的所述点的分布变得更接近所述预定分布。

（3）根据（1）所述的信息处理设备，其中，所述分布调整部对每个所述学习数据进行加权，以使得所述特征量空间中由所述特征量向量指定的所述点的分布变得更接近所述预定分布。

（4）根据（1）所述的信息处理设备，其中，所述分布调整部使所述学习数据稀疏化并且对稀疏化之后剩余的每个学习数据进行加权，以使得所述特征量空间中由所述特征量向量指定的所述点的分布变得更接近所述预定分布。

（5）根据（1）至（4）中任一项所述的信息处理设备，其中，所述预定分布是均匀分布或高斯分布。

（6）根据（2）或（4）所述的信息处理设备，其中，当另外给出新的学习数据时，所述分布调整部使包括所述新的学习数据和现有学习数据的学习数据组稀疏化，以使得所述特征量空间中由所述特征量向量指定的所述点的分布变得更接近所述预定分布。

（7）根据（1）至（6）中任一项所述的信息处理设备，还包括：

基函数生成部，通过组合先前准备的多个函数来生成所述基函数。

（8）根据（7）所述的信息处理设备，其中，

所述基函数生成部基于遗传算法更新所述基函数，

当更新所述基函数时，所述特征量向量计算部将所述输入数据输入到更新后的基函数中以计算特征量向量，以及

所述函数生成部生成根据使用更新后的基函数算出的所述特征量向量的输入而输出所述目标变量的估计值的估计函数。

（9）一种估计器生成方法，包括：

当给出每一个均被配置成包括输入数据和对应于所述输入数据的目标变量的多个学习数据时，将所述输入数据输入到多个基函数中以计算特征量向量，其中所述特征量向量包括来自各个基函数的输出值作为元素；

调整特征量空间中由所述特征量向量指定的点的分布，以使得所述点的分布变得更接近预定分布；以及

关于所述多个学习数据，生成根据所述特征量向量的输入而输出所述目标变量的估计值的估计函数。

（10）一种用于使得计算机实现以下功能的程序：

特征量向量计算功能，当给出每一个均被配置成包括输入数据和对应于所述输入数据的目标变量的多个学习数据时，将所述输入数据输入到多个基函数中以计算特征量向量，其中所述特征量向量包括来自各个基函数的输出值作为元素；

分布调整功能，调整特征量空间中由所述特征量向量指定的点的分布，以使得所述点的分布变得更接近预定分布；以及

函数生成功能，关于所述多个学习数据，生成根据所述特征量向量的输入而输出所述目标变量的估计值的估计函数。

（注释）

上述特征量计算部122是特征量向量计算部的示例。上述学习数据集成部124是分布调整部的示例。上述估计函数生成部123是函数生成部的示例。上述基函数列表生成部121是基函数生成部的示例。

（1）一种信息处理设备，包括：

数据存储部，具有包括2^N个存储区域的M个区域组；

计算部，执行M次处理以通过将输入数据输入到第二函数来获得N位输出数据Q，所述第二函数包括随机输出0或1的N个第一函数并且输出从第k（k=1至N）个第一函数输出的值作为第k位值；

存储处理部，当在第m（m=1至M）次由所述计算部获得输出数据Q时，将所述输入数据存储在第m个区域组的第Q个存储区域中；以及

数据获得部，通过按预定顺序扫描所述存储区域，逐个地获得存储在所述存储区域中的输入数据，直到获得预定数量的输入数据为止，

其中，当与所获得的输入数据相同的输入数据存储在另一存储区域中时，所述数据获得部删除存储在所述另一存储区域中的输入数据，并且当多个输入数据存储在所述存储区域之一中时，所述数据获得部从所述多个输入数据随机地获得一个输入数据。

（2）根据（1）所述的信息处理设备，其中，

所述第一函数是以下函数：当所述输入数据大于阈值时输出1，而当所述输入数据小于所述阈值时输出0，以及

所述阈值由随机数来确定。

（3）根据（2）所述的信息处理设备，其中，

在所述输入数据是S维向量（S≥2）的情况下，所述第一函数是以下函数：当包括在所述输入数据中的第s维（s≤S）元素大于所述阈值时输出1，而当所述第s维元素小于所述阈值时输出0，以及

所述维数s由随机数来确定。

（4）根据（2）或（3）所述的信息处理设备，其中，用于确定所述阈值的随机数是均匀随机数或高斯随机数。

（5）一种信息处理设备，包括：

数据存储部，具有包括2^N个存储区域的M个区域组；

计算部，执行M次处理，以通过将输入数据输入到第二函数来获得N位输出数据Q，所述第二函数包括随机输出0或1的N个第一函数并且输出从第k（k=1至N）个第一函数输出的值作为第k位值，

密度计算部，关于存储与要处理的输入数据相同的输入数据的存储区域，计算每个存储区域所存储的输入数据的数量。

（6）一种信息处理方法，包括：

准备包括2^N个存储区域的M个区域组；

执行M次处理，以通过将输入数据输入到第二函数来获得N位输出数据Q，所述第二函数包括随机输出0或1的N个第一函数并且输出从第k（k=1至N）个第一函数输出的值作为第k位值；

当在第m（m=1至M）次获得输出数据Q时，将所述输入数据存储在第m个区域组的第Q个存储区域中；以及

通过按预定顺序扫描所述存储区域，逐个地获得存储在所述存储区域中的输入数据，直到获得预定数量的输入数据为止，

其中，在所述获得步骤中，当与所获得的输入数据相同的输入数据存储在另一存储区域中时，删除存储在所述另一存储区域中的输入数据，并且当多个输入数据存储在所述存储区域之一时，从所述多个输入数据随机地获得一个输入数据。

（7）一种信息处理方法，包括：

准备包括2N个存储区域的M个区域组；

关于存储与要处理的输入数据相同的输入数据的存储区域，计算每个存储区域所存储的输入数据的数量。

（8）一种用于使得计算机实现以下功能的程序：

数据存储功能，具有包括2^N个存储区域的M个区域组；

计算功能，执行M次处理以通过将输入数据输入到第二函数来获得N位输出数据Q，所述第二函数包括随机输出0或1的N个第一函数并且输出从第k（k=1至N）个第一函数输出的值作为第k位值；

存储处理功能，当在第m（m=1至M）次通过所述计算功能获得输出数据Q时，将所述输入数据存储在第m个区域组的第Q个存储区域中；

以及

数据获得功能，通过按预定顺序扫描所述存储区域，逐个地获得存储在所述存储区域中的输入数据，直到获得预定数量的输入数据为止，

其中，当与所获得的输入数据相同的输入数据存储在另一存储区域中时，所述数据获得功能删除存储在所述另一存储区域中的输入数据，并且当多个输入数据存储在所述存储区域之一中时，所述数据获得功能从所述多个输入数据随机地获得一个输入数据。

（9）一种用于使得计算机实现以下功能的程序：

数据存储功能，具有包括2^N个存储区域的M个区域组；

计算功能，执行M次处理，以通过将输入数据输入到第二函数来获得N位输出数据Q，所述第二函数包括随机输出0或1的N个第一函数并且输出从第k（k=1至N）个第一函数输出的值作为第k位值，

以及

密度计算功能，关于存储与要处理的输入数据相同的输入数据的存储区域，计算每个存储区域所存储的输入数据的数量。

（注释）

上述学习数据集成部124是数据存储部、计算部、存储处理部、数据获得部以及密度计算部的示例。上述桶是存储区域的示例。上述函数h是第一函数的示例。上述哈希函数g是第二函数的示例。

本领域技术人员应理解，在所附权利要求或其等同方案的范围内，根据设计要求和其它因素，可进行各种修改、组合、子组合和变更。

本公开内容包含与2011年9月8日向日本专利局提交的日本优先权专利申请JP 2011-196300和JP 2011-196301中公开的主题内容相关的主题内容，其全部内容通过引用合并于此。

Claims

1.一种信息处理设备，包括：

特征量向量计算部，当给出每一个均被配置成包括输入数据和对应于所述输入数据的目标变量的多个学习数据时，将所述输入数据输入到多个基函数中以计算特征量向量，所述特征量向量包括来自各个基函数的输出值作为元素；

2.根据权利要求1所述的信息处理设备，其中，所述分布调整部使所述学习数据稀疏化，以使得所述特征量空间中由所述特征量向量指定的所述点的分布变得更接近所述预定分布。

3.根据权利要求1所述的信息处理设备，其中，所述分布调整部对每个所述学习数据进行加权，以使得所述特征量空间中由所述特征量向量指定的所述点的分布变得更接近所述预定分布。

4.根据权利要求1所述的信息处理设备，其中，所述分布调整部使所述学习数据稀疏化并且对稀疏化之后剩余的每个学习数据进行加权，以使得所述特征量空间中由所述特征量向量指定的所述点的分布变得更接近所述预定分布。

5.根据权利要求1所述的信息处理设备，其中，所述预定分布是均匀分布或高斯分布。

6.根据权利要求2所述的信息处理设备，其中，当另外给出新的学习数据时，所述分布调整部使包括所述新的学习数据和现有学习数据的学习数据组稀疏化，以使得所述特征量空间中由所述特征量向量指定的所述点的分布变得更接近所述预定分布。

7.根据权利要求1所述的信息处理设备，还包括：

8.根据权利要求7所述的信息处理设备，其中，

所述基函数生成部基于遗传算法更新所述基函数，

9.一种估计器生成方法，包括：

10.一种用于使得计算机实现以下功能的程序：