CN101051215A

CN101051215A - 学习设备、学习方法和程序

Info

Publication number: CN101051215A
Application number: CNA2007100904059A
Authority: CN
Inventors: 南野活树; 伊藤真人; 河本献太; 吉池由纪子; 铃木洋贵
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-04-06
Filing date: 2007-04-06
Publication date: 2007-10-10
Anticipated expiration: 2027-04-06
Also published as: KR20070100160A; US20070239644A1; US7953683B2; JP2007280054A; CN100504675C

Abstract

本发明提供学习设备、学习方法和程序。一种学习设备包括：存储单元，其被配置为存储由多个各自保存动态状况的节点形成的网络；学习单元，其被配置为基于观察到的时序数据以自组织方式学习网络的动态状况；获胜节点确定器，其被配置为确定获胜节点，该获胜节点是具有与时序数据最匹配的动态状况的节点；以及权重确定器，其被配置为根据个体节点与获胜节点的距离，为由该个体节点保存的动态状况确定学习权重。学习单元按照与学习权重相对应的程度以自组织方式学习网络的动态状况。

Description

学习设备、学习方法和程序

技术领域

本发明涉及学习设备、学习方法和程序。更具体而言，本发明涉及可用来高效地学习动态状况(dynamics)的学习设备、学习方法和程序。

背景技术

已知机器人的动作(运动)可被描述为由时间演化规则定义的动态系统，并且各种动作的动态系统可由特定的吸引子动态状况实现。

例如，双足机器人(例如人形机器人)的行走运动可被描述为极限周期动态状况，其特征在于系统的运动状态从各种初始状态收敛到特定的周期性轨道。例如在以下文献中对其进行了描述：G.Taga，1998，“Self-organized control of bipedal locomotion by neural oscillators in unpredictableenvironment”，Biological Cybernetics，65，147-159以及Gentaro Taga，“Nou to shintai no douteki dezain-Undou Chikaku no hisenkei rikigakukei tohattatsu”(大脑和身体的动态设计-非线性动态系统以及运动和感知的开发)，Kanebo Shobo。此外，其中机器人向某个对象伸出其手臂的伸够(reaching)操作可被描述为固定点动态状况，其特征在于各种初始状态收敛到特定的固定点。此外，还假定任何运动都可由离散运动和循环运动来实现，其中离散运动可由固定点动态状况实现，循环运动可由极限周期动态状况实现。

为了根据吸引子动态状况控制机器人的动作(运动)而要解决的问题包括根据任务设计吸引子动态状况，并且基于从传感器输入获得的信息根据吸引子动态状况生成适当的电机输出。为此，针对机器人的动作的输出应当以使吸引子动态状况与环境持续地交互的方式来生成。

已经提出了用于学习吸引子动态状况而不是手工设计吸引子动态状况的方法。这些方法中的一种使用递归神经网络(以下称之为RNN)。RNN包括经由反馈环连接到网络的上下文单元。已知理论上任意动态系统都可通过保持上下文单元中的内部状态来近似。

但是，在由一个紧密连接的网络模块构成的学习模型中，当大量动态状况被学习以便学习大尺度的动作时，在要存储的动态状况之间发生了相当大的干扰，从而使得学习变得困难。

考虑到上述问题，已经提出了若干种使用模块化体系结构的学习模型。在模块化体系结构中，多个网络模块被组合以形成单个学习模型。在模块化体系结构中，原则上，通过增大模块的数目，很容易就可以增加可存储的动态状况。但是，对将要用于给定学习样本的学习的模块的选择存在问题。

取决于模块选择方法，学习方法可被分类为受监督学习和无监督学习。在受监督学习中，向模块的学习样本分配是手工确定的。另一方面，在无监督学习中，向模块的学习样本分配是通过学习模型自动确定的。为了使机器人或系统自动执行学习，无监督学习将被用于模块的学习。

作为一种用于通过无监督学习来学习模块的方法，已经提出了一种被称为RNN专家混合的学习模型。RNN专家混合例如在日本未经实审专利申请公布No.11-126198中有所描述。根据该学习模型，多个RNN模块的输出被门控机制集成以确定最终输出，并且个体RNN通过根据最大似然估计调节门控来进行操作，以使最终输出的性能达到最大。

但是，根据基于全局优化的方法，当模块数目变得很大时，学习就变得困难了。

另一方面，在诸如自组织图(以下称之为SOM)或神经气体之类的用于学习向量模式的类别的方法中，不使用基于全局优化的学习规则，从而不确保最优性。但是，已知这些方法允许了通过无监督学习以自组织方式学习适当的类别结构。利用这些方法，即使当模块数目巨大时，实际上也可能进行学习。SOM例如在T.Kohonen，“Jiko soshikiha mappu”(自组织图)，Springer-Verlag Tokyo中有所描述。神经气体例如在T.M.Martinetz，S.G.Berkovich，K.J.Schulten，““Neural-Gas”Network forVector Quantization and its Application to Time-Series Prediction”，IEEETrans，Neural Networks，VOL.4，No.4，pp.558-569，1993中有所描述。

发明内容

在日本专利申请No.2004-353832中，本申请的受让人提出了一种用于学习时序模式而不是向量模式的模型。

但是，尚未提出一种用于高效地学习动态状况的方法。

需要高效地学习动态状况。

根据本发明的一个实施例，提供了一种学习设备，包括：存储装置，用于存储由多个各自保存动态状况的节点形成的网络；学习装置，用于基于观察到的时序数据以自组织方式学习网络的动态状况；获胜节点确定装置，用于确定获胜节点，该获胜节点是具有与时序数据最匹配的动态状况的节点；以及权重确定装置，用于根据个体节点与获胜节点的距离，为由该个体节点保存的动态状况确定学习权重。学习装置按照与学习权重相对应的程度以自组织方式学习网络的动态状况。

动态状况可由具有内部状态量的动态系统近似模型来模拟。

动态状况可由递归神经网络来模拟。

学习装置可通过基于反复计算的梯度方法来学习网络的动态状况，其中反复计算的迭代次数或者梯度的量值是根据学习权重来确定的。

根据本发明的另一实施例，提供了一种学习方法，包括以下步骤：确定保存动态状况并形成网络的多个节点中的获胜节点，该获胜节点是具有与观察到的时序数据最匹配的动态状况的节点；根据个体节点与获胜节点的距离，为由该个体节点保存的动态状况确定学习权重；以及按照与学习权重相对应的程度基于时序数据以自组织方式学习网络的动态状况。

根据本发明的另一实施例，提供了一种用于使计算机执行处理的计算机程序，该处理包括以下步骤：确定保存动态状况并形成网络的多个节点中的获胜节点，该获胜节点是具有与观察到的时序数据最匹配的动态状况的节点；根据个体节点与获胜节点的距离，为由该个体节点保存的动态状况确定学习权重；以及按照与学习权重相对应的程度基于时序数据以自组织方式学习网络的动态状况。

根据本发明的这些实施例，保存动态状况并形成网络的多个节点中的获胜节点被确定，该获胜节点是具有与观察到的时序数据最匹配的动态状况的节点；针对由个体节点保存的动态状况的学习权重被根据该个体节点与获胜节点的距离而确定；并且，网络的动态状况被按照与学习权重相对应的程度基于时序数据以自组织方式来学习。

因此，能够高效地学习动态状况。

附图说明

图1是示出根据本发明实施例的数据处理设备的示例性配置的框图；

图2是示出动态状况存储网络的示例的图；

图3是示出节点示例的图；

图4是示出学习单元的详细配置的示例的框图；

图5A和5B是示出与获胜节点的距离和学习权重之间的关系的图；

图6是学习过程的流程图；

图7是示出识别单元和生成单元的详细配置的示例的框图；

图8是示出根据本发明实施例的计算机的示例性配置的框图。

具体实施方式

在描述本发明的实施例之前，下面将描述本发明的特征和在本说明书中描述或在附图中示出的实施例之间的对应关系的示例。本描述的意图在于确保支持本发明的实施例在本说明书中有所描述或在附图中示出。从而，即使在本说明书中描述或在附图中示出的任何实施例没有被描述为与本发明的某些特征相对应，也不一定意味着该实施例不对应于这些特征。相反，即使任何实施例在这里被描述为对应于某些特征，也不一定意味着该实施例不对应于其他特征。

根据本发明实施例的学习设备包括：存储装置(例如图1所示的网络存储单元1-5)，用于存储由多个各自保存动态状况的节点形成的网络(例如动态状况存储网络)；学习装置(例如图1所示的学习单元1-4)，用于基于观察到的时序数据以自组织方式学习网络的动态状况；获胜节点确定装置(例如图4所示的获胜节点确定器7-2)，用于确定获胜节点，该获胜节点是具有与时序数据最匹配的动态状况的节点；以及权重确定装置(例如图4所示的学习权重确定器7-3)，用于根据个体节点与获胜节点的距离，为由该个体节点保存的动态状况确定学习权重。学习装置按照与学习权重相对应的程度以自组织方式学习网络的动态状况(例如图6所示的步骤S8)。

根据本发明实施例的学习方法或程序包括以下步骤：确定保存动态状况并形成网络(例如动态状况存储网络)的多个节点中的获胜节点，该获胜节点是具有与观察到的时序数据最匹配的动态状况的节点(例如图6所示的步骤S5)；根据个体节点与获胜节点的距离，为由该个体节点保存的动态状况确定学习权重(例如图6所示的步骤S6)；以及按照与学习权重相对应的程度基于时序数据以自组织方式学习网络的动态状况(例如图6的步骤S8)。

现在，将参考附图详细描述本发明的特定实施例。

图1是示出根据本发明实施例的数据处理设备的示例性配置的框图。

参考图1，数据处理设备包括：网络存储单元1-5，其存储一个动态状况存储网络，该动态状况存储网络包括各自由一个具有内部状态量的动态系统近似模型实现的节点；以及学习单元1-4，其以自组织方式更新动态状况存储网络的参数。

动态状况存储网络的每个节点保存代表时序数据的动态特性的动态状况。由动态状况存储网络的每个节点保存的动态状况由学习单元14所更新的参数来定义，并且被用于时序数据的识别和生成。

图1所示的数据处理设备例如用于识别或生成用于机器人等的控制信号。具体而言，数据处理设备被用于学习、识别或生成被输入到或输出自自治系统、自治机器人等中的电机的信号。

在图1所示的数据处理设备中，输入到数据处理设备的信号和从数据处理设备输出的信号都被输入到信号输入单元1-2，作为观察信号1-1。观察信号1-1例如包括音频或图像信号、代表发光二极管(LED)的亮度级别的信号、代表电机的旋转角或角速度的信号，等等。

信号输入单元1-2将与输入观察信号1-1相对应的电信号输出到特征提取器1-3。更具体而言，当观察信号1-1是音频信号时，信号输入单元1-2例如对应于麦克风。当观察信号1-1是图像信号时，信号输入单元1-2例如对应于照相机。当观察信号1-1是代表电机的旋转角或角速度的信号时，信号输入单元1-2例如对应于用于测量电机的旋转角或角速度的设备。

以下将把从信号输入单元1-2输出的信号以及输入到信号输入单元1-2的信号称为观察信号1-1。观察信号1-1可以是静止信号，也可以是时变的非静止信号。

此外，在下面的描述中，机器人系统中的传感器/电机信号将主要被用作观察信号1-1的示例。传感器/电机信号是具有例如代表从传感器输出的信号或输入到电机以控制电机的控制信号的分量的矢量。很明显，观察信号1-1不限于传感器/电机信号。

此外，信号输入单元1-2包括片段检测器之类的，其输出划分为预定的片段的传感器/电机信号。分段的方式并没有具体限制，只要传感器/电机信号是以划分为适当长度的形式输出的即可。从而，根据输入传感器/电机信号以最优方式被划分为适当长度的传感器/电机信号被从信号输入单元1-2输出，作为观察信号1-1。

特征提取器1-3从输出自信号输入单元1-2的观察信号1-1中提取时序上的特征。例如，特征提取器1-3对作为一类传感器信号的音频信号执行诸如按恒定时间间隔的频率分析，从而提取时序上的特征，例如梅尔倒谱(mel-cepstrum)。梅尔倒谱是广泛用于语音识别等中的一类特征。

特征提取器1-3将通过从观察信号1-1中提取时序上的特征而获得的时序特征数据(以下称之为时序数据)提供给学习单元1-4、识别单元1-6和生成单元1-9。

学习单元1-4利用从特征提取器1-3提供的时序数据按照预定的程度学习代表时序数据中的时间变化的特征的动态状况。更具体而言，学习单元1-4按照预定的程度更新保存动态状况的动态状况存储网络的参数。

正如后面将详细描述的，基本上，当未被分配以标签的时序数据被相继提供给学习单元1-4时，学习单元1-4执行无监督学习，以便时序数据中的特征动态状况被以自组织方式获得。结果，存储在网络存储单元1-5中的动态状况存储网络高效地保存了代表性的动态状况。动态状况可在识别单元1-6或生成单元1-9所需的任何时间被使用。

动态状况代表时变动态系统，并且例如可由特定的函数来表示。动态状况存储网络保存代表时序数据中的时间变化的特征的动态状况。

识别单元1-6参考通过已经执行的学习而保存在动态状况存储网络中的动态状况，确定与提供自特征提取器1-3的时序数据最接近的动态状况。然后，识别单元1-6输出结果，作为识别结果1-7。

生成单元1-9可根据需要从保存在动态状况存储网络中的动态状况生成时序数据。生成单元1-9执行生成过程来生成时序数据。

更具体而言，生成单元1-9获得指定哪些动态状况将被用于生成时序数据的控制信号1-8。生成单元1-9基于控制信号1-8、提供自特征提取器1-3的时序数据以及动态状况存储网络，从指定的动态状况生成时序数据。然后，生成单元1-9输出时序数据，作为生成结果1-10。

内部状态存储单元1-11保存动态状况存储网络的每个节点的内部状态量。例如，存储在内部状态存储单元1-11中的内部状态量被识别单元1-6所更新，并且被生成单元1-9所使用。

图2示出存储在图1所示的网络存储单元1-5中的动态状况存储网络5-1的示例。

图2示出了动态状况存储网络5-1，其中所有节点5-2至5-10都被二维地布置，在垂直相邻节点和水平相邻节点之间提供了链接。

以下将把节点5-2至5-10统称为节点5，除非应当区分个体节点5-2至5-10。

链接被用于限定节点5的空间布置。即，图2所示的动态状况存储网络5-1是具有二维节点布置的动态状况存储网络的示例。如图2所示，节点5之间的空间距离是根据由链接限定的节点5的空间布置来确定的。

例如，在图2所示的示例中，对于主题节点5，直接连接到主题节点5的节点，即邻近主题节点5的节点，具有与主题节点的最短，并且对于可通过从相邻节点按顺序循着更多的链接到达的节点5，与主题节点的距离增大。

节点5的空间布置的限定可与图2所示的示例不同，这取决于链接的配置，并且通过使用链接可任意地限定空间布置。

图3是示出节点5的细节的图。

节点5包括具有内部状态量的识别单元1-6，以及存储代表对动态系统近似模型6-1的参数的学习程度的信息(以下称之为程度信息)的学习程度存储单元6-2。例如，RNN可被用作动态系统近似模型6-1。在这种情况下，作为内部状态量，上下文被从RNN的输出层反馈到输入层。学习程度存储单元6-2是网络存储单元1-5(图1)的存储区域的一部分。

在图3中，可以使用在三层神经网络(NN)中提供从输出层到输入层的反馈环的RNN作为动态系统近似模型6-1。利用该RNN，执行学习以基于时序数据中时刻T的状态向量X_T的输入来学习预测并输出时刻T+1的状态向量X_T+1。即，可通过预测学习来学习时序数据的时间演化规则。

作为估计具有内部状态量的动态系统近似模型(例如RNN)中的参数的方法，通常使用通过时间的后向传播(back-propagation through time，BPTT)。BPTT是基于最速下降方法学习方法。BPTT例如在以下文献中有所描述：D.E.Rumelhart，G.E.Hinton和R.E.Williams，1986，“Learning internal representations by error propagation”；D.E.Rumelhart和J.McClelland，“Parallel distributed processing”，pp.318-364，Cambridge，MA：MIT Press；以及R.J.Williams和D.Zipser，“Alearning algorithm for continually running fully recurrent neural networks”，Neural Computation，1：270-280，1989。

动态系统近似模型6-1按照由存储在学习程度存储单元6-2中的程度信息所表示的程度，学习代表学习数据(即从学习单元1-4提供来的时序数据)的时序模式的动态状况。

由学习单元1-4执行的学习是在线学习。即，每当观察信号1-1被输入时，学习单元1-4就利用观察信号1-1作为学习数据渐渐地更新动态系统近似模型6-1的参数。

学习程度存储单元6-2存储从学习单元1-4提供的程度信息。从而，学习数据对动态系统近似模型6-1的参数的影响程度得以调节。

如上所述，学习单元1-4在根据存储在学习程度存储单元6-2中的程度信息调节学习程度的同时，学习学习数据的时序模式。

接下来，将描述学习单元1-4对参数的更新。

首先，将简要描述用于估计参数的通过时间的后向传播(BPTT)方法所基于的后向传播方法。

这里假定S形函数f(x)被用于除动态系统近似模型6-1的输入层中的单元之外的其他单元。

现在，令输入到单元的数据Y被表示为y₀，y₁，...，y_n-1，并且预期作为单元输出的预期数据R被表示为r₀，r₁，...，r_m-1。n表示输入层中的单元的数目，m表示输出层中的单元的数目。

首先，从输入层到输出层的单元j的输出数据o_j根据下面的方程(1)来计算：

o_{j} = f (Σ_{i = 1}^{n - 1} w_{ij} o_{i}) . . . (1)

在方程(1)中，o_i表示单元i的输出数据。w_ij表示分配给从单元i到单元j的连接的权重，它是动态系统近似模型6-1的一个参数。

然后，基于根据方程(1)计算的输出数据o_j，根据下面的方程(2)从输出层向输入层更新参数w_ij：

w_ij(n+1)＝w_ij(n)+ηδ_jo_i …(2)

在方程(2)中，w_ij(n)表示在第n个时机更新的参数w_ij，η表示用于调节参数w_ij的变化量的增益参数。δ_j表示单元j的误差参数。当单元j是输出层中的单元时，误差参数δ_j是基于预期数据r_k(k是k＝0，1，..，m-1之间的值)和输出数据o_j来计算的。当单元j是隐藏层中的单元时，δ_j是通过在作为隐藏层的上层的输出层中传播误差来计算的。

参数w_ij被根据方程(2)反复更新，直到输出o_j变得足够接近预期数据r_k。

后向传播方法例如在R Beale和T.Jackson，“Nyuural konpyuutingunyuumon”(神经计算导言)，Kaibundo中有所描述。

上述后向传播方法是基于最速下降方法的学习方法。在该后向传播方法中，学习是通过基于反复计算的梯度方法来执行的。BPTT方法是后向传播方法到递归神经网络的扩展。

BPTT方法与后向传播方法的类似之处在于它是基于最速下降方法的学习方法，并且参数被反复更新直到单元的输出变得足够接近预期输出，即学习是通过基于反复计算的梯度方法来执行。

此外，在BPTT方法中，与后向传播方法类似，用于调节参数变化量的增益参数η被用在用于更新参数的方程中。增益参数η帮助调节梯度方法中的变化的步长大小，即梯度方法中的梯度的值。

在后向传播方法和BPTT方法，一般来说，并不确保学习的结果是收敛到全局最优解答。从而，存在学习的结果是收敛到局部最优解答的风险。

为了避免该问题，例如，在已提出的一种方法中，增益参数η最初被选择为一个较大的值，并且被逐渐减小。即，增益参数η不仅帮助调节参数变化量，还帮助在基于最速下降方法的学习中实现稳定地收敛到全局最优解答。利用增益参数η的前一角色，可以调节学习数据的影响程度。

此外，考虑反复计算中的迭代次数N，学习数据的影响程度随着迭代次数N增大而增大，而学习数据的影响程度随着迭代次数N减小而减小。从而，可以利用迭代次数N来调节学习数据的影响程度。

如上所述，可以利用增益参数η或迭代次数N来调节学习数据的影响程度，即学习程度。从而，增益参数η或迭代次数N被用作存储在学习程度存储单元6-2中的程度信息。

图4是示出图1所示的学习单元1-4的详细配置的示例的框图。

学习单元1-4包括得分计算器7-1、获胜节点确定器7-2、学习权重确定器7-3和参数更新器7-4。学习单元1-4接收来自图1所示的特征提取器1-3的时序数据的输入，并且时序数据被提供给得分计算器7-1和参数更新器7-4，作为学习数据。

得分计算器7-1在更新内部状态量的同时，为存储在网络存储单元1-5中的动态状况存储网络5-1中包括的每个节点5的动态系统近似模型6-1，计算关于提供自特征提取器1-3的学习数据的得分。

更具体而言，得分计算器7-1为每个节点5计算一个预测误差，该预测误差对应于与学习数据相关联的输出的真实值和从动态系统近似模型6-1输出并与学习数据相关联的值之间的平均平方误差。得分计算器7-1将预测误差分配给节点5，作为得分。

得分计算器7-1确定代表动态系统近似模型6-1的m内部状态量的上下文的初始值，并且在相对于初始值更新上下文的同时计算得分。得分计算器7-1从通过相继更新预定的参数值而获得的值中选择使得分最小的值，作为初始值。

作为用于确定上下文的初始值的预定值，例如可以使用随机值或者在动态系统近似模型6-1的学习的前次迭代中获得的上下文的最后更新值。

当已知用于学习的当前迭代的学习数据与用于学习的前次迭代的学习数据没有关系时，例如，可使用随机值作为用于确定上下文的初始值的预定值。

另一方面，当像连续时序数据的情形中那样，知道用于学习的当前迭代的学习数据具用于学习的前次迭代的学习数据有一定关系时，例如，可使用最后更新值作为用于确定上下文的初始值的预定值。当最后更新值被用作用于确定上下文的初始值的预定值时，可以使用最后更新值作为上下文的初始值，而不更新。

得分计算器7-1将分配给个体节点5的得分作为得分计算的结果提供给获胜节点确定器7-2。获胜节点确定器7-2比较从得分计算器7-1提供来的个体节点5的得分，并且确定具有最小得分的节点5作为与学习数据最匹配的获胜节点。然后，获胜节点确定器7-2将标识获胜节点的信息提供给学习权重确定器7-3。

学习权重确定器7-3参考存储在网络存储单元1-5中的动态状况存储网络5-1，并且计算每个节点5与由提供自获胜节点确定器7-2的信息标识的获胜节点的距离d。然后，学习权重确定器7-3基于距离d为每个节点5确定一个学习权重α(0＜α≤1)。

此外，基于学习权重α，学习权重确定器7-3为每个节点5生成程度信息。例如，学习权重确定器7-3根据下面的方程(3)，基于学习权重α，生成代表增益参数η或迭代次数N的程度信息：

η＝η₀×α

N＝N₀×α …(3)

在方程(3)中，η₀是针对等于1的学习权重α的增益参数η，N₀是针对等于1的学习权重α的迭代次数N。根据方程(3)，例如，当迭代次数N₀为100时，如果学习权重α为1则迭代次数N为100，如果学习权重α为0.1则迭代次数N为10。

学习权重确定器7-3将生成的程度信息提供给每个节点5的学习程度存储单元6-2，以便程度信息被存储在其中。从而，学习程度得以调节。

对于每个节点5，参数更新器7-4读取存储在学习程度存储单元6-2中的程度信息，并且按照由程度信息所表示的程度，学习代表着从特征提取器1-3提供来的学习数据的时序模式的动态状况。更具体而言，对于每个节点5，参数更新器7-4通过基于学习数据和程度信息执行BPTT方法的反复计算，来更新动态系统近似模型6-1的参数。

接下来，将参考图5A和5B描述学习权重α。

参考图5A，节点8-1至8-6是构成动态状况存储网络的节点。在节点8-1至8-6中，节点8-1是获胜节点，节点8-2至8-6按与获胜节点8-1的距离递增的顺序布置。

图5B所示的图示出了学习权重α和与获胜节点8-1的距离d之间的关系。水平轴代表学习权重α，垂直轴代表与获胜节点8-1的距离d。

根据图5B所示的图，学习权重α被确定为使针对获胜节点8-1的学习权重α具有最大值1，而针对其他节点8-2至8-6的学习权重α随着与获胜节点8-1的距离d增大而减小。

与获胜节点的距离d是基于由动态状况存储网络的链接所限定的节点的空间布置来确定的。例如，在如图2所示其中节点5-2至5-10被二维地布置的动态状况存储网络5-1中，当获胜节点是节点5-7时，与节点5-7相邻的节点5-4、5-6和5-10是最近的，节点5-3、5-5和5-9是次近的，节点5-2和5-8是最远的。在这种情况下，利用连接节点5的最小链接数作为距离，距离d按距离升序为1、2和3。

在图5B所示的图中指示的与获胜节点8-1的距离d和学习权重α之间的关系可由下面的方程(4)来表达：

α＝γ^(d/Δ) …(4)

在方程(4)中，γ(0＜γ＜1)表示衰减系数，Δ表示用于调节邻居的学习权重α的变量。

根据方程(4)，学习权重α可通过计算衰减系数γ的d/Δ次幂来计算。此外，根据方程(4)，由于衰减系数γ是小于1的正值，因此学习权重α随着距离d减小而增大。

现在，假定距离d按与获胜节点8-1的距离的升序为1、2、3，并且获胜节点8-1的距离d为0。例如，当衰减系数γ为0.5并且变量Δ为1时，随着与获胜节点8-1的距离d增大，学习权重α变为1、0.5、0.25、0.125…。

当变量Δ逐渐增大到0时，随着与获胜节点8-1的距离d增大，学习权重α进一步减小。当变量Δ变得接近0时，针对除获胜节点8-1外的节点5的学习权重α变得基本上为0。如上所述，可以调节针对获胜节点的邻居的学习权重α。基本上，变量Δ在学习开始时被选择为一个较大的值，并且随着时间过去而被调节以减小。

学习权重确定器7-3根据方程(4)为每个节点5确定学习权重α。然后，基于针对每个节点5的学习权重α，学习权重确定器7-3根据方程(3)为节点5生成程度信息。然后，参数更新器7-4按照由程度信息表示的程度为每个节点5执行学习。

从而，根据学习权重α，学习单元1-4可利用获胜节点8-1以最高程度学习动态状况，并且随着与获胜节点8-1的距离增大而减小程度。因此，获胜节点8-1的参数被更新以至于最强烈地受学习数据影响，而除获胜节点8-1之外的节点8-2至8-6的参数被更新，以使随着与获胜节点8-1的距离增大，影响减小。

如上所述，学习单元1-4可根据学习权重α高效地执行学习。

在一种在学习中反映学习权重α的可能方法中，用于前次学习的学习数据和观察到的时序数据的混合比被调节，从而在学习中间接地反映学习权重α。但是，在这种情况下，每当混合比被调节时，就利用经调节的学习数据执行巨大量的反复计算，从而计算效率较低。

相反，学习单元1-4通过根据学习权重α调节学习程度来在学习中直接反映学习权重α，从而可根据学习权重α高效地执行学习。这帮助减小了迭代次数，从而提高了计算效率。即，在由学习单元1-4执行的学习中，自组织方式的学习和利用基于反复计算的梯度方法的学习被适当地组合。

接下来，将参考图6描述图1所示的数据处理设备学习动态状况存储网络5-1的学习过程。该学习过程例如在图1所示的数据处理设备被加电时开始。

首先，在步骤S1中，学习单元1-4的参数更新器7-4(图4)初始化存储在网络存储单元1-5中的动态状况存储网络5-1的参数。更具体而言，适当的值被作为初始值配置给动态状况存储网络5-1的每个节点5的动态系统近似模型6-1的参数。

在步骤S1之后，过程进行到步骤S2。在步骤S2中，图1所示的信号输入单元1-2获得观察信号1-1，并将观察信号1-1提供给特征提取器1-3。过程随后进行到步骤S3。在步骤S3中，特征提取器1-3提取观察信号1-1在时序上的特征，并且将所得到的时序数据作为学习数据提供给学习单元1-4的得分计算器7-1和参数更新器7-4。

在步骤S3之后，过程进行到步骤S4。在步骤S4中，得分计算器7-1在更新内部状态量的同时，为存储在网络存储单元1-5中的动态状况存储网络5-1中包括的每个节点5的动态系统近似模型6-1计算关于提供自特征提取器1-3的学习数据的得分。然后，得分计算器7-1将分配给个体节点5的得分作为得分计算的结果提供给获胜节点确定器7-2。

在步骤S4之后，过程进行到步骤S5。在步骤S5中，获胜节点确定器7-2比较从得分计算器7-1提供来的个体节点5的得分，并确定具有最小得分的节点作为获胜节点8-1。然后，获胜节点确定器7-2将标识获胜节点8-1的信息提供给学习权重确定器7-3。

在步骤S5之后，过程进行到步骤S6。在步骤S6中，学习权重确定器7-3参考存储在网络存储单元1-5中的动态状况存储网络5-1，并根据早先给出的方程(4)为每个节点5计算学习权重α。

在步骤S6之后，过程进行到步骤S7。在步骤S7中，基于针对每个节点5的学习权重α，学习权重确定器7-3根据早先给出的方程(3)为节点5生成程度信息，并将程度信息提供给节点5的学习程度存储单元6-2，以便程度信息被存储在其中。

在步骤S7之后，过程进行到步骤S8。在步骤S8中，对于每个节点5，参数更新器7-4基于从特征提取器1-3提供来的学习数据以及程度信息，执行BPTT方法的反复计算，从而更新动态系统近似模型6-1的参数。过程随后返回到步骤S2，并且后续的步骤被重复。以这种方式，按照由程度信息表示的程度学习动态状况。

接下来，将参考图7描述图1所示的数据处理设备识别和生成时序数据的过程。

图7示出图1所示的数据处理设备的识别单元1-6和生成单元1-9的详细配置的示例。

时序数据的识别和生成是指识别输入的时序数据并基于识别结果生成新的时序数据。

在识别和生成中，例如，当某个人向机器人发出语言时，在机器人中生成用于响应于语音采取动作的电机信号、用于响应于语音生成合成语音的参数信号，等等。

如图7所示，识别单元1-6包括内部状态量更新器12-1、得分计算器12-2、确定器12-3和输出单元12-4。

内部状态量更新器12-1读取最后被更新并被从内部状态存储单元1-11存储到每个节点5的动态系统近似模型6-1中的内部状态量。更具体而言，内部状态量更新器12-1读取来自内部状态存储单元1-11的内部状态量，并将内部状态量提供给得分计算器12-2，作为每个节点5的动态系统近似模型6-1的内部状态量。

从而，在动态系统近似模型6-1中，可利用由内部状态量更新器12-1读取的值作为初始值，基于输入的时序数据更新内部状态量。

此外，内部状态量更新器12-1将从得分计算器12-2提供来的在确定获胜节点时节点5的内部状态量的初始值和在确定器12-3确定获胜节点时每个节点5的内部状态量的更新值存储在内部状态存储单元1-11中。

存储在内部状态存储单元1-11中的内部状态量的更新值被读取到动态系统近似模型6-1中，并且被用于得分计算的下次迭代。此外，存储在内部状态存储单元1-11中的内部状态量的初始值被生成单元1-9用于生成时序数据。

与得分计算器7-1类似，得分计算器12-2在更新内部状态量的同时为存储在网络存储单元1-5中的动态状况存储网络5-1中包括的每个节点5的动态状况存储网络5-1计算关于从特征提取器1-3提供来的时序数据的得分。

得分计算器12-2将分配给每个节点5的得分作为得分计算的结果提供给确定器12-3。此外，得分计算器12-2提供在分配得分给内部状态量更新器12-1时节点5的内部状态量的更新值和初始值，作为在确定获胜节点时节点5的内部状态量的更新值和初始值。

基于从得分计算器12-2提供来的得分，确定器12-3确定具有最小得分的节点作为获胜节点。即，确定器12-3选择与获胜节点相关联的动态状况，作为与从特征提取器1-3输入的时序数据最匹配的动态状况。确定器12-3将标识与输入时序数据最匹配的获胜节点的信号提供给输出单元12-4。

输出单元12-4输出从确定器12-3提供来的标识获胜节点的信号，作为识别结果1-7。以这种方式，识别单元1-6识别输入时序数据。识别结果1-7被用作控制信号1-8，该控制信号1-8指定具有将被用于生成时序数据的动态状况的节点5。

图7所示的生成单元1-9包括生成节点确定器12-5、内部状态读取器12-6、时序数据生成器12-7和输出单元12-8。

生成节点确定器12-5接收从输出单元12-4作为控制信号1-8输出的识别结果1-7。基于控制信号1-8，生成节点确定器12-5确定生成节点，即将被用来生成时序数据的节点5。即，由确定器12-3确定的获胜节点被确定为生成节点。然后，生成节点确定器12-5将标识生成节点的信息提供给内部状态读取器12-6。

基于从生成节点确定器12-5提供来的作为内部状态量初始值的信息，内部状态读取器12-6将存储在内部状态存储单元1-11中的值读取到存储在网络存储单元1-5中的动态状况存储网络5-1中包括的节点5中的生成节点的动态系统近似模型6-1中。

即，内部状态读取器12-6从存储在内部状态存储单元1-11的值中读取在识别单元1-6确定获胜节点时的内部状态量的初始值，并且将内部状态量的初始值提供给时序数据生成器12-7，作为生成节点的动态系统近似模型6-1的内部状态量的初始值。

时序数据生成器12-7接收从特征提取器1-3提供来的时序数据。基于时序数据、从内部状态读取器12-6提供来的内部状态量的初始值以及生成节点的动态系统近似模型6-1，时序数据生成器12-7在更新内部状态量的同时生成时序数据。然后，时序数据生成器12-7将时序数据提供给输出单元12-8。

输出单元12-8将从时序数据生成器12-7提供来的时序数据输出，作为生成结果1-10。以这种方式，生成单元1-9生成并输出来自通过识别单元1-6进行的识别而确定的获胜节点的时序数据，作为生成结果1-10。

如上所述，在图1所示的数据处理设备中，获胜节点确定器7-2确定获胜节点，即保存动态状况并构成动态状况存储网络5-1的节点5中具有与观察到的时序数据时匹配的动态状况的节点5，学习权重确定器为每个节点5保存的动态状况确定学习权重α，并且参数更新器7-4按照由对应于学习权重α的程度信息所表示的程度，基于时序数据，以自组织方式学习动态状况存储网络5-1的动态状况。因此，可以高效地学习动态状况。

在上面的描述中，得分对应于与时序数据相关联的输出的真实值和从动态系统近似模型6-1输出并与时序数据相关联的值之间的平均平方误差。但是，例如，得分可以对应于距离或概率，而这并非限制性的。当得分对应于距离时，与得分对应于平均平方误差的情形类似，具有最小得分的节点被确定为获胜节点。另一方面，当得分对应于概率时，具有最大得分的节点被确定为获胜节点。

上述一系列过程可由硬件或软件执行。当该系列过程由软件执行时，构成软件的程序被存储在通用计算机等等之上。

图8示出根据本发明实施例的计算机的示例性配置，用于执行上述一系列过程的程序被存储在该计算机上。

程序可被预先记录在作为记录介质包括在计算机中的硬盘105或只读存储器(ROM)103上。

或者，程序可被临时地或永久地存储(记录)在可移动记录介质111上，该可移动记录介质111例如是紧致盘只读存储器(CD-ROM)、磁光(MO)盘、数字多功能盘(DVD)、磁盘或者半导体存储器。可移动记录介质111可以所谓的软件包的形式提供。

取代如上所述的将程序从可移动记录介质111安装到计算机上，程序可经由用于数字卫星广播的人造卫星被无线地传送到计算机，或者可经由诸如局域网(LAN)或因特网之类的网络被有线地传送到计算机，以便所传送的程序被通信单元108接收，并被安装在计算机中的硬盘105上。

计算机包括中央处理单元(CPU)102。CPU 102经由总线101连接到输入/输出接口110。当指令例如通过用户对输入单元107(例如键盘、鼠标或麦克风)的操作经由输入/输出接口110输入时，CPU 102根据指令执行存储在ROM 103中的程序。或者，CPU 102将存储在硬盘105中的程序、从卫星或网络传送来、被通信单元108所接收并被安装在硬盘105上的程序或者从安装在驱动器109上的可移动记录介质读取的并被安装在硬盘105上的程序加载到随机访问存储器(ROM)104中，并且执行加载的程序。从而，CPU 102根据由上述框图中所示的配置所执行的流程图或过程来执行过程。然后，根据需要，例如，CPU 102经由输入/输出接口110，从输出单元106(例如液晶显示器(LCD)或扬声器)输出过程的结果，从通信单元108发送过程的结果，或者将过程的结果记录在硬盘105中。

用于使计算机执行各种过程的程序的处理步骤不一定需要以这里参考流程图描述的顺序执行，并且可以包括被并行执行或单独执行的过程(例如并行处理或按对象的处理)。

程序可由单个计算机执行，或者可由多个计算机以分布方式执行。此外，程序可被传送到远程计算机并由其执行。

本领域的技术人员应当理解，取决于设计要求和其他因素，可以进行各种修改、组合、子组合和更改，只要它们处于所附权利要求或其等同物的范围之内。

本发明包含与2006年4月6日向日本专利局递交的日本专利申请JP2006-105546相关的主题，这里通过引用将该申请的全部内容结合进来。

Claims

1.一种学习设备，包括：

存储装置，用于存储由多个各自保存动态状况的节点形成的网络；

学习装置，用于基于观察到的时序数据以自组织方式学习所述网络的动态状况；

获胜节点确定装置，用于确定获胜节点，该获胜节点是具有与所述时序数据最匹配的动态状况的节点；以及

权重确定装置，用于根据个体节点与所述获胜节点的距离，为由所述个体节点保存的动态状况确定学习权重；

其中所述学习装置按照与所述学习权重相对应的程度以自组织方式学习所述网络的动态状况。

2.如权利要求1所述的学习设备，

其中所述动态状况由具有内部状态量的动态系统近似模型来模拟。

3.如权利要求1所述的学习设备，

其中所述动态状况由递归神经网络来模拟。

4.如权利要求1所述的学习设备，其中所述学习装置通过基于反复计算的梯度方法来学习所述网络的动态状况，其中所述反复计算的迭代次数或者梯度的量值是根据所述学习权重来确定的。

5.一种学习方法，包括以下步骤：

确定保存动态状况并形成网络的多个节点中的获胜节点，该获胜节点是具有与观察到的时序数据最匹配的动态状况的节点；

根据个体节点与所述获胜节点的距离，为由所述个体节点保存的动态状况确定学习权重；以及

按照与所述学习权重相对应的程度基于所述时序数据以自组织方式学习所述网络的动态状况。

6.一种用于使计算机执行处理的计算机程序，所述处理包括以下步骤：

根据个体节点与所述获胜节点的距离，为由该个体节点保存的动态状况确定学习权重；以及

7.一种学习设备，包括：

存储单元，其被配置为存储由多个各自保存动态状况的节点形成的网络；

学习单元，其被配置为基于观察到的时序数据以自组织方式学习所述网络的动态状况；

获胜节点确定器，其被配置为确定获胜节点，该获胜节点是具有与所述时序数据最匹配的动态状况的节点；以及

权重确定器，其被配置为根据个体节点与所述获胜节点的距离，为由所述个体节点保存的动态状况确定学习权重；

其中所述学习单元按照与所述学习权重相对应的程度以自组织方式学习所述网络的动态状况。