JP4534769B2

JP4534769B2 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP4534769B2
Application number: JP2005015338A
Authority: JP
Inventors: 一美青山; 活樹南野; 秀樹下村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-01-24
Filing date: 2005-01-24
Publication date: 2010-09-01
Anticipated expiration: 2025-01-24
Also published as: JP2006201665A

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、例えば、ロボットなどが、自己の行動を能動的に変更し、その行動を自己評価することにより、自己の行動を、他から与えられる刺激に適応させることができるようにする情報処理装置、情報処理方法、およびプログラムに関するものである。

例えば、人間と音声でコミュニケーションするロボットには、ユーザがロボットを観察したときに、ロボットが、そのユーザと同一の音韻構造を有するように見えることが要求される。従って、ロボットが、ユーザが発声する音韻を聞き取ることと、ユーザと同様の音韻による発話を行うこと、つまり、ユーザが使用する言語と同一の言語による音声を認識（音声認識）することと、その言語による音声を発する（音声合成をする）こととが要求される。

従来の音声認識技術や音声合成技術では、ユーザが使用する言語に応じて、あらかじめ用意された音韻や単語の辞書を用いて、ユーザが使用する言語と同一の言語による音声の音声認識や、その言語による音声の音声合成（合成音の生成）が行われる。

ところで、人間の社会には、国や地域ごとに異なる音韻や言語が存在する。従って、あらかじめ用意された辞書を用いて音声認識や音声合成を行うのでは、国や地域ごとに、別々の辞書を作成する必要がある。

しかしながら、辞書の作成には膨大なコストがかかる。そこで、近年においては、人間と音声でコミュニケーションするロボットについては、辞書なしに、外部とのインタラクション、即ち、例えば、ユーザとの対話を通じて、そのユーザが有するのと同様の音韻構造を獲得することが要請されている。

例えば、非特許文献１には、調音器官と聴覚器官を備え、ケアギバー(caregiver)とのインタラクションを通じて、社会と同じ音韻を自己組織的に獲得する学習を行うロボットが開示されている。

非特許文献１に記載のロボットは、調音器官において、音を発するためのパラメータ（モータコマンド）をランダムに生成し、そのパラメータにしたがって音を発する。

そして、ケアギバーと呼ばれるユーザは、ロボットが発した音を聴き、社会に存在する音として認識することができた場合は、その音を発話して、ロボットに学習を行わせることを繰り返すことによって、ロボットに、社会に存在する音韻を獲得させる。

即ち、ロボットは、聴覚器官に対応する自己組織化マップ（以下、適宜、聴覚SOM(Self Organization Map)という）と、調音器官に対応する自己組織化マップ（以下、適宜、調音SOMという）とを有する。

ここで、自己組織化マップ(SOM)には、複数のノードが配置され、各ノードは、パラメータを有する。自己組織化マップに対して、入力データ（パラメータ）が与えられた場合、その入力データに対して最も類似するパラメータを有するノードが、勝者ノード(winner)として決定され、その勝者ノードが有するパラメータが、入力データに近づくように更新される。さらに、自己組織化マップにおいて、勝者ノードの近傍のノードが有するパラメータも、入力データに少しだけ近づくように更新される。

従って、自己組織化マップに対して、多数の入力データを与えていくと、パラメータが類似したノードどうしは近くなるように、類似しないノードは遠くなるように、自己組織化マップ上に配置されていく。従って、自己組織化マップには、あたかも入力データに含まれるパターンに応じた地図が構成されていくことになる。このように、入力データを与えていくと、パラメータが類似するノードどうしが近い位置に配置され、入力データに含まれるパターンに応じた地図が構成が構成されていく学習（パラメータの更新）の様（態様）は、自己組織的または自己組織化（self-organization）と呼ばれる。

非特許文献１に記載のロボットは、調音SOMにおけるあるノードに注目し、その注目ノードが有するパラメータをランダムに変更して、その変更後のパラメータにしたがって音を発する。

ケアギバーは、ロボットが発する音を聴き、その音を、社会に存在する音として認識することができた場合は、その音を発話する。このように、ロボットが発した音を聴いたケアギバーが発話した場合には、ロボットは、ケアギバーの発話した音を、入力データとして、聴覚SOMの勝者ノードが決定され、さらに、聴覚SOM（のノードが有するパラメータ）が更新される。そして、調音SOMの注目ノードと、聴覚SOMの勝者ノードとの結合が強められる。

以上の処理が繰り返されることにより、ロボットにおいては、調音SOMのノードと、そのノードが有するパラメータにしたがって発せられた音を聴いたケアギバーが発声した音に対して勝者ノードとなる聴覚SOMのノードとの結合、つまり、ロボットが音を発するのに用いたパラメータを有する調音SOMのノードと、その音と同一の音としてケアギバーが発声した音に対して勝者ノードとなる聴覚SOMのノードとの結合が、他のノードどうしの結合よりも強められていく。これにより、ロボットは、社会に存在する音韻を獲得し、外部から入力された音声と同様の音を出力することができるようになる。

即ち、ロボットは、外部から音声が入力されると、その音声に対して勝者ノードとなる聴覚SOMのノードとの結合が最も強い調音SOMのノードを探索し、そのノードが有するパラメータにしたがって音を発する。

非特許文献１に記載のロボットが行う学習は、ロボットが発した音が社会に存在する音であるという「正解」を、ケアギバーが同一の音を発話することによってロボットに与える、いわゆる教師あり学習である。従って、ロボットは、自身（調音器官）が発した音と同一の音を発話して「正解」を与えてくれるケアギバーが存在しなければ、音韻を獲得することができない。即ち、「正解」が与えられない、いわゆる教師なし学習を行うことはできない。

一方、例えば、非特許文献２には、できるだけ少ない仮定の下で、連続的な音から音韻を発生することができるように、音韻を獲得する学習を行う学習方法が開示されている。

即ち、非特許文献２に記載の学習方法では、聴覚器官に対応する聴覚SOM、および調音器官に対応する調音SOM、並びに聴覚SOMのノードと調音SOMのノードとの間の写像（結合）を有する複数のエージェントそれぞれに対し、調音SOMのノードが有するパラメータの初期値として、そのパラメータのパラメータ空間（調音空間）に一様にかつランダムに分布する値が与えられる。

なお、学習の開始前においては、複数のエージェントそれぞれにおいて、調音SOMのノードが有するパラメータは異なっている。

学習においては、各エージェントは、外部から、自身が発した音以外の音、つまり、他のエージェントが発した音の入力があった場合には、その音に対して、聴覚SOMの勝者ノードを決定し、さらに、聴覚SOM（のノードが有するパラメータ）を更新する。そして、エージェントは、聴覚SOMの勝者ノードとの結合が最も強い調音SOMのノードを探索し、そのノードが有するパラメータをリファレンスとして、調音SOMを更新する。即ち、調音SOMの各ノードのパラメータが、聴覚SOMの勝者ノードとの結合が最も強い調音SOMのノードが有するパラメータに近づくように更新される。

また、各エージェントは、自身が有する調音SOMのあるノードに注目して、その注目ノードが有するパラメータにしたがって音を発する。エージェントは、自身が発した音の入力があった場合には、その音に対して、聴覚SOMの勝者ノードを決定し、さらに、調音SOMの注目ノードと、聴覚SOMの勝者ノードとの結合を強める。

以上の処理が繰り返されることにより、複数のエージェントのそれぞれにおいて、同一の音（の集合）が、自身が発することができる音として残り、その結果、複数のエージェントは、すべて、同一の音韻（の集合）を獲得する。

非特許文献２では、以上のような学習を行うことにより、複数のエージェントが獲得する音韻が幾つかの音韻に収束することが報告されている。

非特許文献２に記載の学習は、「正解」が与えられない教師なし学習ではあるが、人間の社会に存在する音韻の獲得を目的とするものではなく、実際、非特許文献２に記載の学習によって、エージェントが、人間の社会に存在する音韻を獲得することができるとは限らない。このことは、各エージェントに対して、自身が発した音以外の音として、他のエージェントが発した音に代えて、人間が発話した音声を入力しても同様である。

即ち、非特許文献２に記載の学習によれば、調音SOMの更新は、その調音SOMのいずれかのノードが有するパラメータをリファレンス（入力）として行われるため、調音SOMのノードが有するパラメータは、その初期値が分布していた空間内でしか変化しない（更新されない）。従って、エージェントが、人間の社会に存在する音韻を獲得することができるようにするためには、調音SOMのノードが有するパラメータの初期値として、人間の社会に存在する音韻すべてを包含する空間の全体に亘って一様に分布する値を与える必要があるが、そのような値を与えることは困難である。

Y. Yoshikawa, J. Koga, M. Asada, and K. Hosoda(2003), "A Constructive Model of Mother-Infant Interaction towardsInfant's Vowel Articulation", Proc. of the 3rd International Workshop on Epigenetic Robotics, pp.139-146, 2003. Oudeyer, P-Y. (2003), "From Analogous to Digital Speech Sounds", Tallerman M., editor, Evolutionary Pre-Requisites for Language. Oxford University Press

ユーザとの対話を通じて、そのユーザが有する音韻構造を獲得することが要請されるロボットに対して、ユーザが、意識して「正解」を与えることは、ユーザにとって面倒である。

従って、ユーザとの対話を通じて、そのユーザが有する音韻構造を獲得することが要請されるロボットには、ユーザが「正解」であるか否かを意識せずに行った発話から、そのユーザが有する音韻構造を獲得することが必要とされる。

ロボットにおいて、そのような音韻構造の獲得を行うためには、ロボットの自己の行動としての発話を、他から与えられる刺激としての、ユーザから与えられる発話に適応させる必要があり、そのためには、ロボットが、自己の行動としての発話を能動的に変更し、さらに、その行動としての発話を自己評価する、つまり、自己の行動としての発話が、他から与えられた刺激としての、ユーザから与えられた発話に近いかどうかを評価（判定）する必要がある。

本発明は、このような状況に鑑みてなされたものであり、例えば、ロボットなどが、自己の行動を能動的に変更し、その行動を自己評価することにより、自己の行動を、他から与えられる刺激に適応させることができるようにするものである。

本発明の一側面の情報処理装置、又は、プログラムは、複数のノードで構成される第１および第２の自己組織化マップ、並びに前記第１の自己組織化マップのノードと前記第２の自己組織化マップのノードとの結合の度合いを表す結合重みからなる結合ネットワークを記憶する結合ネットワーク記憶手段と、外部を観測し、観測値を出力する観測手段が出力する観測値から抽出される第１のパラメータに基づき、前記第１の自己組織化マップの学習を行う第１の学習手段と、前記第１の自己組織化マップにおいて、前記第１のパラメータが観測される尤度が最も高いノードである勝者ノードを決定する勝者ノード決定手段と、前記第２の自己組織化マップにおいて、前記勝者ノードとの結合の度合いが最も高いノードである生成ノードを探索する探索手段と、前記生成ノードから、第２のパラメータを生成するパラメータ生成手段と、前記生成ノードから生成される第２のパラメータを変更させる変更手段と、前記第２のパラメータにしたがって駆動する駆動手段と、前記駆動手段が前記第２のパラメータにしたがって駆動した場合に前記観測手段において観測される観測値に対し、前記勝者ノード決定手段によって決定される前記勝者ノードに基づき、前記第２のパラメータの変更を終了する終了条件が満たされるかどうかを判定する判定手段と、前記終了条件が満たされた場合に、前記結合重みを更新する結合重み更新手段と、前記終了条件が満たされた場合の前記第２のパラメータに基づき、前記第２の自己組織化マップの学習を行う第２の学習手段とを備える情報処理装置、又は、情報処理装置として、コンピュータを機能させるためのプログラムである。

本発明の一側面の情報処理方法は、情報処理装置が、外部を観測し、観測値を出力する観測手段が出力する観測値から抽出される第１のパラメータに基づき、複数のノードで構成される第１および第２の自己組織化マップ、並びに第１の自己組織化マップのノードと第２の自己組織化マップのノードとの結合の度合いを表す結合重みからなる結合ネットワークを記憶する結合ネットワーク記憶手段に記憶された第１の自己組織化マップの学習を行う第１の学習ステップと、第１の自己組織化マップにおいて、第１のパラメータが観測される尤度が最も高いノードである勝者ノードを決定する勝者ノード決定ステップと、第２の自己組織化マップにおいて、勝者ノードとの結合の度合いが最も高いノードである生成ノードを探索する探索ステップと、生成ノードから、第２のパラメータを生成するパラメータ生成ステップと、生成ノードから生成される第２のパラメータを変更させる変更ステップと、第２のパラメータにしたがって駆動する駆動手段が、第２のパラメータにしたがって駆動した場合に観測手段において観測される観測値に対して決定される勝者ノードに基づき、第２のパラメータの変更を終了する終了条件が満たされるかどうかを判定する判定ステップと、終了条件が満たされた場合に、結合重みを更新する結合重み更新ステップと、終了条件が満たされた場合の第２のパラメータに基づき、第２の自己組織化マップの学習を行う第２の学習ステップとを含む情報処理方法である。

本発明においては、外部を観測し、観測値を出力する観測手段が出力する観測値から抽出される第１のパラメータに基づき、複数のノードで構成される第１および第２の自己組織化マップ、並びに第１の自己組織化マップのノードと第２の自己組織化マップのノードとの結合の度合いを表す結合重みからなる結合ネットワークにおける第１の自己組織化マップの学習が行われる。また、第１の自己組織化マップにおいて、第１のパラメータが観測される尤度が最も高いノードである勝者ノードが決定され、第２の自己組織化マップにおいて、勝者ノードとの結合の度合いが最も高いノードである生成ノードが探索される。さらに、生成ノードから生成される第２のパラメータが変更され、その第２のパラメータにしたがって駆動手段が駆動した場合に観測手段において観測される観測値に対して決定される勝者ノードに基づき、第２のパラメータの変更を終了する終了条件が満たされるかどうかが判定される。そして、終了条件が満たされた場合に、結合重みが更新されるとともに、終了条件が満たされた場合の第２のパラメータに基づき、第２の自己組織化マップの学習が行われる。

本発明によれば、例えば、ロボットなどが、自己の行動を能動的に変更し、その行動を自己評価することにより、自己の行動を、他から与えられる刺激に適応させることができる。

以下、図面を参照して、本発明の実施の形態について説明する。

図１は、本発明を適用した情報処理装置の一実施の形態の構成例を示している。

この情報処理装置は、例えば、２足歩行型または４足歩行型のロボットの、音声に関係する処理を行う部分に適用することができる。

観測部１は、外部を観測し、観測値を出力する。即ち、観測部１は、例えば、音声（音）を観測するセンサとしての、例えば、マイク（マイクロフォン）、さらには、アンプ、A/D(Analog/Digital)変換器などで構成され、ユーザが発話した音声その他の音を観測し、観測値としての音声データを得て、特徴抽出部２に供給する。

なお、観測部１は、さらに、外部からの音声（音）の音声区間を検出し、その音声区間の単位で、音声データを、特徴抽出部２に供給する。但し、観測部１から特徴抽出部２に供給される音声データの単位（長さ）は、音声区間である必要はなく、適切な長さに区切られていればよい。即ち、観測部１から特徴抽出部２に対して供給される音声データは、例えば、音素や音韻の単位であっても良いし、単語や文、ある句読点から次の句読点までであっても良い。また、観測部１から特徴抽出部２に対して供給される音声データ（の区間）は、一定であっても良いし、一定でなくても（可変であっても）良い。

さらに、ここでは、観測部１は、上述のように、ユーザの音声等の外部からの音声を観測し、観測値としての音声データを出力するものとするが、その他、観測部１は、例えば、光を観測するセンサとしてのカメラ等で構成し、外部からの光を観測して、観測値としての画像データを出力するようにすることもできる。また、観測部１は、外部の温度や、外部から加えられる圧力、その他の物理量を観測するセンサで構成することができる。

ここで、観測部１が観測する外部からの音声には、ユーザが発声した音声と、後述する駆動部８が出力する音声（合成）とがある。

特徴抽出部２は、観測部１の出力から特徴量（第１のパラメータ）を抽出し、学習部３と認識部５に供給する。即ち、特徴抽出部２は、観測部１からの音声データから、その特徴量としての音響パラメータを抽出し、学習部３と認識部５に供給する。具体的には、特徴抽出部２は、観測部１からの音声データに対して一定時間間隔で周波数分析などの処理を施し、例えば、メルケプストラム（MFCC（Mel Frequency Cepstrum Coefficient））などの、音声認識に適した音響パラメータを抽出して、学習部３と認識部５に供給する。

ここで、観測部１から特徴抽出部２に供給される音声データは、時系列のデータ（時系列データ）であり、特徴抽出部２では、そのような音声データに対して、一定時間間隔で処理を施すことにより、音響パラメータを得て出力するから、特徴抽出部２が出力する音響パラメータも、観測部１から特徴抽出部２に供給される音声データと同様に、時系列データである。

なお、以下、適宜、時系列データである音響パラメータ（時系列の音響パラメータ）を、特に、音響パラメータ系列という。

学習部３は、特徴抽出部２からの音響パラメータ系列に基づき、記憶部４に記憶された、後述する結合ネットワークを構成する自己組織化マップである聴覚SOMの学習（更新）を行う。

即ち、学習部３には、特徴抽出部２から多数の音響パラメータ系列が与えられるが、学習部３は、その多数の音響パラメータ系列の代表的または特徴的なパターン（時系列パターン）を自己組織的に獲得していく教師なし学習を実行する。その結果、記憶部４に記憶された結合ネットワークを構成する聴覚SOMには、特徴抽出部２から学習部３に与えられる多数の音響パラメータ系列の代表的（特徴的）なパターンが、効率的に記憶される。即ち、特徴抽出部２が学習部３と認識部５に供給する音響パラメータ系列は、幾つかの代表的なパターン（時系列パターン）に分類することができ、学習部３では、聴覚SOMに、音響パラメータ系列の代表的な時系列パターンを記憶させるための学習が行われる。

記憶部４は、結合ネットワークを記憶している。結合ネットワークは、複数のノードで構成される自己組織化マップである聴覚SOMおよび調音SOM、並びに、聴覚SOMのノードと調音SOMのノードとの結合の度合いを表す結合重みからなる。なお、結合ネットワークの詳細については、後述する。

認識部５は、記憶部４に記憶された結合ネットワークを構成する聴覚SOMに基づき、特徴抽出部２から供給される音響パラメータ系列を用いて、観測部１で観測された音声を認識（音声認識）する認識処理を行い、その音声の認識結果を、生成部６に供給する。

生成部６は、認識部５から供給される認識結果に基づき、記憶部４に記憶された結合ネットワークを構成する調音SOMの所定のノードを探索する。さらに、生成部６は、その所定ノードを用いて、後段の駆動部８を駆動するパラメータ（第２のパラメータ）としての調音パラメータを生成し、学習部７と駆動部８に供給する。

なお、生成部６が出力する調音パラメータも、上述の特徴抽出部２が出力する音響パラメータと同様に、時系列データである。以下、適宜、時系列データである調音パラメータ（時系列の調音パラメータ）を、特に、調音パラメータ系列という。

ここで、生成部６が生成するパラメータは、駆動部８を駆動するパラメータであり、駆動部８が受け付けて駆動するパラメータであれば、その種類は問わない。駆動部８が、例えば、回転角度や回転速度等を指定するコマンドを受け付けて回転するモータなどで構成される場合には、そのコマンドを、生成部６が生成するパラメータとすることができる。また、駆動部８が、例えば、音声波形を生成するのに用いる音素片や、アクセント、ピッチ周波数などを表す情報を要素とするベクトルを受け付けて音声合成を行う音声合成装置などで構成される場合には、そのベクトルを、生成部６が生成するパラメータとすることができる。

学習部７は、生成部６からの調音パラメータ系列に基づき、記憶部４に記憶された結合ネットワークを構成する自己組織化マップである調音SOMの学習（更新）を、上述の学習部３が聴覚SOMの学習を行う場合と同様にして行う。さらに、学習部７は、記憶部４に記憶された統合ネットワークを構成する結合重みの更新も行う。

駆動部８は、生成部６からの調音パラメータにしたがって駆動する。即ち、駆動部８は、例えば、調音パラメータにしたがって音声合成を行う音声合成装置や、アンプ、D/A(Digital/Analog)変換器、スピーカなどで構成され、調音パラメータにしたがって音声合成を行う。そして、駆動部８は、その音声合成によって得られる音声（合成音）を出力する。

ここで、駆動部８を構成する音声合成装置としては、例えば、テキストを入力として音声合成を行うTTS(Text To Speech)の一部、即ち、例えば、テキストの解析結果に基づいて得られるベクトルを入力として音声合成を行うモジュールを利用することができる。この場合、調音パラメータ系列は、テキストの解析結果に基づいて得られる時系列のベクトルである。

なお、ここでは、駆動部８の駆動の形態として、音声合成装置による音声合成を採用し、駆動部８が駆動することにより合成音が生成されることとしているが、その他、駆動部８は、アクチュエータ（モータ）で構成し、そのアクチュエータが駆動することにより、ロボットの手や足に相当する部分が動かされるようにすることも可能である。この場合、生成部６では、アクチュエータを駆動するパラメータが生成され、学習部７と駆動部８に供給される。

制御部９は、観測部１乃至駆動部８それぞれから必要なデータ（情報）の供給を受け、そのデータ等に基づいて、観測部１乃至駆動部８それぞれを制御する。なお、制御部９と、観測部１乃至駆動部８それぞれとの間は、データ等をやりとりするための接続線によって接続されているが、図１では、図が煩雑になるのを避けるため、その接続線の図示を省略してある。

次に、図２は、図１の記憶部４に記憶された結合ネットワークの構成例を模式的に示している。

結合ネットワークは、上述したように、聴覚SOMおよび調音SOM、並びに、結合重みからなる。

聴覚SOMおよび調音SOMは、複数のノードで構成される自己組織化マップである。但し、従来の自己組織化マップは、その自己組織化マップを構成するノードがパラメータを有し、そのパラメータが、要素の数が一定のベクトル（要素の数が１つのベクトルとみることができるスカラ量を含む）であるのに対して、結合ネットワークを構成する聴覚SOMおよび調音SOMである自己組織化マップは、その自己組織化マップを構成するノードが、時系列パターンを表現する時系列パターンモデルを有する点で、従来の自己組織化マップとは、異なる。結合ネットワークを構成する聴覚SOMおよび調音SOMである自己組織化マップの詳細については後述する。

結合ネットワークを構成する聴覚SOMおよび調音SOMにおいては、図３に示すように、聴覚SOMを構成する各ノードが、調音SOMを構成するノードのすべてと結合されている。そして、結合ネットワークにおいては、聴覚SOMを構成するノードと、調音SOMを構成するノードとの結合に対して、その結合の度合いを表す結合重みが定義されている。

次に、結合ネットワークを構成する聴覚SOMおよび調音SOMである自己組織化マップは、時系列パターンを表現する時系列パターンモデルを有する複数のノードの、いわばネットワークであり、従って、時系列パターンを記憶する時系列パターン記憶ネットワークであるということができる。時系列パターン記憶ネットワークは、その時系列パターン記憶ネットワークを構成するノードの数だけの（クラスタリングを行う）時系列パターンを記憶する。

図４は、時系列パターン記憶ネットワークの例を模式的に示している。

図４においては、時系列パターン記憶ネットワークは、ノードN₁乃至N₆の６つのノードから構成されている。

時系列パターン記憶ネットワークを構成する各ノードN_i（図４では、ｉ＝１，２，・・・，６）は、時系列パターンを表現する時系列パターンモデルを有する。また、ノードN_iは、他のノードN_j（図４では、ｊ＝１，２，・・・，６）と結合関係を持つことができる。この結合関係をリンクと呼ぶ。図４では、例えば、ノードN₁は、ノードN₂，N₃と直接の結合関係を有している。また、例えば、ノードN₃は、ノードN₁，N₂，N₅，N₆と直接の結合関係を有しており、従って、ノードN₅とN₆は、ノードN₃を介して、ノードN₁と間接的な結合関係を有している。なお、２つのノードN_iとN_jとの結合関係としては、その２つのノードN_iとN_jとの最短の結合関係（パス）を考えるものとする。

時系列パターン記憶ネットワークの学習は、時系列データを、学習に用いる学習データとして行われるが、その学習データが、どのようなカテゴリ（クラス）に属する時系列データであるかを表す「正解」は与えられない。従って、時系列パターン記憶ネットワークの学習は、教師なし学習である。

次に、図５は、時系列パターン記憶ネットワークのノードN_iの構成例を模式的に示している。

ノードN_iは、時系列パターンを表現する時系列パターンモデル２１と、その時系列パターンモデル２１の学習に用いる時系列データである学習データを記憶する学習データ記憶部２２とから構成される。

ここで、図５では、時系列パターンモデル２１として、状態確率遷移モデルの１つであるHMM（連続HMM）が採用されている。また、図５では、HMMは、自己ループと次状態（右隣の状態）への状態遷移だけを有するleft-to-right型の３状態S₁，S₂，S₃を有するものとなっている。図５の時系列パターンモデル２１における○印は状態を表し、矢印は状態遷移を表している。なお、時系列パターンモデル２１としてのHMMは、left-to-right型や、３状態のもの等に限定されない。

時系列パターンモデル２１が、図５に示したようなHMMである場合、その時系列パターンモデル２１としてのHMMは、状態遷移確率と出力確率密度関数（HMMが離散HMMである場合には、スカラ量である離散的なシンボルが出力される確率）とで定義される。

状態遷移確率は、HMMにおいて、状態が遷移する確率で、図５の時系列パターンモデル２１における矢印で示した状態遷移それぞれに対して与えられる。出力確率密度関数は、状態遷移時に、HMMから観測される値の確率密度を表す。出力確率密度関数としては、例えば、混合正規分布などが採用される。これらのHMMのパラメータ（状態遷移確率と出力確率密度関数）は、例えば、Baum-Welch 法によって学習（推定）することができる。

ノードN_iでは、学習データ記憶部２２に記憶された学習データの統計的な特性、即ち、学習データ記憶部２２に記憶された学習データの時系列パターンが、時系列パターンモデル２１において学習され、これにより、時系列パターンモデル２１と、学習データ記憶部２２に記憶された学習データとが、対応関係を持つことになる。

なお、聴覚SOMとしての時系列パターン記憶ネットワークのノードN_iにおいては、学習データ記憶部２２は、学習データとして、音響パラメータ系列を記憶する。また、調音SOMとしての時系列パターン記憶ネットワークのノードN_iにおいては、学習データ記憶部２２は、学習データとして、調音パラメータ系列を記憶する。

次に、図６は、時系列パターン記憶ネットワークの他の例を模式的に示している。

図６では、時系列パターン記憶ネットワークは、９個のノードN₁乃至N₉で構成されており、この９個のノードN₁乃至N₉は、２次元的に配置されている。即ち、図６では、９個のノードN₁乃至N₉は、２次元平面上に、横×縦が３×３となるように配置されている。

さらに、図６では、２次元的に配置された９個のノードN₁乃至N₉の、横方向に隣接するノードどうしと、縦方向に隣接するノードどうしに対して、リンク（結合関係）が与えられている。なお、このようなリンクを与えることによって、時系列パターン記憶ネットワークを構成するノードには、空間的に、２次元的に配置される配置構造が与えられているということもできる。

時系列パターン記憶ネットワークでは、リンクによって与えられる空間的なノードの配置構造に基づき、その空間上でのある２つのノードどうしの距離を定義することができ、この２つのノードどうしの距離は、その２つのノードそれぞれが有する時系列パターンモデル２１が表現する時系列パターンのパターン間距離（時系列パターンどうしの類似性）として用いることができる。

なお、２つのノードどうしの距離によって表される時系列パターンのパターン間距離は、２つのノードの結合関係（リンク）に基づくパターン間距離ということができる。

２つのノードどうしの距離としては、例えば、その２つのノードどうしを結ぶ最短のパスを構成するリンクの数を採用することができる。この場合、あるノードに注目すると、その注目ノードとの直接のリンクを有するノード（図６では、注目ノードの横方向や縦方向に隣接するノード）は、注目ノードとの距離が最も近く、注目ノードとの直接のリンクを有するノードから先のリンクを辿っていくことで到達することができるノードは、到達するのに辿るリンクの数が多いほど、注目ノードとの距離が遠くなっていく。

なお、ノードに与えるリンクは、図４や図６に示したものに限定されるものではない。また、図４や図６に示したリンクは、ノードに対して、２次元的な配置構造を与えるが、リンクは、その他、１次元的な配置構造や３次元的な配置構造等を与えるリンクであっても良い。さらに、ノードには、必ずしもリンクを与える必要はない。

即ち、図７は、時系列パターン記憶ネットワークのさらに他の例を模式的に示している。

図７では、時系列パターン記憶ネットワークは、図４における場合と同様に、６個のノードN₁乃至N₆で構成されているが、これらの６個のノードN₁乃至N₆は、いずれもリンクを有していない。従って、図７の時系列パターン記憶ネットワークを構成するノードN₁乃至N₆は、リンクによって与えられる空間的な配置構造は有していない。なお、空間的な配置構造は有していないということは、空間的な制約がない配置構造が与えられているということもできる。

ここで、ある２つのノードにリンクがない場合には、空間上でのその２つのノードどうしの距離を定義することはできないから、その２つのノードそれぞれが（有する時系列パターンモデル２１が）表現する時系列パターンのパターン間距離として、結合関係（リンク）に基づくパターン間距離は用いることができない。そこで、この場合には、例えば、ノードが、ある時系列データ（の観測値）に適合する度合いに基づく順位（以下、適宜、適合順位という）に対応する値を、パターン間距離として用いることができる。

即ち、ある時系列データが与えられた場合には、その時系列データに対して、ノードが表現する時系列パターンとの類似性を、そのノードが適合する度合いとして求めることができる。いま、時系列パターン記憶ネットワークを構成するノードのうち、ある時系列データに最も適合するノードを、勝者ノードということとすると、勝者ノードと、時系列パターン記憶ネットワークのあるノードのそれぞれが表現する時系列パターンのパターン間距離としては、そのノードが時系列データに適合する順位（適合順位）に対応する値を採用することができる。

具体的には、時系列パターン記憶ネットワークを構成するノードのうち、勝者ノードとなっているノードの適合順位は第１位であり、このノード（勝者ノード）と勝者ノードとの（それぞれが表現する時系列パターンの）パターン間距離は、例えば、その適合順位から１を減算した０とすることができる。

また、時系列パターン記憶ネットワークを構成するノードのうち、適合順位が第２位のノードと勝者ノードとのパターン間距離は、例えば、その適合順位から１を減算した１とすることができる。以下、同様に、ノードの適合順位から１を減算して得られる値を、そのノードと、勝者ノード（となっているノード）とのパターン間距離とすることができる。

なお、ノードがある時系列データに適合する度合いに基づく順位（適合順位）に対応する値によって表されるパターン間距離は、ノードが時系列データに適合する度合いに基づくパターン間距離ということができる。

次に、図８は、図１の学習部３の構成例を示している。

学習部３には、特徴抽出部２（図１）から、新たな時系列データとしての（例えば、観測部１で検出された音声区間の）音響パラメータ系列が供給される。学習部３は、記憶部４に記憶された結合ネットワークを構成する聴覚SOMとしての時系列パターン記憶ネットワークを、特徴抽出部２からの新たな時系列データに基づいて、自己組織的に更新する。

即ち、スコア計算部４１は、記憶部４に記憶された時系列パターン記憶ネットワークである聴覚SOMを構成する各ノードについて、そのノードが、特徴抽出部２から供給される新たな時系列データとしての音響パラメータ系列に適合する度合いをスコアとして求め、勝者ノード決定部４２に供給する。即ち、ノードが有する時系列パターンモデル２１が、例えば、図５に示したようにHMMである場合には、スコア計算部４１は、ノードが有する時系列パターンモデル２１としてのHMMから、特徴抽出部２から供給された新たな音響パラメータ系列が観測される尤度を求め、そのノードのスコアとして、勝者ノード決定部４２に供給する。

勝者ノード決定部４２は、記憶部４に記憶された時系列パターン記憶ネットワークである聴覚SOMにおいて、特徴抽出部２からの新たな音響パラメータ系列に最も適合するノードを求め、そのノードを、勝者ノードとして決定する。

即ち、勝者ノード決定部４２は、記憶部４に記憶された時系列パターン記憶ネットワークである聴覚SOMを構成するノードのうちの、スコア計算部４１からのスコアが最も高いノードを勝者ノードとして決定する。そして、勝者ノード決定部４２は、勝者ノードを表す情報を、更新重み決定部４３に供給する。

ここで、時系列パターン記憶ネットワークを構成するノードには、各ノードを識別するためのラベルであるノードラベルを付しておき、勝者ノードを表す情報、その他のノード表す情報としては、そのノードラベルを採用することができる。なお、ノードラベルは、ノード自体を識別するラベルであり、「正解」を表すものではない。

更新重み決定部４３は、勝者ノード決定部４２から供給されるノードラベルが表す勝者ノードに基づき、記憶部４に記憶された聴覚SOMを構成する各ノードについて、後述する更新重みを決定し、学習データ更新部４４に供給する。

即ち、更新重み決定部４３は、記憶部４に記憶された聴覚SOMを構成する各ノード（勝者ノードを含む）の更新重みを、そのノードと、勝者ノードとのパターン間距離に基づいて決定し、学習データ更新部４４に供給する。

ここで、ノードが有する時系列パターンモデル２１（図５）は、特徴抽出部２からの新たな音響パラメータ系列を用いて更新されるが、ノードの更新重みとは、そのノードが有する時系列パターンモデル２１の更新によって、その時系列パターンモデル２１が受ける新たな音響パラメータ系列の影響の度合いを表す。従って、ノードの更新重みが、例えば０であれば、そのノードが有する時系列パターンモデル２１は、新たな音響パラメータ系列の影響を受けない（更新されない）。

なお、更新重み決定部４３において、記憶部４に記憶された聴覚SOMを構成する各ノードの更新重みを決定する際のパターン間距離としては、聴覚SOMのノードが、図４や図６に示したように、リンクを有する場合には、そのノードと勝者ノードとの結合関係に基づくパターン間距離を採用し、また、聴覚SOMのノードが、図７に示したように、リンクを有しない場合には、聴覚SOMの各ノードが、特徴抽出部２からの新たな音響パラメータ系列に適合する度合いに基づくパターン間距離を採用することができる。

即ち、更新重み決定部４３は、記憶部４に記憶された聴覚SOMを参照し、聴覚SOMのノードそれぞれと、勝者ノード決定部４２からのノードラベルが表す勝者ノードとの結合関係に基づくパターン間距離を求め、そのパターン間距離に基づいて、聴覚SOMのノードそれぞれの更新重みを決定する。

あるいは、更新重み決定部４３は、記憶部４に記憶された聴覚SOMを参照し、聴覚SOMのノードそれぞれについて、ノードが、特徴抽出部２からの新たな音響パラメータ系列に適合する度合いとして、例えば、スコア計算部４１が求めるのと同様のスコアを求める。さらに、更新重み決定部４３は、聴覚SOMのノードそれぞれについて、ノードのスコアに基づく順位（適合順位）に対応する値を、新たな音響パラメータ系列に適合する度合いに基づくパターン間距離として求め、そのパターン間距離に基づいて、聴覚SOMのノードそれぞれの更新重みを決定する。

なお、ノードのスコアは、更新重み決定部４３で求めても良いが、スコア計算部４１から更新重み決定部４３に供給するようにしても良い。

学習データ更新部４４は、記憶部４に記憶された聴覚SOMの各ノードが有する学習データ記憶部２２（図５）に記憶された学習データを更新する。

即ち、学習データ更新部４４は、ノードが有する学習データ記憶部２２に既に記憶されている学習データと、特徴抽出部２からの新たな音響パラメータ系列とを、更新重み決定部４３からの、対応するノードの更新重みにしたがって混合し、その混合結果を、新たな学習データとして、学習データ記憶部２２に記憶させることで、その学習データ記憶部２２の記憶内容を更新する。

学習データ更新部４４は、以上のように、学習データ記憶部２２（図５）に記憶された学習データを、更新重みにしたがって更新すると、その更新が終了した旨の終了通知を、モデル学習部４５に供給する。

モデル学習部４５は、学習データ更新部４４から終了通知を受けると、その学習データ更新部４４による更新後の学習データ記憶部２２（図５）に記憶された学習データを用いて、記憶部４に記憶された聴覚SOMの各ノードが有する時系列パターンモデル２１の学習を行うことにより、その時系列パターンモデル２１を更新する。

従って、モデル学習部４５による、ノードが有する時系列パターンモデル２１の更新は、そのノードが有する学習データ記憶部２２（図５）に記憶されていた学習データ（の一部）と、特徴抽出部２から供給された新たな音響パラメータ系列とに基づいて行われる。なお、学習データ記憶部２２の記憶内容は、更新重みにしたがって更新されるから、モデル学習部４５による、時系列パターンモデル２１の更新は、更新重みに基づいて行われるということもできる。

次に、図９は、図８の更新重み決定部４３において更新重みを決定する決定方法を示している。

更新重み決定部４３は、例えば、図９に示すような、勝者ノードとのパターン間距離dの増加に対して更新重みαが減少する関係を表す曲線（以下、距離／重み曲線という）にしたがって、ノードに対する更新重み（ノードの更新重み）を決定する。距離／重み曲線によれば、勝者ノードとのパターン間距離dが近いノードほど、大きな更新重みαが決定され、パターン間距離dが遠いノードほど、小さな更新重みαが決定される。

図９の距離／重み曲線において、横軸（左から右方向）は、更新重みαを示しており、縦軸（上から下方向）は、パターン間距離dを示している。

図９では、パターン間距離dとして、例えば、ノードとの結合関係に基づくパターン間距離、即ち、勝者ノードからの距離が採用されており、縦軸に沿って、聴覚SOMを構成する６つのノードN₁乃至N₆が、各ノードN_iと勝者ノードとの距離に対応する位置（縦軸の位置）に記載されている。

図９では、聴覚SOMを構成する６つのノードN₁乃至N₆が、その順で、勝者ノードとの距離が近くなっている。聴覚SOMを構成する６つのノードN₁乃至N₆のうち、勝者ノードとの距離が最も近いノード、即ち、勝者ノードとの距離が０のノードであるノードN₁は、勝者ノード（となっているノード）である。

ここで、聴覚SOMが、例えば、図６に示したような２次元的な配置構造を有し、勝者ノードが、例えば、ノードN₆であった場合には、勝者ノードN₆とノードN₆との距離は最も（１番）近い０であり、ノードN₆と勝者ノードN₆とのパターン間距離dも０となる。また、勝者ノードN₆と、ノードN₃，N₅、またはN₉それぞれとの距離は２番目に近い１であり、ノードN₃，N₅、またはN₉それぞれと勝者ノードN₆とのパターン間距離dも１となる。さらに、勝者ノードN₆と、ノードN₂，N₄、またはN₈それぞれとの距離は３番目に近い２であり、ノードN₂，N₄、またはN₈それぞれと勝者ノードN₆とのパターン間距離dも２となる。また、勝者ノードN₆と、ノードN₁またはN₇それぞれとの距離は最も遠い（４番目に近い）３であり、ノードN₁またはN₇それぞれと勝者ノードN₆とのパターン間距離dも３となる。

一方、ノードがリンクを有しない、例えば、図７に示した聴覚SOMについては、ノードが新たな時系列データとしての音響パラメータ系列に適合する度合いに基づくパターン間距離、即ち、ノードが新たな音響パラメータ系列に適合する度合いに基づく順位（適合順位）に対応する値が、そのノードと勝者ノードとのパターン間距離dとして求められる。即ち、この場合、スコアが最も高い（一番目に高い）ノード（勝者ノード）と勝者ノードとのパターン間距離dは０とされ、スコアが２番目に高いノードと勝者ノードとのパターン間距離dは１とされる。以下、同様に、スコアがk番目に高いノードと勝者ノードとのパターン間距離dはk-1とされる。

なお、以上のような、聴覚SOMの各ノードと勝者ノードとのパターン間距離dの与え方は、コホーネン(T.Kohonen)のSOMやNeural-Gas algorithmで利用されている距離の与え方と同様の方法である。

次に、更新重みαとパターン間距離dとの関係を表す、例えば、図９に示したような距離／重み曲線は、例えば、式（１）によって与えられる。

・・・（１）

なお、式（１）において、定数Gは、勝者ノードの更新重みを表す定数であり、γは、減衰係数で、０＜γ＜１の範囲の定数である。また、変数Δは、聴覚SOMを更新する更新方法として、SMA(soft-max adaptation)を採用した場合の、勝者ノードの近傍のノード（勝者ノードとのパターン間距離dが近いノード）の更新重みαを調整するための変数である。

ここで、SMAとは、複数の要素（例えば、複数のノード）からなる更新の対象（例えば、聴覚SOM）を、新たな入力に基づいて更新する場合に、新たな入力に最も距離が近い要素（スコアが最も高い要素）だけでなく、その要素との、ある距離が近い要素も更新する方法であり、新たな入力に最も距離が近い要素だけを更新する方法であるWTA(winner-take-all)に比較して、局所解に陥る問題を改善することができることが知られている。

上述したように、勝者ノードとなっているノードのパターン間距離dとして、０が与えられ、以下、他のノードのパターン間距離dとして、勝者ノードとの距離、または適合順位にしたがって、１，２，・・・が与えられる場合、式（１）において、例えば、G=8，γ=0.5，Δ=1であれば、勝者ノードとなっているノードの更新重みαとして、８(=G)が求められる。以下、勝者ノードとの距離、または適合順位が大になるにしたがって、ノードの更新重みαとしては、４，２，１，・・・と小さくなる値が求められる。

ここで、式（１）における減衰係数Δが大きな値である場合には、パターン間距離dの変化に対する更新重みαの変化は緩やかになり、逆に、減衰係数Δが０に近い値である場合には、パターン間距離dの変化に対する更新重みαの変化は急峻になる。

従って、減衰係数Δを、例えば、上述した１から少しずつ０に近づけていくように調整すると、パターン間距離dの変化に対する更新重みαの変化は急峻になっていき、更新重みαは、パターン間距離dが大きくなるにしたがって、より小さい値となる。そして、減衰係数Δが０に近くなると、勝者ノード（となっているノード）以外のノードの更新重みαは、ほとんど０となり、この場合、聴覚SOMを更新する更新方法として、前述したWTAを採用した場合と（ほぼ）等価となる。

このように、減衰係数Δを調整することによって、聴覚SOMを更新する更新方法としてSMAを採用した場合の、勝者ノードの近傍のノードの更新重みαを調整することができる。

減衰係数△は、例えば、聴覚SOMの更新（学習）の開始時は大きな値にし、時間の経過とともに、即ち、更新の回数が増加するにしたがって小さな値になるようにすることができる。この場合、聴覚SOMの更新の開始時は、パターン間距離dの変化に対する更新重みαの変化が緩やかな距離／重み曲線にしたがって、聴覚SOMの各ノードの更新重みαが決定され、更新（学習）が進む（進行する）につれ、パターン間距離dの変化に対する更新重みαの変化が急峻になっていく距離／重み曲線にしたがって、聴覚SOMの各ノードの更新重みαが決定される。

即ち、この場合、勝者ノードの更新は、学習（更新）の進行にかかわらず、特徴抽出部２からの新たな時系列データとしての音響パラメータ系列の影響を強く受けるように行われる。一方、勝者ノード以外のノードの更新は、学習の開始時は、比較的広い範囲のノード（勝者ノードとのパターン間距離dが小のノードから、ある程度大のノード）に亘って、新たな音響パラメータ系列の影響を受けるように行われる。そして、学習が進行するにつれ、勝者ノード以外のノードの更新は、徐々に狭い範囲のノードについてのみ、新たな音響パラメータ系列の影響を受けるように行われる。

図８の更新重み決定部４３は、以上のようにして、聴覚SOMの各ノードの更新重みαを決定し、学習データ更新部４４では、各ノードが有する学習データ記憶部２２に記憶される学習データが、そのノードの更新重みαに基づいて更新される。

次に、図１０を参照して、ノードが有する学習データ記憶部２２に記憶される学習データを更新する更新方法について説明する。

いま、あるノードN_iが有する学習データ記憶部２２には、学習データが既に記憶されており、ノードN_iの時系列パターンモデル２１は、学習データ記憶部２２に既に記憶されている学習データを用いて学習が行われたものであるとする。

学習データ更新部４４は、上述したように、ノードN_iが有する学習データ記憶部２２に既に記憶されている学習データ（以下、適宜、旧学習データという）と、特徴抽出部２からの新たな時系列データとしての音響パラメータ系列とを、更新重み決定部４３からのノードN_iの更新重みαにしたがって混合し、その混合結果を、新たな学習データとして、学習データ記憶部２２に記憶させることで、その学習データ記憶部２２の記憶内容を、新たな学習データに更新する。

即ち、学習データ更新部４４は、旧学習データに対して、新たな時系列データとしての音響パラメータ系列を追加することで、旧学習データと新たな音響パラメータ系列とを混合した新たな学習データとするが、旧学習データに対する新たな音響パラメータ系列の追加（旧学習データと新たな音響パラメータ系列との混合）は、ノードN_iの更新重みαに対応する比にしたがって行われる。

ここで、新たな音響パラメータ系列と旧学習データとを、１：０の比率で混合すると、その混合によって得られる新たな学習データは、新たな音響パラメータ系列だけとなる。逆に、新たな音響パラメータ系列と旧学習データとを、０：１の比率で混合すると、その混合によって得られる新たな学習データは、旧学習データだけとなる。ノードN_iの時系列パターンモデル２１（図５）の更新は、新たな学習データを用いた学習によって行われるため、新たな音響パラメータ系列と旧学習データとを混合する比率を変えることによって、更新により時系列パターンモデル２１が受ける新たな音響パラメータ系列の影響の度合い（強さ）を変えることができる。

ノードN_iにおいて、新たな音響パラメータ系列と旧学習データとを混合する比率としては、ノードN_iの更新重みαに対応した値が採用され、例えば、更新重みαが大であるほど、新たな音響パラメータ系列の比率が大となる（旧学習データの比率が小となる）ような値とされる。

具体的には、ノードN_iの学習データ記憶部２２には、一定の数の時系列データである音響パラメータ系列（学習データ）が記憶されるものとし、その一定の数をHとする。この場合、ノードN_iの時系列パターンモデル２１の学習は、常に、H個の学習データ（時系列データである音響パラメータ系列）を用いて行われる。

学習データ記憶部２２に、常に、一定の数Hの学習データが記憶される場合、新たな音響パラメータ系列と旧学習データとの混合によって得られる新たな学習データの個数は、H個である必要があり、そのような、新たな音響パラメータ系列と旧学習データとの混合を、ノードN_iの更新重みαに対応した比率で行う方法としては、新たな音響パラメータ系列と旧学習データとを、比率α:H-αで混合する方法がある。

新たな音響パラメータ系列と旧学習データとを、比率α:H-αで混合する具体的な方法としては、図１０に示すように、H個の旧学習データのうちのH-α個の旧学習データに対して、α個の新たな音響パラメータ系列を追加することにより、H個の新たな学習データを得る方法がある。

この場合、学習データ記憶部２２に記憶される学習データとしての時系列データの数Hが、例えば、１００であり、ノードN_iの更新重みαが、例えば、８であれば、学習データ記憶部２２の記憶内容は、１００個の旧学習データのうちの９２個の旧学習データに対して、８個の新たな音響パラメータ系列を追加することによって得られる１００個の新たな学習データに更新される。

H個の旧学習データのうちのH-α個の旧学習データに対する、α個の新たな音響パラメータ系列の追加は、α個の新たな音響パラメータ系列が得られるのを待って行う方法があるが、この方法では、１個の新たな音響パラメータ系列が得られるごとに、学習データ記憶部２２の記憶内容を更新することができない。

そこで、学習データ記憶部２２の記憶内容の更新は、１個の新たな音響パラメータ系列（例えば、音声区間の音響パラメータ系列）が得られるごとに、その新たな音響パラメータ系列をα個だけ、H-α個の旧学習データに追加することにより行うことができる。即ち、１個の新たな音響パラメータ系列をコピーしてα個の新たな音響パラメータ系列とし、そのα個の新たな音響パラメータ系列を、H個の旧学習データから古い順にα個を除外して残ったH-α個の旧学習データに追加することにより、学習データ記憶部２２の記憶内容の更新を行う。これにより、１個の新たな音響パラメータ系列が得られるごとに、学習データ記憶部２２の記憶内容を更新することができる。

以上のように、学習データ記憶部２２の記憶内容の更新を行うことにより、学習データ記憶部２２には、常に、新しい順のＨ個の時系列データ（音響パラメータ系列）だけが、学習データとして保持されることになり、その学習データに占める新たな音響パラメータ系列の割合（比率）は、更新重みαによって調整されることになる。

次に、図１１のフローチャートを参照して、図８の学習部３が行う、聴覚SOMを学習（更新）する学習処理について説明する。

学習部３は、特徴抽出部２から、新たな時系列データとしての音響パラメータ系列が供給されると、記憶部４に記憶された聴覚SOMを更新する学習処理を開始する。

即ち、学習部３（図８）では、ステップＳ１において、スコア計算部４１が、記憶部４に記憶された聴覚SOMを構成する各ノードについて、そのノードが、特徴抽出部２からの新たな音響パラメータ系列に適合する度合いを表すスコアを求める。

具体的には、ノードが有する時系列パターンモデル２１（図５）が、例えばHMMである場合には、そのHMMから、新たな音響パラメータ系列が観測される対数尤度が、スコアとして求められる。ここで、対数尤度の計算方法としては、例えば、ビタビアルゴリズム(Viterbi algorithm)を採用することができる。

スコア計算部４１は、聴覚SOMが有するすべてのノードについて、新たな音響パラメータ系列に対するスコアを計算すると、その各ノードについてのスコアを、勝者ノード決定部４２に供給して、ステップＳ１からステップＳ２に進む。

ステップＳ２では、勝者ノード決定部４２は、聴覚SOMを構成するノードのうちの、スコア計算部４１からのスコアが最も高いノードを求め、そのノードを勝者ノードとして決定する。そして、勝者ノード決定部４２は、勝者ノードを表す情報としてのノードラベルを、更新重み決定部４３に供給して、ステップＳ２からステップＳ３に進む。

ステップＳ３では、更新重み決定部４３は、勝者ノード決定部４２からのノードラベルが表す勝者ノードを、いわば基準として、聴覚SOMを構成する各ノードの更新重みを決定する。

即ち、更新重み決定部４３は、図９で説明したように、聴覚SOMの更新（学習）が進むにつれ、パターン間距離dの変化に対する更新重みαの変化が急峻になっていく、式（１）で表される距離／重み曲線にしたがって、聴覚SOMの各ノードの更新重みαを決定し、学習データ更新部４４に供給する。

そして、ステップＳ３からステップＳ４に進み、学習データ更新部４４は、聴覚SOMの各ノードが有する学習データ記憶部２２（図５）に記憶された学習データを、更新重み決定部４３からの、対応するノードの更新重みにしたがって更新する。即ち、学習データ更新部４４は、図１０で説明したように、特徴抽出部２から供給された新たな音響パラメータ系列と、ノードの学習データ記憶部２２に記憶されている旧学習データとを、そのノードの更新重みαに対応した比率α:H-αで混合することにより、H個の新たな学習データを得て、そのH個の新たな学習データによって、学習データ記憶部２２の記憶内容を更新する。

学習データ更新部４４は、聴覚SOMのノードすべての学習データ記憶部２２（図５）の記憶内容を更新すると、その更新が終了した旨の終了通知を、モデル学習部４５に供給する。

モデル学習部４５は、学習データ更新部４４から終了通知を受けると、ステップＳ４からステップＳ５に進み、聴覚SOMのパラメータ（聴覚SOMとしての時系列パターン記憶ネットワークのノードが有する時系列パターンモデル２１（図５）のパラメータ（以下、適宜、モデルパラメータともいう））を更新して、学習処理を終了する。

即ち、モデル学習部４５は、聴覚SOMの各ノードについて、学習データ更新部４４による更新後の学習データ記憶部２２に記憶された新たな学習データを用いて、時系列パターンモデル２１の学習を行うことにより、その時系列パターンモデル２１を更新する。

具体的には、ノードが有する時系列パターンモデル２１が、例えばHMMである場合には、そのノードが有する学習データ記憶部２２に記憶された新たな学習データを用いて、HMMの学習が行われる。この学習では、例えば、HMMの現在の状態遷移確率と出力確率密度関数を初期値とし、新たな学習データを用いて、Baum-Welch法により、新たな状態遷移確率と出力確率密度関数がそれぞれ求められる。そして、その新たな状態遷移確率と出力確率密度関数によって、聴覚SOMのモデルパラメータとしてのHMMの状態遷移確率と出力確率密度関数（を定義する、例えば、平均ベクトルや共分散行列）がそれぞれ更新される。

図１１の学習処理によれば、１個の新たな時系列データとしての音響パラメータ系列が得られると、その新たな音響パラメータ系列に対して、聴覚SOMを構成するノードの中から、勝者ノードが決定される。さらに、その勝者ノードを基準として、聴覚SOMを構成する各ノードの更新重みが決定される。そして、更新重みに基づいて、聴覚SOMを構成する各ノードが有する時系列パターンモデル２１（図５）のモデルパラメータ（ここでは、例えば、HMMの状態遷移確率と出力確率密度関数）が更新される。

即ち、図１１の学習処理では、１個の新たな音響パラメータ系列に対して、聴覚SOMを構成するノードのモデルパラメータの更新が１回行われ、以下、同様に、新たな音響パラメータ系列が得られるたびに、ノードのモデルパラメータの更新が繰り返されることにより、自己組織的に学習が行われる。

そして、学習が十分に行われることにより、聴覚SOMの各ノードが有する時系列パターンモデル２１は、ある時系列パターンを学習（獲得）する。聴覚SOM全体において学習される時系列パターンの数（種類）は、聴覚SOMが有するノードの数と一致する。従って、聴覚SOMが有するノードの数が、例えば１００である場合は、１００種類の時系列パターンが学習されることになる。

次に、図１２は、図１の認識部５の構成例を示している。

認識部５には、図１で説明したように、特徴抽出部２から、新たな時系列データとしての音響パラメータ系列が供給され、この新たな音響パラメータ系列は、スコア計算部５１に供給される。

スコア計算部５１は、学習部３（図８）のスコア計算部４１と同様に、記憶部４に記憶された聴覚SOMを構成する各ノードについて、そのノードが、特徴抽出部２からの新たな音響パラメータ系列に適合する度合いを表すスコアを求め、勝者ノード決定部５２に供給する。即ち、ノードが有する時系列パターンモデル２１が、例えば、図５に示したようにHMMである場合には、スコア計算部５１は、ノードが有する時系列パターンモデル２１としてのHMMから、特徴抽出部２からの新たな音響パラメータ系列が観測される対数尤度を求め、そのノードのスコアとして、勝者ノード決定部５２に供給する。

勝者ノード決定部５２は、学習部３（図８）の勝者ノード決定部４２と同様に、記憶部４に記憶された聴覚SOMにおいて、特徴抽出部２からの新たな音響パラメータ系列に最も適合するノードを求め、そのノードを、勝者ノードとして決定する。

即ち、勝者ノード決定部５２は、記憶部４に記憶された聴覚SOMを構成するノードのうちの、スコア計算部５１からのスコアが最も高いノードを勝者ノードとして決定する。そして、勝者ノード決定部５２は、勝者ノードを表す情報としてのノードラベルを、特徴抽出部２からの新たな音響パラメータ系列、ひいては、その新たな音響パラメータ系列が抽出された、観測部１で観測された音声の認識結果として出力する。

なお、認識部５のスコア計算部５１と、学習部３（図８）のスコア計算部４１とは、いずれか一方のスコア計算部で兼用することが可能である。認識部５の勝者ノード決定部５２と、学習部３（図８）の勝者ノード決定部４２についても、同様である。従って、学習部３のスコア計算部４１を、認識部５のスコア計算部５１と兼用とするとともに、勝者ノード決定部４２を、認識部５１の勝者ノード決定部５２と兼用することにより、認識部５は、学習部３の一部（スコア計算部４１および勝者ノード決定部４２）として構成することができる。

次に、図１３のフローチャートを参照して、図１２の認識部５が行う、特徴抽出部２からの新たな音響パラメータ系列が抽出された音声を認識する認識処理について説明する。

認識部５は、特徴抽出部２から、新たな時系列データとしての音響パラメータ系列が供給されると、記憶部４に記憶された聴覚SOMを用い、その新たな音響パラメータ系列が抽出された音声（観測部１で観測された音声）を認識する認識処理を開始する。

即ち、認識部５（図１３）では、ステップＳ２１において、スコア計算部５１が、記憶部４に記憶された聴覚SOMを構成する各ノードについて、そのノードが、特徴抽出部２からの新たな音響パラメータ系列に適合する度合いを表すスコアを求める。

具体的には、ノードが有する時系列パターンモデル２１（図５）が、上述したように、例えばHMMである場合には、そのHMMから、新たな音響パラメータ系列が観測される対数尤度が、スコアとして求められる。

スコア計算部５１は、聴覚SOMが有するすべてのノードについて、新たな音響パラメータ系列に対するスコアを計算すると、その各ノードについてのスコアを、勝者ノード決定部５２に供給して、ステップＳ２１からステップＳ２２に進む。

ステップＳ２２では、勝者ノード決定部５２は、聴覚SOMを構成するノードのうちの、スコア計算部５１からのスコアが最も高いノードを求め、そのノードを勝者ノードとして決定する。そして、勝者ノード決定部５２は、ステップＳ２２からステップＳ２３に進み、勝者ノードを表す情報としてのノードラベルを、音声の認識結果として、生成部６に供給して、認識処理を終了する。

以上のような、聴覚SOMを用いた認識処理によれば、その聴覚SOMのノードの数に応じた細かさの認識結果を得ることができる。

次に、図１４は、図１の生成部６の構成例を示している。

生成部６には、認識部５から、記憶部４に記憶された聴覚SOMのノードのうちの勝者ノードを表す情報としてのノードラベルが、音声の認識結果として供給され、このノードラベルは、生成ノード決定部６１に供給される。

生成ノード決定部６１は、記憶部４に記憶された結合ネットワークを参照し、認識部５からのノードラベルが表す、聴覚SOMの勝者ノードとの結合の度合いが最も高いノード、即ち、その勝者ノードとの結合重みが最大のノードを探索する。そして、生成ノード決定部６１は、認識部５からのノードラベルが表す聴覚SOMの勝者ノードとの結合重みが最大の調音SOMのノードを、調音パラメータの生成に用いる生成ノードとして決定し、その生成ノードを表すノードラベルを、モデルパラメータ変更部６２に供給する。

モデルパラメータ変更部６２は、記憶部４に記憶された調音SOMのノードのうちの、生成ノード決定部６１からのノードラベルが表す生成ノードを認識し、その生成ノードから生成される調音パラメータ系列を変更させる変更制御処理を行う。

即ち、調音SOMのノードは、図５で説明したように、時系列パターンモデル２１を有し、調音SOMのノードが有する時系列パターンモデル２１の学習（更新）は、後述するように、学習部７によって、駆動部８を駆動する調音パラメータ系列を用いて行われるため、調音SOMのノードが有する時系列パターンモデル２１は、調音パラメータ系列を生成することができる。

具体的には、時系列パターンモデル２１が、例えば、HMMである場合には、HMMにおいて調音パラメータ系列が観測される尤度を表す出力確率を最大にする調音パラメータ系列を生成することができる。

ここで、HMMを用いて、調音パラメータ系列を含む時系列データを生成する生成方法としては、動的特徴量を利用することで滑らかに変化する時系列データを生成する方法がある。このような時系列データの生成方法は、例えば、K. Tokuda, T. Yoshimura, T. Masuko, T. Kobayashi, T. Kitamura, "SPEECH PARAMETER GENERATION ALGORITHMS FOR HMM-BASED SPEECH SYNTHESIS", Proc. of ICASSP 2000, vol.3, pp.1315-1318, June 2000に記載されている。

また、HMMを用いて時系列データを生成する生成方法としては、その他、例えば、HMMのパラメータを用いた確率的試行に基づく時系列データの生成を繰り返し行い、その平均をとることで、HMMから時系列データを生成する方法などがある。このような時系列データの生成方法は、例えば、稲邑哲也、谷江博昭、中村仁彦、「連続分布型隠れマルコフモデルを用いた時系列データのキーフレーム抽出とその復元」、日本機械学会ロボティクス・メカトロニクス講演会2003講演論文集、2P1-3F-C6，2003に記載されている。

時系列パターンモデル２１が、例えばHMMである場合には、そのモデルパラメータは、HMMの状態遷移確率と出力確率密度関数（を規定する、例えば平均ベクトルと共分散行列）である。そして、このモデルパラメータとしての状態遷移確率や出力確率密度関数を変更すれば、HMMを用いて生成される時系列データを変更することができる。

そこで、モデルパラメータ変更部６２は、調音SOMの生成ノードのモデルパラメータを変更し、その変更後のモデルパラメータを用いて時系列データ、つまり、調音パラメータ系列を生成するように、後段の時系列生成部６３を制御する変更制御処理を行う。即ち、モデルパラメータ変更部６２は、モデルパラメータが変更された生成ノード（の、変更後のモデルパラメータ）を、時系列生成部６３に供給し、その生成ノードを用いて調音パラメータ系列を生成するように、時系列生成部６３を制御する。この変更制御処理により、時系列生成部６３は、変更後の生成ノード（モデルパラメータが変更された生成ノード）を用いて、調音パラメータを生成するので、生成ノードから生成される調音パラメータ系列が変更されることになる。

なお、モデルパラメータ変更部６２は、制御部９の制御にしたがって、調音SOMの生成ノードのモデルパラメータを変更する。

時系列生成部６３は、モデルパラメータ変更部６２から供給される生成ノード（が有する時系列パターンモデル２１（図５））から、上述したようにして調音パラメータ系列を生成し、学習部７（図１）と駆動部８に供給する。

次に、図１５のフローチャートを参照して、図１４の生成部６が行う、調音パラメータ系列を生成する生成処理について説明する。

生成部６は、認識部５から認識結果としての、聴覚SOMの勝者ノードを表すノードラベルが供給されると、生成処理を開始する。

即ち、生成部６（図１４）では、ステップＳ３１において、生成ノード決定部６１が、記憶部４に記憶された聴覚SOMを構成するノードのうちの、認識部５からのノードラベルが表す勝者ノードとの結合重みが最大のノードを、記憶部４に記憶された調音SOMのノードから探索して、そのノードを生成ノードとして決定する。さらに、生成ノード決定部６１は、生成ノードを表すノードラベルを、モデルパラメータ変更部６２に供給して、ステップＳ３１からＳ３２に進む。

ステップＳ３２では、モデルパラメータ変更部６２は、記憶部４に記憶された調音SOMのノードのうちの、生成ノード決定部６１からのノードラベルが表す生成ノードを認識し、その生成ノード（が有する時系列パターンモデル２１（図５）のモデルパラメータ）を、記憶部４から読み出す。さらに、モデルパラメータ変更部６２は、制御部９（図１）からの制御にしたがい、生成ノード（が有する時系列パターンモデル２１のモデルパラメータ）を変更し、または変更せずにそのまま、時系列生成部６３に供給して、ステップＳ３２からステップＳ３３に進む。

ステップＳ３３では、時系列生成部６３は、モデルパラメータ変更部６２から供給される生成ノード（が有する時系列パターンモデル２１のモデルパラメータ）から、調音パラメータ系列を生成し、学習部７（図１）と駆動部８に供給して、生成処理を終了する。

次に、図１６は、図１の学習部７の構成例を示している。

学習部７には、生成部６（図１）から、時系列データとしての調音パラメータ系列が供給される。学習部７は、制御部９（図１）の制御にしたがい、記憶部４に記憶された結合ネットワークを構成する調音SOMとしての時系列パターン記憶ネットワークを、生成部６から供給される新たな調音パラメータ系列に基づいて、自己組織的に更新する。

即ち、スコア計算部７１は、記憶部４に記憶された時系列パターン記憶ネットワークである調音SOMを構成する各ノードについて、そのノードが、生成部６から供給される新たな時系列データとしての調音パラメータ系列に適合する度合いとしてのスコアを、図８のスコア計算部４１と同様にして求め、勝者ノード決定部７２に供給する。従って、調音SOMのノードが有する時系列パターンモデル２１が、例えば、図５に示したようにHMMである場合には、スコア計算部７１は、ノードが有する時系列パターンモデル２１としてのHMMから、生成部６から供給された新たな調音パラメータ系列が観測される尤度を求め、そのノードのスコアとして、勝者ノード決定部７２と結合重み更新部７６に供給する。

勝者ノード決定部７２は、記憶部４に記憶された時系列パターン記憶ネットワークとしての調音SOMにおいて、生成部６からの新たな調音パラメータ系列に最も適合するノードを求め、そのノードを、勝者ノードとして決定する。

即ち、勝者ノード決定部７２は、記憶部４に記憶された調音SOMを構成するノードのうちの、スコア計算部７１からのスコアが最も高いノードを勝者ノードとして決定する。そして、勝者ノード決定部７２は、勝者ノードを表すノードラベルを、更新重み決定部７３に供給する。

更新重み決定部７３は、勝者ノード決定部７２から供給されるノードラベルが表す勝者ノードに基づき、記憶部４に記憶された調音SOMを構成する各ノードについて、図８の更新重み決定部４３と同様にして、更新重みを決定し、学習データ更新部７４に供給する。

即ち、更新重み決定部７３は、記憶部４に記憶された調音SOMを構成する各ノード（勝者ノードを含む）の更新重みを、そのノードと、勝者ノードとのパターン間距離に基づいて決定し、学習データ更新部７４に供給する。

なお、調音SOMのノードのスコアは、更新重み決定部７３で求めても良いが、スコア計算部７１から更新重み決定部７３に供給するようにしても良い。

学習データ更新部７４は、記憶部４に記憶された調音SOMの各ノードが有する学習データ記憶部２２（図５）に記憶された学習データを、図８の学習データ更新部４４と同様にして更新する。

即ち、学習データ更新部７４は、調音SOMのノードが有する学習データ記憶部２２に既に記憶されている学習データと、生成部６から供給される新たな調音パラメータ系列とを、更新重み決定部７３からの、対応するノードの更新重みにしたがって混合し、その混合結果を、新たな学習データとして、学習データ記憶部２２に記憶させることで、その学習データ記憶部２２の記憶内容を更新する。

また、学習データ更新部７４は、学習データ記憶部２２（図５）に記憶された学習データを、更新重みにしたがって更新すると、その更新が終了した旨の終了通知を、モデル学習部７５に供給する。

モデル学習部７５は、学習データ更新部７４から終了通知を受けると、その学習データ更新部７４による更新後の学習データ記憶部２２（図５）に記憶された学習データを用いて、記憶部４に記憶された調音SOMの各ノードが有する時系列パターンモデル２１の学習を行うことにより、その時系列パターンモデル２１（のモデルパラメータ）を更新する。

従って、モデル学習部７５による、調音SOMのノードが有する時系列パターンモデル２１の更新は、そのノードが有する学習データ記憶部２２（図５）に記憶されていた学習データ（の一部）と、生成部６から供給された新たな調音パラメータ系列とに基づいて行われる。

結合重み更新部７６は、スコア計算部７１から供給される調音SOMの各ノードの、生成部６から供給された新たな調音パラメータ系列に対するスコアに基づいて、記憶部４に記憶された結合ネットワークの結合重み（聴覚SOMのノードと調音SOMのノードとの結合の度合い）を更新する。

次に、図１７のフローチャートを参照して、図１６の学習部７が、調音SOMの学習（更新）と、結合重みの更新とを行う学習処理について説明する。

学習部７は、生成部６から、新たな時系列データとしての調音パラメータ系列が供給され、制御部９から、その新たな調音パラメータ系列を用いた学習の指示があると、記憶部４に記憶された調音SOMと結合重みを更新する学習処理を開始する。

即ち、学習部７（図１６）では、ステップＳ４１において、スコア計算部７１が、記憶部４に記憶された調音SOMを構成する各ノードについて、そのノードが、生成部６からの新たな調音パラメータ系列に適合する度合いを表すスコアを求める。

具体的には、調音SOMのノードが有する時系列パターンモデル２１（図５）が、例えばHMMである場合には、そのHMMから、新たな調音パラメータ系列が観測される対数尤度が、例えば、ビタビアルゴリズムにより計算され、調音SOMを構成するノードの、生成部６からの新たな調音パラメータ系列に対するスコアとして求められる。

スコア計算部７１は、調音SOMが有するすべてのノードについて、新たな調音パラメータ系列に対するスコアを計算すると、その各ノードについてのスコアを、勝者ノード決定部７２と結合重み更新部７６に供給して、ステップＳ４１からステップＳ４２に進む。

ステップＳ４２では、勝者ノード決定部７２は、調音SOMを構成するノードのうちの、スコア計算部７１からのスコアが最も高いノードを求め、そのノードを勝者ノードとして決定する。そして、勝者ノード決定部７２は、勝者ノードを表すノードラベルを、更新重み決定部７３に供給して、ステップＳ４２からステップＳ４３に進む。

ステップＳ４３では、更新重み決定部７３は、勝者ノード決定部７２からのノードラベルが表す勝者ノードを、いわば基準として、調音SOMを構成する各ノードの更新重みを決定する。

即ち、更新重み決定部７３は、図９で説明したように、調音SOMの更新（学習）が進むにつれ、パターン間距離dの変化に対する更新重みαの変化が急峻になっていく、式（１）で表される距離／重み曲線にしたがって、調音SOMの各ノードの更新重みαを決定し、学習データ更新部７４に供給する。

そして、ステップＳ４３からステップＳ４４に進み、学習データ更新部７４は、調音SOMの各ノードが有する学習データ記憶部２２（図５）に記憶された学習データを、更新重み決定部７３からの、対応するノードの更新重みにしたがって更新する。即ち、学習データ更新部７４は、図１０で説明したように、生成部６から供給された新たな調音パラメータ系列と、調音SOMのノードの学習データ記憶部２２に記憶されている旧学習データとを、そのノードの更新重みαに対応した比率α:H-αで混合することにより、H個の新たな学習データを得て、そのH個の新たな学習データによって、学習データ記憶部２２の記憶内容を更新する。

学習データ更新部７４は、調音SOMのノードすべての学習データ記憶部２２（図５）の記憶内容を更新すると、その更新が終了した旨の終了通知を、モデル学習部７５に供給する。

モデル学習部７５は、学習データ更新部７４から終了通知を受けると、ステップＳ４４からステップＳ４５に進み、調音SOMのモデルパラメータを更新する。

即ち、モデル学習部７５は、調音SOMの各ノードについて、学習データ更新部７４による更新後の学習データ記憶部２２に記憶された新たな学習データを用いて、時系列パターンモデル２１の学習を行うことにより、その時系列パターンモデル２１のモデルパラメータを更新する。

具体的には、調音SOMのノードが有する時系列パターンモデル２１が、例えばHMMである場合には、そのノードが有する学習データ記憶部２２に記憶された新たな学習データを用いて、HMMの学習が行われる。この学習では、例えば、HMMの現在のモデルパラメータとしての状態遷移確率と出力確率密度関数を初期値とし、新たな学習データを用いて、Baum-Welch法により、新たなモデルパラメータとしての状態遷移確率と出力確率密度関数がそれぞれ求められる。そして、その新たな状態遷移確率と出力確率密度関数によって、調音SOMのモデルパラメータとしてのHMMの状態遷移確率と出力確率密度関数（を定義する、例えば、平均ベクトルや共分散行列）がそれぞれ更新される。

その後、ステップＳ４５からＳ４６に進み、結合重み更新部７６は、ステップＳ４１でスコア計算部７１から供給された調音SOMの各ノードの、生成部６から供給された新たな調音パラメータ系列に対するスコアに基づいて、記憶部４に記憶された結合ネットワークの結合重みを更新し、学習処理を終了する。

次に、図１８のフローチャートを参照して、図１の情報処理装置の動作について説明する。なお、以下では、聴覚SOMおよび調音SOMのノードが有する時系列パターンモデル２１（図５）が、例えば、HMMであるとする。

まず最初に、ステップＳ１０１において、制御部９は、記憶部４に記憶された結合ネットワークを初期化して、ステップＳ１０２に進む。

即ち、制御部９は、記憶部４に記憶された結合ネットワークを構成する聴覚SOMおよび調音SOMのノードが有するHMMのモデルパラメータとして、適当な（例えば、ランダムな）値を与えるとともに、聴覚SOMのノードと調音SOMのノードとの結合重みとして、適当な（例えば、ランダムな）値を与える。

ステップＳ１０２では、観測部１において、例えば、ユーザの発話を待って、音声区間の検出が行われ、その音声区間の音声データが、特徴抽出部２に供給されて、ステップＳ１０２からＳ１０３に進む。

ステップＳ１０３では、特徴抽出部２が、観測部１からの音声データから音響パラメータを抽出し、時系列の音響パラメータ、即ち、音響パラメータ系列を、学習部３と認識部５に供給して、ステップＳ１０４に進む。

ステップＳ１０４では、認識部５が、特徴抽出部２からの音響パラメータ系列、即ち、ユーザの発話の音響パラメータ系列を用いて、図１３で説明した認識処理を行い、ユーザの発話の認識結果としての、聴覚SOMの勝者ノードを表すノードラベルを、生成部６と制御部９に供給して、ステップＳ１０５に進む。

ここで、ユーザの発話に対して得られる聴覚SOMの勝者ノードを、以下、適宜、発話勝者ノードという。

ステップＳ１０５では、学習部３が、特徴抽出部２からの音響パラメータ系列、即ち、ユーザの発話の音響パラメータ系列を用いて、図１１で説明した学習処理を行い、これにより、記憶部４に記憶された聴覚SOMを更新して、ステップＳ１０６に進む。

ステップＳ１０６乃至ステップＳ１０９では、生成部６が、図１５で説明した生成処理を行う。

即ち、ステップＳ１０６では、生成部６（図１４）の生成ノード決定部６１が、図１５のステップＳ３１で説明したように、記憶部４に記憶された聴覚SOMを構成するノードのうちの、認識部５が直前のステップＳ１０４において供給するノードラベルが表す発話勝者ノードとの結合重みが最大のノードを、記憶部４に記憶された調音SOMのノードから探索して、生成ノードとして決定する。そして、生成ノード決定部６１は、生成ノードを表すノードラベルを、モデルパラメータ変更部６２に供給して、ステップＳ１０６からＳ１０７に進む。

ステップＳ１０７では、生成部６（図１４）のモデルパラメータ変更部６２が、図１５のステップＳ３２で説明したように、記憶部４に記憶された調音SOMのノードのうちの、生成ノード決定部６１からのノードラベルが表す生成ノードを認識し、その生成ノード（が有する時系列パターンモデル２１（図５）のモデルパラメータ）を、記憶部４から読み出す。

そして、ステップＳ１０７からステップＳ１０８に進み、モデルパラメータ変更部６２は、図１５のステップＳ３２で説明したように、制御部９からの制御にしたがい、記憶部４から読み出した生成ノードが有する時系列パターンモデル２１のモデルパラメータ（以下、適宜、単に、生成ノードのモデルパラメータともいう）を変更し、または変更せずにそのまま、時系列生成部６３に供給して、ステップＳ１０９に進む。

ここで、ステップＳ１０８乃至Ｓ１１４の処理は、ユーザの発話によって得られる１の音声区間の音声データについて、１回以上行われるループ処理であり、制御部９は、例えば、ユーザの発話によって得られる１の音声区間の音声データについて最初に行われる（１回目の）ステップＳ１０８の処理では、生成ノードのモデルパラメータを変更せずにそのまま時系列生成部６３に供給するように、モデルパラメータ変更部６２を制御し、２回目以降のステップＳ１０８の処理では、生成ノードのモデルパラメータを変更して時系列生成部６３に供給するように、モデルパラメータ変更部６２を制御する。

ステップＳ１０９では、生成部６（図１４）の時系列生成部６３が、図１５のステップＳ３３で説明したように、モデルパラメータ変更部６２から供給される生成ノードのモデルパラメータ（で定義される時系列パターンモデル２１としてのHMM）から、調音パラメータ系列を生成し、学習部７と駆動部８に供給して、ステップＳ１１０に進む。

ここで、時系列生成部６３は、上述したように、モデルパラメータ変更部６２から供給される生成ノードのモデルパラメータから、調音パラメータ系列を生成する。従って、モデルパラメータ変更部６２から時系列生成部６３に供給される生成ノードのモデルパラメータが、ステップＳ１０８で変更されている場合、ステップＳ１０９において、そのモデルパラメータから生成される調音パラメータ系列も変更されることになる。

ステップＳ１１０では、駆動部８が、生成部６から供給される調音パラメータ系列にしたがって駆動し、即ち、生成部６から供給される調音パラメータ系列を用いて音声合成を行う。これにより、駆動部８は、合成音を生成して出力し、ステップＳ１１０からステップＳ１１１に進む。

駆動部８が直前のステップＳ１１０で出力した合成音は、観測部１において観測される。ステップＳ１１１において、観測部１は、その観測値に基づき、合成音の音声区間を検出し、その音声区間の音声データを、特徴抽出部２に供給して、ステップＳ１１２に進む。

ステップＳ１１２では、特徴抽出部２が、ステップＳ１０３における場合と同様に、観測部１からの音声データから音響パラメータを抽出し、時系列の音響パラメータ、即ち、音響パラメータ系列を、認識部５に供給して、ステップＳ１１３に進む。

ステップＳ１１３では、認識部５が、ステップＳ１０４における場合と同様に、特徴抽出部２からの音響パラメータ系列、即ち、駆動部８が出力した合成音の音響パラメータ系列を用いて、図１３で説明した認識処理を行い、駆動部８が出力した合成音の認識結果としての、聴覚SOMの勝者ノードを表すノードラベルを、制御部９に供給して、ステップＳ１１４に進む。

ここで、駆動部８が出力した合成音に対して得られる聴覚SOMの勝者ノードを、以下、適宜、合成音勝者ノードという。

ステップＳ１１４では、制御部９が、例えば、ステップＳ１０４において認識部５から供給されたノードラベルが表す発話勝者ノードと、ステップＳ１１３において認識部５から供給されたノードラベルが表す合成音勝者ノードとに基づき、生成部６がステップＳ１０９で生成する調音パラメータ系列の変更、ひいては、ステップＳ１０８での生成ノードのモデルパラメータの変更を終了する終了条件が満たされるかどうかを判定する。

ここで、終了条件としては、例えば、聴覚SOMの、ユーザの発話の認識結果としての発話勝者ノードと、駆動部８が出力した合成音の認識結果としての合成音勝者ノードとが一致しているという条件を採用することができる。かかる終了条件が満たされる場合には、駆動部８が出力した合成音の認識結果（としての聴覚SOMの勝者ノード）が、ユーザの発話の認識結果（としての聴覚SOMの勝者ノード）に一致することになるから、駆動部８が出力した合成音は、聴覚SOMによって認識することができるレベルでは、ユーザの発話に一致することになる。

なお、終了条件としては、その他、例えば、聴覚SOMの、ユーザの発話の認識結果としての発話勝者ノードと、駆動部８が出力した合成音の認識結果としての合成音勝者ノードとのパターン間距離が、所定の閾値（例えば、１）以下であるという条件を採用することができる。

さらに、ステップＳ１０８乃至Ｓ１１４のループ処理において、２回目以降に行われるステップＳ１１４では、発話勝者ノードと合成音勝者ノードとのパターン間距離が、前回のパターン間距離以上であるという条件（発話勝者ノードと合成音勝者ノードとのパターン間距離が極小値となったという条件）を、終了条件として採用することができる。

ステップＳ１１４において、生成ノードのモデルパラメータの変更を終了する終了条件が満たされないと判定された場合、即ち、例えば、発話勝者ノードと合成音勝者ノードとのパターン間距離が所定の閾値よりも大であり、従って、駆動部８が出力した合成音が、ユーザの発話に似ていない場合、ステップＳ１０８に戻り、以下、同様の処理が繰り返される。

即ち、この場合、ステップＳ１０８の処理は、ユーザの発話によって得られる１の音声区間の音声データについて行われる２回目（以降）の処理であるから、制御部９は、生成ノードのモデルパラメータを変更して時系列生成部６３に供給するように、モデルパラメータ変更部６２を制御する。

従って、モデルパラメータ変更部６２は、制御部９からの制御にしたがい、ステップＳ１０７で記憶部４から読み出した生成ノードのモデルパラメータを変更し、その変更後のモデルパラメータを、時系列生成部６３に供給する。

ここで、生成ノードのモデルパラメータ、即ち、例えば、生成ノードが有するHMMのモデルパラメータの変更の方法としては、例えば、第１乃至第３の変更方法がある。

第１の変更方法では、調音SOMのノードのうちの例えば、発話勝者ノードとの結合重みが２番目に大きい調音SOMのノードが有するHMMのモデルパラメータと、生成ノードが有するHMMのモデルパラメータとの内分点が求められ、その内分点によって表されるHMMのモデルパラメータが、変更後の生成ノードのモデルパラメータとされる。なお、HMMのモデルパラメータどうしの内分点を求める方法については、例えば、Tetsunari Inamura, Hiroaki Tanie and Yoshihiko Nakamura, "From Stochastic Motion Generation and Recognition to Geometric Symbol Development and Manipulation".In the Proc. of Int'l Conf. on Humanoid Robots (Humanoids 2003)、稲邑哲也，谷江博昭，中村仁彦．"隠れマルコフモデルによって抽象化された運動間の関係を記述する原始シンボル空間の構成"、日本機械学会ロボティクス・メカトロニクス講演会2003講演論文集，p. 2P2-3F-B2, 2003などに記載されている。

第２の変更方法では、調音SOMの生成ノード以外の任意のノードが有するHMMのモデルパラメータと、生成ノードが有するHMMのモデルパラメータとの外分点が求められ、その外分点によって表されるHMMのモデルパラメータが、変更後の生成ノードのモデルパラメータとされる。なお、HMMのモデルパラメータどうしの外分点は、内分点を求める場合と同様にして求めることができる。

第３の変更方法では、生成ノードが有するHMMのモデルパラメータがランダムに変更される。

なお、生成ノードが有するHMMのモデルパラメータの変更の方法は、上述した第１乃至第３の変更方法に限定されるものではない。また、生成ノードが有するHMMのモデルパラメータの変更の方法は、第１乃至第３の変更方法のうちのいずれか１つに固定しなければならないわけではない。即ち、生成ノードが有するHMMのモデルパラメータは、場合によって、第１乃至第３の変更方法のいずれかを選択して変更することができる。

具体的には、例えば、直前のステップＳ１１３において（駆動部８が出力した）合成音の認識結果としての合成音勝者ノードと、発話勝者ノードとのパターン間距離がある程度短い場合（あまりに長い場合でない場合）には、第１の変更方法によってモデルパラメータを変更し、パターン間距離があまりに長い場合には、第２または第３の変更方法によってモデルパラメータを変更することができる。

ステップＳ１０８において、モデルパラメータ変更部６２が、上述のように、生成ノードのモデルパラメータを変更し、その変更後のモデルパラメータを、時系列生成部６３に供給すると、ステップＳ１０９に進み、生成部６（図１４）の時系列生成部６３が、モデルパラメータ変更部６２から供給される生成ノードのモデルパラメータ（で定義される時系列パターンモデル２１としてのHMM）から、調音パラメータ系列を生成し、学習部７と駆動部８に供給して、ステップＳ１１０に進む。ステップＳ１１０では、駆動部８が、生成部６から供給された調音パラメータ系列を用いた音声合成により合成音を生成して出力し、ステップＳ１１０からステップＳ１１１に進む。

ここで、いまの場合、モデルパラメータ変更部６２から時系列生成部６３に供給される生成ノードのモデルパラメータは、ステップＳ１０８で変更されているので、今回のステップＳ１０９において、そのモデルパラメータから生成される調音パラメータ系列は、前回のステップＳ１０９で生成されたものから変更されている。従って、今回のステップＳ１１０において、その調音パラメータ系列から生成される合成音も、前回のステップＳ１１０で生成されたものとは異なっている。

以下、ステップＳ１１１乃至Ｓ１１３に順次進み、上述した場合と同様の処理が行われ、直前のステップＳ１１０で生成された合成音に対して図１３の認識処理が行われることにより得られる、その合成音の認識結果としての、聴覚SOMの勝者ノードを表すノードラベルが、認識部５から制御部９に供給され、ステップＳ１１４に進む。

そして、ステップＳ１１４において、生成ノードのモデルパラメータの変更を終了する終了条件が満たされると判定された場合、即ち、例えば、ステップＳ１０８乃至Ｓ１１４のループ処理が何度か繰り返され、ステップＳ１０８で変更されたモデルパラメータのHMMから生成される調音パラメータ系列によって生成される合成音の認識結果としての合成音勝者ノードが発話勝者ノードに一致し、あるいは、合成音勝者ノードと発話勝者ノードとのパターン間距離が所定の閾値以下になり、従って、駆動部８が出力した合成音が、ユーザの発話に似ている場合、ステップＳ１１５に進み、制御部９は、学習部７を制御して、記憶部４に記憶された結合ネットワークの調音SOMと結合重みを更新させ、ステップＳ１０２に戻り、ユーザの次の発話を待って、以下、同様の処理が繰り返される。

即ち、この場合、学習部７は、制御部９の制御にしたがい、直前のステップＳ１０９で生成部６から供給された調音パラメータ系列、つまり、終了条件が満たされた場合の調音パラメータ系列に基づき、記憶部４に記憶された結合ネットワークの調音SOMの更新（学習）と結合重みの更新を、図１７で説明したようにして行う。

具体的には、学習部７（図１６）では、図１７のステップＳ４１で説明したように、スコア計算部７１が、記憶部４に記憶された調音SOMを構成する各ノードについて、そのノードが、直前のステップＳ１０９で生成部６から供給された新たな調音パラメータ系列に適合する度合いを表すスコアを求め、勝者ノード決定部７２と結合重み更新部７６に供給する。

勝者ノード決定部７２は、図１７のステップＳ４２で説明したように、調音SOMを構成するノードのうちの、スコア計算部７１からのスコアが最も高いノードを求め、そのノードを勝者ノードとして決定して、勝者ノードを表すノードラベルを、更新重み決定部７３に供給する。更新重み決定部７３は、図１７のステップＳ４３で説明したように、調音SOMの各ノードについて、勝者ノード決定部７２からのノードラベルが表す勝者ノードとのパターン間距離に応じて、更新重みを決定し、学習データ更新部７４に供給する。

学習データ更新部７４は、図１７のステップＳ４４で説明したように、生成部６から供給された新たな調音パラメータ系列と、調音SOMのノードの学習データ記憶部２２に記憶されている旧学習データとを、そのノードの更新重みに対応した比率で混合することにより、新たな学習データを得て、その新たな学習データによって、学習データ記憶部２２の記憶内容を更新する。

そして、モデル学習部７５は、図１７のステップＳ４５で説明したように、調音SOMの各ノードについて、学習データ更新部７４による更新後の学習データ記憶部２２に記憶された新たな学習データを用いて、時系列パターンモデル２１（ここでは、HMM）の学習を行うことにより、その時系列パターンモデル２１のモデルパラメータを更新する。

その後、結合重み更新部７６は、図１７のステップＳ４６で説明したように、スコア計算部７１から供給された調音SOMの各ノードの、生成部６から供給された新たな調音パラメータ系列に対するスコアに基づいて、記憶部４に記憶された結合ネットワークの結合重みを更新する。

即ち、結合重み更新部７６は、例えば、調音SOMにおいて、終了条件が満たされた場合の調音パラメータ系列（直前のステップＳ１０９で生成部６から供給された調音パラメータ系列）が観測される尤度が最も高いノード、つまり、スコア計算部７１からのスコアが最も高いノードである勝者ノードと、聴覚SOMの各ノードとの結合重みを、聴覚SOMの発話勝者ノードとの結合重みが最も増大するように（強めるように）更新する。

具体的には、結合重み更新部７６は、例えば、次式にしたがって、結合重みを更新する。

cw_new(W,j)=cw_old(W,j)＋βscore_in(j)score_out(W)
・・・（２）

但し、式（２）において、Wは、調音SOMにおいて、終了条件が満たされた場合の調音パラメータ系列が観測される尤度が最も高いノード（スコア計算部７１からのスコアが最も高いノードである勝者ノード）を表すインデックスであり、jは、聴覚SOMを構成する各ノードを表すインデックスである。例えば、聴覚SOMを構成するノードの総数がN個であるとすると、インデックスjは、１，２，・・・，Ｎの値をとる。

また、いま、調音SOMのインデックスWで表されるノード（終了条件が満たされた場合の調音パラメータ系列が観測される尤度が最も高いノード）を、ノード#Wと表すとともに、聴覚SOMのインデックスjで表されるノードを、ノード#jと表すこととすると、式（２）において、cw_new(W,j)は、調音SOMのノード#Wと、聴覚SOMのノード#jとの更新後の結合重みを表し、cw_old(W,j)は、調音SOMのノード#Wと、聴覚SOMのノード#jとの、更新直前の更新重みを表す。

さらに、式（２）において、βは所定の定数であり、score_in(j)は、ユーザの発話に対して求められた聴覚SOMのノード#jのスコアを表す。また、score_out(W)は、終了条件が満たされた場合の調音パラメータ系列に対して求められた調音SOMのノード#Wのスコア、つまり、終了条件が満たされた場合の調音パラメータ系列に対して勝者ノードとなった調音SOMのノード#Wのスコアを表す。

ここで、結合重み更新部７６は、調音SOMのノード#Wのスコアscore_out(W)を、スコア計算部７１から供給されるスコアの中から取得して、式（２）を計算する。また、結合重み更新部７６は、聴覚SOMの各ノード#jのスコアscore_in(j)を、制御部９から取得して、式（２）を計算する。即ち、制御部９は、ユーザの発話に対して求められる聴覚SOMの各ノード#jのスコアscore_in(j)を、認識部５から取得し、結合重み更新部７６に供給するようになっており、結合重み更新部７６は、このようにして制御部５から供給されるスコアscore_in(j)を用いて、式（２）を計算する。

なお、結合重み更新部７６では、ステップＳ１１５において、その他、例えば、次のようにして、記憶部４に記憶された結合ネットワークの結合重みを更新することができる。

即ち、結合重み更新部７６では、例えば、調音SOMにおいて、終了条件が満たされた場合の調音パラメータ系列（直前のステップＳ１０９で生成部６から供給された調音パラメータ系列）が観測される尤度が最も高いノード、つまり、スコア計算部７１からのスコアが最も高いノードである勝者ノードと、その勝者ノードから生成される調音パラメータにしたがって駆動部８が駆動した場合に観測部１において観測される観測値としての合成音に対して決定される聴覚SOMの勝者ノードとの結合重みが最も増大するように（強めるように）、スコア計算部７１からのスコアが最も高い調音SOMのノードである勝者ノードと、聴覚SOMの各ノードとの結合重みを更新する。

cw_new(W,j)=cw_old(W,j)＋βscore_in'(j)score_out(W)
・・・（３）

式（３）において、W，j，cw_new(W,j)，cw_old(W,j)，β，score_out(W)は、式（２）における場合と同様である。また、式（３）において、score_in'(j)は、調音SOMのノード#Wから生成される調音パラメータ系列にしたがって駆動部８が駆動することにより生成される合成音に対して求められる聴覚SOMのノード#jのスコアを表す。

ここで、式（３）にしたがって結合重みを更新する場合には、調音SOMのノード#Wから生成される調音パラメータ系列にしたがって駆動部８が駆動することにより生成される合成音に対して求められる聴覚SOMのノード#jのスコアscore_in'(j)が必要である。

そのため、制御部９は、生成部６を制御して、学習部７によって更新された調音SOMのノード#Wから調音パラメータ系列を生成させる。この場合、生成部６（図１４）では、制御部９の制御にしたがい、モデルパラメータ変更部６２が、記憶部４に記憶された調音SOMのノード#Wのモデルパラメータを読み出し、そのまま、時系列生成部６３に供給する。そして、時系列生成部６３は、モデルパラメータ変更部６２からのノード#Wのモデルパラメータ（で定義される時系列パターンモデル２１としてのHMM）から、調音パラメータ系列を生成し、駆動部８に供給する。

さらに、制御部９は、駆動部８を制御し、生成部６から供給される調音パラメータ系列を用いて、合成音を生成させる。駆動部８が生成した合成音は、観測部１において観測される。観測部１は、その観測値に基づき、合成音の音声区間を検出し、その音声区間の音声データを、特徴抽出部２に供給する。特徴抽出部２では、観測部１からの音声データから音響パラメータが抽出され、時系列の音響パラメータ、即ち、音響パラメータ系列が、学習部３と認識部５に供給される。認識部５では、特徴抽出部２からの音響パラメータ系列、即ち、駆動部８が出力した合成音の音響パラメータ系列を用いて、図１３で説明した認識処理が行われる。

そして、制御部９は、認識部５を制御することにより、合成音の音響パラメータ系列を用いて行われた認識処理において得られた、その合成音の音響パラメータ系列に対する聴覚SOMの各ノード#jのスコアscore_in'(j)を取得し、結合重み更新部７６に供給する。結合重み更新部７６は、このようにして制御部５から供給されるスコアscore_in'(j)を用いて、式（３）を計算する。

なお、ステップＳ１１５において、式（３）を計算することによって、結合重みを更新する場合には、その結合重みの更新後、図１８に点線で示すステップＳ１１６に進み、制御部９が、学習部３を制御することにより、調音SOMのノード#Wから生成された調音パラメータ系列にしたがって駆動部８が駆動することにより生成された合成音の音響パラメータ系列を用いて、記憶部４に記憶された聴覚SOMを更新させる。

即ち、上述したように、駆動部８が調音SOMのノード#Wから生成された調音パラメータ系列にしたがって駆動することにより生成した合成音の音響パラメータ系列が、特徴抽出部２から学習部３と認識部５に供給されるので、学習部３は、制御部９の制御にしたがい、その合成音の音響パラメータ系列を用い、図１１で説明した学習処理を行って、記憶部４に記憶された聴覚SOMを更新する。

以上のように、図１の情報処理装置では、ユーザの発話の音響パラメータ系列に基づき、聴覚SOMの学習（更新）を行う一方、聴覚SOMにおいて、ユーザの発話の音響パラメータに対するスコアが最も高いノードである勝者ノードを決定し、調音SOMにおいて、聴覚SOMの勝者ノードとの結合重みが最大のノードである生成ノードを探索する。さらに、図１の情報処理装置では、生成ノードのモデルパラメータを変更することによって、その生成ノードから生成される調音パラメータ系列を変更し、その調音パラメータ系列にしたがって合成音を生成する。そして、図１の情報処理装置では、その合成音に対して決定される聴覚SOMの勝者ノード（合成音勝者ノード）と、ユーザの発話に対して決定された聴覚SOMの勝者ノード（発話勝者ノード）とに基づき、終了条件が満たされるかどうかを判定し、終了条件が満たされた場合に、結合重みを更新するとともに、終了条件が満たされた場合の調音パラメータ系列に基づき、調音SOMの学習（更新）を行う。

従って、図１の情報処理装置が適用されたロボットなどでは、自己の行動を能動的に変更し、その行動を自己評価して、自己の行動を、他から与えられる刺激に適応させることができる。即ち、例えば、自己の行動としての発話（合成音）を能動的に変更し、その合成音を自己評価して、自己の合成音を、他から与えられる刺激としてのユーザの発話に適応させることができる。

つまり、図１の情報処理装置では、ユーザの発話（社会に存在する音）を、聴覚SOMによって認識し、その発話を真似た合成音を出力するために、調音SOMから得られる調音パラメータを変更し、その変更後の調音パラメータにしたがって音声合成を行うことにより、実際に、合成音を出力する。さらに、図１の情報処理装置では、その合成音を、聴覚SOMによって認識し、その合成音がユーザの発話に近いかどうかを、終了条件を満たすかどうかを判定することによって自己評価する。そして、合成音がユーザの発話に近くなったという評価結果が得られた場合（終了条件を満たす場合）に、調音SOMと聴覚SOMのノードどうしのマッピングをとることで、つまり、ユーザの発話に近い合成音を生成することができる調音SOMのノードと、その合成音またはユーザの発話の認識結果としての聴覚SOMのノードとの結合を強めることで、調音SOMと聴覚SOMのノードどうしの適切な結合（写像）を、教師なし学習で獲得する。

かかるメカニズムによれば、ユーザが発話すると、図１の情報処理装置では、その発話と同様の発話としての合成音の生成を行う調音パラメータ（系列）を得るという目標（調音目標）を達成すべく、調音SOMのノードが有する時系列パターンモデル２１（図５）のモデルパラメータを変更することにより、調音パラメータが変更される。さらに、図１の情報処理装置では、駆動部８が、変更後の調音パラメータにしたがって駆動、つまり合成音を生成し、その合成音を、聴覚SOMを用いて認識することにより、ユーザの発話に近づいたかどうかを、終了条件を判定することにより自己評価する。そして、図１の情報処理装置では、ユーザの発話に近い合成音を生成することができる調音SOMのノードと、その合成音、またはユーザの発話の認識結果としての聴覚SOMのノードとの結合を強めるように、調音SOMと聴覚SOMとのマッピング（結合重み）を更新する。

従って、図１の情報処理装置を、例えば、ロボットに適用することにより、ユーザが発話すると、合成音の出力を繰り返し、ユーザの発話（の音韻）の真似をする、いわゆるオウム返しのような聞き真似を行うロボットを実現することができる。

なお、ユーザの発話のオウム返しを行う方法としては、例えば、ユーザの発話を、辞書を用いて音声認識し、その音声認識結果にしたがって合成音を生成する第１の方法や、ユーザの発話を録音して再生する第２の方法がある。

第１の方法では、音声認識が辞書を用いて行われるため、辞書に登録されていない単語を音声認識することはできず、その結果、そのような単語の合成音を生成することもできない。即ち、第１の方法では、辞書に登録されている単語の範囲でしか、オウム返しを行うことができない。

また、第２の方法では、ユーザの発話を録音して再生するだけなので、再生（出力）される音（音声）に個性がなく、面白みにかける。なお、第２の方法については、ユーザの発話の再生時に、フィルタをかけることで、再生時の音声を変換（音声変換）し、これにより、ユーザの発話とは周波数成分が異なる音（音声）を出力する方法がある。

ここで、オウム返しをする方法、さらには、オウム返しに適用することができる音声変換を行う方法については、例えば、特開平11-9847号公報や、特許第1758551号、特表2001-522471号公報、特開平09-179572、特開2000-122699号公報などに記載されている。

第１や第２の方法をロボットに適用した場合、第１や第２の方法のいずれを適用した場合であっても、ロボットがするオウム返しは、変化がない固定のオウム返しであり、オウム返しをすることができなかったロボットが、オウム返しをすることができるようになるような成長を、ユーザに感じさせることはできない。

一方、図１の情報処理装置をロボットに適用した場合には、ユーザが、ロボットに教えるように発話をすることにより、その発話を徐々に真似してオウム返しをするロボットを実現することができる。さらに、ロボットにおいて生成される合成音は、調音器官としての調音SOMによる制約（例えば、調音SOMのノードの総数や、ノードの配置構造、調音パラメータとして採用するパラメータ、時系列パターンモデル２１（図５）として採用するモデルなど）を受ける。従って、ロボットが、ユーザの発話を真似するのには限界があり、ロボットは、その限界の範囲内において、ユーザの発話を最大限真似した合成音を出力する。このため、ロボットでは、個性があるオウム返しが可能になる。さらに、最初は稚拙なオウム返ししか出来ないが、学習を追うごとに上手になっていく様子を、ユーザは観察することが出来る。

以上のように、図１の情報処理装置によれば、聴覚SOMと調音SOMとの間の写像（聴覚SOMと調音SOMとのノードどうしの結合重み）を、自己評価により、教師なしで獲得することができ、その結果、ユーザの発話（音声）を認識し、その発話を真似た合成音を生成することができるようになる。

また、図１の情報処理装置によれば、聴覚SOMの学習（更新）によって、自己組織的に音韻の区別をすることが出来るようになるので、どのような音韻でも獲得（認識）することが可能となる。すなわち、あらかじめ定義されたある特有の音韻の辞書なしで、任意の音韻の特徴のまとまり（パターン）を真似することができるようになる。つまり、ユーザの発話に応じた音韻を獲得し、その真似をすることができる。

さらに、図１の情報処理装置によれば、ユーザの発話がされると、合成音を実際に出力（することを繰り返）し、ユーザの発話により近い合成音を（出力しようと）探索するので、結果として、ユーザには、そのユーザの発話を真似しているように見える。そして、結合ネットワーク、即ち、聴覚SOMおよび調音SOM、並びに結合重みの学習（更新）が進むほど、ユーザには、上手に真似をすることが出来るようになるように見える。

また、図１の情報処理装置によれば、合成音の生成は、基本的には、ランダムではなく、ユーザの発話に音に近づけようとするように行われるので、ユーザが、外界から観察したときに意味づけができる。即ち、ユーザの発話を真似しようとしていることを、ユーザに感じさせることができる。

さらに、図１の情報処理装置によれば、結合ネットワークの学習（更新）の過程が、ユーザにとっては、オウム返し（聞きまね）をするゲームをしているように見えるので、ユーザが楽しむことができる。

また、図１の情報処理装置によれば、調音器官としての調音SOMによる制約の範囲内において、ユーザの発話を最大限真似した合成音を出力するので、ユーザの発話を録音して再生する場合のような個性がないオウム返しではなく、情報処理装置固有の個性があるオウム返しを行うことができる。

さらに、図１の情報処理装置によれば、ユーザの発話があるごとに、結合ネットワークの学習（更新）を行う、いわゆるオンライン学習が行われるので、ユーザは、オウム返しが徐々に上手になっていく様子を観察することができる。

次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

そこで、図１９は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やＲＯＭ１０３に予め記録しておくことができる。

あるいはまた、プログラムは、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体１１１に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウエアとして提供することができる。

なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部１０８で受信し、内蔵するハードディスク１０５にインストールすることができる。

コンピュータは、CPU(Central Processing Unit)１０２を内蔵している。CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されており、CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部１０７が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、また、CPU１０２は、ハードディスク１０５に格納されているプログラム、衛星若しくはネットワークから転送され、通信部１０８で受信されてハードディスク１０５にインストールされたプログラム、またはドライブ１０９に装着されたリムーバブル記録媒体１１１から読み出されてハードディスク１０５にインストールされたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、LCD(Liquid Crystal Display)やスピーカ等で構成される出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。

ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。

また、プログラムは、１のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

なお、図１の情報処理装置は、実際のロボットの他、例えば、仮想的なロボット、即ち、例えば、ディスプレイ上に表示されるキャラクタなどにも適用することができる。

また、本実施の形態では、聴覚SOMおよび調音SOMのノードが有する時系列パターンモデル２１（図５）として、状態遷移確率モデルの１つであるHMMを採用することとしたが、時系列パターンモデル２１としては、他の状態遷移確率モデルを採用することが可能である。

時系列パターンモデル２１として採用することができる他の状態遷移確率モデルとしては、例えば、ベイジアンネットワークがある。

ベイジアンネットワークでは、変数間の依存関係をグラフ構造で表し、各ノードに条件付き確率を割り当てることでモデル化が行われるが、特に、時間軸に沿った状態遷移モデルを構築することで、時系列データをモデル化することが可能となる。

なお、ベイジアンネットワークのグラフ構造の決定は、例えば、学習データの尤度とグラフ構造の複雑さとを考慮したモデルを選択することにより行われ、条件付き確率の推定には、例えば、最尤推定法やEM(Expectation Maximaization)アルゴリズムなどが利用される。ここで、ベイジアンネットワークの詳細については、例えば、本村陽一、「不確実性モデリングのための情報表現：ベイジアンネット」、２００１年、ベイジアンネットチュートリアルなどに記載されている。

さらに、時系列パターンモデル２１（図５）としては、上述のように、HMMやベイジアンネットワークなどのような状態遷移確率モデルを採用することができる他、関数を近似するモデル（以下、適宜、関数近似モデルという）を採用することもできる。

関数近似モデルは、時系列パターンを、関数f()を用い、例えば、微分方程式{x(t)}'=f(x(t))や、差分方程式x(t+1)=f(x(t))などで表現するモデルで、関数f()が、時系列パターンを特徴づける。なお、tは時間（時刻）（サンプル点）を表し、x(t)は、時刻tの時系列データのサンプル値、または時刻（０から）tまでに観測された時系列データを表す。また、{x(t)}'は、時系列データx(t)の時間tに関する１次微分を表す。

学習データ（時系列データ）から、ある時系列パターンを表す（に対応する）関数f()を求めることを、関数近似と呼ぶと、関数近似の方法としては、例えば、多項式などを用いて関数 f() を表現し、その多項式の係数を、学習データから決定する方法や、ニューラルネットワークによって関数 f() を表現し、そのニューラルネットワークのパラメータを、学習データから決定する方法などがある。

多項式で表現された関数f()の関数近似において、その多項式の係数の決定（推定）は、例えば、最急降下法などによって行うことができる。また、ニューラルネットワークによって表現された関数f()の関数近似において、そのニューラルネットワークのパラメータの決定は、例えば、バックプロパゲーション法によって行うことができる。ここで、バックプロパゲーション法では、ニューラルネットワークに入力と出力のデータを与え、その入力と出力のデータの関係を満たすように、ニューラルネットワークのパラメータの学習が行われる。

例えば、時系列パターンモデル２１として、関数f()を用いた差分方程式x(t+1)=f(x(t))で時系列パターンを表現する関数近似モデルを採用する場合、入力層x(t)と出力層x(t+1)をつなぐ重み（中間層）が、ニューラルネットワークのパラメータであり、このパラメータが、学習データ（時系列データ）を用いて学習される。ニューラルネットワークのパラメータの学習は、初期値を適当に与えて、バックプロパゲーション法により行われる。なお、ニューラルネットワークとしては、例えば、リカレントニューラルネットワークを採用することができる。

関数f()がニューラルネットワークによって表現される時系列パターンモデル２１を有するノードで構成される聴覚SOMおよび調音SOMの学習等でも、上述のHMMを時系列パターンモデル２１として採用した場合と同様に、勝者ノードを決定する必要があり、勝者ノードの決定のためには、聴覚SOMまたは調音SOMの各ノードの、新たな時系列データとしての音響パラメータ系列または調音パラメータ系列に対するスコアを計算する必要がある。

このスコアとしては、例えば、新たな時系列データの観測値（実際の値）と、関数f()がニューラルネットワークによって表現される時系列パターンモデル２１から求められる、新たな時系列データの理論値との差の二乗和などを採用することができる。この場合、スコアの値が最も小さいノードが、新たな時系列データに最も適合するノードである勝者ノードとして決定される。

勝者ノードの決定後は、各ノードの更新重みを決定し、以下、上述のHMMを時系列パターンモデル２１として採用した場合と同様の手順で、各ノード（が有するニューラルネットワーク）のパラメータを更新することができる。

なお、聴覚SOMと調音SOMのノードそれぞれは、必ずしも、同一の時系列パターンモデル２１を有していなければならないわけではない。即ち、聴覚SOMのノードが有する時系列パターンモデル２１としては、例えば、HMMを採用し、調音SOMのノードが有する時系列パターンモデル２１としては、例えば、ニューラルネットワークを採用することができる。

また、本実施の形態では、聴覚SOMのノードを、図５で説明したように、時系列パターンを表現する時系列パターンモデル２１と、その時系列パターンモデル２１の学習に用いる時系列データである学習データを記憶する学習データ記憶部２２とから構成するようにしたが、聴覚SOMのノードは、必ずしも、時系列パターンモデル２１と学習データ記憶部２２で構成する必要はない。即ち、聴覚SOMのノードは、前述の非特許文献１等に記載されている、従来の自己組織化マップと同様に、単に、パラメータ（音響パラメータ）を有するものであっても良い。但し、聴覚SOMのノードを、時系列パターンモデル２１で構成する場合には、時系列データの入力に対して勝者ノードを決定（時系列データを認識）すること、およびノードラベルの入力に対して時系列データを生成することができるが、聴覚SOMのノードが、従来の自己組織化マップと同様に、単に、パラメータ（音響パラメータ）を有するだけである場合には、その聴覚SOMによれば、長さが固定長のデータの入力に対して勝者ノードを決定すること、および長さが固定のデータを生成することしかできず、従って、長さが可変の時系列データの入力に対して勝者ノードを決定すること、および長さが可変の時系列データを生成することは、困難となる。調音SOMについても同様である。

さらに、本実施の形態では、音声（合成音）の認識に用いる聴覚SOMと、合成音の生成に用いる調音SOMとを用意し、ユーザの発話を聴覚SOMを用いて認識する一方、調音SOMを用いて合成音を生成し、その合成音を聴覚SOMを用いて認識することで、聴覚SOMを用いて認識したユーザの発話を真似した合成音を聴覚SOMを用いて生成することができるように、聴覚SOMおよび調音SOMのノードどうしの結合重みの更新、即ち、聴覚SOMと調音SOMとのマッピングを行うようにしたが、その他の複数の自己組織化マップどうしのマッピングを行うことも可能である。

具体的には、例えば、アクチュエータを駆動することによって動くことができるロボットにおいて、画像の認識に用いる自己組織化マップ（以下、適宜、視覚SOMという）と、アクチュエータを駆動する（パラメータを生成する）のに用いる自己組織化マップ（以下、適宜、運動SOMという）とを用意し、ユーザの動きを視覚SOMを用いて認識する一方、運動SOMを用いてアクチュエータを駆動し、その結果動くロボットの動きを視覚SOMを用いて認識することで、視覚SOMを用いて認識したユーザの動きを真似した動きをするアクチュエータの駆動を運動SOMを用いてすることができるように、視覚SOMと運動SOMとのマッピングを行うことができる。なお、ロボットの動きは、例えば、鏡を配置しておき、その鏡に映るロボットの姿を観測することにより、ロボット自身が、視覚SOMを用いて認識することができる。

また、例えば、アクチュエータを駆動することによって動くことができるロボットにおいて、聴覚SOMと運動SOMとを用意し、ユーザが楽器を演奏することにより奏でたメロディを聴覚SOMを用いて認識する一方、運動SOMを用いてアクチュエータを駆動し、その結果動くロボットによる楽器の演奏により奏でられるメロディを聴覚SOMを用いて認識することで、聴覚SOMを用いて認識したユーザが奏でるメロディを真似したメロディを奏でる動きをするアクチュエータの駆動を運動SOMを用いてすることができるように、聴覚SOMと運動SOMとのマッピングを行うことができる。

さらに、この場合、聴覚SOMと運動SOMの他に、視覚SOMも用意し、ユーザが楽器を演奏する動きを視覚SOMを用いて認識する一方、運動SOMを用いてアクチュエータを駆動し、その結果動くロボットの動きを視覚SOMを用いて認識することで、視覚SOMを用いて認識したユーザの演奏の動きを真似した動きをするアクチュエータの駆動を運動SOMを用いてすることができるように、視覚SOMと運動SOMとのマッピングをも行うようにすることができる。なお、この場合、聴覚SOMの勝者ノードとの結合重みが最大の運動SOMのノードと、視覚SOMの勝者ノードとの結合重みが最大の運動SOMのノードとが一致するとは限らないため、運動SOMのいずれのノードを、アクチュエータの駆動に用いるパラメータ（第２のパラメータ）の生成に用いる生成ノードとするかが問題となるが、例えば、運動SOMのノードのうちの、聴覚SOMの勝者ノードとの結合重みと、視覚SOMの勝者ノードとの結合重みとの和が最大のノードを生成ノードとすることができる。

本発明を適用した情報処理装置の一実施の形態の構成例を示すブロック図である。結合ネットワークの構成例を示す図である。聴覚SOMを構成する各ノードが、調音SOMを構成するノードのすべてと結合されている様子を示す図である。聴覚SOM（調音SOM）の第１の構成例を示す図である。ノードの構成例を示す図である。聴覚SOM（調音SOM）の第２の構成例を示す図である。聴覚SOM（調音SOM）の第３の構成例を示す図である。学習部３の構成例を示すブロック図である。更新重みを決定する決定方法を説明するための図である。学習データ記憶部２２に記憶させる学習データを更新する更新方法を説明するための図である。学習部３による学習処理を説明するフローチャートである。認識部５の構成例を示すブロック図である。認識部５による認識処理を説明するフローチャートである。生成部６の構成例を示すブロック図である。生成部６による生成処理を説明するフローチャートである。学習部７の構成例を示すブロック図である。学習部７による学習処理を説明するフローチャートである。情報処理装置の動作を説明するフローチャートである。本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

符号の説明

１観測部，２特徴抽出部，３学習部，４記憶部，５認識部，６生成部，７学習部，８駆動部，９制御部，２１時系列パターンモデル，２２学習データ記憶部，４１スコア計算部，４２勝者ノード決定部，４３更新重み決定部，４４学習データ更新部，４５モデル学習部，５１スコア計算部，５２勝者ノード決定部，６１生成ノード決定部，６２モデルパラメータ変更部，６３時系列生成部，７１スコア計算部，７２勝者ノード決定部，７３更新重み決定部，７４学習データ更新部，７５モデル学習部，７６結合重み更新部，１０１バス，１０２ CPU，１０３ ROM，１０４ RAM，１０５ハードディスク，１０６出力部，１０７入力部，１０８通信部，１０９ドライブ，１１０入出力インタフェース，１１１リムーバブル記録媒体

Claims

複数のノードで構成される第１および第２の自己組織化マップ、並びに前記第１の自己組織化マップのノードと前記第２の自己組織化マップのノードとの結合の度合いを表す結合重みからなる結合ネットワークを記憶する結合ネットワーク記憶手段と、
外部を観測し、観測値を出力する観測手段が出力する観測値から抽出される第１のパラメータに基づき、前記第１の自己組織化マップの学習を行う第１の学習手段と、
前記第１の自己組織化マップにおいて、前記第１のパラメータが観測される尤度が最も高いノードである勝者ノードを決定する勝者ノード決定手段と、
前記第２の自己組織化マップにおいて、前記勝者ノードとの結合の度合いが最も高いノードである生成ノードを探索する探索手段と、
前記生成ノードから、第２のパラメータを生成するパラメータ生成手段と、
前記生成ノードから生成される第２のパラメータを変更させる変更手段と、
前記第２のパラメータにしたがって駆動する駆動手段と、
前記駆動手段が前記第２のパラメータにしたがって駆動した場合に前記観測手段において観測される観測値に対し、前記勝者ノード決定手段によって決定される前記勝者ノードに基づき、前記第２のパラメータの変更を終了する終了条件が満たされるかどうかを判定する判定手段と、
前記終了条件が満たされた場合に、前記結合重みを更新する結合重み更新手段と、
前記終了条件が満たされた場合の前記第２のパラメータに基づき、前記第２の自己組織化マップの学習を行う第２の学習手段と
を備える情報処理装置。
前記観測手段は、音声を観測し、その音声の観測値として音声データを出力し、
前記駆動手段が駆動することにより、合成音が生成される
請求項１に記載の情報処理装置。
前記ノードは、時系列データのパターンである時系列パターンを表現する時系列パターンモデルを有し、
前記第１の学習手段は、時系列の前記第１のパラメータに基づき、前記第１の自己組織化マップの学習を行い、
前記勝者ノード決定手段は、前記第１の自己組織化マップにおいて、時系列の前記第１のパラメータが観測される尤度が最も高い前記勝者ノードを決定し、
前記パラメータ生成手段は、前記生成ノードから、時系列の前記第２のパラメータを生成し、
前記第２の学習手段は、時系列の前記第２のパラメータに基づき、前記第２の自己組織化マップの学習を行う
請求項１に記載の情報処理装置。
前記結合重み更新手段は、前記第１の自己組織化マップの勝者ノードと、前記第２の自己組織化マップにおいて、前記終了条件が満たされた場合の前記第２のパラメータが観測される尤度が最も高いノードとの結合を強めるように、前記結合重みを更新する
請求項１に記載の情報処理装置。
前記結合重み更新手段は、前記第２の自己組織化マップにおいて、前記終了条件が満たされた場合の前記第２のパラメータが観測される尤度が最も高いノードと、そのノードから生成される第２のパラメータにしたがって前記駆動手段が駆動した場合に前記観測手段において観測される観測値に対して決定される前記第１の自己組織化マップの前記勝者ノードとの結合を強めるように、前記結合重みを更新する
請求項１に記載の情報処理装置。
複数のノードで構成される第１および第２の自己組織化マップ、並びに前記第１の自己組織化マップのノードと前記第２の自己組織化マップのノードとの結合の度合いを表す結合重みからなる結合ネットワークを記憶する結合ネットワーク記憶手段と、
外部を観測し、観測値を出力する観測手段が出力する観測値から抽出される第１のパラメータに基づき、前記第１の自己組織化マップの学習を行う第１の学習手段と、
前記第１の自己組織化マップにおいて、前記第１のパラメータが観測される尤度が最も高いノードである勝者ノードを決定する勝者ノード決定手段と、
前記第２の自己組織化マップにおいて、前記勝者ノードとの結合の度合いが最も高いノードである生成ノードを探索する探索手段と、
前記生成ノードから、第２のパラメータを生成するパラメータ生成手段と、
前記生成ノードから生成される第２のパラメータを変更させる変更手段と、
前記第２のパラメータにしたがって駆動する駆動手段と、
前記駆動手段が前記第２のパラメータにしたがって駆動した場合に前記観測手段において観測される観測値に対し、前記勝者ノード決定手段によって決定される前記勝者ノードに基づき、前記第２のパラメータの変更を終了する終了条件が満たされるかどうかを判定する判定手段と、
前記終了条件が満たされた場合に、前記結合重みを更新する結合重み更新手段と、
前記終了条件が満たされた場合の前記第２のパラメータに基づき、前記第２の自己組織化マップの学習を行う第２の学習手段と
を備える情報処理装置が、
前記第１のパラメータに基づき、前記結合ネットワーク記憶手段に記憶された前記第１の自己組織化マップの学習を行う第１の学習ステップと、
前記第１の自己組織化マップにおいて、前記第１のパラメータが観測される尤度が最も高いノードである勝者ノードを決定する勝者ノード決定ステップと、
前記第２の自己組織化マップにおいて、前記勝者ノードとの結合の度合いが最も高いノードである生成ノードを探索する探索ステップと、
前記生成ノードから、第２のパラメータを生成するパラメータ生成ステップと、
前記生成ノードから生成される第２のパラメータを変更させる変更ステップと、
前記駆動手段が前記第２のパラメータにしたがって駆動した場合に前記観測手段において観測される観測値に対し、前記勝者ノード決定手段によって決定される前記勝者ノードに基づき、前記第２のパラメータの変更を終了する終了条件が満たされるかどうかを判定する判定ステップと、
前記終了条件が満たされた場合に、前記結合重みを更新する結合重み更新ステップと、
前記終了条件が満たされた場合の前記第２のパラメータに基づき、前記第２の自己組織化マップの学習を行う第２の学習ステップと
を含む情報処理方法。
コンピュータに実行させるプログラムにおいて、
複数のノードで構成される第１および第２の自己組織化マップ、並びに前記第１の自己組織化マップのノードと前記第２の自己組織化マップのノードとの結合の度合いを表す結合重みからなる結合ネットワークを記憶する結合ネットワーク記憶手段と、
外部を観測し、観測値を出力する観測手段が出力する観測値から抽出される第１のパラメータに基づき、前記第１の自己組織化マップの学習を行う第１の学習手段と、
前記第１の自己組織化マップにおいて、前記第１のパラメータが観測される尤度が最も高いノードである勝者ノードを決定する勝者ノード決定手段と、
前記第２の自己組織化マップにおいて、前記勝者ノードとの結合の度合いが最も高いノードである生成ノードを探索する探索手段と、
前記生成ノードから、第２のパラメータを生成するパラメータ生成手段と、
前記生成ノードから生成される第２のパラメータを変更させる変更手段と、
前記第２のパラメータにしたがって駆動する駆動手段と、
前記駆動手段が前記第２のパラメータにしたがって駆動した場合に前記観測手段において観測される観測値に対し、前記勝者ノード決定手段によって決定される前記勝者ノードに基づき、前記第２のパラメータの変更を終了する終了条件が満たされるかどうかを判定する判定手段と、
前記終了条件が満たされた場合に、前記結合重みを更新する結合重み更新手段と、
前記終了条件が満たされた場合の前記第２のパラメータに基づき、前記第２の自己組織化マップの学習を行う第２の学習手段と
して、コンピュータを機能させるためのプログラム。