JP5633734B2

JP5633734B2 - 情報処理装置、情報処理方法、及び、プログラム

Info

Publication number: JP5633734B2
Application number: JP2010179355A
Authority: JP
Inventors: 佐部　浩太郎; 浩太郎佐部
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-11-11
Filing date: 2010-08-10
Publication date: 2014-12-03
Anticipated expiration: 2030-08-10
Also published as: CN102184406B; US8447708B2; JP2011123869A; US20110112997A1; CN102184406A

Description

本発明は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、アクションを自律的に行うことが可能なエージェント（自律エージェント）が、そのエージェント以外の対象である他者が行うアクションを、効率的に、模倣（真似）することができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。

アクションを自律的に行うことが可能なエージェントとしては、環境等をセンシングすることにより得られる観測値の系列を用いて、HMM(Hidden Markov Model)等の学習モデルの学習を行うとともに、HMMの状態遷移ごとに、その状態遷移を生じさせるのに行われるべきアクションを出力するコントローラの学習を行うエージェントがある（例えば、特許文献１を参照）。

かかるエージェントでは、HMMのある１つの状態から他の１つの状態に辿り着く状態の系列が求められ、コントローラを用い、その状態の系列の状態遷移を生じさせるアクションが行われる。

ところで、人間は、自分以外の他者を模倣することができ、模倣によれば、自分自身が、自分自身だけで試行錯誤しながら学習するよりも、はるかに効率的に、スキルや知識等を獲得することができる。

スキルや知識等を獲得する模倣では、模倣を行う者（模倣者）は、例えば、模倣者自身の状態が、他者から受ける刺激（他者からの光等）によって知覚する他者の状態となるように、模倣者自身の身体を動かす。

すなわち、模倣者は、模倣者自身が（内部的に）知覚する模倣者自身の状態が、他者から受ける刺激によって知覚する他者の状態に一致するように、身体を動かす。

人間（模倣者）は、他者を模倣する場合に、模倣者自身の状態が、他者の状態に一致する状態になっているときに模倣者が感じるであろう感覚を、それまでの経験から知っており、その感覚が得られるように、身体を動かすと考えることができる。

したがって、模倣を行うには、模倣者が他者から受ける刺激によって知覚する他者の状態（視覚的に見える他者の状態）と、模倣者自身の状態が、模倣者が知覚した他者の状態に一致する状態になっているときに模倣者が感じるであろう感覚（模倣者が体感する模倣者自身の状態）との対応付けができていなければならない。

ここで、この対応付けを、以下、他者の状態と模倣者自身の状態との対応付けともいう。

模倣を行うために、他者の状態と模倣者自身の状態との対応付けを必要とすることをサポートする生理学的知見として、ミラーニューロンと呼ばれるニューロンの存在がある。

例えば、人間は、自分自身が「掴む」というアクション（行為）（行動）を行うときと、他人が行う同一の「掴む」というアクションを観察しているときとで、脳内で、共通に発火するニューロン群が存在し、このニューロン群が、ミラーニューロンと呼ばれる。

エージェントに、そのエージェント以外の対象、すなわち、例えば、他のエージェントを模倣させる場合、模倣者であるエージェントにおいて、他者の状態と模倣者自身の状態との対応付けを行うことが必要となる。

しかしながら、エージェントに、そのエージェント以外の対象、すなわち、例えば、他のエージェントを模倣させる場合、模倣者であるエージェントにおいて、他者の状態と模倣者自身の状態との対応付けを、何らの条件（仮定）もなしに行うことは、困難である。

すなわち、エージェントに、他のエージェントを模倣させる場合、他者の状態を表すデータは、模倣者であるエージェント（以下、セルフ(Self)エージェントともいう）において、他者である他のエージェント（以下、アザー(Other)エージェントともいう）から観測される。また、模倣者自身の状態を表すデータは、セルフエージェントにおいて、そのセルフエージェントの内部の可動部分等から観測される。

セルフエージェントにおいて、他者の状態を表すデータとして観測される観測値と、模倣者自身の状態を表すデータとして観測される観測値とは、種類（モーダル(modal)）が異なる観測値となることがある。

具体的には、模倣として、例えば、他者を見て真似をする見真似を行う場合には、セルフエージェントでは、例えば、アザーエージェントをカメラで撮影することによって得られる画像が、他者の状態を表す観測値として観測されるとともに、セルフエージェントの可動部分（例えば、関節に対応する部分）の角度が、模倣者自身の状態（ここでは、姿勢の状態）を表す観測値として観測される。

アザーエージェントの画像と、セルフエージェントの可動部分の角度とは、種類が異なる観測値であるため、セルフエージェントは、アザーエージェントの画像と、セルフエージェントの可動部分の角度とを比較することによっては、セルフエージェント自身の状態が、カメラで撮影された画像に映ったアザーエージェントの状態に一致する状態になっているかどうかを判定することはできず、したがって、他者の状態と模倣者自身の状態との対応付けを学習（獲得）すること、つまり、セルフエージェント自身の状態を、アザーエージェントの画像に映ったアザーエージェントの状態に一致する状態にするために、セルフエージェントが、セルフエージェント自身の可動部分の角度を、どの程度にすれば良いのかを認識することは、困難である。

セルフエージェントが、他者（アザーエージェント）の状態と模倣者（セルフエージェント）自身の状態との対応付けの学習を行うには、その学習を行う環境に、他者の状態と模倣者自身の状態とを対応付けるための所定の条件（以下、対応付け条件ともいう）を設定する必要がある。

例えば、セルフエージェントが、何らかのアクションを行うことに成功したときに、いわゆるケアギバー(care giver)が、セルフエージェントが成功したアクションと同様のアクションを、そのアクションを表す発話とともに行うことを、対応付け条件とすることで、セルフエージェントは、他者（ケアギバー）の状態と模倣者（セルフエージェント）自身の状態とを対応付けることができる。

すなわち、セルフエージェントが、例えば、コップを掴むアクションを行うことに成功したときに、ケアギバーが、コップを掴むアクションを、「コップを掴む」という発話とともに行うことで、セルフエージェントは、他者（ケアギバー）がコップを掴むアクションを行ったときの状態と、セルフエージェント自身がコップを掴むアクションを行ったときの状態とを対応付けることができる。

また、例えば、親が、子供の行動を真似してあげることによって、子供の感覚の発達が促されるように、ケアギバーが、有意な確率で、セルフエージェントが行うアクションを真似ることを、対応付け条件とすることで、セルフエージェントは、他者（ケアギバー）の状態と模倣者（セルフエージェント）自身の状態とを対応付けることができる。

さらに、例えば、セルフエージェントの前に鏡を設置し、鏡に映るセルフエージェントを他者とみなすことを対応付け条件とすることで、セルフエージェントは、他者（鏡に映ったセルフエージェント）の状態と模倣者（セルフエージェント）自身の状態とを対応付けることができる。なお、この場合、他者の状態と模倣者自身の状態との対応付けの学習が、ある程度進行した後に、鏡に代えて、アザーエージェントを置くことで、セルフエージェントは、他者の状態と模倣者自身の状態との対応付けの学習の結果を利用して、アザーエージェントが行うアクションを模倣することができる。

特開2009-223444号公報

以上のように、セルフエージェントが、アザーエージェント等の他者のアクションを模倣する場合には、他者の状態と模倣者自身の状態との対応付けの学習を、ケアギバー等に依存する対応付け条件の下で行う必要がある。

しかしながら、他者の状態と模倣者自身の状態との対応付けの学習を、対応付け条件の下で行わなければならないのは、効率的ではなく、ひいては、セルフエージェントが、アザーエージェント等の他者の様々なアクションを、効率的に模倣することが困難となる。

一方、人間は、他人が教える意図を持ってアクションを行っていなくても、他人のアクションを模倣する能力を持っており、セルフエージェントが、人間と同様の能力を持っているかのように、他者の様々なアクションを、効率的に模倣することができるようになることの要請は高い。

本発明は、このような状況に鑑みてなされたものであり、エージェントが、他者が行うアクションを、効率的に、模倣することができるようにするものである。

本発明の一側面の情報処理装置、又は、プログラムは、内部状態を有し、前記内部状態の遷移モデルを持ち、前記内部状態から観測値が生成される観測モデルを持つ学習モデルである状態遷移予測モデルの内部状態を自己組織化する学習を第１の時系列データを用いて行い、前記第１の時系列データを用いた学習を行った後の前記状態遷移予測モデルの観測モデルの学習を、前記遷移モデルを固定して、前記第１の時系列データとは異なる第２の時系列データを用いて行うことにより、前記第１の時系列データの各サンプル値が観測される第１の観測モデルと、前記第２の時系列データの各サンプル値が観測される第２の観測モデルとを有する前記状態遷移予測モデルを求めるモデル学習手段を備える情報処理装置、又は、情報処理装置としてコンピュータを機能させるためのプログラムである。

本発明の一側面の情報処理方法は、内部状態を有し、前記内部状態の遷移モデルを持ち、前記内部状態から観測値が生成される観測モデルを持つ学習モデルである状態遷移予測モデルの内部状態を自己組織化する学習を第１の時系列データを用いて行い、前記第１の時系列データを用いた学習を行った後の前記状態遷移予測モデルの観測モデルの学習を、前記遷移モデルを固定して、前記第１の時系列データとは異なる第２の時系列データを用いて行うことにより、前記第１の時系列データの各サンプル値が観測される第１の観測モデルと、前記第２の時系列データの各サンプル値が観測される第２の観測モデルとを有する前記状態遷移予測モデルを求めるステップを含む情報処理方法である。

以上のような一側面においては、内部状態を有し、前記内部状態の遷移モデルを持ち、前記内部状態から観測値が生成される観測モデルを持つ学習モデルである状態遷移予測モデルの内部状態を自己組織化する学習を第１の時系列データを用いて行い、前記第１の時系列データを用いた学習を行った後の前記状態遷移予測モデルの観測モデルの学習を、前記遷移モデルを固定して、前記第１の時系列データとは異なる第２の時系列データを用いて行うことにより、前記第１の時系列データの各サンプル値が観測される第１の観測モデルと、前記第２の時系列データの各サンプル値が観測される第２の観測モデルとを有する前記状態遷移予測モデルが求められる。

なお、情報処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

本発明の一側面によれば、第１の時系列データの各サンプル値が観測される第１の観測モデルと、第２の時系列データの各サンプル値が観測される第２の観測モデルとを有する状態遷移予測モデルを求めることができる。そして、この状態遷移予測モデルを用いて、例えば、エージェントが、他者が行うアクションを、効率的に、模倣することが可能となる。

本発明を適用したエージェントの一実施の形態の構成例を示すブロック図である。 left-to-right型のHMMの例を示す図である。エルゴディック型のHMMの例を示す図である。 2次元近傍拘束HMMの例を示す図である。スパースな構造のHMMの、2次元近傍拘束HMM以外の例を示す図である。マルチ観測予測モデルとしての状態遷移予測モデルを模式的に示す図である。セルフエージェントの外観の構成例を示す図である。セルフエージェントから観測される第１の観測値の例を示す図である。アザーエージェントの外観の構成例と、そのアザーエージェントから観測される第２の観測値の例を示す図である。第２の観測値の具体例を説明する図である。モデル学習処理を説明するフローチャートである。セルフ学習処理を説明するフローチャートである。セルフ学習後のマルチ観測予測モデルを示す図である。模倣学習処理を説明するフローチャートである。模倣学習後のマルチ観測予測モデルにおいて、第１の時系列データが観測される状態系列と、第２の時系列データが観測される状態系列とを示す図である。認識処理を説明するフローチャートである。アクション学習処理を説明するフローチャートである。プランニング処理を説明するフローチャートである。アクション信号生成処理を説明するフローチャートである。模倣処理を説明するフローチャートである。人型のセルフエージェントと、人型のセルフエージェントから観測される第１の観測値との例を示す図である。人型のアザーエージェントと、人型のアザーエージェントから観測される第２の観測値との例を示す図である。本発明を適用したレコーダの一実施の形態の構成例を示すブロック図である。ハイライト検出器学習部１２１の構成例を示すブロック図である。ハイライト検出部１２３の構成例を示すブロック図である。ハイライト検出器学習部１２１の処理を説明する図である。ハイライト検出器学習部１２１の処理を説明する図である。本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

［本発明を適用したエージェントの一実施の形態］

図１は、本発明の情報処理装置を適用したエージェントの一実施の形態の構成例を示すブロック図である。

図１において、エージェントは、センサ部１１、学習認識部１２、アクション制御部１３、及び、アクション部１４を有し、自律的にアクションを行う。さらに、エージェントは、他のエージェントであるアザーエージェントを模倣する。

センサ部１１は、例えば、被写体を撮影して、その被写体が映った画像を出力するカメラや、アクション部１４の、回転する可動部分（図示せず）の角度を検出する検出器等の、物理量をセンシングするセンサで構成される。

センサ部１１は、センシングの結果得られる、被写体が映った画像や、アクション部１４の可動部分の角度等を、観測可能な観測値として、時系列に出力する。

センサ部１１が出力する観測値は、学習認識部１２に供給される。

学習認識部１２は、バッファ２１、モデル学習部２２、認識部２３、及び、モデル記憶部２４を有し、センサ部１１からの観測値の時系列である時系列データを用いての、マルチ観測予測モデルの学習と、その学習後のマルチ観測予測モデルを用いての、時系列データの認識とを行う。

すなわち、バッファ２１には、センサ部１１からの観測値が供給される。

バッファ２１は、センサ部１１からの観測値を、順次記憶する。

モデル学習部２２は、バッファ２１に記憶された観測値の時系列を、モデル記憶部２４に記憶されたマルチ観測予測モデルの学習に用いるモデル学習用データとして読み出し、そのモデル学習用データを用いて、モデル記憶部２４に記憶されたマルチ観測予測モデルの学習を行う。

認識部２３は、バッファ２１に記憶された観測値の時系列を、モデル記憶部２４に記憶されたマルチ観測予測モデルを用いた認識の対象とする認識対象データとして読み出し、モデル記憶部２４に記憶されたマルチ観測予測モデルを用いて、認識対象データを認識する。

モデル記憶部２４は、マルチ観測予測モデルを記憶する。

モデル記憶部２４に記憶されるマルチ観測予測モデルとしては、内部状態を有し、内部状態の遷移モデル、及び、内部状態から観測値が生成される観測モデルを持つ学習モデルであって、次の時刻の観測値の予測が可能な学習モデルである状態遷移予測モデルが採用される。

すなわち、マルチ観測予測モデルとしては、例えば、観測値が観測される内部状態どうしの間の状態遷移の遷移確率（遷移モデル）と、内部状態から観測値が観測される観測尤度（観測モデル）とを有する、例えば、HMM(Hidden Markov Model)を利用した状態遷移予測モデルを採用することができる。

ここで、モデル学習部２２は、モデル記憶部２４に記憶されたマルチ観測予測モデルを自己組織化(Self-organization)する学習（マルチ観測予測モデルのモデルパラメータがモデル学習用データのみを用いて決定され、モデルパラメータを、外部から強制的に制御することをしない学習）を、バッファ２１に記憶される観測値の時系列のうちの、後述する第１の時系列データをモデル学習用データとして用いて行う。

さらに、モデル学習部２２は、第１の時系列データを用いた学習を行った後のマルチ観測予測モデルの学習を、遷移確率を固定して、バッファ２１に記憶される観測値の時系列のうちの、第１の時系列データとは異なる、後述する第２の時系列データを用いて行う。

これにより、モデル学習部２２は、第１の時系列データの各サンプル値が観測される第１の観測尤度と、第２の時系列データの各サンプル値が観測される第２の観測尤度とを有する状態遷移予測モデルであるマルチ観測予測モデルを求める。

したがって、マルチ観測予測モデルでは、第１及び第２の時系列データ、つまり、複数の時系列データが観測される。

また、認識部２３は、モデル記憶部２４に記憶されたマルチ観測予測モデルを用いて、認識対象データを認識するときに、後述するように、マルチ観測予測モデルの各状態（内部状態）にいる状態確率を求めるとともに、マルチ観測予測モデルにおいて、認識対象データが観測される尤度が最大の状態遷移が生じる、状態（内部状態）の系列である最尤系列（最尤状態系列）を求める。

そして、認識部２３は、認識対象データの認識時に求めた状態確率や、最尤系列、認識対象データの最後のサンプル値となっている観測値（最新の観測値）、認識対象データが観測される最尤系列において、認識対象データのサンプル値のうちの最新の観測値が観測される状態である現在状態（最尤系列の最後の状態）を、アクション制御部１３に供給する。

アクション制御部１３は、モデル記憶部２４に記憶されたマルチ観測予測モデルや、認識部２３から供給される状態確率、最尤系列（現在状態が含まれる）、最新の観測値等を用いて、エージェントのアクションを制御する。

すなわち、アクション制御部１３は、プランニング部３１、アクション信号生成部３２、アクション学習部３３、アクション生成情報記憶部３４、及び、生得コントローラ３５を有する。

プランニング部３１には、認識部２３からの現在状態（最尤系列の最後の状態）が供給されるとともに、エージェントの外部、又は、内部から、マルチ観測予測モデルの状態のうちの、目標とすべき状態を表す目標情報が供給される。

いま、マルチ観測予測モデルの１つの状態Ssから、他の１つの状態Seに辿り着く状態系列（マルチ観測予測モデルの状態の系列）を、プランということとし、プランの最初の状態（状態Ss）を、スタート状態というとともに、プランの最後の状態（状態Se）を、目標状態ということとする。

プランニング部３１は、モデル記憶部２４に記憶されたマルチ観測予測モデルを参照して、例えば、認識部２３からの現在状態を、スタート状態とするとともに、目標情報が表す状態を、目標状態として、スタート状態から目標状態までの状態遷移の尤度が最大の状態系列を、プランとして求めるプランニングを行い、プランニングによって得られるプランを、アクション信号生成部３２に供給する。

アクション信号生成部３２には、プランニング部３１からのプランが供給される他、認識部２３からの観測値、状態確率、及び、現在状態が供給される。

アクション信号生成部３２は、モデル記憶部２４に記憶されたマルチ観測予測モデル、アクション生成情報記憶部３４に記憶されたアクション生成情報、並びに、認識部２３からの観測値、状態確率、及び、現在状態に基づき、エージェントに、プランニング部３１からのプランに従ったアクション等の所定のアクションを行わせるためのアクション信号を求め（生成し）、アクション部１４に供給する。

アクション学習部３３には、認識部２３からの現在状態、及び、最新の観測値が供給される。さらに、アクション学習部３３には、生得コントローラ３５が生成するアクション信号が供給される。

アクション学習部３３は、認識部２３からの現在状態、及び、最新の観測値、並びに、生得コントローラ３５からのアクション信号を用いて、エージェントに所定のアクションを行わせるためのアクション信号と、そのアクション信号に従ったアクションが行われることにより生じるマルチ観測予測モデルの状態遷移との関係を学習するアクション学習を行う。

さらに、アクション学習部３３は、アクション学習によって、マルチ観測予測モデルの所定の状態遷移を生じさせるアクション信号を生成するのに用いられるアクション生成情報を得て、アクション生成情報記憶部３４に供給する。

アクション生成情報記憶部３４は、アクション学習部３３から供給される、アクション学習の結果得られるアクション生成情報を記憶する。

ここで、図１では、アクション生成情報は、コントローラテーブルとコントローラとから構成される。

マルチ観測予測モデルのある状態S_iから、ある状態S_jへの状態遷移を、A_ijと表すこととすると、コントローラは、例えば、観測値oを入力として、アクション信号を出力する関数F_ij(o)であり、状態遷移A_ijごとに存在する。

コントローラとしての関数F_ij(o)には、そのコントローラに固有のコントローラID(Identification)が対応付けられ、コントローラテーブルには、状態遷移A_ijと、その状態遷移A_ijを生じさせるアクションを行うためのアクション信号の生成に使用すべきコントローラ（関数F_ij(o)）のコントローラIDとが対応付けられる。

したがって、アクション信号生成部３２は、ある状態遷移A_ijを生じさせるアクションを行うためのアクション信号を生成する場合、まず、コントローラテーブルを参照して、その状態遷移A_ijに対応付けられているコントローラIDを認識する。そして、アクション信号生成部３２は、コントローラテーブルから認識したコントローラIDに対応付けられているコントローラ（関数F_ij(o)）を用いて、アクション信号を生成する。

生得コントローラ３５は、エージェントに、各種のアクションを行わせるためのアクション信号を、ランダムに生成する。あるいは、生得コントローラ３５は、エージェントの設計者等によってあらかじめ決められたパターンの信号に、適度な摂動を加えた信号を、エージェントが生得的に可能なアクションを行うためのアクション信号として生成する。

生得コントローラ３５が生成するアクション信号は、アクション部１４と、アクション学習部３３とに供給される。

アクション部１４は、エージェントの身体の腕や足等の可動部分（図示せず）と、その可動部分を駆動するアクチュエータ等を含む。

アクション部１４では、アクション信号生成部３２や、生得コントローラ３５からのアクション信号に従って、アクチュエータが、可動部分を駆動し、これにより、エージェントは、所定のアクションを行う。

［マルチ観測予測モデル］

図１のモデル記憶部２４に記憶されるマルチ観測予測モデルとしては、例えば、上述したように、HMMを利用した状態遷移予測モデルを採用することができる。

そこで、モデル記憶部２４に記憶されるマルチ観測予測モデルとしての状態遷移予測モデルを説明する前に、HMMについて説明する。

図２は、left-to-right型のHMMの例を示す図である。

left-to-right型のHMMは、状態が、左から右方向に、一直線上に並んだHMMであり、自己遷移（ある状態から、その状態への状態遷移）と、ある状態から、その状態よりも右側にある状態への状態遷移とを行うことができる。left-to-right型のHMMは、例えば、音声認識等で用いられる。

図２のHMMは、３つの状態S₁,S₂,S₃から構成され、状態遷移として、自己遷移と、ある状態から、その右隣の状態への遷移とのみが許されている。

なお、HMMは、状態S_iの初期確率π_i、遷移確率a_ij、及び、状態S_iから、所定の観測値oが観測される観測尤度（出力確率分布）b_i(o)で定義される。

ここで、初期確率π_iは、状態S_iが、初期状態（最初の状態）である確率であり、left-to-right型のHMMでは、最も左側の状態S₁の初期確率π₁は、1.0とされ、他の状態S_iの初期確率π_iは、0.0とされる。

遷移確率a _ijは、状態S_iから状態S_jに状態が遷移する確率である。

観測尤度（出力確率分布）b_i(o)は、状態S_iへの状態遷移時に、状態S_iから観測値oが観測される確率（確率分布）である。観測尤度b_i(o)としては、観測値oが離散値である場合には、確率となる値が用いられるが、観測値oが連続値である場合には、確率分布関数が用いられる。確率分布関数としては、例えば、平均値（平均ベクトル）と分散（共分散行列）とで定義されるガウス分布（正規分布）等を採用することができる。

図３は、エルゴディック(Ergodic)型のHMMの例を示す図である。

エルゴディック型のHMMは、状態遷移に制約がないHMM、すなわち、任意の状態S_iから任意の状態S_jへの状態遷移が可能なHMMである。

図３のHMMは、３つの状態S₁,S₂,S₃から構成され、任意の状態遷移が許されている。

エルゴディック型のHMMは、状態遷移の自由度が最も高いHMMであるが、状態数が多くなると、HMMのモデルパラメータ（初期確率π_i、遷移確率a_ij、及び、観測尤度b_i(o)）の初期値によっては、ローカルミニマムに収束し、適切なモデルパラメータを得られないことがある。

そこで、「自然界の現象の殆どは、スモールワールドネットワークのようなスパースな結合によって表現可能である」という仮説を採用し、マルチ観測予測モデルには、状態遷移を、スパース(Sparse)な構造に制約したHMMを利用した状態遷移予測モデルを採用することとする。

ここで、スパースな構造とは、ある状態から任意の状態への状態遷移が可能なエルゴディック型のHMMのような密な状態遷移ではなく、ある状態から状態遷移することができる状態が非常に限定されている構造である。

なお、ここでは、スパースな構造であっても、他の状態への状態遷移は、少なくとも１つ存在し、また、自己遷移は存在することとする。

図４は、スパースな構造のHMMである2次元近傍拘束HMMの例を示す図である。

図４Ａ及び図４ＢのHMMには、スパースな構造であることの他、HMMを構成する状態を、２次元平面上に、格子状に配置する制約が課されている。

ここで、図４ＡのHMMでは、他の状態への状態遷移が、横に隣接する状態と、縦に隣接する状態とに制限されている。図４ＢのHMMでは、他の状態への状態遷移が、横に隣接する状態、縦に隣接する状態、及び、斜めに隣接する状態に制限されている。

図５は、スパースな構造のHMMの、2次元近傍拘束HMM以外の例を示す図である。

すなわち、図５Ａは、３次元グリッド制約によるHMMの例を示している。図５Ｂは、２次元ランダム配置制約によるHMMの例を示している。図５Ｃは、スモールワールドネットワークによるHMMの例を示している。

図６は、図１のモデル記憶部２４に記憶されるマルチ観測予測モデルを模式的に示す図である。

マルチ観測予測モデルは、図１で説明したように、観測値が観測される内部状態どうしの間の状態遷移の遷移確率と、内部状態から観測値が観測される観測尤度とを有する状態遷移予測モデルであり、例えば、HMMを利用した状態遷移予測モデルを採用することができる。

マルチ観測予測モデルとしての、HMMを利用した状態遷移予測モデルは、内部状態として、複数の状態（HMMの状態）（隠れノード）を有し、各状態が、初期状態である初期状態確率、状態どうしの間の状態遷移が生じる遷移確率（遷移モデル）、及び、各状態において、観測値が観測される観測尤度（観測モデル）で定義される点で、HMMと共通する。

但し、マルチ観測予測モデルとしての、HMMを利用した状態遷移予測モデルは、観測尤度として、各状態において、第１の観測値が観測される第１の観測尤度（観測モデル#1）と、各状態において、第１の観測値とは異なる第２の観測値が観測される第２の観測尤度（観測モデル#2）との複数の観測尤度（２つ（以上）の時系列データそれぞれの観測値の出力確率分布）を有する点で、HMMとは異なる。

ここで、図１のエージェントは、セルフエージェントとして、他者であるアザーエージェントを模倣し、アザーエージェントが行うのと同様のアクションを行う。

セルフエージェントが、アザーエージェントを模倣して、アザーエージェントが行うのと同様のアクションを行うには、まず、セルフエージェント自身が、自律的にアクションを行うこと（セルフエージェント自身の身体モデルの学習（獲得））が必要である。

また、セルフエージェントが、アザーエージェントを模倣して、アザーエージェントが行うのと同様のアクションを行うには、アザーエージェントから観測される観測値を認識すること（アザーエージェントのアクションを認識すること）が必要である。

さらに、セルフエージェントが、アザーエージェントを模倣して、アザーエージェントが行うのと同様のアクションを行うには、他者からセルフエージェントを観測したときに、アザーエージェントから観測される観測値（アザーエージェントのアクション）と同様の観測値が観測されるように、アクションを行うことが必要である。

そこで、図１のセルフエージェントは、まず、自律的にアクションを行うために、セルフエージェント自身がアクションを行ったときに観測される、エージェント自身の状態を表すためのデータとしての観測値を、第１の観測値として、その第１の観測値の時系列である第１の時系列データを、モデル学習用データとして用いて、自身が行う各種のアクションに対して観測される第１の観測値の時系列パターンを学習する。

すなわち、セルフエージェントは、センサ部１１がセルフエージェント自身（のアクション部１４）をセンシングすることにより得られる、例えば、アクション部１４の可動部分の角度を、第１の観測値として、その第１の観測値の時系列である第１の時系列データを用いて、マルチ観測予測モデルの学習を行う。

また、セルフエージェントは、アザーエージェントから観測される観測値を認識するために、アザーエージェントから観測される、他者の状態を表すデータとしての観測値を、第２の観測値として、その第２の観測値の時系列である第２の時系列データを、モデル学習用データとして用いて、アザーエージェントが行う各種のアクションに対して観測される第２の観測値の時系列パターンを学習する。

すなわち、セルフエージェントは、センサ部１１がアザーエージェントをセンシングすることにより得られる、例えば、アザーエージェントの画像を、第２の観測値として、その第２の観測値の時系列である第２の時系列データを用いて、マルチ観測予測モデルの学習を行う。

さらに、セルフエージェントは、他者からセルフエージェントを観測したときに、アザーエージェントから観測される観測値（アザーエージェントのアクション）と同様の観測値が観測されるように、アクションを行うために、他者（アザーエージェント）の状態と模倣者（セルフエージェント）自身の状態との対応付けの学習、すなわち、アザーエージェントがあるアクションを行った場合に観測される第２の観測値と、セルフエージェントが、アザーエージェントと同一のアクションを行った場合に観測される第１の観測値との関係（第１の観測値と第２の観測値との対応関係）の学習を行う。

但し、セルフエージェントにおいて、他者（アザーエージェント）の状態と模倣者（セルフエージェント）自身の状態との対応付けの学習は、アザーエージェントから観測される第２の時系列データを認識するためのマルチ観測予測モデルの学習を行うときに、いわば同時に行われる。

すなわち、セルフエージェントにおいて、第２の時系列データを用いた、その第２の時系列データを認識するためのマルチ観測予測モデルの学習は、第１の時系列データを用いた学習後のマルチ観測予測モデルを用い、そのマルチ観測予測モデルの初期状態確率、及び、遷移確率（遷移モデル）を固定して行われる。

したがって、セルフエージェントにおいて、第１の時系列データを用いた、マルチ観測予測モデルの学習では、第１の時系列データを用いて、マルチ観測予測モデルの初期状態確率、遷移確率、及び、第１の観測値の観測尤度である第１の観測尤度（観測モデル#1）が求められる。

そして、第２の時系列データを用いた、マルチ観測予測モデルの学習では、第２の時系列データを用いて、第１の時系列データを用いた学習後のマルチ観測予測モデルの初期状態確率、及び、遷移確率を固定にして、第２の観測値の観測尤度である第２の観測尤度（観測モデル#2）が求められる。

その結果、マルチ観測予測モデルにおいては、第１の時系列データが観測される尤度が高い状態系列が得られるマルチ観測予測モデルの各状態に、第２の時系列データが観測される尤度が高くなるように、第２の観測値（の観測尤度）が割り当てられる。

マルチ観測予測モデルにおいて、他者（アザーエージェント）の状態と模倣者（セルフエージェント）自身の状態との対応付けの学習が、正しく行われていれば、すなわち、マルチ観測予測モデルの状態に、アザーエージェントがあるアクションを行った場合に観測される第２の観測値と、セルフエージェントが、アザーエージェントと同一のアクションを行った場合に観測される第１の観測値とが割り当てられていれば、セルフエージェントは、マルチ観測予測モデルにおいて、アザーエージェントから観測される第２の観測値の時系列（第２の時系列データ）が観測される尤度が高い状態系列の状態遷移が生じる第１の観測値の時系列（第１の時系列データ）が観測されるように、アクションを行うことで、第２の観測値の時系列が観測されるアザーエージェントのアクションと同様のアクションを行うことになる。

［エージェントの外観構成、及び、エージェントから観測される観測値の例］

図７は、セルフエージェントとしての図１のエージェントの外観の構成例を示す図である。

図７では、セルフエージェントは、１リンク（連結部分が１つ）のロボット（１リンクロボット）である回転可能な単振り子であり、単振り子としての棒状の可動部分が、一端を回転中心として（平面内を）回転するアクションを行うことができる。

図８は、セルフエージェントとしての単振り子から観測される第１の観測値の例を示す図である。

セルフエージェントとしての単振り子は、トルクτを加えることによって回転し、センサ部１１は、単振り子の回転角θをセンシングして、第１の観測値として出力する。この場合、第１の時系列データは、図８に示すように、第１の観測値である回転角θの時系列となる。

なお、単振り子に対して、トルクτは、アクション信号に対応して加えられる。

したがって、セルフエージェントでは、アクション信号に対応して加えられるトルクτによって、第１の観測値としての回転角θを制御することができる。

ここで、単振り子の回転角θを、トルクτによって制御するための強化学習では、単振り子の質量や摩擦係数等の物理的なパラメータが分からないという問題を設定し、単振り子の状態をユニークに表現することができるように、単振り子の回転角θと、角速度との２つの変数が、観測可能な観測値として用いられる。

さらに、強化学習では、目的となるタスクと、その目的を達成するための目的関数とが設計（設定）される。

ここで、強化学習において、目的となるタスクとは、例えば、単振り子が振り上がること、つまり、回転角θが180度になること等の一定のタスクであり、この場合の、目的を達成するための目的関数とは、例えば、回転角θが180度になったら、報酬を与える関数や、回転角θが180度に近いほど高い報酬を与える関数等のタスクに依存する関数である。

一方、セルフエージェントは、アザーエージェント（のアクション）を模倣することを目的とするので、目的となるタスクは、模倣しようとするアザーエージェントのアクションによって異なり、タスクに依存する目的関数を必要としない。

また、本実施の形態では、セルフエージェントから観測される観測値としては、あえて、単振り子の回転角θと、角速度とのうちの一方である回転角θだけを採用した。

図９は、アザーエージェントの外観の構成例と、そのアザーエージェントから観測される第２の観測値の例を示す図である。

図９では、アザーエージェントとして、セルフエージェントと同一のアクションを行うことが可能な他のエージェントである単振り子が採用されている。

さらに、図９では、第２の観測値として、アザーエージェントを撮影することにより得られる画像データが採用されている。

すなわち、センサ部１１は、セルフエージェント以外の対象であるアザーエージェントを、被写体として、その被写体を撮影するセンシングを行い、その結果得られる画像データを、第２の観測値として出力する。

したがって、第１の観測値と、第２の観測値とは、種類（モーダル）が異なる。

図１０は、第２の観測値の具体例を説明する図である。

図１０では、第２の観測値として、アザーエージェントを正面方向（アザーエージェントとしての単振り子が回転する平面に直交する方向）から撮影して得られる白黒の画像を、横×縦が、例えば、５×５画素の粗い解像度の画像に、バイリニア補間等によって変換し、その５×５画素の画素値である２５個の画素値を、コンポーネントとする２５次元のベクトルが採用されている。

［マルチ観測予測モデルの学習］

図１１は、図１のモデル学習部２２が行うマルチ観測予測モデルの学習の処理（モデル学習処理）を説明するフローチャートである。

セルフエージェントとしての図１のエージェントは、生得コントローラ３５において、セルフエージェントが生得的に可能なアクションを行うためのアクション信号を生成し、アクション部１４と、アクション学習部３３とに供給する。

アクション部１４は、生得コントローラ３５からのアクション信号に従って、可動部分を駆動し、これにより、セルフエージェントとしての単振り子は、アクション信号に対応するトルクτに従って回転するアクションを行う。

センサ部１１は、生得コントローラ３５からのアクション信号に従って回転する、セルフエージェントとしての単振り子の回転角θをセンシングし、第１の観測値として、バッファ２１に、時系列に供給する。

バッファ２１は、センサ部１１からの第１の観測値の時系列を記憶する。そして、バッファ２１に、ある程度のサンプル数の第１の観測値の時系列、すなわち、ある程度の時系列長の第１の時系列データが記憶されると、モデル学習部２２は、ステップＳ１１において、バッファ２１に記憶された第１の時系列データを、モデル学習用データとして用いて、モデル記憶部２４に記憶されたマルチ観測予測モデルの、Baum-Welchアルゴリズムに従った学習を行うことにより、初期状態確率、遷移確率、及び、第１の観測尤度を求める。

ここで、第１の時系列データを用いた、マルチ観測予測モデルの学習を、以下、セルフ学習ともいう。

セルフ学習では、セルフエージェントは、セルフエージェント自身が、アクション信号に従って、どのようなアクションを行うのかを試行錯誤で確認するかのように、アクションを行い、さらに、アクション信号に従ってアクションが行われたときに観測される第１の観測値の時系列を用いて、マルチ観測予測モデルの学習が行われる。

なお、第１の観測値は、セルフエージェント自身（の身体）から観測される観測値であり、そのような第１の観測値の時系列を用いた、マルチ観測予測モデルの学習は、セルフエージェントの身体（機能）をモデル化する身体モデルの学習ともいうことができる。

ステップＳ１１のセルフ学習の後、例えば、アザーエージェントが、セルフエージェントの前に置かれ、アザーエージェントとしての単振り子が、例えば、トルクをランダムに変えながらアクションを行う（回転する）と、センサ部１１が、アクションを行っているアザーエージェントを撮影するセンシングを行うことにより得られる画像データである第２の観測値が、バッファ２１に、時系列に供給される。

バッファ２１は、センサ部１１から供給される第２の観測値の時系列を記憶する。そして、バッファ２１に、ある程度のサンプル数の第２の観測値の時系列、すなわち、ある程度の時系列長の第２の時系列データが記憶されると、モデル学習部２２は、ステップＳ１２において、バッファ２１に記憶された第２の時系列データを、モデル学習用データとして用いて、モデル記憶部２４に記憶されたマルチ観測予測モデルの、Baum-Welchアルゴリズムに従った学習を、第１の時系列データを用いて求めた初期状態確率、及び、遷移確率を固定して行うことにより、第２の観測尤度を求め、モデル学習処理を終了する。

なお、第２の時系列データを用いた、マルチ観測予測モデルの学習（セルフ学習後のマルチ観測予測モデルの学習）を、以下、模倣学習ともいう。

［セルフ学習］

図１２は、図１１のステップＳ１１で行われる、Baum-Welchアルゴリズムに従ったセルフ学習の詳細を説明するフローチャートである。

セルフ学習では、ステップＳ２１において、モデル学習部２２は、マルチ観測予測モデルの初期状態確率π_i、遷移確率a_ij、及び、第１の観測尤度b_j(o)を初期化する。

ここで、初期状態確率π_iは、マルチ観測予測モデルのi個目の状態S_iにいる初期確率を表す。初期状態確率π_iは、マルチ観測予測モデルの状態の総数がN個であるとすると、例えば、1/Nに初期化される。

遷移確率a_ijは、状態S_iから状態S_jに状態遷移する確率を表す。遷移確率a_ijは、状態S_iから、状態S₁ないしS_Nのそれぞれに状態遷移する遷移確率の総和が1.0となるように、例えば、ランダムな値に初期化される。

第１の観測尤度b_j(o)は、状態S_jにおいて、第１の観測値oが観測される尤度を表す。

第１の観測値oが離散値である場合、第１の観測尤度b_j(o)は、第１の観測値oが観測される確率を表し、第１の観測値となる離散値の種類の総数がN'個であるとすると、例えば、1/N'に初期化される。

また、第１の観測値oが連続値である場合、第１の観測尤度b_j(o)は、例えば、確率密度関数で表される。

状態S_jにおいて、第１の観測値oが観測される第１の観測尤度b_j(o)を表す確率密度関数として、例えば、変数xの平均値（平均ベクトル）が、μ_jで表され、分散（分散共分散行列）が、σ_j ²で表される正規分布N(x,μ_j,σ_j ²）を採用することとすると、第１の観測尤度b_j(o)の初期化では、平均値μ_jと分散σ_j ²とが初期化される。

第１の観測値oが、0.0ないし1.0の範囲内の値をとるように、正規化されていることとすると、平均値μ_jは、例えば、0.0ないし1.0の範囲の中央の値である0.5等に初期化される。また、分散σ_j ²は、0.0ないし1.0の範囲の値について大きな分散となる、例えば、0.5等に初期化される。

ここで、マルチ観測予測モデルの初期状態確率π_i、遷移確率a_ij、及び、第１の観測尤度b_j(o)は、それぞれ、HMMの初期状態確率、遷移確率、及び、観測尤度（出力確率分布）と等価なので、以下、まとめて、HMMパラメータともいう。

ステップＳ２１において、マルチ観測予測モデルのモデルパラメータのうちのHMMパラメータ（初期状態確率π_i、遷移確率a_ij、第１の観測尤度b_j(o)）の初期化が行われると、処理は、ステップＳ２２に進み、モデル学習部２２は、HMMパラメータの再推定の回数をカウントする変数kを、1に初期化する。

さらに、モデル学習部２２は、0回の再推定後のHMMパラメータ（まだ、再推定がされていないHMMパラメータ）によって規定されるマルチ観測予測モデルにおいて、バッファ２１に記憶されたモデル学習用データとしての第１の観測値oの時系列である第１の時系列データo_1:Tが観測される対数尤度L₀(o_1:T)を、第１の時系列データo_1:Tが観測されているとは認められない程度の小さい値MINに初期化して、処理は、ステップＳ２２からステップＳ２３に進む。

ここで、第１の時系列データo_1:Tとは、T個の第１の観測値oの時系列o₁,o₂,・・・,o_Tである。

ステップＳ２３では、モデル学習部２２は、第１の時系列データo_1:T、並びに、HMMパラメータ（初期状態確率π_i、遷移確率a_ij、第１の観測尤度b_j(o)）を用いて、前向き確率α_t+1(j)、及び、後ろ向き確率β_t(i)を計算し、処理は、ステップＳ２４に進む。

ここで、前向き確率α_t+1(j)は、第１の観測値の時系列o₁,o₂,・・・,o_tを観測して、時刻tに、状態S_iにいて、その後、状態S_jに状態遷移し、その状態S_jにおいて、第１の観測値o_t+1が観測される確率を表す。

また、後ろ向き確率β_t(i)は、時刻tに、状態S_iにいて、状態S_jに状態遷移し、その後、第１の観測値の時系列o_t+1,o_t+2,・・・,o_Tが観測される確率を表す。

前向き確率α_t+1(j)は、式（１）及び式（２）に従って計算される。

・・・（１）

・・・（２）

また、後ろ向き確率β_t(i)は、式（３）及び式（４）に従って計算される。

・・・（３）

・・・（４）

なお、式（２）及び式（４）の第１の観測尤度b_j(o_t)は、変数xの平均値が、μ_jで表され、分散が、σ_j ²で表される正規分布N(x,μ_j,σ_j ²）を用いて、式（５）で表される。

・・・（５）

ステップＳ２４では、モデル学習部２２は、k回の再推定後のHMMパラメータによって定義されるマルチ観測予測モデルにおいて、バッファ２１に記憶されたモデル学習用データとしての第１の時系列データo_1:Tが観測される対数尤度L_k(o_1:T)を、直前のステップＳ２３で求められた前向き確率α_T(i)を用いて、式（６）に従って計算し、処理は、ステップＳ２５に進む。

・・・（６）

ステップＳ２５では、モデル学習部２２は、k回の再推定後のHMMパラメータから計算される対数尤度L_k(o_1:T)と、1回前であるk-1回の再推定後のHMMパラメータから計算される対数尤度L_k-1(o_1:T)との差分L_k(o_1:T)-L_k-1(o_1:T)が、あらかじめ設定された所定の小さい閾値ε未満であるかどうかを判定する。

ステップＳ２５において、差分L_k(o_1:T)-L_k-1(o_1:T)が、閾値ε未満であると判定された場合、すなわち、例えば、k回の再推定後のHMMパラメータから計算される対数尤度L_k(o_1:T)が、1回前であるk-1回の再推定後のHMMパラメータから計算される対数尤度L_k-1(o_1:T)から、ほとんど増加せず、したがって、HMMパラメータが収束した場合、モデル学習部２２は、セルフ学習の処理を終了する。

また、ステップＳ２５において、差分L_k(o_1:T)-L_k-1(o_1:T)が、閾値ε未満でないと判定された場合、すなわち、k回の再推定後のHMMパラメータから計算される対数尤度L_k(o_1:T)が、1回前であるk-1回の再推定後のHMMパラメータから計算される対数尤度L_k-1(o_1:T)から、閾値ε以上増加する場合、処理は、ステップＳ２６に進み、モデル学習部２２は、変数kが、HMMパラメータの再推定の最大の回数としてあらかじめ設定された最大回数K以下であるかどうかを判定する。

ステップＳ２６において、変数kが、最大回数K以下であると判定された場合、処理は、ステップＳ２７に進み、モデル学習部２２は、変数kを1だけインクリメントして、処理は、ステップＳ２８に進む。

ステップＳ２８では、モデル学習部２２は、HMMパラメータを再推定し、再推定後のHMMパラメータによって更新する。

すなわち、再推定後の初期状態確率π_i、遷移確率a_ij、並びに、第１の観測尤度b_j(o)の平均値μ_j、及び、分散σ_j ²を、それぞれ、π_i'，a_ij'、並びに、μ_j'、及び、σ_j ²'と表すこととすると、モデル学習部２２は、π_i'，a_ij'，μ_j'、及び、σ_j ²'を、それぞれ、式（７）、式（８）、式（９）、及び、式（１０）に従って求める（再推定する）。

・・・（７）

・・・（８）

・・・（９）

・・・（１０）

そして、モデル学習部２２は、初期状態確率π_i、遷移確率a_ij、並びに、第１の観測尤度b_j(o)の平均値μ_j、及び、分散σ_j ²を、それぞれ、再推定後のπ_i'，a_ij'、並びに、μ_j'、及び、σ_j ²'に更新する。

その後、処理は、ステップＳ２８からステップＳ２３に戻り、以下、更新後の初期状態確率π_i、遷移確率a_ij、並びに、第１の観測尤度b_j(o)の平均値μ_j、及び、分散σ_j ²を用いて、同様の処理が繰り返される。

一方、ステップＳ２６において、変数kが、最大回数K以下でないと判定された場合、すなわち、HMMパラメータが、最大回数Kだけ再推定しても、収束しない場合、モデル学習部２２は、セルフ学習の処理を終了する。

図１３は、セルフ学習後のマルチ観測予測モデルを示す図である。

すなわち、図１３は、484状態を有する2次元近傍拘束HMM（図４）を、マルチ観測予測モデルとして用いてセルフ学習を行って得られる状態と、状態遷移とを示している。

図１３において、横軸は、セルフエージェントとしての単振り子の回転角θを表し、縦軸は、その単振り子の角速度ωを表す。ここで、回転角θを表す横軸と、角速度ωを表す縦軸とで規定される２次元平面を、（θ，ω）平面ともいう。

図１３では、認識部２３において、時系列長がLの第１の時系列データo=o_t-L+1,o_t-L+2,・・・,o_tを、認識対象データとして、認識が行われることにより、時刻tにいる状態（現在状態）s_tとして、ある状態S_iが得られた場合の、単振り子の、実際の回転角θ'と角速度ω'とを記録しておき、状態S_iについて記録された実際の回転角θ'及び角速度ω'それぞれの平均値θ_ave及びω_aveを求め、状態S_iを、（θ，ω）平面上の位置（θ，ω）＝（θ_ave，ω_ave）にプロットしてある。

さらに、図１３では、遷移確率a_ijが、0.01以上の状態遷移を示してある。

図１３において、マルチ観測予測モデルの各状態S_iは、原則として、近傍の数個の状態との間でのみ状態遷移が生じている。但し、例外として、回転角θが、-π又はπのうちの一方から他方に変化することに対応して、回転角θが-πの位置にある状態と、回転角θがπの位置にある状態との間にも、状態遷移が生じている。

以上のように、状態遷移が、近傍の数個の状態どうしの間、及び、回転角θが-πの位置にある状態と、回転角θがπの位置にある状態との間のみに生じることは、単振り子の回転角θと角速度ωとが連続的に変化することに相当し、スパースな構造のHMMで、単振り子の挙動（回転）を表現することができていることが分かる。

また、セルフ学習では、回転角θ及び角速度ωのうちの、回転角θだけが、モデル学習用データとして用いられるが、図１３では、回転角θが同一の位置に、角速度ωが異なる状態がプロットされており、したがって、セルフ学習後のマルチ観測予測モデルにおいて、角速度ωによって変わる、セルフエージェントとしての単振り子の挙動が表現されていることが分かる。

図１４は、図１１のステップＳ１２で行われる、Baum-Welchアルゴリズムに従った模倣学習の詳細を説明するフローチャートである。

模倣学習では、ステップＳ３１において、モデル学習部２２は、マルチ観測予測モデルの第２の観測尤度b_j(o)を初期化する。

ここで、第２の観測尤度b_j(o)の初期化は、図１２で説明した第１の観測尤度の初期化と同様に行われる。

すなわち、本実施の形態では、第２の観測値oは、図１０で説明したように、２５次元のベクトルであるから、連続値であり、したがって、第２の観測尤度b_j(o)は、例えば、確率密度関数で表される。

状態S_jにおいて、第２の観測値oが観測される第２の観測尤度b_j(o)を表す確率密度関数として、例えば、変数xの平均値（平均ベクトル）が、μ_jで表され、分散（分散共分散行列）が、σ_j ²で表される正規分布N(x,μ_j,σ_j ²）を採用することとすると、第２の観測尤度b_j(o)の初期化では、平均値μ_jと分散σ_j ²とが初期化される。

第２の観測値o（としてのベクトルの各コンポーネント）が、0.0ないし1.0の範囲内の値をとるように、正規化されていることとすると、平均値μ_j（としてのベクトルの各コンポーネント）は、例えば、0.0ないし1.0の範囲の中央の値である0.5等に初期化される。また、分散σ_j ²（としての分散共分散行列の、例えば、対角成分）は、0.0ないし1.0の範囲の値について大きな分散となる、例えば、0.5等に初期化される。

ステップＳ３１において、マルチ観測予測モデルの第２の観測尤度b_j(o)の初期化が行われると、処理は、ステップＳ３２に進み、モデル学習部２２は、第２の観測尤度b_j(o)の再推定の回数をカウントする変数kを、1に初期化する。

さらに、モデル学習部２２は、0回の再推定後の第２の観測尤度b_j(o)（まだ、再推定がされていない第２の観測尤度b_j(o)）によって規定されるマルチ観測予測モデルにおいて、バッファ２１に記憶されたモデル学習用データとしての第２の観測値oの時系列である第２の時系列データo_1:Tが観測される対数尤度L₀(o_1:T)を、第２の時系列データo_1:Tが観測されているとは認められない程度の小さい値MINに初期化して、処理は、ステップＳ３２からステップＳ３３に進む。

ここで、第２の時系列データo_1:Tとは、T個の第２の観測値oの時系列o₁,o₂,・・・,o_Tである。

ステップＳ３３では、モデル学習部２２は、第２の時系列データo_1:T、及び、第２の観測尤度b_j(o)、並びに、セルフ学習で求められた初期状態確率π_i、及び、遷移確率a_ijを用い、セルフ学習の場合と同様の式（１）ないし式（４）に従って、前向き確率α_t+1(j)、及び、後ろ向き確率β_t(i)を計算して、処理は、ステップＳ３４に進む。

ステップＳ３４では、モデル学習部２２は、k回の再推定後の第２の観測尤度b_j(o)、並びに、セルフ学習で求められた初期状態確率π_i、及び、遷移確率a_ijによって定義されるマルチ観測予測モデルにおいて、バッファ２１に記憶されたモデル学習用データとしての第２の時系列データo_1:Tが観測される対数尤度L_k(o_1:T)を、直前のステップＳ３３で求められた前向き確率α_T(i)を用い、セルフ学習の場合と同様の式（６）に従って計算して、処理は、ステップＳ３５に進む。

ステップＳ３５では、モデル学習部２２は、k回の再推定後の第２の観測尤度b_j(o)、並びに、セルフ学習で求められた初期状態確率π_i、及び、遷移確率a_ijから計算される対数尤度L_k(o_1:T)と、1回前であるk-1回の再推定後の第２の観測尤度b_j(o)、並びに、セルフ学習で求められた初期状態確率π_i、及び、遷移確率a_ijから計算される対数尤度L_k-1(o_1:T)との差分L_k(o_1:T)-L_k-1(o_1:T)が、所定の小さい閾値ε未満であるかどうかを判定する。

ステップＳ３５において、差分L_k(o_1:T)-L_k-1(o_1:T)が、閾値ε未満であると判定された場合、すなわち、例えば、k回の再推定後の第２の観測尤度b_j(o)を用いて計算される対数尤度L_k(o_1:T)が、1回前であるk-1回の再推定後の第２の観測尤度b_j(o)を用いて計算される対数尤度L_k-1(o_1:T)から、ほとんど増加せず、したがって、第２の観測尤度b_j(o)が収束した場合、モデル学習部２２は、模倣学習の処理を終了する。

また、ステップＳ３５において、差分L_k(o_1:T)-L_k-1(o_1:T)が、閾値ε未満でないと判定された場合、すなわち、k回の再推定後の第２の観測尤度b_j(o)を用いて計算される対数尤度L_k(o_1:T)が、1回前であるk-1回の再推定後の第２の観測尤度b_j(o)を用いて計算される対数尤度L_k-1(o_1:T)から、閾値ε以上増加する場合、処理は、ステップＳ３６に進み、モデル学習部２２は、変数kが、第２の観測尤度b_j(o)の再推定の最大の回数としてあらかじめ設定された最大回数K以下であるかどうかを判定する。

ステップＳ３６において、変数kが、最大回数K以下であると判定された場合、処理は、ステップＳ３７に進み、モデル学習部２２は、変数kを1だけインクリメントして、処理は、ステップＳ３８に進む。

ステップＳ３８では、モデル学習部２２は、第２の観測尤度b_j(o)を再推定し、再推定後の第２の観測尤度b_j(o)によって更新する。

すなわち、再推定後の第２の観測尤度b_j(o)の平均値μ_j、及び、分散σ_j ²を、それぞれ、μ_j'、及び、σ_j ²'と表すこととすると、モデル学習部２２は、μ_j'、及び、σ_j ²'を、セルフ学習の場合と同様の式（９）、及び、式（１０）に従って求める（再推定する）。

そして、モデル学習部２２は、第２の観測尤度b_j(o)の平均値μ_j、及び、分散σ_j ²を、それぞれ、再推定後のμ_j'、及び、σ_j ²'に更新する。

なお、初期状態確率π_i、及び、遷移確率a_ijは、セルフ学習によって求められた値が、そのまま維持される（更新されない）。

その後、処理は、ステップＳ３８からステップＳ３３に戻り、以下、更新後の第２の観測尤度b_j(o)の平均値μ_j、及び、分散σ_j ²、並びに、セルフ学習で求められた初期状態確率π_i、及び、遷移確率a_ijを用いて、同様の処理が繰り返される。

したがって、模倣学習では、セルフ学習で求められた初期状態確率π_i、及び、遷移確率a_ijは、更新されずに、そのままの値（セルフ学習で求められた値）に固定され、第２の観測尤度b_j(o)（の平均値μ_j、及び、分散σ_j ²）だけが再推定されて更新されていく。

一方、ステップＳ３６において、変数kが、最大回数K以下でないと判定された場合、すなわち、第２の観測尤度b_j(o)が、最大回数Kだけ再推定しても、収束しない場合、モデル学習部２２は、模倣学習の処理を終了する。

以上の模倣学習によれば、アザーエージェントから観測される第２の観測値を認識するための、マルチ観測予測モデルの学習（第２の観測値の時系列の時系列パターンの獲得）が行われるのと同時に、他者（アザーエージェント）の状態と模倣者（セルフエージェント）自身の状態との対応付けの学習、すなわち、アザーエージェントがあるアクションを行った場合に観測される第２の観測値と、セルフエージェントが、アザーエージェントと同一のアクションを行った場合に観測される第１の観測値との関係の獲得が行われる。

すなわち、セルフ学習において、マルチ観測予測モデルを定義する第１の観測尤度は、セルフエージェント自身としての単振り子の回転角θである第１の観測値を用いて獲得されるため、アザーエージェントから観測される第２の観測値である、アザーエージェントの画像を用いる処理に適用することはできない。

そこで、アザーエージェントから観測される第２の観測値を用いる処理には、第１の観測尤度（観測モデル#1）とは別に、第２の観測値が観測される第２の観測尤度（観測モデル#2）を定義し、マルチ観測予測モデルの学習では、第１の観測尤度を獲得するセルフ学習とは別に、第２の観測尤度を獲得する模倣学習が行われる。

そして、模倣学習では、セルフ学習後のマルチ観測予測モデルの学習が、アザーエージェントから観測される第２の観測値を用い、セルフ学習で獲得した初期状態確率と遷移確率とを固定にして、第２の観測尤度のみが更新されることで、第２の観測値を認識するためのマルチ観測予測モデルの学習が行われるのと同時に、他者（アザーエージェント）の状態と模倣者（セルフエージェント）自身の状態との対応付け（対応関係）の学習が行われる。

すなわち、模倣学習では、セルフ学習後のマルチ観測予測モデルの学習が、アザーエージェントから観測される第２の観測値を用い、セルフ学習で獲得した初期状態確率と遷移確率とを固定にして行われるので、アザーエージェントがあるアクションを行った場合に観測される第２の観測値と、セルフエージェントが、アザーエージェントと同一のアクションを行った場合に観測される第１の観測値とが、いわば、前述のミラーニューロンに相当するような状態を介して対応付けられる。

したがって、他者（アザーエージェント）の状態と模倣者（セルフエージェント）自身の状態との対応付けの学習を、効率的に行うことができ、その結果、後述する模倣処理によって、セルフエージェントは、アザーエージェントが行うアクションを、効率的に模倣することができる。

図１５は、模倣学習後のマルチ観測予測モデルにおいて、第１の時系列データが観測される状態系列と、第２の時系列データが観測される状態系列とを示す図である。

図１５では、図１３の場合と同様に、模倣学習後のマルチ観測予測モデルの各状態が、（θ，ω）平面上にプロットされている。

さらに、図１５では、セルフエージェントとしての単振り子と、アザーエージェントとしての単振り子とを、同期させて回転させた場合に観測される、セルフエージェントの回転角θ（第１の観測値）の時系列である第１の時系列データと、アザーエージェントの画像（第２の観測値）の時系列である第２時系列データとのそれぞれが、マルチ観測予測モデルにおいて観測される尤度が最大の状態系列を示してある。

マルチ観測予測モデルにおいて第１の時系列データが観測される尤度が最大の状態系列（図中、実線の矢印で示す）と、マルチ観測予測モデルにおいて第２の時系列データが観測される尤度が最大の状態系列（図中、点線の矢印で示す）とは、（θ，ω）平面上で、ほぼ同様の軌跡を描いており、他者（アザーエージェント）の状態と模倣者（セルフエージェント）自身の状態との対応付けが、正しく行われていること、つまり、マルチ観測予測モデルの各状態に、アザーエージェントがあるアクションを行った場合に観測される第２の観測値と、セルフエージェントが、アザーエージェントと同様のアクションを行った場合に観測される第１の観測値とが割り当てられていることが分かる。

［マルチ観測予測モデルを用いた認識］

図１６は、図１の認識部２３が行うマルチ観測予測モデルを用いた認識の処理（認識処理）を説明するフローチャートである。

セルフ学習がある程度進行したマルチ観測予測モデルによれば、第１の観測値の時系列を、認識対象データとして、その認識対象データを認識し、認識対象データの認識結果として、マルチ観測予測モデルにおいて、認識対象データの最新（現在）のサンプル値（第１の観測値）が観測される状態である現在状態を求める（推定する）ことができる。

すなわち、認識部２３は、セルフ学習がある程度進行したマルチ観測予測モデル（セルフ学習が終了したマルチ観測予測モデルを含む）を用い、例えば、ビタビアルゴリズム(Viterbi Algorithm)に従って、認識対象データの各サンプル値が時系列に観測され、最新のサンプル値が観測されたときの状態確率が最大の状態を、認識対象データの認識結果である現在状態として求める。

具体的には、認識部２３は、バッファ２１に記憶された、最新の所定数T（例えば、50サンプル等）の第１の観測値の系列o₁,o₂,・・・,o_Tを、認識対象データとして読み出し、ステップＳ４１において、時刻を表す変数tを、初期値としての1に設定して、処理は、ステップＳ４２に進む。

ステップＳ４２では、認識部２３は、時刻t=1の、マルチ観測予測モデルを構成するN個の各状態S_iの状態確率を、状態S_iの初期状態確率π_iと、時刻t=1の第１の観測値o₁の第１の観測尤度b_i(o₁)とを乗算することによって求め、処理は、ステップＳ４３に進む。

ここで、時刻t=1のN個の各状態S_iの状態確率は、状態S_iの初期状態確率π_iと、第１の観測尤度b_i(o₁)とを乗算することによって求める他、時刻t=1（現在の時刻から、Tサンプルだけ前の時刻）の状態が不定であるとして、すなわち、各状態S_iの状態確率が、すべて1/Nであるとして、1/Nと、第１の観測尤度b_i(o₁)とを乗算することによって求めることができる。

ステップＳ４３では、認識部２３は、時刻t+1の各状態S_jについて、時刻tの各状態S_iの状態確率に、状態S_jへの遷移確率a_ijと、遷移先の状態S_jにおいて、時刻t+1の第１の観測値o_t+1が観測される第１の観測尤度b_j(o_t+1)とを乗算し、その結果得られるN個の乗算値のうちの最大値を、時刻t+1の状態S_jの状態確率として求め、処理は、ステップＳ４４に進む。

ステップＳ４４では、認識部２３は、時刻t+1の各状態S_jについて、直前のステップＳ４３で最大値となった乗算値が得られたときの遷移元の状態S_iを、遷移先の状態S_jに対応付けて記憶し、処理は、ステップＳ４５に進む。

ステップＳ４５では、認識部２３は、時刻tを1だけインクリメントして、処理は、ステップＳ４６に進む。

ステップＳ４６では、認識部２３は、時刻tが、認識対象データの時系列長Tに等しいかどうかを判定する。

ステップＳ４６において、時刻tが、認識対象データの時系列長Tに等しくないと判定された場合、処理は、ステップＳ４３に戻り、以下、同様の処理が繰り返される。

また、ステップＳ４６において、時刻tが、認識対象データの時系列長Tに等しいと判定された場合、すなわち、マルチ観測予測モデルにおいて、認識対象データであるT個の第１の観測値の系列o₁,o₂,・・・,o_Tを観測して、各状態S_iにいる状態確率が求められた場合、処理は、ステップＳ４７に進み、認識部２３は、認識対象データの認識結果としての現在状態を決定する。

すなわち、ステップＳ４７では、認識部２３は、時刻t(=T)の状態S₁ないしS_Nの中で、状態確率が最大の状態S_jを、現在状態に決定する。

その後、処理は、ステップＳ４７からステップＳ４８に進み、以下、マルチ観測予測モデルにおいて、認識対象データが観測される尤度を最大にする状態系列である最尤系列が求められる。

すなわち、ステップＳ４８では、認識部２３は、現在状態を、最尤系列の中の、時刻t(=T)の状態である選択状態に選択し、処理は、ステップＳ４９に進む。

ステップＳ４９では、認識部２３は、時刻tが、初期値である1に等しいかどうかを判定する。

ステップＳ４９において、時刻tが、初期値に等しくないと判定された場合、処理は、ステップＳ５０に進み、認識部２３は、時刻tの選択状態に対応付けて記憶している状態（時刻tの選択状態に遷移する遷移元の状態）S_iを、最尤系列の中の、時刻t-1の状態である選択状態に選択し、処理は、ステップＳ５１に進む。

ステップＳ５１では、認識部２３は、時刻tを1だけデクリメントして、処理は、ステップＳ４９に戻り、以下、同様の処理が繰り返される。

そして、ステップＳ４９において、時刻tが、初期値である1に等しいと判定された場合、すなわち、最尤系列となる状態系列が得られた場合、認識部２３は、認識処理を終了する。

なお、認識部２３では、図１６で説明したのと同様にして、模倣学習がある程度進行したマルチ観測予測モデル（模倣学習が終了したマルチ観測予測モデルを含む）を用い、第２の観測値の時系列を、認識対象データとして、その認識対象データを認識し、認識対象データの認識結果として、マルチ観測予測モデルにおいて、認識対象データの最新（現在）のサンプル値（第２の観測値）が観測される状態である現在状態を求めること、及び、マルチ観測予測モデルにおいて、認識対象データとしての第２の観測値の時系列が観測される尤度が最大になる最尤系列を求めることができる。

［アクション学習］

図１７は、図１のアクション学習部３３が行うアクション学習の処理（アクション学習処理）を説明するフローチャートである。

図１６で説明したように、セルフ学習がある程度進行すると、認識部２３において、セルフ学習がある程度進行したマルチ観測予測モデルを用い、認識対象データとしての第１の観測値の系列が観測されたときの現在状態を求めることができる。

すなわち、時刻tごとに、その時刻tの第１の観測値を最新のサンプル値とする、T個の最新の第１の観測値からなる第１の時系列データの認識結果としての現在状態を求めることができる。

したがって、T個を超える第１の観測値が観測される場合に、時刻t=T以降の各時刻tについては、時刻tの現在状態s_tから、次の時刻t+1の現在状態s_t+1への状態遷移A_ijを決定することができる。

一方、セルフ学習が行われている場合、セルフエージェントとしての単振り子は、生得コントローラ３５が生成するアクション信号に従って回転するアクションを行っている。

いま、生得コントローラ３５が、時刻tに生成するアクション信号を、m_tと表すこととすると、時刻tの第１の観測値o_tが観測される現在状態s_tにおいて、時刻ｔのアクション信号m_tに従ったアクションが行われることにより、次の時刻t+1の現在状態s_t+1への状態遷移A_ijが生じる、という因果モデルが成立する。

アクション学習部３３は、各状態遷移A_ijについて、その状態遷移A_ijが生じる前の時刻tの第１の観測値o_tと、その時刻tのアクション信号m_tとのセットを、アクション学習に用いるアクション学習用データとして収集し、そのアクション学習用データを用いて、アクション学習、つまり、セルフエージェントに所定のアクションを行わせるためのアクション信号m_tと、そのアクション信号に従ったアクションが行われることにより生じるマルチ観測予測モデルの状態遷移A_ijとの関係の学習を行う。

具体的には、アクション学習部３３は、アクション学習において、アクション学習用データを用い、状態遷移A_ijごとに、その状態遷移を生じさせるアクションを行うためのアクション信号m_tを出力する、第１の観測値o_tを入力とする関数m_t=F_ij(o_t)を、コントローラとして求める。

なお、関数F_ij()としては、例えば、ニューラルネットワーク等を採用することができる。

図１７のアクション学習処理では、以上のようにして、コントローラとしての関数m_t=F_ij(o_t)が求められる。

すなわち、図１７のアクション学習処理は、例えば、セルフ学習がある程度進行すると開始され、ステップＳ６１において、アクション学習部３３は、認識部２３が、T個の最新の第１の観測値からなる第１の時系列データを、認識対象データとして認識を行い、現在時刻（最新の時刻）tの現在状態s_tと、現在時刻tの第１の観測値o_tとを出力するのを待って、その現在時刻tの現在状態s_t、及び、第１の観測値o_tを受信し、処理は、ステップＳ６２に進む。

ステップＳ６２では、アクション学習部３３は、認識部２３から１時刻前に受信した時刻t-1の第１の観測値o_t-1と、生得コントローラ３５から１時刻前に受信した時刻t-1のアクション信号m_t-1とのセットを、アクション学習用データとして、認識部２３から１時刻前に受信した時刻t-1の現在状態s_t-1から、認識部２３から直前のステップＳ６１で受信した現在時刻tの現在状態s_tへの状態遷移A_ijに対応付けて記憶する。

その後、生得コントローラ３５が現在時刻tのアクション信号m_tを出力するのを待って、処理は、ステップＳ６２からステップＳ６３に進み、アクション学習部３３は、生得コントローラ３５が出力する現在時刻tのアクション信号m_tを受信して、処理は、ステップＳ６４に進む。

ステップＳ６４では、アクション学習部３３は、セルフ学習が終了したか、又は、各状態遷移A_ijについて、十分な数のアクション学習用データが得られたかを判定する。

ステップＳ６４において、セルフ学習が終了してもいないし、かつ、各状態遷移A_ijについて、十分な数のアクション学習用データが得られてもいないと判定された場合、認識部２３が、次の時刻t+1の第１の観測値o_t+1を含む、T個の最新の第１の観測値からなる第１の時系列データを、認識対象データとして認識を行い、時刻t+1の現在状態s_t+1と、時刻t+1の第１の観測値o_t+1とを出力するのを待って、処理は、ステップＳ６１に戻り、以下、同様の処理が繰り返される。

また、ステップＳ６４において、セルフ学習が終了したか、又は、各状態遷移A_ijについて、十分な数のアクション学習用データが得られたと判定された場合、処理は、ステップＳ６５に進み、アクション学習部３３は、各状態遷移A_ijについて、アクション学習用データとしてセットになっている第１の観測値oとアクション信号mとを用い、第１の観測値oを入力として、アクション信号mを出力する関数m=F_ij(o)であるコントローラを求める。

各状態遷移A_ijについて、関数m=F_ij(o)であるコントローラが求められると、処理は、ステップＳ６５からステップＳ６６に進み、アクション学習部３３は、各状態遷移A_ijについて求められたコントローラとしての関数m=F_ij(o)に、コントローラを識別するユニークなコントローラIDを対応付ける。

さらに、アクション学習部３３は、各状態遷移A_ijと、その状態遷移A_ijについて求められたコントローラとしての関数m=F_ij(o)に対応付けられたコントローラIDとを対応付けたコントローラテーブルを生成し、処理は、ステップＳ６６から、ステップＳ６７に進む。

ステップＳ６７では、アクション学習部３３は、ステップＳ６６で得た、コントローラIDを対応付けたコントローラとしての関数m=F_ij(o)、及び、コントローラテーブルを、アクション生成情報として、アクション生成情報記憶部３４に供給して記憶させ、アクション学習処理を終了する。

なお、図１７では、状態遷移A_ijのコントローラとして、第１の観測値oを入力として、アクション信号mを出力する関数m=F_ij(o)を採用したが、状態遷移A_ijのコントローラとしては、その他、例えば、状態遷移A_ijについてのアクション学習用データになっているアクション信号mの平均値等の一定値を、第１の観測値oに関係なく出力する関数を採用することができる。

［プランニング］

図１８は、図１のプランニング部３１が行うプランニングの処理（プランニング処理）を説明するフローチャートである。

アクション学習処理（図１７）が終了すると、セルフエージェント（図１）は、マルチ観測予測モデルの１つの状態Ssをスタート状態ととするとともに、他の１つの状態Seを目標状態として、スタート状態から目標状態に辿り着く状態系列であるプランを求めるプランニング処理を行い、そのプラン上の状態に、順次、状態遷移をして、最終的に、目標状態に辿り着くアクションを行うことができる。

プラニング処理において、プランを求める方法としては、スタート状態と目標状態が与えられた場合に、例えば、スタート状態を遷移元の状態とする状態遷移の遷移確率が所定の閾値以上の状態遷移を、１つだけランダムに選択し、その状態遷移の遷移先の状態を遷移元の状態とする状態遷移の遷移確率が所定の閾値以上の状態遷移を、再び、１つだけランダムに選択することを、状態遷移の遷移先の状態が、目標状態となるまで繰り返す方法がある。

しかしながら、この方法では、多くの場合、スタート状態から目標状態に辿り着くのに時間を要するプラン（状態遷移（及び状態）の数が多いプラン）が求められる。

そこで、短時間で、スタート状態から目標状態に辿り着くプランを求める方法として、例えば、ビタビアルゴリズムを応用した方法がある。

図１８のフローチャートは、ビタビアルゴリズムを応用した方法によって、プランを求めるプランニング処理を示している。

なお、プランニング部３１は、プランニング処理において、そこに供給される目標情報（図１）が表す状態を目標状態として、プランを求める場合、スタート状態を、認識部２３から供給される現在状態とする。

図１８のプランニング処理では、プランニング部３１は、ステップＳ７１において、時刻を表す変数tを、初期値としての1に設定して、処理は、ステップＳ７２に進む。

ステップＳ７２では、プランニング部３１は、スタート状態（になっている状態）の時刻t=1の状態確率を、初期値としての1.0に設定するとともに、スタート状態以外の他の状態の時刻tの状態確率を、0.0に設定して、処理は、ステップＳ７３に進む。

ステップＳ７３では、プランニング部３１は、遷移確率a_ijのうちの、所定の閾値（例えば、0.01等）以上の遷移確率a_ijを、プランニング処理で用いるのに限って、大きな値（例えば、0.9等）に設定するとともに、他の遷移確率a_ijを、プランニング処理で用いるのに限って、小さな値（例えば、0.0等）に設定して、処理は、ステップＳ７４に進む。

ステップＳ７４では、プランニング部３１は、時刻t+1の各状態S_jについて、時刻tの各状態s_iの状態確率に、状態S_jへの遷移確率a_ijを乗算し、その結果得られるN個の乗算値のうちの最大値を、時刻t+1の状態S_jの状態確率として求め、処理は、ステップＳ７５に進む。

ステップＳ７５では、プランニング部３１は、時刻t+1の各状態S_jについて、直前のステップＳ７４で最大値となった乗算値が得られたときの遷移元の状態S_iを、遷移先の状態S_jに対応付けて記憶し、処理は、ステップＳ７６に進む。

ステップＳ７６では、プランニング部３１は、時刻tを1だけインクリメントして、処理は、ステップＳ７７に進む。

ステップＳ７７では、プランニング部３１は、目標状態（になっている状態）の時刻tの状態確率が、0.0より大であるかどうかを判定する。

ステップＳ７７において、目標状態の時刻tの状態確率が、0.0より大でないと判定された場合、すなわち、ステップＳ７３で遷移確率a_ijが大きな値に設定された状態遷移のみによって、スタート状態から目標状態に辿り着くことができていない場合、処理は、ステップＳ７８に進み、プランニング部３１は、時刻tが、プランとしての状態系列の系列長（状態数）の最大値として、あらかじめ設定された閾値に等しいかどうかを判定する。

ステップＳ７８において、時刻tが、閾値に等しいと判定された場合、すなわち、閾値以内の系列長の状態系列を、プランとして検出することができなかった場合、プランを得ることができないとして、プランニング処理は、終了する。

この場合、プランニング部３１は、例えば、新たな目標情報を要求することによって、目標状態を変更し、又は、セルフエージェントに、ランダムなアクションを行わせることによって、現在状態、ひいては、スタート状態を変更し、再度、プランニング処理を開始することができる。

また、ステップＳ７８において、時刻tが、閾値に等しくないと判定された場合、処理は、ステップＳ７４に戻り、以下、同様の処理が繰り返される。

一方、ステップＳ７７において、目標状態の時刻tの状態確率が、0.0より大であると判定された場合、すなわち、ステップＳ７３で遷移確率a_ijが大きな値に設定された状態遷移のみによって、スタート状態から目標状態に辿り着くことができた場合、処理は、ステップＳ７９に進み、以下、そのスタート状態から目標状態に辿り着く状態系列が、プランとして求められる。

すなわち、ステップＳ７９において、プランニング部３１は、マルチ観測予測モデルの状態S₁ないしS_Nのうちの、目標状態（になっている状態）S_jを、プラン上の、時刻tの状態である選択状態に選択し、処理は、ステップＳ８０に進む。

ステップＳ８０では、プランニング部３１は、時刻tが、初期値である1に等しいかどうかを判定する。

ステップＳ８０において、時刻tが、初期値に等しくないと判定された場合、処理は、ステップＳ８１に進み、プランニング部３１は、時刻tの選択状態に対応付けて記憶している状態（時刻tの選択状態に遷移する遷移元の状態）S_iを、プラン上の、時刻t-1の状態である選択状態に選択し、処理は、ステップＳ８２に進む。

ステップＳ８２では、プランニング部３１は、時刻tを1だけデクリメントして、処理は、ステップＳ８０に戻り、以下、同様の処理が繰り返される。

そして、ステップＳ８０において、時刻tが、初期値である1に等しいと判定された場合、すなわち、プランとなる状態系列を構成する選択状態のすべてが得られた場合、処理は、ステップＳ８３に進み、プランニング部３１は、選択状態を時系列順に並べ、その時系列順の選択状態の並びである状態系列を、プランとして出力し、プランニング処理は、終了する。

以上のように、プランニング部３１において、プランが得られると、セルフエージェント（図１）は、そのプラン上の状態に、順次、状態遷移をして、最終的に、目標状態に辿り着くアクションを行うことができる。

すなわち、プランニング部３１が出力するプランは、アクション信号生成部３２に供給される。

アクション信号生成部３２は、プランニング部３１からのプラン上の状態に、順次、状態遷移をして、最終的に、目標状態に辿り着くアクションを行うためのアクション信号を生成し、アクション部１４に供給する。

アクション部１４は、アクション信号生成部３２からのアクション信号に従って、可動部分を駆動し、これにより、セルフエージェントとしての単振り子は、アクション信号に対応するトルクτに従って回転するアクションを行って、プランの最後の状態（目標状態）に対応する状態（回転角θ、及び、角速度ω）となる。

［アクション信号生成］

図１９は、アクション信号生成部３２が行うアクション信号を生成する処理（アクション信号生成処理）を説明するフローチャートである。

アクション信号生成部３２は、例えば、プランニング部３１からプランが供給されると、アクション信号生成処理を開始する。

アクション信号生成処理では、ステップＳ１０１において、アクション信号生成部３２は、プランのスタート状態を、仮にプラン上の状態にいるのであれば、いる可能性が最も高いと推定される推定状態i_pathmaxに選択する。

その後、認識部２３が、T個の最新の第１の観測値からなる第１の時系列データを、認識対象データとして認識を行い、現在時刻（最新の時刻）tの現在状態i_max、現在時刻tの第１の観測値o、及び、現在時刻tの各状態の状態確率を出力するのを待って、処理は、ステップＳ１０１からステップＳ１０２に進み、アクション信号生成部３２は、その現在時刻tの現在状態i_max、第１の観測値o、及び、状態確率を受信し、処理は、ステップＳ１０３に進む。

ステップＳ１０３では、アクション信号生成部３２は、プラン上の、前回の推定状態i_pathmaxから、目標状態までの状態のうちの、認識部２３からの状態確率が最大の状態を、今回の推定状態i_pathmaxに（仮に）選択して、ステップＳ１０４に進む。

ここで、プランニング部３１からアクション信号生成部３２にプランが供給されてから、初めて、ステップＳ１０３の処理が行われる場合、ステップＳ１０１で選択されたスタート状態が、前回の推定状態i_pathmaxとなる。

ステップＳ１０４では、アクション信号生成部３２は、認識部２３からの状態確率のうちの、現在状態i_maxの状態確率P(i_max)に対する、今回の推定状態i_pathmaxの状態確率P(i_pathmax)の割合P(i_pathmax)/P(i_max)が、所定の閾値（例えば、0.7等）以下であるかどうかを判定する。

ステップＳ１０４において、割合P(i_pathmax)/P(i_max)が、所定の閾値以下であると判定された場合、処理は、ステップＳ１１２に進み、アクション信号生成部３２は、プランニング部３１に、再度のプランニングを要求して、アクション信号生成処理は、終了する。

すなわち、割合P(i_pathmax)/P(i_max)が、所定の閾値以下である場合、現在状態i_maxが、プラン上の状態、及び、プラン上の状態に近い状態のいずれでもないと推定されるため、プランに従った状態遷移（プラン上の状態を辿る状態遷移、及び、プラン上の状態に近い状態を、目標状態に向かっていくような状態遷移の両方を含む）を生じさせるアクションを行うためのアクション信号を生成することが困難であるので、アクション信号生成部３２は、プランを、現在状態s_t（又は、現在状態s_tに近い状態）から、目標状態に辿り着くプランに変更するために、プランニング部３１に、再度のプランニングを要求して、アクション信号生成処理は、終了する。

また、ステップＳ１０４において、割合P(i_pathmax)/P(i_max)が、所定の閾値以下でないと判定された場合、処理は、ステップＳ１０５に進み、アクション信号生成部３２は、今回の推定状態i_pathmaxが、前回の推定状態i_pathmaxに一致するかどうかを判定する。

ステップＳ１０５において、今回の推定状態i_pathmaxが、前回の推定状態i_pathmaxに一致しないと判定された場合、処理は、ステップＳ１０９に進む。

また、ステップＳ１０５において、今回の推定状態i_pathmaxが、前回の推定状態i_pathmaxに一致すると判定された場合、処理は、ステップＳ１０６に進み、アクション信号生成部３２は、プラン上の、今回の推定状態i_pathmaxの次の状態i_nextになっている状態の今回の状態確率が、前回の状態確率よりも大であるかどうかを判定する。

ステップＳ１０６において、次の状態i_nextになっている状態の今回の状態確率が、前回の状態確率よりも大でないと判定された場合、すなわち、プラン上の状態にいるのであれば、いると推定される推定状態i_pathmaxが、アクションが行われる前と、行われた後とで変化していないが、その推定状態i_pathmaxの次の状態i_nextの状態確率が、アクションが行われた後で、アクションが行われる前よりも増加しなかった場合、処理は、ステップＳ１０８に進み、アクション信号生成部３２は、次の状態i_next（になっている状態）を、今回の推定状態i_pathmaxに選択し直して、処理は、ステップＳ１０９に進む。

ここで、プラン上の状態にいるのであれば、いると推定される推定状態i_pathmaxが、アクションが行われる前と、行われた後とで変化していないが、その推定状態i_pathmaxの次の状態i_nextの状態確率が、アクションが行われた後で、アクションが行われる前よりも増加しなかった場合、プランに従った状態遷移が行われていないと推定される。

この場合、アクション信号生成部３２は、今回の推定状態i_pathmaxを、とりあえず、次の状態i_nextに設定して、後述するステップＳ１１０において、プラン上の、状態i_nextから、その状態i_nextの次の状態に状態遷移を生じさせるアクションを行うためのアクション信号を生成し、そのアクション信号に従ったアクションが行われることで、現在状態が、プラン上の状態に近づくかどうかを試みる。

その結果、現在状態が、プラン上の状態に近づく場合には、処理は続行される。

また、現在状態が、プラン上の状態に近づかない場合には、その後に、割合P(i_pathmax)/P(i_max)が、所定の閾値以下となって、上述したように、ステップＳ１１２において、目標状態に辿り着くプランに変更するために、アクション信号生成部３２からプランニング部３１に、再度のプランニングが要求され、アクション信号生成処理は、終了する。

一方、ステップＳ１０６において、次の状態i_nextになっている状態の今回の状態確率が、前回の状態確率よりも大であると判定された場合、すなわち、現在状態が、次の状態i_next（になっている状態）に近づいていっていると推定される場合、処理は、ステップＳ１０７に進み、アクション信号生成部３２は、今回の推定状態i_pathmaxに選択された状態が、所定の回数（例えば、50回等）だけ連続して推定状態i_pathmaxに選択されたかどうかを判定する。

ステップＳ１０７において、今回の推定状態i_pathmaxに選択された状態が、所定の回数だけ連続して推定状態i_pathmaxに選択されたと判定された場合、すなわち、アクションが行われても、現在状態i_maxが、プラン上のある状態や、その状態に近い状態に止まっているか、又は、それらの状態どうしの間での状態遷移が繰り返されていると推定される場合、処理は、ステップＳ１０８に進み、アクション信号生成部３２は、上述したように、次の状態i_next（になっている状態）を、今回の推定状態i_pathmaxに選択し直して、処理は、ステップＳ１０９に進む。

すなわち、アクションが行われても、現在状態i_maxが、プラン上のある状態や、その状態に近い状態に止まっているか、又は、それらの状態どうしの間での状態遷移が繰り返されていると推定される場合には、アクション信号生成部３２は、今回の推定状態i_pathmaxを、次の状態i_nextに設定し、これにより、後述するステップＳ１１０において、プラン上の、状態i_nextから、その状態i_nextの次の状態に状態遷移を生じさせるアクションを行うためのアクション信号を生成し、そのアクション信号に従ったアクションを行わせることで、現在状態から、目標状態に向かう状態遷移を生じさせる。

ステップＳ１０９では、アクション信号生成部３２は、今回の推定状態i_pathmaxが、目標状態（プランの最後の状態）に等しいかどうかを判定する。

ステップＳ１０９において、今回の推定状態i_pathmaxが、目標状態に等しくないと判定された場合、すなわち、目標状態、又は、目標状態に近い状態に辿り着いていない場合、処理は、ステップＳ１１０に進み、アクション信号生成部３２は、アクション生成情報記憶部３４のアクション生成情報を参照し、今回の推定状態i_pathmaxから、次の状態i_nextへの状態遷移A_ijに対応付けられた関数m=F_ij(o)であるコントローラに対して、認識部２３からの現在時刻tの第１の観測値oを入力として与えることで、次に行うべきアクションとして、プランに従った状態遷移を生じさせるアクションを行うためのアクション信号mを生成し（求め）、アクション部１４に供給する。

アクション部１４は、アクション信号生成部３２からのアクション信号mに従って、可動部分を駆動し、これにより、セルフエージェントとしての単振り子は、アクション信号mに対応するトルクτに従って回転するアクションを行う。

セルフエージェントがアクションを行うと、センサ部１１では、そのアクションを行ったセルフエージェントから、最新の第１の観測値としての回転角θが観測され、バッファ２１に記憶される。

そして、認識部２３が、最新の第１の観測値を含むT個の最新の第１の観測値からなる第１の時系列データを、認識対象データとして認識を行い、最新の現在状態、最新の第１の観測値、及び、最新の各状態の状態確率を出力するのを待って、処理は、ステップＳ１１０からステップＳ１０２に戻り、以下、同様の処理が繰り返される。

一方、ステップＳ１０９において、今回の推定状態i_pathmaxが、目標状態に等しいと判定された場合、すなわち、目標状態、又は、目標状態に近い状態に辿り着いている場合、処理は、ステップＳ１１１に進み、アクション信号生成部３２は、認識部２３からの現在状態i_maxが、目標状態に等しいかどうかを判定する。

ステップＳ１１１において、現在状態i_maxが、目標状態に等しくないと判定された場合、すなわち、目標状態に近い状態にはいるが、目標状態にはいない場合、処理は、ステップＳ１１２に進み、アクション信号生成部３２は、プランを、現在状態i_max（又は、現在状態i_maxに近い状態）から、目標状態に辿り着くプランに変更するために、プランニング部３１に、再度のプランニングを要求して、アクション信号生成処理は、終了する。

また、ステップＳ１１１において、現在状態i_maxが、目標状態に等しいと判定された場合、すなわち、目標状態に辿り着いた場合、アクション信号生成処理は、終了する。

セルフ学習（図１２）、及び、アクション学習（図１７）を行ったセルフエージェントは、以上のように、目標状態が与えられれば、現在状態から目標状態に辿り着くプランをプランニングし、そのプランに従ったアクションを行って、目標状態に辿り着くこと（目標状態に相当する姿勢等の状態になること）ができる。

さらに、模倣学習（図１４）をも行ったセルフエージェントは、アザーエージェントを観察（観測）して、そのアザーエージェントを模倣するアクションを行うことができる。

［模倣処理］

図２０は、セルフエージェントに、アザーエージェントを模倣するアクションを行わせる模倣処理を説明するフローチャートである。

模倣処理では、ステップＳ１２１において、認識部２３は、センサ部１１でセンシング（観測）され、バッファ２１に記憶されている、アザーエージェントから観測された画像である第２の観測値の時系列（第２の時系列データ）を、認識対象データとして、図１６で説明したように認識を行い、マルチ観測予測モデルにおいて、認識対象データが観測される尤度が最大の状態系列である最尤系列を、セルフエージェントが模倣すべき模倣系列として求める。

そして、認識部２３は、模倣系列としての最尤系列を、アクション信号生成部３２に供給し、処理は、ステップＳ１２１からステップＳ１２２に進む。

なお、ステップＳ１２１において、認識対象データとなった第２の時系列データが観測された期間にアザーエージェントが行った一連のアクションが、以降の処理によって、セルフエージェントが模倣する一連のアクションとなる。

すなわち、セルフエージェントは、ステップＳ１２１において、認識対象データとなった第２の時系列データが観測された期間にアザーエージェントが行った一連のアクションを模倣する。

ここで、セルフエージェントが模倣する、アザーエージェントの一連のアクションを、教師アクションともいう。

ステップＳ１２２では、認識部２３は、センサ部１１でセンシング（観測）され、バッファ２１に記憶されている、セルフエージェントから観測された回転角θである第１の観測値の時系列（第１の時系列データ）を、認識対象データとして、図１６で説明したように認識を行い、その認識結果として、セルフエージェントの現在の状況（回転角θ及び角速度ω等）に対応する現在状態を求める。

そして、認識部２３は、第１の時系列データを認識対象データとして行った認識の認識結果としての現在状態を、アクション信号生成部３２に供給して、処理は、ステップＳ１２２からステップＳ１２３に進む。

ステップＳ１２３では、アクション信号生成部３２は、認識部２３からの、セルフエージェントの現在の状況に対応する現在状態が、模倣系列の最初の状態に一致するかどうかを判定する。

ステップＳ１２３において、現在状態が、模倣系列の最初の状態に一致すると判定された場合、処理は、ステップＳ１２４及びＳ１２５をスキップして、ステップＳ１２６に進み、アクション信号生成部３２は、認識部２３からの模倣系列を、プランとして、図１９で説明したように、プランに従ったアクション信号を生成して、模倣処理を終了する。

ここで、現在状態が、模倣系列の最初の状態に一致する場合、セルフエージェントとしての単振り子の回転角θ及び角速度ω等は、アザーエージェントが教師アクションを開始するときと同一になっているので（セルフエージェントは、アザーエージェントが教師アクションを開始するときと同一の状態になっているので）、セルフエージェントに、模倣系列の状態遷移を生じさせるアクションを行わせることで、セルフエージェントは、教師アクションと同様のアクション（教師アクションを模倣したアクション）を行うことになる。

そこで、現在状態が、模倣系列の最初の状態に一致する場合には、アクション信号生成部３２は、認識部２３からの模倣系列を、そのまま、プランとして用いて、アクション信号を生成する。

一方、ステップＳ１２３において、現在状態が、模倣系列の最初の状態に一致しないと判定された場合、アクション信号生成部３２は、プランニング部３１に、認識部２３からの現在状態を、スタート状態とするとともに、模倣系列の最初の状態を目標状態とするプランを求めるプランニングを要求して、処理は、ステップＳ１２４に進む。

ステップＳ１２４では、プランニング部３１は、アクション信号生成部３２からの要求に従い、現在状態を、スタート状態とするとともに、模倣系列の最初の状態を目標状態とするプランを、図１８で説明したようにして求める。

そして、プランニング部３１は、プランを、アクション信号生成部３２に供給して、処理は、ステップＳ１２４からステップＳ１２５に進む。

ステップＳ１２５では、アクション信号生成部３２は、図１９で説明したように、プランニング部３１からのプランに従ったアクション信号を生成する。

ここで、現在状態が、模倣系列の最初の状態に一致しない場合、セルフエージェントとしての単振り子の回転角θ及び角速度ω等は、アザーエージェントが教師アクションを開始するときと同一になっていないので、セルフエージェントに、教師アクションと同様のアクションを行わせるには、まず、セルフエージェントとしての単振り子の回転角θ及び角速度ω等を、アザーエージェントが教師アクションを開始するときと同一にする（セルフエージェントを、アザーエージェントが教師アクションを開始するときと同一の状態にする）必要がある。

そこで、現在状態が、模倣系列の最初の状態に一致しない場合には、アクション信号生成部３２は、現在状態を、スタート状態とするとともに、模倣系列の最初の状態を目標状態とするプランに従ったアクション信号を生成することで、セルフエージェントを、アザーエージェントが教師アクションを開始するときと同一の状態にする。

その後、処理は、ステップＳ１２５からステップＳ１２６に進み、アクション信号生成部３２は、認識部２３からの模倣系列を、プランとして、図１９で説明したように、プランに従ったアクション信号を生成して、模倣処理を終了する。

すなわち、ステップＳ１２５において、アクション信号生成部３２が、現在状態を、スタート状態とするとともに、模倣系列の最初の状態を目標状態とするプランに従ったアクション信号を生成することで、セルフエージェントは、アザーエージェントが教師アクションを開始するときと同一の状態になるので、その後は、アクション信号生成部３２において、模倣系列を、プランとして、そのプランに従ったアクション信号を生成することで、セルフエージェントは、教師アクションと同様のアクション（教師アクションを模倣したアクション）を行うことになる。

以上の模倣処理によれば、回転角θを、所望の角度にする回転のアクションを行うことが可能なセルフエージェントとしての単振り子が、アザーエージェントとしての他の単振り子が回転するアクションを、いわば視覚で観察して（見）真似をする、ということを実現することができる。

なお、本実施の形態では、マルチ観測予測モデルとして、HMMを利用した状態遷移予測モデルを採用したが、マルチ観測予測モデルとしては、RNN(Recurrent Neural Network)や、ベイジアンネットワーク、線形状態空間モデルなどを利用した状態遷移予測モデルを採用することができる。

例えば、RNNを利用した状態遷移予測モデルを、マルチ観測予測モデルとして採用する場合、RNNのコンテキスト(context)層（コンテキストが入力されるユニット（ノード）の集まり）が、内部状態に相当する。そして、コンテキストに対する重み（ウエイト）が、遷移モデルに相当し、コンテキスト以外の、各ユニットの出力に対する重みが、観測モデルに相当する。

さらに、例えば、線形状態空間モデル（システム）を利用した状態遷移予測モデルを、マルチ観測予測モデルとして採用する場合は、状態ベクトルx(t)が内部状態に、状態行列A(t)が遷移モデルに、出力ベクトルy(t)が観測値に、出力行列C(t)が観測モデルに、それぞれ相当する。

ここで、線形状態空間モデルは、以下の状態方程式によって表される。

x'(t)＝A(t)x(t)+B(t)u(t)
y(t)＝C(t)x(t)+D(t)u(t)

なお、上記の状態方程式において、x'(t)は、状態ベクトルx(t)の微分を表し、B(t)及びD(t)は、行列である。u(t)は、入力ベクトルを表し、入力ベクトルu(t)としては、例えば、0（ベクトル）を採用することができる。

また、本実施の形態では、セルフエージェントから観測される第１の観測値として、回転角θを採用するとともに、アザーエージェントから観測される第２の観測値として、アザーエージェントを撮影した画像を採用することとしたが、第１及び第２の観測値は、これに限定されるものではない。

すなわち、模倣学習（図１４）によれば、第１及び第２の観測値が、種類の異なる観測値であっても、同様のダイナミクス（メカニズム）を有するのであれば、そのような種類が異なる第１及び第２の観測値の対応をとること（他者の状態と模倣者自身の状態との対応付け）ができるので、第１及び第２の観測値としては、同様のダイナミクスを有する、種類（モーダル）が異なる観測値を採用することができる。

具体的には、例えば、第１の観測値としては、セルフエージェントの関節部分の角度を採用し、第２の観測値としては、アザーエージェントの関節部分の３次元的な位置の情報を採用することができる。

図２１は、セルフエージェントとしての人型のエージェント（人の身体的特徴を有するエージェント）と、そのような人型のセルフエージェントから観測される第１の観測値との例を示す図である。

図２１では、人型のセルフエージェントから、関節部分の角度が、第１の観測値として観測され、その第１の観測値の時系列が、セルフ学習（図１２）等に用いられる。

ここで、図２１では、第１の観測値として観測されるセルフエージェントの関節部分の角度を、関節部分を直線で結ぶことによって表している。

図２２は、アザーエージェントとしての人型のエージェントと、そのような人型のアザーエージェントから観測される第２の観測値との例を示す図である。

図２１の人型のセルフエージェントは、同じく人型のアザーエージェントを観測し、第２の観測値として、図２２に示すようなアザーエージェントの関節部分の３次元的な位置の座標を得て、その座標の時系列を、模倣学習（図１４）に用いることができる。

ここで、図２２では、アザーエージェントの関節部分の位置を、２次元平面上にプロットすることによって表している。

セルフ学習及び模倣学習を終了した人型のセルフエージェントは、図２０で説明したようにして、アザーエージェントを模倣するアクションを行うことができる。

ここで、図２１の人型のセルフエージェントは、図２２の人型のアザーエージェントの他、外部から関節部分を観測することができる状態の人（例えば、関節部分に、発光体を貼付した人等）から、関節部分の位置の座標を、第２の観測値として観測し、模倣学習を行うことができる。この場合、人型のセルフエージェントは、人を観察して、その人と同様のアクションを行うようになる。

なお、第１及び第２の観測値は、種類が同一の観測値であっても良い。

また、本実施の形態では、セルフエージェント、及び、アザーエージェントとして、同一のアクションを行うことができる単振り子を採用したが、セルフエージェント、及び、アザーエージェントは、同一のアクションを行うことができるエージェント、つまり、同一の身体的特徴を有するエージェントでなくても良い。

すなわち、セルフエージェントとしては、例えば、人型のエージェント（人の身体的特徴を有するエージェント）を採用し、アザーエージェントとしては、動物の象の動きをする象型のエージェント（象の身体的特徴を有するエージェント）を採用することができる。

この場合、人型のセルフエージェントに、象型のアザーエージェントが長い鼻を振るアクションを模倣させたときには、現実世界で、人間が、象の真似をする場合が、そうであるように、人型のセルフエージェントは、腕を、象の鼻にみたてて、その象の鼻にみたてた腕を振るアクションを、象型のアザーエージェントを模倣したアクションとして行うことが期待される。

［本発明の情報処理装置を適用したレコーダの一実施の形態］

図２３は、本発明の情報処理装置を適用したレコーダの一実施の形態の構成例を示すブロック図である。

図２３のレコーダは、例えば、HD(Hard Disk)レコーダ等であり、テレビジョン放送の番組や、インターネット等のネットワークを介して提供されるコンテンツ、ビデオカメラ等で撮影したコンテンツ等の各種のコンテンツを録画（記録）（記憶）することができる。

すなわち、図２３において、レコーダは、コンテンツ記憶部１１１、及び、ハイライトシーン検出装置１１２を有する。

コンテンツ記憶部１１１は、例えば、テレビジョン放送の番組等のコンテンツを記憶（記録）する。コンテンツ記憶部１１１へのコンテンツの記憶が、そのコンテンツの録画となり、その録画がされたコンテンツ（コンテンツ記憶部１１１に記憶されたコンテンツ）は、例えば、ユーザの操作に応じて再生される。

ハイライトシーン検出装置１１２は、コンテンツ記憶部１１１に記憶されたコンテンツから、ユーザの興味があるシーンを、ハイライトシーンとして検出し、そのハイライトシーンを集めたダイジェストを生成する。

ここで、コンテンツ記憶部１１１に記憶されるコンテンツのデータは、画像、音声、及び、必要なテキスト（字幕）のデータ（ストリーム）を含むこととする。

また、ここでは、コンテンツのデータのうちの、画像のデータだけを、ハイライトシーン検出装置１１２での処理に用いることとする。

但し、ハイライトシーン検出装置１１２での処理には、画像のデータの他、音声やテキストのデータをも用いることが可能である。

ハイライトシーン検出装置１１２は、ハイライト検出器学習部１２１、検出器記憶部１２２、及び、ハイライト検出部１２３から構成される。

ハイライト検出器学習部１２１は、コンテンツ記憶部１１１に記憶されたコンテンツを用いて、ユーザの興味があるシーンを、ハイライトシーンとして検出するための学習モデルであるハイライト検出器の学習を行う。

ハイライト検出器学習部１２１は、学習後のハイライト検出器を、検出器記憶部１２２に供給する。

ここで、ハイライト検出器となる学習モデルとしては、状態遷移予測モデルの１つである、例えば、HMMを用いることができる。

検出器記憶部１２２は、ハイライト検出器学習部１２１からのハイライト検出器を記憶する。

ハイライト検出部１２３は、検出器記憶部１２２に記憶されたハイライト検出器を用い、コンテンツ記憶部１１１に記憶されたコンテンツから、ハイライトシーンのフレームを検出する。さらに、ハイライト検出部１２３は、ハイライトシーンのフレームを用いて、コンテンツ記憶部１１１に記憶されたコンテンツのダイジェストであるダイジェストコンテンツを生成する。

［ハイライト検出器学習部１２１の構成例］

図２４は、図２３のハイライト検出器学習部１２１の構成例を示すブロック図である。

図２４において、ハイライト検出器学習部１２１は、コンテンツ選択部１３１、特徴量抽出部１３２、ラベル化部１３３、ハイライトラベル生成部１３４、学習用ラベル生成部１３５、及び、学習部１３６から構成される。

コンテンツ選択部１３１は、例えば、ユーザの操作等に応じて、コンテンツ記憶部１１１に記憶されたコンテンツの中から、ハイライト検出器の学習に用いるコンテンツを、注目検出器学習用コンテンツ（以下、単に、注目コンテンツともいう）に選択する。

すなわち、コンテンツ選択部１３１は、例えば、コンテンツ記憶部１１１に記憶されたコンテンツである、例えば、録画済みの番組の中から、ユーザが、再生の対象として指定したコンテンツ（番組）を、注目コンテンツに選択し、特徴量抽出部１３２に供給する。

特徴量抽出部１３２は、コンテンツ選択部１３１から供給される注目コンテンツの各フレームの画像の特徴量を、各フレームの特徴量として抽出し、注目コンテンツの各フレームの特徴量（の時系列）を、ラベル化部１３３に供給する。

ここで、フレームの特徴量としての、画像の特徴量としては、例えば、フレームの画像を、複数の小領域であるサブ領域に分割し、各サブ領域からGIST等のサブ領域の特徴量を求め、そのサブ領域の特徴量をコンポーネントとするベクトルを採用することができる。

なお、GISTについては、例えば、A. Torralba, K. Murphy, W. Freeman, M. Rubin, "Context-based vision system for place and object recognition", IEEE Int. Conf. Computer Vision, vol. 1, no. 1, pp. 273-280, 2003.に、詳細が記載されている。

ラベル化部１３３は、特徴量抽出部１３２からの注目コンテンツのフレームの特徴量としてのベクトルを、スカラ値（１次元の値）であるラベルにラベル化し、そのラベルを、ラベル化後の特徴量として、学習用ラベル生成部１３５に供給する。

ここで、ベクトルである特徴量をラベル化する方法としては、ベクトル量子化がある。ベクトル量子化は、例えば、コンテンツ記憶部１１１に記憶されたコンテンツから、各フレームの特徴量を抽出し、その特徴量を用いて、k-means法により、コードブックを求めておき、そのコードブックを用いて行うことができる。

ここで、ラベル化部１３３において得られる、フレームの特徴量のラベルを、特徴ラベルともいう。

ここでは、特徴ラベルは、コードブックに登録されている代表ベクトル（セントロイドベクトル）を表すコードである。

ハイライトラベル生成部１３４は、ユーザの操作に従い、ハイライトシーンであるか否かを表すハイライトラベルを、コンテンツ選択部１３１で選択された注目コンテンツの各フレームにラベリングすることにより、注目コンテンツについて、ハイライトラベル系列を生成する。

すなわち、コンテンツ選択部１３１が選択する注目コンテンツは、上述したように、ユーザが、再生の対象として指定したコンテンツであり、注目コンテンツの画像は、図示せぬディスプレイに表示される（とともに、音声は、図示せぬスピーカから出力される）。

ユーザは、ディスプレイに、興味があるシーンが表示されたときに、図示せぬリモートコマンダ等を操作して、興味があるシーンである旨を入力することができ、ハイライトラベル生成部１３４は、そのようなユーザの操作に従って、ハイライトラベルを生成する。

具体的には、例えば、興味があるシーンである旨を入力するときの、ユーザの操作を、お気に入り操作ということとすると、ハイライトラベル生成部１３４は、お気に入り操作がされなかったフレームに対しては、ハイライトシーンでないことを表す、例えば、値が"0"のハイライトラベルを生成する。

また、ハイライトラベル生成部１３４は、お気に入り操作がされたフレームに対しては、ハイライトシーンであることを表す、例えば、値が"1"のハイライトラベルを生成する。

そして、ハイライトラベル生成部１３４は、注目コンテンツについて生成したハイライトラベルの時系列であるハイライトラベル系列を、学習用ラベル生成部１３５に供給する。

学習用ラベル生成部１３５は、ラベル化部１３３からの注目コンテンツの特徴ラベルの系列（特徴ラベル系列）と、ハイライトラベル生成部１３４からのハイライトラベル系列とのペアである学習用ラベル系列を生成する。

すなわち、学習用ラベル生成部１３５は、ラベル化部１３３からの特徴ラベル系列と、ハイライトラベル生成部１３４からのハイライトラベル系列とにおける、各時刻tの特徴ラベル（フレームtの特徴量をラベル化することにより得られる特徴ラベル）と、ハイライトラベル（フレームtに対するハイライトラベル）とをペアにした（時刻tのサンプルとした）、マルチストリームの学習用ラベル系列を生成する。

そして、学習用ラベル生成部１３５は、学習用ラベル系列を、学習部１３６に供給する。

学習部１３６は、学習用ラベル生成部１３５からの学習用ラベル系列を用いて、例えば、エルゴディック型の、マルチストリームHMMであるハイライト検出器の学習を、Baum-Welchの再推定法に従って行う。

そして、学習部１３６は、学習後のハイライト検出器を、検出器記憶部１２２に供給して記憶させる。

なお、マルチストリームHMMでは、マルチストリームを構成する個々の系列（ストリーム）（以下、構成要素系列ともいう）に対して、その構成要素系列をマルチストリームHMMに影響させる度合いである重み（以下、系列重みともいう）を設定することができる。

マルチストリームHMMの学習時や、マルチストリームHMMを用いた認識時（最尤系列を求めるとき）に重要視する構成要素系列に対して、大きな系列重みを設定することで、マルチストリームHMMの学習結果が局所解に陥らないように事前知識を与えることができる。

なお、マルチストリームHMMの詳細は、例えば、田村哲嗣, 岩野公司, 古井貞煕,「オプティカルフローを用いたマルチモーダル音声認識の検討」、日本音響学会 2001年秋季講演論文集, 1-1-14, pp.27-28 (2001-10)等に記載されている。

上述の文献では、audio-visual speech recognition の分野での、マルチストリームHMMの使用例が紹介されている。すなわち、音声のSN比(Signal to Noise ratio)が低いときは、音声の特徴量の系列の系列重みを低くし、音声よりも画像の影響がより大きくなるようにして、学習と認識を行うことが記載されている。

マルチストリームHMMが、マルチストリームでない単一の系列を用いるHMMと異なる点は、式（１１）に示すように、マルチストリームを構成する各構成要素系列（のサンプル（観測値））o_[m]の観測尤度（出力確率分布）b_[m]j(o_[m])に、事前に設定した系列重みW_mを考慮して、マルチストリーム全体の観測尤度b_j(o_[1],o_[2],・・・,o_[M])を計算する点である。

・・・（１１）

ここで、式（１１）において、Mは、マルチストリームを構成する構成要素系列o_[m]の数（ストリーム数）を表し、系列重みW_mは、マルチストリームを構成するM個の構成要素系列のうちのm番目の構成要素系列o_[m]の系列重みを表す。

図２４の学習部１３６で学習に用いられるマルチストリームである学習用ラベル系列は、特徴ラベル系列o_[V](=o_[1])とハイライトラベル系列o_[HL](=o_[2])との２つの構成要素系列で構成される。

この場合、学習用ラベル系列の観測尤度b_j(o_[V],o_[HL])は、式（１２）で表される。

・・・（１２）

ここで、式（１２）において、b_[V]j(o_[V])は、特徴ラベル系列（の特徴ラベル）o_[V]の観測尤度（状態s_jにおいて、観測値o_[v]が観測される観測尤度）を表し、b_[HL]j(o_[HL])は、ハイライトラベル系列（のハイライトラベル）o_[HL]の観測尤度を表す。また、Wは、特徴ラベル系列o_[V]の系列重みを表し、1-Wは、ハイライトラベル系列o_[HL]の系列重みを表す。

なお、ハイライト検出器としてのマルチストリームHMMの学習では、系列重みWとしては、例えば、0.5を採用することができる。

以上のように構成されるハイライト検出器学習部１２１では、コンテンツ選択部１３１は、コンテンツ記憶部１１１に記憶されたコンテンツの中から、例えば、ユーザの操作によって再生が指定されたコンテンツを、注目コンテンツ（注目検出器学習用コンテンツ）に選択し、特徴量抽出部１３２に供給する。

特徴量抽出部１３２は、コンテンツ選択部１３１からの注目コンテンツの各フレームの特徴量を抽出し、ラベル化部１３３に供給する。

ラベル化部１３３は、特徴量抽出部１３２からの注目コンテンツの特徴量をラベル化し、そのラベル化後の特徴量である特徴ラベルの系列（特徴ラベル系列）を、学習用ラベル生成部１３５に供給する。

一方、ハイライトラベル生成部１３４は、ユーザの操作に従い、ハイライトラベルを、コンテンツ選択部１３１で選択された注目コンテンツの各フレームにラベリングすることにより、注目コンテンツについて、ハイライトラベル系列を生成する。

そして、ハイライトラベル生成部１３４は、注目コンテンツについて生成したハイライトラベル系列を、学習用ラベル生成部１３５に供給する。

学習用ラベル生成部１３５は、ラベル化部１３３からの、注目コンテンツの特徴ラベル系列と、ハイライトラベル生成部１３４からのハイライトラベル系列とのマルチストリームである学習用ラベル系列を生成し、学習部１３６に供給する。

学習部１３６は、学習用ラベル生成部１３５からの学習用ラベル系列を用いて、マルチストリームHMMであるハイライト検出器の学習を行い、学習後のハイライト検出器を、検出器記憶部１２２に供給して記憶させる。

以上のように、ハイライト検出器は、注目コンテンツの特徴量をラベル化することにより得られる特徴ラベル系列と、ユーザの操作に応じて生成されるハイライトラベル系列とのマルチストリームである学習用ラベル系列を用いて、マルチストリームHMMの学習を行うことにより得られる。

したがって、ハイライト検出器の各状態の、ハイライトラベルo_[HL]の観測尤度b_[HL]j(o_[HL])を参照することにより、その状態で観測される（確率が高い）特徴ラベルのフレームが、ユーザの興味があるシーン（ハイライトシーン）であるかどうかを判定することができる。

［ハイライト検出部１２３の構成例］

図２５は、図２３のハイライト検出部１２３の構成例を示すブロック図である。

図２５において、ハイライト検出部１２３は、コンテンツ選択部１４１、特徴量抽出部１４２、ラベル化部１４３、検出用ラベル生成部１４４、最尤状態系列推定部１４５、ハイライトシーン検出部１４６、ダイジェストコンテンツ生成部１４７、及び、再生制御部１４８から構成される。

コンテンツ選択部１４１は、例えば、ユーザの操作等に応じて、コンテンツ記憶部１１１に記憶されたコンテンツの中から、ハイライトシーンを検出する対象のコンテンツである注目ハイライト検出用コンテンツ（以下、単に、注目コンテンツともいう）を選択し、特徴量抽出部１４２、及び、ダイジェストコンテンツ生成部１４７に供給する。

ここで、コンテンツ選択部１４１は、例えば、ダイジェストを生成するコンテンツとして、ユーザが指定したコンテンツを、注目コンテンツに選択する。あるいは、コンテンツ選択部１４１は、例えば、まだ、ダイジェストを生成していないコンテンツのうちの任意の１つのコンテンツを、注目コンテンツに選択する。

特徴量抽出部１４２は、コンテンツ選択部１４１から供給される注目コンテンツの各フレームの特徴量を、図２４の特徴量抽出部１３２と同様にして抽出し、ラベル化部１４３に供給する。

ラベル化部１４３は、図２４のラベル化部１３３と同様にして、特徴量抽出部１４２からの注目コンテンツの特徴量（の時系列）をラベル化し、ラベル化後の特徴量の系列である特徴ラベル系列を、検出用ラベル生成部１４４に供給する。

検出用ラベル生成部１４４は、ラベル化部１４３からの、注目コンテンツの（特徴量）の特徴ラベル系列と、ハイライトシーンでないこと（、又はハイライトシーンであること）を表すハイライトラベルのみのハイライトラベル系列とのペアである検出用ラベル系列を生成する。

すなわち、検出用ラベル生成部１４４は、ハイライトシーンでないことを表すハイライトラベルのみのハイライトラベル系列であって、ラベル化部１４３からの特徴ラベル系列と同一の長さ（系列長）のハイライトラベル系列を、ハイライト検出器に与える、いわばダミーの系列として生成する。

さらに、検出用ラベル生成部１４４は、ラベル化部１４３からの特徴ラベル系列における、時刻tの特徴ラベル（フレームtの特徴量の特徴ラベル）と、ダミーの系列であるハイライトラベル系列における、時刻tのハイライトラベル（フレームtに対するハイライトラベル（ここでは、ハイライトシーンでないことを表すハイライトラベル））とをペアにした、マルチストリームの検出用ラベル系列を生成する。

そして、検出用ラベル生成部１４４は、検出用ラベル系列を、最尤状態系列推定部１４５に供給する。

最尤状態系列推定部１４５は、例えば、Viterbiアルゴリズムに従い、検出器記憶部１２２に記憶された（学習後の）マルチストリームHMMであるハイライト検出器において、検出用ラベル生成部１４４からの検出用ラベル系列が観測される尤度が最も高い状態遷移が生じる状態系列である最尤系列（最尤状態系列）（以下、ハイライト関係状態系列ともいう）を推定し、ハイライトシーン検出部１４６に供給する。

なお、検出用ラベル系列は、注目コンテンツの特徴ラベル系列o_[V]と、ダミーの系列であるハイライトラベル系列o_[HL]とを、構成要素系列とするマルチストリームであり、ハイライト関係状態系列の推定にあたり、検出用ラベル系列の観測尤度b_j(o_[V],o_[HL])は、学習用ラベル系列の場合と同様に、式（１２）に従って求められる。

但し、検出用ラベル系列の観測尤度b_j(o_[V],o_[HL])を求める際の、特徴ラベル系列o_[V]の系列重みWとしては、1.0を用いる。この場合、ハイライトラベル系列o_[HL]の系列重み1-Wは、0.0となる。これにより、最尤状態系列推定部１４５では、ダミーの系列として入力されたハイライトラベル系列を考慮せずに、注目コンテンツの特徴ラベル系列のみを考慮して、ハイライト関係状態系列の推定が行われる。

ハイライトシーン検出部１４６は、最尤状態系列推定部１４５からの、検出用ラベル系列から得られる最尤系列（ハイライト関係状態系列）の各状態のハイライトラベルo_[HL]の観測尤度b_[HL]j(o_[HL])を、検出器記憶部１２２に記憶されたハイライト検出器（ハイライト関係状態系列を求めるのに用いられたハイライト検出器）を参照することにより認識する。

さらに、ハイライトシーン検出部１４６は、ハイライトラベルo_[HL]の観測尤度b_[HL]j(o_[HL])に基づいて、注目コンテンツから、ハイライトシーンのフレームを検出する。

すなわち、ハイライトシーン検出部１４６は、ハイライト関係状態系列の時刻tの状態s_jにおける、ハイライトシーンであることを表すハイライトラベルの観測尤度b_[HL]j(o_[HL]="1")と、ハイライトシーンでないことを表すハイライトラベルの観測尤度b_[HL]j(o_[HL]="0")との差分b_[HL]j(o_[HL]="1")−b_[HL]j(o_[HL]="0")が、所定の閾値THb（例えば、THb=0等）より大である場合、時刻tの状態s_jに対応する、注目コンテンツのフレームtを、ハイライトシーンのフレームとして検出する。

そして、ハイライトシーン検出部１４６は、注目コンテンツの、ハイライトシーンのフレームについては、フレームがハイライトシーンのフレームであるかどうかを表す１ビットのハイライトフラグに、ハイライトシーンである旨を表す値である、例えば、"1"をセットする。また、ハイライトシーン検出部１４６は、注目コンテンツの、ハイライトシーンでないシーンのフレームについては、ハイライトフラグに、ハイライトシーンでない旨を表す値である、例えば、"0"をセットする。

そして、ハイライトシーン検出部１４６は、注目コンテンツの各フレームのハイライトフラグ（の時系列）を、ダイジェストコンテンツ生成部１４７に供給する。

ダイジェストコンテンツ生成部１４７は、コンテンツ選択部１４１からの注目コンテンツのフレームから、ハイライトシーン検出部１４６からのハイライトフラグによって特定されるハイライトシーンのフレームを抽出する。

さらに、ダイジェストコンテンツ生成部１４７は、注目コンテンツのフレームから抽出したハイライトシーンのフレームを、例えば、時系列に並べること等によって、注目コンテンツのダイジェストであるダイジェストコンテンツを生成し、再生制御部１４８に供給する。

再生制御部１４８は、ダイジェストコンテンツ生成部１４７からのダイジェストコンテンツを再生する再生制御を行う。

以上のように構成されるハイライト検出部１２３では、コンテンツ選択部１４１は、コンテンツ記憶部１１１に記憶されたコンテンツの中から、ハイライトシーンを検出する対象のコンテンツである注目コンテンツ（注目ハイライト検出用コンテンツ）を選択し、特徴量抽出部１４２、及び、ダイジェストコンテンツ生成部１４７に供給する。

特徴量抽出部１４２は、コンテンツ選択部１４１から供給される注目コンテンツの各フレームの特徴量を抽出し、ラベル化部１４３に供給する。

ラベル化部１４３は、特徴量抽出部１４２からの注目コンテンツの特徴量（の時系列）をラベル化し、その結果得られる特徴ラベル系列を、検出用ラベル生成部１４４に供給する。

検出用ラベル生成部１４４は、ダミーのハイライトラベル系列として、例えば、ハイライトシーンでないことを表すハイライトラベル（値が"0"のハイライトラベル）のみのハイライトラベル系列を生成する。さらに、検出用ラベル生成部１４４は、ラベル化部１４３からの、注目コンテンツの特徴ラベル系列と、ダミーのハイライトラベル系列とのペアである検出用ラベル系列を生成し、最尤状態系列推定部１４５に供給する。

最尤状態系列推定部１４５は、検出器記憶部１２２に記憶されたハイライト検出器において、検出用ラベル生成部１４４からの検出用ラベル系列が観測される尤度が最も高い状態遷移が生じる最尤系列であるハイライト関係状態系列を推定し、ハイライトシーン検出部１４６に供給する。

ハイライトシーン検出部１４６は、検出器記憶部１２２に記憶されたハイライト検出器としてのマルチストリームHMMの状態のうちの、最尤状態系列推定部１４５からのハイライト関係状態系列を構成する状態のハイライトラベルの観測尤度に基づいて、上述したように、注目コンテンツから、ハイライトシーンのフレームを検出し、そのフレームを特定するハイライトフラグを、ダイジェストコンテンツ生成部１４７に供給する。

ダイジェストコンテンツ生成部１４７は、コンテンツ選択部１４１からの注目コンテンツのフレームから、ハイライトシーン検出部１４６が出力するハイライトフラグによって特定されるハイライトシーンのフレームを抽出する。

さらに、ダイジェストコンテンツ生成部１４７は、注目コンテンツのフレームから抽出したハイライトシーンのフレームを用いて、注目コンテンツのダイジェストコンテンツを生成し、再生制御部１４８に供給する。

再生制御部１４８は、ダイジェストコンテンツ生成部１４７からのダイジェストコンテンツが再生される。

以上のように、ハイライト検出部１２３（図２５）は、ハイライト検出器において、注目コンテンツの特徴ラベル系列と、ダミーのハイライトラベル系列とのペアである検出用ラベル系列が観測される場合の最尤系列であるハイライト関係状態系列を推定し、そのハイライト関係状態系列の各状態のハイライトラベルの観測尤度に基づいて、注目コンテンツから、ハイライトシーンのフレームを検出して、そのハイライトシーンのフレームを用いて、ダイジェストコンテンツを生成する。

また、ハイライト検出器は、コンテンツの特徴量をラベル化することにより得られる特徴ラベル系列と、ユーザの操作に応じて生成されるハイライトラベル系列とのペアである学習用ラベル系列を用いて、マルチストリームHMMであるハイライト検出器の学習を行うことにより得られる。

したがって、ダイジェストコンテンツを生成する注目コンテンツが、ハイライト検出器の学習に用いられていない場合であっても、注目コンテンツと同様の構造のコンテンツを用いて、ハイライト検出器の学習が行われていれば、そのハイライト検出器を用いて、ユーザの興味があるシーンを、ハイライトシーンとして集めたダイジェスト（ダイジェストコンテンツ）を、容易に得ることができる。

図２６は、図２４のハイライト検出器学習部１２１によるハイライト検出器の学習を説明する図である。

ハイライト検出器の学習によれば、その学習に用いられる学習用ラベル系列が、コンテンツから抽出された特徴量の特徴ラベル系列を含むので、ハイライト検出器において、そのハイライト検出器の学習に用いられたコンテンツである学習用コンテンツに潜む、コンテンツの構造（例えば、番組構成や、カメラワーク等が作り出す構造）が自己組織的に獲得される。

ここで、学習用コンテンツが、例えば、ある日の相撲の中継番組である場合には、大雑把には、対戦表が表示されるシーン、仕切り動作のシーン、制限時間一杯のシーン、取り組みのシーン、勝敗が決したときのシーン、取り組みのスロー再生のシーン、・・・という流れを、番組の基本的な流れとして、この基本的な流れの繰り返しによって、相撲の中継番組が進行していく。

上述の番組の基本的な流れが、コンテンツの構造である。

そして、番組の基本的な流れ（構造）を構成する、対戦表が表示されるシーン、仕切り動作のシーン、制限時間一杯のシーン、取り組みのシーン、勝敗が決したときのシーン、取り組みのスロー再生のシーン、・・・のそれぞれが、コンテンツの構造の要素ということができる。

さらに、例えば、対戦表が表示されるシーン等から、仕切り動作のシーン等への進行が、コンテンツの構造の要素どうしの間での、時間的な遷移ということができる。

ハイライト検出器の学習によれば、ハイライト検出器としてのマルチストリームHMMの各状態は、学習用コンテンツの構造の要素を表現し、状態遷移は、学習用コンテンツの構造の要素どうしの間での、時間的な遷移を表現することとなる。

すなわち、ハイライト検出器としてのマルチストリームHMMにおいて、そのマルチストリームHMMの状態は、特徴量空間（特徴量抽出部１３２（図２４）で抽出される特徴量の空間）において、空間的な距離が近く、かつ、時間的な前後関係が似ているフレーム群、つまり「似たシーン」をまとめて表現する。

さらに、ハイライト検出器の学習によれば、その学習に用いられる学習用ラベル系列が、ユーザによるお気に入り操作に従ったハイライトラベル系列を含むので、ハイライト検出器の状態において、その状態が表現する「似たシーン」に対するユーザの興味の程度、つまり、ユーザにとってハイライトシーンである程度が、ハイライトラベルの観測尤度という形で獲得される。

その結果、ダイジェストコンテンツを生成する注目コンテンツが、ハイライト検出器の学習に用いられていない場合（学習用コンテンツでない場合）であっても、注目コンテンツと同様の構造のコンテンツを用いて、ハイライト検出器の学習が行われていれば、そのハイライト検出器を用いて、ユーザの興味があるシーンを、ハイライトシーンとして集めたダイジェスト（ダイジェストコンテンツ）を、容易に得ることができる。

ここで、同様の構造のコンテンツとしては、例えば、同一のカテゴリに属するコンテンツがある。

同一のカテゴリに属するコンテンツとは、例えば、ジャンルが同一の番組や、連続番組、毎週又は毎日その他周期的に放送される番組（タイトルが同一の番組）等を意味する。

ジャンルとしては、例えば、スポーツ番組やニュース番組等といった、いわば大まかな分類を採用することもできるが、例えば、サッカーの試合の番組や野球の試合の番組等といった、いわば細かい分類であることが望ましい。

また、例えば、サッカーの試合の番組であれば、チャンネル（放送局）が異なるごとに、異なるカテゴリに属するコンテンツに分類することができる。

なお、上述の場合には、ハイライト検出器学習部１２１でのハイライト検出器の学習、及び、ハイライト検出部１２３での最尤系列（ハイライト関係状態系列）の推定に、コンテンツのフレームの画像の特徴量をラベル化した特徴ラベル（ラベル化後の特徴量）を用いたが、ハイライト検出器の学習、及び、ハイライト関係状態系列の推定には、コンテンツのフレームの画像の特徴量（ラベル化していないベクトルそのもの）を用いることが可能である。

また、上述の場合には、フレームの特徴量として、フレームの画像の特徴量のみを採用し、その特徴量（をラベル化した特徴ラベル）の系列と、ハイライトラベル系列との２つの系列を構成要素系列とするマルチストリームを、ハイライト検出器の学習、及び、ハイライト関係状態系列の推定に用いたが、フレームの特徴量としては、そのフレームの画像の特徴量の他、そのフレームを含む所定の期間の音声の特徴量（例えば、MFCC(Mel Frequency Cepstral Coefficient)等）をも採用することができる。

この場合、ハイライト検出器の学習、及び、ハイライト関係状態系列の推定には、フレームの特徴量としての画像の特徴量、及び、音声の特徴量の系列、並びに、ハイライトラベル系列の３つの系列を構成要素系列とするマルチストリームが用いられる。

さらに、上述の場合には、ハイライト検出器として、マルチストリームHMMそのものを用いることとしたが、ハイライト検出器としては、その他、例えば、マルチ観測予測モデルとしての、マルチストリームHMMを利用した状態遷移予測モデルを採用することができる。

ここで、マルチ観測予測モデルとしての、マルチストリームHMMを利用した状態遷移予測モデルは、マルチストリーム（全体）の観測尤度が、式（１１）や式（１２）に示したように、マルチストリームを構成する各構成要素系列の観測尤度を用いて求められることを除き、上述した、マルチ観測予測モデルとしての、（マルチストリームでない）HMMを利用した状態遷移予測モデルと同様に構成される。

図２７は、ハイライト検出器として、マルチ観測予測モデルを採用する場合の、ハイライト検出器の学習、及び、ハイライト関係系列の推定を説明する図である。

ハイライトシーン検出装置１１２（図２３）では、ハイライト検出器学習部１２１が、例えば、ある日の相撲の中継番組（以下、第１の番組ともいう）を、学習用コンテンツとして用いて、ハイライト検出器としてのマルチ観測予測モデルの学習を行う。

すなわち、ハイライト検出器学習部１２１は、学習用コンテンツとしての第１の番組から抽出されるフレームの特徴量（の特徴量ラベル）の系列と、ユーザのお気に入り操作に従って生成されるハイライトラベル系列とからなるマルチストリーム（以下、第１の番組のマルチストリームともいう）を、第１の時系列データとして用いて、ハイライト検出器としてのマルチ観測予測モデルの学習を行う。

第１の時系列データを用いた学習により、ハイライト検出器としてのマルチ観測予測モデルの初期状態確率、遷移確率、及び、第１の時系列データ（のサンプルである第１の観測値）の観測尤度である第１の観測尤度（観測モデル#1（図６））が求められる。

そして、例えば、別の日の相撲の中継番組（以下、第２の番組ともいう）を、ダイジェストコンテンツを生成する対象の対象コンテンツとして、ダイジェストコンテンツを生成する場合には、ハイライトシーン検出装置１１２において、ハイライト検出部１２３（図２５）が、対象コンテンツとしての第２の番組から抽出されるフレームの特徴量（の特徴ラベル）の系列と、ダミーのハイライトラベル系列とからなるマルチストリーム（以下、第２の番組のマルチストリームともいう）を、第１の時系列データとして用いて、ハイライト検出器としてのマルチ観測予測モデルにおいて、第１の時系列データが観測される尤度（最尤系列の最後の状態の状態確率）と、最尤系列であるハイライト関係状態系列とを、初期状態確率、遷移確率、及び、第１の観測尤度に基づいて求める。

第１の時系列データとして用いられた第２の番組のマルチストリームが観測される尤度が、所定の閾値以上である場合、ハイライト検出部１２３は、ハイライト検出器としてのマルチ観測予測モデルにおいて、第１の時系列データとして用いられた第２の番組のマルチストリームが観測される最尤系列であるハイライト関係状態系列の各状態の第１の観測尤度におけるハイライトラベルの観測尤度（第１の観測尤度を求めるのに用いられるハイライトラベルの観測尤度）に基づき、図２５で説明したようにして、対象コンテンツである第２の番組から、ハイライトシーンのフレームを検出して、そのハイライトシーンのフレームを用いて、ダイジェストコンテンツを生成する。

一方、第１の時系列データとして用いられた第２の番組のマルチストリームが観測される尤度が、所定の閾値以上でない場合、ハイライトシーン検出装置１１２では、ハイライト検出器学習部１２１が、第２の番組のマルチストリームを、第２の時系列データとして用いて、ハイライト検出器としてのマルチ観測予測モデルの学習を行う。

ここで、いまの場合、第１の番組と第２の番組とは、相撲という同一のジャンルに属するコンテンツであり、コンテンツの構造、つまり、コンテンツに含まれるシーン、及び、シーンの時間的な遷移（進行）は、第１の番組と第２の番組とで一致する。

しかしながら、コンテンツの構造が一致する第１の番組と第２の番組であっても、フレームに映る画像は、同一ではないため、第１の番組と第２の番組との、例えば、取り組みのシーンを構成するフレーム等の同一のシーンのフレームについて、確率分布が大きく異なる特徴量が抽出されることがある。

すなわち、ハイライト検出器としてのマルチ観測予測モデルのある状態の第１の観測尤度が、例えば、第１の番組の取り組みのシーンを構成するフレームの特徴量は観測されやすいが、第２の番組の取り組みのシーンを構成するフレームの特徴量は観測されにくいような確率分布になっていることがある。

この場合、ハイライト検出器としてのマルチ観測予測モデルにおいて、第１の時系列データとして用いられた第２の番組のマルチストリームが観測される尤度が低くなる。

そこで、ハイライト検出器としてのマルチ観測予測モデルにおいて、第１の時系列データとして用いられた第２の番組のマルチストリームが観測される尤度が、所定の閾値以上でない場合、ハイライトシーン検出装置１１２では、ハイライト検出器学習部１２１が、第２の番組のマルチストリームを、第１の時系列データではなく、第２の時系列データとして用いて、ハイライト検出器としてのマルチ観測予測モデルの学習を行う。

第２の番組のマルチストリームを、第２の時系列データとして用いた、ハイライト検出器としてのマルチ観測予測モデルの学習では、ハイライト検出器学習部１２１は、第２の時系列データとしての第２の番組のマルチストリームを用いて、第１の時系列データとしての第１の番組のマルチストリームを用いた学習後のハイライト検出器としてのマルチ観測予測モデルの初期状態確率、及び、遷移確率を固定にして、第２の時系列データ（のサンプルである第２の観測値）の観測尤度である第２の観測尤度（観測モデル#2（図６））を求める。

なお、第２の番組のマルチストリームを、第２の時系列データとして用いた、ハイライト検出器としてのマルチ観測予測モデルの学習において、第２の番組のマルチストリームを構成するダミーのハイライトラベル系列の系列重み1-W（式（１２））は、0に設定される。

また、第２の番組のマルチストリームを、第２の時系列データとして用いた、ハイライト検出器としてのマルチ観測予測モデルの学習において、ハイライトラベル系列の観測尤度としては、第１の番組のマルチストリームを、第１の時系列データとして用いた、ハイライト検出器としてのマルチ観測予測モデルの学習で得られた第１の観測尤度におけるハイライトラベル系列の観測尤度が採用される。

したがって、第２の番組のマルチストリームを、第２の時系列データとして用いた、ハイライト検出器としてのマルチ観測予測モデルの学習が行われた後の、第２の観測尤度におけるハイライトラベル系列の観測尤度は、第１の観測尤度におけるハイライトラベル系列の観測尤度に一致する。

第２の番組のマルチストリームを、第２の時系列データとして用いた、ハイライト検出器としてのマルチ観測予測モデルの学習が終了すると、ハイライトシーン検出装置１１２において、ハイライト検出部１２３（図２５）は、第２の番組のマルチストリームを、第２の時系列データとして用いて、ハイライト検出器としてのマルチ観測予測モデルにおいて、第２の時系列データが観測される最尤系列であるハイライト関係状態系列を、初期状態確率、遷移確率、及び、第２の観測尤度に基づいて求める。

さらに、ハイライト検出部１２３は、ハイライト検出器としてのマルチ観測予測モデルにおいて、第２の時系列データとして用いられた第２の番組のマルチストリームが観測される最尤系列であるハイライト関係状態系列の各状態の第１の観測尤度（又は、第２の観測尤度）におけるハイライトラベル系列の観測尤度に基づき、図２５で説明したようにして、第２の番組から、ハイライトシーンのフレームを検出して、そのハイライトシーンのフレームを用いて、ダイジェストコンテンツを生成する。

ハイライトシーン検出装置１１２（図２３）では、ハイライト検出器としてのマルチ観測予測モデルにおいて、第１の時系列データとして用いられた第２の番組のマルチストリームが観測される尤度が、所定の閾値以上でない場合には、第２の番組のマルチストリームを、第２の時系列データとして用い、初期状態確率、及び、遷移確率を固定にして、第２の時系列データの第２の観測尤度を求め、その第２の観測尤度を用いて、第２の番組のマルチストリームが観測される最尤系列であるハイライト関係状態系列を求め、そのハイライト関係状態系列に基づき、第２の番組から、ハイライトシーンのフレームを検出するので、ユーザが、第１の番組についてお気に入り操作を行ったフレームのシーンと同一のシーンのフレームを、第２の番組から、ハイライトシーンのフレームとして、精度良く検出することができる。

以上のように、マルチ観測予測モデルにおいて観測される第１及び第２の観測値（時系列データ）は、画像の特徴量（画像から抽出される特徴量）等の、種類が同一の観測値であっても良い。

なお、マルチ観測予測モデルとして、マルチストリームHMMを利用した状態遷移予測モデルを採用する場合には、同様のコンテンツの構造を有する、例えば、野球中継のテレビ番組（テレビジョン放送番組）と、ラジオ番組との対応関係を獲得することが可能となる。

すなわち、例えば、野球中継のあるテレビジョン番組から画像及び音声の特徴量を抽出し、その画像及び音声の特徴量の系列のマルチストリームを、第１の時系列データとして用いて、マルチ観測予測モデルの学習を行うことにより、初期状態確率、遷移確率、及び、第１の観測尤度を求めるとともに、野球中継のあるラジオ番組から音声の特徴量を抽出し、その音声の特徴量の系列を、第２の時系列データとして用い、初期状態確率、及び、遷移確率を固定にして、マルチ観測予測モデルの学習を行うことにより、第２の観測尤度を求めることで、マルチ観測予測モデルの各状態の第１及び第２の観測尤度から、その状態において観測されやすいテレビ番組の画像及び音声（の特徴量）と、ラジオ番組の音声（の特徴量）とが対応しているという対応関係を獲得することができる。

［本発明を適用したコンピュータの説明］

次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

そこで、図２８は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク２０５やROM２０３に予め記録しておくことができる。

あるいはまた、プログラムは、リムーバブル記録媒体２１１に格納（記録）しておくことができる。このようなリムーバブル記録媒体２１１は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体２１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

なお、プログラムは、上述したようなリムーバブル記録媒体２１１からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク２０５にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

コンピュータは、CPU(Central Processing Unit)２０２を内蔵しており、CPU２０２には、バス２０１を介して、入出力インタフェース２１０が接続されている。

CPU２０２は、入出力インタフェース２１０を介して、ユーザによって、入力部２０７が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)２０３に格納されているプログラムを実行する。あるいは、CPU２０２は、ハードディスク２０５に格納されたプログラムを、RAM(Random Access Memory)２０４にロードして実行する。

これにより、CPU２０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU２０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース２１０を介して、出力部２０６から出力、あるいは、通信部２０８から送信、さらには、ハードディスク２０５に記録等させる。

なお、入力部２０７は、キーボードや、マウス、マイク等で構成される。また、出力部２０６は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１１センサ部，１２学習認識部，１３アクション制御部，１４アクション部，２１バッファ，２２モデル学習部，２３認識部，２４モデル記憶部，３１プランニング部，３２アクション信号生成部，３３アクション学習部，３４アクション生成情報記憶部，３５生得コントローラ，１１１コンテンツ記憶部，１１２ハイライトシーン検出装置，１２１ハイライト検出器学習部，１２２検出器記憶部，１２３ハイライト検出部，１３１コンテンツ選択部，１３２特徴量抽出部，１３３ラベル化部，１３４ハイライトラベル生成部，１３５学習用ラベル生成部，１３６学習部，１４１コンテンツ選択部，１４２特徴量抽出部，１４３ラベル化部，１４４検出用ラベル生成部，１４５最尤状態系列推定部，１４６ハイライトシーン検出部，１４７ダイジェストコンテンツ生成部，１４８再生制御部，２０１バス，２０２ CPU，２０３ ROM，２０４ RAM，２０５ハードディスク，２０６出力部，２０７入力部，２０８通信部，２０９ドライブ，２１０入出力インタフェース，２１１リムーバブル記録媒体

Claims

内部状態を有し、前記内部状態の遷移モデルを持ち、前記内部状態から観測値が生成される観測モデルを持つ学習モデルである状態遷移予測モデルの内部状態を自己組織化する学習を第１の時系列データを用いて行い、
前記第１の時系列データを用いた学習を行った後の前記状態遷移予測モデルの観測モデルの学習を、前記遷移モデルを固定して、前記第１の時系列データとは異なる第２の時系列データを用いて行う
ことにより、前記第１の時系列データの各サンプル値が観測される第１の観測モデルと、前記第２の時系列データの各サンプル値が観測される第２の観測モデルとを有する前記状態遷移予測モデルを求めるモデル学習手段
を備える情報処理装置。
前記モデル学習手段は、
観測値が観測される内部状態どうしの間の状態遷移の遷移確率と、内部状態から観測値が観測される観測尤度とを有する学習モデルである状態遷移予測モデルを自己組織化する学習を、第１の時系列データを用いて行い、
前記第１の時系列データを用いた学習を行った後の前記状態遷移予測モデルの学習を、前記遷移確率を固定して、前記第１の時系列データとは異なる第２の時系列データを用いて行う
ことにより、前記第１の時系列データの各サンプル値が観測される第１の観測尤度と、前記第２の時系列データの各サンプル値が観測される第２の観測尤度とを有する前記状態遷移予測モデルを求める
請求項１に記載の情報処理装置。
前記状態遷移予測モデルは、
内部状態として、複数の状態を有し、
各状態が、初期状態である初期状態確率と、
状態どうしの間の状態遷移が生じる遷移確率と、
各状態において、第１の観測値が観測される第１の観測尤度と、
各状態において、前記第１の観測値とは異なる第２の観測値が観測される第２の観測尤度と
で定義され、
前記モデル学習手段は、
前記第１の時系列データを用いて、Baum-Welchアルゴリズムに従った学習を行うことにより、前記初期状態確率、前記遷移確率、及び、第１の観測尤度を求め、
前記第２の時系列データを用いた、Baum-Welchアルゴリズムに従った学習を、前記第１の時系列データを用いて求めた前記初期状態確率、及び、前記遷移確率を固定して行うことにより、前記第２の観測尤度を求める
請求項２に記載の情報処理装置。
前記状態遷移予測モデルを用いて、時系列データを認識し、前記時系列データが観測される尤度が最大の状態遷移が生じる、前記状態の系列である最尤系列を求める認識手段と、
アクションを行うことが可能なエージェントに所定のアクションを行わせるためのアクション信号と、前記アクション信号に従ったアクションが行われることにより生じる状態遷移との関係を学習するアクション学習の結果に基づき、所定の状態遷移を生じさせるアクション信号を生成するアクション信号生成手段と
をさらに備え、
前記第１の時系列データは、前記エージェントから観測される前記第１の観測値の系列であり、
前記第２の時系列データは、前記エージェント以外の対象から観測される前記第２の観測値の系列であり、
前記認識手段は、前記状態遷移予測モデルを用いて、前記第２の時系列データを認識し、前記第２の時系列データが観測される最尤系列を、前記エージェントが模倣すべき模倣系列として求め、
前記アクション信号生成手段は、前記模倣系列の状態遷移を生じさせるアクション信号を生成する
請求項３に記載の情報処理装置。
前記状態遷移予測モデルの１つの状態を、スタート状態ととするとともに、他の１つの状態を、目標状態として、前記スタート状態から前記目標状態までの状態遷移の尤度が最大の状態の系列を、前記スタート状態から前記目標状態に辿り着くプランとして求めるプランニング手段をさらに備え、
前記認識手段は、前記状態遷移予測モデルを用いて、前記第１の時系列データを認識し、前記エージェントの現在の状況に対応する状態である現在状態を求め、
前記現在状態が、前記模倣系列の最初の状態に一致する場合、
前記アクション信号生成手段は、前記模倣系列の状態遷移を生じさせるアクション信号を生成し、
前記現在状態が、前記模倣系列の最初の状態に一致しない場合、
前記プランニング手段は、前記現在状態を、前記スタート状態とするとともに、前記模倣系列の最初の状態を、前記目標状態として、前記プランを求め、
前記アクション信号生成手段は、前記プランの状態遷移を生じさせるアクション信号を生成し、その後、前記模倣系列の状態遷移を生じさせるアクション信号を生成する
請求項４に記載の情報処理装置。
前記第２の時系列データは、前記第１の時系列データとは種類が異なる時系列データである
請求項４に記載の情報処理装置。
前記第２の時系列データのサンプル値である前記第２の観測値は、前記エージェント以外の対象を、被写体として、その被写体を撮影して得られる画像データである
請求項４に記載の情報処理装置。
前記被写体は、前記エージェントと同一のアクションを行うことが可能な他のエージェントである
請求項７に記載の情報処理装置。
前記エージェントは、回転可能な可動部分を有し、
前記第１の時系列データのサンプル値である前記第１の観測値は、前記可動部分の回転角である
請求項７に記載の情報処理装置。
内部状態を有し、前記内部状態の遷移モデルを持ち、前記内部状態から観測値が生成される観測モデルを持つ学習モデルである状態遷移予測モデルの内部状態を自己組織化する学習を第１の時系列データを用いて行い、
前記第１の時系列データを用いた学習を行った後の前記状態遷移予測モデルの観測モデルの学習を、前記遷移モデルを固定して、前記第１の時系列データとは異なる第２の時系列データを用いて行う
ことにより、前記第１の時系列データの各サンプル値が観測される第１の観測モデルと、前記第２の時系列データの各サンプル値が観測される第２の観測モデルとを有する前記状態遷移予測モデルを求める
ステップを含む情報処理方法。
内部状態を有し、前記内部状態の遷移モデルを持ち、前記内部状態から観測値が生成される観測モデルを持つ学習モデルである状態遷移予測モデルの内部状態を自己組織化する学習を第１の時系列データを用いて行い、
前記第１の時系列データを用いた学習を行った後の前記状態遷移予測モデルの観測モデルの学習を、前記遷移モデルを固定して、前記第１の時系列データとは異なる第２の時系列データを用いて行う
ことにより、前記第１の時系列データの各サンプル値が観測される第１の観測モデルと、前記第２の時系列データの各サンプル値が観測される第２の観測モデルとを有する前記状態遷移予測モデルを求めるモデル学習手段
として、コンピュータを機能させるためのプログラム。