JP5633734B2 - 情報処理装置、情報処理方法、及び、プログラム - Google Patents

情報処理装置、情報処理方法、及び、プログラム Download PDF

Info

Publication number
JP5633734B2
JP5633734B2 JP2010179355A JP2010179355A JP5633734B2 JP 5633734 B2 JP5633734 B2 JP 5633734B2 JP 2010179355 A JP2010179355 A JP 2010179355A JP 2010179355 A JP2010179355 A JP 2010179355A JP 5633734 B2 JP5633734 B2 JP 5633734B2
Authority
JP
Japan
Prior art keywords
state
observation
learning
series data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010179355A
Other languages
English (en)
Other versions
JP2011123869A (ja
JP2011123869A5 (ja
Inventor
佐部 浩太郎
浩太郎 佐部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010179355A priority Critical patent/JP5633734B2/ja
Priority to US12/915,616 priority patent/US8447708B2/en
Priority to CN201010535671.XA priority patent/CN102184406B/zh
Publication of JP2011123869A publication Critical patent/JP2011123869A/ja
Publication of JP2011123869A5 publication Critical patent/JP2011123869A5/ja
Application granted granted Critical
Publication of JP5633734B2 publication Critical patent/JP5633734B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Description

本発明は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、アクションを自律的に行うことが可能なエージェント(自律エージェント)が、そのエージェント以外の対象である他者が行うアクションを、効率的に、模倣(真似)することができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。
アクションを自律的に行うことが可能なエージェントとしては、環境等をセンシングすることにより得られる観測値の系列を用いて、HMM(Hidden Markov Model)等の学習モデルの学習を行うとともに、HMMの状態遷移ごとに、その状態遷移を生じさせるのに行われるべきアクションを出力するコントローラの学習を行うエージェントがある(例えば、特許文献1を参照)。
かかるエージェントでは、HMMのある1つの状態から他の1つの状態に辿り着く状態の系列が求められ、コントローラを用い、その状態の系列の状態遷移を生じさせるアクションが行われる。
ところで、人間は、自分以外の他者を模倣することができ、模倣によれば、自分自身が、自分自身だけで試行錯誤しながら学習するよりも、はるかに効率的に、スキルや知識等を獲得することができる。
スキルや知識等を獲得する模倣では、模倣を行う者(模倣者)は、例えば、模倣者自身の状態が、他者から受ける刺激(他者からの光等)によって知覚する他者の状態となるように、模倣者自身の身体を動かす。
すなわち、模倣者は、模倣者自身が(内部的に)知覚する模倣者自身の状態が、他者から受ける刺激によって知覚する他者の状態に一致するように、身体を動かす。
人間(模倣者)は、他者を模倣する場合に、模倣者自身の状態が、他者の状態に一致する状態になっているときに模倣者が感じるであろう感覚を、それまでの経験から知っており、その感覚が得られるように、身体を動かすと考えることができる。
したがって、模倣を行うには、模倣者が他者から受ける刺激によって知覚する他者の状態(視覚的に見える他者の状態)と、模倣者自身の状態が、模倣者が知覚した他者の状態に一致する状態になっているときに模倣者が感じるであろう感覚(模倣者が体感する模倣者自身の状態)との対応付けができていなければならない。
ここで、この対応付けを、以下、他者の状態と模倣者自身の状態との対応付けともいう。
模倣を行うために、他者の状態と模倣者自身の状態との対応付けを必要とすることをサポートする生理学的知見として、ミラーニューロンと呼ばれるニューロンの存在がある。
例えば、人間は、自分自身が「掴む」というアクション(行為)(行動)を行うときと、他人が行う同一の「掴む」というアクションを観察しているときとで、脳内で、共通に発火するニューロン群が存在し、このニューロン群が、ミラーニューロンと呼ばれる。
エージェントに、そのエージェント以外の対象、すなわち、例えば、他のエージェントを模倣させる場合、模倣者であるエージェントにおいて、他者の状態と模倣者自身の状態との対応付けを行うことが必要となる。
しかしながら、エージェントに、そのエージェント以外の対象、すなわち、例えば、他のエージェントを模倣させる場合、模倣者であるエージェントにおいて、他者の状態と模倣者自身の状態との対応付けを、何らの条件(仮定)もなしに行うことは、困難である。
すなわち、エージェントに、他のエージェントを模倣させる場合、他者の状態を表すデータは、模倣者であるエージェント(以下、セルフ(Self)エージェントともいう)において、他者である他のエージェント(以下、アザー(Other)エージェントともいう)から観測される。また、模倣者自身の状態を表すデータは、セルフエージェントにおいて、そのセルフエージェントの内部の可動部分等から観測される。
セルフエージェントにおいて、他者の状態を表すデータとして観測される観測値と、模倣者自身の状態を表すデータとして観測される観測値とは、種類(モーダル(modal))が異なる観測値となることがある。
具体的には、模倣として、例えば、他者を見て真似をする見真似を行う場合には、セルフエージェントでは、例えば、アザーエージェントをカメラで撮影することによって得られる画像が、他者の状態を表す観測値として観測されるとともに、セルフエージェントの可動部分(例えば、関節に対応する部分)の角度が、模倣者自身の状態(ここでは、姿勢の状態)を表す観測値として観測される。
アザーエージェントの画像と、セルフエージェントの可動部分の角度とは、種類が異なる観測値であるため、セルフエージェントは、アザーエージェントの画像と、セルフエージェントの可動部分の角度とを比較することによっては、セルフエージェント自身の状態が、カメラで撮影された画像に映ったアザーエージェントの状態に一致する状態になっているかどうかを判定することはできず、したがって、他者の状態と模倣者自身の状態との対応付けを学習(獲得)すること、つまり、セルフエージェント自身の状態を、アザーエージェントの画像に映ったアザーエージェントの状態に一致する状態にするために、セルフエージェントが、セルフエージェント自身の可動部分の角度を、どの程度にすれば良いのかを認識することは、困難である。
セルフエージェントが、他者(アザーエージェント)の状態と模倣者(セルフエージェント)自身の状態との対応付けの学習を行うには、その学習を行う環境に、他者の状態と模倣者自身の状態とを対応付けるための所定の条件(以下、対応付け条件ともいう)を設定する必要がある。
例えば、セルフエージェントが、何らかのアクションを行うことに成功したときに、いわゆるケアギバー(care giver)が、セルフエージェントが成功したアクションと同様のアクションを、そのアクションを表す発話とともに行うことを、対応付け条件とすることで、セルフエージェントは、他者(ケアギバー)の状態と模倣者(セルフエージェント)自身の状態とを対応付けることができる。
すなわち、セルフエージェントが、例えば、コップを掴むアクションを行うことに成功したときに、ケアギバーが、コップを掴むアクションを、「コップを掴む」という発話とともに行うことで、セルフエージェントは、他者(ケアギバー)がコップを掴むアクションを行ったときの状態と、セルフエージェント自身がコップを掴むアクションを行ったときの状態とを対応付けることができる。
また、例えば、親が、子供の行動を真似してあげることによって、子供の感覚の発達が促されるように、ケアギバーが、有意な確率で、セルフエージェントが行うアクションを真似ることを、対応付け条件とすることで、セルフエージェントは、他者(ケアギバー)の状態と模倣者(セルフエージェント)自身の状態とを対応付けることができる。
さらに、例えば、セルフエージェントの前に鏡を設置し、鏡に映るセルフエージェントを他者とみなすことを対応付け条件とすることで、セルフエージェントは、他者(鏡に映ったセルフエージェント)の状態と模倣者(セルフエージェント)自身の状態とを対応付けることができる。なお、この場合、他者の状態と模倣者自身の状態との対応付けの学習が、ある程度進行した後に、鏡に代えて、アザーエージェントを置くことで、セルフエージェントは、他者の状態と模倣者自身の状態との対応付けの学習の結果を利用して、アザーエージェントが行うアクションを模倣することができる。
特開2009-223444号公報
以上のように、セルフエージェントが、アザーエージェント等の他者のアクションを模倣する場合には、他者の状態と模倣者自身の状態との対応付けの学習を、ケアギバー等に依存する対応付け条件の下で行う必要がある。
しかしながら、他者の状態と模倣者自身の状態との対応付けの学習を、対応付け条件の下で行わなければならないのは、効率的ではなく、ひいては、セルフエージェントが、アザーエージェント等の他者の様々なアクションを、効率的に模倣することが困難となる。
一方、人間は、他人が教える意図を持ってアクションを行っていなくても、他人のアクションを模倣する能力を持っており、セルフエージェントが、人間と同様の能力を持っているかのように、他者の様々なアクションを、効率的に模倣することができるようになることの要請は高い。
本発明は、このような状況に鑑みてなされたものであり、エージェントが、他者が行うアクションを、効率的に、模倣することができるようにするものである。
本発明の一側面の情報処理装置、又は、プログラムは、内部状態を有し、前記内部状態の遷移モデルを持ち、前記内部状態から観測値が生成される観測モデルを持つ学習モデルである状態遷移予測モデルの内部状態を自己組織化する学習を第1の時系列データを用いて行い、前記第1の時系列データを用いた学習を行った後の前記状態遷移予測モデルの観測モデルの学習を、前記遷移モデルを固定して、前記第1の時系列データとは異なる第2の時系列データを用いて行うことにより、前記第1の時系列データの各サンプル値が観測される第1の観測モデルと、前記第2の時系列データの各サンプル値が観測される第2の観測モデルとを有する前記状態遷移予測モデルを求めるモデル学習手段を備える情報処理装置、又は、情報処理装置としてコンピュータを機能させるためのプログラムである。
本発明の一側面の情報処理方法は、内部状態を有し、前記内部状態の遷移モデルを持ち、前記内部状態から観測値が生成される観測モデルを持つ学習モデルである状態遷移予測モデルの内部状態を自己組織化する学習を第1の時系列データを用いて行い、前記第1の時系列データを用いた学習を行った後の前記状態遷移予測モデルの観測モデルの学習を、前記遷移モデルを固定して、前記第1の時系列データとは異なる第2の時系列データを用いて行うことにより、前記第1の時系列データの各サンプル値が観測される第1の観測モデルと、前記第2の時系列データの各サンプル値が観測される第2の観測モデルとを有する前記状態遷移予測モデルを求めるステップを含む情報処理方法である。
以上のような一側面においては、内部状態を有し、前記内部状態の遷移モデルを持ち、前記内部状態から観測値が生成される観測モデルを持つ学習モデルである状態遷移予測モデルの内部状態を自己組織化する学習を第1の時系列データを用いて行い、前記第1の時系列データを用いた学習を行った後の前記状態遷移予測モデルの観測モデルの学習を、前記遷移モデルを固定して、前記第1の時系列データとは異なる第2の時系列データを用いて行うことにより、前記第1の時系列データの各サンプル値が観測される第1の観測モデルと、前記第2の時系列データの各サンプル値が観測される第2の観測モデルとを有する前記状態遷移予測モデルが求められる。
なお、情報処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
本発明の一側面によれば、第1の時系列データの各サンプル値が観測される第1の観測モデルと、第2の時系列データの各サンプル値が観測される第2の観測モデルとを有する状態遷移予測モデルを求めることができる。そして、この状態遷移予測モデルを用いて、例えば、エージェントが、他者が行うアクションを、効率的に、模倣することが可能となる。
本発明を適用したエージェントの一実施の形態の構成例を示すブロック図である。 left-to-right型のHMMの例を示す図である。 エルゴディック型のHMMの例を示す図である。 2次元近傍拘束HMMの例を示す図である。 スパースな構造のHMMの、2次元近傍拘束HMM以外の例を示す図である。 マルチ観測予測モデルとしての状態遷移予測モデルを模式的に示す図である。 セルフエージェントの外観の構成例を示す図である。 セルフエージェントから観測される第1の観測値の例を示す図である。 アザーエージェントの外観の構成例と、そのアザーエージェントから観測される第2の観測値の例を示す図である。 第2の観測値の具体例を説明する図である。 モデル学習処理を説明するフローチャートである。 セルフ学習処理を説明するフローチャートである。 セルフ学習後のマルチ観測予測モデルを示す図である。 模倣学習処理を説明するフローチャートである。 模倣学習後のマルチ観測予測モデルにおいて、第1の時系列データが観測される状態系列と、第2の時系列データが観測される状態系列とを示す図である。 認識処理を説明するフローチャートである。 アクション学習処理を説明するフローチャートである。 プランニング処理を説明するフローチャートである。 アクション信号生成処理を説明するフローチャートである。 模倣処理を説明するフローチャートである。 人型のセルフエージェントと、人型のセルフエージェントから観測される第1の観測値との例を示す図である。 人型のアザーエージェントと、人型のアザーエージェントから観測される第2の観測値との例を示す図である。 本発明を適用したレコーダの一実施の形態の構成例を示すブロック図である。 ハイライト検出器学習部121の構成例を示すブロック図である。 ハイライト検出部123の構成例を示すブロック図である。 ハイライト検出器学習部121の処理を説明する図である。 ハイライト検出器学習部121の処理を説明する図である。 本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
[本発明を適用したエージェントの一実施の形態]
図1は、本発明の情報処理装置を適用したエージェントの一実施の形態の構成例を示すブロック図である。
図1において、エージェントは、センサ部11、学習認識部12、アクション制御部13、及び、アクション部14を有し、自律的にアクションを行う。さらに、エージェントは、他のエージェントであるアザーエージェントを模倣する。
センサ部11は、例えば、被写体を撮影して、その被写体が映った画像を出力するカメラや、アクション部14の、回転する可動部分(図示せず)の角度を検出する検出器等の、物理量をセンシングするセンサで構成される。
センサ部11は、センシングの結果得られる、被写体が映った画像や、アクション部14の可動部分の角度等を、観測可能な観測値として、時系列に出力する。
センサ部11が出力する観測値は、学習認識部12に供給される。
学習認識部12は、バッファ21、モデル学習部22、認識部23、及び、モデル記憶部24を有し、センサ部11からの観測値の時系列である時系列データを用いての、マルチ観測予測モデルの学習と、その学習後のマルチ観測予測モデルを用いての、時系列データの認識とを行う。
すなわち、バッファ21には、センサ部11からの観測値が供給される。
バッファ21は、センサ部11からの観測値を、順次記憶する。
モデル学習部22は、バッファ21に記憶された観測値の時系列を、モデル記憶部24に記憶されたマルチ観測予測モデルの学習に用いるモデル学習用データとして読み出し、そのモデル学習用データを用いて、モデル記憶部24に記憶されたマルチ観測予測モデルの学習を行う。
認識部23は、バッファ21に記憶された観測値の時系列を、モデル記憶部24に記憶されたマルチ観測予測モデルを用いた認識の対象とする認識対象データとして読み出し、モデル記憶部24に記憶されたマルチ観測予測モデルを用いて、認識対象データを認識する。
モデル記憶部24は、マルチ観測予測モデルを記憶する。
モデル記憶部24に記憶されるマルチ観測予測モデルとしては、内部状態を有し、内部状態の遷移モデル、及び、内部状態から観測値が生成される観測モデルを持つ学習モデルであって、次の時刻の観測値の予測が可能な学習モデルである状態遷移予測モデルが採用される。
すなわち、マルチ観測予測モデルとしては、例えば、観測値が観測される内部状態どうしの間の状態遷移の遷移確率(遷移モデル)と、内部状態から観測値が観測される観測尤度(観測モデル)とを有する、例えば、HMM(Hidden Markov Model)を利用した状態遷移予測モデルを採用することができる。
ここで、モデル学習部22は、モデル記憶部24に記憶されたマルチ観測予測モデルを自己組織化(Self-organization)する学習(マルチ観測予測モデルのモデルパラメータがモデル学習用データのみを用いて決定され、モデルパラメータを、外部から強制的に制御することをしない学習)を、バッファ21に記憶される観測値の時系列のうちの、後述する第1の時系列データをモデル学習用データとして用いて行う。
さらに、モデル学習部22は、第1の時系列データを用いた学習を行った後のマルチ観測予測モデルの学習を、遷移確率を固定して、バッファ21に記憶される観測値の時系列のうちの、第1の時系列データとは異なる、後述する第2の時系列データを用いて行う。
これにより、モデル学習部22は、第1の時系列データの各サンプル値が観測される第1の観測尤度と、第2の時系列データの各サンプル値が観測される第2の観測尤度とを有する状態遷移予測モデルであるマルチ観測予測モデルを求める。
したがって、マルチ観測予測モデルでは、第1及び第2の時系列データ、つまり、複数の時系列データが観測される。
また、認識部23は、モデル記憶部24に記憶されたマルチ観測予測モデルを用いて、認識対象データを認識するときに、後述するように、マルチ観測予測モデルの各状態(内部状態)にいる状態確率を求めるとともに、マルチ観測予測モデルにおいて、認識対象データが観測される尤度が最大の状態遷移が生じる、状態(内部状態)の系列である最尤系列(最尤状態系列)を求める。
そして、認識部23は、認識対象データの認識時に求めた状態確率や、最尤系列、認識対象データの最後のサンプル値となっている観測値(最新の観測値)、認識対象データが観測される最尤系列において、認識対象データのサンプル値のうちの最新の観測値が観測される状態である現在状態(最尤系列の最後の状態)を、アクション制御部13に供給する。
アクション制御部13は、モデル記憶部24に記憶されたマルチ観測予測モデルや、認識部23から供給される状態確率、最尤系列(現在状態が含まれる)、最新の観測値等を用いて、エージェントのアクションを制御する。
すなわち、アクション制御部13は、プランニング部31、アクション信号生成部32、アクション学習部33、アクション生成情報記憶部34、及び、生得コントローラ35を有する。
プランニング部31には、認識部23からの現在状態(最尤系列の最後の状態)が供給されるとともに、エージェントの外部、又は、内部から、マルチ観測予測モデルの状態のうちの、目標とすべき状態を表す目標情報が供給される。
いま、マルチ観測予測モデルの1つの状態Ssから、他の1つの状態Seに辿り着く状態系列(マルチ観測予測モデルの状態の系列)を、プランということとし、プランの最初の状態(状態Ss)を、スタート状態というとともに、プランの最後の状態(状態Se)を、目標状態ということとする。
プランニング部31は、モデル記憶部24に記憶されたマルチ観測予測モデルを参照して、例えば、認識部23からの現在状態を、スタート状態とするとともに、目標情報が表す状態を、目標状態として、スタート状態から目標状態までの状態遷移の尤度が最大の状態系列を、プランとして求めるプランニングを行い、プランニングによって得られるプランを、アクション信号生成部32に供給する。
アクション信号生成部32には、プランニング部31からのプランが供給される他、認識部23からの観測値、状態確率、及び、現在状態が供給される。
アクション信号生成部32は、モデル記憶部24に記憶されたマルチ観測予測モデル、アクション生成情報記憶部34に記憶されたアクション生成情報、並びに、認識部23からの観測値、状態確率、及び、現在状態に基づき、エージェントに、プランニング部31からのプランに従ったアクション等の所定のアクションを行わせるためのアクション信号を求め(生成し)、アクション部14に供給する。
アクション学習部33には、認識部23からの現在状態、及び、最新の観測値が供給される。さらに、アクション学習部33には、生得コントローラ35が生成するアクション信号が供給される。
アクション学習部33は、認識部23からの現在状態、及び、最新の観測値、並びに、生得コントローラ35からのアクション信号を用いて、エージェントに所定のアクションを行わせるためのアクション信号と、そのアクション信号に従ったアクションが行われることにより生じるマルチ観測予測モデルの状態遷移との関係を学習するアクション学習を行う。
さらに、アクション学習部33は、アクション学習によって、マルチ観測予測モデルの所定の状態遷移を生じさせるアクション信号を生成するのに用いられるアクション生成情報を得て、アクション生成情報記憶部34に供給する。
アクション生成情報記憶部34は、アクション学習部33から供給される、アクション学習の結果得られるアクション生成情報を記憶する。
ここで、図1では、アクション生成情報は、コントローラテーブルとコントローラとから構成される。
マルチ観測予測モデルのある状態Siから、ある状態Sjへの状態遷移を、Aijと表すこととすると、コントローラは、例えば、観測値oを入力として、アクション信号を出力する関数Fij(o)であり、状態遷移Aijごとに存在する。
コントローラとしての関数Fij(o)には、そのコントローラに固有のコントローラID(Identification)が対応付けられ、コントローラテーブルには、状態遷移Aijと、その状態遷移Aijを生じさせるアクションを行うためのアクション信号の生成に使用すべきコントローラ(関数Fij(o))のコントローラIDとが対応付けられる。
したがって、アクション信号生成部32は、ある状態遷移Aijを生じさせるアクションを行うためのアクション信号を生成する場合、まず、コントローラテーブルを参照して、その状態遷移Aijに対応付けられているコントローラIDを認識する。そして、アクション信号生成部32は、コントローラテーブルから認識したコントローラIDに対応付けられているコントローラ(関数Fij(o))を用いて、アクション信号を生成する。
生得コントローラ35は、エージェントに、各種のアクションを行わせるためのアクション信号を、ランダムに生成する。あるいは、生得コントローラ35は、エージェントの設計者等によってあらかじめ決められたパターンの信号に、適度な摂動を加えた信号を、エージェントが生得的に可能なアクションを行うためのアクション信号として生成する。
生得コントローラ35が生成するアクション信号は、アクション部14と、アクション学習部33とに供給される。
アクション部14は、エージェントの身体の腕や足等の可動部分(図示せず)と、その可動部分を駆動するアクチュエータ等を含む。
アクション部14では、アクション信号生成部32や、生得コントローラ35からのアクション信号に従って、アクチュエータが、可動部分を駆動し、これにより、エージェントは、所定のアクションを行う。
[マルチ観測予測モデル]
図1のモデル記憶部24に記憶されるマルチ観測予測モデルとしては、例えば、上述したように、HMMを利用した状態遷移予測モデルを採用することができる。
そこで、モデル記憶部24に記憶されるマルチ観測予測モデルとしての状態遷移予測モデルを説明する前に、HMMについて説明する。
図2は、left-to-right型のHMMの例を示す図である。
left-to-right型のHMMは、状態が、左から右方向に、一直線上に並んだHMMであり、自己遷移(ある状態から、その状態への状態遷移)と、ある状態から、その状態よりも右側にある状態への状態遷移とを行うことができる。left-to-right型のHMMは、例えば、音声認識等で用いられる。
図2のHMMは、3つの状態S1,S2,S3から構成され、状態遷移として、自己遷移と、ある状態から、その右隣の状態への遷移とのみが許されている。
なお、HMMは、状態Siの初期確率πi、遷移確率aij、及び、状態Siから、所定の観測値oが観測される観測尤度(出力確率分布)bi(o)で定義される。
ここで、初期確率πiは、状態Siが、初期状態(最初の状態)である確率であり、left-to-right型のHMMでは、最も左側の状態S1の初期確率π1は、1.0とされ、他の状態Siの初期確率πiは、0.0とされる。
遷移確率a ij は、状態Siから状態Sjに状態が遷移する確率である。
観測尤度(出力確率分布)bi(o)は、状態Siへの状態遷移時に、状態Siから観測値oが観測される確率(確率分布)である。観測尤度bi(o)としては、観測値oが離散値である場合には、確率となる値が用いられるが、観測値oが連続値である場合には、確率分布関数が用いられる。確率分布関数としては、例えば、平均値(平均ベクトル)と分散(共分散行列)とで定義されるガウス分布(正規分布)等を採用することができる。
図3は、エルゴディック(Ergodic)型のHMMの例を示す図である。
エルゴディック型のHMMは、状態遷移に制約がないHMM、すなわち、任意の状態Siから任意の状態Sjへの状態遷移が可能なHMMである。
図3のHMMは、3つの状態S1,S2,S3から構成され、任意の状態遷移が許されている。
エルゴディック型のHMMは、状態遷移の自由度が最も高いHMMであるが、状態数が多くなると、HMMのモデルパラメータ(初期確率πi、遷移確率aij、及び、観測尤度bi(o))の初期値によっては、ローカルミニマムに収束し、適切なモデルパラメータを得られないことがある。
そこで、「自然界の現象の殆どは、スモールワールドネットワークのようなスパースな結合によって表現可能である」という仮説を採用し、マルチ観測予測モデルには、状態遷移を、スパース(Sparse)な構造に制約したHMMを利用した状態遷移予測モデルを採用することとする。
ここで、スパースな構造とは、ある状態から任意の状態への状態遷移が可能なエルゴディック型のHMMのような密な状態遷移ではなく、ある状態から状態遷移することができる状態が非常に限定されている構造である。
なお、ここでは、スパースな構造であっても、他の状態への状態遷移は、少なくとも1つ存在し、また、自己遷移は存在することとする。
図4は、スパースな構造のHMMである2次元近傍拘束HMMの例を示す図である。
図4A及び図4BのHMMには、スパースな構造であることの他、HMMを構成する状態を、2次元平面上に、格子状に配置する制約が課されている。
ここで、図4AのHMMでは、他の状態への状態遷移が、横に隣接する状態と、縦に隣接する状態とに制限されている。図4BのHMMでは、他の状態への状態遷移が、横に隣接する状態、縦に隣接する状態、及び、斜めに隣接する状態に制限されている。
図5は、スパースな構造のHMMの、2次元近傍拘束HMM以外の例を示す図である。
すなわち、図5Aは、3次元グリッド制約によるHMMの例を示している。図5Bは、2次元ランダム配置制約によるHMMの例を示している。図5Cは、スモールワールドネットワークによるHMMの例を示している。
図6は、図1のモデル記憶部24に記憶されるマルチ観測予測モデルを模式的に示す図である。
マルチ観測予測モデルは、図1で説明したように、観測値が観測される内部状態どうしの間の状態遷移の遷移確率と、内部状態から観測値が観測される観測尤度とを有する状態遷移予測モデルであり、例えば、HMMを利用した状態遷移予測モデルを採用することができる。
マルチ観測予測モデルとしての、HMMを利用した状態遷移予測モデルは、内部状態として、複数の状態(HMMの状態)(隠れノード)を有し、各状態が、初期状態である初期状態確率、状態どうしの間の状態遷移が生じる遷移確率(遷移モデル)、及び、各状態において、観測値が観測される観測尤度(観測モデル)で定義される点で、HMMと共通する。
但し、マルチ観測予測モデルとしての、HMMを利用した状態遷移予測モデルは、観測尤度として、各状態において、第1の観測値が観測される第1の観測尤度(観測モデル#1)と、各状態において、第1の観測値とは異なる第2の観測値が観測される第2の観測尤度(観測モデル#2)との複数の観測尤度(2つ(以上)の時系列データそれぞれの観測値の出力確率分布)を有する点で、HMMとは異なる。
ここで、図1のエージェントは、セルフエージェントとして、他者であるアザーエージェントを模倣し、アザーエージェントが行うのと同様のアクションを行う。
セルフエージェントが、アザーエージェントを模倣して、アザーエージェントが行うのと同様のアクションを行うには、まず、セルフエージェント自身が、自律的にアクションを行うこと(セルフエージェント自身の身体モデルの学習(獲得))が必要である。
また、セルフエージェントが、アザーエージェントを模倣して、アザーエージェントが行うのと同様のアクションを行うには、アザーエージェントから観測される観測値を認識すること(アザーエージェントのアクションを認識すること)が必要である。
さらに、セルフエージェントが、アザーエージェントを模倣して、アザーエージェントが行うのと同様のアクションを行うには、他者からセルフエージェントを観測したときに、アザーエージェントから観測される観測値(アザーエージェントのアクション)と同様の観測値が観測されるように、アクションを行うことが必要である。
そこで、図1のセルフエージェントは、まず、自律的にアクションを行うために、セルフエージェント自身がアクションを行ったときに観測される、エージェント自身の状態を表すためのデータとしての観測値を、第1の観測値として、その第1の観測値の時系列である第1の時系列データを、モデル学習用データとして用いて、自身が行う各種のアクションに対して観測される第1の観測値の時系列パターンを学習する。
すなわち、セルフエージェントは、センサ部11がセルフエージェント自身(のアクション部14)をセンシングすることにより得られる、例えば、アクション部14の可動部分の角度を、第1の観測値として、その第1の観測値の時系列である第1の時系列データを用いて、マルチ観測予測モデルの学習を行う。
また、セルフエージェントは、アザーエージェントから観測される観測値を認識するために、アザーエージェントから観測される、他者の状態を表すデータとしての観測値を、第2の観測値として、その第2の観測値の時系列である第2の時系列データを、モデル学習用データとして用いて、アザーエージェントが行う各種のアクションに対して観測される第2の観測値の時系列パターンを学習する。
すなわち、セルフエージェントは、センサ部11がアザーエージェントをセンシングすることにより得られる、例えば、アザーエージェントの画像を、第2の観測値として、その第2の観測値の時系列である第2の時系列データを用いて、マルチ観測予測モデルの学習を行う。
さらに、セルフエージェントは、他者からセルフエージェントを観測したときに、アザーエージェントから観測される観測値(アザーエージェントのアクション)と同様の観測値が観測されるように、アクションを行うために、他者(アザーエージェント)の状態と模倣者(セルフエージェント)自身の状態との対応付けの学習、すなわち、アザーエージェントがあるアクションを行った場合に観測される第2の観測値と、セルフエージェントが、アザーエージェントと同一のアクションを行った場合に観測される第1の観測値との関係(第1の観測値と第2の観測値との対応関係)の学習を行う。
但し、セルフエージェントにおいて、他者(アザーエージェント)の状態と模倣者(セルフエージェント)自身の状態との対応付けの学習は、アザーエージェントから観測される第2の時系列データを認識するためのマルチ観測予測モデルの学習を行うときに、いわば同時に行われる。
すなわち、セルフエージェントにおいて、第2の時系列データを用いた、その第2の時系列データを認識するためのマルチ観測予測モデルの学習は、第1の時系列データを用いた学習後のマルチ観測予測モデルを用い、そのマルチ観測予測モデルの初期状態確率、及び、遷移確率(遷移モデル)を固定して行われる。
したがって、セルフエージェントにおいて、第1の時系列データを用いた、マルチ観測予測モデルの学習では、第1の時系列データを用いて、マルチ観測予測モデルの初期状態確率、遷移確率、及び、第1の観測値の観測尤度である第1の観測尤度(観測モデル#1)が求められる。
そして、第2の時系列データを用いた、マルチ観測予測モデルの学習では、第2の時系列データを用いて、第1の時系列データを用いた学習後のマルチ観測予測モデルの初期状態確率、及び、遷移確率を固定にして、第2の観測値の観測尤度である第2の観測尤度(観測モデル#2)が求められる。
その結果、マルチ観測予測モデルにおいては、第1の時系列データが観測される尤度が高い状態系列が得られるマルチ観測予測モデルの各状態に、第2の時系列データが観測される尤度が高くなるように、第2の観測値(の観測尤度)が割り当てられる。
マルチ観測予測モデルにおいて、他者(アザーエージェント)の状態と模倣者(セルフエージェント)自身の状態との対応付けの学習が、正しく行われていれば、すなわち、マルチ観測予測モデルの状態に、アザーエージェントがあるアクションを行った場合に観測される第2の観測値と、セルフエージェントが、アザーエージェントと同一のアクションを行った場合に観測される第1の観測値とが割り当てられていれば、セルフエージェントは、マルチ観測予測モデルにおいて、アザーエージェントから観測される第2の観測値の時系列(第2の時系列データ)が観測される尤度が高い状態系列の状態遷移が生じる第1の観測値の時系列(第1の時系列データ)が観測されるように、アクションを行うことで、第2の観測値の時系列が観測されるアザーエージェントのアクションと同様のアクションを行うことになる。
[エージェントの外観構成、及び、エージェントから観測される観測値の例]
図7は、セルフエージェントとしての図1のエージェントの外観の構成例を示す図である。
図7では、セルフエージェントは、1リンク(連結部分が1つ)のロボット(1リンクロボット)である回転可能な単振り子であり、単振り子としての棒状の可動部分が、一端を回転中心として(平面内を)回転するアクションを行うことができる。
図8は、セルフエージェントとしての単振り子から観測される第1の観測値の例を示す図である。
セルフエージェントとしての単振り子は、トルクτを加えることによって回転し、センサ部11は、単振り子の回転角θをセンシングして、第1の観測値として出力する。この場合、第1の時系列データは、図8に示すように、第1の観測値である回転角θの時系列となる。
なお、単振り子に対して、トルクτは、アクション信号に対応して加えられる。
したがって、セルフエージェントでは、アクション信号に対応して加えられるトルクτによって、第1の観測値としての回転角θを制御することができる。
ここで、単振り子の回転角θを、トルクτによって制御するための強化学習では、単振り子の質量や摩擦係数等の物理的なパラメータが分からないという問題を設定し、単振り子の状態をユニークに表現することができるように、単振り子の回転角θと、角速度との2つの変数が、観測可能な観測値として用いられる。
さらに、強化学習では、目的となるタスクと、その目的を達成するための目的関数とが設計(設定)される。
ここで、強化学習において、目的となるタスクとは、例えば、単振り子が振り上がること、つまり、回転角θが180度になること等の一定のタスクであり、この場合の、目的を達成するための目的関数とは、例えば、回転角θが180度になったら、報酬を与える関数や、回転角θが180度に近いほど高い報酬を与える関数等のタスクに依存する関数である。
一方、セルフエージェントは、アザーエージェント(のアクション)を模倣することを目的とするので、目的となるタスクは、模倣しようとするアザーエージェントのアクションによって異なり、タスクに依存する目的関数を必要としない。
また、本実施の形態では、セルフエージェントから観測される観測値としては、あえて、単振り子の回転角θと、角速度とのうちの一方である回転角θだけを採用した。
図9は、アザーエージェントの外観の構成例と、そのアザーエージェントから観測される第2の観測値の例を示す図である。
図9では、アザーエージェントとして、セルフエージェントと同一のアクションを行うことが可能な他のエージェントである単振り子が採用されている。
さらに、図9では、第2の観測値として、アザーエージェントを撮影することにより得られる画像データが採用されている。
すなわち、センサ部11は、セルフエージェント以外の対象であるアザーエージェントを、被写体として、その被写体を撮影するセンシングを行い、その結果得られる画像データを、第2の観測値として出力する。
したがって、第1の観測値と、第2の観測値とは、種類(モーダル)が異なる。
図10は、第2の観測値の具体例を説明する図である。
図10では、第2の観測値として、アザーエージェントを正面方向(アザーエージェントとしての単振り子が回転する平面に直交する方向)から撮影して得られる白黒の画像を、横×縦が、例えば、5×5画素の粗い解像度の画像に、バイリニア補間等によって変換し、その5×5画素の画素値である25個の画素値を、コンポーネントとする25次元のベクトルが採用されている。
[マルチ観測予測モデルの学習]
図11は、図1のモデル学習部22が行うマルチ観測予測モデルの学習の処理(モデル学習処理)を説明するフローチャートである。
セルフエージェントとしての図1のエージェントは、生得コントローラ35において、セルフエージェントが生得的に可能なアクションを行うためのアクション信号を生成し、アクション部14と、アクション学習部33とに供給する。
アクション部14は、生得コントローラ35からのアクション信号に従って、可動部分を駆動し、これにより、セルフエージェントとしての単振り子は、アクション信号に対応するトルクτに従って回転するアクションを行う。
センサ部11は、生得コントローラ35からのアクション信号に従って回転する、セルフエージェントとしての単振り子の回転角θをセンシングし、第1の観測値として、バッファ21に、時系列に供給する。
バッファ21は、センサ部11からの第1の観測値の時系列を記憶する。そして、バッファ21に、ある程度のサンプル数の第1の観測値の時系列、すなわち、ある程度の時系列長の第1の時系列データが記憶されると、モデル学習部22は、ステップS11において、バッファ21に記憶された第1の時系列データを、モデル学習用データとして用いて、モデル記憶部24に記憶されたマルチ観測予測モデルの、Baum-Welchアルゴリズムに従った学習を行うことにより、初期状態確率、遷移確率、及び、第1の観測尤度を求める。
ここで、第1の時系列データを用いた、マルチ観測予測モデルの学習を、以下、セルフ学習ともいう。
セルフ学習では、セルフエージェントは、セルフエージェント自身が、アクション信号に従って、どのようなアクションを行うのかを試行錯誤で確認するかのように、アクションを行い、さらに、アクション信号に従ってアクションが行われたときに観測される第1の観測値の時系列を用いて、マルチ観測予測モデルの学習が行われる。
なお、第1の観測値は、セルフエージェント自身(の身体)から観測される観測値であり、そのような第1の観測値の時系列を用いた、マルチ観測予測モデルの学習は、セルフエージェントの身体(機能)をモデル化する身体モデルの学習ともいうことができる。
ステップS11のセルフ学習の後、例えば、アザーエージェントが、セルフエージェントの前に置かれ、アザーエージェントとしての単振り子が、例えば、トルクをランダムに変えながらアクションを行う(回転する)と、センサ部11が、アクションを行っているアザーエージェントを撮影するセンシングを行うことにより得られる画像データである第2の観測値が、バッファ21に、時系列に供給される。
バッファ21は、センサ部11から供給される第2の観測値の時系列を記憶する。そして、バッファ21に、ある程度のサンプル数の第2の観測値の時系列、すなわち、ある程度の時系列長の第2の時系列データが記憶されると、モデル学習部22は、ステップS12において、バッファ21に記憶された第2の時系列データを、モデル学習用データとして用いて、モデル記憶部24に記憶されたマルチ観測予測モデルの、Baum-Welchアルゴリズムに従った学習を、第1の時系列データを用いて求めた初期状態確率、及び、遷移確率を固定して行うことにより、第2の観測尤度を求め、モデル学習処理を終了する。
なお、第2の時系列データを用いた、マルチ観測予測モデルの学習(セルフ学習後のマルチ観測予測モデルの学習)を、以下、模倣学習ともいう。
[セルフ学習]
図12は、図11のステップS11で行われる、Baum-Welchアルゴリズムに従ったセルフ学習の詳細を説明するフローチャートである。
セルフ学習では、ステップS21において、モデル学習部22は、マルチ観測予測モデルの初期状態確率πi、遷移確率aij、及び、第1の観測尤度bj(o)を初期化する。
ここで、初期状態確率πiは、マルチ観測予測モデルのi個目の状態Siにいる初期確率を表す。初期状態確率πiは、マルチ観測予測モデルの状態の総数がN個であるとすると、例えば、1/Nに初期化される。
遷移確率aijは、状態Siから状態Sjに状態遷移する確率を表す。遷移確率aijは、状態Siから、状態S1ないしSNのそれぞれに状態遷移する遷移確率の総和が1.0となるように、例えば、ランダムな値に初期化される。
第1の観測尤度bj(o)は、状態Sjにおいて、第1の観測値oが観測される尤度を表す。
第1の観測値oが離散値である場合、第1の観測尤度bj(o)は、第1の観測値oが観測される確率を表し、第1の観測値となる離散値の種類の総数がN'個であるとすると、例えば、1/N'に初期化される。
また、第1の観測値oが連続値である場合、第1の観測尤度bj(o)は、例えば、確率密度関数で表される。
状態Sjにおいて、第1の観測値oが観測される第1の観測尤度bj(o)を表す確率密度関数として、例えば、変数xの平均値(平均ベクトル)が、μjで表され、分散(分散共分散行列)が、σj 2で表される正規分布N(x,μjj 2)を採用することとすると、第1の観測尤度bj(o)の初期化では、平均値μjと分散σj 2とが初期化される。
第1の観測値oが、0.0ないし1.0の範囲内の値をとるように、正規化されていることとすると、平均値μjは、例えば、0.0ないし1.0の範囲の中央の値である0.5等に初期化される。また、分散σj 2は、0.0ないし1.0の範囲の値について大きな分散となる、例えば、0.5等に初期化される。
ここで、マルチ観測予測モデルの初期状態確率πi、遷移確率aij、及び、第1の観測尤度bj(o)は、それぞれ、HMMの初期状態確率、遷移確率、及び、観測尤度(出力確率分布)と等価なので、以下、まとめて、HMMパラメータともいう。
ステップS21において、マルチ観測予測モデルのモデルパラメータのうちのHMMパラメータ(初期状態確率πi、遷移確率aij、第1の観測尤度bj(o))の初期化が行われると、処理は、ステップS22に進み、モデル学習部22は、HMMパラメータの再推定の回数をカウントする変数kを、1に初期化する。
さらに、モデル学習部22は、0回の再推定後のHMMパラメータ(まだ、再推定がされていないHMMパラメータ)によって規定されるマルチ観測予測モデルにおいて、バッファ21に記憶されたモデル学習用データとしての第1の観測値oの時系列である第1の時系列データo1:Tが観測される対数尤度L0(o1:T)を、第1の時系列データo1:Tが観測されているとは認められない程度の小さい値MINに初期化して、処理は、ステップS22からステップS23に進む。
ここで、第1の時系列データo1:Tとは、T個の第1の観測値oの時系列o1,o2,・・・,oTである。
ステップS23では、モデル学習部22は、第1の時系列データo1:T、並びに、HMMパラメータ(初期状態確率πi、遷移確率aij、第1の観測尤度bj(o))を用いて、前向き確率αt+1(j)、及び、後ろ向き確率βt(i)を計算し、処理は、ステップS24に進む。
ここで、前向き確率αt+1(j)は、第1の観測値の時系列o1,o2,・・・,otを観測して、時刻tに、状態Siにいて、その後、状態Sjに状態遷移し、その状態Sjにおいて、第1の観測値ot+1が観測される確率を表す。
また、後ろ向き確率βt(i)は、時刻tに、状態Siにいて、状態Sjに状態遷移し、その後、第1の観測値の時系列ot+1,ot+2,・・・,oTが観測される確率を表す。
前向き確率αt+1(j)は、式(1)及び式(2)に従って計算される。
Figure 0005633734
・・・(1)
Figure 0005633734
・・・(2)
また、後ろ向き確率βt(i)は、式(3)及び式(4)に従って計算される。
Figure 0005633734
・・・(3)
Figure 0005633734
・・・(4)
なお、式(2)及び式(4)の第1の観測尤度bj(ot)は、変数xの平均値が、μjで表され、分散が、σj 2で表される正規分布N(x,μjj 2)を用いて、式(5)で表される。
Figure 0005633734
・・・(5)
ステップS24では、モデル学習部22は、k回の再推定後のHMMパラメータによって定義されるマルチ観測予測モデルにおいて、バッファ21に記憶されたモデル学習用データとしての第1の時系列データo1:Tが観測される対数尤度Lk(o1:T)を、直前のステップS23で求められた前向き確率αT(i)を用いて、式(6)に従って計算し、処理は、ステップS25に進む。
Figure 0005633734
・・・(6)
ステップS25では、モデル学習部22は、k回の再推定後のHMMパラメータから計算される対数尤度Lk(o1:T)と、1回前であるk-1回の再推定後のHMMパラメータから計算される対数尤度Lk-1(o1:T)との差分Lk(o1:T)-Lk-1(o1:T)が、あらかじめ設定された所定の小さい閾値ε未満であるかどうかを判定する。
ステップS25において、差分Lk(o1:T)-Lk-1(o1:T)が、閾値ε未満であると判定された場合、すなわち、例えば、k回の再推定後のHMMパラメータから計算される対数尤度Lk(o1:T)が、1回前であるk-1回の再推定後のHMMパラメータから計算される対数尤度Lk-1(o1:T)から、ほとんど増加せず、したがって、HMMパラメータが収束した場合、モデル学習部22は、セルフ学習の処理を終了する。
また、ステップS25において、差分Lk(o1:T)-Lk-1(o1:T)が、閾値ε未満でないと判定された場合、すなわち、k回の再推定後のHMMパラメータから計算される対数尤度Lk(o1:T)が、1回前であるk-1回の再推定後のHMMパラメータから計算される対数尤度Lk-1(o1:T)から、閾値ε以上増加する場合、処理は、ステップS26に進み、モデル学習部22は、変数kが、HMMパラメータの再推定の最大の回数としてあらかじめ設定された最大回数K以下であるかどうかを判定する。
ステップS26において、変数kが、最大回数K以下であると判定された場合、処理は、ステップS27に進み、モデル学習部22は、変数kを1だけインクリメントして、処理は、ステップS28に進む。
ステップS28では、モデル学習部22は、HMMパラメータを再推定し、再推定後のHMMパラメータによって更新する。
すなわち、再推定後の初期状態確率πi、遷移確率aij、並びに、第1の観測尤度bj(o)の平均値μj、及び、分散σj 2を、それぞれ、πi',aij'、並びに、μj'、及び、σj 2'と表すこととすると、モデル学習部22は、πi',aij',μj'、及び、σj 2'を、それぞれ、式(7)、式(8)、式(9)、及び、式(10)に従って求める(再推定する)。
Figure 0005633734
・・・(7)
Figure 0005633734
・・・(8)
Figure 0005633734
・・・(9)
Figure 0005633734
・・・(10)
そして、モデル学習部22は、初期状態確率πi、遷移確率aij、並びに、第1の観測尤度bj(o)の平均値μj、及び、分散σj 2を、それぞれ、再推定後のπi',aij'、並びに、μj'、及び、σj 2'に更新する。
その後、処理は、ステップS28からステップS23に戻り、以下、更新後の初期状態確率πi、遷移確率aij、並びに、第1の観測尤度bj(o)の平均値μj、及び、分散σj 2を用いて、同様の処理が繰り返される。
一方、ステップS26において、変数kが、最大回数K以下でないと判定された場合、すなわち、HMMパラメータが、最大回数Kだけ再推定しても、収束しない場合、モデル学習部22は、セルフ学習の処理を終了する。
図13は、セルフ学習後のマルチ観測予測モデルを示す図である。
すなわち、図13は、484状態を有する2次元近傍拘束HMM(図4)を、マルチ観測予測モデルとして用いてセルフ学習を行って得られる状態と、状態遷移とを示している。
図13において、横軸は、セルフエージェントとしての単振り子の回転角θを表し、縦軸は、その単振り子の角速度ωを表す。ここで、回転角θを表す横軸と、角速度ωを表す縦軸とで規定される2次元平面を、(θ,ω)平面ともいう。
図13では、認識部23において、時系列長がLの第1の時系列データo=ot-L+1,ot-L+2,・・・,otを、認識対象データとして、認識が行われることにより、時刻tにいる状態(現在状態)stとして、ある状態Siが得られた場合の、単振り子の、実際の回転角θ'と角速度ω'とを記録しておき、状態Siについて記録された実際の回転角θ'及び角速度ω'それぞれの平均値θave及びωaveを求め、状態Siを、(θ,ω)平面上の位置(θ,ω)=(θave,ωave)にプロットしてある。
さらに、図13では、遷移確率aijが、0.01以上の状態遷移を示してある。
図13において、マルチ観測予測モデルの各状態Siは、原則として、近傍の数個の状態との間でのみ状態遷移が生じている。但し、例外として、回転角θが、-π又はπのうちの一方から他方に変化することに対応して、回転角θが-πの位置にある状態と、回転角θがπの位置にある状態との間にも、状態遷移が生じている。
以上のように、状態遷移が、近傍の数個の状態どうしの間、及び、回転角θが-πの位置にある状態と、回転角θがπの位置にある状態との間のみに生じることは、単振り子の回転角θと角速度ωとが連続的に変化することに相当し、スパースな構造のHMMで、単振り子の挙動(回転)を表現することができていることが分かる。
また、セルフ学習では、回転角θ及び角速度ωのうちの、回転角θだけが、モデル学習用データとして用いられるが、図13では、回転角θが同一の位置に、角速度ωが異なる状態がプロットされており、したがって、セルフ学習後のマルチ観測予測モデルにおいて、角速度ωによって変わる、セルフエージェントとしての単振り子の挙動が表現されていることが分かる。
図14は、図11のステップS12で行われる、Baum-Welchアルゴリズムに従った模倣学習の詳細を説明するフローチャートである。
模倣学習では、ステップS31において、モデル学習部22は、マルチ観測予測モデルの第2の観測尤度bj(o)を初期化する。
ここで、第2の観測尤度bj(o)の初期化は、図12で説明した第1の観測尤度の初期化と同様に行われる。
すなわち、本実施の形態では、第2の観測値oは、図10で説明したように、25次元のベクトルであるから、連続値であり、したがって、第2の観測尤度bj(o)は、例えば、確率密度関数で表される。
状態Sjにおいて、第2の観測値oが観測される第2の観測尤度bj(o)を表す確率密度関数として、例えば、変数xの平均値(平均ベクトル)が、μjで表され、分散(分散共分散行列)が、σj 2で表される正規分布N(x,μjj 2)を採用することとすると、第2の観測尤度bj(o)の初期化では、平均値μjと分散σj 2とが初期化される。
第2の観測値o(としてのベクトルの各コンポーネント)が、0.0ないし1.0の範囲内の値をとるように、正規化されていることとすると、平均値μj(としてのベクトルの各コンポーネント)は、例えば、0.0ないし1.0の範囲の中央の値である0.5等に初期化される。また、分散σj 2(としての分散共分散行列の、例えば、対角成分)は、0.0ないし1.0の範囲の値について大きな分散となる、例えば、0.5等に初期化される。
ステップS31において、マルチ観測予測モデルの第2の観測尤度bj(o)の初期化が行われると、処理は、ステップS32に進み、モデル学習部22は、第2の観測尤度bj(o)の再推定の回数をカウントする変数kを、1に初期化する。
さらに、モデル学習部22は、0回の再推定後の第2の観測尤度bj(o)(まだ、再推定がされていない第2の観測尤度bj(o))によって規定されるマルチ観測予測モデルにおいて、バッファ21に記憶されたモデル学習用データとしての第2の観測値oの時系列である第2の時系列データo1:Tが観測される対数尤度L0(o1:T)を、第2の時系列データo1:Tが観測されているとは認められない程度の小さい値MINに初期化して、処理は、ステップS32からステップS33に進む。
ここで、第2の時系列データo1:Tとは、T個の第2の観測値oの時系列o1,o2,・・・,oTである。
ステップS33では、モデル学習部22は、第2の時系列データo1:T、及び、第2の観測尤度bj(o)、並びに、セルフ学習で求められた初期状態確率πi、及び、遷移確率aijを用い、セルフ学習の場合と同様の式(1)ないし式(4)に従って、前向き確率αt+1(j)、及び、後ろ向き確率βt(i)を計算して、処理は、ステップS34に進む。
ステップS34では、モデル学習部22は、k回の再推定後の第2の観測尤度bj(o)、並びに、セルフ学習で求められた初期状態確率πi、及び、遷移確率aijによって定義されるマルチ観測予測モデルにおいて、バッファ21に記憶されたモデル学習用データとしての第2の時系列データo1:Tが観測される対数尤度Lk(o1:T)を、直前のステップS33で求められた前向き確率αT(i)を用い、セルフ学習の場合と同様の式(6)に従って計算して、処理は、ステップS35に進む。
ステップS35では、モデル学習部22は、k回の再推定後の第2の観測尤度bj(o)、並びに、セルフ学習で求められた初期状態確率πi、及び、遷移確率aijから計算される対数尤度Lk(o1:T)と、1回前であるk-1回の再推定後の第2の観測尤度bj(o)、並びに、セルフ学習で求められた初期状態確率πi、及び、遷移確率aijから計算される対数尤度Lk-1(o1:T)との差分Lk(o1:T)-Lk-1(o1:T)が、所定の小さい閾値ε未満であるかどうかを判定する。
ステップS35において、差分Lk(o1:T)-Lk-1(o1:T)が、閾値ε未満であると判定された場合、すなわち、例えば、k回の再推定後の第2の観測尤度bj(o)を用いて計算される対数尤度Lk(o1:T)が、1回前であるk-1回の再推定後の第2の観測尤度bj(o)を用いて計算される対数尤度Lk-1(o1:T)から、ほとんど増加せず、したがって、第2の観測尤度bj(o)が収束した場合、モデル学習部22は、模倣学習の処理を終了する。
また、ステップS35において、差分Lk(o1:T)-Lk-1(o1:T)が、閾値ε未満でないと判定された場合、すなわち、k回の再推定後の第2の観測尤度bj(o)を用いて計算される対数尤度Lk(o1:T)が、1回前であるk-1回の再推定後の第2の観測尤度bj(o)を用いて計算される対数尤度Lk-1(o1:T)から、閾値ε以上増加する場合、処理は、ステップS36に進み、モデル学習部22は、変数kが、第2の観測尤度bj(o)の再推定の最大の回数としてあらかじめ設定された最大回数K以下であるかどうかを判定する。
ステップS36において、変数kが、最大回数K以下であると判定された場合、処理は、ステップS37に進み、モデル学習部22は、変数kを1だけインクリメントして、処理は、ステップS38に進む。
ステップS38では、モデル学習部22は、第2の観測尤度bj(o)を再推定し、再推定後の第2の観測尤度bj(o)によって更新する。
すなわち、再推定後の第2の観測尤度bj(o)の平均値μj、及び、分散σj 2を、それぞれ、μj'、及び、σj 2'と表すこととすると、モデル学習部22は、μj'、及び、σj 2'を、セルフ学習の場合と同様の式(9)、及び、式(10)に従って求める(再推定する)。
そして、モデル学習部22は、第2の観測尤度bj(o)の平均値μj、及び、分散σj 2を、それぞれ、再推定後のμj'、及び、σj 2'に更新する。
なお、初期状態確率πi、及び、遷移確率aijは、セルフ学習によって求められた値が、そのまま維持される(更新されない)。
その後、処理は、ステップS38からステップS33に戻り、以下、更新後の第2の観測尤度bj(o)の平均値μj、及び、分散σj 2、並びに、セルフ学習で求められた初期状態確率πi、及び、遷移確率aijを用いて、同様の処理が繰り返される。
したがって、模倣学習では、セルフ学習で求められた初期状態確率πi、及び、遷移確率aijは、更新されずに、そのままの値(セルフ学習で求められた値)に固定され、第2の観測尤度bj(o)(の平均値μj、及び、分散σj 2)だけが再推定されて更新されていく。
一方、ステップS36において、変数kが、最大回数K以下でないと判定された場合、すなわち、第2の観測尤度bj(o)が、最大回数Kだけ再推定しても、収束しない場合、モデル学習部22は、模倣学習の処理を終了する。
以上の模倣学習によれば、アザーエージェントから観測される第2の観測値を認識するための、マルチ観測予測モデルの学習(第2の観測値の時系列の時系列パターンの獲得)が行われるのと同時に、他者(アザーエージェント)の状態と模倣者(セルフエージェント)自身の状態との対応付けの学習、すなわち、アザーエージェントがあるアクションを行った場合に観測される第2の観測値と、セルフエージェントが、アザーエージェントと同一のアクションを行った場合に観測される第1の観測値との関係の獲得が行われる。
すなわち、セルフ学習において、マルチ観測予測モデルを定義する第1の観測尤度は、セルフエージェント自身としての単振り子の回転角θである第1の観測値を用いて獲得されるため、アザーエージェントから観測される第2の観測値である、アザーエージェントの画像を用いる処理に適用することはできない。
そこで、アザーエージェントから観測される第2の観測値を用いる処理には、第1の観測尤度(観測モデル#1)とは別に、第2の観測値が観測される第2の観測尤度(観測モデル#2)を定義し、マルチ観測予測モデルの学習では、第1の観測尤度を獲得するセルフ学習とは別に、第2の観測尤度を獲得する模倣学習が行われる。
そして、模倣学習では、セルフ学習後のマルチ観測予測モデルの学習が、アザーエージェントから観測される第2の観測値を用い、セルフ学習で獲得した初期状態確率と遷移確率とを固定にして、第2の観測尤度のみが更新されることで、第2の観測値を認識するためのマルチ観測予測モデルの学習が行われるのと同時に、他者(アザーエージェント)の状態と模倣者(セルフエージェント)自身の状態との対応付け(対応関係)の学習が行われる。
すなわち、模倣学習では、セルフ学習後のマルチ観測予測モデルの学習が、アザーエージェントから観測される第2の観測値を用い、セルフ学習で獲得した初期状態確率と遷移確率とを固定にして行われるので、アザーエージェントがあるアクションを行った場合に観測される第2の観測値と、セルフエージェントが、アザーエージェントと同一のアクションを行った場合に観測される第1の観測値とが、いわば、前述のミラーニューロンに相当するような状態を介して対応付けられる。
したがって、他者(アザーエージェント)の状態と模倣者(セルフエージェント)自身の状態との対応付けの学習を、効率的に行うことができ、その結果、後述する模倣処理によって、セルフエージェントは、アザーエージェントが行うアクションを、効率的に模倣することができる。
図15は、模倣学習後のマルチ観測予測モデルにおいて、第1の時系列データが観測される状態系列と、第2の時系列データが観測される状態系列とを示す図である。
図15では、図13の場合と同様に、模倣学習後のマルチ観測予測モデルの各状態が、(θ,ω)平面上にプロットされている。
さらに、図15では、セルフエージェントとしての単振り子と、アザーエージェントとしての単振り子とを、同期させて回転させた場合に観測される、セルフエージェントの回転角θ(第1の観測値)の時系列である第1の時系列データと、アザーエージェントの画像(第2の観測値)の時系列である第2時系列データとのそれぞれが、マルチ観測予測モデルにおいて観測される尤度が最大の状態系列を示してある。
マルチ観測予測モデルにおいて第1の時系列データが観測される尤度が最大の状態系列(図中、実線の矢印で示す)と、マルチ観測予測モデルにおいて第2の時系列データが観測される尤度が最大の状態系列(図中、点線の矢印で示す)とは、(θ,ω)平面上で、ほぼ同様の軌跡を描いており、他者(アザーエージェント)の状態と模倣者(セルフエージェント)自身の状態との対応付けが、正しく行われていること、つまり、マルチ観測予測モデルの各状態に、アザーエージェントがあるアクションを行った場合に観測される第2の観測値と、セルフエージェントが、アザーエージェントと同様のアクションを行った場合に観測される第1の観測値とが割り当てられていることが分かる。
[マルチ観測予測モデルを用いた認識]
図16は、図1の認識部23が行うマルチ観測予測モデルを用いた認識の処理(認識処理)を説明するフローチャートである。
セルフ学習がある程度進行したマルチ観測予測モデルによれば、第1の観測値の時系列を、認識対象データとして、その認識対象データを認識し、認識対象データの認識結果として、マルチ観測予測モデルにおいて、認識対象データの最新(現在)のサンプル値(第1の観測値)が観測される状態である現在状態を求める(推定する)ことができる。
すなわち、認識部23は、セルフ学習がある程度進行したマルチ観測予測モデル(セルフ学習が終了したマルチ観測予測モデルを含む)を用い、例えば、ビタビアルゴリズム(Viterbi Algorithm)に従って、認識対象データの各サンプル値が時系列に観測され、最新のサンプル値が観測されたときの状態確率が最大の状態を、認識対象データの認識結果である現在状態として求める。
具体的には、認識部23は、バッファ21に記憶された、最新の所定数T(例えば、50サンプル等)の第1の観測値の系列o1,o2,・・・,oTを、認識対象データとして読み出し、ステップS41において、時刻を表す変数tを、初期値としての1に設定して、処理は、ステップS42に進む。
ステップS42では、認識部23は、時刻t=1の、マルチ観測予測モデルを構成するN個の各状態Siの状態確率を、状態Siの初期状態確率πiと、時刻t=1の第1の観測値o1の第1の観測尤度bi(o1)とを乗算することによって求め、処理は、ステップS43に進む。
ここで、時刻t=1のN個の各状態Siの状態確率は、状態Siの初期状態確率πiと、第1の観測尤度bi(o1)とを乗算することによって求める他、時刻t=1(現在の時刻から、Tサンプルだけ前の時刻)の状態が不定であるとして、すなわち、各状態Siの状態確率が、すべて1/Nであるとして、1/Nと、第1の観測尤度bi(o1)とを乗算することによって求めることができる。
ステップS43では、認識部23は、時刻t+1の各状態Sjについて、時刻tの各状態Siの状態確率に、状態Sjへの遷移確率aijと、遷移先の状態Sjにおいて、時刻t+1の第1の観測値ot+1が観測される第1の観測尤度bj(ot+1)とを乗算し、その結果得られるN個の乗算値のうちの最大値を、時刻t+1の状態Sjの状態確率として求め、処理は、ステップS44に進む。
ステップS44では、認識部23は、時刻t+1の各状態Sjについて、直前のステップS43で最大値となった乗算値が得られたときの遷移元の状態Siを、遷移先の状態Sjに対応付けて記憶し、処理は、ステップS45に進む。
ステップS45では、認識部23は、時刻tを1だけインクリメントして、処理は、ステップS46に進む。
ステップS46では、認識部23は、時刻tが、認識対象データの時系列長Tに等しいかどうかを判定する。
ステップS46において、時刻tが、認識対象データの時系列長Tに等しくないと判定された場合、処理は、ステップS43に戻り、以下、同様の処理が繰り返される。
また、ステップS46において、時刻tが、認識対象データの時系列長Tに等しいと判定された場合、すなわち、マルチ観測予測モデルにおいて、認識対象データであるT個の第1の観測値の系列o1,o2,・・・,oTを観測して、各状態Siにいる状態確率が求められた場合、処理は、ステップS47に進み、認識部23は、認識対象データの認識結果としての現在状態を決定する。
すなわち、ステップS47では、認識部23は、時刻t(=T)の状態S1ないしSNの中で、状態確率が最大の状態Sjを、現在状態に決定する。
その後、処理は、ステップS47からステップS48に進み、以下、マルチ観測予測モデルにおいて、認識対象データが観測される尤度を最大にする状態系列である最尤系列が求められる。
すなわち、ステップS48では、認識部23は、現在状態を、最尤系列の中の、時刻t(=T)の状態である選択状態に選択し、処理は、ステップS49に進む。
ステップS49では、認識部23は、時刻tが、初期値である1に等しいかどうかを判定する。
ステップS49において、時刻tが、初期値に等しくないと判定された場合、処理は、ステップS50に進み、認識部23は、時刻tの選択状態に対応付けて記憶している状態(時刻tの選択状態に遷移する遷移元の状態)Siを、最尤系列の中の、時刻t-1の状態である選択状態に選択し、処理は、ステップS51に進む。
ステップS51では、認識部23は、時刻tを1だけデクリメントして、処理は、ステップS49に戻り、以下、同様の処理が繰り返される。
そして、ステップS49において、時刻tが、初期値である1に等しいと判定された場合、すなわち、最尤系列となる状態系列が得られた場合、認識部23は、認識処理を終了する。
なお、認識部23では、図16で説明したのと同様にして、模倣学習がある程度進行したマルチ観測予測モデル(模倣学習が終了したマルチ観測予測モデルを含む)を用い、第2の観測値の時系列を、認識対象データとして、その認識対象データを認識し、認識対象データの認識結果として、マルチ観測予測モデルにおいて、認識対象データの最新(現在)のサンプル値(第2の観測値)が観測される状態である現在状態を求めること、及び、マルチ観測予測モデルにおいて、認識対象データとしての第2の観測値の時系列が観測される尤度が最大になる最尤系列を求めることができる。
[アクション学習]
図17は、図1のアクション学習部33が行うアクション学習の処理(アクション学習処理)を説明するフローチャートである。
図16で説明したように、セルフ学習がある程度進行すると、認識部23において、セルフ学習がある程度進行したマルチ観測予測モデルを用い、認識対象データとしての第1の観測値の系列が観測されたときの現在状態を求めることができる。
すなわち、時刻tごとに、その時刻tの第1の観測値を最新のサンプル値とする、T個の最新の第1の観測値からなる第1の時系列データの認識結果としての現在状態を求めることができる。
したがって、T個を超える第1の観測値が観測される場合に、時刻t=T以降の各時刻tについては、時刻tの現在状態stから、次の時刻t+1の現在状態st+1への状態遷移Aijを決定することができる。
一方、セルフ学習が行われている場合、セルフエージェントとしての単振り子は、生得コントローラ35が生成するアクション信号に従って回転するアクションを行っている。
いま、生得コントローラ35が、時刻tに生成するアクション信号を、mtと表すこととすると、時刻tの第1の観測値otが観測される現在状態stにおいて、時刻tのアクション信号mtに従ったアクションが行われることにより、次の時刻t+1の現在状態st+1への状態遷移Aijが生じる、という因果モデルが成立する。
アクション学習部33は、各状態遷移Aijについて、その状態遷移Aijが生じる前の時刻tの第1の観測値otと、その時刻tのアクション信号mtとのセットを、アクション学習に用いるアクション学習用データとして収集し、そのアクション学習用データを用いて、アクション学習、つまり、セルフエージェントに所定のアクションを行わせるためのアクション信号mtと、そのアクション信号に従ったアクションが行われることにより生じるマルチ観測予測モデルの状態遷移Aijとの関係の学習を行う。
具体的には、アクション学習部33は、アクション学習において、アクション学習用データを用い、状態遷移Aijごとに、その状態遷移を生じさせるアクションを行うためのアクション信号mtを出力する、第1の観測値otを入力とする関数mt=Fij(ot)を、コントローラとして求める。
なお、関数Fij()としては、例えば、ニューラルネットワーク等を採用することができる。
図17のアクション学習処理では、以上のようにして、コントローラとしての関数mt=Fij(ot)が求められる。
すなわち、図17のアクション学習処理は、例えば、セルフ学習がある程度進行すると開始され、ステップS61において、アクション学習部33は、認識部23が、T個の最新の第1の観測値からなる第1の時系列データを、認識対象データとして認識を行い、現在時刻(最新の時刻)tの現在状態stと、現在時刻tの第1の観測値otとを出力するのを待って、その現在時刻tの現在状態st、及び、第1の観測値otを受信し、処理は、ステップS62に進む。
ステップS62では、アクション学習部33は、認識部23から1時刻前に受信した時刻t-1の第1の観測値ot-1と、生得コントローラ35から1時刻前に受信した時刻t-1のアクション信号mt-1とのセットを、アクション学習用データとして、認識部23から1時刻前に受信した時刻t-1の現在状態st-1から、認識部23から直前のステップS61で受信した現在時刻tの現在状態stへの状態遷移Aijに対応付けて記憶する。
その後、生得コントローラ35が現在時刻tのアクション信号mtを出力するのを待って、処理は、ステップS62からステップS63に進み、アクション学習部33は、生得コントローラ35が出力する現在時刻tのアクション信号mtを受信して、処理は、ステップS64に進む。
ステップS64では、アクション学習部33は、セルフ学習が終了したか、又は、各状態遷移Aijについて、十分な数のアクション学習用データが得られたかを判定する。
ステップS64において、セルフ学習が終了してもいないし、かつ、各状態遷移Aijについて、十分な数のアクション学習用データが得られてもいないと判定された場合、認識部23が、次の時刻t+1の第1の観測値ot+1を含む、T個の最新の第1の観測値からなる第1の時系列データを、認識対象データとして認識を行い、時刻t+1の現在状態st+1と、時刻t+1の第1の観測値ot+1とを出力するのを待って、処理は、ステップS61に戻り、以下、同様の処理が繰り返される。
また、ステップS64において、セルフ学習が終了したか、又は、各状態遷移Aijについて、十分な数のアクション学習用データが得られたと判定された場合、処理は、ステップS65に進み、アクション学習部33は、各状態遷移Aijについて、アクション学習用データとしてセットになっている第1の観測値oとアクション信号mとを用い、第1の観測値oを入力として、アクション信号mを出力する関数m=Fij(o)であるコントローラを求める。
各状態遷移Aijについて、関数m=Fij(o)であるコントローラが求められると、処理は、ステップS65からステップS66に進み、アクション学習部33は、各状態遷移Aijについて求められたコントローラとしての関数m=Fij(o)に、コントローラを識別するユニークなコントローラIDを対応付ける。
さらに、アクション学習部33は、各状態遷移Aijと、その状態遷移Aijについて求められたコントローラとしての関数m=Fij(o)に対応付けられたコントローラIDとを対応付けたコントローラテーブルを生成し、処理は、ステップS66から、ステップS67に進む。
ステップS67では、アクション学習部33は、ステップS66で得た、コントローラIDを対応付けたコントローラとしての関数m=Fij(o)、及び、コントローラテーブルを、アクション生成情報として、アクション生成情報記憶部34に供給して記憶させ、アクション学習処理を終了する。
なお、図17では、状態遷移Aijのコントローラとして、第1の観測値oを入力として、アクション信号mを出力する関数m=Fij(o)を採用したが、状態遷移Aijのコントローラとしては、その他、例えば、状態遷移Aijについてのアクション学習用データになっているアクション信号mの平均値等の一定値を、第1の観測値oに関係なく出力する関数を採用することができる。
[プランニング]
図18は、図1のプランニング部31が行うプランニングの処理(プランニング処理)を説明するフローチャートである。
アクション学習処理(図17)が終了すると、セルフエージェント(図1)は、マルチ観測予測モデルの1つの状態Ssをスタート状態ととするとともに、他の1つの状態Seを目標状態として、スタート状態から目標状態に辿り着く状態系列であるプランを求めるプランニング処理を行い、そのプラン上の状態に、順次、状態遷移をして、最終的に、目標状態に辿り着くアクションを行うことができる。
プラニング処理において、プランを求める方法としては、スタート状態と目標状態が与えられた場合に、例えば、スタート状態を遷移元の状態とする状態遷移の遷移確率が所定の閾値以上の状態遷移を、1つだけランダムに選択し、その状態遷移の遷移先の状態を遷移元の状態とする状態遷移の遷移確率が所定の閾値以上の状態遷移を、再び、1つだけランダムに選択することを、状態遷移の遷移先の状態が、目標状態となるまで繰り返す方法がある。
しかしながら、この方法では、多くの場合、スタート状態から目標状態に辿り着くのに時間を要するプラン(状態遷移(及び状態)の数が多いプラン)が求められる。
そこで、短時間で、スタート状態から目標状態に辿り着くプランを求める方法として、例えば、ビタビアルゴリズムを応用した方法がある。
図18のフローチャートは、ビタビアルゴリズムを応用した方法によって、プランを求めるプランニング処理を示している。
なお、プランニング部31は、プランニング処理において、そこに供給される目標情報(図1)が表す状態を目標状態として、プランを求める場合、スタート状態を、認識部23から供給される現在状態とする。
図18のプランニング処理では、プランニング部31は、ステップS71において、時刻を表す変数tを、初期値としての1に設定して、処理は、ステップS72に進む。
ステップS72では、プランニング部31は、スタート状態(になっている状態)の時刻t=1の状態確率を、初期値としての1.0に設定するとともに、スタート状態以外の他の状態の時刻tの状態確率を、0.0に設定して、処理は、ステップS73に進む。
ステップS73では、プランニング部31は、遷移確率aijのうちの、所定の閾値(例えば、0.01等)以上の遷移確率aijを、プランニング処理で用いるのに限って、大きな値(例えば、0.9等)に設定するとともに、他の遷移確率aijを、プランニング処理で用いるのに限って、小さな値(例えば、0.0等)に設定して、処理は、ステップS74に進む。
ステップS74では、プランニング部31は、時刻t+1の各状態Sjについて、時刻tの各状態siの状態確率に、状態Sjへの遷移確率aijを乗算し、その結果得られるN個の乗算値のうちの最大値を、時刻t+1の状態Sjの状態確率として求め、処理は、ステップS75に進む。
ステップS75では、プランニング部31は、時刻t+1の各状態Sjについて、直前のステップS74で最大値となった乗算値が得られたときの遷移元の状態Siを、遷移先の状態Sjに対応付けて記憶し、処理は、ステップS76に進む。
ステップS76では、プランニング部31は、時刻tを1だけインクリメントして、処理は、ステップS77に進む。
ステップS77では、プランニング部31は、目標状態(になっている状態)の時刻tの状態確率が、0.0より大であるかどうかを判定する。
ステップS77において、目標状態の時刻tの状態確率が、0.0より大でないと判定された場合、すなわち、ステップS73で遷移確率aijが大きな値に設定された状態遷移のみによって、スタート状態から目標状態に辿り着くことができていない場合、処理は、ステップS78に進み、プランニング部31は、時刻tが、プランとしての状態系列の系列長(状態数)の最大値として、あらかじめ設定された閾値に等しいかどうかを判定する。
ステップS78において、時刻tが、閾値に等しいと判定された場合、すなわち、閾値以内の系列長の状態系列を、プランとして検出することができなかった場合、プランを得ることができないとして、プランニング処理は、終了する。
この場合、プランニング部31は、例えば、新たな目標情報を要求することによって、目標状態を変更し、又は、セルフエージェントに、ランダムなアクションを行わせることによって、現在状態、ひいては、スタート状態を変更し、再度、プランニング処理を開始することができる。
また、ステップS78において、時刻tが、閾値に等しくないと判定された場合、処理は、ステップS74に戻り、以下、同様の処理が繰り返される。
一方、ステップS77において、目標状態の時刻tの状態確率が、0.0より大であると判定された場合、すなわち、ステップS73で遷移確率aijが大きな値に設定された状態遷移のみによって、スタート状態から目標状態に辿り着くことができた場合、処理は、ステップS79に進み、以下、そのスタート状態から目標状態に辿り着く状態系列が、プランとして求められる。
すなわち、ステップS79において、プランニング部31は、マルチ観測予測モデルの状態S1ないしSNのうちの、目標状態(になっている状態)Sjを、プラン上の、時刻tの状態である選択状態に選択し、処理は、ステップS80に進む。
ステップS80では、プランニング部31は、時刻tが、初期値である1に等しいかどうかを判定する。
ステップS80において、時刻tが、初期値に等しくないと判定された場合、処理は、ステップS81に進み、プランニング部31は、時刻tの選択状態に対応付けて記憶している状態(時刻tの選択状態に遷移する遷移元の状態)Siを、プラン上の、時刻t-1の状態である選択状態に選択し、処理は、ステップS82に進む。
ステップS82では、プランニング部31は、時刻tを1だけデクリメントして、処理は、ステップS80に戻り、以下、同様の処理が繰り返される。
そして、ステップS80において、時刻tが、初期値である1に等しいと判定された場合、すなわち、プランとなる状態系列を構成する選択状態のすべてが得られた場合、処理は、ステップS83に進み、プランニング部31は、選択状態を時系列順に並べ、その時系列順の選択状態の並びである状態系列を、プランとして出力し、プランニング処理は、終了する。
以上のように、プランニング部31において、プランが得られると、セルフエージェント(図1)は、そのプラン上の状態に、順次、状態遷移をして、最終的に、目標状態に辿り着くアクションを行うことができる。
すなわち、プランニング部31が出力するプランは、アクション信号生成部32に供給される。
アクション信号生成部32は、プランニング部31からのプラン上の状態に、順次、状態遷移をして、最終的に、目標状態に辿り着くアクションを行うためのアクション信号を生成し、アクション部14に供給する。
アクション部14は、アクション信号生成部32からのアクション信号に従って、可動部分を駆動し、これにより、セルフエージェントとしての単振り子は、アクション信号に対応するトルクτに従って回転するアクションを行って、プランの最後の状態(目標状態)に対応する状態(回転角θ、及び、角速度ω)となる。
[アクション信号生成]
図19は、アクション信号生成部32が行うアクション信号を生成する処理(アクション信号生成処理)を説明するフローチャートである。
アクション信号生成部32は、例えば、プランニング部31からプランが供給されると、アクション信号生成処理を開始する。
アクション信号生成処理では、ステップS101において、アクション信号生成部32は、プランのスタート状態を、仮にプラン上の状態にいるのであれば、いる可能性が最も高いと推定される推定状態i_pathmaxに選択する。
その後、認識部23が、T個の最新の第1の観測値からなる第1の時系列データを、認識対象データとして認識を行い、現在時刻(最新の時刻)tの現在状態i_max、現在時刻tの第1の観測値o、及び、現在時刻tの各状態の状態確率を出力するのを待って、処理は、ステップS101からステップS102に進み、アクション信号生成部32は、その現在時刻tの現在状態i_max、第1の観測値o、及び、状態確率を受信し、処理は、ステップS103に進む。
ステップS103では、アクション信号生成部32は、プラン上の、前回の推定状態i_pathmaxから、目標状態までの状態のうちの、認識部23からの状態確率が最大の状態を、今回の推定状態i_pathmaxに(仮に)選択して、ステップS104に進む。
ここで、プランニング部31からアクション信号生成部32にプランが供給されてから、初めて、ステップS103の処理が行われる場合、ステップS101で選択されたスタート状態が、前回の推定状態i_pathmaxとなる。
ステップS104では、アクション信号生成部32は、認識部23からの状態確率のうちの、現在状態i_maxの状態確率P(i_max)に対する、今回の推定状態i_pathmaxの状態確率P(i_pathmax)の割合P(i_pathmax)/P(i_max)が、所定の閾値(例えば、0.7等)以下であるかどうかを判定する。
ステップS104において、割合P(i_pathmax)/P(i_max)が、所定の閾値以下であると判定された場合、処理は、ステップS112に進み、アクション信号生成部32は、プランニング部31に、再度のプランニングを要求して、アクション信号生成処理は、終了する。
すなわち、割合P(i_pathmax)/P(i_max)が、所定の閾値以下である場合、現在状態i_maxが、プラン上の状態、及び、プラン上の状態に近い状態のいずれでもないと推定されるため、プランに従った状態遷移(プラン上の状態を辿る状態遷移、及び、プラン上の状態に近い状態を、目標状態に向かっていくような状態遷移の両方を含む)を生じさせるアクションを行うためのアクション信号を生成することが困難であるので、アクション信号生成部32は、プランを、現在状態st(又は、現在状態stに近い状態)から、目標状態に辿り着くプランに変更するために、プランニング部31に、再度のプランニングを要求して、アクション信号生成処理は、終了する。
また、ステップS104において、割合P(i_pathmax)/P(i_max)が、所定の閾値以下でないと判定された場合、処理は、ステップS105に進み、アクション信号生成部32は、今回の推定状態i_pathmaxが、前回の推定状態i_pathmaxに一致するかどうかを判定する。
ステップS105において、今回の推定状態i_pathmaxが、前回の推定状態i_pathmaxに一致しないと判定された場合、処理は、ステップS109に進む。
また、ステップS105において、今回の推定状態i_pathmaxが、前回の推定状態i_pathmaxに一致すると判定された場合、処理は、ステップS106に進み、アクション信号生成部32は、プラン上の、今回の推定状態i_pathmaxの次の状態i_nextになっている状態の今回の状態確率が、前回の状態確率よりも大であるかどうかを判定する。
ステップS106において、次の状態i_nextになっている状態の今回の状態確率が、前回の状態確率よりも大でないと判定された場合、すなわち、プラン上の状態にいるのであれば、いると推定される推定状態i_pathmaxが、アクションが行われる前と、行われた後とで変化していないが、その推定状態i_pathmaxの次の状態i_nextの状態確率が、アクションが行われた後で、アクションが行われる前よりも増加しなかった場合、処理は、ステップS108に進み、アクション信号生成部32は、次の状態i_next(になっている状態)を、今回の推定状態i_pathmaxに選択し直して、処理は、ステップS109に進む。
ここで、プラン上の状態にいるのであれば、いると推定される推定状態i_pathmaxが、アクションが行われる前と、行われた後とで変化していないが、その推定状態i_pathmaxの次の状態i_nextの状態確率が、アクションが行われた後で、アクションが行われる前よりも増加しなかった場合、プランに従った状態遷移が行われていないと推定される。
この場合、アクション信号生成部32は、今回の推定状態i_pathmaxを、とりあえず、次の状態i_nextに設定して、後述するステップS110において、プラン上の、状態i_nextから、その状態i_nextの次の状態に状態遷移を生じさせるアクションを行うためのアクション信号を生成し、そのアクション信号に従ったアクションが行われることで、現在状態が、プラン上の状態に近づくかどうかを試みる。
その結果、現在状態が、プラン上の状態に近づく場合には、処理は続行される。
また、現在状態が、プラン上の状態に近づかない場合には、その後に、割合P(i_pathmax)/P(i_max)が、所定の閾値以下となって、上述したように、ステップS112において、目標状態に辿り着くプランに変更するために、アクション信号生成部32からプランニング部31に、再度のプランニングが要求され、アクション信号生成処理は、終了する。
一方、ステップS106において、次の状態i_nextになっている状態の今回の状態確率が、前回の状態確率よりも大であると判定された場合、すなわち、現在状態が、次の状態i_next(になっている状態)に近づいていっていると推定される場合、処理は、ステップS107に進み、アクション信号生成部32は、今回の推定状態i_pathmaxに選択された状態が、所定の回数(例えば、50回等)だけ連続して推定状態i_pathmaxに選択されたかどうかを判定する。
ステップS107において、今回の推定状態i_pathmaxに選択された状態が、所定の回数だけ連続して推定状態i_pathmaxに選択されたと判定された場合、すなわち、アクションが行われても、現在状態i_maxが、プラン上のある状態や、その状態に近い状態に止まっているか、又は、それらの状態どうしの間での状態遷移が繰り返されていると推定される場合、処理は、ステップS108に進み、アクション信号生成部32は、上述したように、次の状態i_next(になっている状態)を、今回の推定状態i_pathmaxに選択し直して、処理は、ステップS109に進む。
すなわち、アクションが行われても、現在状態i_maxが、プラン上のある状態や、その状態に近い状態に止まっているか、又は、それらの状態どうしの間での状態遷移が繰り返されていると推定される場合には、アクション信号生成部32は、今回の推定状態i_pathmaxを、次の状態i_nextに設定し、これにより、後述するステップS110において、プラン上の、状態i_nextから、その状態i_nextの次の状態に状態遷移を生じさせるアクションを行うためのアクション信号を生成し、そのアクション信号に従ったアクションを行わせることで、現在状態から、目標状態に向かう状態遷移を生じさせる。
ステップS109では、アクション信号生成部32は、今回の推定状態i_pathmaxが、目標状態(プランの最後の状態)に等しいかどうかを判定する。
ステップS109において、今回の推定状態i_pathmaxが、目標状態に等しくないと判定された場合、すなわち、目標状態、又は、目標状態に近い状態に辿り着いていない場合、処理は、ステップS110に進み、アクション信号生成部32は、アクション生成情報記憶部34のアクション生成情報を参照し、今回の推定状態i_pathmaxから、次の状態i_nextへの状態遷移Aijに対応付けられた関数m=Fij(o)であるコントローラに対して、認識部23からの現在時刻tの第1の観測値oを入力として与えることで、次に行うべきアクションとして、プランに従った状態遷移を生じさせるアクションを行うためのアクション信号mを生成し(求め)、アクション部14に供給する。
アクション部14は、アクション信号生成部32からのアクション信号mに従って、可動部分を駆動し、これにより、セルフエージェントとしての単振り子は、アクション信号mに対応するトルクτに従って回転するアクションを行う。
セルフエージェントがアクションを行うと、センサ部11では、そのアクションを行ったセルフエージェントから、最新の第1の観測値としての回転角θが観測され、バッファ21に記憶される。
そして、認識部23が、最新の第1の観測値を含むT個の最新の第1の観測値からなる第1の時系列データを、認識対象データとして認識を行い、最新の現在状態、最新の第1の観測値、及び、最新の各状態の状態確率を出力するのを待って、処理は、ステップS110からステップS102に戻り、以下、同様の処理が繰り返される。
一方、ステップS109において、今回の推定状態i_pathmaxが、目標状態に等しいと判定された場合、すなわち、目標状態、又は、目標状態に近い状態に辿り着いている場合、処理は、ステップS111に進み、アクション信号生成部32は、認識部23からの現在状態i_maxが、目標状態に等しいかどうかを判定する。
ステップS111において、現在状態i_maxが、目標状態に等しくないと判定された場合、すなわち、目標状態に近い状態にはいるが、目標状態にはいない場合、処理は、ステップS112に進み、アクション信号生成部32は、プランを、現在状態i_max(又は、現在状態i_maxに近い状態)から、目標状態に辿り着くプランに変更するために、プランニング部31に、再度のプランニングを要求して、アクション信号生成処理は、終了する。
また、ステップS111において、現在状態i_maxが、目標状態に等しいと判定された場合、すなわち、目標状態に辿り着いた場合、アクション信号生成処理は、終了する。
セルフ学習(図12)、及び、アクション学習(図17)を行ったセルフエージェントは、以上のように、目標状態が与えられれば、現在状態から目標状態に辿り着くプランをプランニングし、そのプランに従ったアクションを行って、目標状態に辿り着くこと(目標状態に相当する姿勢等の状態になること)ができる。
さらに、模倣学習(図14)をも行ったセルフエージェントは、アザーエージェントを観察(観測)して、そのアザーエージェントを模倣するアクションを行うことができる。
[模倣処理]
図20は、セルフエージェントに、アザーエージェントを模倣するアクションを行わせる模倣処理を説明するフローチャートである。
模倣処理では、ステップS121において、認識部23は、センサ部11でセンシング(観測)され、バッファ21に記憶されている、アザーエージェントから観測された画像である第2の観測値の時系列(第2の時系列データ)を、認識対象データとして、図16で説明したように認識を行い、マルチ観測予測モデルにおいて、認識対象データが観測される尤度が最大の状態系列である最尤系列を、セルフエージェントが模倣すべき模倣系列として求める。
そして、認識部23は、模倣系列としての最尤系列を、アクション信号生成部32に供給し、処理は、ステップS121からステップS122に進む。
なお、ステップS121において、認識対象データとなった第2の時系列データが観測された期間にアザーエージェントが行った一連のアクションが、以降の処理によって、セルフエージェントが模倣する一連のアクションとなる。
すなわち、セルフエージェントは、ステップS121において、認識対象データとなった第2の時系列データが観測された期間にアザーエージェントが行った一連のアクションを模倣する。
ここで、セルフエージェントが模倣する、アザーエージェントの一連のアクションを、教師アクションともいう。
ステップS122では、認識部23は、センサ部11でセンシング(観測)され、バッファ21に記憶されている、セルフエージェントから観測された回転角θである第1の観測値の時系列(第1の時系列データ)を、認識対象データとして、図16で説明したように認識を行い、その認識結果として、セルフエージェントの現在の状況(回転角θ及び角速度ω等)に対応する現在状態を求める。
そして、認識部23は、第1の時系列データを認識対象データとして行った認識の認識結果としての現在状態を、アクション信号生成部32に供給して、処理は、ステップS122からステップS123に進む。
ステップS123では、アクション信号生成部32は、認識部23からの、セルフエージェントの現在の状況に対応する現在状態が、模倣系列の最初の状態に一致するかどうかを判定する。
ステップS123において、現在状態が、模倣系列の最初の状態に一致すると判定された場合、処理は、ステップS124及びS125をスキップして、ステップS126に進み、アクション信号生成部32は、認識部23からの模倣系列を、プランとして、図19で説明したように、プランに従ったアクション信号を生成して、模倣処理を終了する。
ここで、現在状態が、模倣系列の最初の状態に一致する場合、セルフエージェントとしての単振り子の回転角θ及び角速度ω等は、アザーエージェントが教師アクションを開始するときと同一になっているので(セルフエージェントは、アザーエージェントが教師アクションを開始するときと同一の状態になっているので)、セルフエージェントに、模倣系列の状態遷移を生じさせるアクションを行わせることで、セルフエージェントは、教師アクションと同様のアクション(教師アクションを模倣したアクション)を行うことになる。
そこで、現在状態が、模倣系列の最初の状態に一致する場合には、アクション信号生成部32は、認識部23からの模倣系列を、そのまま、プランとして用いて、アクション信号を生成する。
一方、ステップS123において、現在状態が、模倣系列の最初の状態に一致しないと判定された場合、アクション信号生成部32は、プランニング部31に、認識部23からの現在状態を、スタート状態とするとともに、模倣系列の最初の状態を目標状態とするプランを求めるプランニングを要求して、処理は、ステップS124に進む。
ステップS124では、プランニング部31は、アクション信号生成部32からの要求に従い、現在状態を、スタート状態とするとともに、模倣系列の最初の状態を目標状態とするプランを、図18で説明したようにして求める。
そして、プランニング部31は、プランを、アクション信号生成部32に供給して、処理は、ステップS124からステップS125に進む。
ステップS125では、アクション信号生成部32は、図19で説明したように、プランニング部31からのプランに従ったアクション信号を生成する。
ここで、現在状態が、模倣系列の最初の状態に一致しない場合、セルフエージェントとしての単振り子の回転角θ及び角速度ω等は、アザーエージェントが教師アクションを開始するときと同一になっていないので、セルフエージェントに、教師アクションと同様のアクションを行わせるには、まず、セルフエージェントとしての単振り子の回転角θ及び角速度ω等を、アザーエージェントが教師アクションを開始するときと同一にする(セルフエージェントを、アザーエージェントが教師アクションを開始するときと同一の状態にする)必要がある。
そこで、現在状態が、模倣系列の最初の状態に一致しない場合には、アクション信号生成部32は、現在状態を、スタート状態とするとともに、模倣系列の最初の状態を目標状態とするプランに従ったアクション信号を生成することで、セルフエージェントを、アザーエージェントが教師アクションを開始するときと同一の状態にする。
その後、処理は、ステップS125からステップS126に進み、アクション信号生成部32は、認識部23からの模倣系列を、プランとして、図19で説明したように、プランに従ったアクション信号を生成して、模倣処理を終了する。
すなわち、ステップS125において、アクション信号生成部32が、現在状態を、スタート状態とするとともに、模倣系列の最初の状態を目標状態とするプランに従ったアクション信号を生成することで、セルフエージェントは、アザーエージェントが教師アクションを開始するときと同一の状態になるので、その後は、アクション信号生成部32において、模倣系列を、プランとして、そのプランに従ったアクション信号を生成することで、セルフエージェントは、教師アクションと同様のアクション(教師アクションを模倣したアクション)を行うことになる。
以上の模倣処理によれば、回転角θを、所望の角度にする回転のアクションを行うことが可能なセルフエージェントとしての単振り子が、アザーエージェントとしての他の単振り子が回転するアクションを、いわば視覚で観察して(見)真似をする、ということを実現することができる。
なお、本実施の形態では、マルチ観測予測モデルとして、HMMを利用した状態遷移予測モデルを採用したが、マルチ観測予測モデルとしては、RNN(Recurrent Neural Network)や、ベイジアンネットワーク、線形状態空間モデルなどを利用した状態遷移予測モデルを採用することができる。
例えば、RNNを利用した状態遷移予測モデルを、マルチ観測予測モデルとして採用する場合、RNNのコンテキスト(context)層(コンテキストが入力されるユニット(ノード)の集まり)が、内部状態に相当する。そして、コンテキストに対する重み(ウエイト)が、遷移モデルに相当し、コンテキスト以外の、各ユニットの出力に対する重みが、観測モデルに相当する。
さらに、例えば、線形状態空間モデル(システム)を利用した状態遷移予測モデルを、マルチ観測予測モデルとして採用する場合は、状態ベクトルx(t)が内部状態に、状態行列A(t)が遷移モデルに、出力ベクトルy(t)が観測値に、出力行列C(t)が観測モデルに、それぞれ相当する。
ここで、線形状態空間モデルは、以下の状態方程式によって表される。
x'(t)=A(t)x(t)+B(t)u(t)
y(t)=C(t)x(t)+D(t)u(t)
なお、上記の状態方程式において、x'(t)は、状態ベクトルx(t)の微分を表し、B(t)及びD(t)は、行列である。u(t)は、入力ベクトルを表し、入力ベクトルu(t)としては、例えば、0(ベクトル)を採用することができる。
また、本実施の形態では、セルフエージェントから観測される第1の観測値として、回転角θを採用するとともに、アザーエージェントから観測される第2の観測値として、アザーエージェントを撮影した画像を採用することとしたが、第1及び第2の観測値は、これに限定されるものではない。
すなわち、模倣学習(図14)によれば、第1及び第2の観測値が、種類の異なる観測値であっても、同様のダイナミクス(メカニズム)を有するのであれば、そのような種類が異なる第1及び第2の観測値の対応をとること(他者の状態と模倣者自身の状態との対応付け)ができるので、第1及び第2の観測値としては、同様のダイナミクスを有する、種類(モーダル)が異なる観測値を採用することができる。
具体的には、例えば、第1の観測値としては、セルフエージェントの関節部分の角度を採用し、第2の観測値としては、アザーエージェントの関節部分の3次元的な位置の情報を採用することができる。
図21は、セルフエージェントとしての人型のエージェント(人の身体的特徴を有するエージェント)と、そのような人型のセルフエージェントから観測される第1の観測値との例を示す図である。
図21では、人型のセルフエージェントから、関節部分の角度が、第1の観測値として観測され、その第1の観測値の時系列が、セルフ学習(図12)等に用いられる。
ここで、図21では、第1の観測値として観測されるセルフエージェントの関節部分の角度を、関節部分を直線で結ぶことによって表している。
図22は、アザーエージェントとしての人型のエージェントと、そのような人型のアザーエージェントから観測される第2の観測値との例を示す図である。
図21の人型のセルフエージェントは、同じく人型のアザーエージェントを観測し、第2の観測値として、図22に示すようなアザーエージェントの関節部分の3次元的な位置の座標を得て、その座標の時系列を、模倣学習(図14)に用いることができる。
ここで、図22では、アザーエージェントの関節部分の位置を、2次元平面上にプロットすることによって表している。
セルフ学習及び模倣学習を終了した人型のセルフエージェントは、図20で説明したようにして、アザーエージェントを模倣するアクションを行うことができる。
ここで、図21の人型のセルフエージェントは、図22の人型のアザーエージェントの他、外部から関節部分を観測することができる状態の人(例えば、関節部分に、発光体を貼付した人等)から、関節部分の位置の座標を、第2の観測値として観測し、模倣学習を行うことができる。この場合、人型のセルフエージェントは、人を観察して、その人と同様のアクションを行うようになる。
なお、第1及び第2の観測値は、種類が同一の観測値であっても良い。
また、本実施の形態では、セルフエージェント、及び、アザーエージェントとして、同一のアクションを行うことができる単振り子を採用したが、セルフエージェント、及び、アザーエージェントは、同一のアクションを行うことができるエージェント、つまり、同一の身体的特徴を有するエージェントでなくても良い。
すなわち、セルフエージェントとしては、例えば、人型のエージェント(人の身体的特徴を有するエージェント)を採用し、アザーエージェントとしては、動物の象の動きをする象型のエージェント(象の身体的特徴を有するエージェント)を採用することができる。
この場合、人型のセルフエージェントに、象型のアザーエージェントが長い鼻を振るアクションを模倣させたときには、現実世界で、人間が、象の真似をする場合が、そうであるように、人型のセルフエージェントは、腕を、象の鼻にみたてて、その象の鼻にみたてた腕を振るアクションを、象型のアザーエージェントを模倣したアクションとして行うことが期待される。
[本発明の情報処理装置を適用したレコーダの一実施の形態]
図23は、本発明の情報処理装置を適用したレコーダの一実施の形態の構成例を示すブロック図である。
図23のレコーダは、例えば、HD(Hard Disk)レコーダ等であり、テレビジョン放送の番組や、インターネット等のネットワークを介して提供されるコンテンツ、ビデオカメラ等で撮影したコンテンツ等の各種のコンテンツを録画(記録)(記憶)することができる。
すなわち、図23において、レコーダは、コンテンツ記憶部111、及び、ハイライトシーン検出装置112を有する。
コンテンツ記憶部111は、例えば、テレビジョン放送の番組等のコンテンツを記憶(記録)する。コンテンツ記憶部111へのコンテンツの記憶が、そのコンテンツの録画となり、その録画がされたコンテンツ(コンテンツ記憶部111に記憶されたコンテンツ)は、例えば、ユーザの操作に応じて再生される。
ハイライトシーン検出装置112は、コンテンツ記憶部111に記憶されたコンテンツから、ユーザの興味があるシーンを、ハイライトシーンとして検出し、そのハイライトシーンを集めたダイジェストを生成する。
ここで、コンテンツ記憶部111に記憶されるコンテンツのデータは、画像、音声、及び、必要なテキスト(字幕)のデータ(ストリーム)を含むこととする。
また、ここでは、コンテンツのデータのうちの、画像のデータだけを、ハイライトシーン検出装置112での処理に用いることとする。
但し、ハイライトシーン検出装置112での処理には、画像のデータの他、音声やテキストのデータをも用いることが可能である。
ハイライトシーン検出装置112は、ハイライト検出器学習部121、検出器記憶部122、及び、ハイライト検出部123から構成される。
ハイライト検出器学習部121は、コンテンツ記憶部111に記憶されたコンテンツを用いて、ユーザの興味があるシーンを、ハイライトシーンとして検出するための学習モデルであるハイライト検出器の学習を行う。
ハイライト検出器学習部121は、学習後のハイライト検出器を、検出器記憶部122に供給する。
ここで、ハイライト検出器となる学習モデルとしては、状態遷移予測モデルの1つである、例えば、HMMを用いることができる。
検出器記憶部122は、ハイライト検出器学習部121からのハイライト検出器を記憶する。
ハイライト検出部123は、検出器記憶部122に記憶されたハイライト検出器を用い、コンテンツ記憶部111に記憶されたコンテンツから、ハイライトシーンのフレームを検出する。さらに、ハイライト検出部123は、ハイライトシーンのフレームを用いて、コンテンツ記憶部111に記憶されたコンテンツのダイジェストであるダイジェストコンテンツを生成する。
[ハイライト検出器学習部121の構成例]
図24は、図23のハイライト検出器学習部121の構成例を示すブロック図である。
図24において、ハイライト検出器学習部121は、コンテンツ選択部131、特徴量抽出部132、ラベル化部133、ハイライトラベル生成部134、学習用ラベル生成部135、及び、学習部136から構成される。
コンテンツ選択部131は、例えば、ユーザの操作等に応じて、コンテンツ記憶部111に記憶されたコンテンツの中から、ハイライト検出器の学習に用いるコンテンツを、注目検出器学習用コンテンツ(以下、単に、注目コンテンツともいう)に選択する。
すなわち、コンテンツ選択部131は、例えば、コンテンツ記憶部111に記憶されたコンテンツである、例えば、録画済みの番組の中から、ユーザが、再生の対象として指定したコンテンツ(番組)を、注目コンテンツに選択し、特徴量抽出部132に供給する。
特徴量抽出部132は、コンテンツ選択部131から供給される注目コンテンツの各フレームの画像の特徴量を、各フレームの特徴量として抽出し、注目コンテンツの各フレームの特徴量(の時系列)を、ラベル化部133に供給する。
ここで、フレームの特徴量としての、画像の特徴量としては、例えば、フレームの画像を、複数の小領域であるサブ領域に分割し、各サブ領域からGIST等のサブ領域の特徴量を求め、そのサブ領域の特徴量をコンポーネントとするベクトルを採用することができる。
なお、GISTについては、例えば、A. Torralba, K. Murphy, W. Freeman, M. Rubin, "Context-based vision system for place and object recognition", IEEE Int. Conf. Computer Vision, vol. 1, no. 1, pp. 273-280, 2003.に、詳細が記載されている。
ラベル化部133は、特徴量抽出部132からの注目コンテンツのフレームの特徴量としてのベクトルを、スカラ値(1次元の値)であるラベルにラベル化し、そのラベルを、ラベル化後の特徴量として、学習用ラベル生成部135に供給する。
ここで、ベクトルである特徴量をラベル化する方法としては、ベクトル量子化がある。ベクトル量子化は、例えば、コンテンツ記憶部111に記憶されたコンテンツから、各フレームの特徴量を抽出し、その特徴量を用いて、k-means法により、コードブックを求めておき、そのコードブックを用いて行うことができる。
ここで、ラベル化部133において得られる、フレームの特徴量のラベルを、特徴ラベルともいう。
ここでは、特徴ラベルは、コードブックに登録されている代表ベクトル(セントロイドベクトル)を表すコードである。
ハイライトラベル生成部134は、ユーザの操作に従い、ハイライトシーンであるか否かを表すハイライトラベルを、コンテンツ選択部131で選択された注目コンテンツの各フレームにラベリングすることにより、注目コンテンツについて、ハイライトラベル系列を生成する。
すなわち、コンテンツ選択部131が選択する注目コンテンツは、上述したように、ユーザが、再生の対象として指定したコンテンツであり、注目コンテンツの画像は、図示せぬディスプレイに表示される(とともに、音声は、図示せぬスピーカから出力される)。
ユーザは、ディスプレイに、興味があるシーンが表示されたときに、図示せぬリモートコマンダ等を操作して、興味があるシーンである旨を入力することができ、ハイライトラベル生成部134は、そのようなユーザの操作に従って、ハイライトラベルを生成する。
具体的には、例えば、興味があるシーンである旨を入力するときの、ユーザの操作を、お気に入り操作ということとすると、ハイライトラベル生成部134は、お気に入り操作がされなかったフレームに対しては、ハイライトシーンでないことを表す、例えば、値が"0"のハイライトラベルを生成する。
また、ハイライトラベル生成部134は、お気に入り操作がされたフレームに対しては、ハイライトシーンであることを表す、例えば、値が"1"のハイライトラベルを生成する。
そして、ハイライトラベル生成部134は、注目コンテンツについて生成したハイライトラベルの時系列であるハイライトラベル系列を、学習用ラベル生成部135に供給する。
学習用ラベル生成部135は、ラベル化部133からの注目コンテンツの特徴ラベルの系列(特徴ラベル系列)と、ハイライトラベル生成部134からのハイライトラベル系列とのペアである学習用ラベル系列を生成する。
すなわち、学習用ラベル生成部135は、ラベル化部133からの特徴ラベル系列と、ハイライトラベル生成部134からのハイライトラベル系列とにおける、各時刻tの特徴ラベル(フレームtの特徴量をラベル化することにより得られる特徴ラベル)と、ハイライトラベル(フレームtに対するハイライトラベル)とをペアにした(時刻tのサンプルとした)、マルチストリームの学習用ラベル系列を生成する。
そして、学習用ラベル生成部135は、学習用ラベル系列を、学習部136に供給する。
学習部136は、学習用ラベル生成部135からの学習用ラベル系列を用いて、例えば、エルゴディック型の、マルチストリームHMMであるハイライト検出器の学習を、Baum-Welchの再推定法に従って行う。
そして、学習部136は、学習後のハイライト検出器を、検出器記憶部122に供給して記憶させる。
なお、マルチストリームHMMでは、マルチストリームを構成する個々の系列(ストリーム)(以下、構成要素系列ともいう)に対して、その構成要素系列をマルチストリームHMMに影響させる度合いである重み(以下、系列重みともいう)を設定することができる。
マルチストリームHMMの学習時や、マルチストリームHMMを用いた認識時(最尤系列を求めるとき)に重要視する構成要素系列に対して、大きな系列重みを設定することで、マルチストリームHMMの学習結果が局所解に陥らないように事前知識を与えることができる。
なお、マルチストリームHMMの詳細は、例えば、田村 哲嗣, 岩野 公司, 古井 貞煕,「オプティカルフローを用いたマルチモーダル音声認識の検討」、日本音響学会 2001年秋季講演論文集, 1-1-14, pp.27-28 (2001-10)等に記載されている。
上述の文献では、audio-visual speech recognition の分野での、マルチストリームHMMの使用例が紹介されている。すなわち、音声のSN比(Signal to Noise ratio)が低いときは、音声の特徴量の系列の系列重みを低くし、音声よりも画像の影響がより大きくなるようにして、学習と認識を行うことが記載されている。
マルチストリームHMMが、マルチストリームでない単一の系列を用いるHMMと異なる点は、式(11)に示すように、マルチストリームを構成する各構成要素系列(のサンプル(観測値))o[m]の観測尤度(出力確率分布)b[m]j(o[m])に、事前に設定した系列重みWmを考慮して、マルチストリーム全体の観測尤度bj(o[1],o[2],・・・,o[M])を計算する点である。
Figure 0005633734
・・・(11)
ここで、式(11)において、Mは、マルチストリームを構成する構成要素系列o[m]の数(ストリーム数)を表し、系列重みWmは、マルチストリームを構成するM個の構成要素系列のうちのm番目の構成要素系列o[m]の系列重みを表す。
図24の学習部136で学習に用いられるマルチストリームである学習用ラベル系列は、特徴ラベル系列o[V](=o[1])とハイライトラベル系列o[HL](=o[2])との2つの構成要素系列で構成される。
この場合、学習用ラベル系列の観測尤度bj(o[V],o[HL])は、式(12)で表される。
Figure 0005633734
・・・(12)
ここで、式(12)において、b[V]j(o[V])は、特徴ラベル系列(の特徴ラベル)o[V]の観測尤度(状態sjにおいて、観測値o[v]が観測される観測尤度)を表し、b[HL]j(o[HL])は、ハイライトラベル系列(のハイライトラベル)o[HL]の観測尤度を表す。また、Wは、特徴ラベル系列o[V]の系列重みを表し、1-Wは、ハイライトラベル系列o[HL]の系列重みを表す。
なお、ハイライト検出器としてのマルチストリームHMMの学習では、系列重みWとしては、例えば、0.5を採用することができる。
以上のように構成されるハイライト検出器学習部121では、コンテンツ選択部131は、コンテンツ記憶部111に記憶されたコンテンツの中から、例えば、ユーザの操作によって再生が指定されたコンテンツを、注目コンテンツ(注目検出器学習用コンテンツ)に選択し、特徴量抽出部132に供給する。
特徴量抽出部132は、コンテンツ選択部131からの注目コンテンツの各フレームの特徴量を抽出し、ラベル化部133に供給する。
ラベル化部133は、特徴量抽出部132からの注目コンテンツの特徴量をラベル化し、そのラベル化後の特徴量である特徴ラベルの系列(特徴ラベル系列)を、学習用ラベル生成部135に供給する。
一方、ハイライトラベル生成部134は、ユーザの操作に従い、ハイライトラベルを、コンテンツ選択部131で選択された注目コンテンツの各フレームにラベリングすることにより、注目コンテンツについて、ハイライトラベル系列を生成する。
そして、ハイライトラベル生成部134は、注目コンテンツについて生成したハイライトラベル系列を、学習用ラベル生成部135に供給する。
学習用ラベル生成部135は、ラベル化部133からの、注目コンテンツの特徴ラベル系列と、ハイライトラベル生成部134からのハイライトラベル系列とのマルチストリームである学習用ラベル系列を生成し、学習部136に供給する。
学習部136は、学習用ラベル生成部135からの学習用ラベル系列を用いて、マルチストリームHMMであるハイライト検出器の学習を行い、学習後のハイライト検出器を、検出器記憶部122に供給して記憶させる。
以上のように、ハイライト検出器は、注目コンテンツの特徴量をラベル化することにより得られる特徴ラベル系列と、ユーザの操作に応じて生成されるハイライトラベル系列とのマルチストリームである学習用ラベル系列を用いて、マルチストリームHMMの学習を行うことにより得られる。
したがって、ハイライト検出器の各状態の、ハイライトラベルo[HL]の観測尤度b[HL]j(o[HL])を参照することにより、その状態で観測される(確率が高い)特徴ラベルのフレームが、ユーザの興味があるシーン(ハイライトシーン)であるかどうかを判定することができる。
[ハイライト検出部123の構成例]
図25は、図23のハイライト検出部123の構成例を示すブロック図である。
図25において、ハイライト検出部123は、コンテンツ選択部141、特徴量抽出部142、ラベル化部143、検出用ラベル生成部144、最尤状態系列推定部145、ハイライトシーン検出部146、ダイジェストコンテンツ生成部147、及び、再生制御部148から構成される。
コンテンツ選択部141は、例えば、ユーザの操作等に応じて、コンテンツ記憶部111に記憶されたコンテンツの中から、ハイライトシーンを検出する対象のコンテンツである注目ハイライト検出用コンテンツ(以下、単に、注目コンテンツともいう)を選択し、特徴量抽出部142、及び、ダイジェストコンテンツ生成部147に供給する。
ここで、コンテンツ選択部141は、例えば、ダイジェストを生成するコンテンツとして、ユーザが指定したコンテンツを、注目コンテンツに選択する。あるいは、コンテンツ選択部141は、例えば、まだ、ダイジェストを生成していないコンテンツのうちの任意の1つのコンテンツを、注目コンテンツに選択する。
特徴量抽出部142は、コンテンツ選択部141から供給される注目コンテンツの各フレームの特徴量を、図24の特徴量抽出部132と同様にして抽出し、ラベル化部143に供給する。
ラベル化部143は、図24のラベル化部133と同様にして、特徴量抽出部142からの注目コンテンツの特徴量(の時系列)をラベル化し、ラベル化後の特徴量の系列である特徴ラベル系列を、検出用ラベル生成部144に供給する。
検出用ラベル生成部144は、ラベル化部143からの、注目コンテンツの(特徴量)の特徴ラベル系列と、ハイライトシーンでないこと(、又はハイライトシーンであること)を表すハイライトラベルのみのハイライトラベル系列とのペアである検出用ラベル系列を生成する。
すなわち、検出用ラベル生成部144は、ハイライトシーンでないことを表すハイライトラベルのみのハイライトラベル系列であって、ラベル化部143からの特徴ラベル系列と同一の長さ(系列長)のハイライトラベル系列を、ハイライト検出器に与える、いわばダミーの系列として生成する。
さらに、検出用ラベル生成部144は、ラベル化部143からの特徴ラベル系列における、時刻tの特徴ラベル(フレームtの特徴量の特徴ラベル)と、ダミーの系列であるハイライトラベル系列における、時刻tのハイライトラベル(フレームtに対するハイライトラベル(ここでは、ハイライトシーンでないことを表すハイライトラベル))とをペアにした、マルチストリームの検出用ラベル系列を生成する。
そして、検出用ラベル生成部144は、検出用ラベル系列を、最尤状態系列推定部145に供給する。
最尤状態系列推定部145は、例えば、Viterbiアルゴリズムに従い、検出器記憶部122に記憶された(学習後の)マルチストリームHMMであるハイライト検出器において、検出用ラベル生成部144からの検出用ラベル系列が観測される尤度が最も高い状態遷移が生じる状態系列である最尤系列(最尤状態系列)(以下、ハイライト関係状態系列ともいう)を推定し、ハイライトシーン検出部146に供給する。
なお、検出用ラベル系列は、注目コンテンツの特徴ラベル系列o[V]と、ダミーの系列であるハイライトラベル系列o[HL]とを、構成要素系列とするマルチストリームであり、ハイライト関係状態系列の推定にあたり、検出用ラベル系列の観測尤度bj(o[V],o[HL])は、学習用ラベル系列の場合と同様に、式(12)に従って求められる。
但し、検出用ラベル系列の観測尤度bj(o[V],o[HL])を求める際の、特徴ラベル系列o[V]の系列重みWとしては、1.0を用いる。この場合、ハイライトラベル系列o[HL]の系列重み1-Wは、0.0となる。これにより、最尤状態系列推定部145では、ダミーの系列として入力されたハイライトラベル系列を考慮せずに、注目コンテンツの特徴ラベル系列のみを考慮して、ハイライト関係状態系列の推定が行われる。
ハイライトシーン検出部146は、最尤状態系列推定部145からの、検出用ラベル系列から得られる最尤系列(ハイライト関係状態系列)の各状態のハイライトラベルo[HL]の観測尤度b[HL]j(o[HL])を、検出器記憶部122に記憶されたハイライト検出器(ハイライト関係状態系列を求めるのに用いられたハイライト検出器)を参照することにより認識する。
さらに、ハイライトシーン検出部146は、ハイライトラベルo[HL]の観測尤度b[HL]j(o[HL])に基づいて、注目コンテンツから、ハイライトシーンのフレームを検出する。
すなわち、ハイライトシーン検出部146は、ハイライト関係状態系列の時刻tの状態sjにおける、ハイライトシーンであることを表すハイライトラベルの観測尤度b[HL]j(o[HL]="1")と、ハイライトシーンでないことを表すハイライトラベルの観測尤度b[HL]j(o[HL]="0")との差分b[HL]j(o[HL]="1")−b[HL]j(o[HL]="0")が、所定の閾値THb(例えば、THb=0等)より大である場合、時刻tの状態sjに対応する、注目コンテンツのフレームtを、ハイライトシーンのフレームとして検出する。
そして、ハイライトシーン検出部146は、注目コンテンツの、ハイライトシーンのフレームについては、フレームがハイライトシーンのフレームであるかどうかを表す1ビットのハイライトフラグに、ハイライトシーンである旨を表す値である、例えば、"1"をセットする。また、ハイライトシーン検出部146は、注目コンテンツの、ハイライトシーンでないシーンのフレームについては、ハイライトフラグに、ハイライトシーンでない旨を表す値である、例えば、"0"をセットする。
そして、ハイライトシーン検出部146は、注目コンテンツの各フレームのハイライトフラグ(の時系列)を、ダイジェストコンテンツ生成部147に供給する。
ダイジェストコンテンツ生成部147は、コンテンツ選択部141からの注目コンテンツのフレームから、ハイライトシーン検出部146からのハイライトフラグによって特定されるハイライトシーンのフレームを抽出する。
さらに、ダイジェストコンテンツ生成部147は、注目コンテンツのフレームから抽出したハイライトシーンのフレームを、例えば、時系列に並べること等によって、注目コンテンツのダイジェストであるダイジェストコンテンツを生成し、再生制御部148に供給する。
再生制御部148は、ダイジェストコンテンツ生成部147からのダイジェストコンテンツを再生する再生制御を行う。
以上のように構成されるハイライト検出部123では、コンテンツ選択部141は、コンテンツ記憶部111に記憶されたコンテンツの中から、ハイライトシーンを検出する対象のコンテンツである注目コンテンツ(注目ハイライト検出用コンテンツ)を選択し、特徴量抽出部142、及び、ダイジェストコンテンツ生成部147に供給する。
特徴量抽出部142は、コンテンツ選択部141から供給される注目コンテンツの各フレームの特徴量を抽出し、ラベル化部143に供給する。
ラベル化部143は、特徴量抽出部142からの注目コンテンツの特徴量(の時系列)をラベル化し、その結果得られる特徴ラベル系列を、検出用ラベル生成部144に供給する。
検出用ラベル生成部144は、ダミーのハイライトラベル系列として、例えば、ハイライトシーンでないことを表すハイライトラベル(値が"0"のハイライトラベル)のみのハイライトラベル系列を生成する。さらに、検出用ラベル生成部144は、ラベル化部143からの、注目コンテンツの特徴ラベル系列と、ダミーのハイライトラベル系列とのペアである検出用ラベル系列を生成し、最尤状態系列推定部145に供給する。
最尤状態系列推定部145は、検出器記憶部122に記憶されたハイライト検出器において、検出用ラベル生成部144からの検出用ラベル系列が観測される尤度が最も高い状態遷移が生じる最尤系列であるハイライト関係状態系列を推定し、ハイライトシーン検出部146に供給する。
ハイライトシーン検出部146は、検出器記憶部122に記憶されたハイライト検出器としてのマルチストリームHMMの状態のうちの、最尤状態系列推定部145からのハイライト関係状態系列を構成する状態のハイライトラベルの観測尤度に基づいて、上述したように、注目コンテンツから、ハイライトシーンのフレームを検出し、そのフレームを特定するハイライトフラグを、ダイジェストコンテンツ生成部147に供給する。
ダイジェストコンテンツ生成部147は、コンテンツ選択部141からの注目コンテンツのフレームから、ハイライトシーン検出部146が出力するハイライトフラグによって特定されるハイライトシーンのフレームを抽出する。
さらに、ダイジェストコンテンツ生成部147は、注目コンテンツのフレームから抽出したハイライトシーンのフレームを用いて、注目コンテンツのダイジェストコンテンツを生成し、再生制御部148に供給する。
再生制御部148は、ダイジェストコンテンツ生成部147からのダイジェストコンテンツが再生される。
以上のように、ハイライト検出部123(図25)は、ハイライト検出器において、注目コンテンツの特徴ラベル系列と、ダミーのハイライトラベル系列とのペアである検出用ラベル系列が観測される場合の最尤系列であるハイライト関係状態系列を推定し、そのハイライト関係状態系列の各状態のハイライトラベルの観測尤度に基づいて、注目コンテンツから、ハイライトシーンのフレームを検出して、そのハイライトシーンのフレームを用いて、ダイジェストコンテンツを生成する。
また、ハイライト検出器は、コンテンツの特徴量をラベル化することにより得られる特徴ラベル系列と、ユーザの操作に応じて生成されるハイライトラベル系列とのペアである学習用ラベル系列を用いて、マルチストリームHMMであるハイライト検出器の学習を行うことにより得られる。
したがって、ダイジェストコンテンツを生成する注目コンテンツが、ハイライト検出器の学習に用いられていない場合であっても、注目コンテンツと同様の構造のコンテンツを用いて、ハイライト検出器の学習が行われていれば、そのハイライト検出器を用いて、ユーザの興味があるシーンを、ハイライトシーンとして集めたダイジェスト(ダイジェストコンテンツ)を、容易に得ることができる。
図26は、図24のハイライト検出器学習部121によるハイライト検出器の学習を説明する図である。
ハイライト検出器の学習によれば、その学習に用いられる学習用ラベル系列が、コンテンツから抽出された特徴量の特徴ラベル系列を含むので、ハイライト検出器において、そのハイライト検出器の学習に用いられたコンテンツである学習用コンテンツに潜む、コンテンツの構造(例えば、番組構成や、カメラワーク等が作り出す構造)が自己組織的に獲得される。
ここで、学習用コンテンツが、例えば、ある日の相撲の中継番組である場合には、大雑把には、対戦表が表示されるシーン、仕切り動作のシーン、制限時間一杯のシーン、取り組みのシーン、勝敗が決したときのシーン、取り組みのスロー再生のシーン、・・・という流れを、番組の基本的な流れとして、この基本的な流れの繰り返しによって、相撲の中継番組が進行していく。
上述の番組の基本的な流れが、コンテンツの構造である。
そして、番組の基本的な流れ(構造)を構成する、対戦表が表示されるシーン、仕切り動作のシーン、制限時間一杯のシーン、取り組みのシーン、勝敗が決したときのシーン、取り組みのスロー再生のシーン、・・・のそれぞれが、コンテンツの構造の要素ということができる。
さらに、例えば、対戦表が表示されるシーン等から、仕切り動作のシーン等への進行が、コンテンツの構造の要素どうしの間での、時間的な遷移ということができる。
ハイライト検出器の学習によれば、ハイライト検出器としてのマルチストリームHMMの各状態は、学習用コンテンツの構造の要素を表現し、状態遷移は、学習用コンテンツの構造の要素どうしの間での、時間的な遷移を表現することとなる。
すなわち、ハイライト検出器としてのマルチストリームHMMにおいて、そのマルチストリームHMMの状態は、特徴量空間(特徴量抽出部132(図24)で抽出される特徴量の空間)において、空間的な距離が近く、かつ、時間的な前後関係が似ているフレーム群、つまり「似たシーン」をまとめて表現する。
さらに、ハイライト検出器の学習によれば、その学習に用いられる学習用ラベル系列が、ユーザによるお気に入り操作に従ったハイライトラベル系列を含むので、ハイライト検出器の状態において、その状態が表現する「似たシーン」に対するユーザの興味の程度、つまり、ユーザにとってハイライトシーンである程度が、ハイライトラベルの観測尤度という形で獲得される。
その結果、ダイジェストコンテンツを生成する注目コンテンツが、ハイライト検出器の学習に用いられていない場合(学習用コンテンツでない場合)であっても、注目コンテンツと同様の構造のコンテンツを用いて、ハイライト検出器の学習が行われていれば、そのハイライト検出器を用いて、ユーザの興味があるシーンを、ハイライトシーンとして集めたダイジェスト(ダイジェストコンテンツ)を、容易に得ることができる。
ここで、同様の構造のコンテンツとしては、例えば、同一のカテゴリに属するコンテンツがある。
同一のカテゴリに属するコンテンツとは、例えば、ジャンルが同一の番組や、連続番組、毎週又は毎日その他周期的に放送される番組(タイトルが同一の番組)等を意味する。
ジャンルとしては、例えば、スポーツ番組やニュース番組等といった、いわば大まかな分類を採用することもできるが、例えば、サッカーの試合の番組や野球の試合の番組等といった、いわば細かい分類であることが望ましい。
また、例えば、サッカーの試合の番組であれば、チャンネル(放送局)が異なるごとに、異なるカテゴリに属するコンテンツに分類することができる。
なお、上述の場合には、ハイライト検出器学習部121でのハイライト検出器の学習、及び、ハイライト検出部123での最尤系列(ハイライト関係状態系列)の推定に、コンテンツのフレームの画像の特徴量をラベル化した特徴ラベル(ラベル化後の特徴量)を用いたが、ハイライト検出器の学習、及び、ハイライト関係状態系列の推定には、コンテンツのフレームの画像の特徴量(ラベル化していないベクトルそのもの)を用いることが可能である。
また、上述の場合には、フレームの特徴量として、フレームの画像の特徴量のみを採用し、その特徴量(をラベル化した特徴ラベル)の系列と、ハイライトラベル系列との2つの系列を構成要素系列とするマルチストリームを、ハイライト検出器の学習、及び、ハイライト関係状態系列の推定に用いたが、フレームの特徴量としては、そのフレームの画像の特徴量の他、そのフレームを含む所定の期間の音声の特徴量(例えば、MFCC(Mel Frequency Cepstral Coefficient)等)をも採用することができる。
この場合、ハイライト検出器の学習、及び、ハイライト関係状態系列の推定には、フレームの特徴量としての画像の特徴量、及び、音声の特徴量の系列、並びに、ハイライトラベル系列の3つの系列を構成要素系列とするマルチストリームが用いられる。
さらに、上述の場合には、ハイライト検出器として、マルチストリームHMMそのものを用いることとしたが、ハイライト検出器としては、その他、例えば、マルチ観測予測モデルとしての、マルチストリームHMMを利用した状態遷移予測モデルを採用することができる。
ここで、マルチ観測予測モデルとしての、マルチストリームHMMを利用した状態遷移予測モデルは、マルチストリーム(全体)の観測尤度が、式(11)や式(12)に示したように、マルチストリームを構成する各構成要素系列の観測尤度を用いて求められることを除き、上述した、マルチ観測予測モデルとしての、(マルチストリームでない)HMMを利用した状態遷移予測モデルと同様に構成される。
図27は、ハイライト検出器として、マルチ観測予測モデルを採用する場合の、ハイライト検出器の学習、及び、ハイライト関係系列の推定を説明する図である。
ハイライトシーン検出装置112(図23)では、ハイライト検出器学習部121が、例えば、ある日の相撲の中継番組(以下、第1の番組ともいう)を、学習用コンテンツとして用いて、ハイライト検出器としてのマルチ観測予測モデルの学習を行う。
すなわち、ハイライト検出器学習部121は、学習用コンテンツとしての第1の番組から抽出されるフレームの特徴量(の特徴量ラベル)の系列と、ユーザのお気に入り操作に従って生成されるハイライトラベル系列とからなるマルチストリーム(以下、第1の番組のマルチストリームともいう)を、第1の時系列データとして用いて、ハイライト検出器としてのマルチ観測予測モデルの学習を行う。
第1の時系列データを用いた学習により、ハイライト検出器としてのマルチ観測予測モデルの初期状態確率、遷移確率、及び、第1の時系列データ(のサンプルである第1の観測値)の観測尤度である第1の観測尤度(観測モデル#1(図6))が求められる。
そして、例えば、別の日の相撲の中継番組(以下、第2の番組ともいう)を、ダイジェストコンテンツを生成する対象の対象コンテンツとして、ダイジェストコンテンツを生成する場合には、ハイライトシーン検出装置112において、ハイライト検出部123(図25)が、対象コンテンツとしての第2の番組から抽出されるフレームの特徴量(の特徴ラベル)の系列と、ダミーのハイライトラベル系列とからなるマルチストリーム(以下、第2の番組のマルチストリームともいう)を、第1の時系列データとして用いて、ハイライト検出器としてのマルチ観測予測モデルにおいて、第1の時系列データが観測される尤度(最尤系列の最後の状態の状態確率)と、最尤系列であるハイライト関係状態系列とを、初期状態確率、遷移確率、及び、第1の観測尤度に基づいて求める。
第1の時系列データとして用いられた第2の番組のマルチストリームが観測される尤度が、所定の閾値以上である場合、ハイライト検出部123は、ハイライト検出器としてのマルチ観測予測モデルにおいて、第1の時系列データとして用いられた第2の番組のマルチストリームが観測される最尤系列であるハイライト関係状態系列の各状態の第1の観測尤度におけるハイライトラベルの観測尤度(第1の観測尤度を求めるのに用いられるハイライトラベルの観測尤度)に基づき、図25で説明したようにして、対象コンテンツである第2の番組から、ハイライトシーンのフレームを検出して、そのハイライトシーンのフレームを用いて、ダイジェストコンテンツを生成する。
一方、第1の時系列データとして用いられた第2の番組のマルチストリームが観測される尤度が、所定の閾値以上でない場合、ハイライトシーン検出装置112では、ハイライト検出器学習部121が、第2の番組のマルチストリームを、第2の時系列データとして用いて、ハイライト検出器としてのマルチ観測予測モデルの学習を行う。
ここで、いまの場合、第1の番組と第2の番組とは、相撲という同一のジャンルに属するコンテンツであり、コンテンツの構造、つまり、コンテンツに含まれるシーン、及び、シーンの時間的な遷移(進行)は、第1の番組と第2の番組とで一致する。
しかしながら、コンテンツの構造が一致する第1の番組と第2の番組であっても、フレームに映る画像は、同一ではないため、第1の番組と第2の番組との、例えば、取り組みのシーンを構成するフレーム等の同一のシーンのフレームについて、確率分布が大きく異なる特徴量が抽出されることがある。
すなわち、ハイライト検出器としてのマルチ観測予測モデルのある状態の第1の観測尤度が、例えば、第1の番組の取り組みのシーンを構成するフレームの特徴量は観測されやすいが、第2の番組の取り組みのシーンを構成するフレームの特徴量は観測されにくいような確率分布になっていることがある。
この場合、ハイライト検出器としてのマルチ観測予測モデルにおいて、第1の時系列データとして用いられた第2の番組のマルチストリームが観測される尤度が低くなる。
そこで、ハイライト検出器としてのマルチ観測予測モデルにおいて、第1の時系列データとして用いられた第2の番組のマルチストリームが観測される尤度が、所定の閾値以上でない場合、ハイライトシーン検出装置112では、ハイライト検出器学習部121が、第2の番組のマルチストリームを、第1の時系列データではなく、第2の時系列データとして用いて、ハイライト検出器としてのマルチ観測予測モデルの学習を行う。
第2の番組のマルチストリームを、第2の時系列データとして用いた、ハイライト検出器としてのマルチ観測予測モデルの学習では、ハイライト検出器学習部121は、第2の時系列データとしての第2の番組のマルチストリームを用いて、第1の時系列データとしての第1の番組のマルチストリームを用いた学習後のハイライト検出器としてのマルチ観測予測モデルの初期状態確率、及び、遷移確率を固定にして、第2の時系列データ(のサンプルである第2の観測値)の観測尤度である第2の観測尤度(観測モデル#2(図6))を求める。
なお、第2の番組のマルチストリームを、第2の時系列データとして用いた、ハイライト検出器としてのマルチ観測予測モデルの学習において、第2の番組のマルチストリームを構成するダミーのハイライトラベル系列の系列重み1-W(式(12))は、0に設定される。
また、第2の番組のマルチストリームを、第2の時系列データとして用いた、ハイライト検出器としてのマルチ観測予測モデルの学習において、ハイライトラベル系列の観測尤度としては、第1の番組のマルチストリームを、第1の時系列データとして用いた、ハイライト検出器としてのマルチ観測予測モデルの学習で得られた第1の観測尤度におけるハイライトラベル系列の観測尤度が採用される。
したがって、第2の番組のマルチストリームを、第2の時系列データとして用いた、ハイライト検出器としてのマルチ観測予測モデルの学習が行われた後の、第2の観測尤度におけるハイライトラベル系列の観測尤度は、第1の観測尤度におけるハイライトラベル系列の観測尤度に一致する。
第2の番組のマルチストリームを、第2の時系列データとして用いた、ハイライト検出器としてのマルチ観測予測モデルの学習が終了すると、ハイライトシーン検出装置112において、ハイライト検出部123(図25)は、第2の番組のマルチストリームを、第2の時系列データとして用いて、ハイライト検出器としてのマルチ観測予測モデルにおいて、第2の時系列データが観測される最尤系列であるハイライト関係状態系列を、初期状態確率、遷移確率、及び、第2の観測尤度に基づいて求める。
さらに、ハイライト検出部123は、ハイライト検出器としてのマルチ観測予測モデルにおいて、第2の時系列データとして用いられた第2の番組のマルチストリームが観測される最尤系列であるハイライト関係状態系列の各状態の第1の観測尤度(又は、第2の観測尤度)におけるハイライトラベル系列の観測尤度に基づき、図25で説明したようにして、第2の番組から、ハイライトシーンのフレームを検出して、そのハイライトシーンのフレームを用いて、ダイジェストコンテンツを生成する。
ハイライトシーン検出装置112(図23)では、ハイライト検出器としてのマルチ観測予測モデルにおいて、第1の時系列データとして用いられた第2の番組のマルチストリームが観測される尤度が、所定の閾値以上でない場合には、第2の番組のマルチストリームを、第2の時系列データとして用い、初期状態確率、及び、遷移確率を固定にして、第2の時系列データの第2の観測尤度を求め、その第2の観測尤度を用いて、第2の番組のマルチストリームが観測される最尤系列であるハイライト関係状態系列を求め、そのハイライト関係状態系列に基づき、第2の番組から、ハイライトシーンのフレームを検出するので、ユーザが、第1の番組についてお気に入り操作を行ったフレームのシーンと同一のシーンのフレームを、第2の番組から、ハイライトシーンのフレームとして、精度良く検出することができる。
以上のように、マルチ観測予測モデルにおいて観測される第1及び第2の観測値(時系列データ)は、画像の特徴量(画像から抽出される特徴量)等の、種類が同一の観測値であっても良い。
なお、マルチ観測予測モデルとして、マルチストリームHMMを利用した状態遷移予測モデルを採用する場合には、同様のコンテンツの構造を有する、例えば、野球中継のテレビ番組(テレビジョン放送番組)と、ラジオ番組との対応関係を獲得することが可能となる。
すなわち、例えば、野球中継のあるテレビジョン番組から画像及び音声の特徴量を抽出し、その画像及び音声の特徴量の系列のマルチストリームを、第1の時系列データとして用いて、マルチ観測予測モデルの学習を行うことにより、初期状態確率、遷移確率、及び、第1の観測尤度を求めるとともに、野球中継のあるラジオ番組から音声の特徴量を抽出し、その音声の特徴量の系列を、第2の時系列データとして用い、初期状態確率、及び、遷移確率を固定にして、マルチ観測予測モデルの学習を行うことにより、第2の観測尤度を求めることで、マルチ観測予測モデルの各状態の第1及び第2の観測尤度から、その状態において観測されやすいテレビ番組の画像及び音声(の特徴量)と、ラジオ番組の音声(の特徴量)とが対応しているという対応関係を獲得することができる。
[本発明を適用したコンピュータの説明]
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
そこで、図28は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク205やROM203に予め記録しておくことができる。
あるいはまた、プログラムは、リムーバブル記録媒体211に格納(記録)しておくことができる。このようなリムーバブル記録媒体211は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体211としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
なお、プログラムは、上述したようなリムーバブル記録媒体211からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク205にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
コンピュータは、CPU(Central Processing Unit)202を内蔵しており、CPU202には、バス201を介して、入出力インタフェース210が接続されている。
CPU202は、入出力インタフェース210を介して、ユーザによって、入力部207が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)203に格納されているプログラムを実行する。あるいは、CPU202は、ハードディスク205に格納されたプログラムを、RAM(Random Access Memory)204にロードして実行する。
これにより、CPU202は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU202は、その処理結果を、必要に応じて、例えば、入出力インタフェース210を介して、出力部206から出力、あるいは、通信部208から送信、さらには、ハードディスク205に記録等させる。
なお、入力部207は、キーボードや、マウス、マイク等で構成される。また、出力部206は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
11 センサ部, 12 学習認識部, 13 アクション制御部, 14 アクション部, 21 バッファ, 22 モデル学習部, 23 認識部, 24 モデル記憶部, 31 プランニング部, 32 アクション信号生成部, 33 アクション学習部, 34 アクション生成情報記憶部, 35 生得コントローラ, 111 コンテンツ記憶部, 112 ハイライトシーン検出装置, 121 ハイライト検出器学習部, 122 検出器記憶部, 123 ハイライト検出部, 131 コンテンツ選択部, 132 特徴量抽出部, 133 ラベル化部, 134 ハイライトラベル生成部, 135 学習用ラベル生成部, 136 学習部, 141 コンテンツ選択部, 142 特徴量抽出部, 143 ラベル化部, 144 検出用ラベル生成部, 145 最尤状態系列推定部, 146 ハイライトシーン検出部, 147 ダイジェストコンテンツ生成部, 148 再生制御部, 201 バス, 202 CPU, 203 ROM, 204 RAM, 205 ハードディスク, 206 出力部, 207 入力部, 208 通信部, 209 ドライブ, 210 入出力インタフェース, 211 リムーバブル記録媒体

Claims (11)

  1. 内部状態を有し、前記内部状態の遷移モデルを持ち、前記内部状態から観測値が生成される観測モデルを持つ学習モデルである状態遷移予測モデルの内部状態を自己組織化する学習を第1の時系列データを用いて行い、
    前記第1の時系列データを用いた学習を行った後の前記状態遷移予測モデルの観測モデルの学習を、前記遷移モデルを固定して、前記第1の時系列データとは異なる第2の時系列データを用いて行う
    ことにより、前記第1の時系列データの各サンプル値が観測される第1の観測モデルと、前記第2の時系列データの各サンプル値が観測される第2の観測モデルとを有する前記状態遷移予測モデルを求めるモデル学習手段
    を備える情報処理装置。
  2. 前記モデル学習手段は、
    観測値が観測される内部状態どうしの間の状態遷移の遷移確率と、内部状態から観測値が観測される観測尤度とを有する学習モデルである状態遷移予測モデルを自己組織化する学習を、第1の時系列データを用いて行い、
    前記第1の時系列データを用いた学習を行った後の前記状態遷移予測モデルの学習を、前記遷移確率を固定して、前記第1の時系列データとは異なる第2の時系列データを用いて行う
    ことにより、前記第1の時系列データの各サンプル値が観測される第1の観測尤度と、前記第2の時系列データの各サンプル値が観測される第2の観測尤度とを有する前記状態遷移予測モデルを求める
    請求項1に記載の情報処理装置。
  3. 前記状態遷移予測モデルは、
    内部状態として、複数の状態を有し、
    各状態が、初期状態である初期状態確率と、
    状態どうしの間の状態遷移が生じる遷移確率と、
    各状態において、第1の観測値が観測される第1の観測尤度と、
    各状態において、前記第1の観測値とは異なる第2の観測値が観測される第2の観測尤度と
    で定義され、
    前記モデル学習手段は、
    前記第1の時系列データを用いて、Baum-Welchアルゴリズムに従った学習を行うことにより、前記初期状態確率、前記遷移確率、及び、第1の観測尤度を求め、
    前記第2の時系列データを用いた、Baum-Welchアルゴリズムに従った学習を、前記第1の時系列データを用いて求めた前記初期状態確率、及び、前記遷移確率を固定して行うことにより、前記第2の観測尤度を求める
    請求項2に記載の情報処理装置。
  4. 前記状態遷移予測モデルを用いて、時系列データを認識し、前記時系列データが観測される尤度が最大の状態遷移が生じる、前記状態の系列である最尤系列を求める認識手段と、
    アクションを行うことが可能なエージェントに所定のアクションを行わせるためのアクション信号と、前記アクション信号に従ったアクションが行われることにより生じる状態遷移との関係を学習するアクション学習の結果に基づき、所定の状態遷移を生じさせるアクション信号を生成するアクション信号生成手段と
    をさらに備え、
    前記第1の時系列データは、前記エージェントから観測される前記第1の観測値の系列であり、
    前記第2の時系列データは、前記エージェント以外の対象から観測される前記第2の観測値の系列であり、
    前記認識手段は、前記状態遷移予測モデルを用いて、前記第2の時系列データを認識し、前記第2の時系列データが観測される最尤系列を、前記エージェントが模倣すべき模倣系列として求め、
    前記アクション信号生成手段は、前記模倣系列の状態遷移を生じさせるアクション信号を生成する
    請求項3に記載の情報処理装置。
  5. 前記状態遷移予測モデルの1つの状態を、スタート状態ととするとともに、他の1つの状態を、目標状態として、前記スタート状態から前記目標状態までの状態遷移の尤度が最大の状態の系列を、前記スタート状態から前記目標状態に辿り着くプランとして求めるプランニング手段をさらに備え、
    前記認識手段は、前記状態遷移予測モデルを用いて、前記第1の時系列データを認識し、前記エージェントの現在の状況に対応する状態である現在状態を求め、
    前記現在状態が、前記模倣系列の最初の状態に一致する場合、
    前記アクション信号生成手段は、前記模倣系列の状態遷移を生じさせるアクション信号を生成し、
    前記現在状態が、前記模倣系列の最初の状態に一致しない場合、
    前記プランニング手段は、前記現在状態を、前記スタート状態とするとともに、前記模倣系列の最初の状態を、前記目標状態として、前記プランを求め、
    前記アクション信号生成手段は、前記プランの状態遷移を生じさせるアクション信号を生成し、その後、前記模倣系列の状態遷移を生じさせるアクション信号を生成する
    請求項4に記載の情報処理装置。
  6. 前記第2の時系列データは、前記第1の時系列データとは種類が異なる時系列データである
    請求項4に記載の情報処理装置。
  7. 前記第2の時系列データのサンプル値である前記第2の観測値は、前記エージェント以外の対象を、被写体として、その被写体を撮影して得られる画像データである
    請求項4に記載の情報処理装置。
  8. 前記被写体は、前記エージェントと同一のアクションを行うことが可能な他のエージェントである
    請求項7に記載の情報処理装置。
  9. 前記エージェントは、回転可能な可動部分を有し、
    前記第1の時系列データのサンプル値である前記第1の観測値は、前記可動部分の回転角である
    請求項7に記載の情報処理装置。
  10. 内部状態を有し、前記内部状態の遷移モデルを持ち、前記内部状態から観測値が生成される観測モデルを持つ学習モデルである状態遷移予測モデルの内部状態を自己組織化する学習を第1の時系列データを用いて行い、
    前記第1の時系列データを用いた学習を行った後の前記状態遷移予測モデルの観測モデルの学習を、前記遷移モデルを固定して、前記第1の時系列データとは異なる第2の時系列データを用いて行う
    ことにより、前記第1の時系列データの各サンプル値が観測される第1の観測モデルと、前記第2の時系列データの各サンプル値が観測される第2の観測モデルとを有する前記状態遷移予測モデルを求める
    ステップを含む情報処理方法。
  11. 内部状態を有し、前記内部状態の遷移モデルを持ち、前記内部状態から観測値が生成される観測モデルを持つ学習モデルである状態遷移予測モデルの内部状態を自己組織化する学習を第1の時系列データを用いて行い、
    前記第1の時系列データを用いた学習を行った後の前記状態遷移予測モデルの観測モデルの学習を、前記遷移モデルを固定して、前記第1の時系列データとは異なる第2の時系列データを用いて行う
    ことにより、前記第1の時系列データの各サンプル値が観測される第1の観測モデルと、前記第2の時系列データの各サンプル値が観測される第2の観測モデルとを有する前記状態遷移予測モデルを求めるモデル学習手段
    として、コンピュータを機能させるためのプログラム。
JP2010179355A 2009-11-11 2010-08-10 情報処理装置、情報処理方法、及び、プログラム Expired - Fee Related JP5633734B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010179355A JP5633734B2 (ja) 2009-11-11 2010-08-10 情報処理装置、情報処理方法、及び、プログラム
US12/915,616 US8447708B2 (en) 2009-11-11 2010-10-29 Method and apparatus that carries out self-organizing of internal states of a state transition prediction model, and obtains a maximum likelihood sequence
CN201010535671.XA CN102184406B (zh) 2009-11-11 2010-11-04 信息处理设备和信息处理方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009258208 2009-11-11
JP2009258208 2009-11-11
JP2010179355A JP5633734B2 (ja) 2009-11-11 2010-08-10 情報処理装置、情報処理方法、及び、プログラム

Publications (3)

Publication Number Publication Date
JP2011123869A JP2011123869A (ja) 2011-06-23
JP2011123869A5 JP2011123869A5 (ja) 2013-09-12
JP5633734B2 true JP5633734B2 (ja) 2014-12-03

Family

ID=43974914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010179355A Expired - Fee Related JP5633734B2 (ja) 2009-11-11 2010-08-10 情報処理装置、情報処理方法、及び、プログラム

Country Status (3)

Country Link
US (1) US8447708B2 (ja)
JP (1) JP5633734B2 (ja)
CN (1) CN102184406B (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012079178A (ja) * 2010-10-04 2012-04-19 Sony Corp データ処理装置、データ処理方法、及び、プログラム
US8904241B2 (en) * 2011-07-27 2014-12-02 Oracle International Corporation Proactive and adaptive cloud monitoring
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
CN103312938B (zh) * 2012-03-16 2016-07-06 富士通株式会社 视频处理装置、视频处理方法以及设备
CN103095711B (zh) * 2013-01-18 2016-10-26 重庆邮电大学 一种针对网站的应用层DDoS攻击检测方法和防御系统
US10552911B1 (en) * 2014-01-10 2020-02-04 United Services Automobile Association (Usaa) Determining status of building modifications using informatics sensor data
WO2015193531A1 (en) * 2014-06-16 2015-12-23 Nokia Technologies Oy Data processing
JP6225927B2 (ja) * 2015-02-02 2017-11-08 トヨタ自動車株式会社 車両状態予測システム
CN104992189B (zh) * 2015-07-22 2018-07-27 河海大学常州校区 基于深度学习网络模型的鱼群异常行为识别方法
JP6477551B2 (ja) * 2016-03-11 2019-03-06 トヨタ自動車株式会社 情報提供装置及び情報提供プログラム
US9903193B2 (en) 2016-04-22 2018-02-27 Kelvin Inc. Systems and methods for sucker rod pump jack visualizations and analytics
CN107769842B (zh) * 2016-08-17 2022-08-09 北京三星通信技术研究有限公司 交织序列构造、基于交织的信息处理方法及发射、接收机
US10883491B2 (en) * 2016-10-29 2021-01-05 Kelvin Inc. Plunger lift state estimation and optimization using acoustic data
US20180157974A1 (en) * 2016-12-05 2018-06-07 Disney Enterprises, Inc. Data-driven ghosting using deep imitation learning
US10586111B2 (en) * 2017-01-13 2020-03-10 Google Llc Using machine learning to detect which part of the screen includes embedded frames of an uploaded video
JP6955702B2 (ja) * 2018-03-06 2021-10-27 オムロン株式会社 情報処理装置、情報処理方法、及びプログラム
CA3098457A1 (en) * 2018-05-10 2019-11-14 Equifax Inc. Training or using sets of explainable machine-learning modeling algorithms for predicting timing of events
JP7233868B2 (ja) * 2018-08-08 2023-03-07 キヤノン株式会社 情報処理装置の学習システム、情報処理装置、情報処理装置の制御方法及びプログラム
CN111488773B (zh) * 2019-01-29 2021-06-11 广州市百果园信息技术有限公司 一种动作识别方法、装置、设备及存储介质
WO2020190326A1 (en) 2019-03-15 2020-09-24 3M Innovative Properties Company Determining causal models for controlling environments
CN110290118B (zh) * 2019-06-10 2021-08-03 浙江工业大学 一种基于隐马尔可夫模型的重复加工过程隐蔽性攻击检测方法
JPWO2021140698A1 (ja) * 2020-01-10 2021-07-15
CN112307885A (zh) * 2020-08-21 2021-02-02 北京沃东天骏信息技术有限公司 模型构建及训练方法和装置、时序动作定位方法和装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置
JP4639784B2 (ja) * 2004-12-06 2011-02-23 ソニー株式会社 学習装置および学習方法、並びにプログラム
JP2006285899A (ja) * 2005-04-05 2006-10-19 Sony Corp 学習装置および学習方法、生成装置および生成方法、並びにプログラム
JP4843987B2 (ja) * 2005-04-05 2011-12-21 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US7747084B2 (en) * 2005-06-15 2010-06-29 Lockheed Martin Corporation Methods and apparatus for target discrimination using observation vector weighting
JP4169063B2 (ja) * 2006-04-06 2008-10-22 ソニー株式会社 データ処理装置、データ処理方法、及びプログラム
JP4201012B2 (ja) * 2006-04-06 2008-12-24 ソニー株式会社 データ処理装置、データ処理方法、およびプログラム
JP2007280054A (ja) * 2006-04-06 2007-10-25 Sony Corp 学習装置および学習方法、並びにプログラム
US8290885B2 (en) * 2008-03-13 2012-10-16 Sony Corporation Information processing apparatus, information processing method, and computer program
JP4687732B2 (ja) * 2008-03-13 2011-05-25 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP4596024B2 (ja) 2008-03-13 2010-12-08 ソニー株式会社 情報処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
CN102184406B (zh) 2014-08-27
US8447708B2 (en) 2013-05-21
JP2011123869A (ja) 2011-06-23
US20110112997A1 (en) 2011-05-12
CN102184406A (zh) 2011-09-14

Similar Documents

Publication Publication Date Title
JP5633734B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
US11858118B2 (en) Robot, server, and human-machine interaction method
JP7325668B2 (ja) シーンアウェア映像対話
JP7028966B2 (ja) 自律型パーソナルコンパニオンのモジュール階層視覚システム
JP6984004B2 (ja) 自律パーソナルコンパニオンによってユーザの人工知能モデルが実行するためのユーザのコンテクスト環境を記述する識別タグに基づくシナリオの継続的選択
CN102947774B (zh) 用于驱动交互式故事的自然用户输入
JP7254772B2 (ja) ロボットインタラクションのための方法及びデバイス
CN100411828C (zh) 机器人装置及其行为控制方法
JP2007280053A (ja) データ処理装置、データ処理方法、およびプログラム
CN102473320A (zh) 通过学习到的来自用户的输入使视觉表示生动化
EP4144425A1 (en) Behavior control device, behavior control method, and program
JPH11508491A (ja) 可動装置(apparatus)を制御する設備(installation)および方法
Li et al. Facial feedback for reinforcement learning: a case study and offline analysis using the TAMER framework
WO2019199967A1 (en) Systems and methods for gamification of drone behavior using artificial intelligence
CN113633983A (zh) 虚拟角色表情控制的方法、装置、电子设备及介质
KR102171428B1 (ko) 음악과 춤의 상관관계를 학습하여 춤을 추는 로봇
US10596458B2 (en) Intelligent service system, apparatus, and method for simulators
Cederborg et al. From language to motor gavagai: unified imitation learning of multiple linguistic and nonlinguistic sensorimotor skills
CN111949773A (zh) 一种阅读设备、服务器以及数据处理的方法
Ramachandruni et al. Attentive task-net: Self supervised task-attention network for imitation learning using video demonstration
JP6972526B2 (ja) コンテンツ提供装置、コンテンツ提供方法、及びプログラム
Kaspersen et al. Generative Choreographies: The Performance Dramaturgy of the Machine.
JP2007004396A (ja) 演技評価装置及び方法
Ouyang et al. Audio-visual emotion recognition with capsule-like feature representation and model-based reinforcement learning
Pham et al. Learning continuous facial actions from speech for real-time animation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130729

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130729

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140918

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141001

LAPS Cancellation because of no payment of annual fees