JP4075670B2

JP4075670B2 - 変化情報認識装置および変化情報認識方法

Info

Publication number: JP4075670B2
Application number: JP2003105649A
Authority: JP
Inventors: 竜士船山
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2003-04-09
Filing date: 2003-04-09
Publication date: 2008-04-16
Anticipated expiration: 2023-04-09
Also published as: JP2004310606A; EP1881484B1; EP1619660A4; EP1619660A1; EP1619660B1; US7508959B2; US7302086B2; WO2004090867A1; EP1881484A1; US20060029277A1; DE602004022472D1; US20080056582A1

Description

【０００１】
【発明の属する技術分野】
本発明は、口の動きや口から発せられる音声、または人の動作など、認識対象物の変化状態を認識する変化情報認識装置および変化情報認識方法に関する。
【０００２】
【従来の技術】
画像処理などの分野においては、撮像した画像から、人が話す声や人の動作など、状態が変化するものの変化を認識することが行われる。このような状態の変化を認識するものとして、たとえば特開平１０−２７４５１６号公報に開示された顔の方向検出装置がある。この顔の方向検出装置は、カメラで得られる画像から顔領域と、目、口などの特徴領域を抽出し、顔領域の中心位置などから顔の方向を検出するものである。
【０００３】
【特許文献１】
特開平１０−２７４５１６号公報
【０００４】
【発明が解決しようとする課題】
しかし、上記特許文献１に開示された顔の方向検出装置では、口の位置などを抽出してから顔の方向を検出するものの、口の動きなどまでは検出することができないものであった。そのため、人の言葉などを認識することはできないという問題があった。
【０００５】
そこで、本発明の課題は、認識対象物の変化状態を正確に認識して、たとえば人の話す言葉などを認識することができるようにした変化情報認識装置および変化情報認識方法を提供することにある。
【０００６】
【課題を解決するための手段】
上記課題を解決した本発明に係る変化情報認識装置は、認識対象物の変化情報を取得する変化情報取得手段と、認識対象物に対応付けられ、特徴空間上の情報の系列として設定された複数の基本変化系列情報としての複数の基本変化情報から生成されたハイパーチューブをあらかじめ記憶する基本変化情報記憶手段と、変化情報取得手段で取得された認識対象物の変化系列情報を特徴空間へ射影して射影変化情報を作成する変化情報射影装置と、変化情報射影装置で作成された認識対象物の射影変化情報と、あらかじめ記憶されたハイパーチューブとを比較して、認識対象物の変化状態を検出する変化状態比較手段と、を備え、複数の基本変化情報である複数の軌跡に基づいて代表軌跡を求め、代表軌跡と複数の軌跡との関係に基づいてハイパーチューブが生成されているものである。
さらに、代表軌跡と複数の軌跡との関係は、代表軌跡と複数の軌跡のそれぞれに対する距離との分散である態様とすることができる。
【０００７】
本発明に係る変化情報認識装置においては、変化情報取得手段で取得された変化情報と、あらかじめ記憶された基本変化情報とを比較することにより、認識対象物を認識する。たとえば、認識対象物が人の口など、一定の相関関係を持つ動きをすることが多いものである場合には、この動きを基本変化情報としてあらかじめ記憶しておき、取得した変化情報と比較することにより、確実に認識対象物を認識することができる。また、本発明においては、変化情報を特徴空間の情報系列として認識している。このため、取得された変化情報と、あらかじめ設定された基本変化系列情報とを比較している。このため、取得された変化系列情報と基本変化系列情報との類似度（適合度）を定量的に判断することができる。
【０００８】
ここで、基本変化情報は、認識対象物の変化に応じて対応付けされた変化情報単位に分割した情報として、基本変化情報記憶手段に記憶されているのが好適である。
【０００９】
このように、基本変化情報を変化情報単位に分割した情報として記憶しておくことにより、さらに高精度で認識対象物を認識することができる。
【００１０】
また、変化情報取得手段は、認識対象物を撮像する撮像手段であり、変化情報は、発話に伴う口の画像の変化である態様とすることができる。
【００１１】
このように、変化情報が発話に伴う口の画像の変化であることにより、人の発話の内容を精度よく認識することができる。
【００１２】
さらに、変化情報取得手段は、認識対象物が発生する音を取得する集音手段であり、変化情報が、認識対象物が発生する音の周波数の変化である態様とすることもできる。
【００１３】
このように、集音手段、たとえばマイクから取得した音の周波数の変化を変化情報とすることにより、認識対象物が発声する音、たとえば人の発話の内容を高精度で認識することができる。
【００１４】
また、変化情報取得手段は、認識対象物を撮像する撮像手段であり、変化情報が、認識対象物の動きによる画像の変化である態様とすることもできる。
【００１５】
さらに、変化情報取得手段は、認識対象物を撮像する撮像手段であり、変化情報が、認識対象物の回転による画像の変化である態様とすることもできる。
【００１６】
このように、変化情報が認識対象物の動きや回転による画像の変化であっても、それらの変化を高精度で認識することができる。
【００１９】
ここで、変化状態比較手段は、ハイパーチューブの連続性と、射影変化情報の連続性とを比較することにより、認識対象物の変化状態を検出する態様とするのが好適である。
【００２０】
このように、射影変化情報として射影された変化系列情報の連続性をハイパーチューブと比較することにより、変化しながら移動する認識対象物を精度良く認識することができる。
【００２１】
また、変化情報取得手段で取得された認識対象物の変化情報に基づいて、基本変化系列情報を作成する学習手段を備える態様とするのが好適である。
【００２２】
このように、変化情報取得手段で取得された認識対象物の変化に基づいて、基本変化情報を作成または更新する学習手段を備えることにより、認識対象物に応じた基本変化系列情報を精度良く作成することができる。
【００２３】
他方、上記課題を解決した本発明に係る変化情報認識方法は、変化情報取得手段が、認識対象物の変化情報を取得する変化情報取得工程と、基本変化情報記憶手段が、認識対象物に対応付けられ、特徴空間上の情報の系列として設定された複数の基本変化系列情報としての複数の基本変化情報から生成されたハイパーチューブをあらかじめ記憶する基本変化情報予備記憶工程と、変化情報射影装置が、変化情報取得手段で取得された認識対象物の変化系列情報を特徴空間へ射影して射影変化情報を作成する変化情報射影工程と、変化状態比較手段が、変化情報射影装置で作成された認識対象物の射影変化情報と、あらかじめ記憶されたハイパーチューブとを比較して、認識対象物の変化状態を検出する変化状態比較工程と、を備え、複数の基本変化情報である複数の軌跡に基づいて代表軌跡を求め、代表軌跡と複数の軌跡との関係に基づいて、基本変化情報記憶手段が記憶するハイパーチューブが生成されていることを特徴とする。
【００２４】
また、変化情報記憶手段は、基本変化予備記憶工程で、基本変化情報を、認識対象物の変化に応じて対応付けされた変化情報単位に分割した情報として、あらかじめ記憶しておく態様とすることもできる。
【００２５】
【発明の実施の形態】
以下、図面を参照して、本発明の好適な実施形態について詳細に説明する。なお、各実施形態において、重複する説明は省略することがある。
【００２６】
まず、本発明の第１の実施形態について説明する。図１は、本実施形態に係る変化情報認識装置のブロック構成図である。図１に示すように、本実施形態に係る変化情報認識装置１は、系列情報記憶装置１１と、基本変化情報記憶装置１２と、変化状態比較装置１３とを備えている。
【００２７】
系列情報記憶装置１１は、図示しない本発明の変化情報取得手段である撮像装置となるカメラに接続されている。カメラでは、認識対象物となる口を含む顔を撮像している。撮像した人の口の画像は、一定時間の間隔をおいて、系列情報記憶装置１１に出力される。系列情報記憶装置１１では、これらの一定時間をおいて出力される複数の画像を系列情報Ｊ１１として記憶する。
【００２８】
基本変化情報記憶装置１２には、あらかじめ人の口の形状がとり得るパターンが複数記憶されている。この口の形状がとり得るパターンについては、後に詳細に説明する。
【００２９】
変化状態比較装置１３には、系列情報記憶装置１１から系列情報が出力され、基本変化情報記憶装置１２から基本変化情報が出力される。変化状態比較装置１３では、これらの系列情報および基本変化情報を比較することにより、口の形状の変化を検出して、口に相当する部分を検出する。さらに、変化状態比較装置１３は、図示しない出力装置に接続されており、検出した口に相当する部分の位置を、変化情報の位置情報Ｊ１２として出力装置に出力する。また、変化状態比較装置１３では、口に相当する部分を検出するとともに、口の動きをも検出する。この検出した口の動きも、変化情報に対応する記号情報Ｊ１３として図示しない出力装置に出力する。
【００３０】
それでは、本実施形態に係る変化情報認識装置１による変化情報認識方法について説明する。本実施形態に係る変化情報認識装置１の系列情報記憶装置１１には、図示しないカメラで撮影された、たとえば図２に示す口Ｍを含む顔Ｆの画像Ｇ１などの画像が順次出力される。系列情報記憶装置１１では、これらの画像を記憶しておく。この画像が複数枚、たとえば８枚揃ったときに、これらの画像を系列情報としてまとめて、変化状態比較装置１３に出力する。
【００３１】
また、基本変化情報記憶装置１２には、口の変化のパターンを表す画像情報が複数記憶されている。たとえば、図３（ａ）に示すｔ＝１〜４の第１変化パターンが第１テンプレートＰ１として、図３（ｂ）に示すｔ＝１〜４の第２変化パターンが第２テンプレートＰ２として、基本変化情報記憶装置１２にそれぞれ記憶されている。両変化パターンでは、ある時刻での画像がｔ＝１の画像であり、一定時間経過した後の次の画像がｔ＝２の画像であり、さらに一定時間経過した後の画像がｔ＝３の画像であり、それからさらに一定時間経過した後の画像がｔ＝４とされている。第１テンプレートＰ１で表される第１変化パターンでは、大きく開いた口Ｍの形状（「あ」の母音を発するときの口の形状）から、横に細長く開いた口Ｍの形状（「い」の母音を発するときの口の形状）に変化する状態を示している。また、第２テンプレートＰ２で表される第２変化パターンでは、大きく開いた口Ｍの形状（「あ」の母音を発するときの口の形状）から、縦長に開いた口Ｍの形状（「お」の母音を発するときの口の形状）に変化する状態を示している。
【００３２】
変化状態比較装置１３には、８枚の画像からなる系列情報の動画が系列情報記憶装置１１から出力され、第１，第２変化パターンを示すテンプレートＰ１，Ｐ２が、基本変化情報記憶装置１２から出力される。ここで、系列情報記憶装置１１から出力された系列情報には図４に示す変化を示す領域が含まれていたとする。図４において、（ａ）〜（ｈ）は、それぞれ時刻ｔ＝１〜８に相当する画像を示している。図４に示す画像に表示された形状の動きと、図３に示すテンプレートＰ１，Ｐ２の形状の動きとを比較すると、テンプレートＰ１の動きが、図５に示すように、図４（ｄ）〜（ｇ）に示す動きと一致していることがわかる。このことから、図５（ｄ）〜（ｇ）において破線Ｂで示した部分が口に相当する部分であるということを認識することができる。また、このときに、口は第１テンプレートＰ１に相当する動きをしていたことも同時に認識することができる。
【００３３】
ここで、従来においては、たとえば図６（ａ）〜（ｆ）に示すように、複数の口のテンプレートＴ１〜Ｔ６を用意しておき、撮像装置で撮像された画像をラスタスキャンして、テンプレートＴ１〜Ｔ６に相当する部分を口として検出するようにしていた。しかし、この方法では、画像の中に存在する壁のシミや背景の一部であって、口と類似する形状のものをも口として検出してしまう誤検出や、検出漏れなどの不都合が考えられた。
【００３４】
これに対して、本実施形態に係る変化情報認識装置では、静止画のような瞬間的に切り取られた画像のみを対象とするのではなく、変化する形状の変形パターンを見つけるようにしているので、誤検出や検出漏れなどを少なくすることができる。しかも、口の位置とその変形の様子とを同時に同定することができる。なお、図３から図５は、説明を簡単にするために、口の動きに適用した形で説明を行った。しかし、特に口の動きに限定したものではなく、一般的な図形の変形であればどのような技術にも適用することができるものである。
【００３５】
続いて、本実施形態の具体的な変化情報認識方法について説明する。図７は、本実施形態に係る変化情報認識方法の手順を示すフローチャートである。図７に示すように、本実施形態に係る変化情報認識方法では、まず、８枚ある画像のフレーム番号を表す定数ｆ（ｆ定義域＝１〜８）およびそれらの画像を撮像した時刻を表す変数ｔ（ｔ定義域＝１〜８）を初期化し（Ｓ１）、次に、２枚あるテンプレートＰ１，Ｐ２で表される変化パターンを表す変数ｄ（ｄ＝１，２）を初期化する（Ｓ２）。続いて、第１変化パターンｄ＝１における時刻ｔ（以下「ｔ（ｄ）」と示す）＝１のパターンの類似パターンを、最初のフレームｆ＝１の画像から探し出し（Ｓ３）、時刻ｔ（ｄ）のパターンの類似パターンが見つかったか否かを判断する（Ｓ４）。
【００３６】
その結果、類似パターンが見つかった場合には、変化パターンｄ＝１用の記憶領域に時刻ｔ（ｄ）のパターンが見つかったこと、およびフレームｆ＝１における類似パターンが見つかった位置を記憶する（Ｓ５）。そして、時刻ｔ（ｄ）＝１に１を加算して、ｔ（ｄ）＝２とする（Ｓ６）。それから、すべての変化パターンｄ（＝１，２）において、類似パターンを探し出す処理が終了したか否かを判断する（Ｓ７）。
【００３７】
一方、ステップＳ４において、類似パターンが見つからなかった場合には、ステップＳ７に進み、すべての変化パターンｄ（＝１，２）を探し出す処理が終了したか否かを判断する。そして、ステップＳ７において、すべての変化パターンｄ（＝１，２）を探し出す処理が終了していないと判断したら、変化パターンを進めて変化パターン（ｄ＋１）とし（Ｓ８）、ステップＳ３に戻って、フレームｆの画像から類似のパターンを探す。また、すべての変化パターンが探し終わったと判断したら、次のフレームｆ＋１に進む（Ｓ９）。
【００３８】
こうして次のフレームに進んだら、すべてのフレームｆ（＝１〜８）を処理し終わったか否かを判断する（Ｓ１０）。その結果、すべてのフレームの処理が終わっておらず、処理が終わっていないフレームがあると判断したときには、ステップＳ２に戻って、処理を継続する。一方、すべてのフレームの処理が終わったと判断したときには、変化ごとの記憶領域の記憶されている情報から、検出された変化パターン（変化情報に対応する記号）とその位置を図示しない出力装置を介して出力する（Ｓ１１）。このようにして、口の位置および口の動きを検出することができる。
【００３９】
このように、本実施形態に係る変化情報認識装置１においては、静止画像でなく、動画によって表される画像の動きから認識対象物である口の位置を検出するようにしている。このため、図８（ａ）に示すように、静止画によるテンプレートを用いた従来の認識方法では、多数の口の候補Ｃ１，Ｃ２…を認識してしまう。これに対して、本実施形態に係る認識方法では、一定時間をおいて撮影した複数の画像から口Ｍの変化を検出しているので、図８（ｂ）に示すように、候補Ｃ内に口Ｍを確実に認識することができる。しかも、口Ｍの動きを複数枚の画像に見られる変化で追従していることから、口Ｍの動きまでをも検出することができる。
【００４０】
なお、本実施形態では、テンプレートＰ１，Ｐ２において、それぞれ時刻ｔ＝４として４つの時刻での画像を設定しているが、フレームの数は複数、すなわち２以上であればよい。たとえば、時刻ｔ＝２として、２つの時刻での画像からテンプレートを設定することもできる。
【００４１】
次に、本発明の第２の実施形態について説明する。図９は、本実施形態に係る変化情報認識装置のブロック構成図である。図９に示すように、本実施形態に係る変化情報認識装置２は、上記第１の実施形態と同様の系列情報記憶装置２１、基本変化情報記憶装置２２、および変化状態比較装置２３を備えている。このうち、系列情報記憶装置２１および変化状態比較装置２３は、上記実施形態における系列情報記憶装置１１および変化状態比較装置１３とそれぞれ同一の構成を有しており、基本変化情報記憶装置２２は、上記第１の実施形態における基本変化情報記憶装置１２とは、異なる構成を有している。
【００４２】
本実施形態に係る基本変化情報記憶装置２２は、複数の基本変化情報単位記憶装置２４Ａ，２４Ｂ…を有している。各基本変化情報単位記憶装置２４Ａ，２４Ｂ…には、認識対象物の変化に応じて対応付けされた変化情報単位に分割した情報である変化パターンが記憶されている。この変化パターンは、認識対象物の一連の変化パターンにおける最小の単位となる変化パターンである。たとえば、図１０（ａ）に示すような時刻ｔ＝１〜７の間における変化パターンＰがあるとする。この時刻ｔ＝１〜７に対応した一連の変化パターンにおいて、図１０（ｂ）に示すｔ＝１〜４の変化が、図１０（ｃ）に示すｔ＝１〜４（図１０（ａ）のｔ＝４〜７の変化に相当する）とは異なる意味を持った最小単位であることがある。たとえば、図１０（ａ）におけるｔ＝１〜４で「お」から「あ」に変化する口の形状を表し、ｔ＝４〜７で「あ」から「い」に変化する口の形状を表すような場合である。図１０（ｂ），（ｃ）に示すｔ＝１〜４のような変化が、それぞれ最小単位のテンプレートＰ３，Ｐ４として、各基本変化情報単位記憶装置２４Ａ，２４Ｂ…に記憶されている。
【００４３】
次に、本実施形態に係る変化情報認識方法について説明する。図１１は、本実施形態に係る変化情報認識方法の手順の要部を示すフローチャートである。図１１に示すように、本実施形態に係る変化情報認識方法では、上記第１の実施形態に係る認識方法と同様にして、系列情報記憶装置２１において系列情報Ｊ２１を取得して、たとえば８枚の画像からなる変化状態比較装置２３に出力する。変化状態比較装置２３では、出力された系列情報から各変化情報単位を検出する（２１）。また、基本変化情報記憶装置２２からは、変化状態比較装置２３に対して、基本変化情報単位記憶装置２４に記憶された基本変化情報単位を示すテンプレートＰ３，Ｐ４が出力される。
【００４４】
変化状態比較装置２３では、検出した変化情報単位と、基本変化情報記憶装置２２から出力された基本変化情報単位のテンプレートＰ３，Ｐ４とを比較し、変化情報単位の連続性から一連の変化を検出する（Ｓ２２）。たとえば、系列情報記憶装置２１から出力された系列情報Ｊ２１が、図１２（ａ）〜（ｈ）にそれぞれ示す８枚の画像であったとする。変化状態比較装置２３では、これらの系列情報Ｊ２１による画像と、基本変化情報記憶装置２２から出力されたテンプレートＰ３，Ｐ４とを比較して、系列情報における一連の変化を検出する。
【００４５】
いま、図１２（ａ）〜（ｈ）に示す系列情報を表す８枚の画像では、図１２（ａ）〜（ｄ）に示す画像における実線Ｒで囲む口Ｍの形状が、図１０（ｂ）に示すテンプレートＰ３の変化と同一の変化を示している。また、図１２（ｄ）〜（ｇ）に示す画像における破線Ｂで囲む口Ｍの形状が、図１０（ｃ）に示すテンプレートＰ４の変化と同一の変化を示している。このことから、系列情報Ｊ２１には、図１０（ａ）に示す形状変化を行う認識対象物としての口があることが認識される。
【００４６】
こうして認識された認識対象物である変化情報としての口は、その変化情報単位の位置情報Ｊ２２として変化状態比較装置２３から図示しない出力装置に出力される。それと同時に、変化情報単位に対応する記号情報Ｊ２３が、変化状態比較装置２３から図示しない出力装置に出力される。出力装置では、変化情報単位の位置情報から変化情報Ｊ２４を取得し、変化情報単位に対応する記号情報Ｊ２３から、変化情報に対応する記号情報Ｊ２５を取得する。
【００４７】
ここで、たとえば系列情報を表す画像に、図１０（ｂ）に示すテンプレートＰ３の形状変化と同一の形状変化が見られたとしても、その後に、図１０（ｃ）に示すテンプレートＰ４で表される形状変化と同一の形状変化が見られないことがある。この場合には、図１０（ａ）に示す一連の変化は起こってはいないと判断することができ、その結果として誤検出を防止することができる。また、連続した変化情報単位の特定組み合わせをあらかじめ記憶していることから、任意の変化を少ない記憶容量で表現することができる。さらに、一連の変化を、その変化よりも小さい変化の単位に分割することにより、ロバストに変化の様子を検出ことが可能となり、さらには複雑な変化をより単純な変化の組み合わせで表現することができるので、実装が容易になるとともに、少ない記憶容量で複雑な変化を扱うことができる。
【００４８】
次に、本発明の第３の実施形態について説明する。図１３は、本実施形態に係る変化情報認識装置のブロック構成図である。本実施形態に係る変化情報認識装置は、口変形認識装置として用いることができる。図１３に示すように、本実施形態に係る変化情報認識装置３は、動画記憶装置３１、口基本変形情報記憶装置３２、および口変形状態比較装置３３とを備えている。
【００４９】
動画記憶装置３１は、図示しない動画撮像装置に接続されている。この動画撮像装置は、認識対象物となる口を含む顔の動画を撮像しており、動画撮像装置は、撮像した動画の動画情報Ｊ３１を動画記憶装置３１に対して出力している。
【００５０】
口基本変形情報記憶装置３２は、人の口の動きがとり得るパターンがあらかじめ記憶された複数の口基本変形単位記憶装置３４Ａ，３４Ｂ…を有している。各口基本変形単位記憶装置３４Ａ，３４Ｂ…には、口基本変形単位があらかじめ記憶されている。この口基本変形単位については、後に説明する。
【００５１】
口変形状態比較装置３３には、動画記憶装置３１から口変形単位情報が出力され、口基本変形情報記憶装置３２から口基本変形単位情報が出力される。口変形状態比較装置３３では、これらの口変形単位情報と口基本変形単位情報とを比較することにより、口の動きを認識する。さらに、口変形状態比較装置３３は、図示しない出力装置に接続されており、動画記憶装置３１から出力された口変形単位の位置を口変形単位位置情報Ｊ３２として出力装置に出力する。また、それと同時に、口変形単位に対応する記号情報Ｊ３３を出力装置に出力する。
【００５２】
また、口基本変形情報記憶装置３２における口基本変形単位記憶装置３４Ａ，３４Ｂ…には、口の変形パターンを示す動画に対応した口変形単位の形状およびその形状に対応する記号情報がそれぞれ記憶されている。人が発話を行う際の口の形状は、主に母音および撥音によって決定される。母音とは、「あ」「い」「う」「え」「お」の５音を指すものであるが、これに撥音である「ん」を加えて考えると、すべての発話はこれらの６音とそれ以外の５音への組み合わせとして表現することができる。図１４は、上記の６音から他の５音へのすべての組み合わせについて、記号を割り当てたものを示す表である。
【００５３】
図１４に示すように、「あ」を１、「い」を２、「う」を３、「え」を４、「お」を５、「ん」を０とすると、たとえば「あ」から「い」への変形は「１２」という記号で表される。図１５には、「あ」の母音を発する口の形状から、「い」の母音を発する口の形状に至るまでの口の変形過程を模式的に示している。時刻ｔ＝１では、「あ」の音を発しており、口Ｍは大きく開いた状態にある。この状態から、時刻が進むにつれて、口が徐々に狭まるように変形していき、時刻ｔ＝８のときには、口Ｍが「い」の音を発する形状をなしている。このように、「あ」から「い」に変形するまでの口の変形をｔ＝１〜８までの間で連続画像で示している。このような「あ」から「い」に変形するまでの口の変形を示す動画を、「あ」を表す記号「１」と「い」を表す記号「２」とを用いて、記号「１２」で表す。
【００５４】
この考え方を用いると、たとえば図１６（ａ）に示すように、「おはようございます」という発話は、その母音だけをみると図１６（ｂ）に示すように、「おあおうおあいあう」となる。この発話に伴う口の変形は、上記の記号を用いると、図１６（ｃ）に示すように、５１→１５→５３→３５→５１→１２→２１→１３と表すことができる。口基本変形情報記憶装置３２には、これらの記号に対応する口基本変形単位が各口基本変形単位記憶装置３４Ａ，３４Ｂ…のそれぞれに記憶されている。
【００５５】
従来、発話を認識する手段としては「あ」や「い」を表す口の形状を見つけるようなアプローチがなされていた。これに対して、本実施形態では、「あ」から「い」に至るまでに口の形状が変形する過程を、あらかじめ記憶される口基本変形記憶単位に対応させて捉えようとするものである。
【００５６】
それでは、本実施形態に係る変化情報認識装置３による変形情報認識方法について説明する。図１７は、本実施形態に係る変形情報認識方法の手順の要部を示すフローチャートである。本実施形態に係る変形情報認識方法では、まず、動画撮像装置で撮像した口を含む顔の動画が、動画撮像装置から動画記憶装置３１に出力され、動画記憶装置３１に記憶される。一方、口基本変形情報記憶装置３２には、各口基本変形単位記憶装置３４Ａ，３４Ｂ…において、口基本変形単位に対応する変化情報およびおよび口基本変形単位に対応する記号があらかじめ記憶されている。動画記憶装置３１からは、口変形状態比較装置３３に対して、動画が出力され、口基本変形情報記憶装置３２からは、口変形状態比較装置３３に対して口基本変形単位の変形情報および口基本単位に対応する記号が出力される。
【００５７】
口変形状態比較装置３３においては、動画記憶装置３１から出力された動画および口基本変形情報記憶装置３２から出力された口基本変形単位との比較を行い、動画における口変形単位が存在する位置および口変形に対応する記号を検出する（Ｓ３１）。次に、一定時間経過した後の動画上において、口変形位置が存在する位置および口変形に対応する記号を検出する。続いて、検出された各口変形単位について、先に検出された口変形単位である第１の変形と、後に検出された口変形単位である第２の変形が同じ位置で行われていたか否かを判断する（Ｓ３２）。
【００５８】
その結果、同じ位置で検出されたものではないと判断したときには、ステップＳ３１に戻って同様の処理を繰り返す。一方、同じ位置で検出されたものであると判断したときには、それらの第１の変形に対応する記号の終了を表す記号と、第２の変形に対応する記号の開始を表す記号とを比較し、両者が同じであるか否かを判断する（Ｓ３３）。その結果、両者が同じではないと判断したときには、ステップＳ３１に戻って、同様の処理を繰り返す。
【００５９】
それに対して、たとえば、図１８（ａ）に示すように、第１の変形では口Ｍがｔ＝１〜８に示すように動き、対応する記号が１２であり、第２の変形では口Ｍがｔ＝８〜ｔ１５に示すように動き、対応する記号が２３であったとする。これは、第１の変形では、発話を母音レベルで理解すると、口の形状が「あ」から「い」に変化したこと、および第２の変形では、口の形状が「い」から「う」に変化したことを意味している。このように、それらの第１の変形に対応する記号の終了を表す記号と、第２に変形に対応する記号の開始を表す記号とが同じである場合には、第１の変形と第２の変形との繋ぎにおける時間位置で、その記号に対応する音が発せられていたと考えられる。先の例でいえば、第１の変形に対応する記号の終了を表す記号と、第２の変形に対応する記号の開始を表す記号がいずれも「２」であり、同じである。このような場合には、第１の変形と第２の変形とは連続して行われたものであると判断することができる。
【００６０】
そして、第１の変形に対応する記号の終了を表す記号と、第２に変形に対応する記号の開始を表す記号が同じである場合には、第１の変形と第２の変形との繋ぎにおける時間位置およびその記号をそれぞれ口変形単位位置情報Ｊ３２および口変形単位に対応する記号情報Ｊ３３として、図示しない出力装置に出力する（Ｓ３４）。出力装置においては、口変形単位位置情報Ｊ３２から口の位置情報Ｊ３４を求め、口変形単位に対応する記号情報Ｊ３３から、発話単語情報Ｊ３５を求める。こうして、変化情報認識方法が終了する。
【００６１】
このように、本実施形態に係る変化情報認識装置３においては、発話に伴う口の変形を、５種類の母音および１種類の撥音という６種類の音に対応する口の形から、その音以外の５種類の口の形への変形という単位に分割している。このため、入力した動画像から口の位置を検出するとともに、どの時点でどの音が発音されたかを確実に認識することができるので、発話認識装置として用いることができる。また、発音された音を連続して認識することで、発話された単語を認識することもできる。
【００６２】
なお、本実施形態では、母音および撥音の６つの音から口基本変形単位を作成しているが、５０音のすべてについて、口基本変形単位を作成する態様とすることもできる。この場合、日本語には濁音半濁音を含めて、６８の音があるので、６７×６８の口基本変形単位を用いることになる。
【００６３】
次に、本発明の第４の実施形態について説明する。図１９は、本実施形態に係る変化情報認識装置のブロック構成図である。本実施形態に係る変化情報認識装置は、音声変化認識装置として用いることができる。図１９に示すように、本実施形態に係る変化情報認識装置４は、波形解析装置４１と、音声波形記憶装置４２と、音声情報記憶装置４３と、音声変化比較装置４４と、を備えている。
【００６４】
波形解析装置４１は、図示しない音声取得手段となるたとえばマイクに接続されており、マイクでは、人が発話する際の音声を取得している。マイクは、取得した音声情報Ｊ４１を波形解析装置４１に出力する。波形解析装置４１は、出力された音声情報Ｊ４１を、たとえばウェーブレット変換することによって解析する。ウェーブレット解析によって得られた波形は、音声波形記憶装置４２に出力される。音声波形記憶装置４２は、出力された波形を記憶する。
【００６５】
音声情報記憶装置４３は、音声変化単位記憶装置４５Ａ，４５Ｂ…を備えている。音声変化単位記憶装置４５Ａ，４５Ｂ…には、音声変化単位としてあらかじめ記憶された基本音声変化単位およびそれに対応する記号がそれぞれ記憶されている。基本音声変化単位は、発話での任意の音素を発声したときの周波数の波形から別の任意の音素を発声したときの周波数への変化を表している。この基本音声変化単位は、たとえば図２０に示す波形を有している。図２０（ａ）は、ある音声を発したときの時刻ｔ＝１〜３に変化したときの波形をそれぞれの時刻で表すグラフ、（ｂ）は他の音声を発したときの時刻ｔ＝１〜３に変化したときの波形をそれぞれの時刻で示すグラフである。各グラフは、横軸に周波数、縦軸に周波数ごとの強度を対応させている。図２０（ａ），（ｂ）に示すグラフは、音素から音素への変化を表す例であり、時刻ｔ＝１〜３ごとに示されるグラフのそれぞれに対応する音があり、ｔ＝１の時刻にある音素に対応する音が発せられ、ｔ＝２の波形を経てｔ＝３の別の音素に対応する音が発せられたことを示している。
【００６６】
音声変化比較装置４４には、音声波形記憶装置４２から音声波形情報が出力され、音声情報記憶装置４３から基本音声変化単位およびそれに対応する記号が出力される。音声変化比較装置４４では、これらの音声波形情報と基本音声変化単位とを比較することにより、音声を認識する。さらに、音声変化比較装置４４は、図示しない出力装置に接続されており、検出した音声変化単位に対応する記号（以下「音声変化単位対応記号」という）情報Ｊ４２を出力装置に出力している。
【００６７】
それでは、本実施形態に係る変化情報認識装置４による変形情報認識方法について説明する。本実施形態に係る変化情報認識装置４では、マイク等で取得した音声情報Ｊ４１をウェーブレット解析し、音声変化単位を作成する。この音声変化単位を、あらかじめ記憶している基本音声変化単位と比較することにより、音声の変化を認識するものである。たとえば、音声変化情報がマイクから取得され、波形解析装置４１に出力されたとする。波形解析装置４１では、図２１に示すように、音声変化情報を、ある一定のフレーム間隔、たとえば１０ｍｓｅｃの間隔をおいて、一定のフレーム長、たとえば３０ｍｓｅｃの長さのフレーム長に切り取り、複数の音声変化単位を作成する。図２２（ａ）〜（ｈ）には、ｔ１〜ｔ８の時間の８つに切り取られた音声変化情報から作成された音声変化単位の波形がそれぞれ示されている。
【００６８】
このような音声変化単位の波形を作成したら、これらの音声変化単位と、音声情報記憶装置４３に記憶されている図２０に示す基本音声変化単位とを比較する。その結果、図２２（ａ）〜（ｈ）に示す音声変化単位のうちに、図２０に示す基本音声変化単位と同一の波形を有する部分があったときに、基本音声変化単位を表す音声が発声されていると判断することができる。図２２に示す例では、図２３に示すように、図２３（ｅ）〜（ｇ）の波形（ｔ＝５〜７の波形）が、図２０（ａ）に示す波形（ｔ＝１〜３の波形）と一致している。したがって、この部分で図２０（ａ）に示す基本音声変化単位に対応する音声と同一の音声を発声していることがわかる。このように、音声変化単位と基本音声変化単位とを比較して、一致または類似する部分がある場合に、基本音声変化単位に対応する音声を発声していることがわかる。
【００６９】
続いて、本発明の具体的な変化情報認識方法について説明する。図２４は、本実施形態に係る変形情報認識方法の手順を示すフローチャートである。変化情報認識装置４の波形解析装置４１には、図示しないマイク等から取得された音声情報が出力される。波形解析装置４１では、これらの音声をウェーブレット解析し、たとえば図２２に示す８つの波形に分割して、８つのフレームからなる音声変化単位を作成する。波形解析装置４１は、作成した音声変化単位を音声波形記憶装置４２に出力する。音声波形記憶装置４２では、これらの音声変化単位を記憶しておく。
【００７０】
また、音声情報記憶装置４３には、複数の基本音声変化単位が記憶されている。そして、音声波形記憶装置４２は、記憶している音声変化単位を音声変化比較装置４４に出力し、音声情報記憶装置４３は、記憶している基本音声変化単位およびそれに対応する記号を音声変化比較装置４４に出力する。音声変化比較装置４４では、音声波形記憶装置４２から出力された音声変化単位および音声情報記憶装置４３から出力された基本音声変化単位を比較する。
【００７１】
両者の比較を行うにあたり、まず、音声変化単位のフレーム番号を表す変数およびその時刻を表す変数を初期化しフレームｆ＝１、時刻ｔ＝１とする（Ｓ４１）。次に、基本音声変化情報を表す変数を初期化して、変化パターンｄ＝１とする（Ｓ４２）。
この変化パターンとしては、図２０（ａ），（ｂ）に示す２つの変化パターンを含む複数の変化パターンが記憶されている。その数は音素の数に基づいて定められ、たとえば音素数がｎである場合には、変化パターン数をｎ×（ｎ−１）とすることができる。
【００７２】
次に、変化パターンｄ＝１における時刻ｔ（ｄ）＝１の波形と、音声変化単位におけるフレームｆ＝１の波形の類似度を算出する（Ｓ４３）。その結果、類似度が一定値以上であるか否かを判断し（Ｓ４４）、類似度が一定値以上であると判断したときには、変化パターンｄ用の記憶領域に、時刻ｔ（ｄ）の波形が見つかったこと、見つかった時刻（またはフレーム番号）を記憶する（Ｓ４５）。そして、次の時刻ｔ＝２には、ｔ（ｄ）＝２のパターンを対象とする旨を記憶しておく。それから、変化パターンｄ＝１における時刻ｔ（ｄ）＝１に１を加算して、ｔ（ｄ）＋１（＝２）とする（Ｓ４６）。それから、すべての変化パターンにおいて、類似パターンが探し終わったか否かを判断する（Ｓ４７）。ここでは、図２０（ｂ）に示す変化パターンｄ＝２についての処理が終わってないので、類似パターンを探し終わっていないと判断し、次の変化パターンを加算してｄ＋１とする（Ｓ４８）。
【００７３】
こうして、すべての変化パターンについて、類似パターンが探し終わり、ステップＳ４７ですべての変化パターンを探し終わったと判断したときには、フレームｆ＝１に１を加算して、次のフレームｆ＋１（＝２）とする（Ｓ４９）。それから、すべてのフレームｆ（＝１〜８）についての処理が終了したか否かを判断を行う（Ｓ５０）。その結果、処理が終了していないと判断したときには、ステップＳ４２に戻って、再度変化パターンの初期化を行い、類似度の計算を行う（Ｓ４３）。一方、すべてのフレームｆ（＝１〜８）での処理が終了したと判断したら、変化パターンごとに記憶領域に記憶されている情報から、検出された変化パターンを出力する（Ｓ５１）。このようにして、変化パターンを処理することにより、たとえば図２２に示す音声変化単位から、図２０（ａ）に示す基本音声変化単位を検出することができる。
【００７４】
こうして、音声変化単位が検出されたら、図２５に示す処理を行うことにより、発話の内容を認識することができる。図２５は、本実施形態に係る音声認識の手順を示すフローチャートである。
【００７５】
図２４に示すフローチャートにしたがって、音声変化単位を検出したら、図２５に示すように、入力された音声変化単位から、この音声変化単位対応記号情報Ｊ４２（図１９）を図示しない出力装置に出力する（Ｓ５２）。出力装置では、音声変化比較装置４４から出力された音声変化単位対応記号情報Ｊ４２を参照し、複数出力される音声変化単位に対応する記号のうち、第１音声変化単位対応記号と、第２音声変化単位対応記号が時間的に連続しているか否かを判断する（Ｓ５３）。
【００７６】
その結果、時間的に連続していないと判断したときには、ステップＳ５２に戻って同様の処理を繰り返す。一方、時間的に連続していると判断したときには、第１音声変化単位対応記号の終了を表す記号と、第２音声変化単位対応記号の開始を表す記号が同じであるか否かを判断する（Ｓ５４）。たとえば、第１音声変化単位対応記号が音素Ａから音素Ｂに変化するものであり、第２音声変化単位対応記号が音素Ｂから音素Ｃに変化するものである場合には、第１音声変化単位対応記号の終了を表す記号と第２音声変化単位対応記号の開始を表す記号とが一致すると判断する。また、たとえば第１音声変化単位対応記号が音素Ａから音素Ｂに変化するものであり、第２音声変化単位対応記号が音素Ａから音素Ｃに変化するものである場合には、第１音声変化単位対応記号の終了を表す記号と第２音声変化単位対応記号の開始を表す記号とが一致しないと判断する。
【００７７】
その結果、第１音声変化単位対応記号の終了を表す記号と第２音声変化単位対応記号の開始を表す記号とが一致しないと判断した場合には、ステップＳ５２に戻って同様の処理を繰り返す。一方、第１音声変化単位対応記号の終了を表す記号と第２音声変化単位対応記号の開始を表す記号とが一致していると判断したときには、第１音声変化単位対応記号と第２音声変化単位対応記号との間繋ぎ目の時間位置と対応する記号を出力する（Ｓ５５）。上記の例でいえば、第１音声変化単位対応記号と第２音声変化単位対応記号の間には音素Ｂがあると判断する。
【００７８】
このような処理を繰り返すことにより、発話単語をＴ４３（図１９）を認識することができる。
【００７９】
このように、本実施形態に係る変化情報認識装置４においては、取得した音声を音声変化単位に分割し、基本音声変化単位との比較を行って音声を検出している。このため、発話された単語等を確実に認識することができる。
【００８０】
次に、本発明の第５の実施形態について説明する。本実施形態では、変化情報として、ジェスチャ認識、歩行者認識、表情認識のような体の各部位の移動および変形に伴う体変化の認識を対象とする。
【００８１】
図２６は、本実施形態に係る変化情報認識装置のブロック構成図である。図２６に示すように、本実施形態に係る変化情報認識装置５は、動画記憶装置５１と、体変化情報記憶装置５２と、体変化比較装置５３と、を備えている。この変化情報認識装置５は、体変化認識装置、歩行者認識装置、表情認識装置などとして用いることができる。
【００８２】
動画記憶装置５１は、図示しない動画撮像装置に接続されている。この動画撮像装置は、認識対象物となる人の体の動画を撮像しており、動画撮像装置は、撮像した動画情報Ｊ５１を動画記憶装置５１に出力している。
【００８３】
体変化情報記憶装置５２は、人の体の動きがとり得るパターンがあらかじめ記憶された複数の体変化単位記憶装置５４Ａ，５４Ｂ…を有している。体変化単位記憶装置５４Ａ，５４Ｂ…には、人の体の動きを表す基本体変化単位があらかじめ記憶されている。
【００８４】
体変化比較装置５３には、動画記憶装置５１から体変化単位情報が出力され、体変化情報記憶装置５２から基本体変化単位情報が出力される。体変化比較装置５３では、これらの体変化単位情報と基本体変化単位情報とを比較することにより、人の体の動きを認識する。さらに、体変化比較装置５３は、図示しない出力装置に接続されており、動画記憶装置５１から出力された画像上における人の体の位置を体変化単位の位置情報Ｊ５２として出力装置に出力する。また、それと同時に、体変化単位に対応する記号情報Ｊ５３を出力装置に出力する。出力装置においては、体変化単位の位置情報Ｊ５２から口の位置情報Ｊ５４を求め、体変化単位に対応する記号情報Ｊ５３から、体動作の識別情報Ｊ５５を求める。
【００８５】
体変化単位記憶装置５４Ａ，５４Ｂ…には、人の動きを示す動画に対応した手、足、腕などの変化を示す基本体変化単位の形状およびその形状に対応する記号情報がそれぞれ記憶されている。たとえば、図２７には、ジェスチャ認識に用いる基本体変化単位の時刻ｔ＝１〜８における画像の例を示している。図２７（ａ）〜（ｈ）に示す基本体変化単位の例では、ｔ＝１の時点で右手を開いた様子を示しており、その手を開いた状態から開始してｔ＝８の時点でその手を閉じるまでの様子を連続的に示している。
【００８６】
本実施形態に係る変化情報認識装置５においては、上記第３の実施形態に係る変化情報認識装置３による変化情報認識方法と同様の方法により、人の体の位置およびその体の動作（体動作）を認識することができる。具体的には、上記第３の実施形態における口基本変形情報記憶装置３２を本実施形態の体変化情報記憶装置５２、口変形状態比較装置３３を体変化比較装置５３に置き換え、図１７に示すフローチャートと同様の手順による処理を行うことにより、体変化単位の位置および体動作を認識することができる。
【００８７】
こうして、動画撮像装置から出力された動画像に基づいて、手や腕の位置と、ジェスチャに対応する記号を得ることができ、その記号からどのようなジェスチャ指示がなされているかを識別することができる。
【００８８】
また、変化情報認識装置５により、動画像上における歩行者の位置およびその動作を認識することもできる。図２８には、歩行者認識に用いる基本体変化単位の時刻ｔ＝１〜１０における画像の例を示している。図２８（ａ）〜（ｊ）に示す基本体変化単位の例では、ｔ＝１の時点における歩行者の姿勢を示しており、その姿勢から開始してｔ＝１０の時点における歩行者の姿勢に至るまでの動作を連続的に示している。これら図２８（ａ）〜（ｊ）に示される歩行者の画像は、体変化情報記憶装置５２における体変化単位記憶装置５４Ａ，５４Ｂ…にそれぞれあらかじめ記憶されている。
【００８９】
図２８に示す例では、上記第３の実施形態に係る変化情報認識装置３と同様の方法により、人の歩行動作（体動作）を認識することができる。この場合も、図１７に示すフローチャートと同様の手順による処理を行うことにより、体変化単位の位置および体動作を認識することができる。こうして、動画撮像装置から出力された動画像に基づいて、歩行者の位置と、歩行者の動作状況を識別することができる。
【００９０】
また、図示はしないが、本実施形態に係る変化情報認識装置５により、人の表情の変化を認識することもできる。人の感情には喜怒哀楽があり、人は、それらの感情に応じた表情または無感情な表情をとる。このように、喜怒哀楽および無表情に対応する顔の５つの画像から、無表情から喜び、怒りから悲しみといった５×４の変化情報単位を用意することにより、動画像における顔の位置およびその顔の表情をも認識することができる。
【００９１】
次に、本発明の第６の実施形態について説明する。本実施形態では、認識対象物となる物体が回転したとき、回転する物体の位置とその回転に伴う変化を認識の対象とする。
【００９２】
図２９は、本実施形態に係る変化情報認識装置のブロック構成図である。図２９に示すように、本実施形態に係る変化情報認識装置６は、動画記憶装置６１と、回転情報記憶装置６２と、回転物体比較装置６３と、を備えている。この本実施形態に係る変化情報認識装置６は、回転物体認識装置として用いることができる。
【００９３】
動画記憶装置６１は、図示しない動画撮像装置に接続されている。この動画撮像装置は、認識対象物となる回転する認識対象物、たとえば人の頭の動画を撮像している。この動画撮像装置は、撮像した動画情報Ｊ６１を動画記憶装置６１に出力している。
【００９４】
回転情報記憶装置６２は、回転する認識対象物の回転パターンがあらかじめ記憶された複数の回転単位記憶装置６４Ａ，６４Ｂ…を有している。回転単位記憶装置６４Ａ，６４Ｂ…には、認識対象物の回転を表す基本回転単位があらかじめ記憶されている。
【００９５】
回転物体比較装置６３には、動画記憶装置６１から回転単位情報が出力され、回転情報記憶装置６２から基本回転単位情報が出力される。回転物体比較装置６３では、これらの回転単位情報と基本回転単位情報とを比較することにより、たとえば人の頭の回転に伴う変化を認識する。さらに、回転物体比較装置６３は、図示しない出力装置に接続されており、動画記憶装置６１から出力された画像上における人の頭の位置を回転単位の位置情報Ｊ６２として出力装置に出力する。また、それと同時に、回転単位に対応する記号情報Ｊ６３を出力装置に出力する。出力装置においては、回転単位の位置情報Ｊ６２から回転物体である人の頭の位置情報Ｊ６４を求め、回転単位に対応する記号情報Ｊ６３から、回転の識別情報Ｊ６５を求める。
【００９６】
回転単位記憶装置６４Ａ，６４Ｂ…には、人の頭の回転を示す動画に対応した頭の向きの変化を示す回転変化単位の形状およびその形状に対応する記号情報がそれぞれ記憶されている。図３０（ａ）〜（ｌ）は、人形の頭部が回転する際の画像を模式的に示している。このうち、図３０（ａ）〜（ｅ）に示す０度から始まって１２０度に到達するまでの回転を第１回転、図３０（ｅ）〜（ｉ）に示す１２０度から始まって２４０度に到達するまでの回転を第２回転、図３０（ｉ）〜（ｌ）を経て（ａ）に戻るまでに示す２４０度から始まって３６０度（０度）に到達するまでの回転を第３回転とする。逆に、図３０（ａ）から始まり、図３０（ｌ）〜（ｉ）に至るまでに示す３６０度（０度）から始まって２４０度に到達するまでの回転を第４回転、図３０（ｉ）〜（ｅ）に示す２４０度から始まって１２０度に到達するまでの回転を第５回転、図３０（ｅ）〜（ａ）に示す１２０度から始まって０度に到達するまでの回転を第６回転とする。これらの第１回転から第６回転までの画像およびそれに対応する記号が、回転単位記憶装置６４Ａ，６４Ｂ…にそれぞれ記憶されている。
【００９７】
本実施形態に係る変化情報認識装置６においては、上記第３の実施形態に係る変化情報認識装置３による変化情報認識方法と同様の方法により、回転する認識対象物からなる回転単位の位置およびその回転動作を認識することができる。具体的には、上記第３の実施形態における口基本変形情報記憶装置３２を本実施形態の回転情報記憶装置６２、口変形状態比較装置３３を回転物体比較装置６３に置き換え、図１７に示すフローチャートと同様の手順による処理を行うことにより、回転単位の位置および回転動作を認識することができる。
【００９８】
こうして、動画撮像装置から出力された動画像に基づいて、回転する認識対象物の位置と、回転単位に対応する記号を得ることができ、その記号からどのような回転状態となっているかを識別することができる。
【００９９】
次に、本発明に第７の実施形態について説明する。図３１は、本実施形態に係る変化情報認識装置のブロック構成図である。図３１に示すように、本実施形態に係る変化情報認識装置７は、学習装置７１と認識装置７２とを備えている。学習装置７１には、特徴空間生成装置７３が設けられており、学習装置７１と認識装置７２とのそれぞれに用いる射影装置７４が設けられている。
【０１００】
学習装置７１における特徴空間生成装置７３には、あらかじめ用意された学習用系列情報Ｊ７１が入力されている。特徴空間生成装置７３には、学習用系列情報Ｊ７１をサンプル用としてたとえば３０程度用意されており、特徴空間生成装置７３は、これらの学習用系列情報Ｊ７１から特徴空間を生成する。
【０１０１】
射影装置７４は、特徴空間生成装置７３および図示しない動画撮像装置に接続されている。特徴空間生成装置７３は、特徴空間を生成するための特徴空間生成情報を射影装置７４に出力する。また、図示しない動画撮像装置は、認識対象物となる口を含む顔の動画を撮像しており、撮像された顔の動画像が認識用系列情報Ｊ７２として動画撮像装置から出力される。射影装置７４は、動画撮像装置から出力された顔の動画像（認識用系列情報Ｊ７２）から、この動画像を特徴空間に射影して得られる射影軌跡を生成している。
【０１０２】
また、学習装置７１には、特徴空間に、後に説明するチューブ状のモデル（以下「ハイパーチューブ」という）を生成するハイパーチューブ生成装置７５が設けられており、学習装置７１および認識装置７２のそれぞれに用いるハイパーチューブ記憶装置７６が設けられている。さらに、認識装置７２には、特徴空間におけるハイパーチューブの変化を認識する系列比較装置７７が設けられている。射影装置７４は、ハイパーチューブ生成装置７５および系列比較装置７７に動画像の射影軌跡を射影軌跡情報として出力する。
【０１０３】
ハイパーチューブ生成装置７５は、射影装置７４から出力された動画像の射影軌跡情報から、特徴空間におけるハイパーチューブを生成し、ハイパーチューブ情報としてハイパーチューブ記憶装置７６に出力する。ハイパーチューブ記憶装置７６では、ハイパーチューブ生成装置７５から出力されたハイパーチューブ情報およびそれぞれのハイパーチューブに対応する記号を記憶している。また、ハイパーチューブ記憶装置７６は、記憶しているハイパーチューブ情報およびそれに対応する記号を系列比較装置７７に出力する。系列比較装置７７では、射影装置７４から出力された射影軌跡およびハイパーチューブ記憶装置７６から出力されたハイパーチューブ情報を比較することにより、変化情報単位の位置およびそれに対応する記号を求める。それから、それぞれ変化情報単位位置情報Ｊ７３および変化情報対応記号情報Ｊ７４として、それぞれ図示しない出力装置に出力する。
【０１０４】
本実施形態に係る特徴空間生成装置７３では、画像から所定の特徴量を取り出して特徴空間で表現している。たとえば、１枚の画像の特徴量が３次元ベクトルで表現される場合、１枚の画像は三次元空間上の１点として表現される。この前提のもと、たとえば図３２（ａ）〜（ｉ）に示す「ん」から「あ」を発話する口の動きを示す９枚の画像を連続させた動画像を入力し、それらの９枚の画像をそれぞれ三次元空間上にプロットする。すると、図３３に示すように、この動画像を表す９枚の各画像は、それらの各画像の点をその時間順に結んだ特徴空間上の軌跡として表現される。
【０１０５】
この特徴量は特に限定されるものではないが、たとえば主成分分析によって得られた上位固有値に対応する固有ベクトルを基底とする空間（固有空間）への射影成分とすることができる。たとえば、いま、画像をベクトルとみなすと、縦１６×横１６画素の濃淡画像は、各要素に濃淡値を持つ１６×１６＝２５６次元のベクトルとして表現することができる。そこで、ベクトルとして表現された多数の画像を学習用系列情報Ｊ７１とし、これらの学習用系列情報Ｊ７１におけるベクトルの分散共分散行列を求め、その固有ベクトルと対応する固有値を求める。そして、固有値の値の大きい方から３つの固有ベクトルを取り出し、これらの３つのベクトルが張る空間を特徴空間（固有空間）とする。そして、学習用系列情報Ｊ７１における２５６次元のベクトルデータを、この特徴空間に射影したときの成分を各軸の値として持つ点を考えると、ある２５６次元空間の１点として表現できる１枚の画像は、三次元空間の１点として表現することができる。
【０１０６】
この点について、さらに具体的に説明すると、たとえば学習用系列情報Ｊ７１として、図１４に示す３０パターンの変形単位の動画像を表す複数の画像を複数の人数分用意する。そのうちの１つのパターンである変形単位、たとえば記号１２で表される変形単位の場合では、「あ」を発音したときの口の形から、「い」を発音したときの口の形まで変形する口の形の変形を連続的に数枚の画像で表現する。このような図１４に示す３０パターンの変形単位について、複数人数分の学習用系列情報Ｊ７１を用意し、これらの学習用系列情報Ｊ７１から特徴空間（固有空間）を求める。
【０１０７】
ここで求められた特徴空間は、学習用系列情報Ｊ７１を用いた口画像をより少ない情報量として表現することができる空間となっている。この特徴空間では、見かけ上わずかな違いしかない変形をしている画像は、特徴空間の中では互いに近い位置の点に射影される。
【０１０８】
次に、ハイパーチューブの生成について説明する。
【０１０９】
特徴空間生成装置７３で特徴空間が生成された後、射影装置７４には学習用系列情報Ｊ７１が出力される。射影装置７４では、生成された特徴空間に学習用系列情報Ｊ７１を射影して射影軌跡を生成する。図３４は、三次元の特徴空間を示しており、この特徴空間に、たとえば「ん」→「あ」の変形を示す折れ線Ｃ１、「ん」→「い」の変形を示す折れ線Ｃ２、「ん」→「う」の変形を示す折れ線Ｃ３、「ん」→「え」の変形を示す折れ線Ｃ４、「ん」→「お」の変形を示す折れ線Ｃ５それぞれが描く軌跡が示されている。そして、これらの軌跡を滑らかな曲線として表現する。
【０１１０】
ところで、当然のことながら、同じ音を発している場合でも、人によって口の形は微妙に異なっているし、口の開き方や口の形も微妙に違う。したがって、同じ発話であっても特徴空間に描かれる軌跡はまったく同じものにはならず、適当なばらつきを持っていることになる。たとえば図３５に示す曲線では、複数の人（６人）がある発話を行った際の口の動きを特徴空間に射影した際の曲線Ｃ１〜Ｃ６を示している。これらの複数の曲線Ｃ１〜Ｃ６に見られるように、特徴空間に描かれる軌跡はまったく同じものにはならず、適当なばらつきを持っている。
【０１１１】
そこで、図３６に示すように、同じ変形を表す複数の軌跡を代表する曲線ＣＣを１つ設定し、その代表軌跡のまわりのばらつきを円Ｅ１，Ｅ２…の半径で表現すると、ちょうどチューブ状のモデルを構成することができる。このチューブ状のモデルをハイパーチューブＨＴとすることができる。
【０１１２】
このハイパーチューブＨＴは、同一の変形を表すものであるが、個人差などによって生じるばらつきを確率的に表現したモデルとであると考えることができる。このハイパーチューブＨＴを生成する際の代表の軌跡ＣＣを求めるには、図３５に示すような同一の変形を表す複数の軌跡Ｃ１〜Ｃ６などを平均したものとすることもできるし、別の適当な計算方法を採用することもできる。また、ばらつきを表す円の半径は、代表軌跡上の各点の進行方向とは垂直の方向にある各軌跡上の点までの距離の分散σ²を求めた上でそのばらつきを正規分布とみなして９５％点である１．９６σを半径とすることもできるし、他の方法を用いて求めてもよい。
【０１１３】
こうして生成したハイパーチューブＨＴを特徴空間上に１つまたは複数配置しておく。複数のハイパーチューブＨＴを配置した場合、１つのハイパーチューブは１つの変形に対応することになる。図３７に複数のハイパーチューブを配置した特徴空間を示すが、たとえばハイパーチューブＨＴ１はある変形Ａ、たとえば発話時の「あ」から「い」への変形を表し、ハイパーチューブＨＴ２は、別の変形Ｂ、たとえば発話時の「う」から「え」への変形を表している。図３７中では、ハイパーチューブはＨＴ１，ＨＴ２の２つが存在している。図中のａ，ｂ，ｃは、射影装置７４から出力された動画像の射影軌跡情報に相当する。
【０１１４】
続いて、本実施形態に係る変化情報認識装置７による変化情報認識方法について説明する。ここでは、まず、ハイパーチューブを生成する手順について説明する。図３８は、本実施形態に係る変化情報認識方法のうち、ハイパーチューブを生成する手順を示すフローチャートである。学習装置７１には、あらかじめ多くの変化情報を学習させてハイパーチューブを生成させる。認識装置７２では、そのハイパーチューブを利用して、変化情報の認識を行う。ハイパーチューブを生成するための学習用系列情報Ｊ７１となる動画像はある音を発音したときの口の形から、別の音を発音したときの口の形への変形を連続して時間順に並べたものである。これを一つの変形単位とすると、認識したいすべての変形分の学習用系列情報Ｊ７１を複数人数、たとえば３００人分それぞれの変化分について用意する（Ｓ７１）。変化単位のパターン数は、図１４に示したとおり３０パターンが必要である。このパターン数は、認識する対象と認識の詳細さによって適宜規定することができる。たとえば、変化情報認識装置７を音声認識装置として用いて音声認識を行う場合、音素の数が２９であれば、とり得る変形のパターンは２９×２８の８１２パターンとなる。
【０１１５】
次に、３００人分用意した学習用系列情報Ｊ７１から、特徴空間生成装置７３を用いて特徴空間を生成する（Ｓ７２）。特徴空間の生成は次のように行われる。一般に、画像の画素ごとの色や濃淡値をそのまま扱おうとすると、情報量が多すぎて計算時間が掛かり過ぎたり、認識には不必要な余計な情報が含まれていたりするために、これらのことが問題となることが多い。そこで、画像から何らかの特徴量を取り出して処理をすることが一般的である。本実施形態では、画素ごとの濃淡値を特徴量として利用する。いま、１枚の画像の画素数をｎとすると、上記のとおり、濃淡画像の場合には画素ごとの濃淡値（特徴量）を要素として持つｎ次元のベクトルとして表現することができ、それはｎ次元空間上の１点として表される。ここで、画像から取り出された特徴量がｍ次元ベクトルで表されるとし、ｍ＜ｎであるならば、ｎ次元の情報量を持つ１枚の画像は、特徴量抽出によりｍ次元に圧縮され、ｍ次元空間上の１点として表すことができる。特徴空間生成装置７３では、このｍ次元の空間を張るｍ本の軸を求める。本実施形態では、３本の軸を求めて３次元空間を生成した場合について説明する。
【０１１６】
特徴空間を求めるにはさまざまな方法があるが、本実施形態では、固有空間を特徴空間としている。固有空間とは、主成分分析により求められた固有ベクトルと固有値のペアのうち、固有値大きい方からｍ個の固有ベクトルが張る空間をいう。１枚の画像をｎ次元のベクトルとみなし、ここではその画像のベクトルをｘと示す。固有空間を求めるには、最低２枚の画像のベクトルが必要であるが、画像が多量にあることが望ましい。これらの複数の画像におけるそれぞれのベクトルｘを入力して分散共分散行列を、下記（１）式によって算出する。
【０１１７】
Ｓ＝Ｅ[（ｘ−ｍ_x）（ｘ−ｍ_x）^T] ・・・（１）
ここで、ｍ_xは、複数のベクトルｘの平均ベクトルで、ｍ_x＝Ｅ[ｘ]と定義される。
【０１１８】
次に、（２）式に示す固有値問題を解く。
【０１１９】
Ｓｕ_j＝λ_jｕ_j ・・・（２）
上記（２）式において、求めるべき固有空間の次元をｍ次元とすると、固有値の大きさを比較し、大きい方からｍ個の固有値に対応する固有ベクトル[ｕ₁，ｕ₂，・・・，ｕ_m]によって張られる空間が特徴空間となる。本実施形態では、３次元の固有空間を生成する（ｍ＝３）ので、固有ベクトル[ｕ₁，ｕ₂，ｕ₃]から３次元の固有空間を生成する。
【０１２０】
こうして特徴空間を生成したら、射影装置７４には、学習用系列情報Ｊ７１が出力されるとともに、特徴空間生成装置７３から特徴空間生成情報である固有ベクトルｕ（＝[ｕ₁，ｕ₂，・・・，ｕ_m]）が出力される。射影装置７４では、動画像を特徴空間に射影して得られる射影軌跡を生成する。この射影軌跡としては、上記固有ベクトルｕを利用し、学習用系列情報Ｊ７１の画像におけるｎ次元ベクトルｘを下記（３）式によって変換されてなるｍ次元特徴ベクトルｙを用いることができる。
【０１２１】
ｙ＝[ｕ₁，ｕ₂，・・・，ｕ_m]^Tｘ・・・（３）
上記のように、本実施形態では、ｍ＝３としているので、３次元特徴ベクトルｙとする。
【０１２２】
こうして特徴空間および３次元特徴ベクトルを生成したら、特徴空間生成装置７３は特徴空間をハイパーチューブ生成装置７５に出力し、射影装置７４は、３次元特徴ベクトルをハイパーチューブ生成装置７５に出力する。ハイパーチューブ生成装置７５では、出力された特徴空間および３次元特徴ベクトルに基づいて、ハイパーチューブを生成する。ハイパーチューブを生成する前提として、１枚の画像は３次元特徴空間上の１点に射影されることになるので、一連の変形を表す画像列はその３次元特徴空間上の点の軌跡として表すことができる。ここで、学習用系列情報Ｊ７１が、複数の変形単位ごとに用意されているので、射影装置７４からは、学習用系列情報Ｊ７１の数に対応する複数の３次元特徴ベクトル列が出力される。ハイパーチューブ生成装置７５では、これらの複数の３次元特徴ベクトル列を、射影前の学習用系列情報Ｊ７１における変形単位ごとに分類する（Ｓ７３）。続いて、射影前の学習用系列情報Ｊ７１における変形単位ごとに分類された３次元特徴ベクトル列を、それらの変形単位ごとに特徴空間にプロットする、変形単位の数に対応した複数の軌跡を求める（Ｓ７４）。これらの軌跡は、たとえば図３５に示す曲線Ｃ１〜Ｃ６で表される。
【０１２３】
こうして、特徴空間における複数の軌跡を求めたら、これらの複数の軌跡を代表する代表軌跡を求める（Ｓ７５）。代表軌跡は、様々の方法により求めることができるが、ここでは得られる複数の軌跡の平均を採用する方法について説明する。いま、各軌跡は同一の種類の変形を表す軌跡であるので、特徴空間上ではおおむね似た軌跡を描く。しかし、同一の種類の変形を表す場合でも、その系列を構成する３次元特徴ベクトルの数と配置は同じとは限らない。いま、特徴空間に３次元特徴ベクトルをプロットした点をつないで形成した３つの軌跡の例を図３９（ａ）に示す。図３９に示す例では、同一の変形を示す３つの軌跡Ｃ１１〜Ｃ１３を示しており、軌跡Ｃ１１は、特徴空間にプロットされた６つの点Ｐ１１〜Ｐ１６をつないで形成されている。これに対して、軌跡Ｃ１２は、特徴空間にプロットされた５つの点Ｐ２１〜Ｐ２５を、軌跡Ｃ１３は、特徴空間にプロットされた５つの点Ｐ３１〜Ｐ３５をそれぞれつないで形成されている。
【０１２４】
そこで、各軌跡が同数の点から構成されるように、各軌跡Ｃ１１〜Ｃ１３上の点をプロットし直す再設定を行う。各軌跡Ｃ１１〜Ｃ１３上の点をプロットし直す方法としては、スプライン曲線法などのさまざまな方法があるが、ここでは、単純に軌跡Ｃ１１〜Ｃ１３を、それぞれが同じ距離比率となるように設定する。そのため、図４０に示すように、各軌跡Ｃ１１〜Ｃ１３をそれぞれ７つの点から構成されるように、点を配置しなおしている。こうして、軌跡Ｃ１１上には点Ｐ４１〜Ｐ４７、軌跡Ｃ１２上には点Ｐ５１〜Ｐ５７、軌跡Ｃ１３上には点Ｐ６１〜Ｐ６７がそれぞれ配置された形になる。
【０１２５】
そして、これらの各軌跡Ｃ１１〜Ｃ１３について、それぞれ順番が対応する点の座標値の平均を算出し、この座標値の平均にあたる点をそれぞれプロットして、これらの点をつなぎ合わせる。具体的には、軌跡Ｃ１１における点Ｐ４１、軌跡Ｃ１２における点Ｐ５１、軌跡Ｃ１３における点Ｐ６１の座標の平均値を計算して、点Ｐ７１の座標を算出する。同様に、点Ｐ４２，Ｐ５２，Ｐ６２の座標から点Ｐ７２の座標、点Ｐ４３，Ｐ５３，Ｐ６３の座標から点Ｐ７３の座標、点Ｐ４４，Ｐ５４，Ｐ６４の座標から点Ｐ７４の座標を算出する。また、点Ｐ４５，Ｐ５５，Ｐ６５の座標から点Ｐ７５の座標、点Ｐ４６，Ｐ５６，Ｐ６６の座標から点Ｐ７６の座標、点Ｐ４７，Ｐ５７，Ｐ６７の座標から点Ｐ７７の座標をそれぞれ算出する。こうして求められた各点Ｐ７１〜Ｐ７７をつなぎ合わせることにより、代表軌跡ＣＣを生成することができる。
【０１２６】
こうして、代表軌跡を求めたら、代表軌跡の各点について、その周囲の軌跡までの距離の分散を求める（Ｓ７６）。この分散は、代表軌跡ＣＣ上の各点Ｐ７１〜Ｐ７７における代表軌跡ＣＭの進行方向と直交する方向に超平面を仮定し、この超平面と各軌跡Ｃ１１〜Ｃ１３とが交差したとの距離の分散によって求めることができる。なお、本実施形態では３次元空間の例を示しているので、超平面ではなく二次元の平面であるが、説明の容易のため、以降も超平面と記述する。この点について、図４１を用いて説明すると、代表軌跡ＣＭ上の点Ｐ７２における代表軌跡ＣＭの進行方向と直交する超平面ＳＰ２を仮定する。この超平面ＳＰ２と、各軌跡Ｃ１１〜Ｃ１３とが交差する各点Ｐ４２Ａ，Ｐ５２Ａ，Ｐ５３Ａを求める。そして、点Ｐ７２と点Ｐ４２Ａとの距離、点Ｐ７２と点５２Ａとの距離、および点Ｐ７２と点６２Ａとの距離の分散を求める。そして、この分散を、たとえば下記（４）式に示す関数における引数ｘに代入する。
【０１２７】
ｆ（ｘ）＝１．９６（ｘ）^1/2 ・・・（４）
なお、ここで用いた係数の１．９６は、係数の一例である。
【０１２８】
そして、図４２に示すように、この（４）式における引数ｘとして求めたｆ（ｘ）を入力した値を半径とする円Ｅ２を超平面ＳＰ２上に設定する。また、代表軌跡ＣＣ上におけるその他の各点Ｐ７１、Ｐ７３〜Ｐ７７についても、同様の処理によって超平面ＳＰ１，ＳＰ３〜ＳＰ７を求め、その上に図３６に示すような円Ｅ１，Ｅ３〜Ｅ７を求める。こうして、分散を引数とした関数の値を半径とする円Ｅ１〜Ｅ７を各点Ｐ７１〜Ｐ７７に設定して（Ｓ７７）、これらの円Ｅ１〜Ｅ７をつなげることにより、図３６に示すようなハイパーチューブＨＴを生成することができる。
【０１２９】
このようにしてハイパーチューブを生成した後に、認識処理を行うことができるようになる。続いて、ハイパーチューブを用いた変化認識の処理について説明する。図４３は、本実施形態に係る変化情報認識方法の手順を示すフローチャートである。
【０１３０】
まず、図示しない動画像撮像において、認識対象物となる人の口を含む顔の動画像を撮像し、認識用系列情報として射影装置７４に出力する。射影装置７４においては、入力された動画像に対して、適当な大きさのウィンドウを設定する（Ｓ８１）。ウィンドウを設定したら、このウィンドウに合わせて、出力された動画像の一部を切り取る（Ｓ８２）。このようにして動画像の一部を切り取ることにより、ウィンドウの大きさに切り取られた動画を得ることができる。続いて、切り取ったウィンドウの大きさを適宜拡大縮小し、最終的に動画の大きさを学習用画像（学習用系列情報Ｊ７１作成する際に用いる画像）の大きさに合わせる（Ｓ８３）。こうして、大きさを調整されたウィンドウにおける動画を、特徴空間生成装置７３で生成した特徴空間上に、ハイパーチューブを作成したのと同様の手順によって、その軌跡として写像し、入力系列軌跡を生成する（Ｓ８４）。こして生成した入力系列軌跡は、系列比較装置７７に出力される。また、系列比較装置７７には、ハイパーチューブ記憶装置７６に記憶されている複数のハイパーチューブおよびそのハイパーチューブに対応する記号が出力される。
【０１３１】
系列比較装置７７では、射影装置７４から出力された入力系列軌跡およびハイパーチューブ記憶装置７６から出力されたハイパーチューブを比較し、両者の適合度を求める（Ｓ８５）。両者の適合度は次のようにして求めることができる。上述のように、ハイパーチューブＨＴは、同一の変形に対して生じる個体差を確率的に表現したモデルである。このモデルは、代表軌跡ＣＣ上の各位置についてそのばらつきを円の半径で表現した確率密度関数とみなすことができるので、入力系列軌跡とハイパーチューブとの適合度は、確率として計算することができる。図４４（ａ）は、ある変形を表すハイパーチューブＨＴおよび入力系列軌跡ＩＬの軌跡を合わせて示したものである。ここで、ハイパーチューブＨＴは、代表軌跡ＣＣを有している。ハイパーチューブＨＴが示す変形単位は、ハイパーチューブＨＴ内の進行方向により２種類、正反対の変形を考えることができる。ここでは矢印Ｙの方向に沿った変形単位であるとすると、図４４（ｂ）に示すように、ハイパーチューブの開始点を０、終了点を１とする横軸上に、代表軌跡ＣＣからの距離を横軸とするグラフに対応付けすることができる。このグラフは、ちょうどハイパーチューブを水平に引き伸ばしたものとみなすことができる。
【０１３２】
ここで、代表軌跡ＣＣ上の位置ｘにおけるハイパーチューブの半径を定義域０≦ｘ≦１に対する関数ｐ（ｘ）とし、代表軌跡ＣＣ上の位置ｘからの入力系列軌跡ＩＬに対する距離をｆ（ｘ）とすると、ハイパーチューブｉと入力系列の適合度ｓ_iは下記（５）式で表すことができる。
【０１３３】
【数１】

（５）式において、Ｎ_(0,1)（ｘ）は、平均０、分散１の正規確率密度関数とする。上記（５）式により、入力系列軌跡ＩＬと、ハイパーチューブＨＴとの適合度を求めることができる。
【０１３４】
このような適合度を複数のハイパーチューブＨＴに対して求め、全てのハイパーチューブＨＴと入力系列軌跡ＩＬとの適合度との計算が終了したか否かを判断し（Ｓ８６）、終了していない場合には、ステップＳ８５に戻って他のハイパーチューブＨＴと入力系列軌跡ＩＬとの適合度を計算する。一方、すべてのハイパーチューブＨＴに対して適合度を計算したら、その入力系列軌跡ＩＬとの適合度が所定のしきい値より大きいハイパーチューブＨＴを選択し（Ｓ８７）、そのハイパーチューブＨＴおよびそれに対応する記号を記憶しておく。
【０１３５】
入力系列は、入力動画をウィンドウに合わせて切り取ったものであるので、ウィンドウを移動あるいは拡大縮小し、入力動画における他の部分についても同様の一連の処理を繰り返す。そのため、入力動画の全ての領域について、上記の処理を行ったか否かを判断する（Ｓ８８）。その結果、いまだ処理されていない領域がある場合には、切り取り用のウィンドウを移動または拡大縮小し（Ｓ８９）、ステップＳ８２に戻って、同様の処理を繰り返す。一方、すべての領域での処理が終了したと判断したときには、選択されたハイパーチューブＨＴに対応する変化情報対応記号情報Ｊ７４（図３１）およびそのときのウィンドウの変化情報単位位置情報Ｊ７３を図示しない出力装置に出力する（Ｓ９０）。このようにして、学習用系列情報からハイパーチューブを生成し、それを特徴空間に配置して入力系列との適合度を計算することにより、入力動画像中における認識対象物の位置と変形の種別を検出することができる。
【０１３６】
なお、本実施形態において、ある動画像を入力すると、その動画像は特徴空間上の軌跡としてあらわされることになるが、その軌跡と各ハイパーチューブとの評価値を計算する手段を備えることにより、入力された軌跡の全部または一部がある一定値以上（または一定値以下）の評価値を持つ場合、その中で最も評価値が高い（または低い）ハイパーチューブに対応する変形を認識する態様とすることができる。
【０１３７】
また、本実施形態においては、学習用系列情報から求めたハイパーチューブにより、口の動きから発話を認識する態様について説明したが、他の変形情報に対しても同様のハイパーチューブを生成した変形認識を行うことができる。たとえば、変化情報が音声取得手段から取得された音声変化である場合、「あ」→「い」、「あ」→「う」への周波数の変化をハイパーチューブで表すことができる。変化情報が動画像撮像手段で撮像された動画中におけるジェスチャの変化である場合、手を閉じた状態から開いた状態への変化をハイパーチューブで表すことができる。変化情報が動画像撮像手段で撮像された歩行者の歩行状態の変化である場合には、１回の歩行動作における変形をハイパーチューブで表すことができる。さらに、変化情報が動画像撮像手段で撮像された表情の変化である場合、無表情から喜びの表情への変化をハイパーチューブで表すこともできる。変化情報が動画像撮像手段で撮像された回転物体の変化である場合には、顔の向きが０度の状態から９０度の状態に変化する際の変化をハイパーチューブで表すことができる。
【０１３８】
次に、本発明に第８の実施形態について説明する。
【０１３９】
図４５は、本実施形態に係る変化情報認識装置のブロック構成図である。図４５に示すように、本実施形態に係る変化情報認識装置８は、上記第７の実施形態と比べて、軌跡の連続性保存装置８８および部分系列切り取り装置８９が設けられている点において主に異なる。
【０１４０】
連続性保存装置８８には、ハイパーチューブにおける代表軌跡に相当する軌跡の連続性が保存されている。軌跡の連続性は、軌跡の変化量が、所定のしきい値以下となっているか否かによって判断され、所定のしきい値以下のときに連続性があると判断する。連続性保存装置８８には、部分系列切り取り装置８９が接続されており、部分系列切り取り装置８９には、連続性保存装置８８に保存された軌跡の連続性が連続性保存装置８８から出力される。
【０１４１】
次に、本実施形態に係る変化情報認識方法について説明する。本実施形態に係る変化情報認識方法においては、上記第７の実施形態と同様、学習用系列情報が学習装置８１に出力される。学習装置８１では、出力された学習用系列情報Ｊ７１から特徴空間生成装置８３において特徴空間を生成し、ハイパーチューブ生成装置８５においてハイパーチューブを生成し、生成されたハイパーチューブをハイパーチューブ記憶装置８６が記憶する。
【０１４２】
一方、認識装置８２においては、図示しない動画像撮像手段によって撮像された動画に基づく情報が出力される。この情報として、上記第７の実施形態では、認識用系列情報が出力されたが、本実施形態では、この点については異なる。本実施形態では、図示しない動画像撮像手段によって撮像された動画像からなる入力系列情報Ｊ８２を、部分切り取り装置８９によって部分系列情報Ｊ８３に切り取る。ここで、部分系列切り取り装置８９には、軌跡の連続性が出力されており、部分系列切り取り装置８９では、この軌跡の連続性に基づいて入力系列情報Ｊ８２を切り取り、部分系列情報Ｊ８３を生成する。
【０１４３】
ここで、たとえば上記第７の実施形態では、入力動画の一部をウィンドウに合わせて切り取るにあたり、図４６に示すように動画を構成する一定時間の間、切り取るウィンドウを動かすことについては想定されていないものである。このことは、変形している物体が画像中で静止していることを前提としているものであるので、認識対象物が画像内で移動してしまうと、認識対象物を検出できなくなってしまうおそれがある。実際のシーンでは、認識対象物は移動していることも少なくなく、このような場合には対応できないことになってしまう。
【０１４４】
これに対して、本実施形態に係る変化認識方法では、軌跡の変化の連続性に対応させて、動画像の部分系列情報を形成するように、入力系列情報を切り取っている。認識対象物が移動していたとして、図４７（ａ）に示すように、ウィンドウＷが正しく認識対象物となる口Ｍを追跡できていたとすると、図４７（ｂ）に示すように、特徴空間に射影される射影軌跡Ｃは特定のハイパーチューブＨＴと適合度が高く、かつ特徴空間内において滑らかな曲線を描く。また、通常のテレビ信号程度のフレームレート（たとえば３０Ｈｚ）があれば、シーンに写る物体の移動は隣接したフレーム間ではわずかであり、変化もあまり急激でない。このため、通常、追跡されるウィンドウＷの位置の変化も滑らかな軌跡を描くことになる。
【０１４５】
したがって、特徴空間内におけるハイパーチューブの軌跡の連続性と、入力系列情報におけるウィンドウＷの移動軌跡の連続性が同時に満たされるようにウィンドウＷを移動させることにより、変形しながら移動する口Ｍを検出・追跡し、その変形の様子も同時に検出することができる。こうして、部分系列情報Ｊ８３を生成し、部分系列情報を射影装置８４に出力する、射影装置８４では、部分系列情報Ｊ８３を特徴空間に射影して部分系列の軌跡情報Ｊ８４を生成し、系列比較装置８７に出力する。系列比較装置８７では、射影装置７４から出力された部分系列の軌跡およびハイパーチューブ記憶装置７６から出力されたハイパーチューブを比較し、両者の適合度を上記第７の実施形態と同様の方法によって求める。そして、上記第７の実施形態と同様にして選択されたハイパーチューブＨＴに対応する記号情報Ｊ８６およびそのときのウィンドウの位置情報Ｊ８５を図示しない出力装置に出力する。このようにして、動画像中の認識対象物の位置と変形の種別を検出することができる。
【０１４６】
このように、本実施形態に係る変化認識方法においては、軌跡の連続性を保存する連続性保存手段を設けたので、動画像中で移動する認識対象物の変形およびその位置を確実に認識することができる。
【０１４７】
なお、上記実施形態における図１および図１２では、実施形態の説明を容易にするために、人の口を例にして説明したが、物体の変形を伴うものであれば容易に他のものにも容易に適用することができる。
【０１４８】
【発明の効果】
以上のとおり、本発明によれば、認識対象物の変化状態を正確に認識して、たとえば人の話す言葉などを認識することができるようにした変化情報認識装置および変化情報認識方法を提供することができる。
【図面の簡単な説明】
【図１】本発明の第１の実施形態に係る変化情報認識装置のブロック構成図である。
【図２】口を含む顔の画像を模式的に示す図である。
【図３】（ａ）、（ｂ）ともに、口の形状の連続的な変化の状態を示すテンプレートを模式的に示す図である。
【図４】画像中における口の形状の連続的な変化の状態を模式的に示す図である。
【図５】画像中における口の形状と、テンプレートにある口の形状の一致する位置を模式的に示す図である。
【図６】（ａ）〜（ｆ）のいずれも、従来の口の形状のテンプレートを模式的に示す図である。
【図７】第１の実施形態に係る変化情報認識方法の手順を示すフローチャートである。
【図８】（ａ）は、静止画における口と認識しうる位置を模式的に示す図、（ｂ）は、動画における口と認識しうる位置を模式的に示す図である。
【図９】第２の実施形態に係る変化情報認識装置のブロック構成図である。
【図１０】（ａ）は口の変化パターンを時間ごとに模式的に示した図、（ｂ）は（ａ）の前半部分の変化を模式的に示した図、（ｃ）は（ａ）の後半部分の変化を模式的に示した図である。
【図１１】第２の実施形態に係る変化情報認識方法の手順の要部を示すフローチャートである。
【図１２】口を含む画像における連続的な変化の状態を模式的に示す図である。
【図１３】第３の実施形態に係る変化情報認識装置のブロック構成図である。
【図１４】発音の変化とそれに割り当てた記号の対応関係を示す表である。
【図１５】「あ」の母音を発する口に形状から、「い」の母音を発する口の形状に至るまでの口の変形過程を模式的に示す図である。
【図１６】（ａ）は「おはようございます」の音を示す図、（ｂ）は（ａ）に音にそれぞれ対応する口の形状を模式的に示す図、（ｃ）は音の変化に対応する記号をそれぞれ示す図である。
【図１７】第３の実施形態に係る変形情報認識方法の手順の要部を示すフローチャートである。
【図１８】（ａ）は「あ」から「い」に変化する口の形状の変化を模式的に示す図、（ｂ）は「い」から「う」に変化する口の形状の変化を模式的に示す図である。
【図１９】第４の実施形態に係る変化情報認識装置のブロック構成図である。
【図２０】（ａ）はある音声を発したときの時刻ｔ＝１〜３に変化したときの波形をそれぞれの時刻で表すグラフ、（ｂ）は他の音声を発したときの時刻ｔ＝１〜３に変化したときの波形をそれぞれの時刻で示すグラフである。
【図２１】ある一定のフレーム間隔をおいて、一定のフレーム長の長さのフレーム長に切り取られる音声変化情報を概概略的に示す図である。
【図２２】（ａ）〜（ｈ）とも、Ｔ１〜Ｔ８の時間の８つに切り取られた音声変化情報から作成された音声変化単位の波形を示すグラフである。
【図２３】音声変化単位を示すグラフと、音声を発したときの時刻ｔ＝１〜３に変化したときの波形をそれぞれの時刻で表すグラフの一致する部分を説明する図である。
【図２４】第４の実施形態に係る変形情報認識方法の手順を示すフローチャートである。
【図２５】第４の実施形態に係る音声認識の手順を示すフローチャートである。
【図２６】第５の実施形態に係る変化情報認識装置のブロック構成図である。
【図２７】ジェスチャ認識に用いる基本体変化単位の時刻における画像の例を模式的に示す図である。
【図２８】歩行者認識に用いる基本体変化単位の時刻における画像の例を示す図である。
【図２９】第６の実施形態に係る変化情報認識装置のブロック構成図である。
【図３０】（ａ）〜（ｌ）とも、人形の頭部が回転する際の画像を模式的に示す図である。
【図３１】第７の実施形態に係る変化情報認識装置のブロック構成図である。
【図３２】「ん」から「あ」を発話する口の動きを示す９枚の画像を連続させた動画像を模式的に示す図である。
【図３３】図３２に示す動画像に基づいて作成した特徴空間上のグラフを示す図である。
【図３４】他の変形パターンを含めて、動画像に基づいて作成した特徴空間上のグラフを示す図である。
【図３５】複数の人のある発話での口の動きを特徴空間に射影した際の曲線を示す図である。
【図３６】特徴空間に生成されたハイパーチューブを示す図である。
【図３７】複数のハイパーチューブを配置した特徴空間を示す図である。
【図３８】ハイパーチューブを生成する手順を示すフローチャートである。
【図３９】特徴空間に３次元特徴ベクトルをプロットした点をつないで形成した３つの軌跡を示す図である。
【図４０】３つの軌跡とそれらの軌跡に基づいて形成された代表軌跡を示す図である。
【図４１】代表軌跡を求める際に生成する超平面を求める手順を説明するための図である。
【図４２】代表軌跡を求める際の手順を説明するための超平面を示す図である。
【図４３】第７の実施形態に係る変化情報認識方法の手順を示すフローチャートである。
【図４４】（ａ）は、ある変形を表すハイパーチューブＨＴおよび入力系列軌跡ＩＬの軌跡を合わせて示した図、（ｂ）はハイパーチューブの開始点を０、終了点を１とする横軸上に、代表軌跡からの距離を縦軸とするグラフに対応付けした状態を示す図である。
【図４５】第８の実施形態に係る変化情報認識装置のブロック構成図である。
【図４６】一定時間切り取るウィンドウを動かすことなく動画を撮像した状態を説明するための図である。
【図４７】（ａ）は切り取るウィンドウを動かして口を追跡した動画を説明する図、（ｂ）は（ａ）に対応する特徴空間上の軌跡とハイパーチューブとを示す図である。
【符号の説明】
１〜８…変化情報認識装置、１１…系列情報記憶装置、１２…基本変化情報記憶装置、１３…変化状態比較装置、２１…系列情報記憶装置、２２…基本変化情報記憶装置、２３…変化状態比較装置、２４（２４Ａ，２４Ｂ）…基本変化情報単位記憶装置、３１…動画記憶装置、３２…口基本変形情報記憶装置、３３…口変形状態比較装置、３４Ａ，３４Ｂ…口基本変形単位記憶装置、４１…波形解析装置、４２…音声波形記憶装置、４３…音声情報記憶装置、４４…音声変化比較装置、４５Ａ，４５Ｂ…音声変化単位記憶装置、５１…動画記憶装置、５２…体変化情報記憶装置、５３…体変化比較装置、５４Ａ，５４Ｂ…体変化単位記憶装置、６１…動画記憶装置、６２…回転情報記憶装置、６３…回転物体比較装置、６４Ａ，６４Ｂ…回転単位記憶装置、７１…学習装置、７２…認識装置、７３…特徴空間生成装置、７４…射影装置、７５…ハイパーチューブ生成装置、７６…ハイパーチューブ記憶装置、７７…系列比較装置、８１…学習装置、８２…認識装置、８３…特徴空間生成装置、８４…射影装置、８５…ハイパーチューブ生成装置、８６…ハイパーチューブ記憶装置、８７…系列比較装置、８８…連続性保存装置、８９…部分系列切り取り装置、Ｃ…射影軌跡、Ｃ１〜Ｃ５…軌跡（折れ線、曲線）、Ｃ１１〜Ｃ１３…軌跡、ＣＣ…代表軌跡、Ｇ１…画像、ＨＴ（ＨＴ１〜ＨＴ３）…ハイパーチューブ、ＩＬ…入力系列軌跡、Ｍ…口、Ｐ…変化パターン、Ｐ１〜Ｐ４，Ｔ１〜Ｔ６…テンプレート、ＳＰ１〜ＳＰ３…超平面、Ｗ…ウィンドウ。

Claims

認識対象物の変化情報を取得する変化情報取得手段と、
前記認識対象物に対応付けられ、特徴空間上の情報の系列として設定された複数の基本変化系列情報としての複数の基本変化情報から生成されたハイパーチューブをあらかじめ記憶する基本変化情報記憶手段と、
前記変化情報取得手段で取得された前記認識対象物の変化系列情報を前記特徴空間へ射影して射影変化情報を作成する変化情報射影装置と、
前記変化情報射影装置で作成された前記認識対象物の射影変化情報と、あらかじめ記憶された前記ハイパーチューブとを比較して、前記認識対象物の変化状態を検出する変化状態比較手段と、を備え、
前記複数の基本変化情報である複数の軌跡に基づいて代表軌跡を求め、前記代表軌跡と前記複数の軌跡との関係に基づいて前記ハイパーチューブが生成されていることを特徴とする変化情報認識装置。
前記代表軌跡と前記複数の軌跡との関係は、前記代表軌跡と前記複数の軌跡のそれぞれに対する距離との分散である請求項１に記載の変化情報認識装置。
前記基本変化情報は、前記認識対象物の変化に応じて対応付けされた変化情報単位に分割した情報として、前記基本変化情報記憶手段に記憶されている請求項１または請求項２に記載の変化情報認識装置。
前記変化情報取得手段は、前記認識対象物を撮像する撮像手段であり、
前記変化情報は、発話に伴う口の画像の変化である請求項１〜請求項３のうちのいずれか１項に記載の変化情報認識装置。
前記変化情報取得手段は、前記認識対象物が発生する音を取得する集音手段であり、
前記変化情報が、前記認識対象物が発生する音の周波数の変化である請求項１〜請求項３のうちのいずれか１項に記載の変化情報認識装置。
前記変化情報取得手段は、前記認識対象物を撮像する撮像手段であり、
前記変化情報が、前記認識対象物の動きによる画像の変化である請求項１〜請求項３のうちのいずれか１項に記載の変化情報認識装置。
前記変化情報取得手段は、前記認識対象物を撮像する撮像手段であり、
前記変化情報が、前記認識対象物の回転による画像の変化である請求項１〜請求項３のうちのいずれか１項に記載の変化情報認識装置。
前記変化状態比較手段は、前記ハイパーチューブの連続性と、前記射影変化情報の連続性とを比較することにより、前記認識対象物の変化状態を検出する請求項１〜請求項７のうちのいずれか１項に記載の変化情報認識装置。
前記変化情報取得手段で取得された前記認識対象物の変化系列情報に基づいて、前記基本変化系列情報を作成する学習手段を備える請求項１〜請求項８のうちのいずれか１項に記載の変化情報認識装置。
変化情報取得手段が、認識対象物の変化情報を取得する変化情報取得工程と、
基本変化情報記憶手段が、前記認識対象物に対応付けられ、特徴空間上の情報の系列として設定された複数の基本変化系列情報としての複数の基本変化情報から生成されたハイパーチューブをあらかじめ記憶する基本変化情報予備記憶工程と、
変化情報射影装置が、前記変化情報取得手段で取得された前記認識対象物の変化系列情報を前記特徴空間へ射影して射影変化情報を作成する変化情報射影工程と、
変化状態比較手段が、前記変化情報射影装置で作成された前記認識対象物の射影変化情報と、あらかじめ記憶された前記ハイパーチューブとを比較して、前記認識対象物の変化状態を検出する変化状態比較工程と、を備え、
前記複数の基本変化情報である複数の軌跡に基づいて代表軌跡を求め、前記代表軌跡と前記複数の軌跡との関係に基づいて、前記基本変化情報記憶手段が記憶する前記ハイパーチューブが生成されていることを特徴とする変化情報認識方法。
前記変化情報記憶手段は、前記基本変化予備記憶工程で、前記基本変化情報を、前記認識対象物の変化に応じて対応付けされた変化情報単位に分割した情報として、あらかじめ記憶しておく請求項１０に記載の変化情報認識方法。