以下、図面を参照しながら、本発明の実施の形態を説明する。
1.対象物の動きを示す複数の動画データを提供する装置
図1Aは、本発明の装置10が2つの動画データ20、25から複数の動画データ30を提供することを模式的に示している。動画データ20は、大きい手ぶりの「ありがとう」の手話をしている手話者をビデオカメラで撮影して取得されたデータである。動画データ25は、小さい手ぶりの「ありがとう」の手話をしている手話者をビデオカメラで撮影して取得されたデータである。
本発明の装置10は、動画データ20と動画データ25とを受信する。本発明の装置10は、動画データ20と動画データ25とに基づいて、動画データ20、25が示す手話の手ぶりとは異なる手ぶりで、または、動画データ20、25が示すシチュエーションとは異なるシチュエーション下で、「ありがとう」の手話をしている手話者をあたかも撮影したかのような動画データを含む複数の動画データ30を提供する。
図1Bは、本発明の装置10によって提供される複数の動画データ30の一例を示す。複数の動画データ30は、本発明の装置10によって受信された動画データ20、25、動画データ20、25が示す手話の手ぶりとは異なる手ぶりで「ありがとう」の手話をしている手話者をあたかも撮影したかのような複数の動画データ40、50、60、動画データ20、25が示すシチュエーションとは異なるシチュエーション下で「ありがとう」の手話をしている手話者をあたかも撮影したかのような複数の動画データ70、80、90、100、110、120、130、140、動画データ20、25が示す手話の手ぶりとは異なる手ぶりで、かつ、動画データ20、25が示すシチュエーションとは異なるシチュエーション下で、「ありがとう」の手話をしている手話者をあたかも撮影したかのような複数の動画データ150、160、170、180、190、200、210、220を含む。
動画データ20、25が示す手話の手ぶりとは異なる手ぶりで「ありがとう」の手話をしている手話者をあたかも撮影したかのような動画データ40、50、60は、例えば、大きい手ぶりの「ありがとう」と小さい手ぶりの「ありがとう」とに比べて中くらいの手ぶりで「ありがとう」の手話をしている手話者をあたかも撮影したかのような動画データ40、中くらいの手ぶりの「ありがとう」よりも少し大きい手ぶりで「ありがとう」の手話をしている手話者をあたかも撮影したかのような動画データ50、中くらいの手ぶりの「ありがとう」よりも少し小さい手ぶりで「ありがとう」の手話をしている手話者をあたかも撮影したかのような動画データ60を含み得る。
動画データ20、25が示すシチュエーションとは異なるシチュエーション下で「ありがとう」の手話をしている手話者をあたかも撮影したかのような動画データ70、80、90、100、110、120、130、140は、例えば、大きい手ぶりの「ありがとう」の手話について、明るさが動画データ20、25のものとは異なる環境下であたかも撮影されたかのような動画データ70、80、90、100、および光源の位置が動画データ20、25のものとは異なる環境下であたかも撮影されたかのような動画データ110、120、130、140を含み、小さい手ぶりの「ありがとう」の手話について、明るさが動画データ20、25のものとは異なる環境下であたかも撮影されたかのような動画データ、および光源の位置が動画データ20、25のものとは異なる環境下であたかも撮影されたかのような動画データを含む。
明るさが動画データ20、25のものとは異なる環境下で撮影されたかのような動画データ70、80、90、100は、例えば、明るい環境下であたかも撮影されたかのような動画データ70、暗い環境下であたかも撮影されたかのような動画データ80、少し明るい環境下であたかも撮影されたような動画データ90、少し暗い環境下であたかも撮影されたかのような動画データ100を含み得る。
光源の位置が動画データ20、25のものとは異なる環境下で撮影されたかのような動画データ110、120、130、140は、例えば、光源がカメラの正面にある逆光の環境下であたかも撮影されたかのような動画データ110、光源がカメラの背後にある順光の環境下であたかも撮影されたかのような動画データ120、光源がカメラの右側にある環境下であたかも撮影されたかのような動画データ130、光源がカメラの左側にある環境下であたかも撮影されたかのような動画データ140を含み得る。
動画データ20、25が示す手話の手ぶりとは異なる手ぶりで、かつ、動画データ20、25が示すシチュエーションとは異なるシチュエーション下で、「ありがとう」の手話をしている手話者をあたかも撮影したかのような複数の動画データ150、160、170、180、190、200、210、220は、例えば、大きい手ぶりの「ありがとう」と小さい手ぶりの「ありがとう」とに比べて中くらいの手ぶりの「ありがとう」の手話について、明るさが動画データ20、25のものとは異なる環境下であたかも撮影されたかのような動画データ150、160、170、180、光源の位置が動画データ20、25のものとは異なる環境下であたかも撮影されたかのような動画データ190、200、210、220を含み得る。
中くらいの手ぶりの「ありがとう」の手話について、明るさが動画データ20、25のものとは異なる環境下で撮影されたかのような動画データ150、160、170、180は、例えば、明るい環境下で撮影されたかのような動画データ150、暗い環境下で撮影されたかのような動画データ160、少し明るい環境下で撮影されたような動画データ170、少し暗い環境下で撮影されたかのような動画データ180を含み得る。
中くらいの手ぶりの「ありがとう」の手話について、光源の位置が動画データ20、25のものとは異なる環境下で撮影されたかのような動画データ190、200、210、220は、例えば、光源がカメラの正面にある逆光の環境下で撮影されたかのような動画データ190、光源がカメラの背後にある順光の環境下で撮影されたかのような動画データ200、光源がカメラの右側にある環境下で撮影されたかのような動画データ210、光源がカメラの左側にある環境下で撮影されたかのような動画データ220を含み得る。
このように、本発明の装置10は、動画データ20、25が示すシチュエーションとは異なるシチュエーション下で「ありがとう」の手話をしている手話者をあたかも撮影したかのような動画データを、動画データ20、25が示す手話の手ぶりとは異なる手ぶりの「ありがとう」の手話の各々、例えば、少し大きい手ぶりの「ありがとう」の手話、少し小さい手ぶりの「ありがとう」の手話等についても提供する。これにより、動画データ20、25が示す手話の手ぶりとは異なる手ぶりで、かつ、動画データ20、25が示すシチュエーションとは異なるシチュエーション下で、「ありがとう」の手話をしている手話者をあたかも撮影したかのような複数の動画データが提供される。
以上のとおり、本発明の装置10は、受信された動画データ20、25に基づいて、動画データ20、25が示す手話の手ぶりとは異なる手ぶりで、または、動画データ20、25が示すシチュエーションとは異なるシチュエーション下で、「ありがとう」の手話をしている手話者をあたかも撮影したかのような動画データを含む複数の動画データ30を提供する。これにより、本発明の装置10は、2つの受信された動画データから、2つの受信された動画データとは異なる大量の動画データを効率的に提供することができる。例えば、約3秒間の手話を撮影した動画データ2パターンを本発明の装置10に入力すると、本発明の装置10は、撮影した手話とは異なる手ぶりで、または、撮影したシチュエーションとは異なるシチュエーション下で同じ意味の手話をあたかも撮影したかのような約1万通りの動画データを約12時間で生成して提供することができる。約1万通りの動画データを撮影するには莫大な時間、コスト、労力がかかるが、本発明の装置10によると、短期間、低コスト、少労力で大量の動画データを提供することができる。
本発明の装置10によって提供される複数の動画データ30は、例えば、手話認識装置の機械学習用データとして用いられてもよい。手話認識装置とは、ビデオカメラ等によって撮影された手話動画がどのような意味の手話であるかを認識することができる装置である。図1Aおよび図1Bに示される例において本発明の装置10によって提供される複数の動画データ30が同一の「ありがとう」を表す手話であるので、提供される複数の動画データ30を例えば手話認識装置のための機械学習用のデータとして用いることで、「ありがとう」のジェスチャを手話認識装置に学習させることが可能である。手話認識装置は、事前に学習した「ありがとう」の手話と、入力された手話とをマッチングすることにより、入力された手話が「ありがとう」であるか否かを決定することができる。
図1Aおよび図1Bに示される例では、本発明の装置10が2つの動画データ20、25から複数の動画データ30を提供することを説明したが、本発明の装置10が受信する動画データの数は問わない。例えば、本発明の装置10は、1つの動画データを受信し、受信した1つの動画データから複数の動画データ30を提供してもよい。あるいは、本発明の装置10は、3つ以上の動画データを受信し、受信した3つ以上の動画データから複数の動画データ30を提供してもよい。
図1Aおよび図1Bに示される例では、本発明の装置10が、同一人を撮影した動画データ20、25から複数の動画データ30を提供することを説明したが、動画データ20、25はそれぞれ別人を撮影した動画データであってもよい。
図1および図1Bに示される例では、動画データ20、25がビデオカメラで撮影して取得されたデータであることを説明したが、動画データ20、25は、ビデオカメラで撮影して取得されたデータに限定されない。動画データ20、25をどのように取得するかは問わない。例えば、動画データ20、25は、ビデオカメラで撮影したデータを元に自動でまたは手動で生成した3Dアニメーションデータであってもよいし、ビデオカメラで撮影したデータに基づかずに生成した3Dアニメーションデータであってもよい。
図1Aおよび図1Bの例では、「手話」を例にして説明したが、本発明の装置10が対象とするものは、「手話」に限定されない。本発明の装置10は、任意の「ジェスチャ」を対象とし得る。本明細書において「ジェスチャ」とは、何らかの意味を表す動作のことをいう。動作の主体は問わない。例えば、動作の主体は、人間であってもよいし、動物であってもよいし、ロボットであってもよいし、玩具であってもよい。
本発明の装置10によって提供される複数の動画データは、ジェスチャ認識装置の機械学習用データとして用いられてもよい。本明細書において「ジェスチャ認識装置」とは、入力されたジェスチャが何のジェスチャであるかを認識することができる装置である。ジェスチャ認識装置は、本発明の装置10によって提供された複数の動画データ30の各々が示す各ジェスチャが同一の意味を表すジェスチャであることを事前に学習する。そして、ジェスチャ認識装置は、入力されたジェスチャと学習されたジェスチャとをマッチングすることにより、入力されたジェスチャがどのような意味のジェスチャであるかを認識することができる。
本発明の装置10が対象とするものは、「ジェスチャ」に限定されない。本発明の装置10は、任意の「動き」を対象とし得る。動きの主体は問わない。例えば、動きの主体は、人間であってもよいし、動物であってもよいし、ロボットであってもよいし、玩具であってもよいし、ボールであってもよい。
本発明の装置10によって提供される複数の動画データは、動き認識装置の機械学習用データとして用いられてもよい。本明細書において「動き認識装置」とは、入力された動きが何の動きであるかを認識することができる装置である。動き認識装置は、本発明の装置10によって提供された複数の動画データ30の各々が示す各動きが同一の意味を表す動きであることを事前に学習する。そして、動き認識装置は、入力された動きと学習された動きとをマッチングすることにより、入力された動きがどのような意味の動きであるかを認識することができる。
例えば、本発明の装置10は、バッターの打ったボールの動きを対象とする。本発明の装置10は、バッターの打ったボールを撮影した複数の動画データを受信し、受信した動画データが示すボールの弾道とは異なる弾道で、または、受信した動画データが示すシチュエーションとは異なるシチュエーション下で飛ぶボールをあたかも撮影したかのような動画データを生成し、複数の動画データ30を提供する。動き認識装置は、本発明の装置10から出力された複数の動画データ30を学習用素材として、バッターが打ったボールの動きを学習することができる。
例えば、本発明の装置10は、玩具が稼働するときの動きを対象とする。本発明の装置10は、玩具が稼働するときの動きを撮影した複数の動画データを受信し、受信した動画データが示す玩具の動きとは異なる動きで、または、受信した動画データが示すシチュエーションとは異なるシチュエーション下で動く玩具をあたかも撮影したかのような動画データを生成し、複数の動画データ30を提供する。動き認識装置は、本発明の装置10から出力された複数の動画データ30を学習用素材として、玩具が稼働するときの動きを学習することができる。
2.対象物の動きを示す複数の動画データを提供する装置の構成
図2は、本発明の装置10の構成の一例を示すブロック図である。本発明の装置10は、動画データ20、25を受信して、複数の動画データ30を提供するように構成されている。本発明の装置10は、受信部11と、生成部12と、出力部13と、制御部14、メモリ部15とを少なくとも備える。
受信部11は、本発明の装置10の外部からデータを受信するように構成されている。受信部11がデータをどのように受信するかは問わない。例えば、受信部11は、ユーザによる手動入力によってデータを受信してもよいし、ネットワーク等を介してデータを受信してもよい。受信部11がネットワーク等を介してデータを受信する場合は、ネットワークの種類を問わない。例えば、受信部11は、インターネットを介してデータを受信してもよいし、LANを介してデータを受信してもよい。例えば、受信部11は、データを格納している記憶媒体から読み出されたデータを受信してもよい。受信部11は、任意の動画データを受信することが可能であり、好ましくは、3Dアニメーションデータ(3次元コンピュータグラフィクスの動画データ)である。
生成部12は、受信部11が受信したデータの処理を行うことにより、複数のデータを生成するように構成されている。生成部12は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。生成部12が処理を行うタイミングは問わない。例えば、受信部11がデータを受信した後すぐに自動的に処理を開始してもよいし、一定数のデータを受信した後に自動または手動で処理を開始してもよい。生成部12による処理は、複数のデータを補間する処理、複数のデータを補外する処理、データ内の所定の数値組を変動させる処理のうちの少なくとも1つを含む。複数のデータを補間する処理は、第1の動きを示す第1の動画データと、第2の動きを示す第2の動画データとを補間することにより、第3の動きを示す動き補間動画データを生成する処理を含む。複数のデータを補外する処理は、第1の動きを示す第1の動画データと、第2の動きを示す第2の動画データとを補外することにより、第3の動きを示す動き補外動画データを生成する処理を含む。データ内の所定の数値組を変動させる処理は、第1のシチュエーション下の第1の動きを示す第1の動画データ内の第1のシチュエーションを表す数値組を変動させることにより、第1のシチュエーションとは異なる第2のシチュエーション下の第1の動きを示すシチュエーション変更動画データを生成する処理を含む。データ内の所定の数値組を変動させる処理は、第1の動きを示す第1の動画データ内の第1の動きを示す数値組を変動させることにより、第1の動きとは異なる動きを示す動き変更動画データを生成する処理を含む。生成部12による具体的な処理例は後述する。
出力部13は、生成部12によって生成された複数のデータおよび受信されたデータ20、25を本発明の装置10の外部に出力するように構成されている。出力部13は、本発明の装置10の外部にデータを出力できれば足り、どのように出力するかは問わない。例えば、出力部13は、自動で出力してもよいし、手動で出力してもよい。例えば、生成部12から生成される度に逐次的に出力してもよいし、一括で出力してもよい。一括で出力する場合、出力部13が出力するタイミングは問わない。例えば、出力部13は、生成部12による全処理が終了した後で出力してもよいし、一定量の動画データが蓄積された後に出力してもよい。また、出力部13から出力されるデータの形式も問わない。例えば、出力部13から出力されるデータは、非圧縮データであってもよいし、圧縮データであってもよい。
本発明の装置10は、出力部13に代えて、格納部を備えてもよい。格納部は、生成部12によって生成された複数のデータおよび受信されたデータ20、25を格納するように構成されている。格納部は、本発明の装置10の外部からアクセス可能である。本発明の装置10の外部にある装置(外部装置)は、本発明の装置10の外部から格納部にアクセスすることにより、格納部に格納されている複数のデータを取得することが可能である。格納部は、任意の記憶手段によって実装され得る。
このように、本発明の装置10は、出力部13または格納部によって、生成部12によって生成された複数のデータおよび受信されたデータ20、25を本発明の装置10の外部からアクセス可能な状態にすることが可能なように構成されている。すなわち、本発明の装置10は、生成部12によって生成された複数のデータおよび受信されたデータ20、25を本発明の装置10の外部から利用可能な状態にする利用可能手段として、出力部13または格納部を有してもよい。しかし、この利用可能手段は、出力部13または格納部に限定されない。利用可能手段として、任意の構成を用いることが可能である。 制御部14は、受信部11、生成部12、出力部13、メモリ部15を制御することにより、本発明の装置10全体を制御するように構成されている。制御部14は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。例えば、制御部14および生成部12が、同一のプロセッサによって実装されてもよい。
メモリ部15は、処理を実行するために必要とされるプログラムやそのプログラムの実行に必要とされるデータ等を格納する。メモリ部15は、本明細書で説明されるような、動画データを受信して複数の動画データを提供する処理を制御部14に実行させるためのプログラムを格納してもよい。メモリ部15は、受信部11、生成部12、出力部13または格納部、メモリ部15の処理の制御を制御部14に実行させるための単一のプログラムであってもよいし、受信部11の処理の制御のためのプログラム、生成部12の処理の制御のためのプログラム、出力部13の処理の制御のためのプログラム、メモリ部15の処理の制御のためのプログラムが、別々のプログラムであってもよい。ここで、プログラムをどのようにしてメモリ部15に格納するかは問わない。例えば、プログラムは、メモリ部15にプリインストールされていてもよい。あるいは、プログラムは、インターネットなどのネットワークを介してダウンロードされることによってメモリ部15にインストールされるようにしてもよいし、光ディスクやUSBなどの記憶媒体を介してメモリ部15にインストールされるようにしてもよい。メモリ部15は任意の記憶手段によって実装されてもよい。メモリ部15は、格納部と異なる記憶手段によって実装されてもよいし、格納部と同一の記憶手段によって実装されてもよい。
受信部11、生成部12、出力部13の各処理は、シームレスに行われてもよいし、各部ごとに分断して行われてもよい。例えば、各部の処理が分断して行われる場合、受信部11から生成部12に提供されるデータは、いったんメモリ部15に格納された後に、所定のタイミングで生成部12に提供されるようにしてもよい。また、生成部11から出力部13または格納部に提供されるデータは、いったんメモリ部15に格納された後に、所定のタイミングで出力部13または格納部に提供されるようにしてもよい。
3.対象物の動きを示す複数の動画データを提供する装置による処理
図3は、本発明の装置10による処理の一例を示すフローチャートである。
本発明の装置10による処理は、ステップS101から開始する。ステップS102において、本発明の装置10の受信部11が、本発明の装置10の外部から複数の動画データを受信する。受信された複数の動画データは、同一の意味を表す複数の動きを撮影して取得された複数の動画データである。受信された複数の動画データは、例えば、大きい手ぶりの「ありがとう」の手話をしている手話者をビデオカメラで撮影して取得された動画データ20、および、小さい手ぶりの「ありがとう」の手話をしている手話者をビデオカメラで撮影して取得されたデータ25である。
ステップS103において、本発明の装置10の生成部12が動き補間処理を行う。生成部12は、受信された複数の動画データが示す動きを補間することにより、受信された複数の動画データによって示される動きとは異なるが同一の意味を表す動きをあたかも撮影したかのような動き補間動画データを生成する。
ステップS104において、本発明の装置10の生成部12がシチュエーション変更処理を行う。生成部12は、受信された複数の動画データに対してシチュエーション変更処理を行うことにより、受信された複数の動画データが示すシチュエーションとは異なるシチュエーション下であたかも撮影したかのようなシチュエーション変更動画データを生成する。また、生成部12は、ステップS103において生成された動き補間動画データに対しても同様にシチュエーション変更処理を行うことにより、受信された複数の動画データによって示される動きとは異なるが同一の意味を表す動きを、受信された複数の動画データが示すシチュエーションとは異なるシチュエーション下であたかも撮影したかのようなシチュエーション変更動画データを生成する。
ステップS105において、本発明の装置10の出力部13が、受信された複数の動画データ、ステップS103において生成された動き補間動画データ、ステップS104において生成されたシチュエーション変更動画データを出力し、ステップS106において処理を終了する。
本発明の装置10による処理は、上述した順序に限定されない。図3に示される例では、ステップS103において動き補間処理を行うことにより動き補間動画データを生成した後、ステップS104においてシチュエーション変更処理を行ったが、動き補間処理およびシチュエーション変更処理の順序は問わない。例えば、シチュエーション変更処理を行うことによりシチュエーション変更動画データを生成した後、受信された複数の動画データ、生成されたシチュエーション変更動画データのそれぞれに対して、動き補間処理を行ってもよい。あるいは、動き補間処理およびシチュエーション変更処理を相関させて同時に行ってもよい。あるいは、動き補間処理に加えて、または、動き補間処理に代えて、動き補外処理を行ってもよい。
4.生成部12による動き補間処理
図4は、本発明の装置10の生成部12が2つの動画データ20、25から動き補間動画データ40を生成することを模式的に示している。動画データ20は、大きい手ぶりの「ありがとう」の手話をしている手話者を撮影して取得された動画データである。動画データ25は、小さい手ぶりの「ありがとう」の手話をしている手話者を撮影して取得された動画データである。
図4に示される例では、動画データ20において、大きい手ぶりの「ありがとう」の手話は、数値化されている。大きい手ぶりの「ありがとう」の手話は、左腕の肘および右腕の肘を定位置に固定したまま、右腕を一定の速度αで右肘を中心としてy軸方向上向きにtn秒間動かす動きとして、行列G1(t)によって表現される。ここで、αは正の定数であり、tは時間を表し、(t)は、時間の関数であることを表す。図4に示されるように、大きい手ぶりの「ありがとう」の手話における右手の移動距離はαtnとなる。
図4に示される例では、動画データ25において、小さい手ぶりの「ありがとう」の手話は、数値化されている。小さい手ぶりの「ありがとう」の手話は、左腕の肘および右腕の肘を定位置に固定したまま、右腕を一定の速度βで右肘を中心としてy軸方向上向きにtn秒間動かす動きとして、行列G2(t)によって表現される。ここで、βは正の定数であり、β<αである。図4に示されるように、小さい手ぶりの「ありがとう」の手話における右手の移動距離はβtnとなる。
生成部12は、動画データ20中の行列G1(t)と動画データ25中の行列G2(t)とを補間することにより、中くらいの手ぶりの「ありがとう」の手話をしている手話者をあたかも撮影したかのような動き補間動画データ40を生成する。
G1(t)およびG2(t)を線形補間する場合、生成される動き補間動画データ中の動きを表す行列G(t)とG1(t)およびG2(t)との間に、
G(t)=(1−s)G1(t)+sG2(t)、0<s<1 式1
の関係が成り立つ。中くらいの手ぶりの「ありがとう」の手話G3(t)は、s=0.5を代入して計算することにより導出される。式1にs=0.5を代入して計算して導出される行列G3(t)は、左腕の肘および右腕の肘を定位置に固定したまま、右腕を一定の速度(α+β)/2で右肘を中心としてy軸方向上向きにtn秒間動かす動きを表現することになる。図4に示されるように、動き補間動画データ40によって示される中くらいの手ぶりの「ありがとう」の手話における右手の移動距離は(α+β)/2・tnとなる。
式1においてsの値を変動させることによって、種々の異なる手ぶりで「ありがとう」の手話をしている手話者を撮影したかのような動き補間動画データを生成することができる。例えば、s=0.25として計算することにより、中くらいの手ぶりの「ありがとう」よりも少し大きい手ぶりで「ありがとう」の手話をしている手話者を撮影したかのような動き補間動画データ50(図1を参照)が生成される。例えば、s=0.75として計算することにより、中くらいの手ぶりの「ありがとう」よりも少し小さい手ぶりで「ありがとう」の手話をしている手話者を撮影したかのような動き補間動画データ60(図1を参照)が生成される。
上述したような動きが数値化されている動画データ20、25は、例えば、3Dアニメーションデータ(3次元コンピュータグラフィクスの動画データ)であり得る。
3Dアニメーションデータによって表現される3Dアニメーションでは、動く主体(アバター)は、仮想的に生成された物理空間において、動きに必要な複数のパラメータ(腕の位置、腕の角度、動作スピード、関節の動き等)に基づいて、物理的に非現実的な動きにならないように動くことができる。例えば、3Dアニメーションにおいてアバターに「ありがとう」の手話をさせる場合、左手の甲を上向きにして左手を胸の前で水平に固定させるように左手に関するパラメータを設定し、右手を左手の甲の位置から上方に移動させるように右手に関するパラメータを設定することによって、アバターは、「ありがとう」の手話を行う。
動きを示す3Dアニメーションデータは、以下の手法のうちの少なくとも1つによって生成されたデータであり得る。
(1)3Dアニメーションアニメーターが3Dアニメーションを作成する。アニメーターが作成する手法は問わない。例えば、動きをビデオカメラで撮影して撮影された映像を元に3Dアニメーションを作成してもよいし、映像を元とせずに3Dアニメーションを作成してもよい。
(2)動きをビデオカメラで撮影し、ビデオカメラに接続されたコンピュータにおいてモーションキャプチャシステムを用いて前記動きを自動的に認識する。認識された動きから取得されるパラメータに基づいて3Dアニメーションを作成する。
(3)動きを行う主体がモーションキャプチャスーツを装着し、その動きをリアルタイムでデータとして取得する。取得されたデータに基づいて3Dアニメーションを作成する。
動きを示す3Dアニメーションデータは、いずれの手法によって生成された場合も、動きに必要な複数のパラメータ(腕の位置、腕の角度、動作スピード、関節の動き等)によって動きを数値化している。動きは、上述したように行列G(t)として表現される。行列G(t)は、アバターの体の各部位の位置成分および姿勢成分を含む。例えば、行列G(t)は、左腕の肘の位置成分(xleftelbow(t),yleftelbow(t),zleftelbow(t))および姿勢成分(θxleftelbow(t),θyleftelbow(t),θzleftelbow(t))、ならびに右腕の肘の位置成分(xrightelbow(t),yrightelbow(t),zrightelbow(t))および姿勢成分(θxrightelbow(t),θyrightelbow(t),θzrightelbow(t))等を含み得る。
例えば、左腕の肘および右腕の肘を定位置に固定したまま、右腕を一定の速度αで右肘を中心としてy軸方向上向きにtn秒間動かす動きとして表現される大きな手ぶりの「手話」の行列G1(t)では、左腕の肘の位置成分(x1leftelbow(t),y1leftelbow(t),z1leftelbow(t))および姿勢成分(θx1leftelbow(t),θy1leftelbow(t),θz1leftelbow(t))が各々定数であり、右腕の肘の位置成分(x1rightelbow(t),y1rightelbow(t),z1rightelbow(t))が各々定数であり、右腕の肘の姿勢成分(θx1rightelbow(t),θy1rightelbow(t),θz1rightelbow(t))のうちのθx1rightelbow(t)のみが時間に比例する関数であり(θx1rightelbow(t)=αt)、その他の成分は定数である。
例えば、左腕の肘および右腕の肘を定位置に固定したまま、右腕を一定の速度βで右肘を中心としてy軸方向上向きにtn秒間動かす動きとして表現される小さな手ぶりの「手話」の行列G2(t)では、左腕の肘の位置成分(x2leftelbow(t),y2leftelbow(t),z2leftelbow(t))および姿勢成分(θx2leftelbow(t),θy2leftelbow(t),θz2leftelbow(t))が各々定数であり、右腕の肘の位置成分(x2rightelbow(t),y2rightelbow(t),z2rightelbow(t))が各々定数であり、右腕の肘の姿勢成分(θx2rightelbow(t),θy2rightelbow(t),θz2rightelbow(t))のうちのθx2rightelbow(t)のみが時間に比例する関数であり(θx2rightelbow(t)=βt)、その他の成分は定数である。
この場合、式1によって導出される行列G3(t)では、左腕の肘の位置成分(x3leftelbow(t),y3leftelbow(t),z3leftelbow(t))および姿勢成分(θx3leftelbow(t),θy3leftelbow(t),θz3leftelbow(t))が各々定数となり、右腕の肘の位置成分(x3rightelbow(t),y3rightelbow(t),z3rightelbow(t))が各々定数となり、右腕の肘の姿勢成分(θx3rightelbow(t),θy3rightelbow(t),θz3rightelbow(t))のうちのθx3rightelbow(t)のみが時間に比例する関数となり(θx3rightelbow(t)=(α+β)/2・t)、その他の成分は定数となる。このようにして、左腕の肘および右腕の肘を定位置に固定したまま、右腕を一定の速度(α+β)/2で右肘を中心としてy軸方向上向きに動かす動きが行列G3(t)によって表現される。
図4に示される例では、G1(t)およびG2(t)を線形補間する例を説明したが、生成部12による処理は、線形補間処理に限定されない。生成部12は、例えば、二次補間、三次補間、三角補間等の非線形補間処理を行ってもよい。生成部12による補間処理には、任意の補間手法を用いることが可能である。
図4に示される例では、生成部12が2つの動画データ20、25から動き補間動画データ40を生成することを説明したが、生成部12は他の動画データから動き補間動画データを生成してもよい。例えば、生成部12は、受信した3つの動画データから動き補間動画データを生成してもよい。あるいは、生成部12は、シチュエーション変更処理によって生成された2つ以上のシチュエーション変更動画データから動き補間動画データを生成してもよい。あるいは、生成部12は、1つの動画データ20から動き変更動画データを生成してもよい。例えば、生成部12は、動きを表現する行列中の任意の位置成分または姿勢成分を適当に変動させることにより、動画データ20が示す動きとは異なる動きを示す動き変更動画データを生成する。任意の位置成分または姿勢成分を適当に変動させることは、好ましくは、結果として生成される動き変更動画データが示す動きが、動画データ20が示す動きの意味と同一の意味を依然として示すように行われる。例えば、右肘の位置成分を変動させることにより、動画データ20が示す「ありがとう」の手話とは右肘の位置が異なる「ありがとう」の手話を示す動き変更動画データを生成してもよい。
動画データ20が示す動きの継続時間と動画データ25が示す動きの継続時間とは、同じであってもよいし、異なっていてもよい。例えば、動画データ20が示す動きが長い時間をかけてゆっくりと行う大きい手ぶりの「手話」である一方で、動画データ25が示す動きが短時間で素早く行う小さい手ぶりの「手話」であってもよい。この場合でも、生成部12は、各動きを表現する行列G1(t)および行列G2(t)の両方がtn秒間継続する動きとなるように行列G1(t)または行列G2(t)を変換することにより、図4に示される例と同様の処理を行うことができる。
5.生成部12によるシチュエーション変更処理
図5は、本発明の装置10の生成部12が動画データ20からシチュエーション変更動画データ70、80、90、100を生成することを模式的に示している。動画データ20は、大きい手ぶりの「ありがとう」の手話をしている手話者を撮影して取得された動画データである。
図5に示される例では、動画データ20は、撮影された環境の明るさを示す値を含んでいる。生成部12は、動画データ20内に含まれる撮影された環境の明るさを示す値を変動させることにより、明るさが動画データ20のものとは異なる環境下で撮影されたかのようなシチュエーション変更動画データを生成する。例えば、動画データ20内に含まれる明るさを示す値を+60%にすることにより、明るい環境下であたかも撮影したかのようなシチュエーション変更動画データ70を生成する。動画データ20内に含まれる明るさを示す値を−60%にすることにより、暗い環境下であたかも撮影したかのようなシチュエーション変更動画データ80を生成する。動画データ20内に含まれる明るさを示す値を+30%にすることにより、少し明るい環境下であたかも撮影したかのようなシチュエーション変更動画データ90を生成する。動画データ20内に含まれる明るさを示す値を−30%にすることにより、少し暗い環境下であたかも撮影したかのようなシチュエーション変更動画データ100を生成する。
図5に示される例では、生成部12は、動画データ20内に含まれる撮影された環境の明るさを示す値を変動させているが、変動させる値は、撮影された環境の明るさを示す値に限定されない。生成部12による処理は、動画データ20内のシチュエーションを表す数値組のうちの1つ以上の数値を変動させる処理であればよい。動画データ20内のシチュエーションを表す数値組S1は、光源位置、カメラ位置、手話者の性別、手話者の肌の色、手話者の服装、解像度、画質(シャープネス、コントラスト、彩度など)などを示す数値を含むが、これらに限定されない。生成部12は、動画データ20内に含まれるシチュエーションを表す数値組S1の1つ以上を変動させることにより、動画データ20が示すシチュエーションとは異なるシチュエーション下であたかも撮影したかのようなシチュエーション変更動画データを生成する。例えば、生成部12は、動画データ20内に含まれるシチュエーションを表す数値組S1のうちの光源位置を示す値を変動させることにより、明るさが動画データ20のものとは異なる環境下で撮影されたかのような動画データ、例えば、光源がカメラの正面にある逆光の環境下で撮影されたかのような動画データ190、光源がカメラの背後にある順光の環境下で撮影されたかのような動画データ200、光源がカメラの右側にある環境下で撮影されたかのような動画データ210、光源がカメラの左側にある環境下で撮影されたかのような動画データ220等を生成し得る。生成部12は、動画データ20内に含まれるシチュエーションを表す数値組S1のうちのカメラ位置を示す値を変動させることにより、カメラの位置が動画データ20のものとは異なる環境下であたかも撮影したかのような動画データ、例えば、遠くから手話者をあたかも撮影したかのような動画データ、接近して手話者をあたかも撮影したかのような動画データ等を生成し得る。その他、生成部12は、動画データ20内に含まれるシチュエーションを表す数値組S1のうちの手話者の性別を示す値、手話者の肌の色を示す値、手話者の服装を示す値、解像度を示す値、画質(シャープネス、コントラスト、彩度など)を示す値等を変動させることにより、動画データ20が示すシチュエーションとは異なるシチュエーション下であたかも撮影したかのようなシチュエーション変更動画データを生成する。上述したシチュエーションを表す数値は例示的なものであり、他の種々のシチュエーションを表す数値が、シチュエーション変更動画データを生成するために使用され得る。
図5に示される例では、生成部12は、動画データ20内に含まれる撮影された環境の明るさを示す値のみを変動させているが、生成部12が変動させる数値の数は問わない。例えば、生成部12は、動画データ20内に含まれる数値組S1のうちの1つを変動させてもよいし、数値組S1のうちの複数の数値を変動させてもよい。
図5に示される例では、生成部12は、動画データ20内に含まれる撮影された環境の明るさを示す値を±60%、±30%に変動させたが、生成部12が数値を変動させる手法は問わない。例えば、生成部12は、シチュエーションを表す数値組S1のうちの各数値を、0%〜±100%の間で線形に変動させてもよいし、0%〜±100%の間で非線形に変動させてもよい。また、生成部12は、シチュエーションを表す数値組S1のうちの各数値を、独立して変動させてもよいし、互いに相関させて変動させてもよい。相関させて変動させる場合は、相関の手法は問わない。各数値が何らかの関係を持って変動すれば足りる。シチュエーションを表す数値組S1のうちのいくつかの数値を相関させて変動させることにより、効率的に計算を行うことが可能である。
6.生成部12によって生成される動画データ
図6は、本発明の装置10の生成部12によって動画データ20、25から生成される動画データの例を示す図である。大きい手ぶりの「ありがとう」の手話をしている手話者を撮影して取得された動画データ20と、小さい手ぶりの「ありがとう」の手話をしている手話者を撮影して取得された動画データ25とから生成される動画データは、動き補間動画データ40、動き補外動画データ250、260、シチュエーション変更動画データ70、80、230、240、動き補間かつシチュエーション変更動画データ150、160を含む。図6において、動き補間動画データおよび動き補外動画データは、破線軸で表される方向に沿って並んでいる。図6において、シチュエーション変更動画データは、点線で表される方向に沿って並んでいる。
動画データ20は、大きい手ぶりの「ありがとう」の手話を表現する行列G1(t)、撮影されたシチュエーションを表す数値組S1を含んでいる。動画データ25は、小さい手ぶりの「ありがとう」の手話を表現する行列G2(t)と撮影されたシチュエーションを表す数値組S1とを含んでいる。生成部12による動き補間処理によって生成される動き補間動画データ40は、中くらいの手ぶりの「ありがとう」の手話を表現する行列G3(t)と撮影されたシチュエーションを表す数値組S1とを含んでいる。
生成部12は、動画データ20と、動画データ25と、動き補間動画データ40とのそれぞれに対して、シチュエーション変更動画データを生成する。生成部12によるシチュエーション変更処理によって動画データ20から生成されたシチュエーション変更動画データ70は、大きい手ぶりの「ありがとう」の手話を表現する行列G1(t)と撮影されたシチュエーション(例えば、明るい撮影環境)を示す数値組S2とを含んでいる。生成部12によるシチュエーション変更処理によって動画データ20から生成されたシチュエーション変更動画データ80は、大きい手ぶりの「ありがとう」の手話を表現する行列G1(t)と撮影されたシチュエーション(例えば、暗い撮影環境)を示す数値組S3とを含んでいる。生成部12によるシチュエーション変更処理によって動き補間動画データ40から生成されたシチュエーション変更動画データ150は、中くらいの手ぶりの「ありがとう」の手話を表現する行列G2(t)と撮影されたシチュエーション(例えば、明るい撮影環境)を示す数値組S2とを含んでいる。生成部12によるシチュエーション変更処理によって動き補間動画データ40から生成されたシチュエーション変更動画データ160は、大きい手ぶりの「ありがとう」の手話を表現する行列G2(t)と撮影されたシチュエーション(例えば、暗い撮影環境)を示す数値組S3とを含んでいる。図5に示されるように、各動画データは、その動画データが示す手話を表現する行列Gn(t)とシチュエーションを表す数値組Snとを含んでいる。
また、生成部12は、動き補間処理に加えて、動き補外処理を行う。生成部12は、動画データ20および動画データ25を補外することにより、動き補外動画データ250、260を生成する。生成部12による動き補外処理によって生成される動き補外動画データ250は、もっと大きな手ぶりの「ありがとう」の手話を表現する行列G4(t)と撮影されたシチュエーションを表す数値組S1とを含んでいる。また、生成部12による動き補外処理によって生成される動き補外動画データ260は、もっと小さな手ぶりの「ありがとう」の手話を表現する行列G5(t)と撮影されたシチュエーションを表す数値組S1とを含んでいる。補外処理は、線形補外処理であってもよいし、非線形補外処理であってもよい。生成部12による補外処理には、任意の補外手法を用いることが可能である。
このように、生成部12は、動きを補間/補外する次元(破線軸で表される方向)と、シチュエーションを変更する次元(点線軸で表される方向)との2つの次元に関して処理を行うことにより、多様な複数の動画データをランダムかつ効率的に生成することができる。
生成部12において、動き補間処理とシチュエーション変更処理とは、独立して行われてもよいし、相関して行われてもよい。例えば、初めに動き補間動画データ40を生成し、生成された動き補間動画データ40に対してシチュエーション変更処理を行うことによって、シチュエーション変更動画データ150が生成されてもよいし、あるいは、初めにシチュエーション変更動画データ70、230を生成し、生成された動き補間動画データ70、230を補間することによってシチュエーション変更動画データ150が生成されてもよい。あるいは、シチュエーション変更動画データ150は、動き補間動画データ40を生成することなく、動画データ20、25から直接生成されてもよい。
動き補間処理とシチュエーション変更処理との相関は、動き補間処理とシチュエーション変更処理とが何かしらの関係を持って行われればよく、相関の手法は問わない。例えば、動き補間処理とシチュエーション変更処理との相関は、上記式1におけるsの値の変動とシチュエーションを表す数値組の変動とを相関させることによって達成され得る。動き補間処理とシチュエーション変更処理とを相関させて行うことにより、効率的に計算を行うことが可能である。
図6に示される例では、大きい手ぶりの「ありがとう」の手話をしている手話者を撮影して取得された動画データ20と、小さい手ぶりの「ありがとう」の手話をしている手話者を撮影して取得された動画データ25と、動き補間動画データ40とが数値組S1によって示される同一のシチュエーション下における動画データであったが、動画データ20と、動画データ25と、動き補間動画データ40とは、互いに異なるシチュエーション下における動画データであってもよい。
図6に示される例では、大きい手ぶりの「ありがとう」の手話を示す動画データ20と小さい手ぶりの「ありがとう」を示す動画データ25から動き補間動画データを生成することを説明した。大きい手ぶりおよび小さい手ぶりを想定される手ぶりの大きさの上限および下限とすることで、生成部12は、より多くの動き補間動画データを生成することができる。動画データ20が示す動きの大きさと動画データ25が示す動きの大きさとの差が大きいほど、動き補間動画データが示し得る動きの数が多くなるからである。しかしながら、本発明の装置10が受信する動画データは、大きい手ぶりの動きを示す動画データおよび小さい手ぶりの動きを示す動画データに限定されない。本発明の装置10が受信する動画データが示す動きの大きさは問わない。例えば、本発明の装置10は、中くらいの手ぶりの「ありがとう」の手話を示す動画データと、中くらいの手ぶりよりも少し小さい手ぶりの「ありがとう」の手話を示す動画データとを受信し、それらの動画データから動き補間動画データまたは動き補外動画データを生成してもよい。
7.対象物の動きを示す複数の動画データを提供する装置を含むシステムの構成
図7は、本発明のシステム300の構成の一例を示すブロック図である。本発明のシステム300は、動き認識装置であり得る。この動き認識装置は、入力された動きが何の動きであるかを認識することができる。本発明のシステム300は、上述した本発明の装置10と、動き学習部301と、動き受信部302と、動き認識部303と、制御部304と、メモリ部305とを少なくとも備える。
本発明の装置10は、上記に説明したとおり、動画データ20、25から複数の動画データ30を提供するように構成されている。
動き学習部301は、本発明の装置10によって提供された複数の動画データ30の各々が示す各動きが同一の意味を表す動きであることを学習するように構成されている。動き学習部301は、複数の動画データの各々が示す各動きとその意味とを関連付けて格納する。動き学習部301は、任意の記憶手段によって実装されてもよい。
動き受信部302は、本発明のシステム300の外部から動きを示す動画データを受信するように構成されている。受信部302がデータをどのように受信するかは問わない。例えば、受信部302は、ユーザによる手動入力によってデータを受信してもよいし、ネットワーク等を介してデータを受信してもよい。受信部302がネットワーク等を介してデータを受信する場合は、ネットワークの種類を問わない。例えば、受信部302は、インターネットを介してデータを受信してもよいし、LANを介してデータを受信してもよい。受信されるデータの形式は問わない。例えば、受信されるデータは、動き受信部302に接続されたビデオカメラが撮影した動画データであってもよいし、任意の手法で作成された3Dアニメーションデータであってもよい。
動き認識部303は、動き受信部302によって受信された動画データによって示される動きと、動き学習部301によって学習された動きとをマッチングすることによって、動き受信部302によって受信された動画データによって示される動きがどのような意味の動きであるかを決定するように構成されている。動き認識部303は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。動き認識部303は、その他任意の公知の技術を用いて、動きを認識することが可能である。動き認識部303は、決定された動きを出力データとして出力する。
制御部304は、本発明の装置10、動き学習部301、動き受信部302、動き認識部303、メモリ部305を制御することにより、システム300全体を制御するように構成されている。制御部304は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。装置10の生成部12、装置10の制御部14、動き認識部303、制御部304のうちの2つ以上が同一のプロセッサによって実装されてもよい。
メモリ部305は、処理を実行するために必要とされるプログラムやそのプログラムの実行に必要とされるデータ等を格納する。メモリ部305は、本明細書で説明されるような、複数の動画データによって示される動きを事前に学習して動き認識を行う処理を制御部304に実行させるためのプログラムを格納してもよい。ここで、プログラムをどのようにしてメモリ部305に格納するかは問わない。例えば、プログラムは、メモリ部305にプリインストールされていてもよい。あるいは、プログラムは、インターネットなどのネットワークを介してダウンロードされることによってメモリ部305にインストールされるようにしてもよいし、光ディスクやUSBなどの記憶媒体を介してメモリ部305にインストールされるようにしてもよい。メモリ部305は任意の記憶手段によって実装されてもよい。装置10のメモリ部15、動き学習部301、メモリ部305のうちの2つ以上が同一の記憶手段によって実装されてもよい。
本発明のシステム300の実施形態として、カメラ等によって撮影された手話動画がどのような意味の手話であるかを認識することができる手話認識装置が挙げられる。手話認識装置は、手話の意味を本発明の装置10によって提供される複数の動画データによって機械学習しているため、手話認識装置に接続されたビデオカメラによって撮影された手話がどのような意味を表すかを認識することができる。認識された手話の意味をテキストまたは音声に変換して出力することにより、例えば、手話を知らない人でも、聾者とコミュニケーションを図ることができる。
本発明のシステム300の他の実施形態は、VR(バーチャルリアリティ)ヘッドマウントディスプレイであり得る。VRヘッドマウントディスプレイは、特定のジェスチャが特定の意味を表すこと(例えば、指で四角形を描くジェスチャが「ディスプレイを表示する」命令を意味する等)を本発明の装置10によって提供される複数の動画データによって機械学習しているため、VRヘッドマウントディスプレイに接続されたビデオカメラによって撮影されたジェスチャがどのような意味を表すかを認識することができる。そして、VRヘッドマウントディスプレイは、認識したジェスチャが表す命令に基づいて処理を実行することができる。これにより、ユーザのジェスチャによる制御が可能となる。
本発明のシステム300の実施形態は、上述した実施形態に限らない。本発明のシステム300は、任意のジェスチャを認識することができる任意の他のジェスチャ認識装置に適用され得る。
8.対象物の動き認識装置による処理
図8は、本発明のシステム300による処理の一例を示すフローチャートである。
本発明のシステム300は、本発明の装置10によって提供される多数の動画データ30を用いて動き学習部301によって、事前に機械学習している。
処理は、ステップS201において開始する。ステップS202において、本発明のシステム300の動き受信部302は、本発明のシステム300の外部から動きを示す動画データを受信する。受信される動画データは、動き受信部302に接続されたビデオカメラが撮影した動画データであってもよいし、任意の手法で作成された3Dアニメーションデータであってもよい。
ステップS203において、動き認識部303は、動き受信部302によって受信された動画データによって示される動きを、動き学習部301によって学習された動きとマッチングする。
ステップS204において、動き認識部303は、マッチングが成功したか否かを決定する。マッチングが成功した場合、動き認識部303は、ステップS205において、受信された動画データによって示される動きの意味を決定する。そして、ステップS206において、動き認識部303は、決定された動きを出力データとして出力する。マッチングが失敗した場合、動き認識部は、ステップS207において、受信された動画データによって示される動きの意味が不明であり、動き認識に失敗したことを出力する。処理は、ステップS208において終了する。
このようにして、本発明のシステム300は、受信された動画データによって示される動きを認識することが可能である。
本発明は、上述した実施形態に限定されるものではない。本発明の装置10が対象とする動きは「手話」に限定されない。「手話」は、手の「動き」として捉えることができる。人間の特定の行動、例えば、誰かを尾行しているときの行動等は、手の「動き」と、足の「動き」、頭の「動き」等とが組み合わせられた複合的な「動き」として捉えることができる。本発明の装置10は、このような複合的な「動き」も同様に対象とすることができる。このように、本発明の装置10は、手等の単一部位の動きであるか、手等の動きと他の部位との動きが組み合わせられた複合的な動きであるかにかかわらず、任意の対象物の任意の「動き」から、その「動き」と同一の意味を表す「動き」を示す複数の動画データを生成することができる。
例えば、本発明の装置10は、誰かを尾行しているときの行動、盗みをしようとしているときの行動、迷子になっているときの行動等の任意の特徴的な行動を対象とすることができる。例えば、誰かを尾行しているときの行動について、本発明の装置10は、誰かを尾行している人の行動を撮影した少なくとも1つの動画データを受信し、受信された少なくとも1つの動画データが示す行動とは異なる動きで、または、受信された少なくとも1つの動画データが示すシチュエーションとは異なるシチュエーション下で誰かを尾行している人をあたかも撮影したかのような動画データを生成し、複数の動画データ30を提供する。ここで、本発明の装置10の生成部12によるシチュエーション変更処理によって生成されるシチュエーション変更動画データは、例えば、一方向に動く群衆の中で誰かを尾行している人をあたかも撮影したかのような動画データ、複数の方向に動く群衆の中で誰かを尾行している人をあたかも撮影したかのような動画データ、ランダムに動く群衆の中で誰かを尾行している人をあたかも撮影したかのような動画データ、周囲に人が少ないシチュエーション下で誰かを尾行している人をあたかも撮影したかのような動画データを含み得る。例えば、シチュエーション変更動画データは、昼間の明るい環境下で誰かを尾行している人をあたかも撮影したかのような動画データ、夜間の暗い環境下で誰かを尾行している人をあたかも撮影したかのような動画データ、誰かを尾行している男性をあたかも撮影したかのような動画データ、誰かを尾行している女性をあたかも撮影したかのような動画データ等も含み得る。
本発明の装置10によって提供される複数の動画データは、手話認識装置のために複数の動画データを提供するものに限定されない。本発明の装置10によって提供される複数の動画データは、任意の用途に使用され得る。例えば、本発明の装置10は、上述したようなVRヘッドマウントディスプレイによるジェスチャ認識のための機械学習用データとして、複数の動画データを提供してもよい。例えば、本発明の装置10が対象とする「動き」が、上述したような、誰かを尾行しているときの行動等の任意の特徴的な行動である場合、本発明の装置10によって提供される複数の動画データは、セキュリティの用途に使用されることができる。例えば、動き認識装置は、本発明の装置10によって提供された複数の動画データの各々が示す動きが誰かを尾行している人の行動であることを事前に学習する。そして動き認識装置は、入力された動きと学習された動きとをマッチングすることにより、入力された動きが誰かを尾行している人の行動であるか否かを決定することができる。これは、防犯カメラ等の画像から不審者を特定する技術等に応用されることができる。
本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。