JP6852871B6

JP6852871B6 - 対象物の動きを示す複数の動画データを提供する装置およびプログラム

Info

Publication number: JP6852871B6
Application number: JP2016212811A
Authority: JP
Inventors: 米倉　豪志; 豪志米倉
Original assignee: Alt Inc
Current assignee: Alt Inc
Priority date: 2016-10-31
Filing date: 2016-10-31
Publication date: 2021-04-21
Anticipated expiration: 2036-10-31
Also published as: JP2018073159A; JP6852871B2

Description

本発明は、対象物の動きを示す複数の動画データを提供する装置およびプログラムに関する。また、本発明は、前記装置またはプログラムによって提供された複数の動画データに基づいて機械学習を行い、機械学習に基づいて対象物の動きを認識するシステムおよびプログラムに関する。

パターン認識技術では、認識対象物の撮像データをあらかじめ大量に用意しておき、用意された大量の撮像データから最も類似するものを決定することにより認識対象物を認識する。しかしながら、大量の撮像データをあらかじめ用意しておくことは、時間、コスト、労力がかかる。

特許文献１は、カメラを用いてトランプなどを撮像してそれらに対して画像認識を行うパターン認識処理装置を開示している。特許文献１のパターン認識処理装置は、複数の照明条件下で撮影された複数の静止画パターン、および、複数の静止画パターンの間の照明条件を予想する補間パターンを生成し、これらのパターンに基づいて対象を認識している。特許文献１のパターン認識処理装置は、あらかじめ用意すべき撮像データの一部を補間パターンで補うことにより、用意すべき撮像データの数を減らしている。

特開２００２−２２２４２１号公報

本発明は、対象物の動きを示す複数の動画データを提供する装置およびプログラムを提供することを目的とする。また、前記装置またはプログラムによって提供された複数の動画データに基づいて機械学習を行い、機械学習に基づいて対象物の動きを認識するシステムおよびプログラムを提供することも目的とする。

本発明の対象物の動きを示す複数の動画データを提供する装置は、少なくとも１つの動きを示す少なくとも１つの動画データを受信する受信部と、前記少なくとも１つの動画データに基づいて、前記少なくとも１つの動画データによって示される動きと同一の意味を表す動きを示す動画データを生成する生成部と前記少なくとも１つの動画データと前記生成された動画データとを前記装置の外部から利用可能な状態にする利用可能手段とを備えている。

本発明の一実施形態では、前記少なくとも１つの動画データは、同一の意味を表す少なくとも２つの動きを示す少なくとも２つの動画データを含み、前記生成部は、前記少なくとも２つの動画データを補間することにより、前記少なくとも２つの動画データによって示される動きと同一の意味を表す動きを示す動き補間動画データをさらに生成し、前記利用可能手段は、前記動き補間動画データをさらに前記装置の外部から利用可能な状態にする。

本発明の一実施形態では、前記少なくとも１つの動きは、第１の動きを含み、前記第１の動きを示す動画データは、第１のシチュエーション下の前記第１の動きを示し、前記生成部は、前記第１の動きを示す動画データに基づいて、前記第１のシチュエーションとは異なるシチュエーション下の前記第１の動きを示す第１のシチュエーション変更動画データをさらに生成し、前記利用可能手段は、前記動き補間動画データをさらに前記装置の外部から利用可能な状態にする。

本発明の一実施形態では、前記少なくとも２つの動きは、第１の動きと第２の動きとを含み、前記第１の動きを示す動画データは、第１のシチュエーション下の前記第１の動きを示し、前記第２の動きを示す動画データは、第２のシチュエーション下の前記第２の動きを示し、前記動き補間動画データは、第３のシチュエーション下の第３の動きを示し、前記生成部は、前記第１の動きを示す動画データに基づいて、前記第１のシチュエーションとは異なるシチュエーション下の前記第１の動きを示す第１のシチュエーション変更動画データを生成すること、前記第２の動きを示す動画データに基づいて、前記第２のシチュエーションとは異なるシチュエーション下の前記第２の動きを示す第２のシチュエーション変更動画データを生成すること、前記動き補間動画データに基づいて、前記第３のシチュエーションとは異なるシチュエーション下の前記第３の動きを示す第３のシチュエーション変更動画データを生成することのうちの少なくとも１つを実行し、前記利用可能手段は、前記第１のシチュエーション変更動画データ、前記第２のシチュエーション変更動画データ、前記第３のシチュエーション変更動画データのうちの少なくとも１つをさらに前記装置の外部から利用可能な状態にする。

本発明の一実施形態では、前記少なくとも２つの動きは、第１の動きと第２の動きとを含み、前記第１の動きおよび前記第２の動きのそれぞれは、一組の数値によって表され、前記動き補間動画データを生成することは、前記第１の動きを表す一組の数値と前記第２の動きを表す一組の数値との間で動きを表す一組の数値を変動させることによって達成される。

本発明の一実施形態では、前記第１のシチュエーション、前記第２のシチュエーション、前記第３のシチュエーションのそれぞれは、一組の数値によって表され、前記第１のシチュエーション変更動画データを生成することは、前記第１のシチュエーションを表す一組の数値を変動させることによって達成され、前記第２のシチュエーション変更動画データを生成することは、前記第２のシチュエーションを表す一組の数値を変動させることによって達成され、前記第３のシチュエーション変更動画データを生成することは、前記第３のシチュエーションを表す一組の数値を変動させることによって達成される。

本発明の一実施形態では、前記第１の動きおよび前記第２の動きのそれぞれは、一組の数値によって表され、前記動き補間動画データを生成することは、前記第１の動きを表す一組の数値と前記第２の動きを表す一組の数値との間で動きを表す一組の数値を変動させることによって達成され、前記第１のシチュエーション、前記第２のシチュエーション、前記第３のシチュエーションのそれぞれは、一組の数値によって表され、前記第１のシチュエーション変更動画データを生成することは、前記第１のシチュエーションを表す一組の数値を変動させることによって達成され、前記第２のシチュエーション変更動画データを生成することは、前記第２のシチュエーションを表す一組の数値を変動させることによって達成され、前記第３のシチュエーション変更動画データを生成することは、前記第３のシチュエーションを表す一組の数値を変動させることによって達成され、前記第１のシチュエーションを表す一組の数値を変動させること、前記第２のシチュエーションを表す一組の数値を変動させること、前記第３のシチュエーションを表す一組の数値を変動させることのうちの少なくとも１つは、前記動きを表す一組の数値を変動させることに相関している。

本発明の一実施形態では、前記第１のシチュエーション、前記第２のシチュエーション、および前記第３のシチュエーションは、同一のシチュエーションである。

本発明の一実施形態では、前記シチュエーションを表す一組の数値は、光源位置を示す数値、明るさを示す数値、カメラ位置を示す数値、被写体の性別を示す数値、被写体の肌の色を示す数値、被写体の服の特徴を示す数値、解像度を示す数値、シャープネスを示す数値、コントラストを示す数値、彩度を示す数値のうちの少なくとも１つを含む。

本発明の一実施形態では、前記データ生成部は、前記少なくとも２つの動画データを補外することにより、前記少なくとも２つの動画データによって示される動きと同一の意味を表す動きを示す動き補外動画データをさらに生成し、前記利用可能手段は、前記動き補外動画データをさらに前記装置の外部から利用可能な状態にする。

本発明の一実施形態では、動きを示す複数の動画データを提供する装置と、前記装置から出力される動画データに基づいて前記動画データによって示される動きを学習する機能と、前記動きを認識する機能とを有する動き認識装置とを備える、システムが提供される。

本発明は、動きを示す複数の動画データを提供するためにコンピュータによって実行されるプログラムを提供し、前記コンピュータは、プロセッサを備え、前記プログラムは、前記プロセッサによって実行されると、少なくとも１つの動きを示す少なくとも１つの動画データを受信することと、前記少なくとも１つの動画データに基づいて、前記少なくとも１つの動画データによって示される動きと同一の意味を表す動きを示す動画データを生成することと、前記少なくとも１つの動画データと前記生成された動画データとを前記装置の外部から利用可能にすることとを前記プロセッサに行わせる。

本発明は、動きを認識するためにコンピュータによって実行されるプログラムを提供し、前記コンピュータは、プロセッサを備え、前記プログラムは、前記プロセッサによって実行されると、少なくとも１つの動きを示す少なくとも１つの動画データを受信することと、前記少なくとも１つの動画データに基づいて、前記少なくとも１つの動画データによって示される動きと同一の意味を表す動きを示す動画データを生成することと、前記少なくとも１つの動画データと前記生成された動画データとを出力することと、前記出力された動画データに基づいて前記動画データによって示される動きを学習することと、前記動きを認識することとを前記プロセッサに行わせる。

本発明によれば、動きを示す複数の動画データを提供する装置およびプログラムを提供することが可能である。また、本発明によれば、前記装置またはプログラムによって提供された複数の動画データに基づいて機械学習を行い、機械学習に基づいて動きを認識するシステムおよびプログラムを提供することが可能である。

図１Ａは、本発明の装置１０が２つの動画データ２０、２５から複数の動画データ３０を提供することを模式的に示している。図１Ｂは、本発明の装置１０によって提供される複数の動画データ３０の一例を示す。図２は、本発明の装置１０の構成の一例を示すブロック図である。図３は、本発明の装置１０による処理の一例を示すフローチャートである。図４は、本発明の装置１０の生成部１２が２つの動画データ２０、２５から動き補間動画データ４０を生成することを模式的に示している。図５は、本発明の装置１０の生成部１２が動画データ２０からシチュエーション変更動画データ７０、８０、９０、１００を生成することを模式的に示している。図６は、本発明の装置１０の生成部１２によって動画データ２０、２５から生成される動画データの例を示す図である。図７は、本発明のシステム３００の構成の一例を示すブロック図である。図８は、本発明のシステム３００による処理の一例を示すフローチャートである。

以下、図面を参照しながら、本発明の実施の形態を説明する。

１．対象物の動きを示す複数の動画データを提供する装置
図１Ａは、本発明の装置１０が２つの動画データ２０、２５から複数の動画データ３０を提供することを模式的に示している。動画データ２０は、大きい手ぶりの「ありがとう」の手話をしている手話者をビデオカメラで撮影して取得されたデータである。動画データ２５は、小さい手ぶりの「ありがとう」の手話をしている手話者をビデオカメラで撮影して取得されたデータである。

本発明の装置１０は、動画データ２０と動画データ２５とを受信する。本発明の装置１０は、動画データ２０と動画データ２５とに基づいて、動画データ２０、２５が示す手話の手ぶりとは異なる手ぶりで、または、動画データ２０、２５が示すシチュエーションとは異なるシチュエーション下で、「ありがとう」の手話をしている手話者をあたかも撮影したかのような動画データを含む複数の動画データ３０を提供する。

図１Ｂは、本発明の装置１０によって提供される複数の動画データ３０の一例を示す。複数の動画データ３０は、本発明の装置１０によって受信された動画データ２０、２５、動画データ２０、２５が示す手話の手ぶりとは異なる手ぶりで「ありがとう」の手話をしている手話者をあたかも撮影したかのような複数の動画データ４０、５０、６０、動画データ２０、２５が示すシチュエーションとは異なるシチュエーション下で「ありがとう」の手話をしている手話者をあたかも撮影したかのような複数の動画データ７０、８０、９０、１００、１１０、１２０、１３０、１４０、動画データ２０、２５が示す手話の手ぶりとは異なる手ぶりで、かつ、動画データ２０、２５が示すシチュエーションとは異なるシチュエーション下で、「ありがとう」の手話をしている手話者をあたかも撮影したかのような複数の動画データ１５０、１６０、１７０、１８０、１９０、２００、２１０、２２０を含む。

動画データ２０、２５が示す手話の手ぶりとは異なる手ぶりで「ありがとう」の手話をしている手話者をあたかも撮影したかのような動画データ４０、５０、６０は、例えば、大きい手ぶりの「ありがとう」と小さい手ぶりの「ありがとう」とに比べて中くらいの手ぶりで「ありがとう」の手話をしている手話者をあたかも撮影したかのような動画データ４０、中くらいの手ぶりの「ありがとう」よりも少し大きい手ぶりで「ありがとう」の手話をしている手話者をあたかも撮影したかのような動画データ５０、中くらいの手ぶりの「ありがとう」よりも少し小さい手ぶりで「ありがとう」の手話をしている手話者をあたかも撮影したかのような動画データ６０を含み得る。

動画データ２０、２５が示すシチュエーションとは異なるシチュエーション下で「ありがとう」の手話をしている手話者をあたかも撮影したかのような動画データ７０、８０、９０、１００、１１０、１２０、１３０、１４０は、例えば、大きい手ぶりの「ありがとう」の手話について、明るさが動画データ２０、２５のものとは異なる環境下であたかも撮影されたかのような動画データ７０、８０、９０、１００、および光源の位置が動画データ２０、２５のものとは異なる環境下であたかも撮影されたかのような動画データ１１０、１２０、１３０、１４０を含み、小さい手ぶりの「ありがとう」の手話について、明るさが動画データ２０、２５のものとは異なる環境下であたかも撮影されたかのような動画データ、および光源の位置が動画データ２０、２５のものとは異なる環境下であたかも撮影されたかのような動画データを含む。

明るさが動画データ２０、２５のものとは異なる環境下で撮影されたかのような動画データ７０、８０、９０、１００は、例えば、明るい環境下であたかも撮影されたかのような動画データ７０、暗い環境下であたかも撮影されたかのような動画データ８０、少し明るい環境下であたかも撮影されたような動画データ９０、少し暗い環境下であたかも撮影されたかのような動画データ１００を含み得る。

光源の位置が動画データ２０、２５のものとは異なる環境下で撮影されたかのような動画データ１１０、１２０、１３０、１４０は、例えば、光源がカメラの正面にある逆光の環境下であたかも撮影されたかのような動画データ１１０、光源がカメラの背後にある順光の環境下であたかも撮影されたかのような動画データ１２０、光源がカメラの右側にある環境下であたかも撮影されたかのような動画データ１３０、光源がカメラの左側にある環境下であたかも撮影されたかのような動画データ１４０を含み得る。

動画データ２０、２５が示す手話の手ぶりとは異なる手ぶりで、かつ、動画データ２０、２５が示すシチュエーションとは異なるシチュエーション下で、「ありがとう」の手話をしている手話者をあたかも撮影したかのような複数の動画データ１５０、１６０、１７０、１８０、１９０、２００、２１０、２２０は、例えば、大きい手ぶりの「ありがとう」と小さい手ぶりの「ありがとう」とに比べて中くらいの手ぶりの「ありがとう」の手話について、明るさが動画データ２０、２５のものとは異なる環境下であたかも撮影されたかのような動画データ１５０、１６０、１７０、１８０、光源の位置が動画データ２０、２５のものとは異なる環境下であたかも撮影されたかのような動画データ１９０、２００、２１０、２２０を含み得る。

中くらいの手ぶりの「ありがとう」の手話について、明るさが動画データ２０、２５のものとは異なる環境下で撮影されたかのような動画データ１５０、１６０、１７０、１８０は、例えば、明るい環境下で撮影されたかのような動画データ１５０、暗い環境下で撮影されたかのような動画データ１６０、少し明るい環境下で撮影されたような動画データ１７０、少し暗い環境下で撮影されたかのような動画データ１８０を含み得る。

中くらいの手ぶりの「ありがとう」の手話について、光源の位置が動画データ２０、２５のものとは異なる環境下で撮影されたかのような動画データ１９０、２００、２１０、２２０は、例えば、光源がカメラの正面にある逆光の環境下で撮影されたかのような動画データ１９０、光源がカメラの背後にある順光の環境下で撮影されたかのような動画データ２００、光源がカメラの右側にある環境下で撮影されたかのような動画データ２１０、光源がカメラの左側にある環境下で撮影されたかのような動画データ２２０を含み得る。

このように、本発明の装置１０は、動画データ２０、２５が示すシチュエーションとは異なるシチュエーション下で「ありがとう」の手話をしている手話者をあたかも撮影したかのような動画データを、動画データ２０、２５が示す手話の手ぶりとは異なる手ぶりの「ありがとう」の手話の各々、例えば、少し大きい手ぶりの「ありがとう」の手話、少し小さい手ぶりの「ありがとう」の手話等についても提供する。これにより、動画データ２０、２５が示す手話の手ぶりとは異なる手ぶりで、かつ、動画データ２０、２５が示すシチュエーションとは異なるシチュエーション下で、「ありがとう」の手話をしている手話者をあたかも撮影したかのような複数の動画データが提供される。

以上のとおり、本発明の装置１０は、受信された動画データ２０、２５に基づいて、動画データ２０、２５が示す手話の手ぶりとは異なる手ぶりで、または、動画データ２０、２５が示すシチュエーションとは異なるシチュエーション下で、「ありがとう」の手話をしている手話者をあたかも撮影したかのような動画データを含む複数の動画データ３０を提供する。これにより、本発明の装置１０は、２つの受信された動画データから、２つの受信された動画データとは異なる大量の動画データを効率的に提供することができる。例えば、約３秒間の手話を撮影した動画データ２パターンを本発明の装置１０に入力すると、本発明の装置１０は、撮影した手話とは異なる手ぶりで、または、撮影したシチュエーションとは異なるシチュエーション下で同じ意味の手話をあたかも撮影したかのような約１万通りの動画データを約１２時間で生成して提供することができる。約１万通りの動画データを撮影するには莫大な時間、コスト、労力がかかるが、本発明の装置１０によると、短期間、低コスト、少労力で大量の動画データを提供することができる。

本発明の装置１０によって提供される複数の動画データ３０は、例えば、手話認識装置の機械学習用データとして用いられてもよい。手話認識装置とは、ビデオカメラ等によって撮影された手話動画がどのような意味の手話であるかを認識することができる装置である。図１Ａおよび図１Ｂに示される例において本発明の装置１０によって提供される複数の動画データ３０が同一の「ありがとう」を表す手話であるので、提供される複数の動画データ３０を例えば手話認識装置のための機械学習用のデータとして用いることで、「ありがとう」のジェスチャを手話認識装置に学習させることが可能である。手話認識装置は、事前に学習した「ありがとう」の手話と、入力された手話とをマッチングすることにより、入力された手話が「ありがとう」であるか否かを決定することができる。

図１Ａおよび図１Ｂに示される例では、本発明の装置１０が２つの動画データ２０、２５から複数の動画データ３０を提供することを説明したが、本発明の装置１０が受信する動画データの数は問わない。例えば、本発明の装置１０は、１つの動画データを受信し、受信した１つの動画データから複数の動画データ３０を提供してもよい。あるいは、本発明の装置１０は、３つ以上の動画データを受信し、受信した３つ以上の動画データから複数の動画データ３０を提供してもよい。

図１Ａおよび図１Ｂに示される例では、本発明の装置１０が、同一人を撮影した動画データ２０、２５から複数の動画データ３０を提供することを説明したが、動画データ２０、２５はそれぞれ別人を撮影した動画データであってもよい。

図１および図１Ｂに示される例では、動画データ２０、２５がビデオカメラで撮影して取得されたデータであることを説明したが、動画データ２０、２５は、ビデオカメラで撮影して取得されたデータに限定されない。動画データ２０、２５をどのように取得するかは問わない。例えば、動画データ２０、２５は、ビデオカメラで撮影したデータを元に自動でまたは手動で生成した３Ｄアニメーションデータであってもよいし、ビデオカメラで撮影したデータに基づかずに生成した３Ｄアニメーションデータであってもよい。

図１Ａおよび図１Ｂの例では、「手話」を例にして説明したが、本発明の装置１０が対象とするものは、「手話」に限定されない。本発明の装置１０は、任意の「ジェスチャ」を対象とし得る。本明細書において「ジェスチャ」とは、何らかの意味を表す動作のことをいう。動作の主体は問わない。例えば、動作の主体は、人間であってもよいし、動物であってもよいし、ロボットであってもよいし、玩具であってもよい。

本発明の装置１０によって提供される複数の動画データは、ジェスチャ認識装置の機械学習用データとして用いられてもよい。本明細書において「ジェスチャ認識装置」とは、入力されたジェスチャが何のジェスチャであるかを認識することができる装置である。ジェスチャ認識装置は、本発明の装置１０によって提供された複数の動画データ３０の各々が示す各ジェスチャが同一の意味を表すジェスチャであることを事前に学習する。そして、ジェスチャ認識装置は、入力されたジェスチャと学習されたジェスチャとをマッチングすることにより、入力されたジェスチャがどのような意味のジェスチャであるかを認識することができる。

本発明の装置１０が対象とするものは、「ジェスチャ」に限定されない。本発明の装置１０は、任意の「動き」を対象とし得る。動きの主体は問わない。例えば、動きの主体は、人間であってもよいし、動物であってもよいし、ロボットであってもよいし、玩具であってもよいし、ボールであってもよい。

本発明の装置１０によって提供される複数の動画データは、動き認識装置の機械学習用データとして用いられてもよい。本明細書において「動き認識装置」とは、入力された動きが何の動きであるかを認識することができる装置である。動き認識装置は、本発明の装置１０によって提供された複数の動画データ３０の各々が示す各動きが同一の意味を表す動きであることを事前に学習する。そして、動き認識装置は、入力された動きと学習された動きとをマッチングすることにより、入力された動きがどのような意味の動きであるかを認識することができる。

例えば、本発明の装置１０は、バッターの打ったボールの動きを対象とする。本発明の装置１０は、バッターの打ったボールを撮影した複数の動画データを受信し、受信した動画データが示すボールの弾道とは異なる弾道で、または、受信した動画データが示すシチュエーションとは異なるシチュエーション下で飛ぶボールをあたかも撮影したかのような動画データを生成し、複数の動画データ３０を提供する。動き認識装置は、本発明の装置１０から出力された複数の動画データ３０を学習用素材として、バッターが打ったボールの動きを学習することができる。

例えば、本発明の装置１０は、玩具が稼働するときの動きを対象とする。本発明の装置１０は、玩具が稼働するときの動きを撮影した複数の動画データを受信し、受信した動画データが示す玩具の動きとは異なる動きで、または、受信した動画データが示すシチュエーションとは異なるシチュエーション下で動く玩具をあたかも撮影したかのような動画データを生成し、複数の動画データ３０を提供する。動き認識装置は、本発明の装置１０から出力された複数の動画データ３０を学習用素材として、玩具が稼働するときの動きを学習することができる。

２．対象物の動きを示す複数の動画データを提供する装置の構成
図２は、本発明の装置１０の構成の一例を示すブロック図である。本発明の装置１０は、動画データ２０、２５を受信して、複数の動画データ３０を提供するように構成されている。本発明の装置１０は、受信部１１と、生成部１２と、出力部１３と、制御部１４、メモリ部１５とを少なくとも備える。

受信部１１は、本発明の装置１０の外部からデータを受信するように構成されている。受信部１１がデータをどのように受信するかは問わない。例えば、受信部１１は、ユーザによる手動入力によってデータを受信してもよいし、ネットワーク等を介してデータを受信してもよい。受信部１１がネットワーク等を介してデータを受信する場合は、ネットワークの種類を問わない。例えば、受信部１１は、インターネットを介してデータを受信してもよいし、ＬＡＮを介してデータを受信してもよい。例えば、受信部１１は、データを格納している記憶媒体から読み出されたデータを受信してもよい。受信部１１は、任意の動画データを受信することが可能であり、好ましくは、３Ｄアニメーションデータ（３次元コンピュータグラフィクスの動画データ）である。

生成部１２は、受信部１１が受信したデータの処理を行うことにより、複数のデータを生成するように構成されている。生成部１２は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。生成部１２が処理を行うタイミングは問わない。例えば、受信部１１がデータを受信した後すぐに自動的に処理を開始してもよいし、一定数のデータを受信した後に自動または手動で処理を開始してもよい。生成部１２による処理は、複数のデータを補間する処理、複数のデータを補外する処理、データ内の所定の数値組を変動させる処理のうちの少なくとも１つを含む。複数のデータを補間する処理は、第１の動きを示す第１の動画データと、第２の動きを示す第２の動画データとを補間することにより、第３の動きを示す動き補間動画データを生成する処理を含む。複数のデータを補外する処理は、第１の動きを示す第１の動画データと、第２の動きを示す第２の動画データとを補外することにより、第３の動きを示す動き補外動画データを生成する処理を含む。データ内の所定の数値組を変動させる処理は、第１のシチュエーション下の第１の動きを示す第１の動画データ内の第１のシチュエーションを表す数値組を変動させることにより、第１のシチュエーションとは異なる第２のシチュエーション下の第１の動きを示すシチュエーション変更動画データを生成する処理を含む。データ内の所定の数値組を変動させる処理は、第１の動きを示す第１の動画データ内の第１の動きを示す数値組を変動させることにより、第１の動きとは異なる動きを示す動き変更動画データを生成する処理を含む。生成部１２による具体的な処理例は後述する。

出力部１３は、生成部１２によって生成された複数のデータおよび受信されたデータ２０、２５を本発明の装置１０の外部に出力するように構成されている。出力部１３は、本発明の装置１０の外部にデータを出力できれば足り、どのように出力するかは問わない。例えば、出力部１３は、自動で出力してもよいし、手動で出力してもよい。例えば、生成部１２から生成される度に逐次的に出力してもよいし、一括で出力してもよい。一括で出力する場合、出力部１３が出力するタイミングは問わない。例えば、出力部１３は、生成部１２による全処理が終了した後で出力してもよいし、一定量の動画データが蓄積された後に出力してもよい。また、出力部１３から出力されるデータの形式も問わない。例えば、出力部１３から出力されるデータは、非圧縮データであってもよいし、圧縮データであってもよい。

本発明の装置１０は、出力部１３に代えて、格納部を備えてもよい。格納部は、生成部１２によって生成された複数のデータおよび受信されたデータ２０、２５を格納するように構成されている。格納部は、本発明の装置１０の外部からアクセス可能である。本発明の装置１０の外部にある装置（外部装置）は、本発明の装置１０の外部から格納部にアクセスすることにより、格納部に格納されている複数のデータを取得することが可能である。格納部は、任意の記憶手段によって実装され得る。

このように、本発明の装置１０は、出力部１３または格納部によって、生成部１２によって生成された複数のデータおよび受信されたデータ２０、２５を本発明の装置１０の外部からアクセス可能な状態にすることが可能なように構成されている。すなわち、本発明の装置１０は、生成部１２によって生成された複数のデータおよび受信されたデータ２０、２５を本発明の装置１０の外部から利用可能な状態にする利用可能手段として、出力部１３または格納部を有してもよい。しかし、この利用可能手段は、出力部１３または格納部に限定されない。利用可能手段として、任意の構成を用いることが可能である。制御部１４は、受信部１１、生成部１２、出力部１３、メモリ部１５を制御することにより、本発明の装置１０全体を制御するように構成されている。制御部１４は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。例えば、制御部１４および生成部１２が、同一のプロセッサによって実装されてもよい。

メモリ部１５は、処理を実行するために必要とされるプログラムやそのプログラムの実行に必要とされるデータ等を格納する。メモリ部１５は、本明細書で説明されるような、動画データを受信して複数の動画データを提供する処理を制御部１４に実行させるためのプログラムを格納してもよい。メモリ部１５は、受信部１１、生成部１２、出力部１３または格納部、メモリ部１５の処理の制御を制御部１４に実行させるための単一のプログラムであってもよいし、受信部１１の処理の制御のためのプログラム、生成部１２の処理の制御のためのプログラム、出力部１３の処理の制御のためのプログラム、メモリ部１５の処理の制御のためのプログラムが、別々のプログラムであってもよい。ここで、プログラムをどのようにしてメモリ部１５に格納するかは問わない。例えば、プログラムは、メモリ部１５にプリインストールされていてもよい。あるいは、プログラムは、インターネットなどのネットワークを介してダウンロードされることによってメモリ部１５にインストールされるようにしてもよいし、光ディスクやＵＳＢなどの記憶媒体を介してメモリ部１５にインストールされるようにしてもよい。メモリ部１５は任意の記憶手段によって実装されてもよい。メモリ部１５は、格納部と異なる記憶手段によって実装されてもよいし、格納部と同一の記憶手段によって実装されてもよい。

受信部１１、生成部１２、出力部１３の各処理は、シームレスに行われてもよいし、各部ごとに分断して行われてもよい。例えば、各部の処理が分断して行われる場合、受信部１１から生成部１２に提供されるデータは、いったんメモリ部１５に格納された後に、所定のタイミングで生成部１２に提供されるようにしてもよい。また、生成部１１から出力部１３または格納部に提供されるデータは、いったんメモリ部１５に格納された後に、所定のタイミングで出力部１３または格納部に提供されるようにしてもよい。

３．対象物の動きを示す複数の動画データを提供する装置による処理
図３は、本発明の装置１０による処理の一例を示すフローチャートである。

本発明の装置１０による処理は、ステップＳ１０１から開始する。ステップＳ１０２において、本発明の装置１０の受信部１１が、本発明の装置１０の外部から複数の動画データを受信する。受信された複数の動画データは、同一の意味を表す複数の動きを撮影して取得された複数の動画データである。受信された複数の動画データは、例えば、大きい手ぶりの「ありがとう」の手話をしている手話者をビデオカメラで撮影して取得された動画データ２０、および、小さい手ぶりの「ありがとう」の手話をしている手話者をビデオカメラで撮影して取得されたデータ２５である。

ステップＳ１０３において、本発明の装置１０の生成部１２が動き補間処理を行う。生成部１２は、受信された複数の動画データが示す動きを補間することにより、受信された複数の動画データによって示される動きとは異なるが同一の意味を表す動きをあたかも撮影したかのような動き補間動画データを生成する。

ステップＳ１０４において、本発明の装置１０の生成部１２がシチュエーション変更処理を行う。生成部１２は、受信された複数の動画データに対してシチュエーション変更処理を行うことにより、受信された複数の動画データが示すシチュエーションとは異なるシチュエーション下であたかも撮影したかのようなシチュエーション変更動画データを生成する。また、生成部１２は、ステップＳ１０３において生成された動き補間動画データに対しても同様にシチュエーション変更処理を行うことにより、受信された複数の動画データによって示される動きとは異なるが同一の意味を表す動きを、受信された複数の動画データが示すシチュエーションとは異なるシチュエーション下であたかも撮影したかのようなシチュエーション変更動画データを生成する。

ステップＳ１０５において、本発明の装置１０の出力部１３が、受信された複数の動画データ、ステップＳ１０３において生成された動き補間動画データ、ステップＳ１０４において生成されたシチュエーション変更動画データを出力し、ステップＳ１０６において処理を終了する。

本発明の装置１０による処理は、上述した順序に限定されない。図３に示される例では、ステップＳ１０３において動き補間処理を行うことにより動き補間動画データを生成した後、ステップＳ１０４においてシチュエーション変更処理を行ったが、動き補間処理およびシチュエーション変更処理の順序は問わない。例えば、シチュエーション変更処理を行うことによりシチュエーション変更動画データを生成した後、受信された複数の動画データ、生成されたシチュエーション変更動画データのそれぞれに対して、動き補間処理を行ってもよい。あるいは、動き補間処理およびシチュエーション変更処理を相関させて同時に行ってもよい。あるいは、動き補間処理に加えて、または、動き補間処理に代えて、動き補外処理を行ってもよい。

４．生成部１２による動き補間処理
図４は、本発明の装置１０の生成部１２が２つの動画データ２０、２５から動き補間動画データ４０を生成することを模式的に示している。動画データ２０は、大きい手ぶりの「ありがとう」の手話をしている手話者を撮影して取得された動画データである。動画データ２５は、小さい手ぶりの「ありがとう」の手話をしている手話者を撮影して取得された動画データである。

図４に示される例では、動画データ２０において、大きい手ぶりの「ありがとう」の手話は、数値化されている。大きい手ぶりの「ありがとう」の手話は、左腕の肘および右腕の肘を定位置に固定したまま、右腕を一定の速度αで右肘を中心としてｙ軸方向上向きにｔ_ｎ秒間動かす動きとして、行列Ｇ_１（ｔ）によって表現される。ここで、αは正の定数であり、ｔは時間を表し、(t)は、時間の関数であることを表す。図４に示されるように、大きい手ぶりの「ありがとう」の手話における右手の移動距離はαｔ_ｎとなる。

図４に示される例では、動画データ２５において、小さい手ぶりの「ありがとう」の手話は、数値化されている。小さい手ぶりの「ありがとう」の手話は、左腕の肘および右腕の肘を定位置に固定したまま、右腕を一定の速度βで右肘を中心としてｙ軸方向上向きにｔ_ｎ秒間動かす動きとして、行列Ｇ_２（ｔ）によって表現される。ここで、βは正の定数であり、β＜αである。図４に示されるように、小さい手ぶりの「ありがとう」の手話における右手の移動距離はβｔ_ｎとなる。

生成部１２は、動画データ２０中の行列Ｇ_１（ｔ）と動画データ２５中の行列Ｇ_２（ｔ）とを補間することにより、中くらいの手ぶりの「ありがとう」の手話をしている手話者をあたかも撮影したかのような動き補間動画データ４０を生成する。

Ｇ_１（ｔ）およびＧ_２（ｔ）を線形補間する場合、生成される動き補間動画データ中の動きを表す行列Ｇ（ｔ）とＧ_１（ｔ）およびＧ_２（ｔ）との間に、
Ｇ（ｔ）＝（１−ｓ）Ｇ_１（ｔ）＋ｓＧ_２（ｔ）、０＜ｓ＜１式１
の関係が成り立つ。中くらいの手ぶりの「ありがとう」の手話Ｇ_３（ｔ）は、ｓ＝０．５を代入して計算することにより導出される。式１にｓ＝０．５を代入して計算して導出される行列Ｇ_３（ｔ）は、左腕の肘および右腕の肘を定位置に固定したまま、右腕を一定の速度（α＋β）／２で右肘を中心としてｙ軸方向上向きにｔ_ｎ秒間動かす動きを表現することになる。図４に示されるように、動き補間動画データ４０によって示される中くらいの手ぶりの「ありがとう」の手話における右手の移動距離は（α＋β）／２・ｔ_ｎとなる。

式１においてｓの値を変動させることによって、種々の異なる手ぶりで「ありがとう」の手話をしている手話者を撮影したかのような動き補間動画データを生成することができる。例えば、ｓ＝０．２５として計算することにより、中くらいの手ぶりの「ありがとう」よりも少し大きい手ぶりで「ありがとう」の手話をしている手話者を撮影したかのような動き補間動画データ５０（図１を参照）が生成される。例えば、ｓ＝０．７５として計算することにより、中くらいの手ぶりの「ありがとう」よりも少し小さい手ぶりで「ありがとう」の手話をしている手話者を撮影したかのような動き補間動画データ６０（図１を参照）が生成される。

上述したような動きが数値化されている動画データ２０、２５は、例えば、３Ｄアニメーションデータ（３次元コンピュータグラフィクスの動画データ）であり得る。

３Ｄアニメーションデータによって表現される３Ｄアニメーションでは、動く主体（アバター）は、仮想的に生成された物理空間において、動きに必要な複数のパラメータ（腕の位置、腕の角度、動作スピード、関節の動き等）に基づいて、物理的に非現実的な動きにならないように動くことができる。例えば、３Ｄアニメーションにおいてアバターに「ありがとう」の手話をさせる場合、左手の甲を上向きにして左手を胸の前で水平に固定させるように左手に関するパラメータを設定し、右手を左手の甲の位置から上方に移動させるように右手に関するパラメータを設定することによって、アバターは、「ありがとう」の手話を行う。

動きを示す３Ｄアニメーションデータは、以下の手法のうちの少なくとも１つによって生成されたデータであり得る。
（１）３Ｄアニメーションアニメーターが３Ｄアニメーションを作成する。アニメーターが作成する手法は問わない。例えば、動きをビデオカメラで撮影して撮影された映像を元に３Ｄアニメーションを作成してもよいし、映像を元とせずに３Ｄアニメーションを作成してもよい。
（２）動きをビデオカメラで撮影し、ビデオカメラに接続されたコンピュータにおいてモーションキャプチャシステムを用いて前記動きを自動的に認識する。認識された動きから取得されるパラメータに基づいて３Ｄアニメーションを作成する。
（３）動きを行う主体がモーションキャプチャスーツを装着し、その動きをリアルタイムでデータとして取得する。取得されたデータに基づいて３Ｄアニメーションを作成する。

動きを示す３Ｄアニメーションデータは、いずれの手法によって生成された場合も、動きに必要な複数のパラメータ（腕の位置、腕の角度、動作スピード、関節の動き等）によって動きを数値化している。動きは、上述したように行列Ｇ（ｔ）として表現される。行列Ｇ（ｔ）は、アバターの体の各部位の位置成分および姿勢成分を含む。例えば、行列Ｇ（ｔ）は、左腕の肘の位置成分（x_leftelbow(t),y_leftelbow(t),z_leftelbow(t)）および姿勢成分（θx_leftelbow(t),θy_leftelbow(t),θz_leftelbow(t))、ならびに右腕の肘の位置成分(x_rightelbow(t),y_rightelbow(t),z_rightelbow(t)）および姿勢成分（θx_rightelbow(t),θy_rightelbow(t),θz_rightelbow(t))等を含み得る。

例えば、左腕の肘および右腕の肘を定位置に固定したまま、右腕を一定の速度αで右肘を中心としてｙ軸方向上向きにｔ_ｎ秒間動かす動きとして表現される大きな手ぶりの「手話」の行列Ｇ_１（ｔ）では、左腕の肘の位置成分（x_1leftelbow(t),y_1leftelbow(t),z_1leftelbow(t)）および姿勢成分（θx_1leftelbow(t),θy_1leftelbow(t),θz_1leftelbow(t))が各々定数であり、右腕の肘の位置成分(x_1rightelbow(t),y_1rightelbow(t),z_1rightelbow(t)）が各々定数であり、右腕の肘の姿勢成分（θx_1rightelbow(t),θy_1rightelbow(t),θz_1rightelbow(t))のうちのθx_1rightelbow(t)のみが時間に比例する関数であり(θx_1rightelbow(t)=αt）、その他の成分は定数である。

例えば、左腕の肘および右腕の肘を定位置に固定したまま、右腕を一定の速度βで右肘を中心としてｙ軸方向上向きにｔ_ｎ秒間動かす動きとして表現される小さな手ぶりの「手話」の行列Ｇ_２（ｔ）では、左腕の肘の位置成分（x_2leftelbow(t),y_2leftelbow(t),z_2leftelbow(t)）および姿勢成分（θx_2leftelbow(t),θy_2leftelbow(t),θz_2leftelbow(t))が各々定数であり、右腕の肘の位置成分(x_2rightelbow(t),y_2rightelbow(t),z_2rightelbow(t)）が各々定数であり、右腕の肘の姿勢成分（θx_2rightelbow(t),θy_2rightelbow(t),θz_2rightelbow(t))のうちのθx_2rightelbow(t)のみが時間に比例する関数であり(θx_2rightelbow(t)=βt）、その他の成分は定数である。

この場合、式１によって導出される行列Ｇ_３（ｔ）では、左腕の肘の位置成分（x_3leftelbow(t),y_3leftelbow(t),z_3leftelbow(t)）および姿勢成分（θx_3leftelbow(t),θy_3leftelbow(t),θz_3leftelbow(t))が各々定数となり、右腕の肘の位置成分(x_3rightelbow(t),y_3rightelbow(t),z_3rightelbow(t)）が各々定数となり、右腕の肘の姿勢成分（θx_3rightelbow(t),θy_3rightelbow(t),θz_3rightelbow(t))のうちのθx_3rightelbow(t)のみが時間に比例する関数となり(θx_3rightelbow(t)=(α+β)/2・t）、その他の成分は定数となる。このようにして、左腕の肘および右腕の肘を定位置に固定したまま、右腕を一定の速度（α＋β）／２で右肘を中心としてｙ軸方向上向きに動かす動きが行列Ｇ_３（ｔ）によって表現される。

図４に示される例では、Ｇ_１（ｔ）およびＧ_２（ｔ）を線形補間する例を説明したが、生成部１２による処理は、線形補間処理に限定されない。生成部１２は、例えば、二次補間、三次補間、三角補間等の非線形補間処理を行ってもよい。生成部１２による補間処理には、任意の補間手法を用いることが可能である。

図４に示される例では、生成部１２が２つの動画データ２０、２５から動き補間動画データ４０を生成することを説明したが、生成部１２は他の動画データから動き補間動画データを生成してもよい。例えば、生成部１２は、受信した３つの動画データから動き補間動画データを生成してもよい。あるいは、生成部１２は、シチュエーション変更処理によって生成された２つ以上のシチュエーション変更動画データから動き補間動画データを生成してもよい。あるいは、生成部１２は、１つの動画データ２０から動き変更動画データを生成してもよい。例えば、生成部１２は、動きを表現する行列中の任意の位置成分または姿勢成分を適当に変動させることにより、動画データ２０が示す動きとは異なる動きを示す動き変更動画データを生成する。任意の位置成分または姿勢成分を適当に変動させることは、好ましくは、結果として生成される動き変更動画データが示す動きが、動画データ２０が示す動きの意味と同一の意味を依然として示すように行われる。例えば、右肘の位置成分を変動させることにより、動画データ２０が示す「ありがとう」の手話とは右肘の位置が異なる「ありがとう」の手話を示す動き変更動画データを生成してもよい。

動画データ２０が示す動きの継続時間と動画データ２５が示す動きの継続時間とは、同じであってもよいし、異なっていてもよい。例えば、動画データ２０が示す動きが長い時間をかけてゆっくりと行う大きい手ぶりの「手話」である一方で、動画データ２５が示す動きが短時間で素早く行う小さい手ぶりの「手話」であってもよい。この場合でも、生成部１２は、各動きを表現する行列Ｇ_１（ｔ）および行列Ｇ_２（ｔ）の両方がｔ_ｎ秒間継続する動きとなるように行列Ｇ_１（ｔ）または行列Ｇ_２（ｔ）を変換することにより、図４に示される例と同様の処理を行うことができる。

５．生成部１２によるシチュエーション変更処理
図５は、本発明の装置１０の生成部１２が動画データ２０からシチュエーション変更動画データ７０、８０、９０、１００を生成することを模式的に示している。動画データ２０は、大きい手ぶりの「ありがとう」の手話をしている手話者を撮影して取得された動画データである。

図５に示される例では、動画データ２０は、撮影された環境の明るさを示す値を含んでいる。生成部１２は、動画データ２０内に含まれる撮影された環境の明るさを示す値を変動させることにより、明るさが動画データ２０のものとは異なる環境下で撮影されたかのようなシチュエーション変更動画データを生成する。例えば、動画データ２０内に含まれる明るさを示す値を＋６０％にすることにより、明るい環境下であたかも撮影したかのようなシチュエーション変更動画データ７０を生成する。動画データ２０内に含まれる明るさを示す値を−６０％にすることにより、暗い環境下であたかも撮影したかのようなシチュエーション変更動画データ８０を生成する。動画データ２０内に含まれる明るさを示す値を＋３０％にすることにより、少し明るい環境下であたかも撮影したかのようなシチュエーション変更動画データ９０を生成する。動画データ２０内に含まれる明るさを示す値を−３０％にすることにより、少し暗い環境下であたかも撮影したかのようなシチュエーション変更動画データ１００を生成する。

図５に示される例では、生成部１２は、動画データ２０内に含まれる撮影された環境の明るさを示す値を変動させているが、変動させる値は、撮影された環境の明るさを示す値に限定されない。生成部１２による処理は、動画データ２０内のシチュエーションを表す数値組のうちの１つ以上の数値を変動させる処理であればよい。動画データ２０内のシチュエーションを表す数値組Ｓ_１は、光源位置、カメラ位置、手話者の性別、手話者の肌の色、手話者の服装、解像度、画質（シャープネス、コントラスト、彩度など）などを示す数値を含むが、これらに限定されない。生成部１２は、動画データ２０内に含まれるシチュエーションを表す数値組Ｓ_１の１つ以上を変動させることにより、動画データ２０が示すシチュエーションとは異なるシチュエーション下であたかも撮影したかのようなシチュエーション変更動画データを生成する。例えば、生成部１２は、動画データ２０内に含まれるシチュエーションを表す数値組Ｓ_１のうちの光源位置を示す値を変動させることにより、明るさが動画データ２０のものとは異なる環境下で撮影されたかのような動画データ、例えば、光源がカメラの正面にある逆光の環境下で撮影されたかのような動画データ１９０、光源がカメラの背後にある順光の環境下で撮影されたかのような動画データ２００、光源がカメラの右側にある環境下で撮影されたかのような動画データ２１０、光源がカメラの左側にある環境下で撮影されたかのような動画データ２２０等を生成し得る。生成部１２は、動画データ２０内に含まれるシチュエーションを表す数値組Ｓ_１のうちのカメラ位置を示す値を変動させることにより、カメラの位置が動画データ２０のものとは異なる環境下であたかも撮影したかのような動画データ、例えば、遠くから手話者をあたかも撮影したかのような動画データ、接近して手話者をあたかも撮影したかのような動画データ等を生成し得る。その他、生成部１２は、動画データ２０内に含まれるシチュエーションを表す数値組Ｓ_１のうちの手話者の性別を示す値、手話者の肌の色を示す値、手話者の服装を示す値、解像度を示す値、画質（シャープネス、コントラスト、彩度など）を示す値等を変動させることにより、動画データ２０が示すシチュエーションとは異なるシチュエーション下であたかも撮影したかのようなシチュエーション変更動画データを生成する。上述したシチュエーションを表す数値は例示的なものであり、他の種々のシチュエーションを表す数値が、シチュエーション変更動画データを生成するために使用され得る。

図５に示される例では、生成部１２は、動画データ２０内に含まれる撮影された環境の明るさを示す値のみを変動させているが、生成部１２が変動させる数値の数は問わない。例えば、生成部１２は、動画データ２０内に含まれる数値組Ｓ_１のうちの１つを変動させてもよいし、数値組Ｓ_１のうちの複数の数値を変動させてもよい。

図５に示される例では、生成部１２は、動画データ２０内に含まれる撮影された環境の明るさを示す値を±６０％、±３０％に変動させたが、生成部１２が数値を変動させる手法は問わない。例えば、生成部１２は、シチュエーションを表す数値組Ｓ_１のうちの各数値を、０％〜±１００％の間で線形に変動させてもよいし、０％〜±１００％の間で非線形に変動させてもよい。また、生成部１２は、シチュエーションを表す数値組Ｓ_１のうちの各数値を、独立して変動させてもよいし、互いに相関させて変動させてもよい。相関させて変動させる場合は、相関の手法は問わない。各数値が何らかの関係を持って変動すれば足りる。シチュエーションを表す数値組Ｓ_１のうちのいくつかの数値を相関させて変動させることにより、効率的に計算を行うことが可能である。

６．生成部１２によって生成される動画データ
図６は、本発明の装置１０の生成部１２によって動画データ２０、２５から生成される動画データの例を示す図である。大きい手ぶりの「ありがとう」の手話をしている手話者を撮影して取得された動画データ２０と、小さい手ぶりの「ありがとう」の手話をしている手話者を撮影して取得された動画データ２５とから生成される動画データは、動き補間動画データ４０、動き補外動画データ２５０、２６０、シチュエーション変更動画データ７０、８０、２３０、２４０、動き補間かつシチュエーション変更動画データ１５０、１６０を含む。図６において、動き補間動画データおよび動き補外動画データは、破線軸で表される方向に沿って並んでいる。図６において、シチュエーション変更動画データは、点線で表される方向に沿って並んでいる。

動画データ２０は、大きい手ぶりの「ありがとう」の手話を表現する行列Ｇ_１（ｔ）、撮影されたシチュエーションを表す数値組Ｓ_１を含んでいる。動画データ２５は、小さい手ぶりの「ありがとう」の手話を表現する行列Ｇ_２（ｔ）と撮影されたシチュエーションを表す数値組Ｓ_１とを含んでいる。生成部１２による動き補間処理によって生成される動き補間動画データ４０は、中くらいの手ぶりの「ありがとう」の手話を表現する行列Ｇ_３（ｔ）と撮影されたシチュエーションを表す数値組Ｓ_１とを含んでいる。

生成部１２は、動画データ２０と、動画データ２５と、動き補間動画データ４０とのそれぞれに対して、シチュエーション変更動画データを生成する。生成部１２によるシチュエーション変更処理によって動画データ２０から生成されたシチュエーション変更動画データ７０は、大きい手ぶりの「ありがとう」の手話を表現する行列Ｇ_１（ｔ）と撮影されたシチュエーション（例えば、明るい撮影環境）を示す数値組Ｓ_２とを含んでいる。生成部１２によるシチュエーション変更処理によって動画データ２０から生成されたシチュエーション変更動画データ８０は、大きい手ぶりの「ありがとう」の手話を表現する行列Ｇ_１（ｔ）と撮影されたシチュエーション（例えば、暗い撮影環境）を示す数値組Ｓ_３とを含んでいる。生成部１２によるシチュエーション変更処理によって動き補間動画データ４０から生成されたシチュエーション変更動画データ１５０は、中くらいの手ぶりの「ありがとう」の手話を表現する行列Ｇ_２（ｔ）と撮影されたシチュエーション（例えば、明るい撮影環境）を示す数値組Ｓ_２とを含んでいる。生成部１２によるシチュエーション変更処理によって動き補間動画データ４０から生成されたシチュエーション変更動画データ１６０は、大きい手ぶりの「ありがとう」の手話を表現する行列Ｇ_２（ｔ）と撮影されたシチュエーション（例えば、暗い撮影環境）を示す数値組Ｓ_３とを含んでいる。図５に示されるように、各動画データは、その動画データが示す手話を表現する行列Ｇ_ｎ（ｔ）とシチュエーションを表す数値組Ｓ_ｎとを含んでいる。

また、生成部１２は、動き補間処理に加えて、動き補外処理を行う。生成部１２は、動画データ２０および動画データ２５を補外することにより、動き補外動画データ２５０、２６０を生成する。生成部１２による動き補外処理によって生成される動き補外動画データ２５０は、もっと大きな手ぶりの「ありがとう」の手話を表現する行列Ｇ_４（ｔ）と撮影されたシチュエーションを表す数値組Ｓ_１とを含んでいる。また、生成部１２による動き補外処理によって生成される動き補外動画データ２６０は、もっと小さな手ぶりの「ありがとう」の手話を表現する行列Ｇ_５（ｔ）と撮影されたシチュエーションを表す数値組Ｓ_１とを含んでいる。補外処理は、線形補外処理であってもよいし、非線形補外処理であってもよい。生成部１２による補外処理には、任意の補外手法を用いることが可能である。

このように、生成部１２は、動きを補間／補外する次元（破線軸で表される方向）と、シチュエーションを変更する次元（点線軸で表される方向）との２つの次元に関して処理を行うことにより、多様な複数の動画データをランダムかつ効率的に生成することができる。

生成部１２において、動き補間処理とシチュエーション変更処理とは、独立して行われてもよいし、相関して行われてもよい。例えば、初めに動き補間動画データ４０を生成し、生成された動き補間動画データ４０に対してシチュエーション変更処理を行うことによって、シチュエーション変更動画データ１５０が生成されてもよいし、あるいは、初めにシチュエーション変更動画データ７０、２３０を生成し、生成された動き補間動画データ７０、２３０を補間することによってシチュエーション変更動画データ１５０が生成されてもよい。あるいは、シチュエーション変更動画データ１５０は、動き補間動画データ４０を生成することなく、動画データ２０、２５から直接生成されてもよい。

動き補間処理とシチュエーション変更処理との相関は、動き補間処理とシチュエーション変更処理とが何かしらの関係を持って行われればよく、相関の手法は問わない。例えば、動き補間処理とシチュエーション変更処理との相関は、上記式１におけるｓの値の変動とシチュエーションを表す数値組の変動とを相関させることによって達成され得る。動き補間処理とシチュエーション変更処理とを相関させて行うことにより、効率的に計算を行うことが可能である。

図６に示される例では、大きい手ぶりの「ありがとう」の手話をしている手話者を撮影して取得された動画データ２０と、小さい手ぶりの「ありがとう」の手話をしている手話者を撮影して取得された動画データ２５と、動き補間動画データ４０とが数値組Ｓ_１によって示される同一のシチュエーション下における動画データであったが、動画データ２０と、動画データ２５と、動き補間動画データ４０とは、互いに異なるシチュエーション下における動画データであってもよい。

図６に示される例では、大きい手ぶりの「ありがとう」の手話を示す動画データ２０と小さい手ぶりの「ありがとう」を示す動画データ２５から動き補間動画データを生成することを説明した。大きい手ぶりおよび小さい手ぶりを想定される手ぶりの大きさの上限および下限とすることで、生成部１２は、より多くの動き補間動画データを生成することができる。動画データ２０が示す動きの大きさと動画データ２５が示す動きの大きさとの差が大きいほど、動き補間動画データが示し得る動きの数が多くなるからである。しかしながら、本発明の装置１０が受信する動画データは、大きい手ぶりの動きを示す動画データおよび小さい手ぶりの動きを示す動画データに限定されない。本発明の装置１０が受信する動画データが示す動きの大きさは問わない。例えば、本発明の装置１０は、中くらいの手ぶりの「ありがとう」の手話を示す動画データと、中くらいの手ぶりよりも少し小さい手ぶりの「ありがとう」の手話を示す動画データとを受信し、それらの動画データから動き補間動画データまたは動き補外動画データを生成してもよい。

７．対象物の動きを示す複数の動画データを提供する装置を含むシステムの構成
図７は、本発明のシステム３００の構成の一例を示すブロック図である。本発明のシステム３００は、動き認識装置であり得る。この動き認識装置は、入力された動きが何の動きであるかを認識することができる。本発明のシステム３００は、上述した本発明の装置１０と、動き学習部３０１と、動き受信部３０２と、動き認識部３０３と、制御部３０４と、メモリ部３０５とを少なくとも備える。

本発明の装置１０は、上記に説明したとおり、動画データ２０、２５から複数の動画データ３０を提供するように構成されている。

動き学習部３０１は、本発明の装置１０によって提供された複数の動画データ３０の各々が示す各動きが同一の意味を表す動きであることを学習するように構成されている。動き学習部３０１は、複数の動画データの各々が示す各動きとその意味とを関連付けて格納する。動き学習部３０１は、任意の記憶手段によって実装されてもよい。

動き受信部３０２は、本発明のシステム３００の外部から動きを示す動画データを受信するように構成されている。受信部３０２がデータをどのように受信するかは問わない。例えば、受信部３０２は、ユーザによる手動入力によってデータを受信してもよいし、ネットワーク等を介してデータを受信してもよい。受信部３０２がネットワーク等を介してデータを受信する場合は、ネットワークの種類を問わない。例えば、受信部３０２は、インターネットを介してデータを受信してもよいし、ＬＡＮを介してデータを受信してもよい。受信されるデータの形式は問わない。例えば、受信されるデータは、動き受信部３０２に接続されたビデオカメラが撮影した動画データであってもよいし、任意の手法で作成された３Ｄアニメーションデータであってもよい。

動き認識部３０３は、動き受信部３０２によって受信された動画データによって示される動きと、動き学習部３０１によって学習された動きとをマッチングすることによって、動き受信部３０２によって受信された動画データによって示される動きがどのような意味の動きであるかを決定するように構成されている。動き認識部３０３は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。動き認識部３０３は、その他任意の公知の技術を用いて、動きを認識することが可能である。動き認識部３０３は、決定された動きを出力データとして出力する。

制御部３０４は、本発明の装置１０、動き学習部３０１、動き受信部３０２、動き認識部３０３、メモリ部３０５を制御することにより、システム３００全体を制御するように構成されている。制御部３０４は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。装置１０の生成部１２、装置１０の制御部１４、動き認識部３０３、制御部３０４のうちの２つ以上が同一のプロセッサによって実装されてもよい。

メモリ部３０５は、処理を実行するために必要とされるプログラムやそのプログラムの実行に必要とされるデータ等を格納する。メモリ部３０５は、本明細書で説明されるような、複数の動画データによって示される動きを事前に学習して動き認識を行う処理を制御部３０４に実行させるためのプログラムを格納してもよい。ここで、プログラムをどのようにしてメモリ部３０５に格納するかは問わない。例えば、プログラムは、メモリ部３０５にプリインストールされていてもよい。あるいは、プログラムは、インターネットなどのネットワークを介してダウンロードされることによってメモリ部３０５にインストールされるようにしてもよいし、光ディスクやＵＳＢなどの記憶媒体を介してメモリ部３０５にインストールされるようにしてもよい。メモリ部３０５は任意の記憶手段によって実装されてもよい。装置１０のメモリ部１５、動き学習部３０１、メモリ部３０５のうちの２つ以上が同一の記憶手段によって実装されてもよい。

本発明のシステム３００の実施形態として、カメラ等によって撮影された手話動画がどのような意味の手話であるかを認識することができる手話認識装置が挙げられる。手話認識装置は、手話の意味を本発明の装置１０によって提供される複数の動画データによって機械学習しているため、手話認識装置に接続されたビデオカメラによって撮影された手話がどのような意味を表すかを認識することができる。認識された手話の意味をテキストまたは音声に変換して出力することにより、例えば、手話を知らない人でも、聾者とコミュニケーションを図ることができる。

本発明のシステム３００の他の実施形態は、ＶＲ（バーチャルリアリティ）ヘッドマウントディスプレイであり得る。ＶＲヘッドマウントディスプレイは、特定のジェスチャが特定の意味を表すこと（例えば、指で四角形を描くジェスチャが「ディスプレイを表示する」命令を意味する等）を本発明の装置１０によって提供される複数の動画データによって機械学習しているため、ＶＲヘッドマウントディスプレイに接続されたビデオカメラによって撮影されたジェスチャがどのような意味を表すかを認識することができる。そして、ＶＲヘッドマウントディスプレイは、認識したジェスチャが表す命令に基づいて処理を実行することができる。これにより、ユーザのジェスチャによる制御が可能となる。

本発明のシステム３００の実施形態は、上述した実施形態に限らない。本発明のシステム３００は、任意のジェスチャを認識することができる任意の他のジェスチャ認識装置に適用され得る。

８．対象物の動き認識装置による処理
図８は、本発明のシステム３００による処理の一例を示すフローチャートである。

本発明のシステム３００は、本発明の装置１０によって提供される多数の動画データ３０を用いて動き学習部３０１によって、事前に機械学習している。

処理は、ステップＳ２０１において開始する。ステップＳ２０２において、本発明のシステム３００の動き受信部３０２は、本発明のシステム３００の外部から動きを示す動画データを受信する。受信される動画データは、動き受信部３０２に接続されたビデオカメラが撮影した動画データであってもよいし、任意の手法で作成された３Ｄアニメーションデータであってもよい。

ステップＳ２０３において、動き認識部３０３は、動き受信部３０２によって受信された動画データによって示される動きを、動き学習部３０１によって学習された動きとマッチングする。

ステップＳ２０４において、動き認識部３０３は、マッチングが成功したか否かを決定する。マッチングが成功した場合、動き認識部３０３は、ステップＳ２０５において、受信された動画データによって示される動きの意味を決定する。そして、ステップＳ２０６において、動き認識部３０３は、決定された動きを出力データとして出力する。マッチングが失敗した場合、動き認識部は、ステップＳ２０７において、受信された動画データによって示される動きの意味が不明であり、動き認識に失敗したことを出力する。処理は、ステップＳ２０８において終了する。

このようにして、本発明のシステム３００は、受信された動画データによって示される動きを認識することが可能である。

本発明は、上述した実施形態に限定されるものではない。本発明の装置１０が対象とする動きは「手話」に限定されない。「手話」は、手の「動き」として捉えることができる。人間の特定の行動、例えば、誰かを尾行しているときの行動等は、手の「動き」と、足の「動き」、頭の「動き」等とが組み合わせられた複合的な「動き」として捉えることができる。本発明の装置１０は、このような複合的な「動き」も同様に対象とすることができる。このように、本発明の装置１０は、手等の単一部位の動きであるか、手等の動きと他の部位との動きが組み合わせられた複合的な動きであるかにかかわらず、任意の対象物の任意の「動き」から、その「動き」と同一の意味を表す「動き」を示す複数の動画データを生成することができる。

例えば、本発明の装置１０は、誰かを尾行しているときの行動、盗みをしようとしているときの行動、迷子になっているときの行動等の任意の特徴的な行動を対象とすることができる。例えば、誰かを尾行しているときの行動について、本発明の装置１０は、誰かを尾行している人の行動を撮影した少なくとも１つの動画データを受信し、受信された少なくとも１つの動画データが示す行動とは異なる動きで、または、受信された少なくとも１つの動画データが示すシチュエーションとは異なるシチュエーション下で誰かを尾行している人をあたかも撮影したかのような動画データを生成し、複数の動画データ３０を提供する。ここで、本発明の装置１０の生成部１２によるシチュエーション変更処理によって生成されるシチュエーション変更動画データは、例えば、一方向に動く群衆の中で誰かを尾行している人をあたかも撮影したかのような動画データ、複数の方向に動く群衆の中で誰かを尾行している人をあたかも撮影したかのような動画データ、ランダムに動く群衆の中で誰かを尾行している人をあたかも撮影したかのような動画データ、周囲に人が少ないシチュエーション下で誰かを尾行している人をあたかも撮影したかのような動画データを含み得る。例えば、シチュエーション変更動画データは、昼間の明るい環境下で誰かを尾行している人をあたかも撮影したかのような動画データ、夜間の暗い環境下で誰かを尾行している人をあたかも撮影したかのような動画データ、誰かを尾行している男性をあたかも撮影したかのような動画データ、誰かを尾行している女性をあたかも撮影したかのような動画データ等も含み得る。

本発明の装置１０によって提供される複数の動画データは、手話認識装置のために複数の動画データを提供するものに限定されない。本発明の装置１０によって提供される複数の動画データは、任意の用途に使用され得る。例えば、本発明の装置１０は、上述したようなＶＲヘッドマウントディスプレイによるジェスチャ認識のための機械学習用データとして、複数の動画データを提供してもよい。例えば、本発明の装置１０が対象とする「動き」が、上述したような、誰かを尾行しているときの行動等の任意の特徴的な行動である場合、本発明の装置１０によって提供される複数の動画データは、セキュリティの用途に使用されることができる。例えば、動き認識装置は、本発明の装置１０によって提供された複数の動画データの各々が示す動きが誰かを尾行している人の行動であることを事前に学習する。そして動き認識装置は、入力された動きと学習された動きとをマッチングすることにより、入力された動きが誰かを尾行している人の行動であるか否かを決定することができる。これは、防犯カメラ等の画像から不審者を特定する技術等に応用されることができる。

本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。

本発明は、動きを示す複数の動画データを提供する装置およびプログラムを提供するものとして有用である。

１０装置
２０大きい手ぶりの「ありがとう」の手話をしている手話者を撮影して取得されたデータ
２５小さい手ぶりの「ありがとう」の手話をしている手話者を撮影して取得されたデータ
３０本発明の装置１０によって提供される複数の動画データ
４０中くらいの手ぶりの「ありがとう」の手話をしている手話者をあたかも撮影したかのような動画データ

Claims

対象物の動きを示す複数の動画データを提供する装置であって、前記装置は、
少なくとも１つの動きを示す少なくとも１つの動画データを受信する受信部と、
前記少なくとも１つの動画データに基づいて、前記少なくとも１つの動画データによって示される動きと同一の意味を表す動きを示す動画データを生成する生成部と
前記少なくとも１つの動画データと前記生成された動画データとを前記装置の外部から利用可能な状態にする利用可能手段と
を備え、前記少なくとも１つの動画データは、同一の意味を表す少なくとも２つの動きを示す少なくとも２つの動画データを含み、
前記生成部は、
前記少なくとも２つの動画データを補間することにより、前記少なくとも２つの動画データによって示される動きと同一の意味を表す動きを示す動き補間動画データを生成し、
前記利用可能手段は、前記動き補間動画データを前記装置の外部から利用可能な状態にする、装置。
前記少なくとも２つの動きは、第１の動きと第２の動きとを含み、
前記第１の動きを示す動画データは、第１のシチュエーション下の前記第１の動きを示し、前記第２の動きを示す動画データは、第２のシチュエーション下の前記第２の動きを示し、前記動き補間動画データは、第３のシチュエーション下の第３の動きを示し、
前記生成部は、
前記第１の動きを示す動画データに基づいて、前記第１のシチュエーションとは異なるシチュエーション下の前記第１の動きを示す第１のシチュエーション変更動画データを生成すること、
前記第２の動きを示す動画データに基づいて、前記第２のシチュエーションとは異なるシチュエーション下の前記第２の動きを示す第２のシチュエーション変更動画データを生成すること、
前記動き補間動画データに基づいて、前記第３のシチュエーションとは異なるシチュエーション下の前記第３の動きを示す第３のシチュエーション変更動画データを生成すること
のうちの少なくとも１つを実行し、
前記利用可能手段は、前記第１のシチュエーション変更動画データ、前記第２のシチュエーション変更動画データ、前記第３のシチュエーション変更動画データのうちの少なくとも１つをさらに前記装置の外部から利用可能な状態にする、請求項１に記載の装置。
前記第１の動きおよび前記第２の動きのそれぞれは、一組の数値によって表され、
前記動き補間動画データを生成することは、前記第１の動きを表す一組の数値と前記第２の動きを表す一組の数値との間で動きを表す一組の数値を変動させることによって達成される、請求項２に記載の装置。
前記第１のシチュエーション、前記第２のシチュエーション、前記第３のシチュエーションのそれぞれは、一組の数値によって表され、
前記第１のシチュエーション変更動画データを生成することは、前記第１のシチュエーションを表す一組の数値を変動させることによって達成され、
前記第２のシチュエーション変更動画データを生成することは、前記第２のシチュエーションを表す一組の数値を変動させることによって達成され、
前記第３のシチュエーション変更動画データを生成することは、前記第３のシチュエーションを表す一組の数値を変動させることによって達成される、請求項３に記載の装置。
前記第１の動きおよび前記第２の動きのそれぞれは、一組の数値によって表され、
前記動き補間動画データを生成することは、前記第１の動きを表す一組の数値と前記第２の動きを表す一組の数値との間で動きを表す一組の数値を変動させることによって達成され、
前記第１のシチュエーション、前記第２のシチュエーション、前記第３のシチュエーションのそれぞれは、一組の数値によって表され、
前記第１のシチュエーション変更動画データを生成することは、前記第１のシチュエーションを表す一組の数値を変動させることによって達成され、
前記第２のシチュエーション変更動画データを生成することは、前記第２のシチュエーションを表す一組の数値を変動させることによって達成され、
前記第３のシチュエーション変更動画データを生成することは、前記第３のシチュエーションを表す一組の数値を変動させることによって達成され、
前記第１のシチュエーションを表す一組の数値を変動させること、前記第２のシチュエーションを表す一組の数値を変動させること、前記第３のシチュエーションを表す一組の数値を変動させることのうちの少なくとも１つは、前記動きを表す一組の数値を変動させることに相関している、請求項２に記載の装置。
前記第１のシチュエーション、前記第２のシチュエーション、および前記第３のシチュエーションは、同一のシチュエーションである、請求項２〜５のいずれか一項に記載の装置。
前記シチュエーションを表す一組の数値は、光源位置を示す数値、明るさを示す数値、カメラ位置を示す数値、被写体の性別を示す数値、被写体の肌の色を示す数値、被写体の服の特徴を示す数値、解像度を示す数値、シャープネスを示す数値、コントラストを示す数値、彩度を示す数値のうちの少なくとも１つを含む、請求項４または５に記載の装置。
前記生成部は、前記少なくとも２つの動画データを補外することにより、前記少なくとも２つの動画データによって示される動きと同一の意味を表す動きを示す動き補外動画データをさらに生成し、
前記利用可能手段は、前記動き補外動画データをさらに前記装置の外部から利用可能な状態にする、請求項１〜７のいずれか一項に記載の装置。
請求項１〜８のいずれか一項に記載の装置と、
前記装置から出力される動画データに基づいて前記動画データによって示される動きを学習する機能と、前記動きを認識する機能とを有する動き認識装置と
を備える、システム。
対象物の動きを示す複数の動画データを提供するためにコンピュータによって実行されるプログラムであって、前記コンピュータは、プロセッサを備え、前記プログラムは、前記プロセッサによって実行されると、
少なくとも１つの動きを示す少なくとも１つの動画データを受信することと、
前記少なくとも１つの動画データに基づいて、前記少なくとも１つの動画データによって示される動きと同一の意味を表す動きを示す動画データを生成することと、
前記少なくとも１つの動画データと前記生成された動画データとを前記コンピュータの外部から利用可能にすることと
を前記プロセッサに行わせ、前記少なくとも１つの動画データは、同一の意味を表す少なくとも２つの動きを示す少なくとも２つの動画データを含み、
前記動画データを生成することは、
前記少なくとも２つの動画データを補間することにより、前記少なくとも２つの動画データによって示される動きと同一の意味を表す動きを示す動き補間動画データを生成することを含む、プログラム。
対象物の動きを認識するためにコンピュータによって実行されるプログラムであって、前記コンピュータは、プロセッサを備え、前記プログラムは、前記プロセッサによって実行されると、
少なくとも１つの動きを示す少なくとも１つの動画データを受信することと、
前記少なくとも１つの動画データに基づいて、前記少なくとも１つの動画データによって示される動きと同一の意味を表す動きを示す動画データを生成することと、
前記少なくとも１つの動画データと前記生成された動画データとを出力することと
前記出力された動画データに基づいて前記動画データによって示される動きを学習することと、
前記動きを認識することと
を前記プロセッサに行わせ、前記少なくとも１つの動画データは、同一の意味を表す少なくとも２つの動きを示す少なくとも２つの動画データを含み、
前記動画データを生成することは、
前記少なくとも２つの動画データを補間することにより、前記少なくとも２つの動画データによって示される動きと同一の意味を表す動きを示す動き補間動画データを生成することを含む、プログラム。