JP7486860B1

JP7486860B1 - 映像合成装置、映像合成方法、及びプログラム

Info

Publication number: JP7486860B1
Application number: JP2023127489A
Authority: JP
Inventors: 直広早石; 英由樹安藤
Original assignee: KEISUUGIKEN CORPORATION
Current assignee: KEISUUGIKEN CORPORATION
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2024-05-20
Anticipated expiration: 2043-08-04

Abstract

【課題】ユーザが動作させる動作対象を、参照映像に含まれる模倣対象に追従させるための支援を行うことができる映像合成装置を提供する。【解決手段】映像合成装置１は、ユーザが動作を模倣する対象である模倣対象の動作の映像である参照映像が記憶される記憶部１１と、ユーザが動作させる対象である動作対象の動作の映像である自己映像を取得する映像取得部１２と、参照映像と自己映像とを合成した合成映像を生成する合成部１３と、参照映像に含まれる模倣対象、及び自己映像に含まれる動作対象に基づいて、動作対象を模倣対象に追従させるためのガイドを生成するガイド生成部１４と、合成映像とガイドとを出力する出力部１５とを備える。【選択図】図１

Description

本発明は、模倣対象の映像である参照映像と、ユーザによって動作される動作対象の映像である自己映像とを合成して出力する映像合成装置等に関する。

従来、手術などの動きの学習のために、学習者が模倣する対象となる模倣対象の動作の映像である参照映像と、学習者の動作の映像である自己映像とを表示する学習支援装置が知られている（例えば、特許文献１参照）。このような表示を参照することにより、学習者は、模倣対象の動作と同じ動作を行うためのトレーニングを行うことができる。

特開２０１４－０７１４４３号公報

しかしながら、学習者が初心者である場合には、自分が動作させている動作対象を、参照映像に含まれる模倣対象の動作に適切に追従させることができず、学習の効果が低下することがあり得る。

本発明は、上記課題を解決するためになされたものであり、ユーザが動作させる動作対象を、参照映像に含まれる模倣対象に追従させるための支援を行うことができる映像合成装置等を提供することを目的とする。

上記目的を達成するため、本発明の一態様による映像合成装置は、ユーザが動作を模倣する対象である模倣対象の動作の映像である参照映像が記憶される記憶部と、ユーザが動作させる対象である動作対象の動作の映像である自己映像を取得する映像取得部と、参照映像と自己映像とを合成した合成映像を生成する合成部と、参照映像に含まれる模倣対象、及び自己映像に含まれる動作対象に基づいて、動作対象を模倣対象に追従させるためのガイドを生成するガイド生成部と、合成映像とガイドとを出力する出力部と、を備えたものである。

このような構成により、動作対象を模倣対象に追従させるためのガイドを出力することによって、ユーザが動作させる動作対象を、参照映像に含まれる模倣対象に追従させるための支援を行うことができる。ユーザは、そのガイドを参考にすることによって、より容易に動作対象を模倣対象に追従させることができ、学習の効果を高めることができる。

また、本発明の一態様による映像合成装置では、ガイド生成部は、参照映像における模倣対象の大きさと、自己映像における動作対象の大きさとの関係に応じて、ユーザを基準とした前後方向における追従方向を示すガイドを生成してもよい。

このような構成により、ユーザは、ガイドを参考にすることによって、ユーザを基準とした前後方向について、動作対象を模倣対象に追従させることができるようになる。

また、本発明の一態様による映像合成装置では、ガイド生成部は、参照映像における模倣対象の代表位置と、自己映像における動作対象の代表位置との位置関係に応じて、ユーザを基準とした上下方向及び左右方向における追従方向を示すガイドを生成してもよい。

このような構成により、ユーザは、ガイドを参考にすることによって、ユーザを基準とした上下方向及び左右方向について、動作対象を模倣対象に追従させることができるようになる。

また、本発明の一態様による映像合成装置では、ガイド生成部は、参照映像における模倣対象の複数の特徴点を用いて、模倣対象と参照映像を撮影したカメラとの第１の相対的な位置関係を取得し、自己映像における動作対象の複数の特徴点を用いて、動作対象と自己映像を撮影したカメラとの第２の相対的な位置関係を取得し、第１及び第２の相対的な位置関係を用いて、模倣対象と動作対象との第３の相対的な位置関係を取得し、第３の相対的な位置関係を用いてガイドを生成してもよい。

このような構成により、より正確なガイドを生成することができるようになる。

また、本発明の一態様による映像合成装置では、模倣対象及び動作対象は、形状が変化するものであり、ガイド生成部は、参照映像に含まれる模倣対象の形状と、自己映像に含まれる動作対象の形状とを用いて、動作対象の形状を模倣対象の形状に追従させるためのガイドを生成してもよい。

このような構成により、ユーザは、ガイドを参考にすることによって、動作対象の形状を模倣対象の形状に追従させることができるようになる。

また、本発明の一態様による映像合成装置では、ガイド生成部は、ガイドであるガイド図形を生成し、合成部は、ガイド図形を含む合成映像を生成し、出力部は、ガイド図形を含む合成映像を出力してもよい。

このような構成により、ユーザは、合成映像に含まれるガイド図形を参照することによって、動作対象を模倣対象に追従させることができるようになる。

また、本発明の一態様による映像合成方法は、ユーザが動作を模倣する対象である模倣対象の動作の映像である参照映像が記憶される記憶部と、映像取得部と、合成部と、ガイド生成部と、出力部とを用いて処理される映像合成方法であって、映像取得部が、ユーザが動作させる対象である動作対象の動作の映像である自己映像を取得するステップと、合成部が、参照映像と自己映像とを合成した合成映像を生成するステップと、ガイド生成部が、参照映像に含まれる模倣対象、及び自己映像に含まれる動作対象に基づいて、動作対象を模倣対象に追従させるためのガイドを生成するステップと、出力部が、合成映像とガイドとを出力するステップと、を備えたものである。

本発明の一態様による映像合成装置等によれば、ユーザが動作させる動作対象を、参照映像に含まれる模倣対象に追従させるための支援を行うことができる。

本発明の実施の形態による映像合成装置の構成を示すブロック図同実施の形態による映像合成装置の使用状況の一例を示す図同実施の形態における参照映像の一例を示す図同実施の形態における自己映像の一例を示す図同実施の形態におけるガイド図形を含む合成映像の一例を示す図同実施の形態におけるガイド図形を含む合成映像の一例を示す図同実施の形態における自己映像の一例を示す図同実施の形態における参照映像の一例を示す図同実施の形態による映像合成装置の動作を示すフローチャート同実施の形態におけるコンピュータの構成の一例を示す図

以下、本発明による映像合成装置、及び映像合成方法について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。本実施の形態による映像合成装置は、ユーザが動作させる動作対象を、参照映像に含まれる模倣対象に追従させるためのガイドを生成するものである。

図１は、本実施の形態による映像合成装置１の構成を示すブロック図である。図２は、学習者であるユーザ３０が、映像合成装置１を用いて模倣対象の動作を学習している状況を示す図である。本実施の形態による映像合成装置１は、記憶部１１と、映像取得部１２と、合成部１３と、ガイド生成部１４と、出力部１５とを備える。なお、映像合成装置１は、一例として、後述する図１０で示されるようにコンピュータ９００によって実現されてもよく、専用のハードウェアによって実現されてもよい。本実施の形態では、前者の場合について主に説明する。なお、図２で示されるように、表示デバイス９０２を正視しているユーザ３０を基準とした前後方向、上下方向、左右方向を、以下の説明においてそれぞれ前後方向、上下方向、左右方向とすることがある。

記憶部１１では、ユーザ３０が動作を模倣する対象である模倣対象の動作の映像である参照映像が記憶される。ユーザ３０は、参照映像を参照しながら動作を学習する学習者である。ユーザ３０が学習する動作は、例えば、手術などの動作であってもよく、工場における作業の動作であってもよく、介護やホテルなどにおける業務の動作であってもよく、料理などの動作であってもよく、工芸品等の作品の作成のための動作であってもよく、スポーツなどの動作であってもよく、習字などの動作であってもよく、ロープ結びの動作であってもよく、その他の動作であってもよい。模倣対象は、例えば、被模倣者の身体の一部であってもよく、被模倣者によって動作される対象物であってもよい。被模倣者は、例えば、学習者であるユーザ３０の先生役であり、学習者が学習する対象となる動作に熟練している者であってもよい。また、被模倣者の身体の一部は、例えば、被模倣者の手を含んでいてもよい。また、被模倣者によって動作される対象物は、例えば、被模倣者が有している鉗子やメス、ピンセット、ハサミ、筆などの道具であってもよい。また、参照映像は、例えば、鉗子等の模倣対象が手術ロボットによって操作されている状況の映像であってもよい。参照映像は、通常、カメラによって撮影された映像であるが、カメラによって撮影された映像に相当するＣＧ（Computer Graphics）映像であってもよい。

参照映像は、一例として、模倣対象を動作させる被模倣者の視点からの映像、すなわち被模倣者の一人称視点の映像であってもよい。この場合には、参照映像は、一例として、被模倣者の頭部付近に配置されたカメラで撮影された映像であってもよい。そのカメラは、一例として、ヘッドマウントカメラであってもよい。本実施の形態では、被模倣者が使う鉗子である模倣対象４１を含む、図３で示される参照映像が記憶部１１で記憶されている場合について主に説明する。

記憶部１１では、例えば、参照映像の全体が記憶されてもよく、または、参照映像の一部が記憶されてもよい。一例として、映像合成装置１が、外部から参照映像を受信しながら表示する場合には、参照映像の一部である受信された最新の参照映像の部分が記憶部１１で記憶され、それが読み出されて表示されると共に、順次、上書きされてもよい。記憶部１１には、参照映像以外の情報が記憶されてもよい。例えば、映像取得部１２によって取得された自己映像が記憶部１１で記憶されてもよい。

記憶部１１に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が記憶部１１で記憶されるようになってもよく、通信回線等を介して送信された情報が記憶部１１で記憶されるようになってもよく、または、カメラなどのデバイスを介して入力された情報が記憶部１１で記憶されるようになってもよい。記憶部１１は、不揮発性の記録媒体によって実現されることが好適であるが、揮発性の記録媒体によって実現されてもよい。記録媒体は、例えば、半導体メモリや磁気ディスクなどであってもよい。

映像取得部１２は、ユーザ３０が動作させる対象である動作対象の動作の映像である自己映像を取得する。映像取得部１２は、例えば、映像を撮影するカメラ等の光学機器であってもよく、カメラ等の光学機器によって撮影された映像を取得するものであってもよい。本実施の形態では、映像取得部１２が、カメラスタンド９５１に取り付けられたカメラ９０１によって撮影された映像を受け付ける場合について主に説明する。自己映像を撮影するカメラ９０１は、例えば、カメラスタンド９５１などの支持部によって撮影環境に設置されるカメラであってもよく、ヘッドマウントカメラなどのように、ユーザ３０に装着されるカメラであってもよい。動作対象は、模倣対象に対応するものである。通常、動作対象と模倣対象は同種類のものである。そのため、動作対象は、例えば、ユーザ３０の身体の一部であってもよく、ユーザ３０によって動作される対象物であってもよい。ユーザ３０の身体の一部は、例えば、ユーザ３０の手を含んでいてもよい。また、ユーザ３０によって動作される対象物は、例えば、ユーザ３０が有している鉗子やメス、ピンセット、ハサミ、筆などの道具であってもよい。例えば、模倣対象が鉗子である場合には、動作対象も鉗子であることが好適である。模倣対象及び動作対象が、被模倣者やユーザ３０によって動作される対象物である場合には、模倣対象及び動作対象は、例えば、同一のものであってもよい。同一の模倣対象及び動作対象は、例えば、同じ種類であり、サイズ等も同じであることが好適である。

自己映像は、一例として、動作対象を動作させるユーザ３０の視点からの映像、すなわちユーザ３０の一人称視点の映像であってもよい。この場合には、自己映像は、例えば、図２で示されるように、ユーザ３０の頭部付近に配置されたカメラ９０１で撮影された映像であってもよい。カメラ９０１の光軸は、動作対象を向いていることが好適である。本実施の形態では、ユーザ３０が使う鉗子である動作対象５１を含む、図４で示される自己映像が映像取得部１２によって取得される場合について主に説明する。なお、自己映像は、通常、カメラによって撮影された映像であるが、カメラによって撮影された映像に相当するＣＧ映像であってもよい。一例として、参照映像が、鉗子等の模倣対象が手術ロボットによって操作されている状況の映像である場合に、自己映像は、ユーザ３０の操作に応じて鉗子等の動作対象が手術ロボットによって操作されている状況のリアルの映像や、その映像に相当するＣＧ映像であってもよい。後者の場合には、ユーザ３０の操作に応じて、鉗子等の動作対象が手術ロボットによって操作されている状況のＣＧ映像である自己映像がリアルタイムで生成されてもよい。

なお、参照映像を撮影する参照映像用カメラと模倣対象との相対的な位置関係と、自己映像を撮影する自己映像用カメラと動作対象との相対的な位置関係とは同じであるか、または近いことが好適である。また、参照映像に含まれる各フレームと、自己映像に含まれる各フレームとは、例えば、それぞれ同じ大きさであることが好適である。フレームが同じ大きさであるとは、フレームの縦方向のピクセル数と、横方向のピクセル数とがそれぞれ同じであることであってもよい。

合成部１３は、参照映像と自己映像とを合成して合成映像を生成する。合成部１３は、例えば、参照映像と自己映像との合成の割合が、所定の割合となるように両映像を合成した合成映像を生成してもよい。一例として、合成部１３は、参照映像の手前側、すなわち上側に所定の不透明度の自己映像を合成してもよい。この場合に、自己映像の不透明度を５０％にすることによって、参照映像と自己映像とを５０％ずつの割合で合成することができる。合成の割合は、例えば、ユーザ３０からの指示に応じて変更されてもよい。また、合成部１３は、参照映像と自己映像との合成の割合が時間に沿って連続的に繰り返して変化するように両映像を合成してもよい。この場合には、例えば、合成の割合が正弦波や三角波、ノコギリ波のように周期的に変化してもよい。合成の割合の変化は、例えば、一方の映像の不透明度であってもよい。一例として、合成部１３は、図５、図６で示されるように、参照映像と自己映像とを合成した合成映像を生成してもよい。図５、図６では、模倣対象４１と動作対象５１とを区別可能にするため、動作対象５１を破線で示している。なお、図５、図６のガイド図形６１，６２については後述する。また、合成部１３は、例えば、両映像を時分割で切り替えながら表示する合成映像を生成してもよい。より具体的には、合成部１３は、第１の時間だけ参照映像を表示し、次の第２の時間だけ第２の自己映像を表示することを繰り返す合成映像を生成してもよい。

また、合成部１３は、ガイド生成部１４によってガイド図形や文字列などの表示対象となるガイドが生成された場合には、ガイド生成部１４によって生成されたガイド図形や文字列などの表示対象を含む合成映像を生成してもよい。この場合には、ガイドは参照映像、自己映像と共に表示されることになる。本実施の形態では、ガイド生成部１４によって生成されたガイド図形を含む合成映像が生成される場合について主に説明する。

ガイド生成部１４は、参照映像に含まれる模倣対象、及び自己映像に含まれる動作対象に基づいて、動作対象を模倣対象に追従させるためのガイドを生成する。このガイドは、例えば、ガイド図形や文字列などの表示対象となるガイドであってもよく、音声などの音出力の対象となるガイドであってもよく、動作対象を模倣対象に追従させるためのその他のガイドであってもよい。本実施の形態では、（１）模倣対象及び動作対象の大きさを用いた追従方向を示すガイドの生成、（２）模倣対象及び動作対象の位置を用いた追従方向を示すガイドの生成、（３）模倣対象及び動作対象の形状を用いた、形状の追従のためのガイドの生成、（４）カメラと模倣対象及び動作対象との相対的な位置関係を用いた追従方向を示すガイドの生成についてそれぞれ説明する。ガイド生成部１４は、例えば、（１）～（４）のいずれかのガイドの生成を行ってもよく、（１）～（４）の２以上のガイドの生成を行ってもよい。一例として、ガイド生成部１４は、（１）、（２）のガイドの生成を行ってもよく、（１）～（３）のガイドの生成を行ってもよく、（３）、（４）のガイドの生成を行ってもよい。

（１）模倣対象及び動作対象の大きさを用いた追従方向を示すガイドの生成
ガイド生成部１４は、参照映像における模倣対象の大きさと、自己映像における動作対象の大きさとの関係に応じて、ユーザ３０を基準とした前後方向における追従方向を示すガイドを生成してもよい。追従方向とは、例えば、動作対象を模倣対象に追従させるための移動方向であってもよい。参照映像における模倣対象に、自己映像における動作対象が適切に追従できている追従状態にある場合には、両者の大きさは同程度になると考えられる。追従状態とは、例えば、合成映像において模倣対象と動作対象とが重なるように表示されている場合であってもよい。一方、動作対象が追従状態よりも後ろ側に位置する場合には、動作対象の大きさが、模倣対象の大きさよりも大きくなる。反対に、動作対象が追従状態よりも前側に位置する場合には、動作対象の大きさが、模倣対象の大きさよりも小さくなる。したがって、ガイド生成部１４は、模倣対象の大きさと動作対象の大きさとの関係、すなわち両者の大小関係に応じて、動作対象の位置を模倣対象の位置に近づけるためには、動作対象を、ユーザ３０を基準とした前後方向のどちら側に移動させなければならないのかを特定することができ、その特定結果に応じてガイドを生成することができる。例えば、動作対象の大きさが模倣対象の大きさよりも大きい場合には、ガイド生成部１４は、動作対象を、ユーザ３０を基準とした前方側、すなわちユーザ３０の奥側に移動させるためのガイドを生成してもよい。また、例えば、動作対象の大きさが模倣対象の大きさよりも小さい場合には、ガイド生成部１４は、動作対象を、ユーザ３０を基準とした後方側、すなわちユーザ３０の手前側に移動させるためのガイドを生成してもよい。

なお、ガイド生成部１４は、参照映像における模倣対象の領域や、自己映像における動作対象の領域を、例えば、セグメンテーションや、テンプレートマッチングなどによって特定してもよい。例えば、模倣対象や動作対象が鉗子である場合には、鉗子の領域がセグメンテーションやテンプレートマッチングによって特定されてもよい。セグメンテーションが行われる場合には、例えば、あらかじめ鉗子に分類された領域が模倣対象や動作対象の領域であると設定されていてもよく、または、動きのある領域が模倣対象や動作対象の領域とされてもよい。なお、模倣対象や動作対象の領域は、例えば、それらの全体の領域であってもよく、一部の領域であってもよい。ガイド生成部１４は、そのようにして特定した模倣対象や動作対象の領域の大きさを用いて、上記のようにガイドを生成してもよく、特定した模倣対象や動作対象の領域における、あらかじめ決められた特徴点によって構成される領域を用いて、上記のようにガイドを生成してもよい。後者の場合には、ガイド生成部１４は、例えば、図３で示されるように、参照映像において模倣対象４１の領域を特定し、その特定した領域において、支点Ｐ４１と、一方の把持部の先端Ｐ４２と、他方の把持部の先端Ｐ４３とを頂点とする三角形の領域Ｄ４１を特定すると共に、図４で示されるように、自己映像においても同様に、動作対象５１の領域を特定し、その特定した領域において、支点Ｐ５１と、一方の把持部の先端Ｐ５２と、他方の把持部の先端Ｐ５３とを頂点とする三角形の領域Ｄ５１を特定してもよい。そして、ガイド生成部１４は、領域Ｄ４１，Ｄ５１の大きさを比較し、領域Ｄ５１の方が大きい場合には、ユーザ３０を基準とした前方側に動作対象５１を移動させるためのガイドを生成し、領域Ｄ４１の方が大きい場合には、ユーザ３０を基準とした後方側に動作対象５１を移動させるためのガイドを生成してもよい。なお、領域Ｄ４１，Ｄ５１の大きさは、例えば、面積で比較されてもよく、三角形の最も長い辺の長さで比較されてもよい。

ガイド生成部１４がガイド図形を生成する場合には、例えば、図５で示される矢印のガイド図形６１が生成されてもよい。ガイド図形６１は、ユーザ３０を基準とした前方向に動作対象５１を移動させるためのガイドである。ガイド図形は、例えば、合成映像において、模倣対象や動作対象と重ならない位置に追加されてもよい。ガイドを生成する際に模倣対象や動作対象の領域や位置等を特定している場合には、ガイド生成部１４は、特定した模倣対象や動作対象の領域から離れた位置にガイド図形が追加されるように、合成部１３に指示してもよい。なお、文字列のガイドや音声のガイドが生成される場合には、例えば、「手前側」や「奥側」などの動作対象の移動方向を示す文字列や音声のガイドが生成されてもよい。また、模倣対象と動作対象の大きさが一致している場合には、例えば、（１）のガイドの生成は行われなくてもよい。一例として、両者の大きさが十分近い場合にも、両者の大きさが一致していると判断されてもよい。

（２）模倣対象及び動作対象の位置を用いた追従方向を示すガイドの生成
ガイド生成部１４は、参照映像における模倣対象の代表位置と、自己映像における動作対象の代表位置との位置関係に応じて、ユーザ３０を基準とした上下方向及び左右方向における追従方向を示すガイドを生成してもよい。ここで、模倣対象や動作対象の代表位置は、例えば、模倣対象や動作対象の領域の重心の位置であってもよく、模倣対象や動作対象のあらかじめ決められた位置であってもよい。模倣対象や動作対象の領域は、例えば、それらの全体の領域であってもよく、一部の領域であってもよい。その領域は、例えば、上記した領域Ｄ４１，Ｄ５１ように特定されてもよい。あらかじめ決められた位置は、一例として、図３、図４で示される支点Ｐ４１，Ｐ５１の位置であってもよい。

参照映像における模倣対象に自己映像における動作対象が適切に追従できている追従状態にある場合には、模倣対象の代表位置と動作対象の代表位置とは同じになると考えられる。なお、例えば、両代表位置が十分近い場合にも、両代表位置が同じであると判断されてもよい。一方、動作対象が模倣対象に対して、ユーザ３０を基準とした上下左右の少なくともいずれかの方向に離れた位置に存在する場合には、それに応じて動作対象の代表位置が模倣対象の代表位置から離れた位置に存在することになる。したがって、ガイド生成部１４は、模倣対象の代表位置と動作対象の代表位置との位置関係に応じて、動作対象の位置を模倣対象の位置に近づけるためには、動作対象を、ユーザ３０を基準とした上下方向及び左右方向におけるどの方向に移動させなければならないのかを特定し、その特定結果に応じてガイドを生成してもよい。その位置関係は、例えば、動作対象の代表位置から模倣対象の代表位置に向かうベクトルであってもよい。両代表位置の位置関係は、例えば、両代表位置を合成映像の座標系などの同じ座標系に配置した場合における位置関係であってもよい。

ガイド生成部１４は、模倣対象の代表位置と動作対象の代表位置との位置関係に応じたガイドとして、例えば、動作対象の代表位置から模倣対象の代表位置に向かうベクトルの方向を示すガイドを生成してもよい。また、ガイド生成部１４は、例えば、そのベクトルの大きさに応じた移動の程度、すなわちより多く移動しなければならないのか、より少ない移動でよいのかをも示すガイドを生成してもよい。ガイドがガイド図形である場合には、ガイド生成部１４は、例えば、そのベクトルの方向を示す矢印の図形であるガイド図形を生成してもよく、そのベクトルの大きさをも示す矢印の図形であるガイド図形を生成してもよい。なお、文字列のガイドや音声のガイドが生成される場合には、例えば、「上側」や「右側」などの動作対象の移動方向を示す文字列や音声のガイドが生成されてもよい。

例えば、動作対象の代表位置から模倣対象の代表位置に向かうベクトルが、映像における左向きのベクトルであり、ガイドがガイド図形である場合には、ガイド生成部１４は、図６で示される矢印のガイド図形６２を生成してもよい。ガイド図形６２は、ユーザ３０を基準とした左方向に動作対象５１を移動させるためのガイドである。なお、模倣対象と動作対象の代表位置が一致している場合には、例えば、（２）のガイドの生成は行われなくてもよい。一例として、両者の代表位置が十分近い場合にも、両者の代表位置が一致していると判断されてもよい。

なお、（１）及び（２）のガイドを生成する場合には、ガイド生成部１４は、例えば、まず（１）のガイドを生成し、そのガイドに応じてユーザ３０の前後方向における模倣対象と動作対象との位置合わせが終了した後に、（２）のガイドを生成してもよく、または、（１）及び（２）のガイドを一緒に生成してもよい。本実施の形態では、前者の場合について主に説明する。なお、（１）及び（２）のガイドを一緒に生成する場合には、ガイド生成部１４は、上記したように、映像における模倣対象及び動作対象の大きさの関係に応じて前後方向における追従方向を示すガイドを生成すると共に、映像における模倣対象及び動作対象の代表位置の位置関係に応じて上下方向及び左右方向における追従方向を示すガイドを生成してもよい。この場合に、例えば、２個の独立したガイド（例えば、２個の矢印など）が生成されてもよく、または、１個のガイド（例えば、前後方向、並びに上下方向及び左右方向における追従方向を示す１個の矢印など）が生成されてもよい。

（３）模倣対象及び動作対象の形状を用いた、形状の追従のためのガイドの生成
模倣対象や動作対象が、形状が変化するものである場合には、ガイド生成部１４は、参照映像に含まれる模倣対象の形状と、自己映像に含まれる動作対象の形状とを用いて、動作対象の形状を模倣対象の形状に追従させるためのガイドを生成してもよい。形状が変化する模倣対象や動作対象は、例えば、被模倣者やユーザ３０の操作に応じて形状が変化するものであってもよい。形状が変化する模倣対象や動作対象は、例えば、ハサミ、鉗子、ピンセット、トングなどのように、開閉部を有しており、その開閉部が開状態と閉状態との間で形状が変化するものであってもよい。

ガイド生成部１４は、例えば、学習済みの学習モデルやテンプレートマッチングなどを用いて、模倣対象や動作対象の形状を特定してもよい。例えば、模倣対象や動作対象が鉗子などのように開閉するものである場合には、開状態の形状と、閉状態の形状とが特定されてもよく、両者の間の形状も特定されてもよい。開状態と閉状態との間の形状は、例えば、開状態の割合や、閉状態の割合によって示される形状であってもよい。開状態の割合は、例えば、開状態では１００％となり、閉状態では０％となり、開状態に近づくほど１００％に近くなる割合であってもよい。学習済みの学習モデルやテンプレートマッチングを用いて形状を特定する場合には、例えば、映像に開状態の形状の模倣対象や動作対象が含まれるのか、または、閉状態の形状の模倣対象や動作対象が含まれるのかを物体認識と同様の手法によって特定してもよい。また、例えば、開状態の割合によって示される形状を特定する場合には、その割合も含めた物体認識が行われてもよい。

参照映像における模倣対象に自己映像における動作対象が適切に追従できている追従状態にある場合には、模倣対象の形状と動作対象の形状とは同じになる。一方、ユーザ３０が動作対象の形状を模倣対象の形状に追従させることができていない場合には、両形状が異なることになる。模倣対象の形状と、動作対象の形状とが一致していないと判断した場合には、ガイド生成部１４は、模倣対象の形状と、動作対象の形状とを用いて、動作対象の形状を模倣対象の形状に追従させるために必要な形状の変化を特定し、それに応じてガイドを生成してもよい。例えば、模倣対象４１の形状が、図３で示されるように開状態であり、動作対象５１の形状が、図７で示されるように閉状態であり、両形状が一致しない場合には、ガイド生成部１４は、動作対象５１の形状を、模倣対象４１について特定した形状（例えば、図３では開状態）にする旨のガイドを生成してもよい。このガイドも、例えば、ガイド図形であってもよい。開状態の動作対象を閉状態にすることを示すガイド図形は、例えば、左右方向において先端が対向するように配置された２個の矢印の図形であってもよく、閉状態の動作対象を開状態にすることを示すガイド図形は、例えば、左右方向に配置された両矢印の図形であってもよい。なお、文字列のガイドや音声のガイドが生成される場合には、例えば、「開ける」や「閉じる」などの動作対象の形状の変化を示す文字列や音声のガイドが生成されてもよい。また、模倣対象と動作対象の形状が一致している場合には、例えば、（３）のガイドの生成は行われなくてもよい。

（４）カメラと模倣対象及び動作対象との位置関係を用いた追従方向を示すガイドの生成
上記（１）、（２）において説明したガイドの生成では、映像に含まれる模倣対象や動作対象の角度によっては、正確なガイドを生成できないこともある。したがって、より正確なガイドを生成するため、カメラと模倣対象及び動作対象との相対的な位置関係を用いてもよい。この場合には、ガイド生成部１４は、参照映像における模倣対象の複数の特徴点を用いて、模倣対象と参照映像を撮影したカメラとの第１の相対的な位置関係を取得し、自己映像における動作対象の複数の特徴点を用いて、動作対象と自己映像を撮影したカメラとの第２の相対的な位置関係を取得し、第１及び第２の相対的な位置関係を用いて、模倣対象と動作対象との第３の相対的な位置関係を取得し、その第３の相対的な位置関係を用いてガイドを生成してもよい。

模倣対象や動作対象の特徴点は、一例として、図８で示されるように、鉗子である模倣対象４１を構成する、支点で交差されている２個の部材における一方の部材の所定の頂点に対応する特徴点Ｐ４４，Ｐ４５、及び、その部材の把持部の先端に対応する特徴点Ｐ４６であってもよい。模倣対象や動作対象が、形状が変化するものであっても、複数の特徴点の位置関係は、その形状の変化に応じて変化しないことが好適である。また、相対的な位置関係の取得に用いられる複数の特徴点の個数は、３個以上であることが好適であり、その複数の特徴点は、一直線上に存在しないことが好適である。また、複数の特徴点における２個の特徴点間の距離は、既知であることが好適である。また、相対的な位置関係は、一例として、同次変換行列によって示されてもよい。例えば、模倣対象と、参照映像を撮影したカメラとの第１の相対的な位置関係は、模倣対象のローカル座標系と、参照映像を撮影したカメラのローカル座標系との間の変換を示す同次変換行列であってもよい。他の相対的な位置関係についても同様である。なお、撮影画像に含まれる、上記した３個以上の特徴点を有する対象物のローカル座標系と、カメラのローカル座標系との間の変換を示す同次変換行列を取得する方法はすでに公知であり、その詳細な説明を省略する。また、模倣対象の複数の特徴点と、動作対象の複数の特徴点とは、通常、同じ特徴点であるが、そうでなくてもよい。後者の場合には、模倣対象と、動作対象とで異なる特徴点が用いられてもよい。

また、参照映像を撮影したカメラのローカル座標系と、自己映像を撮影したカメラのローカル座標系とが一致しているとした場合には、第１及び第２の相対的な位置関係を用いて、模倣対象と動作対象との第３の相対的な位置関係を取得できる。なお、参照映像と自己映像とを合成した合成映像では、両カメラのローカル座標系は一致していると考えることができる。そのため、相対的な位置関係が同次変換行列である場合には、例えば、第１及び第２の相対的な位置関係にそれぞれ対応する２個の同次変換行列について、一方の同次変換行列の逆行列と他方の同次変換行列とを乗算することによって、第３の相対的な位置関係に対応する同次変換行列を生成することができる。

第３の相対的な位置関係によって、例えば、模倣対象のローカル座標系と、動作対象のローカル座標系との位置関係について知ることができる。また、第１の相対的な位置関係、または、第２の相対的な位置関係によって、カメラのローカル座標系であるカメラ座標系と、模倣対象のローカル座標系、または、動作対象のローカル座標系との位置関係について知ることができる。したがって、ガイド生成部１４は、第１及び第３の相対的な位置関係、または、第２及び第３の相対的な位置関係を用いることによって、カメラ座標系において、動作対象のローカル座標系が模倣対象のローカル座標系に一致するために必要な移動及び回転の程度について特定ことができる。ガイド生成部１４は、その特定結果を用いて、ガイドを生成してもよい。なお、動作対象のローカル座標系が模倣対象のローカル座標系に一致するとは、追従状態になることを意味している。

例えば、ガイド生成部１４は、動作対象のローカル座標系が、模倣対象のローカル座標系に一致するための動作対象の移動方向及び移動の程度を示すベクトルを、カメラ座標系において特定してもよい。カメラ座標系のｚ軸方向が、カメラの光軸方向であるとすると、特定したベクトルのｚ軸方向の向きに応じて、ガイド生成部１４は、動作対象を模倣対象に追従させるために、動作対象をｚ軸方向のどちら向きに移動させなければならないのかについて特定することができる。そして、ガイド生成部１４は、その特定結果に応じて、ユーザ３０を基準とした前後方向における追従方向を示すガイドを生成してもよい。ガイド生成部１４は、例えば、ｚ軸方向において、動作対象をカメラに近づく向きに移動させなければならない場合には、ユーザ３０を基準とした後方側に動作対象を移動させる旨のガイドを生成してもよい。

また、カメラ座標系のｘ軸方向が映像の左右方向であり、カメラ座標系のｙ軸方向が映像の上下方向である場合には、特定したベクトルのｘ軸方向及びｙ軸方向の向きに応じて、ガイド生成部１４は、動作対象を模倣対象に追従させるために、動作対象をｘ軸方向及びｙ軸方向ののどちら向きに移動させなければならないのかについて特定することができる。そして、ガイド生成部１４は、その特定結果に応じて、ユーザ３０を基準とした上下方向及び左右方向における追従方向を示すガイドを生成してもよい。ガイド生成部１４は、例えば、ｘ軸方向において、動作対象を映像の右向きに移動させなければならない場合には、ユーザ３０を基準とした右方向に動作対象を移動させる旨のガイドを生成し、ｙ軸方向において、動作対象を映像の上向きに移動させなければならない場合には、ユーザ３０を基準とした上方向に動作対象を移動させる旨のガイドを生成してもよい。

相対的な位置関係を取得する場合には、模倣対象と動作対象との平行移動のみでなく、回転も含めた相対的な位置関係について取得することができる。したがって、ガイド生成部１４は、例えば、動作対象の移動方向のみでなく、動作対象の回転方向も示すガイドを生成してもよい。

なお、模倣対象や動作対象が鉗子などのように細長い場合には、直線上に存在しない３個の特徴点を設定することが難しいこともある。このような場合には、例えば、模倣対象や動作対象に特徴点を特定するためのマーカを取り付け、そのマーカを用いて特徴点を特定してもよい。マーカは、例えば、四角形などの多角形状のマーカであってもよい。この場合には、マーカの各頂点が特徴点となってもよい。

また、模倣対象や動作対象の向きは映像において変化するため、同じ特徴点をいつでも用いることができるとは限らない。例えば、模倣対象や動作対象が回転されることなどによって、映像においてあらかじめ決められた特徴点を特定できなくなることもある。そのため、模倣対象及び動作対象の特徴点は、例えば、参照映像の期間ごとに変更されてもよい。この場合には、例えば、あらかじめ参照映像の複数の期間ごとに、その期間に用いる特徴点が設定されていてもよい。その設定は、例えば、手作業で行われてもよく、または、学習モデルなどを用いて自動的に行われてもよい。

また、ガイド生成部１４は、模倣対象や動作対象の領域や代表位置、特徴点の位置などを特定する場合に、参照映像を用いて模倣対象の領域等を特定し、自己映像を用いて動作対象の領域等を特定してもよい。この場合に、ガイド生成部１４は、例えば、両映像において同じ座標系を用いて領域や位置等を特定してもよい。同じ座標系とは、例えば、両映像が合成された際に同じ位置になる両映像の位置が、同じ座標値になる座標系であってもよい。

出力部１５は、合成映像とガイドとを出力する。ガイドであるガイド図形やガイドの文字列が合成映像に含まれている場合には、出力部１５は、そのガイド図形やガイドの文字列を含む合成映像を出力してもよい。この場合には、ガイド図形等を含む合成映像の出力によって、ガイドも出力されたことになる。一方、合成映像にガイドが含まれていない場合、例えば、ガイドが音声である場合には、出力部１５は、合成映像とガイドとをそれぞれ出力してもよい。

ここで、この出力は、例えば、表示デバイス（例えば、液晶ディスプレイや有機ＥＬディスプレイなど）への表示でもよく、所定の機器への通信回線を介した送信でもよく、スピーカによる音出力でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。一例として、ガイドが音声である場合には、出力部１５は、合成映像を表示するとともに、音声であるガイドをスピーカから音出力してもよい。なお、出力部１５は、出力を行うデバイス（例えば、表示デバイスや通信デバイス、スピーカなど）を含んでもよく、または含まなくてもよい。また、出力部１５は、ハードウェアによって実現されてもよく、または、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

次に、映像合成装置１の動作について図９のフローチャートを用いて説明する。
（ステップＳ１０１）合成部１３は、参照映像と自己映像との合成を行うかどうか判断する。そして、合成を行う場合には、ステップＳ１０２に進み、そうでない場合には、合成を行うと判断するまで、ステップＳ１０１の処理を繰り返す。なお、合成部１３は、各映像に含まれるフレームの表示間隔ごとに、合成を行うと判断してもよい。例えば、フレームレートがＡ（ｆｐｓ）である場合には、合成部１３は、１／Ａ（秒）ごとに、合成を行うと判断してもよい。

（ステップＳ１０２）合成部１３は、記憶部１１から合成対象の参照映像のフレームを読み出す。なお、合成の処理が開始されてからＴ秒後に読み出す対象となる参照映像のフレームは、例えば、先頭からＴ秒の位置のフレームであってもよい。

（ステップＳ１０３）映像取得部１２は、自己映像のフレームを取得する。映像取得部１２は、例えば、カメラ９０１から最新の自己映像のフレームを取得してもよい。

（ステップＳ１０４）ガイド生成部１４は、ステップＳ１０２で読み出された参照映像のフレームと、ステップＳ１０３で取得された自己映像のフレームとを用いて、ガイドを生成する。

（ステップＳ１０５）合成部１３は、ステップＳ１０２で読み出した参照映像のフレームと、ステップＳ１０３で取得された自己映像のフレームとを合成することによって、合成映像のフレームを生成する。なお、生成されたガイドがガイド図形である場合には、合成部１３は、ガイド図形も含む合成映像のフレームを生成してもよい。

（ステップＳ１０６）出力部１５は、ステップＳ１０５で生成された合成映像と、ステップＳ１０４で生成されたガイドとを出力する。例えば、ガイド図形を含む合成映像が生成された場合には、出力部１５は、その合成映像を出力してもよい。そして、ステップＳ１０１に戻る。このように、参照映像及び自己映像の各フレームが合成され、生成されたガイドと共に出力されることにより、両映像の合成が行われると共に、動作対象を模倣対象に追従させるためのガイドも提供されることになる。

なお、図９のフローチャートにおける処理の順序は一例であり、同様の結果を得られるのであれば、各ステップの順序を変更してもよい。また、図９のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

次に、本実施の形態による映像合成装置１の動作について、具体例を用いて説明する。本具体例において、参照映像は、鉗子である模倣対象４１が熟練者によって使用されている状況の映像であるとする。参照映像は、例えば、図３で示される映像である。また、図２で示されるように、ユーザ３０がカメラ９０１を用いて、ユーザ３０が使用している鉗子である動作対象５１の自己映像が撮影されるものとする。自己映像は、例えば、図４で示される映像である。

まず、ユーザ３０が、映像合成装置１を操作して、参照映像と自己映像との合成の処理を開始させると、合成部１３は、記憶部１１で記憶されている参照映像の１番目のフレームを読み出す（ステップＳ１０１，Ｓ１０２）。また、映像取得部１２は、カメラ９０１によって撮影された自己映像のフレームを、有線または無線を介して受け付ける（ステップＳ１０３）。また、ガイド生成部１４は、その時点のガイドを生成する（ステップＳ１０４）。本具体例では、図３の参照映像、及び図４の自己映像を用いて、ユーザ３０の前方側に動作対象を移動させるためのガイド図形が生成され、合成部１３に渡されたとする。

ガイド図形を受け取ると、合成部１３は、参照映像の手前側に、不透明度が５０％である自己映像を合成すると共に、ガイド図形を追加した合成映像のフレームを生成して出力部１５に渡す（ステップＳ１０５）。ガイド図形を含む合成映像のフレームを受け取ると、出力部１５は、その受け取った合成映像のフレームを表示デバイス９０２に出力する（ステップＳ１０６）。このようにして、ユーザ３０は、図５で示される合成映像を見ることができるようになる。図５では、動作対象５１をユーザ３０の前方側に移動することを示すガイド図形６１が表示されている。したがって、ユーザ３０は、そのガイド図形６１に応じて、動作対象５１をユーザ３０の前方側に移動させればよいことになる。

ガイド図形を含む合成映像の表示が繰り返されることにより、映像における模倣対象４１と動作対象５１との大きさが同程度になり、ユーザ３０の前後方向に関するガイドを出す必要がなくなったとする。すると、新たな参照映像及び自己映像のフレームが取得された際に（ステップＳ１０１～Ｓ１０３）、ガイド生成部１４は、ユーザ３０の上下方向及び左右方向に動作対象５１を移動させるためのガイド図形を生成する（ステップＳ１０４）。そして、そのガイド図形を含む合成映像のフレームが生成されて、出力される（ステップＳ１０５、Ｓ１０６）。その合成映像のフレームは、図６で示されるものであるとする。図６では、動作対象５１をユーザ３０の左側に移動することを示すガイド図形６２が表示されている。したがって、ユーザ３０は、そのガイド図形６２に応じて、動作対象５１をユーザ３０の左側に移動させればよいことになる。このように、ガイド図形を含む合成映像が出力されることによって、ユーザ３０は、そのガイドに応じて動作対象５１を移動させることによって、動作対象５１を模倣対象４１に追従させることができるようになる。

以上のように、本実施の形態による映像合成装置１によれば、参照映像や自己映像がステレオ映像のように奥行き方向の情報を持っていない２次元の映像である場合であっても、動作対象を模倣対象に追従させるためのガイドを出力することができ、ユーザ３０が動作させる動作対象を、模倣対象に追従させるための支援を行うことができる。ユーザ３０は、そのガイドを参考にすることによって、より容易に動作対象を模倣対象に追従させることができる。そのため、ユーザ３０が、参照映像を用いた学習の初心者であっても、学習の効果を高めることができる。

また、模倣対象や動作対象の大きさに応じて、ユーザ３０の前後方向における追従方向を示すガイドを生成することによって、ユーザ３０の前後方向における模倣対象と動作対象との位置合わせを容易に行うことができるようになる。また、模倣対象や動作対象の代表位置を用いて、ユーザ３０の上下方向及び左右方向における追従方向を示すガイドを生成することによって、ユーザ３０の上下方向及び左右方向における模倣対象と動作対象との位置合わせを容易に行うことができるようになる。また、模倣対象や動作対象の形状に応じて、動作対象の形状を模倣対象の形状に追従させるためのガイドを生成することによって、動作対象の形状を模倣対象の形状に容易に合わせることができるようになる。さらに、模倣対象や動作対象とカメラとの相対的な位置関係を用いて取得した模倣対象と動作対象との相対的な位置関係を用いることによって、より正確なガイドを生成することができるようになる。

また、ガイドがガイド図形である場合には、ユーザ３０は、出力された合成映像に含まれるガイド図形を参照することにより、動作対象をどのように動かせばよいのかについて、容易に把握することができるようになる。

なお、上記実施の形態では、映像合成装置１がスタンドアロンである場合について主に説明したが、映像合成装置１は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、取得部や出力部は、通信回線を介して情報を取得したり、情報を出力したりしてもよい。

また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、または、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。

また、上記実施の形態において、各構成要素間で行われる情報の受け渡しは、例えば、その情報の受け渡しを行う２個の構成要素が物理的に異なるものである場合には、一方の構成要素による情報の出力と、他方の構成要素による情報の受け付けとによって行われてもよく、または、その情報の受け渡しを行う２個の構成要素が物理的に同じものである場合には、一方の構成要素に対応する処理のフェーズから、他方の構成要素に対応する処理のフェーズに移ることによって行われてもよい。

また、上記実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりした情報や、各構成要素が処理で用いる閾値や数式、アドレス等の情報等は、上記説明で明記していなくても、図示しない記録媒体において、一時的に、または長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、または、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、または、図示しない読み出し部が行ってもよい。

また、上記実施の形態において、各構成要素等で用いられる情報、例えば、各構成要素が処理で用いる閾値やアドレス、各種の設定値等の情報がユーザによって変更されてもよい場合には、上記説明で明記していなくても、ユーザが適宜、それらの情報を変更できるようにしてもよく、または、そうでなくてもよい。それらの情報をユーザが変更可能な場合には、その変更は、例えば、ユーザからの変更指示を受け付ける図示しない受付部と、その変更指示に応じて情報を変更する図示しない変更部とによって実現されてもよい。その図示しない受付部による変更指示の受け付けは、例えば、入力デバイスからの受け付けでもよく、通信回線を介して送信された情報の受信でもよく、所定の記録媒体から読み出された情報の受け付けでもよい。

また、上記実施の形態において、映像合成装置１に含まれる２以上の構成要素が通信デバイスや入力デバイス等を有する場合に、２以上の構成要素が物理的に単一のデバイスを有してもよく、または、別々のデバイスを有してもよい。

また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、または、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをＣＰＵ等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。その実行時に、プログラム実行部は、記憶部や記録媒体にアクセスしながらプログラムを実行してもよい。なお、上記実施の形態における映像合成装置１を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、ユーザが動作を模倣する対象である模倣対象の動作の映像である参照映像が記憶される記憶部にアクセス可能なコンピュータを、ユーザが動作させる対象である動作対象の動作の映像である自己映像を取得する映像取得部、参照映像と自己映像とを合成した合成映像を生成する合成部、参照映像に含まれる模倣対象、及び自己映像に含まれる動作対象に基づいて、動作対象を模倣対象に追従させるためのガイドを生成するガイド生成部、合成映像とガイドとを出力する出力部として機能させるためのプログラムであってもよい。

なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得部や、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。

また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体（例えば、ＣＤ－ＲＯＭなどの光ディスクや磁気ディスク、半導体メモリなど）に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。

また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、または分散処理を行ってもよい。

図１０は、上記プログラムを実行して、上記実施の形態による映像合成装置１を実現するコンピュータ９００の構成の一例を示す図である。図１０において、コンピュータ９００は、ＭＰＵ（Micro Processing Unit）９１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ９１２と、ＭＰＵ９１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ９１３と、アプリケーションプログラム、システムプログラム、及びデータを記憶する記憶部９１４と、ＬＡＮやＷＡＮ等への接続を提供する通信モジュール９１５とを備える。なお、ＭＰＵ９１１、ＲＯＭ９１２等は、カメラ９０１、表示デバイス９０２、キーボード９０３、及びタッチパッドやマウスなどのポインティングデバイス９０４と共に、バスによって相互に接続されていてもよい。また、記憶部９１４は、例えば、ハードディスクやＳＳＤ（Solid State Drive）などであってもよい。また、カメラ９０１、表示デバイス９０２、キーボード９０３、ポインティングデバイス９０４などは、例えば、外付けのデバイスであってもよく、または、コンピュータ９００に内蔵されているデバイスであってもよい。

コンピュータ９００に、上記実施の形態による映像合成装置１の機能を実行させるプログラムは、実行の際にＲＡＭ９１３にロードされてもよい。なお、プログラムは、例えば、記憶部９１４、またはネットワークから直接、ロードされてもよい。

プログラムは、コンピュータ９００に、上記実施の形態による映像合成装置１の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能やモジュールを呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータ９００がどのように動作するのかについては周知であり、詳細な説明は省略する。

また、以上の実施の形態は、本発明を具体的に実施するための例示であって、本発明の技術的範囲を制限するものではない。本発明の技術的範囲は、実施の形態の説明ではなく、特許請求の範囲によって示されるものであり、特許請求の範囲の文言上の範囲及び均等の意味の範囲内での変更が含まれることが意図される。

１映像合成装置
１１記憶部
１２映像取得部
１３合成部
１４ガイド生成部
１５出力部
３０ユーザ
４１模倣対象
５１動作対象
６１、６２ガイド図形

Claims

ユーザが動作を模倣する対象である模倣対象の動作の映像である参照映像が記憶される記憶部と、
前記ユーザが動作させる対象である動作対象の動作の映像である自己映像を取得する映像取得部と、
前記参照映像と前記自己映像とを合成した合成映像を生成する合成部と、
前記参照映像における前記模倣対象の複数の特徴点を用いて、前記模倣対象のローカル座標系と前記参照映像を撮影したカメラのローカル座標系との第１の相対的な位置関係を取得し、前記自己映像における前記動作対象の複数の特徴点を用いて、前記動作対象のローカル座標系と前記自己映像を撮影したカメラのローカル座標系との第２の相対的な位置関係を取得し、前記第１及び第２の相対的な位置関係を用いて、前記模倣対象のローカル座標系と前記動作対象のローカル座標系との第３の相対的な位置関係を取得し、当該第３の相対的な位置関係を用いて、前記動作対象を前記模倣対象に追従させるためのガイドを生成するガイド生成部と、
前記合成映像と前記ガイドとを出力する出力部と、を備えた映像合成装置。
ユーザが動作を模倣する対象である模倣対象の動作の映像である参照映像が記憶される記憶部と、
前記ユーザが動作させる対象である動作対象の動作の映像である自己映像を取得する映像取得部と、
前記参照映像と前記自己映像とを合成した合成映像を生成する合成部と、
前記参照映像に含まれる前記模倣対象、及び前記自己映像に含まれる前記動作対象に基づいて、前記動作対象を前記模倣対象に追従させるためのガイドを生成するガイド生成部と、
前記合成映像と前記ガイドとを出力する出力部と、を備え、
前記模倣対象及び前記動作対象は、形状が変化するものであり、
前記ガイド生成部は、前記参照映像に含まれる前記模倣対象の形状と、前記自己映像に含まれる前記動作対象の形状とを特定し、特定した両形状が一致していない場合に、前記動作対象の形状を前記模倣対象の形状に追従させるために必要な形状の変化を特定し、特定した形状の変化に応じたガイドを生成する、映像合成装置。
前記ガイド生成部は、前記ガイドであるガイド図形を生成し、
前記合成部は、前記ガイド図形を含む合成映像を生成し、
前記出力部は、前記ガイド図形を含む前記合成映像を出力する、請求項１または請求項２記載の映像合成装置。
ユーザが動作を模倣する対象である模倣対象の動作の映像である参照映像が記憶される記憶部と、映像取得部と、合成部と、ガイド生成部と、出力部とを用いて処理される映像合成方法であって、
前記映像取得部が、前記ユーザが動作させる対象である動作対象の動作の映像である自己映像を取得するステップと、
前記合成部が、前記参照映像と前記自己映像とを合成した合成映像を生成するステップと、
前記ガイド生成部が、前記参照映像における前記模倣対象の複数の特徴点を用いて、前記模倣対象のローカル座標系と前記参照映像を撮影したカメラのローカル座標系との第１の相対的な位置関係を取得し、前記自己映像における前記動作対象の複数の特徴点を用いて、前記動作対象のローカル座標系と前記自己映像を撮影したカメラのローカル座標系との第２の相対的な位置関係を取得し、前記第１及び第２の相対的な位置関係を用いて、前記模倣対象のローカル座標系と前記動作対象のローカル座標系との第３の相対的な位置関係を取得し、当該第３の相対的な位置関係を用いて、前記動作対象を前記模倣対象に追従させるためのガイドを生成するステップと、
前記出力部が、前記合成映像と前記ガイドとを出力するステップと、を備えた映像合成方法。
ユーザが動作を模倣する対象である模倣対象の動作の映像である参照映像が記憶される記憶部と、映像取得部と、合成部と、ガイド生成部と、出力部とを用いて処理される映像合成方法であって、
前記映像取得部が、前記ユーザが動作させる対象である動作対象の動作の映像である自己映像を取得するステップと、
前記合成部が、前記参照映像と前記自己映像とを合成した合成映像を生成するステップと、
前記ガイド生成部が、前記参照映像に含まれる前記模倣対象、及び前記自己映像に含まれる前記動作対象に基づいて、前記動作対象を前記模倣対象に追従させるためのガイドを生成するステップと、
前記出力部が、前記合成映像と前記ガイドとを出力するステップと、を備え、
前記模倣対象及び前記動作対象は、形状が変化するものであり、
前記ガイドを生成するステップでは、前記参照映像に含まれる前記模倣対象の形状と、前記自己映像に含まれる前記動作対象の形状とを特定し、特定した両形状が一致していない場合に、前記動作対象の形状を前記模倣対象の形状に追従させるために必要な形状の変化を特定し、特定した形状の変化に応じたガイドを生成する、映像合成方法。
ユーザが動作を模倣する対象である模倣対象の動作の映像である参照映像が記憶される記憶部にアクセス可能なコンピュータを、
前記ユーザが動作させる対象である動作対象の動作の映像である自己映像を取得する映像取得部、
前記参照映像と前記自己映像とを合成した合成映像を生成する合成部、
前記参照映像における前記模倣対象の複数の特徴点を用いて、前記模倣対象のローカル座標系と前記参照映像を撮影したカメラのローカル座標系との第１の相対的な位置関係を取得し、前記自己映像における前記動作対象の複数の特徴点を用いて、前記動作対象のローカル座標系と前記自己映像を撮影したカメラのローカル座標系との第２の相対的な位置関係を取得し、前記第１及び第２の相対的な位置関係を用いて、前記模倣対象のローカル座標系と前記動作対象のローカル座標系との第３の相対的な位置関係を取得し、当該第３の相対的な位置関係を用いて、前記動作対象を前記模倣対象に追従させるためのガイドを生成するガイド生成部、
前記合成映像と前記ガイドとを出力する出力部として機能させるためのプログラム。
ユーザが動作を模倣する対象である模倣対象の動作の映像である参照映像が記憶される記憶部にアクセス可能なコンピュータを、
前記ユーザが動作させる対象である動作対象の動作の映像である自己映像を取得する映像取得部、
前記参照映像と前記自己映像とを合成した合成映像を生成する合成部、
前記参照映像に含まれる前記模倣対象、及び前記自己映像に含まれる前記動作対象に基づいて、前記動作対象を前記模倣対象に追従させるためのガイドを生成するガイド生成部、
前記合成映像と前記ガイドとを出力する出力部として機能させ、
前記模倣対象及び前記動作対象は、形状が変化するものであり、
前記ガイド生成部は、前記参照映像に含まれる前記模倣対象の形状と、前記自己映像に含まれる前記動作対象の形状とを特定し、特定した両形状が一致していない場合に、前記動作対象の形状を前記模倣対象の形状に追従させるために必要な形状の変化を特定し、特定した形状の変化に応じたガイドを生成する、プログラム。