JP2020087278A

JP2020087278A - 動画合成装置、動画合成方法及び動画合成プログラム

Info

Publication number: JP2020087278A
Application number: JP2018225031A
Authority: JP
Inventors: 量生川上; Kazuo Kawakami; 進之介岩城; Shinnosuke Iwaki; 尚小嶋; Takashi Kojima; 俊博清水; Toshihiro Shimizu; 寛明齊藤; Hiroaki Saito
Original assignee: Dwango Co Ltd
Current assignee: Dwango Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2020-06-04
Anticipated expiration: 2038-11-30
Also published as: US11367260B2; JP6559871B1; US20210233325A1; CN112689854A; WO2020110323A1

Abstract

【課題】より簡単に表情豊かなコンピュータグラフィックスキャラクタを合成した動画を生成する。【解決手段】アウトカメラ１７で実写動画を撮影するとともに、インカメラ１６で配信者を撮影し、アバター制御部１３がインカメラ１６で撮影した配信者の画像に基づいてアバターを制御するとともに、動画合成装置１の実空間座標系における位置に応じてアバターの実空間座標系における位置を移動し、合成部１４が実空間座標系の所定位置にアバターを配置して実写動画にアバターを合成する。【選択図】図１０

Description

本発明は、拡張現実動画を生成する技術に関する。

近年、個人がネットワークを介して映像を配信できる動画配信サービスが広まっている。動画配信サービスにおいて、ユーザの代わりにコンピュータグラフィックス（ＣＧ）キャラクタを映像内に登場させて映像を配信できるアプリケーションが知られている。また、スマートフォンで自撮りした顔をフェイストラッキングし、ユーザの表情をＣＧキャラクタに反映する技術が知られている。

特開２０１７−１８８７８７号公報

フェイストラッキング技術を用いて、自撮り動画にＣＧキャラクタを合成すると、リアルタイムでユーザ自身の表情を反映したＣＧキャラクタを実写映像に簡単に合成できる。

しかしながら、撮影される実写映像はユーザの背後の風景である。ユーザの眼前に広がる風景をバックにユーザ自身の表情を反映したＣＧキャラクタを合成する場合、ユーザは、自撮り棒を用いて、撮影したい風景を背にしてユーザ自身を含めて撮影する必要があった。

本発明は、上記に鑑みてなされたものであり、より簡単に表情豊かなコンピュータグラフィックスキャラクタを合成した動画を生成することを目的とする。

本発明に係る動画合成装置は、実写動画にアバターを合成した拡張現実動画を生成する動画合成装置であって、実写動画を撮影する第１撮像部と、操作者を撮影する第２撮像部と、前記第１撮像部または前記動画合成装置の実空間に対応した座標系における位置および向きを検出する位置検出部と、前記第２撮像部の撮影した画像に基づいてアバターを制御するとともに、前記第１撮像部または前記動画合成装置の移動に合わせて前記アバターの前記座標系における位置を移動させる制御部と、前記座標系の所定位置に前記アバターを配置して前記第１撮像部の撮影した前記実写動画に前記アバターを合成する合成部と、を有することを特徴とする。

本発明に係る動画合成方法は、実写動画にアバターを合成した拡張現実動画を生成する動画合成方法であって、コンピュータによる、実写動画を撮影する第１撮像部の実空間に対応した座標系における位置および向きを検出するステップと、操作者を撮影する第２撮像部の撮影した画像に基づいてアバターを制御するステップと、前記第１撮像部の移動に合わせて前記アバターの前記座標系における位置を移動させるステップと、前記座標系の所定位置に前記アバターを配置して前記第１撮像部の撮影した前記実写動画に前記アバターを合成するステップと、を有することを特徴とする。

本発明に係る動画合成プログラムは、実写動画にアバターを合成した拡張現実動画を生成する動画合成プログラムであって、実写動画を撮影する第１撮像部の実空間に対応した座標系における位置および向きを検出する処理と、操作者を撮影する第２撮像部の撮影した画像に基づいてアバターを制御する処理と、前記第１撮像部の移動に合わせて前記アバターの前記座標系における位置を移動させる処理と、前記座標系の所定位置に前記アバターを配置して前記第１撮像部の撮影した前記実写動画に前記アバターを合成する処理と、をコンピュータに実行させることを特徴とする。

本発明によれば、より簡単に表情豊かなコンピュータグラフィックスキャラクタを合成した動画を生成することができる。

本実施形態の動画合成装置を含む動画配信システムの全体的な構成を示す全体構成図である。配信者がＡＲ動画を配信する様子を説明するための図である。撮影方向を右にパンしたときのＡＲ動画の例を示す図である。本実施形態の動画合成装置の構成例を示す機能ブロック図である。アバターの初期配置処理の流れを示すフローチャートである。撮影した映像に検出した床部分を重畳表示した例を示す図である。図６の床部分にアバターを立たせた例を示す図である。図７の状態から撮影方向を上にチルトした例を示す図である。ＡＲ動画の生成処理の流れを示すフローチャートである。アバターの表情と姿勢の制御処理の流れを示すフローチャートである。タッチパネルに操作ボタンを表示した例を示す図である。配信者の移動中に、アバターを後ろ向きに表示した例を示す図である。

以下、本発明の実施の形態について図面を用いて説明する。

図１を参照し、本実施形態の動画合成装置を含む動画配信システムの全体的な構成について説明する。本動画配信システムは、動画合成装置１と動画配信サーバ３で構成される。

動画合成装置１は、動画合成装置１の撮影した実写映像に３次元のコンピュータグラフィックスキャラクタ（アバター）を合成し、拡張現実（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）動画（以下、「ＡＲ動画」と称する）を生成する。

動画配信サーバ３は、動画合成装置１からＡＲ動画を受信して、ＡＲ動画を視聴者端末９に配信する。動画配信サーバ３は、受信したＡＲ動画をリアルタイムで配信（いわゆる生放送）してもよいし、ＡＲ動画を蓄積しておき、視聴者端末９からの要求に応じてＡＲ動画を配信してもよい。

動画配信システムは、アバター管理サーバ５およびコメント管理サーバ７を備えてもよい。

アバター管理サーバ５は、アバターの３次元データを管理する。動画合成装置１は、アバター管理サーバ５が提供するアバターのパーツを組み合わせて、自分用のアバターを生成してもよい。

コメント管理サーバ７は、視聴者端末９からＡＲ動画に対するコメントを受信し、そのコメントを動画合成装置１および他の視聴者端末９に配信する。

動画合成装置１、動画配信サーバ３、アバター管理サーバ５、コメント管理サーバ７、および視聴者端末９は、ネットワークを介して通信可能に接続される。

図２および図３を参照し、動画合成装置１の生成するＡＲ動画について説明する。

動画合成装置１は、撮影方向が互いに逆向きのアウトカメラとインカメラ、マイク、タッチパネル、および自己位置を検出するための各種センサ（例えば、加速度センサ、ジャイロセンサなど）を備える。動画合成装置１として、アウトカメラおよびインカメラを備えたスマートフォンおよびタブレットなどの携帯端末を利用できる。

図２に示すように、配信者２００は、動画合成装置１を持ち、アウトカメラで配信者２００が見ている風景を撮影し、インカメラで配信者２００自身を撮影する。動画合成装置１は、アウトカメラで撮影した実写映像にアバター１００を合成したＡＲ動画を生成する。動画合成装置１は、インカメラで撮影した配信者２００の表情をアバター１００の表情に反映する。例えば、配信者２００が話しているとき、動画合成装置１は、インカメラで撮影した配信者２００の顔をフェイストラッキングし、アバター１００の口を配信者２００の口に合わせて動かす。動画合成装置１は、配信者２００の頭の動きをアバター１００に反映してもよいし、配信者２００のジェスチャーをアバター１００に反映してもよい。これにより、配信者２００は、自身の眼前に広がる風景を撮影しながら、アバター１００を制御できる。

動画合成装置１は、アバター１００を実空間に対応した座標系に固定し、映像にアバター１００を合成する。図３に示すように、アウトカメラの撮影方向を右にパンしたときも、アバター１００は実空間内に存在する物と同様に、映像の左方向に移動する。

［動画合成装置の構成］
図４を参照し、動画合成装置１の構成例について説明する。同図に示す動画合成装置１は、空間測定部１１、初期配置部１２、アバター制御部１３、合成部１４、位置検出部１５、インカメラ１６、アウトカメラ１７、入力部１８、表示部１９、通信制御部２０、および記憶部２１を備える。動画合成装置１が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは動画合成装置１が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。例えば、スマートフォンにアプリケーションをインストールし、スマートフォンを動画合成装置１として機能させてもよい。

空間測定部１１は、アバターを配置する実空間の３次元空間情報を測定し、実空間に対応する実空間座標系を設定し、アバターを配置可能な領域（以下、「アバター配置可能領域」と称する）を検出する。例えば、アウトカメラ１７で実空間の動画を撮影し、単眼カメラを用いたマーカーレスＡＲの技術により、撮影場所の実空間の３次元空間情報を測定できる。空間測定部１１は、測定で得られた３次元空間情報のうち、例えば床などの平坦部分をアバター配置可能領域として検出する。空間測定部１１がアバター配置可能領域として検出する箇所は、アバターを配置しても不自然でない場所ならば、地面に対して傾いていてもよく、凸凹のある場所でもよい。

動画合成装置１がデプスカメラまたはステレオカメラを備える場合、空間測定部１１は、デプスカメラの測定結果またはステレオ画像から３次元空間情報を得てもよい。空間測定部１１は、測定した３次元空間情報を記憶部２１に記憶する。

初期配置部１２は、空間測定部１１の検出したアバター配置可能領域内にアバターが存在するように、アバターの初期位置を決定する。例えば、アウトカメラ１７で撮影した実空間の映像に、アバター配置可能領域を示す図形（例えば、床の範囲を示す枠など）を重畳した画像を表示し、配信者にアバターの初期位置の指定を促す。配信者がアバター配置可能領域内をタップすると、初期配置部１２は、タップされた位置の実空間座標系の座標を算出し、アバターの初期位置として決定する。初期配置部１２は、アバター配置可能領域の任意の位置にアバターを配置してもよい。配信者が動画合成装置１を振ったときは、ランダムでアバターの位置を変更してもよい。

アバター制御部１３は、インカメラ１６で撮影した配信者の顔をフェイストラッキングし、配信者の表情をアバターの表情に反映させる。アバター制御部１３は、配信者がメニュー等で入力した操作に従ってアバターを制御してもよい。アバター制御部１３は、動画合成装置１の移動に基づきアバターの姿勢および位置を制御してもよい。例えば、配信者が風景を撮影しながら前方に移動しているときは、アバターを前方に向けて、アバターを歩かせる。

合成部１４は、実空間座標系にアバターを配置し、アウトカメラ１７で撮影した映像にアバターを合成し、ＡＲ動画を生成する。ＡＲ動画は、表示部１９で表示されるとともに、通信制御部２０から動画配信サーバ３へ送信される。合成部１４は、ＡＲ動画を記憶部２１に蓄積してもよい。なお、アバターのレンダリングに必要なデータは、アバター管理サーバ５から受信し、記憶部２１に記憶しておく。事前に記憶部２１に記憶されたアバターのデータを用いてもよい。

位置検出部１５は、実空間座標系における動画合成装置１自身の位置および向き（アウトカメラ１７の位置および向きでもある）を検出する。合成部１４は、位置検出部１５の検出した位置および向きに基づいてアバターをレンダリングする。

インカメラ１６は、配信者（動画合成装置１の操作者でもある）を撮影する。

アウトカメラ１７は、ＡＲ動画として発信したい風景および被写体を撮影する。

入力部１８は、動画合成装置１の備えるタッチパネルからの操作を受け付ける。

表示部１９は、タッチパネルにアウトカメラ１７で撮影した実写映像にアバターを合成したＡＲ動画を表示する。アバターを操作するための各種ボタンを表示してもよい。

通信制御部２０は、ＡＲ動画を動画配信サーバ３へ送信する。

［アバターの初期配置］
図５を参照し、アバターの初期配置処理の一例について説明する。

図５に示す処理は、配信者がＡＲ動画を生成する前に、実空間座標系におけるアバターの位置を決定する際に実行される。

配信者は、動画合成装置１を起動し、アウトカメラ１７でアバターを配置する場所の動画を撮影し、アバターを配置する場所の３次元空間情報を取得する（ステップＳ１１）。具体的には、アプリケーションを起動してスマートフォンを動画合成装置１として動作させ、アウトカメラ１７でアバターを配置する平らな場所を撮影する。配信者は、動画合成装置１を少し動かしながら配置場所を撮影する。動画合成装置１の動きおよび撮影した動画から検出できる特徴点の動きから３次元空間情報を取得し、アバターの配置を許可するアバター配置可能領域を検出する。ここでは、平坦な「床」をアバター配置可能領域として検出する。

空間測定部１１が３次元空間情報を取得し、床を検出すると、表示部１９は、アウトカメラ１７で撮影した映像に床を示す図形を重畳して表示する（ステップＳ１２）。例えば、図６に示すように、アウトカメラ１７で撮影した映像に床の位置を示す枠１１０を重畳して表示する。

配信者が枠１１０内をタップすると、図７に示すように、アバター制御部１３は、タップされた位置にアバター１００を配置する（ステップＳ１３）。タップされた位置の実空間座標系における座標をアバターの立ち位置の座標とする。枠１１０内の別の場所をタップし直すと、新たにタップされた位置をアバターの立ち位置とする。実空間座標系におけるアバターの座標が定まると、合成部１４は、アウトカメラ１７で撮影した実写映像にアバターを重畳して表示する。以降は、アバターが実空間内に存在するかのように、アバターは実写映像に重畳表示される。例えば、図７の状態からアウトカメラ１７の撮影方向を上にチルトすると、図８に示すように、アバター１００の立ち位置は実空間内に固定されたままでアバター１００の上半身が表示される。アウトカメラ１７の撮影方向を左右にパンしたときも、アバター１００の立ち位置は実空間内に固定されたままで、アバター１００は、実写映像に重畳表示される。

アバター１００が表示されているときに、アバター１００をドラッグしてアバター１００の立ち位置を調整してもよい。例えば、図８に示すように、アバター１００が表示されているとき、配信者がアバター１００をタップして指を画面に沿って左右に動かすと、アバター１００の立ち位置を左右に移動させる。配信者が指を上下に動かすと、アバター１００の立ち位置を奥行き方向または手前方向に移動させる。アバター１００を前後左右に動かすとき、床と認識された範囲を超えないように、アバター１００の移動を停止する。

配信者が動画合成装置１を振ったときに、初期配置部１２はアバターの立ち位置をランダムで決めてもよい。配信者が動画合成装置１を傾けたときに、初期配置部１２はアバターの立ち位置を動画合成装置１の傾きに応じて移動してもよい。例えば、配信者が動画合成装置１を右に傾けると、アバター１００を右方向に移動させ、動画合成装置１を手前に倒すと、アバター１００を手前方向に移動させる。

インカメラ１６で撮影した配信者の画像に基づいてアバターの立ち位置を調整してもよい。例えば、配信者が右を向くと、アバターの立ち位置を右に移動させる。配信者が下を向くと、アバターの立ち位置を手前方向に移動させる。

配信者がアバターの位置を決めると、初期配置部１２は、配信者の操作に応じて、アバターのサイズおよび向きを決定する（ステップＳ１４）。例えば、配信者がタッチパネルを上下フリックすると、アバターのサイズを拡大・縮小する。配信者がタッチパネルを左右フリックすると、アバターの向きを回転する。配信者がタッチパネルを２本指でタップすると、アバターのサイズおよび向きを最初の大きさおよび向きにリセットする。

アバターの立ち位置の床に、畳、絨毯、ステージなどのオブジェクトを配置してもよい。足元のオブジェクトとして高さのある台を配置した場合は、アバターの立ち位置を台の高さ分上昇させる。

アバターの初期の位置を中心として、所定の範囲内の床部分をアバターが自由に移動できるようにしてもよい。例えば、配信者の沈黙がしばらく続いたときに、アバターが所定の範囲内をうろうろ歩くよう制御されてもよい。

［ＡＲ動画の生成］
配信者がアバターの初期配置を終えると、動画合成装置１は、インカメラ１６による配信者の撮影を開始し、ＡＲ動画の生成を開始する。

図９を参照し、ＡＲ動画の生成処理の一例について説明する。

アウトカメラ１７が風景を撮影すると同時に（ステップＳ２１）、インカメラ１６が配信者を撮影する（ステップＳ２２）。マイクは動画に付随させる音声を集音する。

位置検出部１５は、動画合成装置１の位置および向きを検出する（ステップＳ２３）。

アバター制御部１３は、インカメラ１６の撮影した配信者の映像に基づき、アバターの表情と姿勢を制御する（ステップＳ２４）。アバター制御部１３の処理の詳細は後述する。

合成部１４は、アウトカメラ１７で撮影した実写映像にアバターを合成してＡＲ動画を生成する（ステップＳ２５）。

［アバターの制御］
図１０を参照し、アバター制御部１３によるアバターの表情と姿勢の制御処理の一例について説明する。

アバター制御部１３は、配信者が移動中であるか否か判定する（ステップＳ３１）。配信者が移動中であるか否かは、位置検出部１５で検出した動画合成装置１の動きに基づいて判定できる。

配信者が移動中の場合（ステップＳ３１のＹＥＳ）、アバターが位置固定状態であるか否か判定する（ステップＳ３２）。アバターが位置固定状態であるとは、実空間座標系におけるアバターの位置を動かさない状態である。配信者が移動してもアバターの立ち位置は動かさない。アバターが位置固定状態でないときは、実空間座標系における動画合成装置１とアバターの間を所定の距離に保ち、動画合成装置１の移動に合わせてアバターの位置を移動させる。配信者つまり動画合成装置１が移動すると、アバター制御部１３は配信者の移動に合わせてアバターの位置を移動させる。アバターの移動については後述する。

アバターの位置固定状態の解除は、図１１に示すタッチパネルに表示された位置固定ボタン１３０を操作することで変更できる。アバターが位置固定状態のときに、位置固定ボタン１３０が操作されると、アバターの位置固定を解除する。アバターが位置固定されていないときに、位置固定ボタン１３０が操作されると、アバターを位置固定状態とする。

配信者が移動中でない場合（ステップＳ３１のＮＯ）、あるいはアバターの位置が固定されている場合（ステップＳ３２のＹＥＳ）、アバター制御部１３は、表情ボタンが操作されたか否かを判定する（ステップＳ３３）。本実施形態では、図１１に示すように、タッチパネルに表情ボタン１２０Ａ，１２０Ｂ，１２０Ｃを表示している。表情ボタン１２０Ａ，１２０Ｂ，１２０Ｃのそれぞれは、大笑い、泣き、怒りの表情に対応する。

表情ボタン１２０Ａ，１２０Ｂ，１２０Ｃが操作された場合（ステップＳ３３のＹＥＳ）、アバター制御部１３は、アバターの表情を操作された表情ボタン１２０Ａ，１２０Ｂ，１２０Ｃに応じた表情に変更する（ステップＳ３４）。大げさな表情のアニメーションを用意しておき、表情ボタンの操作に応じてアバターにアニメーションさせることで、より明確に感情を表現することができる。アバターの表情を変更するだけでなく、アバターにジェスチャーをさせてもよい。例えば、泣くの表情ボタンが操作されたとき、手で涙を拭くジェスチャーをアバターにさせる。

アバターの姿勢（アバターの向きを含む）を制御するためのボタンをタッチパネルに表示してもよい。例えば、アバターを振り向かせるためのボタン、アバターの顔または上半身を右または左に向けるためのボタンなどをタッチパネルに表示してもよい。これらのボタンが操作されると、アバター制御部１３は、アバターの姿勢を操作されたボタンに応じた姿勢に変更する。

メニューからアバターの表情および姿勢を制御できてもよい。例えば、タッチパネルの端をスワイプしてメニューバーを出現させて、アバターにさせたい表情や姿勢に対応する項目を選択する。

インカメラ１６で撮影したハンドサインでアバターを制御できてもよい。アバター制御部１３は、ハンドサインとアバターの制御内容（表情および姿勢など）を関連つけておき、インカメラ１６で撮影した動画から特定のハンドサインを検出した場合、検出したハンドサインに応じてアバターを制御する。例えば、インカメラ１６で握りこぶしを撮影したときはアバターに怒りの表情をさせる。

インカメラ１６で撮影した文字または図形でアバターを制御できてもよい。アバター制御部１３は、インカメラ１６で撮影した動画から特定の文字または図形を検出した場合、検出した文字等に応じてアバターを制御する。例えば、紙に「笑って」と記載しておき、インカメラ１６でその紙を撮影してアバターに笑った表情をさせる。

動画合成装置１の動きでアバターを制御できてもよい。アバター制御部１３は、動画合成装置１の動きとアバターの制御内容を関連つけておき、位置検出部１５の検出した動画合成装置１の動きに応じてアバターを制御する。例えば、動画合成装置１が傾けられたときは、アバターにお辞儀をさせる。動画合成装置１が傾けられるとアウトカメラ１７で撮影する風景が傾いてしまうので、傾きを検出する直前に撮影された動画の１フレームを背景として、静止画にお辞儀するアバターを合成してもよい。静止画の代わりに、傾きを検出する直前の数秒程度の動画を背景としてもよい。

アバター制御部１３は、配信者に取り付けたセンサからの情報に基づいてアバターを制御してもよいし、キーボードなどの外部入力装置でアバターを制御してもよい。センサおよび入力装置と動画合成装置１とは無線により通信する。

表情ボタンが操作されない場合（ステップＳ３３のＹＥＳ）、アバター制御部１３は、インカメラ１６で撮影した配信者の顔をフェイストラッキングし、配信者の表情をアバターに反映する（ステップＳ３５）。インカメラ１６で撮影した配信者の表情をアバターに反映させることで、配信者の手を煩わすことなく、アバターを表情豊かに制御することができる。

アバター制御部１３は、マイクで集音した配信者の音声に基づき、アバターにしゃべる動きをさたり、表情および姿勢を変えたり、振り向かせたりしてもよい。

配信者が移動中であって（ステップＳ３１のＹＥＳ）、アバターが位置固定状態ではない場合（ステップＳ３２のＮＯ）、アバター制御部１３は、アバター１００を配信者の進行方向に向けて（ステップＳ３６）、アバター１００の立ち位置を進行方向に移動させる（ステップＳ３７）。具体的には、アバター制御部１３は、実空間座標系における動画合成装置１の位置とアバターの立ち位置との間の距離が所定の間隔に保たれるように、アバターの位置を移動する。アバター制御部１３は、配信者（動画合成装置１）が前進すると配信者から離れるようにアバターを移動し、配信者が後退すると配信者に近づくようにアバターを移動し、配信者が立ち止まるとアバターを立ち止まらせる。なお、アバターの移動とは独立して、ステップＳ３３からステップＳ３５の処理を行ってもよい。具体的には、ステップＳ３７の処理の後に、ステップＳ３３の処理を実行してもよい。

アバター制御部１３は、アバターの向きを固定してもよいし、アバターの向きをアバターの進行方向に向けてもよい。例えば、アバターの位置を固定せず、アバターの向きを固定した場合、図１１の状態で配信者が前進すると、アバター制御部１３は、アバターの向きを動画合成装置１の方向に向けたまま、アバターを後退させる。アバターの位置を固定せず、アバターの向きも固定しない場合、図１１の状態で配信者が前進すると、アバター制御部１３は、図１２に示すように、アバターの向きを進行方向に向けて、アバターを前進させる。

マイクが配信者以外の人の音声を集音していた場合、アバター制御部１３は、アバターをその音声の方向に向けてもよい。

アバターの移動先が床でないとき、例えば移動先が壁のとき、アバター制御部１３は、アバターを移動させずに、床の端で立ち止まらせてもよい。配信者が道を歩きながらＡＲ動画を配信するとき、空間測定部１１は、アウトカメラ１７の映像から進行方向の平坦部分を検出し、アバター制御部１３は、アバターを進行方向の平坦部分に移動させる。これにより、配信者が道を歩きながらＡＲ動画を配信しているとき、アバターが道を歩いているようなＡＲ動画を生成できる。

アバターが位置固定状態でない場合、配信者が移動中でなくても、アウトカメラ１７の撮影方向を左右にパンしたときは、アバター制御部１３は、撮影方向に合わせてアバターを左右に移動させてもよい。

以上説明したように、本実施形態によれば、アウトカメラ１７で実写動画を撮影するとともに、インカメラ１６で配信者を撮影し、アバター制御部１３がインカメラ１６で撮影した配信者の画像に基づいてアバターを制御し、合成部１４が実空間座標系の所定位置にアバターを配置して実写動画にアバターを合成することにより、配信者は、眼前の風景を撮影しながら、自身の表情を反映させたアバターを合成したＡＲ動画を生成できる。インカメラ１６で撮影した配信者の顔をフェイストラッキングしてアバターに反映させることで、表情豊かなアバターを合成できる。

本実施形態によれば、空間測定部１１が撮影場所の３次元空間情報を取得してアバターの配置を許可するアバター配置可能領域を検出し、初期配置部１２がアバター配置可能領域にアバターを配置して実空間座標系における前記アバターの位置を決定することにより、アバターの立ち位置を決めるためのマーカーを設置することなく、実空間にアバターを固定できる。

本実施形態によれば、アバター制御部１３が動画合成装置１の実空間座標系における位置に応じてアバターの実空間座標系における位置を移動することにより、配信者が動画合成装置１を持って歩きながら撮影すると、配信者の移動に合わせて移動するアバターを合成したＡＲ動画を生成できる。

なお、本実施形態では、動画合成装置１がＡＲ動画の生成を行ったが、サーバが、動画合成装置１が、アウトカメラ１７の撮影した実写動画およびインカメラ１６の撮影した画像などのＡＲ動画の生成に必要なデータを送信し、サーバまたはクラウドでＡＲ動画を生成してもよい。

１…動画合成装置１１…空間測定部１２…初期配置部１３…アバター制御部１４…合成部１５…位置検出部１６…インカメラ１７…アウトカメラ１８…入力部１９…表示部２０…通信制御部２１…記憶部３…動画配信サーバ５…アバター管理サーバ７…コメント管理サーバ９…視聴者端末

本発明に係る動画合成装置は、実写動画にアバターを合成した拡張現実動画を生成する動画合成装置であって、実写動画を撮影する第１撮像部と、操作者を撮影する第２撮像部と、前記第１撮像部または前記動画合成装置の実空間に対応した座標系における位置および向きを検出する位置検出部と、前記第２撮像部の撮影した画像に基づいてアバターを制御するとともに、前記第１撮像部または前記動画合成装置の前記座標系における位置の移動に合わせて前記アバターの前記座標系における位置を移動させる制御部と、前記座標系の所定位置に前記アバターを配置して前記第１撮像部の撮影した前記実写動画に前記アバターを合成する合成部と、を有することを特徴とする。

本発明に係る動画合成方法は、実写動画にアバターを合成した拡張現実動画を生成する動画合成方法であって、コンピュータによる、実写動画を撮影する第１撮像部の実空間に対応した座標系における位置および向きを検出するステップと、操作者を撮影する第２撮像部の撮影した画像に基づいてアバターを制御するステップと、前記第１撮像部の前記座標系における位置の移動に合わせて前記アバターの前記座標系における位置を移動させるステップと、前記座標系の所定位置に前記アバターを配置して前記第１撮像部の撮影した前記実写動画に前記アバターを合成するステップと、有することを特徴とする。

本発明に係る動画合成プログラムは、実写動画にアバターを合成した拡張現実動画を生成する動画合成プログラムであって、実写動画を撮影する第１撮像部の実空間に対応した座標系における位置および向きを検出する処理と、操作者を撮影する第２撮像部の撮影した画像に基づいてアバターを制御する処理と、前記第１撮像部の前記座標系における位置の移動に合わせて前記アバターの前記座標系における位置を移動させる処理と、前記座標系の所定位置に前記アバターを配置して前記第１撮像部の撮影した前記実写動画に前記アバターを合成する処理と、をコンピュータに実行させることを特徴とする。

Claims

実写動画にアバターを合成した拡張現実動画を生成する動画合成装置であって、
実写動画を撮影する第１撮像部と、
操作者を撮影する第２撮像部と、
前記第１撮像部または前記動画合成装置の実空間に対応した座標系における位置および向きを検出する位置検出部と、
前記第２撮像部の撮影した画像に基づいてアバターを制御するとともに、前記第１撮像部または前記動画合成装置の移動に合わせて前記アバターの前記座標系における位置を移動させる制御部と、
前記座標系の所定位置に前記アバターを配置して前記第１撮像部の撮影した前記実写動画に前記アバターを合成する合成部と、
を有することを特徴とする動画合成装置。
前記制御部は、前記第２撮像部の撮影した前記操作者のジェスチャー、文字、または図形のいずれかに基づいて前記アバターを制御することを特徴とする請求項１に記載の動画合成装置。
前記制御部は、前記動画合成装置の動きに基づいて前記アバターの向きを制御することを特徴とする請求項１または２に記載の動画合成装置。
前記操作者の操作を入力する入力部を有し、
前記制御部は、前記入力部の入力した操作に基づいて前記アバターを制御することを特徴とする請求項１乃至３のいずれかに記載の動画合成装置。
音声を入力するマイクを有し、
前記制御部は、前記マイクの入力した音声に基づいて前記アバターを制御することを特徴とする請求項１乃至４のいずれかに記載の動画合成装置。
前記第１撮像部と前記第２撮像部の撮影方向は互いに逆向きであることを特徴とする請求項１乃至５のいずれかに記載の動画合成装置。
実写動画にアバターを合成した拡張現実動画を生成する動画合成方法であって、
コンピュータによる、
実写動画を撮影する第１撮像部の実空間に対応した座標系における位置および向きを検出するステップと、
操作者を撮影する第２撮像部の撮影した画像に基づいてアバターを制御するステップと、
前記第１撮像部の移動に合わせて前記アバターの前記座標系における位置を移動させるステップと、
前記座標系の所定位置に前記アバターを配置して前記第１撮像部の撮影した前記実写動画に前記アバターを合成するステップと、
を有することを特徴とする動画合成方法。
実写動画にアバターを合成した拡張現実動画を生成する動画合成プログラムであって、
実写動画を撮影する第１撮像部の実空間座標系における位置および向きを検出する処理と、
操作者を撮影する第２撮像部の撮影した画像に基づいてアバターを制御する処理と、
前記第１撮像部の移動に合わせて前記アバターの実空間に対応した座標系における位置を移動させる処理と、
前記座標系の所定位置に前記アバターを配置して前記第１撮像部の撮影した前記実写動画に前記アバターを合成する処理と、
をコンピュータに実行させることを特徴とする動画合成プログラム。