JP2021006977A

JP2021006977A - コンテンツ制御システム、コンテンツ制御方法、およびコンテンツ制御プログラム

Info

Publication number: JP2021006977A
Application number: JP2019121263A
Authority: JP
Inventors: 量生川上; Kazuo Kawakami; 尚小嶋; Takashi Kojima; 寛明齊藤; Hiroaki Saito
Original assignee: Dwango Co Ltd
Current assignee: Dwango Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2021-01-21
Anticipated expiration: 2039-06-28
Also published as: JP6683864B1

Abstract

【課題】アバターを用いた表現の視覚効果を高めること。【解決手段】一実施形態に係るコンテンツ制御システムは、少なくとも一つのプロセッサを備える。コンテンツ制御システムは、教師が授業を行う場面を写した原画像データを取得し、原画像データに基づいて、教師の動作を示すモーションデータを生成し、モーションデータに基づいて、教師に対応するアバターの仕様を決定し、決定された仕様に基づくアバターを教師とは異なる位置に配置することで、授業を受ける生徒のための教育用コンテンツデータを生成し、生成された教育用コンテンツデータを出力する。【選択図】図４

Description

本開示の一側面はコンテンツ制御システム、コンテンツ制御方法、およびコンテンツ制御プログラムに関する。

仮想オブジェクトの一例であるアバターは様々なコンピュータシステムで用いられている。例えば、特許文献１には、講師のアバターを表示する学習システムが記載されている。講師用機器には、頭部に搭載するディスプレイで画面が空中に浮かんでいるように表示されるＨＭＤと、手を包むように装備して指の位置や動きを電気信号に変換する入力装置であるグローブデバイス（サイバーグローブ）とが接続される。グローブデバイス、ジョイパッド、キーボード、マウスなどからの入力信号により、仮想空間内での講師の化身として描画されるアバターの動作が制御される。

特開２００９−１４５８８３号公報

視聴者をコンテンツに惹きつけるために、アバターを用いた表現の視覚効果を高めることが望まれている。

本開示の一側面に係るコンテンツ制御システムは、少なくとも一つのプロセッサを備える。少なくとも一つのプロセッサうちの少なくとも一つは、教師が授業を行う場面を写した原画像データを取得する。少なくとも一つのプロセッサのうちの少なくとも一つは、原画像データに基づいて、教師の動作を示すモーションデータを生成する。少なくとも一つのプロセッサのうちの少なくとも一つが、モーションデータに基づいて、教師に対応するアバターの仕様を決定する。少なくとも一つのプロセッサのうちの少なくとも一つは、決定された仕様に基づくアバターを教師とは異なる位置に配置することで、授業を受ける生徒のための教育用コンテンツデータを生成する。少なくとも一つのプロセッサのうちの少なくとも一つは、生成された教育用コンテンツデータを出力する。

このような側面においては、対応し合う教師およびアバターを表現する教育用コンテンツデータが生成される。特許文献１に記載されていない構成を有するこの教育用コンテンツデータを用いることで該コンテンツの視覚効果を高めることができ、ひいては、視聴者をコンテンツに惹きつけることが期待できる。

本開示の一側面によれば、アバターを用いた表現の視覚効果を高めることができる。

実施形態に係るコンテンツ配信システム（コンテンツ制御システム）の適用の一例を示す図である。実施形態に係るコンテンツ配信システムに関連するハードウェア構成の一例を示す図である。教師端末（配信者端末）の利用場面の一例を示す図である。実施形態に係るコンテンツ配信システムに関連する機能構成の一例を示す図である。教育用コンテンツの表示モードの選択の一例を示すフローチャートである。複合モードおよび仮想モードでの教育コンテンツデータの出力の一例を示すフローチャートである。アバターの動作を決める一例を示す図である。実写モードでの教育用コンテンツの一例を示す図である。複合モードでの教育用コンテンツの一例を示す図である。複合モードでの教育用コンテンツの別の例を示す図である。仮想モードでの教育用コンテンツの一例を示す図である。コンテンツの提供の様々な例を示すシーケンス図である。教師端末上に表示される補助画像の例を示す図である。

以下、添付図面を参照しながら本開示での実施形態を詳細に説明する。なお、図面の説明において同一または同等の要素には同一の符号を付し、重複する説明を省略する。

［システムの概要］
実施形態に係るコンテンツ制御システムは、ユーザに向けて配信されるコンテンツを制御するコンピュータシステムである。コンテンツとは、コンピュータまたはコンピュータシステムによって提供され、人が認識可能な情報のことをいう。コンテンツを示す電子データのことをコンテンツデータという。コンテンツの表現形式は限定されず、例えば、コンテンツは画像（例えば、写真、映像など）、文書、音声、音楽、またはこれらの中の任意の２以上の要素の組合せによって表現されてもよい。コンテンツは様々な態様の情報伝達またはコミュニケーションのために用いることができ、例えば、ニュース、教育、医療、ゲーム、チャット、商取引、講演、セミナー、研修などの様々な場面または目的で利用され得る。コンテンツの制御とは、ユーザにコンテンツを提供するために実行される処理のことをいう。コンテンツの制御は、コンテンツデータの生成、編集、記憶、および配信の少なくとも一つを含んでもよいし、これら以外の処理を含んでもよい。

本実施形態ではコンテンツは少なくとも画像を用いて表現される。コンテンツを示す画像を「コンテンツ画像」という。コンテンツ画像とは、人が視覚を通して何らかの情報を認識することができる像のことをいう。コンテンツ画像は動画像（映像）でもよいし静止画でもよい。コンテンツ画像を示す電子データをコンテンツ画像データという。

コンテンツ制御システムはコンテンツ画像データを視聴者に提供することで、配信者から視聴者への情報伝達を支援する。配信者とは視聴者に情報を伝えようとする人であり、すなわち、コンテンツの発信者である。視聴者とはその情報を得ようとする人であり、すなわち、コンテンツの利用者である。一例では、配信者は視聴者にとって遠隔地に位置する。配信者は自らコンテンツを配信することができ、例えば、配信者はその配信のために、自身を含む領域を撮影する。コンテンツ制御システムは、配信者が映った画像のデータ（画像データ）を取得し、その画像データを解析することで配信者の動作を特定し、その動作を表現するアバターを含むコンテンツ画像データを生成する。本開示では、配信者の動作を特定するために解析される画像（すなわち、配信者が映った画像）のことを「原画像」といい、この原画像を示す電子データを原画像データという。原画像はコンテンツを生成するための素材であるといえる。

一例では、アバターは配信者に代わってコンテンツ画像内に映されてもよく、この場合には、コンテンツ画像を見る視聴者は配信者ではなくアバターを視認する。別の例では、アバターは配信者と共にコンテンツ画像内に映されてもよい。視聴者はコンテンツ画像を見ることで、拡張現実（ＡｕｇｕｍｅｎｔｅｄＲｅａｌｉｔｙ（ＡＲ））、仮想現実（ＶｉｒｔｕａｌＲｅａｌｉｔｙ（ＶＲ））、または複合現実（ＭｉｘｅｄＲｅａｌｉｔｙ（ＭＲ））を体験することができる。本実施形態では、コンテンツ制御システムは視聴者の要求に応じて、または自動的に、コンテンツの表示モードを切り替えることができる。表示モードとは、コンテンツを表示する方法または形式のことをいう。

コンテンツ制御システムは画像データを解析することで配信者の動作を特定するので、配信者はボディストラップ、グローブなどのような、モーションキャプチャのための装置を装着する必要がない。

アバターとは、コンピュータによって表現されるユーザの分身である。アバターは、現実世界には実際に存在せずコンピュータシステム上でのみ表現される物体である仮想オブジェクトの一種である。アバターは、撮影された人そのものではなく（すなわち、原画像で示されるユーザそのものではなく）、原画像とは独立した画像素材を用いて、２次元または３次元のコンピュータグラフィック（ＣＧ）によって表現される。アバターの表現方法は限定されない。例えば、アバターはアニメーション素材を用いて表現されてもよいし、実写画像に基づいて本物に近いように表現されてもよい。アバターはコンテンツ制御システムのユーザ（例えば、教師または生徒）によって自由に選択されてもよい。

一例では、コンテンツ画像はアバターが存在する仮想空間を表現する。仮想空間とは、コンピュータ上に表示される画像によって表現される仮想の２次元または３次元の空間のことをいう。見方を変えると、コンテンツ画像は、仮想空間内に設定された仮想カメラから見える風景を示す画像であるといえる。仮想カメラは、コンテンツ画像を見るユーザの視線に対応するように仮想空間内に設定される。

一例では、コンテンツ制御システムはコンテンツを視聴者に向けて配信してもよい。配信とは、通信ネットワークまたは放送ネットワークを経由して情報をユーザに向けて送信する処理のことをいう。本開示では、配信は放送を含み得る概念である。本開示では、コンテンツを配信する機能を備えるコンテンツ制御システムをコンテンツ配信システムともいう。

コンテンツ制御システムによるコンテンツの生成および配信の手法は限定されない。例えば、コンテンツ制御システムはライブコンテンツを制御してもよい。この場合には、コンテンツ制御システムは配信者端末から提供されるリアルタイムの映像を処理することでコンテンツデータを生成し、そのコンテンツデータを視聴者端末に向けてリアルタイムに送信する。これはインターネット生放送の一態様であるといえる。あるいは、コンテンツ制御システムは、過去に撮影された映像を処理することでコンテンツデータを生成してもよい。このコンテンツデータは視聴者端末に向けて送信されてもよいし、データベースなどの記憶装置にいったん格納されてもよい。コンテンツ制御システムは、リアルタイム配信後の所与の期間においてコンテンツを視聴することが可能なタイムシフトのために用いられてもよい。あるいは、コンテンツ制御システムは、任意のタイミングでコンテンツを視聴することが可能なオンデマンド配信のために用いられてもよい。上述したように、コンテンツ画像は静止画でもよいので、コンテンツ制御システム（コンテンツ配信システム）は静止画のコンテンツをリアルタイムにまたは後で配信するために用いられてもよい。

本開示において、データまたは情報を或るコンピュータ“に向けて送信する”との表現は、該コンピュータに最終的にデータまたは情報を届けるための送信を意味する。この表現は、その送信において別のコンピュータまたは通信装置がデータまたは情報を中継する場合も含む意味であることに留意されたい。

上述したようにコンテンツの目的および利用場面は限定されない。本実施形態では、コンテンツの例として教育用コンテンツを示し、コンテンツ制御システムが教育用コンテンツデータを制御するものとする。教育用コンテンツとは、教師が生徒に向けて授業を行うために用いられるコンテンツである。教師とは学業、技芸などを教える人のことをいい、生徒とはその教えを受ける人のことをいう。教師は配信者の一例であり、生徒は視聴者の一例である。教師は教員免許を持つ人であってもよいし、教員免許を持たない人でもよい。授業とは、教師が生徒に学業、技芸などを教えることをいう。教師および生徒のそれぞれについて年齢および所属は限定されず、したがって、教育用コンテンツの目的および利用場面も限定されない。例えば、教育用コンテンツは、保育園、幼稚園、小学校、中学校、高等学校、大学、大学院、専門学校、予備校、オンライン学校などの各種の学校で用いられてよいし、学校以外の場所または場面で用いられてもよい。これに関連して、教育用コンテンツは、幼児教育、義務教育、高等教育、生涯学習などの様々な目的で用いられ得る。

［システムの構成］
図１は、実施形態に係るコンテンツ配信システム（コンテンツ制御システム）１の適用の一例を示す図である。本実施形態では、コンテンツ配信システム１はサーバ１０を備える。サーバ１０は、コンテンツ画像データを生成および配信するコンピュータである。サーバ１０は通信ネットワークＮを介して少なくとも一つの生徒端末２０と接続する。図１は２台の生徒端末２０を示すが、生徒端末２０の台数は何ら限定されない。さらに、サーバ１０は通信ネットワークＮを介して、教師端末３０、原画像データベース４０、およびコンテンツデータベース５０のうちの少なくとも一つと接続してもよい。通信ネットワークＮの構成は限定されない。例えば、通信ネットワークＮはインターネットを含んで構成されてもよいし、イントラネットを含んで構成されてもよい。

生徒端末２０は生徒によって用いられるコンピュータであり、視聴者端末（視聴者によって用いられるコンピュータ）の一例である。生徒端末２０は、コンテンツ配信システム１にアクセスしてコンテンツデータを受信および表示する機能を有する。生徒端末２０は映像を撮影および送信する機能を有してもよい。生徒端末２０の種類および構成は限定されない。例えば、生徒端末２０は高機能携帯電話機（スマートフォン）、タブレット端末、ウェアラブル端末（例えば、ヘッドマウントディスプレイ（ＨＭＤ）、スマートグラスなど）、ラップトップ型パーソナルコンピュータ、携帯電話機などの携帯端末でもよい。あるいは、生徒端末２０はデスクトップ型パーソナルコンピュータなどの据置型端末でもよい。あるいは、生徒端末２０は、部屋に設置された大型スクリーンを備える教室システムであってもよい。

教師端末３０は教師によって用いられるコンピュータであり、配信者端末（配信者によって用いられるコンピュータ）の一例である。一例では、教師端末３０は生徒端末２０にとって遠隔地に位置する。教師端末３０は、映像を撮影する機能と、コンテンツ配信システム１にアクセスしてその映像を示す電子データ（映像データ）を送信する機能とを有する。教師端末３０は映像またはコンテンツを受信および表示する機能を有してもよい。教師端末３０の種類および構成は限定されない。例えば、教師端末３０は映像を撮影、収録、および送信する機能を有する撮影システムであってもよい。あるいは、教師端末３０は高機能携帯電話機（スマートフォン）、タブレット端末、ウェアラブル端末（例えば、ヘッドマウントディスプレイ（ＨＭＤ）、スマートグラスなど）、ラップトップ型パーソナルコンピュータ、携帯電話機などの携帯端末でもよい。あるいは、教師端末３０はデスクトップ型パーソナルコンピュータなどの据置型端末でもよい。

教室の管理者または生徒は生徒端末２０を操作してコンテンツ配信システム１にログインし、これにより生徒は教育用コンテンツを視聴することができる。教師は教師端末３０を操作してコンテンツ配信システム１にログインし、これにより自分の授業を生徒に提供することが可能になる。本実施形態では、コンテンツ配信システム１のユーザが既にログインしていることを前提とする。

原画像データベース４０は原画像データを記憶する装置である。原画像データは映像または静止画を示す。原画像データは、サーバ１０、教師端末３０、または別のコンピュータなどの任意のコンピュータによって原画像データベース４０に格納される。原画像データベース４０は過去に撮影された原画像を記憶するライブラリであるといえる。

コンテンツデータベース５０は教育用コンテンツデータを記憶する装置である。教育用コンテンツデータは映像または静止画を示す。コンテンツデータベース５０は教育用コンテンツのライブラリであるといえる。

原画像データベース４０およびコンテンツデータベース５０のそれぞれの設置場所は限定されない。例えば、原画像データベース４０またはコンテンツデータベース５０は、コンテンツ配信システム１とは別のコンピュータシステム内に設けられてもよいし、コンテンツ配信システム１の構成要素であってもよい。一つのデータベースが原画像データベース４０およびコンテンツデータベース５０の双方として機能してもよい。

図２はコンテンツ配信システム１に関連するハードウェア構成の一例を示す図である。図２は、サーバ１０として機能するサーバコンピュータ１００と、生徒端末２０または教師端末３０として機能する端末コンピュータ２００とを示す。

一例として、サーバコンピュータ１００はハードウェア構成要素として、プロセッサ１０１、主記憶部１０２、補助記憶部１０３、および通信部１０４を備える。

プロセッサ１０１は、オペレーティングシステムおよびアプリケーションプログラムを実行する演算装置である。プロセッサの例としてＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）およびＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）が挙げられるが、プロセッサ１０１の種類はこれらに限定されない。例えば、プロセッサ１０１はセンサおよび専用回路の組合せでもよい。専用回路はＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）のようなプログラム可能な回路でもよいし、他の種類の回路でもよい。

主記憶部１０２は、サーバ１０を実現するためのプログラム、プロセッサ１０１から出力された演算結果などを記憶する装置である。主記憶部１０２は例えばＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）およびＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のうちの少なくとも一つにより構成される。

補助記憶部１０３は、一般に主記憶部１０２よりも大量のデータを記憶することが可能な装置である。補助記憶部１０３は例えばハードディスク、フラッシュメモリなどの不揮発性記憶媒体によって構成される。補助記憶部１０３は、サーバコンピュータ１００をサーバ１０として機能させるためのサーバプログラムＰ１と各種のデータとを記憶する。例えば、補助記憶部１０３はアバターなどの仮想オブジェクトと仮想空間とのうちの少なくとも一つに関するデータを記憶してもよい。本実施形態では、コンテンツ制御プログラムはサーバプログラムＰ１として実装される。

通信部１０４は、通信ネットワークＮを介して他のコンピュータとの間でデータ通信を実行する装置である。通信部１０４は例えばネットワークカードまたは無線通信モジュールにより構成される。

サーバ１０の各機能要素は、プロセッサ１０１または主記憶部１０２の上にサーバプログラムＰ１を読み込ませてプロセッサ１０１にそのプログラムを実行させることで実現される。サーバプログラムＰ１は、サーバ１０の各機能要素を実現するためのコードを含む。プロセッサ１０１はサーバプログラムＰ１に従って通信部１０４を動作させ、主記憶部１０２または補助記憶部１０３におけるデータの読み出しおよび書き込みを実行する。このような処理によりサーバ１０の各機能要素が実現される。

サーバ１０は一つまたは複数のコンピュータにより構成され得る。複数のコンピュータが用いられる場合には、通信ネットワークを介してこれらのコンピュータが互いに接続されることで、論理的に一つのサーバ１０が構成される。

一例として、端末コンピュータ２００はハードウェア構成要素として、プロセッサ２０１、主記憶部２０２、補助記憶部２０３、および通信部２０４、入力インタフェース２０５、出力インタフェース２０６、および撮像部２０７を備える。

プロセッサ２０１は、オペレーティングシステムおよびアプリケーションプログラムを実行する演算装置である。プロセッサ２０１は例えばＣＰＵまたはＧＰＵであり得るが、プロセッサ２０１の種類はこれらに限定されない。

主記憶部２０２は、生徒端末２０または教師端末３０を実現させるためのプログラム、プロセッサ２０１から出力された演算結果などを記憶する装置である。主記憶部２０２は例えばＲＯＭおよびＲＡＭのうちの少なくとも一つにより構成される。

補助記憶部２０３は、一般に主記憶部２０２よりも大量のデータを記憶することが可能な装置である。補助記憶部２０３は例えばハードディスク、フラッシュメモリなどの不揮発性記憶媒体によって構成される。補助記憶部２０３は、端末コンピュータ２００を生徒端末２０または教師端末３０として機能させるためのクライアントプログラムＰ２と各種のデータとを記憶する。例えば、補助記憶部２０３はアバターなどの仮想オブジェクトと仮想空間とのうちの少なくとも一つに関するデータを記憶してもよい。

通信部２０４は、通信ネットワークＮを介して他のコンピュータとの間でデータ通信を実行する装置である。通信部２０４は例えばネットワークカードまたは無線通信モジュールにより構成される。

入力インタフェース２０５は、ユーザの操作または動作に基づいてデータを受け付ける装置である。例えば、入力インタフェース２０５は、キーボード、操作ボタン、ポインティングデバイス、マイクロフォン、センサ、およびカメラのうちの少なくとも一つによって構成される。キーボードおよび操作ボタンはタッチパネル上に表示されてもよい。入力インタフェース２０５の種類が限定されないことに対応して、入力されるデータは限定されない。例えば、入力インタフェース２０５はキーボード、操作ボタン、またはポインティングデバイスによって入力または選択されたデータを受け付けてもよい。あるいは、入力インタフェース２０５は、マイクロフォンにより入力された音声データを受け付けてもよい。あるいは、入力インタフェース２０５はカメラによって撮影された画像データ（例えば、映像データまたは静止画データ）を受け付けてもよい。

出力インタフェース２０６は、端末コンピュータ２００で処理されたデータを出力する装置である。例えば、出力インタフェース２０６はモニタ、タッチパネル、ＨＭＤおよびスピーカのうちの少なくとも一つによって構成される。モニタ、タッチパネル、ＨＭＤなどの表示装置は、処理されたデータを画面上に表示する。スピーカは、処理された音声データで示される音声を出力する。

撮像部２０７は、現実世界を写した画像を撮影する装置であり、具体的にはカメラである。撮像部２０７は動画像（映像）を撮影してもよいし静止画（写真）を撮影してもよい。動画像を撮影する場合には、撮像部２０７は映像信号を所与のフレームレートに基づいて処理することで、時系列に並ぶ一連のフレーム画像を動画像として取得する。撮像部２０７は入力インタフェース２０５としても機能し得る。

生徒端末２０または教師端末３０の各機能要素は、プロセッサ２０１または主記憶部２０２の上にクライアントプログラムＰ２を読み込ませてそのプログラムを実行させることで実現される。クライアントプログラムＰ２は、生徒端末２０または教師端末３０の各機能要素を実現するためのコードを含む。プロセッサ２０１はクライアントプログラムＰ２に従って通信部２０４、入力インタフェース２０５、出力インタフェース２０６、または撮像部２０７を動作させ、主記憶部２０２または補助記憶部２０３におけるデータの読み出しおよび書き込みを行う。この処理により生徒端末２０または教師端末３０の各機能要素が実現される。

サーバプログラムＰ１およびクライアントプログラムＰ２の少なくとも一つは、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリなどの有形の記録媒体に固定的に記録された上で提供されてもよい。あるいは、これらのプログラムの少なくとも一つは、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。これらのプログラムは別々に提供されてもよいし、一緒に提供されてもよい。

図３は教師端末３０の利用場面の一例を示す図である。この例では、教師端末３０はプロセッサ２０１、主記憶部２０２、補助記憶部２０３、通信部２０４などを収容するコンピュータ本体２１０と、入力インタフェース２０５として機能する撮像部２０７およびマイクロフォン２１１と、出力インタフェース２０６として機能するモニタ２１２とを備える。教師９０は必要に応じてボード（例えば、ホワイトボード、黒板、電子ホワイトボード、電子黒板など）９１上に文字、図形などを書くかまたは表示させながら授業を行う。撮像部２０７はその授業の場面を撮影することで原画像を得る。教師９０の音声（発話）はマイクロフォン２１１によって記録される。教師端末３０は撮影された映像にその音声が関連付けられた映像データを取得することができる。教師９０はモニタ２１２上に映された画像（例えば、後述の補助画像）を見ながら授業を行ってもよい。

図４はコンテンツ配信システム１に関連する機能構成の一例を示す図である。サーバ１０は機能要素としてコンテンツ管理部１１、画像取得部１２、モーション特定部１３、コンテンツ生成部１４、出力部１５、および補助画像生成部１６を備える。コンテンツ管理部１１は教育用コンテンツの生成および出力を管理する機能要素であり、画像取得部１２、モーション特定部１３、コンテンツ生成部１４、および出力部１５を含んで構成される。画像取得部１２は原画像データを取得する機能要素である。モーション特定部１３はその原画像データから教師の動作を特定する機能要素である。コンテンツ生成部１４は、教師に対応するアバターを含む教育用コンテンツデータを生成する機能要素である。出力部１５は、その教育用コンテンツデータを出力する機能要素である。補助画像生成部１６は、生徒の様子を示す補助画像の電子データである補助画像データを生成してその補助画像データを教師端末３０上に向けて送信する機能要素である。補助画像は動画像（映像）でもよいし静止画でもよい。補助画像によって教師は授業中の生徒の様子を視認することができる。

生徒端末２０は機能要素として要求部２１、受信部２２、表示制御部２３、および送信部２４を備える。要求部２１は、教育用コンテンツの表示モードの切り替えをサーバ１０に要求する機能要素である。受信部２２は教育用コンテンツデータを受信する機能要素である。表示制御部２３はその教育用コンテンツデータを処理して教育用コンテンツを表示装置上に表示する機能要素である。送信部２４は撮像部２０７によって生成された画像データをサーバ１０に向けて送信する機能要素である。

教師端末３０は機能要素として送信部３１、受信部３２、および表示制御部３３を備える。送信部３１は撮像部２０７によって生成された画像データをサーバ１０に向けて送信する機能要素である。受信部３２は補助画像データを受信する機能要素である。表示制御部３３はその補助画像データを処理して補助画像を表示装置上に表示する機能要素である。

［システムの動作］
コンテンツ配信システム１の動作（より具体的にはサーバ１０の動作）を説明するとともに、本実施形態に係るコンテンツ制御方法（またはコンテンツ配信方法）について説明する。以下では画像処理に関して特に説明し、音声データの処理に関しては詳細な説明を省略する。

図５は、教育用コンテンツの表示モードの選択の一例を処理フローＳ１として示すフローチャートである。ステップＳ１１では、コンテンツ管理部１１が次の表示モード（すなわち、切替後の表示モード）を特定する。表示モードの切替方法は限定されず、これに関連して、コンテンツ管理部１１は次の表示モードを任意の手法で特定してよい。例えば、表示モードは生徒端末２０での操作に応答して切り替えられてもよい。この場合には、生徒は教育用コンテンツの表示モードを切り替えるための操作を生徒端末２０上で行う。生徒端末２０では要求部２１がその操作に応答して切替要求をサーバ１０に向けて送信する。切替要求は、表示モードの切替を要求するデータ信号であり、次の表示モードを示す。コンテンツ管理部１１はその切替要求を受信して次の表示モードを特定する。あるいは、表示モードはユーザからの要求を受け付けることなく自動的に切り替えられてもよい。例えば、コンテンツ管理部１１は、教育用コンテンツを制御するために予め設定されたシナリオを参照することで次の表示モードを特定してもよい。

ステップＳ１２に示すように、次の表示モードが何かによって後続の処理が変わる。表示モードの個数および具体的な形式は限定されず、任意の方針で設定されてよい。本実施形態では一例として、コンテンツ配信システム１が実写モード、複合モード、および仮想モードという３種類の表示モードを提供可能であるとする。実写モードは、実写画像である原画像をそのまま表示する表現形式であり、したがって、この場合には教育用コンテンツはアバターを含まない。複合モードは、教師およびアバターの双方が視認可能である画像を表示する表現形式であり、この場合にはアバターが教師とは異なる位置に表示される。「教師およびアバターの双方が視認可能である」とは、教育用コンテンツを見た人が、教師およびアバターの双方の姿を視覚的に明確に認識することができることをいう。仮想モードは、教師は視認不可だがアバターは視認可能である画像を表示する表現形式である。「教師は視認不可だがアバターは視認可能である」とは、教育用コンテンツを見た人が、教師の姿を視覚的に明確にまたは全く認識することはできないが、アバターの姿は視覚的に明確に認識できることをいう。

実写モードが指定された場合には処理はステップＳ１３に進む。ステップＳ１３では、コンテンツ管理部１１が原画像データをそのまま教育用コンテンツデータとして出力する。具体的には、画像取得部１２が原画像データを取得し、出力部１５がその原画像データを教育用コンテンツデータとして出力する。原画像データの取得方法は限定されない。例えば、画像取得部１２は教師端末３０から送られてきた画像データを原画像データとして受信してもよい。あるいは、画像取得部１２は生徒端末２０からの要求信号に応答して、その要求信号に対応する画像（例えば、生徒が希望する授業の映像の少なくとも一部）を原画像データベース４０から原画像データとして読み出してもよい。教育用コンテンツデータの出力方法も限定されない。例えば、出力部１５は教育用コンテンツデータを、１以上の生徒端末２０に向けて送信してもよいし、コンテンツデータベース５０に格納してもよい。あるいは、出力部１５は教育用コンテンツデータを、生徒端末２０に向けて送信するとともにコンテンツデータベース５０に格納してもよい。

複合モードが指定された場合には処理はステップＳ１４に進む。ステップＳ１４では、コンテンツ管理部１１が、教師およびアバターの双方が視認可能である教育用コンテンツデータを出力する。

仮想モードが指定された場合には処理はステップＳ１５に進む。ステップＳ１５では、コンテンツ管理部１１が、教師は視認不可だがアバターは視認可能である教育用コンテンツデータを出力する。

図６を参照しながらステップＳ１４，Ｓ１５の詳細を説明する。図６は、複合モードおよび仮想モードでの教育コンテンツデータの出力の一例を示すフローチャートである。複合モードと仮想モードとの相違点はアバターの配置方法であり、双方の処理で共通する部分が多いので、図６を参照しながら複合モードおよび仮想モードの双方について説明する。

ステップＳ１０１では、画像取得部１２が原画像データを取得する。ステップＳ１３と同様に、原画像データの取得方法は限定されない。したがって、画像取得部１２は原画像データを、教師端末３０から受信してもよいし、原画像データベース４０から読み出してもよい。

ステップＳ１０２では、モーション特定部１３がその原画像データに基づいて教師の動作を特定する。人の動作とは、人の姿勢、表情、または身体の動きのことをいい、口の動きを伴う発声も含み得る。一例では、モーション特定部１３は教師が表示されている領域を原画像から特定し、該領域における教師の２次元の動き（例えば、姿勢、表情）を特定し、その動きに対応する複数のジョイントの位置を特定し、それぞれのジョイントの深度を推定する。姿勢を規定するジョイントは教師の身体の部位に対応する。例えば、モーション特定部１３は、関節と顔の主要な部位（眉毛、目、顎など）とにジョイントを設定してもよいし、これらとは別の箇所にジョイントを設定してもよい。

モーション特定部１３は隣り合うジョイントの位置関係と、身体運動の合理性および整合性に基づいて予め定められたルール（動作ルール）とに基づいて、カメラのレンズ中心に対するそれぞれのボーン（隣り合うジョイントを結ぶ仮想線）の向きおよび角度を推定する。モーション特定部１３はこの推定によって教師の３次元の動作を特定することができる。身体運動の合理性および整合性とは、人間の可能な動きのことをいう。例えば、その合理性および整合性は、肘および膝は或る一方向には曲がるがその逆方向には曲がらないという制約、首に対する頭の動きの範囲、肩に対する上腕の動きの範囲、指の可動範囲などを含み得る。教師の動作を特定する手法は上記のものに限定されず、モーション特定部１３は他の手法によって教師の動作を特定してもよい。

ステップＳ１０３で示すように、モーション特定部１３は原画像データに基づいて、教師（配信者）の動作に関連する現実オブジェクト（これを「関連現実オブジェクト」という）の状態を特定してもよい。現実オブジェクトとは、人が知覚可能なもののことをいい、例えば、物、人、音声などの様々なオブジェクトを含み得る。例えば、現実オブジェクトとは、原画像により映された物体、または、原画像に関連付けられた音声であり得る。教師も現実オブジェクトの一例であるといえる。現実オブジェクトの状態とは、人の知覚によって把握可能な現実オブジェクトの様子のことをいい、その状態は例えば、現実オブジェクトの形状、位置、動き（動作）、音、および声のうちの少なくとも一つを含んでもよい。ステップＳ１０３は省略されてもよい。関連現実オブジェクトとは、配信者の動作に関連して変化し、動作し、出現し、または消える現実オブジェクトのことをいう。ただし、本開示では関連現実オブジェクトは配信者（教師）を含まないものとする。関連現実オブジェクトの種類は限定されない。教師に対応する関連現実オブジェクトの例として、教師が手に取ったり机に置いたりする教科書と、教師による記述（例えば、教師がボード上に書いたりまたは消したりする文字、文字列、記号、または絵）と、教師の発話とのうちの少なくとも一つが挙げられる。モーション特定部１３は一または複数の関連現実オブジェクトを任意の画像解析手法によって特定してよい。

ステップＳ１０４では、モーション特定部１３がローデータを生成する。ローデータとは、特定された教師（配信者）の動作を少なくとも示す電子データのことをいい、ステップＳ１０３が実行された場合には一または複数の関連現実オブジェクトの状態をさらに示す。本実施形態では、教師（配信者）の動作を示すデータを特にモーションデータともいう。ローデータはモーションデータを含む。ローデータおよびモーションデータのいずれについてもデータ構造は限定されず、任意に設計されてよい。例えば、モーション特定部１３は、教師の３次元の動き（例えば、姿勢、表情）を示す複数のジョイントおよび複数のボーンに関する情報と教師の識別子（ＩＤ）とをモーションデータに含めてもよい。ジョイントおよびボーンに関する情報の例として、個々のジョイントの３次元座標、隣り合うジョイントの組合せ（すなわちボーン）とが挙げられるが、この情報の構成はこれに限定されず、任意に設計されてよい。モーション特定部１３は教師の発話および記述の少なくとも一方をテキストに変換してそのテキストをローデータまたはモーションデータに含めてもよい。関連現実オブジェクトを示す情報の構成も限定されず、例えばモーション特定部１３はそれぞれの関連現実オブジェクトについて、識別子（ＩＤ）と状態（例えば形状、位置、文字列など）を示す情報とをローデータに含めてもよい。

ステップＳ１０５では、コンテンツ生成部１４が、教師に対応するアバターのモデルデータを取得する。モデルデータの取得方法は限定されない。例えば、コンテンツ生成部１４は予め設定されたアバター、あるいはコンテンツ配信システム１のユーザ（例えば教師または生徒）によって指定されたアバターのモデルデータを補助記憶部１０３から読み出してもよい。

モデルデータとは、仮想オブジェクトの仕様を規定するために用いられる電子データのことをいう。仮想オブジェクトの仕様とは、仮想オブジェクトを制御するための取り決めまたは方法のことをいう。例えば、仕様は仮想オブジェクトの構成（例えば形状および寸法）、動作、および音声のうちの少なくとも一つを含む。アバターのモデルデータのデータ構造は限定されず、任意に設計されてよい。例えば、モデルデータはアバターを構成する複数のジョイントおよび複数のボーンに関する情報と、アバターの外観デザインを示すグラフィックデータと、アバターの属性と、アバターの識別子（ＩＤ）とを含んでもよい。ジョイントおよびボーンに関する情報の例として、個々のジョイントの３次元座標と、隣り合うジョイントの組合せ（すなわちボーン）とが挙げられるが、この情報の構成はこれに限定されず、任意に設計されてよい。アバターの属性とは、アバターを特徴付けるために設定される任意の情報であり、例えば公称寸法、声質、または性格を含み得る。

ステップＳ１０６で示すように、コンテンツ生成部１４は一または複数の関連現実オブジェクトのそれぞれに対応する仮想オブジェクト（これを「関連仮想オブジェクト」という）のモデルデータを取得してもよい。ステップＳ１０３が実行されない場合にはステップＳ１０６も省略される。関連仮想オブジェクトは任意の物体を表現してよい。例えば、関連仮想オブジェクトは、現実世界には存在しない物体（例えば、架空のキャラクタ）を表現してもよいし、現実世界に存在する自然物または人工物などを模したものを表現してもよい。あるいは、関連仮想オブジェクトは関連現実オブジェクトに視覚効果を与えるための表現であってもよい。例えば、関連オブジェクトは、教師が用いる教科書に対応する本またはキャラクタでもよいし、教師がボード上に書いた文字列を装飾するためのグラフィック表現でもよいし、教師の発話のテキストに関するグラフィック表現でもよい。関連仮想オブジェクトのモデルデータのデータ構造は限定されず、意図する表現に応じて任意に設計されてよい。例えば、関連仮想オブジェクトがキャラクタであれば、そのモデルデータはアバターのものと同様のデータ構造を有してもよい。あるいは、関連仮想オブジェクトのモデルデータは、外観デザインを示すグラフィックデータのみを含んでもよい。

ステップＳ１０７では、コンテンツ生成部１４が、アバターを含む教育用コンテンツデータを生成する。ステップＳ１０３，Ｓ１０６が実行された場合には、コンテンツ生成部１４はアバターに加えて一または複数の関連仮想オブジェクトをさらに含む教育用コンテンツデータを生成し得る。

一例では、コンテンツ生成部１４は原画像データに基づいて仮想空間を設定する。仮想空間の設定は、仮想空間内での仮想カメラの位置を特定する処理と、原画像に映っている１以上の現実オブジェクトのそれぞれの位置および寸法を特定する処理とを含み得る。コンテンツ生成部１４は仮想カメラの光軸方向における各現実オブジェクトの位置、または現実オブジェクト間の位置関係を算出し、この計算結果に基づいて仮想空間を設定してもよい。あるいは、コンテンツ生成部１４は原画像を機械学習などの手法により解析することで仮想空間を設定してもよい。一例では、原画像で示される場面は２次元のスクリーンのように仮想空間内に設定されてもよい。

仮想空間を設定した後に、コンテンツ生成部１４は表示モードに応じてアバターおよび教師に関する制御を実行する。コンテンツ生成部１４はその仮想空間内にアバターを配置し、一または複数の関連仮想オブジェクトが存在する場合にはそれぞれの関連仮想オブジェクトをさらに配置する。「（アバター、関連仮想オブジェクトなどの）オブジェクトを配置する」とは、オブジェクトを決められた位置に置くことをいい、オブジェクトの位置の変更を含む概念である。

次の表示モードが複合モードである場合には、コンテンツ生成部１４はアバターおよび教師の双方が視認可能である教育用コンテンツデータを生成する。具体的には、コンテンツ生成部１４はアバターを教師とは異なる位置に配置することで、アバターおよび教師の双方を視認可能にする。「アバターを教師とは異なる位置に配置する」とは、教育コンテンツが表示された際にそのコンテンツ画像においてアバターおよび教師の双方が視認可能になるように配置することをいう。コンテンツ生成部１４はコンテンツ画像上でアバターが教師と重ならないようにアバターを配置してもよい。あるいは、コンテンツ生成部１４は、コンテンツ画像上でアバターが教師の一部と重なるが生徒が教師を視認できるようにアバターを配置してもよい。

一例では、コンテンツ生成部１４は仮想カメラからアバターおよび教師の双方を写すことができるように、仮想空間においてアバターを教師とは異なる位置に配置してもよい。

別の例では、コンテンツ生成部１４はアバターが映るウィンドウ（アバターウィンドウまたは第１ウィンドウ）と教師が映るウィンドウ（教師ウィンドウまたは第２ウィンドウ）とを含む画面を生成することで、アバターを教師とは異なる位置に配置してもよい。例えば、コンテンツ生成部１４は、アバターを含む仮想空間を示すアバターウィンドウと、教師が映った実世界を示す教師ウィンドウとに画面を分割してもよい。

コンテンツ生成部１４はアバターウィンドウを、実写画像領域と仮想オブジェクトとの組合せによって表現してもよいし、実写画像領域を用いることなく仮想オブジェクトおよび仮想背景によって表現してもよい。コンテンツ生成部１４は原画像をそのまま教師ウィンドウとして設定してもよい。コンテンツ生成部１４はアバターウィンドウの面積が教師ウィンドウの面積よりも大きくなるように双方のウィンドウを設定してもよい。あるいは、コンテンツ生成部１４は、原画像（教師ウィンドウ）を仮想空間内に背景の一部として配置することで、アバターを教師とは異なる位置に配置してもよい。この場合には、原画像（教師ウィンドウ）が仮想空間内の一オブジェクトとして配置されるので、アバターと、教師が映った原画像（教師ウィンドウ）との位置関係を３次元的に規定することができる。例えば、コンテンツ生成部１４は仮想空間において原画像（教師ウィンドウ）をアバターよりも奥に位置させてもよい。コンテンツ生成部１４は教師ウィンドウの面積がアバターウィンドウの面積よりも大きくなるように双方のウィンドウを設定してもよい。

コンテンツ生成部１４は画面分割のために任意の技術を用いてよく、例えば、ピクチャ・イン・ピクチャ（Ｐｉｃｔｕｒｅ−ｉｎ−Ｐｉｃｔｕｒｅ（ＰｉｎＰ））によって画面分割を実行してもよい。

アバターウィンドウおよび教師ウィンドウを用いる場合には、コンテンツ生成部１４はアバターまたはウィンドウの表示に関する視覚効果を教育用コンテンツデータに含めてもよい。例えば、コンテンツ生成部１４はアバターウィンドウが教師ウィンドウから飛び出てくるような視覚効果を教育用コンテンツデータに含めてもよい。あるいは、コンテンツ生成部１４はアバターが教師ウィンドウ、または教師の身体から飛び出てくるような視覚効果を教育用コンテンツデータに含めてもよい。

コンテンツ生成部１４は、教師とは異なる位置に配置したアバターの各ジョイントの位置をローデータ（より具体的にはモーションデータ）に基づいて設定することで、教師に対応するアバターの仕様を決定する。「教師に対応するアバターの仕様」とは、アバターの仕様が教師の動作に従うかまたはほぼ従うことをいう。決定されるアバターの仕様の決定はアバターの動作を含んでもよく、この場合には、動作のミラーリングが実現される。教師の動作と合わせるようにアバターの各ジョイントの位置を設定することで、アバターの個々のボーンの向きおよび角度が教師の姿勢を反映する。コンテンツ生成部１４はアバターの寸法が教師の大きさと同じかまたはほぼ同じになるようにアバターの各ジョイントの位置を調整してもよい。アバターの寸法を教師の大きさと同じにすることで、アバターが教師の分身であることを視覚的にさらに強調することができる。コンテンツ生成部１４はアバターの寸法を教師と異ならせてもよい。

次の表示モードが仮想モードである場合には、コンテンツ生成部１４は、アバターは視認可能であるが教師は視認不可である教育用コンテンツデータを生成する。一例では、コンテンツ生成部１４はアバターを教師に重畳するように配置してもよい。この配置処理は、教育用コンテンツが表示装置上に表示された際に教師がアバターによって隠れるようにアバターを配置することをいう。より具体的に言い換えると、「アバターを教師に重畳するように配置する」とは、アバターを、原画像で示される場面内の教師に重畳するように配置することをいう。「教師がアバターによって隠れる」とは、教師の身体がアバターによって完全に隠れる場合だけでなく、教師の身体の一部は隠れないがほとんどがアバターによって隠れる場合も含む概念を意味することに留意されたい。例えば、教師とアバターとの間の体格差などの要因によって、教育用コンテンツ上で教師の身体がアバターからはみ出るように映ることがあり得るが、アバターを教師に重畳させる処理はこのような場合も含み得る。いずれにしても、アバターを教師に重畳させることで、生徒はコンテンツ画像上で教師を視認できなくなる。

コンテンツ生成部１４は、２次元画像においてアバターが教師に代わって表示されるように、仮想空間内にアバターを配置する。コンテンツ生成部１４はローデータ（より具体的にはモーションデータ）に基づいて、アバターの各ジョイントの位置を教師の対応する部位（例えば関節）に合わせることで、教師に対応するアバターの仕様を決定する。アバターのジョイントの位置を教師の関節に合わせることによって、アバターの個々のボーンの向きおよび角度が教師の姿勢を反映し、アバターの寸法が教師の大きさと同じかまたはほぼ同じになるように調整される。

仮想モードにおいて、コンテンツ生成部１４はアバターを教師とは異なる位置に配置し、複合モードと同様にアバターの動作および寸法を設定した上で、不鮮明化処理によって画像上の教師を視認不可にしてもよい。不鮮明化処理とは、オブジェクト（この例では教師）の存在は認識できるが該オブジェクトの姿は視覚的に明確に認識できないように、オブジェクトの個々の部位の輪郭を不明確にする処理のことをいう。不鮮明化処理の例としてモザイク処理、ぼかし処理、およびフォグ処理が挙げられるが、他の技術が用いられてもよい。あるいは、コンテンツ生成部１４は、画像上から教師を消去し、その教師の部分（すなわち、教師によって隠れていた部分）の背景を復元することによって教師を視認不可にしてもよい。この処理はレタッチ（ｒｅｔｏｕｃｈ）ともいわれる。

複合モードおよび仮想モードのいずれにおいても、コンテンツ生成部１４は一または複数の関連仮想オブジェクトをさらに配置し得る。それぞれの関連仮想オブジェクトの配置方法は限定されない。例えば、コンテンツ生成部１４は関連仮想オブジェクトを、対応する現実オブジェクトに重畳するように配置してもよい。あるいは、コンテンツ生成部１４は関連仮想オブジェクトを、対応する現実オブジェクトに重畳させることなく、またはほとんど重畳させることなく、配置してもよい。いずれにしても、コンテンツ生成部１４はローデータに基づいて個々の関連仮想オブジェクトの仕様を決定する。例えば、コンテンツ生成部１４は関連仮想オブジェクトの位置、寸法、（および、もしあれば動作）を設定する。

複合モードおよび仮想モードのいずれにおいても、コンテンツ生成部１４は、仮想空間にアバター（および関連仮想オブジェクト）が配置された仮想空間を示す教育用コンテンツデータを生成する。教育用コンテンツデータは、原画像データに対応する音声データを含んでもよい。教育用コンテンツデータの生成方法およびデータ構造は限定されない。例えば、コンテンツ生成部１４は、仮想空間と個々のオブジェクトの位置、寸法、および動作（姿勢）とを示す仮想空間データを含む教育用コンテンツデータを生成してもよい。あるいは、コンテンツ生成部１４は、設定された仮想空間に基づくレンダリングを実行することで教育用コンテンツデータを生成してもよい。この場合には、教育用コンテンツデータは、アバター（および関連仮想オブジェクト）を含むコンテンツ画像そのものを示す。一例では、コンテンツ生成部１４は、原画像から得られる実写画像領域と、仮想オブジェクト（アバター、および、もしあれば関連仮想オブジェクト）とを組み合わせることで教育用コンテンツデータを生成する。この教育用コンテンツデータは、原画像で示される現実世界と仮想オブジェクト（アバター、および、もしあれば関連仮想オブジェクト）との合成画像を表現する。

ステップＳ１０８では、出力部１５が教育用コンテンツデータを出力する。ステップＳ１３と同様に、教育用コンテンツデータの出力方法は限定されない。したがって、出力部１５は教育用コンテンツデータを、１以上の生徒端末２０に向けて送信してもよいし、コンテンツデータベース５０に格納し、これらの送信および格納の双方を実行してもよい。

出力部１５が教育用コンテンツデータを生徒端末２０に向けて送信した場合には、生徒端末２０では、受信部２２がその教育用コンテンツデータを受信し、表示制御部２３がその教育用コンテンツデータを処理して、教育用コンテンツを表示装置上に表示する。サーバ１０でレンダリングが実行されていない場合には、表示制御部２３は教育用コンテンツデータに基づくレンダリングを実行することでコンテンツ画像を表示する。教育用コンテンツデータがコンテンツ画像そのものを示す場合には、表示制御部２３はそのコンテンツ画像をそのまま表示する。生徒端末２０は、コンテンツ画像の表示に合わせて音声をスピーカから出力する。

教育用コンテンツがライブコンテンツである場合、または原画像データベース４０内の映像コンテンツが処理される場合には、ステップＳ１４またはＳ１５は繰り返し実行される。ステップＳ１４またはＳ１５は各フレーム画像に対して実行されてもよいし、一連の複数個のフレーム画像に対して実行されてもよい。当然ながら時間経過に伴って教師は動き、教育用コンテンツ内のアバターはそれに対応して動く。また、場合によっては、教師の動きに関連して関連仮想オブジェクトが表示される。

図７は複合モードおよび仮想モードにおいてアバターの仕様を決める一例を示す図である。モーション特定部１３は原画像に基づいて、教師９０の動き（例えば、姿勢、表情）に対応する複数のジョイント５０１および複数のボーン５０２を推定することで、教師９０の３次元の動作を特定する（ステップＳ１２）。そして、モーション特定部１３は特定された動作を示すローデータ（モーションデータ）を生成する（ステップＳ１４）。ここで、図７の中央はジョイント５０１およびボーン５０２の理解を助けるための便宜的な描画であり、コンテンツ配信システム１においてこの描画が必須であることを意図するものではないことに留意されたい。コンテンツ生成部１４はそのローデータ（モーションデータ）とアバターのモデルデータとに基づいて、教師９０と同じ動作を行うアバター９２を設定する（ステップＳ１７）。

図８〜図１１を参照しながら教育用コンテンツの例を説明する。いずれの例でも、原画像４０１が、ボード９１の前に教師９０が立っている場面を示すものとする。

図８は実写モードでの教育用コンテンツの一例を示す図である。実写モードではコンテンツ配信システム１は原画像データをそのまま教育用コンテンツデータとして出力するので、原画像４０１がそのまま教育用コンテンツ４０２として提供される。

図９は複合モードでの教育用コンテンツの一例を示す図である。この例では、コンテンツ配信システム１はアバターウィンドウ４０４と教師ウィンドウ４０５とによってアバター９２および教師９０の双方を視認可能にした教育用コンテンツ４０３を提供する。アバターウィンドウ４０４の面積は教師ウィンドウ４０５の面積よりも大きく、教師ウィンドウ４０５はアバターウィンドウ４０４の縁部（図９の例では右上）に表示されている。コンテンツ配信システム１（コンテンツ生成部１４）は、アバターウィンドウ４０４とは異なる画面領域として教師ウィンドウ４０５を設定してもよい。あるいは、コンテンツ配信システム１（コンテンツ生成部１４）は、原画像４０１をアバターの背景の一要素として仮想空間内に配置し、その仮想空間を写した画像をアバターウィンドウ４０４として設定してもよい。この場合には、仮想空間内に配置された原画像４０１が教師ウィンドウ４０５として表示される。

図１０は複合モードでの教育用コンテンツの別の例を示す図である。この例では、コンテンツ配信システム１は原画像４０１に基づく仮想空間内の別々の位置にアバター９２および教師９０を配置し、この仮想空間を写した教育用コンテンツ４０６を提供する。

図１１は仮想モードでの教育用コンテンツの一例を示す図である。この例では、コンテンツ配信システム１は教師９０に重畳するようにアバター９２を配置することで、教師９０は視認不可だがアバター９２は視認可能である教育用コンテンツ４０８を提供する。

図９〜図１１に示す教育用コンテンツ４０３，４０６，４０８のいずれにおいてもアバター９２の仕様は教師９０に対応するので、生徒は、教師９０と同じ動作を行うアバター９２を見ることができる。

図９〜図１１の例において、モーション特定部１３は、教師９０によってボード９１上に書かれた手書きの単語「Ｔｈｉｓ」を関連現実オブジェクトとして特定し（ステップＳ１３）、この単語を含むモーションデータを生成してもよい（ステップＳ１４）。モーション特定部１３は手書きされた単語「Ｔｈｉｓ」をテキストデータ（文字列データ）としてモーションデータに含めてもよいし、手書きされた個々の文字の特徴点を抽出してその特徴点の座標の集合を単語「Ｔｈｉｓ」のモーションデータとして設定してもよい。コンテンツ生成部１４はこのようなモーションデータに基づいて、手書きの単語「Ｔｈｉｓ」に対応する関連仮想オブジェクトを含む教育用コンテンツデータを生成する（ステップＳ１７）。生徒端末２０がその教育用コンテンツデータを表示することで、生徒は新たなまたは追加の視覚効果を伴う単語「Ｔｈｉｓ」（例えば、装飾された手書き文字「Ｔｈｉｓ」、手書きからＣＧに置き換えられた「Ｔｈｉｓ」など）を見ることができる。

上述したようにコンテンツの生成および配信の手法は限定されない。図１２はコンテンツ配信システム１による教育用コンテンツの提供の様々な例を示すシーケンス図である。図１２の例（ａ）は、教育用コンテンツをリアルタイムに配信する場合、すなわちライブ配信またはインターネット生放送の場合におけるコンテンツ配信を処理フローＳ２として示す。処理フローＳ２では、教師端末３０が、教師が授業を行う場面を撮像部２０７によって撮影し（ステップＳ２１）、送信部３１がその撮影によって得られた映像データ（原画像データ）をサーバ１０に向けて送信する（ステップＳ２２）。サーバ１０はその映像データに対して処理フローＳ１を実行し、教育用コンテンツデータを生徒端末２０に向けて送信する（ステップＳ２３）。生徒端末２０はその教育用コンテンツデータを受信および表示する（ステップＳ２４）。

図１２の例（ａ）では、教師端末３０が授業を撮影している間において処理フローＳ２が繰り返し実行される（言い換えると、映像データを構成する個々のフレーム画像について処理フローＳ２が実行される）。生徒は、仮想モードでは、あたかも教師に代わってアバターが教えているような授業をリアルタイムに視聴でき、複合モードでは、教師およびアバターが一緒に教えているような授業をリアルタイムに視聴できる。アバターの動作は原画像を解析することで決定されるので、教師はモーションキャプチャ用の装置を身に付けることなく、普段の服装のままで授業を行えばよい。

図１２の例（ｂ）は、過去に撮影された映像を処理して教育用コンテンツを配信する場合を処理フローＳ３として示す。処理フローＳ３では、サーバ１０は過去に撮影された授業を示す映像データ（原画像データ）を原画像データベース４０から読み出し（ステップＳ３１）、その映像データに対して処理フローＳ１を実行し、教育用コンテンツデータを生徒端末２０に向けて送信する（ステップＳ３２）。生徒端末２０はその教育用コンテンツデータを受信および表示する（ステップＳ３３）。サーバ１０が教育用コンテンツデータを生徒端末２０に向けて送信するタイミングは限定されない。例えば、サーバ１０は、映像データを構成するすべてのフレーム画像について処理フローＳ１を実行した後に、教育用コンテンツデータを送信してもよい。あるいは、サーバ１０は、それぞれのフレーム画像について処理フローＳ１を実行する度に、該フレーム画像に対応する教育用コンテンツデータを送信してもよい。

図１２の例（ｃ）は、過去に撮影された映像を処理して教育用コンテンツを保存する場合を処理フローＳ４として示す。処理フローＳ４では、サーバ１０は過去に撮影された授業を示す映像データ（原画像データ）を原画像データベース４０から読み出し（ステップＳ４１）、その映像データに対して処理フローＳ１を実行し、教育用コンテンツデータをコンテンツデータベース５０に格納する（ステップＳ４２）。例えば、サーバ１０は、映像データを構成するすべてのフレーム画像について処理フローＳ１を実行した後に、教育用コンテンツデータを格納してもよい。生徒端末２０はそのコンテンツデータベース５０に任意のタイミングでアクセスして教育用コンテンツを受信および表示することができる（ステップＳ４３，Ｓ４４）。

生徒端末２０への教育用コンテンツの提供方法は限定されない。例えば、教育用コンテンツはサーバ１０を経由して生徒端末２０に提供されてもよいし、サーバ１０とは異なるコンピュータまたはコンピュータシステムを経由して提供されてもよい。サーバ１０が教育用コンテンツを提供する場合には、生徒端末２０は生徒の操作に応答して、教育用コンテンツを取得するためのデータ信号であるコンテンツ要求をサーバ１０に向けて送信する。サーバ１０はそのコンテンツ要求を受信し、該要求で示される教育用コンテンツデータをコンテンツデータベース５０から読み出し、その教育用コンテンツデータを生徒端末２０に向けて送信する。教育用コンテンツデータの送信方法は限定されず、例えばストリーミング配信でもよいしダウンロードでもよい。

図１２の例（ｂ），（ｃ）はいずれも、過去に撮影されまたは利用された映像コンテンツの利用または再利用であるといえる。教師が授業を教える場面を映した教育用の映像コンテンツは世の中に多く存在する。コンテンツ配信システム１を用いることでその膨大な映像コンテンツを、アバターを用いたさらに魅力的な映像コンテンツに変換することが可能になる。

コンテンツの生成および配信の手法は図１２の例に限定されず、さらに別の処理フローが採用されてもよい。いずれにしても、コンテンツ配信システム１は、ライブ配信（インターネット生放送）、タイムシフト配信、オンデマンド配信などの様々な配信手法に適用することができる。

図１３は、教師端末３０上に表示される補助画像４１０の例を示す図である。図３の例ではこの補助画像４１０はモニタ２１２上に表示される。補助画像４１０は３人の生徒（視聴者）を示す。補助画像４１０の構成は限定されない。例えば、補助画像４１０は個々の生徒端末２０で撮影された生徒の映像または写真の集合によって構成されてもよい。図１３では、補助画像４１０は、３台の生徒端末２０に対応する３人の生徒の画像４１１，４１２，４１３の集合である。あるいは、補助画像４１０は、個々の生徒の映像または写真を合成することで得られる一つの映像または画像であってもよい。あるいは、補助画像４１０は一つの部屋内にいる複数の生徒を写す一つの映像または写真であってもよい。個々の生徒は実写画像で表現されてもよいし、生徒と同じように動くアバターで表現されてもよいし、生徒の動きと連動しない静止画によって表現されてもよい。

補助画像の生成方法は限定されない。サーバ１０の補助画像生成部１６は、１以上の生徒端末２０から送信されてきた生徒画像データに基づいて補助画像データを生成してもよい。生徒画像データとは、生徒を写した画像の電子データのことをいう。補助画像生成部１６は各生徒端末２０からの生徒画像データをそのまま補助画像に埋め込むことで補助画像データを生成してもよいし、該生徒画像データをそのまま補助画像データとして設定してもよい。あるいは、補助画像生成部１６は生徒端末２０から生徒画像データを取得することなく補助画像データを生成してもよい。補助画像生成部１６は生成した補助画像データを教師端末３０に向けて送信する。補助画像生成部１６は、生徒端末２０で録音された音声を示す音声データを該生徒端末２０から受信してその音声データを補助画像データに関連付けてもよい。教師端末３０では受信部３２がその補助画像データを受信し、表示制御部３３がその補助画像データを処理して補助画像を表示する。補助画像は生徒の現在の状況を映すライブ映像であってもよく、この場合には、補助画像生成部１６は補助映像の個々のフレーム画像を生成および送信し、教師端末３０がその個々のフレーム画像を順番に表示する。教師端末３０はサーバ１０から受信した音声データを処理して生徒の音声を出力してもよい。

［効果］
以上説明したように、本開示の一側面に係るコンテンツ制御システムは、少なくとも一つのプロセッサを備える。少なくとも一つのプロセッサのうちの少なくとも一つは、教師が授業を行う場面を写した原画像データを取得する。少なくとも一つのプロセッサのうちの少なくとも一つは、原画像データに基づいて、教師の動作を示すモーションデータを生成する。少なくとも一つのプロセッサのうちの少なくとも一つが、モーションデータに基づいて、教師に対応するアバターの仕様を決定する。少なくとも一つのプロセッサのうちの少なくとも一つは、決定された仕様に基づくアバターを教師とは異なる位置に配置することで、授業を受ける生徒のための教育用コンテンツデータを生成する。少なくとも一つのプロセッサのうちの少なくとも一つは、生成された教育用コンテンツデータを出力する。

本開示の一側面に係るコンテンツ制御方法は、教師が授業を行う場面を写した原画像データを取得するステップと、原画像データに基づいて、教師の動作を示すモーションデータを生成するステップと、モーションデータに基づいて、教師に対応するアバターの仕様を決定するステップと、決定された仕様に基づくアバターを教師とは異なる位置に配置することで、授業を受ける生徒のための教育用コンテンツデータを生成するステップと、生成された教育用コンテンツデータを出力するステップとを含む。

本開示の一側面に係るコンテンツ制御プログラムは、教師が授業を行う場面を写した原画像データを取得するステップと、原画像データに基づいて、教師の動作を示すモーションデータを生成するステップと、モーションデータに基づいて、教師に対応するアバターの仕様を決定するステップと、決定された仕様に基づくアバターを教師とは異なる位置に配置することで、授業を受ける生徒のための教育用コンテンツデータを生成するステップと、生成された教育用コンテンツデータを出力するステップとをコンピュータに実行させる。

このような側面においては、対応し合う教師およびアバターを表現する教育用コンテンツデータが生成される。特許文献１に記載されていない構成を有するこの教育用コンテンツデータを用いることで該コンテンツの視覚効果の向上が期待でき、その結果、生徒の興味をこのコンテンツに惹きつけることが可能になる。言い換えると、教育用コンテンツの興趣性を高めることができる。

単純に教師をアバターに置き換えるのではなく、教師およびアバターの双方が映った教育用コンテンツを提供することで、コンテンツの視覚効果を高めることができる。その結果、生徒が教育用コンテンツに親しみを持ったり面白さを感じたりすることが期待でき、ひいては、授業を受ける生徒のモチベーションを維持または向上につながり得る。一方、教師などの配信者の立場からすると、モーションキャプチャ用の装置を身に着ける必要が無いので、その特別な装置の購入または利用に必要な費用を掛けることなく、普段と同様に授業を行うことができる。

さらに、教師をアバターに置き換えることを想定していなかった過去の画像からも教育用コンテンツデータを生成できるので、過去の膨大な実写画像を、アバターを用いた教育用コンテンツに変換して、そのライブラリを利用または再利用することが可能になる。

他の側面に係るコンテンツ制御システムでは、少なくとも一つのプロセッサのうちの少なくとも一つが、生成された教育用コンテンツデータを生徒の生徒端末に向けて送信することで、該生徒端末上に該教育用コンテンツデータを表示させてもよい。この処理によって、アバターを含む教育用コンテンツデータを生徒に見せることができる。

他の側面に係るコンテンツ制御システムでは、教師に対応するアバターの動作が、教師と同じ動作であってもよい。アバターに教師と同じ動作を取らせることで、教育用コンテンツの視覚効果を高めることができる。

他の側面に係るコンテンツ制御システムでは、少なくとも一つのプロセッサのうちの少なくとも一つが、アバターが映る第１ウィンドウと、教師が映る第２ウィンドウとを含む画面を生成することで、アバターを教師とは異なる位置に配置してもよい。画面分割のような手法を採用することで、教育用コンテンツの視覚効果を高めることができる。

他の側面に係るコンテンツ制御システムでは、少なくとも一つのプロセッサのうちの少なくとも一つが、第１ウィンドウの面積を第２ウィンドウの面積よりも大きくし、第１ウィンドウの縁部に第２ウィンドウを配置してもよい。アバターが映る第１ウィンドウがメインウィンドウであり、教師が映る第２ウィンドウがサブウィンドウであるように教育用コンテンツデータを構成することで、教育用コンテンツの視覚効果を高めることができる。

他の側面に係るコンテンツ制御システムでは、少なくとも一つのプロセッサのうちの少なくとも一つが、仮想空間において第２ウィンドウをアバターよりも奥に位置させてもよい。このようにアバターと第２ウィンドウとの位置関係を３次元的に規定することで、第２ウィンドウをアバターの背景の一部として表示させることができる。このような視覚効果によって、教育用コンテンツの視覚効果を高めることができる。

他の側面に係るコンテンツ制御システムでは、教育用コンテンツデータで示される教育用コンテンツが、教師およびアバターの双方が視認可能である複合モードと、教師は視認不可だがアバターは視認可能である仮想モードとの間で切替可能であってもよい。少なくとも一つのプロセッサのうちの少なくとも一つは、複合モードにおいて、決定された仕様に基づくアバターを教師とは異なる位置に配置してもよい。このような２種類の表示モードを提供することで教育用コンテンツの視覚効果を高めることができる。

他の側面に係るコンテンツ制御システムでは、少なくとも一つのプロセッサのうちの少なくとも一つが、仮想モードにおいて、決定された仕様に基づくアバターを教師に重畳するように配置することで教師を視認不可にしてもよい。この場合には、あたかも教師がアバターに置き換わったかのような視覚効果を生み出すことができる。

他の側面に係るコンテンツ制御システムでは、少なくとも一つのプロセッサのうちの少なくとも一つが、仮想モードにおいて、決定された仕様に基づくアバターを教師とは異なる位置に配置し、画像データで示される教師に対して不鮮明化処理を実行することで、教師を視認不可にしてもよい。この場合には、この場合には、教師の存在をコンテンツ上に残しつつアバターを表示するという視覚効果を生み出すことができる。

［変形例］
以上、本開示の実施形態に基づいて詳細に説明した。しかし、本開示は上記実施形態に限定されるものではない。本開示は、その要旨を逸脱しない範囲で様々な変形が可能である。

上記実施形態ではコンテンツ配信システム１がサーバ１０を用いて構成されたが、コンテンツ制御システムは、サーバ１０を用いないユーザ端末間の直接配信に適用されてもよい。この場合には、サーバ１０の各機能要素はいずれかのユーザ端末に実装されてもよく、例えば、配信者端末および視聴者端末のいずれか一方に実装されてもよい。あるいは、サーバ１０の個々の機能要素は複数のユーザ端末に分かれて実装されてもよく、例えば配信者端末および視聴者端末に分かれて実装されてもよい。これに関連して、コンテンツ制御プログラムはクライアントプログラムとして実現されてもよい。コンテンツ制御システムはサーバを用いて構成されてもよいし、サーバを用いることなく構成されてもよい。

上記実施形態ではコンテンツ制御システムが仮想空間を設定し、その仮想空間内にアバター、（および、もしあれば関連仮想オブジェクト）を配置することで教育用コンテンツデータを生成する。しかし、仮想空間の利用は必須ではない。例えば、コンテンツ制御システムは２次元画像上に２次元表現のアバターを配置することでコンテンツデータ（例えば教育用コンテンツデータ）を生成してもよい。

上記実施形態ではコンテンツ制御システムが実写モード、複合モード、および仮想モードという３種類の表示モードを提供するが、コンテンツの表示モードは限定されない。例えば、コンテンツ制御システムは実写モードを提供することなく複合モードおよび仮想モードを提供してもよい。あるいは、コンテンツ制御モードは複合モードのみを提供してもよい。コンテンツ制御システムは、画面分割を用いる第１複合モード（図９に示すような複合モード）と、画面分割を用いない第２複合モード（図１０に示すような複合モード）という２種類の複合モードの間で教育用コンテンツを切り替えてもよい。

上述したように、コンテンツ制御システムは、教育用コンテンツ以外の任意の種類のコンテンツを制御してもよい。例えば、コンテンツ制御システムはユーザ間の任意の情報伝達またはコミュニケーションを支援するための任意のコンテンツを制御してもよい。

本開示において、「少なくとも一つのプロセッサが、第１の処理を実行し、第２の処理を実行し、…第ｎの処理を実行する。」との表現、またはこれに対応する表現は、第１の処理から第ｎの処理までのｎ個の処理の実行主体（すなわちプロセッサ）が途中で変わる場合を含む概念である。すなわち、この表現は、ｎ個の処理のすべてが同じプロセッサで実行される場合と、ｎ個の処理においてプロセッサが任意の方針で変わる場合との双方を含む概念である。

少なくとも一つのプロセッサにより実行される方法の処理手順は上記実施形態での例に限定されない。例えば、上述したステップ（処理）の一部が省略されてもよいし、別の順序で各ステップが実行されてもよい。また、上述したステップのうちの任意の２以上のステップが組み合わされてもよいし、ステップの一部が修正又は削除されてもよい。あるいは、上記の各ステップに加えて他のステップが実行されてもよい。

１…コンテンツ配信システム、１０…サーバ、１１…コンテンツ管理部、１２…画像取得部、１３…モーション特定部、１４…コンテンツ生成部、１５…出力部、１６…補助画像生成部、２０…生徒端末、２１…要求部、２２…受信部、２３…表示制御部、２４…送信部、３０…教師端末、３１…送信部、３２…受信部、３３…表示制御部、４０…原画像データベース、５０…コンテンツデータベース、９０…教師（配信者）、９２…アバター、４０１…原画像、４０２，４０３，４０６，４０８…教育用コンテンツ、４０４…アバターウィンドウ（第１ウィンドウ）、４０５…教師ウィンドウ（第２ウィンドウ）、４１０…補助画像、Ｐ１…サーバプログラム、Ｐ２…クライアントプログラム。

Claims

少なくとも一つのプロセッサを備え、
前記少なくとも一つのプロセッサのうちの少なくとも一つが、教師が授業を行う場面を写した原画像データを取得し、
前記少なくとも一つのプロセッサのうちの少なくとも一つが、前記原画像データに基づいて、前記教師の動作を示すモーションデータを生成し、
前記少なくとも一つのプロセッサのうちの少なくとも一つが、前記モーションデータに基づいて、前記教師に対応するアバターの仕様を決定し、
前記少なくとも一つのプロセッサのうちの少なくとも一つが、前記決定された仕様に基づく前記アバターを前記教師とは異なる位置に配置することで、前記授業を受ける生徒のための教育用コンテンツデータを生成し、
前記少なくとも一つのプロセッサのうちの少なくとも一つが、前記生成された教育用コンテンツデータを出力する、
コンテンツ制御システム。
前記少なくとも一つのプロセッサのうちの少なくとも一つが、前記生成された教育用コンテンツデータを前記生徒の生徒端末に向けて送信することで、該生徒端末上に該教育用コンテンツデータを表示させる、
請求項１に記載のコンテンツ制御システム。
前記教師に対応する前記アバターの動作が、前記教師と同じ動作である、
請求項１または２に記載のコンテンツ制御システム。
前記少なくとも一つのプロセッサのうちの少なくとも一つが、前記アバターが映る第１ウィンドウと、前記教師が映る第２ウィンドウとを含む画面を生成することで、前記アバターを前記教師とは異なる位置に配置する、
請求項１〜３のいずれか一項に記載のコンテンツ制御システム。
前記少なくとも一つのプロセッサのうちの少なくとも一つが、前記第１ウィンドウの面積を前記第２ウィンドウの面積よりも大きくし、前記第１ウィンドウの縁部に前記第２ウィンドウを配置する、
請求項４に記載のコンテンツ制御システム。
前記少なくとも一つのプロセッサのうちの少なくとも一つが、仮想空間において前記第２ウィンドウを前記アバターよりも奥に位置させる、
請求項５に記載のコンテンツ制御システム。
前記教育用コンテンツデータで示される教育用コンテンツが、前記教師および前記アバターの双方が視認可能である複合モードと、前記教師は視認不可だが前記アバターは視認可能である仮想モードとの間で切替可能であり、
前記少なくとも一つのプロセッサのうちの少なくとも一つが、前記複合モードにおいて、前記決定された仕様に基づく前記アバターを前記教師とは異なる位置に配置する、
請求項１〜６のいずれか一項に記載のコンテンツ制御システム。
前記少なくとも一つのプロセッサのうちの少なくとも一つが、前記仮想モードにおいて、前記決定された仕様に基づく前記アバターを前記教師に重畳するように配置することで前記教師を視認不可にする、
請求項７に記載のコンテンツ制御システム。
前記少なくとも一つのプロセッサのうちの少なくとも一つが、前記仮想モードにおいて、前記決定された仕様に基づく前記アバターを前記教師とは異なる位置に配置し、前記画像データで示される前記教師に対して不鮮明化処理を実行することで、前記教師を視認不可にする、
請求項７に記載のコンテンツ制御システム。
少なくとも一つのプロセッサを備えるコンテンツ制御システムによって実行されるコンテンツ制御方法であって、
教師が授業を行う場面を写した原画像データを取得するステップと、
前記原画像データに基づいて、前記教師の動作を示すモーションデータを生成するステップと、
前記モーションデータに基づいて、前記教師に対応するアバターの仕様を決定するステップと、
前記決定された仕様に基づく前記アバターを前記教師とは異なる位置に配置することで、前記授業を受ける生徒のための教育用コンテンツデータを生成するステップと、
前記生成された教育用コンテンツデータを出力するステップと
を含むコンテンツ制御方法。
教師が授業を行う場面を写した原画像データを取得するステップと、
前記原画像データに基づいて、前記教師の動作を示すモーションデータを生成するステップと、
前記モーションデータに基づいて、前記教師に対応するアバターの仕様を決定するステップと、
前記決定された仕様に基づく前記アバターを前記教師とは異なる位置に配置することで、前記授業を受ける生徒のための教育用コンテンツデータを生成するステップと、
前記生成された教育用コンテンツデータを出力するステップと
をコンピュータに実行させるコンテンツ制御プログラム。