JP2022111142A

JP2022111142A - コンピュータプログラム、サーバ装置及び方法

Info

Publication number: JP2022111142A
Application number: JP2022084302A
Authority: JP
Inventors: 匡志渡邊; Masashi Watanabe; 寿川村; Hisashi Kawamura
Original assignee: GREE Inc
Current assignee: GREE Inc
Priority date: 2019-12-27
Filing date: 2022-05-24
Publication date: 2022-07-29
Anticipated expiration: 2039-12-27
Also published as: US20210201002A1; JP2024029036A; JP2021108030A; JP7408068B2; JP7080212B2

Abstract

【課題】演者等が容易且つ正確にアバターオブジェクトに所望の表情又は動作を表現させることができる、コンピュータプログラム、サーバ装置及び方法を提供すること。【解決手段】コンピュータプログラムは、１又は複数のプロセッサに実行されることにより、センサにより取得される身体の動作に関するデータに基づいて、前記身体の複数の特定部分の各々の変化量を取得し、複数の前記特定部分の各々の変化量のうち、予め特定される少なくとも１箇所以上の前記特定部分の各々の変化量の全てが各閾値を上回る場合に、特定の表情又は所作が形成されたと判定し、判定された前記特定の表情又は所作に対応する特定表現を、演者に対応するアバターオブジェクトに対して反映させた画像又は動画を生成する、ように前記プロセッサを機能させるものである。【選択図】図１

Description

本件出願に開示された技術は、動画配信に関連するコンピュータプログラム、サーバ装置及び方法に関する。

従来から、ネットワークを介して端末装置に動画を配信する動画配信サービスが知られている。この種の動画配信サービスにおいては、当該動画を配信する配信ユーザ（演者）に対応するアバターオブジェクトを表示させる環境が提供されている。

また、動画配信サービスに関連して、アバターオブジェクトの表情や動作を演者等の動作に基づいて制御する技術を利用したサービスとして、「カスタムキャスト」と称されるサービスが知られている（非特許文献１）。このサービスでは、演者は、スマートフォンの画面に対する複数のフリック方向の各々に対して、用意された多数の表情や動作のうちのいずれかの表情又は動作を予め割り当てておき、動画配信の際に、所望する表情又は動作に対応する方向に沿って演者がスマートフォンの画面をフリックすることにより、その動画に表示されるアバターオブジェクトにその表情又は動作を表現させることができる。

なお、上記非特許文献１は、引用によりその全体が本明細書に組み入れられる。

"カスタムキャスト"、［online］、Custom Cast Inc.、［２０１９年１２月１０日検索］、インターネット（URL: https://customcast.jp/）

しかしながら、非特許文献１に開示される技術においては、動画を配信するにあたり、演者が発話しながらスマートフォンの画面をフリックしなければならず、演者にとっては当該フリックの操作を行うことが困難であり、また当該フリックの誤操作も生じやすい。

したがって、本件出願において開示された幾つかの実施形態は、演者等が容易且つ正確にアバターオブジェクトに所望の表情又は動作を表現させることができる、コンピュータプログラム、サーバ装置及び方法を提供する。

一態様によるコンピュータプログラムは、１又は複数のプロセッサに実行されることにより、センサにより取得される身体の動作に関するデータに基づいて、前記身体の複数の特定部分の各々の変化量を取得し、複数の前記特定部分の各々の変化量のうち、予め特定される少なくとも１箇所以上の前記特定部分の各々の変化量の全てが各閾値を上回る場合に、特定の表情又は所作が形成されたと判定し、判定された前記特定の表情又は所作に対応する特定表現を、演者に対応するアバターオブジェクトに対して反映させた画像又は動画を生成する、ように前記プロセッサを機能させるものである。

一態様によるサーバ装置は、プロセッサを具備し、該プロセッサが、コンピュータにより読み取り可能な命令を実行することにより、センサにより取得される身体の動作に関するデータに基づいて、前記身体の複数の特定部分の各々の変化量を取得し、複数の前記特定部分の各々の変化量のうち、予め特定される少なくとも１箇所以上の前記特定部分の各々の変化量の全てが各閾値を上回る場合に、特定の表情又は所作が形成されたと判定し、判定された前記特定の表情又は所作に対応する特定表現を、演者に対応するアバターオブジェクトに対して反映させた画像又は動画を生成するものである。

一態様による方法は、コンピュータにより読み取り可能な命令を実行する一又は複数のプロセッサにより実行される方法であって、センサにより取得される身体の動作に関するデータに基づいて、前記身体の複数の特定部分の各々の変化量を取得する変化量取得工程と、複数の前記特定部分の各々の変化量のうち、予め特定される少なくとも１箇所以上の前記特定部分の各々の変化量の全てが各閾値を上回る場合に、特定の表情又は所作が形成されたと判定する判定工程と、前記判定工程によって判定された前記特定の表情又は所作に対応する特定表現を、演者に対応するアバターオブジェクトに対して反映させた画像又は動画を生成する生成工程と、を含むものである。

図１は、一実施形態に関する通信システムの構成の一例を示すブロック図である。図２は、図１に示した端末装置（サーバ装置）のハードウェア構成の一例を模式的に示すブロック図である。図３は、図１に示したスタジオユニットの機能の一例を模式的に示すブロック図である。図４Ａは、特定の表情「片目を閉じる（ウィンク）」に対応して特定される特定部分と、その閾値の関係を示す図である。図４Ｂは、特定の表情「笑い顔」に対応して特定される特定部分と、その閾値の関係を示す図である。図５は、特定の表情又は所作と特定表現（特定の動作又は表情）との関係を示す図である。図６は、ユーザインタフェイス部の一例を模式的に示す図である。図７は、ユーザインタフェイス部の一例を模式的に示す図である。図８は、ユーザインタフェイス部の一例を模式的に示す図である。図９は、図１に示した通信システムにおいて行われる動作の一部の一例を示すフロー図である。図１０は、図１に示した通信システムにおいて行われる動作の一部の一例を示すフロー図である。図１１は、第３のユーザインタフェイス部の変形例を示す図である。

以下、添付図面を参照して本発明の様々な実施形態を説明する。なお、図面において共通した構成要素には同一の参照符号が付されている。また、或る図面に表現された構成要素が、説明の便宜上、別の図面においては省略されていることがある点に留意されたい。さらにまた、添付した図面が必ずしも正確な縮尺で記載されている訳ではないということに注意されたい。さらにまた、アプリケーションという用語は、ソフトウェア又はプログラムと称呼されるものであってもよく、コンピュータに対する指令であって、ある種の結果を得ることができるように組み合わされたものであればよい。

１．通信システムの構成
図１は、一実施形態に関する通信システム１の構成の一例を示すブロック図である。図１に示すように、通信システム１は、通信網１０に接続される１又はそれ以上の端末装置２０と、通信網１０に接続される１又はそれ以上のサーバ装置３０と、を含むことができる。なお、図１には、端末装置２０の例として、３つの端末装置２０Ａ～２０Ｃが例示され、サーバ装置３０の例として、３つのサーバ装置３０Ａ～３０Ｃが例示されているが、端末装置２０として、これら以外の１又はそれ以上の端末装置２０が通信網１０に接続されてもよく、サーバ装置３０として、これら以外の１又はそれ以上のサーバ装置３０が通信網１０に接続されてもよい。

また、通信システム１は、通信網１０に接続される１又はそれ以上のスタジオユニット４０を含むことができる。なお、図１には、スタジオユニット４０の例として、２つのスタジオユニット４０Ａ及び４０Ｂが例示されているが、スタジオユニット４０として、これら以外の１又はそれ以上のスタジオユニット４０が通信網１０に接続されてもよい。

「第１の態様」において、図１に示す通信システム１では、例えば、スタジオルーム等又は他の場所に設置されたスタジオユニット４０が、上記スタジオルーム等又は他の場所に居る演者等の身体に関するデータを取得したうえで、さらにこのデータに基づいて演者等の身体の複数の部分（特定部分）の各々の変化量を取得し、当該特定部分の各々の変化量の全てが各閾値を上回る旨を判定したことを契機として、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画（又は画像）を生成する。そして、スタジオユニット４０は、生成した動画をサーバ装置３０に送信し、サーバ装置３０がスタジオユニット４０から取得（受信）した動画を、通信網１０を介して１又はそれ以上の端末装置２０であって、特定のアプリケーション（動画視聴用のアプリケーション）を実行して動画の配信を要求する旨の信号を送信した端末装置２０に配信することができる。

ここで、「第１の態様」において、スタジオユニット４０が、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画を生成してこれをサーバ装置３０に送信する構成に代えて、スタジオユニット４０が、演者等の身体に関するデータと、当該データに基づく演者等の身体の複数の特定部分の各々の変化量に関するデータ（前述の判定に関するデータ）とをサーバ装置３０に送信し、サーバ装置３０がスタジオユニット４０から受信したデータにしたがって、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画を生成するレンダリング方式の構成を採用してもよい。或いはまた、スタジオユニット４０が、演者等の身体に関するデータと、当該データに基づく演者等の身体の複数の特定部分の各々の変化量に関するデータ（前述の判定に関するデータ）とをサーバ装置３０に送信し、サーバ装置３０がスタジオユニット４０から受信したデータを端末装置２０に送信し、この端末装置２０が、サーバ装置３０から受信したデータにしたがって、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画を生成するレンダリング方式の構成を採用してもよい。

「第２の態様」において、図１に示す通信システム１では、例えば、演者等により操作され特定のアプリケーション（動画配信用のアプリケーション等）を実行する端末装置２０（例えば、端末装置２０Ａ）が、端末装置２０Ａに対向する演者等の身体に関するデータを取得したうえで、さらにこのデータに基づいて演者等の身体の複数の特定部分の各々の変化量を取得して、当該特定部分の各々の変化量の全てが各閾値を上回る旨を判定したことを契機として、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画（又は画像）を生成する。そして、端末装置２０Ａは、生成した動画をサーバ装置３０に送信し、サーバ装置３０が端末装置２０Ａから取得（受信）した動画を、通信網１０を介して他の１又はそれ以上の端末装置２０であって特定のアプリケーション（動画視聴用のアプリケーション）を実行して動画の配信を要求する旨の信号を送信した端末装置２０（例えば、端末装置２０Ｃ）に配信することができる。

ここで、「第２の態様」において、端末装置２０（端末装置２０Ａ）が、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画を生成してこれをサーバ装置３０に送信する構成に代えて、端末装置２０が、演者等の身体に関するデータと、当該データに基づく演者等の身体の複数の特定部分の各々の変化量に関するデータ（前述の判定に関するデータ）とをサーバ装置３０に送信し、サーバ装置３０が端末装置２０から受信したデータにしたがって、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画を生成するレンダリング方式の構成を採用してもよい。或いはまた、端末装置２０（端末装置２０Ａ）が、演者等の身体に関するデータと、当該データに基づく演者等の身体の複数の特定部分の各々の変化量に関するデータ（前述の判定に関するデータ）とをサーバ装置３０に送信し、サーバ装置３０が端末装置２０Ａから受信したデータを他の１又はそれ以上の端末装置２０であって特定のアプリケーションを実行して動画の配信を要求する旨の信号を送信した端末装置２０（例えば、端末装置２０Ｃ）へ送信し、この端末装置２０Ｃが、サーバ装置３０から受信したデータにしたがって、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画を生成するレンダリング方式の構成を採用してもよい。

「第３の態様」において、図１に示す通信システム１では、例えば、スタジオルーム等又は他の場所に設置されたサーバ装置３０（例えば、サーバ装置３０Ｂ）が、上記スタジオルーム等又は他の場所に居る演者等の身体に関するデータを取得したうえで、さらにこのデータに基づいて演者等の身体の複数の部分（特定部分）の各々の変化量を取得して、当該特定部分の各々の変化量の全てが各閾値を上回る旨を判定したことを契機として、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画（又は画像）を生成する。そして、サーバ装置３０Ｂは、生成した動画を、通信網１０を介して１又はそれ以上の端末装置２０であって、特定のアプリケーション（動画視聴用のアプリケーション）を実行して動画の配信を要求する旨の信号を送信した端末装置２０に配信することができる。この「第３の態様」においても、前述と同様に、サーバ装置３０（サーバ装置３０Ｂ）が、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画を生成してこれを端末装置２０に送信する構成に代えて、サーバ装置３０が、演者等の身体に関するデータと、当該データに基づく演者等の身体の複数の特定部分の各々の変化量に関するデータ（前述の判定に関するデータ）とを端末装置２０に送信し、端末装置２０がサーバ装置３０から受信したデータにしたがって、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画を生成するレンダリング方式の構成を採用してもよい。

通信網１０は、携帯電話網、無線ＬＡＮ、固定電話網、インターネット、イントラネット及び／又はイーサネット（登録商標）等をこれらに限定することなく含むことができるものである。

前述の演者等とは、演者のみならず、例えば、スタジオルーム等又は他の場所において演者とともに居るサポータや、スタジオユニットのオペレータ等を含むことができる。

端末装置２０は、インストールされた特定のアプリケーションを実行することにより、演者等の身体に関するデータを取得したうえで、さらにこのデータに基づいて演者等の身体の複数の部分（特定部分）の各々の変化量を取得し、当該特定部分の各々の変化量の全てが各閾値を上回る旨を判定したことを契機として、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画（又は画像）を生成し、さらに生成した動画をサーバ装置３０に送信する、という動作等を実行することができる。或いはまた、端末装置２０は、インストールされたウェブブラウザを実行することにより、サーバ装置３０からウェブページを受信及び表示して、同様の動作等を実行することができる。

端末装置２０は、このような動作を実行することができる任意の端末装置であって、スマートフォン、タブレット、携帯電話（フィーチャーフォン）及び／又はパーソナルコンピュータ等を、これらに限定することなく含むことができる。

サーバ装置３０は、「第１の態様」及び「第２の態様」では、インストールされた特定のアプリケーションを実行してアプリケーションサーバとして機能することにより、スタジオユニット４０又は端末装置２０から、所定の特定表現がアバターオブジェクトに反映された動画を、通信網１０を介して受信し、受信した動画を（他の動画とともに）通信網１０を介して各端末装置２０に配信する、という動作等を実行することができる。或いはまた、サーバ装置３０は、インストールされた特定のアプリケーションを実行してウェブサーバとして機能することにより、各端末装置２０に送信するウェブページを介して、同様の動作等を実行することができる。

サーバ装置３０は、「第３の態様」では、インストールされた特定のアプリケーションを実行してアプリケーションサーバとして機能することにより、このサーバ装置３０が設置されたスタジオルーム等又は他の場所にいる演者等の身体に関するデータを取得したうえで、さらにこのデータに基づいて演者等の身体の複数の部分（特定部分）の各々の変化量を取得して、当該特定部分の各々の変化量の全てが各閾値を上回る旨を判定したことを契機として、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画（又は画像）を生成することができ、且つ生成した動画を（他の動画とともに）、通信網１０を介して各端末装置２０に配信する、という動作等を実行することができる。或いはまた、サーバ装置３０は、インストールされた特定のアプリケーションを実行してウェブサーバとして機能することにより、各端末装置２０に送信するウェブページを介して、同様の動作等を実行することができる。

スタジオユニット４０は、インストールされた特定のアプリケーションを実行する情報処理装置として機能することにより、このスタジオユニット４０が設置されたスタジオルーム等又は他の場所に居る演者等の身体に関するデータを取得したうえで、さらにこのデータに基づいて演者等の身体の複数の部分（特定部分）の各々の変化量を取得して、当該特定部分の各々の変化量の全てが各閾値を上回る旨を判定したことを契機として、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画（又は画像）を生成することができ、且つ生成した動画を（他の動画とともに）、通信網１０を介してサーバ装置３０に送信する、という動作等を実行することができる。

２．各装置のハードウェア構成
次に、端末装置２０、サーバ装置３０及びスタジオユニット４０の各々が有するハードウェア構成の一例について説明する。

２－１．端末装置２０のハードウェア構成
各端末装置２０のハードウェア構成の一例について、図２を参照しつつ説明する。図２は、図１に示した端末装置２０のハードウェア構成の一例を模式的に示すブロック図である（なお、図２において、括弧内の参照符号は、後述するように各サーバ装置３０に関連して付されたものである）。

図２に示すように、各端末装置２０は、主に、中央処理装置２１と、主記憶装置２２と、入出力インタフェイス２３と、入力装置２４と、補助記憶装置２５と、出力装置２６と、を含むことができる。これら装置同士は、データバス及び／又は制御バスにより接続されている。

中央処理装置２１は、「ＣＰＵ」と称されるものであり、主記憶装置２２に記憶されている命令及びデータに対して演算を行い、その演算の結果を主記憶装置２２に記憶させるものである。さらに、中央処理装置２１は、入出力インタフェイス２３を介して、入力装置２４、補助記憶装置２５及び出力装置２６等を制御することができる。端末装置２０は、１又はそれ以上のこのような中央処理装置２１を含むことが可能である。

主記憶装置２２は、「メモリ」と称されるものであり、入力装置２４、補助記憶装置２５及び通信網１０等（サーバ装置３０等）から、入出力インタフェイス２３を介して受信した命令及びデータ、並びに、中央処理装置２１の演算結果を記憶するものである。主記憶装置２２は、ＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（リードオンリーメモリ）及び／又はフラッシュメモリ等をこれらに限定することなく含むことができる。

補助記憶装置２５は、主記憶装置２２よりも大きな容量を有する記憶装置である。前述した特定のアプリケーション（動画配信用アプリケーション、動画視聴用アプリケーション等）やウェブブラウザ等を構成する命令及びデータ（コンピュータプログラム）を記憶しておき、中央処理装置２１により制御されることにより、これらの命令及びデータ（コンピュータプログラム）を、入出力インタフェイス２３を介して主記憶装置２２に送信することができる。補助記憶装置２５は、磁気ディスク装置及び／又は光ディスク装置等をこれらに限定することなく含むことができる。

入力装置２４は、外部からデータを取り込む装置であり、タッチパネル、ボタン、キーボード、マウス及び／又はセンサ等をこれらに限定することなく含むものである。センサは、後述するように、１又はそれ以上のカメラ等及び／又は１又はそれ以上のマイク等を含むセンサをこれらに限定することなく含むことができる。

出力装置２６は、ディスプレイ装置、タッチパネル及び／又はプリンタ装置等をこれらに限定することなく含むことができる。

このようなハードウェア構成にあっては、中央処理装置２１が、補助記憶装置２５に記憶された特定のアプリケーションを構成する命令及びデータ（コンピュータプログラム）を順次主記憶装置２２にロードし、ロードした命令及びデータを演算することにより、入出力インタフェイス２３を介して出力装置２６を制御し、或いはまた、入出力インタフェイス２３及び通信網１０を介して、他の装置（例えばサーバ装置３０、スタジオユニット４０及び他の端末装置２０等）との間で様々な情報の送受信を行うことができる。

これにより、端末装置２０は、インストールされた特定のアプリケーションを実行することにより、演者等の身体に関するデータを取得したうえで、さらにこのデータに基づいて演者等の身体の複数の部分（特定部分）の各々の変化量を取得し、当該特定部分の各々の変化量の全てが各閾値を上回ることを契機として、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画（又は画像）を生成し、さらに生成した動画をサーバ装置３０に送信する、という動作等を実行することができる。或いはまた、端末装置２０は、インストールされたウェブブラウザを実行することにより、サーバ装置３０からウェブページを受信及び表示して、同様の動作等を実行することができる。

なお、端末装置２０は、中央処理装置２１に代えて又は中央処理装置２１とともに、１又はそれ以上のマイクロプロセッサ、及び／又は、グラフィックスプロセッシングユニット（ＧＰＵ）を含むものであってもよい。

２－２．サーバ装置３０のハードウェア構成
各サーバ装置３０のハードウェア構成の一例について、同じく図２を参照しつつ説明する。各サーバ装置３０のハードウェア構成としては、例えば、前述の各端末装置２０のハードウェア構成と同一のものを用いることが可能である。したがって、各サーバ装置３０が有する構成要素に対する参照符号は、図２において括弧内に示されている。

図２に示すように、各サーバ装置３０は、主に、中央処理装置３１と、主記憶装置３２と、入出力インタフェイス３３と、入力装置３４と、補助記憶装置３５と、出力装置３６と、を含むことができる。これら装置同士は、データバス及び／又は制御バスにより接続されている。

中央処理装置３１、主記憶装置３２、入出力インタフェイス３３、入力装置３４、補助記憶装置３５及び出力装置３６は、それぞれ、前述した各端末装置２０に含まれる、中央処理装置２１、主記憶装置２２、入出力インタフェイス２３、入力装置２４、補助記憶装置２５及び出力装置２６と略同一なものとすることができる。

このようなハードウェア構成にあっては、中央処理装置３１が、補助記憶装置３５に記憶された特定のアプリケーションを構成する命令及びデータ（コンピュータプログラム）を順次主記憶装置３２にロードし、ロードした命令及びデータを演算することにより、入出力インタフェイス３３を介して出力装置３６を制御し、或いはまた、入出力インタフェイス３３及び通信回線１０を介して、他の装置（例えば各端末装置２０、及びスタジオユニット４０等）との間で様々な情報の送受信を行うことができる。

これにより、サーバ装置３０は、「第１の態様」及び「第２の態様」では、インストールされた特定のアプリケーションを実行してアプリケーションサーバとして機能することにより、スタジオユニット４０又は端末装置２０から、所定の特定表現がアバターオブジェクトに反映された動画を、通信網１０を介して受信し、受信した動画を（他の動画とともに）通信網１０を介して各端末装置２０に配信する、という動作等を実行することができる。或いはまた、サーバ装置３０は、インストールされた特定のアプリケーションを実行してウェブサーバとして機能することにより、各端末装置２０に送信するウェブページを介して、同様の動作等を実行することができる。

また、サーバ装置３０は、「第３の態様」では、インストールされた特定のアプリケーションを実行してアプリケーションサーバとして機能することにより、このサーバ装置３０が設置されたスタジオルーム等又は他の場所にいる演者等の身体に関するデータを取得したうえで、さらにこのデータに基づいて演者等の身体の複数の部分（特定部分）の各々の変化量を取得して、当該特定部分の各々の変化量の全てが各閾値を上回ることを契機として、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画（又は画像）を生成することができ、且つ生成した動画を（他の動画とともに）、通信網１０を介して各端末装置２０に配信する、という動作等を実行することができる。或いはまた、サーバ装置３０は、インストールされた特定のアプリケーションを実行してウェブサーバとして機能することにより、各端末装置２０に送信するウェブページを介して、同様の動作等を実行することができる。

なお、サーバ装置３０は、中央処理装置３１に代えて又は中央処理装置３１とともに、１又はそれ以上のマイクロプロセッサ、及び／又は、グラフィックスプロセッシングユニット（ＧＰＵ）を含むものであってもよい。

２－３．スタジオユニット４０のハードウェア構成
スタジオユニット４０は、パーソナルコンピュータ等の情報処理装置により実装可能なものであって、図示はされていないが、前述した端末装置２０及びサーバ装置３０と同様に、主に、中央処理装置と、主記憶装置と、入出力インタフェイスと、入力装置と、補助記憶装置と、出力装置と、を含むことができる。これら装置同士は、データバス及び／又は制御バスにより接続されている。

スタジオユニット４０は、インストールされた特定のアプリケーションを実行して情報処理装置として機能することにより、このスタジオユニット４０が設置されたスタジオルーム等又は他の場所に居る演者等の身体に関するデータを取得したうえで、さらにこのデータに基づいて演者等の身体の複数の部分（特定部分）の各々の変化量を取得して、当該特定部分の各々の変化量の全てが各閾値を上回ることを契機として、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画（又は画像）を生成することができ、且つ生成した動画を（他の動画とともに）、通信網１０を介してサーバ装置３０に送信する、という動作等を実行することができる。

３．各装置の機能
次に、スタジオユニット４０、端末装置２０、及びサーバ装置３０の各々が有する機能の一例について説明する。

３－１．スタジオユニット４０の機能
スタジオユニット４０の機能の一例（一実施形態）について、図３を参照しつつ説明する。図３は、図１に示したスタジオユニット４０の機能の一例を模式的に示すブロック図である（なお、図３において、括弧内の参照符号は、後述するように端末装置２０及びサーバ装置３０に関連して付されたものである）。

図３に示すように、スタジオユニット４０は、センサから演者等の身体に関するデータを取得するセンサ部１００と、センサ部１００から取得したデータに基づいて演者等の身体の複数の特定部分の各々の変化量を取得する変化量取得部１１０と、複数の特定部分の各々の変化量のうち予め特定される少なくとも１箇所以上の特定部分の各々の変化量の全てが各閾値を上回るか否かを判定したうえで、上回ると判定した場合に演者等によって特定の表情が形成されたと判定する判定部１２０と、判定部１２０によって判定された特定の表情に対応する特定表現を、演者に対応するアバターオブジェクトに対して反映させた動画（又は画像）を生成する生成部１３０と、を含むことができる。

さらに、スタジオユニット４０は、前述の閾値の各々を演者等が適宜に設定することができるユーザインタフェイス部１４０をさらに含むことができる。

さらにまた、スタジオユニット４０は、生成部１３０により生成された動画（又は画像）を表示する表示部１５０と、生成部１３０により生成された動画を記憶する記憶部１６０と、生成部１３０により生成された動画を、通信網１０を介してサーバ装置３０に送信等する通信部１７０と、を含むことができる。

（１）センサ部１００
センサ部１００は、例えばスタジオルーム（図示せず）に配される。スタジオルームにおいては、演者が種々のパフォーマンスを行い、センサ部１００が当該演者の動作、表情、及び発話（歌唱を含む）等を検出する。

演者は、スタジオルームに含まれる種々のセンサ群によって動作、表情、及び発話（歌唱を含む）等がキャプチャされる対象となっている。この場合において、スタジオルーム内に存在する演者は、１人であってもよいし、２人以上であってもよい。

センサ部１００は、演者の顔や手足等の身体に関するデータを取得する１又はそれ以上の第１のセンサ（図示せず）と、演者により発せられた発話及び／又は歌唱に関する音声データを取得する１又はそれ以上の第２のセンサ（図示せず）と、を含むことができる。

第１のセンサは、好ましい実施形態では、可視光線を撮像するＲＧＢカメラと、近赤外線を撮像する近赤外線カメラと、を少なくとも含むことができる。また、第１のセンサは、後述するモーションセンサやトラッキングセンサ等を含むことができる。前述のＲＧＢカメラや近赤外線カメラとしては、例えばｉｐｈｏｎｅＸ（登録商標）のトゥルーデプス（ＴｒｕｅＤｅｐｔｈ）カメラに含まれたものを用いることが可能である。第２のセンサは、音声を記録するマイクロフォンを含むことができる。

第１のセンサに関して、センサ部１００は、演者の顔や手足等に近接して配置された第１のセンサ（第１のセンサに含まれるカメラ）を用いて演者の顔や手足等を撮像する。これにより、センサ部１００は、ＲＧＢカメラにより取得された画像をタイムコード（取得した時間を示すコード）に対応付けて単位時間区間にわたって記録したデータ（例えばＭＰＥＧファイル）を生成することができる。さらに、センサ部１００は、近赤外線カメラにより取得された所定数（例えば５１個）の深度を示す数値（例えば浮動小数点の数値）を上記タイムコードに対応付けて単位時間にわたって記録したデータ（例えばＴＳＶファイル［データ間をタブで区切って複数のデータを記録する形式のファイル］）を生成することができる。

近赤外線カメラに関して、具体的には、ドットプロジェクタがドット（点）パターンをなす赤外線レーザーを演者の顔や手足等に放射し、近赤外線カメラが、演者の顔や手足等に投影され反射した赤外線ドットを捉え、このように捉えた赤外線ドットの画像を生成する。センサ部１００は、予め登録されているドットプロジェクタにより放射されたドットパターンの画像と、近赤外線カメラにより捉えられた画像とを比較して、両画像における各ポイント（各特徴点）（例えば５１個のポイント・特徴点の各々）における位置のずれを用いて各ポイント（各特徴点）の深度（各ポイント・各特徴点と近赤外線カメラとの間の距離）を算出することができる。センサ部１００は、このように算出された深度を示す数値を上記のようにタイムコードに対応付けて単位時間にわたって記録したデータを生成することができる。

また、スタジオルームにおけるセンサ部１００は、演者の身体（例えば、手首、足甲、腰、頭頂等）に装着される種々のモーションセンサ（図示せず）や、演者の手に把持されるコントローラ（図示せず）等、を有することができる。さらにまた、スタジオルームには、前述の各構成要素に加えて、複数のベースステーション（図示せず）及びトラッキングセンサ（図示せず）等を有することもできる。

前述のモーションセンサは、前述のベースステーションと協働して、演者の位置及び向きを検出することができる。一実施形態において、複数のベースステーションは、多軸レーザーエミッタ―であり、同期用の点滅光を発した後に、１つのベースステーションは例えば鉛直軸の周りでレーザー光を走査し、他のベースステーションは、例えば水平軸の周りでレーザー光を走査するように構成される。モーションセンサは、ベースステーションからの点滅光及びレーザー光の入射を検知する光センサを複数備え、点滅光の入射タイミングとレーザー光の入射タイミングとの時間差、各光センサでの受光時間、各光センサが検知したレーザー光の入射角度、等を検出することができる。モーションセンサは、例えば、ＨＴＣＣＯＲＰＯＲＡＴＩＯＮから提供されているＶｉｖｅＴｒａｃｋｅｒであってもよいし、ＺＥＲＯＣＳＥＶＥＮＩｎｃ．から提供されているＸｓｅｎｓＭＶＮＡｎａｌｙｚｅであってもよい。

センサ部１００は、モーションセンサにおいて算出された各モーションセンサの位置及び向きを示す検出情報を取得することができる。モーションセンサは、演者の手首、足甲、腰、頭頂等の部位に装着されることにより、モーションセンサの位置及び向きを検出して、演者における体の各部位の動きを検出することができる。なお、モーションセンサの位置及び向きを示す検出情報は、動画内（動画に含まれる仮想空間内）における演者の体の各部位毎のＸＹＺ座標系における位置座標値として算出される。Ｘ軸は例えば動画内における横方向、Ｙ軸は例えば動画内における奥行方向、Ｚ軸は例えば動画内における縦方向に対応するように設定される。したがって、演者における体の各部位の動きも、全てＸＹＺ座標系における位置座標値として検出される。

一実施形態においては、複数のモーションセンサに多数の赤外ＬＥＤを搭載し、この赤外ＬＥＤからの光を、スタジオルームの床や壁に設けられた赤外線カメラで検知することで、当該モーションセンサの位置及び向きを検出してもよい。また、赤外ＬＥＤに代えて可視光ＬＥＤを使用し、この可視光ＬＥＤからの光を可視光カメラで検出することで、当該モーションセンサの位置及び向きを検出してもよい。

一実施形態においては、モーションセンサに代えて、複数の反射マーカーを用いることもできる。反射マーカーは、演者に粘着テープ等により貼付される。このように反射マーカーが貼付された演者を撮影して撮影データを生成し、この撮影データを画像処理することにより、反射マーカーの位置及び向き（前述と同様に、ＸＹＺ座標系における位置座標値）を検出するような構成としてもよい。

コントローラは、演者による指の折り曲げ等の操作に応じたコントロール信号を出力し、これを生成部１３０が取得する。

トラッキングセンサは、動画に含まれる仮想空間を構築するための仮想カメラの設定情報を定めるためのトラッキング情報を生成する。当該トラッキング情報は、三次元直交座標系での位置及び各軸回りの角度として算出され、生成部１３０は当該トラッキング情報を取得する。

次に、第２のセンサに関して、センサ部１００は、演者に近接して配置された第２のセンサを用いて演者により発せられた発話及び／又は歌唱に関する音声を取得する。これにより、センサ部１００は、タイムコードに対応付けて単位時間にわたって記録したデータ（例えばＭＰＥＧファイル）を生成することができる。一実施形態では、センサ部１００は、第１のセンサを用いて演者の顔や手足に関するデータを取得することと同時に、第２のセンサを用いて演者により発せられた発話及び／又は歌唱に関する音声データを取得することができる。この場合には、センサ部１００は、ＲＧＢカメラにより取得された画像と、第２のセンサを用いて演者により発せられた発話及び／又は歌唱に関する音声データとを、同一のタイムコードに対応付けて単位時間にわたって記録したデータ（例えばＭＰＥＧファイル）を生成することができる。

センサ部１００は、前述のとおり生成した、演者の顔や手足等に関する動作データ（ＭＰＥＧファイル及びＴＳＶファイル等）、演者の体の各部位の位置や向きに関するデータ、及び、演者により発せられた発話及び／又は歌唱に関する音声データ（ＭＰＥＧファイル等）を、後述する生成部１３０に出力することができる。

このように、センサ部１００は、タイムコードに対応付けて、単位時間区間ごとに、ＭＰＥＧファイル等の動画と、演者の顔や手足等に位置（座標等）とを、演者に関するデータとして取得することができる。

このような一実施形態によれば、センサ部１００は、例えば、演者の顔や手足等における各部位について、単位時間区間ごとにキャプチャしたＭＰＥＧファイル等と、各部位の位置（座標）と、を含むデータを取得することができる。具体的には、センサ部１００は、単位時間区間ごとに、例えば、右目に関し、右目の位置（座標）を示す情報を含み、例えば上唇に関し、上唇の位置（座標）を示す情報を含むことができる。

別の好ましい実施形態では、センサ部１００は、ＡｒｇｕｍｅｎｔｅｄＦａｃｅｓという技術を利用するものとすることができる。ＡｒｇｕｍｅｎｔｅｄＦａｃｅｓとしては、https://developers.google.com/ar/develop/java/augmented-faces/において開示されたものを利用することができ、引用によりその全体が本明細書に組み入れられる。

ところで、センサ部１００は、前述のとおり生成した、演者の顔や手足等の身体部位のうち複数の特定部分に関する動作データ（ＭＰＥＧファイル及びＴＳＶファイル等）を、後述する変化量取得部１１０にさらに出力することができる。ここで、複数の特定部分とは、身体のいずれかの部位、例えば、頭、顔の一部分、肩（肩を覆う衣服であってもよい）、及び手足等を含むことができる。さらに具体的には、顔の一部分であって、額、眉、瞼、頬、鼻、耳、唇、口、舌、及び顎等、これらに限定することなく含むことができる。

センサ部１００は、スタジオルームに存在する演者の動作、表情、及び発話等を検出する旨を前述のとおり説明したが、これに加えて、スタジオルームにおいて演者とともに居るサポータや、スタジオユニット４０のオペレータ等の動作や表情を検出するようにしてもよい。この場合において、センサ部１００は、サポータ又はオペレータの顔や手足等の身体部位のうち複数の特定部分に関するデータ（ＭＰＥＧファイル及びＴＳＶファイル等）を後述する変化量取得部１１０に出力してもよい。

（２）変化量取得部１１０
変化量取得部１１０は、センサ部１００により取得された演者（前述のとおり、サポータ又はオペレータであってもよい）の身体の動作に関するデータに基づいて、当該演者の身体の複数の特定部分の各々の変化量（変位量）を取得する。具体的には、変化量取得部１１０は、例えば、右頬という特定部分について、単位時間区間１において取得された位置（座標）と、単位時間区間２において取得された位置（座標）と、の差分をとることにより、単位時間区間１と単位時間区間２との間において、右頬という特定部分の変化量を取得することができる。変化量取得部１１０は、他の特定部分についても同様にその特定部分の変化量を取得することができる。

なお、変化量取得部１１０は、各特定部分の変化量を取得するために、任意の単位時間区間において取得された位置（座標）と、別の任意の単位時間区間において取得された位置（座標）との間における差分を用いることが可能である。また、単位時間区間は、固定、可変又はこれらの組み合わせであってもよい。

（３）判定部１２０
次に、判定部１２０について図４Ａ及び図４Ｂを参照しつつ説明する。図４Ａは、特定の表情「片目を閉じる（ウィンク）」に対応して特定される特定部分と、その閾値の関係を示す図である。図４Ｂは、特定の表情「笑い顔」に対応して特定される特定部分と、その閾値の関係を示す図である。

判定部１２０は、変化量取得部１１０によって取得された複数の特定部分の各々の変化量のうち、予め特定される少なくとも１箇所以上の特定部分の各々の変化量の全てが各閾値を上回るか否かを判定したうえで、上回ると判定した場合に演者等によって特定の表情が形成されたと判定する。具体的には、判定部１２０は、特定の表情として、例えば、「笑い顔」、「片目を閉じる（ウィンク）」、「驚き顔」、「悲しい顔」、「怒り顔」、「悪巧み顔」、「照れ顔」、「両目を閉じる」、「舌を出す」、「口をイーとする」、「頬を膨らます」、及び「両目を見開く」といった表情を、これらに限定することなく用いることができる。また、例えば、「肩を震わす」や「首をふる」といった所作を、特定の表情に加えて又は特定の表情に代えて用いてもよい。但し、これらの特定の表情及び特定の所作は、演者（前述のとおり、サポータ又はオペレータであってもよい）が意識的に実行した表情（又は所作）のみを判定部１２０が判定することが好ましい。したがって、演者が意識的に実行したものではない誤判定を防止するためには、演者等がスタジオルームにて実行する種々のパフォーマンスや発話中の表情と重複しないものを適宜選択することが好ましい。

判定部１２０は、前述の各特定の表情（又は特定の所作）に対応する少なくとも１箇所以上の特定部分の変化量を予め特定する。具体的には、図４Ａに示すように、例えば、特定の表情が「片目を閉じる（ウィンク）」の場合、眉（右眉又は左眉）、瞼（右瞼又は左瞼）、目（右目又は左目）、頬（右頬又は左頬）、及び鼻（右鼻又は左鼻）を特定部分の一例とすることができ、これらの変化量を取得する。さらに具体的には、一例として、右眉、右瞼、右目、右頬、及び鼻を特定部分とすることができる。また、図４Ｂに示すように、例えば、特定の表情が「笑い顔」の場合、口（右側又は左側）、唇（下唇の右側又は左側）、及び眉の内側（又は額）を特定部分としてこれらの変化量を取得する。

さらに、図４Ａ及び図４Ｂに示すように、前述の特定の表情に対応して予め特定された特定部分の変化量には各々に閾値が設定される。具体的には、例えば、特定の表情が「片目を閉じる（ウィンク）」の場合、眉の変化量（下降量）の閾値を０．７、瞼の変化量（下降量）の閾値を０．９、目の変化量（目が細くなった量）の閾値を０．６、頬の変化量（上昇量）の閾値を０．４、及び鼻の変化量（上昇量）の閾値を０．５、と設定される。同様に、特定の表情が「笑い顔」の場合、口の変化量（上昇量）の閾値を０．４、下唇の変化量（下降量）の閾値を０．４、及び眉の内側の変化量（上昇量）の閾値を０．１、と設定される。これらの各閾値の値は後述するとおりユーザインタフェイス部１４０を介して適宜に設定することができる。なお、目が細くなった量は、目の開口量が減少した量であり、例えば、上瞼と下瞼の距離が縮まった量である。

また、特定の表情に対応する特定部分も、適宜に変更することができる。具体的には、図４Ａに示すように、特定の表情が「片目を閉じる（ウィンク）」の場合、眉、瞼、目、頬、及び鼻の５箇所を特定部分として予め特定してもよいし、当該５箇所のうち、眉、瞼、及び目の３箇所のみを特定部分として予め特定してもよい。但し、演者（前述のとおり、サポータ又はオペレータであってもよい）が意識的に実行した表情（又は所作）のみを判定部１２０が判定することが好ましい。したがって、演者が意識的に実行したものではない誤判定を防止するためには、特定の表情に対応する特定部分の箇所数は多い方が好ましい。

このように、判定部１２０は、例えば、「片目を閉じる（ウィンク）」に関していえば、変化量取得部１１０によって取得された特定部分としての眉、瞼、目、頬、及び鼻の変化量を監視して、これらの変化量の全てが前述の各閾値を上回ると、「片目を閉じる（ウィンク）」が演者（前述のとおり、サポータ又はオペレータであってもよい）によって形成されたと判定する。なお、この場合において、変化量の全てが前述の各閾値を実際に上回った時点で、「片目を閉じる（ウィンク）」が形成されたと判定部１２０が判断してもよいし、変化量の全てが前述の各閾値を実際に上回る状態が所定時間（例えば、１秒や２秒）継続することを追加の条件に加えたうえで、「片目を閉じる（ウィンク）」が形成されたと判定部１２０が判断してもよい。後者のような態様をとることで、判定部１２０による誤判定を効率的に回避することが可能となる。

なお、判定部１２０により前述の判定がなされた場合においては、判定部１２０は当該判定結果（例えば、「片目を閉じる（ウィンク）」が演者によって形成された旨の判定結果）に関する情報（信号）を生成部１３０へと出力する。この場合において、判定部１２０から生成部１３０へと出力される判定結果の情報としては、例えば、各特定部分の変化量を示す情報、各特定部分の変化量が各閾値を上回ったことにより形成された特定の表情又は所作に対応する特定表現をアバターオブジェクトに反映させる旨を決定したことを示すキュー、及び形成された特定の表情又は所作に対応する特定表現をアバターオブジェクトに反映させる旨を要求する情報としての特定表現のＩＤ（「特殊表情のＩＤ」ともいう）、の少なくとも１つが含まれる。

ここで、特定の表情又は所作と特定表現（特定の動作又は表情）との関係について、図５を参照しつつ説明する。図５は、特定の表情又は所作と特定表現（特定の動作又は表情）との関係を示す図である。

特定の表情又は所作と特定表現（特定の動作又は表情）との関係は、同一の関係、類似する関係、及び全く無関係のいずれかの関係の中から適宜に選択すればよい。具体的には、例えば、図５の特定表現１のように、特定の表情「片目を閉じる（ウィンク）」等に対応する特定表現として、これと同一の「片目を閉じる（ウィンク）」としてもよい。一方、図５の特定表現２のように、特定の表情「笑い顔」に対応して「両手を挙げる」、「片目を閉じる（ウィンク）」に対応して「右足を蹴り上げる」、「悲しい顔」に対応して「寝る」、「片目を閉じる」等、無関係なものとしてもよい。また、「笑い顔」に対応して「悲しい顔」等としてもよい。さらにまた、「笑い顔」に対応して「悪巧み顔」と類似するものとしてもよい。さらにまた、同一の関係、類似する関係、及び全く無関係の関係において、特定表現として、漫画絵のようなものを用いてもよい。つまり、特定の表情は、特定表現をアバターオブジェクトに反映させるための契機（トリガー）として用いることができる。

なお、特定の表情又は所作と特定表現（特定の動作又は表情）との関係は、後述するユーザインタフェイス部１４０を介して適宜に変更される。

（４）生成部１３０
生成部１３０は、センサ部１００からの、演者の顔や手足等に関する動作データ（ＭＰＥＧファイル及びＴＳＶファイル等）、演者の体の各部位の位置や向きに関するデータ、及び演者により発せられた発話及び／又は歌唱に関する音声データ（ＭＰＥＧファイル等）に基づいて、演者に対応するアバターオブジェクトのアニメーションを含む動画を生成することができる。アバターオブジェクトの動画自体については、生成部１３０は、図示しないキャラクターデータ記憶部に記憶された様々な情報（例えば、ジオメトリ情報、ボーン情報、テクスチャ情報、シェーダ情報及びブレンドシェイプ情報等）を用いて、図示しないレンダリング部にレンダリングを実行させることにより、アバターオブジェクトの動画を生成することもできる。

また、生成部１３０は、判定部１２０から前述の判定結果の情報を取得すると、当該判定結果の情報に対応する特定表現を、前述のとおり生成したアバターオブジェクトの動画上に反映させる。具体的には、例えば、一例として、判定部１２０が、「片目を閉じる（ウィンク）」との特定の表情又は所作が演者によって形成され、これに対応する「片目を閉じる（ウィンク）」との特定表現のＩＤ（前述のキューに関する情報でもよい）を生成部１３０が判定部１２０から受信すると、生成部１３０は、当該「片目を閉じる（ウィンク）」なる特定表現を、演者に対応するアバターオブジェクトに反映させた動画（又は画像）を生成する。

ところで、生成部１３０は、判定部１２０の判定結果の情報の取得の有無にかかわらず、前述のとおり、センサ部１００からの演者の顔や手足等に関する動作データ（ＭＰＥＧファイル及びＴＳＶファイル等）、演者の体の各部位の位置や向きに関するデータ、及び演者により発せられた発話及び／又は歌唱に関する音声データ（ＭＰＥＧファイル等）に基づいて、演者に対応するアバターオブジェクトのアニメーションを含む動画を生成する（この動画を便宜的に「第１動画」と称す）。一方、生成部１３０が、判定部１２０から前述の判定結果の情報を取得する場合、生成部１３０は、センサ部１００からの演者の顔や手足等に関する動作データ（ＭＰＥＧファイル及びＴＳＶファイル等）、演者の体の各部位の位置や向きに関するデータ、演者により発せられた発話及び／又は歌唱に関する音声データ（ＭＰＥＧファイル等）、及び判定部１２０から受信する判定結果の情報に基づいて、所定の特定表現をアバターオブジェクトに反映させた動画（又は画像）を生成する（この動画を便宜的に「第２動画」と称す）。

（５）ユーザインタフェイス部１４０
次に、ユーザインタフェイス部１４０について図６乃至図８を参照しつつ説明する。図６乃至図８は、ユーザインタフェイス部１４０の一例を模式的に示す図である。

スタジオユニット４０におけるユーザインタフェイス部１４０は表示部１５０に表示されて、前述の動画（又は画像）のサーバ装置３０への送信や、前述の閾値等に関する様々な情報を、演者等の操作を介して入力したり、演者等に対して様々な情報を視覚的に共有することができる。

例えば、ユーザインタフェイス部１４０は、図６に示すように、特定の表情又は所作とこれに対応する特定部分の各閾値の値を設定（変更）することができる。具体的には、ユーザインタフェイス部１４０は、特定部分毎（例えば、図６においては、口右側、口左側、下唇右側、下唇左側、及び額であって、図６においては、これらの特定部分の表示態様はフォントや色等で強調された態様で表現される）のスライダー１４１ａを表示部１５０上におけるタッチ操作に基づいて適宜に調節して、閾値の値を０～１までの任意の値に変更することができる。なお、図６においては、特定の表情として「笑い顔」を設定する場合において、図４Ｂにて説明した特定部分である口右側（上昇）、口左側（上昇）、下唇右側（下降）、下唇左側（下降）、及び額（上昇）に関する各閾値が０．４又は０．１に設定されているが、これらの閾値の値を、スライダー１４１ａを操作することにより変更することができる。このスライダー１４１ａを便宜的に第１のユーザインタフェイス１４１と称す。また、図６において、口右側（下降）、及び口左側（下降）は閾値の設定対象になっていないため、これらの領域には前述のスライダー１４１ａが表示されていない。つまり、閾値の設定にあたっては、設定する特定の表情又は所作に対応する特定部分を特定したうえで、その変化量に関する態様（上昇、下降、等）をさらに特定する必要がある。なお、図６に示すように、ユーザインタフェイス部１４０は、口右側（下降）及び口左側（下降）において、スライダー１４１ａだけでなく、口右側（下降）及び口左側（下降）のタブ自体をユーザインタフェイス部１４０（表示部１５０）に表示させないように、別途専用のスライダー１４１ｘを設けてもよい。或いは、ユーザインタフェイス部１４０は、特定部分とその特定部分に対応する閾値やスライダー１４１ａを、画面上に表示させないように選択することを可能とする専用のスライダー１４１ｙを別途設けてもよい。スライダー１４１ｘ，１４１ｙは、表示態様を切り替える操作部の一例である。

なお、前述のとおり、特定の表情に対応する特定部分も、ユーザインタフェイス部１４０（第１のユーザインタフェイス部１４１）にて適宜に変更することができる。例えば、図６に示すように、特定の表情が「笑い顔」の場合における特定部分が口右側、口左側、下唇右側、下唇左側、及び額の５箇所から、額を削除した４箇所に変更する場合には、「額上昇」のタブをクリック操作する等することで、「笑い顔」に対応する特定部分を変更することができる。

また、ユーザインタフェイス部１４０は、特定の表情に対応する特定部分の閾値の各々を、スライダー１４１ａの操作を行うことなく、予め定められる所定値に自動的に変更するような構成としてもよい。具体的には、例えば一例として、２つのモードを予め準備しておき、ユーザインタフェイス部１４０における選択操作に基づいて、当該２つのモードのいずれか一方が選択されると、選択されたモードに対応する各閾値（所定値）に自動的に変更する構成が採用されうる。この場合において、図６においては、「出やすい」及び「出にくい」の２つのモードが準備され、演者等はユーザインタフェイス部１４０において、タッチ操作を行うことで「出やすい」又は「出にくい」のいずれか一方のモードを選択することが可能となっている。なお、図６における「出やすい」及び「出にくい」に対応するタブを、便宜的に第２のユーザインタフェイス部１４２と称す。この第２のユーザインタフェイス部１４２は、各閾値の値を予め定めたセットメニューと捉えることができる。

ところで、前述の「出やすい」とのモードにおいては、各閾値は全体的に低い値（例えば、特定の表情「笑い顔」における特定部分である口右側、口左側、下唇右側、下唇左側の各閾値は０．４より小さい値になり且つ額の閾値は０．１より小さい値）に設定される。これにより、演者等によって「笑い顔」が形成された旨を判定部１２０が判定する頻度を上げる、又は判定部１２０による当該判定を容易にすることができる。他方、「出にくい」とのモードにおいては、各閾値は全体的に高い値（例えば、特定の表情「笑い顔」における特定部分である口右側、口左側、下唇右側、下唇左側、各閾値は０．４より大きい値になり且つ額の閾値は０．１より大きい値）に設定される。これにより、演者等によって「笑い顔」が形成された旨を判定部１２０が判定する頻度を下げる、又は判定部１２０による当該判定を限定的にすることができる。

なお、「出やすい」とのモードにおいて予め定められる各閾値（各所定値）は、特定部分毎に異なる値としてもよいし、少なくとも２つの特定部分において同じ値としてもよい。具体的には、例えば、特定の表情「笑い顔」における特定部分である口右側、口左側、下唇右側、下唇左側の各閾値を０．２とし、額の閾値を０．０５としてもよいし、口右側の閾値を０．１、口左側の閾値を０．３、下唇右側の閾値を０．０１、下唇左側の閾値を０．２、並びに額の閾値を０．０５としてもよい。また、これらの閾値の値は、スタジオユニット４０に特定のアプリケーションがインストールされた時点のデフォルト値よりも小さく設定される。

同様に、「出にくい」とのモードにおいて予め定められる各閾値（各所定値）も、特定部分毎に異なる値としてもよいし、少なくとも２つの特定部分において同じ値としてもよい。具体的には、例えば、特定の表情「笑い顔」における特定部分である口右側、口左側、下唇右側、下唇左側の各閾値を０．７とし、額の閾値を０．５としてもよいし、口右側の閾値を０．７、口左側の閾値を０．８、下唇右側の閾値を０．６、下唇左側の閾値を０．９、並びに額の閾値を０．３としてもよい。或いはまた、「出やすい」とのモードから「出にくい」とのモードに変更する場合（その逆の場合でもよい）、口右側、口左側、下唇右側、下唇左側、及び額の特定部分のうちの一部（例えば、下唇左側及び額）の特定部分の閾値については「出やすい」のモードの所定値（又は「出にくい」のモードの所定値）をそのまま用いるような構成とすることもできる。

なお、第２のユーザインタフェイス部１４２として、図６を参照しつつ、「出やすい」及び「出にくい」の２つのモード（タブ）を設ける旨を前述にて説明したが、これに限定されず、例えば、３つ（３種）以上のモード（タブ）を設けてよい。例えば、「通常」、「出やすい」、及び「とても出やすい」の３つのモードを設けてもよいし、「通常」、「出やすい」、「とても出やすい」、及び「極めて出やすい」の４つのモードを設けてもよい。これらの場合において、各閾値の値は、スタジオユニット４０に特定のアプリケーションがインストールされた時点のデフォルト値よりも小さく設定されてもよいし、当該デフォルト値よりも大きく設定されてもよい。

また、第２のユーザインタフェイス部１４２として、当該第２のユーザインタフェイス部１４２による操作を無効化するタブを設けてもよい。図６には、「無効」とのタブが設けられている。このタブがタッチ操作されると、演者等は、第１のユーザインタフェイス部１４１のみを用いて、閾値を適宜に設定することとなる。

また、第１のユーザインタフェイス部１４１又は第２のユーザインタフェイス部１４２にて設定された各閾値を、全て前述のデフォルト値に戻す設定を行うタブを、ユーザインタフェイス部１４０に別途設けてもよい。

このように各閾値の値を適宜に設定（変更）する理由としては、特定の表情を形成する演者等は当然の如く個人差があり、ある人物は特定の表情を形成しやすい（又は特定の表情を形成したと判定部１２０によって判定されやすい）一方で、別の人物は当該特定の表情を形成しにくいという場合が生じうる。したがって、どのような人物を対象にしても、特定の表情が形成された旨を判定部１２０が正確に判定することができるように、適宜に（好ましくは、判定対象の人物が代わるごとに）各閾値を再設定することが好ましい。

さらに、判定対象としての演者等に関する人物が代わるごとに、閾値（変化量）を初期設定することが好ましい。図６に示すように、任意の特定部分における閾値は、当該特定部分の変化量が存在しない場合を基準０として、当該特定部分の最大変化量を１とした場合に、０～１の間で適宜に閾値が設定される。そうすると、ある人物Ｘの基準０～１と別の人物Ｙの基準０～１とはその範囲が異なることになる（例えば、人物Ｘの０～１に照らすと、人物Ｙの最大変化量は人物Ｘにおける０．５にしか相当しない場合が生じうる）。したがって、全ての人物における特定部分の変化量を０～１で表現するために、変化量の幅を初期設定（所定の倍率を乗算）することが好ましい。図６においては、「Ｃａｌｉｂｒａｔｅ」のタブをタッチ操作することで当該初期設定が実行される。

ユーザインタフェイス部１４０は、各閾値の値を、前述のとおり第１のユーザインタフェイス部１４１及び第２のユーザインタフェイス部１４２の両方において設定することができる。この構成とすることにより、例えば、細かい閾値設定に拘らない又は早く動画配信を試したいという演者等においては、第２のユーザインタフェイス部１４２を用いることができる。他方、細かい閾値設定に拘る演者等は、各閾値に対応する第１のユーザインタフェイス部１４１のスライダー１４１ａを操作して、自分仕様の閾値をカスタマイズすることもできる。このようなユーザインタフェイス部１４０を用いることで、演者等の嗜好に合わせて各閾値を適宜に設定できるため、演者等にとっては使い勝手のよいものとなる。さらに、例えば、第２のユーザインタフェイス部１４２を用いて所定のモード（例えば、「出やすい」とのモード）を設定した後に、第１のユーザインタフェイス部１４１のスライダー１４１ａを操作することも可能であるから、ユーザインタフェイス部１４０としての使用方法のバリエーションを向上させることもできる。

また、ユーザインタフェイス部１４０は、前述の閾値以外の様々な値や情報を適宜に設定又は変更することができる。例えば、ユーザインタフェイス部１４０は、前述の判定部１２０による判定動作に関し、特定の表情に対応する特定部分の変化量の全てが各閾値を実際に上回る状態が所定時間（例えば、１秒や２秒）継続することを条件とする場合には、当該所定時間の設定に関するユーザインタフェイス（図６においては図示されていないが、例えば、スライダー）を別途含むことができる。さらに、判定部１２０によって判定された特定の表情に対応する特定表現を、演者に対応するアバターオブジェクトの動画（又は画像）に反映させる一定時間（例えば、５秒）についても、ユーザインタフェイス部１４０（図６においては図示されていないが、例えば、スライダー１４１ｘ及び１４１ｙとは異なる別のスライダー）を用いて、適宜の値に設定（変更）することができる。

さらに、ユーザインタフェイス部１４０は、図６に示すように、前述の特定の表情又は所作と特定表現（特定の動作又は表情）との関係を設定又は変更することが可能な第３のユーザインタフェイス部１４３を有することができる。第３のユーザインタフェイス部１４３は、特定の表情としての「笑い顔」に対して、アバターオブジェクトに反映させる特定表現を、当該特定の表情としての「笑い顔」と同一の「笑い顔」、全く無関係の「怒り顔」や「両手を挙げる」等の複数の候補から、タッチ操作（又はフリック操作）にて選択することが可能となっている（図６においては、便宜上、特定表現として「笑い顔」が選択されている態様が表現されている）。なお、後述する図７に示すように、候補となる特定表現を、当該候補の特定表現が反映されたアバターオブジェクトの画像を用いてもよい。

さらにまた、ユーザインタフェイス部１４０には、特定の表情又は所作、特定の表情又は所作に対応する特定部分、当該特定部分に対応する各閾値、特定の表情又は所作と特定表現との対応関係、所定時間、及び一定時間のいずれかの設定又は変更時において、当該特定の表情又は所作に関する画像情報１４４及び文字情報１４５が含まれる。具体的には、図７に示すように、ユーザインタフェイス部１４０には、特定の表情として、例えば「舌を出す」を設定する際に、その「舌を出す」旨の顔を設定対象者に容易に知らせるために（設定対象者に指示するために）、「舌を出す」のイラストとしての画像情報１４４と、「舌を出して下さい！！」との文字情報が含まれる。これにより、設定対象者たる演者等は、画像情報１４４及び文字情報１４５（いずれか一方だけ表示されてもよい）を見ながら、各情報の設定又は変更を行うことができる。なお、ユーザインタフェイス部１４０（表示部１５０）には、画像情報１４４（及び文字情報１４５）の表示又は非表示を選択可能な専用スライダー１４４ｘが別途設けられてもよい。

さらにまた、特定の表情又は所作、特定の表情又は所作に対応する特定部分、当該特定部分に対応する各閾値、特定の表情又は所作と特定表現との対応関係、所定時間、及び一定時間のいずれかの設定又は変更時において、特定の表情又は所作が形成されたと判定部１２０によって判定された場合、ユーザインタフェイス部１４０には、当該特定表情又は所作と同一の特定表現をアバターオブジェクトに反映させた第１テスト動画１４７（又は第１テスト画像１４７）が含まれる。具体的には、図７に示すように、一例として、演者等が、前述の画像情報１４４及び／又は文字情報１４５に基づいて、センサ部１００の前にて特定の表情として「舌を出す」旨の表情をした結果、判定部１２０が当該「舌を出す」旨の特定の表情が形成されたと判定すると、「舌を出す」との特定表現を反映させたアバターオブジェクトである第１テスト動画１４７（第１テスト画像１４７）が表示される。これにより、演者等は、自分が形成した特定の表情又は所作に対して、どのようなアバターオブジェクトの画像又は動画が生成されるのかに関するイメージを認識しやすくなる。

さらにまた、特定の表情又は所作、特定の表情又は所作に対応する特定部分、当該特定部分に対応する各閾値、特定の表情又は所作と特定表現との対応関係、所定時間、及び一定時間のいずれかの設定又は変更時において、特定の表情又は所作が形成されたと判定部１２０によって判定された場合、ユーザインタフェイス部１４０には、前述の一定時間が経過後であっても、特定時間にわたって、前述の第１テスト動画１４７（第１テスト画像１４７）と同一の動画（又は画像）であって、第１テスト動画１４７（第１テスト画像１４７）よりも小さいサイズの第２テスト動画１４８（又は第２テスト画像１４８）が含まれる。具体的には、一例として、演者等が「舌を出す」旨の表情をした結果、判定部１２０が当該「舌を出す」旨の特定の表情が形成されたと判定して図７のような第１テスト動画１４７（第１テスト画像１４７）が表示された後、その判定が解除されて且つ一定時間が経過すると、図８に示すように、アバターオブジェクト１０００には、何らの特定表現も反映されていない状態となる。しかし、図８に示すように、直前に形成された第１テスト動画１４７（第１テスト画像１４７）と同一内容の動画（又は画像）を第２テスト動画１４８（第２テスト画像１４８）としてユーザインタフェイス部１４０に含ませることで、演者等は、例えば、特定の表情又は所作と特定表現との対応関係等を、関連する画像を見ながら時間をかけてゆっくりと設定することができる。特定時間は一定時間と同一の時間であっても、一定時間と異なる時間であってもよい。

以上のとおり、ユーザインタフェイス部１４０は、演者等による様々な情報の設定を可能とし、また、様々な情報を視覚的に演者等に共有することができる。また、様々な情報、例えば、特定の表情又は所作、特定の表情又は所作に対応する特定部分、当該特定部分に対応する各閾値、特定の表情又は所作と特定表現との対応関係、所定時間、及び一定時間の設定又は変更は、動画配信前（又は後）に実行されてもよいし、動画（又は画像）配信中に実行されてもよい。また、図６乃至図８に関するユーザインタフェイス部１４０の一例は、表示部１５０において各々がリンクしながら別々のページとして表示されてもよいし、全て同じページ中に表示されて、表示部１５０において縦方向又は横方向にスクロールすることで演者等が視認できるような構成としてもよい。また、ユーザインタフェイス部１４０において、図６乃至図８に示される各種情報は、図６乃至図８のとおりの配置や組み合わせで表示される必要はなく、例えば、図６に示される一部の情報に代えて、図７又は図８に示される情報の一部が同一ページ内に表示されるようにしてもよい。

（６）表示部１５０
表示部１５０は、生成部１３０により生成された動画やユーザインタフェイス部１４０に関する画面を、スタジオユニット４０のディスプレイ（タッチパネル）及び／又はスタジオユニット４０に接続されたディスプレイ等に表示することができる。表示部１５０は、生成部１３０により生成された動画を順次表示することもできるし、記憶部１６０に記憶された動画を、演者等の指示にしたがってディスプレイ等に表示することもできる。

（７）記憶部１６０
記憶部１６０は、生成部１３０により生成された動画（又は画像）を記憶することができる。また、記憶部１６０は、前述の閾値を記憶することができる。具体的には、記憶部１６０は、特定のアプリケーションがインストールされた時点においては所定のデフォルト値を記憶することもできるし、ユーザインタフェイス部１４０によって設定された各閾値を記憶することもできる。

（８）通信部１７０
通信部１７０は、生成部１３０により生成された（さらに記憶部１６０に記憶された）動画（又は画像）を、通信網１０を介してサーバ装置３０に送信することができる。

前述した各部の動作は、スタジオユニット４０にインストールされた特定のアプリケーション（例えば、動画配信用のアプリケーション）が、このスタジオユニット４０により実行されることにより実行され得るものである。或いはまた、前述した各部の動作は、スタジオユニット４０にインストールされたブラウザが、サーバ装置３０により提供されるウェブサイトにアクセスすることにより、このスタジオユニット４０により実行され得るものである。なお、前述の「第１の態様」において説明したとおり、スタジオユニット４０に生成部１３０を設けておき、当該生成部１３０によって前述の動画（第１動画及び第２動画）を生成する代わりに、当該生成部１３０をサーバ装置３０に配しておき、スタジオユニット４０は、演者等の身体に関するデータと、当該データに基づく演者等の身体の複数の特定部分の各々の変化量に関するデータ（判定部１２０による判定結果の情報を含む）とを通信部１７０を介してサーバ装置３０に送信し、サーバ装置３０がスタジオユニット４０から受信したデータにしたがって、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画（第１動画及び第２動画）を生成するレンダリング方式の構成を採用してもよい。或いはまた、スタジオユニット４０は、演者等の身体に関するデータと、当該データに基づく演者等の身体の複数の特定部分の各々の変化量に関するデータ（判定部１２０による判定結果の情報を含む）とを通信部１７０を介してサーバ装置３０に送信し、サーバ装置３０は、スタジオユニット４０から受信したデータを端末装置２０に送信し、この端末装置２０に設けられる生成部１３０が、サーバ装置３０から受信したデータにしたがって、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画（第１動画及び第２動画）を生成するレンダリング方式の構成を採用してもよい。

３－２．端末装置２０の機能
端末装置２０の機能の具体例について、図３を参照しつつ説明する。端末装置２０の機能としては、例えば、前述したスタジオユニット４０の機能を用いることが可能である。したがって、端末装置２０が有する構成要素に対する参照符号は、図３において括弧内に示されている。

前述した「第２の態様」では、端末装置２０（例えば、図１における端末装置２０Ａ）は、センサ部２００～通信部２７０として、それぞれ、スタジオユニット４０に関連して説明したセンサ部１００～通信部１７０と同一のものを有するものとすることができる。そして、前述した各部の動作は、端末装置２０にインストールされた特定のアプリケーション（例えば、動画配信用のアプリケーション）が、この端末装置２０により実行されることにより、この端末装置２０により実行され得るものである。なお、前述の「第２の態様」において説明したとおり、端末装置２０に生成部２３０を設けておき、当該生成部２３０によって前述の動画を生成する代わりに、当該生成部２３０をサーバ装置３０に配しておき、端末装置２０は、演者等の身体に関するデータと、当該データに基づく演者等の身体の複数の特定部分の各々の変化量に関するデータ（判定部２２０による判定結果の情報を含む）とを通信部２７０を介してサーバ装置３０に送信し、サーバ装置３０が端末装置２０から受信したデータにしたがって、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画（第１動画及び第２動画）を生成する構成を採用してもよい。或いはまた、端末装置２０は、演者等の身体に関するデータと、当該データに基づく演者等の身体の複数の特定部分の各々の変化量に関するデータ（判定部２２０による判定結果の情報を含む）とを通信部２７０を介してサーバ装置３０に送信し、サーバ装置３０は、端末装置２０から受信したデータを他の端末装置２０（例えば、図１における端末装置２０Ｃ）に送信し、この他の端末装置２０に設けられる生成部２３０が、サーバ装置３０から受信したデータにしたがって、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画（第１動画及び第２動画）を生成する構成を採用してもよい。

一方、例えば「第１の態様」及び「第３の態様」では、端末装置２０は、センサ部２００～通信部２７０のうち、少なくとも通信部２７０のみを有することで、スタジオユニット４０又はサーバ装置３０に設けられる生成部１３０又は３３０により生成された動画（又は画像）を、通信網１０を介して受信することができる。この場合における端末装置２０は、インストールされた特定のアプリケーション（例えば、動画視聴用のアプリケーション）を実行して、サーバ装置３０に対して所望の動画の配信を要求する信号（リクエスト信号）を送信することにより、この信号に応答したサーバ装置３０から所望の動画を当該特定のアプリケーションを介して受信することができる。

３－３．サーバ装置３０の機能
サーバ装置３０の機能の具体例について、図３を参照しつつ説明する。サーバ装置３０の機能としては、例えば、前述したスタジオユニット４０の機能を用いることが可能である。したがって、サーバ装置３０が有する構成要素に対する参照符号は、図３において括弧内に示されている。

前述した「第３の態様」では、サーバ装置３０は、センサ部３００～通信部３７０として、それぞれ、スタジオユニット４０に関連して説明したセンサ部１００～通信部１７０と同一のものを有するものとすることができる。そして、前述した各部の動作は、サーバ装置３０にインストールされた特定のアプリケーション（例えば、動画配信用のアプリケーション）が、このサーバ装置３０により実行されることにより実行され得るものである。なお、「第３の態様」において、サーバ装置３０に生成部３３０を設けておき、当該生成部３３０によって前述の動画を生成する代わりに、当該生成部３３０を端末装置２０に配しておき、サーバ装置３０は、演者等の身体に関するデータと、当該データに基づく演者等の身体の複数の特定部分の各々の変化量に関するデータ（判定部３２０による判定結果の情報を含む）とを通信部３７０を介して端末装置２０に送信し、端末装置２０がサーバ装置３０から受信したデータにしたがって、所定の特定表現を演者に対応するアバターオブジェクトに反映させた動画（第１動画及び第２動画）を生成する構成を採用してもよい。

４．通信システム１全体の動作
次に、上記構成を有する通信システム１においてなされる全体的な動作について、図９及び図１０を参照して説明する。図９及び図１０は、図１に示した通信システム１において行われる動作の一部の一例を示すフロー図である。なお、図１０に示されるフロー図は、前述の「第１の態様」を一例として示すものである。

まず、ステップ（以下「ＳＴ」という。）５００において、演者等（前述のとおり、サポータ又はオペレータを含む）が、スタジオユニット４０のユーザインタフェイス部１４０を介して、前述のとおり説明したように、特定の表情又は所作を設定する。例えば、「笑い顔」、「片目を閉じる（ウィンク）」、「驚き顔」、「悲しい顔」、「怒り顔」、「悪巧み顔」、「照れ顔」、「両目を閉じる」、「舌を出す」、「口をイーとする」、「頬を膨らます」、及び「両目を見開く」等の表情や、「肩を震わす」、「首をふる」等の所作を、これらに限定することなく、特定の表情又は所作として設定することができる。

次に、ＳＴ５０１おいて、演者等が、スタジオユニット４０のユーザインタフェイス部１４０（第１のユーザインタフェイス部１４１）を介して、図６を参照しつつ前述のとおり説明したように、各々の特定の表情（例えば、「片目を閉じる（ウィンク）」や「笑い顔」）に対応する演者等の身体の特定部分（例えば、眉、瞼、目、頬、鼻、口、唇、等）を設定する。

次に、ＳＴ５０２において、演者等が、スタジオユニット４０のユーザインタフェイス部１４０を介して、図６を参照しつつ前述のとおり説明したように、ＳＴ５０１にて設定された特定部分の各々の変化量に対応する各閾値を設定する。この場合において、各閾値の設定は、前述のとおり、第１のユーザインタフェイス部１４１を用いて、特定部分毎に任意の値に設定してもよいし、第２のユーザインタフェイス部１４２を用いて所定のモード（例えば、「出やすい」とのモード）を選択することで各閾値が予め定められた所定値となるようにしてもよい。また、第２のユーザインタフェイス部１４２で所定のモードを選択した後、第１のユーザインタフェイス部１４１を用いて閾値のカスタマイズを行ってもよい。

次に、ＳＴ５０３において、演者等が、スタジオユニット４０のユーザインタフェイス部１４０を介して、図５乃至図８を参照しつつ前述のとおり説明したように、ＳＴ５００にて設定された特定の表情又は所作と特定表現との対応関係を設定する。この場合において、当該対応関係の設定は、前述のとおり、第３のユーザインタフェイス部１４３を用いて実行される。

次に、ＳＴ５０４において、演者等が、スタジオユニット４０のユーザインタフェイス部１４０を介して、前述にて説明した所定時間や一定時間を適宜の値に設定することができる。

図９に示されるＳＴ５００～ＳＴ５０４は、通信システム１の全体的な動作の中の設定動作と捉えることができる。また、ＳＴ５００～ＳＴ５０４は、必ずしも図９の順に限定されるものではなく、例えば、ＳＴ５０２とＳＴ５０３の順序が逆になってもよいし、ＳＴ５０１とＳＴ５０３の順序が逆になってもよい。また、ＳＴ５００～ＳＴ５０４における設定動作が実行された後（又は、図１０に示される動画生成の動作が実行された後）に、いずれかの値のみを変更する場合においては、ＳＴ５００～ＳＴ５０４のうちの一部のステップのみが実行されてもよい。具体的には、ＳＴ５００～ＳＴ５０４における設定動作が実行された後に、閾値のみを変更したい場合においては、ＳＴ５０２のみを実行すればよい。

以上のとおり、図９に示される設定動作が完了すると、次に図１０に示される動画生成の動作を実行することができる。

演者等によって、動画生成に関する要求（操作）がユーザインタフェイス部１４０を介して実行されると、まず、ＳＴ５０５において、スタジオユニット４０のセンサ部１００が、前述のとおり、演者等の身体の動作に関するデータを取得する。

次に、ＳＴ５０６において、スタジオユニット４０の変化量取得部１１０が、センサ部１００により取得された演者等の身体の動作に関するデータに基づいて、当該演者等の身体の複数の特定部分の各々の変化量（変位量）を取得する。

次に、ＳＴ５０７において、スタジオユニット４０の生成部１３０は、センサ部１００が取得した様々な情報に基づいて、前述の第１動画を生成する。

次に、ＳＴ５０８において、スタジオユニット４０の判定部１２０が、ＳＴ５０１にて設定された特定部分の各々の変化量の全てが、ＳＴ５０２にて設定された各閾値を上回るか否かを監視する。そして、「上回る」場合には、判定部１２０が、演者等によってＳＴ５００にて設定された特定の表情又は所作が形成されたと判定してＳＴ５２０へと移行する。他方、ＳＴ５０８において、「上回っていない」場合には、ＳＴ５０９へと移行する。

次に、ＳＴ５０８において「上回っていない」場合は、ＳＴ５０９において、スタジオユニット４０の通信部１７０が、ＳＴ５０７にて生成部１３０が生成した第１動画をサーバ装置３０へと送信することとなる。その後、ＳＴ５０９にて通信部１７０からサーバ装置３０へと送信された第１動画は、ＳＴ５１０において、サーバ装置３０によって端末装置２０へと送信される。そして、サーバ装置３０により送信された第１動画を受信した端末装置２０は、ＳＴ５３０において、当該第１動画を表示部２５０に表示させる。このようにして、ＳＴ５０８において「上回っていない」場合の一連のステップは終了する。

一方、ＳＴ５０８において「上回る」場合は、ＳＴ５２０において、スタジオユニット４０の生成部１３０は、特定の表情（又は所作）が形成された旨の判定結果の情報を判定部１２０から取得して、その特定の表情又は所作に対応する特定表現をアバターオブジェクトに反映させた第２動画を生成する。なお、この際、生成部１３０は、ＳＴ５０３における設定を参照することで、特定の表情又は所作に対応する特定表現をアバターオブジェクトに反映させることができる。

そして、ＳＴ５２１において、通信部１７０が、ＳＴ５２０にて生成された第２動画をサーバ装置３０へと送信する。そして、サーバ装置３０により送信された第２動画は、ＳＴ５２２において、サーバ装置３０によって端末装置２０へと送信される。そして、サーバ装置３０により送信された第２動画を受信した端末装置２０は、ＳＴ５３０において、当該第２動画を表示部２５０に表示させる。このようにして、ＳＴ５０８において「上回る」場合の一連のステップは終了する。

動画生成（動画配信）に関する要求（操作）がユーザインタフェイス部１４０を介して実行されると、図１０に示される動画生成（動画配信）の一連のステップに関する処理が繰り返し実行される。つまり、例えば、演者等によって、ある１つの特定の表情又は所作が形成されたと判定されて図１０に示される一連のステップ（本段落において、便宜上、最初の処理と称す）に関する処理が実行されている間に、演者等によって、別の特定の表情又は所作が形成されたと判定された場合、最初の処理に追従するように、図１０に示される一連のステップに関する別の処理が実行されるので、アバターオブジェクトには、演者等によって形成された特定の表情又は所作に対応する特定表現がリアルタイムで誤動作することなく、演者等の意思に正確に反映される。

なお、図９及び図１０においては、「第１の態様」を一例として以上のとおり説明したが、「第２の態様」及び「第３の態様」においても、基本的には図９及び図１０と同様の一連のステップとなる。つまり、図９及び図１０におけるセンサ部１００～通信部１７０が、センサ部２００～通信部２７０、又はセンサ部３００～通信部３７０に置換される。

以上のとおり、様々な実施形態によれば、演者等が容易且つ正確にアバターオブジェクトに所望の表情又は動作を表現させることができる、コンピュータプログラム、サーバ装置及び方法を提供することができる。より詳細には、様々な実施形態によれば、演者等は発話しながらでも、特定の表情を形成するだけでアバターオブジェクトに特定表現（所望の表情や動作）を反映させた動画を、従来に比して誤操作や誤発動なく正確且つ容易に生成することができる。また、演者等は、端末装置２０を手に把持しながら、特定の表情又は所作等を前述のとおり設定（変更）し、そのまま当該端末装置２０から前述の各種の動画を配信することもできる。さらにまた、動画配信時において、演者等が把持する端末装置２０は、随時、演者等の変化（顔や身体の変化）を捉えることができ、その変化に応じて、アバターオブジェクトに特定表現を反映させることもできる。

５．変形例
以上のとおり説明した実施形態においては、演者等が、ユーザインタフェイス部１４０を操作しつつ、自ら特定の表情又は所作を形成する態様を想定したが、これに限定されず、例えば、サポータやオペレータがユーザインタフェイス部１４０を操作しつつ、演者が特定の表情又は所作を形成する態様としてもよい。この場合においてサポータやオペレータは、図６乃至図８のようなユーザインタフェイス部１４０を確認しつつ閾値等を設定することができる。また、同時に、センサ部１００が演者の動作、表情、及び発話（歌唱を含む）等を検出し、演者が特定の表情又は所作を形成した旨が判定されると、図７に示すように、ユーザインタフェイス部１４０に特定表現を反映したアバターオブジェクトの画像又は動画が表示される。

また、第３のユーザインタフェイス部１４３については、図６乃至図８を参照しつつ、前述のとおり説明したが、別の実施形態として、図１１に示すようなものを用いてもよい。図１１は、第３のユーザインタフェイス部１４３の変形例を示す図である。この場合、まず、演者等によって形成される特定の表情又は所作の各々に、図９のＳＴ５００の際に、任意の管理番号を合わせて設定する。例えば、「両目を見開く」との特定の表情に対して管理番号「１」を、「両目をギュッと瞑る」との特定の表情に対して管理番号「２」を、「舌を出す」との特定の表情に対して管理番号「３」を、「口をイーとする」との特定の表情に対して管理番号「４」を、「頬を膨らます」との特定の表情に対して管理番号「５」を、「笑い顔」との特定の表情に対して管理番号「６」を、「片目を閉じる（ウィンク）」との特定の表情に対し管理番号「７」を、「驚き顔」との特定の表情に対し管理番号「８」を、「肩を震わす」との特定の所作に対し管理番号「９」を、「首をふる」との特定の所作に対し管理番号「１０」を、それぞれ設定する。

次に、演者等は、第３のユーザインタフェイス部１４３を介して、特定表現に対応させる特定の表情又は所作を、前述の管理番号に基づいて選択することができる。例えば、図１１に示すように、「両目を見開く」との特定表現に対して管理番号「１」が選択されると、特定の表情「両目を見開く」に対応して特定表現「両目を見開く」がアバターオブジェクトに反映される。また、例えば、「両目を見開く」との特定表現に対して管理番号「２」が選択されると、特定の表情「両目をギュッと瞑る」に対応して特定表現「両目を見開く」がアバターオブジェクトに反映される。さらにまた、例えば、図１１に示すように、「口をイーとする」との特定表現に対して管理番号「８」が選択されると、特定の表情「驚き顔」に対応して特定表現「口をイーとする」がアバターオブジェクトに反映される。このように、各種の特定の表情又は所作を管理番号で管理することにより、演者等は、より簡便に特定の表情又は所作と特定表現との対応関係を設定又は変更することが可能となる。

なお、この場合において、特定の表情又は所作と、これに対応付けられる管理番号は、その対応関係と併せて記憶部１６０（記憶部２６０、記憶部３６０）に記憶される。また、図１１に示される第３のユーザインタフェイス部１４３は、図６乃至図８とはリンクしながら別のページとして表示されてもよいし、図６乃至図８と同じページ中に表示されて、表示部１５０において縦方向又は横方向にスクロールすることで視認できるような構成としてもよい。

例えば、特定の表情と管理番号とが対応付けられて記憶部１６０に記憶される場合、判定部１２０は、演者等によって特定の表情又は所作が形成されたと判定すると、該当する特定の表情又は所作に対応する管理番号を出力する。生成部１３０は、出力された管理番号、及び予め定められた管理番号（特定の表情又は所作）と特定表現との対応関係に基づき、当該特定の表情又は所作に対応する特定表現をアバターオブジェクトに反映させた第２動画を生成してよい。

６．様々な態様について
第１の態様によるコンピュータプログラムは、「１又は複数のプロセッサに実行されることにより、センサにより取得される身体の動作に関するデータに基づいて、前記身体の複数の特定部分の各々の変化量を取得し、複数の前記特定部分の各々の変化量のうち、予め特定される少なくとも１箇所以上の前記特定部分の各々の変化量の全てが各閾値を上回る場合に、特定の表情又は所作が形成されたと判定し、判定された前記特定の表情又は所作に対応する特定表現を、演者に対応するアバターオブジェクトに対して反映させた画像又は動画を生成する、ように前記プロセッサを機能させる」ものである。

第２の態様によるコンピュータプログラムは、上記第１の態様において「前記特定表現は、特定の動作又は表情を含む」ものである。

第３の態様によるコンピュータプログラムは、上記第１の態様又は上記第２の態様において「前記身体は、前記演者の身体」である。

第４の態様によるコンピュータプログラムは、上記第１の態様から上記第３の態様のいずれかにおいて「前記プロセッサは、予め特定される少なくとも１箇所以上の前記特定部分の各々の変化量の全てが各閾値を所定時間上回る場合に、前記特定の表情又は所作が形成されたと判定する」ものである。

第５の態様によるコンピュータプログラムは、上記第１の態様から上記第４の態様のいずれかにおいて「前記プロセッサは、判定された前記特定の表情又は所作に対応する前記特定表現を、前記演者に対応するアバターオブジェクトに対して一定時間だけ反映させた画像又は動画を生成する」ものである。

第６の態様によるコンピュータプログラムは、上記第１の態様から上記第５の態様のいずれかにおいて「前記特定の表情又は所作、前記特定の表情又は所作に対応する前記特定部分、前記閾値の各々、前記特定の表情又は所作と前記特定表現との対応関係、前記所定時間、及び前記一定時間、の少なくともいずれかは、ユーザインタフェイスを介して設定又は変更される」ものである。

第７の態様によるコンピュータプログラムは、上記第６の態様において「前記閾値の各々は、前記ユーザインタフェイスを介して、前記特定部分毎に任意の値に設定又は変更される」ものである。

第８の態様によるコンピュータプログラムは、上記第６の態様において「前記閾値の各々は、前記ユーザインタフェイスを介して、前記特定部分毎に予め定められる複数の所定値のいずれかに設定又は変更される」ものである。

第９の態様によるコンピュータプログラムは、上記第６の態様において「前記ユーザインタフェイスは、前記閾値の各々を前記特定部分毎に任意の値に設定する第１のユーザインタフェイス、前記閾値の各々を前記特定部分毎に予め定められる複数の所定値のいずれかに設定する第２のユーザインタフェイス、及び前記特定の表情又は所作と前記特定表現との対応関係を設定する第３のユーザインタフェイス、の少なくともいずれか１つを含む」ものである。

第１０の態様によるコンピュータプログラムは、上記第６の態様から上記第９の態様のいずれかにおいて「前記特定の表情又は所作、前記特定の表情又は所作に対応する前記特定部分、前記閾値の各々、前記特定の表情又は所作と前記特定表現との対応関係、前記所定時間、及び前記一定時間、の少なくともいずれかの設定又は変更時において、前記ユーザインタフェイスには、前記特定の表情又は所作に関する画像情報及び文字情報の少なくとも一方が含まれる」ものである。

第１１の態様によるコンピュータプログラムは、上記第６の態様から上記第１０の態様のいずれかにおいて「前記特定の表情又は所作、前記特定の表情又は所作に対応する前記特定部分、前記閾値の各々、前記特定の表情又は所作と前記特定表現との対応関係、前記所定時間、及び前記一定時間、の少なくともいずれかの設定又は変更時において前記特定の表情又は所作が形成されたと判定された場合、前記ユーザインタフェイスには、前記特定の表情又は所作と同一の前記特定表現を前記アバターオブジェクトに反映させた第１テスト画像又は第１テスト動画が含まれる」ものである。

第１２の態様によるコンピュータプログラムは、上記第１１の態様において「前記特定の表情又は所作、前記特定の表情又は所作に対応する前記特定部分、前記閾値の各々、前記特定の表情又は所作と前記特定表現との対応関係、前記所定時間、及び前記一定時間、の少なくともいずれかの設定又は変更時において前記特定の表情又は所作が形成されたと判定された場合、前記ユーザインタフェイスには、前記一定時間とは異なる特定時間にわたって、前記第１テスト画像又は前記第１テスト動画と同一の第２テスト画像又は第２テスト動画が含まれる」ものである。

第１３の態様によるコンピュータプログラムは、上記第６の態様において「前記特定の表情又は所作と前記特定表現との対応関係は、前記特定の表情又は所作と前記特定表現が同一の関係、前記特定の表情又は所作と前記特定表現が類似する関係、及び前記特定の表情又は所作と前記特定表現が無関係、のいずれかである」ものである。

第１４の態様によるコンピュータプログラムは、上記第６の態様から上記第１３の態様のいずれかにおいて「前記特定の表情又は所作、前記特定の表情又は所作に対応する前記特定部分、前記閾値の各々、前記特定の表情又は所作と前記特定表現との対応関係、前記所定時間、及び前記一定時間、の少なくともいずれかは、前記画像又は動画の配信中に変更される」ものである。

第１５の態様によるコンピュータプログラムは、上記第１の態様から上記第１４の態様のいずれかにおいて「前記特定部分は、顔の一部分である」ものである。

第１６の態様によるコンピュータプログラムは、上記第１５の態様において「前記特定部分が、眉、目、瞼、頬、鼻、耳、唇、舌、及び顎を含む群から選択される」ものである。

第１７の態様によるコンピュータプログラムは、上記第１の態様から上記第１６の態様のいずれかにおいて「前記プロセッサが、中央処理装置（ＣＰＵ）、マイクロプロセッサ又はグラフィックスプロセッシングユニット（ＧＰＵ）である」ものである。

第１８の態様によるコンピュータプログラムは、上記第１の態様から上記第１７の態様のいずれかにおいて「前記プロセッサが、スマートフォン、タブレット、携帯電話若しくはパーソナルコンピュータ、又は、サーバ装置に搭載される」ものである。

第１９の態様によるサーバ装置は、「プロセッサを具備し、該プロセッサが、コンピュータにより読み取り可能な命令を実行することにより、センサにより取得される身体の動作に関するデータに基づいて、前記身体の複数の特定部分の各々の変化量を取得し、複数の前記特定部分の各々の変化量のうち、予め特定される少なくとも１箇所以上の前記特定部分の各々の変化量の全てが各閾値を上回る場合に、特定の表情又は所作が形成されたと判定し、判定された前記特定の表情又は所作に対応する特定表現を、演者に対応するアバターオブジェクトに対して反映させた画像又は動画を生成する」ものである。

第２０の態様によるサーバ装置は、上記第１９の態様において「前記プロセッサが、中央処理装置（ＣＰＵ）、マイクロプロセッサ又はグラフィックスプロセッシングユニット（ＧＰＵ）である」ものである。

第２１の態様によるサーバ装置は、上記第１９の態様又は上記第２０の態様において「スタジオに配置される」ものである。

第２２の態様による方法は、「コンピュータにより読み取り可能な命令を実行する一又は複数のプロセッサにより実行される方法であって、センサにより取得される身体の動作に関するデータに基づいて、前記身体の複数の特定部分の各々の変化量を取得する変化量取得工程と、複数の前記特定部分の各々の変化量のうち、予め特定される少なくとも１箇所以上の前記特定部分の各々の変化量の全てが各閾値を上回る場合に、特定の表情又は所作が形成されたと判定する判定工程と、前記判定工程によって判定された前記特定の表情又は所作に対応する特定表現を、演者に対応するアバターオブジェクトに対して反映させた画像又は動画を生成する生成工程と、を含む」ものである。

第２３の態様による方法は、上記第２２の態様において「前記変化量取得工程、前記判定工程、及び前記生成工程は、スマートフォン、タブレット、携帯電話及びパーソナルコンピュータを含む群から選択される端末装置に搭載された前記プロセッサにより実行される」ものである。

第２４の態様による方法は、上記第２２の態様において「前記変化量取得工程、前記判定工程、及び前記生成工程は、サーバ装置に搭載された前記プロセッサにより実行される」ものである。

第２５の態様による方法は、上記第２２の態様から上記第２４の態様のいずれかにおいて「前記プロセッサが、中央処理装置（ＣＰＵ）、マイクロプロセッサ又はグラフィックスプロセッシングユニット（ＧＰＵ）である」ものである。

第２６の態様によるシステムは、「第１のプロセッサを含む第１の装置と、第２のプロセッサを含み該第１の装置に通信回線を介して接続可能な第２の装置と、を具備するシステムであって、センサにより取得される身体の動作関するデータに基づいて、前記身体の複数の特定部分の各々の変化量を取得する、変化量取得処理、複数の前記特定部分の各々の変化量のうち、予め特定される少なくとも１箇所以上の前記特定部分の各々の変化量の全てが各閾値を上回る場合に、特定の表情又は所作が形成されたと判定する、判定処理、前記判定処理によって判定された前記特定の表情又は所作に対応する特定表現を、演者に対応するアバターオブジェクト対して反映させた画像又は動画を生成する、生成処理、のうち、前記第１の装置に含まれた前記第１のプロセッサが、コンピュータにより読み取り可能な命令を実行することにより、前記変化量取得処理、前記判定処理、及び前記生成処理のうちの少なくとも１つの処理を実行し、前記第１のプロセッサにより実行されていない残りの処理が存在する場合には、前記第２の装置に含まれた前記第２のプロセッサが、コンピュータにより読み取り可能な命令を実行することにより、前記残りの処理を実行する」ものである。

第２７の態様によるシステムは、上記第２６の態様において「前記プロセッサが、中央処理装置（ＣＰＵ）、マイクロプロセッサ又はグラフィックスプロセッシングユニット（ＧＰＵ）である」ものである。

第２８の態様によるシステムは、上記第２６の態様又は上記第２７の態様において「前記通信回線がインターネットを含む」ものである。

第２９の態様による端末装置は、「センサにより取得される身体の動作に関するデータに基づいて、前記身体の複数の特定部分の各々の変化量を取得し、複数の前記特定部分の各々の変化量のうち、予め特定される少なくとも１箇所以上の前記特定部分の各々の変化量の全てが各閾値を上回る場合に、特定の表情又は所作が形成されたと判定し、判定された前記特定の表情又は所作に対応する特定表現を、演者に対応するアバターオブジェクトに対して反映させた画像又は動画を生成する」ものである。

第３０の態様による端末装置は、上記第２９の態様において、「前記プロセッサが、中央処理装置（ＣＰＵ）、マイクロプロセッサ又はグラフィックスプロセッシングユニット（ＧＰＵ）である」ものである。

７．本件出願に開示された技術が適用される分野
本件出願に開示された技術は、例えば、次のような分野において適用することが可能なものである。
（１）アバターオブジェクトが登場するライブ動画を配信するアプリケーション・サービス
（２）文字及びアバターオブジェクトを用いてコミュニケーションすることができるアプリケーション・サービス（チャットアプリケーション、メッセンジャー、メールアプリケーション等）

１通信システム
１０通信網
２０（２０Ａ～２０Ｃ）端末装置
３０（３０Ａ～３０Ｃ）サーバ装置
４０（４０Ａ、４０Ｂ）スタジオユニット
１００（２００、３００）センサ部
１１０（２１０、３１０）変化量取得部
１２０（２２０、３２０）判定部
１３０（２３０、３３０）生成部
１４０（２４０、３４０）ユーザインタフェイス部
１４１第１のユーザインタフェイス部
１４２第２のユーザインタフェイス部
１４３第３のユーザインタフェイス部
１４４画像情報
１４５文字情報
１４７第１テスト画像（第１テスト動画）
１４８第２テスト画像（第２テスト動画）
１５０（２５０、３５０）表示部
１６０（２６０、３６０）記憶部
１７０（２７０、３７０）通信部

Claims

１又は複数のプロセッサに実行されることにより、
センサにより取得される身体の動作に関するデータに基づいて、前記身体の複数の特定部分の各々の変化量を取得し、
複数の前記特定部分の各々の変化量のうち、予め特定される少なくとも１箇所以上の前記特定部分の各々の変化量の全てが各閾値を上回る場合に、特定の表情又は所作が形成されたと判定し、
判定された前記特定の表情又は所作に対応する特定表現を、演者に対応するアバターオブジェクトに対して反映させた画像又は動画を生成する、
ように前記プロセッサを機能させる、コンピュータプログラム。