JP2024047795A - 仮想空間インターフェース装置、クライアント端末およびプログラム - Google Patents

仮想空間インターフェース装置、クライアント端末およびプログラム Download PDF

Info

Publication number
JP2024047795A
JP2024047795A JP2022153488A JP2022153488A JP2024047795A JP 2024047795 A JP2024047795 A JP 2024047795A JP 2022153488 A JP2022153488 A JP 2022153488A JP 2022153488 A JP2022153488 A JP 2022153488A JP 2024047795 A JP2024047795 A JP 2024047795A
Authority
JP
Japan
Prior art keywords
user
virtual space
client terminal
audio
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022153488A
Other languages
English (en)
Inventor
俊輔 山本
愛子 滝脇
もゑ 藤島
祐一 松本
ヒョンジュン キム
裕 林下
由佳子 佐藤
和哉 関
実 志賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to JP2022153488A priority Critical patent/JP2024047795A/ja
Priority to PCT/JP2023/023221 priority patent/WO2024070085A1/ja
Publication of JP2024047795A publication Critical patent/JP2024047795A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Processing Or Creating Images (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】仮想空間提供システムのユーザの利便性を向上させる。【解決手段】仮想空間インターフェース装置は、仮想空間内の状況を示す画像を端末に表示させるための表示データを生成し、端末が収音するユーザが発する音声を仮想空間内に出力するための音声データを生成し、仮想空間内の音声を端末に出力させるための音声データを生成し、表示データおよび音声データは、ユーザのジェスチャとユーザと端末との位置関係とに基づいて制御され、ユーザが手を位置させる顔領域の部位に応じて制御対象が異なる。【選択図】図1

Description

本発明は、仮想空間インターフェース装置、クライアント端末およびプログラムに関する。
特許文献1には、通信ネットワークを介して接続されるクライアントコンピュータに仮想空間を提供する仮想空間提供装置について記載されている。特許文献1には、仮想空間提供システムが仮想空間提供装置とクライアントコンピュータとしてのクライアント装置とを含んで構成される旨、仮想空間にアバター等が配置される旨、仮想空間提供装置がサーバとして構成される旨、仮想空間がクライアント装置に表示される旨などが記載されている。
ところで、特許文献1に記載された技術では、例えばユーザのアバターを仮想空間内で移動させたり、アバターの表情を変化させたり、アバターの姿勢を変化させたりするために、クライアント装置に備えられている操作部(キーボードスイッチ、ポインティングデバイス等の入力機器)が使用される。そのため、特許文献1に記載された技術では、操作部の使用方法を習熟したユーザでなければ仮想空間提供システムを使いこなすことができず、ユーザの利便性を向上させることができない。
特許文献2には、カメラがユーザの顔の画像を取り込む旨、その画像を使用してカメラに対するユーザの顔の近接度が特定される旨、ユーザの顔に対するデバイス(カメラ)の相対位置を用いてズームインもしくはズームアウト機能を制御する旨などが記載されている。
ところが、ユーザの顔に対するカメラの相対位置を用いる入力操作では、入力可能な情報が限定される(つまり、入力可能な情報量が少ない)。そのため、特許文献2に記載された技術を特許文献1に記載された技術に適用した場合であっても、特許文献1に記載された仮想空間提供システムのユーザの利便性を向上させることはできない。
特許第5102662号公報 特表2020-518321号公報 特許第5636888号公報 特許第7090031号公報 特許第6802549号公報
上述した問題点に鑑み、本発明は、仮想空間提供システムのユーザの利便性を向上させることができる仮想空間インターフェース装置、クライアント端末およびプログラムを提供することを目的とする。
本発明の一態様は、少なくともユーザによって使用されるクライアント端末を備える仮想空間提供システムに備えられる仮想空間インターフェース装置であって、前記クライアント端末は、仮想空間内の状況を示す画像を表示する表示装置と、前記仮想空間内の音声を出力する音声出力装置と、前記ユーザが発する音声を収音する収音装置と、前記ユーザの顔画像を撮影する撮影装置とを備え、前記仮想空間インターフェース装置は、前記仮想空間内の状況を示す画像を前記クライアント端末の表示装置に表示させるための表示データを生成する表示データ生成部と、前記仮想空間内の音声を前記クライアント端末の音声出力装置に出力させるための音声データを生成する音声データ生成部とを備え、前記音声データ生成部は、前記クライアント端末の収音装置によって収音される前記ユーザが発する音声を前記仮想空間内に出力するための音声データを生成し、前記表示データ生成部および前記音声データ生成部は、前記クライアント端末の撮影装置によって撮影される前記ユーザの顔領域に手を位置させるジェスチャと、前記クライアント端末の撮影装置と前記ユーザの顔との位置関係とに基づいて、制御対象として、前記仮想空間内の状況を示す画像を前記クライアント端末の表示装置に表示させるための前記表示データ、前記仮想空間内の音声を前記クライアント端末の音声出力装置に出力させるための音声データ、および、前記ユーザが発する音声を前記仮想空間内に出力するための音声データの少なくともいずれかを制御し、前記表示データ生成部および前記音声データ生成部は、前記ユーザが手を位置させる顔領域の部位に応じて、前記制御対象を異ならせる、仮想空間インターフェース装置である。
本発明の一態様は、仮想空間インターフェース装置を備える仮想空間提供システムに備えられ、ユーザによって使用されるクライアント端末であって、仮想空間内の状況を示す画像を表示する表示装置と、前記仮想空間内の音声を出力する音声出力装置と、前記ユーザが発する音声を収音する収音装置と、前記ユーザの顔画像を撮影する撮影装置とを備え、前記表示装置は、前記仮想空間インターフェース装置の表示データ生成部によって生成される表示データに基づいて、前記仮想空間内の状況を示す画像を表示し、前記音声出力装置は、前記仮想空間インターフェース装置の音声データ生成部によって生成される音声データに基づいて、前記仮想空間内の音声を出力し、前記仮想空間インターフェース装置の前記音声データ生成部は、前記収音装置によって収音される前記ユーザが発する音声を前記仮想空間内に出力するための音声データを生成し、前記仮想空間インターフェース装置の前記表示データ生成部および前記音声データ生成部は、前記撮影装置によって撮影される前記ユーザの顔領域に手を位置させるジェスチャと、前記撮影装置と前記ユーザの顔との位置関係とに基づいて、制御対象として、前記仮想空間内の状況を示す画像を前記表示装置に表示させるための前記表示データ、前記仮想空間内の音声を前記音声出力装置に出力させるための音声データ、および、前記ユーザが発する音声を前記仮想空間内に出力するための音声データの少なくともいずれかを制御し、前記仮想空間インターフェース装置の前記表示データ生成部および前記音声データ生成部は、前記ユーザが手を位置させる顔領域の部位に応じて、前記制御対象を異ならせる、クライアント端末である。
本発明の一態様は、仮想空間インターフェース装置を備える仮想空間提供システムに備えられ、ユーザによって使用されるクライアント端末を構成するコンピュータに、仮想空間内の状況を示す画像を表示する表示ステップと、前記仮想空間内の音声を出力する音声出力ステップと、前記ユーザが発する音声を収音する収音ステップと、前記ユーザの顔画像を撮影する撮影ステップとを実行させるためのプログラムであって、前記表示ステップでは、前記仮想空間インターフェース装置の表示データ生成部によって生成される表示データに基づいて、前記仮想空間内の状況を示す画像が表示され、前記音声出力ステップでは、前記仮想空間インターフェース装置の音声データ生成部によって生成される音声データに基づいて、前記仮想空間内の音声が出力され、前記仮想空間インターフェース装置の前記音声データ生成部は、前記収音ステップにおいて収音される前記ユーザが発する音声を前記仮想空間内に出力するための音声データを生成し、前記仮想空間インターフェース装置の前記表示データ生成部および前記音声データ生成部は、前記撮影ステップにおいて撮影される前記ユーザの顔領域に手を位置させるジェスチャと、前記クライアント端末の撮影装置と前記ユーザの顔との位置関係とに基づいて、制御対象として、前記仮想空間内の状況を示す画像を前記クライアント端末の表示装置に表示させるための前記表示データ、前記仮想空間内の音声を前記クライアント端末の音声出力装置に出力させるための音声データ、および、前記ユーザが発する音声を前記仮想空間内に出力するための音声データの少なくともいずれかを制御し、前記仮想空間インターフェース装置の前記表示データ生成部および前記音声データ生成部は、前記ユーザが手を位置させる顔領域の部位に応じて、前記制御対象を異ならせる、プログラムである。
本発明によれば、仮想空間提供システムのユーザの利便性を向上させることができる仮想空間インターフェース装置、クライアント端末およびプログラムを提供することができる。
第1実施形態の仮想空間インターフェース装置12Xが適用された仮想空間提供システム1の一例を示す図である。 表示データ生成部12Aによって生成される第1クライアント端末用表示データに基づいてクライアント端末11の表示装置11Aによって表示される仮想空間内の状況を示す画像の一例を示す図である。 第1ユーザUR1が第1ユーザUR1の目に第1ユーザUR1の手を当てる動作の一例を説明するための図である。 第1ユーザUR1がクライアント端末11の撮影装置11Dと第1ユーザUR1の顔との距離を変化させる例を説明するための図である。 仮想空間インターフェース装置12Xの表示データ生成部12Aによって行われる制御の第1例を説明するための図である。 第1ユーザUR1がクライアント端末11の撮影装置11Dに対する第1ユーザUR1の顔の向きを変化させる例を説明するための図である。 仮想空間インターフェース装置12Xの表示データ生成部12Aによって行われる制御の第2例を説明するための図である。 第2ユーザUR2が第2ユーザUR2の耳に第2ユーザUR2の手を当てる動作の一例を説明するための図である。 第3ユーザUR3が第3ユーザUR3の口に第3ユーザUR3の手を当てる動作の一例を説明するための図である。 第1実施形態の仮想空間インターフェース装置12Xによって実行される処理の一例を説明するためのフローチャートである。 第2実施形態の仮想空間インターフェース装置21Eが適用された仮想空間提供システム2の一例を示す図である。 第2実施形態の仮想空間インターフェース装置21Eによって実行される処理の一例を説明するためのフローチャートである。
以下、本発明の仮想空間インターフェース装置、クライアント端末およびプログラムの実施形態について、添付図面を参照して説明する。
<第1実施形態>
図1は第1実施形態の仮想空間インターフェース装置12Xが適用された仮想空間提供システム1の一例を示す図である。
図1に示す例では、仮想空間提供システム1が、クライアント端末11、11-2、11-3、11-4と、仮想空間提供サーバ12とを備えている。クライアント端末11、11-2、11-3、11-4および仮想空間提供サーバ12は、例えばインターネット等のネットワークNWを介して接続されている。
図1に示す例では、仮想空間提供システム1が、4つのクライアント端末11、11-2、11-3、11-4を備えているが、他の例では、仮想空間提供システム1が、4以外の任意の数のクライアント端末を備えていてもよい。つまり、仮想空間提供システム1が備えるクライアント端末の数が1つであってもよい。
図1に示す例では、クライアント端末11が、例えば第1ユーザUR1(図3参照)によって使用される。クライアント端末11は、表示装置11Aと、音声出力装置11Bと、収音装置11Cと、撮影装置11Dとを備えている。
表示装置11Aは、仮想空間提供サーバ12によってネットワークNWを介して提供される表示データに基づいて、仮想空間内の状況を示す画像(図2参照)を表示する。表示装置11Aは、例えばディスプレイ等を備えている。音声出力装置11Bは、仮想空間提供サーバ12によってネットワークNWを介して提供される音声データに基づいて、仮想空間内の音声を出力する。音声出力装置11Bは、例えばスピーカ等を備えている。収音装置11Cは、第1ユーザUR1が発する音声を収音する。収音装置11Cは、例えばマイクロフォン等を備えている。撮影装置11Dは、第1ユーザUR1の顔画像を撮影する。撮影装置11Dは、例えばカメラ等を備えている。
クライアント端末11-2は、例えば第1ユーザUR1とは異なる第2ユーザUR2(図8参照)によって使用される。クライアント端末11-3は、例えば第1ユーザUR1および第2ユーザUR2とは異なる第3ユーザUR3(図9参照)によって使用される。クライアント端末11-4は、例えば第1ユーザUR1、第2ユーザUR2および第3ユーザUR3とは異なる第4ユーザによって使用される。
図1に示す例では、クライアント端末11-2、11-3、11-4のそれぞれが、クライアント端末11と同様に構成されている。つまり、クライアント端末11-2、11-3、11-4のそれぞれが、表示装置11Aと、音声出力装置11Bと、収音装置11Cと、撮影装置11Dとを備えている。
すなわち、クライアント端末11-2の収音装置11Cは、第2ユーザUR2が発する音声を収音する。クライアント端末11-2の撮影装置11Dは、第2ユーザUR2の顔画像を撮影する。クライアント端末11-3の収音装置11Cは、第3ユーザUR3が発する音声を収音する。クライアント端末11-3の撮影装置11Dは、第3ユーザUR3の顔画像を撮影する。クライアント端末11-4の収音装置11Cは、第4ユーザが発する音声を収音する。クライアント端末11-4の撮影装置11Dは、第4ユーザの顔画像を撮影する。
他の例では、クライアント端末11の構成とクライアント端末11-2の構成とクライアント端末11-3の構成とクライアント端末11-4の構成とが異なっていたり、クライアント端末11、11-2、11-3、11-4のうちのいずれかのクライアント端末の構成が残りのクライアント端末の構成と異なっていたりしてもよい。
図1に示す例では、仮想空間提供サーバ12が、クライアント端末11、11-2、11-3、11-4に対して表示データおよび音声データを提供することによって仮想空間を提供する。仮想空間提供サーバ12は、仮想空間インターフェース装置12Xと、処理装置12Yとを備えている。仮想空間インターフェース装置12Xは、表示データ生成部12Aと、音声データ生成部12Bとを備えている。
表示データ生成部12Aは、仮想空間内の状況を示す画像をクライアント端末11、11-2、11-3、11-4の表示装置11Aに表示させるための表示データを生成する。つまり、表示データ生成部12Aは、仮想空間内の状況を示す画像(図2参照)をクライアント端末11の表示装置11Aに表示させるための表示データと、仮想空間内の状況を示す画像をクライアント端末11-2の表示装置11Aに表示させるための表示データと、仮想空間内の状況を示す画像をクライアント端末11-3の表示装置11Aに表示させるための表示データと、仮想空間内の状況を示す画像をクライアント端末11-4の表示装置11Aに表示させるための表示データとを生成する。
詳細には、表示データ生成部12Aは、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1の顔画像(図3参照)に基づいて、仮想空間内に位置する第1アバターAT1(図2参照)を生成する。同様に、表示データ生成部12Aは、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2の顔画像(図8参照)に基づいて、仮想空間内に位置する第2アバターAT2(図2参照)を生成し、クライアント端末11-3の撮影装置11Dによって撮影される第3ユーザUR3の顔画像(図9参照)に基づいて、仮想空間内に位置する第3アバターAT3(図2参照)を生成し、クライアント端末11-4の撮影装置11Dによって撮影される第4ユーザの顔画像に基づいて、仮想空間内に位置する第4アバターAT4(図2参照)を生成する。
他の例では、例えば表示データ生成部12Aが、第1ユーザUR1の顔画像とは異なる、記録された画像に基づいて、第1アバターAT1を生成してもよい。更に他の例では、例えば表示データ生成部12Aによって生成される第1アバターAT1が、イラスト、CG(コンピュータグラフィックス)等であってもよい。
図1に示す例では、処理装置12Yが、仮想空間内の状況を示す画像(つまり、クライアント端末11、11-2、11-3、11-4の表示装置11Aによって表示される画像)に、例えばイラスト、CG等の背景画像、オブジェクト画像、アバター画像などを含める機能を有する。
図1に示す例では、表示データ生成部12Aは、仮想空間内の状況を示す画像として、第1アバターAT1、第2アバターAT2、第3アバターAT3および第4アバターAT4を含む画像(図2参照)をクライアント端末11の表示装置11Aに表示させるための第1クライアント端末用表示データを生成する。同様に、表示データ生成部12Aは、仮想空間内の状況を示す画像として、第1アバターAT1、第2アバターAT2、第3アバターAT3および第4アバターAT4を含む画像をクライアント端末11-2の表示装置11Aに表示させるための第2クライアント端末用表示データを生成し、仮想空間内の状況を示す画像として、第1アバターAT1、第2アバターAT2、第3アバターAT3および第4アバターAT4を含む画像をクライアント端末11-3の表示装置11Aに表示させるための第3クライアント端末用表示データを生成し、仮想空間内の状況を示す画像として、第1アバターAT1、第2アバターAT2、第3アバターAT3および第4アバターAT4を含む画像をクライアント端末11-4の表示装置11Aに表示させるための第4クライアント端末用表示データを生成する。
他の例では、表示データ生成部12Aによって生成される例えば第1クライアント端末用表示データが示す「仮想空間内の状況を示す画像」に、第1アバターAT1~第4アバターAT4の他に、あるいは、第1アバターAT1~第4アバターAT4の代わりに、背景画像、アバター以外の他のオブジェクト等が含まれても良い。
「仮想空間内の状況を示す画像」に第1アバターAT1~第4アバターAT4が含まれない他の例では、ユーザが仮想空間内の特定の座標において視聴できる映像・音声を取得し端末(クライアント端末11、11-2、11-3、11-4)側で出力するのみであって、ユーザが何らかのオブジェクトに紐づけられなくてもよい。
図2は表示データ生成部12Aによって生成される第1クライアント端末用表示データに基づいてクライアント端末11の表示装置11Aによって表示される仮想空間内の状況を示す画像の一例を示す図である。
図2に示す例では、表示データ生成部12Aによって生成される第1クライアント端末用表示データに基づいてクライアント端末11の表示装置11Aによって表示される仮想空間内の状況を示す画像に、クライアント端末11を使用する第1ユーザUR1に対応する第1アバターAT1と、クライアント端末11-2を使用する第2ユーザUR2に対応する第2アバターAT2と、クライアント端末11-3を使用する第3ユーザUR3に対応する第3アバターAT3と、クライアント端末11-4を使用する第4ユーザに対応する第4アバターAT4とが含まれる。
図2に示す例では、仮想空間インターフェース装置12Xの表示データ生成部12Aは、クライアント端末11を使用する第1ユーザUR1の顔画像に基づいて生成された第1アバターAT1が、クライアント端末11の表示装置11Aによって表示される仮想空間(図2に示す仮想空間)内の最も手前側に位置するように、第1クライアント端末用表示データを生成する。
詳細には、仮想空間インターフェース装置12Xの表示データ生成部12Aは、クライアント端末11の表示装置11Aによって表示される仮想空間(図2に示す仮想空間)内において、第1アバターAT1の左隣にクライアント端末11-2を使用する第2ユーザUR2に対応する第2アバターAT2が位置し、第1アバターAT1の右隣にクライアント端末11-3を使用する第3ユーザUR3に対応する第3アバターAT3が位置し、第1アバターAT1の正面にクライアント端末11-4を使用する第4ユーザに対応する第4アバターAT4が位置するように、第1クライアント端末用表示データを生成する。
他の例では、クライアント端末11の表示装置11Aによって表示される仮想空間内の状況を示す画像に、クライアント端末11を使用する第1ユーザUR1に対応する第1アバターAT1が含まれなくてもよい。この例では、第1アバターAT1の視点(つまり、第1ユーザUR1の視点)から見た仮想空間内の状況を示す画像(第2アバターAT2、第3アバターAT3および第4アバターAT4を含む画像)が、クライアント端末11の表示装置11Aによって表示される。
更に他の例では、仮想空間内における第1アバターAT1などの位置(第1ユーザUR1などの座標)が、コントローラ(図示せず)によって制御されてもよい。
図2に示す例では、仮想空間インターフェース装置12Xの表示データ生成部12Aは、クライアント端末11-2を使用する第2ユーザUR2の顔画像に基づいて生成された第2アバターAT2が、クライアント端末11-2の表示装置11Aによって表示される仮想空間内の最も手前側に位置するように、第2クライアント端末用表示データを生成する。
詳細には、仮想空間インターフェース装置12Xの表示データ生成部12Aは、クライアント端末11-2の表示装置11Aによって表示される仮想空間内において、第2アバターAT2の左隣にクライアント端末11-4を使用する第4ユーザに対応する第4アバターAT4が位置し、第2アバターAT2の右隣にクライアント端末11を使用する第1ユーザUR1に対応する第1アバターAT1が位置し、第2アバターAT2の正面にクライアント端末11-3を使用する第3ユーザUR3に対応する第3アバターAT3が位置するように、第2クライアント端末用表示データを生成する。
更に、仮想空間インターフェース装置12Xの表示データ生成部12Aは、クライアント端末11-3を使用する第3ユーザUR3の顔画像に基づいて生成された第3アバターAT3が、クライアント端末11-3の表示装置11Aによって表示される仮想空間内の最も手前側に位置するように、第3クライアント端末用表示データを生成する。
詳細には、仮想空間インターフェース装置12Xの表示データ生成部12Aは、クライアント端末11-3の表示装置11Aによって表示される仮想空間内において、第3アバターAT3の左隣にクライアント端末11を使用する第1ユーザUR1に対応する第1アバターAT1が位置し、第3アバターAT3の右隣にクライアント端末11-4を使用する第4ユーザに対応する第4アバターAT4が位置し、第3アバターAT3の正面にクライアント端末11-2を使用する第2ユーザUR2に対応する第2アバターAT2が位置するように、第3クライアント端末用表示データを生成する。
また、仮想空間インターフェース装置12Xの表示データ生成部12Aは、クライアント端末11-4を使用する第4ユーザの顔画像に基づいて生成された第4アバターAT4が、クライアント端末11-4の表示装置11Aによって表示される仮想空間内の最も手前側に位置するように、第4クライアント端末用表示データを生成する。
詳細には、仮想空間インターフェース装置12Xの表示データ生成部12Aは、クライアント端末11-4の表示装置11Aによって表示される仮想空間内において、第4アバターAT4の左隣にクライアント端末11-3を使用する第3ユーザUR3に対応する第3アバターAT3が位置し、第4アバターAT4の右隣にクライアント端末11-2を使用する第2ユーザUR2に対応する第2アバターAT2が位置し、第4アバターAT4の正面にクライアント端末11を使用する第1ユーザUR1に対応する第1アバターAT1が位置するように、第4クライアント端末用表示データを生成する。
図3は第1ユーザUR1が第1ユーザUR1の目に第1ユーザUR1の手を当てる動作の一例を説明するための図である。図4は第1ユーザUR1がクライアント端末11の撮影装置11Dと第1ユーザUR1の顔との距離を変化させる例を説明するための図である。詳細には、図4(A)は第1ユーザUR1が第1ユーザUR1の顔をクライアント端末11の撮影装置11Dに近づける例を示しており、図4(B)は第1ユーザUR1が第1ユーザUR1の顔をクライアント端末11の撮影装置11Dから遠ざける例を示している。図5は仮想空間インターフェース装置12Xの表示データ生成部12Aによって行われる制御の第1例を説明するための図である。詳細には、図5(A)はクライアント端末11の表示装置11Aによって表示される図2に示す仮想空間内の状況を示す画像を拡大することによって得られる拡大画像を示しており、図5(B)はクライアント端末11の表示装置11Aによって表示される図2に示す仮想空間内の状況を示す画像を縮小することによって得られる縮小画像を示している。
図1に示す例では、仮想空間インターフェース装置12Xの表示データ生成部12Aは、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が第1ユーザUR1の目に第1ユーザUR1の手を当てる動作(図3参照)と、クライアント端末11の撮影装置11Dと第1ユーザUR1の顔との距離(図4参照)とに基づいて、クライアント端末11の表示装置11Aによって表示される仮想空間内の状況を示す画像(図2参照)の拡大および/または縮小を制御する。「画像の拡大および/または縮小を制御する」とは、表示データ生成部12Aが、例えばクライアント端末11の表示装置11Aによって表示される仮想空間内の状況を示す画像を拡大する機能、および、クライアント端末11の表示装置11Aによって表示される仮想空間内の状況を示す画像を縮小する機能の両方を有することを意味する。表示データ生成部12Aは、第1の場合(例えば、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が、第1ユーザUR1の目に第1ユーザUR1の手を当てる動作をし、かつ、第1ユーザUR1の顔をクライアント端末11の撮影装置11Dに近づける動作をする場合)に、例えばクライアント端末11の表示装置11Aによって表示される仮想空間内の状況を示す画像を拡大する制御を実行する。表示データ生成部12Aは、第1の場合とは異なる第2の場合(例えば、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が、第1ユーザUR1の目に第1ユーザUR1の手を当てる動作をし、かつ、第1ユーザUR1の顔をクライアント端末11の撮影装置11Dから遠ざける動作をする場合)に、例えばクライアント端末11の表示装置11Aによって表示される仮想空間内の状況を示す画像を縮小する制御を実行する。
具体的には、仮想空間インターフェース装置12Xの表示データ生成部12Aは、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が、第1ユーザUR1の目に第1ユーザUR1の手を当てる動作(図3参照)をし、かつ、第1ユーザUR1の顔をクライアント端末11の撮影装置11Dに近づける動作(図4(A)参照)をする場合に、クライアント端末11の表示装置11Aによって表示される仮想空間内の状況を示す画像(図2参照)を拡大する制御を実行し、図5(A)に示す拡大画像をクライアント端末11の表示装置11Aに表示させるための第1クライアント端末用表示データを生成する。
また、仮想空間インターフェース装置12Xの表示データ生成部12Aは、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が、第1ユーザUR1の目に第1ユーザUR1の手を当てる動作(図3参照)をし、かつ、第1ユーザUR1の顔をクライアント端末11の撮影装置11Dから遠ざける動作(図4(B)参照)をする場合に、クライアント端末11の表示装置11Aによって表示される仮想空間内の状況を示す画像(図2参照)を縮小する制御を実行し、図5(B)に示す縮小画像をクライアント端末11の表示装置11Aに表示させるための第1クライアント端末用表示データを生成する。
図1に示す例では、仮想空間インターフェース装置12Xの表示データ生成部12Aが、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1の顔画像に基づいて、第1ユーザUR1が第1ユーザUR1の目に第1ユーザUR1の手を当てる動作(図3参照)をしたか否かを判定する。仮想空間インターフェース装置12Xの表示データ生成部12Aが、例えば特許文献3の段落0041に記載された手法と同様に現在までの公知のジェスチャ認識に関する従来技術を用いることによって、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1の顔画像に基づいて、第1ユーザUR1が第1ユーザUR1の目に第1ユーザUR1の手を当てる動作をしたか否かを判定してもよい。「第1ユーザUR1が第1ユーザUR1の目に第1ユーザUR1の手を当てる動作」には、例えば、第1ユーザUR1が第1ユーザUR1のまぶた等に第1ユーザUR1の手を触れさせる動作、第1ユーザUR1が、第1ユーザUR1のまぶた等に第1ユーザUR1の手を触れさせないものの、第1ユーザUR1が、第1ユーザUR1の手を、第1ユーザUR1の顔全体のうちの目の部位に最も近づける動作などが含まれる。つまり、第1ユーザUR1が第1ユーザUR1の手を第1ユーザUR1の顔に触れさせない動作も、「第1ユーザUR1が第1ユーザUR1の目に第1ユーザUR1の手を当てる動作」に該当し得る。
図1に示す例では、仮想空間インターフェース装置12Xの表示データ生成部12Aが、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1の顔画像に基づいて、第1ユーザUR1が第1ユーザUR1の顔をクライアント端末11の撮影装置11Dに近づける動作(図4(A)参照)をしたか否か、第1ユーザUR1が第1ユーザUR1の顔をクライアント端末11の撮影装置11Dから遠ざける動作(図4(B)参照)をしたか否か等を判定する。仮想空間インターフェース装置12Xの表示データ生成部12Aが、特許文献4に記載されるように第1時刻にクライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1の顔画像上の例えば2つの特徴点間の距離と、第2時刻にクライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1の顔画像上のそれらの特徴点間の距離とに基づいて、第1ユーザUR1が第1ユーザUR1の顔をクライアント端末11の撮影装置11Dに近づける動作をしたか否か、第1ユーザUR1が第1ユーザUR1の顔をクライアント端末11の撮影装置11Dから遠ざける動作をしたか否か等を判定してもよい。
また、仮想空間インターフェース装置12Xの表示データ生成部12Aが、公知のカメラによる距離測定技術を用いることにより、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1の顔画像に基づいて、第1ユーザUR1が第1ユーザUR1の顔をクライアント端末11の撮影装置11Dに近づける動作(図4(A)参照)をしたか否か、第1ユーザUR1が第1ユーザUR1の顔をクライアント端末11の撮影装置11Dから遠ざける動作(図4(B)参照)をしたか否か等を判定してもよい。
図1に示す例では、仮想空間インターフェース装置12Xの表示データ生成部12Aは、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2が第2ユーザUR2の目に第2ユーザUR2の手を当てる動作と、クライアント端末11-2の撮影装置11Dと第2ユーザUR2の顔との距離とに基づいて、クライアント端末11-2の表示装置11Aによって表示される仮想空間内の状況を示す画像(第2クライアント端末用表示データに基づいてクライアント端末11-2の表示装置11Aによって表示される画像)の拡大および/または縮小を制御する。
同様に、仮想空間インターフェース装置12Xの表示データ生成部12Aは、クライアント端末11-3の撮影装置11Dによって撮影される第3ユーザUR3が第3ユーザUR3の目に第3ユーザUR3の手を当てる動作と、クライアント端末11-3の撮影装置11Dと第3ユーザUR3の顔との距離とに基づいて、クライアント端末11-3の表示装置11Aによって表示される仮想空間内の状況を示す画像(第3クライアント端末用表示データに基づいてクライアント端末11-3の表示装置11Aによって表示される画像)の拡大および/または縮小を制御し、クライアント端末11-4の撮影装置11Dによって撮影される第4ユーザが第4ユーザの目に第4ユーザの手を当てる動作と、クライアント端末11-4の撮影装置11Dと第4ユーザの顔との距離とに基づいて、クライアント端末11-4の表示装置11Aによって表示される仮想空間内の状況を示す画像(第4クライアント端末用表示データに基づいてクライアント端末11-4の表示装置11Aによって表示される画像)の拡大および/または縮小を制御する。
図6は第1ユーザUR1がクライアント端末11の撮影装置11Dに対する第1ユーザUR1の顔の向きを変化させる例を説明するための図である。詳細には、図6(A)は第1ユーザUR1が第1ユーザUR1の顔をクライアント端末11の撮影装置11Dの左側に向ける例を示しており、図6(B)は第1ユーザUR1が第1ユーザUR1の顔をクライアント端末11の撮影装置11Dの右側に向ける例を示している。図7は仮想空間インターフェース装置12Xの表示データ生成部12Aによって行われる制御の第2例を説明するための図である。詳細には、図7(A)はクライアント端末11の表示装置11Aによって表示される図2に示す仮想空間内の状況を示す画像の左側部分を中央に移動させることによって得られる画像を示しており、図7(B)はクライアント端末11の表示装置11Aによって表示される図2に示す仮想空間内の状況を示す画像の右側部分を中央に移動させることによって得られる画像を示している。
図1に示す例では、仮想空間インターフェース装置12Xの表示データ生成部12Aは、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が第1ユーザUR1の目に第1ユーザUR1の手を当てる動作(図3参照)と、クライアント端末11の撮影装置11Dに対する第1ユーザUR1の顔の向き(図6参照)とに基づいて、仮想空間内における位置であって、クライアント端末11の表示装置11Aによって表示される画像に対応する位置を制御する。
具体的には、仮想空間インターフェース装置12Xの表示データ生成部12Aは、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が、第1ユーザUR1の目に第1ユーザUR1の手を当てる動作(図3参照)をし、かつ、第1ユーザUR1の顔をクライアント端末11の撮影装置11Dの左側(図6(A)の左側)に向ける動作(図6(A)参照)をする場合に、仮想空間内において第1アバターAT1の左隣に位置する第2アバターAT2を、クライアント端末11の表示装置11Aによって表示される画像(図7(A)参照)の左右方向の中央に配置する制御を実行する。更に、仮想空間インターフェース装置12Xの表示データ生成部12Aは、図7(A)に示す画像(つまり、図2に示す画像の左側部分を中央に移動させることによって得られる画像)をクライアント端末11の表示装置11Aに表示させるための第1クライアント端末用表示データを生成する。
また、仮想空間インターフェース装置12Xの表示データ生成部12Aは、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が、第1ユーザUR1の目に第1ユーザUR1の手を当てる動作(図3参照)をし、かつ、第1ユーザUR1の顔をクライアント端末11の撮影装置11Dの右側(図6(B)の右側)に向ける動作(図6(B)参照)をする場合に、仮想空間内において第1アバターAT1の右隣に位置する第3アバターAT3を、クライアント端末11の表示装置11Aによって表示される画像(図7(B)参照)の左右方向の中央に配置する制御を実行する。更に、仮想空間インターフェース装置12Xの表示データ生成部12Aは、図7(B)に示す画像(つまり、図2に示す画像の右側部分を中央に移動させることによって得られる画像)をクライアント端末11の表示装置11Aに表示させるための第1クライアント端末用表示データを生成する。
図1に示す例では、仮想空間インターフェース装置12Xの表示データ生成部12Aが、例えば特許文献5の段落0054に記載された手法と同様の手法などを用いることにより、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1の顔画像に基づいて、第1ユーザUR1が第1ユーザUR1の顔をクライアント端末11の撮影装置11Dの左側に向ける動作(図6(A)参照)をしたか否か、第1ユーザUR1が第1ユーザUR1の顔をクライアント端末11の撮影装置11Dの右側に向ける動作(図6(B)参照)をしたか否か等を判定する。
他の例では、仮想空間インターフェース装置12Xの表示データ生成部12Aが、例えば第1時刻にクライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1の顔画像上の例えば2つの特徴点間の距離の変化速度に基づいて、第1ユーザUR1が第1ユーザUR1の顔をクライアント端末11の撮影装置11Dの側方に向ける動作をしたか否か等を判定してもよい。
図1に示す例では、仮想空間インターフェース装置12Xの表示データ生成部12Aは、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2が第2ユーザUR2の目に第2ユーザUR2の手を当てる動作と、クライアント端末11-2の撮影装置11Dに対する第2ユーザUR2の顔の向きとに基づいて、仮想空間内における位置であって、クライアント端末11-2の表示装置11Aによって表示される画像に対応する位置を制御する。例えば、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2が、第2ユーザUR2の目に第2ユーザUR2の手を当てる動作をし、かつ、第2ユーザUR2の顔をクライアント端末11-2の撮影装置11Dの左側に向ける動作(仮想空間内の第4アバターAT4に向ける動作)をする場合に、仮想空間インターフェース装置12Xの表示データ生成部12Aは、仮想空間内において第2アバターAT2の左隣に位置する第4アバターAT4を、クライアント端末11-2の表示装置11Aによって表示される画像の左右方向の中央に配置する制御を実行する。
更に、仮想空間インターフェース装置12Xの表示データ生成部12Aは、クライアント端末11-3の撮影装置11Dによって撮影される第3ユーザUR3が第3ユーザUR3の目に第3ユーザUR3の手を当てる動作と、クライアント端末11-3の撮影装置11Dに対する第3ユーザUR3の顔の向きとに基づいて、仮想空間内における位置であって、クライアント端末11-3の表示装置11Aによって表示される画像に対応する位置を制御する。例えば、クライアント端末11-3の撮影装置11Dによって撮影される第3ユーザUR3が、第3ユーザUR3の目に第3ユーザUR3の手を当てる動作をし、かつ、第3ユーザUR3の顔をクライアント端末11-3の撮影装置11Dの左側に向ける動作(仮想空間内の第1アバターAT1に向ける動作)をする場合に、仮想空間インターフェース装置12Xの表示データ生成部12Aは、仮想空間内において第3アバターAT3の左隣に位置する第1アバターAT1を、クライアント端末11-3の表示装置11Aによって表示される画像の左右方向の中央に配置する制御を実行する。
同様に、仮想空間インターフェース装置12Xの表示データ生成部12Aは、クライアント端末11-4の撮影装置11Dによって撮影される第4ユーザが第4ユーザの目に第4ユーザの手を当てる動作と、クライアント端末11-4の撮影装置11Dに対する第4ユーザの顔の向きとに基づいて、仮想空間内における位置であって、クライアント端末11-4の表示装置11Aによって表示される画像に対応する位置を制御する。例えば、クライアント端末11-4の撮影装置11Dによって撮影される第4ユーザが、第4ユーザの目に第4ユーザの手を当てる動作をし、かつ、第4ユーザの顔をクライアント端末11-4の撮影装置11Dの左側に向ける動作(仮想空間内の第3アバターAT3に向ける動作)をする場合に、仮想空間インターフェース装置12Xの表示データ生成部12Aは、仮想空間内において第4アバターAT4の左隣に位置する第3アバターAT3を、クライアント端末11-4の表示装置11Aによって表示される画像の左右方向の中央に配置する制御を実行する。
図1に示す例では、音声データ生成部12Bが、仮想空間内の音声をクライアント端末11、11-2、11-3、11-4の音声出力装置11Bに出力させるための音声データを生成する。つまり、音声データ生成部12Bは、仮想空間内の音声をクライアント端末11の音声出力装置11Bに出力させるための音声データと、仮想空間内の音声をクライアント端末11-2の音声出力装置11Bに出力させるための音声データと、仮想空間内の音声をクライアント端末11-3の音声出力装置11Bに出力させるための音声データと、仮想空間内の音声をクライアント端末11-4の音声出力装置11Bに出力させるための音声データとを生成する。
詳細には、音声データ生成部12Bは、クライアント端末11-2の収音装置11Cによって収音される第2ユーザUR2が発する音声と、クライアント端末11-3の収音装置11Cによって収音される第3ユーザUR3が発する音声と、クライアント端末11-4の収音装置11Cによって収音される第4ユーザが発する音声とに基づいて、第2ユーザUR2が発する音声、第3ユーザUR3が発する音声および第4ユーザが発する音声を仮想空間内の音声としてクライアント端末11の音声出力装置11Bに出力させるための第1クライアント端末用音声データを生成する。
また、音声データ生成部12Bは、クライアント端末11の収音装置11Cによって収音される第1ユーザUR1が発する音声と、クライアント端末11-3の収音装置11Cによって収音される第3ユーザUR3が発する音声と、クライアント端末11-4の収音装置11Cによって収音される第4ユーザが発する音声とに基づいて、第1ユーザUR1が発する音声、第3ユーザUR3が発する音声および第4ユーザが発する音声を仮想空間内の音声としてクライアント端末11-2の音声出力装置11Bに出力させるための第2クライアント端末用音声データを生成する。
更に、音声データ生成部12Bは、クライアント端末11の収音装置11Cによって収音される第1ユーザUR1が発する音声と、クライアント端末11-2の収音装置11Cによって収音される第2ユーザUR2が発する音声と、クライアント端末11-4の収音装置11Cによって収音される第4ユーザが発する音声とに基づいて、第1ユーザUR1が発する音声、第2ユーザUR2が発する音声および第4ユーザが発する音声を仮想空間内の音声としてクライアント端末11-3の音声出力装置11Bに出力させるための第3クライアント端末用音声データを生成する。
また、音声データ生成部12Bは、クライアント端末11の収音装置11Cによって収音される第1ユーザUR1が発する音声と、クライアント端末11-2の収音装置11Cによって収音される第2ユーザUR2が発する音声と、クライアント端末11-3の収音装置11Cによって収音される第3ユーザUR3が発する音声とに基づいて、第1ユーザUR1が発する音声、第2ユーザUR2が発する音声および第3ユーザUR3が発する音声を仮想空間内の音声としてクライアント端末11-4の音声出力装置11Bに出力させるための第4クライアント端末用音声データを生成する。
他の例では、音声データ生成部12Bが、第1ユーザUR1~第4ユーザUR4が発生する音声とは異なる、例えば背景音、アバター以外のオブジェクトに設定された音声(例えば動作音など)等をクライアント端末11、11-2、11-3、11-4の音声出力装置11Bに出力させるための音声データ、音声データ生成部12Bが、第1ユーザUR1~第4ユーザUR4が発生する音声とは異なる、例えば背景音、アバター以外のオブジェクトに設定された音声等を仮想空間内に出力(放音)するための音声データなどを生成してもよい。
図1に示す例では、音声データ生成部12Bが、クライアント端末11の収音装置11Cによって収音される第1ユーザUR1が発する音声、クライアント端末11-2の収音装置11Cによって収音される第2ユーザUR2が発する音声、クライアント端末11-3の収音装置11Cによって収音される第3ユーザUR3が発する音声、クライアント端末11-4の収音装置11Cによって収音される第4ユーザUR4が発する音声などに基づいて、クライアント端末11、11-2、11-3、11-4のいずれの音声出力装置11Bにも出力させないものの、仮想空間内に出力される(例えば仮想空間インターフェース装置12Xに記録される)音声データを生成することもできる。
図8は第2ユーザUR2が第2ユーザUR2の耳に第2ユーザUR2の手を当てる動作の一例を説明するための図である。
図1に示す例では、仮想空間インターフェース装置12Xの音声データ生成部12Bが、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2の顔画像に基づいて、第2ユーザUR2が第2ユーザUR2の耳に第2ユーザUR2の手を当てる動作をしたか否かを判定する。仮想空間インターフェース装置12Xの音声データ生成部12Bが、例えば特許文献3の段落0041に記載された手法と同様に現在までの公知のジェスチャ認識に関する従来技術を用いることによって、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2の顔画像に基づいて、第2ユーザUR2が第2ユーザUR2の耳に第2ユーザUR2の手を当てる動作をしたか否かを判定してもよい。「第2ユーザUR2が第2ユーザUR2の耳に第2ユーザUR2の手を当てる動作」には、例えば、第2ユーザUR2が第2ユーザUR2の耳に第2ユーザUR2の手を触れさせる動作、第2ユーザUR2が、第2ユーザUR2の耳に第2ユーザUR2の手を触れさせないものの、第2ユーザUR2が、第2ユーザUR2の手を、第2ユーザUR2の顔全体のうちの耳の部位に最も近づける動作などが含まれる。つまり、第2ユーザUR2が第2ユーザUR2の手を第2ユーザUR2の顔に触れさせない動作も、「第2ユーザUR2が第2ユーザUR2の耳に第2ユーザUR2の手を当てる動作」に該当し得る。
図1に示す例では、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が第1ユーザUR1の耳に第1ユーザUR1の手を当てる動作と、クライアント端末11の撮影装置11Dと第1ユーザUR1の顔との距離(図4参照)とに基づいて、クライアント端末11の音声出力装置11Bによって出力される仮想空間内の音声の音量を制御する。
具体的には、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が、第1ユーザUR1の耳に第1ユーザUR1の手を当てる動作をし、かつ、第1ユーザUR1の顔をクライアント端末11の撮影装置11Dに近づける動作(図4(A)参照)をする場合に、クライアント端末11の音声出力装置11Bによって出力される仮想空間内の音声の音量を増加させる制御を実行し、音量が増加させられた仮想空間内の音声をクライアント端末11の音声出力装置11Bに出力させるための第1クライアント端末用音声データを生成する。
また、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が、第1ユーザUR1の耳に第1ユーザUR1の手を当てる動作をし、かつ、第1ユーザUR1の顔をクライアント端末11の撮影装置11Dから遠ざける動作(図4(B)参照)をする場合に、クライアント端末11の音声出力装置11Bによって出力される仮想空間内の音声の音量を減少させる制御を実行し、音量が減少させられた仮想空間内の音声をクライアント端末11の音声出力装置11Bに出力させるための第1クライアント端末用音声データを生成する。例えば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、図2に示す仮想空間内において第1アバターAT1から最も離れている第4アバターAT4に対応する第4ユーザが発する音声が、クライアント端末11の音声出力装置11Bによって出力されなくなるように制御してもよい。
図1に示す例では、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2が第2ユーザUR2の耳に第2ユーザUR2の手を当てる動作(図8参照)と、クライアント端末11-2の撮影装置11Dと第2ユーザUR2の顔との距離とに基づいて、クライアント端末11-2の音声出力装置11Bによって出力される仮想空間内の音声の音量を制御する。
具体的には、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2が、第2ユーザUR2の耳に第2ユーザUR2の手を当てる動作(図8参照)をし、かつ、第2ユーザUR2の顔をクライアント端末11-2の撮影装置11Dに近づける動作をする場合に、クライアント端末11-2の音声出力装置11Bによって出力される仮想空間内の音声の音量を増加させる制御を実行し、音量が増加させられた仮想空間内の音声をクライアント端末11-2の音声出力装置11Bに出力させるための第2クライアント端末用音声データを生成する。
また、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2が、第2ユーザUR2の耳に第2ユーザUR2の手を当てる動作(図8参照)をし、かつ、第2ユーザUR2の顔をクライアント端末11-2の撮影装置11Dから遠ざける動作をする場合に、クライアント端末11-2の音声出力装置11Bによって出力される仮想空間内の音声の音量を減少させる制御を実行し、音量が減少させられた仮想空間内の音声をクライアント端末11-2の音声出力装置11Bに出力させるための第2クライアント端末用音声データを生成する。例えば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、図2に示す仮想空間内において第2アバターAT2から最も離れている第3アバターAT3に対応する第3ユーザUR3が発する音声が、クライアント端末11-2の音声出力装置11Bによって出力されなくなるように制御してもよい。
図1に示す例では、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-3の撮影装置11Dによって撮影される第3ユーザUR3が第3ユーザUR3の耳に第3ユーザUR3の手を当てる動作と、クライアント端末11-3の撮影装置11Dと第3ユーザUR3の顔との距離とに基づいて、クライアント端末11-3の音声出力装置11Bによって出力される仮想空間内の音声の音量を制御する。また、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-4の撮影装置11Dによって撮影される第4ユーザが第4ユーザの耳に第4ユーザの手を当てる動作と、クライアント端末11-4の撮影装置11Dと第4ユーザの顔との距離とに基づいて、クライアント端末11-4の音声出力装置11Bによって出力される仮想空間内の音声の音量を制御する。
また、図1に示す例では、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が第1ユーザUR1の耳に第1ユーザUR1の手を当てる動作と、クライアント端末11の撮影装置11Dに対する第1ユーザUR1の顔の向き(図6参照)とに基づいて、クライアント端末11の音声出力装置11Bによって出力される仮想空間からの音声の到来方向を制御する。
図1および図2に示す例では、仮想空間インターフェース装置12Xの音声データ生成部12Bが、クライアント端末11の音声出力装置11Bによって出力される仮想空間からの音声の到来方向の制御を実行するために、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が第1ユーザUR1の耳に第1ユーザUR1の手を当てる動作と、クライアント端末11の撮影装置11Dに対する第1ユーザUR1の顔の向きと、仮想空間内における第2アバターAT2の位置、第3アバターAT3の位置および第4アバターAT4の位置とに基づいて、クライアント端末11の音声出力装置11Bによって仮想空間内の音声として出力される、第2ユーザUR2が発する音声、第3ユーザUR3が発する音声および第4ユーザが発する音声の音量を制御する。
具体的には、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が、第1ユーザUR1の耳に第1ユーザUR1の手を当てる動作をし、かつ、第1ユーザUR1の顔をクライアント端末11の撮影装置11Dの左側(図6(A)の左側、図2に示す仮想空間内の第2アバターAT2の側、図2に示す仮想空間内の第3アバターAT3の反対側)に向ける動作(図6(A)参照)をする場合に、クライアント端末11の音声出力装置11Bによって仮想空間内の音声として出力される、第2ユーザUR2が発する音声の音量を増加させると共に、第3ユーザUR3が発する音声の音量を減少させる制御を実行する。更に、仮想空間インターフェース装置12Xの音声データ生成部12Bは、第2ユーザUR2が発する音声の音量が増加させられると共に、第3ユーザUR3が発する音声の音量が減少させられた仮想空間内の音声をクライアント端末11の音声出力装置11Bに出力させるための第1クライアント端末用音声データを生成する。例えば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、図2に示す仮想空間内における第3アバターAT3に対応する第3ユーザUR3が発する音声が、クライアント端末11の音声出力装置11Bによって出力されなくなるように制御してもよい。
また、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が、第1ユーザUR1の耳に第1ユーザUR1の手を当てる動作をし、かつ、第1ユーザUR1の顔をクライアント端末11の撮影装置11Dの右側(図6(B)の右側、図2に示す仮想空間内の第3アバターAT3の側、図2に示す仮想空間内の第2アバターAT2の反対側)に向ける動作(図6(B)参照)をする場合に、クライアント端末11の音声出力装置11Bによって仮想空間内の音声として出力される、第3ユーザUR3が発する音声の音量を増加させると共に、第2ユーザUR2が発する音声の音量を減少させる制御を実行する。更に、仮想空間インターフェース装置12Xの音声データ生成部12Bは、第3ユーザUR3が発する音声の音量が増加させられると共に、第2ユーザUR2が発する音声の音量が減少させられた仮想空間内の音声をクライアント端末11の音声出力装置11Bに出力させるための第1クライアント端末用音声データを生成する。例えば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、図2に示す仮想空間内における第2アバターAT2に対応する第2ユーザUR2が発する音声が、クライアント端末11の音声出力装置11Bによって出力されなくなるように制御してもよい。
すなわち、仮想空間内における第1アバターAT1に対して、第1ユーザUR1の顔を向けた方向から到来する音声の音量を増加し、第1ユーザUR1の顔を向けた方向とは逆方向から到来する音声の音量を減少させることにより、仮想空間からの音声の到来方向を制御する。
更に、図1に示す例では、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2が第2ユーザUR2の耳に第2ユーザUR2の手を当てる動作(図8参照)と、クライアント端末11-2の撮影装置11Dに対する第2ユーザUR2の顔の向きとに基づいて、クライアント端末11-2の音声出力装置11Bによって出力される仮想空間からの音声の到来方向を制御する。
図1および図2に示す例では、仮想空間インターフェース装置12Xの音声データ生成部12Bが、クライアント端末11-2の音声出力装置11Bによって出力される仮想空間からの音声の到来方向の制御を実行するために、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2が第2ユーザUR2の耳に第2ユーザUR2の手を当てる動作と、クライアント端末11-2の撮影装置11Dに対する第2ユーザUR2の顔の向きと、仮想空間内における第1アバターAT1の位置、第3アバターAT3の位置および第4アバターAT4の位置とに基づいて、クライアント端末11-2の音声出力装置11Bによって仮想空間内の音声として出力される、第1ユーザUR1が発する音声、第3ユーザUR3が発する音声および第4ユーザが発する音声の音量を制御する。
具体的には、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2が、第2ユーザUR2の耳に第2ユーザUR2の手を当てる動作(図8参照)をし、かつ、第2ユーザUR2の顔をクライアント端末11-2の撮影装置11Dの左側(図2に示す仮想空間内の第4アバターAT4の側、図2に示す仮想空間内の第1アバターAT1の反対側)に向ける動作をする場合に、クライアント端末11-2の音声出力装置11Bによって仮想空間内の音声として出力される、第4ユーザが発する音声の音量を増加させると共に、第1ユーザUR1が発する音声の音量を減少させる制御を実行する。更に、仮想空間インターフェース装置12Xの音声データ生成部12Bは、第4ユーザが発する音声の音量が増加させられると共に、第1ユーザUR1が発する音声の音量が減少させられた仮想空間内の音声をクライアント端末11-2の音声出力装置11Bに出力させるための第2クライアント端末用音声データを生成する。例えば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、図2に示す仮想空間内における第1アバターAT1に対応する第1ユーザUR1が発する音声が、クライアント端末11-2の音声出力装置11Bによって出力されなくなるように制御してもよい。
また、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2が、第2ユーザUR2の耳に第2ユーザUR2の手を当てる動作(図8参照)をし、かつ、第2ユーザUR2の顔をクライアント端末11-2の撮影装置11Dの右側(図2に示す仮想空間内の第1アバターAT1の側、図2に示す仮想空間内の第4アバターAT4の反対側)に向ける動作をする場合に、クライアント端末11-2の音声出力装置11Bによって仮想空間内の音声として出力される、第1ユーザUR1が発する音声の音量を増加させると共に、第4ユーザが発する音声の音量を減少させる制御を実行する。更に、仮想空間インターフェース装置12Xの音声データ生成部12Bは、第1ユーザUR1が発する音声の音量が増加させられると共に、第4ユーザが発する音声の音量が減少させられた仮想空間内の音声をクライアント端末11-2の音声出力装置11Bに出力させるための第2クライアント端末用音声データを生成する。例えば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、図2に示す仮想空間内における第4アバターAT4に対応する第4ユーザが発する音声が、クライアント端末11-2の音声出力装置11Bによって出力されなくなるように制御してもよい。
図1に示す例では、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-3の撮影装置11Dによって撮影される第3ユーザUR3が第3ユーザUR3の耳に第3ユーザUR3の手を当てる動作と、クライアント端末11-3の撮影装置11Dに対する第3ユーザUR3の顔の向きとに基づいて、クライアント端末11-3の音声出力装置11Bによって出力される仮想空間からの音声の到来方向を制御する。図1および図2に示す例では、仮想空間インターフェース装置12Xの音声データ生成部12Bが、クライアント端末11-3の音声出力装置11Bによって出力される仮想空間からの音声の到来方向の制御を実行するために、クライアント端末11-3の撮影装置11Dによって撮影される第3ユーザUR3が第3ユーザUR3の耳に第3ユーザUR3の手を当てる動作と、クライアント端末11-3の撮影装置11Dに対する第3ユーザUR3の顔の向きと、仮想空間内における第1アバターAT1の位置、第2アバターAT2の位置および第4アバターAT4の位置とに基づいて、クライアント端末11-3の音声出力装置11Bによって仮想空間内の音声として出力される、第1ユーザUR1が発する音声、第2ユーザUR2が発する音声および第4ユーザが発する音声の音量を制御する。また、図1に示す例では、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-4の撮影装置11Dによって撮影される第4ユーザが第4ユーザの耳に第4ユーザの手を当てる動作と、クライアント端末11-4の撮影装置11Dに対する第4ユーザの顔の向きとに基づいて、クライアント端末11-4の音声出力装置11Bによって出力される仮想空間からの音声の到来方向を制御する。図1および図2に示す例では、仮想空間インターフェース装置12Xの音声データ生成部12Bが、クライアント端末11-4の音声出力装置11Bによって出力される仮想空間からの音声の到来方向の制御を実行するために、クライアント端末11-4の撮影装置11Dによって撮影される第4ユーザが第4ユーザの耳に第4ユーザの手を当てる動作と、クライアント端末11-4の撮影装置11Dに対する第4ユーザの顔の向きと、仮想空間内における第1アバターAT1の位置、第2アバターAT2の位置および第3アバターAT3の位置とに基づいて、クライアント端末11-4の音声出力装置11Bによって仮想空間内の音声として出力される、第1ユーザUR1が発する音声、第2ユーザUR2が発する音声および第3ユーザUR3が発する音声の音量を制御する。
図9は第3ユーザUR3が第3ユーザUR3の口に第3ユーザUR3の手を当てる動作の一例を説明するための図である。
図1に示す例では、仮想空間インターフェース装置12Xの音声データ生成部12Bが、クライアント端末11-3の撮影装置11Dによって撮影される第3ユーザUR3の顔画像に基づいて、第3ユーザUR3が第3ユーザUR3の口に第3ユーザUR3の手を当てる動作をしたか否かを判定する。仮想空間インターフェース装置12Xの音声データ生成部12Bが、例えば特許文献3の段落0041に記載された手法と同様に現在までの公知のジェスチャ認識に関する従来技術を用いることによって、クライアント端末11-3の撮影装置11Dによって撮影される第3ユーザUR3の顔画像に基づいて、第3ユーザUR3が第3ユーザUR3の口に第3ユーザUR3の手を当てる動作をしたか否かを判定してもよい。「第3ユーザUR3が第3ユーザUR3の口に第3ユーザUR3の手を当てる動作」には、例えば、第3ユーザUR3が第3ユーザUR3の口に第3ユーザUR3の手を触れさせる動作、第3ユーザUR3が、第3ユーザUR3の口に第3ユーザUR3の手を触れさせないものの、第3ユーザUR3が、第3ユーザUR3の手を、第3ユーザUR3の顔全体のうちの口の部位に最も近づける動作などが含まれる。つまり、第3ユーザUR3が第3ユーザUR3の手を第3ユーザUR3の顔に触れさせない動作も、「第3ユーザUR3が第3ユーザUR3の口に第3ユーザUR3の手を当てる動作」に該当し得る。
図1に示す例では、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が第1ユーザUR1の口に第1ユーザUR1の手を当てる動作と、クライアント端末11の撮影装置11Dと第1ユーザUR1の顔との距離(図4参照)とに基づいて、クライアント端末11の収音装置11Cによって収音されて仮想空間内に出力される第1ユーザUR1が発する音声の音量を制御する。仮想空間内に出力される第1ユーザUR1が発する音声は、クライアント端末11-2、11-3、11-4のそれぞれの音声出力装置11Bによって出力されてもよく、クライアント端末11-2、11-3、11-4のそれぞれの音声出力装置11Bによって出力されなくてもよい(この場合、第1ユーザUR1が発する音声は、例えば仮想空間インターフェース装置12Xに記録されてもよい)。
例えば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が、第1ユーザUR1の口に第1ユーザUR1の手を当てる動作をし、かつ、第1ユーザUR1の顔をクライアント端末11の撮影装置11Dに近づける動作(図4(A)参照)をする場合に、仮想空間内に出力されてクライアント端末11-2の音声出力装置11Bによって出力される第1ユーザUR1が発する音声の音量を増加させる制御を実行し、音量が増加させられた仮想空間内の音声をクライアント端末11-2の音声出力装置11Bに出力させるための第2クライアント端末用音声データを生成し、仮想空間内に出力されてクライアント端末11-3の音声出力装置11Bによって出力される第1ユーザUR1が発する音声の音量を増加させる制御を実行し、音量が増加させられた仮想空間内の音声をクライアント端末11-3の音声出力装置11Bに出力させるための第3クライアント端末用音声データを生成し、仮想空間内に出力されてクライアント端末11-4の音声出力装置11Bによって出力される第1ユーザUR1が発する音声の音量を増加させる制御を実行し、音量が増加させられた仮想空間内の音声をクライアント端末11-4の音声出力装置11Bに出力させるための第4クライアント端末用音声データを生成する。
換言すれば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11の収音装置11Cによって収音される第1ユーザUR1が発する音声が仮想空間内に放音(出力)される音量を増加させる制御を実行する。
また、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が、第1ユーザUR1の口に第1ユーザUR1の手を当てる動作をし、かつ、第1ユーザUR1の顔をクライアント端末11の撮影装置11Dから遠ざける動作(図4(B)参照)をする場合に、仮想空間内に出力されてクライアント端末11-2の音声出力装置11Bによって出力される第1ユーザUR1が発する音声の音量を減少させる制御を実行し、音量が減少させられた仮想空間内の音声をクライアント端末11-2の音声出力装置11Bに出力させるための第2クライアント端末用音声データを生成し、仮想空間内に出力されてクライアント端末11-3の音声出力装置11Bによって出力される第1ユーザUR1が発する音声の音量を減少させる制御を実行し、音量が減少させられた仮想空間内の音声をクライアント端末11-3の音声出力装置11Bに出力させるための第3クライアント端末用音声データを生成し、仮想空間内に出力されてクライアント端末11-4の音声出力装置11Bによって出力される第1ユーザUR1が発する音声の音量を減少させる制御を実行し、音量が減少させられた仮想空間内の音声をクライアント端末11-4の音声出力装置11Bに出力させるための第4クライアント端末用音声データを生成する。
換言すれば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11の収音装置11Cによって収音される第1ユーザUR1が発する音声が仮想空間内に放音(出力)される音量を減少させる制御を実行する。
図1に示す例では、上述したように、第1ユーザUR1が、第1ユーザUR1の口に第1ユーザUR1の手を当て、かつ、第1ユーザUR1の顔をクライアント端末11の撮影装置11Dから遠ざける動作(図4(B)参照)をする場合に、音声データ生成部12Bが、仮想空間内に出力されてクライアント端末11-2等の音声出力装置11Bによって出力される第1ユーザUR1が発する音声の音量を減少させる制御を実行するが、他の例では、第1ユーザUR1が、第1ユーザUR1の口を第1ユーザUR1の手でふさぐ場合に、音声データ生成部12Bが、仮想空間内に出力されてクライアント端末11-2等の音声出力装置11Bによって出力される第1ユーザUR1が発する音声の音量をゼロにする制御を実行してもよい。
図1に示す例では、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2が第2ユーザUR2の口に第2ユーザUR2の手を当てる動作と、クライアント端末11-2の撮影装置11Dと第2ユーザUR2の顔との距離とに基づいて、クライアント端末11-2の収音装置11Cによって収音されて仮想空間内に出力される第2ユーザUR2が発する音声の音量を制御する。仮想空間内に出力される第2ユーザUR2が発する音声は、クライアント端末11、11-3、11-4のそれぞれの音声出力装置11Bによって出力されてもよく、クライアント端末11、11-3、11-4のそれぞれの音声出力装置11Bによって出力されなくてもよい(この場合、第2ユーザUR2が発する音声は、例えば仮想空間インターフェース装置12Xに記録されてもよい)。
例えば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2が、第2ユーザUR2の口に第2ユーザUR2の手を当てる動作をし、かつ、第2ユーザUR2の顔をクライアント端末11-2の撮影装置11Dに近づける動作をする場合に、仮想空間内に出力されてクライアント端末11の音声出力装置11Bによって出力される第2ユーザUR2が発する音声の音量を増加させる制御を実行し、音量が増加させられた仮想空間内の音声をクライアント端末11の音声出力装置11Bに出力させるための第1クライアント端末用音声データを生成し、仮想空間内に出力されてクライアント端末11-3の音声出力装置11Bによって出力される第2ユーザUR2が発する音声の音量を増加させる制御を実行し、音量が増加させられた仮想空間内の音声をクライアント端末11-3の音声出力装置11Bに出力させるための第3クライアント端末用音声データを生成し、仮想空間内に出力されてクライアント端末11-4の音声出力装置11Bによって出力される第2ユーザUR2が発する音声の音量を増加させる制御を実行し、音量が増加させられた仮想空間内の音声をクライアント端末11-4の音声出力装置11Bに出力させるための第4クライアント端末用音声データを生成する。
換言すれば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-2の収音装置11Cによって収音される第2ユーザUR2が発する音声が仮想空間内に放音(出力)される音量を増加させる制御を実行する。
また、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2が、第2ユーザUR2の口に第2ユーザUR2の手を当てる動作をし、かつ、第2ユーザUR2の顔をクライアント端末11-2の撮影装置11Dから遠ざける動作をする場合に、仮想空間内に出力されてクライアント端末11の音声出力装置11Bによって出力される第2ユーザUR2が発する音声の音量を減少させる制御を実行し、音量が減少させられた仮想空間内の音声をクライアント端末11の音声出力装置11Bに出力させるための第1クライアント端末用音声データを生成し、仮想空間内に出力されてクライアント端末11-3の音声出力装置11Bによって出力される第2ユーザUR2が発する音声の音量を減少させる制御を実行し、音量が減少させられた仮想空間内の音声をクライアント端末11-3の音声出力装置11Bに出力させるための第3クライアント端末用音声データを生成し、仮想空間内に出力されてクライアント端末11-4の音声出力装置11Bによって出力される第2ユーザUR2が発する音声の音量を減少させる制御を実行し、音量が減少させられた仮想空間内の音声をクライアント端末11-4の音声出力装置11Bに出力させるための第4クライアント端末用音声データを生成する。
換言すれば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-2の収音装置11Cによって収音される第2ユーザUR2が発する音声が仮想空間内に放音(出力)される音量を減少させる制御を実行する。
図1に示す例では、例えば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-3の撮影装置11Dによって撮影される第3ユーザUR3が第3ユーザUR3の口に第3ユーザUR3の手を当てる動作(図9参照)と、クライアント端末11-3の撮影装置11Dと第3ユーザUR3の顔との距離とに基づいて、仮想空間内に出力されてクライアント端末11、11-2、11-4のそれぞれの音声出力装置11Bによって出力される第3ユーザUR3が発する音声の音量を制御する。また、例えば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-4の撮影装置11Dによって撮影される第4ユーザが第4ユーザの口に第4ユーザの手を当てる動作と、クライアント端末11-4の撮影装置11Dと第4ユーザの顔との距離とに基づいて、仮想空間内に出力されてクライアント端末11、11-2、11-3のそれぞれの音声出力装置11Bによって出力される第4ユーザが発する音声の音量を制御する。
また、図1に示す例では、例えば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が第1ユーザUR1の口に第1ユーザUR1の手を当てる動作と、クライアント端末11の撮影装置11Dに対する第1ユーザUR1の顔の向き(図6参照)とに基づいて、第1ユーザUR1が発する音声(クライアント端末11の収音装置11Cによって収音される音声)の仮想空間への出力方向を制御する。
図1および図2に示す例では、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が第1ユーザUR1の口に第1ユーザUR1の手を当てる動作と、クライアント端末11の撮影装置11Dに対する第1ユーザUR1の顔の向きと、仮想空間内における第2アバターAT2の位置、第3アバターAT3の位置および第4アバターAT4の位置とに基づいて、仮想空間内に出力されてクライアント端末11-2の音声出力装置11Bによって出力される、第1ユーザUR1が発する音声の音量を制御し、仮想空間内に出力されてクライアント端末11-3の音声出力装置11Bによって出力される、第1ユーザUR1が発する音声の音量を制御し、仮想空間内に出力されてクライアント端末11-4の音声出力装置11Bによって出力される、第1ユーザUR1が発する音声の音量を制御する。
具体的には、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が、第1ユーザUR1の口に第1ユーザUR1の手を当てる動作をし、かつ、第1ユーザUR1の顔をクライアント端末11の撮影装置11Dの左側(図6(A)の左側、図2に示す仮想空間内の第2アバターAT2の側、図2に示す仮想空間内の第3アバターAT3の反対側)に向ける動作(図6(A)参照)をする場合に、仮想空間インターフェース装置12Xの音声データ生成部12Bは、仮想空間内に出力されてクライアント端末11-2の音声出力装置11Bによって出力される、第1ユーザUR1が発する音声の音量を増加させると共に、第1ユーザUR1が発する音声の音量が増加させられた仮想空間内の音声をクライアント端末11-2の音声出力装置11Bに出力させるための第2クライアント端末用音声データを生成する。また、仮想空間インターフェース装置12Xの音声データ生成部12Bは、仮想空間内に出力されてクライアント端末11-3の音声出力装置11Bによって出力される、第1ユーザUR1が発する音声の音量を減少させると共に、第1ユーザUR1が発する音声の音量が減少させられた仮想空間内の音声をクライアント端末11-3の音声出力装置11Bに出力させるための第3クライアント端末用音声データを生成する。更に、例えば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、仮想空間内に出力されてクライアント端末11-4の音声出力装置11Bによって出力される、第1ユーザUR1が発する音声の音量を変更せず、第1ユーザUR1が発する音声の音量が変更されない仮想空間内の音声をクライアント端末11-4の音声出力装置11Bに出力させるための第4クライアント端末用音声データを生成する。
すなわち、仮想空間内における第1アバターAT1に対して、第1ユーザUR1の顔を向けた方向に存在するアバター(例えば第2アバターAT2)に対応するユーザ(例えば第2ユーザUR2)のクライアント端末(例えばクライアント端末11-2)の音声出力装置11Bによって出力される音声の音量を増加し、第1ユーザUR1の顔を向けた方向とは逆方向に存在するアバター(例えば第3アバターAT3)に対応するユーザ(例えば第3ユーザUR3)のクライアント端末(クライアント端末11-3)の音声出力装置11Bによって出力される音声の音量を減少させることにより、音声の方向を制御する。
換言すれば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11の収音装置11Cによって収音される第1ユーザUR1が発する音声が仮想空間内に放音(出力)される方向の制御を実行する。
図1に示す例では、上述したように、第1ユーザUR1が、第1ユーザUR1の口に第1ユーザUR1の手を当て、かつ、第1ユーザUR1の顔をクライアント端末11の撮影装置11Dの左側(図2に示す仮想空間内の第3アバターAT3の反対側)に向ける動作をする場合に、音声データ生成部12Bが、クライアント端末11-3の音声出力装置11Bによって出力される第1ユーザUR1が発する音声の音量を減少させる制御を実行するが、他の例では、第1ユーザUR1が、第1ユーザUR1の口を第1ユーザUR1の手でふさぐ場合に、音声データ生成部12Bが、クライアント端末11-3等の音声出力装置11Bによって出力される第1ユーザUR1が発する音声の音量をゼロにする制御を実行してもよい。
また、例えば、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1が、第1ユーザUR1の口に第1ユーザUR1の手を当てる動作をし、かつ、第1ユーザUR1の顔をクライアント端末11の撮影装置11Dの右側(図6(B)の右側、図2に示す仮想空間内の第3アバターAT3の側、図2に示す仮想空間内の第2アバターAT2の反対側)に向ける動作(図6(B)参照)をする場合に、仮想空間インターフェース装置12Xの音声データ生成部12Bは、仮想空間内に出力されてクライアント端末11-2の音声出力装置11Bによって出力される、第1ユーザUR1が発する音声の音量を減少させると共に、第1ユーザUR1が発する音声の音量が減少させられた仮想空間内の音声をクライアント端末11-2の音声出力装置11Bに出力させるための第2クライアント端末用音声データを生成する。また、仮想空間インターフェース装置12Xの音声データ生成部12Bは、仮想空間内に出力されてクライアント端末11-3の音声出力装置11Bによって出力される、第1ユーザUR1が発する音声の音量を増加させると共に、第1ユーザUR1が発する音声の音量が増加させられた仮想空間内の音声をクライアント端末11-3の音声出力装置11Bに出力させるための第3クライアント端末用音声データを生成する。更に、例えば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、仮想空間内に出力されてクライアント端末11-4の音声出力装置11Bによって出力される、第1ユーザUR1が発する音声の音量を変更せず、第1ユーザUR1が発する音声の音量が変更されない仮想空間内の音声をクライアント端末11-4の音声出力装置11Bに出力させるための第4クライアント端末用音声データを生成する。
換言すれば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11の収音装置11Cによって収音される第1ユーザUR1が発する音声が仮想空間内に放音(出力)される方向の制御を実行する。
また、図1に示す例では、例えば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2が第2ユーザUR2の口に第2ユーザUR2の手を当てる動作と、クライアント端末11-2の撮影装置11Dに対する第2ユーザUR2の顔の向きとに基づいて、第2ユーザUR2が発する音声(クライアント端末11-2の収音装置11Cによって収音される音声)の仮想空間への出力方向を制御する。
図1および図2に示す例では、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2が第2ユーザUR2の口に第2ユーザUR2の手を当てる動作と、クライアント端末11-2の撮影装置11Dに対する第2ユーザUR2の顔の向きと、仮想空間内における第1アバターAT1の位置、第3アバターAT3の位置および第4アバターAT4の位置とに基づいて、仮想空間内に出力されてクライアント端末11の音声出力装置11Bによって出力される、第2ユーザUR2が発する音声の音量を制御し、仮想空間内に出力されてクライアント端末11-3の音声出力装置11Bによって出力される、第2ユーザUR2が発する音声の音量を制御し、仮想空間内に出力されてクライアント端末11-4の音声出力装置11Bによって出力される、第2ユーザUR2が発する音声の音量を制御する。
具体的には、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2が、第2ユーザUR2の口に第2ユーザUR2の手を当てる動作をし、かつ、第2ユーザUR2の顔をクライアント端末11-2の撮影装置11Dの左側(図2に示す仮想空間内の第4アバターAT4の側、図2に示す仮想空間内の第1アバターAT1の反対側)に向ける動作をする場合に、仮想空間インターフェース装置12Xの音声データ生成部12Bは、仮想空間内に出力されてクライアント端末11-4の音声出力装置11Bによって出力される、第2ユーザUR2が発する音声の音量を増加させると共に、第2ユーザUR2が発する音声の音量が増加させられた仮想空間内の音声をクライアント端末11-4の音声出力装置11Bに出力させるための第4クライアント端末用音声データを生成する。また、仮想空間インターフェース装置12Xの音声データ生成部12Bは、仮想空間内に出力されてクライアント端末11の音声出力装置11Bによって出力される、第2ユーザUR2が発する音声の音量を減少させると共に、第2ユーザUR2が発する音声の音量が減少させられた仮想空間内の音声をクライアント端末11の音声出力装置11Bに出力させるための第1クライアント端末用音声データを生成する。更に、例えば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、仮想空間内に出力されてクライアント端末11-3の音声出力装置11Bによって出力される、第2ユーザUR2が発する音声の音量を変更せず、第2ユーザUR2が発する音声の音量が変更されない仮想空間内の音声をクライアント端末11-3の音声出力装置11Bに出力させるための第3クライアント端末用音声データを生成する。
すなわち、仮想空間内における第2アバターAT2に対して、第2ユーザUR2の顔を向けた方向に存在するアバター(例えば第4アバターAT4)に対応するユーザ(例えば第4ユーザUR4)のクライアント端末(例えばクライアント端末11-4)の音声出力装置11Bによって出力される音声の音量を増加し、第2ユーザUR2の顔を向けた方向とは逆方向に存在するアバター(例えば第1アバターAT1)に対応するユーザ(例えば第1ユーザUR1)のクライアント端末(クライアント端末11)の音声出力装置11Bによって出力される音声の音量を減少させることにより、音声の方向を制御する。
換言すれば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-2の収音装置11Cによって収音される第2ユーザUR2が発する音声が仮想空間内に放音(出力)される方向の制御を実行する。
また、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2が、第2ユーザUR2の口に第2ユーザUR2の手を当てる動作をし、かつ、第2ユーザUR2の顔をクライアント端末11-2の撮影装置11Dの右側(図2に示す仮想空間内の第1アバターAT1の側、図2に示す仮想空間内の第4アバターAT4の反対側)に向ける動作をする場合に、仮想空間インターフェース装置12Xの音声データ生成部12Bは、仮想空間内に出力されてクライアント端末11-4の音声出力装置11Bによって出力される、第2ユーザUR2が発する音声の音量を減少させると共に、第2ユーザUR2が発する音声の音量が減少させられた仮想空間内の音声をクライアント端末11-4の音声出力装置11Bに出力させるための第4クライアント端末用音声データを生成する。また、仮想空間インターフェース装置12Xの音声データ生成部12Bは、仮想空間内に出力されてクライアント端末11の音声出力装置11Bによって出力される、第2ユーザUR2が発する音声の音量を増加させると共に、第2ユーザUR2が発する音声の音量が増加させられた仮想空間内の音声をクライアント端末11の音声出力装置11Bに出力させるための第1クライアント端末用音声データを生成する。更に、仮想空間インターフェース装置12Xの音声データ生成部12Bは、仮想空間内に出力されてクライアント端末11-3の音声出力装置11Bによって出力される、第2ユーザUR2が発する音声の音量を変更せず、第2ユーザUR2が発する音声の音量が変更されない仮想空間内の音声をクライアント端末11-3の音声出力装置11Bに出力させるための第3クライアント端末用音声データを生成する。
換言すれば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-2の収音装置11Cによって収音される第2ユーザUR2が発する音声が仮想空間内に放音(出力)される方向の制御を実行する。
図1および図2に示す例では、例えば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-3の撮影装置11Dによって撮影される第3ユーザUR3が第3ユーザUR3の口に第3ユーザUR3の手を当てる動作(図9参照)と、クライアント端末11-3の撮影装置11Dに対する第3ユーザUR3の顔の向きと、仮想空間内における第1アバターAT1の位置、第2アバターAT2の位置および第4アバターAT4の位置とに基づいて、仮想空間内に出力されてクライアント端末11の音声出力装置11Bによって出力される、第3ユーザUR3が発する音声の音量を制御し、仮想空間内に出力されてクライアント端末11-2の音声出力装置11Bによって出力される、第3ユーザUR3が発する音声の音量を制御し、仮想空間内に出力されてクライアント端末11-4の音声出力装置11Bによって出力される、第3ユーザUR3が発する音声の音量を制御する。また、例えば、仮想空間インターフェース装置12Xの音声データ生成部12Bは、クライアント端末11-4の撮影装置11Dによって撮影される第4ユーザが第4ユーザの口に第4ユーザの手を当てる動作と、クライアント端末11-4の撮影装置11Dに対する第4ユーザの顔の向きと、仮想空間内における第1アバターAT1の位置、第2アバターAT2の位置および第3アバターAT3の位置とに基づいて、仮想空間内に出力されてクライアント端末11の音声出力装置11Bによって出力される、第4ユーザが発する音声の音量を制御し、仮想空間内に出力されてクライアント端末11-2の音声出力装置11Bによって出力される、第4ユーザが発する音声の音量を制御し、仮想空間内に出力されてクライアント端末11-3の音声出力装置11Bによって出力される、第4ユーザが発する音声の音量を制御する。
上述したように、図1に示す例では、仮想空間インターフェース装置12Xの表示データ生成部12Aおよび音声データ生成部12Bは、クライアント端末11の撮影装置11Dによって撮影される第1ユーザUR1の顔領域に手を位置させるジェスチャ(目に手を当てる動作、耳に手を当てる動作、口に手を当てる動作)と、クライアント端末11の撮影装置11Dと第1ユーザUR1の顔との位置関係(近づく、遠ざかる、クライアント端末11の撮影装置11Dの左側を向く、クライアント端末11の撮影装置11Dの右側を向く)と、クライアント端末11-2の撮影装置11Dによって撮影される第2ユーザUR2の顔領域に手を位置させるジェスチャ(目に手を当てる動作、耳に手を当てる動作、口に手を当てる動作)と、クライアント端末11-2の撮影装置11Dと第2ユーザUR2の顔との位置関係(近づく、遠ざかる、クライアント端末11-2の撮影装置11Dの左側を向く、クライアント端末11-2の撮影装置11Dの右側を向く)と、クライアント端末11-3の撮影装置11Dによって撮影される第3ユーザUR3の顔領域に手を位置させるジェスチャ(目に手を当てる動作、耳に手を当てる動作、口に手を当てる動作)と、クライアント端末11-3の撮影装置11Dと第3ユーザUR3の顔との位置関係(近づく、遠ざかる、クライアント端末11-3の撮影装置11Dの左側を向く、クライアント端末11-3の撮影装置11Dの右側を向く)と、クライアント端末11-4の撮影装置11Dによって撮影される第4ユーザの顔領域に手を位置させるジェスチャ(目に手を当てる動作、耳に手を当てる動作、口に手を当てる動作)と、クライアント端末11-4の撮影装置11Dと第4ユーザの顔との位置関係(近づく、遠ざかる、クライアント端末11-4の撮影装置11Dの左側を向く、クライアント端末11-4の撮影装置11Dの右側を向く)とに基づいて、制御対象として、仮想空間内の状況を示す画像をクライアント端末11の表示装置11Aに表示させるための第1クライアント端末用表示データ、仮想空間内の状況を示す画像をクライアント端末11-2の表示装置11Aに表示させるための第2クライアント端末用表示データ、仮想空間内の状況を示す画像をクライアント端末11-3の表示装置11Aに表示させるための第3クライアント端末用表示データ、仮想空間内の状況を示す画像をクライアント端末11-4の表示装置11Aに表示させるための第4クライアント端末用表示データ、仮想空間内の音声をクライアント端末11の音声出力装置11Bに出力させるための第1クライアント端末用音声データ、仮想空間内の音声をクライアント端末11-2の音声出力装置11Bに出力させるための第2クライアント端末用音声データ、仮想空間内の音声をクライアント端末11-3の音声出力装置11Bに出力させるための第3クライアント端末用音声データ、および、仮想空間内の音声をクライアント端末11-4の音声出力装置11Bに出力させるための第4クライアント端末用音声データの少なくともいずれかを制御する。
更に、表示データ生成部12Aおよび音声データ生成部12Bは、第1ユーザUR1が手を位置させる顔領域の部位(目、耳または口)と、第2ユーザUR2が手を位置させる顔領域の部位(目、耳または口)と、第3ユーザUR3が手を位置させる顔領域の部位(目、耳または口)と、第4ユーザが手を位置させる顔領域の部位(目、耳または口)とに応じて、制御対象(第1~第4クライアント端末用表示データおよび第1~第4クライアント端末用音声データの少なくともいずれか)を異ならせる。
図10は第1実施形態の仮想空間インターフェース装置12Xによって実行される処理の一例を説明するためのフローチャートである。
図10に示す例では、仮想空間インターフェース装置12Xが、図10に示すルーチンにおいて、第1ユーザUR1によって使用されるクライアント端末11、第2ユーザUR2によって使用されるクライアント端末11-2、第3ユーザUR3によって使用されるクライアント端末11-3および第4ユーザによって使用されるクライアント端末11-4に仮想空間を提供する仮想空間提供ステップS1を実行する。
仮想空間提供ステップS1には、表示データ生成ステップS1Aと、音声データ生成ステップS1Bとが含まれる。
仮想空間インターフェース装置12Xは、表示データ生成ステップS1Aにおいて、仮想空間内の状況を示す画像をクライアント端末11、11-2、11-3、11-4のそれぞれの表示装置11Aに表示させるための表示データ(第1~第4クライアント端末用表示データ)を生成する。
また、仮想空間インターフェース装置12Xは、音声データ生成ステップS1Bにおいて、仮想空間内の音声をクライアント端末11、11-2、11-3、11-4のそれぞれの音声出力装置11Bに出力させるための音声データ(第1~第4クライアント端末用音声データ)を生成する。
第1実施形態の仮想空間インターフェース装置12Xが適用された仮想空間提供システム1では、第1ユーザUR1、第2ユーザUR2、第3ユーザUR3および第4ユーザが、操作部を用いた入力操作を行う必要なく、仮想空間提供サーバ12によって提供される仮想空間を利用することができる。つまり、第1実施形態の仮想空間提供システム1では、第1ユーザUR1、第2ユーザUR2、第3ユーザUR3および第4ユーザの利便性を向上させることができる。
他の例では、仮想空間内でのユーザとオブジェクトの位置関係によって、見える景色(クライアント端末に表示される画像)、聞こえる音(クライアント端末から出力される音声)、発する音(仮想空間内に出力される音声)が変化してもよい。この例では、仮想空間内に決められた座標でオブジェクトが配置され、表示される。
更に他の例では、仮想空間内の音声が、他のユーザのアバターが発する音声、鳥の声などの環境音であってもよく、オブジェクトが特定の音声出力を行ってもよい。例えば、木のオブジェクトから音楽を流す等の設定を行い、ユーザ(の座標)が近づくことによって、ユーザが使用するクライアント端末から音楽が聞こえてきてもよい。
更に他の例では、どのユーザが聞いているかを問わず、仮想空間内に音を出力すること、特定のオブジェクトに音声を記録(メッセージを録音)することを仮想空間インターフェース装置12Xが行ってもよい。
<第2実施形態>
以下、本発明の仮想空間インターフェース装置、クライアント端末およびプログラムの第2実施形態について説明する。
第2実施形態の仮想空間提供システム2は、後述する点を除き、上述した第1実施形態の仮想空間提供システム1と同様に構成されている。従って、第2実施形態の仮想空間提供システム2によれば、後述する点を除き、上述した第1実施形態の仮想空間提供システム1と同様の効果を奏することができる。
図11は第2実施形態の仮想空間インターフェース装置21Eが適用された仮想空間提供システム2の一例を示す図である。
図11に示す例では、仮想空間提供システム2が、クライアント端末21、21-2、21-3、21-4を備えている。クライアント端末21、21-2、21-3、21-4は、例えばインターネット等のネットワークNWを介して接続されている。
図11に示す例では、仮想空間提供システム2が、4つのクライアント端末21、21-2、21-3、21-4を備えているが、他の例では、仮想空間提供システム2が、4以外の任意の数のクライアント端末を備えていてもよい。
図11に示す例では、クライアント端末21が、例えば第1ユーザUR1(図3参照)によって使用される。クライアント端末21は、表示装置21Aと、音声出力装置21Bと、収音装置21Cと、撮影装置21Dと、仮想空間インターフェース装置21Eと、処理装置21Fとを備えている。
表示装置21Aは、図1に示す表示装置11Aと概略同様の機能を有し、仮想空間インターフェース装置21Eによって提供される表示データに基づいて、仮想空間内の状況を示す画像(図2参照)を表示する。音声出力装置21Bは、図1に示す音声出力装置11Bと概略同様の機能を有し、仮想空間インターフェース装置21Eによって提供される音声データに基づいて仮想空間内の音声を出力する。収音装置21Cは、図1に示す収音装置11Cと概略同様の機能を有し、第1ユーザUR1が発する音声を収音する。撮影装置21Dは、図1に示す撮影装置11Dと概略同様の機能を有し、第1ユーザUR1の顔画像を撮影する。
仮想空間インターフェース装置21Eは、クライアント端末21、21-2、21-3、21-4に対して表示データおよび音声データを提供することによって仮想空間を提供する。仮想空間インターフェース装置21Eは、図1に示す表示データ生成部12Aと概略同様の機能を有する表示データ生成部21E1と、図1に示す音声データ生成部12Bと概略同様の機能を有する音声データ生成部21E2とを備えている。
処理装置21Fは、図1に示す処理装置12Yと概略同様の機能を有する。
クライアント端末21-2は、例えば第1ユーザUR1とは異なる第2ユーザUR2(図8参照)によって使用される。クライアント端末21-3は、例えば第1ユーザUR1および第2ユーザUR2とは異なる第3ユーザUR3(図9参照)によって使用される。クライアント端末21-4は、例えば第1ユーザUR1、第2ユーザUR2および第3ユーザUR3とは異なる第4ユーザによって使用される。
図11に示す例では、クライアント端末21-2、21-3、21-4のそれぞれが、クライアント端末21の仮想空間インターフェース装置21Eおよび処理装置21Fを除く部分と概略同様に構成されている。つまり、クライアント端末21-2、21-3、21-4のそれぞれが、表示装置21Aと、音声出力装置21Bと、収音装置21Cと、撮影装置21Dとを備えている。
他の例では、クライアント端末21の仮想空間インターフェース装置21Eおよび処理装置21Fを除く部分の構成とクライアント端末21-2の構成とクライアント端末21-3の構成とクライアント端末21-4の構成とが異なっていたり、クライアント端末21の仮想空間インターフェース装置21Eおよび処理装置21Fを除く部分およびクライアント端末21-2、21-3、21-4のうちのいずれかの構成が残りの構成と異なっていたりしてもよい。
表示データ生成部21E1は、仮想空間内の状況を示す画像をクライアント端末21、21-2、21-3、21-4の表示装置21Aに表示させるための表示データを生成する。
詳細には、表示データ生成部21E1は、クライアント端末21の撮影装置21Dによって撮影される第1ユーザUR1の顔画像(図3参照)に基づいて、仮想空間内に位置する第1アバターAT1(図2参照)を生成する。同様に、表示データ生成部21E1は、クライアント端末21-2の撮影装置21Dによって撮影される第2ユーザUR2の顔画像(図8参照)に基づいて、仮想空間内に位置する第2アバターAT2(図2参照)を生成し、クライアント端末21-3の撮影装置21Dによって撮影される第3ユーザUR3の顔画像(図9参照)に基づいて、仮想空間内に位置する第3アバターAT3(図2参照)を生成し、クライアント端末21-4の撮影装置21Dによって撮影される第4ユーザの顔画像に基づいて、仮想空間内に位置する第4アバターAT4(図2参照)を生成する。
更に、表示データ生成部21E1は、仮想空間内の状況を示す画像として、第1アバターAT1、第2アバターAT2、第3アバターAT3および第4アバターAT4を含む画像(図2参照)をクライアント端末21の表示装置21Aに表示させるための第1クライアント端末用表示データを生成する。同様に、表示データ生成部21E1は、仮想空間内の状況を示す画像として、第1アバターAT1、第2アバターAT2、第3アバターAT3および第4アバターAT4を含む画像をクライアント端末21-2の表示装置21Aに表示させるための第2クライアント端末用表示データを生成し、仮想空間内の状況を示す画像として、第1アバターAT1、第2アバターAT2、第3アバターAT3および第4アバターAT4を含む画像をクライアント端末21-3の表示装置21Aに表示させるための第3クライアント端末用表示データを生成し、仮想空間内の状況を示す画像として、第1アバターAT1、第2アバターAT2、第3アバターAT3および第4アバターAT4を含む画像をクライアント端末21-4の表示装置21Aに表示させるための第4クライアント端末用表示データを生成する。
図11に示す例では、表示データ生成部21E1は、クライアント端末21の撮影装置21Dによって撮影される第1ユーザUR1が第1ユーザUR1の目に第1ユーザUR1の手を当てる動作(図3参照)と、クライアント端末21の撮影装置21Dと第1ユーザUR1の顔との距離とに基づいて、クライアント端末21の表示装置21Aによって表示される仮想空間内の状況を示す画像(第1クライアント端末用表示データに基づいてクライアント端末21の表示装置21Aによって表示される画像)(図2参照)の拡大および/または縮小を制御する。
また、表示データ生成部21E1は、クライアント端末21-2の撮影装置21Dによって撮影される第2ユーザUR2が第2ユーザUR2の目に第2ユーザUR2の手を当てる動作と、クライアント端末21-2の撮影装置21Dと第2ユーザUR2の顔との距離とに基づいて、クライアント端末21-2の表示装置11Aによって表示される仮想空間内の状況を示す画像(第2クライアント端末用表示データに基づいてクライアント端末21-2の表示装置21Aによって表示される画像)の拡大および/または縮小を制御する。
同様に、表示データ生成部21E1は、クライアント端末21-3の撮影装置21Dによって撮影される第3ユーザUR3が第3ユーザUR3の目に第3ユーザUR3の手を当てる動作と、クライアント端末21-3の撮影装置21Dと第3ユーザUR3の顔との距離とに基づいて、クライアント端末21-3の表示装置21Aによって表示される仮想空間内の状況を示す画像(第3クライアント端末用表示データに基づいてクライアント端末21-3の表示装置21Aによって表示される画像)の拡大および/または縮小を制御し、クライアント端末21-4の撮影装置21Dによって撮影される第4ユーザが第4ユーザの目に第4ユーザの手を当てる動作と、クライアント端末21-4の撮影装置21Dと第4ユーザの顔との距離とに基づいて、クライアント端末21-4の表示装置21Aによって表示される仮想空間内の状況を示す画像(第4クライアント端末用表示データに基づいてクライアント端末21-4の表示装置21Aによって表示される画像)の拡大および/または縮小を制御する。
図11に示す例では、表示データ生成部21E1は、クライアント端末21の撮影装置21Dによって撮影される第1ユーザUR1が第1ユーザUR1の目に第1ユーザUR1の手を当てる動作(図3参照)と、クライアント端末21の撮影装置21Dに対する第1ユーザUR1の顔の向きとに基づいて、仮想空間内における位置であって、クライアント端末21の表示装置21Aによって表示される画像に対応する位置を制御する。
また、表示データ生成部21E1は、クライアント端末21-2の撮影装置21Dによって撮影される第2ユーザUR2が第2ユーザUR2の目に第2ユーザUR2の手を当てる動作と、クライアント端末21-2の撮影装置21Dに対する第2ユーザUR2の顔の向きとに基づいて、仮想空間内における位置であって、クライアント端末21-2の表示装置21Aによって表示される画像に対応する位置を制御する。
更に、表示データ生成部21E1は、クライアント端末21-3の撮影装置21Dによって撮影される第3ユーザUR3が第3ユーザUR3の目に第3ユーザUR3の手を当てる動作と、クライアント端末21-3の撮影装置21Dに対する第3ユーザUR3の顔の向きとに基づいて、仮想空間内における位置であって、クライアント端末21-3の表示装置21Aによって表示される画像に対応する位置を制御する。
同様に、表示データ生成部21E1は、クライアント端末21-4の撮影装置21Dによって撮影される第4ユーザが第4ユーザの目に第4ユーザの手を当てる動作と、クライアント端末21-4の撮影装置21Dに対する第4ユーザの顔の向きとに基づいて、仮想空間内における位置であって、クライアント端末21-4の表示装置21Aによって表示される画像に対応する位置を制御する。
図11に示す例では、音声データ生成部21E2が、仮想空間内の音声をクライアント端末21、21-2、21-3、21-4の音声出力装置21Bに出力させるための音声データを生成する。つまり、音声データ生成部21E2は、仮想空間内の音声をクライアント端末21の音声出力装置21Bに出力させるための音声データと、仮想空間内の音声をクライアント端末21-2の音声出力装置21Bに出力させるための音声データと、仮想空間内の音声をクライアント端末21-3の音声出力装置21Bに出力させるための音声データと、仮想空間内の音声をクライアント端末21-4の音声出力装置21Bに出力させるための音声データとを生成する。
詳細には、音声データ生成部21E2は、クライアント端末21-2の収音装置21Cによって収音される第2ユーザUR2が発する音声と、クライアント端末21-3の収音装置21Cによって収音される第3ユーザUR3が発する音声と、クライアント端末21-4の収音装置21Cによって収音される第4ユーザが発する音声とに基づいて、第2ユーザUR2が発する音声、第3ユーザUR3が発する音声および第4ユーザが発する音声を仮想空間内の音声としてクライアント端末21の音声出力装置21Bに出力させるための第1クライアント端末用音声データを生成する。
また、音声データ生成部21E2は、クライアント端末21の収音装置21Cによって収音される第1ユーザUR1が発する音声と、クライアント端末21-3の収音装置21Cによって収音される第3ユーザUR3が発する音声と、クライアント端末21-4の収音装置21Cによって収音される第4ユーザが発する音声とに基づいて、第1ユーザUR1が発する音声、第3ユーザUR3が発する音声および第4ユーザが発する音声を仮想空間内の音声としてクライアント端末21-2の音声出力装置21Bに出力させるための第2クライアント端末用音声データを生成する。
更に、音声データ生成部21E2は、クライアント端末21の収音装置21Cによって収音される第1ユーザUR1が発する音声と、クライアント端末21-2の収音装置21Cによって収音される第2ユーザUR2が発する音声と、クライアント端末21-4の収音装置21Cによって収音される第4ユーザが発する音声とに基づいて、第1ユーザUR1が発する音声、第2ユーザUR2が発する音声および第4ユーザが発する音声を仮想空間内の音声としてクライアント端末21-3の音声出力装置21Bに出力させるための第3クライアント端末用音声データを生成する。
また、音声データ生成部21E2は、クライアント端末21の収音装置21Cによって収音される第1ユーザUR1が発する音声と、クライアント端末21-2の収音装置21Cによって収音される第2ユーザUR2が発する音声と、クライアント端末21-3の収音装置21Cによって収音される第3ユーザUR3が発する音声とに基づいて、第1ユーザUR1が発する音声、第2ユーザUR2が発する音声および第3ユーザUR3が発する音声を仮想空間内の音声としてクライアント端末21-4の音声出力装置21Bに出力させるための第4クライアント端末用音声データを生成する。
図11に示す例では、音声データ生成部21E2は、クライアント端末21の撮影装置21Dによって撮影される第1ユーザUR1が第1ユーザUR1の耳に第1ユーザUR1の手を当てる動作と、クライアント端末21の撮影装置21Dと第1ユーザUR1の顔との距離とに基づいて、クライアント端末21の音声出力装置21Bによって出力される仮想空間内の音声の音量を制御する。
音声データ生成部21E2は、クライアント端末21-2の撮影装置21Dによって撮影される第2ユーザUR2が第2ユーザUR2の耳に第2ユーザUR2の手を当てる動作(図8参照)と、クライアント端末21-2の撮影装置21Dと第2ユーザUR2の顔との距離とに基づいて、クライアント端末21-2の音声出力装置21Bによって出力される仮想空間内の音声の音量を制御する。
音声データ生成部21E2は、クライアント端末21-3の撮影装置21Dによって撮影される第3ユーザUR3が第3ユーザUR3の耳に第3ユーザUR3の手を当てる動作と、クライアント端末21-3の撮影装置21Dと第3ユーザUR3の顔との距離とに基づいて、クライアント端末21-3の音声出力装置21Bによって出力される仮想空間内の音声の音量を制御する。また、音声データ生成部21E2は、クライアント端末21-4の撮影装置21Dによって撮影される第4ユーザが第4ユーザの耳に第4ユーザの手を当てる動作と、クライアント端末21-4の撮影装置21Dと第4ユーザの顔との距離とに基づいて、クライアント端末21-4の音声出力装置21Bによって出力される仮想空間内の音声の音量を制御する。
図11に示す例では、音声データ生成部21E2は、クライアント端末21の撮影装置21Dによって撮影される第1ユーザUR1が第1ユーザUR1の耳に第1ユーザUR1の手を当てる動作と、クライアント端末21の撮影装置21Dに対する第1ユーザUR1の顔の向きとに基づいて、クライアント端末21の音声出力装置21Bによって出力される仮想空間からの音声の到来方向を制御する。
図2および図11に示す例では、音声データ生成部21E2は、クライアント端末21の撮影装置21Dによって撮影される第1ユーザUR1が第1ユーザUR1の耳に第1ユーザUR1の手を当てる動作と、クライアント端末21の撮影装置21Dに対する第1ユーザUR1の顔の向きと、仮想空間内における第2アバターAT2の位置、第3アバターAT3の位置および第4アバターAT4の位置とに基づいて、クライアント端末21の音声出力装置21Bによって仮想空間内の音声として出力される、第2ユーザUR2が発する音声、第3ユーザUR3が発する音声および第4ユーザが発する音声の音量を制御する。
また、図11に示す例では、音声データ生成部21E2は、クライアント端末21-2の撮影装置21Dによって撮影される第2ユーザUR2が第2ユーザUR2の耳に第2ユーザUR2の手を当てる動作(図8参照)と、クライアント端末21-2の撮影装置21Dに対する第2ユーザUR2の顔の向きとに基づいて、クライアント端末21-2の音声出力装置21Bによって出力される仮想空間からの音声の到来方向を制御する。
図2および図11に示す例では、音声データ生成部21E2は、クライアント端末21-2の撮影装置21Dによって撮影される第2ユーザUR2が第2ユーザUR2の耳に第2ユーザUR2の手を当てる動作(図8参照)と、クライアント端末21-2の撮影装置21Dに対する第2ユーザUR2の顔の向きと、仮想空間内における第1アバターAT1の位置、第3アバターAT3の位置および第4アバターAT4の位置とに基づいて、クライアント端末21-2の音声出力装置21Bによって仮想空間内の音声として出力される、第1ユーザUR1が発する音声、第3ユーザUR3が発する音声および第4ユーザが発する音声の音量を制御する。
更に、図11に示す例では、音声データ生成部21E2は、クライアント端末21-3の撮影装置21Dによって撮影される第3ユーザUR3が第3ユーザUR3の耳に第3ユーザUR3の手を当てる動作と、クライアント端末21-3の撮影装置21Dに対する第3ユーザUR3の顔の向きとに基づいて、クライアント端末21-3の音声出力装置21Bによって出力される仮想空間からの音声の到来方向を制御する。
図2および図11に示す例では、音声データ生成部21E2は、クライアント端末21-3の撮影装置21Dによって撮影される第3ユーザUR3が第3ユーザUR3の耳に第3ユーザUR3の手を当てる動作と、クライアント端末21-3の撮影装置21Dに対する第3ユーザUR3の顔の向きと、仮想空間内における第1アバターAT1の位置、第2アバターAT2の位置および第4アバターAT4の位置とに基づいて、クライアント端末21-3の音声出力装置21Bによって仮想空間内の音声として出力される、第1ユーザUR1が発する音声、第2ユーザUR2が発する音声および第4ユーザが発する音声の音量を制御する。
また、図11に示す例では、音声データ生成部21E2は、クライアント端末21-4の撮影装置21Dによって撮影される第4ユーザが第4ユーザの耳に第4ユーザの手を当てる動作と、クライアント端末21-4の撮影装置21Dに対する第4ユーザの顔の向きとに基づいて、クライアント端末21-4の音声出力装置21Bによって出力される仮想空間からの音声の到来方向を制御する。
図2および図11に示す例では、音声データ生成部21E2は、クライアント端末21-4の撮影装置21Dによって撮影される第4ユーザが第4ユーザの耳に第4ユーザの手を当てる動作と、クライアント端末21-4の撮影装置21Dに対する第4ユーザの顔の向きと、仮想空間内における第1アバターAT1の位置、第2アバターAT2の位置および第3アバターAT3の位置とに基づいて、クライアント端末21-4の音声出力装置21Bによって仮想空間内の音声として出力される、第1ユーザUR1が発する音声、第2ユーザUR2が発する音声および第3ユーザUR3が発する音声の音量を制御する。
図11に示す例では、音声データ生成部21E2は、クライアント端末21の撮影装置21Dによって撮影される第1ユーザUR1が第1ユーザUR1の口に第1ユーザUR1の手を当てる動作と、クライアント端末21の撮影装置21Dと第1ユーザUR1の顔との距離とに基づいて、クライアント端末21-2、21-3、21-4のそれぞれの音声出力装置21Bによって出力される仮想空間内の音声(第1ユーザUR1が発する音声)の音量を制御する。
また、音声データ生成部21E2は、クライアント端末21-2の撮影装置21Dによって撮影される第2ユーザUR2が第2ユーザUR2の口に第2ユーザUR2の手を当てる動作と、クライアント端末21-2の撮影装置21Dと第2ユーザUR2の顔との距離とに基づいて、クライアント端末21、21-3、21-4のそれぞれの音声出力装置21Bによって出力される仮想空間内の音声(第2ユーザUR2が発する音声)の音量を制御する。
更に、音声データ生成部21E2は、クライアント端末21-3の撮影装置21Dによって撮影される第3ユーザUR3が第3ユーザUR3の口に第3ユーザUR3の手を当てる動作(図9参照)と、クライアント端末21-3の撮影装置21Dと第3ユーザUR3の顔との距離とに基づいて、クライアント端末21、21-2、21-4のそれぞれの音声出力装置21Bによって出力される仮想空間内の音声(第3ユーザUR3が発する音声)の音量を制御する。また、音声データ生成部21E2は、クライアント端末21-4の撮影装置21Dによって撮影される第4ユーザが第4ユーザの口に第4ユーザの手を当てる動作と、クライアント端末21-4の撮影装置21Dと第4ユーザの顔との距離とに基づいて、クライアント端末21、21-2、21-3のそれぞれの音声出力装置21Bによって出力される仮想空間内の音声(第4ユーザが発する音声)の音量を制御する。
図11に示す例では、音声データ生成部21E2は、クライアント端末21の撮影装置21Dによって撮影される第1ユーザUR1が第1ユーザUR1の口に第1ユーザUR1の手を当てる動作と、クライアント端末21の撮影装置21Dに対する第1ユーザUR1の顔の向きとに基づいて、第1ユーザUR1が発する音声(クライアント端末21の収音装置21Cによって収音される音声)の仮想空間への出力方向を制御する。
図2および図11に示す例では、音声データ生成部21E2は、クライアント端末21の撮影装置21Dによって撮影される第1ユーザUR1が第1ユーザUR1の口に第1ユーザUR1の手を当てる動作と、クライアント端末21の撮影装置21Dに対する第1ユーザUR1の顔の向きと、仮想空間内における第2アバターAT2の位置、第3アバターAT3の位置および第4アバターAT4の位置とに基づいて、クライアント端末21-2の音声出力装置21Bによって仮想空間内の音声として出力される、第1ユーザUR1が発する音声の音量を制御し、クライアント端末21-3の音声出力装置21Bによって仮想空間内の音声として出力される、第1ユーザUR1が発する音声の音量を制御し、クライアント端末21-4の音声出力装置21Bによって仮想空間内の音声として出力される、第1ユーザUR1が発する音声の音量を制御する。
換言すれば、音声データ生成部21E2は、クライアント端末21の収音装置21Cによって収音される第1ユーザUR1が発する音声が仮想空間内に放音(出力)される方向の制御を実行する。
また、図11に示す例では、音声データ生成部21E2は、クライアント端末21-2の撮影装置21Dによって撮影される第2ユーザUR2が第2ユーザUR2の口に第2ユーザUR2の手を当てる動作と、クライアント端末21-2の撮影装置11Dに対する第2ユーザUR2の顔の向きとに基づいて、第2ユーザUR2が発する音声(クライアント端末21-2の収音装置21Cによって収音される音声)の仮想空間への出力方向を制御する。
図2および図11に示す例では、音声データ生成部21E2は、クライアント端末21-2の撮影装置21Dによって撮影される第2ユーザUR2が第2ユーザUR2の口に第2ユーザUR2の手を当てる動作と、クライアント端末21-2の撮影装置11Dに対する第2ユーザUR2の顔の向きと、仮想空間内における第1アバターAT1の位置、第3アバターAT3の位置および第4アバターAT4の位置とに基づいて、クライアント端末21の音声出力装置21Bによって仮想空間内の音声として出力される、第2ユーザUR2が発する音声の音量を制御し、クライアント端末21-3の音声出力装置21Bによって仮想空間内の音声として出力される、第2ユーザUR2が発する音声の音量を制御し、クライアント端末21-4の音声出力装置21Bによって仮想空間内の音声として出力される、第2ユーザUR2が発する音声の音量を制御する。
換言すれば、音声データ生成部21E2は、クライアント端末21-2の収音装置21Cによって収音される第2ユーザUR2が発する音声が仮想空間内に放音(出力)される方向の制御を実行する。
更に、図11に示す例では、音声データ生成部21E2は、クライアント端末21-3の撮影装置21Dによって撮影される第3ユーザUR3が第3ユーザUR3の口に第3ユーザUR3の手を当てる動作(図9参照)と、クライアント端末21-3の撮影装置21Dに対する第3ユーザUR3の顔の向きとに基づいて、第3ユーザUR3が発する音声(クライアント端末21-3の収音装置21Cによって収音される音声)の仮想空間への出力方向を制御する。
図2および図11に示す例では、音声データ生成部21E2は、クライアント端末21-3の撮影装置21Dによって撮影される第3ユーザUR3が第3ユーザUR3の口に第3ユーザUR3の手を当てる動作(図9参照)と、クライアント端末21-3の撮影装置21Dに対する第3ユーザUR3の顔の向きと、仮想空間内における第1アバターAT1の位置、第2アバターAT2の位置および第4アバターAT4の位置とに基づいて、クライアント端末21の音声出力装置21Bによって仮想空間内の音声として出力される、第3ユーザUR3が発する音声の音量を制御し、クライアント端末21-2の音声出力装置21Bによって仮想空間内の音声として出力される、第3ユーザUR3が発する音声の音量を制御し、クライアント端末21-4の音声出力装置21Bによって仮想空間内の音声として出力される、第3ユーザUR3が発する音声の音量を制御する。
また、図11に示す例では、音声データ生成部21E2は、クライアント端末21-4の撮影装置21Dによって撮影される第4ユーザが第4ユーザの口に第4ユーザの手を当てる動作と、クライアント端末21-4の撮影装置21Dに対する第4ユーザの顔の向きとに基づいて、第4ユーザUR4が発する音声(クライアント端末21-4の収音装置21Cによって収音される音声)の仮想空間への出力方向を制御する。
図2および図11に示す例では、音声データ生成部21E2は、クライアント端末21-4の撮影装置21Dによって撮影される第4ユーザが第4ユーザの口に第4ユーザの手を当てる動作と、クライアント端末21-4の撮影装置21Dに対する第4ユーザの顔の向きと、仮想空間内における第1アバターAT1の位置、第2アバターAT2の位置および第3アバターAT3の位置とに基づいて、クライアント端末21の音声出力装置21Bによって仮想空間内の音声として出力される、第4ユーザが発する音声の音量を制御し、クライアント端末21-2の音声出力装置21Bによって仮想空間内の音声として出力される、第4ユーザが発する音声の音量を制御し、クライアント端末21-3の音声出力装置21Bによって仮想空間内の音声として出力される、第4ユーザが発する音声の音量を制御する。
上述したように、図11に示す例では、クライアント端末21の仮想空間インターフェース装置21Eの表示データ生成部21E1および音声データ生成部21E2は、クライアント端末21の撮影装置21Dによって撮影される第1ユーザUR1の顔領域に手を位置させるジェスチャ(目に手を当てる動作、耳に手を当てる動作、口に手を当てる動作)と、クライアント端末21の撮影装置21Dと第1ユーザUR1の顔との位置関係(近づく、遠ざかる、クライアント端末21の撮影装置21Dの左側を向く、クライアント端末21の撮影装置21Dの右側を向く)と、クライアント端末21-2の撮影装置21Dによって撮影される第2ユーザUR2の顔領域に手を位置させるジェスチャ(目に手を当てる動作、耳に手を当てる動作、口に手を当てる動作)と、クライアント端末21-2の撮影装置21Dと第2ユーザUR2の顔との位置関係(近づく、遠ざかる、クライアント端末21-2の撮影装置21Dの左側を向く、クライアント端末21-2の撮影装置21Dの右側を向く)と、クライアント端末21-3の撮影装置21Dによって撮影される第3ユーザUR3の顔領域に手を位置させるジェスチャ(目に手を当てる動作、耳に手を当てる動作、口に手を当てる動作)と、クライアント端末21-3の撮影装置21Dと第3ユーザUR3の顔との位置関係(近づく、遠ざかる、クライアント端末21-3の撮影装置21Dの左側を向く、クライアント端末21-3の撮影装置21Dの右側を向く)と、クライアント端末21-4の撮影装置21Dによって撮影される第4ユーザの顔領域に手を位置させるジェスチャ(目に手を当てる動作、耳に手を当てる動作、口に手を当てる動作)と、クライアント端末21-4の撮影装置21Dと第4ユーザの顔との位置関係(近づく、遠ざかる、クライアント端末21-4の撮影装置21Dの左側を向く、クライアント端末21-4の撮影装置21Dの右側を向く)とに基づいて、制御対象として、仮想空間内の状況を示す画像をクライアント端末21の表示装置21Aに表示させるための第1クライアント端末用表示データ、仮想空間内の状況を示す画像をクライアント端末21-2の表示装置21Aに表示させるための第2クライアント端末用表示データ、仮想空間内の状況を示す画像をクライアント端末21-3の表示装置21Aに表示させるための第3クライアント端末用表示データ、仮想空間内の状況を示す画像をクライアント端末21-4の表示装置21Aに表示させるための第4クライアント端末用表示データ、仮想空間内の音声をクライアント端末21の音声出力装置21Bに出力させるための第1クライアント端末用音声データ、仮想空間内の音声をクライアント端末21-2の音声出力装置21Bに出力させるための第2クライアント端末用音声データ、仮想空間内の音声をクライアント端末21-3の音声出力装置21Bに出力させるための第3クライアント端末用音声データ、および、仮想空間内の音声をクライアント端末21-4の音声出力装置21Bに出力させるための第4クライアント端末用音声データの少なくともいずれかを制御する。
更に、表示データ生成部21E1および音声データ生成部21E2は、第1ユーザUR1が手を位置させる顔領域の部位(目、耳または口)と、第2ユーザUR2が手を位置させる顔領域の部位(目、耳または口)と、第3ユーザUR3が手を位置させる顔領域の部位(目、耳または口)と、第4ユーザが手を位置させる顔領域の部位(目、耳または口)とに応じて、制御対象(第1~第4クライアント端末用表示データおよび第1~第4クライアント端末用音声データの少なくともいずれか)を異ならせる。
図12は第2実施形態の仮想空間インターフェース装置21Eによって実行される処理の一例を説明するためのフローチャートである。
図12に示す例では、仮想空間インターフェース装置21Eが、図12に示すルーチンにおいて、第1ユーザUR1によって使用されるクライアント端末21、第2ユーザUR2によって使用されるクライアント端末21-2、第3ユーザUR3によって使用されるクライアント端末21-3および第4ユーザによって使用されるクライアント端末21-4に仮想空間を提供する仮想空間提供ステップS2を実行する。
仮想空間提供ステップS2には、表示データ生成ステップS2Aと、音声データ生成ステップS2Bとが含まれる。
仮想空間インターフェース装置21Eは、表示データ生成ステップS2Aにおいて、仮想空間内の状況を示す画像をクライアント端末21、21-2、21-3、21-4のそれぞれの表示装置21Aに表示させるための表示データ(第1~第4クライアント端末用表示データ)を生成する。
また、仮想空間インターフェース装置21Eは、音声データ生成ステップS2Bにおいて、仮想空間内の音声をクライアント端末21、21-2、21-3、21-4のそれぞれの音声出力装置11Bに出力させるための音声データ(第1~第4クライアント端末用音声データ)を生成する。
第2実施形態の仮想空間インターフェース装置21Eが適用された仮想空間提供システム2では、第1ユーザUR1、第2ユーザUR2、第3ユーザUR3および第4ユーザが、操作部を用いた入力操作を行う必要なく、仮想空間インターフェース装置21Eによって提供される仮想空間を利用することができる。つまり、第2実施形態の仮想空間提供システム2では、第1ユーザUR1、第2ユーザUR2、第3ユーザUR3および第4ユーザの利便性を向上させることができる。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。上述した各実施形態および各例に記載の構成を適宜組み合わせてもよい。
なお、上述した実施形態における仮想空間提供システム1、2が備える各部の機能全体あるいはその一部は、これらの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶部のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
1…仮想空間提供システム、11、11-2、11-3、11-4…クライアント端末、11A…表示装置、11B…音声出力装置、11C…収音装置、11D…撮影装置、12…仮想空間提供サーバ、12A…表示データ生成部、12B…音声データ生成部、12X…仮想空間インターフェース装置、12Y…処理装置、2…仮想空間提供システム、21、21-2、21-3、21-4…クライアント端末、21A…表示装置、21B…音声出力装置、21C…収音装置、21D…撮影装置、21E…仮想空間インターフェース装置、21E1…表示データ生成部、21E2…音声データ生成部、21F…処理装置、NW…ネットワーク、UR1…第1ユーザ、UR2…第2ユーザ、UR3…第3ユーザ、AT1…第1アバター、AT2…第2アバター、AT3…第3アバター、AT4…第4アバター

Claims (5)

  1. 少なくともユーザによって使用されるクライアント端末を備える仮想空間提供システムに備えられる仮想空間インターフェース装置であって、
    前記クライアント端末は、
    仮想空間内の状況を示す画像を表示する表示装置と、
    前記仮想空間内の音声を出力する音声出力装置と、
    前記ユーザが発する音声を収音する収音装置と、
    前記ユーザの顔画像を撮影する撮影装置とを備え、
    前記仮想空間インターフェース装置は、
    前記仮想空間内の状況を示す画像を前記クライアント端末の表示装置に表示させるための表示データを生成する表示データ生成部と、
    前記仮想空間内の音声を前記クライアント端末の音声出力装置に出力させるための音声データを生成する音声データ生成部とを備え、
    前記音声データ生成部は、
    前記クライアント端末の収音装置によって収音される前記ユーザが発する音声を前記仮想空間内に出力するための音声データを生成し、
    前記表示データ生成部および前記音声データ生成部は、
    前記クライアント端末の撮影装置によって撮影される前記ユーザの顔領域に手を位置させるジェスチャと、前記クライアント端末の撮影装置と前記ユーザの顔との位置関係とに基づいて、制御対象として、前記仮想空間内の状況を示す画像を前記クライアント端末の表示装置に表示させるための前記表示データ、前記仮想空間内の音声を前記クライアント端末の音声出力装置に出力させるための音声データ、および、前記ユーザが発する音声を前記仮想空間内に出力するための音声データの少なくともいずれかを制御し、
    前記表示データ生成部および前記音声データ生成部は、
    前記ユーザが手を位置させる顔領域の部位に応じて、前記制御対象を異ならせる、
    仮想空間インターフェース装置。
  2. 前記表示データ生成部は、
    前記クライアント端末の撮影装置によって撮影される前記ユーザが前記ユーザの目に前記ユーザの手を当てる動作と、前記クライアント端末の撮影装置と前記ユーザの顔との距離とに基づいて、前記クライアント端末の表示装置によって表示される前記仮想空間内の状況を示す画像の拡大および/または縮小を制御し、
    前記音声データ生成部は、
    前記クライアント端末の撮影装置によって撮影される前記ユーザが前記ユーザの耳に前記ユーザの手を当てる動作と、前記クライアント端末の撮影装置と前記ユーザの顔との距離とに基づいて、前記クライアント端末の音声出力装置によって出力される前記仮想空間内の音声の音量を制御し、
    前記音声データ生成部は、
    前記クライアント端末の撮影装置によって撮影される前記ユーザが前記ユーザの口に前記ユーザの手を当てる動作と、前記クライアント端末の撮影装置と前記ユーザの顔との距離とに基づいて、前記クライアント端末の収音装置によって収音されて前記仮想空間内に出力される前記ユーザが発する音声の音量を制御する、
    請求項1に記載の仮想空間インターフェース装置。
  3. 前記表示データ生成部は、
    前記クライアント端末の撮影装置によって撮影される前記ユーザが前記ユーザの目に前記ユーザの手を当てる動作と、前記クライアント端末の撮影装置に対する前記ユーザの顔の向きとに基づいて、前記仮想空間内における位置であって、前記クライアント端末の表示装置によって表示される画像に対応する位置を制御し、
    前記音声データ生成部は、
    前記クライアント端末の撮影装置によって撮影される前記ユーザが前記ユーザの耳に前記ユーザの手を当てる動作と、前記クライアント端末の撮影装置に対する前記ユーザの顔の向きとに基づいて、前記クライアント端末の音声出力装置によって出力される前記仮想空間からの音声の到来方向を制御し、
    前記音声データ生成部は、
    前記クライアント端末の撮影装置によって撮影される前記ユーザが前記ユーザの口に前記ユーザの手を当てる動作と、前記クライアント端末の撮影装置に対する前記ユーザの顔の向きとに基づいて、前記ユーザが発する音声の前記仮想空間への出力方向を制御する、
    請求項1に記載の仮想空間インターフェース装置。
  4. 仮想空間インターフェース装置を備える仮想空間提供システムに備えられ、ユーザによって使用されるクライアント端末であって、
    仮想空間内の状況を示す画像を表示する表示装置と、
    前記仮想空間内の音声を出力する音声出力装置と、
    前記ユーザが発する音声を収音する収音装置と、
    前記ユーザの顔画像を撮影する撮影装置とを備え、
    前記表示装置は、前記仮想空間インターフェース装置の表示データ生成部によって生成される表示データに基づいて、前記仮想空間内の状況を示す画像を表示し、
    前記音声出力装置は、前記仮想空間インターフェース装置の音声データ生成部によって生成される音声データに基づいて、前記仮想空間内の音声を出力し、
    前記仮想空間インターフェース装置の前記音声データ生成部は、前記収音装置によって収音される前記ユーザが発する音声を前記仮想空間内に出力するための音声データを生成し、
    前記仮想空間インターフェース装置の前記表示データ生成部および前記音声データ生成部は、
    前記撮影装置によって撮影される前記ユーザの顔領域に手を位置させるジェスチャと、前記撮影装置と前記ユーザの顔との位置関係とに基づいて、制御対象として、前記仮想空間内の状況を示す画像を前記表示装置に表示させるための前記表示データ、前記仮想空間内の音声を前記音声出力装置に出力させるための音声データ、および、前記ユーザが発する音声を前記仮想空間内に出力するための音声データの少なくともいずれかを制御し、
    前記仮想空間インターフェース装置の前記表示データ生成部および前記音声データ生成部は、
    前記ユーザが手を位置させる顔領域の部位に応じて、前記制御対象を異ならせる、
    クライアント端末。
  5. 仮想空間インターフェース装置を備える仮想空間提供システムに備えられ、ユーザによって使用されるクライアント端末を構成するコンピュータに、
    仮想空間内の状況を示す画像を表示する表示ステップと、
    前記仮想空間内の音声を出力する音声出力ステップと、
    前記ユーザが発する音声を収音する収音ステップと、
    前記ユーザの顔画像を撮影する撮影ステップとを実行させるためのプログラムであって、
    前記表示ステップでは、前記仮想空間インターフェース装置の表示データ生成部によって生成される表示データに基づいて、前記仮想空間内の状況を示す画像が表示され、
    前記音声出力ステップでは、前記仮想空間インターフェース装置の音声データ生成部によって生成される音声データに基づいて、前記仮想空間内の音声が出力され、
    前記仮想空間インターフェース装置の前記音声データ生成部は、前記収音ステップにおいて収音される前記ユーザが発する音声を前記仮想空間内に出力するための音声データを生成し、
    前記仮想空間インターフェース装置の前記表示データ生成部および前記音声データ生成部は、
    前記撮影ステップにおいて撮影される前記ユーザの顔領域に手を位置させるジェスチャと、前記クライアント端末の撮影装置と前記ユーザの顔との位置関係とに基づいて、制御対象として、前記仮想空間内の状況を示す画像を前記クライアント端末の表示装置に表示させるための前記表示データ、前記仮想空間内の音声を前記クライアント端末の音声出力装置に出力させるための音声データ、および、前記ユーザが発する音声を前記仮想空間内に出力するための音声データの少なくともいずれかを制御し、
    前記仮想空間インターフェース装置の前記表示データ生成部および前記音声データ生成部は、
    前記ユーザが手を位置させる顔領域の部位に応じて、前記制御対象を異ならせる、
    プログラム。
JP2022153488A 2022-09-27 2022-09-27 仮想空間インターフェース装置、クライアント端末およびプログラム Pending JP2024047795A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022153488A JP2024047795A (ja) 2022-09-27 2022-09-27 仮想空間インターフェース装置、クライアント端末およびプログラム
PCT/JP2023/023221 WO2024070085A1 (ja) 2022-09-27 2023-06-22 仮想空間インターフェース装置、クライアント端末、プログラムおよび仮想空間インターフェース制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022153488A JP2024047795A (ja) 2022-09-27 2022-09-27 仮想空間インターフェース装置、クライアント端末およびプログラム

Publications (1)

Publication Number Publication Date
JP2024047795A true JP2024047795A (ja) 2024-04-08

Family

ID=90476897

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022153488A Pending JP2024047795A (ja) 2022-09-27 2022-09-27 仮想空間インターフェース装置、クライアント端末およびプログラム

Country Status (2)

Country Link
JP (1) JP2024047795A (ja)
WO (1) WO2024070085A1 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012235887A (ja) * 2011-05-11 2012-12-06 Nikon Corp 電子機器及びプログラム
JP5865615B2 (ja) * 2011-06-30 2016-02-17 株式会社東芝 電子機器および制御方法
JP2013196140A (ja) * 2012-03-16 2013-09-30 Ntt Docomo Inc 携帯端末及び表示制御方法
CN110506249B (zh) * 2017-02-16 2022-07-19 索尼公司 信息处理设备、信息处理方法和记录介质
US10688396B2 (en) * 2017-04-28 2020-06-23 Sony Interactive Entertainment Inc. Second screen virtual window into VR environment
US10146501B1 (en) * 2017-06-01 2018-12-04 Qualcomm Incorporated Sound control by various hand gestures

Also Published As

Publication number Publication date
WO2024070085A1 (ja) 2024-04-04

Similar Documents

Publication Publication Date Title
US9804682B2 (en) Systems and methods for performing multi-touch operations on a head-mountable device
JP7095602B2 (ja) 情報処理装置、情報処理方法及び記録媒体
JP6250041B2 (ja) 骨伝導スピーカーにおける外部振動の削減
US20220066207A1 (en) Method and head-mounted unit for assisting a user
US11803233B2 (en) IMU for touch detection
TW201228332A (en) Mobile electronic device
US20230400956A1 (en) Displaying Representations of Environments
JP2001160154A (ja) 仮想空間通信システムにおけるアバタ表示装置、アバタ表示方法および記憶媒体
CN114648623A (zh) 信息处理装置、信息处理方法以及计算机可读介质
JPWO2019155735A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP7259447B2 (ja) 発話者検出システム、発話者検出方法及びプログラム
JP2018148436A (ja) 装置、システム、方法およびプログラム
US11620790B2 (en) Generating a 3D model of a fingertip for visual touch detection
CN113821337A (zh) 基于参与度分数改变与媒体对象相关联的资源利用率
WO2024070085A1 (ja) 仮想空間インターフェース装置、クライアント端末、プログラムおよび仮想空間インターフェース制御方法
WO2020203208A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2023124972A1 (zh) 显示状态切换方法、装置及系统、电子设备、存储介质
EP4100818A1 (en) Method and device for invoking public or private interactions during a multiuser communication session
WO2019138682A1 (ja) 情報処理装置、情報処理方法及びプログラム
WO2023058162A1 (ja) 音声拡張現実オブジェクト再生装置及び音声拡張現実オブジェクト再生方法
WO2022202021A1 (ja) 力覚デバイスの制御装置、制御方法、及び制御システム
WO2022060555A1 (en) Merging computer-generated objects based on extremity tracking data
CN115348497A (zh) 真无线耳机的人机交互控制方法、装置及存储介质
JP2016206960A (ja) 音声映像入出力装置