JP2020149398A - 仮想現実空間の提供方法 - Google Patents

仮想現実空間の提供方法 Download PDF

Info

Publication number
JP2020149398A
JP2020149398A JP2019046788A JP2019046788A JP2020149398A JP 2020149398 A JP2020149398 A JP 2020149398A JP 2019046788 A JP2019046788 A JP 2019046788A JP 2019046788 A JP2019046788 A JP 2019046788A JP 2020149398 A JP2020149398 A JP 2020149398A
Authority
JP
Japan
Prior art keywords
user terminal
data
voice
character
virtual reality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019046788A
Other languages
English (en)
Inventor
昌史 三上
Masashi Mikami
昌史 三上
京介 高山
Kyosuke Takayama
京介 高山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CS REPORTERS KK
CS Reporters Inc
XR IPLab Co Ltd
Original Assignee
CS REPORTERS KK
CS Reporters Inc
XR IPLab Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CS REPORTERS KK, CS Reporters Inc, XR IPLab Co Ltd filed Critical CS REPORTERS KK
Priority to JP2019046788A priority Critical patent/JP2020149398A/ja
Publication of JP2020149398A publication Critical patent/JP2020149398A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】簡易な方法で仮想現実空間に表示されるキャラクタのリップシンクを実現する方法を提供する。【解決手段】複数のユーザ端末に表示される仮想現実空間を提供する方法であって、第1のユーザ端末(2A)において、音声データを送信するステップと、第1のユーザ端末において、音声データから特定された音声特定データを送信するステップと、第1のユーザ端末において、動作データを送信するステップと、第2のユーザ端末(2B)において、音声データを受信するステップと、第2のユーザ端末において、音声特定データを受信するステップと、第2のユーザ端末において、動作データを受信するステップと、第2のユーザ端末において、音声データを出力し、音声特定データ及び動作データを基づいて、キャラクタを制御するステップと、を含む。【選択図】図1

Description

本発明は、仮想現実空間の提供方法に関する。詳しくは、ヘッドマウントディスプレイ(以下、「HMD」という。)等のウェアラブルデバイスを介して制御されるキャラクタ画像を含む仮想現実空間の提供方法に関する。
最近、パフォーマユーザ(演者)が、Oculus Rift(登録商標)に代表されるようなHMDを頭部に装着して頭部の姿勢を変化させ、また、把持したコントローラの姿勢を変化し、操作することで、仮想現実空間に表示されるキャラクタの姿勢を制御することが可能な技術が提供されている。
このような技術が普及することにより、パフォーマユーザは、基本的に、HMDと個人PCさえあれば、キャラクタを含む仮想現実空間画像を生成・表示させることが可能となり、また、動画配信サーバにアップロードすることが可能となる。
そして、複数のパフォーマユーザが、各々のキャラクタに扮して同じ仮想現実空間に接続することで、インタラクティブにコミュニケーションを図ることができる。
ここで、複数のパフォーマユーザの端末が各々遠隔に位置するため、通信に際して、受信側の端末において、他の端末から送信された音声データ、画像データ、及び動作や表情等の制御データのいずれかのデータの受信に遅延が生じ、例えば、受信側の端末において表示される他の端末が操作するキャラクタの唇の動きと音声が一致しない、という不具合が生じることがある。
アニメーション制作の分野において、キャラクタの唇の動きとキャラクタの音声の動きを一致させるリップシンクという技術がある(例えば、特許文献1)。
特開2016−167699号公報
しかしながら、特許文献1は、バッファを用いて音声データ及び画像データのいずれかの遅延を吸収し、双方のデータの出力を同期させる技術に関するものであり、かかる方法の場合、バッファに十分な容量の確保できない場合、データに破損が生じ、画像及び音声が出力されない問題が生じる可能性がある。
そこで、本発明は、仮想現実空間を提供する方法であって、簡易な方法で仮想現実空間に表示されるキャラクタのリップシンクを実現させる方法を提供することを目的とする。
本発明の一の実施形態において、複数のユーザ端末に表示される仮想現実空間を提供する方法であって、第1のユーザ端末において、音声データを送信するステップと、第1のユーザ端末において、音声データから抽出された音声パラメータを送信するステップと、第1のユーザ端末において、動作パラメータを送信するステップと、第2のユーザ端末において、音声データを受信するステップと、第2のユーザ端末において、音声パラメータを受信するステップと、第2のユーザ端末において、動作パラメータを受信するステップと、第2のユーザ端末において、音声データに基づき音声を出力し、音声パラメータ及び動作パラメータを基づいて、キャラクタを制御するステップと、を含む。
本発明によれば、簡易な方法で仮想現実空間に表示されるキャラクタのリップシンクを実現させることができる。
第1の実施形態に係るシステム構成図を示す。 第1の実施形態に係るサーバの機能構成図を示す。 第1の実施形態に係るパフォーマユーザ端末の機能構成図を示す。 第1の実施形態に係るHMDの機能構成図を示す。 第1の実施形態に係る仮想現実空間の提供方法を説明するフローチャートを示す。 第1の実施形態に係るパフォーマユーザ端末(送信元)の制御部及びストレージの詳細を示す。 第1の実施形態に係るパフォーマユーザ端末(送信先)の制御部及びストレージの詳細を示す。
<第1実施形態>
本発明の第1実施形態に係る仮想現実空間の提供方法を、以下の図面を参照しつつ説明する。なお、本発明はこれらの例示に限定されるものではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。以下の説明では、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。
図1に、本発明の第1の実施形態に係るシステム構成図を示す。図1に示すように、本実施形態に係るシステムは、サーバ1と、サーバ1に、インターネット等のネットワークを介して接続される、パフォーマユーザ端末2Aとパフォーマユーザ端末2Bとを含む。図1には、説明の便宜上パフォーマユーザ端末2A、2B(以下、ユーザ端末2と総称する)が図示されているが、任意の数のユーザ端末がネットワークに接続可能である。
パフォーマユーザ端末2A、2Bに関連付けられるパフォーマユーザは各々、HMD3A、3Bを頭部に装着し、また、(図示しない)コントローラを把持し、頭部またはコントローラの姿勢を変化させ、また、コントローラの所定の操作部(ボタン等)を操作することで、その入力データを、HMD3A、3Bに各々有線または無線のネットワークで接続されるユーザ端末2A、2Bに送信し、その入力データに基づいて、ユーザ端末2A、2Bは各々、仮想現実空間に配置されるアニメキャラクタ等の3Dオブジェクトの動きを制御し、その3Dオブジェクトが配置された仮想現実空間の画像を生成する。または、ユーザ端末2A、2Bは各々入力データを他のユーザ端末に送信し、送信先のユーザ端末が仮想現実空間に配置されるアニメキャラクタ等の3Dオブジェクトの動きを制御し、その3Dオブジェクトが配置された仮想現実空間の画像を生成することもできる。
なお、図1において、サーバ1をシステムの構成要素として記載しているが、ユーザ端末2A、2Bが、相互に直接または間接に通信する構成であれば良いので、省略することもできる。また、HMD3A、3Bに替えて、ジャイロセンサや加速度センサ等の各種センサが内蔵され。ユーザの姿勢を検出可能な端末であれば、他のウェアラブルデバイスやスマートフォン等を適用することもできる。また、HMD3A、3Bに替えて、光学式のモーションキャプチャ技術を適用することもできる。本技術の例として、パフォーマユーザがマーカを備えた全身スーツを装着し、部屋や撮影スタジオ等の一定の空間にマーカをトラッキングする、デジタルカメラ等の複数のトラッカを配置することで、トラッカがマーカの反射を捕捉し、フレーム毎のマーカ位置の変化を分析することで、演者の時系列の動きを空間的表現として構成する方法を適用することができる。この空間的表現を仮想現実空間におけるキャラクタの制御に適用することで、パフォーマユーザの動きをキャラクタの動きとして再現することが可能となる。また、HMD3A、3Bとしてスタンドアローン型のHMDを用いる場合には、HMD3A、3Bは、各々ユーザ端末2A、2Bを介さずに、ネットワークを介して、他のHMDと通信することができる。
図2は、第1実施形態に係るサーバ1の機能構成図を示す。なお、図示された構成は一例であり、これ以外の構成を有していてもよい。
図示されるように、サーバ1は、データベース(図示せず)と接続されシステムの一部を構成する。サーバ1は、例えばワークステーションやパーソナルコンピュータのような汎用コンピュータとしてもよいし、或いはクラウド・コンピューティングによって論理的に実現されてもよい。
サーバ1は、少なくとも、制御部10、メモリ11、ストレージ12、送受信部13、入出力部14等を備え、これらはバス15を通じて相互に電気的に接続される。
制御部10は、サーバ1全体の動作を制御し、各要素間におけるデータの送受信の制御、及びアプリケーションの実行及び認証処理に必要な情報処理等を行う演算装置である。例えば制御部10はCPU(Central Processing Unit)であり、ストレージ12に格納されメモリ11に展開されたプログラム等を実行して各情報処理を実施する。
メモリ11は、DRAM(Dynamic Random Access Memory)等の揮発性記憶装置で構成される主記憶と、フラッシュメモリやHDD(Hard Disc Drive)等の不揮発性記憶装置で構成される補助記憶と、を含む。メモリ11は、プロセッサ10のワークエリア等として使用され、また、サーバ1の起動時に実行されるBIOS(Basic Input/Output System)、及び各種設定情報等を格納する。
ストレージ12は、アプリケーション・プログラム等の各種プログラムを格納する。各処理に用いられるデータを格納したデータベース(図示せず)がストレージ12に構築されていてもよい。
送受信部13は、サーバ1をネットワークに接続する。なお、送受信部13は、Bluetooth(登録商標)及びBLE(Bluetooth Low Energy)の近距離通信インターフェースを備えていてもよい。
入出力部14は、キーボード・マウス類等の情報入力機器、及びディスプレイ等の出力機器である。
バス15は、上記各要素に共通に接続され、例えば、アドレス信号、データ信号及び各種制御信号を伝達する。
図3は、第1実施形態に係るパフォーマユーザ端末2A、2Bの機能構成図を示す。パフォーマユーザ端末2A、2Bは同じ構成とすることができるので、以下、説明の便宜のため、パフォーマユーザ端末2として説明する。なお、図示された構成は一例であり、これ以外の構成を有していてもよい。
パフォーマユーザ端末2は、前述の通り、様々な情報端末や汎用コンピュータとすることができるか、以下、スマートフォンを例に説明する。ユーザ端末2は、少なくとも、制御部20、メモリ21、ストレージ22、送受信部23、入力部24等を備え、これらはバス25を通じて相互に電気的に接続される。
制御部20は、ユーザ端末2全体の動作を制御し、各要素間におけるデータの送受信の制御、及びアプリケーションの実行及び認証処理に必要な情報処理等を行う演算装置である。例えば制御部20はCPU(Central Processing Unit)であり、ストレージ22に格納されメモリ21に展開されたプログラム等を実行して各情報処理を実施する。
メモリ21は、DRAM(Dynamic Random Access Memory)等の揮発性記憶装置で構成される主記憶と、フラッシュメモリやHDD(Hard Disc Drive)等の不揮発性記憶装置で構成される補助記憶と、を含む。メモリ21は、制御部20のワークエリア等として使用され、また、ユーザ端末2の起動時に実行されるBIOS(Basic Input/Output System)、及び各種設定情報等を格納する。
ストレージ22は、アプリケーション・プログラム等の各種プログラムを格納する。各処理に用いられるデータを格納したデータベース(図示せず)がストレージ22に構築されていてもよい。
送受信部23は、ユーザ端末2をネットワークに接続する。なお、送受信部23は、Bluetooth(登録商標)及びBLE(Bluetooth Low Energy)の近距離通信インターフェースを備えていてもよい。
入出力部24は、キーボード・マウス類等の情報入力機器、及びディスプレイ等の出力機器である。
バス25は、上記各要素に共通に接続され、例えば、アドレス信号、データ信号及び各種制御信号を伝達する。
パフォーマユーザ端末2は、例えばワークステーションやパーソナルコンピュータのような汎用コンピュータとしてもよいし、或いはクラウド・コンピューティングによって論理的に実現されてもよい。
図4は、第1の実施形態に係るHMD3A、3Bの機能構成図を示す。HMD3A、3Bは同じ構成とすることができるので、以下、説明の便宜のため、HMD3として説明する。なお、図示された構成は一例であり、これ以外の構成を有していてもよい。
図4に示すように、HMD3は、少なくとも、制御部30、メモリ31、ストレージ32、表示制御部33、表示部34、送受信部35、入出力部36等を備え、これらはバス40を通じて相互に電気的に接続される。
制御部30は、HMD3全体の動作を制御し、各要素間におけるデータの送受信の制御、及びゲーム処理に係るアプリケーションの実行及び認証処理に必要な情報処理等を行う演算装置である。例えば制御部30はCPU(Central Processing Unit)であり、ストレージ32に格納されメモリ31に展開されたプログラム等を実行して各情報処理を実施する。
メモリ31は、DRAM(Dynamic Random Access Memory)等の揮発性記憶装置で構成される主記憶と、フラッシュメモリやHDD(Hard Disc Drive)等の不揮発性記憶装置で構成される補助記憶と、を含む。メモリ31は、プロセッサ30のワークエリア等として使用され、また、ゲームサーバ1の起動時に実行されるBIOS(Basic Input/Output System)、及び各種設定情報等を格納する。
ストレージ32は、アプリケーション・プログラム等の各種プログラムを格納する。各処理に用いられるデータを格納したデータベース(図示せず)がストレージ32に構築されていてもよい。
画像制御部33は、例えば、GPU(Graphics Processing Unit)であり、主に画像処理に係る演算処理を実行する。画像制御部13は、制御部10により生成されたコンテンツデータを、各種オブジェクトの画像と合成し、仮想現実空間を構成する仮想現実空間画像を生成する。
表示部34は、画像制御部33から入力される画像信号に基づいて仮想現実空間画像を表示する。また、表示部34は、例えば、LCDまたは有機EL等のディスプレイである。表示部34には、左目用画像と右目用画像とが表示され、両目の視差を利用することにより立体感のある画像をユーザに提供することができる。左目用画像と右目用画像とを表示することができれば、左目用ディスプレイと右目用ディスプレイとを個別に備えることも可能であるし、左目用及び右目用の一体型のディスプレイを備えることも可能である。
送受信部35は、HMD3をネットワークに接続する。なお、送受信部15は、Bluetooth(登録商標)及びBLE(Bluetooth Low Energy)の近距離通信インターフェースを備えていてもよい。送受信部35は、(図示しない)コントローラからの指示信号をネットワーク経由で受信する。
入出力部36は、画像生成装置や表示装置等を外部に設ける場合、画像信号や音信号等を入出力するためのインターフェースである。本実施形態においては、ユーザ端末2との間に接続を確立するためのインターフェースとすることもできる。
さらに、HMD3は、センサ37を備えることができる。センサとしては、ユーザの頭部の向きや傾きといった動きを検出するために、図示しないが、例えば、磁気センサ、加速度センサ、もしくはジャイロセンサのいずれか、またはこれらの組み合わせを備えることができる。加速度センサは、加速度(単位時間当たりの速度の変化)を検出する。その中で、加速度センサは、3軸方向(x、y、z方向)の加速度を検出することができる。例えば、HMDの前後方向をx軸、左右方向をy軸、上下方向をz軸とし、前方方向をx軸正方向、左方向をy軸正方向、下方向をz軸方向とすると、加速度センサ30は、各方向の加速度を検出するとともに、x軸回りの回転角(ロール角)、y軸回りの回転角(ピッチ角)、z軸回りの回転角(ヨー角)を検出する。
さらに、またはセンサ37に代えて、HMD3は、(図示しない)複数の光源(例えば、赤外光LED、可視光LED)を備えることもでき、HMD3の外部(例えば、室内等)に設置されたカメラ(例えば、赤外光カメラ、可視光カメラ)がこれらの光源を検出することで、特定の空間におけるHMD3の位置、向き、傾きを検出することができる。または、同じ目的で、HMD3に、HMD3に設置された光源を検出するためのカメラを備えることもできる。
さらに、HMD3は、アイトラッキング・センサを備えることもできる。アイトラッキング・センサは、ユーザの左目及び右目の視線方向及び注視点を検出するために用いられる。アイトラッキング・センサとしては様々な方式が考えられるが、例えば、左目および右目に弱い赤外光を照射してできる角膜上の反射光の位置を基準点とし、反射光の位置に対する瞳孔の位置により視線方向を検出し、左目及び右目の視線方向の交点を注視点として検出する方法などが考えられる。
さらに、スピーカ38は、(図示しない)音生成部から入力される楽曲データ等の音信号を出力する。
さらに、マイク39は、パフォーマユーザの声を集音する。
さらに、バス40は、上記各要素に共通に接続され、例えば、アドレス信号、データ信号及び各種制御信号を伝達する。
なお、本実施形態のように、画像生成にあたり、HMD3は、ユーザ端末2等の外部処理装置との間でデータを送受信することで、外部処理装置にデータを処理させることもできるし、外部処理装置に依存せずに、HMD単体として、内蔵されたプログラムを実行する、スタンドアローン型の装置として機能することもできる。
図5は、第1実施形態に係るユーザ端末の機能構成図を示す。なお、図示された構成は一例であり、これ以外の構成を有していてもよい。
ユーザ端末4は、前述の通り、様々な情報端末や汎用コンピュータとすることができるか、以下、スマートフォンを例に説明する。ユーザ端末4は、少なくとも、制御部40、メモリ41、ストレージ42、送受信部43、入力部44等を備え、これらはバス47を通じて相互に電気的に接続される。
制御部40は、ユーザ端末4全体の動作を制御し、各要素間におけるデータの送受信の制御、及びアプリケーションの実行及び認証処理に必要な情報処理等を行う演算装置である。例えば制御部20はCPU(Central Processing Unit)であり、ストレージ42に格納されメモリ41に展開されたプログラム等を実行して各情報処理を実施する。
メモリ41は、DRAM(Dynamic Random Access Memory)等の揮発性記憶装置で構成される主記憶と、フラッシュメモリやHDD(Hard Disc Drive)等の不揮発性記憶装置で構成される補助記憶と、を含む。メモリ21は、制御部20のワークエリア等として使用され、また、ユーザ端末2の起動時に実行されるBIOS(Basic Input/Output System)、及び各種設定情報等を格納する。
ストレージ42は、アプリケーション・プログラム等の各種プログラムを格納する。各処理に用いられるデータを格納したデータベース(図示せず)がストレージ22に構築されていてもよい。
送受信部43は、ユーザ端末2をネットワークに接続する。なお、送受信部23は、Bluetooth(登録商標)及びBLE(Bluetooth Low Energy)の近距離通信インターフェースを備えていてもよい。
入出力部44は、キーボード・マウス類等の情報入力機器、及びディスプレイ等の出力機器である。
画像制御部45は、例えば、GPU(Graphics Processing Unit)であり、主に画像処理に係る演算処理を実行する。画像制御部45は、制御部40により生成されたコンテンツデータを、各種オブジェクトの画像と合成し、仮想現実空間を構成する仮想現実空間画像を生成する。
表示部46は、画像制御部45から入力される画像信号に基づいて仮想現実空間画像を表示する。また、表示部34は、例えば、LCDまたは有機EL等のディスプレイである。
バス47は、上記各要素に共通に接続され、例えば、アドレス信号、データ信号及び各種制御信号を伝達する。
ユーザ端末2は、例えばワークステーションやパーソナルコンピュータのような汎用コンピュータとしてもよいし、或いはクラウド・コンピューティングによって論理的に実現されてもよい。
図5は、第1の実施形態に係る仮想現実空間の提供方法を説明するフローチャートを示す。図示の通り、諸データの送信元となるパフォーマユーザ端末2A、サーバ1及び送信先となるパフォーマユーザ端末2Bにおいて分担して実行され、例えば、ユーザ端末2においては、メモリ22に展開されるプログラムを制御部21が実行することで実現され、また、サーバ1及びパフォーマユーザ端末2Bにおいても各々メモリに展開されるプログラムを制御部が実行することで実現される。ここで、パフォーマユーザ端末2A、2Bは、同等の構成、機能を有することを想定しているが、説明の便宜上、パフォーマユーザ端末2Aにおいては、諸データの送信元としての機能に着目し、パフォーマユーザ端末2Bにおいては、諸データの送信先としての機能に着目して説明する。また、パフォーマユーザ端末2A、2Bにより実現される機能は、仕様に応じて、各々HMD3A、3Bにより処理を実現することもできる。本方法の説明に当たり、パフォーマユーザ端末2A、パフォーマユーザ端末2Bの構成を、図6及び図7を参照しながら説明する。また、説明中引用される図番について、パフォーマユーザ端末2Aとの関連では、例えば、「制御部20A」等と、パフォーマユーザ端末2Bとの関連では、例えば、「制御部20B」等のように、同様の構成について、説明の便宜のため、装置に応じて図番の末尾に「A」「B」というような記号を付けて説明する。
まず、図6に示す、パフォーマユーザ端末2Aの制御部20Aの入力検出部51は、ユーザ入力を受信し、検出する(S101)。より具体的には、入力検出部51は、送受信部23を介して、HMD3Aのセンサ37Aまたは(図示しない)コントローラから検出されるデータ(例えば、加速度、動き、傾き等)(さらに、GPS情報等)及びマイク39Aから入力されたパフォーマユーザの音声データ等を検出する。
次に、パフォーマユーザ端末2Aの送受信部23Aは、検出した音声データをサーバ1に転送する(S102)。ここで、マイク39Aから入力された音声データは電気信号に変換されるが、さらに、ユーザ端末2A及び内部処理及び他の端末における処理に供するため、デジタル化(具体的には、サンプリング、量子化処理)され、デジタル化された音声データがサーバ1に送信され、さらに、S103の処理に引き継がれる。ここで、音声データは所定のフォーマット(例えば、MP3等)にエンコードされ、エンコードされたデータとして送信することもできる。音声データは後述の音声パラメータと比較して、データ容量が大きいため、音声パラメータと同時に送信すると、サーバ1に到達する時間が音声パラメータと比較して遅くなる可能性があり、仮に音声パラメータに先駆けて送ったとしても、通信トラフィックの状況によっては、尚遅延が生じる可能性がある。この遅延が、音声データ及び音声パラメータの送信先であるユーザ端末2Bにおける音声出力と画像生成/出力とのタイミング(リップシンク)に差を生じさせる要因となり得る。したがって、本タイミングのように、音声データを検出したタイミングで、音声パラメータに先駆けて、サーバ1等の他端末に送信することで、リップシンクの不一致を解消することが可能となる。
次に、パフォーマユーザ端末2Aの制御部20Aの音声分析部52は、音声分析により音声データから音声パラメータを抽出する(S103)。ここで、音声パラメータとは、いわゆる音素を示すデータをさし、日本語においては、母音(a、i、u、e、o)、子音(k、g、s、z、t、x、d、n、h、f、p、b、m、r、y、w)、その他特殊音からなるが、処理の負荷軽減のため、例えば、母音のみ抽出しても良い。音声分析においては、例えば、デジタル化した音声データを高速フーリエ変換することでスペクトラムを算出し、さらに、スペクトラムを離散コサイン変換してケプストラムを算出することでフォルマントを抽出し、音素を認識する方法が考えられる。
次に、パフォーマユーザ端末2Aの送受信部23は、抽出した音声パラメータをサーバ1に転送する(S104)。ここで、音声パラメータは、音素を示すデータであり、通信の負荷軽減のため、送受信部23は、母音(a、i、u、e、o)を示すデータのみ送信することができる。音声パラメータは、前述の音声解析を経て抽出されるデータであり、パフォーマユーザ端末2Aが、音声データをサーバ1に送信後、かかる音声分析に所定の時間を要する関係上、音声パラメータは、音声データの送信後、所定の時差をもってサーバ1に送信される。
次に、パフォーマユーザ端末2Aの送受信部23は、動作パラメータを検出した場合には、動作パラメータをサーバ1に転送する(S104)。ここで、動作パラメータは、例えば、HMD3のジャイロセンサにより検出されたユーザの頭部の向きや傾き等のユーザの動きに関するデータである。また、(図示しない)コントローラからユーザの手の動きに関するデータや操作信号を検出した場合においては、これらのデータも動作パラメータに含まれる。これらの動きに関するデータを検出しない場合には、本ステップを省略することも可能である。
次に、サーバ1は、ユーザ端末2Aから受信した音声データをユーザ端末2Bへと転送する(S106)。
次に、サーバ1は、ユーザ端末2Aから受信した音声パラメータをユーザ端末2Bへと転送する(S107)。
次に、サーバ1は、ユーザ端末2Aから受信した動作パラメータをユーザ端末2Bへと転送する(S108)。なお、動作パラメータをユーザ端末2Aから受信しない場合は、本ステップを省略することができる。
次に、ユーザ端末2Bの送受信部23Bは、音声データを受信する(S109)。受信された音声データは、音声合成部71におけるデコード/出力処理に引き継がれる。ここで、音声データは、前述のように、音声パラメータと比較してデータ容量が大きいため、音声パラメータと比較して、送信元から送信先に到達する時間が多くかかる可能性がある。本実施形態においては、パフォーマユーザ端末2Aにおいて、音声データを音声パラメータに先駆けて送信しているため、このような遅延を減らすことができるため、本ステップの音声データの受信タイミングと次ステップの音声パラメータの受信タイミングは略一致またはユーザ端末2Aにおいて音声データを送信した時間と音声パラメータを送信した時間の時差より小さいことが想定される。
次に、ユーザ端末2Bの送受信部23Bは、音声パラメータを受信する(S110)。前述のように、前ステップの音声データの受信タイミングと本ステップの音声パラメータの受信タイミングは略一致またはユーザ端末2Aにおいて音声データを送信した時間と音声パラメータを送信した時間の時差より小さいことが想定される。
次に、ユーザ端末2Bの送受信部23Bは、動作パラメータを受信する(S111)。動作パラメータについても、音声パラメータ同様に、音声データと比較してデータ容量が小さいため、S109の音声データの受信タイミングと本ステップの動作パラメータの受信タイミングは略一致またはユーザ端末2Aにおいて音声データを送信した時間と動作パラメータを送信した時間の時差より小さいことが想定される。
続いて、パフォーマユーザ端末2Bの制御部20Bの音声合成部71、キャラクタ制御部72及び画像生成部73は、受信したユーザ入力情報を基に、音声出力、キャラクタ制御及び画像の出力処理を実行する(S112)。より具体的には、まず、受信した音声データを基に、音声合成部71は、音声データをデコードし、デコードされた音声を出力する処理を行う。また、キャラクタ制御部52は、受信された音声パラメータを基に、すなわち、音素を示すデータに基づいて、キャラクタの唇の動きを制御する。音素、例えば、母音(a、i、u、e、o)の各々に対応する、キャラクタの唇の動作が関連付けてあり、キャラクタ制御部72は、受信した音素を示すデータに基づいて、キャラクタの唇の動作(具体的には開閉動作)を制御する。また、キャラクタ制御部72は、受信した動作データ(例えば、HMD3Aまたは(図示しない)コントローラの加速度、動き、傾き等)を基にHMD3Aまたはコントローラの位置及び姿勢を算出し、例えば、HMD3Aのセンサ27Aから入力されたデータがパフォーマユーザの頭部の向きや傾き(例えば、ユーザの頭部を基準としたxyz軸まわりの回転角)に関する場合、キャラクタ制御部72は、キャラクタの3Dオブジェクトを構成する頭部の動きを変化させることができる。動きを変化させる具体的な処理として、例えば、HMD3Aのジャイロセンサにより検出されたユーザの頭部の向きや傾き等の動きに関する情報を、オブジェクトの関節の動きや制約を規定したボーン構造における頭部の動きに変換し、ボーン構造における頭部の動きをキャラクタの3Dオブジェクトの頭部の動きに適用することで、キャラクタの動きを制御することができる。
また、パフォーマユーザ端末2Bの制御部20Bの画像生成部73は、仮想現実空間画像を生成する。より具体的には、画像生成部73は、3D形状データを所定の空間にマッピングし、画像記憶部81に格納されたキャラクタ画像データから変換されたテクスチャデータを3D形状にマッピングさせることで、キャラクタの3Dオブジェクトを生成する。所定の空間背景画像にキャラクタの3Dオブジェクトを重畳することで、仮想現実空間の画像が生成される。
そして、生成されたキャラクタ画像がHMD3Bの表示部34に表示され、キャラクタの唇が動作するタイミングで、パフォーマユーザ端末2Aから送信された音声が発声され、リップシンクが実現される。
以上のように、本実施形態において、パフォーマユーザの音声データを送信元端末から送信先端末に送信するタイミングを、音声データから抽出される音声パラメータ、その他動作データを送信するタイミングより先にすることで、送信先端末においてその時差を吸収して双方のデータを受信することができるため、結果として、送信先端末において、音声の出力タイミングと対応する音素に基づいてキャラクタの唇が開閉するタイミングとを略一致とすることができ、簡易な方法でリップシンクを実現することができる。
また、リップシンクの精度をさらに向上させるため、送信先端末における音声データと音声パラメータとを受信するタイミングが略一致となるように、音声データが送信元から送信先端末に送信される時間、通信のトラフィック等を基に、送信元端末で音声データと音声パラメータとを送信するタイミングの時差を調整することも可能である。
上述した実施の形態は、本発明の理解を容易にするための例示に過ぎず、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更、改良することができると共に、本発明にはその均等物が含まれることは言うまでもない。
1 サーバ
2 パフォーマユーザ端末
3 HMD


























Claims (5)

  1. 複数のユーザ端末に表示される仮想現実空間を提供する方法であって、
    第1のユーザ端末において、音声データを送信するステップと、
    前記第1のユーザ端末において、音声データから抽出された音声パラメータを送信するステップと、
    前記第1のユーザ端末において、動作パラメータを送信するステップと、
    第2のユーザ端末において、前記音声データを受信するステップと、
    前記第2のユーザ端末において、前記音声パラメータを受信するステップと、
    前記第2のユーザ端末において、前記動作パラメータを受信するステップと、
    前記第2のユーザ端末において、前記音声データに基づき音声を出力し、前記音声パラメータ及び前記動作パラメータを基づいて、キャラクタを制御するステップと、
    を含む方法。
  2. キャラクタを制御するステップは、キャラクタのリップの開閉を制御することを含む、請求項1に記載の方法。
  3. さらに、前記音声データから音声パラメータを抽出することを含む、請求項1に記載の方法。
  4. 前記音声パラメータを、前記音声データを送信後、所定の時間後に送信することを特徴とする、請求項1に記載の方法。
  5. 前記第2のユーザ端末において、同時に、前記音声データに基づき音声を出力し、キャラクタを制御することを特徴とする、請求項1に記載の方法。











JP2019046788A 2019-03-14 2019-03-14 仮想現実空間の提供方法 Pending JP2020149398A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019046788A JP2020149398A (ja) 2019-03-14 2019-03-14 仮想現実空間の提供方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019046788A JP2020149398A (ja) 2019-03-14 2019-03-14 仮想現実空間の提供方法

Publications (1)

Publication Number Publication Date
JP2020149398A true JP2020149398A (ja) 2020-09-17

Family

ID=72429679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019046788A Pending JP2020149398A (ja) 2019-03-14 2019-03-14 仮想現実空間の提供方法

Country Status (1)

Country Link
JP (1) JP2020149398A (ja)

Similar Documents

Publication Publication Date Title
US10782779B1 (en) Feedback coordination for a virtual interaction
JP2020149399A (ja) 仮想現実空間の提供方法
KR102565755B1 (ko) 얼굴의 특징점의 움직임에 따라 모션이 수행된 아바타를 표시하는 전자 장치와 이의 동작 방법
US9479736B1 (en) Rendered audiovisual communication
US11202164B2 (en) Predictive head-tracked binaural audio rendering
CN102903362B (zh) 集成的本地和基于云的语音识别
US10007349B2 (en) Multiple sensor gesture recognition
US9524081B2 (en) Synchronizing virtual actor's performances to a speaker's voice
EP2994912B1 (en) Speech to text conversion
JP2019531538A (ja) ワードフロー注釈
US20200335128A1 (en) Identifying input for speech recognition engine
JP6545174B2 (ja) ユーザ設定可能な発話コマンド
US20130307855A1 (en) Holographic story telling
US20190147875A1 (en) Continuous topic detection and adaption in audio environments
KR101624454B1 (ko) 홀로그램 영상 기반 메시지 서비스 제공 방법 및 사용자 단말, 그리고 홀로그램 영상 표시 장치
US11756251B2 (en) Facial animation control by automatic generation of facial action units using text and speech
JP2008299135A (ja) 音声合成装置、音声合成方法、および音声合成用プログラム
JP6969577B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US11363378B2 (en) Method and device for sound processing for a synthesized reality setting
US20230300250A1 (en) Selectively providing audio to some but not all virtual conference participants reprsented in a same virtual space
JP2020149398A (ja) 仮想現実空間の提供方法
US20220147143A1 (en) Method and device for performance-based progression of virtual content
US11468611B1 (en) Method and device for supplementing a virtual environment
US20230368794A1 (en) Vocal recording and re-creation
US20240064486A1 (en) Rendering method and related device