JP2020149399A - 仮想現実空間の提供方法 - Google Patents

仮想現実空間の提供方法 Download PDF

Info

Publication number
JP2020149399A
JP2020149399A JP2019046789A JP2019046789A JP2020149399A JP 2020149399 A JP2020149399 A JP 2020149399A JP 2019046789 A JP2019046789 A JP 2019046789A JP 2019046789 A JP2019046789 A JP 2019046789A JP 2020149399 A JP2020149399 A JP 2020149399A
Authority
JP
Japan
Prior art keywords
voice
data
character
unit
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019046789A
Other languages
English (en)
Inventor
昌史 三上
Masashi Mikami
昌史 三上
京介 高山
Kyosuke Takayama
京介 高山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CS REPORTERS KK
CS Reporters Inc
XR IPLab Co Ltd
Original Assignee
CS REPORTERS KK
CS Reporters Inc
XR IPLab Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CS REPORTERS KK, CS Reporters Inc, XR IPLab Co Ltd filed Critical CS REPORTERS KK
Priority to JP2019046789A priority Critical patent/JP2020149399A/ja
Publication of JP2020149399A publication Critical patent/JP2020149399A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】仮想現実空間を提供する方法であって、簡易な方法で仮想現実空間に表示されるキャラクタのリップシンクを実現させる方法を提供する。【解決手段】複数のユーザ端末に表示される仮想現実空間を提供するサーバは、第1のユーザ端末から音声データを受信S104する送受信部と、音声データから音声パラメータを抽出するS105音声分析部と、音声データを基にキャラクタの音声を生成する音声生成部と、音声パラメータを基にキャラクタの画像を制御するS106画像生成部と、を有する。音声生成部及び画像生成部は、キャラクタの動作が、音声に同期するよう制御する。【選択図】図5

Description

本発明は、仮想現実空間の提供方法に関する。詳しくは、ヘッドマウントディスプレイ(以下、「HMD」という。)等のウェアラブルデバイスを介して制御されるキャラクタ画像を含む仮想現実空間の提供方法に関する。
最近、パフォーマユーザ(演者)が、Oculus Rift(登録商標)に代表されるようなHMDを頭部に装着して頭部の姿勢を変化させ、また、把持したコントローラの姿勢を変化し、操作することで、仮想現実空間に表示されるキャラクタの姿勢を制御することが可能な技術が提供されている。
このような技術が普及することにより、パフォーマユーザは、基本的に、HMDと個人PCさえあれば、キャラクタを含む仮想現実空間画像を生成・表示させることが可能となり、また、動画配信サーバにアップロードすることが可能となる。
そして、複数のパフォーマユーザが、各々のキャラクタに扮して同じ仮想現実空間に接続することで、インタラクティブにコミュニケーションを図ることができる。
ここで、複数のパフォーマユーザの端末が各々遠隔に位置するため、通信に際して、受信側の端末において、他の端末から送信された音声データ、画像データ、及び動作や表情等の制御データのいずれかのデータの受信に遅延が生じ、例えば、受信側の端末において表示される他の端末が操作するキャラクタの唇の動きと音声が一致しない、という不具合が生じることがある。
アニメーション制作の分野において、キャラクタの唇の動きとキャラクタの音声の動きを一致させるリップシンクという技術がある(例えば、特許文献1)。
特開2016−167699号公報
しかしながら、特許文献1は、バッファを用いて音声データ及び画像データのいずれかの遅延を吸収し、双方のデータの出力を同期させる技術に関するものであり、かかる方法の場合、バッファに十分な容量の確保できない場合、データに破損が生じ、画像及び音声が出力されない問題が生じる可能性がある。
そこで、本発明は、仮想現実空間を提供する方法であって、簡易な方法で仮想現実空間に表示されるキャラクタのリップシンクを実現させる方法を提供することを目的とする。
本発明の一の実施形態において、本発明の一の実施形態において、複数のユーザ端末に表示される仮想現実空間を提供するサーバは、第1のユーザ端末から音声データを受信する送受信部と、前記音声データから音声パラメータを抽出する音声分析部と、前記音声データを基にキャラクタの音声を生成する音声生成部と、前記音声パラメータを基に前記キャラクタの画像を制御する画像生成部と、を有し、前記音声生成部及び前記画像生成部は、前記キャラクタの動作が、前記音声に同期するよう制御することを特徴とする。
本発明によれば、簡易な方法で仮想現実空間に表示されるキャラクタのリップシンクを実現させることができる。
第1の実施形態に係るシステム構成図を示す。 第1の実施形態に係るサーバの機能構成図を示す。 第1の実施形態に係るパフォーマユーザ端末の機能構成図を示す。 第1の実施形態に係るHMDの機能構成図を示す。 第1の実施形態に係る仮想現実空間の提供方法を説明するフローチャートを示す。 第1の実施形態に係るサーバの制御部及びストレージの詳細を示す。
<第1実施形態>
本発明の第1実施形態に係る仮想現実空間の提供方法を、以下の図面を参照しつつ説明する。なお、本発明はこれらの例示に限定されるものではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。以下の説明では、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。
図1に、本発明の第1の実施形態に係るシステム構成図を示す。図1に示すように、本実施形態に係るシステムは、サーバ1と、サーバ1に、インターネット等のネットワークを介して接続される、パフォーマユーザ端末2Aとパフォーマユーザ端末2Bとを含む。図1には、説明の便宜上パフォーマユーザ端末2A、2B(以下、ユーザ端末2と総称する)が図示されているが、任意の数のユーザ端末がネットワークに接続可能である。
パフォーマユーザ端末2A、2Bに関連付けられるパフォーマユーザは各々、HMD3A、3Bを頭部に装着し、また、(図示しない)コントローラを把持し、頭部またはコントローラの姿勢を変化させ、また、コントローラの所定の操作部(ボタン等)を操作することで、その入力データを、HMD3A、3Bに各々有線または無線のネットワークで接続されるユーザ端末2A、2Bに送信し、その入力データに基づいて、ユーザ端末2A、2Bは各々、仮想現実空間に配置されるアニメキャラクタ等の3Dオブジェクトの動きを制御し、その3Dオブジェクトが配置された仮想現実空間の画像を生成する。または、ユーザ端末2A、2Bは各々入力データを他のユーザ端末に送信し、送信先のユーザ端末が仮想現実空間に配置されるアニメキャラクタ等の3Dオブジェクトの動きを制御し、その3Dオブジェクトが配置された仮想現実空間の画像を生成することもできる。
なお、図1において、サーバ1をシステムの構成要素として記載しているが、ユーザ端末2A、2Bが、相互に直接または間接に通信する構成であれば良いので、省略することもできる。また、HMD3A、3Bに替えて、ジャイロセンサや加速度センサ等の各種センサが内蔵され。ユーザの姿勢を検出可能な端末であれば、他のウェアラブルデバイスやスマートフォン等を適用することもできる。また、HMD3A、3Bに替えて、光学式のモーションキャプチャ技術を適用することもできる。本技術の例として、パフォーマユーザがマーカを備えた全身スーツを装着し、部屋や撮影スタジオ等の一定の空間にマーカをトラッキングする、デジタルカメラ等の複数のトラッカを配置することで、トラッカがマーカの反射を捕捉し、フレーム毎のマーカ位置の変化を分析することで、演者の時系列の動きを空間的表現として構成する方法を適用することができる。この空間的表現を仮想現実空間におけるキャラクタの制御に適用することで、パフォーマユーザの動きをキャラクタの動きとして再現することが可能となる。また、HMD3A、3Bとしてスタンドアローン型のHMDを用いる場合には、HMD3A、3Bは、各々ユーザ端末2A、2Bを介さずに、ネットワークを介して、他のHMDと通信することができる。
図2は、第1実施形態に係るサーバ1の機能構成図を示す。なお、図示された構成は一例であり、これ以外の構成を有していてもよい。
図示されるように、サーバ1は、データベース(図示せず)と接続されシステムの一部を構成する。サーバ1は、例えばワークステーションやパーソナルコンピュータのような汎用コンピュータとしてもよいし、或いはクラウド・コンピューティングによって論理的に実現されてもよい。
サーバ1は、少なくとも、制御部10、メモリ11、ストレージ12、送受信部13、入出力部14等を備え、これらはバス15を通じて相互に電気的に接続される。
制御部10は、サーバ1全体の動作を制御し、各要素間におけるデータの送受信の制御、及びアプリケーションの実行及び認証処理に必要な情報処理等を行う演算装置である。例えば制御部10はCPU(Central Processing Unit)であり、ストレージ12に格納されメモリ11に展開されたプログラム等を実行して各情報処理を実施する。
メモリ11は、DRAM(Dynamic Random Access Memory)等の揮発性記憶装置で構成される主記憶と、フラッシュメモリやHDD(Hard Disc Drive)等の不揮発性記憶装置で構成される補助記憶と、を含む。メモリ11は、プロセッサ10のワークエリア等として使用され、また、サーバ1の起動時に実行されるBIOS(Basic Input/Output System)、及び各種設定情報等を格納する。
ストレージ12は、アプリケーション・プログラム等の各種プログラムを格納する。各処理に用いられるデータを格納したデータベース(図示せず)がストレージ12に構築されていてもよい。
送受信部13は、サーバ1をネットワークに接続する。なお、送受信部13は、Bluetooth(登録商標)及びBLE(Bluetooth Low Energy)の近距離通信インターフェースを備えていてもよい。
入出力部14は、キーボード・マウス類等の情報入力機器、及びディスプレイ等の出力機器である。
バス15は、上記各要素に共通に接続され、例えば、アドレス信号、データ信号及び各種制御信号を伝達する。
図3は、第1実施形態に係るパフォーマユーザ端末2A、2Bの機能構成図を示す。パフォーマユーザ端末2A、2Bは同じ構成とすることができるので、以下、説明の便宜のため、パフォーマユーザ端末2として説明する。なお、図示された構成は一例であり、これ以外の構成を有していてもよい。
パフォーマユーザ端末2は、前述の通り、様々な情報端末や汎用コンピュータとすることができるか、以下、スマートフォンを例に説明する。ユーザ端末2は、少なくとも、制御部20、メモリ21、ストレージ22、送受信部23、入力部24等を備え、これらはバス25を通じて相互に電気的に接続される。
制御部20は、ユーザ端末2全体の動作を制御し、各要素間におけるデータの送受信の制御、及びアプリケーションの実行及び認証処理に必要な情報処理等を行う演算装置である。例えば制御部20はCPU(Central Processing Unit)であり、ストレージ22に格納されメモリ21に展開されたプログラム等を実行して各情報処理を実施する。
メモリ21は、DRAM(Dynamic Random Access Memory)等の揮発性記憶装置で構成される主記憶と、フラッシュメモリやHDD(Hard Disc Drive)等の不揮発性記憶装置で構成される補助記憶と、を含む。メモリ21は、制御部20のワークエリア等として使用され、また、ユーザ端末2の起動時に実行されるBIOS(Basic Input/Output System)、及び各種設定情報等を格納する。
ストレージ22は、アプリケーション・プログラム等の各種プログラムを格納する。各処理に用いられるデータを格納したデータベース(図示せず)がストレージ22に構築されていてもよい。
送受信部23は、ユーザ端末2をネットワークに接続する。なお、送受信部23は、Bluetooth(登録商標)及びBLE(Bluetooth Low Energy)の近距離通信インターフェースを備えていてもよい。
入出力部24は、キーボード・マウス類等の情報入力機器、及びディスプレイ等の出力機器である。
バス25は、上記各要素に共通に接続され、例えば、アドレス信号、データ信号及び各種制御信号を伝達する。
パフォーマユーザ端末2は、例えばワークステーションやパーソナルコンピュータのような汎用コンピュータとしてもよいし、或いはクラウド・コンピューティングによって論理的に実現されてもよい。
図4は、第1の実施形態に係るHMD3A、3Bの機能構成図を示す。HMD3A、3Bは同じ構成とすることができるので、以下、説明の便宜のため、HMD3として説明する。なお、図示された構成は一例であり、これ以外の構成を有していてもよい。
図4に示すように、HMD3は、少なくとも、制御部30、メモリ31、ストレージ32、表示制御部33、表示部34、送受信部35、入出力部36等を備え、これらはバス40を通じて相互に電気的に接続される。
制御部30は、HMD3全体の動作を制御し、各要素間におけるデータの送受信の制御、及びゲーム処理に係るアプリケーションの実行及び認証処理に必要な情報処理等を行う演算装置である。例えば制御部30はCPU(Central Processing Unit)であり、ストレージ32に格納されメモリ31に展開されたプログラム等を実行して各情報処理を実施する。
メモリ31は、DRAM(Dynamic Random Access Memory)等の揮発性記憶装置で構成される主記憶と、フラッシュメモリやHDD(Hard Disc Drive)等の不揮発性記憶装置で構成される補助記憶と、を含む。メモリ31は、プロセッサ30のワークエリア等として使用され、また、ゲームサーバ1の起動時に実行されるBIOS(Basic Input/Output System)、及び各種設定情報等を格納する。
ストレージ32は、アプリケーション・プログラム等の各種プログラムを格納する。各処理に用いられるデータを格納したデータベース(図示せず)がストレージ32に構築されていてもよい。
画像制御部33は、例えば、GPU(Graphics Processing Unit)であり、主に画像処理に係る演算処理を実行する。画像制御部13は、制御部10により生成されたコンテンツデータを、各種オブジェクトの画像と合成し、仮想現実空間を構成する仮想現実空間画像を生成する。
表示部34は、画像制御部33から入力される画像信号に基づいて仮想現実空間画像を表示する。また、表示部34は、例えば、LCDまたは有機EL等のディスプレイである。表示部34には、左目用画像と右目用画像とが表示され、両目の視差を利用することにより立体感のある画像をユーザに提供することができる。左目用画像と右目用画像とを表示することができれば、左目用ディスプレイと右目用ディスプレイとを個別に備えることも可能であるし、左目用及び右目用の一体型のディスプレイを備えることも可能である。
送受信部35は、HMD3をネットワークに接続する。なお、送受信部15は、Bluetooth(登録商標)及びBLE(Bluetooth Low Energy)の近距離通信インターフェースを備えていてもよい。送受信部35は、(図示しない)コントローラからの指示信号をネットワーク経由で受信する。
入出力部36は、画像生成装置や表示装置等を外部に設ける場合、画像信号や音信号等を入出力するためのインターフェースである。本実施形態においては、ユーザ端末2との間に接続を確立するためのインターフェースとすることもできる。
さらに、HMD3は、センサ37を備えることができる。センサとしては、ユーザの頭部の向きや傾きといった動きを検出するために、図示しないが、例えば、磁気センサ、加速度センサ、もしくはジャイロセンサのいずれか、またはこれらの組み合わせを備えることができる。加速度センサは、加速度(単位時間当たりの速度の変化)を検出する。その中で、加速度センサは、3軸方向(x、y、z方向)の加速度を検出することができる。例えば、HMDの前後方向をx軸、左右方向をy軸、上下方向をz軸とし、前方方向をx軸正方向、左方向をy軸正方向、下方向をz軸方向とすると、加速度センサ30は、各方向の加速度を検出するとともに、x軸回りの回転角(ロール角)、y軸回りの回転角(ピッチ角)、z軸回りの回転角(ヨー角)を検出する。
さらに、またはセンサ37に代えて、HMD3は、(図示しない)複数の光源(例えば、赤外光LED、可視光LED)を備えることもでき、HMD3の外部(例えば、室内等)に設置されたカメラ(例えば、赤外光カメラ、可視光カメラ)がこれらの光源を検出することで、特定の空間におけるHMD3の位置、向き、傾きを検出することができる。または、同じ目的で、HMD3に、HMD3に設置された光源を検出するためのカメラを備えることもできる。
さらに、HMD3は、アイトラッキング・センサを備えることもできる。アイトラッキング・センサは、ユーザの左目及び右目の視線方向及び注視点を検出するために用いられる。アイトラッキング・センサとしては様々な方式が考えられるが、例えば、左目および右目に弱い赤外光を照射してできる角膜上の反射光の位置を基準点とし、反射光の位置に対する瞳孔の位置により視線方向を検出し、左目及び右目の視線方向の交点を注視点として検出する方法などが考えられる。
さらに、スピーカ38は、(図示しない)音生成部から入力される楽曲データ等の音信号を出力する。
さらに、マイク39は、パフォーマユーザの声を集音する。
さらに、バス40は、上記各要素に共通に接続され、例えば、アドレス信号、データ信号及び各種制御信号を伝達する。
なお、本実施形態のように、画像生成にあたり、HMD3は、ユーザ端末2等の外部処理装置との間でデータを送受信することで、外部処理装置にデータを処理させることもできるし、外部処理装置に依存せずに、HMD単体として、内蔵されたプログラムを実行する、スタンドアローン型の装置として機能することもできる。
図5は、第1実施形態に係るユーザ端末の機能構成図を示す。なお、図示された構成は一例であり、これ以外の構成を有していてもよい。
ユーザ端末4は、前述の通り、様々な情報端末や汎用コンピュータとすることができるか、以下、スマートフォンを例に説明する。ユーザ端末4は、少なくとも、制御部40、メモリ41、ストレージ42、送受信部43、入力部44等を備え、これらはバス47を通じて相互に電気的に接続される。
制御部40は、ユーザ端末4全体の動作を制御し、各要素間におけるデータの送受信の制御、及びアプリケーションの実行及び認証処理に必要な情報処理等を行う演算装置である。例えば制御部20はCPU(Central Processing Unit)であり、ストレージ42に格納されメモリ41に展開されたプログラム等を実行して各情報処理を実施する。
メモリ41は、DRAM(Dynamic Random Access Memory)等の揮発性記憶装置で構成される主記憶と、フラッシュメモリやHDD(Hard Disc Drive)等の不揮発性記憶装置で構成される補助記憶と、を含む。メモリ21は、制御部20のワークエリア等として使用され、また、ユーザ端末2の起動時に実行されるBIOS(Basic Input/Output System)、及び各種設定情報等を格納する。
ストレージ42は、アプリケーション・プログラム等の各種プログラムを格納する。各処理に用いられるデータを格納したデータベース(図示せず)がストレージ22に構築されていてもよい。
送受信部43は、ユーザ端末2をネットワークに接続する。なお、送受信部23は、Bluetooth(登録商標)及びBLE(Bluetooth Low Energy)の近距離通信インターフェースを備えていてもよい。
入出力部44は、キーボード・マウス類等の情報入力機器、及びディスプレイ等の出力機器である。
画像制御部45は、例えば、GPU(Graphics Processing Unit)であり、主に画像処理に係る演算処理を実行する。画像制御部45は、制御部40により生成されたコンテンツデータを、各種オブジェクトの画像と合成し、仮想現実空間を構成する仮想現実空間画像を生成する。
表示部46は、画像制御部45から入力される画像信号に基づいて仮想現実空間画像を表示する。また、表示部34は、例えば、LCDまたは有機EL等のディスプレイである。
バス47は、上記各要素に共通に接続され、例えば、アドレス信号、データ信号及び各種制御信号を伝達する。
ユーザ端末2は、例えばワークステーションやパーソナルコンピュータのような汎用コンピュータとしてもよいし、或いはクラウド・コンピューティングによって論理的に実現されてもよい。
図5は、第1の実施形態に係る仮想現実空間の提供方法を説明するフローチャートを示す。図示の通り、諸データの送信元となるパフォーマユーザ端末2A、サーバ1及び送信先となるパフォーマユーザ端末2Bにおいて分担して実行され、例えば、ユーザ端末2においては、メモリ22に展開されるプログラムを制御部21が実行することで実現され、また、サーバ1及びパフォーマユーザ端末2Bにおいても各々メモリに展開されるプログラムを制御部が実行することで実現される。ここで、パフォーマユーザ端末2A、2Bは、同等の構成、機能を有することを想定しているが、説明の便宜上、パフォーマユーザ端末2Aにおいては、諸データの送信元としての機能に着目し、パフォーマユーザ端末2Bにおいては、諸データの送信先としての機能に着目して説明する。また、パフォーマユーザ端末2A、2Bにより実現される機能は、仕様に応じて、各々HMD3A、3Bにより処理を実現することもできる。本方法の説明に当たり、パフォーマユーザ端末2A、パフォーマユーザ端末2Bの構成を、図6及び図7を参照しながら説明する。また、説明中引用される図番について、パフォーマユーザ端末2Aとの関連では、例えば、「制御部20A」等と、パフォーマユーザ端末2Bとの関連では、例えば、「制御部20B」等のように、同様の構成について、説明の便宜のため、装置に応じて図番の末尾に「A」「B」というような記号を付けて説明する。
まず、図6に示す、パフォーマユーザ端末2Aの制御部20Aの入力検出部51は、ユーザ入力を受信し、検出する(S101)。より具体的には、入力検出部51は、送受信部23を介して、HMD3Aのセンサ37Aまたは(図示しない)コントローラから検出されるデータ(例えば、加速度、動き、傾き等)(さらに、GPS情報等)及びマイク39Aから入力されたパフォーマユーザの音声データ等を検出する。
次に、パフォーマユーザ端末2Aの送受信部23Aは、検出した音声データをサーバ1に転送する(S102)。ここで、マイク39Aから入力された音声データは電気信号に変換されるが、さらに、ユーザ端末2A及び内部処理及び他の端末における処理に供するため、デジタル化(具体的には、サンプリング、量子化処理)され、デジタル化された音声データがサーバ1に送信され、さらに、S103の処理に引き継がれる。ここで、音声データは所定のフォーマット(例えば、MP3等)にエンコードされ、エンコードされたデータとして送信することもできる。音声データは後述の動作パラメータと比較して、データ容量が大きいため、動作パラメータと同時に送信すると、サーバ1に到達する時間が動作パラメータと比較して遅くなる可能性があり、仮に動作パラメータに先駆けて送ったとしても、通信トラフィックの状況によっては、尚遅延が生じる可能性がある。この遅延が、音声データ及び動作パラメータの送信先であるユーザ端末2Bにおける音声出力と画像生成/出力とのタイミングに差を生じさせる要因となり得る。したがって、本タイミングのように、音声データを検出したタイミングで、動作パラメータに先駆けて、サーバ1等の他端末に送信することで、音声出力と画像生成/出力との不一致を解消することが可能となる。
次に、パフォーマユーザ端末2Aの送受信部23Aは、検出した動作パラメータをサーバ1に送信する(S103)。ここで、動作パラメータは、例えば、HMD3のジャイロセンサにより検出されたユーザの頭部の向きや傾き等のユーザの動きに関するデータである。また、(図示しない)コントローラからユーザの手の動きに関するデータや操作信号を検出した場合においては、これらのデータも動作パラメータに含まれる。
並行して、サーバ1の送受信部13は、ユーザ端末2Aから音声データを受信する(S104)。
次に、サーバ1の制御部10の音声分析部51は、音声分析により音声データから音声パラメータを抽出する(S105)。ここで、音声パラメータとは、いわゆる音素を示すデータをさし、日本語においては、母音(a、i、u、e、o)、子音(k、g、s、z、t、x、d、n、h、f、p、b、m、r、y、w)、その他特殊音からなるが、処理の負荷軽減のため、例えば、母音のみ抽出しても良い。音声分析においては、例えば、デジタル化した音声データを高速フーリエ変換することでスペクトラムを算出し、さらに、スペクトラムを離散コサイン変換してケプストラムを算出することでフォルマントを抽出し、音素を認識する方法が考えられる。
次に、サーバ1の送受信部13は、動作パラメータを受信する(S106)。動作パラメータについては、音声データと比較してデータ容量が小さいため、S104の音声データの受信タイミングと本ステップの動作パラメータの受信タイミングは略一致またはユーザ端末2Aにおいて音声データを送信した時間と動作パラメータを送信した時間の時差より小さいことが想定される。
続いて、サーバ1の制御部10のキャラクタ制御部52、音声合成部53及び画像生成部54は、受信したユーザ入力情報を基に、音声出力、キャラクタ制御及び画像の出力処理を実行する(S106)。より具体的には、まず、受信した音声データを基に、音声合成部53は、音声データをデコードし、デコードされた音声を出力する処理を行う。また、音声出力に際して、音声合成部54は、ストレージ12の音声データ記憶部61に格納される音声データまたは音声変換ソフトウェアを参照し、例えば、パフォーマユーザの声を特定のアニメ声優の音声に変換することも可能である。また、音声合成部53は、パフォーマユーザ端末2Aから受信される音声データに含まれるリップノイズや背景ノイズをフィルタリングで除去し、明りょうな声質に変換したり、声量を上げたりすることもできる。
また、キャラクタ制御部52は、抽出された音声パラメータを基に、すなわち、音素を示すデータに基づいて、キャラクタの唇の動きを制御する。音素、例えば、母音(a、i、u、e、o)の各々に対応する、キャラクタの唇の動作が関連付けてあり、キャラクタ制御部52は、受信した音素を示すデータに基づいて、キャラクタの唇の動作(具体的には開閉動作)を制御する。ここで、サーバにおいて、音声パラメータを抽出するための音声分析処理に相当程度の時間を要することから、音声の出力タイミングを、音声データ受信後所定の時間遅れさせるようにすることができる。または、音声の出力を、音声分析処理が終了したことを待って実行することで、より高い精度のリップシンクを実現することができる。
また、キャラクタ制御部52は、受信した動作データ(例えば、HMD3Aまたは(図示しない)コントローラの加速度、動き、傾き等)を基にHMD3Aまたはコントローラの位置及び姿勢を算出し、例えば、HMD3Aのセンサ27Aから入力されたデータがパフォーマユーザの頭部の向きや傾き(例えば、ユーザの頭部を基準としたxyz軸まわりの回転角)に関する場合、キャラクタ制御部52は、キャラクタの3Dオブジェクトを構成する頭部の動きを変化させることができる。動きを変化させる具体的な処理として、例えば、HMD3Aのジャイロセンサにより検出されたユーザの頭部の向きや傾き等の動きに関する情報を、オブジェクトの関節の動きや制約を規定したボーン構造における頭部の動きに変換し、ボーン構造における頭部の動きをキャラクタの3Dオブジェクトの頭部の動きに適用することで、キャラクタの動きを制御することができる。
また、サーバ1の制御部10の画像生成部54は、仮想現実空間画像を生成する。より具体的には、画像生成部54は、3D形状データを所定の空間にマッピングし、画像記憶部62に格納されたキャラクタ画像データから変換されたテクスチャデータを3D形状にマッピングさせることで、キャラクタの3Dオブジェクトを生成する。所定の空間背景画像にキャラクタの3Dオブジェクトを重畳することで、仮想現実空間の画像が生成される。
そして、生成されたキャラクタ画像が、HMD3A及びHMD3Bに送信され、HMD3A、HMD3Bの表示部34A、34Bに各々表示され、キャラクタの唇が動作するタイミングで、パフォーマユーザ端末2Aから受信された音声が発声され、リップシンクが実現される。
以上のように、本実施形態において、サーバにおいて、音声データから音声パラメータを抽出し、音声パラメータからキャラクタの唇の開閉の動きを制御するに至るまで、それらの処理に所定の時間を要することを考慮し、音声の出力を音声データ受信後所定期間経過してから行うことで、より精度の高いキャラクタのリップシンクを実現することができる。パフォーマユーザの音声データを送信元端末から送信先端末に送信するタイミングを、動作データを送信するタイミングより先にすることで、サーバにおいてその時差を吸収して双方のデータを受信することができるため、結果として、サーバにおいて、音声の出力タイミングと対応する動作とを略一致とすることができ、簡易な方法でリップシンクを実現することができる。
また、リップシンクの精度をさらに向上させるため、送信先端末における音声データと動作パラメータとを受信するタイミングが略一致となるように、音声データが送信元から送信先端末に送信される時間、通信のトラフィック等を基に、送信元端末で音声データと動作パラメータとを送信するタイミングの時差を調整することも可能である。
上述した実施の形態は、本発明の理解を容易にするための例示に過ぎず、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更、改良することができると共に、本発明にはその均等物が含まれることは言うまでもない。
1 サーバ
2 パフォーマユーザ端末
3 HMD











Claims (4)

  1. 複数のユーザ端末に表示される仮想現実空間を提供するサーバであって、
    第1のユーザ端末から音声データを受信する送受信部と、
    前記音声データから音声パラメータを抽出する音声分析部と、
    前記音声データを基にキャラクタの音声を生成する音声生成部と、
    前記音声パラメータを基に前記キャラクタの画像を制御する画像生成部と、を有し、
    前記音声生成部及び前記画像生成部は、前記キャラクタの動作が、前記音声に同期するよう制御することを特徴とするサーバ。
  2. 前記画像生成部は、前記キャラクタのリップの開閉を制御することを含む、請求項1に記載のサーバ。
  3. 前記音声データを受信後、前記音声パラメータを抽出するまで所定の時差を有する、請求項1に記載のサーバ。
  4. 前記キャラクタの音声の出力を、前記所定の時差に基づいたタイミングで行うことを特徴とする、請求項3に記載のサーバ。

















JP2019046789A 2019-03-14 2019-03-14 仮想現実空間の提供方法 Pending JP2020149399A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019046789A JP2020149399A (ja) 2019-03-14 2019-03-14 仮想現実空間の提供方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019046789A JP2020149399A (ja) 2019-03-14 2019-03-14 仮想現実空間の提供方法

Publications (1)

Publication Number Publication Date
JP2020149399A true JP2020149399A (ja) 2020-09-17

Family

ID=72430783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019046789A Pending JP2020149399A (ja) 2019-03-14 2019-03-14 仮想現実空間の提供方法

Country Status (1)

Country Link
JP (1) JP2020149399A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021059365A1 (ja) * 2019-09-24 2021-10-07 株式会社エクシヴィ アニメーション制作システム
JP2022102549A (ja) * 2020-12-25 2022-07-07 株式会社カプコン サーバ装置、情報処理システムおよびプログラム
WO2022201936A1 (ja) * 2021-03-24 2022-09-29 株式会社Nttドコモ 表示制御装置
US11721055B2 (en) 2021-02-03 2023-08-08 Samsung Electronics Co., Ltd. Method and device with character animation motion control
JP7391340B2 (ja) 2022-03-29 2023-12-05 グリー株式会社 コンピュータプログラム、方法及びサーバ装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021059365A1 (ja) * 2019-09-24 2021-10-07 株式会社エクシヴィ アニメーション制作システム
JP7218875B2 (ja) 2019-09-24 2023-02-07 株式会社エクシヴィ アニメーション制作システム
JP7218875B6 (ja) 2019-09-24 2023-12-11 株式会社RiBLA アニメーション制作システム
JP2022102549A (ja) * 2020-12-25 2022-07-07 株式会社カプコン サーバ装置、情報処理システムおよびプログラム
JP7158649B2 (ja) 2020-12-25 2022-10-24 株式会社カプコン サーバ装置、情報処理システムおよびプログラム
US11721055B2 (en) 2021-02-03 2023-08-08 Samsung Electronics Co., Ltd. Method and device with character animation motion control
WO2022201936A1 (ja) * 2021-03-24 2022-09-29 株式会社Nttドコモ 表示制御装置
JP7391340B2 (ja) 2022-03-29 2023-12-05 グリー株式会社 コンピュータプログラム、方法及びサーバ装置

Similar Documents

Publication Publication Date Title
JP2020149399A (ja) 仮想現実空間の提供方法
KR102616220B1 (ko) 혼합 현실 디바이스에서의 가상 및 실제 객체 레코딩
US10782779B1 (en) Feedback coordination for a virtual interaction
CN102903362B (zh) 集成的本地和基于云的语音识别
US9479736B1 (en) Rendered audiovisual communication
US10007349B2 (en) Multiple sensor gesture recognition
US10812422B2 (en) Directional augmented reality system
CN112379812B (zh) 仿真3d数字人交互方法、装置、电子设备及存储介质
EP2994912B1 (en) Speech to text conversion
US20200335128A1 (en) Identifying input for speech recognition engine
JP6545174B2 (ja) ユーザ設定可能な発話コマンド
JP2019532569A (ja) 空間化オーディオを用いた仮想現実、拡張現実、および複合現実システム
KR20200090355A (ko) 실시간 번역 기반 멀티 채널 방송 시스템 및 이를 이용하는 방법
US20240007790A1 (en) Method and device for sound processing for a synthesized reality setting
US11756251B2 (en) Facial animation control by automatic generation of facial action units using text and speech
JP2008299135A (ja) 音声合成装置、音声合成方法、および音声合成用プログラム
JP6969577B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN114731469A (zh) 人工现实系统中的音频样本相位对齐
US20230300250A1 (en) Selectively providing audio to some but not all virtual conference participants reprsented in a same virtual space
JP2020149398A (ja) 仮想現実空間の提供方法
JP7152908B2 (ja) 仕草制御装置及び仕草制御プログラム
US20230368794A1 (en) Vocal recording and re-creation
US11656683B2 (en) Signal generation device, signal generation method, and reproduction device
WO2023248678A1 (ja) 情報処理装置、情報処理方法、及び情報処理システム
US20230393662A1 (en) Extend the game controller functionality with virtual buttons using hand tracking