JP6217682B2 - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP6217682B2
JP6217682B2 JP2015065661A JP2015065661A JP6217682B2 JP 6217682 B2 JP6217682 B2 JP 6217682B2 JP 2015065661 A JP2015065661 A JP 2015065661A JP 2015065661 A JP2015065661 A JP 2015065661A JP 6217682 B2 JP6217682 B2 JP 6217682B2
Authority
JP
Japan
Prior art keywords
avatar
volume
sound
processing apparatus
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015065661A
Other languages
English (en)
Other versions
JP2016187063A (ja
Inventor
建太郎 牛山
建太郎 牛山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2015065661A priority Critical patent/JP6217682B2/ja
Publication of JP2016187063A publication Critical patent/JP2016187063A/ja
Application granted granted Critical
Publication of JP6217682B2 publication Critical patent/JP6217682B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)

Description

本発明は、仮想空間における複数の仮想体のそれぞれに対応する複数の情報処理装置間で音声情報を送受信するシステムの技術分野に関する。
従来、仮想空間内で行動する例えばアバターなどと称される仮想体を介して複数のユーザ間でのボイスチャットを可能とする技術が知られている。例えば、特許文献1には、アバターの状態等に基づいて、ボイスチャットが成立するか否かを判定する技術が開示されている。具体的に、特許文献1には、アバター間の距離、発話したアバターの向き、他のアバターの向き、発話したアバターによるマスク等の装備品の装着/非装着等に基づいて、ボイスチャットが成立するか否かを判定することが開示されている。
特開2005−322125号公報
現実空間においては、人間の発話音声が何らかの騒がしい音によってかき消されるなど、発話音声が遠くまでとどかない場合がある。その一方で、静かな状況においては、発話者からの距離が或る程度離れていても、その発話音声が聞こえる場合がある。そのような状況に応じたリアリティのある音声のやりとりを、仮想空間を利用したシステムにおいて実現することが望まれる。
本発明は、以上の点に鑑みてなされたものであり、仮想空間における音源の存在に基づいたリアリティのある音声のやりとりを可能とする情報処理装置等を提供することを課題とする。
上記課題を解決するために、請求項1に記載の発明は、ネットワークを介して接続される複数の端末装置のそれぞれに対応する複数の仮想体の仮想空間における位置を示す位置情報を記憶する記憶手段と、前記複数の端末装置のうち何れかの第1端末装置に入力された音声を示す音声情報を取得する取得手段と、前記記憶手段に記憶された前記位置情報が示す、前記第1端末装置に対応する特定の仮想体の位置と、前記複数の端末装置のうち他の端末装置に対応する仮想体の位置と、前記仮想空間に存在する音源との関係に基づいて、前記他の端末装置のうち、前記取得手段により取得された前記音声情報が送信される第2端末装置を決定する決定手段と、を備えることを特徴とする。
請求項2に記載の発明は、請求項1に記載の情報処理装置において、前記特定の仮想体の位置と前記音源との関係に基づいて、前記仮想空間の中で、前記取得手段により取得された前記音声情報が示す音声が到達する範囲であって、前記特定の仮想体の位置を基準とする範囲を決定する範囲決定手段を更に備え、前記決定手段は、前記範囲決定手段により決定された範囲内に位置する仮想体に対応する端末装置を前記第2端末装置に決定することを特徴とする。
請求項3に記載の発明は、請求項1又は2に記載の情報処理装置において、前記取得手段により取得された前記音声情報が示す音声の音量は、前記仮想空間において前記特定の仮想体の位置からの距離が長いほど小さくなるものであり、前記決定手段は、前記音量が閾値を超える位置にある仮想体に対応する端末装置を、前記第2端末装置に決定し、前記音源の数が多いほど又は前記音源から出力される音の大きさが大きいほど、前記音量を小さくし又は前記閾値を大きくすることを特徴とする。
請求項4に記載の発明は、請求項3に記載の情報処理装置において、前記決定手段は、前記音源の数が多いほど又は前記音源から出力される音の大きさが大きいほど、前記特定の仮想体を基準として前記音源が位置する第1方向における前記音量を小さくし又は前記閾値を大きくすることを特徴とする。
請求項5に記載の発明は、請求項4に記載の情報処理装置において、前記決定手段は、前記第1方向とは反対の第2方向における前記音量を前記第1方向における前記音量よりも大きくし、又は前記第2方向における前記閾値を前記第1方向における前記閾値よりも小さくすることを特徴とする。
請求項6に記載の発明は、請求項1乃至5の何れか1項に記載の情報処理装置において、前記音源は、前記複数の仮想体のうち音声を発している仮想体であることを特徴とする。
請求項7に記載の発明は、請求項1乃至6の何れか1項に記載の情報処理装置において、前記第2端末装置へ送信される前記音声情報に対応して前記第2端末装置により出力される音声の音量を決定する音量決定手段であって、前記特定の仮想体の位置から前記第2端末装置に対応する仮想体の位置までの距離が長いほど、小さい音量を決定する音量決定手段を更に備えることを特徴とする。
請求項8に記載の発明は、請求項7に記載の情報処理装置において、前記決定手段により決定された前記第2端末装置に対し、前記音声情報と、前記音量決定手段により決定された前記音量を示す音量情報と、を送信する音声情報送信手段を更に備えることを特徴とする。
請求項9に記載の発明は、ネットワークを介して接続される複数の端末装置のうち何れかの第1端末装置に入力された音声を示す音声情報を取得する取得ステップと、前記複数の端末装置のそれぞれに対応する複数の仮想体の仮想空間における位置を示す位置情報を記憶する記憶手段に記憶された前記位置情報が示す、前記第1端末装置に対応する特定の仮想体の位置と、前記複数の端末装置のうち他の端末装置に対応する仮想体の位置と、前記仮想空間に存在する音源との関係に基づいて、前記他の端末装置のうち、前記取得ステップにより取得された前記音声情報が送信される第2端末装置を決定する決定ステップと、をコンピュータに実行させることを特徴とする。
請求項1又は9に記載の発明によれば、音声が入力された端末装置に対応する仮想体の位置と、他の仮想体の位置と、音源とに基づいて、音声情報が送信される端末装置が決定される。そのため仮想空間における音源の存在に基づいてリアリティのある音声のやりとりが可能となる。
請求項2に記載の発明によれば、決定された範囲に仮想体が位置するか否かに基づいて、音声情報が送信される端末装置を決定することができる。
請求項3に記載の発明によれば、音源の数又は音源からの音の大きさに基づいて、よりリアリティのある音声のやりとりが可能となる。
請求項4に記載の発明によれば、音源の方向に位置する仮想体に対して、よりリアリティのある音声のやりとりが可能となる。
請求項5に記載の発明によれば、音源の方向とは反対方向に位置する仮想体に対して、よりリアリティのある音声のやりとりが可能となる。
請求項6に記載の発明によれば、仮想体が発した音声が、他の仮想体から発せられる音声の影響によりとどきにくくなる状況を作り出すことができる。
請求項7又は8に記載の発明によれば、仮想体間の距離に応じたリアリティのある音量で音声をやりとりすることができる。
(A)は、本実施形態の通信システムSの概要構成例を示す図である。(B)は、本実施形態のサーバ1の概要構成例を示す図である。(C)は、本実施形態のユーザ端末2の概要構成例を示す図である。 (A)は、仮想空間における標準音声到達領域と、到達音量の減衰曲線の例を示す。(B)は、送信アバターと他のアバターとの位置関係の一例を示す図である。 サーバ1における音声データ送信処理の一例を示すフローチャートである。 仮想空間における最終音声到達領域と、送信アバターの位置と音源との関係に基づく到達音量の減衰曲線の例を示す。
以下、本発明の実施形態を図面に基づいて説明する。
[1.第1実施形態]
[1−1.通信システムの構成]
図1(A)は、本実施形態の通信システムSの概要構成例を示す図である。図1(A)に示すように、通信システムSは、サーバ1、及び複数のユーザ端末2を含んで構成される。サーバ1は、本発明の情報処理装置の一例である。ユーザ端末2は、本発明の端末装置の一例である。サーバ1、及びユーザ端末2は、それぞれネットワーク10に接続される。ネットワーク10は、例えば、インターネット等により構成される。
サーバ1は、ユーザ端末2のユーザの間で仮想空間を共有することを可能として、仮想空間に存在するアバターを介してユーザ間のコミュニケーションを実現するための仮想空間の管理を行うサーバ装置である。この仮想空間には、様々なオブジェクトが配置されてもよい。オブジェクトの例として、建物、自然物、乗り物等が挙げられる。本実施形態において、仮想空間は三次元空間である。しかしながら、仮想空間は二次元空間であってもよい。アバターは、仮想空間において、ユーザの代わりとなる仮想体である。アバターは、ユーザごとに、ユーザが利用するユーザ端末2に対応して仮想空間に配置される。
サーバ1は、仮想空間におけるアバターの位置及び方向等に基づいて、仮想空間においてアバターから見える映像を示す映像データを生成する。そして、サーバ1は、そのアバターに対応するユーザ端末2へ映像データを送信する。ユーザ端末2は、サーバ1から受信した映像データに対応する映像を表示する。ユーザ端末2に対するユーザの操作に基づき、サーバ1は、そのユーザ端末2に対応するアバターの仮想空間における位置や方向等を更新する。
また、ユーザ端末2に対してユーザが音声を入力すると、そのユーザ端末2は、入力された音声を示す音声データをサーバ1へ送信する。音声データを送信したユーザ端末2を送信端末という。送信端末は、本発明の第1端末装置の一例である。また、送信端末に対応するアバターを送信アバターという。サーバ1は、音声データを受信すると、送信アバターの仮想空間における位置と、他のアバターの仮想空間における位置と、仮想空間に存在する音源との関係に基づいて、送信端末以外のユーザ端末2のうち、音声データの送信先のユーザ端末2を決定する。音源は、例えば送信アバター以外の音声を発しているアバターであってもよい。また、音源は、音を発生するオブジェクトであってもよい。例えば、音源は、乗り物、テレビ、ラジオ等であってもよい。音声データの送信先のユーザ端末2を受信端末という。受信端末は、本発明の第2端末装置の一例である。また、受信端末に対応するアバターを受信アバターという。サーバ1は、決定した受信端末へ、送信端末から受信した音声データを送信する。受信端末は、サーバ1から受信した音声データが示す音声を出力する。こうしたユーザ端末2間での音声データの送受信が行われることにより、ユーザ間のコミュニケーションが実現される。
[1−2.サーバ1の構成]
次に、図1(B)を参照して、サーバ1の構成について説明する。図1(B)は、本実施形態のサーバ1の概要構成例を示す図である。図1(B)に示すように、サーバ1は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、記憶部14及び通信部15等を備えて構成される。これらの構成要素は、バス16に接続されている。通信部15は、ネットワーク10に接続される。記憶部14は、例えばハードディスクドライブにより構成される。記憶部14には、OS、及びサーバプログラム等が記憶されている。サーバプログラムは、コンピュータとしてのCPU11に、ユーザ間のコミュニケーションを実現するための処理を実行させるプログラムである。サーバプログラム等は、例えばネットワーク10等を介して他のサーバ等からダウンロードされてもよい。或いは、サーバプログラム等は、例えば光ディスク、磁気テープ、メモリカード等の記録媒体に記録されてドライブ装置を介して記憶部14に読み込まれてもよい。
記憶部14には、地図データ、オブジェクトモデルデータ、アバターモデルデータ、姿勢情報、位置方向情報、発話状態、アドレス情報等が記憶されている。地図データは、仮想空間におけるオブジェクトの位置等を示すデータである。オブジェクトモデルデータは、オブジェクトの形状を示すモデルデータである。アバターモデルデータ、姿勢情報、位置方向情報、及び発話状態は、アバターに関する情報である。これらの情報は、例えばユーザごとに、ユーザIDに対応付けて記憶部14に記憶される。ユーザIDは、ユーザを識別する識別情報である。アバターモデルデータは、アバターの各身体部位の形状を示すモデルデータである。姿勢情報は、アバターの姿勢を示す情報である。姿勢情報は、例えばアバターの各身体部位の座標及び方向を含む。位置方向情報は、仮想空間におけるアバターの位置を示す座標及びアバターの正面方向を示すベクトルを含む。制御部11は、地図データ、オブジェクトモデルデータ、アバターモデルデータ、姿勢情報、及び位置方向情報に基づいて、仮想空間においてアバターから見える映像を示す映像データを生成し、そのアバターに対応するユーザ端末2へ映像データを送信する。
発話状態は、アバターが現在音声を発しているか否かを示す。発話状態がTRUEである場合、アバターは音声を発しており、発話状態がFALSEである場合、アバターは音声を発していない。アドレス情報は、アバターに対応するユーザ端末2のIPアドレス及びポート番号を含む。例えば、ユーザが通信システムSにログインするとき、そのユーザが利用するユーザ端末2は、ユーザID、及びそのユーザ端末2のアドレス情報をサーバ1へ送信する。制御部11は、受信したユーザID及びアドレス情報を対応付けて記憶部14に記憶させる。制御部11は、ユーザから入力された音声を示す音声データを送信端末から受信した場合、音声データのパケットのヘッダに含まれる送信端末のアドレス情報に対応するユーザIDを取得する。そして、制御部11は、取得したユーザIDに対応する発話状態をTRUEに設定する。また、制御部11は、受信した音声データをユーザIDに対応付けて記憶部14に記憶させる。制御部11は、受信端末を決定すると、受信端末のアドレス情報に基づいて、受信した音声データを受信端末へ送信する。また、制御部11は、受信した音声データから、入力された音声の時間を発話時間として取得する。制御部11は、音声データの送信から発話時間が経過すると、発話状態をFALSEに変更し、音声データを記憶部14から削除する。
[1−3.ユーザ端末2の構成]
次に、図1(C)を参照して、ユーザ端末2の構成について説明する。図1(C)は、本実施形態のユーザ端末2の概要構成例を示す図である。図1(C)に示すように、ユーザ端末2は、CPU21、ROM22、RAM23、記憶部24、通信部25、入力部26、表示部27、マイク28、及びスピーカ29等を備えて構成される。これらの構成要素は、バス30に接続されている。通信部25は、ネットワーク10に接続される。入力部26は、ユーザの操作を入力するための入力デバイスである。入力部26は、例えばボタン、キー、タッチパネル、キーボード等の少なくとも1つにより構成されてもよい。表示部27は、例えば液晶パネル、有機ELパネル等により構成されるディスプレイである。制御部21は、サーバ1から受信した映像データに対応する映像を表示部27に表示させる。マイク28は、ユーザにより入力された音声を、音声データに変換する。制御部21は、変換された音声データを、ユーザ端末2を利用するユーザのユーザIDとともにサーバ1へ送信する。また、制御部11は、サーバ1から受信した音声データに対応する音声を、スピーカ29により出力させる。
記憶部24は、例えばフラッシュメモリ又はハードディスクドライブ等により構成される。記憶部24には、OS、及び端末プログラム等が記憶されている。端末プログラムは、コンピュータとしてのCPU21に、サーバ1からの映像データに基づく映像の表示、サーバ1に対応する音声データの送受信等の処理を実行させるプログラムである。端末プログラム等は、例えばネットワーク10等を介してサーバ1等のサーバ装置からダウンロードされてもよい。或いは、端末プログラム等は、例えば光ディスク、磁気テープ、メモリカード等の記録媒体に記録されてドライブ装置を介して記憶部24に読み込まれてもよい。或いは、端末プログラム等は、ユーザ端末2に予めインストールされていてもよい。
[1−4.受信端末の決定]
現実空間においては、発話する人物から他の人物までの距離等によって、発話音声が他の人物に聞こえたり聞こえなかったりする。また、発話する人物から他の人物までの距離が同じであっても、何らかの音源が音を発していると、音源からの音の影響で、発話音声が他のユーザに聞こえにくくなったりする。このような状況を仮想空間において再現するため、サーバ1は、送信アバターの位置と、他のアバターの位置と、音源との関係に基づいて、受信端末を決定する。
例えば、サーバ1は、到達音量の減衰曲線を決定する。減衰曲線は、仮想空間において送信アバターの位置からの距離と、送信アバターの発話音声の到達音量との関係を示すグラフである。到達音量は、送信アバターの発話音声が、送信アバターから離れた位置に到達したときの発話音声の音量である。到達音量は、送信アバターの位置からの距離が長いほど小さくなる。例えば距離に反比例して音量が小さくなってもよいし、指数関数的に音量が小さくなってもよい。なお、曲線ではなく、直線で到達音量の減衰が示されてもよい。
送信アバターからの方向によって、その方向に対する減衰曲線が変化してもよいし、変化しなくてもよい。例えば、送信アバターの正面方向と減衰曲線を決定する方向とがなす角度が大きいほど、送信アバターの位置からの距離に対する音量が小さくなる。この角度を送信角度という。
送信アバターの位置からの距離をxとし、送信角度をy度とした場合の減衰曲線(到達音量)の関数f(x,y)の式の一例を以下に示す。
Figure 0006217682
Figure 0006217682
min(a,b)は、a及びbのうち小さい方の値を示す。VMは、到達音量の予め定められた最大値である。すなわち、到達音量は最大値VMを超えない。cは定数である。tvは、送信端末から受信された音声データから得られた発話音量である。発話音量が大きいほど、到達音量も大きくなる。なお、サーバ1は、発話音量を用いないで到達音量を計算してもよい。この場合、tvは常に1である。kは、送信角度による到達音量への影響を示す係数である。なお、サーバ1は、送信角度を用いないで到達音量を計算してもよい。この場合、kは常に1となる。
例えば、仮想空間の中で、f(x,y)が所定値を超える範囲を、送信アバターの発話音声が到達しうる範囲とする。この範囲を、標準音声到達領域という。サーバ1は、例えば標準音声到達領域内に位置するアバターに対応するユーザ端末2の中から、受信端末を決定してもよい。標準音声到達領域内に位置するアバターを、候補アバターという。
図2(A)は、仮想空間における標準音声到達領域と、到達音量の減衰曲線の例を示す。図2(A)に示すように、仮想空間VSに、送信アバターTAと、他のアバターA1〜A12が配置されている。図2(A)に示す減衰曲線C1は、送信アバターTAを通る直線L上における到達音量の減衰曲線である。図2(A)においては、便宜上、減衰曲線C1を直線で示している。減衰曲線C1で示される音量が所定値を超える範囲が標準音声到達領域R1である。標準音声到達領域R1の範囲内に位置するアバターは、アバターA4〜A9である。従って、候補アバターは、アバターA4〜A9である。
サーバ1は、仮想空間に存在する音源に基づいて、候補アバターの中から受信アバターを決定する。例えば、サーバ1は、減衰曲線に基づき、候補アバターの位置における到達音量を計算する。また、サーバ1は、音源に基づいて、到達音量に対する閾値を決定する。この閾値は、送信アバターの発話音声が候補アバターに聞こえるか否かを決定するための値である。到達音量が閾値を超える場合、発話音声が候補アバターに聞こえる。すなわち、サーバ1は、到達音量が閾値を超える位置にある候補アバターを、受信アバターに決定する。例えば、サーバ1は、仮想空間に存在する音源の数が多いほど、閾値を大きくしてもよい。音源の数が多いほど、送信アバターの発話音声以外で、候補アバターが聞こえる可能性がある音の数が多くなる。候補アバターが聞こえる可能性がある音の数が多いほど、送信アバターの発話音声が聞こえづらくなる。また例えば、サーバ1は、音源が発する音の音量が大きいほど、閾値を大きくしてもよい。音源からの音の大きさが大きいほど、候補アバターにその音が聞こえやすくなり、送信アバターの発話音声が遮られる可能性が高くなる。
また、サーバ1は、音源の数が多いほど、又は音源からの音の大きさが大きいほど、送信アバターを基準として音源が位置する方向における閾値を大きくしてもよい。更に、サーバ1は、送信アバターを基準として音源が位置する方向とは反対方向における閾値を、送信アバターを基準として音源が位置する方向における閾値よりも小さくしてもよい。すなわち、送信アバターから見て、候補アバターが、音源が位置する方向に近い方向に位置しているほど、その候補アバターの到達音量に対する閾値が大きくなる。例えば、候補アバターが、音源が位置する方向と同じ方向に位置していると、閾値が最大となり、候補アバターが、音源が位置する方向とは反対方向に位置していると、閾値が最小となってもよい。
例えば、音源からの音が候補アバターに到達したときの候補アバターの位置における音量を決定してもよい。この音量を第2到達音量という。サーバ1は、送信アバターの発話音声の到達音量の計算方法と同様の方法で、第2到達音量を計算してもよい。この音量を、第2到達音量という。そして、サーバ1は、第2到達音量が大きいほど閾値を大きくしてもよい。例えば、第2到達音量が閾値であってもよい。例えば、式1及び式2を用いて到達音量を計算する場合、音源の位置から候補アバターの位置までの距離をxとする。また、音源の正面方向と、音源の位置から候補アバターの位置への方向とがなす角度をyとする。ただし、音源に正面方向が存在しない場合、kは常に1である。また、音源の位置におけるその音源の音量をtvとする。この場合、音源の位置から候補アバターの位置までの距離が短いほど、第2到達音量が大きくなるため、閾値が大きくなる。従って、送信アバターを基準として、候補アバターが、音源が位置する方向に近い方向に位置しているほど、その候補アバターの到達音量に対する閾値が大きくなる。
サーバ1は、候補アバターの位置を基準とする送信アバターの方向と候補アバターの位置を基準とする音源の方向とがなす角度によって、第2到達音量を調整してもよい。この角度を、相対音源角度という。また、調整後の第2到達音量を、影響度という。影響度が大きいほど、送信アバターの発話音声が候補アバターに到達しない蓋然性が高くなる。サーバ1は、例えば影響度が大きいほど閾値を大きくしてもよい。例えば、影響度が閾値であってもよい。例えば、サーバ1は、相対音源角度が大きいほど影響度を小さくしてもよい。例えば、サーバ1は、式2と同じ式を用いて、第2到達音量に対する係数を計算してもよい。この場合、yは相対音源角度である。そして、サーバ1は、計算された係数を第2到達音量に掛けて、影響度を計算してもよい。
図2(B)は、送信アバターと他のアバターとの位置関係の一例を示す図である。図2(B)に示すように、送信アバターTAと、アバターA21〜A23が位置しているとする。例えば、アバターA21が候補アバターであり、アバターA22及びA23が現在発話しているとする。すなわち、アバターA22及びA23が音源である。アバターA21を基準とする送信アバターTAへの方向とアバター22Aへの方向とがなす角度θ1は、アバターA21を基準とする送信アバターTAへの方向とアバター23Aへの方向とがなす角度θ2よりも小さい。従って、アバター22Aの発話音声のアバターA21の位置における第2到達音量に掛けられる係数は、アバター23Aの発話音声のアバターA21の位置における第2到達音量に掛けられる係数よりも大きい。すなわち、アバター22Aの発話音声の影響度が、アバター23Aの発話音声の影響度よりも大きくなる傾向がある。
閾値を決定するとき、サーバ1は、候補アバターの正面方向と、候補アバターの位置を基準として送信アバターが位置する方向との角度を用いてもよい。この角度を受信角度という。受信角度によって、送信アバターからの発話音声の聞こえやすさが異なる。例えば、サーバ1は、受信角度に基づいて、到達音量に対する閾値を計算してもよい。例えば、サーバ1は、受信角度が大きいほど閾値を大きくしてもよい。そして、サーバ1は、受信角度に基づく閾値と、音源に基づく影響度を比較する。受信角度に基づく閾値が影響度以上である場合、サーバ1は、受信角度に基づく閾値を、到達音量に対する最終的な閾値に決定する。影響度が受信角度に基づく閾値よりも大きい場合、サーバ1は、影響度を、到達音量に対する最終的な閾値に決定する。また、例えばサーバ1は、受信角度に基づいて計算された閾値に、音源の数に応じた係数を掛けて、最終的な閾値を決定してもよい。この場合、音源の数が多いほど係数が大きくなる。
[1−4.通信システムSの動作]
次に、図3を参照して、本実施形態の通信システムSの動作について説明する。図3は、サーバ1における音声データ送信処理の一例を示すフローチャートである。例えば、サーバ1が、送信端末に入力された音声を示す音声データを送信端末から取得したとき、音声データ送信処理が実行される。
図3に示すように、制御部11は、送信端末に対応する送信アバターTAを基準とする標準音声到達領域を決定する(ステップS1)。具体的に、制御部11は、送信端末から送信されてきたパケットに含まれるアドレス情報に対応するユーザIDを記憶部14から取得する。次いで、制御部11は、ユーザIDに対応する位置方向情報を取得する。次いで、制御部11は、位置方向情報と、音声データの発話音量と、減衰曲線の関数とに基づいて、送信アバターTAの位置を基準として0度から360度まで所定角度間隔の方向ごとに、到達音量が所定値となる地点の座標を計算する。そして、制御部11は、到達音量が所定値となる地点で囲まれる領域を、標準音声到達領域に決定する。
次いで、制御部11は、送信アバター以外のアバターのうち、標準音声到達領域内に位置するアバターを、候補アバターとして決定する(ステップS2)。具体的に、制御部11は、記憶部14に記憶された位置方向情報のうち、標準音声到達領域内の座標を示す位置方向情報に対応するユーザIDを、候補アバターのユーザIDとして取得する。また、制御部11は、候補アバターのユーザIDに対応する位置方向情報を取得する。
次いで、制御部11は、番号iを0に設定する(ステップS3)。次いで、制御部11は、番号iが、候補アバターの数未満であるか否かを判定する(ステップS4)。このとき、制御部11は、番号iが、候補アバターの数未満であると判定した場合には(ステップS4:YES)、ステップS5に進む。ステップS5において、制御部11は、送信アバターTAの位置からアバターX(i)の位置までの距離と、アバターX(i)に対する送信アバターTAの送信角度と、減衰曲線の関数に基づいて、アバターX(i)の到達音量を決定する。アバターX(i)は、候補アバターのうちi番目のアバターである。次いで、制御部11は、送信アバターTAに対するアバターX(i)の受信角度に基づいて、到達音量の閾値を決定する(ステップS6)。次いで、制御部11は、仮想空間においてアバターX(i)に対して発話音声がとどく可能性があるアバターを決定する(ステップS7)。アバターX(i)に対して発話音声がとどく可能性があるアバターを、近隣アバターという。例えば、制御部11は、記憶部14に記憶された位置方向情報に基づいて、アバターX(i)の位置から所定距離以内に位置するアバターのユーザIDを、近隣アバターのユーザIDとして決定してもよい。制御部11は、決定した近隣アバターのユーザIDに対応する位置方向情報を記憶部14から取得する。
次いで、制御部11は、番号jを0に設定する(ステップS8)。次いで、制御部11は、番号jが近隣アバターの数未満であるか否かを判定する(ステップS9)。このとき、制御部11は、番号jが近隣アバターの数未満であると判定した場合には(ステップS9:YES)、ステップS10に進む。一方、制御部11は、番号jが近隣アバターの数未満ではないと判定した場合には(ステップS9:NO)、ステップS16に進む。
ステップS10において、制御部11は、アバターY(j)が発話しているか否かを判定する。アバターY(j)は、決定された近隣アバターのうちj番目のアバターである。制御部11は、アバターY(j)のユーザIDに対応する発話状態がTRUEである場合、アバターY(j)が発話していると判定する(ステップS10:YES)。この場合、制御部11は、ステップS11に進む。一方。制御部11は、アバターY(j)のユーザIDに対応する発話状態がFALUSEである場合、アバターY(j)が発話していないと判定する(ステップS10:NO)。この場合、制御部11は、ステップS15に進む。
ステップS11において、制御部11は、アバターY(j)の位置からアバターX(i)の位置までの距離と、アバターX(i)に対するアバターY(j)の送信角度と、減衰曲線の関数とに基づいて、アバターX(i)の第2到達音量を決定する。次いで、制御部11は、アバターX(i)の位置を基準として、送信アバターTAが位置する方向とアバターY(j)が位置する方向とがなす相対音源角度に基づいて、第2到達音量に対する係数を決定する。そして、制御部11は、決定した係数を第2到達音量に掛けて、影響度を計算する(ステップS12)。
次いで、制御部11は、計算された影響度が、ステップS6で決定された閾値よりも大きいか否かを判定する(ステップS13)。このとき、制御部11は、影響度が閾値よりも大きいと判定した場合には(ステップS13:YES)、ステップS14に進む。ステップS14において、制御部11は、閾値を影響度に変更して、ステップS15に進む。一方、制御部11は、影響度が閾値よりも大きくはないと判定した場合には(ステップS13:NO)、ステップS15に進む。ステップS15において、制御部11は、番号jに1を加算して、ステップS9に進む。
ステップS16において、制御部11は、ステップS5で決定された到達音量が閾値よりも大きいか否かを判定する。このとき、制御部11は、到達音量が閾値よりも大きいと判定した場合には(ステップS16:YES)、ステップS17に進む。一方、制御部11は、到達音量が閾値よりも大きくはないと判定した場合には(ステップS16:NO)、ステップS18に進む。
ステップS17において、制御部11は、アバターX(i)に対応するユーザ端末2を、受信端末に決定する。そして、制御部11は、アバターX(i)のユーザIDに対応するアドレス情報に基づいて、送信端末から受信した音声データを受信端末へ送信する。このとき、制御部11は、音声データとともに、到達音量を受信端末へ送信する。次いで、制御部11は、ステップS18に進む。音声データ及び到達音量を受信した受信端末は、音声データに対応する音声を到達音量でスピーカ29により出力させる。
ステップS18において、制御部11は、番号iに1を加算して、ステップS4に進む。ステップS4において、制御部11は、番号iが、候補アバターの数未満ではないと判定した場合には(ステップS4:NO)、音声データ送信処理を終了させる。
以上説明したように、本実施形態によれば、サーバ1が、記憶部14に記憶された送信アバターの位置と他のアバターの位置と音源との関係に基づいて、受信端末を決定する。そして、サーバ1が、送信端末から取得された音声データを受信端末へ送信する。従って、仮想空間における音源の存在に基づいてリアリティのある音声のやりとりが可能となる。
[2.第2実施形態]
第1実施形態においては、送信端末からの音声データをサーバ1が受信端末へ送信していた。本実施形態においては、送信端末が受信端末へ直接音声データを送信する。例えば、ユーザ端末間でIP電話等のピアツーピア通信を可能とするプロトコルを用いて、送信端末が受信端末へ音声データを送信する。例えば、サーバ1は、仮想空間の管理を行うとともに、送信端末が受信端末へ音声データを送信するための受信端末のアドレス情報を解決する。
また、本実施形態においては、ユーザ端末2が受信端末を決定する。ユーザ端末2は、本発明の情報処理装置の一例である。例えば、送信端末が受信端末を決定してもよい。例えば、図3に示す処理と基本的に同様な処理で、送信端末は受信端末を決定してもよい。例えば、マイク28から音声が入力されたとき、送信端末は、サーバ1から各アバターの位置方向情報、発話状態及びユーザIDを取得して、記憶部24に記憶させてもよい。そして、送信端末は、図3に示す処理と同様な処理を実行する。ステップS17において、送信端末2は、受信端末のユーザIDをサーバ1に送信することにより、受信端末のユーザIDに対応するアドレス情報をサーバ1から取得する。そして、送信端末2は、取得したアドレス情報に基づいて、受信端末へ音声データ及び到達音量を送信する。
或いは、例えば各候補アバターに対応するユーザ端末2が、そのユーザ端末2が受信端末であるか否かを決定してもよい。この場合、送信端末は、ステップS1〜S6を実行した後、各候補アバターに対応するユーザ端末2へ、音声データ及び到達音量を送信する。そして、送信端末は、ステップS18を実行して、ステップS4に戻る。音声データ及び到達音量を受信したユーザ端末2は、サーバ1から各アバターの位置方向情報及び発話状態を取得して、記憶部24に記憶させる。そして、ユーザ端末2は、そのユーザ端末2に対応するアバターを候補アバターとして、ステップS7〜S17を実行する。ステップS17において、ユーザ端末2は、音声データに対応する音声を到達音量でスピーカ29により出力させる。
以上説明したように、本実施形態によれば、ユーザ端末2が、記憶部24に記憶された送信アバターの位置と他のアバターの位置と音源との関係に基づいて、受信端末を決定する。そして、ユーザ端末2が、マイク28から取得された音声データを受信端末へ送信する。従って、仮想空間における音源の存在に基づいてリアリティのある音声のやりとりが可能となる。
[3.第3実施形態]
本実施形態において、情報処理装置としてのサーバ1又はユーザ端末2は、送信アバターの位置と音源との関係に基づいて、送信アバターの位置を基準として送信アバターの発話音声が到達する範囲を決定する。この範囲を、最終音声到達領域という。そして、サーバ1又はユーザ端末2は、最終音声到達領域内に位置するアバターに対応するユーザ端末2を、受信端末に決定する。以下では、サーバ1が情報処理装置である場合の例を説明する。
例えば、サーバ1は、送信アバターの位置を基準として0度から360度まで所定角度間隔の方向ごとに、送信アバターの位置と音源との関係に基づく到達音量の減衰曲線を決定してもよい。例えば、サーバ1は、仮想空間において送信アバターの位置を基準とする標準音声到達領域を決定する。次いで、サーバ1は、標準音声到達領域の決定に用いた減衰曲線の関数を微分することにより、所定距離間隔で減衰曲線の傾きを計算する。この傾きの値は負の値である。次いで、サーバ1は、所定距離間隔ごとに、送信アバターの位置からの距離と送信角度から特定される位置における音源からの影響度を決定する。影響度の値は、例えば1以上である。例えば、サーバ1は、音源の位置から影響度を決定する位置までの距離が短いほど、影響度を大きくしてもよい。また、サーバ1は、例えば音源からの音の音量が大きいほど、影響度を大きくしてもよい。また、サーバ1は、例えば音源の数が多いほど、影響度を大きくしてもよい。サーバ1は、所定距離間隔ごとに、影響度を傾きに掛けて、傾きを再計算する。音源が複数存在する場合、サーバ1は、例えば音源ごとに影響度を計算してもよい。そして、サーバ1は、計算された全ての影響度を傾きに掛けて、傾きを再計算してもよい。サーバ1は、所定間隔ごとに再計算された傾きを積分して、送信アバターの位置と音源との関係に基づく到達音量の減衰曲線を決定する。
この結果、サーバ1は、音源からの音が大きいほど又は音源の数が多いほど、到達音量を小さくする。また、サーバ1は、音源からの音が大きいほど又は音源の数が多いほど、送信アバターの位置を基準として、その音源が位置する方向における到達音量を小さくする。これにより、サーバ1は、音源からの音が大きいほど又は音源の数が多いほど、送信アバターの位置を基準として、その音源が位置する方向において、送信アバターの発話音声が到達する範囲を狭くする。一方、サーバ1は、音源からの音が大きいほど又は音源の数が多いほど、送信アバターの位置を基準として、その音源が位置する方向とは反対方向における到達音量を大きくする。
図4は、仮想空間における最終音声到達領域と、送信アバターの位置と音源との関係に基づく到達音量の減衰曲線の例を示す。図4において、図2(A)と同様の要素については同様の符号が付されている。図4に示すように、アバターA1〜A12のうち、アバターA7及びA8が音声を発している。アバターA7は、直線L上に位置する。減衰曲線C2が示すように、アバターA7の位置付近で、到達音量が急激に減衰している。従って、図4に示すように、最終音声到達領域R2は標準音声到達領域R1よりも狭くなっている。例えば、送信アバターTAの位置を基準として、アバターA7が位置する方向と、アバターA8が位置する方向において、送信アバターTAの発話音声が到達する範囲が狭くなっている。その結果、最終音声到達領域R2内に位置する候補アバターは、アバターA4〜A7である。従って、サーバ1は、アバターA4〜A7に対応するユーザ端末2を受信端末に決定する。
以上説明したように、本実施形態によれば、サーバ1又はユーザ端末2が、送信端末の位置と音源との関係に基づいて、最終音声到達領域を決定し、最終音声到達領域内に位置するアバターに対応するユーザ端末2を、受信端末に決定する。従って、仮想空間における音源の存在に基づいてリアリティのある音声のやりとりが可能となる。
1 サーバ
2 ユーザ端末
10 ネットワーク
11、21 CPU
12、22 ROM
13、23 RAM
14、24 記憶部
15、25 通信部
26 入力部
27 表示部
28 マイク
29 スピーカ
S 通信システム

Claims (9)

  1. ネットワークを介して接続される複数の端末装置のそれぞれに対応する複数の仮想体の仮想空間における位置を示す位置情報を記憶する記憶手段と、
    前記複数の端末装置のうち何れかの第1端末装置に入力された音声を示す音声情報を取得する取得手段と、
    前記記憶手段に記憶された前記位置情報が示す、前記第1端末装置に対応する特定の仮想体の位置と、前記複数の端末装置のうち他の端末装置に対応する仮想体の位置と、前記仮想空間に存在する音源との関係に基づいて、前記他の端末装置のうち、前記取得手段により取得された前記音声情報が送信される第2端末装置を決定する決定手段と、
    を備えることを特徴とする情報処理装置。
  2. 請求項1に記載の情報処理装置において、
    前記特定の仮想体の位置と前記音源との関係に基づいて、前記仮想空間の中で、前記取得手段により取得された前記音声情報が示す音声が到達する範囲であって、前記特定の仮想体の位置を基準とする範囲を決定する範囲決定手段を更に備え、
    前記決定手段は、前記範囲決定手段により決定された範囲内に位置する仮想体に対応する端末装置を前記第2端末装置に決定することを特徴とする情報処理装置。
  3. 請求項1又は2に記載の情報処理装置において、
    前記取得手段により取得された前記音声情報が示す音声の音量は、前記仮想空間において前記特定の仮想体の位置からの距離が長いほど小さくなるものであり、
    前記決定手段は、前記音量が閾値を超える位置にある仮想体に対応する端末装置を、前記第2端末装置に決定し、前記音源の数が多いほど又は前記音源から出力される音の大きさが大きいほど、前記音量を小さくし又は前記閾値を大きくすることを特徴とする情報処理装置。
  4. 請求項3に記載の情報処理装置において、
    前記決定手段は、前記音源の数が多いほど又は前記音源から出力される音の大きさが大きいほど、前記特定の仮想体を基準として前記音源が位置する第1方向における前記音量を小さくし又は前記閾値を大きくすることを特徴とする情報処理装置。
  5. 請求項4に記載の情報処理装置において、
    前記決定手段は、前記第1方向とは反対の第2方向における前記音量を前記第1方向における前記音量よりも大きくし、又は前記第2方向における前記閾値を前記第1方向における前記閾値よりも小さくすることを特徴とする情報処理装置。
  6. 請求項1乃至5の何れか1項に記載の情報処理装置において、
    前記音源は、前記複数の仮想体のうち音声を発している仮想体であることを特徴とする情報処理装置。
  7. 請求項1乃至6の何れか1項に記載の情報処理装置において、
    前記第2端末装置へ送信される前記音声情報に対応して前記第2端末装置により出力される音声の音量を決定する音量決定手段であって、前記特定の仮想体の位置から前記第2端末装置に対応する仮想体の位置までの距離が長いほど、小さい音量を決定する音量決定手段を更に備えることを特徴とする情報処理装置。
  8. 請求項7に記載の情報処理装置において、
    前記決定手段により決定された前記第2端末装置に対し、前記音声情報と、前記音量決定手段により決定された前記音量を示す音量情報と、を送信する音声情報送信手段を更に備えることを特徴とする情報処理装置。
  9. ネットワークを介して接続される複数の端末装置のうち何れかの第1端末装置に入力された音声を示す音声情報を取得する取得ステップと、
    前記複数の端末装置のそれぞれに対応する複数の仮想体の仮想空間における位置を示す位置情報を記憶する記憶手段に記憶された前記位置情報が示す、前記第1端末装置に対応する特定の仮想体の位置と、前記複数の端末装置のうち他の端末装置に対応する仮想体の位置と、前記仮想空間に存在する音源との関係に基づいて、前記他の端末装置のうち、前記取得ステップにより取得された前記音声情報が送信される第2端末装置を決定する決定ステップと、
    をコンピュータに実行させることを特徴とするプログラム。
JP2015065661A 2015-03-27 2015-03-27 情報処理装置及びプログラム Active JP6217682B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015065661A JP6217682B2 (ja) 2015-03-27 2015-03-27 情報処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015065661A JP6217682B2 (ja) 2015-03-27 2015-03-27 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2016187063A JP2016187063A (ja) 2016-10-27
JP6217682B2 true JP6217682B2 (ja) 2017-10-25

Family

ID=57203500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015065661A Active JP6217682B2 (ja) 2015-03-27 2015-03-27 情報処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6217682B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6907138B2 (ja) * 2016-12-26 2021-07-21 株式会社コロプラ 仮想空間を介して通信するためにコンピュータによって実行される方法、当該方法をコンピュータに実行させるためのプログラム、およびコンピュータ装置
JP7124715B2 (ja) * 2017-01-18 2022-08-24 ソニーグループ株式会社 情報処理装置、および情報処理方法、並びにプログラム
JP6714625B2 (ja) * 2018-02-16 2020-06-24 株式会社カプコン コンピュータシステム
JP6526879B1 (ja) * 2018-06-25 2019-06-05 株式会社バーチャルキャスト データ送信装置、およびプログラム
JP7399623B2 (ja) * 2019-03-25 2023-12-18 株式会社バンダイナムコエンターテインメント ゲームシステム、プログラム及びゲーム装置
JP7398199B2 (ja) * 2019-03-25 2023-12-14 株式会社バンダイナムコエンターテインメント ゲームシステム、プログラム及びゲーム装置
JP7360112B2 (ja) 2019-09-27 2023-10-12 グリー株式会社 コンピュータプログラム、サーバ装置、端末装置、及び方法
US11871152B2 (en) 2020-05-19 2024-01-09 Ovice, Inc. Information processing system, information processing apparatus, and program
JP7160263B2 (ja) * 2020-05-19 2022-10-25 oVice株式会社 情報処理システム、情報処理装置およびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003067317A (ja) * 2001-08-30 2003-03-07 Fuji Xerox Co Ltd メッセージ交換方法、コンピュータ、管理装置、記録媒体
JP2005322125A (ja) * 2004-05-11 2005-11-17 Sony Corp 情報処理システム、情報処理方法、プログラム
JP2006343447A (ja) * 2005-06-08 2006-12-21 Konami Digital Entertainment:Kk 仮想空間共有システム及び仮想空間共有システムの制御方法
JP4015173B1 (ja) * 2006-06-16 2007-11-28 株式会社コナミデジタルエンタテインメント ゲーム音出力装置、ゲーム音制御方法、および、プログラム
KR20110002005A (ko) * 2008-01-17 2011-01-06 비복스 인크. 아바타별 렌더링 환경을 이용하는 가상 현실 시스템에서 실시간 아바타별 스트리밍 데이터를 제공하기 위한 확장가능한 기술들

Also Published As

Publication number Publication date
JP2016187063A (ja) 2016-10-27

Similar Documents

Publication Publication Date Title
JP6217682B2 (ja) 情報処理装置及びプログラム
JP6397158B1 (ja) 協調的なオーディオ処理
US9263055B2 (en) Systems and methods for three-dimensional audio CAPTCHA
US10320780B2 (en) Shared secret voice authentication
US9686627B2 (en) Multidimensional virtual learning system and method
WO2020098462A1 (zh) Ar虚拟人物绘制方法、装置、移动终端及存储介质
CN107168518B (zh) 一种用于头戴显示器的同步方法、装置及头戴显示器
EP3350804B1 (en) Collaborative audio processing
JP2005341092A5 (ja)
JP2016080750A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
CN112312297B (zh) 音频带宽减小
JP2016103081A (ja) 会話分析装置、会話分析システム、会話分析方法及び会話分析プログラム
US12008982B2 (en) Reverberation gain normalization
JP2008299135A (ja) 音声合成装置、音声合成方法、および音声合成用プログラム
CN110660403B (zh) 一种音频数据处理方法、装置、设备及可读存储介质
JP2021117371A (ja) 情報処理装置、情報処理方法および情報処理プログラム
CN112236940A (zh) 用于滤波器参数的索引方案
Panek et al. Challenges in adopting speech control for assistive robots
US10158751B2 (en) Performing a notification event at a headphone device
US20170195779A9 (en) Psycho-acoustic noise suppression
US20240087597A1 (en) Source speech modification based on an input speech characteristic
WO2024027315A1 (zh) 音频处理方法、装置、电子设备、存储介质和程序产品
US10916250B2 (en) Duplicate speech to text display for the deaf
JP2019537071A (ja) 分散したマイクロホンからの音声の処理
WO2023281820A1 (ja) 情報処理装置、情報処理方法、記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170829

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170911

R150 Certificate of patent or registration of utility model

Ref document number: 6217682

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150