JP6431225B1 - 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム - Google Patents

音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム Download PDF

Info

Publication number
JP6431225B1
JP6431225B1 JP2018038146A JP2018038146A JP6431225B1 JP 6431225 B1 JP6431225 B1 JP 6431225B1 JP 2018038146 A JP2018038146 A JP 2018038146A JP 2018038146 A JP2018038146 A JP 2018038146A JP 6431225 B1 JP6431225 B1 JP 6431225B1
Authority
JP
Japan
Prior art keywords
acoustic
data
video
information
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018038146A
Other languages
English (en)
Other versions
JP2019153943A (ja
Inventor
俊一郎 左部
俊一郎 左部
小林 史明
史明 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
UNIMOTO INCORPORATED
Original Assignee
UNIMOTO INCORPORATED
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by UNIMOTO INCORPORATED filed Critical UNIMOTO INCORPORATED
Priority to JP2018038146A priority Critical patent/JP6431225B1/ja
Application granted granted Critical
Publication of JP6431225B1 publication Critical patent/JP6431225B1/ja
Publication of JP2019153943A publication Critical patent/JP2019153943A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Stereophonic System (AREA)

Abstract

【課題】チャンネルが2つ以下の音響情報であっても、音響の3次元方向を認知可能な擬似的な3次元音響空間を形成すること。
【解決手段】2つ以下のチャンネルで音響情報を取得する音響情報取得部と、取得した音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に3次元音響空間を形成する聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成部と、を備える。
【選択図】 図1

Description

本発明は、擬似的な3次元音響空間を形成する技術に関する。
上記技術分野において、特許文献1には、頭部伝達関数を用いて使用者の頭の回転によってもイヤホンからの音源の定位位置を維持する技術が開示されている。また、特許文献2には、ダミーヘッドのマイクロホンから取得したバイノーラル音響信号に基づき、クロストークキャンセルをしてスピーカからトランスオーラス再生を行う技術が開示されている。また、非特許文献1には、4方向のマイクロホンを含むアンビソニックスマイクで取得した音響情報から、ラウドスピーカにより聴取者の周りに音響場を生成するする技術が開示されている。
特開2010−056589号公報 特開2015−170926号公報 特開2015−220595号公報
西村竜一、「5章 アンビソニックス」、映像情報メディア学会誌、特集:立体音響技術、SPECIAL ISSUE VOL.68 NO.08 2014 日本音響学会編、「頭部伝達関数の基礎と3次元音響システムへの応用」、音響テクノロジーシリーズ19、コロナ社、2017年4月13日発行
しかしながら、上記文献に記載の技術では、チャンネルが2つ以下の限られた音響情報から、音響の3次元方向を認知可能な3次元音響空間を形成することができなかった。
本発明の目的は、上述の課題を解決する技術を提供することにある。
上記目的を達成するため、本発明に係る音響処理装置は、
響情報を取得する音響情報取得手段と、
取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に3次元音響空間を形成する前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成手段と、
を備え
前記音響データ生成手段は、特定の対象を音源とする音響情報を前記音源の位置に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第1音響データ付加手段を有する
上記目的を達成するため、本発明に係る音響処理プログラムは、
音響情報を取得する音響情報取得ステップと、
取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に3次元音響空間を形成するための、前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成ステップと、
をコンピュータに実行させる音響処理プログラムであって、
前記音響データ生成ステップは、特定の対象を音源とする音響情報を前記音源の位置に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第1音響データ付加ステップを有する
上記目的を達成するため、本発明に係る映像音響処理装置は、
音響情報を取得する音響情報取得手段と、
取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に3次元音響空間を形成する前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成手段と、
全周カメラにより取得した映像情報を受信して、視聴者の視聴方向に対応する映像データを生成する映像データ生成手段と、
前記映像データ生成手段により生成された前記視聴方向に対応する映像データにおける視線方向と、前記音響データ生成手段により生成された前記音響データにおける聴取方向とを対応付けて出力するよう制御する出力制御手段と、
を備え、
前記音響データ生成手段は、特定の対象を音源とする音響情報を前記特定の対象の映像情報の位置に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第1音響データ付加手段を有する
上記目的を達成するため、本発明に係る映像音響処理プログラムは、
音響情報を取得する音響情報取得ステップと、
取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に3次元音響空間を形成するための、前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成ステップと、
全周カメラにより取得した映像情報を受信して、視聴者の視聴方向に対応する映像データを生成する映像データ生成ステップと、
前記映像データ生成ステップにおいて生成された前記視聴方向に対応する映像データにおける視線方向と、前記音響データ生成ステップにおいて生成された前記音響データにおける聴取方向とを対応付けて出力するよう制御する出力制御ステップと、
をコンピュータに実行させる映像音響処理プログラムであって、
前記音響データ生成ステップは、特定の対象を音源とする音響情報を前記特定の対象の映像情報の位置に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第1音響データ付加ステップを有する
上記目的を達成するため、本発明に係る映像音響配信サーバは、
音響情報を取得する音響情報取得手段と、
取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に3次元音響空間を形成する前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成手段と、
全周カメラにより取得した映像情報を受信して、視聴者の視聴方向に対応する映像データを生成する映像データ生成手段と、
前記映像データ生成手段により生成された前記視聴方向に対応する映像データにおける視線方向と、前記音響データ生成手段により生成された前記音響データにおける聴取方向とを対応付けて、前記映像データおよび前記音響データを送信する送信手段と、
を備え、
前記音響データ生成手段は、特定の対象を音源とする音響情報を前記特定の対象の映像情報の位置に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第1音響データ付加手段を有する
上記目的を達成するため、本発明に係る映像音響配信プログラムは、
音響情報を取得する音響情報取得ステップと、
取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に3次元音響空間を形成するための、前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成ステップと、
全周カメラにより取得した映像情報を受信して、視聴者の視聴方向に対応する映像データを生成する映像データ生成ステップと、
前記映像データ生成ステップにおいて生成された前記視聴方向に対応する映像データにおける視線方向と、前記音響データ生成ステップにおいて生成された前記音響データにおける聴取方向とを対応付けて、前記映像データおよび前記音響データを送信する送信ステップと、
をコンピュータに実行させる映像音響配信プログラムであって、
前記音響データ生成ステップは、特定の対象を音源とする音響情報を前記特定の対象の映像情報の位置に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第1音響データ付加ステップを有する
本発明によれば、チャンネルが2つ以下の音響情報であっても、音響の3次元方向を認知可能な擬似的な3次元音響空間を形成することができる。
本発明の第1実施形態に係る音響処理装置の構成を示すブロック図である。 本発明の第2実施形態に係る音響処理部を含む映像音響処理システムの動作概要を示す図である。 本発明の第2実施形態に係る音響処理部を含む映像音響処理システムの構成を示すブロック図である。 本発明の第2実施形態に係る音響処理部を含む映像音響処理システムの動作手順を示すシーケンス図である。 本発明の第2実施形態に係る音響処理部を含む映像音響処理装置の概要を示す図である。 本発明の第2実施形態に係る音響処理部を含む映像音響処理装置の機能構成を示すブロック図である。 本発明の第2実施形態に係る音響データ生成部の機能構成を示すブロック図である。 本発明の第2実施形態に係る頭部伝達関数を説明する図である。 本発明の第2実施形態に係る頭部伝達関数データベースおよび音響データ生成部の音響データ生成テーブルの構成を示す図である。 本発明の第2実施形態に係る音響データ生成部の音響データ生成の概要を示す図である。 本発明の第2実施形態に係る映像データ生成部の映像データ生成の概要を示す図である。 本発明の第2実施形態に係る音響処理部を含む映像音響処理装置のハードウェア構成を示すブロック図である。 本発明の第2実施形態に係る音響処理部を含む映像音響処理装置の処理手順を示すフローチャートである。 本発明の第2実施形態に係る映像音響再生処理の手順を示すフローチャートである。 本発明の第3実施形態に係る音響処理部を含む映像音響処理システムの動作手順を示すシーケンス図である。 本発明の第3実施形態に係る音響処理部を含む映像音響処理装置の機能構成を示すブロック図である。 本発明の第3実施形態に係る頭部伝達関数データベースの構成を示す図である。 本発明の第3実施形態に係る音響処理部を含む映像音響処理装置の処理手順を示すフローチャートである。 本発明の第4実施形態に係る音響処理部を含む映像音響処理システムの動作概要を示す図である。 本発明の第4実施形態に係る音響処理部を含む映像音響処理システムの動作手順を示すシーケンス図である。 本発明の第4実施形態に係る音響処理部を含む映像音響処理システムの他の動作手順を示すシーケンス図である。 本発明の第4実施形態に係る音響処理部を含む映像音響処理装置の機能構成を示すブロック図である。 本発明の第4実施形態に係る対象音源分離部(抽出部)の対象音源位置生成テーブルの構成を示す図である。 本発明の第4実施形態に係る音響データ生成部の音響データ生成テーブルの構成を示す図である。 本発明の第4実施形態に係る映像音響再生処理の手順を示すフローチャートである。 本発明の第5実施形態に係る音響処理部を含む映像音響処理システムの動作概要を示す図である。 本発明の第5実施形態に係る音響処理部を含む映像音響処理システムの動作手順を示すシーケンス図である。 本発明の第5実施形態に係る音響処理部を含む映像音響処理装置の機能構成を示すブロック図である。 本発明の第5実施形態に係る誘導音響データベースおよび音響データ生成部の音響データ生成テーブルの構成を示す図である。 本発明の第5実施形態に係る映像音響再生処理の手順を示すフローチャートである。 本発明の第6実施形態に係る音響データ生成部の機能構成を示すブロック図である。 本発明の第7実施形態に係る映像配信サーバを含む映像音響処理システムの動作手順を示すシーケンス図である。
以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素は単なる例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
なお、本明細書で使用される「ステレオマイクロホン」との文言は、2つのマイクロホンによる音響情報の取得に限定されず、3つ以上のマイクロホンによる音響情報を2チャンネルにミックスダウンしたものも含む、2チャンネルの音響情報を生成するマイクロホンであることを示す。
[第1実施形態]
本発明の第1実施形態としての音響処理装置100について、図1を用いて説明する。音響処理装置100は、2つ以下のチャンネルの音響情報から擬似的な3次元音響空間を形成する装置である。
図1に示すように、音響処理装置100は、音響情報取得部101と、音響データ生成部102と、を含む。音響情報取得部101は、2つ以下のチャンネルで音響情報120を取得する。音響データ生成部102は、取得した音響情報120に対して聴取者の聴取方向122に対応する頭部伝達関数121による処理をし、擬似的に3次元音響空間を形成する聴取者130の右耳用の音響データ131と左耳用の音響データ132とを生成する。なお、聴取者の聴取方向122は、聴取者が音響情報を聴取する機器、例えばヘッドフォンなどの搭載されたジャイロスコープで検知しても、聴取者が操作部を操作して入力してもよい。さらに、電子コンパスの利用または併用をしてもよい。かかる聴取方向の指示情報は、不図示の指示情報受信部で受信される。
本実施形態よれば、音響データにおける聴取方向を頭部伝達関数により擬似的に設定できるので、チャンネルが2つ以下の音響情報であっても、音響の3次元方向を認知可能な擬似的な3次元音響空間を形成することができる。
[第2実施形態]
次に、本発明の第2実施形態に係る音響処理装置を含む映像音響処理システムについて説明する。第2実施形態においては、第1実施形態の音響処理装置を映像情報および音響情報を再生する映像音響処理装置に好適に組み込んだ映像音響処理システムについて説明するが、かかる用途に限定されるものではない。本実施形態に係る映像音響処理システムは、全周カメラにより取得した映像情報と2つ以下のチャンネルの音響情報とから、映像データにおける視線方向と音響データにおける聴取方向とを対応付けて出力する。なお、全周カメラにより取得した映像情報と2つのマイクロホンにより取得した音響情報とから映像データおよび音響データを生成する技術の一例が特許文献3に開示されている。また、頭部伝達関数(HRTF:Head Related Transfer Function)の測定、生成、使用については、非特許文献2に説明されている。
ここで、全周カメラとステレオマイクロホンとは、専用の機器であってもスマートフォンなどの携帯端末に搭載されたものであってもよい。また、映像データにおける視線方向と音響データにおける聴取方向とを対応付けて出力する出力機器は、パーソナルコンピュータ(PC)やテレビジョンであっても、スマートフォンなどの携帯端末に搭載されたものであってもよい。また、映像出力は表示画面であってもヘッドマウンティングディスプレイ(HMD)であってもよく、音響出力はヘッドホンであってもイヤホンであってもよい。すなわち、生成された音響データは、音響データ加工部によってヘッドホン用やイヤホン用の音響出力に加工される。なお、本実施形態においては、携帯端末としての映像音響処理装置が視聴者の視聴方向に対応する全周映像再生を行う例を示すが、映像音響処理装置を構成する機能の一部は、他の装置例えば映像音響配信サーバなどに配置されてもよい。
《映像音響処理システム》
図2A乃至図3を参照して、本実施形態の音響処理装置を含む映像音響処理システムの構成および動作について説明する。なお、以下の実施形態において、音響処理装置は各映像音響処理装置内の音響処理部に相当する。
(概要)
図2Aは、本実施形態に係る音響処理部を含む映像音響処理システム200の動作概要を示す図である。
図2Aにおいて、映像音響処理装置210の表示画面210a、210b、210cは、全周映像290から視聴者270により視線方向が移動選択されたそれぞれの画面である。
視聴者270が映像音響処理装置210の操作部への操作、あるいはヘッドホン271に搭載されたジャイロスコープや電子コンパスなどを用いた方向検知により、視線方向を移動させて表示画面210aが再生される。すると、ヘッドホン271からは表示画面210aの視線方向に対応する聴取方向の音響が再生される。例えば、前方からは「○○駅」のホームの音声281(“電車にご注意下さい!”)などが聞こえ、右方向からは「御神輿」を担ぐ音声282(“ソヤ! ソヤ!…)などが聞こえ、背後からは「たこ焼きの屋台」の販売員の声283(“たこ焼き8つで500円!)などが聞こえる。
視聴者270が視線方向を移動させて表示画面210bが再生されると、ヘッドホン271からは表示画面210bの視線方向に対応する聴取方向の音響が再生される。例えば、前方からは「御神輿」を担ぐ音声282(“ソヤ! ソヤ!…)などが聞こえ、左方向からは「○○駅」のホームの音声281(“電車にご注意下さい!”)などが聞こえ、右方向からは「たこ焼きの屋台」の販売員の声283(“たこ焼き8つで500円!)などが聞こえる。
視聴者270が視線方向を移動させて表示画面210cが再生されると、ヘッドホン271からは表示画面210cの視線方向に対応する聴取方向の音響が再生される。例えば、前方からは「たこ焼きの屋台」の販売員の声283(“たこ焼き8つで500円!)などが聞こえ、左方向からは「御神輿」を担ぐ音声282(“ソヤ! ソヤ!…)などが聞こえ、背後からは「○○駅」のホームの音声281(“電車にご注意下さい!”)などが聞こえる。
なお、図2Aでは、3方向の音声を代表させて説明したが、実際にはヘッドホン271から多くの音声が様々な方向や距離から混在して聞こえることになる。もし、かかる全周映像および音響が編集される場合には、特定の音声を強調してもよい。例えば、図2Aにおいて祭りの再生ビデオとする場合は、祭りに関連する音響を強調すればよい。なお、本実施形態の適用例は図2Aに限定されず、全周映像および音響の再生において映像と音響とを同期させる状況において適用され、同様の効果を奏する。
(構成)
図2Bは、本実施形態に係る音響処理部を含む映像音響処理システム200の構成を示すブロック図である。
映像音響処理システム200は、全周カメラおよびステレオマイクを含む映像音響取得部230または全周映像および音響を取得する携帯端末250と、撮影配信用パーソナルコンピュータ(以降、PC)240と、映像音響配信サーバ220と、携帯端末を含む通信端末211〜213と、を含む。通信端末213はHMDである。ここで、通信端末211〜213は、音響処理部を備える映像音響処理装置210として説明される。なお、映像音響配信サーバ220は、ネットワーク260を介して、撮影配信用PC240、携帯端末250や通信端末211〜213と通信接続する。
ここで、映像音響取得部230の全周カメラは、6つの撮像センサにより全天動画を撮影する。レンズなどによる歪みや明暗などの調整は、全周カメラで行なわれて、各デジタル画像フレームを撮影配信用PC240に出力する。映像音響取得部230のステレオマイクは、全周カメラで撮影する動画に同期した立体音声を集音する。なお、図2では、ステレオマイクの音声は1つのデータストリームに結合されて撮影配信用PC240に入力されているが、撮影配信用PC240において結合処理がされてもよい。
撮影配信用PC240では、まず、全周カメラからの6つの撮像センサの動画データに基づいて、各画像の境の整合性を取ってそれぞれ全周映像データをフレーム単位で生成する。次に、全周映像データに対して圧縮符号化を行なって、全周動画が再生可能なFLVフォーマットのデータに変換される。同期するステレオ音響は、圧縮符号化を行なって、FLVフォーマットのデータに追加される。
次に、FLVフォーマットのデータは、RTMP(Real Time Messaging Protocol)に従って、映像音響配信サーバ220にアップロードされる。映像音響配信サーバ220においては、例えば、あらかじめHTML(Hyper Text Markup Language)タグでWebページに埋め込まれたものから、URLで参照できるように確保された格納位置に格納される。映像音響配信サーバ220は、必要であれば、各通信端末211〜213で復号可能な符号化あるいは暗号化を行なう。
一方、携帯端末250により取得された全周映像および音響は、直接、映像音響配信サーバ220にアップロードされ、映像音響配信サーバ220で同様の処理がされて、各通信端末211〜213に送信される。
一方、全周映像および音響の再生を視聴する通信端末211〜213からは、映像音響配信サーバ220のIPアドレスにアクセスする。映像音響配信サーバ220は、確保された格納位置に順次に格納される全周映像および音響を配信する。ただし、全周映像および音響の配信先が携帯端末212や213のスマートフォンやタブレットの場合は、配信規格をHLS(HTTP Live Streaming)に変換することにより配信する。一方、全周映像および音響の配信先が通信端末211のPCの場合は、RTMPのまま配信、あるいは配信規格をHLSやHDS(HTTP Dynamic Streaming)に変換することにより配信する。
(動作シーケンス)
図3は、本実施形態に係る音響処理部311を含む映像音響処理システム200の動作手順を示すシーケンス図である。なお、通信端末211〜213は、本実施形態の音響処理装置に相当する音響処理部311と、映像処理部312とを備える映像音響処理装置210により代表させる。
ステップS311において、全周カメラおよびステレオマイクを有する映像音響取得部230は、撮影配信用PC240に制御されて、全周映像および音響取得処理を実行する。ステップS313において、撮影配信用PC240は取得したステレオ音響を含む全周映像を映像音響配信サーバ220にアップロードする。映像音響配信サーバ220は、ステップS315において、全周映像および音響を受信して検索可能に保持する。なお、映像データおよび音響データには再生タイミングを同期させるためのタイムスタンプが含まれる。
ステップS321において、映像音響処理装置210からの要請により、映像音響配信サーバ220から映像音響再生アプリケーションがダウンロードされる。なお、本実施形態では、映像音響再生アプリケーションにモデル化されたあるいは標準化された頭部伝達関数が含まれているものとする。映像音響処理装置210は、ステップS323において、ダウンロードされた映像音響再生アプリケーションを起動する。そして、映像音響処理装置210は、ステップS325において、全周映像および音響の視聴を映像音響配信サーバ220に要求する。映像音響配信サーバ220は、ステップS327において、全周映像および音響の視聴の要求に応えて、視聴者が所望とする全周映像および音響を選択して、映像音響処理装置210に送信する。なお、映像データおよび音響データには再生タイミングを同期させるためのタイムスタンプが含まれる。
映像音響処理装置210では、ステップS329において、受信した全周映像から全周映像データを再生する。また、映像音響処理装置210は、ステップS331において、受信した全周映像から音響を分離し音響データを再生する。次に、視聴者が表示された全周映像から所望の視線方向の映像の視聴を指示すると、映像音響処理装置210では、ステップS333において、指示された視聴方向を取得する。なお、視聴方向は映像音響処理装置210の操作部からの入力であっても、HMDの場合の頭部の方向センサからの入力であってもよい。
映像音響処理装置210は、ステップS335において、視聴方向に従って、対応する視線方向の映像データと、頭部伝達関数を用いて対応する聴取方向の音響データを生成する。そして、映像音響処理装置210は、ステップS337において、映像データに基づいて表示部に表示された映像画面出力と、映像画面の視線方向に対応する2チャンネル音響データによるヘッドホンからの音響出力を行う。
《映像音響処理装置》
図4Aおよび図4Bを参照して、本実施形態の音響処理装置としての音響処理部を含む映像音響処理装置の構成および動作について説明する。
(概要)
図4Aは、本実施形態に係る音響処理装置としての音響処理部311を含む映像音響処理装置210の概要を示す図である。
映像音響処理装置210は、音響処理装置としての音響処理部311と、映像データ生成部420と、出力制御部430と、を備える。音響処理部311は、2つ以下のチャンネルで音響情報を取得する音響情報取得部411と、取得した音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に3次元音響空間を形成する聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成部409と、を含む。
また、映像データ生成部420は、全周カメラにより取得した映像情報を受信して、視聴者の視聴方向に対応する映像データを生成する。そして、出力制御部430は、映像データ生成部420により生成された視聴方向に対応する映像データにおける視線方向と、音響データ生成部409により生成された音響データにおける聴取方向とを対応付けて出力するよう制御する。
(機能構成)
図4Bは、本実施形態に係る映像音響処理装置210の機能構成を示すブロック図である。
映像音響処理装置210は、通信制御部401と、入出力インタフェース402と、映像音響再生アプリケーション400と、を備える。通信制御部401は、ネットワーク260を介して映像音響配信サーバ220との通信を制御する。また、入出力インタフェース402は、映像音響処理装置210の内部または外部に接続された、表示部421、操作部422、本実施形態ではヘッドホンである音声出力部423などとインタフェースする。また、映像音響再生アプリケーション400は、全周映像および音響を映像音響配信サーバ220から受信して、全周映像および音響において視聴者が視聴する映像の方向の映像データと音響の方向の音響データとを対応させて、表示画面およびヘッドホンから出力させる。なお、映像音響再生アプリケーション400は、映像音響配信サーバ220からダウンロードされたものであっても、あらかじめ映像音響処理装置210に搭載されたものであってもよい。なお、表示部421は表示スクリーン、操作部422はキーボードやタッチパネルであってもよく、表示部421および操作部422を含むヘッドマウンティングディスプレイ(HMD)であってもよい。
映像音響再生アプリケーション400は、全周映像データ受信部403と、全周映像展開部(仮想映像空間生成部)404と、音響データ分離部405と、頭部伝達関数取得部406と、視聴方向選択部407と、視線方向映像データ生成部408と、音響データ生成部409と、頭部伝達関数データベース410と、を有する。ここで、頭部伝達関数取得部406と、音響データ生成部409と、頭部伝達関数データベース410とは、音響処理部311を形成するが、これに限定されるものではない。また、全周映像展開部404と視線方向映像データ生成部408とは、映像データ生成部420を形成し、全周映像データ受信部403を含めて映像処理部312とする。全周映像データ受信部403は、通信制御部401を介して、音響データを含む全周映像データを受信する。全周映像展開部404は、受信した全周映像データに基づいて、仮想の3次元(例えば、球)映像空間に展開する。音響データ分離部405は、全周映像データ受信部403が受信した全周映像データから音響データを分離する。頭部伝達関数取得部406は、モデル化されたあるいは標準化された頭部伝達関数を取得する。視聴方向選択部407は、視聴者から入力された視聴方向を操作部422から受信して、視聴方向に対応する視線方向の映像データと聴取方向の音響データとの生成を選択する。視線方向映像データ生成部408は、視聴方向選択部407の指示に従い、仮想の3次元(例えば、球)映像空間から視線方向の映像を選択的に生成する。音響データ生成部409は、音響データ生成テーブル491を有し、視聴方向選択部407の指示に従い、頭部伝達関数を用いて聴取方向に対応する2チャンネルの左右耳に出力する音響データを生成する。頭部伝達関数データベース410は、頭部伝達関数取得部406が取得した頭部伝達関数を格納して、視線方向映像データ生成部408に提供する。
視線方向映像データ生成部408が生成した視線方向の映像データは表示部421に表示され、音響データ生成部409が生成した聴取方向の音響データは2チャンネルの音声出力部423から音声出力される。
なお、映像データ生成部420による映像データの再生および表示部421における映像表示と、音響データ生成部409による音響データの再生および音声出力部423における音声出力とのタイミング同期は、例えば、映像データと音響データとが含むタイムスタンプを参照することで実現する。なお、以下煩雑さを避けるため映像データと音響データとが含むタイムスタンプについては図示や説明を省略する。また、映像表示と音声出力とのタイミングを同期する技術についても既知であるので詳細な説明は省略する。
(音響データ生成部の機能構成)
図5Aは、本実施形態に係る音響データ生成部409の機能構成を示すブロック図である。
音響データ生成部409は、仮想音源XR501と、仮想音源XL502と、各頭部伝達関数を畳み込む演算部503〜506と、加算部507および508と、を含む。仮想音源XR501と仮想音源XL502とは、音響データ分離部405で分離された2チャンネルの音響データである。演算部503〜506は、仮想音源XR501と仮想音源XL502とが、それぞれ右耳と左耳とに到達する音響データを、各頭部伝達関数を用いて演算する。加算部507および508は、仮想音源XR501と仮想音源XL502とからの音響データを加えて、右耳用の音響データおよび左耳用の音響データを生成して、ヘッドホンなどの音声出力部423に出力する。
ここで、頭部伝達関数データベース410には、仮想リスナーの向き(α°:視聴者の視聴方向に対応)に対応して測定された頭部伝達関数が向きにより検索可能に格納されている。そして、仮想リスナーの向きよって適切な頭部伝達関数が選択されて、音源の相対的な位置が視聴者の視聴方向の変化に対応して変化する。これにより、視聴者の視聴方向からの音響が擬似的に生成される。なお、仮想リスナーの向きに一致する頭部伝達関数が格納されてない場合は、補間処理により算出されてよい。
なお、生成された音響の聴取方向は、視聴者の視聴方向に正確に一致するとは限らないが、視聴者の視聴方向の映像と同期して出力されるため、腹話術効果やカクテルパーティー効果などにより、映像方向と音響方向との不一致が是正される。
(頭部伝達関数について)
図5Bは、本実施形態に係る頭部伝達関数を説明する図である。
頭部伝達関数は、自由空間における音源と、聴取者の鼓膜近傍あるいは外耳道入口においた受音点との間の音響伝達関数である。例えば、聴取者の身体と頭部の3次元形状およびそれらの音響インピーダンスによって規定される。
頭部伝達関数は、頭部がある場合に、位置Sにある音源から外耳道入口Eに置いたマイクロホンまでの音響伝達関数HE(S,ω)を、頭部がない場合の、位置Sにある音源から頭部中心位置Oに置いたマイクロホンまでの音響伝達関数HO(S,ω)で除算した、伝達関数HE(S,ω)/HO(S,ω)として与えられる。あるいは、頭部伝達関数は、伝達関数HE(S,ω)/HO(S,ω)を離散フーリエ逆変換したインパルス応答HRIR(Head Related Impulse Response)として与えられる。
図5Bにおいては、頭部中心位置Oを極座標の中心として、音源の位置を極座標(距離d、方位角θ、仰角φ)で表す。そして、右耳Erの頭部伝達関数をHRTFrとする。なお、図5Bには図示されていないが、左耳Elの頭部伝達関数をHRTFlとする。なお、方位角θは頭部中心位置Oの正面からの水平角度(通常、±180°で示す)であり、仰角φは頭部中心位置Oを含む平面からの角度(通常、±90°で示す)である。
(頭部伝達関数データベースおよび音響データ生成テーブル)
図5Cは、本実施形態に係る頭部伝達関数データベース410および音響データ生成部409の音響データ生成テーブル491の構成を示す図である。
頭部伝達関数データベース410は、リスナーからの相対音源位置(図5Bの距離d、方位角θ、仰角φ)511に対応付けて、左右のモデル化された頭部伝達関数(HRTFr、HRTFl)512を記憶する。なお、頭部伝達関数512に、外耳道以降の伝達関数は含まれも、別途に記憶してもよい。また、イヤホンであれば、ヘッドホンから耳介形状による伝達関数を除くことができる。
音響データ生成テーブル491は、右仮想音源521の位置と、左仮想音源522の位置と、仮想リスナー523の位置および向きとに基づいて算出した、リスナーからの相対右仮想音源位置524とリスナーからの相対左仮想音源位置525とを記憶するテーブルを有する。また、音響データ生成テーブル491は、相対右仮想音源位置524と相対左仮想音源位置525とのそれぞれに対応して、頭部伝達関数データベース410から検索した、リスナー向きと音源位置に応じた頭部伝達関数531を記憶するテーブルを有する。また、音響データ生成テーブル491は、出力部541に出力する、右仮想音源521の出力および左仮想音源522の出力と、頭部伝達関数531とから算出されたヘッドホン出力542を記憶するテーブルを有する。なお、図6Cでは、音響データ生成テーブル491を3つに分けて説明したが、1つのテーブルで実現されてもどのように分けて実現されてもよい。なお、リスナーの向きは、操作部422からのユーザ入力であっても、ヘッドホンやHMDに設置されたジャイロスコープや電子コンパスなどによる方向検知部からの入力であってもよい。かかるリスナーの向きの指示情報は、情報処理装置の指示情報受信部で受信される。
(音響データ生成の概要)
図6Aは、本実施形態に係る音響データ生成部409の音響データ生成の概要を示す図である。
実環境610においては、実音源からダミーヘッドの両耳の内蔵マイクによりバイノーラル音響データが取得される。このバイノーラル音響データは、再生環境630のヘッドホンなどの音声出力部423においてバイノーラル再生される。
一方、仮想の擬似環境620においては、仮想音源から頭部伝達関数を用いて再生環境630のヘッドホンなどの音声出力部423への音響データが生成される。
(映像データ生成の概要)
図6Bは、本実施形態に係る映像データ生成部420の映像データ生成の概要を示す図である。
図6Bにおいて、球体600には、配信された全周映像データが含む全周映像の、各全周画像フレームを、球体面を覆うように順次に貼り付ける。そして、内部の視点601から球体600を覆った全周画像フレームを、通信端末の画面を示す表示平面に投影した画像602、603および605が、通信端末の表示画面に表示される。視聴者に対応する視点601からの視線方向が球体600の軸を中心に回転すれば、画像602も視線方向の回転につれて回転する。また、視点601が上下に移動すれば、画像602の範囲も視点601の上下に応じて上下する。また、視線方向が上向き/下向きになると、見上げた画面/見下ろした画面となる。また、視点601が球体の中心から視点604に離れると、球体600に近づいた方向ではズームインとなり、球体600から離れた方向ではズームアウトとなる。
このように、視点位置と視線方向とを変化させることで、全周映像の再生を見渡すことができて、臨場感にあふれる全周映像の視聴が可能となる。なお、立体音声との再生方向の同期は、図6Bの視線ベクトルと球体600の交点に基づいて実現できる。また、映像とは異なる人工的な映像を合成するには、他の球体を設けてその球体に画像を貼り付ければよい。例えば、映像の上に人工画像を表示する場合は、球体600の内部に他の球体を設ければよい。一方、人工背景を付加する場合には、球体600の外に他の球体を設ければよい。3次元映像においては、視点から球体への距離の違いを奥行きとして表現することができる。
《映像音響処理装置のハードウェア構成》
図7は、本実施形態に係る映像音響処理装置210のハードウェア構成を示すブロック図である。
図7で、CPU710は演算制御用のプロセッサであり、プログラムを実行することで図4および図5Aの機能構成部を実現する。CPU(Central Processing Unit)710は1つであっても複数であってもよい。ROM(Read Only Memory)720は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。ネットワークインタフェース730は、ネットワークを介して、映像音響配信サーバ220との通信を制御する。
RAM(Random Access Memory)740は、CPU710が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM740には、本実施形態の実現に必要なデータを記憶する領域が確保されている。全周映像データ741は、映像音響配信サーバ220から受信した、音響データを含む全周映像のデータである。音響データ742は、全周映像データ741から分離された音響のデータである。全周映像仮想空間データ743は、全周映像データ741から生成された全周画像の仮想空間のデータである。音響仮想音源データ744は、音響データ742から生成された仮想音響場における仮想音源(仮想スピーカ)からの音響データである。視聴方向データ745は、視聴者から指示された視聴方向のデータである。視線方向映像データ746は、全周映像仮想空間データ743から視聴方向データ745に対応する視線方向の映像データである。聴取方向音響データ747は、音響仮想音源データ744に基づいて視聴方向データ745に対応する聴取方向を、頭部伝達関数を用いて設定した2チャンネルの音響データである。入出力データ748は、入出力インタフェース402を介した入出力機器と入出力するデータである。送受信データ749は、ネットワークを介して送受信されるデータである。なお、音響仮想音源データ744と、視聴方向データ745と、聴取方向音響データ747とが、音響データ生成テーブル491を構成する。
ストレージ750は、CPU710が使用する、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。頭部伝達関数データベース410は、図5Bに示した頭部伝達関数を記憶するテーブルである。2チャンネル音響データ生成アルゴリズム751は、音響データ742から頭部伝達関数を用いて2チャンネルの音響データを生成するアルゴリズムである。聴取方向変更アルゴリズム752は、聴取方向が変更された場合の頭部伝達関数の変更を含むアルゴリズムである。
ストレージ750には、以下のプログラムが格納される。映像音響処理装置制御プログラム753は、本映像音響処理装置210の全体を制御するプログラムである。映像音響再生アプリケーション400は、ダウンロードされた映像音響再生用のアプリケーションであり、以下のモジュールを含む。全周映像再生モジュール754は、全周映像データ741から視聴方向を考慮した視線方向映像データ746を生成するモジュールである。2チャンネル音響生成モジュール755は、音響データから視聴方向を考慮した聴取方向音響データ747を生成するモジュールである。視聴方向制御モジュール756は、視聴者からの視聴方向の指示に対応して、全周映像再生モジュール754および2チャンネル音響生成モジュール755を制御するためのモジュールである。映像音響出力制御モジュール757は、全周映像再生モジュール754が生成した映像データおよび2チャンネル音響生成モジュール755が生成した音響データの、表示部421および音声出力部423への出力を制御するモジュールである。
入出力インタフェース402は、入出力デバイスとのデータ入出力を制御するためのインタフェースを行なう。本実施形態においては、入出力インタフェース402には、表示部421、操作部422、音声出力部423などが接続される。
なお、図7のRAM740やストレージ750には、映像音響処理装置210が有する汎用の機能や他の実現可能な機能に関連するプログラムやデータは図示されていない。
《映像音響処理装置の処理手順》
図8Aは、本実施形態に係る映像音響処理装置210の処理手順を示すフローチャートである。このフローチャートは、図7のCPU710がRAM740を使用して実行し、図4および図5Aの機能構成部を実現する。
映像音響処理装置210は、ステップS811において、アプリケーションのダウンロード指示か否かを判定する。アプリケーションのダウンロード指示と判定されると、映像音響処理装置210は、ステップS813において、映像音響再生アプリケーションをダウンロードする。
アプリケーションのダウンロード指示と判定されない場合、映像音響処理装置210は、ステップS821において、アプリケーションの起動指示か否かを判定する。アプリケーションの起動指示と判定されると、映像音響処理装置210は、ステップS823において、映像音響再生アプリケーションを起動する。そして、映像音響処理装置210は、ステップS825において、映像音響の取得再生指示か否かを判定する。全周映像音響の取得再生指示と判定されるまで待って、映像音響処理装置210は、ステップS827において、映像音響配信サーバ220から所望の映像音響を取得する。そして、映像音響処理装置210は、ステップS829において、視聴者の視聴方向に対応する映像と音響とを再生する映像音響再生処理を実行する。
(映像音響再生処理)
図8Bは、本実施形態に係る映像音響再生処理(S829)の手順を示すフローチャートである。
映像音響処理装置210は、ステップS831において、受信した全周映像音響から全周映像データと音響データとを分離する。映像音響処理装置210は、ステップS833において、全周映像データから全周映像仮想空間を生成する。映像音響処理装置210は、ステップS835において、音響データから仮想音源を設定して仮想音響場を生成する。
映像音響処理装置210は、ステップS837において、視聴方向の変更指示を待つ。視聴方向の変更指示がなければ、現在の視聴方向の映像と音響とを維持してステップS839に進む。視聴方向の変更指示があれば、映像音響処理装置210は、ステップS838において、指示された視線方向を取得する。そして、映像音響処理装置210は、ステップS839において、全周映像仮想空間から視聴方向に対応する視線方向の映像データを生成する。映像音響処理装置210は、ステップS841において、仮想音響場から視聴方向に対応する聴取方向の2チャンネルの音響データを生成する。そして、映像音響処理装置210は、ステップS843において、生成された視線方向の映像データと聴取方向の2チャンネル音響データとを同期して、表示部および音声出力部に出力する。
映像音響処理装置210は、ステップS845において、全周映像音響の再生終了指示か否かを判定する。全周映像音響の再生終了指示でないと判定されると、ステップS831に戻って次の全周映像音響を受信して、以降の再生処理を繰り返す。全周映像音響の再生終了指示であると判定されると、処理を終了する。
本実施形態によれば、音響データにおける聴取方向を頭部伝達関数により擬似的に設定して映像データにおける視線方向と対応付けるので、チャンネルが2つ以下の音響情報であっても、音響の方向を、全周映像において視聴者が視聴する映像の方向と対応させて、表示画面およびヘッドホンから出力することができる。
[第3実施形態]
次に、本実施形態に係る音響処理装置を含む映像音響処理システムについて説明する。本実施形態に係る映像音響処理システムは、上記第2実施形態と比べると、頭部伝達関数をサーバなどから取得して視聴者に適合した音響を生成する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
《映像音響処理システムの動作シーケンス》
図9は、本実施形態に係る音響処理部911を含む映像音響処理システムの動作手順を示すシーケンス図である。なお、通信端末は、音響処理部911および映像処理部312を備える映像音響処理装置910により代表させる。また、図9において、図3と同様のステップには同じステップ番号を付して、重複する説明を省略する。
映像音響処理装置910は、ステップS923において、操作部から入力された、頭部伝達関数を選択する、あるいは、修正するためのパラメータを映像音響配信サーバ220に送信する。映像音響配信サーバ920は、ステップS924において、送信されたパラメータに基づいて、適切な頭部伝達関数の選択あるいは修正を行って、映像音響処理装置910に返信する。映像音響処理装置910は、ステップS924において、受信した適切な頭部伝達関数を視聴者に対応付けて記憶し、同じ視聴者の場合はその頭部伝達関数を使用する。
《映像音響処理装置の機能構成》
図10Aは、本実施形態に係る映像音響処理装置910の機能構成を示すブロック図である。なお、図10Aにおいて、図4と同様の機能構成部には同じ参照番号を付して、重複する説明を省略する。
映像音響処理装置910においては、音響データ生成部409と、頭部伝達関数要求部1020と、頭部伝達関数取得部1006と、頭部伝達関数データベース1010とが、音響処理部911を形成するが、これに限定されるものではない。
頭部伝達関数要求部1020は、操作部422からの操作などにより入力された視聴者IDに対応する頭部伝達関数を映像音響配信サーバ920などに要求する。なお、本実施形態では、視聴者IDによって頭部伝達関数を要求したが、視聴者の属性グループ(大人か子供か、女性か男性か、人種など)によって頭部伝達関数を要求してもよい。また、視聴者の耳介形状のパラメータなどを細かく送信して、より個々人に適切な頭部伝達関数を要求してもよい。
頭部伝達関数取得部1006は、頭部伝達関数要求部1020の要求に応答して、映像音響配信サーバ920などから提供される頭部伝達関数を取得して、頭部伝達関数データベース1010に格納する。頭部伝達関数データベース1010は、頭部伝達関数取得部1006が取得した頭部伝達関数を視聴者IDや視聴方向などにより検索可能に格納する。
(頭部伝達関数データベース)
図10Bは、本実施形態に係る頭部伝達関数データベース1010の構成を示す図である。なお、図10Bにおいて、図5Cと同様の構成要素には同じ参照番号を付して、重複する説明を省略する。
頭部伝達関数データベース1010は、視聴者ID1011と、その属性1012や耳介形状1013などの頭部伝達関数に影響を及ぼす特徴とに対応付けて、それぞれ図5Cの頭部伝達関数データベース410と同様に、視聴者に適切な頭部伝達関数を記憶する。かかる属性1012や耳介形状1013などの特徴は、不図示の特徴取得部により取得される。そして、視聴者やその特徴に応じて適切な頭部伝達関数が頭部伝達関数選択部で選択される。
《映像音響処理装置の処理手順》
図11は、本実施形態に係る映像音響処理装置910の処理手順を示すフローチャートである。なお、図11において、図8Aと同様のステップには同じステップ番号を付して、重複する説明を省略する。
映像音響処理装置910は、ステップS1123において、頭部伝達関数の取得指示であるか否かを判定する。頭部伝達関数の取得指示と判定されなければ、映像音響処理装置910は、ステップS825に進む。
頭部伝達関数の取得指示と判定されれば、映像音響処理装置910は、ステップS1124において、映像音響配信サーバ920に頭部伝達関数を選択または修正するパラメータを送信する。そして、映像音響処理装置910は、ステップS1125において、選択または修正された頭部伝達関数を映像音響配信サーバ920から受信して、視聴者IDに対応付けて記憶する。
本実施形態によれば、視聴者に適合した頭部伝達関数を用いることができるので、音響の方向を、全周映像において視聴者が視聴する映像の方向とより正確に対応させることができる。
[第4実施形態]
次に、本発明の第4実施形態に係る音響処理装置を含む映像音響処理システムについて説明する。本実施形態に係る映像音響処理システムは、上記第2実施形態および第3実施形態と比べると、所定の対象音響の仮想音源を付加して視聴者の注目を誘導する点で異なる。その他の構成および動作は、第2実施形態または第3実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
《映像音響処理システム》
図12A乃至図12Cを参照して、本実施形態の音響処理装置を含む映像音響処理システムの構成および動作について説明する。なお、以下の実施形態において、音響処理装置は各映像音響処理装置内の音響処理部に相当する。
(概要)
図12Aは、本実施形態に係る音響処理部を含む映像音響処理システムの動作概要を示す図である。
図12Aの上半分には、5人のアイドルグループのコンサート会場における全周映像1291から、視聴者が選択した視線方向1270aにおける表示画面1210aおよび視聴者が選択した視線方向1270bにおける表示画面1210bと、HMD1271からの付加音響1281〜1285が図示されている。かかる付加音響1281〜1285は、ステレオマイクによる会場から集音した音響情報に対して、5人の各アイドルのマイクロホンから取得した音声の音響情報である。
例えば、視聴者が視線方向1270aの表示画面1210aを視聴している場合には、付加音響1282および1283が正面から聞こえる。そして、視聴者のファンであるアイドルの音声が付加音響1285として右後方から聞こえている。これに気付いた視聴者は、映像音響処理装置210の操作部への操作、あるいはHMD1271に搭載されたジャイロスコープや電子コンパスなどを用いた方向検知により、付加音響1285が聞こえた方向に視線方向1270bを移動させる。これにより、視聴者は、ファンであるアイドルを表示画面1210bによって、ファンであるアイドルの音声を付加音響1285として、正面から視聴できることになる。図12Aにおいては、表示画面1210bは表示画面1210aより小さくなっており、表示画面1210bがズームインした画面であることを示している。
図12Aの下半分には、サッカー試合を行っているサッカー場における全周映像1292から、視聴者が選択した視線方向1270cにおける表示画面1210cおよびボールを蹴る音に従い視聴者が選択した視線方向1270dにおける表示画面1210dと、HMD1271からの付加音響1286が図示されている。かかる付加音響1286は、ステレオマイクによる会場から集音した音響情報に対して、マイクロホンから取得した音声から抽出したボールを蹴る音の音響情報である。なお、ボールを蹴る音は、ステレオマイクが集音した音響情報から抽出して強調しても、ステレオマイクとは別個の専用マイクロホンを設けてもよい。
例えば、視聴者が視線方向1270cの表示画面1210cを視聴している場合には、ボールを蹴る音が付加音響1286として右後方から聞こえている。これに気付いた視聴者は、映像音響処理装置210の操作部への操作、あるいはHMD1271に搭載されたジャイロスコープや電子コンパスなどを用いた方向検知により、付加音響1286が聞こえた方向に視線方向1270dを移動させる。これにより、視聴者は、ボールが映った表示画面1210dによって、ボールが有る場所を正面から視聴できることになる。図12Aにおいては、表示画面1210dは表示画面1210cより小さくなっており、表示画面1210dがズームインした画面であることを示している。なお、抽出されたボールを蹴る音を追跡して自動的に全周映像の表示方向を選択し、表示方向の音響を再生すれば、試合の動きを容易に追うことができる。さらに、抽出されたボールを蹴る音が視聴方向に無い場合にズームアウトするような処理も可能である。
なお、図12Aでは、5人の音声あるいはボールを蹴る音を代表させて説明したが、実際にはHMD1271から多くの音声が様々な方向や距離から混在して聞こえることになる。もし、かかる全周映像および音響が編集される場合には、特定の音声を強調したり抑制したりしてもよい。また、本実施形態の適用例は図12Aに限定されず、全周映像および音響の再生において特定の音響に注目する状況において適用され、同様の効果を奏する。
(動作シーケンス:対象音響用のマイクロホンがある場合)
図12Bは、本実施形態に係る音響処理部1211を含む映像音響処理システムの動作手順を示すシーケンス図である。図12Bのシーケンス図は図12Aの上半分のアイドルグループのコンサートの再生に対応する。なお、また、図12Bにおいて、図3と同様のステップには同じステップ番号を付して、重複する説明を省略する。
ステップS1211において、映像音響取得部230に含まれる特定の対象の音響データを取得する少なくとも1つの対象マイクによる音響データも取得される。例えば、コンサートでのアイドルグループの個人マイクなどが含まれる。撮影配信用PC240は、ステップS1213において、少なくとも1つの対象マイクによる音響データも映像音響配信サーバ220にアップロードする。そして、映像音響配信サーバ220、ステップS1215において、少なくとも1つの対象マイクによる音響データも含めて保持される。なお、映像データおよび音響データには再生タイミングを同期させるためのタイムスタンプが含まれる。
ステップS1227において、映像音響配信サーバ220は、少なくとも1つの対象マイクによる音響データを含む、選択された映像および音響を映像音響処理装置1210に送信する。なお、映像データおよび音響データには再生タイミングを同期させるためのタイムスタンプが含まれる。ステップS1234において、映像音響処理装置1210は、ステップS329で再生した全周映像データを参照して対象マイクの位置を判定し、対象マイクにより取得された音響データに基づいて仮想対象音源を付加して、ステップS335において、最終的な音響データを生成する。なお、仮想対象音源を他の音源よりも強くしたり、他の音源を仮想対象音源よりも弱くしたりすることで、視聴者が対象音響に気付き易くなる。特に、視聴者の後方からの音に振り返るなどの動作を引き出すことができる。
なお、上記動作シーケンスでは、映像音響処理装置1210で対象マイクの位置を判定して対象マイクの音響データを付加したが、映像音響配信サーバ220側であらかじめ対象マイクの位置を判定して位置情報を付加しておいてもよい。その場合は、ステップS1215において、少なくとも1つの対象マイクによる音響データに、同じタイムスタンプの映像内の対象マイクの位置に基づいて音響データの相対位置情報が付加されて保持される。そして、ステップS1234においては、音響データに付加された相対位置情報が使用される。
(動作シーケンス:対象音響を抽出する場合)
図12Cは、本実施形態に係る音響処理部を含む映像音響処理システムの他の動作手順を示すシーケンス図である。図12Cのシーケンス図は図12Aの下半分のサッカー場でのサッカー試合の再生に対応する。なお、図12Cにおいて、図3または図12Bと同様のステップには同じステップ番号を付して、重複する説明を省略する。
ステップS1233において、映像音響処理装置1210は、ステップS331で再生された音響データから、特定の音響を対象音源として抽出する。例えば、球技スポーツにおいて、選手が球を打つ/蹴る音を拾うなども可能である。
そして、ステップS1234において、映像音響処理装置1210は、ステップS329で再生した全周映像データを参照して対象音源の位置を判定する。そして、対象音響として抽出された音響データに基づいて仮想対象音源を付加して、ステップS335において、最終的な音響データを生成する。なお、仮想対象音源を他の音源よりも強くしたり、他の音源を仮想対象音源よりも弱くしたりすることで、視聴者が対象音響に気付き易くなる。特に、視聴者の後方からの音に振り返るなどの動作を引き出すことができる。
なお、上記動作シーケンスでは、映像音響処理装置1210で対象音源を抽出してその位置を判定し、対象音源の音響データを付加したが、映像音響配信サーバ1220側であらかじめ対象音源を抽出してその位置を判定し、位置情報を付加しておいてもよい。その場合は、ステップS315の後に、映像音響処理装置1210は、映像音響取得部からアプロードされた全周映像音響の映像データおよび/または音響データから、特定の音響を対象音源として抽出する。対象音源の音響データには、同じタイムスタンプの映像内の対象物(上記例では球)の位置に基づいて音響データの相対位置情報が保持される。そして、ステップS327において、映像音響配信サーバ1220は、抽出した対象音源の音響データを含む、選択された映像および音響を映像音響処理装置1210に送信する。そして、抽出した対象音源の音響データには、相対位置情報が含まれることになる。
《映像音響処理装置の機能構成》
図13Aは、本実施形態に係る音響処理部1211を含む映像音響処理装置1210の機能構成を示すブロック図である。なお、図13Aにおいて、図4と同様の機能構成部には同じ参照番号を付して、重複する説明を省略する。
映像音響処理装置1210においては、頭部伝達関数取得部406と、頭部伝達関数データベース410と、対象音源分離部1305と、音響データ生成部1309とが、音響処理部1211を形成するが、これに限定されるものではない。
対象音源分離部1305は、対象音源位置生成テーブル1351を有し、音響データ分離部405により全周映像データから分離された音響データから、さらに、特定の音響(例えば、特定の音色、時間差、強度差など)を持つ対象音源を分離する。なお、図12Cの場合、対象音源分離部1305は音響情報抽出部としての機能も有する。音響データ生成部1309は、音響データ生成テーブル1391を有し、音響データ付加部として対象音源分離部1305で分離され付加された対象音源も考慮に入れて、頭部伝達関数を用いた2チャンネルの音響データを生成する。
(音源位置生成テーブル)
図13Bは、本実施形態に係る対象音源分離部(抽出部)1305の対象音源位置生成テーブル1351の構成を示す図である。対象音源位置生成テーブル1351は、対象音源分離部(抽出部)1305が2チャンネルの音響データに付加する対象音響の音源の位置を生成するために使用される。
対象音源位置生成テーブル1351としては、図12Aの上段および図12Bにおける対象マイクからの音響の音源の位置を生成するための位置生成テーブル1360と、図12Aの下段および図12Cにおける対象音響の音源の位置を生成するための位置生成テーブル1370と、を示す。
位置生成テーブル1360は、対象音響ID1361に対応付けて、対象音響付加条件1362としての、例えば、対象とするアイドルの対象画像特徴量と、音響データ(出力Yi)と仮想音源位置(xi,yi,zi)とを含む付加対象音響1363と、を記憶する。位置生成テーブル1370は、対象音響ID1371に対応付けて、対象音響付加条件1372としての、例えば、対象とするボールを蹴る音の対象音響特徴量と、音響データ(出力Yi)と仮想音源位置(xi,yi,zi)とを含む付加対象音響1373と、を記憶する。
(音響データ生成テーブル)
図13Cは、本実施形態に係る音響データ生成部1309の音響データ生成テーブル1391の構成を示す図である。なお、図13Cにおいて、図5Cの音響データ生成テーブル491と同様の構成要素には同じ参照番号を付して、重複する説明を省略する。
音響データ生成テーブル1391は、第1仮想音源1321の位置〜第n仮想音源1322の位置と、仮想リスナー523の位置および向きとに基づいて算出した、リスナーからの相対第1仮想音源位置1324〜リスナーからの相対第n仮想音源位置1325とを記憶するテーブルを有する。また、音響データ生成テーブル1391は、相対右仮想音源位置524と、相対左仮想音源位置525と、相対第1仮想音源位置1324〜相対第n仮想音源位置1325とのそれぞれに対応して、頭部伝達関数データベース410から検索した、リスナー向きと音源位置に応じた頭部伝達関数1331を記憶するテーブルを有する。また、音響データ生成テーブル1391は、出力部1341に出力する、右仮想音源521の出力、左仮想音源522の出力および第1仮想音源1321〜第n仮想音源1322の出力と、頭部伝達関数1331とから算出されたヘッドホン出力1342を記憶するテーブルを有する。なお、図13Bでは、音響データ生成テーブル1391を4つに分けて説明したが、1つのテーブルで実現されてもどのように分けて実現されてもよい。なお、リスナーの向きは、操作部422からのユーザによる入力であっても、ヘッドホンやHMDに設置されたなどの方向検知部からの検知であってもよい。
ヘッドホン出力1342は、仮想音源に対象音源を加え、かつ、対象音源の方向が明確に分離されて聴取可能となる。
(映像音響再生処理)
図14は、本実施形態に係る映像音響再生処理(S829)の手順を示すフローチャートである。図14において、図8Bと同様のステップには同じステップ番号を付して、重複する説明を省略する。
映像音響処理装置1210は、ステップS1436において、対象マイクで取得された、または、対象音響により抽出された対象音源を、仮想音響場に付加する。
本実施形態によれば、所定の対象音響の仮想音源を付加して視聴者の注目を誘導するので、視聴者が興味のある映像方向を容易に視聴することができる。なお、本実施形態において、付加する所定の対象音響の仮想音源は、2つ以下のチャンネルで取得した音響情報から生成された擬似的な3次元音響空間によるものに限定されず、バイノーラルステレオ音響として取得された音響情報であっても、アンビソニックス音源による音響情報であってもよい。
[第5実施形態]
次に、本発明の第5実施形態に係る音響処理装置を含む映像音響処理システムについて説明する。本実施形態に係る映像音響処理システムは、上記第2実施形態乃至第4実施形態と比べると、ユーザを誘導する誘導方向からの音響を付加して出力する点で異なる。その他の構成および動作は、第2実施形態から第4実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
《映像音響処理システム》
図15Aおよび図15Bを参照して、本実施形態の音響処理装置を含む映像音響処理システムの構成および動作について説明する。なお、以下の実施形態において、音響処理装置は各映像音響処理装置内の音響処理部に相当する。
(概要)
図15Aは、本実施形態に係る音響処理部を含む映像音響処理システムの動作概要を示す図である。
図15Aの左図は、展示会場や会社1500の平面構成図である。視聴者1570は、展示会場や会社1500内を破線矢印の順で移動するように設定されているとする。図15Aの右下図は、視聴者1570が展示会場や会社1500内の地点Aに来た場合の、全周映像1591および誘導音響1581,1582の概要を示す図である。また、図15Aの右上図は、視聴者1570が展示会場や会社1500内の地点Bに来た場合の、全周映像1592および誘導音響1583の概要を示す図である。
図15Aの右下図のA地点において、視聴者1570が進行前方を向いている場合、全周映像1591から選択された前方画面1510aが表示されている。その時に、左後方からの誘導音響1581(“こっちに…が見えます”)がHMD1571に提供される。視聴者1570は全周映像1591から選択された左後方の画面1510bを視聴する。なお、左後方の画面1510bが選択された場合に、画面1510bを説明する音響が再生されもよい。その後、左側から誘導音響1582(“こちらの奥に…が展示されています”)がHMD1571に提供される。視聴者1570は全周映像1591から選択された左側の画面1510cを視聴して、誘導音響1582に従って、左奥に進む。なお、左側の画面1510cが選択された場合に、画面1510cの奥に有る展示物を説明する音響が再生されもよい。
図15Aの右上図のB地点において、視聴者1570が進行前方を向いている場合、全周映像1592から選択された前方画面1510dが表示されている。その時に、右側からの誘導音響1583(“…はこちらです”)がHMD1571に提供される。視聴者1570は全周映像1592から選択された右側の画面1510eを視聴する。なお、左側の画面1510eが選択された場合に、画面1510eを説明する音響が再生されもよい。
なお、図15Aにおいては、全周映像1591および1592と誘導音響1581〜1583について示したが、例えば、ビデオシースルーHMDを使用する場合には、全周映像1591および1592はビデオシースルーHMDを透過した実空間であってもよい。
(動作シーケンス)
図15Bは、本実施形態に係る音響処理部を含む映像音響処理システムの動作手順を示すシーケンス図である。なお、図15Bにおいて、図3と同様のステップには同じステップ番号を付して、重複する説明を省略する。
映像音響配信サーバ1520は、ステップS1527において、全周映像音響情報と共に、視聴者を誘導する音響データを付加する付加条件と、付加する音響データとを対応付けた音響情報を送信する。
映像音響配信サーバ220は、オプションとして、ステップS1534において、映像音響処理装置1510からの視聴方向の情報に対応して、視聴者を誘導する音響データを映像音響処理装置1510に送信する。なお、視聴者を誘導する音響データを映像音響処理装置1510があらかじめ保持している場合、ステップS1534はなくてよい。
映像音響処理装置1510は、ステップS1533において、視聴者の視聴方向の視聴映像が付加条件と合致するかを判定し、合致すれば視聴者を誘導する音響データを取得する。そして、映像音響処理装置1510は、ステップS1534において、映像音響配信サーバ1520から受信した視聴者を誘導する音響データ、または、自機内に保持している視聴者を誘導する音響データを、ステップS331で再生された音響データに付加する。
なお、上記シーケンスでは、あらかじめ視聴者を誘導する音響データを映像音響処理装置1510に保持したが、映像音響処理装置1510が付加条件を満たしたと判定した場合に、映像音響配信サーバ1520から取得してもよい。その場合、映像音響配信サーバ1520は、オプションとして、ステップS1533の代わりに、映像音響処理装置1510からの視聴方向の情報を映像音響配信サーバ1520に通知し、それに応答して映像音響配信サーバ1520が視聴者を誘導する音響データを映像音響処理装置1510に送信する。
《映像音響処理装置の機能構成》
図16Aは、本実施形態に係る音響処理部1511を含む映像音響処理装置1510の機能構成を示すブロック図である。図16Aにおいて、図4と同様の機能構成部には同じ参照番号を付して、重複する説明を省略する。
映像音響処理装置1510においては、頭部伝達関数取得部406と、頭部伝達関数データベース410と、音響データ生成部1609と、誘導音響データベース1631と、誘導音響付加部1632とが、音響処理部1511を形成するが、これに限定されるものではない。
誘導音響データベース1631は、誘導音響を付加する条件に対応して付加すべき誘導音響データを格納する。誘導音響付加部1632は、誘導音響を付加する条件を満たした場合に、対応する誘導音響を提供する。音響データ生成部1609は、音響データ生成テーブル1691を有し、マイクロホンにより取得した音響データに、誘導音響データベース1631に格納された音響データを視聴者の所定方向に付加した音響データを生成する。
(誘導音響データベースおよび音響データ生成テーブル)
図16Bは、本実施形態に係る誘導音響データベース1631および音響データ生成部1609の音響データ生成テーブル1691の構成を示す図である。図16Aにおいて、図5Cと同様の構成要素は、重複する図示および説明を省略する。すなわち、図16Bにおける音響データ生成テーブル1691は、図5Cの音響データ生成テーブル491に追加されるテーブルである。
誘導音響データベース1631は、誘導音響ID1611に対応付けて、誘導音源の付加条件1612と、付加条件1612が満たされた場合に付加される付加誘導音源1613と、を記憶する。付加条件1612には、例えば、映像のフレーム番号、フレーム特徴量、対象画像の特徴量、または、対象音響の特徴量などが含まれる。すなわち、誘導音源付加を必要とする状況を表す特徴を判定すればよい。また、付加誘導音源1613には、誘導する音響データ(出力Zi)と音響データに対応する音響を出力する仮想音源位置(xi,yi,zi)とが含まれる。
音響データ生成テーブル1691は、誘導音響の仮想音源1621の位置と、仮想リスナー523の位置および向きとに基づいて算出した、リスナーからの相対誘導仮想音源位置1624とを記憶するテーブルを有する。なお、相対誘導仮想音源位置1624を付加した、頭部伝達関数データベース410からの頭部伝達関数の検索、および、ヘッドホン出力の算出については、図13Bに準じて算出できるので、説明を省略する。
(映像音響再生処理)
図17は、本実施形態に係る映像音響再生処理(S829)の手順を示すフローチャートである。なお、図17において、図8Bと同様のステップには同じステップ番号を付して、重複する説明を省略する。
映像音響処理装置1510は、ステップS1735において、誘導音響付加条件を満たしているか否かを判定する。誘導音響付加条件を満たしていれば、映像音響処理装置1510は、ステップS1736において、誘導音響を視聴者の所定方向に付加する。
本実施形態によれば、上記実施形態の効果に加え、付加された音響の方向に視聴者を誘導することができる。なお、本実施形態において、付加する所定の対象音響の仮想音源は、2つ以下のチャンネルで取得した音響情報から生成された擬似的な3次元音響空間によるものに限定されず、バイノーラルステレオ音響として取得された音響情報であっても、アンビソニックス音源による音響情報であってもよい。
また、本実施形態においては、付加条件を満たせば誘導音響を付加する例を説明したが、例えば、付加条件を満たしても既に視聴者が目標映像を視聴している場合には、誘導音響の再生を中止するように構成してもよい。また、本実施形態においては、映像および音響の取得時に存在しない付加音響として誘導音響を例に説明したが、映像および音響の取得時に存在しない他の音響を付加することもできる。
例えば、追加音声の音源位置を常に視聴者の正面や上方などに固定すれば、注意事項やナレーションが、どちらを向いても常に正面から聞こえる。また、音源位置を真後ろに固定し、存在しない誰かの声がずっと後ろから聞こえる、等の使い方も可能である。かかる構成によれば、視聴者の向きにかかわらず一定の方向から音声が聞こえるので、視線方向で変化しない安定した音声内容が求められる場合に効果的である。
[第6実施形態]
次に、本発明の第6実施形態に係る音響処理装置を含む映像音響処理システムについて説明する。本実施形態に係る映像音響処理システムは、上記第2実施形態乃至第5実施形態と比べると、音響出力がヘッドホンやイヤホンでなくスピーカである点で異なる。その他の構成および動作は、第2実施形態から第5実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
(音響データ生成部の機能構成)
図18は、本実施形態に係る映像音響処理装置の音響データ生成部1809の機能構成を示すブロック図である。図18において、図5Aと同様の構成要素には同じ参照番号を付して、重複する説明を省略する。
音響データ生成部1809は、頭部伝達関数から算出された関数を畳み込む演算部1803〜1806と、減算部1807および1808と、を備える。演算部1803〜1806は、(HRTFlL・HRTFrR−HRTFlR・HRTFrL)で除算した、各頭部伝達関数が畳み込まれる。そして、減算部1807および1808は、ヘッドホンやイヤホンでは起こらない、スピーカ1811によるクロストークを取り除く働きをする。このように、本実施形態で生成された音響データは、音響データ加工部によってスピーカ用の音響出力に加工される。
本実施形態によれば、スピーカによる複数視聴者の視聴においても、音響の方向を、全周映像において視聴者が視聴する映像の方向と対応させることができる。
[第7実施形態]
次に、本発明の第7実施形態に係る音響処理装置を含む映像音響処理システムについて説明する。本実施形態に係る映像音響処理システムは、上記第2実施形態乃至第6実施形態と比べると、クラウドサーバとしての映像音響配信サーバが視聴方向の全周映像および音響再生を行う点で異なる。その他の構成および動作は、第2実施形態から第6実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
《映像音響処理システムの動作手順》
図19は、本実施形態に係る映像音響配信サーバ1920を含む映像処音響理システムの動作手順を示すシーケンス図である。図19において、図3と同様のステップには同じステップ番号を付して、重複する説明を省略する。
映像音響配信サーバ1920は、ステップS1627において、視聴者が所望の全周映像データおよび音響データを選択する。
そして、映像音響配信サーバ1920のステップS1929〜S1935においては、図3において映像音響処理装置210が実行していたステップS329〜S335が実行される。
映像音響配信サーバ1920は、ステップS1937において、生成された視線方向の映像データと聴取方向の2チャンネル音響データとを映像音響処理装置1910に送信する。
本実施形態によれば、携帯端末の負担を軽減できるので、より多くの視聴者による音響方向を全周映像の映像方向と対応させた視聴が可能になる。
[他の実施形態]
なお、上記実施形態においては、あらかじめ測定されてモデル化あるいは標準化された頭部伝達関数を用いて処理をしたが、頭部および耳介形状などの3次元モデルを作成して、頭部伝達関数を算出しながら処理を行ってもよい。頭部伝達関数の算出としては、例えば、BEM(boundary element method)やFDTD(finite-difference time-domain)法などが知られている。
また、上記指実施形態においては、動画に含まれる音響または追加音響は頭部伝達関数を用いて聴取方向を制御したが、バイノーラルステレオ音響として取得された場合は、頭部伝達関数の処理を省略しても映像の視線方向と音響の聴取方向とを対応付けた再生が可能となる。この場合には、より簡単な構成によって付加音響や誘導音響の聴取方向を設定した追加をすることができる。
また、上記実施形態においては、映像として、本発明による効果が著しい全周映像と音響との同期について説明したが、映像は全周映像に限定されるものではない。
さらに、本発明の擬似的な3次元音響空間の形成方法は、映像と同期させる適用に限定されずに、他の情報との同期や音響単独での使用においても、同様の効果を奏する。例えば、聴取方向の変化に連動するコンテンツ(例えば空間音声ラジオのようなもの等)に対しても適用され、同様の効果を奏する。また、ドーム/プラネタリウム投影(または、ユーザを囲むように複数ディスプレイを配置した多面ディスプレイ)での多人数同時視聴への対応も可能である。すなわち、ユーザの向きとは連動しない通常のドーム映像を視ながら、各ユーザ側端末で向きと連動する音声のみを再生する構成であり、同様の効果を奏する。
また、[第4実施形態]の付加音響処理や[第5実施形態]の誘導音響処理を映像再生と関連付けずに音響単独で実施することも可能である。この場合は、図13Aの音響処理部1211のみでの処理、図16Aの音響処理部1511のみでの処理で実現される。かかる音響単独の処理は、上記ドーム/プラネタリウム投影に適用できるし、例えば、ヘッドホンで音響を聞いて街中を歩いている時に、行き先への音声ナビや近くの店の音声紹介を提供する処理などにも適用でき、同様の効果を奏する。この場合、GPS方式などによる位置検出を組み合わせてもよい。これらの適用例において、2チャンネル音源は、2つ以下のチャンネルで取得した音響情報から生成された擬似的な3次元音響空間によるものに限定されず、バイノーラルステレオ音響として取得された音響情報であっても、アンビソニックス音源による音響情報であってもよい。
さらに、本実施形態の音響処理を全周映像ではない通常の映像コンテンツと組み合わせれば、広く普及しているスマートフォン端末を用いて、例えば移動中の電車内であっても、高価なホームシアター・サラウンドシステムと同様の効果を得ることができる。また、同様に、本実施形態の音響処理は、目の前だけではなく左右にも人がいるように感じられる遠隔会議システムにも応用可能である。また、本実施形態の付加音響処理や誘導音響処理は、注意を向けるべき方向から警告音等を鳴らすことができるため、航空機や自動車の操縦・運転操作や、工場・発電所の制御操作等、各種の操作支援システムやトレーニングシステムにも応用可能である。また、同様に、本実施形態の付加音響処理や誘導音響処理は、より一般的な教育システムやトレーニングシステムにも応用可能である。
また、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する音響処理プログラムを含む情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。特に、少なくとも、上述した実施形態に含まれる処理ステップをコンピュータに実行させるプログラムを格納した非一時的コンピュータ可読媒体(non-transitory computer readable medium)は本発明の範疇に含まれる。

Claims (14)

  1. 響情報を取得する音響情報取得手段と、
    取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に3次元音響空間を形成する前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成手段と、
    を備え
    前記音響データ生成手段は、特定の対象を音源とする音響情報を前記音源の位置に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第1音響データ付加手段を有する音響処理装置。
  2. 前記音響データ生成手段は、マイクロホンにより取得した音響情報から前記特定の対象を音源とする音響情報を抽出して、前記音源の位置に対応付ける音響情報抽出手段をさらに有する請求項1に記載の音響処理装置。
  3. 前記音響データ生成手段は、前記聴取者を誘導する音響情報を誘導方向に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第2音響データ付加手段を有する請求項1または2に記載の音響処理装置。
  4. 記音響情報は、3つ以上のマイクロホンから入力された音響情報をミックスダウンして生成される2つ以下のチャンネルの音響情報である請求項1乃至3のいずれか1項に記載の音響処理装置。
  5. 前記聴取者に対応して適切な頭部伝達関数を選択する頭部伝達関数選択手段をさらに備える請求項1乃至4のいずれか1項に記載の音響処理装置。
  6. 前記頭部伝達関数選択手段は、
    前記頭部伝達関数に影響を及ぼす前記聴取者の特徴を取得する特徴取得手段と、
    前記聴取者の特徴に対応して適切な頭部伝達関数を取得する頭部伝達関数取得手段と、
    をさらに備える請求項に記載の音響処理装置。
  7. 前記音響データ生成手段が生成した前記音響データを、ヘッドホン用、イヤホン用またはスピーカ用に加工する音響データ加工手段をさらに備える請求項1乃至のいずれか1項に記載の音響処理装置。
  8. 響情報を取得する音響情報取得ステップと、
    取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に3次元音響空間を形成するための、前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成ステップと、
    をコンピュータに実行させる音響処理プログラムであって、
    前記音響データ生成ステップは、特定の対象を音源とする音響情報を前記音源の位置に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第1音響データ付加ステップを有する音響処理プログラム。
  9. 音響情報を取得する音響情報取得手段と、
    取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に3次元音響空間を形成する前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成手段と、
    全周カメラにより取得した映像情報を受信して、視聴者の視聴方向に対応する映像データを生成する映像データ生成手段と、
    前記映像データ生成手段により生成された前記視聴方向に対応する映像データにおける視線方向と、前記音響データ生成手段により生成された前記音響データにおける聴取方向とを対応付けて出力するよう制御する出力制御手段と、
    を備え
    前記音響データ生成手段は、特定の対象を音源とする音響情報を前記特定の対象の映像情報の位置に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第1音響データ付加手段を有する映像音響処理装置。
  10. 前記音響データ生成手段は、マイクロホンにより取得した音響情報から前記特定の対象を音源とする音響情報を抽出して、前記特定の対象の映像情報の位置に対応付ける音響情報抽出手段をさらに有する請求項に記載の映像音響処理装置。
  11. 前記音響データ生成手段は、前記視聴者を誘導する音響情報を誘導方向に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第2音響データ付加手段を有する請求項9または10に記載の映像音響処理装置。
  12. 音響情報を取得する音響情報取得ステップと、
    取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に3次元音響空間を形成するための、前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成ステップと、
    全周カメラにより取得した映像情報を受信して、視聴者の視聴方向に対応する映像データを生成する映像データ生成ステップと、
    前記映像データ生成ステップにおいて生成された前記視聴方向に対応する映像データにおける視線方向と、前記音響データ生成ステップにおいて生成された前記音響データにおける聴取方向とを対応付けて出力するよう制御する出力制御ステップと、
    をコンピュータに実行させる映像音響処理プログラムであって、
    前記音響データ生成ステップは、特定の対象を音源とする音響情報を前記特定の対象の映像情報の位置に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第1音響データ付加ステップを有する映像音響処理プログラム。
  13. 音響情報を取得する音響情報取得手段と、
    取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に3次元音響空間を形成する前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成手段と、
    全周カメラにより取得した映像情報を受信して、視聴者の視聴方向に対応する映像データを生成する映像データ生成手段と、
    前記映像データ生成手段により生成された前記視聴方向に対応する映像データにおける視線方向と、前記音響データ生成手段により生成された前記音響データにおける聴取方向とを対応付けて、前記映像データおよび前記音響データを送信する送信手段と、
    を備え、
    前記音響データ生成手段は、特定の対象を音源とする音響情報を前記特定の対象の映像情報の位置に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第1音響データ付加手段を有する映像音響配信サーバ。
  14. 音響情報を取得する音響情報取得ステップと、
    取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に3次元音響空間を形成するための、前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成ステップと、
    全周カメラにより取得した映像情報を受信して、視聴者の視聴方向に対応する映像データを生成する映像データ生成ステップと、
    前記映像データ生成ステップにおいて生成された前記視聴方向に対応する映像データにおける視線方向と、前記音響データ生成ステップにおいて生成された前記音響データにおける聴取方向とを対応付けて、前記映像データおよび前記音響データを送信する送信ステップと、
    をコンピュータに実行させる映像音響配信プログラムであって、
    前記音響データ生成ステップは、特定の対象を音源とする音響情報を前記特定の対象の映像情報の位置に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第1音響データ付加ステップを有する映像音響配信プログラム。
JP2018038146A 2018-03-05 2018-03-05 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム Active JP6431225B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018038146A JP6431225B1 (ja) 2018-03-05 2018-03-05 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018038146A JP6431225B1 (ja) 2018-03-05 2018-03-05 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム

Publications (2)

Publication Number Publication Date
JP6431225B1 true JP6431225B1 (ja) 2018-11-28
JP2019153943A JP2019153943A (ja) 2019-09-12

Family

ID=64480604

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018038146A Active JP6431225B1 (ja) 2018-03-05 2018-03-05 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム

Country Status (1)

Country Link
JP (1) JP6431225B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220078338A1 (en) * 2018-12-28 2022-03-10 Sony Group Corporation Information processing apparatus, information processing method, and information processing program
US12126895B2 (en) * 2018-12-28 2024-10-22 Sony Group Corporation Side-view head and ear image capturing for head related transfer functions

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005530647A (ja) * 2002-06-04 2005-10-13 エルビット・システムズ・リミテッド オーディオ画像処理分野のための方法とシステム
US20090116652A1 (en) * 2007-11-01 2009-05-07 Nokia Corporation Focusing on a Portion of an Audio Scene for an Audio Signal
US20110164768A1 (en) * 2010-01-06 2011-07-07 Honeywell International Inc. Acoustic user interface system and method for providing spatial location data
JP2012525051A (ja) * 2009-04-21 2012-10-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号の合成
US20130236040A1 (en) * 2012-03-08 2013-09-12 Disney Enterprises, Inc. Augmented reality (ar) audio with position and action triggered virtual sound effects
JP2014127936A (ja) * 2012-12-27 2014-07-07 Denso Corp 音像定位装置、及び、プログラム
JP2016503635A (ja) * 2012-12-04 2016-02-04 サムスン エレクトロニクス カンパニー リミテッド オーディオ提供装置及びオーディオ提供方法
JP2016508617A (ja) * 2013-01-22 2016-03-22 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 隠しオブジェクトを信号混合操作に使用する空間オーディオオブジェクト符号化の装置及び方法
JP2018019295A (ja) * 2016-07-28 2018-02-01 キヤノン株式会社 情報処理システム及びその制御方法、コンピュータプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005530647A (ja) * 2002-06-04 2005-10-13 エルビット・システムズ・リミテッド オーディオ画像処理分野のための方法とシステム
US20090116652A1 (en) * 2007-11-01 2009-05-07 Nokia Corporation Focusing on a Portion of an Audio Scene for an Audio Signal
JP2012525051A (ja) * 2009-04-21 2012-10-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号の合成
US20110164768A1 (en) * 2010-01-06 2011-07-07 Honeywell International Inc. Acoustic user interface system and method for providing spatial location data
US20130236040A1 (en) * 2012-03-08 2013-09-12 Disney Enterprises, Inc. Augmented reality (ar) audio with position and action triggered virtual sound effects
JP2016503635A (ja) * 2012-12-04 2016-02-04 サムスン エレクトロニクス カンパニー リミテッド オーディオ提供装置及びオーディオ提供方法
JP2014127936A (ja) * 2012-12-27 2014-07-07 Denso Corp 音像定位装置、及び、プログラム
JP2016508617A (ja) * 2013-01-22 2016-03-22 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 隠しオブジェクトを信号混合操作に使用する空間オーディオオブジェクト符号化の装置及び方法
JP2018019295A (ja) * 2016-07-28 2018-02-01 キヤノン株式会社 情報処理システム及びその制御方法、コンピュータプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鈴木 陽一 YOITI SUZUKI: "高精度仮想聴覚ディスプレイの構築とその視覚障害者応用 Development of high-performance virtual audito", 電子情報通信学会技術研究報告 IEICE TECHNICAL REPORT, vol. 105, no. 186, JPN6018040530, 7 July 2005 (2005-07-07), JP, pages 73 - 81 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220078338A1 (en) * 2018-12-28 2022-03-10 Sony Group Corporation Information processing apparatus, information processing method, and information processing program
US12126895B2 (en) * 2018-12-28 2024-10-22 Sony Group Corporation Side-view head and ear image capturing for head related transfer functions

Also Published As

Publication number Publication date
JP2019153943A (ja) 2019-09-12

Similar Documents

Publication Publication Date Title
CN110337318B (zh) 混合现实装置中的虚拟和真实对象记录
CN111466124B (zh) 用于渲染用户的视听记录的方法,处理器系统和计算机可读介质
CN107103801B (zh) 远程三维场景互动教学系统及控制方法
JP6565903B2 (ja) 情報再生装置及び情報再生方法
US11055057B2 (en) Apparatus and associated methods in the field of virtual reality
JP5992210B2 (ja) 情報処理プログラム、情報処理装置、情報処理システム、および情報処理方法
EP3363212A1 (en) Distributed audio capture and mixing
US20150189455A1 (en) Transformation of multiple sound fields to generate a transformed reproduced sound field including modified reproductions of the multiple sound fields
JP2016025469A (ja) 収音再生システム、収音再生装置、収音再生方法、収音再生プログラム、収音システム及び再生システム
JP6410769B2 (ja) 情報処理システム及びその制御方法、コンピュータプログラム
US10664128B2 (en) Information processing apparatus, configured to generate an audio signal corresponding to a virtual viewpoint image, information processing system, information processing method, and non-transitory computer-readable storage medium
CN112272817B (zh) 用于在沉浸式现实中提供音频内容的方法和装置
CN115428032A (zh) 信息处理装置、信息处理方法和程序
CN115777203A (zh) 信息处理装置、输出控制方法和程序
JP7457525B2 (ja) 受信装置、コンテンツ伝送システム、及びプログラム
JP6431225B1 (ja) 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム
JP2018019295A (ja) 情報処理システム及びその制御方法、コンピュータプログラム
JP2018191127A (ja) 信号生成装置、信号生成方法およびプログラム
KR101747800B1 (ko) 입체음향 생성 장치 및 이를 이용한 입체 컨텐츠 생성 시스템
JP6664456B2 (ja) 情報処理システム及びその制御方法、コンピュータプログラム
JP2018152834A (ja) 仮想聴覚環境において音声信号出力を制御する方法及び装置
JP2017079457A (ja) 携帯情報端末、情報処理装置、及びプログラム
JP2017184154A (ja) 収音再生装置、収音再生プログラム、収音装置及び再生装置
Reddy et al. On the development of a dynamic virtual reality system using audio and visual scenes
KR101674187B1 (ko) 광대역 보간법을 위한 입체음향 획득 장치 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180309

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180309

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20180310

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181101

R150 Certificate of patent or registration of utility model

Ref document number: 6431225

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150