JP6292040B2 - 音声処理装置、音源位置制御方法及び音源位置制御プログラム - Google Patents

音声処理装置、音源位置制御方法及び音源位置制御プログラム Download PDF

Info

Publication number
JP6292040B2
JP6292040B2 JP2014120015A JP2014120015A JP6292040B2 JP 6292040 B2 JP6292040 B2 JP 6292040B2 JP 2014120015 A JP2014120015 A JP 2014120015A JP 2014120015 A JP2014120015 A JP 2014120015A JP 6292040 B2 JP6292040 B2 JP 6292040B2
Authority
JP
Japan
Prior art keywords
head
related transfer
sound source
transfer function
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014120015A
Other languages
English (en)
Other versions
JP2015233252A (ja
Inventor
桂樹 岡林
桂樹 岡林
純也 藤本
純也 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014120015A priority Critical patent/JP6292040B2/ja
Publication of JP2015233252A publication Critical patent/JP2015233252A/ja
Application granted granted Critical
Publication of JP6292040B2 publication Critical patent/JP6292040B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Stereophonic System (AREA)

Description

本発明は、音声処理装置、音源位置制御方法及び音源位置制御プログラムに関する。
従来から、人物の頭部の動きを検出し、音源から耳に至るまでの音の伝達特性を示す頭部伝達関数(Head-Related Transfer Function, HRTF)を用いて、頭部の動きに連動して音像をリアルタイムに定位させる技術が開示されている。従来例では、ユーザの頭部に装着されるヘッドフォンに仮想音源の音声信号に応じた再生音を発生させるシステムを採用している。
特開2010−41425号公報
しかし、従来例では、頭部の姿勢変位として、例えば顔の向きを変えることによる頭部の回転速度が速くなればなるほど、音像を所定の位置に定位させるための応答性が悪くなりやすくなる。そのため、従来例では、ユーザにとって聴覚に違和感を覚えやすくなるおそれが生じる。
そこで、本発明の1つの側面では、頭部の回転運動等の姿勢変位に応じて、聴覚の違和感を抑制する適切な音声信号を生成することを目的とする。
本発明の1つの側面によれば、人物の頭部の動きを示す角速度と顔の向きとを含む姿勢データを取得し、人物の周囲に仮想的に配置される仮想音源による音像を定位するための頭部伝達関数を複数記憶した記憶部を参照し、聴取り対象の仮想音源の位置と顔の向きとに応じて、第1の頭部伝達関数を選択し、動きが生じたときに、動きに伴う仮想音源の変位を抑制する第2の頭部伝達関数を選択する。そして、第1の頭部伝達関数のデータと第2の頭部伝達関数のデータとを、角速度に応じて重み付けして合成し、合成された頭部伝達関数のデータと、予め記憶された再生用の音声データとに基づいて、仮想音源の音声信号を生成する。
本発明の1つの側面によれば、頭部の回転運動等の姿勢変位に応じて、聴覚の違和感を抑制する適切な音声信号を生成できる。
第1実施形態における音源位置制御システムの構成の一例を示す説明図である。 第1実施形態で適用する頭部伝達関数の一例を示す説明図である。 図1に示すHRTFテーブルのデータ構造の一例を示す説明図である。 図1に示す音声ファイルテーブルのデータ構造の一例を示す説明図である。 図1に示す携帯端末のハードウェア構成の一例を示すブロック図である。 図1に示す携帯端末及びヘッドフォンの外観構成の一例を示す図である。 図1に示す音源位置制御システムの処理の一例を示す説明図である。 第1実施形態における音源位置制御プログラムの動作の一例を示すフローチャートである。 第1実施形態における音源位置制御プログラムの処理ブロック図である。 第1実施形態における角速度と配分比との関係の一例を示すグラフである。 第1実施形態における音声信号処理部の処理の一例を示す説明図である。 聴取り対象の仮想音源が、HRTFテーブルに記憶されている頭部伝達関数の定位角の示す方位に存在しない場合の適用例についての説明図である。 第2実施形態の一例を示す説明図である。 頭部の角速度の経時変化の一例を示すグラフである。 図14で例示した角速度の変化に基づく、頭部の回転に対する応答性の一例を示すグラフである。 図15A〜図15Dをまとめて例示したグラフである。 第3実施形態における頭部の回転の方向を例示する説明図である。 第3実施形態におけるロール角を適用した頭部伝達関数の一例を示す説明図である。 第3実施形態におけるピッチ角を適用した頭部伝達関数の一例を示す説明図である。
以下、図面に基づいて、本件に開示する実施形態について詳細に説明する。先ず、一の実施形態における音声処理装置、音源位置制御方法及び音源位置制御プログラムの一例について説明する。この音声処理装置には、一の実施形態における音源位置制御プログラムが格納される。ここで、音源位置制御プログラムは、頭部の回転運動等の姿勢変位に応じて、聴覚の違和感を抑制する適切な音声信号を生成する。なお、以下の実施形態では、携帯端末とヘッドフォンとを備える音源位置制御システムの適用例について説明するが、本発明がこれにより限定されるものではない。
<第1実施形態>
[音源位置制御システムの構成]
図1は、第1実施形態における音源位置制御システムの構成の一例を示す説明図である。図1に示す音源位置制御システム1は、一例として、ヘッドフォン2と携帯端末3とを備える。携帯端末3は、音声処理装置の一例である。
ヘッドフォン2は、左右の耳に装着して音を聴くための装置である。ヘッドフォン2は、頭部角速度センサ21と、出力装置22と、地磁気センサ23とを備える。この頭部角速度センサ21は、例えば、XYZ軸(3軸)方向の角速度を検出するセンサである。頭部角速度センサ21は、頭部の姿勢変位を検出するため、例えば、頭部の回転運動による角速度を検出し、その角速度のデータを携帯端末3に送信する。なお、角速度のデータは、姿勢データの一例である。出力装置22は、例えば、アナログの音声信号を増幅するスピーカである。地磁気センサ23は、例えば、電子コンパスであって、地磁気の向きを検出し、方位を算出した方位データを、携帯端末3に送信する。なお、方位データは、姿勢データの一例である。
携帯端末3は、記憶手段において、HRTFテーブル35及び音声ファイルテーブル36を備える。HRTFテーブル35は、人物の周囲に仮想的に配置される仮想音源による音像を定位するための頭部伝達関数のデータを複数有する。
図2は、第1実施形態で適用する頭部伝達関数の一例を示す説明図である。第1実施形態では、予め離散的に計測された頭部伝達関数のデータをデータベース化して利用する。図2では、説明の便宜上、一例として、東西南北の方位のうち、北の方位を基準として定位角(θ)を0度([deg])とする。この定位角は、実空間で仮想音源を仮想的に配置する方位を規定する。そして、第1実施形態では、人物Pの頭部を起点(一例として、図2に示す水平方向の円周Sの中点に相当)として円周S上に所定角度(Δθ)毎に計測された頭部伝達関数(例えばH1〜H8)を採用することで、各々の定位角の仮想音源による音像を定位することができる。なお、第1実施形態では、説明の便宜上、人物の頭部が時計回りに回転する方向を「正」の方向とし、反時計回りに回転する方向を「負」の方向とする。したがって、頭部角速度センサ21は、例えば、初期状態を基準として、頭部の動きが生じたときに、時計回りの角速度を正の値として出力し、反時計回りの角速度を、負の値として出力し、角速度が発生していない時にゼロの値を出力する。
図3は、図1に示すHRTFテーブル35のデータ構造の一例を示す説明図である。このHRTFテーブル35は、左耳、右耳用の頭部伝達関数のデータを定位角毎に格納したテーブル形式のデータであって、一例として、「定位角(θ)」、「頭部伝達関数(左耳用)」及び「頭部伝達関数(右耳用)」の列を含んでいる。ここで、図2では、45度毎の間隔で計測された頭部伝達関数について例示したが、HRTFテーブル35には、円周S上で例えば5度間隔で計測された72箇所の頭部伝達関数のデータが格納されている。なお、仮想音源の定位角360度における頭部伝達関数のデータは、仮想音源の定位角0度における頭部伝達関数のデータと重複するので、省略している。
また、音声ファイルテーブル36は、仮想音源として用いる音声データをファイル毎に管理するテーブルである。音声データは、モノラル音源のデータである。
図4は、図1に示す音声ファイルテーブル36のデータ構造の一例を示す説明図である。この音声ファイルテーブル36は、再生用の音声データを格納したテーブルであって、「ファイル名」の項目を含む。音声ファイルテーブル36には、ファイル名(File_001, File_002, File_003,・・・等)の音声データが格納されている。なお、HRTFテーブル35及び音声ファイルテーブル36の取り扱いについては、図8、図9等を用いて後述する。
図1の説明に戻り、携帯端末3は、音源位置制御プログラムが実行されることによって、音源位置制御における機能が実現される。具体的には、携帯端末3は、音源位置制御部31、HRTF合成部32、音声信号処理部33及び音声出力処理部34を備える。なお、音源位置制御部31は、制御部の一例であり、HRTF合成部32は、合成部の一例である。また、音声信号処理部33は、信号処理部の一例である。
音源位置制御部31は、姿勢データを取得し、HRTFテーブル35を参照し、聴取り対象の仮想音源の位置と顔の向きとに応じて、第1の頭部伝達関数を選択する。そして、音源位置制御部31は、動きが生じたときに、角速度に応じて、動きに伴う仮想音源の変位を抑制する第2の頭部伝達関数を選択する。
HRTF合成部32は、第1の頭部伝達関数のデータと第2の頭部伝達関数のデータとを、角速度に応じて重み付けして合成する。音声信号処理部33は、HRTF合成部32で合成された頭部伝達関数のデータと、音声ファイルテーブル36に記憶されている所定の再生用の音声データとに基づいて、仮想音源の音声信号を生成する。音声出力処理部34は、音声信号に基づいて、デジタル音声信号をアナログ音声信号に変換(D/A変換:Digital to Analog converter)して仮想音源の音を出力する。これらの各部31〜34の処理の詳細については、図8、図9等を用いて後述する。
[音声処理装置のハードウェア構成]
次に、音声処理装置の主なハードウェア構成について説明する。本件開示の音声処理装置は、例えば、携帯端末3であって、コンピュータを用いて実現できる。
図5は、図1に示す携帯端末3のハードウェア構成の一例を示すブロック図である。図5では、図1に示す音声処理装置1の携帯端末3として機能するコンピュータのハードウェア構成の一例を示す。コンピュータは、プロセッサ4、ストレージ5、メモリ6、駆動装置7、入力装置8、通信インターフェース9、表示装置10、オーディオ・インターフェース11及びバス12を備える。プロセッサ4、ストレージ5、メモリ6、駆動装置7、入力装置8、通信インターフェース9、表示装置10及びオーディオ・インターフェース11は、バス12を介して、互いに接続されている。
プロセッサ4は、携帯端末3の統括的な制御を実行するものである。具体的には、プロセッサ4は、制御ユニット、演算ユニット、実行ユニット及び命令デコーダ等を含み、実行ユニットが、命令デコーダで解読されたプログラムの命令に従い、制御ユニットより出力される制御信号に応じ、演算ユニットを用いて算術・論理演算を実行する。なお、プロセッサ4は、CPU(Central Processing Unit)コアが複数設けられているコアプロセッサの構成であってもよい。
また、ストレージ5は、例えば、HDD(Hard Disk Drive)やフラッシュメモリ等の記憶装置であり、プログラムや各種データが格納される。また、ストレージ5には、HRTFテーブル35、音声ファイルテーブル36が格納されている。
メモリ6は、例えば、RAM(Random Access Memory)等の記憶装置であり、プロセッサ4で実行されるプログラムがロードされると共に、プロセッサ4の処理に用いるデータが格納されるメインメモリである。メモリ6には、プロセッサ4がプログラムを実行する際の作業メモリやバッファメモリ等を備える。
駆動装置7は、可搬型の記憶媒体13に記憶されたデータやプログラムを読み出す装置である。記憶媒体13は、例えば、USB(Universal Serial Bus)メモリ又は半導体メモリ(フラッシュメモリ等)を採用したメモリカード等の可搬型の記憶媒体である。
入力装置8は、例えば、タッチパネル方式の入力デバイスである。通信インターフェース9は、例えば、無線又は有線でのデータ通信を行うための通信インターフェースを具備する。一例として、通信インターフェース9は、携帯端末3から送信されてくる角速度のデータや方位データ等の姿勢データを受信して、メモリ6に一時的に格納する。これにより、音源位置制御部31は、最新の姿勢データを取得することができる。表示装置10は、例えば、液晶モニタであって、プロセッサ4の指示に応じて、操作用のメニュー画面や出力結果を表示する。
オーディオ・インターフェース11は、音声信号の変換処理の機能を有し、例えば、音声出力処理部34により出力されたデジタル音声信号をアナログ音声信号に変換(D/A変換)し、そのアナログ音声信号をヘッドフォン2に出力する。バス12は、例えば、データバス、アドレスバス及びコントロールバスの3系統のバスを含む。
なお、プロセッサ4が実行するプログラムや、アクセス対象となるデータは、携帯端末3と通信可能な他の装置に格納されていてもよい。また、携帯端末3の記憶手段とは、メモリ6、ストレージ5、記憶媒体13又は携帯端末3との間で通信可能な他の装置の少なくとも何れかを示す。
また、図5に例示した携帯端末3は、プロセッサ4、ストレージ5、メモリ6等のハードウェアと、オペレーティング・システムやアプリケーション・プログラム等のプログラムとが協働することにより、各種機能を実現する。このアプリケーション・プログラムには、音源位置制御プログラムが含まれる。したがって、図1に示した音源位置制御部31、HRTF合成部32、音声信号処理部33及び音声出力処理部34は、プロセッサ4が音源位置制御プログラムを実行することにより機能を実現する。
[携帯端末及びヘッドフォンの外観構成]
次に、第1実施形態における携帯端末3及びヘッドフォン2の外観構成について、説明する。
図6は、図1に示す携帯端末3及びヘッドフォン2の外観構成の一例を示す図である。ヘッドフォン2は、左耳用のスピーカ22L、右耳用のスピーカ22R、人物がヘッドフォン2を装着するためのヘッドバンド24及びセンサ格納部25を備える。左耳用のスピーカ22L及び右耳用のスピーカ22Rは、通信ケーブル26内の音声用の通信回線を介して、携帯端末3のオーディオ・インターフェース11と電気的に接続される。なお、左耳用のスピーカ22L及び右耳用のスピーカ22Rは、オーディオ・インターフェース11と、無線通信を介して電気的に接続してもよい。
また、センサ格納部25は、ヘッドバンド24上に設置され、図1に示す頭部角速度センサ21及び地磁気センサ23を格納している。頭部角速度センサ21及び地磁気センサ23は、通信ケーブル26内のセンサ用の通信回線を介して、携帯端末3の通信インターフェース9と電気的に接続される。なお、これらのセンサと通信インターフェース9とは、無線通信を介して電気的に接続してもよい。また、センサ格納部25は、ヘッドフォン2の内部に設けられてもよい。
携帯端末3は、例えば、可搬性のタブレット型のコンピュータ機器であって、音声や音楽等の音を再生する機能を有している。携帯端末3は、例えば、液晶画面の表示装置10を備える。なお、携帯端末3は、タブレット型のコンピュータ機器に限られず、フラッシュメモリ等に音声を記録(録音)し、音声を再生する電子機器(digital voice recorder)であってもよい。また、携帯端末3は、通話の機能をさらに備えた携帯電話に適用してもよい。
[音源位置制御システムの処理の概要]
次に、第1実施形態における音源位置制御システム1の処理における概要について説明する。ここで、携帯端末3が音源位置制御プログラムの処理を実行することで、第1実施形態における音源位置制御方法が実現される。
図7は、図1に示す音源位置制御システム1の処理の一例を示す説明図である。
ここで、説明をわかりやすくするため、図2に例示した頭部伝達関数を用いる。図7Aは、初期状態を示している。図7Aに示す通り、人物(聴取者)Pは、静止して、ヘッドフォン2を介して、例えば、図2に示す頭部伝達関数H1(定位角θ1=0度)が畳み込まれた音声ファイルのデータを聴いていることとする。この際、人物Pは、定位角θ1=0度の方位に仮想的に配置される仮想音源VS1から音が聴こえてくるように感じる。
図7Bは、第1実施形態の音源位置制御プログラムを適用しない場合における、人物Pの頭部の回転運動に伴う仮想音源VS1の変位の一例を示している。この場合、最初に選択した頭部伝達関数のみが用いられる。ここで、人物Pの頭部が反時計回りに向けていくに従って、図7Bに示す通り、例えば、頭部伝達関数の特性に応じて仮想音源VS1も変位する。すると、上述した通り、ユーザ(例えば人物P)は、頭部を回転させている最中に聴覚に違和感を覚えやすくなるおそれが生じる。そこで、第1実施形態の音源位置制御プログラムを適用することで、音源位置制御システム1では、図7Cに示すように、頭部の動きに起因する姿勢変位に応じて、聴覚の違和感を抑制する適切な音声信号を生成させる。
図7Cは、第1実施形態の音源位置制御プログラムを適用した場合における、人物Pの頭部の回転運動に伴う仮想音源VS1の変位の一例を示している。
図1に示す携帯端末3の音源位置制御部31は、人物Pの現在の姿勢での頭部伝達関数H1に加えて、頭部の動きが生じたときに、角速度に応じて、その動きに伴う仮想音源の変位を抑制するフィードバック用の頭部伝達関数H2を選択する。
そして、携帯端末3のHRTF合成部32は、頭部伝達関数H1のデータと頭部伝達関数H2のデータとを、角速度に応じて重み付けして合成する。ここで、HRTF合成部32は、角速度に応じて算出される配分比に基づいて、頭部伝達関数H1のデータと頭部伝達関数H2のデータとを合成する。詳細については、図10等を用いて後述する。音声信号処理部33は、HRTF合成部32で合成された頭部伝達関数のデータと、音声ファイルテーブル36の再生対象の音声データとに基づいて、仮想音源VS1の音声信号を生成する。音声出力処理部34は、音声信号に基づいて、D/A変換された仮想音源の音を出力する。これにより、人物Pの頭部が回転運動中であっても、仮想音源VS1は、元の位置又はその近傍に定位し続けるので、音源位置制御システム1では、聴覚の違和感を抑制する適切な音声信号を生成できる。以下、具体的な処理について説明する。
[処理動作の説明]
次に、音源位置制御システム1における音源位置制御プログラムの動作の一例について説明する。音源位置制御プログラムは、例えば、音源位置制御処理、HRTF合成処理、音声信号処理及び音声出力処理をプロセッサ4に実行させる。
ここで、図5に示すプロセッサ4は、一例として、入力装置8を介して、図7に示す人物Pから音源位置制御プログラムの実行を示すコマンド入力を受け付ける。すると、プロセッサ4は、例えば、地磁気センサ12から方位データを取得する。そして、プロセッサ4は、人物Pが正面を向いている向きが、例えば北向きであるとき、角速度の単位時間当たりの回転を積分することにより得られる、頭部の方位を示す角度(以下、「頭部角度」という。)を、例えば0度とする。つまり、プロセッサ4は、頭部角度の初期状態の角度から、角速度のデータを積分することで、現在の頭部角度を算出し、一例として、図3に示すHRTFテーブル35の頭部伝達関数の定位角と頭部角度(顔の向き)とを対応付ける。
続いて、図1に示す音源位置制御部31は、聴取り対象の仮想音源の定位角を選択する。説明の便宜上、例えば、人物Pが、所定の仮想音源の音を聴きたい方向(図2と同様に北向き)に顔を向けていることとする。この場合、音源位置制御部31は、定位角(θ1 =0度)を選択する。
そして、プロセッサ4は、図8に示すフローチャートに従って、音源位置制御プログラムの処理を開始する。
図8は、第1実施形態における音源位置制御プログラムの動作の一例を示すフローチャートである。図9は、第1実施形態における音源位置制御プログラムの処理ブロック図である。
ステップS101:音源位置制御部31は、先ず、頭部の角速度の取得処理を行う。この際、音源位置制御部31は、携帯端末3から送信されてきた姿勢データのうち、メモリ6に格納されている最新の角速度を取得する。なお、姿勢データは、一例として、携帯端末3の電源(図示省略)がオフされるまでメモリ6に時系列に格納される。角速度は、図9に示す通り、ブロックB1の処理を行う際の入力パラメータになる。
ステップS102:頭部の角速度が検出された場合(ステップS102:Yes)、音源位置制御部31は、次に、ステップS103の処理に移行する。一方、頭部の角速度が検出されない場合(ステップS102:No)、頭部が静止状態を維持しているので、音源位置制御部31は、後述するステップS111の処理に移行する。
ステップS103:音源位置制御部31は、続いて、第1の頭部伝達関数データと第2の頭部伝達関数をミキシングして合成する際の配分比の算出処理を行う。具体的には、音源位置制御部31は、角速度に基づいて、配分比sを算出する。この配分比sは、図9に示す通り、ブロックB4、B5の処理の入力パラメータとなる。
図10は、第1実施形態における角速度と配分比との関係の一例を示すグラフである。横軸は、角速度の絶対値を示し、縦軸は、配分比を示す。絶対値で示しているのは、角速度が正負の向きを持っているためである。音源位置制御部31は、角速度が大きいほど、頭部の動きに対する応答性を向上させるため、第2の頭部伝達関数運の配分比が多くなるように決定する。ここで、配分のためのパラメータsは、頭部の角速度に比例した値とするが、上限値smaxを設ける。また、ωmax の値は、応答性を調整するためのパラメータである。図10に示すグラフの傾きαは、応答性(追従性)に影響を与える因子である。例えば、ωmax の値がより低く設定されると、図10のグラフの傾きαがその分大きくなるので応答性が良くなるが、傾きαが大きくなり過ぎると不安定になる。
一方、ωmax の値がより高く設定されると、安定性がより増す。しかし、図10のグラフの傾きαがその分小さくなるので、応答性は悪くなる。第1実施形態では、応答性を良好に保ちつつ、不安定にならないようにωmax の値を予め設定する。
音源位置制御部31は、配分比sが算出されると、現在位置での第1の頭部伝達関数と、第2の頭部伝達関数との配分を以下の式(1)で算出する。
(現在位置のゲイン):(n度のゲイン)=(1−s):s (式1)
ここで、nは、HRTFテーブル35における頭部伝達関数の定位角(θ)の間隔角度(所定角度)を示す。ゲインは、比例配分の倍率を示し、全体で1を超えないように調整される。例えば、現在位置のゲインを、定位角(θ1 =0度)における第1の頭部伝達関数のゲインとすると、間隔角度が5度である場合、n度のゲインは、例えば、図7に示す人物Pの頭部が反時計回りに回転している場合、次の定位角(θ2 =5度)における第2の頭部伝達関数のゲインとなり、両者間でゲイン調整がなされる。例えば、図10において、s=0.7の場合、現在位置のゲインが、0.3となり、5度のゲインが、0.7となる。
ステップS104:音源位置制御部31は、聴取り対象の仮想音源の変位を抑制する側の仮想音源の定位角の算出処理を行う(図9に示すブロックB1の処理)。具体的には、音源位置制御部31は、角速度に基づいて、頭部が時計回りに回転している場合には式1を用い、頭部が反時計回りに回転している場合には式2を用いる。
ω≧0の場合(時計回り)、 θ2=θ1−Δθ (式2)
ω<0の場合(反時計回り)、θ2=θ1+Δθ (式3)
ここで、θ1は、第1の頭部伝達関数に対応する仮想音源の定位角であり、図9に示すブロックB1、B2の処理の入力パラメータとなる。θ2 は、第2の頭部伝達関数に対応する仮想音源の定位角であり、Δθは、HRTFテーブル35における各々の頭部伝達関数の間隔角度(例えば5度)である。
音源位置制御部31は、一例として、例えば、図7Cに示す人物Pの頭部が反時計回りに回転している場合、定位角(θ1 =0度)であるので、Δθ=5度として、式3に代入することにより、抑制する側の仮想音源の定位角(θ2 =5度)の値を算出する。
ステップS105:音源位置制御部31は、各々の定位角における頭部伝達関数の選択処理を行う。音源位置制御部31は、HRTFテーブル35を参照して、第1の頭部伝達関数として、定位角(θ1 =0度)の頭部伝達関数(HRTF_L1, HRTF_R1)を選択し、メモリ6に読み出す(図9に示すブロックB2の処理)。また、音源位置制御部31は、HRTFテーブル35を参照して、第2の頭部伝達関数として、定位角(θ1 =5度)の頭部伝達関数(HRTF_L2, HRTF_R2)を選択し、メモリ6に読み出す(図9に示すブロックB3の処理)。
ステップS106:HRTF合成部32は、2つの頭部伝達関数のデータを混合・調整し、より効果的な1つの信号出力にするミキシング処理を実行する。具体的には、HRTF合成部32は、以下に示す式4、5に基づいて、第1の頭部伝達関数のデータと第2の頭部伝達関数のデータとをミキシングして合成する処理を実行する(図9に示すブロックB4、B5の処理)。
L=(1−s)h1L + s・h2L (式4)
R=(1−s)h1R + s・h2R (式5)
ここで、hL は、ミキシング後の左耳用の頭部伝達関数であり、hR は、ミキシング後の右耳用の頭部伝達関数である。
また、sは、音源位置制御部31が算出した配分比であり、h1L は、左耳用の第1の頭部伝達関数であり、h2L は、左耳用の第2の頭部伝達関数である。h1R は、右耳用の第2の頭部伝達関数であり、h2R は、右耳用の第2の頭部伝達関数である。
ステップS107:音声信号処理部33は、音声データの入力バッファへの書込み処理を行う。
図11は、第1実施形態における音声信号処理部33の処理の一例を示す説明図である。図11では、音声信号処理部33によるメモリ6の入力バッファ61及び出力バッファ62を用いた処理を模式的に示している。ここで、音声信号処理部33は、音声ファイルテーブル36を参照し、聴取り対象の仮想音源の音像の元になる音声データ(例えば、File_001)を入力バッファ61に時系列に一時記録する。
なお、第1実施形態では、音声データの一例として、1フレームのサンプリングタイムが46ミリ秒のオーディオデータを利用する。そのため、音声信号処理部33は、図11において、入力バッファ61における61(1)、61(2)、61(3)、61(4)・・・のバッファ領域に1フレーム毎に一時記録していく処理を順次実行する。なお、オーディオデータは、音楽であってもよいし、ナレーションであってもよい。また、オーディオデータは、ナレーションにBGM(background music)が流れるようにしたデータであってもよい。
ステップS108:音声信号処理部33は、フレーム単位のFIR(有限インパルス応答:Finite Impulse Response)フィルタ処理を施すフィルタリングの演算処理を実行する。具体的には、音声信号処理部33は、ステップS106の処理によりHRTF合成部32で合成された頭部伝達関数のデータと、入力バッファ61に書き込まれた所定の再生用の音声データとに基づいて、公知のFIRフィルタの畳み込みによる演算処理を行う。この演算処理により、音声信号処理部33は、仮想音源の音声信号(音像)を生成する(図9に示すブロックB6、B7の処理)。これにより、音像を所定の仮想音源の位置に定位することが可能となる。なお、図11において、FIRの各ブロックは、ステップS108の処理の一例を示す。
また、このステップS108では、音声信号処理部33は、公知のFIRフィルタの畳み込みによる演算処理を行うことにしているが、この演算処理は、一例であって、これに限定されない。音声信号処理部33は、例えば、公知のFFT(高速フーリエ変換:Fast Fourier Transform)を用いて畳み込み処理を行ってもよい。具体的には、音声信号処理部33は、例えば、FFTを用いて音源データと選択した頭部伝達関数をそれぞれ周波数領域に変換し、それらを複素乗算したのち、逆FFT処理を行うことで時間領域に再変換して出力する。
ステップS109:音声信号処理部33は、出力バッファへの書出し処理及び出力処理を実行する。具体的には、音声信号処理部33は、ステップS108の処理で生成した音声信号を、メモリ6の出力バッファ62における62(1)、62(2)、62(3)、・・・のバッファ領域に一時記録していく処理を順次実行する。この際、FIRフィルタの畳み込みによる演算処理等の時間に起因して、例えば3フレーム分の遅延時間が生じる。
また、音声出力処理部34は、並列処理により、出力バッファに一時記録された音声信号に基づいて、所定のフレームレートで音像定位が施された仮想音源の音(L、R)をヘッドフォン2に出力する(図9に示すブロックB8、B9の処理)。
ステップS110:音声出力処理部34は、音声データの読出しが最後まで終了したか否かを判定する。音声データの読出しが最後まで終了していない場合(ステップS110:No)、ステップS101の処理に戻る。一方、音声データの読出しが最後まで終了した場合(ステップS110:Yes)、音源位置制御プログラムの処理を終了する。
一方、ステップS102の処理で、頭部の角速度が検出されない場合の処理について説明を続ける。この場合には、ステップS111の処理に移行する。
ステップS111:音源位置制御部31は、現在位置の定位角に基づいて、頭部伝達関数の選択処理を実行する。この場合には、頭部の角速度が検出されないため、ステップS103〜ステップS106の処理が不要となる。
そして、プロセッサ4は、その後、ステップS107〜ステップS110の処理を実行し、ステップS111の処理において、音声データの読み出しが最後まで終了していない場合(ステップS110:No)、ステップS101の処理に戻る。一方、音声データの読み出しが最後まで終了した場合(ステップS110:Yes)、音源位置制御プログラムの処理を終了する。
このようにして、第1実施形態では、音源位置制御プログラムを実行することにより、頭部の回転運動等の姿勢変位に応じて、姿勢変位に伴う仮想音源の変位を抑制できるので、適切な拡張現実感を実現できる。
なお、第1実施形態では、聴取り対象の仮想音源が、HRTFテーブル35に記憶されている各々の頭部伝達関数の定位角が示す方位の何れかである場合について説明したが、必ずしもHRTFテーブル35に記憶されている頭部伝達関数の定位角が示す方位でなくても適用できる。
図12は、聴取り対象の仮想音源が、HRTFテーブル35に記憶されている頭部伝達関数の定位角の示す方位に存在しない場合の適用例についての説明図である。
図12に示す通り、人物Pの顔の向きが定位角0度の方位(北向き)を向いているとする。ここで、図12では、説明の便宜上、定位角の間隔角度が45度であるので、HRTFテーブル35における頭部伝達関数は、45度間隔のデータを抽出したHRTFテーブルとして用いることとする。
そして、音源位置制御部31は、図12において、頭部を基点として聴取り対象の仮想音源VS2に最も近い方位の頭部伝達関数(例えば、定位角θ1=0度)を、第1の頭部伝達関数として選択する。
一方、頭部の動きが生じた場合には、音源位置制御部31は、角速度に基づいて、顔の向きの回転方向を予測し、第1の頭部伝達関数に対応する方位を基準として、回転方向と逆方向の方位の頭部伝達関数を、第2の頭部伝達関数として選択する。一例として、音源位置制御部31は、HRTFテーブル35を参照し、顔の向きの変化に伴って仮想音源の変位を最も抑制する角度の頭部伝達関数(定位角θ2=45度)を、第2の頭部伝達関数として選択する。この第2の頭部伝達関数が、仮想音源の変位を最も抑制する角度の頭部伝達関数であるのは、定位角が45度間隔の頭部伝達関数を採用している場合、第1の頭部伝達関数に最も近い位置関係にあるからである。
例えば、顔の向きが反時計回りに回転運動をした場合、音源位置制御部31は、図8に示すステップS104の処理に従って、頭部伝達関数(定位角θ1=0度)の次の角度の頭部伝達関数(定位角θ2=45度)を選択する。そして、プロセッサ4は、以下、図8に示すステップS105〜ステップS110の処理を実行する。なお、ステップS105の処理において、HRTF合成部32は、角速度が大きくなるほど、第2の頭部伝達関数のデータの寄与が多くなるように合成することが好ましい。これにより、HRTF合成部32は、姿勢変位に伴う仮想音源の変位をより抑制することができる。
以上より、第1実施形態では、聴取り対象の仮想音源がHRTFテーブル35に記憶されている各々の頭部伝達関数の定位角が示す方位に存在しない場合であっても、姿勢変位に伴う仮想音源の変位を抑制できるので、聴覚の違和感を抑制する適切な音声信号を生成できる。その結果、ユーザは、この適切な音声信号に基づいて、ヘッドフォン2を介して、聴覚に自然な再生音を聞くことができる。
なお、図12では、説明の便宜上、定位角が45度間隔の頭部伝達関数を用いたが、これに限定されない。例えば、HRTFテーブル35に記憶されている各々の頭部伝達関数の定位角が5度間隔であれば、音源位置制御部31は、仮想音源VS2により近い方位の頭部伝達関数を第1の頭部伝達関数として選択できるので、より適切な音声信号を生成できる。また、図12では、ある大きさの仮想音源VS2を例示しているが、仮想音源は、必要に応じて、仮想的な点音源として捉えてもよい。
なお、第1実施形態では、頭部伝達関数の合成をした後、それぞれの頭部伝達関数に対してFIRフィルタの畳み込みによる演算処理を実行した。しかし、第1実施形態では、これに限定されない。例えば、第1実施形態では、先に頭部伝達関数の合成をせず、それぞれの頭部伝達関数に対してFIRフィルタの畳み込みによる演算処理を先に実行してもよい。そして、第1実施形態では、この演算処理を実行して生成した音に対して、それらの音同士を合成するようにしてもよい。このような第1実施形態でも、姿勢変位に伴う仮想音源の変位を抑制できるので、聴覚の違和感を抑制する適切な音声信号を生成できる。
<第2実施形態>
次に、第2実施形態について説明する。第2実施形態では、聴取り対象の仮想音源がHRTFテーブル35に記憶されている頭部伝達関数の定位角の示す方位に存在しない場合、音源位置制御部31が2つの頭部伝達関数を加重平均することにより、音像定位の精度をさらに向上させる。第2実施形態でも、聴取り対象の仮想音源が、HRTFテーブル35に記憶されている各々の頭部伝達関数の定位角が示す方位に存在しない場合について、説明する。
なお、第2実施形態では、第1実施形態と、同じ構成要素については同じ符号を付して説明を省略し、相違点について詳述する。第2実施形態でも、図1に示す音源位置制御システム1を適用できる。ここで、第2実施形態では、図8に示すフローチャートにおいて、ステップS104、ステップS105の処理が、第1実施形態と異なる。
図13は、第2実施形態の一例を示す説明図である。第2実施形態でも、説明をわかりやすくするため、図13に示す通り、人物Pの顔の向きが定位角0度の方位(北向き)を向いていることとする。ここで、図13は、説明の便宜上、定位角の間隔角度が45度とし、HRTFテーブル35における頭部伝達関数は、45度間隔のデータを用いることとする。また、人物Pが顔の向きを例えば、反時計回りに回転することとする。
ここで、一例として、仮想音源VS3を図13に示す方位に定位させる場合、音源位置制御部31は、人物Pの頭部を基点(図13の円周Sの中心)として、所定角度(Δθ1+Δθ2)で聴取り対象の仮想音源VS3を挟む関係を有する2つの連続する頭部伝達関数(H1、H2)を、HRTFテーブル35から選択して、仮想音源VS3の位置に応じて、Δθ1,Δθ2を用いて加重平均する。これにより、音源位置制御部31は、加重平均に応じて、第1の頭部伝達関数(H9)を生成する。つまり、音源位置制御部31は、所定角度の範囲内で加重平均に応じて、Δθ1とΔθ2とで分割された方位の第1の頭部伝達関数(H9)を、生成することができる。なお、図13から明らかなように、Δθ1とΔθ2とは、必ずしも等角度である必要はない。
さらに、音源位置制御部31は、角速度に基づいて、顔の向きの回転方向を時計回りと反時計回りとの何れかを予測する。反時計回りであれば、音源位置制御部31は、生成した第1の頭部伝達関数(H9)に対応する方位を基準として、回転方向と逆方向に連続する2つの頭部伝達関数(H2,H3)を選択し、上記と同様にして、所定角度(Δθ1+Δθ2)を用いて加重平均を行うことにより、第2の頭部伝達関数(H10)を生成する。
換言すると、音源位置制御部31は、例えば、頭部伝達関数の分割ステップが一定の場合、頭部を基点として時計回りに所定角度(Δθ1+Δθ2)分だけ回転する操作を行うことで、仮想音源の変位を最も抑制する関係を有する2つの頭部伝達関数(H2,H3)を、HRTFテーブル35から選択する。そして、音源位置制御部31は、所定角度(Δθ1+Δθ2)を用いて加重平均を行うことにより、第2の頭部伝達関数(H10)を生成する。そして、音源位置制御部31は、HRTFテーブル35に新たに2つの頭部伝達関数(H9,H10)を追加する。
なお、人物Pの顔の向きが、例えば時計回りに回転した場合には、音源位置制御部31は、生成した第1の頭部伝達関数(H9)に対応する方位を基準として、回転方向と逆方向に連続する2つの頭部伝達関数(H1,H8)を選択する。そして、音源位置制御部31は、上記の加重平均を行うことにより、第2の頭部伝達関数(図示省略)を生成する。
そして、第2実施形態では、以下、図8に示すステップS106〜ステップS111の処理を実行する。なお、ステップS106の処理において、HRTF合成部32は、角速度が大きくなるほど、第2の頭部伝達関数のデータの寄与が多くなるように合成することが好ましい。これにより、HRTF合成部32は、姿勢変位に伴う仮想音源の変位をより抑制することができる。
以上より、第2実施形態では、頭部の回転運動等の姿勢変位に応じて、聴取り対象の仮想音源がHRTFテーブル35に記憶されている頭部伝達関数の定位角の示す方位に存在しない場合、音源位置制御部31が2つの連続する頭部伝達関数を加重平均することにより新たな頭部伝達関数を生成する。これにより、第2実施形態では、音像定位の精度をさらに向上させることができるので、より適切な音声信号を生成できる。なお、この精度の向上については、図14〜図16を用いて詳述する。
[数値実験による比較]
次に、従来例も含めて、第1、第2実施形態の数値実験による比較について説明する。数値実験は、頭部の姿勢変位に対する応答性(追従性)を比較する。なお、姿勢変位としては、図2に示す水平面(XY平面)の頭部の回転運動(頭部の角速度)を例示する。
図14は、頭部の角速度の経時変化の一例を示すグラフである。横軸は、時間[ms]を示し、縦軸は、頭部の角速度[deg/s]を示す。なお、横軸の時間は、一例として、仮想音源として用いる音声データの1サンプル時間(46[ms])を例示している。
図15は、図14で例示した角速度の変化に基づく、頭部の回転に対する応答性の一例を示すグラフである。図16は、図15A〜図15Dをまとめて例示したグラフである。図15、図16では、1サンプル時間における頭部角度の変化の一例を示しており、横軸は、音声データの1サンプル時間(46[ms])を示し、縦軸は、頭部角度を示す。数値実験の条件として、頭部角度(顔の向き)の初期値は、図2に示す北向き(0度)とする。頭部伝達関数の間隔角度は、15度とする。ωmax の値は、150[deg/s]とする。バッファリングの遅延は、図11に示す通り、例えば3フレームとする。図15では、図14の角速度の入力データに基づく頭部角度の推定値に対しての応答性(追従性)を比較している。なお、頭部角度の推定値は、例えば、頭部角速度センサ21の角速度のデータから算出される。図15A〜Dにおいて、実線のグラフは、頭部角度の推定値を表し、このグラフに一致すればするほど応答性の精度がよいことを示している。
図15Aは、第1従来例との比較例を示す。第1従来例は、頭部角度(顔の向き)を検出して、顔の向きに最も近い頭部伝達関数を選択していく方式である。図15Bは、第2従来例との比較を示す。第2従来例は、例えば特許文献1(特開2010−041425号公報)に基づく方式である。図15Cは、第1実施形態との比較を示す。図15Dは、第2実施形態との比較を示す。
図15A〜Dを比較すると、第1従来例は、頭部角度の推定値に対して偏差が大きく応答性が悪い(図15A参照)。第2従来例は、第1従来例に比較して、改善はされているものの、第2従来例のグラフが全体的に頭部角度の推定値に対してずれている(図15B参照)。そのため、第2従来例は、第1実施形態と比較して、頭部角度の推定値に対する偏差が大きいので、その分、応答性が悪い。これに対し、第1実施形態と頭部角度の推定値との比較では、偏差が小さく応答性が改善できることがわかる(図15C参照)。さらに、第2実施形態と頭部角度の推定値との比較では、第1実施形態よりもより精度が高い(図15D参照)。つまり、第1実施形態は、従来例1及び従来例2よりも応答性の精度がよく、さらに、第2実施形態は、第1実施形態よりも応答性の精度が高いことが示唆される(図16参照)。
<第3実施形態>
次に、第3実施形態について説明する。
図17は、第3実施形態における頭部の回転の方向を例示する説明図である。図17において、第3実施形態では、XYZ軸の直交座標系において、X軸(ロール軸)、Y軸(ピッチ軸)、Z軸(ヨー軸)として3軸を規定する。これにより、第3実施形態では、頭部の回転を、ロール角、ピッチ角、ヨー角(方位角)として、規定できる。ここで、第1実施形態では、Z軸(ヨー軸)を基準として方位角を適用した頭部伝達関数を取り扱ったが、本件開示の技術は、これに限定されない。第3実施形態では、ロール角、ピッチ角を適用した頭部伝達関数を取り扱ってもよい。ここで、頭部角速度センサ21は、例えば、角速度、姿勢角(ロール、ピッチ)及び方位角をリアルタイムに出力する機能を備えていることとする。
図18は、第3実施形態におけるロール角を適用した頭部伝達関数の一例を示す説明図である。図19は、第3実施形態におけるピッチ角を適用した頭部伝達関数の一例を示す説明図である。
第3実施形態では、第1実施形態同様、予め離散的に計測された頭部伝達関数のデータをデータベース化して利用する。図18では、説明の便宜上、一例として、Z軸の方位を基準として定位角(θ)を0度とする。そして、第3実施形態では、人物Pの頭部を起点として円周(S)上に所定角度(Δθ)毎に計測された頭部伝達関数(例えばH21〜H28)を採用することで、各々の定位角の仮想音源による音像を定位することができる。なお、図18では、説明の便宜上、頭部のロール角方向の傾きにおいて、時計回りに回転する方向を「正」の方向とし、反時計回りに回転する方向を「負」の方向とする。
また、同様にして、図19に示す通り、第3実施形態では、人物Pの頭部を起点として円周(S)上に所定角度(Δθ)毎に計測された頭部伝達関数(例えばH31〜H38)を採用することで、各々の定位角の仮想音源による音像を定位することができる。なお、図19では、説明の便宜上、頭部のピッチ角方向の傾きにおいて、時計回りに回転する方向を「正」の方向とし、反時計回りに回転する方向を「負」の方向とする。
このようにして、第3実施形態では、頭部の回転を、ロール角、ピッチ角、ヨー角(方位角)毎に、分けて、第1実施形態、第2実施形態と同様の処理を実行することで、第1実施形態、第2実施形態と同様の効果を得ることができる。
なお、第3実施形態では、ロール角、ピッチ角、ヨー角(方位角)を組み合わせて、第1実施形態、第2実施形態と同様の処理を実行してもよい。
以上、本件に開示する一実施形態について明細書及び図面等を用いて説明したが、本件開示の技術は、上記実施形態に限定されるものではない。つまり、本発明の技術的範囲内において、各種の改良又は変更も本件開示の技術に含まれるのは、特許請求の範囲の記載から明らかである。
また、特許請求の範囲、明細書及び図面中において示したプログラム、装置及び方法における動作等の各処理の実行順序は、前の処理の出力結果を後の処理で用いるのでない限り、任意の順序で実行してもよい場合がある点に留意すべきである。
さらに、明細書及び図面中のフローチャートに関して、「先ず」、「次に」、「続いて」等の用語を用いて説明したとしても、各種の改良又は変更に関し、この順で実施しなければならないことを必ずしも意味しないという点に留意すべきである。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
人物の頭部の動きを示す角速度と顔の向きとを含む姿勢データを取得し、前記人物の周囲に仮想的に配置される仮想音源による音像を定位するための頭部伝達関数を複数記憶した記憶部を参照し、聴取り対象の前記仮想音源の位置と前記顔の向きとに応じて、第1の頭部伝達関数を選択し、前記動きが生じたときに、前記動きに伴う前記仮想音源の変位を抑制する第2の頭部伝達関数を選択する制御部と、
前記第1の頭部伝達関数のデータと前記第2の頭部伝達関数のデータとを、前記角速度に応じて重み付けして合成する合成部と、
合成された頭部伝達関数のデータと、予め記憶された再生用の音声データとに基づいて、前記仮想音源の音声信号を生成する信号処理部と、
を備える音声処理装置。
(付記2)
前記制御部は、前記頭部を基点として所定角度で前記聴取り対象の前記仮想音源を挟む関係を有する2つの連続する頭部伝達関数を、前記記憶部から選択して前記仮想音源の位置に応じて加重平均を行うことにより、前記第1の頭部伝達関数を生成すると共に、前記角速度に基づいて、前記顔の向きの回転方向を予測し、生成した前記第1の頭部伝達関数に対応する方位を基準として、前記回転方向と逆方向に連続する2つの頭部伝達関数を選択し、前記加重平均を行うことにより、前記第2の頭部伝達関数を生成する、付記1に記載の音声処理装置。
(付記3)
前記制御部は、前記頭部を基点として前記聴取り対象の前記仮想音源に最も近い方位の頭部伝達関数を、前記第1の頭部伝達関数として選択し、前記動きが生じたときに、前記角速度に基づいて、前記顔の向きの回転方向を予測し、前記第1の頭部伝達関数に対応する方位を基準として、前記回転方向と逆方向の方位の頭部伝達関数を、前記第2の頭部伝達関数として選択し、
前記合成部は、前記角速度が大きくなるほど、前記第2の頭部伝達関数のデータの寄与が多くなるように合成する、付記1に記載の音声処理装置。
(付記4)
前記記憶部は、前記頭部を起点として直交座標系の3軸方向のそれぞれについて離散的に計測された頭部伝達関数を記憶し、
前記制御部は、前記3軸方向のそれぞれの角速度を取得し、聴取り対象の前記仮想音源の位置と前記顔の向きとに応じて、前記第1の頭部伝達関数と前記第2の頭部伝達関数を選択する、付記1から付記3の何れかに記載の音声処理装置。
(付記5)
コンピュータが、
人物の頭部の動きを示す角速度と顔の向きとを含む姿勢データを取得し、前記人物の周囲に仮想的に配置される仮想音源による音像を定位するための頭部伝達関数を複数記憶した記憶部を参照し、聴取り対象の前記仮想音源の位置と前記姿勢データが示す現在の前記顔の向きとに応じて、第1の頭部伝達関数を選択し、前記動きが生じたときに、前記動きに伴う前記仮想音源の変位を抑制する第2の頭部伝達関数を選択し、
前記第1の頭部伝達関数のデータと前記第2の頭部伝達関数のデータとを、前記角速度に応じて重み付けして合成し、
合成された頭部伝達関数のデータと、予め記憶された再生用の音声データとに基づいて、前記仮想音源の音声信号を生成する
処理を実行する音源位置制御方法。
(付記6)
コンピュータに、
人物の頭部の動きを示す角速度と顔の向きとを含む姿勢データを取得し、前記人物の周囲に仮想的に配置される仮想音源による音像を定位するための頭部伝達関数を複数記憶した記憶部を参照し、聴取り対象の前記仮想音源の位置と前記姿勢データが示す現在の前記顔の向きとに応じて、第1の頭部伝達関数を選択し、前記動きが生じたときに、前記動きに伴う前記仮想音源の変位を抑制する第2の頭部伝達関数を選択し、
前記第1の頭部伝達関数のデータと前記第2の頭部伝達関数のデータとを、前記角速度に応じて重み付けして合成し、
合成された頭部伝達関数のデータと、予め記憶された再生用の音声データとに基づいて、前記仮想音源の音声信号を生成する
処理を実行させる音源位置制御プログラム。
1…音源位置制御システム、2…ヘッドフォン、3…携帯端末、21…頭部角速度センサ、22…出力装置、23…地磁気センサ、31…音源位置制御部、32…HRTF合成部、33…音声信号処理部、34…音声出力処理部、35…HRTFテーブル、36…音声ファイルテーブル

Claims (5)

  1. 人物の頭部の動きを示す角速度と顔の向きとを含む姿勢データを取得し、前記人物の周囲に仮想的に配置される仮想音源による音像を定位するための頭部伝達関数を複数記憶した記憶部を参照し、聴取り対象の前記仮想音源の位置と前記顔の向きとに応じて、第1の頭部伝達関数を選択し、前記動きが生じたときに、前記動きに伴う前記仮想音源の変位を抑制する第2の頭部伝達関数を選択する制御部と、
    前記第1の頭部伝達関数のデータと前記第2の頭部伝達関数のデータとを、前記角速度に応じて重み付けして合成する合成部と、
    合成された頭部伝達関数のデータと、予め記憶された再生用の音声データとに基づいて、前記仮想音源の音声信号を生成する信号処理部と、
    を備える音声処理装置。
  2. 前記制御部は、前記頭部を基点として所定角度で前記聴取り対象の前記仮想音源を挟む関係を有する2つの連続する頭部伝達関数を選択し、前記仮想音源の位置に応じて加重平均を行うことにより、前記第1の頭部伝達関数を生成し、前記角速度に基づいて、前記顔の向きの回転方向を予測し、生成した前記第1の頭部伝達関数に対応する方位を基準として、前記回転方向と逆方向に連続する2つの頭部伝達関数を選択し、前記加重平均を行うことにより、前記第2の頭部伝達関数を生成する、請求項1に記載の音声処理装置。
  3. 前記制御部は、前記頭部を基点として前記聴取り対象の前記仮想音源に最も近い方位の頭部伝達関数を、前記第1の頭部伝達関数として選択し、前記動きが生じたときに、前記角速度に基づいて、前記顔の向きの回転方向を予測し、前記第1の頭部伝達関数に対応する方位を基準として、前記回転方向と逆方向の方位の頭部伝達関数を、前記第2の頭部伝達関数として選択し、
    前記合成部は、前記角速度が大きくなるほど、前記第2の頭部伝達関数のデータの寄与が多くなるように合成する、請求項1に記載の音声処理装置。
  4. コンピュータが、
    人物の頭部の動きを示す角速度と顔の向きとを含む姿勢データを取得し、前記人物の周囲に仮想的に配置される仮想音源による音像を定位するための頭部伝達関数を複数記憶した記憶部を参照し、聴取り対象の前記仮想音源の位置と前記姿勢データが示す現在の前記顔の向きとに応じて、第1の頭部伝達関数を選択し、前記動きが生じたときに、前記動きに伴う前記仮想音源の変位を抑制する第2の頭部伝達関数を選択し、
    前記第1の頭部伝達関数のデータと前記第2の頭部伝達関数のデータとを、前記角速度に応じて重み付けして合成し、
    合成された頭部伝達関数のデータと、予め記憶された再生用の音声データとに基づいて、前記仮想音源の音声信号を生成する
    処理を実行する音源位置制御方法。
  5. コンピュータに、
    人物の頭部の動きを示す角速度と顔の向きとを含む姿勢データを取得し、前記人物の周囲に仮想的に配置される仮想音源による音像を定位するための頭部伝達関数を複数記憶した記憶部を参照し、聴取り対象の前記仮想音源の位置と前記姿勢データが示す現在の前記顔の向きとに応じて、第1の頭部伝達関数を選択し、前記動きが生じたときに、前記動きに伴う前記仮想音源の変位を抑制する第2の頭部伝達関数を選択し、
    前記第1の頭部伝達関数のデータと前記第2の頭部伝達関数のデータとを、前記角速度に応じて重み付けして合成し、
    合成された頭部伝達関数のデータと、予め記憶された再生用の音声データとに基づいて、前記仮想音源の音声信号を生成する
    処理を実行させる音源位置制御プログラム。
JP2014120015A 2014-06-10 2014-06-10 音声処理装置、音源位置制御方法及び音源位置制御プログラム Active JP6292040B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014120015A JP6292040B2 (ja) 2014-06-10 2014-06-10 音声処理装置、音源位置制御方法及び音源位置制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014120015A JP6292040B2 (ja) 2014-06-10 2014-06-10 音声処理装置、音源位置制御方法及び音源位置制御プログラム

Publications (2)

Publication Number Publication Date
JP2015233252A JP2015233252A (ja) 2015-12-24
JP6292040B2 true JP6292040B2 (ja) 2018-03-14

Family

ID=54934468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014120015A Active JP6292040B2 (ja) 2014-06-10 2014-06-10 音声処理装置、音源位置制御方法及び音源位置制御プログラム

Country Status (1)

Country Link
JP (1) JP6292040B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6732464B2 (ja) * 2016-02-12 2020-07-29 キヤノン株式会社 情報処理装置および情報処理方法
CN106572425A (zh) * 2016-05-05 2017-04-19 王杰 音频处理装置及方法
GB2554447A (en) * 2016-09-28 2018-04-04 Nokia Technologies Oy Gain control in spatial audio systems
CN110036655B (zh) * 2016-12-12 2022-05-24 索尼公司 Hrtf测量方法、hrtf测量装置和存储介质
JP7212622B2 (ja) * 2017-06-15 2023-01-25 ドルビー・インターナショナル・アーベー コンピュータ媒介式の現実アプリケーションにおける送信器と受信器との間の通信を最適化する方法、装置およびシステム
JP7252965B2 (ja) * 2018-02-15 2023-04-05 マジック リープ, インコーポレイテッド 複合現実のための二重聴取者位置
JP7342451B2 (ja) * 2019-06-27 2023-09-12 ヤマハ株式会社 音声処理装置および音声処理方法
WO2024150544A1 (ja) * 2023-01-12 2024-07-18 ソニーグループ株式会社 音響装置、音響処理方法及び音響処理プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2751512B2 (ja) * 1990-01-19 1998-05-18 ソニー株式会社 音響信号再生装置
JPH0444500A (ja) * 1990-06-11 1992-02-14 Yamaha Corp ヘッドホンシステム
JPH0946797A (ja) * 1995-07-28 1997-02-14 Sanyo Electric Co Ltd 音響信号再生装置

Also Published As

Publication number Publication date
JP2015233252A (ja) 2015-12-24

Similar Documents

Publication Publication Date Title
JP6292040B2 (ja) 音声処理装置、音源位置制御方法及び音源位置制御プログラム
US10932075B2 (en) Spatial audio processing apparatus
US9820037B2 (en) Audio capture apparatus
US10397728B2 (en) Differential headtracking apparatus
US10080094B2 (en) Audio processing apparatus
EP3141002B1 (en) Virtual sound systems and methods
US8644531B2 (en) Information processing system and information processing method
US9357306B2 (en) Multichannel audio calibration method and apparatus
US10448192B2 (en) Apparatus and method of audio stabilizing
EP2719200B1 (en) Reducing head-related transfer function data volume
US10003905B1 (en) Personalized end user head-related transfer function (HRTV) finite impulse response (FIR) filter
US20160299738A1 (en) Visual Audio Processing Apparatus
EP3435690B1 (en) Sound processing method and sound processing device
US9769585B1 (en) Positioning surround sound for virtual acoustic presence
US9462406B2 (en) Method and apparatus for facilitating spatial audio capture with multiple devices
JP6596896B2 (ja) 頭部伝達関数選択装置、頭部伝達関数選択方法、頭部伝達関数選択プログラム、音声再生装置
CN105263075A (zh) 一种带方位传感器耳机及其3d声场还原方法
CN107105384B (zh) 一种中垂面上近场虚拟声像的合成方法
EP3618459B1 (en) Method and apparatus for playing audio data
CN107707742B (zh) 一种音频文件播放方法及移动终端
WO2023173285A1 (zh) 音频处理方法、装置、电子设备及计算机可读存储介质
JP5380945B2 (ja) 音響再生装置およびプログラム
US11076257B1 (en) Converting ambisonic audio to binaural audio
WO2024037190A1 (zh) 音频处理方法和装置
JP6651231B2 (ja) 携帯情報端末、情報処理装置、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180129

R150 Certificate of patent or registration of utility model

Ref document number: 6292040

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150