JP2022131067A

JP2022131067A - 音声信号処理装置、立体音響システムおよび音声信号処理方法

Info

Publication number: JP2022131067A
Application number: JP2021029804A
Authority: JP
Inventors: 好州三木; Yoshikuni Miki; 庸平掛江; Yohei Kakee; 壽成木村; Hisashige Kimura
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2022-09-07

Abstract

【課題】容易に個人差を解消しつつ、音の方向感の再現性を向上させること。【解決手段】実施形態に係る音声信号処理装置は、畳み込み部を備える。畳み込み部は、ユーザの耳介の外側において少なくとも前後に独立して配置された音声出力ユニットそれぞれへ向けての音声信号に対し、音源から上記音声出力ユニットの各位置までの個別の伝達関数を用いた畳み込み処理を実行する。【選択図】図７

Description

開示の実施形態は、音声信号処理装置、立体音響システムおよび音声信号処理方法に関する。

従来、左右に１つずつ音声出力ユニットを有するヘッドホンに対する立体音響の再生処理を行う際、方向感を正しく再現するために頭部伝達関数（ＨＲＴＦ：Head-Related Transfer Function）による畳み込み処理を実行する信号処理技術が知られている（たとえば、特許文献１参照）。

また、ＨＲＴＦは耳介の形状などに影響されるため、個人差を解消するために、共通的な特徴量を用いたり、耳介内にマイクを配置して個別に特性を測定したり、カメラで撮影した頭部や耳の画像を解析したりすることによって、最適なＨＲＴＦを推定するといった技術も知られている。

特開２００９－２６０５７４号公報

しかしながら、上述した従来技術には、容易に個人差を解消しつつ、音の方向感の再現性を向上させるうえで、更なる改善の余地がある。

たとえば、従来技術を用いた場合、画像解析やマイク測定によるＨＴＲＦの推定に高い精度が求められるため、音の方向感の再現性を向上させることは容易ではない。

実施形態の一態様は、上記に鑑みてなされたものであって、容易に個人差を解消しつつ、音の方向感の再現性を向上させることができる音声信号処理装置、立体音響システムおよび音声信号処理方法を提供することを目的とする。

実施形態の一態様に係る音声信号処理装置は、畳み込み部を備える。前記畳み込み部は、ユーザの耳介の外側において少なくとも前後に独立して配置された音声出力ユニットそれぞれへ向けての音声信号に対し、音源から前記音声出力ユニットの各位置までの個別の伝達関数を用いた畳み込み処理を実行する。

実施形態の一態様によれば、容易に個人差を解消しつつ、音の方向感の再現性を向上させることができる。

図１は、実施形態に係るヘッドホンの構成例を示す図である。図２は、比較例に係るＨＲＴＦによる畳み込みの説明図である。図３は、実施形態に係る音声信号処理方法の概要説明図（その１）である。図４は、実施形態に係る音声信号処理方法の概要説明図（その２）である。図５は、実施形態に係る音声信号処理方法の概要説明図（その３）である。図６は、変形例に係るヘッドホンの構成例を示す図である。図７は、実施形態に係る音響システムの構成例を示すブロック図である。図８は、３Ｄ変換処理および３Ｄ分解処理の説明図（その１）である。図９は、３Ｄ変換処理および３Ｄ分解処理の説明図（その２）である。図１０は、仮想音源化処理の説明図（その１）である。図１１は、仮想音源化処理の説明図（その２）である。図１２は、実施形態に係る音声信号処理装置が実行する処理手順を示すフローチャートである。

以下、添付図面を参照して、本願の開示する音声信号処理装置、立体音響システムおよび音声信号処理方法の実施形態を詳細に説明する。なお、以下に示す実施形態によりこの発明が限定されるものではない。

まず、実施形態に係る音声信号処理方法の概要について、図１～図６を用いて説明する。図１は、実施形態に係るヘッドホン３の構成例を示す図である。また、図２は、比較例に係るＨＲＴＦによる畳み込みの説明図である。

また、図３は、実施形態に係る音声信号処理方法の概要説明図（その１）である。また、図４は、実施形態に係る音声信号処理方法の概要説明図（その２）である。また、図５は、実施形態に係る音声信号処理方法の概要説明図（その３）である。また、図６は、変形例に係るヘッドホン３Ａの構成例を示す図である。

図１に示すように、実施形態に係るヘッドホン３は、ユーザの耳介の外側において前後に配置される複数の音声出力ユニット３１を備える。なお、図１には、左の耳介の前方に配置される音声出力ユニット３１－ＦＬ、および、後方に配置される音声出力ユニット３１－ＲＬを示しているが、右の耳介の前方には図示略の音声出力ユニット３１－ＦＲが、後方には同じく図示略の音声出力ユニット３１－ＲＲが配置される。

ここで従来、ＨＲＴＦを用いた立体音響の再生処理を行う場合、図２に示すように、音源からの音声信号は、音源から、耳介および図示略の頭部ひいては肩までをも含めた音の変化が表現されたＨＲＴＦによる畳み込み処理を介して行われていた。

このため、耳介の形状などによる個人差が大きく、最適なＨＲＴＦを推定することが難しかった。また、このような個人差を解消するために、共通的な特徴量を用いたり、耳介内にマイクを配置して個別に特性を測定したり、カメラで撮影した頭部や耳の画像を解析したりすることによって、最適なＨＲＴＦを推定するといった既存技術もあるが、高い精度が求められるため、容易ではない。

そこで、実施形態に係る音声信号処理方法では、図３に示すように、ヘッドホン３に対する立体音響の再生処理を行うにあたって、ＨＲＴＦではなく、音源から、各音声出力ユニット３１の位置までの伝達関数を用いることとした。

具体的には、実施形態に係る音声信号処理方法では、図４に示すように、右前方の音声出力ユニット３１－ＦＲについては、かかる音声出力ユニット３１－ＦＲの位置までの右前方用の伝達関数ＦＲを用いた音声信号処理を行う。同様に、右後方の音声出力ユニット３１－ＲＲについては、かかる音声出力ユニット３１－ＲＲの位置までの右後方用の伝達関数ＲＲを用いた音声信号処理を行う。

同様に、左前方の音声出力ユニット３１－ＦＬについては、かかる音声出力ユニット３１－ＦＬの位置までの左前方用の伝達関数ＦＬを用いた音声信号処理を行う。同様に、左後方の音声出力ユニット３１－ＲＬについては、かかる音声出力ユニット３１－ＲＬの位置までの左後方用の伝達関数ＲＬを用いた音声信号処理を行う。これにより、耳介の形状などによる個人差を容易に解消することが可能となる。

そのうえで、実施形態に係る音声信号処理方法では、図５に示すように、左右の耳介を結ぶ直線Ｓを含む鉛直面より前方の前方音声については、前方の音声出力ユニット３１－ＦＲ，３１－ＦＬから再生させる。また、同鉛直面より後方の後方音声については、後方の音声出力ユニット３１－ＲＲ，３１－ＲＬから再生させる。これにより、音の方向感の再現性を向上させることが可能となる。

なお、直線Ｓを延ばした方向からの音声については、音声出力ユニット３１－ＦＲ，３１－ＲＲおよび音声出力ユニット３１－ＦＬ，３１－ＲＬからそれぞれ再生してもよい。また、このとき、音声出力ユニット３１－ＦＲ，３１－ＲＲの間、または、音声出力ユニット３１－ＦＬ，３１－ＲＬの間で打ち消し合う音声については、これを解消する手段を採ってもよい。

また、変形例のヘッドホン３Ａとして図６に示すように、音声出力ユニット３１は、前後および上下で独立するように設けられてもよい。これにより、左右前後だけでなく、上下の方向感も再現することが可能となる。

また、３６０度マイクで集音された音源など３６０度全ての方向成分を有する音源から、前後左右上下の仮想的な音源（以下、適宜「仮想音源」と言う）の信号を算出して空間モデルへ仮想音源を配置することで、各仮想音源に対する各音声出力ユニット３１への音声信号を生成し、各仮想音源からの方向感を再現するようにしてもよい。

また、ＶＲ（Virtual Reality）やＭＲ（Mixed Reality）といった仮想空間体験を含むデジタルコンテンツである３Ｄコンテンツの音源や前述の仮想音源がレンダリングされた空間モデルにおける各音源に対する各音声出力ユニット３１への音声信号を生成し、各仮想音源からの方向感を再現するようにしてもよい。これにより、いわゆるアンビソニック音源などについても、音の方向感を再現することが可能となる。かかる点については、図７以降を用いた説明で後述する。

上述したように、実施形態に係る音声信号処理方法では、ユーザの耳介の外側において少なくとも前後に独立して配置された音声出力ユニット３１それぞれへ向けての音声信号に対し、音源から音声出力ユニット３１の各位置までの個別の伝達関数を用いた畳み込み処理を実行することとした。

したがって、実施形態に係る音声信号処理方法によれば、容易に個人差を解消しつつ、音の方向感の再現性を向上させることができる。以下、実施形態に係る音声信号処理方法を適用した立体音響システム１の構成例について、より具体的に説明する。

図７は、実施形態に係る立体音響システム１の構成例を示すブロック図である。なお、図７では、実施形態の特徴を説明するために必要な構成要素のみを表しており、一般的な構成要素についての記載を省略している。

換言すれば、図７に図示される各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。例えば、各ブロックの分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することが可能である。

また、図７を用いた説明では、既に説明済みの構成要素については、説明を簡略するか、省略する場合がある。

図７に示すように、実施形態に係る立体音響システム１は、ヘッドホン３と、３６０度マイク５と、空間認識センサ部７と、音声信号処理装置１０とを含む。

ヘッドホン３は、前述の複数の音声出力ユニット３１と、慣性センサ部３２とを備える。ヘッドホン３は、音声信号処理装置１０に対し、有線または無線で通信可能に接続される。

音声出力ユニット３１は、既に述べたように、ユーザの耳介の外側において少なくとも前後に配置される。慣性センサ部３２は、加速度センサおよびジャイロセンサを含み、ヘッドホン３の移動量および回転量を検知する。

３６０度マイク５は、実空間の３６０度全方位を集音可能な全指向性マイクである。空間認識センサ部７は、たとえばカメラを含み、ヘッドホン３を装着したユーザ、音源、反射物等を含む実空間の物体を検知する。３６０度マイク５および空間認識センサ部７は、音声信号処理装置１０に対し、有線または無線で通信可能に接続される。

音声信号処理装置１０は、記憶部１１と、制御部１２とを備える。記憶部１１は、たとえば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の記憶デバイス、または、ハードディスク装置、光ディスク装置等のディスク装置などによって実現され、図７の例では、伝達関数データベース（ＤＢ）１１１を記憶する。

伝達関数データベース１１１は、音声出力ユニット３１のそれぞれに対応する個別の伝達関数が格納されたデータベースである。伝達関数は、音源から各音声出力ユニット３１の位置までの音波の到来を模擬するものであり、事前の実験等に基づいて予め作成される。伝達関数は、音源に対する各音声出力ユニット３１の位置、および、仰角を含む姿勢に応じた音の変化の特性（周波数、方向、レベル等）を有する。

制御部１２は、コントローラ（controller）であり、たとえば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、記憶部１１に記憶されている図示略の各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１２は、たとえば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現することができる。

制御部１２は、３Ｄ変換前処理部１２１と、３Ｄ変換部１２２と、３Ｄ分解部１２３と、仮想音源化部１２４と、空間認識部１２５と、オブジェクトモデル化部１２６と、空間モデル化部１２７と、畳み込み部１２８とを有し、以下に説明する情報処理の機能や作用を実現または実行する。

３Ｄ変換前処理部１２１は、３Ｄコンテンツ以外の既存コンテンツの音源（マルチチャンネルトラック音源など）の音声信号を、たとえばアンビソニックスなどの３Ｄ方向成分を含むフォーマットへ変換するための前処理を実行する。

３Ｄ変換部１２２は、３６０度マイク５によって集音された音声信号、ならびに、３Ｄ変換前処理部１２１によって前処理された既存コンテンツの音声信号を、３Ｄ方向成分を含むフォーマットへ変換する３Ｄ変換処理を実行する。

３Ｄ分解部１２３は、３Ｄ変換部１２２によって３Ｄ方向成分を含むフォーマットへ変換された音声信号を、前後方向成分、左右方向成分、上下方向成分および無方向成分へ分解する３Ｄ分解処理を実行する。

仮想音源化部１２４は、３Ｄ分解部１２３によって分解された前後方向成分、左右方向成分、上下方向成分および無方向成分に基づいて仮想音源の音声信号を算出する仮想音源化処理を実行する。

なお、既存技術ではあるが、３Ｄ変換処理、３Ｄ分解処理および仮想音源化処理について、図８～図１１を用いて具体的に説明しておく。図８は、３Ｄ変換処理および３Ｄ分解処理の説明図（その１）である。また、図９は、３Ｄ変換処理および３Ｄ分解処理の説明図（その２）である。

また、図１０は、仮想音源化処理の説明図（その１）である。また、図１１は、仮想音源化処理の説明図（その２）である。なお、ここでは、４つの単一指向性マイクを有する３６０度マイク５によって集音された音声を処理する場合を例に挙げて説明を行う。

図８に示すように、まず３Ｄ変換処理は、３６０度マイク５によって集音された前方左上（ＦＬＵ）、前方右下（ＦＲＤ）、後方右上（ＢＲＵ）、後方左下（ＢＬＤ）の各方向の音声の音声信号を、３６０度マイク５の正面方向とユーザの正面方向を一致させた空間モデルのモデルフォーマットへ変換する。

そして、３Ｄ分解処理は、３Ｄ変換処理を介した各音声信号を球調和関数によりそれぞれ双指向性の、前後方向成分Ｘ、左右方向成分Ｙ、上下方向成分Ｚおよび無方向成分Ｗの４種類の３Ｄ方向成分に分解する。球調和関数は、図９に示す通りである。

そして、このように分解された３Ｄ方向成分に基づいて、図１０に示すように、仮想音源化処理は、前述の４種類の３Ｄ方向成分以外の方向成分、たとえば前方右上（ＦＲＵ）、前方左下（ＦＬＤ）、後方右下（ＢＲＤ）の各方向成分を有する仮想音源信号を算出する。

仮想音源信号の算出式は、図１１に示す通りである。なお、式中の０．７０７は実効値を示す。算出された仮想音源信号に基づいては、後述する空間モデル化部１２７が、図１０に示すように、前述の空間モデルへたとえば仮想音源Ｓｐ－ＦＲＵ，Ｓｐ－ＦＬＤ，Ｓｐ－ＢＲＤを配置する。

図７の説明に戻る。空間認識部１２５は、空間認識センサ部７の検知結果に基づいて、ヘッドホン３を装着したユーザが存在する実空間における、ユーザ、音源、反射物等を含む物体を認識する空間認識処理を実行する。

オブジェクトモデル化部１２６は、空間認識部１２５によって認識された各物体を、空間モデルにおけるオブジェクトモデルへオブジェクトモデル化するオブジェクトモデル化処理を実行する。

空間モデル化部１２７は、仮想音源化部１２４によって算出された仮想音源、３Ｄコンテンツに含まれる３Ｄ音源、および、オブジェクトモデル化部１２６によってオブジェクトモデル化された各物体を１つの空間モデルにレンダリングする空間モデル化処理を実行する。

空間モデル化処理により、空間モデルには、仮想音源を含む各音源、ユーザを含む各物体が配置されており、ユーザが装着するヘッドホン３の各音声出力ユニット３１の位置および姿勢も推定可能となる。

畳み込み部１２８は、空間モデルから推定される各音声出力ユニット３１の位置および姿勢に基づき、音声出力ユニット３１のそれぞれに対応する伝達関数を伝達関数データベース１１１から取得し、取得した伝達関数による各音声出力ユニット３１への音声信号の畳み込み処理を実行する。また、畳み込み部１２８は、畳み込み処理後の各音声信号を各音声出力ユニット３１へ出力する。なお、伝達関数データベース１１１には、空間モデルにおける音源（位置）と音声出力ユニット３１の位置および姿勢に紐づいた伝達関数が記憶されている。各伝達関数は前述のように予め実験・測定、シミュレーション等により求め、記憶しておくことになる。このため空間モデルにおける音源（位置）を固定化すれば伝達関数データベース１１１を小容量化が可能となる。

また、畳み込み部１２８は、慣性センサ部３２の検知結果に基づいてヘッドホン３、すなわち各音声出力ユニット３１の位置および姿勢の変化を検知し、かかる変化に応じて必要となる伝達関数を伝達関数データベース１１１から適宜取得する。

次に、実施形態に係る音声信号処理装置１０が実行する処理手順について、図１２を用いて説明する。図１２は、実施形態に係る音声信号処理装置１０が実行する処理手順を示すフローチャートである。

図１２に示すように、まず、各音源については、３Ｄ変換を要するか否かが判定される（ステップＳ１０１）。３６０度マイク５や既存コンテンツなど３Ｄ変換を要する場合（ステップＳ１０１，Ｙｅｓ）、３Ｄ変換部１２２が、３Ｄ変換処理を実行する（ステップＳ１０２）。そして、３Ｄ分解部１２３が、３Ｄ分解処理を実行した後（ステップＳ１０３）、仮想音源化部１２４が、仮想音源信号を算出する（ステップＳ１０４）。

また、３Ｄコンテンツに含まれるモデル化された３Ｄ音源やアバターなどのように３Ｄ変換を要さない場合（ステップＳ１０１，Ｎｏ）、ステップＳ１０７へ移行する。

一方、ヘッドホン３を装着したユーザが存在する実空間の各物体については、空間認識部１２５が、空間認識センサ部７の検知結果に基づいてこれらを認識する（ステップＳ１０５）。そして、オブジェクトモデル化部１２６が、認識された各物体をオブジェクトモデル化する（ステップＳ１０６）。

そして、空間モデル化部１２７が、仮想音源化部１２４によって算出された仮想音源、３Ｄコンテンツに含まれる３Ｄ音源等、および、オブジェクトモデル化部１２６によってオブジェクトモデル化された各物体を１つの空間モデルにレンダリングする空間モデル化処理を実行する（ステップＳ１０７）。

そして、畳み込み部１２８が、伝達関数データベース１１１から、空間モデルにおいて推定される各音源に対する各音声出力ユニット３１の位置および姿勢に応じた伝達関数のそれぞれを取得する（ステップＳ１０８）。そして、畳み込み部１２８が、各音声出力ユニット３１へ出力される音声信号のそれぞれについて各伝達関数による畳み込み処理を実行し（ステップＳ１０９）、実行後の各音声信号を各音声出力ユニットへ出力する（ステップＳ１１０）。

また、畳み込み部１２８は、慣性センサ部３２の検知結果に基づいて各音声出力ユニット３１の位置および姿勢が変化したか否かを判定し（ステップＳ１１１）、位置および姿勢が変化した場合（ステップＳ１１１，Ｙｅｓ）、ステップＳ１０８からの処理を繰り返す。位置および姿勢が変化しなければ（ステップＳ１１１，Ｎｏ）、処理を終了する。

上述してきたように、実施形態に係る音声信号処理装置１０は、畳み込み部１２８を備える。畳み込み部１２８は、ユーザの耳介の外側において少なくとも前後に独立して配置された音声出力ユニット３１それぞれへ向けての音声信号に対し、音源から音声出力ユニット３１の各位置までの個別の伝達関数を用いた畳み込み処理を実行する。

したがって、実施形態に係る音声信号処理装置１０によれば、容易に個人差を解消しつつ、音の方向感の再現性を向上させることができる。

また、畳み込み部１２８は、耳介から前方の前方音声については、前方用の伝達関数を用いた畳み込み処理を実行して前方の音声出力ユニット３１から再生させ、耳介から後方の後方音声については、後方用の伝達関数を用いた畳み込み処理を実行して後方の音声出力ユニット３１から再生させる。

したがって、実施形態に係る音声信号処理装置１０によれば、音の方向感の再現性を向上させることができる。

また、実施形態に係る音声信号処理装置１０は、空間モデル化部１２７をさらに備える。空間モデル化部１２７は、全方向成分を有する音源から、前後左右上下の仮想的な音源の信号を算出してユーザの存在する実空間の空間モデルへ上記仮想的な音源を配置する空間モデル化処理を実行する。また、畳み込み部１２８は、上記仮想的な音源に対する音声出力ユニット３１の各位置に応じた伝達関数を取得する。

したがって、実施形態に係る音声信号処理装置１０によれば、空間モデルに対し、任意のレイアウトで音源を配置することが可能となり、音の方向感だけでなく距離感までも含めた再現性を向上させることができる。

また、空間モデル化部１２７は、上記実空間を認識する空間認識センサ部７の検知結果に基づいて認識された物体のオブジェクトモデルを上記空間モデルへさらに配置する。また、畳み込み部１２８は、上記空間モデルに配置された上記オブジェクトモデルに基づいて音声出力ユニット３１の位置を推定する。

したがって、実施形態に係る音声信号処理装置１０によれば、ヘッドホン３を装着したユーザ、音源、反射物等を含む実空間の物体を空間モデルにレンダリングできるとともに、これに応じて容易に音声出力ユニット３１の位置を推定することが可能となる。また、かかる位置に応じた伝達関数を用いることにより、音の方向感の再現性を向上させることができる。

また、空間モデル化部１２７は、仮想空間体験を含むデジタルコンテンツである３Ｄコンテンツに含まれる音源を上記空間モデルへさらに配置する。

したがって、実施形態に係る音声信号処理装置１０によれば、ＶＲコンテンツやＡＲコンテンツの体験時における音の方向感の再現性を向上させることができる。

また、畳み込み部１２８は、音声出力ユニット３１の移動量および回転量に基づいて音声出力ユニット３１の位置および姿勢の変化を検知し、かかる変化に応じた伝達関数を取得する。

したがって、実施形態に係る音声信号処理装置１０によれば、音声出力ユニット３１の位置および姿勢の変化に応じた伝達関数による畳み込み処理を実行することができるので、音の方向感の再現性を向上させることができる。

また、実施形態に係る音声信号処理方法は、ユーザの耳介の外側において少なくとも前後に独立して配置された音声出力ユニット３１それぞれへ向けての音声信号に対し、音源から音声出力ユニット３１の各位置までの個別の伝達関数を用いた畳み込み処理を実行する。

したがって、実施形態に係る音声信号処理方法によれば、容易に個人差を解消しつつ、音の方向感の再現性を向上させることができる。

また、実施形態に係る音声信号処理方法は、独立して配置された音声出力ユニット３１に出力する音声信号に立体音響処理をする音声信号処理方法であって、実空間の音源を空間モデルへ仮想的な仮想音源として配置する空間モデル化処理を行い、上記仮想音源から音声出力ユニット３１の各位置までの個別の伝達関数を用いた畳み込み処理を実行する。

したがって、実施形態に係る音声信号処理方法によれば、空間モデルに対し、任意のレイアウトで音源を配置することが可能となり、容易に個人差を解消しつつ、音の方向感だけでなく距離感までも含めた再現性を向上させることができる。

なお、上述した実施形態では、音声出力ユニット３１と、慣性センサ部３２とを備えるヘッドホン３を例に挙げたが、ヘッドホン３は、たとえばユーザが３Ｄコンテンツの提供を受ける際に用いられるＨＭＤ（Head Mounted Display）と一体であってもよい。また、かかる場合、慣性センサ部３２は、ヘッドホン３ではなく、ＨＭＤの本体部が備えることとしてもよい。

また、上述した実施形態では、空間認識センサ部７と慣性センサ部３２とをそれぞれ独立した構成要素としたが、慣性センサ部３２は空間認識センサ部７に含まれてもよい。また、かかる場合、空間認識センサ部７は前述のＨＭＤが備えることとしてもよい。

また、上述した実施形態では、音声信号処理装置１０が伝達関数データベース１１１を有し、畳み込み部１２８が伝達関数データベース１１１から伝達関数を取得することとしたが、この限りではなく、たとえばクラウド化されたデータベースサーバといった他の装置から取得するようにしてもよい。

さらなる効果や変形例は、当業者によって容易に導き出すことができる。このため、本発明のより広範な態様は、以上のように表しかつ記述した特定の詳細および代表的な実施形態に限定されるものではない。したがって、添付の特許請求の範囲およびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。

１立体音響システム
３，３Ａヘッドホン
７空間認識センサ部
１０音声信号処理装置
１１記憶部
１２制御部
３１音声出力ユニット
３１－ＦＬ音声出力ユニット
３１－ＦＲ音声出力ユニット
３１－ＲＬ音声出力ユニット
３１－ＲＲ音声出力ユニット
３２慣性センサ部
１１１伝達関数データベース
１２１３Ｄ変換前処理部
１２２３Ｄ変換部
１２３３Ｄ分解部
１２４仮想音源化部
１２５空間認識部
１２６オブジェクトモデル化部
１２７空間モデル化部
１２８畳み込み部
ＦＬ，ＦＲ，ＢＬ，ＢＲ伝達関数

Claims

ユーザの耳介の外側において少なくとも前後に独立して配置された音声出力ユニットそれぞれへ向けての音声信号に対し、音源から前記音声出力ユニットの各位置までの個別の伝達関数を用いた畳み込み処理を実行する畳み込み部
を備えることを特徴とする音声信号処理装置。
前記畳み込み部は、
前記耳介から前方の前方音声については、前方用の前記伝達関数を用いた畳み込み処理を実行して前方の前記音声出力ユニットから再生させ、前記耳介から後方の後方音声については、後方用の前記伝達関数を用いた畳み込み処理を実行して後方の前記音声出力ユニットから再生させる
ことを特徴とする請求項１に記載の音声信号処理装置。
全方向成分を有する音源から、前後左右上下の仮想的な音源の信号を算出してユーザの存在する実空間の空間モデルへ前記仮想的な音源を配置する空間モデル化処理を実行する空間モデル化部
をさらに備え、
前記畳み込み部は、
前記仮想的な音源に対する前記音声出力ユニットの各位置に応じた前記伝達関数を取得する
ことを特徴とする請求項１または２に記載の音声信号処理装置。
前記空間モデル化部は、
前記実空間を認識する空間認識センサ部の検知結果に基づいて認識された物体のオブジェクトモデルを前記空間モデルへさらに配置し、
前記畳み込み部は、
前記空間モデルに配置された前記オブジェクトモデルに基づいて前記音声出力ユニットの位置を推定する
ことを特徴とする請求項３に記載の音声信号処理装置。
前記空間モデル化部は、
仮想空間体験を含むデジタルコンテンツである３Ｄコンテンツに含まれる音源を前記空間モデルへさらに配置する
ことを特徴とする請求項３または４に記載の音声信号処理装置。
前記畳み込み部は、
前記音声出力ユニットの移動量および回転量に基づいて前記音声出力ユニットの位置および姿勢の変化を検知し、該変化に応じた前記伝達関数を取得する
ことを特徴とする請求項１～５のいずれか一つに記載の音声信号処理装置。
ヘッドホンと、音声信号処理装置とを備える立体音響システムであって、
前記ヘッドホンは、
ユーザの耳介の外側において少なくとも前後に独立して配置された音声出力ユニット
を備え、
前記音声信号処理装置は、
前記音声出力ユニットそれぞれへ向けての音声信号に対し、音源から前記音声出力ユニットの各位置までの個別の伝達関数を用いた畳み込み処理を実行する畳み込み部
を備えることを特徴とする立体音響システム。
ユーザの耳介の外側において少なくとも前後に独立して配置された音声出力ユニットそれぞれへ向けての音声信号に対し、音源から前記音声出力ユニットの各位置までの個別の伝達関数を用いた畳み込み処理を実行する
ことを特徴とする音声信号処理方法。
独立して配置された音声出力ユニットに出力する音声信号に立体音響処理をする音声信号処理方法であって、
実空間の音源を空間モデルへ仮想的な仮想音源として配置する空間モデル化処理を行い、
前記仮想音源から前記音声出力ユニットの各位置までの個別の伝達関数を用いた畳み込み処理を実行する
ことを特徴とする音声信号処理方法。