JP2017143324A

JP2017143324A - 再合成装置、再合成方法、プログラム

Info

Publication number: JP2017143324A
Application number: JP2016021540A
Authority: JP
Inventors: 健太丹羽; Kenta Niwa; 和則小林; Kazunori Kobayashi
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-02-08
Filing date: 2016-02-08
Publication date: 2017-08-17
Anticipated expiration: 2036-02-08
Also published as: JP6526582B2

Abstract

【課題】ＨＲＴＦの畳み込みにより局所音源信号群からバイノーラル音を再合成する際の処理演算量を削減した再合成装置を提供する。【解決手段】方向別に分離した音源信号である局所音源信号群からバイノーラル音を再合成する再合成装置であって、局所音源信号群の各々についてフレームごとの局所音源信号パワーを計算する局所音源信号パワー計算部３１０と、局所音源信号パワーが大きいことを示す所定の範囲にある局所音源信号とＨＲＴＦを畳み込み、バイノーラル音を再合成する選択型ＨＲＴＦ畳み込み部３２０とを含む。【選択図】図５

Description

本発明は、バイノーラル音を再合成する技術に関し、特に方向別に分離した音源信号である局所音源信号群から再合成する技術に関する。

近年、全天球カメラが普及したことを背景として、ユーザが見渡している映像に対応した音を仮想的に生成するための研究が盛んにおこなわれている。その一つに、全天球映像音声視聴システムがある（非特許文献１）。全天球映像とは、全天球カメラで撮影した映像のことである。これにより、ユーザはあたかも撮影した場にいるかのような映像を視ることが可能となる。

全天球映像音声視聴システムでは、複数の領域（具体的には、特定の角度幅で区切った領域）において推定した局所音源信号群にＨＲＴＦ（Ｈｅａｄ−ＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）を畳み込むことにより、ユーザが見渡している映像に対応するバイノーラル音を生成・出力することができる。このシステムでは、ユーザがジャイロセンサ付きのＨＭＤ（ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）を装着することで、頭部方向をリアルタイムに取得する。そして、取得した頭部方向に応じて各局所音源信号に畳み込むＨＲＴＦを切り替えることで、ユーザが見渡している映像に対応したバイノーラル音をリアルタイムに生成する。生成したバイノーラル音はイヤホンやヘッドホンを用いて聴取される。

なお、ＨＭＤは１枚のフレネルレンズとスマートホンを組み合わせて構成されるような簡単なものでもよい。スマートホンを用いて構成することにより、ネットワークで配信されるコンテンツの視聴が容易に可能となる。

以下では、全天球映像音声視聴システムにおける音の生成（全天球映像に対応したバイノーラル音の生成システム）について説明する。

Ｋ個（Ｋは１以上の整数）の音源が存在する音場に、Ｍ本（Ｍは１以上の整数）のマイクロホンで構成されたアレイを設置して観測することを想定する。ｋ番目（１≦ｋ≦Ｋ）の音源信号をＳ_ｋ,ω,τ、ｍ番目（１≦ｍ≦Ｍ）の観測信号をＸ_ｍ,ω,τ、その間の伝達特性をＡ_ｍ,ｋ,ωとするとき、観測信号群ｘ_ω,τは次式でモデル化される。

ここで、ω、τはそれぞれ周波数のインデックス、フレーム時間（以下、単にフレームともいう）のインデックスを表す。また、

であり、Ｔは転置、Ｎ_ｍ,ω,τはｍ番目の観測信号に含まれる背景雑音を表す。

ユーザが見渡している映像に対応したバイノーラル音ｂ_ω,τ＝[Ｂ_ω,τ ^（Left），Ｂ_ω,τ ^(Right)]^Ｔの生成について説明する。フレーム時間τにおけるユーザの頭部方向（極座標表現）をΨ_τ＝［Ψ_τ ^(Hor)，Ψ_τ ^(Ver)]^Ｔと表す。

音源の指向性や背景雑音を無視できると仮定したとき、ユーザの頭部方向と各音源の間のＨＲＴＦを各音源信号に畳み込むことで、ユーザが見渡している映像に対応したバイノーラル音ｂ_ω,τを出力できる。その様子を図１に示す。

ここで、Ｈ_ｋ,Ψτ,ω ^(Left)、Ｈ_ｋ,Ψτ,ω ^(Right)は、ｋ番目の音源とユーザの左耳間のＨＲＴＦ、ｋ番目の音源とユーザの右耳間のＨＲＴＦをそれぞれ表す。

近接した音源の位置の違いに対してＨＲＴＦが劇的に変化しないことを考慮すると、局所的な領域内にある音源群を１つの音源信号（以下、局所音源信号という）と見なしてもユーザの音像定位に大きな影響を及ぼさないと考えられる。そこで、全天球映像音声視聴システムでは、個々の音源信号を抽出するのではなく、方向Θ_ｊ＝[Θ_ｊ ^(Hor),Θ_ｊ ^(Ver)]^Ｔ（ｊ＝１，…，Ｌ）を主軸とした角度幅を持つＬ個の領域（以下、簡単のため、局所領域Θ_ｊともいう）群における局所音源信号群を推定する方向別収音する方式を採用する。その様子を図２に示す。例えば、図２の局所音源信号Ｚ_Θ３,ω,τと図１の３番目の音源信号Ｓ_３,ω,τ、４番目の音源信号Ｓ_４,ω,τが対応していることを示している。なお、方向別収音の具体的な方法については後述する。

方向Θ_ｊ＝[Θ_ｊ ^(Hor),Θ_ｊ ^(Ver)]^Ｔを主軸とした角度幅を持つ領域とその他領域から到来した音源群を分離し、局所音源信号Ｚ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）が推定されたと仮定すると、ユーザが見渡している映像に対応したバイノーラル音ｂ_ω,τは、次式で仮想的に生成される。

ここで、Ｈ_{Θｊ,Ψτ,ω} ^(Left)、Ｈ_{Θｊ,Ψτ,ω} ^(Right)は、ｊ番目の局所領域Θ_ｊの主軸方向とユーザの左耳間のＨＲＴＦ、ｊ番目の局所領域Θ_ｊの主軸方向とユーザの右耳間のＨＲＴＦをそれぞれ表す。

なお、音場の残響時間、頭部や両耳の物理構造の個人性、音源と受聴者の間の距離に応じてＨＲＴＦが変化することは一般的に知られているが、ここでは、これらの影響を無視できると仮定し、Ｈ_{Θｊ,Ψτ,ω} ^(Left)、Ｈ_{Θｊ,Ψτ,ω} ^(Right)を簡略化して表すこととした。この簡略化したＨ_{Θｊ,Ψτ,ω} ^(Left)、Ｈ_{Θｊ,Ψτ,ω} ^(Right)は、あらかじめＨＡＴＳ（ＨｅａｄａｎｄＴｏｒｓｏＳｉｍｕｌａｔｏｒｓ）を低残響下に設置し、スピーカを離散的に配置して収録したデータベースから最も近い方向のＨＲＴＦを選択することで得られる。

音源信号群ｓ_ω,τからバイノーラル音ｂ_ω,τを生成するための全体的な処理フローを図３に示す。図３における再合成処理が式（９）、式（１０）を用いたバイノーラル音の生成に対応する。その際、ＨＭＤにより取得されたユーザの頭部方向が入力される（図３におけるユーザコントロールが対応する）。

次に、観測信号群ｘ_ω,τから局所音源信号群ｚ_ω,τ＝[Ｚ_Θ１,ω,τ，…，Ｚ_ΘＬ,ω,τ]^Ｔを収音する方向別収音について説明する。全天球映像音声視聴システムでは、局所ＰＳＤ（ＰｏｗｅｒＳｐｅｃｔｒａｌＤｅｎｓｉｔｙ）推定に基づく音源強調方式による方向別収音を用いる。

ここで、全天球映像音声視聴システムにおいて音源別収音でなく、方向別収音を用いる理由を説明する。ユーザが見渡している映像に対応するように分離した信号群を定位操作し再合成するという用途では、近接した位置にある音源群を無理に分離する必要性はないと考えられる。これは、音源群と受聴者の間のＨＲＴＦの特性が大きく変わらないため、受聴者の音像定位に対して大きな影響を及ぼさないからである。むしろ、音源が時々刻々と移動する状況を想定するならば、できるだけ均一に区切られた領域群に対応する局所音源信号群を生成できる方が好ましいからである。

観測信号群ｘ_ω,τにビームフォーミングを適用する、あるいはショットガンマイクのような超指向性のマイクロホンを用いて受音する等の手段により方向Θ_ｊを主軸とした角度幅を持つ領域（局所領域Θ_ｊ）から到来した音をプリエンハンスした信号をＹ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）とする。また、プリエンハンスした信号群をｙ_ω,τ＝［Ｙ_Θ１,ω,τ，…，Ｙ_ΘＬ,ω,τ］^Ｔと表す。プリエンハンスした信号群ｙ_ω,τを生成する処理が図３における指向性形成処理である。

音源信号が互いに無相関であると仮定すると、Ｙ_Θｊ,ω,τのＰＳＤφ_ＹΘｊ,ωは次式でモデル化される。

ここで、＜・＞は期待値演算、Ｄ_Θｊ,ｋ,ωはｋ番目の音源に対するｊ番目のビームフォーミング／受音の平均的な感度、φ_Ｓｋ,ωはｋ番目の音源のＰＳＤを表す。

式（１１）の関係が局所音源信号群ｚ_ω,τとプリエンハンスされた信号群ｙ_ω,τの関係についても成り立つと仮定すると、φ_ＹΘｊ,ωは次式で近似して表される。

ここで、Ｄ_{Θｊ,Θｉ,ω}は方向Θ_ｉを主軸とした角度幅を持つ領域に対するｊ番目のビームフォーミング／受音の平均的な感度、φ_ＳΘｉ,ωはｉ番目の局所音源信号のＰＳＤ（局所ＰＳＤ）を表す。Ｌ個のφ_ＳΘｉ,ωとφ_ＹΘｊ,ωの関係は次式でモデル化される。

Ｌ個の局所ＰＳＤφ_ＳΘｉ,ωを推定するために、式（１３）の逆問題を解く。ここでは、雑音抑圧性能を高めるために、フレーム毎に局所ＰＳＤを推定することとすると、逆問題は次式で定式化される。

なお、実用上の課題としてスパース性を仮定できる局所領域の数Ｌ、Ｄ_ω ^?１の安定性を制御する課題が生じる。Ｄ_ωの要素はすべて正の数であるため、Ｄ_ωの特異値の条件によっては安定に解が求まらないこともある。したがって、マニュアルで安定化計算の調整をする必要がある。例えば、以下のように対角項に所定の値を加算する操作を行い、調整すればよい。

ここで、εは安定化係数であり、値が大きいほど安定な逆行列計算を可能にする。

観測信号に干渉雑音のみが混在している場合には、式（１４）で算出したΦ＾_Ｓ,ω,τから目的音のＰＳＤ（目的音ＰＳＤ）及び雑音のＰＳＤ（雑音ＰＳＤ）を求めればよい。なお、目的音のＰＳＤ、雑音のＰＳＤは音源強調のフィルタを生成する際に必要となる。

しかし、実際には式（１）のように非干渉性（あるいは拡散性）の背景雑音が観測信号に存在する。そのような場合には、干渉性雑音のＰＳＤ（干渉雑音ＰＳＤ）と背景雑音のＰＳＤ（背景雑音ＰＳＤ）を別々に推定した方が精度の高い音源強調のフィルタを生成できると考えられる。干渉性雑音のＰＳＤと背景雑音のＰＳＤを別々に推定するための一方法を以下で説明する。

まず、式（１４）で算出したΦ＾_Ｓ,ω,τから背景雑音のＰＳＤを取り除く。背景雑音は目的音、干渉性雑音とは無相関であると仮定できるので、パワースペクトル領域での加算性を仮定しても近似的には成り立つと考えられる。ｉ番目の方向Θ_ｉの局所領域にある音源群を目的音とする。そのとき、局所ＰＳＤφ_{ＳΘｉ,ω,τ}からその中に存在する背景雑音ＰＳＤφ_{BNTΘｉ,ω,τ}を減算する。これにより、推定された目的音のＰＳＤ（背景雑音の影響を除去済みのもの）φ_{TSΘｉ,ω,τ}が求まる。

もし、目的音ＰＳＤφ_{TSΘｉ,ω,τ}が０より小さいときには０にする。また、式（１６）の背景雑音ＰＳＤφ_{BNTΘｉ,ω,τ}を計算するために背景雑音が時間的な定常性が強い（つまり、時間に応じて劇的に変化しない）ことを仮定し、再帰的な更新アルゴリズムにより、φ_{ＳΘｉ,ω,τ}を時間平滑化処理することで突発性の成分を除去すると、式（１７）が得られる。

ここで、β_ωは時間平滑化のための定数である。例えば、１５０ｍｓ程度で忘却するように設定すればよい。φ⁻ _{ＳΘｉ,ω,τ}の区間Τにおける最低値を保持することで、目的音領域（つまり、局所領域Θ_ｉ）の背景雑音ＰＳＤφ_{BNTΘｉ,ω,τ}を推定することができる。

同様に、目的音領域（局所領域Θ_ｉ）以外の領域にある干渉性雑音群のＰＳＤφ_{ISΘｉ,ω,τ}を推定するために目的音と同様に背景雑音のＰＳＤφ_{BNIΘｉ,ω,τ}を減算する。

ここで、α_１,ωはコンテンツに応じて最適値が変わる重み係数である。また、干渉性雑音群のＰＳＤφ_{ISΘｉ,ω,τ}についても０より小さいときには０にフロアリングする。式（１９）にある背景雑音ＰＳＤφ_{BNIΘｉ,ω,τ}は以下のように計算する。

ｊ番目の局所音源信号Ｚ_Θｊ,ω,τを推定するためのウィーナーフィルタＧ_Θｊ,ω,τを生成する。

ここで、α_２,ω、α_３,ωは重み係数である。

式（２２）を用いて計算した後のウィーナーフィルタＧ_Θｊ,ω,τを以下のように整形する。

ここで、α_４,ωは重み係数である。この後、α_５,ω（０≦α_５,ω＜１）を用いて、α_５,ω≦Ｇ_Θｊ,ω,τ≦１となるようにＧ_Θｊ,ω,τのフロアリング処理を行う。局所音源信号Ｚ_Θｊ,ω,τは次式で算出される。

プリエンハンスした信号群ｙ_ω,τをウィーナーフィルタリングすることにより局所音源信号群ｚ_ω,τを生成する処理が図３における方向別収音処理である。

最後に、全天球映像音声視聴システムにおけるバイノーラル音の生成処理を実行するバイノーラル音生成システム９００について説明する。図４は、バイノーラル音生成システム９００の構成を示すブロック図である。図４に示すようにバイノーラル音生成システム９００は、収音装置９０５と、再合成装置９５５を含む。収音装置９０５は、Ｍ本のマイクロホン９１０−１〜９１０−Ｍと、Ｍ個の周波数領域変換部９２０−１〜９２０−Ｍと、Ｌ個のビームフォーミング部９３０−１〜９３０−Ｌと、局所ＰＳＤ推定部９４０と、ウィーナーフィルタリング部９５０を含む。再合成装置９５５は、ＨＲＴＦ畳み込み部９６０を含む。

時間領域観測信号群から局所音源信号群を生成する処理（音源分離処理）を実行するのが、収音装置９０５である。マイクロホン９１０−１〜９１０−Ｍは、Ｋ個の音源が存在する音場の音声を収音し、時間領域観測信号を生成する。周波数領域変換部９２０−１〜９２０−Ｍは、それぞれ時間領域観測信号を観測信号Ｘ_ｍ,ω,τ（１≦ｍ≦Ｍ）に変換する。

ビームフォーミング部９３０−１〜９３０−Ｌは、Ｍ個の観測信号（観測信号群）からプリエンハンスした信号Ｙ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）を生成する。なお、マイクロホン９１０−１〜９１０−Ｍの代わりに、Ｌ＝Ｍとして、Ｌ個の指向性マイクを用いて収音するのでもよい。この場合、指向性マイクを用いて収音した信号をプリエンハンスした信号Ｙ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）としてよいので、ビームフォーミング部９３０−１〜９３０−Ｌが不要になる。

局所ＰＳＤ推定部９４０は、プリエンハンスした信号Ｙ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）を用いて目的音のＰＳＤ、干渉雑音のＰＳＤ、背景雑音のＰＳＤを生成する。具体的には、式（１４）、式（１６）、式（１９）、式（１８）を用いて、目的音ＰＳＤ、干渉雑音ＰＳＤ、背景雑音ＰＳＤを生成する。

ウィーナーフィルタリング部９５０は、目的音のＰＳＤ、干渉雑音のＰＳＤ、背景雑音のＰＳＤを用いてＬ個のウィーナーフィルタを生成し、プリエンハンスした信号Ｙ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）にウィーナーフィルタＧ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）を適用し、局所音源信号Ｚ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）を生成する。具体的には、式（２２）、式（２３）、式（２４）を用いて局所音源信号Ｚ_Θｊ,ω,τを生成する。

局所音源信号群からバイノーラル音を生成する処理（再合成処理）を実行するのが、再合成装置９５５である。ＨＲＴＦ畳み込み部９６０は、局所音源信号Ｚ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）からバイノーラル音ｂ_ω,τを生成する。具体的には、式（９）、式（１０）を用いて受聴用のバイノーラル信号である受聴信号（左）と受聴信号（右）を生成する。

なお、インターネットのようなネットワークに収音装置９０５と再合成装置９５５を接続してバイノーラル音生成システム９００を構成することもできる。この場合、収音装置９０５、再合成装置９５５はネットワークによる通信に必要は手段を具備する必要があるのはいうまでもない。また、伝送に適するよう、局所音源信号群を符号化する符号化部、局所音源信号群を符号化した符号化データを復号する復号部をそれぞれ収音装置９０５、再合成装置９５５に備えるようにしてもよい。

丹羽健太、小泉悠馬、小林和則、植松尚、"全天球映像に対応したバイノーラル音を生成するための方向別収音に関する検討"、信学技報EA2015-7、電子情報通信学会、２０１５年７月、vol.115, no.126, pp.33-38.

収音装置９０５と再合成装置９５５をネットワークに接続してバイノーラル音生成システム９００を構成する場合、例えばスマートホンを用いて再合成装置９５５を構成する方法が考えられる。しかし、スマートホンでバイノーラル音の生成のための局所音源信号群のＨＲＴＦ畳み込み演算をそのまま実行すると、計算に時間がかかる。また、計算に時間がかかることに起因して、バッテリーも大きく消耗してしまう。

そこで本発明では、ＨＲＴＦの畳み込みにより局所音源信号群からバイノーラル音を再合成する際の処理演算量を削減した再合成装置を提供することを目的とする。

本発明の一態様は、方向別に分離した音源信号である局所音源信号群からバイノーラル音を再合成する再合成装置であって、前記局所音源信号群の各々についてフレームごとの局所音源信号パワーを計算する局所音源信号パワー計算部と、前記局所音源信号パワーが大きいことを示す所定の範囲にある局所音源信号とＨＲＴＦを畳み込み、前記バイノーラル音を再合成する選択型ＨＲＴＦ畳み込み部とを含む。

本発明によれば、局所音源信号のパワーを基準に処理対象とする局所音源信号を選択することにより、局所音源信号群からバイノーラル音を再合成するためのＨＲＴＦとの畳み込みに係る処理演算量を削減することが可能となる。

音源別収音を用いた頭部方向に応じたバイノーラル音の生成のイメージを示す図。方向別収音を用いた頭部方向に応じたバイノーラル音の生成のイメージを示す図。全天球映像音声視聴システムにおけるバイノーラル音の生成処理フローを示す図。バイノーラル音生成システム９００の構成を示すブロック図。再合成装置３００の構成を示すブロック図。再合成装置３００の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下、図５〜図６を参照して再合成装置３００について説明する。図５は、再合成装置３００の構成を示すブロック図である。図６は、再合成装置３００の動作を示すフローチャートである。図５に示すように再合成装置３００は、局所音源信号パワー計算部３１０と、選択型ＨＲＴＦ畳み込み部３２０を含む。

局所音源信号パワー計算部３１０は、局所音源信号群から局所音源信号パワー群を計算する（Ｓ３１０）。具体的には、局所音源信号パワー計算部３１０では、周波数領域の局所音源信号Ｚ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）を時間領域に変換した局所音源信号ｚ_Θｊ,ｔ（ｊ＝１，…，Ｌ）から、式（２５）を用いて局所音源信号のパワーγ_Θｊ,τ（ｊ＝１，…，Ｌ）を計算する。

ここで、Τ_τはフレームτに含まれる量子化時間インデックス群を表す。量子化時間インデックス群のサイズは通常は数百〜数千くらいであることが多い。

ここでは、局所音源信号パワー計算部３１０の入力を周波数領域の局所音源信号群として説明したが、時間領域の局所音源信号群を入力としてもよい。

選択型ＨＲＴＦ畳み込み部３２０は、局所音源信号パワーγ_Θｊ,τ（ｊ＝１，…，Ｌ）を用いて畳み込み対象とする局所音源信号を選択し、選択した局所音源信号からバイノーラル音を生成する（Ｓ３２０）。具体的には、パワーγ_Θｊ,τが所定の閾値よりも小さい（あるいは所定の閾値以下の）場合、ＨＲＴＦとの畳み込み演算を行わないこととする。なお、この閾値は、音源からの信号がない状態に対応する数値であればよい。例えば、背景雑音や残響成分に相当する程度の値になるように設定すればよい。あるいは、局所音源信号の平均パワーの−２０ｄＢ程度の値になるように設定すればよい。閾値以上の（あるいは閾値よりも大きい）局所音源信号のチャネルインデックス群をρ_τと表す（つまり、ρ_τは｛１，…，Ｌ｝の部分集合である）。以下では、パワーγ_Θｊ,τが閾値以上であるあるいは閾値よりも大きいことを、パワーγ_Θｊ,τが大きいことを示す所定の範囲にあるということにする。式（２６）、式（２７）を用いて、ρ_τに含まれるチャネルとＨＲＴＦを畳み込む。

なお、コンテンツにもよるが、（時間とともに変化する）同時発音領域数は多くても２〜３程度であることが多い。このように音源は概ね空間的にスパースである。したがって、チャネルインデックス群ρ_τの集合としてのサイズ（つまり、ＨＲＴＦ畳み込み演算を行うチャネル数）が方向別収音により分割した領域数（Ｌ＝５〜６を想定）になってしまうこともあり得るが、コンテンツの同時発音領域数を考慮すると、ほとんどのフレームにおいてＨＲＴＦ畳み込み演算を行うチャネル数は２、３チャンネル以下で十分定位感のある受聴信号を生成することができる。

また、チャネルインデックス群ρ_τの集合としてのサイズの上限を設定（例えばサイズ上限を１または２に設定）したうえで、ＨＲＴＦ畳み込み演算を実行してもよい。例えば、パワーが大きいことを示す所定の範囲にある局所音源信号のうち、パワーが最大となる局所音源信号のみ（あるいは、パワーが最大となる局所音源信号と２番目に大きい局所音源信号）をＨＲＴＦ畳み込み演算の対象としてもよい。このようにチャネルインデックス群ρ_τの集合としてのサイズが高々１や２になるようにしても視聴品質に問題が生じないある程度の定位感は得られると同時にＨＲＴＦ畳み込みの処理演算を最小にすることが可能となる。

本実施形態では、選択型ＨＲＴＦ畳み込み部３２０が、事前に計算された局所音源信号のパワーを用いて所定の条件を満たすと判断されたチャネルの局所音源信号のみを畳み込み対象としてＨＲＴＦとの畳み込み演算を実行する。これにより、ＨＲＴＦとの畳み込みの処理演算量（選択型ＨＲＴＦ畳み込み部３２０における処理演算量）を削減することが可能となる。また、選択型ＨＲＴＦ畳み込み部３２０における処理演算量を削減することにより、再合成装置３００をスマートホン等バッテリー容量があまり大きくない端末を用いて実装した場合のバッテリーの持ちを改善することが可能となる。特に、ＨＲＴＦ畳み込み対象とするチャネル数に上限を設けることにより、選択型ＨＲＴＦ畳み込み部３２０における処理演算量の最小化及びバッテリーの持ち時間の最大化を図りつつ、ある程度定位感のあるバイノーラル音の再合成が可能となる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

方向別に分離した音源信号である局所音源信号群からバイノーラル音を再合成する再合成装置であって、
前記局所音源信号群の各々についてフレームごとの局所音源信号パワーを計算する局所音源信号パワー計算部と、
前記局所音源信号パワーが大きいことを示す所定の範囲にある局所音源信号とＨＲＴＦを畳み込み、前記バイノーラル音を再合成する選択型ＨＲＴＦ畳み込み部と
を含む再合成装置。
請求項１に記載の再合成装置であって、
ＰをＨＲＴＦ畳み込みの対象とする局所音源信号の数の上限を表す整数とし、
前記局所音源信号パワーが大きいことを示す所定の範囲にある局所音源信号が複数ある場合は、高々Ｐ個以下の局所音源信号のみをＨＲＴＦ畳み込みの対象とする再合成装置。
方向別に分離した音源信号である局所音源信号群からバイノーラル音を再合成する再合成方法であって、
前記局所音源信号群の各々についてフレームごとの局所音源信号パワーを計算する局所音源信号パワー計算ステップと、
前記局所音源信号パワーが大きいことを示す所定の範囲にある局所音源信号とＨＲＴＦを畳み込み、前記バイノーラル音を再合成する選択型ＨＲＴＦ畳み込みステップと
を実行する再合成方法。
請求項１または２に記載の再合成装置としてコンピュータを機能させるためのプログラム。