JP2017143325A

JP2017143325A - 収音装置、収音方法、プログラム

Info

Publication number: JP2017143325A
Application number: JP2016021541A
Authority: JP
Inventors: 健太丹羽; Kenta Niwa; 和則小林; Kazunori Kobayashi
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-02-08
Filing date: 2016-02-08
Publication date: 2017-08-17

Abstract

【課題】方向別に分離した音源信号である局所音源信号群のデータ量を削減する収音装置を提供する。
【解決手段】方向Θ_ｊ（ｊ＝１，…，Ｌ）を主軸とした角度幅を持つ領域（以下、局所領域Θ_ｊという）にある音源からの音（以下、局所領域Θ_ｊの音という）をプリエンハンスした信号のＰＳＤから生成される、局所領域Θ_ｊの音から背景雑音の影響を除去した目的音のＰＳＤ（以下、局所領域Θ_ｊの目的音ＰＳＤφ_{TSΘｊ,ω,τ}という）を用いて構成されるウィーナーフィルタをプリエンハンスした信号に適用して、局所領域Θ_ｊの音を分離した局所音源信号を生成する収音装置であって、ξ_τをフレームごとに決定される１以上Ｌ以下の整数とし、局所領域Θ_ξτに近接する局所領域の目的音ＰＳＤの取りうる値に偏りが生じるよう調整することにより生成した目的音ＰＳＤを前記局所領域Θ_ｊの目的音ＰＳＤとする領域間局所ＰＳＤ調整部２１０とを含む。
【選択図】図５

Description

本発明は、収音技術に関し、特に方向別に分離した音源信号である局所音源信号群のデータ量を削減する技術に関する。

近年、全天球カメラが普及したことを背景として、ユーザが見渡している映像に対応した音を仮想的に生成するための研究が盛んにおこなわれている。その一つに、全天球映像音声視聴システムがある（非特許文献１）。全天球映像とは、全天球カメラで撮影した映像のことである。これにより、ユーザはあたかも撮影した場にいるかのような映像を視ることが可能となる。

全天球映像音声視聴システムでは、複数の領域（具体的には、特定の角度幅で区切った領域）において推定した局所音源信号群にＨＲＴＦ（Ｈｅａｄ−ＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）を畳み込むことにより、ユーザが見渡している映像に対応するバイノーラル音を生成・出力することができる。このシステムでは、ユーザがジャイロセンサ付きのＨＭＤ（ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）を装着することで、頭部方向をリアルタイムに取得する。そして、取得した頭部方向に応じて各局所音源信号に畳み込むＨＲＴＦを切り替えることで、ユーザが見渡している映像に対応したバイノーラル音をリアルタイムに生成する。生成したバイノーラル音はイヤホンやヘッドホンを用いて聴取される。

なお、ＨＭＤは１枚のフレネルレンズとスマートホンを組み合わせて構成されるような簡単なものでもよい。スマートホンを用いて構成することにより、ネットワークで配信されるコンテンツの視聴が容易に可能となる。

以下では、全天球映像音声視聴システムにおける音の生成（全天球映像に対応したバイノーラル音の生成システム）について説明する。

Ｋ個（Ｋは１以上の整数）の音源が存在する音場に、Ｍ本（Ｍは１以上の整数）のマイクロホンで構成されたアレイを設置して観測することを想定する。ｋ番目（１≦ｋ≦Ｋ）の音源信号をＳ_ｋ,ω,τ、ｍ番目（１≦ｍ≦Ｍ）の観測信号をＸ_ｍ,ω,τ、その間の伝達特性をＡ_ｍ,ｋ,ωとするとき、観測信号群ｘ_ω,τは次式でモデル化される。

ここで、ω、τはそれぞれ周波数のインデックス、フレーム時間（以下、単にフレームともいう）のインデックスを表す。また、

であり、Ｔは転置、Ｎ_ｍ,ω,τはｍ番目の観測信号に含まれる背景雑音を表す。

ユーザが見渡している映像に対応したバイノーラル音ｂ_ω,τ＝[Ｂ_ω,τ ^（Left），Ｂ_ω,τ ^(Right)]^Ｔの生成について説明する。フレーム時間τにおけるユーザの頭部方向（極座標表現）をΨ_τ＝［Ψ_τ ^(Hor)，Ψ_τ ^(Ver)]^Ｔと表す。

音源の指向性や背景雑音を無視できると仮定したとき、ユーザの頭部方向と各音源の間のＨＲＴＦを各音源信号に畳み込むことで、ユーザが見渡している映像に対応したバイノーラル音ｂ_ω,τを出力できる。その様子を図１に示す。

ここで、Ｈ_ｋ,Ψτ,ω ^(Left)、Ｈ_ｋ,Ψτ,ω ^(Right)は、ｋ番目の音源とユーザの左耳間のＨＲＴＦ、ｋ番目の音源とユーザの右耳間のＨＲＴＦをそれぞれ表す。

近接した音源の位置の違いに対してＨＲＴＦが劇的に変化しないことを考慮すると、局所的な領域内にある音源群を１つの音源信号（以下、局所音源信号という）と見なしてもユーザの音像定位に大きな影響を及ぼさないと考えられる。そこで、全天球映像音声視聴システムでは、個々の音源信号を抽出するのではなく、方向Θ_ｊ＝[Θ_ｊ ^(Hor),Θ_ｊ ^(Ver)]^Ｔ（ｊ＝１，…，Ｌ）を主軸とした角度幅を持つＬ個の領域（以下、簡単のため、局所領域Θ_ｊともいう）群における局所音源信号群を推定する方向別収音する方式を採用する。その様子を図２に示す。例えば、図２の局所音源信号Ｚ_Θ３,ω,τと図１の３番目の音源信号Ｓ_３,ω,τ、４番目の音源信号Ｓ_４,ω,τが対応していることを示している。なお、方向別収音の具体的な方法については後述する。

方向Θ_ｊ＝[Θ_ｊ ^(Hor),Θ_ｊ ^(Ver)]^Ｔを主軸とした角度幅を持つ領域とその他領域から到来した音源群を分離し、局所音源信号Ｚ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）が推定されたと仮定すると、ユーザが見渡している映像に対応したバイノーラル音ｂ_ω,τは、次式で仮想的に生成される。

ここで、Ｈ_{Θｊ,Ψτ,ω} ^(Left)、Ｈ_{Θｊ,Ψτ,ω} ^(Right)は、ｊ番目の局所領域Θ_ｊの主軸方向とユーザの左耳間のＨＲＴＦ、ｊ番目の局所領域Θ_ｊの主軸方向とユーザの右耳間のＨＲＴＦをそれぞれ表す。

なお、音場の残響時間、頭部や両耳の物理構造の個人性、音源と受聴者の間の距離に応じてＨＲＴＦが変化することは一般的に知られているが、ここでは、これらの影響を無視できると仮定し、Ｈ_{Θｊ,Ψτ,ω} ^(Left)、Ｈ_{Θｊ,Ψτ,ω} ^(Right)を簡略化して表すこととした。この簡略化したＨ_{Θｊ,Ψτ,ω} ^(Left)、Ｈ_{Θｊ,Ψτ,ω} ^(Right)は、あらかじめＨＡＴＳ（ＨｅａｄａｎｄＴｏｒｓｏＳｉｍｕｌａｔｏｒｓ）を低残響下に設置し、スピーカを離散的に配置して収録したデータベースから最も近い方向のＨＲＴＦを選択することで得られる。

音源信号群ｓ_ω,τからバイノーラル音ｂ_ω,τを生成するための全体的な処理フローを図３に示す。図３における再合成処理が式（９）、式（１０）を用いたバイノーラル音の生成に対応する。その際、ＨＭＤにより取得されたユーザの頭部方向が入力される（図３におけるユーザコントロールが対応する）。

次に、観測信号群ｘ_ω,τから局所音源信号群ｚ_ω,τ＝[Ｚ_Θ１,ω,τ，…，Ｚ_ΘＬ,ω,τ]^Ｔを収音する方向別収音について説明する。全天球映像音声視聴システムでは、局所ＰＳＤ（ＰｏｗｅｒＳｐｅｃｔｒａｌＤｅｎｓｉｔｙ）推定に基づく音源強調方式による方向別収音を用いる。

ここで、全天球映像音声視聴システムにおいて音源別収音でなく、方向別収音を用いる理由を説明する。ユーザが見渡している映像に対応するように分離した信号群を定位操作し再合成するという用途では、近接した位置にある音源群を無理に分離する必要性はないと考えられる。これは、音源群と受聴者の間のＨＲＴＦの特性が大きく変わらないため、受聴者の音像定位に対して大きな影響を及ぼさないからである。むしろ、音源が時々刻々と移動する状況を想定するならば、できるだけ均一に区切られた領域群に対応する局所音源信号群を生成できる方が好ましいからである。

観測信号群ｘ_ω,τにビームフォーミングを適用する、あるいはショットガンマイクのような超指向性のマイクロホンを用いて受音する等の手段により方向Θ_ｊを主軸とした角度幅を持つ領域（局所領域Θ_ｊ）から到来した音をプリエンハンスした信号をＹ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）とする。また、プリエンハンスした信号群をｙ_ω,τ＝［Ｙ_Θ１,ω,τ，…，Ｙ_ΘＬ,ω,τ］^Ｔと表す。プリエンハンスした信号群ｙ_ω,τを生成する処理が図３における指向性形成処理である。

音源信号が互いに無相関であると仮定すると、Ｙ_Θｊ,ω,τのＰＳＤφ_ＹΘｊ,ωは次式でモデル化される。

ここで、＜・＞は期待値演算、Ｄ_Θｊ,ｋ,ωはｋ番目の音源に対するｊ番目のビームフォーミング／受音の平均的な感度、φ_Ｓｋ,ωはｋ番目の音源のＰＳＤを表す。

式（１１）の関係が局所音源信号群ｚ_ω,τとプリエンハンスされた信号群ｙ_ω,τの関係についても成り立つと仮定すると、φ_ＹΘｊ,ωは次式で近似して表される。

ここで、Ｄ_{Θｊ,Θｉ,ω}は方向Θ_ｉを主軸とした角度幅を持つ領域に対するｊ番目のビームフォーミング／受音の平均的な感度、φ_ＳΘｉ,ωはｉ番目の局所音源信号のＰＳＤ（局所ＰＳＤ）を表す。Ｌ個のφ_ＳΘｉ,ωとφ_ＹΘｊ,ωの関係は次式でモデル化される。

Ｌ個の局所ＰＳＤφ_ＳΘｉ,ωを推定するために、式（１３）の逆問題を解く。ここでは、雑音抑圧性能を高めるために、フレーム毎に局所ＰＳＤを推定することとすると、逆問題は次式で定式化される。

なお、実用上の課題としてスパース性を仮定できる局所領域の数Ｌ、Ｄ_ω ^?１の安定性を制御する課題が生じる。Ｄ_ωの要素はすべて正の数であるため、Ｄ_ωの特異値の条件によっては安定に解が求まらないこともある。したがって、マニュアルで安定化計算の調整をする必要がある。例えば、以下のように対角項に所定の値を加算する操作を行い、調整すればよい。

ここで、εは安定化係数であり、値が大きいほど安定な逆行列計算を可能にする。

観測信号に干渉雑音のみが混在している場合には、式（１４）で算出したΦ＾_Ｓ,ω,τから目的音のＰＳＤ（目的音ＰＳＤ）及び雑音のＰＳＤ（雑音ＰＳＤ）を求めればよい。なお、目的音のＰＳＤ、雑音のＰＳＤは音源強調のフィルタを生成する際に必要となる。

しかし、実際には式（１）のように非干渉性（あるいは拡散性）の背景雑音が観測信号に存在する。そのような場合には、干渉性雑音のＰＳＤ（干渉雑音ＰＳＤ）と背景雑音のＰＳＤ（背景雑音ＰＳＤ）を別々に推定した方が精度の高い音源強調のフィルタを生成できると考えられる。干渉性雑音のＰＳＤと背景雑音のＰＳＤを別々に推定するための一方法を以下で説明する。

まず、式（１４）で算出したΦ＾_Ｓ,ω,τから背景雑音のＰＳＤを取り除く。背景雑音は目的音、干渉性雑音とは無相関であると仮定できるので、パワースペクトル領域での加算性を仮定しても近似的には成り立つと考えられる。ｉ番目の方向Θ_ｉの局所領域にある音源群を目的音とする。そのとき、局所ＰＳＤφ_{ＳΘｉ,ω,τ}からその中に存在する背景雑音ＰＳＤφ_{BNTΘｉ,ω,τ}を減算する。これにより、推定された目的音のＰＳＤ（背景雑音の影響を除去済みのもの）φ_{TSΘｉ,ω,τ}が求まる。

もし、目的音ＰＳＤφ_{TSΘｉ,ω,τ}が０より小さいときには０にする。また、式（１６）の背景雑音ＰＳＤφ_{BNTΘｉ,ω,τ}を計算するために背景雑音が時間的な定常性が強い（つまり、時間に応じて劇的に変化しない）ことを仮定し、再帰的な更新アルゴリズムにより、φ_{ＳΘｉ,ω,τ}を時間平滑化処理することで突発性の成分を除去すると、式（１７）が得られる。

ここで、β_ωは時間平滑化のための定数である。例えば、１５０ｍｓ程度で忘却するように設定すればよい。φ⁻ _{ＳΘｉ,ω,τ}の区間Τにおける最低値を保持することで、目的音領域（つまり、局所領域Θ_ｉ）の背景雑音ＰＳＤφ_{BNTΘｉ,ω,τ}を推定することができる。

同様に、目的音領域（局所領域Θ_ｉ）以外の領域にある干渉性雑音群のＰＳＤφ_{ISΘｉ,ω,τ}を推定するために目的音と同様に背景雑音のＰＳＤφ_{BNIΘｉ,ω,τ}を減算する。

ここで、α_１,ωはコンテンツに応じて最適値が変わる重み係数である。また、干渉性雑音群のＰＳＤφ_{ISΘｉ,ω,τ}についても０より小さいときには０にフロアリングする。式（１９）にある背景雑音ＰＳＤφ_{BNIΘｉ,ω,τ}は以下のように計算する。

ｊ番目の局所音源信号Ｚ_Θｊ,ω,τを推定するためのウィーナーフィルタＧ_Θｊ,ω,τを生成する。

ここで、α_２,ω、α_３,ωは重み係数である。

式（２２）を用いて計算した後のウィーナーフィルタＧ_Θｊ,ω,τを以下のように整形する。

ここで、α_４,ωは重み係数である。この後、α_５,ω（０≦α_５,ω＜１）を用いて、α_５,ω≦Ｇ_Θｊ,ω,τ≦１となるようにＧ_Θｊ,ω,τのフロアリング処理を行う。局所音源信号Ｚ_Θｊ,ω,τは次式で算出される。

プリエンハンスした信号群ｙ_ω,τをウィーナーフィルタリングすることにより局所音源信号群ｚ_ω,τを生成する処理が図３における方向別収音処理である。

最後に、全天球映像音声視聴システムにおけるバイノーラル音の生成処理を実行するバイノーラル音生成システム９００について説明する。図４は、バイノーラル音生成システム９００の構成を示すブロック図である。図４に示すようにバイノーラル音生成システム９００は、収音装置９０５と、再合成装置９５５を含む。収音装置９０５は、Ｍ本のマイクロホン９１０−１〜９１０−Ｍと、Ｍ個の周波数領域変換部９２０−１〜９２０−Ｍと、Ｌ個のビームフォーミング部９３０−１〜９３０−Ｌと、局所ＰＳＤ推定部９４０と、ウィーナーフィルタリング部９５０を含む。再合成装置９５５は、ＨＲＴＦ畳み込み部９６０を含む。

時間領域観測信号群から局所音源信号群を生成する処理（音源分離処理）を実行するのが、収音装置９０５である。マイクロホン９１０−１〜９１０−Ｍは、Ｋ個の音源が存在する音場の音声を収音し、時間領域観測信号を生成する。周波数領域変換部９２０−１〜９２０−Ｍは、それぞれ時間領域観測信号を観測信号Ｘ_ｍ,ω,τ（１≦ｍ≦Ｍ）に変換する。

ビームフォーミング部９３０−１〜９３０−Ｌは、Ｍ個の観測信号（観測信号群）からプリエンハンスした信号Ｙ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）を生成する。なお、マイクロホン９１０−１〜９１０−Ｍの代わりに、Ｌ＝Ｍとして、Ｌ個の指向性マイクを用いて収音するのでもよい。この場合、指向性マイクを用いて収音した信号をプリエンハンスした信号Ｙ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）としてよいので、ビームフォーミング部９３０−１〜９３０−Ｌが不要になる。

局所ＰＳＤ推定部９４０は、プリエンハンスした信号Ｙ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）を用いて目的音のＰＳＤ、干渉雑音のＰＳＤ、背景雑音のＰＳＤを生成する。具体的には、式（１４）、式（１６）、式（１９）、式（１８）を用いて、目的音ＰＳＤ、干渉雑音ＰＳＤ、背景雑音ＰＳＤを生成する。

ウィーナーフィルタリング部９５０は、目的音のＰＳＤ、干渉雑音のＰＳＤ、背景雑音のＰＳＤを用いてＬ個のウィーナーフィルタを生成し、プリエンハンスした信号Ｙ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）にウィーナーフィルタＧ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）を適用し、局所音源信号Ｚ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）を生成する。具体的には、式（２２）、式（２３）、式（２４）を用いて局所音源信号Ｚ_Θｊ,ω,τを生成する。

局所音源信号群からバイノーラル音を生成する処理（再合成処理）を実行するのが、再合成装置９５５である。ＨＲＴＦ畳み込み部９６０は、局所音源信号Ｚ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）からバイノーラル音ｂ_ω,τを生成する。具体的には、式（９）、式（１０）を用いて受聴用のバイノーラル信号である受聴信号（左）と受聴信号（右）を生成する。

なお、インターネットのようなネットワークに収音装置９０５と再合成装置９５５を接続してバイノーラル音生成システム９００を構成することもできる。この場合、収音装置９０５、再合成装置９５５はネットワークによる通信に必要は手段を具備する必要があるのはいうまでもない。また、伝送に適するよう、局所音源信号群を符号化する符号化部、局所音源信号群を符号化した符号化データを復号する復号部をそれぞれ収音装置９０５、再合成装置９５５に備えるようにしてもよい。

丹羽健太、小泉悠馬、小林和則、植松尚、"全天球映像に対応したバイノーラル音を生成するための方向別収音に関する検討"、信学技報EA2015-7、電子情報通信学会、２０１５年７月、vol.115, no.126, pp.33-38.

収音装置９０５と再合成装置９５５をネットワークに接続してバイノーラル音生成システム９００を構成する場合、方向別に収音したマルチチャネル音声信号である局所音源信号Ｚ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）を収音装置９０５から再合成装置９５５にネットワークを介して送信する必要がある。バイノーラル音生成システム９００を用いて全天球映像視聴サービスを提供する際のチャネル数Ｌは５〜２０程度と想定されるが、Ｌが大きくなると局所音源信号Ｚ_Θｊ,ω,τはデータ量が大きくなる傾向があるため、データ量削減のための処理をせずそのまま送信することにすると通信量が多大になり、ネットワークに負荷がかかってしまう。また、伝送容量が小さいネットワークではそもそも局所音源信号Ｚ_Θｊ,ω,τを送受信することができず、バイノーラル音生成システム９００を利用できない可能性もある。

そこで本発明では、方向別に分離した音源信号である局所音源信号群のデータ量を削減する収音装置を提供することを目的とする。

本発明の一態様は、Ｌを１以上の整数、ωを周波数インデックス、τをフレームインデックスとし、方向Θ_ｊ（ｊ＝１，…，Ｌ）を主軸とした角度幅を持つ領域（以下、局所領域Θ_ｊという）にある音源からの音（以下、局所領域Θ_ｊの音という）をプリエンハンスした信号のＰＳＤから生成される、前記局所領域Θ_ｊの音から背景雑音の影響を除去した目的音のＰＳＤ（以下、局所領域Θ_ｊの目的音ＰＳＤφ_{TSΘｊ,ω,τ}という）を用いて構成されるウィーナーフィルタを前記プリエンハンスした信号に適用して、前記局所領域Θ_ｊの音を分離した局所音源信号を生成する収音装置であって、ξ_τをフレームごとに決定される１以上Ｌ以下の整数とし、局所領域Θ_ξτに近接する局所領域の目的音ＰＳＤの取りうる値に偏りが生じるよう調整することにより生成した目的音ＰＳＤを前記局所領域Θ_ｊの目的音ＰＳＤとする領域間局所ＰＳＤ調整部とを含む。

本発明によれば、近接する局所領域間の目的音のＰＳＤを調整し、同一の音源を強調しないようにすることにより、局所音源信号群のデータ量を削減することが可能となる。

音源別収音を用いた頭部方向に応じたバイノーラル音の生成のイメージを示す図。方向別収音を用いた頭部方向に応じたバイノーラル音の生成のイメージを示す図。全天球映像音声視聴システムにおけるバイノーラル音の生成処理フローを示す図。バイノーラル音生成システム９００の構成を示すブロック図。収音装置２００の構成を示すブロック図。収音装置２００の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

局所領域ごとに独立に目的音のＰＳＤ（目的音ＰＳＤ）、雑音のＰＳＤ（干渉雑音ＰＳＤと背景雑音ＰＳＤ）を推定すると、局所領域間に重複がある場合を含み、局所領域が近接する場合、同一の音源を強調してしまう可能性がある。同一の音源を強調してしまうと、同時発音領域数の増加によってデータ量が増加してしまう可能性がある。また、音像定位が低下してしまう可能性も高くなる。

そこで、受音ゲインが最も高い局所領域に近接する局所領域のウィーナーフィルタのゲインを調整する。具体的には、受音ゲインが最も高い局所領域に近接する局所領域の目的音のＰＳＤをゼロにする。これにより、空間的なスパース性を高め、局所音源信号群のデータ量削減率の高めることができる。

以下、図５〜図６を参照して収音装置２００について説明する。図５は、収音装置２００の構成を示すブロック図である。図６は、収音装置２００の動作を示すフローチャートである。図５に示すように収音装置２００は、Ｍ個のマイクロホン９１０−１〜９１０−Ｍと、Ｍ個の周波数領域変換部９２０−１〜９２０−Ｍと、Ｌ個のビームフォーミング部９３０−１〜９３０−Ｌと、局所ＰＳＤ推定部９４０と、領域間局所ＰＳＤ調整部２１０と、ウィーナーフィルタリング部９５０と、符号化部２２０を含む。

マイクロホン９１０−１〜９１０−Ｍにより収音された時間領域観測信号群から目的音ＰＳＤ、干渉雑音ＰＳＤ、背景雑音ＰＳＤを生成する処理は、先ほどの収音装置９０５と同様、周波数領域変換部９２０−１〜９２０−Ｍ、ビームフォーミング部９３０−１〜９３０−Ｌ、局所ＰＳＤ推定部９４０により実行される（Ｓ９１０、Ｓ９２０、Ｓ９３０、Ｓ９４０）。

領域間局所ＰＳＤ調整部２１０は、目的音ＰＳＤから調整済目的音ＰＳＤを生成する（Ｓ２１０）。具体的には、まず、目的音ＰＳＤφ_{TSΘｊ,ω,τ}を周波数平滑化し、式（２５）を用いて受音ゲインが最も高い方向Θ_ξτ（局所領域Θ_ξτ）をフレームごとに算出する。

ここで、Ωは解析対象の周波数インデックス群である。

次に、式（２６）を用いて局所領域Θ_ξτに近接する局所領域群χ_τの目的音のＰＳＤを抑圧する。つまり、局所領域群χ_τに属する局所領域の目的音のＰＳＤについてはゼロにする一方で、（局所領域Θ_ξτを含む、）局所領域群χ_τに属する局所領域以外の局所領域についてはそのままとする。

なお、厳密にゼロにするのでなく、ｈを０に近い０以上の実数として、局所領域群χ_τに属する局所領域の目的音のＰＳＤをｈと定めてもよい。

これにより、局所領域間の重複部分など近接する部分において同一の音源を強調してしまうことを防ぐことができ、データ量を削減すると同時に音像定位を向上させることが可能となる。また、目的音のＰＳＤに偏りがあれば（所定の局所領域の目的音ＰＳＤが一定値となれば）、符号化部２２０での符号量が抑制されるため、一層のデータ量削減の効果が見込める。特に、式（２６）のようにゼロにする場合が符号量抑制の点からは最も効果が高い。ただし、ｈ＝０とすると音質が劣化する可能性があるため、ｈを０．９以下の（ゼロではない）値とする方がよい場合もある。

また、局所領域群χ_τに属する局所領域の目的音のＰＳＤを一定の値ｈとするのでなく、元々の目的音ＰＳＤより小さい値にするのでもよい。例えば、ｈ’を０≦ｈ’＜１を満たす実数として、局所領域群χ_τに属する局所領域の目的音のＰＳＤをｈ’・φ_{TSΘｊ,ω,τ}と定めてもよい。

このようにしても、量子化数（例えば、１６ｂｉｔ）が事前に決まっているため、ｈ’を小さな値にすれば、目的音ＰＳＤφ_{TSΘｊ,ω,τ}の取りうる値が制限されることになり、目的音ＰＳＤに偏りが出やすくなる。その結果、データ量削減（符号量の抑制）につながる。なお、ｈ’が小さいほど、削減（抑制）の効果は高くなる。ただし、先ほど同様、聴感上の音質劣化が生じる可能性はある。

ウィーナーフィルタリング部９５０は、調整済目的音ＰＳＤ、干渉雑音ＰＳＤ、背景雑音ＰＳＤを用いて、先ほどの収音装置９０５と同様、局所音源信号Ｚ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）を生成する（Ｓ９５０）。先ほどと相違する点は、領域間局所ＰＳＤ調整部２１０により調整された調整済目的音ＰＳＤが入力となっている点である。

符号化部２２０は、局所音源信号Ｚ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）を符号化して、符号化データを生成する（Ｓ２２０）。音源の符号化方式には固定ビットレートのもの（例えば、ＡＡＣ）と可変ビットレートのもの（例えば、ＭＰＥＧ−４ＡＬＳ）がある。固定ビットレートの音源符号化方式では、音源信号の性質とは独立にチャネル数Ｌに応じて伝送レート（ｂｐｓ）が決まってしまう。したがって、Ｌが小さい場合（例えば、Ｌ＝２〜６）には、固定ビットレートの音源符号化方式を用いて方向別に分離された局所音源信号群を送信することも可能である。

しかし、Ｌが大きい場合には、伝送レートが大きくなってしまう。また、サラウンド用途に符号化技術が開発されているＡＡＣの場合、圧縮ソフトウェアが存在する５．１ｃｈ（計６ｃｈ）、７．２ｃｈ（計９ｃｈ）などでは符号化・復号化することが可能であるが、任意のチャネル数の音源信号を符号化・復号することは難しい。

一方、可変ビットレートの音源符号化方式であるＭＰＥＧ−４ＡＬＳでは、任意のチャネル数の音源信号を符号化・復号できる。また、可変ビットレートであるため、チャネル数Ｌが大きかった場合でも音源信号がスパースである、あるいは逆に音源信号間の相関が高いようなときは圧縮率が高まり、低ビットレートで信号群を伝送できると期待される。

なお、収音装置２００は、ウィーナーフィルタリング部９５０が生成した局所音源信号Ｚ_Θｊ,ω,τを符号化することなく、出力するのでもよい。この場合、符号化部２２０は不要となる。

本実施形態では、近接する局所領域間のウィーナーフィルタのゲイン調整を行うことにより、空間的なスパース性を高めるようにした。これにより、方向別に分離した局所音源信号群のデータ量を削減することが可能となる。また、音像定位の低下を防ぐことが可能となる。さらに、ＭＰＥＧ−４ＡＬＳのような可変ビットレートの音源符号化方式を用いることにより、符号量の増加を抑えることも可能となる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

Ｌを１以上の整数、ωを周波数インデックス、τをフレームインデックスとし、
方向Θ_ｊ（ｊ＝１，…，Ｌ）を主軸とした角度幅を持つ領域（以下、局所領域Θ_ｊという）にある音源からの音（以下、局所領域Θ_ｊの音という）をプリエンハンスした信号のＰＳＤから生成される、前記局所領域Θ_ｊの音から背景雑音の影響を除去した目的音のＰＳＤ（以下、局所領域Θ_ｊの目的音ＰＳＤφ_{TSΘｊ,ω,τ}という）を用いて構成されるウィーナーフィルタを前記プリエンハンスした信号に適用して、前記局所領域Θ_ｊの音を分離した局所音源信号を生成する収音装置であって、
ξ_τをフレームごとに決定される１以上Ｌ以下の整数とし、
局所領域Θ_ξτに近接する局所領域の目的音ＰＳＤの取りうる値に偏りが生じるよう調整することにより生成した目的音ＰＳＤを前記局所領域Θ_ｊの目的音ＰＳＤとする領域間局所ＰＳＤ調整部と
を含む収音装置。
請求項１に記載の収音装置であって、
前記ξ_τは、次式を用いて定められ、

（ただし、Ωは解析対象の周波数インデックス群を表す）
前記局所領域Θ_ｊの目的音ＰＳＤφ_{TSΘｊ,ω,τ}は、次式を用いて調整される

（ただし、χ_τは局所領域Θ_ξτに近接する局所領域群を表す）
ことを特徴とする収音装置。
請求項１または２に記載の収音装置であって、
更に、前記局所音源信号を符号化する符号化部を含む収音装置。
請求項３に記載の収音装置であって、
前記符号化部における符号化には可変ビットレートの符号化方式を用いることを特徴とする収音装置。
Ｌを１以上の整数、ωを周波数インデックス、τをフレームインデックスとし、
方向Θ_ｊ（ｊ＝１，…，Ｌ）を主軸とした角度幅を持つ領域（以下、局所領域Θ_ｊという）にある音源からの音（以下、局所領域Θ_ｊの音という）をプリエンハンスした信号のＰＳＤから生成される、前記局所領域Θ_ｊの音から背景雑音の影響を除去した目的音のＰＳＤ（以下、局所領域Θ_ｊの目的音ＰＳＤφ_{TSΘｊ,ω,τ}という）を用いて構成されるウィーナーフィルタを前記プリエンハンスした信号に適用して、前記局所領域Θ_ｊの音を分離した局所音源信号を生成する収音方法であって、
ξ_τをフレームごとに決定される１以上Ｌ以下の整数とし、
局所領域Θ_ξτに近接する局所領域の目的音ＰＳＤの取りうる値に偏りが生じるよう調整することにより生成した目的音ＰＳＤを前記局所領域Θ_ｊの目的音ＰＳＤとする領域間局所ＰＳＤ調整ステップと
を実行する収音方法。
請求項１ないし４のいずれか１項に記載の収音装置としてコンピュータを機能させるためのプログラム。