JP2017143325A - 収音装置、収音方法、プログラム - Google Patents

収音装置、収音方法、プログラム Download PDF

Info

Publication number
JP2017143325A
JP2017143325A JP2016021541A JP2016021541A JP2017143325A JP 2017143325 A JP2017143325 A JP 2017143325A JP 2016021541 A JP2016021541 A JP 2016021541A JP 2016021541 A JP2016021541 A JP 2016021541A JP 2017143325 A JP2017143325 A JP 2017143325A
Authority
JP
Japan
Prior art keywords
sound
psd
local region
local
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016021541A
Other languages
English (en)
Inventor
健太 丹羽
Kenta Niwa
健太 丹羽
和則 小林
Kazunori Kobayashi
和則 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016021541A priority Critical patent/JP2017143325A/ja
Publication of JP2017143325A publication Critical patent/JP2017143325A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】方向別に分離した音源信号である局所音源信号群のデータ量を削減する収音装置を提供する。
【解決手段】方向Θ(j=1,…,L)を主軸とした角度幅を持つ領域(以下、局所領域Θという)にある音源からの音(以下、局所領域Θの音という)をプリエンハンスした信号のPSDから生成される、局所領域Θの音から背景雑音の影響を除去した目的音のPSD(以下、局所領域Θの目的音PSDφTSΘj,ω,τという)を用いて構成されるウィーナーフィルタをプリエンハンスした信号に適用して、局所領域Θの音を分離した局所音源信号を生成する収音装置であって、ξτをフレームごとに決定される1以上L以下の整数とし、局所領域Θξτに近接する局所領域の目的音PSDの取りうる値に偏りが生じるよう調整することにより生成した目的音PSDを前記局所領域Θの目的音PSDとする領域間局所PSD調整部210とを含む。
【選択図】図5

Description

本発明は、収音技術に関し、特に方向別に分離した音源信号である局所音源信号群のデータ量を削減する技術に関する。
近年、全天球カメラが普及したことを背景として、ユーザが見渡している映像に対応した音を仮想的に生成するための研究が盛んにおこなわれている。その一つに、全天球映像音声視聴システムがある(非特許文献1)。全天球映像とは、全天球カメラで撮影した映像のことである。これにより、ユーザはあたかも撮影した場にいるかのような映像を視ることが可能となる。
全天球映像音声視聴システムでは、複数の領域(具体的には、特定の角度幅で区切った領域)において推定した局所音源信号群にHRTF(Head−Related Transfer Function)を畳み込むことにより、ユーザが見渡している映像に対応するバイノーラル音を生成・出力することができる。このシステムでは、ユーザがジャイロセンサ付きのHMD(Head Mounted Display)を装着することで、頭部方向をリアルタイムに取得する。そして、取得した頭部方向に応じて各局所音源信号に畳み込むHRTFを切り替えることで、ユーザが見渡している映像に対応したバイノーラル音をリアルタイムに生成する。生成したバイノーラル音はイヤホンやヘッドホンを用いて聴取される。
なお、HMDは1枚のフレネルレンズとスマートホンを組み合わせて構成されるような簡単なものでもよい。スマートホンを用いて構成することにより、ネットワークで配信されるコンテンツの視聴が容易に可能となる。
以下では、全天球映像音声視聴システムにおける音の生成(全天球映像に対応したバイノーラル音の生成システム)について説明する。
K個(Kは1以上の整数)の音源が存在する音場に、M本(Mは1以上の整数)のマイクロホンで構成されたアレイを設置して観測することを想定する。k番目(1≦k≦K)の音源信号をSk,ω,τ、m番目(1≦m≦M)の観測信号をXm,ω,τ、その間の伝達特性をAm,k,ωとするとき、観測信号群xω,τは次式でモデル化される。
ここで、ω、τはそれぞれ周波数のインデックス、フレーム時間(以下、単にフレームともいう)のインデックスを表す。また、

であり、Tは転置、Nm,ω,τはm番目の観測信号に含まれる背景雑音を表す。
ユーザが見渡している映像に対応したバイノーラル音bω,τ=[Bω,τ (Left),Bω,τ (Right)] の生成について説明する。フレーム時間τにおけるユーザの頭部方向(極座標表現)をΨτ=[Ψτ (Hor),Ψτ (Ver)]と表す。
音源の指向性や背景雑音を無視できると仮定したとき、ユーザの頭部方向と各音源の間のHRTFを各音源信号に畳み込むことで、ユーザが見渡している映像に対応したバイノーラル音bω,τを出力できる。その様子を図1に示す。
ここで、Hk,Ψτ,ω (Left)、Hk,Ψτ,ω (Right)は、k番目の音源とユーザの左耳間のHRTF、k番目の音源とユーザの右耳間のHRTFをそれぞれ表す。
近接した音源の位置の違いに対してHRTFが劇的に変化しないことを考慮すると、局所的な領域内にある音源群を1つの音源信号(以下、局所音源信号という)と見なしてもユーザの音像定位に大きな影響を及ぼさないと考えられる。そこで、全天球映像音声視聴システムでは、個々の音源信号を抽出するのではなく、方向Θ=[Θ (Hor) (Ver)](j=1,…,L) を主軸とした角度幅を持つL個の領域(以下、簡単のため、局所領域Θともいう)群における局所音源信号群を推定する方向別収音する方式を採用する。その様子を図2に示す。例えば、図2の局所音源信号ZΘ3,ω,τと図1の3番目の音源信号S3,ω,τ、4番目の音源信号S4,ω,τが対応していることを示している。なお、方向別収音の具体的な方法については後述する。
方向Θ=[Θ (Hor) (Ver)]を主軸とした角度幅を持つ領域とその他領域から到来した音源群を分離し、局所音源信号ZΘj,ω,τ(j=1,…,L)が推定されたと仮定すると、ユーザが見渡している映像に対応したバイノーラル音bω,τは、次式で仮想的に生成される。
ここで、HΘj,Ψτ,ω (Left)、HΘj,Ψτ,ω (Right)は、j番目の局所領域Θの主軸方向とユーザの左耳間のHRTF、j番目の局所領域Θの主軸方向とユーザの右耳間のHRTFをそれぞれ表す。
なお、音場の残響時間、頭部や両耳の物理構造の個人性、音源と受聴者の間の距離に応じてHRTFが変化することは一般的に知られているが、ここでは、これらの影響を無視できると仮定し、HΘj,Ψτ,ω (Left)、HΘj,Ψτ,ω (Right)を簡略化して表すこととした。この簡略化したHΘj,Ψτ,ω (Left)、HΘj,Ψτ,ω (Right)は、あらかじめHATS(Head and Torso Simulators)を低残響下に設置し、スピーカを離散的に配置して収録したデータベースから最も近い方向のHRTFを選択することで得られる。
音源信号群sω,τからバイノーラル音bω,τを生成するための全体的な処理フローを図3に示す。図3における再合成処理が式(9)、式(10)を用いたバイノーラル音の生成に対応する。その際、HMDにより取得されたユーザの頭部方向が入力される(図3におけるユーザコントロールが対応する)。
次に、観測信号群xω,τから局所音源信号群zω,τ=[ZΘ1,ω,τ,…,ZΘL,ω,τ]を収音する方向別収音について説明する。全天球映像音声視聴システムでは、局所PSD(Power Spectral Density)推定に基づく音源強調方式による方向別収音を用いる。
ここで、全天球映像音声視聴システムにおいて音源別収音でなく、方向別収音を用いる理由を説明する。ユーザが見渡している映像に対応するように分離した信号群を定位操作し再合成するという用途では、近接した位置にある音源群を無理に分離する必要性はないと考えられる。これは、音源群と受聴者の間のHRTFの特性が大きく変わらないため、受聴者の音像定位に対して大きな影響を及ぼさないからである。むしろ、音源が時々刻々と移動する状況を想定するならば、できるだけ均一に区切られた領域群に対応する局所音源信号群を生成できる方が好ましいからである。
観測信号群xω,τにビームフォーミングを適用する、あるいはショットガンマイクのような超指向性のマイクロホンを用いて受音する等の手段により方向Θを主軸とした角度幅を持つ領域(局所領域Θ)から到来した音をプリエンハンスした信号をYΘj,ω,τ(j=1,…,L)とする。また、プリエンハンスした信号群をyω,τ=[YΘ1,ω,τ,…,YΘL,ω,τと表す。プリエンハンスした信号群yω,τを生成する処理が図3における指向性形成処理である。
音源信号が互いに無相関であると仮定すると、YΘj,ω,τのPSDφYΘj,ωは次式でモデル化される。
ここで、<・>は期待値演算、DΘj,k,ωはk番目の音源に対するj番目のビームフォーミング/受音の平均的な感度、φSk,ωはk番目の音源のPSDを表す。
式(11)の関係が局所音源信号群zω,τとプリエンハンスされた信号群yω,τの関係についても成り立つと仮定すると、φYΘj,ωは次式で近似して表される。
ここで、DΘj,Θi,ωは方向Θを主軸とした角度幅を持つ領域に対するj番目のビームフォーミング/受音の平均的な感度、φSΘi,ωはi番目の局所音源信号のPSD(局所PSD)を表す。L個のφSΘi,ωとφYΘj,ωの関係は次式でモデル化される。
L個の局所PSDφSΘi,ωを推定するために、式(13)の逆問題を解く。ここでは、雑音抑圧性能を高めるために、フレーム毎に局所PSDを推定することとすると、逆問題は次式で定式化される。
なお、実用上の課題としてスパース性を仮定できる局所領域の数L、Dω ?1の安定性を制御する課題が生じる。Dωの要素はすべて正の数であるため、Dωの特異値の条件によっては安定に解が求まらないこともある。したがって、マニュアルで安定化計算の調整をする必要がある。例えば、以下のように対角項に所定の値を加算する操作を行い、調整すればよい。

ここで、εは安定化係数であり、値が大きいほど安定な逆行列計算を可能にする。
観測信号に干渉雑音のみが混在している場合には、式(14)で算出したΦ^S,ω,τから目的音のPSD(目的音PSD)及び雑音のPSD(雑音PSD)を求めればよい。なお、目的音のPSD、雑音のPSDは音源強調のフィルタを生成する際に必要となる。
しかし、実際には式(1)のように非干渉性(あるいは拡散性)の背景雑音が観測信号に存在する。そのような場合には、干渉性雑音のPSD(干渉雑音PSD)と背景雑音のPSD(背景雑音PSD)を別々に推定した方が精度の高い音源強調のフィルタを生成できると考えられる。干渉性雑音のPSDと背景雑音のPSDを別々に推定するための一方法を以下で説明する。
まず、式(14)で算出したΦ^S,ω,τから背景雑音のPSDを取り除く。背景雑音は目的音、干渉性雑音とは無相関であると仮定できるので、パワースペクトル領域での加算性を仮定しても近似的には成り立つと考えられる。i番目の方向Θの局所領域にある音源群を目的音とする。そのとき、局所PSDφSΘi,ω,τからその中に存在する背景雑音PSDφBNTΘi,ω,τを減算する。これにより、推定された目的音のPSD(背景雑音の影響を除去済みのもの)φTSΘi,ω,τが求まる。
もし、目的音PSDφTSΘi,ω,τが0より小さいときには0にする。また、式(16)の背景雑音PSDφBNTΘi,ω,τを計算するために背景雑音が時間的な定常性が強い(つまり、時間に応じて劇的に変化しない)ことを仮定し、再帰的な更新アルゴリズムにより、φSΘi,ω,τを時間平滑化処理することで突発性の成分を除去すると、式(17)が得られる。
ここで、βωは時間平滑化のための定数である。例えば、150ms程度で忘却するように設定すればよい。φ SΘi,ω,τの区間Τにおける最低値を保持することで、目的音領域(つまり、局所領域Θ)の背景雑音PSDφBNTΘi,ω,τを推定することができる。
同様に、目的音領域(局所領域Θ)以外の領域にある干渉性雑音群のPSDφISΘi,ω,τを推定するために目的音と同様に背景雑音のPSDφBNIΘi,ω,τを減算する。
ここで、α1,ωはコンテンツに応じて最適値が変わる重み係数である。また、干渉性雑音群のPSDφISΘi,ω,τについても0より小さいときには0にフロアリングする。式(19)にある背景雑音PSDφBNIΘi,ω,τは以下のように計算する。
j番目の局所音源信号ZΘj,ω,τを推定するためのウィーナーフィルタGΘj,ω,τを生成する。

ここで、α2,ω、α3,ωは重み係数である。
式(22)を用いて計算した後のウィーナーフィルタGΘj,ω,τを以下のように整形する。
ここで、α4,ωは重み係数である。この後、α5,ω(0≦α5,ω<1)を用いて、α5,ω≦GΘj,ω,τ≦1となるようにGΘj,ω,τのフロアリング処理を行う。局所音源信号ZΘj,ω,τは次式で算出される。
プリエンハンスした信号群yω,τをウィーナーフィルタリングすることにより局所音源信号群zω,τを生成する処理が図3における方向別収音処理である。
最後に、全天球映像音声視聴システムにおけるバイノーラル音の生成処理を実行するバイノーラル音生成システム900について説明する。図4は、バイノーラル音生成システム900の構成を示すブロック図である。図4に示すようにバイノーラル音生成システム900は、収音装置905と、再合成装置955を含む。収音装置905は、M本のマイクロホン910−1〜910−Mと、M個の周波数領域変換部920−1〜920−Mと、L個のビームフォーミング部930−1〜930−Lと、局所PSD推定部940と、ウィーナーフィルタリング部950を含む。再合成装置955は、HRTF畳み込み部960を含む。
時間領域観測信号群から局所音源信号群を生成する処理(音源分離処理)を実行するのが、収音装置905である。マイクロホン910−1〜910−Mは、K個の音源が存在する音場の音声を収音し、時間領域観測信号を生成する。周波数領域変換部920−1〜920−Mは、それぞれ時間領域観測信号を観測信号Xm,ω,τ(1≦m≦M)に変換する。
ビームフォーミング部930−1〜930−Lは、M個の観測信号(観測信号群)からプリエンハンスした信号YΘj,ω,τ(j=1,…,L)を生成する。なお、マイクロホン910−1〜910−Mの代わりに、L=Mとして、L個の指向性マイクを用いて収音するのでもよい。この場合、指向性マイクを用いて収音した信号をプリエンハンスした信号YΘj,ω,τ(j=1,…,L)としてよいので、ビームフォーミング部930−1〜930−Lが不要になる。
局所PSD推定部940は、プリエンハンスした信号YΘj,ω,τ(j=1,…,L)を用いて目的音のPSD、干渉雑音のPSD、背景雑音のPSDを生成する。具体的には、式(14)、式(16)、式(19)、式(18)を用いて、目的音PSD、干渉雑音PSD、背景雑音PSDを生成する。
ウィーナーフィルタリング部950は、目的音のPSD、干渉雑音のPSD、背景雑音のPSDを用いてL個のウィーナーフィルタを生成し、プリエンハンスした信号YΘj,ω,τ(j=1,…,L)にウィーナーフィルタGΘj,ω,τ(j=1,…,L)を適用し、局所音源信号ZΘj,ω,τ(j=1,…,L)を生成する。具体的には、式(22)、式(23)、式(24)を用いて局所音源信号ZΘj,ω,τを生成する。
局所音源信号群からバイノーラル音を生成する処理(再合成処理)を実行するのが、再合成装置955である。HRTF畳み込み部960は、局所音源信号ZΘj,ω,τ(j=1,…,L)からバイノーラル音bω,τを生成する。具体的には、式(9)、式(10)を用いて受聴用のバイノーラル信号である受聴信号(左)と受聴信号(右)を生成する。
なお、インターネットのようなネットワークに収音装置905と再合成装置955を接続してバイノーラル音生成システム900を構成することもできる。この場合、収音装置905、再合成装置955はネットワークによる通信に必要は手段を具備する必要があるのはいうまでもない。また、伝送に適するよう、局所音源信号群を符号化する符号化部、局所音源信号群を符号化した符号化データを復号する復号部をそれぞれ収音装置905、再合成装置955に備えるようにしてもよい。
丹羽健太、小泉悠馬、小林和則、植松尚、"全天球映像に対応したバイノーラル音を生成するための方向別収音に関する検討"、信学技報EA2015-7、電子情報通信学会、2015年7月、vol.115, no.126, pp.33-38.
収音装置905と再合成装置955をネットワークに接続してバイノーラル音生成システム900を構成する場合、方向別に収音したマルチチャネル音声信号である局所音源信号ZΘj,ω,τ(j=1,…,L)を収音装置905から再合成装置955にネットワークを介して送信する必要がある。バイノーラル音生成システム900を用いて全天球映像視聴サービスを提供する際のチャネル数Lは5〜20程度と想定されるが、Lが大きくなると局所音源信号ZΘj,ω,τはデータ量が大きくなる傾向があるため、データ量削減のための処理をせずそのまま送信することにすると通信量が多大になり、ネットワークに負荷がかかってしまう。また、伝送容量が小さいネットワークではそもそも局所音源信号ZΘj,ω,τを送受信することができず、バイノーラル音生成システム900を利用できない可能性もある。
そこで本発明では、方向別に分離した音源信号である局所音源信号群のデータ量を削減する収音装置を提供することを目的とする。
本発明の一態様は、Lを1以上の整数、ωを周波数インデックス、τをフレームインデックスとし、方向Θ(j=1,…,L)を主軸とした角度幅を持つ領域(以下、局所領域Θという)にある音源からの音(以下、局所領域Θの音という)をプリエンハンスした信号のPSDから生成される、前記局所領域Θの音から背景雑音の影響を除去した目的音のPSD(以下、局所領域Θの目的音PSDφTSΘj,ω,τという)を用いて構成されるウィーナーフィルタを前記プリエンハンスした信号に適用して、前記局所領域Θの音を分離した局所音源信号を生成する収音装置であって、ξτをフレームごとに決定される1以上L以下の整数とし、局所領域Θξτに近接する局所領域の目的音PSDの取りうる値に偏りが生じるよう調整することにより生成した目的音PSDを前記局所領域Θの目的音PSDとする領域間局所PSD調整部とを含む。
本発明によれば、近接する局所領域間の目的音のPSDを調整し、同一の音源を強調しないようにすることにより、局所音源信号群のデータ量を削減することが可能となる。
音源別収音を用いた頭部方向に応じたバイノーラル音の生成のイメージを示す図。 方向別収音を用いた頭部方向に応じたバイノーラル音の生成のイメージを示す図。 全天球映像音声視聴システムにおけるバイノーラル音の生成処理フローを示す図。 バイノーラル音生成システム900の構成を示すブロック図。 収音装置200の構成を示すブロック図。 収音装置200の動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
局所領域ごとに独立に目的音のPSD(目的音PSD)、雑音のPSD(干渉雑音PSDと背景雑音PSD)を推定すると、局所領域間に重複がある場合を含み、局所領域が近接する場合、同一の音源を強調してしまう可能性がある。同一の音源を強調してしまうと、同時発音領域数の増加によってデータ量が増加してしまう可能性がある。また、音像定位が低下してしまう可能性も高くなる。
そこで、受音ゲインが最も高い局所領域に近接する局所領域のウィーナーフィルタのゲインを調整する。具体的には、受音ゲインが最も高い局所領域に近接する局所領域の目的音のPSDをゼロにする。これにより、空間的なスパース性を高め、局所音源信号群のデータ量削減率の高めることができる。
以下、図5〜図6を参照して収音装置200について説明する。図5は、収音装置200の構成を示すブロック図である。図6は、収音装置200の動作を示すフローチャートである。図5に示すように収音装置200は、M個のマイクロホン910−1〜910−Mと、M個の周波数領域変換部920−1〜920−Mと、L個のビームフォーミング部930−1〜930−Lと、局所PSD推定部940と、領域間局所PSD調整部210と、ウィーナーフィルタリング部950と、符号化部220を含む。
マイクロホン910−1〜910−Mにより収音された時間領域観測信号群から目的音PSD、干渉雑音PSD、背景雑音PSDを生成する処理は、先ほどの収音装置905と同様、周波数領域変換部920−1〜920−M、ビームフォーミング部930−1〜930−L、局所PSD推定部940により実行される(S910、S920、S930、S940)。
領域間局所PSD調整部210は、目的音PSDから調整済目的音PSDを生成する(S210)。具体的には、まず、目的音PSDφTSΘj,ω,τを周波数平滑化し、式(25)を用いて受音ゲインが最も高い方向Θξτ(局所領域Θξτ)をフレームごとに算出する。

ここで、Ωは解析対象の周波数インデックス群である。
次に、式(26)を用いて局所領域Θξτに近接する局所領域群χτの目的音のPSDを抑圧する。つまり、局所領域群χτに属する局所領域の目的音のPSDについてはゼロにする一方で、(局所領域Θξτを含む、)局所領域群χτに属する局所領域以外の局所領域についてはそのままとする。
なお、厳密にゼロにするのでなく、hを0に近い0以上の実数として、局所領域群χτに属する局所領域の目的音のPSDをhと定めてもよい。
これにより、局所領域間の重複部分など近接する部分において同一の音源を強調してしまうことを防ぐことができ、データ量を削減すると同時に音像定位を向上させることが可能となる。また、目的音のPSDに偏りがあれば(所定の局所領域の目的音PSDが一定値となれば)、符号化部220での符号量が抑制されるため、一層のデータ量削減の効果が見込める。特に、式(26)のようにゼロにする場合が符号量抑制の点からは最も効果が高い。ただし、h=0とすると音質が劣化する可能性があるため、hを0.9以下の(ゼロではない)値とする方がよい場合もある。
また、局所領域群χτに属する局所領域の目的音のPSDを一定の値hとするのでなく、元々の目的音PSDより小さい値にするのでもよい。例えば、h’を0≦h’<1を満たす実数として、局所領域群χτに属する局所領域の目的音のPSDをh’・φTSΘj,ω,τと定めてもよい。
このようにしても、量子化数(例えば、16bit)が事前に決まっているため、h’を小さな値にすれば、目的音PSDφTSΘj,ω,τの取りうる値が制限されることになり、目的音PSDに偏りが出やすくなる。その結果、データ量削減(符号量の抑制)につながる。なお、h’が小さいほど、削減(抑制)の効果は高くなる。ただし、先ほど同様、聴感上の音質劣化が生じる可能性はある。
ウィーナーフィルタリング部950は、調整済目的音PSD、干渉雑音PSD、背景雑音PSDを用いて、先ほどの収音装置905と同様、局所音源信号ZΘj,ω,τ(j=1,…,L)を生成する(S950)。先ほどと相違する点は、領域間局所PSD調整部210により調整された調整済目的音PSDが入力となっている点である。
符号化部220は、局所音源信号ZΘj,ω,τ(j=1,…,L)を符号化して、符号化データを生成する(S220)。音源の符号化方式には固定ビットレートのもの(例えば、AAC)と可変ビットレートのもの(例えば、MPEG−4 ALS)がある。固定ビットレートの音源符号化方式では、音源信号の性質とは独立にチャネル数Lに応じて伝送レート(bps)が決まってしまう。したがって、Lが小さい場合(例えば、L=2〜6)には、固定ビットレートの音源符号化方式を用いて方向別に分離された局所音源信号群を送信することも可能である。
しかし、Lが大きい場合には、伝送レートが大きくなってしまう。また、サラウンド用途に符号化技術が開発されているAACの場合、圧縮ソフトウェアが存在する5.1ch(計6ch)、7.2ch(計9ch)などでは符号化・復号化することが可能であるが、任意のチャネル数の音源信号を符号化・復号することは難しい。
一方、可変ビットレートの音源符号化方式であるMPEG−4 ALSでは、任意のチャネル数の音源信号を符号化・復号できる。また、可変ビットレートであるため、チャネル数Lが大きかった場合でも音源信号がスパースである、あるいは逆に音源信号間の相関が高いようなときは圧縮率が高まり、低ビットレートで信号群を伝送できると期待される。
なお、収音装置200は、ウィーナーフィルタリング部950が生成した局所音源信号ZΘj,ω,τを符号化することなく、出力するのでもよい。この場合、符号化部220は不要となる。
本実施形態では、近接する局所領域間のウィーナーフィルタのゲイン調整を行うことにより、空間的なスパース性を高めるようにした。これにより、方向別に分離した局所音源信号群のデータ量を削減することが可能となる。また、音像定位の低下を防ぐことが可能となる。さらに、MPEG−4 ALSのような可変ビットレートの音源符号化方式を用いることにより、符号量の増加を抑えることも可能となる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1. Lを1以上の整数、ωを周波数インデックス、τをフレームインデックスとし、
    方向Θ(j=1,…,L)を主軸とした角度幅を持つ領域(以下、局所領域Θという)にある音源からの音(以下、局所領域Θの音という)をプリエンハンスした信号のPSDから生成される、前記局所領域Θの音から背景雑音の影響を除去した目的音のPSD(以下、局所領域Θの目的音PSDφTSΘj,ω,τという)を用いて構成されるウィーナーフィルタを前記プリエンハンスした信号に適用して、前記局所領域Θの音を分離した局所音源信号を生成する収音装置であって、
    ξτをフレームごとに決定される1以上L以下の整数とし、
    局所領域Θξτに近接する局所領域の目的音PSDの取りうる値に偏りが生じるよう調整することにより生成した目的音PSDを前記局所領域Θの目的音PSDとする領域間局所PSD調整部と
    を含む収音装置。
  2. 請求項1に記載の収音装置であって、
    前記ξτは、次式を用いて定められ、

    (ただし、Ωは解析対象の周波数インデックス群を表す)
    前記局所領域Θの目的音PSDφTSΘj,ω,τは、次式を用いて調整される

    (ただし、χτは局所領域Θξτに近接する局所領域群を表す)
    ことを特徴とする収音装置。
  3. 請求項1または2に記載の収音装置であって、
    更に、前記局所音源信号を符号化する符号化部を含む収音装置。
  4. 請求項3に記載の収音装置であって、
    前記符号化部における符号化には可変ビットレートの符号化方式を用いることを特徴とする収音装置。
  5. Lを1以上の整数、ωを周波数インデックス、τをフレームインデックスとし、
    方向Θ(j=1,…,L)を主軸とした角度幅を持つ領域(以下、局所領域Θという)にある音源からの音(以下、局所領域Θの音という)をプリエンハンスした信号のPSDから生成される、前記局所領域Θの音から背景雑音の影響を除去した目的音のPSD(以下、局所領域Θの目的音PSDφTSΘj,ω,τという)を用いて構成されるウィーナーフィルタを前記プリエンハンスした信号に適用して、前記局所領域Θの音を分離した局所音源信号を生成する収音方法であって、
    ξτをフレームごとに決定される1以上L以下の整数とし、
    局所領域Θξτに近接する局所領域の目的音PSDの取りうる値に偏りが生じるよう調整することにより生成した目的音PSDを前記局所領域Θの目的音PSDとする領域間局所PSD調整ステップと
    を実行する収音方法。
  6. 請求項1ないし4のいずれか1項に記載の収音装置としてコンピュータを機能させるためのプログラム。
JP2016021541A 2016-02-08 2016-02-08 収音装置、収音方法、プログラム Pending JP2017143325A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016021541A JP2017143325A (ja) 2016-02-08 2016-02-08 収音装置、収音方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016021541A JP2017143325A (ja) 2016-02-08 2016-02-08 収音装置、収音方法、プログラム

Publications (1)

Publication Number Publication Date
JP2017143325A true JP2017143325A (ja) 2017-08-17

Family

ID=59628711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016021541A Pending JP2017143325A (ja) 2016-02-08 2016-02-08 収音装置、収音方法、プログラム

Country Status (1)

Country Link
JP (1) JP2017143325A (ja)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丹羽健太、小泉悠馬、小林和則、植松尚: "「全天球映像に対応したバイノーラル音を生成するための方向別収音に関する検討」", 電子情報通信学会技術研究報告 VOL.115 NO.126 IEICE TECHNICAL REPORT, vol. Vol.115,No.126, JPN6019005537, July 2015 (2015-07-01), JP, pages p.33−38 *

Similar Documents

Publication Publication Date Title
CN112567763B (zh) 用于音频信号处理的装置和方法
CA2903900A1 (en) Apparatus and method for multichannel direct-ambient decomposition for audio signal processing
JP7160032B2 (ja) 信号処理装置および方法、並びにプログラム
WO2010089357A4 (en) Sound system
JP5449624B2 (ja) 到来方向推定値から曖昧性を解消する装置及び方法
CN108346432B (zh) 虚拟现实vr音频的处理方法及相应设备
JP6799074B2 (ja) 入力信号を処理する符号化装置及び符号化信号を処理する復号化装置
BR122020017207B1 (pt) Método, sistema de processamento de mídia, aparelho e meio de armazenamento legível por computador não transitório
US20230298600A1 (en) Audio encoding and decoding method and apparatus
WO2017043309A1 (ja) 音声処理装置および方法、符号化装置、並びにプログラム
JP2024063226A (ja) DirACベースの空間オーディオ符号化のためのパケット損失隠蔽
JP7447798B2 (ja) 信号処理装置および方法、並びにプログラム
US20230298601A1 (en) Audio encoding and decoding method and apparatus
TWI834163B (zh) 三維音頻訊號編碼方法、裝置和編碼器
WO2022262576A1 (zh) 三维音频信号编码方法、装置、编码器和系统
JP6569945B2 (ja) バイノーラル音生成装置、マイクロホンアレイ、バイノーラル音生成方法、プログラム
JP2017143325A (ja) 収音装置、収音方法、プログラム
JP6526582B2 (ja) 再合成装置、再合成方法、プログラム
EP4042418B1 (fr) Détermination de corrections à appliquer a un signal audio multicanal, codage et décodage associés
WO2022050087A1 (ja) 信号処理装置および方法、学習装置および方法、並びにプログラム
KR102677399B1 (ko) 신호 처리 장치 및 방법, 그리고 프로그램
WO2024006685A1 (en) Real-time low-complexity stereo speech enhancement with spatial cue preservation
JP2024521204A (ja) 三次元音声信号処理方法および装置
FR3112015A1 (fr) Codage optimisé d’une information représentative d’une image spatiale d’un signal audio multicanal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190329

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190507