JP2014527381A - 直接−拡散分解方法 - Google Patents
直接−拡散分解方法 Download PDFInfo
- Publication number
- JP2014527381A JP2014527381A JP2014530780A JP2014530780A JP2014527381A JP 2014527381 A JP2014527381 A JP 2014527381A JP 2014530780 A JP2014530780 A JP 2014530780A JP 2014530780 A JP2014530780 A JP 2014530780A JP 2014527381 A JP2014527381 A JP 2014527381A
- Authority
- JP
- Japan
- Prior art keywords
- direct
- channels
- correlation coefficient
- output signal
- component output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 94
- 238000009792 diffusion process Methods 0.000 title claims description 43
- 238000000354 decomposition reaction Methods 0.000 title claims description 18
- 230000010363 phase shift Effects 0.000 claims description 15
- 230000007480 spreading Effects 0.000 claims description 10
- 238000009499 grossing Methods 0.000 claims description 5
- 230000001052 transient effect Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims 1
- 108091006146 Channels Proteins 0.000 description 99
- 230000008569 process Effects 0.000 description 51
- 238000012545 processing Methods 0.000 description 9
- 230000002596 correlated effect Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Complex Calculations (AREA)
- Stereophonic System (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
【選択図】 図1
Description
の直接−拡散分解のプロセス100のフローチャートである。入力信号
は、以下の信号モデルで表される複素Nチャンネルオーディオ信号とすることができる。
ここで、
は直接ベース、
は拡散ベース、
は直接エネルギー、
は拡散エネルギー、
は直接成分位相シフト、
はチャンネル・インデックス、
は時間インデックスである。本出願の以下の部分において、用語「直接成分」は、
を指し、用語「拡散成分」は、
を指す。各チャンネルにおいて、直接及び拡散ベースは、複素ゼロ平均固定確率変数であり、直接及び拡散エネルギーは正の実数定数であり、直接成分位相シフトは一定値であるものとする。また、直接及び拡散ベースの期待エネルギーは、一般性を喪失することなく全てのチャンネルについて単一であり、すなわち、
(ここで、
は期待値を表す)であるものとする。直接及び拡散ベースの期待エネルギーは単一であるとされたが、スカラー
及び
は、各チャンネルにおいて任意の直接及び拡散エネルギーを考慮する。直接及び拡散成分は、信号持続時間全体で固定であるものとされるが、実際の実施構成では信号は時間局在化セグメントに分割され、ここで各セグメント内の成分は固定であるものとする。
及び位相シフト
とは異なり、チャンネル間で同一である単一の直接ベース
によって表される。拡散成分が非相関化される仮定条件は、式(1)において、各チャンネルに対して固有の拡散ベース
によって表される。直接及び拡散成分が非相関化される仮定条件に基づくと、ミックス信号
の期待エネルギーは、次式となる。
この信号モデルは、チャンネル位置には依存せず、すなわち、特定のチャンネル位置に基づく仮定は存在しない点に留意されたい。
ここで
は複素共役を表し、
及び
はそれぞれチャンネルi及びjの標準偏差である。一般に、相関係数は複素数値である。相関係数の大きさは、ゼロと1の間に限定されるという特性を有し、ここで、1に近づく傾向のある大きさは、チャンネルi及びjが相関していることを示している。一方で、0に近づく傾向のある大きさは、チャンネルi及びjが非相関化であることを示している。相関係数の位相は、チャンネルi及びj間の位相差を示している。
ここで、
である。
直接−拡散信号モデルについての相関係数の大きさは、チャンネルi及びjの直接及び拡散エネルギーレベルにのみ依存することは明らかである。
直接−拡散信号モデルについての相関係数の位相は、チャンネルi及びjの直接成分の位相シフトにのみ依存することは明らかである。
ここで、Tは総和の長さを表す。この式は、総和が信号長全体にわたって実施される場合の定常信号を対象としている。しかしながら、対象となる実際の信号は非定常であることが一般的であり、従って、連続した時間局在化相関係数の推定値は、適切に短い総和長Tを用いることが好ましいとすることができる。この手法は、時間的に変化する直接及び拡散成分を追跡するには十分とすることができるが、真の平均計算(すなわち、全体の時間間隔Tにわたる総和)を必要とし、結果として高い計算及びメモリ要件となる。
ここで、
λは、相関係数推定値の有効平均長を制御する、範囲
の忘却係数である。この再帰的数式は、時間的に変化する直接及び拡散成分の追跡に対する柔軟な制御を維持しながら、式(10)の方法と比べて必要とされる計算及びメモリリソースが少ないという利点を有する。相関係数推定値の時定数τは、次式のように忘却係数λの関数である。
ここで
は、信号
のサンプリングレートである(時間周波数実施構成において、
は有効サブ帯域サンプリングレートである)。
又は忘却係数
においては1に等しい点に留意されたい。推定した相関係数は、任意選択的に120において、以下のように忘却係数λの関数として過大推定の経験的分析に基づいて補正することができる。
ここで
は、相関係数推定値の補正済みの大きさである。この補正法は、平均相関関数の範囲が、
から約
で表されるという経験的観測に基づいている。従って、この補正法は、
から
の範囲で相関係数を線形的に拡張することができ、ここで、当初は
を下回っている係数は、
演算子によりゼロに設定される。
として定義される。チャンネルi及びjのペアについての相関係数は、次式のように、これらのチャンネルのDEFと直接相関性があることは式(8)及び式(15)から明らかである。
対数をとると、次式が得られる。
が存在する(
に対して成立する)。線形システムは、M個のペア相関係数とN個のチャンネル当たりのDEFから次式のように構築することができる。
又は、行列方程式として次式のように表すことができる。
ここで、
は、全ての固有チャンネルペアi及びjについての対数大きさのペア相関係数からなる長さMのベクトルであり、
は、チャンネルペアインデックスに対応する行/列インデックスの非ゼロ要素からなる、サイズ
の疎行列であり、
は、各チャンネルiについてのチャンネル当たりの対数DEFからなる長さNのベクトルである。
ここでは、10個のペア相関係数の各々についての10個の固有の式が存在する。
をチャンネルペアi及びjについてのサンプル相関係数、すなわち、式(4)の形式期待値の推定値とする。全ての固有チャンネルペアi及びjについてサンプル相関係数が推定されると、式(18)の線形システムが得られ、140において式(18)を解いて、各チャンネルiについてのDEF
を推定することができる。
のマルチチャンネル信号において、チャンネル当たりのDEF推定値よりも多くのペア相関係数推定値が存在し、過剰決定システムをもたらす。140において最小二乗法を使用し、過剰決定線形システムに対する解を近似することができる。例えば、線形最小二乗法は、各式についての誤差二乗和を最小にする。線形最小二乗法は、次式のように適用することができる。
ここで、
は、各チャンネルiについてのチャンネル当たりの対数DEF推定値からなる長さNのベクトルであり、
は、全ての固有のチャンネルペアi及びjについての対数大きさのペア相関係数推定値からなる長さMのベクトルであり、
は行列転置、
は行列反転である。線形最小二乗法の利点は、計算の複雑さが比較的低く、ここで全ての必要とされる行列反転は一度だけ計算される。線形最小二乗法の潜在的欠点は、誤差分布に対する明示的な制御が存在しないことである。例えば、拡散成分の誤差増大を犠牲にして、直接成分の誤差を最小限にすることが望ましいとすることができる。誤差分布に対する制御が求められる場合、各式において加重二乗和誤差が最小にされる加重最小二乗法を適用することができる。加重最小二乗法は、次式で適用することができる。
ここでWは、対角に沿って各式の重み付けからなるサイズ
の対角行列である。望ましい挙動に基づいて、特定の特性を有する式についての近似誤差を低減するよう重み付けを選ぶことができる(例えば、強い直接成分、強い拡散成分、比較的高いエネルギー成分、その他)。加重最小二乗法の欠点は、計算の複雑さが著しく高く、各線形システムの近似には行列反転が必要とされる。
のマルチチャンネル信号において、ペア相関係数推定値とチャンネル当たりのDEF推定値とが同数で存在し、臨界システムをもたらす。しかしながら、ペアの相関係数推定値は通常は大きな分散を示すので、線形システムが一貫していることは保証されない。過剰決定の場合と同様に、140において、線形最小二乗法又は加重最小二乗法を利用して、臨界システムが一貫していない場合でも近似解を計算することができる。
の2チャンネルステレオ信号において、ペア相関係数推定値よりも多くのチャンネル当たりのDEF推定値が存在し、劣決定システムをもたらす。この場合、チャンネル当たりにDEF推定値又は等拡散エネルギーなど、解を計算するために更なる信号仮定条件が必要とされる。
140において、線形システムを解くことによって、各チャンネルについてのDEFを推定した後、150において、チャンネル当たりのDEF推定値を用いて直接及び拡散マスクを生成することができる。用語「マスク」は、一般に、信号成分の所望の増幅又は減衰を達成するために信号に対して加える乗法的修正を指す。マスクは、時間周波数分析合成フレームワークにおいて適用されることが多く、ここでマスクは、一般に「時間周波数マスク」と呼ばれる。実数値の乗法マスクをマルチチャンネル信号に適用することにより、直接及び拡散分解を実施することができる。
に基づいて、
及び
は、それぞれ、直接成分出力信号と拡散成分出力信号と定義される。式(3)及び式(15)から、DEFから導出された実数値マスクは、
として適用することができ、分解された直接及び拡散成分の期待エネルギーは、真の直接及び拡散エネルギー
にほぼ等しい。
はマルチチャンネル出力信号であり、
の各チャンネルは、マルチチャンネル入力信号
の対応するチャンネルの直接成分と同じ期待エネルギーを有する。同様に、
はマルチチャンネル出力信号であり、
の各チャンネルは、マルチチャンネル入力信号
の対応するチャンネルの拡散成分と同じ期待エネルギーを有する。
において、
である。観測信号を分解するのに実数値マスクが使用されるので、結果として得られる直接及び拡散成分出力信号が完全に相関化され、直接及び拡散成分が非相関化される上記の仮定条件が破棄される。
及び
が観察された入力信号
に等しいことが望ましい場合には、単純な正規化をマスクに適用することができる。
この正規化は、分解された直接成分及び拡散成分の出力信号のエネルギーレベルに影響を及ぼし、式(24)はもはや成立しない点に留意されたい。
及び
はそれぞれ、150からの直接及び拡散マスクとマルチチャンネル入力信号
の遅延コピーとを乗算することにより生成することができる。160において、マルチチャンネル入力信号は、処理110〜150を完了して直接及び拡散マスクを生成するのに必要な処理時間に等しい時間期間だけ遅延させることができる。直接及び拡散出力信号は、ここでは、上述の空間フォーマット変換又はバイノーラルレンダリングのような用途で用いることができる。
の直接/拡散分解のプロセス200のフローチャートである。210において、マルチチャンネル信号
は、複数の周波数帯域に分離又は分割することができる。
という表記は、複素時間周波数信号を表すのに用いられ、ここでmは時間フレームインデックスを表し、kは周波数インデックスを表す。例えば、マルチチャンネル信号
は、短時間フーリエ変換(STFT)を用いて周波数帯域に分離することができる。別の実施例として、2つの複素変調4分割鏡映対称フィルタバンク(QMF)のカスケードからなるハイブリッドフィルタバンクを用いて、マルチチャンネル信号を複数の周波数帯域に分離することができる。ハイブリッドQMFの利点は、高周波において周波数分解能の低減が一般に許容可能であることに起因して、STFTと比べてメモリ要件が少ないことである。
及び
はそれぞれ、マルチ帯域マルチチャンネル入力信号
の遅延コピーを260から得られた非グループ化直接及び拡散マスクと乗算することにより決定することができる。270において、マルチ帯域マルチチャンネル入力信号は、処理220〜260を完了して直接及び拡散マスクを生成するのに必要な処理時間に等しい時間期間分、遅延させることができる。直接成分及び拡散成分出力信号
及び
はそれぞれ、合成フィルタバンク280により時間領域信号
及び
に変換することができる。
を、真の直接成分
の推定値とする。
ここで
は真の直接ベースの推定値、
は真の直接エネルギーの推定値、
は真の直接成分位相シフトの推定値である。プロセス300において、分解した直接成分出力信号及び分解した拡散成分出力信号は、元の加法信号モデルに従うと仮定する。すなわち、
となる。本方法において、これは、極形式で複素値直接ベース推定値
を表現するのに有用であり、次式が得られる。
ここで
は真の大きさの推定値であり、
は直接ベースの真の位相の推定値である。直接成分出力信号
は、成分
及び
を独立して推定することにより推定することができる。
は次式のように決定することができる。
ここで
は式(6)で表されたチャンネルiの全エネルギーの推定値である。式(3)及び(15)から、推定した直接エネルギーの期待値は真の直接エネルギーにほぼ等しいことが明らかであり、すなわち、次式となる。
を推定することができる。直接及び拡散ベースは確率変数である。直接及び拡散成分の期待エネルギーは、実質的に
及び
によって決定され、各時間サンプルnについての瞬間エネルギーは確率論的なものである。直接ベースの確率的性質は、直接成分はチャンネル間で相関化されるという仮定条件により、全チャンネルにおいて同一であるものとする。直接ベースの瞬間的大きさ
を推定するために、観測信号の瞬間大きさの加重平均
は、全チャンネルi間で計算される。直接エネルギーのより高い比を有するチャンネルにより大きな重み付けを加えることにより、直接ベースの瞬間的大きさは、次式のように、拡散成分からの最小の影響で確実に推定することができる。
による上記の正規化によって、式(2)で確立された適切な期待エネルギーが確保され、すなわち、
となる。
位相角
及び
を推定することができる。所与のチャンネルiについてのチャンネル当たりの位相シフト
は、サンプル相関係数
の位相から計算することができ、これは、式(9)に従ってチャンネルi及びjの直接成分の位相シフト間の差違を近似する。絶対位相シフト
を推定するために、ここではゼロラジアンとして選ばれた既知の絶対位相シフトで基準チャンネルを固定する必要がある。インデックスlが最大DEF推定値
を有するチャンネルを表すとすると、全チャンネルiについてのチャンネル当たりの位相シフト
は、次式で計算することができる。
チャンネルlに対するチャンネル当たりの位相シフト推定値
の計算は、直接エネルギーの高い比を有するチャンネルについて推定位相差がより正確になるという仮定条件によってなされる。
の推定値が決定されると、瞬間位相
の推定値を計算することができる。大きさと同様に、直接及び拡散ベースの瞬間位相は、各時間サンプルnについて確率論的である。直接ベースの瞬間位相
を推定するために、観測信号の瞬間位相
の加重平均は、次式のように、全チャンネルi間で計算することができる。
式(29)と同様に、重み付けは、直接エネルギーのより高い比を有するチャンネルを重くするようにDEF推定値
として選ばれる。チャンネル間で平均したときに直接ベースの瞬間位相が一致するように、各チャンネルiからチャンネル当たりの位相シフト
を除去する必要がある。
は、式(27)、並びに372による
の推定値、374による
の推定値、及び376による
及び
の推定値を用いて、各チャンネルiについて生成することができる。次いで、分解した拡散成分出力信号は、380において、次式の加法信号モデルを加えることにより生成することができる。
の直接−拡散分解のためのプロセス400のフローチャートである。プロセス400は、プロセス200と同様である。処理410、420、430、440、450、460、470、及び480は、プロセス200における対応する処理と同じ機能を有する。図4に関してこれらの処理の説明は繰り返さない。
の直接−拡散分解用の装置500のブロック図である。装置500は、本明細書で記載される機能及び特徴を提供するソフトウェア及び/又はハードウェアを含むことができる。装置500は、プロセッサ510、メモリ520、及び記憶デバイス530を含むことができる。
を受け入れて、k周波数帯域における直接成分及び拡散成分出力信号
及び
それぞれを出力するよう構成することができる。直接成分及び拡散成分出力信号は、有線又は別の伝播媒体を介してプロセッサ510の外部のエンティティに伝わる信号として出力することができる。直接成分及び拡散成分出力信号は、プロセッサ510上で作動する別のプロセスへのデータストリームとして出力することができる。直接成分及び拡散成分出力信号は、他の何らかの方法で出力することができる。
120:推定した相関係数を補正する
130:線形システムを構築する
140:線形システムを解く
150:直接及び拡散マスクを生成する
160:先行遅延する
Claims (20)
- 複数のチャンネルを有する入力信号の直接−拡散分解のための方法(100、200、400)であって、
複数の信号から信号の各ペア間の相関係数を推定するステップ(110、220、420)と、
前記推定した相関係数と前記複数のチャンネルの各々の直接エネルギー率とを関連付ける線形システムの式を構築するステップ(130、240、440)と、
前記線形システムを解いて前記直接エネルギー率を推定するステップ(140、240、440)と、
前記直接エネルギー率に部分的に基づいて直接成分出力信号及び拡散成分出力信号を生成するステップ(280、480)と、
を含む、方法。 - 前記チャンネルの各々を複数の周波数帯域に分離するステップ(210、410)と、
前記複数の周波数帯域各々について独立して、前記推定ステップ、前記構築ステップ、前記解くステップ、及び前記生成ステップを実行するステップと、
を更に含む、請求項1に記載の装置。 - 前記線形システムの各式は、次式の形式を有し、
ここで、
が前記複数のチャンネルのうちのチャンネルi及びj間の前記相関係数、
及び
がチャンネルi及びjの前記直接エネルギー率である、請求項1に記載の方法。 - 前記信号の各ペア間の相関係数を推定するステップが、再帰的数式を用いて実行される、請求項1に記載の方法。
- 所定値を下回る相関係数推定値をゼロに設定し、
前記所定値を上回るか又は等しい前記相関係数推定値の範囲を[0,1]の範囲まで線形的に拡張する、
ことによって再帰的な前記相関係数推定値を補正するステップ(120、220、420)を更に含む、請求項4に記載の方法。 - 前記直接成分出力信号及び拡散成分出力信号を生成するステップが更に、
前記複数のチャンネルの各々の直接エネルギー率に基づいて直接及び拡散マスクを生成するステップ(150、250、450)と、
前記入力信号と前記直接及び拡散マスクを乗算して前記直接成分出力信号及び拡散成分出力信号を供給するステップと、
を含む、請求項1に記載の方法。 - 前記直接成分出力信号及び拡散成分出力信号を生成するステップが更に、
前記複数のチャンネルの直接エネルギー率に部分的に基づいて直接ベースの大きさ(374)及び位相角(376)を推定するステップと、
それぞれの直接エネルギー率に部分的に基づいて前記複数のチャンネルの各々についての直接成分エネルギー(372)及び位相シフト(376)を推定するステップと、
前記各々の直接成分エネルギー及び位相シフトと前記直接ベースの大きさ及び位相角とから前記複数のチャンネルの各々についての直接成分出力信号(378)を生成するステップと、
を含む、請求項1に記載の方法。 - それぞれの入力信号チャンネルからそれぞれの前記推定した直接成分を差し引くことにより、前記複数のチャンネルの各々についての拡散成分出力信号(380)を推定するステップを更に含む、請求項7に記載の方法。
- 前記線形システムを解くステップが更に、線形最小二乗法及び加重最小二乗法のうちの一方を用いて過剰決定システムの式を解くステップを含む、請求項1に記載の方法。
- 複数の入力信号チャンネルを有する入力信号の直接−拡散分解のための方法(200、400)であって、
前記複数の入力信号チャンネルの各々を複数の周波数帯域に分離するステップ(210、410)と、
前記複数の周波数帯域の各々について、前記複数の入力信号チャンネルから信号の各ペア間の相関係数を推定するステップ(220、420)と、
前記推定した相関係数と前記複数の周波数帯域の各々についての直接エネルギー率とを関連付ける線形システムの式を構築するステップ(240、440)と、
前記線形システムを解いて、前記複数の周波数帯域の各々について前記複数の入力信号チャンネルの各々に対する前記直接エネルギー率を推定するステップ(240、440)と、
前記直接エネルギー率に部分的に基づいて前記複数の周波数帯域の各々について直接成分出力信号及び拡散成分出力信号を生成するステップと、
を含む、方法。 - 前記複数の周波数帯域の各々について前記線形システムの各式は、次式の形式を有し、
ここで、
が前記複数のチャンネルのうちのチャンネルi及びj間の前記相関係数、
及び
がチャンネルi及びjの前記直接エネルギー率である、請求項10に記載の方法。 - 前記信号の各ペア間の相関係数を推定するステップが、再帰的数式を用いて実行される、請求項11に記載の方法。
- 所定値を下回る相関係数推定値をゼロに設定し、
前記所定値を上回るか又は等しい前記相関係数推定値の範囲を[0,1]の範囲まで線形的に拡張する、
ことによって再帰的な前記相関係数推定値を補正するステップ(220、420)を更に含む、請求項12に記載の方法。 - 前記直接成分出力信号及び拡散成分出力信号を生成するステップが更に、
前記複数のチャンネルの各々の直接エネルギー率に基づいて前記複数の周波数帯域の各々について直接及び拡散マスクを生成するステップ(250、450)と、
前記複数の周波数帯域の各々について、前記入力信号と前記直接及び拡散マスクを乗算して前記直接成分出力信号及び拡散成分出力信号を供給するステップと、
を含む、請求項10に記載の方法。 - 前記直接及び拡散マスクを時間及び/又は周波数にわたって円滑化するステップを更に含む、請求項14に記載の方法。
- 前記直接及び拡散マスクを円滑化するステップが更に、
前記複数の入力信号チャンネル及び前記複数の周波数帯域についての前記相関関係推定値の分散の推定値に部分的に基づいて前記直接及び拡散マスクを円滑化するステップを含む、請求項15に記載の方法。 - 前記複数の周波数帯域のうちの1つにおいて前記複数の入力信号チャンネルから信号のペア間の相関係数を推定するステップが更に、
前記信号ペア間の差違(425)が所定閾値を上回る場合、前記信号のペア間の相関係数を過大推定するステップを含む、請求項10に記載の方法。 - 前記複数の周波数帯域のうちの1つにおいて前記複数の入力信号チャンネルから信号のペア間の相関係数を推定するステップが更に、
前記信号のペアの1つが過渡状態(415)を含む場合、前記信号のペア間の相関係数を過大推定するステップを含む、請求項10に記載の方法。 - 前記線形システムを解くステップが更に、線形最小二乗法及び加重最小二乗法のうちの一方を用いて過剰決定システムの式を解くステップを含む、請求項10に記載の方法。
- 複数のチャンネルを有する入力信号の直接−拡散分解のための装置(500)であって、
プロセッサ(510)と、
前記プロセッサに結合されたメモリ(520)と、
前記プロセッサに結合された記憶デバイス(530)と、
を備え、
前記プロセッサによって実行されたときに、
複数の信号から信号の各ペア間の相関係数を推定するステップ(110、220、320)と、
前記推定した相関係数と前記複数のチャンネルの各々の直接エネルギー率とを関連付ける線形システムの式を構築するステップ(130、240、440)と、
前記線形システムを解いて前記直接エネルギー率を推定するステップ(140、240、440)と、
前記直接エネルギー率に部分的に基づいて直接成分出力信号及び拡散成分出力信号を生成するステップ(280、480)と、
を含む動作をコンピュータデバイスに実行させる命令を前記記憶デバイスが記憶する、装置(500)。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161534235P | 2011-09-13 | 2011-09-13 | |
US61/534,235 | 2011-09-13 | ||
US201261676791P | 2012-07-27 | 2012-07-27 | |
US61/676,791 | 2012-07-27 | ||
PCT/US2012/055103 WO2013040172A1 (en) | 2011-09-13 | 2012-09-13 | Direct-diffuse decomposition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014527381A true JP2014527381A (ja) | 2014-10-09 |
JP5965487B2 JP5965487B2 (ja) | 2016-08-03 |
Family
ID=47883722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014530780A Active JP5965487B2 (ja) | 2011-09-13 | 2012-09-13 | 直接−拡散分解方法 |
Country Status (9)
Country | Link |
---|---|
US (1) | US9253574B2 (ja) |
EP (1) | EP2756617B1 (ja) |
JP (1) | JP5965487B2 (ja) |
KR (1) | KR102123916B1 (ja) |
CN (1) | CN103875197B (ja) |
BR (1) | BR112014005807A2 (ja) |
PL (1) | PL2756617T3 (ja) |
TW (1) | TWI590229B (ja) |
WO (1) | WO2013040172A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015143805A (ja) * | 2014-01-31 | 2015-08-06 | ブラザー工業株式会社 | 雑音抑圧装置、雑音抑圧方法、及びプログラム |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105336332A (zh) | 2014-07-17 | 2016-02-17 | 杜比实验室特许公司 | 分解音频信号 |
CN105657633A (zh) | 2014-09-04 | 2016-06-08 | 杜比实验室特许公司 | 生成针对音频对象的元数据 |
US10187740B2 (en) * | 2016-09-23 | 2019-01-22 | Apple Inc. | Producing headphone driver signals in a digital audio signal processing binaural rendering environment |
CA3078420A1 (en) | 2017-10-17 | 2019-04-25 | Magic Leap, Inc. | Mixed reality spatial audio |
IL276510B2 (en) | 2018-02-15 | 2024-02-01 | Magic Leap Inc | Virtual reverberation in mixed reality |
ES2909343T3 (es) * | 2018-04-05 | 2022-05-06 | Fraunhofer Ges Forschung | Aparato, método o programa informático para estimar una diferencia de tiempo entre canales |
US10779082B2 (en) | 2018-05-30 | 2020-09-15 | Magic Leap, Inc. | Index scheming for filter parameters |
EP4049466A4 (en) | 2019-10-25 | 2022-12-28 | Magic Leap, Inc. | REVERBER FOOTPRINT ESTIMATION |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070269063A1 (en) * | 2006-05-17 | 2007-11-22 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
WO2010113434A1 (ja) * | 2009-03-31 | 2010-10-07 | パナソニック株式会社 | 音響再生装置及び音響再生方法 |
JP2010541350A (ja) * | 2007-09-26 | 2010-12-24 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 周囲信号を抽出するための重み付け係数を取得する装置および方法における周囲信号を抽出する装置および方法、並びに、コンピュータプログラム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5185805A (en) * | 1990-12-17 | 1993-02-09 | David Chiang | Tuned deconvolution digital filter for elimination of loudspeaker output blurring |
US7412380B1 (en) * | 2003-12-17 | 2008-08-12 | Creative Technology Ltd. | Ambience extraction and modification for enhancement and upmix of audio signals |
US8019614B2 (en) | 2005-09-02 | 2011-09-13 | Panasonic Corporation | Energy shaping apparatus and energy shaping method |
US8180067B2 (en) | 2006-04-28 | 2012-05-15 | Harman International Industries, Incorporated | System for selectively extracting components of an audio input signal |
US9088855B2 (en) * | 2006-05-17 | 2015-07-21 | Creative Technology Ltd | Vector-space methods for primary-ambient decomposition of stereo audio signals |
US8204237B2 (en) | 2006-05-17 | 2012-06-19 | Creative Technology Ltd | Adaptive primary-ambient decomposition of audio signals |
US8345899B2 (en) * | 2006-05-17 | 2013-01-01 | Creative Technology Ltd | Phase-amplitude matrixed surround decoder |
WO2008046530A2 (en) | 2006-10-16 | 2008-04-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for multi -channel parameter transformation |
US8374355B2 (en) * | 2007-04-05 | 2013-02-12 | Creative Technology Ltd. | Robust and efficient frequency-domain decorrelation method |
JP2010538571A (ja) * | 2007-09-06 | 2010-12-09 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
US8107631B2 (en) | 2007-10-04 | 2012-01-31 | Creative Technology Ltd | Correlation-based method for ambience extraction from two-channel audio signals |
US8103005B2 (en) * | 2008-02-04 | 2012-01-24 | Creative Technology Ltd | Primary-ambient decomposition of stereo audio signals using a complex similarity index |
EP2196988B1 (en) | 2008-12-12 | 2012-09-05 | Nuance Communications, Inc. | Determination of the coherence of audio signals |
US8660281B2 (en) * | 2009-02-03 | 2014-02-25 | University Of Ottawa | Method and system for a multi-microphone noise reduction |
US8705769B2 (en) * | 2009-05-20 | 2014-04-22 | Stmicroelectronics, Inc. | Two-to-three channel upmix for center channel derivation |
EP2360681A1 (en) * | 2010-01-15 | 2011-08-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information |
EP2464146A1 (en) * | 2010-12-10 | 2012-06-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decomposing an input signal using a pre-calculated reference curve |
-
2012
- 2012-09-12 US US13/612,543 patent/US9253574B2/en active Active
- 2012-09-13 JP JP2014530780A patent/JP5965487B2/ja active Active
- 2012-09-13 WO PCT/US2012/055103 patent/WO2013040172A1/en active Application Filing
- 2012-09-13 BR BR112014005807A patent/BR112014005807A2/pt not_active Application Discontinuation
- 2012-09-13 PL PL12831014T patent/PL2756617T3/pl unknown
- 2012-09-13 TW TW101133461A patent/TWI590229B/zh active
- 2012-09-13 KR KR1020147008906A patent/KR102123916B1/ko active IP Right Grant
- 2012-09-13 EP EP12831014.1A patent/EP2756617B1/en active Active
- 2012-09-13 CN CN201280050756.6A patent/CN103875197B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070269063A1 (en) * | 2006-05-17 | 2007-11-22 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
JP2010541350A (ja) * | 2007-09-26 | 2010-12-24 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 周囲信号を抽出するための重み付け係数を取得する装置および方法における周囲信号を抽出する装置および方法、並びに、コンピュータプログラム |
WO2010113434A1 (ja) * | 2009-03-31 | 2010-10-07 | パナソニック株式会社 | 音響再生装置及び音響再生方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015143805A (ja) * | 2014-01-31 | 2015-08-06 | ブラザー工業株式会社 | 雑音抑圧装置、雑音抑圧方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
BR112014005807A2 (pt) | 2019-12-17 |
US9253574B2 (en) | 2016-02-02 |
EP2756617A1 (en) | 2014-07-23 |
WO2013040172A1 (en) | 2013-03-21 |
CN103875197B (zh) | 2016-05-18 |
KR20140074918A (ko) | 2014-06-18 |
KR102123916B1 (ko) | 2020-06-17 |
PL2756617T3 (pl) | 2017-05-31 |
CN103875197A (zh) | 2014-06-18 |
JP5965487B2 (ja) | 2016-08-03 |
US20130182852A1 (en) | 2013-07-18 |
TW201322252A (zh) | 2013-06-01 |
EP2756617B1 (en) | 2016-11-09 |
TWI590229B (zh) | 2017-07-01 |
EP2756617A4 (en) | 2015-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5965487B2 (ja) | 直接−拡散分解方法 | |
US10354634B2 (en) | Method and system for denoise and dereverberation in multimedia systems | |
Vincent et al. | Oracle estimators for the benchmarking of source separation algorithms | |
JP6385376B2 (ja) | 音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法 | |
EP2671222B1 (en) | Determining the inter-channel time difference of a multi-channel audio signal | |
AU2015295518B2 (en) | Apparatus and method for enhancing an audio signal, sound enhancing system | |
WO2009046225A2 (en) | Correlation-based method for ambience extraction from two-channel audio signals | |
EP3133833B1 (en) | Sound field reproduction apparatus, method and program | |
EP2649814A1 (en) | Apparatus and method for decomposing an input signal using a downmixer | |
JP2017533459A (ja) | マルチチャネルオーディオ信号内の音声成分を強調するための信号処理装置 | |
JP5195979B2 (ja) | 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム | |
JP6280983B2 (ja) | 信号対ダウンミックス比に基づいたセンター信号スケーリング及び立体音響強調のための装置及び方法 | |
US10473628B2 (en) | Signal source separation partially based on non-sensor information | |
Steinmetz et al. | High-Fidelity Noise Reduction with Differentiable Signal Processing | |
Bagchi et al. | Extending instantaneous de-mixing algorithms to anechoic mixtures | |
Dal Santo et al. | RIR2FDN: An improved room impulse response analysis and synthesis | |
Mirzahasanloo et al. | A generalized speech enhancement framework for bilateral cochlear implants using a single processor | |
Bouafif et al. | Separation and mixing parameters estimation for localization in distance based on features extraction | |
Ciaramella et al. | BSS Toolbox for delayed and convolved mixtures | |
BR112017000645B1 (pt) | Aparelho e método para reforço de um sistema de reforço de som e sinal de áudio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150820 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160427 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160601 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160701 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5965487 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |