JP2019514056A - オーディオ源分離 - Google Patents

オーディオ源分離 Download PDF

Info

Publication number
JP2019514056A
JP2019514056A JP2018552048A JP2018552048A JP2019514056A JP 2019514056 A JP2019514056 A JP 2019514056A JP 2018552048 A JP2018552048 A JP 2018552048A JP 2018552048 A JP2018552048 A JP 2018552048A JP 2019514056 A JP2019514056 A JP 2019514056A
Authority
JP
Japan
Prior art keywords
matrix
audio
frequency
wiener filter
updated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018552048A
Other languages
English (en)
Other versions
JP6987075B2 (ja
Inventor
ワーン,ジュイン
ルゥ,リエ
ビン,チーンユエン
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority claimed from PCT/US2017/026296 external-priority patent/WO2017176968A1/en
Publication of JP2019514056A publication Critical patent/JP2019514056A/ja
Application granted granted Critical
Publication of JP6987075B2 publication Critical patent/JP6987075B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本稿は、オーディオ・チャネル(302)からオーディオ源(301)を抽出する方法(100)を記載する。本方法(100)は、ウィーナー・フィルタ行列を、源行列からの混合行列に基づき、かつオーディオ源(301)のパワー行列に基づいて、更新すること(102)を含む。さらに、本方法(100)は、オーディオ・チャネル(302)およびオーディオ源(301)の相互共分散行列ならびにオーディオ源(301)の自己共分散行列を、更新されたウィーナー・フィルタ行列に基づき、かつオーディオ・チャネル(302)の自己共分散行列に基づいて、更新すること(103)を含む。さらに、本方法(100)は、前記混合行列および前記パワー行列を、オーディオ・チャネル(302)およびオーディオ源(301)の更新された相互共分散行列に基づき、および/またはオーディオ源(301)の更新された自己共分散行列に基づいて更新すること(104)を含む。

Description

本稿はマルチチャネル・オーディオ信号からの一つまたは複数のオーディオ源の分離に関する。
オーディオ信号の混合、特にステレオ、5.1もしくは7.1オーディオ信号のようなマルチチャネル・オーディオ信号は、典型的には、スタジオにおいて異なるオーディオ源を混合することによって作り出されるか、現実の環境において同時に音響信号を記録することによって生成される。マルチチャネル・オーディオ信号の異なるオーディオ・チャネルは、複数のオーディオ源の異なる和として記述することができる。音源分離のタスクは、それらの異なるオーディオ・チャネルに導く混合パラメータを特定し、可能性としては混合パラメータの逆を行なってもとになったオーディオ源の推定を得ることである。
マルチチャネル・オーディオ信号に関わるオーディオ源について事前情報が利用可能でないときは、音源分離のプロセスはブラインド源分離(BSS: blind source separation)と称されることがある。空間的オーディオ捕捉の場合、BSSはマルチチャネル・オーディオ信号を種々の源信号に分解し、混合パラメータについて、空間位置についておよび/またはオーディオ源の起点位置と一つまたは複数の受領マイクロフォンとの間の音響チャネル応答についての情報を提供する段階を含む。
ブラインド源分離および/または情報を与えられての源分離の問題は、さまざまな異なる応用分野において重要である。そうした分野は、複数マイクロフォンによる発話向上、マルチチャネル通信におけるクロストーク除去、マルチパス・チャネル識別および等化、センサー・アレイにおける到来方向(DOA: direction of arrival)推定、オーディオおよびパッシブ・ソナーのためのビームフォーミング・マイクロフォンについての改良、映画オーディオのアップミックスおよび再オーサリング、音楽再オーサリング、文字起こしおよび/またはオブジェクト・ベースのコーディングなどである。
リアルタイムのオンライン処理は典型的には、通信用および再オーサリング用など、上述した応用の多くのために重要である。よって、リアルタイムでオーディオ源を分離するための解決策であって、源分離システムのための低いシステム遅延および低い解析遅延に関する要求を解くものが当技術分野において必要とされている。低いシステム遅延は、実質的な先読みデータを必要とすることなく、システムが逐次的なリアルタイム処理(クリップイン/クリップアウト)をサポートすることを要求する。低い解析遅延は、アルゴリズムの複雑さが十分に低く、実際的な計算資源を与えられればリアルタイムの処理ができることを要求する。
本稿は、源分離のためのリアルタイム方法を提供するという技術的課題に取り組む。本稿に記載される方法はブラインド源分離に、また源についておよび/またはノイズについての情報が利用可能である半教師付きまたは教師付きの源分離のためにも適用可能であることを注意しておくべきである。
ある側面によれば、I個のオーディオ・チャネルからJ個のオーディオ源を抽出する方法であって、I、J>1であるものが記載される。オーディオ・チャネルはたとえば、マイクロフォンによって捕捉されてもよく、あるいはマルチチャネル・オーディオ信号のチャネルに対応していてもよい。オーディオ・チャネルは複数のクリップを含み、各クリップはN個のフレームを含む。N>1である。換言すれば、オーディオ・チャネルはクリップに分割されてもよく、各クリップは複数のフレームを含む。オーディオ・チャネルのフレームは典型的には、オーディオ信号の抜粋(たとえば20msの抜粋)に対応し、典型的にはサンプルのシーケンスを含む。
I個のオーディオ・チャネルは、周波数領域でチャネル行列として表現可能であり、J個のオーディオ源は周波数領域で源行列として表現可能である。特に、オーディオ・チャネルは、短期フーリエ変換のような時間領域から周波数領域への変換を使って、時間領域から周波数領域に変換されてもよい。
本方法は、現在のクリップのフレームnについて、少なくとも一つの周波数ビンfについて、かつ現在の反復工程について、ウィーナー・フィルタ行列を、源行列からチャネル行列の推定を提供するよう適応された混合行列に基づいて、かつ、J個のオーディオ源のスペクトル・パワーを示すJ個のオーディオ源のパワー行列に基づいて、更新することを含む。特に、本方法は、現在のクリップのすべてのフレームnについて、周波数領域のすべての周波数ビンfまたはすべての周波数帯域 ̄f〔 ̄付きのf〕について、ウィーナー・フィルタ行列を決定することに向けられてもよい。各フレームnについてかつ各周波数ビンfまたは周波数帯域 ̄fについて、つまり各時間‐周波数タイルについて、ウィーナー・フィルタ行列は、複数の反復工程をもつ逐次反復プロセスを使って決定されてもよい。それにより、ウィーナー・フィルタ行列の精度が逐次反復的に洗練される。
ウィーナー・フィルタ行列は、チャネル行列から源行列の推定を提供するよう適応される。具体的には、現在のクリップのフレームnについてかつ周波数ビンfについての源行列Sfnの推定が、
Figure 2019514056
として決定されてもよい。ここで、Ωfnは現在のクリップのフレームnについてかつ周波数ビンfについてのウィーナー・フィルタ行列であり、Xfnは現在のクリップのフレームnについてかつ周波数ビンfについてのチャネル行列である。よって、フレームnについてかつ周波数ビンfについてのウィーナー・フィルタ行列を決定するための逐次反復プロセスの後、源行列は、該ウィーナー・フィルタ行列を使って推定されうる。さらに、逆変換を使って、源行列は周波数領域から時間領域に変換されて、J個の源信号を与えてもよい。特に、J個の源信号のフレームを与えてもよい。
さらに、本方法は、逐次反復プロセスの一部として、更新されたウィーナー・フィルタ行列に基づき、かつI個のオーディオ・チャネルの自己共分散行列に基づいて、I個のオーディオ・チャネルおよびJ個のオーディオ源の相互共分散行列を更新し、J個のオーディオ源の自己共分散行列を更新することを含む。現在のクリップのフレームnについてのI個のオーディオ・チャネルの自己共分散行列は、現在のクリップの諸フレームからおよび一つまたは複数の以前のクリップからおよび一つまたは複数の将来のクリップの諸フレームから決定されてもよい。この目的のために、オーディオ・チャネルのための履歴バッファおよび先読みバッファを含むバッファが設けられてもよい。将来のクリップの数は制限されてもよく(たとえば一つの将来のクリップ)、それにより源分離方法の処理遅延を制限する。
加えて、本方法は、I個のオーディオ・チャネルおよびJ個のオーディオ源の更新された相互共分散行列に基づき、および/またはJ個のオーディオ源の更新された自己共分散行列に基づいて、混合行列およびパワー行列を更新することを含む。
これらの更新する段階は、最大反復回数に達するまでまたは混合行列に関する収束基準が満たされるまで、反復または逐次反復されて、ウィーナー・フィルタ行列を決定してもよい。そのような逐次反復プロセスの結果として、正確なウィーナー・フィルタ行列が決定されてもよい。それにより、異なるオーディオ源の正確な分離が提供される。
周波数領域はF個の周波数ビンに細分されてもよい。他方、F個の周波数ビンは ̄F〔 ̄付きのF〕個の周波数バンドにグループ化またはバンド化されてもよい。ここで、 ̄F<Fである。処理は、周波数帯域に対して、周波数ビンに対して、または部分的には周波数帯域に対して部分的には周波数ビンに対してという混合式に実行されてもよい。例として、ウィーナー・フィルタ行列は、F個の周波数ビンのそれぞれについて決定されてもよく、それにより正確な源分離を提供してもよい。他方、I個のオーディオ・チャネルの自己共分散行列および/またはJ個のオーディオ源のパワー行列は、 ̄F個の周波数バンドについてのみ決定されてもよい。それにより、源分離方法の計算量が軽減される。
よって、ウィーナー・フィルタ行列の周波数分解能は、J個のオーディオ源を抽出するための逐次反復方法において使われる一つまたは複数の他の行列の周波数分解能より高いことがありうる。こうすることにより、精度と計算量との間の改善されたトレードオフが提供されうる。具体例では、ウィーナー・フィルタ行列は周波数ビンfの分解能の混合行列を使い、かつ周波数バンド ̄fの低下した分解能のみでのJ個のオーディオ源のパワー行列を使って、周波数ビンfの分解能について、更新されうる。この目的のために、下記の更新公式が使われてもよい。
Figure 2019514056
さらに、I個のオーディオ・チャネルおよびJ個のオーディオ源の相互共分散行列
Figure 2019514056
およびJ個のオーディオ源の自己共分散行列
Figure 2019514056
は、更新されたウィーナー・フィルタ行列に基づき、かつI個のオーディオ・チャネルの自己共分散行列
Figure 2019514056
に基づいて更新されてもよい。更新は、周波数バンド ̄fの低下した分解能で実行されるだけであってもよい。この目的のために、ウィーナー・フィルタ行列Ωfnの周波数分解能は、周波数ビンfの比較的高い分解能から周波数バンド ̄fの低下した周波数分解能に下げられてもよい(たとえば、ある周波数バンドに属する諸周波数ビンの対応するウィーナー・フィルタ行列係数を平均することによって)。更新は、後述する公式を使って実行されてもよい。
さらに、混合行列Afnおよびパワー行列
Figure 2019514056
は、I個のオーディオ・チャネルおよびJ個のオーディオ源の更新された相互共分散行列
Figure 2019514056
に基づき、および/またはJ個のオーディオ源の更新された自己共分散行列
Figure 2019514056
に基づいて更新されてもよい。
ウィーナー・フィルタ行列は、ノイズ・パワー項を含むノイズ・パワー行列に基づいて更新されてもよい。ここで、ノイズ・パワー項は反復工程数が増すとともに減少してもよい。換言すれば、ウィーナー・フィルタ行列に人工的なノイズが挿入されてもよく、逐次反復プロセスの間に漸進的に低下させられてもよい。この結果として、決定されるウィーナー・フィルタ行列の品質が増大させられてもよい。
現在のクリップのフレームnについて、周波数バンド ̄f内にある周波数ビンfについて、ウィーナー・フィルタ行列は
Figure 2019514056
に基づいてまたはこれを使って更新されてもよい。ここで、Ωfnは更新されたウィーナー・フィルタ行列であり、
Figure 2019514056
はJ個のオーディオ源のパワー行列である。Afnは混合行列であり、ΣBはノイズ・パワー行列(これは上述したノイズ・パワー項を含んでいてもよい)である。上述した公式は特に、I<Jの場合に使われてもよい。あるいはまた、ウィーナー・フィルタ行列は、特にI≧Jの場合、
Figure 2019514056
に基づいてまたはこれを使って更新されてもよい。
ウィーナー・フィルタ行列は、J個のオーディオ源に関して直交制約条件を適用することによって更新されてもよい。例として、ウィーナー・フィルタ行列は、J個のオーディオ源の自己共分散行列の非対角項のパワーを低下させるために逐次反復的に更新されてもよい。推定されるオーディオ源を、互いに、より直交にするためである。特に、ウィーナー・フィルタ行列は勾配
Figure 2019514056
を使って(特に逐次反復的に勾配を低下させることによって)逐次反復的に更新されてもよい。ここで、
Figure 2019514056
は周波数バンド ̄fについておよびフレームnについてのウィーナー・フィルタ行列であり、
Figure 2019514056
はI個のオーディオ・チャネルの自己共分散行列であり、[ ]Dは括弧内に含まれる行列においてすべての非対角要素を0と置いた対角行列であり、εは小さな実数(たとえば10-12)である。オーディオ源が互いから脱相関されているという事実を考慮に入れ、これを課すことによって、源分離の品質がさらに改善されうる。
I個のオーディオ・チャネルおよびJ個のオーディオ源の相互共分散行列は、
Figure 2019514056
に基づいてまたはこれを使って更新されてもよい。ここで、
Figure 2019514056
は周波数バンド ̄fについてかつフレームnについてのI個のオーディオ・チャネルおよびJ個のオーディオ源の更新された相互共分散行列であり、
Figure 2019514056
は(更新された)ウィーナー・フィルタ行列であり、
Figure 2019514056
はI個のオーディオ・チャネルの自己共分散行列である。同様に、J個のオーディオ源の自己共分散行列は
Figure 2019514056
に基づいて更新されてもよい。ここで、
Figure 2019514056
は周波数バンド ̄fについてかつフレームnについてのJ個のオーディオ源の更新された自己共分散行列である。
混合行列の更新は、フレームnについてのJ個のオーディオ源の周波数独立な自己共分散行列
Figure 2019514056
を、フレームnについてかつ周波数領域の種々の周波数ビンfまたは周波数バンド ̄fについてのJ個のオーディオ源の自己共分散行列
Figure 2019514056
に基づいて決定することを含んでいてもよい。さらに、混合行列を更新することは、フレームnについてI個のオーディオ・チャネルおよびJ個のオーディオ源の周波数独立な相互共分散行列
Figure 2019514056
を、フレームnについてかつ周波数領域の種々の周波数ビンfまたは周波数バンド ̄fについてのI個のオーディオ・チャネルおよびJ個のオーディオ源の相互共分散行列
Figure 2019514056
に基づいて決定することを含んでいてもよい。すると、フレームnについての混合行列Anは、
Figure 2019514056
に基づいてまたはこれを使って、周波数独立な仕方で決定されうる。
本方法は、周波数依存の重み付け項efnを、I個のオーディオ・チャネルの自己共分散行列
Figure 2019514056
に基づいて決定することを含んでいてもよい。次いで、周波数独立の自己共分散行列
Figure 2019514056
および周波数独立の相互共分散行列
Figure 2019514056
は周波数依存の重み付け項efnに基づいて決定されてもよい。特に、オーディオ源の比較的大きな〔ラウドな〕周波数成分に増大した強調を置くためである。こうすることにより、源分離の品質が高められる。
パワー行列を更新することは、周波数ビンfについてかつフレームnについてのj番目のオーディオ源についての更新されたパワー行列項(ΣS)jj,fnを、
Figure 2019514056
に基づいてまたはこれを使って決定することを含んでいてもよい。ここで、
Figure 2019514056
はフレームnについてかつ周波数ビンfを含む周波数バンド ̄fについてのJ個のオーディオ源の自己共分散行列である。
さらに、パワー行列を更新することは、J個のオーディオ源について、スペクトル・シグネチャーWおよび時間シグネチャーHを、パワー行列の非負行列因子分解を使って決定することを含んでいてもよい。j番目のオーディオ源についてのスペクトル・シグネチャーWおよび時間シグネチャーHは、j番目のオーディオ源についての更新されたパワー行列項(ΣS)jj,fnに基づいて決定されてもよい。j番目のオーディオ源についてのさらなる更新されたパワー行列項(ΣS)jj,fn
Figure 2019514056
に基づいて決定されてもよい。ここで、kはシグネチャーの番号またはインデックスである。すると、パワー行列は、J個のオーディオ源についての前記さらなる更新されたパワー行列項を使って更新されてもよい。パワー行列の因子分解は、パワー行列に(特にスペクトル入れ換え(spectral permutation)に関して)一つまたは複数の制約条件を課し、それにより源分離方法の品質をさらに高めるために使われてもよい。
本方法は、前記混合行列を(ウィーナー・フィルタ行列を決定するための逐次反復プロセスの開始時に)、現在のクリップの直前のクリップのフレーム(特に最後のフレーム)について決定された混合行列を使って初期化することを含んでいてもよい。さらに、本方法は、前記パワー行列を、現在のクリップのフレームnについてのI個のオーディオ・チャネルの自己共分散行列に基づき、かつ、現在のクリップの直前のクリップのフレーム(特に最後のフレーム)について決定されたウィーナー・フィルタ行列に基づいて初期化することを含んでいてもよい。現在のクリップのフレームについての逐次反復プロセスを初期化するために前のクリップのために得られた結果を利用することによって、逐次反復方法の収束速度および品質が高められうる。
さらなる側面によれば、I個のオーディオ・チャネルからJ個のオーディオ源を抽出するシステムであって、I、J>1であるものが記載される。オーディオ・チャネルは複数のクリップを含み、各クリップはN個のフレームを含む。N>1である。I個のオーディオ・チャネルは、周波数領域でチャネル行列として表現可能であり、J個のオーディオ源は周波数領域で源行列として表現可能である。現在のクリップのフレームnについて、少なくとも一つの周波数ビンfについて、かつ現在の反復工程について、本システムは、ウィーナー・フィルタ行列を、源行列からチャネル行列の推定を提供するよう適応された混合行列に基づいて、かつ、J個のオーディオ源のスペクトル・パワーを示すJ個のオーディオ源のパワー行列に基づいて、更新するよう適応される。ウィーナー・フィルタ行列は、チャネル行列から源行列の推定を提供するよう適応される。さらに、本システムは、更新されたウィーナー・フィルタ行列に基づき、かつI個のオーディオ・チャネルの自己共分散行列に基づいて、I個のオーディオ・チャネルおよびJ個のオーディオ源の相互共分散行列を更新し、J個のオーディオ源の自己共分散行列を更新するよう適応される。さらに、本システムは、I個のオーディオ・チャネルおよびJ個のオーディオ源の更新された相互共分散行列に基づき、および/またはJ個のオーディオ源の更新された自己共分散行列に基づいて、混合行列およびパワー行列を更新するよう適応される。
あるさらなる側面によれば、ソフトウェア・プログラムが記載される。ソフトウェア・プログラムは、プロセッサ上での実行のために、かつプロセッサ上で実行されたときに本稿で概説される方法段階を実行するために、適応されていてもよい。
もう一つの側面によれば、記憶媒体が記載される。記憶媒体は、プロセッサ上での実行のために、かつプロセッサ上で実行されたときに本稿で概説される方法段階を実行するために適応されているソフトウェア・プログラムを含んでいてもよい。
さらなる側面によれば、コンピュータ・プログラム・プロダクトが記載される。コンピュータ・プログラムは、コンピュータ上で実行されたときに本稿で概説される方法段階を実行するための実行可能命令を含んでいてもよい。
本特許出願において概説される、好ましい実施形態を含めた方法およびシステムは、単独で、あるいは本稿で開示される他の方法およびシステムと組み合わせて使用されうることを注意しておくべきである。さらに、本特許出願において概説される方法およびシステムのすべての側面は、任意に組み合わされうる。特に、請求項の特徴は、任意の仕方で互いと組み合わされうる。
本発明は、付属の図面を参照して例示的な仕方で下記で説明される。
源分離を実行するための例示的方法のフローチャートである。 オーディオ・データの特定のクリップのフレームを処理するために使われるデータを示す図である。 複数のオーディオ源およびマルチチャネル信号の複数のオーディオ・チャネルとともに例示的なシナリオを示す図である。
上記で概説したように、本稿は特にリアルタイム用途のための、マルチチャネル・オーディオ信号からのオーディオ源の分離に向けられる。図3は、源分離のための例示的なシナリオを示している。具体的には、図3は、音響環境内で異なる位置に位置される複数のオーディオ源301を示している。さらに、複数のオーディオ・チャネル302が、音響環境内の異なる位置にあるマイクロフォンによって捕捉される。マルチチャネル・オーディオ信号のオーディオ・チャネル302からオーディオ源301を導出することが、源分離の目的である。
本稿は表1に記載される記号法を使う。
Figure 2019514056
さらに、本稿は以下の記法を使う:
・共分散行列はRXX、RSS、RXSなどと記されることがあり、共分散行列のすべての非対角項を0にすることによって得られる対応する行列はΣX、ΣSなどと記されることがある。
・演算子‖・‖はベクトルについてのL2ノルムおよび行列についてのフロベニウス・ノルムを表わすために使われることがある。いずれの場合にも、この演算子は典型的にはすべての要素の平方の和の平方根からなる。
・表現A.Bは二つの行列AおよびBの要素ごとの積を表わすことがある。さらに、表現
Figure 2019514056
〔A/B〕は要素ごとの除算を表わすことがあり、表現B-1は逆行列を表わすことがある。
・表現BHは、Bが実数値の行列であればBの転置を表わすことがあり、Bが複素数値の行列であればBの共役転置を表わすことがある。
Iチャネルのマルチチャネル・オーディオ信号はI個の異なるオーディオ・チャネル302を含み、そのそれぞれがJ個のオーディオ源301と周囲音およびノイズの畳み込み混合
Figure 2019514056
である。ここで、xi(t)はi番目の時間領域オーディオ・チャネル302であり、i=1,…,I、t=1,…,Tである。sj(t)はj番目のオーディオ源301であり、j=1,…,Jであり、オーディオ源301は互いに相関していないことが想定される。bi(t)は周囲音信号およびノイズ(これらは簡単のためにまとめてノイズと称されることがある)の和であり、周囲音およびノイズ信号はオーディオ源301に相関していない。aij(τ)は混合パラメータであり、これは経路長Lのフィルタの有限インパルス応答と考えられてもよい。
STFT(short term Fourier transform[短期フーリエ変換])フレーム・サイズがフィルタ経路長Lより実質的に大きい場合には、線形の巡回畳み込み混合モデルが周波数領域で次のように近似されてもよい。
Figure 2019514056
ここで、XfnおよびBfnはI×1行列であり、AfnはI×J行列であり、SfnはJ×1行列であり、それぞれオーディオ・チャネル302、ノイズ、混合パラメータおよびオーディオ源301のSTFTである。Xfnはチャネル行列と称されてもよく、Sfnは源行列と称されてもよく、Afnは混合行列と称されてもよい。
畳み込み混合モデルの特別な場合が、フィルタ経路長L=1である瞬時混合型であり、
Figure 2019514056
というものである。
周波数領域では、混合パラメータAは周波数独立である。つまり、式(3)はAfn=An(∀f=1,…,F)と同一であり、実である。一般性および拡張可能性を失うことなく、下記では瞬時混合型を記述する。
図1は、Iチャネルのマルチチャネル・オーディオ信号のオーディオ・チャネルxi(t)からJ個のオーディオ源sj(t)を決定するための例示的方法100のフローチャートである。第一段階101では、源パラメータが初期化される。特に、混合パラメータAij,fnについての初期値が選択されてもよい。さらに、種々の周波数バンドfについてかつ諸フレームのクリップの種々のフレームnについてのJ個のオーディオ源のスペクトル・パワーを示すスペクトル・パワー行列(ΣS)jj,fnが推定されてもよい。
これらの初期値は、パラメータの収束まで、あるいは許容される最大反復工程数ITRに達するまでパラメータを更新するための逐次反復法を初期化するために使われてもよい。オーディオ・チャネル302からオーディオ源301を決定するために、ウィーナー・フィルタSfn=ΩfnXfnが使われてもよい。ここで、Ωfnはウィーナー・フィルタ・パラメータまたは混合解除パラメータである(ウィーナー・フィルタ行列に含まれる)。特定の反復工程内のウィーナー・フィルタ・パラメータΩfnは、前の反復工程において決定された混合パラメータAij,fnおよびスペクトル・パワー行列(ΣS)jj,fnの値を使って計算または更新されてもよい(段階102)。更新されたウィーナー・フィルタ・パラメータΩfnは、オーディオ源301の自己共分散行列RSSおよびオーディオ源およびオーディオ・チャネルの相互共分散行列RXSを更新する(103)ために使われてもよい。更新された共分散行列は、混合パラメータAij,fnおよびスペクトル・パワー行列(ΣS)jj,fnを更新するために使われてもよい(段階104)。収束基準が満たされる場合(段階105)、収束したウィーナー・フィルタΩfnを使ってオーディオ源が再構築されてもよい(段階106)。収束基準が満たされない場合(段階105)には、ウィーナー・フィルタ・パラメータΩfnは、逐次反復プロセスのさらなる反復工程について、段階102において更新されてもよい。
方法100は、マルチチャネル・オーディオ信号のフレームのクリップに適用されてもよい。ここで、クリップはN個のフレームを含む。図2に示されるように、各クリップについて、マルチチャネル・オーディオ・バッファ200は、現在のクリップのN個のフレームと、(履歴バッファ201としての)一つまたは複数の前のクリップの((TR/2)−1)個のフレームと、(先読みバッファ202としての)一つまたは複数の将来のクリップの((TR/2)+1)個のフレームを含めて全部で(N+TR)個のフレームを含んでいてもよい。このバッファ200は共分散行列を決定するために維持される。
以下では、源パラメータを初期化するための方式が記載される。時間領域オーディオ・チャネル302が利用可能であり、比較的小さなランダム・ノイズが時間領域で入力に加えられて、(可能としてはノイズのある)オーディオ・チャネルxi(t)が得られてもよい。時間領域から周波数領域への変換(たとえばSTFT)が適用されてXfnが得られる。オーディオ・チャネルの瞬時共分散行列は次のように計算されてもよい。
Figure 2019514056
種々の周波数ビンについてかつ種々のフレームについての共分散行列が、TR個のフレームにわたって平均することによって計算されてもよい。
Figure 2019514056
任意的に、現在フレームに近い情報のほうがより大きな重要度を与えられるよう、式(5)における和に重み付け窓が適用されてもよい。
RXX,fnは、対応する周波数バンド
Figure 2019514056
を与えるよう個々の周波数ビンf=1,…,Fにわたって合計することによって、バンド・ベースの共分散行列
Figure 2019514056
にグループ化されてもよい。例示的なバンド化機構はオクターブ・バンドおよびERB(equivalent rectangular bandwidth[等価長方形帯域幅])バンドを含む。例として、バンド形成境界[0,1,3,5,8,11,15,20,27,35,45,59,75,96,123,156,199,252,320,405,513]をもつ20個のERBバンドが使われてもよい。あるいはまた、周波数分解能を増すために(たとえば513点STFTを使うとき)、バンド形成境界[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,18,20,22,24,26,28,30,32,36,40,44,48,52,56,60,64,72,80,88,96,104,112,120,128,144,160,176,192,208,224,240,256,288,320,352,384,416,448,480,513]をもつ56個のオクターブ・バンドが使われてもよい。バンド化は、方法100の処理段階のいずれに適用されてもよい。本稿では、個々の周波数ビンfは周波数バンド ̄fで置き換えられてもよい(バンド化が使われる場合)。
入力共分散行列RXX,fnを使って、各時間‐周波数(TF)タイルについて、つまり周波数ビンfとフレームnの各組み合わせについて、対数エネルギー値が決定されてもよい。次いで、対数エネルギー値は規格化され、あるいは[0,1]の区間にマッピングされてもよい。
Figure 2019514056
ここで、αは2.5に設定されてもよく、典型的には1から2.5の範囲である。規格化された対数エネルギー値efnは、混合行列Aを更新するための対応するTFタイルについての重み付け因子として、方法100内で使われてもよい(式18参照)。
オーディオ・チャネル302の共分散行列は、TFタイル毎の混合チャネルのエネルギーによって、所与のTFタイルについてのオーディオ・チャネル302のすべての規格化されたエネルギーの和が1になるよう、規格化されてもよい。
Figure 2019514056
ここで、ε1は0による除算を避けるための比較的小さな値であり(たとえば10-6)、trace(・)は括弧内の行列の対角要素の和を返す。
源のスペクトル・パワー行列についての初期化は、マルチチャネル・オーディオ信号の最初のクリップから該マルチチャネル・オーディオ信号の他の後続クリップにかけて異なる。
最初のクリップについては、源のスペクトル・パワー行列(これについては対角要素のみが0でない)はランダムな非負行列因子分解(NMF: Non-negative Matrix Factorization)行列W、H(またはもし利用可能であればW、Hについての事前に学習された値)を用いて初期化されてもよい。
Figure 2019514056
ここで、例として、Wj,fk=0.75|rand(j,fk)|+0.25、Hj,kn=0.75|rand(j,kn)|+0.25である。式(22)においてWj,fkを更新するための二つの行列も、ランダム値:(WA)j,fk=0.75|rand(j,fk)|+0.25、(WB)j,fk=0.75|rand(j,fk)|+0.25をもって初期化されてもよい
任意の後続のクリップについて、源のスペクトル・パワー行列は、前のクリップについての前に推定されたウィーナー・フィルタ・パラメータΩをオーディオ・チャネル302の共分散行列に適用することによって初期化されてもよい。
Figure 2019514056
ここで、Ωは前のクリップの最後のフレームについての推定されたウィーナー・フィルタ・パラメータであってもよい。ε2は比較的小さな値(たとえば10-6)であってもよく、rand(j)〜N(1.0,0.5)はガウス分布のランダム値であってもよい。小さなランダム値を加えることによって、(ΩRXXΩH)jj,fnの非常に小さな値の場合にコールドスタート問題が克服されうる。さらに、グローバルな最適化が優先されうる。
混合パラメータAについての初期化は次のようになされてもよい:
最初のクリップについては、マルチチャネル瞬時混合型については、混合パラメータは
Figure 2019514056
と初期化され、次いで
Figure 2019514056
と規格化されてもよい。
ステレオについては、つまりI=2個のオーディオ・チャネルを含み左チャネルLがi=1であり右チャネルRがi=2であるマルチチャネル・オーディオ信号については、次の公式
Figure 2019514056
を明示的に適用することができる。
マルチチャネル・オーディオ信号のその後のクリップについては、混合パラメータは、マルチチャネル・オーディオ信号の前のクリップの最後のフレームからの推定された値を用いて初期化されてもよい。
以下では、ウィーナー・フィルタ・パラメータの更新が概説される。ウィーナー・フィルタ・パラメータは次のように計算されてもよい。
Figure 2019514056
ここで、
Figure 2019514056
は対応する周波数バンド ̄f=1,…, ̄FについてΣS,fn、f=1,…,Fを合計することによって計算される。式(13)は、特にI<Jの場合に、ウィーナー・フィルタ・パラメータを決定するために使われてもよい。
ノイズは白色かつ定常と想定されるので、ノイズ共分散パラメータΣBは、周波数依存性や時間依存性を示さない、反復工程依存の共通の値に設定されてもよい。
Figure 2019514056
値は各反復工程iterにおいて、初期値1/100Iから最終的な、より小さな値/10000Iに変化する。この動作は、高速かつグローバルな収束を優先するシミュレーテッド・アニーリングと同様である。
ウィーナー・フィルタ・パラメータを計算するための逆演算は、I×I行列に適用される。行列の逆を求める計算を避けるために、I≦Jの場合は、式(13)の代わりに、ウッドベリー行列恒等式が使われて、
Figure 2019514056
を使ってウィーナー・フィルタ・パラメータを計算してもよい。
式(15)が式(13)と数学的に等価であることを示すことができる。
無相関のオーディオ源という想定のもとで、ウィーナー・フィルタ・パラメータは、源の間の直交制約条件を逐次反復的に適用することによってさらに制御されてもよい。
Figure 2019514056
ここで、表現[・]Dは、すべての非対角成分を0と置くことによって得られる対角行列を示し、εはε=10-12以下であってもよい。勾配更新は、収束が達成されるまで、あるいは許容される最大反復工程数ITRorthoに達するまで繰り返される。式(16)は、適応的な脱相関方法を使う。
共分散行列は、次式
Figure 2019514056
を使って更新されてもよい(段階103)。
以下では、源パラメータの更新のための方式が記述される(段階104)。瞬時混合型が想定されるので、混合パラメータを計算するために、共分散行列は周波数ビンまたは周波数バンドにわたって合計されることができる。さらに、オーディオ・チャネル302のうちの、より大きな音の成分がより大きな重要性を与えられるよう、式(6)で計算された重み付け因子が、TFタイルをスケーリングするために
Figure 2019514056
のように使われてもよい。
制約されない問題を与えられると、混合パラメータは
Figure 2019514056
のように逆行列によって決定できる。
さらに、オーディオ源301のスペクトル・パワーが更新されてもよい。このコンテキストにおいて、非負行列因子分解(NMF)方式の適用が、オーディオ源301のある種の制約条件または特性(特にオーディオ源301のスペクトルに関するもの)を考慮に入れるために有益でありうる。よって、スペクトル・パワーを更新するときに、NMFを通じてスペクトル制約条件が課されてもよい。NMFは、オーディオ源のスペクトル・シグネチャー(W)および/または時間シグネチャー(H)についての事前知識が利用可能であるときに特に有益である。ブラインド源分離(BSS)の場合、NMFはある種のスペクトル制約条件を課す効果をももちうる。それにより、スペクトル入れ換え(spectrum permutation)(あるオーディオ源のスペクトル成分が複数のオーディオ源に分割されること)が回避され、アーチファクトがより少ない、より快い音が得られる。
オーディオ源のスペクトル・パワーΣS
Figure 2019514056
を使って更新されてもよい。
その後、各オーディオ源jについて、オーディオ源のスペクトル・シグネチャーWj,fkおよびオーディオ源の時間シグネチャーHj,knが、(ΣS)jj,fnに基づいて更新されてもよい。簡単のため、以下ではこれらの項はW、H、ΣSと記す(つまりインデックスなし)。オーディオ源のスペクトル・シグネチャーWは、クリップ毎に一回のみ更新されてもよい。これは、クリップの一つ一つのフレームについてWを更新することに比べて、更新を安定化するためおよび計算量を減らすためである。
NMF方式への入力として、ΣS、W、WA、WBおよびHが与えられる。以下の式(21)から(24)までは、収束まで、あるいは最大反復工程数が達成されるまで繰り返されてもよい。まず、時間シグネチャーが更新されてもよい。
Figure 2019514056
ここで、ε4は小さい、たとえば10-12である。次いで、WA、WBが更新されてもよく、
Figure 2019514056
Wが更新されてもよく、
Figure 2019514056
W、WA、WB
Figure 2019514056
と再規格化されてもよい。
よって、更新されたW、WA、WBおよびHは、逐次反復式に決定されうる。それにより、オーディオ源に関するある種の制約条件を課す。更新されたW、WA、WBおよびHは次いで、式(8)を使ってオーディオ源のスペクトル・パワーΣSを洗練するために使われてもよい。
スケールの曖昧さを除くために、A、WおよびH(またはAおよびΣS)が
Figure 2019514056
のように再規格化されてもよい。
再規格化を通じて、Aはチャネル間でのエネルギーを保存する混合利得(ΣiAij,n 2=1)を伝え、Wもエネルギー独立であり、規格化されたスペクトル・シグネチャーを伝える。一方、すべてのエネルギーに関係した情報は時間シグネチャーHに追いやられているので、全体的なエネルギーは保存される。この再規格化のプロセスは、信号をスケーリングする量A√(WH)を保存することを注意しておくべきである。源のスペクトル・パワー行列ΣSは、式(8)を使ってNMF行列WおよびHを用いて洗練されてもよい。
段階105で使用される停止基準は
Figure 2019514056
によって与えられてもよい。
個々のオーディオ源301は、ウィーナー・フィルタを使って再構築されうる。
Figure 2019514056
ここで、Ωfnは各周波数ビンについて式(13)(または式(15))を使って再計算されてもよい。源再構築のためには、比較的細かい周波数分解能を使うことが典型的には有益である。よって、典型的には、周波数バンド ̄fではなく個々の周波数ビンfに基づいてΩfnを決定するほうが好ましい。
マルチチャネル(Iチャネル)源は次いで、混合パラメータを用いて推定されたオーディオ源をパンすることによって、再構築されてもよい。
Figure 2019514056
ここで、左辺の ̄Sij,fnはそれぞれサイズIのJ個のベクトルの集合であり、マルチチャネル源のSTFTを表わす。ウィーナー・フィルタの保存性(conservativity)により、この再構築は、マルチチャネル源とノイズの和がもとのオーディオ・チャネルになることを保証する。
Figure 2019514056
逆STFTの線形性のため、保存性は時間領域でも成り立つ。
本稿に記載される方法およびシステムは、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装されうる。ある種のコンポーネントはたとえば、デジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントはたとえば、ハードウェアとしておよびまたは特定用途向け集積回路として実装されてもよい。記載される方法およびシステムにおいて遭遇される信号は、ランダムアクセスメモリまたは光記憶媒体のような媒体上に記憶されてもよい。かかる信号は、電波ネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、たとえばインターネットのようなネットワークを介して転送されてもよい。本稿に記載される方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および/またはレンダリングするために使われるポータブル電子装置または他の消費者設備である。
本発明のさまざまな側面が、以下の付番実施例(EEE: enumerated example embodiment)から理解されうる。
〔EEE1〕
I個のオーディオ・チャネル(302)からJ個のオーディオ源(301)を抽出する方法(100)であって、I、J>1であり、前記オーディオ・チャネル(302)は複数のクリップを含み、各クリップはN個のフレームを含み、N>1であり、I個のオーディオ・チャネル(302)は、周波数領域でチャネル行列として表現可能であり、J個のオーディオ源(301)は周波数領域で源行列として表現可能であり、当該方法(100)は、現在のクリップのフレームnについて、少なくとも一つの周波数ビンfについて、かつ現在の反復工程について、
・ウィーナー・フィルタ行列を、
・前記源行列から前記チャネル行列の推定を提供するよう適応された混合行列、および
・J個のオーディオ源(301)のスペクトル・パワーを示すJ個のオーディオ源(301)のパワー行列に基づいて、
更新する段階(102)であって、前記ウィーナー・フィルタ行列は、前記チャネル行列から前記源行列の推定を提供するよう構成される、段階と;
・I個のオーディオ・チャネル(302)およびJ個のオーディオ源(301)の相互共分散行列ならびにJ個のオーディオ源(301)の自己共分散行列を、
・更新されたウィーナー・フィルタ行列、および
・I個のオーディオ・チャネル(302)の自己共分散行列に基づいて、
更新する段階(103)と;
・前記混合行列および前記パワー行列を
・I個のオーディオ・チャネル(302)およびJ個のオーディオ源(301)の更新された相互共分散行列、および/または
・J個のオーディオ源(301)の更新された自己共分散行列に基づいて、更新する段階(104)とを含む、
方法(100)。
〔EEE2〕
当該方法(100)が、現在のクリップのフレームnについてのI個のオーディオ・チャネル(302)の自己共分散行列を、一つまたは複数の以前のクリップの諸フレームからおよび一つまたは複数の将来のクリップの諸フレームから決定することを含む、EEE1記載の方法(100)。
〔EEE3〕
当該方法(100)が、I個のオーディオ・チャネル(302)を時間領域から周波数領域に変換することによって前記チャネル行列を決定することを含む、EEE1または2記載の方法(100)。
〔EEE4〕
前記チャネル行列が短期フーリエ変換を使って決定される、EEE3記載の方法(100)。
〔EEE5〕
・当該方法(100)が、現在のクリップのフレームnについておよび少なくとも一つの周波数ビンfについての前記源行列の推定を、Sfn=ΩfnXfnとして決定することを含み;
・Sfnは前記源行列の推定であり;
・Ωfnは前記ウィーナー・フィルタ行列であり;
・Xfnは前記チャネル行列である、
EEE1ないし4のうちいずれか一項記載の方法(100)。
〔EEE6〕
当該方法(100)が、最大反復回数に達するまでまたは前記混合行列に関する収束基準が満たされるまで前記の更新する段階(102、103、104)を実行して前記ウィーナー・フィルタ行列を決定することを含む、EEE1ないし5のうちいずれか一項記載の方法(100)。
〔EEE7〕
・周波数領域がF個の周波数ビンに細分され;
・前記ウィーナー・フィルタ行列が、F個の周波数ビンについて決定され:
・前記F個の周波数ビンは ̄F個の周波数バンドにグループ化され、 ̄F<Fであり;
・I個のオーディオ・チャネル(302)の前記自己共分散行列は、 ̄F個の周波数バンドについて決定され;
・J個のオーディオ源(301)の前記パワー行列は、 ̄F個の周波数バンドについて決定される、
EEE1ないし6のうちいずれか一項記載の方法(100)。
〔EEE8〕
・前記ウィーナー・フィルタ行列は、ノイズ・パワー項を含むノイズ・パワー行列に基づいて更新され;
・前記ノイズ・パワー項は反復工程数が増すとともに減少する、
EEE1ないし7のうちいずれか一項記載の方法(100)。
〔EEE9〕
・現在のクリップのフレームnについて、周波数バンド ̄f内にある周波数ビンfについて、前記ウィーナー・フィルタ行列は、I<Jについては
Figure 2019514056
に基づいて、またはI≧Jについては
Figure 2019514056
に基づいて更新され;
・Ωfnは更新されたウィーナー・フィルタ行列であり、

Figure 2019514056
はJ個のオーディオ源(301)の前記パワー行列であり、
・Afnは前記混合行列であり、
・ΣBはノイズ・パワー行列である、
EEE1ないし8のうちいずれか一項記載の方法(100)。
〔EEE10〕
前記ウィーナー・フィルタ行列は、J個のオーディオ源(301)に関して直交制約条件を適用することによって更新される、EEE1ないし9のうちいずれか一項記載の方法(100)。
〔EEE11〕
前記ウィーナー・フィルタ行列は、J個のオーディオ源(301)の前記自己共分散行列の非対角項のパワーを低下させるために逐次反復的に更新される、EEE10記載の方法(100)。
〔EEE12〕
・前記ウィーナー・フィルタ行列は勾配
Figure 2019514056
を使って逐次反復的に更新され、

Figure 2019514056
は周波数バンド ̄fについておよびフレームnについての前記ウィーナー・フィルタ行列であり、

Figure 2019514056
はI個のオーディオ・チャネル(302)の前記自己共分散行列であり、
・[ ]Dは括弧内に含まれる行列においてすべての非対角要素を0と置いた対角行列であり、
・εは小さな実数である、
EEE10または11記載の方法(100)。
〔EEE13〕
・I個のオーディオ・チャネル(302)およびJ個のオーディオ源(301)の相互共分散行列は、
Figure 2019514056
に基づいて更新されて、

Figure 2019514056
は周波数バンド ̄fについてかつフレームnについてのI個のオーディオ・チャネル(302)およびJ個のオーディオ源(301)の更新された相互共分散行列であり、

Figure 2019514056
は前記ウィーナー・フィルタ行列であり、

Figure 2019514056
はI個のオーディオ・チャネル(302)の前記自己共分散行列である、
EEE1ないし12のうちいずれか一項記載の方法(100)。
〔EEE14〕
・J個のオーディオ源(301)の前記自己共分散行列は
Figure 2019514056
に基づいて更新され、

Figure 2019514056
は周波数バンド ̄fについてかつフレームnについてのJ個のオーディオ源(301)の更新された自己共分散行列であり、

Figure 2019514056
は前記ウィーナー・フィルタ行列であり、

Figure 2019514056
はI個のオーディオ・チャネル(302)の前記自己共分散行列である、
EEE1ないし13のうちいずれか一項記載の方法(100)。
〔EEE15〕
前記混合行列を更新すること(104)は、
・フレームnについてのJ個のオーディオ源(301)の周波数独立な自己共分散行列
Figure 2019514056
を、フレームnについてかつ周波数領域の種々の周波数ビンfまたは周波数バンド ̄fについてのJ個のオーディオ源(301)の自己共分散行列
Figure 2019514056
に基づいて決定することと;
・フレームnについてI個のオーディオ・チャネル(302)およびJ個のオーディオ源(301)の周波数独立な相互共分散行列
Figure 2019514056
を、フレームnについてかつ周波数領域の種々の周波数ビンfまたは周波数バンド ̄fについてのI個のオーディオ・チャネル(302)およびJ個のオーディオ源(301)の相互共分散行列
Figure 2019514056
に基づいて決定することとを含む、
EEE1ないし14のうちいずれか一項記載の方法(100)。
〔EEE16〕
・前記混合行列は、
Figure 2019514056
に基づいて決定され、
・Anは、フレームnについての周波数独立な混合行列である、
EEE15記載の方法(100)。
〔EEE17〕
・当該方法が、周波数依存の重み付け項efnを、I個のオーディオ・チャネル(302)の自己共分散行列
Figure 2019514056
に基づいて決定することを含み、
・周波数独立の自己共分散行列
Figure 2019514056
および周波数独立の相互共分散行列
Figure 2019514056
は前記周波数依存の重み付け項efnに基づいて決定される、
EEE15または16記載の方法(100)。
〔EEE18〕
・前記パワー行列を更新すること(104)は、周波数ビンfについてかつフレームnについてのj番目のオーディオ源(301)についての更新されたパワー行列項(ΣS)jj,fnを、
Figure 2019514056
に基づいて決定することを含み、
Figure 2019514056
はフレームnについてかつ周波数ビンfを含む周波数バンド ̄fについてのJ個のオーディオ源(301)の自己共分散行列である、
EEE1ないし17のうちいずれか一項記載の方法(100)。
〔EEE19〕
・前記パワー行列を更新すること(104)は、J個のオーディオ源(301)について、スペクトル・シグネチャーWおよび時間シグネチャーHを、前記パワー行列の非負行列因子分解を使って決定することを含み、
・j番目のオーディオ源(301)についてのスペクトル・シグネチャーWおよび時間シグネチャーHは、j番目のオーディオ源(301)についての更新されたパワー行列項(ΣS)jj,fnに基づいて決定され、
・前記パワー行列を更新すること(104)は、j番目のオーディオ源(301)についてのさらなる更新されたパワー行列項(ΣS)jj,fn
Figure 2019514056
に基づいて決定することを含む、
EEE18記載の方法(100)。
〔EEE20〕
当該方法(100)がさらに、
・前記混合行列を、現在のクリップの直前のクリップのフレームについて決定された混合行列を使って初期化する(101)ことを含み;
・前記パワー行列を、現在のクリップのフレームnについてのI個のオーディオ・チャネル(302)の自己共分散行列に基づき、かつ、現在のクリップの直前のクリップのフレームについて決定されたウィーナー・フィルタ行列に基づいて初期化する(101)ことを含む、
EEE1ないし19のうちいずれか一項記載の方法(100)。
〔EEE21〕
プロセッサ上での実行のために、かつコンピューティング装置上で実行されたときに請求項1ないし20のうちいずれか一項記載の方法段階を実行するために適応されているソフトウェア・プログラムを有する、記憶媒体。
〔EEE22〕
I個のオーディオ・チャネル(302)からJ個のオーディオ源(301)を抽出するシステムであって、I、J>1であり、前記オーディオ・チャネル(302)は複数のクリップを含み、各クリップはN個のフレームを含み、N>1であり、前記I個のオーディオ・チャネル(302)は、周波数領域でチャネル行列として表現可能であり、前記J個のオーディオ源(301)は周波数領域で源行列として表現可能であり、当該システムは、現在のクリップのフレームnについて、少なくとも一つの周波数ビンfについて、かつ現在の反復工程について、
・ウィーナー・フィルタ行列を、
・前記源行列から前記チャネル行列の推定を提供するよう構成された混合行列、および
・J個のオーディオ源(301)のスペクトル・パワーを示すJ個のオーディオ源(301)のパワー行列に基づいて、
更新する段階であって、前記ウィーナー・フィルタ行列は、前記チャネル行列から前記源行列の推定を提供するよう構成される、段階と;
・I個のオーディオ・チャネル(302)およびJ個のオーディオ源(301)の相互共分散行列ならびにJ個のオーディオ源(301)の自己共分散行列を、
・更新されたウィーナー・フィルタ行列、および
・I個のオーディオ・チャネル(302)の自己共分散行列に基づいて
更新する段階と;
・前記混合行列および前記パワー行列を
・I個のオーディオ・チャネル(302)およびJ個のオーディオ源(301)の更新された相互共分散行列、および/または
・J個のオーディオ源(301)の更新された自己共分散行列に基づいて、
更新する段階とを実行するよう構成されている、
システム。

Claims (15)

  1. I個のオーディオ・チャネル(302)からJ個のオーディオ源(301)を抽出する方法(100)であって、I、J>1であり、前記オーディオ・チャネル(302)は複数のクリップを含み、各クリップはN個のフレームを含み、N>1であり、I個のオーディオ・チャネル(302)は、周波数領域でチャネル行列として表現可能であり、J個のオーディオ源(301)は周波数領域で源行列として表現可能であり、周波数領域はF個の周波数ビンに細分され、前記F個の周波数ビンは ̄F個の周波数バンドにグループ化され、 ̄F<Fであり;当該方法(100)は、現在のクリップのフレームnについて、少なくとも一つの周波数ビンfについて、かつ現在の反復工程について、
    ・ウィーナー・フィルタ行列を、
    ・前記源行列から前記チャネル行列の推定を提供するよう適応された混合行列、および
    ・J個のオーディオ源(301)のスペクトル・パワーを示すJ個のオーディオ源(301)のパワー行列に基づいて、
    更新する段階(102)であって、前記ウィーナー・フィルタ行列は、前記チャネル行列から前記源行列の推定を提供するよう構成され、前記ウィーナー・フィルタ行列が前記F個の周波数ビンのそれぞれについて決定される、段階と;
    ・I個のオーディオ・チャネル(302)およびJ個のオーディオ源(301)の相互共分散行列ならびにJ個のオーディオ源(301)の自己共分散行列を、
    ・更新されたウィーナー・フィルタ行列、および
    ・I個のオーディオ・チャネル(302)の自己共分散行列に基づいて、
    更新する段階(103)と;
    ・前記混合行列および前記パワー行列を
    ・I個のオーディオ・チャネル(302)およびJ個のオーディオ源(301)の更新された相互共分散行列、および/または
    ・J個のオーディオ源(301)の更新された自己共分散行列に基づいて、
    更新する段階(104)であって、J個のオーディオ源(301)の前記パワー行列は、前記 ̄F個の周波数バンドについて決定されるだけである、段階とを含む、
    方法(100)。
  2. 当該方法(100)が、現在のクリップのフレームnについてのI個のオーディオ・チャネル(302)の自己共分散行列を、一つまたは複数の以前のクリップの諸フレームからおよび一つまたは複数の将来のクリップの諸フレームから決定することを含む、請求項1記載の方法(100)。
  3. 当該方法(100)が、I個のオーディオ・チャネル(302)を時間領域から周波数領域に変換することによって前記チャネル行列を決定することを含み、
    任意的に、前記チャネル行列は短期フーリエ変換を使って決定される、
    請求項1または2記載の方法(100)。
  4. ・当該方法(100)が、現在のクリップのフレームnについておよび少なくとも一つの周波数ビンfについての前記源行列の推定を、Sfn=ΩfnXfnとして決定することを含み;
    ・Sfnは前記源行列の推定であり;
    ・Ωfnは前記ウィーナー・フィルタ行列であり;
    ・Xfnは前記チャネル行列である、
    請求項1ないし3のうちいずれか一項記載の方法(100)。
  5. 当該方法(100)が、最大反復回数に達するまでまたは前記混合行列に関する収束基準が満たされるまで前記の更新する段階(102、103、104)を実行して前記ウィーナー・フィルタ行列を決定することを含む、請求項1ないし4のうちいずれか一項記載の方法(100)。
  6. I個のオーディオ・チャネル(302)の前記自己共分散行列は、前記 ̄F個の周波数バンドについて決定されるだけである、請求項1ないし5のうちいずれか一項記載の方法(100)。
  7. ・前記ウィーナー・フィルタ行列は、ノイズ・パワー項を含むノイズ・パワー行列に基づいて更新され;
    ・前記ノイズ・パワー項は反復工程数が増すとともに減少する、
    請求項1ないし6のうちいずれか一項記載の方法(100)。
  8. ・現在のクリップのフレームnについて、周波数バンド ̄f内にある周波数ビンfについて、前記ウィーナー・フィルタ行列は、I<Jについては
    Figure 2019514056
    に基づいて、またはI≧Jについては
    Figure 2019514056
    に基づいて更新され;
    ・Ωfnは更新されたウィーナー・フィルタ行列であり、

    Figure 2019514056
    はJ個のオーディオ源(301)の前記パワー行列であり、
    ・Afnは前記混合行列であり、
    ・ΣBはノイズ・パワー行列である、
    請求項1ないし7のうちいずれか一項記載の方法(100)。
  9. 前記ウィーナー・フィルタ行列は、J個のオーディオ源(301)に関して直交制約条件を適用することによって更新され、
    任意的に、前記ウィーナー・フィルタ行列は、J個のオーディオ源(301)の前記自己共分散行列の非対角項のパワーを低下させるために逐次反復的に更新される、
    請求項1ないし8のうちいずれか一項記載の方法(100)。
  10. ・前記ウィーナー・フィルタ行列は勾配
    Figure 2019514056
    を使って逐次反復的に更新され、

    Figure 2019514056
    は周波数バンド ̄fについておよびフレームnについての前記ウィーナー・フィルタ行列であり、

    Figure 2019514056
    はI個のオーディオ・チャネル(302)の前記自己共分散行列であり、
    ・[ ]Dは括弧内に含まれる行列においてすべての非対角要素を0と置いた対角行列であり、
    ・εは小さな実数である、
    請求項9記載の方法(100)。
  11. ・I個のオーディオ・チャネル(302)およびJ個のオーディオ源(301)の相互共分散行列は、
    Figure 2019514056
    に基づいて更新されて、

    Figure 2019514056
    は周波数バンド ̄fについてかつフレームnについてのI個のオーディオ・チャネル(302)およびJ個のオーディオ源(301)の更新された相互共分散行列であり、

    Figure 2019514056
    は前記ウィーナー・フィルタ行列であり、

    Figure 2019514056
    はI個のオーディオ・チャネル(302)の前記自己共分散行列である、
    および/または
    ・J個のオーディオ源(301)の前記自己共分散行列は
    Figure 2019514056
    に基づいて更新され、

    Figure 2019514056
    は周波数バンド ̄fについてかつフレームnについてのJ個のオーディオ源(301)の更新された自己共分散行列であり、

    Figure 2019514056
    は前記ウィーナー・フィルタ行列であり、

    Figure 2019514056
    はI個のオーディオ・チャネル(302)の前記自己共分散行列である、
    請求項1ないし10のうちいずれか一項記載の方法(100)。
  12. 前記混合行列を更新すること(104)は、
    ・フレームnについてのJ個のオーディオ源(301)の周波数独立な自己共分散行列
    Figure 2019514056
    を、フレームnについてかつ周波数領域の種々の周波数ビンfまたは周波数バンド ̄fについてのJ個のオーディオ源(301)の自己共分散行列
    Figure 2019514056
    に基づいて決定することと;
    ・フレームnについてI個のオーディオ・チャネル(302)およびJ個のオーディオ源(301)の周波数独立な相互共分散行列
    Figure 2019514056
    を、フレームnについてかつ周波数領域の種々の周波数ビンfまたは周波数バンド ̄fについてのI個のオーディオ・チャネル(302)およびJ個のオーディオ源(301)の相互共分散行列
    Figure 2019514056
    に基づいて決定することとを含み、
    任意的に、
    ・前記混合行列は、
    Figure 2019514056
    に基づいて決定され、
    ・Anは、フレームnについての周波数独立な混合行列である、
    請求項1ないし11のうちいずれか一項記載の方法(100)。
  13. ・当該方法が、周波数依存の重み付け項efnを、I個のオーディオ・チャネル(302)の自己共分散行列
    Figure 2019514056
    に基づいて決定することを含み、
    ・周波数独立の自己共分散行列
    Figure 2019514056
    および周波数独立の相互共分散行列
    Figure 2019514056
    は前記周波数依存の重み付け項efnに基づいて決定される、
    請求項12記載の方法(100)。
  14. ・前記パワー行列を更新すること(104)は、周波数ビンfについてかつフレームnについてのj番目のオーディオ源(301)についての更新されたパワー行列項(ΣS)jj,fnを、
    Figure 2019514056
    に基づいて決定することを含み、
    Figure 2019514056
    はフレームnについてかつ周波数ビンfを含む周波数バンド ̄fについてのJ個のオーディオ源(301)の自己共分散行列であり、
    任意的に、
    ・前記パワー行列を更新すること(104)は、J個のオーディオ源(301)について、スペクトル・シグネチャーWおよび時間シグネチャーHを、前記パワー行列の非負行列因子分解を使って決定することを含み、
    ・j番目のオーディオ源(301)についてのスペクトル・シグネチャーWおよび時間シグネチャーHは、j番目のオーディオ源(301)についての更新されたパワー行列項(ΣS)jj,fnに基づいて決定され、
    ・前記パワー行列を更新すること(104)は、j番目のオーディオ源(301)についてのさらなる更新されたパワー行列項(ΣS)jj,fn
    Figure 2019514056
    に基づいて決定することを含む、
    請求項1ないし13のうちいずれか一項記載の方法(100)。
  15. 当該方法(100)がさらに、
    ・前記混合行列を、現在のクリップの直前のクリップのフレームについて決定された混合行列を使って初期化する(101)ことを含み;
    ・前記パワー行列を、現在のクリップのフレームnについてのI個のオーディオ・チャネル(302)の自己共分散行列に基づき、かつ、現在のクリップの直前のクリップのフレームについて決定されたウィーナー・フィルタ行列に基づいて初期化する(101)ことを含む、
    請求項1ないし14のうちいずれか一項記載の方法(100)。
JP2018552048A 2016-04-08 2017-04-06 オーディオ源分離 Active JP6987075B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
CNPCT/CN2016/078819 2016-04-08
CN2016078819 2016-04-08
US201662330658P 2016-05-02 2016-05-02
US62/330,658 2016-05-02
EP16170722 2016-05-20
EP16170722.9 2016-05-20
PCT/US2017/026296 WO2017176968A1 (en) 2016-04-08 2017-04-06 Audio source separation

Publications (2)

Publication Number Publication Date
JP2019514056A true JP2019514056A (ja) 2019-05-30
JP6987075B2 JP6987075B2 (ja) 2021-12-22

Family

ID=66171209

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018552048A Active JP6987075B2 (ja) 2016-04-08 2017-04-06 オーディオ源分離

Country Status (3)

Country Link
US (2) US10410641B2 (ja)
EP (1) EP3440670B1 (ja)
JP (1) JP6987075B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021096453A (ja) * 2019-12-17 2021-06-24 北京小米智能科技有限公司Beijing Xiaomi Intelligent Technology Co.,Ltd. オーディオ信号処理方法、装置、端末及び記憶媒体

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6987075B2 (ja) * 2016-04-08 2021-12-22 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ源分離
US11750985B2 (en) * 2018-08-17 2023-09-05 Cochlear Limited Spatial pre-filtering in hearing prostheses
US10930300B2 (en) * 2018-11-02 2021-02-23 Veritext, Llc Automated transcript generation from multi-channel audio
KR20190096855A (ko) * 2019-07-30 2019-08-20 엘지전자 주식회사 사운드 처리 방법 및 장치
WO2021022235A1 (en) * 2019-08-01 2021-02-04 Dolby Laboratories Licensing Corporation Systems and methods for covariance smoothing
CN117012202B (zh) * 2023-10-07 2024-03-29 北京探境科技有限公司 语音通道识别方法、装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007522536A (ja) * 2003-11-14 2007-08-09 キネテイツク・リミテツド 動的ブラインド信号分離
US20140058736A1 (en) * 2012-08-23 2014-02-27 Inter-University Research Institute Corporation, Research Organization of Information and systems Signal processing apparatus, signal processing method and computer program product

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7088831B2 (en) 2001-12-06 2006-08-08 Siemens Corporate Research, Inc. Real-time audio source separation by delay and attenuation compensation in the time domain
JP2005227512A (ja) 2004-02-12 2005-08-25 Yamaha Motor Co Ltd 音信号処理方法及びその装置、音声認識装置並びにプログラム
JP4675177B2 (ja) 2005-07-26 2011-04-20 株式会社神戸製鋼所 音源分離装置,音源分離プログラム及び音源分離方法
JP4496186B2 (ja) 2006-01-23 2010-07-07 株式会社神戸製鋼所 音源分離装置、音源分離プログラム及び音源分離方法
JP4672611B2 (ja) 2006-07-28 2011-04-20 株式会社神戸製鋼所 音源分離装置、音源分離方法及び音源分離プログラム
US20080208538A1 (en) 2007-02-26 2008-08-28 Qualcomm Incorporated Systems, methods, and apparatus for signal separation
JP5195652B2 (ja) 2008-06-11 2013-05-08 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
WO2010068997A1 (en) 2008-12-19 2010-06-24 Cochlear Limited Music pre-processing for hearing prostheses
TWI397057B (zh) 2009-08-03 2013-05-21 Univ Nat Chiao Tung 音訊分離裝置及其操作方法
US8787591B2 (en) 2009-09-11 2014-07-22 Texas Instruments Incorporated Method and system for interference suppression using blind source separation
JP5299233B2 (ja) 2009-11-20 2013-09-25 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
US8521477B2 (en) 2009-12-18 2013-08-27 Electronics And Telecommunications Research Institute Method for separating blind signal and apparatus for performing the same
US8743658B2 (en) 2011-04-29 2014-06-03 Siemens Corporation Systems and methods for blind localization of correlated sources
JP2012238964A (ja) 2011-05-10 2012-12-06 Funai Electric Co Ltd 音分離装置、及び、それを備えたカメラユニット
US20120294446A1 (en) 2011-05-16 2012-11-22 Qualcomm Incorporated Blind source separation based spatial filtering
US9966088B2 (en) 2011-09-23 2018-05-08 Adobe Systems Incorporated Online source separation
WO2014034555A1 (ja) * 2012-08-29 2014-03-06 シャープ株式会社 音声信号再生装置、方法、プログラム、及び記録媒体
GB2510631A (en) 2013-02-11 2014-08-13 Canon Kk Sound source separation based on a Binary Activation model
RS1332U (en) 2013-04-24 2013-08-30 Tomislav Stanojević FULL SOUND ENVIRONMENT SYSTEM WITH FLOOR SPEAKERS
KR101735313B1 (ko) 2013-08-05 2017-05-16 한국전자통신연구원 위상 왜곡을 보상한 실시간 음원분리장치
TW201543472A (zh) 2014-05-15 2015-11-16 湯姆生特許公司 即時音源分離之方法及系統
CN105989851B (zh) * 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
CN105989852A (zh) * 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
JP6987075B2 (ja) * 2016-04-08 2021-12-22 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ源分離

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007522536A (ja) * 2003-11-14 2007-08-09 キネテイツク・リミテツド 動的ブラインド信号分離
US20140058736A1 (en) * 2012-08-23 2014-02-27 Inter-University Research Institute Corporation, Research Organization of Information and systems Signal processing apparatus, signal processing method and computer program product
JP2014041308A (ja) * 2012-08-23 2014-03-06 Toshiba Corp 信号処理装置、方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
OZEROV, ALEXEY ET AL.: ""MULTICHANNEL NONNEGATIVE MATRIX FACTORIZATION IN CONVOLUTIVE MIXTURES. WITH APPLICATION TO BLIND AU", PROC. OF 2009IEEE ICASSP, JPN6021007859, 19 April 2009 (2009-04-19), pages 3137 - 3140, XP031459935, ISSN: 0004461878 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021096453A (ja) * 2019-12-17 2021-06-24 北京小米智能科技有限公司Beijing Xiaomi Intelligent Technology Co.,Ltd. オーディオ信号処理方法、装置、端末及び記憶媒体
US11206483B2 (en) 2019-12-17 2021-12-21 Beijing Xiaomi Intelligent Technology Co., Ltd. Audio signal processing method and device, terminal and storage medium
JP7014853B2 (ja) 2019-12-17 2022-02-01 北京小米智能科技有限公司 オーディオ信号処理方法、装置、端末及び記憶媒体

Also Published As

Publication number Publication date
EP3440670B1 (en) 2022-01-12
US20190122674A1 (en) 2019-04-25
JP6987075B2 (ja) 2021-12-22
US10818302B2 (en) 2020-10-27
US10410641B2 (en) 2019-09-10
EP3440670A1 (en) 2019-02-13
US20190392848A1 (en) 2019-12-26

Similar Documents

Publication Publication Date Title
JP6987075B2 (ja) オーディオ源分離
CN110100457B (zh) 基于噪声时变环境的加权预测误差的在线去混响算法
US11894010B2 (en) Signal processing apparatus, signal processing method, and program
KR101834913B1 (ko) 복수의 입력 오디오 신호를 잔향제거하기 위한 신호 처리 장치, 방법 및 컴퓨터가 판독 가능한 저장매체
Mertins et al. Room impulse response shortening/reshaping with infinity-and $ p $-norm optimization
CN108172231A (zh) 一种基于卡尔曼滤波的去混响方法及系统
JP6225245B2 (ja) 信号処理装置、方法及びプログラム
CN111863015A (zh) 一种音频处理方法、装置、电子设备和可读存储介质
KR102410850B1 (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
RU2616534C2 (ru) Ослабление шума при передаче аудиосигналов
JP2023536104A (ja) 機械学習を用いたノイズ削減
CN109074811B (zh) 音频源分离
JP6644356B2 (ja) 音源分離システム、方法及びプログラム
JP6790659B2 (ja) 音響処理装置および音響処理方法
Zheng et al. Statistical analysis and improvement of coherent-to-diffuse power ratio estimators for dereverberation
JP4714892B2 (ja) 耐高残響ブラインド信号分離装置及び方法
WO2022247427A1 (zh) 信号滤波方法及装置、存储介质、电子装置
JP2014164191A (ja) 信号処理装置、方法及びプログラム
EP4038609B1 (en) Source separation
CN115588438B (zh) 一种基于双线性分解的wls多通道语音去混响方法
JP7270869B2 (ja) 情報処理装置、出力方法、及び出力プログラム
JP2018191255A (ja) 収音装置、その方法、及びプログラム
Golokolenko et al. The Method of Random Directions Optimization for Stereo Audio Source Separation.
Kim et al. Online speech dereverberation using RLS-WPE based on a full spatial correlation matrix integrated in a speech enhancement system
WO2023041583A1 (en) Apparatus and method for narrowband direction-of-arrival estimation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200406

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210610

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211130

R150 Certificate of patent or registration of utility model

Ref document number: 6987075

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150