JP6363213B2 - いくつかの入力オーディオ信号の残響を除去するための信号処理の装置、方法、およびコンピュータプログラム - Google Patents

いくつかの入力オーディオ信号の残響を除去するための信号処理の装置、方法、およびコンピュータプログラム Download PDF

Info

Publication number
JP6363213B2
JP6363213B2 JP2016549328A JP2016549328A JP6363213B2 JP 6363213 B2 JP6363213 B2 JP 6363213B2 JP 2016549328 A JP2016549328 A JP 2016549328A JP 2016549328 A JP2016549328 A JP 2016549328A JP 6363213 B2 JP6363213 B2 JP 6363213B2
Authority
JP
Japan
Prior art keywords
input
transform
matrix
filter
coefficient matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016549328A
Other languages
English (en)
Other versions
JP2017505461A (ja
Inventor
カリム・ヘルワニ
リユン・パン
Original Assignee
ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ホアウェイ・テクノロジーズ・カンパニー・リミテッド filed Critical ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Publication of JP2017505461A publication Critical patent/JP2017505461A/ja
Application granted granted Critical
Publication of JP6363213B2 publication Critical patent/JP6363213B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、オーディオ信号処理の分野に関し、詳細には、残響除去および音源分離の分野に関する。
残響除去および音源分離は、マルチチャネルオーディオ取得、音声取得、またはモノチャネルオーディオ信号のアップミキシングなどの、いくつかのアプリケーションにおける大きな課題である。適用可能な技法は、シングルチャネル技法およびマルチチャネル技法に分類することができる。
シングルチャネル技法は、最小統計値原理に基づくことができ、オーディオ信号の周辺部および直接部を別々に推定することができる。シングルチャネル技法はさらに、統計システムモデルに基づくことができる。しかしながら、一般のシングルチャネル技法は、複雑な音響シナリオにおける制限された性能に悩まされ、マルチチャネルシナリオに一般化されない場合がある。
マルチチャネル技法は、いくつかのオーディオ信号源とマイクロフォンとの間の多入力/多出力有限インパルス応答(MIMO FIR)システムを反転させることを目的とすることができ、オーディオ信号源とマイクロフォンとの間の各音響経路は、FIRフィルタによってモデル化することができる。マルチチャネル技法は、高次の統計値に基づくことができ、トレーニングデータを使用するヒューリスティック統計モデルを利用することができる。しかしながら、一般のマルチチャネル技法は、高い計算複雑度に悩まされ、シングルチャネルシナリオにおいて適用可能ではない場合がある。
Herbert Buchnerら、「Trinicon for dereverberation of speech and audio signals」、Speech Dereverberation、 Signals and Communication Technology、ページ311〜385、Springer London、2010の文書では、理想的な反転システムを推定する手法が記載されている。
Andreas Waltherら、「Direct−Ambient Decomposition and Upmix of Surround Signals」、IEEE Workshop on Applications of Signal Processing to Audio and Acoustics、2011の文書では、拡散オーディオ成分および直接オーディオ成分を推定する手法が記載されている。
いくつかの入力オーディオ信号の残響を除去するための効率的な概念を提供することが、本発明の目的である。その概念は、いくつかの入力オーディオ信号内の音源分離に適用することもできる。
この目的は、独立請求項の機能によって実現される。さらなる実装形態は、独立請求項、説明、および図から明らかである。
本発明の態様および実装形態は、各出力オーディオ信号が結果としての時間間隔のセット内のそれ自体の履歴にコヒーレントであり、他の音源信号の履歴に直交するような方法で、フィルタ係数行列が設計され得ることを見出すことに基づく。フィルタ係数行列は、音源信号の初期推測に基づいて、またはブラインド推定手法に基づいて、決定することができる。本発明は、シングルチャネルオーディオ信号ならびにマルチチャネルオーディオ信号を使用して、適用することができる。
第1の態様によれば、本発明はいくつかの入力オーディオ信号の残響を除去するための信号処理装置に関し、信号処理装置は、入力変換係数を取得するためにいくつかの入力オーディオ信号を変換領域に変換するように構成された変換器であって、入力変換係数が入力変換係数行列を形成するように配置される、変換器と、信号空間の固有値に基づいてフィルタ係数を決定するように構成されたフィルタ係数決定器であって、フィルタ係数がフィルタ係数行列を形成するように配置される、フィルタ係数決定器と、出力変換係数を取得するためにフィルタ係数行列のフィルタ係数により入力変換係数行列の入力変換係数を畳み込むように構成されたフィルタであって、出力変換係数が出力変換係数行列を形成するように配置される、フィルタと、いくつかの出力オーディオ信号を取得するために変換領域から出力変換係数行列を逆変換するように構成された逆変換器とを備える。入力オーディオ信号の数は、1つまたは2つ以上であり得る。このようにして、残響除去および/または音源分離の効率的な概念を実現することができる。
そのような第1の態様による装置の第1の実装形態では、フィルタ係数決定器は、入力変換係数行列の入力自動相関行列に基づいて、信号空間を決定するように構成される。このようにして、信号空間は、入力オーディオ信号の相関特性に基づいて決定することができる。
そのような第1の態様による装置の第2の実装形態または第1の態様の任意の先行する実装形態では、変換器は、入力変換係数を取得するために、いくつかの入力オーディオ信号を周波数領域に変換するように構成される。このようにして、入力オーディオ信号の周波数領域特性は、入力変換係数を取得するために使用することができる。入力変換係数は、離散フーリエ変換(DFT)または高速フーリエ変換(FFT)の、たとえばインデックスkを有する周波数ビンに関係することができる。
そのような第1の態様による装置の第3の実装形態または第1の態様の任意の先行する実装形態では、変換器は、入力変換係数を取得するために、いくつかの過去の時間間隔について、いくつかの入力オーディオ信号を変換領域に変換するように構成される。このようにして、現在の時間間隔および過去の時間間隔内の入力オーディオ信号を時間領域特性は、入力変換係数を取得するために使用することができる。入力変換係数は、短時間フーリエ変換(STFT)の、たとえばインデックスnを有する時間間隔に関係することができる。
第1の態様の第3の実装形態による装置の第4の実装形態では、フィルタ係数決定器は、入力変換係数に基づいて入力自動コヒーレンス係数を決定するように構成され、入力自動コヒーレンス係数は、現在の時間間隔および過去の時間間隔に関連付けられた入力変換係数のコヒーレンスを示し、入力自動コヒーレンス係数は、入力自動コヒーレンス行列を形成するように配置され、フィルタ係数決定器は、入力自動コヒーレンス行列に基づいてフィルタ係数を決定するようにさらに構成される。このようにして、入力オーディオ信号内のコヒーレンスは、フィルタ係数を決定するために使用することができる。
そのような第1の態様による装置の第5の実装形態または第1の態様の任意の先行する実装形態では、フィルタ係数決定器は、以下の式に従ってフィルタ係数行列を決定するように構成される。
ここで、Hはフィルタ係数行列を表記し、xは入力変換係数行列を表記し、S0は補助変換係数行列を表記し、Φxxは入力変換係数行列の入力自動相関行列を表記し、ΓxS0は入力変換係数行列と補助変換係数行列との間の相互コヒーレンス行列を表記する。このようにして、フィルタ係数行列は、補助変換係数行列の初期推測に基づいて効率的に決定することができる。
第1の態様の第5の実装形態による装置の第6の実装形態では、信号処理装置は、いくつかの入力オーディオ信号に基づいていくつかの補助オーディオ信号を生成するように構成された補助オーディオ信号生成器と、補助変換係数を取得するためにいくつかの補助オーディオ信号を変換領域に変換するように構成されたさらなる変換器であって、補助変換係数が補助変換係数行列を形成するように配置される、さらなる変換器とをさらに備える。このようにして、補助変換係数行列は、入力オーディオ信号に基づいて決定することができる。
補助オーディオ信号生成器は、ビームフォーミング技法、たとえば遅延和ビームフォーミング技法を使用して、かつ/またはスポットマイクロフォンのオーディオ信号を使用することによって、いくつかの補助オーディオ信号を生成することができる。補助オーディオ信号生成器は、したがって、いくつかの音源の初期分離を実現することができる。
そのような第1の態様による装置の第7の実装形態または第1の態様の第1から第4の実装形態では、フィルタ係数決定器は、以下の式に従ってフィルタ係数行列を決定するように構成される。
ここで、Hはフィルタ係数行列を表記し、xは入力変換係数行列を表記し、Φxxは入力変換係数行列の入力自動相関行列を表記し、
は推定自動コヒーレンス行列を表記する。このようにして、フィルタ係数行列は、推定自動コヒーレンス行列に基づいて効率的に決定することができる。
第1の態様の第7の実装形態による装置の第8の実装形態では、フィルタ係数決定器は、以下の式に従って推定自動コヒーレンス行列を決定するように構成される。
ここで、
は推定自動コヒーレンス行列を表記し、xは入力変換係数行列を表記し、ΓxXは入力変換係数行列の入力自動コヒーレンス行列を表記し、IMは行列次元Mの恒等行列を表記し、Uは入力自動コヒーレンス行列に基づいて実行される固有値分解の固有値行列を表記する。このようにして、推定自動コヒーレンス行列は、固有値分解に基づいて効率的に決定することができる。
そのような第1の態様による装置の第9の実装形態または第1の態様の任意の先行する実装形態では、信号処理装置は、入力変換係数行列の入力変換係数およびフィルタ係数行列のフィルタ係数に基づいて、チャネル変換係数を決定するように構成されたチャネル決定器をさらに備え、チャネル変換係数は、チャネル変換行列を形成するように配置される。このようにして、ブラインドチャネル推定を実行することができる。
第1の態様の第9の実装形態による装置の第10の実装形態では、チャネル決定器は、以下の式に従ってチャネル変換行列を決定するように構成される。
ここで、
はチャネル変換行列を表記し、xは入力変換係数行列を表記し、Hはフィルタ係数行列を表記し、X1〜XPは入力変換係数を表記する。このようにして、チャネル変換行列は、効率的に決定することができる。
そのような第1の態様による装置の第11の実装形態または第1の態様の任意の先行する実装形態では、いくつかの入力オーディオ信号は、いくつかのオーディオ信号源に関連付けられたオーディオ信号部分を備え、信号処理装置は、いくつかの入力オーディオ信号に基づいていくつかのオーディオ信号源を分離するように構成される。このようにして、残響除去および/または音源分離を実行することができる。
第2の態様によれば、本発明はいくつかの入力オーディオ信号の残響を除去するための信号処理方法に関し、信号処理方法は、入力変換係数を取得するためにいくつかの入力オーディオ信号を変換領域に変換することであって、入力変換係数が入力変換係数行列を形成するように配置される、変換することと、信号空間の固有値に基づいてフィルタ係数を決定することであって、フィルタ係数がフィルタ係数行列を形成するように配置される、決定することと、出力変換係数を取得するためにフィルタ係数行列のフィルタ係数により入力変換係数行列の入力変換係数を畳み込むことであって、出力変換係数が出力変換係数行列を形成するように配置される、畳み込むことと、いくつかの出力オーディオ信号を取得するために変換領域から出力変換係数行列を逆変換することとを備える。入力オーディオ信号の数は、1つまたは2つ以上であり得る。このようにして、残響除去および/または音源分離の効率的な概念を実現することができる。
信号処理方法は、信号処理装置によって実施することができる。信号処理方法のさらなる機能は、信号処理装置の機能性から直接もたらすことができる。
そのような第2の態様による方法の第1の実装形態では、信号処理方法は、入力変換係数行列の入力自動相関行列に基づいて、信号空間を決定することをさらに備える。このようにして、信号空間は、入力オーディオ信号の相関特性に基づいて決定することができる。
第3の態様によれば、本発明は、コンピュータ上で実行されると、そのような第2の態様または第2の態様の任意の実装形態による信号処理方法を実施するためのプログラムコードを備える、コンピュータプログラムに関する。このようにして、方法は、自動的および繰返し可能な方式で実施することができる。
コンピュータプログラムは、機械可読コードの形態で提供することができる。コンピュータプログラムは、コンピュータのプロセッサ向けの一連のコマンドを備えることができる。コンピュータのプロセッサは、コンピュータプログラムを実行するように構成することができる。コンピュータは、プロセッサ、メモリ、および/または入力/出力手段を備えることができる。
本発明は、ハードウェアおよび/またはソフトウェアに実装することができる。
本発明のさらなる実施形態は、以下の図に関して記載される。
一実装形態による、いくつかの入力オーディオ信号の残響を除去するための信号処理装置の図である。 一実装形態による、いくつかの入力オーディオ信号の残響を除去するための信号処理方法の図である。 一実装形態による、いくつかの入力オーディオ信号の残響を除去するための信号処理装置の図である。 一実装形態による、オーディオ信号取得シナリオの図である。 一実装形態による、自動コヒーレンス行列の構造図である。 一実装形態による、中間行列の構造図である。 一実装形態による、入力オーディオ信号のスペクトログラムおよび出力オーディオ信号のスペクトログラムを示す図である。 一実装形態による、いくつかの入力オーディオ信号の残響を除去するための信号処理装置の図である。
図1は、一実装形態による、いくつかの入力オーディオ信号の残響を除去するための信号処理装置100の図を示す。
信号処理装置100は、入力変換係数を取得するためにいくつかの入力オーディオ信号を変換領域に変換するように構成された変換器101であって、入力変換係数が入力変換係数行列を形成するように配置される、変換器101と、信号空間の固有値に基づいてフィルタ係数を決定するように構成されたフィルタ係数決定器103であって、フィルタ係数がフィルタ係数行列を形成するように配置される、フィルタ係数決定器103と、出力変換係数を取得するためにフィルタ係数行列のフィルタ係数により入力変換係数行列の入力変換係数を畳み込むように構成されたフィルタ105であって、出力変換係数が出力変換係数行列を形成するように配置される、フィルタ105と、いくつかの出力オーディオ信号を取得するために変換領域から出力変換係数行列を逆変換するように構成された逆変換器107とを備える。
図2は、一実装形態による、いくつかの入力オーディオ信号の残響を除去するための信号処理方法200の図を示す。
信号処理方法200は、入力変換係数を取得するためにいくつかの入力オーディオ信号を変換領域に変換すること201であって、入力変換係数が入力変換係数行列を形成するように配置される、変換すること201と、信号空間の固有値に基づいてフィルタ係数を決定すること203であって、フィルタ係数がフィルタ係数行列を形成するように配置される、決定すること203と、出力変換係数を取得するためにフィルタ係数行列のフィルタ係数により入力変換係数行列の入力変換係数を畳み込むこと205であって、出力変換係数が出力変換係数行列を形成するように配置される、畳み込むこと205と、いくつかの出力オーディオ信号を取得するために変換領域から出力変換係数行列を逆変換すること207とを備える。
信号処理方法200は、信号処理装置100によって実施することができる。信号処理方法200のさらなる機能は、上述され、下記でさらに詳細に記載される、信号処理装置100の機能性から直接もたらすことができる。
図3は、一実装形態による、いくつかの入力オーディオ信号の残響を除去するための信号処理装置100の図を示す。信号処理装置100は、変換器101と、フィルタ係数決定器103と、フィルタ105と、逆変換器107と、補助オーディオ信号生成器301と、さらなる変換器303と、ポストプロセッサ305とを備える。
変換器101は、短時間フーリエ変換(STFT)変換器であり得る。フィルタ係数決定器103は、アルゴリズムを実行することができる。フィルタ105は、フィルタ係数行列Hによって特徴付けることができる。逆変換器107は、逆短時間フーリエ変換(ISTFT)変換器であり得る。補助オーディオ信号生成器301は、たとえば、遅延和技法および/またはスポットマイクロフォンオーディオ信号を使用することによって、初期推測を提供することができる。さらなる変換器303は、短時間フーリエ変換(STFT)変換器であり得る。ポストプロセッサ305は、後処理機能、たとえば、自動音声認識(ASR)および/またはアップミキシングを提供することができる。
数Qの入力オーディオ信号は、変換器101および補助オーディオ信号生成器301に供給することができる。補助オーディオ信号生成器301は、さらなる変換器303に数Pの補助オーディオ信号を供給することができる。さらなる変換器303は、フィルタ係数決定器103に数Pの行または列の補助変換係数行列を供給することができる。フィルタ105は、逆変換器107に数Pの行または列の出力変換係数行列を供給することができる。逆変換器107は、数Pの後処理されたオーディオ信号をもたらすポストプロセッサ305に、数Pの出力オーディオ信号を供給することができる。
図は、装置100の全体的なアーキテクチャを示す。装置100への入力は、マイクロフォン信号であり得る。これらは、場合によっては、空間選択性、たとえば遅延和ビームフォーマを提供するアルゴリズムによって前処理することができる。前処理された信号および/またはマイクロフォン信号は、STFTによって分析することができる。次いで、マイクロフォン信号は、場合によっては、様々な周波数ビン用の可変サイズを有するバッファに記憶することができる。アルゴリズムは、バッファリングされたオーディオ信号の時間間隔またはフレームに基づいて、フィルタ係数を計算することができる。バッファリングされた信号は、計算された複素フィルタを用いて、各周波数ビン内でフィルタリングすることができる。フィルタリングの出力は、時間領域に逆変換することができる。処理されたオーディオ信号は、場合によっては、自動音声認識(ASR)またはアップミキシングなどのために、ポストプロセッサ305に供給することができる。
いくつかの実装形態は、未知の部屋の音響的影響のブラインドシングルチャネル最小化および/またはブラインドマルチチャネル最小化に関係することができる。それらは、モバイルおよびタブレットのための、特にハンズフリーモードにおける信号の残響除去による、および同様にモノ信号のアップミキシングのための、取り込まれた音響シーン、音声、および信号の増強の一部に焦点を合わせるシステムの能力を高めるためのテレプレゼンス内のマルチチャネル取得システムにおいて利用することができる。
この目的のために、ブラインド残響除去および/または音源分離用の手法を使用することができる。その手法は、シングルチャネルの場合に特化することができ、ブラインド音源分離の後処理段階として使用することができる。
通常の条件下の音源からあらかじめ定義された測定点への音波の伝搬は、所与の境界条件下の非均質波方程式を解くことができるグリーン関数を用いて、音源信号を畳み込むことによって記述することができる。しかしながら、境界条件は、制御可能ではない場合があり、不十分な了解度をもたらす可能性がある長い残響時間などの、不要な音響特性をもたらす場合がある。ユーザ定義の音響環境を合成することができる高度通信システムでは、録音ルームの影響を軽減し、きれいな励起信号のみを維持して望ましい仮想音響環境内でそれを適切に統合することが必要であり得る。
録音ルーム内の分散マイクロフォンアレイによって取り込まれた複数の音源、たとえばスピーカの場合、残響除去は、分離され、レコーディングルームの影響のない元のきれいな音源信号、たとえば、無響室内の単一のスピーカの口に隣接するマイクロフォンによって録音されたはずの音声信号を提供することができる。
残響除去技法は、室内インパルス応答の遅れた部分の影響を最小化することを目的とすることができる。しかしながら、マイクロフォン信号の完全なデコンボリューションは課題であり得るし、出力は、分離された音源信号ではない音源信号の残響が少ない混合であり得る。
残響除去技法は、シングルチャネル技法およびマルチチャネル技法に分類することができる。理論的な制限に起因して、理想的なデコンボリューションは、通常、録音マイクロフォンの数Qがアクティブな音源、たとえばスピーカの数Pよりも多くなることができる、マルチチャネルの場合に実現することができる。
マルチチャネル残響除去技法は、音源とマイクロフォンとの間の多入力/多出力有限インパルス応答、すなわちMIMO FIRシステムを反転させることを目的とすることができ、音源とマイクロフォンとの間の各音響経路は、長さLのFIRフィルタによってモデル化することができる。MIMOシステムは、それが正方形であり正規である場合反転可能であり得る行列として、時間領域内で提示することができる。したがって、以下の2つの条件が保持される場合、理想的な反転を実行することができる。
第1に、有限反転フィルタの長さL'は、
を満たす。
第2に、MIMOシステムの個々のフィルタは、z領域内の共通根を表現しない。
理想的な反転システムを推定する手法を利用することができる。その手法は、音源信号の非ガウス性、非白色性、および非定常性を活用することに基づくことができる。その手法は、高次の統計値の計算についての高い計算複雑度のコストに対する最小のひずみを特徴とすることができる。その上、その手法は、理想的な反転問題を解決することを目的とすることができるので、システムが音源よりも多くのマイクロフォンを有することを必要とする場合があり、シングルチャネル問題には適用可能でない場合がある。
マルチチャネル録音の残響を除去するさらなる手法は、信号部分空間を推定することに基づくことができる。オーディオ信号の周辺部および直接部は、別々に推定することができる。遅れた残響は、雑音として処理することができる。したがって、その手法は、それを取り消すことができるために、周辺部、すなわち遅れた残響の正確な推定値を必要とする場合がある。マルチチャネル信号部分空間を推定することに基づく手法は、残響を低減することに専用であり、音源をデミックス、すなわち分離することに専用ではない可能性がある。その手法は、通常、マルチチャネルセットアップに適用され、シングルチャネル残響除去問題を解決するために使用されない場合がある。加えて、残響を推定し、周辺部を低減するヒューリスティック統計モデルを利用することができる。これらのモデルは、トレーニングデータに基づく場合があり、高い複雑度に悩まされる場合がある。
スペクトル領域内の拡散成分および直接成分を推定するさらなる手法を利用することができる。マルチチャネル信号の短時間スペクトルは、X1(k、n)およびX2(k、n)にダウンミックスすることができ、ここで、kおよびnは、周波数ビンのインデックスおよび時間間隔またはフレームのインデックスを表記する。実係数H(k、n)は、
に従って、ダウンミックスから直接成分
および
を抽出するために、導出することができる。
ダウンミックス内の直接成分および拡散成分が相互に無相関であり、ダウンミックス内の拡散成分が等しい電力を有すると仮定すると、実係数H(k、n)は、
に従って、ウィーナー最適化基準に基づいて計算することができ、
ここで、PSおよびPAは、ダウンミックス内の直接成分および拡散成分の短時間電力スペクトル推定値の合計である。PSおよびPAは、Re(E{X1X2 *})として、ダウンミックスの相互相関に基づいて導出することができる。これらのフィルタはさらに、対応する直接成分および周辺成分を生成するために、マルチチャネルオーディオ信号に適用することができる。この手法は、マルチチャネルセットアップに基づくことができ、シングルチャネル残響除去問題を解決するために使用されない場合がある。その上、この手法は、大量のひずみをもたらす場合があり、分離を実行することができない。
シングルチャネル残響除去ソリューションは、最小統計値原理に基づくことができる。したがって、それらは、オーディオ信号の周辺部および直接部を別々に推定することができる。トレーニングデータに基づくことができる統計システムモデルを組み込む手法を利用することができる。さらなる手法は、高品質リスニング体験用ではなく、自動音声認識用に最適化することができるので、特にオーディオ信号品質に関して、複雑な音声シーン内で制限された性能しか提供しない、シングルチャネルセットアップに適用することができる。
いくつかの実装形態は、シングルチャネルおよびマルチチャネルの残響除去技法に関係することができる。ドライ出力オーディオ信号を取得するために、P個の出力、すなわちオーディオ信号源の数、およびQ個の入力、すなわち入力オーディオ信号の数、マイクロフォンの数、または、ビームフォーマ、たとえば遅延和ビームフォーマなどの前処理段階の出力の数を有するSTFT領域内のM個のタップのMIMO FIRフィルタを適用することができる。フィルタ105は、各出力オーディオ信号が結果としての時間間隔またはフレームのあらかじめ定義されたセット内のそれ自体の履歴にコヒーレントであり得るし、他の音源信号の履歴に直交することができるような方法で、設計することができる。
以下において、残響除去手法を導出するために使用される数学的セットアップおよび信号モデルが導入される。時刻tにおける入力オーディオ信号xqは、p番目の音源にグリーン関数を用いて畳み込まれたドライ励起音源信号s(t):=[s1(t)、s2(t)、...、sp(t)]Tの、q番目の入力またはマイクロフォンgq(t):=[g1q(t)、g2q(t)、...、gpq(t)]Tへの畳み込みとして与えることができる。
短時間フーリエ領域内でこの式を考慮することによって、それは、
Xq(k、n)≒[S1、S2、...、SP]・[G1q、G2q、...、GPqH (3)
のように近似することができ、ここで、kは周波数ビンのインデックスを表記し、時間間隔またはフレームはnによってインデックス付けされ、{・}Hはエルミート転置を表記し、オーディオ信号の音源信号と(n、k)に対するグリーン関数の両方の依存関係は、記法を明確にするために回避される。完全なマルチチャネル表現の場合、それは、MIMOシステムについて以下のように書くことができる。
ここで、
X:=[X1(k、n)、X2(k、n)、...、XQ(k、n)]T (5)
S:=[S1(k、n)、S2(k、n)、...、SP(k、n)]T (6)
残響除去は、たとえば、以下に従ってFIRフィルタを適用することに基づいて、STFT領域内でFIRフィルタを使用して実行することができる。
ここで、入力オーディオ信号
上のSTFT領域において、hpq(k、n):=[Hpq(k、n)、Hpq(k、n−1)、...、Hpq(k、n−M+1)]Tである。
ここで、入力オーディオ信号の一連のM個の連続するSTFT領域の時間間隔またはフレームは、
Xq(k、n):=[Xq(k、n)、Xq(k、n−1)、...、XQ(k、n−M+1)]T (10)
および
として定義される。
Mは周波数ビンごとに個別に選択できることに留意されたい。たとえば、16kHzのサンプリング周波数、320のSTFTウィンドウサイズ、512のSTFT長、0.5の重複因子、および約1秒の残響時間を使用する音声信号の場合、Mは、低い129ビンの場合4に設定することができ、高い128ビンの場合2に設定することができる。
フィルタ係数行列Hは、未知のドライ音源信号の自動相関行列の最大固有ベクトルを近似することができる。ドライ音源信号の無ひずみ推定値を取得することが必要であり得る。これは、FIRフィルタがドライ音源信号のコヒーレントな部分への忠実度を表すことを意味することができる。
入力オーディオ信号は、以下に従って、ドライ音源信号の初期推定値にコヒーレントな部分xc、およびコヒーレントでない部分xiに分解することができる。
x(k、n)=xc(k、n)+xi(k、n) (13)
ここで、
xc(k、n)=ΓxS(k、n)・S(k、n) (14)
ここで、ドライ音源信号の相互コヒーレンス行列は、以下による正規化相関行列として定義することができる。
ここで、
は期待値の推定値を表記し、自動相関行列の期待値の推定値は、
である。
相互コヒーレンス行列ΓxSは、入力オーディオ信号の自動相関行列の強制固有ベクトル行列として理解することができる。
期待値の推定値は、
によって反復的に計算することができる。ここで、αは忘却因子を表記する。
したがって、残響除去フィルタ用の条件は、
のように設定することができる。
再構成することによって、以下の式を得ることができる。
HHΓxS=IP×P (20)
ここで、Iは単位元行列を表記する。したがって、フィルタ係数行列Hは、信号部分空間の基底ベクトルΓxSと同時に発生することができる。
STFT領域内の最適な残響除去FIRフィルタを導出することができる。最適なフィルタを取得するために、(20)によって制約され得る以下のコスト関数を設定することができる。
J=HHΦxxH+λ(HHΓxS−IP×P) (21)
ここで、
であり、ここで、λはラグランジュ乗数行列を表記する。このコスト関数の最小値において、勾配は0になることができ、フィルタの最適な式は、
として得ることができる。
フィルタは、所与の条件下でドライオーディオ信号のエントロピーを最大化することができる。
相互コヒーレンス行列は、近似することができる。以下では、欠落した未知のドライ音源信号を扱う2つの可能性が提案される。
図4は、一実装形態による、オーディオ信号取得シナリオ400の図を示す。オーディオ信号取得シナリオ400は、第1のオーディオ信号源401と、第2のオーディオ信号源403と、第3のオーディオ信号源405と、マイクロフォンアレイ407と、第1のビーム409と、第2のビーム411と、スポットマイクロフォン413とを備える。第1のビーム409および第2のビーム411は、ビームフォーミング技法により、マイクロフォンアレイ407によって合成される。
図は、3つのオーディオ信号源401、403、405、またはスピーカ、たとえば、ビームフォーミング、たとえば遅延和ビームフォーマを使用して専用の方向に高感度を実現する能力を有するマイクロフォンアレイ407、および、1つのオーディオ信号源に隣接するスポットマイクロフォン413を有するオーディオ信号取得シナリオ400を示す。最小化されたルーム影響を有する分離された音源401、403、405が必要であり得る。ビームフォーマおよびスポットマイクロフォン413の補助オーディオ信号の出力は、相互コヒーレンス行列ΓxSを計算または推定するために使用することができる。
アルゴリズムは、ビームフォーマおよびスポットマイクロフォンの出力、すなわち補助オーディオ信号を初期推測として扱い、分離を向上させ、3つの音源信号または音声信号のきれいなバージョンを供給するために、入力オーディオ信号またはマイクロフォンアレイ信号の残響を最小化することができる。
導出されたフィルタ係数行列を計算するために、相互コヒーレンス行列の計算を実行することができる。したがって、前処理段階、たとえば、ドライ音源信号s01、s02、...、s0pの初期推測供給するビームフォーミングと組み合わされた音源定位段階、または音源のサブセット用のスポットマイクロフォンとの組合せさえも利用することができる。
フィルタの場合、以下の式を得ることができる。
ここで、ΓxS0は、式(15)と同じ式ではあるが、ドライ音源信号の代わりに初期推測を使用することによって定義することができる。
図5は、一実装形態による、自動コヒーレンス行列501の構造図を示す。図は、ブロック対角構造を示す。自動コヒーレンス行列501は、ΓsSに関係することができる。自動コヒーレンス行列501は、M×P個の行およびP個の列を備えることができる。
図6は、一実装形態による、中間行列601の構造図を示す。図はさらに、自動コヒーレンス行列603を示す。中間行列601は、Cに関係することができる。中間行列601または行列Cは、P=3の入力オーディオ信号またはマイクロフォンを有するシステムに基づいて、構築することができる。自動コヒーレンス行列603は、M個の行を有する部分を備えることができ、Q個の列を備えることができる。自動コヒーレンス行列603は、ΓxXに関係することができる。
P=Qの場合、(20)における条件は、
HHΓsS=IP×P (25)
に従って、出力オーディオ信号のコヒーレンス用に修正することができる。
P=Qの場合、ドライ音源信号の各音源がそれ自体の履歴に関してコヒーレントであると仮定することができる。その仮定に基づいて、ΓxSの代わりにΓsSを使用することができる。残響および干渉信号は、非コヒーレントであり得る。
音源信号の自動コヒーレンス行列は、
として定義することができる。
ここで、量Φssは、(16)と同様の定義を有することができる。
音源の自動コヒーレンス行列ΓsSは、ブロック対角であり得る。さらに、ΓxSの趣旨では、入力オーディオ信号の自動コヒーレンス行列は、
として導入することができる。
ここで、量Φxxは、(16)と同様の定義を有することができる。
(4)におけるグリーン関数が考えられるM回の時間間隔またはフレームについて一定であると仮定することによって、それは、以下のように見ることができる。
ここで、
ΓsS用の式を得るために、音源信号が依存していない、すなわち、ΦSSが対角であり得るし、
がブロック対角であり得ると仮定することによって、かつP=Qの場合に関係(30)を考慮に入れることによって近似を行うことができる。
ここで、
はクロネッカー積を表記する。したがって、ΓsSを近似するために、ΓxXを使用することができ、オフ対角ブロックをゼロに設定することができる。これは、その行が入力オーディオ信号の自動コヒーレンス行列の(j・M+1)番目の行である、正方形の、必ずしも対称とは限らない、中間行列Cを設定することによって実現することができ、j∈{0、...、P−1}である。順序は維持されない場合があることに留意されたい。
固有値分解により、積U・C・U−1としてCを書くことが可能になり得るし、ここで、Cは対角であり得る。Γ用のブロック対角形態についての推定値
は、
として取得することができる。
オーディオ信号源のコヒーレントな部分を供給するフィルタ係数行列を取得するために、式(24)と同様に以下を設定することができる。
加えて、ブラインドチャネル推定を実行することができる。推定逆チャネルの式は、XP(k、n)≠0の場合に以下の考慮によって取得することができる。
ここで、演算子diag{・}は、主対角線上に引数ベクトルを有する対角正方行列を作成する。この式を(3)におけるSTFT領域内の仮定されたチャネルモデルと比較すると、
が導かれる。
図7は、一実装形態による、入力オーディオ信号のスペクトログラム701および出力オーディオ信号のスペクトログラム703を示す。スペクトログラム701、703では、対応する短時間フーリエ変換(STFT)の振幅は、秒単位の時間およびヘルツ単位の周波数にわたって色分けされている。
スペクトログラム701はさらに、残響マイクロフォン信号に関係することができ、スペクトログラム703はさらに、推定ドライ音源信号に関係することができる。シングルチャネルについてのこの例では、残響信号のスペクトログラム701は不鮮明にされる。比較上、残響除去アルゴリズムを適用することによる推定ドライ音源信号のスペクトログラム703は、典型的なドライ音声信号の構造を表す。
図8は、一実装形態による、いくつかの入力オーディオ信号の残響を除去するための信号処理装置100の図を示す。信号処理装置100は、変換器101と、フィルタ係数決定器103と、フィルタ105と、逆変換器107と、補助オーディオ信号生成器301と、ポストプロセッサ305とを備える。
変換器101は、短時間フーリエ変換(STFT)変換器であり得る。フィルタ係数決定器103は、アルゴリズムを実行することができる。フィルタ105は、フィルタ係数行列Hによって特徴付けることができる。逆変換器107は、逆短時間フーリエ変換(ISTFT)変換器であり得る。補助オーディオ信号生成器301は、たとえば、遅延和技法および/またはスポットマイクロフォンオーディオ信号を使用することによって、初期推測を提供することができる。ポストプロセッサ305は、後処理機能、たとえば、自動音声認識(ASR)および/またはアップミキシングを提供することができる。
数Qの入力オーディオ信号は、補助オーディオ信号生成器301に供給することができる。補助オーディオ信号生成器301は、変換器101に数Pの補助オーディオ信号を供給することができる。変換器101は、フィルタ係数決定器103およびフィルタ105に数Pの行または列の入力変換係数行列を供給することができる。フィルタ105は、逆変換器107に数Pの行または列の出力変換係数行列を供給することができる。逆変換器107は、数Pの後処理されたオーディオ信号をもたらすポストプロセッサ305に、数Pの出力オーディオ信号を供給することができる。
本発明はいくつかの利点を有する。それは、初期推測用の低複雑度ソリューションと同等に、最適な分離を実現する音源分離用の後処理に使用することができる。これは、強化された音場録音に使用することができる。それはさらに、モバイルおよびタブレットを使用するハンズフリーアプリケーションのための音声了解度への恩恵であり得る、シングルチャネル残響除去にも使用することができる。それはさらに、モノ録音からのマルチチャネル再生用のアップミキシング、および自動音声認識(ASR)用の前処理に使用することができる。
いくつかの実装形態は、残響の音響環境内で1つまたは複数のオーディオ信号源を録音することによって取得された、マルチチャネルまたはシングルチャネルのオーディオ信号を修正する方法に関係することができ、方法は、部屋が原因の残響の影響を最小化することと、録音されたオーディオの音源を分離することとを備える。録音は、オーディオ信号源の定位、およびビームフォーミング、たとえば遅延和ビームフォーミングとして前処理を実行する能力を有するマイクロフォンアレイと、オーディオ信号源のサブグループに隣接する、分散マイクロフォン、たとえばスポットマイクロフォンとの組合せによって行うことができる。
前処理されていない入力オーディオ信号またはアレイ信号、および利用可能な分散スポットマイクロフォンとともに前処理された信号は、短時間フーリエ変換(STFT)を使用して分析することができ、バッファリングすることができる。バッファの長さ、たとえば長さMは、周波数帯域ごとに個別に選択することができる。バッファリングされた入力オーディオ信号は、オーディオ信号の時間間隔間またはフレーム間の統計値を活用することができるサブバンドごとに、2多次元複素フィルタを取得するために、短時間フーリエ変換領域内で組み合わせることができる。ドライ出力オーディオ信号、すなわち分離および/または残響除去された入力オーディオ信号は、それらのフィルタを用いて入力オーディオ信号またはアレイマイクロフォン信号の多次元畳み込みを実行することによって、取得することができる。畳み込みは、短時間フーリエ変換領域内で実行することができる。
フィルタは、以下に従って、片側の前処理されたオーディオ信号および分散されたスポットマイクロフォンと、反対側の入力オーディオ信号またはアレイマイクロフォン信号との間のコヒーレンス、たとえば正規化相互相関を維持することによって制約される、STFT領域内の出力オーディオ信号の最大エントロピーの条件を満たすように設計することができる。
いくつかの実装形態はさらに、方法に関係することができ、前処理段階は利用不可であり得るし、フィルタは、以下に従って、各音源信号のそれ自体の履歴へのコヒーレンスおよびSTFT領域内のオーディオ信号源の独立性を維持するように設計することができる。
音源信号の自動コヒーレンス行列の推定値は、その行が入力オーディオ信号またはマイクロフォン信号の自動コヒーレンスの行から選択することができる、正方行列の固有値分解によって計算することができる。行の数は、最大で入力またはマイクロフォンの数であり得る、分離可能なオーディオ信号源の数によって決定することができる。そのように構築された行列Cの固有ベクトルをその列に包含する行列Uは反転することができ、音源の自動コヒーレンス行列の推定値は、
によって計算することができる。
いくつかの実装形態はさらに、以下に従って計算された最適な2次元フィルタに基づいて、音響伝達関数を推定する方法に関係することができる。
いくつかの実装形態は、STFT領域内の処理を可能にすることができる。それは、固有のバッチブロック処理および高いスケーラビリティのせいで、高いシステム追跡機能を提供することができ、すなわち、時間領域内および周波数領域内の解像度は、適切なウィンドウを使用することによって自由に選択することができる。システムは、STFT領域内で近似的に分離することができる。したがって、処理は、周波数ビンごとに並列化することができる。さらに、様々なサブバンドは独立して扱うことができ、たとえば、様々なサブバンド用の残響除去についての様々なフィルタ順序を使用することができる。
いくつかの実装形態は、STFT領域内でマルチタップ手法を使用することができる。したがって、ドライオーディオ信号の時間間隔間またはフレーム間の統計値を活用することができる。各ドライオーディオ信号は、それ自体の履歴にコヒーレントであり得る。したがって、それは、ただ1つの固有ベクトルによってあらかじめ定義された時間にわたって、統計的に表すことができる。音源信号の固有ベクトルは、直交することができる。
100 信号処理装置
101 変換器
103 フィルタ係数決定器
105 フィルタ
107 逆変換器
200 信号処理方法
301 補助オーディオ信号生成器
303 さらなる変換器
305 ポストプロセッサ
400 オーディオ信号取得シナリオ
401 第1のオーディオ信号源
403 第2のオーディオ信号源
405 第3のオーディオ信号源
407 マイクロフォンアレイ
409 第1のビーム
411 第2のビーム
413 スポットマイクロフォン
501 自動コヒーレンス行列
601 中間行列
603 自動コヒーレンス行列
701 入力オーディオ信号のスペクトログラム
703 出力オーディオ信号のスペクトログラム

Claims (13)

  1. いくつかの入力オーディオ信号の残響を除去するための信号処理装置であって、
    入力変換係数を取得するために前記いくつかの入力オーディオ信号を変換領域に変換するように構成された変換器であって、前記入力変換係数が入力変換係数行列を形成するように配置される、変換器と、
    信号空間の固有値に基づいてフィルタ係数を決定するように構成されたフィルタ係数決定器であって、前記フィルタ係数がフィルタ係数行列を形成するように配置される、フィルタ係数決定器と、
    出力変換係数を取得するために前記フィルタ係数行列のフィルタ係数により前記入力変換係数行列の入力変換係数を畳み込むように構成されたフィルタであって、前記出力変換係数が出力変換係数行列を形成するように配置される、フィルタと、
    いくつかの出力オーディオ信号を取得するために前記変換領域から前記出力変換係数行列を逆変換するように構成された逆変換器と
    を備え
    前記フィルタ係数決定器が、前記入力変換係数に基づいて入力自動コヒーレンス係数を決定するように構成され、前記入力自動コヒーレンス係数が、現在の時間間隔および過去の時間間隔に関連付けられた前記入力変換係数のコヒーレンスを示し、前記入力自動コヒーレンス係数が、入力自動コヒーレンス行列を形成するように配置され、前記フィルタ係数決定器が、前記入力自動コヒーレンス行列に基づいて前記フィルタ係数を決定するようにさらに構成される、信号処理装置。
  2. 前記フィルタ係数決定器が、前記入力変換係数行列の入力自動相関行列に基づいて、前記信号空間を決定するように構成される、請求項1に記載の信号処理装置。
  3. 前記変換器が、前記入力変換係数を取得するために、前記いくつかの入力オーディオ信号を周波数領域に変換するように構成される、請求項1または2に記載の信号処理装置。
  4. 前記変換器が、前記入力変換係数を取得するために、いくつかの過去の時間間隔について、前記いくつかの入力オーディオ信号を前記変換領域に変換するように構成される、請求項1から3のいずれか一項に記載の信号処理装置。
  5. いくつかの入力オーディオ信号の残響を除去するための信号処理装置であって、
    入力変換係数を取得するために前記いくつかの入力オーディオ信号を変換領域に変換するように構成された変換器であって、前記入力変換係数が入力変換係数行列を形成するように配置される、変換器と、
    信号空間の固有値に基づいてフィルタ係数を決定するように構成されたフィルタ係数決定器であって、前記フィルタ係数がフィルタ係数行列を形成するように配置される、フィルタ係数決定器と、
    出力変換係数を取得するために前記フィルタ係数行列のフィルタ係数により前記入力変換係数行列の入力変換係数を畳み込むように構成されたフィルタであって、前記出力変換係数が出力変換係数行列を形成するように配置される、フィルタと、
    いくつかの出力オーディオ信号を取得するために前記変換領域から前記出力変換係数行列を逆変換するように構成された逆変換器と
    を備え、
    前記フィルタ係数決定器が、以下の式
    に従って前記フィルタ係数行列を決定するように構成され、
    Hが前記フィルタ係数行列を表記し、xが前記入力変換係数行列を表記し、S0が補助変換係数行列を表記し、Φxxが前記入力変換係数行列の入力自動相関行列を表記し、ΓxS0が前記入力変換係数行列と前記補助変換係数行列との間の相互コヒーレンス行列を表記する、信号処理装置。
  6. 前記いくつかの入力オーディオ信号に基づいて、いくつかの補助オーディオ信号を生成するように構成された補助オーディオ信号生成器と、
    補助変換係数を取得するために前記いくつかの補助オーディオ信号を前記変換領域に変換するように構成されたさらなる変換器であって、前記補助変換係数が前記補助変換係数行列を形成するように配置される、さらなる変換器と
    をさらに備える、請求項5に記載の信号処理装置。
  7. いくつかの入力オーディオ信号の残響を除去するための信号処理装置であって、
    入力変換係数を取得するために前記いくつかの入力オーディオ信号を変換領域に変換するように構成された変換器であって、前記入力変換係数が入力変換係数行列を形成するように配置される、変換器と、
    信号空間の固有値に基づいてフィルタ係数を決定するように構成されたフィルタ係数決定器であって、前記フィルタ係数がフィルタ係数行列を形成するように配置される、フィルタ係数決定器と、
    出力変換係数を取得するために前記フィルタ係数行列のフィルタ係数により前記入力変換係数行列の入力変換係数を畳み込むように構成されたフィルタであって、前記出力変換係数が出力変換係数行列を形成するように配置される、フィルタと、
    いくつかの出力オーディオ信号を取得するために前記変換領域から前記出力変換係数行列を逆変換するように構成された逆変換器と
    を備え、
    前記フィルタ係数決定器が、以下の式
    に従って前記フィルタ係数行列を決定するように構成され、
    Hが前記フィルタ係数行列を表記し、xが前記入力変換係数行列を表記し、Φxxが前記入力変換係数行列の入力自動相関行列を表記し、
    が推定自動コヒーレンス行列を表記する、信号処理装置。
  8. 前記フィルタ係数決定器が、以下の式
    に従って前記推定自動コヒーレンス行列を決定するように構成され、
    が前記推定自動コヒーレンス行列を表記し、xが前記入力変換係数行列を表記し、ΓxXが前記入力変換係数行列の入力自動コヒーレンス行列を表記し、IMが行列次元Mの恒等行列を表記し、Uが前記入力自動コヒーレンス行列に基づいて実行される固有値分解の固有値行列を表記する、
    請求項7に記載の信号処理装置。
  9. いくつかの入力オーディオ信号の残響を除去するための信号処理装置であって、
    入力変換係数を取得するために前記いくつかの入力オーディオ信号を変換領域に変換するように構成された変換器であって、前記入力変換係数が入力変換係数行列を形成するように配置される、変換器と、
    信号空間の固有値に基づいてフィルタ係数を決定するように構成されたフィルタ係数決定器であって、前記フィルタ係数がフィルタ係数行列を形成するように配置される、フィルタ係数決定器と、
    出力変換係数を取得するために前記フィルタ係数行列のフィルタ係数により前記入力変換係数行列の入力変換係数を畳み込むように構成されたフィルタであって、前記出力変換係数が出力変換係数行列を形成するように配置される、フィルタと、
    いくつかの出力オーディオ信号を取得するために前記変換領域から前記出力変換係数行列を逆変換するように構成された逆変換器と
    を備え、
    前記入力変換係数行列の前記入力変換係数および前記フィルタ係数行列の前記フィルタ係数に基づいて、チャネル変換係数を決定するように構成されたチャネル決定器であって、前記チャネル変換係数がチャネル変換行列を形成するように配置される、チャネル決定器
    をさらに備え、前記チャネル決定器が、以下の式
    に従って前記チャネル変換行列を決定するように構成され、
    が前記チャネル変換行列を表記し、xが前記入力変換係数行列を表記し、Hが前記フィルタ係数行列を表記し、X 1 〜X P が入力変換係数を表記する、信号処理装置。
  10. 前記いくつかの入力オーディオ信号が、いくつかのオーディオ信号源に関連付けられたオーディオ信号部分を備え、前記信号処理装置が、前記いくつかの入力オーディオ信号に基づいて、前記いくつかのオーディオ信号源を分離するように構成される、
    請求項1から9のいずれか一項に記載の信号処理装置。
  11. いくつかの入力オーディオ信号の残響を除去するための信号処理方法であって、
    入力変換係数を取得するために前記いくつかの入力オーディオ信号を変換領域に変換するステップであって、前記入力変換係数が入力変換係数行列を形成するように配置される、ステップと、
    信号空間の固有値に基づいてフィルタ係数を決定するステップであって、前記フィルタ係数がフィルタ係数行列を形成するように配置される、ステップと、
    出力変換係数を取得するために前記フィルタ係数行列のフィルタ係数により前記入力変換係数行列の入力変換係数を畳み込むステップであって、前記出力変換係数が出力変換係数行列を形成するように配置される、ステップと、
    いくつかの出力オーディオ信号を取得するために前記変換領域から前記出力変換係数行列を逆変換するステップと
    を含み、
    前記フィルタ係数を決定する前記ステップが、
    前記入力変換係数に基づいて入力自動コヒーレンス係数を決定するステップであって、前記入力自動コヒーレンス係数が、現在の時間間隔および過去の時間間隔に関連付けられた前記入力変換係数のコヒーレンスを示し、前記入力自動コヒーレンス係数が、入力自動コヒーレンス行列を形成するように配置される、ステップと、
    前記入力自動コヒーレンス行列に基づいて前記フィルタ係数を決定するステップと
    を含む、信号処理方法。
  12. 前記入力変換係数行列の入力自動相関行列に基づいて、前記信号空間を決定するステップ
    をさらに備える、請求項11に記載の信号処理方法。
  13. コンピュータ上で実行されると、請求項11または12のいずれか一項に記載の前記信号処理方法を実施するためのプログラムコードを備える、コンピュータプログラム。
JP2016549328A 2014-04-30 2014-04-30 いくつかの入力オーディオ信号の残響を除去するための信号処理の装置、方法、およびコンピュータプログラム Active JP6363213B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2014/058913 WO2015165539A1 (en) 2014-04-30 2014-04-30 Signal processing apparatus, method and computer program for dereverberating a number of input audio signals

Publications (2)

Publication Number Publication Date
JP2017505461A JP2017505461A (ja) 2017-02-16
JP6363213B2 true JP6363213B2 (ja) 2018-07-25

Family

ID=50639518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016549328A Active JP6363213B2 (ja) 2014-04-30 2014-04-30 いくつかの入力オーディオ信号の残響を除去するための信号処理の装置、方法、およびコンピュータプログラム

Country Status (6)

Country Link
US (1) US9830926B2 (ja)
EP (1) EP3072129B1 (ja)
JP (1) JP6363213B2 (ja)
KR (1) KR101834913B1 (ja)
CN (1) CN106233382B (ja)
WO (1) WO2015165539A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6635674B2 (ja) * 2015-05-11 2020-01-29 キヤノン株式会社 計測装置、計測方法およびプログラム
US10667069B2 (en) 2016-08-31 2020-05-26 Dolby Laboratories Licensing Corporation Source separation for reverberant environment
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
CN110603587A (zh) * 2017-05-08 2019-12-20 索尼公司 信息处理设备
US10726857B2 (en) 2018-02-23 2020-07-28 Cirrus Logic, Inc. Signal processing for speech dereverberation
CN108600324B (zh) * 2018-03-27 2020-07-28 中国科学院声学研究所 一种信号合成方法及系统
US10783082B2 (en) 2019-08-30 2020-09-22 Alibaba Group Holding Limited Deploying a smart contract
US11108457B2 (en) * 2019-12-05 2021-08-31 Bae Systems Information And Electronic Systems Integration Inc. Spatial energy rank detector and high-speed alarm
WO2021205494A1 (ja) * 2020-04-06 2021-10-14 日本電信電話株式会社 信号処理装置、信号処理方法、およびプログラム
CN111404808B (zh) * 2020-06-02 2020-09-22 腾讯科技(深圳)有限公司 一种歌曲的处理方法
CN112259110B (zh) * 2020-11-17 2022-07-01 北京声智科技有限公司 音频编码方法及装置、音频解码方法及装置
KR102514264B1 (ko) * 2021-04-13 2023-03-24 서울대학교산학협력단 고속 부분 푸리에 변환 방법 및 이를 수행하기 위한 컴퓨팅 장치

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4131760A (en) * 1977-12-07 1978-12-26 Bell Telephone Laboratories, Incorporated Multiple microphone dereverberation system
CN2068715U (zh) * 1990-04-09 1991-01-02 中国民用航空学院 小型低压电子音频混响装置
EP1216598B1 (en) * 1999-09-10 2005-02-09 Starkey Laboratories, Inc. Audio signal processing
EP1473964A3 (en) * 2003-05-02 2006-08-09 Samsung Electronics Co., Ltd. Microphone array, method to process signals from this microphone array and speech recognition method and system using the same
JP4473709B2 (ja) * 2004-11-18 2010-06-02 日本電信電話株式会社 信号推定方法、信号推定装置、信号推定プログラム及びその記録媒体
WO2010146711A1 (ja) * 2009-06-19 2010-12-23 富士通株式会社 音声信号処理装置及び音声信号処理方法
EP2642768B1 (en) * 2010-12-21 2018-03-14 Nippon Telegraph And Telephone Corporation Sound enhancement method, device, program, and recording medium

Also Published As

Publication number Publication date
US9830926B2 (en) 2017-11-28
KR20160099712A (ko) 2016-08-22
CN106233382B (zh) 2019-09-20
WO2015165539A1 (en) 2015-11-05
JP2017505461A (ja) 2017-02-16
US20160365100A1 (en) 2016-12-15
CN106233382A (zh) 2016-12-14
KR101834913B1 (ko) 2018-04-13
EP3072129B1 (en) 2018-06-13
EP3072129A1 (en) 2016-09-28

Similar Documents

Publication Publication Date Title
JP6363213B2 (ja) いくつかの入力オーディオ信号の残響を除去するための信号処理の装置、方法、およびコンピュータプログラム
Habets et al. New insights into the MVDR beamformer in room acoustics
Markovich et al. Multichannel eigenspace beamforming in a reverberant noisy environment with multiple interfering speech signals
CN106710601B (zh) 一种语音信号降噪拾音处理方法和装置及冰箱
Simmer et al. Post-filtering techniques
US8654990B2 (en) Multiple microphone based directional sound filter
EP2647221B1 (en) Apparatus and method for spatially selective sound acquisition by acoustic triangulation
US20110044462A1 (en) Signal enhancement device, method thereof, program, and recording medium
WO2016074495A1 (zh) 信号处理的方法及装置
Peled et al. Method for dereverberation and noise reduction using spherical microphone arrays
JP6987075B2 (ja) オーディオ源分離
JP6724905B2 (ja) 信号処理装置、信号処理方法、およびプログラム
Herzog et al. Direction preserving wiener matrix filtering for ambisonic input-output systems
CN111681665A (zh) 一种全向降噪方法、设备及存储介质
Corey et al. Motion-tolerant beamforming with deformable microphone arrays
Habets et al. The MVDR beamformer for speech enhancement
Tourbabin et al. Speaker localization by humanoid robots in reverberant environments
Corey et al. Delay-performance tradeoffs in causal microphone array processing
Peled et al. Linearly constrained minimum variance method for spherical microphone arrays in a coherent environment
Wang et al. Microphone array beamforming based on maximization of the front-to-back ratio
Chua et al. A low latency approach for blind source separation
JP2010210728A (ja) 音響信号処理方法及び装置
Chetupalli et al. Joint spatial filter and time-varying mclp for dereverberation and interference suppression of a dynamic/static speech source
Chua Low Latency Convolutive Blind Source Separation
Ali et al. MWF-based speech dereverberation with a local microphone array and an external microphone

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160803

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160803

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180529

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180627

R150 Certificate of patent or registration of utility model

Ref document number: 6363213

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250