JP6153142B2 - 音響信号を処理する方法 - Google Patents

音響信号を処理する方法 Download PDF

Info

Publication number
JP6153142B2
JP6153142B2 JP2015555307A JP2015555307A JP6153142B2 JP 6153142 B2 JP6153142 B2 JP 6153142B2 JP 2015555307 A JP2015555307 A JP 2015555307A JP 2015555307 A JP2015555307 A JP 2015555307A JP 6153142 B2 JP6153142 B2 JP 6153142B2
Authority
JP
Japan
Prior art keywords
signal
mask
time
acoustic signal
enhancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015555307A
Other languages
English (en)
Other versions
JP2016517023A (ja
Inventor
ル・ルー、ジョナサン
渡部 晋治
晋治 渡部
ハーシェイ、ジョン・アール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2016517023A publication Critical patent/JP2016517023A/ja
Application granted granted Critical
Publication of JP6153142B2 publication Critical patent/JP6153142B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Machine Translation (AREA)
  • Respiratory Apparatuses And Protective Means (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

本発明は、包括的には、音声処理に関し、より詳細には、干渉を含む音声信号を強調することに関する。
音声強調
音声強調方法は、一つには、音声認識を改善する目的で、雑音または他の干渉プロセスによって劣化した音声の品質および明瞭度を改善することを試みる。多くのタイプの干渉が存在するため、これは困難な問題である。通常、音声は、音響クラッター環境からの複数の競合する音源の雑音の多い背景と混合される。さらに厄介なことには、リアルタイム用途における計算リソースおよびレイテンシに対する動作制約によって、多くの場合に、多くの異なる干渉を表し、それらに適合し得た複雑なモデルの使用が不可能になる。単純な方法が様々な条件に対応することは困難であるため、基礎を成す音声および干渉の統計的特性に関する何らかの仮定が、通常、行われる。
音声および干渉の特性に関する様々な明示的または暗黙的な仮定をそれぞれ有する多くの異なる強調方法が知られている。しかしながら、これらの方法の多くは、信号のいくつかの部分を改善する一方で、多くの場合に、他の部分を劣化させる。
アンサンブル学習
アンサンブル学習方法は、通常、代替モデルの有限集合を組み合わせ、各モデルによって成された誤りの独立性を利用して推定分散を低減させ、これにより誤り率を低減させる。これらの方法は、各モデルによって推測される量が平均化される単純な投票手順から、トレーニングデータに適応可能であるよう組み合わせを行うように二次モデルがトレーニングされたスタッキングへと多岐にわたる。利点として、投票方法は、リアルタイム条件を考慮することなく適用され得る。一方、スタッキング方法は、より複雑な組み合わせ機能を学習することができ、潜在的に、より良好な性能をもたらす。
アンサンブル方法は、自動音声認識(ASR)において、認識器出力投票誤り低減(ROVER:recognizer output voting error reduction)等の投票手順を介して様々な認識器の音声認識仮説を融合させるのに広く用いられてきた。ROVERシステムは、複数のASRシステムによって生成される出力を独立した知識源としてモデル化する認識後プロセスである。これらの知識源を組み合わせて、誤り率が低減した出力を生成するのに用いることができる。
特に、関連するアンサンブルASR方法は、フロントエンドASR処理によって異なる。アンサンブルASR方法の主な利点は、性能を改善するための多岐にわたる既存の方法を用いることができることである。
本発明の実施の形態は、音響信号を処理する方法を提供する。この方法は、多くの方法が異なる利点を有し、異なる欠点を被っているという認識に基づく。本発明は、複数の音響信号強調手順の強みを組み合わせ、強調問題をアンサンブル学習フレームワークとして定式化する。強調手順の組み合わせによって、強調を大幅に改善することができる。
具体的には、本方法は、強調手段のアンサンブルによって音響信号を強調して初期強調信号を生成することにより、ターゲット信号と干渉信号との混合である音響(音声)信号を処理する。強調信号は、次に、アンサンブル学習方法によって組み合わされ、音響信号の特徴が求められる。特定の事例は、特徴が強調音響(音声)信号となる場合である。
これを行う1つの可能な方法は、各強調手順の出力の表現を共通領域において構築し、これらの表現を組み合わせ、組み合わされた表現がクリーンなターゲット信号に関連付けられた表現に可能な限り近づくようにすることである。
具体的には、方法は、まず、1組の強調手順によって音響信号を強調して1組の初期強調信号を生成することにより、ターゲット信号と干渉信号との混合である音響信号を処理する。次に、音響信号および1組の初期強調信号にアンサンブル学習手順を適用して音響信号の特徴を生成する。
本発明の実施の形態による、音響信号を処理する方法の流れ図である。 本発明の実施の形態による、アンサンブル学習手順の流れ図である。
方法概観
図1は、本発明の実施の形態による音響信号101を処理する方法を示す。好ましい実施の形態では、音響信号y[t]101は、音声信号x[t]と、音響的に複雑で雑音の多い環境104から取得された多岐にわたる干渉信号nとの混合101である。本方法は、他のタイプの音響信号、例えば、ソーナー信号または超音波信号を処理するのに用いることができることが理解される。
本発明では、前処理中、音響信号を一時点に1フレームずつサンプリングし、処理することができる。信号のサンプリングレートは、16kHzとすることができる。特徴として、例えば、640サンプルのフレーム長、50%のオーバーラップ、並びに解析および合成用のサイン窓を有する短時間フーリエ変換(STFT)を用いて、信号のための共通時間−周波数表現を取得することができる。本方法は、ターゲット信号および干渉信号の混合である任意の音響信号のために用いることができ、強調によりターゲット信号xが雑音nから切り離されることが理解される。
J個の強調手順[1,...,J]110〜111の組(アンサンブル)が、時間領域において入力信号y[t]に適用され、時間領域において対応する初期強調信号
Figure 0006153142
112〜113が生成される。ここで、強調手順ごとに1つの強調信号が存在する。手順110〜111は、任意の数および種類の発生源分離または音声強調手順、例えばベクトルテイラー級数(VTS)、間接VTS、改良型最小制御再帰平均化を用いた最適修正された最小平均二乗誤差対数スペクトル振幅(OMLSA−IMCRA)、最小平均二乗誤差(MMSE)、対数MMSE手順、およびそれらの組み合わせに基づくことができる。例において、2つが示されている。
アンサンブル学習手順200は、雑音の多い信号101を入力としてとり、初期強調信号x[t]112〜113を組み合わせて特徴f135を生成する。特徴は、直接または間接的に表すことができる。例えば、間接的に表された特徴は、以下で説明するように、信号内の関心対象の特徴を固有に選択するフィルターまたはマスクとすることができる。直接表された特徴は、ターゲット音響信号自体の波形の推定値とすることもできるし、MFCC等のターゲット音響の従来のASR特徴の推定値とすることもできる。
後処理中、特徴が、フィルターまたはマスク等の間接的に表された特徴である場合、これらの特徴を用いて雑音の多い入力信号y[t]101からターゲット信号x[t]141を合成することができる(140)。特徴135またはターゲット信号141は、自動音声認識システム(ASR)150によってさらに処理することができる。
本方法は、当該技術分野において既知のメモリおよび入/出力インターフェースに接続されたプロセッサにおいて実行することができる。
図2は、例示的なアンサンブル学習手順200をより詳細に示す。音響信号101を用いて、各初期強調信号x[t]にマスク生成210が適用されて、初期特徴またはマスク
Figure 0006153142
211〜212が生成される。マスクは、重みとすることができる。アンサンブル学習手順を用いて、ターゲット音響信号に対応するターゲットマスクを推定する。ターゲットマスクがバイナリである場合、アンサンブル学習手順は、分類方法221とすることができ、ターゲットマスクが連続である場合、アンサンブル学習手順は、回帰方法222とすることができる。
アンサンブル学習手順のパラメーターは、雑音の多い信号および雑音のない信号の双方が利用可能であるトレーニングデータから学習することができる。
上記の方法のステップは、当該技術分野において既知のメモリおよび入出力インターフェースに接続されたプロセッサにおいて実行することができる。処理は、リアルタイムで行うことができる。
概論
上記の方法において、音声強調手順のアンサンブルは、組み合わせ200中に初期強調信号のみを用いるという意味で、ブラックボックスとして扱われる。本発明の目標は、任意のモデルを用いることができるようにし、異種の特徴の使用を回避することである。
このため、組み合わせを、強調手順によって用いられる領域と独立した領域内で行う。そのような領域のための良好な選択は、短時間パワースペクトルである。短時間パワースペクトルは、位相に対し相対的に敏感でないこと、並びに信号における時間および周波数パターンを明らかにする能力に起因して信号処理において広く用いられている。用いられる内部表現にかかわらず、音声強調手順は、時間領域において「雑音の多い」信号y[t]101を入力としてとり、信号を初期強調信号
Figure 0006153142
112〜113に変換する。短時間パワースペクトル領域において、雑音の多い入力信号のスペクトログラムにマスクを適用することによって、強調プロセスを近似することができる。
実施の詳細
本発明によるアンサンブルの各強調手順によって生成される初期強調信号112〜113について、時間フレームnおよび周波数fの対応する重み付きマスク
Figure 0006153142
を生成する。雑音の多いスペクトルをクリーンなスペクトルに変換するターゲットマスク
Figure 0006153142
も生成する。単純にするために、マスクは、関数であり、バイナリマスク
Figure 0006153142
および
Figure 0006153142
として近似することができる。バイナリターゲットマスク
Figure 0006153142
は、各強調手順から導出された、重み付きマスク
Figure 0006153142
またはそれらのバイナリ相当物を入力として用いてバイナリマスク
Figure 0006153142
135を推定することとして、アンサンブル推測強調を提起することができるという点で、分類に好都合である。
ターゲット信号
本方法のためのターゲット音声信号は、最終的な強調信号、すなわち「クリーン」信号x[t]である。雑音の多い混合表現Yn,fに時間−周波数マスクが適用され、音声強調が行われる。時間−周波数マスクは、音響入力の時間−周波数表現における各要素に重みwを適用する。表現は、ターゲット信号によって支配される領域を重要視し、干渉源によって支配される領域を抑制する、コクレオグラム、STFT、波形変換等とすることができる。重みは、バイナリまたは連続とすることができる。連続値は、ウィナーフィルターにおけるように、ターゲット信号と音響信号との間の比とみなすこともできるし、対応する時間−周波数要素がターゲット信号に関連付けられる確率とみなすこともできる。
マスクをバイナリ値に制限することは、一般的な条件における最適なマスキングへの妥当な近似である。他の話者による音声、家の雑音、街の雑音、または音楽等の雑音が非定常であり、雑音除去タスクを困難にしていると仮定する。一方、連続値の代わりにバイナリ値を推定することは、より容易である。このため、本発明による方法のためのクリーンな音声から取得されるバイナリ化されたマスクに主に焦点をあてるが、回帰方法における連続マスクの使用も検討する。
入力信号
上記で説明したように、各強調手順は、様々なフィルターバンク設定を用いて、時間領域において直接、またはSTFT、ガンマトーンベースの変換等の何らかの時間−周波数表現において、異なる領域で入力信号を処理する。内部表現を直接組み合わせる代わりに、本発明では強調された時間領域ターゲット信号の推定値に焦点を当てる。
組み合わせのために、任意のタイプの特徴を用いることができる。便宜上、簡単にするために、ターゲット信号を導出するのに用いられる共通時間−周波数表現を用いて全ての強調信号を再解析する。これによって、入力特徴の時間−周波数要素と、ターゲット信号の時間−周波数要素との間の直接の対応関係を有することが可能になる。
特徴のためのスケーリング問題を回避するために、本発明では、パワースペクトログラムまたは対数パワースペクトログラム等の特徴を直接用いない。代わりに、特徴を、(初期)強調信号
Figure 0006153142
のパワースペクトログラムと雑音の多い混合信号Yのパワースペクトログラムとの比と同等な手順ごとの重み付きマスクw(k)として、特徴を間接的に定義する。
Figure 0006153142
ターゲットマスク
Figure 0006153142
についても同様に、クリーンなターゲット音声のパワースペクトログラムと雑音の多い混合のパワースペクトログラムとの比から得られる。これは、各手順を、共通時間−周波数表現における書き換えとして近似する。
また、本発明では、重み付きマスクからバイナリマスク
Figure 0006153142
も生成する。同様に、バイナリターゲットマスク
Figure 0006153142
を生成する。ここで、a>bである場合、[a>b]=1であり、そうでない場合、0である。バイナリマスクは、例えば、サポートベクターマシン(SVM)および決定木がアンサンブル学習手順において用いられるとき、重み付きマスクと比較して、計算複雑度を低減することができる。
推測方法
推測のために、入力信号またはそれらのマスクに対する投票または平均化手順を用いることができる。組み合わせがトレーニングデータから学習されるスタッキングベースのアンサンブル学習方法も用いることができる。スタッキングの文脈において、アンサンブル学習方法の入力特徴において推定される各マスキング値の近傍において、時間コンテキストおよび周波数コンテキストを含めることも検討することができる。組み合わされたマスクが生成された後、マスクは、雑音の多い信号スペクトルに適用され、ターゲット信号141が生成される。
投票
投票または平均化は、出力の組み合わせを平均化するアンサンブル組み合わせ戦略である。分類221の場合、出力は、通常、クラスにわたる分散のモードである。回帰方法222を用いると、出力は、出力値の平均または何らかの他の算術平均である。各モデルにおける不確実性も考慮することができる。
投票において、時間−周波数要素(n,f)における重み付きマスク値またはバイナリマスク値を用いて、同じ時間−周波数要素におけるターゲットマスク
Figure 0006153142
を推定する。
Figure 0006153142
を推定するための入力特徴ベクトルは、通常、重み付きマスクの場合、
Figure 0006153142
であり、バイナリマスクの場合、
Figure 0006153142
である。
重み付きマスクが投票方法への入力として用いられる場合、例えば、マスキング値の平均を重み付きマスクの推定値として用いることができる。
Figure 0006153142
これは、元のパワースペクトログラム推定値を平均化することに対応する。同様にして、中央値を用いることもできる。
バイナリマスクが投票方法への入力として用いられる場合、投票は、例えば、マスキング値分布のモードを考慮することができる。
Figure 0006153142
学習されたパラメーターがないため、投票方法は、トレーニングデータに過剰適合し得ない。マスキング値が相関していない誤りを生じている限り、投票および平均化手順は、これらの誤りから復元する傾向にある。換言すれば、分類器間の分散は、投票手順によって低減することができる。
スタッキング
スタッキングは、データに関し、トレーニングされた方法への入力として、同じタスクのための複数の推定方法が用いられ、結果が組み合わされるアンサンブル学習技法である。スタッキングは、アンサンブルの出力が相関するときであっても、バイアスを低減することができる。しかしながら、学習は、トレーニングデータに過剰適合する可能性がある。バイナリマスクによって、単純なバイナリ分類器を用いてターゲット信号の推定値を生成することが可能になる。また、様々な形態の回帰を用いて重み付きマスク推定値を生成することもできる。主に、分類ベースの手法に焦点を当てる。決定木(DT)、サポートベクターマシン(SVM)、単純ベイズ(NB)およびランダムフォレスト(RF)に基づく分類器等の、複数の分類器を用いることができる。
周波数fごとに1つの分類器
Figure 0006153142
をパラメーターΘとともに用いる。入力ベクトルin,fの各時間フレームnにおいて、分類器は、マスク推定値
Figure 0006153142
を生成する。トレーニングデータTに対するターゲットマスク
Figure 0006153142
に関する損失関数Lを最小化するパラメーターΘを学習する。
Figure 0006153142
動作中、学習パラメーター
Figure 0006153142
を用いてマスクを推定する。
Figure 0006153142
損失関数Lは、分類器タイプに従って求められる。
スタッキングに関して、時間コンテキスト情報または周波数コンテキスト情報を、特徴に含めることができる。特徴を、時間方向において、c(n)フレームだけ左右に拡張することができ、周波数方向において、c(f)周波数だけ上下に拡張することができる。
Figure 0006153142
を推定するための入力特徴ベクトルは、手順ごとに時間−周波数要素(n,f)の近傍における(2c(n)+1)×(2c(f)+1)個の要素を用いた時間−周波数パッチの連結である。双方の方向における境界事例が適切に扱われる。

Claims (15)

  1. 音響信号を処理する方法であって、該音響信号は、ターゲット信号と干渉信号との混合であり、該方法は、
    1組の強調手順によって前記音響信号を強調して、1組の初期強調信号を生成するステップと、
    前記音響信号および前記1組の初期強調信号にアンサンブル学習手順を適用して、前記1組の初期強調信号の組み合わせを用いて前記ターゲット信号の特徴を求めるステップであって、前記音響信号を用いて前記1組の初期強調信号のそれぞれに対応してマスク生成が適用されて1組の初期特徴が生成され、前記1組の初期特徴を組み合わせることで前記ターゲット信号の特徴を求めるステップと、
    を含み、前記ステップは、プロセッサにおいて実行される、音響信号を処理する方法。
  2. 前記特徴を用いて、前記音響信号から前記ターゲット信号を合成するステップ
    をさらに含む、請求項1に記載の方法。
  3. 前記1組の強調手順は、ベクトルテイラー級数(VTS)、間接VTS、改良型最小制御再帰平均化を用いた最適修正された最小平均二乗誤差対数スペクトル振幅、最小平均二乗誤差(MMSE)、対数MMSE手順、およびそれらの組み合わせからなる群から選択される、請求項1に記載の方法。
  4. 前記特徴は、連続マスクであり、前記アンサンブル学習手順は、回帰方法である、請求項1に記載の方法。
  5. 前記特徴は、バイナリマスクであり、前記アンサンブル学習手順は、分類方法である、請求項1に記載の方法。
  6. 前記ターゲット信号は、音声であり、前記方法は、
    自動音声認識を前記ターゲット信号に適用するステップ
    をさらに含む、請求項1に記載の方法。
  7. 前記アンサンブル学習手順のパラメーターは、トレーニングデータから学習される、請求項1に記載の方法。
  8. 前記特徴は、前記音響信号の雑音の多いスペクトルを前記ターゲット信号のクリーンなスペクトルに変換するターゲットマスクを含む、請求項1に記載の方法。
  9. 前記特徴は、時間−周波数表現におけるマスクであり、前記音響信号の時間−周波数表現が利用可能であり、
    前記時間−周波数表現において前記マスクを前記音響信号に適用するステップ
    をさらに備える請求項1に記載の方法。
  10. 前記音響信号の前記時間−周波数表現は、離散時間−周波数要素を含み、前記マスクは、重みを含み、前記方法は、
    前記重みを前記時間−周波数要素に適用するステップ
    をさらに含む、請求項9に記載の方法。
  11. 前記時間−周波数表現は、コクレオグラム、短時間フーリエ変換およびウェーブレットからなる群から選択される、請求項10に記載の方法。
  12. 前記特徴は、前記ターゲット信号と前記音響信号との間のエネルギー比を表す連続値を有する重み付きマスクである、請求項1に記載の方法。
  13. 前記アンサンブル学習手順は、時間−周波数表現における前記初期強調信号を解析する、請求項1に記載の方法。
  14. 前記アンサンブル学習手順は、前記初期強調信号の前記時間−周波数表現をマスクに変換する、請求項13に記載の方法。
  15. 前記アンサンブル学習手順は、投票、平均化またはスタッキングを用いる、請求項1に記載の方法。
JP2015555307A 2013-07-18 2014-07-04 音響信号を処理する方法 Active JP6153142B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/945,469 US9601130B2 (en) 2013-07-18 2013-07-18 Method for processing speech signals using an ensemble of speech enhancement procedures
US13/945,469 2013-07-18
PCT/JP2014/068522 WO2015008699A1 (en) 2013-07-18 2014-07-04 Method for processing acoustic signal

Publications (2)

Publication Number Publication Date
JP2016517023A JP2016517023A (ja) 2016-06-09
JP6153142B2 true JP6153142B2 (ja) 2017-06-28

Family

ID=51224985

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015555307A Active JP6153142B2 (ja) 2013-07-18 2014-07-04 音響信号を処理する方法

Country Status (5)

Country Link
US (1) US9601130B2 (ja)
JP (1) JP6153142B2 (ja)
CN (1) CN105393305B (ja)
DE (1) DE112014003305B4 (ja)
WO (1) WO2015008699A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9601130B2 (en) * 2013-07-18 2017-03-21 Mitsubishi Electric Research Laboratories, Inc. Method for processing speech signals using an ensemble of speech enhancement procedures
CN105989851B (zh) * 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
US10276179B2 (en) 2017-03-06 2019-04-30 Microsoft Technology Licensing, Llc Speech enhancement with low-order non-negative matrix factorization
US10528147B2 (en) 2017-03-06 2020-01-07 Microsoft Technology Licensing, Llc Ultrasonic based gesture recognition
CN106895890B (zh) * 2017-04-25 2019-04-16 浙江大学 一种多声道超声波气体流量计声道权系数计算方法
US10984315B2 (en) 2017-04-28 2021-04-20 Microsoft Technology Licensing, Llc Learning-based noise reduction in data produced by a network of sensors, such as one incorporated into loose-fitting clothing worn by a person
DE102017209262A1 (de) 2017-06-01 2018-12-06 Audi Ag Verfahren und Vorrichtung zur automatischen Gestenerkennung
CN108091345B (zh) * 2017-12-27 2020-11-20 东南大学 一种基于支持向量机的双耳语音分离方法
US11741398B2 (en) 2018-08-03 2023-08-29 Samsung Electronics Co., Ltd. Multi-layered machine learning system to support ensemble learning
JP7407580B2 (ja) * 2018-12-06 2024-01-04 シナプティクス インコーポレイテッド システム、及び、方法
KR102137151B1 (ko) * 2018-12-27 2020-07-24 엘지전자 주식회사 노이즈 캔슬링 장치 및 그 방법
CN113646837A (zh) * 2019-03-27 2021-11-12 索尼集团公司 信号处理装置、方法和程序
JP7452990B2 (ja) * 2019-11-29 2024-03-19 東京エレクトロン株式会社 異常検知装置、異常検知方法及び異常検知プログラム
JP7412150B2 (ja) * 2019-11-29 2024-01-12 東京エレクトロン株式会社 予測装置、予測方法及び予測プログラム
US11064294B1 (en) 2020-01-10 2021-07-13 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
US10942204B1 (en) * 2020-10-27 2021-03-09 North China Electric Power University Taylor weighted least squares method for estimating synchrophasor
CN113903352A (zh) * 2021-09-28 2022-01-07 阿里云计算有限公司 一种单通道语音增强方法及装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0683388A (ja) * 1992-09-04 1994-03-25 Fujitsu Ten Ltd 音声認識装置
JP3375819B2 (ja) * 1996-04-16 2003-02-10 株式会社日立製作所 認識方式複合化方法及びその方法を行う装置
JP2000148185A (ja) 1998-11-13 2000-05-26 Matsushita Electric Ind Co Ltd 認識装置及び認識方法
JP2001318694A (ja) * 2000-05-10 2001-11-16 Toshiba Corp 信号処理装置、信号処理方法および記録媒体
JP2003323196A (ja) * 2002-05-08 2003-11-14 Nec Corp 音声認識システム、音声認識方法および音声認識用プログラム
CN1162838C (zh) * 2002-07-12 2004-08-18 清华大学 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
US7383179B2 (en) * 2004-09-28 2008-06-03 Clarity Technologies, Inc. Method of cascading noise reduction algorithms to avoid speech distortion
KR101456866B1 (ko) * 2007-10-12 2014-11-03 삼성전자주식회사 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
JP5300861B2 (ja) * 2008-11-04 2013-09-25 三菱電機株式会社 雑音抑圧装置
US8566088B2 (en) * 2008-11-12 2013-10-22 Scti Holdings, Inc. System and method for automatic speech to text conversion
JP5641186B2 (ja) * 2010-01-13 2014-12-17 ヤマハ株式会社 雑音抑圧装置およびプログラム
KR101670313B1 (ko) * 2010-01-28 2016-10-28 삼성전자주식회사 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
EP2494545A4 (en) 2010-12-24 2012-11-21 Huawei Tech Co Ltd METHOD AND DEVICE FOR DETECTING LANGUAGE ACTIVITIES
US9966067B2 (en) * 2012-06-08 2018-05-08 Apple Inc. Audio noise estimation and audio noise reduction using multiple microphones
US9601130B2 (en) * 2013-07-18 2017-03-21 Mitsubishi Electric Research Laboratories, Inc. Method for processing speech signals using an ensemble of speech enhancement procedures

Also Published As

Publication number Publication date
CN105393305A (zh) 2016-03-09
US9601130B2 (en) 2017-03-21
US20150025880A1 (en) 2015-01-22
DE112014003305B4 (de) 2020-08-20
CN105393305B (zh) 2019-04-23
JP2016517023A (ja) 2016-06-09
DE112014003305T5 (de) 2016-05-12
WO2015008699A1 (en) 2015-01-22

Similar Documents

Publication Publication Date Title
JP6153142B2 (ja) 音響信号を処理する方法
CN100543842C (zh) 基于多统计模型和最小均方误差实现背景噪声抑制的方法
JP5186510B2 (ja) スピーチ明瞭度強化方法と装置
Shivakumar et al. Perception optimized deep denoising autoencoders for speech enhancement.
Kim et al. End-to-end multi-task denoising for joint SDR and PESQ optimization
Le Roux et al. Ensemble learning for speech enhancement
Martín-Doñas et al. Dual-channel DNN-based speech enhancement for smartphones
Tu et al. DNN training based on classic gain function for single-channel speech enhancement and recognition
US10297272B2 (en) Signal processor
Li et al. Single channel speech enhancement using temporal convolutional recurrent neural networks
Lemercier et al. Diffusion posterior sampling for informed single-channel dereverberation
Krishnamoorthy et al. Temporal and spectral processing methods for processing of degraded speech: a review
Xie et al. Speech enhancement using group complementary joint sparse representations in modulation domain
TWI749547B (zh) 應用深度學習的語音增強系統
JP7152112B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
Sanam et al. Teager energy operation on wavelet packet coefficients for enhancing noisy speech using a hard thresholding function
Rana et al. A study on speech enhancement using deep temporal convolutional neural network
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
Ravi Performance analysis of adaptive wavelet denosing by speech discrimination and thresholding
Salvati et al. Improvement of acoustic localization using a short time spectral attenuation with a novel suppression rule
CN115985337B (zh) 一种基于单麦克风的瞬态噪声检测与抑制的方法及装置
Jan et al. Joint blind dereverberation and separation of speech mixtures
Ayllón et al. A computationally-efficient single-channel speech enhancement algorithm for monaural hearing aids
Chang et al. Plug-and-Play MVDR Beamforming for Speech Separation
JP2023547369A (ja) 処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、およびニューラルネットワークパラメータを提供するための方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170523

R150 Certificate of patent or registration of utility model

Ref document number: 6153142

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250