JP2017520803A - ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 - Google Patents

ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 Download PDF

Info

Publication number
JP2017520803A
JP2017520803A JP2017515359A JP2017515359A JP2017520803A JP 2017520803 A JP2017520803 A JP 2017520803A JP 2017515359 A JP2017515359 A JP 2017515359A JP 2017515359 A JP2017515359 A JP 2017515359A JP 2017520803 A JP2017520803 A JP 2017520803A
Authority
JP
Japan
Prior art keywords
audio signal
speech
signal
noisy
phase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017515359A
Other languages
English (en)
Other versions
JP6415705B2 (ja
Inventor
エルドガン、ハカン
ハーシェイ、ジョン
渡部 晋治
晋治 渡部
ル・ルー、ジョナサン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2017520803A publication Critical patent/JP2017520803A/ja
Application granted granted Critical
Publication of JP6415705B2 publication Critical patent/JP6415705B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Machine Translation (AREA)
  • Complex Calculations (AREA)

Abstract

方法は、まず、環境からノイズを有するオーディオ信号を取得することによって、ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する。ノイズを有するオーディオ信号は、ネットワークパラメーターを有するエンハンスメントネットワークによって処理され、大きさマスク及び位相推定値が共同で生成される。次に、大きさマスク及び位相推定値を用いて、エンハンスドオーディオ信号を得る。

Description

本発明は、オーディオ信号を処理することに関し、より詳細には、信号の位相を用いてノイズを有するオーディオ音声信号を強調する(enhancing)ことに関する。
音声強調(speech enhancement(音声エンハンスメント))において、目標は、或る意味において、基礎をなす真の「クリーンな音声」又は「ターゲット音声」により近い、ノイズを有する音声の処理されたバージョンである「エンハンスド音声(enhanced speech(強調された音声))」を得ることである。
クリーンな音声は、トレーニング中にのみ利用可能であり、システムの現実世界での使用中は利用可能でないことが想定されていることに留意されたい。トレーニングの場合、クリーンな音声は接話マイクロフォンを用いて得ることができるのに対し、ノイズを有する音声は、同時に記録される遠距離場用マイクロフォンを用いて得ることができる。又は、クリーンな音声信号及びノイズ信号を別個に与えられる場合、これらの信号を共に合算して、ノイズを有する音声信号を得ることができ、この場合、クリーンな音声信号及びノイズを有する音声信号の対を共にトレーニングに用いることができる。
音声強調及び音声認識は、互いに異なるものの、関連する問題とみなすことができる。良好な音声強調システムは、音声認識システムに対する入力モジュールとして確かに用いることができる。逆に、音声認識により、更なる情報が組み込まれるので、音声認識が音声強調を改善するために用いられる場合がある。一方、強調タスク及び認識タスクの双方のために、マルチタスクリカレントニューラルネットワークシステムをどのように共同で構築するかは明らかでない。
本明細書において、音声強調を、「ノイズを有する音声」から「エンハンスド音声」を得る問題と呼ぶ。他方で、音声分離という用語は、「ターゲット音声」を背景信号から分離することを指す。ここで、背景信号は、任意の他の非音声オーディオ信号、又は更には、関心対象でない他の非ターゲット音声信号とすることができる。本発明では、全ての背景信号の組合せをノイズとみなすので、音声強調という用語の使用は、音声分離をも含有する。
音声分離及び音声強調の用途において、処理は通常、短時間フーリエ変換(STFT:short-time Fourier transform)領域において行われる。STFTは、信号の複素領域スペクトル−時間(又は時間−周波数)表現を得る。観測されるノイズを有する信号のSTFTは、ターゲット音声信号のSTFTと、ノイズ信号のSTFTとの和として書くことができる。信号のSTFTは複素数であり、和は複素領域内にある。一方、従来の方法では、位相は無視され、観測される信号のSTFTの大きさが、ターゲット音声信号及びノイズ信号のSTFTの大きさの和に等しいと仮定されるが、これは粗い仮定である。このため、従来技術における焦点は、ノイズを有する音声信号を入力として与えられて、「ターゲット音声」の大きさを予測することであった。ノイズを有する信号の位相は、そのSTFTから時間領域がエンハンスド信号を再構成する間、エンハンスド音声のSTFTの推定位相として用いられる。これは通例、エンハンスド音声の位相の最小平均二乗誤差(MMSE:minimum mean square error)推定値がノイズを有する信号の位相であることを示すことによって正しいと判断される。
本発明の実施形態は、ノイズを有する音声信号をエンハンスド音声信号に変換する方法を提供する。
ノイズを有する音声は、自動音声認識(ASR:automatic speech recognition)システムによって処理され、ASR特徴が生成される。ASR特徴は、ノイズを有する音声スペクトル特徴と組み合わされ、トレーニングプロセス中に学習されたネットワークパラメーターを用いて深層リカレントニューラルネットワーク(DRNN:Deep Recurrent Neural Network)に渡され、マスクが生成される。このマスクは、ノイズを有する音声に適用され、エンハンスド音声が生成される。
音声は、短時間フーリエ変換(STFT)領域において処理される。ノイズを有する音声からエンハンスド音声のSTFTの大きさを計算するための様々な方法が存在するが、本発明では、深層リカレントニューラルネットワーク(DRNN)に基づく手法に焦点を当てる。これらの手法は、ノイズを有する音声信号のSTFTから得られた特徴を入力として用いて、出力において、エンハンスド音声信号のSTFTの大きさを得る。これらのノイズを有する音声信号特徴は、スペクトルの大きさ、スペクトルのパワー又はそれらの対数、ノイズを有する信号のSTFTから得られた対数メルフィルタバンク(log-mel-filterbank)特徴とすることができるか、又は他の同様なスペクトル時間特徴を用いることができる。
本発明によるリカレントニューラルネットワークベースのシステムでは、リカレントニューラルネットワークは、ノイズを有する音声信号のSTFTを直接乗算してエンハンスド信号のSTFTを得る、「マスク」又は「フィルタ」を予測する。「マスク」は、時間−周波数ビンごとにゼロと1との間の値を有し、理想的には、音声成分とノイズ成分との大きさの和によって除算された音声の大きさの比である。この「理想的なマスク」は、システムの実際の使用中は未知であるが、トレーニング中に利用可能である、理想的な比のマスク(ideal ratio mask)と呼ばれる。実数値のマスク(real-valued mask)は、ノイズを有する信号のSTFTを乗算するので、エンハンスド音声は、結果として、デフォルトでノイズを有する信号のSTFTの位相を用いることになる。当該マスクをノイズを有する信号のSTFTの大きさ部分に適用するとき、当該マスクがノイズを有する入力の大きさ部分にのみ適用されることを示すために、このマスクを「大きさマスク」と呼ぶ。
ニューラルネットワークトレーニングは、「ネットワークパラメーター」を用いてネットワークによって得られる、クリーンな音声ターゲットとエンハンスド音声との間の差を量子化する目的関数を最小にすることによって実行される。トレーニング手順は、ニューラルネットワークの出力をクリーンな音声ターゲットに最も近付けるネットワークパラメーターを決定することを目的とする。ネットワークトレーニングは、通常、通時的後方伝搬(BPTT:backpropagation through time)アルゴリズムを用いて行われる。BPTTアルゴリズムは、各反復において、ネットワークのパラメーターに関する目的関数の勾配の計算を必要とする。
本発明では、深層リカレントニューラルネットワーク(DRNN)を用いて音声強調を行う。DRNNは、低レイテンシ(low latency)(オンライン)用途の場合は、長期短期記憶(LSTM:long short-term memory)ネットワークとすることができるか、又はレイテンシが問題とならない場合、双方向長期短期記憶(BLSTM:bidirectional long short-term memory)ネットワークDRNNとすることができる。深層リカレントニューラルネットワークは、ゲートRNN又はクロックワークRNN(clockwork RNN)等の他の最新のRNNタイプとすることもできる。
別の実施形態では、オーディオ信号の大きさ及び位相は、推定プロセス中に検討される。位相を意識した処理は、幾つかの異なる態様、すなわち、
いわゆる位相敏感信号近似(PSA:phase-sensitive signal approximation)技法において、ターゲットとなる大きさのみを予測しながら、目的関数において位相情報を用いることと、
大きさ及び位相の双方のより良好な予測を可能にする適切な目的関数を利用して、深層リカレントニューラルネットワークを用いて、エンハンスド信号の大きさ及び位相の双方を予測することと、
入力の位相を、大きさ及び位相を予測するシステムへの追加の入力として用いることと、
深層リカレントニューラルネットワークにおいて、マイクロフォンアレイ等のマルチチャネルオーディオ信号の全ての大きさ及び位相を用いることと、
を含む。
この着想は、他のタイプのオーディオ信号の強調(エンハンスメント)に適用されることに留意されたい。例えば、オーディオ信号は、認識のタスクが音楽トランスクリプション(music transcription)である、音楽信号、又は認識のタスクが動物の声を様々なカテゴリに分類することであり得る、動物の声、及び認識のタスクが或る特定の音を出す事象及び/又は物を検出し区別することであり得る、環境音を含むことができる。
ノイズを有する音声信号を、ASR特徴を用いてエンハンスド音声信号に変換する方法の流れ図である。 図1の方法のトレーニングプロセスの流れ図である。 共同の音声認識及び音声強調の方法の流れ図である。 位相情報を予測し、大きさマスクを用いることによって、ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法の流れ図である。 図4の方法のトレーニングプロセスの流れ図である。
図1は、ノイズを有する音声信号(noisy speech signal)112をエンハンスド音声信号(enhanced speech signal)190に変換する方法を示す。すなわち、変換によりノイズを有する音声を強調(enhance(エンハンス))する。本明細書に記載される全ての音声及びオーディオ信号は、環境102から単一の又は複数のマイクロフォン101によって取得される単一チャネル又はマルチチャネルとすることができ、例えば、環境は、1又は複数の人物、動物、楽器等の複数のソースからのオーディオ入力を有し得る。本発明の課題の場合、ソースのうちの1つは、「ターゲットオーディオ」(多くの場合、「ターゲット音声」)であり、オーディオの他のソースは背景とみなされる。
オーディオ信号が音声である場合、ノイズを有する音声は、自動音声認識(ASR:automatic speech recognition)システム170によって処理され、例えば、「アライメント情報ベクトル」の形態でASR特徴180が生成される。ASRは従来型とすることができる。ノイズを有する音声のSTFT特徴と組み合わされたASR特徴は、ネットワークパラメーター140を用いて深層リカレントニューラルネットワーク(DRNN:Deep Recurrent Neural Network)150によって処理される。パラメーターは、以下に説明するトレーニングプロセスを用いて学習することができる。
DRNNはマスク160を生成する。次に、音声推定165中、マスクがノイズを有する音声に適用され、エンハンスド音声190が生成される。以下で説明されるように、強調ステップ及び認識ステップを反復することが可能である。すなわち、エンハンスド音声が得られた後、エンハンスド音声を用いて、より良好なASR結果を得ることができ、そして、そのASR結果を、以下の反復中に新たな入力として用いることができる。反復は、終了条件に達するまで、例えば、予め設定された反復回数に達するまで、又は、現在のエンハンスド音声と以前の反復から得られたエンハンスド音声との間の差が予め設定された閾値未満になるまで、継続することができる。
本方法は、当該技術分野において既知のようにバスによってメモリ及び入出力インターフェースに接続されたプロセッサ100において実行することができる。
図2は、トレーニングプロセスの要素を示す。ここで、ノイズを有する音声及び対応するクリーンな音声111がデータベース110に記憶される。目的関数(「コスト関数」又は「誤差関数」と呼ばれる場合がある)が決定される(120)。目的関数は、エンハンスド音声とクリーンな音声との間の差を量子化する。トレーニング中に目的関数を最小にすることによって、ネットワークは、クリーンな信号に類似するエンハンスド信号を生成することを学習する。目的関数は、DRNNトレーニング130を実行してネットワークパラメーター140を決定するのに用いられる。
図3は、共同認識(joint recognition)及び強調(enhancement)を実行する方法の要素を示す。ここで、共同目的関数320は、クリーンな音声信号111及びエンハンスド音声信号190及び基準テキスト113、すなわち認識された音声と、生成された認識結果355との間の差を測定する。この場合、共同認識及びエンハンスメントネットワーク(enhancement network)350は、認識結果355も生成し、この認識結果355は、共同目的関数を決定する(320)のにも用いられる。認識結果は、ASR状態、音素又は単語シーケンス等の形態をとることができる。
共同目的関数は、強調及び認識タスクの目的関数の重み付けされた和である。強調タスクの場合、目的関数は、マスク近似(MA:mask approximation)、大きさスペクトル近似(MSA:magnitude spectrum approximation)又は位相敏感スペクトル近似(PSA:phase-sensitive spectrum approximation)とすることができる。認識タスクの場合、目的関数は、単に、状態若しくは音素をターゲットクラスとして用いる交差エントロピーコスト関数とすることができるか、又は場合によっては、仮説ラティス(hypothesis lattice)を用いて計算される最小音素誤り(MPE:minimum phone error)、ブーストされた最大相互情報(BMMI:boosted maximum mutual information)等の一連の弁別的目的関数とすることができる。
代替的に、認識結果355及びエンハンスド音声190は、破線で示されるように、共同認識及びエンハンスメントモジュール350への追加の入力としてフィードバックすることができる。
図4は、エンハンスドオーディオ信号の推定位相455及び大きさマスク460を出力するエンハンスメントネットワーク(DRNN)450を用いる方法を示す。この方法は、その大きさ及び位相の双方から導出されたノイズを有するオーディオ信号412の特徴を入力としてとり、予測位相455及び大きさマスク460を用いてエンハンスドオーディオ信号490を得る(465)。ノイズを有するオーディオ信号は、環境402から1つ又は複数のマイクロフォン401によって取得される。次に、エンハンスドオーディオ信号490が、位相及び大きさマスクから得られる(465)。
図5は、相当するトレーニングプロセスを示す。この場合、エンハンスメントネットワーク450は、位相敏感目的関数を用いる。全てのオーディオ信号は、信号の大きさ及び位相を用いて処理され、目的関数420も位相敏感であり、すなわち、目的関数は複素領域差を用いる。位相予測及び位相敏感目的関数は、エンハンスドオーディオ信号490における信号対雑音比(SNR)を改善する。
詳細
モデルベースの音声分離システムに言語モデルが統合された。フィードフォワードニューラルネットワークは、確率モデルと対照的に、入力から出力への1つの方向においてのみ情報フロー(information flow)をサポートする。
本発明は、一部には、音声エンハンスメントネットワークが、認識された状態シーケンスから利益を得ることができ、認識システムが音声強調システムの出力から利益を得ることができるという認識に基づく。完全に統合されたシステムがない場合、双方のタスクにおける利益を得るために、強調と認識とを交互に行うシステムを構想することができる。
したがって、第1のパスの間、ノイズを有する音声に対しトレーニングされるノイズにロバストな認識器(noise-robust recognizer)を用いる。認識される状態シーケンスは、ノイズを有する音声特徴と組み合わされ、エンハンスド音声を再構成するようにトレーニングされたリカレントニューラルネットワークへの入力として用いられる。
最新の音声認識システムは、複数のレベルにおける言語情報を利用する。言語モデルは、単語シーケンスの確率を見つける。単語は、手作業で作成された又は学習された語彙ルックアップテーブルを用いて音素シーケンス(phoneme sequence)にマッピングされる。音素は、左から右に遷移する3状態隠れマルコフモデル(HMM:hidden Markov model)としてモデル化される。ここで、各状態分布は、通常、コンテキストに依拠し、基本的には、左から右に遷移する音素のコンテキストウィンドウ内にどの音素が存在するかに依拠する。
HMM状態は、異なる音素及びコンテキストにわたって連結することができる。これは、コンテキストに依拠するツリーを用いて達成することができる。フレームレベルで認識出力情報を組み込むことは、対象のフレームへの様々なレベルの言語単位のアライメントを用いて行うことができる。
したがって、本発明では、音声認識問題と、音声強調問題とを統合する。1つのアーキテクチャは、強調される入力のフレームごとに音声認識器から受信されるフレームレベルのアラインされた状態シーケンス又はフレームレベルのアラインされた音素シーケンスの情報を用いる。アライメント情報は、単語レベルのアライメントとすることもできる。
アライメント情報は、LSTMネットワークの入力に加えられる追加の特徴として提供される。アライメント情報の様々なタイプの特徴を用いることができる。例えば、フレームレベル状態又は音素を示すのに1ホット表現(1-hot representation)を用いることができる。コンテキストに依拠した状態について終了すると、これによって、より大きなベクトルが得られ、これは学習に課題を課す可能性がある。状態又は音素ごとに、トレーニングデータから計算されたスペクトル特徴を平均化することによって導出される連続特徴を用いることもできる。これによって、より短い入力表現が得られ、各状態の或る種の類似性が保持されたコーディングがもたらされる。情報がノイズを有するスペクトル入力と同じ領域内にある場合、この情報は、ネットワークが音声強調マスクを見つける際に用いるのがより容易になり得る。
本発明の別の態様は、次の段階における入力として、2つのシステムからのフィードバックを有することである。このフィードバックは、性能を更に改善するための「反復形式(iterative fashion)」で実行することができる。
マルチタスク学習において、目標は、異なる目的について同時に、「良好な」特徴を一斉に学習する構造を構築することである。目標は、目的を学習することによって別個のタスクに対する性能を改善することである。
大きさ予測のための位相敏感目的関数
BLSTM−DRNN450によって用いられる目的関数に対する改善を説明する。通常、従来技術において、ネットワークは、ノイズを有するオーディオスペクトルに適用されるフィルタ又は周波数領域マスクを推定し、クリーンな音声スペクトルの推定値を生成する。目的関数は、オーディオ推定値とクリーンなオーディオターゲットとの間の振幅スペクトル領域における誤差を求める。再構成されたオーディオ推定は、ノイズを有するオーディオ信号の位相を保持する。
しかしながら、ノイズを有する位相が用いられるとき、位相誤差は振幅とインタラクトし、SNRの観点における最良の再構成が、クリーンなオーディオ振幅と異なる振幅で得られる。ここで、複素スペクトルにおける誤差に基づいて、振幅及び位相誤差の双方を含む位相敏感目的関数を直接用いることを検討する。これにより、推定振幅がノイズを有する位相の使用を補償することが可能になる。
時間周波数マスクを用いた分離
時間周波数フィルタリング方法は、ノイズを有するオーディオの周波数領域特徴表現を乗算するフィルタ又はマスキング機能を推定して、クリーンなオーディオ信号の推定値を形成する。本発明では、時間領域信号のウィンドウ付きフレームの離散フーリエ変換により得られたノイズを有するオーディオの複素短時間スペクトルyf,t、ノイズnf,t及びオーディオsf,tを定義する。以後、f、tによるインデックス付けを省いて、単一の時間周波数ビンについて検討する。
推定マスキング関数を
Figure 2017520803
と仮定すると、クリーンなオーディオは、
Figure 2017520803
として推定される。トレーニング中、クリーンなオーディオ信号及びノイズを有するオーディオ信号が提供され、マスキング関数のための推定量
Figure 2017520803
が歪み尺度
Figure 2017520803
によってトレーニングされる。ここで、θは位相を表す。
様々な目的関数、例えば、マスク近似(MA:mask approximation)及び信号近似(SA:signal approximation)を用いることができる。MA目的関数は、y及びsを用いてターゲットマスクを計算し、次に、推定マスクとターゲットマスクとの間の誤差を以下のように測定する。
Figure 2017520803
SA目的関数は、フィルタリングされた信号と、ターゲットのクリーンなオーディオとの間の誤差を以下のように測定する。
Figure 2017520803
様々な「理想的な(ideal)」マスクがMA手法においてaのために用いられている。最も一般的なのは、いわゆる「理想バイナリマスク」(IBM:ideal binary mask)及び「理想比マスク」(IRM:ideal ratio mask)である。
オーディオ推定値
Figure 2017520803
を計算するための様々なマスキング関数a、aに関するそれらの公式、及び、最適性の条件は、以下の通りである。IBMにおいて、式xが真である場合、δ(x)は1であり、そうでない場合、0である。
Figure 2017520803
ソース分離及び強調のための位相予測
ここで、オーディオソース分離及びオーディオソース強調の用途において位相を大きさと共に予測する方法を説明する。このセットアップは、ニューラルネットワークWを、ターゲット信号の大きさ及び位相の予測を行うために用いることを含む。(1組の)混合した(又はノイズを有する)信号y(τ)を仮定する。信号y(τ)は、異なるソースからのターゲット信号(又はソース)s(τ)及び他の背景信号の和である。本発明では、y(τ)からs(τ)を復元する。yt,f及び
Figure 2017520803
がそれぞれ、y(τ)及びs(τ)の短時間フーリエ変換を表すものとする。
単純な手法(Naive Approach)
単純な手法において、
Figure 2017520803
であり、ここで、
Figure 2017520803
はトレーニング中に既知であるクリーンなオーディオ信号であり、
Figure 2017520803
は、ノイズを有する信号の大きさ及び位相y=[yt,ft,f∈Bからのネットワークの予測値であり、すなわち、
Figure 2017520803
である。ここで、Wはネットワークの重みであり、Bは全ての時間−周波数インデックスの組である。ネットワークは、
Figure 2017520803
を、極表記において、
Figure 2017520803
として表すことができるか、又は複素表記において、
Figure 2017520803
として表すことができる。ここで、Reは実数部であり、Imは虚数部である。
複素フィルタ手法(Complex Filter Approach)
多くの場合、ノイズを有するオーディオ信号を適用するフィルタを推定した方がよい可能性がある。なぜなら、信号がクリーンである場合、フィルタは1(unity)になることができ、それによって、入力信号が出力信号の推定値
Figure 2017520803
となるためである。ここで、at,fは、クリーンな信号及びノイズを有する信号の振幅間の比を表すネットワークによって推定される実数である。本発明では、
Figure 2017520803
を含める。ここで、φt,fは、クリーンな信号及びノイズを有する信号の位相間の差の推定値である。これを、複素フィルタ
Figure 2017520803
として書くこともできる。入力が概ねクリーンであるとき、at,fは1(unity)に近く、φt,fはゼロに近く、それによって、複素フィルタht,fは1(unity)に近い。
結合手法
複素フィルタ手法は、信号がクリーンに近いときに最も良好に機能するが、信号のノイズが多いとき、システムは、ノイズを有する信号とクリーンな信号との間の差を推定しなくてはならない。この場合、クリーンな信号を直接推定した方がよい場合がある。これに動機付けられて、本発明では、ソフトゲートαt,fによって、ネットワークにどの方法を用いるか決定させることができる。ソフトゲートαt,fは、ネットワークの別の出力であり、ゼロと1との間の値をとり、時間−周波数出力
Figure 2017520803
ごとに単純なフィルタ手法及び複素フィルタ手法の線形結合を選択するのに用いられる。ここで、ノイズを有する信号がクリーンな信号に概ね等しいとき、αt,fは、通常、1(unity)に設定され、rt,f、θt,fは、クリーンな信号の振幅及び位相のネットワークの最良の推定値を表す。この場合、ネットワークの出力は、
Figure 2017520803
である。ここで、Wはネットワークにおける重みである。
単純化された結合手法
結合手法は過度に多くのパラメーターを有する可能性があり、これは望ましくない場合がある。本発明では、結合手法を以下のように単純化することができる。αt,f=1であるとき、ネットワークは入力を出力に直接渡し、それによって、マスクを推定する必要がなくなる。このため、αt,f=1であるとき、マスクを1(unity)に設定し、マスクパラメーター
Figure 2017520803
を省く。ここでもまた、ノイズを有する信号がクリーンな信号に概ね等しいとき、αt,fは、通常、1(unity)に設定され、αt,fが1(unity)でないとき、以下を求める。
Figure 2017520803
これは、αt,ft,f
Figure 2017520803
との間の差のネットワークの最良の推定値を表す。この場合、ネットワークの出力は、
Figure 2017520803
である。ここで、Wは、ネットワークにおける重みである。結合手法及び単純化された結合手法の双方が、冗長な表現であり、同じ推定値が得られる複数組のパラメーターが存在し得ることに留意されたい。

Claims (5)

  1. ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法であって、
    環境から前記ノイズを有するオーディオ信号を取得するステップと、
    ネットワークパラメーターを有するエンハンスメントネットワークによって前記ノイズを有するオーディオ信号を処理して、大きさマスク及び位相推定値を共同で生成するステップと、
    前記大きさマスク及び前記位相推定値を用いて、前記エンハンスドオーディオ信号を得るステップと
    を含み、前記ステップはプロセッサが実行する、方法。
  2. 前記エンハンスメントネットワークは、双方向長期短期記憶(BLSTM)深層リカレントニューラルネットワーク(DRNN)である、請求項1に記載の方法。
  3. 前記エンハンスメントネットワークは、前記ノイズを有するオーディオ信号の振幅及び位相における誤差を含む複素スペクトルにおける誤差に基づく位相敏感目的関数を用いる、請求項1に記載の方法。
  4. 前記位相推定値は、前記エンハンスメントネットワークを通じて直接得られる、請求項1に記載の方法。
  5. 前記位相推定値は、複素値マスクを用いて前記ノイズを有するオーディオ信号の振幅と共同で得られる、請求項1に記載の方法。
JP2017515359A 2014-10-21 2015-10-08 ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 Active JP6415705B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462066451P 2014-10-21 2014-10-21
US62/066451 2014-10-21
US14/620,526 US9881631B2 (en) 2014-10-21 2015-02-12 Method for enhancing audio signal using phase information
US14/620526 2015-02-12
PCT/JP2015/079241 WO2016063794A1 (en) 2014-10-21 2015-10-08 Method for transforming a noisy audio signal to an enhanced audio signal

Publications (2)

Publication Number Publication Date
JP2017520803A true JP2017520803A (ja) 2017-07-27
JP6415705B2 JP6415705B2 (ja) 2018-10-31

Family

ID=55749541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017515359A Active JP6415705B2 (ja) 2014-10-21 2015-10-08 ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法

Country Status (5)

Country Link
US (2) US20160111107A1 (ja)
JP (1) JP6415705B2 (ja)
CN (1) CN107077860B (ja)
DE (1) DE112015004785B4 (ja)
WO (2) WO2016063794A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018146610A (ja) * 2017-03-01 2018-09-20 日本電信電話株式会社 マスク推定装置、マスク推定方法およびマスク推定プログラム
JP2019090930A (ja) * 2017-11-15 2019-06-13 日本電信電話株式会社 音源強調装置、音源強調学習装置、音源強調方法、プログラム
JP2019139102A (ja) * 2018-02-13 2019-08-22 日本電信電話株式会社 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム
JP2020060612A (ja) * 2018-10-05 2020-04-16 富士通株式会社 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置
JP2020095224A (ja) * 2018-12-14 2020-06-18 富士通株式会社 音声補正装置および音声補正方法
JP2021086154A (ja) * 2019-11-25 2021-06-03 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
JP2022528720A (ja) * 2019-04-11 2022-06-15 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. オーディオデコーダ、フィルタの特性を定義する値のセットを決定するための装置、復号されたオーディオ表現を提供するための方法、フィルタの特性を定義する値のセットを決定するための方法、およびコンピュータプログラム
JP2022529912A (ja) * 2019-04-16 2022-06-27 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 深層フィルタを決定するための方法および装置

Families Citing this family (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9620108B2 (en) 2013-12-10 2017-04-11 Google Inc. Processing acoustic sequences using long short-term memory (LSTM) neural networks that include recurrent projection layers
US9818431B2 (en) * 2015-12-21 2017-11-14 Microsoft Technoloogy Licensing, LLC Multi-speaker speech separation
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
WO2017130089A1 (en) * 2016-01-26 2017-08-03 Koninklijke Philips N.V. Systems and methods for neural clinical paraphrase generation
US9799327B1 (en) * 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks
JP6480644B1 (ja) 2016-03-23 2019-03-13 グーグル エルエルシー マルチチャネル音声認識のための適応的オーディオ強化
US10249305B2 (en) 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
US10255905B2 (en) * 2016-06-10 2019-04-09 Google Llc Predicting pronunciations with word stress
US10387769B2 (en) 2016-06-30 2019-08-20 Samsung Electronics Co., Ltd. Hybrid memory cell unit and recurrent neural network including hybrid memory cell units
KR20180003123A (ko) 2016-06-30 2018-01-09 삼성전자주식회사 메모리 셀 유닛 및 메모리 셀 유닛들을 포함하는 순환 신경망
US10810482B2 (en) 2016-08-30 2020-10-20 Samsung Electronics Co., Ltd System and method for residual long short term memories (LSTM) network
US10224058B2 (en) 2016-09-07 2019-03-05 Google Llc Enhanced multi-channel acoustic models
US9978392B2 (en) * 2016-09-09 2018-05-22 Tata Consultancy Services Limited Noisy signal identification from non-stationary audio signals
CN106682217A (zh) * 2016-12-31 2017-05-17 成都数联铭品科技有限公司 一种基于自动信息筛选学习的企业二级行业分类方法
KR20180080446A (ko) 2017-01-04 2018-07-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US10709390B2 (en) 2017-03-02 2020-07-14 Logos Care, Inc. Deep learning algorithms for heartbeats detection
US10460727B2 (en) * 2017-03-03 2019-10-29 Microsoft Technology Licensing, Llc Multi-talker speech recognizer
US10528147B2 (en) 2017-03-06 2020-01-07 Microsoft Technology Licensing, Llc Ultrasonic based gesture recognition
US10276179B2 (en) 2017-03-06 2019-04-30 Microsoft Technology Licensing, Llc Speech enhancement with low-order non-negative matrix factorization
US10984315B2 (en) 2017-04-28 2021-04-20 Microsoft Technology Licensing, Llc Learning-based noise reduction in data produced by a network of sensors, such as one incorporated into loose-fitting clothing worn by a person
EP3625791A4 (en) * 2017-05-18 2021-03-03 Telepathy Labs, Inc. TEXT-SPEECH SYSTEM AND PROCESS BASED ON ARTIFICIAL INTELLIGENCE
KR20200027475A (ko) 2017-05-24 2020-03-12 모듈레이트, 인크 음성 대 음성 변환을 위한 시스템 및 방법
US10381020B2 (en) * 2017-06-16 2019-08-13 Apple Inc. Speech model-based neural network-assisted signal enhancement
WO2019014890A1 (zh) * 2017-07-20 2019-01-24 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
CN109427340A (zh) * 2017-08-22 2019-03-05 杭州海康威视数字技术股份有限公司 一种语音增强方法、装置及电子设备
CN108109619B (zh) * 2017-11-15 2021-07-06 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
EP3714452B1 (en) * 2017-11-23 2023-02-15 Harman International Industries, Incorporated Method and system for speech enhancement
US10546593B2 (en) 2017-12-04 2020-01-28 Apple Inc. Deep learning driven multi-channel filtering for speech enhancement
KR102420567B1 (ko) * 2017-12-19 2022-07-13 삼성전자주식회사 음성 인식 장치 및 방법
CN107845389B (zh) * 2017-12-21 2020-07-17 北京工业大学 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
WO2019166296A1 (en) 2018-02-28 2019-09-06 Robert Bosch Gmbh System and method for audio event detection in surveillance systems
US10699697B2 (en) * 2018-03-29 2020-06-30 Tencent Technology (Shenzhen) Company Limited Knowledge transfer in permutation invariant training for single-channel multi-talker speech recognition
US10699698B2 (en) * 2018-03-29 2020-06-30 Tencent Technology (Shenzhen) Company Limited Adaptive permutation invariant training with auxiliary information for monaural multi-talker speech recognition
US10957337B2 (en) 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
WO2019198306A1 (ja) * 2018-04-12 2019-10-17 日本電信電話株式会社 推定装置、学習装置、推定方法、学習方法及びプログラム
US10573301B2 (en) * 2018-05-18 2020-02-25 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing
EP3807878B1 (en) * 2018-06-14 2023-12-13 Pindrop Security, Inc. Deep neural network based speech enhancement
US11252517B2 (en) 2018-07-17 2022-02-15 Marcos Antonio Cantu Assistive listening device and human-computer interface using short-time target cancellation for improved speech intelligibility
WO2020018568A1 (en) * 2018-07-17 2020-01-23 Cantu Marcos A Assistive listening device and human-computer interface using short-time target cancellation for improved speech intelligibility
CN109036375B (zh) * 2018-07-25 2023-03-24 腾讯科技(深圳)有限公司 语音合成方法、模型训练方法、装置和计算机设备
CN110767244B (zh) * 2018-07-25 2024-03-29 中国科学技术大学 语音增强方法
CN109273021B (zh) * 2018-08-09 2021-11-30 厦门亿联网络技术股份有限公司 一种基于rnn的实时会议降噪方法及装置
CN109215674A (zh) * 2018-08-10 2019-01-15 上海大学 实时语音增强方法
US10726856B2 (en) * 2018-08-16 2020-07-28 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for enhancing audio signals corrupted by noise
CN108899047B (zh) * 2018-08-20 2019-09-10 百度在线网络技术(北京)有限公司 音频信号的掩蔽阈值估计方法、装置及存储介质
WO2020041497A1 (en) * 2018-08-21 2020-02-27 2Hz, Inc. Speech enhancement and noise suppression systems and methods
WO2020039571A1 (ja) * 2018-08-24 2020-02-27 三菱電機株式会社 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム
JP7167554B2 (ja) * 2018-08-29 2022-11-09 富士通株式会社 音声認識装置、音声認識プログラムおよび音声認識方法
CN109841226B (zh) * 2018-08-31 2020-10-16 大象声科(深圳)科技有限公司 一种基于卷积递归神经网络的单通道实时降噪方法
FR3085784A1 (fr) 2018-09-07 2020-03-13 Urgotech Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel
CN109119093A (zh) * 2018-10-30 2019-01-01 Oppo广东移动通信有限公司 语音降噪方法、装置、存储介质及移动终端
CN109522445A (zh) * 2018-11-15 2019-03-26 辽宁工程技术大学 一种融合CNNs与相位算法的音频分类检索方法
CN109256144B (zh) * 2018-11-20 2022-09-06 中国科学技术大学 基于集成学习与噪声感知训练的语音增强方法
WO2020126028A1 (en) * 2018-12-21 2020-06-25 Huawei Technologies Co., Ltd. An audio processing apparatus and method for audio scene classification
US11322156B2 (en) * 2018-12-28 2022-05-03 Tata Consultancy Services Limited Features search and selection techniques for speaker and speech recognition
CN109658949A (zh) * 2018-12-29 2019-04-19 重庆邮电大学 一种基于深度神经网络的语音增强方法
CN109448751B (zh) * 2018-12-29 2021-03-23 中国科学院声学研究所 一种基于深度学习的双耳语音增强方法
CN111696571A (zh) * 2019-03-15 2020-09-22 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN110047510A (zh) * 2019-04-15 2019-07-23 北京达佳互联信息技术有限公司 音频识别方法、装置、计算机设备及存储介质
CN110148419A (zh) * 2019-04-25 2019-08-20 南京邮电大学 基于深度学习的语音分离方法
CN110534123B (zh) * 2019-07-22 2022-04-01 中国科学院自动化研究所 语音增强方法、装置、存储介质、电子设备
CN114175152A (zh) 2019-08-01 2022-03-11 杜比实验室特许公司 用于增强劣化音频信号的系统和方法
WO2021030759A1 (en) 2019-08-14 2021-02-18 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
CN110503972B (zh) * 2019-08-26 2022-04-19 北京大学深圳研究生院 语音增强方法、系统、计算机设备及存储介质
CN110491406B (zh) * 2019-09-25 2020-07-31 电子科技大学 一种多模块抑制不同种类噪声的双噪声语音增强方法
CN110728989B (zh) * 2019-09-29 2020-07-14 东南大学 一种基于长短时记忆网络lstm的双耳语音分离方法
CN111243612A (zh) * 2020-01-08 2020-06-05 厦门亿联网络技术股份有限公司 一种生成混响衰减参数模型的方法及计算系统
CN111429931B (zh) * 2020-03-26 2023-04-18 云知声智能科技股份有限公司 一种基于数据增强的降噪模型压缩方法及装置
CN111508516A (zh) * 2020-03-31 2020-08-07 上海交通大学 基于信道关联时频掩膜的语音波束形成方法
CN111583948B (zh) * 2020-05-09 2022-09-27 南京工程学院 一种改进的多通道语音增强系统和方法
CN111833896B (zh) * 2020-07-24 2023-08-01 北京声加科技有限公司 融合反馈信号的语音增强方法、系统、装置和存储介质
US11996117B2 (en) 2020-10-08 2024-05-28 Modulate, Inc. Multi-stage adaptive system for content moderation
CN112420073B (zh) * 2020-10-12 2024-04-16 北京百度网讯科技有限公司 语音信号处理方法、装置、电子设备和存储介质
CN112133277B (zh) * 2020-11-20 2021-02-26 北京猿力未来科技有限公司 样本生成方法及装置
CN112309411B (zh) * 2020-11-24 2024-06-11 深圳信息职业技术学院 相位敏感的门控多尺度空洞卷积网络语音增强方法与系统
CN112669870B (zh) * 2020-12-24 2024-05-03 北京声智科技有限公司 语音增强模型的训练方法、装置和电子设备
WO2022182850A1 (en) * 2021-02-25 2022-09-01 Shure Acquisition Holdings, Inc. Deep neural network denoiser mask generation system for audio processing
CN113241083B (zh) * 2021-04-26 2022-04-22 华南理工大学 一种基于多目标异质网络的集成语音增强系统
CN113470685B (zh) * 2021-07-13 2024-03-12 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
CN113450822B (zh) * 2021-07-23 2023-12-22 平安科技(深圳)有限公司 语音增强方法、装置、设备及存储介质
WO2023018905A1 (en) * 2021-08-12 2023-02-16 Avail Medsystems, Inc. Systems and methods for enhancing audio communications
CN113707168A (zh) * 2021-09-03 2021-11-26 合肥讯飞数码科技有限公司 一种语音增强方法、装置、设备及存储介质
US11849286B1 (en) 2021-10-25 2023-12-19 Chromatic Inc. Ear-worn device configured for over-the-counter and prescription use
CN114093379B (zh) * 2021-12-15 2022-06-21 北京荣耀终端有限公司 噪声消除方法及装置
US20230306982A1 (en) 2022-01-14 2023-09-28 Chromatic Inc. System and method for enhancing speech of target speaker from audio signal in an ear-worn device using voice signatures
US11950056B2 (en) 2022-01-14 2024-04-02 Chromatic Inc. Method, apparatus and system for neural network hearing aid
US11818547B2 (en) * 2022-01-14 2023-11-14 Chromatic Inc. Method, apparatus and system for neural network hearing aid
US11832061B2 (en) * 2022-01-14 2023-11-28 Chromatic Inc. Method, apparatus and system for neural network hearing aid
CN114067820B (zh) * 2022-01-18 2022-06-28 深圳市友杰智新科技有限公司 语音降噪模型的训练方法、语音降噪方法和相关设备
CN115424628B (zh) * 2022-07-20 2023-06-27 荣耀终端有限公司 一种语音处理方法及电子设备
CN115295001B (zh) * 2022-07-26 2024-05-10 中国科学技术大学 一种基于渐进式融合校正网络的单通道语音增强方法
US11902747B1 (en) 2022-08-09 2024-02-13 Chromatic Inc. Hearing loss amplification that amplifies speech and noise subsignals differently

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02160298A (ja) * 1988-12-14 1990-06-20 Hitachi Ltd 雑音除去方法、それに用いるニューラルネットワークの学習方法
JPH09160590A (ja) * 1995-12-13 1997-06-20 Denso Corp 信号抽出装置
JPH1049197A (ja) * 1996-08-06 1998-02-20 Denso Corp 音声復元装置及び音声復元方法
JP2009545914A (ja) * 2006-08-01 2009-12-24 ディーティーエス・インコーポレイテッド 音声変換器の線形及び非線形歪みを補償するためのニューラル・ネットワーク・フィルタリング技術
JP2010521012A (ja) * 2007-03-09 2010-06-17 スカイプ・リミテッド 音声符号化システム及び方法
JP2011530091A (ja) * 2008-08-05 2011-12-15 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5878389A (en) 1995-06-28 1999-03-02 Oregon Graduate Institute Of Science & Technology Method and system for generating an estimated clean speech signal from a noisy speech signal
KR100341197B1 (ko) * 1998-09-29 2002-06-20 포만 제프리 엘 오디오 데이터로 부가 정보를 매립하는 방법 및 시스템
US20020116196A1 (en) * 1998-11-12 2002-08-22 Tran Bao Q. Speech recognizer
US6732073B1 (en) 1999-09-10 2004-05-04 Wisconsin Alumni Research Foundation Spectral enhancement of acoustic signals to provide improved recognition of speech
DE19948308C2 (de) 1999-10-06 2002-05-08 Cortologic Ag Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
US7243060B2 (en) * 2002-04-02 2007-07-10 University Of Washington Single channel sound separation
TWI223792B (en) * 2003-04-04 2004-11-11 Penpower Technology Ltd Speech model training method applied in speech recognition
US7660713B2 (en) * 2003-10-23 2010-02-09 Microsoft Corporation Systems and methods that detect a desired signal via a linear discriminative classifier that utilizes an estimated posterior signal-to-noise ratio (SNR)
JP2005249816A (ja) 2004-03-01 2005-09-15 Internatl Business Mach Corp <Ibm> 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
GB0414711D0 (en) 2004-07-01 2004-08-04 Ibm Method and arrangment for speech recognition
US8117032B2 (en) 2005-11-09 2012-02-14 Nuance Communications, Inc. Noise playback enhancement of prerecorded audio for speech recognition operations
US8615393B2 (en) 2006-11-15 2013-12-24 Microsoft Corporation Noise suppressor for speech recognition
JP5156260B2 (ja) 2007-04-27 2013-03-06 ニュアンス コミュニケーションズ,インコーポレイテッド 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム
US8521530B1 (en) * 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US8392185B2 (en) * 2008-08-20 2013-03-05 Honda Motor Co., Ltd. Speech recognition system and method for generating a mask of the system
US8645132B2 (en) 2011-08-24 2014-02-04 Sensory, Inc. Truly handsfree speech recognition in high noise environments
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9672811B2 (en) * 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US9728184B2 (en) * 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
CN103489454B (zh) * 2013-09-22 2016-01-20 浙江大学 基于波形形态特征聚类的语音端点检测方法
CN103531204B (zh) * 2013-10-11 2017-06-20 深港产学研基地 语音增强方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02160298A (ja) * 1988-12-14 1990-06-20 Hitachi Ltd 雑音除去方法、それに用いるニューラルネットワークの学習方法
JPH09160590A (ja) * 1995-12-13 1997-06-20 Denso Corp 信号抽出装置
JPH1049197A (ja) * 1996-08-06 1998-02-20 Denso Corp 音声復元装置及び音声復元方法
JP2009545914A (ja) * 2006-08-01 2009-12-24 ディーティーエス・インコーポレイテッド 音声変換器の線形及び非線形歪みを補償するためのニューラル・ネットワーク・フィルタリング技術
JP2010521012A (ja) * 2007-03-09 2010-06-17 スカイプ・リミテッド 音声符号化システム及び方法
JP2011530091A (ja) * 2008-08-05 2011-12-15 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018146610A (ja) * 2017-03-01 2018-09-20 日本電信電話株式会社 マスク推定装置、マスク推定方法およびマスク推定プログラム
JP2019090930A (ja) * 2017-11-15 2019-06-13 日本電信電話株式会社 音源強調装置、音源強調学習装置、音源強調方法、プログラム
JP2019139102A (ja) * 2018-02-13 2019-08-22 日本電信電話株式会社 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム
JP7159767B2 (ja) 2018-10-05 2022-10-25 富士通株式会社 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置
JP2020060612A (ja) * 2018-10-05 2020-04-16 富士通株式会社 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置
JP2020095224A (ja) * 2018-12-14 2020-06-18 富士通株式会社 音声補正装置および音声補正方法
JP7095586B2 (ja) 2018-12-14 2022-07-05 富士通株式会社 音声補正装置および音声補正方法
JP2022528720A (ja) * 2019-04-11 2022-06-15 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. オーディオデコーダ、フィルタの特性を定義する値のセットを決定するための装置、復号されたオーディオ表現を提供するための方法、フィルタの特性を定義する値のセットを決定するための方法、およびコンピュータプログラム
JP7383725B2 (ja) 2019-04-11 2023-11-20 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. オーディオデコーダ、フィルタの特性を定義する値のセットを決定するための装置、復号されたオーディオ表現を提供するための方法、フィルタの特性を定義する値のセットを決定するための方法、およびコンピュータプログラム
JP2022529912A (ja) * 2019-04-16 2022-06-27 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 深層フィルタを決定するための方法および装置
JP7486266B2 (ja) 2019-04-16 2024-05-17 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 深層フィルタを決定するための方法および装置
JP2021086154A (ja) * 2019-11-25 2021-06-03 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
US11620983B2 (en) 2019-11-25 2023-04-04 Baidu Online Network Technology (Beijing) Co., Ltd Speech recognition method, device, and computer-readable storage medium
JP7434137B2 (ja) 2019-11-25 2024-02-20 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体

Also Published As

Publication number Publication date
WO2016063795A1 (en) 2016-04-28
CN107077860B (zh) 2021-02-09
CN107077860A (zh) 2017-08-18
DE112015004785B4 (de) 2021-07-08
DE112015004785T5 (de) 2017-07-20
US20160111108A1 (en) 2016-04-21
US20160111107A1 (en) 2016-04-21
WO2016063794A1 (en) 2016-04-28
JP6415705B2 (ja) 2018-10-31
US9881631B2 (en) 2018-01-30

Similar Documents

Publication Publication Date Title
JP6415705B2 (ja) ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法
Tu et al. Speech enhancement based on teacher–student deep learning using improved speech presence probability for noise-robust speech recognition
Haeb-Umbach et al. Far-field automatic speech recognition
Erdogan et al. Multi-channel speech recognition: LSTMs all the way through
Han et al. Learning spectral mapping for speech dereverberation and denoising
Narayanan et al. Improving robustness of deep neural network acoustic models via speech separation and joint adaptive training
Srinivasan et al. Codebook-based Bayesian speech enhancement for nonstationary environments
Watanabe et al. New Era for Robust Speech Recognition
Kwon et al. NMF-based speech enhancement using bases update
Sehr et al. Reverberation model-based decoding in the logmelspec domain for robust distant-talking speech recognition
Yamamoto et al. Enhanced robot speech recognition based on microphone array source separation and missing feature theory
Lee et al. A joint learning algorithm for complex-valued tf masks in deep learning-based single-channel speech enhancement systems
Mohammadiha et al. Speech dereverberation using non-negative convolutive transfer function and spectro-temporal modeling
Kim et al. End-to-end multi-task denoising for joint SDR and PESQ optimization
Yu et al. Audio-visual multi-channel integration and recognition of overlapped speech
Nesta et al. A flexible spatial blind source extraction framework for robust speech recognition in noisy environments
Wang et al. Enhanced Spectral Features for Distortion-Independent Acoustic Modeling.
Martín-Doñas et al. Dual-channel DNN-based speech enhancement for smartphones
Lee et al. Dynamic noise embedding: Noise aware training and adaptation for speech enhancement
CN110998723A (zh) 使用神经网络的信号处理装置、使用神经网络的信号处理方法以及信号处理程序
Nguyen et al. Feature adaptation using linear spectro-temporal transform for robust speech recognition
Seltzer Bridging the gap: Towards a unified framework for hands-free speech recognition using microphone arrays
Nathwani et al. DNN uncertainty propagation using GMM-derived uncertainty features for noise robust ASR
Li et al. Single channel speech enhancement using temporal convolutional recurrent neural networks
Saleem et al. Variance based time-frequency mask estimation for unsupervised speech enhancement

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180904

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181002

R150 Certificate of patent or registration of utility model

Ref document number: 6415705

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250