JP6643336B2 - 一次チャネルと基準チャネルとの間の雑音および音の電力レベル差の決定 - Google Patents

一次チャネルと基準チャネルとの間の雑音および音の電力レベル差の決定 Download PDF

Info

Publication number
JP6643336B2
JP6643336B2 JP2017525365A JP2017525365A JP6643336B2 JP 6643336 B2 JP6643336 B2 JP 6643336B2 JP 2017525365 A JP2017525365 A JP 2017525365A JP 2017525365 A JP2017525365 A JP 2017525365A JP 6643336 B2 JP6643336 B2 JP 6643336B2
Authority
JP
Japan
Prior art keywords
noise
audio signal
channel
primary
pdf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017525365A
Other languages
English (en)
Other versions
JP2017538344A (ja
Inventor
ジャン エス. エルケレンス,
ジャン エス. エルケレンス,
Original Assignee
シラス ロジック、インコーポレイテッド
シラス ロジック、インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シラス ロジック、インコーポレイテッド, シラス ロジック、インコーポレイテッド filed Critical シラス ロジック、インコーポレイテッド
Publication of JP2017538344A publication Critical patent/JP2017538344A/ja
Application granted granted Critical
Publication of JP6643336B2 publication Critical patent/JP6643336B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

(関連出願の引用)
本願は、米国仮出願第62/078,828号(2014年11月12日出願、名称「Determining Noise Power Level Difference and/or Sound Power Level Difference between Primary and Reference Channels of an Audio Signal」)の利益およびそれに対する優先権を主張し、上記出願は、その全体が参照により本明細書に引用される。
(発明の分野)
本開示は、オーディオ信号の一次チャネルとオーディオ信号の基準チャネルとの間の雑音および/または音の電力レベルにおける差異を決定する技法に関する。
オーディオ信号をフィルタ処理または別様に明瞭化するための多くの技法は、信号対雑音比(SNR)に依拠する。SNRは、典型的には、オーディオ信号における雑音の量または雑音の電力レベルの推定を採用する。
最新技術のモバイル電話を含む、種々のオーディオデバイスは、意図された源からオーディオを受信するように位置付けられ、向けられる一次マイクロホンと、意図された源から背景雑音を受信するが、オーディオを殆どまたは全く受信しないように位置付けられ、向けられる基準マイクロホンとを含む。基準マイクロホンの主要機能は、一次マイクロホンによって取得されるオーディオ信号の一次チャネルに存在する可能性が高い雑音の量のインジケータを提供することである。従来、基準マイクロホンを用いて取得されるオーディオ信号の基準チャネルにおける雑音のレベルは、オーディオ信号の一次チャネルにおける雑音のレベルと実質的に同一であると仮定されていた。
実際は、一次チャネルに存在する雑音レベルと対応する基準チャネルに存在する雑音レベルとの間には、有意な差異が存在し得る。これらの差異は、限定ではないが、一次マイクロホンおよび基準マイクロホンが音を検出する様式(例えば、感度)における不平衡、オーディオの意図された源に対する一次マイクロホンおよび基準マイクロホンの向き、(例えば、個人がモバイル電話等を使用するときの個人の頭部および/または他の部分による)雑音および/または音の遮断、ならびに一次および/または基準チャネルの事前処理を含むいくつかの異なる要因のいずれかによって引き起こされ得る。基準チャネルにおける雑音レベルが一次チャネルにおける雑音レベルを上回るとき、一次チャネルにおける雑音を除去または別様に抑制する努力は、一次チャネルからの標的音(例えば、音声、音楽等)の過剰抑制またはその一部の望ましくない除去、ならびに標的音の歪みをもたらし得る。逆に、基準チャネルにおける雑音レベルが一次チャネルにおける雑音レベルを下回るとき、一次チャネルからの雑音は、抑制不足になり得、これは、雑音抑制処理によって出力されるオーディオ信号における不必要に高レベルの残留雑音をもたらし得る。
基準チャネルの中への標的音(例えば、音声等)の存在はまた、推定された雑音レベルに誤差をもたらし、したがって、雑音が除去または別様に抑制されたオーディオ信号の品質に悪影響を及ぼし得る。
故に、雑音および音声電力レベルにおける差異の推定における改良が、追求される。
一次および基準マイクロホンにおける平均雑音および音声電力レベルは、概して、異なる。本発明者は、周波数依存性雑音電力レベル差(NPLD)および音声電力レベル差(SPLD)を推定する方法を考え、説明する。従来技術の不利点に本発明が対処する方法が、以下により詳細に議論されるが、概して、本発明は、推定されるNPLDおよびSPLDを使用して、基準マイクロホンからの雑音分散推定値を補正し、レベル差フィルタを修正してPLDを考慮する方法を提供する。本発明の側面は、セルラー通信に対して説明され得るが、本発明の側面は、任意の数のオーディオ、ビデオ、または他のデータ伝送および関連プロセスにも適用され得る。
種々の側面では、本開示は、オーディオ信号の第1のチャネル(例えば、基準チャネル、二次チャネル等)における雑音電力および/または音電力を正確に推定し、オーディオ信号のその雑音電力および/または音電力と第2のチャネル(例えば、一次チャネル、基準チャネル等)におけるそれぞれの雑音電力および/または音電力との間の任意の差異を最小化するか、もしくは排除する技法に関する。
一側面では、オーディオ信号の基準チャネルとオーディオ信号の一次チャネルとの間の雑音電力レベル差(NPLD)を追跡する技法が、開示される。そのような方法では、オーディオ信号は、モバイル電話等のオーディオデバイスの一次マイクロホンおよび少なくとも1つの基準マイクロホンから同時に取得される。より具体的には、一次マイクロホンは、オーディオ信号の一次チャネルを受信する一方、基準マイクロホンは、オーディオ信号の基準チャネルを受信する。
いわゆる「最尤」推定技法が、一次チャネルと基準チャネルとの間のNPLDを決定するために使用され得る。最尤推定技法は、雑音の大きさの推定値を提供する、オーディオ信号の基準チャネルの雑音の大きさまたは雑音電力を推定することを含み得る。具体的実施形態では、雑音の大きさの推定は、Erkelens,J.S.,他の「Tracking of Nonstationary Noise Based on Data Drive Recursive Noise Power Estimation」(IEEE Transactions on Audio,Speech,and Language Processing,16(6):1112 1123(2008)(「Erkelens」))(その全開示が、あらゆる目的のために、参照することによって本明細書に組み込まれる)によって開示されるもの等のデータ駆動帰納的雑音電力推定技法の使用を含み得る。
雑音の大きさの推定値を用いて、オーディオ信号の一次チャネルの高速フーリエ変換(FFT)係数の確率密度関数(PDF)が、モデル化され得る。いくつかの実施形態では、一次チャネルのFFT係数のPDFをモデル化することは、複素ガウス分布としてこれをモデル化することを含み、複素ガウス分布の平均は、NPLDに依存し得る。NPLDに関してオーディオ信号の一次チャネルの特定の部分に対するFFT係数の結合PDFを最大化することは、オーディオ信号の基準チャネルおよび一次チャネルから計算され得るNPLD値を提供する。正確なNPLDを用いて、一次オーディオ信号の雑音の大きさまたは雑音電力は、基準オーディオ信号の雑音の大きさまたは雑音電力に正確に関連し得る。
種々の実施形態では、これらのプロセスは、連続的であり、したがって、雑音分散推定値ならびにNPLDを追跡することを含み得る。追跡プロセスが起こる速度は、少なくとも部分的に、標的音(例えば、音声、音楽等)がオーディオ信号の一次チャネルに存在する可能性に依存し得る。標的音が一次チャネルに存在する可能性が高い実施形態では、追跡プロセスの速度は、Erkelensによって教示される平滑化係数を使用することによって減速され得、それは、NPLDならびに雑音の大きさまたは雑音電力のより敏感なおよび/もしくは正確な追跡を可能にし、したがって、雑音がそれから除去されるか、または別様に抑制されるので、より少ない歪みの標的音を可能にし得る。標的音が一次チャネルにおそらく存在しない実施形態では、追跡プロセスは、より速い速度において実施され得る。
別の側面では、一次チャネルと基準チャネルとの間の音声電力レベル差(SPLD)が、決定され得る。SPLDは、一次チャネルのFFT係数を基準チャネルのそれらの関数として表すことによって決定され得る。いくつかの実施形態では、一次チャネルのFFT係数のPDFをモデル化することは、複素ガウス分布としてそれをモデル化することを含み、複素ガウス分布の平均および分散は、SPLDに依存し得る。SPLDに関してオーディオ信号の一次チャネルの特定の部分に対するFFT係数の結合PDFを最大化することは、オーディオ信号の基準チャネルおよび一次チャネルから計算され得るSPLD値を提供する。
SPLDは、連続的に計算または追跡され得る。いくつかの実施形態では、オーディオ信号の一次チャネルと基準チャネルとの間のSPLDを追跡する速度は、音声がオーディオ信号の一次チャネルに存在する可能性に依存し得る。音声が一次チャネルに存在する可能性が高い実施形態では、追跡の速度は、増加され得る。音声が一次チャネルに存在しない可能性が高い実施形態では、追跡の速度は、低減され得、それは、SPLDのより敏感なおよび/または正確な追跡を可能にし得る。
本開示の別の側面によると、NPLDおよび/またはSPLD追跡は、オーディオフィルタ処理および/または明瞭化プロセスにおいて使用され得る。限定ではないが、NPLDおよび/またはSPLD追跡は、オーディオ信号の一次および基準チャネルの最小平均二乗誤差(MMSE)フィルタ処理の前に、またはレベル差後処理において(すなわち、MMSE等の主要明瞭化プロセス後に)、初期フィルタ処理(例えば、適応最小平均二乗(LMS)等)プロセスに続いて、(例えば、基準マイクロホン等による)基準チャネルの生成に応じて基準チャネルの雑音の大きさの推定値を補正するために使用され得る。
本発明の一側面は、いくつかの実施形態では、オーディオデバイスの一次マイクロホンと基準マイクロホンとの間の雑音電力レベル差(NPLD)を推定する方法を特徴とする。方法は、オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、オーディオデバイスの基準マイクロホンを用いて、オーディオ信号の基準チャネルを取得することと、オーディオ信号の基準チャネルの雑音の大きさを推定、1つ以上の周波数に対する雑音分散推定値を提供することとを含む。方法はさらに、オーディオ信号の一次チャネルの高速フーリエ変換(FFT)係数の確率密度関数(PDF)をモデル化することと、PDFを最大化し、基準チャネルの雑音分散推定値と一次チャネルの雑音分散推定値との間のNPLDを提供することと、オーディオ信号の基準チャネルのFFT係数のPDFをモデル化することと、PDFを最大化し、一次および基準チャネルの音声FFT係数間の複素音声電力レベル差(SPLD)係数を提供することと、雑音分散推定値、NPLD、およびSPLD係数に基づいて、基準チャネルの補正された雑音の大きさを計算することとを含む。
いくつかの実施形態では、基準チャネルの雑音電力レベルは、一次チャネルの雑音電力レベルとは異なる。いくつかの実施形態では、基準チャネルの雑音の大きさを推定すること、一次チャネルのFFT係数のPDFをモデル化すること、およびPDFを最大化することは、連続的に行われ、NPLDを追跡することを含む。いくつかの実施形態では、NPLDを追跡することは、連続した時間フレームにわたる統計の指数平滑化を含む。いくつかの実施形態では、連続した時間フレームにわたる統計の指数平滑化は、データ駆動帰納的雑音電力推定を含む。
いくつかの実施形態では、方法は、音声がオーディオ信号の少なくとも一次チャネルに存在する可能性を決定することを含む。いくつかの実施形態では、音声がオーディオ信号の少なくとも一次チャネルに存在する可能性が高い場合、方法は、追跡することが起こる速度を減速させることを含む。
いくつかの実施形態では、基準チャネルの雑音の大きさを推定することは、データ駆動帰納的雑音電力推定を含む。
いくつかの実施形態では、オーディオ信号の一次チャネルのFFT係数のPDFをモデル化することは、複素ガウスPDFをモデル化することを含み、複素ガウス分布の平均は、NPLDに依存する。
いくつかの実施形態では、方法は、オーディオ信号の一次チャネルにおける音声およびオーディオ信号の基準チャネルにおける音声の相対強度を決定することを含む。いくつかの実施形態では、相対強度を決定することは、経時的に相対強度を追跡することを含む。いくつかの実施形態では、方法は、相対強度を決定することがデータ駆動帰納的雑音電力推定を含むことを含む。いくつかの実施形態では、方法は、NPLDおよびSPLD係数を適用することに先立って、最小平均二乗(LMS)フィルタを適用することを含む。
いくつかの実施形態では、基準チャネルの雑音の大きさを推定すること、一次チャネルのFFT係数のPDFをモデル化すること、およびPDFを最大化することは、オーディオ信号の少なくともいくつかのフィルタ処理の前に起こる。いくつかの実施形態では、基準チャネルの雑音の大きさを推定すること、一次チャネルのFFT係数のPDFをモデル化すること、およびPDFを最大化することは、一次チャネルおよび基準チャネルの最小平均二乗誤差(MMSE)フィルタ処理の前に起こる。
いくつかの実施形態では、基準チャネルのFFT係数のPDFをモデル化することは、複素ガウス分布をモデル化することを含み、複素ガウス分布の平均は、複素SPLD係数に依存する。
いくつかの実施形態では、基準チャネルの雑音の大きさを推定すること、一次チャネルおよび基準チャネルのFFT係数のPDFをモデル化すること、およびPDFを最大化することは、オーディオ信号が主要フィルタ処理または明瞭化プロセスを受けた後、オーディオ信号のレベル差後処理のために基準チャネルの雑音分散をスケーリングすることを含む。
いくつかの実施形態では、方法は、音声活動および識別可能な話者音声活動のうちの1つ以上のものを検出することにおいて、NPLDおよびSPLDを使用することを含む。
いくつかの実施形態では、方法は、最高の信号対雑音比を達成するために、マイクロホン間の選択においてNPLDおよびSPLDを使用することを含む。
本発明の別の側面は、いくつかの実施形態では、オーディオデバイスは、オーディオ信号を受信し、オーディオ信号の一次チャネルを通信するための一次マイクロホンと、オーディオ信号を一次マイクロホンとは異なる状況から受信し、オーディオ信号の基準チャネルを通信するための基準マイクロホンと、オーディオ信号を処理し、オーディオ信号をフィルタ処理および/または明瞭化するための少なくとも1つの処理要素とを備え、少なくとも1つの処理要素は、オーディオデバイスの一次マイクロホンと基準マイクロホンとの間の雑音電力レベル差(NPLD)を推定する方法を行うためのプログラムを実行するように構成される。方法は、オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、オーディオデバイスの基準マイクロホンを用いて、オーディオ信号の基準チャネルを取得することと、オーディオ信号の基準チャネルの雑音の大きさを推定し、1つ以上の周波数に対する雑音分散推定値を提供することとを含む。方法はさらに、オーディオ信号の一次チャネルの高速フーリエ変換(FFT)係数の確率密度関数(PDF)をモデル化することと、PDFを最大化し、基準チャネルの雑音分散推定値と一次チャネルの雑音分散推定値との間のNPLDを提供することと、オーディオ信号の基準チャネルのFFT係数のPDFをモデル化することと、PDFを最大化し、一次および基準チャネルの音声FFT係数間の複素音声電力レベル差(SPLD)係数を提供することと、雑音分散推定値、NPLD、およびSPLD係数に基づいて、基準チャネルの補正された雑音の大きさを計算することとを含む。
本開示によるオーディオデバイスの種々の実施形態は、開示されるプロセスのいずれかを実行するようにプログラムされ得る、少なくとも1つの処理要素を含む。そのようなオーディオデバイスは、オーディオを受信するための2つ以上のマイクロホンを伴う任意の電子デバイス、またはオーディオ信号の2つ以上のチャネルを受信するように構成される任意のデバイスを備え得る。そのようなデバイスのいくつかの実施形態は、限定ではないが、モバイル電話、電話、オーディオ記録機器、およびいくつかのポータブルメディアプレーヤを含む。そのようなデバイスの処理要素は、マイクロプロセッサ、マイクロコントローラ等を含み得る。
開示される主題の他の側面、ならびにその種々の側面の特徴および利点は、上記に提供される開示、付随の図面、および添付される請求項の考慮を通して、当業者に明白となるはずである。前述の開示は多くの詳細を提供しているが、これらは、続く請求項のいずれかの範囲を限定するものとして解釈されるべきではない。請求項の範囲から逸脱しない他の実施形態が、考案され得る。異なる実施形態からの特徴が、組み合わせて採用され得る。各請求項の範囲は、したがって、その明示的な言語およびその要素に対する利用可能な法的均等物の全範囲によってのみ示され、限定される。
図1は、一実施形態による、一次ならびに基準信号のクリーンおよびノイジースペクトルの例示的プロットを例証する。 図2は、図1の信号に関する推定されたならびに真のNPLDおよびSPLDスペクトルを例証する。 図3は、シミュレートされたカフェ環境において測定された雑音の両方のチャネルからの平均スペクトルを例証する。 図4は、図3のシミュレートされたカフェ環境シナリオにおけるクリーンおよびノイジー信号の平均スペクトルを例証する。 図5は、図1の信号に対して測定された「真の」ならびに推定されたNPLDおよびSPLDスペクトルを例証する。 図6は、一実施形態による、スペクトル音声増進システムにおいて使用するための雑音および音声電力レベル差の推定に関するプロセスフロー概観を例証する。 図7は、デジタルオーディオデータを分析するためのコンピュータアーキテクチャを例証する。
以下の説明は、本発明の例示的実施形態にすぎず、本発明の範囲、可用性、または構成を限定することは意図されない。むしろ、以下の説明は、本発明の種々の実施形態を実装するための便宜な例証を提供することが意図される。明白になるであろうように、種々の変更が、本明細書に記載されるような本発明の範囲から逸脱することなく、これらの実施形態に説明される要素の機能および配列において成され得る。本明細書における説明は、異なる形状、構成要素、機構等を有する代替として構成されたデバイスとともに採用されるように適合され、依然として、本発明の範囲内に該当し得ることを理解されたい。したがって、本明細書における発明を実施するための形態は、限定ではなく、例証のみを目的として提示される。
本明細書における「一実装」または「ある実施形態」の言及は、説明される特定の特徴、構造、または特性が、本発明の少なくともある実施形態、実装、または用途に含まれることを示すことが意図される。本明細書の種々の場所における語句「一実装では」または「ある実施形態」の出現は、必ずしも、全てが同一の実装または実施形態を指すわけではない。
(1 モデル化の仮定および定義)
(1.1 信号モデル)
2つのマイクロホンから着信する時間領域信号は、一次マイクロホンに対してyと呼ばれ、二次(基準)マイクロホンに対してyと呼ばれる。信号は、音声信号および雑音擾乱の合計
であり、式中、nは、離散時間指数である。電話では、二次マイクロホンは、通常、背面に位置し、ユーザは、一次マイクロホンに発話する。一次音声信号は、したがって、多くの場合、二次音声信号よりもはるかに強い。雑音信号は、多くの場合、類似する強度であるが、雑音源の場所およびマイクロホン感度の差異に応じて、周波数依存性のレベル差が、存在し得る。マイクロホンにおける雑音および音声信号は、独立していると仮定される。
音声増進アルゴリズムの大部分が、FFT領域において動作し、信号は、
であり、式中、kは、離散周波数指数であり、m=0,1,・・・は、フレーム指数である。
一次および基準信号は、「生の」マイクロホン信号であり得るか、またはそれらは、ある種類の事前処理後のマイクロホン信号であり得る。多くの事前処理アルゴリズムが、可能である。例えば、事前処理は、信号のある一定の帯域を減衰させる固定フィルタから成り得るか、または、それは、一次信号における雑音、および/もしくは基準チャネルにおける音声を減衰させようとするアルゴリズムから成り得る。このタイプのアルゴリズムの実施例は、最小平均二乗フィルタならびにカルマンフィルタ等のビーム形成アルゴリズムおよび適応フィルタである。
スペクトル音声増進は、利得関数G(k,m)を各ノイジーフーリエ係数Y(k,m)に適用するステップから成る(例えば、[1−5]参照)。利得は、より低いSNRを伴う周波数ビンにより多くの抑制を適用する。利得は、時変であり、フレーム毎に決定される必要がある。利得は、一次チャネルの2つのSNRパラメータ、すなわち、事前SNRξ(k,m)と事後SNRγ(k,m)との関数であり、それらは、それぞれ、
として定義され、式中、λs1(k,m)およびλd1(k,m)は、それぞれ、一次音声および雑音信号のスペクトル分散である。
指数kおよびmは、FFT領域における信号および変数が周波数依存性であり、フレーム毎に変化し得ることを理解して、表記を容易にするために省略され得る。
スペクトル分散は、大きさの二乗の期待値、すなわち、
として定義され、εは、期待値演算子である。
スペクトル分散λs1およびλd1は、推定値である。独立した音声および雑音信号に対して、ノイジー信号のスペクトル分散λyiは、音声スペクトル分散と雑音スペクトル分散との合計である。
(2 SNRの推定)
一次チャネルの事前および事後SNRの推定は、λs1およびλd1の推定を要求する。λd1を推定するための単純な方法は、基準チャネルを使用することである。両方のマイクロホンにおける雑音信号がほぼ同一の強度を有し、基準チャネルにおける音声信号が雑音信号と比較して弱いと仮定すると、λd2の推定値が、信号電力の指数平滑化|Y |を用いて取得され、それをλd1の推定値としても使用する。
であり、式中、αNVは、雑音分散平滑化係数である。
この簡略化された推定量は、いくつかの問題を提示し得る。先に言及されたように、雑音信号は、両方のチャネルにおいて異なるレベルを有し得る。これは、準最適フィルタ処理をもたらすであろう。さらに、マイクロホンは、多くの場合、基準信号における標的音声の一部を拾い上げる。これは、推定量(6)が雑音レベルを過大推定するであろうことを意味する。これは、一次音声信号の過剰抑制をもたらし得る。次の節は、これらの問題に対処するために提案された方法に取り組む。
雑音分散の推定値が与えられると、一次チャネルの事前SNRは、一般的に、「ディシジョンダイレクテッドアプローチ」を用いて決定され、例えば、
であり、αXIは、事前SNR平滑化係数であり、
は、前のフレームからの推定された一次音声スペクトルの大きさであり、
は、推定された事後SNRである。
(3 電力レベル差の推定)
FFT領域における信号の差異は、係数C(k,m)およびC(k,m)を用いてモデル化されることができる。これらの周波数依存性係数は、2つのマイクロホンにおける音声または雑音レベルの平均差を説明するために導入される。それらは、経時的に変化し得るが、それらの大きさは、フレームレートよりもはるかに緩慢な速度で変化すると仮定される。FFT領域における信号モデルは、ここでは、
となる。
雑音項NおよびNは、全ての雑音源からの寄与を含む。それらの分散は、等しいと仮定されるが、Cの二乗された大きさは、実際の雑音信号間の平均電力レベル差をモデル化する。Cは、したがって、雑音電力レベル差(NPLD)係数と呼ばれる。同様に、Cは、音声電力レベル差(SPLD)係数と呼ばれる。電力レベル差(PLD)係数は、存在し得る任意の長期平均位相差をモデル化するために、複素数であると仮定される。Cの位相は、以下の理由により、Cのものよりもはるかに速く変動すると予期される。全ての雑音源は、マイクロホンに対して異なる相対位置にある。これらの雑音源は、場合によっては話者および互いに対して移動しており、反響も存在し得る。
1人の標的話者がマイクロホンに近接していると仮定されるので、これらの係数は、音声信号に対してあまり重要ではない可能性がある。Cの位相への重要な寄与は、信号到着時間の遅延である。通常、Cの絶対値は、1よりも小さい(|C|<1)。Cの絶対値は、1よりも小さいことも、それよりも大きいこともあり得る。C(k,m)および絶対値|C(k,m)|は、徐々に変化すると仮定される(そうでなければ、それらを正確に推定することは困難になる)。
独立した音声および雑音を仮定すると、ノイジー信号のスペクトル分散は、
によってモデル化される。
フレーム指数mは、それらの大きさがフレームの長さ中、ほぼ一定のままであると仮定されるので、PLD係数から省略されたことに留意されたい。NおよびNの分散は、両方ともλdに等しいと仮定される。NPLDは、|Cによって説明され、SPLDは、|Cによって説明される。
|C|およびCの最尤推定量の導出が、以下に説明される。
(3.1 NPLDの推定)
が、既知であると仮定する。音声FFT係数が平均0および分散λを伴う複素ガウス分布によってモデル化される場合、Cの値を与えられるノイジーFFT係数の確率密度関数(PDF)は、平均Cおよび分散λを伴う複素ガウス
である。
方程式(11)はまた、
として記載されることもでき、式中、θは、Yの位相であり、ψは、Cの位相である。最尤(ML)推定理論[6]は、未知のパラメータに対してPDFを最大化することが、ある望ましい性質を伴う推定値につながることを示す。例えば、観察の数が増加するにつれて、推定量の分散は、クラメールラオ下限に接近する。分散を許容可能なレベルに低減させるために、推定は、複数のフレームからのデータに基づく必要がある。連続フレームの音声FFT係数S(k,m)は、独立していると仮定され得る。これは、多くの場合、音声増進文献において成される簡略化仮定である。複数のフレームのノイジーFFT係数Y(k,m)の結合PDFは、C(k,m)N(k,m)を与えられると、これらのフレームのPDF(12)の積として記載されることができる。M個の連続フレームに対する周波数指数kの結果として生じる結合PDFは、
としてモデル化され、Y(k)は、M個の連続フレームのノイジーFFT係数のベクトルである。N’(k)は、連続C(k,m)N(k,m)係数のベクトルである。
位相ψ(k,m)は、連続フレームに対して互いに独立していると仮定されるであろう。PDF(12)は、ψ(k,m)=θ(k,m)に対してψ(k,m)に関して最大化され、つまり、N’(k)の位相のML推定値は、ノイジー位相に等しい。これらの推定値を結合PDF(13)に代入し、|C(k)|に関して最大化することは、そのML推定値に対する以下の式をもたらす。
したがって、(14)の分子および分母は両方とも、λ(k,m)によって正規化されている。これは、多くの音声エネルギーを伴うフレームが、殆ど重みを与えられないことを意味する。理論的には、これは、
が高SNRの期間中にも推定され得るが、音声信号が低SNRを有するとき、より良好な推定値が予期されることを意味する。とりわけ、音声の存在は、この推定量の導出において仮定された。
ガウス音声モデルの使用が一般的であるが、スーパーガウス統計モデルも、提案されている。例えば、[7−9]およびその中の参考文献を参照されたい。理論的には、NPLDに対するML推定量も、これらのモデルに対して導出されることができる。ガウスモデルに基づく推定量が、すでに非常に良好に機能しており、ここで使用される。
推定量(14)は、フレームの全てにおいて少なくともある音声が存在すると仮定することに留意されたい(
)。したがって、正規化係数は、非常に小さい数による除算を防止するために制限される。実験を通して、以下の正規化が、非常に良好に機能することが観察された。一次チャネルの事前SNRを雑音分散で乗算することによって、λを推定することができる。事前SNRは、ディシジョンダイレクテッドアプローチを使用して算出されており、雑音分散推定値
は、データ駆動雑音追跡アルゴリズム[10]によって提供され、音声スペクトルの大きさ
は、ウィナー利得を使用して推定された。
別の可能性は、音声スペクトル分散の大まかな推定値として、二乗されたスペクトル大きさの推定値、例えば、
を使用することである。分散を低減させ、非常に小さい値を回避するために、それらを経時的に少し平滑化することが賢明である。
これらの2つの代替音声分散推定値は、音声が存在するときに大きく、それらは、雑音のみのセグメントにおける雑音分散におおよそ比例する。
純粋な雑音では、YのPDFは、分散を伴う複素ガウス|Cλとしてモデル化されることができる。雑音のみの期間に対するML推定量は、
のようになるであろう。
この推定量は、音声活動検出器(VAD)を要求する。本実装では、(14)は、分母λを推定することにおいて使用される。mにわたる総和は、連続データ値のセグメントの使用を示唆するが、これは、要求されない。例えば、VADが音声不在を示すフレームからのデータのみを使用することを選定し得る。代替として、総和におけるいくつかの寄与は、例えば、音声存在確率の推定値に応じて、あまり重みを与えられない場合がある。
分子および分母における平均は、指数平滑化を用いて算出される。これは、|C(k)|における緩慢な変化を追跡することを可能にする。例えば、(14)の分子がB(k,m)と呼ばれる場合、これは、以下のように更新され、
式中、
は、推定された音声スペクトル分散である。(14)の分母も、同様に更新される。
は、雑音スペクトルの大きさの推定値である。推定量(14)は、雑音の大きさ|N(k,m)|に依存し、これらは、未知である。データ駆動雑音トラッカは、推定値
を提供し、これらは、実装(16)において使用される。雑音の大きさは、音声が存在するとき、一次チャネルからよりも基準チャネルからより確実に推定されるので、基準チャネルのそれらが、使用される。これは、
を仮定する。
異なるフレームに与えられる重みをさらに制御するために、音声存在確率の大まかな推定値に依存する、平滑化係数αNPLDが、適用される。これらの平滑化係数は、以下のように、データ駆動雑音追跡アルゴリズム[10]によって提供されるものから見出され、
式中、αs2は、基準チャネルのためにデータ駆動雑音トラッカによって提供される平滑化係数であり、Tは、ミリ秒におけるフレームスキップである。音声が基準チャネルに存在する可能性がより高いとき、平滑化係数αs2(k,m)は、1により近接し、統計のより緩慢な更新をもたらす。
実験において、NPLD推定量が低くバイアスされ、すなわち、それがNPLDを若干過小推定することに気づいた。理由の一部は、データ駆動雑音トラッカが|N(k,m)|のMMSE推定値を提供し、それらの平方根が(16)において使用されることである。平方根演算子は、あるバイアスを導入するが、バイアスの他の源も同様に存在し得る。例えば、基準チャネルから取得される推定値
が、一次チャネルからのものの代わりに使用されるが、後者は、概して、一次チャネルのノイジー大きさ|Y(k,m)|とより強く相関されるであろう。観察されたバイアスを補償するために、(16)が、経験的バイアス補正係数ηで乗算されることができる。ηの適切な値は、1〜1.4の範囲内である。
(3.2 SPLD係数の推定)
Csの推定量を導出するために、(8)は、形式
に書き換えられることができる。
の位相は、多かれ少なかれランダムであると予期され、Csは、雑音から独立している。そして、中括弧間の2つの項は、独立している。それらの合計は、N’(k,m)として表され、分散
を伴う複素ガウス雑音としてモデル化され、式中、β(k)=|C(k)||C(k)|である。通常、βは、1よりも小さい。NPLD推定量(14)を導出することにおいて行われたものと同様に、結合PDF P(Y|Y’)が、最大化されることができ、ここで、Y’は、C(k)Y(k,m)値のベクトルである。このPDFを最大化することは、その自然対数のマイナスを最小化することと同等であり、その関連部分は、
である。
λ’はCに依存するので、本発明者は、PDFを最大化するCの値に対する閉形式解を見出すことはできなかった。λ’がCに依存しない場合、(合計された)商の最小値は、
に対して見出されるであろう。
この推定量は複素数値である、すなわち、大きさおよび位相が両方とも推定されることに留意されたい。
λ’は、|C|とともに単調に増加するので、(20)における合計された商の実際の最小値は、(21)からの
よりも若干より大きい絶対値を伴う値にある。一方、(20)における項λ’自体は、最小値の場所を若干より小さい絶対値を伴う値に引き寄せる。これらの効果は、部分的に補償し得る。これらの効果はまた、βが小さいとき、小さいと予期される。したがって、本発明者は、Cに対する推定量として(21)を使用した。
NPLD推定量の場合のように、分子および分母は、指数平滑化を用いて更新される。ここでは、雑音のみが存在する可能性がより高いとき、1により近接する平滑化係数が、必要とされる。そのような平滑化係数は、一次チャネルに対してデータ駆動雑音追跡アルゴリズムによって提供されるものであるαs1から見出されることができる。平滑化係数αSPLDは、αs1から
として算出される。
αs1の最小到達可能値は、αSPLD=1に対する0.85Ts/16(雑音のみの期間において所望される)である。ニュートラルネットワークVADは、例えば、VADが音声の不在を示すときに更新を控えることによって、雑音のみの期間において有用であり得ることに留意されたい。
λ’は、以下のようにデータ駆動雑音トラッカによって提供される雑音分散推定値から計算され、
式中、
は、それぞれ、一次および基準チャネルに対するデータ駆動雑音分散推定値である。
は、前のフレームからのCsの推定値である。したがって、最初に、(23)が、計算され、その値は、新しいCの推定値を計算するために、(21)における統計を更新するために使用される。
(3.2.1 経験的推定量)
データ駆動雑音分散推定値
から、いくつかの経験的推定量もまた、構築されることができる。例えば、
の比率は、|Cのそのような推定量である。平滑化パラメータαに対する好適な値は、0.95Ts/16である。SPLDの経験的推定量は、
の比率をとることによって構築されることができ、式中、
は、データ駆動雑音トラッカによって提供される。この推定量は、位相独立性である利点を有するが、(21)に基づく推定量よりも低SNRにおいてあまり良好に機能しないことが見出された。
(4 いくつかの実施例)
本節では、人工および測定された雑音信号によるいくつかの結果が、PLD推定量(14)および(21)の性能を例証するために示される。第1の実施例では、人工デュアルチャネル信号が、構築される。一次クリーン音声信号は、(16kHzにおいてサンプリングされる)TIMITセンテンスであり、単位分散に正規化される。無音フレームは、除去されない。二次チャネルは、5で除算される同一の信号である。これは、20×log10(1/5)=-14dBのSPLDに対応する。一次チャネルにおける雑音は、白色雑音であり、基準チャネルにおける雑音は、適切な全極型フィルタを用いて白色雑音をフィルタ処理することによって取得される音声形状雑音である。両方の雑音信号は、最初に、単位分散に正規化され、次いで、一次チャネルにおけるSNRが5dBに等しくなるように、同一の係数を用いてスケーリングされる。図1は、クリーンおよびノイジー信号の平均スペクトルを示す。平均一次音声スペクトルは、より低い周波数範囲における雑音スペクトルよりも強いが、より高い周波数範囲におけるものよりも強くない。平均基準音声スペクトルは、雑音スペクトルよりもはるかに弱い。
図2は、真のNPLDおよびSPLDスペクトルと推定されたNPLDおよびSPLDスペクトルとを示す。SNR=5dBにおける白色雑音が、一次信号に対して使用され、等しい分散を伴う音声形状雑音が、基準信号に対して使用される。バイアス補正係数η=1.2が、使用された。NPLDは、平均音声スペクトルが非常に高いSNRを有する最低周波数を除いて、非常に正確に推定される。SPLDは、基準チャネルにおける音声が雑音よりもはるかに弱いにもかかわらず、より低い周波数範囲において非常に良好に推定される。それは、両方のチャネルが雑音によって氾濫するより高い周波数領域において過小推定される。
次の実施例は、測定されたデュアルマイクロホン雑音を使用する。実生活の雑音は、非常に多くの場合、ローパス特性を有する。
図3は、測定されたカフェ雑音の両方のチャネルに対する平均スペクトルを示す。マイクロホンは、10cm間隔を置かれた。両方の信号は、単位標準偏差に正規化された。殆どの周波数に対して、雑音は、基準チャネルにおいて若干より大きいことが観察された。この雑音は、(一次チャネルにおける)0dBのSNRにおいてMFLデータベースからのセンテンスとコンピュータミックスされた。
図4は、クリーンおよびノイジー信号の平均スペクトルを示す。デュアルマイクロホンのカフェ雑音は、一次チャネルにおいて0dBのSNRにおいて使用された。雑音は、非常に低い周波数範囲において、両方のチャネルにおいて音声を圧倒することが分かり得る。
図5は、図4のノイジー信号に対して測定された「真」のおよび推定されたPLDスペクトルを示す。測定されたPLDスペクトルは、両方のチャネルの平均雑音または音声スペクトルの比率から取得される。推定されたおよび真の測定されたPLDスペクトルは、非常に良好に合致することが分かり得る。SPLD推定値は、雑音が両方のチャネルにおいて音声を圧倒する最低周波数に対して不正確であり、殆ど音声エネルギーが存在しない最高周波数に対して不正確である。
多くの自然雑音源のローパス特性は、多くの場合、実践において、非常に低い周波数範囲においてSPLDを正確に推定することを非常に困難にするであろう。この理由から、実際の実装では、推定量(21)は、300Hzを下回る周波数に対して使用されなかった。代わりに、推定されたSPLDスペクトルの平均が、300Hzを上回る限定された範囲の周波数に対して使用される。平均化のための適切な周波数範囲は、例えば、音声信号が強い(特に、有声音声において)300〜1500Hzである。
(5 PLD補正の適用)
(5.1 雑音分散の補正)
NPLDおよびSPLD推定の問題を掘り下げる主な理由は、基準チャネルから取得される雑音分散推定値(6)を改良することであった。NPLDおよびSPLDスペクトルは、(6)の補正を計算するために使用されることができ、これは、一次チャネルにおける雑音分散に近似するはずである。基準チャネルにおける音声信号が非常に弱い場合では、NPLD補正のみを適用することで十分であろう。NPLD補正は、(6)に推定されたNPLDスペクトルを乗算することによって、容易に実装されることができる。
基準チャネルにおける音声信号は、雑音タイプ、音声タイプ、SNR、雑音源の場所、および電話の向きのような要因に応じて、時として、ある周波数帯域において雑音よりも強くあり得る。その場合、(6)は、雑音レベルを過大推定し、潜在的に、MMSEフィルタ処理プロセスにおいて有意な音声歪みを引き起こすであろう。音声電力に対する追加の補正が成され得る多くの方法が存在する。実験を通して、以下の方法が良好に機能することが、見出された。
(9)から、チャネル1の事前SNRξ1は、λ/|Cλに等しいことが分かり得る。同様に、(10)は、チャネル2の事前SNRξが|Cλs/λに等しいことを示す。したがって、以下の関係が、これらの事前SNR間に存在する。
(10)を|Cで乗算し、1+ξ=1+βξで除算することは、それをチャネル1の雑音分散項|Cλと等しくする。したがって、それは、(6)に成されるべき所望される補正である。事前SNRは、時間フレーム毎に更新されるので、|Yへの補正は、(6)の第2項において適用され、それを
に修正する。
補正は、推定されたPLDスペクトルおよびチャネル1の事前SNR(7)から計算されることができる。しかしながら、それを上回るものが、要求される。(27)において使用し得る事前SNR推定値
は、NPLD補正雑音分散を使用して、例えば、(7)から見出される。音声電力に対するいかなる補正も、その雑音分散推定値にまだ適用されていないので、音声が存在するとき、それは、雑音分散の過大推定値である。結果として生じる事前SNR推定値は、したがって、過小推定値である。これは、(27)において
で除算することが、音声エネルギーを完全には補正しないであろうことを意味する。より完全な補正が、事前SNR(7)および雑音分散(27)、(28)を反復的に計算することによって見出され得る。
完全に補正された雑音分散に基づいて事前SNRに対する方程式を使用することで、結果として生じる事前SNRに対する方程式が、多くの反復を伴わずに取得されることができる。(27)を(28)に代入し、結果として生じるPLD補正雑音分散に対する式を(7)に代入し、max演算子を省くと、解くことが容易である、
における二次多項式につながる。0、1、または2つの正の実数解が存在し得る。
ちょうど1つの正の解が存在する場合、これは、(27)に代入され、PLD補正雑音分散を見出すことができる。
事前SNRに対する2つの正の実数解が存在するとき、最小のものが、使用されるであろう。この状況は、max演算子なしで、(7)が負であるとき、起こり得る。これは、通常、非常に低いSNR状況に対応するので、二次方程式に対する最小解が、選定される。
いずれの正の実数解も存在しないとき、「不完全な」補正が、使用される、つまり、NPLD補正は、(6)に適用され、事前SNRは、(7)から計算され、それは、(27)において使用される。
代替補正方法が、基準チャネルに対して(6)に示されるように、一次および基準チャネルの両方における信号電力の平滑化に基づいて検討された。各チャネル分散推定値は、音声および雑音成分から成り、相対強度は、平均的に、NPLDおよびSPLDによって説明される。雑音成分を求めることができる。結果として生じる推定量は、かなり大きい分散を有し、ゼロよりも小さくさえなり得、そのための対抗策が、講じられる必要がある。したがって、いくつかの場合、以下に説明される補正方法(27)、(28)が、好ましくあり得る。
上記に説明される補正技法は、いくつかの異なるデータ組に対して試験された場合、客観的品質(PESQ、SNR、および減衰の観点から)および主観的品質の両方を改良する。
(5.2 レベル間差フィルタの修正)
レベル間差フィルタ(ILDF)は、MMSE利得を、一実施形態では、以下のような一次および基準チャネルの大きさの比率に依存する係数f
で乗算し、式中、τは、シグモイド関数の閾値であり、σは、その勾配パラメータである。ILDFは、残留雑音を抑制する傾向がある。一次大きさに対してより強い基準大きさは、より強い抑制をもたらす。固定パラメータτおよびσに対して、フィルタは、NPLDおよびSPLDが変化すると、異なるように機能するであろう。NPLDおよびSPLDが考慮されると、広い範囲の条件下で良好に機能するパラメータを選定することがより容易になる。これを行うための一方法は、(27)および(28)におけるものと同一のPLD補正を基準チャネルの大きさに適用することであり、すなわち、(29)において|Y(k,m)|の代わりに
を使用することである。
PLD変動とは別に、より積極的なフィルタ処理が、音声もまた含むフレームよりも雑音のみのフレームにおいて適用され得る。これを達成するための一方法は、閾値τをニュートラルネットワークVAD出力の関数
とすることにより、式中、Vは、0〜1の値に正規化されるVAD出力であり、τは、音声フレームにおいて使用することを望む閾値であり、τは、雑音フレームに対する閾値である。τ=1およびτ=1.5が、種々の実験に対して好適であった。
(5.3 他の用途)
雑音分散および後置フィルタ補正とは別に、NPLDおよびSPLDは、いくつかの他の方法において有用であり得る。いくつかの音声処理アルゴリズムが、信号特徴に対して訓練される。例えば、VADならびに音声および話者認識システムである。複数のチャネルが特徴を算出するために使用される場合、これらのアルゴリズムは、PLDベースの特徴補正からそれらの用途において利益を享受し得る。それは、そのような補正が、訓練において見られる特徴と実践において直面するものとの間の差異を減少させ得るからである。
いくつかの用途では、いくつかの利用可能なマイクロホンから選ぶための選択肢を有し得る。NPLDおよびSPLDは、最高信号対雑音比を伴うマイクロホンを選択することにおいて役立ち得る。
NPLDおよびSPLDは、マイクロホン較正のためにも使用され得る。マイクロホンに進入する試験信号が等しい強度である場合、NPLDまたはSPLDは、相対マイクロホン感度を決定する。
(6 概論)
図6は、NPLDおよびSPLDの推定および補正手順と、それらが新規のスペクトル音声増進システムに適合する方法との概観を示す。注記:本図の区分III−Aは、本文書の段落[0050]−[0062]に対応する。
区分III−Bは、段落[0063]−[0071]に対応する。
区分V−Aは、段落[0079]−[0089]に対応する。
区分V−Bは、段落[0090]−[0091]に対応する。
おそらく事前処理されたマイクロホン信号y(n)およびy(n)からの重複フレームは、窓処理され、FFTが、適用される。一次チャネルのスペクトルの大きさは、中間雑音分散、事前SNR、および音声分散推定値を作成するために使用される。基準チャネルのスペクトルの大きさは、雑音の大きさおよび中間雑音分散推定値を作成するために使用される。
両方のチャネルのこれらの量およびFFT係数から、雑音および音声PLD係数が、推定される。最終雑音分散推定値(27)、(28)、および事前SNR推定値は、区分V−Aに従って計算される。事後SNRもまた、算出され、MMSE利得が、算出される。
後処理段階では、MMSE利得は、レベル間差フィルタ、音楽雑音平滑化フィルタ、および無音声フレームを減衰させるフィルタによって修正される。最終雑音分散推定値における基準大きさに適用されたPLD補正は、レベル間差フィルタにおいても同様に使用される。
再構築段階では、一次FFT係数は、修正されたMMSE利得で乗算され、フィルタ処理された係数が、時間領域に戻るように変換される。明瞭化された音声が、重畳加算手順によって構築される。
本発明の実施形態はまた、デジタルデータを分析するためのコンピュータプログラム製品にも及び得る。そのようなコンピュータプログラム製品は、デジタルデータを分析する方法を実施するために、コンピュータプロセッサ上でコンピュータ実行可能命令を実行することが意図され得る。そのようなコンピュータプログラム製品は、エンコードされたコンピュータ実行可能命令を有するコンピュータ読み取り可能な媒体を備え得、コンピュータ実行可能命令は、好適なコンピュータ環境内の好適なプロセッサ上で実行されると、本明細書にさらに説明されるようなデジタルデータを分析する方法を実施する。
本発明の実施形態は、以下にさらに詳細に議論されるように、例えば、1つ以上のコンピュータプロセッサおよびデータ記憶装置もしくはシステムメモリ等のコンピュータハードウェアを含む専用または汎用コンピュータを備えているか、または利用し得る。本発明の範囲内の実施形態はまた、コンピュータ実行可能命令および/またはデータ構造を伝搬もしくは記憶するための物理的および他のコンピュータ読み取り可能な媒体を含む。そのようなコンピュータ読み取り可能な媒体は、汎用または専用コンピュータシステムによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータ実行可能命令を記憶するコンピュータ読み取り可能な媒体は、コンピュータ記憶媒体である。コンピュータ実行可能命令を伝搬するコンピュータ読み取り可能な媒体は、伝送媒体である。したがって、限定ではなく、例として、本発明の実施形態は、少なくとも2つの明確に異なる種類のコンピュータ読み取り可能な媒体、すなわち、コンピュータ記憶媒体と、伝送媒体とを備えていることができる。
コンピュータ記憶媒体は、RAM、ROM、EEPROM、CD−ROM、もしくは他の光学ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、またはコンピュータ実行可能命令もしくはデータ構造の形態の所望されるプログラムコード手段を記憶するように使用され得、汎用もしくは専用コンピュータによってアクセスされ得る、任意の他の物理的媒体を含む。
「ネットワーク」は、コンピュータシステムおよび/またはモジュールおよび/または他の電子デバイス間の電子データの転送を可能にする、1つ以上のデータリンクとして定義される。情報がネットワークまたは別の通信接続(有線、無線、または有線もしくは無線の組み合わせのいずれか)を経由してコンピュータに伝達もしくは提供されると、コンピュータは、適切に、接続を伝送媒体と見なす。伝送媒体は、汎用または専用コンピュータによって受信もしくはアクセスされ得る、コンピュータ実行可能命令および/もしくはデータ構造の形態の所望されるプログラムコード手段を伝搬もしくは伝送するように使用され得る、ネットワークおよび/もしくはデータリンクを含むことができる。上記の組み合わせもまた、コンピュータ読み取り可能な媒体の範囲内に含まれるべきである。
さらに、種々のコンピュータシステム構成要素に到達すると、コンピュータ実行可能命令またはデータ構造の形態のプログラムコード手段は、伝送媒体からコンピュータ記憶媒体に自動的に伝達されることができる(逆もまた同様である)。例えば、ネットワークまたはデータリンクを経由して受信されるコンピュータ実行可能命令もしくはデータ構造は、ネットワークインターフェースモジュール(例えば、「NIC」)内のRAMにおいてバッファリングされ、次いで、最終的に、コンピュータシステムRAMおよび/またはコンピュータシステムにおけるより揮発性の低いコンピュータ記憶媒体に伝達されることができる。したがって、コンピュータ記憶媒体は、また、(または場合によっては主として)伝送媒体を利用するコンピュータシステム構成要素に含まれ得ることを理解されたい。
コンピュータ実行可能命令は、例えば、プロセッサにおいて実行されると、汎用コンピュータ、専用コンピュータ、または専用処理デバイスに、ある機能もしくは機能群を実施させる命令およびデータを含む。コンピュータ実行可能命令は、例えば、プロセッサ上で直接実行され得るバイナリ、アセンブリ言語等の中間フォーマット命令、または特定の機械もしくはプロセッサを標的とするコンパイラによるコンパイルを要求し得るさらに高レベルのソースコードであり得る。本主題は、構造的特徴および/または方法論的行為に特有の言語で説明されたが、添付される請求項に定義される主題は、必ずしも、上記に説明される、説明される特徴または行為に限定されないことを理解されたい。むしろ、説明される特徴および行為は、本請求項を実装する例示的形態として開示される。
当業者は、本発明が、パーソナルコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、メッセージプロセッサ、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースまたはプログラマブル消費者用電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、モバイル電話、PDA、ページャ、ルータ、スイッチ等を含む、多くのタイプのコンピュータシステム構成を伴うネットワークコンピューティング環境において実践され得ることを理解するであろう。本発明はまた、ネットワークを通して(有線データリンク、無線データリンク、または有線および無線データリンクの組み合わせのいずれかによって)リンクされる、ローカルおよびリモートコンピュータシステムが両方ともタスクを実施する、分散システム環境において実践され得る。分散システム環境では、プログラムモジュールが、ローカルおよびリモート両方のメモリ記憶デバイスに位置し得る。
図7を参照すると、デジタルオーディオデータを分析するための例示的コンピュータアーキテクチャ600が、例証される。本明細書ではコンピュータシステム600とも称されるコンピュータアーキテクチャ600は、1つ以上のコンピュータプロセッサ602と、データ記憶装置とを含む。データ記憶装置は、コンピューティングシステム600内のメモリ604であり得、揮発性または不揮発性メモリであり得る。コンピューティングシステム600はまた、データまたは他の情報の表示のためのディスプレイ612も備え得る。コンピューティングシステム600はまた、コンピューティングシステム600が、例えば、ネットワーク(おそらくインターネット610等)を経由して他のコンピューティングシステム、デバイス、またはデータソースと通信することを可能にする、通信チャネル608も含み得る。コンピューティングシステム600はまた、デジタルまたはアナログデータのソースがアクセスされることを可能にする、マイクロホン606等の入力デバイスも備え得る。そのようなデジタルまたはアナログデータは、例えば、オーディオまたはビデオデータであり得る。デジタルまたはアナログデータは、ライブマイクロホンン等からのリアルタイムストリーミングデータの形態であり得る、またはコンピューティングシステム600によって直接アクセス可能である、もしくは通信チャネル608を通して、もしくはインターネット610等のネットワークを介してより遠隔でアクセスされ得る、データ記憶装置614からアクセスされる記憶されたデータであり得る。
通信チャネル608は、伝送媒体の例である。伝送媒体は、典型的には、コンピュータ読み取り可能な命令、データ構造、プログラムモジュール、または他のデータを搬送波もしくは他の転送機構等の変調データ信号に具現化し、任意の情報送達媒体を含む。限定ではなく、例として、伝送媒体は、有線ネットワークおよび直接有線接続等の無線媒体、ならびに音響、高周波、赤外線、および他の無線媒体等の無線媒体を含む。本明細書で使用されるような用語「コンピュータ読み取り可能な媒体」は、コンピュータ記憶媒体および伝送媒体を両方とも含む。
本発明の範囲内の実施形態はまた、その上に記憶されるコンピュータ実行可能命令またはデータ構造を伝搬もしくは有するためのコンピュータ読み取り可能な媒体を含む。「コンピュータ記憶媒体」と称される、そのような物理的コンピュータ読み取り可能な媒体は、汎用または専用コンピュータによってアクセスされ得る任意の利用可能な物理的媒体であり得る。限定ではなく、例として、そのようなコンピュータ読み取り可能な媒体は、RAM、ROM、EEPROM、CD−ROM、もしくは他の光学ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、またはコンピュータ実行可能命令もしくはデータ構造の形態の所望されるプログラムコード手段を記憶するように使用され得、汎用もしくは専用コンピュータによってアクセスされ得る、任意の他の物理的媒体等の物理的記憶装置および/またはメモリ媒体を含むことができる。
コンピュータシステムは、例えば、ローカルエリアネットワーク(「LAN」)、広域ネットワーク(「WAN」)、無線広域ネットワーク(「WWAN」)、およびさらにはインターネット110等のネットワークを経由して互いに接続され得る(またはその一部である)。故に、描写されるコンピュータシステムならびに任意の他の接続されるコンピュータシステムおよびそれらの構成要素はそれぞれ、メッセージ関連データを作成し、ネットワークを経由してメッセージ関連データ(例えば、インターネットプロトコル(「IP」)データグラムおよびIPデータグラムを利用する、伝送制御プロトコル(「TCP」)、ハイパーテキスト輸送プロトコル(「HTTP」)、または簡易メール転送プロトコル(「SMTP」)等の他の上位層プロトコル)を交換することができる。
開示される主題の他の側面、ならびにその種々の側面の特徴および利点は、上記に提供される開示、付随の図面、および添付される請求項の考慮を通して、当業者に明白となるはずである。
前述の開示は多くの詳細を提供しているが、これらは、続く請求項のいずれかの範囲を限定するものとして解釈されるべきではない。請求項の範囲から逸脱しない他の実施形態が、考案され得る。異なる実施形態からの特徴が、組み合わせて採用され得る。
最後に、本発明は、種々の例示的実施形態に対して上記に説明されたが、多くの変更、組み合わせ、および修正が、本発明の範囲から逸脱することなく、実施形態に成され得る。例えば、本発明は、音声検出における使用に対して説明されたが、本発明の側面は、他のオーディオ、ビデオ、データ検出スキームに容易に適用され得る。さらに、種々の要素、構成要素、および/またはプロセスが、代替方法において実装され得る。これらの代替は、特定の用途に応じて、または方法もしくはシステムの実装もしくは動作と関連付けられる任意の数の要因を考慮して、好適に選択されることができる。加えて、本明細書に説明される技法は、他のタイプの用途およびシステムと併用するために拡張または修正され得る。これらおよび他の変更または修正は、本発明の範囲内に含まれることが意図される。
(文献目録)
以下の参考文献は、その全体が、参照することによって本明細書に組み込まれる。

Claims (20)

  1. オーディオデバイスの一次マイクロホンと基準マイクロホンとの間の雑音電力レベル差(NPLD)を推定する方法であって、
    オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、
    前記オーディオデバイスの基準マイクロホンを用いて、前記オーディオ信号の基準チャネルを取得することと、
    前記オーディオ信号の前記基準チャネルの雑音の大きさを推定し、1つ以上の周波数に対する雑音分散推定値を提供することと、
    前記オーディオ信号の前記一次チャネルの高速フーリエ変換(FFT)係数の確率密度関数(PDF)をモデル化することと、
    前記PDFを最大化し、前記基準チャネルの前記雑音分散推定値と前記一次チャネルの雑音分散推定値との間のNPLDを提供することと、
    前記オーディオ信号の前記基準チャネルのFFT係数のPDFをモデル化することと、
    前記PDFを最大化し、前記一次チャネルの音声FFT係数と前記基準チャネルの音声FFT係数との間の複素音声電力レベル差(SPLD)係数を提供することと、
    前記雑音分散推定値、前記NPLD、および前記SPLD係数に基づいて、前記基準チャネルの補正された雑音の大きさを計算することと
    を含む、方法。
  2. 前記基準チャネルの雑音電力レベルは、前記一次チャネルの雑音電力レベルとは異なる、請求書1に記載の方法。
  3. 前記基準チャネルの雑音の大きさを推定すること、前記一次チャネルのFFT係数のPDFをモデル化すること、および前記PDFを最大化することは、連続的に行われ、前記NPLDを追跡することをさらに含む、請求書1に記載の方法。
  4. 前記NPLDを追跡することは、連続した時間フレームにわたる統計の指数平滑化を含む、請求項3に記載の方法。
  5. 前記連続した時間フレームにわたる統計の指数平滑化は、データ駆動帰納的雑音電力推定を含む、請求項4に記載の方法。
  6. 音声が前記オーディオ信号の少なくとも前記一次チャネルに存在する可能性を決定することをさらに含む、請求項3に記載の方法。
  7. 音声が前記オーディオ信号の少なくとも前記一次チャネルに存在する可能性が高い場合、前記追跡することが起こる速度を減速させる、請求項6に記載の方法。
  8. 前記基準チャネルの雑音の大きさを推定することは、データ駆動帰納的雑音電力推定を含む、請求項1に記載の方法。
  9. 前記オーディオ信号の前記一次チャネルのFFT係数のPDFをモデル化することは、複素ガウスPDFをモデル化することを含み、前記複素ガウス分布の平均は、前記NPLDに依存する、請求項1に記載の方法。
  10. 前記オーディオ信号の前記一次チャネルにおける音声と前記オーディオ信号の前記基準チャネルにおける音声との相対強度を決定することをさらに含む、請求項1に記載の方法。
  11. 前記相対強度を決定することは、経時的に前記相対強度を追跡することを含む、請求項10に記載の方法。
  12. 前記相対強度を決定することは、データ駆動帰納的雑音電力推定を含む、請求項10に記載の方法。
  13. 前記NPLDおよび前記SPLD係数を適用することに先立って、最小平均二乗(LMS)フィルタを適用することをさらに含む、請求項10に記載の方法。
  14. 前記基準チャネルの雑音の大きさを推定すること、前記一次チャネルのFFT係数のPDFをモデル化すること、および前記PDFを最大化することは、前記オーディオ信号の少なくともいくつかのフィルタ処理の前に起こる、請求項1に記載の方法。
  15. 前記基準チャネルの雑音の大きさを推定すること、前記一次チャネルのFFT係数のPDFをモデル化すること、および前記PDFを最大化することは、前記一次チャネルおよび前記基準チャネルの最小平均二乗誤差(MMSE)フィルタ処理の前に起こる、請求項14に記載の方法。
  16. 前記基準チャネルのFFT係数のPDFをモデル化することは、複素ガウス分布をモデル化することを含み、前記複素ガウス分布の平均は、前記複素SPLD係数に依存する、請求項1に記載の方法。
  17. 前記基準チャネルの雑音の大きさを推定すること、前記一次チャネルおよび基準チャネルのFFT係数のPDFをモデル化すること、および前記PDFを最大化することは、オーディオ信号が主要フィルタ処理または明瞭化プロセスを受けた後、前記オーディオ信号のレベル差後処理のために前記基準チャネルの雑音分散をスケーリングすることを含む、請求項1に記載の方法。
  18. 音声活動および識別可能な話者音声活動のうちの1つ以上のものを検出することにおいて、前記NPLDおよびSPLDを使用することをさらに含む、請求項1に記載の方法。
  19. 前記NPLDおよびSPLDは、最高の信号対雑音比を達成するために、マイクロホン間の選択において使用される、請求項1に記載の方法。
  20. オーディオデバイスであって、
    オーディオ信号を受信し、前記オーディオ信号の一次チャネルを通信するための一次マイクロホンと、
    前記オーディオ信号を前記一次マイクロホンとは異なる状況で受信し、前記オーディオ信号の基準チャネルを通信するための基準マイクロホンと、
    前記オーディオ信号をフィルタ処理および/または明瞭化するために前記オーディオ信号を処理する少なくとも1つの処理要素と
    を備え、
    前記少なくとも1つの処理要素は、オーディオデバイスの一次マイクロホンと基準マイクロホンとの間の雑音電力レベル差(NPLD)を推定する方法を行うためのプログラムを実行するように構成され、
    前記方法は、
    オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、
    前記オーディオデバイスの基準マイクロホンを用いて、前記オーディオ信号の基準チャネルを取得することと、
    前記オーディオ信号の前記基準チャネルの雑音の大きさを推定し、1つ以上の周波数に対する雑音分散推定値を提供することと、
    前記オーディオ信号の前記一次チャネルの高速フーリエ変換(FFT)係数の確率密度関数(PDF)をモデル化することと、
    前記PDFを最大化し、前記基準チャネルの前記雑音分散推定値と前記一次チャネルの雑音分散推定値との間のNPLDを提供することと、
    前記オーディオ信号の基準チャネルのFFT係数のPDFをモデル化することと、
    前記PDFを最大化し、前記一次チャネルの音声FFT係数と前記基準チャネルの音声FFT係数との間の複素音声電力レベル差(SPLD)係数を提供することと、
    前記雑音分散推定値、前記NPLD、および前記SPLD係数に基づいて、前記基準チャネルの補正された雑音の大きさを計算することと
    を含む、オーディオデバイス。
JP2017525365A 2014-11-12 2015-11-12 一次チャネルと基準チャネルとの間の雑音および音の電力レベル差の決定 Active JP6643336B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462078828P 2014-11-12 2014-11-12
US62/078,828 2014-11-12
US14/938,798 US10127919B2 (en) 2014-11-12 2015-11-11 Determining noise and sound power level differences between primary and reference channels
US14/938,798 2015-11-11
PCT/US2015/060323 WO2016077547A1 (en) 2014-11-12 2015-11-12 Determining noise and sound power level differences between primary and reference channels

Publications (2)

Publication Number Publication Date
JP2017538344A JP2017538344A (ja) 2017-12-21
JP6643336B2 true JP6643336B2 (ja) 2020-02-12

Family

ID=55913289

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017525365A Active JP6643336B2 (ja) 2014-11-12 2015-11-12 一次チャネルと基準チャネルとの間の雑音および音の電力レベル差の決定

Country Status (6)

Country Link
US (1) US10127919B2 (ja)
EP (1) EP3218902A4 (ja)
JP (1) JP6643336B2 (ja)
KR (1) KR102431896B1 (ja)
CN (1) CN107408394B (ja)
WO (1) WO2016077547A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI573133B (zh) * 2015-04-15 2017-03-01 國立中央大學 音訊處理系統及方法
JP6732944B2 (ja) * 2016-12-16 2020-07-29 日本電信電話株式会社 目的音強調装置、雑音推定用パラメータ学習装置、目的音強調方法、雑音推定用パラメータ学習方法、プログラム
GB201719734D0 (en) * 2017-10-30 2018-01-10 Cirrus Logic Int Semiconductor Ltd Speaker identification
US10847173B2 (en) 2018-02-13 2020-11-24 Intel Corporation Selection between signal sources based upon calculated signal to noise ratio
JP2021536692A (ja) * 2018-09-13 2021-12-27 アリババ グループ ホウルディング リミテッド ヒューマンマシン音声対話装置及びその操作方法
TWI759591B (zh) * 2019-04-01 2022-04-01 威聯通科技股份有限公司 語音增強方法及系統
CN110767245B (zh) * 2019-10-30 2022-03-25 西南交通大学 基于s型函数的语音通信自适应回声消除方法
KR102508413B1 (ko) * 2019-11-01 2023-03-10 가우디오랩 주식회사 주파수 스펙트럼 보정을 위한 오디오 신호 처리 방법 및 장치
CN110853664B (zh) * 2019-11-22 2022-05-06 北京小米移动软件有限公司 评估语音增强算法性能的方法及装置、电子设备
CN113473314A (zh) * 2020-03-31 2021-10-01 华为技术有限公司 音频信号处理方法以及相关设备
CN111627426B (zh) * 2020-04-30 2023-11-17 锐迪科微电子科技(上海)有限公司 消除语音交互中信道差异的方法及系统、电子设备及介质
DE102020209050B4 (de) * 2020-07-20 2022-05-25 Sivantos Pte. Ltd. Verfahren zum Betrieb eines Hörsystems, Hörsystem, Hörgerät
CN112750447B (zh) * 2020-12-17 2023-01-24 云知声智能科技股份有限公司 一种去除风噪的方法
CN113270106B (zh) * 2021-05-07 2024-03-15 深圳市友杰智新科技有限公司 双麦克风的风噪声抑制方法、装置、设备及存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI114247B (fi) * 1997-04-11 2004-09-15 Nokia Corp Menetelmä ja laite puheen tunnistamiseksi
EP2237270B1 (en) * 2009-03-30 2012-07-04 Nuance Communications, Inc. A method for determining a noise reference signal for noise compensation and/or noise reduction
US8737636B2 (en) * 2009-07-10 2014-05-27 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive active noise cancellation
US9378754B1 (en) * 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
JP5573517B2 (ja) * 2010-09-07 2014-08-20 ソニー株式会社 雑音除去装置および雑音除去方法
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
US9330675B2 (en) * 2010-11-12 2016-05-03 Broadcom Corporation Method and apparatus for wind noise detection and suppression using multiple microphones
US9264804B2 (en) * 2010-12-29 2016-02-16 Telefonaktiebolaget L M Ericsson (Publ) Noise suppressing method and a noise suppressor for applying the noise suppressing method
US8903722B2 (en) * 2011-08-29 2014-12-02 Intel Mobile Communications GmbH Noise reduction for dual-microphone communication devices
US8751220B2 (en) * 2011-11-07 2014-06-10 Broadcom Corporation Multiple microphone based low complexity pitch detector
US9094749B2 (en) * 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
US20140037100A1 (en) * 2012-08-03 2014-02-06 Qsound Labs, Inc. Multi-microphone noise reduction using enhanced reference noise signal
US9330652B2 (en) 2012-09-24 2016-05-03 Apple Inc. Active noise cancellation using multiple reference microphone signals
US20150262574A1 (en) * 2012-10-31 2015-09-17 Nec Corporation Expression classification device, expression classification method, dissatisfaction detection device, dissatisfaction detection method, and medium
WO2014127543A1 (en) 2013-02-25 2014-08-28 Spreadtrum Communications(Shanghai) Co., Ltd. Detecting and switching between noise reduction modes in multi-microphone mobile devices
US9106989B2 (en) 2013-03-13 2015-08-11 Cirrus Logic, Inc. Adaptive-noise canceling (ANC) effectiveness estimation and correction in a personal audio device
US9338551B2 (en) 2013-03-15 2016-05-10 Broadcom Corporation Multi-microphone source tracking and noise suppression

Also Published As

Publication number Publication date
US10127919B2 (en) 2018-11-13
JP2017538344A (ja) 2017-12-21
WO2016077547A1 (en) 2016-05-19
KR20170082595A (ko) 2017-07-14
CN107408394B (zh) 2021-02-05
EP3218902A4 (en) 2018-05-02
US20160134984A1 (en) 2016-05-12
CN107408394A (zh) 2017-11-28
EP3218902A1 (en) 2017-09-20
KR102431896B1 (ko) 2022-08-16

Similar Documents

Publication Publication Date Title
JP6643336B2 (ja) 一次チャネルと基準チャネルとの間の雑音および音の電力レベル差の決定
JP6694426B2 (ja) ランニング範囲正規化を利用したニューラルネットワーク音声活動検出
JP5186510B2 (ja) スピーチ明瞭度強化方法と装置
Gerkmann et al. Noise power estimation based on the probability of speech presence
KR101120679B1 (ko) 이득-제한된 잡음 억제
Gerkmann et al. Unbiased MMSE-based noise power estimation with low complexity and low tracking delay
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
JP5842056B2 (ja) 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
US9548064B2 (en) Noise estimation apparatus of obtaining suitable estimated value about sub-band noise power and noise estimating method
JP6748304B2 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
US10332541B2 (en) Determining noise and sound power level differences between primary and reference channels
WO2020024787A1 (zh) 音乐噪声抑制方法及装置
JP2016006536A (ja) 複素音響共鳴音声分析システム
BR112014009647B1 (pt) Aparelho de atenuação do ruído e método de atenuação do ruído
Das et al. Application of the tuned Kalman filter in speech enhancement
Rehr et al. An analysis of adaptive recursive smoothing with applications to noise PSD estimation
Parchami et al. Model-based estimation of late reverberant spectral variance using modified weighted prediction error method
Samui et al. Two-Stage Temporal Processing for Single-Channel Speech Enhancement.
JP2015141335A (ja) 雑音推定装置、方法及びプログラム
US9570095B1 (en) Systems and methods for instantaneous noise estimation
JP6000094B2 (ja) 話者適応化装置、話者適応化方法、プログラム
Moliner et al. BUDDy: Single-Channel Blind Unsupervised Dereverberation with Diffusion Models
Herzog et al. Blind Single-Channel Dereverberation Using a Recursive Maximum-Sparseness-Power-Prediction-Model
JP2017067951A (ja) 雑音推定装置、プログラム及び方法、並びに、音声処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200106

R150 Certificate of patent or registration of utility model

Ref document number: 6643336

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250