JP6636937B2 - 状況に応じた過渡抑制 - Google Patents

状況に応じた過渡抑制 Download PDF

Info

Publication number
JP6636937B2
JP6636937B2 JP2016554861A JP2016554861A JP6636937B2 JP 6636937 B2 JP6636937 B2 JP 6636937B2 JP 2016554861 A JP2016554861 A JP 2016554861A JP 2016554861 A JP2016554861 A JP 2016554861A JP 6636937 B2 JP6636937 B2 JP 6636937B2
Authority
JP
Japan
Prior art keywords
frequency bin
segment
magnitude
probability
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016554861A
Other languages
English (en)
Other versions
JP2017513046A5 (ja
JP2017513046A (ja
Inventor
スコグランド、ジャン
レーブス、アレハンドロ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2017513046A publication Critical patent/JP2017513046A/ja
Publication of JP2017513046A5 publication Critical patent/JP2017513046A5/ja
Application granted granted Critical
Publication of JP6636937B2 publication Critical patent/JP6636937B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)
  • Noise Elimination (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本開示は、状況に応じた過渡抑制に関する。
通常のオーディオまたはビデオ通話(特に、多くの参加者を含むもの)では、話していない参加者によって生成される雑音(ノイズ)が話している参加者のスピーチに混ざり、それによって、気を散らせたり、さらには会話を中断させたりすることがある。一例のシナリオは、会議呼の各参加者がその会議呼に接続するために自身のコンピュータを用いつつ、やはりそのコンピュータを用い、並行して作業を行っている(例えば、その会議呼についての記録をタイプしている)場合である。コンピュータ(例えば、ラップトップ・コンピュータ)の埋込型のマイクロホン、スピーカ、およびウェブカメラによって会議呼のセットアップが非常に容易となっても、それらのフィーチャによって、フィードバック、ファン・ノイズ、およびボタンのクリック・ノイズなど、特定の迷惑なノイズも導入される。ボタンのクリック・ノイズ(一般に、キーストロークによって生じる機械的な衝撃による)は、その会議呼の全参加者が主たる会話とは別に聞き得る邪魔なキー・クリックを含むことがある。ラップトップ・コンピュータについて言えば、例えば、ボタンのクリック・ノイズは、ラップトップ・ケース内のマイクロホンとキーボードとの間の機械的な接続のため、相当に迷惑になることがある。
キー・クリックなどの過渡ノイズが総合的なユーザ・エクスペリエンスに与える影響は、それが発生する状況に応じて異なる。例えば、アクティブな発声されたスピーチ・セグメント中では、話している参加者の声と混ざったキー・クリックは、静寂期間、すなわち、バックグラウンド・ノイズしか存在しない期間と比べ、よりマスクされ、他の参加者に気付かれにくい。この後者の状況では、キー・クリックは参加者に対し、より顕著であり、より邪魔であったり気を散らしたりするものとして知覚されるであろう。
このサマリでは、本開示の一部の態様の基本理解を提供するために、単純化された形態による1つの概念の選択が導入される。このサマリは開示の広範な概観ではなく、このサマリによって開示の重要または重大な要素を識別したり、開示の範囲を線引きしたりすることは意図していない。このサマリは、以下の詳細な説明に対する前書きとして開示の概念の一部を提示するに過ぎない。
本開示は、一般に信号処理のための方法およびシステムに関する。より詳細には、本開示の態様は、過渡が検出されセグメントが分類される場合において、様々なタイプのオーディオ・セグメント(例えば、発声されたスピーチ・セグメント、発声されていないセグメントなど)に対する様々なタイプまたは量のノイズ抑制を実行することに関する。
本開示の一実施形態は、オーディオ信号中の過渡ノイズを抑制するためのコンピュータが実行する方法に関する。この方法は、過渡ノイズを含むオーディオ信号のセグメントに対する音声確率を推定する工程であって、推定された前記音声確率は前記セグメントが音声データを含む確率である、工程と、前記セグメントに対する推定された前記音声確率が確率閾値より大きいと判定することに応じて、前記セグメントに対して第1のタイプの抑制を実行する工程と、前記セグメントに対する推定された前記音声確率が前記確率閾値より小さいと判定することに応じて、前記セグメントに対して第2のタイプの抑制を実行する工程であって、前記第2のタイプの抑制は、前記セグメントに含まれている前記過渡ノイズを前記第1のタイプの抑制とは異なる程度まで抑制する、工程と、を備える。
別の実施形態では、過渡ノイズを抑制するための方法は、前記セグメントに対する推定された前記音声確率を確率閾値と比較する工程と、前記比較に基づき、推定された前記音声確率が前記確率閾値より大きいと判定する工程と、をさらに備える。
さらに別の実施形態では、過渡ノイズを抑制するための方法は、前記セグメントに対する推定された前記音声確率を確率閾値と比較する工程と、前記比較に基づき、推定された前記音声確率が前記確率閾値より小さいと判定する工程と、をさらに備える。
さらに別の実施形態では、過渡ノイズを抑制するための方法は、前記オーディオ信号の前記セグメントに対する推定された過渡確率を受信する工程であって、推定された前記過渡確率は過渡ノイズが前記セグメントに存在する確率である、工程と、受信された推定された前記過渡確率に基づき、前記オーディオ信号の前記セグメントが過渡ノイズを含むと判定する工程と、をさらに備える。
本開示の別の実施形態は、オーディオ信号中の過渡ノイズを抑制するためのシステムに関する。このシステムは、1以上のプロセッサと、前記1以上のプロセッサに結合されており命令が記憶されているコンピュータ可読媒体と、を備え、前記コンピュータ可読媒体は前記1以上のプロセッサによる実行時、前記1以上のプロセッサに、過渡ノイズを含むオーディオ信号のセグメントに対する音声確率を推定する工程であって、推定された前記音声確率は前記セグメントが音声データを含む確率である、工程と、前記セグメントに対する推定された前記音声確率が確率閾値より大きいと判定することに応じて、前記セグメントに対して第1のタイプの抑制を実行する工程と、前記セグメントに対する推定された前記音声確率が前記確率閾値より小さいと判定することに応じて、前記セグメントに対して第2のタイプの抑制を実行する工程であって、前記第2のタイプの抑制は、前記セグメントに含まれている前記過渡ノイズを前記第1のタイプの抑制とは異なる程度まで抑制する、工程と、を行わせる。
別の実施形態では、過渡ノイズを抑制するためのシステムにおける前記1以上のプロセッサは、前記セグメントの声帯襞が振動している領域を識別する工程と、前記セグメントの前記声帯襞が振動している前記領域は発声されたスピーチを含む領域であると判定する工程と、をさらに行う。
さらに別の実施形態では、過渡ノイズを抑制するためのシステムにおける前記1以上のプロセッサは、前記セグメントに対する推定された前記音声確率を確率閾値と比較する工程と、前記比較に基づき、推定された前記音声確率が前記確率閾値より大きいと判定する工程と、をさらに行う。
さらに別の実施形態では、過渡ノイズを抑制するためのシステムにおける前記1以上のプロセッサは、前記セグメントに対する推定された前記音声確率を確率閾値と比較する工程と、前記比較に基づき、推定された前記音声確率が前記確率閾値より小さいと判定する工程と、をさらに行う。
別の実施形態では、過渡ノイズを抑制するためのシステムにおける前記1以上のプロセッサは、前記オーディオ信号の前記セグメントに対する推定された過渡確率を受信する工程であって、推定された前記過渡確率は過渡ノイズが前記セグメントに存在する確率である、工程と、受信された推定された前記過渡確率に基づき、前記オーディオ信号の前記セグメントが過渡ノイズを含むと判定する工程と、をさらに行う。
本開示のさらに別の実施形態は、オーディオ信号中の過渡ノイズを抑制するためのコンピュータが実行する方法に関する。この方法は、過渡ノイズを含むオーディオ信号のセグメントに対する音声確率を推定する工程であって、推定された前記音声確率は前記セグメントが音声データを含む確率である、工程と、前記セグメントに対する推定された前記音声確率が第1の音声状態に対応すると判定することに応じて、前記セグメントに対して第1のタイプの抑制を実行する工程と、前記セグメントに対する推定された前記音声確率が第2の音声状態に対応すると判定することに応じて、前記セグメントに対して第2のタイプの抑制を実行する工程であって、前記第2のタイプの抑制は、前記セグメントに含まれている前記過渡ノイズを前記第1のタイプの抑制とは異なる程度まで抑制する、工程と、を備える。
さらに別の実施形態では、過渡ノイズを抑制するための方法は、前記セグメントに対する推定された前記音声確率が第3の音声状態に対応すると判定することに応じて、前記セグメントに対して第3のタイプの抑制を実行する工程であって、前記第3のタイプの抑制は、前記セグメントに含まれている前記過渡ノイズを前記第1のタイプの抑制および前記第2のタイプの抑制とは異なる程度まで抑制する、工程と、をさらに備える。
1以上の他の実施形態では、本明細書に記載の方法およびシステムは、次の追加の特徴のうちの1以上を随意に備えることができる。推定された前記音声確率は、ピッチ推定部から受信される発声情報に基づく。前記音声確率推定工程は、前記セグメントの発声されたスピーチを含む領域を識別する工程を含む。前記セグメントの発声されたスピーチを含む領域を識別する工程は、前記セグメントの声帯襞が振動している領域を識別する工程を含む。前記オーディオ信号の前記セグメントに対する推定された前記音声確率は、前記オーディオ信号の前記セグメントについて受信された音声区間データに基づく。前記第2のタイプの抑制は、前記セグメントに含まれている前記過渡ノイズを前記第1のタイプの抑制より大きい程度まで抑制する。前記第2のタイプの抑制は、前記セグメントに含まれている前記過渡ノイズを前記第1のタイプの抑制より小さい程度まで抑制する。
本開示のさらなる適用の範囲は後述する詳細な説明から明らかになるであろう。しかしながら、係る詳細な説明から本開示の精神および範囲内の様々な変更および修正が当業者には明らかとなるので、係る詳細な説明および特定の例は好適な実施形態を示すとともに例示として与えられているに過ぎないことが理解される。
本開示のこれらのおよび他の目的、特徴、および特性は、本出願の一部をなす添付の特許請求の範囲および図面とともに以下の詳細な説明の検討から、当業者には、より明らかとなるだろう。
本明細書に記載の1以上の実施形態による、状況に応じた過渡ノイズ抑制のための一適用例を示す図。 本明細書に記載の1以上の実施形態による、状況に応じた過渡ノイズ抑制のための一例のシステムを示すブロック図。 本明細書に記載の1以上の実施形態による、オーディオ信号の過渡ノイズ抑制および復元のための一例の方法を示すフローチャート。 本明細書に記載の1以上の実施形態による、オーディオ信号は発声されていないデータ/非スピーチ・オーディオ・データを含むという判定に基づくオーディオ信号の復元のための一例の方法を示すフローチャート。 本明細書に記載の1以上の実施形態による、オーディオ信号が音声データを含むという判定に基づくオーディオ信号の復元のための一例の方法を示すフローチャート。 本明細書に記載の1以上の実施形態による、状況に応じた過渡ノイズ抑制用に構成されている一例のコンピューティング・デバイスを示すブロック図。
本明細書において提供されている見出しは便宜上のものに過ぎず、本開示において請求される範囲やその意味に必ずしも影響を与えるものではない。
図面では、理解を容易にするとともに便宜を図るため、同じ参照符号や任意の頭字語によって、同じもしくは同様の構造または機能を有する要素または作用が識別される。図面について、以下の詳細な説明において詳細に説明する。
様々な例および実施形態について、本明細書に記載する。以下の記載では、それらの例の十分な理解や実施のための具体的な詳細を提供する。当業者には、しかしながら、本明細書に記載の1以上の実施形態がそれらの詳細のうちの多くを無くして行われ得ることが理解されるであろう。同様に、当業者には、本開示の1以上の実施形態が本明細書に記載されていない多くの他の明らかな特徴を含んでよいことも理解されるであろう。これに加えて、一部の周知の構造または機能については、関連する記載を不必要に不明瞭にすることを避けるべく、以下に詳細に図示または記載されていない場合がある。
既存のノイズ抑制方法について言えば、抑制とスピーチ歪みとの間には、一般に設計のトレードオフが存在する。例えば、少なくとも一部の既存のアプローチでは、抑制を大きくすることによって、代わりにノイズの抑制された音声信号が歪むことがしばしばある。
本開示の実施形態は、オーディオ信号に対し状況に応じた過渡ノイズ抑制を提供するための方法およびシステムに関する。過渡ノイズのノイズ抑制に対する既存のアプローチに関する上述の欠点に鑑み、本開示の方法およびシステムは、信号にスピーチがほとんどまたは全く検出されない状況において過渡ノイズ抑制および信号復元を増やす(例えば、より高いレベルの戦略またはより積極的な戦略)とともに、信号の発声されたスピーチ・セグメントにおいて過渡ノイズ抑制および信号復元を減らす(例えば、より低いレベルの戦略またはより積極的でない戦略)ように設計されている。以下により詳細に記載するように、本開示の方法およびシステムでは、過渡が検出されセグメントが分類される場合、様々なタイプのオーディオ・セグメント(例えば、発声されたスピーチ・セグメント、発声されていないセグメントなど)において様々なタイプ(例えば、量)のノイズ抑制が実行される。
本明細書に記載の1以上の実施形態では、様々な種類(例えば、タイプ、量など)の抑制が、ユーザが話しているか否か(例えば、ユーザに関連付けられている信号が、オーディオの発声されたセグメントを含むか、オーディオの発声されていない/非スピーチ・セグメントを含むか)に応じて、そのユーザに関連付けられているオーディオ信号に対し適用されることができる。例えば、1以上の実施形態では、参加者が話していないか、参加者に関連付けられている信号が、発声されていない/非スピーチ・オーディオ・セグメントを含む場合、その参加者の信号に対し、過渡抑制および信号復元に対するより積極的な戦略が利用される。他方、発声されたオーディオが参加者の信号中に検出される(例えば、参加者が話している)場合、本明細書に記載の方法およびシステムでは、よりソフトで、より積極的でない抑制および復元が適用される。
発声されたオーディオを含む信号に対し、よりソフトな抑制および復元を適用することによって、信号の任意の歪みが最小化され、それによって、その信号から生成される結果のスピーチの明瞭性が維持される。各信号に対して決定される「音声状態」にしたがって様々な抑制および復元スキームを適用することによって、検出される過渡すべてを抑制すること(またその結果として、信号に含まれているスピーチを歪めること)と、抑制を全く行わないこと(したがって、歪みが回避されるものの、信号が過渡を含むままとなること)との間で選択を行う必要が除去される。本明細書に記載の1以上の実施形態では、音声状態は、オーディオのセグメントに対し、例えば、そのセグメントに対し生成される音声確率推定値に基づき、決定されてよい。この推定される音声確率は、そのセグメントが音声データを含む確率である。
本明細書に記載の1以上の実施形態は、オーディオ・ストリームからの検出される過渡ノイズ(キー・クリックを含む)を抑制するように構成されているノイズ抑制コンポーネントに関する。例えば、1以上の実施形態では、ノイズ抑制は周波数領域において実行され、過渡ノイズ(与えられると仮定される)の存在の確率に依存する。当業者に知られている様々な過渡ノイズ検出器のうちのいずれも、この目的に用いられてよいことが理解される。
図1には、本開示の1以上の実施形態による、状況に応じた過渡ノイズ抑制のための一適用例を示す。例えば、複数のユーザ(例えば、参加者、個人など)120a,120b,120c〜120n(ここで「n」は任意の数である)は、オーディオ/ビデオ通信セッション(例えば、オーディオ/テレビ会議)に参加している。ユーザ120は、例えば、有線または無線の接続またはネットワーク105を通じて各々と通信状態にあり、ユーザ120の各々は、様々な適用可能なユーザデバイス130(例えば、ラップトップ・コンピュータ、デスクトップ・コンピュータ、タブレット・コンピュータ、スマートフォンなど)のうちのいずれかを用いて、通信セッションに参加している。
1以上の実施形態では、通信セッションに参加するために用いられているコンピューティング・デバイス130のうちの1以上は、過渡ノイズのソースとなり得るコンポーネントまたはアクセサリを含み得る。例えば、コンピューティング・デバイス130のうちの1以上は、通信セッション中に参加者120によって用いられる場合、その他の参加者に検出され得る(例えば、聞こえるキー・クリックまたは音として)過渡ノイズを生成し得るキーボードまたはタイプ・パッドを有し得る。
図2には、本明細書に記載の1以上の実施形態による、入来オーディオ信号に対し、その信号の決定された音声状態に基づき状況に応じた過渡抑制を実行するための一例のシステムを示す。1以上の実施形態では、システム200は、ビデオ/オーディオ会議用の通信経路の送信側エンドポイントにおいて(例えば、図1に示すユーザ120のうちの1以上に関連付けられているエンドポイントにおいて)動作してよく、過渡検出部220と、音声区間検出(VAD)ユニット230と、ノイズ抑制部240と、送信ユニット270とを備えてよい。これに加えて、システム200は、図3〜図5に示すアルゴリズム(以下により詳細に記載する)と同様の1以上のアルゴリズムを実行してもよい。
検出システム200へ入力されるオーディオ信号210は、過渡検出部220、VADユニット230、およびノイズ抑制部240へ渡されてよい。1以上の実施形態では、過渡検出部は、オーディオ信号210中の過渡ノイズの存在を、この信号に関連付けられている入来オーディオ・データを主としてまたは専ら用いて、検出するように構成されてよい。例えば、過渡検出部は、オーディオ信号210中の中心から離れた過渡ノイズ・イベントを識別する(例えば、過渡ノイズ・パルスと音声信号との間のスペクトルおよび時間特性における対比を利用することによって)予測モデルにおける基準として、オーディオ信号210の何らかの時間−周波数表現(例えば、離散ウェーブレット変換(DWT)、ウェーブレット・パケット変換(WPT)など)を利用してもよい。結果として、過渡検出部は、信号210に存在する過渡ノイズの推定される確率を決定し、この過渡確率推定値(225)をノイズ抑制部240に送ることができる。
VADユニット230は、入力信号210を解析するとともに、当業者に知られている様々な技術のいずれかを用いて、音声データが信号210に存在するか否かを検出するように構成されてよい。信号210のその分析に基づき、VADユニット230はノイズ抑制部240に音声確率推定値(235)を送ってもよい。
過渡確率推定値(225)および音声確率推定値(235)は、複数のタイプの抑制/復元のいずれを信号210に適用するかを決定するために、ノイズ抑制部240によって利用されてよい。本明細書により詳細に記載するように、ノイズ抑制部240は、オーディオ信号210が音声オーディオ(例えば、スピーチ・データ)を含むか否かに応じて、オーディオ信号210に対する「ハードな」または「ソフトな」復元を実行してもよい。
なお、本開示の1以上の他の実施形態では、システム200は、上述の送信者側エンドポイントに加えて、または代えて、ビデオ/オーディオ会議の参加者間の通信経路における他のポイントにおいて動作してもよい。例えば、システム200は、通信経路の受信者側エンドポイントにおいて、再生用に受信された信号に対し状況に応じた過渡抑制を実行してもよい。
図3には、本明細書に記載の1以上の実施形態による、オーディオ信号の過渡ノイズ抑制および復元のための一例の処理を示す。1以上の実施形態では、この一例の処理300は、上述において詳細に記載し図2に示した、状況に応じた過渡抑制用の一例のシステム200におけるコンポーネントのうちの1以上によって実行されることができる。
示すように、処理300では、オーディオのセグメントが、発声されたセグメントであると判定されるか、発声されていない/非スピーチ・セグメントであると判定されるかに応じて、様々な抑制戦略(例えば、ブロック315,320)が適用される。例えば、ブロック305にてオーディオ信号のセグメントを周波数領域に対して変換するために、そのセグメントに高速フーリエ変換(FFT)を適用した後、ブロック310にて、そのセグメントに関連付けられている音声確率が確率閾値より大きいか否かについて判定が行われてもよい。例えば、確率閾値は所定の固定確率であってよい。1以上の実施形態では、オーディオ・セグメントに関連付けられている音声確率は、この一例の処理300の他に、および/または一例の処理300に先立って生成される音声情報に基づく。例えば、ブロック310にて利用される音声確率は、例えば、音声区間検出ユニット(例えば、図2に示した一例のシステム200におけるVADユニット230)から受信される音声情報に基づいてもよい。別の例では、セグメントに関連付けられている音声確率は、例えば、ピッチ推定アルゴリズムまたはピッチ推定部から受信されるスピーチ・サウンド内の発声に関する情報に基づいてもよい。例えば、ピッチ推定部から受信されるスピーチ・サウンド内の発声に関する情報は、オーディオ・セグメントの声帯襞が振動している領域を識別するために用いられてもよい。
ブロック310にて、オーディオ・セグメントに関連付けられている音声確率が確率閾値より大きいと判定される場合、ブロック320にて、このセグメントは「ソフトな」復元(例えば、ブロック315の「ハードな」復元に比べ、より積極的でない抑制)を通じて処理される。他方、ブロック310にてオーディオ・セグメントに関連付けられている音声確率が確率閾値以下であると判定される場合、ブロック315にて、このセグメントは「ハードな」復元(例えば、ブロック320の「ソフトな」復元に比べ、より積極的な抑制)を通じて処理される。
セグメントに関連付けられている音声確率と確率閾値との比較(ブロック310)に基づき、ハードまたはソフトな復元(それぞれ、ブロック315および320)を実行することによって、オーディオの発声されていない/非スピーチ・ブロックのより積極的な抑制処理と、発声された音を含むオーディオ・ブロックのより保守的な抑制処理とが可能となる。本開示の1以上の実施形態では、ブロック315(ハードな復元用)にて実行される動作は、図4に示し以下により詳細に記載する一例の処理400においてブロック405にて実行される動作に対応してもよい。同様に、ブロック320(ソフトな復元用)にて実行される動作は、図5に示し以下により詳細に記載する一例の処理500においてブロック510にて実行される動作に対応してもよい。
ブロック315,320、ブロック325における抑制/復元処理のいずれかに続き、そのオーディオ・セグメントに対するスペクトル平均が更新されてもよい。ブロック330にて、信号は、時間領域に変換して戻されるために、逆FFT(IFFT)を受けてもよい。
図4には、オーディオ信号は発声されていない/非スピーチ・オーディオ・データを含むという判定に基づく、オーディオ信号のハードな復元のための一例の処理を示す。例えば、このハードな復元処理400は、第1の音声状態(例えば、音声データを含む信号の様々な確率に対する複数の可能な音声状態のうちの)を有するオーディオ信号に基づき実行されてよい。ここで、第1の音声状態は、その信号に関連付けられている音声確率推定値が小さいこと(発声されていない/非スピーチデータを含む信号の高い確率が存在することを示す)に対応し、第2の音声状態は、音声確率推定値が第1の音声状態に対応する確率推定値より大きいことに対応する、などである。本明細書に記載の1以上の実施形態では、この一例の処理400は、上述において詳細に記載し図2に示した、状況に応じた過渡抑制用の一例のシステム200におけるコンポーネントのうちの1以上(例えば、ノイズ抑制部240)によって実行されることができる。1以上の実施形態では、上述の一致の対応関係に加えて、または代えて、音声状態は1以上の他の手法により音声確率推定値に対応してもよいことが理解される。
さらにまた、本開示の1以上の実施形態では、一例の処理400においてブロック405(ブロック410,415を含む)にて実行される動作は、上述の図3に示した一例の処理300においてブロック315にて実行される動作に対応してもよい。
なお、処理400を実行する際、検出された過渡を抑制し元のオーディオ信号を回復するようにスペクトル平均をトラッキングし続けることが必要な場合がある。また、1以上の実施形態では、ブロック405を含む動作は、各周波数ビンに対し反復的に実行されてもよい。例えば、ブロック410にて、所与の周波数ビンに対する大きさは(トラッキングされた)スペクトル平均と比較されてもよい。
ブロック410にて、この大きさがスペクトル平均より大きいと判定される場合、大きさは抑制され、ブロック415にて、新たな大きさが算出される。他方、ブロック410にて、この大きさがスペクトル平均より大きくない(例えば、スペクトル平均以下である)と判定される場合、抑制は実行されず、ブロック405の動作が次の周波数に対し繰り返されてもよい。
ブロック410にて行われた判定の結果、抑制が実行される場合、新たな大きさがブロック415にて算出されてもよい。1以上の実施形態では、ブロック415にて算出される新たな大きさは、検出確率(例えば、図2に示した一例のシステム200におけるノイズ抑制部240にて過渡検出部220から受け取られる過渡確率推定値(225))に応じた、以前の大きさとスペクトル平均との線形結合であってもよい。例えば、この新たな大きさは次のように算出されてもよい:
新たな大きさ=(1−検出)*大きさ+検出*スペクトル平均
ここで、「検出」は過渡が存在することの推定される確率に相当し、「大きさ」は以前の大きさ(例えば、ブロック410にて比較された大きさ)に相当する。上式から考えると、過渡が存在すると判定される(例えば、推定される確率に基づき)場合、新たな大きさはスペクトル平均である。しかしながら、過渡確率推定値によって過渡がブロックに存在しないことが示される場合、抑制は行われない。
図5は、オーディオ信号が音声データを含むという判定に基づくオーディオ信号のソフトな復元のための一例の処理を示す。例えば、ソフトな復元処理500は、第2の音声状態を有するオーディオ信号に基づき実行されてよい。ここで、第2の音声状態は、図4に示した一例の処理400に関して上述した、第1の音声状態に対応する音声確率推定値より大きい音声確率推定値に相当する。本明細書に記載の1以上の実施形態では、この一例の処理500は、上述において詳細に記載し図2に示した、状況に応じた過渡抑制用の一例のシステム200におけるコンポーネントのうちの1以上(例えば、ノイズ抑制部240)によって実行されることができる。
さらにまた、本開示の1以上の実施形態では、一例の処理500においてブロック510(ブロック515,520,525を含む)にて実行される動作は、上述の図3に示した一例の処理300においてブロック320にて実行される動作に対応してもよい。
上述のハードな復元のための一例の処理(例えば、処理400)におけるように、処理500を実行する際、オーディオのブロックのスペクトル平均がブロック505にて算出されてもよい。また、1以上の実施形態では、ブロック510を含む動作は、各周波数ビンに対し反復的に実行されてもよい。
ブロック515にて、所与の周波数ビンについて、ブロック平均の因子(ブロック505にて決定される)が算出されてもよい。1以上の実施形態では、ブロック平均の因子を固定のスペクトル重みとし、典型的なスピーチ・スペクトル周波数の強調を抑えてもよい。例えば、ブロック515にて決定されたブロック平均の因子は、現在のブロック・スペクトルを通じた平均値であってよい。ブロック515にて算出された因子は、スピーチ周波数(例えば、300Hz〜3500Hz)に対してより小さい連続的な値(例えば、1〜5の間)をとってもよい。
ブロック520にて、この周波数に対する大きさは、算出されたスペクトル平均と比較され、またブロック515にて算出された、ブロック平均の因子と比較されてもよい。例えば、ブロック520にて、この大きさがスペクトル平均より大きく且つブロック平均の因子より小さいか否かが判定されてもよい。そうした条件が満たされるか否かをブロック520にて判定することによって、音声の調波を維持しつつ、調波間の過渡ノイズを抑制することが可能である。
この大きさがスペクトル平均より大きく且つブロック平均の因子より小さいとブロック520にて判定される場合、抑制が実行され、動作はブロック525に続き、そこで新たな大きさが算出されることができる。他方、この大きさがスペクトル平均より大きくない(例えば、スペクトル平均以下である)か、この大きさがブロック平均の因子より小さくない(例えば、ブロック平均の因子以上である)か、またはその両方であることがブロック520にて判定される場合、抑制は実行されず、ブロック510の動作が次の周波数に対し繰り返されることができる。
ブロック520にて行われた判定の結果、抑制が実行される場合、新たな大きさがブロック525にて算出されてもよい。1以上の実施形態では、ブロック525にて算出される新たな大きさは、一例の処理400のブロック415にて行われた新たな大きさの計算(上述し図4に示した)と同様にして算出されてもよい。例えば、ブロック525にて算出される新たな大きさは、検出確率(例えば、図2に示した一例のシステム200におけるノイズ抑制部240にて過渡検出部220から受け取られる過渡確率推定値(225))に応じた、以前の大きさとスペクトル平均との線形結合であってもよい。例えば、この新たな大きさはブロック525にて次のように算出されてもよい:
新たな大きさ=(1−検出)*大きさ+検出*スペクトル平均
ここで、「検出」は過渡が存在することの推定される確率に相当し、「大きさ」は以前の大きさ(例えば、ブロック520にて比較された大きさ)に相当する。上式から考えると、過渡が存在すると判定される(例えば、推定される確率に基づき)場合、新たな大きさはスペクトル平均である。しかしながら、過渡確率推定値によって過渡がブロックに存在しないことが示される場合、抑制は行われない。
図6は、本明細書に記載の1以上の実施形態による、状況に応じた過渡ノイズ抑制のために構成されている一例のコンピュータ(600)の高位ブロック図である。極めて基本的な構成(601)では、コンピューティング・デバイス(600)は、典型的には、1以上のプロセッサ(610)およびシステム・メモリ(620)を備える。メモリ・バス(630)を用いて、プロセッサ(610)とシステム・メモリ(620)との間の通信を行うことが可能である。
所望の構成に応じて、プロセッサ(610)は、マイクロプロセッサ(μP)、マイクロコントローラ(μC)、デジタル信号プロセッサ(DSP)、またはそれらの任意の組合せを含むがそれらに限定されない、任意のタイプのプロセッサであることが可能である。プロセッサ(610)は、1次キャッシュ(611)および2次キャッシュ(612)など、1レベル以上のキャッシュ機能と、プロセッサ・コア(613)と、レジスタ(614)とを備えることが可能である。プロセッサ・コア(613)は、算術論理演算装置(ALU)、浮動小数点演算装置(FPU)、デジタル・シグナル・プロセッサ・コア(DSPコア)、またはそれらの任意の組合せを備えることが可能である。メモリ・コントローラ(616)もプロセッサ(610)と共に用いられることが可能であり、あるいは一部の実装では、メモリ・コントローラ(615)がプロセッサ(610)の内蔵部分であることが可能である。
所望の構成に応じて、システム・メモリ(620)は、揮発性メモリ(RAMなど)、不揮発性メモリ(ROM、フラッシュ・メモリなど)、またはそれらの任意の組合せを含むがそれらに限定されない、任意のタイプのメモリであることが可能である。システム・メモリ(620)は、典型的には、オペレーティング・システム(621)と、1以上のアプリケーション(622)と、プログラム・データ(624)とを含む。アプリケーション(622)は、信号が音声データを含む否かに関する判定に基づきオーディオ信号に様々な種類(例えば、タイプ、量、レベルなど)の抑制/復元を適用するための、状況に応じた過渡抑制アルゴリズム(623)を含んでもよい。1以上の実施形態では、状況に応じた過渡抑制アルゴリズム(623)は、ユーザが話しているか否か(例えば、ユーザに関連付けられている信号が、オーディオの発声されたセグメントを含むか、オーディオの発声されていない/非スピーチ・セグメントを含むか)に応じて、そのユーザに関連付けられているオーディオ信号に対し、より積極的である/積極的でない、抑制/復元を実行するように動作することができる。例えば、1以上の実施形態では、参加者が話していないか、参加者に関連付けられている信号が、発声されていない/非スピーチ・オーディオ・セグメントを含む場合、状況に応じた過渡抑制アルゴリズム(623)は、その参加者の信号に対する過渡抑制および信号復元について、より積極的な戦略を適用する。他方、発声されたオーディオが参加者の信号中に検出される(例えば、参加者が話している)場合、状況に応じた過渡抑制アルゴリズム(623)は、よりソフトで、より積極的でない抑制および復元を適用する。
プログラム・データ(624)は、1以上のプロセッシング・デバイスによる実行時、本明細書に記載の1以上の実施形態による、オーディオ信号の状況に応じた過渡ノイズ抑制および復元のための方法を実装する命令を記憶することを含んでもよい。これに加えて、1以上の実施形態では、プログラム・データ(624)はオーディオ信号データ(625)を含んでよく、このオーディオ信号データ(625)は、音声データを含むオーディオ信号の確率に関するデータ、過渡ノイズが信号中に存在している確率に関するデータ、またはその両方を含んでよい。一部の実施形態では、アプリケーション(622)は、オペレーティング・システム(621)上でプログラム・データ(624)を使用して動作するように構成されることが可能である。
コンピューティング・デバイス(600)は、基本的な構成(601)と任意の必要なデバイスおよびインタフェースとの間の通信を行うべく、追加のフィーチャまたは機能と、追加のインタフェースとを有することが可能である。
システム・メモリ(620)はコンピュータ記憶媒体の一例である。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュ・メモリもしくは他のメモリ技術、CD−ROM、ディジタル・バーサタイル・ディスク(DVD)もしくは他の光学ストレージ、磁気カセット、磁気テープ、磁気ディスク・ストレージもしくは他の磁気記憶装置、または所望の情報を記憶するために用いられることが可能であり、コンピューティング・デバイス600によってアクセス可能である他の媒体を含むが、それらに限定されない。任意のそうしたコンピュータ記憶媒体がデバイス(600)の一部であることが可能である。
コンピューティング・デバイス(600)は、携帯電話、スマートフォン、携帯情報端末(PDA)、パーソナル・メディア・プレーヤ・デバイス、タブレット・コンピュータ(タブレット)、無線ウェブ・ウォッチ・デバイス、パーソナル・ヘッドセット・デバイス、アプリケーション固有デバイス、または上記の機能のうちのいずれかを含むハイブリッド装置など、スモールフォーム・ファクタ・ポータブル(またはモバイル)電子デバイスの一部として実装可能である。コンピューティング・デバイス(600)は、ラップトップ・コンピュータ構成および非ラップトップ・コンピュータ構成の両方を含む、パーソナル・コンピュータとして実装可能である。
上記の詳細な説明では、ブロック図、フローチャート、および/または実施例を用いて、デバイスおよび/または処理の様々な実施形態について述べた。そうしたブロック図、フローチャート、および/または実施例が1以上の機能および/または動作を含む限りにおいて、そうしたブロック図、フローチャート、および/または実施例における機能および/または動作は、広範なハードウェア、ソフトウェア、ファームウェア、またはそれらの実質的に任意の組合せによって、個々におよび/または集合的に実装可能であることが当業者には理解される。一実施形態では、本明細書に記載の主題の幾つかの部分は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、デジタル信号プロセッサ(DSP)、または他の集積形態により実装されてよい。しかしながら、本明細書に開示の実施形態の一部の態様は、その全体においても部分においても、1以上のコンピュータ上で動作する1以上のコンピュータ・プログラムとして、1以上のプロセッサ上で動作する1以上のプログラムとして、ファームウェアとして、またはそれらの実質的に任意の組合せとして、均等に集積回路に実装可能であること、また、そうしたソフトウェアおよびまたはファームウェアのための回路を設計すること、および/またはコードを作成することは、本開示に照らして十分に当業者の技術の内にあることが当業者には認められるであろう。
加えて、本明細書に記載の主題の機構は様々な形態によるプログラム製品として分散されることが可能であること、本明細書に記載された主題の例示の一実施形態は、その分散を実際に実行するために用いられる特定のタイプの非一時的な信号保持媒体にかかわらず適用されることが、当業者には認められる。非一時的な信号保持媒体の例は、フロッピー(登録商標)ディスク、ハードディスクドライブ、コンパクト・ディスク(CD)、ディジタル・ビデオ・ディスク(DVD)、デジタル・テープ、コンピュータ・メモリなどの記録可能型の媒体と、デジタルおよび/またはアナログ通信媒体などの伝送型の媒体(例えば、光ファイバ・ケーブル、ウェーブガイド、有線通信リンク、無線通信リンクなど)とを含むが、それらに限定されない。
本明細書における実質的に任意の複数形および/または単数形の用語の使用について、当業者は、内容および/または用途に適切であるように、複数から単数および/または単数から複数に解釈することができる。様々な単数/複数の置き換えについて、明瞭さの目的のため、明らかに述べられる場合もある。
以上、本主題の特定の実施形態について記載した。他の実施形態は添付の特許請求の範囲の内にある。一部の場合、特許請求の範囲に記載の作用が異なる順序により実行され、依然として所望の結果を達成することが可能である。加えて、添付の図面において示した処理は、所望の結果を達成するために、示した特定の順序、または逐次的な順序を、必ずしも必要としない。一定の実装では、マルチタスクや並列処理が有利である場合がある。

Claims (20)

  1. オーディオ信号中の過渡ノイズを抑制するためのコンピュータが実行する方法であって、
    過渡ノイズを含むオーディオ信号のセグメントに対する音声確率を推定する工程であって、推定された前記音声確率は前記セグメントが音声データを含む確率である、音声確率推定工程と、
    前記セグメントに対する推定された前記音声確率が確率閾値より大きいと判定することに応じて、
    前記セグメントに対してスペクトル平均を算出し、
    前記セグメントの各周波数ビンに対し、前記周波数ビンの大きさを前記スペクトル平均及び前記スペクトル平均の算出された因子と比較することに基づいて前記周波数ビンに対して抑制を実行するか否かを判定する、工程と、
    前記セグメントに対する推定された前記音声確率が前記確率閾値より小さいと判定することに応じて、
    前記セグメントに対してスペクトル平均を算出し、
    前記セグメントの各周波数ビンに対し、前記周波数ビンの大きさを前記スペクトル平均と比較することに基づいて前記周波数ビンに対して抑制を実行するか否かを判定する、工程と、
    前記周波数ビンの前記大きさと前記スペクトル平均との前記比較が、前記周波数ビンの前記大きさが前記スペクトル平均以下であるとの条件を満たすことに応じて、前記周波数ビンについての前記大きさを維持する工程と、を備える方法。
  2. 推定された前記音声確率は、ピッチ推定部から受信される発声情報に基づく、請求項1に記載の方法。
  3. 前記音声確率推定工程は前記セグメントの発声されたスピーチを含む領域を識別する領域識別工程を含む、請求項1に記載の方法。
  4. 前記領域識別工程は前記セグメントの声帯襞が振動している領域を識別する工程を含む、請求項3に記載の方法。
  5. 前記周波数ビンの前記大きさと前記スペクトル平均及び前記スペクトル平均の算出された因子との前記比較が第1条件を満たすことに応じて、前記周波数ビンについての新たな大きさを算出する工程と、
    前記周波数ビンの前記大きさと前記スペクトル平均及び前記スペクトル平均の算出された因子との前記比較が第2条件を満たすことに応じて、前記周波数ビンについての前記大きさを維持する工程と、をさらに備え、
    前記第1条件は前記第2条件と異なる、請求項1に記載の方法。
  6. 前記周波数ビンの前記大きさと前記スペクトル平均との前記比較が、前記周波数ビンの前記大きさが前記スペクトル平均よりも大きいとの条件を満たすことに応じて、前記周波数ビンについての新たな大きさを算出する工程をさらに備える、請求項1に記載の方法。
  7. オーディオ信号中の過渡ノイズを抑制するためのコンピュータが実行する方法であって、
    過渡ノイズを含むオーディオ信号のセグメントに対する音声確率を推定する工程であって、推定された前記音声確率は前記セグメントが音声データを含む確率である、音声確率推定工程と、
    前記セグメントに対する推定された前記音声確率が確率閾値より大きいと判定することに応じて、
    前記セグメントに対してスペクトル平均を算出し、
    前記セグメントの各周波数ビンに対し、前記周波数ビンの大きさを前記スペクトル平均及び前記スペクトル平均の算出された因子と比較することに基づいて前記周波数ビンに対して抑制を実行するか否かを判定する、工程と、
    前記セグメントに対する推定された前記音声確率が前記確率閾値より小さいと判定することに応じて、
    前記セグメントに対してスペクトル平均を算出し、
    前記セグメントの各周波数ビンに対し、前記周波数ビンの大きさを前記スペクトル平均と比較することに基づいて前記周波数ビンに対して抑制を実行するか否かを判定する、工程と、
    前記周波数ビンの前記大きさと前記スペクトル平均及び前記スペクトル平均の算出された因子との前記比較が第1条件を満たすことに応じて、前記周波数ビンについての新たな大きさを算出する工程と、
    前記周波数ビンの前記大きさと前記スペクトル平均及び前記スペクトル平均の算出された因子との前記比較が第2条件を満たすことに応じて、前記周波数ビンについての前記大きさを維持する工程と、を備え、
    前記第1条件は前記第2条件と異なり、
    前記周波数ビンについての前記新たな大きさは、以前の大きさと、スペクトル平均と、前記セグメントに存在する過渡ノイズの推定される確率と、に基づいて算出される、方法。
  8. オーディオ信号中の過渡ノイズを抑制するためのコンピュータが実行する方法であって、
    過渡ノイズを含むオーディオ信号のセグメントに対する音声確率を推定する工程であって、推定された前記音声確率は前記セグメントが音声データを含む確率である、音声確率推定工程と、
    前記セグメントに対する推定された前記音声確率が確率閾値より大きいと判定することに応じて、
    前記セグメントに対してスペクトル平均を算出し、
    前記セグメントの各周波数ビンに対し、前記周波数ビンの大きさを前記スペクトル平均及び前記スペクトル平均の算出された因子と比較することに基づいて前記周波数ビンに対して抑制を実行するか否かを判定する、工程と、
    前記セグメントに対する推定された前記音声確率が前記確率閾値より小さいと判定することに応じて、
    前記セグメントに対してスペクトル平均を算出し、
    前記セグメントの各周波数ビンに対し、前記周波数ビンの大きさを前記スペクトル平均と比較することに基づいて前記周波数ビンに対して抑制を実行するか否かを判定する、工程と、
    前記周波数ビンの前記大きさと前記スペクトル平均との前記比較が第1条件を満たすことに応じて、前記周波数ビンについての新たな大きさを算出する工程と、
    前記周波数ビンの前記大きさと前記スペクトル平均との前記比較が第2条件を満たすことに応じて、前記周波数ビンについての前記大きさを維持する工程と、を備え、
    前記第1条件は前記第2条件と異なり、
    前記周波数ビンについての前記新たな大きさは、以前の大きさと、スペクトル平均と、前記セグメントに存在する過渡ノイズの推定される確率と、に基づいて算出される、方法。
  9. 前記スペクトル平均の算出された因子は、固定のスペクトル重みである、請求項1に記載の方法。
  10. オーディオ信号中の過渡ノイズを抑制するためのシステムであって、前記システムは、
    1以上のプロセッサと、
    前記1以上のプロセッサに結合されており命令が記憶されているコンピュータ可読媒体と、を備え、前記コンピュータ可読媒体は前記1以上のプロセッサによる実行時、前記1以上のプロセッサに、
    過渡ノイズを含むオーディオ信号のセグメントに対する音声確率を推定する工程であって、推定された前記音声確率は前記セグメントが音声データを含む確率である、工程と、
    前記セグメントに対する推定された前記音声確率が確率閾値より大きいと判定することに応じて、
    前記セグメントに対してスペクトル平均を算出し、
    前記セグメントの各周波数ビンに対し、前記周波数ビンの大きさを前記スペクトル平均及び前記スペクトル平均の算出された因子と比較することに基づいて前記周波数ビンに対して抑制を実行するか否かを判定する、工程と、
    前記セグメントに対する推定された前記音声確率が前記確率閾値より小さいと判定することに応じて、
    前記セグメントに対してスペクトル平均を算出し、
    前記セグメントの各周波数ビンに対し、前記周波数ビンの大きさを前記スペクトル平均と比較することに基づいて前記周波数ビンに対して抑制を実行するか否かを判定する、工程と、
    前記周波数ビンの前記大きさと前記スペクトル平均との前記比較が、前記周波数ビンの前記大きさが前記スペクトル平均以下であるとの条件を満たすことに応じて、前記周波数ビンについての前記大きさを維持する工程と、を行わせる、システム。
  11. 推定された前記音声確率は、ピッチ推定部から受信される発声情報に基づく、請求項10に記載のシステム。
  12. 前記1以上のプロセッサに、
    前記セグメントの声帯襞が振動している領域を識別する工程と、
    前記セグメントの前記声帯襞が振動している前記領域は発声されたスピーチを含む領域であると判定する工程と、をさらに行わせる請求項10に記載のシステム。
  13. 前記1以上のプロセッサに、
    前記周波数ビンの前記大きさと前記スペクトル平均及び前記スペクトル平均の算出された因子との前記比較が第1条件を満たすことに応じて、前記周波数ビンについての新たな大きさを算出する工程と、
    前記周波数ビンの前記大きさと前記スペクトル平均及び前記スペクトル平均の算出された因子との前記比較が第2条件を満たすことに応じて、前記周波数ビンについての前記大きさを維持する工程と、をさらに行わせ、
    前記第1条件は前記第2条件と異なる、請求項10に記載のシステム。
  14. 前記1以上のプロセッサに、
    前記周波数ビンの前記大きさと前記スペクトル平均との前記比較が、前記周波数ビンの前記大きさが前記スペクトル平均よりも大きいとの条件を満たすことに応じて、前記周波数ビンについての新たな大きさを算出する工程をさらに行わせる、請求項10に記載のシステム。
  15. オーディオ信号中の過渡ノイズを抑制するためのシステムであって、前記システムは、
    1以上のプロセッサと、
    前記1以上のプロセッサに結合されており命令が記憶されているコンピュータ可読媒体と、を備え、前記コンピュータ可読媒体は前記1以上のプロセッサによる実行時、前記1以上のプロセッサに、
    過渡ノイズを含むオーディオ信号のセグメントに対する音声確率を推定する工程であって、推定された前記音声確率は前記セグメントが音声データを含む確率である、工程と、
    前記セグメントに対する推定された前記音声確率が確率閾値より大きいと判定することに応じて、
    前記セグメントに対してスペクトル平均を算出し、
    前記セグメントの各周波数ビンに対し、前記周波数ビンの大きさを前記スペクトル平均及び前記スペクトル平均の算出された因子と比較することに基づいて前記周波数ビンに対して抑制を実行するか否かを判定する、工程と、
    前記セグメントに対する推定された前記音声確率が前記確率閾値より小さいと判定することに応じて、
    前記セグメントに対してスペクトル平均を算出し、
    前記セグメントの各周波数ビンに対し、前記周波数ビンの大きさを前記スペクトル平均と比較することに基づいて前記周波数ビンに対して抑制を実行するか否かを判定する、工程と、
    前記周波数ビンの前記大きさと前記スペクトル平均及び前記スペクトル平均の算出された因子との前記比較が第1条件を満たすことに応じて、前記周波数ビンについての新たな大きさを算出する工程と、
    前記周波数ビンの前記大きさと前記スペクトル平均及び前記スペクトル平均の算出された因子との前記比較が第2条件を満たすことに応じて、前記周波数ビンについての前記大きさを維持する工程と、を行わせ、
    前記第1条件は前記第2条件と異なり、
    前記1以上のプロセッサに、
    前記周波数ビンについての前記新たな大きさを、以前の大きさと、スペクトル平均と、前記セグメントに存在する過渡ノイズの推定される確率と、に基づいて算出する工程をさらに行わせる、システム。
  16. オーディオ信号中の過渡ノイズを抑制するためのシステムであって、前記システムは、
    1以上のプロセッサと、
    前記1以上のプロセッサに結合されており命令が記憶されているコンピュータ可読媒体と、を備え、前記コンピュータ可読媒体は前記1以上のプロセッサによる実行時、前記1以上のプロセッサに、
    過渡ノイズを含むオーディオ信号のセグメントに対する音声確率を推定する工程であって、推定された前記音声確率は前記セグメントが音声データを含む確率である、工程と、
    前記セグメントに対する推定された前記音声確率が確率閾値より大きいと判定することに応じて、
    前記セグメントに対してスペクトル平均を算出し、
    前記セグメントの各周波数ビンに対し、前記周波数ビンの大きさを前記スペクトル平均及び前記スペクトル平均の算出された因子と比較することに基づいて前記周波数ビンに対して抑制を実行するか否かを判定する、工程と、
    前記セグメントに対する推定された前記音声確率が前記確率閾値より小さいと判定することに応じて、
    前記セグメントに対してスペクトル平均を算出し、
    前記セグメントの各周波数ビンに対し、前記周波数ビンの大きさを前記スペクトル平均と比較することに基づいて前記周波数ビンに対して抑制を実行するか否かを判定する、工程と、
    前記周波数ビンの前記大きさと前記スペクトル平均との前記比較が第1条件を満たすことに応じて、前記周波数ビンについての新たな大きさを算出する工程と、
    前記周波数ビンの前記大きさと前記スペクトル平均との前記比較が第2条件を満たすことに応じて、前記周波数ビンについての前記大きさを維持する工程と、を行わせ、
    前記第1条件は前記第2条件と異なり、
    前記1以上のプロセッサに、
    前記周波数ビンについての前記新たな大きさを、以前の大きさと、スペクトル平均と、前記セグメントに存在する過渡ノイズの推定される確率と、に基づいて算出する工程をさらに行わせる、システム。
  17. 前記スペクトル平均の算出された因子は、固定のスペクトル重みである、請求項10に記載のシステム。
  18. オーディオ信号中の過渡ノイズを抑制するためのコンピュータが実行する方法であって、
    過渡ノイズを含むオーディオ信号のセグメントに対する音声確率を推定する工程であって、推定された前記音声確率は前記セグメントが音声データを含む確率である、工程と、
    前記セグメントに対する推定された前記音声確率が第1の音声状態に対応すると判定することに応じて、
    前記セグメントに対してスペクトル平均を算出し、
    前記セグメントの各周波数ビンに対し、前記周波数ビンの大きさを前記スペクトル平均及び前記スペクトル平均の算出された因子と比較することに基づいて前記周波数ビンに対して抑制を実行するか否かを判定する、工程と、
    前記セグメントに対する推定された前記音声確率が第2の音声状態に対応すると判定することに応じて、
    前記セグメントに対してスペクトル平均を算出し、
    前記セグメントの各周波数ビンに対し、前記周波数ビンの大きさを前記スペクトル平均と比較することに基づいて前記周波数ビンに対して抑制を実行するか否かを判定する、工程と、
    前記周波数ビンの前記大きさと前記スペクトル平均との前記比較が、前記周波数ビンの前記大きさが前記スペクトル平均以下であるとの条件を満たすことに応じて、前記周波数ビンについての前記大きさを維持する工程と、を備える方法。
  19. 前記周波数ビンの前記大きさと前記スペクトル平均及び前記スペクトル平均の算出された因子との前記比較が第1条件を満たすことに応じて、前記周波数ビンについての新たな大きさを算出する工程と、
    前記周波数ビンの前記大きさと前記スペクトル平均及び前記スペクトル平均の算出された因子との前記比較が第2条件を満たすことに応じて、前記周波数ビンについての前記大きさを維持する工程と、をさらに備え、
    前記第1条件は前記第2条件と異なる、請求項18に記載の方法。
  20. 前記周波数ビンの前記大きさと前記スペクトル平均との前記比較が、前記周波数ビンの前記大きさが前記スペクトル平均よりも大きいとの条件を満たすことに応じて、前記周波数ビンについての新たな大きさを算出する工程をさらに備える、請求項18に記載の方法。
JP2016554861A 2014-03-31 2015-03-31 状況に応じた過渡抑制 Active JP6636937B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/230,404 2014-03-31
US14/230,404 US9721580B2 (en) 2014-03-31 2014-03-31 Situation dependent transient suppression
PCT/US2015/023500 WO2015153553A2 (en) 2014-03-31 2015-03-31 Situation dependent transient suppression

Publications (3)

Publication Number Publication Date
JP2017513046A JP2017513046A (ja) 2017-05-25
JP2017513046A5 JP2017513046A5 (ja) 2018-05-24
JP6636937B2 true JP6636937B2 (ja) 2020-01-29

Family

ID=52829453

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016554861A Active JP6636937B2 (ja) 2014-03-31 2015-03-31 状況に応じた過渡抑制

Country Status (8)

Country Link
US (1) US9721580B2 (ja)
EP (1) EP3127114B1 (ja)
JP (1) JP6636937B2 (ja)
KR (1) KR101839448B1 (ja)
CN (1) CN105900171B (ja)
AU (1) AU2015240992C1 (ja)
BR (1) BR112016020066B1 (ja)
WO (1) WO2015153553A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11380346B2 (en) * 2020-03-05 2022-07-05 Wistron Corporation Signal processing system and a method of determining noise reduction and compensation thereof

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9589574B1 (en) 2015-11-13 2017-03-07 Doppler Labs, Inc. Annoyance noise suppression
WO2017082974A1 (en) 2015-11-13 2017-05-18 Doppler Labs, Inc. Annoyance noise suppression
US11017793B2 (en) * 2015-12-18 2021-05-25 Dolby Laboratories Licensing Corporation Nuisance notification
EP3506563A1 (en) * 2017-12-29 2019-07-03 Unify Patente GmbH & Co. KG Method, system, and server for reducing noise in a workspace
CN108877766A (zh) * 2018-07-03 2018-11-23 百度在线网络技术(北京)有限公司 歌曲合成方法、装置、设备及存储介质
US10440324B1 (en) 2018-09-06 2019-10-08 Amazon Technologies, Inc. Altering undesirable communication data for communication sessions
CN110689905B (zh) * 2019-09-06 2021-12-21 西安合谱声学科技有限公司 一种用于视频会议系统的语音活动检测系统
CN110739005B (zh) * 2019-10-28 2022-02-01 南京工程学院 一种面向瞬态噪声抑制的实时语音增强方法
CN110838299B (zh) 2019-11-13 2022-03-25 腾讯音乐娱乐科技(深圳)有限公司 一种瞬态噪声的检测方法、装置及设备
CN113824843B (zh) * 2020-06-19 2023-11-21 大众问问(北京)信息科技有限公司 语音通话质量检测方法、装置、设备及存储介质
CN112969130A (zh) * 2020-12-31 2021-06-15 维沃移动通信有限公司 音频信号处理方法、装置和电子设备
US11837254B2 (en) * 2021-08-03 2023-12-05 Zoom Video Communications, Inc. Frontend capture with input stage, suppression module, and output stage
EP4343760A1 (en) * 2022-09-26 2024-03-27 GN Audio A/S Transient noise event detection for speech denoising
CN115985337B (zh) * 2023-03-20 2023-09-22 全时云商务服务股份有限公司 一种基于单麦克风的瞬态噪声检测与抑制的方法及装置
CN116738124B (zh) * 2023-08-08 2023-12-08 中国海洋大学 浮式结构运动响应信号端点瞬态效应消除方法

Family Cites Families (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69232202T2 (de) * 1991-06-11 2002-07-25 Qualcomm, Inc. Vocoder mit veraendlicher bitrate
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
JPH11133997A (ja) * 1997-11-04 1999-05-21 Matsushita Electric Ind Co Ltd 有音無音判定装置
US6426983B1 (en) * 1998-09-14 2002-07-30 Terayon Communication Systems, Inc. Method and apparatus of using a bank of filters for excision of narrow band interference signal from CDMA signal
US6266633B1 (en) * 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus
JP2002537586A (ja) * 1999-02-18 2002-11-05 アンドレア エレクトロニクス コーポレイション 雑音を消去するためのシステム、方法及び装置
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US6366880B1 (en) * 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
US6622044B2 (en) * 2001-01-04 2003-09-16 Cardiac Pacemakers Inc. System and method for removing narrowband noise
US6826242B2 (en) * 2001-01-16 2004-11-30 Broadcom Corporation Method for whitening colored noise in a communication system
US6798854B2 (en) * 2001-01-16 2004-09-28 Broadcom Corporation System and method for canceling interference in a communication system
US7725315B2 (en) * 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US8271279B2 (en) * 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US8073689B2 (en) * 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US7895036B2 (en) * 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US8326621B2 (en) * 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
JP3963850B2 (ja) * 2003-03-11 2007-08-22 富士通株式会社 音声区間検出装置
US7353169B1 (en) 2003-06-24 2008-04-01 Creative Technology Ltd. Transient detection and modification in audio signals
US7451082B2 (en) * 2003-08-27 2008-11-11 Texas Instruments Incorporated Noise-resistant utterance detector
JP4520732B2 (ja) * 2003-12-03 2010-08-11 富士通株式会社 雑音低減装置、および低減方法
JP4456504B2 (ja) * 2004-03-09 2010-04-28 日本電信電話株式会社 音声雑音判別方法および装置、雑音低減方法および装置、音声雑音判別プログラム、雑音低減プログラム
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
KR100677126B1 (ko) * 2004-07-27 2007-02-02 삼성전자주식회사 레코더 기기의 잡음 제거 장치 및 그 방법
US8027833B2 (en) * 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8566086B2 (en) * 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals
JP4863713B2 (ja) * 2005-12-29 2012-01-25 富士通株式会社 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
US7519514B2 (en) * 2006-07-14 2009-04-14 Agilent Technologies, Inc. Systems and methods for removing noise from spectral data
US7809559B2 (en) * 2006-07-24 2010-10-05 Motorola, Inc. Method and apparatus for removing from an audio signal periodic noise pulses representable as signals combined by convolution
US8019089B2 (en) 2006-11-20 2011-09-13 Microsoft Corporation Removal of noise, corresponding to user input devices from an audio signal
US9966085B2 (en) * 2006-12-30 2018-05-08 Google Technology Holdings LLC Method and noise suppression circuit incorporating a plurality of noise suppression techniques
WO2008108721A1 (en) 2007-03-05 2008-09-12 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for controlling smoothing of stationary background noise
US8654950B2 (en) 2007-05-08 2014-02-18 Polycom, Inc. Method and apparatus for automatically suppressing computer keyboard noises in audio telecommunication session
CN101309071B (zh) * 2007-05-18 2010-06-23 展讯通信(上海)有限公司 一种抑制音频功率放大器瞬态噪声的装置
GB2449720A (en) * 2007-05-31 2008-12-03 Zarlink Semiconductor Inc Detecting double talk conditions in a hands free communication system
US8712762B2 (en) * 2007-07-27 2014-04-29 Vereniging Voor Christelijk Hoger Onderwijs, Wetenschappelijk Onderzoek En Patiëntenzor Noise suppression in speech signals
KR20100074170A (ko) * 2007-09-05 2010-07-01 센시어 피티와이 엘티디 음성 통신 장치, 신호 처리 장치 및 그를 도입한 청력 보호 장치
US8015002B2 (en) * 2007-10-24 2011-09-06 Qnx Software Systems Co. Dynamic noise reduction using linear model fitting
KR20090122142A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
CN102150206B (zh) * 2008-10-24 2013-06-05 三菱电机株式会社 噪音抑制装置以及声音解码装置
US8213635B2 (en) 2008-12-05 2012-07-03 Microsoft Corporation Keystroke sound suppression
US8416964B2 (en) * 2008-12-15 2013-04-09 Gentex Corporation Vehicular automatic gain control (AGC) microphone system and method for post processing optimization of a microphone signal
CN101770775B (zh) * 2008-12-31 2011-06-22 华为技术有限公司 信号处理方法及装置
WO2010146711A1 (ja) * 2009-06-19 2010-12-23 富士通株式会社 音声信号処理装置及び音声信号処理方法
US8908882B2 (en) 2009-06-29 2014-12-09 Audience, Inc. Reparation of corrupted audio signals
DK2465112T3 (en) * 2009-08-14 2015-01-12 Koninkl Kpn Nv PROCEDURE, COMPUTER PROGRAM PRODUCT, AND SYSTEM FOR DETERMINING AN EVALUATED QUALITY OF AN AUDIO SYSTEM
US8600073B2 (en) * 2009-11-04 2013-12-03 Cambridge Silicon Radio Limited Wind noise suppression
GB0919672D0 (en) 2009-11-10 2009-12-23 Skype Ltd Noise suppression
US9628517B2 (en) 2010-03-30 2017-04-18 Lenovo (Singapore) Pte. Ltd. Noise reduction during voice over IP sessions
US8798992B2 (en) * 2010-05-19 2014-08-05 Disney Enterprises, Inc. Audio noise modification for event broadcasting
JP5529635B2 (ja) * 2010-06-10 2014-06-25 キヤノン株式会社 音声信号処理装置および音声信号処理方法
US8411874B2 (en) 2010-06-30 2013-04-02 Google Inc. Removing noise from audio
EP2405634B1 (en) * 2010-07-09 2014-09-03 Google, Inc. Method of indicating presence of transient noise in a call and apparatus thereof
JP5328744B2 (ja) 2010-10-15 2013-10-30 本田技研工業株式会社 音声認識装置及び音声認識方法
JP5479655B2 (ja) * 2011-07-08 2014-04-23 ゴーアテック インコーポレイテッド 残留エコーを抑制するための方法及び装置
US8239196B1 (en) * 2011-07-28 2012-08-07 Google Inc. System and method for multi-channel multi-feature speech/noise classification for noise suppression
WO2013078677A1 (zh) * 2011-12-02 2013-06-06 海能达通信股份有限公司 一种自适应调节音效的方法和设备
JP2013148724A (ja) * 2012-01-19 2013-08-01 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
CN103325384A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 谐度估计、音频分类、音调确定及噪声估计
US20140278389A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics
US9520141B2 (en) * 2013-02-28 2016-12-13 Google Inc. Keyboard typing detection and suppression
CN103440871B (zh) * 2013-08-21 2016-04-13 大连理工大学 一种语音中瞬态噪声抑制的方法
CN103456310B (zh) * 2013-08-28 2017-02-22 大连理工大学 一种基于谱估计的瞬态噪声抑制方法
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
US9454976B2 (en) * 2013-10-14 2016-09-27 Zanavox Efficient discrimination of voiced and unvoiced sounds
JP6334895B2 (ja) * 2013-11-15 2018-05-30 キヤノン株式会社 信号処理装置及びその制御方法、プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11380346B2 (en) * 2020-03-05 2022-07-05 Wistron Corporation Signal processing system and a method of determining noise reduction and compensation thereof

Also Published As

Publication number Publication date
CN105900171A (zh) 2016-08-24
AU2015240992A1 (en) 2016-06-23
US20150279386A1 (en) 2015-10-01
EP3127114B1 (en) 2019-11-13
AU2015240992C1 (en) 2018-04-05
BR112016020066A2 (ja) 2017-08-15
US9721580B2 (en) 2017-08-01
WO2015153553A3 (en) 2015-11-26
CN105900171B (zh) 2019-10-18
KR101839448B1 (ko) 2018-03-16
KR20160102300A (ko) 2016-08-29
AU2015240992B2 (en) 2017-12-07
BR112016020066B1 (pt) 2022-09-06
EP3127114A2 (en) 2017-02-08
WO2015153553A2 (en) 2015-10-08
JP2017513046A (ja) 2017-05-25

Similar Documents

Publication Publication Date Title
JP6636937B2 (ja) 状況に応じた過渡抑制
US9978388B2 (en) Systems and methods for restoration of speech components
JP5071346B2 (ja) 雑音抑圧装置及び雑音抑圧方法
CN112071328B (zh) 音频降噪
CN107113521B (zh) 用辅助键座麦克风来检测和抑制音频流中的键盘瞬态噪声
KR101537080B1 (ko) 통화중 과도 잡음의 존재를 표시하는 방법 및 그 장치
US9378755B2 (en) Detecting a user's voice activity using dynamic probabilistic models of speech features
US20100145689A1 (en) Keystroke sound suppression
JP6959917B2 (ja) 音響装置における再生管理のためのイベント検出
CN108806707B (zh) 语音处理方法、装置、设备及存储介质
US9601124B2 (en) Acoustic matching and splicing of sound tracks
CN110364175B (zh) 语音增强方法及系统、通话设备
US11252506B2 (en) Howling suppression apparatus, and method and program for the same
Tsilfidis et al. Signal-dependent constraints for perceptually motivated suppression of late reverberation
JP6396829B2 (ja) 情報処理装置、判定方法及びコンピュータプログラム
JP4395105B2 (ja) 音響結合量推定方法、音響結合量推定装置、プログラム、記録媒体
CN113470621B (zh) 语音检测方法、装置、介质及电子设备
CN116504264B (zh) 音频处理方法、装置、设备及存储介质
JP7143574B2 (ja) 評価プログラム、評価方法および評価装置
Gogate et al. Application for Real-time Audio-Visual Speech Enhancement
CN116453538A (zh) 语音降噪方法和装置
JP2024532748A (ja) 自動音声認識のための結合音響エコー消去、音声強調、およびボイス分離
Ullah et al. Two Stage Approaches for the Detection and Suppression of Typed Keystrokes in Speech Signals

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180330

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180330

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190402

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191219

R150 Certificate of patent or registration of utility model

Ref document number: 6636937

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250