JP2014532890A - 信号雑音減衰 - Google Patents

信号雑音減衰 Download PDF

Info

Publication number
JP2014532890A
JP2014532890A JP2014536387A JP2014536387A JP2014532890A JP 2014532890 A JP2014532890 A JP 2014532890A JP 2014536387 A JP2014536387 A JP 2014536387A JP 2014536387 A JP2014536387 A JP 2014536387A JP 2014532890 A JP2014532890 A JP 2014532890A
Authority
JP
Japan
Prior art keywords
signal
noise
codebook
candidates
sensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014536387A
Other languages
English (en)
Other versions
JP6265903B2 (ja
Inventor
パトリック ケチチャン
パトリック ケチチャン
スリラム スリニバサン
スリラム スリニバサン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2014532890A publication Critical patent/JP2014532890A/ja
Application granted granted Critical
Publication of JP6265903B2 publication Critical patent/JP6265903B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02085Periodic noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Noise Elimination (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

雑音減衰装置が、所望信号成分と雑音信号成分とを備える第1の信号を受信する。2つのコードブロック109、111が、所望信号候補及び雑音信号候補をそれぞれ備え、可能な所望信号成分及び雑音信号成分をそれぞれ表す。雑音減衰器105は、所望信号候補と雑音信号候補の各対に関して、所望信号候補と雑音信号候補の組合せとして推定信号候補を生成することによって、推定信号候補を生成する。次いで、推定信号候補から、信号候補が決定され、第1の信号は、この信号候補に基づいて雑音補償される。探索される候補の数を減少させ、それにより複雑さ及び計算資源使用を実質的に減少させるために、環境内の所望の発信源又は雑音の測定値を表すセンサ信号が使用される。雑音減衰は、特に、オーディオ雑音減衰でよい。

Description

本発明は、信号雑音減衰に関し、排他的にではないが特に、オーディオ信号及び特に音声信号に関する雑音減衰に関する。
多くの用途で、所望信号成分をさらに向上又は強調するために、信号内の雑音の減衰が望ましい。特に、多くのシナリオで、オーディオ雑音の減衰が望ましい。例えば、背景雑音の存在下での音声の強調は、その実用的な重要性により、大きな関心を集めている。
オーディオ雑音減衰のための一手法は、適切なビーム形成アルゴリズムと共に2つ以上のマイクロホンのアレイを使用することである。しかし、そのようなアルゴリズムは、必ずしも実用的ではなく、最適でない(又は準最適な)性能しか提供しない。例えば、それらは、資源を多く必要とする傾向があり、所望のサウンド源を追跡するための複雑なアルゴリズムを必要とする。また、それらは、特に非静的な反響及び拡散雑音領域において、又は幾つかの干渉する源が存在する場合に、最適でない雑音減衰を提供する傾向がある。ビーム形成などの空間フィルタリング技法は、そのようなシナリオで、限られた成果しか実現することができず、しばしば、処理後ステップにおいて、ビームフォーマの出力で追加の雑音抑制が行われる。
所望信号成分及び雑音信号成分の特性に関する知識又は仮定に基づくシステムを含めた様々な雑音減衰アルゴリズムが提案されている。特に、コードブック方式など知識ベースの音声強調方法は、単一マイクロホン信号での動作時でさえ、非静的雑音条件下で良好に機能することが示されている。そのような方法の例は、S. Srinivasan, J. Samuelsson, and W. B. Kleijn, “Codebook driven short-term predictor parameter estimation for speech enhancement”, IEEE Trans. Speech, Audio and Language Processing, vol. 14, no. 1, pp. 163{176, Jan. 2006 and S. Srinivasan, J. Samuelsson, and W. B. Kleijn, “Codebook based Bayesian speech enhancement for non-stationary environments,” IEEE Trans. Speech Audio Processing, vol. 15, no. 2, pp. 441-452, Feb. 2007に示されている。
これらの方法は、例えば線形予測(LP)係数によってパラメータ化された音声スペクトル形状及び雑音スペクトル形状の訓練されたコードブックに依拠する。音声コードブックの使用は、直観的であり、実用的な実装に容易に役立つ。音声コードブックは、(複数の発話者からのデータを使用して訓練される)発話者独立型でも、発話者依存型でもよい。発話者依存型の音声コードブックは、例えば移動電話の用途に有用である。なぜなら、移動電話は、個人用であることが多く、主としてただ1人の発話者によって使用されることが多いからである。しかし、実用的な実装における雑音コードブックの使用は難しい。なぜなら、実際に生じることがある雑音タイプは多様であるからである。その結果、典型的には、非常に大きな雑音コードブックが使用される。
典型的には、そのようなコードブックベースのアルゴリズムは、組み合わされたときに捕捉された信号に最も近く一致する音声コードブックエントリと雑音コードブックエントリを見つけることを試みる。適当なコードブックエントリが見つけられると、アルゴリズムは、それらのコードブックエントリに基づいて、受信された信号を補償する。しかし、適当なコードブックエントリを識別するために、音声コードブックエントリと雑音コードブックエントリとの全ての可能な組合せにわたって探索が行われる。これは、計算資源を非常に多く必要とするプロセスをもたらし、これは、特に低複雑性のデバイスでは実用的でないことが多い。さらに、多数の可能な信号及び特に雑音候補は、最適でない雑音減衰をもたらす誤った推定値を生じるリスクを高めることがある。
従って、改良された雑音減衰手法が有利となり、特に、向上されたフレキシビリティ、減少された計算量、容易化された実装及び/若しくは操作、減少されたコスト、並びに/又は改良された性能を可能にする手法が有利となる。
従って、本発明は、好ましくは、上述した欠点の1つ又は複数を個々に又は任意の組合せで緩和、軽減、又は解消することを試みる。
本発明の一態様によれば、環境に関する第1の信号を受信するための受信機であって、第1の信号が、環境内の所望の発信源からの信号に対応する所望信号成分と、環境内の雑音に対応する雑音信号成分とを備える受信機と;所望信号成分に関する複数の所望信号候補を備える第1のコードブックであって、各所望信号候補が、可能な所望信号成分を表す第1のコードブックと;雑音信号成分に関する複数の雑音信号候補を備える第2のコードブックであって、各所望信号候補が可能な雑音信号成分を表す第2のコードブックと;環境の測定値を提供するセンサ信号を受信するための入力部であって、センサ信号が、環境内の所望の発信源又は雑音の測定値を表す入力部と;第1の信号を時間セグメントにセグメント化するためのセグメント化器と;雑音減衰器とを備える雑音減衰装置であって、雑音減衰器が、各時間セグメントごとに、第1のコードブックのコードブックエントリの第1のグループの所望信号候補と第2のコードブックのコードブックエントリの第2のグループの雑音信号候補との各対に関して、複合信号を生成することによって、複数の推定信号候補を生成するステップと;推定信号候補から、時間セグメント内の第1の信号に関する信号候補を生成するステップと;信号候補に応じて、時間セグメント内の第1の信号の雑音を減衰するステップとを行うように構成され、雑音減衰器が、基準信号に応じて、コードブックエントリの部分集合を選択することによって、第1のグループと第2のグループの少なくとも1つを生成するように構成される雑音減衰装置が提供される。
本発明は、改良及び/又は容易化された雑音減衰を提供することができる。多くの実施形態において、実質的に減少された計算資源しか必要とされない。この手法は、多くの実施形態において、より効率的な雑音減衰を可能にすることができ、これは、より高速の雑音減衰をもたらすことができる。多くのシナリオにおいて、この手法は、リアルタイム雑音減衰を可能にすることができる。多くのシナリオ及び用途において、考慮される可能な候補の減少により、適当なコードブックエントリの推定がより正確になるので、より正確な雑音減衰が行われることがある。
所望信号候補はそれぞれ、時間セグメント期間に対応する期間を有することがある。雑音信号候補はそれぞれ、時間セグメント期間に対応する期間を有することがある。
センサ信号は、時間セグメントにセグメント化されることがあり、時間セグメントは、オーディオ信号の時間セグメントに重畳することも、特に直接対応することもある。幾つかの実施形態では、セグメント化器は、センサ信号をオーディオ信号と同じ時間セグメントにセグメント化することがある。各時間セグメントに関する部分集合が、同じ時間セグメント内のセンサ信号に基づいて決定されることがある。
所望信号候補と雑音候補はそれぞれ、信号成分を特徴付ける1組のパラメータによって表されることがある。例えば、各所望信号候補が、線形予測モデルに関する1組の線形予測係数を備えることがある。各所望信号候補は、例えばパワースペクトル密度(PSD)など、スペクトル分布を特徴付ける1組のパラメータを備えることがある。
雑音信号成分は、所望信号成分の一部ではない任意の信号成分に対応することがある。例えば、雑音信号成分は、望ましくない雑音源からの白色雑音、有色雑音、決定論的雑音などを含むことがある。雑音信号成分は、様々な時間セグメントに関して変化することがある非静的雑音でよい。雑音減衰器による各時間セグメントの処理は、各時間セグメントごとに独立であることがある。従って、オーディオ環境内の雑音は、別個のサウンド源から発することも、例えば反響若しくは拡散サウンド成分であることもある。
センサ信号は、所望の発信源及び/又は雑音の測定を行うセンサから受信されることがある。
部分集合は、それぞれ第1及び第2のコードブックのものでよい。特に、センサ信号が所望の信号源の測定値を提供するとき、部分集合は、第1のコードブックの部分集合でよい。センサ信号が雑音の測定値を提供するとき、部分集合は、第2のコードブックの部分集合でよい。
雑音推定器は、所望信号候補と雑音候補に関する推定信号候補を、所望信号候補と雑音候補の重み付けされた組合せ、特に重み付けされた和として生成するように構成されることがあり、ここで、重みは、推定信号候補と、時間セグメント内のオーディオ信号との差異を示すコスト関数を最小にするように決定される。
所望信号候補及び/又は雑音信号候補は、特に、可能な信号成分のパラメータ化された表現でよい。候補を定義するために使用されるパラメータの数は、典型的には、20個以下、又は多くの実施形態では有利には10個以下であることがある。
第1のコードブックの所望信号候補と第2のコードブックの雑音信号候補との少なくとも一方は、スペクトル分布によって表されることがある。特に、候補は、パラメータ化されたパワースペクトル密度(PSD)のコードブックエントリによっても、又は同等に、線形予測パラメータのコードブックエントリによって表されることもある。
センサ信号は、幾つかの実施形態では、第1の信号よりも小さい周波数帯域幅を有することがある。幾つかの実施形態では、雑音減衰装置は、複数のセンサ信号を受信することがあり、部分集合の生成は、この複数のセンサ信号に基づくことがある。
雑音減衰器は、特に、第1のコードブックのコードブックエントリの第1のグループの所望信号候補と第2のコードブックのコードブックエントリの第2のグループの雑音信号候補との各対に関して、複合信号を生成することによって、複数の推定信号候補を生成するための処理装置、回路、機能ユニット、又は手段と;推定信号候補から、時間セグメント内の第1の信号に関する信号候補を生成するための処理装置、回路、機能ユニット、又は手段と;信号候補に応じて、時間セグメント内の第1の信号の雑音を減衰するための処理装置、回路、機能ユニット、又は手段と;基準信号に応じてコードブックエントリの部分集合を選択することによって、第1のグループと第2のグループの少なくとも一方を生成するための処理装置、回路、機能ユニット、又は手段とを含むことがある。
信号は特にオーディオ信号でよく、環境はオーディオ環境でよく、所望の発信源はオーディオ源でよく、雑音はオーディオ雑音でよい。
特に、信号減衰装置は、オーディオ環境に関するオーディオ信号を受信するための受信機であって、オーディオ信号が、オーディオ環境内の所望のオーディオ源からのオーディオに対応する所望信号成分と、オーディオ環境内の雑音に対応する雑音信号成分とを備える受信機と;所望信号成分に関する複数の所望信号候補を備える第1のコードブックであって、各所望信号候補が、可能な所望信号成分を表す第1のコードブックと;雑音信号成分に関する複数の雑音信号候補を備える第2のコードブックであって、各所望信号候補が可能な雑音信号成分を表す第2のコードブックと;オーディオ環境の測定値を提供するセンサ信号を受信するための入力部であって、センサ信号が、オーディオ環境内の所望のオーディオ源又は雑音の測定値を表す入力部と;オーディオ信号を時間セグメントにセグメント化するためのセグメント化器と;雑音減衰器とを備えることがあり、雑音減衰器が、各時間セグメントごとに、第1のコードブックのコードブックエントリの第1のグループの所望信号候補と第2のコードブックのコードブックエントリの第2のグループの雑音信号候補との各対に関して、複合信号を生成することによって、複数の推定信号候補を生成するステップと;推定信号候補から、時間セグメント内のオーディオ信号に関する信号候補を生成するステップと;信号候補に応じて、時間セグメント内のオーディオ信号の雑音を減衰するステップとを行うように構成され、雑音減衰器が、基準信号に応じて、コードブックエントリの部分集合を選択することによって、第1のグループと第2のグループの少なくとも1つを生成するように構成される。
所望信号成分は、特に、音声信号成分でよい。
センサ信号は、所望の発信源及び/又は雑音の測定を行うセンサから受信されることがある。測定は、例えば1つ又は複数のマイクロホンによる音響測定でよいが、必ずしもそうである必要はない。例えば、幾つかの実施形態では、測定は、機械的又は視覚的測定でよい。
本発明の任意選択の特徴によれば、センサ信号は、所望の発信源の測定値を表し、雑音減衰器は、第1のコードブックからコードブックエントリの部分集合を選択することによって第1のグループを生成するように構成される。
これは、多くの実施形態で、減少された複雑さ、容易化された操作、及び/又は改良された性能を可能にすることがある。多くの実施形態では、所望の信号源に関して、特に有用なセンサ信号が生成され、それにより、探索すべき所望信号候補の数の減少を高い信頼性で可能にすることができる。例えば、所望の信号源が音声源である場合、正確であるが異なる音声信号表現が、骨伝導マイクロホンから生成され得る。従って、多くのシナリオにおいて、有利には、取り得る候補の大幅な減少を可能にするために、オーディオ信号とは異なるセンサ信号に基づいて、所望の信号源の特定の特性が利用されることがある。
本発明の任意選択の特徴によれば、第1の信号はオーディオ信号であり、所望の発信源はオーディオ源であり、所望信号成分は音声信号であり、センサ信号は骨伝導マイクロホン信号である。
これは、特に効率的で高性能の音声強調を提供することができる。
本発明の任意選択の特徴によれば、センサ信号は、所望の発信源の表現を提供するが、これは、所望信号成分ほど正確ではない。
本発明は、高品質の雑音減衰を行うために、より低い品質の(従って、場合によっては、直接の雑音減衰又は信号レンダリングには適切でない)信号によって提供される追加の情報が使用されることができるようにすることがある。
本発明の任意選択の特徴によれば、センサ信号は、雑音の測定値を表し、雑音減衰器は、第2のコードブックからコードブックエントリの部分集合を選択することによって第2のグループを生成するように構成される。
これは、多くの実施形態で、減少された複雑さ、容易化された操作、及び/又は改良された性能を可能にすることがある。多くの実施形態では、(拡散雑音を含む)1つ又は複数の雑音源に関して、特に有用なセンサ信号が生成され、それにより、探索すべき雑音信号候補の数の減少を高い信頼性で可能にすることができる。多くの実施形態では、雑音は、所望信号成分よりも変化しやすい。例えば、音声強調は、多くの異なる環境で、従って多くの異なる雑音環境で使用されることがある。従って、異なる環境で、雑音の特性は大きく異なることがあり、一方、音声の特性は比較的一定である傾向がある。従って、雑音コードブックは、しばしば、多くの非常に異なる環境に関するエントリを含むことがあり、多くのシナリオで、センサ信号は、現行の雑音環境に対応する部分集合が生成されるようにする。
本発明の任意選択の特徴によれば、センサ信号は、機械的振動検出信号である。
これは、多くのシナリオで、特に高信頼性の性能を可能にすることができる。
本発明の任意選択の特徴によれば、センサ信号は、加速度計信号である。
これは、多くのシナリオで、特に高信頼性の性能を可能にすることができる。
本発明の任意選択の特徴によれば、雑音減衰装置は、さらに、複数のセンサ信号候補と、第1のコードブックと第2のコードブックとの少なくとも一方のコードブックエントリとの間のマッピングを生成するためのマップ作成器を備え、雑音減衰器は、マッピングに応じてコードブックエントリの部分集合を選択するように構成される。
これは、多くの実施形態で、減少された複雑さ、容易化された操作、及び/又は改良された性能を可能にすることがある。特に、これは、候補の適切な部分集合の容易化及び/又は改良された生成を可能にすることがある。
本発明の任意選択の特徴によれば、雑音減衰器は、複数のセンサ信号候補それぞれとセンサ信号との間の距離尺度に応じて、複数のセンサ信号候補から第1のセンサ信号候補を選択し、第1の信号候補に関するマッピングに応じて、部分集合を生成するように構成される。
これは、多くの実施形態で、特に有利に且つ実用的に、適切なマッピング情報を生成できるようにすることがあり、候補の適切な部分集合を高い信頼性で生成できるようにする。
本発明の任意選択の特徴によれば、マップ作成器は、第1の信号を生じる入力センサと、センサ信号を生じるセンサとからの同時測定に基づいてマッピングを生成するように構成される。
これは、特に効率的な実装形態を提供することができ、特に減少された複雑さを提供することができ、例えば高信頼性のマッピングの容易化及び/又は改良された決定を可能にすることがある。
本発明の任意選択の特徴によれば、マップ作成器は、センサ信号候補と、第1のコードブックと第2のコードブックとの少なくとも一方のコードブックエントリとの間の差異尺度に基づいてマッピングを生成するように構成される。
これは、特に効率的な実装形態を提供することができ、特に複雑さを減少することができ、例えば高信頼性のマッピングの容易化及び/又は改良された決定を可能にすることがある。
本発明の任意選択の特徴によれば、第1の信号は、第1のマイクロホンからのマイクロホン信号であり、センサ信号は、第1のマイクロホンから離れた第2のマイクロホンからのマイクロホン信号である。
これは、多くの実施形態で、減少された複雑さ、容易化された操作、及び/又は改良された性能を可能にすることがある。
本発明の任意選択の特徴によれば、第1の信号はオーディオ信号であり、センサ信号は非オーディオセンサからのものである。
これは、多くの実施形態で、減少された複雑さ、容易化された操作、及び/又は改良された性能を可能にすることがある。
本発明の一態様によれば、雑音減衰の方法であって、環境に関する第1の信号を受信するステップであって、第1の信号が、環境内の所望の発信源からの信号に対応する所望信号成分と、環境内の雑音に対応する雑音信号成分とを備えるステップと;所望信号成分に関する複数の所望信号候補を備える第1のコードブックを提供するステップであって、各所望信号候補が、可能な所望信号成分を表すステップと;雑音信号成分に関する複数の雑音信号候補を備える第2のコードブックを提供するステップであって、各所望信号候補が可能な雑音信号成分を表すステップと;環境の測定値を提供するセンサ信号を受信するステップであって、センサ信号が、環境内の所望の発信源又は雑音の測定値を表すステップと;第1の信号を時間セグメントにセグメント化するステップと;各時間セグメントごとに、第1のコードブックのコードブックエントリの第1のグループの所望信号候補と第2のコードブックのコードブックエントリの第2のグループの雑音信号候補との各対に関して、複合信号を生成することによって、複数の推定信号候補を生成するステップと、推定信号候補から、時間セグメント内の第1の信号に関する信号候補を生成するステップと、信号候補に応じて、時間セグメント内の第1の信号の雑音を減衰するステップとを行うステップと;基準信号に応じて、コードブックエントリの部分集合を選択することによって、第1のグループと第2のグループの少なくとも1つを生成するステップとを含む方法が提供される。
本発明のこれら及び他の態様、特徴、及び利点は、本明細書で以下に述べる実施形態から明らかになり、以下の実施形態を参照すれば解明されよう。
本発明の実施形態が、図面を参照して単に例として説明される。
本発明の幾つかの実施形態による雑音減衰装置の要素の一例を示す図である。 図1の雑音減衰装置に関する雑音減衰器の要素の一例を示す図である。 本発明の幾つかの実施形態による雑音減衰装置の要素の一例を示す図である。 本発明の幾つかの実施形態による雑音減衰装置に関するコードブックマッピングを示す図である。
以下の説明は、オーディオ雑音減衰、特に雑音の減衰による音声強調に適用可能な本発明の実施形態に焦点を当てる。しかし、本発明は、この用途に限定されず、多くの他の信号に適用されることがあることを理解されたい。
図1は、本発明の幾つかの実施形態による雑音減衰器の一例を示す。
雑音減衰器は、受信機101を備え、受信機101は、所望成分と望ましくない成分との両方を備える信号を受信する。望ましくない成分は、雑音信号と呼ばれ、所望信号成分の一部でない任意の信号成分を含むことがある。所望信号成分は、所望のサウンド源から発生されたサウンドに対応し、望ましくない信号成分又は雑音信号成分は、拡散及び反響雑音などを含む全ての他のサウンド源からの寄与に対応することがある。雑音信号成分は、環境内の周囲雑音や、望ましくないサウンド源からのオーディオなどを含むことがある。
図1のシステムでは、信号は、特に、所与のオーディオ環境内でオーディオ信号を捕捉するマイクロホン信号から生成されることがあるオーディオ信号である。以下の説明は、所望信号成分が所望の発話者からの音声信号である実施形態に焦点を当てる。
受信機101は、セグメント化器103に結合され、セグメント化器103は、オーディオ信号を時間セグメントにセグメント化する。幾つかの実施形態では、時間セグメントは重畳していないことがあるが、他の実施形態では、時間セグメントは重畳していることがある。さらに、セグメント化は、適切な形状の窓関数を適用することによって行われることがあり、特に、雑音減衰装置は、よく知られている、ハニング窓又はハミング窓など適切な窓を使用するセグメント化の重畳及び加算技法を採用することがある。時間セグメント期間は、特定の実装形態に依存するが、多くの実施形態で、10〜100ミリ秒程度となる。
セグメント化器103は、雑音減衰器105に送られ、雑音減衰器105は、セグメントベースの雑音減衰を行って、望ましくない雑音信号成分に対して所望信号成分を強調する。得られる雑音減衰されたセグメントは、出力処理装置107に送られ、出力処理装置107は、連続オーディオ信号を提供する。出力処理装置107は、特に、例えば重畳及び加算関数を実施することによって逆セグメント化を行うことがある。他の実施形態では、例えば、雑音減衰された信号に対してさらなるセグメントベースの信号処理が行われる実施形態等、出力信号が、セグメント化された信号として提供されることがあることを理解されたい。
雑音減衰は、所望信号成分と雑音信号成分に関係する個別のコードブックを使用するコードブック手法に基づく。従って、雑音減衰器105は、第1のコードブック109に結合され、第1のコードブック109は、所望信号コードブックであり、特定の例では音声コードブックである。雑音減衰器105は、さらに、第2のコードブック111に結合され、第2のコードブック111は、雑音信号コードブックである。
雑音減衰器105は、選択されたエントリに対応する信号成分の組合せがその時間セグメント内のオーディオ信号に最も密接に類似するように、音声コードブックと雑音コードブックのコードブックエントリを選択するように構成される。適当なコードブックエントリが(それらのスケーリングと共に)見つけられると、それらのコードブックエントリは、捕捉されたオーディオ信号内の個々の音声信号成分と雑音信号成分の推定値を表す。特に、選択された音声コードブックエントリに対応する信号成分は、捕捉されたオーディオ信号内の音声信号成分の推定値であり、雑音コードブックエントリは、雑音信号成分の推定値を提供する。従って、この手法は、コードブック手法を使用してオーディオ信号の音声信号成分と雑音信号成分を推定し、推定値が決定されると、これらの推定値は、これらの信号を区別できるようにするので、オーディオ信号内の音声信号成分に対して雑音信号成分を減衰させるために使用され得る。
従って、図1のシステムで、雑音減衰器105は、所望信号コードブック109に結合され、所望信号コードブック109は、幾つかのコードブックエントリを備え、各コードブックエントリが、可能な所望信号成分、特定の例では所望音声信号を定義する1組のパラメータを備える。同様に、雑音減衰器105は、雑音信号コードブック109に結合され、雑音信号コードブック109は、幾つかのコードブックエントリを備え、各コードブックエントリが、可能な雑音信号成分を定義する1組のパラメータを備える。
所望信号成分に関するコードブックエントリは、所望信号成分に関する取り得る候補に対応し、雑音信号成分に関するコードブックエントリは、雑音信号成分に関する取り得る候補に対応する。各エントリは、1組のパラメータを備え、1組のパラメータは、可能な所望信号成分又は雑音成分をそれぞれ特徴付ける。特定の例では、第1のコードブック109の各エントリは、可能な音声信号成分を特徴付ける1組のパラメータを備える。従って、このコードブックのコードブックエントリによって特徴付けられる信号は、音声信号の特性を有する信号であり、従って、これらのコードブックエントリは、音声特性の知識を音声信号成分の推定に導入する。
所望信号成分に関するコードブックエントリは、所望のオーディオ源のモデルに基づいてもよく、さらに又は代替として、訓練プロセスによって決定されることもある。例えば、コードブックエントリは、音声の特性を表すために開発された音声モデルに関するパラメータでよい。別の例として、コードブックに記憶される適切な数の取り得る音声候補を生成するために、多数の音声サンプルが記録され、統計的に処理されることがある。同様に、雑音信号成分に関するコードブックエントリは、雑音のモデルに基づくことがあり、又は、追加として若しくは代替として、訓練プロセスによって決定されることがある。
特に、コードブックエントリは、線形予測モデルに基づくことがある。実際、特定の例では、コードブックの各エントリが、1組の線形予測パラメータを備える。コードブックエントリは、特に、訓練プロセスによって生成されていることがあり、線形予測パラメータは、多数の信号サンプルに当てはめることによって生成されている。
コードブックエントリは、幾つかの実施形態では、度数分布として、特にパワースペクトル密度(PSD)として表されることがある。PSDは、線形予測パラメータに直接対応することがある。
各コードブックエントリに関するパラメータの数は、典型的には比較的小さい。実際、典型的には、各コードブックエントリを特定する20個以下、しばしば10個以下のパラメータが存在する。従って、所望信号成分の比較的粗い推定が使用される。これは、減少された複雑さ及び容易化された処理を可能にするが、それでも、大抵の場合には、効率的な雑音減衰を提供することが分かっている。
より詳細には、音声と雑音が独立していると仮定される加法性雑音モデル(additive noise model)を考えると、
y(n)=x(n)+w(n)
であり、ここで、y(n)、x(n)、及びw(n)は、それぞれ、サンプルされた雑音を含む音声(入力オーディオ信号)、クリーンな音声(所望音声信号成分)、及び雑音(雑音信号成分)を表す。
コードブックベースの雑音減衰は、典型的には、コードブックにわたって探索を行うことを含み、信号成分と雑音成分に関するコードブックエントリをそれぞれ見つけ、スケール調整された組合せが、捕捉された信号に最も密接に類似し、それにより、各短時間セグメントに関する音声成分と雑音成分の推定値を提供する。P(ω)が、観察された雑音を含む信号y(n)のパワースペクトル密度(PSD)を表し、P(ω)が、音声信号成分x(n)のPSDを表し、P(ω)が、雑音信号成分w(n)のPSDを表すとすると、
(ω)=P(ω)+P(ω)
である。
^が、対応するPSDの推定値を表すとすると、従来のコードブックベースの雑音減衰は、捕捉された信号に周波数領域ウィーナーフィルタH(ω)を適用することによって雑音を減少させることができ、即ち、
na(ω)=P(ω)H(ω)
であり、ここで、ウィーナーフィルタは、
コードブックは、音声信号候補及び雑音信号候補をそれぞれ備え、重要な問題は、最も適切な候補対、及びそれぞれの相対重み付けを識別することである。
音声PSDと雑音PSDの推定、従って適当な候補の選択は、最大尤度(ML)手法又はベイジアン最小平均二乗誤差(MMSE)手法に従うことができる。
線形予測係数のベクトルと根本のPSDとの間の関係は、
によって決定され得る。ここで、
は、線形予測係数であり、
であり、pは、線形予測モデル次数であり、
である。
この関係を使用して、捕捉される信号の推定されるPSDは、
によって与えられる。ここで、g及びgは、音声PSDと雑音PSDに関連付けられる周波数独立レベル利得である。これらの利得は、コードブックに記憶されているPSDと入力オーディオ信号内で見られるPSDとの間のレベルの変化を考慮するために導入される。
従来の手法は、以下に述べるように、音声コードブックエントリと雑音コードブックエントリの全ての可能な対にわたる探索に基づいて、観察される雑音を含むPSDと推定されるPSDとの間の特定の類似性尺度を最大にする対を決定する。
音声コードブックからの第iのPSDと、雑音コードブックからの第jのPSDとによって与えられる1対の音声PSDと雑音PSDを考える。この対に対応する雑音を含むPSDは、
と書かれ得る。
この式では、PSDは既知であり、利得は未知である。従って、音声PSDと雑音PSDの各可能な対に関して、利得が決定されなければならない。これは、最大尤度手法に基づいて実施され得る。所望音声PSDと雑音PSDの最大尤度推定値は、2ステップの手順で求められ得る。観察された雑音を含むPSDを所与の対

が生じている尤度の対数は、以下の式によって表される。
第1のステップで、
を最大にする未知のレベル項

が決定される。これを行うための1つの方法は、

に関して区別し、結果をゼロに設定し、得られる連立方程式を解くことによるものである。しかし、これらの式は、非線形であり、閉じた形の解(closed-form solution)には適していない。代替手法は、
であるときに尤度が最大にされることに基づき、従って、利得項は、これら2つのエンティティ(entities)の間のスペクトル距離を最小にすることによって求められ得る。
レベル項が分かると、全てのエンティティが既知であるので、
の値が決定され得る。この手順は、音声コードブックエントリと雑音コードブックエントリの全ての対に関して繰り返され、最大尤度を生じる対が、音声PSDと雑音PSDを得るために使用される。このステップは、あらゆる短時間セグメントに関して行われるので、この方法は、非静止雑音条件下でさえ、雑音PSDを正確に推定することができる。
{i,j}が、所与のセグメントに関する最大尤度をもたらす対を表し

が、対応するレベル項を表すとする。このとき、音声PSDと雑音PSDは、
によって与えられる。
従って、これらの結果は、雑音減衰された信号を生成するために入力オーディオ信号に適用されるウィーナーフィルタを定義する。
従って、従来技術は、音声信号成分に関する良好な推定値である適切な所望信号コードブックエントリと、雑音信号成分に関する良好な推定値である適切な雑音信号コードブックエントリとを見つけることに基づく。これらが見つけられると、効率的な雑音減衰が適用され得る。
しかし、この手法は、非常に複雑であり、資源を多く必要とする。特に、最も近い一致を見つけるために、雑音コードブックエントリと音声コードブックエントリの全ての可能な対が評価されなければならない。さらに、コードブックエントリは、多様な可能な信号を表さなければならないので、これは、非常に大きなコードブックを生じ、従って、評価されなければならない多くの可能な対を生じる。特に、雑音信号成分は、例えば特定の使用環境に応じて、取り得る特性が大きく変化することがよくある。従って、しばしば、十分に近い推定値を保証するために、非常に大きな雑音コードブックが必要とされる。これは、非常に大きな計算量を必要とする。
図1のシステムでは、第2の信号を使用して、アルゴリズムが探索するコードブックエントリの数を減少させることによって、雑音減衰アルゴリズムの複雑さ及び特に計算資源使用量が実質的に減少されることがある。特に、雑音減衰を行うべきオーディオ信号をマイクロホンから受信することに加えて、システムは、主として所望信号成分又は主として雑音信号成分の測定値を提供するセンサ信号も受信する。
従って、図1の雑音減衰器は、適切なセンサからのセンサ信号を受信するセンサ受信機113を備える。センサ信号は、オーディオ環境の測定値を提供し、それにより、所望のオーディオ源の測定値又はオーディオ環境の測定値を表す。
この例では、センサ受信機113は、セグメント化器103に結合され、セグメント化器103は、続いて、センサ信号を、オーディオ信号と同じ時間セグメントにセグメント化する。しかし、このセグメント化は任意選択的であり、他の実施形態では、センサ信号は、例えば、オーディオ信号のセグメント化に対してより長い、より短い、重なった、又は重ならない時間セグメントにセグメント化されることがあることを理解されたい。
従って、図1の例では、雑音減衰器105は、各セグメントに関して、オーディオ信号とセンサ信号を受信し、センサ信号は、オーディオ環境内の所望のオーディオ源又は雑音の異なる測定値を提供する。次いで、雑音減衰器は、センサ信号によって提供される追加の情報を使用して、対応するコードブックに関するコードブックエントリの部分集合を選択する。従って、センサ信号が所望のオーディオ源の測定値を表すとき、雑音減衰器105は、所望信号候補の部分集合を生成する。次いで、雑音コードブック111内の雑音信号候補と、生成された所望信号候補の部分集合内の候補との可能な対にわたって探索が実施される。センサ信号が雑音環境の測定値を表すとき、雑音減衰器105は、雑音コードブック111から所望雑音候補の部分集合を生成する。次いで、所望信号コードブック109内の所望信号候補と、生成された雑音信号候補の部分集合内の候補との可能な対にわたって探索が実施される。
図2は、雑音減衰器105の幾つかの要素の一例を示す。この雑音減衰器は、推定処理装置201を備え、推定処理装置201は、所望信号コードブックのコードブックエントリの第1のグループの所望信号候補と雑音コードブックのコードブックエントリの第2のグループの雑音信号候補との各対に関して、複合信号を生成することによって、複数の推定信号候補を生成する。従って、推定処理装置201は、雑音コードブックの1グループの候補(コードブックエントリ)からの雑音候補と、所望信号コードブックの1グループの候補(コードブックエントリ)からの所望信号候補との各対に関して、受信された信号の推定値を生成する。1対の候補に関する推定値は、特に、コスト関数を最小にする重み付けされた合計、特に重み付けされた和として生成されることがある。
さらに、雑音減衰器105は、グループ処理装置203を備え、グループ処理装置203は、基準信号に応じてコードブックエントリの部分集合を選択することによって、第1のグループと第2のグループの少なくとも一方を生成するように構成される。従って、第1のグループ又は第2のグループは、単純に、コードブック全体に等しいことがあるが、これらのグループの少なくとも一方は、コードブックの部分集合として生成され、その部分集合は、センサ信号に基づいて生成される。
推定処理装置201は、さらに、候補処理装置205に結合され、候補処理装置205は、続いて、推定信号候補から、時間セグメント内の入力信号に関する信号候補を生成する。例えば、候補は、最小のコスト関数をもたらす推定値を選択することによって単純に生成されることがある。代替として、候補は、推定値の重み付けされた組合せとして生成されることがあり、ここで、重みは、コスト関数の値に依存する。
候補処理装置205は、雑音減衰処理装置207に結合され、雑音減衰処理装置207は、続いて、生成された信号候補に応じて、時間セグメント内の入力信号の雑音を減衰する。例えば、前述のように、ウィーナーフィルタが適用されることがある。
従って、追加の情報を提供するために第2のセンサ信号が使用されることがあり、この追加の情報は、探索を制御するために使用されることが可能であり、それにより、探索は実質的に狭められ得る。しかし、センサ信号は、オーディオ信号に直接は影響を及ぼしておらず、最適な推定値を見つけるために探索を誘導することのみを行う。その結果、センサによる測定における歪、雑音、不正確さなどは、信号処理又は雑音減衰に直接は影響を及ぼさず、従って信号品質劣化を直接は引き起こさない。その結果、センサ信号は、かなり低い品質を有していてもよく、特に、所望信号測定のために直接使用された場合には不適当なオーディオ(特に音声)品質を提供することになる信号であることがある。その結果、多様なセンサが使用されることが可能であり、特に、例えば非オーディオセンサなど、オーディオ信号を捕捉するマイクロホンとは実質的に異なる情報を提供することがあるセンサが使用され得る。
幾つかの実施形態では、センサ信号は、所望のオーディオ源の測定値を表すことがあり、センサ信号は、特に、オーディオ信号の所望信号成分ほどは正確でない、所望のオーディオ源の表現を提供する。
例えば、雑音の多い環境内にいる人の音声を捕捉するために、マイクロホンが使用されることがある。音声信号の異なる測定値を提供するために異なるタイプのセンサが使用されることがあり、この測定値はしかし、高信頼性の音声を提供するには十分な品質ではないことがあるが、音声コードブックでの探索を狭めるには有用であることがある。
主として所望信号のみを捕捉する基準センサの一例は、骨伝導マイクロホンであり、これは、ユーザの喉の近くに着用され得る。この骨伝導マイクロホンは、(ヒト)組織を通って伝播する音声信号を捕捉する。このセンサは、ユーザの身体と接触し、外部音響環境から遮蔽されるので、非常に高い信号対雑音比で音声信号を捕捉することができ、即ち、このセンサは、骨伝導マイクロホン信号の形態でセンサ信号を提供し、ここで、所望のオーディオ源(発話者)から生じる信号エネルギーは、他の音源から生じる信号エネルギーよりも実質的に(即ち、少なくとも10dB以上)高い。
しかし、センサの位置により、捕捉される信号の品質は、ユーザの口の前に配置されたマイクロホンによってピックアップされる気導音声の品質とははるかに異なる。従って、得られる品質は、音声信号として直接使用されるのには十分でないが、音声コードブックの小さな部分集合のみを探索するようにコードブックベースの雑音減衰を誘導するのには非常に適している。
従って、大きな音声コードブックと雑音コードブックを使用する結合向上(joint enhancement)を必要とする従来の手法とは異なり、図1の手法は、クリーンな基準信号の存在により、音声コードブックの小さな部分集合にわたる最適化のみを行えばよい。これは、計算の複雑さの大幅な削減をもたらす。なぜなら、候補の数の減少と共に、可能な組合せの数が急激に減少するからである。さらに、クリーンな基準信号の使用は、真のクリーンな音声、即ち所望信号成分を密接にモデル化する音声コードブックの部分集合の選択を可能にする。従って、誤った候補を選択する尤度が実質的に減少され、従って、全体の雑音減衰の性能が改良されることがある。
他の実施形態では、センサ信号は、オーディオ環境内での雑音の測定値を表すことがあり、雑音減衰器105は、考慮される雑音コードブック111の候補/エントリの数を減少するように構成されることがある。
雑音測定は、オーディオ環境の直接の測定でも、例えば、異なるモダリティのセンサを使用した、即ち非オーディオセンサを使用した間接的な測定でもよい。
オーディオセンサの一例は、オーディオ信号を捕捉するマイクロホンから離して位置決めされたマイクロホンでよい。例えば、音声信号を捕捉するマイクロホンは、発話者の口の近くに位置決めされることがあり、第2のマイクロホンは、センサ信号を提供するために使用される。第2のマイクロホンは、雑音が音声信号よりも強い位置に位置決めされることがあり、特に、発話者の口から十分に離して位置決めされることがある。センサ信号において、捕捉されたオーディオ信号と比べて、所望のサウンド源から発するエネルギーと雑音エネルギーとの比が10dB以上減少しているように、オーディオセンサは十分に離れていることがある。
幾つかの実施形態では、例えば機械的振動検出信号を生成するために、非オーディオセンサが使用されることがある。例えば、加速度計信号の形態でのセンサ信号を生成するために、加速度計が使用されることがある。そのようなセンサは、例えば、通信デバイスに取り付けられて、その振動を検出することができる。別の例として、特定の機械的実体が主な雑音源であることが分かっている実施形態では、非オーディオセンサ信号を提供するためにそのデバイスに加速度計が取り付けられることがある。特定の例として、洗濯場の用途では、洗濯機又は脱水機に加速度計が位置決めされることがある。
別の例として、センサ信号は、視覚的検出信号でよい。例えば、オーディオ環境を示唆する視覚的環境の特性を検出するために、ビデオカメラが使用されることがある。例えば、ビデオ検出は、所与の雑音源がアクティブであるかどうかの検出を可能にすることがあり、また、雑音候補の探索を、対応する部分集合に狭めるために使用されることがある(視覚的センサ信号はまた、探索される所望信号候補の数を減少させるために使用されることもでき、これは、例えば適切な候補の大まかな示唆を得るために読唇アルゴリズムをヒト発話者に適用することによって、又は例えば対応するコードブックエントリが選択され得るように発話者を検出するために顔認識システムを使用することによって行われる)。
次いで、そのような雑音基準センサ信号は、探索される雑音コードブックエントリの部分集合を選択するために使用されることがある。これは、考慮されなければならないコードブックのエントリの対の数を効率的に減少させ、それにより複雑さを実質的に減少させることができるだけでなく、雑音推定をより正確にし、それにより改良された雑音減衰をもたらすこともできる。
センサ信号は、所望の信号源又は雑音の測定値を表す。しかし、センサ信号が他の信号成分を含むこともあり、特に、センサ信号は、幾つかのシナリオでは、所望のサウンド源と環境内の雑音との両方からの寄与を含むことがあることを理解されたい。しかし、センサ信号内で、これらの成分の分散又は重みは異なり、特に、典型的には、成分の一方が強い。典型的には、部分集合が決定されるコードブックに対応する成分(即ち所望信号又は雑音信号)のエネルギー/パワーは、他方の成分のエネルギーよりも3dB、10dB、又はさらには20dB以上高い。
コードブックエントリの全ての候補対にわたって探索が行われると、各対に関して、典型的には、測定されたオーディオ信号に推定値がどれだけ密接に適合しているかの示唆と共に、信号候補推定値が生成される。次いで、推定信号候補に基づいて、その時間セグメントに関して信号候補が生成される。信号候補は、捕捉されたオーディオ信号を信号候補が生じる尤度推定値を考慮することによって生成され得る。
複雑さの低い例として、システムは、単純に、最高尤度の値を有する推定信号候補を選択することがある。より複雑な実施形態では、信号候補は、全ての推定信号候補の重み付けされた組合せ、特に和によって計算されることがあり、ここで、各推定信号候補の重み付けは、対数尤度値に依存する。
次いで、計算された信号候補に基づいて、特にウィーナーフィルタ
を用いてオーディオ信号をフィルタすることによって、オーディオ信号が補償される。
推定される信号成分と雑音成分に基づいて雑音を減少させるための他の手法が使用されることもあることを理解されたい。例えば、システムは、推定される雑音候補を入力オーディオ信号から差し引くことがある。
従って、雑音減衰器105は、時間セグメント内の入力信号から、音声信号成分に対して雑音信号成分が減衰された出力信号を生成する。
異なる実施形態では、コードブックエントリの部分集合を決定するために異なる手法が使用されることがあることを理解されたい。例えば、幾つかの実施形態では、例えば(特に各パラメータに関して同じ周波数範囲を使用して)コードブックエントリのパラメータに対応するパラメータを有するPSDとしてセンサ信号を表現することによって、センサ信号は、コードブックエントリに同等にパラメータ化されることがある。センサ信号PSDとコードブックエントリとの間の最も近い一致は、二乗誤差など、適切な距離尺度を使用して見つけられることがある。次いで、雑音減衰器105は、識別された一致に最も近い所定数のコードブックエントリを選択することができる。
しかし、多くの実施形態では、雑音減衰システムは、センサ信号候補とコードブックエントリとの間のマッピングに基づいて部分集合を選択するように構成されることがある。従って、システムは、図3に示されるようにマップ作成器301を備えることがあり、マップ作成器301は、センサ信号候補からコードブック候補へのマッピングを生成するように構成される。
マッピングは、マップ作成器301から雑音減衰器105に送られ、ここで、マッピングは、一方のコードブックの部分集合を生成するために使用される。図3は、センサ信号が所望信号に関するものである例に関して、雑音減衰器105が機能し得る様式の一例を示す。
この例では、受信されたセンサ信号に関して線形LPCパラメータが生成され、得られるパラメータは、生成されたマッピング401内の可能なセンサ信号候補に対応するように量子化される。マッピング401は、センサ信号候補を含むセンサ信号コードブックから、音声コードブック109内の音声信号候補へのマッピングを提供する。このマッピングは、音声コードブックエントリの部分集合403を生成するために使用される。
雑音減衰器105は、特に、マッピング401内の記憶されているセンサ信号候補にわたって探索することがあり、パラメータに関する誤差平方和など適切な距離尺度に従って、測定されたセンサに最も近いセンサ信号候補を決定する。次いで、雑音減衰器105は、例えば、識別されたセンサ信号候補にマッピングされる音声信号候補を部分集合に含めることによって、この部分集合に基づいてマッピングを生成することができる。部分集合は、例えば、選択された音声信号候補に対する所与の距離尺度が所与のしきい値未満である全ての音声信号候補を含むことによって、又は、選択されたセンサ信号候補に対する所与の距離尺度が所与のしきい値未満であるセンサ信号候補にマッピングされる全ての音声信号候補を含むことによって、所望のサイズを有するように生成されることがある。
オーディオ信号に基づいて、前述のように、部分集合403と、雑音コードブック111のエントリとにわたって探索が行われ、推定信号候補を生成し、次いで、セグメントに関する信号候補を生成する。代替又は追加として、同じ手法が、雑音センサ信号に基づいて雑音コードブック111に適用され得ることを理解されたい。
マッピングは、特に、コードブックエントリとセンサ信号候補との両方を生成することがある訓練プロセスによって生成されることがある。
特定の信号に関するN−エントリコードブックの生成は、訓練データに基づくことができ、例えば、Linde-Buzo-Gray (LBG) algorithm described in Y. Linde, A. Buzo, and R. Gray, “An algorithm for vector quantizer design,” Communications, IEEE Transactions on, vol. 28, no. 1, pp. 84 - 95, Jan. 1980に基づき得る。
特に、Xが、長さMの要素x∈X(1≦k≦L)を有するL個の訓練ベクトルの集合を表すものとする。アルゴリズムは、訓練ベクトルの平均に対応する単一のコードブックエントリ、即ち
を計算することから始まる。このエントリが、次いで、以下のように2つに分割される。
=(1+η)c
=(1−η)c
ここで、ηは、小さい定数である。次いで、アルゴリズムは、以下のように、訓練ベクトルを2つの区画X及びXに分割する。
ここで、d(.;.)は、平均二乗誤差(MSE)又は重み付けMSE(WMSE)など、何らかの歪尺度である。次いで、現行のコードブックエントリが、以下の式に従って再定義される。
前の2つのステップは、現行のコードブックエントリと共に全体のコードブックエラーが変化しなくなるまで繰り返される。次いで、各コードブックエントリが再び分割され、エントリの数がNに等しくなるまで同じプロセスが繰り返される。
R及びZが、それぞれ、基準センサとオーディオ信号マイクロホンとによって捕捉された同じサウンド源(所望のサウンド源、又は望ましくない/雑音サウンド源)に関する訓練ベクトルの集合を表すものとする。これらの訓練ベクトルに基づいて、センサ信号候補と、長さNの主コードブック(用語「主」は、雑音コードブック又は所望のコードブックのいずれかを適宜表す)との間のマッピングが生成され得る。
例えば、まず、上述のLBGアルゴリズムを使用してマッピング(即ちセンサ候補と主候補)の2つのコードブックを別々に生成し、その後、これらのコードブックのエントリ間のマッピングを作成することによって、コードブックが生成され得る。マッピングは、センサコードブックと主コードブックとの間の1対1(又は1対多/多対1)マッピングを作成するために、コードブックエントリの全ての対の間の距離尺度に基づくことができる。
別の例として、主コードブックと共に、センサ信号に関するコードブックが生成されることがある。特に、この例では、マッピングは、オーディオ信号を生じるマイクロホンと、センサ信号を生じるセンサとからの同時測定に基づくことができる。従って、マッピングは、同じオーディオ環境を同時に捕捉する異なる信号に基づく。
そのような例では、マッピングは、信号が時間的に同期されるという仮定に基づくことがあり、センサ候補コードブックは、主訓練ベクトルにLBGアルゴリズムを適用することにより得られる最終的な区画を使用して導出され得る。(主コードブック)区画の集合が、
として与えられる場合、基準センサRに対応する区画の集合は、以下のように生成され得る。
∈Riffz∈Z 1≦k≦L、1≦j≦N
次いで、前述のように、得られるマッピングが適用され得る。
このシステムは、例えば、モバイルテレホニー及びDECT電話など単一マイクロホン雑音減少を必要とする用途を含む多くの異なる用途で使用され得る。別の例として、マルチマイクロホン音声強調システム(例えば、補聴器やアレイベースのハンズフリーシステムなど)においてこの手法が使用されることが可能であり、これらのシステムは、通常、さらなる雑音減少のための単一チャネル後処理装置を有する。
実際、前述の説明は、オーディオ信号内のオーディオ雑音の減衰に向けられているが、上述の原理及び手法は、他のタイプの信号に適用され得ることを理解されたい。実際、所望信号成分と雑音とを含む任意の入力信号が、上述のコードブック手法を使用して雑音減衰され得ることに留意されたい。
そのような非オーディオ実施形態の一例は、加速度計を使用して呼吸数測定が行われるシステムでよい。この場合、測定センサは、被験者の胸部の近くに配置され得る。さらに、歩いている/走っているときに主加速度計信号に現れることがある雑音寄与を除去するために、1つ又は複数の追加の加速度計が片脚(又は両脚)に配置され得る。従って、被験者の脚に取り付けられたこれらの加速度計は、雑音コードブック探索を狭めるために使用され得る。
また、探索されるコードブックエントリの部分集合を生成するために複数のセンサ及びセンサ信号が使用され得ることも理解されたい。これらの複数のセンサ信号は、個別に、又は並列して使用されることがある。例えば、使用されるセンサ信号は、信号のクラス、カテゴリ、又は特性に依存することがあり、従って、部分集合生成がどのセンサ信号に基づくかを選択するために評価基準が使用されることがある。他の例では、部分集合を生成するために、より複雑な評価基準又はアルゴリズムが使用されることがあり、評価基準又はアルゴリズムは、複数のセンサ信号を同時に考慮する。
上の説明では、分かりやすくするために、様々な機能回路、ユニット、及び処理装置を参照して本発明の実施形態を述べてきたことを理解されたい。しかし、本発明から逸脱することなく、様々な機能回路、ユニット、又は処理装置の間での任意の適切な機能分散が使用されることがあることは明らかであろう。例えば、別々の処理装置又は制御装置によって行われるものとして示されている機能が、同じ処理装置又は制御装置によって行われることがある。従って、特定の機能ユニット又は回路への言及は、厳密な論理的又は物理的構造又は組織を示すものではなく、単に、上述の機能を提供するための適切な手段への言及とみなされるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組合せを含む任意の適切な形態で実装され得る。本発明は、任意選択的に、1つ又は複数のデータ処理装置及び/又はデジタル信号処理装置上で走るコンピュータソフトウェアとして少なくとも一部実装されることがある。本発明の一実施形態の要素及び構成要素は、任意の適切な様式で、物理的、機能的、及び論理的に実装されることがある。実際、機能は、単一のユニットとして、複数のユニットとして、又は他の機能ユニットの一部として実装されることがある。従って、本発明は、単一のユニットで実装されることも、様々なユニット、回路、及び処理装置の間で物理的及び機能的に分散されることもある。
本発明は、幾つかの実施形態に関連付けて上述されているが、本明細書に記載される特定の形態に限定されることは意図されない。そうではなく、本発明の範囲は、添付の特許請求の範囲のみによって限定される。さらに、ある特徴が、特定の実施形態に関連して述べられているように見えることがあるが、当業者は、上述の実施形態の様々な特徴が本発明に従って組み合わされることがあることを理解されよう。特許請求の範囲において、用語「備える」は、他の要素又はステップの存在を除外しない。
さらに、個別に列挙されているが、複数の手段、要素、回路、又は方法ステップは、例えば、単一の回路、ユニット、又は処理装置によって実装されることもある。さらに、個々の特徴が異なる請求項に含まれていることがあるが、それらの特徴は、場合によっては有利に組み合わされることもあり、異なる請求項への包含は、特徴の組合せが実現可能でない及び/又は有利でないことを示唆するものではない。また、請求項の1つのカテゴリーへの特徴の包含は、そのカテゴリーへの限定を示唆するものではなく、その特徴が適宜、他の請求項カテゴリーにも同等に適用可能であることを示す。さらに、請求項での特徴の順序は、それらの特徴が実施されなければならない任意の特定の順序を示唆するものではなく、特に、方法クレーム内での個々のステップの順序は、それらのステップがその順序で実施されなければならないことを示唆するものではない。そうではなく、ステップは、任意の適切な順序で実施されることがある。さらに、単数での言及は、複数を除外しない。従って、「1つの」、「第1の」、「第2の」などは、複数を除外しない。特許請求の範囲内の参照符号は、分かりやすくするための例としてのみ提供されるものであり、特許請求の範囲を限定するものとは解釈されないものとする。

Claims (15)

  1. 環境に関する第1の信号を受信するための受信機であって、前記第1の信号が、前記環境内の所望の発信源からの信号に対応する所望信号成分と、前記環境内の雑音に対応する雑音信号成分とを備える受信機と、
    前記所望信号成分に関する複数の所望信号候補を備える第1のコードブックであって、各所望信号候補が、可能な所望信号成分を表す第1のコードブックと、
    前記雑音信号成分に関する複数の雑音信号候補を備える第2のコードブックであって、各所望信号候補が、可能な雑音信号成分を表す第2のコードブックと、
    前記環境の測定値を提供するセンサ信号を受信するための入力部であって、前記センサ信号が、前記環境内の前記所望の発信源又は前記雑音の測定値を表す入力部と、
    前記第1の信号を時間セグメントにセグメント化するためのセグメント化器と、
    雑音減衰器と、
    を備える雑音減衰装置であって、
    前記雑音減衰器が、各時間セグメントごとに、
    ―前記第1のコードブックのコードブックエントリの第1のグループの所望信号候補と前記第2のコードブックのコードブックエントリの第2のグループの雑音信号候補との各対に関して、複合信号を生成することによって、複数の推定信号候補を生成するステップと、
    ―前記推定信号候補から、前記時間セグメント内の前記第1の信号に関する信号候補を生成するステップと、
    ―前記信号候補に応じて、前記時間セグメント内の前記第1の信号の雑音を減衰するステップと、を行い、
    前記雑音減衰器が、基準信号に応じて、コードブックエントリの部分集合を選択することによって、前記第1のグループ及び前記第2のグループの少なくとも1つを生成する、雑音減衰装置。
  2. 前記センサ信号は、前記所望の発信源の測定値を表し、前記雑音減衰器は、前記第1のコードブックからコードブックエントリの部分集合を選択することによって前記第1のグループを生成する、請求項1に記載の雑音減衰装置。
  3. 前記第1の信号はオーディオ信号であり、前記所望の発信源はオーディオ源であり、前記所望信号成分は音声信号であり、前記センサ信号は骨伝導マイクロホン信号である、請求項2に記載の雑音減衰装置。
  4. 前記センサ信号は、前記所望の発信源の表現を提供するが、これは、前記所望信号成分ほど正確ではない、請求項2に記載の雑音減衰装置。
  5. 前記センサ信号は、前記雑音の測定値を表し、前記雑音減衰器は、前記第2のコードブックからコードブックエントリの部分集合を選択することによって前記第2のグループを生成する、請求項1に記載の雑音減衰装置。
  6. 前記センサ信号は、機械的振動検出信号である、請求項5に記載の雑音減衰装置。
  7. 前記センサ信号は、加速度計信号である、請求項5に記載の雑音減衰装置。
  8. 複数のセンサ信号候補と、前記第1のコードブック及び前記第2のコードブックの少なくとも一方のコードブックエントリとの間のマッピングを生成するためのマップ作成器をさらに備え、前記雑音減衰器は、前記マッピングに応じてコードブックエントリの前記部分集合を選択する、請求項1に記載の雑音減衰装置。
  9. 前記雑音減衰器は、前記複数のセンサ信号候補それぞれと前記センサ信号との間の距離尺度に応じて、前記複数のセンサ信号候補から第1のセンサ信号候補を選択し、前記第1の信号候補に関するマッピングに応じて、前記部分集合を生成する、請求項8に記載の雑音減衰装置。
  10. 前記マップ作成器は、前記第1の信号を生じる入力センサと、前記センサ信号を生じるセンサとからの同時測定に基づいて前記マッピングを生成する、請求項8に記載の雑音減衰装置。
  11. 前記マップ作成器は、前記センサ信号候補と、前記第1のコードブック及び前記第2のコードブックの少なくとも一方の前記コードブックエントリとの間の差異尺度に基づいて前記マッピングを生成する、請求項8に記載の雑音減衰装置。
  12. 前記第1の信号は、第1のマイクロホンからのマイクロホン信号であり、前記センサ信号は、前記第1のマイクロホンから離れた第2のマイクロホンからのマイクロホン信号である、請求項1に記載の雑音減衰装置。
  13. 前記第1の信号はオーディオ信号であり、前記センサ信号は非オーディオセンサからのものである、請求項1に記載の雑音減衰装置。
  14. 環境に関する第1の信号を受信するステップであって、前記第1の信号が、前記環境内の所望の発信源からの信号に対応する所望信号成分と、前記環境内の雑音に対応する雑音信号成分とを備えるステップと、
    前記所望信号成分に関する複数の所望信号候補を備える第1のコードブックを提供するステップであって、各所望信号候補が、可能な所望信号成分を表すステップと、
    前記雑音信号成分に関する複数の雑音信号候補を備える第2のコードブックを提供するステップであって、各所望信号候補が、可能な雑音信号成分を表すステップと、
    前記環境の測定値を提供するセンサ信号を受信するステップであって、前記センサ信号が、前記環境内の前記所望の発信源又は前記雑音の測定値を表すステップと、
    前記第1の信号を時間セグメントにセグメント化するステップと、
    各時間セグメントごとに、
    ―前記第1のコードブックのコードブックエントリの第1のグループの所望信号候補と前記第2のコードブックのコードブックエントリの第2のグループの雑音信号候補との各対に関して、複合信号を生成することによって、複数の推定信号候補を生成するステップと、
    ―前記推定信号候補から、前記時間セグメント内の前記第1の信号に関する信号候補を生成するステップと、
    ―前記信号候補に応じて、前記時間セグメント内の前記第1の信号の雑音を減衰するステップと、
    を行うステップと、
    基準信号に応じて、コードブックエントリの部分集合を選択することによって、前記第1のグループ及び前記第2のグループの少なくとも1つを生成するステップと、
    を含む雑音減衰の方法。
  15. コンピュータプログラムコード手段を備えるコンピュータプログラムであって、前記プログラムがコンピュータ上で実行されるときに、請求項14に記載の全てのステップを行う、コンピュータプログラム。

JP2014536387A 2011-10-19 2012-10-16 信号雑音減衰 Active JP6265903B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161548998P 2011-10-19 2011-10-19
US61/548,998 2011-10-19
PCT/IB2012/055628 WO2013057659A2 (en) 2011-10-19 2012-10-16 Signal noise attenuation

Publications (2)

Publication Number Publication Date
JP2014532890A true JP2014532890A (ja) 2014-12-08
JP6265903B2 JP6265903B2 (ja) 2018-01-24

Family

ID=47324231

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014536387A Active JP6265903B2 (ja) 2011-10-19 2012-10-16 信号雑音減衰

Country Status (8)

Country Link
US (1) US9659574B2 (ja)
EP (1) EP2745293B1 (ja)
JP (1) JP6265903B2 (ja)
CN (1) CN103890843B (ja)
BR (1) BR112014009338B1 (ja)
IN (1) IN2014CN02539A (ja)
RU (1) RU2611973C2 (ja)
WO (1) WO2013057659A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022545924A (ja) * 2019-08-29 2022-11-01 株式会社ソニー・インタラクティブエンタテインメント 人工知能(ai)を用いたノイズキャンセレーション

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2774147B1 (en) 2011-10-24 2015-07-22 Koninklijke Philips N.V. Audio signal noise attenuation
US20130163781A1 (en) * 2011-12-22 2013-06-27 Broadcom Corporation Breathing noise suppression for audio signals
US10013975B2 (en) * 2014-02-27 2018-07-03 Qualcomm Incorporated Systems and methods for speaker dictionary based speech modeling
US10176809B1 (en) * 2016-09-29 2019-01-08 Amazon Technologies, Inc. Customized compression and decompression of audio data

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006078657A (ja) * 2004-09-08 2006-03-23 Matsushita Electric Ind Co Ltd 音声符号化装置、音声復号化装置、及び音声符号化復号化システム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SU1840043A1 (ru) * 1985-02-04 2006-07-20 Воронежский научно-исследовательский институт связи Устройство поиска широкополосных сигналов
TW271524B (ja) * 1994-08-05 1996-03-01 Qualcomm Inc
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US7478043B1 (en) * 2002-06-05 2009-01-13 Verizon Corporate Services Group, Inc. Estimation of speech spectral parameters in the presence of noise
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7895036B2 (en) * 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
EP1918910B1 (en) * 2006-10-31 2009-03-11 Harman Becker Automotive Systems GmbH Model-based enhancement of speech signals
KR101449433B1 (ko) * 2007-11-30 2014-10-13 삼성전자주식회사 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치
EP2458586A1 (en) 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
WO2012069973A1 (en) 2010-11-24 2012-05-31 Koninklijke Philips Electronics N.V. A device comprising a plurality of audio sensors and a method of operating the same

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006078657A (ja) * 2004-09-08 2006-03-23 Matsushita Electric Ind Co Ltd 音声符号化装置、音声復号化装置、及び音声符号化復号化システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SRIRAM SRINIVANSAN, ETAL.: "Codebook Driven Short-Term Predictior Parameter Estimation for Speech Enhancement", IEEE TRANSACTION ON AUDIO, SPEECH, AND LANGUAGE PROCESSING VOL.14 NO.1, JPN6016045665, January 2006 (2006-01-01) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022545924A (ja) * 2019-08-29 2022-11-01 株式会社ソニー・インタラクティブエンタテインメント 人工知能(ai)を用いたノイズキャンセレーション

Also Published As

Publication number Publication date
IN2014CN02539A (ja) 2015-08-07
BR112014009338B1 (pt) 2021-08-24
WO2013057659A2 (en) 2013-04-25
CN103890843B (zh) 2017-01-18
RU2611973C2 (ru) 2017-03-01
WO2013057659A3 (en) 2013-07-11
JP6265903B2 (ja) 2018-01-24
EP2745293B1 (en) 2015-09-16
CN103890843A (zh) 2014-06-25
RU2014119924A (ru) 2015-11-27
US20140249810A1 (en) 2014-09-04
EP2745293A2 (en) 2014-06-25
US9659574B2 (en) 2017-05-23
BR112014009338A2 (pt) 2017-04-18

Similar Documents

Publication Publication Date Title
JP7158806B2 (ja) オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム
KR101934636B1 (ko) 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치
CN111418010B (zh) 一种多麦克风降噪方法、装置及终端设备
Parchami et al. Recent developments in speech enhancement in the short-time Fourier transform domain
CN107910011B (zh) 一种语音降噪方法、装置、服务器及存储介质
RU2648604C2 (ru) Способ и аппаратура для генерации сигнала речи
JP6636633B2 (ja) 音響信号を向上させるための音響信号処理装置および方法
JP5608678B2 (ja) パーティクルフィルタリングを利用した音源位置の推定
JP4796309B2 (ja) モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置
JP7324753B2 (ja) 修正された一般化固有値ビームフォーマーを用いた音声信号のボイス強調
JP6265903B2 (ja) 信号雑音減衰
KR20210137146A (ko) 큐의 클러스터링을 사용한 음성 증강
Martín-Doñas et al. Dual-channel DNN-based speech enhancement for smartphones
JP6190373B2 (ja) オーディオ信号ノイズ減衰
Gamper et al. Predicting word error rate for reverberant speech
Kodrasi et al. Single-channel Late Reverberation Power Spectral Density Estimation Using Denoising Autoencoders.
Kim et al. Attentive pooling-based weighted sum of spectral decay rates for blind estimation of reverberation time
Lee et al. Channel prediction-based noise reduction algorithm for dual-microphone mobile phones
Jan et al. Joint blind dereverberation and separation of speech mixtures
CN116758930A (zh) 语音增强方法、装置、电子设备及存储介质
Mosayyebpour Robust single-channel speech enhancement and speaker localization in adverse environments
Hsu et al. A non-uniformly distributed three-microphone array for speech enhancement in directional and diffuse noise field
Kandagatla et al. Analysis of statistical estimators and neural network approaches for speech enhancement

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151013

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161206

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170529

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171020

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20171030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171120

R150 Certificate of patent or registration of utility model

Ref document number: 6265903

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250