JP2010520513A - 定常的な背景雑音の平滑化を制御するための方法及び装置 - Google Patents

定常的な背景雑音の平滑化を制御するための方法及び装置 Download PDF

Info

Publication number
JP2010520513A
JP2010520513A JP2009552637A JP2009552637A JP2010520513A JP 2010520513 A JP2010520513 A JP 2010520513A JP 2009552637 A JP2009552637 A JP 2009552637A JP 2009552637 A JP2009552637 A JP 2009552637A JP 2010520513 A JP2010520513 A JP 2010520513A
Authority
JP
Japan
Prior art keywords
noiseness
smoothing
measure
signal
background noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009552637A
Other languages
English (en)
Other versions
JP5198477B2 (ja
Inventor
ステファン ブルーン,
Original Assignee
テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2010520513A publication Critical patent/JP2010520513A/ja
Application granted granted Critical
Publication of JP5198477B2 publication Critical patent/JP5198477B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

通信音声セッションにおいて定常的な背景雑音を平滑化する方法において、はじめに、音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化する(S10)。次に、その信号のノイズネス尺度を提供し(S20)、提供されたノイズネス尺度に基づいて背景雑音成分を適応的に平滑化する(S30)。

Description

本発明は、通信システムにおける音声符号化に関し、特に、通信システムにおいて定常的な背景雑音の平滑化を制御するための方法及び装置に関する。
音声符号化は、帯域制限された有線及び無線チャネル並びに記憶装置の少なくともいずれかを介する効率的な送信を行うために音声信号のコンパクト表現を取得する処理である。今日、音声符号化器は、通信及びマルチメディアの設備において不可欠な構成要素となっている。効率的な音声符号化に依存する市販のシステムには、PCを使用する多くのゲーム及びマルチメディアアプリケーションに加え、セルラ通信、VoIP(Voice Over IP(インターネットプロトコル))、テレビ会議、電子玩具、アーカイビング及びDSVD(Digital Simultaneous Voice and Data)などがある。
連続時間信号である場合、音声は、サンプリング及び量子化の処理を経てデジタル表現されうる。音声サンプルは、一般に、16ビット又は8ビットで量子化される。多くの他の信号と同様に、音声信号は、大量の冗長な情報(信号の連続サンプル間のノンゼロ相互情報)又は知覚とは無関係の大量な情報(聴き手に知覚されない情報)を含む。殆どの通信符号化器は不可逆である。これは、合成音声が知覚的には元の音声に類似するが物理的には異なることを意味する。
音声符号化器はデジタル化音声信号を符号化表現に変換する。通常、符号化表現はフレームで送信される。これに対応して、音声復号化器は、符号化フレームを受信て再構成音声を合成する。
最近の多くの音声符号化器は、LPC(線形予測符号化器)として知られている主流の音声符号化器に属する。そのような符号化器のいくつかの例は、3GPP FR、EFR、AMR、AMR−WB音声コーデック、3GPP2 EVRC、SMV、EVRC−WB音声コーデック、並びにG.728、G.723、G.729等の種々のITU−Tコーデックである。
それらの符号化器は全て、信号生成処理において合成フィルタの概念を利用する。フィルタは、再生される信号の短期スペクトルをモデル化するために使用されるが、フィルタへの入力は、全ての他の信号変動を処理すると仮定される。
これらの合成フィルタモデルの共通の特徴は、再生される信号が合成フィルタを規定するパラメータによって表されることである。用語「線形予測」は、フィルタパラメータを推定するために使用されることが多い方法の種類を示す。従って、再生される信号は、フィルタパラメータの集合により及び部分的にフィルタを駆動する励振信号により部分的に表される。
そのような符号化コンセプトの利点は、フィルタ及びその駆動励振信号の双方が相対的に少ないビットで効率的に記述されることにある。
LPCを使用するコーデックの1つの特定の種類は、いわゆる合成による分析(AbS)の原理に基づくものである。それらのコーデックは、デコーダのローカルコピーをエンコーダに組み込み、候補励振信号の集合のうち原音声信号に対する合成出力信号の類似度を最大にする励振信号を選択することにより合成フィルタの駆動励振信号を見つける。
そのような線形予測符号化及び特にAbS符号化を利用するコンセプトは、例えば4乃至12kbpsの低ビットレートでも音声信号に対して比較的適切に動作することを証明している。しかし、そのような符号化技術を使用する移動電話において、ユーザが沈黙し、入力信号が雑音等の周囲音を含む場合、現在の周知の符号化器は、音声信号に対して最適化されているため、そのような状況に対処することが困難である。エンコーダにより「誤って処理」されたために馴染みのある背景音が認識できない場合には、受信側の聴き手は不快に思うだろう。
いわゆる渦流音(swirling)は、再生された背景音の最もひどい品質劣化の1つの原因となる。これは、車の雑音等の比較的定常的な背景雑音に起こる現象であり、復号化信号のパワー及びスペクトルの不自然な時間的ゆらぎにより起こる。それらのゆらぎは、合成フィルタ係数及びその励振信号の不完全な推定及び量子化により生じる。通常、コーデックのビットレートを増加させれば、渦流音は小さくなる。
渦流音は、従来技術において問題であると認識されており、これに対する複数の解決策が文献において提案されている。提案されている解決策のうちの1つは、米国特許第5632004号(特許文献1)において説明される。この特許によると、非音声期間中、合成された背景音のスペクトル変動が低減されるように、フィルタパラメータをローパスフィルタ又は帯域幅拡大によって修正する。この方法は米国特許第5579432号(特許文献2)において、検出された定常背景雑音のみに渦流音低減技術が適用されるように改善されている。
渦流音の問題に対処する別の方法が、米国特許第5487087号(特許文献3)に開示されている。この方法は、信号自体及びその時間的変動の双方に適合する修正信号量子化方式を使用する。特に、音声の非アクティブ期間中にLPCフィルタパラメータ及び信号ゲインパラメータに対してそのようなゆらぎが低減された量子化器を使用することが考えられる。
望ましくない合成信号のパワーゆらぎによる信号品質の劣化は、別の方法によって対処される。そのうちの1つは、米国特許第6275798号(特許文献4)において説明され、3GPP TS 26.090(非特許文献1)において説明されるAMR音声コーデックアルゴリズムの一部でも説明されている。それによると、合成フィルタ励振信号の少なくとも1つの成分のゲイン、すなわち固定コードブックの寄与は、LPC短期スペクトルの定常性に依存して適応的に平滑化される。この方法は、平滑化が信号合成において使用されるゲインの制限を更に含む欧州特許第1096476号(特許文献5)及び欧州特許第1688920号(特許文献6)において展開されている。LPCボコーダにおいて使用される関連する方法は、米国特許第5953697号(特許文献7)において説明される。それによると、合成フィルタの励振信号のゲインは、合成音声の最大振幅が入力音声波形包絡にちょうど到達するように制御される。
渦流音の問題に対処する更なる種類の方法は、音声復号化器の後のポストプロセッサとして動作する。欧州特許第0665530号(特許文献8)は、検出された非音声期間中に音声復号化器出力信号の一部分をローパスフィルタリングされたホワイトノイズ又はコンフォートノイズ信号で置換する方法を説明している。音声復号化器出力信号の一部をフィルタリングされたノイズで置換する関連する方法を開示する種々の文献において同様の方法がとられる。
ここで図1を参照する。スケーラブル符号化又はエンベデッド符号化は、符号化が階レイヤ的に行われる符号化パラダイムである。基本レイヤ又はコアレイヤが低ビットレートで信号を符号化する一方、各々が互いに重なり合う追加レイヤは、コアから先の各レイヤまでの全てのレイヤにより達成される符号化に対して多少の拡張を提供する。各レイヤは、多少の追加のビットレートを加える。生成されたビットストリームは埋め込まれる。これは、下位レイヤの符号化のビットストリームが上位レイヤのビットストリームに埋め込まれることを意味する。この特性により、送信又は受信機の任意の場所で上位レイヤに属するビットをドロップできる。そのような取り除かれたビットストリームは、ビットが保持されるレイヤまで依然として復号化可能である。
今日、最もよく使用されるスケーラブル音声圧縮アルゴリズムは、64kbpsのG.711のA/U-law対数PCMコーデックである。8kHzサンプリングのG.711コーデックは、12ビット又は13ビット線形PCMサンプルを8ビット対数サンプルに変換する。対数サンプルの指示されたビット表現は、G.711ビットストリームの最下位ビット(LSB)スチールを可能にし、G.711符号化器は実際には48、56及び64kbpsの間でSNRスケーラブルとなる。このG.711コーデックの拡張性は、帯域内制御信号の目的で回線交換通信網において使用される。このG.711のスケーラビリティの使用の最近の例は、従来の64kbpsのPCMリンクを介する広帯域音声の設定及び転送を可能にする3GPP TFOプロトコルである。元の64kbpsのG.711ストリームのうちの8kbpsは、狭帯域サービス品質にそれ程影響を及ぼさずに広帯域音声サービスの呼設定を可能にするためにまず使用される。呼設定の後、広帯域音声は、64kbpsのG.711ストリームのうち16kbpsを使用する。オープンループスケーラビリティをサポートする他のより古い音声符号化規格はG.727(エンベデッドADPCM)であり、またある程度はG.722(サブバンドADPCM)を含む。
スケーラブル音声符号化技術における更に最近の進歩は、MPEG4−CELPにスケーラビリティ拡張性を提供するMPEG−4規格である。MPE基本レイヤは、追加のフィルタパラメータ情報又は追加の新しいパラメータ情報の送信により拡張されうる。国際通信連合の標準化部門であるITU−Tは近年、G.729.EVと呼ばれる新たなスケーラブルコーデックG.729.1の標準化を完了した。このスケーラブル音声コーデックのビットレートの範囲は、8kbps乃至32kbpsである。このコーデックの主な使用例は、いくつかのVoIP呼び出しの間の共有xDSL64/128kbpsアップリンク等のホーム又はオフィスゲートウェイにおける限定された帯域幅リソースの効率的な共有を可能にすることである。
スケーラブル音声符号化の最近の1つの傾向は、音楽等の非音声オーディオ信号の符号化のサポートを上位レイヤに提供することである。そのようなコーデックにおいて、下位レイヤは、例えばCELPが周知の例であるAbSパラダイムに従う単なる従来の音声符号化を採用する。そのような符号化は音声にのみよく適しており、音楽等の非音声オーディオ信号にはあまり適さないため、上位レイヤはオーディオコーデックにおいて使用される符号化パラダイムに従って動作する。従って、一般に上位レイヤの符号化は下位レイヤの符号化の符号化誤差に対して動作する。
音声コーデックを考慮する別の関連する方法は、いわゆるスペクトル傾斜補償であり、これは、復号化音声の適応ポストフィルタリングにおいて行われる。これにより解決される問題は、短期ポストフィルタ又はフォルマントポストフィルタによって生じるスペクトル傾斜を補償することである。そのような技術は、例えばAMRコーデック及びSMVコーデックの一部であり、背景雑音の性能ではなく音声中のコーデックの性能を主に対象とする。SMVコーデックは、残差のLPC分析の応答とは独立して合成フィルタリングの前に重み付き残差領域においてその傾斜補償を適用する。
渦流音の問題に対処する上述の技術に共通するのは、音声再生の品質に悪影響を及ぼさずに渦流音に対して最適な改善効果を与えられるように、それらの技術を適用することが不可欠であるということである。それらの方法はすべて、再構成される信号の特性に依存してアクティブ又は非アクティブにされるのに従って実現される適切な規則が存在する場合には利点のみを提供する。以下において、最新の渦流音低減技術が制御方法の特定の面の下で説明される。
非特許文献2は、特定のノイズ平滑化方法及びその特定の制御を開示している。制御は、その特定の平滑化方法においてある特定のゲインファクタを管理する復号化信号における背景雑音比の推定値に基づく。他の方法とは異なり、この平滑化方法の起動はVADフラグ又は例えばある定常性計測値に応答して制御されないことを強調する価値がある。
上述の従来技術とは対照的に、非特許文献3は、ある定常雑音検出器に応答する平滑化動作を説明する。専用のVADは使用されず、ピッチ情報に加えてエネルギゆらぎ及びLPCパラメータ(LSF)の測定値に依存して困難な決定が行われる。音声フレームを定常雑音フレームとして間違えて分類してしまう問題を軽減するために、ハングオーバ期間が音声バーストに追加される。
特許文献8は、VADフラグに応答して動作する背景雑音平滑化方法の制御機能を説明する。音声フレームが非アクティブと宣言されるのを防止するために、ハングオーバ期間が、アクティブな音声として宣言される信号バーストに追加される。その期間中、ノイズ平滑化は非アクティブのままである。背景雑音平滑化が停止される期間から平滑化が開始される期間への円滑な遷移を保証するために、平滑化はある固定の最大平滑動作度まで徐々に起動される。復号化音声信号の一部を置換するノイズ信号のパワー及びスペクトル特性(ハイパスフィルタリングの程度)は、復号化音声信号の背景雑音レベル推定値に適応される。しかし、平滑動作度、すなわち復号化音声信号がノイズにより置換される量は、単にVAD決定に依存し、背景雑音の特性(定常性等)の分析には全く依存しない。
特許文献4の上述の開示は、混合ファクタに応答する漸進的な(ゲイン)パラメータ平滑化を可能にする復号化器に対するパラメータ平滑化方法を説明する。混合ファクタは、再構成される信号の定常性を示し、平滑化が実行される程検出される定常性が大きくなるようにパラメータ平滑化を制御する。
米国特許第5632004号 米国特許第5579432号 米国特許第5487087号 米国特許第6275798号 欧州特許第1096476号 欧州特許第1688920号 米国特許第5953697号 欧州特許第0665530号
3GPP TS 26.090, AMR Speech Codec; Transcoding functions Tasaki他, "Post noise smoother to improve low bit rate speech-coding performance", IEEE Workshop on speech coding, 1999 Ehara他, "Noise Post-Processing Based on a Stationary Noise Generator", IEEE Workshop on speech coding, 2002
非特許文献2に係る平滑化動作制御アルゴリズムの主な問題は、それが当該文献に記載された特定のノイズ平滑化器向けにつくられていることである。従って、任意の他のノイズ平滑化方法と共に使用されるか(及びどのように使用されるか)は明らかではない。VADを使用しないと、音声がアクティブである期間に信号修正を実行してしまうという問題が発生する。これは、潜在的に音声を劣化させるか又は少なくとも再生音の自然さに影響を及ぼす。
非特許文献3及び特許文献8に係る平滑化アルゴリズムの主な問題は、背景雑音平滑度が、近似される背景雑音の特性に徐々に依存しないことである。例えば従来技術である非特許文献3は、平滑化動作が完全に使用可能又は使用不可能にされる際に依存する定常ノイズフレーム検出を使用する。同様に、特許文献8で開示される方法は、背景雑音特性に依存してより低い程度で使用されるように平滑化方法を管理する能力を有していない。これは、方法が採用されたノイズ平滑化方法により適切にモデル化されない特性を示すにも関わらず定常ノイズ又は非アクティブな音声として分類される背景雑音の種類に対する不自然なノイズ再生の悪影響を受ける可能性があることを意味する。
特許文献4に開示される方法の主な問題は、方法が少なくとも現在のフレームの現在のパラメータ及び対応する先のパラメータを考慮する定常性推定値に大きく依存することである。本発明に関する調査において、背景雑音平滑化が望ましいか否かに関わらず、定常性は有用であるが適切な指示を常に提供するわけではないことが分かった。単に定常性尺度に依存することにより、採用されたノイズ平滑化方法により適切にモデル化されない特性を示すにも関わらず、ある特定のノイズの種類が定常ノイズとして分類されるという状況を招く可能性がある。
上述の全ての方法を制限する特定の問題は、それらの方法が単なる復号化方法であるために発生する。そのため、ノイズ平滑化動作が段階的な分解能で制御されるべきである場合に必要な精度で背景雑音特性を推定するのに概念上の問題を有する。しかし、これは自然なノイズ再生に必要である。
定常性尺度に依存する全ての方法の一般的な問題において、定常性自体は、エネルギー又はスペクトルのような統計的な信号特性が経時変化を起こさない程度を示す特性である。このため、定常性尺度は、所定のフレーム又はサブフレームの統計的特性を先行フレーム又はサブフレームの特性と比較することにより計算されることが多い。しかし、定常性尺度は、より低い程度で背景信号の実際の知覚特性の指示を与える。特に、定常性尺度は、信号がどの程度ノイズのようであるかを示さないが、本発明者による研究によると、適切な反渦流音方法にとって不可欠なパラメータである。
従って、通信システムにおいて背景雑音平滑化動作音声セッションを制御する方法及び装置が必要とされる。
本発明の目的は、通信システムにおける音声セッションの品質の改善を可能にすることである。
本発明の更なる目的は、通信システムにおける音声セッションの定常的な背景雑音の平滑化の改善された制御を可能にすることである。
これらの目的及び他の目的は、添付の請求の範囲によって達成される。
基本的に、通信音声セッションにおいて定常的な背景雑音を平滑化する方法において、はじめに、音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化する(S10)。次に、その信号のノイズネス尺度を提供し(S20)、提供されたノイズネス尺度に基づいて背景雑音成分を適応的に平滑化する(S30)。
本発明の利点は以下を含む。
通信システムにおける音声セッションの品質の改善。
定常的な背景雑音信号の再構成信号品質の改善。
スケーラブル音声・オーディオコーデックを示す概略ブロック図である。 本発明に係る背景雑音平滑化の方法の一実施形態を示すフローチャートである。 本発明の一実施形態に係る平滑化の間接的な制御方法を概略的に示すタイミングチャートである。 本発明に係る方法の一実施形態に従って背景雑音平滑化のVAD駆動アクティベーションを概略的に示すタイミングチャートである。 本発明に係る装置の一実施形態を示すフローチャートである。 本発明に係るコントローラ装置の一実施形態を示すブロック図である。 本発明に係る装置の実施形態を示すブロック図である。
(略語)
AbS Analysis by Synthesis 合成による分析
ADPCM Adaptive Differential PCM 適応差分PCM
AMR−WB Adaptive Multi Rate Wide Band 適応マルチレート広帯域
EVRC−WB Enhanced Variable Rate Wideband Codec 拡張可変レート広帯域コーデック
CELP Code excited Linear Prediction 符号励振線形予測
DXT discontinuous Transmission 間欠送信
DSVD Digital Simultaneous Voice and Data
ISP Immittance spectral Pair イミタンススペクトル対
ITU−T International Telecommunication Union 国際通信連合
LPC Linear Predictive Coders 線形予測符号化器
LSF Line Spectral Frequency 線スペクトル周波数
MPEG Moving Pictures Experts Group
PCM Pulse code Modulation パルス符号変調
SMV Selectable Mode Vocoder 選択可能モードボコーダ
VAD Voice Activity Detector 音声アクティビティ検出器
VoIP Voice Over Internet Protocol
(詳細な説明)
無線移動体の音声セッションに関して本発明を説明する。ただし、これは同様に有線接続にも適用可能である。以下の説明において、音声(speech)及びボイス(voice)という用語は同一のものとして使用される。それに対応して、音声セッション(speech session)は、通信ネットワークにおける少なくとも2つの端末又はノード間のボイス/音声の通信を示す。音声セッションは、2つの成分、すなわち音声成分及び背景雑音成分を常に含むと仮定される。音声成分は、アクティブ(例えば、1人が話している)又は非アクティブ(例えば、その人が言葉の間又は句の間で沈黙している)であるセッションの実際の音声通信である。背景雑音成分は、話している人の周囲の環境からの環境騒音である。この雑音は本質的にある程度は定常的である。
上述したように、音声セッションの1つの課題は、定常的な背景雑音又は詳細には任意の雑音を含む環境において、音声セッションの品質を向上する方法である。周知の方法によると、多くの場合、背景雑音を平滑化する種々の方法が採用される。しかし、平滑化動作は、音声成分を歪ませてしまうことにより、あるいは、残りの背景雑音をより妨害的なものにしてしまうことにより、音声セッションの品質又は「聞きやすさ」が低下する危険性がある。
本発明の基礎となる調査において、背景雑音平滑化が車の雑音等の特定の背景信号に対してのみ特に有用であることが分かった。意味のない音、暗示、曖昧な言葉等の他の背景雑音の種類の場合には、背景雑音平滑化は、合成信号に対して同一程度の品質改善を提供せず、背景雑音の再生を不自然なものにする可能性もある。「ノイズネス(noisiness)」が、背景雑音平滑化が品質向上を提供できるか否かを示す特徴付けの適切な特徴であることが更に分かった。また、ノイズネスは、従来の方法において使用された定常性よりも適切な特徴であることが分かった。
従って、本発明の主な目的は、背景信号のノイズネス尺度又は計測値に基づいて定常背景雑音の平滑化動作を徐々に制御することである。非音声期間中に背景信号が非常に雑音に類似すると分かった場合、より大きな平滑度が使用される。非アクティブな信号が雑音には類似しない場合、ノイズ平滑度は低下するか、あるいは平滑化は全く実行されない。ノイズネス尺度は、符号化器において導出され復号化器に送信されるのが好ましい。ここで、ノイズ平滑化の制御はノイズネス尺度に依存する。しかし、ノイズネス尺度は復号化器自体においても導出可能である。
基本的に、図2を参照すると、本発明に係る一般的な一実施形態は、通信システムにおける少なくとも2つの端末間の通信音声セッションの定常背景雑音を平滑化する方法を含む。最初に、音声セッションを表す信号、すなわち音声による情報の交換を少なくとも2人のモバイルユーザ間で受信及び復号化(S10)すると、信号は、音声成分、すなわち実際の音声と、背景雑音成分、すなわち周囲の音との双方を含むものとして記述される。非音声期間中に背景雑音を平滑化するために、ノイズネス尺度は、音声セッションに対して判定され且つ信号に対して提供される(S20)。ノイズネス尺度は、定常的な背景雑音成分がどの程度うるさいかの尺度である。次に、背景雑音成分は、提供されたノイズネス尺度に基づいて適応的に平滑化(S30)又は修正される。最後に、送信信号を表す信号は、平滑化された背景雑音成分と合成され、改善された品質の受信信号を使用可能にする。
本発明の更なる実施形態によると、ノイズネス計測値は、信号がどの程度ノイズに類似するかを記述するか又は信号がどの程度のランダムな成分を含むかを記述する。更に詳細には、ノイズネス尺度又は計測値は、信号の予測可能性に関して規定及び記述される。ここで、強いランダムな成分を含む信号は十分に予測されず、弱いランダムな成分を含む信号程予測可能である。その結果、そのようなノイズネス尺度は信号の周知のLPC予測ゲインGpを使用して定義される。LPC予測ゲインGpは以下のように定義される。
Figure 2010520513
ただし、σx 2は背景(雑音)信号の分散、σ2 e,pは次数PのLPC分析により取得されるその信号のLPC予測誤差の分散を示す。予測ゲインは、分散ではなくパワー又はエネルギーを使用して定義されてもよい。予測誤差分散σ2 e,p及び予測誤差分散のシーケンスσ2 e,p, k=1...p-1は、Levinson-Durbinアルゴリズムの副産物として容易に取得されることが更に周知である。このアルゴリズムは、背景雑音信号の自己相関パラメータのシーケンスからLPCパラメータを計算するために使用される。一般に、予測ゲインは、弱いランダムな成分を含む信号に対しては高く、ノイズに類似する信号に対しては低い。
本発明の好適な一実施形態によると、適切な類似するノイズネス計測値は、異なる次数p及びqを有する2つのLPC予測フィルタの予測ゲインの比をとることにより取得される。ここで、p>qである。
Figure 2010520513
この計測値は、qからpにLPCフィルタ次数を増加する場合に予測ゲインがどの程度増加するかの指示を与える。これは、信号が低いノイズネスを有し且つノイズネスの1に近い値が大きい場合に大きい値を出力する。適切な選択はq=2及びp=16であるが、LPC次数に対して他の値も同様に可能である。
なお、上述のノイズネス計測値又は尺度はエンコーダ側で判定又は計算され、その後デコーダ側に送信及び提供されるのが好ましい。しかし、デコーダ側で実際の受信信号に基づいてノイズネス計測値を判定又は計算することも同様に可能である(僅かな適応のみを伴う)。
エンコーダ側で計測値を計算する1つの利点は、計算が非量子化LPCパラメータに基づくことが可能であるため、潜在的に最適で可能な分解能を有することである。更に、必要とされる予測誤差分散が一般にいずれにおいても実行されるLPC分析の副産物として容易に取得されるため(上述したように)、計測値の計算は余分な計算上の複雑さを必要としない。エンコーダにおいて計測値を計算することは、計測値が次に量子化されること及び量子化計測値の符号化表現がデコーダに送信され且つそこで背景雑音平滑化を制御するために使用されることを必要とする。ノイズネスパラメータの送信は、20msのフレーム毎に例えば5ビットのビットレート及び従って250bpsを必要とし、これは欠点であると考えられるだろう。しかし、ノイズネスパラメータが非音声期間中にのみ必要とされることを考慮すると、特定の一実施形態に従って、音声がアクティブである間の送信をスキップし、コーデックが音声がアクティブである間と同一のビットレートを必要としないためにそのビットレートが一般に利用可能であってもよい非アクティブな間に単に送信することが可能である。同様に、非音声の音及び非アクティブな音を特定のより低いレートモードで符号化する音声コーデックの特定の例を考慮すると、余分なコストなしでその余分なビットレートを与えることが更に可能である。
しかし、既に説明したように、受信及び復号化されたLPCパラメータに基づいてデコーダ側でノイズネス尺度を導出できる。周知のステップアップ/ステップダウン手順は、受信LPCパラメータから予測誤差分散のシーケンスを計算する方法を提供する。そのシーケンスは、上述のようにノイズネス尺度を計算するために使用可能である。
実験結果によると、本発明のノイズネス尺度は、研究において組み合わされた特定の背景雑音平滑化方法と組み合わせると非常に有益であることが指摘されるべきである。しかし、他の反渦流音方法と組み合わせると、その尺度を従来から周知である定常尺度と組み合わせることが有益だろう。ノイズネス尺度が組み合わされるそのような尺度の1つは、LPCパラメータ類似性計測値である。この計測値は、例えばLSFパラメータ等の対応するLPCパラメータべクトル間のユークリッド距離を使用して2つの連続フレームのLPCパラメータを評価する。この計測値により、連続LPCパラメータベクトルが非常に異なり且つ従って信号定常性の指示として使用される場合は大きい値が導かれる。
また、本発明の「ノイズネス」と従来の方法の「定常性」との上述の概念上の差に加えて、それらの尺度間には少なくとも1つの更に重要な特徴的な差がある。すなわち、定常性の計算は、現在のフレームの少なくとも現在のパラメータを導出すること及びそれを先行フレームの少なくとも1つの先行パラメータに関連付けることを含む。これに対して、ノイズネスは、先行フレームの任意の知識なしで現在のフレームにおける瞬間的な尺度として計算される。利点は、先行フレームからの状態を格納するメモリが節約されることである。
以下の実施形態は、反渦流音方法が提供されるノイズネス尺度に基づいて制御される方法を説明する。平滑化動作が制御ファクタにより制御され、一般性を制限せずに、1に等しい制御ファクタが平滑化動作を行わないことを意味し且つ0のファクタが最大限の平滑化を意味することが仮定される。
基本的な一実施形態によると、提供されるノイズネス尺度は、背景雑音信号の復号化中に適用される平滑度を直接制御する。平滑度は、パラメータウにより制御されると仮定される。その後、例えば以下の式の例に従ってノイズネス計測値を上記からウに直接マップできる。
γ = Q{(計測値 - 1)・μ} + ν (3)
νの適切な選択は0.5であり、μに対しては0.5〜2の値である。なお、Q{.}は、制御ファクタが1を超えないように数字の範囲を制限する量子化演算子を示す。更に、係数μは入力信号のスペクトル成分に依存して選択されるのが好ましい。特に、コーデックが16kHzのサンプリングレートで動作する広帯域コーデックであり且つ入力信号が広帯域スペクトル(0〜7kHz)である場合、計測値は、入力信号が狭帯域スペクトル(0〜3400Hz)を有する場合より相対的に小さな値を与える。この作用を補償するために、μは狭帯域コンテンツより広帯域コンテンツに対して大きい必要がある。適切な選択は、広帯域コンテンツに対してはμ=2であり、狭帯域コンテンツに対してはμ=0.5である。しかし、特定の状況に依存して他の値も可能である。それに応じて、平滑動作度は、信号が広帯域コンテンツを含むか又は狭帯域コンテンツを含むかに依存してパラメータγにより特に較正される。
再構成された背景雑音信号の品質に影響を及ぼす1つの重要な面は、非アクティブな期間中のノイズネス計測値が非常に迅速に変化することである。上述のノイズネス計測値が背景雑音平滑化を直接制御するために使用される場合、これは望ましくない信号ゆらぎを導入する可能性がある。本発明の更なる好適な実施形態において、図3を参照すると、ノイズネス尺度は、背景雑音平滑化を直接制御するのではなく間接的に制御するために使用される。1つの可能性は、例えばローパスフィルタリングによるノイズネス尺度の平滑化である。しかし、これは、計測値により示される平滑度より高い平滑度が適用されるという状況を招く可能性がある。高い平滑度は、合成信号の自然さに影響を及ぼす可能性がある。従って、好適な原理は、背景雑音平滑度の急速な増加を回避し、その一方でノイズネス計測値が適切になるように突然より低い平滑度を示した時に迅速な変更を可能にすることである。以下の説明は、この動作を達成するために背景雑音平滑度を管理する好適な1つの方法を規定する。平滑度は、パラメータγにより制御されると仮定される。上述の直接制御とは異なり、ここでのノイズネス尺度は、以下の式に従う間接制御パラメータγminを管理する。
γmin = Q{(計測値 - 1)・μ} + ν (4)
その後、平滑化制御パラメータγは、γminと先に(すなわち、先行フレームにおいて)使用された平滑化制御パラメータγ'からある量δだけ減少された値とのうちの最大値に設定される。
γ = max(γmin, γ'-δ) (5)
この演算の結果、γがγminより依然として大きい限り、γはγminに徐々に近づくように管理される。それ以外の場合、γはγminと同一である。このステップサイズδの適切な選択は0.05である。記述される演算は図3に示される。
本発明者による調査は、提供されたノイズネス尺度に直接又は間接的に依存する背景雑音の平滑化が再構成された背景雑音信号の品質向上を提供できることを示している。平滑化動作がアクティブな音声の間は回避され且つ背景雑音の平滑度が頻繁に及び急速に変化しないことを確認することは、品質にとって重要なことであることが更に分かった。
関連する面は、背景雑音平滑化が使用可能にされるか否かを制御する音声区間検出(VAD)動作である。理想的には、VADは、背景雑音平滑化が使用可能にされる音声信号のアクティブな部分の間の非アクティブな期間を検出すべきである。しかし、実際には、そのような理想的なVADは存在せず、アクティブな音声の部分が非アクティブと宣言されるか又は非アクティブな部分がアクティブな音声と宣言されるということが起こる。アクティブな音声が非アクティブと宣言されるという問題の解決策を提供するために、例えば間欠送信(DTX)による音声送信において、いわゆるハングオーバ期間をアクティブと宣言されたセグメントに追加するのが一般的である。これは、アクティブと宣言された期間を人為的に拡張する手段である。これにより、フレームが誤って非アクティブと宣言される尤度が減少する。対応する原理は、背景雑音平滑化動作を制御する状況において利益を伴って適用可能であることが分かった。
本発明の好適な一実施形態によると、図2及び図6を参照すると、音声成分のアクティブな状態を検出する更なるステップS25が開示される。次に、背景雑音平滑化動作が制御され、音声成分の検出された非アクティブにのみ応答して開始される。更に、遅延又はハングオーバが使用される。これは、VADがフレームを非アクティブと宣言し始めてから所定のフレーム数の後にのみ背景雑音平滑化が使用可能にされることを意味する。適切な選択は、ノイズ平滑化が使用可能にされるまで、VADがフレームを非アクティブと宣言し始めてから例えば5フレーム(=100ms)待機することであるがこれに限定されない。VADが非音声フレームをアクティブと宣言することがあるという問題を考慮すると、VADの決定が正確か否かに関わらず、VADがフレームをアクティブと宣言する場合は常に背景雑音平滑化動作をOFFにするのが適切であることが分かる。更に、スプリアスVADアクティベーション後すぐに背景雑音平滑化を再開すること、すなわちハングオーバなしで再開することは有益である。これは、検出されたアクティブな期間が非常に短い場合、例えば3フレーム(=60ms)以下の場合である。
背景雑音平滑化の性能を更に向上するために、背景雑音平滑化を突然ONにするのではなくハングオーバ期間の後に徐々に使用可能にするのが有益であることが分かる。そのように徐々に使用可能にすることを達成するために、平滑化動作が徐々に非アクティブから完全に使用可能にされる段階的導入期間が規定される。段階的導入期間がKフレームの長さであると仮定され、現在のフレームがこの段階的導入期間のn番目のフレームであると更に仮定されると、そのフレームに対する平滑化制御パラメータg*は、元の値γと平滑化動作の非アクティブに対応する値(γinact=1)との間の補間により取得される。
Figure 2010520513
なお、ハングオーバ期間の後、すなわちスプリアスVAD起動の前に段階的導入期間を起動するのが有益である。
図4は、平滑化制御パラメータg*がどのようにVADフラグ、追加されたハングオーバ及び段階的導入期間に依存するかを示すタイミングチャートの一例を示す。更に、VADが0であり且つハングオーバ期間の後にのみ、平滑化が使用可能にされることが示される。
背景雑音平滑化の音声区間駆動(VAD)の起動により説明される方法を実現する手順の更なる一実施形態を図5のフローチャートに示し、以下に説明する。手順は、開始点で開始するフレーム(又はサブフレーム)毎に実行される。最初にVADフラグがチェックされ、VADフラグが1に等しい値を有する場合、アクティブな音声のパスが実行される。ここで、アクティブな音声フレームのカウンタ(Act_count)が増分される。その後、カウンタがスプリアスVAD起動の限界を超えるか(Act_count>enab_ho_lim)がチェックされる。超える場合、非アクティブなフレームのカウンタが再設定される(Inact_count=0)。これは、ハングオーバ期間が次の非アクティブな期間中に追加されるという合図である。その後、手順は終了する。
しかし、VADフラグが非アクティブを示す0に等しい値を有する場合、非アクティブな音声のパスが実行される。ここで、最初に非アクティブなフレームのカウンタ(Inact_count)が増分される。その後、そのカウンタがハングオーバの限界以下であるか(Inact_count≦ho)がチェックされ、ハングオーバの限界以下である場合、ハングオーバ期間の実行のパスが実行される。その場合、ノイズ平滑化制御パラメータg*は1に設定され、それにより平滑化が使用不可能にされる。更に、アクティブなフレームのカウンタは、スプリアスVAD起動の限界により初期化される(Act_count=enab_ho_lim)。これは、ハングオーバ期間が次のスプリアスVAD起動の場合に依然として使用不可能にされないことを意味する。その後、手順は終了する。非アクティブなフレームのカウンタがハングオーバの限界より大きい場合、非アクティブなフレームのカウンタがハングオーバの限界+段階的導入の限界以下であるか(Inact_count≦ho+pi)がチェックされる。カウンタがハングオーバの限界+段階的導入の限界以下である場合、段階的導入期間の処理が実行される。これは、ノイズ平滑化制御パラメータが上述のように補間(g*=補間)により取得されることを意味する。それ以外の場合、ノイズ平滑化制御パラメータは変更されないままである。その後、背景雑音平滑化手順は、ノイズ平滑化パラメータに従う程度で実行される。次に、アクティブなフレームのカウンタは再設定される(Act_count=0)。これは、その後のハングオーバ期間がスプリアスVAD起動後に使用不可能にされることを意味する。その後、手順は終了する。
ノイズ平滑化手順により達成される品質に依存して、非アクティブな音声の間だけでなくノイズのような性質を有する非音声の間にも品質向上をもたらす可能性がある。従って、この場合、背景雑音平滑化の音声区間駆動の起動は、非アクティブな音声フレームだけでなく非音声フレームの間にも起動されるという拡張から利益を得るだろう。
本発明の好適な一実施形態は、背景雑音平滑化の間接的な制御及び背景雑音平滑化の音声区間駆動の起動と方法とを組み合わせることにより得られる。
スケーラブルコーデックと関係する本発明の更なる実施形態によると、復号化がより高いレートの層で行われる場合、平滑度は徐々に減少される。これは、通常、より高いレートの音声符号化が背景雑音期間中により少ない渦流音の問題を有するためである。
本発明の特定の有利な一実施形態は、LPCパラメータ平滑化(例えば、ローパスフィルタリング)及び励振信号修正の組合せである平滑化動作と組み合わされる。簡単に説明すると、平滑化動作は、音声セッションを表す信号を受信及び復号化することを含む。信号は、音声成分及び背景雑音成分の双方を含む。次に、信号に対するLPCパラメータ及び励振信号を判定する。その後、平滑化出力信号を提供するために励振信号のパワーゆらぎ及びスペクトルゆらぎを低減することにより判定された励振信号を修正する。最後に、判定されたLPCパラメータ及び励振信号に基づいて出力信号を合成及び出力する。本発明の制御動作と組み合わせると、品質が改善された合成音声信号が提供される。
図6及び図7を参照して、本発明に係る装置を以下に説明する。本発明の特定の動作に関連しない任意の周知の一般的な送信/受信及び/又は符号化/復号化機能性は、図6及び図7の一般的な入出力ユニットI/Oにおいて黙示的に開示される。
図6を参照すると、通信音声セッションの定常背景雑音成分の平滑化を制御するコントローラユニット1が示される。コントローラ1は、音声セッションに関連する入力/出力信号を受信及び送信するように構成される。従って、コントローラ1は、入力及び出力信号を処理する一般的な入出力I/Oユニットを含む。更にコントローラは、音声セッションを表す信号であって音声成分及び背景雑音成分の双方を含む信号を受信及び復号化するように構成される受信機/デコーダユニット10を含む。また、ユニット1は、入力信号に関連するノイズネス計測値を提供するユニット20を含む。ノイズネスユニット20は、一実施形態に従って受信信号に基づいてノイズネス尺度を実際に判定するように構成されるか、あるいは更なる実施形態に従って通信システムの他のノードから、恐らくは受信信号の発信元であるノード又はユーザ端末からノイズネス尺度を受信するように構成される。更にコントローラ1は、ノイズネス尺度ユニット20からのノイズネス尺度に基づいて再構成音声信号の平滑化を可能にする背景平滑ユニット30を含む。
更なる実施形態において、ここでも図6を参照すると、コントローラ装置1は、図中の点線のボックスにより示されるような音声区間検出器又はVAD25を含む。VAD25は、信号の音声成分のアクティブな状態を検出し、平滑ユニット30における改善された平滑化を可能にするために更なる入力としてそれを提供するように動作する。
図7を参照すると、コントローラ装置1は、通信システムにおけるデコーダユニットに組み込まれるのが好ましい。しかし、図6を参照して説明したように、コントローラ1においてノイズネス尺度を提供するユニットは、通信システムの別のノードから通信されるノイズネス尺度を単に受信するように構成される。従って、符号化装置が図7において更に開示される。エンコーダは、信号を送信及び受信する一般的な入出力ユニットI/Oを含む。このユニットは、エンコーダが機能するのを可能にする全ての必要な周知の機能性を黙示的に開示する。1つのそのような機能性は、音声セッションを表す信号を符号化及び送信する符号化/送信ユニット100として特に開示される。更にエンコーダは、送信信号に対するノイズネス尺度を判定するユニット200及びコントローラ1のノイズネス提供器ユニット20に判定したノイズネス尺度を通信するユニット300を含む。
本発明の利点は以下を含む。
改善された背景雑音平滑化動作。
背景雑音平滑化の改善された制御。
本発明に対しては、特許請求の範囲により定義される本発明の範囲から逸脱することなく種々の変形や変更を行うことができることは、当業者には理解されよう。

Claims (25)

  1. 通信音声セッションにおいて定常的な背景雑音を平滑化するための方法であって、
    音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化するステップ(S10)と、
    前記信号のノイズネス尺度を提供するステップ(S20)と、
    前記提供されたノイズネス尺度に基づいて前記背景雑音成分を適応的に平滑化するステップ(S30)と、
    を有することを特徴とする方法。
  2. 前記ノイズネス尺度は、前記信号の予測性に基づくことを特徴とする請求項1に記載の方法。
  3. 前記ノイズネス尺度は、異なる次数のLPC分析フィルタリングに伴う予測誤差分散の比に基づくことを特徴とする請求項2に記載の方法。
  4. 前記ノイズネス尺度は、入力された前記信号の検出された狭帯域又は広帯域の成分に応答して適応されることを特徴とする請求項1に記載の方法。
  5. 前記平滑化の処理は、前記ノイズネス尺度によって直接制御されることを特徴とする請求項1に記載の方法。
  6. 前記平滑化の処理は、前記ノイズネス尺度によって間接的に制御されることを特徴とする請求項1に記載の方法。
  7. 前記平滑化は、前記ノイズネス尺度の検出された増加には徐々に従い前記ノイズネス尺度の検出された低下には即座に従う平滑化制御パラメータに基づいて実行されることを特徴とする請求項6に記載の方法。
  8. 前記ノイズネス尺度を提供するステップ(S20)は、前記信号の各フレームに対して少なくとも1回実行されることを特徴とする請求項1に記載の方法。
  9. 前記ノイズネス尺度を提供するステップ(S20)は、前記信号の前記各フレームの各サブフレームに対して実行されることを特徴とする請求項8に記載の方法。
  10. 前記音声成分のアクティビティ状態を検出し(S25)、前記音声成分が非アクティブ状態であることに応答して前記適応的な平滑化を開始させるステップを更に有することを特徴とする請求項1乃至9のいずれか1項に記載の方法。
  11. 前記音声成分が非アクティブであることが検出されたことに応答して所定の遅延を伴って前記適応的な平滑化を開始することを特徴とする請求項10に記載の方法。
  12. 所定の数より少ないフレームのスプリアスVADアクティベーションの直後に前記背景雑音の平滑化を再開することを特徴とする請求項11に記載の方法。
  13. 前記遅延の終了時に前記平滑化の動作を徐々に開始することを特徴とする請求項11に記載の方法。
  14. 前記音声成分がアクティブであることが検出されたことに応答して前記適応的な平滑化を直ちに終了することを特徴とする請求項10に記載の方法。
  15. 通信システムにおける背景音の平滑化のためのコントローラであって、
    音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化する手段(10)と、
    前記信号のノイズネス尺度を提供する手段(20)と、
    前記提供されたノイズネス尺度に基づいて前記背景雑音成分を適応的に平滑化する手段(30)と、
    を有することを特徴とするコントローラ。
  16. 前記ノイズネス尺度を提供する手段(20)は、ネットワークノードから前記ノイズネス尺度を受信することを特徴とする請求項15に記載のコントローラ。
  17. 前記ノイズネス尺度を提供する手段(20)は、受信され復号化された前記信号のLPCパラメータに基づいて前記ノイズネス尺度を導出することを特徴とする請求項15に記載のコントローラ。
  18. 前記音声成分のアクティビティ状態を検出する手段(25)を更に有し、
    前記平滑化する手段は、前記音声成分が非アクティブであることに応答して前記適応的な平滑化を開始することを特徴とする請求項15に記載のコントローラ。
  19. 前記平滑化する手段(30)は、前記音声成分が非アクティブであることが検出されたことに応答して所定の遅延を伴って前記適応的な平滑化を開始することを特徴とする請求項18に記載のコントローラ。
  20. 前記平滑化する手段は、前記遅延の終了時に前記平滑化の動作を徐々に開始することを特徴とする請求項18に記載のコントローラ。
  21. 前記平滑化する手段は、前記音声成分がアクティブであることが検出されたことに応答して前記適応な平滑化を直ちに終了することを特徴とする請求項18に記載のコントローラ。
  22. 通信システムにおける復号化装置であって、
    音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化する手段(10)と、
    前記信号のノイズネス尺度を提供する手段(20)と、
    前記提供されたノイズネス尺度に基づいて前記背景雑音成分を適応的に平滑化する手段(30)と、
    を有することを特徴とする復号化装置。
  23. 前記ノイズネス尺度を提供する手段は、ネットワークノードから前記ノイズネス尺度を受信することを特徴とする請求項22に記載の復号化装置。
  24. 前記ノイズネス尺度を提供する手段は、受信され復号化された前記信号のLPCパラメータに基づいて前記ノイズネス尺度を導出することを特徴とする請求項22に記載の復号化装置。
  25. 通信システムにおける符号化装置であって、
    音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を符号化してユーザ端末に送信する手段(100)と、
    前記送信された信号のノイズネス尺度を判定する手段(200)と、
    前記ユーザ端末において前記判定されたノイズネス尺度を提供する手段(300)と、
    を有することを特徴とする符号化装置。
JP2009552637A 2007-03-05 2008-02-27 定常的な背景雑音の平滑化を制御するための方法及び装置 Active JP5198477B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US89299107P 2007-03-05 2007-03-05
US60/892,991 2007-03-05
PCT/SE2008/050220 WO2008108721A1 (en) 2007-03-05 2008-02-27 Method and arrangement for controlling smoothing of stationary background noise

Publications (2)

Publication Number Publication Date
JP2010520513A true JP2010520513A (ja) 2010-06-10
JP5198477B2 JP5198477B2 (ja) 2013-05-15

Family

ID=39738503

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009552637A Active JP5198477B2 (ja) 2007-03-05 2008-02-27 定常的な背景雑音の平滑化を制御するための方法及び装置

Country Status (8)

Country Link
US (3) US9318117B2 (ja)
EP (1) EP2118889B1 (ja)
JP (1) JP5198477B2 (ja)
CN (1) CN101627426B (ja)
PL (1) PL2118889T3 (ja)
RU (1) RU2469419C2 (ja)
WO (1) WO2008108721A1 (ja)
ZA (1) ZA200906297B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011514561A (ja) * 2008-03-20 2011-05-06 華為技術有限公司 背景雑音生成方法および雑音処理装置
US11636865B2 (en) 2014-07-29 2023-04-25 Telefonaktiebolaget Lm Ericsson (Publ) Estimation of background noise in audio signals

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
GB0919672D0 (en) * 2009-11-10 2009-12-23 Skype Ltd Noise suppression
WO2012127278A1 (en) * 2011-03-18 2012-09-27 Nokia Corporation Apparatus for audio signal processing
US9576590B2 (en) * 2012-02-24 2017-02-21 Nokia Technologies Oy Noise adaptive post filtering
CN103325385B (zh) * 2012-03-23 2018-01-26 杜比实验室特许公司 语音通信方法和设备、操作抖动缓冲器的方法和设备
CN103886863A (zh) 2012-12-20 2014-06-25 杜比实验室特许公司 音频处理设备及音频处理方法
BR112015014217B1 (pt) * 2012-12-21 2021-11-03 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V Adição de ruído de conforto para modelagem do ruído de fundo em baixas taxas de bits
US9520141B2 (en) 2013-02-28 2016-12-13 Google Inc. Keyboard typing detection and suppression
CN103280225B (zh) * 2013-05-24 2015-07-01 广州海格通信集团股份有限公司 一种低复杂度的静音检测方法
CA2916150C (en) 2013-06-21 2019-06-18 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method realizing improved concepts for tcx ltp
US9484036B2 (en) * 2013-08-28 2016-11-01 Nuance Communications, Inc. Method and apparatus for detecting synthesized speech
US9608889B1 (en) 2013-11-22 2017-03-28 Google Inc. Audio click removal using packet loss concealment
CN103617797A (zh) * 2013-12-09 2014-03-05 腾讯科技(深圳)有限公司 一种语音处理方法,及装置
US9978394B1 (en) * 2014-03-11 2018-05-22 QoSound, Inc. Noise suppressor
US9721580B2 (en) 2014-03-31 2017-08-01 Google Inc. Situation dependent transient suppression
CN104978970B (zh) 2014-04-08 2019-02-12 华为技术有限公司 一种噪声信号的处理和生成方法、编解码器和编解码系统
CN105261375B (zh) 2014-07-18 2018-08-31 中兴通讯股份有限公司 激活音检测的方法及装置
EP3079151A1 (en) 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and method for encoding an audio signal
GB201617016D0 (en) 2016-09-09 2016-11-23 Continental automotive systems inc Robust noise estimation for speech enhancement in variable noise conditions
CN108806707B (zh) * 2018-06-11 2020-05-12 百度在线网络技术(北京)有限公司 语音处理方法、装置、设备及存储介质
CN112034036B (zh) * 2020-10-16 2023-11-17 中国铁道科学研究院集团有限公司 钢轨漏磁信号滤波方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05323993A (ja) * 1992-03-16 1993-12-07 Toshiba Corp 音声対話システム
JPH1083200A (ja) * 1996-09-09 1998-03-31 Fujitsu Ltd 符号化,復号化方法及び符号化,復号化装置
WO1999030315A1 (fr) * 1997-12-08 1999-06-17 Mitsubishi Denki Kabushiki Kaisha Procede et dispositif de traitement du signal sonore
JPH11175083A (ja) * 1997-12-16 1999-07-02 Mitsubishi Electric Corp 雑音らしさ算出方法および雑音らしさ算出装置
JP2001134287A (ja) * 1999-11-10 2001-05-18 Mitsubishi Electric Corp 雑音抑圧装置
JP2002523806A (ja) * 1998-08-24 2002-07-30 コネクサント システムズ, インコーポレイテッド 雑音補償のための音声分類を採用した音声コーデック

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1257065B (it) * 1992-07-31 1996-01-05 Sip Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi.
SE470577B (sv) 1993-01-29 1994-09-19 Ericsson Telefon Ab L M Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
SE501305C2 (sv) 1993-05-26 1995-01-09 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
US5487087A (en) 1994-05-17 1996-01-23 Texas Instruments Incorporated Signal quantizer with reduced output fluctuation
TW326070B (en) 1996-12-19 1998-02-01 Holtek Microelectronics Inc The estimation method of the impulse gain for coding vocoder
US6260010B1 (en) * 1998-08-24 2001-07-10 Conexant Systems, Inc. Speech encoder using gain normalization that combines open and closed loop gains
WO2000011649A1 (en) * 1998-08-24 2000-03-02 Conexant Systems, Inc. Speech encoder using a classifier for smoothing noise coding
US6275798B1 (en) 1998-09-16 2001-08-14 Telefonaktiebolaget L M Ericsson Speech coding with improved background noise reproduction
RU2237296C2 (ru) 1998-11-23 2004-09-27 Телефонактиеболагет Лм Эрикссон (Пабл) Кодирование речи с функцией изменения комфортного шума для повышения точности воспроизведения
US7124079B1 (en) * 1998-11-23 2006-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Speech coding with comfort noise variability feature for increased fidelity
JP3417362B2 (ja) * 1999-09-10 2003-06-16 日本電気株式会社 音声信号復号方法及び音声信号符号化復号方法
JP3478209B2 (ja) 1999-11-01 2003-12-15 日本電気株式会社 音声信号復号方法及び装置と音声信号符号化復号方法及び装置と記録媒体
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
US7020605B2 (en) * 2000-09-15 2006-03-28 Mindspeed Technologies, Inc. Speech coding system with time-domain noise attenuation
US6662155B2 (en) * 2000-11-27 2003-12-09 Nokia Corporation Method and system for comfort noise generation in speech communication
US7512535B2 (en) * 2001-10-03 2009-03-31 Broadcom Corporation Adaptive postfiltering methods and systems for decoding speech
US7457747B2 (en) * 2004-08-23 2008-11-25 Nokia Corporation Noise detection for audio encoding by mean and variance energy ratio
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US8024192B2 (en) * 2006-08-15 2011-09-20 Broadcom Corporation Time-warping of decoded audio signal after packet loss
US20080059161A1 (en) * 2006-09-06 2008-03-06 Microsoft Corporation Adaptive Comfort Noise Generation
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05323993A (ja) * 1992-03-16 1993-12-07 Toshiba Corp 音声対話システム
JPH1083200A (ja) * 1996-09-09 1998-03-31 Fujitsu Ltd 符号化,復号化方法及び符号化,復号化装置
WO1999030315A1 (fr) * 1997-12-08 1999-06-17 Mitsubishi Denki Kabushiki Kaisha Procede et dispositif de traitement du signal sonore
JPH11175083A (ja) * 1997-12-16 1999-07-02 Mitsubishi Electric Corp 雑音らしさ算出方法および雑音らしさ算出装置
JP2002523806A (ja) * 1998-08-24 2002-07-30 コネクサント システムズ, インコーポレイテッド 雑音補償のための音声分類を採用した音声コーデック
JP2001134287A (ja) * 1999-11-10 2001-05-18 Mitsubishi Electric Corp 雑音抑圧装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011514561A (ja) * 2008-03-20 2011-05-06 華為技術有限公司 背景雑音生成方法および雑音処理装置
US8494846B2 (en) 2008-03-20 2013-07-23 Huawei Technologies Co., Ltd. Method for generating background noise and noise processing apparatus
US11636865B2 (en) 2014-07-29 2023-04-25 Telefonaktiebolaget Lm Ericsson (Publ) Estimation of background noise in audio signals

Also Published As

Publication number Publication date
US9318117B2 (en) 2016-04-19
JP5198477B2 (ja) 2013-05-15
RU2009136562A (ru) 2011-04-10
US10438601B2 (en) 2019-10-08
WO2008108721A1 (en) 2008-09-12
US20180075854A1 (en) 2018-03-15
EP2118889A4 (en) 2011-08-03
PL2118889T3 (pl) 2013-03-29
CN101627426A (zh) 2010-01-13
CN101627426B (zh) 2013-03-13
ZA200906297B (en) 2010-11-24
US20160155457A1 (en) 2016-06-02
US20100088092A1 (en) 2010-04-08
RU2469419C2 (ru) 2012-12-10
EP2118889B1 (en) 2012-10-03
US9852739B2 (en) 2017-12-26
EP2118889A1 (en) 2009-11-18

Similar Documents

Publication Publication Date Title
JP5198477B2 (ja) 定常的な背景雑音の平滑化を制御するための方法及び装置
JP6976934B2 (ja) ビットバジェットに応じて2サブフレームモデルと4サブフレームモデルとの間で選択を行うステレオ音声信号の左チャンネルおよび右チャンネルを符号化するための方法およびシステム
US8630864B2 (en) Method for switching rate and bandwidth scalable audio decoding rate
JP5203929B2 (ja) スペクトルエンベロープ表示のベクトル量子化方法及び装置
JP5340965B2 (ja) 定常的な背景雑音の平滑化を行うための方法及び装置
JP5097219B2 (ja) 非因果性ポストフィルタ
JP2006502426A (ja) ソース制御された可変ビットレート広帯域音声の符号化方法および装置
JP2010518434A (ja) オーディオ信号の符号化
US20180033444A1 (en) Audio encoder and method for encoding an audio signal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5198477

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250