JP6654237B2 - 線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器および方法 - Google Patents

線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器および方法 Download PDF

Info

Publication number
JP6654237B2
JP6654237B2 JP2018515646A JP2018515646A JP6654237B2 JP 6654237 B2 JP6654237 B2 JP 6654237B2 JP 2018515646 A JP2018515646 A JP 2018515646A JP 2018515646 A JP2018515646 A JP 2018515646A JP 6654237 B2 JP6654237 B2 JP 6654237B2
Authority
JP
Japan
Prior art keywords
audio signal
background noise
signal
autocorrelation
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018515646A
Other languages
English (en)
Other versions
JP2018528480A (ja
Inventor
フィッシャー,ヨハネス
ベックストレム,トム
ヨキーネン,エンマ
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2018528480A publication Critical patent/JP2018528480A/ja
Application granted granted Critical
Publication of JP6654237B2 publication Critical patent/JP6654237B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]

Description

本発明は、線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器と、対応する方法と、符号器および復号器を含むシステムと、に関する。換言すれば、本発明は、結合型のスピーチ強化及び/又は符号化の手法に関し、例えばCELP(codebook excited linear predictive:符号励振線形予測)コーデックにおける合体による、結合型のスピーチ強化及び符号化に関する。
スピーチ及び通信の装置が広範に行き渡るようになり、悪条件下で使用される可能性が高まるにつれて、悪条件に対処し得るようなスピーチ強化方法への需要が高まってきた。その結果、例えばモバイルホンにおいて、スピーチ符号化などの全ての後続のスピーチ処理のための前処理ブロック/ステップとして、ノイズ減衰方法を使用することが今では普通に行われている。スピーチ強化をスピーチ符号器内へと組み込む手法は様々存在する(非特許文献1,2,3,4)。そのような設計は、伝送されるスピーチの品質を確かに向上させるが、カスケード処理に起因して、品質の一体的な知覚的最適化/最小化ができず、又は、量子化ノイズと干渉との一体的な最小化は少なくとも困難であった。
スピーチコーデックの目標は、最少量の伝送データを用いて高品質のスピーチを伝送できるようにすることである。この目標に到達するため、信号の効率的な表現が必要となる。例えば、線形予測によるスピーチ信号のスペクトル包絡と、長期予測器による基本周波数と、ノイズ符号帳を用いた残差(remainder)とのモデリングである。このような表現は、符号励振線形予測(CELP)パラダイムを使用するスピーチコーデックの基礎であり、適応型マルチレート(AMR)、AMR−広帯域(AMR−WB)、統合型スピーチ及びオーディオ符号化(USAC)及び強化されたボイスサービス(EVS)などの主要なスピーチ符号化標準において使用されている(非特許文献5,6,7,8,9,10,11)。
自然なスピーチ通信において、話者は手を使わないモードで装置を使用することが多い。そのようなシナリオでは、マイクロホンは通常口から離れた位置にあり、従って信号は反響または背景ノイズなどの干渉によって容易に歪みを受ける。そのような劣化は知覚されるスピーチ品質だけでなく、スピーチ信号の了解度にも影響を及ぼすので、会話の自然な流れの重大な障害となる。通信体験を向上させるためには、スピーチ強化方法を適用して、ノイズを減衰させ、反響の影響を低減することが有益である。スピーチ強化の分野は成熟しており、多くの方法が既に利用可能となっている(非特許文献12)。しかしながら、現存するアルゴリズムの多くは、短時間フーリエ変換(STFT)のような変換などのオーバーラップ加算法に基づくものであり、それはオーバーラップ加算に基づく窓掛けスキームを適用する。これとは対照的に、CELPコーデックは、線形予測器/線形予測フィルタを用いて信号をモデル化し、残差だけに対して窓掛けを適用する。そのような基本的な相違により、強化と符号化の方法を合体させることが困難となる。とはいえ、強化と符号化との一体的な最適化は、潜在的に品質を向上させ、遅延と演算量とを低減させることが明白である。
よって、改善された手法に対する必要性が生じる。
M. Jeub and P. Vary, "Enhancement of reverberant speech using the CELP postfilter," in Proc. ICASSP, April 2009, pp. 3993-3996. M. Jeub, C. Herglotz, C. Nelke, C. Beaugeant, and P. Vary, "Noise reduction for dual-microphone mobile phones exploiting power level differences," in Proc. ICASSP, March 2012, pp. 1693-1696. Martin, I. Wittke, and P. Jax, "Optimized estimation of spectral parameters for the coding of noisy speech," in Proc. ICASSP, vol. 3, 2000, pp. 1479-1482 vol.3. H. Taddei, C. Beaugeant, and M. de Meuleneire, "Noise reduction on speech codec parameters," in Proc. ICASSP, vol. 1, May 2004, pp. I-497-500 vol.1. 3GPP, "Mandatory speech CODEC speech processing functions; AMR speech Codec; General description," 3rd Generation Partnership Project (3GPP), TS 26.071, 12 2009. [Online]. Available: http://www.3gpp.org/ftp/Specs/html-info/26071.htm "Speech codec speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions," 3rd Generation Partnership Project (3GPP), TS 26.190, 12 2009. [Online]. Available: http://www.3gpp.org/ftp/Specs/html-info/26190.htm B. Bessette, R. Salami, R. Lefebvre, M. Jelinek, J. Rotola-Pukkila, J. Vainio, H. Mikkola, and K. Jarvinen, "The adaptive multirate wideband speech codec (AMR-WB)," IEEE Transactions on Speech and Audio Processing, vol. 10, no. 8, pp. 620-636, Nov 2002. ISO/IEC 23003-3:2012, "MPEG-D (MPEG audio technologies), Part 3: Unified speech and audio coding," 2012. M. Neuendorf, P. Gournay, M. Multrus, J. Lecomte, B. Bessette, R. Geiger, S. Bayer, G. Fuchs, J. Hilpert, N. Rettelbach, R. Salami, G. Schuller, R. Lefebvre, and B. Grill, "Unified speech and audio coding scheme for high quality at low bitrates," in Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference on, April 2009, pp. 1-4. 3GPP, "TS 26.445, EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification (Release 12)," 3rd Generation Partnership Project (3GPP), TS 26.445, 12 2014. [Online]. Available: http://www.3gpp.org/ftp/Specs/html-info/26445.htm M. Dietz, M. Multrus, V. Eksler, V. Malenovsky, E. Norvell, H. Pobloth, L. Miao, Z.Wang, L. Laaksonen, A. Vasilache, Y. Kamamoto, K. Kikuiri, S. Ragot, J. Faure, H. Ehara, V. Rajendran, V. Atti, H. Sung, E. Oh, H. Yuan, and C. Zhu, "Overview of the EVS codec architecture," in Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on, April 2015, pp. 5698-5702. J. Benesty, M. Sondhi, and Y. Huang, Springer Handbook of Speech Processing. Springer, 2008. T. Baeckstroem, "Computationally efficient objective function for algebraic codebook optimization in ACELP," in Proc. Interspeech, Aug. 2013. "Comparison of windowing in speech and audio coding," in Proc. WASPAA, New Paltz, USA, Oct. 2013. J. Fischer and T. Baeckstroem, "Comparison of windowing schemes for speech coding," in Proc EUSIPCO, 2015. M. Schroeder and B. Atal, "Code-excited linear prediction (CELP): High-quality speech at very low bit rates," in Proc. ICASSP. IEEE, 1985, pp. 937-940. T. Baeckstroem and C. R. Helmrich, "Decorrelated innovative codebooks for ACELP using factorization of autocorrelation matrix," in Proc. Interspeech, 2014, pp. 2794-2798. soundeffects.ch, "Civilisation soundscapes library," accessed: 23.09.2015. [Online]. Available: https://www.soundeffects.ch/de/geraeusch-archive/soundeffects.ch- produkte/civilisation-soundscapes-d.php Method for the subjective assessment of intermediate quality levels of coding systems, ITU-R Recommendation BS.1534, 2003. [Online]. Available: http://www.itu.int/rec/R-REC-BS.1534/en. P. P. Vaidyanathan, "The theory of linear prediction," in Synthesis Lectures on Signal Processing, vol. 2, pp. 1{184. Morgan & Claypool publishers, 2007. J. Allen, "Short-term spectral analysis, and modification by discrete Fourier transform," IEEE Trans. Acoust., Speech, Signal Process., vol. 25, pp. 235{238, 1977.
本発明の目的は、線形予測符号化を使用してオーディオ信号を処理する、改善された概念を提供することである。この目的は独立請求項の主題により解決される。
本発明の実施形態は、線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器を示す。その符号器は、オーディオ信号の背景ノイズを推定するよう構成された背景ノイズ推定部と、オーディオ信号の推定された背景ノイズをオーディオ信号から差し引くことによって背景ノイズ低減済みのオーディオ信号を生成するよう構成された背景ノイズ低減部と、オーディオ信号に対し線形予測分析を行って線形予測フィルタ(LPC)係数の第1セットを取得し、背景ノイズ低減済みのオーディオ信号に対し線形予測分析を行って線形予測フィルタ(LPC)係数の第2セットを取得するよう構成された予測部と、を含む。更に、符号器は、取得されたLPC係数の第1セットと取得されたLPC係数の第2セットとによって制御される時間ドメインフィルタのカスケードから構成される分析フィルタを含む。
本発明は、線形予測符号化の環境における改善された分析フィルタにより、符号器の信号処理特性が増強されるという知見に基づいている。より具体的には、直列接続された時間ドメインフィルタのカスケード又は連鎖を使用することは、それらフィルタが線形予測符号化の環境の分析フィルタに適用された場合には、入力オーディオ信号の処理速度または処理時間を改善することになる。これが有利である理由は、ノイズに支配された周波数帯域をフィルタリングすることにより背景ノイズを低減するために入来時間ドメインオーディオ信号に対して典型的に使用される、時間−周波数変換とその逆の周波数−時間変換とを省略できるからである。換言すれば、背景ノイズの低減または除去を分析フィルタの一部として実行することで、背景ノイズの低減が時間ドメインにおいて実行され得る。従って、時間/周波数/時間の変換のために使用され得る、例えばMDCT/IDMCT([逆]修正離散コサイン変換)のオーバーラップ加算処理が省略される。背景ノイズ低減は単一フレームに対して実行され得ず、連続フレームに対してのみ実行され得るので、このようなオーバーラップ加算方法は、符号器のリアルタイム処理特性を制限してしまう。
換言すれば、上述の符号器は、背景ノイズ低減および従って分析フィルタの全体処理を単一オーディオフレームに対して実行することができ、それによりオーディオ信号のリアルタイム処理が可能になる。リアルタイム処理とは、参加しているユーザーにとって知覚可能な遅延無しにオーディオ信号を処理することを指す。知覚可能な遅延は、例えばテレビ会議においてオーディオ信号の処理の遅延に起因して一人のユーザーが他のユーザーの応答を待たねばならないときに発生し得る。この場合に許可される最大遅延は1秒未満であり、好ましくは0.75秒未満であり、より好ましくは0.25秒未満であり得る。注意すべきは、これらの処理時間は、送信者から受信者へのオーディオ信号の全体的な処理を指しているのであり、従って、符号器の信号処理に加えてオーディオ信号の伝送時間および対応する復号器内での信号処理をも含んでいる。
実施形態によれば、時間ドメインフィルタのカスケード、つまり分析フィルタは、取得されたLPC係数の第1セットを使用する2回の線形予測フィルタと、取得されたLPC係数の第2セットを使用する1回の他の線形予測フィルタの逆とを含む。この信号処理はウイナーフィルタリング(Wiener filtering)と称されてもよい。従って、換言すれば、時間ドメインフィルタのカスケードはウイナーフィルタを含み得る。
他の実施形態によれば、背景ノイズ推定部は、背景ノイズの自己相関(autocorrelation)をオーディオ信号の背景ノイズ表現として推定してもよい。更に、背景ノイズ低減部は、オーディオ信号の推定された自己相関から背景ノイズの自己相関を差し引くことにより、背景ノイズ低減済みオーディオ信号表現を生成してもよく、その場合、オーディオ信号の推定された自己相関はオーディオ信号表現であり、背景ノイズ低減済みオーディオ信号表現は、背景ノイズ低減済みのオーディオ信号の自己相関である。自己相関の推定を使用することは、LPC係数を計算するために時間ドメインオーディオ信号を使用することの代わりとして機能し、背景ノイズ低減を行うことは、時間ドメインにおける完全な信号処理を可能にする。従って、オーディオ信号の自己相関と背景ノイズの自己相関とは、1つのオーディオフレーム又はそのオーディオフレームの一部分の畳み込みにより、又は畳み込み積分(convolution integral)を使用することにより、計算することができる。このように、背景ノイズの自己相関は1つのフレーム内又は1つのサブフレーム内においてでさえ実行されてもよく、そのフレーム又はサブフレームは、スピーチなどの前景オーディオ信号が(殆ど)何も存在しないようなフレーム又はフレームの一部分として定義され得る。更に、背景ノイズ低減済みオーディオ信号の自己相関は、背景ノイズの自己相関と(背景ノイズを含む)オーディオ信号の自己相関とを差し引くことで計算され得る。背景ノイズ低減済みオーディオ信号と(典型的には背景ノイズを有する)オーディオ信号との自己相関を使用することにより、背景ノイズ低減済みオーディオ信号とオーディオ信号とのためのLPC係数をそれぞれ計算することが可能となる。背景ノイズ低減済みオーディオ信号のLPC係数はLPC係数の第2セットと称されてもよく、他方、オーディオ信号のLPC係数はLPC係数の第1セットと称されてもよい。従って、オーディオ信号は時間ドメインにおいて完全に処理され得る。なぜなら、時間ドメインフィルタのカスケードの適用は、オーディオ信号に対するそれらのフィルタリングを時間ドメインで実行するからである。
添付図面を用いて実施形態を詳細に説明する前に、同一若しくは同等の機能を有する構成要素は、図中で同一の参照番号が付与されており、同一の参照番号が付与された構成要素の繰り返し説明が省略されていることを指摘しておく。従って、同一の参照番号を有する構成要素について記載された説明は相互に交換可能である。
以下に、本発明の実施形態について添付図面を参照しながら説明する。
オーディオ信号を符号化する符号器および復号器を含むシステムの概略ブロック図を示す。 (a)カスケード型の強化・符号化のスキーム、(b)CELPスピーチ符号化スキーム、及び(c)本発明の結合型強化・符号化スキームの概略ブロック図を示す。 異なる表記法を用いた、図2の実施形態の概略ブロック図を示す。 本提案の結合型手法(J)及びカスケード型方法(C)について式23で定義された知覚的大きさSNR(信号対ノイズ比)の概略線グラフを示し、ここで、入力信号が非定常な車両ノイズによって劣化しており、その結果が2つの異なるビットレート(下付き文字7で示された7.2kbit/s及び下付き文字13で示された13.2kbit/s)について表現されている。 本提案の結合型手法(J)及びカスケード接続された方法(C)について式23で定義された知覚的大きさSNRの概略線グラフを示し、ここで、入力信号が定常な白色ノイズによって劣化しており、その結果が2つの異なるビットレート(下付き文字7で示された7.2kbit/s及び下付き文字13で示された13.2kbit/s)について表現されている。 提案の結合型手法(JE)及びカスケード接続された強化(CE)に関し、2つの異なる干渉(白色ノイズ(W)及び車両ノイズ(C))についての異なる英語話者(女性(F)及び男性(M))に関するMUSHRAスコアを表す概略プロットを示し、ここで、全てのアイテムは2つの異なるビットレート(7.2kbit/s(7)と13.2kbit/s(13))で符号化されており、REFは隠れ基準であり、LPは3.5kHzのローパスアンカーを示し、Mixは歪みを受けた混合を示す。 2つの異なるビットレートに関してシミュレートされた異なるMUSHRAスコアのプロットを示し、新たな結合型強化(JE)とカスケード接続された手法(CE)との比較を示す。 線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する方法の概略フローチャートを示す。
以下の説明において、本発明の実施形態をより詳細に説明する。各図の中で示され、同一又は類似の機能を有する構成要素には同じ参照符号が関連付けられている。
以下に、ウイナーフィルタリング(非特許文献12)及びCELP符号化に基づく結合型の強化及び符号化の方法を説明する。このような融合は、(1)処理連鎖の中にウイナーフィルタリングを含むことで、CELPコーデックのアルゴリズム上の低い遅延を増大させない、(2)これと同時に、結合型の最適化は、量子化及び背景ノイズに起因する歪みを最小化するという利点がある。更に、結合型スキームの演算量はカスケード手法の1つよりも低い。その実施は、CELP方式のコーデックにおける残差窓掛け(residual-windowing)についての最近の研究成果に基づいており(非特許文献13,14,15)、その手法はCELPコーデックのフィルタの中に新たな方法でウイナーフィルタリングを組み込むことを可能にする。この手法を使えば、カスケードシステムと比べて客観的品質および主観的品質の両方が改善されることを示し得る。
よって、スピーチの結合型強化および符号化のための本提案方法は、カスケード処理に起因するエラーの蓄積を防止し、更に知覚的な出力品質を向上させる。換言すれば、知覚ドメインにおける最適なウイナーフィルタリングにより干渉および量子化歪みの一体的な最小化が実現するので、本提案方法は、カスケード処理に起因するエラーの蓄積を防止する。
図1は、符号器4と復号器6とを含むシステム2の概略ブロック図を示す。符号器4は、線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号8’を符号化するよう構成されている。よって、符号器4は、オーディオ信号8’の背景ノイズ表現12を推定するよう構成された推定部10を含んでもよい。符号器は更に、オーディオ信号表現8からオーディオ信号8’の推定された背景ノイズ表現12を差し引くことにより、背景ノイズ低減済みオーディオ信号表現16を生成するよう構成された背景ノイズ低減部14を含んでもよい。このように、背景ノイズ低減部14は背景ノイズ推定部10から背景ノイズ表現12を受け取ってもよい。背景ノイズ低減部の更なる入力は、オーディオ信号8’又はオーディオ信号表現8であってもよい。任意選択的に、背景ノイズ低減部は、例えばオーディオ信号8’の自己相関8のようなオーディオ信号表現8を内部的に生成するよう構成された生成部を含んでもよい。
更に、符号器4は、オーディオ信号表現8に対し線形予測分析を行って線形予測フィルタ(LPC)係数の第1セット20aを取得し、かつ背景ノイズ低減済みオーディオ信号表現16に対し線形予測分析を行って線形予測フィルタ(LPC)係数の第2セット20bを取得するよう構成された、予測部18を含んでもよい。背景ノイズ低減部14と同様に、予測部18は、オーディオ信号8’からオーディオ信号表現8を内部的に生成する生成部を含んでもよい。しかしながら、共通の又は中央の生成部17を使用して、オーディオ信号8’の表現8を一度に計算し、例えばオーディオ信号8’の自己相関などのオーディオ信号表現を背景ノイズ低減部14及び予測部18へと提供することは有利であり得る。このように、予測部は、オーディオ信号表現8及び背景ノイズ低減済みオーディオ信号表現16、例えばオーディオ信号の自己相関および背景ノイズ低減済みオーディオ信号の自己相関をそれぞれ受け取り、入来信号に基づいてLPC係数の第1セット及びLPC係数の第2セットをそれぞれ決定してもよい。
換言すれば、LPC係数の第1セットはオーディオ信号表現8から決定されてもよく、LPC係数の第2セットは背景ノイズ低減済みオーディオ信号表現16から決定されてもよい。予測部は、それぞれの自己相関からLPC係数の第1セットおよび第2セットを計算するためにレビンソン・ダービン(Levinson Durbin)アルゴリズムを実行してもよい。
更に、符号器は、時間ドメインフィルタ24a,24bのカスケード24からなる分析フィルタ22を含み、その時間ドメインフィルタ24a,24bは取得されたLPC係数の第1セット20aと取得されたLPC係数の第2セット20bとによって制御される。分析フィルタは、オーディオ信号8’に対して時間ドメインフィルタのカスケードを適用して残差信号26を決定してもよく、その場合、第1の時間ドメインフィルタ24aのフィルタ係数はLPC係数の第1セットであり、第2の時間ドメインフィルタ24bのフィルタ係数はLPC係数の第2セットである。残差信号は、LPC係数の第1及び/又は第2セットを有する線形フィルタによって表現されない、オーディオ信号8’の信号成分を含んでもよい。
実施形態によれば、残差信号は、残差信号及び/又はLPC係数の第2セット20bを伝送の前に量子化及び/又は符号化するよう構成された、量子化部28へと提供されてもよい。量子化部は、例えば変換符号化励振(TCX)、符号励振線形予測(CELP)又は例えばエントロピー符号化などのロスレス符号化などを実行してもよい。
更なる実施形態によれば、残差信号の符号化は、量子化部28における符号化の代替例として、トランスミッタ30において実行されてもよい。このように、トランスミッタは、例えば変換符号化励振(TCX)、符号励振線形予測(CELP)又は例えばエントロピー符号化などのロスレス符号化を実行して、残差信号を符号化する。更に、トランスミッタは、LPC係数の第2セットを伝送するよう構成されてもよい。任意選択的な受信機は復号器6である。このように、トランスミッタ30は、残差信号26又は量子化済み残差信号26’を受信してもよい。一実施例によれば、少なくとも量子化済み残差信号が量子化部内で既に符号化されていない場合、トランスミッタは残差信号又は量子化済み残差信号を符号化してもよい。残差信号又は代替的に量子化済み残差信号を任意選択的に符号化した後、トランスミッタへと提供されたそれぞれの信号は、符号化済み残差信号32又は符号化されかつ量子化された残差信号32’として伝送される。更に、トランスミッタは、LPC係数の第2セット20bを受け取り、任意選択的に例えば残差信号を符号化するために使用されたのと同じ符号化方法を用いてそれを符号化して、その符号化されたLPC係数の第2セット20b’を、LPC係数の第1セットを伝送せずに、例えば復号器6へと更に伝送してもよい。換言すれば、LPC係数の第1セット20aは伝送される必要がない。
復号器6は、符号化済み残差信号32又は代替的に符号化された量子化済み残差信号32’と、この残差信号32又は32’の1つに加えて符号化されたLPC係数の第2セット20b’とを、更に受信してもよい。この復号器は受信信号を復号化して、その復号化済み残差信号26を合成フィルタへと提供してもよい。合成フィルタは、LPC係数の第2セットをフィルタ係数として持つ、線形予測FIR(有限インパルス応答)フィルタの逆であってもよい。換言すれば、LPC係数の第2セットを持つフィルタが復号器6の合成フィルタを形成するために逆転される。合成フィルタの出力であり、よって復号器の出力は、復号化済みオーディオ信号8”である。
実施形態によれば、背景ノイズ推定部は、オーディオ信号の背景ノイズの自己相関12をオーディオ信号の背景ノイズ表現として推定してもよい。更に、背景ノイズ低減部は、オーディオ信号の自己相関8から背景ノイズの自己相関12を差し引くことにより、背景ノイズ低減済みオーディオ信号表現16を生成してもよく、その場合、オーディオ信号の推定自己相関8はオーディオ信号表現であり、また、背景ノイズ低減済みオーディオ信号表現16は背景ノイズ低減済みオーディオ信号の自己相関である。
図2と図3とは、同じ実施形態に関するものであるが、異なる表記法を使用している。つまり、図2は、カスケード型および結合型の強化/符号化手法の説明であって、WNとWCとはノイズの多い信号とクリーンな信号とのホワイトニングをそれぞれ表し、WN -1とWC -1とはそれらに対応する逆を表す。他方、図3は、カスケード型および結合型の強化/符号化手法の説明であって、AyとAsとはノイズの多い信号とクリーンな信号とのホワイトニングフィルタをそれぞれ表し、HyとHsとは再構築(又は合成)フィルタであってそれらに対応する逆を表す。
図2aと図3aとは、カスケード型の強化および符号化を実行する信号処理連鎖の強化部分と符号化部分とを示す。強化部分34は周波数ドメインで作動してもよく、ブロック36a及び36bは、例えばMDCTを使用する時間−周波数変換および例えばIMDCTを使用する周波数−時間変換を実行してもよく、又は任意の他の適切な変換を使用して時間−周波数変換および周波数−時間変換を実行してもよい。フィルタ38と40とは、周波数変換されたオーディオ信号42の背景ノイズ低減を実行してもよい。ここで、背景ノイズの周波数部分は、オーディオ信号8’の周波数スペクトルに対するそれらの影響力を低減することでフィルタリングされてもよい。よって、周波数−時間変換部36bは、周波数ドメインから時間ドメインへの逆変換を実行してもよい。強化部分34において背景ノイズ低減が実行された後で、符号化部分35は低減された背景ノイズを有するオーディオ信号の符号化を実行してもよい。従って、分析フィルタ22’は適切なLPC係数を用いて残差信号26を計算する。残差信号は量子化されて合成フィルタ44へと提供されてもよく、その合成フィルタは図2aと図3aの場合には分析フィルタ22’の逆である。合成フィルタ42は図2aと図3aの場合には分析フィルタ22’の逆であるため、残差信号26を決定するために使用されたLPC係数が復号器へと伝送されて、復号化済みオーディオ信号8”を決定する。
図2bと図3bとは、背景ノイズ低減が事前に実行されない符号化ステージ35を示す。符号化ステージ35は図2aと図3aとに関して既に説明したので、繰り返しを避けるため更なる説明を省略する。
図2cと図3cとは、結合型の強化・符号化の主要な概念に関係する。分析フィルタ22が、フィルタAyとHsとを使用する時間ドメインフィルタのカスケードを含むことが示されている。より詳細には、時間ドメインフィルタのカスケードは、取得されたLPC係数の第1セット20aを使用する2回の線形予測フィルタ(Ay 2)と、取得されたLPC係数の第2セット20bを使用する1回の他の線形予測フィルタの逆(Hs)とを含む。フィルタのこの配列またはこのフィルタ構造は、ウイナーフィルタと呼んでもよい。しかしながら、1つの予測フィルタHsが分析フィルタAsを打ち消すことに注目すべきである。換言すれば、フィルタAyを2回適用し(Ay 2で表される)、フィルタHsを2回適用し(Hs 2で表される)、フィルタAsを1回適用してもよい。
図1に関して既に説明したように、これらフィルタのためのLPC係数は、例えば自己相関を使用して決定された。自己相関は時間ドメインで実行され得るので、結合型の強化および符号化を実施するために時間−周波数変換を実行する必要がない。更に、この手法が有利な理由は、量子化の更なる処理連鎖と合成フィルタリングの伝送とが、図2a及び図3aに関して説明した符号化ステージ35と同じであることである。しかし、背景ノイズ低減済み信号に基づくLPCフィルタ係数が、適切な合成フィルタリングのために復号器に伝送されなければならないことに注意すべきである。しかしながら、別の実施形態によれば、LPC係数を伝送する代わりに、LPC係数を有する線形フィルタの更なる逆転を防止し、合成フィルタ42を導出するために、フィルタ24bの既に計算済みのフィルタ係数(フィルタ係数20bの逆転により表現される)が伝送されてもよい。なぜなら、この逆転は符号器内で既に実行されていたからである。換言すれば、フィルタ係数20bを伝送する代わりに、これら係数の逆行列が伝送され、それにより逆転を2回実行することを防止してもよい。更に、符号器側のフィルタ24bと合成フィルタ42とは、符号器と復号器とにおいてそれぞれ適用される同じフィルタであってもよい。
換言すれば、図2に関し、CELPモデルに基づくスピーチコーデックは、あるスピーチ生成モデルに基づいており、そのモデルは、入力スピーチ信号Snの相関が係数
Figure 0006654237
を有し、Mがモデル次数である線形予測フィルタによってモデル化され得ると仮定する(非特許文献16)。残差
Figure 0006654237
は、スピーチ信号の線形予測フィルタにより予測できない部分であるが、次にベクトル量子化を用いて量子化される。
Figure 0006654237
が入力信号のベクトルであり、上付き文字Tが転置を表すとする。この場合、残差は次式で表される。
Figure 0006654237
スピーチ信号ベクトルSkの自己相関行列Rssが次式で与えられると、
Figure 0006654237
次数Mの予測フィルタの推定は次式で与えられる(非特許文献20)。
Figure 0006654237
ここで、
Figure 0006654237
であり、スカラー予測誤差σe 2はα0=1となるように選択される。線形予測フィルタαnがホワイトニングフィルタであることに着目すると、rkは無相関のホワイトノイズである。更に、オリジナル信号Snは、予測器αnを用いたIIRフィルタリングを介して、残差rnから再構築され得る。次のステップは、知覚的歪みが最小化されるように、ベクトル量子化器を用いて、残差のベクトル
Figure 0006654237

Figure 0006654237
へ量子化することである。出力信号のベクトルが
Figure 0006654237
であり、
Figure 0006654237
がその量子化された同等物であり、Wが出力に知覚的重み付けを適用する畳み込み行列であるとする。その場合、知覚的最適化の問題は次式で表すことができる。
Figure 0006654237
ここで、Hは予測器αnのインパルス応答に対応する畳み込み行列である。
CELP方式のスピーチ符号化の処理を図2bに示す。入力信号はまずフィルタ
Figure 0006654237
を用いてホワイトニングされ、残差信号を得る。残差のベクトルは、次にブロックQにおいて量子化される。最後に、スペクトル包絡構造がIIRフィルタリングA-1(z)によって再構築され、量子化された出力信号
Figure 0006654237
を得る。再合成された信号は知覚ドメインにおいて評価されるので、この手法は合成による分析の方法として知られている。
ウイナーフィルタリング
単一チャネルのスピーチ強化において、所望のクリーンなスピーチ信号Snと何らかの所望でない干渉Vnとの加算的混合である信号ynが得られたと仮定すると、次式が成り立つ。
Figure 0006654237
強化処理の目標はクリーンなスピーチ信号Snを推定することであるが、他方、ノイズの多い信号ynと相関行列の推定とにのみアクセス可能である。即ち、
Figure 0006654237
ここで、
Figure 0006654237
である。フィルタ行列Hを使用すると、クリーンなスピーチ信号の推定
Figure 0006654237
は次式により定義される。
Figure 0006654237
ウイナーフィルタとして知られる、最小二乗平均誤差(MMSE)の意味における最適なフィルタは、非特許文献12のように導出され得る。
Figure 0006654237
通常、ウイナーフィルタリングは、入力信号のオーバーラップしている窓に対して適用され、オーバーラップ加算法(非特許文献21、12)を使用して再構築される。この手法は図2aの強化ブロックの中で示される。しかし、その手法は、窓同士間のオーバーラップの長さに応じてアルゴリズム上の遅延を増大させてしまう。そのような遅延を回避するため、目的は、ウイナーフィルタリングを線形予測に基づく方法と合体させることである。
そのような関係を得るため、推定スピーチ信号
Figure 0006654237
は式1へと代入され、次式が得られる。
Figure 0006654237
ここで、γはスケーリング係数であり、
Figure 0006654237
はノイズの多い信号ynの最適な予測子である。換言すれば、ノイズの多い信号をa’でフィルタリングすることで、推定クリーン信号の(スケーリング済み)残差が得られる。スケーリングは、クリーンな信号とノイズの多い信号、つまり
Figure 0006654237
のそれぞれの予想される残差誤差間の比、即ち
Figure 0006654237
である。この導出は、ウイナーフィルタリングと線形予測とが密接に関係した方法であることを示しており、以下では、この関係が結合型の強化および符号化方法を発展させるために用いられるであろう。
ウイナーフィルタリングのCELPコーデックへの合体
ここでの目的は、ウイナーフィルタリングとCELPコーデック(3章および2章で説明した)とを1つの結合型アルゴリズムへと合体させることである。これらアルゴリズムを合体することで、ウイナーフィルタリングの通常の実施で必要とされるオーバーラップ加算窓掛けの遅延が回避され得、演算量が低減される。
結合型構造の実施は複雑ではない。強化されたスピーチ信号の残差は式9によって取得され得ると示される。よって、強化されたスピーチ信号は、クリーン信号の線形予測モデルαnを用いて残差をIIRフィルタリングすることにより、再構築され得る。
残差の量子化のために、クリーン信号sk'をその推定信号
Figure 0006654237
で置き換えることにより、式4が修正され得る。その結果、次式が得られる。
Figure 0006654237
換言すると、強化された目標信号
Figure 0006654237
を用いる目的関数は、クリーンな入力信号s’kとのアクセスを有する場合と同じである。
結論として、標準CELPに対する修正は、クリーンな信号の分析フィルタaを、ノイズの多い信号の分析フィルタa’と置き換えるだけである。CELPアルゴリズムの残りの部分は変更なしのままである。本提案の手法は図2(c)に示される。
明白なことであるが、本提案方法は、ノイズ減衰が望まれる場合はいつでも、かつクリーンなスピーチ信号の自己相関Rssの推定にアクセスを有する場合には、任意のCELPコーデックにおいて、最小の変更で適用可能である。クリーンなスピーチ信号の自己相関の推定が利用不可の場合には、ノイズ信号の自己相関Rwの推定を使用して、次式
Figure 0006654237
又は他の通常の推定により推測され得る。
本提案方法は、時間ドメインフィルタを使用してクリーン信号の推定を取得できる限り、ビーム形成を伴う多チャネルアルゴリズムなどのシナリオに対しても容易に拡張され得る。
本提案方法の演算量における利点は、以下のように特徴付けられる。従来の手法では、式8で与えられた行列フィルタHを決定する必要があることに注意されたい。必要となる行列反転の複雑さは
Figure 0006654237
である。しかし、提案手法では、ノイズの多い信号について式3だけが解ければよく、これはレビンソン・ダービン・アルゴリズム(又は同類)を用いて実施されることができ、その複雑さは
Figure 0006654237
である。
符号励振線形予測
図3に関して言い換えると、CELPパラダイムに基づくスピーチコーデックはスピーチ生成モデルを利用しており、そのモデルでは以下のことを仮定している。即ち、相関、従って入力スピーチ信号Snのスペクトル包絡は、係数
Figure 0006654237
を有する線形予測フィルタによりモデル化され得ると仮定しており、ここで、Mは根底となるチューブモデル(非特許文献16)により決定されるモデル次数である。線形予測フィルタ(予測子18とも称される)によって予測できないスピーチ信号の部分である、残差
Figure 0006654237
は、次にベクトル量子化を用いて量子化される。
入力信号sの1つのフレームのための線形予測フィルタasは、次式の最小化によって取得され得る。
Figure 0006654237
ここで、
Figure 0006654237
である。その解は次式の通りである。
Figure 0006654237
sのフィルタ係数αから成る畳み込み行列Asの以下の定義
Figure 0006654237
を用いて、残差信号は入力スピーチフレームを畳み込み行列Asで乗算することにより取得され得る。
Figure 0006654237
ここで、入力信号からゼロ入力応答を差し引き、それを再合成の中に再導入することにより(非特許文献15)、窓掛けがCELPコーデックと同様に実行される。
式15の乗算は、予測フィルタを用いた入力信号の畳み込みと同じであり、従って、FIRフィルタリングと対応する。オリジナル信号は、次式のように再構築フィルタHsを用いた乗算によって、残差から再構築され得る。
Figure 0006654237
ここで、Hsは予測フィルタのインパルス応答
Figure 0006654237
から構成される。
Figure 0006654237
結果として、この演算はIIRフィルタリングに相当する。
残差ベクトルはベクトル量子化を適用して量子化される。従って、量子化されたベクトル
Figure 0006654237
は、ノルム−2の意味において、知覚的距離を最小化するよう、所望の再構築クリーン信号へと選択される。
Figure 0006654237
ここで、esは量子化されていない残差であり、
Figure 0006654237
は、AMR−WBスピーチコーデック(非特許文献6)で使用されているような知覚的重み付けフィルタである。
CELPコーデックにおけるウイナーフィルタリングの適用
単一チャネルのスピーチ強化の適用に関し、獲得されたマイクロホン信号ynが所望のクリーンなスピーチ信号Snと何らかの所望でない干渉Vnとの加算的混合であると仮定すると、
Figure 0006654237
となる。Zドメインにおいては、等価的に
Figure 0006654237
が成り立つ。
ウイナーフィルタB(z)を適用することで、フィルタリングによりノイズの多い観測Y(z)からスピーチ信号S(z)を再構築することが可能になり、それにより推定スピーチ信号が次式のようになる。
Figure 0006654237
ウイナーフィルタについての最小二乗平均解は非特許文献12に記載の通りであり、
Figure 0006654237
ここで、スピーチ信号Sn及びノイズ信号Vnは、それぞれ非相関であると仮定されている。
スピーチコーデックにおいて、ノイズの多い信号ynのパワースペクトルの推定が線形予測モデル
Figure 0006654237
のインパルス応答の形態で利用可能である。換言すれば、
Figure 0006654237
であり、ここで、γはスケーリング係数である。ノイズの多い線形予測子は、ノイズの多い信号の自己相関行列Ryyから通常どおり計算され得る。
更に、ノイズの多い線形予測子はクリーンなスピーチ信号
Figure 0006654237
のパワースペクトルから、又は等価的にクリーンなスピーチ信号の自己相関行列Rssから推定されてもよい。強化アルゴリズムは、ノイズ信号が定常であると仮定しており、よってRvvで示すノイズ信号の自己相関は入力信号の非スピーチフレームから推定され得る。その場合、クリーンなスピーチ信号の自己相関行列Rssは、
Figure 0006654237
で推定され得る。ここで、
Figure 0006654237
が正定値(positive definite)であることを確保するという通常の予防措置を講じておくことが有利である。
クリーンなスピーチの推定自己相関行列
Figure 0006654237
を使用して、対応する線形予測子が決定され得る。ここで、Zドメインにおけるインパルス応答は
Figure 0006654237
である。よって、
Figure 0006654237
となり、式19は次式のように表すことができる。
Figure 0006654237
換言すれば、FIRモードとIIRモードとのそれぞれにおいて、ノイズの多い信号とクリーン信号との予測子を用いて2回フィルタリングすることにより、クリーン信号のウイナー推定が取得され得る。
畳み込み行列は、As及びAyによる予測子
Figure 0006654237
を用いたFIRフィルタリングにそれぞれ対応すると言える。同様に、Hs及びHyを予測フィルタリング(IIR)に対応するそれぞれの畳み込み行列であると仮定する。これらの行列を使用することで、従来のCELP符号化は図3bで示すフロー図を用いて表すことができる。ここで、Asを用いて入力信号Snをフィルタリングして残差を取得し、それを量子化し、Hsを用いたフィルタリングによって量子化済み信号を再構築することが可能である。
強化と符号化とを結合する従来の手法を図3aに示す。ここでは、符号化の前の前処理ブロックとしてウイナーフィルタリングが適用される。
最後に、提案手法においては、ウイナーフィルタリングがCELP方式のスピーチコーデックと結合されている。図3aのカスケード手法と図3bの結合型手法とを比較した場合、追加的なオーバーラップ加算(OLA)の窓掛けスキームを省略できることが明らかである。更に、符号器における入力フィルタAsはHsを取り消す。従って、図3cに示すように、フィルタ結合
Figure 0006654237
を用いて劣化した入力信号yをフィルタリングすることで、推定されたクリーン残差信号
Figure 0006654237
が得られる。従って、誤差の最小化は次式となる。
Figure 0006654237
このように、この手法はクリーンな推定と量子化済み信号との間の距離を一体的に最小化するので、知覚的ドメインにおける干渉と量子化ノイズとの一体的最小化が実行可能になる。
結合型のスピーチ符号化及び強化の手法の性能は、主観的手段と客観的手段との両方を用いて評価された。新たな方法の性能と切り離すため、単純なCELPコーデックが使用され、そこでは残差信号だけが量子化されたが、長期予測(LTP)の遅延とゲイン、線形予測符号化(LPC)及びゲインファクタは量子化されなかった。残差はペア毎の反復方法を使用して量子化され、そこでは、非特許文献17に記載されるように、2個のパルスが全ての位置に連続的に加えられた。更に、推定アルゴリズムの影響を避けるため、クリーンなスピーチ信号の相関行列Rssは、全てのシミュレートされたシナリオにおいて既知であると仮定された。スピーチ及びノイズ信号が非相関であると仮定して、
Figure 0006654237
が成り立つ。如何なる実用的なアプリケーションにおいても、ノイズ相関行列Rvv又は代替的にクリーンなスピーチの相関行列Rssは、獲得されたマイクホン信号から推定されなければならない。一般的な手法は、干渉が定常であると仮定して、スピーチの切れ目におけるノイズ相関行列を推定することである。
評価されたシナリオは、所望のクリーンなスピーチ信号と追加的な干渉との混合から成っていた。2つのタイプの干渉が考慮された。即ち、定常な白色ノイズと、非特許文献18の都市化音響風景ライブラリ(Civilisation Soundscape Library)からの車両ノイズの録音のセグメントと、である。残差のベクトル量子化は、AMR−WBコーデック(非特許文献6)の7.2kbit/s及び13.2kbit/sの全体ビットレートにそれぞれ対応する、2.8kbit/s及び7.2kbit/sのビットレートを用いて実行された。12.8kHzのサンプリングレートが全てのシミュレーションに使用された。
強化されかつ符号化された信号は、主観的手段および客観的手段の両方を用いて評価された。よって、式23及び式22に定義されるようにリスニングテストが行われ、知覚的な大きさの信号対ノイズ比(SNR)が計算された。結合型の強化処理はフィルタの位相に対して影響を与えないので、この知覚的な大きさSNRが使用された。合成フィルタ及び再構成フィルタは双方とも、予測フィルタの設計に起因して、最小位相フィルタの制限に拘束されているので、フィルタの位相に対して影響を与えない。
フーリエ変換を演算子
Figure 0006654237
として定義すると、知覚的ドメインにおける再構築されたクリーン基準および推定クリーン信号の絶対値のスペクトル値は次式で示される。
Figure 0006654237
修正された知覚的な信号対ノイズ比(PSNR)の定義は次式となる。
Figure 0006654237
主観的評価のために、USACの標準(非特許文献8)に使用されたテストセットからスピーチ項目、即ち、上述のように白色ノイズおよび車両ノイズによって汚損された項目が使用された。STAX(登録商標)の静電型ヘッドホンを防音環境において使用し、14人の被験者について、非特許文献19の隠れ基準及びアンカー付き多刺激検法(Multiple Stimuli with Hidden Reference and Anchor:MUSHRA)のリスニングテストを行った。そのリスニングテストの結果を図6に示し、図7には平均および95%の信頼区間(confidence intervals)を示す差分MUSHRAスコアを表す。
図6の絶対値のMUSHRAテスト結果は、隠れ基準が常に正確に100ポイントへと割り当てられたことを示す。オリジナルのノイズの多い混合は、各項目について最低の平均スコアを与えられたので、全ての強化方法が知覚的品質を向上させたことが分かる。低いビットレートについての平均スコアは、カスケード方式と比較して、全項目にわたる平均について6.4MUSHRAポイントの統計的に有意な改善を示している。高いビットレートについては、全項目にわたる平均は改善が見られるが、しかし統計的に有意とは言えない。
結合型の方法と前強化の方法とのより詳細な比較を得るために、差分MUSHRAスコアが図7に示されている。ここでは、前強化の方法と結合型の方法との間の差が各リスナーおよび項目について計算されている。差分結果は、低いビットレートについての統計的に有意な改善を示すことで、絶対値のMUSHRAスコアを証明しているが、他方、高いビットレートについての改善は統計的に有意でない。
換言すれば、結合型のスピーチ強化及び符号化のための方法が示され、その方法は全体的な干渉および量子化ノイズの最小化を可能にする。対照的に、従来の手法は、カスケード型の処理ステップにおいて強化および符号化を適用している。両方の処理ステップを一体化することは、繰り返しの窓掛け及びフィルタリング操作が省略できるため、演算量から見ても魅力的である。
CELPタイプのスピーチコーデックは、非常に低い遅延となるように設計されており、従って、処理窓が将来の処理窓とオーバーラップすることを回避している。対照的に、周波数ドメインで適用された従来の強化方法は、オーバーラップ加算窓に依存し、それがオーバーラップ長に応じた追加的な遅延を導入してしまう。結合型の手法は、オーバーラップ加算の窓掛けを必要とせず、スピーチコーデック(非特許文献15)で適用されるような窓掛けスキームを使用し、よってアルゴリズム上の遅延の増大を回避している。
本提案方法に関して知られている課題は、信号位相が無傷で残る従来のスペクトル・ウイナーフィルタリングとは異なり、提案方法は、位相を修正する時間ドメインフィルタを適用するということである。そのような位相修正は、適切な全帯域通過フィルタの適用により容易に対処され得る。しかしながら、位相修正に起因する如何なる知覚的劣化も気づかれてこなかったので、そのような全帯域通過フィルタは演算量を低く保持するために省略された。しかしながら、客観的評価において、方法同士の公正な比較ができるように、知覚的大きさSNRが測定されたことに注目されたい。この客観的手段は、本提案方法がカスケード処理よりも平均で3dB良好であることを示している。
提案方法の性能優位性は、MUSHRAリスニングテストの結果によって更に確認され、そのテストは平均で6.4ポイントの改善を示している。これらの結果は、結合型の強化及び符号化の適用が、品質と演算量との両方において全体システムにとって有益である一方で、CELPスピーチコーデックの低いアルゴリズム上の遅延を維持していることを証明している。
図8は、線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する方法800の概略ブロック図を示す。この方法800は、オーディオ信号の背景ノイズ表現を推定するステップS802と、オーディオ信号表現からオーディオ信号の推定された背景ノイズ表現を差し引くことで、背景ノイズ低減済みオーディオ信号表現を生成するステップS804と、オーディオ信号表現に対し線形予測分析を行って線形予測フィルタ係数の第1セットを取得し、かつ背景ノイズ低減済みオーディオ信号表現に対し線形予測分析を行って線形予測フィルタ係数の第2セットを取得するステップS806と、取得されたLPC係数の第1セットと取得されたLPC係数の第2セットとによって時間ドメインフィルタのカスケードを制御して、オーディオ信号から残差信号を取得するステップS808と、を含む。
この明細書において、線上の信号は時には線の参照番号で呼ばれ、又は時には線に帰属する参照番号そのもので示されている。従って、この表記法では、ある信号を有する線が信号それ自体を示している。線は、回路接続された実装における物理的な線であり得る。しかし、コンピュータ実装においては物理的な線は存在せず、線によって表現された信号は、1つの計算モジュールから他の計算モジュールへと伝送される。
本発明はこれまでブロック図の文脈で説明されており、その中で各ブロックは実際の又は理論上のハードウエア要素を表していたが、本発明はコンピュータ実装された方法によってもまた実現され得る。後者の場合には、各ブロックは対応する方法ステップを表し、これらのステップは、対応する理論上または物理的なハードウエアのブロックによって実行される機能を表している。
これまで幾つかの態様を装置の文脈で示してきたが、これらの態様は対応する方法の説明をも表しており、1つのブロック又は装置が1つの方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。方法ステップの幾つか又は全ては、例えばマイクロプロセッサ、プログラム可能なコンピュータ又は電子回路など、ハードウエア装置により(ハードウエア装置を使用して)実行されてもよい。幾つかの実施形態において、最も重要な方法ステップの1つ以上が、そのような装置によって実行されてもよい。
本発明の、伝送され又は符号化された信号は、デジタル記憶媒体上に記憶されることができ、又は、例えばインターネットのような無線伝送媒体または有線伝送媒体などの伝送媒体上で伝送されることができる。
所定の実施要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて実施可能である。この実施は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,ブルーレイ,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。従って、デジタル記憶媒体はコンピュータ読み取り可能であり得る。
本発明に従う幾つかの実施形態は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有するデータキャリアを含む。
一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。
換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体などの非一時的記憶媒体)である。そのデータキャリア、デジタル記憶媒体又は記録された媒体は、典型的には有形及び/又は非一時的である。
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。
他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
本発明に係るさらなる実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを受信器へ(例えば電子的又は光学的に)伝送するよう構成された装置又はシステムを含む。受信器は、例えばコンピュータ、モバイル装置、メモリ装置等であってもよい。この装置又はシステムは、例えばコンピュータプログラムを受信器へと送信するためのファイルサーバを含み得る。
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。

Claims (11)

  1. 線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号(8')を符号化する符号器(4)であって、
    オーディオ信号(8')の背景ノイズの自己相関(12)を推定するよう構成された背景ノイズ推定部(10)と、
    オーディオ信号の自己相関(8)から前記オーディオ信号(8')の推定された背景ノイズの自己相関(12)を差し引くことによって、背景ノイズ低減済みオーディオ信号の自己相関(16)を生成するよう構成された背景ノイズ低減部(14)と、
    前記オーディオ信号の自己相関(8)に対し線形予測分析を行って線形予測フィルタ(LPC)係数の第1セット(20a)を取得し、前記背景ノイズ低減済みオーディオ信号の自己相関(16)に対し線形予測分析を行って線形予測フィルタ(LPC)係数の第2セット(20b)を取得するよう構成された予測部(18)と、
    取得されたLPC係数の第1セット(20a)と取得されたLPC係数の第2セット(20b)とによって制御される時間ドメインフィルタのカスケード(24,24a,24b)から構成され、前記オーディオ信号(8')から残差信号(26)を得る分析フィルタ(22)と、
    を含む符号器(4)。
  2. 前記時間ドメインフィルタのカスケード(24)は、前記取得されたLPC係数の第1セット(20a)を使用する2回の線形予測フィルタ(24a)と、前記取得されたLPC係数の第2セット(20b)を使用する1回の他の線形予測フィルタの逆(24b)とを含む、請求項1に記載の符号器(4)。
  3. 前記時間ドメインフィルタのカスケード(24)はウイナーフィルタである、請求項1又は2に記載の符号器(4)。
  4. 前記LPC係数の第2セット(20b)を伝送するよう構成されたトランスミッタ(30)をさらに含む、請求項1乃至のいずれかに記載の符号器(4)。
  5. 前記残差信号(26)を伝送するよう構成されたトランスミッタをさらに含む、請求項1乃至のいずれかに記載の符号器(4)。
  6. 前記残差信号(26)を伝送の前に量子化及び/又は符号化するよう構成された量子化部(28)をさらに含む、請求項1乃至のいずれかに記載の符号器(4)。
  7. 前記LPC係数の第2セット(20b)を伝送の前に量子化及び/又は符号化するよう構成された量子化部(28)をさらに含む、請求項1乃至のいずれかに記載の符号器(4)。
  8. 前記量子化部は、符号励振線形予測(CELP)、エントロピー符号化、又は変換符号化励振(TCX)を使用するよう構成された、請求項又はに記載の符号器。
  9. 請求項1乃至のいずれかに記載の符号器(4)と、
    符号化されたオーディオ信号を復号化するよう構成された復号器(6)と、
    を含むシステム(2)。
  10. 線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する方法(800)であって、
    オーディオ信号の背景ノイズの自己相関を推定するステップ(S802)と、
    オーディオ信号の自己相関から前記オーディオ信号の推定された背景ノイズの自己相関を差し引くことによって、背景ノイズ低減済みオーディオ信号の自己相関を生成するステップ(S804)と、
    前記オーディオ信号の自己相関に対し線形予測分析を行って線形予測フィルタ(LPC)係数の第1セットを取得し、前記背景ノイズ低減済みオーディオ信号の自己相関に対し線形予測分析を行って線形予測フィルタ(LPC)係数の第2セットを取得するステップ(S806)と、
    取得されたLPC係数の第1セットと取得されたLPC係数の第2セットとによって時間ドメインフィルタのカスケードを制御して、前記オーディオ信号から残差信号を得るステップ(S808)と、
    を含む方法。
  11. 請求項10に記載の方法を実行するための、プログラムコードを有するコンピュータプログラム。
JP2018515646A 2015-09-25 2016-09-23 線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器および方法 Active JP6654237B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP15186901.3 2015-09-25
EP15186901 2015-09-25
EP16175469 2016-06-21
EP16175469.2 2016-06-21
PCT/EP2016/072701 WO2017050972A1 (en) 2015-09-25 2016-09-23 Encoder and method for encoding an audio signal with reduced background noise using linear predictive coding

Publications (2)

Publication Number Publication Date
JP2018528480A JP2018528480A (ja) 2018-09-27
JP6654237B2 true JP6654237B2 (ja) 2020-02-26

Family

ID=56990444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018515646A Active JP6654237B2 (ja) 2015-09-25 2016-09-23 線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器および方法

Country Status (11)

Country Link
US (1) US10692510B2 (ja)
EP (1) EP3353783B1 (ja)
JP (1) JP6654237B2 (ja)
KR (1) KR102152004B1 (ja)
CN (1) CN108352166B (ja)
BR (1) BR112018005910B1 (ja)
CA (1) CA2998689C (ja)
ES (1) ES2769061T3 (ja)
MX (1) MX2018003529A (ja)
RU (1) RU2712125C2 (ja)
WO (1) WO2017050972A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
WO2018189414A1 (en) * 2017-04-10 2018-10-18 Nokia Technologies Oy Audio coding
EP3742391A1 (en) 2018-03-29 2020-11-25 Leica Microsystems CMS GmbH Apparatus and computer-implemented method using baseline estimation and half-quadratic minimization for the deblurring of images
US10741192B2 (en) * 2018-05-07 2020-08-11 Qualcomm Incorporated Split-domain speech signal enhancement
EP3671739A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Apparatus and method for source separation using an estimation and control of sound quality
CN113287167A (zh) * 2019-01-03 2021-08-20 杜比国际公司 用于混合语音合成的方法、设备及系统
US11195540B2 (en) * 2019-01-28 2021-12-07 Cirrus Logic, Inc. Methods and apparatus for an adaptive blocking matrix
CN110455530B (zh) * 2019-09-18 2021-08-31 福州大学 谱峭度结合卷积神经网络的风机齿轮箱复合故障诊断方法
CN111986686B (zh) * 2020-07-09 2023-01-03 厦门快商通科技股份有限公司 短时语音信噪比估算方法、装置、设备及存储介质
CN113409810B (zh) * 2021-08-19 2021-10-29 成都启英泰伦科技有限公司 一种联合去混响的回声消除方法

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5173941A (en) * 1991-05-31 1992-12-22 Motorola, Inc. Reduced codebook search arrangement for CELP vocoders
US5307460A (en) * 1992-02-14 1994-04-26 Hughes Aircraft Company Method and apparatus for determining the excitation signal in VSELP coders
JP3626492B2 (ja) * 1993-07-07 2005-03-09 ポリコム・インコーポレイテッド 会話の品質向上のための背景雑音の低減
US5590242A (en) * 1994-03-24 1996-12-31 Lucent Technologies Inc. Signal bias removal for robust telephone speech recognition
US6001131A (en) * 1995-02-24 1999-12-14 Nynex Science & Technology, Inc. Automatic target noise cancellation for speech enhancement
US5706395A (en) * 1995-04-19 1998-01-06 Texas Instruments Incorporated Adaptive weiner filtering using a dynamic suppression factor
US6263307B1 (en) * 1995-04-19 2001-07-17 Texas Instruments Incorporated Adaptive weiner filtering using line spectral frequencies
CA2206652A1 (en) * 1996-06-04 1997-12-04 Claude Laflamme Baud-rate-independent asvd transmission built around g.729 speech-coding standard
US6757395B1 (en) * 2000-01-12 2004-06-29 Sonic Innovations, Inc. Noise reduction apparatus and method
JP2002175100A (ja) * 2000-12-08 2002-06-21 Matsushita Electric Ind Co Ltd 適応型雑音抑圧音声符号化装置
US6915264B2 (en) * 2001-02-22 2005-07-05 Lucent Technologies Inc. Cochlear filter bank structure for determining masked thresholds for use in perceptual audio coding
WO2002101728A1 (es) * 2001-06-11 2002-12-19 Lear Automotive (Eeds) Spain, S.L. Metodo y sistema para cancelacion de exos y ruidos en entornos con condiciones acusticas variables y altamente realimentados
JP4506039B2 (ja) * 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
US7065486B1 (en) * 2002-04-11 2006-06-20 Mindspeed Technologies, Inc. Linear prediction based noise suppression
US7043423B2 (en) * 2002-07-16 2006-05-09 Dolby Laboratories Licensing Corporation Low bit-rate audio coding systems and methods that use expanding quantizers with arithmetic coding
CN1458646A (zh) * 2003-04-21 2003-11-26 北京阜国数字技术有限公司 一种滤波参数矢量量化和结合量化模型预测的音频编码方法
US7516067B2 (en) * 2003-08-25 2009-04-07 Microsoft Corporation Method and apparatus using harmonic-model-based front end for robust speech recognition
US7788090B2 (en) * 2004-09-17 2010-08-31 Koninklijke Philips Electronics N.V. Combined audio coding minimizing perceptual distortion
DE602004015987D1 (de) * 2004-09-23 2008-10-02 Harman Becker Automotive Sys Mehrkanalige adaptive Sprachsignalverarbeitung mit Rauschunterdrückung
US8949120B1 (en) * 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8700387B2 (en) * 2006-09-14 2014-04-15 Nvidia Corporation Method and system for efficient transcoding of audio data
EP1944761A1 (en) * 2007-01-15 2008-07-16 Siemens Networks GmbH & Co. KG Disturbance reduction in digital signal processing
US8060363B2 (en) * 2007-02-13 2011-11-15 Nokia Corporation Audio signal encoding
EP2212884B1 (en) * 2007-11-06 2013-01-02 Nokia Corporation An encoder
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
GB2466671B (en) * 2009-01-06 2013-03-27 Skype Speech encoding
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
SG192718A1 (en) * 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Audio codec using noise synthesis during inactive phases
US9208796B2 (en) * 2011-08-22 2015-12-08 Genband Us Llc Estimation of speech energy based on code excited linear prediction (CELP) parameters extracted from a partially-decoded CELP-encoded bit stream and applications of same
US9406307B2 (en) * 2012-08-19 2016-08-02 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US9263054B2 (en) * 2013-02-21 2016-02-16 Qualcomm Incorporated Systems and methods for controlling an average encoding rate for speech signal encoding
US9520138B2 (en) * 2013-03-15 2016-12-13 Broadcom Corporation Adaptive modulation filtering for spectral feature enhancement
CN105359210B (zh) * 2013-06-21 2019-06-14 弗朗霍夫应用科学研究促进协会 Fdns应用前实现将mdct频谱衰落到白噪声的装置及方法
US9538297B2 (en) * 2013-11-07 2017-01-03 The Board Of Regents Of The University Of Texas System Enhancement of reverberant speech by binary mask estimation
GB201617016D0 (en) * 2016-09-09 2016-11-23 Continental automotive systems inc Robust noise estimation for speech enhancement in variable noise conditions

Also Published As

Publication number Publication date
BR112018005910A2 (pt) 2018-10-16
EP3353783B1 (en) 2019-12-11
RU2018115191A3 (ja) 2019-10-25
ES2769061T3 (es) 2020-06-24
RU2018115191A (ru) 2019-10-25
RU2712125C2 (ru) 2020-01-24
KR20180054823A (ko) 2018-05-24
EP3353783A1 (en) 2018-08-01
MX2018003529A (es) 2018-08-01
JP2018528480A (ja) 2018-09-27
CN108352166B (zh) 2022-10-28
KR102152004B1 (ko) 2020-10-27
US20180204580A1 (en) 2018-07-19
BR112018005910B1 (pt) 2023-10-10
CA2998689C (en) 2021-10-26
US10692510B2 (en) 2020-06-23
CA2998689A1 (en) 2017-03-30
WO2017050972A1 (en) 2017-03-30
CN108352166A (zh) 2018-07-31

Similar Documents

Publication Publication Date Title
JP6654237B2 (ja) 線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器および方法
KR101871644B1 (ko) 적응적 대역폭 확장 및 그것을 위한 장치
JP5978218B2 (ja) 低ビットレート低遅延の一般オーディオ信号の符号化
RU2662407C2 (ru) Кодер, декодер и способ кодирования и декодирования
JP6470857B2 (ja) 音声処理のための無声/有声判定
AU2013378793B2 (en) Systems and methods for mitigating potential frame instability
JP2013528836A (ja) 広帯域音声コーディングのためのシステム、方法、装置、およびコンピュータプログラム製品
KR20130133846A (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
JP7123134B2 (ja) デコーダにおけるノイズ減衰
CN104937662A (zh) 用于线性预测译码中的自适应共振峰锐化的系统、方法、设备和计算机可读媒体
RU2636126C2 (ru) Устройство для кодирования речевого сигнала с использованием acelp в автокорреляционной области
US9208775B2 (en) Systems and methods for determining pitch pulse period signal boundaries
US20150051905A1 (en) Adaptive High-Pass Post-Filter
US9336789B2 (en) Systems and methods for determining an interpolation factor set for synthesizing a speech signal
CN107710324B (zh) 音频编码器和用于对音频信号进行编码的方法
Moriya et al. Progress in LPC-based frequency-domain audio coding
Fischer et al. Joint Enhancement and Coding of Speech by Incorporating Wiener Filtering in a CELP Codec.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180417

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180417

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190305

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200129

R150 Certificate of patent or registration of utility model

Ref document number: 6654237

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250