JP6654237B2

JP6654237B2 - 線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器および方法

Info

Publication number: JP6654237B2
Application number: JP2018515646A
Authority: JP
Inventors: フィッシャー，ヨハネス; ベックストレム，トム; ヨキーネン，エンマ
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2015-09-25
Filing date: 2016-09-23
Publication date: 2020-02-26
Anticipated expiration: 2036-09-23
Also published as: BR112018005910A2; EP3353783B1; RU2018115191A3; ES2769061T3; RU2018115191A; RU2712125C2; KR20180054823A; EP3353783A1; MX2018003529A; JP2018528480A; CN108352166B; KR102152004B1; US20180204580A1; BR112018005910B1; CA2998689C; US10692510B2; CA2998689A1; WO2017050972A1; CN108352166A

Description

本発明は、線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器と、対応する方法と、符号器および復号器を含むシステムと、に関する。換言すれば、本発明は、結合型のスピーチ強化及び／又は符号化の手法に関し、例えばＣＥＬＰ（codebook excited linear predictive：符号励振線形予測）コーデックにおける合体による、結合型のスピーチ強化及び符号化に関する。

スピーチ及び通信の装置が広範に行き渡るようになり、悪条件下で使用される可能性が高まるにつれて、悪条件に対処し得るようなスピーチ強化方法への需要が高まってきた。その結果、例えばモバイルホンにおいて、スピーチ符号化などの全ての後続のスピーチ処理のための前処理ブロック／ステップとして、ノイズ減衰方法を使用することが今では普通に行われている。スピーチ強化をスピーチ符号器内へと組み込む手法は様々存在する（非特許文献１，２，３，４）。そのような設計は、伝送されるスピーチの品質を確かに向上させるが、カスケード処理に起因して、品質の一体的な知覚的最適化／最小化ができず、又は、量子化ノイズと干渉との一体的な最小化は少なくとも困難であった。

スピーチコーデックの目標は、最少量の伝送データを用いて高品質のスピーチを伝送できるようにすることである。この目標に到達するため、信号の効率的な表現が必要となる。例えば、線形予測によるスピーチ信号のスペクトル包絡と、長期予測器による基本周波数と、ノイズ符号帳を用いた残差（remainder）とのモデリングである。このような表現は、符号励振線形予測（ＣＥＬＰ）パラダイムを使用するスピーチコーデックの基礎であり、適応型マルチレート（ＡＭＲ）、ＡＭＲ−広帯域（ＡＭＲ−ＷＢ）、統合型スピーチ及びオーディオ符号化（ＵＳＡＣ）及び強化されたボイスサービス（ＥＶＳ）などの主要なスピーチ符号化標準において使用されている（非特許文献５，６，７，８，９，１０，１１）。

自然なスピーチ通信において、話者は手を使わないモードで装置を使用することが多い。そのようなシナリオでは、マイクロホンは通常口から離れた位置にあり、従って信号は反響または背景ノイズなどの干渉によって容易に歪みを受ける。そのような劣化は知覚されるスピーチ品質だけでなく、スピーチ信号の了解度にも影響を及ぼすので、会話の自然な流れの重大な障害となる。通信体験を向上させるためには、スピーチ強化方法を適用して、ノイズを減衰させ、反響の影響を低減することが有益である。スピーチ強化の分野は成熟しており、多くの方法が既に利用可能となっている（非特許文献１２）。しかしながら、現存するアルゴリズムの多くは、短時間フーリエ変換（ＳＴＦＴ）のような変換などのオーバーラップ加算法に基づくものであり、それはオーバーラップ加算に基づく窓掛けスキームを適用する。これとは対照的に、ＣＥＬＰコーデックは、線形予測器／線形予測フィルタを用いて信号をモデル化し、残差だけに対して窓掛けを適用する。そのような基本的な相違により、強化と符号化の方法を合体させることが困難となる。とはいえ、強化と符号化との一体的な最適化は、潜在的に品質を向上させ、遅延と演算量とを低減させることが明白である。

よって、改善された手法に対する必要性が生じる。

M. Jeub and P. Vary, "Enhancement of reverberant speech using the CELP postfilter," in Proc. ICASSP, April 2009, pp. 3993-3996. M. Jeub, C. Herglotz, C. Nelke, C. Beaugeant, and P. Vary, "Noise reduction for dual-microphone mobile phones exploiting power level differences," in Proc. ICASSP, March 2012, pp. 1693-1696. Martin, I. Wittke, and P. Jax, "Optimized estimation of spectral parameters for the coding of noisy speech," in Proc. ICASSP, vol. 3, 2000, pp. 1479-1482 vol.3. H. Taddei, C. Beaugeant, and M. de Meuleneire, "Noise reduction on speech codec parameters," in Proc. ICASSP, vol. 1, May 2004, pp. I-497-500 vol.1. 3GPP, "Mandatory speech CODEC speech processing functions; AMR speech Codec; General description," 3rd Generation Partnership Project (3GPP), TS 26.071, 12 2009. [Online]. Available: http://www.3gpp.org/ftp/Specs/html-info/26071.htm "Speech codec speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions," 3rd Generation Partnership Project (3GPP), TS 26.190, 12 2009. [Online]. Available: http://www.3gpp.org/ftp/Specs/html-info/26190.htm B. Bessette, R. Salami, R. Lefebvre, M. Jelinek, J. Rotola-Pukkila, J. Vainio, H. Mikkola, and K. Jarvinen, "The adaptive multirate wideband speech codec (AMR-WB)," IEEE Transactions on Speech and Audio Processing, vol. 10, no. 8, pp. 620-636, Nov 2002. ISO/IEC 23003-3:2012, "MPEG-D (MPEG audio technologies), Part 3: Unified speech and audio coding," 2012. M. Neuendorf, P. Gournay, M. Multrus, J. Lecomte, B. Bessette, R. Geiger, S. Bayer, G. Fuchs, J. Hilpert, N. Rettelbach, R. Salami, G. Schuller, R. Lefebvre, and B. Grill, "Unified speech and audio coding scheme for high quality at low bitrates," in Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference on, April 2009, pp. 1-4. 3GPP, "TS 26.445, EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification (Release 12)," 3rd Generation Partnership Project (3GPP), TS 26.445, 12 2014. [Online]. Available: http://www.3gpp.org/ftp/Specs/html-info/26445.htm M. Dietz, M. Multrus, V. Eksler, V. Malenovsky, E. Norvell, H. Pobloth, L. Miao, Z.Wang, L. Laaksonen, A. Vasilache, Y. Kamamoto, K. Kikuiri, S. Ragot, J. Faure, H. Ehara, V. Rajendran, V. Atti, H. Sung, E. Oh, H. Yuan, and C. Zhu, "Overview of the EVS codec architecture," in Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on, April 2015, pp. 5698-5702. J. Benesty, M. Sondhi, and Y. Huang, Springer Handbook of Speech Processing. Springer, 2008. T. Baeckstroem, "Computationally efficient objective function for algebraic codebook optimization in ACELP," in Proc. Interspeech, Aug. 2013. "Comparison of windowing in speech and audio coding," in Proc. WASPAA, New Paltz, USA, Oct. 2013. J. Fischer and T. Baeckstroem, "Comparison of windowing schemes for speech coding," in Proc EUSIPCO, 2015. M. Schroeder and B. Atal, "Code-excited linear prediction (CELP): High-quality speech at very low bit rates," in Proc. ICASSP. IEEE, 1985, pp. 937-940. T. Baeckstroem and C. R. Helmrich, "Decorrelated innovative codebooks for ACELP using factorization of autocorrelation matrix," in Proc. Interspeech, 2014, pp. 2794-2798. soundeffects.ch, "Civilisation soundscapes library," accessed: 23.09.2015. [Online]. Available: https://www.soundeffects.ch/de/geraeusch-archive/soundeffects.ch- produkte/civilisation-soundscapes-d.php Method for the subjective assessment of intermediate quality levels of coding systems, ITU-R Recommendation BS.1534, 2003. [Online]. Available: http://www.itu.int/rec/R-REC-BS.1534/en. P. P. Vaidyanathan, "The theory of linear prediction," in Synthesis Lectures on Signal Processing, vol. 2, pp. 1{184. Morgan & Claypool publishers, 2007. J. Allen, "Short-term spectral analysis, and modification by discrete Fourier transform," IEEE Trans. Acoust., Speech, Signal Process., vol. 25, pp. 235{238, 1977.

本発明の目的は、線形予測符号化を使用してオーディオ信号を処理する、改善された概念を提供することである。この目的は独立請求項の主題により解決される。

本発明の実施形態は、線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器を示す。その符号器は、オーディオ信号の背景ノイズを推定するよう構成された背景ノイズ推定部と、オーディオ信号の推定された背景ノイズをオーディオ信号から差し引くことによって背景ノイズ低減済みのオーディオ信号を生成するよう構成された背景ノイズ低減部と、オーディオ信号に対し線形予測分析を行って線形予測フィルタ（ＬＰＣ）係数の第１セットを取得し、背景ノイズ低減済みのオーディオ信号に対し線形予測分析を行って線形予測フィルタ（ＬＰＣ）係数の第２セットを取得するよう構成された予測部と、を含む。更に、符号器は、取得されたＬＰＣ係数の第１セットと取得されたＬＰＣ係数の第２セットとによって制御される時間ドメインフィルタのカスケードから構成される分析フィルタを含む。

本発明は、線形予測符号化の環境における改善された分析フィルタにより、符号器の信号処理特性が増強されるという知見に基づいている。より具体的には、直列接続された時間ドメインフィルタのカスケード又は連鎖を使用することは、それらフィルタが線形予測符号化の環境の分析フィルタに適用された場合には、入力オーディオ信号の処理速度または処理時間を改善することになる。これが有利である理由は、ノイズに支配された周波数帯域をフィルタリングすることにより背景ノイズを低減するために入来時間ドメインオーディオ信号に対して典型的に使用される、時間−周波数変換とその逆の周波数−時間変換とを省略できるからである。換言すれば、背景ノイズの低減または除去を分析フィルタの一部として実行することで、背景ノイズの低減が時間ドメインにおいて実行され得る。従って、時間／周波数／時間の変換のために使用され得る、例えばＭＤＣＴ／ＩＤＭＣＴ（［逆］修正離散コサイン変換）のオーバーラップ加算処理が省略される。背景ノイズ低減は単一フレームに対して実行され得ず、連続フレームに対してのみ実行され得るので、このようなオーバーラップ加算方法は、符号器のリアルタイム処理特性を制限してしまう。

換言すれば、上述の符号器は、背景ノイズ低減および従って分析フィルタの全体処理を単一オーディオフレームに対して実行することができ、それによりオーディオ信号のリアルタイム処理が可能になる。リアルタイム処理とは、参加しているユーザーにとって知覚可能な遅延無しにオーディオ信号を処理することを指す。知覚可能な遅延は、例えばテレビ会議においてオーディオ信号の処理の遅延に起因して一人のユーザーが他のユーザーの応答を待たねばならないときに発生し得る。この場合に許可される最大遅延は１秒未満であり、好ましくは０．７５秒未満であり、より好ましくは０．２５秒未満であり得る。注意すべきは、これらの処理時間は、送信者から受信者へのオーディオ信号の全体的な処理を指しているのであり、従って、符号器の信号処理に加えてオーディオ信号の伝送時間および対応する復号器内での信号処理をも含んでいる。

実施形態によれば、時間ドメインフィルタのカスケード、つまり分析フィルタは、取得されたＬＰＣ係数の第１セットを使用する２回の線形予測フィルタと、取得されたＬＰＣ係数の第２セットを使用する１回の他の線形予測フィルタの逆とを含む。この信号処理はウイナーフィルタリング（Wiener filtering）と称されてもよい。従って、換言すれば、時間ドメインフィルタのカスケードはウイナーフィルタを含み得る。

他の実施形態によれば、背景ノイズ推定部は、背景ノイズの自己相関（autocorrelation）をオーディオ信号の背景ノイズ表現として推定してもよい。更に、背景ノイズ低減部は、オーディオ信号の推定された自己相関から背景ノイズの自己相関を差し引くことにより、背景ノイズ低減済みオーディオ信号表現を生成してもよく、その場合、オーディオ信号の推定された自己相関はオーディオ信号表現であり、背景ノイズ低減済みオーディオ信号表現は、背景ノイズ低減済みのオーディオ信号の自己相関である。自己相関の推定を使用することは、ＬＰＣ係数を計算するために時間ドメインオーディオ信号を使用することの代わりとして機能し、背景ノイズ低減を行うことは、時間ドメインにおける完全な信号処理を可能にする。従って、オーディオ信号の自己相関と背景ノイズの自己相関とは、１つのオーディオフレーム又はそのオーディオフレームの一部分の畳み込みにより、又は畳み込み積分（convolution integral）を使用することにより、計算することができる。このように、背景ノイズの自己相関は１つのフレーム内又は１つのサブフレーム内においてでさえ実行されてもよく、そのフレーム又はサブフレームは、スピーチなどの前景オーディオ信号が（殆ど）何も存在しないようなフレーム又はフレームの一部分として定義され得る。更に、背景ノイズ低減済みオーディオ信号の自己相関は、背景ノイズの自己相関と（背景ノイズを含む）オーディオ信号の自己相関とを差し引くことで計算され得る。背景ノイズ低減済みオーディオ信号と（典型的には背景ノイズを有する）オーディオ信号との自己相関を使用することにより、背景ノイズ低減済みオーディオ信号とオーディオ信号とのためのＬＰＣ係数をそれぞれ計算することが可能となる。背景ノイズ低減済みオーディオ信号のＬＰＣ係数はＬＰＣ係数の第２セットと称されてもよく、他方、オーディオ信号のＬＰＣ係数はＬＰＣ係数の第１セットと称されてもよい。従って、オーディオ信号は時間ドメインにおいて完全に処理され得る。なぜなら、時間ドメインフィルタのカスケードの適用は、オーディオ信号に対するそれらのフィルタリングを時間ドメインで実行するからである。

添付図面を用いて実施形態を詳細に説明する前に、同一若しくは同等の機能を有する構成要素は、図中で同一の参照番号が付与されており、同一の参照番号が付与された構成要素の繰り返し説明が省略されていることを指摘しておく。従って、同一の参照番号を有する構成要素について記載された説明は相互に交換可能である。

以下に、本発明の実施形態について添付図面を参照しながら説明する。

オーディオ信号を符号化する符号器および復号器を含むシステムの概略ブロック図を示す。（ａ）カスケード型の強化・符号化のスキーム、（ｂ）ＣＥＬＰスピーチ符号化スキーム、及び（ｃ）本発明の結合型強化・符号化スキームの概略ブロック図を示す。異なる表記法を用いた、図２の実施形態の概略ブロック図を示す。本提案の結合型手法（Ｊ）及びカスケード型方法（Ｃ）について式２３で定義された知覚的大きさＳＮＲ（信号対ノイズ比）の概略線グラフを示し、ここで、入力信号が非定常な車両ノイズによって劣化しており、その結果が２つの異なるビットレート（下付き文字７で示された７．２ｋｂｉｔ／ｓ及び下付き文字１３で示された１３．２ｋｂｉｔ／ｓ）について表現されている。本提案の結合型手法（Ｊ）及びカスケード接続された方法（Ｃ）について式２３で定義された知覚的大きさＳＮＲの概略線グラフを示し、ここで、入力信号が定常な白色ノイズによって劣化しており、その結果が２つの異なるビットレート（下付き文字７で示された７．２ｋｂｉｔ／ｓ及び下付き文字１３で示された１３．２ｋｂｉｔ／ｓ）について表現されている。提案の結合型手法（ＪＥ）及びカスケード接続された強化（ＣＥ）に関し、２つの異なる干渉（白色ノイズ（Ｗ）及び車両ノイズ（Ｃ））についての異なる英語話者（女性（Ｆ）及び男性（Ｍ））に関するＭＵＳＨＲＡスコアを表す概略プロットを示し、ここで、全てのアイテムは２つの異なるビットレート（７．２ｋｂｉｔ／ｓ（７）と１３．２ｋｂｉｔ／ｓ（１３））で符号化されており、ＲＥＦは隠れ基準であり、ＬＰは３．５ｋＨｚのローパスアンカーを示し、Ｍｉｘは歪みを受けた混合を示す。２つの異なるビットレートに関してシミュレートされた異なるＭＵＳＨＲＡスコアのプロットを示し、新たな結合型強化（ＪＥ）とカスケード接続された手法（ＣＥ）との比較を示す。線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する方法の概略フローチャートを示す。

以下の説明において、本発明の実施形態をより詳細に説明する。各図の中で示され、同一又は類似の機能を有する構成要素には同じ参照符号が関連付けられている。

以下に、ウイナーフィルタリング（非特許文献１２）及びＣＥＬＰ符号化に基づく結合型の強化及び符号化の方法を説明する。このような融合は、（１）処理連鎖の中にウイナーフィルタリングを含むことで、ＣＥＬＰコーデックのアルゴリズム上の低い遅延を増大させない、（２）これと同時に、結合型の最適化は、量子化及び背景ノイズに起因する歪みを最小化するという利点がある。更に、結合型スキームの演算量はカスケード手法の１つよりも低い。その実施は、ＣＥＬＰ方式のコーデックにおける残差窓掛け(residual-windowing)についての最近の研究成果に基づいており（非特許文献１３，１４，１５）、その手法はＣＥＬＰコーデックのフィルタの中に新たな方法でウイナーフィルタリングを組み込むことを可能にする。この手法を使えば、カスケードシステムと比べて客観的品質および主観的品質の両方が改善されることを示し得る。

よって、スピーチの結合型強化および符号化のための本提案方法は、カスケード処理に起因するエラーの蓄積を防止し、更に知覚的な出力品質を向上させる。換言すれば、知覚ドメインにおける最適なウイナーフィルタリングにより干渉および量子化歪みの一体的な最小化が実現するので、本提案方法は、カスケード処理に起因するエラーの蓄積を防止する。

図１は、符号器４と復号器６とを含むシステム２の概略ブロック図を示す。符号器４は、線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号８’を符号化するよう構成されている。よって、符号器４は、オーディオ信号８’の背景ノイズ表現１２を推定するよう構成された推定部１０を含んでもよい。符号器は更に、オーディオ信号表現８からオーディオ信号８’の推定された背景ノイズ表現１２を差し引くことにより、背景ノイズ低減済みオーディオ信号表現１６を生成するよう構成された背景ノイズ低減部１４を含んでもよい。このように、背景ノイズ低減部１４は背景ノイズ推定部１０から背景ノイズ表現１２を受け取ってもよい。背景ノイズ低減部の更なる入力は、オーディオ信号８’又はオーディオ信号表現８であってもよい。任意選択的に、背景ノイズ低減部は、例えばオーディオ信号８’の自己相関８のようなオーディオ信号表現８を内部的に生成するよう構成された生成部を含んでもよい。

更に、符号器４は、オーディオ信号表現８に対し線形予測分析を行って線形予測フィルタ（ＬＰＣ）係数の第１セット２０ａを取得し、かつ背景ノイズ低減済みオーディオ信号表現１６に対し線形予測分析を行って線形予測フィルタ（ＬＰＣ）係数の第２セット２０ｂを取得するよう構成された、予測部１８を含んでもよい。背景ノイズ低減部１４と同様に、予測部１８は、オーディオ信号８’からオーディオ信号表現８を内部的に生成する生成部を含んでもよい。しかしながら、共通の又は中央の生成部１７を使用して、オーディオ信号８’の表現８を一度に計算し、例えばオーディオ信号８’の自己相関などのオーディオ信号表現を背景ノイズ低減部１４及び予測部１８へと提供することは有利であり得る。このように、予測部は、オーディオ信号表現８及び背景ノイズ低減済みオーディオ信号表現１６、例えばオーディオ信号の自己相関および背景ノイズ低減済みオーディオ信号の自己相関をそれぞれ受け取り、入来信号に基づいてＬＰＣ係数の第１セット及びＬＰＣ係数の第２セットをそれぞれ決定してもよい。

換言すれば、ＬＰＣ係数の第１セットはオーディオ信号表現８から決定されてもよく、ＬＰＣ係数の第２セットは背景ノイズ低減済みオーディオ信号表現１６から決定されてもよい。予測部は、それぞれの自己相関からＬＰＣ係数の第１セットおよび第２セットを計算するためにレビンソン・ダービン（Levinson Durbin）アルゴリズムを実行してもよい。

更に、符号器は、時間ドメインフィルタ２４ａ，２４ｂのカスケード２４からなる分析フィルタ２２を含み、その時間ドメインフィルタ２４ａ，２４ｂは取得されたＬＰＣ係数の第１セット２０ａと取得されたＬＰＣ係数の第２セット２０ｂとによって制御される。分析フィルタは、オーディオ信号８’に対して時間ドメインフィルタのカスケードを適用して残差信号２６を決定してもよく、その場合、第１の時間ドメインフィルタ２４ａのフィルタ係数はＬＰＣ係数の第１セットであり、第２の時間ドメインフィルタ２４ｂのフィルタ係数はＬＰＣ係数の第２セットである。残差信号は、ＬＰＣ係数の第１及び／又は第２セットを有する線形フィルタによって表現されない、オーディオ信号８’の信号成分を含んでもよい。

実施形態によれば、残差信号は、残差信号及び／又はＬＰＣ係数の第２セット２０ｂを伝送の前に量子化及び／又は符号化するよう構成された、量子化部２８へと提供されてもよい。量子化部は、例えば変換符号化励振（ＴＣＸ）、符号励振線形予測（ＣＥＬＰ）又は例えばエントロピー符号化などのロスレス符号化などを実行してもよい。

更なる実施形態によれば、残差信号の符号化は、量子化部２８における符号化の代替例として、トランスミッタ３０において実行されてもよい。このように、トランスミッタは、例えば変換符号化励振（ＴＣＸ）、符号励振線形予測（ＣＥＬＰ）又は例えばエントロピー符号化などのロスレス符号化を実行して、残差信号を符号化する。更に、トランスミッタは、ＬＰＣ係数の第２セットを伝送するよう構成されてもよい。任意選択的な受信機は復号器６である。このように、トランスミッタ３０は、残差信号２６又は量子化済み残差信号２６’を受信してもよい。一実施例によれば、少なくとも量子化済み残差信号が量子化部内で既に符号化されていない場合、トランスミッタは残差信号又は量子化済み残差信号を符号化してもよい。残差信号又は代替的に量子化済み残差信号を任意選択的に符号化した後、トランスミッタへと提供されたそれぞれの信号は、符号化済み残差信号３２又は符号化されかつ量子化された残差信号３２’として伝送される。更に、トランスミッタは、ＬＰＣ係数の第２セット２０ｂを受け取り、任意選択的に例えば残差信号を符号化するために使用されたのと同じ符号化方法を用いてそれを符号化して、その符号化されたＬＰＣ係数の第２セット２０ｂ’を、ＬＰＣ係数の第１セットを伝送せずに、例えば復号器６へと更に伝送してもよい。換言すれば、ＬＰＣ係数の第１セット２０ａは伝送される必要がない。

復号器６は、符号化済み残差信号３２又は代替的に符号化された量子化済み残差信号３２’と、この残差信号３２又は３２’の１つに加えて符号化されたＬＰＣ係数の第２セット２０ｂ’とを、更に受信してもよい。この復号器は受信信号を復号化して、その復号化済み残差信号２６を合成フィルタへと提供してもよい。合成フィルタは、ＬＰＣ係数の第２セットをフィルタ係数として持つ、線形予測ＦＩＲ（有限インパルス応答）フィルタの逆であってもよい。換言すれば、ＬＰＣ係数の第２セットを持つフィルタが復号器６の合成フィルタを形成するために逆転される。合成フィルタの出力であり、よって復号器の出力は、復号化済みオーディオ信号８”である。

実施形態によれば、背景ノイズ推定部は、オーディオ信号の背景ノイズの自己相関１２をオーディオ信号の背景ノイズ表現として推定してもよい。更に、背景ノイズ低減部は、オーディオ信号の自己相関８から背景ノイズの自己相関１２を差し引くことにより、背景ノイズ低減済みオーディオ信号表現１６を生成してもよく、その場合、オーディオ信号の推定自己相関８はオーディオ信号表現であり、また、背景ノイズ低減済みオーディオ信号表現１６は背景ノイズ低減済みオーディオ信号の自己相関である。

図２と図３とは、同じ実施形態に関するものであるが、異なる表記法を使用している。つまり、図２は、カスケード型および結合型の強化／符号化手法の説明であって、Ｗ_NとＷ_Cとはノイズの多い信号とクリーンな信号とのホワイトニングをそれぞれ表し、Ｗ_N ^-1とＷ_C ^-1とはそれらに対応する逆を表す。他方、図３は、カスケード型および結合型の強化／符号化手法の説明であって、Ａ_yとＡ_sとはノイズの多い信号とクリーンな信号とのホワイトニングフィルタをそれぞれ表し、Ｈ_yとＨ_sとは再構築（又は合成）フィルタであってそれらに対応する逆を表す。

図２ａと図３ａとは、カスケード型の強化および符号化を実行する信号処理連鎖の強化部分と符号化部分とを示す。強化部分３４は周波数ドメインで作動してもよく、ブロック３６ａ及び３６ｂは、例えばＭＤＣＴを使用する時間−周波数変換および例えばＩＭＤＣＴを使用する周波数−時間変換を実行してもよく、又は任意の他の適切な変換を使用して時間−周波数変換および周波数−時間変換を実行してもよい。フィルタ３８と４０とは、周波数変換されたオーディオ信号４２の背景ノイズ低減を実行してもよい。ここで、背景ノイズの周波数部分は、オーディオ信号８’の周波数スペクトルに対するそれらの影響力を低減することでフィルタリングされてもよい。よって、周波数−時間変換部３６ｂは、周波数ドメインから時間ドメインへの逆変換を実行してもよい。強化部分３４において背景ノイズ低減が実行された後で、符号化部分３５は低減された背景ノイズを有するオーディオ信号の符号化を実行してもよい。従って、分析フィルタ２２’は適切なＬＰＣ係数を用いて残差信号２６を計算する。残差信号は量子化されて合成フィルタ４４へと提供されてもよく、その合成フィルタは図２ａと図３ａの場合には分析フィルタ２２’の逆である。合成フィルタ４２は図２ａと図３ａの場合には分析フィルタ２２’の逆であるため、残差信号２６を決定するために使用されたＬＰＣ係数が復号器へと伝送されて、復号化済みオーディオ信号８”を決定する。

図２ｂと図３ｂとは、背景ノイズ低減が事前に実行されない符号化ステージ３５を示す。符号化ステージ３５は図２ａと図３ａとに関して既に説明したので、繰り返しを避けるため更なる説明を省略する。

図２ｃと図３ｃとは、結合型の強化・符号化の主要な概念に関係する。分析フィルタ２２が、フィルタＡ_yとＨ_sとを使用する時間ドメインフィルタのカスケードを含むことが示されている。より詳細には、時間ドメインフィルタのカスケードは、取得されたＬＰＣ係数の第１セット２０ａを使用する２回の線形予測フィルタ（Ａ_y ²）と、取得されたＬＰＣ係数の第２セット２０ｂを使用する１回の他の線形予測フィルタの逆（Ｈ_s）とを含む。フィルタのこの配列またはこのフィルタ構造は、ウイナーフィルタと呼んでもよい。しかしながら、１つの予測フィルタＨ_sが分析フィルタＡ_sを打ち消すことに注目すべきである。換言すれば、フィルタＡ_yを２回適用し（Ａ_y ²で表される）、フィルタＨ_sを２回適用し（Ｈ_s ²で表される）、フィルタＡ_sを１回適用してもよい。

図１に関して既に説明したように、これらフィルタのためのＬＰＣ係数は、例えば自己相関を使用して決定された。自己相関は時間ドメインで実行され得るので、結合型の強化および符号化を実施するために時間−周波数変換を実行する必要がない。更に、この手法が有利な理由は、量子化の更なる処理連鎖と合成フィルタリングの伝送とが、図２ａ及び図３ａに関して説明した符号化ステージ３５と同じであることである。しかし、背景ノイズ低減済み信号に基づくＬＰＣフィルタ係数が、適切な合成フィルタリングのために復号器に伝送されなければならないことに注意すべきである。しかしながら、別の実施形態によれば、ＬＰＣ係数を伝送する代わりに、ＬＰＣ係数を有する線形フィルタの更なる逆転を防止し、合成フィルタ４２を導出するために、フィルタ２４ｂの既に計算済みのフィルタ係数（フィルタ係数２０ｂの逆転により表現される）が伝送されてもよい。なぜなら、この逆転は符号器内で既に実行されていたからである。換言すれば、フィルタ係数２０ｂを伝送する代わりに、これら係数の逆行列が伝送され、それにより逆転を２回実行することを防止してもよい。更に、符号器側のフィルタ２４ｂと合成フィルタ４２とは、符号器と復号器とにおいてそれぞれ適用される同じフィルタであってもよい。

換言すれば、図２に関し、ＣＥＬＰモデルに基づくスピーチコーデックは、あるスピーチ生成モデルに基づいており、そのモデルは、入力スピーチ信号Ｓ_nの相関が係数

を有し、Ｍがモデル次数である線形予測フィルタによってモデル化され得ると仮定する（非特許文献１６）。残差

は、スピーチ信号の線形予測フィルタにより予測できない部分であるが、次にベクトル量子化を用いて量子化される。

が入力信号のベクトルであり、上付き文字Ｔが転置を表すとする。この場合、残差は次式で表される。

スピーチ信号ベクトルＳ_kの自己相関行列Ｒ_ssが次式で与えられると、

次数Ｍの予測フィルタの推定は次式で与えられる（非特許文献２０）。

ここで、

であり、スカラー予測誤差σ_e ²はα₀＝１となるように選択される。線形予測フィルタα_nがホワイトニングフィルタであることに着目すると、ｒ_kは無相関のホワイトノイズである。更に、オリジナル信号Ｓ_nは、予測器α_nを用いたＩＩＲフィルタリングを介して、残差ｒ_nから再構築され得る。次のステップは、知覚的歪みが最小化されるように、ベクトル量子化器を用いて、残差のベクトル

を

へ量子化することである。出力信号のベクトルが

であり、

がその量子化された同等物であり、Ｗが出力に知覚的重み付けを適用する畳み込み行列であるとする。その場合、知覚的最適化の問題は次式で表すことができる。

ここで、Ｈは予測器α_nのインパルス応答に対応する畳み込み行列である。

ＣＥＬＰ方式のスピーチ符号化の処理を図２ｂに示す。入力信号はまずフィルタ

を用いてホワイトニングされ、残差信号を得る。残差のベクトルは、次にブロックＱにおいて量子化される。最後に、スペクトル包絡構造がＩＩＲフィルタリングＡ^-1（ｚ）によって再構築され、量子化された出力信号

を得る。再合成された信号は知覚ドメインにおいて評価されるので、この手法は合成による分析の方法として知られている。

ウイナーフィルタリング
単一チャネルのスピーチ強化において、所望のクリーンなスピーチ信号Ｓ_nと何らかの所望でない干渉Ｖ_nとの加算的混合である信号ｙ_nが得られたと仮定すると、次式が成り立つ。

強化処理の目標はクリーンなスピーチ信号Ｓ_nを推定することであるが、他方、ノイズの多い信号ｙ_nと相関行列の推定とにのみアクセス可能である。即ち、

ここで、

である。フィルタ行列Ｈを使用すると、クリーンなスピーチ信号の推定

は次式により定義される。

ウイナーフィルタとして知られる、最小二乗平均誤差（ＭＭＳＥ）の意味における最適なフィルタは、非特許文献１２のように導出され得る。

通常、ウイナーフィルタリングは、入力信号のオーバーラップしている窓に対して適用され、オーバーラップ加算法（非特許文献２１、１２）を使用して再構築される。この手法は図２ａの強化ブロックの中で示される。しかし、その手法は、窓同士間のオーバーラップの長さに応じてアルゴリズム上の遅延を増大させてしまう。そのような遅延を回避するため、目的は、ウイナーフィルタリングを線形予測に基づく方法と合体させることである。

そのような関係を得るため、推定スピーチ信号

は式１へと代入され、次式が得られる。

ここで、γはスケーリング係数であり、

はノイズの多い信号ｙ_nの最適な予測子である。換言すれば、ノイズの多い信号をａ’でフィルタリングすることで、推定クリーン信号の（スケーリング済み）残差が得られる。スケーリングは、クリーンな信号とノイズの多い信号、つまり

のそれぞれの予想される残差誤差間の比、即ち

である。この導出は、ウイナーフィルタリングと線形予測とが密接に関係した方法であることを示しており、以下では、この関係が結合型の強化および符号化方法を発展させるために用いられるであろう。

ウイナーフィルタリングのＣＥＬＰコーデックへの合体
ここでの目的は、ウイナーフィルタリングとＣＥＬＰコーデック（３章および２章で説明した）とを１つの結合型アルゴリズムへと合体させることである。これらアルゴリズムを合体することで、ウイナーフィルタリングの通常の実施で必要とされるオーバーラップ加算窓掛けの遅延が回避され得、演算量が低減される。

結合型構造の実施は複雑ではない。強化されたスピーチ信号の残差は式９によって取得され得ると示される。よって、強化されたスピーチ信号は、クリーン信号の線形予測モデルα_nを用いて残差をＩＩＲフィルタリングすることにより、再構築され得る。

残差の量子化のために、クリーン信号ｓ_k'をその推定信号

で置き換えることにより、式４が修正され得る。その結果、次式が得られる。

換言すると、強化された目標信号

を用いる目的関数は、クリーンな入力信号ｓ’_kとのアクセスを有する場合と同じである。

結論として、標準ＣＥＬＰに対する修正は、クリーンな信号の分析フィルタａを、ノイズの多い信号の分析フィルタａ’と置き換えるだけである。ＣＥＬＰアルゴリズムの残りの部分は変更なしのままである。本提案の手法は図２（ｃ）に示される。

明白なことであるが、本提案方法は、ノイズ減衰が望まれる場合はいつでも、かつクリーンなスピーチ信号の自己相関Ｒ_ssの推定にアクセスを有する場合には、任意のＣＥＬＰコーデックにおいて、最小の変更で適用可能である。クリーンなスピーチ信号の自己相関の推定が利用不可の場合には、ノイズ信号の自己相関Ｒ_wの推定を使用して、次式

又は他の通常の推定により推測され得る。

本提案方法は、時間ドメインフィルタを使用してクリーン信号の推定を取得できる限り、ビーム形成を伴う多チャネルアルゴリズムなどのシナリオに対しても容易に拡張され得る。

本提案方法の演算量における利点は、以下のように特徴付けられる。従来の手法では、式８で与えられた行列フィルタＨを決定する必要があることに注意されたい。必要となる行列反転の複雑さは

である。しかし、提案手法では、ノイズの多い信号について式３だけが解ければよく、これはレビンソン・ダービン・アルゴリズム（又は同類）を用いて実施されることができ、その複雑さは

である。

符号励振線形予測
図３に関して言い換えると、ＣＥＬＰパラダイムに基づくスピーチコーデックはスピーチ生成モデルを利用しており、そのモデルでは以下のことを仮定している。即ち、相関、従って入力スピーチ信号Ｓ_nのスペクトル包絡は、係数

を有する線形予測フィルタによりモデル化され得ると仮定しており、ここで、Ｍは根底となるチューブモデル（非特許文献１６）により決定されるモデル次数である。線形予測フィルタ（予測子１８とも称される）によって予測できないスピーチ信号の部分である、残差

は、次にベクトル量子化を用いて量子化される。

入力信号ｓの１つのフレームのための線形予測フィルタａ_sは、次式の最小化によって取得され得る。

ここで、

である。その解は次式の通りである。

ａ_sのフィルタ係数αから成る畳み込み行列Ａ_sの以下の定義

を用いて、残差信号は入力スピーチフレームを畳み込み行列Ａ_sで乗算することにより取得され得る。

ここで、入力信号からゼロ入力応答を差し引き、それを再合成の中に再導入することにより（非特許文献１５）、窓掛けがＣＥＬＰコーデックと同様に実行される。

式１５の乗算は、予測フィルタを用いた入力信号の畳み込みと同じであり、従って、ＦＩＲフィルタリングと対応する。オリジナル信号は、次式のように再構築フィルタＨ_sを用いた乗算によって、残差から再構築され得る。

ここで、Ｈｓは予測フィルタのインパルス応答

から構成される。

結果として、この演算はＩＩＲフィルタリングに相当する。

残差ベクトルはベクトル量子化を適用して量子化される。従って、量子化されたベクトル

は、ノルム−２の意味において、知覚的距離を最小化するよう、所望の再構築クリーン信号へと選択される。

ここで、ｅ_sは量子化されていない残差であり、

は、ＡＭＲ−ＷＢスピーチコーデック（非特許文献６）で使用されているような知覚的重み付けフィルタである。

ＣＥＬＰコーデックにおけるウイナーフィルタリングの適用
単一チャネルのスピーチ強化の適用に関し、獲得されたマイクロホン信号ｙ_nが所望のクリーンなスピーチ信号Ｓ_nと何らかの所望でない干渉Ｖ_nとの加算的混合であると仮定すると、

となる。Ｚドメインにおいては、等価的に

が成り立つ。

ウイナーフィルタＢ（ｚ）を適用することで、フィルタリングによりノイズの多い観測Ｙ（ｚ）からスピーチ信号Ｓ（ｚ）を再構築することが可能になり、それにより推定スピーチ信号が次式のようになる。

ウイナーフィルタについての最小二乗平均解は非特許文献１２に記載の通りであり、

ここで、スピーチ信号Ｓ_n及びノイズ信号Ｖ_nは、それぞれ非相関であると仮定されている。

スピーチコーデックにおいて、ノイズの多い信号ｙ_nのパワースペクトルの推定が線形予測モデル

のインパルス応答の形態で利用可能である。換言すれば、

であり、ここで、γはスケーリング係数である。ノイズの多い線形予測子は、ノイズの多い信号の自己相関行列Ｒ_yyから通常どおり計算され得る。

更に、ノイズの多い線形予測子はクリーンなスピーチ信号

のパワースペクトルから、又は等価的にクリーンなスピーチ信号の自己相関行列Ｒ_ssから推定されてもよい。強化アルゴリズムは、ノイズ信号が定常であると仮定しており、よってＲ_vvで示すノイズ信号の自己相関は入力信号の非スピーチフレームから推定され得る。その場合、クリーンなスピーチ信号の自己相関行列Ｒ_ssは、

で推定され得る。ここで、

が正定値(positive definite)であることを確保するという通常の予防措置を講じておくことが有利である。

クリーンなスピーチの推定自己相関行列

を使用して、対応する線形予測子が決定され得る。ここで、Ｚドメインにおけるインパルス応答は

である。よって、

となり、式１９は次式のように表すことができる。

換言すれば、ＦＩＲモードとＩＩＲモードとのそれぞれにおいて、ノイズの多い信号とクリーン信号との予測子を用いて２回フィルタリングすることにより、クリーン信号のウイナー推定が取得され得る。

畳み込み行列は、Ａ_s及びＡ_yによる予測子

を用いたＦＩＲフィルタリングにそれぞれ対応すると言える。同様に、Ｈ_s及びＨ_yを予測フィルタリング（ＩＩＲ）に対応するそれぞれの畳み込み行列であると仮定する。これらの行列を使用することで、従来のＣＥＬＰ符号化は図３ｂで示すフロー図を用いて表すことができる。ここで、Ａ_sを用いて入力信号Ｓ_nをフィルタリングして残差を取得し、それを量子化し、Ｈ_sを用いたフィルタリングによって量子化済み信号を再構築することが可能である。

強化と符号化とを結合する従来の手法を図３ａに示す。ここでは、符号化の前の前処理ブロックとしてウイナーフィルタリングが適用される。

最後に、提案手法においては、ウイナーフィルタリングがＣＥＬＰ方式のスピーチコーデックと結合されている。図３ａのカスケード手法と図３ｂの結合型手法とを比較した場合、追加的なオーバーラップ加算（ＯＬＡ）の窓掛けスキームを省略できることが明らかである。更に、符号器における入力フィルタＡ_sはＨ_sを取り消す。従って、図３ｃに示すように、フィルタ結合

を用いて劣化した入力信号ｙをフィルタリングすることで、推定されたクリーン残差信号

が得られる。従って、誤差の最小化は次式となる。

このように、この手法はクリーンな推定と量子化済み信号との間の距離を一体的に最小化するので、知覚的ドメインにおける干渉と量子化ノイズとの一体的最小化が実行可能になる。

結合型のスピーチ符号化及び強化の手法の性能は、主観的手段と客観的手段との両方を用いて評価された。新たな方法の性能と切り離すため、単純なＣＥＬＰコーデックが使用され、そこでは残差信号だけが量子化されたが、長期予測（ＬＴＰ）の遅延とゲイン、線形予測符号化（ＬＰＣ）及びゲインファクタは量子化されなかった。残差はペア毎の反復方法を使用して量子化され、そこでは、非特許文献１７に記載されるように、２個のパルスが全ての位置に連続的に加えられた。更に、推定アルゴリズムの影響を避けるため、クリーンなスピーチ信号の相関行列Ｒ_ssは、全てのシミュレートされたシナリオにおいて既知であると仮定された。スピーチ及びノイズ信号が非相関であると仮定して、

が成り立つ。如何なる実用的なアプリケーションにおいても、ノイズ相関行列Ｒ_vv又は代替的にクリーンなスピーチの相関行列Ｒ_ssは、獲得されたマイクホン信号から推定されなければならない。一般的な手法は、干渉が定常であると仮定して、スピーチの切れ目におけるノイズ相関行列を推定することである。

評価されたシナリオは、所望のクリーンなスピーチ信号と追加的な干渉との混合から成っていた。２つのタイプの干渉が考慮された。即ち、定常な白色ノイズと、非特許文献１８の都市化音響風景ライブラリ(Civilisation Soundscape Library)からの車両ノイズの録音のセグメントと、である。残差のベクトル量子化は、ＡＭＲ−ＷＢコーデック（非特許文献６）の７．２ｋｂｉｔ／ｓ及び１３．２ｋｂｉｔ／ｓの全体ビットレートにそれぞれ対応する、２．８ｋｂｉｔ／ｓ及び７．２ｋｂｉｔ／ｓのビットレートを用いて実行された。１２．８ｋＨｚのサンプリングレートが全てのシミュレーションに使用された。

強化されかつ符号化された信号は、主観的手段および客観的手段の両方を用いて評価された。よって、式２３及び式２２に定義されるようにリスニングテストが行われ、知覚的な大きさの信号対ノイズ比（ＳＮＲ）が計算された。結合型の強化処理はフィルタの位相に対して影響を与えないので、この知覚的な大きさＳＮＲが使用された。合成フィルタ及び再構成フィルタは双方とも、予測フィルタの設計に起因して、最小位相フィルタの制限に拘束されているので、フィルタの位相に対して影響を与えない。

フーリエ変換を演算子

として定義すると、知覚的ドメインにおける再構築されたクリーン基準および推定クリーン信号の絶対値のスペクトル値は次式で示される。

修正された知覚的な信号対ノイズ比（ＰＳＮＲ）の定義は次式となる。

主観的評価のために、ＵＳＡＣの標準（非特許文献８）に使用されたテストセットからスピーチ項目、即ち、上述のように白色ノイズおよび車両ノイズによって汚損された項目が使用された。ＳＴＡＸ(登録商標)の静電型ヘッドホンを防音環境において使用し、１４人の被験者について、非特許文献１９の隠れ基準及びアンカー付き多刺激検法(Multiple Stimuli with Hidden Reference and Anchor:ＭＵＳＨＲＡ）のリスニングテストを行った。そのリスニングテストの結果を図６に示し、図７には平均および９５％の信頼区間(confidence intervals)を示す差分ＭＵＳＨＲＡスコアを表す。

図６の絶対値のＭＵＳＨＲＡテスト結果は、隠れ基準が常に正確に１００ポイントへと割り当てられたことを示す。オリジナルのノイズの多い混合は、各項目について最低の平均スコアを与えられたので、全ての強化方法が知覚的品質を向上させたことが分かる。低いビットレートについての平均スコアは、カスケード方式と比較して、全項目にわたる平均について６．４ＭＵＳＨＲＡポイントの統計的に有意な改善を示している。高いビットレートについては、全項目にわたる平均は改善が見られるが、しかし統計的に有意とは言えない。

結合型の方法と前強化の方法とのより詳細な比較を得るために、差分ＭＵＳＨＲＡスコアが図７に示されている。ここでは、前強化の方法と結合型の方法との間の差が各リスナーおよび項目について計算されている。差分結果は、低いビットレートについての統計的に有意な改善を示すことで、絶対値のＭＵＳＨＲＡスコアを証明しているが、他方、高いビットレートについての改善は統計的に有意でない。

換言すれば、結合型のスピーチ強化及び符号化のための方法が示され、その方法は全体的な干渉および量子化ノイズの最小化を可能にする。対照的に、従来の手法は、カスケード型の処理ステップにおいて強化および符号化を適用している。両方の処理ステップを一体化することは、繰り返しの窓掛け及びフィルタリング操作が省略できるため、演算量から見ても魅力的である。

ＣＥＬＰタイプのスピーチコーデックは、非常に低い遅延となるように設計されており、従って、処理窓が将来の処理窓とオーバーラップすることを回避している。対照的に、周波数ドメインで適用された従来の強化方法は、オーバーラップ加算窓に依存し、それがオーバーラップ長に応じた追加的な遅延を導入してしまう。結合型の手法は、オーバーラップ加算の窓掛けを必要とせず、スピーチコーデック（非特許文献１５）で適用されるような窓掛けスキームを使用し、よってアルゴリズム上の遅延の増大を回避している。

本提案方法に関して知られている課題は、信号位相が無傷で残る従来のスペクトル・ウイナーフィルタリングとは異なり、提案方法は、位相を修正する時間ドメインフィルタを適用するということである。そのような位相修正は、適切な全帯域通過フィルタの適用により容易に対処され得る。しかしながら、位相修正に起因する如何なる知覚的劣化も気づかれてこなかったので、そのような全帯域通過フィルタは演算量を低く保持するために省略された。しかしながら、客観的評価において、方法同士の公正な比較ができるように、知覚的大きさＳＮＲが測定されたことに注目されたい。この客観的手段は、本提案方法がカスケード処理よりも平均で３ｄＢ良好であることを示している。

提案方法の性能優位性は、ＭＵＳＨＲＡリスニングテストの結果によって更に確認され、そのテストは平均で６．４ポイントの改善を示している。これらの結果は、結合型の強化及び符号化の適用が、品質と演算量との両方において全体システムにとって有益である一方で、ＣＥＬＰスピーチコーデックの低いアルゴリズム上の遅延を維持していることを証明している。

図８は、線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する方法８００の概略ブロック図を示す。この方法８００は、オーディオ信号の背景ノイズ表現を推定するステップＳ８０２と、オーディオ信号表現からオーディオ信号の推定された背景ノイズ表現を差し引くことで、背景ノイズ低減済みオーディオ信号表現を生成するステップＳ８０４と、オーディオ信号表現に対し線形予測分析を行って線形予測フィルタ係数の第１セットを取得し、かつ背景ノイズ低減済みオーディオ信号表現に対し線形予測分析を行って線形予測フィルタ係数の第２セットを取得するステップＳ８０６と、取得されたＬＰＣ係数の第１セットと取得されたＬＰＣ係数の第２セットとによって時間ドメインフィルタのカスケードを制御して、オーディオ信号から残差信号を取得するステップＳ８０８と、を含む。

この明細書において、線上の信号は時には線の参照番号で呼ばれ、又は時には線に帰属する参照番号そのもので示されている。従って、この表記法では、ある信号を有する線が信号それ自体を示している。線は、回路接続された実装における物理的な線であり得る。しかし、コンピュータ実装においては物理的な線は存在せず、線によって表現された信号は、１つの計算モジュールから他の計算モジュールへと伝送される。

本発明はこれまでブロック図の文脈で説明されており、その中で各ブロックは実際の又は理論上のハードウエア要素を表していたが、本発明はコンピュータ実装された方法によってもまた実現され得る。後者の場合には、各ブロックは対応する方法ステップを表し、これらのステップは、対応する理論上または物理的なハードウエアのブロックによって実行される機能を表している。

これまで幾つかの態様を装置の文脈で示してきたが、これらの態様は対応する方法の説明をも表しており、１つのブロック又は装置が１つの方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。方法ステップの幾つか又は全ては、例えばマイクロプロセッサ、プログラム可能なコンピュータ又は電子回路など、ハードウエア装置により（ハードウエア装置を使用して）実行されてもよい。幾つかの実施形態において、最も重要な方法ステップの１つ以上が、そのような装置によって実行されてもよい。

本発明の、伝送され又は符号化された信号は、デジタル記憶媒体上に記憶されることができ、又は、例えばインターネットのような無線伝送媒体または有線伝送媒体などの伝送媒体上で伝送されることができる。

所定の実施要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて実施可能である。この実施は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する（又は協働可能な）、デジタル記憶媒体、例えばフレキシブルディスク，ＤＶＤ，ブルーレイ，ＣＤ，ＲＯＭ，ＰＲＯＭ，ＥＰＲＯＭ，ＥＥＰＲＯＭ，フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。従って、デジタル記憶媒体はコンピュータ読み取り可能であり得る。

本発明に従う幾つかの実施形態は、上述した方法の１つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有するデータキャリアを含む。

一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。

本発明の他の実施形態は、上述した方法の１つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。

換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

本発明の他の実施形態は、上述した方法の１つを実行するために記録されたコンピュータプログラムを含む、データキャリア（又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体などの非一時的記憶媒体）である。そのデータキャリア、デジタル記憶媒体又は記録された媒体は、典型的には有形及び／又は非一時的である。

本発明の他の実施形態は、上述した方法の１つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。

他の実施形態は、上述した方法の１つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。

他の実施形態は、上述した方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

本発明に係るさらなる実施形態は、上述した方法の１つを実行するためのコンピュータプログラムを受信器へ（例えば電子的又は光学的に）伝送するよう構成された装置又はシステムを含む。受信器は、例えばコンピュータ、モバイル装置、メモリ装置等であってもよい。この装置又はシステムは、例えばコンピュータプログラムを受信器へと送信するためのファイルサーバを含み得る。

幾つかの実施形態においては、（例えば書換え可能ゲートアレイのような）プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の１つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。

上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。

Claims

線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号（８'）を符号化する符号器（４）であって、
オーディオ信号（８'）の背景ノイズの自己相関（１２）を推定するよう構成された背景ノイズ推定部（１０）と、
オーディオ信号の自己相関（８）から前記オーディオ信号（８'）の推定された背景ノイズの自己相関（１２）を差し引くことによって、背景ノイズ低減済みオーディオ信号の自己相関（１６）を生成するよう構成された背景ノイズ低減部（１４）と、
前記オーディオ信号の自己相関（８）に対し線形予測分析を行って線形予測フィルタ（ＬＰＣ）係数の第１セット（２０ａ）を取得し、前記背景ノイズ低減済みオーディオ信号の自己相関（１６）に対し線形予測分析を行って線形予測フィルタ（ＬＰＣ）係数の第２セット（２０ｂ）を取得するよう構成された予測部（１８）と、
取得されたＬＰＣ係数の第１セット（２０ａ）と取得されたＬＰＣ係数の第２セット（２０ｂ）とによって制御される時間ドメインフィルタのカスケード（２４，２４ａ，２４ｂ）から構成され、前記オーディオ信号（８'）から残差信号（２６）を得る分析フィルタ（２２）と、
を含む符号器（４）。
前記時間ドメインフィルタのカスケード（２４）は、前記取得されたＬＰＣ係数の第１セット（２０ａ）を使用する２回の線形予測フィルタ（２４ａ）と、前記取得されたＬＰＣ係数の第２セット（２０ｂ）を使用する１回の他の線形予測フィルタの逆（２４ｂ）とを含む、請求項１に記載の符号器（４）。
前記時間ドメインフィルタのカスケード（２４）はウイナーフィルタである、請求項１又は２に記載の符号器（４）。
前記ＬＰＣ係数の第２セット（２０ｂ）を伝送するよう構成されたトランスミッタ（３０）をさらに含む、請求項１乃至３のいずれかに記載の符号器（４）。
前記残差信号（２６）を伝送するよう構成されたトランスミッタをさらに含む、請求項１乃至４のいずれかに記載の符号器（４）。
前記残差信号（２６）を伝送の前に量子化及び／又は符号化するよう構成された量子化部（２８）をさらに含む、請求項１乃至５のいずれかに記載の符号器（４）。
前記ＬＰＣ係数の第２セット（２０ｂ）を伝送の前に量子化及び／又は符号化するよう構成された量子化部（２８）をさらに含む、請求項１乃至６のいずれかに記載の符号器（４）。
前記量子化部は、符号励振線形予測（ＣＥＬＰ）、エントロピー符号化、又は変換符号化励振（ＴＣＸ）を使用するよう構成された、請求項６又は７に記載の符号器。
請求項１乃至８のいずれかに記載の符号器（４）と、
符号化されたオーディオ信号を復号化するよう構成された復号器（６）と、
を含むシステム（２）。
線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する方法（８００）であって、
オーディオ信号の背景ノイズの自己相関を推定するステップ（Ｓ８０２）と、
オーディオ信号の自己相関から前記オーディオ信号の推定された背景ノイズの自己相関を差し引くことによって、背景ノイズ低減済みオーディオ信号の自己相関を生成するステップ（Ｓ８０４）と、
前記オーディオ信号の自己相関に対し線形予測分析を行って線形予測フィルタ（ＬＰＣ）係数の第１セットを取得し、前記背景ノイズ低減済みオーディオ信号の自己相関に対し線形予測分析を行って線形予測フィルタ（ＬＰＣ）係数の第２セットを取得するステップ（Ｓ８０６）と、
取得されたＬＰＣ係数の第１セットと取得されたＬＰＣ係数の第２セットとによって時間ドメインフィルタのカスケードを制御して、前記オーディオ信号から残差信号を得るステップ（Ｓ８０８）と、
を含む方法。
請求項１０に記載の方法を実行するための、プログラムコードを有するコンピュータプログラム。