JP2016535873A - 適合的帯域幅拡張およびそのための装置 - Google Patents

適合的帯域幅拡張およびそのための装置 Download PDF

Info

Publication number
JP2016535873A
JP2016535873A JP2016541789A JP2016541789A JP2016535873A JP 2016535873 A JP2016535873 A JP 2016535873A JP 2016541789 A JP2016541789 A JP 2016541789A JP 2016541789 A JP2016541789 A JP 2016541789A JP 2016535873 A JP2016535873 A JP 2016535873A
Authority
JP
Japan
Prior art keywords
band
low
highband
subband
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016541789A
Other languages
English (en)
Other versions
JP6336086B2 (ja
Inventor
ヤン・ガオ
Original Assignee
ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ホアウェイ・テクノロジーズ・カンパニー・リミテッド filed Critical ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Publication of JP2016535873A publication Critical patent/JP2016535873A/ja
Application granted granted Critical
Publication of JP6336086B2 publication Critical patent/JP6336086B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Abstract

本発明の1実施形態では、符号化されたオーディオ・ビット・ストリームを復号化し周波帯域幅拡張を生成する方法が、当該オーディオ・ビット・ストリームを復号化して、復号化された低帯域オーディオ信号を生成し、低周波帯域に対応する低帯域励起スペクトルを生成するステップを含む。サブバンド領域が、当該復号化された低帯域オーディオ信号のスペクトル・エンベロープのエネルギ情報を示すパラメータを用いて、低周波帯域内部から選択される。高帯域励起スペクトルが、サブバンド励起スペクトルを選択されたサブバンド領域から高周波帯域に対応する高サブバンド領域にコピーすることによって、高周波帯域に対して生成される。当該生成された高帯域励起スペクトルを用いて、拡張された高帯域オーディオ信号が高帯域スペクトル・エンベロープを適用することによって生成される。拡張された高帯域オーディオ信号を復号化された低帯域オーディオ信号に追加して、拡張周波帯域幅を有するオーディオ出力信号を生成する。

Description

本願は、発明の名称を「帯域幅拡張のためのスペクトル・エネルギ・レベルに基づく帯域のシフトの適合的選択」とした2013年9月10日に出願された米国仮特許出願第61/875,690号の継続出願である、発明の名称を「適合的帯域幅拡張およびそのための装置」とした2014年9月5日に出願された米国特許出願第14/478,839号に対する優先権を主張し、その両方は、あたかもその全体を再現したかのように引用により本明細書に組み込まれる。
本発明は一般に、会話処理の分野に関し、特に適合的帯域幅拡張およびそのための装置に関する。
近年のオーディオ/会話デジタル信号通信システムでは、デジタル信号は符号器で圧縮され、圧縮された情報(ビットストリーム)をパケット化し、フレームごとに通信チャネルを介して復号器に送信することができる。符号器および復号器から成るシステムはコーデックと呼ばれる。会話/オーディオ圧縮を使用して、当該会話/オーディオ信号を表すビットの数を減らし、それにより、送信に必要なビット速度を減らしてもよい。会話/オーディオ圧縮技術を一般に時間領域符号化および周波数領域符号化に分類することができる。時間領域符号化は通常、低ビット速度で会話信号を符号化するかまたはオーディオ信号を符号化するために使用される。周波数領域符号化は通常、高ビット速度でオーディオ信号を符号化するかまたは会話信号を符号化するために使用される。帯域幅拡張(BWE)が、非常に低いビット速度または零ビット速度で高帯域信号を生成するための時間領域符号化または周波数領域符号化の一部であることができる。
しかし、会話符号器はロッシー符号器である。即ち、復号化された信号は元の信号とは異なる。したがって、会話符号化におけるゴールの1つは、所与のビット速度での歪み(または知覚可能な損失)を最小化するか、または、所与の歪みに達するビット速度を最小化することである。
会話符号化は、会話は他の大部分のオーディオ信号よりかなり単純な信号であり、会話の特性に関するかなり多くの統計的情報が利用可能であるという点で、他の形態のオーディオ符号化とは異なる。結果として、オーディオ符号化において関係する幾つかの聴覚情報は、会話符号化の状況では不要である可能性がある。会話符号化では、最も重要な基準は、限られた量の送信データで会話の明瞭性および「快適性」を保存することである。
会話の明瞭性には、実際の文字内容以外に、話者のアイデンティティ、感情、イントネーション、音色等も含まれ、これらは全て、完全な明瞭性に関して重要である。劣化した会話の快適性のより抽象的な概念は明瞭性とは異なる性質である。なぜなら、劣化した会話は完全に明瞭であるが、主観的には聴き手には耳障りである可能性があるからである。
会話波形の冗長性を、有声および無声の会話信号のような幾つかの異なるタイプの会話信号に関連して考慮してもよい。有声音、例えば「a」、「b」は本質的に声帯の振動に起因し、振動的である。したがって、短時間にわたって、それらは正弦曲線のような周期的な信号の和により良くモデル化される。換言すれば、有声の会話に対して、会話信号は本質的に周期的である。しかし、この周期性は会話セグメントの期間にわたって可変である可能性があり、当該周期的な波の形状は通常、セグメントからセグメントへと徐々に変化する。低ビット速度の会話符号化は、かかる周期性を利用することから大幅に恩恵を受けることができる。有声の会話期間はまたピッチとも呼ばれ、ピッチ予測はしばしば長期予測(LTP)と名付けられる。対照的に、「s」、「sh」のような無声音はより雑音風である。これは、無声の会話信号はランダムな雑音により似ており、より少量の予測可能性を有するからである。
伝統的には、時間領域符号化のような全てのパラメトリックな会話符号化方法では、会話信号に固有の冗長性を利用して、送信しなければならない情報の量を減らし、短区間での信号の会話標本のパラメータを推定する。この冗長性は主に、準周期的な割合での会話の波の形状の反復、および、遅く変化する会話信号のスペクトル・エンベロープから生ずる。
会話波形の冗長性を、有声および無声のような幾つかの異なるタイプの会話信号に関して考慮してもよい。会話信号は有声の会話に対して本質的に周期的であるが、この周期性は会話セグメントの期間にわたって可変であることがあり、当該周期的な波の形状は通常、セグメントからセグメントへと徐々に変化する。低ビット速度の会話符号化はかかる周期性を利用することから大幅に恩恵を受けることができる。有声の会話期間はピッチとも呼ばれ、ピッチ予測はしばしば長期予測(LTP)と名付けられる。無声の会話に関して、信号はランダムな雑音により似ており、より少量の予測可能性を有する。
何れのケースでも、パラメトリック符号化を使用して、会話信号の励起成分をスペクトル・エンベロープ成分から分離することにより会話セグメントの冗長性を減らしてもよい。遅く変化するスペクトル・エンベロープを、短期予測(STP)とも呼ばれる線形予測符号化(LPC)により表すことができる。低ビット速度の会話符号化は、かかる短期予測を利用することから大幅に恩恵を受けることもできる。当該符号化の利点は、パラメータが変化する遅い速度から生ずる。しかし、当該パラメータが数ミリ秒内に保持された値と大幅に異なるのは稀である。したがって、8kHz、12.8kHzまたは16kHzの標本化速度では、当該会話符号化アルゴリズムは、名目フレーム期間が10から30ミリ秒の範囲内にあるというものである。20ミリ秒のフレーム期間が最も一般的な選択肢である。
フィルタ・バンク技術に基づくオーディオ符号化は、例えば周波数領域符号化において広く利用されている。信号処理では、フィルタ・バンクは、それぞれが元の信号の単一の周波数サブバンドを保持する複数の成分に入力信号を分離するバンドパス・フィルタのアレイである。当該フィルタ・バンクにより実施される分解のプロセスは分析と呼ばれ、フィルタ・バンク分析の出力は、当該フィルタ・バンクに存在するフィルタと同じくらい多くのサブバンドを有するサブバンド信号と称される。再構築プロセスはフィルタ・バンク合成と呼ばれる。デジタル信号処理では、フィルタ・バンクという用語は一般に受信器のバンクにも適用される。違いは、受信器もサブバンドを、低速で再標本化できる低い中央周波数に下方変換するという点である。場合によっては、バンドパス・サブバンドをアンダーサンプリングすることで同じ結果を得ることができる。フィルタ・バンク分析の出力は複素係数の形でありうる。各複素係数は、それぞれフィルタ・バンクのサブバンドごとの余弦項と正弦項を表す、実要素と虚要素を含む。
G.723.1、G.729、G.718のようなより近年の周知な標準では、拡張フル・レート(EFR)、選択可能モード・ボコーダ(SMV)、適応マルチレート(AMR)、可変レート・マルチモード広帯域(VMR−WB)、または適応マルチレート広帯域(AMR−WB)、符号励起線形予測技術(「CELP」)が採用されている。CELPは一般に、符号化励起、長期予測および短期予測の技術的組合せとして理解されている。CELPは主に、具体的な人間の声の特性または人間のボーカル・ボイス生成モデルから利益を得ることによって会話信号を符号化するために使用される。CELP会話符号化は、会話圧縮領域における非常にポピュラーなアルゴリズム原理であるが、異なるコーデックに対するCELPの詳細は大幅に異なりうる。その人気のおかげで、CELPアルゴリズムは様々なITU−T、MPEG、3GPP、および3GPP2標準で使用されている。CELPの変形には、代数CELP、緩和CELP、低遅延CELPおよびベクトル和励起線形予測、およびその他が含まれる。CELPはアルゴリズムのクラスに対する汎用的な用語であり、特定のコーデックに対する汎用的な用語ではない。
CELPアルゴリズムは4つの主要なアイデアに基づく。第1に、線形予測(LP)を通じた会話生成のソース・フィルタ・モデルが使用される。会話生成のソース・フィルタ・モデルは、声帯、および線形音響フィルタ、声道(および放射特性)のような音源の組合せとして会話をモデル化する。会話生成のソース・フィルタ・モデルの実装では、音源、または励起信号はしばしば、有声の会話に関する周期的なインパルス列として、または、無声の会話に関する白雑音としてモデル化される。第2に、適合的かつ固定されたコードブックはLPモデルの入力(励起)として使用される。第3に、検索が「知覚的に重み付けされた領域」において閉ループで実施される。第4に、ベクトル量子化(VQ)が適用される。
本発明の1実施形態では、復号器で、符号化されたオーディオ・ビット・ストリームを復号化し周波帯域幅拡張を生成する方法を説明する。当該方法は、オーディオ・ビット・ストリームを復号化して、復号化された低帯域オーディオ信号を生成し、低周波帯域に対応する低帯域励起スペクトルを生成するステップを含む。サブバンド領域が、復号化された低帯域オーディオ信号のスペクトル・エンベロープのエネルギ情報を示すパラメータを用いて、当該低周波帯域内部から選択される。高帯域励起スペクトルが、サブバンド励起スペクトルを選択されたサブバンド領域から高周波帯域に対応する高サブバンド領域にコピーすることによって、高周波帯域に対して生成される。生成された高帯域励起スペクトルを用いて、拡張された高帯域オーディオ信号が高帯域スペクトル・エンベロープを適用することによって生成される。拡張された高帯域オーディオ信号を復号化された低帯域オーディオ信号に追加して、拡張周波帯域幅を有するオーディオ出力信号を生成する。
本発明の代替的な実施形態によれば、符号化されたオーディオ・ビット・ストリームを復号化し周波帯域幅を生成するための復号器が、当該オーディオ・ビット・ストリームを復号化して、復号化された低帯域オーディオ信号を生成し低周波帯域に対応する低帯域励起スペクトルを生成するように構成された低帯域復号化ユニットを備える。当該復号器はさらに、低帯域復号化ユニットに接続された帯域幅拡張ユニットを備える。帯域幅拡張ユニットは、サブバンド選択ユニットとコピー・ユニットを備える。サブバンド選択ユニットは、復号化された低帯域オーディオ信号のスペクトル・エンベロープのエネルギ情報を示すパラメータを用いて、サブバンド領域を低周波帯域内部から選択するように構成される。コピー・ユニットは、サブバンド励起スペクトルを選択されたサブバンド領域から高周波帯域に対応する高サブバンド領域にコピーすることによって、高周波帯域に対する高帯域励起スペクトルを生成するように構成される。
本発明の代替的な実施形態によれば、会話処理のための復号器が、プロセッサと当該プロセッサにより実行するためのプログラムを格納したコンピュータ可読記憶媒体とを備える。当該プログラムは、オーディオ・ビット・ストリームを復号化して、復号化された低帯域オーディオ信号を生成し低周波帯域に対応する低帯域励起スペクトルを生成するための命令を含む。当該プログラムは、復号化された低帯域オーディオ信号のスペクトル・エンベロープのエネルギ情報を示すパラメータを用いてサブバンド領域を低周波帯域内部から選択し、サブバンド励起スペクトルを選択されたサブバンド領域から高周波帯域に対応する高サブバンド領域にコピーすることによって、高周波帯域に対する高帯域励起スペクトルを生成するための命令を含む。当該プログラムはさらに、生成された高帯域励起スペクトルを使用して、高帯域スペクトル・エンベロープを適用することによって拡張された高帯域オーディオ信号を生成し、拡張された高帯域オーディオ信号を復号化された低帯域オーディオ信号に追加して、拡張周波帯域幅を有するオーディオ出力信号を生成するための命令を含む。
本発明の代替的な実施形態では、復号器で、符号化されたオーディオ・ビット・ストリームを復号化し周波帯域幅拡張を生成する方法を説明する。当該方法は、当該オーディオ・ビット・ストリームを復号化して、復号化された低帯域オーディオ信号を生成し、低周波帯域に対応する低帯域スペクトルを生成するステップと、復号化された低帯域オーディオ信号のスペクトル・エンベロープのエネルギ情報を示すパラメータを用いてサブバンド領域を低周波帯域内部から選択するステップとを含む。当該方法はさらに、サブバンド・スペクトルを選択されたサブバンド領域から高サブバンド領域にコピーすることによって、高帯域スペクトルを生成するステップと、生成された高帯域スペクトルを使用して、高帯域スペクトル・エンベロープ・エネルギを適用することによって、拡張された高帯域オーディオ信号を生成するステップとを含む。当該方法はさらに、拡張された高帯域オーディオ信号を復号化された低帯域オーディオ信号に追加して、拡張周波帯域幅を有するオーディオ出力信号を生成するステップを含む。
本発明およびその利点をより完全に理解するために、下記の説明を添付図面と関連して参照する。
従来のCELP符号器を用いた元の会話の符号化中に実施される動作の図である。 下記でさらに説明する本発明の諸実施形態を実装する際にCELP復号器を用いた元の会話の復号化中に実施される動作を示す図である。 従来のCELP符号器における元の会話の符号化中に実施される動作を示す図である。 下記で説明する本発明の諸実施形態を実装する際の図5における符号器に対応する基本CELP復号器を示す図である。 帯域幅拡張(BWE)を有する符号化/復号化の1例を示し、BWE側情報を有する符号器での動作を示す図である。 帯域幅拡張(BWE)を有する符号化/復号化の1例を示し、BWEを有する復号器での動作を示す図である。 送信側情報のないBWEを有する符号化/復号化の別の例を示し、符号器にある間の動作を示す図である。 送信側情報のないBWEを有する符号化/復号化の別の例を示し、復号器での動作を示す図である。 CELPタイプのコーデックが使用されるときの有声の会話または和声音楽に対する理想的な励起スペクトルの1例を示す図である。 CELPタイプのコーデックが使用されるときの有声の会話または和声音楽に対する復号化された励起スペクトルの従来の帯域幅拡張の1例を示す図である。 CELPタイプのコーデックが使用されるときの有声の会話または和声音楽に対する復号化された励起スペクトルに適用される帯域幅拡張の本発明の1実施形態の1例を示す図である。 BWEに対するサブバンドのシフトまたはコピーを実装するための本発明の諸実施形態に従う復号器での動作を示す図である。 BWEに対するサブバンドのシフトまたはコピーを実装するための復号器の代替的な実施形態を示す図である。 本発明の諸実施形態に従う復号器で実施される動作を示す図である。 本発明の諸実施形態に従う帯域幅拡張を実装する復号器を示す図である。 本発明の諸実施形態に従う帯域幅拡張を実装する復号器を示す図である。 本発明の1実施形態に従う通信システムを示す図である。 本明細書で開示した装置と方法を実装するために使用できる処理システムのブロック図である。
近年のオーディオ/会話デジタル信号通信システムでは、デジタル信号は符号器で圧縮され、圧縮された情報またはビットストリームを、パケット化し、フレームごとに通信チャネルを介して復号器に送信することができる。復号器は、圧縮された情報を受信し復号化して、オーディオ/会話デジタル信号を取得する。
本発明は一般に、会話/オーディオ信号符号化および会話/オーディオ信号帯域幅拡張に関する。特に、本発明の諸実施形態を使用して、帯域幅拡張の分野におけるITU−T AMR−WB会話符号器の標準を改善することができる。
幾つかの周波数は、他の周波数に対して、より重要である。当該重要な周波数を高解像度で符号化することができる。これらの周波数における小さな違いは重大であり、これらの差異を保存する符号化方式が必要である。他方、あまり重要でない周波数は正確である必要はない。より細かい細部の一部が符号化で失われたとしても、より粗い符号化方式を使用することができる。典型的なより粗い符号化方式は帯域幅拡張(BWE)の概念に基づく。当該技術の概念はまた、高帯域拡張(HBE)、サブバンド複製(SBR)またはスペクトル帯域複製(SBR)と呼ばれる。名前は異なりうるが、それらはすべて、予算が殆どないビット速度(予算がないビット速度)または通常の符号化/復号化アプローチより大幅に低いビット速度で幾つかの周波数サブバンド(通常、高帯域)を符号化/復号化するという同様な意味を有する。
SBR技術では、高周波帯域におけるスペクトル微細構造は低周波帯域からコピーされ、幾つかのランダムな雑音が追加されうる。次いで、高周波帯域におけるスペクトル・エンベロープが、符号器から復号器に送信されるサイド情報を用いることによって整形される。低帯域から高帯域への周波帯域のシフトまたはコピーは通常、BWE技術に関する最初のステップである。
スペクトル・エンベロープのエネルギ・レベルに基づいて、適合的プロセスを用いてシフト帯域を選択することによりBWE技術を改善するための本発明の諸実施形態を説明する。
図1は従来のCELP符号器を用いた元の会話の符号化中に実施される動作を示す。
図1は、合成された会話102および元の会話101の間の重み付けされた誤差109がしばしば合成による分析のアプローチを用いて最小化される従来の初期CELP符号器を示す。これは、符号化(分析)が、閉ループにおいて復号化された(合成)信号を知覚的に最適化することで実施されることを意味する。
全ての会話符号器が利用する基本原理は、会話信号が強く相関する波形であるという事実である。1例として、以下の式(11)のように、自己回帰(AR)モデルを用いて会話を表すことができる。
Figure 2016535873
式(11)では、各標本は、過去のL個の標本に白雑音を加えたものの線形な組合せとして表される。重み付け係数a1,,...,aは線形予測係数(LPC)と呼ばれる。フレームごとに、重み付け係数a、a,...,aは、上述のモデルを用いて生成された{X、X,...,X}のスペクトルが入力会話フレームのスペクトルと密接にマッチするように選択される。
代替的に、会話信号を、倍音モデルおよび雑音モデルの組合せで表現してもよい。当該モデルの倍音部は実際には信号の周期的な成分のフーリエ級数表現である。
一般に、有声信号について、会話の倍音に雑音を加えたモデルは倍音および雑音の両方の混合から構成される。有声の会話における倍音と雑音の割合は、話者の特性(例えば、どの範囲まで話者の声が通常または気息音であるか)、会話セグメントの特性(例えば、どの範囲まで会話セグメントが周期的であるか)を含むいくつかの因子と周波数に依存する。有声の会話の周波数が高いと、雑音状成分の比率が高い。
線形予測モデルおよび倍音雑音モデルは、会話信号のモデル化と符号化のための2つの主要な方法である。線形予測モデルは会話のスペクトル・エンベロープをモデル化するのに特に良好である一方、倍音雑音モデルは会話の微細構造をモデル化するのに良い。当該2つの方法を組み合わせて、その相対的な強度を利用してもよい。
前述のように、CELP符号化の前に、ハンドセットのマイクロフォンへの入力信号がフィルタされ、例えば毎秒8000標本の速度で標本化される。各標本は次いで、例えば標本ごとに13ビットで量子化される。標本化された会話は、20ミリ秒のセグメントまたはフレーム(例えば、この場合160個の標本)にセグメント化される。
会話信号が分析され、そのLPモデル、励起信号およびピッチが抽出される。LPモデルは会話のスペクトル・エンベロープを表す。当該スペクトル・エンベロープは1組の線スペクトル周波数(LSF)係数に変換される。当該係数は、線形予測パラメータの代替的な表現である。なぜならば、LSF係数は良好な量子化特性を有するからである。LSF係数を、スカラ量子化することができ、または、より効率的に、過去にトレーニングされたLSFベクトル・コードブックを用いてベクトル量子化することができる。
符号化励起は符号ベクトルを含むコードブックを含む。当該符号ベクトルは、各符号ベクトルがほぼ「白」のスペクトルを有しうるように全てが独立に選択された成分を有する。入力会話のサブフレームごとに、符号ベクトルの各々は短期線形予測フィルタ103と長期予測フィルタ105を通じてフィルタされ、その出力が会話標本と比較される。各サブフレームで、当該サブフレームを表すために、その出力が最良に入力会話とマッチする(最小化された誤差)符号ベクトルを選択する。
符号化励起108は通常、パルス状信号または雑音状信号を含み、これらは数学的に構築されまたはコードブックに保存される。当該コードブックは、符号器および受信側の復号器の両方に利用可能である。符号化励起108は、確率論的なまたは固定のコードブックであってもよく、(暗黙的にまたは明示的に)コーデックにハードコーディングされたベクトル量子化辞書であってもよい。かかる固定のコードブックは、代数符号励起線形予測であってもよく、または、明示的に格納されてもよい。
コードブックからの符号ベクトルを適切なゲインにより拡大して、エネルギを入力会話のエネルギに等しいようにする。したがって、符号化励起108の出力は線形フィルタを通る前にゲインG107により拡大される。
短期線形予測フィルタ103は、入力会話のスペクトルに似るように符号ベクトルの「白」スペクトルを整形する。それと等価に、時間領域では、短期線形予測フィルタ103が、短期の相関関係(過去の標本との相関関係)を白のシーケンスに導入する。当該励起を整形するフィルタは1/A(z)(短期線形予測フィルタ103)の形式の全極モデルを有する。A(z)は予測フィルタと呼ばれ、線形予測(例えば、レビンソン・ダービン・アルゴリズム)を用いて取得してもよい。1つまたは複数の実施形態では、全極フィルタを使用してもよい。なぜならば、当該フィルタは、人間の声道の良好な表現であり、計算が容易であるからである。
短期線形予測フィルタ103は、元の信号101を分析することよって得られ、1組の係数によって表される。即ち、
Figure 2016535873
前述のように、有声の会話の領域は長期周期性を示す。当該期間は、ピッチとしても知られ、ピッチフィルタ1/(B(z))により合成されたスペクトルに導入される。長期予測フィルタ105の出力はピッチおよびピッチ・ゲインに依存する。1つまたは複数の実施形態では、ピッチを元の信号、残差信号、または重み付けされた元の信号から推定してもよい。1実施形態では、長期予測関数(B(z))を以下のように式(13)を用いて表してもよい。
Figure 2016535873
重み付けフィルタ110は上の短期予測フィルタに関連する。典型的な重み付けフィルタの1つを式(14)で説明するように表してもよい。
Figure 2016535873
ここで、
Figure 2016535873
である。
別の実施形態では、重み付けフィルタW(z)を、以下の式(15)において、1実施形態で示したように帯域幅拡張を利用することでLPCフィルタから導出してもよい。
Figure 2016535873
式(15)ではγ1>γ2である。これらは、極が原点に向かって移動する際の因子である。
したがって、会話のフレームごとに、LPCとピッチが計算され、フィルタが更新される。会話のサブフレームごとに、「最良の」フィルタされた出力を生成する符号ベクトルが当該サブフレームを表すように選択される。正確な復号化のために、対応するゲインの量子化値を復号器に送信しなければならない。LPCおよびピッチ値も、復号器でフィルタを再構築するためにフレームごとに量子化し送信しなければならない。したがって、符号化励起インデックス、量子化ゲイン・インデックス、量子化長期予測パラメータ・インデックス、および量子化短期予測パラメータ・インデックスが復号器に送信される。
図2は、下記で説明する本発明の諸実施形態を実装する際にCELP復号器を用いた元の会話の復号化中に実施される動作を示す。
会話信号は、受信された符号ベクトルを対応するフィルタに通すことによって復号器で再構築される。その結果、後処理を除くすべてのブロックは、図1の符号器で説明したのと同じ定義を有する。
符号化されたCELPビットストリームが受信装置で受信されアンパックされる(80)。受信したサブフレームごとに、受信された符号化励起インデックス、量子化ゲイン・インデックス、量子化長期予測パラメータ・インデックス、および量子化短期予測パラメータ・インデックスを使用して、対応する復号器、例えば、ゲイン復号器81、長期予測復号器82、および短期予測復号器83を用いて対応するパラメータを発見する。例えば、符号化励起402の励起パルスおよび代数符号ベクトルの位置および振幅のサインを、受信された符号化励起インデックスから決定してもよい。
図2を参照すると、復号器は、符号化励起201、長期予測203、短期予測205を含む幾つかのブロックの組合せである。初期復号器はさらに、合成された会話206の後の後処理ブロック207を含む。当該後処理がさらに短期後処理と長期後処理を含んでもよい。
図3は従来のCELP符号器を示す。
図3は、長期線形予測を改善するための追加の適応コードブックを用いた基本CELP符号器を示す。励起は、適応コードブック307および符号化励起308からの寄与を合計することで生成される。符号化励起308は、前述のように確率論的なまたは固定のコードブックであってもよい。適応コードブック内のエントリは、遅延された版の励起を含む。これは、実際には有声音のような周期的な信号を符号化することを可能とする。
図3を参照すると、適応コードブック307は、過去の合成された励起304、または、ピッチ期間で反復する過去の励起ピッチ・サイクルを含む。ピッチ・ラグは、それが大きいかまたは長いときは、整数値で符号化してもよい。ピッチ・ラグは、それが小さいかまたは短いときは、しばしば、より正確な分数値で符号化される。ピッチの周期的な情報を使用して、励起の適合的成分を生成する。当該励起成分は次いでゲインG305(ピッチ・ゲインとも呼ばれる)により拡大される。
有声の会話は強い周期性を有するので、長期予測は有声の会話符号化に非常に重要な役割を果たす。有声の会話の隣接するピッチ・サイクルは互いに類似し、これは、数学的には、後続の励起表現におけるピッチ・ゲインGが高いかまたは1に近いことを意味する。結果の励起を個々の励起の組合せとして式(16)で表してもよい。
Figure 2016535873
ここで、e(n)はnでインデックス化した標本列の1つのサブフレームであり、フィードバック・ループ(図3)を通る過去の励起304を含む適応コードブック307から来る。低周波数領域はしばしば高周波数領域よりも周期的であるかまたはより調和的であるので、e(n)を適合的にローパス・フィルタしてもよい。e(n)は、現在の励起寄与である符号化励起コードブック308(固定コードブックとも呼ばれる)からのものである。さらに、e(n)を、例えば、ハイパス・フィルタリング拡張、ピッチ拡張、分散拡張、フォルマント拡張、およびその他を用いることによって拡張してもよい。
有声の会話に対して、適応コードブック307からのe(n)の寄与が支配的であることがあり、ピッチ・ゲインG305はおおよそ1の値である。励起は通常、サブフレームごとに更新される。典型的なフレーム・サイズは20ミリ秒であり、典型的なサブフレーム・サイズは5ミリ秒である。
図1で説明したように、固定符号化励起308は、線形フィルタを通る前にゲインG306により拡大される。固定符号化励起108および適応コードブック307からの2つの拡大された励起成分は、短期線形予測フィルタ303を通じてフィルタされる前に加算される。2つのゲイン(GおよびG)が量子化され、復号器に送信される。したがって、符号化励起インデックス、適応コードブック・インデックス、量子化ゲイン・インデックス、および量子化短期予測パラメータ・インデックスは、受信オーディオ装置に送信される。
図3に示した装置を用いて符号化されたCELPビットストリームは受信装置で受信される。図4は、当該受信装置の対応する復号器を示す。
図4は、図5における符号器に対応する基本CELP復号器を示す。図4は、合成された会話407を主要な復号器から受信する後処理ブロック408を含む。この復号器は、適応コードブック307を除いて、図3と同様である。
受信したサブフレームごとに、受信された符号化励起インデックス、量子化符号化励起ゲイン・インデックス、量子化ピッチ・インデックス、量子化適応コードブック・ゲイン・インデックス、および量子化短期予測パラメータ・インデックスを使用して、対応する復号器、例えば、ゲイン復号器81、ピッチ復号器84、適応コードブック・ゲイン復号器85、および短期予測復号器83を用いて対応するパラメータを発見する。
様々な実施形態では、CELP復号器は幾つかのブロックの組合せであり、符号化励起402、適応コードブック401、短期予測406、および後処理408を含む。後処理を除く全てのブロックは、図3の符号器で説明したのと同じ定義を有する。当該後処理がさらに短期の後処理と長期の後処理を含んでもよい。
既述のように、CELPを主に使用して、特定の人間の声の特性または人間のボーカル・ボイス生成モデルから利益を得ることによって、会話信号を符号化する。会話信号をより効率的に符号化するために、会話信号を様々なクラスに分類してもよく、各クラスは様々に符号化される。有声/無声の分類または無声の判定が重要であってもよく、様々なクラスの分類全てのうち基本的な分類であってもよい。クラスごとに、LPCまたはSTPフィルタが常に、スペクトル・エンベロープを表すために使用される。しかし、LPCフィルタへの励起が異なってもよい。無声信号を雑音状励起で符号化してもよい。他方、有声信号をパルス状励起で符号化してもよい。
符号化励起ブロック(図3ではラベル308で、図4では402で参照)は、一般的なCELP符号化に対する固定コードブック(FCB)の位置を示す。FCBからの選択された符号ベクトルは、しばしばG306として示されるゲインにより拡大される。
図5Aおよび5Bは、帯域幅拡張(BWE)を有する符号化/復号化の1例を示す。図5AはBWE側情報を有する符号器での動作を示し、図5BはBWEを有する復号器での動作を示す。
低帯域信号501は低帯域パラメータ502を用いて符号化される。低帯域パラメータ502が量子化され、生成された量子化インデックスを、ビットストリーム・チャネル503を通じて送信してもよい。オーディオ/会話信号504から抽出した高帯域信号は、高帯域側パラメータ505を用いて少量のビットにより符号化される。量子化された高帯域側パラメータ(サイド情報インデックス)はビットストリーム・チャネル506を通じて送信される。
図5Bを参照すると、復号器で、低帯域ビットストリーム507を使用して、復号化された低帯域信号508を生成する。高帯域側ビットストリーム510を使用して高帯域側パラメータ511を復号化する。高帯域信号512は、高帯域側パラメータ511からの支援により低帯域信号508から生成される。最終的なオーディオ/会話信号509は、低帯域信号508と高帯域信号512を結合することによって生成される。
図6Aおよび6Bは、送信側情報のないBWEを有する符号化/復号化の別の例を示す。図6Aは符号器にある間の動作を示し、図6Bは復号器での動作を示す。
図6Aを参照すると、低帯域信号601が低帯域パラメータ602を用いて符号化される。低帯域パラメータ602を量子化して量子化インデックスを生成する。当該量子化インデックスを、ビットストリーム・チャネル603を通じて送信してもよい。
図6Bを参照すると、復号器で、低帯域ビットストリーム604を使用して、復号化された低帯域信号605を生成する。高帯域信号607は、送信側情報からの支援なしに低帯域信号605から生成される。最終的なオーディオ/会話信号606を、低帯域信号605と高帯域信号607を結合することによって生成する。
図7は、CELPタイプのコーデックが使用されるときの有声の会話または和声音楽に対する理想的な励起スペクトルの1例を示す。
LPCスペクトル・エンベロープ704を除去した後は、理想的な励起スペクトル702は殆ど平坦である。理想的な低帯域励起スペクトル701を低帯域励起符号化に対する参照として使用してもよい。理想的な高帯域励起スペクトル703は復号器では利用可能でない。理論的には、理想的なまたは非量子化の高帯域励起スペクトルは、低帯域励起スペクトルとほぼ同じエネルギ・レベルを有しうる。
実際には、合成されたまたは復号化された励起スペクトルは、図7に示した理想的な励起スペクトルほどは良好に見えない。
図8は、CELPタイプのコーデックが使用されるときの有声の会話または和声音楽に対する復号化励起スペクトルの1例を示す。
LPCスペクトル・エンベロープ804を除去した後は、復号化された励起スペクトル802はほぼ平坦である。復号化された低帯域励起スペクトル801が復号器で利用可能である。復号化された低帯域励起スペクトル801の品質は、エンベロープ・エネルギが低い領域で特に、より悪化するかまたはより歪められる。これは幾つかの理由に起因して生ずる。例えば、2つの主な理由は、閉ループCELP符号化では低エネルギ領域より高エネルギ領域をより強調すること、および、高周波数信号の高速な変化のため、低周波数信号に対する波形マッチングが高周波数信号より簡単であることである。AMR−WBのような低ビット速度のCELP符号化に対して、高帯域は通常符号化されないが、BWE技術により復号器で生成される。この場合、高帯域励起スペクトル803を単純に低帯域励起スペクトル801からコピーしてもよく、高帯域スペクトル・エネルギ・エンベロープを低帯域スペクトル・エネルギ・エンベロープから予測または推定してもよい。伝統的な方法に従うと、6400Hzの後の生成された高帯域励起スペクトル803は6400Hzの直前にサブバンドからコピーされる。これは、スペクトル品質が0Hzから6400Hzに等しい場合は、良好であるかもしれない。しかし、低ビット速度のCELPコーデックに対して、スペクトル品質は0Hzから6400Hzまで大幅に変化しうる。6400Hzの直前の低周波帯域の末端領域からコピーされたサブバンドの品質は低いかもしれず、これは次いで、6400Hzから8000Hzの高帯域領域に余分な雑音をもたらす。
拡張された高周波帯域の帯域幅は通常、符号化された低周波帯域の帯域幅よりかなり狭い。したがって、様々な実施形態では、低帯域から最良のサブバンドが選択され高帯域領域にコピーされる。
高品質のサブバンドはおそらく、低周波帯域全体内部の任意に位置に存在する。高品質のサブバンドの最も可能な位置は、高スペクトル・エネルギ領域、即ち、スペクトル・フォルマント領域に対応する領域内にある。
図9は、CELPタイプのコーデックが使用されるときの有声の会話または和声音楽に対する復号化された励起スペクトルの1例を示す。
復号化された励起スペクトル902は、LPCスペクトル・エンベロープ904を除去した後はほぼ平坦である。復号化された低帯域励起スペクトル901は復号器で利用可能であるが高帯域903では利用可能でない。復号化された低帯域励起スペクトル901の品質は、スペクトル・エンベロープ904のエネルギが低い領域で特に、より悪化するかまたはより歪められる。
図9で示したケースでは、1実施形態では、高品質のサブバンドは、第1の会話フォルマント領域の周囲(例えば、この例示的な実施形態では2000Hzの周囲)に存在する。様々な実施形態では、高品質のサブバンドを0および6400Hzの間の任意の位置に配置してもよい。
最良のサブバンドの位置を決定した後、図9にさらに示すように、当該最良のサブバンドが低帯域内から高帯域にコピーされる。高帯域励起スペクトル903がしたがって、選択されたサブバンドからコピーすることによって生成される。図9の高帯域903の知覚品質は、改善された励起スペクトルのため、図8の高帯域803よりもかなり良好に聞こえる。
1つまたは複数の実施形態では、低帯域スペクトル・エンベロープが周波数領域において復号器で利用可能である場合には、最良のサブバンドを、全てのサブバンド候補から最大のサブバンド・エネルギを検索することによって決定してもよい。
代替的に、1つまたは複数の実施形態では、周波数領域スペクトル・エンベロープが利用可能でない場合には、高エネルギ位置を、スペクトル・エネルギ・エンベロープまたはスペクトル・フォルマント・ピークを反映できる任意のパラメータから決定してもよい。BWEに対する最良のサブバンド位置は最大のスペクトル・ピーク位置に対応する。
最良のサブバンド開始点の検索範囲はコーデックのビット速度に依存しうる。例えば、非常に低いビット速度のコーデックに対して、当該検索範囲は、高帯域の帯域幅が1600Hzであると仮定すると、0から6400−1600=4800Hz(2000Hzから4800Hz)でありうる。別の例では、中程度のビット速度のコーデックに対して、当該検索範囲は、高帯域の帯域幅が1600Hzであると仮定すると、2000Hzから6400−1600=4800Hz(2000Hzから4800Hz)でありうる。
スペクトル・エンベロープは或るフレームから次のフレームに遅く変化するので、最大スペクトル・フォルマント・エネルギに対応する最良のサブバンド開始点は通常、遅く変化する。最良のサブバンド開始点が或るフレームから別のフレームに揺らぐことまたは頻繁に変化することを防ぐため、スペクトル・ピーク・エネルギが或るフレームから次のフレームに劇的に変化しない限り、または、新たな有声領域が来ない限り、何らかの平滑化を時間領域内の同一の有声領域において適用してもよい。
図10は、BWEに対するサブバンドのシフトまたはコピーを実装するための本発明の諸実施形態に従う復号器での動作を示す。
時間領域低帯域信号1002は、受信されたビットストリーム1001を用いることによって復号化される。低帯域時間領域励起1003は通常、復号器で利用可能である。場合によっては、低帯域周波数領域励起も利用可能である。利用可能でない場合、低帯域時間領域励起1003を周波数領域に変換して低帯域周波数領域励起を得ることができる。
有声の会話または音楽信号のスペクトル・エンベロープはしばしばLPCパラメータにより表される。場合によっては、直接周波数領域スペクトル・エンベロープが復号器で利用可能である。何れの場合でも、エネルギ分布情報1004を、LPCパラメータから、または、直接周波数領域スペクトル・エンベロープまたはDFT領域もしくはFFT領域のような任意のパラメータから抽出することができる。低帯域エネルギ分布情報1004を用いて、相対的に高いエネルギ・ピークを検索することによって、最良のサブバンドが低帯域から選択される。選択されたサブバンドが次いで低帯域から高帯域領域にコピーされる。予測または推定された高帯域スペクトル・エンベロープが次いで高帯域領域に適用されるか、または、時間領域高帯域励起1005が、高帯域スペクトル・エンベロープを表す予測または推定された高帯域フィルタを通過する。高帯域フィルタの出力は高帯域信号1006である。最終的な会話/オーディオ出力信号1007は、低帯域信号1002と高帯域信号1006を結合することよって得られる。
図11は、BWEに対するサブバンドのシフトまたはコピーを実装するための復号器の代替的な実施形態を示す。
図10と異なり、図11では周波数領域低帯域スペクトルが利用可能であると仮定する。単純に周波数領域内で相対的に高いエネルギ・ピークを検索することによって、低周波帯域内の最良のサブバンドが選択される。次いで、選択されたサブバンドが低帯域から高帯域にコピーされる。推定された高帯域スペクトル・エンベロープを適用した後に、高帯域スペクトル1103が形成される。最終的な周波数領域会話/オーディオ・スペクトルは、低帯域スペクトル1102と高帯域スペクトル1103を結合することで得られる。最終的な時間領域会話/オーディオ信号出力が、周波数領域会話/オーディオ・スペクトルを時間領域に変換することによって生成される。
所望のスペクトル範囲をカバーする復号器でフィルタ・バンク分析および合成が利用可能であるとき、当該フィルタ・バンク分析から選択された低帯域に対応する出力の低周波帯域係数を高周波帯域領域にコピーすることによって、SBRアルゴリズムにより周波帯域シフトを実現することができる。
図12は本発明の諸実施形態に従う復号器で実施される動作を示す。
図12を参照すると、符号化されたオーディオ・ビット・ストリームを復号器で復号化する方法は、符号化されたオーディオ・ビット・ストリームを受信するステップを含む。1つまたは複数の実施形態では、受信されたオーディオ・ビット・ストリームがCELP符号化されている。特に、低周波帯域のみがCELPにより符号化される。CELPは、低スペクトル・エネルギ領域より高いスペクトル・エネルギ領域において相対的に高いスペクトル品質をもたらす。したがって、本発明の諸実施形態では、オーディオ・ビット・ストリームを復号化して、復号化された低帯域オーディオ信号および低周波帯域に対応する低帯域励起スペクトルを生成するステップを含む(ボックス1210)。サブバンド領域が、復号化された低帯域オーディオ信号のスペクトル・エンベロープのエネルギ情報を用いて低周波帯域内部から選択される(ボックス1220)。高帯域励起スペクトルが、サブバンド励起スペクトルを選択されたサブバンド領域から高周波帯域に対応する高サブバンド領域にコピーすることによって、高周波帯域に対して生成される(ボックス1230)。オーディオ出力信号が、高帯域励起スペクトルを用いて生成される(ボックス1240)。特に、生成された高帯域励起スペクトルを用いて、拡張された高帯域オーディオ信号が高帯域スペクトル・エンベロープを適用することによって生成される。当該拡張された高帯域オーディオ信号を、復号化された低帯域オーディオ信号に追加して、拡張周波帯域幅を有するオーディオ出力信号を生成する。
図10および11を用いて前述したように、本発明の諸実施形態を、周波数領域スペクトル・エンベロープが利用可能であるかどうかに応じて様々に適用してもよい。例えば、周波数領域スペクトル・エンベロープが利用可能である場合、最大のサブバンド・エネルギを有するサブバンドを選択してもよい。他方、周波数領域スペクトル・エンベロープが利用可能でない場合、当該スペクトル・エンベロープのエネルギ分布を線形予測符号化(LPC)パラメータ、離散フーリエ変換(DFT)領域、または高速フーリエ変換(FFT)領域のパラメータから特定してもよい。同様に、利用可能(または計算可能)である場合はスペクトル・フォルマント・ピーク情報を幾つかの実施形態において使用してもよい。低帯域時間領域励起のみが利用可能である場合、低帯域周波数領域励起を、低帯域時間領域励起を周波数領域に変換することによって計算してもよい。
様々な実施形態では、任意の既知の方法を当業者に公知なように用いてスペクトル・エンベロープを計算してもよい。例えば、周波数領域では、スペクトル・エンベロープが単純に、1組のサブバンドのエネルギを表す1組のエネルギであってもよい。同様に、別の例では、時間領域において、スペクトル・エンベロープをLPCパラメータにより表してもよい。様々な実施形態では、LPCパラメータが、反射係数、LPC係数、LSP係数、LSF係数のような多数の形態を有してもよい。
図13Aと13Bは、本発明の諸実施形態に従う帯域幅拡張を実装する復号器を示す。
図13Aを参照すると、符号化されたオーディオ・ビット・ストリームを復号化するための復号器が、当該オーディオ・ビット・ストリームを復号化して、低周波帯域に対応する低帯域励起スペクトルを生成するように構成された低帯域復号化ユニット1310を備える。
当該復号器はさらに、低帯域復号化ユニット1310に接続されサブバンド選択ユニット1330とコピー・ユニット1340を含む、帯域幅拡張ユニット1320を備える。サブバンド選択ユニット1330は、復号化されたオーディオ・ビット・ストリームのスペクトル・エンベロープのエネルギ情報を用いてサブバンド領域を低周波帯域内部から選択するように構成される。コピー・ユニット1340は、サブバンド励起スペクトルを選択されたサブバンド領域から高周波帯域に対応する高サブバンド領域にコピーすることによって、高周波帯域に対する高帯域励起スペクトルを生成するように構成される。
高帯域信号生成器1350はコピー・ユニット1340に接続される。高帯域信号生成器1350は、予測された高帯域スペクトル・エンベロープを適用して高帯域時間領域信号を生成するように構成される。出力生成器が、高帯域信号生成器1350と低帯域復号化ユニット1310に接続される。出力生成器1360は、高帯域時間領域信号を有するオーディオ・ビット・ストリームを復号化することによって得られた低帯域時間領域信号を結合することによって、オーディオ出力信号を生成するように構成される。
図13Bは帯域幅拡張を実装する復号器の代替的な実施形態を示す。
図13Aと同様に、図13Bの復号器はまた、低帯域復号化ユニット1310と帯域幅拡張ユニット1320を備え、帯域幅拡張ユニット1320は、低帯域復号化ユニット1310に接続され、サブバンド選択ユニット1330とコピー・ユニット1340を備える。
図13Bを参照すると、当該復号器はさらに高帯域スペクトル生成器1355を備え、高帯域スペクトル生成器1355はコピー・ユニット1340に接続される。高帯域信号生成器1355は高帯域スペクトル・エンベロープ・エネルギを適用して、高帯域励起スペクトルを用いて、高周波帯域に対する高帯域スペクトルを生成するように構成される。
出力スペクトル生成器1365は高帯域スペクトル生成器1355と低帯域復号化ユニット1310に接続される。当該出力スペクトル生成器は、低帯域復号化ユニット1310からのオーディオ・ビット・ストリームを復号化することで得られた低帯域スペクトルを高帯域スペクトル生成器1355からの高帯域スペクトルと結合することによって、周波数領域オーディオ・スペクトルを生成するように構成される。
逆変換信号生成器1370は、周波数領域オーディオ・スペクトルを時間領域に逆変換することによって時間領域オーディオ信号を生成するように構成される。
1つまたは複数の実施形態では、図13Aおよび13Bで説明した様々なコンポーネントをハードウェアで実装してもよい。幾つかの実施形態ではそれらをソフトウェアで実装して、信号プロセッサで動作するように設計してもよい。
したがって、本発明の諸実施形態を使用して、CELP符号化されたオーディオ・ビット・ストリームを復号化する復号器での帯域幅拡張を改善することができる。
図14は本発明の1実施形態に従う通信システム10を示す。
通信システム10は、通信リンク38および40を介してネットワーク36に接続されたオーディオ・アクセス装置7および8を有する。1実施形態では、オーディオ・アクセス装置7および8はボイス・オーバ・インターネット・プロトコル(VOIP)装置であり、ネットワーク36は広域ネットワーク(WAN)、公衆交換電話網(PTSN)および/またはインターネットである。別の実施形態では、通信リンク38および40は有線および/または無線ブロードバンド接続である。代替的な実施形態では、オーディオ・アクセス装置7および8はセルラまたは携帯電話であり、リンク38および40は無線携帯電話チャネルであり、ネットワーク36は携帯電話ネットワークを表す。
オーディオ・アクセス装置7はマイクロフォン12を使用して、音楽または人の声のような音をアナログ・オーディオ入力信号28に変換する。マイクロフォン・インタフェース16は、アナログ・オーディオ入力信号28を、CODEC20の符号器22に入力するためのデジタル・オーディオ信号33に変換する。符号器22は、本発明の諸実施形態に従って、ネットワーク・インタフェース26を介してネットワーク26に送信するための、符号化されたオーディオ信号TXを生成する。CODEC20内の復号器24は、ネットワーク・インタフェース26を介して、符号化されたオーディオ信号RXをネットワーク36から受信し、符号化されたオーディオ信号RXをデジタル・オーディオ信号34に変換する。スピーカ・インタフェース18は、ラウドスピーカ14を駆動するのに適したオーディオ信号30にデジタル・オーディオ信号34を変換する。
オーディオ・アクセス装置7がVOIP装置である本発明の諸実施形態では、オーディオ・アクセス装置7内部のコンポーネントの一部または全部はハンドセット内部で実装される。しかし、幾つかの実施形態では、マイクロフォン12およびラウドスピーカ14は別個のユニットであり、マイクロフォン・インタフェース16、スピーカ・インタフェース18、CODEC20およびネットワーク・インタフェース26はパーソナル・コンピュータ内で実装される。CODEC20を、コンピュータまたは専用プロセッサで実行されているソフトウェアで、または、例えば、特殊用途向け集積回路(ASIC)上の専用ハードウェアにより、実装することができる。マイクロフォン・インタフェース16は、アナログ・デジタル(A/D)変換器、ならびに、ハンドセット内および/またはコンピュータ内に配置された他のインタフェース回路により実装される。同様に、スピーカ・インタフェース18は、デジタル・アナログ変換器ならびにハンドセット内および/またはコンピュータ内に配置された他のインタフェース回路により実装される。別の実施形態では、オーディオ・アクセス装置7を、当業界で公知な他の方法で実装および分割することができる。
オーディオ・アクセス装置7がセルラまたは携帯電話である本発明の諸実施形態では、オーディオ・アクセス装置7内の要素はセルラ・ハンドセット内で実装される。CODEC20は、ハンドセット内のプロセッサで実行されるソフトウェアにより、または、専用ハードウェアにより実装される。本発明の別の実施形態では、オーディオ・アクセス装置を、インターホン、および無線ハンドセットのような、ピア・ツー・ピアの有線および無線のデジタル通信システムのような他の装置で実装してもよい。コンシューマ・オーディオ装置のような応用では、オーディオ・アクセス装置は、例えば、デジタル・マイクロフォン・システムまたは音楽再生装置において、符号器22または復号器24のみを有するCODECを含んでもよい。本発明の他の実施形態では、CODEC20を、例えば、PTSNにアクセスするセルラ基地局において、マイクロフォン12およびスピーカ14なしで使用することができる。
様々な本発明の諸実施形態で説明した無声/有声分類を改善するための会話処理を、例えば、符号器22または復号器24で実装してもよい。無声/有声分類を改善するための会話処理を、様々な実施形態ではハードウェアまたはソフトウェアで実装してもよい。例えば、符号器22または復号器24がデジタル信号処理(DSP)チップの一部であってもよい。
図15は、本明細書で開示した装置と方法を実装するために使用できる処理システムのブロック図を示す。具体的な装置が、示したコンポーネントの全て、または、当該コンポーネントの一部のみを利用してもよく、統合レベルは装置ごとに変わりうる。さらに、装置が、複数の処理ユニット、プロセッサ、メモリ、送信器、受信器等のような、コンポーネントの複数のインスタンスを含んでもよい。当該処理システムが、スピーカ、マイクロフォン、マウス、タッチスクリーン、キーパッド、キーボード、プリンタ、ディスプレイ等のような1つまたは複数の入力/出力装置を具備した処理ユニットを備えてもよい。当該処理ユニットが、バスに接続された中央演算処理装置(CPU)、メモリ、大容量記憶装置、ビデオ・アダプタ、およびI/Oインタフェースを備えてもよい。
バスが、メモリ・バスまたはメモリ・コントローラ、周辺バス、ビデオ・バス等を含む任意の種類の幾つかのバスアーキテクチャのうち1つまたは複数であってもよい。CPUが任意の種類の電子データ・プロセッサを備えてもよい。メモリが、静的ランダム・アクセス・メモリ(SRAM)、動的ランダム・アクセス・メモリ(DRAM)、同期DRAM(SDRAM)、読取専用メモリ(ROM)、それらの組合せ等のような任意の種類のシステム・メモリを備えてもよい。1実施形態では、メモリが、起動時に使用するためのROM、プログラムのためのDRAM、およびプログラムを実行する間に使用するためのデータ記憶を含んでもよい。
大容量記憶装置が、データ、プログラム、および他の情報を格納しバスを介して当該データ、プログラム、および他の情報にアクセス可能とするように構成された任意の種類の記憶装置を含んでもよい。大容量記憶装置が、例えば、固体ドライブ、ハード・ディスク・ドライブ、磁気ディスク・ドライブ、光ディスク・ドライブ等のうち1つまたは複数を含んでもよい。
ビデオ・アダプタおよびI/Oインタフェースは、外部入力および出力装置を処理ユニットに接続するためのインタフェースを提供する。示したように、入力装置および出力装置の例には、ビデオ・アダプタに接続されたディスプレイ、および、I/Oインタフェースに接続されたマウス/キーボード/プリンタが含まれる。他の装置を処理ユニットに接続してもよく、追加のまたはより少ないインタフェース・カードを利用してもよい。例えば、ユニバーサル・シリアル・バス(USB)(図示せず)のようなシリアル・インタフェースを使用して、インタフェースをプリンタに提供してもよい。
処理ユニットはまた、1つまたは複数のネットワーク・インタフェースを備え、これらは、Ethernetケーブル等のような有線リンク、および/またはノードまたは様々なネットワークにアクセスするための無線リンクを含みうる。当該ネットワーク・インタフェースにより、処理ユニットはネットワークを介してリモート・ユニットと通信することができる。例えば、ネットワーク・インタフェースが、1つまたは複数の送信器/送信アンテナおよび1つまたは複数の受信器/受信アンテナを介して無線通信を提供してもよい。1実施形態では、処理ユニットは、他の処理ユニット、インターネット、リモート記憶施設等のようなリモート装置とのデータ処理および通信のために、ローカル・エリア・ネットワークまたは広域ネットワークに接続される。
例示的な実施形態を参照して本発明を説明したが、この説明は限定的な意味で解釈されることを意図したものではない。当該例示的な実施形態ならびに本発明の他の実施形態の様々な修正および組合せは、当該説明を参照すれば当業者には明らかであろう。例えば、上述の様々な実施形態を互いに組み合わせてもよい。
本発明およびその利点を詳細に説明したが、様々な変更、置換え、および変更を、添付の特許請求の範囲で定義した発明の趣旨と範囲から逸脱せずに本明細書で行ってもよいことは理解されるべきである。例えば、上述の特徴および機能の多くを、ソフトウェア、ハードウェア、またはファームウェア、またはそれらの組合せで実装することができる。さらに、本願の範囲が、本明細書で説明したプロセス、機械、製品、合成物、手段、方法、およびステップの特定の実施形態に限定されることは意図していない。本発明の開示から当業者が容易に理解するように、既に存在するかまたは後に開発される、本明細書で説明した対応する実施形態と同じ機能を実質的に実施するかまたは同じ結果を実質的に実現する、プロセス、機械、製品、合成物、手段、方法、またはステップを本明細書に従って利用してもよい。したがって、添付の特許請求の範囲は、その範囲において、かかるプロセス、機械、製品、合成物、手段、方法、またはステップを含むように意図されている。
7 オーディオ・アクセス装置
8 オーディオ・アクセス装置
16 マイクロフォン・インタフェース
18 スピーカ・インタフェース
20 コーデック
22 符号器
24 復号器
26 ネットワーク・インタフェース
36 ネットワーク
従来のCELP符号器を用いた元の会話の符号化中に実施される動作の図である。 下記でさらに説明する本発明の諸実施形態を実装する際にCELP復号器を用いた元の会話の復号化中に実施される動作を示す図である。 従来のCELP符号器における元の会話の符号化中に実施される動作を示す図である。 下記で説明する本発明の諸実施形態を実装する際の図における符号器に対応する基本CELP復号器を示す図である。 帯域幅拡張(BWE)を有する符号化/復号化の1例を示し、BWE側情報を有する符号器での動作を示す図である。 帯域幅拡張(BWE)を有する符号化/復号化の1例を示し、BWEを有する復号器での動作を示す図である。 送信側情報のないBWEを有する符号化/復号化の別の例を示し、符号器にある間の動作を示す図である。 送信側情報のないBWEを有する符号化/復号化の別の例を示し、復号器での動作を示す図である。 CELPタイプのコーデックが使用されるときの有声の会話または和声音楽に対する理想的な励起スペクトルの1例を示す図である。 CELPタイプのコーデックが使用されるときの有声の会話または和声音楽に対する復号化された励起スペクトルの従来の帯域幅拡張の1例を示す図である。 CELPタイプのコーデックが使用されるときの有声の会話または和声音楽に対する復号化された励起スペクトルに適用される帯域幅拡張の本発明の1実施形態の1例を示す図である。 BWEに対するサブバンドのシフトまたはコピーを実装するための本発明の諸実施形態に従う復号器での動作を示す図である。 BWEに対するサブバンドのシフトまたはコピーを実装するための復号器の代替的な実施形態を示す図である。 本発明の諸実施形態に従う復号器で実施される動作を示す図である。 本発明の諸実施形態に従う帯域幅拡張を実装する復号器を示す図である。 本発明の諸実施形態に従う帯域幅拡張を実装する復号器を示す図である。 本発明の1実施形態に従う通信システムを示す図である。 本明細書で開示した装置と方法を実装するために使用できる処理システムのブロック図である。

Claims (19)

  1. 復号器で、符号化されたオーディオ・ビット・ストリームを復号化し周波帯域幅拡張を生成する方法であって、
    前記オーディオ・ビット・ストリームを復号化して、復号化された低帯域オーディオ信号を生成し、低周波帯域に対応する低帯域励起スペクトルを生成するステップと、
    前記復号化された低帯域オーディオ信号のスペクトル・エンベロープのエネルギ情報を示すパラメータを用いて、サブバンド領域を前記低周波帯域内部から選択するステップと、
    サブバンド励起スペクトルを前記選択されたサブバンド領域から高周波帯域に対応する高サブバンド領域にコピーすることによって、前記高周波帯域に対する高帯域励起スペクトルを生成するステップと、
    前記生成された高帯域励起スペクトルを使用して、高帯域スペクトル・エンベロープを適用することによって、拡張された高帯域オーディオ信号を生成するステップと、
    前記拡張された高帯域オーディオ信号を前記復号化された低帯域オーディオ信号に追加して、拡張周波帯域幅を有するオーディオ出力信号を生成するステップと、
    を含む、方法。
  2. 前記スペクトル・エンベロープのエネルギ情報を示す前記パラメータを用いて、サブバンド領域を前記低周波帯域内部から選択するステップは、前記スペクトル・エンベロープの最大エネルギ点を検索することによって前記低周波帯域内部の最高品質のサブバンドを特定するステップと、前記特定された最高品質のサブバンドを選択するステップとを含む、請求項1に記載の方法。
  3. 前記スペクトル・エンベロープのエネルギ情報を示す前記パラメータを用いて、サブバンド領域を前記低周波帯域内部から選択するステップが、最大スペクトル・エンベロープ・エネルギに対応する前記サブバンド領域を選択するステップを含む、請求項1に記載の方法。
  4. 前記スペクトル・エンベロープのエネルギ情報を示す前記パラメータを用いて、サブバンド領域を前記低周波帯域内部から選択するステップは、前記スペクトル・エネルギ・エンベロープの最大エネルギまたはスペクトル・フォルマント・ピークを反映するパラメータを用いてサブバンドを前記低帯域内部から特定するステップと、前記特定されたサブバンドを選択するステップとを含む、請求項1に記載の方法。
  5. 前記復号化の方法は、帯域幅拡張技術を適用して前記高周波帯域を生成する、請求項1乃至4の何れか1項に記載の方法。
  6. 前記高帯域スペクトル・エンベロープを適用するステップは、前記高帯域スペクトル・エンベロープを表す予測された高帯域フィルタを適用するステップを含む、請求項1乃至5の何れか1項に記載の方法。
  7. 周波数領域のオーディオ・スペクトルを時間領域に逆変換することによって前記オーディオ出力信号を生成するステップをさらに含む、請求項1乃至6の何れか1項に記載の方法。
  8. 前記サブバンド励起スペクトルを前記選択されたサブバンド領域から前記高周波帯域に対応する前記高サブバンド領域にコピーするステップは、フィルタ・バンク分析からの出力の低周波帯域係数を前記高サブバンド領域にコピーするステップを含む、請求項1乃至7の何れか1項に記載の方法。
  9. 前記オーディオ・ビット・ストリームが有声の会話または和声音楽を含む、請求項1乃至8の何れか1項に記載の方法。
  10. 符号化されたオーディオ・ビット・ストリームを復号化し周波帯域幅を生成するための復号器であって、
    前記オーディオ・ビット・ストリームを復号化して、復号化された低帯域オーディオ信号を生成し低周波帯域に対応する低帯域励起スペクトルを生成するように構成された低帯域復号化ユニットと、
    前記低帯域復号化ユニットに接続され、サブバンド選択ユニットおよびコピー・ユニットを備える帯域幅拡張ユニットであって、前記サブバンド選択ユニットは、前記復号化された低帯域オーディオ信号のスペクトル・エンベロープのエネルギ情報を示すパラメータを用いて、サブバンド領域を前記低周波帯域内部から選択するように構成され、前記コピー・ユニットは、サブバンド励起スペクトルを前記選択されたサブバンド領域から高周波帯域に対応する高サブバンド領域にコピーすることによって、前記高周波帯域に対する高帯域励起スペクトルを生成するように構成される、帯域幅拡張ユニットと、
    を備える、復号器。
  11. 前記スペクトル・エンベロープのエネルギ情報を用いて、サブバンド領域を前記低周波帯域内部から選択することは、前記低周波帯域内部の最高品質のサブバンドを特定することを含む、請求項10に記載の復号器。
  12. 前記サブバンド選択ユニットは、最大スペクトル・エンベロープ・エネルギに対応する前記サブバンド領域を選択するように構成される、請求項10に記載の復号器。
  13. 前記サブバンド選択ユニットは、スペクトル・エネルギ・エンベロープまたはスペクトル・フォルマント・ピークを反映するパラメータを用いてサブバンドを低帯域から特定するように構成される、請求項10に記載の復号器。
  14. 前記コピー・ユニットに接続され、予測された高帯域スペクトル・エンベロープを適用して高帯域時間領域信号を生成するように構成された高帯域信号生成器と、
    前記高帯域信号生成器および前記低帯域復号化ユニットに接続され、前記オーディオ・ビット・ストリームを復号化することで得られた低帯域時間領域信号を前記高帯域時間領域信号と結合することによってオーディオ出力信号を生成するように構成された、出力生成器と、
    をさらに備える、請求項10乃至13の何れか1項に記載の復号器。
  15. 前記高帯域信号生成器は、前記予測された高帯域スペクトル・エンベロープを表す予測された高帯域フィルタを適用するように構成された、請求項14に記載の復号器。
  16. 前記コピー・ユニットに接続され、推定された高帯域スペクトル・エンベロープを適用して、前記高帯域励起スペクトルを用いて前記高周波帯域に対する高帯域スペクトルを生成するように構成された高帯域スペクトル生成器と、
    前記高帯域スペクトル生成器および前記低帯域復号化ユニットに接続され、前記オーディオ・ビット・ストリームを復号化することで得られた低帯域スペクトルを前記高帯域スペクトルと結合することによって周波数領域オーディオ・スペクトルを生成するように構成された、出力スペクトル生成器と、
    をさらに備える、請求項10乃至15の何れか1項に記載の復号器。
  17. 前記周波数領域オーディオ・スペクトルを時間領域に逆変換することによって、時間領域オーディオ信号を生成するように構成された逆変換信号生成器をさらに備える、請求項16に記載の復号器。
  18. 会話処理のための復号器であって、
    プロセッサと、
    前記プロセッサにより実行するためのプログラムを格納したコンピュータ可読記憶媒体であって、前記プログラムは、
    オーディオ・ビット・ストリームを復号化して、復号化された低帯域オーディオ信号を生成し低周波帯域に対応する低帯域励起スペクトルを生成し、
    前記復号化された低帯域オーディオ信号のスペクトル・エンベロープのエネルギ情報を示すパラメータを用いて、サブバンド領域を前記低周波帯域内部から選択し、
    サブバンド励起スペクトルを前記選択されたサブバンド領域から高周波帯域に対応する高サブバンド領域にコピーすることによって、前記高周波帯域に対する高帯域励起スペクトルを生成し、
    前記生成された高帯域励起スペクトルを使用して、高帯域スペクトル・エンベロープを適用することによって、拡張された高帯域オーディオ信号を生成し、
    前記拡張された高帯域オーディオ信号を前記復号化された低帯域オーディオ信号に追加して、拡張周波帯域幅を有するオーディオ出力信号を生成する
    ための命令を含む、コンピュータ可読記憶媒体と、
    を備える、復号器。
  19. 復号器で、符号化されたオーディオ・ビット・ストリームを復号化し周波帯域幅拡張を生成する方法であって、
    前記オーディオ・ビット・ストリームを復号化して、復号化された低帯域オーディオ信号を生成し、低周波帯域に対応する低帯域スペクトルを生成するステップと、
    前記復号化された低帯域オーディオ信号のスペクトル・エンベロープのエネルギ情報を示すパラメータを用いて、サブバンド領域を前記低周波帯域内部から選択するステップと、
    サブバンド・スペクトルを前記選択されたサブバンド領域から高サブバンド領域にコピーすることによって、高帯域スペクトルを生成するステップと、
    前記生成された高帯域スペクトルを使用して、高帯域スペクトル・エンベロープ・エネルギを適用することによって、拡張された高帯域オーディオ信号を生成するステップと、
    前記拡張された高帯域オーディオ信号を前記復号化された低帯域オーディオ信号に追加して、拡張周波帯域幅を有するオーディオ出力信号を生成するステップと、
    を含む、方法。
JP2016541789A 2013-09-10 2014-09-09 適合的帯域幅拡張およびそのための装置 Active JP6336086B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361875690P 2013-09-10 2013-09-10
US61/875,690 2013-09-10
US14/478,839 2014-09-05
US14/478,839 US9666202B2 (en) 2013-09-10 2014-09-05 Adaptive bandwidth extension and apparatus for the same
PCT/CN2014/086135 WO2015035896A1 (en) 2013-09-10 2014-09-09 Adaptive bandwidth extension and apparatus for the same

Publications (2)

Publication Number Publication Date
JP2016535873A true JP2016535873A (ja) 2016-11-17
JP6336086B2 JP6336086B2 (ja) 2018-06-06

Family

ID=52626402

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016541789A Active JP6336086B2 (ja) 2013-09-10 2014-09-09 適合的帯域幅拡張およびそのための装置

Country Status (16)

Country Link
US (2) US9666202B2 (ja)
EP (3) EP4258261A3 (ja)
JP (1) JP6336086B2 (ja)
KR (2) KR101871644B1 (ja)
CN (2) CN107393552B (ja)
AU (1) AU2014320881B2 (ja)
BR (1) BR112016005111B1 (ja)
CA (1) CA2923218C (ja)
ES (1) ES2644967T3 (ja)
HK (1) HK1220541A1 (ja)
MX (1) MX356721B (ja)
MY (1) MY192508A (ja)
PL (1) PL3301674T3 (ja)
RU (1) RU2641224C2 (ja)
SG (1) SG11201601637PA (ja)
WO (1) WO2015035896A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4231294B1 (en) * 2008-12-15 2023-11-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio bandwidth extension decoder
TWI557726B (zh) * 2013-08-29 2016-11-11 杜比國際公司 用於決定音頻信號的高頻帶信號的主比例因子頻帶表之系統和方法
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
CN108172239B (zh) * 2013-09-26 2021-01-12 华为技术有限公司 频带扩展的方法及装置
CN104517611B (zh) * 2013-09-26 2016-05-25 华为技术有限公司 一种高频激励信号预测方法及装置
FR3017484A1 (fr) 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
EP3115991A4 (en) 2014-03-03 2017-08-02 Samsung Electronics Co., Ltd. Method and apparatus for high frequency decoding for bandwidth extension
KR101701623B1 (ko) * 2015-07-09 2017-02-13 라인 가부시키가이샤 VoIP 통화음성 대역폭 감소를 은닉하는 시스템 및 방법
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
CN106057220B (zh) * 2016-05-19 2020-01-03 Tcl集团股份有限公司 一种音频信号的高频扩展方法和音频播放器
KR102494080B1 (ko) 2016-06-01 2023-02-01 삼성전자 주식회사 전자 장치 및 전자 장치의 사운드 신호 보정 방법
WO2018084848A1 (en) 2016-11-04 2018-05-11 Hewlett-Packard Development Company, L.P. Dominant frequency processing of audio signals
EP3382704A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
US10431231B2 (en) * 2017-06-29 2019-10-01 Qualcomm Incorporated High-band residual prediction with time-domain inter-channel bandwidth extension
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
TWI684368B (zh) * 2017-10-18 2020-02-01 宏達國際電子股份有限公司 獲取高音質音訊轉換資訊的方法、電子裝置及記錄媒體
CN107886966A (zh) * 2017-10-30 2018-04-06 捷开通讯(深圳)有限公司 终端及其优化语音命令的方法、存储装置
CN107863095A (zh) * 2017-11-21 2018-03-30 广州酷狗计算机科技有限公司 音频信号处理方法、装置和存储介质
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10573331B2 (en) * 2018-05-01 2020-02-25 Qualcomm Incorporated Cooperative pyramid vector quantizers for scalable audio coding
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
CN110660402B (zh) * 2018-06-29 2022-03-29 华为技术有限公司 立体声信号编码过程中确定加权系数的方法和装置
CN110556122B (zh) * 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN112201261B (zh) * 2020-09-08 2024-05-03 厦门亿联网络技术股份有限公司 基于线性滤波的频带扩展方法、装置及会议终端系统
CN113299313B (zh) * 2021-01-28 2024-03-26 维沃移动通信有限公司 音频处理方法、装置及电子设备
CN114999503A (zh) * 2022-05-23 2022-09-02 北京百瑞互联技术有限公司 一种基于生成对抗网络的全带宽谱系数生成方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209548A (ja) * 2010-03-30 2011-10-20 Nippon Logics Kk 帯域拡張装置
JP2012511184A (ja) * 2008-12-29 2012-05-17 華為技術有限公司 過渡信号符号化方法及び装置、復号化方法及び装置、並びに処理システム
JP2013035257A (ja) * 2011-08-11 2013-02-21 Kyocera Document Solutions Inc 画像形成装置

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6070236A (en) * 1996-12-19 2000-05-30 Deutsche Thomson-Brandt Gmbh Apparatus for processing a sequence of control commands as well as a method for generating a sequence of control commands, and storage medium for storing control commands
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
SE0004163D0 (sv) * 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
US20020128839A1 (en) 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
JP2003044098A (ja) * 2001-07-26 2003-02-14 Nec Corp 音声帯域拡張装置及び音声帯域拡張方法
KR100503415B1 (ko) * 2002-12-09 2005-07-22 한국전자통신연구원 대역폭 확장을 이용한 celp 방식 코덱간의 상호부호화 장치 및 그 방법
US7461003B1 (en) * 2003-10-22 2008-12-02 Tellabs Operations, Inc. Methods and apparatus for improving the quality of speech signals
DE102005032724B4 (de) * 2005-07-13 2009-10-08 Siemens Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US8396717B2 (en) 2005-09-30 2013-03-12 Panasonic Corporation Speech encoding apparatus and speech encoding method
KR100717058B1 (ko) * 2005-11-28 2007-05-14 삼성전자주식회사 고주파 성분 복원 방법 및 그 장치
CN101089951B (zh) 2006-06-16 2011-08-31 北京天籁传音数字技术有限公司 频带扩展编码方法及装置和解码方法及装置
GB0704622D0 (en) * 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
KR101411900B1 (ko) 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
EP2220646A1 (en) * 2007-11-06 2010-08-25 Nokia Corporation Audio coding apparatus and method thereof
KR100970446B1 (ko) * 2007-11-21 2010-07-16 한국전자통신연구원 주파수 확장을 위한 가변 잡음레벨 결정 장치 및 그 방법
EP2218068A4 (en) * 2007-11-21 2010-11-24 Lg Electronics Inc METHOD AND APPARATUS FOR SIGNAL PROCESSING
US8688441B2 (en) 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
DE102008015702B4 (de) 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
AU2009220321B2 (en) * 2008-03-03 2011-09-22 Intellectual Discovery Co., Ltd. Method and apparatus for processing audio signal
KR101475724B1 (ko) * 2008-06-09 2014-12-30 삼성전자주식회사 오디오 신호 품질 향상 장치 및 방법
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
MY155538A (en) * 2008-07-11 2015-10-30 Fraunhofer Ges Forschung An apparatus and a method for generating bandwidth extension output data
KR101224560B1 (ko) * 2008-07-11 2013-01-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 인코드된 오디오 신호를 디코딩하는 장치 및 방법
WO2010003521A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and discriminator for classifying different segments of a signal
BR122021009252B1 (pt) * 2008-07-11 2022-03-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Codificador e decodificador de áudio para estruturas de codificação de sinais de áudio amostrados
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
PL2146344T3 (pl) * 2008-07-17 2017-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób kodowania/dekodowania sygnału audio obejmujący przełączalne obejście
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
CN102044250B (zh) 2009-10-23 2012-06-27 华为技术有限公司 频带扩展方法及装置
DK2375782T3 (en) * 2010-04-09 2019-03-18 Oticon As Improvements in sound perception by using frequency transposing by moving the envelope
WO2011127832A1 (en) 2010-04-14 2011-10-20 Huawei Technologies Co., Ltd. Time/frequency two dimension post-processing
MY176192A (en) * 2010-07-02 2020-07-24 Dolby Int Ab Selective bass post filter
KR101709095B1 (ko) * 2010-07-19 2017-03-08 돌비 인터네셔널 에이비 고주파 복원 동안 오디오 신호들의 프로세싱
US9047875B2 (en) 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
JP5743137B2 (ja) * 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
US8937382B2 (en) 2011-06-27 2015-01-20 Intel Corporation Secondary device integration into coreless microelectronic device packages
US9384749B2 (en) * 2011-09-09 2016-07-05 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, encoding method and decoding method
DK2791937T3 (en) * 2011-11-02 2016-09-12 ERICSSON TELEFON AB L M (publ) Generation of an højbåndsudvidelse of a broadband extended buzzer
CN104221082B (zh) * 2012-03-29 2017-03-08 瑞典爱立信有限公司 谐波音频信号的带宽扩展
US20130332171A1 (en) * 2012-06-12 2013-12-12 Carlos Avendano Bandwidth Extension via Constrained Synthesis
US9728200B2 (en) * 2013-01-29 2017-08-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012511184A (ja) * 2008-12-29 2012-05-17 華為技術有限公司 過渡信号符号化方法及び装置、復号化方法及び装置、並びに処理システム
JP2011209548A (ja) * 2010-03-30 2011-10-20 Nippon Logics Kk 帯域拡張装置
JP2013035257A (ja) * 2011-08-11 2013-02-21 Kyocera Document Solutions Inc 画像形成装置

Also Published As

Publication number Publication date
RU2641224C2 (ru) 2018-01-16
EP3039676A1 (en) 2016-07-06
RU2016113288A (ru) 2017-10-16
PL3301674T3 (pl) 2024-03-04
MX2016003074A (es) 2016-05-31
EP4258261A3 (en) 2023-12-20
KR101871644B1 (ko) 2018-06-26
CN105637583B (zh) 2017-08-29
KR101785885B1 (ko) 2017-10-16
CN105637583A (zh) 2016-06-01
CN107393552A (zh) 2017-11-24
EP3301674B1 (en) 2023-08-30
US20170221498A1 (en) 2017-08-03
EP3039676B1 (en) 2017-09-06
EP3039676A4 (en) 2016-09-07
BR112016005111A2 (ja) 2017-08-01
CN107393552B (zh) 2019-01-18
KR20160050071A (ko) 2016-05-10
AU2014320881B2 (en) 2017-05-25
US10249313B2 (en) 2019-04-02
CA2923218A1 (en) 2015-03-19
WO2015035896A1 (en) 2015-03-19
CA2923218C (en) 2017-12-05
US20150073784A1 (en) 2015-03-12
SG11201601637PA (en) 2016-04-28
MX356721B (es) 2018-06-11
MY192508A (en) 2022-08-24
EP3301674A1 (en) 2018-04-04
HK1220541A1 (zh) 2017-05-05
ES2644967T3 (es) 2017-12-01
KR20170117207A (ko) 2017-10-20
JP6336086B2 (ja) 2018-06-06
BR112016005111B1 (pt) 2022-07-12
AU2014320881A1 (en) 2016-04-07
US9666202B2 (en) 2017-05-30
EP4258261A2 (en) 2023-10-11

Similar Documents

Publication Publication Date Title
JP6336086B2 (ja) 適合的帯域幅拡張およびそのための装置
US10885926B2 (en) Classification between time-domain coding and frequency domain coding for high bit rates
JP6470857B2 (ja) 音声処理のための無声/有声判定
CN105765653B (zh) 自适应高通后滤波器

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180501

R150 Certificate of patent or registration of utility model

Ref document number: 6336086

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250