JP5222452B2 - 音響信号の符号化の知覚的改善 - Google Patents

音響信号の符号化の知覚的改善 Download PDF

Info

Publication number
JP5222452B2
JP5222452B2 JP2002536999A JP2002536999A JP5222452B2 JP 5222452 B2 JP5222452 B2 JP 5222452B2 JP 2002536999 A JP2002536999 A JP 2002536999A JP 2002536999 A JP2002536999 A JP 2002536999A JP 5222452 B2 JP5222452 B2 JP 5222452B2
Authority
JP
Japan
Prior art keywords
signal
hat
frequency
primary
iii
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002536999A
Other languages
English (en)
Other versions
JP2004515801A (ja
Inventor
ブルーン、ステファン
アンデルソン、スザンヌ
Original Assignee
テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2004515801A publication Critical patent/JP2004515801A/ja
Application granted granted Critical
Publication of JP5222452B2 publication Critical patent/JP5222452B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/667Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using a division in frequency subbands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Description

(技術分野)
本発明は、一般に音響信号の符号化情報に基づいて再構成された信号が知覚できる音質を有する、すなわち、既知の符号化ソリューションよりも上質の音質を有するような、音響源信号の符号化に関するものである。本発明は、より詳しくは、請求項1及び31のプリアンブルにそれぞれ従って送信媒体で送信用の符号化情報を発生するための音響信号を符号化することと、符号化の各々について、請求項15及び37のプリアンブルにそれぞれ従って送信媒体で送信済みの符号化情報を復号することに関するものである。また、本発明は、請求項44による通信システム、請求項13及び29のそれぞれのコンピュータ・プログラム、請求項13及び30のそれぞれのコンピュータ読み出し可能媒体に関するものである。
(背景技術)
音声コーデック(codec=coderとdecoder)については、各種の多様な用途がある。符号化及び復号化機構は、固定式及び移動式の通信システムとテレビ会議システムとでの音響信号のビットレート効率のよい送信に用いられる。また、安全なテレフォニと、音声記憶装置のために、音声コーデックを利用することができる。
固定式及び移動式テレフォニとテレビ会議とでは、再構成された音響信号の品質改善が指向されている。この傾向は、こうしたシステムに今日の固定式電話のネットワークと同等以上の音質を提供してほしいとする顧客の期待を反映している。この期待を満たす1つの方法は、音響信号の周波数帯域を拡大し、音源信号に含まれる情報をもっと受信器に伝えることである。実際のところ、音声信号のエネルギーの大半は、スペクトル的に0 kHz〜4 kHz(すなわち、最先端コーデックの代表的帯域幅)にある。しかしながら、周波数帯域4 kHz〜8 kHzにも相当量のエネルギーが分布している。この帯域の周波数成分は、人間の耳で「明瞭」と知覚される情報と、話者と聞き手の「距離の近さ」を表現する。
人間の聴覚の周波数分解能は、周波数の増加にともなって減少する。したがって、4 kHz〜8 kHzの周波数成分では、比較的少ないビット数で十分な精度のモデリングを行うことができる。とは言え、今日、満足すべき知覚品質の音響信号を再構成して提供するような、ビットレート効率のよいブロードバンド・コーデックは既知のものでは存在しない。既存のITU−T G.722広帯域符号化規格では、動作速度がビットレート48、56、64 kbpsとなっており、その利用されるビットレートと比較して満足すべき品質になっていない(ITU−T=International Telecommunication Union、standardisation sector:国際電気通信連合・電気通信標準化部門)。
米国特許第5,956,686号は、エンベロープのスペクトルが複数の周波数帯域に分割されているせいで個別の帯域のエンベロープに異なる符号化方法を適用できる、適応性変換器符号化/復号化装置を開示している。これは、スペクトル・エンベロープの帯域間で異なる冗長性を利用可能にする。また、このスペクトル・エンベロープは、各周波数帯域での時間のバラツキを補正するために、符号化方法及び/又は送信方法に合わせて調整される。
米国特許第5,526,464号は、残差信号が各周波数帯域に分割される符号励起線形予測符号化法を開示している。各帯域に特定のコードブックが用意され、コードブックのサイズは周波数帯域の拡大にともなって小さくなる。サンプリングレートは、コードブック検索を簡略にするために、周波数の減少にともなって縮小される。
したがって、当該技術には、適用された符号化機構で異なる周波数帯域の変動特性が考慮される例が存在する。しかしながら、各種の特性は、音源信号をビット効率よく符号化するために利用されてきたにすぎない。すなわち、最初の周波数帯域に最適化された符号化機構を用いて2番目の周波数帯域の信号を符号化するときに、適用された符号化に本来的な欠点を補正するために、特別な措置をとるように教示されているわけではない。
今日、ほとんどの音声符号化モデルは、ナローバンド信号(一般的に0〜4kHz)用に設計されている。こうした音声符号化モデルを、例えば0〜8 kHzといった広い帯域幅を有する音響信号の符号化に適用すると、関連する周波数帯域の一部分、すなわち低い部分のみが最適化される。
この理由の1つは、符号化パラメータの量子化には一般的にターゲット信号と再生信号との間の時間領域での相関が伴うからである。音声信号の高周波数成分が低周波数成分に比較して低い発生密度しかないために、こうした相関は主に低周波領域の信号整合に基づく。この結果として、高周波数成分は受信器側で劣化して再生されてしまう。
残念ながら、この再生劣化は、人間の聴覚の欠陥や音声信号の特性のどちらか一方を理由にはできない。声のサウンドが生成されると、声道がフィルタとして肺から発する空気振動に作用する。所謂フォルマントは、このフィルタの共振周波数に一致する。音声の低周波数帯域では、ターゲット信号は異なるフォルマントを有する。しかしながら、高周波数帯域では、フォルマントはより拡散している。使用されている音声モデルの制限のために、従来型のナローバンド符号器により符号化される比較的広い帯域幅を有する音響信号は、それより高い周波数帯域でも異なるスペクトル構造(すなわち、山と谷)を有する信号として再生される。一般的に、人間の聴覚では、音響信号が、不自然で金属音的サウンドの特性を有するものとして知覚される。
場合によっては、再構成信号の品質をいっそう上げるために、第1の符号器の出力信号に第2の符号器を適用したり、第1符号器と並列的に第2符号器を用いたりする。従来型ナローバンド符号器をブロードバンド音源信号の符号化に用いる際に、この措置を適用すると、周波数帯域上端のスペクトル構造が場合によってより以上に発せられる。これは、音質改善に関して、ナローバンド音響信号にとって望ましいことだが、ブロードバンド音響信号にとっては、逆効果になる危険がある。
(発明の開示)
このため、本発明の目的は、上記の問題を軽減するような、音響信号の拡張版符号化機構を提供することである。
本発明の1つの態様によれば、最初の説明のように、音響源信号を符号化して送信媒体上で送信するための符号化情報を生成する方法により、この目的は達成される。そうした符号化情報は、周波数成分を表す各係数をそれぞれが有する一次符号信号とターゲット信号によって特徴付けられる。一次符号信号のそれぞれのターゲット信号に対応する少なくとも1つの平滑化信号が生成され、それは選択的に修正されたバージョンの一次符号信号のそれぞれのターゲット信号であるが、そこにおいて、閾値を上回る周波数情報を表す係数値のバラツキが縮小される。
本発明のさらなる態様によれば、本発明の目的は、コンピュータの内部記憶装置に直接ロード可能なコンピュータ・プログラムにより達成される。なお、このプログラムには、コンピュータで稼動中に前段落で説明した方法を制御するソフトウェアを有する。
本発明の別の態様によれば、本発明の目的は、二段落前に説明した方法をコンピュータに制御させるプログラムが記録されている、コンピュータ読み取り可能媒体により達成される。
本発明のさらに別の態様によれば、本発明の目的は、音響源信号の推定値を最初の説明のように復号する方法により達成される。この方法は、それぞれが周波数成分を表す係数を有する平滑化一次復号スペクトルにより特徴付けられる。平滑化一次復号スペクトルは、選択的に修正されたバージョンの、少なくとも1つの一次復号スペクトルの1つとなっている。そこでは、閾値を上回る周波数を表す係数値でバラツキが縮小される。
本発明のさらなる態様によれば、本発明の目的は、コンピュータの内部記憶装置に直接ロード可能なコンピュータ・プログラムにより達成される。なお、このプログラムには、コンピュータで稼動中に前段落で説明した方法を制御するソフトウェアを有する。
本発明の別の態様によれば、本発明の目的は、二段落前に説明した方法をコンピュータに制御させるプログラムが記録されている、コンピュータ読み取り可能媒体により達成される。
本発明のまた別の態様によれば、本発明の目的は、最初に説明したような送信器により達成される。この送信器は、少なくとも1つのスペクトル平滑化装置が、閾値を上回る周波数情報を表す係数値のバラツキを縮小するように一次符号信号を選択的に修正することで、一次符号信号から平滑化出力信号を生成するように工夫されていることを特徴とする。
本発明の追加的な態様によれば、本発明の目的は、最初に説明したような受信器により達成される。この受信器は、平滑化一次復号スペクトルが周波数成分を表す各係数を有することを特徴とする。受信器中のスペクトル平滑化装置は、閾値を上回る周波数情報を表す係数値のバラツキを縮小するように、少なくとも1つの一次復号スペクトルを選択的に修正することで、平滑化一次復号スペクトルを生成するように工夫されている。
本発明のさらに追加的な態様によれば、本発明の目的は、第1のノードから第2のノードに音響源信号を送信するための通信システムにより達成される。この通信システムには、第1のノードに、音響源信号を符号化して符号化情報を生成するために提案の送信器が備えられる。第2のノードには、送信器により生成された符号化情報を受信し、符号化情報の推定値を音響源信号の推定値に復号するための、提案の受信器が備えられる。送信媒体は、少なくとも1つの拡張符号信号を送信器から受信器に送信するために用いられる。
受信器により再構成される音響信号の音源になる1つ以上の信号において、閾値を上回る周波数情報を表す係数値のバラツキを提案のように縮小させると、音声や音楽などの代表的な音響信号をより自然に知覚することができる。特に、先行技術の符号化技法により発生する金属音は、相当程度まで緩和される。今後のワイドバンドの応用分野では、知覚されるサウンドの品質が成功の鍵を握っているので、これは特に望ましい効果である。
(発明を実施するための最良の形態)
図1Aは、周波数図表で、一次復号スペクトルY(ハット)の係数KYをx軸に沿って示している。各係数KYは、任意の符号化機構により符号化され、送信媒体で送信され、適正な復号化機構により復号された音響源信号の周波数成分の大きさを表している。したがって、一次復号スペクトルY(ハット)は、音響信号xの重要な特性を知覚的に表す。
図1Bは、係数KYで表される一次復号スペクトルY(ハット)を閾値の周波数fTを上回る周波数帯域i、ii、iiiに分割する方法を説明している。第1の周波数帯域iは、閾値の周波数fTと第1のエッジ周波数fiとの間の周波数成分を含む。第2の周波数帯域iiは、第1のエッジ周波数fiと第2のエッジ周波数fiiとの間の周波数成分を含む。第3の周波数帯域iiiは、第2のエッジ周波数fiiと第3のエッジ周波数fiiiとの間の周波数成分を含む。周波数帯域i、ii、iiiのそれぞれの各点線は、当該周波数帯域の算術平均係数値を示している。本発明の代替の実施形態においては、算術平均値ではなく、係数の中央値が決定される。
平滑化一次復号スペクトルY(ハット)Eは、選択的に修正されたバージョンの一次復号スペクトルY(ハット)として生成され、そこでは、閾値fTを上回る周波数情報を表す閾値KYEのバラツキが縮小される。図1Cは、図1Bの平均係数値Ki、Kii、Kiiiのそれぞれが、閾値の周波数fTを上回る周波数帯域i、ii、iiiの周波数成分の元の係数値を置き換え、それによって、係数値KYEのバラツキの上記縮小が達成される1つの例を示している。
図1Bと1Cは、周波数帯域i、ii、iiiが重なり合うことがなく、帯域幅が異なる、本発明の1つの実施形態を示している。人間の聴覚の分解能は周波数の増加にともなってほぼ対数スケールで減少するので、知覚的な観点からは、周波数帯域i、ii、iiiを対数スケールの周波数に基づいて分割するのが妥当である。例えばバーク・スケールでは、0 kHz、0.1 kHz、0.2 kHz、0.3 kHz、0.4 kHz、0.51 kHz、0.63 kHz、0.77 kHz、0.92 kHz、1.08 kHz、1.27 kHz、1.48 kHz、1.72 kHz、2 kHz、2.32 kHz、2.7 kHz、3.15 kHz、3.7 kHz、4.4 kHz、5.3 kHz、6.4 kHz、7.7 kHz、9.5 kHz、12 kHz、15.5 kHzというエッジ周波数を用いて周波数を分割する。メル・ケプストラム・スケールは、人間の聴覚の臨界帯域に似せることを目的とした代替セットの周波数帯域を定義している。知覚線形予測法(Perceptual Linear Prediction−method;PLP)はさらに、スペクトルの知覚起因性のスケーリング及び圧縮を表す一連の周波数帯域を取得するために、別の手段を提供する。
もちろん、周波数帯域はそれぞれ等距離でもよいし、閾値の周波数fTを上回るスペクトル全体を含む1つの周波数帯域でもよい。
さらに、周波数帯域の相対的な帯域幅とは無関係に、隣り合う周波数帯域は少なくとも部分的にお互いに重なり合ってもよい。重なり合う場合、各周波数帯域内の係数をウィンドウ関数で乗算してから、関連係数値を一緒に加算することで周波数帯域の重なり部分の結果的な係数値を得ることができる。
図2Aは、台形の形状を有し、下限のエッジ周波数flと上限のエッジ周波数fuとの間で定義されている、そうしたウィンドウ関数Wlの第1の例を示している。ウィンドウ関数Wlは、重複部分のない周波数領域では例えば1といった一定の大きさであり、隣り合う周波数帯域が重なり合う下位遷移域と上位遷移域とでは次第に減少する。ウィンドウ関数Wlの大きさは、各遷移域の中間点では一定の大きさの半分(例えば0.5)に等しいことが望ましい。中間点は、もちろん、利用する非線形周波数スケールに沿って定義されなければならない。
図2Bは、重なり合う周波数帯域で係数値を加算するために用いるべきウィンドウ関数W2の別の例を示している。これは台形の形状ではないが、それ以外については、上記の図2Aを参照して説明されたウインドウ関数Wlと同じ特性を有している。遷移域で非線形の形状(例えば、正弦波や余弦波の最初の4分の1)を有しているウィンドウ関数は、特定の応用分野にとって有利な周波数特性を有している。
図3は、本発明による送信器/受信器ペアに関する一般的なブロック図を示している。送信器300は、音響源信号xを符号化表現P(E)に符号化する。これは、送信媒体306で受信器310に送信される。
送信器300は、音響信号xの重要な特性を知覚的に表す少なくとも1つの基本符号信号Pを生成するための符号化装置を含んでいる。受信器310は、基本符号信号Pの推定値から音響源信号xの推定値Z(ハット)を直接再構成できる。しかしながら、本発明の望ましい実施形態によれば、送信器300は、第1のスペクトル平滑化装置305aも有している。この装置305aは、基本符号信号Pが基づいている少なくとも1つの信号成分を受信し、それに応答して対応する平滑化信号成分を生成する。拡張符号信号P(E)は、欠けている対応する平滑化信号成分から生成される。拡張符号信号P(E)は、音響源信号xの改善表現を構成し、そこから、受信器310によって音響源信号xの知覚的に改善された推定値Z(ハット)を再構成できる。第1のスペクトル平滑化装置305aは、閾値を上回る周波数情報を表すスペクトルの係数値のバラツキを縮小するように、信号成分のスペクトルを選択的に修正することで、基本符号信号Pの少なくとも1つの信号成分から対応する平滑化信号を生成する。したがって、第1のスペクトル平滑化装置305aは、上記の図1A〜1Cを参照して説明した一次復号スペクトルY(ハット)の修正に対応するような方式で、信号成分のスペクトルを修正する。
拡張符号信号P(E)は、送信媒体306を介して送信され、送信された拡張符号信号P(ハット)(E)という形式をとった拡張符号信号P(E)の推定値として受信器310により受信される。送信された拡張符号信号P(ハット)(E)は、第2のスペクトル平滑化装置305bにより音響源信号xの知覚的に改善された推定値Z(ハット)を再構成するために、受信器310によって利用される。第2のスペクトル平滑化装置305bは、閾値を上回る周波数情報を表す平滑化一次復号スペクトルY(ハット)Eの係数値のバラツキを縮小するように、送信された拡張符号信号P(ハット)(E)から復号された一次スペクトルY(ハット)を選択的に修正することによって、音響源信号xの知覚的に改善された推定値Z(ハット)を生成する。
図4は、本発明の第1の実施形態に従って設計された図3中のスペクトル平滑化装置305aの各305bに関するブロック図を示している。しかしながら、簡略にするために、第2のスペクトル平滑化装置305bの変数にのみ言及する。スペクトル平滑化装置305bは、第1のバッファ記憶装置401を備え、そこには、一次復号スペクトルY(ハット)の各係数KYが記憶される。ただし、各KYはそれぞれ周波数成分を表す。処理装置402は、閾値fTを上回る周波数成分に対応する係数kY n+l〜kY mを第1バッファ記憶装置401から受信し、少なくとも1つの周波数帯域i、ii、iiiの各々のために、そうした係数kY n+l〜kY mの平均係数値Ki、Kii、Kiiiを計算する。計算された平均係数値Ki、Kii、Kiiiは、それぞれ、特定の周波数帯域i、ii、iiiの一次復号スペクトルY(ハット)の係数KYの個数に等しい分だけ、第2のバッファ記憶装置403aに反復して記憶される。この記憶装置の目的は、一次復号スペクトルY(ハット)の係数KYを、関連する平均係数値Ki、Kii、Kiiiと速やかに置き換えることである。係数の置き換えは、第1のバッファ記憶装置401から閾値fTまでの係数kY l〜kY nを読み出し、第2のバッファ記憶装置403から閾値fTを上回る平滑化係数kY n+l〜kY mを読み出す読み出し装置404によって達成される。これらの係数kY l〜kY n、Ki、Kii、Kiiiは一緒に、読み出し装置404からの出力で提供される平滑化一次復号スペクトルY(ハット)Eの係数KYEを形成する。
図5は、本発明の第2の実施形態に従って設計された図3中のスペクトル平滑化装置305aの各305bに関するブロック図を示している。ここでも、簡略にするために、第2のスペクトル平滑化装置305bの変数にのみ言及する。
スペクトル平滑化装置305bは、一次スペクトルY(ハット)を入力から受信するための第1の変換器501を備える。第1の変換器501は、対応する角スペクトルYs argを第1出力で、対応するスペクトル・マグニチュード|Ys|を第2出力で発生する。スペクトル・マグニチュード|Ys|は、係数値kY l、…、kY mにより表される。オプションでは、スペクトル平滑化装置305bは、閾値の周波数fTを上回る周波数成分を表すスペクトル・マグニチュード|Ys|の係数kY n+l、…、kY mを受信する対数変換器502を備えるいっぽうで、低い周波数成分を表しているスペクトル・マグニチュード|Ys|の係数kY l、…、kY nは、コンバイナ507に転送される。対数変換器502は、閾値の周波数fTを上回る周波数成分を表しているスペクトル・マグニチュード|Ys|の係数kY n+l、…、kY mを入力で受信し、それに応答して出力で対数変換器を提供する。第1の逆変換器503は、スペクトル・マグニチュードのこの変換部分を入力で受信し、出力でそれに応答して、ケプストラム領域の成分を各々が表している一連のケプストラム係数を有するケプストラム符号信号を提供する。対数変換器502が含まれない場合には、スペクトル・マグニチュード|Ys|の係数kY n+l、…、kY mは、第1の変換器501から第1の逆変換器503に直接供給される。次の破棄装置504は、ケプストラム符号信号でn次およびそれ以上のケプストラム係数を破棄し、破棄済み係数を0値の係数で置き換え、その信号をさらに第2の変換器505に送るが、第2の変換器505は対応するスペクトル信号を生成する。
このスペクトル信号は、対数変換器502により対応する対数変換が早期に実行された場合には、それに続く逆対数変換器506で対数的に逆変換される。逆対数変換器506は、対数的に平滑化された係数kY n+l〜kY mを生成する。したがって、第2の変換器505からの平滑化係数kY n+l〜kY m又は、逆対数変換器506からの逆対数平滑化係数kY n+l〜kY mのどちらかが、閾値の周波数fTを下回る周波数成分を表しているスペクトル・マグニチュード|Ys|の係数kY l、…、kY nと一緒に、コンバイナ507に転送される。このコンバイナは、係数kY 1、…、kY nと平滑化係数kY n+1〜kY mとに応答して、平滑化スペクトル・マグニチュード|YSE|を提供する。第2の逆変換器508は、最初の入力で角スペクトルYS argを、2番目の入力で平滑化スペクトル・マグニチュード|YSE|を受信し、それに応答して出力で拡張符号信号Y(ハット)Eを発生する。
図6Aは、(対数)スペクトル・マグニチュード図で、一次復号スペクトルY(ハット)のスペクトル係数KSの一例を示している。図から明らかなように、一次復号スペクトルY(ハット)は、隣り合う係数KS間のバラツキが大きい。こうしたバラツキは、音響情報の表現にとって周波数帯域の上端のほうで望ましくないので、上記の図5による説明のように、スペクトル平滑化装置305bで縮小される。スペクトル平滑化装置305bは、一次復号スペクトルY(ハット)を受信し、平滑化された一次復号スペクトルY(ハット)Eを提供し、そこでは、閾値fTを上回る周波数情報を表す係数値KYEのバラツキが縮小される。すなわち、破棄装置504の変数nは、平滑化一次復号スペクトルY(ハット)Eで閾値fTを上回る周波数情報(スペクトル指数KY nに一致する)を表す係数値KYEのバラツキを縮小するような値が選ばれる。
図6Bは、周波数図表で、図6Aの一次復号スペクトルY(ハット)のスペクトル・マグニチュード係数KSを、対応する平滑化一次復号スペクトルY(ハット)Eの係数値KYEを表すようにスペクトル平滑化装置305Bで修正したものを示している。
ケプストラム符号信号でのケプストラム変換とそれに続く上位の係数の破棄に対する代替策として、一次スペクトルY(ハット)を表すスペクトル係数を線形低域フィルタリングするか、閾値fTを上回る周波数成分を表す一次スペクトルY(ハット)のスペクトル係数を中央値フィルタリングすることによって、スペクトル平滑化を遂行してよい。
図7は、本発明の実施形態による通信システムに関するブロック図を示している。この実施形態によって、音響源信号xを第1のノードから第2のノードへ、低ビットレートの符号化信号として送信できる。ただし、この符号化信号は、第2ノードで、音響源信号xの推定値Z(ハット)に再構成される。このシステムは、送信器300と、送信媒体306と、受信器310と、を備える。
送信器300は、それ自体で、音響源信号xを受信する入力と、音響信号xの重要な特性を知覚的に表す基本符号信号Plを提供する出力と、を有する信号符号器702を備える。信号符号器702は、フィルタリング(一般的な意味で)されたバージョンの音響源信号xを表すターゲット信号rと、基本符号信号Plに基づく再構成された信号を表す一次符号信号yと、を提供する。ターゲット信号rと一次符号信号yとは、上記に説明した方法により、スペクトル平滑化装置305aの各々の305cにおいてスペクトル平滑化されるが、一方又は両方が平滑化される場合と、両方とも平滑化されない場合がある。
本発明の望ましい実施形態によれば、第1のスペクトル平滑化装置305aは、一次符号信号yを受信し、それに応答して平滑化一次符号信号yEを生成する。とは言え、ターゲット信号rを受信し、それに応じて平滑化ターゲット信号rEを生成するために、追加のスペクトル平滑化装置305cを送信器に含めてもよい。本発明の別の好ましい実施形態によれば、(一次符号信号yを改善するスペクトル平滑化装置305aではなく、)ターゲット信号rを改善するスペクトル平滑化装置305cのみが含められる。本発明のこうした様々な実施形態は、図7において破線と破線四角形で示されている。
スペクトル平滑化装置305aと305cとは両方とも、閾値fTを上回る周波数情報を表す(複数の)信号のスペクトル係数値のバラツキを縮小することで、平滑化一次符号信号yE(と、場合によっては平滑化ターゲット信号rEと)を生成するように、本発明の上記の説明による方法に従って動作する。
送信器300中の等化符号器703は、平滑化一次符号信号yEと(おそらく平滑化された)ターゲット信号r(E)とを受信する。等化符号器703は、(おそらく平滑化された)ターゲット信号r(E)のそれぞれの平滑化一次符号信号yEを周波数領域に変換し、変換された信号のスペクトル間のスペクトル比Cを計算して、(おそらく平滑化された)ターゲット信号r(E)と平滑化一次符号信号yEとの間の対数スケールのスペクトル差を表す。したがって、スペクトル比Cの大きさは、第1の符号信号Plで音響信号xがいかに適正に記述されているかを示している。
スペクトル比Cは、等化符号器703からの出力で供給され、量子化器704に転送される。量子化器704は、その出力で比信号Cに応答して第2の符号信号PCを提供する。第2の符号信号PCは、一連の係数を含む離散/量子化信号を表している。
最後に、送信器300は、第1の符号信号Plの各々の第2の符号信号PCを送信媒体306に送るように工夫された出力装置(図示せず)を備える。送信器300と受信器310との少なくとも1つが移動式の場合には、送信媒体306は、通常は少なくとも部分的に、1つ以上の無線資源により構成される。当然ながら、固定式又は移動式通信に適応した送信媒体なら、他の種類でも、本発明に従って同じように適正に適用可能である。
そして、受信器310は、信号Pl、PCの推定値を、送信された第1の信号P(ハット)lとして受信する。第1の送信信号P(ハット)lは、第1の符号信号Plを表し、それに対して第2の送信信号P(ハット)Cは二次符号信号P(ハット)Cを表す。送信された第1の信号P(ハット)lと第2の信号P(ハット)Cとは、音響源信号xの知覚的に改善された推定値Z(ハット)を再構成するために、受信器310により利用される。これを実行するために、受信器310は、等化復号器707と、再構成装置708と、スペクトル平滑化装置305bと、イコライザ709と、を備える。
再構成装置708は、第1の送信された信号P(ハット)lを入力経由で受信し、それに応答して、その出力で音響源信号xのスペクトルの推定値を表す一次復号スペクトルY(ハット)を生成する。一次復号スペクトルY(ハット)は、スペクトル平滑化装置305bに転送される。この装置305bは、提案した方法に従って、平滑化一次復号スペクトルY(ハット)Eを生成する。
等化符号器707は、第2の送信された信号P(ハット)Cを受信し、それに応答してその出力で推定の等化スペクトルC(ハット)を提供する。推定の等化スペクトルC(ハット)は、平滑化一次復号スペクトルY(ハット)Eと一緒にイコライザ709に転送される。イコライザ709は、推定の等化スペクトルC(ハット)と平滑化一次復号スペクトルY(ハット)Eとの乗算を実行する。それから、乗算の結果を逆変換して、時間領域の信号を形成する。この信号は、音源信号xの改善推定値Z(ハット)を構成し、イコライザ709の出力に送られる。
改善推定値Z(ハット)は、音源信号xの間接的表現を構成してもよい。例えば線形予測符号器の場合には、改善推定値Z(ハット)はその代わりに励起信号となり、その励起信号から、音源信号xの推定値が合成フィルタ経由で生成される。
多くの符号化方式のコーデック(例えば、GSM EFRコーダやAMRコーダ)は、フレーム又はサブフレーム内にセグメント化される音声信号にブロック単位で作用するので、音声信号のセグメント化に対応するブロック単位方式で等化演算子C(演算子Cは、推定の等化スペクトルC(ハット)により近似がとられる)を適用することが望ましい(GSM=Global system for Mobile Communicaton;AMR=Adaptive Multi−Rate)。もちろん、音源信号xの推定の平滑化スペクトルを表している周波数変換YEについても同じことが言える。
図8は、流れ図を用いて、本発明により音響信号を符号化する一般的な方法を説明している。第1ステップ801では、音響信号xを受信する。音響信号xの重要な特性を知覚的に表す基本符号信号Pは、次のステップ802で生成される。その後のステップ803では、基本符号信号Pが基づく少なくとも1つの信号成分の係数値のバラツキを縮小し、それに応答して対応する平滑化信号成分を生成する。拡張基本符号信号P(E)は、対応するところが欠けている平滑化信号成分から生成される。最後に、ステップ804では、拡張符号信号Pが、受信器への送信のために送信媒体に送られる。
図9は、流れ図を用いて、本発明に従って符号化情報を音響信号の推定値に復号する一般的な方法を説明している。第1ステップ901では、送信された少なくとも1つの(おそらく拡張された)符号信号P(ハット)(E)を送信媒体から受信する。一次復号スペクトルY(ハット)は、次のステップ902で、送信された少なくとも1つの(おそらく拡張された)符号信号P(ハット)(E)から生成される。その後、ステップ903で、平滑化一次復号スペクトルY(ハット)(E)が、一次復号スペクトルY(ハット)から形成される。最後に、ステップ904で、少なくとも1つの平滑化一次復号スペクトルY(ハット)Eに基づいて、音源信号の推定値Z(ハット)が生成される。推定値Z(ハット)は、人間の聴覚に対して高い知覚音質を有している。
以上に提案した本発明の実施形態はすべて、周波数領域での操作も含まれる。しかしながら、本発明の望ましい実施形態によれば、特にサブ帯域フィルタを用いて音響源信号を表す信号を少なくとも2つの異なる信号成分に分割することで、対応する措置が時間領域で遂行される。次に、信号成分は、所望の平滑化を得るために個別にパワー調整される。それから、パワー調整された信号成分は、閾値の周波数を上回る信号成分の周波数のバラツキが縮小される音響源信号の表現を構成する1つの平滑化基本符号信号に結合される。
本明細書で用いられる「comprises/comprising」という用語は、記述された特徴、整数、ステップ又は成分の存在を示す。しかしながら、こうした用語は、1つ以上の特徴、整数、ステップ、成分又はそれらのグループの存在又は追加を除外するものではない。
本発明は、各図において説明した実施形態に限定されるものではなく、請求の範囲内で自由に変更してよい。
本発明は、望ましい実施形態を用いてより詳しく説明される。望ましい実施形態は、いくつかの例で開示し、添付の図面を参照しながら説明する。 一次復号スペクトルの各係数による周波数図表である。ただし、各係数は、音響源信号の1つの周波数成分を表す。 図1Aで閾値の周波数を上回る周波数帯域の周波数成分を表している各係数について、平均係数値を計算する方法を説明する図である。 閾値の周波数を上回る周波数帯域の周波数成分の元の係数値を、図1Bの平均係数値で、どのように置き換えるかを説明する図である。 重なり合う周波数帯域で係数値を加算するのに用いるウィンドウ関数の第1の例を示す図である。 重なり合う周波数帯域で係数値を加算するのに用いるウィンドウ関数の第2の例を示す図である。 本発明による送信器/受信器ペアに関するブロック図である。 本発明の第1の実施形態によるスペクトル平滑化装置に関するブロック図である。 本発明の第2の実施形態によるスペクトル平滑化装置に関するブロック図である。 本発明の第2の実施形態によるスペクトル平滑化装置でさらに符号化すべき一次復号スペクトルの中間係数に関する周波数図表である。 周波数図表において、本発明の第2の実施形態により派生する平滑化復号スペクトルの係数を示す図である。 本発明の実施形態による通信システムに関するブロック図である。 流れ図を用いて、本発明による音響信号を符号化する一般的な方法を説明する図である。 流れ図を用いて、本発明による符号化情報を音響信号の推定値に復号する一般的な方法を説明する図である。

Claims (44)

  1. 音響源信号(x)を符号化して、送信媒体(306)を介して送信用の符号化情報(P1、PC)を生成する方法において、該方法が、
    音響源信号(x)に応答して、当該音響信号(x)の知覚的に重要な特性を表す基本符号信号(P1)と、フィルタリング処理された前記音響源信号(x)を表すターゲット信号(r)と、前記基本符号信号(P1)に基づいて再構成された信号を表す一次符号信号(y)を生成するステップと、
    一次符号信号(y)とターゲット信号(r)との少なくとも1つに応答して、一次符号信号(y)の各々のターゲット信号(r)の知覚的に改善された表現を構成する対応の平滑化信号(yE;rE)を生成するステップと、
    前記平滑化一次符号信号(yE)及び前記ターゲット信号(r)と、前記一次符号信号(y)及び前記平滑化ターゲット信号(rE)と、前記平滑化一次符号信号(yE)及び前記平滑化ターゲット信号(rE)と、のいずれかの組み合わせに基づいて、二次符号信号(PC)を生成するステップと、
    を含み、
    更に、周波数成分を表す各係数(KY)を含む前記一次符号信号(y)と、
    周波数成分を表す各係数を含む前記ターゲット信号(r)と、
    前記一次符号信号(y)の各々の前記ターゲット信号(r)の選択的に修正されたバージョンであり、閾値(fT)を上回る周波数情報を表す係数値(KYE)のバラツキが縮小される、前記対応する平滑化信号(yE;rE)と、
    を含むことを特徴とする方法。
  2. 閾値(fT)を上回る周波数成分を表す前記一次符号信号(y)の前記係数(KY)を1つ以上の周波数帯域(i、ii、iii)に分割するステップと、
    前記各々の周波数帯域(i、ii、iii)内の前記係数(KY)の平均係数値(Ki、Kii、Kiii)を計算するステップと、
    各周波数帯域(i、ii、iii)内の前記係数(KY)を前記各々の平均係数値(Ki、Kii、Kiii)で置き換えるステップと、
    により、一次符号信号(y)から得られる平滑化一次符号信号(yE)によって特徴付けられる請求項1に記載の方法。
  3. 周波数帯域(i、ii、iii)のそれぞれの帯域幅が等しいことを特徴とする請求項2に記載の方法。
  4. 周波数帯域(i、ii、iii)のそれぞれの領域が部分的に重複していることを特徴とする請求項2又は3に記載の方法。
  5. 各周波数帯域(i、ii、iii)とウィンドウ関数(W1;W2)とを乗算し、対応のウィンドウをかけた周波数帯域を取得するステップと、
    重複する各領域で隣り合う前記ウィンドウをかけた周波数帯域の係数値を加算するステップと、
    によって得られる前記周波数帯域(i、ii、iii)の重複領域の結果の係数値により特徴付けられる請求項4に記載の方法。
  6. 重複しない周波数領域では一定の大きさで、隣り合う周波数帯域が重なり合う高周波側遷移領域と低周波側遷移領域とでは大きさが次第に減少する前記ウィンドウ関数(W1;W2)を特徴とする請求項5に記載の方法。
  7. ケプストラム領域の成分を各々が表す一連のケプストラム係数を有するケプストラム符号信号を生成するステップと、
    前記ケプストラム符号信号中の特定の次数(n次、nは2以上の任意の整数)以上のケプストラム係数を破棄するステップと、
    を伴う前記一次符号信号(y)の選択的な修正を特徴とする、請求項1に記載の方法。
  8. 前記閾値(fT)を上回る周波数情報を表す前記平滑化一次符号信号(yE)の係数値(KYE)のバラツキが縮小するような前記特定の次数(n次)を選ぶことを特徴とする、請求項7に記載の方法。
  9. 前記第1の符号信号(P1)が前記音響信号(x)をいかに適正に記述するかを示す前記第2の符号信号(PC)によって特徴付けられる、請求項1から8のいずれかひとつに記載の方法。
  10. 前記ターゲット信号(r)と前記一次符号信号(y)との間のスペクトル比を表す前記二次符号信号(PC)によって特徴付けられる請求項9に記載の方法。
  11. 前記ターゲット信号(r)と前記一次符号信号(y)との間の対数スケールのスペクトル差を表す前記二次符号信号(PC)によって特徴付けられる請求項9に記載の方法。
  12. 前記音響信号(x)に応答して周波数変換されたターゲット信号(R)を生成するステップと、
    前記音響信号(x)に応答して前記周波数変換された一次符号信号(Y)を生成するステップと、
    前記周波数変換されたターゲット信号(R)と前記周波数変換された一次符号信号(Y)との間のスペクトル比(C)を生成するステップと、
    前記スペクトル比(C)に基づいて前記二次符号信号(PC)を形成するステップと、
    から得られる前記二次符号信号(PC)によって特徴付けられる請求項10又は11のいずれかに記載の方法。
  13. コンピュータの内部記憶装置に直接ロード可能で、コンピュータ上で稼動中に請求項1から12のいずれかひとつのステップを制御するソフトウェアを含むコンピュータ・プログラム。
  14. 請求項1から12のいずれかひとつのステップをコンピュータに制御させるためのプログラムを記録した、コンピュータ読み取り可能媒体。
  15. 少なくとも1つの符号信号(P(E))の推定値を表す少なくとも1つの送信された符号信号(P(ハット)(E))を受信するステップと、
    前記少なくとも1つの送信された符号信号(P(ハット)(E))から少なくとも1つの一次復号スペクトル(Y(ハット))を復号するステップと、
    前記少なくとも1つの一次復号スペクトル(Y(ハット))から前記平滑化一次復号スペクトル(Y(ハット)(E))を生成するステップと、
    周波数成分を表す各係数(KY)を含む平滑化復号一次スペクトル(Y(ハット)(E))であって、閾値(fT)を上回る周波数情報を表す係数値(KYE)のバラツキが縮小される、前記少なくとも1つの一次復号スペクトル(Y(ハット))の選択的に修正されたバージョンの1つである前記平滑化一次復号スペクトル(Y(ハット)(E))によって特徴付けられる、少なくとも前記平滑化一次復号スペクトル(Y(ハット)(E))に基づいて、音響源信号(x)の推定値(z(ハット))を生成するステップと、
    を含む、送信媒体(306)で送信された符号化情報から前記音響源信号(x)の表現の前記推定値(z(ハット))を復号する方法。
  16. 前記音響源信号(x)自体を構成する前記音響源信号(x)の表現によって特徴付けられる請求項15に記載の方法。
  17. 前記音響源信号(x)を得ることが可能な励起信号を構成する前記音響源信号(x)の表現によって特徴付けられる請求項15に記載の方法。
  18. 閾値(fT)を上回る周波数成分を表す少なくとも1つの一次復号スペクトル(Y(ハット))の1つの係数(KY)を、1つ以上の周波数帯域(i、ii、iii)に分割するステップと、
    前記各周波数帯域(i、ii、iii)内の前記係数(KY)の平均係数値(Ki、Kii、Kiii)を計算するステップと、
    前記各周波数帯域内(i、ii、iii)内の前記係数(KY)を、前記各々の平均係数値(Ki、Kii、Kiii)で置き換えるステップと、
    により、少なくとも1つの一次復号スペクトルY(ハット)から得られる平滑化一次復号信号(Y(ハット)E)によって特徴付けられる、請求項15から17のいずれかひとつに記載の方法。
  19. 前記周波数帯域(i、ii、iii)が等距離であることを特徴とする請求項18に記載の方法。
  20. 少なくとも一部が重複している前記周波数帯域(i、ii、iii)によって特徴付けられる請求項18又は19のいずれかに記載の方法。
  21. 前記各周波数帯域(i、ii、iii)とウィンドウ関数(W1;W2)とを乗算し、対応するウィンドウをかけた周波数帯域を取得するステップと、
    重複する各領域で隣り合うウィンドウをかけた周波数帯域の係数値を加算するステップと、
    によって得られる前記周波数帯域(i、ii、iii)の重複領域の結果の係数値によって特徴付けられる請求項20に記載の方法。
  22. 重複しない周波数領域では一定の大きさで、隣り合う周波数帯域が重なり合う高周波側遷移領域と下位低周波側遷移領域とでは大きさが次第に減少するウィンドウ関数(W1;W2)を特徴とする請求項21に記載の方法。
  23. ケプストラム領域の成分を表す一連の各ケプストラム係数を有するケプストラム符号信号を生成するステップと、
    ケプストラム符号信号中の特定の次数(n次)以上のケプストラム係数を破棄するステップと、
    を伴う少なくとも1つの一次復号スペクトル(Y(ハット))の選択的な修正を特徴とする、請求項15から17のいずれかひとつに記載の方法。
  24. 前記閾値(fT)を上回る周波数情報を表す前記平滑化一次復号スペクトル(Y(ハット)E)の係数値(KYE)のバラツキが縮小するような前記特定の次数(n次)を選ぶことを特徴とする、請求項23に記載の方法。
  25. 前記音響信号(x)の符号表現を構成する第1の符号信号(P1)の第1の推定値(P(ハット)1)と、
    前記第1の符号信号(P1)が前記音響信号(x)をいかに適正に記述しているかを示す第2の符号信号(PC)の第2の推定値と、
    を含む少なくとも1つの送信された拡張符号信号(P(ハット)(E))によって特徴付けられる、請求項15から24のいずれかひとつに記載の方法。
  26. ターゲット信号(r)のスペクトルと一次符号信号(y)のスペクトルとの間の比を表す前記二次符号信号(PC)を特徴とする、請求項25に記載の方法。
  27. ターゲット信号(r)の対数スケールのスペクトルと一次符号信号(y)の対数スケールのスペクトルとの差を表す前記二次符号信号(PC)を特徴とする、請求項25に記載の方法。
  28. 前記第1の推定値(P(ハット)1)に応答して、前記少なくとも1つの一次復号スペクトル(Y(ハット))を生成するステップと、
    前記少なくとも1つの一次復号スペクトル(Y(ハット))に応答して、前記平滑化一次復号スペクトル(Y(ハット)E)を生成するステップと、
    前記第2の推定値(P(ハット)C)に応答して、等化スペクトル(C(ハット))を生成するステップと、
    前記等化スペクトル(C(ハット))と前記平滑化一次復号スペクトル(Y(ハット)E)とに応答して、音響源信号(x)の推定値(z(ハット))を生成するステップと、
    により得られる前記音響源信号(x)の前記推定値(z(ハット))によって特徴付けられる、請求項25から27のいずれかひとつに記載の方法。
  29. コンピュータの内部記憶装置に直接ロード可能で、コンピュータ上で稼動中に請求項15から28のいずれかひとつのステップを制御するソフトウェアを含むコンピュータ・プログラム。
  30. 請求項15から28のいずれかひとつのステップをコンピュータに制御させるプログラムを記録した、コンピュータ読み取り可能媒体。
  31. 音響源信号(x)を受信する入力を有し、音響源信号(x)の推定値(z(ハット))を再構成できる前記音響信号(x)の知覚的に重要な特性を表す基本符号信号(P1)を提供する第1の出力と、フィルタリングしたバージョンの音響源信号(x)を表すターゲット信号(r)を提供する第2の出力と、前記基本符号信号(P1)に基づいて再構成された信号を表す一次符号信号(y)を提供する第3の出力と、を有する一次符号器(702)と、
    前記一次符号信号(y)に応答して、一次符号信号(y)の知覚的に改善された表現を構成する平滑化一次符号信号(yE)を生成するための、少なくとも1つのスペクトル平滑化装置(305a)と、
    前記平滑化一次符号信号(yE)と前記ターゲット信号(r)とに基づいて二次符号信号(PC)を発生するための量子化器(704)と、
    を備え、
    前記少なくとも1つのスペクトル平滑化装置(305a)が、閾値(fT)を上回る周波数情報を表す係数値(KYE)のバラツキを縮小するように前記一次符号信号(y)を選択的に修正することによって、前記一次符号信号(y)から平滑化出力信号(yE)を生成するよう構成されている、
    ことを特徴とする、送信媒体(306)で送信する符号化情報を生成するために音響源信号(x)を符号化する送信器。
  32. 周波数成分を表す入力信号(P)の各係数(K)を記憶するための第1のバッファ記憶装置(401)と、
    閾値(fT)を上回る周波数成分に対応する係数(kY n+1〜kY m)用に、少なくとも1つの周波数帯域(i、ii、iii)の各々のために第1のバッファ記憶装置(401)に記憶された係数(k n+1〜k m)の平均係数値(Ki、Kii、Kiii)を計算するための処理装置(402)と、
    特定の周波数帯域(i、ii、iii)で少なくとも1つの基本符号信号(P)に対応する係数(K)がある分だけ、各周波数帯域(i、ii、iii)のそれぞれの平均係数値(Ki、Kii、Kiii)を反復記憶するための第2のバッファ記憶装置(403)と、
    閾値(fT)までの係数(kY 1〜kY n)を第1のバッファ記憶装置(401)から読み出し、閾値(fT)を上回る係数(kY n+1〜kY m)を第2のバッファ記憶装置(403)から読み出して、出力信号(yE)の係数(KYE)を形成するための読み出し装置(404)と、
    を、少なくとも1つのスペクトル平滑化装置(305a、305b)が備えることを特徴とする、請求項31に記載の送信器。
  33. 前記周波数帯域(i、ii、iii)が等距離であることを特徴とする請求項32に記載の送信器。
  34. 少なくとも一部が重複している前記周波数帯域(i、ii、iii)によって特徴付けられる請求項32又は33に記載の送信器。
  35. 前記各周波数帯域(i、ii、iii)とウィンドウ関数(W1;W2)とを乗算し、対応のウィンドウをかけた周波数帯域を取得するステップと、
    重複する各領域で隣り合うウィンドウをかけた周波数帯域の係数値を加算するステップと、
    によって、前記周波数帯域(i、ii、iii)の重複領域の結果の係数値を得るための係数コンバイナを備えることを特徴とする、請求項34に記載の送信器。
  36. 重複しない周波数領域では一定の大きさで、隣り合う周波数帯域が重なり合う高周波側遷移領域と下位低周波側遷移領域とでは大きさが次第に減少する前記ウィンドウ関数(W1;W2)を特徴とする請求項35に記載の送信器。
  37. 送信媒体(306)から受信した符号化情報から音響源信号(x)の表現の推定値(z(ハット))を復号する受信器であって、受信した符号化信号(P(ハット)(E))から得られる一次復号スペクトル(Y(ハット))を受信する入力と、平滑化一次復号スペクトル(Y(ハット)E)を提供する出力と、を有するスペクトル平滑化装置(305b)を備える前記受信器において、前記平滑化一次復号スペクトル(Y(ハット)E)が周波数成分を表す各係数(KY)を含むことと、スペクトル平滑化装置(305b)が閾値(fT)を上回る周波数情報を表す係数値(KYE)のバラツキを縮小するように前記一次復号スペクトル(Y(ハット))を選択的に修正することで前記平滑化一次復号スペクトル(Y(ハット)E)を発生するよう工夫されていることを特徴とする前記受信器。
  38. 前記符号化情報(P(ハット)(E))で第1の送信された信号(P(ハット)1)を受信する入力と、一次復号スペクトル(Y(ハット))を提供する出力と、を有する再構成装置(708)と、
    前記符号化情報(P(ハット)(E))で第2の送信された信号(P(ハット)C)を受信する入力と、推定の等化スペクトル(C(ハット))を提供する出力と、を有する等化復号器(707)と、
    前記平滑化一次復号スペクトル(Y(ハット)E)を受信する第1の入力と、前記推定の等化スペクトル(C(ハット))を受信する第2の入力と、前記音響源信号(x)の前記推定値(z(ハット))を提供する出力と、を有するイコライザ(709)と、
    を備えることを特徴とする請求項37に記載の受信器。
  39. 周波数成分を表す前記一次復号スペクトル(Y(ハット))の各係数(KY)を記憶するための第1のバッファ記憶装置(401)と、
    前記閾値(fT)を上回る周波数成分に対応する係数(kY n+1〜kY m)用に、少なくとも1つの周波数帯域(i、ii、iii)の各々のために前記第1のバッファ記憶装置(401)に記憶された前記係数(kY n+1〜kY m)の平均係数値(Ki、Kii、Kiii)を計算するための処理装置(402)と、
    前記特定の周波数帯域(i、ii、iii)で前記少なくとも1つの基本符号信号(P)に対応する係数(KY)がある分だけ、前記各周波数帯域(i、ii、iii)の前記それぞれの平均係数値(Ki、Kii、Kiii)を反復記憶するための第2のバッファ記憶装置(403)と、
    前記閾値(fT)までの係数(kY 1〜kY n)を前記第1のバッファ記憶装置(401)から読み出し、前記閾値(fT)を上回る係数(kY n+1〜kY m)を前記第2のバッファ記憶装置(403)から読み出して、前記平滑化一次復号スペクトル(Y(ハット)E)の係数(KYE)を形成するための読み出し装置(404)と、
    を備えた、前記スペクトル平滑化装置(305b)を特徴とする請求項38に記載の受信器。
  40. 前記周波数帯域(i、ii、iii)が等距離であることを特徴とする請求項39に記載の受信器。
  41. 少なくとも一部が重複している前記周波数帯域(i、ii、iii)によって特徴付けられる請求項39又は40に記載の受信器。
  42. 前記各周波数帯域(i、ii、iii)とウィンドウ関数(W1;W2)とを乗算し、対応のウィンドウをかけた周波数帯域を取得するステップと、
    重複する各領域で隣り合うウィンドウをかけた周波数帯域の係数値を加算するステップと、
    によって、前記周波数帯域(i、ii、iii)の重複領域の結果の係数値を得るための係数コンバイナを備えることを特徴とする、請求項41に記載の受信器。
  43. 重複しない周波数領域では一定の大きさで、隣り合う周波数帯域が重なり合う高周波側遷移領域と下位低周波側遷移領域とでは大きさが次第に減少するウィンドウ関数(W1;W2)を特徴とする請求項42に記載の受信器。
  44. 請求項31から36のいずれかひとつにより前記音響源信号(x)を符号化して符号化情報を生成するための送信器(300)と、
    請求項37から43のいずれかひとつにより送信器300から生成された符号化情報を受信する入力を有し、符号化情報を前記音響源信号(x)の推定値(z(ハット))に復号する受信器(301)と、
    送信器(300)から受信器(310)に前記少なくとも1つの拡張符号信号(P(E))を送信するための送信媒体(306)と、
    を備えた、前記送信器(300)から前記受信器(301)に前記音響源信号(x)を送信するための通信システム。
JP2002536999A 2000-10-20 2001-09-07 音響信号の符号化の知覚的改善 Expired - Lifetime JP5222452B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP00850172.8 2000-10-20
EP00850172A EP1199812A1 (en) 2000-10-20 2000-10-20 Perceptually improved encoding of acoustic signals
PCT/SE2001/001919 WO2002033692A1 (en) 2000-10-20 2001-09-07 Perceptually improved encoding of acoustic signals

Publications (2)

Publication Number Publication Date
JP2004515801A JP2004515801A (ja) 2004-05-27
JP5222452B2 true JP5222452B2 (ja) 2013-06-26

Family

ID=8175680

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002536999A Expired - Lifetime JP5222452B2 (ja) 2000-10-20 2001-09-07 音響信号の符号化の知覚的改善

Country Status (12)

Country Link
US (1) US6611798B2 (ja)
EP (2) EP1199812A1 (ja)
JP (1) JP5222452B2 (ja)
KR (1) KR100832144B1 (ja)
CN (1) CN1312658C (ja)
AT (1) ATE380378T1 (ja)
AU (2) AU2001284606B2 (ja)
CA (1) CA2424373C (ja)
DE (1) DE60131766T2 (ja)
ES (1) ES2296791T3 (ja)
PT (1) PT1328923E (ja)
WO (1) WO2002033692A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60029147T2 (de) * 2000-12-29 2007-05-31 Nokia Corp. Qualitätsverbesserung eines audiosignals in einem digitalen netzwerk
IL144158A (en) 2001-07-05 2011-06-30 Mosaid Technologies Inc Socket for connecting an analog telephone to a digital communications network that carries digital voice signals
US7308406B2 (en) * 2001-08-17 2007-12-11 Broadcom Corporation Method and system for a waveform attenuation technique for predictive speech coding based on extrapolation of speech waveform
AU2003234763A1 (en) * 2002-04-26 2003-11-10 Matsushita Electric Industrial Co., Ltd. Coding device, decoding device, coding method, and decoding method
DE10254612A1 (de) * 2002-11-22 2004-06-17 Humboldt-Universität Zu Berlin Verfahren zur Ermittlung spezifisch relevanter akustischer Merkmale von Schallsignalen für die Analyse unbekannter Schallsignale einer Schallerzeugung
FR2852172A1 (fr) * 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio
US7724827B2 (en) * 2003-09-07 2010-05-25 Microsoft Corporation Multi-layer run level encoding and decoding
US7075434B2 (en) * 2003-09-22 2006-07-11 Michael Shafir Encoding and decoding method and system
US7536302B2 (en) * 2004-07-13 2009-05-19 Industrial Technology Research Institute Method, process and device for coding audio signals
KR100619893B1 (ko) * 2004-07-23 2006-09-19 엘지전자 주식회사 휴대단말기의 개선된 저전송률 선형예측코딩 장치 및 방법
KR20060067016A (ko) 2004-12-14 2006-06-19 엘지전자 주식회사 음성 부호화 장치 및 방법
US7930176B2 (en) 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
US8599925B2 (en) * 2005-08-12 2013-12-03 Microsoft Corporation Efficient coding and decoding of transform blocks
US7490036B2 (en) * 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
EP1870880B1 (en) 2006-06-19 2010-04-07 Sharp Kabushiki Kaisha Signal processing method, signal processing apparatus and recording medium
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
US7774205B2 (en) * 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
WO2010016271A1 (ja) * 2008-08-08 2010-02-11 パナソニック株式会社 スペクトル平滑化装置、符号化装置、復号装置、通信端末装置、基地局装置及びスペクトル平滑化方法
WO2013022426A1 (en) * 2011-08-08 2013-02-14 Hewlett-Packard Development Company, L.P. Method and system for compression of a real-time surveillance signal
CN105321521B (zh) * 2014-06-30 2019-06-04 美的集团股份有限公司 基于终端运行环境的音频信号编码方法和系统
WO2018084305A1 (ja) * 2016-11-07 2018-05-11 ヤマハ株式会社 音声合成方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US920832A (en) 1906-11-26 1909-05-04 Vickers Sons & Maxim Ltd Automatic gun.
US5307441A (en) 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
US5206884A (en) * 1990-10-25 1993-04-27 Comsat Transform domain quantization technique for adaptive predictive coding
IT1241358B (it) * 1990-12-20 1994-01-10 Sip Sistema di codifica del segnale vocale con sottocodice annidato
ES2087522T3 (es) 1991-01-08 1996-07-16 Dolby Lab Licensing Corp Descodificacion/codificacion para campos sonoros multidimensionales.
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
US5526464A (en) 1993-04-29 1996-06-11 Northern Telecom Limited Reducing search complexity for code-excited linear prediction (CELP) coding
US5574825A (en) 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
JPH07261797A (ja) * 1994-03-18 1995-10-13 Mitsubishi Electric Corp 信号符号化装置及び信号復号化装置
JP3237089B2 (ja) 1994-07-28 2001-12-10 株式会社日立製作所 音響信号符号化復号方法
JP3970327B2 (ja) * 1996-02-15 2007-09-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴイ 複雑さが軽減された信号送信システム
TW416044B (en) * 1996-06-19 2000-12-21 Texas Instruments Inc Adaptive filter and filtering method for low bit rate coding
EP0878790A1 (en) * 1997-05-15 1998-11-18 Hewlett-Packard Company Voice coding system and method
KR20000068538A (ko) * 1997-07-11 2000-11-25 이데이 노부유끼 정보 복호 방법 및 장치, 정보 부호화 방법 및 장치, 및 제공매체
TW408298B (en) * 1997-08-28 2000-10-11 Texas Instruments Inc Improved method for switched-predictive quantization
JPH11296196A (ja) * 1998-04-13 1999-10-29 Hitachi Ltd 音声符号化方法および音声符号化処理装置
JP2000047695A (ja) * 1998-07-29 2000-02-18 Oki Electric Ind Co Ltd 符号化装置及び復号化装置
US6182030B1 (en) * 1998-12-18 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced coding to improve coded communication signals

Also Published As

Publication number Publication date
EP1199812A1 (en) 2002-04-24
CN1312658C (zh) 2007-04-25
KR20030048061A (ko) 2003-06-18
DE60131766T2 (de) 2008-11-13
CA2424373C (en) 2011-08-30
ATE380378T1 (de) 2007-12-15
AU8460601A (en) 2002-04-29
EP1328923B1 (en) 2007-12-05
JP2004515801A (ja) 2004-05-27
ES2296791T3 (es) 2008-05-01
DE60131766D1 (de) 2008-01-17
KR100832144B1 (ko) 2008-05-27
PT1328923E (pt) 2008-02-28
CA2424373A1 (en) 2002-04-25
WO2002033692A1 (en) 2002-04-25
US20020049584A1 (en) 2002-04-25
CN1470048A (zh) 2004-01-21
US6611798B2 (en) 2003-08-26
EP1328923A1 (en) 2003-07-23
AU2001284606B2 (en) 2007-01-25

Similar Documents

Publication Publication Date Title
JP5222452B2 (ja) 音響信号の符号化の知覚的改善
JP5193413B2 (ja) 符号化音響信号の復号に関するエラー隠匿
JP5047268B2 (ja) Mdct係数を使用する音声後処理
US5778335A (en) Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
JP3653826B2 (ja) 音声復号化方法及び装置
RU2419891C2 (ru) Способ и устройство эффективной маскировки стирания кадров в речевых кодеках
JP4550289B2 (ja) Celp符号変換
JP3881943B2 (ja) 音響符号化装置及び音響符号化方法
US8391212B2 (en) System and method for frequency domain audio post-processing based on perceptual masking
US6654716B2 (en) Perceptually improved enhancement of encoded acoustic signals
US8200496B2 (en) Audio signal decoder and method for producing a scaled reconstructed audio signal
JP5413839B2 (ja) 符号化装置および復号装置
JP5285162B2 (ja) ピーク検出に基づいた選択型スケーリングマスク演算
AU2001284608A1 (en) Error concealment in relation to decoding of encoded acoustic signals
AU2001284606A1 (en) Perceptually improved encoding of acoustic signals

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110617

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110920

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110928

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111017

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111024

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111117

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120703

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120906

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120913

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121105

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121112

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121203

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130311

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160315

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5222452

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term