JP5295380B2 - 符号化装置、復号化装置およびこれらの方法 - Google Patents

符号化装置、復号化装置およびこれらの方法 Download PDF

Info

Publication number
JP5295380B2
JP5295380B2 JP2011537133A JP2011537133A JP5295380B2 JP 5295380 B2 JP5295380 B2 JP 5295380B2 JP 2011537133 A JP2011537133 A JP 2011537133A JP 2011537133 A JP2011537133 A JP 2011537133A JP 5295380 B2 JP5295380 B2 JP 5295380B2
Authority
JP
Japan
Prior art keywords
decoding
layer
encoding
signal
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011537133A
Other languages
English (en)
Other versions
JPWO2011048798A1 (ja
Inventor
正浩 押切
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2011537133A priority Critical patent/JP5295380B2/ja
Publication of JPWO2011048798A1 publication Critical patent/JPWO2011048798A1/ja
Application granted granted Critical
Publication of JP5295380B2 publication Critical patent/JP5295380B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、スケーラブル符号化(階層符号化)を実現する符号化装置、復号化装置およびこれらの方法に関する。
移動体通信システムでは、電波資源等の有効利用のために、音声信号を低ビットレートに圧縮して伝送することが要求されている。その一方で、通話音声の品質向上や臨場感の高い通話サービスの実現も望まれており、その実現には、音声信号の高品質化のみならず、より帯域の広い音楽信号等、音声信号以外の信号をも高品質に符号化することが望ましい。
このように相反する2つの要求に対し、複数の符号化技術を階層的に統合する技術が有望視されている。この技術は、音声信号に適したモデルで入力信号を低ビットレートで符号化する第1レイヤと、入力信号と第1レイヤの復号信号との差分信号を音声以外の信号にも適したモデルで符号化する第2レイヤとを階層的に組み合わせるものである。このように階層的に符号化を行う技術は、符号化装置から得られるビットストリームにスケーラビリティ性、すなわち、ビットストリームの一部の情報からでも復号信号を得ることができる性質を有するため、一般的にスケーラブル符号化(階層符号化)と呼ばれている。
スケーラブル符号化方式は、その性質から、ビットレートの異なるネットワーク間の通信に柔軟に対応することができるので、IPプロトコルで多様なネットワークが統合されていく今後のネットワーク環境に適したものと言える。
MPEG−4(Moving Picture Experts Group phase-4)で規格化された技術を用いてスケーラブル符号化を実現する例として、例えば、非特許文献1に開示されている技術がある。この技術は、第1レイヤにおいて、音声信号に適したCELP(Code Excited Linear Prediction;符号励振線形予測)符号化を用い、第2レイヤにおいて、原信号から第1レイヤ復号信号を減じた残差信号に対して、AAC(Advanced Audio Coder)或いはTwinVQ(Transform Domain Weighted Interleave Vector Quantization;周波数領域重み付きインターリーブベクトル量子化)等の変換符号化を用いる。
このようなスケーラブル構成を用いることにより、音声信号及び、音声信号よりも帯域の広い音楽信号等の高品質化を図ることが可能となる。
上記のように、階層符号化の少なくとも一つのレイヤに変換符号化を適用した場合、音声信号の始端部(または終端部)において変換符号化による符号化歪がフレーム全体に伝播し、この符号化歪が音質を劣化させるという問題がある。このとき生じる符号化歪がプリエコー(またはポストエコー)と呼ばれるものである。
図1は、階層数2のスケーラブル符号化を用いて音声信号の始端部を符号化および復号した場合に、復号信号が生成される様子を示している。ここで、第1レイヤでは5msのサブフレーム毎に音源信号の符号化を行うCELPを用い、第2レイヤでは20msのフレーム毎に符号化を行う変換符号化を用いているものとする。
以下では、第1レイヤのように符号化の対象となる信号の時間長が5msと短い場合に符号化の間隔が短いため「時間分解能が高い」、第2レイヤのように符号化の対象となる信号の時間長が20msと長い場合に符号化の間隔が長いため「時間分解能が低い」、と呼ぶことにする。
第1レイヤでは、5ms単位で復号信号を生成できるため、符号化歪の伝播は高々5msで済む(図1(a)参照)。一方、第2レイヤでは、符号化歪が20msと広い範囲に伝播してしまう。本来、このフレームの前半部は無音であり、後半部にのみ第2レイヤ復号信号が生成されなければならないのにも関わらず、ビットレートを十分に高くできない場合に、符号化歪によって前半部にも波形が生じてしまう(図1(b)参照)。一般に、変換符号化において高い符号化効率を得るためには、フレーム長は20msもしくはそれ以上の長さに設定する必要がある。このため、CELPと比べて時間分解能が低くなるという欠点がある。
第1レイヤ復号信号と第2レイヤ復号信号とを加算して最終的な復号信号を算出すると、復号信号の区間Aに符号化歪が残ってしまい(図1(c)参照)、音質が劣化してしまう。このような現象は、音声信号(または音楽信号)の始端部で生じ、この符号化歪はプリエコーと呼ばれる。なお、音声信号(または音楽信号)の終端部でも同様の符号化歪が生じ、この符号化歪はポストエコーと呼ばれる。
このようなプリエコーの発生を回避する方法として、音声信号の始端部を検出し、始端部を検出した場合に変換符号化のフレーム長(分析長)を短くするよう処理を切り替える方法がある。特許文献1には、第1レイヤのCELPのゲイン情報の時間的な変化から音声信号の始端部を検出し、検出した始端部の情報を第2レイヤに通知する始端部検出方法が開示されている。
このように始端部における分析長を短くして時間分解能を上げることにより、符号化歪の伝播を短く抑えることができ、プリエコーの発生を回避することができる。
しかし、上記方法では、分析長の切り替え、および2種類の分析長に適した周波数変換方法ならびに変換係数の量子化方法が必要となり、処理の複雑度が増すという課題がある。
また、特許文献1には、検出した始端部の情報を使ったプリエコーを回避する具体的な方法の開示が無く、プリエコーを回避することができない。
一方、プリエコーの発生を回避する方法として、特許文献2には、第1レイヤおよび第2レイヤ各々の復号信号のエネルギー包絡の関係から復号信号に乗じる増幅率を求め、求めた増幅率を復号信号に乗じる方法が開示されている。
特開2003−233400号公報 特表2008−539456号公報
三木弼一編著、「MPEG−4のすべて」、初版、(株)工業調査会、1998年9月30日、p.126-127
しかしながら、特許文献2に記載の方法は、第2レイヤで符号化した後に、第2レイヤの復号信号の一部を大きく減衰させることに相当し、第2レイヤの符号化データの一部が無駄になってしまい効率的でないという課題がある。
本発明の目的は、時間分解能の低い高位レイヤに起因して生じるプリエコーまたはポストエコーの発生を抑え、主観品質の高い符号化および復号化を実現することができる符号化装置、復号化装置およびこれらの方法を提供することである。
本発明に係る符号化装置の一つの態様は、低位レイヤと、前記低位レイヤにおける時間分解能より時間分解能が低い高位レイヤとからなるスケーラブル符号化を行う符号化装置であって、入力信号を符号化して低位レイヤ符号化信号を得る低位レイヤ符号化手段と、前記低位レイヤ符号化信号を復号化して低位レイヤ復号信号を得る低位レイヤ復号化手段と、前記入力信号と前記低位レイヤ復号信号との誤差信号を得る誤差信号生成手段と、前記低位レイヤ復号信号の有音部の始端部または終端部を判定する判定手段と、前記判定手段により始端部または終端部と判定された場合に、符号化対象帯域から除外する帯域を選択し、前記選択した帯域を除外して前記誤差信号を符号化し、高位レイヤ符号化信号を得る高位レイヤ符号化手段と、を具備する構成を採る。
本発明に係る復号化装置の一つの態様は、低位レイヤと、前記低位レイヤにおける時間分解能より時間分解能が低い高位レイヤとからなるスケーラブル符号化を行う符号化装置によって符号化された低位レイヤ符号化信号及び高位レイヤ符号化信号を復号する復号化装置であって、前記低位レイヤ符号化信号を復号して低位レイヤ復号信号を得る低位レイヤ復号化手段と、予め設定された条件に基づいて選択された帯域を除外又は加工して前記高位レイヤ符号化信号を復号し、復号誤差信号を得る高位レイヤ復号化手段と、前記低位レイヤ復号信号と前記復号誤差信号とを加算して復号信号を得る加算手段と、を具備する構成を採る。
本発明に係る符号化方法の一つの態様は、低位レイヤと、前記低位レイヤにおける時間分解能より時間分解能が低い高位レイヤとからなるスケーラブル符号化を行う符号化方法であって、入力信号を符号化して低位レイヤ符号化信号を得る低位レイヤ符号化ステップと、前記低位レイヤ符号化信号を復号化して低位レイヤ復号信号を得る低位レイヤ復号化ステップと、前記入力信号と前記低位レイヤ復号信号との誤差信号を得る誤差信号生成ステップと、前記低位レイヤ復号信号の有音部の始端部または終端部を判定する判定ステップと、前記判定ステップにおいて始端部または終端部と判定された場合に、符号化対象帯域から除外する帯域を選択し、前記選択した帯域を除外して前記誤差信号を符号化し、高位レイヤ符号化信号を得る高位レイヤ符号化ステップと、を具備する。
本発明に係る復号化方法の一つの態様は、低位レイヤと、前記低位レイヤにおける時間分解能より時間分解能が低い高位レイヤとからなるスケーラブル符号化を行う符号化方法によって符号化された低位レイヤ符号化信号及び高位レイヤ符号化信号を復号する復号化方法であって、前記低位レイヤ符号化信号を復号して低位レイヤ復号信号を得る低位レイヤ復号化ステップと、予め設定された条件に基づいて選択された帯域を除外又は加工して前記高位レイヤ符号化信号を復号し、復号誤差信号を得る高位レイヤ復号化ステップと、前記低位レイヤ復号信号と前記復号誤差信号とを加算して復号信号を得る加算ステップと、を具備する。
本発明によれば、時間分解能の低い高位レイヤに起因して生じるプリエコーまたはポストエコーの発生を抑え、主観品質の高い符号化および復号化を実現することができる。
階層数2のスケーラブル符号化を用いて音声信号の始端部を符号化および復号化した場合に、復号信号が生成される様子を示す図 本発明の実施の形態1に係る符号化装置の要部構成を示す図 始端検出部の内部構成を示す図 第2レイヤ符号化部の内部構成を示す図 実施の形態1に係る符号化装置の別の要部構成を示す図 第2レイヤ符号化部の別の内部構成を示す図 実施の形態1に係る符号化装置の更に別の要部構成を示す図 第2レイヤ符号化部の更に別の内部構成を示す図 実施の形態1に係る復号化装置の要部構成を示すブロック図 第2レイヤ復号化部の内部構成を示す図 従来方法による入力信号、第1レイヤ復号変換係数および第2レイヤ復号変換係数の様子を示す図 人間の聴覚特性である継時マスキングを説明するための図 本実施の形態による入力信号、第1レイヤ復号変換係数および第2レイヤ復号変換係数の様子を示す図 第1レイヤ復号変換係数がマスカー信号としたときの逆向マスキングの様子を示す図 ポストエコーに適用した例を示す図 本発明の実施の形態2に係る符号化装置の要部構成を示す図 第2レイヤ符号化部の内部構成を示す図 本発明の実施の形態3に係る第2レイヤ符号化部の内部構成を示す図 実施の形態3に係る復号化装置の要部構成を示すブロック図である。 第2レイヤ復号化部の内部構成を示す図 本発明の実施の形態4に係る符号化装置の要部構成を示す図 第2レイヤ符号化部の内部構成を示す図 第2レイヤ復号化部の内部構成を示す図 減衰部における処理の様子を示す図
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
(実施の形態1)
図2は、本実施の形態に係る符号化装置の要部構成を示す図である。図2の符号化装置100は、一例として2つの符号化階層(レイヤ)からなるスケーラブル符号化(階層符号化)装置とする。なお、レイヤ数は2に限られない。
図2に示されている符号化装置100は、所定の時間間隔(フレーム、ここでは20msとする)単位で符号化処理を行い、ビットストリームを生成し、当該ビットストリームを復号化装置(図示せぬ)へ伝送する。
第1レイヤ符号化部110は、入力信号の符号化処理を行い、第1レイヤ符号化データを生成する。なお、第1レイヤ符号化部110は、時間分解能の高い符号化を行う。符号化方法として、第1レイヤ符号化部110は、例えば、フレームを5msのサブフレームに分割し、サブフレーム単位で音源(excitation)の符号化を行うCELP符号化方式を用いる。第1レイヤ符号化部110は、第1レイヤ符号化データを、第1レイヤ復号化部120および多重化部170に出力する。
第1レイヤ復号化部120は、第1レイヤ符号化データを用いて復号化処理を行い、第1レイヤ復号信号を生成し、生成した第1レイヤ復号信号を減算部140、始端検出部150および第2レイヤ符号化部160に出力する。
遅延部130は、第1レイヤ符号化部110および第1レイヤ復号化部120で生じる遅延に相当する時間だけ入力信号を遅延し、遅延後の入力信号を減算部140に出力する。
減算部140は、入力信号から第1レイヤ復号化部120で生成された第1レイヤ復号信号を減算して第1レイヤ誤差信号を生成し、当該第1レイヤ誤差信号を第2レイヤ符号化部160に出力する。
始端検出部150は、第1レイヤ復号信号を用いて、現在符号化処理を行っているフレームに含まれる信号が音声信号あるいは音楽信号のような有音部分の始端部であるかどうかを検出し、検出結果を始端検出情報として第2レイヤ符号化部160に出力する。なお、始端検出部150の詳細については、後述する。
第2レイヤ符号化部160は、減算部140より送出される第1レイヤ誤差信号の符号化処理を行い、第2レイヤ符号化データを生成する。なお、第2レイヤ符号化部160は、第1レイヤ符号化部110に比べ時間分解能の低い符号化を行う。例えば、第2レイヤ符号化部160は、第1レイヤ符号化部110の処理単位より長い単位で変換係数を符号化する変換符号化方式を用いる。なお、第2レイヤ符号化部160の詳細については、後述する。第2レイヤ符号化部160は、生成した第2レイヤ符号化データを多重化部170に出力する。
多重化部170は、第1レイヤ符号化部110で求められる第1レイヤ符号化データと、第2レイヤ符号化部160で求められる第2レイヤ符号化データとを多重化して、ビットストリームを生成し、生成したビットストリームを図示せぬ通信路(transmission channel)に出力する。
図3は、始端検出部150の内部構成を示す図である。
サブフレーム分割部151は、第1レイヤ復号信号をNsub個のサブフレームに分割する。ここで、Nsubは、サブフレーム数を表す。以下では、Nsub=2として説明を行う。
エネルギー変化量算出部152は、サブフレーム毎の第1レイヤ復号信号のエネルギーを算出する。
検出部153は、当該エネルギーの変化量と所定の閾値との比較を行い、当該変化量が閾値を超える場合には有音部の始端を検出したとみなし、始端検出情報として1を出力する。一方、当該変化量が閾値を超えない場合には、検出部153は、始端を検出したとはみなさず、始端検出情報として0を出力する。
図4は、第2レイヤ符号化部160の内部構成を示す図である。
周波数領域変換部161は、第1レイヤ誤差信号を周波数領域に変換して、第1レイヤ誤差変換係数を算出し、算出した第1レイヤ誤差変換係数を帯域選択部163およびゲイン符号化部164へ出力する。
周波数領域変換部162は、第1レイヤ復号信号を周波数領域に変換して、第1レイヤ復号変換係数を算出し、算出した第1レイヤ復号変換係数を帯域選択部163に出力する。
帯域選択部163は、始端検出情報が1を示す場合、即ち現在符号化処理を行っているフレームに含まれる信号が有音部の始端の場合、後段のゲイン符号化部164および形状符号化部165における符号化対象から除外するサブバンドを選択する。具体的には、帯域選択部163は、第1レイヤ復号変換係数を複数のサブバンドに分割し、第1レイヤ復号変換係数のエネルギーが最も小さいサブバンド、もしくは所定の閾値より小さいサブバンドを、第2レイヤ符号化部160(ゲイン符号化部164および形状符号化部165)における符号化対象から除外する。そして、帯域選択部163は、除外後に残ったサブバンドを実際の符号化対象帯域(第2レイヤ符号化対象帯域)として設定する。
なお、帯域選択部163は、第1レイヤ復号変換係数および第1レイヤ誤差変換係数を複数のサブバンドに分割し、各サブバンドの第1レイヤ復号変換係数のエネルギー(Em)に対する第1レイヤ誤差変換係数のエネルギー(Ee)の比(Ee/Em)を求め、当該エネルギー比が所定の閾値よりも大きいサブバンドを、第2レイヤ符号化部160の符号化対象から除外するサブバンドとして選択するようにしてもよい。また、帯域選択部163は、エネルギー比に代えて、サブバンド内の第1レイヤ復号変換係数の最大振幅値に対する第1レイヤ誤差変換係数の最大振幅値の比を求め、当該最大振幅値比が所定の閾値よりも大きいサブバンドを、第2レイヤ符号化部160の符号化対象から除外するサブバンドとして選択するようにしてもよい。
なお、帯域選択部163は、入力信号の特性(例えば音声的もしくは音楽的である、または、定常的もしくは非定常的であるなど)に応じて適応的に異なる閾値を用いても良い。
なお、帯域選択部163は、第1レイヤ復号変換係数を基に逆向マスキングに相当する聴覚マスキング閾値を算出し、当該聴覚マスキング閾値のサブバンド毎のエネルギーを算出し、当該エネルギーが最も小さいサブバンド、もしくは所定の閾値より小さいサブバンドを第2レイヤ符号化部160における符号化対象から除外しても良い。
なお、帯域選択部163において、第1レイヤ復号変換係数の代わりに、入力信号を周波数領域変換して求められる入力変換係数を用いて符号化対象帯域を決定する構成であっても良い。このときの符号化装置100および第2レイヤ符号化部160の構成をそれぞれ図5、図6に示す。
なお、帯域選択部163において、第1レイヤ復号変換係数を用いずに、第1レイヤ誤差変換係数のみを用いて符号化対象帯域を決定する構成であっても良い。このときの符号化装置100および第2レイヤ符号化部160の構成をそれぞれ図7、図8に示す。この構成では、次の理由により第1レイヤ復号変換係数を用いずとも、本実施の形態の効果を享受することができる。
すなわち、第1レイヤ符号化部110では聴覚重み付けを行うことによって、入力信号と第1レイヤ復号信号との間の誤差信号のスペクトル特性が入力信号のスペクトル特性に近づくように符号化が行われている。これは、誤差信号が聴感的に聞こえ難くなる効果が得られるために為される処理である。換言すると、第1レイヤ符号化部110では誤差信号のスペクトル特性を入力信号のスペクトル特性に近づくようスペクトル整形を行っているということができる。この結果、誤差信号のスペクトル特性が入力信号のスペクトル特性に近づくため、誤差信号を第1レイヤ復号信号の代わりに使用しても、本実施の形態の効果を享受することができる。第1レイヤ符号化部110における聴覚重み付け処理として、LPC(Linear Predictive Coding)係数を基に入力信号のスペクトル包絡の逆特性に近い特性の聴覚重みフィルタを用いる手法が適用例として挙げられる。
また、この構成では、周波数領域変換部162が不要となるため、低演算量化を図ることができるという効果がさらに得られる。
このようにして、帯域選択部163は、第2レイヤ符号化部160における符号化対象から除外する帯域を選択し、選択したサブバンド以外の符号化対象となる帯域(第2レイヤ符号化対象帯域)を示す情報(符号化対象帯域情報)をゲイン符号化部164、形状符号化部165および多重化部166に出力する。
ゲイン符号化部164は、帯域選択部163から通知されたサブバンド(第2レイヤ符号化対象帯域)に含まれる変換係数の大きさを表すゲイン情報を算出し、当該ゲイン情報を符号化してゲイン符号化データを生成する。ゲイン符号化部164は、ゲイン符号化データを多重化部166へ出力する。また、ゲイン符号化部164は、ゲイン符号化データと共に求められる復号ゲイン情報を形状符号化部165へ出力する。
形状符号化部165は、復号ゲイン情報を用いて、帯域選択部163から通知されたサブバンド(第2レイヤ符号化対象帯域)に含まれる変換係数の形状を表す形状符号化データを生成し、生成した形状符号化データを多重化部166へ出力する。
多重化部166は、帯域選択部163から出力される符号化対象帯域情報と、形状符号化部165より出力される形状符号化データと、ゲイン符号化部164より出力されるゲイン符号化データとを多重化し、第2レイヤ符号化データとして出力する。ただし、この多重化部166は必ずしも必要ではなく、符号化対象帯域情報、形状符号化データおよびゲイン符号化データを直接、多重化部170に出力しても良い。
図9は、本実施の形態に係る復号化装置の要部構成を示すブロック図である。図9の復号化装置200は、符号化階層(レイヤ)数が2のスケーラブル符号化(階層符号化)を行う符号化装置100から出力されるビットストリームを復号する。
分離部210は、通信路を介して入力されるビットストリームを第1レイヤ符号化データと第2レイヤ符号化データとに分離する。分離部210は、第1レイヤ符号化データを第1レイヤ復号化部220へ出力し、第2レイヤ符号化データを第2レイヤ復号化部230へ出力する。ただし、通信路の状況(輻輳の発生など)によっては、符号化データの一部(第2レイヤ符号化データ)または全てが廃棄されてしまう場合がある。このとき、分離部210は、受信した符号化データに第1レイヤ符号化データのみが含まれるか(レイヤ情報が1)、または第1レイヤおよび第2レイヤ符号化データの両者が含まれるか(レイヤ情報が2)を判定し、その判定結果をレイヤ情報として切替部250に出力する。全ての符号化データが廃棄されている場合、分離部210は、所定の誤り補償処理(error concealment processing)を行い、出力信号を生成することになる。
第1レイヤ復号化部220は、第1レイヤ符号化データの復号処理を行い、第1レイヤ復号信号を生成し、生成した第1レイヤ復号信号を加算部240および切替部250に出力する。
第2レイヤ復号化部230は、第2レイヤ符号化データの復号処理を行い、第1レイヤ復号誤差信号を生成し、生成した第1レイヤ復号誤差信号を加算部240に出力する。
加算部240は、第1レイヤ復号信号と第1レイヤ復号誤差信号とを加算して、第2レイヤ復号信号を生成し、生成した第2レイヤ復号信号を切替部250に出力する。
切替部250は、分離部210より与えられるレイヤ情報に基づき、レイヤ情報が1の場合には、第1レイヤ復号信号を復号信号として後処理部260に出力する。一方、レイヤ情報が2の場合には、切替部250は、第2レイヤ復号信号を復号信号として後処理部260に出力する。
後処理部260は、復号信号にポストフィルタ等の後処理を行い、出力信号として出力する。
図10は、第2レイヤ復号化部230の内部構成を示す図である。
分離部231は、分離部210より入力される第2レイヤ符号化データを、形状符号化データと、ゲイン符号化データと、符号化対象帯域情報とに分離し、形状符号化データを形状復号部232に出力し、ゲイン符号化データをゲイン復号部233に出力し、符号化対象帯域情報を復号変換係数生成部234に出力する。なお、分離部231は、必ずしも必要な構成要素ではなく、分離部210の分離処理により形状符号化データと、ゲイン符号化データと、符号化対象帯域情報とに分離し、それらを直接、形状復号部232、ゲイン復号部233および復号変換係数生成部234に与えても良い。
形状復号部232は、分離部231より与えられる形状符号化データを用いて、復号変換係数の形状ベクトルを生成し、生成した形状ベクトルを復号変換係数生成部234へ出力する。
ゲイン復号部233は、分離部231より与えられるゲイン符号化データを用いて、復号変換係数のゲイン情報を生成し、生成したゲイン情報を復号変換係数生成部234へ出力する。
復号変換係数生成部234は、形状ベクトルにゲイン情報を乗じ、符号化対象帯域情報が示す帯域にゲイン情報乗算後の形状ベクトルを配置して復号変換係数を生成し、生成した復号変換係数を時間領域変換部235へ出力する。
時間領域変換部235は、復号変換係数を時間領域へ変換し、第1レイヤ復号誤差信号を生成し、生成した第1レイヤ復号誤差信号を出力する。
次に、図11、図12及び図13を用いて、本発明が解決しようとする課題及び効果について説明する。なお、以下では、符号化装置100がLサンプルのフレーム毎に符号化を行う場合を例に説明する。上述したように、第1レイヤ符号化部110は、時間分解能の高い符号化を行い、第2レイヤ符号化部160は、時間分解能の低い符号化を行う。そこで、以下では、第1レイヤ符号化部110が、L/2サンプルのサブフレーム単位で音源(excitation)の符号化を行うCELP符号化方式を用い、第2レイヤ符号化部160がLサンプルのフレーム単位で変換係数の符号化を行う変換符号化方式を用いる場合を例に説明する。
図11は、従来方法を用いてスケーラブル符号化および復号化した場合の入力信号、第1レイヤ復号変換係数および第2レイヤ復号変換係数の様子を示している。
図11(A)は、符号化装置の入力信号を示す。図11(A)から分かるように、第2サブフレームの途中から音声信号(または音楽信号)が観察される。
入力信号に対して、始めに第1レイヤ符号化部にて符号化処理が行われて第1レイヤ符号化データが生成される。第1レイヤ符号化データを復号して生成される復号信号の復号変換係数(第1レイヤ復号変換係数)は、第2レイヤ符号化部の2倍の時間分解能を有する。第nサンプル〜第(n+L/2−1)サンプルでは無音区間に相当するスペクトル(図11(B)参照)が生成され、第(n+L/2−1)サンプル〜第(n+L−1)サンプルでは音声区間に相当するスペクトル(図11(C)参照)が生成される。
一方、第2レイヤ符号化部では、Lサンプルのフレーム単位で変換係数の符号化が行われ、第2レイヤ符号化データが生成される。そのため、第2レイヤ符号化データを復号することにより、第nサンプル〜第(n+L−1)サンプルに対応した第2レイヤ復号変換係数が生成される(図11(D)参照)。そして、この第2レイヤ復号変換係数を時間領域に変換することにより第nサンプル〜第(n+L−1)サンプルに対応した区間に第2レイヤ復号信号が生成される。このため、最終的な復号信号のスペクトルは、第nサンプル〜第(n+L/2−1)サンプルでは、図11(B)と図11(D)とを加算したスペクトルとなり、第(n+L/2−1)サンプル〜第(n+L−1)サンプルでは図11(C)と図11(D)とを加算したスペクトルとなる。
このとき、本来無音区間であるべき第nサンプル〜第(n+L/2−1)サンプルにおいても、図11(B)および図11(D)に示されるスペクトルが発生してしまうことになる。図11(B)の信号成分は無視できる程度なので、実質的には、図11(D)のスペクトルによる復号信号が発生する。この信号がプリエコーとして知覚され、復号信号の品質を低下させる原因となる。
本実施の形態では、人間の聴覚特性である継時マスキング(temporal masking)を利用して復号信号の品質劣化を回避する。ここで、継時マスキングとは、2つの音、すなわち、マスキングされる信号(マスキー信号)とマスキングする信号(マスカー信号)とが継時的に与えられた場合に発生するマスキングをいう。人間は、強い音の前後に存在する微弱な音を知覚することが難しく、マスキー信号がマスカー信号によって妨害されてマスキー信号が聞こえ難くなる。
継時マスキングにおいて、マスカー信号に先行するマスキー信号がマスクされる現象を逆向マスキング(backward masking)といい、マスカー信号に後続するマスキー信号がマスクされる現象を順向マスキング(forward masking)という。なお、ある時間帯にマスカー信号とマスキー信号とが発生し、マスキー信号がマスカー信号にマスクされるような現象を同時マスキング(simultaneous masking)という。
図12は、これら逆向マスキング、順向マスキング及び同時マスキングにおいて、マスカー信号がマスキー信号をマスクするマスキングレベルの一例を示している。
本実施の形態では、継時マスキングのうち、逆向マスキングを利用してプリエコーによる聴感的な劣化を回避する。
具体的には、低位レイヤの復号スペクトルのエネルギーの大きい帯域では、逆向マスキング効果により高位レイヤで生じるプリエコーが人間の聴覚では聞こえ難くなり、低レイヤの復号スペクトルのエネルギーの小さい帯域では、逆向マスキング効果が得られないため、プリエコーが聞こえやすくなることを利用する。すなわち、本発明では、この原理を利用して、低位レイヤの復号スペクトルのエネルギーの小さい帯域に含まれる高位レイヤのスペクトルを高位レイヤの符号化の対象から除外し、プリエコーが聞こえやすい帯域では高位レイヤの復号スペクトルが生成されないようにする。これにより、プリエコーは、逆向マスキング効果が得られる低位レイヤの復号スペクトルのエネルギーの大きい帯域でのみ発生されるようになるため、プリエコーによる聴覚的な劣化を回避することができる。
図13は、本実施の形態におけるスケーラブル符号化および復号化した場合の入力信号、第1レイヤ復号変換係数および第2レイヤ復号変換係数の様子を示している。
図13(A)は、符号化装置100の入力信号を示す。図11(A)と同様に、第2サブフレームの途中から音声信号(または音楽信号)が観察される。
入力信号に対して、始めに第1レイヤ符号化部110にて符号化処理が行われて第1レイヤ符号化データが生成される。第1レイヤ符号化データを復号して生成される復号信号の復号変換係数(第1レイヤ復号変換係数)は、第2レイヤ符号化部160の2倍の時間分解能を有する。第nサンプル〜第(n+L/2−1)サンプルでは無音区間に相当するスペクトル(図13(B)参照)が生成され、第(n+L/2−1)サンプル〜第(n+L−1)サンプルでは音声区間に相当するスペクトル(図13(C)参照)が生成される。
本実施の形態では、周波数領域変換部162において、時間分解能の高い第1レイヤ復号化部120より求められる第1レイヤ復号信号が周波数領域に変換された第1レイヤ復号変換係数のうち、帯域選択部163は、スペクトルのエネルギーの低い帯域を求める(図13(C)参照)。そして、帯域選択部163は、当該帯域を第2レイヤ符号化部160の符号化の対象より除外する帯域(除外帯域)として選択し、当該除外帯域以外の帯域を第2符号化対象帯域として設定し、第2レイヤ符号化部160は、第2符号化対象帯域において符号化処理を行う(図13(D))。
これにより、図13(C)の第1レイヤ復号変換係数がマスカー信号となり、第2レイヤ符号化部160によって発生するプリエコーがマスキー信号となる場合に、第1レイヤ復号変換係数のエネルギーの大きい帯域では、逆向マスキング効果により、人間の聴覚では聞こえ難くなる。つまり、逆向マスキング効果が大きい第2符号化対象帯域にプリエコーの第2レイヤ復号変換係数が配置されても、復号信号(プリエコー)は知覚されにくくなる。すなわち、第nサンプル〜音声の始端までの間で発生していたプリエコーが聞こえにくくなり、復号信号の品質劣化を回避することができる。
図14は、第1レイヤ復号変換係数をマスカー信号とした場合における逆向マスキング特性を示している。図14に示すように、第1レイヤ復号変換係数が大きいほど、逆向マスキング効果は大きいため、第2レイヤ符号化部160における符号化対象帯域を、第1レイヤ復号変換係数が所定の閾値より大きい帯域のみとすることにより、プリエコーは、第1レイヤ復号変換係数によりマスキングされるようになる。
以上、音声の始端で発生するプリエコーの回避について説明したが、本発明は、音声の終端で発生するポストエコーに対しても適用できる。
図15は、本発明をポストエコーに対し適用した場合の入力信号、第1レイヤ復号変換係数および第2レイヤ復号変換係数の様子を示している。
プリエコーに対しては、逆向マスキングを利用してプリエコーの知覚を制御したのに対し、ポストエコーに対しては、順向マスキングを利用する。具体的には、始端検出部150に代えて、終端検出部(図省略)を用い、第1レイヤ復号信号を用いて、現在符号化処理を行っているフレームに含まれる信号が有音部の終端部であるかどうかを検出し、検出結果を終端検出情報として第2レイヤ符号化部160に出力する。そして、帯域選択部163は、現在符号化処理を行っているフレームに含まれる信号が有音部の終端の場合、時間分解能の高い第1レイヤ符号化部110より求められる第1レイヤ復号変換係数のうち、エネルギーの低い帯域を求める(図15(B)参照)。そして、帯域選択部163は、当該帯域を第2レイヤ符号化部160の符号化の対象より除外する帯域(除外帯域)として選択し、当該除外帯域以外の帯域を第2符号化対象帯域として設定し、第2レイヤ符号化部160は、第2符号化対象帯域において符号化処理を行う(図15(D))。これにより、ポストエコーの知覚を抑制することができ、復号信号の品質劣化を回避することができる。
このように、本実施の形態では、始端検出部150(または終端検出部)は、低位レイヤ復号信号の有音部分の始端部(または終端部)を判定し、第2レイヤ符号化部160は、始端部(または終端部)と判定された場合に、第1レイヤ復号信号のスペクトルのエネルギーに基づいて、符号化対象として除外する帯域を選択し、選択した帯域を除外して誤差信号を符号化する。これにより、人間の聴覚特性である継時マスキングを利用して復号信号の品質劣化を回避することができ、時間分解能の低い高位レイヤに起因して生じるプリエコー(またはポストエコー)の発生を抑え、主観品質の高い符号化方式を提供することが可能となる。
また、第1レイヤ復号変換係数のエネルギーが小さい帯域を第2レイヤ符号化部160の符号化の対象から除外することにより、それ以外の帯域の変換係数をより正確に表すことが可能となる。例えば、第2レイヤ符号化部160の符号化対象帯域に配置するパルスを増やすことができ、この場合には、復号信号の音質改善を図ることが可能になる。
なお、以上の説明では、第2レイヤ符号化部160における符号化対象から除外する帯域(除外帯域)を、第1レイヤ復号変換係数のエネルギーの大きさに応じて選択する方法を例に説明したが、これに限られず、例えば、最大サブバンドエネルギーに対するサブバンドエネルギーの相対値の大きさによって除外帯域を選択するようにしてもよい。これにより、信号レベルに依存しない安定した処理を行うことができ、音声の始端で発生するプリエコー又は音声の終端で発生するポストエコーを回避して、音質改善を図ることができる。
また、第1レイヤ復号変換係数に応じて、第2レイヤ符号化部160における符号化対象帯域が制限されるようになるため、符号化対象帯域におけるパルス数を増やす等により、第2レイヤ符号化部160における符号化対象帯域のスペクトルをより正確に表すことが可能となり、音質改善を図ることができるようになる。
(実施の形態2)
実施の形態1では、第1レイヤ復号信号を用いて第2レイヤ符号化部の符号化対象から除外する帯域(除外帯域)を決定した。本実施の形態では、第1レイヤ符号化部で求められるLPC(Linear Predictive Coding)係数を用いてLPCスペクトル(スペクトル包絡)を求め、このLPCスペクトルを用いて除外帯域を決定する。LPCスペクトルを用いる場合においても、実施の形態1と同様の効果を得ることができる。さらに、本実施の形態では、復号信号のスペクトルに代えてLPCスペクトルを用いるため、実施の形態1に比べ低演算量で音質改善を図ることができる。
図16は、本実施の形態に係る符号化装置の要部構成を示すブロック図である。なお、図16の符号化装置300において、図2の符号化装置100と共通する構成部分には、図2と同一の符号を付して説明を省略する。なお、本実施の形態に係る復号化装置の構成は、図9及び図10と同様のため、ここでは説明を省略する。
第1レイヤ符号化部310は、入力信号の符号化処理を行い、第1レイヤ符号化データを生成する。なお、本実施の形態では、第1レイヤ符号化部310は、LPC係数を用いる符号化を行う。
第1レイヤ復号化部320は、第1レイヤ符号化データを用いて復号化処理を行い、第1レイヤ復号信号を生成し、生成した第1レイヤ復号信号を減算部140および始端検出部150に出力する。
第1レイヤ復号化部320は、第1レイヤ復号信号での復号処理により生成される復号LPC係数を第2レイヤ符号化部330に出力する。
図17は、第2レイヤ符号化部330の内部構成を示す図である。なお、図17の第2レイヤ符号化部330において、図4の第2レイヤ符号化部160と共通する構成部分には、図4と同一の符号を付して説明を省略する。
LPCスペクトル算出部331は、第1レイヤ復号化部320より入力される復号LPC係数を用いてLPCスペクトルを求める。LPCスペクトルは、第1レイヤ復号信号のスペクトルの大まかな形状(スペクトル包絡)を表す。
帯域選択部332は、LPCスペクトル算出部331より入力されるLPCスペクトルを用いて、第2レイヤ符号化部330の符号化対象帯域から除外される帯域(除外帯域)を選択する。具体的には、帯域選択部332は、LPCスペクトルのエネルギーを求め、エネルギーが所定の閾値より小さい帯域を除外帯域として選択する。もしくは、帯域選択部332は、LPCスペクトルの最大エネルギーに対するエネルギーの比が所定の閾値より低い帯域を除外帯域として選択するようにしてもよい。
このようにして、帯域選択部332は、第2レイヤ符号化部330における符号化対象から除外する帯域を選択し、選択した帯域以外の符号化対象となる帯域(第2レイヤ符号化対象帯域)を示す情報(符号化対象帯域情報)をゲイン符号化部164、形状符号化部165および多重化部166に出力する。
以降、実施の形態1と同様に、ゲイン符号化部164、形状符号化部165、及び多重化部166により、第2レイヤ符号化データが生成される。
以上のように、本実施の形態では、第1レイヤ符号化部310は、LPC係数を用いる符号化を行い、第2レイヤ符号化部330は、LPC係数のスペクトルのエネルギーの小さい帯域を、符号化対象帯域から除外する帯域として選択するようにした。これにより、第1レイヤ復号信号のスペクトルを算出する場合に比べ少ない演算量で、エネルギーの小さい帯域、すなわち、符号化対象帯域から除外する帯域を決定することができる。
なお、この際、限定された個数の周波数に対してのみ、LPCスペクトルおよびそのエネルギーを算出し、そのエネルギーを用いて符号化対象帯域から除外する帯域を決定するようにしても良い。このように、ある程度周波数(あるいは帯域)を絞った上で符号化対象帯域を決定することにより、更に少ない演算量で帯域を決定することが可能となる。
(実施の形態3)
実施の形態1および実施の形態2では、符号化装置は、帯域選択部で設定された第2レイヤ符号化部における実際の符号化対象帯域を示す符号化対象帯域情報を復号装置に伝送する。本実施の形態では、符号化装置と復号化装置とで共通に得られる情報を基にして、各々が第2レイヤ符号化部における実際の符号化対象帯域(第2レイヤ符号化対象帯域)を設定する。これにより、符号化装置から復号装置に伝送される情報量を削減することが可能になる。
本実施の形態に係る符号化装置の要部構成は、実施の形態1と同様であるため、図2を援用して説明する。実施の形態1とは、第2レイヤ符号化部の内部構成が異なる。そのため、以下では、本実施の形態に係る第2レイヤ符号化部の符号を160Aとして説明する。
図18は、本実施の形態に係る第2レイヤ符号化部160Aの内部構成を示す図である。なお、図18の第2レイヤ符号化部160Aにおいて、図4の第2レイヤ符号化部160と共通する構成部分には、図4と同一の符号を付して説明を省略する。
帯域選択部163Aは、始端検出情報が1を示す場合、即ち現在符号化処理を行っているフレームに含まれる信号の場合、後段のゲイン符号化部164および形状符号化部165における符号化対象から除外するサブバンドを選択する。なお、本実施の形態では、帯域選択部163Aは、第1レイヤ誤差変換係数を用いずに、第1レイヤ復号変換係数のみを用いて、符号化対象帯域から除外するサブバンドを選択する。具体的には、帯域選択部163Aは、第1レイヤ復号変換係数を複数のサブバンドに分割し、第1レイヤ復号変換係数のエネルギーが所定の閾値よりも小さいサブバンドを、第2レイヤ符号化部160Aにおける符号化対象帯域から除外し、除外後のサブバンドを実際の符号化対象帯域として設定する。帯域選択部163Aは、第2レイヤ符号化部160A(ゲイン符号化部164および形状符号化部165)における符号化対象から除外する帯域として選択したサブバンド以外の符号化対象となる帯域(第2レイヤ符号化対象帯域)を示す情報(符号化対象帯域情報)を、ゲイン符号化部164および形状符号化部165に出力する。
なお、帯域選択部163Aは、入力信号の特性(例えば音声的もしくは音楽的である、または、定常的もしくは非定常的であるなど)に応じて適応的に異なる閾値を用いても良い。
図19は、本実施の形態に係る復号化装置の要部構成を示すブロック図である。なお、図19の復号化装置400において、図9の復号化装置200と共通する構成部分には、図9と同一の符号を付して説明を省略する。
第1レイヤ復号化部410は、第1レイヤ符号化データを用いて復号化処理を行い、第1レイヤ復号信号を生成し、生成した第1レイヤ復号信号を切替部250、始端検出部420、第2レイヤ復号化部430、および加算部240に出力する。
始端検出部420は、第1レイヤ復号信号を用いて、現在符号化処理を行っているフレームに含まれる信号が有音部分の始端部であるかどうかを検出し、検出結果を始端検出情報として第2レイヤ復号化部430に出力する。なお、始端検出部420は、図3の始端検出部150と同様の構成を採り、同様の動作を行うため、詳細な説明を省略する。
図20は、第2レイヤ復号化部430の内部構成を示す図である。なお、図20の第2レイヤ復号化部430において、図10の第2レイヤ復号化部230と共通する構成部分には、図10と同一の符号を付して説明を省略する。
分離部431は、分離部210より入力される第2レイヤ符号化データを、形状符号化データと、ゲイン符号化データとに分離し、形状符号化データを形状復号部232に出力し、ゲイン符号化データをゲイン復号部233に出力する。なお、分離部431は、必ずしも必要な構成要素ではなく、分離部210の分離処理により形状符号化データと、ゲイン符号化データとに分離し、それらを直接、形状復号部232およびゲイン復号部233に与えても良い。
周波数領域変換部432は、第1レイヤ復号信号を周波数領域に変換して、第1レイヤ復号変換係数を算出し、算出した第1レイヤ復号変換係数を帯域選択部433に出力する。
帯域選択部433は、始端検出情報が1を示す場合、即ち現在復号化処理を行っているフレームに含まれる信号が有音部の始端の場合、後段の形状復号部232およびゲイン復号部233における復号化対象から除外するサブバンドを選択する。なお、本実施の形態では、帯域選択部433は、帯域選択部163Aと同様に、第1レイヤ誤差変換係数を用いずに、第1レイヤ復号変換係数のみを用いて、符号化対象帯域から除外するサブバンドを選択する。なお、帯域選択部433は、帯域選択部163Aと同様のため、説明を省略する。帯域選択部433は、第2レイヤ復号化部430における符号化対象から除外する帯域として選択したサブバンド以外の符号化対象となる帯域(第2レイヤ符号化対象帯域)を示す情報(符号化対象帯域情報)を、復号変換係数生成部234に出力する。
このように、本実施の形態では、帯域選択部163Aおよび帯域選択部433は、第1レイヤ復号変換係数を用いて、第2レイヤ符号化部330および第2レイヤ復号化部430における実際の符号化/復号化対象帯域を設定する。第2レイヤ復号化部430において、第1レイヤ復号変換係数は、周波数領域変換部432において、第1レイヤ復号信号を周波数領域に変換することにより得られる。そのため、符号化装置300から復号化装置400へ符号化対象帯域情報を通知せずとも、復号化装置400は、復号化対象帯域の情報を取得することができ、符号化装置300から復号化装置400に伝送する情報量を削減することができる。
(実施の形態4)
本実施の形態では、復号化装置において、音声信号の始端部または終端部を検出した場合に、高位レイヤでは、低位レイヤの復号信号のスペクトルのエネルギーの小さい帯域に位置する復号変換係数を減衰させる。これにより、低位レイヤの復号スペクトルのエネルギーの小さい帯域に発生する高位レイヤの復号スペクトルが聴感的に聞こえ難くなる。すなわち、本実施の形態では、低位レイヤの復号スペクトルの継時マスキング(Temporal masking)効果により、復号側で高位レイヤで生じるプリエコーまたはポストエコーを聞こえ難くする。そのため、符号化側ではプリエコーまたはポストエコーを意識することなく、一般的なスケーラブル符号化を行う符号化装置を用いることができ、特に符号化装置の構成を変更することなく、音質を改善することができる。
図21は、本実施の形態に係る符号化装置500の要部構成を示すブロック図である。
第1レイヤ符号化部510は、入力信号の符号化処理を行い、第1レイヤ符号化データを生成する。第1レイヤ符号化部510は、第1レイヤ符号化データを第1レイヤ復号化部520および多重化部560に出力する。
第1レイヤ復号化部520は、第1レイヤ符号化データを用いて復号化処理を行い、第1レイヤ復号信号を生成し、生成した第1レイヤ復号信号を減算部540に出力する。
遅延部530は、第1レイヤ符号化部510および第1レイヤ復号化部520で生じる遅延に相当する時間だけ入力信号を遅延し、遅延後の入力信号を減算部540に出力する。
減算部540は、入力信号から第1レイヤ復号化部520で生成された第1レイヤ復号信号を減算して第1レイヤ誤差信号を生成し、当該第1レイヤ誤差信号を第2レイヤ符号化部550に出力する。
第2レイヤ符号化部550は、減算部540より送出される第1レイヤ誤差信号の符号化処理を行い、第2レイヤ符号化データを生成し、当該第2レイヤ符号化データを多重化部560に出力する。
多重化部560は、第1レイヤ符号化部510で求められる第1レイヤ符号化データと、第2レイヤ符号化部550で求められる第2レイヤ符号化データとを多重化して、ビットストリームを生成し、生成したビットストリームを通信路(図示せぬ)に出力する。
図22は、第2レイヤ符号化部550の内部構成を示す図である。
周波数領域変換部551は、第1レイヤ誤差信号を周波数領域に変換して、第1レイヤ誤差変換係数を算出し、算出した第1レイヤ誤差変換係数をゲイン符号化部552へ出力する。
ゲイン符号化部552は、第1レイヤ誤差変換係数の大きさを表すゲイン情報を算出し、当該ゲイン情報を符号化してゲイン符号化データを生成する。ゲイン符号化部552は、ゲイン符号化データを多重化部554へ出力する。また、ゲイン符号化部552は、ゲイン符号化データと共に求められる復号ゲイン情報を形状符号化部553へ出力する。
形状符号化部553は、第1レイヤ誤差変換係数の形状を表す形状符号化データを生成し、生成した形状符号化データを多重化部554へ出力する。
多重化部554は、形状符号化部553より出力される形状符号化データと、ゲイン符号化部552より出力されるゲイン符号化データとを多重化し、第2レイヤ符号化データとして出力する。ただし、この多重化部554は必ずしも必要ではなく、形状符号化データおよびゲイン符号化データを直接、多重化部560に出力しても良い。
本実施の形態に係る復号化装置の要部構成は、実施の形態3と同様であるため、図19を援用して説明する。実施の形態3とは、第2レイヤ復号化部の内部構成が異なる。そのため、以下では、本実施の形態に係る第2レイヤ復号化部の符号を430Aとして説明する。
図23は、本実施の形態に係る第2レイヤ復号化部430Aの内部構成を示す図である。なお、図23の第2レイヤ復号化部430Aにおいて、図20の第2レイヤ復号化部430と共通する構成部分には、図20と同一の符号を付して説明を省略する。
周波数領域変換部432において、時間分解能の高い第1レイヤ復号化部410より求められる第1レイヤ復号信号が周波数領域に変換された第1レイヤ復号変換係数のうち、帯域選択部433Aは、スペクトルのエネルギーが所定の閾値より低い帯域を求める。そして、帯域選択部433Aは、当該帯域を第2レイヤ復号変換係数を減衰させる帯域(減衰対象帯域)として選択し、当該減衰対象帯域の情報を選択帯域情報として、減衰部434に出力する。
減衰部434は、選択帯域情報で示される帯域に位置する第2レイヤ復号変換係数に対して、その大きさを減衰させ、減衰後の第2レイヤ復号変換係数を第2レイヤ減衰復号変換係数として時間領域変換部235へ出力する。
図24は、減衰部434における処理を説明するための図である。図24において左は、減衰前の第2レイヤ復号変換係数を示し、図24において右は、減衰後の第2レイヤ復号変換係数(第2レイヤ減衰復号変換係数)を示している。図24に示すように、減衰部は、選択帯域情報で示される帯域(減衰対象帯域)に位置する第2レイヤ復号変換係数に対して、その大きさを減衰させる。
このようにして、本実施の形態では、第2レイヤ復号化部430Aは、低位レイヤ復号信号の有音部分の始端部(または終端部)が存在すると判定された場合に、第1レイヤ復号信号のスペクトルのエネルギーに基づいて、第2レイヤ復号信号の復号変換係数を減衰する帯域を選択し、選択した帯域における第2レイヤ復号信号の復号変換係数を減衰する。これにより、符号化側において、プリエコーまたはポストエコーを意識せずに符号化された場合においても、第1レイヤ復号変換係数と第2レイヤ復号変換係数との関係が、マスカー信号とマスキー信号との関係になるため、プリエコーまたはポストエコーを回避することができる。
以上、本発明の各実施の形態について説明した。
なお、以上の説明では、符号化階層(レイヤ)数が2のスケーラブル符号化について説明したが、符号化階層(レイヤ)数が3以上のスケーラブル構成にも適用可能である。
また、以上の説明では、符号化装置100、300、500から出力されたビットストリームを復号化装置200、400で受信するとしたが、これに限るものではない。すなわち、復号化装置200、400は、符号化装置100、300、500の構成において生成されたビットストリームでなくても、復号化に必要な符号化データを有するビットストリームを生成可能な符号化装置により出力されたビットストリームであれば、復号可能である。
また、周波数変換部は、DFT(Discrete Fourier Transform)、FFT(Fast Fourier Transform)、DCT(Discrete Cosine Transform)、MDCT(Modified Discrete Cosine Transform)、フィルタバンクなどを使用できる。
また、入力信号には、音声信号と音楽信号のどちらにも適用できる。
また、上記各実施の形態における符号化装置または復号化装置は、基地局装置あるいは通信端末装置に適用することが可能である。
また、上記各実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
2009年10月20日出願の特願2009−241617に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
本発明に係る符号化装置および復号化装置等は、携帯電話、IP電話、テレビ会議等に用いるに好適である。
100、300、500 符号化装置
110、310、510 第1レイヤ符号化部
120、220、320、410、520 第1レイヤ復号化部
130、530 遅延部
140、540 減算部
150、420 始端検出部
160、160A、330、550 第2レイヤ符号化部
151 サブフレーム分割部
152 エネルギー変化量算出部
153 検出部
161、162、432、551 周波数領域変換部
163、163A、332、433、433A 帯域選択部
164、552 ゲイン符号化部
165、553 形状符号化部
166、170、554、560 多重化部
200、400 復号化装置
210、231、431 分離部
230、430、430A 第2レイヤ復号化部
240 加算部
250 切替部
260 後処理部
232 形状復号部
233 ゲイン復号部
234 復号変換係数生成部
235 時間領域変換部
331 LPCスペクトル算出部
434 減衰部

Claims (19)

  1. 低位レイヤと、前記低位レイヤにおける時間分解能より時間分解能が低い高位レイヤとからなるスケーラブル符号化を行う符号化装置であって、
    入力信号を符号化して低位レイヤ符号化信号を得る低位レイヤ符号化手段と、
    前記低位レイヤ符号化信号を復号化して低位レイヤ復号信号を得る低位レイヤ復号化手段と、
    前記入力信号と前記低位レイヤ復号信号との誤差信号を得る誤差信号生成手段と、
    前記低位レイヤ復号信号の有音部の始端部または終端部を判定する判定手段と、
    前記判定手段により始端部または終端部と判定された場合に、符号化対象帯域から除外する帯域を選択し、前記選択した帯域を除外して前記誤差信号を符号化し、高位レイヤ符号化信号を得る高位レイヤ符号化手段と、
    を具備する符号化装置。
  2. 前記高位レイヤ符号化手段は、
    前記低位レイヤ復号信号のスペクトルのエネルギーまたは前記誤差信号のスペクトルのエネルギーに基づいて、前記除外する帯域を選択する、
    請求項1に記載の符号化装置。
  3. 前記高位レイヤ符号化手段は、
    前記低位レイヤ復号信号のスペクトルのエネルギーまたは前記誤差信号のスペクトルのエネルギーが最も小さいかあるいは所定の閾値より小さい帯域を、前記除外する帯域として選択する、
    請求項1に記載の符号化装置。
  4. 前記高位レイヤ符号化手段は、
    前記低位レイヤ復号信号を用いて聴覚マスキング閾値を算出し、当該聴覚マスキング閾値のスペクトルのエネルギーが最も小さいかあるいは所定の閾値より小さい帯域を、前記除外する帯域として選択する、
    請求項1に記載の符号化装置。
  5. 前記低位レイヤ符号化手段は、LPC係数を用いる符号化を行い、
    前記高位レイヤ符号化手段は、前記LPC係数のスペクトルのエネルギーの小さい帯域を、前記除外する帯域として選択する、
    請求項1に記載の符号化装置。
  6. 請求項1に記載の符号化装置を具備する通信端末装置。
  7. 請求項1に記載の符号化装置を具備する基地局装置。
  8. 低位レイヤと、前記低位レイヤにおける時間分解能より時間分解能が低い高位レイヤとからなるスケーラブル符号化を行う符号化装置によって符号化された低位レイヤ符号化信号及び高位レイヤ符号化信号を復号する復号化装置であって、
    前記低位レイヤ符号化信号を復号して低位レイヤ復号信号を得る低位レイヤ復号化手段と、
    予め設定された条件に基づいて選択された帯域を除外又は加工して前記高位レイヤ符号化信号を復号し、復号誤差信号を得る高位レイヤ復号化手段と、
    前記低位レイヤ復号信号と前記復号誤差信号とを加算して復号信号を得る加算手段と、
    を具備する復号化装置。
  9. 前記高位レイヤ復号化手段は、
    前記低位レイヤ復号信号のスペクトルのエネルギーに基づいて帯域を選択し、前記選択された帯域を除外して前記高位レイヤ符号化信号を復号し、復号誤差信号を得る、
    請求項8記載の復号化装置。
  10. 前記高位レイヤ復号化手段は、
    前記低位レイヤ復号信号のスペクトルのエネルギーが最も小さいかあるいは所定の閾値より小さい帯域を除外して、前記高位レイヤ符号化信号を復号する、
    請求項9に記載の復号化装置。
  11. 前記高位レイヤ復号化手段は、
    前記低位レイヤ復号信号を用いて聴覚マスキング閾値を算出し、当該聴覚マスキング閾値のスペクトルのエネルギーが最も小さいかあるいは所定の閾値より小さい帯域を除外して、前記高位レイヤ符号化信号を復号する、
    請求項9に記載の復号化装置。
  12. 前記選択された帯域は、前記高位レイヤ符号化信号に含まれる、
    請求項9に記載の復号化装置。
  13. 前記低位レイヤ復号信号の有音部の始端部または終端部を判定する判定手段と、を更に具備し、
    前記高位レイヤ復号化手段は、
    前記判定手段により始端部または終端部と判定された場合に、前記低位レイヤ復号信号のスペクトルのエネルギーに基づいて、復号化対象帯域から除外する帯域を選択し、前記選択された帯域を除外して、前記高位レイヤ符号化信号を復号する、
    請求項8に記載の復号化装置。
  14. 前記低位レイヤ復号信号の有音部の始端部または終端部を判定する判定手段と、を更に具備し、
    前記高位レイヤ復号化手段は、
    前記判定手段により始端部または終端部と判定された場合に、前記復号誤差信号の復号変換係数を減衰させる帯域を選択し、前記選択された帯域における前記復号誤差信号の復号変換係数を減衰させて前記復号誤差信号を得る、
    請求項8に記載の復号化装置。
  15. 前記高位レイヤ復号化手段は、
    前記低位レイヤ復号信号のスペクトルのエネルギーに基づいて、前記復号誤差信号の復号変換係数を減衰させる帯域を選択する、
    請求項14に記載の復号化装置。
  16. 請求項8に記載の復号化装置を具備する通信端末装置。
  17. 請求項8に記載の復号化装置を具備する基地局装置。
  18. 低位レイヤと、前記低位レイヤにおける時間分解能より時間分解能が低い高位レイヤとからなるスケーラブル符号化を行う符号化方法であって、
    入力信号を符号化して低位レイヤ符号化信号を得る低位レイヤ符号化ステップと、
    前記低位レイヤ符号化信号を復号化して低位レイヤ復号信号を得る低位レイヤ復号化ステップと、
    前記入力信号と前記低位レイヤ復号信号との誤差信号を得る誤差信号生成ステップと、
    前記低位レイヤ復号信号の有音部の始端部または終端部を判定する判定ステップと、
    前記判定ステップにおいて始端部または終端部と判定された場合に、符号化対象帯域から除外する帯域を選択し、前記選択した帯域を除外して前記誤差信号を符号化し、高位レイヤ符号化信号を得る高位レイヤ符号化ステップと、
    を具備する符号化方法。
  19. 低位レイヤと、前記低位レイヤにおける時間分解能より時間分解能が低い高位レイヤとからなるスケーラブル符号化を行う符号化方法によって符号化された低位レイヤ符号化信号及び高位レイヤ符号化信号を復号する復号化方法であって、
    前記低位レイヤ符号化信号を復号して低位レイヤ復号信号を得る低位レイヤ復号化ステップと、
    予め設定された条件に基づいて選択された帯域を除外又は加工して前記高位レイヤ符号化信号を復号し、復号誤差信号を得る高位レイヤ復号化ステップと、
    前記低位レイヤ復号信号と前記復号誤差信号とを加算して復号信号を得る加算ステップと、
    を具備する復号化方法。
JP2011537133A 2009-10-20 2010-10-19 符号化装置、復号化装置およびこれらの方法 Active JP5295380B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011537133A JP5295380B2 (ja) 2009-10-20 2010-10-19 符号化装置、復号化装置およびこれらの方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009241617 2009-10-20
JP2009241617 2009-10-20
PCT/JP2010/006195 WO2011048798A1 (ja) 2009-10-20 2010-10-19 符号化装置、復号化装置およびこれらの方法
JP2011537133A JP5295380B2 (ja) 2009-10-20 2010-10-19 符号化装置、復号化装置およびこれらの方法

Publications (2)

Publication Number Publication Date
JPWO2011048798A1 JPWO2011048798A1 (ja) 2013-03-07
JP5295380B2 true JP5295380B2 (ja) 2013-09-18

Family

ID=43900042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011537133A Active JP5295380B2 (ja) 2009-10-20 2010-10-19 符号化装置、復号化装置およびこれらの方法

Country Status (4)

Country Link
US (1) US8977546B2 (ja)
JP (1) JP5295380B2 (ja)
CN (1) CN102576539B (ja)
WO (1) WO2011048798A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4220636A1 (en) * 2012-11-05 2023-08-02 Panasonic Intellectual Property Corporation of America Speech audio encoding device and speech audio encoding method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000235398A (ja) * 1998-12-11 2000-08-29 Sony Corp 復号装置および方法、並びに記録媒体
JP2008026914A (ja) * 2003-12-19 2008-02-07 Telefon Ab L M Ericsson 忠実度最適化可変フレーム長符号化
WO2010114123A1 (ja) * 2009-04-03 2010-10-07 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、音声符号化プログラム及び音声復号プログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6400996B1 (en) * 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
US7006881B1 (en) * 1991-12-23 2006-02-28 Steven Hoffberg Media recording device with remote graphic user interface
US5825320A (en) 1996-03-19 1998-10-20 Sony Corporation Gain control method for audio encoding device
JPH09261063A (ja) 1996-03-19 1997-10-03 Sony Corp 信号符号化方法および装置
JP4290917B2 (ja) * 2002-02-08 2009-07-08 株式会社エヌ・ティ・ティ・ドコモ 復号装置、符号化装置、復号方法、及び、符号化方法
JP4101123B2 (ja) 2003-06-19 2008-06-18 シャープ株式会社 符号化装置及び符号化方法
KR20070061847A (ko) 2004-09-30 2007-06-14 마츠시타 덴끼 산교 가부시키가이샤 스케일러블 부호화 장치, 스케일러블 복호 장치 및 이들의방법
CN101044554A (zh) 2004-10-13 2007-09-26 松下电器产业株式会社 可扩展性编码装置、可扩展性解码装置以及可扩展性编码方法
ATE480851T1 (de) 2004-10-28 2010-09-15 Panasonic Corp Skalierbare codierungsvorrichtung, skalierbare decodierungsvorrichtung und verfahren dafür
EP1808684B1 (en) 2004-11-05 2014-07-30 Panasonic Intellectual Property Corporation of America Scalable decoding apparatus
ES2327566T3 (es) 2005-04-28 2009-10-30 Siemens Aktiengesellschaft Procedimiento y dispositivo para la supresion de ruidos.
CN101548318B (zh) * 2006-12-15 2012-07-18 松下电器产业株式会社 编码装置、解码装置以及其方法
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000235398A (ja) * 1998-12-11 2000-08-29 Sony Corp 復号装置および方法、並びに記録媒体
JP2008026914A (ja) * 2003-12-19 2008-02-07 Telefon Ab L M Ericsson 忠実度最適化可変フレーム長符号化
WO2010114123A1 (ja) * 2009-04-03 2010-10-07 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、音声符号化プログラム及び音声復号プログラム

Also Published As

Publication number Publication date
CN102576539A (zh) 2012-07-11
JPWO2011048798A1 (ja) 2013-03-07
CN102576539B (zh) 2016-08-03
WO2011048798A1 (ja) 2011-04-28
US20120209596A1 (en) 2012-08-16
US8977546B2 (en) 2015-03-10

Similar Documents

Publication Publication Date Title
KR101340233B1 (ko) 스테레오 부호화 장치, 스테레오 복호 장치 및 스테레오부호화 방법
RU2500043C2 (ru) Кодер, декодер, способ кодирования и способ декодирования
KR101414354B1 (ko) 부호화 장치 및 부호화 방법
EP1808684B1 (en) Scalable decoding apparatus
RU2439718C1 (ru) Способ и устройство для обработки звукового сигнала
JP5153791B2 (ja) ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法
RU2639952C2 (ru) Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием
EP1806736B1 (en) Scalable encoding apparatus, scalable decoding apparatus, and methods thereof
JP5753540B2 (ja) ステレオ信号符号化装置、ステレオ信号復号装置、ステレオ信号符号化方法及びステレオ信号復号方法
KR101427863B1 (ko) 오디오 신호 코딩 방법 및 장치
JP5163545B2 (ja) オーディオ復号装置及びオーディオ復号方法
JP2008026914A (ja) 忠実度最適化可変フレーム長符号化
US20140257824A1 (en) Apparatus and a method for encoding an input signal
JP5986565B2 (ja) 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
JPWO2008132850A1 (ja) ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
JP2011175278A (ja) 符号化装置、復号装置、符号化方法および復号方法
EP3128513B1 (en) Encoder, decoder, encoding method, decoding method, and program
JP2007187749A (ja) マルチチャンネル符号化における頭部伝達関数をサポートするための新装置
JP5295380B2 (ja) 符号化装置、復号化装置およびこれらの方法
JP4973397B2 (ja) 符号化装置および符号化方法、ならびに復号化装置および復号化方法
JPWO2009038158A1 (ja) 音声復号装置、音声復号方法、プログラム及び携帯端末
JPWO2009038115A1 (ja) 音声符号化装置、音声符号化方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130611

R150 Certificate of patent or registration of utility model

Ref document number: 5295380

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250