JP5434592B2 - オーディオ符号化方法、オーディオ復号方法、オーディオ符号化装置、オーディオ復号装置、プログラム、およびオーディオ符号化・復号システム - Google Patents

オーディオ符号化方法、オーディオ復号方法、オーディオ符号化装置、オーディオ復号装置、プログラム、およびオーディオ符号化・復号システム Download PDF

Info

Publication number
JP5434592B2
JP5434592B2 JP2009520622A JP2009520622A JP5434592B2 JP 5434592 B2 JP5434592 B2 JP 5434592B2 JP 2009520622 A JP2009520622 A JP 2009520622A JP 2009520622 A JP2009520622 A JP 2009520622A JP 5434592 B2 JP5434592 B2 JP 5434592B2
Authority
JP
Japan
Prior art keywords
gain
unit
audio
past
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009520622A
Other languages
English (en)
Other versions
JPWO2009001874A1 (ja
Inventor
修 嶋田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009520622A priority Critical patent/JP5434592B2/ja
Publication of JPWO2009001874A1 publication Critical patent/JPWO2009001874A1/ja
Application granted granted Critical
Publication of JP5434592B2 publication Critical patent/JP5434592B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Description

本発明は、オーディオ符号化・復号技術に関し、特に、オーディオ信号のスケーリングに用いるゲイン情報を符号化・復号する技術に関する。
一般的なオーディオ信号(音響/音声信号)を、少ない情報量で符号化でき、かつ高品質な再生信号を得られる技術として、帯域分割符号化を利用する方法が広く知られている。このような帯域分割を利用した符号化の代表例としては、ISO/IECの国際標準方式であるMPEG−2 AAC(Advanced Audio Coding)がある。
AAC方式では、符号化の際に、時間信号を周波数変換した信号Xを複数まとめたバンド単位で、次の式(1)に表されるスケーリングと量子化を行う。ここで、abs(X)はXの絶対値を表し、Gはゲイン情報、αは適当な定数値である。
Figure 0005434592
あるバンド内では共通のゲイン情報Gを用いて信号Xをスケーリングし、スケーリング後の信号を量子化する。ゲイン情報Gは、オーディオ信号の特性と人間の聴覚特性に基づいて決定される。
量子化信号Xqとゲイン情報Gは符号化され、符号化情報をビットストリームに書き込む。ゲイン情報Gは、初期値Aと次の式(2)で表される隣接バンドとのゲイン差分d_scfとから表す。ここで、iはバンド番号のインデックスを表し、G(−1)を初期値Aとする。
Figure 0005434592
AAC方式では、初期値Aを8ビットで符号化し、ゲイン差分をハフマン符号化する。ここで用いるハフマン符号長は、ゲイン差分の絶対値が小さい場合に符号長が短くなり、ゲイン差分の絶対値が大きい場合に符号長が長くなるように設計されている。
復号側では、初期値Aとハフマン復号したゲイン差分d_scfからゲイン情報Gを次の式(3)に従い生成する。ここで、iはバンド番号のインデックスを表し、G(−1)を初期値Aとする。
Figure 0005434592
次に、ゲイン情報Gと量子化信号Xqを用いて、次の式(4)に従い、逆量子化を行う。逆量子化した信号Xを時間信号に変換すると、出力オーディオ信号が得られる。
Figure 0005434592
ゲイン差分の符号量を少なくする従来例として、特開2002−268693号公報で開示されている方法がある。図10は、従来のオーディオ符号化・復号装置の構成を示すブロック図である。この図10を参照すると、従来のゲイン差分を少なくする方法は、周波数バンド統合部において、複数のバンドをまとめ、ゲイン計算部において、複数のバンドで共通のゲインを算出する。共通のゲインを使用するバンド間の差分を0としてハフマン符号量を削減することにより、ゲイン情報の符号量を削減している。
しかしながら、このような従来技術では、初期ゲインAを必ず符号化する必要があり、ゲイン情報の符号量を削減するには不十分である。また、特許文献1に記載されている技術では、複数の周波数バンドで同一のゲインを適用しているため、最小単位のバンドでの細かな制御ができないので音質が不十分である。
本発明はこのような課題を解決するためのものであり、ゲイン情報の符号量を効率よく削減でき、高品質に符号化・復号できるオーディオ符号化方法、オーディオ復号方法、オーディオ符号化装置、オーディオ復号装置、プログラム、およびオーディオ符号化・復号システムを提供することを目的としている。
このような目的を達成するために、本発明にかかるオーディオ符号化方法は、入力オーディオ信号をフレーム単位で周波数信号に変換する直交変換ステップと、直交変換ステップで得られた周波数信号をスケーリングするためのゲインを、複数の周波数信号をまとめたバンド単位で算出し、これらゲインを過去のフレームで使用した過去ゲインを用いてそれぞれ修正して修正ゲインを算出するゲイン計算ステップと、ゲイン計算ステップで得られた修正ゲインを用いて周波数信号をバンド単位でスケーリングするとともに量子化して量子化信号を生成する量子化ステップと、ゲイン計算ステップで得られた修正ゲインとこれに対応する過去ゲインの差分をゲイン情報としてバンド単位で符号化してゲイン情報を生成するゲイン符号化ステップと、量子化ステップで得られた量子化信号とゲイン符号化ステップで得られたゲイン情報とをバンド単位で多重して符号化オーディオデータを生成する多重化ステップとを備えている。
また、本発明にかかるオーディオ復号方法は、フレームごとに入力される符号化オーディオデータから、複数の周波数信号をまとめたバンド単位で、量子化信号情報と当該量子化信号をスケーリングするためのゲイン情報とを分離する分離ステップと、過去のフレームで用いたゲインをバンド単位で記憶部により記憶する記憶ステップと、記憶部から取得した過去のフレームのゲインと分離ステップで分離されたゲイン情報に含まれる差分ゲインを用いて当該フレームのゲインをバンド単位で復号するゲイン復号ステップと、ゲイン復号ステップで得られたゲインに基づいて、分離ステップで分離された量子化信号情報をバンド単位で逆量子化するとともにスケーリングして周波数信号を生成する逆量子化ステップと、逆量子化ステップで得られた周波数信号を直交変換して復号オーディオ信号を生成する直交変換ステップとを備えている。
また、本発明にかかるオーディオ符号化装置は、入力オーディオ信号をフレーム単位で周波数信号に変換する直交変換部と、直交変換部で得られた周波数信号をスケーリングするためのゲインを、複数の周波数信号をまとめたバンド単位で算出し、これらゲインを過去のフレームで使用した過去ゲインを用いてそれぞれ修正して修正ゲインを算出するゲイン計算部と、ゲイン計算部で得られた修正ゲインを用いて周波数信号をバンド単位でスケーリングするとともに量子化して量子化信号を生成する量子化部と、ゲイン計算部で得られた修正ゲインとこれに対応する過去ゲインの差分をゲイン情報としてバンド単位で符号化してゲイン情報を生成するゲイン符号化部と、量子化部で得られた量子化信号とゲイン符号化部で得られたゲイン情報とをバンド単位で多重して符号化オーディオデータを生成する多重化部とを備えている。
また、本発明にかかるオーディオ復号装置は、フレームごとに入力される符号化オーディオデータから、複数の周波数信号をまとめたバンド単位で、量子化信号情報と当該量子化信号をスケーリングするためのゲイン情報とを分離する分離部と、過去のフレームで用いたゲインをバンド単位で記憶する記憶部と、記憶部から取得した過去のフレームのゲインと分離部で分離されたゲイン情報に含まれる差分ゲインを用いて当該フレームのゲインをバンド単位で復号するゲイン復号部と、ゲイン復号部で得られたゲインに基づいて、分離部で分離された量子化信号情報をバンド単位で逆量子化するとともにスケーリングして周波数信号を生成する逆量子化部と、逆量子化部で得られた周波数信号を直交変換して復号オーディオ信号を生成する直交変換部とを備えている。
また、本発明にかかるプログラムは、オーディオ符号化装置のコンピュータで、上述したいずれかのオーディオ符号化方法を実行させるためのプログラムである。
また、本発明にかかるプログラムは、オーディオ復号装置のコンピュータで、上述したいずれかのオーディオ復号方法を実行させるためのプログラムである。
また、本発明にかかるオーディオ符号化・復号システムは、入力オーディオ信号を符号化して符号化オーディオデータを生成するオーディオ符号化装置と、このオーディオ符号化装置で生成された符号化オーディオデータを復号して、復号オーディオ信号を生成するオーディオ復号装置とから構成され、オーディオ符号化装置は、入力オーディオ信号をフレーム単位で周波数信号に変換する直交変換部と、直交変換部で得られた周波数信号をスケーリングするためのゲインを、複数の周波数信号をまとめたバンド単位で算出し、これらゲインを過去のフレームで使用した過去ゲインを用いてそれぞれ修正して修正ゲインを算出するゲイン計算部と、ゲイン計算部で得られた修正ゲインを用いて周波数信号をバンド単位でスケーリングするとともに量子化して量子化信号を生成する量子化部と、ゲイン計算部で得られた修正ゲインとこれに対応する過去ゲインの差分をゲイン情報としてバンド単位で符号化してゲイン情報を生成するゲイン符号化部と、量子化部で得られた量子化信号とゲイン符号化部で得られたゲイン情報とをバンド単位で多重して符号化オーディオデータを生成する多重化部とを備え、オーディオ復号装置は、フレームごとに入力される、オーディオ符号化装置で生成された符号化オーディオデータから、複数の周波数信号をまとめたバンド単位で、量子化信号情報と当該量子化信号をスケーリングするためのゲイン情報とを分離する分離部と、過去のフレームで用いたゲインをバンド単位で記憶する記憶部と、記憶部から取得した過去のフレームのゲインと分離部で分離されたゲイン情報に含まれる差分ゲインを用いて当該フレームのゲインをバンド単位で復号するゲイン復号部と、ゲイン復号部で得られたゲインに基づいて、分離部で分離された量子化信号情報をバンド単位で逆量子化するとともにスケーリングして周波数信号を生成する逆量子化部と、逆量子化部で得られた周波数信号を直交変換して復号オーディオ信号を生成する直交変換部とを備えている。
本発明によれば、過去フレームのゲインと初期ゲインから、量子化歪量を増加させないでゲイン符号量を抑制するようにゲイン情報を修正するため、最小単位のバンドでゲインを制御できると同時に、ゲイン情報の符号量を削減することができる。また、予め定めた変換式に従い、ゲインを算出することにより、低演算量で音質を向上することができる。その結果、抑制したゲイン符号量を量子化信号の符号量に費やすことができるため、高品質なオーディオ符号化復号方法、装置およびプログラムを実現することが可能となる。また、ゲイン符号量を抑制するため、従来よりも低ビットレートで、高品質なオーディオ符号化復号方法、装置およびプログラムを実現することが可能となる。
図1は、本発明の第1の実施形態にかかるオーディオ符号化装置の構成を示すブロック図である。 図2は、本発明の第1の実施形態にかかるオーディオ符号化装置におけるゲイン修正動作を示すフローチャートである。 図3は、本発明の第2の実施形態にかかるオーディオ復号装置の構成を示すブロック図である。 図4は、本発明の第4の実施形態にかかるオーディオ符号化装置におけるゲイン修正動作を示すフローチャートである。 図5は、初期ゲインと過去ゲインの差分と補正ゲインの関係を示すグラフである。 図6は、本発明の第5の実施形態にかかるオーディオ符号化装置の構成を示すブロック図である。 図7は、本発明の第6の実施形態にかかるオーディオ復号装置の構成を示すブロック図である。 図8は、コンピュータで各機能部を実現した場合のオーディオ符号化装置の構成例を示すブロック図である。 図9は、コンピュータで各機能部を実現した場合のオーディオ復号装置の構成例を示すブロック図である。 図10は、従来のオーディオ符号化・復号装置の構成を示すブロック図である。
次に、本発明の実施形態について図面を参照して説明する。
[第1の実施形態]
まず、図1を参照して、本発明の第1の実施形態にかかるオーディオ符号化装置について説明する。図1は、本発明の第1の実施形態にかかるオーディオ符号化装置の構成を示すブロック図である。
このオーディオ符号化装置1Aは、入力された入力オーディオ信号100を符号化処理してビットストリーム108を出力する機能を有しており、主な機能部として、直交変換部10、心理聴覚分析部11、ゲイン計算部12、量子化部13、ゲイン符号化部14、および多重化部15を備えている。
本実施形態は、直交変換部10により、入力オーディオ信号をフレーム単位で周波数信号に変換し、ゲイン計算部12により、直交変換部10で得られた周波数信号をスケーリングするためのゲインを、複数の周波数信号をまとめたバンド単位で算出し、これらゲインを過去のフレームで使用した過去ゲインを用いてそれぞれ修正して修正ゲインを算出し、量子化部13により、ゲイン計算部12で得られた修正ゲインを用いて周波数信号をバンド単位でスケーリングするとともに量子化して量子化信号を生成し、ゲイン符号化部14により、ゲイン計算部12で得られた修正ゲインとこれに対応する過去ゲインの差分をゲイン情報としてバンド単位で符号化してゲイン情報を生成し、多重化部15により、量子化部13で得られた量子化信号とゲイン符号化部14で得られたゲイン情報とをバンド単位で多重して符号化オーディオデータを生成している。
直交変換部10は、フレーム毎に入力オーディオ信号100(時間信号)を分割し、周波数信号102に変換する。直交変換方法として、例えば、MDCT(変形離散コサイン変換:Modified Discrete Cosine Transform)がある。他にも、DCT(離散コサイン変換:Discrete Cosine Transform)やDFT(離散フーリエ変換:Discrete Fourie Transform)、サブバンド変換などの方法でも周波数信号を算出することができる。
心理聴覚分析部11は、入力オーディオ信号100の特性と人間の聴覚特性とビットレートとから、量子化の際に発生する量子化雑音が知覚されないように、許容できる量子化雑音(許容量子化雑音、マスキング閾値)101を算出する。ここで、大きい音に近い周波数の音は聞こえにくいマスキング効果を積極的に利用することにより、高品質な許容量子化雑音を算出することができる。許容量子化雑音101は、周波数信号を複数まとめたバンド単位で算出する。バンド幅は、人間の聴覚特性に応じて、低周波数帯域ほど細かく、高周波数帯域ほど粗くする。
ゲイン計算部12は、上述した式(1)に示される周波数信号の量子化の際に、周波数信号をスケーリングするときに使用する修正ゲイン104を算出する。さらに、過去のある1フレーム分のゲインG_oldと過去ゲインのフレーム番号情報とから構成される過去ゲイン情報105を出力する。
ゲイン符号化部14は、過去のある1フレーム分のゲインG_oldと該フレームで使用する修正ゲイン104の差分を符号化する。差分ゲインの算出は、バンド単位で行う。該フレームの量子化で使用したゲインをGとすると、符号化する差分ゲインは、以下の式(5)で表される。ここで、iはバンド番号のインデックスを表す。
Figure 0005434592
差分ゲインを算出する際に使用した過去ゲインG_oldのフレーム番号F_oldと、該フレーム番号Fとから以下の式(6)で表されるフレーム番号情報d_frameを算出する。
Figure 0005434592
差分ゲインやフレーム番号情報は、ハフマン符号などのエントロピー符号化を行うと、さらに情報量を削減することができる。ハフマン符号を用いる場合には、差分ゲインの絶対値が小さいほど、符号長が短くなるように設計したほうが符号量を削減できる。なぜなら、時間方向の信号変化はなだらかであることの方が多いためである。フレーム番号情報も同様で、d_frameの値が小さいほど符号長が短くなるように設計したほうが符号量を削減できる。ゲイン符号化部14は、上述した方法で差分ゲインとフレーム番号情報を符号化し、ゲイン情報107を出力する。
量子化部13は、ゲイン計算部12で算出したゲインGを用いて、式(1)で表されるように、周波数信号Xをバンド単位でスケーリングし、スケーリング後の周波数信号をバンド単位で量子化し、量子化信号Xq(106)を算出する。量子化信号Xqはハフマン符号などのエントロピー符号化を行い、情報量を削減する。
多重化部15は、ゲイン情報107と量子化信号106とをバンド単位で多重化し、符号化オーディオデータすなわちビットストリーム108を出力する。
[ゲイン計算部]
ここで、ゲイン計算部12の動作についてさらに詳細に説明する。
ゲイン計算部12には、主な機能部として、初期ゲイン計算部20、ゲイン修正部21、およびゲイン記憶部22が設けられている。
初期ゲイン計算部20は、許容量子化雑音101と周波数信号102とから、周波数信号102をスケーリングする初期ゲイン103をバンド単位で算出する。ゲインは、式(1)を適用する周波数信号の量子化の際に周波数信号をスケーリングするときに使用する。初期ゲイン103の算出は、量子化雑音が許容量子化雑音内に収まるように複数回の繰り返し処理で算出してもよいし、予め定めた変換式で算出してもよい。
ゲイン記憶部22は、過去のフレームで使用したゲインとフレーム番号を記憶しておき、ゲイン修正部21とゲイン符号化部14とに過去フレームのゲインとそのフレーム番号とから校正される過去ゲイン情報105を出力する。
ゲイン修正部21は、量子化歪を増加させないでゲイン情報の符号量が少なくなるようにゲインの修正を行う。図2は、本発明の第1の実施形態にかかるオーディオ符号化装置におけるゲイン計算動作を示すフローチャートである。ゲイン修正部21では、ある過去のフレームkのゲインに対して、全バンドのゲインを修正する。
まず、修正するバンド番号iの初期値を0として(ステップS001)、以下の式(7)に示すように、バンドiの量子化時の歪に関する評価関数f_distortionと、ゲインの符号量に関する評価関数f_gainとから評価値Evalを算出する(ステップS002)。ここで、G_1、Gは、それぞれ、初期ゲイン、更新後のゲインを表す。G_old(k,i)は、過去のフレームkのゲインを表し、ゲインの符号化時に使用する過去フレームのゲインである。Xは周波数信号を表す。G=G_1のとき、評価値Evalは0となる。
Figure 0005434592
この式(7)で得られた計算結果である評価値Evalと更新後のゲインGは保持しておく(ステップS003)。とり得る可能性のある全てのゲインで評価値を算出したかどうかを判定し(ステップS004)、全てのゲインで評価値を算出していない場合は、ゲインを更新し(ステップS009)、新たなゲインで再度評価値を算出する。全てのゲインで評価値を算出した場合、ステップS003で保存してある評価値Evalの中で最小の評価値をもつゲインをバンドiの修正後のゲインとする(ステップS005)。
MaxBandを計算する周波数バンドの最大値とすると、i<MaxBandの場合(ステップS006)、バンド番号iの値を更新し(ステップS010)、次の周波数バンドのゲインを修正する。全バンドで修正後のゲインを算出した場合、過去フレームkの評価値を、全バンドの修正後のゲインを用いたときの評価値の和とする。計算可能な過去フレーム全てで評価値を算出したかどうかを判定し(ステップS007)、計算可能な過去フレームがある場合は、過去フレームkの値を更新し(ステップS011)、新たな過去フレームの評価値を算出する。
全ての過去フレームの評価値を算出した場合、過去フレームの評価値が最小であるフレームを過去フレームとして選択し、そのフレームkと修正後のゲインを出力する(ステップS008)。
例えば、式(7)の関数Fは、量子化の歪に関する評価関数f_distortionとゲインの符号量に関する評価関数f_gainの和で表すことができる。また、線形変換や複雑な非線形変換をすることにより、精度の高い評価値を算出することもできる。
量子化の歪に関する評価関数f_distortionは、ゲインをG_1(i)からG(i)に変更することによって増加または減少する歪量から算出される。例えば、実際に量子化を行って量子化歪を算出することで歪量の増減を算出することができる。量子化の歪量から評価関数f_distortionの出力値への変換は、変換係数を加算または乗算することにより変換する。また、線形変換や複雑な非線形変換をすることにより、精度の高い評価値を算出することもできる。他の例として、演算量削減のために、実際の量子化歪の増減を算出せずに、近似式を用いて評価値を算出することもできる。
ゲインの符号量に関する評価関数f_gainは、ゲインをG_1(i)からG(i)に変更することによって増加または減少するゲインの符号量から算出される。例えば、実際にゲインを符号化し、ゲインの符号量の増減を算出することができる。ゲイン符号量から評価関数f_gainの出力値への変換は、変換係数を加算または乗算することにより変換する。また、線形変換や複雑な非線形変換をすることにより、精度の高い評価値を算出することもできる。他の例として、演算量削減のために、実際のゲイン符号量の増減を算出せずに、近似式を用いて評価値を算出することもできる。
上述した評価値は、量子化時の歪に関する評価関数f_distortionと、ゲインの符号量に関する評価関数f_gainとから算出されているが、他にも、量子化時の符号量から算出される評価関数f_quantizeを用いて評価値を算出することもできる。量子化時の符号量から算出される評価関数f_quantizeは、ゲインをG_1(i)からG(i)に変更することによって増加または減少する量子化信号を符号化したときの符号量から算出される。例えば、実際に量子化を行って符号化したときの符号量の増減から算出することができる。
量子化信号の符号量から評価関数f_quantizeの出力値への変換は、変換係数を加算または乗算することにより変換する。また、線形変換や複雑な非線形変換をすることにより、精度の高い評価値を算出することもできる。他の例として、演算量削減のために、量子化信号の符号量の増減を算出せずに、近似式を用いて評価値を算出することもできる。
量子化時の符号量から算出される評価関数f_quantizeを用いると、G_1(i)からG(i)に変更しても量子化時の符号量が変化しないように、または符号量が増加しないようにゲインの修正が可能となる。このように、量子化時の符号量から算出される評価関数f_quantizeを用いると、高品質な評価値を算出することもできる。
これら3つの評価関数から評価値Evalを算出する際には、例えば、これら3つの評価関数の評価値の和としてもよいし、線形変換や複雑な非線形変換をすることにより評価値Evalを算出してもよい。また、これら3つの評価関数のうち1つまたは2つの評価関数を選択し、選択した評価関数の評価値から評価値Evalを算出してもよい。
さらに、とり得るゲインの範囲や、過去フレームの範囲を制限することにより、演算量およびメモリ量を削減できる。
量子化の歪に関する評価関数f_distortionとゲインの符号量に関する評価関数f_gainと量子化時の符号量から算出される評価関数f_quantizeは、バンド番号iに応じて異なった式を用いてもよい。例えば、バンド番号が小さいとき、すなわち、周波数成分が低いときは、聴感上の印象に大きく影響を与えるため、高域周波数帯域よりも大きな評価値を出すように設計することで、品質を下げずにゲインを修正できる。
このように、本実施形態によれば、過去フレームのゲインと初期ゲインから、量子化歪量を増加させないでゲイン符号量を抑制するようにゲイン情報を修正しているため、最小単位のバンドでゲインを制御できると同時に、ゲイン情報の符号量を削減することができる。また、予め定めた変換式に従い、ゲインを算出することにより、低演算量で音質を向上することができる。
その結果、抑制したゲイン符号量を量子化信号の符号量に費やすことができるため、高品質で符号化することができる。
[第2の実施形態]
次に、図3を参照して、本発明の第2の実施形態にかかるオーディオ復号装置について説明する。図3は、本発明の第2の実施形態にかかるオーディオ復号装置の構成を示すブロック図である。
オーディオ復号装置3Aは、上述したオーディオ符号化装置が出力したビットストリームを復号して復号信号を出力する機能を有しており、主な機能部として、分離部30、ゲイン記憶部31、ゲイン復号部32、逆量子化部33、および直交変換部34を備えている。このオーディオ復号装置3Aは、本発明の第1の実施形態にかかるオーディオ符号化装置1Aと組として使用される。
本実施形態では、分離部30により、フレームごとに入力される符号化オーディオデータから、複数の周波数信号をまとめたバンド単位で、量子化信号情報と当該量子化信号をスケーリングするためのゲイン情報とを分離し、ゲイン記憶部31により、過去のフレームで用いたゲインをバンド単位で記憶し、ゲイン復号部32により、ゲイン記憶部31から取得した過去のフレームのゲインと分離部30で分離されたゲイン情報に含まれる差分ゲインを用いて当該フレームのゲインをバンド単位で復号し、逆量子化部33により、ゲイン復号部32で得られたゲインに基づいて、分離部30で分離された量子化信号情報をバンド単位で逆量子化するとともにスケーリングして周波数信号を生成し、直交変換部34により、逆量子化部33で得られた周波数信号を直交変換して復号オーディオ信号を生成している。
分離部30は、フレームごとに入力されるビットストリーム300から、フレーム番号情報301を分離するとともに、複数の周波数信号をまとめたバンド単位で、差分ゲイン情報302と量子化信号303を分離する。
ゲイン記憶部31は、過去のフレームで使用したゲインをバンド単位で保持しておき、フレーム番号情報301に含まれるフレーム番号情報に従い、該当するフレームのゲインG_oldを過去ゲイン308としてゲイン復号部32に出力する。
ゲイン復号部32は、ゲイン記憶部31から出力された過去フレームのゲインG_old(308)とゲイン情報に含まれる差分ゲイン情報d_scf(302)から、以下の式(8)に従い、バンド単位でゲインG(304)を復号する。ここで、iはバンド番号のインデックスを表す。
Figure 0005434592
逆量子化部33は、量子化信号Xq(303)と、ゲインG(304)から、以下の式(9)に従い逆量子化を行い、周波数信号X(305)を出力する。
Figure 0005434592
直交変換部34は、周波数信号Xを直交変換し、復号オーディオ信号306を出力する。ここで用いる直交変換は、符号化装置内の直交変換部で使用する直交変換の逆変換に相当する。
本実施形態によれば、ゲイン記憶部31を備えることにより、過去フレームで使用したゲインを利用できるため、ビットストリーム300に含まれる差分ゲイン情報302の符号量を削減できる。
このように、本実施形態によれば、過去フレームのゲインと初期ゲインから、量子化歪量を増加させないでゲイン符号量を抑制するようにゲイン情報を修正している、最小単位のバンドでゲインを制御できると同時に、ゲイン情報の符号量を削減することができる。また、予め定めた変換式に従い、ゲインを算出しているため、低演算量で音質を向上することができる。
その結果、抑制したゲイン符号量を量子化信号の符号量に費やすことができるため、高品質で復号することができる。
[第3の実施形態]
次に、本発明の第3の実施形態にかかるオーディオ符号化装置およびオーディオ復号装置について説明する。
第1および第2の実施形態で説明したオーディオ符号化装置1Aおよびオーディオ復号装置3Aでは、上述した式(5),式(8)を用いて差分ゲインの符号化・復号を行っているが、本実施形態では、差分の平均値μを用いて符号化・復号を行う。本実施形態にかかるオーディオ符号化装置およびオーディオ復号装置は、互いに組として使用される。
まず、本実施形態にかかるオーディオ符号化装置について説明する。本実施形態にかかるオーディオ符号化装置は、図1に示すように、入力された入力オーディオ信号100を符号化処理してビットストリーム108を出力する機能を有しており、主な機能部として、直交変換部10、心理聴覚分析部11、ゲイン計算部12、量子化部13、ゲイン符号化部14、および多重化部15を備えている。
このうち、ゲイン符号化部14は、次の式(10)で表されるように、ゲイン符号化部14において、各バンドのゲインG(i)から過去フレームのゲインG_old(i)と全バンドまたは複数バンドで共通の平均値μを減算したものをバンドiの差分ゲインd_scf(i)とする。
Figure 0005434592
ゲイン符号化部14は、差分ゲインd_scfとどの過去フレームのゲインを使用したかを表すフレーム番号情報に加えて、平均値μも符号化する。平均値μは、ハフマン符号などのエントロピー符号化を行うと、さらに情報量を削減することができる。ハフマン符号を用いる場合には、平均値μの絶対値が小さいほど、符号長が短くなるように設計したほうが符号量を削減できる。なぜなら、時間方向の信号変化はなだらかであることの方が多いためである。
なお、本実施形態にかかるオーディオ符号化装置における上記以外の構成については、上述したオーディオ符号化装置1Aと同等であり、ここでの詳細な説明は省略する。
次に、本実施形態にかかるオーディオ復号装置について説明する。本実施形態にかかるオーディオ復号装置は、図3に示すように、上述したオーディオ符号化装置が出力したビットストリームを復号して復号信号を出力する機能を有しており、主な機能部として、分離部30、ゲイン記憶部31、ゲイン復号部32、逆量子化部33、および直交変換部34を備えている。
このうち、ゲイン復号部32は、次の式(11)で表されるように、ゲイン復号部32において全バンドで共通の平均値μと差分ゲインd_scf(i)と過去フレームのゲインG_old(i)との和からバンド単位でゲインG(i)とする。ここで、iはバンドのインデックスを表す。
Figure 0005434592
このように、信号全体の大きさが変わる場合に、平均値μを用いることで、バンド単位で算出する差分ゲインd_scfの符号量を減らすことができ、ゲイン符号量を削減できる。
上述した平均値μを符号化する方法は、全周波数帯域で共通の値を用いていたが、複数のバンドをまとめた単位で複数算出してもよい。例えば、量子化部13、逆量子化部33において周波数信号Xを量子化、逆量子化する際には、複数のバンドで共通の符号帳を使用することがあり、量子化・逆量子化において共通の符号帳を使用するバンド単位で平均値μを符号化することができる。
なお、本実施形態にかかるオーディオ符号化装置における上記以外の構成については、上述したオーディオ符号化装置1Aと同等であり、ここでの詳細な説明は省略する。
[第4の実施形態]
次に、図4を参照して、本発明の第4の実施形態にかかるオーディオ符号化装置について説明する。図4は、本発明の第4の実施形態にかかるオーディオ符号化装置におけるゲイン計算動作を示すフローチャートである。
本実施形態にかかるオーディオ符号化装置は、図1に示すように、入力された入力オーディオ信号100を符号化処理してビットストリーム108を出力する機能を有しており、主な機能部として、直交変換部10、心理聴覚分析部11、ゲイン計算部12、量子化部13、ゲイン符号化部14、および多重化部15を備えており、ゲイン計算部12には、主な機能部として、初期ゲイン計算部20、ゲイン修正部21、およびゲイン記憶部22が設けられている。このオーディオ符号化装置は、本発明の第2の実施形態にかかるオーディオ復号装置3Aと組として使用される。
ゲイン修正部21では、ある過去のフレームkのゲインに対して、全バンドのゲインを修正する。
まず、修正するバンド番号iの初期値を0として(ステップS101)、バンドiの初期ゲインと過去ゲインの差分から補正ゲインを算出する(ステップS102)。算出した補正ゲインを初期ゲインに加算し、更新したゲインを修正後のゲインとする(ステップS103)。
MaxBandを計算する周波数バンドの最大値とすると、i<MaxBandの場合(ステップS106)、バンド番号iの値を更新し(ステップS107)、次の周波数バンドのゲインを修正する。全バンドで修正後のゲインを算出したあと、過去フレームkの評価値を算出する。計算可能な過去フレーム全てで評価値を算出したかどうかを判定し(ステップS105)、計算可能な過去フレームがある場合は、過去フレームkの値を更新し(ステップS108)、新たな過去フレームの評価値を算出する。全ての過去フレームの評価値を算出したら、過去フレームの評価値が最小であるフレームを過去フレームとして選択し、そのフレームkと修正後のゲインを出力する(ステップS106)。
補正ゲインは、初期ゲインと過去ゲインの差分と同じまたは、この差分の絶対値よりも小さくなるようにする。図5は、初期ゲインと過去ゲインの差分と補正ゲインの関係を示すグラフである。例えば、図5に示すように、横軸を以下の式(12)で定義すると、Gxの絶対値が小さいときには、補正ゲインの絶対値がGxの絶対値よりも小さくなるようにする。
Figure 0005434592
この結果、ゲイン符号化部において補正ゲインを適用した修正ゲインと過去ゲインとの差分が小さくなり、ゲインの符号量を削減することができる。一方、Gxの絶対値が大きいときには、Gxの値を補正ゲインとする。この結果、音が急に大きくなったり小さくなったりして、ゲインが変わったときに音質を劣化させずにゲインを符号化することが可能となる。
さらに、Gxの符号によって変換式を変更すると音質が向上する場合がある。Gxの符号が負の場合、つまり、過去ゲインよりも該フレームのゲインのほうが小さい場合、補正ゲインを0とするよりも、初期ゲインに近づくように補正すると音質が向上する。
図5の例では、Gxの値により補正ゲインを一意に決めているが、ビットレートや該フレームで使用できるビット数に応じて変換式を変更することにより、高品質な補正ゲインを算出することができる。他にも、Gxの値を入力として線形変換や複雑な非線形変換をすることにより、精度の高い評価値を算出することもできる。
ある過去フレームの評価値は、例えば、ある過去フレームの過去ゲインを用いて修正したゲインを符号化したときの符号量から算出することができる。この場合、符号量が一番小さい過去フレームを選択する。他の評価値の例として、量子化時の歪量とゲインの符号量から算出する評価値を用いてもよい。
ゲイン修正部の第1の例と比較すると、ゲインの更新(ステップS009)を複数回行わなくてよいため、低演算量でゲインを修正できる。
また、上述した各実施形態のオーディオ符号化装置やオーディオ復号装置では、過去のフレームを用いてゲインの符号化や復号を行っている。この際、予め、フレーム番号情報d_frameの最大値を制限しておくことで、演算量やメモリ量を削減することができる。また、常に1フレーム前のゲインを使用することにすると、過去のフレームを選択する必要がなくなり演算量が削減できるとともに、過去のフレーム番号情報を符号化しなくてよいため符号量を削減できる。
なお、本実施形態にかかるオーディオ符号化装置における上記以外の構成については、上述したオーディオ符号化装置1Aと同等であり、ここでの詳細な説明は省略する。
[第5の実施形態]
次に、図6を参照して、本発明の第5の実施形態にかかるオーディオ符号化装置について説明する。図6は、本発明の第5の実施形態にかかるオーディオ符号化装置の構成を示すブロック図であり、図1と同じまたは同等部分には同一符号を付してある。
本実施形態にかかるオーディオ符号化装置1Bは、図1に示すように、入力された入力オーディオ信号100を符号化処理してビットストリーム108を出力する機能を有しており、主な機能部として、直交変換部10、心理聴覚分析部11、ゲイン計算部16、量子化部13、ゲイン符号化部14、および多重化部15を備えており、ゲイン計算部16には、主な機能部として、初期ゲイン計算部20、ゲイン修正部21、ゲイン記憶部22、およびゲイン符号化方向判定部23が設けられている。
第1の実施形態のオーディオ符号化装置1Aと比較して、本実施形態にかかるオーディオ符号化装置1Bには、ゲイン符号化方向判定部23が追加されている。
オーディオ符号化装置1Bのゲイン符号化方向判定部23は、初期ゲイン計算部20で算出した初期ゲイン103と、ゲイン修正部21で修正した修正ゲイン104を用いて、符号化するゲインを決定する。初期ゲイン103を、上述した式(2)を用いて周波数差分符号化した場合と、修正ゲインを、上述した式(5)を用いて時間差分符号化した場合の符号量を算出し、符号量が少なくなる差分方式を選択する。
選択した差分方式に応じて、周波数差分符号化の場合は初期ゲイン、時間差分符号化の場合は修正ゲインを最終ゲイン109として出力し、選択した差分方式の情報も最終ゲイン109に含める。周波数差分符号化の符号量の算出には、初期値を符号化するのに必要な符号量を含めて算出する。時間差分符号化の符号量の算出には、過去のフレーム番号を表す符号量なども含めて算出する。
上述のゲイン符号化方向判定部23では、差分符号化方式を選択する際に、初期ゲインを周波数差分符号化、修正ゲインを時間差分符号化したときの符号量から選択したが、初期ゲインを時間差分符号化、修正ゲインを周波数差分符号化したときなど、複数の組み合わせの中から最も符号量が少なくなる組み合わせを選択することで、さらに符号量を削減できる場合がある。
ゲイン符号化部14は、ゲイン符号化方向判定部23で判定した差分方式を用いてゲインの符号化を行う。ゲイン符号化部14の出力であるゲイン情報107は、どちらの差分符号化方式を選択したかを表す情報を付加し、周波数差分符号化の場合は、式(2)を用いて差分ゲイン情報と初期値を符号化した情報を、時間差分符号化の場合は、式(5)を用いて差分ゲイン情報と過去フレーム番号情報を符号化した情報を含む。
この結果、音の周波数変化が少ないときは、周波数差分符号化方式を選択することでゲイン符号量を削減できる。一方、音の時間変化が少ないときは、時間差分符号化方式を選択することでゲイン符号量を削減できる。
なお、本実施形態にかかるオーディオ符号化装置における上記以外の構成については、上述したオーディオ符号化装置1Aと同等であり、ここでの詳細な説明は省略する。
[第6の実施形態]
次に、図7を参照して、本発明の第6の実施形態にかかるオーディオ復号装置について説明する。図7は、本発明の第6の実施形態にかかるオーディオ復号装置の構成を示すブロック図であり、図3と同じまたは同等部分には同一符号を付してある。
本実施形態にかかるオーディオ復号装置3Bは、図7に示すように、上述したオーディオ符号化装置が出力したビットストリームを復号して復号信号を出力する機能を有しており、主な機能部として、分離部30、ゲイン記憶部31、ゲイン復号部32、逆量子化部33、および直交変換部34を備えている。第2の実施形態のオーディオ復号装置3Aと比較して、本実施形態にかかるオーディオ復号装置3Bには、ゲイン符号化方向復号部35が追加されている。このオーディオ復号装置3Bは、本発明の第5の実施形態にかかるオーディオ符号化装置1Bと組として使用される。
オーディオ復号装置3Bのゲイン符号化方向復号部35は、ビットストリーム分離部30で分離されたゲイン情報309に含まれる選択した差分方式から、差分ゲインが時間方向または周波数方向のどちらに差分符号化されているか決定する。ゲイン復号部32は、ゲイン符号化方向復号部35が出力した当該差分方式を示す差分方式情報と差分ゲインとから構成される差分ゲイン情報307からゲインを復号する。差分方式が時間方向の場合、上述した式(3)で表されるように、隣接のバンドのゲインと差分ゲインと初期値を用いて該フレームのゲインを算出する。一方、差分方式が周波数方向の場合、上述した式(7)で表されるように、過去フレーム番号情報301に基づいてゲイン記憶部31が出力した過去フレームのゲインと差分ゲインを用いて該フレームのゲインを算出する。
上述した第5の実施形態にかかるオーディオ符号化装置1Bや第6の実施形態にかかるオーディオ復号装置3Bでは、時間方向にゲインを差分符号化する場合、過去のフレームを用いてゲインの符号化・復号を行っている。この際、予め、フレーム番号情報d_frameの最大値を制限しておくことで、演算量やメモリ量を削減することができる。また、常に1フレーム前のゲインを使用することにすると、過去のフレームを選択する必要がなくなり演算量が削減できるとともに、過去のフレーム番号情報を符号化しなくてよいため符号量を削減できる。
なお、本実施形態にかかるオーディオ復号装置における上記以外の構成については、上述したオーディオ復号装置3Aと同等であり、ここでの詳細な説明は省略する。
[実施形態の拡張]
以上の各実施形態では、オーディオ符号化装置やオーディオ復号装置について、それぞれ個別の装置として構成した場合を例として説明したが、これに限定されるものではなく、オーディオ符号化装置およびオーディオ復号装置を1つの装置に実装して、オーディオ符号化・復号装置を構成してもよく、それぞれ前述した各実施の構成と同様の作用効果を得ることができる。
また、各実施形態にかかるオーディオ符号化装置やオーディオ復号装置を構成する各機能部については、それぞれ専用の信号処理回路や演算回路で実現してもよいが、これらをデジタル信号演算処理を行うコンピュータで実現してもよい。
図8は、コンピュータで各機能部を実現した場合のオーディオ符号化装置の構成例を示すブロック図である。このオーディオ符号化装置1Cには、コンピュータ600と記憶装置601が設けられている。
コンピュータ600は、CPUなどのマイクロプロセッサとその周辺回路を有し、記憶装置601に記憶されているプログラム602を読み込んで実行することにより、上記ハードウェアとプログラム602とを協動させて、上記各実施形態にかかるオーディオ符号化装置の各機能部、具体的には、前述した図1の直交変換部10、心理聴覚分析部11、ゲイン計算部12、量子化部13、ゲイン符号化部14、および多重化部15を実現する。これにより、入力オーディオ信号100を符号化してビットストリーム108を出力する。
図9は、コンピュータで各機能部を実現した場合のオーディオ復号装置の構成例を示すブロック図である。このオーディオ復号装置3Cには、コンピュータ610と記憶装置611が設けられている。
コンピュータ610は、CPUなどのマイクロプロセッサとその周辺回路を有し、記憶装置611に記憶されているプログラム612を読み込んで実行することにより、上記ハードウェアとプログラム612とを協動させて、上記各実施形態にかかるオーディオ復号装置の各機能部、具体的には、前述した図3の分離部30、ゲイン記憶部31、ゲイン復号部32、逆量子化部33、および直交変換部34を実現する。これにより、ビットストリーム300を復号して復号オーディオ信号306を出力する。
なお、ここでは、符号化側と復号側とで異なったコンピュータを用いた例を説明したが、符号化側と復号側とで同一のコンピュータを用いて処理を実行してもよい。
また、各実施形態にかかるオーディオ符号化装置とオーディオ復号装置は、本発明にかかるオーディオ符号化・復号システムを構成する。
この際、オーディオ符号化装置は、入力オーディオ信号を符号化して符号化オーディオデータを生成する。この符号化オーディオデータは、通信ネットワークや通信回線、あるいは信号線を介して、あるいは記録媒体を介して、オーディオ復号装置へ入力される。オーディオ復号装置は、上記オーディオ符号化装置で生成された符号化オーディオデータを復号して、復号オーディオ信号を生成する。
したがって、本発明にかかるオーディオ符号化・復号システムによれば、過去フレームのゲインと初期ゲインから、量子化歪量を増加させないでゲイン符号量を抑制するようにゲイン情報を修正するため、最小単位のバンドでゲインを制御できると同時に、ゲイン情報の符号量を削減することができる。また、予め定めた変換式に従い、ゲインを算出することにより、低演算量で音質を向上することができる。その結果、抑制したゲイン符号量を量子化信号の符号量に費やすことができるため、高品質なオーディオ符号化復号方法、装置およびプログラムを実現することが可能となる。また、ゲイン符号量を抑制するため、従来よりも低ビットレートで、高品質なオーディオ符号化復号方法、装置およびプログラムを実現することが可能となる。
オーディオ信号(音響/音声信号)を符号化してやり取りする、一般的なオーディオ装置として有用であり、特に、少ない情報量で符号化でき、かつ高品質な再生信号を得る場合に適している。

Claims (21)

  1. 入力オーディオ信号をフレーム単位で周波数信号に変換する直交変換ステップと、
    前記直交変換ステップで得られた周波数信号をスケーリングするためのゲインを、複数の周波数信号をまとめたバンド単位で算出し、これら初期ゲインを過去のフレームで使用した過去ゲインを用いてそれぞれ修正して修正ゲインを算出するゲイン計算ステップと、
    前記ゲイン計算ステップで得られた修正ゲインを用いて前記周波数信号をバンド単位でスケーリングするとともに量子化して量子化信号を生成する量子化ステップと、
    前記ゲイン計算ステップで得られた修正ゲインとこれに対応する前記過去ゲインの差分をゲイン情報としてバンド単位で符号化してゲイン情報を生成するゲイン符号化ステップと、
    前記量子化ステップで得られた量子化信号と前記ゲイン符号化ステップで得られたゲイン情報とをバンド単位で多重して符号化オーディオデータを生成する多重化ステップと
    を備えることを特徴とするオーディオ符号化方法。
  2. 請求項1に記載のオーディオ符号化方法において、
    前記ゲイン計算ステップは、前記修正ゲインを算出する際、量子化時の歪を評価する評価関数と前記過去ゲインを用いてゲインの符号量を評価する評価関数とから算出される評価値に基づいて前記修正ゲインを算出するステップから構成されることを特徴とするオーディオ符号化方法。
  3. 請求項1に記載のオーディオ符号化方法において、
    前記ゲイン計算ステップは、前記修正ゲインを算出する際、前記過去ゲインと修正後のゲインの差の絶対値が、前記過去ゲインと前記初期ゲインとの差の絶対値より同じまたは小さくなるように前記修正ゲインを算出するステップから構成されることを特徴とするオーディオ符号化方法。
  4. 請求項1に記載のオーディオ符号化方法において、
    前記ゲイン符号化ステップは、前記修正ゲインと前記過去ゲインとの差からバンド単位で算出する差分ゲインを複数のバンドで平均し、得られた差分平均値と差分ゲインとの差分を各バンドごとに算出し、これら差分と差分平均値とをゲイン情報として符号化するステップから構成されることを特徴とするオーディオ符号化方法。
  5. 請求項1に記載のオーディオ符号化方法において、
    前記ゲイン符号化ステップは、所定数フレーム前までの過去のゲインの中から選択したゲインを前記過去ゲインとして使用し、当該過去ゲインが使用されたフレームのフレーム番号情報を符号化するステップから構成されることを特徴とするオーディオ符号化方法。
  6. 請求項1に記載のオーディオ符号化方法において、
    前記ゲイン計算ステップは、前記過去ゲインとして常に1フレーム前のゲインを使用するステップから構成されることを特徴とするオーディオ符号化方法。
  7. 請求項1に記載のオーディオ符号化方法において、
    前記ゲイン計算ステップは、修正前のゲインと修正後のゲインとから該フレームのゲインを時間方向に差分符号化するか周波数方向に差分符号化するかを選択するステップから構成され、
    前記ゲイン符号化ステップは、前記ゲイン計算ステップで選択した差分符号化方向に従って、ゲインを差分符号化するステップから構成される
    ことを特徴とするオーディオ符号化方法。
  8. フレームごとに入力される符号化オーディオデータから、複数の周波数信号をまとめたバンド単位で、量子化信号情報と当該量子化信号をスケーリングするためのゲイン情報とを分離する分離ステップと、
    過去のフレームで用いたゲインをバンド単位で記憶部により記憶する記憶ステップと、
    前記記憶部から取得した過去のフレームのゲインと前記分離ステップで分離されたゲイン情報に含まれる差分ゲインを用いて当該フレームのゲインをバンド単位で復号するゲイン復号ステップと、
    前記ゲイン復号ステップで得られたゲインに基づいて、前記分離ステップで分離された量子化信号情報をバンド単位で逆量子化するとともにスケーリングして周波数信号を生成する逆量子化ステップと、
    前記逆量子化ステップで得られた周波数信号を直交変換して復号オーディオ信号を生成する直交変換ステップとを備え
    前記ゲイン情報は、任意の過去フレームを示すフレーム番号情報と、この過去フレームのゲインと当該フレームのゲインとの差分ゲインとを、バンド単位でそれぞれ含み、
    前記ゲイン復号ステップは、前記ゲイン情報のフレーム番号情報に対応する過去フレームのゲインを前記記憶部からバンド単位で取得し、この過去フレームのゲインと前記ゲイン情報の差分ゲインとから、当該フレームのゲインをバンド単位で算出するステップから構成される
    ことを特徴とするオーディオ復号方法。
  9. フレームごとに入力される符号化オーディオデータから、複数の周波数信号をまとめたバンド単位で、量子化信号情報と当該量子化信号をスケーリングするためのゲイン情報とを分離する分離ステップと、
    過去のフレームで用いたゲインをバンド単位で記憶部により記憶する記憶ステップと、
    前記記憶部から取得した過去のフレームのゲインと前記分離ステップで分離されたゲイン情報に含まれる差分ゲインを用いて当該フレームのゲインをバンド単位で復号するゲイン復号ステップと、
    前記ゲイン復号ステップで得られたゲインに基づいて、前記分離ステップで分離された量子化信号情報をバンド単位で逆量子化するとともにスケーリングして周波数信号を生成する逆量子化ステップと、
    前記逆量子化ステップで得られた周波数信号を直交変換して復号オーディオ信号を生成する直交変換ステップとを備え、
    前記ゲイン情報は、当該フレームの差分ゲインが時間方向または周波数方向のいずれかの差分符号化方法で差分符号化されているかを表す差分方式情報をそれぞれ含み、
    前記ゲイン復号ステップは、前記ゲイン情報の差分方式情報に対応する差分符号化方法に従ってゲインを算出するステップから構成される
    ことを特徴とするオーディオ復号方法。
  10. 入力オーディオ信号をフレーム単位で周波数信号に変換する直交変換部と、
    前記直交変換部で得られた周波数信号をスケーリングするためのゲインを、複数の周波数信号をまとめたバンド単位で算出し、これら初期ゲインを過去のフレームで使用した過去ゲインを用いてそれぞれ修正して修正ゲインを算出するゲイン計算部と、
    前記ゲイン計算部で得られた修正ゲインを用いて前記周波数信号をバンド単位でスケーリングするとともに量子化して量子化信号を生成する量子化部と、
    前記ゲイン計算部で得られた修正ゲインとこれに対応する前記過去ゲインの差分をゲイン情報としてバンド単位で符号化してゲイン情報を生成するゲイン符号化部と、
    前記量子化部で得られた量子化信号と前記ゲイン符号化部で得られたゲイン情報とをバンド単位で多重して符号化オーディオデータを生成する多重化部と
    を備えることを特徴とするオーディオ符号化装置。
  11. 請求項10に記載のオーディオ符号化装置において、
    前記ゲイン計算部は、前記修正ゲインを算出する際、量子化時の歪を評価する評価関数と前記過去ゲインを用いてゲインの符号量を評価する評価関数とから算出される評価値に基づいて前記修正ゲインを算出することを特徴とするオーディオ符号化装置。
  12. 請求項10に記載のオーディオ符号化装置において、
    前記ゲイン計算部は、前記修正ゲインを算出する際、前記過去ゲインと修正後のゲインの差の絶対値が、前記過去ゲインと前記初期ゲインとの差の絶対値より同じまたは小さくなるように前記修正ゲインを算出することを特徴とするオーディオ符号化装置。
  13. 請求項10に記載のオーディオ符号化装置において、
    前記ゲイン符号化部は、前記修正ゲインと前記過去ゲインとの差からバンド単位で算出する差分ゲインを複数のバンドで平均し、得られた差分平均値と差分ゲインとの差分を各バンドごとに算出し、これら差分と差分平均値とをゲイン情報として符号化することを特徴とするオーディオ符号化装置。
  14. 請求項10に記載のオーディオ符号化装置において、
    前記ゲイン符号化部は、所定数フレーム前までの過去のゲインの中から選択したゲインを前記過去ゲインとして使用し、当該過去ゲインが使用されたフレームのフレーム番号情報を符号化することを特徴とするオーディオ符号化装置。
  15. 請求項10に記載のオーディオ符号化装置において、
    前記ゲイン計算部は、前記過去ゲインとして常に1フレーム前のゲインを使用することを特徴とするオーディオ符号化装置。
  16. 請求項10に記載のオーディオ符号化装置において、
    前記ゲイン計算部は、修正前のゲインと修正後のゲインとから該フレームのゲインを時間方向に差分符号化するか周波数方向に差分符号化するかを選択し、
    前記ゲイン符号化部は、前記ゲイン計算部で選択した差分符号化方向に従って、ゲインを差分符号化する
    ことを特徴とするオーディオ符号化装置。
  17. フレームごとに入力される符号化オーディオデータから、複数の周波数信号をまとめたバンド単位で、量子化信号情報と当該量子化信号をスケーリングするためのゲイン情報とを分離する分離部と、
    過去のフレームで用いたゲインをバンド単位で記憶する記憶部と、
    前記記憶部から取得した過去のフレームのゲインと前記分離部で分離されたゲイン情報に含まれる差分ゲインを用いて当該フレームのゲインをバンド単位で復号するゲイン復号部と、
    前記ゲイン復号部で得られたゲインに基づいて、前記分離部で分離された量子化信号情報をバンド単位で逆量子化するとともにスケーリングして周波数信号を生成する逆量子化部と、
    前記逆量子化部で得られた周波数信号を直交変換して復号オーディオ信号を生成する直交変換部とを備え
    前記ゲイン情報は、任意の過去フレームを示すフレーム番号情報と、この過去フレームのゲインと当該フレームのゲインとの差分ゲインとを、バンド単位でそれぞれ含み、
    前記ゲイン復号部は、前記ゲイン情報のフレーム番号情報に対応する過去フレームのゲインを前記記憶部からバンド単位で取得し、この過去フレームのゲインと前記ゲイン情報の差分ゲインとから、当該フレームのゲインをバンド単位で算出する
    ことを特徴とするオーディオ復号装置。
  18. フレームごとに入力される符号化オーディオデータから、複数の周波数信号をまとめたバンド単位で、量子化信号情報と当該量子化信号をスケーリングするためのゲイン情報とを分離する分離部と、
    過去のフレームで用いたゲインをバンド単位で記憶する記憶部と、
    前記記憶部から取得した過去のフレームのゲインと前記分離部で分離されたゲイン情報に含まれる差分ゲインを用いて当該フレームのゲインをバンド単位で復号するゲイン復号部と、
    前記ゲイン復号部で得られたゲインに基づいて、前記分離部で分離された量子化信号情報をバンド単位で逆量子化するとともにスケーリングして周波数信号を生成する逆量子化部と、
    前記逆量子化部で得られた周波数信号を直交変換して復号オーディオ信号を生成する直交変換部とを備え、
    前記ゲイン情報は、当該フレームの差分ゲインが時間方向または周波数方向のいずれかの差分符号化方法で差分符号化されているかを表す差分方式情報をそれぞれ含み、
    前記ゲイン復号部は、前記ゲイン情報の差分方式情報に対応する差分符号化方法に従って、ゲインを算出する
    ことを特徴とするオーディオ復号装置。
  19. オーディオ符号化装置のコンピュータで、請求項1〜請求項7のいずれか1つに記載のオーディオ符号化方法を実行させるためのプログラム。
  20. オーディオ復号装置のコンピュータで、請求項8または請求項9に記載のオーディオ復号方法を実行させるためのプログラム。
  21. 入力オーディオ信号を符号化して符号化オーディオデータを生成するオーディオ符号化装置と、このオーディオ符号化装置で生成された符号化オーディオデータを復号して、復号オーディオ信号を生成するオーディオ復号装置とから構成され、
    前記オーディオ符号化装置は、
    入力オーディオ信号をフレーム単位で周波数信号に変換する直交変換部と、
    前記直交変換部で得られた周波数信号をスケーリングするためのゲインを、複数の周波数信号をまとめたバンド単位で算出し、これらゲインを過去のフレームで使用した過去ゲインを用いてそれぞれ修正して修正ゲインを算出するゲイン計算部と、
    前記ゲイン計算部で得られた修正ゲインを用いて前記周波数信号をバンド単位でスケーリングするとともに量子化して量子化信号を生成する量子化部と、
    前記ゲイン計算部で得られた修正ゲインとこれに対応する前記過去ゲインの差分をゲイン情報としてバンド単位で符号化してゲイン情報を生成するゲイン符号化部と、
    前記量子化部で得られた量子化信号と前記ゲイン符号化部で得られたゲイン情報とをバンド単位で多重して符号化オーディオデータを生成する多重化部と
    を備え、
    前記オーディオ復号装置は、
    フレームごとに入力される、前記オーディオ符号化装置で生成された符号化オーディオデータから、複数の周波数信号をまとめたバンド単位で、量子化信号情報と当該量子化信号をスケーリングするためのゲイン情報とを分離する分離部と、
    過去のフレームで用いたゲインをバンド単位で記憶する記憶部と、
    前記記憶部から取得した過去のフレームのゲインと前記分離部で分離されたゲイン情報に含まれる差分ゲインを用いて当該フレームのゲインをバンド単位で復号するゲイン復号部と、
    前記ゲイン復号部で得られたゲインに基づいて、前記分離部で分離された量子化信号情報をバンド単位で逆量子化するとともにスケーリングして周波数信号を生成する逆量子化部と、
    前記逆量子化部で得られた周波数信号を直交変換して復号オーディオ信号を生成する直交変換部と
    を備える
    ことを特徴とするオーディオ符号化・復号システム。
JP2009520622A 2007-06-27 2008-06-25 オーディオ符号化方法、オーディオ復号方法、オーディオ符号化装置、オーディオ復号装置、プログラム、およびオーディオ符号化・復号システム Active JP5434592B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009520622A JP5434592B2 (ja) 2007-06-27 2008-06-25 オーディオ符号化方法、オーディオ復号方法、オーディオ符号化装置、オーディオ復号装置、プログラム、およびオーディオ符号化・復号システム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007169058 2007-06-27
JP2007169058 2007-06-27
PCT/JP2008/061580 WO2009001874A1 (ja) 2007-06-27 2008-06-25 オーディオ符号化方法、オーディオ復号方法、オーディオ符号化装置、オーディオ復号装置、プログラム、およびオーディオ符号化・復号システム
JP2009520622A JP5434592B2 (ja) 2007-06-27 2008-06-25 オーディオ符号化方法、オーディオ復号方法、オーディオ符号化装置、オーディオ復号装置、プログラム、およびオーディオ符号化・復号システム

Publications (2)

Publication Number Publication Date
JPWO2009001874A1 JPWO2009001874A1 (ja) 2010-08-26
JP5434592B2 true JP5434592B2 (ja) 2014-03-05

Family

ID=40185686

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009520622A Active JP5434592B2 (ja) 2007-06-27 2008-06-25 オーディオ符号化方法、オーディオ復号方法、オーディオ符号化装置、オーディオ復号装置、プログラム、およびオーディオ符号化・復号システム

Country Status (4)

Country Link
US (1) US8788264B2 (ja)
EP (1) EP2159790B1 (ja)
JP (1) JP5434592B2 (ja)
WO (1) WO2009001874A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2454208A (en) * 2007-10-31 2009-05-06 Cambridge Silicon Radio Ltd Compression using a perceptual model and a signal-to-mask ratio (SMR) parameter tuned based on target bitrate and previously encoded data
KR101078378B1 (ko) * 2009-03-04 2011-10-31 주식회사 코아로직 오디오 부호화기의 양자화 방법 및 장치
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
CN103443856B (zh) 2011-03-04 2015-09-09 瑞典爱立信有限公司 音频编码中的后量化增益校正
EP3534367B1 (en) * 2012-05-30 2020-05-13 Nippon Telegraph and Telephone Corporation Encoding method, encoder, program and recording medium
WO2013187498A1 (ja) * 2012-06-15 2013-12-19 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
US9460729B2 (en) * 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
JP6531649B2 (ja) * 2013-09-19 2019-06-19 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
KR101913241B1 (ko) * 2013-12-02 2019-01-14 후아웨이 테크놀러지 컴퍼니 리미티드 인코딩 방법 및 장치
RU2764260C2 (ru) 2013-12-27 2022-01-14 Сони Корпорейшн Устройство и способ декодирования
EP3162086B1 (en) * 2014-06-27 2021-04-07 Dolby International AB Apparatus for determining for the compression of an hoa data frame representation a lowest integer number of bits required for representing non-differential gain values
EP3489953B8 (en) 2014-06-27 2022-06-15 Dolby International AB Determining a lowest integer number of bits required for representing non-differential gain values for the compression of an hoa data frame representation
EP2960903A1 (en) 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
WO2015197517A1 (en) 2014-06-27 2015-12-30 Thomson Licensing Coded hoa data frame representation that includes non-differential gain values associated with channel signals of specific ones of the data frames of an hoa data frame representation
CN106663435A (zh) * 2014-09-08 2017-05-10 索尼公司 编码装置和方法、解码装置和方法、以及程序

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001094433A (ja) * 1999-09-17 2001-04-06 Matsushita Electric Ind Co Ltd サブバンド符号化・復号方法
JP2001094432A (ja) * 1999-09-17 2001-04-06 Matsushita Electric Ind Co Ltd サブバンド符号化・復号方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2834260B2 (ja) * 1990-03-07 1998-12-09 三菱電機株式会社 音声のスペクトル包絡パラメータ符号化装置
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US5960390A (en) * 1995-10-05 1999-09-28 Sony Corporation Coding method for using multi channel audio signals
GB2318029B (en) * 1996-10-01 2000-11-08 Nokia Mobile Phones Ltd Audio coding method and apparatus
US6154499A (en) * 1996-10-21 2000-11-28 Comsat Corporation Communication systems using nested coder and compatible channel coding
KR100335611B1 (ko) * 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
FI113571B (fi) * 1998-03-09 2004-05-14 Nokia Corp Puheenkoodaus
US6704705B1 (en) * 1998-09-04 2004-03-09 Nortel Networks Limited Perceptual audio coding
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US7558391B2 (en) * 1999-11-29 2009-07-07 Bizjak Karl L Compander architecture and methods
JP2002202799A (ja) * 2000-10-30 2002-07-19 Fujitsu Ltd 音声符号変換装置
EP1345331B1 (en) 2000-12-22 2008-08-20 Sony Corporation Encoder
JP2002268693A (ja) 2001-03-12 2002-09-20 Mitsubishi Electric Corp オーディオ符号化装置
JP4263412B2 (ja) * 2002-01-29 2009-05-13 富士通株式会社 音声符号変換方法
JP4153220B2 (ja) * 2002-02-28 2008-09-24 ヤマハ株式会社 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
US7272566B2 (en) * 2003-01-02 2007-09-18 Dolby Laboratories Licensing Corporation Reducing scale factor transmission cost for MPEG-2 advanced audio coding (AAC) using a lattice based post processing technique
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
JP4771674B2 (ja) 2004-09-02 2011-09-14 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
TWI317933B (en) * 2005-04-22 2009-12-01 Qualcomm Inc Methods, data storage medium,apparatus of signal processing,and cellular telephone including the same
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
EP3985873A1 (en) * 2006-07-04 2022-04-20 Dolby International AB Filter system comprising a filter converter and a filter compressor and method for operating the filter system
JP4823001B2 (ja) * 2006-09-27 2011-11-24 富士通セミコンダクター株式会社 オーディオ符号化装置
JP4439579B1 (ja) * 2008-12-24 2010-03-24 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001094433A (ja) * 1999-09-17 2001-04-06 Matsushita Electric Ind Co Ltd サブバンド符号化・復号方法
JP2001094432A (ja) * 1999-09-17 2001-04-06 Matsushita Electric Ind Co Ltd サブバンド符号化・復号方法

Also Published As

Publication number Publication date
EP2159790A1 (en) 2010-03-03
WO2009001874A1 (ja) 2008-12-31
JPWO2009001874A1 (ja) 2010-08-26
US8788264B2 (en) 2014-07-22
EP2159790B1 (en) 2019-11-13
US20100106509A1 (en) 2010-04-29
EP2159790A4 (en) 2016-04-06

Similar Documents

Publication Publication Date Title
JP5434592B2 (ja) オーディオ符号化方法、オーディオ復号方法、オーディオ符号化装置、オーディオ復号装置、プログラム、およびオーディオ符号化・復号システム
KR102115358B1 (ko) 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
JP5038138B2 (ja) 周波数領域のウィナーフィルターを用いた空間オーディオコーディングのための時間エンベロープの整形
KR101162275B1 (ko) 오디오 신호 처리 방법 및 장치
JP4212591B2 (ja) オーディオ符号化装置
US8032371B2 (en) Determining scale factor values in encoding audio data with AAC
KR100840439B1 (ko) 음성부호화장치 및 음성복호장치
KR100904605B1 (ko) 음성부호화장치, 음성복호장치, 음성부호화방법 및음성복호방법
JP4063508B2 (ja) ビットレート変換装置およびビットレート変換方法
JP5609591B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
KR101103004B1 (ko) 오디오 인코딩 시의 레이트-왜곡 제어 구조
CN112992159B (zh) 一种lc3音频编解码方法、装置、设备及存储介质
KR20130109793A (ko) 잡음 감쇄를 위한 오디오 신호 부호화 방법 및 장치
KR20170047361A (ko) 서브대역 그룹들에 대한 서브대역 구성 데이터를 코딩하거나 디코딩하는 방법 및 장치
JPH0969781A (ja) オーディオデータ符号化装置
JP5379871B2 (ja) オーディオ符号化のための量子化
JP5019437B2 (ja) オーディオビットレート変換方法および装置
JP2016206244A (ja) 符号化装置、符号化方法、及びプログラム
JPWO2009087923A1 (ja) 信号分析制御、信号分析、信号制御のシステム、装置、方法及びプログラム
KR102243217B1 (ko) 오디오 신호 부호화 방법 및 장치
JP2001148632A (ja) 符号化装置、符号化方法、及びその記録媒体
JP2007004050A (ja) ステレオ信号の符号化装置及び符号化プログラム
WO2008072524A1 (ja) オーディオ信号符号化方法及び復号化方法
JP2004021153A (ja) オーディオ信号符号化装置
JP6552986B2 (ja) 音声符号化装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130723

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131125

R150 Certificate of patent or registration of utility model

Ref document number: 5434592

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150