JP4533386B2 - オーディオ符号化装置及びオーディオ符号化方法 - Google Patents

オーディオ符号化装置及びオーディオ符号化方法 Download PDF

Info

Publication number
JP4533386B2
JP4533386B2 JP2006527708A JP2006527708A JP4533386B2 JP 4533386 B2 JP4533386 B2 JP 4533386B2 JP 2006527708 A JP2006527708 A JP 2006527708A JP 2006527708 A JP2006527708 A JP 2006527708A JP 4533386 B2 JP4533386 B2 JP 4533386B2
Authority
JP
Japan
Prior art keywords
short
block
input signal
encoding
fluctuation ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006527708A
Other languages
English (en)
Other versions
JPWO2006008817A1 (ja
Inventor
政直 鈴木
義照 土永
美由紀 白川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2006008817A1 publication Critical patent/JPWO2006008817A1/ja
Application granted granted Critical
Publication of JP4533386B2 publication Critical patent/JP4533386B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Description

本発明は、オーディオ信号を符号化するオーディオ符号化装置及びオーディオ符号化方法に関する。
近年、インターネットや衛星放送等の通信分野が急速に普及している。また、DVD等のAV機器も急速に普及している。これらの普及に伴い、オーディオ信号を効率良く圧縮するオーディオ符号化に対する需要が高まっている。近年のオーディオ符号化装置は、人間の聴覚特性を利用した適応変換オーディオ符号化装置が主流である。適応変換オーディオ符号化装置の基本的な符号化処理は、以下の通りである。
この符号化処理では、時間領域のオーディオ信号が周波数領域へ変換される。そして、周波数軸上の信号が聴覚の周波数分解能に対応する周波数帯域で区切られる。そして、人間の聴覚特性を利用して、各周波数帯域で符号化に必要な最適な情報量が計算される。
そして、各周波数帯域に割り振られた情報量に従い、周波数軸上の信号が量子化される。適応変換オーディオ符号化装置の中に、ISO(International Organization for Standardization)/IEC(International Electrotechnical Commission)で標準化されたMPEG(Moving Picture Experts Group)−2 AAC (Advanced Audio Coding)方式がある。この方式は、BSデジタル放送にも採用されている。この方式は、低いビットレートで高い音質を実現できるオーディオ符号化装置として近年注目を浴びている。
(第1の従来技術)
図10は、第1の従来技術である、MPEG−2 AACのエンコーダの構成を示す構成図である。以下、この図に示される技術を第1の従来技術とする。AAC エンコーダの詳細は、例えば下記の非特許文献1に詳しく記載されている。
AACエンコーダは、入力信号を所定のサンプル数からなるフレームに分割する。そして、AACエンコーダは、フレーム毎に符号化処理を行う。AAC方式のフレーム長は、長ブロック(1024サンプル)と短ブロック(128サンプル)との2種類がある。ここで、1フレームと1長ブロックの長さとは同じである。以下の説明は、図10に示されるAACエンコーダの処理手順である。
(1)まず、入力信号がフレーム化部1001に入力される。フレーム化部1001は、入力信号を所定のサンプル数からなるフレーム(長ブロック)に分割する。フレーム化部1001から出力された信号が、長ブロック用の離散コサイン変換部(以下、単に、MDCT変換部と記す。)1002と短ブロック用のMDCT変換部1003とに入力される。
長ブロック用のMDCT変換部1002は、入力した信号に対して1024点のMDCT変換を行う。そして、長ブロック用のMDCT変換部1002は、MDCT係数(MDCT1)を算出する。また、短ブロック用のMDCT変換部1003は、入力した信号に対して128点のMDCT変換を行う。そして、短ブロック用のMDCT変換部1003は、MDCT係数(MDCT2)を算出する。尚、1フレームにつき短ブロックは8ブロックあるので、MDCT2は8組生成される。
(2)次に、フレーム化部1001は、分割した入力信号を、長ブロック用の心理聴覚分析部1004へ出力する。そして、長ブロック用の心理聴覚分析部1004は、入力信号から長ブロック用のマスキング閾値Th1と心理聴覚エントロピーPE1とを求める。ここで、Th1とPE1との算出方法は、非特許文献1の心理聴覚モデルの項に示されている方法が公知である。同様にして、フレーム化部1001は、フレームに分割した入力信号を、短ブロック用の心理聴覚分析部1005へ出力する。そして、短ブロック用の心理聴覚分析部1005は、入力信号から短ブロック用のマスキング閾値Th2と心理聴覚エントロピーPE2とを求める。
ここで、心理聴覚エントロピーとは、信号を量子化するのに最低限必要なビット数を表す情報量である。また、マスキングとは、量子化部により信号を量子化した時の誤差がある基準以下であれば、その誤差を人間が知覚できないという現象を指す。また、人間が知覚できない誤差の限界を示す基準値は、マスキング閾値と呼ばれる。
(3)長ブロックから得られたPE1及びTh1と、短ブロックから得られたPE2及びTh2とが、ブロック長判定部1006へ入力される。ブロック長判定部1006は、長ブロックと短ブロックとのどちらで量子化すべきかを判定する。
一般に、性質がほとんど変化しない定常的な信号は、長ブロックで量子化することが望ましい。ところが、ブロック内で振幅が急峻に変化する信号を長ブロックで量子化すると、入力信号にはないプリエコーと呼ばれる雑音が発生する。この雑音の発生は、音質劣化の原因となる。図11は、プリエコーの例を示す概略図である。図11の(a)は、符号化する前の入力信号を示す概略図であり、図11の(b)は、長ブロックのみで符号化した時の復号音を示すグラフである。図11の(b)の先頭部分には、アタック音の手前に、入力信号にはない雑音が発生している。
この雑音は、プリエコーと呼ばれる。プリエコーは、量子化ブロック長を短くすることで解消できる。そのため、AAC方式は、ブロック長判定部1006において入力信号の性質を判別している。そして、ブロック長判定部1006は、量子化に最適なブロック長を判定する。具体的には、ブロック長判定部1006は、PE1>PE1_thrであれば長ブロックを選択し、それ以外の場合は短ブロックを選択する。ここで、PE1_thrは、あらかじめ決められた閾値(定数)である。
(4)ブロック長判定部1006の判定結果は、MDCTを選択する選択器1007に出力される。また、ブロック長判定部1006が選択したマスキング閾値は、スペクトル量子化部1008に出力される。つまり、ブロック長判定部1006が長ブロックを選択した場合は、MDCT1とTh1とがスペクトル量子化部1008に入力する。また、ブロック長判定部1006が短ブロックを選択した場合は、MDCT2とTh2とがスペクトル量子化部1008に入力する。
(5)スペクトル量子化部1008は、入力されたマスキング閾値に従って周波数バンド毎にMDCT係数を量子化する。そして、スペクトル量子化部1008は、量子化符号1を出力する。
(6)スペクトル量子化部1008から出力された量子化符号1は、ハフマン符号化部1009へ入力する。ハフマン符号化部1009は、量子化符号1を、量子化符号1よりも更に冗長度が除去された量子化符号2に変換する。
(7)上記量子化符号2は、ハフマン符号化部1009から量子化制御部1011に出力される。そして、量子化制御部1011は、入力した量子化符号2から、最終的に出力されるビットストリームの総ビット数を計算する。なお、図10において、点線で囲まれた範囲は、量子化制御部1011が制御可能な範囲である。
(8)量子化制御部1011は、計算した総ビット数が現ブロックに許されるビット数を上回る場合、処理(5)〜処理(7)を繰り返すように、スペクトル量子化部1008と、ハフマン符号化部1009とを制御する。また、量子化制御部1011は、計算した総ビット数が現ブロックに許されるビット数を下回る場合、ハフマン符号化部1009からビットストリーム生成部1010に対して量子化符号2を出力させる。そして、量子化制御部1011は、ビットストリーム生成部1010がビットストリームを出力するように制御する。
ここで、AAC方式の量子化プロセスの詳細を説明する。
(a)AAC方式は、MDCTスペクトルの指数部を初期値に設定する。
(b)AAC方式は、MDCTスペクトルを仮数部と指数部とに変形する。すなわち、AAC方式は、MDCTスペクトルを浮動小数点表示に変形する。そして、AAC方式は、仮数部を量子化する(MDCT量子化)。
(c)AAC方式は、(b)で量子化された仮数部と指数部とをハフマン符号化した時に必要となるビット数(総ビット数)を求める。
(d)AAC方式は、(c)で求めた総ビット数が現フレームに許された量子化ビット数(許容ビット数)以下であれば、量子化を終了する。AAC方式は、総ビット数が許容ビット数以上の場合は、(a)で設定した指数部を不適当と判断する。そして、AAC方式は、指数部を変更して(b)〜(d)の処理を繰り返す。そして、AAC方式は、総ビット数が許容ビット数以下となる指数部を決定する。
すなわち、AAC方式は、まず指数部を仮に固定する。そして、AAC方式は、仮数部を決定してMDCTスペクトルの量子化を行う。そして、AAC方式は、MDCTスペクトルを指数部と仮数部とに変形した時の量子化誤差が許容誤差以下となるような総ビット数を求める。そして、AAC方式は、総ビット数があらかじめ設定されたビットレートよりも大きければ不適当と判断する。そして、AAC方式は、指数部を変更して、再び、MDCTスペクトルの指数部の固定処理及び仮数部の量子化処理を行う。そして、AAC方式は、量子化誤差が許容誤差以下であり、かつ、総ビット数が設定されたビットレート以下となるような最適な指数部と仮数部を決定する。
以上のように、AAC方式は、量子化とハフマン符号化を行った後に、必要な総ビット数を計算する。そして、AAC方式は、総ビット数が現フレームに許される許容ビット数以下となるような最適な指数部と仮数部を決定する。ここで、「最適な」とは、「量子化誤差が許容誤差以下となる」という意味である。
以上説明した通り、第1の従来技術は、長ブロックと短ブロックとから最適なブロック長を選択する。よって、第1の従来技術は、プリエコーの少ない良好な音質が得ることができる。ところが、第1の従来技術は、MDCT変換及び心理聴覚分析を、長ブロック用と短ブロック用とのそれぞれで行う。そのため、第1の従来技術は、処理量が多い。
(第2の従来技術)
上記第1の従来技術の問題を解決する方法として、MDCT変換と心理聴覚分析との前に、入力信号の性質を調べてブロック長を先に決定する方法が知られている。入力信号の性質を調べる方法には、例えば下記の特許文献1に開示された方法がある。この方法は公知である。
以下、特許文献1に開示された方法を、第2の従来技術とする。そして、この方法の構成を図12に示す。図12は、第2の従来技術の構成を示す構成図である。この第2の従来技術は、1フレームをさらに短い短ブロックに分割する。
(1)まず、入力信号がフレーム化部1201に入力する。フレーム化部1201は、入力信号を所定のサンプル数からなるフレーム(長ブロック)に分割する。フレーム化部1201から出力された信号は、電力算出部1202と、選択器1204と、心理聴覚分析部1208とに出力される。
電力算出部1202は、入力した信号から、電力及び電力変動比を算出する。電力算出部1202は、算出した電力変動比をブロック長判定部1203に出力する。
ブロック長判定部1203は、入力した電力変動比に基づいて、長ブロック又は短ブロックのいずれを用いるのかを判定する。そして、ブロック長判定部1203は、その判定結果を、選択器1204及び選択器1207に出力する。各選択器1204及び選択器1207は、ブロック長判定部1203の判定結果に基づいて、長ブロック又は短ブロックのいずれを用いるのか選択する。
長ブロック用のMDCT変換部1205は、入力した信号に対して1024点のMDCT変換を行う。そして、長ブロック用のMDCT変換部1205は、MDCT係数(MDCT1)を算出する。
また、短ブロック用のMDCT変換部1206は、入力した信号に対して128点のMDCT変換を行う。そして、短ブロック用のMDCT変換部1206は、MDCT係数(MDCT2)を算出する。尚、1フレームにつき短ブロックは8ブロックあるので、MDCT2は8組生成される。
(2)次に、心理聴覚分析部1208は、入力信号からマスキング閾値を求める。そして、入力信号から得られたマスキング閾値は、スペクトル量子化部1209に入力する。
(3)スペクトル量子化部1209は、入力されたマスキング閾値に従って周波数バンド毎にMDCT係数を量子化する。そして、スペクトル量子化部1209は、MDCT係数を量子化した量子化符号1を出力する。
(4)スペクトル量子化部1209から出力された量子化符号1は、ハフマン符号化部1210へ入力する。ハフマン符号化部1210は、量子化符号1を、量子化符号1よりも更に冗長度が除去された量子化符号2に変換する。
(5)この量子化符号2は、量子化制御部1212に入力する。量子化制御部1212は、入力した量子化符号2に基づいて、最終的に出力されるビットストリームの総数を計算する。なお、図12において、点線で囲まれた範囲は、量子化制御部1212が制御可能な範囲である。
(6)量子化制御部1212は、計算した総ビット数が現ブロックに許されるビット数を上回る場合、処理(3)〜処理(5)を繰り返すように、スペクトル量子化部1209と、ハフマン符号化部1210とを制御する。また、量子化制御部1212は、計算した総ビット数が現ブロックに許されるビット数を下回る場合、ハフマン符号化部1210からビットストリーム生成部1211に対して量子化符号2を出力させる。そして、量子化制御部1212は、ビットストリーム生成部1211に対して、ビットストリームを出力するように制御する。
図13は、第2の従来技術においてフレームを短ブロックに分割する場合の例を示す概念図である。図13は、1フレームを4つの短ブロックに分割する場合を示している。第2の従来技術は、各短ブロックの入力信号電力P(1)、P(2)、P(3)、P(4)を求める。そして、第2の従来技術は、隣接する短ブロック間の電力変動比ΔP(1,2)、ΔP(2,3)、ΔP(3,4)を求める。ここで、ΔP(i,j)は、短ブロックiと短ブロックjの間の電力変動比である。ΔP(i,j)は、次式で求められる。
Figure 0004533386
電力変動比は、入力信号が急激に大きくなる場合に大きくなる。逆に、電力変動比は、入力信号が急に小さくなる場合に小さくなる。したがって、電力変動比がほとんど変化しない場合、ブロック長判定部1203は、長ブロックを選択する。また、ブロック長判定部1203は、電力変動比が急激に大きくなった場合や小さくなる場合に、短ブロックを選択する。この処理により、第2の従来技術は、最適な窓長を選ぶことができる。
また、第2の従来技術は、ブロック長を、MDCT変換及び心理聴覚分析の前に決定する。そのため、第2の従来技術は、長ブロック又は短ブロックの一方のみに対して、MDCT変換及び心理聴覚分析を実行する。したがって、第2の従来技術は、第1の従来技術に比べて少ない処理量でオーディオ信号を符号化することができる。
ところが、電力変動比が変化しなくても入力信号の性質が変化する場合、第2の従来技術は、入力信号の性質変化を検知できない場合がある。例えば、正弦波を入力とし、かつ、電力が一定のままで正弦波の周波数が変化した場合、第2の従来技術は、電力変動比のみを用いる方法では信号の変化点を検出することができない。
ここで、入力信号、電力変動比及び予測利得変動比の例について図14を参照して説明する。図14は、入力信号、電力変動比及び予測利得変動比の例を示すグラフである。図14の(a)は、符号化する前の入力信号を示すグラフであり、図14の(b)は、電力変動比のグラフであり、図14の(c)は、予測利得変動比のグラフである。図14の区間Bや区間Cは、無音部から有音部へ変化する。この場合は、電力変動比も大きく変化する。そのため、第2の従来技術は、これらの区間では、信号の変化点を検出することができる。
ところが、区間Aは、入力信号の性質が定常部から過渡部に変化する。この場合、電力変動比は、ほとんど変化しない。そのため、この場合、第2の従来技術は、信号の変化を検出することができない。そのため、この場合、第2の従来技術は、長ブロックを選択する。しかし、この第2の従来技術のように、信号が急に変化する部分を長ブロックで処理すると、プリエコーが発生する。そのため、第2の従来技術は、音質が劣化する。
特開平7−66733号公報 ISO/IEC 13818−7のPART7,"Advanced Audio Coding(AAC)"
前述のように、第1の従来技術は、MDCT変換及び心理聴覚分析を、長ブロック用と短ブロック用とのそれぞれで行う。そのため、第1の従来技術は、長ブロック又は短ブロックのみの処理の場合に比べて処理量が多くなるという問題がある。
また、第2の従来技術は、入力信号の性質が変化した場合であっても電力変動比が変化しなければ信号の性質の変化を検知できない。そのため、第2の従来技術は、適切なブロック長を選択できない場合があるという問題がある。
本発明の目的は、処理量を軽減しつつ、ブロック長を適切に選択することが可能なオーディオ符号化装置及びオーディオ符号化方法を提供することにある。
本発明のオーディオ符号化装置は、
入力信号を一定のサンプル数からなるフレームに分割し、1フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化装置において、
前記入力信号から電力変動比を算出する電力算出手段と、
前記入力信号から予測利得変動比を算出する算出手段と、
前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又は短ブロックによる符号化を行うかを判定するブロック長判定手段とを備える。
また、本発明のオーディオ符号化装置は、
前記ブロック長判定手段が、
前記電力変動比及び前記予測利得変動比のいずれか一方があらかじめ決められた閾値より大きい場合に短ブロックによる符号化を選択し、前記電力変動比及び前記予測利得変動比のいずれか一方があらかじめ決められた閾値より大きい場合以外の場合に、長ブロックによる符号化を選択する。
また、本発明のオーディオ符号化装置は、
前記ブロック長判定手段が用いる符号化する際のブロック長を判定するための閾値を、前記ブロック長判定手段の判定結果に応じて変化させる閾値決定手段を備える。
また、本発明のオーディオ符号化装置は、
前記閾値決定手段が、
前記ブロック長判定手段の判定結果が短ブロックによる符号化を表す場合に、前記閾値を初期値よりも大きな値に設定する。
また、本発明のオーディオ符号化装置は、
前記算出手段が、
前記電力算出手段が電力を算出するブロックを所定数用いて1つのブロックとし、該1つのブロックの前記予測利得変動比を算出する。
また、本発明のオーディオ符号化装置は、
前記電力算出手段が、
前記算出手段が予測利得を算出するブロックを所定数用いて1つのブロックとし、該1つのブロックの前記電力変動比を算出する。
また、本発明のオーディオ符号化装置は、
入力信号を一定のサンプル数からなるフレームに分割し、1フレームの入力信号を符号化する長ブロックモードと、
前記フレームを分割して短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化装置において、
前記入力信号から電力変動比を算出する電力算出手段と、
前記入力信号から予測利得変動比を算出する算出手段と、
前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又は短ブロックによる符号化を行うかを判定するブロック長判定手段と、
前記ブロック長判定手段により長ブロックによる符号化が選択された場合は、長ブロック単位で入力信号を離散コサイン変換して第1の係数を求める第1の変換手段と、
前記ブロック長判定手段により短ブロックによる符号化が選択された場合は、短ブロック単位で入力信号を離散コサイン変換して第2の係数を求める第2の変換手段と、
前記ブロック長判定手段の判定結果に応じて前記第1の係数又は前記第2の係数を第3の係数として選択する選択手段と、
前記入力信号からマスキング閾値を求める心理聴覚分析手段と、
前記マスキング閾値に従って前記第3の係数をスペクトル量子化して第1の符号を求める量子化手段と、
前記第1の符号をハフマン符号化して第2の符号を求めるハフマン符号化手段と、
前記第2の符号から、出力されるビットストリームの総ビット数を計算し、該計算の結果に基づいてビットストリームの出力を指示する量子化制御手段と、
前記第2の符号からビットストリームを生成し、前記量子化制御手段の指示に基づいてビットストリームを出力するビットストリーム生成手段とを備える。
また、本発明のオーディオ符号化装置は、
前記ブロック長判定手段が、
前記電力変動比及び前記予測利得変動比の少なくともいずれか一方があらかじめ決められた閾値より大きい場合に短ブロックによる符号化を選択し、前記電力変動比及び前記予測利得変動比の少なくともいずれか一方があらかじめ決められた閾値より大きい場合以外の場合は長ブロックによる符号化を選択する。
また、本発明のオーディオ符号化装置は、
前記ブロック長判定手段が用いる符号化する際のブロック長を判定するための閾値を、前記ブロック長判定手段の判定結果に応じて変化させる閾値決定手段を備える。
また、本発明のオーディオ符号化装置は、
前記閾値決定手段が、
前記ブロック長判定手段の判定結果が短ブロックによる符号化を表す場合に、前記閾値を初期値よりも大きい値に設定する。
また、本発明のオーディオ符号化装置は、
前記算出手段が、
前記電力算出手段が電力を算出するブロックを所定数用いて1つのブロックとし、該1つのブロックの前記予測利得変動比を算出する。
また、本発明のオーディオ符号化装置は、
前記電力算出手段が、
前記算出手段が予測利得を算出するブロックを所定数用いて1つのブロックとし、該1つのブロックの前記電力変動比を算出する。
さらに、本発明のオーディオ符号化方法は、
入力信号を一定のサンプル数からなるフレームに分割し、1フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化方法において、
前記入力信号から電力変動比を算出する電力算出工程と、
前記入力信号から予測利得変動比を算出する算出工程と、
前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又は短ブロックによる符号化を行うかを判定するブロック長判定工程とを備える。
また、本発明のオーディオ符号化方法は、
入力信号を一定のサンプル数からなるフレームに分割し、1フレームの入力信号を符号化する長ブロックモードと、
前記フレームを分割して短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化方法において、
前記入力信号から電力変動比を算出する電力算出工程と、
前記入力信号から予測利得変動比を算出する算出工程と、
前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又は短ブロックによる符号化を行うかを判定するブロック長判定工程と、
前記ブロック長判定工程において長ブロックによる符号化が選択された場合は、長ブロック単位で入力信号を離散コサイン変換して第1の係数を求める第1の変換工程と、
前記ブロック長判定工程において短ブロックによる符号化が選択された場合は、短ブロック単位で入力信号を離散コサイン変換して第2の係数を求める第2の変換工程と、
前記ブロック長判定工程の判定結果に応じて前記第1の係数又は前記第2の係数を第3の係数として選択する選択工程と、
前記入力信号からマスキング閾値を求める心理聴覚分析工程と、
前記マスキング閾値に従って前記第3の係数をスペクトル量子化して第1の符号を求める量子化工程と、
前記第1の符号をハフマン符号化して第2の符号を求めるハフマン符号化工程と、
前記第2の符号から、出力されるビットストリームの総ビット数を計算し、該計算の結果に基づいてビットストリームの出力を指示する量子化制御工程と、
前記第2の符号からビットストリームを生成し、前記量子化制御工程における指示に基づいてビットストリームを出力するビットストリーム生成工程とを備える。
本発明のオーディオ符号化装置及びオーディオ符号化方法は、電力変動比と予測利得変動比とから、長ブロックによる符号化を行うか又は短ブロックによる符号化を行うかを判定する。そのため、本発明のオーディオ符号化装置及びオーディオ符号化方法は、長ブロックによる符号化と短ブロックによる符号化との双方を行う必要が無くなる。そのため、本発明のオーディオ符号化装置及びオーディオ符号化方法は、処理量を軽減することができると共に、電力変動比と予測利得変動比との双方を用いて符号化するブロック長の判定を行っているため、より適切なブロック長による符号化を行うことができる。
また、本発明のオーディオ符号化装置及びオーディオ符号化方法は、ブロック長判定に用いるブロック長判定用の閾値を、ブロック長の判定結果に応じて変化させることにより、例えば、短ブロックによる符号化が頻繁に選択されることを防止でき、出力される音の音質の低下を軽減することができる。
また、本発明のオーディオ符号化装置及びオーディオ符号化方法は、電力を算出するブロックを所定数用いて1つのブロックとし、この1つのブロックの予測利得変動比を算出することにより、処理量を軽減することができる。
また、本発明のオーディオ符号化装置及びオーディオ符号化方法は、予測利得を算出するブロックを所定数用いて1つのブロックとし、この1つのブロックの電力変動比を算出することにより、処理量を軽減することができる。
以上のように、本発明によれば、処理量を軽減しつつ、ブロック長を適切に選択することが可能なオーディオ符号化装置及びオーディオ符号化方法を提供することができる。
本発明のオーディオ符号化装置の概要図である。 本発明のオーディオ符号化装置で用いる長ブロックと短ブロックの一例の概念図である。 本発明のオーディオ符号化装置における、予測利得変動比の算出方法の概念図である。 本発明のオーディオ符号化装置の第1の実施形態の構成図である。 本発明のオーディオ符号化装置の第1の実施形態が行うブロック長判定方法の動作のフローチャートである。 本発明のオーディオ符号化装置の第2の実施形態の構成図である。 本発明のオーディオ符号化装置の第2の実施形態の閾値決定部における、閾値制御の動作を示すグラフである。 本発明のオーディオ符号化装置の第3の実施形態において、予測利得変動比と電力変動比とを求める方法の概念図である。 本発明のオーディオ符号化装置の第4の実施形態における、電力変動比の算出方法を示す概念図である。 第1の従来技術である、MPEG−2 AACのエンコーダの構成を示す構成図である。 プリエコーの例を示す概略図である。 第2の従来技術の構成を示す構成図である。 第2の従来技術においてフレームを短ブロックに分割する場合の例を示す概念図である。 入力信号、電力変動比及び予測利得変動比の例を示すグラフである。
符号の説明
101 フレーム化部
102 電力算出部
103 算出部
104 ブロック長判定部
105 選択器
106 長ブロック用のMDCT変換部
107 短ブロック用のMDCT変換部
108 選択器
109 心理聴覚分析部
110 量子化部
111 ハフマン符号化部
112 ビットストリーム生成部
113 量子化制御部
401 フレーム化部
402 電力算出部
403 自己相関算出部
404 kパラメータ算出部
405 予測利得算出部
406 予測利得変動比算出部
407 ブロック長判定部
408 選択器
409 長ブロック用のMDCT変換部
410 短ブロック用のMDCT変換部
411 選択器
412 心理聴覚分析部
413 量子化部
414 ハフマン符号化部
415 ビットストリーム生成部
416 量子化制御部
601 フレーム化部
602 電力算出部
603 自己相関算出部
604 kパラメータ算出部
605 予測利得算出部
606 予測利得変動比算出部
607 ブロック長判定部
608 閾値決定部
609 選択器
610 長ブロック用のMDCT変換部
611 短ブロック用のMDCT変換部
612 選択器
613 心理聴覚分析部
614 量子化部
615 ハフマン符号化部
616 ビットストリーム生成部
617 量子化制御部
(本発明の概要)
以下、図面を参照して本発明を実施するための最良の形態について説明する。まず、本発明のオーディオ符号化装置及びオーディオ符号化方法の概要について説明する。図1は、本発明のオーディオ符号化装置の概要図である。以下の説明は、本発明のオーディオ符号化方法の概要の説明も兼ねる。図1において、フレーム化部101は、入力信号を、所定のサンプル数からなる入力信号フレーム(長ブロック)に分割する。次に、長ブロック用のMDCT変換部106、短ブロック用のMDCT変換部107、電力算出部102及び算出部103は、1フレームを長ブロックよりも更に短い短ブロックに分割する。図2は、本発明のオーディオ符号化装置で用いる長ブロックと短ブロックの一例の概念図である。図2は、1フレーム(長ブロック)を4つ短ブロックに分割する場合を示している。以下では、図2に示される例を元に説明する。しかし、本発明は、1フレームをn個(n>0)に分割する場合でも同様に実施できる。
(1)電力算出部102は、短ブロック毎に入力信号電力P(1)、P(2)、P(3)、P(4)を求める。次に、電力算出部102は、隣接するブロック間の電力変動比ΔP(1,2)、ΔP(2,3)、ΔP(3,4)を求める。ここで、ΔP(i,j)は短ブロックiと短ブロックjの間の電力変動比であり、前述の式(1)で求められる。
(2)次に、算出部103は、短ブロックの入力信号に対してLPC分析(線形予測分析法)を実行してkパラメータを求める。図3は、本発明のオーディオ符号化装置における、予測利得変動比の算出方法の概念図である。本発明では、kパラメータの算出方法は任意である。しかし、本発明は、例えば入力信号から自己相関関数を求め、レビンソンアルゴリズム等の公知の方法により自己相関関数からkパラメータを算出する方法を用いることができる。
(3)次に、算出部103は、短ブロックiから求めたkパラメータk(i,m),(m=1,・・・,p)から、次式により予測利得G(i)を求める。ここで、pは予測次数である。
Figure 0004533386
(4)次に、算出部103は、短ブロックi、jから求めた予測利得G(i)、G(j)から次式により予測利得変動比ΔG(i,j)を求める。
Figure 0004533386
(5)次に、電力変動比ΔP(i,j)はブロック長判定部104に入力する。また、予測利得変動比ΔG(i,j)はブロック長判定部104に入力する。そして、ブロック長判定部104は、長ブロックと短ブロックとのどちらで量子化するかを判定する。ブロック長判定部104による判定方法は、以下の方法を用いることができる。なお、以下の説明において、ブロック長判定部が長ブロックを選択するとは、ブロック長判定部が、長ブロックによる符号化を選択することを意味する。同様に、ブロック長判定部が短ブロックを選択するとは、ブロック長判定部が、短ブロックによる符号化を選択することを意味する。すなわち、ブロック長判定部がブロックを選択するとは、ブロック長判定部が、そのブロックによる符号化を選択することを意味する。
A)ブロック長判定部104は、電力変動比に対する閾値THPと、予測利得変動比THGを設定する。
B)次に、ブロック長判定部104は、ΔP(1,2)、ΔP(2,3)、ΔP(3,4)の中で閾値THPよりも大きいものが一つでもあれば短ブロックを選択し、なければ次のC)へ進む。
C)次に、ブロック長判定部104は、ΔG(1,2)、ΔG(2,3)、ΔG(3,4)の中で閾値THGよりも大きいものが一つでもあれば短ブロックを選択し、なければ長ブロックを選択する。
つまり、ブロック長判定部104は、フレーム内の電力変動比と予測利得変動比とのどちらか一方があらかじめ設定した閾値を越えた場合のみ短ブロックを選択し、それ以外は長ブロックを選択する。
(6)ブロック長判定部104が長ブロックを選択した場合、その判定結果は選択器105及び選択器108に出力される。選択器105及び選択器108は、ブロック長判定部104の判定結果に基づいてブロックを選択をする。そのため、ブロック長判定部104が長ブロックを選択した場合、選択器105及び選択器108は、長ブロックを選択する。
そして、フレーム化部101から出力された入力信号が長ブロック用のMDCT変換部106へ入力する。そして、長ブロック用のMDCT変換部106は、MDCT1を出力する。
また、ブロック長判定部104が短ブロックを選択した場合、その判定結果は選択器105及び選択器108に出力される。そして、選択器105及び選択器108は、短ブロックを選択する。
そして、フレーム化部101から出力された入力信号が短ブロック用のMDCT変換部107へ入力する。そして、短ブロック用のMDCT変換部107は、短ブロックの数だけMDCT係数を出力する。つまり、1フレームが4つの短ブロックに分割される場合は、短ブロック用のMDCT変換部107は、4組のMDCT係数を出力する。
(7)次に、心理聴覚分析部109は、入力した入力信号から、マスキング閾値を求める。ここで、心理聴覚分析部109は、ブロック長判定部104が長ブロックを選択した場合、長ブロック用のマスキング閾値を求める。また、心理聴覚分析部109は、ブロック長判定部104が短ブロックを選択した場合、短ブロック用のマスキング閾値を求める。
本発明において、マスキング閾値の算出方法は、任意の方法を用いることができる。例えば、心理聴覚分析部109は、非特許文献1に開示されている方法を用いることができる。つまり、心理聴覚分析部109は、入力信号に対してFFT分析を行う。そして、心理聴覚分析部109は、FFTスペクトルを求める。そして、心理聴覚分析部109は、FFTスペクトルからマスキング閾値を算出する。
(8)次に、MDCT係数とマスキング閾値とは、量子化部110へ入力される。量子化部110は、入力されたマスキング閾値に従って周波数バンド毎にMDCT係数を量子化する。そして、量子化部110は、MDCT係数が量子化された量子化符号1を出力する。
(9)次に、量子化符号1は、ハフマン符号化部111へ入力する。そして、ハフマン符号化部111は、量子化符号1を、量子化符号1より更に冗長度が除去された量子化符号2に変換する。
(10)次に、ハフマン符号化部111は、量子化符号2を量子化制御部113に出力する。量子化制御部113は、入力した量子化符号2から最終的に出力されるビットストリームの総ビット数を計算する。なお、図1において、点線で囲まれた範囲は、量子化制御部113が制御可能な範囲である。
(11)量子化制御部113は、計算した総ビット数が現ブロックに許されるビット数を上回る場合、処理(8)〜処理(10)を繰り返すように、量子化部110と、ハフマン符号化部111とを制御する。また、量子化制御部113は、計算した総ビット数が現ブロックに許されるビット数を下回る場合、ハフマン符号化部111からビットストリーム生成部112に対して量子化符号2を出力させる。そして、量子化制御部113は、ビットストリーム生成部112に対して、ビットストリームを出力するように制御する。これにより、図1に示されるオーディオ符号化装置は、量子化を実現する。なお、本発明での量子化のプロセスは、前述の従来技術の欄で説明した、AAC方式の量子化プロセスの詳細と同様であるため、その詳細な説明を省略する。
次に、図面を参照して本発明の実施形態について説明する。以下の実施の形態の構成は例示であり、本発明は実施の形態の構成に限定されない。また、以下の各実施形態の説明は、オーディオ信号を符号化するオーディオ符号化装置を例に用いて説明する。なお、以下に説明する本発明のオーディオ符号化装置の各実施形態の説明は、本発明のオーディオ符号化方法の各実施形態の説明を兼ねる。
(第1の実施形態)
図4は、本発明のオーディオ符号化装置の第1の実施形態の構成図である。図4において、フレーム化部401は、入力した信号を所定のサンプル数からなる入力信号フレーム(長ブロック)に分割する。
次に、短ブロック用のMDCT変換部410、電力算出部402及び自己相関算出部403は、入力した1フレームを短ブロックに分割する。本実施形態におけるフレームの分割について前述の図2を参照して説明する。図2は、長ブロックと短ブロックの例を示す概念図である。図2に示される例は、1フレーム(長ブロック)を4つの短ブロックに分割する。以下では、この例を元に説明する。しかし、本実施形態は、1フレームをn個(nは非負の整数)に分割する場合でも同様に成り立つ。
(1)まず、電力算出部402は、短ブロック毎に入力信号電力P(1)、P(2)、P(3)、P(4)を求める。そして、電力算出部402は、隣接するブロック間の電力変動比ΔP(1,2)、ΔP(2,3)、ΔP(3,4)を求める。ここで、ΔP(i,j)は短ブロックiと短ブロックjとの間の電力変動比である。この電力変動比は、前述の式(1)で求められる。
(2)次に、自己相関算出部403は、短ブロックの入力信号から自己相関を求める。そして、自己相関算出部403は、この自己相関をkパラメータ算出部404に出力する。
次に、kパラメータ算出部404は、自己相関関数からレビンソンアルゴリズム等の公知の方法によりkパラメータを算出する。なお、kパラメータ算出部404が、自己相関関数からLPC係数を求め、kパラメータ算出部404が、LPC係数をkパラメータに変換するとしても良い。
(3)そして、予測利得算出部405は、短ブロックiから求めたkパラメータk(i,m),(m=1,・・・,p)から次式により予測利得G(i)を求める。ここで、pは予測次数である。この予測利得G(i)は、予測利得変動比算出部406に入力する。
Figure 0004533386
(4)次に、予測利得変動比算出部406は、短ブロックi、短ブロックjで求めた予測利得G(i)、G(j)から、次式で示される予測利得変動比ΔG(i,j)を求める。ここで、自己相関算出部403、kパラメータ算出部404、予測利得算出部405及び予測利得変動比算出部406は、図1に示される算出部103の機能の一部であるとして良い。
Figure 0004533386
(5)次に、電力変動比ΔP(i,j)と、予測利得変動比ΔG(i,j)とは、ブロック長判定部407へ入力する。そして、ブロック長判定部407は、長ブロックと短ブロックとのどちらで量子化するかを判定する。ブロック長判定部407が用いる判定方法は、以下の方法を用いることができる。以下、ブロック長判定部が行う判定方法について、図5を参照して説明する。図5は、本発明のオーディオ符号化装置の第1の実施形態が行うブロック長判定方法の動作のフローチャートである。なお、以下の説明では、前述のように、ブロック長判定部が長ブロックを選択するとは、ブロック長判定部が、長ブロックによる符号化を選択することを意味する。同様に、ブロック長判定部が短ブロックを選択するとは、ブロック長判定部が、短ブロックによる符号化を選択することを意味する。すなわち、ブロック長判定部がブロックを選択するとは、ブロック長判定部が、そのブロックによる符号化を選択することを意味する。
(A)ブロック長判定部407は、電力変動比に対する閾値THPと、予測利得変動比に対する閾値THGを設定する。
(B)ブロック長判定部407は、ΔP(1,2)、ΔP(2,3)、ΔP(3,4)の中で閾値THPよりも大きいものが一つでもあれば短ブロックを選択し(S501,S502,S503,S508)、なければ(C)へ進む。
(C)ブロック長判定部407は、ΔG(1,2)、ΔG(2,3)、ΔG(3,4)の中で閾値THGよりも大きいものが一つでもあれば短ブロックを選択し(S504,S505,S506,S508)、なければ長ブロックを選択する(S507)。
つまり、ブロック長判定部407は、フレーム内の電力変動比と予測利得変動比とのどちらか一方があらかじめ設定した閾値を越えた場合のみ、短ブロックを選択し、それ以外は長ブロックを選択する。
(6)ブロック長判定部407の判定結果は、選択器408及び選択器411に入力する。各選択器408及び選択器411は、ブロック長判定部407の判定結果に基づいて、用いるブロック長を選択する。
ブロック長判定部407が、長ブロックを選択した場合は、入力信号が長ブロック用のMDCT変換部409へ入力する。そして、長ブロック用のMDCT変換部409は、MDCT係数を出力する。
また、ブロック長判定部407が短ブロックを選択した場合は、入力信号が短ブロック用のMDCT変換部410へ入力する。そして、短ブロック用のMDCT変換部410は、短ブロックの数分のMDCT係数を出力する。つまり、1フレームが4つの短ブロックに分割される場合、短ブロック用のMDCT変換部410は、4組のMDCT係数を出力する。
(7)次に、心理聴覚分析部412は、入力した入力信号から、マスキング閾値を求める。心理聴覚分析部412には、フレーム化部401から出力された入力信号が入力する。ここで、心理聴覚分析部412は、ブロック長判定部407が長ブロックを選択した場合、長ブロック用のマスキング閾値を求める。また、心理聴覚分析部412は、ブロック長判定部407が短ブロックを選択した場合、短ブロック用のマスキング閾値を求める。
本実施形態において、マスキング閾値の算出方法は、任意の方法を用いることができる。例えば、心理聴覚分析部412は、非特許文献1に開示されている方法を用いることができる。つまり、心理聴覚分析部412は、入力信号に対してFFT分析を行う。そして、心理聴覚分析部412は、FFTスペクトルを求める。そして、心理聴覚分析部412は、FFTスペクトルからマスキング閾値を算出する。
(8)MDCT係数とマスキング閾値とは、量子化部413へ入力される。量子化部413は、入力されたマスキング閾値に従って周波数バンド毎にMDCT係数を量子化する。量子化部413は、MDCT係数を量子化した量子化符号1を出力する。
(9)次に、量子化符号1は、ハフマン符号化部414へ入力する。そして、ハフマン符号化部414は、量子化符号1を、量子化符号1より更に冗長度が除去された量子化符号2に変換する。
(10)次に、ハフマン符号化部414は、量子化符号2を量子化制御部416に出力する。量子化制御部416は、入力された量子化符号2から最終的に出力されるビットストリームの総ビット数を計算する。なお、図4において、点線で囲まれた範囲は、量子化制御部416が制御可能な範囲である。
(11)量子化制御部416は、計算した総ビット数が現ブロックに許されるビット数を上回る場合、処理(8)〜処理(10)を繰り返すように、量子化部413と、ハフマン符号化部414とを制御する。また、量子化制御部416は、計算した総ビット数が現ブロックに許されるビット数を下回る場合、ハフマン符号化部414からビットストリーム生成部415に対して量子化符号2を出力させる。そして、量子化制御部415は、ビットストリーム生成部415に対して、ビットストリームを出力するように制御する。これにより、本実施形態は、量子化を実現する。なお、本実施形態での量子化のプロセスは、前述の従来技術の欄で説明した、AAC方式の量子化プロセスの詳細と同様であるため、その詳細な説明を省略する。
なお、本実施形態では1フレームを4つの短ブロックに分割する場合を例に説明した。本発明は、1フレームを任意の個数(例えば、8ブロック)に分割する場合でも同様にして実現することができる。
以上説明の通り、本実施形態は、MDCT変換の前にブロック長を判定しているため、第1の従来技術に比べて少ない処理量で高品質なオーディオ信号の符号化が可能である。また、本実施形態は、電力変動比と予測利得変動比とを用いてブロック長の判定を行っているため、第2の従来技術よりもブロック長の判定が高精度であるため、第2の従来技術よりも高品質なオーディオ信号の符号化が可能である。
すなわち、本実施形態は、MDCT変換及び心理聴覚分析の前に、符号化を行うブロック長を判定する。そのため、本実施形態は、第1の従来技術に比べて少ない処理量で高品質な符号化が可能である。更に、本実施形態は、ブロック長判定手段において、電力変動比と予測利得変動比とを用いる。そのため、本実施形態は、第2の従来技術に比べてブロック長を精度良く判定することができる。
本実施形態の効果について、前述の図14を用いてさらに詳細に説明する。図14は、電力変動比と予測利得変動比との算出結果を示すグラフである。図14の(a)に示される入力信号は、区間Aでは電力変動比の値が0でほとんど変化していない(図14の(b))。これに対し、図14の(a)に示される入力信号は、区間Aでは予測利得変動比が大きく変動している(図14の(c))。
本実施形態は、電力変動比と予測利得変動比との両方を算出する。そして、本実施形態は、電力変動比と予測利得変動比とのどちらか一方が閾値を越えた場合に、短ブロックを選択する。そのため、本実施形態は、図14に示される区間Aのような入力信号でも精度良くブロック長を判定することができる。
なお、図14に示される区間B、区間Cでは、予測利得変動比はほとんど変動しない。一方、図14に示される区間B、区間Cでは、電力変動比が大きく変動する。したがって、本実施形態は、区間B、区間Cについても第2の従来技術と同様に信号の変化点を検出可能である。
(第2の実施形態)
図6は、本発明のオーディオ符号化装置の第2の実施形態の構成図である。本実施形態は、第1の実施形態と比較して、電力変動比に対する閾値THPと予測利得変動比に対する閾値THGとを動的に変化させる部分が異なる。それ以外の部分は第1の実施形態と共通であるので説明を省略する。
一般に、短ブロックはアタック音などの急激に変化する部分で選択される場合が多い。アタック音は、広い周波数範囲に渡ってMDCTスペクトルの振幅が大きい。そのため、アタック音は、符号化する場合に大量の量子化ビット数が必要になる。
連続して短ブロックが選択されると、量子化ビット数が不足して音質が極端に劣化する場合がある。そのため、低ビットレートでオーディオ信号を符号化するには、なるべく短ブロックが連続して選択されないように制御することが必要な場合がある。
そこで、本実施形態では、一度、短ブロックが選択された場合、その後一定時間の間は閾値THPと閾値THGとを大きくする。その結果、本実施形態では、できるだけ短ブロックが連続して選ばれないようにする。
ここで、本発明のオーディオ符号化装置の第2の実施形態の構成について説明する。本実施形態の構成は、図6に示される。そして、図6に示される各ブロックのうち、ブロック長判定部607及び閾値決定部608以外のブロックの動作は、図4に示される対応する各ブロックの動作と同様であるため、その詳細な説明を省略する。
すなわち、図6に示される、フレーム化部601の動作は図4に示されるフレーム化部401の動作と同様であり、電力算出部602の動作は図4に示される電力算出部402の動作と同様であり、自己相関算出部603の動作は図4に示される自己相関算出部403の動作と同様であり、kパラメータ算出部604の動作は図4に示されるkパラメータ算出部404の動作と同様であり、予測利得算出部605の動作は図4に示される予測利得算出部405の動作と同様である。
さらに、予測利得変動比算出部606の動作は図4に示される予測利得変動比算出部406の動作と同様であり、選択器609の動作は図4に示される選択器408の動作と同様であり、長ブロック用のMDCT変換部610の動作は図4に示される長ブロック用のMDCT変換部409の動作と同様である。
また、短ブロック用のMDCT変換部611の動作は図4に示される短ブロック用のMDCT変換部410の動作と同様であり、選択器612の動作は図4に示される選択器411の動作と同様であり、心理聴覚分析部613の動作は図4に示される心理聴覚分析部412の動作と同様であり、量子化部614の動作は図4に示される量子化部413の動作と同様であり、ハフマン符号化部615の動作は図4に示されるハフマン符号化部414の動作と同様であり、ビットストリーム生成部616の動作は図4に示されるビットストリーム生成部415の動作と同様であり、量子化制御部617の動作は図4に示される量子化制御部416の動作と同様である。なお、図6において、点線で囲まれた範囲は、量子化制御部617が制御可能な範囲である。
他方、図6に示されるブロック長判定部607は、閾値決定部608において決定された閾値を受信する。また、ブロック長判定部607は、ブロック長の判定結果を、選択器609、選択器612及び閾値決定部608に出力する。閾値決定部608は、ブロック長判定部607から出力された判定結果に基づいて、閾値を決定する。すなわち、閾値決定部608は、ブロック長判定部607から出力された判定結果が短ブロックを選択する判定結果である場合は、増加した閾値の値を出力する。また、ブロック長判定部607は、閾値決定部608から受信した閾値に基づいて、判定処理を行う。閾値が変動しうる点以外は、ブロック長判定部607における判定処理は、前述の図5に示される場合と同様であるため、その詳細な説明を省略する。また、閾値決定部608は、図1に示される算出部103の機能の一部であるとして良い。
図7は、本発明のオーディオ符号化装置の第2の実施形態の閾値決定部における、閾値制御の動作を示すグラフである。図7に示されるグラフでは、短ブロックが選択されると、閾値THGはTHG+αに変更されている。ここでα>0とする。同様に、短ブロックが選択されると、閾値THPはTHP+βに変更される。ここで、β>0とする。
その後、一定時間Δtが経過すると、閾値は元の値(初期値)THG、THPに変更される。つまり、本実施形態では、一度、短ブロックが選択された場合、その後一定時間は閾値THPと閾値THGとを大きくして、できるだけ短ブロックが連続して選ばれないようにする。
以上の説明の通り、本実施形態は、前述の第1の実施形態と同様の効果を得ることができる。さらに、本実施形態は、一度短ブロックが選択された場合に、その後一定時間は短ブロックが選ばれないように閾値を制御する。そのため、本実施形態では、連続して短ブロックが選択されることにより生じる音質劣化を軽減することができる。
なお、本実施形態の変形例として、以下の方法を実施することもできる。以下の変形例でも、上記本発明のオーディオ符号化装置の第2の実施形態と同様の効果を得ることができる。
(1)本実施形態の変形例は、短ブロックが選ばれた後、一定時間は短ブロックを選択しない。
(2)本実施形態の変形例は、短ブロックが選ばれた後、α又はβを十分に大きくする。ただし、本実施形態の変形例は、THG又はTHP範囲をあらかじめ調べておく必要がある。
(3)本実施形態の変形例は、短ブロックが選択され、閾値がTHG+α又はTHP+βとなっている場合に、再度短ブロックが選択された場合、閾値を、THG+α+α又はTHP+β+βとする。ただし、本実施形態の変形例は、一定時間後は、閾値を元の値に戻す。
(第3の実施形態)
次に、本発明のオーディオ符号化装置の第3の実施形態について説明する。本実施形態の構成は、図4に示される第1の実施形態と同じである。しかし、第3の実施形態は、予測利得変動比をフレーム単位で求める点が前述の第1の実施形態とは異なる。すなわち、本実施形態では、電力を算出するブロックを所定数用いて1つのブロックとし、この1つのブロックの予測利得変動比を算出する。
第1の実施形態は、短ブロック毎にLPC分析を行う。そのため、第1の実施形態は、精密に予測利得変動比を算出できる。しかし、第1の実施形態では、LPC分析の実行回数が多くなるため処理量も増える。本実施形態では1つの長ブロックにつき1回のLPC分析を行う。そのため、本実施形態は、第1の実施形態に比べると演算量をより少なくすることができる。
図8は、本発明のオーディオ符号化装置の第3の実施形態において、予測利得変動比と電力変動比とを求める方法の概念図である。第1の実施形態は、短ブロック毎にLPC分析を行って得られたkパラメータから予測利得を求める。そして、第1の実施形態は、1つ前の短ブロックで同様にして求めた予測利得との比により予測利得変動比を算出する。
これに対し、本実施形態は、図8の(a)に示されるように、1つの長ブロック(第nフレーム)の入力信号に対してLPC分析を行ってkパラメータを求める。すなわち、kパラメータ算出部が、1つの長ブロック(第nフレーム)の入力信号に対してLPC分析を行ってkパラメータを求める。そして、本実施形態は、kパラメータから予測利得G(n)を算出する。次に、本実施形態は、1つ前のフレーム(第n−1フレーム目)で同様にして求めた予測利得電力G(n−1)とG(n)とを用いて、次式により予測利得変動比ΔG(n)を算出する。
Figure 0004533386
一方、本実施形態は、図8の(b)に示されるように、第1の実施形態と同様に、短ブロック毎に電力変動比ΔP(1,2)、ΔP(2,3)、ΔP(3,4)を算出する。次に、本実施形態は、算出された予測利得変動比と電力変動比とから最適なブロック長を決定する。以下、この決定動作について説明する。
(1)ブロック長判定部は、ΔG(n)があらかじめ決められた閾値THGよりも大きければ短ブロックを選択する。
(2)次に、ブロック長判定部は、ΔP(1,2)、ΔP(2,3)、ΔP(3,4)の中で、一つでもあらかじめ決められた閾値THPよりも大きいものがあれば短ブロックを選択する
(3)そして、ブロック長判定部は、(1)又は(2)のいずれか一方で短ブロックが選択されなかった場合は長ブロックを選択する。本実施形態は、ブロック長を選択した後の構成と処理内容は第1の実施形態と共通である。そのため、本実施形態のブロック長を選択した後の構成と処理内容については、説明を省略する。
以上の説明の通り、本実施形態は、前述の本発明の第1の実施形態と同様の効果を得ることができる。さらに、本実施形態は、LPC分析を長ブロックにつき1回だけ行うことにより、第1の実施形態に比べてより少ない処理量でブロック長を選択することができる。ただし、本実施形態では、予測利得を算出するブロックとして、1フレームのブロックを用いる場合に限定されるものではなく、電力を算出するブロックを任意の数用いて1つのブロックとし、この1つのブロックの予測利得を算出するとしても良い。この場合でも、本実施形態は、上記と同様の効果を得ることができる。
(第4の実施形態)
次に、本発明のオーディオ符号化装置の第4の実施形態について説明する。本実施形態の構成は第1の実施形態の構成と同じある。しかし、本実施形態は、1フレームを8つの短ブロックに分割して行う電力変動比の計算方法が第1の実施形態と異なる。すなわち、本実施形態は、予測利得を算出するブロックを所定数用いて1つのブロックとし、この1つのブロックの電力変動比を算出する。
図9は、本発明のオーディオ符号化装置の第4の実施形態における、電力変動比の算出方法を示す概念図である。図9に示されるように、本実施形態は、1フレームを8つの短ブロックに分割し、電力変動比を計算する。ただし、本実施形態は、第1の実施形態のように1個の短ブロックについて1個の電力変動比を求めるのではない。すなわち、本実施形態は、隣接する複数の短ブロックから電力変動比を求める点が、第1の実施形態と異なる。本実施形態の電力変動比の算出方法を以下に示す。
本実施形態では、第1及び第2の短ブロックから電力P(1)を求める。また、本実施形態は、第3及び第4の短ブロックから電力P(2)を求める。また、本実施形態は、第5及び第6の短ブロックから電力P(3)を求める。また、本実施形態は、第7及び第8の短ブロックから電力P(4)を求める。
次に、本実施形態は、P(1)とP(2)とから電力変動比ΔP(1,2)を求める。また、本実施形態は、P(2)とP(3)とから電力変動比ΔP(2,3)を求める。また、本実施形態は、P(3)とP(4)とからから電力変動比ΔP(3,4)を求める。
上記のように、本実施形態は、2つの短ブロックの電力を求める点が第1の実施形態とは異なる。すなわち、第1の実施形態では、予測利得変動比が8個、電力変動比が8個、計算されるのに対して、本実施形態では、予測利得変動比が8個、電力変動比が4個しか計算されない。つまり、本実施形態では、1フレーム内で算出する予測利得変動比と電力変動比との数が異なってもよい。本実施形態の、上述の部分以外については第1の実施形態と同じであるので説明を省略する。
このように、本実施形態は、前述の本発明の第1の実施形態と同様の効果を得ることができる。さらに、本実施形態は、2つの短ブロックの電力を求めることにより、電力の算出処理の計算量を、第1の実施形態に比べて軽減することができる。なお、本実施形態は、電力を算出するブロックとして、短ブロックの2つを用いる場合に限定されるのではなく、3つ以上の任意の数の短ブロックを用いて電力を算出するとしても良い。この場合でも、上記の効果と同様の効果を得ることができる。

Claims (12)

  1. 入力信号を一定のサンプル数からなるフレームに分割し、1フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して複数の短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化装置において、
    前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の電力変動比を算出する電力算出手段と、
    前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の予測利得変動比を算出する算出手段と、
    前記短ブロック間毎の電力変動比と前記短ブロック間毎の予測利得変動比とから、長ブロックによる符号化を行うか又は短ブロックによる符号化を行うかを判定するブロック長判定手段とを備え
    記ブロック長判定手段は、前記短ブロック間毎の電力変動比及び前記短ブロック間毎の予測利得変動比のいずれかがあらかじめ決められた閾値より大きい場合に短ブロックによる符号化を選択し、そうでなければ長ブロックによる符号化を選択する
    オーディオ符号化装置。
  2. 前記ブロック長判定手段が用いる符号化する際の前記閾値を、前記ブロック長判定手段の判定結果に応じて変化させる閾値決定手段を備える
    請求項1記載のオーディオ符号化装置。
  3. 前記閾値決定手段は、前記ブロック長判定手段の判定結果が短ブロックモードによる符号化を表す場合に、前記閾値を初期値よりも大きな値に設定する
    請求項2に記載のオーディオ符号化装置。
  4. 入力信号を一定のサンプル数からなるフレームに分割し、1フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して複数の短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化装置において、
    前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の電力変動比を算出する電力算出手段と、
    前記入力信号が分割された複数のフレームから隣接するフレーム間毎の予測利得変動比
    を算出する算出手段と、
    前記短ブロック間毎の電力変動比及び前記フレーム間毎の予測利得変動比のいずれかがあらかじめ決められた閾値より大きい場合に短ブロックモードによる符号化を選択し、そうでなければ長ブロックモードによる符号化を選択するブロック長判定手段と
    を備えるオーディオ符号化装置。
  5. 入力信号を一定のサンプル数からなるフレームに分割し、1フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して複数の短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化装置において、
    前記入力信号が分割された複数のフレームから隣接するフレーム間毎の電力変動比を算出する電力算出手段と、
    前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の予測利得変動比を算出する算出手段と、
    前記フレーム毎の電力変動比及び前記短ブロック間毎の予測利得変動比のいずれかがあらかじめ決められた閾値より大きい場合に短ブロックモードによる符号化を選択し、そうでなければ長ブロックモードによる符号化を選択するブロック長判定手段と
    を備えるオーディオ符号化装置。
  6. 入力信号を一定のサンプル数からなるフレームに分割し、1フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して複数の短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化装置において、
    前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の電力変動比を算出する電力算出手段と、
    前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の予測利得変動比を算出する算出手段と、
    前記短ブロック間毎の電力変動比及び前記短ブロック間毎の予測利得変動比のいずれかがあらかじめ決められた閾値より大きい場合に短ブロックモードによる符号化を選択し、そうでなければ長ブロックモードによる符号化を選択するブロック長判定手段と、
    前記ブロック長判定手段により長ブロックモードによる符号化が選択された場合には、長ブロック単位で入力信号を離散コサイン変換して第1の係数を求める第1の変換手段と、
    前記ブロック長判定手段により短ブロックモードによる符号化が選択された場合は、短ブロック単位で入力信号を離散コサイン変換して第2の係数を求める第2の変換手段と、
    前記ブロック長判定手段の判定結果に応じて前記第1の係数又は前記第2の係数を第3の係数として選択する選択手段と、
    前記入力信号からマスキング閾値を求める心理聴覚分析手段と、
    前記マスキング閾値に従って前記第3の係数をスペクトル量子化して第1の符号を求める量子化手段と、
    前記第1の符号をハフマン符号化して第2の符号を求めるハフマン符号化手段と、
    前記第2の符号からビットストリームを生成し、前記量子化制御手段の指示に基づいてビットストリームを出力するビットストリーム生成手段と
    を備えるオーディオ符号化装置。
  7. 前記ブロック長判定手段が用いる符号化する際の前記閾値を、前記ブロック長判定手段の判定結果に応じて変化させる閾値決定手段を備える
    請求項6に記載のオーディオ符号化装置。
  8. 前記閾値決定手段は、前記ブロック長判定手段の判定結果が短ブロックモードによる符号化を表す場合に、前記閾値を初期値よりも大きな値に設定する
    請求項7に記載のオーディオ符号化装置。
  9. 入力信号を一定のサンプル数からなるフレームに分割し、1フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して複数の短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化装置において、
    前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の電力変動比を算出する電力算出手段と、
    前記入力信号が分割された複数のフレームから隣接するフレーム間毎の予測利得変動比を算出する算出手段と、
    前記短ブロック間毎の電力変動比及び前記フレーム間毎の予測利得変動比のいずれかがあらかじめ決められた閾値より大きい場合に短ブロックモードによる符号化を選択し、そうでなければ長ブロックモードによる符号化を選択するブロック長判定手段と、
    前記ブロック長判定手段により長ブロックモードによる符号化が選択された場合には、長ブロック単位で入力信号を離散コサイン変換して第1の係数を求める第1の変換手段と、
    前記ブロック長判定手段により短ブロックモードによる符号化が選択された場合は、短ブロック単位で入力信号を離散コサイン変換して第2の係数を求める第2の変換手段と、
    前記ブロック長判定手段の判定結果に応じて前記第1の係数又は前記第2の係数を第3の係数として選択する選択手段と、
    前記入力信号からマスキング閾値を求める心理聴覚分析手段と、
    前記マスキング閾値に従って前記第3の係数をスペクトル量子化して第1の符号を求める量子化手段と、
    前記第1の符号をハフマン符号化して第2の符号を求めるハフマン符号化手段と、
    前記第2の符号からビットストリームを生成し、前記量子化制御手段の指示に基づいてビットストリームを出力するビットストリーム生成手段と
    を備えるオーディオ符号化装置。
  10. 入力信号を一定のサンプル数からなるフレームに分割し、1フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して複数の短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化装置において、
    前記入力信号が分割された複数のフレームから隣接するフレーム間毎の電力変動比を算出する電力算出手段と、
    前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の予測利得変動比を算出する算出手段と、
    前記フレーム毎の電力変動比及び前記短ブロック間毎の予測利得変動比のいずれかがあらかじめ決められた閾値より大きい場合に短ブロックモードによる符号化を選択し、そうでなければ長ブロックモードによる符号化を選択するブロック長判定手段と、
    前記ブロック長判定手段により長ブロックモードによる符号化が選択された場合には、長ブロック単位で入力信号を離散コサイン変換して第1の係数を求める第1の変換手段と、
    前記ブロック長判定手段により短ブロックモードによる符号化が選択された場合は、短ブロック単位で入力信号を離散コサイン変換して第2の係数を求める第2の変換手段と、
    前記ブロック長判定手段の判定結果に応じて前記第1の係数又は前記第2の係数を第3の係数として選択する選択手段と、
    前記入力信号からマスキング閾値を求める心理聴覚分析手段と、
    前記マスキング閾値に従って前記第3の係数をスペクトル量子化して第1の符号を求める量子化手段と、
    前記第1の符号をハフマン符号化して第2の符号を求めるハフマン符号化手段と、
    前記第2の符号からビットストリームを生成し、前記量子化制御手段の指示に基づいてビットストリームを出力するビットストリーム生成手段と
    を備えるオーディオ符号化装置。
  11. 入力信号を一定のサンプル数からなるフレームに分割し、1フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して複数の短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化方法において、
    前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の電力変動比を算出する電力算出工程と、
    前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の予測利得変動比を算出する算出工程と、
    前記短ブロック間毎の電力変動比及び前記短ブロック間毎の予測利得変動比のいずれかがあらかじめ決められた閾値より大きい場合に短ブロックモードによる符号化を選択し、そうでなければ長ブロックモードによる符号化を選択するブロック長判定工程と
    を備えるオーディオ符号化方法。
  12. 入力信号を一定のサンプル数からなるフレームに分割し、1フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して複数の短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化方法において、
    前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の電力変動比を算出する電力算出工程と、
    前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の予測利得変動比を算出する算出工程と、
    前記短ブロック間毎の電力変動比及び前記短ブロック間毎の予測利得変動比のいずれかがあらかじめ決められた閾値より大きい場合に短ブロックモードによる符号化を選択し、そうでなければ長ブロックモードによる符号化を選択するブロック長判定工程と
    前記ブロック長判定工程において長ブロックモードによる符号化が選択された場合には、長ブロック単位で入力信号を離散コサイン変換して第1の係数を求める第1の変換工程と、
    前記ブロック長判定工程において短ブロックモードによる符号化が選択された場合は、短ブロック単位で入力信号を離散コサイン変換して第2の係数を求める第2の変換工程と、
    前記ブロック長判定工程の判定結果に応じて前記第1の係数又は前記第2の係数を第3の係数として選択する選択工程と、
    前記入力信号からマスキング閾値を求める心理聴覚分析工程と、
    前記マスキング閾値に従って前記第3の係数をスペクトル量子化して第1の符号を求める量子化工程と、
    前記第1の符号をハフマン符号化して第2の符号を求めるハフマン符号化工程と、
    前記第2の符号からビットストリームを生成し、前記量子化制御工程における指示に基づいてビットストリームを出力するビットストリーム生成工程と
    を備えるオーディオ符号化方法。
JP2006527708A 2004-07-22 2004-07-22 オーディオ符号化装置及びオーディオ符号化方法 Expired - Fee Related JP4533386B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2004/010416 WO2006008817A1 (ja) 2004-07-22 2004-07-22 オーディオ符号化装置及びオーディオ符号化方法

Publications (2)

Publication Number Publication Date
JPWO2006008817A1 JPWO2006008817A1 (ja) 2008-05-01
JP4533386B2 true JP4533386B2 (ja) 2010-09-01

Family

ID=35784953

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006527708A Expired - Fee Related JP4533386B2 (ja) 2004-07-22 2004-07-22 オーディオ符号化装置及びオーディオ符号化方法

Country Status (4)

Country Link
US (1) US20070118368A1 (ja)
EP (1) EP1775718A4 (ja)
JP (1) JP4533386B2 (ja)
WO (1) WO2006008817A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4658853B2 (ja) * 2006-04-13 2011-03-23 日本電信電話株式会社 適応ブロック長符号化装置、その方法、プログラム及び記録媒体
JP4658852B2 (ja) * 2006-04-13 2011-03-23 日本電信電話株式会社 適応ブロック長符号化装置、その方法、プログラム及び記録媒体
US7953595B2 (en) * 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
US7966175B2 (en) 2006-10-18 2011-06-21 Polycom, Inc. Fast lattice vector quantization
US20090144054A1 (en) * 2007-11-30 2009-06-04 Kabushiki Kaisha Toshiba Embedded system to perform frame switching
ATE500588T1 (de) 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
CN102067211B (zh) * 2009-03-11 2013-04-17 华为技术有限公司 一种线性预测分析方法、装置及系统
CN102930871B (zh) * 2009-03-11 2014-07-16 华为技术有限公司 一种线性预测分析方法、装置及系统
CN102243872A (zh) * 2010-05-10 2011-11-16 炬力集成电路设计有限公司 对音频数字信号进行编码、解码的方法及系统
JP6881931B2 (ja) * 2016-09-30 2021-06-02 株式会社モバイルテクノ 信号圧縮装置、信号伸長装置、信号圧縮プログラム、信号伸長プログラム及び通信装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0766733A (ja) * 1993-08-25 1995-03-10 Victor Co Of Japan Ltd 音声高能率符号化装置
JP2000134106A (ja) * 1998-10-29 2000-05-12 Matsushita Electric Ind Co Ltd オーディオ変換符号化のための周波数領域でのブロックサイズ判定適応方法
JP2003510643A (ja) * 1999-09-20 2003-03-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号を補正する処理回路、受信機、通信システム、携帯装置、及びその方法
JP2003233400A (ja) * 2002-02-08 2003-08-22 Ntt Docomo Inc 復号装置、符号化装置、復号方法、及び、符号化方法
JP2004054156A (ja) * 2002-07-24 2004-02-19 Victor Co Of Japan Ltd 音響信号符号化方法及び音響信号符号化装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3252005B2 (ja) * 1993-03-08 2002-01-28 パイオニア株式会社 適応ブロック長変換符号化のブロック長選択装置
TW271524B (ja) * 1994-08-05 1996-03-01 Qualcomm Inc
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
JPH09232964A (ja) * 1996-02-20 1997-09-05 Nippon Steel Corp ブロック長可変型変換符号化装置および過渡状態検出装置
US5848391A (en) * 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
JP2000206990A (ja) * 1999-01-12 2000-07-28 Ricoh Co Ltd デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP4021124B2 (ja) * 2000-05-30 2007-12-12 株式会社リコー デジタル音響信号符号化装置、方法及び記録媒体
DE60208426T2 (de) * 2001-11-02 2006-08-24 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur signalkodierung, signaldekodierung und system zum verteilen von audiodaten
US7460993B2 (en) * 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
JP3815323B2 (ja) * 2001-12-28 2006-08-30 日本ビクター株式会社 周波数変換ブロック長適応変換装置及びプログラム
US7389226B2 (en) * 2002-10-29 2008-06-17 Ntt Docomo, Inc. Optimized windows and methods therefore for gradient-descent based window optimization for linear prediction analysis in the ITU-T G.723.1 speech coding standard
TWI275074B (en) * 2004-04-12 2007-03-01 Vivotek Inc Method for analyzing energy consistency to process data
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0766733A (ja) * 1993-08-25 1995-03-10 Victor Co Of Japan Ltd 音声高能率符号化装置
JP2000134106A (ja) * 1998-10-29 2000-05-12 Matsushita Electric Ind Co Ltd オーディオ変換符号化のための周波数領域でのブロックサイズ判定適応方法
JP2003510643A (ja) * 1999-09-20 2003-03-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号を補正する処理回路、受信機、通信システム、携帯装置、及びその方法
JP2003233400A (ja) * 2002-02-08 2003-08-22 Ntt Docomo Inc 復号装置、符号化装置、復号方法、及び、符号化方法
JP2004054156A (ja) * 2002-07-24 2004-02-19 Victor Co Of Japan Ltd 音響信号符号化方法及び音響信号符号化装置

Also Published As

Publication number Publication date
EP1775718A4 (en) 2008-05-07
JPWO2006008817A1 (ja) 2008-05-01
WO2006008817A1 (ja) 2006-01-26
EP1775718A1 (en) 2007-04-18
US20070118368A1 (en) 2007-05-24

Similar Documents

Publication Publication Date Title
JP6704037B2 (ja) 音声符号化装置および方法
EP3246918B1 (en) Audio decoder, method for decoding an audio signal and computer program
EP2282310B1 (en) Entropy coding by adapting coding between level and run-length/level modes
KR101278805B1 (ko) 엔트로피 코딩 방법 및 엔트로피 디코딩 방법
US9842603B2 (en) Encoding device and encoding method, decoding device and decoding method, and program
JP4548348B2 (ja) 音声符号化装置及び音声符号化方法
JP6452759B2 (ja) 先進量子化器
JP5583881B2 (ja) オーディオ信号の変換方法及び変換装置、オーディオ信号の適応的符号化方法及び適応的符号化装置
KR20080049116A (ko) 오디오 코딩
US20070118368A1 (en) Audio encoding apparatus and audio encoding method
KR20130107257A (ko) 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
JP6739604B2 (ja) 符号化方法、装置、プログラム及び記録媒体
JP2004258603A (ja) レベル・モードとラン・レングス/レベル・モードの間での符号化を適応させるエントロピー符号化
JP2010060989A (ja) 演算装置および方法、量子化装置および方法、オーディオ符号化装置および方法、並びにプログラム
JP2008261999A (ja) オーディオ復号装置
KR101387808B1 (ko) 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
JP4699117B2 (ja) 信号符号化装置、信号復号化装置、信号符号化方法、及び信号復号化方法。
JP2003233397A (ja) オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化データ伝送装置
JP2010078964A (ja) 演算装置および方法、量子化装置および方法、並びにプログラム
KR100880995B1 (ko) 오디오 부호화 장치 및 오디오 부호화 방법
JP4273062B2 (ja) 符号化方法、符号化装置、復号化方法及び復号化装置
JP2007304258A (ja) オーディオ信号符号化およびその復号化装置、方法ならびにプログラム
JP6712643B2 (ja) サンプル列変形装置、信号符号化装置、信号復号装置、サンプル列変形方法、信号符号化方法、信号復号方法、およびプログラム
WO2019244666A1 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100518

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100611

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130618

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees