JP2001188592A - 音声符号化方法 - Google Patents
音声符号化方法Info
- Publication number
- JP2001188592A JP2001188592A JP2000321508A JP2000321508A JP2001188592A JP 2001188592 A JP2001188592 A JP 2001188592A JP 2000321508 A JP2000321508 A JP 2000321508A JP 2000321508 A JP2000321508 A JP 2000321508A JP 2001188592 A JP2001188592 A JP 2001188592A
- Authority
- JP
- Japan
- Prior art keywords
- prediction
- signal
- value
- audio signal
- residual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
理がより単純でコストを低く抑えることが可能な音声符
号化方法を提供する。 【解決手段】 音声信号の符号化に際し、音声信号に対
し、それぞれ特性が異なる複数の予測器12−1、12
−2、・・・12−nで、時間領域の過去の信号から現
在の信号の線形予測値と予測残差を得て、複数の予測器
の出力信号中の予測残差が最小である予測器を選択し、
選択された予測器からの出力信号を、その予測器を特定
する信号と共に出力する。復号時には、予測器を特定す
る信号を用いて適切な予測器を選択して復号を行う。
Description
に関し、特にデジタルオーディオ信号のデータ量を圧縮
して符号化する音声符号化方法に関する。
を圧縮して記録したり伝送する、いわゆる高能率符号化
技術として様々なものが開発されている。一般的に、標
本化・一様量子化されたオーディオ信号には冗長度があ
り、高能率な符号化を行えば、より少ない情報量で効率
的な伝送が可能となる。高能率符号化には大きく分けて
2つのタイプがある。一つは非可逆符号化(ロスあり符
号化)であり、データの劣化が聴感上検知されないよう
に制御する「聴覚的符号化」が良く用いられる。他方は
可逆符号化(ロスレス符号化)であり、符号化・復号化
後のデータは元データと完全に一致する。ロスレス符号
化はコンピュータデータの圧縮では常識的に用いられる
が、オーディオ符号化においては、大きな圧縮率が得ら
れないためにあまり利用されない。しかし、最近注目さ
れているハイサンプリング・オーディオなどは、従来よ
りも冗長度の大きい信号であり、ロスレス符号化は有効
であると考えられる。
特開平9−46234号公報記載の従来技術では、デジ
タル音声信号を帯域分割した後、個々の帯域について求
めたエネルギー値を、情報量に応じたビット配分により
量子化されたサンプル値を周波数領域の情報として符号
化し量子化後のサンプル値を逆量子化し、これを時間領
域信号へ再変換するために帯域合成を行われた後の信号
と元信号との残差信号を時間領域の情報として符号化
し、この両者を多重化することにより、可逆圧縮の符号
化を行っている。
術では、前述のように入力信号を帯域分割するための構
成・処理が複雑であり、演算量が極めて多くコスト増の
原因となっていた。
いることなく、構成・処理がより単純でコストを低く抑
えることが可能な音声符号化方法を提供することを目的
とする。
め、本発明では以下の1)及び2)に記載の手段よりな
る。すなわち、
て、基準サンプル値を得るステップと、前記デジタル音
声信号に応答して所定の線形予測方法により時間領域の
過去の信号から現在の信号の線形予測値を得て、前記デ
ジタル音声信号と前記予測値とから予測残差を得て、前
記デジタル音声信号に応答して前記予測残差が最小値で
ある線形予測方法を選択するステップと、前記基準サン
プル値と、前記選択された予測残差と、前記選択された
予測値の線形予測方法を特定する情報を所定フォーマッ
トで多重化するステップと、からなる音声符号化方法。 2)入力されるデジタル音声信号に応答し、基準サンプ
ル値を所定時間のフレーム単位で得るステップと、前記
デジタル音声信号に応答し、時間領域の過去から予測さ
れる現在の信号の予測値の中でその予測残差が最小とな
るような線形予測方法を、前記フレームを更に分割した
サブフレーム単位に選択するステップと、前記基準サン
プル値と、前記選択された予測値の線形予測方法を特定
する情報と、前記選択された予測値からの予測残差とを
所定のフォーマットで多重化すると共に、前記予測残差
に応じたビット数情報に基づいて前記予測残差がパッキ
ングされるステップと、からなる音声符号化方法。
ましい実施の形態について説明する。図1は本発明の方
法を適用した音声符号化装置(エンコーダ)の好ましい
実施の形態のブロック図である。入力音声信号としては
PCMデータが送られ、1フレームバッファ10は、ま
ず基準サンプル取得手段として動作し、各フレームの先
頭サンプル値をマルチプレクサ22に送出する。1フレ
ームバッファ10は、さらに複数の異なる特性の予測器
12−1、12−2、・・・12−nに1フレーム単位
の入力データを送る。1フレームは図2に示すようにサ
ンプリング周波数fsにより決まり、800サンプル又
は1600サンプルのデータを得る。ここで、異なる特
性とは、予測係数が異なることである。各予測器12−
1、12−2、・・・12−nの出力信号は、1フレー
ムバッファ10と共に対応する減算器14−1、14−
2、・・・14−nに与えられ、ここで残差(差分)が
検出される。すなわち、減算器14−1、14−2、・
・・14−nは予測残差検出手段として動作する。この
残差データはバッファ・選択器16に与えられる。本実
施の形態では、バッファ・選択器16は1フレームを細
分化したサブフレーム毎に予測残差を得る機能を有して
いる。サブフレームの時間長は、図2に示すとおり1フ
レームの数十分の1であり、具体的には、0.1〜0.
5ms程度である。
号生成器18は、これらの残差データ中、残差が最小で
ある予測器の出力信号を選択するための選択信号をサブ
生成タ中、残差が最小である予測器の出力信号を選択す
るための選択信号をサブフレーム毎に生成して、バッフ
ァ・選択器16に送る。すなわち、選択信号生成器18
は、バッファ・選択器16に一時的に保持される、各減
算器からの残差信号を順次スキャンし、サブフレーム毎
に最も残差の少ない信号を見出し、次に対応する予測器
に応答する減算器の出力信号を選択するのである。バッ
ファ・選択器16は選択された信号のみをパッキング回
路20に送出する。また、選択信号生成器18は、各サ
ブフレームのビット数フラグを生成してパッキング回路
20に送り、パッキング回路20は、選択された残差信
号をこのビット数フラグにより指定されたビット数でパ
ッキングする。
レクサ22に送られ、ここで、1フレームバッファ10
で得た基準サンプル値であるフレーム先頭サンプル値
(20ビット)、選択信号生成器18で得たビット数フ
ラグ(サブフレーム当たり5ビット)と予測器選択フラ
グ(サブフレーム当たり3ビット)、マルチプレクサで
発生するヘッダ(40ビット)と共に所定フォーマット
のビットストリームとされる。予測器選択フラグは上記
残差が最小である予測器を特定するための信号であり、
符号化(エンコード)された音声信号を復号(デコー
ド)する際に用いられる。復号を行うための音声復号装
置については図13と共に後述する。なお、図14はパ
ッキング後の1フレーム分のデータ配列を示すフォーマ
ット図である。この例では、左右(L、R)の2チャン
ネル(ch)のオーディオ信号信号を圧縮記録する場合
を示し、1フレームのサンプル数はチャンネル当たり1
600、1フレーム内のサブフレーム数はチャンネル当
たり80である。図2及び図14における”Qb”は当
初の量子化ビット数である。
ディオ信号)符号化の原理について説明する。もし、符
号化すべきオーディオ信号がホワイトノイズの様な信号
であれば、そこには冗長度はなく、ロスレス符号化も効
力を発揮しない。しかし、現実のオーディオ信号には冗
長度をもたらすいくつかの性質がある。以下に代表的な
2つを挙げる。
は再生周波数帯域に対してエネルギーが低域側に偏って
いることが多い。また図10に示すように、時間領域で
みれば、サンプリング点の間隔に対して波形が滑らか
で、近接したサンプル間には大きな相関があり、予測が
可能である。 2) 図11に示すように、オーディオ信号の区間毎の
信号振幅には偏りがある。また、図12に示すように、
区間内の振幅出現確率にも偏りがあり、一般的には小振
幅ほど出現確率が高い。当然ながら、図11と図12の
内容には相関がある。
質)を利用して高効率化する方法としては、信号を周波
数領域に変換して帯域毎に正規化する方法と、時間領域
で過去の信号から見た現在の信号の線形予測値を算出
し、予測値と実測値との残差を符号化する方法が考えら
れる(予測が適切であれば予測残差振幅は実測値よりも
大幅に減少する)。前者と後者を比較した場合、得られ
る効果には大きな差がなく、演算量は前者の方が数倍大
きいので、時間領域の手法を用いる方が有利である。聴
覚的符号化では信号を周波数帯域毎に制御するために周
波数領域の手法を用いることが多い。
は、信号を一定の長さの区間に分割し、区間毎の最大値
で正規化することが考えられる。図12の性質を利用す
るには、一般的にはハフマン符号に代表されるエントロ
ピー符号化を施し、データに割り当てられる符号長を最
適化することが考えられる。ここで、図11の区間長を
短くすれば区間内での振幅の偏り、図12の出現確立の
偏りは減少し、エントロピー符号化の効果も減少する。
基本とし、特性の異なる複数の予測器を入力信号に応じ
て選択的に使用すること(第1の性質の利用)と、信号
を比較的短い区間に分割し、区間毎に上記処理を行うこ
と(第2の性質利用)を特徴とする線形予測ロスレスオ
ーディオ符号化方式を確立したものである。
オ符号化を実現する図1の実施の形態の動作について図
2の主な仕様と共に更に説明する。符号化回路、すなわ
ちエンコーダでは複数の予測器で線形予測値・予測残差
を算出し、サブフレーム毎に残差最小となる予測器を選
択して結果のビット数でパッキングする。さらに、フレ
ーム毎に主情報と補助情報を合わせて所定フォーマット
で多重し、ビットストリーム化する。ここでは、比較的
短いサブフレーム毎に処理を行うことで、図11、図1
2で説明した冗長度を効果的に削減している。また、圧
縮後の各フレームのトータルビット数は一般に信号の冗
長度に依存して変化するので、本質的に可変伝送レート
(可変ビットレート)による運用となる。本実施の形態
で符号化された信号、すなわちマルチプレクサ22の出
力信号をCD−ROMやDVD(デジタル・バーサタイ
ル・ディスク)などの光記録媒体に記録することができ
る。なお、図示省略しているが、本発明の符号化装置で
生成されたビットストリームを復号するデコーダでは、
独立したフレーム毎にデコードが可能である。このデコ
ードに当たって、上記補助情報中の予測器選択フラグを
用いて、エンコード時と等価な予測を行うことができ
る。
2−2、12−nに線形予測器を用いた場合について検
討する。すなわち、線形予測を用いて図9、図10の冗
長度を削減する場合について検討する。ある入力系列x
iに対するn次線形予測値Piは次式で計算される。
ある。予測値と実測値との差分である予測残差diは
ルタ出力であることが分かる。符号化においては、di
が最小となる様に予測フィルタの次数nと係数akを決
定する必要がある。係数akは整数とする場合と非整数
とする場合がある。整数係数を用いる典型的な予測器の
周波数特性を図3に示す。係数を非整数にすれば、より
柔軟なフィルタ特性の制御が可能である。しかし、非整
数化により係数ビット長が長くなれば予測器の演算語長
も増大し、エンコーダ・デコーダの演算精度の管理にも
注意を要するようになる。本実施の形態では、整数係数
による1次、2次、3次予測器と、整数係数を1ビット
拡張した非整数係数(0.5刻み)の4次予測器3種、合
計6種類を用意し、選択使用した。今回用いた非整数係
数の一例は下記のとおりである。
ついて説明する。先に説明した符号化方式を用いて、複
数のオーディオソースの圧縮率を評価した。評価用のソ
ースの概要を図4に示す。従来のサンプリング周波数
(fs=44.1kHz)の20曲、及びハイビット・ハイサン
プリングソースの11曲である(各ソースとも3〜5分
程度の長さ)。図4ではソース・スペックとジャンルに
応じてソース番号を設定している。まず、各フレームに
おけるサンプル当り平均ビット数(ビットレート)の時
間推移の例を図5(ソース番号NP6)、及び図6(ソー
ス番号UC1)に示す。図の様に、ビットレートは曲調に
依存して時々刻々と変化する。また、図5の様な従来fs
のソースでは、ピークでの圧縮効果は小さい場合が多
い。
タサイズ)/(ソースのデータサイズ)×100[%]
を示す。図7はfs=44.1kHz/Qb=16ビットソース、図8は
fs=88.2kHz,96kHz/Qb=20ビットソースの圧縮率である。
一般に、ロスレス符号化で冗長度削減に寄与するのは上
位ビット側であり、LSB側にビット拡張した20ビット
量子化では付加分(4ビット)はほとんど圧縮されない。
したがって20ビットの場合の方が圧縮率が劣化する(大
きくなる)ことを前提にして考察する必要がある。
トソースの場合、圧縮率は約44%〜83%であり、特にポッ
プス・ロック(NP*)での圧縮効果は小さい。これらのソ
ースでビット数を20ビットに拡張することを仮定する
と、圧縮率は約55%〜86%と推測される。一方fs=88.2kH
z,96kHzのハイサンプリング・ソースではfs/4以上の高
域のエネルギーが小さく、その分冗長度が大きいと予想
される。今回の例でも圧縮率は約44%〜62%と比較的良好
であり、50%前後の圧縮率(20ビットの場合)が見込めれ
ば実用化の可能性が考えられる。なお、ソースUJ1〜UJ3
は古いアナログマスターのためS/Nが悪く、圧縮率が劣
化している。ハイサンプリング・ソースに関しては、今
回検討できなかったポップス・ロック系における可能性
は未知数であるものの、ロスレス符号化は有効であると
考えられる。
レートビットストリームに応答して、デコードする音声
復号装置の好ましい実施の形態について図13に沿って
説明する。図13の音声復号装置は図1のマルチプレク
サ22の出力信号(あるいはこの出力信号を記録媒体に
記録して再生した信号)である可変レートビットストリ
ームを各信号成分に分解するデマルチプレクサ24を有
している。デマルチプレクサ24の出力信号中、フレー
ム先頭サンプル値はPCMデータの一部として出力され
る。デマルチプレクサ24の出力信号中、ビット数フラ
グは音声信号をアンパックするアンパッキング回路26
に与えられる。
器選択フラグは複数の予測器30−1、30−2、・・
・30−nの1つを選択するために用いられる。選択さ
れた予測器の出力信号は加算器28に与えられ、アンパ
ッキング回路26の出力信号と加算されてPCMデータ
として出力される。なお、予測器選択フラグは符号化の
ところで説明したように、サブフレーム毎に変化するの
で、サブフレーム毎に予測器30−1、30−2、・・
・30−nの1つが選択されることとなる。よって、符
号化と逆の手順により復号することができ、元のPCM
データをロスレスで得ることができる。
装置同様、複数の予測器を用いているが、デコード時に
は、エンコード程の速度は要求されないので、単一の予
測器で予測係数が可変なものを使用し、予測器選択フラ
グにより所望の予測係数を設定するようにしてもよい。
に、音声信号予測符号化する場合に圧縮効率を改善する
と共に、帯域分割の手法を用いておらず、構成処理がよ
り単純でコストが低く押さえられる方法を提供できる。
号化装置の好ましい実施の形態のブロック図である。
図表である。
る。
に用いたテストソースの一覧図表である。
例である。
の例である。
波数が44.1kHzのソース別に示したグラフであ
る。
波数が88.2kHzと96kHzのソース別に示した
グラフである。
る。
す波形図である。
ト)毎に示した図である。
したグラフである。
を示すブロック図である。
示すフォーマット図である。
差検出手段) 16 バッファ・選択器 18 選択信号生成器(予測器を選択する手段・予測器
特定する情報を生成する手段) 20 パッキング回路(パッキング手段) 22 マルチプレクサ(多重化する手段) 24 デマルチプレクサ(抽出する手段) 26 アンパッキング回路 28 加算器 30−1、30−2、・・・30−n 予測器
て、基準サンプル値を得るステップと、前記デジタル音
声信号に応答して、特性が異なる複数の線形予測方法に
より時間領域の過去から現在の信号の線形予測値がそれ
ぞれ予測され、その予測される線形予測値と前記音声信
号とから得られる予測残差が最小となるような線形予測
方法を選択するステップと、前記基準サンプル値と、前
記選択された予測残差と、前記選択された予測値の線形
予測方法を特定する情報を所定フォーマットで多重化す
るステップと、からなる音声符号化方法。 2)入力されるデジタル音声信号に応答し、基準サンプ
ル値を所定時間のフレーム単位で得るステップと、前記
デジタル音声信号に応答して、特性が異なる複数の線形
予測方法により時間領域の過去から現在の信号の線形予
測値がそれぞれ予測され、その予測される線形予測値と
前記音声信号とから得られる予測残差が最小となるよう
な線形予測方法を、前記フレームを更に分割したサブフ
レーム単位に選択するステップと、前記基準サンプル値
と、前記選択された予測値の線形予測方法を特定する情
報と、前記選択された予測値からの予測残差とを所定の
フォーマットで多重化すると共に、前記予測残差に応じ
たビット数情報に基づいて前記予測残差がパッキングさ
れるステップと、からなる音声符号化方法。
Claims (2)
- 【請求項1】入力されるデジタル音声信号に応答して、
基準サンプル値を得るステップと、 前記デジタル音声信号に応答して所定の線形予測方法に
より時間領域の過去の信号から現在の信号の線形予測値
を得て、前記デジタル音声信号と前記予測値とから予測
残差を得て、前記デジタル音声信号に応答して前記予測
残差が最小値である線形予測方法を選択するステップ
と、 前記基準サンプル値と、前記選択された予測残差と、前
記選択された予測値の線形予測方法を特定する情報を所
定フォーマットで多重化するステップと、からなる音声
符号化方法。 - 【請求項2】入力されるデジタル音声信号に応答し、基
準サンプル値を所定時間のフレーム単位で得るステップ
と、 前記デジタル音声信号に応答し、時間領域の過去から予
測される現在の信号の予測値の中でその予測残差が最小
となるような線形予測方法を、前記フレームを更に分割
したサブフレーム単位に選択するステップと、 前記基準サンプル値と、前記選択された予測値の線形予
測方法を特定する情報と、前記選択された予測値からの
予測残差とを所定のフォーマットで多重化すると共に、
前記予測残差に応じたビット数情報に基づいて前記予測
残差がパッキングされるステップと、からなる音声符号
化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000321508A JP3387094B2 (ja) | 2000-10-20 | 2000-10-20 | 音声符号化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000321508A JP3387094B2 (ja) | 2000-10-20 | 2000-10-20 | 音声符号化方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9289159A Division JPH11109996A (ja) | 1997-10-06 | 1997-10-06 | 音声符号化装置、音声符号化方法及び音声符号化情報の記録された光記録媒体並びに音声復号装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001188592A true JP2001188592A (ja) | 2001-07-10 |
JP3387094B2 JP3387094B2 (ja) | 2003-03-17 |
Family
ID=18799624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000321508A Expired - Lifetime JP3387094B2 (ja) | 2000-10-20 | 2000-10-20 | 音声符号化方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3387094B2 (ja) |
-
2000
- 2000-10-20 JP JP2000321508A patent/JP3387094B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP3387094B2 (ja) | 2003-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6675148B2 (en) | Lossless audio coder | |
EP1764923B1 (en) | Multi-channel signal encoding method, decoding method, device thereof, program, and recording medium thereof | |
RU2387023C2 (ru) | Многоканальный аудиокодер без потерь | |
RU2495502C2 (ru) | Многоканальный аудиокодек без потерь, который использует адаптивную сегментацию с возможностями точек произвольного доступа (rap) и множества наборов параметров предсказания (mpps) | |
US20050192799A1 (en) | Lossless audio decoding/encoding method, medium, and apparatus | |
US20120092197A1 (en) | Coding method, coding appartaus, decoding method, decoding apparatus, program, and recording medium | |
EP2270774A2 (en) | Lossless multi-channel audio codec | |
JP2004289196A (ja) | ディジタル信号符号化方法、復号化方法、符号化装置、復号化装置及びディジタル信号符号化プログラム、復号化プログラム | |
KR101015497B1 (ko) | 디지털 데이터의 부호화/복호화 방법 및 장치 | |
JP3811110B2 (ja) | ディジタル信号符号化方法、復号化方法、これらの装置、プログラム及び記録媒体 | |
JPH1020897A (ja) | 適応変換符号化方式および適応変換復号方式 | |
JP3387092B2 (ja) | 音声符号化装置 | |
JPH11109996A (ja) | 音声符号化装置、音声符号化方法及び音声符号化情報の記録された光記録媒体並びに音声復号装置 | |
JP3387094B2 (ja) | 音声符号化方法 | |
JP4351684B2 (ja) | ディジタル信号復号化方法、装置、プログラム及び記録媒体 | |
JP3387093B2 (ja) | 音声符号化方法 | |
JP4848049B2 (ja) | 符号化方法、復号方法、それらの装置、プログラム及び記録媒体 | |
JP4195598B2 (ja) | 符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、復号化プログラム | |
JP2004266587A (ja) | 時系列信号の符号化装置および記録媒体 | |
JP4249540B2 (ja) | 時系列信号の符号化装置および記録媒体 | |
JP4244222B2 (ja) | 音声符号化方法及び音声復号方法 | |
JP4151031B2 (ja) | 音声符号化方法及び音声復号方法 | |
JP4151033B2 (ja) | 音声符号化方法及び音声復号方法 | |
JP4244226B2 (ja) | 音声符号化方法及び音声復号方法 | |
JP4151030B2 (ja) | 音声符号化方法及び音声復号方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090110 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090110 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100110 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110110 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120110 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120110 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20180110 Year of fee payment: 15 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20180110 Year of fee payment: 15 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20180110 Year of fee payment: 15 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |