JP2005326862A

JP2005326862A - 音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体

Info

Publication number: JP2005326862A
Application number: JP2005141989A
Authority: JP
Inventors: Chang-Yong Son; 昌用孫; Hosang Sung; 昊相成; Ho-Chong Park; 浩棕朴; Byounghak Jeong; 炳學鄭; Youngvo Kim; 永寶金
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2004-05-13
Filing date: 2005-05-13
Publication date: 2005-11-24
Anticipated expiration: 2025-05-13
Also published as: EP1596365A1; EP1596365B1; US20060020453A1; KR101037931B1; KR20050108685A; DE602005021274D1; US8019600B2; JP5280607B2

Abstract

【課題】周波数領域で音声信号を圧縮及び復元することが可能な音声信号圧縮装置を提供する。
【解決手段】音声信号圧縮装置は、音声信号１０１を周波数領域に変換して周波数係数を取得する変換部１０２と、周波数係数１０３の大きさを変換し、変換された周波数係数１０３の大きさを量子化して、大きさ量子化インデックス１０５を取得する大きさ量子化部１０４と、周波数係数１０３の符号を量子化して、符号量子化インデックス１０８を取得する符号量子化部１０７と、大きさ量子化インデックス１０５及び符号量子化インデックス１０８から音声パケット１１０を生成するパケット化部１０９と、を備えている。
【選択図】図１

Description

本発明は、音声信号の符号化及び復号化に係り、特に、音声信号を周波数領域に変換して周波数係数情報を量子化し、かつ逆量子化する音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体に関する。

周波数変換に基づいて音声信号を圧縮して復元する技術は多く開発されており、基本的な圧縮構造は、周波数変換モジュール、帯域分割モジュール、ビット割り当てモジュール及び周波数係数量子化モジュールから構成されている。
周波数変換モジュールは、一定の長さ単位で音声信号を入力され、１単位の音声信号を１回の変換過程を通じて周波数領域に変換して周波数係数を求め、周波数係数量子化モジュールは、１単位の周波数係数を独立的に量子化する。
このとき、周波数変換単位が短ければ、音声信号の時間領域での相関関係を十分に活用できず、周波数変換の効果が減少し、かつ量子化性能が低下するという問題がある。
一方、周波数変換単位が長ければ、音声信号の時間領域での特性変化が消えて、周波数変換の効果が減少し、量子化性能が低下し、かつ圧縮過程の時間遅延及び計算量が増加するという問題がある。
言い換えれば、従来の圧縮構造は、量子化性能が周波数変換単位の長さによって左右されるので、最適の圧縮性能を得難いという問題点を有している。

また、音声信号の特性は経時的に変わり続け、特に非常に安定的に反復される特性を持つ区間と、不規則的に急に変わる特性を持つ区間とが存在する。
したがって、音声信号の時変特性を周波数変換過程に積極的に活用して、常に最適の周波数変換効果を得て、これより量子化性能を向上させて圧縮性能を極大化させる必要がある。

本発明は、周波数領域で音声信号を圧縮及び復元することが可能な音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体を提供することを課題とする。
また、本発明は、音声信号を短い単位に分解し、各単位を独立的に周波数変換して量子化することが可能な音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体を提供することを課題とする。
また、本発明は、短い単位の周波数変換で求めた周波数係数を、音声信号の時変特性を反映して２次元に配列することによって、量子化性能を向上させることが可能な音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体を提供することを課題とする。
また、本発明は、２次元配列を持つ周波数係数を再び２次元変換して処理することが可能な音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体を提供することを課題とする。
また、本発明は、２次元周波数係数を再び２次元変換する場合、音声信号の特性によって２次元変換の形態を調節して、音声信号の特性に最適の変換結果を得ることが可能な音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体を提供することを課題とする。
また、本発明は、周波数係数を量子化する時、周波数係数の大きさと符号とを分離して、それぞれを独立的に量子化することが可能な音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体を提供することを課題とする。

本発明は、前記課題を解決するため創案されたものであり、本発明の音声信号圧縮装置は、音声信号を周波数領域に変換して周波数係数を取得する変換部と、前記周波数係数の大きさを変換し、変換された周波数係数の大きさを量子化して、大きさ量子化インデックスを取得する大きさ量子化部と、前記周波数係数の符号を量子化して、符号量子化インデックスを取得する符号量子化部と、前記大きさ量子化インデックス及び前記符号量子化インデックスから音声パケットを生成するパケット化部と、を備えていることを特徴とする。

前記変換部は、前記音声信号を複数のサブフレームに分割し、前記サブフレームごとに音声信号を周波数領域に変換して、前記周波数係数を取得しても良い。

前記変換部は、サブフレームインデックス及び周波数インデックスを２次元に配列して、２次元配列を有する前記周波数係数を出力しても良い。

前記大きさ量子化部は、前記周波数係数から第１係数大きさを抽出する大きさ抽出部と、前記第１係数大きさを複数の周波数帯域に分割して、周波数帯域ごとに第２係数大きさを取得する帯域分割部と、前記第２係数大きさを変換して、第３係数大きさを取得する大きさ変換部と、前記第３係数大きさを１次元に配列して、第４係数大きさを取得する１次元配列部と、前記第４係数大きさのＤＣ値を量子化して、量子化されたＤＣ値を取得するＤＣ値量子化部と、前記第４係数大きさのＲＭＳ値を量子化して、量子化されたＲＭＳ値を取得するＲＭＳ値量子化部と、前記量子化されたＲＭＳ値を利用して前記第４係数大きさを正規化し、第５係数大きさを取得する正規化部と、前記第５係数大きさを量子化する大きさ量子化部と、前記大きさ量子化器のビット数を割り当てるビット割り当て部と、を備えていても良い。

前記大きさ抽出部は、２次元配列を有する前記周波数係数から、２次元配列を有する前記第１係数大きさを抽出しても良い。

前記帯域分割部は、２次元配列を有する前記第１係数大きさの周波数軸を複数の周波数帯域に分割しても良い。

前記大きさ変換部は、２次元配列を有する前記第２係数大きさについて前記周波数帯域ごとに変換を行い、前記第３係数大きさを取得しても良い。

前記大きさ変換部は、２次元離散コサイン変換を行っても良い。

前記大きさ変換部は、２次元配列を有する前記第２係数大きさがＮ×Ｐ（ここで、Ｎはサブフレームの数、Ｐは各周波数帯域に存在する周波数係数）サイズを有する場合に、少なくとも一つのサブフレームが含まれるように、前記Ｎ×Ｐサイズを少なくとも一つの２次元配列に分割し、各分割された前記２次元配列を２次元変換し、前記周波数帯域ごとに複数の第３係数大きさを取得しても良い。

前記大きさ変換部は、前記音声信号の特性によって、前記Ｎ×Ｐサイズを少なくとも一つの２次元配列に分割するための分割形式を選択しても良い。

前記１次元配列部は、各前記第３係数大きさの平均エネルギーを取得し、前記第３係数大きさを前記平均エネルギーの順に配列しても良い。

前記１次元配列部は、前記音声信号の特性によって、複数の配列変換規則のうち一つを選択しても良い。

前記ＤＣ値量子化部、前記ＲＭＳ値量子化部及び前記大きさ量子化部は、前記第４係数大きさのＤＣ値及び残りの値を別々に量子化しても良い。

前記大きさ量子化部は、前記第４係数大きさのうち一部の第４係数大きさを量子化しなくても良い。

前記ビット割り当て部は、前記第４係数大きさの各周波数インデックスに対して、前記周波数帯域の重要度に基づいて、異なる数のビットを割り当てても良い。

前記符号量子化部は、前記大きさ量子化部から提供される周波数係数の大きさ順序情報に基づいて、前記周波数係数の符号を量子化しても良い。

前記符号量子化部は、前記大きさ量子化部から提供される量子化された係数大きさのうち、所定の係数大きさに該当する前記周波数係数の符号を量子化しても良い。

また、本発明の音声信号復元装置は、圧縮された音声パケットを逆パケット化して、符号量子化インデックス及び大きさ量子化インデックスを取得する逆パケット化部と、前記符号量子化インデックスを逆量子化して、係数符号を取得する符号逆量子化部と、前記大きさ量子化インデックスを逆量子化して、第１係数大きさを取得する大きさ逆量子化部と、前記第１係数大きさを２次元に配列して、第２係数大きさを取得する２次元配列部と、前記第２係数大きさを逆変換して、第３係数大きさを取得する第１逆変換部と、前記第３係数大きさに前記係数符号を挿入して、周波数係数を取得する符号挿入部と、前記周波数係数を複数のサブフレームに分割するサブフレーム分割部と、前記サブフレームごとに周波数係数を逆変換して、時間領域信号を取得する第２逆変換部と、を備えていることを特徴とする。

音声信号復元装置は、伝送路を介して伝送されていない係数符号を予測する符号予測部をさらに備えていても良い。

また、本発明の音声信号圧縮方法は、音声信号を周波数領域に変換して、周波数係数を取得する変換ステップと、前記周波数係数の大きさを変換し、変換された周波数係数の大きさを量子化して、大きさ量子化インデックスを取得する大きさ量子化ステップと、前記周波数係数の符号を量子化して、符号量子化インデックスを取得する符号量子化ステップと、前記大きさ量子化インデックス及び前記符号量子化インデックスから音声パケットを生成するパケット化ステップと、を含むことを特徴とする。

前記変換ステップでは、前記音声信号を複数のサブフレームに分割し、前記サブフレームごとに音声信号を周波数領域に変換して、前記周波数係数を取得しても良い。

前記変換ステップでは、サブフレームインデックス及び周波数インデックスを２次元に配列して、２次元配列を有する前記周波数係数を出力しても良い。

前記大きさ量子化ステップは、前記周波数係数から抽出される第１係数大きさを複数の周波数帯域に分割して、周波数帯域ごとに第２係数大きさを取得し、前記第２係数大きさを変換して第３係数大きさを取得し、前記第３係数大きさを１次元に配列して、第４係数大きさを取得するステップと、前記第４係数大きさのＤＣ値及び前記第４係数大きさのＲＭＳ値をそれぞれ量子化して、量子化されたＤＣ値及び量子化されたＲＭＳ値を取得するステップと、前記量子化されたＲＭＳ値を利用して前記第４係数大きさを正規化し、第５係数大きさを取得するステップと、ビット割り当て情報に基づいて前記第５係数大きさを量子化するステップと、を含んでいても良い。

前記第１係数大きさは、２次元配列を有する前記周波数係数から抽出され、２次元配列を有していても良い。

前記第１係数大きさは２次元配列を有しており、周波数軸を複数の周波数帯域に分割しても良い。

２次元配列を有する前記第２係数大きさについて周波数帯域ごとに２次元離散フーリエ変換を行い、前記第３係数大きさを取得しても良い。

２次元配列を有する前記第２係数大きさがＮ×Ｐ（ここで、Ｎはサブフレームの数、Ｐは各周波数帯域に存在する周波数係数）サイズを有する場合に、少なくとも一つのサブフレームが含まれるように、前記Ｎ×Ｐサイズを少なくとも一つの２次元配列に分割し、各分割された前記２次元配列を２次元変換し、前記周波数帯域ごとに複数の第３係数大きさを取得しても良い。

前記音声信号の特性によって、前記Ｎ×Ｐサイズを少なくとも一つの２次元配列に分割するための分割形式を選択しても良い。

各前記第３係数大きさの平均エネルギーを取得し、前記第３係数大きさを前記平均エネルギーの順に配列しても良い。

前記音声信号の特性によって、複数の配列変換規則のうち一つを選択しても良い。

前記ＤＣ値の量子化、前記ＲＭＳ値の量子化及び前記周波数係数の大きさの量子化は、前記第４係数大きさのＤＣ値及び残りの値を別々に量子化しても良い。

前記第４係数大きさのうち一部の第４係数大きさを量子化しなくても良い。

前記ビット割り当て情報は、前記第４係数大きさの各周波数インデックスに対して、前記周波数帯域の重要度によって異なる値を有しても良い。

前記符号量子化ステップでは、前記大きさ量子化ステップで取得された周波数係数の大きさ順序情報に基づいて、前記周波数係数の符号を量子化しても良い。

前記符号量子化ステップでは、前記大きさ量子化ステップで取得された量子化された係数大きさのうち、所定の係数大きさに該当する前記周波数係数の符号を量子化しても良い。

また、本発明の音声信号復元方法は、圧縮された音声パケットを逆パケット化して、符号量子化インデックス及び大きさ量子化インデックスを取得するステップと、前記符号量子化インデックスを逆量子化して、係数符号を取得するステップと、前記大きさ量子化インデックスを逆量子化して、第１係数大きさを取得するステップと、前記第１係数大きさを２次元に配列して、第２係数大きさを取得するステップと、前記第２係数大きさを逆変換して、第３係数大きさを取得するステップと、前記第３係数大きさに前記係数符号を挿入して、周波数係数を取得するステップと、前記周波数係数をサブフレームごとに分割するステップと、前記サブフレームごとに周波数係数を逆変換して、時間領域信号を取得するステップと、を含むことを特徴とする。

音声信号復元方法は、伝送路を介して伝送されていない係数符号を予測するステップをさらに含んでいても良い。

また、本発明は、前記音声信号圧縮方法をコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体であっても良く、前記音声信号復元方法をコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体であっても良い。

本発明によれば、周波数変換及び周波数係数の量子化を通じて、音声信号を圧縮及び復元することができる。

また、本発明によれば、周波数変換を短い長さ単位で実施し、音声信号の時変特性を反映して、複数の周波数係数を２次元に配列し、再び２次元変換を行って量子化に有利な係数を求めることができる。

また、本発明によれば、複数のサブフレーム情報を多様な形態のグループにまとめ、入力された音声信号の特性に最も適した２次元変換を行って、量子化性能を向上できる。

また、本発明によれば、周波数係数を大きさと符号とに分けて量子化し、符号の量子化を係数の大きさによって選別的に実施し、一部の符号についての情報を伝達せずとも、伝送されていない符号についての予測を通じて効率的に復元できる。

以下、添付された図面を参照して、本発明の実施形態に係る音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体について詳細に説明する。

本発明の実施形態に係る音声信号圧縮装置及び方法ならびに音声信号復元装置及び方法は、一つの独立した音声信号圧縮装置及び音声信号復元装置の動作に限定されず、音声符号化装置及び音声復号化装置の一部分として動作でき、多様な形態の音声信号を圧縮及び復元することができる。
本発明で取り扱う音声信号は、狭域または広域などの多様な帯域幅を持つ原音声信号、特定周波数帯域に限定された帯域通過音声信号、原音声信号に多様な前処理過程を適用して得られた前処理された音声信号などをいずれも含むことができ、あらゆる形態の音声信号を同一の動作及び概念によって、同様な過程によって圧縮及び復元できる。
本発明の一実施形態では、１６ｋＨｚでサンプリングされた広域音声信号を低域信号と高域信号とに分解した後、高域信号を、本発明の実施形態に係る音声信号圧縮及び方法ならびに音声信号復元装置及び方法の入力として印加することを基準として説明し、低域信号を処理する別途のモジュールで、低域信号の圧縮過程で計算される情報が、本発明による音声信号の圧縮及び復元装置に伝達されると仮定する。

図１は、本発明の一実施形態に係る音声信号圧縮装置を示す機能ブロック図である。図１に示すように、音声信号圧縮装置は、変換部１０２、大きさ量子化部１０４、符号量子化部１０７及びパケット化部１０９を備えている。

変換部（transform unit）１０２は、複数のフレームに分けられる音声信号（speech signal）１０１を入力され、１フレームの音声信号を周波数領域に変換して、周波数係数（frequency coefficient（s））１０３を出力する。

大きさ量子化部（magnitude quantization unit）１０４は、変換部１０２で求められた周波数係数１０３の大きさ、例えば、絶対値を量子化し、大きさ量子化インデックス（magnitude quantization index（indices））１０５を出力する。また、大きさ量子化部１０４は、他のモジュールで求められた音声信号１０１についての追加情報（some additional information）１１１を利用できる。

符号量子化部（sign quantization unit）１０７は、変換部１０２で求められた周波数係数１０３の符号を量子化し、符号量子化インデックス（sign quantization index（indices））１０８を出力する。符号量子化部１０７は、符号量子化過程で、大きさ量子化部１０４から出力された大きさ量子化インデックス１０５を活用する。

パケット化部（packetizing unit）１０９は、１フレームの音声信号１０１についての大きさ量子化インデックス１０５及び符号量子化インデックス１０８を入力されて、所定形態の音声パケット１１０を生成して、伝送ライン（図示せず）に伝送する。

図２は、図１の変換部を示す詳細ブロック図である。図２に示すように、変換部１０２は、サブフレーム分割部２０１、複数の周波数変換部２０３及び２次元配列部２０５を備えている。

サブフレーム分割部２０１は、１フレームの音声信号１０１を複数のサブフレーム信号（sub-frame signal（s））２０２に分割する。

複数の周波数変換部（frequency transformers）２０３は、それぞれ１フレームを構成する各サブフレーム信号２０２を独立的に周波数領域に変換して、周波数係数（frequency coefficient（s））２０４を出力する。

２次元配列部（two-dimensional arrangement unit）２０５は、各サブフレーム信号２０２について求められた周波数係数２０４を入力されて、２次元に配列し、２次元配列を有する周波数係数１０３を出力する。このとき、最初のサブフレームに該当する周波数係数をｆｒｅｑ［０］［ｋ］，（ただし、ｋ＝０，１，…，Ｍ−１）と表示し、第２のサブフレームに該当する周波数係数をｆｒｅｑ［１］［ｋ］と表示し、最後のサブフレームに該当する周波数係数をｆｒｅｑ［Ｎ−１］［ｋ］と表示する。ここで、Ｎは、サブフレームの数であり、Ｍは、一つのサブフレームに含まれるサンプル数である。したがって、周波数係数１０３は、Ｎ×Ｍのサイズを有する２次元配列として表すことができる。言い換えると、ｆｒｅｑ［ｓｕｂｆｒａｍｅ］［ｋ］において、インデックス「ｓｕｂｆｒａｍｅ」は、サブフレームによる時間進行を表し、インデックス「ｋ」は、周波数インデックスに該当する。

本発明の一実施形態において、１フレームのサイズは３０msecであり、サブフレーム分割部２０１は、１フレームの音声信号を５msec単位に分割して６個のサブフレーム信号２０２を出力する。続いて、サブフレーム分割部２０１は、６個のサブフレーム信号２０２についてそれぞれ周波数変換過程を行って、周波数係数２０４を出力できる。
したがって、２次元配列において、Ｎ＝６、Ｍ＝４０となる。全体周波数領域が４ｋＨｚ〜８ｋＨｚである場合、２次元配列を有する第１周波数係数１０３、すなわち、ｆｒｅｑ［ｓｕｂｆｒａｍｅ］［ｋ］でｋ＝０が４ｋＨｚに該当し、ｋが１ずつ増加するにつれて、該当する周波数は１００Ｈｚずつ増加する。

一方、複数の周波数変換部２０３は、公知の種々の数学的方法を使用でき、本発明の一実施形態では、ＭＬＴ（Modulated Lapped Transform）を使用する。入力された音声信号についてＭＬＴ係数を求める過程は、公知の種々の方法による。

図３は、図１の大きさ量子化部を示す詳細ブロック図である。図３に示すように、大きさ量子化部１０４は、大きさ抽出部３０１、帯域分割部３０３、大きさ変換部３０５、１次元配列部３０７、ＤＣ値量子化部３０９、ＲＭＳ値量子化部３１２、正規化部３１５、大きさ量子化部３１７及びビット割り当て部３１９を備えている。

大きさ抽出部（magnitude extractor）３０１は、２次元配列を持つ周波数係数１０３を入力され、２次元配列を有する第１係数大きさ（first coefficient magnitude（s））３０２を抽出する。

帯域分割部（band divider）３０３は、２次元配列を有する第１係数大きさ３０２を入力されて、複数の周波数帯域（以下、単に帯域ともいう。）に分割し、３次元配列を有する帯域ごとの第２係数大きさ（second coefficient magnitude（s））３０４を出力する。第２係数大きさは、ｆｒｅｑ＿ｍａｇ［ｂａｎｄ］［ｓｕｂｆｒａｍｅ］［ｋ］として表記される。
ここで、インデックス「ｂａｎｄ」は、周波数帯域を表し、インデックス「ｓｕｂｆｒａｍｅ」は、サブフレームを表し、インデックス「ｋ」は、帯域ごとの周波数インデックスを表し、ｋの範囲は、帯域分割部３０３の帯域分割構造によって決定される。以下では、説明の簡略化のために、一つの周波数帯域についてのみその作用を説明する。一方、帯域ごとの第２係数大きさ３０４を周波数帯域ごとに独立的に説明する場合、または、一つの周波数帯域についてのみ説明する場合には、インデックス「ｂａｎｄ」が固定されるので、２次元配列を有する。したがって、以下、帯域ごとの第２係数大きさ３０４は、２次元配列を持つと仮定する。また、サブフレームの数をＮとし、周波数帯域ごとにＰ個の周波数係数があると仮定する。帯域分割部３０３の動作によって、周波数帯域ごとに周波数係数の数が異なることがあるが、説明の便宜上、あらゆる周波数帯域がＰ個の周波数係数を持つと仮定し、周波数帯域ごとの周波数係数の数が異なる場合にも、その構造及び作用は同一に適用される。したがって、帯域ごとの第２係数大きさ３０４は、サブフレーム及び周波数インデックスを、それぞれ時間軸及び周波数軸として持つＮ×Ｐサイズの２次元配列で構成される。

大きさ変換部（transformer）３０５は、２次元配列の帯域ごとの第２係数大きさ３０４を複数の２次元配列に分割し、分割された複数の２次元配列を２次元変換して、複数の第３係数大きさ（third coefficient magnitude（s））３０６を出力する。これを、図８Ａないし図８Ｃを参照してさらに詳細に説明する。

図８Ａないし図８Ｃは、図３の変換部における、多様な方法で行われた分割の例を説明するための図である。図８Ａは、特定周波数帯域における、２次元配列を有する第２係数大きさ３０４を示し、それぞれのセルは一つの第２係数大きさを表しており、Ｎ＝Ｐ＝４である場合を示している。ここで、１つのフレーム内にＮ個のサブフレームが存在する場合において、Ｎ個のサブフレームを１グループにまとめる（分割する）ときには、図８Ａに示すように、Ｎ×Ｐサイズについて変換を行って、Ｎ×Ｐサイズの第３係数大きさを求める。
また、Ｎ個のサブクレームを２グループにまとめる（分割する）ときには、図８Ｂに示すように、２×Ｐサイズについての変換と、（Ｎ−２）×Ｐサイズについての変換とをそれぞれ行って、２×Ｐサイズの第３係数大きさと、（Ｎ−２）×Ｐサイズの第３係数大きさとを求める。
また、Ｎ個のサブフレームをＮグループにまとめる（分割する）とき、すなわち、Ｎ個のサブフレームのそれぞれを一つのグループと見なすときには、図８Ｃに示すように、１×Ｐサイズについての変換をＮ回行って、１×Ｐサイズの第３係数大きさをＮ個求める。

このように、サブフレーム間の相関関係を活用するために、帯域ごとの第２係数大きさを、少なくとも一つのサブフレームを含むグループにまとめる方法は、あらゆるフレームについて一つの方法で固定させることができる。また、前記方法は、音声信号の時間的エネルギー変化特性のような、入力された音声信号１０１の特性によって可変的に決定でき、この時、音声信号１０１の特性によってグループの形態を決定する基準は、既存のいろいろな技術を活用して決定できる。

以下では、図８Ａに示すように、全体でＮ個のサブフレームを一つのグループにまとめ、Ｎ×Ｐサイズについての２次元変換を１回行う場合に限定して説明する。なお、図８Ｂ及び図８Ｃに示すように、全体でＮ個のサブフレームを二以上のグループにまとめる場合であっても、同じ概念及び演算に基づく処理をそれぞれのグループに適用し、グループごとの第３係数大きさの量子化を独立的に行うことができる。

大きさ変換部３０５は、Ｎ×Ｐサイズを有する１つのグループについての２次元変換を１回行い、帯域ごとにＮ×Ｐサイズの第３係数大きさを出力し、これをｄｃｔ［ｂａｎｄ］［ｎ］［ｍ］と表示する。大きさ変換部３０５における２次元変換を通じて、帯域ごとに時間軸及び周波数軸の相関関係が同時に考慮されて、帯域ごとに２次元配列ｆｒｅｑ＿ｍａｇ［ｂａｎｄ］［ｓｕｂｆｒａｍｅ］［ｋ］に広がっているエネルギーが、狭い領域に集中する現象（エネルギー集中現象）が現れる。すなわち、帯域ごとにＮ×Ｐサイズの第３係数大きさｄｃｔ［ｂａｎｄ］［ｎ］［ｍ］のうち、ｎ及びｍの小さな領域に多くのエネルギーが集中する。

本発明に係る一実施形態において、大きさ変換部３０５は、２次元離散コサイン変換（Discrete Cosine Transform：ＤＣＴ）を用いて変換を行う。

１次元配列部（one-dimensional arrangement unit）３０７は、帯域ごとの第３係数大きさ３０６を１次元に配列して、帯域ごとの第４係数大きさ（fourth coefficient magnitude（s））３０８を出力する。１次元配列部３０７は、所定の配列規則に基づいて、Ｎ×Ｐサイズの第３係数大きさ３０６、すなわち、ｄｃｔ［ｂａｎｄ］［ｎ］［ｍ］を帯域ごとにＮ×Ｐ長さの第４係数大きさ３０８に配列する。帯域ごとの第４係数大きさ３０８は、ｄｃｔ＿１［ｂａｎｄ］［ｐ］と表される。１次元配列部３０７は、単純に２次元配列を１次元配列に変換する動作を行う。したがって、係数大きさの値は変化しない。以下、１次元配列部３０７の配列変換規則の一例について説明する。

１次元配列部３０７は、帯域ごとに第３係数大きさ３０６、すなわち、ｄｃｔ［ｂａｎｄ］［ｎ］［ｍ］を、平均エネルギーの大きい順に１次元に配列して、第４係数大きさ３０８を出力する。このとき、帯域ごとにＮ×Ｐサイズの第３係数大きさ３０６について、あらかじめ経験及びシミュレーションによって各位置における係数大きさの平均エネルギーを求め、平均エネルギーの大きい順にＮ×Ｐ長さの第４係数大きさ３０８を出力する。１次元配列部３０７の配列変換規則は、音声信号圧縮装置の設計ステージであらかじめ決定されても良く、入力された音声信号１０１の特性によって、複数の配列変換規則のうち一つを選択して使用しても良い。また、音声信号圧縮装置及び音声信号復元装置の両方が、同じ配列変換規則を有しているので、ｄｃｔ［ｂａｎｄ］［ｎ］［ｍ］及びｄｃｔ＿１［ｂａｎｄ］［ｐ］間の配列変換は、追加情報なしに定義可能である。一般的に、ｄｃｔ［ｂａｎｄ］［ｎ］［ｍ］において最大となる平均エネルギーを持つ位置では、ｎ＝ｍ＝０が成立するので、ｄｃｔ＿１［ｂａｎｄ］［０］＝ｄｃｔ［ｂａｎｄ］［０］［０］となる。

ＤＣ値量子化部（Direct Current value quantizer）３０９は、１次元配列部３０７から提供される第４係数大きさ３０８のうち、ＤＣ値に対応する第１のインデックスであるｄｃｔ＿１［ｂａｎｄ］［０］を量子化して、ＤＣ量子化インデックス３１０及び量子化されたＤＣ値３１１を出力する。ＤＣ値量子化部３０９は、隣接する周波数帯域のＤＣ値間の相関関係を活用するために、全帯域の全ＤＣ値を集めて処理することができる。本発明に係る一実施形態において、ＤＣ値量子化部３０９は、低域音声信号圧縮装置の圧縮過程で算出された低域信号のエネルギー情報（energy information）１１１を活用することができる。また、低域信号をコード励振線形予測符号化（Code Excited Linear Prediction：ＣＥＬＰ）タイプの音声信号圧縮装置で処理する場合には、低域信号の量子化された固定コードブックの利得を、エネルギー情報１１１として使用することができる。

ＲＭＳ値量子化部（Root-Mean-Square value quantizer）３１２は、帯域ごとに第４係数大きさ３０８のうち、ＤＣ値を除外した残りの第３係数大きさ、すなわち、ｄｃｔ＿１［ｂａｎｄ］［１］〜ｄｃｔ＿１［ｂａｎｄ］［Ｎ＊Ｐ−１］のＲＭＳ値を算出して量子化し、ＲＭＳ量子化インデックス３１３及び量子化されたＲＭＳ値３１４を出力する。各帯域のＲＭＳ値は、該当帯域のＤＣ値と高い相関関係を持つので、このような性質を活用して量子化することができる。また、各帯域のＲＭＳ値間の相関関係も同時に活用して量子化することができる。本発明の一実施形態では、各帯域の量子化されたＤＣ値３１１からＲＭＳ値を予測して量子化する。

正規化部（normalizer）３１５は、帯域ごとに量子化されたＲＭＳ値３１４を利用して、該当帯域の第４係数大きさ３０８を正規化する。このとき、ＤＣ値は、ＤＣ値量子化部３０９で既に量子化されているので、ＤＣ値を除外した残りの第４係数大きさのみ正規化し、正規化された第５係数大きさ３１６を出力し、これをｄｃｔ＿ｎｏｒｍ［ｂａｎｄ］［ｐ］と表示する。正規化部３１５は、通常、帯域ごとの第４係数大きさ３０８を、帯域ごとに量子化されたＲＭＳ値３１４で割って、正規化された第５係数大きさ３１６を求める。

大きさ量子化部（magnitude quantizer）３１７は、帯域ごとに正規化された第５係数大きさ３１６を独立的に量子化して、帯域ごとの大きさ量子化インデックス３１８を出力する。大きさ量子化部３１７は、帯域ごとに正規化された第５係数大きさ３１６についてベクトル量子化を行うことができ、ベクトル量子化は、計算量及びメモリを考慮した分割ベクトル量子化（Split Vector Quantization：ＳＶＱ）で実現可能である。

ビット割り当て部（bit allocator）３１９は、大きさ量子化部３１７のためのビット割り当て情報３２０を決定して出力する。ビット割り当て部３１９は、各帯域の特性を分析して各帯域に割り当てられるビット数を決定し、もし、大きさ量子化部３１７がベクトル量子化を行う場合、各帯域内の分割されたサブベクトルに割り当てられたビット数を細部的に決定して出力する。

本発明の一実施形態で、ビット割り当て規則は、各帯域のｄｃｔ＿ｎｏｒｍ［ｂａｎｄ］［ｐ］で、インデックスｐの小さなサブベクトルにさらに多くのビットを割り当て、特定サブベクトルに０（ｚｅｒｏ）ビットを割り当てて、係数を伝達せずに捨てられるようにする。このようなビット割り当て規則は、１次元配列部３０７の配列変換規則によって、第４係数大きさ３０８の平均エネルギーは、主に小さなｐ値を持つインデックスに存在し、大きいｐ値を持つインデックスには非常に少ない平均エネルギーのみ存在する現象によるものである。また、帯域の重要度によって、順位の低い帯域には少数のビットを割り当てることができ、この時、帯域重要度を決定するために、量子化されたＤＣ値３１１及び量子化されたＲＭＳ値３１４を利用できる。

図１の大きさ量子化部１０４から提供される大きさ量子化インデックス１０５は、ＤＣ量子化インデックス３１０、ＲＭＳ量子化インデックス３１３、帯域ごとの大きさ量子化インデックス３１８などを含む。

本発明の一実施形態によれば、高域信号の全体８ｋＨｚ帯域のうち７ｋＨｚまでの情報のみ量子化して伝送し、これにより、周波数係数情報のうち７ｋＨｚに該当する係数ｆｒｅｑ＿ｍａｇ［ｓｕｂｆｒａｍｅ］［２９］までのみ量子化する。また、４ｋＨｚ−７ｋＨｚ領域を５個の６００Ｈｚ帯域に分解する。これにより、帯域ごとの第３係数大きさ３０６のサイズは６×６であり、第４係数大きさ３０８の長さは３６であり、ＤＣ値を除外した実際にベクトル量子化する第４係数大きさは、帯域ごとに３５個である。このとき、ＳＶＱのための分割形式及び帯域順位によるサブベクトルのビット数は、次の表１によって定義される。

図４は、図１の符号量子化部を示す詳細ブロック図である。図４に示すように、符号量子化部１０７は、符号抽出部４０１、大きさ逆量子化部４０３、大きさ整列部４０５及び符号量子化部４０７を備えている。

符号抽出部（sign extractor）４０１は、周波数係数１０３から符号を抽出して、係数符号４０２を出力する。

大きさ逆量子化部（magnitude dequantizer）４０３は、図１の大きさ量子化部１０４から提供される大きさ量子化インデックス１０５をパラメータごとに逆量子化して、量子化された係数大きさ４０４を出力する。大きさ逆量子化部４０３の具体的な動作は、図３の大きさ量子化部１０４によって定義され、公知の技術によって行われる。

大きさ整列部（magnitude arrangement unit）４０５は、量子化された係数大きさ４０４を入力されて大きさ順に整列して、大きさ順序情報４０６を出力する。大きさ順序情報４０６は、量子化された係数大きさ４０４で、各係数大きさが全体のうち何番目に大きい値であるかを表す。

符号量子化部（sign quantizer）４０７は、大きさ順序情報４０６に基づいて、全体量子化された係数大きさ４０４のうち、その値の大きい第１係数大きさをあらかじめ指定された数ほど選択し、選択された係数大きさに対応する係数符号のみ量子化して、符号量子化インデックス１０８に出力する。

本発明の一実施形態で、符号量子化部４０７は、各符号を１ビットで量子化し、量子化された係数大きさ４０４は総１８０個であり、１８０個のうち大きさの大きい９２個の周波数係数に該当する符号のみ量子化して伝達し、残りの８８個の符号情報は伝達しない。

図５は、本発明の一実施形態に係る音声信号復元装置を示す機能ブロック図である。図５に示すように、音声信号復元装置は、逆パケット化部５０２、大きさ逆量子化部５０４、２次元配列部５０６、第１逆変換部５０８、符号逆量子化部５１１、符号挿入部５１３、符号予測部５１５、サブフレーム分割部５１７及び第２逆変換部５１９を備えている。

逆パケット化部（inverse packetizing unit）５０２は、伝送ライン（図示せず）から音声パケット５０１を入力されて、大きさ量子化インデックス５０３及び符号量子化インデックス５１０を出力する。

大きさ逆量子化部（magnitude dequantizer）５０４は、大きさ量子化インデックス５０３を逆量子化して、第１係数大きさ５０５を出力する。大きさ逆量子化部５０４の具体的な動作は、図３の第１大きさ量子化部１０４によって定義され、第１係数大きさ５０５は、図３の第４係数大きさ３０８の量子化された値に該当する。

２次元配列部（two-dimensional arrangement unit）５０６は、第１係数大きさ５０５を入力されて２次元に配列し、第２係数大きさ５０７を出力する。２次元配列部５０６は、図３の１次元配列部３０７と逆の動作を行う。

第１逆変換部（first inverse transformer）５０８は、第２係数大きさ５０７について２次元逆変換過程を行って、第３係数大きさ５０９を出力する。第１逆変換部５０８は、図３の大きさ変換部３０５と逆の動作を行う。

符号逆量子化部（sign dequantizer）５１１は、符号量子化インデックス５１０を逆量子化して係数符号５１２を出力する。

符号挿入部（sign insertion unit）５１３は、第３係数大きさ５０９に係数符号５１２を挿入して、周波数係数５１４を出力する。図４の符号量子化部１０７から一部の符号が伝送されない場合には、符号予測部５１５が伝送されていない符号を予測して、最終周波数係数５１６を出力する。

符号予測部（sign prediction unit）５１５は、符号が伝送されていない周波数成分ごとに、フレーム境界での不連続を最小にするように符号を定める方法を使用できる。本発明の他の実施形態では、伝送されていない符号について、符号予測部５１５が不規則的に符号を任意に求めて使用できる。

サブフレーム分割部（sub-frame divider）５１７は、２次元配列を有する最終周波数係数５１６を入力されて、サブフレームごとに分割された周波数係数５１８を出力する。

第２逆変換部（second inverse transformer）５１９は、サブフレームごとの周波数係数５１８を入力されて、サブフレームごとに時間領域信号５２０を出力する。第２逆変換部５１９は、図１の変換部１０２と逆の動作を行う。

図６は、本発明の一実施形態に係る音声信号圧縮方法のフローチャートである。

図６に示すように、ステップＳ６０１では、入力された音声信号を、図２のサブフレーム分割部２０１を利用して複数のサブフレームに分割し、図３のように、サブフレームごとに独立的に周波数変換して、２次元配列を持つ周波数係数１０３を取得する（求める）。

ステップＳ６０２では、周波数係数１０３から第１係数大きさ３０２を抽出し、第１係数大きさ３０２を複数の帯域に分割し、図３のように、帯域ごとに２次元配列を持つ第２係数大きさ３０４を取得する。

ステップＳ６０３では、図３の帯域ごとの第２係数大きさ３０４を複数の２次元配列に分割し、分割された２次元配列を２次元変換して、帯域ごとの第３係数大きさ３０６を取得する。

ステップＳ６０４では、帯域ごとの第３係数大きさ３０６を１次元に配列して、帯域ごとの第４係数大きさ３０８を取得する。

ステップＳ６０５では、帯域ごとの第４係数大きさ３０８について、ＤＣ値量子化及びＲＭＳ値量子化を行い、正規化された第５係数大きさ３１６について、大きさ量子化を行う。

Ｓステップ６０６では、図４のように、周波数係数１０３の符号を量子化して伝送する。このとき、量子化された周波数係数の大きさ順序情報を活用して、大きさの大きい所定の周波数係数に該当する符号のみ伝送する。

図７は、本発明の一実施形態に係る音声信号復元方法のフローチャートである。

図７に示すように、ステップＳ７０１では、伝送ライン（図示せず）を通じて受信した音声パケットをパラメータごとに逆量子化し、帯域ごとに係数符号及び１次元配列の係数大きさを取得する（求める）。

ステップＳ７０２では、１次元配列の係数大きさを２次元に配列し、２次元逆変換を通じて帯域ごとに係数大きさを取得する。

ステップＳ７０３では、帯域ごとに係数大きさに係数符号を挿入し、伝送されていない係数符号を予測して、２次元配列の周波数係数を取得する。

ステップＳ７０４では、２次元配列の周波数係数をサブフレームごとに分割して、各サブフレームの周波数係数を取得し、サブフレームごとに周波数を逆変換して時間領域信号を取得する。

本発明はまた、コンピュータ読取可能なコード（プログラム）、または当該コードを記録したコンピュータ読取可能な記録媒体として実現することが可能である。コンピュータ読取可能な記録媒体は、コンピュータシステムによって読み取られるデータが保存されるあらゆる記録装置を含む。コンピュータ読取可能な記録媒体の例には、ＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データ保存装置などがあり、また、キャリアウェーブ（例えば、インターネットを通じた伝送）の形で実現されるものも含む。また、コンピュータ読取可能な記録媒体は、ネットワークに連結されたコンピュータシステムに分散されて、分散方式でコンピュータ読取可能なコードが保存されても良い。そして、本発明を実現するための機能的なプログラム、コード及びコードセグメントは、本発明が属する技術分野のプログラマーにより容易に推論できる。

本発明について、前記実施形態を参考として説明したが、これは例示的なものに過ぎず、当業者ならば、これより多様な変形及び均等な他の実施形態が可能であるという点を理解可能である。したがって、本発明の真の技術的保護範囲は、特許請求の範囲によって定義された技術的思想により定められなければならない。

音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体は、音声信号を圧縮し、それを復元するときに好適に使われる。

本発明の一実施形態に係る音声信号圧縮装置を示す機能ブロック図である。図１の変換部を示す詳細ブロック図である。図１の大きさ量子化部を示す詳細ブロック図である。図１の符号量子化部を示す詳細ブロック図である。本発明の一実施形態に係る音声信号復元装置を示す機能ブロック図である。本発明の一実施形態に係る音声信号圧縮方法のフローチャートである。本発明の一実施形態に係る音声信号復元方法のフローチャートである。図３の変換部における、多様な方法で行われた分割の例を説明するための図である。図３の変換部における、多様な方法で行われた分割の例を説明するための図である。図３の変換部における、多様な方法で行われた分割の例を説明するための図である。

符号の説明

１０１音声信号
１０２変換部
１０３周波数係数
１０４大きさ量子化部
１０５大きさ量子化インデックス
１０７符号量子化部
１０８符号量子化インデックス
１０９パケット化部
１１０音声パケット
１１１追加情報

Claims

音声信号を周波数領域に変換して周波数係数を取得する変換部と、
前記周波数係数の大きさを変換し、変換された周波数係数の大きさを量子化して、大きさ量子化インデックスを取得する大きさ量子化部と、
前記周波数係数の符号を量子化して、符号量子化インデックスを取得する符号量子化部と、
前記大きさ量子化インデックス及び前記符号量子化インデックスから音声パケットを生成するパケット化部と、
を備えていることを特徴とする音声信号圧縮装置。
前記変換部は、前記音声信号を複数のサブフレームに分割し、前記サブフレームごとに音声信号を周波数領域に変換して、前記周波数係数を取得することを特徴とする請求項１に記載の音声信号圧縮装置。
前記変換部は、サブフレームインデックス及び周波数インデックスを２次元に配列して、２次元配列を有する前記周波数係数を出力することを特徴とする請求項１または請求項２に記載の音声信号圧縮装置。
前記大きさ量子化部は、
前記周波数係数から第１係数大きさを抽出する大きさ抽出部と、
前記第１係数大きさを複数の周波数帯域に分割して、周波数帯域ごとに第２係数大きさを取得する帯域分割部と、
前記第２係数大きさを変換して、第３係数大きさを取得する大きさ変換部と、
前記第３係数大きさを１次元に配列して、第４係数大きさを取得する１次元配列部と、
前記第４係数大きさのＤＣ値を量子化して、量子化されたＤＣ値を取得するＤＣ値量子化部と、
前記第４係数大きさのＲＭＳ値を量子化して、量子化されたＲＭＳ値を取得するＲＭＳ値量子化部と、
前記量子化されたＲＭＳ値を利用して前記第４係数大きさを正規化し、第５係数大きさを取得する正規化部と、
前記第５係数大きさを量子化する大きさ量子化部と、
前記大きさ量子化器のビット数を割り当てるビット割り当て部と、
を備えていることを特徴とする請求項１から請求項３のいずれか一項に記載の音声信号圧縮装置。
前記大きさ抽出部は、２次元配列を有する前記周波数係数から、２次元配列を有する前記第１係数大きさを抽出することを特徴とする請求項４に記載の音声信号圧縮装置。
前記帯域分割部は、２次元配列を有する前記第１係数大きさの周波数軸を複数の周波数帯域に分割することを特徴とする請求項４または請求項５に記載の音声信号圧縮装置。
前記大きさ変換部は、２次元配列を有する前記第２係数大きさについて前記周波数帯域ごとに変換を行い、前記第３係数大きさを取得することを特徴とする請求項４から請求項６のいずれか一項に記載の音声信号圧縮装置。
前記大きさ変換部は、２次元離散コサイン変換を行うことを特徴とする請求項７に記載の音声信号圧縮装置。
前記大きさ変換部は、２次元配列を有する前記第２係数大きさがＮ×Ｐ（ここで、Ｎはサブフレームの数、Ｐは各周波数帯域に存在する周波数係数）サイズを有する場合に、少なくとも一つのサブフレームが含まれるように、前記Ｎ×Ｐサイズを少なくとも一つの２次元配列に分割し、各分割された前記２次元配列を２次元変換し、前記周波数帯域ごとに複数の第３係数大きさを取得することを特徴とする請求項７に記載の音声信号圧縮装置。
前記大きさ変換部は、前記音声信号の特性によって、前記Ｎ×Ｐサイズを少なくとも一つの２次元配列に分割するための分割形式を選択することを特徴とする請求項９に記載の音声信号圧縮装置。
前記１次元配列部は、各前記第３係数大きさの平均エネルギーを取得し、前記第３係数大きさを前記平均エネルギーの順に配列することを特徴とする請求項４から請求項１０のいずれか一項に記載の音声信号圧縮装置。
前記１次元配列部は、前記音声信号の特性によって、複数の配列変換規則のうち一つを選択することを特徴とする請求項４から請求項１１のいずれか一項に記載の音声信号圧縮装置。
前記ＤＣ値量子化部、前記ＲＭＳ値量子化部及び前記大きさ量子化部は、前記第４係数大きさのＤＣ値及び残りの値を別々に量子化することを特徴とする請求項４から請求項１２のいずれか一項に記載の音声信号圧縮装置。
前記大きさ量子化部は、前記第４係数大きさのうち一部の第４係数大きさを量子化しないことを特徴とする請求項４から請求項１３のいずれか一項に記載の音声信号圧縮装置。
前記ビット割り当て部は、前記第４係数大きさの各周波数インデックスに対して、前記周波数帯域の重要度に基づいて、異なる数のビットを割り当てることを特徴とする請求項４から請求項１４のいずれか一項に記載の音声信号圧縮装置。
前記符号量子化部は、前記大きさ量子化部から提供される周波数係数の大きさ順序情報に基づいて、前記周波数係数の符号を量子化することを特徴とする請求項１から請求項１５のいずれか一項に記載の音声信号圧縮装置。
前記符号量子化部は、前記大きさ量子化部から提供される量子化された係数大きさのうち、所定の係数大きさに該当する前記周波数係数の符号を量子化することを特徴とする請求項１６に記載の音声信号圧縮装置。
圧縮された音声パケットを逆パケット化して、符号量子化インデックス及び大きさ量子化インデックスを取得する逆パケット化部と、
前記符号量子化インデックスを逆量子化して、係数符号を取得する符号逆量子化部と、
前記大きさ量子化インデックスを逆量子化して、第１係数大きさを取得する大きさ逆量子化部と、
前記第１係数大きさを２次元に配列して、第２係数大きさを取得する２次元配列部と、
前記第２係数大きさを逆変換して、第３係数大きさを取得する第１逆変換部と、
前記第３係数大きさに前記係数符号を挿入して、周波数係数を取得する符号挿入部と、
前記周波数係数を複数のサブフレームに分割するサブフレーム分割部と、
前記サブフレームごとに周波数係数を逆変換して、時間領域信号を取得する第２逆変換部と、
を備えていることを特徴とする音声信号復元装置。
伝送路を介して伝送されていない係数符号を予測する符号予測部をさらに備えていることを特徴とする請求項１８に記載の音声信号復元装置。
音声信号を周波数領域に変換して、周波数係数を取得する変換ステップと、
前記周波数係数の大きさを変換し、変換された周波数係数の大きさを量子化して、大きさ量子化インデックスを取得する大きさ量子化ステップと、
前記周波数係数の符号を量子化して、符号量子化インデックスを取得する符号量子化ステップと、
前記大きさ量子化インデックス及び前記符号量子化インデックスから音声パケットを生成するパケット化ステップと、
を含むことを特徴とする音声信号圧縮方法。
前記変換ステップでは、前記音声信号を複数のサブフレームに分割し、前記サブフレームごとに音声信号を周波数領域に変換して、前記周波数係数を取得することを特徴とする請求項２０に記載の音声信号圧縮方法。
前記変換ステップでは、サブフレームインデックス及び周波数インデックスを２次元に配列して、２次元配列を有する前記周波数係数を出力することを特徴とする請求項２０または請求項２１に記載の音声信号圧縮方法。
前記大きさ量子化ステップは、
前記周波数係数から抽出される第１係数大きさを複数の周波数帯域に分割して、周波数帯域ごとに第２係数大きさを取得し、前記第２係数大きさを変換して第３係数大きさを取得し、前記第３係数大きさを１次元に配列して、第４係数大きさを取得するステップと、
前記第４係数大きさのＤＣ値及び前記第４係数大きさのＲＭＳ値をそれぞれ量子化して、量子化されたＤＣ値及び量子化されたＲＭＳ値を取得するステップと、
前記量子化されたＲＭＳ値を利用して前記第４係数大きさを正規化し、第５係数大きさを取得するステップと、
ビット割り当て情報に基づいて前記第５係数大きさを量子化するステップと、
を含むことを特徴とする請求項２０から請求項２２のいずれか一項に記載の音声信号圧縮方法。
前記第１係数大きさは、２次元配列を有する前記周波数係数から抽出され、２次元配列を有していることを特徴とする請求項２３に記載の音声信号圧縮方法。
前記第１係数大きさは２次元配列を有しており、周波数軸を複数の周波数帯域に分割することを特徴とする請求項２３または請求項２４に記載の音声信号圧縮方法。
２次元配列を有する前記第２係数大きさについて周波数帯域ごとに２次元離散フーリエ変換を行い、前記第３係数大きさを取得することを特徴とする請求項２３から請求項２５のいずれか一項に記載の音声信号圧縮方法。
２次元配列を有する前記第２係数大きさがＮ×Ｐ（ここで、Ｎはサブフレームの数、Ｐは各周波数帯域に存在する周波数係数）サイズを有する場合に、少なくとも一つのサブフレームが含まれるように、前記Ｎ×Ｐサイズを少なくとも一つの２次元配列に分割し、各分割された前記２次元配列を２次元変換し、前記周波数帯域ごとに複数の第３係数大きさを取得することを特徴とする請求項２６に記載の音声信号圧縮方法。
前記音声信号の特性によって、前記Ｎ×Ｐサイズを少なくとも一つの２次元配列に分割するための分割形式を選択することを特徴とする請求項２７に記載の音声信号圧縮方法。
各前記第３係数大きさの平均エネルギーを取得し、前記第３係数大きさを前記平均エネルギーの順に配列することを特徴とする請求項２３から請求項２８のいずれか一項に記載の音声信号圧縮方法。
前記音声信号の特性によって、複数の配列変換規則のうち一つを選択することを特徴とする請求項２３から請求項２９のいずれか一項に記載の音声信号圧縮方法。
前記ＤＣ値の量子化、前記ＲＭＳ値の量子化及び前記周波数係数の大きさの量子化は、前記第４係数大きさのＤＣ値及び残りの値を別々に量子化することを特徴とする請求項２３から請求項３０のいずれか一項に記載の音声信号圧縮方法。
前記第４係数大きさのうち一部の第４係数大きさを量子化しないことを特徴とする請求項２３から請求項３１のいずれか一項に記載の音声信号圧縮方法。
前記ビット割り当て情報は、前記第４係数大きさの各周波数インデックスに対して、前記周波数帯域の重要度によって異なる値を有することを特徴とする請求項２３から請求項３２のいずれか一項に記載の音声信号圧縮方法。
前記符号量子化ステップでは、前記大きさ量子化ステップで取得された周波数係数の大きさ順序情報に基づいて、前記周波数係数の符号を量子化することを特徴とする請求項２０から請求項３３のいずれか一項に記載の音声信号圧縮方法。
前記符号量子化ステップでは、前記大きさ量子化ステップで取得された量子化された係数大きさのうち、所定の係数大きさに該当する前記周波数係数の符号を量子化することを特徴とする請求項３４に記載の音声信号圧縮方法。
圧縮された音声パケットを逆パケット化して、符号量子化インデックス及び大きさ量子化インデックスを取得するステップと、
前記符号量子化インデックスを逆量子化して、係数符号を取得するステップと、
前記大きさ量子化インデックスを逆量子化して、第１係数大きさを取得するステップと、
前記第１係数大きさを２次元に配列して、第２係数大きさを取得するステップと、
前記第２係数大きさを逆変換して、第３係数大きさを取得するステップと、
前記第３係数大きさに前記係数符号を挿入して、周波数係数を取得するステップと、
前記周波数係数をサブフレームごとに分割するステップと、
前記サブフレームごとに周波数係数を逆変換して、時間領域信号を取得するステップと、
を含むことを特徴とする音声信号復元方法。
伝送路を介して伝送されていない係数符号を予測するステップをさらに含むことを特徴とする請求項３６に記載の音声信号復元方法。
請求項２０から請求項３５のいずれか一項に記載の音声信号圧縮方法をコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体。
請求項３６または請求項３７に記載の音声信号復元方法をコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体。