JP2005326862A - 音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体 - Google Patents

音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体 Download PDF

Info

Publication number
JP2005326862A
JP2005326862A JP2005141989A JP2005141989A JP2005326862A JP 2005326862 A JP2005326862 A JP 2005326862A JP 2005141989 A JP2005141989 A JP 2005141989A JP 2005141989 A JP2005141989 A JP 2005141989A JP 2005326862 A JP2005326862 A JP 2005326862A
Authority
JP
Japan
Prior art keywords
coefficient
magnitude
frequency
audio signal
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005141989A
Other languages
English (en)
Other versions
JP5280607B2 (ja
Inventor
Chang-Yong Son
昌 用 孫
Hosang Sung
昊 相 成
Ho-Chong Park
浩 棕 朴
Byounghak Jeong
炳 學 鄭
Youngvo Kim
永 寶 金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2005326862A publication Critical patent/JP2005326862A/ja
Application granted granted Critical
Publication of JP5280607B2 publication Critical patent/JP5280607B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】 周波数領域で音声信号を圧縮及び復元することが可能な音声信号圧縮装置を提供する。
【解決手段】 音声信号圧縮装置は、音声信号101を周波数領域に変換して周波数係数を取得する変換部102と、周波数係数103の大きさを変換し、変換された周波数係数103の大きさを量子化して、大きさ量子化インデックス105を取得する大きさ量子化部104と、周波数係数103の符号を量子化して、符号量子化インデックス108を取得する符号量子化部107と、大きさ量子化インデックス105及び符号量子化インデックス108から音声パケット110を生成するパケット化部109と、を備えている。
【選択図】 図1

Description

本発明は、音声信号の符号化及び復号化に係り、特に、音声信号を周波数領域に変換して周波数係数情報を量子化し、かつ逆量子化する音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体に関する。
周波数変換に基づいて音声信号を圧縮して復元する技術は多く開発されており、基本的な圧縮構造は、周波数変換モジュール、帯域分割モジュール、ビット割り当てモジュール及び周波数係数量子化モジュールから構成されている。
周波数変換モジュールは、一定の長さ単位で音声信号を入力され、1単位の音声信号を1回の変換過程を通じて周波数領域に変換して周波数係数を求め、周波数係数量子化モジュールは、1単位の周波数係数を独立的に量子化する。
このとき、周波数変換単位が短ければ、音声信号の時間領域での相関関係を十分に活用できず、周波数変換の効果が減少し、かつ量子化性能が低下するという問題がある。
一方、周波数変換単位が長ければ、音声信号の時間領域での特性変化が消えて、周波数変換の効果が減少し、量子化性能が低下し、かつ圧縮過程の時間遅延及び計算量が増加するという問題がある。
言い換えれば、従来の圧縮構造は、量子化性能が周波数変換単位の長さによって左右されるので、最適の圧縮性能を得難いという問題点を有している。
また、音声信号の特性は経時的に変わり続け、特に非常に安定的に反復される特性を持つ区間と、不規則的に急に変わる特性を持つ区間とが存在する。
したがって、音声信号の時変特性を周波数変換過程に積極的に活用して、常に最適の周波数変換効果を得て、これより量子化性能を向上させて圧縮性能を極大化させる必要がある。
本発明は、周波数領域で音声信号を圧縮及び復元することが可能な音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体を提供することを課題とする。
また、本発明は、音声信号を短い単位に分解し、各単位を独立的に周波数変換して量子化することが可能な音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体を提供することを課題とする。
また、本発明は、短い単位の周波数変換で求めた周波数係数を、音声信号の時変特性を反映して2次元に配列することによって、量子化性能を向上させることが可能な音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体を提供することを課題とする。
また、本発明は、2次元配列を持つ周波数係数を再び2次元変換して処理することが可能な音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体を提供することを課題とする。
また、本発明は、2次元周波数係数を再び2次元変換する場合、音声信号の特性によって2次元変換の形態を調節して、音声信号の特性に最適の変換結果を得ることが可能な音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体を提供することを課題とする。
また、本発明は、周波数係数を量子化する時、周波数係数の大きさと符号とを分離して、それぞれを独立的に量子化することが可能な音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体を提供することを課題とする。
本発明は、前記課題を解決するため創案されたものであり、本発明の音声信号圧縮装置は、音声信号を周波数領域に変換して周波数係数を取得する変換部と、前記周波数係数の大きさを変換し、変換された周波数係数の大きさを量子化して、大きさ量子化インデックスを取得する大きさ量子化部と、前記周波数係数の符号を量子化して、符号量子化インデックスを取得する符号量子化部と、前記大きさ量子化インデックス及び前記符号量子化インデックスから音声パケットを生成するパケット化部と、を備えていることを特徴とする。
前記変換部は、前記音声信号を複数のサブフレームに分割し、前記サブフレームごとに音声信号を周波数領域に変換して、前記周波数係数を取得しても良い。
前記変換部は、サブフレームインデックス及び周波数インデックスを2次元に配列して、2次元配列を有する前記周波数係数を出力しても良い。
前記大きさ量子化部は、前記周波数係数から第1係数大きさを抽出する大きさ抽出部と、前記第1係数大きさを複数の周波数帯域に分割して、周波数帯域ごとに第2係数大きさを取得する帯域分割部と、前記第2係数大きさを変換して、第3係数大きさを取得する大きさ変換部と、前記第3係数大きさを1次元に配列して、第4係数大きさを取得する1次元配列部と、前記第4係数大きさのDC値を量子化して、量子化されたDC値を取得するDC値量子化部と、前記第4係数大きさのRMS値を量子化して、量子化されたRMS値を取得するRMS値量子化部と、前記量子化されたRMS値を利用して前記第4係数大きさを正規化し、第5係数大きさを取得する正規化部と、前記第5係数大きさを量子化する大きさ量子化部と、前記大きさ量子化器のビット数を割り当てるビット割り当て部と、を備えていても良い。
前記大きさ抽出部は、2次元配列を有する前記周波数係数から、2次元配列を有する前記第1係数大きさを抽出しても良い。
前記帯域分割部は、2次元配列を有する前記第1係数大きさの周波数軸を複数の周波数帯域に分割しても良い。
前記大きさ変換部は、2次元配列を有する前記第2係数大きさについて前記周波数帯域ごとに変換を行い、前記第3係数大きさを取得しても良い。
前記大きさ変換部は、2次元離散コサイン変換を行っても良い。
前記大きさ変換部は、2次元配列を有する前記第2係数大きさがN×P(ここで、Nはサブフレームの数、Pは各周波数帯域に存在する周波数係数)サイズを有する場合に、少なくとも一つのサブフレームが含まれるように、前記N×Pサイズを少なくとも一つの2次元配列に分割し、各分割された前記2次元配列を2次元変換し、前記周波数帯域ごとに複数の第3係数大きさを取得しても良い。
前記大きさ変換部は、前記音声信号の特性によって、前記N×Pサイズを少なくとも一つの2次元配列に分割するための分割形式を選択しても良い。
前記1次元配列部は、各前記第3係数大きさの平均エネルギーを取得し、前記第3係数大きさを前記平均エネルギーの順に配列しても良い。
前記1次元配列部は、前記音声信号の特性によって、複数の配列変換規則のうち一つを選択しても良い。
前記DC値量子化部、前記RMS値量子化部及び前記大きさ量子化部は、前記第4係数大きさのDC値及び残りの値を別々に量子化しても良い。
前記大きさ量子化部は、前記第4係数大きさのうち一部の第4係数大きさを量子化しなくても良い。
前記ビット割り当て部は、前記第4係数大きさの各周波数インデックスに対して、前記周波数帯域の重要度に基づいて、異なる数のビットを割り当てても良い。
前記符号量子化部は、前記大きさ量子化部から提供される周波数係数の大きさ順序情報に基づいて、前記周波数係数の符号を量子化しても良い。
前記符号量子化部は、前記大きさ量子化部から提供される量子化された係数大きさのうち、所定の係数大きさに該当する前記周波数係数の符号を量子化しても良い。
また、本発明の音声信号復元装置は、圧縮された音声パケットを逆パケット化して、符号量子化インデックス及び大きさ量子化インデックスを取得する逆パケット化部と、前記符号量子化インデックスを逆量子化して、係数符号を取得する符号逆量子化部と、前記大きさ量子化インデックスを逆量子化して、第1係数大きさを取得する大きさ逆量子化部と、前記第1係数大きさを2次元に配列して、第2係数大きさを取得する2次元配列部と、前記第2係数大きさを逆変換して、第3係数大きさを取得する第1逆変換部と、前記第3係数大きさに前記係数符号を挿入して、周波数係数を取得する符号挿入部と、前記周波数係数を複数のサブフレームに分割するサブフレーム分割部と、前記サブフレームごとに周波数係数を逆変換して、時間領域信号を取得する第2逆変換部と、を備えていることを特徴とする。
音声信号復元装置は、伝送路を介して伝送されていない係数符号を予測する符号予測部をさらに備えていても良い。
また、本発明の音声信号圧縮方法は、音声信号を周波数領域に変換して、周波数係数を取得する変換ステップと、前記周波数係数の大きさを変換し、変換された周波数係数の大きさを量子化して、大きさ量子化インデックスを取得する大きさ量子化ステップと、前記周波数係数の符号を量子化して、符号量子化インデックスを取得する符号量子化ステップと、前記大きさ量子化インデックス及び前記符号量子化インデックスから音声パケットを生成するパケット化ステップと、を含むことを特徴とする。
前記変換ステップでは、前記音声信号を複数のサブフレームに分割し、前記サブフレームごとに音声信号を周波数領域に変換して、前記周波数係数を取得しても良い。
前記変換ステップでは、サブフレームインデックス及び周波数インデックスを2次元に配列して、2次元配列を有する前記周波数係数を出力しても良い。
前記大きさ量子化ステップは、前記周波数係数から抽出される第1係数大きさを複数の周波数帯域に分割して、周波数帯域ごとに第2係数大きさを取得し、前記第2係数大きさを変換して第3係数大きさを取得し、前記第3係数大きさを1次元に配列して、第4係数大きさを取得するステップと、前記第4係数大きさのDC値及び前記第4係数大きさのRMS値をそれぞれ量子化して、量子化されたDC値及び量子化されたRMS値を取得するステップと、前記量子化されたRMS値を利用して前記第4係数大きさを正規化し、第5係数大きさを取得するステップと、ビット割り当て情報に基づいて前記第5係数大きさを量子化するステップと、を含んでいても良い。
前記第1係数大きさは、2次元配列を有する前記周波数係数から抽出され、2次元配列を有していても良い。
前記第1係数大きさは2次元配列を有しており、周波数軸を複数の周波数帯域に分割しても良い。
2次元配列を有する前記第2係数大きさについて周波数帯域ごとに2次元離散フーリエ変換を行い、前記第3係数大きさを取得しても良い。
2次元配列を有する前記第2係数大きさがN×P(ここで、Nはサブフレームの数、Pは各周波数帯域に存在する周波数係数)サイズを有する場合に、少なくとも一つのサブフレームが含まれるように、前記N×Pサイズを少なくとも一つの2次元配列に分割し、各分割された前記2次元配列を2次元変換し、前記周波数帯域ごとに複数の第3係数大きさを取得しても良い。
前記音声信号の特性によって、前記N×Pサイズを少なくとも一つの2次元配列に分割するための分割形式を選択しても良い。
各前記第3係数大きさの平均エネルギーを取得し、前記第3係数大きさを前記平均エネルギーの順に配列しても良い。
前記音声信号の特性によって、複数の配列変換規則のうち一つを選択しても良い。
前記DC値の量子化、前記RMS値の量子化及び前記周波数係数の大きさの量子化は、前記第4係数大きさのDC値及び残りの値を別々に量子化しても良い。
前記第4係数大きさのうち一部の第4係数大きさを量子化しなくても良い。
前記ビット割り当て情報は、前記第4係数大きさの各周波数インデックスに対して、前記周波数帯域の重要度によって異なる値を有しても良い。
前記符号量子化ステップでは、前記大きさ量子化ステップで取得された周波数係数の大きさ順序情報に基づいて、前記周波数係数の符号を量子化しても良い。
前記符号量子化ステップでは、前記大きさ量子化ステップで取得された量子化された係数大きさのうち、所定の係数大きさに該当する前記周波数係数の符号を量子化しても良い。
また、本発明の音声信号復元方法は、圧縮された音声パケットを逆パケット化して、符号量子化インデックス及び大きさ量子化インデックスを取得するステップと、前記符号量子化インデックスを逆量子化して、係数符号を取得するステップと、前記大きさ量子化インデックスを逆量子化して、第1係数大きさを取得するステップと、前記第1係数大きさを2次元に配列して、第2係数大きさを取得するステップと、前記第2係数大きさを逆変換して、第3係数大きさを取得するステップと、前記第3係数大きさに前記係数符号を挿入して、周波数係数を取得するステップと、前記周波数係数をサブフレームごとに分割するステップと、前記サブフレームごとに周波数係数を逆変換して、時間領域信号を取得するステップと、を含むことを特徴とする。
音声信号復元方法は、伝送路を介して伝送されていない係数符号を予測するステップをさらに含んでいても良い。
また、本発明は、前記音声信号圧縮方法をコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体であっても良く、前記音声信号復元方法をコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体であっても良い。
本発明によれば、周波数変換及び周波数係数の量子化を通じて、音声信号を圧縮及び復元することができる。
また、本発明によれば、周波数変換を短い長さ単位で実施し、音声信号の時変特性を反映して、複数の周波数係数を2次元に配列し、再び2次元変換を行って量子化に有利な係数を求めることができる。
また、本発明によれば、複数のサブフレーム情報を多様な形態のグループにまとめ、入力された音声信号の特性に最も適した2次元変換を行って、量子化性能を向上できる。
また、本発明によれば、周波数係数を大きさと符号とに分けて量子化し、符号の量子化を係数の大きさによって選別的に実施し、一部の符号についての情報を伝達せずとも、伝送されていない符号についての予測を通じて効率的に復元できる。
以下、添付された図面を参照して、本発明の実施形態に係る音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体について詳細に説明する。
本発明の実施形態に係る音声信号圧縮装置及び方法ならびに音声信号復元装置及び方法は、一つの独立した音声信号圧縮装置及び音声信号復元装置の動作に限定されず、音声符号化装置及び音声復号化装置の一部分として動作でき、多様な形態の音声信号を圧縮及び復元することができる。
本発明で取り扱う音声信号は、狭域または広域などの多様な帯域幅を持つ原音声信号、特定周波数帯域に限定された帯域通過音声信号、原音声信号に多様な前処理過程を適用して得られた前処理された音声信号などをいずれも含むことができ、あらゆる形態の音声信号を同一の動作及び概念によって、同様な過程によって圧縮及び復元できる。
本発明の一実施形態では、16kHzでサンプリングされた広域音声信号を低域信号と高域信号とに分解した後、高域信号を、本発明の実施形態に係る音声信号圧縮及び方法ならびに音声信号復元装置及び方法の入力として印加することを基準として説明し、低域信号を処理する別途のモジュールで、低域信号の圧縮過程で計算される情報が、本発明による音声信号の圧縮及び復元装置に伝達されると仮定する。
図1は、本発明の一実施形態に係る音声信号圧縮装置を示す機能ブロック図である。図1に示すように、音声信号圧縮装置は、変換部102、大きさ量子化部104、符号量子化部107及びパケット化部109を備えている。
変換部(transform unit)102は、複数のフレームに分けられる音声信号(speech signal)101を入力され、1フレームの音声信号を周波数領域に変換して、周波数係数(frequency coefficient(s))103を出力する。
大きさ量子化部(magnitude quantization unit)104は、変換部102で求められた周波数係数103の大きさ、例えば、絶対値を量子化し、大きさ量子化インデックス(magnitude quantization index(indices))105を出力する。また、大きさ量子化部104は、他のモジュールで求められた音声信号101についての追加情報(some additional information)111を利用できる。
符号量子化部(sign quantization unit)107は、変換部102で求められた周波数係数103の符号を量子化し、符号量子化インデックス(sign quantization index(indices))108を出力する。符号量子化部107は、符号量子化過程で、大きさ量子化部104から出力された大きさ量子化インデックス105を活用する。
パケット化部(packetizing unit)109は、1フレームの音声信号101についての大きさ量子化インデックス105及び符号量子化インデックス108を入力されて、所定形態の音声パケット110を生成して、伝送ライン(図示せず)に伝送する。
図2は、図1の変換部を示す詳細ブロック図である。図2に示すように、変換部102は、サブフレーム分割部201、複数の周波数変換部203及び2次元配列部205を備えている。
サブフレーム分割部201は、1フレームの音声信号101を複数のサブフレーム信号(sub-frame signal(s))202に分割する。
複数の周波数変換部(frequency transformers)203は、それぞれ1フレームを構成する各サブフレーム信号202を独立的に周波数領域に変換して、周波数係数(frequency coefficient(s))204を出力する。
2次元配列部(two-dimensional arrangement unit)205は、各サブフレーム信号202について求められた周波数係数204を入力されて、2次元に配列し、2次元配列を有する周波数係数103を出力する。このとき、最初のサブフレームに該当する周波数係数をfreq[0][k],(ただし、k=0,1,…,M−1)と表示し、第2のサブフレームに該当する周波数係数をfreq[1][k]と表示し、最後のサブフレームに該当する周波数係数をfreq[N−1][k]と表示する。ここで、Nは、サブフレームの数であり、Mは、一つのサブフレームに含まれるサンプル数である。したがって、周波数係数103は、N×Mのサイズを有する2次元配列として表すことができる。言い換えると、freq[subframe][k]において、インデックス「subframe」は、サブフレームによる時間進行を表し、インデックス「k」は、周波数インデックスに該当する。
本発明の一実施形態において、1フレームのサイズは30msecであり、サブフレーム分割部201は、1フレームの音声信号を5msec単位に分割して6個のサブフレーム信号202を出力する。続いて、サブフレーム分割部201は、6個のサブフレーム信号202についてそれぞれ周波数変換過程を行って、周波数係数204を出力できる。
したがって、2次元配列において、N=6、M=40となる。全体周波数領域が4kHz〜8kHzである場合、2次元配列を有する第1周波数係数103、すなわち、freq[subframe][k]でk=0が4kHzに該当し、kが1ずつ増加するにつれて、該当する周波数は100Hzずつ増加する。
一方、複数の周波数変換部203は、公知の種々の数学的方法を使用でき、本発明の一実施形態では、MLT(Modulated Lapped Transform)を使用する。入力された音声信号についてMLT係数を求める過程は、公知の種々の方法による。
図3は、図1の大きさ量子化部を示す詳細ブロック図である。図3に示すように、大きさ量子化部104は、大きさ抽出部301、帯域分割部303、大きさ変換部305、1次元配列部307、DC値量子化部309、RMS値量子化部312、正規化部315、大きさ量子化部317及びビット割り当て部319を備えている。
大きさ抽出部(magnitude extractor)301は、2次元配列を持つ周波数係数103を入力され、2次元配列を有する第1係数大きさ(first coefficient magnitude(s))302を抽出する。
帯域分割部(band divider)303は、2次元配列を有する第1係数大きさ302を入力されて、複数の周波数帯域(以下、単に帯域ともいう。)に分割し、3次元配列を有する帯域ごとの第2係数大きさ(second coefficient magnitude(s))304を出力する。第2係数大きさは、freq_mag[band][subframe][k]として表記される。
ここで、インデックス「band」は、周波数帯域を表し、インデックス「subframe」は、サブフレームを表し、インデックス「k」は、帯域ごとの周波数インデックスを表し、kの範囲は、帯域分割部303の帯域分割構造によって決定される。以下では、説明の簡略化のために、一つの周波数帯域についてのみその作用を説明する。一方、帯域ごとの第2係数大きさ304を周波数帯域ごとに独立的に説明する場合、または、一つの周波数帯域についてのみ説明する場合には、インデックス「band」が固定されるので、2次元配列を有する。したがって、以下、帯域ごとの第2係数大きさ304は、2次元配列を持つと仮定する。また、サブフレームの数をNとし、周波数帯域ごとにP個の周波数係数があると仮定する。帯域分割部303の動作によって、周波数帯域ごとに周波数係数の数が異なることがあるが、説明の便宜上、あらゆる周波数帯域がP個の周波数係数を持つと仮定し、周波数帯域ごとの周波数係数の数が異なる場合にも、その構造及び作用は同一に適用される。したがって、帯域ごとの第2係数大きさ304は、サブフレーム及び周波数インデックスを、それぞれ時間軸及び周波数軸として持つN×Pサイズの2次元配列で構成される。
大きさ変換部(transformer)305は、2次元配列の帯域ごとの第2係数大きさ304を複数の2次元配列に分割し、分割された複数の2次元配列を2次元変換して、複数の第3係数大きさ(third coefficient magnitude(s))306を出力する。これを、図8Aないし図8Cを参照してさらに詳細に説明する。
図8Aないし図8Cは、図3の変換部における、多様な方法で行われた分割の例を説明するための図である。図8Aは、特定周波数帯域における、2次元配列を有する第2係数大きさ304を示し、それぞれのセルは一つの第2係数大きさを表しており、N=P=4である場合を示している。ここで、1つのフレーム内にN個のサブフレームが存在する場合において、N個のサブフレームを1グループにまとめる(分割する)ときには、図8Aに示すように、N×Pサイズについて変換を行って、N×Pサイズの第3係数大きさを求める。
また、N個のサブクレームを2グループにまとめる(分割する)ときには、図8Bに示すように、2×Pサイズについての変換と、(N−2)×Pサイズについての変換とをそれぞれ行って、2×Pサイズの第3係数大きさと、(N−2)×Pサイズの第3係数大きさとを求める。
また、N個のサブフレームをNグループにまとめる(分割する)とき、すなわち、N個のサブフレームのそれぞれを一つのグループと見なすときには、図8Cに示すように、1×Pサイズについての変換をN回行って、1×Pサイズの第3係数大きさをN個求める。
このように、サブフレーム間の相関関係を活用するために、帯域ごとの第2係数大きさを、少なくとも一つのサブフレームを含むグループにまとめる方法は、あらゆるフレームについて一つの方法で固定させることができる。また、前記方法は、音声信号の時間的エネルギー変化特性のような、入力された音声信号101の特性によって可変的に決定でき、この時、音声信号101の特性によってグループの形態を決定する基準は、既存のいろいろな技術を活用して決定できる。
以下では、図8Aに示すように、全体でN個のサブフレームを一つのグループにまとめ、N×Pサイズについての2次元変換を1回行う場合に限定して説明する。なお、図8B及び図8Cに示すように、全体でN個のサブフレームを二以上のグループにまとめる場合であっても、同じ概念及び演算に基づく処理をそれぞれのグループに適用し、グループごとの第3係数大きさの量子化を独立的に行うことができる。
大きさ変換部305は、N×Pサイズを有する1つのグループについての2次元変換を1回行い、帯域ごとにN×Pサイズの第3係数大きさを出力し、これをdct[band][n][m]と表示する。大きさ変換部305における2次元変換を通じて、帯域ごとに時間軸及び周波数軸の相関関係が同時に考慮されて、帯域ごとに2次元配列freq_mag[band][subframe][k]に広がっているエネルギーが、狭い領域に集中する現象(エネルギー集中現象)が現れる。すなわち、帯域ごとにN×Pサイズの第3係数大きさdct[band][n][m]のうち、n及びmの小さな領域に多くのエネルギーが集中する。
本発明に係る一実施形態において、大きさ変換部305は、2次元離散コサイン変換(Discrete Cosine Transform:DCT)を用いて変換を行う。
1次元配列部(one-dimensional arrangement unit)307は、帯域ごとの第3係数大きさ306を1次元に配列して、帯域ごとの第4係数大きさ(fourth coefficient magnitude(s))308を出力する。1次元配列部307は、所定の配列規則に基づいて、N×Pサイズの第3係数大きさ306、すなわち、dct[band][n][m]を帯域ごとにN×P長さの第4係数大きさ308に配列する。帯域ごとの第4係数大きさ308は、dct_1[band][p]と表される。1次元配列部307は、単純に2次元配列を1次元配列に変換する動作を行う。したがって、係数大きさの値は変化しない。以下、1次元配列部307の配列変換規則の一例について説明する。
1次元配列部307は、帯域ごとに第3係数大きさ306、すなわち、dct[band][n][m]を、平均エネルギーの大きい順に1次元に配列して、第4係数大きさ308を出力する。このとき、帯域ごとにN×Pサイズの第3係数大きさ306について、あらかじめ経験及びシミュレーションによって各位置における係数大きさの平均エネルギーを求め、平均エネルギーの大きい順にN×P長さの第4係数大きさ308を出力する。1次元配列部307の配列変換規則は、音声信号圧縮装置の設計ステージであらかじめ決定されても良く、入力された音声信号101の特性によって、複数の配列変換規則のうち一つを選択して使用しても良い。また、音声信号圧縮装置及び音声信号復元装置の両方が、同じ配列変換規則を有しているので、dct[band][n][m]及びdct_1[band][p]間の配列変換は、追加情報なしに定義可能である。一般的に、dct[band][n][m]において最大となる平均エネルギーを持つ位置では、n=m=0が成立するので、dct_1[band][0]=dct[band][0][0]となる。
DC値量子化部(Direct Current value quantizer)309は、1次元配列部307から提供される第4係数大きさ308のうち、DC値に対応する第1のインデックスであるdct_1[band][0]を量子化して、DC量子化インデックス310及び量子化されたDC値311を出力する。DC値量子化部309は、隣接する周波数帯域のDC値間の相関関係を活用するために、全帯域の全DC値を集めて処理することができる。本発明に係る一実施形態において、DC値量子化部309は、低域音声信号圧縮装置の圧縮過程で算出された低域信号のエネルギー情報(energy information)111を活用することができる。また、低域信号をコード励振線形予測符号化(Code Excited Linear Prediction:CELP)タイプの音声信号圧縮装置で処理する場合には、低域信号の量子化された固定コードブックの利得を、エネルギー情報111として使用することができる。
RMS値量子化部(Root-Mean-Square value quantizer)312は、帯域ごとに第4係数大きさ308のうち、DC値を除外した残りの第3係数大きさ、すなわち、dct_1[band][1]〜dct_1[band][N*P−1]のRMS値を算出して量子化し、RMS量子化インデックス313及び量子化されたRMS値314を出力する。各帯域のRMS値は、該当帯域のDC値と高い相関関係を持つので、このような性質を活用して量子化することができる。また、各帯域のRMS値間の相関関係も同時に活用して量子化することができる。本発明の一実施形態では、各帯域の量子化されたDC値311からRMS値を予測して量子化する。
正規化部(normalizer)315は、帯域ごとに量子化されたRMS値314を利用して、該当帯域の第4係数大きさ308を正規化する。このとき、DC値は、DC値量子化部309で既に量子化されているので、DC値を除外した残りの第4係数大きさのみ正規化し、正規化された第5係数大きさ316を出力し、これをdct_norm[band][p]と表示する。正規化部315は、通常、帯域ごとの第4係数大きさ308を、帯域ごとに量子化されたRMS値314で割って、正規化された第5係数大きさ316を求める。
大きさ量子化部(magnitude quantizer)317は、帯域ごとに正規化された第5係数大きさ316を独立的に量子化して、帯域ごとの大きさ量子化インデックス318を出力する。大きさ量子化部317は、帯域ごとに正規化された第5係数大きさ316についてベクトル量子化を行うことができ、ベクトル量子化は、計算量及びメモリを考慮した分割ベクトル量子化(Split Vector Quantization:SVQ)で実現可能である。
ビット割り当て部(bit allocator)319は、大きさ量子化部317のためのビット割り当て情報320を決定して出力する。ビット割り当て部319は、各帯域の特性を分析して各帯域に割り当てられるビット数を決定し、もし、大きさ量子化部317がベクトル量子化を行う場合、各帯域内の分割されたサブベクトルに割り当てられたビット数を細部的に決定して出力する。
本発明の一実施形態で、ビット割り当て規則は、各帯域のdct_norm[band][p]で、インデックスpの小さなサブベクトルにさらに多くのビットを割り当て、特定サブベクトルに0(zero)ビットを割り当てて、係数を伝達せずに捨てられるようにする。このようなビット割り当て規則は、1次元配列部307の配列変換規則によって、第4係数大きさ308の平均エネルギーは、主に小さなp値を持つインデックスに存在し、大きいp値を持つインデックスには非常に少ない平均エネルギーのみ存在する現象によるものである。また、帯域の重要度によって、順位の低い帯域には少数のビットを割り当てることができ、この時、帯域重要度を決定するために、量子化されたDC値311及び量子化されたRMS値314を利用できる。
図1の大きさ量子化部104から提供される大きさ量子化インデックス105は、DC量子化インデックス310、RMS量子化インデックス313、帯域ごとの大きさ量子化インデックス318などを含む。
本発明の一実施形態によれば、高域信号の全体8kHz帯域のうち7kHzまでの情報のみ量子化して伝送し、これにより、周波数係数情報のうち7kHzに該当する係数freq_mag[subframe][29]までのみ量子化する。また、4kHz−7kHz領域を5個の600Hz帯域に分解する。これにより、帯域ごとの第3係数大きさ306のサイズは6×6であり、第4係数大きさ308の長さは36であり、DC値を除外した実際にベクトル量子化する第4係数大きさは、帯域ごとに35個である。このとき、SVQのための分割形式及び帯域順位によるサブベクトルのビット数は、次の表1によって定義される。
Figure 2005326862
図4は、図1の符号量子化部を示す詳細ブロック図である。図4に示すように、符号量子化部107は、符号抽出部401、大きさ逆量子化部403、大きさ整列部405及び符号量子化部407を備えている。
符号抽出部(sign extractor)401は、周波数係数103から符号を抽出して、係数符号402を出力する。
大きさ逆量子化部(magnitude dequantizer)403は、図1の大きさ量子化部104から提供される大きさ量子化インデックス105をパラメータごとに逆量子化して、量子化された係数大きさ404を出力する。大きさ逆量子化部403の具体的な動作は、図3の大きさ量子化部104によって定義され、公知の技術によって行われる。
大きさ整列部(magnitude arrangement unit)405は、量子化された係数大きさ404を入力されて大きさ順に整列して、大きさ順序情報406を出力する。大きさ順序情報406は、量子化された係数大きさ404で、各係数大きさが全体のうち何番目に大きい値であるかを表す。
符号量子化部(sign quantizer)407は、大きさ順序情報406に基づいて、全体量子化された係数大きさ404のうち、その値の大きい第1係数大きさをあらかじめ指定された数ほど選択し、選択された係数大きさに対応する係数符号のみ量子化して、符号量子化インデックス108に出力する。
本発明の一実施形態で、符号量子化部407は、各符号を1ビットで量子化し、量子化された係数大きさ404は総180個であり、180個のうち大きさの大きい92個の周波数係数に該当する符号のみ量子化して伝達し、残りの88個の符号情報は伝達しない。
図5は、本発明の一実施形態に係る音声信号復元装置を示す機能ブロック図である。図5に示すように、音声信号復元装置は、逆パケット化部502、大きさ逆量子化部504、2次元配列部506、第1逆変換部508、符号逆量子化部511、符号挿入部513、符号予測部515、サブフレーム分割部517及び第2逆変換部519を備えている。
逆パケット化部(inverse packetizing unit)502は、伝送ライン(図示せず)から音声パケット501を入力されて、大きさ量子化インデックス503及び符号量子化インデックス510を出力する。
大きさ逆量子化部(magnitude dequantizer)504は、大きさ量子化インデックス503を逆量子化して、第1係数大きさ505を出力する。大きさ逆量子化部504の具体的な動作は、図3の第1大きさ量子化部104によって定義され、第1係数大きさ505は、図3の第4係数大きさ308の量子化された値に該当する。
2次元配列部(two-dimensional arrangement unit)506は、第1係数大きさ505を入力されて2次元に配列し、第2係数大きさ507を出力する。2次元配列部506は、図3の1次元配列部307と逆の動作を行う。
第1逆変換部(first inverse transformer)508は、第2係数大きさ507について2次元逆変換過程を行って、第3係数大きさ509を出力する。第1逆変換部508は、図3の大きさ変換部305と逆の動作を行う。
符号逆量子化部(sign dequantizer)511は、符号量子化インデックス510を逆量子化して係数符号512を出力する。
符号挿入部(sign insertion unit)513は、第3係数大きさ509に係数符号512を挿入して、周波数係数514を出力する。図4の符号量子化部107から一部の符号が伝送されない場合には、符号予測部515が伝送されていない符号を予測して、最終周波数係数516を出力する。
符号予測部(sign prediction unit)515は、符号が伝送されていない周波数成分ごとに、フレーム境界での不連続を最小にするように符号を定める方法を使用できる。本発明の他の実施形態では、伝送されていない符号について、符号予測部515が不規則的に符号を任意に求めて使用できる。
サブフレーム分割部(sub-frame divider)517は、2次元配列を有する最終周波数係数516を入力されて、サブフレームごとに分割された周波数係数518を出力する。
第2逆変換部(second inverse transformer)519は、サブフレームごとの周波数係数518を入力されて、サブフレームごとに時間領域信号520を出力する。第2逆変換部519は、図1の変換部102と逆の動作を行う。
図6は、本発明の一実施形態に係る音声信号圧縮方法のフローチャートである。
図6に示すように、ステップS601では、入力された音声信号を、図2のサブフレーム分割部201を利用して複数のサブフレームに分割し、図3のように、サブフレームごとに独立的に周波数変換して、2次元配列を持つ周波数係数103を取得する(求める)。
ステップS602では、周波数係数103から第1係数大きさ302を抽出し、第1係数大きさ302を複数の帯域に分割し、図3のように、帯域ごとに2次元配列を持つ第2係数大きさ304を取得する。
ステップS603では、図3の帯域ごとの第2係数大きさ304を複数の2次元配列に分割し、分割された2次元配列を2次元変換して、帯域ごとの第3係数大きさ306を取得する。
ステップS604では、帯域ごとの第3係数大きさ306を1次元に配列して、帯域ごとの第4係数大きさ308を取得する。
ステップS605では、帯域ごとの第4係数大きさ308について、DC値量子化及びRMS値量子化を行い、正規化された第5係数大きさ316について、大きさ量子化を行う。
Sステップ606では、図4のように、周波数係数103の符号を量子化して伝送する。このとき、量子化された周波数係数の大きさ順序情報を活用して、大きさの大きい所定の周波数係数に該当する符号のみ伝送する。
図7は、本発明の一実施形態に係る音声信号復元方法のフローチャートである。
図7に示すように、ステップS701では、伝送ライン(図示せず)を通じて受信した音声パケットをパラメータごとに逆量子化し、帯域ごとに係数符号及び1次元配列の係数大きさを取得する(求める)。
ステップS702では、1次元配列の係数大きさを2次元に配列し、2次元逆変換を通じて帯域ごとに係数大きさを取得する。
ステップS703では、帯域ごとに係数大きさに係数符号を挿入し、伝送されていない係数符号を予測して、2次元配列の周波数係数を取得する。
ステップS704では、2次元配列の周波数係数をサブフレームごとに分割して、各サブフレームの周波数係数を取得し、サブフレームごとに周波数を逆変換して時間領域信号を取得する。
本発明はまた、コンピュータ読取可能なコード(プログラム)、または当該コードを記録したコンピュータ読取可能な記録媒体として実現することが可能である。コンピュータ読取可能な記録媒体は、コンピュータシステムによって読み取られるデータが保存されるあらゆる記録装置を含む。コンピュータ読取可能な記録媒体の例には、ROM、RAM、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ保存装置などがあり、また、キャリアウェーブ(例えば、インターネットを通じた伝送)の形で実現されるものも含む。また、コンピュータ読取可能な記録媒体は、ネットワークに連結されたコンピュータシステムに分散されて、分散方式でコンピュータ読取可能なコードが保存されても良い。そして、本発明を実現するための機能的なプログラム、コード及びコードセグメントは、本発明が属する技術分野のプログラマーにより容易に推論できる。
本発明について、前記実施形態を参考として説明したが、これは例示的なものに過ぎず、当業者ならば、これより多様な変形及び均等な他の実施形態が可能であるという点を理解可能である。したがって、本発明の真の技術的保護範囲は、特許請求の範囲によって定義された技術的思想により定められなければならない。
音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体は、音声信号を圧縮し、それを復元するときに好適に使われる。
本発明の一実施形態に係る音声信号圧縮装置を示す機能ブロック図である。 図1の変換部を示す詳細ブロック図である。 図1の大きさ量子化部を示す詳細ブロック図である。 図1の符号量子化部を示す詳細ブロック図である。 本発明の一実施形態に係る音声信号復元装置を示す機能ブロック図である。 本発明の一実施形態に係る音声信号圧縮方法のフローチャートである。 本発明の一実施形態に係る音声信号復元方法のフローチャートである。 図3の変換部における、多様な方法で行われた分割の例を説明するための図である。 図3の変換部における、多様な方法で行われた分割の例を説明するための図である。 図3の変換部における、多様な方法で行われた分割の例を説明するための図である。
符号の説明
101 音声信号
102 変換部
103 周波数係数
104 大きさ量子化部
105 大きさ量子化インデックス
107 符号量子化部
108 符号量子化インデックス
109 パケット化部
110 音声パケット
111 追加情報

Claims (39)

  1. 音声信号を周波数領域に変換して周波数係数を取得する変換部と、
    前記周波数係数の大きさを変換し、変換された周波数係数の大きさを量子化して、大きさ量子化インデックスを取得する大きさ量子化部と、
    前記周波数係数の符号を量子化して、符号量子化インデックスを取得する符号量子化部と、
    前記大きさ量子化インデックス及び前記符号量子化インデックスから音声パケットを生成するパケット化部と、
    を備えていることを特徴とする音声信号圧縮装置。
  2. 前記変換部は、前記音声信号を複数のサブフレームに分割し、前記サブフレームごとに音声信号を周波数領域に変換して、前記周波数係数を取得することを特徴とする請求項1に記載の音声信号圧縮装置。
  3. 前記変換部は、サブフレームインデックス及び周波数インデックスを2次元に配列して、2次元配列を有する前記周波数係数を出力することを特徴とする請求項1または請求項2に記載の音声信号圧縮装置。
  4. 前記大きさ量子化部は、
    前記周波数係数から第1係数大きさを抽出する大きさ抽出部と、
    前記第1係数大きさを複数の周波数帯域に分割して、周波数帯域ごとに第2係数大きさを取得する帯域分割部と、
    前記第2係数大きさを変換して、第3係数大きさを取得する大きさ変換部と、
    前記第3係数大きさを1次元に配列して、第4係数大きさを取得する1次元配列部と、
    前記第4係数大きさのDC値を量子化して、量子化されたDC値を取得するDC値量子化部と、
    前記第4係数大きさのRMS値を量子化して、量子化されたRMS値を取得するRMS値量子化部と、
    前記量子化されたRMS値を利用して前記第4係数大きさを正規化し、第5係数大きさを取得する正規化部と、
    前記第5係数大きさを量子化する大きさ量子化部と、
    前記大きさ量子化器のビット数を割り当てるビット割り当て部と、
    を備えていることを特徴とする請求項1から請求項3のいずれか一項に記載の音声信号圧縮装置。
  5. 前記大きさ抽出部は、2次元配列を有する前記周波数係数から、2次元配列を有する前記第1係数大きさを抽出することを特徴とする請求項4に記載の音声信号圧縮装置。
  6. 前記帯域分割部は、2次元配列を有する前記第1係数大きさの周波数軸を複数の周波数帯域に分割することを特徴とする請求項4または請求項5に記載の音声信号圧縮装置。
  7. 前記大きさ変換部は、2次元配列を有する前記第2係数大きさについて前記周波数帯域ごとに変換を行い、前記第3係数大きさを取得することを特徴とする請求項4から請求項6のいずれか一項に記載の音声信号圧縮装置。
  8. 前記大きさ変換部は、2次元離散コサイン変換を行うことを特徴とする請求項7に記載の音声信号圧縮装置。
  9. 前記大きさ変換部は、2次元配列を有する前記第2係数大きさがN×P(ここで、Nはサブフレームの数、Pは各周波数帯域に存在する周波数係数)サイズを有する場合に、少なくとも一つのサブフレームが含まれるように、前記N×Pサイズを少なくとも一つの2次元配列に分割し、各分割された前記2次元配列を2次元変換し、前記周波数帯域ごとに複数の第3係数大きさを取得することを特徴とする請求項7に記載の音声信号圧縮装置。
  10. 前記大きさ変換部は、前記音声信号の特性によって、前記N×Pサイズを少なくとも一つの2次元配列に分割するための分割形式を選択することを特徴とする請求項9に記載の音声信号圧縮装置。
  11. 前記1次元配列部は、各前記第3係数大きさの平均エネルギーを取得し、前記第3係数大きさを前記平均エネルギーの順に配列することを特徴とする請求項4から請求項10のいずれか一項に記載の音声信号圧縮装置。
  12. 前記1次元配列部は、前記音声信号の特性によって、複数の配列変換規則のうち一つを選択することを特徴とする請求項4から請求項11のいずれか一項に記載の音声信号圧縮装置。
  13. 前記DC値量子化部、前記RMS値量子化部及び前記大きさ量子化部は、前記第4係数大きさのDC値及び残りの値を別々に量子化することを特徴とする請求項4から請求項12のいずれか一項に記載の音声信号圧縮装置。
  14. 前記大きさ量子化部は、前記第4係数大きさのうち一部の第4係数大きさを量子化しないことを特徴とする請求項4から請求項13のいずれか一項に記載の音声信号圧縮装置。
  15. 前記ビット割り当て部は、前記第4係数大きさの各周波数インデックスに対して、前記周波数帯域の重要度に基づいて、異なる数のビットを割り当てることを特徴とする請求項4から請求項14のいずれか一項に記載の音声信号圧縮装置。
  16. 前記符号量子化部は、前記大きさ量子化部から提供される周波数係数の大きさ順序情報に基づいて、前記周波数係数の符号を量子化することを特徴とする請求項1から請求項15のいずれか一項に記載の音声信号圧縮装置。
  17. 前記符号量子化部は、前記大きさ量子化部から提供される量子化された係数大きさのうち、所定の係数大きさに該当する前記周波数係数の符号を量子化することを特徴とする請求項16に記載の音声信号圧縮装置。
  18. 圧縮された音声パケットを逆パケット化して、符号量子化インデックス及び大きさ量子化インデックスを取得する逆パケット化部と、
    前記符号量子化インデックスを逆量子化して、係数符号を取得する符号逆量子化部と、
    前記大きさ量子化インデックスを逆量子化して、第1係数大きさを取得する大きさ逆量子化部と、
    前記第1係数大きさを2次元に配列して、第2係数大きさを取得する2次元配列部と、
    前記第2係数大きさを逆変換して、第3係数大きさを取得する第1逆変換部と、
    前記第3係数大きさに前記係数符号を挿入して、周波数係数を取得する符号挿入部と、
    前記周波数係数を複数のサブフレームに分割するサブフレーム分割部と、
    前記サブフレームごとに周波数係数を逆変換して、時間領域信号を取得する第2逆変換部と、
    を備えていることを特徴とする音声信号復元装置。
  19. 伝送路を介して伝送されていない係数符号を予測する符号予測部をさらに備えていることを特徴とする請求項18に記載の音声信号復元装置。
  20. 音声信号を周波数領域に変換して、周波数係数を取得する変換ステップと、
    前記周波数係数の大きさを変換し、変換された周波数係数の大きさを量子化して、大きさ量子化インデックスを取得する大きさ量子化ステップと、
    前記周波数係数の符号を量子化して、符号量子化インデックスを取得する符号量子化ステップと、
    前記大きさ量子化インデックス及び前記符号量子化インデックスから音声パケットを生成するパケット化ステップと、
    を含むことを特徴とする音声信号圧縮方法。
  21. 前記変換ステップでは、前記音声信号を複数のサブフレームに分割し、前記サブフレームごとに音声信号を周波数領域に変換して、前記周波数係数を取得することを特徴とする請求項20に記載の音声信号圧縮方法。
  22. 前記変換ステップでは、サブフレームインデックス及び周波数インデックスを2次元に配列して、2次元配列を有する前記周波数係数を出力することを特徴とする請求項20または請求項21に記載の音声信号圧縮方法。
  23. 前記大きさ量子化ステップは、
    前記周波数係数から抽出される第1係数大きさを複数の周波数帯域に分割して、周波数帯域ごとに第2係数大きさを取得し、前記第2係数大きさを変換して第3係数大きさを取得し、前記第3係数大きさを1次元に配列して、第4係数大きさを取得するステップと、
    前記第4係数大きさのDC値及び前記第4係数大きさのRMS値をそれぞれ量子化して、量子化されたDC値及び量子化されたRMS値を取得するステップと、
    前記量子化されたRMS値を利用して前記第4係数大きさを正規化し、第5係数大きさを取得するステップと、
    ビット割り当て情報に基づいて前記第5係数大きさを量子化するステップと、
    を含むことを特徴とする請求項20から請求項22のいずれか一項に記載の音声信号圧縮方法。
  24. 前記第1係数大きさは、2次元配列を有する前記周波数係数から抽出され、2次元配列を有していることを特徴とする請求項23に記載の音声信号圧縮方法。
  25. 前記第1係数大きさは2次元配列を有しており、周波数軸を複数の周波数帯域に分割することを特徴とする請求項23または請求項24に記載の音声信号圧縮方法。
  26. 2次元配列を有する前記第2係数大きさについて周波数帯域ごとに2次元離散フーリエ変換を行い、前記第3係数大きさを取得することを特徴とする請求項23から請求項25のいずれか一項に記載の音声信号圧縮方法。
  27. 2次元配列を有する前記第2係数大きさがN×P(ここで、Nはサブフレームの数、Pは各周波数帯域に存在する周波数係数)サイズを有する場合に、少なくとも一つのサブフレームが含まれるように、前記N×Pサイズを少なくとも一つの2次元配列に分割し、各分割された前記2次元配列を2次元変換し、前記周波数帯域ごとに複数の第3係数大きさを取得することを特徴とする請求項26に記載の音声信号圧縮方法。
  28. 前記音声信号の特性によって、前記N×Pサイズを少なくとも一つの2次元配列に分割するための分割形式を選択することを特徴とする請求項27に記載の音声信号圧縮方法。
  29. 各前記第3係数大きさの平均エネルギーを取得し、前記第3係数大きさを前記平均エネルギーの順に配列することを特徴とする請求項23から請求項28のいずれか一項に記載の音声信号圧縮方法。
  30. 前記音声信号の特性によって、複数の配列変換規則のうち一つを選択することを特徴とする請求項23から請求項29のいずれか一項に記載の音声信号圧縮方法。
  31. 前記DC値の量子化、前記RMS値の量子化及び前記周波数係数の大きさの量子化は、前記第4係数大きさのDC値及び残りの値を別々に量子化することを特徴とする請求項23から請求項30のいずれか一項に記載の音声信号圧縮方法。
  32. 前記第4係数大きさのうち一部の第4係数大きさを量子化しないことを特徴とする請求項23から請求項31のいずれか一項に記載の音声信号圧縮方法。
  33. 前記ビット割り当て情報は、前記第4係数大きさの各周波数インデックスに対して、前記周波数帯域の重要度によって異なる値を有することを特徴とする請求項23から請求項32のいずれか一項に記載の音声信号圧縮方法。
  34. 前記符号量子化ステップでは、前記大きさ量子化ステップで取得された周波数係数の大きさ順序情報に基づいて、前記周波数係数の符号を量子化することを特徴とする請求項20から請求項33のいずれか一項に記載の音声信号圧縮方法。
  35. 前記符号量子化ステップでは、前記大きさ量子化ステップで取得された量子化された係数大きさのうち、所定の係数大きさに該当する前記周波数係数の符号を量子化することを特徴とする請求項34に記載の音声信号圧縮方法。
  36. 圧縮された音声パケットを逆パケット化して、符号量子化インデックス及び大きさ量子化インデックスを取得するステップと、
    前記符号量子化インデックスを逆量子化して、係数符号を取得するステップと、
    前記大きさ量子化インデックスを逆量子化して、第1係数大きさを取得するステップと、
    前記第1係数大きさを2次元に配列して、第2係数大きさを取得するステップと、
    前記第2係数大きさを逆変換して、第3係数大きさを取得するステップと、
    前記第3係数大きさに前記係数符号を挿入して、周波数係数を取得するステップと、
    前記周波数係数をサブフレームごとに分割するステップと、
    前記サブフレームごとに周波数係数を逆変換して、時間領域信号を取得するステップと、
    を含むことを特徴とする音声信号復元方法。
  37. 伝送路を介して伝送されていない係数符号を予測するステップをさらに含むことを特徴とする請求項36に記載の音声信号復元方法。
  38. 請求項20から請求項35のいずれか一項に記載の音声信号圧縮方法をコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体。
  39. 請求項36または請求項37に記載の音声信号復元方法をコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体。
JP2005141989A 2004-05-13 2005-05-13 音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体 Expired - Fee Related JP5280607B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020040033697A KR101037931B1 (ko) 2004-05-13 2004-05-13 2차원 데이터 처리를 이용한 음성 신호 압축 및 복원장치와 그 방법
KR10-2004-0033697 2004-05-13

Publications (2)

Publication Number Publication Date
JP2005326862A true JP2005326862A (ja) 2005-11-24
JP5280607B2 JP5280607B2 (ja) 2013-09-04

Family

ID=34938273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005141989A Expired - Fee Related JP5280607B2 (ja) 2004-05-13 2005-05-13 音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体

Country Status (5)

Country Link
US (1) US8019600B2 (ja)
EP (1) EP1596365B1 (ja)
JP (1) JP5280607B2 (ja)
KR (1) KR101037931B1 (ja)
DE (1) DE602005021274D1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4784281B2 (ja) * 2005-11-18 2011-10-05 富士ゼロックス株式会社 復号化装置、逆量子化方法及びこれらのプログラム
US20080243518A1 (en) * 2006-11-16 2008-10-02 Alexey Oraevsky System And Method For Compressing And Reconstructing Audio Files
US8569221B2 (en) * 2007-08-30 2013-10-29 Kimberly-Clark Worldwide, Inc. Stain-discharging and removing system
KR101756834B1 (ko) 2008-07-14 2017-07-12 삼성전자주식회사 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
CN101609680B (zh) * 2009-06-01 2012-01-04 华为技术有限公司 压缩编码和解码的方法、编码器和解码器以及编码装置
WO2012119012A1 (en) * 2011-03-02 2012-09-07 New Jersey Institute Of Technology System and method for vascularized biomimetic 3-d tissue models
US20150064142A1 (en) * 2012-04-12 2015-03-05 Harvard Apparatus Regenerative Technology Elastic scaffolds for tissue growth
KR102546098B1 (ko) * 2016-03-21 2023-06-22 한국전자통신연구원 블록 기반의 오디오 부호화/복호화 장치 및 그 방법
KR102650138B1 (ko) * 2018-12-14 2024-03-22 삼성전자주식회사 디스플레이장치, 그 제어방법 및 기록매체

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0335300A (ja) * 1989-06-30 1991-02-15 Fujitsu Ltd 音声符号・復号化伝送方式
JPH0816192A (ja) * 1994-07-04 1996-01-19 Kanebo Ltd データ圧縮装置
JPH1020897A (ja) * 1996-07-01 1998-01-23 Nec Corp 適応変換符号化方式および適応変換復号方式
JPH1188185A (ja) * 1989-01-27 1999-03-30 Dolby Lab Licensing Corp 高品質オーディオ用短時間遅延変換エンコーダ及びデコーダ
JPH11249699A (ja) * 1997-12-04 1999-09-17 Digital Voice Syst Inc 音声パラメータの合同量子化
JP2002368622A (ja) * 2001-06-05 2002-12-20 Sony Corp 符号化装置および方法、復号装置および方法、記録媒体、並びにプログラム
JP2002366195A (ja) * 2001-06-04 2002-12-20 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化パラメータ符号化方法及び装置
JP2003044077A (ja) * 2001-07-26 2003-02-14 Toshiba Corp 音声特徴量抽出方法と装置及びプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1195350B (it) * 1986-10-21 1988-10-12 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante estrazione di para metri e tecniche di quantizzazione vettoriale
US5752225A (en) 1989-01-27 1998-05-12 Dolby Laboratories Licensing Corporation Method and apparatus for split-band encoding and split-band decoding of audio information using adaptive bit allocation to adjacent subbands
US5388181A (en) * 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
JP2878796B2 (ja) * 1990-07-03 1999-04-05 国際電気株式会社 音声符号化器
ZA921988B (en) * 1991-03-29 1993-02-24 Sony Corp High efficiency digital data encoding and decoding apparatus
US5684920A (en) * 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
US5819215A (en) * 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6370502B1 (en) * 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
US7516064B2 (en) * 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1188185A (ja) * 1989-01-27 1999-03-30 Dolby Lab Licensing Corp 高品質オーディオ用短時間遅延変換エンコーダ及びデコーダ
JPH0335300A (ja) * 1989-06-30 1991-02-15 Fujitsu Ltd 音声符号・復号化伝送方式
JPH0816192A (ja) * 1994-07-04 1996-01-19 Kanebo Ltd データ圧縮装置
JPH1020897A (ja) * 1996-07-01 1998-01-23 Nec Corp 適応変換符号化方式および適応変換復号方式
JPH11249699A (ja) * 1997-12-04 1999-09-17 Digital Voice Syst Inc 音声パラメータの合同量子化
JP2002366195A (ja) * 2001-06-04 2002-12-20 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化パラメータ符号化方法及び装置
JP2002368622A (ja) * 2001-06-05 2002-12-20 Sony Corp 符号化装置および方法、復号装置および方法、記録媒体、並びにプログラム
JP2003044077A (ja) * 2001-07-26 2003-02-14 Toshiba Corp 音声特徴量抽出方法と装置及びプログラム

Also Published As

Publication number Publication date
US8019600B2 (en) 2011-09-13
EP1596365B1 (en) 2010-05-19
KR20050108685A (ko) 2005-11-17
EP1596365A1 (en) 2005-11-16
KR101037931B1 (ko) 2011-05-30
JP5280607B2 (ja) 2013-09-04
DE602005021274D1 (de) 2010-07-01
US20060020453A1 (en) 2006-01-26

Similar Documents

Publication Publication Date Title
JP5280607B2 (ja) 音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体
US11355129B2 (en) Energy lossless-encoding method and apparatus, audio encoding method and apparatus, energy lossless-decoding method and apparatus, and audio decoding method and apparatus
JP5788833B2 (ja) オーディオ信号の符号化方法、オーディオ信号の復号化方法及び記録媒体
US7548853B2 (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
EP1440300B1 (en) Encoding device, decoding device and audio data distribution system
CN101223577B (zh) 对低比特率音频信号进行编码/解码的方法和设备
US10909992B2 (en) Energy lossless coding method and apparatus, signal coding method and apparatus, energy lossless decoding method and apparatus, and signal decoding method and apparatus
US7895034B2 (en) Audio encoding system
KR20120121895A (ko) 오디오 신호 처리 방법 및 장치
JP2005328533A (ja) 区間別の線形量子化を利用したデジタル信号符号化/復号化方法及び装置
US10468033B2 (en) Energy lossless coding method and apparatus, signal coding method and apparatus, energy lossless decoding method and apparatus, and signal decoding method and apparatus
JP2005037949A (ja) 広域音声信号の圧縮装置および復元装置ならびに圧縮方法および復元方法
JP2001242891A (ja) 符号化音声信号形式変換装置
EP2993665A1 (en) Method and apparatus for coding or decoding subband configuration data for subband groups
JP2000259190A (ja) オーディオ信号圧縮方法及びオーディオ信号復号方法とオーディオ信号圧縮装置
Mohdar et al. Audio compression testing tool for multimedia applications

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050906

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20061114

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061114

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080502

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110510

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110810

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110815

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111011

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111014

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120703

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121003

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20121113

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121029

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130523

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5280607

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees