JP2006508384A - 音声信号符号化 - Google Patents

音声信号符号化 Download PDF

Info

Publication number
JP2006508384A
JP2006508384A JP2004554728A JP2004554728A JP2006508384A JP 2006508384 A JP2006508384 A JP 2006508384A JP 2004554728 A JP2004554728 A JP 2004554728A JP 2004554728 A JP2004554728 A JP 2004554728A JP 2006508384 A JP2006508384 A JP 2006508384A
Authority
JP
Japan
Prior art keywords
value
parameter
parameters
calculated
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004554728A
Other languages
English (en)
Other versions
JP4538324B2 (ja
Inventor
ヘー ペー スヘイエルス,エリク
ウェー イェー オーメン,アルノルデュス
イェー アー マンス,マテウス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2006508384A publication Critical patent/JP2006508384A/ja
Application granted granted Critical
Publication of JP4538324B2 publication Critical patent/JP4538324B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Abstract

音声信号を符号化する方法では、第1計算値を取得するため、第1時点における音声信号の特徴を表す第1パラメータの値が計算される。第2計算値を取得するため、以降の第2時点における音声信号の特徴を表す第2パラメータの値が計算される。第1パラメータの個数と第2パラメータの個数は異なる。第2パラメータのサブセットは、音声信号の周波数領域の一部と関連付けされる。この音声信号の周波数領域は、好ましくは、音声信号に存在するすべての周波数をカバーするよう選ばれる。第2パラメータのサブセットの値は、当該サブセットと実質的に同一の周波数領域の一部と関連付けされた第1計算値のサブセットとの差に基づき符号化される。従って、第2パラメータの差分的符号化値は、第2パラメータと実質的に同一の周波数サブ領域に関連する第1パラメータとの差を符号化することにより取得される。これにより、パラメータ数が経時的に可変とされてもパラメータを差分的に符号化することが可能となる。

Description

発明の詳細な説明
本発明は、音声信号符号化方法、音声信号の符号化を行うエンコーダ、及び音声信号を供給する装置に関する。
ステレオプログラムコンテンツのビットレートを低減させるために提案されてきた音声コーダにおける従来技術による手段は、intensity stereoとM/S stereoを有する。
intensity stereoアルゴリズムでは、高周波数(典型的には、5kHz以上)は、当該周波数領域に対するもとのステレオ信号に類似した復号化音声信号を復元することを可能にする時間可変及び周波数依存スケールファクタとインテンシティファクタと合成された単一の(すなわち、モノラル)音声信号により表される。
M/Sアルゴリズムでは、信号は和(ミッドまたはコモン)信号と差(サイドまたは非コモン)信号に分解される。この分解は、主成分解析または時間可変スケールファクタとときには合成される。その後、これらの信号は、変換コーダまたはサブバンドコーダ(それらは何れも波形コーダである)によって独立に符号化される。このアルゴリズムにより実現される情報量の低減は、ソース信号の空間プロパティに強く依存する。例えば、ソース信号がモノラルである場合、差信号はゼロであり、破棄することができる。しかしながら、左右の音声信号の相関が低い場合(しばしば、高周波数領域に対するケースである)、このスキームは、わずかなビットレートの低下しか提供しない。低周波数領域では、M/S符号化は、一般に大きな効果を与える。
音声信号のパラメータ記述は、特に音声符号化の分野において近年関心が高まっている。音声信号を記述する(量子化)パラメータの送信は、受信側での知覚的に実質等価な信号を再合成するための送信キャパシティをほとんど必要としない。1つのタイプのパラメータ音声コーダは、モノラル信号の符号化に焦点をあて、ステレオ信号はデュアルモノラル信号として処理される。
他のタイプのパラメータ音声コーダが、EP−A−1107232に開示されている。このパラメータ音声エンコーダは、パラメータ符号化スキームを利用して、左右のチャネル信号から構成されるステレオ音声信号の一表現を生成する。送信帯域幅を効率的に利用するため、このような表現は、左右のチャネル信号の組み合わせであるモノラル信号のみに関する情報と、パラメータ情報を有する。ステレオ信号は、パラメータ情報と共にモノラル信号に基づき復元することができる。このパラメータ情報は、左右のチャネルの強度と位相特性を含むステレオ音声信号のローカライゼーションキュー(localization cue)を有する。
パラメータ情報は、パラメータが決定される音声信号の周波数領域における音声信号の特徴を決定するパラメータにより表される。符号化された音声信号は、符号化されたモノラル音声信号と、符号化される音声信号の完全な帯域幅または周波数領域に対して決定される1つのグローバルパラメータ(またはグローバルパラメータセット)及び/または音声信号の周波数領域の対応するサブ領域(当該周波数領域のサブ領域はまたbinと呼ばれる)に対して決定される1以上のローカルパラメータ(またはローカルパラメータセット)から構成されてもよい。
多くの音声符号化スキームでは、経時的に値が変動するパラメータが用いられる。例えば、MPEG−1、レイヤーIII(mp3)、AAC(Advanced Audio Coding)のような波形コーダでは、MDCT(Modified Discrete Cosine Transfer)係数の個数は、経時的に変動しうる。
未公開の欧州特許出願第2002 02076588.9号(代理人整理番号PHNL020356)は、パラメータステレオ表示に用いられる周波数サブ領域(binと呼ばれる)の個数は、フレームごとに可変とすることが可能である。
未公開の欧州特許出願第2002 0277869.2号(代理人整理番号PHNL020692)は、連続するフレームの対応するパラメータが経時的に差分的に符号化することができるということを開示している。このようにして、時間方向への冗長性を取り除くことができる。パラメータの個数は、連続するフレームにおいて同一である。
E.G.P Schuijersらによる「Advances in Parametric coding for high−quality audio」(1st IEEE Benelux Workshop on Model based Processing and Coding of Audio(MPCA2002),Leuven Belgium,Nov.15,2002)において、パラメータステレオ記述により拡張されたパラメータ符号化スキームが記載されている。この記載では、IID(Inter−channel Intensity Differences)、ITD(Inter−channel Time Differences)及びICC(Inter−channel Cross Correlation)の3つのパラメータにより、バイノラルキュー(binaural cue)のモデル化が試みられている。これらのパラメータは、人間の聴覚系に類似した非一様周波数格子上で推定される。この格子上の周波数binの個数は、典型的には20である。欧州特許出願第2002 02077869.2号では、上記パラメータの符号化のためのスケーラブルアプローチが提案されている。
このパラメータ符号化スキームでは、フレーム単位にスペクトルエンベロープの記述に用いられるLPC(Linear Predictive Coding)係数の個数を変更する可能性が存在する。
本発明の第1の特徴は、請求項1記載の音声信号を符号化する方法を提供する。本発明の第2の特徴は、請求項10記載の音声信号を符号化するエンコーダを提供する。本発明の第3の特徴は、請求項11記載の音声信号を供給する装置を提供する。効果的な実施例が従属クレームにより定義される。
本発明の第1の特徴による方法では、パラメータ数が連続するフレームにおいて異なるとき、差分的符号化が実行される。これにより、パラメータのより効率的な符号化が提供され、符号化されたパラメータに必要とされる帯域幅をより少なくすることができる。
音声信号を符号化する方法では、第1計算値を取得するため、第1時点における音声信号の特徴を表す第1パラメータの値が計算される。第2計算値を取得するため、以降の第2時点における音声信号の特徴を表す第2パラメータの値が計算される。第1パラメータの個数と第2パラメータの個数は異なる。第2パラメータのサブセットは、音声信号の周波数領域の一部と関連付けされる。第2パラメータのサブセットの値は、当該サブセットと実質的に同一の周波数領域の一部と関連付けされた第1計算値のサブセットとの差に基づき符号化される。
これにより、パラメータ数が経時的に可変とされてもパラメータを差分的に符号化することが可能となる。
請求項2に定義される実施例では、周波数サブ領域、すなわちbinにおいて、第1時点での第1フレームでの利用のため、1つのパラメータを計算する必要がある。当該実質的に同一の周波数サブ領域では、第2時点での第2フレームでの利用のため、複数のパラメータを計算する必要がある。第2フレームで利用される複数のパラメータの各々は、1つのパラメータの値に関する各自の差に基づき差分的に符号化される。
複数のパラメータの1つがある周波数サブ領域により完全にはカバーされていない周波数サブ領域と関連付けされているため、これらの周波数サブ領域が同一でない場合には、当該パラメータが1つのパラメータと当該パラメータによりカバーされていない周波数領域に関連するパラメータとに関して符号化されるという訂正が適用されてもよい。
請求項3に定義される実施例では、ある周波数サブ領域、すなわちbinにおいて、複数のパラメータが第1時点での第1フレームでの利用のため計算される必要がある。実質的に同一なこの周波数サブ領域では、1つのパラメータが第2時点での第2フレームにおける利用のため計算される必要がある。1つのパラメータの値が、複数のパラメータの平均値に関して差分的に符号化される。
請求項4に定義される実施例では、この平均値は複数のパラメータの値の加重和として計算される。
請求項5に定義される実施例では、すべての重みは、第2フレームの1つのパラメータに対応する第1フレームの複数のパラメータの個数により除されたものに等しくされる。
請求項6に定義される実施例では、これらの重みは、対応する周波数のサイズに対応する複数のパラメータのそれぞれに対して選択される。
請求項7に定義される実施例では、周波数サブ領域は、1つのパラメータの周波数サブ領域が複数のパラメータの1つの周波数領域を部分的にしかカバーしないということから同一ではなく、当該1つのパラメータの値の平均値への寄与は、複数のパラメータのその他のものより小さい。好ましくは、それの貢献度は、複数のパラメータの周波数領域を部分的にしかカバーしない1つのパラメータの周波数サブ領域によりカバーされる複数のパラメータの周波数領域の割合に依存する。
請求項8に定義される実施例では、音声信号は異なるパラメータセットにより符号化される。音声信号の周波数領域全体に対して、グローバルパラメータが計算される。これらのグローバルパラメータは、基本(低)クオリティにより音声信号を復号化することを可能にする。復号された音声信号のクオリティを向上させるため、補助的パラメータが符号化される。当該補助的パラメータの個数は経時的に可変とされてもよい。第1フレーム期間中に必要とされる第1パラメータの個数は、後続の第2フレーム期間中に必要とされる第2パラメータの個数より少ない。第1パラメータと第2パラメータの対応するものの各々は、実質的に同一の周波数サブ領域をカバーする。第2パラメータ値が符号化される必要のある周波数サブ領域では、当該パラメータ値は、実質的に同一の周波数サブ領域に関する対応する第1パラメータの値に関して差分的に符号化される。第2パラメータが符号化される必要があるが、対応する第1パラメータの値が利用可能でない周波数領域では、第2パラメータの値はグローバル値に関して差分的に符号化される。
請求項9に定義される実施例では、音声信号は異なるパラメータセットにより符号化される。音声信号の周波数領域全体に対してグローバルパラメータが計算される。これらのグローバルパラメータは、基本(低)クオリティにより音声信号を復号化することを可能にする。復号された音声信号のクオリティを向上させるため、補助的パラメータが符号化される。当該補助的パラメータの個数は経時的に可変とされてもよい。第1フレーム期間中に必要とされる第1パラメータの個数は、後続の第2フレーム期間中に必要とされる第2パラメータの個数より多い。第1パラメータと第2パラメータの対応するものの各々は、実質的に同一の周波数サブ領域をカバーする。第2パラメータ値が符号化される必要のある周波数サブ領域では、当該パラメータ値は、実質的に同一の周波数サブ領域に関する対応する第1パラメータの値に関して差分的に符号化される。第1パラメータの値が利用可能であるが、対応する第2パラメータが符号化される必要がない周波数領域では、アクションは必要でない。
本発明の上記及び他の特徴は、以下に開示される実施例を参照することにより明らかとなるであろう。
異なる図での同一の参照符号は、同一の機能を実行する同一の要素または同一の信号を参照するものである。
図1は、本発明の一実施例によるエンコーダのブロック図を示す。入力INは、音声信号1を受け取る。この音声信号1は、データリダクションが達成されるように符号化される必要がある。データリダクションは、音声信号の特徴をパラメータにより表すことにより可能となる。これらのパラメータは、音声信号1のある周波数領域内での音声信号の特徴を定義する。音声信号1の周波数領域は、音声信号1に存在するすべての周波数をカバーするものであってもよいし、あるいは音声信号1に存在する周波数のサブ領域であってもよい。パラメータは、可変的な音声信号1を表すことができるように、時間に関して定期的に決定される必要がある。通常、これらのパラメータは、フレームと呼ばれる一定の時間間隔において決定及び符号化される。音声信号1がパラメータによってどのように表されるか、そしてパラメータがどのように符号化されるかということは、本発明には重要ではなく、多くの既知のアプローチが実現されてもよい。本発明は、符号化されるパラメータの個数が連続するフレームにおいて異なるときでさえ、パラメータが差分的に符号化されるという事実に関する。
計算ユニット2は、音声信号1を受け取り、フレームごとに計算された値を供給する。この計算値3は、差分的に符号化されるべきパラメータを表す。符号化された値は、特定のフレームにおいて利用可能であるべきである。メモリ4は、フレームごとの計算値3を格納し、格納した値5を供給する。エンコーダ6は、現在のフレームの計算値3と前のフレームの格納値5の差分を符号化し、差分符号化パラメータ値7を供給する。この差分符号化パラメータ値7は、出力OUTにおいて符号化音声信号9を供給するため、ユニット8において符号化モノラル音声信号と合成されてもよい。
エンコーダは、専用ハードウェアを有するものであってもよいし、あるいは上記計算及びその他のステップを実行する適切にプログラムされたプロセッサであってもよい。
図2は、第1フレームt1期間におけるパラメータ数が第2フレームt2期間より少ない状況を概略的に示す。パラメータP1,1〜P1,4(P1,iとして表される)と、それらに関連する周波数サブ領域SFRA1〜SFRA4(SFRAiとして表される)が、第1フレームt1の左側に示される。パラメータP2,1〜P2,16(P2,iとして表される)と、それらに関連する周波数サブ領域SFRB1〜SFRB16(SFRBiとして表される)が、第1フレームt1に続く第2フレームt2の右側に示される。
パラメータP1,iは計算値Aiを有し、パラメータP2,iは計算値Biを有する。P1,iまたはP2,iの具体的な値は、インデックスiを代入することにより得られる。
トータルの周波数領域は、FRにより示される。第1計算値のサブセットSUS,iはそれぞれ1つの計算値A1,iを有する。第2計算値のサブセットSUS2,iはそれぞれ複数の計算値A2,iを有する(図2で示される例では4つ)。
この結果、同じ周波数サブ領域SFRAiに対応する関連するサブセットSUS1,iとSUS2,iでは、常に4つの第2計算値Biが1つの第1計算値Aiに対応している。4つの第2計算値Biの各々は、同じ第1計算値Aiに関して差分的に符号化されている。このことは、4つの符号化値のそれぞれが対応する第2計算値Biマイナス第1計算値Aiに等しいということを意味している。
図3は、第1フレーム期間中のパラメータ数が第2フレーム期間中より少ない状況の他の概略表示を示す。図2と対照的に、周波数サブ領域SFRB1〜SFRB4を合成することにより得られる周波数サブ領域は、周波数領域SFRA1と同一ではなく、若干小さい。周波数サブ領域SFRB5は、一部は周波数SFRA1において、一部は周波数領域SFRA2において発生する。パラメータP2,1〜P2,4の符号化値は、パラメータP1,1の値A1に関して差分的に符号化される。パラメータP2,5の符号化値は、パラメータP1,2のA1またはA2の値の何れかに関して差分的に符号化されてもよい。パラメータP2,5の値をB5の値とA1とA2の値の加重和との差として符号化することができる。好ましくは、これらの値A1とA2は、それぞれ周波数領域SFRA1とSFRA2と周波数領域SFRB5との重複部分に従って重み付けされる。
図4は、第1フレーム期間中のパラメータ数が第2フレーム期間中より大きい状況を概略的に示す。図4は、図2に示される状況と類似しているが、フレームt1は、後続するフレームt2より多くのパラメータP1,iを有する。
パラメータP2,1とP2,2(P2,iとして示される)と、それらに関連する周波数サブ領域SFRB1とSFRB2(SFRBiとして示される)が、第2フレームt2の右側に示される。パラメータP1,1〜P1,7(P1,iとして示される)と、それらに関連する周波数サブ領域SFRA1〜SFRA7(SFRAiとして示される)が、第1フレームt1の左側に示される。
パラメータP1,iは計算値Aiを有し、パラメータP2,iは計算値Biを有する。パラメータP1,iまたはP2,iの具体的な値は、インデックスiに代入することにより得られる。
第2計算値サブセットSUS2,iの各々は、1つの計算値Biを有する。第1計算値サブセットSUS1,iの各々は、複数の計算値Aiを有する(図4に示される例では、3つである)。
この結果、同一の周波数サブ領域SFRBiに対応する関連するサブセットSUS1,iとSUS2,iでは、常に1つの第2計算値Biは、3つの第1計算値Aiに対応している。
第2計算値Biは、関連する計算値Aiのグループの計算された加重平均に関して差分的に符号化される。Aiの値とBiの値は、それらが周波数領域SFRBi内部に生じるか、あるいは少なくとも部分的に重複する周波数サブ領域SFRAiに属するパラメータP1,iに属する場合、関連しあっている。
加重平均は以下のように計算される。
Figure 2006508384
ただし、Vグループはグループパラメータ値を表し、Mは関連する計算値Aiのグループに属するパラメータの個数であり、qiは以下のような重み関数である。
Figure 2006508384
例えば、重みqiは1/Mとなるよう選ばれ、パラメータが属するbinまたは周波数サブ領域のサイズが適切な選択である。
図5は、第1フレーム期間中のパラメータ数が第2フレーム期間中より大きい状況の他の概略表示である。
図4の例では、フレームt1のグループに属するbinは、常にフレームt2の1つのbinの中に完全に含まれる。これは図5に示されるケースと異なり、A3の値に関連するbinがB1の値に関連するbinの内部に一部のみ属する。B1の値の重みに関する差分的符号化では、A3の値の重みはより小さいものとして選ばれるかもしれない。好ましくは、この重みの減少は、binB1内に完全に属するA1及びA2のbinの一部としてB1のbin内に属するA3のbinの一部に関連付けされる。
例えば、図2〜5に示されるような差分的符号化は、E.G.P Schuijersらによる「Advances in Parametric coding for high−quality audio」(1st IEEE Benelux Workshop on Model based Processing and Coding of Audio(MPCA2002),Leuven Belgium,Nov.15,2002)に示されるようなパラメータ符号化スキームに関連し、そこでは、クオリティ/ビットレートのトレードオフにより、IID/ITD/ICCパラメータに用いられるbinの個数は、典型的である20個の代わりに、10〜40の周波数binに切り替えられてもよい。
図6は、第1フレーム期間中のパラメータ数が第2フレーム期間中より少ない状況を概略的に示す。
図2〜5は、ある固定された周波数領域SFに対応する可変数のパラメータP1,iとP2,i(の集合)を示す。これによると、パラメータ数が変化する場合、周波数サブ領域SFRAiまたはSFRBiのサイズは、すべての周波数サブ領域SFRAiまたはSFRBiが、固定された周波数領域SFをカバーするよう変化する。
あるいは、図6及び7に示されるように、各パラメータP1,iとP2,iはそれぞれ、周波数領域SFRAiとSFRBiに属するかもしれない。すなわち、特定のパラメータP1,iまたはP2,iにより適用される周波数領域SFRAiまたはSFRBiは一定である。フレームt1またはt2のパラメータP1,iとP2,iの個数が変化する場合、すべての周波数領域SFRAiまたはSFRBiによりカバーされる周波数領域のトータルサイズは可変となる。これは、ITDパラメータのケースであるかもしれない。
フレームt1において、最左カラムは、トータルの周波数領域FRに対する音声信号1の特徴を表すグローバルパラメータGB1を示す。隣接カラムは、C1〜C5により示される5つのパラメータ(IID及び/またはICCパラメータなどのパラメータセット)を示す。各パラメータCi(またはパラメータセット)は、トータルの周波数領域FRの関連する周波数サブ領域に該当する。これらの周波数サブ領域は一緒になってトータル周波数領域FRをカバーする。フレームt1の最右カラムは、2つのパラメータ(パラメータセット)がA1とAの値によりそれぞれ確定される2つの周波数サブ領域SFRA1とSFRA2を示す。
フレームt2では、最左カラムは、グローバルパラメータGB1に対応するグローバルパラメータGB2を示す。中間のカラムは、パラメータC1〜C5に対応する5つのパラメータD1〜D5を示す。GB1とD1〜D5に関連付けされた周波数領域はそれぞれ、GB2とC1〜C5に関連付けされた周波数領域と同一となる。フレームt2の最右カラムは、3つの周波数サブ領域SFRB1〜SFRB3と、関連するパラメータの3つの値B1〜B3を示す。B1とB2の値に関連付けされた周波数サブ領域SFRB1とSFRB2はそれぞれ、A1とA2の値に関連付けされた周波数サブ領域SFRA1とSFRA2と同一である。B1とB2の値はそれぞれ、A1とA2の値に関して差分的符号化される。フレームt1にフレームt2の周波数サブ領域SFRB3に対応する周波数サブ領域が存在しない場合、フレームt1の値に関してB3の値を差分的に符号化することはできない。さらに、グローバルパラメータGB2に関してB3の値を符号化することにより、データリダクションが可能である。
従って一般には、あるフレームのAiの値を有するパラメータのbinの個数が次のフレームのBiの値を有する対応するパラメータのbinの個数より小さい場合、両方のフレームに実際に存在するbinのみに対して差分的符号化が実行される。先行するものを有さないbinは、グローバル値GB2に関して差分的に符号化される。
図7は、第1フレーム期間中のパラメータの個数が第2フレーム期間中により大きい状況の概略表示を示す。
フレームt1では、最左カラムは、トータル周波数領域FRに対する音声信号1の特徴を表すグローバルパラメータGB1を示す。隣接する中間カラムは、C1〜C5により示される5つのパラメータ(例えば、IID及び/またはICCなどのパラメータセット)を示す。各パラメータ(またはパラメータセット)Ciは、トータル周波数領域FRの関連する周波数サブ領域に該当する。周波数サブ領域は一緒になって、トータル周波数領域FRをカバーする。フレームt1の最右カラムは、3つのパラメータ(またはパラメータセット)がA1〜A3の各値により確定される3つの周波数サブ領域SFRA1〜SFRA3を示す。
フレームt2では、最左カラムは、グローバルパラメータGB1に対応するグローバルパラメータGB2を示す。中間カラムは、パラメータC1〜C5に対応する5つのパラメータD1〜D5を示す。GB1及びD1〜D5に関連する周波数領域はそれぞれ、GB2及びC1〜C5に関連する周波数領域と同一である。フレームt2の最右カラムは、2つの周波数サブ領域SFRB1とSFRB2及び関連するパラメータの値であるB1とB2を示す。B1とB2に関連する周波数サブ領域SFRB1とSFRB2は、A1とA2の値に関連する周波数サブ領域SFRA1とSFRA2と同一である。B1とB2の値はそれぞれ、A1とA2の値に関して差分的に符号化される。
従って一般には、あるフレームのAiの値を有するパラメータのbinの個数が次のフレームのBiの値を有する対応するパラメータのbinの個数より大きい場合、両方のフレームに実際に存在するbinのみに対して差分的符号化が実行される。
図6及び7の両方に関して説明された符号化アルゴリズムは、ビットストリームにおける信号処理を必要としない。
例えば、図6及び7に示されるような状況では、AiとBiの値は、ITDbinの個数を表すかもしれず、実際の実現では、ITDのbinの個数は、11〜16において可変とされてもよい。
上記実施例は、本発明を限定するのでなく、例示するためのものであり、当業者は、添付された請求項の範囲から逸脱することなく他の多くの実施例を構成することができるであろう。
例えば、連続するフレームの対応するbinのオアらメータの変更及び絶対数は、単なる一例である。実際的な状況では、binの個数は実際の音声信号と復号される音声のクオリティに依存するかもしれない(または利用可能な最大ビットストリーム)。例えば、図6及び7に示される状況では、AiとBiの値はITDbinの個数を表すものであってもよい。特に実際的な状況では、ITDbinの個数は、11〜16の間で可変とされてもよい。
請求項では、括弧内の任意の参照符号は当該請求項を限定するものとして解釈されるべきでない。「有する」という用語は、請求項に列挙された以外の要素またはステップの存在を排除するものでない。本発明は、複数の要素を有するハードウェアにより実現することも可能であるし、あるいは適切にプログラムされたコンピュータにより実現することも可能である。複数の手段を列挙した装置クレームでは、これら複数の要素が1つのハードウェアアイテムにより実現されてもよい。ある手段が相互に異なる従属クレームに記載されるという事実は、これらの手段の組み合わせが効果的に利用できないということを示すものではない。
図1は、本発明の一実施例によるエンコーダのブロック図を示す。 図2は、第1フレーム期間中のパラメータ数が第2フレーム期間中より少ない状況の概略表示を示す。 図3は、第1フレーム期間中のパラメータ数が第2フレーム期間中より少ない状況の他の概略表示を示す。 図4は、第1フレーム期間中のパラメータ数が第2フレーム期間中より多い状況の概略表示を示す。 図5は、第1フレーム期間中のパラメータ数が第2フレーム期間中より多い状況の他の概略表示を示す。 図6は、第1フレーム期間中のパラメータ数が第2フレーム期間中より少ない状況の概略表示を示す。 図7は、第1フレーム期間中のパラメータ数が第2フレーム期間中より多い状況の概略表示を示す。

Claims (11)

  1. 音声信号を符号化する方法であって、
    第1計算値を取得するため、第1時点において前記音声信号の特徴を表す第1個数の第1パラメータの値を計算するステップと、
    第2計算値を取得するため、以降の第2時点において前記音声信号の特徴を表す前記第1個数と異なる第2個数の第2パラメータの値を計算するステップと、
    前記第2パラメータの差分的符号化値を取得するため、前記音声信号の周波数領域の一部に関連する前記第2パラメータのサブセットを、前記周波数領域の一部に関連する前記第2計算値のサブセットと前記周波数領域の一部と実質的に関連する前記第1計算値のサブセットとの差に基づき符号化するステップと、
    を有することを特徴とする方法。
  2. 請求項1記載の方法であって、
    前記第1パラメータと前記第2パラメータは一緒になって前記同一の周波数領域を実質的にカバーし、
    前記第1パラメータの個数は、前記第2パラメータの個数より少なく、
    前記第1計算値のサブセットは、前記実質的に同一の周波数領域のサブ領域である前記周波数領域の一部に対する1つの値を有し、
    前記第2計算値のサブセットは、各々が前記1つの値と対応する第2計算値との差に基づき差分的符号化値の1つに対応する少なくとも2つの第2計算値を有する、
    ことを特徴とする方法。
  3. 請求項1記載の方法であって、
    前記第1パラメータと前記第2パラメータは一緒になって前記同一の周波数領域を実質的にカバーし、
    前記第1パラメータの個数は、前記第2パラメータの個数より多く、
    前記第2計算値のサブセットは、前記実質的に同一の周波数領域のサブ領域である前記周波数領域の一部に対する1つの値を有し、
    前記第1パラメータのサブセットは、少なくとも2つの第1計算値を有し、
    前記1つの値に対応する差分的符号化値は、前記1つの値と対応する第1計算値の平均値との差に基づく、
    ことを特徴とする方法。
  4. 請求項3記載の方法であって、
    前記平均値は、重みqiによる前記第1計算値の加重和として計算されることを特徴とする方法。
  5. 請求項4記載の方法であって、
    前記重みqiは1/Mに等しく、
    前記Mは、前記周波数領域の一部と少なくとも部分的に重複する周波数サブ領域と関連する第1パラメータの個数である、
    ことを特徴とする方法。
  6. 請求項4記載の方法であって、
    前記重みqiは、前記第1パラメータの対応するものに関連する周波数サブ領域のサイズに関することを特徴とする方法。
  7. 請求項4記載の方法であって、
    前記第2パラメータの周波数領域の一部と完全には重複しない周波数サブ領域と関連する第1パラメータの重みqiは減少されることを特徴とする方法。
  8. 請求項1記載の方法であって、さらに、
    前記音声信号の周波数領域全体に対するグローバル値を計算するステップを有し、
    前記第1パラメータと前記第2パラメータの対応するものの各々は、前記同一の周波数領域を実質的にカバーし、
    前記第1パラメータの個数は、前記第2パラメータの個数より少なく、
    前記第1計算値のサブセットは、前記第1パラメータの各々に対する値を有し、
    前記第2計算値のサブセットは、前記第2パラメータの各々に対する値を有し、
    第1及び第2計算値の両方が計算される周波数領域では、前記差分的符号化値は、前記対応する第1計算値と第2計算値との差に基づき、
    第2パラメータは計算されるが、第1パラメータは計算されない周波数領域では、前記差分的符号化値は、前記対応する第2パラメータと前記グローバル値との差に基づく、
    ことを特徴とする方法。
  9. 請求項1記載の方法であって、
    前記第1パラメータと前記第2パラメータの対応するものの各々は、前記同一の周波数領域を実質的にカバーし、
    前記第1パラメータの個数は、前記第2パラメータの個数より多く、
    前記第1計算値のサブセットは、前記第1パラメータの各々に対する値を有し、
    前記第2計算値のサブセットは、前記第2パラメータの各々に対する値を有し、
    第1及び第2計算値の両方が計算される周波数領域では、前記差分的符号化値は、前記対応する第1計算値と第2計算値との差に基づき、
    第1パラメータは計算されるが、第2パラメータは計算されない周波数領域では、前記差分的符号化値は、決定される必要がない、
    ことを特徴とする方法。
  10. 音声信号を符号化するエンコーダであって、
    第1計算値を取得するため、第1時点において前記音声信号の特徴を表す第1個数の第1パラメータの値を計算する手段と、
    第2計算値を取得するため、以降の第2時点において前記音声信号の特徴を表す前記第1個数と異なる第2個数の第2パラメータの値を計算する手段と、
    前記第2パラメータの差分的符号化値を取得するため、前記音声信号の周波数領域の一部に関連する前記第2パラメータのサブセットを、前記周波数領域の一部に関連する前記第2計算値のサブセットと前記周波数領域の一部と実質的に関連する前記第1計算値のサブセットとの差に基づき符号化する手段と、
    を有することを特徴とするエンコーダ。
  11. 音声信号を供給する装置であって、
    音声信号を受信する入力と、
    符号化音声信号を取得するため、前記音声信号を符号化する請求項10記載のエンコーダと、
    前記符号化音声信号を供給する出力と、
    を有することを特徴とする装置。
JP2004554728A 2002-11-28 2003-10-31 音声信号符号化 Expired - Fee Related JP4538324B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02080008 2002-11-28
PCT/IB2003/004864 WO2004049309A1 (en) 2002-11-28 2003-10-31 Coding an audio signal

Publications (2)

Publication Number Publication Date
JP2006508384A true JP2006508384A (ja) 2006-03-09
JP4538324B2 JP4538324B2 (ja) 2010-09-08

Family

ID=32338131

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004554728A Expired - Fee Related JP4538324B2 (ja) 2002-11-28 2003-10-31 音声信号符号化

Country Status (14)

Country Link
US (1) US7644001B2 (ja)
EP (1) EP1568010B1 (ja)
JP (1) JP4538324B2 (ja)
KR (1) KR101008520B1 (ja)
CN (1) CN100405460C (ja)
AT (1) ATE348386T1 (ja)
AU (1) AU2003274520A1 (ja)
BR (1) BR0316611A (ja)
DE (1) DE60310449T2 (ja)
ES (1) ES2278192T3 (ja)
MX (1) MXPA05005602A (ja)
PL (1) PL376889A1 (ja)
RU (1) RU2005120236A (ja)
WO (1) WO2004049309A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7583805B2 (en) 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
CN1922654A (zh) * 2004-02-17 2007-02-28 皇家飞利浦电子股份有限公司 音频分发系统、音频编码器、音频解码器及其操作方法
US7805313B2 (en) 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
US8204261B2 (en) 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
EP1817767B1 (en) 2004-11-30 2015-11-11 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
US7761304B2 (en) 2004-11-30 2010-07-20 Agere Systems Inc. Synchronizing parametric coding of spatial audio with externally provided downmix
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
US7903824B2 (en) 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
KR100707177B1 (ko) * 2005-01-19 2007-04-13 삼성전자주식회사 디지털 신호 부호화/복호화 방법 및 장치
CN101283252B (zh) * 2005-10-05 2013-03-27 Lg电子株式会社 信号处理的方法和装置以及编码和解码方法及其装置
EP1946556A4 (en) * 2005-10-13 2009-12-30 Lg Electronics Inc METHOD AND APPARATUS FOR PROCESSING SIGNALS
US8199828B2 (en) 2005-10-13 2012-06-12 Lg Electronics Inc. Method of processing a signal and apparatus for processing a signal
BRPI0707969B1 (pt) * 2006-02-21 2020-01-21 Koninklijke Philips Electonics N V codificador de áudio, decodificador de áudio, método de codificação de áudio, receptor para receber um sinal de áudio, transmissor, método para transmitir um fluxo de dados de saída de áudio, e produto de programa de computador
KR101346771B1 (ko) * 2007-08-16 2013-12-31 삼성전자주식회사 심리 음향 모델에 따른 마스킹 값보다 작은 정현파 신호를효율적으로 인코딩하는 방법 및 장치, 그리고 인코딩된오디오 신호를 디코딩하는 방법 및 장치
CN102656628B (zh) * 2009-10-15 2014-08-13 法国电信公司 优化的低吞吐量参数编码/解码
TWI665659B (zh) * 2010-12-03 2019-07-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
EP2477418B1 (en) * 2011-01-12 2014-06-04 Nxp B.V. Signal processing method
KR20140117931A (ko) 2013-03-27 2014-10-08 삼성전자주식회사 오디오 디코딩 장치 및 방법
US10692030B2 (en) * 2016-06-21 2020-06-23 Amazon Technologies, Inc. Process visualization platform

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08195722A (ja) * 1995-01-17 1996-07-30 Nec Corp スペクトルパラメータを用いた音声信号伝送システムおよびそれに用いられる音声パラメータ符号化装置および復号化装置
WO2000079519A1 (en) * 1999-06-18 2000-12-28 Koninklijke Philips Electronics N.V. Audio transmission system having an improved encoder

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19742655C2 (de) * 1997-09-26 1999-08-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals
US6029126A (en) * 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder
US6539357B1 (en) 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
WO2003090207A1 (en) 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. Parametric multi-channel audio representation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08195722A (ja) * 1995-01-17 1996-07-30 Nec Corp スペクトルパラメータを用いた音声信号伝送システムおよびそれに用いられる音声パラメータ符号化装置および復号化装置
WO2000079519A1 (en) * 1999-06-18 2000-12-28 Koninklijke Philips Electronics N.V. Audio transmission system having an improved encoder

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN5005011957, JENSEN J., et al., "OPTIMAL TIME−DIFFERNTIAL ENCODING OF SINUSOIDAL MODEL PARAMETERS", SYMPOSIUM ON INFORMATION THEORY IN THE BENELUX, 200105, P1−8 *
JPN5005011958, EDLER B., et al., "ASAC − Analysis/Synthesis Audio Codec for Very Low Bit Rates", PREPRINTS OF PAPERS PRESENTED AT THE AES CONVENTION, 19960511, P1−15 *
JPN5005011959, FALLER C., et al., "Binaural Cue Coding Applied to Stereo and Multi−Channel Audio Compression", AUDIO ENGINEERING SOCIETY, 112TH CONVENTION, 20020510, P1−9 *

Also Published As

Publication number Publication date
ES2278192T3 (es) 2007-08-01
US7644001B2 (en) 2010-01-05
KR20050086809A (ko) 2005-08-30
BR0316611A (pt) 2005-10-11
CN100405460C (zh) 2008-07-23
US20060147047A1 (en) 2006-07-06
EP1568010B1 (en) 2006-12-13
MXPA05005602A (es) 2005-07-26
JP4538324B2 (ja) 2010-09-08
AU2003274520A1 (en) 2004-06-18
DE60310449T2 (de) 2007-10-31
DE60310449D1 (de) 2007-01-25
PL376889A1 (pl) 2006-01-09
WO2004049309A1 (en) 2004-06-10
RU2005120236A (ru) 2006-01-20
ATE348386T1 (de) 2007-01-15
EP1568010A1 (en) 2005-08-31
KR101008520B1 (ko) 2011-01-14
CN1717577A (zh) 2006-01-04

Similar Documents

Publication Publication Date Title
JP4538324B2 (ja) 音声信号符号化
AU2016231283B2 (en) Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
JP5485909B2 (ja) オーディオ信号処理方法及び装置
KR101143225B1 (ko) 오디오 인코더 및 오디오 디코더에서의 컴퓨터 구현 방법및 컴퓨터 판독 가능 매체
JP4887307B2 (ja) ニアトランスペアレントまたはトランスペアレントなマルチチャネルエンコーダ/デコーダ構成
JP5122681B2 (ja) パラメトリックステレオアップミクス装置、パラメトリックステレオデコーダ、パラメトリックステレオダウンミクス装置、及びパラメトリックステレオエンコーダ
EP0858067B1 (en) Multichannel acoustic signal coding and decoding methods and coding and decoding devices using the same
US20120134511A1 (en) Multichannel audio coder and decoder
RU2665913C2 (ru) Устройство и способ формирования расширенного сигнала с использованием заполнения независимым шумом
KR101679083B1 (ko) 2개의 블록 변환으로의 중첩 변환의 분해
JP6289613B2 (ja) オブジェクト特有時間/周波数分解能を使用する混合信号からのオーディオオブジェクト分離
KR101387808B1 (ko) 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
CN105336334B (zh) 多声道声音信号编码方法、解码方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100525

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100621

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130625

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees