JP2004170494A - 音声符号化装置,音声符号化方法 - Google Patents
音声符号化装置,音声符号化方法 Download PDFInfo
- Publication number
- JP2004170494A JP2004170494A JP2002333436A JP2002333436A JP2004170494A JP 2004170494 A JP2004170494 A JP 2004170494A JP 2002333436 A JP2002333436 A JP 2002333436A JP 2002333436 A JP2002333436 A JP 2002333436A JP 2004170494 A JP2004170494 A JP 2004170494A
- Authority
- JP
- Japan
- Prior art keywords
- prediction
- signal
- prediction coefficient
- residual signal
- predictor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】入力される音声信号をロスレス符号化する音声符号化装置において,予測器における音声信号の予測精度を向上させ,ひいては,該音声信号の圧縮率を向上させること。
【解決手段】入力される音声信号を所定サンプル数毎に取得するバッファ201と,複数の予測係数が適用され,夫々の前記予測係数により過去の前記音声信号から現在の前記音声信号の予測信号を予測する予測器202と,夫々の予測信号と前記音声信号との間の残差信号を算出する残差器212と,前記残差信号及び該残差信号の算出に使用された前記予測信号を予測する際に適用された前記予測係数を特定する情報とを符号化する符号器203と,符号化された前記残差信号及び前記予測係数を特定する情報の符号長に基づいて,複数の前記予測手段のうち一つを選択する符号長計算選択器204と,を具備してなることを特徴とする音声符号化装置として構成する。
【選択図】図1
【解決手段】入力される音声信号を所定サンプル数毎に取得するバッファ201と,複数の予測係数が適用され,夫々の前記予測係数により過去の前記音声信号から現在の前記音声信号の予測信号を予測する予測器202と,夫々の予測信号と前記音声信号との間の残差信号を算出する残差器212と,前記残差信号及び該残差信号の算出に使用された前記予測信号を予測する際に適用された前記予測係数を特定する情報とを符号化する符号器203と,符号化された前記残差信号及び前記予測係数を特定する情報の符号長に基づいて,複数の前記予測手段のうち一つを選択する符号長計算選択器204と,を具備してなることを特徴とする音声符号化装置として構成する。
【選択図】図1
Description
【0001】
【発明の属する技術分野】
本発明は,入力される音声信号を可逆符号化する符号化装置に係り,詳しくは,符号長の異なる予測係数が適用される予測器を複数備え,それら予測器から最適な予測器を選択することで,前記音声信号の高効率な圧縮を実現可能にする符号化装置に関する。
【0002】
【従来の技術】
近年,音声信号の冗長性を利用して符号化することでデータ量を圧縮し,音声信号の記録/再生,或いは送受信に関する効率を向上させる技術が数多く開発されている。
これらの技術は,大別すると非可逆符号化と可逆符号化に分けることが可能である。
前者は,MP3やAAC方式に代表されるようにデータの圧縮による聴覚的劣化を伴うものの,比較的高い圧縮率(1/10以下程度でも聴覚上大きな問題がない)の符号化が可能なものである。
一方,後者は,ロスレス符号化とも呼ばれ,圧縮(符号化)前の信号が完全に復元可能であるため聴覚的劣化はないが,比較的低い圧縮率(符号化される音声データによるが,概ね1/2程度)の符号化しかできないものである。
そのため,特にメモリ容量に制限のある携帯端末等を用いて前記音声信号を記録,再生するといった使用状況では,その圧縮率の優位性から,非可逆符号化が利用されることが多い。
しかしながら,圧縮前の信号と全く同一の信号が得られるロスレス符号化に対するニーズは強く,その技術的課題となっている圧縮率を向上させる技術の開発が望まれている。
そこで,ロスレス符号化における圧縮率を向上する技術としては,特性の異なる(つまりは,適用される予測係数が異なる)複数の予測器により入力された音声信号を予測し,その予測結果に基づいて(つまりは,残差信号を最小とする)それら複数の予測器のうち一つを選択し,その選択された予測器からの出力信号(即ち,残差信号)と該予測器(即ち,予測係数)を特定する信号とを符号化した後に出力するよう構成された音声符号化装置がある(例えば,特許文献1参照。)。
このような構成によれば,音声信号に応じて最適な(即ち,残差信号を最小とし得る)予測器(予測係数)が選択されるため,音声信号を予測する予測精度を向上させることが可能となり,ひいては,符号化後の圧縮率の向上に寄与し得る。
【0003】
【特許文献1】
特開2001−175295号公報
【0004】
【発明が解決しようとする課題】
ところで,上述の従来公知の技術は,特性の異なる複数の予測器を有するものの,各予測器における予測係数は固定長(一定)であることを前提としており,符号化後の音声信号の符号長を最小にするという観点からすれば,必ずしも最適な予測器が選択されているとは言い難い。
別言すれば,予測器による予測精度を向上させるという観点では,従来公知の手法の如く,予測係数の係数を変更するだけでなく,各予測器毎の予測係数の次数を変える,或いは各予測器毎の予測方式を変える等,各予測器毎の予測係数の符号長を可変長にする方が有利である。
しかしながら,複数の予測器から一つを選択するに当たり,残差信号を最小とする予測器を選択する従来公知の技術では,各予測器の予測係数は固定長であることが前提とならざる得ず,予測係数の符号長の異なる予測器を適用し,更なる圧縮率の向上を図ることは不可能であった。
そこで,本発明は,前記事情に鑑みてなされたものであり,その目的とするところは,予測器毎の予測係数を可変長にすることによって,予測器における音声信号の予測精度を向上させ,ひいては,該音声信号の圧縮率を向上させることが可能な音声符号化装置を提供することにある。
【0005】
【課題を解決するための手段】
前記目的を達成するために,本発明は,入力される音声信号を可逆符号化する音声符号化装置において,入力される前記音声信号を所定サンプル数毎に取得するサンプル取得手段と,複数の予測係数が適用され,夫々の前記予測係数により過去の前記音声信号から現在の前記音声信号の予測信号を予測する予測手段と,前記予測手段により予測された夫々の予測信号と前記サンプル取得手段で取得された所定サンプル数の前記音声信号との間の残差信号を算出する残差信号算出手段と,前記残差信号算出手段により算出された前記残差信号及び該残差信号の算出に使用された前記予測信号を予測する際に適用された前記予測係数を特定する情報とを符号化する符号化手段と,前記符号化手段により符号化された前記残差信号及び前記予測係数を特定する情報の符号長に基づいて,複数の前記予測手段のうち一つを選択する予測選択手段と,を具備してなることを特徴とする音声符号化装置として構成される。
このような構成により,本発明によれば,入力される前記音声信号を符号長の異なる予測係数が適用される複数の前記予測手段によって予測し,しかる後,複数の前記予測手段のうち,予測精度の高い予測手段を選択することが可能となり,入力される前記音声信号を高い圧縮率で符号化することが可能である。
ここで,本発明は,前記予測手段毎に符号長が異なる予測係数を用いる構成上,前記予測選択手段において前記予測手段を選択するに当たり,前記残差信号算出手段から得られる残差信号だけでなく,該残差信号の算出に使用された前記予測信号を予測する際に適用された前記予測係数を特定する情報とを符号化した符号の符号長が最小となる予測手段が選択するよう構成される。
これにより,複数の前記予測手段のうち一つを選択するに当たり,前記予測手段間における予測係数の符号長の差異を考慮しつつ,音声信号を最も高い圧縮率で符号化し得る前記予測手段が選択される。
前記予測手段における予測係数の一例としては,前記サンプル取得手段で取得された所定サンプル数の前記音声信号から線形予測分析により計算された予測係数が考えられる。
また,前記予測手段における予測係数の他の例としては,前記サンプル取得手段で取得された所定サンプル数の前記音声信号から線形予測分析により計算された予測係数を基にベクトル量子化した予測係数が考えられる。
更に,前記予測手段における予測係数の別の例としては,前記予測選択手段により過去に選択された前記予測係数が考えられる。
【0006】
尚,前述構成の音声符号化装置に適用される音声符号化方法として捉えることで,本発明は,入力される音声信号を可逆符号化する音声符号化方法において,入力される前記音声信号を所定サンプル数毎に取得するサンプル取得工程と,複数の予測係数が適用される複数の予測手段により,過去の前記音声信号から現在の前記音声信号の予測信号を予測する予測工程と,複数の前記予測手段で予測された夫々の予測信号と前記サンプル取得工程により取得された所定サンプル数の前記音声信号との間の残差信号を算出する残差信号算出工程と,前記残差信号算出工程により算出された前記残差信号及び該残差信号の算出に使用された前記予測信号を予測する際に適用された前記予測係数を特定する情報とを符号化する符号化工程と,前記符号化工程により符号化された前記残差信号及び前記予測係数を特定する情報の符号長に基づいて,複数の前記予測手段のうち一つを選択する予測選択工程と,を具備してなることを特徴とする音声符号化方法と考えることも可能である。
この場合の作用については,前述した形態と同様であるため,ここでは省略する。
【0007】
【発明の実施の形態】
以下添付図面を参照しながら,本発明の実施の形態及び実施例について説明し,本発明の理解に供する。尚,以下の実施の形態及び実施例は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の実施形態に係る音声符号化装置の概略構成を示すブロック図,図2は本発明の別の実施形態に係る音声符号化装置の概略構成を示すブロック図,図3は本発明の実施形態に係る音声符号化装置により生成されたビットストリームを復号化する音声復号化装置の概略構成を示すブロック図,図4はビットストリーム中の予測係数情報の符号長を説明する図,図5はビットストリームの構成を模式的に示す図,図6は音声信号の一例を示す図,図7は音声信号における振幅毎の出現頻度を示す図,図8は予測残差信号における振幅毎の出現頻度を示す図である。
【0008】
ここに,本発明の実施形態に係る音声符号化装置は,図1に示すブロック図の如く具現化される。
同図に示す如く,本実施形態に係る音声符号化装置Aは,バッファ201(前記サンプル取得手段の一例に該当)、予測器202−1〜202−3(前記予測手段の一例に該当)、減算器212−1〜212−3(前記残差信号算出手段の一例に該当)、符号器203−1〜203−3(前記符号化手段の一例に該当)、符号長計算/選択器204(前記予測選択手段の一例に該当)、ビットストリーム生成器205,メモリ部213を具備して概略構成される。
以下に,当該音声符号化装置Aに入力されたPCMデータ(つまりは,音声信号)が符号化され,符号データとして出力されるまでの各部の処理について,処理の流れに沿って説明する。
【0009】
(バッファ201)
先ず,当該音声符号化装置Aに入力されたPCMデータは,入力端子200から前記バッファ201に入力される。
該バッファ201では,あるサンプル数(例えば800サンプル)毎にフレームと呼ばれる単位で処理可能なようにバッファリングされる。
該バッファ201に入力されたPCMデータがフレーム化されつつ順次バッファリングされる様子を模式的に示す図が図6である。同図に示す如く,入力されたPCMデータDは所定サンプル数毎にフレーム化され,該バッファ201に順次バッファリングされる。
尚,PCMデータのチャンネル数が複数の場合には,該バッファ201において,各チャンネル相互の相関性を除去する処理を行ってもよい。例えば,PCMデータが2チャンネルであるとすれば,Lch+Rch,或いはLch−Rchの演算処理がそれに該当する。
【0010】
(予測器202)
次に,前記バッファ201にバッファリングされた,フレーム単位のPCMデータ(以下,略して単にフレームデータという)が予測器202−1〜202−3に夫々入力される。
該予測器202では,下式1の如く,夫々に割り当てられた所定の予測係数αnに基づいて線形予測処理が行われ,過去のサンプルデータx(i)から現在のサンプルの予測値
【数1】
が予測される。
【数2】
但し,αn(n=1,2,・・,N)は予測係数である。
ここで,該予測器202には,各予測器に対し,異なる符号長を有する予測係数が割り当てられ,その予測精度の向上を図っている点で従来構成と異なる。
そのため,当該音声符号化装置Aでは,後述するように,前記予測器202のうち一つの予測器を選択するに当たり,その予測器により予測された予測信号を用いて算出される残差信号だけでなく,その予測信号を予測する際に適用された「予測係数を特定する情報」の符号長を考慮する必要がある。
ここでは,先ず,前記予測器202の夫々に適用される予測係数,及び「予測係数を特定する情報」の符号長について,以下に説明する。
(予測器202−1)
先ず,前記予測器202−1には,バッファリングされたフレームデータを対象として線形予測分析器207で算出された線形予測係数209を割り当てる。これにより,フレームデータに応じて適宜算出される予測係数によって予測を行うことが可能となり,一定の予測係数による予測に較べ,予測精度を著しく向上させ得る。
尚,前記線形予測分析器207における線形予測係数209の算出方法に関する詳細は,「音のコミュニケーション工学」(社団法人日本音響学会編,コロナ社,1996/8/30初版)に詳しいため,ここでは省略する。
このように前記線形予測係数209が適用される当該予測器202−1では,「予測係数を特定する情報」の符号長を,前記線形予測分析器207で算出される前記線形予測係数207が4次,各次数毎の予測係数が8bitの場合を考えると,4×8bit=32bitとすることが可能である(図4参照)。無論,この符号長は一例であって,予測係数の次数や各次数毎の符号長は前述の値に限定されるものではない。
(予測器202−2)
そして,前記予測器202−2には,1フレーム前で使用した予測係数211を割り当てる。つまり,前回のフレームデータを符号化する際に用いられた予測係数を一旦メモリ部213に保存しておき,現在のフレームデータを符号化する際に,その保存された前記予測係数211を前記メモリ部213から読み出して使用する。
これは,現在のフレームデータと前回のフレームデータとの間には何らかの相関性があるとの仮定に基づくものであり,例えば,同一或いは類似したデータが繰り返されるPCMデータに対して有効であると解される。
このように前記予測係数211が適用される当該予測器202−2では,「予測係数を特定する情報」の符号長を,過去の前記予測係数211を使用したことを表すインデックス(フラグ)のみとすることが可能である。つまり,前記フラグの「0」「1」に応じ,前記予測係数211の使用/不使用を判定するよう構成することで,その符号長は1bitとなる(図4参照)。尚,本実施形態では,簡単のため過去1フレームのみの予測係数を使用する形態としているが,更に過去のフレームに使用された予測係数を保存しておき,それらを使用する形態とすることも可能である。
(予測器202−3)
そして,前記予測器202−3には,複数の予測係数が予め記憶された予測係数テーブル210から選択された予測係数を割り当てる。
ここで,前記予測係数テーブル210から一つの予測係数を選択する手法として,本実施形態では,前記線形予測分析器207で算出された前記線形予測係数209に最も近い予測係数209’を選択し,該予測係数209’を特定する前記予測係数テーブル210の行番号(以下,テーブルインデックスといい,図1参照)を符号化する,いわゆるベクトル量子化法を用いる。
このような構成により,予め記憶された複数の予測係数から最も高い予測精度を発揮し得る予測係数を選択することが可能となり,より高い圧縮率での符号化を実現し得る。
このように前記予測係数209’が適用される当該予測器202−3では,「予測係数を特定する情報」の符号長を,該予測係数209’毎に設定された前記テーブルインデックスのみとすることが可能である。ここで,前記予測係数テーブル210のテーブルが256通りの場合を考えると,その符号長は,8bitとなる(図4参照)。無論,このテーブル数は一例であって,この値に特定されるものではない。
更に,前記予測係数テーブル210に記憶されている前記予測係数209’は,上述した線形予測係数に限定されるものではなく,これと等価なPARCOR係数,或いはLSP(Line Spectrum Pair)係数等を用いることも可能である。
【0011】
次に,図4を参照しつつ,前記予測器202に夫々に適用される予測係数における「予測係数を特定する情報」の符号長について詳説する。
この「予測係数を特定する情報」は,図4に示す如く,予測器識別子とそれ以外のデータ部分により構成される。
尚,前記予測器識別子とは,前記予測係数情報の先頭部分に配置され,該予測係数情報によって,その予測係数が,上述した前記予測器202のうち,どの予測器に適用された予測係数であるかを表すフラグである。
具体的には,図4上段に示す(a)の如く,最初の1ビットが1であれば1フレーム前の予測係数である(つまりは,前記予測器202−2が適用されている)ことを示し,図4中段に示す(b)の如く,最初の1ビットが0,2ビット目が1であれば前記予測係数テーブル210から選択された前記予測係数209’である(つまりは,前記予測器202−3が適用されている)ことを示し,図4下段に示す(c)の如く,最初の1ビットが0,2ビット目が1であれば前記線形予測分析器207で算出された前記線形予測係数209である(つまりは,前記予測器202−1が適用されている)ことを示す。
一方,前記データ部分とは,前記予測器識別子の後に配置され,該データ部分によって,その予測係数を特定するために必要な情報が付与される。
具体的には,図4上段に示す(a)の如く,1フレーム前の予測係数については前記予測器識別子のみより一意に識別されるため新たな情報(データ部分)は不要であるが,図4中段に示す(b)の如く,前記予測係数テーブル210から選択された前記予測係数209’については該予測係数209’のテーブルインデックスがこれに該当し,図4下段に示す(c)の如く,前記線形予測分析器207で算出された前記線形予測係数209については該線形予測係数209自体がこれに該当する。
このように,本実施形態に係る前記音声符号化装置Aでは,前記予測器202に適用された「予測係数を特定する情報」の符号長が,前記予測器202−1が選択される(図4(c)参照)場合には2+32=34bit,前記予測器202−2が選択される(図4(a)参照)場合には1bit,前記予測器202−3が選択される(図4(b)参照)場合には2+8=10bitとなり,各予測器毎に異なることが理解される。
そのため,本実施形態に係る前記音声符号化装置Aでは,後述する符号長計算/選択器204において,この「予測係数を特定する情報」の符合長の差異を考慮した上で,複数の前記予測器202から,最適な(つまりは,最も圧縮率の高い符号化を行い得る)予測器が選択される。
尚,上述説明では,前記予測器識別子が可変長であるが,無論,前記予測器識別子は固定長であってもよい。例えば,前記予測器識別をも2bit固定長とし,「00」ならば前記予測器202−1,「01」ならば前記予測器202−2,「10」ならば前記予測器202−3というように判定することが考え得る。
【0012】
(減算器212)
上述の如く所定の予測係数が夫々適用され,過去のサンプリングデータから現在のサンプリングデータの予測信号を予測した前記予測器202は,該予測信号を,減算器212−1〜212−3に出力する。
該減算器212では,前記予測器202から入力された前記予測信号
【数3】
と,前記バッファ201から入力されたサンプルデータx(i)とを用い,下式2の如く,残差信号d(i)が算出される。
【数4】
そして,算出された残差信号d(i)が,前記符号器203−1〜203−3に出力される。
【0013】
(符号器203)
前記符号化器203には,各予測器202毎の残差信号d(i)と,該残差信号d(i)に対応する(つまり,該残差信号d(i)の算出に使用された予測信号を予測する際に適用された)「予測係数を特定する情報」が入力される。
該符号器203は,前記減算器212から取得した残差信号d(i)と,前記予測器202から取得した「予測係数を特定する情報」を符号化し,しかる後,符号化された残差信号及び「予測係数を特定する情報」(以下,符号化候補という)を前記符号長計算/選択器204に出力する。
先ず,残差信号d(i)については,その出現頻度の偏りを利用した符号化方法(いわゆるエントロピー符号化)が行われることが望ましい。
該符号器203において残差信号を符号化する利点は,エントロピー(振幅k[i]の出現確率をp[i]とした時,p[i]×log2(1/p[i])の合計)を小さくできることである。
これについて,あるPCMデータ(16bit)の振幅の累積度数を表す図7,及び該PCMデータをある所定の予測係数を用いて予測値を予測し,その予測値を用いて算出された残差信号の振幅の累積度数を表した図8を用いて説明する。
両図より明らかな如く,PCMデータの残差信号を算出することによって,その信号に対する振幅の分布は0近傍に集中する。そこで,振幅の分布の偏り(集中)を利用して符号化すれば圧縮率の向上させ得る。
具体的には,振幅が0近傍の信号には短いビット長の符号を割当て,振幅が大きくなるに従いビット長の長い符号を割り当てるように符号化すれば,より圧縮効率を高めることが可能である。尚,上述した説明は,概念的な説明であるが,これら概念をさらに効率よく具現化した符号化手法として公知な技術であるHuffman符号方式,算術符号化方式,或いはレンジコーダ等の手法を用いることが可能である。
このように,該符号器203において残差信号を符号化することで,より圧縮効率の高い符号化が可能である。
一方,「予測係数を特定する情報」については,特にその符号化方法に係る限定はなく,図4に示す構造を符号化として捉えることも可能であるし,図4に示す構造の「予測係数を特定する情報」を,上述したエントロピー符号化等を用い更に符号化してもよい。
つまり,該符号器203は,前記減算器212から取得した残差信号d(i)と,前記予測器202から取得した「予測係数を特定する情報」と,を夫々符号化(両者の符号化方式は同一であっても異なってもよい)すると共に,符号化された夫々の符号を合わせて形成される前記符号化候補を前記符号長計算/選択器204に出力する機能を有する。
【0014】
(符号長計算/選択器204)
前記符号長計算/選択器204では,前記予測器202から入力される複数の符号化候補から一つを選択するに当たり,該符号化候補の符号長が最小であるものを選択し,選択された符号化候補をビットストリーム生成器205へと出力する。
このように,該符号長計算/選択器204では,残差信号だけでなく,残差信号及び「予測係数を特定する情報」とを合わせて構成された符号化候補を最小とするものを選択する構成であるため,本実施形態によれば,前記予測器202毎に異なる符号長の予測係数が適用され,前記予測器202毎に「予測係数の特定する情報」の符号長が異なる構成であっても,出力される符号化候補を最小とする前記予測器202を選択することが可能となる。
その結果,特に前記予測器202での予測精度を向上させるべく予測係数の候補に種々選択肢を持たせ,それら予測係数を特定できる情報が可変長になった場合にも,「予測係数を特定する情報」の符号長を加味した上で最適(つまりは,圧縮率が最も高い)な予測器を選択することが可能となる。
【0015】
(ビットストリーム生成器205)
続いて,前記符号長計算/選択器104で選択された一つの符号化候補は,ビットストリーム生成器205でビットストリームとしてパッキングされた後,出力端子206から出力される。
ここに,前記ビットストリーム生成器205によりパッキングされたビットストリームの一例を図5に示す。尚,同図に示すビットストリームEは,チャンネル数が2(ステレオ)のPCMデータから生成されたビットストリームの一例を示す。
同図に示す如く,前記ビットストリームEは,ファイルヘッダ608と,それに続くフレームデータの2つに大別される。更に,前記フレームデータはフレーム毎にフレームデータ(1)609,フレームデータ(2)610,フレームデータ(3)611,・・(以下,フレームデータ(1)609により代表する)に分けられる。
先ず,前記ファイルヘッダ608の構成要素について説明する。
該ファイルヘッダ608は,更にヘッダ601と先頭サンプル値602,603とに分けられる。
前記ヘッダ601は,例えば,ビットストリーム(PCMデータ)全体を司る情報,例えばサンプリングレート,チャンネル数,平均ビットレート等の情報が含まれる。
また,前記先頭サンプル値602,603には,Lch用(602)とRch用(603)の夫々の先頭サンプル値が格納される。尚,この先頭サンプル値602,603はデコードする最初の1フレームを復元するために必要であり,少なくとも予測係数αnの次数(すなわちn)分を各チャンネル毎に確保してあればよい。若しくは,線形予測のために必要な過去のサンプルの初期値をエンコーダ,デコーダ共に0とするなどして予測させるようにすれば,先頭サンプル値602,603は無くてもよい。このように,該ファイルヘッダ608を構成する前記ヘッダ601及び前記先頭サンプル値602,603は,固定長である。
次に,前記フレームデータ(1)609の構成要素について説明する。
前記フレームデータ(1)609は,更に予測係数情報604,606と残差信号情報605,607とに分けられる。
前記予測係数情報604,606は,先に説明した「予測係数を特定する情報」であり,このビットストリームEを復号化する際に用いられる。該予測係数情報604,606に基づいて,ビットストリームEからPCMデータを復号する装置(音声復号化装置)については後述する。
また,前記残差信号情報605,607は,残差信号を符号化して得られた符号である。このように,該フレームデータ(1)609を構成する前記予測係数情報604,606及び前記残差信号情報605,607は両者とも可変長である。
ここで,図5ではチャンネル数2(ステレオ)を例にしているため,Lchに対応するデータ(つまりは,604と605))と,Rchに対応する組(つまりは,606と607)と,によって一つのフレームデータ(1)609が構成される。尚,各情報の並び順,或いはチャンネル数は図5示す例に限定されず,任意の形態が可能であることは言うまでもない。
【0016】
次に,前記音声符号化装置Aにより生成されたビットストリームを取得し,復号化可能な音声復号化装置の一例について,図3を参照しつつ,説明する。
以下に,図3に示す音声復号化装置Cに入力されたビットストリームが復号化され,PCMデータとして出力されるまでの各部の処理について,処理の流れに沿って説明する。
【0017】
先ず,前記音声復号化装置Cに入力されたビットストリームは,入力端子501を介してビットストリーム解読器502に入力される。
該ビットストリーム解読器502では,ビットストリームのセグメントを解読して各信号成分毎に分解された後,それら信号成分の振り分けが行われる。
つまり,同図に示す如く,先頭サンプル値(図5に示す602,603)はバッファ504および予測器503に振り分けられ,PCMデータの一部(先頭データ)として出力される。
また,前記予測係数情報(図5に示す604,606)は予測係数形成部505に振り分けられ,予測器503に適用する予測係数を特定するために用いられる。
具体的には,本実施形態に係る前記音声符号化装置Aを用い,PCMデータを符号化する際に,前記予測器202(図1参照)に適用された予測係数の特定を行う。つまり,前記予測係数情報に含まれる前記予測器識別子及びそれに付随するデータ部分(図4参照)に基づいて,メモリ部509に記憶しておいた1フレーム前の予測係数506(前記予測器202−1に適用される予測係数211に該当)、予測係数テーブル507に予め記憶された予測係数(前記予測器202−3に適用される予測係数209’に該当)、或いは前記予測係数情報のデータ部分として送信される線形予測係数209のいずれかが選択される。尚,この予測係数情報はフレームデータ毎に取得されるものであり,各フレームデータ毎にその符号化(予測)に適用された予測係数が適宜選択される。
かかる手順により前記予測器503に適用する予測係数を選択することで,その予測係数は,PCMデータを前記音声符号化する際に前記予測器202(図1参照)に適用された予測係数と同一にすることが可能となる。
そして,前記予測器503の出力信号と,残差信号情報(図5に示す605,607)とを加算することで元のPCMデータが復号され,その復号されたPCMデータをバッファ504へ順次転送し,該バッファ504の出力信号を出力端子508を介して出力することで,PCMデータの復号化が完了する。
このように,当該音声復号化装置Cにおいては,前記音声符号化装置Aの逆の手順に従って元のPCMデータをロスレス復号化することが可能である。
尚,当該音声復号化装置Cは,図1で説明した前記音声符号化装置Aにおける前記バッファ201と対応させるべく前記バッファ504を設けた形態としたが,該バッファ504は不可欠な構成要素ではなく,該バッファ504で順次バッファリングすることなく,復号されたPCMデータを順次出力する構成としてもよい。但し,上述の符号化の手順において説明したように,前記符号化装置Aにおける前記バッファ201において各チャンネル間の相関を利用した処理(例えば,2chの音声信号におけるLch+Rch,或いはLch−Rch)が実施される場合には,該バッファ504において逆処理を実施する必要がある。
【0018】
【実施例】
上述説明した図1示す実施形態では,前記予測器203−3に適用する予測係数を前記予測係数テーブル210から選択するに当たり,前記線形予測分析器207で算出された前記線形予測係数207を基にベクトル量子化する手法について説明している。
しかしながら,前記予測係数テーブル210から一つの予測係数を選択する手法はそれに限定されるものではない。
例えば,図3に示す実施例は,予測係数テーブル413(前記予測係数テーブル210に該当)に記憶された予測係数から一つを選択するに当たり,上述実施形態とは異なる手法を適用したものである。
ここでは,当該実施例と上述の実施形態との異なる部分だけを抽出して説明する。
前記実施形態と較べ,当該実施例で増加した(異なる)のは予備選択ユニット407である。
ここで,該予備選択ユニット407とは,前記予測係数テーブル413から読み出される予測係数418−1,418−2,・・,418−nが夫々適用される予測器408−1,408−2,・・,408−nと,該予測器408からの出力信号とバッファ401から入力されるサンプルデータとの間の残差信号を算出する減算器416−1,416−2,・・,416−nと,該減算器416により算出された残差信号に基づいて(つまりは残差信号を最小とする)前記予測器から一つを選択する予備選択器409と,該予備選択器409により選択された残差信号及び該残差信号の算出に使用された予測信号を予測する際に適用された「予測係数(418−1,418−2,・・,418−n)を特定する情報」を符号化する符号器410と,を具備して概略構成される。
このような構成により,前記予備選択ユニット407では,前記予測係数テーブル413に記録された予測係数のうち,最も残差信号を小さくし得る予測係数を選択すると共に,該予測係数を適用して予測した予測信号に基づいて前記減算器416により残差信号を算出し,しかる後,前記符号器410により残差信号及び「予測係数を特定する情報」を符号化することで,最適な(つまりは残差信号を最小とする)符号化候補を算出することができる。
尚,本予備選択ユニット407内に限って考えると,各予測器408間の「予測係数を特定する情報」は,前記予測係数テーブル413のテーブルインデックスが該当するため,その符号長は同一である。従って,上述実施形態の如く,各予測器408毎に符号化器を設け,符号化された残差信号及び「予測係数を特定する情報」を最小とする予測係数を選択するよう構成する必要はなく,従来公知の技術の如く,前記減算器416で算出された残差信号を最小とする予測係数を選択するよう構成できる。かかる構成とすれば,本予備選択ユニット407に設ける符号器を符号器410のみとすることが可能となり,構成の簡単化を図ることが可能となる。
尚,該予備選択ユニット407により選択された符号化候補が符号長計算/選択器404に入力された後の処理は上述同様であるため,ここでは省略する。
更に,本実施例では,前記予備選択器409において複数の符号化候補から1つの(つまりは,残差信号が最小である)符号化候補を予備選択する例を示しているが,複数の符号化候補を予備選択する構成であってもよい。例えば,複数の予備候補選択としては,残差信号が小さい順に複数通り予備選択するなどが有効な手段である。
【0019】
【発明の効果】
以上説明したように,本発明によれば,予測器に適用される予測係数の候補に種々選択肢を持たせる(異なる予測係数を予測器に適用する)ことが可能となり,音声信号の予測精度を向上させることが可能となり,その結果として,符号化効率(圧縮率)を高めることができる。
【図面の簡単な説明】
【図1】本発明の実施形態に係る音声符号化装置の概略構成を示すブロック図。
【図2】本発明の別の実施形態に係る音声符号化装置の概略構成を示すブロック図。
【図3】本発明の実施形態に係る音声符号化装置により生成されたビットストリームを復号化する音声復号化装置の概略構成を示すブロック図。
【図4】ビットストリーム中の予測係数情報の符号長を説明する図。
【図5】ビットストリームの構成を模式的に示す図。
【図6】音声信号の一例を示す図。
【図7】音声信号における振幅毎の出現頻度を示す図。
【図8】予測残差信号における振幅毎の出現頻度を示す図。
【符号の説明】
A…音声符号化装置
B…音声符号化装置
C…音声復号化装置
201…バッファ
202…予測器
203…符号器
204…符号長計算/選択器
205…ビットストリーム生成器
210…予測係数テーブル
212…減算器
213…メモリ部
401…バッファ
402…予測器
403…符号器
404…符号長計算/選択器
405…ビットストリーム生成器
407…予備選択ユニット
408…予測器
409…予備選択器
410…符号器
416…減算器
413…予測係数テーブル
415…減算器
417…メモリ部
502…ビットストリーム解読器
503…予測器
504…バッファ
505…予測係数形成部
507…予測係数テーブル
509…メモリ部
【発明の属する技術分野】
本発明は,入力される音声信号を可逆符号化する符号化装置に係り,詳しくは,符号長の異なる予測係数が適用される予測器を複数備え,それら予測器から最適な予測器を選択することで,前記音声信号の高効率な圧縮を実現可能にする符号化装置に関する。
【0002】
【従来の技術】
近年,音声信号の冗長性を利用して符号化することでデータ量を圧縮し,音声信号の記録/再生,或いは送受信に関する効率を向上させる技術が数多く開発されている。
これらの技術は,大別すると非可逆符号化と可逆符号化に分けることが可能である。
前者は,MP3やAAC方式に代表されるようにデータの圧縮による聴覚的劣化を伴うものの,比較的高い圧縮率(1/10以下程度でも聴覚上大きな問題がない)の符号化が可能なものである。
一方,後者は,ロスレス符号化とも呼ばれ,圧縮(符号化)前の信号が完全に復元可能であるため聴覚的劣化はないが,比較的低い圧縮率(符号化される音声データによるが,概ね1/2程度)の符号化しかできないものである。
そのため,特にメモリ容量に制限のある携帯端末等を用いて前記音声信号を記録,再生するといった使用状況では,その圧縮率の優位性から,非可逆符号化が利用されることが多い。
しかしながら,圧縮前の信号と全く同一の信号が得られるロスレス符号化に対するニーズは強く,その技術的課題となっている圧縮率を向上させる技術の開発が望まれている。
そこで,ロスレス符号化における圧縮率を向上する技術としては,特性の異なる(つまりは,適用される予測係数が異なる)複数の予測器により入力された音声信号を予測し,その予測結果に基づいて(つまりは,残差信号を最小とする)それら複数の予測器のうち一つを選択し,その選択された予測器からの出力信号(即ち,残差信号)と該予測器(即ち,予測係数)を特定する信号とを符号化した後に出力するよう構成された音声符号化装置がある(例えば,特許文献1参照。)。
このような構成によれば,音声信号に応じて最適な(即ち,残差信号を最小とし得る)予測器(予測係数)が選択されるため,音声信号を予測する予測精度を向上させることが可能となり,ひいては,符号化後の圧縮率の向上に寄与し得る。
【0003】
【特許文献1】
特開2001−175295号公報
【0004】
【発明が解決しようとする課題】
ところで,上述の従来公知の技術は,特性の異なる複数の予測器を有するものの,各予測器における予測係数は固定長(一定)であることを前提としており,符号化後の音声信号の符号長を最小にするという観点からすれば,必ずしも最適な予測器が選択されているとは言い難い。
別言すれば,予測器による予測精度を向上させるという観点では,従来公知の手法の如く,予測係数の係数を変更するだけでなく,各予測器毎の予測係数の次数を変える,或いは各予測器毎の予測方式を変える等,各予測器毎の予測係数の符号長を可変長にする方が有利である。
しかしながら,複数の予測器から一つを選択するに当たり,残差信号を最小とする予測器を選択する従来公知の技術では,各予測器の予測係数は固定長であることが前提とならざる得ず,予測係数の符号長の異なる予測器を適用し,更なる圧縮率の向上を図ることは不可能であった。
そこで,本発明は,前記事情に鑑みてなされたものであり,その目的とするところは,予測器毎の予測係数を可変長にすることによって,予測器における音声信号の予測精度を向上させ,ひいては,該音声信号の圧縮率を向上させることが可能な音声符号化装置を提供することにある。
【0005】
【課題を解決するための手段】
前記目的を達成するために,本発明は,入力される音声信号を可逆符号化する音声符号化装置において,入力される前記音声信号を所定サンプル数毎に取得するサンプル取得手段と,複数の予測係数が適用され,夫々の前記予測係数により過去の前記音声信号から現在の前記音声信号の予測信号を予測する予測手段と,前記予測手段により予測された夫々の予測信号と前記サンプル取得手段で取得された所定サンプル数の前記音声信号との間の残差信号を算出する残差信号算出手段と,前記残差信号算出手段により算出された前記残差信号及び該残差信号の算出に使用された前記予測信号を予測する際に適用された前記予測係数を特定する情報とを符号化する符号化手段と,前記符号化手段により符号化された前記残差信号及び前記予測係数を特定する情報の符号長に基づいて,複数の前記予測手段のうち一つを選択する予測選択手段と,を具備してなることを特徴とする音声符号化装置として構成される。
このような構成により,本発明によれば,入力される前記音声信号を符号長の異なる予測係数が適用される複数の前記予測手段によって予測し,しかる後,複数の前記予測手段のうち,予測精度の高い予測手段を選択することが可能となり,入力される前記音声信号を高い圧縮率で符号化することが可能である。
ここで,本発明は,前記予測手段毎に符号長が異なる予測係数を用いる構成上,前記予測選択手段において前記予測手段を選択するに当たり,前記残差信号算出手段から得られる残差信号だけでなく,該残差信号の算出に使用された前記予測信号を予測する際に適用された前記予測係数を特定する情報とを符号化した符号の符号長が最小となる予測手段が選択するよう構成される。
これにより,複数の前記予測手段のうち一つを選択するに当たり,前記予測手段間における予測係数の符号長の差異を考慮しつつ,音声信号を最も高い圧縮率で符号化し得る前記予測手段が選択される。
前記予測手段における予測係数の一例としては,前記サンプル取得手段で取得された所定サンプル数の前記音声信号から線形予測分析により計算された予測係数が考えられる。
また,前記予測手段における予測係数の他の例としては,前記サンプル取得手段で取得された所定サンプル数の前記音声信号から線形予測分析により計算された予測係数を基にベクトル量子化した予測係数が考えられる。
更に,前記予測手段における予測係数の別の例としては,前記予測選択手段により過去に選択された前記予測係数が考えられる。
【0006】
尚,前述構成の音声符号化装置に適用される音声符号化方法として捉えることで,本発明は,入力される音声信号を可逆符号化する音声符号化方法において,入力される前記音声信号を所定サンプル数毎に取得するサンプル取得工程と,複数の予測係数が適用される複数の予測手段により,過去の前記音声信号から現在の前記音声信号の予測信号を予測する予測工程と,複数の前記予測手段で予測された夫々の予測信号と前記サンプル取得工程により取得された所定サンプル数の前記音声信号との間の残差信号を算出する残差信号算出工程と,前記残差信号算出工程により算出された前記残差信号及び該残差信号の算出に使用された前記予測信号を予測する際に適用された前記予測係数を特定する情報とを符号化する符号化工程と,前記符号化工程により符号化された前記残差信号及び前記予測係数を特定する情報の符号長に基づいて,複数の前記予測手段のうち一つを選択する予測選択工程と,を具備してなることを特徴とする音声符号化方法と考えることも可能である。
この場合の作用については,前述した形態と同様であるため,ここでは省略する。
【0007】
【発明の実施の形態】
以下添付図面を参照しながら,本発明の実施の形態及び実施例について説明し,本発明の理解に供する。尚,以下の実施の形態及び実施例は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の実施形態に係る音声符号化装置の概略構成を示すブロック図,図2は本発明の別の実施形態に係る音声符号化装置の概略構成を示すブロック図,図3は本発明の実施形態に係る音声符号化装置により生成されたビットストリームを復号化する音声復号化装置の概略構成を示すブロック図,図4はビットストリーム中の予測係数情報の符号長を説明する図,図5はビットストリームの構成を模式的に示す図,図6は音声信号の一例を示す図,図7は音声信号における振幅毎の出現頻度を示す図,図8は予測残差信号における振幅毎の出現頻度を示す図である。
【0008】
ここに,本発明の実施形態に係る音声符号化装置は,図1に示すブロック図の如く具現化される。
同図に示す如く,本実施形態に係る音声符号化装置Aは,バッファ201(前記サンプル取得手段の一例に該当)、予測器202−1〜202−3(前記予測手段の一例に該当)、減算器212−1〜212−3(前記残差信号算出手段の一例に該当)、符号器203−1〜203−3(前記符号化手段の一例に該当)、符号長計算/選択器204(前記予測選択手段の一例に該当)、ビットストリーム生成器205,メモリ部213を具備して概略構成される。
以下に,当該音声符号化装置Aに入力されたPCMデータ(つまりは,音声信号)が符号化され,符号データとして出力されるまでの各部の処理について,処理の流れに沿って説明する。
【0009】
(バッファ201)
先ず,当該音声符号化装置Aに入力されたPCMデータは,入力端子200から前記バッファ201に入力される。
該バッファ201では,あるサンプル数(例えば800サンプル)毎にフレームと呼ばれる単位で処理可能なようにバッファリングされる。
該バッファ201に入力されたPCMデータがフレーム化されつつ順次バッファリングされる様子を模式的に示す図が図6である。同図に示す如く,入力されたPCMデータDは所定サンプル数毎にフレーム化され,該バッファ201に順次バッファリングされる。
尚,PCMデータのチャンネル数が複数の場合には,該バッファ201において,各チャンネル相互の相関性を除去する処理を行ってもよい。例えば,PCMデータが2チャンネルであるとすれば,Lch+Rch,或いはLch−Rchの演算処理がそれに該当する。
【0010】
(予測器202)
次に,前記バッファ201にバッファリングされた,フレーム単位のPCMデータ(以下,略して単にフレームデータという)が予測器202−1〜202−3に夫々入力される。
該予測器202では,下式1の如く,夫々に割り当てられた所定の予測係数αnに基づいて線形予測処理が行われ,過去のサンプルデータx(i)から現在のサンプルの予測値
【数1】
が予測される。
【数2】
但し,αn(n=1,2,・・,N)は予測係数である。
ここで,該予測器202には,各予測器に対し,異なる符号長を有する予測係数が割り当てられ,その予測精度の向上を図っている点で従来構成と異なる。
そのため,当該音声符号化装置Aでは,後述するように,前記予測器202のうち一つの予測器を選択するに当たり,その予測器により予測された予測信号を用いて算出される残差信号だけでなく,その予測信号を予測する際に適用された「予測係数を特定する情報」の符号長を考慮する必要がある。
ここでは,先ず,前記予測器202の夫々に適用される予測係数,及び「予測係数を特定する情報」の符号長について,以下に説明する。
(予測器202−1)
先ず,前記予測器202−1には,バッファリングされたフレームデータを対象として線形予測分析器207で算出された線形予測係数209を割り当てる。これにより,フレームデータに応じて適宜算出される予測係数によって予測を行うことが可能となり,一定の予測係数による予測に較べ,予測精度を著しく向上させ得る。
尚,前記線形予測分析器207における線形予測係数209の算出方法に関する詳細は,「音のコミュニケーション工学」(社団法人日本音響学会編,コロナ社,1996/8/30初版)に詳しいため,ここでは省略する。
このように前記線形予測係数209が適用される当該予測器202−1では,「予測係数を特定する情報」の符号長を,前記線形予測分析器207で算出される前記線形予測係数207が4次,各次数毎の予測係数が8bitの場合を考えると,4×8bit=32bitとすることが可能である(図4参照)。無論,この符号長は一例であって,予測係数の次数や各次数毎の符号長は前述の値に限定されるものではない。
(予測器202−2)
そして,前記予測器202−2には,1フレーム前で使用した予測係数211を割り当てる。つまり,前回のフレームデータを符号化する際に用いられた予測係数を一旦メモリ部213に保存しておき,現在のフレームデータを符号化する際に,その保存された前記予測係数211を前記メモリ部213から読み出して使用する。
これは,現在のフレームデータと前回のフレームデータとの間には何らかの相関性があるとの仮定に基づくものであり,例えば,同一或いは類似したデータが繰り返されるPCMデータに対して有効であると解される。
このように前記予測係数211が適用される当該予測器202−2では,「予測係数を特定する情報」の符号長を,過去の前記予測係数211を使用したことを表すインデックス(フラグ)のみとすることが可能である。つまり,前記フラグの「0」「1」に応じ,前記予測係数211の使用/不使用を判定するよう構成することで,その符号長は1bitとなる(図4参照)。尚,本実施形態では,簡単のため過去1フレームのみの予測係数を使用する形態としているが,更に過去のフレームに使用された予測係数を保存しておき,それらを使用する形態とすることも可能である。
(予測器202−3)
そして,前記予測器202−3には,複数の予測係数が予め記憶された予測係数テーブル210から選択された予測係数を割り当てる。
ここで,前記予測係数テーブル210から一つの予測係数を選択する手法として,本実施形態では,前記線形予測分析器207で算出された前記線形予測係数209に最も近い予測係数209’を選択し,該予測係数209’を特定する前記予測係数テーブル210の行番号(以下,テーブルインデックスといい,図1参照)を符号化する,いわゆるベクトル量子化法を用いる。
このような構成により,予め記憶された複数の予測係数から最も高い予測精度を発揮し得る予測係数を選択することが可能となり,より高い圧縮率での符号化を実現し得る。
このように前記予測係数209’が適用される当該予測器202−3では,「予測係数を特定する情報」の符号長を,該予測係数209’毎に設定された前記テーブルインデックスのみとすることが可能である。ここで,前記予測係数テーブル210のテーブルが256通りの場合を考えると,その符号長は,8bitとなる(図4参照)。無論,このテーブル数は一例であって,この値に特定されるものではない。
更に,前記予測係数テーブル210に記憶されている前記予測係数209’は,上述した線形予測係数に限定されるものではなく,これと等価なPARCOR係数,或いはLSP(Line Spectrum Pair)係数等を用いることも可能である。
【0011】
次に,図4を参照しつつ,前記予測器202に夫々に適用される予測係数における「予測係数を特定する情報」の符号長について詳説する。
この「予測係数を特定する情報」は,図4に示す如く,予測器識別子とそれ以外のデータ部分により構成される。
尚,前記予測器識別子とは,前記予測係数情報の先頭部分に配置され,該予測係数情報によって,その予測係数が,上述した前記予測器202のうち,どの予測器に適用された予測係数であるかを表すフラグである。
具体的には,図4上段に示す(a)の如く,最初の1ビットが1であれば1フレーム前の予測係数である(つまりは,前記予測器202−2が適用されている)ことを示し,図4中段に示す(b)の如く,最初の1ビットが0,2ビット目が1であれば前記予測係数テーブル210から選択された前記予測係数209’である(つまりは,前記予測器202−3が適用されている)ことを示し,図4下段に示す(c)の如く,最初の1ビットが0,2ビット目が1であれば前記線形予測分析器207で算出された前記線形予測係数209である(つまりは,前記予測器202−1が適用されている)ことを示す。
一方,前記データ部分とは,前記予測器識別子の後に配置され,該データ部分によって,その予測係数を特定するために必要な情報が付与される。
具体的には,図4上段に示す(a)の如く,1フレーム前の予測係数については前記予測器識別子のみより一意に識別されるため新たな情報(データ部分)は不要であるが,図4中段に示す(b)の如く,前記予測係数テーブル210から選択された前記予測係数209’については該予測係数209’のテーブルインデックスがこれに該当し,図4下段に示す(c)の如く,前記線形予測分析器207で算出された前記線形予測係数209については該線形予測係数209自体がこれに該当する。
このように,本実施形態に係る前記音声符号化装置Aでは,前記予測器202に適用された「予測係数を特定する情報」の符号長が,前記予測器202−1が選択される(図4(c)参照)場合には2+32=34bit,前記予測器202−2が選択される(図4(a)参照)場合には1bit,前記予測器202−3が選択される(図4(b)参照)場合には2+8=10bitとなり,各予測器毎に異なることが理解される。
そのため,本実施形態に係る前記音声符号化装置Aでは,後述する符号長計算/選択器204において,この「予測係数を特定する情報」の符合長の差異を考慮した上で,複数の前記予測器202から,最適な(つまりは,最も圧縮率の高い符号化を行い得る)予測器が選択される。
尚,上述説明では,前記予測器識別子が可変長であるが,無論,前記予測器識別子は固定長であってもよい。例えば,前記予測器識別をも2bit固定長とし,「00」ならば前記予測器202−1,「01」ならば前記予測器202−2,「10」ならば前記予測器202−3というように判定することが考え得る。
【0012】
(減算器212)
上述の如く所定の予測係数が夫々適用され,過去のサンプリングデータから現在のサンプリングデータの予測信号を予測した前記予測器202は,該予測信号を,減算器212−1〜212−3に出力する。
該減算器212では,前記予測器202から入力された前記予測信号
【数3】
と,前記バッファ201から入力されたサンプルデータx(i)とを用い,下式2の如く,残差信号d(i)が算出される。
【数4】
そして,算出された残差信号d(i)が,前記符号器203−1〜203−3に出力される。
【0013】
(符号器203)
前記符号化器203には,各予測器202毎の残差信号d(i)と,該残差信号d(i)に対応する(つまり,該残差信号d(i)の算出に使用された予測信号を予測する際に適用された)「予測係数を特定する情報」が入力される。
該符号器203は,前記減算器212から取得した残差信号d(i)と,前記予測器202から取得した「予測係数を特定する情報」を符号化し,しかる後,符号化された残差信号及び「予測係数を特定する情報」(以下,符号化候補という)を前記符号長計算/選択器204に出力する。
先ず,残差信号d(i)については,その出現頻度の偏りを利用した符号化方法(いわゆるエントロピー符号化)が行われることが望ましい。
該符号器203において残差信号を符号化する利点は,エントロピー(振幅k[i]の出現確率をp[i]とした時,p[i]×log2(1/p[i])の合計)を小さくできることである。
これについて,あるPCMデータ(16bit)の振幅の累積度数を表す図7,及び該PCMデータをある所定の予測係数を用いて予測値を予測し,その予測値を用いて算出された残差信号の振幅の累積度数を表した図8を用いて説明する。
両図より明らかな如く,PCMデータの残差信号を算出することによって,その信号に対する振幅の分布は0近傍に集中する。そこで,振幅の分布の偏り(集中)を利用して符号化すれば圧縮率の向上させ得る。
具体的には,振幅が0近傍の信号には短いビット長の符号を割当て,振幅が大きくなるに従いビット長の長い符号を割り当てるように符号化すれば,より圧縮効率を高めることが可能である。尚,上述した説明は,概念的な説明であるが,これら概念をさらに効率よく具現化した符号化手法として公知な技術であるHuffman符号方式,算術符号化方式,或いはレンジコーダ等の手法を用いることが可能である。
このように,該符号器203において残差信号を符号化することで,より圧縮効率の高い符号化が可能である。
一方,「予測係数を特定する情報」については,特にその符号化方法に係る限定はなく,図4に示す構造を符号化として捉えることも可能であるし,図4に示す構造の「予測係数を特定する情報」を,上述したエントロピー符号化等を用い更に符号化してもよい。
つまり,該符号器203は,前記減算器212から取得した残差信号d(i)と,前記予測器202から取得した「予測係数を特定する情報」と,を夫々符号化(両者の符号化方式は同一であっても異なってもよい)すると共に,符号化された夫々の符号を合わせて形成される前記符号化候補を前記符号長計算/選択器204に出力する機能を有する。
【0014】
(符号長計算/選択器204)
前記符号長計算/選択器204では,前記予測器202から入力される複数の符号化候補から一つを選択するに当たり,該符号化候補の符号長が最小であるものを選択し,選択された符号化候補をビットストリーム生成器205へと出力する。
このように,該符号長計算/選択器204では,残差信号だけでなく,残差信号及び「予測係数を特定する情報」とを合わせて構成された符号化候補を最小とするものを選択する構成であるため,本実施形態によれば,前記予測器202毎に異なる符号長の予測係数が適用され,前記予測器202毎に「予測係数の特定する情報」の符号長が異なる構成であっても,出力される符号化候補を最小とする前記予測器202を選択することが可能となる。
その結果,特に前記予測器202での予測精度を向上させるべく予測係数の候補に種々選択肢を持たせ,それら予測係数を特定できる情報が可変長になった場合にも,「予測係数を特定する情報」の符号長を加味した上で最適(つまりは,圧縮率が最も高い)な予測器を選択することが可能となる。
【0015】
(ビットストリーム生成器205)
続いて,前記符号長計算/選択器104で選択された一つの符号化候補は,ビットストリーム生成器205でビットストリームとしてパッキングされた後,出力端子206から出力される。
ここに,前記ビットストリーム生成器205によりパッキングされたビットストリームの一例を図5に示す。尚,同図に示すビットストリームEは,チャンネル数が2(ステレオ)のPCMデータから生成されたビットストリームの一例を示す。
同図に示す如く,前記ビットストリームEは,ファイルヘッダ608と,それに続くフレームデータの2つに大別される。更に,前記フレームデータはフレーム毎にフレームデータ(1)609,フレームデータ(2)610,フレームデータ(3)611,・・(以下,フレームデータ(1)609により代表する)に分けられる。
先ず,前記ファイルヘッダ608の構成要素について説明する。
該ファイルヘッダ608は,更にヘッダ601と先頭サンプル値602,603とに分けられる。
前記ヘッダ601は,例えば,ビットストリーム(PCMデータ)全体を司る情報,例えばサンプリングレート,チャンネル数,平均ビットレート等の情報が含まれる。
また,前記先頭サンプル値602,603には,Lch用(602)とRch用(603)の夫々の先頭サンプル値が格納される。尚,この先頭サンプル値602,603はデコードする最初の1フレームを復元するために必要であり,少なくとも予測係数αnの次数(すなわちn)分を各チャンネル毎に確保してあればよい。若しくは,線形予測のために必要な過去のサンプルの初期値をエンコーダ,デコーダ共に0とするなどして予測させるようにすれば,先頭サンプル値602,603は無くてもよい。このように,該ファイルヘッダ608を構成する前記ヘッダ601及び前記先頭サンプル値602,603は,固定長である。
次に,前記フレームデータ(1)609の構成要素について説明する。
前記フレームデータ(1)609は,更に予測係数情報604,606と残差信号情報605,607とに分けられる。
前記予測係数情報604,606は,先に説明した「予測係数を特定する情報」であり,このビットストリームEを復号化する際に用いられる。該予測係数情報604,606に基づいて,ビットストリームEからPCMデータを復号する装置(音声復号化装置)については後述する。
また,前記残差信号情報605,607は,残差信号を符号化して得られた符号である。このように,該フレームデータ(1)609を構成する前記予測係数情報604,606及び前記残差信号情報605,607は両者とも可変長である。
ここで,図5ではチャンネル数2(ステレオ)を例にしているため,Lchに対応するデータ(つまりは,604と605))と,Rchに対応する組(つまりは,606と607)と,によって一つのフレームデータ(1)609が構成される。尚,各情報の並び順,或いはチャンネル数は図5示す例に限定されず,任意の形態が可能であることは言うまでもない。
【0016】
次に,前記音声符号化装置Aにより生成されたビットストリームを取得し,復号化可能な音声復号化装置の一例について,図3を参照しつつ,説明する。
以下に,図3に示す音声復号化装置Cに入力されたビットストリームが復号化され,PCMデータとして出力されるまでの各部の処理について,処理の流れに沿って説明する。
【0017】
先ず,前記音声復号化装置Cに入力されたビットストリームは,入力端子501を介してビットストリーム解読器502に入力される。
該ビットストリーム解読器502では,ビットストリームのセグメントを解読して各信号成分毎に分解された後,それら信号成分の振り分けが行われる。
つまり,同図に示す如く,先頭サンプル値(図5に示す602,603)はバッファ504および予測器503に振り分けられ,PCMデータの一部(先頭データ)として出力される。
また,前記予測係数情報(図5に示す604,606)は予測係数形成部505に振り分けられ,予測器503に適用する予測係数を特定するために用いられる。
具体的には,本実施形態に係る前記音声符号化装置Aを用い,PCMデータを符号化する際に,前記予測器202(図1参照)に適用された予測係数の特定を行う。つまり,前記予測係数情報に含まれる前記予測器識別子及びそれに付随するデータ部分(図4参照)に基づいて,メモリ部509に記憶しておいた1フレーム前の予測係数506(前記予測器202−1に適用される予測係数211に該当)、予測係数テーブル507に予め記憶された予測係数(前記予測器202−3に適用される予測係数209’に該当)、或いは前記予測係数情報のデータ部分として送信される線形予測係数209のいずれかが選択される。尚,この予測係数情報はフレームデータ毎に取得されるものであり,各フレームデータ毎にその符号化(予測)に適用された予測係数が適宜選択される。
かかる手順により前記予測器503に適用する予測係数を選択することで,その予測係数は,PCMデータを前記音声符号化する際に前記予測器202(図1参照)に適用された予測係数と同一にすることが可能となる。
そして,前記予測器503の出力信号と,残差信号情報(図5に示す605,607)とを加算することで元のPCMデータが復号され,その復号されたPCMデータをバッファ504へ順次転送し,該バッファ504の出力信号を出力端子508を介して出力することで,PCMデータの復号化が完了する。
このように,当該音声復号化装置Cにおいては,前記音声符号化装置Aの逆の手順に従って元のPCMデータをロスレス復号化することが可能である。
尚,当該音声復号化装置Cは,図1で説明した前記音声符号化装置Aにおける前記バッファ201と対応させるべく前記バッファ504を設けた形態としたが,該バッファ504は不可欠な構成要素ではなく,該バッファ504で順次バッファリングすることなく,復号されたPCMデータを順次出力する構成としてもよい。但し,上述の符号化の手順において説明したように,前記符号化装置Aにおける前記バッファ201において各チャンネル間の相関を利用した処理(例えば,2chの音声信号におけるLch+Rch,或いはLch−Rch)が実施される場合には,該バッファ504において逆処理を実施する必要がある。
【0018】
【実施例】
上述説明した図1示す実施形態では,前記予測器203−3に適用する予測係数を前記予測係数テーブル210から選択するに当たり,前記線形予測分析器207で算出された前記線形予測係数207を基にベクトル量子化する手法について説明している。
しかしながら,前記予測係数テーブル210から一つの予測係数を選択する手法はそれに限定されるものではない。
例えば,図3に示す実施例は,予測係数テーブル413(前記予測係数テーブル210に該当)に記憶された予測係数から一つを選択するに当たり,上述実施形態とは異なる手法を適用したものである。
ここでは,当該実施例と上述の実施形態との異なる部分だけを抽出して説明する。
前記実施形態と較べ,当該実施例で増加した(異なる)のは予備選択ユニット407である。
ここで,該予備選択ユニット407とは,前記予測係数テーブル413から読み出される予測係数418−1,418−2,・・,418−nが夫々適用される予測器408−1,408−2,・・,408−nと,該予測器408からの出力信号とバッファ401から入力されるサンプルデータとの間の残差信号を算出する減算器416−1,416−2,・・,416−nと,該減算器416により算出された残差信号に基づいて(つまりは残差信号を最小とする)前記予測器から一つを選択する予備選択器409と,該予備選択器409により選択された残差信号及び該残差信号の算出に使用された予測信号を予測する際に適用された「予測係数(418−1,418−2,・・,418−n)を特定する情報」を符号化する符号器410と,を具備して概略構成される。
このような構成により,前記予備選択ユニット407では,前記予測係数テーブル413に記録された予測係数のうち,最も残差信号を小さくし得る予測係数を選択すると共に,該予測係数を適用して予測した予測信号に基づいて前記減算器416により残差信号を算出し,しかる後,前記符号器410により残差信号及び「予測係数を特定する情報」を符号化することで,最適な(つまりは残差信号を最小とする)符号化候補を算出することができる。
尚,本予備選択ユニット407内に限って考えると,各予測器408間の「予測係数を特定する情報」は,前記予測係数テーブル413のテーブルインデックスが該当するため,その符号長は同一である。従って,上述実施形態の如く,各予測器408毎に符号化器を設け,符号化された残差信号及び「予測係数を特定する情報」を最小とする予測係数を選択するよう構成する必要はなく,従来公知の技術の如く,前記減算器416で算出された残差信号を最小とする予測係数を選択するよう構成できる。かかる構成とすれば,本予備選択ユニット407に設ける符号器を符号器410のみとすることが可能となり,構成の簡単化を図ることが可能となる。
尚,該予備選択ユニット407により選択された符号化候補が符号長計算/選択器404に入力された後の処理は上述同様であるため,ここでは省略する。
更に,本実施例では,前記予備選択器409において複数の符号化候補から1つの(つまりは,残差信号が最小である)符号化候補を予備選択する例を示しているが,複数の符号化候補を予備選択する構成であってもよい。例えば,複数の予備候補選択としては,残差信号が小さい順に複数通り予備選択するなどが有効な手段である。
【0019】
【発明の効果】
以上説明したように,本発明によれば,予測器に適用される予測係数の候補に種々選択肢を持たせる(異なる予測係数を予測器に適用する)ことが可能となり,音声信号の予測精度を向上させることが可能となり,その結果として,符号化効率(圧縮率)を高めることができる。
【図面の簡単な説明】
【図1】本発明の実施形態に係る音声符号化装置の概略構成を示すブロック図。
【図2】本発明の別の実施形態に係る音声符号化装置の概略構成を示すブロック図。
【図3】本発明の実施形態に係る音声符号化装置により生成されたビットストリームを復号化する音声復号化装置の概略構成を示すブロック図。
【図4】ビットストリーム中の予測係数情報の符号長を説明する図。
【図5】ビットストリームの構成を模式的に示す図。
【図6】音声信号の一例を示す図。
【図7】音声信号における振幅毎の出現頻度を示す図。
【図8】予測残差信号における振幅毎の出現頻度を示す図。
【符号の説明】
A…音声符号化装置
B…音声符号化装置
C…音声復号化装置
201…バッファ
202…予測器
203…符号器
204…符号長計算/選択器
205…ビットストリーム生成器
210…予測係数テーブル
212…減算器
213…メモリ部
401…バッファ
402…予測器
403…符号器
404…符号長計算/選択器
405…ビットストリーム生成器
407…予備選択ユニット
408…予測器
409…予備選択器
410…符号器
416…減算器
413…予測係数テーブル
415…減算器
417…メモリ部
502…ビットストリーム解読器
503…予測器
504…バッファ
505…予測係数形成部
507…予測係数テーブル
509…メモリ部
Claims (5)
- 入力される音声信号を可逆符号化する音声符号化装置において,
入力される前記音声信号を所定サンプル数毎に取得するサンプル取得手段と,
複数の予測係数が適用され,夫々の前記予測係数により過去の前記音声信号から現在の前記音声信号の予測信号を予測する予測手段と,
前記予測手段により予測された夫々の予測信号と前記サンプル取得手段で取得された所定サンプル数の前記音声信号との間の残差信号を算出する残差信号算出手段と,
前記残差信号算出手段により算出された前記残差信号及び該残差信号の算出に使用された前記予測信号を予測する際に適用された前記予測係数を特定する情報とを符号化する符号化手段と,
前記符号化手段により符号化された前記残差信号及び前記予測係数を特定する情報の符号長に基づいて,複数の前記予測手段のうち一つを選択する予測選択手段と,
を具備してなることを特徴とする音声符号化装置。 - 前記予測手段における予測係数には,前記サンプル取得手段で取得された所定サンプル数の前記音声信号から線形予測分析により計算された予測係数が含まれてなる請求項1に記載の音声符号化装置。
- 前記予測手段における予測係数には,前記サンプル取得手段で取得された所定サンプル数の前記音声信号から線形予測分析により計算された予測係数を基にベクトル量子化した予測係数が含まれてなる請求項1に記載の音声符号化装置。
- 前記予測手段における予測係数には,前記予測選択手段により過去に選択された前記予測係数が含まれてなる請求項1に記載の音声符号化装置。
- 入力される音声信号を可逆符号化する音声符号化方法において,
入力される前記音声信号を所定サンプル数毎に取得するサンプル取得工程と,
複数の予測係数が適用される複数の予測手段により,過去の前記音声信号から現在の前記音声信号の予測信号を予測する予測工程と,
複数の前記予測手段で予測された夫々の予測信号と前記サンプル取得工程により取得された所定サンプル数の前記音声信号との間の残差信号を算出する残差信号算出工程と,
前記残差信号算出工程により算出された前記残差信号及び該残差信号の算出に使用された前記予測信号を予測する際に適用された前記予測係数を特定する情報とを符号化する符号化工程と,
前記符号化工程により符号化された前記残差信号及び前記予測係数を特定する情報の符号長に基づいて,複数の前記予測手段のうち一つを選択する予測選択工程と,
を具備してなることを特徴とする音声符号化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002333436A JP2004170494A (ja) | 2002-11-18 | 2002-11-18 | 音声符号化装置,音声符号化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002333436A JP2004170494A (ja) | 2002-11-18 | 2002-11-18 | 音声符号化装置,音声符号化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004170494A true JP2004170494A (ja) | 2004-06-17 |
Family
ID=32698146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002333436A Pending JP2004170494A (ja) | 2002-11-18 | 2002-11-18 | 音声符号化装置,音声符号化方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004170494A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113782042A (zh) * | 2021-09-09 | 2021-12-10 | 腾讯科技(深圳)有限公司 | 语音合成方法、声码器的训练方法、装置、设备及介质 |
-
2002
- 2002-11-18 JP JP2002333436A patent/JP2004170494A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113782042A (zh) * | 2021-09-09 | 2021-12-10 | 腾讯科技(深圳)有限公司 | 语音合成方法、声码器的训练方法、装置、设备及介质 |
CN113782042B (zh) * | 2021-09-09 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 语音合成方法、声码器的训练方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100643116B1 (ko) | 개선된 음성 인코더를 구비한 전송 시스템 및 이 시스템의 운영 방법 | |
JP3987582B2 (ja) | ライスエンコーダ/デコーダを用いるデータ圧縮/拡張 | |
JP2964344B2 (ja) | 符号化/復号化装置 | |
JP4934020B2 (ja) | 可逆マルチチャネル・オーディオ・コーデック | |
EP1028411B1 (en) | Coding apparatus | |
US20020049586A1 (en) | Audio encoder, audio decoder, and broadcasting system | |
JP2009500684A (ja) | オーディオ信号を処理する方法、オーディオ信号のエンコーディング及びデコーディング装置及び方法 | |
JP5337235B2 (ja) | 符号化方法、復号方法、符号化装置、復号装置、プログラム及び記録媒体 | |
KR20070029754A (ko) | 음성 부호화 장치 및 그 방법과, 음성 복호화 장치 및 그방법 | |
JP2013543146A (ja) | ビットストリーム・ドメインにおけるコード化オーディオフレームのレベルを推定する装置及び方法 | |
US20070143118A1 (en) | Apparatus and method for lossless audio signal compression/decompression through entropy coding | |
WO2010084951A1 (ja) | パラメータ選択方法、パラメータ選択装置、プログラム及び記録媒体 | |
Liebchen | An introduction to MPEG-4 audio lossless coding | |
EP3610481B1 (en) | Audio coding | |
JP2006211243A (ja) | ディジタル信号符号化装置,ディジタル信号符号化方法 | |
CN113129913B (zh) | 音频信号的编解码方法和编解码装置 | |
JP2004170494A (ja) | 音声符号化装置,音声符号化方法 | |
JP4195598B2 (ja) | 符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、復号化プログラム | |
EP1334485B1 (en) | Speech codec and method for generating a vector codebook and encoding/decoding speech signals | |
JPH10260699A (ja) | 音声符号化方法および装置 | |
Clüver et al. | Multiple-description coding of logarithmic PCM | |
JP3028885B2 (ja) | ベクトル量子化装置 | |
JP2011507013A (ja) | オーディオ信号処理方法及び装置 | |
JP2005283692A (ja) | オーディオ信号圧縮方法 | |
JPH0749700A (ja) | Celp型音声復号器 |