JP2005128401A - 音声処理装置及び音声符号化方法 - Google Patents

音声処理装置及び音声符号化方法 Download PDF

Info

Publication number
JP2005128401A
JP2005128401A JP2003365973A JP2003365973A JP2005128401A JP 2005128401 A JP2005128401 A JP 2005128401A JP 2003365973 A JP2003365973 A JP 2003365973A JP 2003365973 A JP2003365973 A JP 2003365973A JP 2005128401 A JP2005128401 A JP 2005128401A
Authority
JP
Japan
Prior art keywords
unit
frequency
speech
signal
frequency conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003365973A
Other languages
English (en)
Other versions
JP2005128401A5 (ja
Inventor
Hiroyasu Ide
博康 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2003365973A priority Critical patent/JP2005128401A/ja
Publication of JP2005128401A publication Critical patent/JP2005128401A/ja
Publication of JP2005128401A5 publication Critical patent/JP2005128401A5/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】語学学習用会話等の録音に適切なサンプリング周波数で、符号化レートを低減させる音声圧縮を可能にする。
【解決手段】音声処理装置100は、QMF(Quadrature Mirror Filter)3により入力された音声信号を高域と低域に分割し、その分割された音声信号の振幅を正規化し、その正規化された音声信号に対し、FFT等の周波数変換を施す。そして、周波数変換により得られた変換係数の絶対値を減少させる処理を行い、その変換係数が処理された音声信号に対し、ベクトル量子化を施し、ベクトル量子化により得られた信号に対し、エントロピー符号化を施して出力する。
【選択図】図1

Description

本発明は、音声処理装置及び音声符号化方法に関する。
従来より、音声信号の圧縮方式として、μ−law、ADPCM(Adaptive Differential Pulse Code Modulation)、音楽で利用されるMP3(MPEG Audio Layer-3)、携帯電話等で利用されるVSELP(Vector Sum Excited Linear Prediction)、G.729等のCELP(Code-Excited Linear Prediction)系の圧縮方式が実用化されている。特許文献1には、音声圧縮技術として、ベクトル量子化を用いた技術が開示されている。
特開平10−63299号公報
語学学習において会話等の録音を行う場合、16kHz程度のサンプリング周波数が、各言語の特徴を保ちつつ、多くのデータ量を必要としない適度な周波数であると考えられている。しかしながら、CELP系の圧縮方式に現れる圧縮ノイズは、語学学習用には適切ではないという問題があった。また、μ−law、ADPCMは、十分な音質であるが、符号化レートが高いため、携帯機器でこれらの圧縮方式を利用する場合、録音時間が短くなってしまうという問題があった。また、MP3は、主に高品質の音声の圧縮を対象としており、16kHz程度のサンプリング周波数では、効果的に圧縮を行うことができないという問題があった。
本発明の課題は、語学学習用会話等の録音に適切なサンプリング周波数で、符号化レートを低減させる音声圧縮を可能にすることである。
本発明に係る音声処理装置は、入力された音声信号を直交ミラーフィルタにより高域と低域に分割するフィルタ部と、前記フィルタ部により分割された音声信号の振幅を正規化する正規化部と、前記正規化部により正規化された音声信号に対し、周波数変換を施す周波数変換部と、前記周波数変換により得られた音声信号に対し、ベクトル量子化を施すベクトル量子化部と、前記ベクトル量子化により得られた音声信号に対し、エントロピー符号化を施すエントロピー符号化部と、を備えることを特徴としている。
また、前記周波数変換部は、周波数変換として離散フーリエ変換を用いるのが好ましい。
また、前記周波数変換部は、周波数変換として変形離散コサイン変換を用いるのが好ましい。
前記周波数変換により得られた変換係数の絶対値を減少させる処理を行う変換係数処理部を備え、前記ベクトル量子化部は、前記変換係数処理部により処理された音声信号に対し、ベクトル量子化を施すようにしてもよい。
また、前記変換係数処理部は、前記周波数変換により得られた変換係数にスカラー量子化を施すのが好ましい。
また、前記変換係数処理部は、前記周波数変換により得られた変換係数のうち、絶対値が予め設定された閾値以下である変換係数の絶対値を減少させる処理を行うのが好ましい。
また、前記エントロピー符号化部は、エントロピー符号化としてハフマン符号化を用いるのが好ましい。
また、前記エントロピー符号化部は、エントロピー符号化としてレンジコーダによる符号化を用いるのが好ましい。
また、レンジコーダによる符号化を用いるエントロピー符号化部は、入力信号を示す各記号の出現確率を格納した生起確率テーブルを有し、記号の入力に伴って前記生起確率テーブルを更新するのが好ましい。
本発明に係る音声符号化方法は、入力された音声信号を直交ミラーフィルタにより高域と低域に分割し、前記分割された音声信号の振幅を正規化し、前記正規化された音声信号に対し、周波数変換を施し、前記周波数変換により得られた音声信号に対し、ベクトル量子化を施し、前記ベクトル量子化により得られた音声信号に対し、エントロピー符号化を施すことを特徴としている。
本発明によれば、語学学習用会話等の録音に適切なサンプリング周波数で、符号化レートを低減させることができる。
以下、図面を参照して、本発明の実施形態について詳細に説明する。
まず、本実施形態における構成について説明する。
図1は、本発明の実施形態の音声処理装置100の構成を示すブロック図である。音声処理装置100は、図1に示すように、A/D変換部1、DC(Direct Current)除去部2、QMF(Quadrature Mirror Filter:直交ミラーフィルタ)3、フレーム化部4、正規化部5、周波数変換部6、変換係数処理部7、周波数並べ替え部8、ベクトル量子化部9、エントロピー符号化部10、レートコントローラ11により構成される。
A/D変換部1は、入力された音声アナログ信号をデジタル信号に変換し、DC除去部2に出力する。サンプリング周波数は、16kHz程度が望ましいが、11.025kHz、22.05kHz等でもかまわない。
DC除去部2は、A/D変換部1から入力された音声信号の直流成分を除去し、QMF3に出力する。音声信号の直流成分を除去するのは、直流成分が音質にほとんど無関係であることによる。i番目の入力信号をxiとすると、直流成分を除去した信号x'iは、例えば、式(1)で表される。
Figure 2005128401
QMF3は、DC除去部2から入力された音声信号を高域と低域に分割する。QMFとは、帯域分割時と合成時でフィルタリング時の歪みがなくなるように設計されたフィルタである。QMFにおける具体的な計算方法を以下に示す。タップ数がmのQMFの係数をf(0)、f(1)、…、f(m−1)とすると、QMFの性質から、m/2≦j<mを満たすjに対し、f(j)=f(m−j−1)が成り立つ。
i番目の入力信号をxiとし、j番目の信号xjが入力されたときの低域側の出力Lと高域側の出力Hとすると、L、Hは、それぞれ、式(2)、式(3)で表される。
L=XA+XB (2)
H=XA−XB (3)
ここで、XA、XBは、式(4)、式(5)のように定義される。
Figure 2005128401
Figure 2005128401
表1に、タップ数が24のQMF係数の例を示す。
Figure 2005128401
フレーム化部4は、QMF3から入力された信号を、圧縮の処理単位であるフレームに分割し、正規化部5に出力する。
正規化部5は、フレーム毎に、入力音声信号の振幅をそれぞれ正規化し、周波数変換部6に出力する。正規化の方法としては、フレーム毎にサンプル値(入力音声信号)の最大振幅をgainとし、各サンプル値をgainで除算する。1フレームにN個のサンプル{xi|i=1,…,N}があるとすると、gainを分離したサンプル{x'i|i=1,…,N}は、式(6)のようになる。
x'i=xi/gain (6)
ここで、gain=MAX{xi|i=1,…,N}(MAXは、最大値を得る関数)である。
周波数変換部6は、正規化部5から入力された信号に対し、帯域毎に周波数変換を施し、変換係数処理部7に出力する。入力信号をQMF3により予め帯域分割することにより、周波数変換時の次元数を減らし、計算量を削減することができる。周波数変換としては、例えば、FFT(Fast Fourier Transform:高速フーリエ変換)を用いることができる。FFTにおける窓の大きさ(変換長)をM、入力信号を{xn|n=0,1,…,M-1}とすると、FFT係数{Xk|k=0,1,…,M-1}は式(7)で表される。
Figure 2005128401
FFTでは、変換前の元信号が周期関数でない場合、変換によって不要な高周波が現れるため、一般に、入力信号xnに窓関数をかけてFFTを行う。窓関数としては、ハミング窓(Hamming Window)等がある。ハミング窓の係数wnは、式(8)で表される。
Figure 2005128401
ここで、式(8)において、Mは窓のタップ数であり、FFTの窓の大きさと同一である。入力信号に窓関数をかけた場合のFFT係数をX'kとすると、X'kは式(9)で表される。
Figure 2005128401
式(9)のように、入力信号に窓関数をかけると、窓の両端(n=0、M−1)の信号が減衰してしまい、そのままでは再生時に途切れた信号になってしまう。そこで、例えば、図2に示すように、FFTの窓のシフト量を窓幅の半分にして、隣り合う窓が窓幅の半分だけ重なるようにすればよい。
変換係数処理部7は、周波数変換部6でのFFTによって窓毎に得られたFFT係数{Xk|k=0,1,…,M-1}に対し、絶対値|Xk|を減少させる処理を施し、処理後のFFT係数を周波数並べ替え部8に出力する。絶対値|Xk|を減少させる処理としては、スカラー量子化を利用することができる。スカラー量子化は、式(10)に示すように、量子化係数rで各変換係数を除算することで実現できる。
量子化されたXk=Xk/r (10)
量子化係数rは、符号化の目標データ量にあわせて決定される。目標データ量が少なくなるほど量子化係数rは大きくなる。量子化係数rの決定方法には、目標データ量から一意的に決定する方法と、エントロピー符号化部10によるエントロピー符号化後の符号量が目標データ量より大きい場合に、目標データ量内に収まるように量子化係数rを大きくしている方法がある。
周波数並べ替え部8は、変換係数処理部7から入力されたFFT係数を周波数毎に並べ替え、同一周波数帯域の係数をまとめてベクトル化し、ベクトル量子化部9に出力する。このように、同一周波数帯域の信号をまとめてベクトル化すると、例えば、定常信号を多く含む場合、後のベクトル量子化の精度が向上する。1フレーム中のFFTの窓の数をm、各窓毎に算出されたFFT係数Xkの数をM、i番目の窓のj番目のFFT係数をXijとすると、j番目の周波数帯域をまとめたベクトルFjは、Fj={Xij|i=0,…,m-1], j=0,…,M-1となる。
ベクトル量子化部9は、複数の音声パターンを示す代表ベクトルを格納したVQ(Vector Quantization)テーブル8aを有し、周波数並べ替え部8で作成されたベクトルFjと、VQテーブル9aに格納された各代表ベクトルを比較し、最も類似した代表ベクトルが示すインデックスを符号としてエントロピー符号化部10に出力する。
例えば、ベクトル長Nの符号化対象のベクトルを{sj|j=1,…,N}、VQテーブル9aに格納されたk個の代表ベクトルを{Vi|i=1,…,k}、Vi={vij|j=1,…,N}とすると、符号化対象のベクトルと、VQテーブル9aに格納されたi番目の代表ベクトルの各要素vijの誤差eiが最小となるようなiを、出力する符号とする。誤差eiの算出式を式(11)に示す。
Figure 2005128401
代表ベクトルの数kとベクトル長Nは、ベクトル量子化に要する処理時間やVQテーブル9aの容量等を勘案して決定される。例えば、ベクトル長を2にして代表ベクトル数を256にしたり、ベクトル長を4にして代表ベクトル数を8192(=213)にしたりするなど、自由な組み合わせが考えられる。
エントロピー符号化部10は、ベクトル量子化部9から入力された信号に対し、フレーム毎にエントロピー符号化を施し、エントロピー符号化により得られた符号を音声圧縮信号として出力する。エントロピー符号化とは、信号の統計的性質を利用して、符号をより短い符号へと変換する符号化方式であり、ハフマン(Huffman)符号化、算術符号化、レンジコーダ(Range Coder)による符号化等がある。エントロピー符号化の詳細については、後に図3〜図7を参照して説明する。
レートコントローラ11は、エントロピー符号化で得られた符号のデータ量と目標データ量を比較し、エントロピー符号化で得られた符号のデータ量が目標データ量より大きい場合、変換係数処理部7に対し、FFT係数の絶対値|Xk|を減少させる処理(スカラー量子化)を要求する。エントロピー符号化で得られた符号のデータ量が目標データ量以下である場合、レートコントローラ11は、変換係数処理部7に対し、次のフレームに対するスカラー量子化を要求する。
〈エントロピー符号化〉
以下では、本実施形態で適用されるエントロピー符号化の例として、ハフマン符号化、レンジコーダによる符号化について説明する。
(ハフマン符号化)
ハフマン符号化とは、出現頻度の高い記号には短い符号を割り当て、出現頻度の低い記号には長い符号を割り当てることで、全体のデータ量を圧縮する方式である。例えば、4つの記号{a、b、c、d}からなる100文字のデータがあったとする。全ての記号に同じ長さの2進数の符号(固定長符号)を割り当てる場合、4つの記号を表すには2ビットが必要であるため、100文字のデータ量は、2[bit]×100=200[bit]となる。
ハフマン符号化では、各記号の出現頻度に応じて2進数の符号が割り当てられる。図3に、100文字のデータ中の各記号a、b、c、dの出現頻度が、それぞれ、10、70、1、19である場合に各記号に割り当てられた2進数の符号の例を示す。図3に示すように、記号a、b、c、dに、それぞれ、符号100、0、101、11が割り当てられた場合、100文字のデータ量は、3[bit]×10+1[bit]×70+3[bit]×1+2[bit]×19=141[bit]となり、データ量は、固定長符号のデータ量の70%に圧縮される。
(レンジコーダによる符号化)
符号化前の元信号に含まれる記号の集合をS={si|i=1,…,n}とし、各記号siの出現確率をpiとする。また、元信号に含まれる各記号siを予め決められた順番に並べ替えた記号列{s1、s2、…、sn}において、記号sk(k≧2)より前に並んでいる各記号の出現確率の合計をFkとする。即ち、Fkは、式(12)のように表される。
Figure 2005128401
レンジコーダによる符号化では、記号毎に出現確率piとFiを対応付けて格納したテーブル(以下、生起確率テーブルという。)に基づいて、入力済みの信号が示す記号列に、数値で示す範囲(下限、幅)を設定する処理を行う。入力済みの信号に設定される範囲(下限、幅)は、直前に入力された信号に設定された範囲と生起確率テーブルに基づいて決定される。
符号化対象の信号skが入力されたときに設定される幅をrange'、下限をlow'とし、その信号skの1つ前の信号が入力されたときに設定された幅をrange、下限をlowとすると、幅range'、下限low'は、それぞれ、式(13)、式(14)のように表される。
range'=range×pk (13)
low'=low+range×Fk (14)
式(13)及び式(14)で算出されたrange'、low'が、次の信号が入力されたときのrange、lowとなる。
式(13)及び式(14)で示す算出処理は、入力信号がなくなるまで行われ、最後の信号が入力されたときに算出されたrange、lowに基づいて決定される範囲low〜low+rangeの間の値が符号値として出力される。
図4に、レンジコーダ符号化の例を示す。図4(a)に、元信号に含まれる記号の集合がS={s1=a、s2=b、s3=c、s4=d}であるときの生起確率テーブルの一例を示す。また、図4(b)に、記号列{baca}に対する符号化の一例を示す。図4(b)では、記号列を示す符号を10進数とし、lowの初期値を0、rangeの初期値を106とした場合を示している。図4(b)において、「入力信号」項目は、入力された記号を示し、「記号列」項目は、これまでに入力された記号列を示し、「low」項目は、式(14)により算出されるlow'を示し、「range」項目は、式(13)により算出されるrange'を示す。また、「範囲」項目は、low及びrangeから決定される符号値の範囲を示す。図4(b)において、[x、y)という表記は、符号値Zがx≦Z<yを満たすことを意味する。図4(b)によると、593750≦Z<603125を満たす符号値Zのうちの1つ(例えば、600000)が、記号列{baca}を符号化した結果として出力されることになる。
このように、レンジコーダによる符号化では、予め決められた出現確率を利用して入力される各記号を符号化しているため、元信号に含まれる各記号の出現確率が固定された情報源からの発生であれば非常に有効である。しかしながら、符号化対象となる信号が、出現確率が一定の情報源から発生されていることは極めてまれである。よって、上述のレンジコーダによる符号化では、各記号の出現確率が符号化対象となる信号に適応していない。そこで、本実施形態では、レンジコーダ符号化において、信号が入力される度に出現確率を更新させるようにすることによって、実際の信号に適応可能にした。以下、本実施形態のレンジコーダによる符号化について説明する。
上述と同様に、符号化前の元信号に含まれる記号の集合をS={si|i=1,…,n}とする。元信号に含まれる記号siの出現頻度をfi、出現頻度fiの合計をcum、各記号siの出現確率をpiとすると、cum、piは、それぞれ、式(15)、式(16)のように表される。
Figure 2005128401
Figure 2005128401
エントロピー符号化部10は、入力された信号に幅range及び下限lowを設定するためのテーブルとして、図5に示すような生起確率テーブル81を有する。生起確率テーブル81は、図5に示すように、各記号毎に、出現頻度fi、出現確率pi、Fiの各項目を対応付けて格納している。Fiの定義は、式(12)で示したとおりである。
エントロピー符号化部10に符号化対象の信号skが入力されたときに設定される幅をrange'、下限をlow'とし、その信号skの1つ前の信号が入力されたときに設定された幅をrange、下限をlowとすると、幅range'、下限low'は、それぞれ、式(17)、式(18)のように表される。
Figure 2005128401
Figure 2005128401
式(17)及び式(18)で算出されたrange'、low'が、次の信号が入力されたときのrange、lowとなる。
信号skの入力によりrange、lowが算出されると、エントロピー符号化部10は、式(19)に示すように、出現確率fkに1を加算し、算出された出現確率fk'を新たなfkとする。
k'=fk+1 (19)
エントロピー符号化部10は、出現確率fkの加算に伴い、cum、出現確率pi、Fiを再計算し、生起確率テーブル81を更新する。エントロピー符号化部10は、これらの処理を、入力信号がなくなるまで行い、最後の信号が入力されたときに算出されたrange、lowに基づいて決定される範囲low〜low+rangeの間の値を符号値として出力する。
図6及び図7に、本実施形態のレンジコーダ符号化の例を示す。図6(a)に、元信号に含まれる記号の集合がS={s1=a、s2=b、s3=c、s4=d}であるときのデフォルトの生起確率テーブル81の一例を示す。図6(a)に示すデフォルトの生起確率テーブル81のpi及びFiは、図4(a)に示す生起確率テーブルと同一であるものとする。また、図6(b)には、図4(b)に示した記号列と同一の記号列{baca}に対する符号化の一例を示す。図6(b)においても、記号列を示す符号を10進数とし、lowの初期値を0、rangeの初期値を106とする。図6(b)において、「入力信号」項目は、入力された記号を示し、「記号列」項目は、これまでに入力された記号列を示し、「low」項目は、式(18)により算出されるlow'を示し、「range」項目は、式(17)により算出されるrange'を示す。また、「範囲」項目は、low及びrangeから決定される符号値の範囲を示す。また、「生起確率テーブル」項目は、記号の入力毎に更新された生起確率テーブルを示す。図7に、記号の入力毎に更新された生起確率テーブルを示す。図6(b)によると、記号の入力毎に生起確率テーブルを更新することで、記号列{baca}が示す「範囲」は、図4(b)に示した生起確率テーブルが固定された場合と異なり、591992≦Z<599757を満たす符号値Zのうちの1つが、記号列{baca}を符号化した結果として出力されることになる。
図8に、音声処理装置100により圧縮された音声信号を復号する復号装置200の構成を示す。復号装置200は、図8に示すように、エントロピー復号部21、逆ベクトル量子化部22、時間順並べ替え部23、周波数逆変換部24、ゲイン合成部25、フレーム合成部26、QMF合成部27、D/A変換部28により構成される。なお、音声処理装置100と復号装置200を、一つの筐体に一体的に備えるような構造としてもよいし、各々を別体として設けるようにしてもよい。
エントロピー復号部21は、エントロピー符号化により符号化された信号を復号し、逆ベクトル量子化部22に出力する。逆ベクトル量子化部22は、複数の音声パターンを示す代表ベクトルを格納したVQテーブル22aを有し、エントロピー復号部21から入力された信号(インデックス)に対応する代表ベクトルを抽出し、時間順並べ替え部23に出力する。
時間順並べ替え部23は、逆ベクトル量子化部22から入力されたベクトルを時間順に並べ替え、周波数逆変換部24に出力する。周波数逆変換部24は、時間順並べ替え部23から入力された信号(ベクトル)に対し、逆FFTを施し、ゲイン合成部25に出力する。ゲイン合成部25は、周波数逆変換部24から入力された信号のゲインを合成し、Qフレーム合成部26に出力する。フレーム合成部26は、符号化及び復号化の処理単位であったフレームを合成し、合成後の信号をQMF合成部27に出力する。QMF合成部27は、分割された帯域(高域、低域)を合成し、合成後の信号をD/A変換部28に出力する。D/A変換部28は、QMF合成部27から入力されたデジタル信号をアナログ信号に変換し、音声再生信号として出力する。
次に、本実施形態における動作について説明する。
まず、図9のフローチャートを参照して、音声処理装置100において実行される音声圧縮処理について説明する。以下のフローチャートでは、エントロピー符号化として、レンジコーダによる符号化が用いられる場合を示す。
まず、生起確率テーブル81が初期化される(ステップS1)。そして、音声アナログ信号が入力されると、A/D変換部1において、入力された音声アナログ信号が音声デジタル信号に変換される(ステップS2)。以下、符号化対象の音声デジタル信号を単に音声信号を呼ぶことにする。次いで、DC除去部2において、音声信号の直流成分が削除され(ステップS3)、QMF3において、直流成分削除後の音声信号が高域と低域に分割される(ステップS4)。
次いで、フレーム化部4において、QMF分割された音声信号がフレーム化され、正規化部5において、フレーム毎に、入力された音声信号の振幅が正規化される(ステップS5)。次いで、周波数変換部6において、正規化後の音声信号に対し、FFTが施される(ステップS6)。
次いで、変換係数処理部7において、FFT係数に対して、式(10)に示すスカラー量子化が施される(ステップS7)。なお、ここで、式(10)の量子化係数rは、(スカラー)量子化ステップの増加とともに増加していくものとし、レンジコーダ符号化により得られた音声圧縮信号のデータ量が目標データ量より大きい場合に、次の量子化ステップに移行するものとする。
次いで、周波数並べ替え部8において、FFT係数が周波数毎に並べ替えられ(ステップS8)、同一周波数帯域の係数がまとめてベクトル化される。次いで、ベクトル量子化部9において、周波数帯域毎にまとめられたFFT係数のベクトルと、VQテーブル9aに格納された代表ベクトルが比較され、最も類似した代表ベクトルが示すインデックスが符号として出力される(ステップS9)。
次いで、レンジコーダの現在の生起確率テーブル81が保存され(ステップS10)、エントロピー符号化部10において、ベクトル量子化後の音声信号に対し、フレーム毎にレンジコーダ符号化が施され(ステップS11)、レンジコーダ符号化後の音声圧縮信号がレートコントローラ11に出力される。レンジコーダ符号化については、後に図10を参照して詳細に説明する。
次いで、レートコントローラ11において、エントロピー符号化部10から入力された1フレーム分の音声圧縮信号が予め決められた目標データ量以下であるか否かが判定される(ステップS12)。ステップS12において、入力された音声圧縮信号が目標データ量より大きいと判定された場合(ステップS12;NO)、生起確率テーブル81が、ステップS10で保存された値に戻される(ステップS14)。そして、量子化ステップが一つ増え(ステップS15)、目標データ量より大きいと判定されたフレームに対して、現在の量子化ステップに対応する量子化係数rを用いてスカラー量子化が施される。以下、該当するフレームに対して、ステップS8〜S11の処理が繰り返される。
ステップS12において、入力された音声圧縮信号が目標データ量以下であると判定された場合(ステップS12;YES)、処理対象(スカラー量子化からレンジコーダ符号化までの処理対象)の次のフレームがあるか否かが判定される(ステップS13)。
ステップS13において、処理対象の次のフレームがあると判定された場合(ステップS13;YES)、ステップS7に戻り、該当するフレームに対してスカラー量子化が施される。ステップS13において、処理対象の次のフレームがないと判定された場合(ステップS13;NO)、本音声圧縮処理が終了する。
次に、図10のフローチャートを参照して、エントロピー符号化部10において実行されるレンジコーダ符号化(図9のステップS11)の詳細について説明する。
まず、low及びrangeが初期化され(ステップS20)、式(15)により、各記号の出現確率の合計cumが算出される(ステップS21)。音声信号を示す記号skが入力されると(ステップS22)、式(17)によりrange'が算出され、式(18)によりlow'が算出され、算出されたrange'及びlow'が、それぞれ、次の記号が入力されたときrange、lowのとなる(ステップS23)。
次いで、記号skの出現頻度fkがインクリメントされる(ステップS24)。出現頻度fkがインクリメントされたことにより、各記号の出現確率piとFiが再計算され、生起確率テーブル81が更新される。次いで、1フレーム分の記号列に対して、ステップS21〜S24までの処理が終了したか否かが判定される(ステップS25)。
ステップS25において、1フレーム分の記号列に対する処理が終了していないと判定された場合(ステップS25;NO)、ステップS21に戻り、次に入力される記号に関して、ステップS21〜S24までの処理が繰り返される。ステップS25において、1フレーム分の記号列に対する処理が終了したと判定された場合(ステップS25;YES)、low〜low+rangeの範囲の一つの数値が出力され(ステップS26)、本レンジコーダ符号化処理が終了する。
図10に示すレンジコーダ符号化では、生起確率テーブルの初期化後に入力された全ての記号に基づいて生起確率テーブルが更新される例を示したが、出現確率の変動が局所的に大きい場合や、出現確率が過去の入力にほとんど依存しない場合(例えば、2つの異なる内容の音声ファイルが連結されて一つのファイルになっている場合)は、過去の入力に影響されない。従って、このような場合、一定期間以上過去に処理した記号の出現頻度の影響を生起確率テーブルから取り除くようにすれば、符号化効率のよい生起確率テーブルを生成することが可能になる。
以下、図11のフローチャートを参照して、図10のレンジコーダ符号化の変形例として、一定期間以上過去に処理した記号の出現頻度の影響を生起確率テーブルから取り除く場合のレンジコーダ符号化処理(レンジコーダ符号化処理2と呼ぶ。)について説明する。以下では、エントロピー符号化部10に、入力信号を記録するためのFIFO(First-In First-Out)が備えられているものとする。
まず、low及びrangeが初期化され(ステップS30)、式(15)により、各記号の出現確率の合計cumが算出される(ステップS31)。音声信号を示す記号skが入力されると(ステップS32)、式(17)によりrange'が算出され、式(18)によりlow'が算出され、算出されたrange'及びlow'が、それぞれ、次の記号が入力されたときrange、lowのとなる(ステップS33)。
次いで、記号skの出現頻度fkがインクリメントされ(ステップS34)、FIFOに記号skが入力され、x個前にFIFOに入力された記号syがFIFOから取り出される(ステップS35)。ここで、xは、2以上の整数である。記号syがFIFOから取り出されると、記号syの出現頻度fyがデクリメントされる(ステップS36)。
出現頻度fkがインクリメントされ、出現頻度fyがデクリメントされたことにより、各記号の出現確率piとFiが再計算され、生起確率テーブル81が更新される。次いで、1フレーム分の記号列に対して、ステップS31〜S36までの処理が終了したか否かが判定される(ステップS37)。
ステップS37において、1フレーム分の記号列に対する処理が終了していないと判定された場合(ステップS37;NO)、ステップS31に戻り、次に入力される記号に関して、ステップS31〜S36までの処理が繰り返される。ステップS37において、1フレーム分の記号列に対する処理が終了したと判定された場合(ステップS37;YES)、low〜low+rangeの範囲の一つの数値が出力され(ステップS38)、本レンジコーダ符号化処理2が終了する。
以上のように、本実施形態の音声処理装置100によれば、入力された音声信号をQMFにより帯域分割し、分割された信号の振幅を正規化し、正規化された音声信号にFFTを施し、FFT係数をスカラー量子化し、その後、FFT係数を周波数毎に並べ替えたベクトルにベクトル量子化を施し、ベクトル量子化により得られた音声信号にエントロピー符号化を施すことにより、語学学習用会話等の録音に適切なサンプリング周波数で、符号化レートを低減させることができる。例えば、本実施形態の音声処理装置100により、16kHz程度のサンプリング周波数の音声信号を16kbps程度のレートに圧縮することが可能になる。
また、周波数変換を行う前に、符号化対象の音声信号をQMFにより高域と低域に分割しておくことにより、周波数変換時の次元数を減らし、計算量を削減することが可能になる。また、エントロピー符号化としてレンジコーダ符号化を用いることにより、ビット操作が不要になり、処理負荷を軽減させることができる。特に、1記号が入力される度に生起確率テーブルを更新するようにしたことにより、話者の変更等による音声信号の変化に適応することができる。
なお、本実施形態における記述内容は、本発明の趣旨を逸脱しない範囲で適宜変更可能である。
例えば、上述の本実施形態では、周波数変換にFFTを用いたが、DCT(Discrete Cosine Transform)、MDCT(Modified Discrete Cosine Transform;変形離散コサイン変換)等を用いてもよい。特に、MDCTは、DCTにおける隣接するブロックの継ぎ目部分の雑音を軽減し、音声信号を効率的に変換できることから有効な手段である。ここで、ブロックとは、DCTを行う単位である。MDCTの各ブロックの長さ(窓の大きさ)をMとすると、MDCT係数{Xk|k=0,1,…,M-1}は式(20)で表される。
Figure 2005128401
ここで、hnは窓関数であり、式(21)で表される。
Figure 2005128401
なお、ブロック長Mは、16kHz程度のサンプリング周波数の音声では、256程度の値が考えられる。
また、上述の本実施形態では、絶対値|Xk|を減少させる処理として、スカラー量子化を用いる場合を示したが、予め決められた閾値tと|Xk|の大小関係により、Xkを処理するようにしてもよい。具体的には、下記の式(22)に示すように、FFT係数(又はMDCT係数)の絶対値|Xk|が閾値t以下の係数を0にし、|Xk|が閾値tより大きい場合は、|Xk|が閾値tの分だけ小さくなるようにする。
Figure 2005128401
式(22)に示すように、絶対値|Xk|が閾値t以下の係数を0にすることにより、エネルギー|Xk2が小さい係数を削除することができ、符号化すべきデータを減らすことができる。
また、上述の実施形態では、ベクトル量子化の際、音声の全ての帯域で同一のVQテーブル9aを用いたが、音声は、高域周波数部分と低域周波数部分で異なる特性がある場合が多いため、高域と低域で異なるVQテーブルを用意するようにしてもよい。また、周波数帯域を更に細かく分け、周波数帯域毎に異なるVQテーブルを用意するようにしてもよい。
更に、上述の実施形態では、レンジコーダ符号化の際、記号が入力される度に生起確率テーブル81を更新するようにしたが、1フレーム分の記号列に応じて生起確率テーブル81を更新するようにしてもよい。
本発明の実施形態の音声処理装置100の構成を示すブロック図。 入力信号と、FTT処理の窓との関係を示す図。 ハフマン符号の一例を示す図。 従来のレンジコーダによる符号化の一例を示す図。 本実施形態のレンジコーダ符号化に必要な生起確率テーブル81のデータ構成を示す図。 デフォルトの生起確率テーブル81の一例(同図(a))と、符号化の一例(同図(b))を示す図。 生起確率テーブル81の更新例を示す図。 圧縮された音声信号を復号する復号装置200の構成を示すブロック図。 音声処理装置100において実行される音声圧縮処理を示すフローチャート。 図9のレンジコーダ符号化処理の詳細を示すフローチャート。 図10のレンジコーダ符号化処理の変形例を示すフローチャート。
符号の説明
1 A/D変換部
2 DC除去部
3 QMF
4 フレーム化部
5 正規化部
6 周波数変化部
7 変換係数処理部
8 周波数並べ替え部
9 ベクトル量子化部
9a VQテーブル
10 エントロピー符号化部
81 生起確率テーブル
11 レートコントローラ
100 音声処理装置

Claims (10)

  1. 入力された音声信号を直交ミラーフィルタにより高域と低域に分割するフィルタ部と、
    前記フィルタ部により分割された音声信号の振幅を正規化する正規化部と、
    前記正規化部により正規化された音声信号に対し、周波数変換を施す周波数変換部と、
    前記周波数変換により得られた音声信号に対し、ベクトル量子化を施すベクトル量子化部と、
    前記ベクトル量子化により得られた音声信号に対し、エントロピー符号化を施すエントロピー符号化部と、
    を備えることを特徴とする音声処理装置。
  2. 前記周波数変換部は、周波数変換として離散フーリエ変換を用いることを特徴とする請求項1に記載の音声処理装置。
  3. 前記周波数変換部は、周波数変換として変形離散コサイン変換を用いることを特徴とする請求項1に記載の音声処理装置。
  4. 前記周波数変換により得られた変換係数の絶対値を減少させる処理を行う変換係数処理部を備え、
    前記ベクトル量子化部は、前記変換係数処理部により処理された音声信号に対し、ベクトル量子化を施すことを特徴とする請求項1〜3の何れか一項に記載の音声処理装置。
  5. 前記変換係数処理部は、前記周波数変換により得られた変換係数にスカラー量子化を施すことを特徴とする請求項4に記載の音声処理装置。
  6. 前記変換係数処理部は、前記周波数変換により得られた変換係数のうち、絶対値が予め設定された閾値以下である変換係数の絶対値を減少させる処理を行うことを特徴とする請求項4に記載の音声処理装置。
  7. 前記エントロピー符号化部は、エントロピー符号化としてハフマン符号化を用いることを特徴とする請求項1〜6の何れか一項に記載の音声処理装置。
  8. 前記エントロピー符号化部は、エントロピー符号化としてレンジコーダによる符号化を用いることを特徴とする請求項1〜6の何れか一項に記載の音声処理装置。
  9. 前記エントロピー符号化部は、入力信号を示す各記号の出現確率を格納した生起確率テーブルを有し、記号の入力に伴って前記生起確率テーブルを更新することを特徴とする請求項8に記載の音声処理装置。
  10. 入力された音声信号を直交ミラーフィルタにより高域と低域に分割し、
    前記分割された音声信号の振幅を正規化し、
    前記正規化された音声信号に対し、周波数変換を施し、
    前記周波数変換により得られた音声信号に対し、ベクトル量子化を施し、
    前記ベクトル量子化により得られた音声信号に対し、エントロピー符号化を施すことを特徴とする音声符号化方法。
JP2003365973A 2003-10-27 2003-10-27 音声処理装置及び音声符号化方法 Pending JP2005128401A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003365973A JP2005128401A (ja) 2003-10-27 2003-10-27 音声処理装置及び音声符号化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003365973A JP2005128401A (ja) 2003-10-27 2003-10-27 音声処理装置及び音声符号化方法

Publications (2)

Publication Number Publication Date
JP2005128401A true JP2005128401A (ja) 2005-05-19
JP2005128401A5 JP2005128401A5 (ja) 2006-07-06

Family

ID=34644463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003365973A Pending JP2005128401A (ja) 2003-10-27 2003-10-27 音声処理装置及び音声符号化方法

Country Status (1)

Country Link
JP (1) JP2005128401A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9257129B2 (en) 2013-03-28 2016-02-09 Fujitsu Limited Orthogonal transform apparatus, orthogonal transform method, orthogonal transform computer program, and audio decoding apparatus
US9800987B2 (en) 2006-03-07 2017-10-24 Samsung Electronics Co., Ltd. Binaural decoder to output spatial stereo sound and a decoding method thereof
CN112289328A (zh) * 2020-10-28 2021-01-29 北京百瑞互联技术有限公司 一种确定音频编码码率的方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9800987B2 (en) 2006-03-07 2017-10-24 Samsung Electronics Co., Ltd. Binaural decoder to output spatial stereo sound and a decoding method thereof
US10182302B2 (en) 2006-03-07 2019-01-15 Samsung Electronics Co., Ltd. Binaural decoder to output spatial stereo sound and a decoding method thereof
US10555104B2 (en) 2006-03-07 2020-02-04 Samsung Electronics Co., Ltd. Binaural decoder to output spatial stereo sound and a decoding method thereof
US9257129B2 (en) 2013-03-28 2016-02-09 Fujitsu Limited Orthogonal transform apparatus, orthogonal transform method, orthogonal transform computer program, and audio decoding apparatus
CN112289328A (zh) * 2020-10-28 2021-01-29 北京百瑞互联技术有限公司 一种确定音频编码码率的方法及系统

Similar Documents

Publication Publication Date Title
US7599833B2 (en) Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same
CN1905010B (zh) 编码音频数据的设备和方法及解码音频数据的设备和方法
JP4800645B2 (ja) 音声符号化装置、及び音声符号化方法
US6593872B2 (en) Signal processing apparatus and method, signal coding apparatus and method, and signal decoding apparatus and method
JPH09127990A (ja) 音声符号化方法及び装置
CN111179946A (zh) 无损编码方法和无损解码方法
US20040002854A1 (en) Audio coding method and apparatus using harmonic extraction
JP4978539B2 (ja) 符号化装置、符号化方法及びプログラム。
JP2009512895A (ja) スペクトル・ダイナミックスに基づく信号コーディング及びデコーディング
JP2006031016A (ja) 音声コーディング/デコーディング方法及びその装置
US20090210219A1 (en) Apparatus and method for coding and decoding residual signal
Kumar et al. The optimized wavelet filters for speech compression
EP0954853A1 (en) A method of encoding a speech signal
JP4009781B2 (ja) 音声処理装置及び音声符号化方法
US20040083094A1 (en) Wavelet-based compression and decompression of audio sample sets
JP3237178B2 (ja) 符号化方法及び復号化方法
JP2005128401A (ja) 音声処理装置及び音声符号化方法
JP4259401B2 (ja) 音声処理装置及び音声符号化方法
JPH05265499A (ja) 高能率符号化方法
JP2004302259A (ja) 音響信号の階層符号化方法および階層復号化方法
JP4626261B2 (ja) 音声符号化装置及び音声符号化方法
JP4054919B2 (ja) 音声処理装置及び音声符号化方法
JP4373693B2 (ja) 音響信号の階層符号化方法および階層復号化方法
JP2712925B2 (ja) 音声処理装置
JPH10260698A (ja) 信号符号化装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060522

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060522

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090428

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091006