JP5241509B2 - 適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法 - Google Patents

適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法 Download PDF

Info

Publication number
JP5241509B2
JP5241509B2 JP2008549377A JP2008549377A JP5241509B2 JP 5241509 B2 JP5241509 B2 JP 5241509B2 JP 2008549377 A JP2008549377 A JP 2008549377A JP 2008549377 A JP2008549377 A JP 2008549377A JP 5241509 B2 JP5241509 B2 JP 5241509B2
Authority
JP
Japan
Prior art keywords
adaptive excitation
excitation vector
vector
length
pitch period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008549377A
Other languages
English (en)
Other versions
JPWO2008072735A1 (ja
Inventor
薫 佐藤
利幸 森井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2008549377A priority Critical patent/JP5241509B2/ja
Publication of JPWO2008072735A1 publication Critical patent/JPWO2008072735A1/ja
Application granted granted Critical
Publication of JP5241509B2 publication Critical patent/JP5241509B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio

Description

本発明は、CELP(Code Excited Linear Prediction)方式の音声符号化において適応音源のベクトル量子化を行う適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法に関し、特にインターネット通信に代表されるパケット通信システムや、移動通信システム等の分野で、音声信号の伝送を行う音声符号化・復号装置に用いられる適応音源のベクトル量子化を行う適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法に関する。
ディジタル無線通信や、インターネット通信に代表されるパケット通信、あるいは音声蓄積などの分野においては、電波などの伝送路容量や記憶媒体の有効利用を図るため、音声信号の符号化・復号技術が不可欠である。特に、CELP方式の音声符号化・復号技術が主流の技術となっている(例えば、非特許文献1参照)。
CELP方式の音声符号化装置は、予め記憶された音声モデルに基づいて入力音声を符号化する。具体的には、CELP方式の音声符号化装置は、ディジタル化された音声信号を10〜20ms程度の一定時間間隔のフレームに区切り、各フレーム内の音声信号に対して線形予測分析を行い線形予測係数(LPC:Linear Prediction Coefficient)と線形予測残差ベクトルを求め、線形予測係数および線形予測残差ベクトルをそれぞれ個別に符号化する。CELP方式の音声符号化/復号装置において、線形予測残差ベクトルは、過去に生成された駆動音源信号を格納している適応音源符号帳と、固定の形状のベクトル(固定コードベクトル)を特定数個格納している固定符号帳を用いて、符号化/復号される。そのうち、適応音源符号帳は、線形予測残差ベクトルが有する周期的成分を表現するために用いられる一方、固定符号帳は、線形予測残差ベクトルのうち適応音源符号帳では表現できない非周期的成分を表現するために用いられる。
なお、線形予測残差ベクトルの符号化/復号処理においては、フレームをさらに短い時間単位(5ms〜10ms程度)に分割したサブフレーム単位で行われるのが一般的である。非特許文献2に記載されているITU−T勧告G.729では、フレームを2つのサブフレームに分割し、2つのサブフレーム各々に対し適応音源符号帳を用いてピッチ周期を探索することにより適応音源のベクトル量子化を行う。このような、サブフレーム単位の適応音源ベクトル量子化方法は、フレーム単位の適応音源ベクトル量子化方法よりも適応音源ベクトル量子化方法の計算量を低減することができる。
M.R.Schroeder、B.S.Atal著、「IEEE proc. ICASSP」、1985、「Code Excited Linear Prediction: High Quality Speech at Low Bit Rate」、p.937−940 "ITU-T Recommendation G.729", ITU-T, 1996/3, pp.17-19
しかしながら、上記のような各サブフレーム単位で適応音源ベクトル量子化を行う装置において各サブフレームのピッチ周期探索処理に用いられる情報量は、例えば、1フレームが2サブフレームに分割された場合、1つのサブフレームでの適応音源ベクトル量子化に用いられる情報量は、全体の情報量の半分となる。そのため、適応音源ベクトル量子化に用いられる全体の情報量が減少すると、各サブフレームに用いられる情報量はさらに減少し、各サブフレームのピッチ周期探索の範囲が減少し、適応音源ベクトル量子化の量子
化精度が劣化してしまうという問題が生じる。例えば、適応音源符号帳に割り振られる情報量が8ビットである場合、探索するピッチ周期として256通りの候補が存在するが、この8ビットの情報量を2つのサブフレームに均等に配分する場合、1つのサブフレームにおいて4ビットの情報量を用いてピッチ周期探索を行うこととなる。従って、各サブフレームにおいて探索するピッチ周期の候補は16通りとなり、ピッチ周期を表現するバリエーションが乏しくなる。一方、CELP音声符号化装置において、適応音源ベクトル量子化以外の処理はサブフレーム単位で行い、フレーム単位の処理は適応音源ベクトル量子化処理に限定すれば、適応音源ベクトル量子化による計算量の増加は容認できる程度に収まる。
本発明の目的は、サブフレーム単位で線形予測符号化を行うCELP音声符号化において、計算量の増加を抑えつつ、ピッチ周期探索の範囲を拡大し、適応音源ベクトル量子化の量子化精度を向上することができる適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法を提供することである。
本発明は、n長のフレームを複数のm長のサブフレームに分割して線形予測分析を行い(n、mは整数、nはmの整数倍)、m長の線形予測残差ベクトルおよび線形予測係数を生成するCELP音声符号化に用いられる適応音源ベクトル量子化装置であって、適応音源符号帳の中から、n長の適応音源ベクトルを切り出す適応音源ベクトル生成手段と、前記複数のサブフレームの前記線形予測残差ベクトルを加算してn長のターゲットベクトルを構成するターゲットベクトル構成手段と、前記各サブフレームの前記線形予測係数を用いてm×m行列のインパルス応答行列を生成する合成フィルタと、前記複数のm×m行列のインパルス応答行列を用いて、n×n行列のインパルス応答行列を構成するインパルス応答行列構成手段と、前記n長の適応音源ベクトルと、前記n長のターゲットベクトルと、前記n×n行列のインパルス応答行列とを用いて、ピッチ周期の各候補に対し、適応音源ベクトル量子化の評価尺度を算出する評価尺度算出手段と、前記ピッチ周期の各候補に対応する評価尺度を比較し、前記評価尺度を最大とするピッチ周期を量子化結果として求める評価尺度比較手段と、を具備する構成を採る。
本発明は、CELP音声符号化においてフレームを複数のサブフレームに分割し線形予測分析を行って得られた、符号化情報を復号するCELP音声復号に用いられる適応音源ベクトル逆量子化装置であって、前記CELP音声符号化において前記フレーム単位の適応音源ベクトル量子化を行い得られた、ピッチ周期を記憶する記憶手段と、前記各サブフレームにおいて、前記ピッチ周期を切り出し位置として用い、適応音源符号帳の中からn長の適応音源ベクトルを切り出す適応音源ベクトル生成手段と、を具備する構成を採る。
本発明は、n長のフレームを複数のm長のサブフレームに分割して線形予測分析を行い(n、mは整数、nはmの整数倍)、m長の線形予測残差ベクトルおよび線形予測係数を生成するCELP音声符号化に用いられる適応音源ベクトル量子化方法であって、適応音源符号帳の中から、n長の適応音源ベクトルを切り出すステップと、前記複数のサブフレームの前記線形予測残差ベクトルを加算してn長のターゲットベクトルを構成するステップと、前記各サブフレームの前記線形予測係数を用いてm×m行列のインパルス応答行列を生成するステップと、前記複数のm×m行列のインパルス応答行列を用いて、n×n行列のインパルス応答行列を構成するステップと、前記n長の適応音源ベクトルと、前記n長のターゲットベクトルと、前記n×n行列のインパルス応答行列とを用いて、ピッチ周期の各候補に対し、適応音源ベクトル量子化の評価尺度を算出するステップと、前記ピッチ周期の各候補に対応する評価尺度を比較し、前記評価尺度を最大とするピッチ周期を量子化結果として求めるステップと、を有するようにする。
本発明によれば、サブフレーム単位で線形予測符号化を行うCELP音声符号化において生成されたサブフレーム単位の線形予測係数および線形予測残差ベクトルを用いて、フレーム単位のターゲットベクトル、適応音源ベクトル、およびインパルス応答行列を構成しフレーム単位での適応音源ベクトル量子化を行うため、計算量の増加を抑えつつ、ピッチ周期探索の範囲を拡大し、適応音源ベクトル量子化の量子化精度さらにはCELP音声符号化品質を向上することができる。
本発明の一実施の形態では、適応音源ベクトル量子化装置を含むCELP音声符号化装置において、16kHzの音声信号を構成する各フレームをそれぞれ2つのサブフレームに分割し、各サブフレームに対し線形予測分析を行ってサブフレーム毎の線形予測係数および線形予測残差ベクトルを求める場合を例にとる。各サブフレームに対し各々ピッチ周期探索を行って適応音源ベクトルの量子化を行う従来の適応音源ベクトル量子化装置とは異なって、本実施の形態に係る適応音源ベクトル量子化装置は、2つのサブフレームを1つのフレームに纏め、8ビットの情報量を用いてピッチ周期探索を行う。
以下、本発明の一実施の形態について、添付図面を参照して詳細に説明する。
(一実施の形態)
図1は、本発明の一実施の形態に係る適応音源ベクトル量子化装置100の主要な構成を示すブロック図である。
図1において、適応音源ベクトル量子化装置100は、ピッチ周期指示部101、適応音源符号帳102、探索用適応音源ベクトル生成部103、合成フィルタ104、探索用インパルス応答行列生成部105、探索用ターゲットベクトル生成部106、評価尺度算出部107、評価尺度比較部108を備え、サブフレーム毎のサブフレームインデックス、線形予測係数、およびターゲットベクトルが入力される。そのうち、サブフレームインデックスは、本実施の形態に係る適応音源ベクトル量子化装置100を含むCELP音声符号化装置において得られた各サブフレームがフレーム内において何番目のサブフレームであるかを表す。また、線形予測係数およびターゲットベクトルは、CELP音声符号化装置において各サブフレームに対し線形予測分析を行って求められたサブフレーム毎の線形予測係数および線形予測残差(励振信号)ベクトルを表す。線形予測係数としては、LPCパラメータ、もしくは、LPCパラメータと一対一で相互変換可能な周波数領域のパラメータであるLSF(Line Spectral Frequency)パラメータ、LSP(Line Spectral
Pairs)パラメータなどを用いる。
ピッチ周期指示部101は、サブフレーム毎に入力されるサブフレームインデックスに基づき、予め設定されているピッチ周期探索範囲内のピッチ周期を探索用適応音源ベクトル生成部103へ順次指示する。
適応音源符号帳102は、駆動音源を格納するバッファを内蔵しており、フレーム単位でのピッチ周期探索が終了する度に、評価尺度比較部108からフィードバックされるピ
ッチ周期インデックスIDXを用いて駆動音源を更新する。
探索用適応音源ベクトル生成部103は、ピッチ周期指示部101から指示されるピッチ周期を有する適応音源ベクトルを適応音源符号帳102からフレーム長nだけ切り出し、ピッチ周期探索用の適応音源ベクトル(以下、探索用適応音源ベクトルと略す)として評価尺度算出部107に出力する。
合成フィルタ104は、サブフレーム毎に入力される線形予測係数を用いて合成フィルタを構成し、サブフレーム毎に入力されるサブフレームインデックスに基づき合成フィルタのインパルス応答行列を生成して探索用インパルス応答行列生成部105に出力する。
探索用インパルス応答行列生成部105は、合成フィルタ104から入力されるサブフレーム毎のインパルス応答行列を用いて、サブフレーム毎に入力されるサブフレームインデックスに基づき、フレーム毎のインパルス応答行列を生成し、探索用インパルス応答行列として評価尺度算出部107に出力する。
探索用ターゲットベクトル生成部106は、サブフレーム毎に入力されるターゲットベクトルを用いて、フレーム毎のターゲットベクトルを生成し、探索用ターゲットベクトルとして評価尺度算出部107に出力する。
評価尺度算出部107は、探索用適応音源ベクトル生成部103から入力される探索用適応音源ベクトル、探索用インパルス応答行列生成部105から入力される探索用インパルス応答行列、および探索用ターゲットベクトル生成部106から入力される探索用ターゲットベクトルを用いて、サブフレーム毎に入力されるサブフレームインデックスに基づきピッチ周期探索用の評価尺度を算出して評価尺度比較部108に出力する。
評価尺度比較部108は、評価尺度算出部107から入力される評価尺度が最大となる時のピッチ周期を求め、求められたピッチ周期を示すインデックスIDXを外部へ出力するとともに適応音源符号帳102にフィードバックする。
適応音源ベクトル量子化装置100の各部は、以下の動作を行う。
ピッチ周期指示部101は、サブフレーム毎に入力されるサブフレームインデックスが第1サブフレームを示す場合、予め設定されているピッチ周期探索範囲内のピッチ周期T_intを探索用適応音源ベクトル生成部103へ順次指示する。ここで、ピッチ周期探索範囲内のピッチ周期の候補は、各サブフレームの適応音源ベクトル量子化に用いられる情報量の総和値により決まる。例えば、2つのサブフレームの適応音源ベクトル量子化に用いられる情報量が4ビットである場合、その総和値は8(=4+4)ビットとなり、ピッチ周期探索範囲内のピッチ周期の候補は「32」から「287」までの256通りある。ここで、「32」から「287」はピッチ周期を示すインデックスを示す。ピッチ周期指示部101は、サブフレーム毎に入力されるサブフレームインデックスが第1サブフレームを示す場合、ピッチ周期T_int(T_int=32、33、…、287)を探索用適応音源ベクトル生成部103へ順次指示し、サブフレームインデックスが第2サブフレームを示す場合、探索用適応音源ベクトル生成部103へピッチ周期の指示を行わない。
適応音源符号帳102は、駆動音源を格納するバッファを内蔵しており、フレーム単位でピッチ周期探索が終了する度に、評価尺度比較部108からフィードバックされるインデックスIDXが示すピッチ周期を有する適応音源ベクトルを用いて駆動音源を更新する。
探索用適応音源ベクトル生成部103は、ピッチ周期指示部101から指示されるピッチ周期T_intを有する適応音源ベクトルを適応音源符号帳102からフレーム長nだけ切り出し、探索用適応音源ベクトルP(T_int)として評価尺度算出部107に出力する。例えば、適応音源符号帳102がexc(0),exc(1),…,exc(e−1)で表されるようにeの長さを持つベクトルからなる場合、探索用適応音源ベクトル生成部103において生成される適応音源ベクトルP(T_int)は、下記の式(1)で表される。
Figure 0005241509
図2は、適応音源符号帳102が備える駆動音源を示す図である。
図2において、eは駆動音源121の長さを表し、nは探索用適応音源ベクトルP(T_int)の長さを示し、T_intはピッチ周期指示部101から指示されるピッチ周期を示す。図2に示すように、探索用適応音源ベクトル生成部103は、駆動音源121(適応音源符号帳102)の末尾(eの位置)からT_intだけ離れた位置を起点とし、ここから末尾eの方向へフレーム長nの部分122を切り出し、探索用適応音源ベクトルP(T_int)を生成する。ここで、T_intの値がnより小さい場合、探索用適応音源ベクトル生成部103は、切り出した区間をフレーム長になるまで反復して充足させると良い。なお、探索用適応音源ベクトル生成部103は、上記の式(1)で表される切り出し処理を、ピッチ周期指示部101から与えられる「32」から「287」までの256通りのT_intに対し繰り返す。
合成フィルタ104は、サブフレーム毎に入力される線形予測係数を用いて合成フィルタを構成する。そして、合成フィルタ104は、サブフレーム毎に入力されるサブフレームインデックスが第1サブフレームを示す場合には、下記の式(2)で表されるインパルス応答行列を生成する一方、サブフレームインデックスが第2サブフレームを示す場合には、下記の式(3)で表されるインパルス応答行列を生成して探索用インパルス応答行列生成部105に出力する。
Figure 0005241509
Figure 0005241509
式(2)に示すように、サブフレームインデックスが第1サブフレームを示す場合のインパルス応答行列Hは、フレーム長nだけ求められる。また、式(3)に示すように、サブフレームインデックスが第2サブフレームを示す場合のインパルス応答行列H_aheadは、サブフレーム長mだけ求められる。
探索用インパルス応答行列生成部105は、合成フィルタ104が第1サブフレームおよび第2サブフレームの間で遷移するという点を考慮し、合成フィルタ104から入力されるインパルス応答行列HおよびH_aheadの要素を抜き出して下記の式(4)で表される探索用インパルス応答行列H_newを生成し、評価尺度算出部107に出力する。
Figure 0005241509
探索用ターゲットベクトル生成部106は、サブフレーム毎に入力されるサブフレームインデックスが第1サブフレームを示す場合には、入力されるX1=[x(0) x(1) … x(m−1)]で表されるターゲットベクトルを記憶する。そして、サブフレーム毎に入力されるサブフレームインデックスが第2サブフレームを示す場合には、探索用ターゲットベクトル生成部106は、入力されるX2=[x(m) x(m+1) … x(n−1)]で表されるターゲットベクトルと、記憶しているターゲットベクトルX1とを加算し、下記の式(5)で示される探索用ターゲットベクトルを生成して評価尺度算出部107に出力する。
Figure 0005241509
評価尺度算出部107は、探索用適応音源ベクトル生成部103から入力される適応音源ベクトルP(T_int)、探索用インパルス応答行列生成部105から入力される探索用インパルス応答行列H_new、および探索用ターゲットベクトル生成部106から入力されるターゲットベクトルXを用いて、下記の式(6)に従いピッチ周期探索用の評価尺度Dist(T_int)を算出し評価尺度比較部108に出力する。下記の式(6
)に示すように、評価尺度算出部107は、探索用インパルス応答行列生成部105で生成された探索用インパルス応答行列H_newと、探索用適応音源ベクトル生成部103で生成された探索用適応音源ベクトルP(T_int)とを畳み込んで得られる再生ベクトルと、探索用ターゲットベクトル生成部106で生成された探索用ターゲットベクトルとの二乗誤差を評価尺度として求める。なお、評価尺度算出部107において評価尺度Dist(T_int)を算出する際は、下記の式(6)中の探索用インパルス応答行列H_newの代わりに、探索用インパルス応答行列H_newと、CELP音声符号化装置に含まれる聴覚重み付けフィルタのインパルス応答行列Wとを乗算して得られる行列H’_new(=H_new×W)を用いることが一般的である。ただし、以下の説明では、H_newとH’_newを区別せずH_newと記載することとする。
Figure 0005241509
評価尺度比較部108は、評価尺度算出部107から入力される、例えば、256通りの評価尺度Dist(T_int)に対し比較を行い、そのうち最大の評価尺度Dist(T_int)に対応するピッチ周期T_int’を求める。評価尺度比較部108は、求められたピッチ周期T_int’を示すインデックスIDXを外部へ出力するとともに適応音源符号帳102に出力する。
適応音源ベクトル量子化装置100を含むCELP音声符号化装置は、評価尺度比較部108において生成されたピッチ周期インデックスIDXを含む音声符号化情報を、本実施の形態に係る適応音源ベクトル逆量子化装置を含むCELP復号装置に送信する。CELP復号装置は、受信した音声符号化情報を復号しピッチ周期インテックスIDXを得て、本実施の形態に係る適応音源ベクトル逆量子化装置へ入力する。なお、CELP復号装置における音声復号処理も、CELP音声符号化装置における音声符号化処理と同様にサブフレーム単位で行われ、CELP復号装置はサブフレームインデックスを本実施の形態に係る適応音源ベクトル逆量子化装置へ入力する。
図3は、本実施の形態に係る適応音源ベクトル逆量子化装置200の主要な構成を示すブロック図である。
図3において、適応音源ベクトル逆量子化装置200は、ピッチ周期判定部201、ピッチ周期記憶部202、適応音源符号帳203、および適応音源ベクトル生成部204を備え、CELP音声復号装置において生成されたサブフレームインデックスおよびピッチ周期インデックスIDXが入力される。
ピッチ周期判定部201は、サブフレームインデックスが第1サブフレームを示す場合は、入力されるピッチ周期インデックスIDXに対応するピッチ周期T_int’をピッチ周期記憶部202、適応音源符号帳203、および適応音源ベクトル生成部204に出力する。ピッチ周期判定部201は、サブフレームインデックスが第2サブフレームを示す場合は、ピッチ周期記憶部202に記憶されているピッチ周期T_int’を読み出して適応音源符号帳203および適応音源ベクトル生成部204に出力する。
ピッチ周期記憶部202は、ピッチ周期判定部201から入力される第1サブフレームのピッチ周期T_int’を記憶し、第2サブフレームの処理においてピッチ周期判定部201により読み出される。
適応音源符号帳203は、適応音源ベクトル量子化装置100の適応音源符号帳102が備える駆動音源と同様な駆動音源を格納するバッファを内蔵しており、サブフレーム毎の適応音源復号処理が終わる度に、ピッチ周期判定部201から入力されるピッチ周期T_int’を有する適応音源ベクトルを用いて駆動音源を更新する。
適応音源ベクトル生成部204は、ピッチ周期判定部201から入力されるピッチ周期T_int’を有する適応音源ベクトルP’(T_int’)を適応音源符号帳203からサブフレーム長mだけ切り出し、サブフレーム毎の適応音源ベクトルとして出力する。適応音源ベクトル生成部204において生成される適応音源ベクトルP’(T_int’)は、下記の式(7)で表される。
Figure 0005241509
このように、本実施の形態によれば、サブフレーム単位で線形予測符号化を行うCELP音声符号化において、適応音源ベクトル量子化装置は、サブフレーム単位の線形予測係数および線形予測残差ベクトルを用いて、フレーム単位のターゲットベクトル、適応音源ベクトル、およびインパルス応答行列を構成しフレーム単位での適応音源ベクトル量子化を行う。このため、計算量の増加を抑えつつ、ピッチ周期探索の範囲を拡大し、適応音源ベクトル量子化精度さらにはCELP音声符号化品質を向上することができる。
なお、本実施の形態では、探索用インパルス応答行列生成部105は、上記の式(4)で表される探索用インパルス応答行列を求める場合を例にとって説明したが、本発明はこれに限定されず、下記の式(8)で表される探索用インパルス応答行列を求めても良く、さらには、上記の式(6)および式(8)を用いず、第1サブフレームおよび第2サブフレームの間での合成フィルタ104の遷移に応じて正確な探索用インパルス応答行列を求めても良い。ただし、正確な探索用インパルス応答行列を求める場合、計算量は増加する。
Figure 0005241509
また、本実施の形態では、評価尺度算出部107は、フレーム長nの長さを持つ探索用ターゲットベクトルXおよび探索用適応音源ベクトルP(T_int)、n×n行列である探索用インパルス応答行列H_newを用いて上記の式(6)に従って評価尺度Dis
t(T_int)を求める場合を例にとって説明したが、本発明はこれに限定されず、評価尺度算出部107は、m≦r<nを満たす定数rを予め設定し、探索用ターゲットベクトルXのr次までの要素、探索用適応音源ベクトルP(T_int)のr次までの要素、探索用インパルス応答行列H_newのr×rまでの要素を抜き出して定数rの長さを持つ探索用ターゲットベクトルXおよび探索用適応音源ベクトルP(T_int)、r×r行列である探索用インパルス応答行列H_newを新たに構成し、評価尺度Dist(T_int)を求めても良い。
また、本実施の形態では、線形予測残差ベクトルを入力とし、適応音源符号帳を用いて線形予測残差ベクトルのピッチ周期を探索する場合を例にとって説明したが、本発明はこれに限定されず、音声信号そのものを入力とし、音声信号そのもののピッチ周期を直接探索しても良い。
また、本実施の形態では、ピッチ周期の候補として「32」から「287」までの256通りを例にとって説明したが、本発明はこれに限定されず、他の範囲をピッチ周期の候補としても良い。
また、本実施の形態では、適応音源ベクトル量子化装置100を含むCELP音声符号化装置において1つのフレームを2つのサブフレームに分割して各々のサブフレームに対し線形予測分析を行うことを前提として説明したが、本発明はこれに限定されず、CELP方式の音声符号化装置において、1つのフレームを3つ以上のサブフレームに分割して各々のサブフレームに対し線形予測分析を行うことを前提としても良い。また、各サブフレームをさらに2つのサブサブフレームに分割して各々のサブサブフレームにおいて線形予測分析を行うことを前提として、本発明を適用することも可能である。具体的には、CELP音声符号化装置において、1つのフレームを2つのサブフレームに分割し、更に各サブフレームを2つのサブサブフレームに分割し、各々のサブフレームに対し線形予測分析を行い線形予測係数および線形予測残差が求められた場合、適応音源ベクトル量子化装置100においては、4つのサブサブフレームを用いて2つのサブフレームを構成し、また、2つのサブフレームを用いて1つのフレームを構成し、得られたフレームに対しピッチ周期探索を行えば良い。
本発明に係る適応音源ベクトル量子化装置および適応音源ベクトル逆量子化装置は、音声伝送を行う移動体通信システムにおける通信端末装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置を提供することができる。
なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係る適応音源ベクトル量子化方法および適応音源ベクトル逆量子化方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る適応音源ベクトル量子化装置および適応音源ベクトル逆量子化装置と同様の機能を実現することができる。
また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサ
で実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2006年12月15日出願の特願2006−338342の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明に係る適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法は、音声符号化および音声復号等の用途に適用することができる。
本発明の一実施の形態に係る適応音源ベクトル量子化装置の主要な構成を示すブロック図 本発明の一実施の形態に係る適応音源符号帳が備える駆動音源を示す図 本発明の一実施の形態に係る適応音源ベクトル逆量子化装置の主要な構成を示すブロック図

Claims (5)

  1. n長のフレームを複数のm長のサブフレームに分割して線形予測分析を行い(n、mは整数、nはmの整数倍)、m長の線形予測残差ベクトルおよび線形予測係数を生成するCELP音声符号化に用いられる適応音源ベクトル量子化装置であって、
    適応音源符号帳の中から、n長の適応音源ベクトルを切り出す適応音源ベクトル生成手段と、
    前記複数のサブフレームの前記線形予測残差ベクトルを加算してn長のターゲットベクトルを構成するターゲットベクトル構成手段と、
    前記各サブフレームの前記線形予測係数を用いてm×m行列のインパルス応答行列を生成する合成フィルタと、
    前記複数のm×m行列のインパルス応答行列を用いて、n×n行列のインパルス応答行列を構成するインパルス応答行列構成手段と、
    前記n長の適応音源ベクトルと、前記n長のターゲットベクトルと、前記n×n行列のインパルス応答行列とを用いて、ピッチ周期の各候補に対し、適応音源ベクトル量子化の評価尺度を算出する評価尺度算出手段と、
    前記ピッチ周期の各候補に対応する評価尺度を比較し、前記評価尺度を最大とするピッチ周期を量子化結果として求める評価尺度比較手段と、
    を具備する適応音源ベクトル量子化装置。
  2. 請求項1記載の適応音源ベクトル量子化装置を具備するCELP音声符号化装置。
  3. 請求項2記載のCELP音声符号化装置から出力された符号化情報を復号するCELP音声復号に用いられる適応音源ベクトル逆量子化装置であって、
    前記CELP音声符号化装置において前記フレーム単位の適応音源ベクトル量子化を行い得られた、前記ピッチ周期を記憶する記憶手段と、
    前記適応音源符号帳と、
    前記各サブフレームにおいて、前記ピッチ周期を切り出し位置として用い、前記適応音源符号帳の中から前記CELP音声符号化装置で用いたサブフレーム長であるの適応音源ベクトルを切り出す適応音源ベクトル生成手段と、
    を具備する適応音源ベクトル逆量子化装置。
  4. 請求項3記載の適応音源ベクトル逆量子化装置を具備するCELP音声復号装置。
  5. n長のフレームを複数のm長のサブフレームに分割して線形予測分析を行い(n、mは整数、nはmの整数倍)、m長の線形予測残差ベクトルおよび線形予測係数を生成するCELP音声符号化に用いられる適応音源ベクトル量子化方法であって、
    適応音源符号帳の中から、n長の適応音源ベクトルを切り出すステップと、
    前記複数のサブフレームの前記線形予測残差ベクトルを加算してn長のターゲットベクトルを構成するステップと、
    前記各サブフレームの前記線形予測係数を用いてm×m行列のインパルス応答行列を生成するステップと、
    前記複数のm×m行列のインパルス応答行列を用いて、n×n行列のインパルス応答行列を構成するステップと、
    前記n長の適応音源ベクトルと、前記n長のターゲットベクトルと、前記n×n行列のインパルス応答行列とを用いて、ピッチ周期の各候補に対し、適応音源ベクトル量子化の評価尺度を算出するステップと、
    前記ピッチ周期の各候補に対応する評価尺度を比較し、前記評価尺度を最大とするピッチ周期を量子化結果として求めるステップと、
    を有する適応音源ベクトル量子化方法。
JP2008549377A 2006-12-15 2007-12-14 適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法 Expired - Fee Related JP5241509B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008549377A JP5241509B2 (ja) 2006-12-15 2007-12-14 適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006338342 2006-12-15
JP2006338342 2006-12-15
PCT/JP2007/074136 WO2008072735A1 (ja) 2006-12-15 2007-12-14 適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法
JP2008549377A JP5241509B2 (ja) 2006-12-15 2007-12-14 適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法

Publications (2)

Publication Number Publication Date
JPWO2008072735A1 JPWO2008072735A1 (ja) 2010-04-02
JP5241509B2 true JP5241509B2 (ja) 2013-07-17

Family

ID=39511748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008549377A Expired - Fee Related JP5241509B2 (ja) 2006-12-15 2007-12-14 適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法

Country Status (4)

Country Link
US (1) US8200483B2 (ja)
EP (1) EP2101319B1 (ja)
JP (1) JP5241509B2 (ja)
WO (1) WO2008072735A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5230444B2 (ja) * 2006-12-15 2013-07-10 パナソニック株式会社 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法
US8521519B2 (en) * 2007-03-02 2013-08-27 Panasonic Corporation Adaptive audio signal source vector quantization device and adaptive audio signal source vector quantization method that search for pitch period based on variable resolution
WO2009049671A1 (en) * 2007-10-16 2009-04-23 Nokia Corporation Scalable coding with partial eror protection
EP3288029A1 (en) * 2008-01-16 2018-02-28 III Holdings 12, LLC Vector quantizer, vector inverse quantizer, and methods therefor
US9245529B2 (en) * 2009-06-18 2016-01-26 Texas Instruments Incorporated Adaptive encoding of a digital signal with one or more missing values
US8924203B2 (en) 2011-10-28 2014-12-30 Electronics And Telecommunications Research Institute Apparatus and method for coding signal in a communication system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248995A (ja) * 1995-03-13 1996-09-27 Nippon Telegr & Teleph Corp <Ntt> 音声符号化方法
JPH10242867A (ja) * 1997-02-25 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法
JP2005091749A (ja) * 2003-09-17 2005-04-07 Matsushita Electric Ind Co Ltd 音源信号符号化装置、及び音源信号符号化方法
JP2006338342A (ja) * 2005-06-02 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5396576A (en) * 1991-05-22 1995-03-07 Nippon Telegraph And Telephone Corporation Speech coding and decoding methods using adaptive and random code books
US5717824A (en) * 1992-08-07 1998-02-10 Pacific Communication Sciences, Inc. Adaptive speech coder having code excited linear predictor with multiple codebook searches
JP2746039B2 (ja) * 1993-01-22 1998-04-28 日本電気株式会社 音声符号化方式
CA2154911C (en) * 1994-08-02 2001-01-02 Kazunori Ozawa Speech coding device
DE69712538T2 (de) 1996-11-07 2002-08-29 Matsushita Electric Ind Co Ltd Verfahren zur Erzeugung eines Vektorquantisierungs-Codebuchs
US5995927A (en) * 1997-03-14 1999-11-30 Lucent Technologies Inc. Method for performing stochastic matching for use in speaker verification
US6330531B1 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Comb codebook structure
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
JP3583945B2 (ja) 1999-04-15 2004-11-04 日本電信電話株式会社 音声符号化方法
EP1052622B1 (en) * 1999-05-11 2007-07-11 Nippon Telegraph and Telephone Corporation Selection of a synthesis filter for CELP type wideband audio coding
CN1296888C (zh) * 1999-08-23 2007-01-24 松下电器产业株式会社 音频编码装置以及音频编码方法
US6584437B2 (en) * 2001-06-11 2003-06-24 Nokia Mobile Phones Ltd. Method and apparatus for coding successive pitch periods in speech signal
FI118704B (fi) * 2003-10-07 2008-02-15 Nokia Corp Menetelmä ja laite lähdekoodauksen tekemiseksi
JP4463526B2 (ja) * 2003-10-24 2010-05-19 株式会社ユニバーサルエンターテインメント 声紋認証システム
JP5230444B2 (ja) * 2006-12-15 2013-07-10 パナソニック株式会社 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248995A (ja) * 1995-03-13 1996-09-27 Nippon Telegr & Teleph Corp <Ntt> 音声符号化方法
JPH10242867A (ja) * 1997-02-25 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法
JP2005091749A (ja) * 2003-09-17 2005-04-07 Matsushita Electric Ind Co Ltd 音源信号符号化装置、及び音源信号符号化方法
JP2006338342A (ja) * 2005-06-02 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム

Also Published As

Publication number Publication date
EP2101319B1 (en) 2015-09-16
JPWO2008072735A1 (ja) 2010-04-02
US20100082337A1 (en) 2010-04-01
EP2101319A1 (en) 2009-09-16
EP2101319A4 (en) 2011-09-07
US8200483B2 (en) 2012-06-12
WO2008072735A1 (ja) 2008-06-19

Similar Documents

Publication Publication Date Title
JP5511372B2 (ja) 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法
JP5230444B2 (ja) 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法
JP5596341B2 (ja) 音声符号化装置および音声符号化方法
JPWO2008155919A1 (ja) 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法
JP5241509B2 (ja) 適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法
JPWO2008047795A1 (ja) ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
JPWO2009090875A1 (ja) ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
JPH04344699A (ja) 音声符号化・復号化方法
JPH0519795A (ja) 音声の励振信号符号化・復号化方法
JPH113098A (ja) 音声符号化方法および装置
JP3153075B2 (ja) 音声符号化装置
JPH06131000A (ja) 基本周期符号化装置
JPH08185199A (ja) 音声符号化装置
JP3024467B2 (ja) 音声符号化装置
JP3230380B2 (ja) 音声符号化装置
JPH0511799A (ja) 音声符号化方式
JP3284874B2 (ja) 音声符号化装置
JP3101376B2 (ja) 音声符号化方式
JPH10207495A (ja) 音声情報処理装置
JPH10124091A (ja) 音声符号化装置および情報記憶媒体
JP2000347699A (ja) 拡散音源ベクトル生成装置及び拡散音源ベクトル生成方法
JP2000347700A (ja) Celp型音声復号化装置及びcelp型音声復号化方法
JP2000330596A (ja) 拡散音源ベクトル生成装置及び拡散音源ベクトル生成方法
JP2000338999A (ja) Celp型音声符号化装置及びcelp型音声符号化方法
JP2000330595A (ja) 拡散音源ベクトル生成装置及び拡散音源ベクトル生成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130402

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5241509

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees