JP4619549B2 - マルチモード音声復号化装置及びマルチモード音声復号化方法 - Google Patents

マルチモード音声復号化装置及びマルチモード音声復号化方法 Download PDF

Info

Publication number
JP4619549B2
JP4619549B2 JP2001000797A JP2001000797A JP4619549B2 JP 4619549 B2 JP4619549 B2 JP 4619549B2 JP 2001000797 A JP2001000797 A JP 2001000797A JP 2001000797 A JP2001000797 A JP 2001000797A JP 4619549 B2 JP4619549 B2 JP 4619549B2
Authority
JP
Japan
Prior art keywords
mode
noise
codebook
section
quantized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001000797A
Other languages
English (en)
Other versions
JP2001265396A (ja
JP2001265396A5 (ja
Inventor
宏幸 江原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2001000797A priority Critical patent/JP4619549B2/ja
Publication of JP2001265396A publication Critical patent/JP2001265396A/ja
Publication of JP2001265396A5 publication Critical patent/JP2001265396A5/ja
Application granted granted Critical
Publication of JP4619549B2 publication Critical patent/JP4619549B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声信号を符号化して伝送する移動通信システムなどにおける低ビットレート音声符号化装置、特に音声信号を声道情報と音源情報とに分離して表現するようなCELP(Code Excited Linear Prediction)型音声符号化装置などに関する。
【0002】
【従来の技術】
ディジタル移動通信や音声蓄積の分野においては、電波や記憶媒体の有効利用のために音声情報を圧縮し、高能率で符号化するための音声符号化装置が用いられている。中でもCELP(Code Excited Linear Prediction:符号励振線形予測符号化)方式をベースにした方式が中・低ビットレートにおいて広く実用化されている。CELPの技術については、M.R.Schroeder and B.S.Atal:"Code-Excited Linear Prediction (CELP):High-quality Speech at Very Low Bit Rates",Proc.ICASSP-85, 25.1.1, pp.937-940, 1985" に示されている。
【0003】
CELP型音声符号化方式は、音声をある一定のフレーム長(5ms〜50ms程度)に区切り、各フレーム毎に音声の線形予測を行い、フレーム毎の線形予測による予測残差(励振信号)を既知の波形からなる適応符号ベクトルと雑音符号ベクトルを用いて符号化するものである。適応符号ベクトルは過去に生成した駆動音源ベクトルを格納している適応符号帳から、雑音符号ベクトルは予め用意された定められた数の定められた形状を有するベクトルを格納している雑音符号帳から選択されて使用される。雑音符号帳に格納される雑音符号ベクトルには、ランダムな雑音系列のベクトルや何本かのパルスを異なる位置に配置することによって生成されるベクトルなどが用いられる。
【0004】
従来のCELP符号化装置では、入力されたディジタル信号を用いてLPCの分析・量子化とピッチ探索と雑音符号帳探索とゲイン符号帳探索とが行われ、量子化LPC符号(L)とピッチ周期(P)と雑音符号帳インデックス(S)とゲイン符号帳インデックス(G)とが復号器に伝送される。
【0005】
【発明が解決しようとする課題】
しかしながら、上記従来の音声符号化装置においては、1種類の雑音符号帳で有声音声や無声音声さらには背景雑音などについても対応しなければならず、これら全ての入力信号を高品質で符号化することは困難である。
【0006】
本発明はかかる点に鑑みてなされたものであり、モード情報を新たに伝送することなしに音源符号化のマルチモード化を図ることができ、特に有声区間/無声区間の判定に加えて音声区間/非音声区間の判定を行うことも可能で、マルチモード化による符号化/復号化性能の改善度をより高めることを可能としたマルチモード音声復号化装置及びマルチモード音声復号化方法を提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明のマルチモード音声復号化装置は、量子化LPCまたは量子化LSPを示す符号に対して復号化を施し、量子化LSPパラメータを生成する復号手段と、量子化LSPパラメータが定常的な区間における平均量子化LSPパラメータを用いて現フレームが音声モードに該当するか否か判定するモード判定手段と、雑音符号ベクトルを格納した複数の雑音符号帳のいずれかから、前記モード判定手段の判定結果に応じて雑音符号ベクトルを選択して出力する雑音符号ベクトル生成手段と、前記雑音符号ベクトルを用いて復号音声信号を生成する復号音声信号生成手段と、前記モード判定手段で音声モードと判定される区間以外の区間において、前記平均量子化LSPパラメータから求められるLPCパラメータで構築された合成フィルタを、前記雑音符号ベクトルから生成した雑音信号で駆動させて定常雑音を生成し、この定常雑音を前記復号音声信号に重畳する定常雑音生成手段と、を具備する構成を採る。また、本発明のマルチモード音声復号化方法は、量子化LPCまたは量子化LSPを示す符号に対して復号化を施し、量子化LSPパラメータを生成する復号ステップと、量子化LSPパラメータが定常的な区間における平均量子化LSPパラメータを用いて現フレームが音声モードに該当するか否か判定するモード判定ステップと、雑音符号ベクトルを格納した複数の雑音符号帳のいずれかから、前記モード判定手段の判定結果に応じて雑音符号ベクトルを選択して出力する雑音符号ベクトル生成ステップと、前記雑音符号ベクトルを用いて復号音声信号を生成する復号音声信号生成ステップと、前記モード判定ステップで音声モードと判定される区間以外の区間において、前記平均量子化LSPパラメータから求められるLPCパラメータで構築された合成フィルタを、前記雑音符号ベクトルから生成した雑音信号で駆動させて定常雑音を生成し、この定常雑音を前記復号音声信号に重畳する定常雑音生成ステップと、を具備する。
【0008】
本発明のマルチモード音声復号化装置は、音声信号に含まれる声道情報を表す少なくとも1種類以上のパラメータを復号化する第1復号化手段と、前記音声信号に含まれる音源情報を表す少なくとも1種類以上のパラメータを幾つかの符号化モードで復号化可能な第2復号化手段と、前記第1復号化手段で復号化された特定パラメータの動的特徴に基づいてモードの判定を行うモード判定手段と、前記第1及び第2復号化手段によって復号化された複数種類のパラメータ情報によって音声信号を復号する合成手段と、を具備し、前記モード判定手段は、量子化LSPパラメータのフレーム間変化を算出する手段と、量子化LSPパラメータが定常的であるフレームにおける平均的量子化LSPパラメータを算出する手段と、前記平均的量子化LSPパラメータと現在の量子化LSPパラメータとの距離を算出し、特定の次数の量子化LSPパラメータと前記平均的量子化LSPパラメータとの間の所定量の差を検出する手段と、を有する構成を採る。この構成によれば、特定の次数の量子化LSPパラメータと平均的量子化LSPパラメータとの間の所定量の差を検出するので、平均化した結果について判定した場合に音声区間と判定されなくなってしまうときでも、正確に音声区間と判定することができる。これにより、雑音区間の平均的量子化LSPと当該部所における量子化LSPとが非常に近い値を示しており、かつ当該部所における量子化LSPの変動が非常に小さい場合でも、正確にモード判定を行うことができる。
【0009】
本発明のマルチモード音声復号化装置は、上記構成において、モード判定手段においてモードが定常雑音モードである場合に、雑音区間の平均LSPパラメータを出力し、かつ、前記平均LSPパラメータから求められたLPCパラメータで構築された合成フィルタを雑音符号帳から取得したランダム信号で駆動させることにより定常雑音を生成する定常雑音生成手段を具備する構成を採る。
【0010】
この構成によれば、音源をランダムに生成するフィルタ駆動型の擬似定常雑音生成器を用いているので、同じ合成フィルタ、同じパワ情報を繰り返して使用しても、セグメント間の不連続性に起因するブザー音的なノイズが発生せず、自然なノイズを生成することが可能である。
【0011】
本発明のモード判定装置は、音声信号に含まれる声道情報を表す少なくとも1種類以上のパラメータを復号化する第1復号化手段と、前記音声信号に含まれる音源情報を表す少なくとも1種類以上のパラメータを幾つかの符号化モードで復号化可能な第2復号化手段と、前記第1復号化手段で復号化された特定パラメータの動的特徴に基づいてモードの判定を行うモード判定手段と、を具備する構成を採る。
【0012】
本発明のモード判定装置は、上記構成において、量子化LSPパラメータのフレーム間変化を算出する手段と、量子化LSPパラメータが定常的であるフレームにおける平均的量子化LSPパラメータを算出する手段と、前記平均的量子化LSPパラメータと現在の量子化LSPパラメータとの距離を算出し、特定の次数の量子化LSPパラメータと前記平均的量子化LSPパラメータとの間の所定量の差を検出する手段と、を有する構成を採る。
【0013】
これらの構成によれば、モード情報を新たに伝送することなしに音源符号化のマルチモード化を図ることができる。
【0014】
本発明の定常雑音生成装置は、雑音音源を生成する音源生成手段と、定常雑音のスペクトル包絡を表すLSP合成フィルタと、を具備し、上記モード判定装置で判定されたモード情報を用いる構成を採る。
【0015】
本発明の定常雑音生成装置は、上記構成において、音源生成手段が、雑音符号帳からランダムに選択したベクトルから雑音駆動音源ベクトルを生成する構成を採る。
【0016】
これらの構成によれば、同じ合成フィルタ、同じパワ情報を繰り返して使用しても、セグメント間の不連続性に起因するブザー音的なノイズが発生せず、自然なノイズを生成することが可能である。
【0017】
本発明のマルチモード音声符号化装置は、音声信号に含まれる声道情報を表す少なくとも1種類以上のパラメータを符号化する第1符号化部と、前記音声信号に含まれる音源情報を表す少なくとも1種類以上のパラメータを幾つかのモードで符号化可能な第2符号化部と、前記第1符号化部で符号化された特定パラメータの動的特徴に基づいて前記第2符号化部のモードを判定するモード判定部と、前記第1及び第2符号化部によって符号化された複数種類のパラメータ情報によって入力音声信号を合成する合成部と、を具備し、
前記モード切替部は、量子化LSPパラメータのフレーム間変化を算出する算出部と、量子化LSPパラメータが定常的であるフレームにおける平均的量子化LSPパラメータを算出する算出部と、前記平均的量子化LSPパラメータと現在の量子化LSPパラメータとの距離を算出し、特定の次数の量子化LSPパラメータと前記平均的量子化LSPパラメータとの間の所定量の差を検出する検出部と、を有する構成を採る。
【0018】
この構成によれば、特定の次数の量子化LSPパラメータと平均的量子化LSPパラメータとの間の所定量の差を検出するので、平均化した結果について判定した場合に音声区間と判定されなくなってしまうときでも、正確に音声区間と判定することができる。これにより、雑音区間の平均的量子化LSPと当該部所における量子化LSPとが非常に近い値を示しており、かつ当該部所における量子化LSPの変動が非常に小さい場合でも、正確にモード判定を行うことができる。
【0019】
本発明のマルチモード音声符号化装置は、上記構成において、モードが定常雑音モードである場合に、ピッチ周期の探索範囲をサブフレーム長以上のみに限定する探索範囲決定手段を具備する構成を採る。
【0020】
この構成によれば、定常雑音モード(又は定常雑音モードと無声モード)において、探索範囲をサブフレーム長以上に限定することにより、雑音符号ベクトルに対するピッチ周期性を抑制することができ、復号音声信号に生じるピッチ周期化モデルに起因する符号化歪みを防止することができる。
【0021】
本発明のマルチモード音声符号化装置は、上記構成において、符号帳を用いてピッチ周期を決定する際に、モードに応じてピッチ周期化利得を制御するピッチ周期化利得制御部を具備する構成を採る。
【0022】
この構成によれば、1サブフレーム内における周期性強調を避けることができる。これにより、適応符号ベクトル生成の際に生じるピッチ周期化モデルに起因する符号化歪みを防止することができる。
【0023】
本発明のマルチモード音声符号化装置は、上記構成において、ピッチ周期化利得制御部が、雑音符号帳毎に利得を制御する構成を採る。
【0024】
この構成によれば、定常雑音モード(又は定常雑音モードと無声モード)において、雑音符号帳毎に利得を変えることにより、雑音符号ベクトルに対するピッチ周期性を抑制することができ、雑音符号ベクトル生成の際に生じるピッチ周期化モデルに起因する符号化歪みを防止することができる。
【0025】
本発明のマルチモード音声符号化装置は、上記構成において、ピッチ周期化利得制御部が、モードが定常雑音モードである場合に、ピッチ周期化利得を下げる構成を採る。
【0026】
本発明のマルチモード音声符号化装置は、上記構成において、ピッチ周期の探索時において、入力音声の残差信号の自己相関関数を求める自己相関関数算出部と、自己相関関数の結果に対してモードに応じて重みづけ処理を行う重みづけ処理部と、重みづけ処理された自己相関関数の結果を用いてピッチ候補を選択する選択部と、を具備する構成を採る。
【0027】
この構成によれば、ピッチ構造を持たない信号に対する復号音声信号の品質劣化を回避することができる。
【0028】
【発明の実施の形態】
本発明の骨子は、スペクトル特性を表す量子化パラメータの静的/動的特徴を用いたモード判定を行い、音声区間/非音声区間、有声区間/無声区間を示すモード判定結果に基づいて音源構成の切り替え及び後処理を行うことである。
【0029】
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声符号化装置の構成を示すブロック図である。ディジタル化された音声信号などからなる入力データが前処理器101に入力される。前処理器101は、ハイパスフィルタやバンドパスフィルタなどを用いて直流成分のカットや入力データの帯域制限などを行ってLPC分析器102と加算器106とに出力する。なお、この前処理器101において何も処理を行わなくても後続する符号化処理は可能であるが、前述したような処理を行った方が符号化性能は向上する。なお、主観的な品質を劣化させずに、符号化し易い波形などに変換すること、例えばピッチ周期の操作やピッチ波形の補間処理など、も前処理として有効である。
【0030】
LPC分析器102は、線形予測分析を行って線形予測係数(LPC)を算出してLPC量子化器103へ出力する。
【0031】
LPC量子化器103は、入力したLPCを量子化し、量子化後のLPCを合成フィルタ104とモード選択器105に、また、量子化LPCを表現する符号Lを復号器に夫々出力する。なお、LPCの量子化は補間特性の良いLSP(Line Spectrum Pair:線スペクトル対)に変換して行うのが一般的である。LSPはLSF(Line Spectrum Frequency:線スペクトル周波数)で表されるのが一般的である。
【0032】
合成フィルタ104は、入力した量子化LPCを用いてLPC合成フィルタを構築する。この合成フィルタに対して加算器114から出力される駆動音源信号を入力としてフィルタ処理を行って合成信号を加算器106に出力する。
【0033】
モード選択器105は、LPC量子化器103から入力した量子化LPCを用いて雑音符号帳109のモードを決定する。
【0034】
ここで、モード選択器105は、過去に入力した量子化LPCの情報も蓄積しており、フレーム間における量子化LPCの変動の特徴と現フレームにおける量子化LPCの特徴の双方を用いてモードの選択を行う。このモードは少なくとも2種類以上あり、例えば有声音声部に対応するモードと無声音声部及び定常雑音部などに対応するモードから成る。また、モードの選択に用いる情報は量子化LPCそのものである必要はなく、量子化LSPや反射係数や線形予測残差パワなどのパラメータに変換したものを用いた方が効果的である。LPC量子化器103がLSP量子化器を構成要素として持っている場合(LPCをLSPに変換して量子化を行う場合)は、量子化LSPをモード選択器105の入力パラメータの一つとしても良い。
【0035】
加算器106は、前処理器101から入力される前処理後の入力データと合成信号との誤差を算出し、聴覚重み付けフィルタ107へ出力する。
【0036】
聴覚重み付けフィルタ107は、加算器106において算出された誤差に対して聴覚的な重み付けを行って誤差最小化器108へ出力する。
【0037】
誤差最小化器108は、雑音符号帳インデックスと適応符号帳インデックス(ピッチ周期)とゲイン符号帳インデックスとを調整しながら夫々雑音符号帳109と適応符号帳110とゲイン符号帳111とに出力し、聴覚重み付けフィルタ107から入力される聴覚的重み付けされた誤差が最小となるように雑音符号帳109と適応符号帳110とゲイン符号帳111とが生成する雑音符号ベクトルと適応符号ベクトルと雑音符号帳ゲイン及び適応符号帳ゲインとを夫々決定し、雑音符号ベクトルを表現する符号Sと適応符号ベクトルを表現するPとゲイン情報を表現する符号Gを夫々復号器に出力する。
【0038】
雑音符号帳109は、予め定められた個数の形状の異なる雑音符号ベクトルが格納されており、誤差最小化器108から入力される雑音符号ベクトルのインデックスSiによって指定される雑音符号ベクトルを出力する。また、この雑音符号帳109は少なくとも2種類以上のモードを有しており、例えば有声音声部に対応するモードではよりパルス的な雑音符号ベクトルを生成し、無声音声部や定常雑音部などに対応するモードではより雑音的な雑音符号ベクトルを生成するような構造となっている。雑音符号帳109から出力される雑音符号ベクトルは前記2種類以上のモードのうちモード選択器105で選択された1つのモードから生成され、乗算器112で雑音符号帳ゲインが乗じられた後に加算器114に出力される。
【0039】
適応符号帳110は、過去に生成した駆動音源信号を逐次更新しながらバッファリングしており、誤差最小化器108から入力される適応符号帳インデックス(ピッチ周期(ピッチラグ))Piを用いて適応符号ベクトルを生成する。適応符号帳110にて生成された適応符号ベクトルは乗算器113で適応符号帳ゲインが乗じられた後に加算器114に出力される。
【0040】
ゲイン符号帳111は、適応符号帳ゲインと雑音符号帳ゲインのセット(ゲインベクトル)を予め定められた個数だけ格納しており、誤差最小化器108から入力されるゲイン符号帳インデックスGiによって指定されるゲインベクトルの適応符号帳ゲイン成分を乗算器113に、雑音符号帳ゲイン成分を乗算器112に夫々出力する。なお、ゲイン符号帳は多段構成とすればゲイン符号帳に要するメモリ量やゲイン符号帳探索に要する演算量の削減が可能である。また、ゲイン符号帳に割り当てられるビット数が十分であれば、適応符号帳ゲインと雑音符号帳ゲインとを独立してスカラ量子化することもできる。また、複数のサブフレームの適応符号帳ゲインや雑音符号帳ゲインをまとめてベクトル量子化したりマトリックス量子化することも考えられる。
【0041】
加算器114は、乗算器112及び113から入力される雑音符号ベクトルと適応符号ベクトルの加算を行って駆動音源信号を生成し、合成フィルタ104及び適応符号帳110に出力する。
【0042】
なお、本実施の形態においては、マルチモード化されているのは雑音符号帳109のみであるが、適応符号帳110及びゲイン符号帳111をマルチモード化することによってさらに品質改善を行うことも可能である。
【0043】
次に、図3を参照して上記実施の形態における音声符号化方法の処理の流れを示す。本説明においては、音声符号化処理を予め定められた時間長の処理単位(フレーム:時間長にして数十ミリ秒程度)毎に処理を行い、1フレームをさらに整数個の短い処理単位(サブフレーム)毎に処理を行う例を示す。
【0044】
ステップ(以下、STと省略する)301において、適応符号帳の内容、合成フィルタメモリ、入力バッファなどの全てのメモリをクリアする。
【0045】
次に、ST302においてディジタル化された音声信号などの入力データを1フレーム分入力し、ハイパスフィルタまたはバンドパスフィルタなどをかけることによって入力データのオフセット除去や帯域制限を行う。前処理後の入力データは入力バッファにバッファリングされ、以降の符号化処理に用いられる。
【0046】
次に、ST303において、LPC分析(線形予測分析)が行われ、LPC係数(線形予測係数)が算出される。
【0047】
次に、ST304において、ST303にて算出されたLPC係数の量子化が行われる。LPC係数の量子化方法は種々提案されているが、補間特性の良いLSPパラメータに変換して多段ベクトル量子化やフレーム間相関を利用した予測量子化を適用すると効率的に量子化できる。また、例えば1フレームが2つのサブフレームに分割されて処理される場合には、第2サブフレームのLPC係数を量子化して、第1サブフレームのLPC係数は直前フレームにおける第2サブフレームの量子化LPC係数と現フレームにおける第2サブフレームの量子化LPC係数とを用いて補間処理によって決定する。
【0048】
次に、ST305において、前処理後の入力データに聴覚重みづけを行う聴覚重みづけフィルタを構築する。
【0049】
次に、ST306において、駆動音源信号から聴覚重み付け領域の合成信号を生成する聴覚重み付け合成フィルタを構築する。このフィルタは、合成フィルタと聴覚重み付けフィルタとを従属接続したフィルタであり、合成フィルタはST304にて量子化された量子化LPC係数を用いて構築され、聴覚重み付けフィルタはST303において算出されたLPC係数を用いて構築される。
【0050】
次に、ST307において、モードの選択が行われる。モードの選択はST304において量子化された量子化LPC係数の動的及び静的特徴を用いて行われる。具体的には、量子化LSPの変動や量子化LPC係数から算出される反射係数や予測残差パワなどを用いる。本ステップにおいて選択されたモードに従って雑音符号帳の探索が行われる。本ステップにおいて選択されるモードは少なくとも2種類以上あり、例えば有声音声モードと無声音声及び定常雑音モードの2モード構成などが考えられる。
【0051】
次に、ST308において、適応符号帳の探索が行われる。適応符号帳の探索は、前処理後の入力データに聴覚重みづけを行った波形に最も近くなるような聴覚重みづけ合成波形が生成される適応符号ベクトルを探索することであり、前処理後の入力データをST305で構築された聴覚重み付けフィルタでフィルタリングした信号と適応符号帳から切り出した適応符号ベクトルを駆動音源信号としてST306で構築された聴覚重み付け合成フィルタでフィルタリングした信号との誤差が最小となるように、適応符号ベクトルを切り出す位置を決定する。
【0052】
次に、ST309において、雑音符号帳の探索が行われる。雑音符号帳の探索は、前処理後の入力データに聴覚重みづけを行った波形に最も近くなるような聴覚重みづけ合成波形が生成される駆動音源信号を生成する雑音符号ベクトルを選択することであり、駆動音源信号が適応符号ベクトルと雑音符号ベクトルとを加算して生成されることを考慮した探索が行われる。したがって、既にST308にて決定された適応符号ベクトルと雑音符号帳に格納されている雑音符号ベクトルとを加算して駆動音源信号を生成し、生成された駆動音源信号をST306で構築された聴覚重みづけ合成フィルタでフィルタリングした信号と前処理後の入力データをST305で構築された聴覚重みづけフィルタでフィルタリングした信号との誤差が最小となるように、雑音符号帳の中から雑音符号ベクトルを選択する。
【0053】
なお、雑音符号ベクトルに対してピッチ周期化などの処理を行う場合は、その処理も考慮した探索が行われる。また、この雑音符号帳は少なくとも2種類以上のモードを有しており、例えば有声音声部に対応するモードではよりパルス的な雑音符号ベクトルを格納している雑音符号帳を用いて探索が行われ、無声音声部や定常雑音部などに対応するモードではより雑音的な雑音符号ベクトルを格納している雑音符号帳を用いて探索が行われる。探索時にどのモードの雑音符号帳を用いるかは、ST307にて選択される。
【0054】
次に、ST310において、ゲイン符号帳の探索が行われる。ゲイン符号帳の探索は、既にST308にて決定された適応符号ベクトルとST309にて決定された雑音符号ベクトルのそれぞれに対して乗じる適応符号帳ゲインと雑音符号帳ゲインの組をゲイン符号帳の中から選択することであり、適応符号帳ゲイン乗算後の適応符号ベクトルと雑音符号ゲイン乗算後の雑音符号ベクトルとを加算して駆動音源信号を生成し、生成した駆動音源信号をST306にて構築された聴覚重みづけ合成フィルタでフィルタリングした信号と前処理後の入力データをST305で構築された聴覚重みづけフィルタでフィルタリングした信号との誤差が最小となるような適応符号帳ゲインと雑音符号帳ゲインの組をゲイン符号帳の中から選択する。
【0055】
次に、ST311において、駆動音源信号が生成される。駆動音源信号は、ST308にて選択された適応符号ベクトルにST310にて選択された適応符号帳ゲインを乗じたベクトルと、ST309にて選択された雑音符号ベクトルにST310において選択された雑音符号帳ゲインを乗じたベクトルと、を加算して生成される。
【0056】
次に、ST312において、サブフレーム処理のループで用いられるメモリの更新が行われる。具体的には、適応符号帳の更新や聴覚重みづけフィルタ及び聴覚重みづけ合成フィルタの状態更新などが行われる。
【0057】
なお、適応符号帳ゲインと固定符号帳ゲインとを別々に量子化する場合は、ST308の直後に適応符号帳ゲインの量子化を行い、ST309の直後に雑音符号帳ゲインの量子化を行うのが一般的である。
上記ST305〜312はサブフレーム単位の処理である。
【0058】
次に、ST313において、フレーム処理のループで用いられるメモリの更新が行われる。具体的には、前処理器で用いられるフィルタの状態更新や量子化LPC係数バッファの更新や入力データバッファの更新などが行われる。
【0059】
次に、ST314において、符号化データの出力が行われる。符号化データは伝送される形態に応じてビットストリーム化や多重化処理などが行われて伝送路に送出される。
【0060】
上記ST302〜304及び313〜314がフレーム単位の処理である。また、フレーム単位及びサブフレーム単位の処理は入力データがなくなるまで繰り返し行われる。
【0061】
(実施の形態2)
図2に本発明の実施の形態2にかかる音声復号化装置の構成を示す。
符号器から伝送された、量子化LPCを表現する符号Lと雑音符号ベクトルを表現する符号Sと適応符号ベクトルを表現する符号Pとゲイン情報を表現する符号Gとが、それぞれLPC復号器201と雑音符号帳203と適応符号帳204とゲイン符号帳205とに入力される。
【0062】
LPC復号器201は、符号Lから量子化LPCを復号し、モード選択器202と合成フィルタ209に夫々出力する。
【0063】
モード選択器202は、LPC復号器201から入力した量子化LPCを用いて雑音符号帳203及び後処理器211のモードを決定し、モード情報Mを雑音符号帳203及び後処理器211とに夫々出力する。また、モード選択器202は、LPC復号器201から出力された量子化LSPパラメータを用いて定常雑音区間の平均的LSP(LSPn)を求め、このLSPnを後処理器211に対して出力する。なお、モード選択器202は過去に入力した量子化LPCの情報も蓄積しており、フレーム間における量子化LPCの変動の特徴と現フレームにおける量子化LPCの特徴の双方を用いてモードの選択を行う。このモードは少なくとも2種類以上あり、例えば有声音声部に対応するモードと無声音声部に対応するモードと定常雑音部などに対応するモードから成る。また、モードの選択に用いる情報は量子化LPCそのものである必要はなく、量子化LSPや反射係数や線形予測残差パワなどのパラメータに変換したものを用いた方が効果的である。LPC復号器201がLSP復号器を構成要素として持っている場合(LPCをLSPに変換して量子化が行なわれている場合)は、復号LSPをモード選択器202の入力パラメータの一つとしても良い。
【0064】
雑音符号帳203は、予め定められた個数の、形状の異なる雑音符号ベクトルが格納されており、入力した符号Sを復号して得られる雑音符号帳インデックスによって指定される雑音符号ベクトルを出力する。また、この雑音符号帳203は少なくとも2種類以上のモードを有しており、例えば有声音声部に対応するモードではよりパルス的な雑音符号ベクトルを生成し、無声音声部や定常雑音部などに対応するモードではより雑音的な雑音符号ベクトルを生成するような構造となっている。雑音符号帳203から出力される雑音符号ベクトルは前記2種類以上のモードのうちモード選択器202で選択された1つのモードから生成され、乗算器206で雑音符号帳ゲインGsが乗じられた後に加算器208に出力される。
【0065】
適応符号帳204は、過去に生成した駆動音源信号を逐次更新しながらバッファリングしており、入力した符号Pを復号して得られる適応符号帳インデックス(ピッチ周期(ピッチラグ))を用いて適応符号ベクトルを生成する。適応符号帳204にて生成された適応符号ベクトルは乗算器207で適応符号帳ゲインGaが乗じられた後に加算器208に出力される。
【0066】
ゲイン符号帳205は、適応符号帳ゲインと雑音符号帳ゲインのセット(ゲインベクトル)を予め定められた個数だけ格納しており、入力した符号Gを復号して得られるゲイン符号帳インデックスによって指定されるゲインベクトルの適応符号帳ゲイン成分を乗算器207に、雑音符号帳ゲイン成分を乗算器206に夫々出力する。
【0067】
加算器208は、乗算器206及び207から入力される雑音符号ベクトルと適応符号ベクトルの加算を行って駆動音源信号を生成し、合成フィルタ209及び適応符号帳204に出力する。
【0068】
合成フィルタ209は、入力した量子化LPCを用いてLPC合成フィルタを構築する。この合成フィルタに対して加算器208から出力される駆動音源信号を入力としてフィルタ処理を行って合成信号をポストフィルタ210に出力する。
【0069】
ポストフィルタ210は、合成フィルタ209から入力した合成信号に対して、ピッチ強調、ホルマント強調、スペクトル傾斜補正、ゲイン調整などの音声信号の主観的品質を改善させるための処理を行い、後処理器211に出力する。
【0070】
後処理器211は、ポストフィルタ210から入力した信号に対して、擬似的に定常雑音を生成して重畳することにより、主観品質を改善する。この処理は、モード選択器202から入力されるモード情報M及び雑音区間の平均的LSP(LSPn)を利用して適応的に行う。具体的な後処理については後述する。
【0071】
なお、本実施の形態においては、モード選択器202から出力されるモード情報Mは、雑音符号帳203のモード切替と後処理器211の双方で用いられる構成としたが、どちらか一方のみに用いても効果が得られる。
【0072】
次に、図4を参照して上記実施の形態における音声復号化方法の処理の流れを示す。本説明においては、音声符号化処理を予め定められた時間長の処理単位(フレーム:時間長にして数十ミリ秒程度)毎に処理を行い、1フレームをさら整数個の短い処理単位(サブフレーム)毎に処理を行う例を示す。
【0073】
ST401において、適応符号帳の内容、合成フィルタメモリ、出力バッファなどの全てのメモリをクリアする。
【0074】
次に、ST402において、符号化データが復号される。具体的には、多重化されている受信信号の分離化やビットストリーム化されている受信信号を量子化LPC係数と適応符号ベクトルと雑音符号ベクトルとゲイン情報とを夫々表現する符号に夫々変換する。
【0075】
次に、ST403において、LPC係数を復号する。LPC係数は、ST402にて得られた量子化LPC係数を表現する符号から、実施の形態1に示したLPC係数の量子化方法の逆の手順によって復号される。
【0076】
次に、ST404において、ST403にて復号されたLPC係数を用いて合成フィルタが構築される。
【0077】
次に、ST405において、ST403にて復号されたLPC係数の静的及び動的特徴を用いて、雑音符号帳及び後処理のモード選択が行われる。具体的には、量子化LSPの変動や量子化LPC係数から算出される反射係数や予測残差パワなどを用いる。本ステップにおいて選択されたモードに従って雑音符号帳の復号及び後処理が行われる。このモードは少なくとも2種類以上あり、例えば有声音声部に対応するモードと無声音声部に対応するモードと定常雑音部などに対応するモードとから成る。
【0078】
次に、ST406において、適応符号ベクトルが復号される。適応符号ベクトルは、適応符号ベクトルを表現する符号から適応符号ベクトルを適応符号帳から切り出す位置を復号してその位置から適応符号ベクトルを切り出すことによって、復号される。
【0079】
次に、ST407において、雑音符号ベクトルが復号される。雑音符号ベクトルは、雑音符号ベクトルを表現する符号から雑音符号帳インデックスを復号してそのインデックスに対応する雑音符号ベクトルを雑音符号帳から取り出すことによって、復号される。雑音符号ベクトルのピッチ周期化などを適用する際は、さらにピッチ周期化などを行った後のものが復号雑音符号ベクトルとなる。また、この雑音符号帳は少なくとも2種類以上のモードを有しており、例えば有声音声部に対応するモードではよりパルス的な雑音符号ベクトルを生成し、無声音声部や定常雑音部などに対応するモードではより雑音的な雑音符号ベクトルを生成するようになっている。
【0080】
次に、ST408において、適応符号帳ゲインと雑音符号帳ゲインが復号される。ゲイン情報を表す符号からゲイン符号帳インデックスを復号してこのインデックスで示される適応符号帳ゲインと雑音符号帳ゲインの組をゲイン符号帳の中から取り出すことによって、ゲイン情報が復号される。
【0081】
次に、ST409において、駆動音源信号が生成される。駆動音源信号は、ST406にて選択された適応符号ベクトルにST408にて選択された適応符号帳ゲインを乗じたベクトルと、ST407にて選択された雑音符号ベクトルにST408において選択された雑音符号帳ゲインを乗じたベクトルと、を加算して生成される。
【0082】
次に、ST410において、復号音声が合成される。ST409にて生成された駆動音源信号を、ST404にて構築された合成フィルタでフィルタリングすることによって、復号信号が合成される。
【0083】
次に、ST411において、復号信号に対してポストフィルタ処理が行われる。ポストフィルタ処理は、ピッチ強調処理やホルマント強調処理やスペクトル傾斜補正処理やゲイン調整処理などの復号信号特に復号音声信号の主観的品質を改善するための処理から成っている。
【0084】
次に、ST412において、ポストフィルタ処理後の復号信号に対して最終的な後処理が行われる。この後処理については、ST405にて選択されたモードに対応したものであり、詳細については後述する。本ステップで生成される信号が出力データとなる。
【0085】
次に、ST413において、サブフレーム処理のループで用いられるメモリの更新が行われる。具体的には、適応符号帳の更新やポストフィルタ処理に含まれる各フィルタの状態更新などが行われる。
上記ST404〜413はサブフレーム単位の処理である。
【0086】
次に、ST414において、フレーム処理のループで用いられるメモリの更新が行われる。具体的には、量子化(復号)LPC係数バッファの更新や出力データバッファの更新などが行われる。
【0087】
上記ST402〜403及び414はフレーム単位の処理である。また、フレーム単位の処理は符号化データがなくなるまで繰り返し行われる。
【0088】
(実施の形態3)
図5は実施の形態1の音声符号化装置または実施の形態2の音声復号化装置を備えた音声信号送信装置及び受信装置を示したブロック図である。図5(a)は送信装置、図5(b)は受信装置を示す。
【0089】
図5(a)の音声信号送信装置では、音声が音声入力装置501によって電気的アナログ信号に変換され、A/D変換器502に出力される。アナログ音声信号はA/D変換器502によってディジタル音声信号に変換され、音声符号化器503に出力される。音声符号化器503は音声符号化処理を行い、符号化した情報をRF変調器504に出力する。RF変調器504は符号化された音声信号の情報を変調・増幅・符号拡散などの電波として送出するための操作を行い、送信アンテナ505に出力する。最後に送信アンテナ505から電波(RF信号)506が送出される。
【0090】
一方、図5(b)の受信装置においては、電波(RF信号)506を受信アンテナ507で受信し、受信信号はRF復調器508に送られる。RF復調器508は符号逆拡散・復調など電波信号を符号化情報に変換するための処理を行い、符号化情報を音声復号化器509に出力する。音声復号化器509は、符号化情報の復号処理を行ってディジタル復号音声信号をD/A変換器510へ出力する。D/A変換器510は音声復号化器509から出力されたディジタル復号音声信号をアナログ復号音声信号に変換して音声出力装置511に出力する。最後に音声出力装置511が電気的アナログ復号音声信号を復号音声に変換して出力する。
【0091】
上記送信装置及び受信装置は携帯電話などの移動通信機器の移動機または基地局装置として利用することが可能である。なお、情報を伝送する媒体は本実施の形態に示したような電波に限らず、光信号などを利用することも可能であり、さらには有線の伝送路を使用することも可能である。
【0092】
なお、上記実施の形態1に示した音声符号化装置及び上記実施の形態2に示した音声復号化装置及び上記実施の形態3に示した音声信号送信装置及び受信装置は、磁気ディスク、光磁気ディスク、ROMカートリッジなどの記録媒体にソフトウェアとして記録して実現することも可能であり、その記録媒体を使用することにより、このような記録媒体を使用するパーソナルコンピュータなどにより音声符号化装置/復号化装置及び送信装置/受信装置を実現するとができる。
【0093】
(実施の形態4)
実施の形態4は、上述した実施の形態1、2におけるモード選択器105、202の構成例を示した例である。
【0094】
図6に実施の形態4にかかるモード選択器の構成を示す。
本実施の形態にかかるモード選択器では、平滑化部601に現在の量子化LSPパラメータを入力して平滑化処理を行う。平滑化部601では、処理単位時間毎に入力される各次の量子化LSPパラメータを時系列データとして式(1)に示す平滑化処理を行う。
【0095】
Ls[i]=(1-α)×Ls[i]+α×L[i], i=1,2,…,M、 0<α<1 …(1)
Ls[i]:i次の平滑化量子化LSPパラメータ
L[i]:i次の量子化LSPパラメータ
α:平滑化係数
M:LSP分析次数
【0096】
なお、式(1)において、αの値は0.7程度に設定し、それほど強い平滑化にならないようにする。上記式(1)で求めた平滑化した量子化LSPパラメータは、遅延部602を経由して加算器611へ入力されると共に、直接加算器611へ入力される。遅延部602は、入力した平滑化した量子化LSPパラメータを1処理単位時間だけ遅延させて加算器611に出力する。
【0097】
加算器611には、現在の処理単位時間における平滑化された量子化LSPパラメータと1つ前の処理単位時間における平滑化された量子化LSPパラメータとが入力される。この加算器611において、現在の処理単位時間における平滑化量子化LSPパラメータと1つ前の処理単位時間における平滑化量子化LSPパラメータとの差を算出する。この差はLSPパラメータの各次数毎に算出される。加算器606による算出結果は自乗和算出器603に出力する。
【0098】
自乗和算出器603は、現在の処理単位時間における平滑化された量子化LSPパラメータと1つ前の処理単位時間における平滑化された量子化LSPパラメータとの次数毎の差の自乗和を計算する。これにより、第1の動的パラメータ(Para 1)が得られる。この第1の動的パラメータをしきい値判定することにより音声区間であるかどうかを識別することができる。すなわち、第1の動的パラメータがしきい値Th1よりも大きい場合には音声区間と判定される。この判定は、後述するモード決定器607において行う。
【0099】
平均LSP算出器609は、平滑化部601と同様に式(1)に基づいて雑音区間における平均的LSPパラメータを算出し、遅延器612を介して加算器610に出力する。ただし、式(1)におけるαは平均LSP算出器制御器608によって制御される。なお、αの値は、0.05程度〜0とし、極めて強い平滑化処理を行うことによって、平均的なLSPパラメータを算出する。具体的には、音声区間ではαの値を0として、音声区間以外の区間でのみ平均をとる(平滑化を行う)ようにすることなどが考えられる。
【0100】
加算器610は、現在の処理単位時間における量子化LSPパラメータと、平均LSP算出器609によって直前の処理単位時間において算出された雑音区間における平均的量子化LSPパラメータとの差を各次数毎に算出し、自乗値算出器604に出力する。すなわち、後述するようにモード決定がなされた後、平均LSP算出器609で雑音区間の平均LSPが計算され、その雑音区間の平均LSPパラメータが遅延器612を介して1処理単位時間遅延されて加算器610で次の処理単位に用いられる。
【0101】
自乗値算出器604は、加算器610から出力された量子化LSPパラメータの差分情報を入力し、各次数の自乗値を算出して、自乗和算出器605に出力すると共に、最大値算出器606に出力する。
【0102】
自乗和算出器605では、各次数の自乗値を用いて自乗和を算出する。この自乗和が第2の動的パラメータ(Para 2)となる。この第2の動的パラメータをしきい値判定することにより音声区間であるかどうかを識別することができる。すなわち、第2の動的パラメータがしきい値Th2よりも大きい場合には音声区間と判定される。この判定は、後述するモード決定器607において行う。
【0103】
また、最大値算出器606では、各次の自乗値のうち最大値を選択する。この最大値が第3の動的パラメータ(Para 3)となる。この第3の動的パラメータをしきい値判定することにより音声区間であるかどうかを識別することができる。すなわち、第3の動的パラメータがしきい値Th3よりも大きい場合には音声区間と判定される。この判定は、後述するモード決定器607において行う。この第3のパラメータを用いたしきい値判定は、全次数の自乗誤差を平均化することにより埋もれてしまう変化を検出してより正確に音声区間であるかどうかを判定するために行う。
【0104】
例えば、複数の自乗和の結果のうち、ほとんどの結果がしきい値を超えなく、1つや2つの結果がしきい値を超える場合、平均化した結果についてしきい値判定を行うと、平均化した結果がしきい値を超えなくなってしまい、音声区間と判定されなくなってしまうことがある。上記のように第3の動的パラメータを用いてしきい値判定を行うことにより、ほとんどの結果がしきい値を超えなく、1つや2つの結果がしきい値を超える場合においても、最大値でしきい値判定を行うので、より正確に音声区間と判定することができる。
【0105】
上述した第1から第3の動的パラメータは、モード決定器607に送られ、上記しきい値判定により、音声モードが決定され、モード情報として出力される。また、このモード情報は、平均LSP算出器制御器608に送られる。平均LSP算出器制御器608では、モード情報にしたがって、平均LSP算出器609を制御する。
【0106】
具体的に、平均LSP算出器609を制御する場合、式(1)のαの値を0〜0.05程度の範囲で切換えて、平滑化の強さを切換える。最も簡単な例では、音声モードではα=0として平滑化処理をOFFとし、非音声(定常雑音)モードではα=0.05程度として強い平滑化処理によって定常雑音区間の平均LSPの算出が行われるようにする。なお、LSPの各次数毎にαの値を制御することも考えられ、この場合は音声モードにおいても一部(例えば特定の周波数帯域に含まれる次数)のLSPを更新すること等が考えられる。
【0107】
図7は、上記構成を含むモード判定器の構成を示すブロック図である。
このモード判定器は、量子化LSPパラメータの動的特徴を抽出する動的特徴量算出部701と、量子化LSPパラメータの静的特徴を抽出する静的特徴量算出部702とを備える。動的特徴量算出部701は、図6において、平滑化部601から遅延器612までの部分によって構成される。
【0108】
静的特徴量算出部702は、正規化予測残差パワ算出部704において量子化LSPパラメータから予測残差パワを算出する。この予測残差パワは、モード決定器607に与えられる。
【0109】
また、隣接LSP間隔算出部705において、式(2)に示すように量子化LSPパラメータの隣接する次数毎に間隔を算出する。
【0110】
Ld[i]=L[i+1]-L[i], i=1,2,…M-1 …(2)
L[i]:i次の量子化LSPパラメータ
隣接LSP間隔算出部705の算出値はモード決定器607へ与えられる。
【0111】
スペクトル傾斜算出部703は、量子化LSPパラメータを用いてスペクトル傾斜情報を算出する。具体的に、スペクトル傾斜を表すパラメータとしては、1次の反射係数が利用可能である。反射係数と線形予測係数(LPC)との間にはLevinson-Durbinのアルゴリズムを用いれば互いに変換可能な関係があるので、量子化LPCから1次の反射係数を求めることができ、これをスペクトル傾斜情報として用いる。なお、正規化予測残差パワ算出部704においても量子化LPCからLevinson-Durbinのアルゴリズムを用いて正規化予測残差パワを算出する。すなわち、反射係数も正規化予測残差パワも同じアルゴリズムを用いて量子化LPCから同時に求められる。このスペクトル傾斜情報は、モード決定器607に与えられる。
【0112】
以上のスペクトル傾斜算出部703〜隣接LSP間隔算出部705の要素によって、量子化LSPパラメータの静的特徴量算出部702が構成される。
【0113】
動的特徴量算出部701及び静的特徴量算出部702の出力は、モード決定器607へ与えられる。自乗和算出器603から平滑化量子化LSPパラメータの変動量を入力し、自乗和算出器605から雑音区間の平均的量子化LSPパラメータと現在の量子化LSPパラメータとの距離を入力し、最大値算出器606から雑音区間の量子化LSPパラメータと現在の量子化LSPパラメータとの距離の最大値を入力し、正規化予測残差パワ算出部704から量子化予測残差パワを入力し、隣接LSP間隔算出部705から隣接LSP間隔データのスペクトル傾斜情報を入力し、スペクトル傾斜算出部703から分散情報を入力するする。そして、これらの情報を用いて、現在の処理単位時間における入力信号(又は復号信号)が音声区間であるか否かのモードを決定する。より具体的な音声区間か否かの判定方法は、図8を用いて後述する。
【0114】
次に、図8を参照して、上記実施の形態における音声区間判定方法の詳細について説明する。
【0115】
まず、ST801において、第1の動的パラメータ(Para1)を算出する。第1の動的パラメータの具体的内容は、処理単位時間毎の量子化LSPパラメータの変動量であり、式(3)に示される。
【0116】
【数1】
Figure 0004619549
【0117】
ST802において、第1の動的パラメータが予め定めてある閾値Th1より大きいかどうかをチェックする。閾値Th1を越えている場合は、量子化LSPパラメータの変動量が大きいので、音声区間であると判定する。一方、閾値Th1以下の場合は、量子化LSPパラメータの変動量が小さいので、ST803に進み、さらに別のパラメータを用いた判定処理のステップに進んでゆく。
【0118】
ST802において、第1の動的パラメータが閾値Th1以下の場合は、ST803に進んで、過去にどれだけ定常雑音区間と判定されたかを示すカウンターの数をチェックする。カウンターは初期値が0で、本モード判定方法によって定常雑音区間であると判定された処理単位時間毎に1ずつインクリメントされる。ST803において、カウンターの数が、予め設定されている閾値ThC以下の場合は、ST804に進み、静的パラメータを用いて音声区間か否かの判定を行う。一方、閾値ThCを越えている場合は、ST806に進み、第2の動的パラメータを用いて音声区間か否かの判定を行う。
【0119】
ST804では2種類のパラメータを算出する。一つは量子化LSPパラメータから算出される線形予測残差パワであり(Para4)、もう一つは量子化LSPパラメータの隣接次数の差分情報の分散である(Para5)。
【0120】
線形予測残差パワは、量子化LSPパラメータを線形予測係数に変換し、Levinson-Durbinのアルゴリズムにある関係式を用いることにより、求めることができる。線形予測残差パワは有声部より無声部の方が大きくなる傾向が知られているので、有声/無声の判定基準として利用できる。量子化LSPパラメータの隣接次数の差分情報は式(2)に示したもので、これらのデータの分散を求める。ただし、雑音の種類や帯域制限のかけかたによっては、低域にスペクトルの山(ピーク)が存在し易くなるので、低域端の隣接次数の差分情報(式(2)において、i=1)は用いずに、式(2)において、i=2からM−1(Mは分析次数)までのデータを用いて分散を求めた方が雑音区間と音声区間とを分類し易くなる。音声信号においては、電話帯域(200Hz〜3.4kHz)内に3つ程度のホルマントを持つため、LSPの間隔が狭い部分と広い部分がいくつかあり、間隔のデータの分散が大きくなる傾向がある。
【0121】
一方、定常ノイズでは、ホルマント構造を持たないため、LSPは比較的等間隔になりやすく、前記分散は小さくなる傾向がある。この性質を利用して、音声区間か否かの判定を行うことが可能である。ただし、前述のように雑音の種類や伝送路の周波数特性などによっては、低域にスペクトルの山(ピーク)をもつ場合があり、この様な場合は最も低域側のLSP間隔が狭くなるので、全ての隣接LSP差分データを用いて分散を求めると、ホルマント構造の有無による差が小さくなり、判定精度が低くなる。
【0122】
したがって、低域端の隣接LSP差分情報を除いて分散を求めることによって、この様な精度劣化を回避する。ただし、この様な静的パラメータは、動的パラメータに比べると判定能力が低いので、補助的な情報として用いるのが良い。ST804にて算出された2種類のパラメータはST805で用いられる。
【0123】
次に、ST805において、ST804にて算出された2種類のパラメータを用いた閾値処理が行われる。具体的には線形予測残差パワ(Para4)が閾値Th4より小さく、かつ、隣接LSP間隔データの分散(Para5)が閾値Th5より大きい場合に、音声区間と判定する。それ以外の場合は、定常雑音区間(非音声区間)と判定する。定常雑音区間と判定された場合は、カウンターの値を1インクリメントする。
【0124】
ST806においては、第2の動的パラメータ(Para2)が算出される。第2の動的パラメータは過去の定常雑音区間における平均的な量子化LSPパラメータと現在の処理単位時間における量子化LSPパラメータとの類似度を示すパラメータであり、具体的には式(4)に示したように、前記2種類の量子化LSPパラメータを用いて各次数毎に差分値を求め、自乗和を求めたものである。求められた第2の動的パラメータは、ST807にて閾値処理に用いられる。
【0125】
【数2】
Figure 0004619549
【0126】
次に、ST807において、第2の動的パラメータが閾値Th2を越えているかどうかの判定が行われる。閾値Th2を越えていれば、過去の定常雑音区間における平均的な量子化LSPパラメータとの類似度が低いので、音声区間と判定し、閾値Th2以下であれば、過去の定常雑音区間における平均的な量子化LSPパラメータとの類似度が高いので、定常雑音区間と判定する。定常雑音区間と判定された場合は、カウンターの値をインクリメントする。
【0127】
ST808においては、第3の動的パラメータ(Para3)が算出される。第3の動的パラメータは、第2の動的パラメータを用いた判定では判定しにくい、すなわち量子化LSPの差の自乗和だけでは判定されないが、平均的量子化LSPに対して有意な差を持つ次数を検出するためのパラメータであり、具体的には式(5)に示したように、各次数の量子化LSPパラメータの最大値を求めたものである。求められた第3の動的パラメータは、ST808にて閾値処理に用いられる。
【0128】
【数3】
Figure 0004619549
【0129】
次に、ST809において、第3の動的パラメータが閾値Th3を越えているかどうかの判定が行われる。閾値Th3を越えていれば、過去の定常雑音区間における平均的な量子化LSPパラメータとの類似度が低いので、音声区間と判定し、閾値Th3以下であれば、過去の定常雑音区間における平均的な量子化LSPパラメータとの類似度が高いので、定常雑音区間と判定する。定常雑音区間と判定された場合は、カウンターの値をインクリメントする。
【0130】
本発明者は、第1及び第2の動的パラメータを用いた判定だけではモード判定誤りが生じることについて、モード判定誤りの原因が、雑音区間の平均的量子化LSPと当該部所における量子化LSPとが非常に近い値を示しており、かつ当該部所における量子化LSPの変動が非常に小さかったことを見出した。ただし、ある特定の次数における量子化LSPに着目すると、雑音区間の平均的量子化LSPと当該部所における量子化LSPとで有意な差があったことから、上述したように、第3の動的パラメータを用いて、全次数の量子化LSPの差(雑音区間の平均的量子化LSPと当該サブフレームにおける量子化LSPとの差)の自乗和だけでなく、各次数毎の量子化LSPの差を求め、1つの次数においてだけでも差が大きいものが認められた場合は音声区間と判定するようにしている。
【0131】
これにより、雑音区間の平均的量子化LSPと当該部所における量子化LSPとが非常に近い値を示しており、かつ当該部所における量子化LSPの変動が非常に小さい場合でも、より正確にモード判定を行うことができる。
【0132】
本実施の形態においては、モード判定の際に第1から第3の動的パラメータをすべて用いてモード判定を行う場合について説明しているが、本発明においては、第1の動的パラメータと第3の動的パラメータを用いてモード判定を行うようにしても良い。
【0133】
なお、符号器側で別途雑音区間を判定するアルゴリズムを備え、雑音区間と判定された区間ではLSP量子化器のターゲットとなるLSPの平滑化を行うことにより、量子化LSPの変動が非常に小さくなるようにする構成と組み合わせて用いれば、本モード判定の精度をさらに改善することも可能である。
【0134】
(実施の形態5)
本実施の形態では、モードに応じて適応符号帳探索範囲を設定する場合について説明する。
【0135】
図9は、本実施の形態に係るピッチ探索を行う構成を示すブロック図である。
この構成においては、モード情報に応じて探索範囲を決定する探索範囲決定部901と、決定された探索範囲においてターゲットベクトルを用いてピッチ探索を行うピッチ探索部902と、探索されたピッチを用いて適応符号帳903から適応符号ベクトルを生成する適応符号ベクトル生成部905と、適応符号ベクトルとターゲットベクトルとピッチ情報とを用いて雑音符号帳を探索する雑音符号帳探索部906と、探索された雑音符号帳ベクトルとピッチ情報とを用いて雑音適応符号帳904から雑音符号ベクトルを生成する雑音符号ベクトル生成部907とを含む。
【0136】
次に、この構成を用いてピッチ探索を行う場合について説明する。まず、実施の形態4に記載したようにしてモード判定が行われた後、モード情報が探索範囲決定部901に入力される。探索範囲決定部901では、モード情報に基づいてピッチ探索の範囲を決定する。
【0137】
具体的には、定常雑音モード(又は定常雑音モードと無声モード)では、ピッチ探索範囲をサブフレーム長以上(すなわち、サブフレーム以上過去に溯るよう)に設定し、それ以外のモードでは、ピッチ探索範囲をサブフレーム長以下も含むようにする。これにより、定常雑音区間におけるサブフレーム内で周期化が起こることを防止する。本発明者は、以下の理由によりモード情報に基づくピッチ探索範囲を限定することが雑音符号帳の構成において好ましいことを見出した。
【0138】
常に固定のピッチ周期化を適用する雑音符号帳を構成する際、ランダム符号帳(雑音的な符号帳)率を100%に上げてもswirlingあるいはwater falling歪みと呼ばれる類の符号化歪みが強く残ることが確認された。このswirling歪みについては、例えばT.Wigrenら:“Improvements of Background Sound Coding in Linear Predictive Speech Coders",IEEE Proc. ICASSP'95, pp25-28などに示されているように、短期スペクトル(合成フィルタの周波数特性)の変動が原因であることが知られている。しかしながら、ピッチ周期化のモデルは周期性を持たない雑音信号を表現するのには適さないことは明らかであり、周期化による特有の歪みを生じている可能性が考えられる。このため、雑音符号帳の構成においてピッチ周期化の影響があるかどうかを調べた。雑音符号ベクトルに対するピッチ周期化をなくした場合、適応符号ベクトルをオール0にした場合、のそれぞれについて試聴した結果、どちらの場合もswirling歪みのような歪みが残ることが確認された。また、適応符号ベクトルをオール0にし、かつ雑音符号ベクトルに対するピッチ周期化処理を外すと、前記歪みがかなり軽減されることが確認された。これらのことから、1サブフレーム内でのピッチ周期化が少なからず前記歪みの原因になっていることが確認できた。
【0139】
そこで、本発明者は、まず、雑音モードにおいては、適応符号ベクトルの生成において、ピッチ周期の探索範囲をサブフレーム長以上の部分のみに限定するようにした。これにより、1サブフレーム内における周期性強調を避けることができる。
【0140】
なお、このようなモード情報に応じて適応符号帳の一部のみを使用する制御、すなわち、定常雑音モードでピッチ周期の探索範囲を限定する制御を行うと、デコーダ側で定常雑音モードでピッチ周期が短いことを検出して、誤りを検出することも可能である。
【0141】
図10(a)を用いて説明すると、モード情報が定常雑音モードである場合には、探索範囲はサブフレーム長(L)以上に限定した探索範囲▲2▼となり、モード情報が定常雑音モード以外のモードである場合には、探索範囲はサブフレーム長未満範囲を含む探索範囲▲1▼となる(なお、図において、探索範囲の下限(最も短いピッチラグ)は0として図示されているが、8kHzサンプリングで0〜20サンプル程度の範囲はピッチ周期としては短すぎるため一般的には探索せず、15〜20サンプル以上の範囲を探索範囲▲1▼とする)。この探索範囲の切り替えは、探索範囲決定部901において行う。
【0142】
ピッチ探索部902では、探索範囲決定部901で決定した探索範囲において、入力されたターゲットベクトルを用いてピッチ探索を行う。具体的には、決定されたピッチ探索範囲において、適応符号帳903の中から取り出した適応符号ベクトルにインパルス応答を畳み込むことにより、適応符号帳成分を算出し、この値とターゲットベクトルとの誤差を最小とする適応符号ベクトルを生成するピッチを抽出する。適応符号ベクトル生成部905では、求められたピッチによって適応符号ベクトルが生成される。
【0143】
雑音符号帳探索部906では、生成した適応符号ベクトル及びターゲットベクトルを用い、求められたピッチで雑音符号帳を探索する。具体的には、雑音符号帳探索部906は、雑音符号帳904の中から取り出した雑音符号ベクトルにインパルス応答を畳み込むことにより、雑音符号帳成分を算出し、この値とターゲットベクトルとの誤差を最小とする雑音符号ベクトルを選び出す。
【0144】
このように、本実施の形態では、定常雑音モード(又は定常雑音モードと無声モード)において、探索範囲をサブフレーム長以上に限定することにより、雑音符号ベクトルに対するピッチ周期性を抑制することができ、雑音符号帳構成の際のピッチ周期化に起因する特有の歪みの発生を防止することができる。その結果、合成される定常雑音信号の自然性を高めることができる。
【0145】
次に、ピッチ周期性を抑制する観点から考えると、定常雑音モード(又は定常雑音モードと無声モード)で、ピッチ周期化ゲインを制御して、すなわち、定常雑音モードでは、適応符号ベクトル生成において、ピッチ周期化ゲインを0又は1未満に下げることにより、適応符号ベクトルに対するピッチ周期化(適応符号ベクトルのピッチ周期性)を抑制することができる。例えば、定常雑音モードにおいては、図10(b)に示すように、ピッチ周期化ゲインを0としたり、図10(c)に示すように、ピッチ周期化ゲインを1未満に下げる。なお、図10(d)は一般的な適応符号ベクトル生成法である。図中のT0はピッチ周期を示す。
【0146】
また、雑音符号ベクトル生成についても同様の制御を行う。このような制御は、図11に示すような構成により実現することができる。この構成においては、雑音符号帳1103から雑音符号ベクトルを周期化フィルタ1102に入力し、周期化ゲイン制御器1101でモード情報に応じて周期化フィルタ1102におけるピッチ周期化ゲインを制御する。
【0147】
また、さらに、一部の雑音符号帳に対してはピッチ周期化を弱くし、残りの雑音符号帳に対してはピッチ周期化を強くする構成も有効である。
【0148】
このような制御は、図12に示すような構成により実現することができる。この構成においては、雑音符号帳1203から雑音符号ベクトルを周期化フィルタ1201に入力し、雑音符号帳1204から雑音符号ベクトルを周期化フィルタ1202に入力し、周期化ゲイン制御器1206でモード情報に応じて周期化フィルタ1201,1202におけるピッチ周期化ゲインを制御する。例えば、雑音符号帳1203が代数符号帳であり、雑音符号帳1204がランダム符号帳(例えば、ガウス符号帳などが挙げられる)である場合には、代数符号帳用の周期化フィルタ1201のピッチ周期化ゲインを1又は1に近い値とし、ランダム符号帳用の周期化フィルタ1202のピッチ周期化ゲインはそれより低めの値にする。どちらか一方の雑音符号帳の出力が雑音符号帳全体の出力としてスイッチ1205によって選択される。
【0149】
上記のように、定常雑音モード(又は定常雑音モードと無声モード)において、探索範囲をサブフレーム長以上に限定することにより、雑音符号ベクトルに対するピッチ周期性を抑制することができ、雑音符号帳構成の際のピッチ周期化による歪みの発生を防止することができる。その結果、周期性を持たない雑音信号のような入力信号に対する符号化性能を改善することができる。
【0150】
また、ピッチ周期化ゲインを切り替える場合、適応符号帳に対しても2周期目以降の周期化ゲインも同様とする構成や、適応符号帳の2周期目以降はオール0とするして周期化しないようにしても良い。この場合、現サブフレームのバッファに用いる信号をオール0にするか、周期化ゲインに対応するように信号振幅を減衰させた現サブフレームの線形予測残差信号をコピーするなどすることにより、従来のピッチ探索法そのままでピッチ探索を行うことが可能である。
【0151】
(実施の形態6)
本実施の形態では、モードによりピッチ重み付けを切り替える場合について説明する。
【0152】
ピッチ探索時においては、一般的に倍ピッチ誤り(ピッチ周期の整数倍のピッチを選択する誤り)を防止する手法が用いられる。しかしながら、周期性の無い信号に対しては、この手法が品質劣化を招く要因となる場合がある。本実施の形態では、この倍ピッチ誤りを防止する手法をモードによってON/OFF切換えすることにより、このような劣化を回避する。
【0153】
図13は、本実施の形態に係る重み付け処理部の構成を示す図である。この構成においては、ピッチ候補の選択を行う場合に、自己相関関数算出器1301からの出力を、上記実施の形態で選択されたモード情報にしたがって切り替えて、重みづけ処理器1302を介して又は直接最大化ピッチ選択器1303に入力する。すなわち、モード情報が定常雑音モードでない場合には、短いピッチが選択されるように、自己相関関数算出器1301からの出力を重みづけ処理器1302に入力し、重みづけ処理器1302において後述する重みづけ処理を行って、この出力を最大化ピッチ選択器1303に入力する。図13において、参照符号1304,1305は、モード情報にしたがって自己相関関数算出器1301からの出力先を切り替えるスイッチである。
【0154】
図14は、上記モード情報にしたがって重みづけ処理を行う場合のフロー図である。自己相関関数算出器1301において、残差信号の正規化自己相関関数(ピッチ周期)を計算する(ST1401)。すなわち、比較を始めるサンプル時点を設定し(n=Pmax)、その時点における自己相関関数の結果を求める(ST1402)。なお、この比較を始めるサンプルの時点は、最も時間的に後ろの時点である。
【0155】
次いで、このサンプル時点における自己相関関数の結果に重みづけしたもの(ncor_max×α)と、このサンプルより手前のサンプル時点における自己相関関数の結果(ncor[n−1])とを比較する(ST1403)。この場合、重みづけは、手前のサンプル時点が大きくなるように設定される(α<1)。
【0156】
そして、(ncor[n−1])が(ncor_max×α)よりも大きければ、その時点における最大値(ncor_max)をncor[n−1]とし、ピッチをn−1とする(ST1404)。そして、重みづけの値αに係数γ(ここでは例えば0.994)を乗算し、nの値を手前のサンプル時点(n−1)に設定し(ST1405)、nが最小値(Pmin)であるかどうかを判断する(ST1406)。一方、(ncor[n−1])が(ncor_max×α)よりも大きくなければ、重みづけの値αに係数γ(0<γ≦1.0、ここでは例えば0.994)を乗算し、nの値を手前のサンプル時点(n−1)に設定し(ST1405)、nが最小値(Pmin)であるかどうかを判断する(ST1406)。
この判断は、最大化ピッチ選択器1303において行う。
【0157】
nがPminであれば、比較を終了してフレームピッチ周期候補(pit)を出力する(ST1407)。nがPminでなければ、ST1403にもどり、一連の処理を繰り返す。
【0158】
このような重みづけを行うことにより、すなわちサンプル時点を手前にシフトするにしたがって重みづけ係数(α)を小さくすることにより、手前のサンプル時点の自己相関関数に対する閾値が小さくなるので、短い周期が選ばれ易くなり、倍ピッチ誤りを回避できる。
【0159】
図15は、重みづけ処理を行なわないでピッチ候補の選択を行う場合のフロー図である。自己相関関数算出器1301において、残差信号の正規化自己相関関数(ピッチ周期)を計算する(ST1501)。すなわち、比較を始めるサンプル時点を設定し(n=Pmax)、その時点における自己相関関数の結果を求める(ST1502)。なお、この比較を始めるサンプルの時点は、最も時間的に後ろの時点である。
【0160】
次いで、このサンプル時点における自己相関関数の結果(ncor_max)と、このサンプルより手前のサンプル時点における自己相関関数の結果(ncor[n−1])とを比較する(ST1503)。
【0161】
そして、(ncor[n−1])が(ncor_max)よりも大きければ、その時点における最大値(ncor_max)をncor[n−1]とし、ピッチをn−1とする(ST1504)。そして、nの値を手前のサンプル時点(n−1)に設定し(ST1505)、nがサブフレーム(N_subframe)であるかどうかを判断する(ST1506)。一方、(ncor[n−1])が(ncor_max)よりも大きくなければ、nの値を手前のサンプル時点(n−1)に設定し(ST1505)、nがサブフレーム(N_subframe)であるかどうかを判断する(ST1506)。この判断は、最大化ピッチ選択器1303において行う。
【0162】
nがサブフレーム(N_subframe)であれば、比較を終了してフレームピッチ周期候補(pit)を出力する(ST1507)。nがサブフレーム(N_subframe)でなければ、サンプル時点を手前にずらした上でST1503にもどり、一連の処理を繰り返す。
【0163】
このように、サブフレーム内でのピッチ周期化が起こらない範囲でピッチ探索を行うことおよび短いピッチに優先度を持たせないようにすることにより、定常雑音モードにおける品質劣化を抑えることが可能となる。上記ピッチ周期候補の選択においては、すべてのサンプル時点について比較を行って最大値を選択するようにしているが、本発明においては、サンプル時点を少なくとも2つのレンジに分割し、そのレンジにおいてそれぞれ最大値を求めた後に、その最大値間で比較を行うようにしても良い。また、ピッチの探索順序はピッチ周期の短い方から順にしても良い。
【0164】
(実施の形態7)
本実施の形態においては、上記実施の形態において選択したモード情報にしたがって適応符号帳の使用の有無を切り替える場合について説明する。すなわち、モード情報が定常雑音モード(又は定常雑音モードと無声モード)では、適応符号帳を使用しないように切り替える。
【0165】
図16は、本実施の形態に係る音声符号化装置の構成を示すブロック図である。図16において、図1に示す部分と同じ部分については、図1と同一の符号を付してその詳細な説明は省略する。
【0166】
図16に示す音声符号化装置は、定常雑音モードの際に使用する雑音符号帳1602と、この雑音符号帳1602に対するゲイン符号帳1601と、雑音符号帳1602からの雑音符号ベクトルにゲインを乗算する乗算器1603と、モード選択器105からのモード情報にしたがって符号帳の切り替えを行うスイッチ1604と、符号を多重化して多重化符号を出力する多重化装置1605とを有する。
【0167】
上記構成を有する音声符号化装置においては、モード選択器105からのモード情報にしたがってスイッチ1604が適応符号帳110及び雑音符号帳109の組み合わせと、雑音符号帳1602とを切り替える。すなわち、雑音符号帳109用の符号S1,適応符号帳110用の符号P,及びゲイン符号帳111用の符号G1の組み合わせと、雑音符号帳1602用の符号S2及びゲイン符号帳1601用の符号G2の組み合わせとをモード選択器105から出力されたモード情報Mにより切り替える。
【0168】
モード選択器105で定常雑音モード(定常雑音モードと無声モード)の情報が出力された時には、スイッチ1604は、雑音符号帳1602に切り替え、適応符号帳を使用しない。一方、モード選択器105で定常雑音モード(定常雑音モードと無声モード)以外のモードの情報が出力された時には、スイッチ1604は、雑音符号帳109及び適応符号帳110に切り替える。
【0169】
雑音符号帳109用の符号S1,適応符号帳110用の符号P,ゲイン符号帳111用の符号,雑音符号帳1602用の符号S2及びゲイン符号帳1601用の符号G2は、一旦多重化装置1605に入力される。多重化装置1605は、上述したようにモード情報Mにより上述したいずれかの組み合わせを選択して、選択された組み合わせの符号を多重した多重化符号Cを出力する。
【0170】
図17は、本実施の形態に係る音声復号化装置の構成を示すブロック図である。図17において、図2に示す部分と同じ部分については、図2と同一の符号を付してその詳細な説明は省略する。
【0171】
図17に示す音声復号化装置は、定常雑音モードの際に使用する雑音符号帳1702と、この雑音符号帳1702に対するゲイン符号帳1701と、雑音符号帳1702からの雑音符号ベクトルにゲインを乗算する乗算器1703と、モード選択器202からのモード情報にしたがって符号帳の切り替えを行うスイッチ1704と、多重化符号を分離する多重分離装置1705とを有する。
【0172】
上記構成を有する音声復号化装置においては、モード選択器202からのモード情報にしたがってスイッチ1704が適応符号帳204及び雑音符号帳203の組み合わせと、雑音符号帳1702とを切り替える。すなわち、多重化符号Cが多重分離装置1705に入力され、最初にモード情報が分離・復号され、復号されたモード情報にしたがって、G1,P,S1の符号セット又はG2,S2の符号セットのいずれかが分離・復号される。符号G1はゲイン符号帳205に出力され、符号Pは適応符号帳204に出力され、符号S1は雑音符号帳203に出力される。また、符号S2は雑音符号帳1702に出力され、符号G2はゲイン符号帳1701に出力される。
【0173】
モード選択器202で定常雑音モード(定常雑音モードと無声モード)の情報が出力された時には、スイッチ1704は、雑音符号帳1702に切り替え、適応符号帳を使用しない。一方、モード選択器202で定常雑音モード(定常雑音モードと無声モード)以外のモードの情報が出力された時には、スイッチ1704は、雑音符号帳203及び適応符号帳204に切り替える。
【0174】
これらのように、モード情報にしたがって、適応符号帳の使用の有無を切り替えることにより、入力(音声)信号の状態に応じて適切な音源モデルが選択されるので、復号信号の品質を改善することができる。
【0175】
(実施の形態8)
本実施の形態においては、モード情報にしたがって擬似定常雑音生成器を用いる場合について説明する。
【0176】
定常雑音の音源としては、できるだけ白色ガウス雑音のような音源を用いることが望ましいが、音源としてパルス音源を用いる場合には、合成フィルタを通すと望ましい定常雑音を得ることができない。そこで、本実施の形態では、白色ガウス雑音のような音源を生成する音源生成部と、定常雑音のスペクトル包絡を表すLSP合成フィルタとで構成される定常雑音生成器を提供する。この定常雑音生成器で生成される定常雑音は、CELPの構成では表すことができないので、上記構成の定常雑音生成器をモデル化して音声復号化装置に備えるようにする。そして、この定常雑音生成器で生成された定常雑音信号を音声区間/非音声区間に拘わらず復号信号に重畳する。
【0177】
なお、この定常雑音信号を復号信号に重畳する場合において、常に固定の聴覚重み付けがなされているときは、雑音区間について雑音レベルが小さくなる傾向があるので、この定常雑音信号を復号信号に重畳しても雑音レベルが大きくなりすぎない様に調整することが可能である。
【0178】
また、本実施の形態では、CELP型復号化装置の構成要素となっている雑音符号帳から、ランダムにベクトルを選択してくることによって雑音駆動音源ベクトルを生成し、生成した雑音駆動音源ベクトルを駆動信号として、定常雑音区間の平均LSPによって特定されるLPC合成フィルタで定常雑音信号を生成する。生成された定常雑音信号は、定常雑音区間の平均的パワを定数倍(0.5倍前後)したパワにスケーリングされて、復号信号(ポストフィルタ出力信号)に加算される。定常雑音加算後の信号パワを定常雑音加算前の信号パワに合わせるために、加算後の信号に対してスケーリング処理を行っても良い。
【0179】
図18は、本実施の形態に係る音声復号化装置の構成を示すブロック図である。ここで、定常雑音生成器1801は、雑音区間の平均LSPをLPCに変換するLPC変換器1812と、雑音符号帳1804におけるランダム符号帳1804aからのランダム信号を入力して雑音を生成する雑音生成器1814と、生成した雑音信号で駆動される合成フィルタ1813と、モード判定器1802で判定されたモードに基づいて定常雑音のパワを算出する定常雑音パワ算出器1815と、合成フィルタ1813で合成された雑音信号に定常雑音のパワを乗算してスケーリングを行う乗算器1816とを有する。
【0180】
このような擬似定常雑音生成器を備えた音声復号化装置においては、符号器から伝送されたLSP符号Lと雑音符号ベクトルを表現する符号帳インデックスSと適応符号ベクトルを表現する符号帳インデックスAとゲイン情報を表現する符号帳インデックスGとが、それぞれLSP復号器1803と雑音符号帳1804と適応符号帳1805とゲイン符号帳とに入力される。
【0181】
LSP復号器1803は、LSP符号Lから量子化LSPを復号し、モード判定器1802とLPC変換器1809に夫々出力する。
【0182】
モード判定器1802は、図19に示す構成を有しており、モード決定器1901では、LSP復号器1803から入力した量子化LSPを用いてモードを決定し、そのモード情報を雑音符号帳1804及びLPC変換器1809に送る。また、平均LSP算出器制御器1902において、モード決定器1901で決定されたモード情報に基づいて平均LSP算出器1903を制御する。すなわち、平均LSP算出器制御器1902は、定常雑音モードにおいて、現在の量子化LSP及び過去の量子化LSPから雑音区間の平均LSPを算出するように平均LSP算出器1902を制御する。この雑音区間の平均LSPは、LPC変換器1812に出力されると共に、モード決定器1901に出力される。
【0183】
雑音符号帳1804は、予め定められた個数の形状の異なる雑音符号ベクトルが格納されており、入力した符号Sを復号して得られる雑音符号帳インデックスによって指定される雑音符号ベクトルを出力する。また、この雑音符号帳1804は、ランダム符号帳1804aと代数符号帳である部分的代数符号帳1804bとを有しており、例えば有声音声部に対応するモードでは、部分的代数符号帳1804bから、よりパルス的な雑音符号ベクトルを生成し、無声音声部や定常雑音部などに対応するモードでは、ランダム符号帳1804aから、より雑音的な雑音符号ベクトルを生成するような構造となっている。
【0184】
モード判定器1802の判定結果により、ランダム符号帳1804aのエントリ数と部分的代数符号帳1804bのエントリ数との比率が切換えられる。雑音符号帳1804から出力される雑音符号ベクトルは、前記2種類以上のモードのエントリの中から最適なものが選択され、乗算器1806で雑音符号帳ゲインGが乗じられた後に加算器1808に出力される。
【0185】
適応符号帳1805は、過去に生成した駆動音源信号を逐次更新しながらバッファリングしており、入力した符号Pを復号して得られる適応符号帳インデックス(ピッチ周期(ピッチラグ))を用いて適応符号ベクトルを生成する。適応符号帳1805にて生成された適応符号ベクトルは、乗算器1807で適応符号帳ゲインGが乗じられた後に加算器1808に出力される。
【0186】
加算器1808は、乗算器1806及び1807から入力される雑音符号ベクトルと適応符号ベクトルの加算を行って駆動音源信号を生成し、合成フィルタ1810に出力する。
【0187】
合成フィルタ1810は、入力した量子化LPCを用いてLPC合成フィルタを構築する。この合成フィルタに対して加算器1808から出力される駆動音源信号を入力としてフィルタ処理を行って合成信号をポストフィルタ1811に出力する。
【0188】
ポストフィルタ1811は、合成フィルタ1810から入力した合成信号に対して、ピッチ強調、ホルマント強調、スペクトル傾斜補正、ゲイン調整などの音声信号の主観的品質を改善させるための処理を行う。
【0189】
一方、モード判定器1802から出力された雑音区間の平均LSPは、定常雑音生成器1801のLPC変換器1812に入力され、そこでLPCに変換される。このLPCは、合成フィルタ1813に入力される。
【0190】
雑音生成器1814は、ランダム符号帳1804aからランダムにランダムベクトルを選択し、選択したベクトルを用いて雑音信号を生成する。合成フィルタ1813は、雑音生成器1814で生成された雑音信号により駆動される。合成された雑音信号は、乗算器1816に出力される。
【0191】
定常雑音パワ算出器1815は、モード判定器1802から出力されるモード情報と、ポストフィルタ1811から出力される信号のパワ変化の情報を用いて、確実な定常雑音区間を判定する。確実な定常雑音区間とは、前記モード情報が非音声区間(定常雑音区間)を示していて、かつ、前記パワ変化が少ない区間のことである。前記モード情報が定常雑音区間を示していても、前記パワ変化が大きく上昇する場合は音声の立ち上がり部である可能性があるため音声区間として扱う。そして、定常雑音区間と判定された区間の平均的パワを算出する。さらに、復号音声信号に重畳する定常雑音信号のパワが大きくなりすぎないように、前記平均的パワに一定の係数を乗じたパワが得られるように、乗算器1816において合成フィルタ1813からの出力信号に乗ずべきスケーリング係数を求める。乗算器1816では、定常雑音パワ算出器1815から出力されるスケーリング係数により、合成フィルタ1813から出力された雑音信号がスケーリングされる。このスケーリングされた雑音信号は、加算器1817に出力される。加算器1817では、上述したポストフィルタ1811からの出力にスケーリングされた雑音信号が重畳され、復号音声が得られる。
【0192】
上記構成の音声復号化装置では、音源をランダムに生成するフィルタ駆動型の擬似定常雑音生成器1801を用いているので、同じ合成フィルタ、同じパワ情報を繰り返して使用しても、セグメント間の不連続性に起因するブザー音的なノイズが発生せず、自然なノイズを生成することが可能である。
【0193】
本発明は上記実施の形態1から8に限定されず、種々変更して実施することが可能である。例えば、上記実施の形態1から8は適宜組み合わせて実施することが可能である。また、本発明の定常雑音生成器はいかなるタイプの復号器に対しても適用可能であり、必要に応じて、雑音区間の平均LSPを供給する手段と、雑音区間(モード情報)を判定する手段と、適当な雑音生成器(または適当なランダム符号帳)と、雑音区間の平均パワ(平均エネルギー)を供給(算出)する手段と、を設ければ良い。
【0194】
本明細書は、2000年1月11日出願の特願2000−002874に基づく。この内容はすべてここに含めておく。また、本発明は、LSPのフレーム間変化と、求められたLSPと過去の雑音区間(定常区間)における平均LSPとの間の距離と、を用いて定常雑音区間を判定するモード判定器を基本構成としている。この内容は、1998年8月21日出願の特願平10−236147号及び1998年9月21日出願の特願平10−266883号に基づく。これらの内容もすべてここに含めておく。
【0195】
本発明は、ディジタル移動通信システムなどにおける低ビットレート音声符号化装置、特に音声信号を声道情報と音源情報とに分離して表現するようなCELP型音声符号化装置などに適用することができる。
【0196】
【発明の効果】
以上説明したように、本発明によれば、モード判定において、第3の動的パラメータを用いて最大値でしきい値判定を行うので、ほとんどの結果がしきい値を超えなく、1つや2つの結果がしきい値を超える場合においても、正確に音声区間と判定することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1における音声符号化装置の構成を示すブロック図
【図2】本発明の実施の形態2における音声復号化装置の構成を示すブロック図
【図3】本発明の実施の形態1における音声符号化処理の流れを示すフロー図
【図4】本発明の実施の形態2における音声復号化処理の流れを示すフロー図
【図5】本発明の実施の形態3における音声信号送信装置及び受信装置の構成を示すブロック図
【図6】本発明の実施の形態4におけるモード選択器の構成を示すブロック図
【図7】本発明の実施の形態4におけるモード選択器の構成を示すブロック図
【図8】本発明の実施の形態4における前段のモード選択処理の流れを示すフロー図
【図9】本発明の実施の形態5におけるピッチ探索の構成を示すブロック図
【図10】本発明の実施の形態5におけるピッチ探索の探索範囲を示す図
【図11】本発明の実施の形態5におけるピッチ周期化ゲインの切り替え制御を行う構成を示す図
【図12】本発明の実施の形態5におけるピッチ周期化ゲインの切り替え制御を行う構成を示す図
【図13】本発明の実施の形態6における重みづけ処理を行う構成を示すブロック図
【図14】上記実施の形態において、ピッチ周期候補選択で重みづけ処理を行う場合のフロー図
【図15】上記実施の形態において、ピッチ周期候補選択で重みづけ処理を行わない場合のフロー図
【図16】本発明の実施の形態7における音声符号化装置の構成を示すブロック図
【図17】本発明の実施の形態7における音声復号化装置の構成を示すブロック図
【図18】本発明の実施の形態8における音声復号化装置の構成を示すブロック図
【図19】上記実施の形態における音声復号化装置のモード判定器の構成を示すブロック図
【符号の説明】
103 LPC量子化器
104 合成フィルタ
105 モード選択器
109 雑音符号帳
110 適応符号帳
111 ゲイン符号帳
201 LPC復号器
202 モード選択器
209 合成フィルタ
210 ポストフィルタ
501 音声入力装置
503 音声符号化器
509 音声復号化器
511 音声出力装置
601 平滑化部
603,605 自乗和算出器
604 自乗値算出器
607 モード決定器
608 平均LSP算出器制御器
609 平均LSP算出器
701 動的特徴量算出部
702 静的特徴量算出部
703 スペクトル傾斜算出部
704 正規化予測残差パワ算出部
705 隣接LSP間隔算出部

Claims (6)

  1. 量子化LPCまたは量子化LSPを示す符号に対して復号化を施し、量子化LSPパラメータを生成する復号手段と、
    量子化LSPパラメータが定常的な区間における平均量子化LSPパラメータを用いて現フレームが音声モードに該当するか否か判定するモード判定手段と、
    雑音符号ベクトルを格納した複数の雑音符号帳のいずれかから、前記モード判定手段の判定結果に応じて雑音符号ベクトルを選択して出力する雑音符号ベクトル生成手段と、
    前記雑音符号ベクトルを用いて復号音声信号を生成する復号音声信号生成手段と、
    前記モード判定手段で音声モードと判定される区間以外の区間において、前記平均量子化LSPパラメータから求められるLPCパラメータで構築された合成フィルタを、前記雑音符号ベクトルから生成した雑音信号で駆動させて定常雑音を生成し、この定常雑音を前記復号音声信号に重畳する定常雑音生成手段と、
    を具備することを特徴とするマルチモード音声復号化装置
  2. 前記モード判定手段は、
    量子化LSPパラメータが定常的な区間における平均量子化LSPパラメータを算出する平均LSP算出手段と、
    前記平均量子化LSPパラメータの各次数成分と現フレームの量子化LSPパラメータの各次数成分との差を各次数について算出する差算出手段と、
    いずれかの次数において所定量以上の前記差が算出されるフレームのモードを音声モードと判定する第1のモード判定手段と、
    を具備することを特徴とする請求項1記載のマルチモード音声復号化装置
  3. 前記モード判定手段は、
    前記量子化LSPパラメータのフレーム間変化を算出するフレーム間変化算出手段と、
    前記フレーム間変化が所定量以上の区間のモードを音声モードと判定する第2のモード判定手段と、
    を具備し、
    前記平均LSP算出手段は、
    前記第2のモード判定手段によって音声モードと判定される区間以外の区間の全部または一部を前記量子化LSPパラメータが定常的な区間とし、
    前記第1のモード判定手段は、
    前記第2のモード判定手段によって音声モードと判定される区間以外の区間において音声モードの判定を行う、
    ことを特徴とする請求項2記載のマルチモード音声復号化装置
  4. 量子化LPCまたは量子化LSPを示す符号に対して復号化を施し、量子化LSPパラメータを生成する復号ステップと、
    量子化LSPパラメータが定常的な区間における平均量子化LSPパラメータを用いて現フレームが音声モードに該当するか否か判定するモード判定ステップと、
    雑音符号ベクトルを格納した複数の雑音符号帳のいずれかから、前記モード判定手段の判定結果に応じて雑音符号ベクトルを選択して出力する雑音符号ベクトル生成ステップと、
    前記雑音符号ベクトルを用いて復号音声信号を生成する復号音声信号生成ステップと、
    前記モード判定ステップで音声モードと判定される区間以外の区間において、前記平均量子化LSPパラメータから求められるLPCパラメータで構築された合成フィルタを、前記雑音符号ベクトルから生成した雑音信号で駆動させて定常雑音を生成し、この定常雑音を前記復号音声信号に重畳する定常雑音生成ステップと、
    を具備することを特徴とするマルチモード音声復号化方法
  5. 前記モード判定ステップは、
    量子化LSPパラメータが定常的な区間における平均量子化LSPパラメータを算出する平均LSP算出ステップと、
    前記平均量子化LSPパラメータの各次数成分と現フレームの量子化LSPパラメータの各次数成分との差を各次数について算出する差算出ステップと、
    いずれかの次数において所定量以上の前記差が算出されるフレームのモードを音声モードと判定する第1のモード判定ステップと、
    を具備することを特徴とする請求項4記載のマルチモード音声復号化方法
  6. 前記モード判定ステップは、
    前記量子化LSPパラメータのフレーム間変化を算出するフレーム間変化算出ステップと、
    前記フレーム間変化が所定量以上の区間のモードを音声モードと判定する第2のモード判定ステップと、
    を具備し、
    前記平均LSP算出ステップは、
    前記第2のモード判定ステップによって音声モードと判定される区間以外の区間の全部または一部を前記量子化LSPパラメータが定常的な区間とし、
    前記第1のモード判定ステップは、
    前記第2のモード判定ステップによって音声モードと判定される区間以外の区間において音声モードの判定を行う、
    ことを特徴とする請求項5記載のマルチモード音声復号化方法
JP2001000797A 2000-01-11 2001-01-05 マルチモード音声復号化装置及びマルチモード音声復号化方法 Expired - Lifetime JP4619549B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001000797A JP4619549B2 (ja) 2000-01-11 2001-01-05 マルチモード音声復号化装置及びマルチモード音声復号化方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000-2874 2000-01-11
JP2000002874 2000-01-11
JP2001000797A JP4619549B2 (ja) 2000-01-11 2001-01-05 マルチモード音声復号化装置及びマルチモード音声復号化方法

Publications (3)

Publication Number Publication Date
JP2001265396A JP2001265396A (ja) 2001-09-28
JP2001265396A5 JP2001265396A5 (ja) 2005-08-18
JP4619549B2 true JP4619549B2 (ja) 2011-01-26

Family

ID=26583326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001000797A Expired - Lifetime JP4619549B2 (ja) 2000-01-11 2001-01-05 マルチモード音声復号化装置及びマルチモード音声復号化方法

Country Status (1)

Country Link
JP (1) JP4619549B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4619549B2 (ja) * 2000-01-11 2011-01-26 パナソニック株式会社 マルチモード音声復号化装置及びマルチモード音声復号化方法
JP4764956B1 (ja) * 2011-02-08 2011-09-07 パナソニック株式会社 音声符号化装置及び音声符号化方法
WO2014007349A1 (ja) * 2012-07-05 2014-01-09 日本電信電話株式会社 符号化装置、復号装置、これらの方法、プログラム、および記録媒体

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6053999A (ja) * 1983-09-05 1985-03-28 日本電気株式会社 音声合成器
JPS63262693A (ja) * 1987-04-20 1988-10-28 日本電気株式会社 音声判定検出装置
JPH10207495A (ja) * 1997-01-21 1998-08-07 Hitachi Ltd 音声情報処理装置
JPH10222194A (ja) * 1997-02-03 1998-08-21 Gotai Handotai Kofun Yugenkoshi 音声符号化における有声音と無声音の識別方法
JP2001265396A (ja) * 2000-01-11 2001-09-28 Matsushita Electric Ind Co Ltd マルチモード音声符号化装置及び復号化装置
JP2009122710A (ja) * 1998-08-21 2009-06-04 Panasonic Corp パラメータ抽出装置及びパラメータ抽出方法
JP2009134303A (ja) * 1997-12-24 2009-06-18 Mitsubishi Electric Corp 音声復号化方法及び音声復号化装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6053999A (ja) * 1983-09-05 1985-03-28 日本電気株式会社 音声合成器
JPS63262693A (ja) * 1987-04-20 1988-10-28 日本電気株式会社 音声判定検出装置
JPH10207495A (ja) * 1997-01-21 1998-08-07 Hitachi Ltd 音声情報処理装置
JPH10222194A (ja) * 1997-02-03 1998-08-21 Gotai Handotai Kofun Yugenkoshi 音声符号化における有声音と無声音の識別方法
JP2009134303A (ja) * 1997-12-24 2009-06-18 Mitsubishi Electric Corp 音声復号化方法及び音声復号化装置
JP2009122710A (ja) * 1998-08-21 2009-06-04 Panasonic Corp パラメータ抽出装置及びパラメータ抽出方法
JP2001265396A (ja) * 2000-01-11 2001-09-28 Matsushita Electric Ind Co Ltd マルチモード音声符号化装置及び復号化装置

Also Published As

Publication number Publication date
JP2001265396A (ja) 2001-09-28

Similar Documents

Publication Publication Date Title
EP1164580B1 (en) Multi-mode voice encoding device and decoding device
CA2306098C (en) Multimode speech coding apparatus and decoding apparatus
JP5373217B2 (ja) 可変レートスピーチ符号化
US6260009B1 (en) CELP-based to CELP-based vocoder packet translation
EP1317753B1 (en) Codebook structure and search method for speech coding
US6081776A (en) Speech coding system and method including adaptive finite impulse response filter
US20020016711A1 (en) Encoding of periodic speech using prototype waveforms
US6138092A (en) CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency
KR20010080258A (ko) 음성 부호화 장치, 기록 매체, 음성 복호화 장치, 신호 처리용 프로세서, 음성 부호화 복호화 시스템, 통신용 기지국, 통신용 단말 및 무선 통신 시스템
JPH09127991A (ja) 音声符号化方法及び装置、音声復号化方法及び装置
JP2010181892A (ja) 音声符号化用ゲイン平滑化
JP3955179B2 (ja) 音声符号化装置、音声復号化装置、およびこれらの方法
JPH1097296A (ja) 音声符号化方法および装置、音声復号化方法および装置
JPH10214100A (ja) 音声合成方法
JP4619549B2 (ja) マルチモード音声復号化装置及びマルチモード音声復号化方法
JP2003044099A (ja) ピッチ周期探索範囲設定装置及びピッチ周期探索装置
JP4527175B2 (ja) スペクトルパラメータ平滑化装置及びスペクトルパラメータ平滑化方法
JP2002073097A (ja) Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法
JPH0519796A (ja) 音声の励振信号符号化・復号化方法
JP3232728B2 (ja) 音声符号化方法
AU753324B2 (en) Multimode speech coding apparatus and decoding apparatus
JPH02160300A (ja) 音声符号化方式
JP2005062410A (ja) 音声信号の符号化方法
Popescu et al. A DIFFERENTIAL, ENCODING, METHOD FOR THE ITP DELAY IN CELP

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050207

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101027

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131105

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4619549

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term