本発明の第1の態様は、音声符号化装置が、入力音声信号を符号化する音声信号符号化手段と、前記符号化された音声信号を所定のデータ単位で送出する音声信号送出手段と、前記送出される音声信号のピッチピーク位置を検出するピッチピーク位置検出手段と、前記検出されたピッチピーク位置を表す情報を前記符号化された音声信号とともに送出するピッチピーク位置情報送出手段と、を具備する構成を採る。
この構成によれば、従来の音源符号化情報に加えて、符号化された音源信号のピッチピーク位置を情報として送出するため、受信器側は復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。
本発明の第2の態様は、音声符号化装置が、上記構成において、前記音声信号符号化手段は、前記入力音声信号の線形予測分析を行って線形予測係数を算出する線形予測分析部と、前記線形予測係数の量子化及び符号化を行う符号化部と、量子化された線形予測係数によって構成される線形予測フィルタと、前記線形予測フィルタを駆動する音源信号を符号化及び生成する音源符号化部と、を含むCELP型音声符号化手段である構成を採る。
この構成によれば、従来の音源符号化情報に加えて、符号化された音源信号のピッチピーク位置を情報として送出するため、受信器側で復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。
本発明の第3の態様は、音声符号化装置が、上記構成において、前記ピッチピーク位置情報送出手段は、前記検出されたピッチピーク位置情報と前記符号化された音声信号とを多重化して送出する構成を採る。
この構成によれば、符号化された音声信号とピッチピーク位置情報とをセットで送出することができる。従って、この多重化された情報を受け取った復号器側においては、これらを分離することにより、符号化された音声信号及びピッチピーク位置情報を得ることができる。
本発明の第4の態様は、音声符号化装置が、上記構成において、前記ピッチピーク位置情報送出手段は、前記符号化部によって符号化された情報の一部を、前記検出されたピッチピーク位置情報に置き換えて送出する構成を採る。
この構成によれば、符号化された音源信号のピッチピーク位置情報を送出するため、受信器側で復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。また、前記ピッチピーク位置情報を、LPC符号化情報の誤り感度の低い部分の代わりに伝送する構成とすることで、ビットレートの増加を伴わず、かつ、復号音声の品質劣化を抑えることが可能である。
本発明の第5の態様は、音声符号化装置が、上記構成において、前記ピッチピーク位置検出手段は、音声信号のフレーム内の最も後ろに位置するピッチピーク位置を前記ピッチピーク位置情報として検出する構成を採る。
この構成によれば、復号器側で復号した音源信号においてフレーム内の最後尾のピッチピーク位置と受信したピッチピーク位置とを比較することによって復号している音源信号(適応符号帳の内容)が正しいかどうか確認することが可能となる。また、前記音源信号(適応符号帳の内容)が正しくない場合、受信したピッチピーク位置に、復号している音源信号(適応符号帳)のピッチピーク位置を合わせることによって、音源信号(適応符号帳の内容)を修正することが可能となる。
本発明の第6の態様は、音声符号化装置が、上記構成において、前フレームにおいて検出されたピッチピーク位置情報を、現フレームにおける符号化情報とともに多重化及び伝送する構成を採る。
この構成によれば、前フレームが消失フレームであった場合において、復号器が前フレームのフレーム消失補償によって生成した音源信号(適応符号帳)の妥当性を復号器側で確認することを可能とする。
本発明の第7の態様は、音声符号化装置が、上記構成において、次フレームにおいて検出されたピッチピーク位置情報を、現フレームにおける符号化情報とともに多重化及び送出する構成を採る。
この構成によれば、現フレームが消失フレームであった場合に、復号器が前フレームで受信したピッチピーク位置情報を利用して、より精度の良いフレーム消失補償処理を行うことを可能とする。
本発明の第8の態様は、音声復号化装置が、符号化された音声信号を復号化する音声信号復号化手段と、前記音声信号のピッチピーク位置を表す情報に基づいて、前記音声信号に消失フレームが存在する場合の当該消失フレームに起因する品質劣化の補償処理を行う補償手段と、を具備する構成を取る。
この構成によれば、消失フレームに起因する品質劣化の補償として、消失フレームそのものの補償や消失フレーム後のフレームの補償を、ピッチピーク位置情報に基づいて行うことができる。特に、音声信号においては、ピッチピーク位置を合わせることによって、消失フレームの補償処理や、消失フレームに続くフレームのピッチのずれを回避した補償を行うことが可能となり、品質劣化を低減することができる。
本発明の第9の態様は、音声復号化装置が、上記構成において、前記音声信号復号化手段は、線形予測係数の復号処理を行う線形予測係数復号部と、復号された線形予測係数によって構成される線形予測フィルタと、復号された利得パラメータに基づいて適応符号帳及び固定符号帳の各利得を制御するとともに当該制御された適応符号帳及び固定符号帳の内容に基づいて前記線形予測フィルタを駆動する音源復号化部と、を含むCELP型音声復号化手段である構成を採る。
この構成によれば、正しいピッチピーク位置となるように適応符号帳を生成することが可能であるので、フレーム消失後の正常フレームにおける符号器側と復号器側との適応符号帳の内容の不一致を低減することが可能となる。
本発明の第10の態様は、音声復号化装置が、上記構成において、前記ピッチピーク位置情報は前記符号化された音声信号に多重化されており、前記多重化されたピッチピーク位置情報を前記符号化された音声信号から分離する分離手段を具備する構成を採る。
本発明の第11の態様は、音声復号化装置が、上記構成において、前記符号化された音声信号の一部は、前記ピッチピーク位置情報に置き換えられており、前記置き換えられたピッチピーク位置情報を前記符号化された音声信号から分離する分離手段を具備する構成を採る。
これらの構成によれば、ピッチピーク位置情報を、LPC符号化情報の誤り感度の低い部分の代わりに伝送するシステムに音声復号化装置を適用することができるので、ビットレートの増加を伴わず、かつ、復号音声の品質劣化を抑えることが可能である。
本発明の第12の態様は、音声復号化装置が、上記構成において、前記音声信号復号化手段は、線形予測係数の復号処理を行う線形予測係数復号部と、復号された線形予測係数によって構成される線形予測フィルタと、復号された利得パラメータに基づいて適応符号帳及び固定符号帳の各利得を制御するとともに当該制御された適応符号帳及び固定符号帳の内容に基づいて前記線形予測フィルタを駆動する音源復号化部と、を含むCELP型音声復号化手段であり、前記補償手段は、前記音声信号復号化手段が復号する音声信号のうち、現在フレームの直前のフレームが消失フレームであった場合に、前記ピッチピーク位置情報に基づいて、前記適応符号帳の内容を修正する構成を採る。
この構成によれば、直前のフレームにおけるピッチピークの位置を正確に適応符号帳に反映させることが出来るので、フレーム消失後の正常フレームにおける符号器側と復号器側の適応符号帳の内容の不一致を軽減することが可能となる。
本発明の第13の態様は、音声復号化装置が、上記構成において、前記音声信号復号化手段は、直前フレームにおいて受信した符号化パラメータの復号処理を現在フレームにおいて行うものであり、前記補償手段は、前記直前フレームが消失フレームであった場合に、現在フレームにおいて受信したピッチピーク位置情報を用いて前記消失フレームの補償処理を行う構成を採る。
この構成によれば、消失フレームのピッチピーク位置情報と後続正常フレームの復号情報と直前正常フレームの復号情報とを用いてフレーム消失補償を行うので、より精度の良いフレーム消失補償処理を行うことが可能となる。
本発明の第14の態様は、音声復号化装置が、上記構成において、前記補償手段は、前記音声信号復号化手段が復号する音声信号のうち、現在フレームが消失フレームであった場合に、その直前フレームにおいて受信したピッチピーク位置情報を用いて、前記消失フレームの補償処理を行う構成を採る。
この構成によれば、フレーム消失が発生した際、直前の正常フレームにおいて受信したピッチピーク位置情報を利用できるので、より精度の良いフレーム消失補償処理が可能となり、正しいピッチピーク位置となるように音源信号(適応符号帳)を生成することが可能であるので、フレーム消失後の正常フレームにおける符号器側と復号器側との適応符号帳の内容の不一致を低減することが可能となる。特に、音声符号化装置において、次フレームにおいて検出されたピッチピーク位置情報を現在フレームにおける符号化情報(符号化された音声信号)とともに伝送されている場合には、消失フレームのピッチピーク位置情報を直前の正常フレームにおいて受信することができ、消失フレームの補償処理をその消失フレームそのもののピッチピーク位置情報に基づいて行うことができる。
本発明の第15の態様は、移動局装置が、入力音声信号を符号化する音声信号符号化部と、前記符号化された音声信号を所定のデータ単位で送信する音声信号送信手段と、前記送信される音声信号のピッチピーク位置を検出するピッチピーク位置検出手段と、前記検出されたピッチピーク位置を表す情報を前記符号化された音声信号とともに送信するピッチピーク位置情報送信手段と、を具備し、基地局装置との間で無線通信を行う構成を採る。
この構成によれば、従来の音源符号化情報に加えて、符号化された音源信号のピッチピーク位置を情報として送出するため、基地局側は復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。
本発明の第16の態様は、移動局装置が、受信した符号化音声信号を復号化する音声信号復号化手段と、前記音声信号のピッチピーク位置を表す情報に基づいて、前記受信した音声信号に消失フレームが存在する場合の当該消失フレームに起因する品質劣化の補償処理を行う補償手段と、を具備し、基地局装置との間で無線通信を行う構成を採る。
この構成によれば、消失フレームに起因する品質劣化の補償として、消失フレームそのものの補償や消失フレーム後のフレームの補償を、ピッチピーク位置情報に基づいて行うことができる。特に、音声信号においては、ピッチピーク位置を合わせることによって、消失フレームの補償処理や、消失フレームに続くフレームのピッチのずれを回避した補償を行うことが可能となり、品質劣化を低減することができる。
本発明の第17の態様は、基地局装置が、入力音声信号を符号化する音声信号符号化部と、前記符号化された音声信号を所定のデータ単位で送信する音声信号送信手段と、前記送信される音声信号のピッチピーク位置を検出するピッチピーク位置検出手段と、前記検出されたピッチピーク位置を表す情報を前記符号化された音声信号とともに送信するピッチピーク位置情報送信手段と、を具備し、移動局装置との間で無線通信を行う構成を採る。
この構成によれば、従来の音源符号化情報に加えて、符号化された音源信号のピッチピーク位置を情報として送出するため、移動局側は復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。
本発明の第18の態様は、基地局装置が、受信した符号化音声信号を復号化する音声信号復号化手段と、前記音声信号のピッチピーク位置を表す情報に基づいて、前記受信した音声信号に消失フレームが存在する場合の当該消失フレームに起因する品質劣化の補償処理を行う補償手段と、を具備し、移動局装置との間で無線通信を行う構成を採る。
この構成によれば、消失フレームに起因する品質劣化の補償として、消失フレームそのものの補償や消失フレーム後のフレームの補償を、ピッチピーク位置情報に基づいて行うことができる。特に、音声信号においては、ピッチピーク位置を合わせることによって、消失フレームの補償処理や、消失フレームに続くフレームのピッチのずれを回避した補償を行うことが可能となり、品質劣化を低減することができる。
本発明の第19の態様は、音声信号伝送方法が、入力音声信号を符号化する音声信号符号化工程と、前記符号化された音声信号を所定のデータ単位で送出する音声信号送出工程と、前記送出される音声信号のピッチピーク位置を検出するピッチピーク位置検出工程と、前記検出されたピッチピーク位置を表す情報を前記符号化された音声信号とともに送出するピッチピーク位置情報送出工程と、前記符号化された音声信号を復号化する音声信号復号化工程と、前記音声信号のピッチピーク位置を表す情報に基づいて、前記音声信号に消失フレームが存在する場合の当該消失フレームに起因する品質劣化の補償処理を行う補償工程と、を具備するようにした。
この方法によれば、従来の音源符号化情報に加えて、符号化された音源信号のピッチピーク位置を情報として送出するため、受信器側は復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。また、消失フレームに起因する品質劣化の補償として、消失フレームそのものの補償や消失フレーム後のフレームの補償を、ピッチピーク位置情報に基づいて行うことができる。特に、音声信号においては、ピッチピーク位置を合わせることによって、消失フレームの補償処理や、消失フレームに続くフレームのピッチのずれを回避した補償を行うことが可能となり、品質劣化を低減することができる。
本発明の第20の態様は、プログラムが、入力音声信号を符号化する音声信号符号化工程と、前記符号化された音声信号を所定のデータ単位で送出する音声信号送出工程と、前記送出される音声信号のピッチピーク位置を検出するピッチピーク位置検出工程と、前記検出されたピッチピーク位置を表す情報を前記符号化された音声信号とともに送出するピッチピーク位置情報送出工程と、を音声符号化装置に実行させるようにする。
このプログラムによれば、従来の音源符号化情報に加えて、符号化された音源信号のピッチピーク位置を情報として送出するため、受信器側は復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。
本発明の第21の態様は、プログラムが、符号化された音声信号を復号化する音声信号復号化工程と、前記音声信号のピッチピーク位置を表す情報に基づいて、前記音声信号に消失フレームが存在する場合の当該消失フレームに起因する品質劣化の補償処理を行う補償工程と、を音声復号化装置に実行させるようにする。
このプログラムによれば、消失フレームに起因する品質劣化の補償として、消失フレームそのものの補償や消失フレーム後のフレームの補償を、ピッチピーク位置情報に基づいて行うことができる。特に、音声信号においては、ピッチピーク位置を合わせることによって、消失フレームの補償処理や、消失フレームに続くフレームのピッチのずれを回避した補償を行うことが可能となり、品質劣化を低減することができる。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声信号伝送システムの構成を示すブロック図である。
音声信号伝送システムは、音声信号送信装置100及び音声信号受信装置199を具備している。
音声信号送信装置100は、入力装置102、A/D変換装置103、音声符号化装置104、信号処理装置105、RF変調装置106、送信装置107及びアンテナ108を有している。A/D変換装置103は入力装置102に接続されている。
音声符号化装置104の入力端子はA/D変換装置103の出力端子に接続されている。信号処理装置105の入力端子は、音声符号化装置104の出力端子に接続されている。RF変調装置106の入力端子は信号処理装置105の出力端子に接続されている。送信装置107の入力端子はRF変調装置106の出力端子に接続されている。アンテナ108は、送信装置107の出力端子に接続されている。
入力装置102は、音声信号を受けてこれを電気信号であるアナログ音声信号に変換し、A/D変換装置103に与える。A/D変換装置103は、入力装置102からのアナログの音声信号をディジタル音声信号に変換し、これを音声符号化装置104に与える。音声符号化装置104は、A/D変換装置103からのディジタル音声信号を符号化して音声符号化情報を生成し信号処理装置105に与える。
信号処理装置105は、音声符号化装置104からの音声符号化情報にチャネル符号化処理、パケット化処理及び送信バッファ処理等を行った後、その音声符号化情報をRF変調装置106に与える。RF変調装置106は、信号処理装置105からの音声符号化信号を変調して送信装置107に与える。送信装置107は、RF変調装置106からの音声符号化信号をアンテナ108を介して電波(RF信号)として送信する。
音声信号送信装置100においては、A/D変換装置103を介して得られるディジタル音声信号に対して数十msのフレーム単位で処理が行われ、1フレーム又は数フレームの符号化データを1つのパケットに入れこのパケットをパケット網に送出する。本実施の形態では、伝送遅延を最小限にするために、1フレームを1パケットで伝送することを想定している。したがって、パケット損失はフレーム消失に相当する。
なお、本発明はパケット交換網に限らず、回線交換網にも適用可能で、その場合は、パケット化処理、ジッタ吸収バッファリング処理及びパケット組みたて処理は不要である。
音声信号受信装置199は、アンテナ110、受信装置111、RF復調装置112、信号処理装置113、音声復号化装置114、D/A変換装置115及び出力装置116を有している。受信装置111の入力端子は、アンテナ110に接続されている。RF復調装置112の入力端子は、受信装置111の出力端子に接続されている。信号処理装置113の入力端子は、RF復調装置112の出力端子に接続されている。音声復号化装置114の2つの入力端子は、信号処理装置113の2つの出力端子に一対一接続されている。D/A変換装置115の入力端子は、音声復号化装置114の出力端子に接続されている。出力装置116の入力端子は、D/A変換装置115の出力端子に接続されている。
受信装置111は、アンテナ110を介して音声符号化情報である電波(RF信号)を受けてアナログの電気信号である受信音声信号を生成し、これをRF復調装置112に与える。アンテナ110を介して受けた電波(RF信号)は、伝送路において信号の減衰や雑音の重畳がなければ、音声信号送信装置100において送信された電波(RF信号)と全く同じものとなる。
RF復調装置112は、受信装置111からの受信音声信号を復調し信号処理装置113に与える。信号処理装置113は、RF復調装置112からの受信音声信号のジッタ吸収バッファリング処理、パケット組みたて処理、パケット消失検出処理、多重分離処理及びチャネル復号化処理等を行って受信音声信号とパケット消失情報とをそれぞれ音声復号化装置114に与える。
音声復号化装置114は、信号処理装置113からの受信音声信号を復号化して復号音声信号を生成しD/A変換装置115に与える。D/A変換装置115は、音声復号化装置114からのディジタル復号音声信号をアナログ復号音声信号に変換して出力装置116に与える。出力装置116は、D/A変換装置115からのアナログ復号音声信号を空気の振動に変換し音波として人間の耳に聴こえるように出力する。
次に、音声符号化装置104について図1、図2及び図3を参照して詳細に説明する。図2は音声符号化装置104の構成を示すブロック図である。図3は、ピッチピーク位置検出部の動作を説明するための模式図である。
図1に示すように、音声符号化装置104は、ピッチピーク位置検出部151、多重化部152、音声符号化部153及び1フレーム遅延部154を有している。音声符号化部153の入力端子は、A/D変換装置103の出力端子に接続されている。ピッチピーク位置検出部151の入力端子は、音声符号化部153の2つの出力端子のうちの一方に接続されている。1フレーム遅延部154の入力端子は音声符号化部153の2つの出力端子のうちのもう一方に接続されている。多重化部152は、ピッチピーク位置検出部151及び1フレーム遅延部154の出力端子と信号処理装置105の入力端子との間に接続されている。
音声符号化部153は、A/D変換装置103から入力したディジタル音声信号の符号化処理を行い、符号化パラメータ情報を1フレーム遅延部154へ出力する。同時に、音声符号化部153は、後述するピッチパラメータ(量子化ピッチ周期)と適応符号帳に保持されている音源信号とをピッチピーク位置検出部151へ出力する。ピッチピーク位置検出部151は、ピッチパラメータである量子化ピッチ周期情報と過去の音源信号系列とを用いて、過去1ピッチ周期長の音源信号におけるピッチピーク位置を検出し、多重化部152へ出力する。
なお、ピッチピーク位置は現在のフレームの最後尾から過去に1ピッチ周期分だけさかのぼった範囲の中に存在する、フレーム最後尾に最も近いものとする。したがって、1フレームが複数のサブフレームに分割されている場合は、最後のサブフレームにおいてピッチピーク位置検出を行う。また、ピッチ周期が長く、現フレーム中にピッチピークが存在しない場合でも、現フレーム末尾の点から1ピッチ周期の範囲内でピッチピーク位置を探索して直前フレーム区間にあるピッチピーク位置を検出することとする。
多重化部152は、ピッチピーク位置検出部151によって検出された現フレームにおけるピッチピーク位置情報と、1フレーム遅延部154から出力される前フレームにおける音声符号化情報とを多重化し、信号処理装置105へ出力する。
次に、音声符号化部153について、図2を用いてより詳細に説明する。音声符号化部153は、図2に示されるように、前処理部201、線形予測係数を求める線形予測分析器202、線形予測係数の量子化及び符号化を行うLPC量子化器203、聴覚重みフィルタ204、聴覚重みフィルタ205、量子化された線形予測係数によって構成される線形予測フィルタとしてのLPC合成フィルタ206、加算器207、適応符号帳208、乗算器209、固定符号帳210、乗算器211、利得量子化器212、加算器213、音源パラメータ決定部214および符号化部215とを有している。適応符号帳208、固定符号帳210及び利得量子化器212によって音源符号化部が構成され、この音源符号化部によってLPC合成フィルタ206が駆動される。
前処理部201は、A/D変換装置103(図1)からディジタル音声信号を入力し、背景雑音抑圧処理やプリエンファシス処理のように音声の品質を改善するための処理やDC成分をカットするためのハイパスフィルタ処理などを行って線形予測分析器202と聴覚重みフィルタ204とに出力する。線形予測分析器202は、前処理部201から入力した前処理後のディジタル音声信号の線形予測分析を行って線形予測係数を算出し、LPC量子化器203と聴覚重みフィルタ204と聴覚重みフィルタ205とにそれぞれ出力する。
LPC量子化器203は、線形予測分析器202から入力した線形予測係数の量子化・符号化処理を行い、量子化した線形予測係数をLPC合成フィルタ206に出力するとともに符号化結果をパラメータLとして出力する。パラメータLは符号化部215に入力され、他の符号化音源パラメータとともにまとめて符号化される。聴覚重みフィルタ204と聴覚重みフィルタ205は、線形予測分析器202によって算出された線形予測係数を用いたARMA型のディジタルフィルタで、後述する音声符号化部による量子化誤差に対して人間の聴覚特性に合わせた重み付けをするためのものであり、2つの聴覚重みフィルタ204及び205は同じフィルタ特性を有する。
聴覚重みフィルタ204は、前処理部201から前処理後のディジタル音声信号を入力し、聴覚重み付けをするARMAフィルタ処理を行って加算器213へ出力する。聴覚重みフィルタ205は、LPC合成フィルタ206によって合成されたディジタル音声信号を入力し、同じ聴覚重み付けをするARMAフィルタ処理を行って加算器213へ出力する。
LPC合成フィルタ206は、LPC量子化器203によって量子化された線形予測係数を用いて構成されるAR型のディジタルフィルタであり、加算器207から出力された音源信号を用いて合成音声信号を生成し、聴覚重みフィルタ205へ出力する。加算器207は、適応符号帳208から乗算器209を介して入力した適応符号帳ベクトルと、固定符号帳210から乗算器211を介して入力した固定符号帳ベクトルとのベクトル加算を行って、音源ベクトルを生成し、LPC合成フィルタ206へ出力する。また、生成した音源ベクトルは、適応符号帳208へフィードバックされて、適応符号帳208の内容が更新される。更新後の適応符号帳の音源信号バッファは、ピッチピーク位置検出部151へ出力される。
適応符号帳208は、加算器207によって過去に生成された音源ベクトルを蓄積・保持しているメモリであり、加算器207から出力された音源ベクトルによって逐次更新される。また、適応符号帳208は、適正な位置からベクトルを切り出して乗算器209へ出力する。有声信号の場合、音源信号が周期性を有することから、過去に生成した音源信号を利用して効率的に音源信号を符号化することができることから、このような適応符号帳が一般に用いられる。適応符号帳ベクトルの切りだし位置はピッチパラメータPによって決定される。ピッチパラメータPは、音源パラメータ決定部によって決定される。
固定符号帳210は、雑音系列や少数のパルスの組み合わせなどによって任意のベクトルを生成するもので、予め定められた数のベクトルを格納もしくは生成できるようになっており、各ベクトルには固有の番号が振られており、その番号を指定することで対応する形状の固定符号帳ベクトルが生成される。番号は固定符号帳インデックスCとして、音源パラメータ決定部214で決定される。
なお、図2では示していないが、固定符号帳は複数のチャンネルや複数のサブセットから構成されていたり、固定符号帳ベクトルに対してピッチ周期化処理が行われたりすることが一般的である。
乗算器209は、利得量子化器212によって量子化された適応符号帳利得(ピッチ利得)を、適応符号帳208から出力されたベクトルに乗じて加算器207へ出力する。乗算器211は、利得量子化器212によって量子化された固定符号帳利得を固定符号帳210から出力されたベクトルに乗じて加算器207へ出力する。
利得量子化器212は、音源利得パラメータGで示される量子化適応符号帳利得および量子化固定符号帳利得をそれぞれ乗算器209及び211へ出力する。音源利得パラメータGは音源パラメータ決定部214で決定される。音源パラメータ決定部214は、加算器213から出力される、聴覚重みフィルタ204によって聴覚重み付けされた入力音声信号と聴覚重みフィルタ205によって聴覚重み付けされたLPC合成フィルタ206の合成音声信号との出力の誤差を最小化するように、適応符号帳パラメータPと固定符号帳パラメータCと利得パラメータGを決定する。
加算器213は、聴覚重みフィルタ205からの出力ベクトルと聴覚重みフィルタ204からの出力ベクトルとの差分ベクトルを算出して音源パラメータ決定部214へ出力する。音源パラメータ決定部によって決定された適応符号帳パラメータPと固定符号帳パラメータCと利得符号帳パラメータGと、LPC量子化器203によって符号化された線形予測パラメータLとは、符号化部215により一括して一つの符号としてまとめられ、1フレーム遅延部154へ出力される。1フレーム遅延部154は、符号化部215より入力した音声符号化情報を1フレームの時間だけ保持した後、多重化部152へ出力する。
次に、ピッチピーク位置検出部151の動作について、図3を参照してより詳細に説明する。
図3に示すように、ピッチピーク位置検出部151は、ピッチパラメータPと、最新の適応符号帳の内容(過去に生成した音源信号系列)を少なくとも1ピッチ周期長以上を入力し、最も時間的に後ろにあるピッチピーク位置を検出する。ピッチピーク位置の検出法の最も単純なものは、適応符号帳の末尾(最新のサンプル:図3は1101)から過去に1ピッチ周期Pまでさかのぼる間において、絶対値が最大となるサンプル(図3は1102)をピッチピーク位置として検出する方法である。なお、現在の入力音声信号にピッチ周期性がない場合(無声部や雑音部である場合)には、ピッチピーク位置を無理に設定せず、ピッチ周期性がない区間であることを示すコードを別途割り当てて、その情報をピッチピーク位置情報として出力する。
次に、音声復号化装置114について図1、図4、図5〜図7を参照して詳細に説明する。図4は送信パケットの略線図、図5は音声復号化装置114の構成を示すブロック図、図6〜図8はフレーム消失補償処理を説明するための概念図である。
図1に示すように、音声復号化装置114は、多重分離部155、音声復号化部156、1フレーム遅延部157及びフレーム消失補償部158を有している。
多重分離部155の入力端子は信号処理装置113の2つの出力端子の一方に接続されている。音声復号化部156は3つの入力端子を持ち、第1の入力端子は多重分離部155の1つの出力端子に、第2の入力端子は信号処理装置113の1つの出力端子に、第3の入力端子はフレーム消失補償部158に、それぞれ接続されている。また、音声復号化部156は2つの出力端子をもち、一方はフレーム消失補償部158の2つの入力端子の一方に接続されており、他方はD/A変換装置115へ接続されている。1フレーム遅延部157の入力端子は、多重分離部155の出力端子の一つに接続されている。フレーム消失補償部158は2つの入力端子をもち、一方は1フレーム遅延部157の出力端子に接続されており、他方は音声復号化部156の1つの出力端子に接続されている。
多重分離部155は、信号処理装置113から入力した多重化情報を、音声符号化情報とピッチピーク位置情報とに分離し、音声復号化部156と1フレーム遅延部157とにそれぞれ出力する。また、信号処理装置113は、フレーム消失情報を音声復号化部156へ出力する。音声復号化部156は、多重分離部155から入力した音声符号化情報を用いて復号処理を行い、復号音声信号をD/A変換装置115へ出力する。また、フレーム消失補償処理において更新が必要なパラメータをフレーム消失補償部158へ出力する。
なお、音声復号化部156において、信号処理装置113から出力されたフレーム消失補償情報が「現在のフレームは消失している」ことを示す場合は、多重分離部155からの情報が入力されないので、フレーム消失補償部158から入力されるパラメータ情報を用いて音声信号を生成し、D/A変換装置115へ出力する。このときもフレーム消失補償処理において更新が必要なパラメータはフレーム消失補償部158へ出力される。1フレーム遅延部157は、多重分離部155より入力したピッチピーク位置情報を1フレーム分の時間だけ保持してからフレーム消失補償部158へ出力する。フレーム消失補償部158は、1フレーム遅延部157から出力された、現フレーム(1フレーム前に送られてきているピッチピーク位置情報は、1フレーム前において1フレーム先のピッチピーク位置情報なので、現フレームのピッチピーク位置情報である)におけるピッチピーク位置情報を入力し、現フレームにおけるピッチピーク位置が入力されたピッチピーク位置情報で示される位置に合うようにフレーム消失補償処理を行う。フレーム消失補償処理は、1フレーム遅延部157から入力した現フレームの最後尾ピッチピーク位置と、音声復号化部156から入力した前フレームまでに復号している音声符号化パラメータとを用いて行われる。
因みに、音声復号化装置114において、1フレーム遅延部157から出力されたピッチピーク位置情報が、現フレームにおけるピッチピーク位置である理由を図4を参照しながら説明する。
図4は、音声符号化装置104において符号化された各フレームの音声符号化情報とピッチピーク位置情報とをパケット化して送信する際の説明に供する略線図である。図4に示すように、音声符号化装置104では、符号化されてなる音声符号化情報を1フレーム分遅延させるとともに、ピッチピーク位置情報は遅延させることなく、多重化している。
従って、図4において、例えばフレームf2のピッチピーク位置情報1001pは、遅延なく第1のパケット1001によって送信されるのに対して、そのフレームf2の音声符号化情報1002aは1フレーム遅延し、次のフレームf3のピッチピーク位置情報1002pとともにパケット1002によって送信される。
このようにして音声符号化装置104(音声信号送信装置100)から送信されたパケット化された音声符号化情報及びピッチピーク位置情報は、音声信号受信装置199の音声復号化部156において復号される。この場合、例えばパケット1001によって送信された、フレームf2のピッチピーク位置情報1001pは、送信側で1フレーム遅延されて送信されたフレームf2の音声符号化情報1002aがパケット1002によって到来するのを待って処理される。
次に、音声復号化部156について、図5を参照してより詳細に説明する。音声復号化部156は、図5に示されるように、パラメータ復号部301、利得復号器302、切り替えスイッチ303、適応符号帳304、固定符号帳305、線形予測係数の復号処理を行うLPC復号器306、乗算器307、乗算器308、加算器309、LPC復号器306において復号された線形予測係数によって構成される線形予測フィルタであるLPC合成フィルタ310及び後処理部311を有する。適応符号帳304、固定符号帳305及び利得復号器302によって音源復号部が構成され、この音源復号部によってLPC合成フィルタ310を駆動する。
パラメータ復号器301の入力端子は多重分離部155の出力端子の1つに接続されている。利得復号器302の入力端子はパラメータ復号部301の出力端子の一つに接続されている。LPC復号器306の入力端子はパラメータ復号部301の出力端子の一つに接続されている。切り替えスイッチ303の入力端子はパラメータ復号部301の出力端子と利得復号器の出力端子とLPC復号器306の出力端子とフレーム消失補償部の出力端子にそれぞれ接続されている。また、切り替えスイッチ303のフレーム消失情報を受信する端子が、信号処理装置113(図1)に接続されている。適応符号帳304の入力端子は、スイッチ303の出力端子と加算器309の出力端子に接続されている。
固定符号帳305の入力端子は、切り替えスイッチ303の出力端子に接続している。乗算器307の2つの入力端子は、一方が適応符号帳304の出力端子に、他方が切り替えスイッチ303の出力端子にそれぞれ接続している。乗算器308の2つの入力端子は、一方が固定符号帳305に、他方が切り替えスイッチ303の出力端子に、それぞれ接続している。加算器309の2つの入力端子は、一方が乗算器307の出力端子に、他方が乗算器308の出力端子に、それぞれ接続されている。LPC合成フィルタ310の2つの入力端子は、一方が加算器309に、他方が切り替えスイッチ303に、それぞれ接続している。後処理部311の入力端子は、LPC合成フィルタ310の出力端子に接続しており、ディジタル復号音声信号をD/A変換装置115へ出力する。
パラメータ復号部301は、多重分離部155から入力した音声符号化情報(ビットストリーム)から音声符号化パラメータ(ピッチ(適応符号帳)パラメータP、固定符号帳パラメータC、線形予測パラメータL、利得パラメータG)を復号し、利得パラメータGを利得復号器302へ、線形予測係数パラメータLをLPC復号器306へ、その他のパラメータを切り替えスイッチ303へそれぞれ出力する。
利得復号器302は、パラメータ復号部301から入力した利得パラメータGから適応符号帳利得Gpと固定符号帳利得Gcをそれぞれ復号し、切り替えスイッチ303へ出力する。LPC復号器306は、パラメータ復号部301から入力した線形予測係数パラメータLから復号量子化線形予測係数αを復号し、切り替えスイッチ303へ出力する。切り替えスイッチ303は、パラメータ復号器301、利得復号器302およびLPC復号器306から入力されるパラメータ群と、フレーム消失補償部158から入力されるパラメータ群との切替を行うためのスイッチで、信号処理装置113(図1)から受信したフレーム消失情報が「現フレームは消失フレームである」を示す場合にはフレーム消失補償処理部158が生成したパラメータ側にスイッチが切り替わり、それ以外の場合はパラメータ復号部301、利得復号器302およびLPC復号器306から出力されるパラメータ側にスイッチが接続される。
切り替えスイッチ303は、適応符号帳パラメータ(ピッチ)PまたはP’を適応符号帳304へ、適応符号帳利得GpまたはGp’を乗算器307へ、固定符号帳パラメータCまたはC’を固定符号帳305へ、固定符号帳利得GcまたはGc’を乗算器308へ、復号量子化線形予測係数αまたはα’をLPC復号器306へ、それぞれ出力する。また、切り替えスイッチ303は、適応符号帳304、固定符号帳305、乗算器307、乗算器308、LPC合成フィルタ310へ出力した各パラメータをフレーム消失補償部158にも同時に出力する。
適応符号帳304は、過去に生成された音源信号をバッファリングしており、加算器309から最新の音源信号が入力されるたびに更新される。適応符号帳304のバッファリングしている信号長は、最大ピッチ周期長+フレーム長以上である。切り替えスイッチ303から入力した適応符号帳パラメータ(ピッチ)PまたはP’によって指定される位置から適応符号帳ベクトルを切り出して乗算器307へ出力するとともに、1フレーム前以前の音源信号をフレーム消失補償処理部158へ出力する。乗算器307は、適応符号帳304から出力された適応符号ベクトルに、切り替えスイッチ303から入力した適応符号帳利得GpまたはGp’を乗じて加算器309へ出力する。
固定符号帳305は、切り替えスイッチ303から入力した固定符号帳パラメータCまたはC’によって指定される固定符号帳ベクトルを生成し、乗算器308へ出力する。乗算器308は、固定符号帳305から入力した固定符号帳ベクトルに、切り替えスイッチ303から入力した固定符号帳利得GcまたはGc’を乗じて加算器309へ出力する。加算器309は、乗算器307から入力した適応符号帳ベクトルと、乗算器308から入力した固定符号帳ベクトルとを加算し、LPC合成フィルタ310および適応符号帳304へ出力する。
LPC復号器306は、パラメータ復号部301によって復号された線形予測パラメータLから復号量子化線形予測係数αを切り替えスイッチ303に出力する。LPC合成フィルタ310は、切り替えスイッチ303から入力した復号量子化線形予測係数αまたはα’によって構成されるAR型ディジタルフィルタを、加算器309より入力する音源信号によって駆動し、合成音声信号を後処理部311へ出力する。後処理部311は、音声信号の主観品質を改善するためのホルマント強調ポストフィルタ処理、ピッチ強調ポストフィルタ処理、傾斜補正ポストフィルタ処理、及び、背景雑音信号の主観品質を改善するための雑音後処理、を行い、これらの処理が施されたディジタル復号音声信号をD/A変換装置115へ出力する。
次に、フレーム消失補償部158について、図5、図6〜図8を参照しながら詳細を説明する。フレーム消失補償部158は、パラメータバッファ312、ピッチピーク位置検出器313、ピッチ周期算出器314及びパラメータ生成部315を有する。
パラメータバッファ312の入力端子は、音声復号化部156内の切り替えスイッチ303に接続されている。ピッチピーク位置検出器313の2つの入力端子は、一方が音声復号化部の適応符号帳304に、他方はパラメータバッファ312の出力端子の一つ(ピッチ情報を入力)に、それぞれ接続されている。
ピッチ周期算出器314の3つの入力端子は、一つがピッチピーク位置検出器313に、もう一つが1フレーム遅延部157に、残りの一つがパラメータバッファ312の出力端子の一つ(ピッチ情報を入力)に、それぞれ接続されている。パラメータ生成部315の6つの入力端子は、5つがパラメータバッファ312の5つの出力端子に接続されており、残りの1つがピッチ周期算出器314に、それぞれ接続されている。
パラメータバッファ312は、過去に音声復号化部156において、復号音声を生成するために用いられた各種の音声符号化パラメータを記憶しておくバッファであり、復号した適応符号帳パラメータ(ピッチ)P、雑音符号帳パラメータC、適応符号帳利得Gp、固定符号帳利得Gc、復号量子化線形予測係数αが音声復号化部156から入力される。また消失フレームにおいては、パラメータ生成部によって生成されたパラメータ(適応符号帳パラメータ(ピッチ)P’、固定符号帳パラメータC’、適応符号帳利得Gp’、固定符号帳利得Gc’、復号量子化線形予測係数α’)が入力される。
バッファリングされている各種パラメータは、パラメータ生成部315へ出力され、消失フレームにおける各種パラメータを生成する際に使用される。ピッチピーク位置検出器313は、音声復号化部156内の適応符号帳304から入力した音源信号と、パラメータバッファ312から入力した前フレームのピッチ周期とを用いて、ピッチピーク位置検出部151(図1)と同様にしてピッチピーク位置を検出し、ピッチ周期算出器314へ出力する。ただし、ピッチピーク位置を探す範囲は直前のフレーム以前において生成された音源信号の部分であり、ピッチピーク位置が存在する範囲は前フレームで生成された音源信号の末尾の点から、前フレームのピッチ周期だけさかのぼった点までである。
ピッチ周期算出器314は、ピッチピーク位置検出器313から入力した前フレームの最終ピッチピーク位置と、1フレーム遅延部157から入力した現フレームの最終ピッチピーク位置(1フレーム遅延部から出力されるのは、1フレーム前に受信したピッチピーク位置情報であり、1フレーム前に送られてきているピッチピーク位置情報は、現在復号している(消失補償処理を行っている)音声フレームに対応するピッチピーク位置情報である)と、パラメータバッファ312から入力した前フレームにおける音声復号部で復号されたピッチ周期と、を入力し、現在のピッチ周期を求める。具体的には、(式1)によって現フレームのピッチ周期を決定することが出来る。
Pc = (N(PPc)+Nf−N(PPp))÷Int[0.5+(N(PPc)+Nf−N(PPp))/Pp] (式1)
但し、PPcは現フレームにおける最終ピッチピーク位置(1フレーム遅延部157から入力した情報によって得られる)、PPpは前フレームにおける最終ピッチピーク位置(ピッチピーク位置検出器313から入力した情報によって得られる)、Ppは前フレームにおけるピッチ周期(パラメータバッファ312より入力)、N(PPx)はフレームXにおけるピッチピーク位置PPxをフレームXの先頭からの距離で表した場合の数値、Nfはフレーム長、をそれぞれ示す。また、Int[]は演算結果を越えない最大の整数を示す。
例えば、図6に示すようなフレーム消失のケースを考える。図6では現フレームが消失し、前フレームのピッチ周期を用いて、前フレームの波形を繰り返す消失補償処理を行った場合を示している。このとき、フレーム消失補償によって生成される現フレームの波形における最終ピッチピーク位置はPPc’である。
ところで、図7のように、実際には現フレームにおいてピッチ周期が短くなっていた場合、実際のピッチピーク位置PPcと図6のようなフレーム消失補償処理を行った場合のピッチピーク位置PPc’との間にずれが生じてしまう。このようなずれは、消失した現フレームのみならず、後続の正常受信フレームにおいて適応符号帳のピッチピーク位置が符号器側と復号器側とでずれてしまうため、復号音声品質の劣化が大きくなる。
しかしながら、消失したフレームにおけるピッチピーク位置情報が前フレームの音声符号化パラメータとともに伝送されていれば、消失した現フレームにおけるピッチピーク位置PPcが合うように、ピッチ周期Pcを(式1)の様にして決定することができる。ピッチの量子化精度によっては、同一ピッチ周期で繰り返してもピッチピーク位置を合わせることが出来ない場合もあるので、(式1)で求められるピッチ周期Pc付近のピッチ量子化値を用いて段階的にピッチ周期Pcを変化させてピッチピーク位置を合わせることも可能である。
なお、ピッチピーク位置におけるピーク値の極性が合わないことが問題になる場合は、極性情報もピッチピーク位置情報として伝送するようにして利用する。
フレーム消失補償部158において、このようにしてピッチ周期Pcを求め、そのピッチ周期Pcを用いてフレーム消失補間処理を行った例を図8に示す。フレーム消失がなかった場合の復号信号(破線)に比べて波形レベルでは一致しないものの、ピッチピーク位置を一致させることが出来るので、後続フレームにおける符号器側と復号器側の適応符号帳間不一致の影響を低減することが可能となる。また、ピッチピーク位置情報だけを送るので、ビットレートの増加も少ない。たとえばIETF標準のRFC2198(Perkinsら、”RTP Payload for Redundant Audio data”, Sept. 1997)などで規定されているようにプライマリコーデック情報とセカンダリコーデック情報とを伝送するのに比べると、低ビットレートでのFEC(Forward Error Correction:前方誤り訂正)を実現することが可能である。
なお、現フレームのピッチピーク位置情報が「現フレームはピッチ周期性を有していないフレームである」ことを示している場合は、ピッチ周期算出器314は、上述のようなピッチ周期の計算は行わず、現フレームがピッチ周期性を有さないフレームであることを示す情報をパラメータ生成部に出力する。
パラメータ生成部315は、ピッチ周期算出器314で算出されたピッチ周期と、パラメータバッファ312から入力した前フレームにおける各種復号パラメータを用いて消失したフレームの音源パラメータを生成する。例えば、ピッチ周期算出器314から入力した情報が、「現フレームはピッチ周期性を有さないフレームである」ことを示している場合は、パラメータ生成部315は、適応符号帳利得Gp’を0.0とし、ランダムに生成した固定符号帳パラメータC’と前フレームにおいて使用した固定符号帳利得を減衰させた値をGc’として切り替えスイッチ303へ出力する。反対に、ピッチ周期算出器314から入力した情報が「現フレームはピッチ周期性を有し、そのピッチ周期はPc’である」ことを示している場合は、パラメータ生成部315は、ピッチパラメータをPc’に設定し、適応符号帳利得Gp’を前フレームで復号した適応符号帳利得GpやGpを減衰した値(例えば0.9倍した値)や過去に復号したGpの平均的な値などに設定し、固定符号帳利得Gc’を0.0に設定して、切り替えスイッチ303へそれぞれ出力する。なお、復号量子化線形予測係数α’としては、前フレームにおける復号量子化線形予測係数が繰り返して使用されたり、又は帯域幅を拡張してスペクトル特性を平坦化したものが使用される。
次に、音声符号化装置104および音声復号化装置114の動作について、図9及び図10を参照して説明する。図9は、音声符号化装置104の動作を説明するためのフロー図であり、図10は、音声復号化装置114の動作を説明するためのフロー図である。
図9に示すように、音声符号化装置104は、まずステップST101において、音声符号化部153により1フレーム分のCELP音声符号化処理を行い、 次に、ステップST102において、ステップST101にて得られた音声符号化情報を次のフレームの処理が終わるまで1フレーム遅延部154によって保存する。
次に、音声符号化装置104は、ステップST103において、ピッチピーク位置検出部151によって、現フレームにおいて一番後ろにあるピッチピーク位置の検出を行う。
次に、音声符号化装置104は、ステップST104において、ステップST102にて保存された前フレームの音声符号化情報(前フレームの音声符号化情報)を1フレーム遅延部154から取り出した後、ステップST105に移って、ステップST104において取り出された前フレームの音声符号化情報と、ステップST103にて検出されたピッチピーク位置情報とを多重化部152によって多重化し、これを音声符号化装置104の出力として出力する。
音声符号化装置104は、上述したステップST101〜ステップST105の一連の符号化処理を繰り返す。
続いて音声復号化装置114の動作を説明する。図10に示すように、音声復号化装置114は、まず、ステップST110において、現フレームが消失しているかどうかを信号処理装置113によって判定する。消失していない場合はステップST111に移り、また、消失している場合はステップST114に移る。
次に、フレーム消失していない場合は、ステップST111において、多重分離部155が受信した多重化情報を分離する。
続いて、ステップST112において、音声復号化部156内のパラメータ復号部301が、分離された音声符号化情報から音声符号化パラメータを復号する。次に、ステップST113において、音声復号化部156の残りの部分が、復号された音声符号化パラメータから音声信号を再合成する処理を行い、復号音声信号がD/A変換装置115へ出力される。
これに対して、ステップST110においてフレームが消失していると判断された場合は、音声復号化装置114は、ステップST114に移って、ピッチ周期算出器314によって、現フレーム(消失フレーム)がピッチ周期性を有するフレームであるか否かをチェックする。ピッチ周期性があるか否かに関する情報は受信したピッチピーク位置情報に含まれている。音声復号化装置114は、ピッチ周期性がある場合はステップST115へ移り、ピッチ周期性がない場合はステップST118へ移る。そして、現フレーム(消失フレーム)がピッチ周期性を有する場合、音声復号化装置114は、ステップST115に移って、ピッチピーク位置検出器313によって、前フレームのピッチ情報と復号した音源信号とを、パラメータバッファ312と適応符号帳304から、それぞれ読み出す。
次に、音声復号化装置114は、ステップST116に移って、ピッチピーク位置検出器313によって、前フレームにおいて最も後ろにあるピッチピーク位置を検出する。なお、パラメータバッファ312が、2つ前に受信したピッチピーク位置情報を保持している場合は、その情報を用いて前フレームにおけるピッチピーク位置を得ても良い。
次に、音声復号化装置114は、ステップST117に移って、ピッチ周期算出器314によって、現フレーム(消失フレーム)のピッチピーク位置と前フレームのピッチピーク位置と前フレームのピッチ周期を用いて、上述の(式1)によってピッチ周期を算出する。
次に、音声復号化装置114は、ステップST118に移って、消失したフレームにおける各種音声符号化パラメータをパラメータ生成部315によって生成する。
現フレームがピッチ周期性を有するフレームであると判断された場合は、固定符号帳利得をゼロとし、適応符号帳のみを用いて音声信号を生成する。このとき用いるピッチ周期(適応符号帳パラメータ)は、ピッチ周期算出器314にて算出されたものを用いる。また、現フレームがピッチ周期性をもたないフレームであると判断された場合は、音声復号化装置114は、適応符号帳利得をゼロとし、固定符号帳のみで音声信号を生成する。この場合、固定符号帳パラメータはランダムに決定する。線形予測係数については、現在フレームのピッチ周期性の有無に関らず、前フレームのものを繰り返し利用するか、又は、帯域幅拡張を行いながら次第に白色化したものを用いる。
最後に、音声復号化装置114は、ステップST119において、パラメータバッファ312の内容を更新して、1フレームの復号処理を終了する。
音声復号化装置114は、上記ステップST110〜ステップST119の一連の復号処理を繰り返す。
このように、本実施の形態の音声信号送信装置100及び音声信号受信装置199によれば、少ない冗長情報の追加で、精度良いフレーム消失補償処理が可能となるとともに、ピッチピーク位置が合わせられることにより、ピッチピーク位置のずれが消失フレーム後に伝搬されることを回避することができ、この結果、消失フレーム後の誤り伝播の影響を軽減することができる。
(実施の形態2)
図11は、本発明の実施の形態2に係る音声信号伝送システムの構成を示すブロック図である。
図11に示す音声信号伝送システムは、音声信号送信装置400及び音声信号受信装置499を有している。
音声信号送信装置400は、実施の形態1の音声信号送信装置100における音声符号化装置104を音声符号化装置404に置き換えたものである。実施の形態1と同じ構成要素で同じ動作をするものについては、実施の形態1と同一符号を付し、詳しい説明を省略する。
音声符号化装置404は、A/D変換装置103からのディジタル音声信号を符号化することにより音声符号化情報を生成し、この生成された音声符号化情報を信号処理装置105に与える。
音声信号受信装置499は、実施の形態1の音声信号受信装置199における音声復号化装置114を音声復号化装置414に置き換えたものである。実施の形態1と同じ構成要素で同じ動作をするものについては、実施の形態1と同一符号を付し、詳しい説明を省略する。音声復号化装置414は、信号処理装置113からの受信音声信号を復号化して復号音声信号を生成してD/A変換装置115に与える。
次に、図11および図12を参照して音声符号化装置404の詳細について説明する。
図11および図12に示した音声符号化装置404において、図1および図2に示した実施の形態1の音声符号化装置104と同じ動作をする同じ構成要素については、実施の形態1と同一符号を付し、詳しい説明を省略する。
1フレーム遅延部452の入力端子は、ピッチピーク位置検出部151の出力端子に接続されている。多重化部454の2つの入力端子は、一方が1フレーム遅延部452の出力端子に、他方が音声符号化部153の出力端子に、それぞれ接続されている。
1フレーム遅延部452は、ピッチピーク位置検出部151から出力された、現フレームにおける最も後ろにあるピッチピーク位置情報を、1フレームの時間だけ保持してから多重化部454へ出力する。多重化部454は、1フレーム遅延部452から入力した1フレーム前における前記ピッチピーク位置情報と、音声符号化部153から入力した現フレームの符号化音声情報と、を多重化して一つにまとめた符号化情報としてD/A変換装置115へ出力する。
すなわち、実施の形態1と実施の形態2との違いは、ピッチピーク位置情報と音声符号化情報のどちらを1フレーム遅延させて多重化させるかの違いである。ピッチピーク位置情報を遅延させるのが実施の形態2であり、音声符号化情報を遅延させるのが実施の形態1である。実施の形態1と実施の形態2の音声符号化装置におけるその他の動作は全て同じである。
因みに、図13は、音声符号化装置404において、符号化された各フレームの音声符号化情報とピッチピーク位置情報とをパケット化して送信する際の説明に供する略線図である。図13に示すように、音声符号化装置404では、ピッチピーク位置情報を1フレーム分遅延させるとともに、音声符号化情報は遅延させることなく、多重化している。
従って、図13において、例えばフレームf2の音声符号化情報2001aは、遅延なく第1のパケット2001によって送信されるのに対して、そのフレームf2のピッチピーク位置情報2002pは1フレーム遅延し、次のフレームf3の音声符号化情報2002aとともにパケット2002によって送信される。
このようにして音声符号化装置404(音声信号送信装置400)から送信されたパケット化された音声符号化情報及びピッチピーク位置情報は、音声信号受信装置499の音声復号化部456において復号される。この場合、例えばパケット2002によって送信された、フレームf2のピッチピーク位置情報2002pは、送信側で1フレーム遅延されて送信されていることにより、音声復号化部456において復号される際には、前フレームのピッチピーク位置情報となる。音声復号化部456では、フレーム消失情報に基づいて現在復号しようとするフレームの音声符号化情報が消失している場合には、前フレームで復号した音声符号化情報を用いて、フレーム消失補償部457によって一般的なフレーム消失補償を行う。また、前フレームが消失フレームであった場合は、音声復号化部456の1フレーム遅延部601(後述)によって、その前フレームにおけるフレーム消失情報を1フレーム分だけ遅延させることにより、消失した前フレームに続く現在フレームにおいて、このフレーム消失情報によって適応符号帳修正器603(後述)を動作させる。これにより、前フレームにおいてフレーム消失補償部457によって補償されたパラメータに基づいて生成された適応符号帳304が修正される。
次に、図11および図14を参照して実施の形態2における音声復号化装置414について詳細に説明する。
図14に示した音声復号化装置414において、図5に示した実施の形態1の音声復号化装置114と同じ動作をする同じ構成要素については、実施の形態1と同一符号を付し、詳しい説明を省略する。
図14に示すように、音声復号化装置414は、多重分離部455と、音声復号化部456と、フレーム消失補償部457とを有する。
多重分離部455の入力端子は、信号処理装置113の出力端子の一つに接続されている。音声復号化部456の8つの入力端子は、多重分離部455の2つの出力端子に一つずつと、信号処理装置113の一つの出力端子と、フレーム消失補償部457の5つの出力端子とにそれぞれ接続されている。フレーム消失補償部457の6つの入力端子は、一つが多重分離部455の一方の出力端子に接続されており、残りの5つが音声復号化部456の5つの出力端子に接続されている。音声復号化部の残り1つの出力端子は、D/A変換装置115へ接続されている。
多重分離部455は信号処理装置113(図1)から出力される符号化情報から音声符号化パラメータ情報とピッチピーク位置情報とを分離し、双方とも音声復号化部456へ出力する。また、多重分離部455は、ピッチピーク位置情報(PP)をフレーム消失補償部457へも出力する。音声復号化部456は、信号処理装置113からフレーム消失情報を入力し、復号するフレーム(現フレーム)が消失フレームである場合は、切り替えスイッチ303を切り替えることにより、フレーム消失補償部457によって生成される音声符号化パラメータを用いて音声信号を合成し、D/A変換装置115へ出力する。復号するフレームが消失フレームでない場合は、多重分離部455から出力された音声符号化パラメータを用いて復号処理を行い、音声信号を合成し、D/A変換装置115へ出力する。ただし、前フレームが消失フレームである場合は、多重分離部455から出力された(前フレームの)ピッチピーク位置を用いて、前フレームにおいて生成した適応符号帳の内容を修正してから復号化処理を行う。
図14を参照して、音声復号化部456の詳細について説明する。図14において、音声復号化部414が、図5に示した実施の形態1における音声復号化部114と異なる部分は、1フレーム遅延部601と切り替えスイッチ602と適応符号帳修正器603とが新たに加わった点である。その他の構成要素については、同じ構成で同じ動作をするため、図5と同一符号を付して詳しい説明を省略する。
1フレーム遅延部601の入力端子は信号処理部113の出力端子の一つに接続されている。切り替えスイッチ602の2つの入力端子は、一方が適応符号帳304に、他方が適応符号帳修正器603に、それぞれ接続されている。また、切り替えスイッチ602には、1フレーム遅延部601から、スイッチ切り替えの制御情報が入力されている。適応符号帳修正器603の2つの入力端子は、一方が切り替えスイッチ602の入力端子の一つに接続されており、他方が多重分離部455の出力端子の一つに接続されている。
1フレーム遅延部601は、信号処理装置113から、フレーム消失情報を入力し、1フレーム時間だけ保持した後、切り替えスイッチ602へ出力する。切り替えスイッチ602は、1フレーム遅延部601から入力した情報が、フレーム(=前フレーム)が消失していることを示している場合にON(接続)となり、フレームが消失していない場合にはOFF(解放)となる。なお、2つのスイッチは連動しており、同時にON/OFFされる。切り替えスイッチ602がONになると、適応符号帳304の内容が読み出され、適応符号帳修正器603へ出力される。読み出された適応符号帳304の内容は、適応符号帳修正器603によって修正された後、切り替えスイッチ602を介して適応符号帳304へ出力され、適応符号帳の内容が書き換えられる。適応符号帳304の書き換えが終わってから音声復号化処理が行われる。
適応符号帳修正器603は、多重分離部455から、復号するフレームの前フレームにおける一番後ろにあるピッチピーク位置情報を入力し、適応符号帳304に格納されている前フレームで生成された音源部分のピッチピーク位置が前記ピッチピーク位置に合うように、適応符号帳304に格納されている音源信号バッファの内容を修正する。具体的には、実施の形態1で述べた方法と同様にして、2つ前のフレームにおける最終ピッチピーク位置PPp’(2つ前のフレームにおける音源信号およびピッチ周期Pp’を用いて、実施の形態1に示した方法で求める)と、1つ前のフレームにおける最終ピッチピーク位置PPp(現フレームで受信しているピッチピーク位置情報から得られる)と、を用いて(式1)と同様の(式2)によって、1つ前のフレームにおけるピッチ周期Ppを算出し、Ppを用いて前フレームにおけるフレーム消失補償処理をやり直すことによって修正した適応符号帳を生成する。
Pp = (N(PPp)+Nf−N(PPp’))÷Int[0.5+(N(PPp)+Nf−N(PPp’))/Pp’] (式2)
または、単に1つ前のフレームにおけるピッチピーク位置PPpを、修正前の適応符号帳304に格納されている1つ前のフレームにおいて生成された音源信号を用いて求め、求められたピッチピーク位置と、現フレームで受信したピッチピーク位置情報から得られるピッチピーク位置との差だけ適応符号帳の内容をシフトさせて位置あわせを行う方法も可能である。
このようにして修正した適応符号帳は、切り替えスイッチ602を介して適応符号帳304へ出力され、適応符号帳304の内容が修正される。適応符号帳304の内容を修正した後は、実施の形態1で説明した音声復号化部156と同じ動作によって音声信号が復号される。
次に、フレーム消失補償部457について図14を参照して詳細に説明する。フレーム消失補償部457は、パラメータバッファ312およびパラメータ生成部604を有する。パラメータバッファ312の動作は、実施の形態1と同じなのでその説明は省略する。パラメータ生成部604の動作は、基本的に実施の形態1のパラメータ生成部315と同様である。即ち、例えば、ピッチピーク位置情報PPが、「前フレームはピッチ周期性を有さないフレームである」ことを示している場合は、適応符号帳利得Gp’を0.0とし、ランダムに生成した固定符号帳パラメータC’と前フレームにおいて使用した固定符号帳利得を減衰させた値をGc’として切り替えスイッチ303へ出力する。反対に、ピッチピーク位置情報PPが「前フレームはピッチ周期性を有する」ことを示している場合は、適応符号帳利得Gp’を前フレームで復号した適応符号帳利得GpやGpを減衰した値(例えば0.9倍した値)や過去に復号したGpの平均的な値などに設定し、固定符号帳利得Gc’を0.0に設定して、切り替えスイッチ303へそれぞれ出力する。
ピッチ周期情報にはパラメータバッファ312に記憶されている前フレームのピッチ周期やそれに準じるピッチ周期(ランダムな揺らぎを付加したり、1サンプルずつ増やしたりしたもの)を用い、固定符号帳パラメータには乱数で生成した符号帳インデックスなどを用いる。なお、復号量子化線形予測係数α’としては、前フレームにおける復号量子化線形予測係数を繰り返して使用したり、帯域幅を拡張してスペクトル特性を平坦化したものを使用したりする。
このように、本実施の形態の音声信号送信装置400及び音声信号受信装置499によれば、フレーム消失後の誤り伝播の影響を、遅延の増加なく軽減することができる。
(実施の形態3)
図15は、本発明の実施の形態3に係る音声信号伝送システムの構成を示すブロック図である。
音声信号伝送システムは、音声信号送信装置700及び音声信号受信装置799を具備している。
音声信号送信装置700は、実施の形態2の音声信号送信装置400と同じものであるので、各構成要素には実施の形態1および2と同一符号を付し、詳しい説明を省略する。
音声信号受信装置799は、実施の形態2の音声信号受信装置499における音声復号化装置414を音声復号化装置714に置き換えたものである。実施の形態1および2と同じ構成要素で同じ動作をするものについては、実施の形態1および2と同じ番号を付し、説明を省略する。音声復号化装置714は、信号処理装置113からの受信音声信号を復号化して復号音声信号を生成してD/A変換装置115に与える。
次に、図15および図16を参照して実施の形態3における音声復号化装置714について詳細に説明する。
図15および図16に示した音声復号化装置714において、図5に示した実施の形態1の音声復号化装置114及び図14に示した実施の形態2の音声復号化装置414と同じ動作をする同じ構成要素については、実施の形態1および実施の形態2と同一符号を付し、詳しい説明を省略する。
図15および図16に示すように、音声復号化装置714は、多重分離部755と、音声復号化部756と、フレーム消失補償部757とを有する。
多重分離部755の入力端子は、信号処理装置113の出力端子の一つに接続されている。音声復号化部756の3つの入力端子は、多重分離部755の出力端子と、信号処理装置113の一つの出力端子と、フレーム消失補償部757の出力端子とにそれぞれ接続されている。フレーム消失補償部757の2つの入力端子は、一方が多重分離部755の一方の出力端子に接続されており、他方が音声復号化部756の2つの出力端子の一方に接続されている。音声復号化部756の他方の出力端子は、D/A変換装置115へ接続されている。
多重分離部755は音声符号化パラメータ情報とピッチピーク位置情報とを分離し、音声符号化パラメータ情報を音声復号化部756へ、ピッチピーク位置情報をフレーム消失補償部757へ、それぞれ出力する。音声復号化部756は、信号処理装置113からフレーム消失情報を入力し、復号するフレーム(現在受信しているフレームの前フレーム)が消失フレームである場合は、フレーム消失補償部757によって生成される音声符号化パラメータを用いて音声信号を合成し、D/A変換装置115へ出力する。復号するフレームが消失フレームでない場合は、多重分離部755から出力された音声符号化パラメータを用いて復号処理を行い、音声信号を合成し、D/A変換装置115へ出力する。実施の形態2と異なる点は、復号するフレームが1フレーム前に受信したものである点である。即ち、復号器側で1フレーム待ってから復号を行う点である。このようにすると、例えば復号しようとするフレームが消失していて、消失フレームの前後のフレームが受信されている場合に、前後のフレーム情報を用いて消失フレームの補償処理を行うことが可能となり、前後のフレーム間で滑らかに変化するように消失補償処理を行うことができる。
図16を参照して、音声復号化装置714の動作を詳細に説明する。図16に示すように、音声復号化部756は、実施の形態1の音声復号化部156におけるパラメータ復号部301が、パラメータ復号部801および1フレーム遅延部802に置き換えられている。また、1フレーム遅延部803が信号処理装置113と切り替えスイッチ303との間に挿入されている。これら2点が実施の形態1と異なる。それ以外の構成要素については同じ構成で同じ動作をするため、実施の形態1と同一符号を付し、詳しい説明を省略する。
図16において、パラメータ復号部801は、多重分離部755から、音声符号化情報を入力し、各音声符号化パラメータを分離して1フレーム遅延部802に出力する。同時にパラメータ復号部801は、適応符号帳パラメータPn(復号するフレームの次のフレームにおける適応符号帳パラメータ)をフレーム消失補償部757内のピッチ周期算出器814へ出力する。
1フレーム遅延部802は、パラメータ復号部801から出力された各パラメータを1フレームの時間保持した後、ピッチ(適応符号帳)パラメータP(これから復号するフレームのピッチ(適応符号帳)パラメータであり、Pnよりも1フレーム前になる)および固定符号帳パラメータCをそれぞれ切り替えスイッチ303へ出力する。同時に1フレーム遅延部802は、利得パラメータGを利得復号器302へ出力する。同時に1フレーム遅延部802は、線形予測係数パラメータLをLPC復号器306へ出力する。また、1フレーム遅延部803は、信号処理装置113から出力されたフレーム消失情報を入力して1フレームの時間だけ保持した後、切り替えスイッチ303へ出力する。
次にフレーム消失補償部757について、図16を参照して詳細に説明する。フレーム消失補償部757は、ピッチピーク位置検出器313、パラメータバッファ812、ピッチ周期算出器814、パラメータ生成部815とを有する。
ピッチピーク位置検出器313は、実施の形態1におけるピッチピーク位置検出器313と同じ動作をする。即ち、復号しているフレームの前フレームにおける最終ピッチピーク位置を、パラメータバッファ812から入力するピッチ周期と、適応符号帳304から入力する音源信号とを用いて検出し、ピッチ周期算出器814へ出力する。なお、復号しているフレームの前フレームにおいてピッチピーク位置を正常に受信している場合は、その情報をバッファリングしておいて用いても良い。パラメータバッファ812は、実施の形態1および実施の形態2のパラメータバッファ312と同じ動作をする。ただし、バッファリングしているパラメータが、1フレーム遅延部802の存在により、1フレームだけ過去にさかのぼっている点のみが異なる。
ピッチ周期算出器814は、復号フレームのピッチピーク位置情報PPcを多重分離部755から、復号フレームの次のフレームのピッチ周期Pnをパラメータ復号部801から、復号フレームの前のピッチ周期情報Ppをパラメータバッファ812から、復号フレームの前のフレームのピッチピーク位置情報PPpをピッチピーク位置検出器313から、それぞれ入力し、消失フレーム(復号フレーム)のピッチ周期を計算してパラメータ生成部815へ出力する。
なお、ピッチ周期算出器814は、多重分離部755から入力したピッチピーク位置情報PPcが、「ピッチ周期性を有さないフレームである」ことを示している場合は、その情報をパラメータ生成部へ出力する。
パラメータ生成部815は、実施の形態1のパラメータ生成部315と同様の動作を行う。即ち、ピッチ周期算出器814で算出されたピッチ周期と、パラメータバッファ812から入力した前フレームにおける各種復号パラメータを用いて消失したフレームの音源パラメータを生成する。
例えば、ピッチ周期算出器814から入力した情報が、「復号するフレームはピッチ周期性を有さないフレームである」ことを示している場合は、適応符号帳利得Gp’を0.0とし、ランダムに生成した固定符号帳パラメータC’と前フレームにおいて使用した固定符号帳利得を減衰させた値をGc’として切り替えスイッチ303へ出力する。
反対に、ピッチ周期算出器814から入力した情報が「復号するフレームはピッチ周期性を有し、そのピッチ周期はPc’である」ことを示している場合は、ピッチ周期をピッチ周期算出器814で求めた値P’に設定し、適応符号帳利得Gp’を前フレームで復号した適応符号帳利得GpやGpを減衰した値(例えば0.9倍した値)や過去に復号したGpの平均的な値などに設定し、固定符号帳利得Gc’を0.0に設定して、切り替えスイッチ303へそれぞれ出力する。
なお、復号量子化線形予測係数α’としては、前フレームにおける復号量子化線形予測係数を繰り返して使用したり、帯域幅を拡張してスペクトル特性を平坦化したものを使用したりする。
図17に、復号フレームの次のフレームのピッチ周期Pnと、復号フレームのピッチピーク位置情報N(PPc)と、復号フレームの前のフレームのピッチ周期Ppと、(復号フレームの前のフレームのピッチ周期Ppと適応符号帳の音源信号から求めた)復号フレームの前のフレームのピッチピーク位置情報N(PPp)とを用いて、復号フレームのピッチ周期Pcを求める原理図を示す。
復号フレームのピッチピーク位置PPcの情報は、多重分離部755から供給される。前フレームのピッチピーク位置PPpの情報は、ピッチピーク位置検出器313から供給される。前フレームのピッチ周期Ppはパラメータバッファ812から供給される。次のフレームのピッチ周期Pnはパラメータ復号部801から供給される。この復号フレームのピッチピーク位置PPcと、前フレームのピッチピーク位置PPpと、前フレームのピッチ周期Ppと、次フレームのピッチ周期Pnとを用いて、(式3)より復号フレームのピッチ周期Pcを求める。なお、N(PPx)はフレームXの先頭からピッチピーク位置PPxまでの距離を、Nfはサブフレーム長を、Int[]は[]内の演算結果以下の最大整数値を、それぞれ示す。
Pc = (N(PPc) +Nf −N(PPp))/
Int[((N(PPc) +Nf−N(PPp))/Pp + (N(PPc) +Nf−N(PPp))/Pn)×0.5 + 0.5] (式3)
例えば、図17の場合、PPc―PPp間の距離は、周期Ppでは3.1周期分、周期Pnでは2.8周期分なので、(3.1+2.8)×0.5=2.95となる。したがって分母は3周期となり、N(PPc)+Nf-N(PPp)を3で割った値がピッチ周期ということになる。
このような方法で消失フレームである復号フレームのピッチ周期を求めることにより、前後のフレームの中間的なピッチ周期を用いて連続的にピッチが変化するようなフレーム消失補償処理が可能となる。また、実施の形態2と同様、消失フレームにおけるピッチピーク位置を一致させることが出来るので、後続正常フレームにおける符号器側と復号器側の適応符号帳間不一致の影響を低減することが可能となる。
このように、本実施の形態の音声信号送信装置700及び音声信号受信装置799によれば、少ない冗長情報を追加することにより、精度良いフレーム消失補償法を実現できるとともに、消失フレーム後の誤り伝播の影響を軽減することができる。
(実施の形態4)
図18は、本発明の実施の形態4に係る音声信号伝送システムの構成を示すブロック図である。
図18に示す音声信号伝送システムは、音声信号送信装置1000及び音声信号受信装置1199を有している。
音声信号送信装置1000は、実施の形態1の音声信号送信装置100における音声符号化装置104を音声符号化装置1104に置き換えたものである。実施の形態1と同じ構成要素で同じ動作をするものについては、実施の形態1と同一符号を付し、詳しい説明を省略する。
音声符号化装置1104は、A/D変換装置103からのディジタル音声信号を符号化することにより音声符号化情報を生成し、この生成された音声符号化情報を信号処理装置105に与える。
音声信号受信装置1199は、実施の形態1の音声信号受信装置199における音声復号化装置114を音声復号化装置1114に置き換えたものである。実施の形態1と同じ構成要素で同じ動作をするものについては、実施の形態1と同一符号を付し、詳しい説明を省略する。音声復号化装置1114は、信号処理装置113からの受信音声信号を復号化して復号音声信号を生成してD/A変換装置115に与える。
次に、音声符号化装置1104について、図18、図19、図20及び図21を参照して詳細に説明する。図19は音声符号化装置1104の構成を示すブロック図であり、図20はピッチピーク位置検出部の動作を説明するための模式図であり、図21はピッチピーク位置検出処理手順を示すフローチャートである。但し、図18及び図19に示した音声符号化装置1104において、図1および図2に示した実施の形態1の音声符号化装置104と同じ動作をする同じ構成要素については、実施の形態1と同一符号を付し、詳しい説明を省略する。
図18に示すように、音声符号化装置1104は、ピッチピーク位置検出部151、ピッチピーク位置情報埋め込み部1152、音声符号化部153及び1フレーム遅延部154を有している。音声符号化部153の入力端子は、A/D変換装置103の出力端子に接続されている。ピッチピーク位置検出部151の入力端子は、音声符号化部153の2つの出力端子のうちの一方に接続されている。1フレーム遅延部154の入力端子は音声符号化部153の2つの出力端子のうちのもう一方に接続されている。ピッチピーク位置情報埋め込み部1152は、ピッチピーク位置検出部151及び1フレーム遅延部154の出力端子と信号処理装置105の入力端子との間に接続されている。
音声符号化部153は、A/D変換装置103から入力したディジタル音声信号の符号化処理を行い、符号化パラメータ情報を1フレーム遅延部154へ出力する。同時に、音声符号化部153は、後述するピッチパラメータ(量子化ピッチ周期)と適応符号帳に保持されている音源信号とをピッチピーク位置検出部151へ出力する。
ピッチピーク位置検出部151は、ピッチパラメータである量子化ピッチ周期情報と過去の音源信号系列とを用いて、過去1ピッチ周期長の音源信号におけるピッチピーク位置を検出し、ピッチピーク位置情報埋め込み部1152へ出力する。
なお、ピッチピーク位置は現在のフレームの最後尾から過去に1ピッチ周期分だけさかのぼった範囲の中に存在する、フレーム最後尾に最も近いものとする。したがって、1フレームが複数のサブフレームに分割されている場合は、最後のサブフレームにおいてピッチピーク位置検出を行う。また、ピッチ周期が長く、現フレーム中にピッチピークが存在しない場合でも、現フレーム末尾の点から1ピッチ周期の範囲内でピッチピーク位置を探索して直前フレーム区間にあるピッチピーク位置を検出することとする。
ピッチピーク位置情報埋め込み部1152は、ピッチピーク位置検出部151によって検出された現フレームにおけるピッチピーク位置情報を、1フレーム遅延部154から出力される前フレームにおける音声符号化情報に埋めこんで、信号処理装置105へ出力する。この処理によって、前フレームにおける音声符号化情報の特定の情報がピッチピーク位置情報に置き換えられる。したがって、ピッチピーク位置情報の埋めこみによる情報量の増加はない。置き換えられる音声符号化情報は、復号音声の品質に対する影響度が小さいものを予め選んでおいたものとする。因みに、ピッチピーク位置情報は、間欠的に埋め込まれるようにしてもよい。このようにすれば、ピッチピーク位置情報は、必要最低限度の頻度又はフレームで伝送されることとなり、符号化された音声信号のビットレートの低下による品質劣化を抑えることができる。
図19に示すように、音声符号化部153において、音源パラメータ決定部によって決定された適応符号帳パラメータPと固定符号帳パラメータCと利得符号帳パラメータGと、LPC量子化器によって符号化された線形予測パラメータLとは、符号化部215により一括して一つの符号としてまとめられ、1フレーム遅延部154へ出力される。1フレーム遅延部154は、符号化部215より入力した音声符号化情報を1フレームの時間だけ保持した後、ピッチピーク位置情報埋め込み部152へ出力する。
次に、ピッチピーク位置検出部151の動作について、図20を参照してより詳細に説明する。
ピッチピーク位置検出部151は、図20に示すように、ピッチパラメータPと、最新の適応符号帳の内容(過去に生成した音源信号系列)を少なくとも1ピッチ周期長以上を入力し、最も時間的に後ろにあるピッチピーク位置を検出する。ピッチピーク位置の検出法の最も単純なものは、適応符号帳の末尾(最新のサンプル:図20ではサンプル1101であり、これをe[-1]とする)から過去に1ピッチ周期Pまでさかのぼる間において、絶対値が最大となるサンプル(図20ではサンプル1102)をピッチピーク位置として検出する方法である。
ただし、このような単純な方法だと、サンプリングの影響などにより、本来のピッチピークとは異なるピークをピッチピークとして検出してしまうことがある。この様な場合、(式4)に示すように、1ピッチ遡った点を加味したc[i]を計算し、計算した値の絶対値が最も大きくなる点をピッチピーク位置として検出することで、ピッチピーク位置検出精度を改善することができる(図21のステップST1601〜ステップST1606、peak1がピッチピーク位置)。
c[i] = e[i] + e[i-P], i = -1, …, -P (式4)
ピッチ周期が分数精度で与えられている場合は、(式4)の第二項を、分数精度を利用して補間して求めた値を利用するとさらに精度が増す。
さらに、(式4)を最大化する点の前後(例えばプラスマイナス5サンプル程度(8kHzサンプリング時))で振幅が最大になる点を再探索して最終的なピッチピーク位置とする(図21のステップST1607〜ステップST1611、aは定数(例えば5程度))と、さらに精度が改善される。図21は、このようなピッチピーク位置検出処理アルゴリズムのフローチャートである。
なお、現在の入力音声信号にピッチ周期性がない場合(無声部や雑音部である場合)には、ピッチピーク位置を無理に設定せず、ピッチ周期性がない区間であることを示すコードを別途割り当てて、その情報をピッチピーク位置情報として出力しても良い。
ピッチピーク位置情報埋め込み部1152は、1フレーム遅延部154を介して入力した音声符号化情報のうち、復号時への影響が比較的少ない部分に、ピッチピーク位置検出部151で求められたピッチピーク位置情報を書きこむ。
例えば、ITU-T勧告G.729では、LSP符号化情報のうち、ベクトル量子化の2段目で高次側に割り当てられた5ビットについては、伝送路上で誤っても復号音声の品質への影響が比較的小さいことが知られている(片岡、林、「ITU-T標準8kbit/s音声符号化のビット誤り感度について」、1995年電子情報通信学会情報・システムソサイエティ大会、D-251)ので、これら5ビットを用いてピッチピーク位置を表すことが考えられる。
さらに、伝送路上のビット誤りへの対策を考える必要がなければ、ピッチパリティの1ビットを加えた6ビットを用いることが考えられる。なお、ピッチピーク位置情報の埋めこみは、毎フレーム行わずに一定フレーム数おきに行う構成により、復号音声への影響を減らすこともできる。
次に、音声復号化装置1114について図18、図22、図23及び図24、並びに、実施の形態1の説明において用いた図6〜図8を参照して詳細に説明する。図22は音声復号化装置1114の構成を示すブロック図、図23及び図24は、音声符号化および復号化処理手順を示すフローチャートである。但し、図18及び図22に示した音声復号化装置1114において、図1および図5に示した実施の形態1の音声復号化装置114と同じ動作をする同じ構成要素については、実施の形態1と同一符号を付し、詳しい説明を省略する。
図18に示すように、音声復号化装置1114は、ピッチピーク位置情報分離部1155、音声復号化部156、1フレーム遅延部157、フレーム消失補償部158を有している。
ピッチピーク位置情報分離部1155の入力端子は信号処理装置113の2つの出力端子の一方に接続されている。音声符号化部156は3つの入力端子を持ち、一つはピッチピーク位置情報分離部1155の1つの出力端子に、一つは信号処理装置113の1つの出力端子に、一つはフレーム消失補償部158に、それぞれ接続されている。また、音声符号化部156は2つの出力端子をもち、一方はフレーム消失補償部158の2つの入力端子の一方に接続されており、他方はD/A変換装置115へ接続されている。1フレーム遅延部157の入力端子は、ピッチピーク位置情報分離部1155の出力端子の一つに接続されている。フレーム消失補償部158は2つの入力端子をもち、一方は1フレーム遅延部157の出力端子に接続されており、他方は音声復号化部156の1つの出力端子に接続されている。
ピッチピーク位置情報分離部1155は、信号処理装置113から入力したピッチピーク位置情報が埋めこまれている符号化情報から、ピッチピーク位置情報を分離し、ピッチピーク位置情報を1フレーム遅延部157へ、その他の音声符号化情報を音声復号化部156に、それぞれ出力する。
また、信号処理装置113は、フレーム消失情報を音声復号化部156へ出力する。音声復号化部156は、ピッチピーク位置情報分離部1155から入力した音声符号化情報を用いて復号処理を行い、復号音声信号をD/A変換装置115へ出力する。また、音声復号化部156は、フレーム消失補償処理において更新が必要なパラメータをフレーム消失補償部158へ出力する。
なお、信号処理装置113から入力されたフレーム消失補償情報が「現在のフレームは消失している」ことを示す場合は、ピッチピーク位置情報分離部1155からの情報が入力されないので、フレーム消失補償部158から入力されるパラメータ情報を用いて音声信号を生成し、D/A変換装置115へ出力する。このときもフレーム消失補償処理に必要なパラメータはフレーム消失補償部158へ出力される。1フレーム遅延部157は、ピッチピーク位置情報分離部155より入力したピッチピーク位置情報を1フレーム分の時間だけ保持してからフレーム消失補償部158へ出力する。
フレーム消失補償部158は、1フレーム遅延部157から入力した、現フレーム(1フレーム前に送られてきているピッチピーク位置情報は、1フレーム前において1フレーム先のピッチピーク位置情報なので、現フレームのピッチピーク位置情報である)におけるピッチピーク位置情報を入力し、現フレームにおけるピッチピーク位置が入力されたピッチピーク位置情報で示される位置に合うようにフレーム消失補償処理を行う。フレーム消失補償処理は、1フレーム遅延部157から入力した現フレームの最後尾ピッチピーク位置と、音声復号化部156から入力した前フレームまでに復号している音声符号化パラメータとを用いて行われる。
また、図22に示すように、音声復号化部156において、パラメータ復号部301は、ピッチピーク位置情報分離部1155から入力した音声符号化情報(ビットストリーム)から音声符号化パラメータ(ピッチ(適応符号帳)パラメータP、固定符号帳パラメータC、線形予測パラメータL、利得パラメータG)を復号し、利得パラメータGを利得復号器302へ、線形予測係数パラメータLをLPC復号器306へ、その他のパラメータを切り替えスイッチ303へそれぞれ出力する。その後の処理は、図5について上述した音声復号化部156の場合と同様である。
次に、フレーム消失補償部158について、図22、図6〜図8を参照しながら詳細を説明する。フレーム消失補償部158は、パラメータバッファ312、ピッチピーク位置検出器313、ピッチ周期算出器314およびパラメータ生成部315を有する。
パラメータバッファは、過去に音声復号部156において、復号音声を生成するために用いられた各種の音声符号化パラメータを記憶しておくバッファであり、復号した適応符号帳パラメータ(ピッチ)P、雑音符号帳パラメータC、適応符号帳利得Gp、固定符号帳利得Gc、復号量子化線形予測係数αが音声符号化部156から入力される。また消失フレームにおいては、パラメータ生成部によって生成されたパラメータ(適応符号帳パラメータ(ピッチ)P’、固定符号帳パラメータC’、適応符号帳利得Gp’、固定符号帳利得Gc’、復号量子化線形予測係数α’)が入力される。バッファリングされている各種パラメータは、パラメータ生成部315へ出力され、消失フレームにおける各種パラメータを生成する際に使用される。
ピッチピーク位置検出器313は、音声復号化部156内の適応符号帳304から入力した音源信号と、パラメータバッファ312から入力した前フレームのピッチ周期とを用いて、ピッチピーク位置検出部151と同様にしてピッチピーク位置を検出し、ピッチ周期算出器314へ出力する。ただし、ピッチピーク位置を探す範囲は直前のフレーム以前において生成された音源信号の部分であり、ピッチピーク位置が存在する範囲は前フレームで生成された音源信号の末尾の点から、前フレームのピッチ周期だけさかのぼった点までである。
ピッチ周期算出器314は、ピッチピーク位置検出器313から入力した前フレームの最終ピッチピーク位置と、1フレーム遅延部157から入力した現フレームの最終ピッチピーク位置(1フレーム遅延部から出力されるのは、1フレーム前に受信したピッチピーク位置情報であり、1フレーム前に送られてきているピッチピーク位置情報は、現在復号している(消失補償処理を行っている)音声フレームに対応するピッチピーク位置情報である)と、パラメータバッファ312から入力した前フレームにおける音声復号部で復号されたピッチ周期と、を入力し、現在のピッチ周期を求める。具体的には、(式5)によって現フレームのピッチ周期を決定することが出来る。
Pc = (peak_c−peak_p)÷Int[0.5+(peak_c−peak_p)/Pp] (式5)
但し、peac_cは現フレームにおける最終ピッチピーク位置(1フレーム遅延部157から入力した情報によって得られる)、peak_pは前フレームにおける最終ピッチピーク位置(ピッチピーク位置検出器313から入力した情報によって得られる。図21のフローによって算出される)、Ppは前フレームにおけるピッチ周期(パラメータバッファ312より入力)、をそれぞれ示し、peak_pおよびpeak_cは、現フレームの先頭を基準(例えば0)とした位置として表現される。また、Int[]は演算結果を越えない最大の整数を示す。
例えば、図6に示すようなフレーム消失のケースを考える。図6では現フレームが消失し、前フレームのピッチ周期を用いて、前フレームの波形を繰り返す消失補償処理を行った場合を示している。このとき、フレーム消失補償によって生成される現フレームの波形における最終ピッチピーク位置はPPc’である。
ところで、図7のように、実際(太線)には現フレームにおいてピッチ周期が短くなっていた場合、実際のピッチピーク位置PPcと図16のようなフレーム消失補償処理を行った場合(破線)のピッチピーク位置PPc’との間にずれが生じてしまう。このようなずれは、消失した現フレームのみならず、後続の正常受信フレームにおいて適応符号帳のピッチピーク位置が符号器側と復号器側とでずれてしまうため、復号音声品質の劣化が大きくなる。
しかしながら、消失したフレームにおけるピッチピーク位置情報が前フレームの音声符号化パラメータとともに伝送されていれば、消失した現フレームにおけるピッチピーク位置PPcが合うように、ピッチ周期Pcを(式5)の様にして決定することができる。ピッチの量子化精度によっては、同一ピッチ周期で繰り返してもピッチピーク位置を合わせることが出来ない場合もあるので、(式5)で求められるピッチ周期Pc付近のピッチ量子化値を用いて段階的にピッチ周期Pcを変化させてピッチピーク位置を合わせることも可能である。
なお、ピッチピーク位置におけるピーク値の極性が合わないことが問題になる場合は、極性情報もピッチピーク位置情報として伝送するようにして利用する。このようにしてピッチ周期Pcを求め、そのピッチ周期Pcを用いてフレーム消失補間処理を行った例を図8(太線)に示す。
フレーム消失がなかった場合の復号信号(破線)と波形レベルでは一致しないものの、ピッチピーク位置を一致させることが出来るので、後続フレームにおける符号器側と復号器側の適応符号帳間不一致の影響を低減することが可能となる。また、ピッチピーク位置情報を、音声符号化情報に埋めこむ(復号音声に影響の小さい音声符号化情報の代わりにピッチピーク位置情報を伝送する)ので、ビットレートの増加がない。
また、2フレーム以上を1つのパケットで伝送する場合は、1パケット中の末尾のフレームに関するピッチピーク位置情報のみを送れば良いので、それ以外のフレームについてはピッチピーク位置情報を埋めこむ必要がなく、復号音声信号への影響がさらに少なくなる。なお、現フレームのピッチピーク位置情報が「現フレームはピッチ周期性を有していないフレームである」ことを示している場合は、上記のようなピッチ周期の計算は行わず、現フレームがピッチ周期性を有さないフレームであることを示す情報をパラメータ生成部に出力しても良い。
パラメータ生成部315は、ピッチ周期算出器314で算出されたピッチ周期と、パラメータバッファ312から入力した前フレームにおける各種復号パラメータを用いて消失したフレームの音源パラメータを生成する。例えば、ピッチ周期算出器314から入力した情報が、「現フレームはピッチ周期性を有さないフレームである」ことを示している場合は、適応符号帳利得Gp’を0.0とし、ランダムに生成した固定符号帳パラメータC’と前フレームにおいて使用した固定符号帳利得を減衰させた値をGc’として切り替えスイッチ303へ出力する。
反対に、ピッチ周期算出器314から入力した情報が「現フレームはピッチ周期性を有し、そのピッチ周期はPc’である」ことを示している場合は、ピッチパラメータをPc’に設定し、適応符号帳利得Gp’を前フレームで復号した適応符号帳利得GpやGpを減衰した値(例えば0.9倍した値)や過去に復号したGpの平均的な値などに設定し、固定符号帳利得Gc’を0.0に設定して、切り替えスイッチ303へそれぞれ出力する。
なお、復号量子化線形予測係数α’としては、前フレームにおける復号量子化線形予測係数を繰り返して使用したり、帯域幅を拡張してスペクトル特性を平坦化したものを使用したりする。
次に、音声符号化装置1104および音声復号化装置1114の動作について、図23及び図24を参照して説明する。図23は、音声符号化装置1104の動作を説明するためのフローチャートであり、図24は、音声復号化装置1114の動作を説明するためのフローチャートである。
図23に示すように、音声符号化装置1104は、まずステップST901において、音声符号化部153により1フレーム分のCELP音声符号化処理を行い、次に、ステップST902において、ステップST901にて得られた音声符号化情報を次のフレームの処理が終わるまで1フレーム遅延部154によって保存する。
次に、音声符号化装置1104は、ステップST903において、ピッチピーク位置検出部151によって、現フレームにおいて一番後ろにあるピッチピーク位置の検出を行う。
次に、音声符号化装置1104は、ステップST904において、ステップST902にて保存された前フレームの音声符号化情報(前フレームの音声符号化情報)を1フレーム遅延部154から取り出した後、ステップST905に移って、ステップST903にて検出されたピッチピーク位置情報を、取り出された前フレームの音声符号化情報に埋めこんで、音声符号化装置1104の出力として出力する。音声符号化装置1104は、上述したステップST901〜ステップST905の一連の符号化処理を繰り返す。
続いて音声復号化装置1114の動作を説明する。図24に示すように、音声復号化装置114は、まず、ステップST910において、現フレームが消失しているかどうかを信号処理装置113によって判定する。消失していない場合はステップST911に移り、また、消失している場合はステップST914に移る。
次に、フレーム消失していない場合は、ステップST911において、ピッチピーク位置情報分離部1155が受信した符号化情報からピッチピーク位置情報を分離する。
続いて、ステップST912において、音声復号化部156内のパラメータ復号部301が、分離された音声符号化情報から音声符号化パラメータを復号する。次に、ステップST913において、音声復号化部156の残りの部分が、復号された音声符号化パラメータから音声信号を再合成する処理を行い、復号音声信号がD/A変換装置115へ出力される。
これに対して、ステップST910においてフレームが消失していると判断された場合は、音声復号化装置1114は、ステップST914に移って、ピッチ周期算出器314によって、現フレーム(消失フレーム)がピッチ周期性を有するフレームであるか否かをチェックする。ピッチ周期性があるか否かに関する情報は受信したピッチピーク位置情報に含まれている。音声復号化装置1114は、ピッチ周期性がある場合はステップST915へ移り、ピッチ周期性がない場合はステップST918へ移る。そして、現フレーム(消失フレーム)がピッチ周期性を有する場合、音声復号化装置1114は、ステップST915に移って、ピッチピーク位置検出器313によって、前フレームのピッチ情報と復号した音源信号とを、パラメータバッファ312と適応符号帳304から、それぞれ読み出す。
次に、音声復号化装置1114は、ステップST916に移って、ピッチピーク位置検出器313によって、前フレームにおいて最も後ろにあるピッチピーク位置を検出する。なお、パラメータバッファ312が、2つ前に受信したピッチピーク位置情報を保持している場合は、その情報を用いて前フレームにおけるピッチピーク位置を得ても良い。
次に、音声復号化装置1114は、ステップST917に移って、ピッチ周期算出器314によって、現フレーム(消失フレーム)のピッチピーク位置と前フレームのピッチピーク位置と前フレームのピッチ周期を用いて、上述の(式5)によってピッチ周期を算出する。
次に、音声復号化装置1114は、ステップST918に移って、消失したフレームにおける各種音声符号化パラメータをパラメータ生成部315によって生成する。
現フレームがピッチ周期性を有するフレームであると判断された場合は、固定符号帳利得をゼロとし、適応符号帳のみを用いて音声信号を生成する。このとき用いるピッチ周期(適応符号帳パラメータ)は、ピッチ周期算出器314にて算出されたものを用いる。また、現フレームがピッチ周期性をもたないフレームであると判断された場合は、音声復号化装置1114は、適応符号帳利得をゼロとし、固定符号帳のみで音声信号を生成する。この場合、固定符号帳パラメータはランダムに決定する。線形予測係数については、現在フレームのピッチ周期性の有無に関らず、前フレームのものを繰り返し利用するか、又は、帯域幅拡張を行いながら次第に白色化したものを用いる。
最後に、音声復号化装置1114は、ステップST919において、パラメータバッファ312の内容を更新して、1フレームの復号処理を終了する。
音声復号化装置1114は、上記ステップST910〜ステップST919の一連の復号処理を繰り返す。
上記説明したように、本実施の形態によれば、ビットレートの増加なく、品質劣化を抑えつつ、精度良いフレーム消失補償処理が可能となるとともに、消失フレーム後の誤り伝播の影響を軽減することができる。