JP2012042984A

JP2012042984A - Ｃｅｌｐ型音声復号化装置およびｃｅｌｐ型音声復号化方法

Info

Publication number: JP2012042984A
Application number: JP2011264561A
Authority: JP
Inventors: Hiroyuki Ebara; 宏幸江原
Original assignee: Panasonic Corp
Current assignee: Panasonic Corp
Priority date: 2011-12-02
Filing date: 2011-12-02
Publication date: 2012-03-01
Anticipated expiration: 2022-09-11
Also published as: JP5328883B2

Abstract

【課題】ＣＥＬＰ型音声復号化装置を用いた通信システムにおいて、フレーム消失に起因する復号音声信号の品質劣化の伝播を抑える。
【解決手段】適応符号帳３０４の内容は、適応符号帳修正器６０３によって修正される。適応符号帳修正器６０３は、多重分離部４５５から、復号するフレームの前フレームにおける一番後ろにあるピッチピーク位置情報を入力し、適応符号帳３０４に格納されている前フレームで生成された音源部分のピッチピーク位置が前記ピッチピーク位置に合うように、適応符号帳３０４に格納されている音源信号バッファの内容を修正する。
【選択図】図１４

Description

本発明は、ＣＥＬＰ型音声復号化装置およびＣＥＬＰ型音声復号化方法に関する。

インターネット通信に代表されるパケット通信においては、伝送路においてパケット（又はフレーム）が消失するなどして復号器側で符号化情報を受信できない時に、消失補償（隠蔽）処理を行うのが一般的である（例えば、特許文献１及び特許文献２等参照。）。

従来の音声信号伝送システムとして、図２５に示すものがある。図２５に示すように、従来の音声信号伝送システムは、音声信号送信装置１及び音声信号受信装置１０を具備している。音声信号送信装置１は、入力装置２、Ａ／Ｄ（アナログ／ディジタル）変換装置３、音声符号化装置４、信号処理装置５、ＲＦ変調装置６、送信装置７及びアンテナ８を有している。入力装置２は、音声信号を受け、これを電気信号であるアナログ音声信号に変換し、Ａ／Ｄ変換装置３に与える。Ａ／Ｄ変換装置３は、入力装置２からのアナログ音声信号をディジタル音声信号に変換し音声符号化装置４に与える。音声符号化装置４は、Ａ／Ｄ変換装置３からのディジタル音声信号を符号化して音声符号化情報を生成し信号処理装置５に与える。信号処理装置５は、音声符号化装置４からの音声符号化情報にチャネル符号化処理、多重化処理、パケット化処理及び送信バッファリング処理等を行った後、その音声符号化情報をＲＦ（Radio Frequency）変調装置６に与える。ＲＦ変調装置６は、信号処理装置５からの音声符号化信号を変調して送信装置７に与える。送信装置７は、ＲＦ変調装置６からの音声符号化信号をアンテナ８を介して電波（ＲＦ信号）として送信する。

音声信号受信装置１０は、アンテナ９、受信装置１１、ＲＦ復調装置１２、信号処理装置１３、音声復号化装置１４、Ｄ／Ａ（ディジタル／アナログ）変換装置１５及び出力装置１６を有している。

受信装置１１は、アンテナ９を介して音声符号化信号である電波（ＲＦ信号）を受けてアナログ電気信号である受信音声信号を生成し、これをＲＦ復調装置１２に与える。アンテナ９によって受けられた電波（ＲＦ信号）は、伝送路において信号の減衰や雑音の重畳がなければ、音声信号送信装置１から送信された電波（ＲＦ信号）と全く同じものとなる。

ＲＦ復調装置１２は、受信装置１１からの受信音声信号を復調し信号処理装置１３に与える。信号処理装置１３は、ＲＦ復調装置１２からの受信音声信号のジッタ吸収バッファリング処理、パケット組みたて処理、多重分離処理及びチャネル復号化処理等を行った後、その受信音声信号を音声復号化装置１４に与える。

また、信号処理装置１３は、パケットが所定の時間内に到着しない場合は、パケット消失が発生したことを音声復号化装置１４へ知らせる。音声復号化装置１４は、信号処理装置１３からの受信音声信号を復号化して復号音声信号を生成し、これをＤ／Ａ変換装置１５に与える。

なお、音声復号化装置１４は、信号処理装置１３からパケット損失情報を受け取った場合は、該当パケットの受信音声信号を受け取れないため、フレーム消失補償処理を行い、音声信号を生成する。Ｄ／Ａ変換装置１５は、音声復号化装置１４からのディジタル復号音声信号をアナログ復号音声信号に変換して出力装置１６に与える。出力装置１６は、Ｄ／Ａ変換装置１５からのアナログ復号音声信号を空気の振動に変換し音波として人間の耳に聴こえるように出力する。

音声復号化装置１４は、音声復号化部５６及びフレーム消失補償部５７を有している。音声復号化部５６は３つの入力端子をもち、そのうち２つは信号処理装置の２つの出力端子にそれぞれ接続されている。残りの１つの入力端子はフレーム消失補償部５７の出力端子に接続されている。音声復号化部５６の出力端子は２つあり、Ｄ／Ａ変換装置１５とフレーム消失補償部５７にそれぞれ接続されている。フレーム消失補償部５７の入力端子と出力端子は、音声復号化部５６の出力端子と入力端子にそれぞれ接続されている。フレーム消失補償部５７は、音声復号化部５６において過去に復号されたパラメータ情報を入力し、受信音声信号のフレームが損失している場合に必要となる音声パラメータを生成して音声復号化部５６へ出力する。

音声復号化部５６は、信号処理装置１３の一方の出力端子からフレーム損失信号を受けていない時に、信号処理装置１３の他方の出力端子からの受信音声信号に通常の復号化処理を施して復号音声信号を生成する。また、音声復号化部５６は、フレーム損失信号を受けている時には、フレーム消失補償部５７から入力される音声パラメータを用いて復号処理を行う。フレーム消失補償処理としては、音声符号化方式に応じて様々なものがあり、例えばＩＴＵ−Ｔ勧告Ｇ．７２９などでは復号化アルゴリズムの一部として規定されている。

特開平０９−１２０２９７号公報特開平０９−１２０２９７号公報

しかしながら、従来の音声信号伝送システムにおいては、伝送したフレーム（またはパケット）が伝送路上で消失した場合、音声復号化装置１４が過去に受信済みの符号化情報を用いてフレーム（又はパケット）の消失補償処理を行う。このとき音声符号化装置４と音声復号化装置１４との間で内部状態の同期がとれなくなるため、フレームの消失部分のみならずフレーム消失以降のフレームの復号化処理にパケット消失の影響が伝播して復号音声信号の品質を大きく劣化させる場合があるという問題があった。

例えば、音声符号化方式として、ＩＴＵ−Ｔ勧告Ｇ．７２９に示すＣＥＬＰ（Code Excited Linear Prediction）方式を用いる場合には、過去の復号駆動音源信号を用いて音声の符号化及び復号化処理が行われることにより、フレーム消失補償処理によって符号器と復号器とで異なる駆動音源信号が合成されてしまうとその後しばらくの間において符号器と復号器の内部状態が一致せず、復号音声信号の品質が大きく劣化してしまう場合があるという問題がある。内部状態の中でも、過去に生成した音源信号のバッファである適応符号帳の内容の不一致による品質劣化が顕著である。

本発明は、かかる点に鑑みてなされたものであり、フレーム消失部およびフレーム消失の直後の復号音声信号の品質を向上させることができるＣＥＬＰ型音声復号化装置およびＣＥＬＰ型音声復号化方法を提供することを目的とする。

本発明のＣＥＬＰ型音声復号化装置は、通信相手において符号化され伝送された、ピッチピーク位置情報を復号する復号手段と、適応符号帳と、適応符号帳に格納されている過去の音源信号の一番後ろにあるピッチピーク位置を検出する検出手段と、復号された前記ピッチピーク位置に、検出された前記ピッチピーク位置を合わせる処理を行う適応符号帳修正手段と、を備え、過去のフレーム消失補償処理によって生成された適応符号帳に格納されている音源信号バッファの内容を修正する、構成を採る。

本発明のＣＥＬＰ型音声復号化装置は、２フレーム前におけるピッチピーク位置情報と、１フレーム前におけるピッチピーク位置情報と、２フレーム前におけるピッチ周期情報と、を用いて１フレーム前におけるピッチ周期を決定し、決定した前記ピッチ周期を用いて１フレーム前におけるフレーム消失補償処理をやり直す、構成を採る。

本発明のＣＥＬＰ型音声復号化装置は、検出手段により検出された１フレーム前におけるピッチピーク位置情報と、復号手段により復号された１フレーム前におけるピッチピーク位置情報との差を求め、前記差に基づいて適応符号帳の内容をシフトして２つの前記ピッチピーク位置を合わせる手段を備える、構成を採る。

本発明のＣＥＬＰ型音声復号化方法は、通信相手において符号化され伝送された、ピッチピーク位置情報を復号する復号工程と、適応符号帳に格納されている過去の音源信号の一番後ろにあるピッチピーク位置を検出する検出工程と、復号された前記ピッチピーク位置に、検出された前記ピッチピーク位置を合わせる処理を行う適応符号帳修正工程と、を備え、過去のフレーム消失補償処理によって生成された適応符号帳に格納されている音源信号バッファの内容を修正する。

本発明によれば、少ないビット数の増加であるいはビット数の増加なしに、消失フレームおよびフレーム消失直後の復号音声品質の劣化を改善することが可能である。

本発明の実施の形態１に係る音声符号化装置を含む音声信号送信装置および音声復号化装置を含む音声信号受信装置を示すブロック図本発明の実施の形態１に係る音声符号化装置の構成を示すブロック図ピッチピーク位置検出部の動作原理の説明に供する信号図本発明の実施の形態１に係る音声符号化装置から送出されるパケットを示す略線図本発明の実施の形態１に係る音声復号化装置の構成を示すブロック図本発明の実施の形態１に係る音声復号化装置の動作の説明に供する信号波形図本発明の実施の形態１に係る音声復号化装置の動作の説明に供する信号波形図本発明の実施の形態１に係る音声復号化装置の動作の説明に供する信号波形図本発明の実施の形態１に係る音声符号化処理手順を示すフローチャート本発明の実施の形態１に係る音声復号化処理手順を示すフローチャート本発明の実施の形態２に係る音声符号化装置を含む音声信号送信装置および音声復号化装置を含む音声信号受信装置を示すブロック図本発明の実施の形態２に係る音声符号化装置の構成を示すブロック図本発明の実施の形態２に係る音声符号化装置から送出されるパケットを示す略線図本発明の実施の形態２に係る音声復号化装置の構成を示すブロック図本発明の実施の形態３に係る音声符号化装置を含む音声信号送信装置および音声復号化装置を含む音声信号受信装置を示すブロック図本発明の実施の形態３に係る音声復号化装置の構成を示すブロック図本発明の実施の形態３に係る音声復号化装置の動作の説明に供する略線図本発明の実施の形態４に係る音声符号化装置を含む音声信号送信装置および音声復号化装置を含む音声信号受信装置を示すブロック図本発明の実施の形態４に係る音声符号化装置の構成を示すブロック図本発明の実施の形態４に係る音声符号化装置のピッチピーク位置の検出方法の説明に供する信号波形図本発明の実施の形態４に係る音声符号化装置のピッチピーク位置検出処理手順を示すフローチャート本発明の実施の形態４に係る音声復号化装置の構成を示すブロック図本発明の実施の形態４に係る音声符号化処理手順を示すフローチャート本発明の実施の形態４に係る音声復号化処理手順を示すフローチャート従来の音声符号化装置を含む音声信号送信装置および音声復号化装置を含む音声信号受信装置の構成を示すブロック図

本発明の第１の態様は、音声符号化装置が、入力音声信号を符号化する音声信号符号化手段と、前記符号化された音声信号を所定のデータ単位で送出する音声信号送出手段と、前記送出される音声信号のピッチピーク位置を検出するピッチピーク位置検出手段と、前記検出されたピッチピーク位置を表す情報を前記符号化された音声信号とともに送出するピッチピーク位置情報送出手段と、を具備する構成を採る。

この構成によれば、従来の音源符号化情報に加えて、符号化された音源信号のピッチピーク位置を情報として送出するため、受信器側は復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。

本発明の第２の態様は、音声符号化装置が、上記構成において、前記音声信号符号化手段は、前記入力音声信号の線形予測分析を行って線形予測係数を算出する線形予測分析部と、前記線形予測係数の量子化及び符号化を行う符号化部と、量子化された線形予測係数によって構成される線形予測フィルタと、前記線形予測フィルタを駆動する音源信号を符号化及び生成する音源符号化部と、を含むＣＥＬＰ型音声符号化手段である構成を採る。

この構成によれば、従来の音源符号化情報に加えて、符号化された音源信号のピッチピーク位置を情報として送出するため、受信器側で復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。

本発明の第３の態様は、音声符号化装置が、上記構成において、前記ピッチピーク位置情報送出手段は、前記検出されたピッチピーク位置情報と前記符号化された音声信号とを多重化して送出する構成を採る。

この構成によれば、符号化された音声信号とピッチピーク位置情報とをセットで送出することができる。従って、この多重化された情報を受け取った復号器側においては、これらを分離することにより、符号化された音声信号及びピッチピーク位置情報を得ることができる。

本発明の第４の態様は、音声符号化装置が、上記構成において、前記ピッチピーク位置情報送出手段は、前記符号化部によって符号化された情報の一部を、前記検出されたピッチピーク位置情報に置き換えて送出する構成を採る。

この構成によれば、符号化された音源信号のピッチピーク位置情報を送出するため、受信器側で復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。また、前記ピッチピーク位置情報を、ＬＰＣ符号化情報の誤り感度の低い部分の代わりに伝送する構成とすることで、ビットレートの増加を伴わず、かつ、復号音声の品質劣化を抑えることが可能である。

本発明の第５の態様は、音声符号化装置が、上記構成において、前記ピッチピーク位置検出手段は、音声信号のフレーム内の最も後ろに位置するピッチピーク位置を前記ピッチピーク位置情報として検出する構成を採る。

この構成によれば、復号器側で復号した音源信号においてフレーム内の最後尾のピッチピーク位置と受信したピッチピーク位置とを比較することによって復号している音源信号（適応符号帳の内容）が正しいかどうか確認することが可能となる。また、前記音源信号（適応符号帳の内容）が正しくない場合、受信したピッチピーク位置に、復号している音源信号（適応符号帳）のピッチピーク位置を合わせることによって、音源信号（適応符号帳の内容）を修正することが可能となる。

本発明の第６の態様は、音声符号化装置が、上記構成において、前フレームにおいて検出されたピッチピーク位置情報を、現フレームにおける符号化情報とともに多重化及び伝送する構成を採る。

この構成によれば、前フレームが消失フレームであった場合において、復号器が前フレームのフレーム消失補償によって生成した音源信号（適応符号帳）の妥当性を復号器側で確認することを可能とする。

本発明の第７の態様は、音声符号化装置が、上記構成において、次フレームにおいて検出されたピッチピーク位置情報を、現フレームにおける符号化情報とともに多重化及び送出する構成を採る。

この構成によれば、現フレームが消失フレームであった場合に、復号器が前フレームで受信したピッチピーク位置情報を利用して、より精度の良いフレーム消失補償処理を行うことを可能とする。

本発明の第８の態様は、音声復号化装置が、符号化された音声信号を復号化する音声信号復号化手段と、前記音声信号のピッチピーク位置を表す情報に基づいて、前記音声信号に消失フレームが存在する場合の当該消失フレームに起因する品質劣化の補償処理を行う補償手段と、を具備する構成を取る。

この構成によれば、消失フレームに起因する品質劣化の補償として、消失フレームそのものの補償や消失フレーム後のフレームの補償を、ピッチピーク位置情報に基づいて行うことができる。特に、音声信号においては、ピッチピーク位置を合わせることによって、消失フレームの補償処理や、消失フレームに続くフレームのピッチのずれを回避した補償を行うことが可能となり、品質劣化を低減することができる。

本発明の第９の態様は、音声復号化装置が、上記構成において、前記音声信号復号化手段は、線形予測係数の復号処理を行う線形予測係数復号部と、復号された線形予測係数によって構成される線形予測フィルタと、復号された利得パラメータに基づいて適応符号帳及び固定符号帳の各利得を制御するとともに当該制御された適応符号帳及び固定符号帳の内容に基づいて前記線形予測フィルタを駆動する音源復号化部と、を含むＣＥＬＰ型音声復号化手段である構成を採る。

この構成によれば、正しいピッチピーク位置となるように適応符号帳を生成することが可能であるので、フレーム消失後の正常フレームにおける符号器側と復号器側との適応符号帳の内容の不一致を低減することが可能となる。

本発明の第１０の態様は、音声復号化装置が、上記構成において、前記ピッチピーク位置情報は前記符号化された音声信号に多重化されており、前記多重化されたピッチピーク位置情報を前記符号化された音声信号から分離する分離手段を具備する構成を採る。

本発明の第１１の態様は、音声復号化装置が、上記構成において、前記符号化された音声信号の一部は、前記ピッチピーク位置情報に置き換えられており、前記置き換えられたピッチピーク位置情報を前記符号化された音声信号から分離する分離手段を具備する構成を採る。

これらの構成によれば、ピッチピーク位置情報を、ＬＰＣ符号化情報の誤り感度の低い部分の代わりに伝送するシステムに音声復号化装置を適用することができるので、ビットレートの増加を伴わず、かつ、復号音声の品質劣化を抑えることが可能である。

本発明の第１２の態様は、音声復号化装置が、上記構成において、前記音声信号復号化手段は、線形予測係数の復号処理を行う線形予測係数復号部と、復号された線形予測係数によって構成される線形予測フィルタと、復号された利得パラメータに基づいて適応符号帳及び固定符号帳の各利得を制御するとともに当該制御された適応符号帳及び固定符号帳の内容に基づいて前記線形予測フィルタを駆動する音源復号化部と、を含むＣＥＬＰ型音声復号化手段であり、前記補償手段は、前記音声信号復号化手段が復号する音声信号のうち、現在フレームの直前のフレームが消失フレームであった場合に、前記ピッチピーク位置情報に基づいて、前記適応符号帳の内容を修正する構成を採る。

この構成によれば、直前のフレームにおけるピッチピークの位置を正確に適応符号帳に反映させることが出来るので、フレーム消失後の正常フレームにおける符号器側と復号器側の適応符号帳の内容の不一致を軽減することが可能となる。

本発明の第１３の態様は、音声復号化装置が、上記構成において、前記音声信号復号化手段は、直前フレームにおいて受信した符号化パラメータの復号処理を現在フレームにおいて行うものであり、前記補償手段は、前記直前フレームが消失フレームであった場合に、現在フレームにおいて受信したピッチピーク位置情報を用いて前記消失フレームの補償処理を行う構成を採る。

この構成によれば、消失フレームのピッチピーク位置情報と後続正常フレームの復号情報と直前正常フレームの復号情報とを用いてフレーム消失補償を行うので、より精度の良いフレーム消失補償処理を行うことが可能となる。

本発明の第１４の態様は、音声復号化装置が、上記構成において、前記補償手段は、前記音声信号復号化手段が復号する音声信号のうち、現在フレームが消失フレームであった場合に、その直前フレームにおいて受信したピッチピーク位置情報を用いて、前記消失フレームの補償処理を行う構成を採る。

この構成によれば、フレーム消失が発生した際、直前の正常フレームにおいて受信したピッチピーク位置情報を利用できるので、より精度の良いフレーム消失補償処理が可能となり、正しいピッチピーク位置となるように音源信号（適応符号帳）を生成することが可能であるので、フレーム消失後の正常フレームにおける符号器側と復号器側との適応符号帳の内容の不一致を低減することが可能となる。特に、音声符号化装置において、次フレームにおいて検出されたピッチピーク位置情報を現在フレームにおける符号化情報（符号化された音声信号）とともに伝送されている場合には、消失フレームのピッチピーク位置情報を直前の正常フレームにおいて受信することができ、消失フレームの補償処理をその消失フレームそのもののピッチピーク位置情報に基づいて行うことができる。

本発明の第１５の態様は、移動局装置が、入力音声信号を符号化する音声信号符号化部と、前記符号化された音声信号を所定のデータ単位で送信する音声信号送信手段と、前記送信される音声信号のピッチピーク位置を検出するピッチピーク位置検出手段と、前記検出されたピッチピーク位置を表す情報を前記符号化された音声信号とともに送信するピッチピーク位置情報送信手段と、を具備し、基地局装置との間で無線通信を行う構成を採る。

この構成によれば、従来の音源符号化情報に加えて、符号化された音源信号のピッチピーク位置を情報として送出するため、基地局側は復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。

本発明の第１６の態様は、移動局装置が、受信した符号化音声信号を復号化する音声信号復号化手段と、前記音声信号のピッチピーク位置を表す情報に基づいて、前記受信した音声信号に消失フレームが存在する場合の当該消失フレームに起因する品質劣化の補償処理を行う補償手段と、を具備し、基地局装置との間で無線通信を行う構成を採る。

本発明の第１７の態様は、基地局装置が、入力音声信号を符号化する音声信号符号化部と、前記符号化された音声信号を所定のデータ単位で送信する音声信号送信手段と、前記送信される音声信号のピッチピーク位置を検出するピッチピーク位置検出手段と、前記検出されたピッチピーク位置を表す情報を前記符号化された音声信号とともに送信するピッチピーク位置情報送信手段と、を具備し、移動局装置との間で無線通信を行う構成を採る。

この構成によれば、従来の音源符号化情報に加えて、符号化された音源信号のピッチピーク位置を情報として送出するため、移動局側は復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。

本発明の第１８の態様は、基地局装置が、受信した符号化音声信号を復号化する音声信号復号化手段と、前記音声信号のピッチピーク位置を表す情報に基づいて、前記受信した音声信号に消失フレームが存在する場合の当該消失フレームに起因する品質劣化の補償処理を行う補償手段と、を具備し、移動局装置との間で無線通信を行う構成を採る。

本発明の第１９の態様は、音声信号伝送方法が、入力音声信号を符号化する音声信号符号化工程と、前記符号化された音声信号を所定のデータ単位で送出する音声信号送出工程と、前記送出される音声信号のピッチピーク位置を検出するピッチピーク位置検出工程と、前記検出されたピッチピーク位置を表す情報を前記符号化された音声信号とともに送出するピッチピーク位置情報送出工程と、前記符号化された音声信号を復号化する音声信号復号化工程と、前記音声信号のピッチピーク位置を表す情報に基づいて、前記音声信号に消失フレームが存在する場合の当該消失フレームに起因する品質劣化の補償処理を行う補償工程と、を具備するようにした。

この方法によれば、従来の音源符号化情報に加えて、符号化された音源信号のピッチピーク位置を情報として送出するため、受信器側は復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。また、消失フレームに起因する品質劣化の補償として、消失フレームそのものの補償や消失フレーム後のフレームの補償を、ピッチピーク位置情報に基づいて行うことができる。特に、音声信号においては、ピッチピーク位置を合わせることによって、消失フレームの補償処理や、消失フレームに続くフレームのピッチのずれを回避した補償を行うことが可能となり、品質劣化を低減することができる。

本発明の第２０の態様は、プログラムが、入力音声信号を符号化する音声信号符号化工程と、前記符号化された音声信号を所定のデータ単位で送出する音声信号送出工程と、前記送出される音声信号のピッチピーク位置を検出するピッチピーク位置検出工程と、前記検出されたピッチピーク位置を表す情報を前記符号化された音声信号とともに送出するピッチピーク位置情報送出工程と、を音声符号化装置に実行させるようにする。

このプログラムによれば、従来の音源符号化情報に加えて、符号化された音源信号のピッチピーク位置を情報として送出するため、受信器側は復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。

本発明の第２１の態様は、プログラムが、符号化された音声信号を復号化する音声信号復号化工程と、前記音声信号のピッチピーク位置を表す情報に基づいて、前記音声信号に消失フレームが存在する場合の当該消失フレームに起因する品質劣化の補償処理を行う補償工程と、を音声復号化装置に実行させるようにする。

このプログラムによれば、消失フレームに起因する品質劣化の補償として、消失フレームそのものの補償や消失フレーム後のフレームの補償を、ピッチピーク位置情報に基づいて行うことができる。特に、音声信号においては、ピッチピーク位置を合わせることによって、消失フレームの補償処理や、消失フレームに続くフレームのピッチのずれを回避した補償を行うことが可能となり、品質劣化を低減することができる。

以下、本発明の実施の形態について、図面を参照して詳細に説明する。

（実施の形態１）
図１は、本発明の実施の形態１に係る音声信号伝送システムの構成を示すブロック図である。

音声信号伝送システムは、音声信号送信装置１００及び音声信号受信装置１９９を具備している。

音声信号送信装置１００は、入力装置１０２、Ａ／Ｄ変換装置１０３、音声符号化装置１０４、信号処理装置１０５、ＲＦ変調装置１０６、送信装置１０７及びアンテナ１０８を有している。Ａ／Ｄ変換装置１０３は入力装置１０２に接続されている。

音声符号化装置１０４の入力端子はＡ／Ｄ変換装置１０３の出力端子に接続されている。信号処理装置１０５の入力端子は、音声符号化装置１０４の出力端子に接続されている。ＲＦ変調装置１０６の入力端子は信号処理装置１０５の出力端子に接続されている。送信装置１０７の入力端子はＲＦ変調装置１０６の出力端子に接続されている。アンテナ１０８は、送信装置１０７の出力端子に接続されている。

入力装置１０２は、音声信号を受けてこれを電気信号であるアナログ音声信号に変換し、Ａ／Ｄ変換装置１０３に与える。Ａ／Ｄ変換装置１０３は、入力装置１０２からのアナログの音声信号をディジタル音声信号に変換し、これを音声符号化装置１０４に与える。音声符号化装置１０４は、Ａ／Ｄ変換装置１０３からのディジタル音声信号を符号化して音声符号化情報を生成し信号処理装置１０５に与える。

信号処理装置１０５は、音声符号化装置１０４からの音声符号化情報にチャネル符号化処理、パケット化処理及び送信バッファ処理等を行った後、その音声符号化情報をＲＦ変調装置１０６に与える。ＲＦ変調装置１０６は、信号処理装置１０５からの音声符号化信号を変調して送信装置１０７に与える。送信装置１０７は、ＲＦ変調装置１０６からの音声符号化信号をアンテナ１０８を介して電波（ＲＦ信号）として送信する。

音声信号送信装置１００においては、Ａ／Ｄ変換装置１０３を介して得られるディジタル音声信号に対して数十ｍｓのフレーム単位で処理が行われ、１フレーム又は数フレームの符号化データを１つのパケットに入れこのパケットをパケット網に送出する。本実施の形態では、伝送遅延を最小限にするために、１フレームを１パケットで伝送することを想定している。したがって、パケット損失はフレーム消失に相当する。

なお、本発明はパケット交換網に限らず、回線交換網にも適用可能で、その場合は、パケット化処理、ジッタ吸収バッファリング処理及びパケット組みたて処理は不要である。

音声信号受信装置１９９は、アンテナ１１０、受信装置１１１、ＲＦ復調装置１１２、信号処理装置１１３、音声復号化装置１１４、Ｄ／Ａ変換装置１１５及び出力装置１１６を有している。受信装置１１１の入力端子は、アンテナ１１０に接続されている。ＲＦ復調装置１１２の入力端子は、受信装置１１１の出力端子に接続されている。信号処理装置１１３の入力端子は、ＲＦ復調装置１１２の出力端子に接続されている。音声復号化装置１１４の２つの入力端子は、信号処理装置１１３の２つの出力端子に一対一接続されている。Ｄ／Ａ変換装置１１５の入力端子は、音声復号化装置１１４の出力端子に接続されている。出力装置１１６の入力端子は、Ｄ／Ａ変換装置１１５の出力端子に接続されている。

受信装置１１１は、アンテナ１１０を介して音声符号化情報である電波（ＲＦ信号）を受けてアナログの電気信号である受信音声信号を生成し、これをＲＦ復調装置１１２に与える。アンテナ１１０を介して受けた電波（ＲＦ信号）は、伝送路において信号の減衰や雑音の重畳がなければ、音声信号送信装置１００において送信された電波（ＲＦ信号）と全く同じものとなる。

ＲＦ復調装置１１２は、受信装置１１１からの受信音声信号を復調し信号処理装置１１３に与える。信号処理装置１１３は、ＲＦ復調装置１１２からの受信音声信号のジッタ吸収バッファリング処理、パケット組みたて処理、パケット消失検出処理、多重分離処理及びチャネル復号化処理等を行って受信音声信号とパケット消失情報とをそれぞれ音声復号化装置１１４に与える。

音声復号化装置１１４は、信号処理装置１１３からの受信音声信号を復号化して復号音声信号を生成しＤ／Ａ変換装置１１５に与える。Ｄ／Ａ変換装置１１５は、音声復号化装置１１４からのディジタル復号音声信号をアナログ復号音声信号に変換して出力装置１１６に与える。出力装置１１６は、Ｄ／Ａ変換装置１１５からのアナログ復号音声信号を空気の振動に変換し音波として人間の耳に聴こえるように出力する。

次に、音声符号化装置１０４について図１、図２及び図３を参照して詳細に説明する。図２は音声符号化装置１０４の構成を示すブロック図である。図３は、ピッチピーク位置検出部の動作を説明するための模式図である。

図１に示すように、音声符号化装置１０４は、ピッチピーク位置検出部１５１、多重化部１５２、音声符号化部１５３及び１フレーム遅延部１５４を有している。音声符号化部１５３の入力端子は、Ａ／Ｄ変換装置１０３の出力端子に接続されている。ピッチピーク位置検出部１５１の入力端子は、音声符号化部１５３の２つの出力端子のうちの一方に接続されている。１フレーム遅延部１５４の入力端子は音声符号化部１５３の２つの出力端子のうちのもう一方に接続されている。多重化部１５２は、ピッチピーク位置検出部１５１及び１フレーム遅延部１５４の出力端子と信号処理装置１０５の入力端子との間に接続されている。

音声符号化部１５３は、Ａ／Ｄ変換装置１０３から入力したディジタル音声信号の符号化処理を行い、符号化パラメータ情報を１フレーム遅延部１５４へ出力する。同時に、音声符号化部１５３は、後述するピッチパラメータ（量子化ピッチ周期）と適応符号帳に保持されている音源信号とをピッチピーク位置検出部１５１へ出力する。ピッチピーク位置検出部１５１は、ピッチパラメータである量子化ピッチ周期情報と過去の音源信号系列とを用いて、過去１ピッチ周期長の音源信号におけるピッチピーク位置を検出し、多重化部１５２へ出力する。

なお、ピッチピーク位置は現在のフレームの最後尾から過去に１ピッチ周期分だけさかのぼった範囲の中に存在する、フレーム最後尾に最も近いものとする。したがって、１フレームが複数のサブフレームに分割されている場合は、最後のサブフレームにおいてピッチピーク位置検出を行う。また、ピッチ周期が長く、現フレーム中にピッチピークが存在しない場合でも、現フレーム末尾の点から１ピッチ周期の範囲内でピッチピーク位置を探索して直前フレーム区間にあるピッチピーク位置を検出することとする。

多重化部１５２は、ピッチピーク位置検出部１５１によって検出された現フレームにおけるピッチピーク位置情報と、１フレーム遅延部１５４から出力される前フレームにおける音声符号化情報とを多重化し、信号処理装置１０５へ出力する。

次に、音声符号化部１５３について、図２を用いてより詳細に説明する。音声符号化部１５３は、図２に示されるように、前処理部２０１、線形予測係数を求める線形予測分析器２０２、線形予測係数の量子化及び符号化を行うＬＰＣ量子化器２０３、聴覚重みフィルタ２０４、聴覚重みフィルタ２０５、量子化された線形予測係数によって構成される線形予測フィルタとしてのＬＰＣ合成フィルタ２０６、加算器２０７、適応符号帳２０８、乗算器２０９、固定符号帳２１０、乗算器２１１、利得量子化器２１２、加算器２１３、音源パラメータ決定部２１４および符号化部２１５とを有している。適応符号帳２０８、固定符号帳２１０及び利得量子化器２１２によって音源符号化部が構成され、この音源符号化部によってＬＰＣ合成フィルタ２０６が駆動される。

前処理部２０１は、Ａ／Ｄ変換装置１０３（図１）からディジタル音声信号を入力し、背景雑音抑圧処理やプリエンファシス処理のように音声の品質を改善するための処理やＤＣ成分をカットするためのハイパスフィルタ処理などを行って線形予測分析器２０２と聴覚重みフィルタ２０４とに出力する。線形予測分析器２０２は、前処理部２０１から入力した前処理後のディジタル音声信号の線形予測分析を行って線形予測係数を算出し、ＬＰＣ量子化器２０３と聴覚重みフィルタ２０４と聴覚重みフィルタ２０５とにそれぞれ出力する。

ＬＰＣ量子化器２０３は、線形予測分析器２０２から入力した線形予測係数の量子化・符号化処理を行い、量子化した線形予測係数をＬＰＣ合成フィルタ２０６に出力するとともに符号化結果をパラメータLとして出力する。パラメータLは符号化部２１５に入力され、他の符号化音源パラメータとともにまとめて符号化される。聴覚重みフィルタ２０４と聴覚重みフィルタ２０５は、線形予測分析器２０２によって算出された線形予測係数を用いたＡＲＭＡ型のディジタルフィルタで、後述する音声符号化部による量子化誤差に対して人間の聴覚特性に合わせた重み付けをするためのものであり、２つの聴覚重みフィルタ２０４及び２０５は同じフィルタ特性を有する。

聴覚重みフィルタ２０４は、前処理部２０１から前処理後のディジタル音声信号を入力し、聴覚重み付けをするＡＲＭＡフィルタ処理を行って加算器２１３へ出力する。聴覚重みフィルタ２０５は、ＬＰＣ合成フィルタ２０６によって合成されたディジタル音声信号を入力し、同じ聴覚重み付けをするＡＲＭＡフィルタ処理を行って加算器２１３へ出力する。

ＬＰＣ合成フィルタ２０６は、ＬＰＣ量子化器２０３によって量子化された線形予測係数を用いて構成されるＡＲ型のディジタルフィルタであり、加算器２０７から出力された音源信号を用いて合成音声信号を生成し、聴覚重みフィルタ２０５へ出力する。加算器２０７は、適応符号帳２０８から乗算器２０９を介して入力した適応符号帳ベクトルと、固定符号帳２１０から乗算器２１１を介して入力した固定符号帳ベクトルとのベクトル加算を行って、音源ベクトルを生成し、ＬＰＣ合成フィルタ２０６へ出力する。また、生成した音源ベクトルは、適応符号帳２０８へフィードバックされて、適応符号帳２０８の内容が更新される。更新後の適応符号帳の音源信号バッファは、ピッチピーク位置検出部１５１へ出力される。

適応符号帳２０８は、加算器２０７によって過去に生成された音源ベクトルを蓄積・保持しているメモリであり、加算器２０７から出力された音源ベクトルによって逐次更新される。また、適応符号帳２０８は、適正な位置からベクトルを切り出して乗算器２０９へ出力する。有声信号の場合、音源信号が周期性を有することから、過去に生成した音源信号を利用して効率的に音源信号を符号化することができることから、このような適応符号帳が一般に用いられる。適応符号帳ベクトルの切りだし位置はピッチパラメータPによって決定される。ピッチパラメータPは、音源パラメータ決定部によって決定される。

固定符号帳２１０は、雑音系列や少数のパルスの組み合わせなどによって任意のベクトルを生成するもので、予め定められた数のベクトルを格納もしくは生成できるようになっており、各ベクトルには固有の番号が振られており、その番号を指定することで対応する形状の固定符号帳ベクトルが生成される。番号は固定符号帳インデックスCとして、音源パラメータ決定部２１４で決定される。

なお、図２では示していないが、固定符号帳は複数のチャンネルや複数のサブセットから構成されていたり、固定符号帳ベクトルに対してピッチ周期化処理が行われたりすることが一般的である。

乗算器２０９は、利得量子化器２１２によって量子化された適応符号帳利得（ピッチ利得）を、適応符号帳２０８から出力されたベクトルに乗じて加算器２０７へ出力する。乗算器２１１は、利得量子化器２１２によって量子化された固定符号帳利得を固定符号帳２１０から出力されたベクトルに乗じて加算器２０７へ出力する。

利得量子化器２１２は、音源利得パラメータGで示される量子化適応符号帳利得および量子化固定符号帳利得をそれぞれ乗算器２０９及び２１１へ出力する。音源利得パラメータＧは音源パラメータ決定部２１４で決定される。音源パラメータ決定部２１４は、加算器２１３から出力される、聴覚重みフィルタ２０４によって聴覚重み付けされた入力音声信号と聴覚重みフィルタ２０５によって聴覚重み付けされたＬＰＣ合成フィルタ２０６の合成音声信号との出力の誤差を最小化するように、適応符号帳パラメータPと固定符号帳パラメータCと利得パラメータGを決定する。

加算器２１３は、聴覚重みフィルタ２０５からの出力ベクトルと聴覚重みフィルタ２０４からの出力ベクトルとの差分ベクトルを算出して音源パラメータ決定部２１４へ出力する。音源パラメータ決定部によって決定された適応符号帳パラメータPと固定符号帳パラメータCと利得符号帳パラメータGと、ＬＰＣ量子化器２０３によって符号化された線形予測パラメータLとは、符号化部２１５により一括して一つの符号としてまとめられ、１フレーム遅延部１５４へ出力される。１フレーム遅延部１５４は、符号化部２１５より入力した音声符号化情報を１フレームの時間だけ保持した後、多重化部１５２へ出力する。

次に、ピッチピーク位置検出部１５１の動作について、図３を参照してより詳細に説明する。

図３に示すように、ピッチピーク位置検出部１５１は、ピッチパラメータPと、最新の適応符号帳の内容（過去に生成した音源信号系列）を少なくとも１ピッチ周期長以上を入力し、最も時間的に後ろにあるピッチピーク位置を検出する。ピッチピーク位置の検出法の最も単純なものは、適応符号帳の末尾（最新のサンプル：図３は１１０１）から過去に１ピッチ周期Pまでさかのぼる間において、絶対値が最大となるサンプル（図３は１１０２）をピッチピーク位置として検出する方法である。なお、現在の入力音声信号にピッチ周期性がない場合（無声部や雑音部である場合）には、ピッチピーク位置を無理に設定せず、ピッチ周期性がない区間であることを示すコードを別途割り当てて、その情報をピッチピーク位置情報として出力する。

次に、音声復号化装置１１４について図１、図４、図５〜図７を参照して詳細に説明する。図４は送信パケットの略線図、図５は音声復号化装置１１４の構成を示すブロック図、図６〜図８はフレーム消失補償処理を説明するための概念図である。

図１に示すように、音声復号化装置１１４は、多重分離部１５５、音声復号化部１５６、１フレーム遅延部１５７及びフレーム消失補償部１５８を有している。

多重分離部１５５の入力端子は信号処理装置１１３の２つの出力端子の一方に接続されている。音声復号化部１５６は３つの入力端子を持ち、第１の入力端子は多重分離部１５５の１つの出力端子に、第２の入力端子は信号処理装置１１３の１つの出力端子に、第３の入力端子はフレーム消失補償部１５８に、それぞれ接続されている。また、音声復号化部１５６は２つの出力端子をもち、一方はフレーム消失補償部１５８の２つの入力端子の一方に接続されており、他方はＤ／Ａ変換装置１１５へ接続されている。１フレーム遅延部１５７の入力端子は、多重分離部１５５の出力端子の一つに接続されている。フレーム消失補償部１５８は２つの入力端子をもち、一方は１フレーム遅延部１５７の出力端子に接続されており、他方は音声復号化部１５６の１つの出力端子に接続されている。

多重分離部１５５は、信号処理装置１１３から入力した多重化情報を、音声符号化情報とピッチピーク位置情報とに分離し、音声復号化部１５６と１フレーム遅延部１５７とにそれぞれ出力する。また、信号処理装置１１３は、フレーム消失情報を音声復号化部１５６へ出力する。音声復号化部１５６は、多重分離部１５５から入力した音声符号化情報を用いて復号処理を行い、復号音声信号をＤ／Ａ変換装置１１５へ出力する。また、フレーム消失補償処理において更新が必要なパラメータをフレーム消失補償部１５８へ出力する。

なお、音声復号化部１５６において、信号処理装置１１３から出力されたフレーム消失補償情報が「現在のフレームは消失している」ことを示す場合は、多重分離部１５５からの情報が入力されないので、フレーム消失補償部１５８から入力されるパラメータ情報を用いて音声信号を生成し、Ｄ／Ａ変換装置１１５へ出力する。このときもフレーム消失補償処理において更新が必要なパラメータはフレーム消失補償部１５８へ出力される。１フレーム遅延部１５７は、多重分離部１５５より入力したピッチピーク位置情報を１フレーム分の時間だけ保持してからフレーム消失補償部１５８へ出力する。フレーム消失補償部１５８は、１フレーム遅延部１５７から出力された、現フレーム（１フレーム前に送られてきているピッチピーク位置情報は、１フレーム前において１フレーム先のピッチピーク位置情報なので、現フレームのピッチピーク位置情報である）におけるピッチピーク位置情報を入力し、現フレームにおけるピッチピーク位置が入力されたピッチピーク位置情報で示される位置に合うようにフレーム消失補償処理を行う。フレーム消失補償処理は、１フレーム遅延部１５７から入力した現フレームの最後尾ピッチピーク位置と、音声復号化部１５６から入力した前フレームまでに復号している音声符号化パラメータとを用いて行われる。

因みに、音声復号化装置１１４において、１フレーム遅延部１５７から出力されたピッチピーク位置情報が、現フレームにおけるピッチピーク位置である理由を図４を参照しながら説明する。

図４は、音声符号化装置１０４において符号化された各フレームの音声符号化情報とピッチピーク位置情報とをパケット化して送信する際の説明に供する略線図である。図４に示すように、音声符号化装置１０４では、符号化されてなる音声符号化情報を１フレーム分遅延させるとともに、ピッチピーク位置情報は遅延させることなく、多重化している。

従って、図４において、例えばフレームｆ２のピッチピーク位置情報１００１ｐは、遅延なく第１のパケット１００１によって送信されるのに対して、そのフレームｆ２の音声符号化情報１００２ａは１フレーム遅延し、次のフレームｆ３のピッチピーク位置情報１００２ｐとともにパケット１００２によって送信される。

このようにして音声符号化装置１０４（音声信号送信装置１００）から送信されたパケット化された音声符号化情報及びピッチピーク位置情報は、音声信号受信装置１９９の音声復号化部１５６において復号される。この場合、例えばパケット１００１によって送信された、フレームｆ２のピッチピーク位置情報１００１ｐは、送信側で１フレーム遅延されて送信されたフレームｆ２の音声符号化情報１００２ａがパケット１００２によって到来するのを待って処理される。

次に、音声復号化部１５６について、図５を参照してより詳細に説明する。音声復号化部１５６は、図５に示されるように、パラメータ復号部３０１、利得復号器３０２、切り替えスイッチ３０３、適応符号帳３０４、固定符号帳３０５、線形予測係数の復号処理を行うＬＰＣ復号器３０６、乗算器３０７、乗算器３０８、加算器３０９、ＬＰＣ復号器３０６において復号された線形予測係数によって構成される線形予測フィルタであるＬＰＣ合成フィルタ３１０及び後処理部３１１を有する。適応符号帳３０４、固定符号帳３０５及び利得復号器３０２によって音源復号部が構成され、この音源復号部によってＬＰＣ合成フィルタ３１０を駆動する。

パラメータ復号器３０１の入力端子は多重分離部１５５の出力端子の１つに接続されている。利得復号器３０２の入力端子はパラメータ復号部３０１の出力端子の一つに接続されている。ＬＰＣ復号器３０６の入力端子はパラメータ復号部３０１の出力端子の一つに接続されている。切り替えスイッチ３０３の入力端子はパラメータ復号部３０１の出力端子と利得復号器の出力端子とＬＰＣ復号器３０６の出力端子とフレーム消失補償部の出力端子にそれぞれ接続されている。また、切り替えスイッチ３０３のフレーム消失情報を受信する端子が、信号処理装置１１３（図１）に接続されている。適応符号帳３０４の入力端子は、スイッチ３０３の出力端子と加算器３０９の出力端子に接続されている。

固定符号帳３０５の入力端子は、切り替えスイッチ３０３の出力端子に接続している。乗算器３０７の２つの入力端子は、一方が適応符号帳３０４の出力端子に、他方が切り替えスイッチ３０３の出力端子にそれぞれ接続している。乗算器３０８の２つの入力端子は、一方が固定符号帳３０５に、他方が切り替えスイッチ３０３の出力端子に、それぞれ接続している。加算器３０９の２つの入力端子は、一方が乗算器３０７の出力端子に、他方が乗算器３０８の出力端子に、それぞれ接続されている。ＬＰＣ合成フィルタ３１０の２つの入力端子は、一方が加算器３０９に、他方が切り替えスイッチ３０３に、それぞれ接続している。後処理部３１１の入力端子は、ＬＰＣ合成フィルタ３１０の出力端子に接続しており、ディジタル復号音声信号をＤ／Ａ変換装置１１５へ出力する。

パラメータ復号部３０１は、多重分離部１５５から入力した音声符号化情報（ビットストリーム）から音声符号化パラメータ（ピッチ（適応符号帳）パラメータP、固定符号帳パラメータC、線形予測パラメータL、利得パラメータG）を復号し、利得パラメータGを利得復号器３０２へ、線形予測係数パラメータLをＬＰＣ復号器３０６へ、その他のパラメータを切り替えスイッチ３０３へそれぞれ出力する。

利得復号器３０２は、パラメータ復号部３０１から入力した利得パラメータGから適応符号帳利得Gpと固定符号帳利得Gcをそれぞれ復号し、切り替えスイッチ３０３へ出力する。ＬＰＣ復号器３０６は、パラメータ復号部３０１から入力した線形予測係数パラメータLから復号量子化線形予測係数αを復号し、切り替えスイッチ３０３へ出力する。切り替えスイッチ３０３は、パラメータ復号器３０１、利得復号器３０２およびＬＰＣ復号器３０６から入力されるパラメータ群と、フレーム消失補償部１５８から入力されるパラメータ群との切替を行うためのスイッチで、信号処理装置１１３（図１）から受信したフレーム消失情報が「現フレームは消失フレームである」を示す場合にはフレーム消失補償処理部１５８が生成したパラメータ側にスイッチが切り替わり、それ以外の場合はパラメータ復号部３０１、利得復号器３０２およびＬＰＣ復号器３０６から出力されるパラメータ側にスイッチが接続される。

切り替えスイッチ３０３は、適応符号帳パラメータ（ピッチ）PまたはP’を適応符号帳３０４へ、適応符号帳利得GpまたはGp’を乗算器３０７へ、固定符号帳パラメータCまたはC’を固定符号帳３０５へ、固定符号帳利得GcまたはGc’を乗算器３０８へ、復号量子化線形予測係数αまたはα’をＬＰＣ復号器３０６へ、それぞれ出力する。また、切り替えスイッチ３０３は、適応符号帳３０４、固定符号帳３０５、乗算器３０７、乗算器３０８、ＬＰＣ合成フィルタ３１０へ出力した各パラメータをフレーム消失補償部１５８にも同時に出力する。

適応符号帳３０４は、過去に生成された音源信号をバッファリングしており、加算器３０９から最新の音源信号が入力されるたびに更新される。適応符号帳３０４のバッファリングしている信号長は、最大ピッチ周期長＋フレーム長以上である。切り替えスイッチ３０３から入力した適応符号帳パラメータ（ピッチ）PまたはP’によって指定される位置から適応符号帳ベクトルを切り出して乗算器３０７へ出力するとともに、１フレーム前以前の音源信号をフレーム消失補償処理部１５８へ出力する。乗算器３０７は、適応符号帳３０４から出力された適応符号ベクトルに、切り替えスイッチ３０３から入力した適応符号帳利得GpまたはGp’を乗じて加算器３０９へ出力する。

固定符号帳３０５は、切り替えスイッチ３０３から入力した固定符号帳パラメータCまたはC’によって指定される固定符号帳ベクトルを生成し、乗算器３０８へ出力する。乗算器３０８は、固定符号帳３０５から入力した固定符号帳ベクトルに、切り替えスイッチ３０３から入力した固定符号帳利得GcまたはGc’を乗じて加算器３０９へ出力する。加算器３０９は、乗算器３０７から入力した適応符号帳ベクトルと、乗算器３０８から入力した固定符号帳ベクトルとを加算し、ＬＰＣ合成フィルタ３１０および適応符号帳３０４へ出力する。

ＬＰＣ復号器３０６は、パラメータ復号部３０１によって復号された線形予測パラメータＬから復号量子化線形予測係数αを切り替えスイッチ３０３に出力する。ＬＰＣ合成フィルタ３１０は、切り替えスイッチ３０３から入力した復号量子化線形予測係数αまたはα’によって構成されるＡＲ型ディジタルフィルタを、加算器３０９より入力する音源信号によって駆動し、合成音声信号を後処理部３１１へ出力する。後処理部３１１は、音声信号の主観品質を改善するためのホルマント強調ポストフィルタ処理、ピッチ強調ポストフィルタ処理、傾斜補正ポストフィルタ処理、及び、背景雑音信号の主観品質を改善するための雑音後処理、を行い、これらの処理が施されたディジタル復号音声信号をＤ／Ａ変換装置１１５へ出力する。

次に、フレーム消失補償部１５８について、図５、図６〜図８を参照しながら詳細を説明する。フレーム消失補償部１５８は、パラメータバッファ３１２、ピッチピーク位置検出器３１３、ピッチ周期算出器３１４及びパラメータ生成部３１５を有する。

パラメータバッファ３１２の入力端子は、音声復号化部１５６内の切り替えスイッチ３０３に接続されている。ピッチピーク位置検出器３１３の２つの入力端子は、一方が音声復号化部の適応符号帳３０４に、他方はパラメータバッファ３１２の出力端子の一つ（ピッチ情報を入力）に、それぞれ接続されている。

ピッチ周期算出器３１４の３つの入力端子は、一つがピッチピーク位置検出器３１３に、もう一つが１フレーム遅延部１５７に、残りの一つがパラメータバッファ３１２の出力端子の一つ（ピッチ情報を入力）に、それぞれ接続されている。パラメータ生成部３１５の６つの入力端子は、５つがパラメータバッファ３１２の５つの出力端子に接続されており、残りの１つがピッチ周期算出器３１４に、それぞれ接続されている。

パラメータバッファ３１２は、過去に音声復号化部１５６において、復号音声を生成するために用いられた各種の音声符号化パラメータを記憶しておくバッファであり、復号した適応符号帳パラメータ（ピッチ）P、雑音符号帳パラメータC、適応符号帳利得Gp、固定符号帳利得Gc、復号量子化線形予測係数αが音声復号化部１５６から入力される。また消失フレームにおいては、パラメータ生成部によって生成されたパラメータ（適応符号帳パラメータ（ピッチ）P’、固定符号帳パラメータC’、適応符号帳利得Gp’、固定符号帳利得Gc’、復号量子化線形予測係数α’）が入力される。

バッファリングされている各種パラメータは、パラメータ生成部３１５へ出力され、消失フレームにおける各種パラメータを生成する際に使用される。ピッチピーク位置検出器３１３は、音声復号化部１５６内の適応符号帳３０４から入力した音源信号と、パラメータバッファ３１２から入力した前フレームのピッチ周期とを用いて、ピッチピーク位置検出部１５１（図１）と同様にしてピッチピーク位置を検出し、ピッチ周期算出器３１４へ出力する。ただし、ピッチピーク位置を探す範囲は直前のフレーム以前において生成された音源信号の部分であり、ピッチピーク位置が存在する範囲は前フレームで生成された音源信号の末尾の点から、前フレームのピッチ周期だけさかのぼった点までである。

ピッチ周期算出器３１４は、ピッチピーク位置検出器３１３から入力した前フレームの最終ピッチピーク位置と、１フレーム遅延部１５７から入力した現フレームの最終ピッチピーク位置（１フレーム遅延部から出力されるのは、１フレーム前に受信したピッチピーク位置情報であり、１フレーム前に送られてきているピッチピーク位置情報は、現在復号している（消失補償処理を行っている）音声フレームに対応するピッチピーク位置情報である）と、パラメータバッファ３１２から入力した前フレームにおける音声復号部で復号されたピッチ周期と、を入力し、現在のピッチ周期を求める。具体的には、（式１）によって現フレームのピッチ周期を決定することが出来る。

Pc = (N(PPc)＋Nf−N(PPp))÷Int[0.5+(N(PPc)＋Nf−N(PPp))/Pp] （式１）
但し、PPcは現フレームにおける最終ピッチピーク位置（１フレーム遅延部１５７から入力した情報によって得られる）、PPpは前フレームにおける最終ピッチピーク位置（ピッチピーク位置検出器３１３から入力した情報によって得られる）、Ppは前フレームにおけるピッチ周期（パラメータバッファ３１２より入力）、N(PPx)はフレームＸにおけるピッチピーク位置PPxをフレームＸの先頭からの距離で表した場合の数値、Nfはフレーム長、をそれぞれ示す。また、Int[]は演算結果を越えない最大の整数を示す。

例えば、図６に示すようなフレーム消失のケースを考える。図６では現フレームが消失し、前フレームのピッチ周期を用いて、前フレームの波形を繰り返す消失補償処理を行った場合を示している。このとき、フレーム消失補償によって生成される現フレームの波形における最終ピッチピーク位置はPPc’である。

ところで、図７のように、実際には現フレームにおいてピッチ周期が短くなっていた場合、実際のピッチピーク位置PPcと図６のようなフレーム消失補償処理を行った場合のピッチピーク位置PPc’との間にずれが生じてしまう。このようなずれは、消失した現フレームのみならず、後続の正常受信フレームにおいて適応符号帳のピッチピーク位置が符号器側と復号器側とでずれてしまうため、復号音声品質の劣化が大きくなる。

しかしながら、消失したフレームにおけるピッチピーク位置情報が前フレームの音声符号化パラメータとともに伝送されていれば、消失した現フレームにおけるピッチピーク位置PPcが合うように、ピッチ周期Pcを（式１）の様にして決定することができる。ピッチの量子化精度によっては、同一ピッチ周期で繰り返してもピッチピーク位置を合わせることが出来ない場合もあるので、（式１）で求められるピッチ周期Pc付近のピッチ量子化値を用いて段階的にピッチ周期Pcを変化させてピッチピーク位置を合わせることも可能である。

なお、ピッチピーク位置におけるピーク値の極性が合わないことが問題になる場合は、極性情報もピッチピーク位置情報として伝送するようにして利用する。

フレーム消失補償部１５８において、このようにしてピッチ周期Pcを求め、そのピッチ周期Pcを用いてフレーム消失補間処理を行った例を図８に示す。フレーム消失がなかった場合の復号信号（破線）に比べて波形レベルでは一致しないものの、ピッチピーク位置を一致させることが出来るので、後続フレームにおける符号器側と復号器側の適応符号帳間不一致の影響を低減することが可能となる。また、ピッチピーク位置情報だけを送るので、ビットレートの増加も少ない。たとえばIETF標準のＲＦC2198(Perkinsら、”RTP Payload for Redundant Audio data”, Sept. 1997)などで規定されているようにプライマリコーデック情報とセカンダリコーデック情報とを伝送するのに比べると、低ビットレートでのFEC(Forward Error Correction:前方誤り訂正)を実現することが可能である。

なお、現フレームのピッチピーク位置情報が「現フレームはピッチ周期性を有していないフレームである」ことを示している場合は、ピッチ周期算出器３１４は、上述のようなピッチ周期の計算は行わず、現フレームがピッチ周期性を有さないフレームであることを示す情報をパラメータ生成部に出力する。

パラメータ生成部３１５は、ピッチ周期算出器３１４で算出されたピッチ周期と、パラメータバッファ３１２から入力した前フレームにおける各種復号パラメータを用いて消失したフレームの音源パラメータを生成する。例えば、ピッチ周期算出器３１４から入力した情報が、「現フレームはピッチ周期性を有さないフレームである」ことを示している場合は、パラメータ生成部３１５は、適応符号帳利得Gp’を0.0とし、ランダムに生成した固定符号帳パラメータC’と前フレームにおいて使用した固定符号帳利得を減衰させた値をGc’として切り替えスイッチ３０３へ出力する。反対に、ピッチ周期算出器３１４から入力した情報が「現フレームはピッチ周期性を有し、そのピッチ周期はPc’である」ことを示している場合は、パラメータ生成部３１５は、ピッチパラメータをPc’に設定し、適応符号帳利得Gp’を前フレームで復号した適応符号帳利得GpやGpを減衰した値（例えば0.9倍した値）や過去に復号したGpの平均的な値などに設定し、固定符号帳利得Gc’を0.0に設定して、切り替えスイッチ３０３へそれぞれ出力する。なお、復号量子化線形予測係数α’としては、前フレームにおける復号量子化線形予測係数が繰り返して使用されたり、又は帯域幅を拡張してスペクトル特性を平坦化したものが使用される。

次に、音声符号化装置１０４および音声復号化装置１１４の動作について、図９及び図１０を参照して説明する。図９は、音声符号化装置１０４の動作を説明するためのフロー図であり、図１０は、音声復号化装置１１４の動作を説明するためのフロー図である。

図９に示すように、音声符号化装置１０４は、まずステップＳＴ１０１において、音声符号化部１５３により１フレーム分のＣＥＬＰ音声符号化処理を行い、次に、ステップＳＴ１０２において、ステップＳＴ１０１にて得られた音声符号化情報を次のフレームの処理が終わるまで１フレーム遅延部１５４によって保存する。

次に、音声符号化装置１０４は、ステップＳＴ１０３において、ピッチピーク位置検出部１５１によって、現フレームにおいて一番後ろにあるピッチピーク位置の検出を行う。

次に、音声符号化装置１０４は、ステップＳＴ１０４において、ステップＳＴ１０２にて保存された前フレームの音声符号化情報（前フレームの音声符号化情報）を１フレーム遅延部１５４から取り出した後、ステップＳＴ１０５に移って、ステップＳＴ１０４において取り出された前フレームの音声符号化情報と、ステップＳＴ１０３にて検出されたピッチピーク位置情報とを多重化部１５２によって多重化し、これを音声符号化装置１０４の出力として出力する。

音声符号化装置１０４は、上述したステップＳＴ１０１〜ステップＳＴ１０５の一連の符号化処理を繰り返す。

続いて音声復号化装置１１４の動作を説明する。図１０に示すように、音声復号化装置１１４は、まず、ステップＳＴ１１０において、現フレームが消失しているかどうかを信号処理装置１１３によって判定する。消失していない場合はステップＳＴ１１１に移り、また、消失している場合はステップＳＴ１１４に移る。

次に、フレーム消失していない場合は、ステップＳＴ１１１において、多重分離部１５５が受信した多重化情報を分離する。

続いて、ステップＳＴ１１２において、音声復号化部１５６内のパラメータ復号部３０１が、分離された音声符号化情報から音声符号化パラメータを復号する。次に、ステップＳＴ１１３において、音声復号化部１５６の残りの部分が、復号された音声符号化パラメータから音声信号を再合成する処理を行い、復号音声信号がＤ／Ａ変換装置１１５へ出力される。

これに対して、ステップＳＴ１１０においてフレームが消失していると判断された場合は、音声復号化装置１１４は、ステップＳＴ１１４に移って、ピッチ周期算出器３１４によって、現フレーム（消失フレーム）がピッチ周期性を有するフレームであるか否かをチェックする。ピッチ周期性があるか否かに関する情報は受信したピッチピーク位置情報に含まれている。音声復号化装置１１４は、ピッチ周期性がある場合はステップＳＴ１１５へ移り、ピッチ周期性がない場合はステップＳＴ１１８へ移る。そして、現フレーム（消失フレーム）がピッチ周期性を有する場合、音声復号化装置１１４は、ステップＳＴ１１５に移って、ピッチピーク位置検出器３１３によって、前フレームのピッチ情報と復号した音源信号とを、パラメータバッファ３１２と適応符号帳３０４から、それぞれ読み出す。

次に、音声復号化装置１１４は、ステップＳＴ１１６に移って、ピッチピーク位置検出器３１３によって、前フレームにおいて最も後ろにあるピッチピーク位置を検出する。なお、パラメータバッファ３１２が、２つ前に受信したピッチピーク位置情報を保持している場合は、その情報を用いて前フレームにおけるピッチピーク位置を得ても良い。

次に、音声復号化装置１１４は、ステップＳＴ１１７に移って、ピッチ周期算出器３１４によって、現フレーム（消失フレーム）のピッチピーク位置と前フレームのピッチピーク位置と前フレームのピッチ周期を用いて、上述の（式１）によってピッチ周期を算出する。

次に、音声復号化装置１１４は、ステップＳＴ１１８に移って、消失したフレームにおける各種音声符号化パラメータをパラメータ生成部３１５によって生成する。

現フレームがピッチ周期性を有するフレームであると判断された場合は、固定符号帳利得をゼロとし、適応符号帳のみを用いて音声信号を生成する。このとき用いるピッチ周期（適応符号帳パラメータ）は、ピッチ周期算出器３１４にて算出されたものを用いる。また、現フレームがピッチ周期性をもたないフレームであると判断された場合は、音声復号化装置１１４は、適応符号帳利得をゼロとし、固定符号帳のみで音声信号を生成する。この場合、固定符号帳パラメータはランダムに決定する。線形予測係数については、現在フレームのピッチ周期性の有無に関らず、前フレームのものを繰り返し利用するか、又は、帯域幅拡張を行いながら次第に白色化したものを用いる。

最後に、音声復号化装置１１４は、ステップＳＴ１１９において、パラメータバッファ３１２の内容を更新して、１フレームの復号処理を終了する。

音声復号化装置１１４は、上記ステップＳＴ１１０〜ステップＳＴ１１９の一連の復号処理を繰り返す。

このように、本実施の形態の音声信号送信装置１００及び音声信号受信装置１９９によれば、少ない冗長情報の追加で、精度良いフレーム消失補償処理が可能となるとともに、ピッチピーク位置が合わせられることにより、ピッチピーク位置のずれが消失フレーム後に伝搬されることを回避することができ、この結果、消失フレーム後の誤り伝播の影響を軽減することができる。

（実施の形態２）
図１１は、本発明の実施の形態２に係る音声信号伝送システムの構成を示すブロック図である。

図１１に示す音声信号伝送システムは、音声信号送信装置４００及び音声信号受信装置４９９を有している。

音声信号送信装置４００は、実施の形態１の音声信号送信装置１００における音声符号化装置１０４を音声符号化装置４０４に置き換えたものである。実施の形態１と同じ構成要素で同じ動作をするものについては、実施の形態１と同一符号を付し、詳しい説明を省略する。

音声符号化装置４０４は、Ａ／Ｄ変換装置１０３からのディジタル音声信号を符号化することにより音声符号化情報を生成し、この生成された音声符号化情報を信号処理装置１０５に与える。

音声信号受信装置４９９は、実施の形態１の音声信号受信装置１９９における音声復号化装置１１４を音声復号化装置４１４に置き換えたものである。実施の形態１と同じ構成要素で同じ動作をするものについては、実施の形態１と同一符号を付し、詳しい説明を省略する。音声復号化装置４１４は、信号処理装置１１３からの受信音声信号を復号化して復号音声信号を生成してＤ／Ａ変換装置１１５に与える。

次に、図１１および図１２を参照して音声符号化装置４０４の詳細について説明する。

図１１および図１２に示した音声符号化装置４０４において、図１および図２に示した実施の形態１の音声符号化装置１０４と同じ動作をする同じ構成要素については、実施の形態１と同一符号を付し、詳しい説明を省略する。

１フレーム遅延部４５２の入力端子は、ピッチピーク位置検出部１５１の出力端子に接続されている。多重化部４５４の２つの入力端子は、一方が１フレーム遅延部４５２の出力端子に、他方が音声符号化部１５３の出力端子に、それぞれ接続されている。

１フレーム遅延部４５２は、ピッチピーク位置検出部１５１から出力された、現フレームにおける最も後ろにあるピッチピーク位置情報を、１フレームの時間だけ保持してから多重化部４５４へ出力する。多重化部４５４は、１フレーム遅延部４５２から入力した１フレーム前における前記ピッチピーク位置情報と、音声符号化部１５３から入力した現フレームの符号化音声情報と、を多重化して一つにまとめた符号化情報としてＤ／Ａ変換装置１１５へ出力する。

すなわち、実施の形態１と実施の形態２との違いは、ピッチピーク位置情報と音声符号化情報のどちらを１フレーム遅延させて多重化させるかの違いである。ピッチピーク位置情報を遅延させるのが実施の形態２であり、音声符号化情報を遅延させるのが実施の形態１である。実施の形態１と実施の形態２の音声符号化装置におけるその他の動作は全て同じである。

因みに、図１３は、音声符号化装置４０４において、符号化された各フレームの音声符号化情報とピッチピーク位置情報とをパケット化して送信する際の説明に供する略線図である。図１３に示すように、音声符号化装置４０４では、ピッチピーク位置情報を１フレーム分遅延させるとともに、音声符号化情報は遅延させることなく、多重化している。

従って、図１３において、例えばフレームｆ２の音声符号化情報２００１ａは、遅延なく第１のパケット２００１によって送信されるのに対して、そのフレームｆ２のピッチピーク位置情報２００２ｐは１フレーム遅延し、次のフレームｆ３の音声符号化情報２００２ａとともにパケット２００２によって送信される。

このようにして音声符号化装置４０４（音声信号送信装置４００）から送信されたパケット化された音声符号化情報及びピッチピーク位置情報は、音声信号受信装置４９９の音声復号化部４５６において復号される。この場合、例えばパケット２００２によって送信された、フレームｆ２のピッチピーク位置情報２００２ｐは、送信側で１フレーム遅延されて送信されていることにより、音声復号化部４５６において復号される際には、前フレームのピッチピーク位置情報となる。音声復号化部４５６では、フレーム消失情報に基づいて現在復号しようとするフレームの音声符号化情報が消失している場合には、前フレームで復号した音声符号化情報を用いて、フレーム消失補償部４５７によって一般的なフレーム消失補償を行う。また、前フレームが消失フレームであった場合は、音声復号化部４５６の１フレーム遅延部６０１（後述）によって、その前フレームにおけるフレーム消失情報を１フレーム分だけ遅延させることにより、消失した前フレームに続く現在フレームにおいて、このフレーム消失情報によって適応符号帳修正器６０３（後述）を動作させる。これにより、前フレームにおいてフレーム消失補償部４５７によって補償されたパラメータに基づいて生成された適応符号帳３０４が修正される。

次に、図１１および図１４を参照して実施の形態２における音声復号化装置４１４について詳細に説明する。

図１４に示した音声復号化装置４１４において、図５に示した実施の形態１の音声復号化装置１１４と同じ動作をする同じ構成要素については、実施の形態１と同一符号を付し、詳しい説明を省略する。

図１４に示すように、音声復号化装置４１４は、多重分離部４５５と、音声復号化部４５６と、フレーム消失補償部４５７とを有する。

多重分離部４５５の入力端子は、信号処理装置１１３の出力端子の一つに接続されている。音声復号化部４５６の８つの入力端子は、多重分離部４５５の２つの出力端子に一つずつと、信号処理装置１１３の一つの出力端子と、フレーム消失補償部４５７の５つの出力端子とにそれぞれ接続されている。フレーム消失補償部４５７の６つの入力端子は、一つが多重分離部４５５の一方の出力端子に接続されており、残りの５つが音声復号化部４５６の５つの出力端子に接続されている。音声復号化部の残り１つの出力端子は、Ｄ／Ａ変換装置１１５へ接続されている。

多重分離部４５５は信号処理装置１１３（図１）から出力される符号化情報から音声符号化パラメータ情報とピッチピーク位置情報とを分離し、双方とも音声復号化部４５６へ出力する。また、多重分離部４５５は、ピッチピーク位置情報（PP）をフレーム消失補償部４５７へも出力する。音声復号化部４５６は、信号処理装置１１３からフレーム消失情報を入力し、復号するフレーム（現フレーム）が消失フレームである場合は、切り替えスイッチ３０３を切り替えることにより、フレーム消失補償部４５７によって生成される音声符号化パラメータを用いて音声信号を合成し、Ｄ／Ａ変換装置１１５へ出力する。復号するフレームが消失フレームでない場合は、多重分離部４５５から出力された音声符号化パラメータを用いて復号処理を行い、音声信号を合成し、Ｄ／Ａ変換装置１１５へ出力する。ただし、前フレームが消失フレームである場合は、多重分離部４５５から出力された（前フレームの）ピッチピーク位置を用いて、前フレームにおいて生成した適応符号帳の内容を修正してから復号化処理を行う。

図１４を参照して、音声復号化部４５６の詳細について説明する。図１４において、音声復号化部４１４が、図５に示した実施の形態１における音声復号化部１１４と異なる部分は、１フレーム遅延部６０１と切り替えスイッチ６０２と適応符号帳修正器６０３とが新たに加わった点である。その他の構成要素については、同じ構成で同じ動作をするため、図５と同一符号を付して詳しい説明を省略する。

１フレーム遅延部６０１の入力端子は信号処理部１１３の出力端子の一つに接続されている。切り替えスイッチ６０２の２つの入力端子は、一方が適応符号帳３０４に、他方が適応符号帳修正器６０３に、それぞれ接続されている。また、切り替えスイッチ６０２には、１フレーム遅延部６０１から、スイッチ切り替えの制御情報が入力されている。適応符号帳修正器６０３の２つの入力端子は、一方が切り替えスイッチ６０２の入力端子の一つに接続されており、他方が多重分離部４５５の出力端子の一つに接続されている。

１フレーム遅延部６０１は、信号処理装置１１３から、フレーム消失情報を入力し、１フレーム時間だけ保持した後、切り替えスイッチ６０２へ出力する。切り替えスイッチ６０２は、１フレーム遅延部６０１から入力した情報が、フレーム（＝前フレーム）が消失していることを示している場合にON（接続）となり、フレームが消失していない場合にはOFF（解放）となる。なお、２つのスイッチは連動しており、同時にON/OFFされる。切り替えスイッチ６０２がONになると、適応符号帳３０４の内容が読み出され、適応符号帳修正器６０３へ出力される。読み出された適応符号帳３０４の内容は、適応符号帳修正器６０３によって修正された後、切り替えスイッチ６０２を介して適応符号帳３０４へ出力され、適応符号帳の内容が書き換えられる。適応符号帳３０４の書き換えが終わってから音声復号化処理が行われる。

適応符号帳修正器６０３は、多重分離部４５５から、復号するフレームの前フレームにおける一番後ろにあるピッチピーク位置情報を入力し、適応符号帳３０４に格納されている前フレームで生成された音源部分のピッチピーク位置が前記ピッチピーク位置に合うように、適応符号帳３０４に格納されている音源信号バッファの内容を修正する。具体的には、実施の形態１で述べた方法と同様にして、２つ前のフレームにおける最終ピッチピーク位置PPp’（２つ前のフレームにおける音源信号およびピッチ周期Pp’を用いて、実施の形態１に示した方法で求める）と、１つ前のフレームにおける最終ピッチピーク位置PPp（現フレームで受信しているピッチピーク位置情報から得られる）と、を用いて（式１）と同様の（式２）によって、１つ前のフレームにおけるピッチ周期Ppを算出し、Ppを用いて前フレームにおけるフレーム消失補償処理をやり直すことによって修正した適応符号帳を生成する。

Pp = (N(PPp)＋Nf−N(PPp’))÷Int[0.5+(N(PPp)＋Nf−N(PPp’))/Pp’] （式２）
または、単に１つ前のフレームにおけるピッチピーク位置PPpを、修正前の適応符号帳３０４に格納されている１つ前のフレームにおいて生成された音源信号を用いて求め、求められたピッチピーク位置と、現フレームで受信したピッチピーク位置情報から得られるピッチピーク位置との差だけ適応符号帳の内容をシフトさせて位置あわせを行う方法も可能である。

このようにして修正した適応符号帳は、切り替えスイッチ６０２を介して適応符号帳３０４へ出力され、適応符号帳３０４の内容が修正される。適応符号帳３０４の内容を修正した後は、実施の形態１で説明した音声復号化部１５６と同じ動作によって音声信号が復号される。

次に、フレーム消失補償部４５７について図１４を参照して詳細に説明する。フレーム消失補償部４５７は、パラメータバッファ３１２およびパラメータ生成部６０４を有する。パラメータバッファ３１２の動作は、実施の形態１と同じなのでその説明は省略する。パラメータ生成部６０４の動作は、基本的に実施の形態１のパラメータ生成部３１５と同様である。即ち、例えば、ピッチピーク位置情報PPが、「前フレームはピッチ周期性を有さないフレームである」ことを示している場合は、適応符号帳利得Gp’を0.0とし、ランダムに生成した固定符号帳パラメータC’と前フレームにおいて使用した固定符号帳利得を減衰させた値をGc’として切り替えスイッチ３０３へ出力する。反対に、ピッチピーク位置情報PPが「前フレームはピッチ周期性を有する」ことを示している場合は、適応符号帳利得Gp’を前フレームで復号した適応符号帳利得GpやGpを減衰した値（例えば0.9倍した値）や過去に復号したGpの平均的な値などに設定し、固定符号帳利得Gc’を0.0に設定して、切り替えスイッチ３０３へそれぞれ出力する。

ピッチ周期情報にはパラメータバッファ３１２に記憶されている前フレームのピッチ周期やそれに準じるピッチ周期（ランダムな揺らぎを付加したり、１サンプルずつ増やしたりしたもの）を用い、固定符号帳パラメータには乱数で生成した符号帳インデックスなどを用いる。なお、復号量子化線形予測係数α’としては、前フレームにおける復号量子化線形予測係数を繰り返して使用したり、帯域幅を拡張してスペクトル特性を平坦化したものを使用したりする。

このように、本実施の形態の音声信号送信装置４００及び音声信号受信装置４９９によれば、フレーム消失後の誤り伝播の影響を、遅延の増加なく軽減することができる。

（実施の形態３）
図１５は、本発明の実施の形態３に係る音声信号伝送システムの構成を示すブロック図である。

音声信号伝送システムは、音声信号送信装置７００及び音声信号受信装置７９９を具備している。

音声信号送信装置７００は、実施の形態２の音声信号送信装置４００と同じものであるので、各構成要素には実施の形態１および２と同一符号を付し、詳しい説明を省略する。

音声信号受信装置７９９は、実施の形態２の音声信号受信装置４９９における音声復号化装置４１４を音声復号化装置７１４に置き換えたものである。実施の形態１および２と同じ構成要素で同じ動作をするものについては、実施の形態１および２と同じ番号を付し、説明を省略する。音声復号化装置７１４は、信号処理装置１１３からの受信音声信号を復号化して復号音声信号を生成してＤ／Ａ変換装置１１５に与える。

次に、図１５および図１６を参照して実施の形態３における音声復号化装置７１４について詳細に説明する。

図１５および図１６に示した音声復号化装置７１４において、図５に示した実施の形態１の音声復号化装置１１４及び図１４に示した実施の形態２の音声復号化装置４１４と同じ動作をする同じ構成要素については、実施の形態１および実施の形態２と同一符号を付し、詳しい説明を省略する。

図１５および図１６に示すように、音声復号化装置７１４は、多重分離部７５５と、音声復号化部７５６と、フレーム消失補償部７５７とを有する。

多重分離部７５５の入力端子は、信号処理装置１１３の出力端子の一つに接続されている。音声復号化部７５６の３つの入力端子は、多重分離部７５５の出力端子と、信号処理装置１１３の一つの出力端子と、フレーム消失補償部７５７の出力端子とにそれぞれ接続されている。フレーム消失補償部７５７の２つの入力端子は、一方が多重分離部７５５の一方の出力端子に接続されており、他方が音声復号化部７５６の２つの出力端子の一方に接続されている。音声復号化部７５６の他方の出力端子は、Ｄ／Ａ変換装置１１５へ接続されている。

多重分離部７５５は音声符号化パラメータ情報とピッチピーク位置情報とを分離し、音声符号化パラメータ情報を音声復号化部７５６へ、ピッチピーク位置情報をフレーム消失補償部７５７へ、それぞれ出力する。音声復号化部７５６は、信号処理装置１１３からフレーム消失情報を入力し、復号するフレーム（現在受信しているフレームの前フレーム）が消失フレームである場合は、フレーム消失補償部７５７によって生成される音声符号化パラメータを用いて音声信号を合成し、Ｄ／Ａ変換装置１１５へ出力する。復号するフレームが消失フレームでない場合は、多重分離部７５５から出力された音声符号化パラメータを用いて復号処理を行い、音声信号を合成し、Ｄ／Ａ変換装置１１５へ出力する。実施の形態２と異なる点は、復号するフレームが１フレーム前に受信したものである点である。即ち、復号器側で１フレーム待ってから復号を行う点である。このようにすると、例えば復号しようとするフレームが消失していて、消失フレームの前後のフレームが受信されている場合に、前後のフレーム情報を用いて消失フレームの補償処理を行うことが可能となり、前後のフレーム間で滑らかに変化するように消失補償処理を行うことができる。

図１６を参照して、音声復号化装置７１４の動作を詳細に説明する。図１６に示すように、音声復号化部７５６は、実施の形態１の音声復号化部１５６におけるパラメータ復号部３０１が、パラメータ復号部８０１および１フレーム遅延部８０２に置き換えられている。また、１フレーム遅延部８０３が信号処理装置１１３と切り替えスイッチ３０３との間に挿入されている。これら２点が実施の形態１と異なる。それ以外の構成要素については同じ構成で同じ動作をするため、実施の形態１と同一符号を付し、詳しい説明を省略する。

図１６において、パラメータ復号部８０１は、多重分離部７５５から、音声符号化情報を入力し、各音声符号化パラメータを分離して１フレーム遅延部８０２に出力する。同時にパラメータ復号部８０１は、適応符号帳パラメータPn（復号するフレームの次のフレームにおける適応符号帳パラメータ）をフレーム消失補償部７５７内のピッチ周期算出器８１４へ出力する。

１フレーム遅延部８０２は、パラメータ復号部８０１から出力された各パラメータを１フレームの時間保持した後、ピッチ（適応符号帳）パラメータP（これから復号するフレームのピッチ（適応符号帳）パラメータであり、Pnよりも１フレーム前になる）および固定符号帳パラメータCをそれぞれ切り替えスイッチ３０３へ出力する。同時に１フレーム遅延部８０２は、利得パラメータGを利得復号器３０２へ出力する。同時に１フレーム遅延部８０２は、線形予測係数パラメータLをＬＰＣ復号器３０６へ出力する。また、１フレーム遅延部８０３は、信号処理装置１１３から出力されたフレーム消失情報を入力して１フレームの時間だけ保持した後、切り替えスイッチ３０３へ出力する。

次にフレーム消失補償部７５７について、図１６を参照して詳細に説明する。フレーム消失補償部７５７は、ピッチピーク位置検出器３１３、パラメータバッファ８１２、ピッチ周期算出器８１４、パラメータ生成部８１５とを有する。

ピッチピーク位置検出器３１３は、実施の形態１におけるピッチピーク位置検出器３１３と同じ動作をする。即ち、復号しているフレームの前フレームにおける最終ピッチピーク位置を、パラメータバッファ８１２から入力するピッチ周期と、適応符号帳３０４から入力する音源信号とを用いて検出し、ピッチ周期算出器８１４へ出力する。なお、復号しているフレームの前フレームにおいてピッチピーク位置を正常に受信している場合は、その情報をバッファリングしておいて用いても良い。パラメータバッファ８１２は、実施の形態１および実施の形態２のパラメータバッファ３１２と同じ動作をする。ただし、バッファリングしているパラメータが、１フレーム遅延部８０２の存在により、１フレームだけ過去にさかのぼっている点のみが異なる。

ピッチ周期算出器８１４は、復号フレームのピッチピーク位置情報PPcを多重分離部７５５から、復号フレームの次のフレームのピッチ周期Pnをパラメータ復号部８０１から、復号フレームの前のピッチ周期情報Ppをパラメータバッファ８１２から、復号フレームの前のフレームのピッチピーク位置情報PPpをピッチピーク位置検出器３１３から、それぞれ入力し、消失フレーム（復号フレーム）のピッチ周期を計算してパラメータ生成部８１５へ出力する。

なお、ピッチ周期算出器８１４は、多重分離部７５５から入力したピッチピーク位置情報PPcが、「ピッチ周期性を有さないフレームである」ことを示している場合は、その情報をパラメータ生成部へ出力する。

パラメータ生成部８１５は、実施の形態１のパラメータ生成部３１５と同様の動作を行う。即ち、ピッチ周期算出器８１４で算出されたピッチ周期と、パラメータバッファ８１２から入力した前フレームにおける各種復号パラメータを用いて消失したフレームの音源パラメータを生成する。

例えば、ピッチ周期算出器８１４から入力した情報が、「復号するフレームはピッチ周期性を有さないフレームである」ことを示している場合は、適応符号帳利得Gp’を0.0とし、ランダムに生成した固定符号帳パラメータC’と前フレームにおいて使用した固定符号帳利得を減衰させた値をGc’として切り替えスイッチ３０３へ出力する。

反対に、ピッチ周期算出器８１４から入力した情報が「復号するフレームはピッチ周期性を有し、そのピッチ周期はPc’である」ことを示している場合は、ピッチ周期をピッチ周期算出器８１４で求めた値P’に設定し、適応符号帳利得Gp’を前フレームで復号した適応符号帳利得GpやGpを減衰した値（例えば0.9倍した値）や過去に復号したGpの平均的な値などに設定し、固定符号帳利得Gc’を0.0に設定して、切り替えスイッチ３０３へそれぞれ出力する。

なお、復号量子化線形予測係数α’としては、前フレームにおける復号量子化線形予測係数を繰り返して使用したり、帯域幅を拡張してスペクトル特性を平坦化したものを使用したりする。

図１７に、復号フレームの次のフレームのピッチ周期Pnと、復号フレームのピッチピーク位置情報N(PPc)と、復号フレームの前のフレームのピッチ周期Ppと、（復号フレームの前のフレームのピッチ周期Ppと適応符号帳の音源信号から求めた）復号フレームの前のフレームのピッチピーク位置情報N(PPp)とを用いて、復号フレームのピッチ周期Pcを求める原理図を示す。

復号フレームのピッチピーク位置PPcの情報は、多重分離部７５５から供給される。前フレームのピッチピーク位置PPpの情報は、ピッチピーク位置検出器３１３から供給される。前フレームのピッチ周期Ppはパラメータバッファ８１２から供給される。次のフレームのピッチ周期Pnはパラメータ復号部８０１から供給される。この復号フレームのピッチピーク位置PPcと、前フレームのピッチピーク位置PPpと、前フレームのピッチ周期Ppと、次フレームのピッチ周期Pnとを用いて、（式３）より復号フレームのピッチ周期Pcを求める。なお、N(PPx)はフレームＸの先頭からピッチピーク位置PPxまでの距離を、Nfはサブフレーム長を、Int[]は[]内の演算結果以下の最大整数値を、それぞれ示す。

Pc ＝（N(PPc) ＋Nf −N(PPp)）／
Int[((N(PPc) ＋Nf−N(PPp))/Pp ＋ (N(PPc) ＋Nf−N(PPp))/Pn)×0.5 ＋ 0.5] （式３）
例えば、図１７の場合、PPc―PPp間の距離は、周期Ppでは3.1周期分、周期Pnでは2.8周期分なので、(3.1+2.8)×0.5＝2.95となる。したがって分母は３周期となり、N(PPc)+Nf-N(PPp)を３で割った値がピッチ周期ということになる。

このような方法で消失フレームである復号フレームのピッチ周期を求めることにより、前後のフレームの中間的なピッチ周期を用いて連続的にピッチが変化するようなフレーム消失補償処理が可能となる。また、実施の形態２と同様、消失フレームにおけるピッチピーク位置を一致させることが出来るので、後続正常フレームにおける符号器側と復号器側の適応符号帳間不一致の影響を低減することが可能となる。

このように、本実施の形態の音声信号送信装置７００及び音声信号受信装置７９９によれば、少ない冗長情報を追加することにより、精度良いフレーム消失補償法を実現できるとともに、消失フレーム後の誤り伝播の影響を軽減することができる。

（実施の形態４）
図１８は、本発明の実施の形態４に係る音声信号伝送システムの構成を示すブロック図である。

図１８に示す音声信号伝送システムは、音声信号送信装置１０００及び音声信号受信装置１１９９を有している。

音声信号送信装置１０００は、実施の形態１の音声信号送信装置１００における音声符号化装置１０４を音声符号化装置１１０４に置き換えたものである。実施の形態１と同じ構成要素で同じ動作をするものについては、実施の形態１と同一符号を付し、詳しい説明を省略する。

音声符号化装置１１０４は、Ａ／Ｄ変換装置１０３からのディジタル音声信号を符号化することにより音声符号化情報を生成し、この生成された音声符号化情報を信号処理装置１０５に与える。

音声信号受信装置１１９９は、実施の形態１の音声信号受信装置１９９における音声復号化装置１１４を音声復号化装置１１１４に置き換えたものである。実施の形態１と同じ構成要素で同じ動作をするものについては、実施の形態１と同一符号を付し、詳しい説明を省略する。音声復号化装置１１１４は、信号処理装置１１３からの受信音声信号を復号化して復号音声信号を生成してＤ／Ａ変換装置１１５に与える。

次に、音声符号化装置１１０４について、図１８、図１９、図２０及び図２１を参照して詳細に説明する。図１９は音声符号化装置１１０４の構成を示すブロック図であり、図２０はピッチピーク位置検出部の動作を説明するための模式図であり、図２１はピッチピーク位置検出処理手順を示すフローチャートである。但し、図１８及び図１９に示した音声符号化装置１１０４において、図１および図２に示した実施の形態１の音声符号化装置１０４と同じ動作をする同じ構成要素については、実施の形態１と同一符号を付し、詳しい説明を省略する。

図１８に示すように、音声符号化装置１１０４は、ピッチピーク位置検出部１５１、ピッチピーク位置情報埋め込み部１１５２、音声符号化部１５３及び１フレーム遅延部１５４を有している。音声符号化部１５３の入力端子は、Ａ／Ｄ変換装置１０３の出力端子に接続されている。ピッチピーク位置検出部１５１の入力端子は、音声符号化部１５３の２つの出力端子のうちの一方に接続されている。１フレーム遅延部１５４の入力端子は音声符号化部１５３の２つの出力端子のうちのもう一方に接続されている。ピッチピーク位置情報埋め込み部１１５２は、ピッチピーク位置検出部１５１及び１フレーム遅延部１５４の出力端子と信号処理装置１０５の入力端子との間に接続されている。

音声符号化部１５３は、Ａ／Ｄ変換装置１０３から入力したディジタル音声信号の符号化処理を行い、符号化パラメータ情報を１フレーム遅延部１５４へ出力する。同時に、音声符号化部１５３は、後述するピッチパラメータ（量子化ピッチ周期）と適応符号帳に保持されている音源信号とをピッチピーク位置検出部１５１へ出力する。

ピッチピーク位置検出部１５１は、ピッチパラメータである量子化ピッチ周期情報と過去の音源信号系列とを用いて、過去１ピッチ周期長の音源信号におけるピッチピーク位置を検出し、ピッチピーク位置情報埋め込み部１１５２へ出力する。

ピッチピーク位置情報埋め込み部１１５２は、ピッチピーク位置検出部１５１によって検出された現フレームにおけるピッチピーク位置情報を、１フレーム遅延部１５４から出力される前フレームにおける音声符号化情報に埋めこんで、信号処理装置１０５へ出力する。この処理によって、前フレームにおける音声符号化情報の特定の情報がピッチピーク位置情報に置き換えられる。したがって、ピッチピーク位置情報の埋めこみによる情報量の増加はない。置き換えられる音声符号化情報は、復号音声の品質に対する影響度が小さいものを予め選んでおいたものとする。因みに、ピッチピーク位置情報は、間欠的に埋め込まれるようにしてもよい。このようにすれば、ピッチピーク位置情報は、必要最低限度の頻度又はフレームで伝送されることとなり、符号化された音声信号のビットレートの低下による品質劣化を抑えることができる。

図１９に示すように、音声符号化部１５３において、音源パラメータ決定部によって決定された適応符号帳パラメータPと固定符号帳パラメータCと利得符号帳パラメータGと、ＬＰＣ量子化器によって符号化された線形予測パラメータLとは、符号化部２１５により一括して一つの符号としてまとめられ、１フレーム遅延部１５４へ出力される。１フレーム遅延部１５４は、符号化部２１５より入力した音声符号化情報を１フレームの時間だけ保持した後、ピッチピーク位置情報埋め込み部１５２へ出力する。

次に、ピッチピーク位置検出部１５１の動作について、図２０を参照してより詳細に説明する。

ピッチピーク位置検出部１５１は、図２０に示すように、ピッチパラメータPと、最新の適応符号帳の内容（過去に生成した音源信号系列）を少なくとも１ピッチ周期長以上を入力し、最も時間的に後ろにあるピッチピーク位置を検出する。ピッチピーク位置の検出法の最も単純なものは、適応符号帳の末尾（最新のサンプル：図２０ではサンプル１１０１であり、これをe[-1]とする）から過去に１ピッチ周期Pまでさかのぼる間において、絶対値が最大となるサンプル（図２０ではサンプル１１０２）をピッチピーク位置として検出する方法である。

ただし、このような単純な方法だと、サンプリングの影響などにより、本来のピッチピークとは異なるピークをピッチピークとして検出してしまうことがある。この様な場合、（式４）に示すように、1ピッチ遡った点を加味したc[i]を計算し、計算した値の絶対値が最も大きくなる点をピッチピーク位置として検出することで、ピッチピーク位置検出精度を改善することができる（図２１のステップＳＴ１６０１〜ステップＳＴ１６０６、peak1がピッチピーク位置）。

c[i] = e[i] + e[i-P], i = -1, …, -P （式４）
ピッチ周期が分数精度で与えられている場合は、（式４）の第二項を、分数精度を利用して補間して求めた値を利用するとさらに精度が増す。

さらに、（式４）を最大化する点の前後（例えばプラスマイナス５サンプル程度（8kHzサンプリング時））で振幅が最大になる点を再探索して最終的なピッチピーク位置とする（図２１のステップＳＴ１６０７〜ステップＳＴ１６１１、aは定数（例えば５程度））と、さらに精度が改善される。図２１は、このようなピッチピーク位置検出処理アルゴリズムのフローチャートである。

なお、現在の入力音声信号にピッチ周期性がない場合（無声部や雑音部である場合）には、ピッチピーク位置を無理に設定せず、ピッチ周期性がない区間であることを示すコードを別途割り当てて、その情報をピッチピーク位置情報として出力しても良い。

ピッチピーク位置情報埋め込み部１１５２は、１フレーム遅延部１５４を介して入力した音声符号化情報のうち、復号時への影響が比較的少ない部分に、ピッチピーク位置検出部１５１で求められたピッチピーク位置情報を書きこむ。

例えば、ITU-T勧告G.729では、ＬＳＰ符号化情報のうち、ベクトル量子化の２段目で高次側に割り当てられた５ビットについては、伝送路上で誤っても復号音声の品質への影響が比較的小さいことが知られている（片岡、林、「ITU-T標準8kbit/s音声符号化のビット誤り感度について」、1995年電子情報通信学会情報・システムソサイエティ大会、D-251）ので、これら５ビットを用いてピッチピーク位置を表すことが考えられる。

さらに、伝送路上のビット誤りへの対策を考える必要がなければ、ピッチパリティの１ビットを加えた６ビットを用いることが考えられる。なお、ピッチピーク位置情報の埋めこみは、毎フレーム行わずに一定フレーム数おきに行う構成により、復号音声への影響を減らすこともできる。

次に、音声復号化装置１１１４について図１８、図２２、図２３及び図２４、並びに、実施の形態１の説明において用いた図６〜図８を参照して詳細に説明する。図２２は音声復号化装置１１１４の構成を示すブロック図、図２３及び図２４は、音声符号化および復号化処理手順を示すフローチャートである。但し、図１８及び図２２に示した音声復号化装置１１１４において、図１および図５に示した実施の形態１の音声復号化装置１１４と同じ動作をする同じ構成要素については、実施の形態１と同一符号を付し、詳しい説明を省略する。

図１８に示すように、音声復号化装置１１１４は、ピッチピーク位置情報分離部１１５５、音声復号化部１５６、１フレーム遅延部１５７、フレーム消失補償部１５８を有している。

ピッチピーク位置情報分離部１１５５の入力端子は信号処理装置１１３の２つの出力端子の一方に接続されている。音声符号化部１５６は３つの入力端子を持ち、一つはピッチピーク位置情報分離部１１５５の１つの出力端子に、一つは信号処理装置１１３の１つの出力端子に、一つはフレーム消失補償部１５８に、それぞれ接続されている。また、音声符号化部１５６は２つの出力端子をもち、一方はフレーム消失補償部１５８の２つの入力端子の一方に接続されており、他方はＤ／Ａ変換装置１１５へ接続されている。１フレーム遅延部１５７の入力端子は、ピッチピーク位置情報分離部１１５５の出力端子の一つに接続されている。フレーム消失補償部１５８は２つの入力端子をもち、一方は１フレーム遅延部１５７の出力端子に接続されており、他方は音声復号化部１５６の１つの出力端子に接続されている。

ピッチピーク位置情報分離部１１５５は、信号処理装置１１３から入力したピッチピーク位置情報が埋めこまれている符号化情報から、ピッチピーク位置情報を分離し、ピッチピーク位置情報を１フレーム遅延部１５７へ、その他の音声符号化情報を音声復号化部１５６に、それぞれ出力する。

また、信号処理装置１１３は、フレーム消失情報を音声復号化部１５６へ出力する。音声復号化部１５６は、ピッチピーク位置情報分離部１１５５から入力した音声符号化情報を用いて復号処理を行い、復号音声信号をＤ／Ａ変換装置１１５へ出力する。また、音声復号化部１５６は、フレーム消失補償処理において更新が必要なパラメータをフレーム消失補償部１５８へ出力する。

なお、信号処理装置１１３から入力されたフレーム消失補償情報が「現在のフレームは消失している」ことを示す場合は、ピッチピーク位置情報分離部１１５５からの情報が入力されないので、フレーム消失補償部１５８から入力されるパラメータ情報を用いて音声信号を生成し、Ｄ／Ａ変換装置１１５へ出力する。このときもフレーム消失補償処理に必要なパラメータはフレーム消失補償部１５８へ出力される。１フレーム遅延部１５７は、ピッチピーク位置情報分離部１５５より入力したピッチピーク位置情報を１フレーム分の時間だけ保持してからフレーム消失補償部１５８へ出力する。

フレーム消失補償部１５８は、１フレーム遅延部１５７から入力した、現フレーム（１フレーム前に送られてきているピッチピーク位置情報は、１フレーム前において１フレーム先のピッチピーク位置情報なので、現フレームのピッチピーク位置情報である）におけるピッチピーク位置情報を入力し、現フレームにおけるピッチピーク位置が入力されたピッチピーク位置情報で示される位置に合うようにフレーム消失補償処理を行う。フレーム消失補償処理は、１フレーム遅延部１５７から入力した現フレームの最後尾ピッチピーク位置と、音声復号化部１５６から入力した前フレームまでに復号している音声符号化パラメータとを用いて行われる。

また、図２２に示すように、音声復号化部１５６において、パラメータ復号部３０１は、ピッチピーク位置情報分離部１１５５から入力した音声符号化情報（ビットストリーム）から音声符号化パラメータ（ピッチ（適応符号帳）パラメータP、固定符号帳パラメータC、線形予測パラメータL、利得パラメータG）を復号し、利得パラメータGを利得復号器３０２へ、線形予測係数パラメータLをＬＰＣ復号器３０６へ、その他のパラメータを切り替えスイッチ３０３へそれぞれ出力する。その後の処理は、図５について上述した音声復号化部１５６の場合と同様である。

次に、フレーム消失補償部１５８について、図２２、図６〜図８を参照しながら詳細を説明する。フレーム消失補償部１５８は、パラメータバッファ３１２、ピッチピーク位置検出器３１３、ピッチ周期算出器３１４およびパラメータ生成部３１５を有する。

パラメータバッファは、過去に音声復号部１５６において、復号音声を生成するために用いられた各種の音声符号化パラメータを記憶しておくバッファであり、復号した適応符号帳パラメータ（ピッチ）P、雑音符号帳パラメータC、適応符号帳利得Gp、固定符号帳利得Gc、復号量子化線形予測係数αが音声符号化部１５６から入力される。また消失フレームにおいては、パラメータ生成部によって生成されたパラメータ（適応符号帳パラメータ（ピッチ）P’、固定符号帳パラメータC’、適応符号帳利得Gp’、固定符号帳利得Gc’、復号量子化線形予測係数α’）が入力される。バッファリングされている各種パラメータは、パラメータ生成部３１５へ出力され、消失フレームにおける各種パラメータを生成する際に使用される。

ピッチピーク位置検出器３１３は、音声復号化部１５６内の適応符号帳３０４から入力した音源信号と、パラメータバッファ３１２から入力した前フレームのピッチ周期とを用いて、ピッチピーク位置検出部１５１と同様にしてピッチピーク位置を検出し、ピッチ周期算出器３１４へ出力する。ただし、ピッチピーク位置を探す範囲は直前のフレーム以前において生成された音源信号の部分であり、ピッチピーク位置が存在する範囲は前フレームで生成された音源信号の末尾の点から、前フレームのピッチ周期だけさかのぼった点までである。

ピッチ周期算出器３１４は、ピッチピーク位置検出器３１３から入力した前フレームの最終ピッチピーク位置と、１フレーム遅延部１５７から入力した現フレームの最終ピッチピーク位置（１フレーム遅延部から出力されるのは、１フレーム前に受信したピッチピーク位置情報であり、１フレーム前に送られてきているピッチピーク位置情報は、現在復号している（消失補償処理を行っている）音声フレームに対応するピッチピーク位置情報である）と、パラメータバッファ３１２から入力した前フレームにおける音声復号部で復号されたピッチ周期と、を入力し、現在のピッチ周期を求める。具体的には、（式５）によって現フレームのピッチ周期を決定することが出来る。

Pc = (peak_c−peak_p)÷Int[0.5+(peak_c−peak_p)/Pp] （式５）
但し、peac_cは現フレームにおける最終ピッチピーク位置（１フレーム遅延部１５７から入力した情報によって得られる）、peak_pは前フレームにおける最終ピッチピーク位置（ピッチピーク位置検出器３１３から入力した情報によって得られる。図２１のフローによって算出される）、Ppは前フレームにおけるピッチ周期（パラメータバッファ３１２より入力）、をそれぞれ示し、peak_pおよびpeak_cは、現フレームの先頭を基準（例えば０）とした位置として表現される。また、Int[]は演算結果を越えない最大の整数を示す。

ところで、図７のように、実際（太線）には現フレームにおいてピッチ周期が短くなっていた場合、実際のピッチピーク位置PPcと図１６のようなフレーム消失補償処理を行った場合（破線）のピッチピーク位置PPc’との間にずれが生じてしまう。このようなずれは、消失した現フレームのみならず、後続の正常受信フレームにおいて適応符号帳のピッチピーク位置が符号器側と復号器側とでずれてしまうため、復号音声品質の劣化が大きくなる。

しかしながら、消失したフレームにおけるピッチピーク位置情報が前フレームの音声符号化パラメータとともに伝送されていれば、消失した現フレームにおけるピッチピーク位置PPcが合うように、ピッチ周期Pcを（式５）の様にして決定することができる。ピッチの量子化精度によっては、同一ピッチ周期で繰り返してもピッチピーク位置を合わせることが出来ない場合もあるので、（式５）で求められるピッチ周期Pc付近のピッチ量子化値を用いて段階的にピッチ周期Pcを変化させてピッチピーク位置を合わせることも可能である。

なお、ピッチピーク位置におけるピーク値の極性が合わないことが問題になる場合は、極性情報もピッチピーク位置情報として伝送するようにして利用する。このようにしてピッチ周期Pcを求め、そのピッチ周期Pcを用いてフレーム消失補間処理を行った例を図８（太線）に示す。

フレーム消失がなかった場合の復号信号（破線）と波形レベルでは一致しないものの、ピッチピーク位置を一致させることが出来るので、後続フレームにおける符号器側と復号器側の適応符号帳間不一致の影響を低減することが可能となる。また、ピッチピーク位置情報を、音声符号化情報に埋めこむ（復号音声に影響の小さい音声符号化情報の代わりにピッチピーク位置情報を伝送する）ので、ビットレートの増加がない。

また、２フレーム以上を１つのパケットで伝送する場合は、１パケット中の末尾のフレームに関するピッチピーク位置情報のみを送れば良いので、それ以外のフレームについてはピッチピーク位置情報を埋めこむ必要がなく、復号音声信号への影響がさらに少なくなる。なお、現フレームのピッチピーク位置情報が「現フレームはピッチ周期性を有していないフレームである」ことを示している場合は、上記のようなピッチ周期の計算は行わず、現フレームがピッチ周期性を有さないフレームであることを示す情報をパラメータ生成部に出力しても良い。

パラメータ生成部３１５は、ピッチ周期算出器３１４で算出されたピッチ周期と、パラメータバッファ３１２から入力した前フレームにおける各種復号パラメータを用いて消失したフレームの音源パラメータを生成する。例えば、ピッチ周期算出器３１４から入力した情報が、「現フレームはピッチ周期性を有さないフレームである」ことを示している場合は、適応符号帳利得Gp’を0.0とし、ランダムに生成した固定符号帳パラメータC’と前フレームにおいて使用した固定符号帳利得を減衰させた値をGc’として切り替えスイッチ３０３へ出力する。

反対に、ピッチ周期算出器３１４から入力した情報が「現フレームはピッチ周期性を有し、そのピッチ周期はPc’である」ことを示している場合は、ピッチパラメータをPc’に設定し、適応符号帳利得Gp’を前フレームで復号した適応符号帳利得GpやGpを減衰した値（例えば0.9倍した値）や過去に復号したGpの平均的な値などに設定し、固定符号帳利得Gc’を0.0に設定して、切り替えスイッチ３０３へそれぞれ出力する。

次に、音声符号化装置１１０４および音声復号化装置１１１４の動作について、図２３及び図２４を参照して説明する。図２３は、音声符号化装置１１０４の動作を説明するためのフローチャートであり、図２４は、音声復号化装置１１１４の動作を説明するためのフローチャートである。

図２３に示すように、音声符号化装置１１０４は、まずステップＳＴ９０１において、音声符号化部１５３により１フレーム分のＣＥＬＰ音声符号化処理を行い、次に、ステップＳＴ９０２において、ステップＳＴ９０１にて得られた音声符号化情報を次のフレームの処理が終わるまで１フレーム遅延部１５４によって保存する。

次に、音声符号化装置１１０４は、ステップＳＴ９０３において、ピッチピーク位置検出部１５１によって、現フレームにおいて一番後ろにあるピッチピーク位置の検出を行う。

次に、音声符号化装置１１０４は、ステップＳＴ９０４において、ステップＳＴ９０２にて保存された前フレームの音声符号化情報（前フレームの音声符号化情報）を１フレーム遅延部１５４から取り出した後、ステップＳＴ９０５に移って、ステップＳＴ９０３にて検出されたピッチピーク位置情報を、取り出された前フレームの音声符号化情報に埋めこんで、音声符号化装置１１０４の出力として出力する。音声符号化装置１１０４は、上述したステップＳＴ９０１〜ステップＳＴ９０５の一連の符号化処理を繰り返す。

続いて音声復号化装置１１１４の動作を説明する。図２４に示すように、音声復号化装置１１４は、まず、ステップＳＴ９１０において、現フレームが消失しているかどうかを信号処理装置１１３によって判定する。消失していない場合はステップＳＴ９１１に移り、また、消失している場合はステップＳＴ９１４に移る。

次に、フレーム消失していない場合は、ステップＳＴ９１１において、ピッチピーク位置情報分離部１１５５が受信した符号化情報からピッチピーク位置情報を分離する。

続いて、ステップＳＴ９１２において、音声復号化部１５６内のパラメータ復号部３０１が、分離された音声符号化情報から音声符号化パラメータを復号する。次に、ステップＳＴ９１３において、音声復号化部１５６の残りの部分が、復号された音声符号化パラメータから音声信号を再合成する処理を行い、復号音声信号がＤ／Ａ変換装置１１５へ出力される。

これに対して、ステップＳＴ９１０においてフレームが消失していると判断された場合は、音声復号化装置１１１４は、ステップＳＴ９１４に移って、ピッチ周期算出器３１４によって、現フレーム（消失フレーム）がピッチ周期性を有するフレームであるか否かをチェックする。ピッチ周期性があるか否かに関する情報は受信したピッチピーク位置情報に含まれている。音声復号化装置１１１４は、ピッチ周期性がある場合はステップＳＴ９１５へ移り、ピッチ周期性がない場合はステップＳＴ９１８へ移る。そして、現フレーム（消失フレーム）がピッチ周期性を有する場合、音声復号化装置１１１４は、ステップＳＴ９１５に移って、ピッチピーク位置検出器３１３によって、前フレームのピッチ情報と復号した音源信号とを、パラメータバッファ３１２と適応符号帳３０４から、それぞれ読み出す。

次に、音声復号化装置１１１４は、ステップＳＴ９１６に移って、ピッチピーク位置検出器３１３によって、前フレームにおいて最も後ろにあるピッチピーク位置を検出する。なお、パラメータバッファ３１２が、２つ前に受信したピッチピーク位置情報を保持している場合は、その情報を用いて前フレームにおけるピッチピーク位置を得ても良い。

次に、音声復号化装置１１１４は、ステップＳＴ９１７に移って、ピッチ周期算出器３１４によって、現フレーム（消失フレーム）のピッチピーク位置と前フレームのピッチピーク位置と前フレームのピッチ周期を用いて、上述の（式５）によってピッチ周期を算出する。

次に、音声復号化装置１１１４は、ステップＳＴ９１８に移って、消失したフレームにおける各種音声符号化パラメータをパラメータ生成部３１５によって生成する。

現フレームがピッチ周期性を有するフレームであると判断された場合は、固定符号帳利得をゼロとし、適応符号帳のみを用いて音声信号を生成する。このとき用いるピッチ周期（適応符号帳パラメータ）は、ピッチ周期算出器３１４にて算出されたものを用いる。また、現フレームがピッチ周期性をもたないフレームであると判断された場合は、音声復号化装置１１１４は、適応符号帳利得をゼロとし、固定符号帳のみで音声信号を生成する。この場合、固定符号帳パラメータはランダムに決定する。線形予測係数については、現在フレームのピッチ周期性の有無に関らず、前フレームのものを繰り返し利用するか、又は、帯域幅拡張を行いながら次第に白色化したものを用いる。

最後に、音声復号化装置１１１４は、ステップＳＴ９１９において、パラメータバッファ３１２の内容を更新して、１フレームの復号処理を終了する。

音声復号化装置１１１４は、上記ステップＳＴ９１０〜ステップＳＴ９１９の一連の復号処理を繰り返す。

上記説明したように、本実施の形態によれば、ビットレートの増加なく、品質劣化を抑えつつ、精度良いフレーム消失補償処理が可能となるとともに、消失フレーム後の誤り伝播の影響を軽減することができる。

１００，４００，７００，１０００音声信号送信装置
１９９，４９９，７９９，１１９９音声信号受信装置
１０２入力装置
１０３Ａ／Ｄ変換装置
１０４，４０４，１１０４音声符号化装置
１０５，１１３信号処理装置
１０６ＲＦ変調装置
１０７送信装置
１０８，１１０アンテナ
１１１受信装置
１１２ＲＦ復調装置
１１４，４１４，７１４，１１１４音声復号化装置
１１５Ｄ／Ａ変換装置
１１６出力装置
１５１ピッチピーク位置検出部
１５２，４５４多重化部
１５３音声符号化部
１５４，１５７，６０１１フレーム遅延部
１５５，４５５，７５５多重分離部
１５６，４５６，７５６音声復号化部
１５８，４５７，７５７フレーム消失補償部
２０２線形予測分析器
２０３ＬＰＣ量子化器
２０６ＬＰＣ合成フィルタ
２０８，３０４適応符号帳
２１０，３０５固定符号帳
２１２利得量子化器
３０１パラメータ復号部
３０２利得復号器
３０６ＬＰＣ復号器
３０３スイッチ
３１３ピッチピーク位置検出器
３１４，８１４ピッチ周期算出器
３１２，８１２パラメータバッファ
３１５，８１５パラメータ生成部
６０３適応符号帳修正器
１１５２ピッチピーク位置情報埋め込み部

Claims

通信相手において符号化され伝送された、ピッチピーク位置情報を復号する復号手段と、
適応符号帳と、
適応符号帳に格納されている過去の音源信号の一番後ろにあるピッチピーク位置を検出する検出手段と、
復号された前記ピッチピーク位置に、検出された前記ピッチピーク位置を合わせる処理を行う適応符号帳修正手段と、
を備え、
過去のフレーム消失補償処理によって生成された適応符号帳に格納されている音源信号バッファの内容を修正する、
ＣＥＬＰ型音声復号化装置。
２フレーム前におけるピッチピーク位置情報と、１フレーム前におけるピッチピーク位置情報と、２フレーム前におけるピッチ周期情報と、を用いて１フレーム前におけるピッチ周期を決定し、
決定した前記ピッチ周期を用いて１フレーム前におけるフレーム消失補償処理をやり直す、
請求項１記載のＣＥＬＰ型音声復号化装置。
検出手段により検出された１フレーム前におけるピッチピーク位置情報と、復号手段により復号された１フレーム前におけるピッチピーク位置情報との差を求め、前記差に基づいて適応符号帳の内容をシフトして２つの前記ピッチピーク位置を合わせる手段を備える、
請求項１記載のＣＥＬＰ型音声復号化装置。
通信相手において符号化され伝送された、ピッチピーク位置情報を復号する復号工程と、
適応符号帳に格納されている過去の音源信号の一番後ろにあるピッチピーク位置を検出する検出工程と、
復号された前記ピッチピーク位置に、検出された前記ピッチピーク位置を合わせる処理を行う適応符号帳修正工程と、
を備え、
過去のフレーム消失補償処理によって生成された適応符号帳に格納されている音源信号バッファの内容を修正する、
ＣＥＬＰ型音声復号化方法。