JP4678440B2

JP4678440B2 - 音声データ復号装置

Info

Publication number: JP4678440B2
Application number: JP2008526756A
Authority: JP
Inventors: 伊藤　　博紀; 一範小澤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-07-27
Filing date: 2007-07-23
Publication date: 2011-04-27
Anticipated expiration: 2027-07-23
Also published as: EP2051243A4; MX2009000054A; RU2009102043A; JPWO2008013135A1; EP2051243A1; CA2658962A1; US8327209B2; KR20090025355A; CN101490749B; WO2008013135A1; US20100005362A1; CN101490749A; KR101032805B1; BRPI0713809A2

Description

本発明は、音声データの復号装置、音声データの変換装置、及び誤り補償方法に関する。

回線交換網又はパケット網を使って音声データを伝送する際、音声データを符号化、復号を行うことで音声信号の授受を行っている。この音声圧縮の方式としては、例えば、ＩＴＵ−Ｔ（ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＳｔａｎｄａｒｄｉｚａｔｉｏｎＳｅｃｔｏｒ）勧告Ｇ．７１１方式、及びＣＥＬＰ（Ｃｏｄｅ−ＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）方式が知られている。

これらの圧縮方式で符号化された音声データを伝送すると、無線誤り又はネットワークの輻輳等により、音声データの一部が欠落することがある。この欠落部に対する誤り補償として、欠落部より前の音声データの部分の情報に基づいて、欠落部に対する音声信号の生成を行う。

このような誤り補償においては、音質が劣化することがある。特開２００２−２６８６９７号公報は、音質の劣化を低減する方法を開示している。この方法においては、遅れて受信したパケットに含まれる音声フレームデータを用いて、フィルタメモリ値を更新する。すなわち、ロスしたパケットを遅れて受信した場合、このパケットに含まれる音声フレームデータを用いて、ピッチフィルタ、またはスペクトル概形を表すフィルタで使用するフィルタメモリ値を更新する。

また、特開２００５−２７４９１７号公報は、ＡＤＰＣＭ（ＡｄａｐｔｉｖｅＤｉｆｆｅｒｅｎｔｉａｌＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）符号化に関連する技術を開示している。この技術は、符号化側と復号化側の予測器の状態不一致により不快な異常音を出力するという課題を解決することを可能とする。この課題は、符号化データの欠落後に正しい符号化データを受け取っても発生することがある。すなわち、パケット損失が「検出」から「非検出」へ遷移してから所定時間、検出状態制御部が過去の音声データを基に生成した補間信号の強度を徐々に減少させ、時間が経つにつれて符号化側と復号化側との予測器の状態が次第に一致して音声信号が正常になっていくので、音声信号の強度を徐々に増大させる。その結果、この技術は、符号化データの欠落状態から復旧した直後においても異常音を出力しないという効果を奏する。

さらに、特開平１１−３０５７９７号公報では、音声信号から線形予測計数を算出し、この線形予測計数から音声信号を生成する方法が開示されている。

従来の音声データに対する誤り補償方式は、過去の音声波形を繰り返す単純な方式であるため、上記のような技術が開示されているものの、音質に依然、改善の余地が残されていた。

本発明の目的は、音質の劣化を防止しなら音声データの誤りを補償することである。

波形符号化方式による音声データ復号装置は、ロスディテクタと、音声データデコーダと、音声データアナライザと、パラメータ修正部と、音声合成部を備える。ロスディテクタは、音声データ中にロスがあるかを検出する。音声データデコーダは、音声データを復号して第一復号音声信号を生成する。音声データアナライザは、第一復号音声信号から第一パラメータを抽出する。パラメータ修正部は、ロス検出の結果に基づいて第一パラメータを修正する。音声合成部は、修正された第一パラメータを用いて第一合成音声信号を生成する。

本発明によれば、音質の劣化を防止しながら音声データの誤りが補償される。

本発明の実施例１の音声データ復号装置の構成を示す概略図である。本発明の実施例１の音声データ復号装置の動作を示す流れ図である。本発明の実施例２の音声データ復号装置の構成を示す概略図である。本発明の実施例２の音声データ復号装置の動作を示す流れ図である。本発明の実施例３の音声データ復号装置の構成を示す概略図である。本発明の実施例３の音声データ復号装置の動作を示す流れ図である。本発明の実施例４の音声データ復号装置の構成を示す概略図である。本発明の実施例４の音声データ復号装置の動作を示す流れ図である。本発明の実施例５の音声データ変換装置の構成を示す概略図である。本発明の実施例５の音声データ変換装置の動作を示す流れ図である。

本発明の実施の形態について図面を参照しながら説明する。しかしながら、係る形態は本発明の技術的範囲を限定するものではない。

本発明の実施例１について、図１及び図２を参照しながら以下に説明する。

図１は、Ｇ．７１１方式に代表される波形符号化方式で符号化された音声データに対する復号装置の構成を示す。実施例１の音声データ復号装置は、ロスディテクタ１０１、音声データデコーダ１０２、音声データアナライザ１０３、パラメータ修正部１０４、音声合成部１０５及び音声信号出力部１０６を備える。ここで、音声データとは、ある一連の音声を符号化したデータをいい、また、少なくとも１つの音声フレームを含む音声のデータのことをいう。

ロスディテクタ１０１は、受信した音声データを音声データデコーダ１０２に出力するとともに、受信した音声データがロスしたかを検出し、ロス検出結果を音声データデコーダ１０２とパラメータ修正部１０４と音声信号出力部１０６に出力する。

音声データデコーダ１０２は、ロスディテクタ１０１から入力された音声データを復号して、復号音声信号を音声データ出力部１０６と音声データアナライザ１０３に出力する。

音声データアナライザ１０３は、復号音声信号をフレーム毎に分割し、分割した信号に対して線形予測分析を用いて、音声信号のスペクトル特性を表すスペクトルパラメータを抽出する。各フレームの長さは、例えば、２０ｍｓである。次に、音声データアナライザ１０３は、分割した音声信号をサブフレームに分割し、サブフレーム毎に過去の音源信号を基に適応コードブックにおけるパラメータとして、ピッチ周期に対応する遅延パラメータと適応コードブックゲインを抽出する。各サブフレームの長さは、例えば５ｍｓである。また、音声データアナライザ１０３は、適応コードブックにより該当するサブフレームの音声信号をピッチ予測する。さらに、音声データアナライザ１０３は、ピッチ予測して求めた残差信号を正規化して、正規化残差信号と正規化残差信号ゲインを抽出する。そして、抽出したスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲイン（これらはパラメータと呼ばれる場合がある）をパラメータ修正部１０４に出力する。音声データアナライザ１０３は、スペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号及び正規化残差信号ゲインのうちから２つ以上を抽出することが好ましい。

パラメータ修正部１０４は、ロスディテクタ１０１から入力されたロス検出結果に基づいて、音声データアナライザ１０３から入力されたスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインを修正しない、又は±１％の乱数を加える、或いはゲインを小さくしていくなどの修正をする。さらに、パラメータ修正部１０４は、修正した又は修正していない値を音声合成部１０５に出力する。これらの値を修正する理由は、繰り返しにより不自然な音声信号が生成されることを避けるためである。

音声合成部１０５は、パラメータ修正部１０４から入力されたスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインを使って合成音声信号を生成し、音声信号出力部１０６に出力する。

音声信号出力部１０６は、ロスディテクタ１０１から入力されたロス検出結果に基づいて、音声データデコーダ１０２から入力された復号音声信号、音声合成部１０５から入力された合成音声信号、又は復号音声信号と合成音声信号とをある比率で混合した信号のいずれかを出力する。

次に、図２を参照しながら、実施例１の音声データ復号装置の動作を説明する。

まず、ロスディテクタ１０１は、受信した音声データがロスしているかを検出する（ステップＳ６０１）。ロスディテクタ１０１は、無線網におけるビット誤りをＣＲＣ（ＣｙｃｌｉｃＲｅｄｕｎｄａｎｃｙＣｈｅｃｋ）符号を用いて検出した場合に音声データがロスしたとして検出する方法、又はＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）網におけるロスをＲＦＣ３５５０ＲＴＰ（ＡＴｒａｎｓｐｏｒｔＰｒｏｔｏｃｏｌｆｏｒＲｅａｌ−ＴｉｍｅＡｐｐｌｉｃａｔｉｏｎｓ）ヘッダのシーケンス番号の抜けにより検出した場合に音声データがロスしたとして検出する方法を用いることができる。

ロスディテクタ１０１が音声データのロスを検出しなかったならば、音声データアナライザ１０２が受信した音声データを復号し、音声信号出力部へ出力する（ステップＳ６０２）。

ロスディテクタ１０１が音声データのロスを検出したならば、音声データアナライザ１０３が、音声データのロス直前の部分に対応する復号音声信号に基づいて、スペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインを抽出する（ステップＳ６０３）。ここで、復号音声信号の分析は、音声データのロス直前の部分に対応する復号音声信号に対して行なってもよいし、全ての復号音声信号に対して行ってもよい。次に、パラメータ修正部１０４はロス検出結果に基づいて、スペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインを修正しない、或いは±１%の乱数を加える等して修正する（ステップＳ６０４）。音声合成部１０５は、これらの値を使って、合成音声信号を生成する（ステップＳ６０５）。

そして、音声信号出力部１０６は、ロス検出結果に基づいて、音声データデコーダ１０２から入力された復号音声信号、音声合成部１０５から入力された合成音声信号又は復号音声信号と合成音声信号とをある比率で混合した信号のいずれかを出力する（ステップＳ６０６）。具体的には、前フレームと現フレームでロスが検出されていない場合は、音声信号出力部１０６は復号音声信号を出力する。ロスが検出された場合は、音声信号出力部１０６は合成音声信号を出力する。ロスが検出された次のフレームでは、最初は、合成音声信号の比が大きく、時間が経過するにつれて復号音声信号の比が大きくなるように音声信号を加算することにより、音声信号出力部１０６から出力される音声信号が不連続になることを避ける。

実施例１の音声データ復号装置は、パラメータを抽出し、これらの値を、音声データのロスを補間する信号に利用することで、ロスを補間する音声の音質を向上させることができる。従来、Ｇ．７１１方式においてはパラメーラを抽出していなかった。

実施例２について、図３及び図４を参照しながら説明する。実施例２と実施例１との異なる点は、音声データのロスを検出した際、ロス部分を補間する音声信号を出力する前に、ロス後の次の音声データを受信しているかを検出する。そして、次の音声データを検出した場合、ロスした音声データに対する音声信号を生成するのに、実施例１の動作に加え、次の音声データの情報をも用いる点である。

図３は、Ｇ．７１１方式に代表される波形符号化方式で符号化された音声データに対する復号装置の構成を示す。実施例２の音声データ復号装置は、ロスディテクタ２０１、音声データデコーダ２０２、音声データアナライザ２０３、パラメータ修正部２０４、音声合成部２０５及び音声信号出力部２０６を含む。ここで、音声データデコーダ２０２、パラメータ修正部２０４及び音声合成部２０５は、実施例１の音声データデコーダ１０２、パラメータ修正部１０４及び音声合成部１０５と同じ動作をする。

ロスディテクタ２０１は、ロスディテクタ１０１と同じ動作を実行する。音声データのロスを検出した場合、ロスディテクタ２０１は、音声信号出力部２０６がロス部分を補間する音声信号を出力する前に、ロス後の次の音声データを受信しているかを検出する。さらに、ロスディテクタ２０１は、この検出結果を音声データデコーダ２０２と音声データアナライザ２０３とパラメータ修正部２０４と音声信号出力部２０６に出力する。

音声データアナライザ２０３は、音声データアナライザ１０３と同じ動作を実行する。音声データアナライザ２０３は、ロスディテクタ２０１からの検出結果に基づいて、ロスを検出した次の音声データに対する音声信号の時間を反転させた信号を生成する。そして、この信号について実施例１と同様の手順で分析を行い、抽出したスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインをパラメータ修正部２０４に出力する。

音声信号出力部２０６は、ロスディテクタ２０１から入力されたロス検出結果に基づいて、音声データデコーダ２０２から入力された復号音声信号、或いは最初はロスが検出された前の音声データのパラメータにより生成された合成音声信号の比率が高く、最後はロスが検出された次の音声データのパラメータにより生成された合成音声信号の時間を反転させた信号の比率が高くなるように加算した信号のいずれかを出力する。

次に、図４を参照しながら、実施例２の音声データ復号装置の動作を説明する。

まず、ロスディテクタ２０１は、受信した音声データがロスしているかを検出する（ステップＳ７０１）。ロスディテクタ２０１が音声データのロスを検出しなかったならば、ステップＳ６０２と同様の動作を行う（ステップ７０２）。

ロスディテクタ２０１が音声データのロスを検出したならば、ロスディテクタ２０１が、音声信号出力部２０６がロス部分を補間する音声信号を出力する前にロス後の次の音声データを受信しているか、検出する（ステップＳ７０３）。次の音声データを受信していないならば、ステップＳ６０３乃至Ｓ６０５と同様の動作を行う（ステップＳ７０４乃至Ｓ７０６）。次の音声データを受信したならば、音声データデコーダ２０２が次の音声データを復号する（ステップＳ７０７）。この復号した次の音声データを基に、音声データアナライザ２０３がスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインを抽出する（ステップＳ７０８）。次に、パラメータ修正部２０４はロス検出結果に基づいて、スペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインを修正しない、或いは±１%の乱数を加える等して修正する（ステップＳ７０９）。音声合成部２０５は、これらの値を使って、合成音声信号を生成する（ステップＳ７１０）。

そして、音声信号出力部２０６は、ロスディテクタ２０１から入力されたロス検出結果に基づいて、音声データデコーダ２０２から入力された復号音声信号、または最初はロスが検出された前の音声データのパラメータにより生成された合成音声信号の比率が高く、最後はロスが検出された次の音声データのパラメータにより生成された合成音声信号の時間を反転させた信号の比率が高くなるように加算した信号を出力する（ステップＳ７１１）。

近年、急速に普及しているＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩＰ）では、音声データの到着時間の揺らぎを吸収するために、受信した音声データのバッファリングを行っている。実施例２によれば、ロスした部分の音声信号を補間する際に、バッファに存在しているロスした次の音声データを用いることで、補間信号の音質を向上させることができる。

実施例３について、図５及び図６を参照しながら説明する。本実施例では、ＣＥＬＰ方式で符号化された音声データの復号に関して、音声データのロスを検出した場合に、実施例２と同様に、第一音声データデコーダ３０２がロス部分を補間する音声信号を出力する前にロス後の次の音声データを受信していれば、ロスした音声データに対する音声信号を生成する際に次の音声データの情報を用いる。

図５は、ＣＥＬＰ方式で符号化された音声データに対する復号装置の構成を示す。実施例３の音声データ復号装置は、ロスディテクタ３０１、第一音声データデコーダ３０２、パラメータ補間部３０４、第二音声データデコーダ３０３及び音声信号出力部３０５を備える。

ロスディテクタ３０１は、受信した音声データを第一音声データデコーダ３０２と第二音声データデコーダ３０３に出力するとともに、受信した音声データがロスしているかを検出する。ロスを検出した場合に、第一音声データデコーダ３０２がロス部分を補間する音声信号を出力する前に次の音声データを受信しているかを検出し、検出結果を第一音声データデコーダ３０２と第二音声データデコーダ３０３に出力する。

第一音声データデコーダ３０２は、ロスが検出されなかった場合、ロスディテクタ３０１から入力された音声データを復号して、復号音声信号を音声データ出力部に出力し、復号時のスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインをパラメータ補間部３０３に出力する。また、第一音声データデコーダ３０２は、ロスを検出し、次の音声データを受信していない場合、過去の音声データの情報を用いてロス部分を補間する音声信号を生成する。第一音声データデコーダ３０２は、特開２００２−２６８６９７号公報に記載されている方法を用いて音声信号を生成することができる。さらに、第一音声データデコーダ３０２は、パラメータ補間部３０４から入力されたパラメータを用いてロスした音声データに対する音声信号を生成し、音声信号出力部３０５に出力する。

第二音声データデコーダ３０３は、ロスを検出し、第一音声データデコーダ３０２がロス部分を補間する音声信号を出力する前に次の音声データを受信している場合、ロスした音声データに対する音声信号を過去の音声データの情報を用いて生成する。そして、第二音声データデコーダ３０３は、生成した音声データを使って次の音声データを復号し、復号に用いるスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインを抽出し、パラメータ補間部３０４に出力する。

パラメータ補間部３０４は、第一音声データデコーダ３０２から入力されたパラメータと第二音声データデコーダ３０３から入力されたパラメータを用いて、ロスした音声データに対するパラメータを生成し、第一音声データデコーダ３０２に出力する。

音声信号出力部３０５は、音声データデコーダ３０２から入力された復号音声信号を出力する。

次に、図６を参照しながら、実施例３の音声データ復号装置の動作を説明する。

まず、ロスディテクタ３０１が受信した音声データがロスしているかを検出する（ステップＳ８０１）。ロスしていないならば、第一音声データデコーダ３０２が、ロスディテクタ３０１から入力された音声データを復号し、復号時のスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインをパラメータ補間部３０４に出力する（ステップＳ８０２及びＳ８０３）。

ロスしているならば、ロスディテクタ３０１が第一音声データデコーダ３０２がロス部分を補間する音声信号を出力する前にロス後の次の音声データを受信しているか、検出する（ステップＳ８０４）。次の音声データを受信していないならば、第一音声データデコーダ３０２が、過去の音声データの情報を用いてロス部分を補間する音声信号を生成する（ステップＳ８０５）。

次の音声データを受信しているならば、第二音声データデコーダ３０３が、ロスした音声データに対する音声信号を過去の音声データの情報を用いて生成する（ステップＳ８０６）。第二音声データデコーダ３０３は、生成した音声信号を使って次の音声データを復号し、復号時のスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインを生成し、パラメータ補間部３０３に出力する（ステップＳ８０７）。次に、パラメータ補間部３０４が、第一音声データデコーダ３０２から入力されたパラメータと第二音声データデコーダ３０３から入力されたパラメータを用いて、ロスした音声データに対するパラメータを生成する（ステップＳ８０８）。そして、第一音声データデコーダ３０２は、パラメータ補間部３０４が生成したパラメータを用いて、ロスした音声データに対する音声信号を生成し、音声信号出力部３０５に出力する（ステップＳ８０９）。

第一音声データデコーダ３０２はそれぞれの場合で生成した音声信号を音声信号出力部３０５へ出力し、音声信号出力部３０５が復号音声信号を出力する（ステップＳ８１０）。

近年、急速に普及しているＶｏＩＰでは、音声データの到着時間の揺らぎを吸収するために、受信した音声データのバッファリングを行っている。実施例３によれば、ＣＥＬＰ方式においてロスした部分の音声信号を補間する際に、バッファに存在しているロスした次の音声データを用いることで、補間信号の音質を向上させることができる。

実施例４について、図７及び図８を参照しながら説明する。ＣＥＬＰ方式において、音声データのロスが生じたときに補間信号を用いると、ロスした部分は補うことができるものの、補間信号は正しい音声データから生成したわけではないので、その後に受信した音声データの音質を低下させてしまう。そこで、実施例４は、実施例３に加えて、音声データのロスの部分に対する補間音声信号を出力した後に、ロスした部分の音声データが遅れて届いた場合、この音声データを用いることにより、ロスした次の音声データの音声信号の品質を向上させる。

図７は、ＣＥＬＰ方式で符号化された音声データに対する復号装置の構成を示す。実施例４の音声データ復号装置は、ロスディテクタ４０１、第一音声データデコーダ４０２、第二音声データデコーダ４０３、メモリ蓄積部４０４及び音声信号出力部４０５を備える。

ロスディテクタ４０１は、受信した音声データを第一音声データデコーダ４０２と第二音声データデコーダ４０３に出力する。また、ロスディテクタ４０１は、受信した音声データがロスしたかを検出する。ロスを検出した場合には、次の音声データを受信しているかを検出し、検出結果を第一音声データデコーダ４０２、第二音声データデコーダ４０３及び音声信号出力部４０５に出力する。さらに、ロスディテクタ４０１は、ロスした音声データが遅れて受信したかどうかを検出する。

第一音声データデコーダ４０２は、ロスが検出されなかった場合、ロスディテクタ４０１から入力された音声データを復号する。また、第一音声データデコーダ４０２は、ロスが検出された場合、過去の音声データの情報を用いて音声信号を生成して、音声データ出力部４０５に出力する。第一音声データデコーダ４０２は、特開２００２−２６８６９７号後方に記載されている方法を用いて音声信号を生成することができる。さらに、第一音声データデコーダ４０２は、合成フィルタ等のメモリをメモリ蓄積部４０４に出力する。

第二音声データデコーダ４０３は、ロス部分の音声データが遅れて到着した場合、遅れて到着した音声データを、メモリ蓄積部４０４に蓄積されているロス検出直前パケットの合成フィルタ等のメモリを使って復号し、復号信号を音声信号出力部４０５に出力する。

音声信号出力部４０５は、ロスディテクタ４０１から入力されたロス検出結果に基づいて、第一音声データデコーダ４０２から入力された復号音声信号、第二音声データデコーダ４０３から入力された復号音声信号または前記二つの信号をある比率で加算した音声信号を出力する。

次に、図８を参照しながら、実施例４の音声データ復号装置の動作を説明する。

まず、音声データ復号装置は、ステップＳ８０１乃至Ｓ８１０の動作を行い、ロスした音声データを補間する音声信号を出力する。ここで、ステップＳ８０５及びＳ８０６のときに、過去の音声データより音声信号を生成したときに、合成フィルタ等のメモリをメモリ蓄積部４０４に出力する（ステップＳ９０３及びＳ９０４）。そして、ロスディテクタ４０１が、ロスしていた音声データを遅れて受信したのかを検出する（ステップＳ９０５）。ロスディテクタ４０１が検出していないならば、実施例３で生成した音声信号を出力する。ロスディテクタ４０１が検出したならば、第二音声データデコーダ４０３が、遅れて到着した音声データを、メモリ蓄積部４０４に蓄積されているロス検出直前パケットの合成フィルタ等のメモリを使って復号する（ステップＳ９０６）。

そして、声信号出力部４０５が、ロスディテクタ４０１から入力されたロス検出結果に基づいて、第一音声データデコーダ４０２から入力された復号音声信号、第二音声データデコーダ４０３から入力された復号音声信号または前記二つの信号をある比率で加算した音声信号を出力する（ステップＳ９０７）。具体的には、ロスを検出し、音声データが遅れて到着した場合、音声信号出力部４０５は、ロスした音声データの次の音声データに対する音声信号として、最初は、第一音声データデコーダ４０２から入力された復号音声信号の比を大きくする。そして、時間が経過するにつれて、音声信号出力部４０５は、第二音声データデコーダ４０３から入力された復号音声信号の比を大きくするように加算した音声信号を出力する。

実施例４によれば、遅れて届いたロス部分の音声データを用いて合成フィルタ等のメモリを書き換えることで、正しい復号音声信号を生成することができる。また、この正しい復号音声信号を、あえてすぐに出力せず、ある比率で加算した音声信号を出力することで、音声が不連続になることを防止することがきる。さらに、ロスした部分に補間信号を用いたとしても、遅れて届いたロス部分の音声データで合成フィルタ等のメモリを書きかえて復号音声信号を生成することで、補間信号後の音質を向上させることができる。

ここで、実施例４は、実施例３の変形例として説明したが、他の実施例の変形例であってもよい。

実施例５の音声データ変換装置について、図９及び図１０を参照しながら説明する。

図９は、ある音声符号化方式で符号化された音声信号を、別の音声符号化方式に変換する音声データ変換装置の構成を示している。音声データ変換装置は、例えば、Ｇ．７１１で代表される波形符号化方式で符号化された音声データを、ＣＥＬＰ方式で符号化された音声データに変換する。実施例５の音声データ変換装置は、ロスディテクタ５０１、音声データデコーダ５０２、音声データエンコーダ５０３、パラメータ修正部５０４及び音声データ出力部５０５を備える。

ロスディテクタ５０１は、受信した音声データを音声データデコーダ５０２に出力する。また、ロスディテクタ５０１は、受信した音声データがロスしているかを検出し、検出結果を音声データデコーダ５０２と音声データエンコーダ５０３とパラメータ修正部５０４と音声データ出力部５０５に出力する。

音声データデコーダ５０２は、ロスが検出されなかった場合、ロスディテクタ５０１から入力された音声データを復号し、復号音声信号を音声データエンコーダ５０３に出力する。

音声データエンコーダ５０３は、ロスが検出されなかった場合、音声データデコーダ５０２から入力された復号音声信号を符号化し、符号化した音声データを音声データ出力部５０５に出力する。また、音声データエンコーダ５０３は、符号化時のパラメータであるスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、残差信号または残差信号ゲインをパラメータ修正部５０４に出力する。さらに、音声データエンコーダ５０３は、ロスが検出された場合、パラメータ修正部５０４から入力されパラメータを受け取る。そして、音声データエンコーダ５０３は、パラメータ抽出に用いるフィルタ（図示せず）を保持しており、パラメータ修正部５０４から受け取ったパラメータを符号化して、音声データを生成する。その際に、音声データエンコーダ５０３はフィルタ等のメモリを更新する。ここで、音声データエンコーダ５０３は、符号化時に生じる量子化誤差により、符号化後のパラメータ値がパラメータ修正部５０４から入力された値と同じ値にならない場合、符号化後のパラメータ値がパラメータ修正部５０４から入力された値に最も近い値となるように選択する。また、通信相手の無線通信装置が保持するフィルタのメモリとの齟齬が生じることを避けるために、音声データエンコーダ５０３は、音声データを生成する際に、パラメータ抽出などに用いるフィルタが持つメモリ（図示せず）を更新する。さらに、音声データエンコーダ５０３は、生成した音声データを音声データ出力部５０５に出力する。

パラメータ修正部５０４は、音声データエンコーダ５０３から符号化時のパラメータであるスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、残差信号または残差信号ゲインを受け取り、保存する。また、パラメータ修正部５０４は、保持していたロス検出前のパラメータを修正しないで、又は所定の修正をし、ロスディテクタ５０１から入力されるロス検出結果に基づいて、音声データエンコーダ５０３へ出力する。

音声データ出力部５０５は、ロスディテクタ５０１から受け取ったロス検出結果に基づいて、音声データエンコーダ５０３から受け取った音声信号を出力する。

次に、図１０を参照しながら、実施例５の音声データ変換装置を説明する。

まず、ロスディテクタ５０１が、受信した音声データがロスしているかを検出する（ステップＳ１００１）。ロスディテクタ５０１がロスを検出しなかったなら、音声データデコーダ５０２が受信した音声データを基に復号音声信号を生成する（ステップＳ１００２）。そして、音声データエンコーダ５０３が、復号音声信号を符号化し、符号化時のパラメータであるスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、残差信号または残差信号ゲインを出力する（ステップＳ１００３）。

ロスディテクタ５０１がロスを検出したなら、パラメータ修正部５０４が、保持しているロス前のパラメータを修正しないで、または所定の修正をして、音声データエンコーダ５０３へ出力する。このパラメータを受信した音声データエンコーダ５０３は、パラメータを抽出するためのフィルタが持つメモリを更新する（ステップＳ１００４）。さらに、音声データエンコーダ５０３が、ロスする直前のパラメータを基に音声信号を生成する（ステップＳ１００５）。

そして、音声データ出力部５０５が、ロス検出結果に基づいて、音声データエンコーダ５０３から受け取った音声信号を出力する（ステップＳ１００６）。

実施例５により、例えばゲートウェイなどのようなデータを変換する装置において、音声データのロスに対する補間信号を波形符号化方式で生成せず、パラメータなどを用いてロス部分を補間することで、補間信号の音質を向上させることができる。また、音声データのロスに対する補間信号を波形符号化方式で生成せず、パラメータなどを用いてロス部分を補間することで、演算量を少なくすることができる。

ここで、実施例５ではＧ．７１１で代表される波形符号化方式で符号化された音声データをＣＥＬＰ方式で符号化された音声データに変換する形態を示したが、ＣＥＬＰ方式で符号化された音声データを別のＣＥＬＰ方式で符号化された音声データに変換する形態でもよい。

上記実施例に係る装置のうちのあるものは、例えば、以下のようにまとめることが可能である。

波形符号化方式による音声データ復号装置は、ロスディテクタと、音声データデコーダと、音声データアナライザと、パラメータ修正部と、音声合成部と、音声信号出力部を備える。ロスディテクタは、音声データ中にロスを検出し、音声信号出力部がロスを補間する音声信号を出力する前にロス後の音声フレームを受信したかを検出する。音声データデコーダは、音声フレームを復号して復号音声信号を生成する。音声データアナライザは、復号音声信号の時間を反転させてパラメータを抽出する。パラメータ修正部は、パラメータに所定の修正を行う。音声合成部は、修正されたパラメータを用いて合成音声信号を生成する。

ＣＥＬＰ方式（Ｃｏｄｅ−ＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）による音声データ復号装置は、ロスディテクタと、第一音声データデコーダと、第二音声データデコーダと、パラメータ補間部と、音声信号出力部を備える。ロスディテクタは、音声データ中にロスがあるかを検出し、第一音声データデコーダが第一音声信号を出力する前にロス後の音声フレームを受信したかを検出する。第一音声データデコーダは、ロス検出の結果に基づいて、音声データを復号して音声信号を生成する。第二音声データデコーダは、ロス検出の結果に基づいて、音声フレームに対応する音声信号を生成する。パラメータ補間部は、第一及び第二パラメータを用いてロスに対応する第三パラメータを生成して第一音声データデコーダに出力する。音声信号出力部は、第一音声データデコーダから入力された音声信号を出力する。第一音声データデコーダは、ロスが検出されなかった場合、音声データを復号して音声信号を生成し、この復号時に抽出した第一パラメータをパラメータ補間部に出力する。第一音声データデコーダは、ロスが検出された場合、音声データのロスの前の部分を用いてロスに対応する第一音声信号を生成する。第二音声データデコーダは、ロスが検出され、かつ第一音声データデコーダが第一音声信号を出力する前に音声フレームが検出された場合、音声データのロスの前の部分を用いてロスに対応する第二音声信号を生成し、第二音声信号を用いて音声フレームを復号し、この復号時に抽出した第二パラメータをパラメータ補間部に出力する。第一音声データデコーダは、パラメータ補間部から入力された第三パラメータを用いてロスに対応する第三音声信号を生成する。

ＣＥＬＰ方式により、音声データ中のロスを補間する補間信号を出力する音声データ復号装置は、ロスディテクタと、音声データデコーダと、音声信号出力部を備える。ロスディテクタは、ロスを検出し、音声データのロス部分を遅れて受信したことを検出する。ロス部分はロスに対応する。音声データデコーダは、メモリ蓄積部に蓄積されている音声データのロスの前の部分を使ってロス部分を復号して復号音声信号を生成する。音声信号出力部は、復号音声信号を含む音声信号を復号音声信号の強度の音声信号の強度に対する比率が変化するように出力する。

第一音声符号化方式の第一音声データを第二音声符号化方式の第二音声データに変換する音声データ変換装置は、ロスディテクタと、音声データデコーダと、音声データエンコーダと、パラメータ修正部を備える。ロスディテクタは、第一音声データ中のロスを検出する。音声データデコーダは、第一音声データを復号して復号音声信号を生成する。音声データエンコーダは、パラメータを抽出するフィルタを備え、復号音声信号を第二音声符号化方式で符号化する。パラメータ修正部は、音声データエンコーダからパラメータを受け取って保持する。パラメータ修正部は、パラメータに所定の修正を行い、又は行わずに、ロス検出の結果に基づいて、音声データエンコーダに出力する。音声データエンコーダは、ロスが検出されなかった場合、復号音声信号を第二音声符号化方式で符号化し、この符号化時に抽出したパラメータをパラメータ修正部に出力する。音声データエンコーダは、ロスが検出された場合、パラメータ修正部から入力されるパラメータに基づいて音声信号を生成し、フィルタが持つメモリを更新する。

第一音声符号化方式が波形符号化方式であり、第二音声符号化方式がＣＥＬＰ方式であることが好ましい。

パラメータが、スペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号、または正規化残差信号ゲインであることが好ましい。

当業者は上記実施例の様々な変形を容易に実施することができる。したがって、本発明は上記実施例に限定されることはなく、請求項やその均等物によって参酌される最も広い範囲で解釈される。

Claims

音声データ中にロスがあるかを検出するロスディテクタと、
前記音声データの前記ロス直前の部分を復号して第一復号音声信号を生成する音声データデコーダと、
前記第一復号音声信号から第一パラメータを抽出する音声データアナライザと、前記第一パラメータは、スペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号のすべて、又は、スペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号ゲインのすべてを含み、
乱数を加える又はゲインを小さくしていくことで前記第一パラメータを修正するパラメータ修正部と、
修正された前記第一パラメータを用いて第一合成音声信号を生成する音声合成部と、
音声信号出力部と
を具備し、
前記ロスディテクタは、前記音声信号出力部が前記ロスを補間する音声信号を出力する前に前記音声データの前記ロスの次の部分を受信したかを検出し、
前記音声データデコーダは、前記次の部分を復号して第二復号音声信号を生成し、
前記音声データアナライザは、前記第二復号音声信号の時間を反転させて第二パラメータを抽出し、
前記第二パラメータは、スペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号のすべて、又は、スペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号ゲインのすべてを含み、
前記パラメータ修正部は、乱数を加える又はゲインを小さくしていくことで前記第二パラメータを修正し、
前記音声合成部は、修正された前記第二パラメータを用いて第二合成音声信号を生成し、
前記音声信号出力部は、前記第一合成音声信号と前記第二合成音声信号の時間反転信号とを含む音声信号を前記ロスを補間する音声信号として前記第一合成音声信号の強度の前記第二合成音声信号の強度に対する比率が時間とともに低下するように出力する
波形符号化方式による音声データ復号装置。