JP4678440B2 - 音声データ復号装置 - Google Patents

音声データ復号装置 Download PDF

Info

Publication number
JP4678440B2
JP4678440B2 JP2008526756A JP2008526756A JP4678440B2 JP 4678440 B2 JP4678440 B2 JP 4678440B2 JP 2008526756 A JP2008526756 A JP 2008526756A JP 2008526756 A JP2008526756 A JP 2008526756A JP 4678440 B2 JP4678440 B2 JP 4678440B2
Authority
JP
Japan
Prior art keywords
audio data
parameter
audio
loss
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008526756A
Other languages
English (en)
Other versions
JPWO2008013135A1 (ja
Inventor
伊藤  博紀
一範 小澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2008013135A1 publication Critical patent/JPWO2008013135A1/ja
Application granted granted Critical
Publication of JP4678440B2 publication Critical patent/JP4678440B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Description

本発明は、音声データの復号装置、音声データの変換装置、及び誤り補償方法に関する。
回線交換網又はパケット網を使って音声データを伝送する際、音声データを符号化、復号を行うことで音声信号の授受を行っている。この音声圧縮の方式としては、例えば、ITU−T(International Telecommunication Union Telecommunication Standardization Sector)勧告G.711方式、及びCELP(Code−Excited Linear Prediction)方式が知られている。
これらの圧縮方式で符号化された音声データを伝送すると、無線誤り又はネットワークの輻輳等により、音声データの一部が欠落することがある。この欠落部に対する誤り補償として、欠落部より前の音声データの部分の情報に基づいて、欠落部に対する音声信号の生成を行う。
このような誤り補償においては、音質が劣化することがある。特開2002−268697号公報は、音質の劣化を低減する方法を開示している。この方法においては、遅れて受信したパケットに含まれる音声フレームデータを用いて、フィルタメモリ値を更新する。すなわち、ロスしたパケットを遅れて受信した場合、このパケットに含まれる音声フレームデータを用いて、ピッチフィルタ、またはスペクトル概形を表すフィルタで使用するフィルタメモリ値を更新する。
また、特開2005−274917号公報は、ADPCM(Adaptive Differential Pulse Code Modulation)符号化に関連する技術を開示している。この技術は、符号化側と復号化側の予測器の状態不一致により不快な異常音を出力するという課題を解決することを可能とする。この課題は、符号化データの欠落後に正しい符号化データを受け取っても発生することがある。すなわち、パケット損失が「検出」から「非検出」へ遷移してから所定時間、検出状態制御部が過去の音声データを基に生成した補間信号の強度を徐々に減少させ、時間が経つにつれて符号化側と復号化側との予測器の状態が次第に一致して音声信号が正常になっていくので、音声信号の強度を徐々に増大させる。その結果、この技術は、符号化データの欠落状態から復旧した直後においても異常音を出力しないという効果を奏する。
さらに、特開平11−305797号公報では、音声信号から線形予測計数を算出し、この線形予測計数から音声信号を生成する方法が開示されている。
従来の音声データに対する誤り補償方式は、過去の音声波形を繰り返す単純な方式であるため、上記のような技術が開示されているものの、音質に依然、改善の余地が残されていた。
本発明の目的は、音質の劣化を防止しなら音声データの誤りを補償することである。
波形符号化方式による音声データ復号装置は、ロスディテクタと、音声データデコーダと、音声データアナライザと、パラメータ修正部と、音声合成部を備える。ロスディテクタは、音声データ中にロスがあるかを検出する。音声データデコーダは、音声データを復号して第一復号音声信号を生成する。音声データアナライザは、第一復号音声信号から第一パラメータを抽出する。パラメータ修正部は、ロス検出の結果に基づいて第一パラメータを修正する。音声合成部は、修正された第一パラメータを用いて第一合成音声信号を生成する。
本発明によれば、音質の劣化を防止しながら音声データの誤りが補償される。
本発明の実施例1の音声データ復号装置の構成を示す概略図である。 本発明の実施例1の音声データ復号装置の動作を示す流れ図である。 本発明の実施例2の音声データ復号装置の構成を示す概略図である。 本発明の実施例2の音声データ復号装置の動作を示す流れ図である。 本発明の実施例3の音声データ復号装置の構成を示す概略図である。 本発明の実施例3の音声データ復号装置の動作を示す流れ図である。 本発明の実施例4の音声データ復号装置の構成を示す概略図である。 本発明の実施例4の音声データ復号装置の動作を示す流れ図である。 本発明の実施例5の音声データ変換装置の構成を示す概略図である。 本発明の実施例5の音声データ変換装置の動作を示す流れ図である。
本発明の実施の形態について図面を参照しながら説明する。しかしながら、係る形態は本発明の技術的範囲を限定するものではない。
本発明の実施例1について、図1及び図2を参照しながら以下に説明する。
図1は、G.711方式に代表される波形符号化方式で符号化された音声データに対する復号装置の構成を示す。実施例1の音声データ復号装置は、ロスディテクタ101、音声データデコーダ102、音声データアナライザ103、パラメータ修正部104、音声合成部105及び音声信号出力部106を備える。ここで、音声データとは、ある一連の音声を符号化したデータをいい、また、少なくとも1つの音声フレームを含む音声のデータのことをいう。
ロスディテクタ101は、受信した音声データを音声データデコーダ102に出力するとともに、受信した音声データがロスしたかを検出し、ロス検出結果を音声データデコーダ102とパラメータ修正部104と音声信号出力部106に出力する。
音声データデコーダ102は、ロスディテクタ101から入力された音声データを復号して、復号音声信号を音声データ出力部106と音声データアナライザ103に出力する。
音声データアナライザ103は、復号音声信号をフレーム毎に分割し、分割した信号に対して線形予測分析を用いて、音声信号のスペクトル特性を表すスペクトルパラメータを抽出する。各フレームの長さは、例えば、20msである。次に、音声データアナライザ103は、分割した音声信号をサブフレームに分割し、サブフレーム毎に過去の音源信号を基に適応コードブックにおけるパラメータとして、ピッチ周期に対応する遅延パラメータと適応コードブックゲインを抽出する。各サブフレームの長さは、例えば5msである。また、音声データアナライザ103は、適応コードブックにより該当するサブフレームの音声信号をピッチ予測する。さらに、音声データアナライザ103は、ピッチ予測して求めた残差信号を正規化して、正規化残差信号と正規化残差信号ゲインを抽出する。そして、抽出したスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲイン(これらはパラメータと呼ばれる場合がある)をパラメータ修正部104に出力する。音声データアナライザ103は、スペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号及び正規化残差信号ゲインのうちから2つ以上を抽出することが好ましい。
パラメータ修正部104は、ロスディテクタ101から入力されたロス検出結果に基づいて、音声データアナライザ103から入力されたスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインを修正しない、又は±1%の乱数を加える、或いはゲインを小さくしていくなどの修正をする。さらに、パラメータ修正部104は、修正した又は修正していない値を音声合成部105に出力する。これらの値を修正する理由は、繰り返しにより不自然な音声信号が生成されることを避けるためである。
音声合成部105は、パラメータ修正部104から入力されたスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインを使って合成音声信号を生成し、音声信号出力部106に出力する。
音声信号出力部106は、ロスディテクタ101から入力されたロス検出結果に基づいて、音声データデコーダ102から入力された復号音声信号、音声合成部105から入力された合成音声信号、又は復号音声信号と合成音声信号とをある比率で混合した信号のいずれかを出力する。
次に、図2を参照しながら、実施例1の音声データ復号装置の動作を説明する。
まず、ロスディテクタ101は、受信した音声データがロスしているかを検出する(ステップS601)。ロスディテクタ101は、無線網におけるビット誤りをCRC(Cyclic Redundancy Check)符号を用いて検出した場合に音声データがロスしたとして検出する方法、又はIP(Internet Protocol)網におけるロスをRFC3550RTP(A Transport Protocol for Real−Time Applications)ヘッダのシーケンス番号の抜けにより検出した場合に音声データがロスしたとして検出する方法を用いることができる。
ロスディテクタ101が音声データのロスを検出しなかったならば、音声データアナライザ102が受信した音声データを復号し、音声信号出力部へ出力する(ステップS602)。
ロスディテクタ101が音声データのロスを検出したならば、音声データアナライザ103が、音声データのロス直前の部分に対応する復号音声信号に基づいて、スペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインを抽出する(ステップS603)。ここで、復号音声信号の分析は、音声データのロス直前の部分に対応する復号音声信号に対して行なってもよいし、全ての復号音声信号に対して行ってもよい。次に、パラメータ修正部104はロス検出結果に基づいて、スペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインを修正しない、或いは±1%の乱数を加える等して修正する(ステップS604)。音声合成部105は、これらの値を使って、合成音声信号を生成する(ステップS605)。
そして、音声信号出力部106は、ロス検出結果に基づいて、音声データデコーダ102から入力された復号音声信号、音声合成部105から入力された合成音声信号又は復号音声信号と合成音声信号とをある比率で混合した信号のいずれかを出力する(ステップS606)。具体的には、前フレームと現フレームでロスが検出されていない場合は、音声信号出力部106は復号音声信号を出力する。ロスが検出された場合は、音声信号出力部106は合成音声信号を出力する。ロスが検出された次のフレームでは、最初は、合成音声信号の比が大きく、時間が経過するにつれて復号音声信号の比が大きくなるように音声信号を加算することにより、音声信号出力部106から出力される音声信号が不連続になることを避ける。
実施例1の音声データ復号装置は、パラメータを抽出し、これらの値を、音声データのロスを補間する信号に利用することで、ロスを補間する音声の音質を向上させることができる。従来、G.711方式においてはパラメーラを抽出していなかった。
実施例2について、図3及び図4を参照しながら説明する。実施例2と実施例1との異なる点は、音声データのロスを検出した際、ロス部分を補間する音声信号を出力する前に、ロス後の次の音声データを受信しているかを検出する。そして、次の音声データを検出した場合、ロスした音声データに対する音声信号を生成するのに、実施例1の動作に加え、次の音声データの情報をも用いる点である。
図3は、G.711方式に代表される波形符号化方式で符号化された音声データに対する復号装置の構成を示す。実施例2の音声データ復号装置は、ロスディテクタ201、音声データデコーダ202、音声データアナライザ203、パラメータ修正部204、音声合成部205及び音声信号出力部206を含む。ここで、音声データデコーダ202、パラメータ修正部204及び音声合成部205は、実施例1の音声データデコーダ102、パラメータ修正部104及び音声合成部105と同じ動作をする。
ロスディテクタ201は、ロスディテクタ101と同じ動作を実行する。音声データのロスを検出した場合、ロスディテクタ201は、音声信号出力部206がロス部分を補間する音声信号を出力する前に、ロス後の次の音声データを受信しているかを検出する。さらに、ロスディテクタ201は、この検出結果を音声データデコーダ202と音声データアナライザ203とパラメータ修正部204と音声信号出力部206に出力する。
音声データアナライザ203は、音声データアナライザ103と同じ動作を実行する。音声データアナライザ203は、ロスディテクタ201からの検出結果に基づいて、ロスを検出した次の音声データに対する音声信号の時間を反転させた信号を生成する。そして、この信号について実施例1と同様の手順で分析を行い、抽出したスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインをパラメータ修正部204に出力する。
音声信号出力部206は、ロスディテクタ201から入力されたロス検出結果に基づいて、音声データデコーダ202から入力された復号音声信号、或いは最初はロスが検出された前の音声データのパラメータにより生成された合成音声信号の比率が高く、最後はロスが検出された次の音声データのパラメータにより生成された合成音声信号の時間を反転させた信号の比率が高くなるように加算した信号のいずれかを出力する。
次に、図4を参照しながら、実施例2の音声データ復号装置の動作を説明する。
まず、ロスディテクタ201は、受信した音声データがロスしているかを検出する(ステップS701)。ロスディテクタ201が音声データのロスを検出しなかったならば、ステップS602と同様の動作を行う(ステップ702)。
ロスディテクタ201が音声データのロスを検出したならば、ロスディテクタ201が、音声信号出力部206がロス部分を補間する音声信号を出力する前にロス後の次の音声データを受信しているか、検出する(ステップS703)。次の音声データを受信していないならば、ステップS603乃至S605と同様の動作を行う(ステップS704乃至S706)。次の音声データを受信したならば、音声データデコーダ202が次の音声データを復号する(ステップS707)。この復号した次の音声データを基に、音声データアナライザ203がスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインを抽出する(ステップS708)。次に、パラメータ修正部204はロス検出結果に基づいて、スペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインを修正しない、或いは±1%の乱数を加える等して修正する(ステップS709)。音声合成部205は、これらの値を使って、合成音声信号を生成する(ステップS710)。
そして、音声信号出力部206は、ロスディテクタ201から入力されたロス検出結果に基づいて、音声データデコーダ202から入力された復号音声信号、または最初はロスが検出された前の音声データのパラメータにより生成された合成音声信号の比率が高く、最後はロスが検出された次の音声データのパラメータにより生成された合成音声信号の時間を反転させた信号の比率が高くなるように加算した信号を出力する(ステップS711)。
近年、急速に普及しているVoIP(Voice over IP)では、音声データの到着時間の揺らぎを吸収するために、受信した音声データのバッファリングを行っている。実施例2によれば、ロスした部分の音声信号を補間する際に、バッファに存在しているロスした次の音声データを用いることで、補間信号の音質を向上させることができる。
実施例3について、図5及び図6を参照しながら説明する。本実施例では、CELP方式で符号化された音声データの復号に関して、音声データのロスを検出した場合に、実施例2と同様に、第一音声データデコーダ302がロス部分を補間する音声信号を出力する前にロス後の次の音声データを受信していれば、ロスした音声データに対する音声信号を生成する際に次の音声データの情報を用いる。
図5は、CELP方式で符号化された音声データに対する復号装置の構成を示す。実施例3の音声データ復号装置は、ロスディテクタ301、第一音声データデコーダ302、パラメータ補間部304、第二音声データデコーダ303及び音声信号出力部305を備える。
ロスディテクタ301は、受信した音声データを第一音声データデコーダ302と第二音声データデコーダ303に出力するとともに、受信した音声データがロスしているかを検出する。ロスを検出した場合に、第一音声データデコーダ302がロス部分を補間する音声信号を出力する前に次の音声データを受信しているかを検出し、検出結果を第一音声データデコーダ302と第二音声データデコーダ303に出力する。
第一音声データデコーダ302は、ロスが検出されなかった場合、ロスディテクタ301から入力された音声データを復号して、復号音声信号を音声データ出力部に出力し、復号時のスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインをパラメータ補間部303に出力する。また、第一音声データデコーダ302は、ロスを検出し、次の音声データを受信していない場合、過去の音声データの情報を用いてロス部分を補間する音声信号を生成する。第一音声データデコーダ302は、特開2002−268697号公報に記載されている方法を用いて音声信号を生成することができる。さらに、第一音声データデコーダ302は、パラメータ補間部304から入力されたパラメータを用いてロスした音声データに対する音声信号を生成し、音声信号出力部305に出力する。
第二音声データデコーダ303は、ロスを検出し、第一音声データデコーダ302がロス部分を補間する音声信号を出力する前に次の音声データを受信している場合、ロスした音声データに対する音声信号を過去の音声データの情報を用いて生成する。そして、第二音声データデコーダ303は、生成した音声データを使って次の音声データを復号し、復号に用いるスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインを抽出し、パラメータ補間部304に出力する。
パラメータ補間部304は、第一音声データデコーダ302から入力されたパラメータと第二音声データデコーダ303から入力されたパラメータを用いて、ロスした音声データに対するパラメータを生成し、第一音声データデコーダ302に出力する。
音声信号出力部305は、音声データデコーダ302から入力された復号音声信号を出力する。
次に、図6を参照しながら、実施例3の音声データ復号装置の動作を説明する。
まず、ロスディテクタ301が受信した音声データがロスしているかを検出する(ステップS801)。ロスしていないならば、第一音声データデコーダ302が、ロスディテクタ301から入力された音声データを復号し、復号時のスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインをパラメータ補間部304に出力する(ステップS802及びS803)。
ロスしているならば、ロスディテクタ301が第一音声データデコーダ302がロス部分を補間する音声信号を出力する前にロス後の次の音声データを受信しているか、検出する(ステップS804)。次の音声データを受信していないならば、第一音声データデコーダ302が、過去の音声データの情報を用いてロス部分を補間する音声信号を生成する(ステップS805)。
次の音声データを受信しているならば、第二音声データデコーダ303が、ロスした音声データに対する音声信号を過去の音声データの情報を用いて生成する(ステップS806)。第二音声データデコーダ303は、生成した音声信号を使って次の音声データを復号し、復号時のスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号または正規化残差信号ゲインを生成し、パラメータ補間部303に出力する(ステップS807)。次に、パラメータ補間部304が、第一音声データデコーダ302から入力されたパラメータと第二音声データデコーダ303から入力されたパラメータを用いて、ロスした音声データに対するパラメータを生成する(ステップS808)。そして、第一音声データデコーダ302は、パラメータ補間部304が生成したパラメータを用いて、ロスした音声データに対する音声信号を生成し、音声信号出力部305に出力する(ステップS809)。
第一音声データデコーダ302はそれぞれの場合で生成した音声信号を音声信号出力部305へ出力し、音声信号出力部305が復号音声信号を出力する(ステップS810)。
近年、急速に普及しているVoIPでは、音声データの到着時間の揺らぎを吸収するために、受信した音声データのバッファリングを行っている。実施例3によれば、CELP方式においてロスした部分の音声信号を補間する際に、バッファに存在しているロスした次の音声データを用いることで、補間信号の音質を向上させることができる。
実施例4について、図7及び図8を参照しながら説明する。CELP方式において、音声データのロスが生じたときに補間信号を用いると、ロスした部分は補うことができるものの、補間信号は正しい音声データから生成したわけではないので、その後に受信した音声データの音質を低下させてしまう。そこで、実施例4は、実施例3に加えて、音声データのロスの部分に対する補間音声信号を出力した後に、ロスした部分の音声データが遅れて届いた場合、この音声データを用いることにより、ロスした次の音声データの音声信号の品質を向上させる。
図7は、CELP方式で符号化された音声データに対する復号装置の構成を示す。実施例4の音声データ復号装置は、ロスディテクタ401、第一音声データデコーダ402、第二音声データデコーダ403、メモリ蓄積部404及び音声信号出力部405を備える。
ロスディテクタ401は、受信した音声データを第一音声データデコーダ402と第二音声データデコーダ403に出力する。また、ロスディテクタ401は、受信した音声データがロスしたかを検出する。ロスを検出した場合には、次の音声データを受信しているかを検出し、検出結果を第一音声データデコーダ402、第二音声データデコーダ403及び音声信号出力部405に出力する。さらに、ロスディテクタ401は、ロスした音声データが遅れて受信したかどうかを検出する。
第一音声データデコーダ402は、ロスが検出されなかった場合、ロスディテクタ401から入力された音声データを復号する。また、第一音声データデコーダ402は、ロスが検出された場合、過去の音声データの情報を用いて音声信号を生成して、音声データ出力部405に出力する。第一音声データデコーダ402は、特開2002−268697号後方に記載されている方法を用いて音声信号を生成することができる。さらに、第一音声データデコーダ402は、合成フィルタ等のメモリをメモリ蓄積部404に出力する。
第二音声データデコーダ403は、ロス部分の音声データが遅れて到着した場合、遅れて到着した音声データを、メモリ蓄積部404に蓄積されているロス検出直前パケットの合成フィルタ等のメモリを使って復号し、復号信号を音声信号出力部405に出力する。
音声信号出力部405は、ロスディテクタ401から入力されたロス検出結果に基づいて、第一音声データデコーダ402から入力された復号音声信号、第二音声データデコーダ403から入力された復号音声信号または前記二つの信号をある比率で加算した音声信号を出力する。
次に、図8を参照しながら、実施例4の音声データ復号装置の動作を説明する。
まず、音声データ復号装置は、ステップS801乃至S810の動作を行い、ロスした音声データを補間する音声信号を出力する。ここで、ステップS805及びS806のときに、過去の音声データより音声信号を生成したときに、合成フィルタ等のメモリをメモリ蓄積部404に出力する(ステップS903及びS904)。そして、ロスディテクタ401が、ロスしていた音声データを遅れて受信したのかを検出する(ステップS905)。ロスディテクタ401が検出していないならば、実施例3で生成した音声信号を出力する。ロスディテクタ401が検出したならば、第二音声データデコーダ403が、遅れて到着した音声データを、メモリ蓄積部404に蓄積されているロス検出直前パケットの合成フィルタ等のメモリを使って復号する(ステップS906)。
そして、声信号出力部405が、ロスディテクタ401から入力されたロス検出結果に基づいて、第一音声データデコーダ402から入力された復号音声信号、第二音声データデコーダ403から入力された復号音声信号または前記二つの信号をある比率で加算した音声信号を出力する(ステップS907)。具体的には、ロスを検出し、音声データが遅れて到着した場合、音声信号出力部405は、ロスした音声データの次の音声データに対する音声信号として、最初は、第一音声データデコーダ402から入力された復号音声信号の比を大きくする。そして、時間が経過するにつれて、音声信号出力部405は、第二音声データデコーダ403から入力された復号音声信号の比を大きくするように加算した音声信号を出力する。
実施例4によれば、遅れて届いたロス部分の音声データを用いて合成フィルタ等のメモリを書き換えることで、正しい復号音声信号を生成することができる。また、この正しい復号音声信号を、あえてすぐに出力せず、ある比率で加算した音声信号を出力することで、音声が不連続になることを防止することがきる。さらに、ロスした部分に補間信号を用いたとしても、遅れて届いたロス部分の音声データで合成フィルタ等のメモリを書きかえて復号音声信号を生成することで、補間信号後の音質を向上させることができる。
ここで、実施例4は、実施例3の変形例として説明したが、他の実施例の変形例であってもよい。
実施例5の音声データ変換装置について、図9及び図10を参照しながら説明する。
図9は、ある音声符号化方式で符号化された音声信号を、別の音声符号化方式に変換する音声データ変換装置の構成を示している。音声データ変換装置は、例えば、G.711で代表される波形符号化方式で符号化された音声データを、CELP方式で符号化された音声データに変換する。実施例5の音声データ変換装置は、ロスディテクタ501、音声データデコーダ502、音声データエンコーダ503、パラメータ修正部504及び音声データ出力部505を備える。
ロスディテクタ501は、受信した音声データを音声データデコーダ502に出力する。また、ロスディテクタ501は、受信した音声データがロスしているかを検出し、検出結果を音声データデコーダ502と音声データエンコーダ503とパラメータ修正部504と音声データ出力部505に出力する。
音声データデコーダ502は、ロスが検出されなかった場合、ロスディテクタ501から入力された音声データを復号し、復号音声信号を音声データエンコーダ503に出力する。
音声データエンコーダ503は、ロスが検出されなかった場合、音声データデコーダ502から入力された復号音声信号を符号化し、符号化した音声データを音声データ出力部505に出力する。また、音声データエンコーダ503は、符号化時のパラメータであるスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、残差信号または残差信号ゲインをパラメータ修正部504に出力する。さらに、音声データエンコーダ503は、ロスが検出された場合、パラメータ修正部504から入力されパラメータを受け取る。そして、音声データエンコーダ503は、パラメータ抽出に用いるフィルタ(図示せず)を保持しており、パラメータ修正部504から受け取ったパラメータを符号化して、音声データを生成する。その際に、音声データエンコーダ503はフィルタ等のメモリを更新する。ここで、音声データエンコーダ503は、符号化時に生じる量子化誤差により、符号化後のパラメータ値がパラメータ修正部504から入力された値と同じ値にならない場合、符号化後のパラメータ値がパラメータ修正部504から入力された値に最も近い値となるように選択する。また、通信相手の無線通信装置が保持するフィルタのメモリとの齟齬が生じることを避けるために、音声データエンコーダ503は、音声データを生成する際に、パラメータ抽出などに用いるフィルタが持つメモリ(図示せず)を更新する。さらに、音声データエンコーダ503は、生成した音声データを音声データ出力部505に出力する。
パラメータ修正部504は、音声データエンコーダ503から符号化時のパラメータであるスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、残差信号または残差信号ゲインを受け取り、保存する。また、パラメータ修正部504は、保持していたロス検出前のパラメータを修正しないで、又は所定の修正をし、ロスディテクタ501から入力されるロス検出結果に基づいて、音声データエンコーダ503へ出力する。
音声データ出力部505は、ロスディテクタ501から受け取ったロス検出結果に基づいて、音声データエンコーダ503から受け取った音声信号を出力する。
次に、図10を参照しながら、実施例5の音声データ変換装置を説明する。
まず、ロスディテクタ501が、受信した音声データがロスしているかを検出する(ステップS1001)。ロスディテクタ501がロスを検出しなかったなら、音声データデコーダ502が受信した音声データを基に復号音声信号を生成する(ステップS1002)。そして、音声データエンコーダ503が、復号音声信号を符号化し、符号化時のパラメータであるスペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、残差信号または残差信号ゲインを出力する(ステップS1003)。
ロスディテクタ501がロスを検出したなら、パラメータ修正部504が、保持しているロス前のパラメータを修正しないで、または所定の修正をして、音声データエンコーダ503へ出力する。このパラメータを受信した音声データエンコーダ503は、パラメータを抽出するためのフィルタが持つメモリを更新する(ステップS1004)。さらに、音声データエンコーダ503が、ロスする直前のパラメータを基に音声信号を生成する(ステップS1005)。
そして、音声データ出力部505が、ロス検出結果に基づいて、音声データエンコーダ503から受け取った音声信号を出力する(ステップS1006)。
実施例5により、例えばゲートウェイなどのようなデータを変換する装置において、音声データのロスに対する補間信号を波形符号化方式で生成せず、パラメータなどを用いてロス部分を補間することで、補間信号の音質を向上させることができる。また、音声データのロスに対する補間信号を波形符号化方式で生成せず、パラメータなどを用いてロス部分を補間することで、演算量を少なくすることができる。
ここで、実施例5ではG.711で代表される波形符号化方式で符号化された音声データをCELP方式で符号化された音声データに変換する形態を示したが、CELP方式で符号化された音声データを別のCELP方式で符号化された音声データに変換する形態でもよい。
上記実施例に係る装置のうちのあるものは、例えば、以下のようにまとめることが可能である。
波形符号化方式による音声データ復号装置は、ロスディテクタと、音声データデコーダと、音声データアナライザと、パラメータ修正部と、音声合成部と、音声信号出力部を備える。ロスディテクタは、音声データ中にロスを検出し、音声信号出力部がロスを補間する音声信号を出力する前にロス後の音声フレームを受信したかを検出する。音声データデコーダは、音声フレームを復号して復号音声信号を生成する。音声データアナライザは、復号音声信号の時間を反転させてパラメータを抽出する。パラメータ修正部は、パラメータに所定の修正を行う。音声合成部は、修正されたパラメータを用いて合成音声信号を生成する。
CELP方式(Code−Excited Linear Prediction)による音声データ復号装置は、ロスディテクタと、第一音声データデコーダと、第二音声データデコーダと、パラメータ補間部と、音声信号出力部を備える。ロスディテクタは、音声データ中にロスがあるかを検出し、第一音声データデコーダが第一音声信号を出力する前にロス後の音声フレームを受信したかを検出する。第一音声データデコーダは、ロス検出の結果に基づいて、音声データを復号して音声信号を生成する。第二音声データデコーダは、ロス検出の結果に基づいて、音声フレームに対応する音声信号を生成する。パラメータ補間部は、第一及び第二パラメータを用いてロスに対応する第三パラメータを生成して第一音声データデコーダに出力する。音声信号出力部は、第一音声データデコーダから入力された音声信号を出力する。第一音声データデコーダは、ロスが検出されなかった場合、音声データを復号して音声信号を生成し、この復号時に抽出した第一パラメータをパラメータ補間部に出力する。第一音声データデコーダは、ロスが検出された場合、音声データのロスの前の部分を用いてロスに対応する第一音声信号を生成する。第二音声データデコーダは、ロスが検出され、かつ第一音声データデコーダが第一音声信号を出力する前に音声フレームが検出された場合、音声データのロスの前の部分を用いてロスに対応する第二音声信号を生成し、第二音声信号を用いて音声フレームを復号し、この復号時に抽出した第二パラメータをパラメータ補間部に出力する。第一音声データデコーダは、パラメータ補間部から入力された第三パラメータを用いてロスに対応する第三音声信号を生成する。
CELP方式により、音声データ中のロスを補間する補間信号を出力する音声データ復号装置は、ロスディテクタと、音声データデコーダと、音声信号出力部を備える。ロスディテクタは、ロスを検出し、音声データのロス部分を遅れて受信したことを検出する。ロス部分はロスに対応する。音声データデコーダは、メモリ蓄積部に蓄積されている音声データのロスの前の部分を使ってロス部分を復号して復号音声信号を生成する。音声信号出力部は、復号音声信号を含む音声信号を復号音声信号の強度の音声信号の強度に対する比率が変化するように出力する。
第一音声符号化方式の第一音声データを第二音声符号化方式の第二音声データに変換する音声データ変換装置は、ロスディテクタと、音声データデコーダと、音声データエンコーダと、パラメータ修正部を備える。ロスディテクタは、第一音声データ中のロスを検出する。音声データデコーダは、第一音声データを復号して復号音声信号を生成する。音声データエンコーダは、パラメータを抽出するフィルタを備え、復号音声信号を第二音声符号化方式で符号化する。パラメータ修正部は、音声データエンコーダからパラメータを受け取って保持する。パラメータ修正部は、パラメータに所定の修正を行い、又は行わずに、ロス検出の結果に基づいて、音声データエンコーダに出力する。音声データエンコーダは、ロスが検出されなかった場合、復号音声信号を第二音声符号化方式で符号化し、この符号化時に抽出したパラメータをパラメータ修正部に出力する。音声データエンコーダは、ロスが検出された場合、パラメータ修正部から入力されるパラメータに基づいて音声信号を生成し、フィルタが持つメモリを更新する。
第一音声符号化方式が波形符号化方式であり、第二音声符号化方式がCELP方式であることが好ましい。
パラメータが、スペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号、または正規化残差信号ゲインであることが好ましい。
当業者は上記実施例の様々な変形を容易に実施することができる。したがって、本発明は上記実施例に限定されることはなく、請求項やその均等物によって参酌される最も広い範囲で解釈される。

Claims (1)

  1. 音声データ中にロスがあるかを検出するロスディテクタと、
    前記音声データの前記ロス直前の部分を復号して第一復号音声信号を生成する音声データデコーダと、
    前記第一復号音声信号から第一パラメータを抽出する音声データアナライザと、前記第一パラメータは、スペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号のすべて、又は、スペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号ゲインのすべてを含み、
    乱数を加える又はゲインを小さくしていくことで前記第一パラメータを修正するパラメータ修正部と、
    修正された前記第一パラメータを用いて第一合成音声信号を生成する音声合成部と
    音声信号出力部と
    を具備し、
    前記ロスディテクタは、前記音声信号出力部が前記ロスを補間する音声信号を出力する前に前記音声データの前記ロスの次の部分を受信したかを検出し、
    前記音声データデコーダは、前記次の部分を復号して第二復号音声信号を生成し、
    前記音声データアナライザは、前記第二復号音声信号の時間を反転させて第二パラメータを抽出し、
    前記第二パラメータは、スペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号のすべて、又は、スペクトルパラメータ、遅延パラメータ、適応コードブックゲイン、正規化残差信号ゲインのすべてを含み、
    前記パラメータ修正部は、乱数を加える又はゲインを小さくしていくことで前記第二パラメータを修正し、
    前記音声合成部は、修正された前記第二パラメータを用いて第二合成音声信号を生成し、
    前記音声信号出力部は、前記第一合成音声信号と前記第二合成音声信号の時間反転信号とを含む音声信号を前記ロスを補間する音声信号として前記第一合成音声信号の強度の前記第二合成音声信号の強度に対する比率が時間とともに低下するように出力する
    波形符号化方式による音声データ復号装置。
JP2008526756A 2006-07-27 2007-07-23 音声データ復号装置 Expired - Fee Related JP4678440B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006204781 2006-07-27
JP2006204781 2006-07-27
PCT/JP2007/064421 WO2008013135A1 (fr) 2006-07-27 2007-07-23 Dispositif de décodage de données audio

Publications (2)

Publication Number Publication Date
JPWO2008013135A1 JPWO2008013135A1 (ja) 2009-12-17
JP4678440B2 true JP4678440B2 (ja) 2011-04-27

Family

ID=38981447

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008526756A Expired - Fee Related JP4678440B2 (ja) 2006-07-27 2007-07-23 音声データ復号装置

Country Status (10)

Country Link
US (1) US8327209B2 (ja)
EP (1) EP2051243A4 (ja)
JP (1) JP4678440B2 (ja)
KR (1) KR101032805B1 (ja)
CN (1) CN101490749B (ja)
BR (1) BRPI0713809A2 (ja)
CA (1) CA2658962A1 (ja)
MX (1) MX2009000054A (ja)
RU (1) RU2009102043A (ja)
WO (1) WO2008013135A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102615154B1 (ko) 2019-02-28 2023-12-18 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
US11495243B2 (en) * 2020-07-30 2022-11-08 Lawrence Livermore National Security, Llc Localization based on time-reversed event sounds
KR20230140955A (ko) * 2022-03-30 2023-10-10 삼성전자주식회사 음성 안내 기능을 갖는 전자 장치 및 전자 장치에 의한 음성 안내 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08110798A (ja) * 1994-10-07 1996-04-30 Nippon Telegr & Teleph Corp <Ntt> 音声の復号化方法およびその装置
JPH09321783A (ja) * 1996-03-29 1997-12-12 Mitsubishi Electric Corp 音声符号化伝送システム
JP2005077889A (ja) * 2003-09-02 2005-03-24 Kazuhiro Kondo 音声パケット欠落補間方式

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2539494B2 (ja) * 1988-07-13 1996-10-02 沖電気工業株式会社 音声パケット補間方法
JP2655485B2 (ja) * 1994-06-24 1997-09-17 日本電気株式会社 音声セル符号化装置
JPH09231783A (ja) * 1996-02-26 1997-09-05 Sharp Corp 半導体記憶装置
EP0895672B1 (en) 1997-02-10 2006-11-22 Koninklijke Philips Electronics N.V. Communication network for transmitting speech signals
JP3235654B2 (ja) 1997-11-18 2001-12-04 日本電気株式会社 無線電話装置
JP3472704B2 (ja) 1998-04-23 2003-12-02 シャープ株式会社 音声分析器および音声分析合成器
US6952668B1 (en) * 1999-04-19 2005-10-04 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
JP2001177481A (ja) * 1999-12-21 2001-06-29 Sanyo Electric Co Ltd 復号化装置
KR100341823B1 (ko) 2000-02-21 2002-06-26 윤덕용 유무선 영상 통신시스템에서의 비트에러확률 기준값설정방법
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
JP2002268697A (ja) 2001-03-13 2002-09-20 Nec Corp パケット誤り耐性付き音声復号装置、音声符号化復号装置、及びその方法
KR100462024B1 (ko) 2002-12-09 2004-12-17 한국전자통신연구원 부가 음성 데이터를 이용한 패킷 손실 복구 방법 및 이를이용한 송수신기
US7411985B2 (en) * 2003-03-21 2008-08-12 Lucent Technologies Inc. Low-complexity packet loss concealment method for voice-over-IP speech transmission
US7596488B2 (en) * 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal
JP2005274917A (ja) 2004-03-24 2005-10-06 Mitsubishi Electric Corp 音声復号装置
KR100594599B1 (ko) 2004-07-02 2006-06-30 한국전자통신연구원 수신단 기반의 패킷 손실 복구 장치 및 그 방법
US7359409B2 (en) * 2005-02-02 2008-04-15 Texas Instruments Incorporated Packet loss concealment for voice over packet networks
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08110798A (ja) * 1994-10-07 1996-04-30 Nippon Telegr & Teleph Corp <Ntt> 音声の復号化方法およびその装置
JPH09321783A (ja) * 1996-03-29 1997-12-12 Mitsubishi Electric Corp 音声符号化伝送システム
JP2005077889A (ja) * 2003-09-02 2005-03-24 Kazuhiro Kondo 音声パケット欠落補間方式

Also Published As

Publication number Publication date
EP2051243A4 (en) 2010-12-22
MX2009000054A (es) 2009-01-23
RU2009102043A (ru) 2010-07-27
JPWO2008013135A1 (ja) 2009-12-17
EP2051243A1 (en) 2009-04-22
CA2658962A1 (en) 2008-01-31
US8327209B2 (en) 2012-12-04
KR20090025355A (ko) 2009-03-10
CN101490749B (zh) 2012-04-11
WO2008013135A1 (fr) 2008-01-31
US20100005362A1 (en) 2010-01-07
CN101490749A (zh) 2009-07-22
KR101032805B1 (ko) 2011-05-04
BRPI0713809A2 (pt) 2012-11-06

Similar Documents

Publication Publication Date Title
KR100919868B1 (ko) 패킷 손실 보상
JP5587405B2 (ja) スピーチフレーム内の情報のロスを防ぐためのシステムおよび方法
KR100956522B1 (ko) 음성 통신에서의 프레임 소거 은닉
EP2002427B1 (en) Pitch prediction for packet loss concealment
KR102173422B1 (ko) 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
JP2008261904A (ja) 符号化装置、復号化装置、符号化方法および復号化方法
RU2707727C1 (ru) Устройство обработки аудиосигнала, способ обработки аудиосигнала и программа обработки аудиосигнала
JP2002162998A (ja) パケット修復処理を伴なう音声符号化方法
JP4678440B2 (ja) 音声データ復号装置
JP2002221994A (ja) 音声信号の符号列のパケット組立方法、装置及びパケット分解方法、装置並びにこれらの方法を実行するプログラム、プログラムを記録する記録媒体
JP5056048B2 (ja) 音声データ復号装置
JP5056049B2 (ja) 音声データ復号装置
JP2008033231A (ja) 音声データ復号装置及び音声データ変換装置
JP2008033233A (ja) 音声データ復号装置及び音声データ変換装置
JP5011913B2 (ja) 差分符号化信号復号装置
JP2005151235A (ja) 復号装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100917

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110118

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4678440

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140210

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees