JP2012113235A - 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム - Google Patents

隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム Download PDF

Info

Publication number
JP2012113235A
JP2012113235A JP2010264094A JP2010264094A JP2012113235A JP 2012113235 A JP2012113235 A JP 2012113235A JP 2010264094 A JP2010264094 A JP 2010264094A JP 2010264094 A JP2010264094 A JP 2010264094A JP 2012113235 A JP2012113235 A JP 2012113235A
Authority
JP
Japan
Prior art keywords
signal
concealment
decoded
decoded signal
detection result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010264094A
Other languages
English (en)
Other versions
JP5694745B2 (ja
Inventor
Kimitaka Tsutsumi
公孝 堤
Kei Kikuiri
圭 菊入
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2010264094A priority Critical patent/JP5694745B2/ja
Priority to PCT/JP2011/074046 priority patent/WO2012070340A1/ja
Priority to TW100141295A priority patent/TW201234352A/zh
Publication of JP2012113235A publication Critical patent/JP2012113235A/ja
Application granted granted Critical
Publication of JP5694745B2 publication Critical patent/JP5694745B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Abstract

【課題】パケットロス隠蔽信号の音質低下を防ぐ。
【解決手段】音声符号を含む受信パケットにおけるパケットエラー又はパケットロスの検出結果および音声符号が復号されて得られた復号信号を外部から受け取り、パケットロスした部分に対応する復号信号についてパケットロスの隠蔽を行う隠蔽信号生成装置は、検出結果が正常とされたパケットに含まれた音声符号から得られた復号信号を蓄積する復号信号蓄積部と、検出結果が異常の場合、蓄積されている復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方を検出し、当該検出結果を表す信号識別情報を出力する信号識別部と、信号識別情報と復号信号蓄積部により蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成部とを備える。
【選択図】図2

Description

本発明は、IP網や移動体通信網経由で音声パケットを伝送する際のエラー隠蔽に関するものであり、さらに詳しくは、エラー隠蔽のための隠蔽信号を生成する隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラムに関する。
音声・音響信号(以下「音声信号」と総称する)をIP網や移動体通信において伝送する際には、音声信号をエンコードして少ないビット数で表現して音声パケットに分割し、その音声パケットを通信網経由で伝送する。通信網を通じて受け取られた音声パケットは、受信側のサーバ、MCU、端末等において復号され、復号音声信号が得られる。
通信網を通じて音声パケットを伝送する際には、通信網の輻輳状態等に起因して、一部の音声パケットが失われる又は音声パケットに書き込まれた情報の一部に誤りが生じるといった現象(いわゆるパケットロス)が起こりうる。そのような場合には、受信側において音声パケットを正しく復号することができないため、所望の復号音声信号を得ることが出来ない。また、パケットロスが生じた音声パケットに対応する復号音声信号は雑音として知覚されるため、受聴する人間に対して与える主観品質を著しく損なう。
周波数領域でのパケットロス隠蔽方法として、「改良された周波数領域におけるエラー隠蔽技術」に関する下記の特許文献1がある。これは、過去に正常に受信したパケットに含まれていた周波数領域(フーリエ級数)で表現された復号音声をバッファに蓄積し、パケットロスを検出した場合にはバッファに蓄積した復号音声から最適なゲインを推定して、当該最適なゲインを最も最近受信したパケットに含まれる復号音声に乗算することにより、パケットロスに対応する部分の信号を復元する手法である。
また、パケットロスにより失われた部分の音声・音響信号を補間するエラー隠蔽技術として、ITU-T G.711 Appendix I(非特許文献1)が知られている。これは、正常に受け取った復号音声・音響信号の一部をバッファに記憶しておき、パケットロスが起こった場合には、バッファからピッチ単位で波形を取り出して繰り返すことにより、失われた部分に対応する信号を合成する。
より高度なエラー隠蔽技術として、「隠蔽信号生成装置、隠蔽信号生成方法、隠蔽信号生成プログラム」に関する下記の特許文献2がある。当該発明は、過去に正常に受け取ったパケットを復号して得た信号について信号の定常性を常に監視し、定常性が認められる信号(以下「定常信号」という)についてはバッファに記録する。エラーが発生したときには、エラーが発生する直前の信号が定常信号であるかどうかを判定し、定常信号である場合にはバッファ中の定常信号について、信号をコピーする範囲を信号の定常性を表すパラメータを用いて決定して、失われた部分にコピーする手法である。通常、パケットロスが続いた場合に同一の波形を繰り返すことによりうなりのような雑音が発生するが、当該発明を用いると同一の波形の繰り返し回数を減らすことができるため、上記述べた雑音を低減することができる。
特許第3999807号公報 特開2008−203783号公報
ITU-T G.711 Appendix I
しかしながら、上記特許文献1の技術を含め従来の周波数領域でのパケットロス隠蔽は過去に正常に受信した復号信号を繰り返すことにより隠蔽信号を生成するが、繰り返しの単位が1フレームの信号となるため、取り出したフレームに母音と子音のように性質の異なる信号が混在する場合には、隠蔽された信号にも性質の異なる信号が混在する結果となり、十分な隠蔽効果を発揮できないという課題がある。
また、繰り返しの単位を1フレームに限定せず、柔軟に選択可能な技術として隠蔽信号の生成を行う特許文献2の技術では、性質の異なる信号が混在することをある程度避けることができるが、隠蔽信号の生成基準を信号の定常性およびピッチ周期に限定しており、パワーやスペクトルの変化などを用いて繰り返す波形を決定するといった柔軟な処理が困難である。また、当該発明は時間領域におけるパケットロス隠蔽方法に関する発明であるため、周波数領域あるいは時間周波数領域における音声符号化・復号装置と組み合わせるためには復号処理を行った上で時間領域の信号に変換する必要があり、演算量の観点から現実的ではない。
以上述べたとおり、バッファに蓄積した復号音声を用いて隠蔽信号を生成する際、パワーの変化やパワースペクトルの性質変化などに応じて柔軟に繰り返しの単位を求めて、隠蔽信号を生成することが困難である。特に、復号音声が周波数領域で表現されている場合には、繰り返しの単位を1フレームより短くすることができないので、性質が異なる信号が隠蔽信号に混在するのを避けるのが困難であった。
本発明は、上記課題を解決し、パケットロス隠蔽のための隠蔽信号の音質低下を防ぐことを目的とする。
本発明に係る隠蔽信号生成装置は、第一の態様として、音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果、および音声符号が復号されて得られた復号信号を外部から受け取り、パケットロスした部分に対応する復号信号について、パケットロスの隠蔽を行う隠蔽信号生成装置であって、前記検出結果が正常とされたパケットに含まれていた音声符号から得られた復号信号を蓄積する復号信号蓄積部と、前記検出結果が異常の場合、蓄積されている復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方を検出し、当該検出結果を表す信号識別情報を出力する信号識別部と、前記信号識別情報と、前記復号信号蓄積部により蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成部と、を備えることを特徴とする。
上記の信号識別部は、パワーが急激に変化する時点とパワースペクトルが急激に変化する時点の両方又は一方を検出してもよい。また、上記の信号識別部は、変化の開始に関する情報と変化の終了に関する情報の両方又は一方を、信号識別情報として出力してもよい。
本発明に係る隠蔽信号生成装置は、第二の態様として、音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果、および音声符号が復号されて得られた復号信号を外部から受け取り、パケットロスした部分に対応する復号信号について、パケットロスの隠蔽を行う隠蔽信号生成装置であって、前記検出結果が正常とされたパケットに含まれていた音声符号から得られた復号信号を蓄積する復号信号蓄積部と、前記検出結果が正常の場合、音声符号から得られた復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方の検出結果を表す信号識別情報を外部から受け取って蓄積し、前記検出結果が異常の場合、既に蓄積された信号識別情報を出力する信号識別部と、前記信号識別情報と、前記復号信号蓄積部により蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成部と、を備えることを特徴とする。
上述した第一の態様および第二の態様それぞれにおいて、第一隠蔽信号生成部は、前記復号信号蓄積部において信号識別情報を用いて指定される範囲の復号信号を繰り返して得られる信号を、隠蔽信号として生成してもよい。
また、上述した第一の態様および第二の態様それぞれにおいて、第一隠蔽信号生成部は、前記復号信号蓄積部において信号識別情報を用いて指定される範囲の復号信号を繰り返した上でパワーを調整することで得られる信号を、隠蔽信号として生成してもよい。
ところで、前述した隠蔽信号生成装置に係る発明は、隠蔽信号生成方法に係る発明、および隠蔽信号生成プログラムに係る発明として捉えることができ、以下のように記述することができる。
本発明に係る隠蔽信号生成方法は、第一の態様として、音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果、および音声符号が復号されて得られた復号信号を外部から受け取り、パケットロスした部分に対応する復号信号について、パケットロスの隠蔽を行う隠蔽信号生成装置、により実行される隠蔽信号生成方法であって、前記検出結果が正常とされたパケットに含まれていた音声符号から得られた復号信号を蓄積する復号信号蓄積ステップと、前記検出結果が異常の場合、蓄積されている復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方を検出し、当該検出結果を表す信号識別情報を出力する信号識別ステップと、前記信号識別情報と、前記復号信号蓄積ステップにより蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成ステップと、を備えることを特徴とする。
本発明に係る隠蔽信号生成方法は、第二の態様として、音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果、および音声符号が復号されて得られた復号信号を外部から受け取り、パケットロスした部分に対応する復号信号について、パケットロスの隠蔽を行う隠蔽信号生成装置、により実行される隠蔽信号生成方法であって、前記検出結果が正常とされたパケットに含まれていた音声符号から得られた復号信号を蓄積する復号信号蓄積ステップと、前記検出結果が正常の場合、音声符号から得られた復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方の検出結果を表す信号識別情報を外部から受け取って蓄積し、前記検出結果が異常の場合、既に蓄積された信号識別情報を出力する信号識別ステップと、前記信号識別情報と、前記復号信号蓄積ステップにより蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成ステップと、を備えることを特徴とする。
本発明に係る隠蔽信号生成プログラムは、第一の態様として、コンピュータを、音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果が正常とされたパケットに含まれていた音声符号から復号により得られた復号信号を蓄積する復号信号蓄積部と、前記検出結果が異常の場合、蓄積されている復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方を検出し、当該検出結果を表す信号識別情報を出力する信号識別部と、前記信号識別情報と、前記復号信号蓄積部により蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成部、として機能させるための隠蔽信号生成プログラムである。
本発明に係る隠蔽信号生成プログラムは、第二の態様として、コンピュータを、音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果が正常とされたパケットに含まれていた音声符号から復号により得られた復号信号を蓄積する復号信号蓄積部と、前記検出結果が正常の場合、音声符号から得られた復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方の検出結果を表す信号識別情報を外部から受け取って蓄積し、前記検出結果が異常の場合、既に蓄積された信号識別情報を出力する信号識別部と、前記信号識別情報と、前記復号信号蓄積部により蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成部、として機能させるための隠蔽信号生成プログラムである。
以上のような本発明により、隠蔽信号生成時の信号の繰り返し単位を、従来のMDCTやFFTを用いた周波数領域信号よりも短くできるため、隠蔽のために出力した信号に性質の異なる信号が混在することを防ぐことができ、パケットロス隠蔽信号の音質低下を防ぐことができる。
本発明によれば、パケットロス隠蔽のための隠蔽信号の音質低下を防ぐことができる。
発明の一実施形態におけるシステム環境を示す図である。 復号部の構成図である。 第1実施形態における信号識別部の構成図である。 第1実施形態における第一隠蔽信号生成部の動作を示すフローチャートである。 第2実施形態における信号識別部の構成図である。 第2実施形態における信号識別部の動作を示すフローチャートである。 第2実施形態における第一隠蔽信号生成部の動作を示すフローチャートである。 第3実施形態における信号識別部の構成図である。 第3実施形態における信号識別部の動作を示すフローチャートである。 第4実施形態における信号識別部の構成図である。 第4実施形態における第一隠蔽信号生成部の動作を示すフローチャートである。 第5実施形態における信号識別部の構成図である。 第5実施形態における補助情報の関係を示す図である。 コンピュータのハードウェア構成図である。 コンピュータの外観図である。 隠蔽信号生成プログラムの構成を示す図である。
以下、図面を用いて、本発明に係るさまざまな実施形態を説明する。
[第1実施形態]
まず、図1を用いて、本発明が想定するシステム環境を説明する。図1に示すように、マイクなどのセンサを通じて得られた音声信号はディジタル形式で表現され、符号化部1に入力される。
符号化部1は、決まったサンプル数の音声信号が、内蔵したバッファに所定量蓄積するたびにバッファ内のディジタル信号を符号化する。上記の所定量、即ち、蓄積するサンプル数をフレーム長といい、符号化対象となるディジタル信号の集合をフレームと呼ぶ。例えば、32kHzのサンプリング周波数で収音する際に20msのフレーム長とした場合には640サンプルのディジタル信号をバッファに蓄積するものとする。なお、バッファには先読み分のディジタル信号を余計に蓄積してもよい。符号化を行うタイミングとしては、フレーム長単位で符号化を行ってもよいし、フレーム間にある長さのオーバーラップを持たせて符号化を行ってもよい。符号化には、どのような符号化方式を用いてもよい。
パケット構成部2は、符号化部1で得られた音声符号にRTPヘッダなどの通信に必要な情報を付加して、音声パケットを生成する。生成された音声パケットはネットワークを通じて受信側に送られる。
パケット分離部3は、ネットワークを通じて受信した音声パケットをRTPヘッダと音声符号とに分離し、音声パケットのエラー状態を示すエラーフラグを音声符号に付加して得られたビットストリームを生成し、ビットストリームを復号部4へ出力する。
復号部4は、図2に示すように、エラー/ロス検出部41、音声復号部42、および隠蔽信号生成部43を有する。復号部4は、エラー/ロス検出部41にてエラーフラグの状態を識別することで音声パケットにおける異常(パケットエラー又はパケットロス)を検出し、正常(異常なし)の場合には音声復号部42にて音声符号の復号を行って復号信号を出力する。一方、異常(パケットエラー又はパケットロス)を検出した場合には隠蔽信号生成部43にて隠蔽信号を生成し、隠蔽信号を復号信号として出力する。なお、復号部4からはフレーム毎に復号音声が出力される。この復号音声はオーディオのバッファ等に送られスピーカなどを通じて再生されるか、メモリやハードディスクなどの記録媒体に蓄積される。
以下、復号部4の動作について説明する。エラー/ロス検出部41は、ビットストリームに含まれたエラーフラグの状態を識別することで、音声パケットにおける異常(パケットエラー又はパケットロス)を検出する。
ここで、エラーフラグに音声パケット正常を示す値がセットされている場合、エラー/ロス検出部41は、エラーフラグを音声復号部42および隠蔽信号生成部43(具体的には後述する復号信号蓄積部431と信号識別部434)に送るとともに、音声符号を音声復号部42に送る。そして、音声復号部42は、音声符号を復号して復号信号を生成し、復号音声として出力する。このとき、音声復号部42は復号信号を隠蔽信号生成部43にも送る。
一方、エラーフラグに音声パケット異常を示す値がセットされている場合、エラー/ロス検出部41は、エラーフラグを隠蔽信号生成部43(具体的には後述する復号信号蓄積部431と信号識別部434)に送る。隠蔽信号生成部43は、過去に正常に受け取った音声パケットに対応する復号信号から、隠蔽信号を生成する。隠蔽信号生成部43の動作の詳細は後述する。
以上で述べた図1の全体構成および図2の復号部4のエラー/ロス検出部41と音声復号部42の動作は、後述する第2〜第5実施形態でも同様であるため、第2〜第5実施形態では重複した説明を省略する。
以下、隠蔽信号生成部43の構成・動作について詳細に述べる。第1実施形態では、隠蔽信号生成部43において、時間領域の信号におけるパワーの急激な変化を信号識別情報として用いる例を示す。
図2に示すように、隠蔽信号生成部43は、復号信号蓄積部431、信号識別部434、および第一隠蔽信号生成部433を備える。
復号信号蓄積部431は、エラーフラグに音声パケット正常を示す値がセットされている場合に、音声復号部42から入力された復号信号を蓄積する。蓄積する復号信号のサンプル数は、過去数フレーム分(dフレーム分)とするのが望ましい(ここでは、x(0),…,x(dL)とする。なお、1フレームの長さをLとした)。
信号識別部434は、図3に示す通り、復号信号蓄積部4340と、時間包絡算出部4341と、信号識別情報生成部4342とを備える。このうち復号信号蓄積部4340は、エラーフラグに音声パケット正常を示す値がセットされている場合、復号信号蓄積部431と同様の動作を行う。
時間包絡算出部4341は、エラーフラグに音声パケット異常を示す値がセットされている場合、復号信号蓄積部4340から、蓄積された復号信号(以下「蓄積復号信号」という)を読み出し、蓄積復号信号毎のパワーに関する情報である時間包絡情報を算出する。なお、変形例として、復号信号蓄積部4340を設けずに、代わりに、復号信号蓄積部431から時間包絡算出部4341が蓄積復号信号を読み出す構成としてもよい。
ここでの時間包絡情報の算出方法としては、複数の小区間それぞれについて振幅の最大値を用いて時間包絡情報を算出する方法や、分散を用いて時間包絡情報を算出する方法など様々な方法が考えられるが、例えば、以下の式に従って時間包絡情報を算出する。なお、ここでは、K個の小区間について時間包絡情報を算出するものとする。
Figure 2012113235

x(k)は、k番目のサンプルの値を表す。ここで、kl startはl番目の小区間の開始位置を示し、kl endはl番目の小区間の終了位置を示す。また、ここではkl start=kl-1 end+1としたが、小区間同士でオーバーラップを持たせるようにしてもよい。
信号識別情報生成部4342は、パワーの急激な変化を検出し、結果に応じて信号識別情報を出力する。具体的には、パワーの分散値を算出し、当該分散値と閾値とを比較することでパワーの急激な変化を検出するなど、様々な方法を用いることができるが、本実施形態では、例えば以下のようにしてパワーの急激な変化を検出する。
ステップ1:Env(l)を平滑化したエンベロープPenv(l)を次式により算出する。ただし、αは0<α<1を満たす定数である。
Penv(l) = α・Penv(l−1)+ (1−α)・Env(l)
ステップ2:Env(l)とPenv(l)とを用いて、Env(l)と(β・Penv(l))とを比較することでパワーの急激な変化を検出する。ただし、βは定数である。即ち、Env(l) > β・Penv(l) の時、サブサンプルlにおいてパワーが急激に変化すると判定する。
以上に示した方法はパワーの変化に基づく信号変化検出の単純な例であり、他のもっと複雑な方法により信号変化検出を行ってもよい。上記処理の結果、パワーの急激な変化を検出した場合には、変化が開始するサブサンプルのインデックスlstartを信号識別情報として出力する。パワーが急激に変化する信号が検出されない場合は、バッファの最後から1フレーム分のサンプル数を減算した値をインデックスlstartとしてもよい。なお、バッファの先頭のインデックスやバッファの最後のインデックスをlstartとするなどの単純な方法を用いてもよいし、ピッチ周期を算出してバッファの最後からピッチ周期を減算した値をlstartとしてもよい。
第一隠蔽信号生成部433は、信号識別情報および蓄積復号信号を用いて隠蔽信号を生成する。具体的には以下の手順で隠蔽信号を生成する。第一隠蔽信号生成部433の動作を図4に示す。
図4のステップS11で第一隠蔽信号生成部433は、信号識別情報を参照しインデックスlstartを求め、また、バッファに格納された蓄積復号信号の最後のサブサンプルのインデックスをlendとする。ここで、lend-lstartの値を変数L’にセットする。
ステップS12で第一隠蔽信号生成部433は、復号信号蓄積部431から蓄積復号信号をコピーする。コピーする際には、lstartからlendまでのサンプルを1フレームに含まれるサンプル数Nを満たすまで繰り返しコピーする。例えば、まず変数iを0にリセットし(ステップS121)、以下の式に従い、パケットロス部分に対応する隠蔽信号v(i)として、復号信号蓄積部431に蓄積された蓄積復号信号をコピーする(ステップS122)。
v(i)=b(lstart+i%L’)
ここで、b(i)は復号信号蓄積部431に蓄積された蓄積復号信号を意味し、(i%L’)はiをL’で割った余りを表す。
そして、変数iがサンプル数N未満であれば(ステップS124でYES)、変数iを1つカウントアップし(ステップS123)、カウントアップした変数iについてステップS122の処理を行う。その後、変数iがサンプル数Nに等しくなる(ステップS124でNOとなる)まで、ステップS122およびS123を繰り返す。これにより、lstartからlendまでのサンプルを1フレームに含まれるサンプル数Nを満たすまでコピーすることができる。
次に、ステップS13で第一隠蔽信号生成部433は、コピーした蓄積復号信号をサブサンプル毎に平均二乗振幅を算出して正規化した上で、パケットロス直前のサブサンプルの平均二乗振幅に減衰係数のべき乗を乗算することで隠蔽信号を生成する。例えば、まず変数iを0にリセットし(ステップS131)、パケットロス部分に対応する隠蔽信号vを、以下の式に従い生成する(ステップS132)。
v(iL’+k) = v(iL’+k)/10(Env(i)/2)・10(Env(K-1)/2)・γi
ここでEnv(i)はi番目の小区間の時間包絡(Kは小区間の数)、v(i)はパケットロス部分に対応する隠蔽信号、γは減衰定数をそれぞれ表す。
そして、変数iがサンプル数N未満であれば(ステップS134でYES)、変数iを1つカウントアップし(ステップS133)、カウントアップした変数iについてステップS132の処理を行う。その後、変数iがサンプル数Nに等しくなる(ステップS134でNOとなる)まで、ステップS132およびS133を繰り返す。これにより、隠蔽信号が生成される。
そして、ステップS14で第一隠蔽信号生成部433は、生成した隠蔽信号を出力する。
なお、上記で述べた以外にも、予測により隠蔽信号を生成してもよい。具体的には、以下のような方法を用いてもよい。
ステップ1:信号識別情報を参照し、インデックスlstartを求める。またバッファに格納された蓄積復号信号の最後のサブサンプルのインデックスをlendとする。
ステップ2:復号信号蓄積部431における蓄積復号信号を、lstartからlendまでコピーし、線形予測分析する。
ステップ3:ステップ2で得られる残差信号を1フレームに含まれるサンプル数Nを満たすまで繰り返す。
ステップ4:ステップ2で得られた線形予測係数で、ステップ3で得られた信号を逆フィルタリングした上で、予め定めた減衰係数をサンプルごとに乗算する。これにより得られた信号を隠蔽信号とする。
以上のように第1実施形態では、隠蔽信号生成部43において、時間領域の信号におけるパワーの急激な変化を用いて信号識別情報を生成し出力することができる。
[第2実施形態]
第1実施形態では、パワーの急激な変化を用いて信号識別情報の出力を行ったが、第2実施形態では、パワースペクトルの急激な変化を用いて信号識別情報を生成する例について述べる。
なお、本実施形態では復号信号として時間領域の信号を仮定しているが、復号信号が周波数領域の信号(例えばQMF係数など)として得られる場合には、周波数領域における表現のまま復号信号蓄積部に復号信号を蓄積し、時間周波数変換部を省略する構成としてもよい。
以下、隠蔽信号生成部43の動作について説明する。
図2に示す復号信号蓄積部431の動作は、第1実施形態と同様である。
信号識別部434は、図5に示すように復号信号蓄積部4340と、時間周波数変換部4343と、変換利得算出部4344と、信号識別情報生成部4342とを備える。このうち復号信号蓄積部4340の動作は、第1実施形態と同様である。
エラーフラグに音声パケット異常を示す値がセットされている場合に動作する時間周波数変換部4343、変換利得算出部4344、信号識別情報生成部4342について、図6を用いて以下に説明する。
時間周波数変換部4343は、復号信号蓄積部4340から蓄積復号信号を読み出して、周波数領域に変換した蓄積周波数信号を出力する(図6のステップS21)。変換には、FFT(Fast Fourier Transform)を用いてもよいし、MDCT(Modified Discrete Transform)を用いてもよいし、QMFを用いても良い。また、変形例として、復号信号蓄積部4340を設けずに、復号信号蓄積部431から蓄積復号信号を読み出す構成としてもよい。
本実施形態では、例えばQMFを用いて時間周波数変換を行う例を示す。ここで、蓄積復号信号をx(n)とする。
Figure 2012113235

ここで、例えばV(k,l)のサブサンプルl0と言う場合には、
Figure 2012113235

なる周波数ビンの集合を現すものとする。Eは時間方向のサブサンプル数を表し、Kは周波数ビンの数を表す。kは周波数ビンのインデックスであり(0≦k≦K-1)、lはサブサンプルのインデックス(0≦l≦L-1)である。また、pA(n)は分析に用いる窓関数を表す。
変換利得算出部4344は、時間周波数変換した蓄積復号信号について、(相加平均/相乗平均)の値(以後、この値を「U(l)」と称し、「相加平均/相乗平均U(l)」と表記する)を算出する(図6のステップS22)。
Figure 2012113235

なお、本実施例では全周波数ビンを用いてU(l)を算出したが、一部の周波数ビンのみを用いて相加平均/相乗平均U(l)を算出してもよい。
信号識別情報生成部4342は、相加平均/相乗平均U(l)がある閾値Thを越えるサブサンプルlを信号識別情報lstartとして検出する(図6のステップS23)。例えば、まずサブサンプルのインデックスlを0にリセットし(ステップS231)、相加平均/相乗平均U(l)が閾値Thを越えるか否かを判断する(ステップS232)。相加平均/相乗平均U(l)が閾値Thを越えなければ、ステップS235へ進み、相加平均/相乗平均U(l)が閾値Thを越えるならば、そのときのインデックスlを信号識別情報lstartに設定して(ステップS233)、ステップS235へ進む。
そして、ステップS235でインデックスlがL未満であれば(ステップS235でYES)、インデックスlを1つカウントアップし(ステップS234)、カウントアップしたインデックスlについてステップS232およびS233の処理を行う。その後、インデックスlがLに等しくなる(ステップS235でNOとなる)まで、ステップS232〜S234を繰り返す。これにより、相加平均/相乗平均U(l)がある閾値Thを越えるサブサンプルlを信号識別情報lstartとして検出することができる。
そして、信号識別情報生成部4342は、ステップS23で得られた信号識別情報lstartを出力する(図6のステップS24)。
第一隠蔽信号生成部433は、信号識別情報および蓄積復号信号を用いて隠蔽信号を生成する。具体的には以下の手順で隠蔽信号を生成する。第一隠蔽信号生成部433の動作を図7に示す。
図7のステップS25で第一隠蔽信号生成部433は、信号識別情報を参照しインデックスlstartを求め、また、バッファに格納された蓄積復号信号の最後のサブサンプルのインデックスをlendとする。ここで、lend-lstartの値を変数L’にセットする。
ステップS26で第一隠蔽信号生成部433は、復号信号蓄積部431から蓄積復号信号をコピーする。コピーする際には、lstartからlendまでのサンプルを1フレームに含まれるサンプル数Nを満たすまでコピーする。例えば、まず変数iを0にリセットし(ステップS261)、以下の式に従い、パケットロス部分に対応する隠蔽信号V(k,i)として、復号信号蓄積部431に蓄積された蓄積復号信号をコピーする(ステップS262)。
V(k,i)=B(k,lstart+i%L’)
ここで、B(k,i)は復号信号蓄積部431に蓄積された蓄積復号信号を時間周波数変換した信号、V(k,i)はパケットロス部分に対応する隠蔽信号、(i%L’)はiをL’で割った余りをそれぞれ表す。
そして、変数iがサンプル数N未満であれば(ステップS264でYES)、変数iを1つカウントアップし(ステップS263)、カウントアップした変数iについてステップS262の処理を行う。その後、変数iがサンプル数Nに等しくなる(ステップS264でNOとなる)まで、ステップS262およびS263を繰り返す。これにより、lstartからlendまでのサンプルを1フレームに含まれるサンプル数Nを満たすまでコピーすることができる。
ステップS27で第一隠蔽信号生成部433は、サブサンプルのパワーEnv(l)を算出する。
Figure 2012113235

ステップS28で第一隠蔽信号生成部433は、コピーした蓄積復号信号をサブサンプル毎に平均二乗振幅を算出して正規化した上で、パケットロス直前のサブサンプルの平均二乗振幅に減衰係数のべき乗を乗算することで隠蔽信号を生成する。例えば、まず変数iを0にリセットし(ステップS281)、パケットロス部分に対応する隠蔽信号Vを、以下の式に従い生成する(ステップS282)。
V(k,i) = V(k,i)/10(Env(i)/2)・10(Env(L-1)/2)・γi
ここでEnv(i)はi番目の小区間の時間包絡(Kは小区間の数)、V(k,i)はパケットロス部分に対応する隠蔽信号、γは減衰定数をそれぞれ表す。
そして、変数iがサンプル数N未満であれば(ステップS284でYES)、変数iを1つカウントアップし(ステップS283)、カウントアップした変数iについてステップS282の処理を行う。その後、変数iがサンプル数Nに等しくなる(ステップS284でNOとなる)まで、ステップS282およびS283を繰り返す。これにより、隠蔽信号が生成される。
そして、ステップS29で第一隠蔽信号生成部433は、パケットロス部分に対応する隠蔽信号V(k,i)を合成QMFにより逆変換して時間領域の隠蔽信号y(kL+i)を生成し出力する。
Figure 2012113235

ここで、i(0≦i<L)は時間領域の信号のインデックスであり、k(0≦k<K-1)はサブフレームのインデックスである。
以上のように第2実施形態では、パワースペクトルの急激な変化を用いて信号識別情報を生成し出力することができる。
[第3実施形態]
第1実施形態ではパワーの急激な変化を用いて信号識別情報を算出し、第2実施形態ではパワースペクトルの急激な変化を用いて信号識別情報を算出したが、第3実施形態では、それらの両方を用いて信号識別情報を算出する例について述べる。
なお、本実施形態では復号信号として時間領域の信号を仮定しているが、復号信号が周波数領域の信号(例えばQMF係数など)として得られる場合には、周波数領域における表現のまま復号信号蓄積部に復号信号を蓄積し、時間周波数変換部を省略する構成としてもよい。
以下、隠蔽信号生成部43の動作について説明する。
図2に示す復号信号蓄積部431の動作は、第1実施形態と同様である。
信号識別部434は、図8に示すように復号信号蓄積部4340と、時間包絡算出部4341と、時間周波数変換部4343と、変換利得算出部4344と、信号識別情報生成部4342とを備える。このうち復号信号蓄積部4340は、エラーフラグに音声パケット異常を示す値がセットされている場合、復号信号蓄積部431と同様の動作をする。
以下、エラーフラグに音声パケット異常を示す値がセットされている場合に動作する時間周波数変換部4343、時間包絡算出部4341と、変換利得算出部4344、信号識別情報生成部4342について、図9を用いて以下に説明する。
時間周波数変換部4343は、復号信号蓄積部4340から蓄積復号信号を読み出して、周波数領域に変換した蓄積周波数信号を出力する(図9のステップS31)。変形例として、復号信号蓄積部4340を設ける代わりに、復号信号蓄積部431から蓄積復号信号を読み出す構成としてもよい。ここでは、蓄積復号信号をx(n)とした。
Figure 2012113235

ここで、例えばV(k,l)のサブサンプルl0と言う場合には、
Figure 2012113235

なる周波数ビンの集合を現すものとする。Eは時間方向のサブサンプル数を表し、Kは周波数ビンの数を表す。kは周波数ビンのインデックスであり(0≦k≦K-1)、lはサブサンプルのインデックス(0≦l≦L-1)である。また、pA(n)は分析に用いる窓関数を表す。
時間包絡算出部4341は、時間包絡を例えば次式に従い算出する(図9のステップS32)。
Figure 2012113235

変換利得算出部4344は、蓄積周波数信号について、相加平均/相乗平均U(l)を算出する(図9のステップS33)。
Figure 2012113235

なお、本実施例では全周波数ビンを用いてU(l)を算出したが、一部の周波数ビンのみを用いて相加平均/相乗平均U(l)を算出してもよい。
信号識別情報生成部4342は、相加平均/相乗平均U(I)がある閾値Thを越えるサブサンプルlを信号識別情報lstartとして検出した上で、Env(l)と(β・Penv(l))とを比較することでパワーの急激な変化を検出し、必要に応じてlstartの更新を行うことで、信号識別情報lstartを生成する(図9のステップS34)。ただし、βは定数である。Env(l) > β・Penv(l) の時、サブサンプルlにおいてパワーが急激に変化すると判定してlstartを算出してもよい。なお、変換利得と時間包絡とに重み付けを行い、これら変換利得と時間包絡とを組み合わせて信号識別情報を生成してもよい。
具体的にステップS34において、信号識別情報生成部4342は、図9に示すように、まずサブサンプルのインデックスlを0にリセットし(ステップS341)、相加平均/相乗平均U(l)が閾値Thを越えるか否かを判断する(ステップS342)。相加平均/相乗平均U(l)が閾値Thを越えなければ、ステップS345へ進み、相加平均/相乗平均U(l)が閾値Thを越えるならば、そのときのインデックスlを信号識別情報lstartに設定して(ステップS343)、ステップS345へ進む。
そして、ステップS345でインデックスlがL未満であれば(ステップS345でYES)、インデックスlを1つカウントアップし(ステップS344)、カウントアップしたインデックスlについてステップS342およびS343の処理を行う。その後、インデックスlがLに等しくなる(ステップS345でNOとなる)まで、ステップS342〜S344を繰り返す。これにより、相加平均/相乗平均U(l)がある閾値Thを越えるサブサンプルlを信号識別情報lstartとして検出することができる。
次に、インデックスlを0にリセットして(ステップS346)、Env(l)と(β・Penv(l))とを比較し(ステップS347)、Env(l)が(β・Penv(l))を越えなければ、ステップS34Aへ進み、Env(l)が(β・Penv(l))を越えるならば、そのときのインデックスlを信号識別情報lstartに設定して(ステップS348)、ステップS34Aへ進む。
そして、ステップS34AでインデックスlがL未満であれば(ステップS34AでYES)、インデックスlを1つカウントアップし(ステップS349)、カウントアップしたインデックスlについてステップS347およびS348の処理を行う。その後、インデックスlがLに等しくなる(ステップS34AでNOとなる)まで、ステップS347〜S349を繰り返す。これにより、パワーが急激に変化するサブサンプルlを信号識別情報lstartとして検出することができる。
そして、信号識別情報生成部4342は、ステップS34で得られた信号識別情報lstartを出力する(図9のステップS35)。
なお、第3実施形態における第一隠蔽信号生成部433は、第2実施形態と同様の動作を行う。
以上のように第3実施形態では、パワーの急激な変化とパワースペクトルの急激な変化の両方を用いて信号識別情報を生成し出力することができる。
[第4実施形態]
第4実施形態では、第1〜第3実施形態とは異なり、信号識別情報を外部から取得する場合の処理例について説明する。なお、信号識別情報の入力方法としては、例えば復号の過程で補助的に得られるパラメータを用いるといった方法がある。
以下、TS26.401(enhanced aacPlus)を符号化方法として用いた場合に、復号時に得られるパラメータを信号識別情報としてパケットロス隠蔽を行う例について述べる。
TS26.401はSBR(Spectral Band Replication)により、高域信号を少ないビット量で符号化する。SBRによる復号では、SBRの符号化側から送られてくる補助情報と、低域の復号信号を用いて高域信号を生成する。補助情報には、フレーム内の時間境界の情報が含まれる。具体的には、TS26.404の3.2節にて定義されるtEなるパラメータである。フレーム内の時間境界は、パワーが急激に大きくなる部分や、パワースペクトルの性質が変化する際にSBR符号化部において挿入される。
本実施形態では、図2の隠蔽信号生成部43において、上記フレーム内の時間境界tEを用いて隠蔽信号の生成を行う場合について述べる。なお、復号信号蓄積部431の動作は第1実施形態と同様である。
信号識別部434は、図10に示すように、信号識別情報蓄積部4345を備える。信号識別情報蓄積部4345は、エラーフラグに音声パケット正常を示す値がセットされている場合、音声復号部42から入力される信号識別情報を蓄積する。信号識別情報は、上記述べたフレーム内の時間境界tEである。エラーフラグに音声パケット異常(例えばパケットエラー又はパケットロス)を示す値がセットされている場合、蓄積された信号識別情報(以下「蓄積信号識別情報」という)が信号識別情報蓄積部4345から第一隠蔽信号生成部433へ出力される。
第一隠蔽信号生成部433は、蓄積信号識別情報および蓄積復号信号を用いて、以下の手順で隠蔽信号を生成する。第一隠蔽信号生成部433の動作を図11に示す。
図11のステップS41で第一隠蔽信号生成部433は、蓄積信号識別情報を参照し、インデックスlstartおよびインデックスlendを以下の式に従い求める。ここで、tEは信号識別情報蓄積部に蓄積した信号識別情報のうち最も最近受信したパケットに含まれていたものを表す。L’はフレーム内の時間境界で区切られた区間の数である。
Figure 2012113235

ステップS42で第一隠蔽信号生成部433は、復号信号蓄積部431から蓄積復号信号をコピーする。コピーする際には、lstartからlendまでのサブサンプルを1フレームに含まれるサブサンプル数を満たすまでコピーする。例えば、まず変数iを0にリセットし(ステップS421)、以下の式に従い、パケットロス部分に対応する隠蔽信号V(k,i)として、復号信号蓄積部431に蓄積された蓄積復号信号をコピーする(ステップS422)。
V(k,i)=B(k,lstart+i%L’)
ここで、B(k,i)は復号信号蓄積部431に蓄積された蓄積復号信号を時間周波数変換した信号、V(k,i)はパケットロス部分に対応する隠蔽信号、(i%L’)はiをL’で割った余りをそれぞれ表す。
そして、変数iがサンプル数N未満であれば(ステップS424でYES)、変数iを1つカウントアップし(ステップS423)、カウントアップした変数iについてステップS422の処理を行う。その後、変数iがサンプル数Nに等しくなる(ステップS424でNOとなる)まで、ステップS422およびS423を繰り返す。これにより、lstartからlendまでのサブサンプルを1フレームに含まれるサブサンプル数を満たすまでコピーすることができる。
ステップS43で第一隠蔽信号生成部433は、サブサンプルのパワーEnv(l)を算出する。
Figure 2012113235

ステップS44で第一隠蔽信号生成部433は、コピーした蓄積復号信号をサブサンプル毎に平均二乗振幅を算出して正規化した上で、パケットロス直前のサブサンプルの平均二乗振幅に減衰係数のべき乗を乗算することで隠蔽信号を生成する。例えば、まず変数iを0にリセットし(ステップS441)、パケットロス部分に対応する隠蔽信号Vを、以下の式に従い生成する(ステップS442)。
V(k,i) = V(k,i)/10(Env(i)/2)・10(Env(L-1)/2)・γi
ここでEnv(i)はi番目の小区間の時間包絡(Kは小区間の数)、V(k,i)はパケットロス部分に対応する隠蔽信号、γは減衰定数をそれぞれ表す。
そして、変数iがサンプル数N未満であれば(ステップS444でYES)、変数iを1つカウントアップし(ステップS443)、カウントアップした変数iについてステップS442の処理を行う。その後、変数iがサンプル数Nに等しくなる(ステップS444でNOとなる)まで、ステップS442およびS443を繰り返す。これにより、隠蔽信号が生成される。
そして、ステップS45で第一隠蔽信号生成部433は、パケットロス部分に対応する隠蔽信号V(k,i)を合成QMFにより逆変換して時間領域の隠蔽信号y(kL+i)を生成し出力する。
Figure 2012113235

ここで、i(0≦i<L)は時間領域の信号のインデックスであり、k(0≦k<K-1)はサブフレームのインデックスである。
以上のように第4実施形態では、信号識別情報を外部から取得する場合にも、隠蔽信号を生成し出力することができる。
[第5実施形態]
第5実施形態では、第4実施形態とは異なり、復号の過程で補助的に得られるパラメータから信号識別情報を算出する例を説明する。
本実施形態では、例えば符号化にAACを用いた場合のスケールファクタや、その他の符号化方式における復号信号の時間周波数領域表現などを用いることができる。例えば以下に述べる例におけるV(k,l)にそれらパラメータを代入することにより、以下の例を利用することができる。それら時間周波数領域表現から算出可能なパラメータを用いて同様の処理を行ってもよい。
本実施形態では、以下、TS26.401(enhanced aacPlus)を符号化方法として用いた場合に、復号時に得られるパラメータから信号識別情報を算出し、パケットロス隠蔽を行う例について述べる。
本実施形態では、TS26.404の補助情報に含まれる、パワースペクトル包絡の情報から信号識別情報を算出する。上記TS26.404の補助情報とは、具体的には、TS26.404の3.2節にて定義されるEorigなるパワースペクトル包絡のパワーを表すパラメータと、fTableHighなるパワースペクトル包絡の帯域境界を表すパラメータである。図13にこれらパラメータの関係の例を示す。なお、上記パラメータは復号の過程で算出される。
そこで、本実施形態では、上記を用いて隠蔽信号の生成を行う場合について述べる。なお、図2の隠蔽信号生成部43において復号信号蓄積部431の動作は第1実施形態と同様である。
信号識別部434は、図12に示すように、補助情報蓄積部4346と、パワースペクトル包絡算出部4347と、時間包絡算出部4341と、変換利得算出部4344と、信号識別情報生成部4342とを備える。
このうち補助情報蓄積部4346は、エラーフラグに音声パケット正常を示す値がセットされている場合、音声復号部42から入力されるEorigなるパワースペクトル包絡のパワーおよびfTableHighなるパワースペクトル包絡の帯域境界を蓄積する。
パワースペクトル包絡算出部4347は、エラーフラグに音声パケット異常を示す値がセットされている場合、補助情報蓄積部4346から上記パワースペクトル包絡のパワーおよびパワースペクトル包絡の帯域境界を読み出し、以下のとおり信号識別情報を算出する。即ち、EorigとfTableHighからパワースペクトル包絡V(k,l)を以下の通り算出する。
Figure 2012113235

ここで、全周波数帯域をnhigh個の帯域に分割したとする。
なお、時間包絡算出部4341、変換利得算出部4344、および信号識別情報生成部4342の動作は、第3実施形態と同様である。また、第一隠蔽信号生成部433の動作も、第3実施形態と同様である。
以上、復号の過程において得られるEorigなるパワースペクトル包絡のパワーおよびfTableHighなるパワースペクトル包絡の帯域境界を用いて信号識別情報を算出する例について述べたが、他にも復号の過程で得られるパラメータを用いて信号識別情報を算出し、得られた信号識別情報に基づき隠蔽信号を生成する任意の手法を用いてもよい。
以上のように第5実施形態では、復号の過程で補助的に得られるパラメータから信号識別情報を算出し、当該信号識別情報に基づいて隠蔽信号を生成し出力することができる。
[隠蔽信号生成プログラムについて]
まず、コンピュータを、本発明に係る隠蔽信号生成装置として動作させる隠蔽信号生成プログラムについて説明する。
図16は、一実施形態に係る隠蔽信号生成プログラムの構成を示す図である。図14は、一実施形態に係るコンピュータのハードウェア構成図である。図15は、一実施形態に係るコンピュータの外観図である。図16に示す隠蔽信号生成プログラムP43は、図14および図15に示すコンピュータC10を隠蔽信号生成部43として動作させることができる。なお、本明細書に説明するプログラムは、図14および図15に示すようなコンピュータに限定されず、携帯電話、携帯情報端末、携帯型パーソナルコンピュータといった任意の情報処理装置を、当該プログラムに従って動作させることができる。
隠蔽信号生成プログラムP43は、記録媒体Mに格納されて提供され得る。なお、記録媒体Mとしては、フレキシブルディスク、CD−ROM、DVD、あるいはROM等の記録媒体、あるいは半導体メモリ等が例示される。
図14に示すように、コンピュータC10は、フレキシブルディスクドライブ装置、CD−ROMドライブ装置、DVDドライブ装置等の読み取り装置C12と、作業用メモリ(RAM)C14と、記録媒体Mに記憶されたプログラムを記憶するメモリC16と、ディスプレイC18と、入力装置であるマウスC20及びキーボードC22と、データ等の送受信を行うための通信装置C24と、プログラムの実行を制御する中央演算部(CPU)C26とを備える。
コンピュータC10は、記録媒体Mが読み取り装置C12に挿入されると、記録媒体Mに格納された隠蔽信号生成プログラムP43に読み取り装置C12からアクセス可能になり、隠蔽信号生成プログラムP43によって、本発明に係る隠蔽信号生成装置として動作することが可能になる。
図15に示すように、隠蔽信号生成プログラムP43は、搬送波に重畳されたコンピュータデータ信号Wとしてネットワークを介して提供されるものであってもよい。この場合、コンピュータC10は、通信装置C24によって受信した隠蔽信号生成プログラムP43をメモリC16に格納し、隠蔽信号生成プログラムP43を実行することができる。
図16に示すように、隠蔽信号生成プログラムP43は、復号信号蓄積モジュールP431、信号識別モジュールP434、および第一隠蔽信号生成モジュールP433を備えている。これらの復号信号蓄積モジュールP431、信号識別モジュールP434、および第一隠蔽信号生成モジュールP433は、前述した復号信号蓄積部431、信号識別部434、および第一隠蔽信号生成部433とそれぞれ同様の機能をコンピュータC10に実行させる。かかる隠蔽信号生成プログラムP43によれば、コンピュータC10は、本発明に係る隠蔽信号生成装置として動作することが可能となる。
以上説明したさまざまな実施形態によって、隠蔽信号生成を目的としてバッファ内の信号から繰り返しの単位となる波形を求める際、パワーの時間変化やパワースペクトルの時間変化を用いる。さらに、QMF(Quadrature Mirror Filter)を用いた時間周波数変換により得られた周波数領域信号を用いて隠蔽信号の生成を行う。これらの場合、隠蔽信号生成時の信号の繰り返し単位を、従来のMDCTやFFTを用いた周波数領域信号よりも短くできるため、隠蔽のために出力した信号に性質の異なる信号が混在することを防ぐことができ、パケットロス隠蔽信号の音質低下を防ぐことができる。
1…符号化部、2…パケット構成部、3…パケット分離部、4…復号部、41…エラー/ロス検出部、42…音声復号部、43…隠蔽信号生成部、431…復号信号蓄積部、433…第一隠蔽信号生成部、434…信号識別部、4340…復号信号蓄積部、4341…時間包絡算出部、4342…信号識別情報生成部、4343…時間周波数変換部、4344…変換利得算出部、4345…信号識別情報蓄積部、4346…補助情報蓄積部、4347…パワースペクトル包絡算出部、C10…コンピュータ、C12…読み取り装置、C14…作業用メモリ、C16…メモリ、C18…ディスプレイ、C20…マウス、C22…キーボード、C24…通信装置、C26…CPU、M…記録媒体、W…コンピュータデータ信号、P43…音声符号化プログラム、P431…復号信号蓄積モジュール、P433…第一隠蔽信号生成モジュール、P434…信号識別モジュール。

Claims (10)

  1. 音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果、および音声符号が復号されて得られた復号信号を外部から受け取り、パケットロスした部分に対応する復号信号について、パケットロスの隠蔽を行う隠蔽信号生成装置であって、
    前記検出結果が正常とされたパケットに含まれていた音声符号から得られた復号信号を蓄積する復号信号蓄積部と、
    前記検出結果が異常の場合、蓄積されている復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方を検出し、当該検出結果を表す信号識別情報を出力する信号識別部と、
    前記信号識別情報と、前記復号信号蓄積部により蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成部と、
    を備える隠蔽信号生成装置。
  2. 前記信号識別部は、パワーが急激に変化する時点とパワースペクトルが急激に変化する時点の両方又は一方を検出することを特徴とする請求項1に記載の隠蔽信号生成装置。
  3. 前記信号識別部は、変化の開始に関する情報と変化の終了に関する情報の両方又は一方を、信号識別情報として出力することを特徴とする請求項2に記載の隠蔽信号生成装置。
  4. 音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果、および音声符号が復号されて得られた復号信号を外部から受け取り、パケットロスした部分に対応する復号信号について、パケットロスの隠蔽を行う隠蔽信号生成装置であって、
    前記検出結果が正常とされたパケットに含まれていた音声符号から得られた復号信号を蓄積する復号信号蓄積部と、
    前記検出結果が正常の場合、音声符号から得られた復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方の検出結果を表す信号識別情報を外部から受け取って蓄積し、前記検出結果が異常の場合、既に蓄積された信号識別情報を出力する信号識別部と、
    前記信号識別情報と、前記復号信号蓄積部により蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成部と、
    を備える隠蔽信号生成装置。
  5. 前記第一隠蔽信号生成部は、前記復号信号蓄積部において前記信号識別情報を用いて指定される範囲の復号信号を繰り返して得られる信号を、隠蔽信号として生成することを特徴とする請求項1〜4の何れか一項に記載の隠蔽信号生成装置。
  6. 前記第一隠蔽信号生成部は、前記復号信号蓄積部において前記信号識別情報を用いて指定される範囲の復号信号を繰り返した上でパワーを調整することで得られる信号を、隠蔽信号として生成することを特徴とする請求項1〜4の何れか一項に記載の隠蔽信号生成装置。
  7. 音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果、および音声符号が復号されて得られた復号信号を外部から受け取り、パケットロスした部分に対応する復号信号について、パケットロスの隠蔽を行う隠蔽信号生成装置、により実行される隠蔽信号生成方法であって、
    前記検出結果が正常とされたパケットに含まれていた音声符号から得られた復号信号を蓄積する復号信号蓄積ステップと、
    前記検出結果が異常の場合、蓄積されている復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方を検出し、当該検出結果を表す信号識別情報を出力する信号識別ステップと、
    前記信号識別情報と、前記復号信号蓄積ステップにより蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成ステップと、
    を備える隠蔽信号生成方法。
  8. 音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果、および音声符号が復号されて得られた復号信号を外部から受け取り、パケットロスした部分に対応する復号信号について、パケットロスの隠蔽を行う隠蔽信号生成装置、により実行される隠蔽信号生成方法であって、
    前記検出結果が正常とされたパケットに含まれていた音声符号から得られた復号信号を蓄積する復号信号蓄積ステップと、
    前記検出結果が正常の場合、音声符号から得られた復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方の検出結果を表す信号識別情報を外部から受け取って蓄積し、前記検出結果が異常の場合、既に蓄積された信号識別情報を出力する信号識別ステップと、
    前記信号識別情報と、前記復号信号蓄積ステップにより蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成ステップと、
    を備える隠蔽信号生成方法。
  9. コンピュータを、
    音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果が正常とされたパケットに含まれていた音声符号から復号により得られた復号信号を蓄積する復号信号蓄積部と、
    前記検出結果が異常の場合、蓄積されている復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方を検出し、当該検出結果を表す信号識別情報を出力する信号識別部と、
    前記信号識別情報と、前記復号信号蓄積部により蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成部、
    として機能させるための隠蔽信号生成プログラム。
  10. コンピュータを、
    音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果が正常とされたパケットに含まれていた音声符号から復号により得られた復号信号を蓄積する復号信号蓄積部と、
    前記検出結果が正常の場合、音声符号から得られた復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方の検出結果を表す信号識別情報を外部から受け取って蓄積し、前記検出結果が異常の場合、既に蓄積された信号識別情報を出力する信号識別部と、
    前記信号識別情報と、前記復号信号蓄積部により蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成部、
    として機能させるための隠蔽信号生成プログラム。
JP2010264094A 2010-11-26 2010-11-26 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム Active JP5694745B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010264094A JP5694745B2 (ja) 2010-11-26 2010-11-26 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
PCT/JP2011/074046 WO2012070340A1 (ja) 2010-11-26 2011-10-19 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
TW100141295A TW201234352A (en) 2010-11-26 2011-11-11 Concealment signal generating device, concealment signal generation method and concealment signal generation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010264094A JP5694745B2 (ja) 2010-11-26 2010-11-26 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム

Publications (2)

Publication Number Publication Date
JP2012113235A true JP2012113235A (ja) 2012-06-14
JP5694745B2 JP5694745B2 (ja) 2015-04-01

Family

ID=46145697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010264094A Active JP5694745B2 (ja) 2010-11-26 2010-11-26 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム

Country Status (3)

Country Link
JP (1) JP5694745B2 (ja)
TW (1) TW201234352A (ja)
WO (1) WO2012070340A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101452635B1 (ko) 2013-06-03 2014-10-22 충북대학교 산학협력단 Lms 예측기를 이용한 패킷 손실 은닉 방법 및 이를 기록한 기록매체
WO2015064346A1 (ja) * 2013-10-29 2015-05-07 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104347076B (zh) * 2013-08-09 2017-07-14 中国电信股份有限公司 网络音频丢包掩蔽方法和装置
JP6826126B2 (ja) * 2016-03-07 2021-02-03 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 異なる周波数帯域の異なる減衰係数に従って隠蔽されたオーディオフレームをフェードアウトする誤り隠蔽ユニット、オーディオデコーダ、および関連する方法およびコンピュータプログラム
SG11202110071XA (en) * 2019-03-25 2021-10-28 Razer Asia Pacific Pte Ltd Method and apparatus for using incremental search sequence in audio error concealment
CN113763974B (zh) * 2021-08-31 2023-05-16 易兆微电子(杭州)股份有限公司 一种丢包补偿方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001228896A (ja) * 2000-02-14 2001-08-24 Iwatsu Electric Co Ltd 欠落音声パケットの代替置換方式
JP2006276877A (ja) * 2006-05-22 2006-10-12 Nec Corp 変換符号化されたデータの復号方法及び変換符号化されたデータの復号装置
WO2008111158A1 (ja) * 2007-03-12 2008-09-18 Fujitsu Limited 音声波形補間装置および方法
JP2010176142A (ja) * 2007-11-05 2010-08-12 Huawei Technologies Co Ltd 減衰率を取得する方法および装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1589330B1 (en) * 2003-01-30 2009-04-22 Fujitsu Limited Audio packet vanishment concealing device, audio packet vanishment concealing method, reception terminal, and audio communication system
SE527669C2 (sv) * 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Förbättrad felmaskering i frekvensdomänen
EP1775717B1 (en) * 2004-07-20 2013-09-11 Panasonic Corporation Speech decoding apparatus and compensation frame generation method
JP5123516B2 (ja) * 2006-10-30 2013-01-23 株式会社エヌ・ティ・ティ・ドコモ 復号装置、符号化装置、復号方法及び符号化方法
JP4504389B2 (ja) * 2007-02-22 2010-07-14 富士通株式会社 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001228896A (ja) * 2000-02-14 2001-08-24 Iwatsu Electric Co Ltd 欠落音声パケットの代替置換方式
JP2006276877A (ja) * 2006-05-22 2006-10-12 Nec Corp 変換符号化されたデータの復号方法及び変換符号化されたデータの復号装置
WO2008111158A1 (ja) * 2007-03-12 2008-09-18 Fujitsu Limited 音声波形補間装置および方法
JP2010176142A (ja) * 2007-11-05 2010-08-12 Huawei Technologies Co Ltd 減衰率を取得する方法および装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101452635B1 (ko) 2013-06-03 2014-10-22 충북대학교 산학협력단 Lms 예측기를 이용한 패킷 손실 은닉 방법 및 이를 기록한 기록매체
WO2015064346A1 (ja) * 2013-10-29 2015-05-07 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
US10621999B2 (en) 2013-10-29 2020-04-14 Ntt Docomo, Inc. Audio signal processing device, audio signal processing method, and audio signal processing program
US11270715B2 (en) 2013-10-29 2022-03-08 Ntt Docomo, Inc. Audio signal discontinuity processing system
US11749291B2 (en) 2013-10-29 2023-09-05 Ntt Docomo, Inc. Audio signal discontinuity correction processing system

Also Published As

Publication number Publication date
TW201234352A (en) 2012-08-16
WO2012070340A1 (ja) 2012-05-31
JP5694745B2 (ja) 2015-04-01

Similar Documents

Publication Publication Date Title
JP6951536B2 (ja) 音声符号化装置および方法
US10096323B2 (en) Frame error concealment method and apparatus and decoding method and apparatus using the same
JP5694745B2 (ja) 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
US7805297B2 (en) Classification-based frame loss concealment for audio signals
KR101001170B1 (ko) 오디오 코딩
EP3534365B1 (en) Speech/audio signal processing method and apparatus
US8065141B2 (en) Apparatus and method for processing signal, recording medium, and program
US7986797B2 (en) Signal processing system, signal processing apparatus and method, recording medium, and program
KR101690899B1 (ko) 오디오 신호의 불연속 전송에서 높은 스펙트럼-시간 해상도를 가진 편안한 잡음의 생성
EP3007171B1 (en) Signal processing device and signal processing method
JP5219499B2 (ja) 風雑音低減装置
UA114233C2 (uk) Системи та способи для визначення набору коефіцієнтів інтерполяції
JP7316093B2 (ja) 音声雑音除去装置及びプログラム
WO2021200151A1 (ja) 送信装置、送信方法、受信装置、及び受信方法
JP4539180B2 (ja) 音響復号装置及び音響復号方法
JP2006023658A (ja) オーディオ信号符号化装置及びオーディオ信号符号化方法
JP2011033672A (ja) 音声信号変換装置、音声信号変換方法および音声信号変換プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140624

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150205

R150 Certificate of patent or registration of utility model

Ref document number: 5694745

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250