JP6704037B2

JP6704037B2 - 音声符号化装置および方法

Info

Publication number: JP6704037B2
Application number: JP2018230792A
Authority: JP
Inventors: 公孝堤; 菊入　圭; 圭菊入
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2010-11-22
Filing date: 2018-12-10
Publication date: 2020-06-03
Anticipated expiration: 2031-11-04
Also published as: CN104934036A; JP2017142542A; EP2645366A4; JP2019066868A; ES2966665T3; HUE064739T2; JP6789365B2; US9508350B2; US20220215846A1; EP2975610A1; JP6000854B2; FI3518234T3; DK2975610T3; CN104934036B; TW201243825A; JP6951536B2; CN103229234B; US20190019519A1; EP2975610B1; JP2020073986A

Description

本発明は、複数のフレームからなる音声信号を符号化して得られた音声符号を含んだ音声パケットを、ＩＰ網や移動体通信網経由で伝送する際のエラー隠蔽に関するものであり、さらに詳しくは、エラー隠蔽を実現するための音声符号化装置および方法に関する。

音声・音響信号（以下「音声信号」と総称する）をＩＰ網や移動体通信において伝送する際には、音声信号をエンコードして少ないビット数で表現して音声パケットに分割し、その音声パケットを通信網経由で伝送する。通信網を通じて受け取られた音声パケットは、受信側のサーバ、ＭＣＵ、端末等において復号され、復号音声信号が得られる。

通信網を通じて音声パケットを伝送する際には、通信網の輻輳状態等に起因して、一部の音声パケットが失われる又は音声パケットに書き込まれた情報の一部に誤りが生じるといった現象（いわゆるパケットロス）が起こりうる。そのような場合には、受信側において音声パケットを正しく復号することができないため、所望の復号音声信号を得ることが出来ない。また、パケットロスが生じた音声パケットに対応する復号音声信号は雑音として知覚されるため、受聴する人間に対して与える主観品質を著しく損なう。

上記のような不都合を解消するため、パケットロスにより失われた部分の音声音響信号を補間するパケットロス隠蔽技術として、「受信側での隠蔽技術」と「送信側での隠蔽技術」がある。

このうち「受信側での隠蔽技術」では、例えば、非特許文献１の技術のように過去に正常に受信したパケットに含まれていた復号音声信号をピッチ単位でコピーした上で、予め決めた減衰係数を乗算することにより、パケットロスした部分に対応する音声信号を生成する。ところが、「受信側での隠蔽技術」は、パケットロスした部分の音声の性質がパケットロスする直前の音声と似ていることを前提としているため、パケットロスした部分がロスする直前の音声と異なる性質を持つ場合や、パワーが急激に変化する場合に十分な隠蔽効果を発揮することができない。

また、「受信側での隠蔽技術」では、より高度なものとして特許文献１の技術がある。この特許文献１の技術では、過去に正常に受信したパケットに含まれていた復号音声をコピーして隠蔽信号を生成するが、コピー元の音声の性質（パワースペクトルの形状）に応じて変化する減衰係数を乗算することにより、異音が少なく高音質な隠蔽信号の整形を行う点が、前述した非特許文献１の技術とは異なる。

一方、「送信側での隠蔽技術」として、特許文献２の技術、および特許文献３の技術がある。

このうち特許文献２の技術では、過去に正常に受信したパケットに含まれる音声信号をバッファに蓄積するとともに、パケットが失われたときにバッファのどの位置から音声信号をコピーするかを示す位置情報を、補助情報として符号化して伝送する。さらに位置情報に加えて、パケットロス部分が無音区間か否かといった振幅情報を補助情報に含めることによってパケットロスが生じた部分が本来無音区間である場合に、不要な音声が混入することを防止する。

また、特許文献３の技術では、復号装置が、パケットロスを隠蔽する第一の隠蔽装置と、第一の隠蔽装置が出力した第一隠蔽信号を補助情報に基づき修正する第二の隠蔽装置と、補助情報を復号する補助情報復号装置を有する。第一の隠蔽装置で十分な隠蔽効果を発揮しない場合、第二の隠蔽装置は、補助情報復号装置が生成する補助情報を用いて第一隠蔽信号を修正し、第二隠蔽信号を生成する。補助情報としてパワースペクトル包絡や、隣接するフレームのパワースペクトル包絡から予測される値と入力パワースペクトル包絡の誤差を符号化した値を利用する。第二の隠蔽装置は、補助情報として利用できるパワースペクトル包絡を有するよう周波数領域において第一隠蔽信号にゲインを乗算し、第一隠蔽信号よりも精度の高い第二隠蔽信号を生成する。

再公表特許ＷＯ２００７／０００９８８号公報特開２００３−３１６６７０号公報特開２００８−１１１９９１号公報

ITU-T G.711 Appendix I

しかしながら、特許文献１の技術は、過去に正常に受信した復号信号から予測により隠蔽信号を生成する手法であるため、例えばカスタネットの打音のように予測結果から大きく外れるパワー変化を有する隠蔽信号を、過去の信号から高精度に生成することは困難である。

また、特許文献２の技術は、送信側で無音区間に関する振幅情報を生成し、パケットロスした部分が無音区間の場合に隠蔽信号が生成されるのを防げるが、上記述べたようなカスタネットの打音のような突発的なパワー変化を伴う音について十分な隠蔽効果を有さない。

また、特許文献３の技術は、フレーム単位で時間周波数変換した上で周波数領域での処理を行う方法であるため、処理の単位がフレーム単位となり、フレーム内での急激なパワーの変化を扱うのが困難である。また、過去の信号とパケットロスした信号の相関が高いことを前提としてパケットロス部分の復号音声を高精度化するため、パワーが急激に変化する部分がパケットロスした場合には、信号の相関が低くなるため、パワースペクトル包絡の予測誤差が大きくなるため少ないビット数での符号化が困難であり、高精度な復号音声を生成することが困難である。

以上述べたとおり、従来技術では、拍手やカスタネットの打音のように時間的に早いパワーの変化を伴う信号（以下「トランジェント信号」という）に対しては、十分なエラー隠蔽の効果を有しない、という課題があった。即ち、受信側において、音声信号におけるどのタイミングでトランジェント信号が発生するかを、直前に正常に受け取った音声パケットから復号により得られた復号信号に基づいて正確に予測することは極めて困難である。

本発明は、上記課題を解決し、前後の信号から予測することが困難なトランジェント信号におけるパケットロスを高精度に隠蔽可能なエラー隠蔽技術を与えることを目的とする。

本発明の一側面は、音声復号に関するものであり、以下の音声復号装置、音声復号方法、および音声復号プログラムを含み得る。

本発明の一側面に係る音声復号装置は、音声符号と、音声符号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報符号と、を含んだ音声パケットから、音声符号を復号する音声復号装置であって、音声パケットにおけるパケットエラー又はパケットロスを検出し、検出結果を示すエラーフラグを出力するエラー／ロス検出部と、音声パケットに含まれる音声符号を復号して復号信号を求める音声復号部と、音声パケットに含まれる補助情報符号を復号して補助情報を求める補助情報復号部と、前記エラーフラグが音声パケットの異常を示す場合、既に求められた復号信号に基づいて、パケットロスを隠蔽するための第一の隠蔽信号を生成する第一隠蔽信号生成部と、前記補助情報に基づいて、第一の隠蔽信号を修正する隠蔽信号修正部と、を備えることを特徴とする。

本発明の一側面に係る音声復号方法は、音声符号と、音声符号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報符号と、を含んだ音声パケットから、音声符号を復号する音声復号装置、により実行される音声復号方法であって、音声パケットにおけるパケットエラー又はパケットロスを検出し、検出結果を示すエラーフラグを出力するエラー／ロス検出ステップと、音声パケットに含まれる音声符号を復号して復号信号を求める音声復号ステップと、音声パケットに含まれる補助情報符号を復号して補助情報を求める補助情報復号ステップと、前記エラーフラグが音声パケットの異常を示す場合、既に求められた復号信号に基づいて、パケットロスを隠蔽するための第一の隠蔽信号を生成する第一隠蔽信号生成ステップと、前記補助情報に基づいて、第一の隠蔽信号を修正する隠蔽信号修正ステップと、を備えることを特徴とする。

本発明の一側面に係る音声復号プログラムは、コンピュータを、音声符号と、音声符号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報符号と、を含んだ音声パケットにおけるパケットエラー又はパケットロスを検出し、検出結果を示すエラーフラグを出力するエラー／ロス検出部と、音声パケットに含まれる音声符号を復号して復号信号を求める音声復号部と、音声パケットに含まれる補助情報符号を復号して補助情報を求める補助情報復号部と、前記エラーフラグが音声パケットの異常を示す場合、既に求められた復号信号に基づいて、パケットロスを隠蔽するための第一の隠蔽信号を生成する第一隠蔽信号生成部と、前記補助情報に基づいて、第一の隠蔽信号を修正する隠蔽信号修正部、として機能させることを特徴とする。

一実施形態において、パワーの時間変化に関する補助情報符号に、１フレームよりも短いサブフレーム複数分のパワーを関数近似したパラメータが含まれてもよい。例えば、パワーの時間変化に関する補助情報は、符号化対象のフレームを複数のサブフレームに分割してサブフレーム毎に算出したパワーを最適に直線近似する予測係数であってもよいし、前記サブフレーム毎に算出したパワーを直線近似した際の予測係数と切片であってもよいし、何らかの関数を用いて近似した際のパラメータであってもよいし、予め定めたコードブックに格納された候補ベクトルのうち、サブフレーム毎に算出したパワーを最適に近似する候補ベクトルのインデックスであってもよいし、その他事前に仮定したモデルに対し定まるパラメータであってもよい。また、パワーの時間変化に関する補助情報は、符号化対象のフレームを１つ以上のサブフレームに分割してサブフレーム毎に算出したパワーを用いて予測を行った際の予測係数と予測誤差系列を符号化したものであってもよい。なお、補助情報の符号化の方法については特に限定しない。

一実施形態において、パワーの時間変化に関する補助情報符号に、１フレームよりも短いサブフレーム複数分のパワーをベクトル量子化して得られたベクトルに関する情報が含まれてもよい。

一実施形態において、補助情報復号部は、音声復号部が復号する音声符号に対応するフレームの１つ以上前あるいは１つ以上後ろのフレームに相当する時間区間に含まれる音声信号に関する補助情報符号を復号してもよい。

ところで、上記パワーの時間変化に関する補助情報は、周波数領域におけるサブバンド毎に算出してもよい。

即ち、一実施形態において、パワーの時間変化に関する補助情報に、全周波数帯域を複数に分割したサブバンド毎に算出した１フレームよりも短いサブフレーム複数分のパワーを、サブバンド毎に関数近似したパラメータが含まれてもよい。

また、一実施形態において、パワーの時間変化に関する補助情報に、全周波数帯域を複数に分割したサブバンド毎に算出した１フレームよりも短いサブフレーム複数分のパワーを、サブバンド毎にベクトル量子化して得られたベクトルに関する情報が含まれてもよい。

また、一実施形態において、隠蔽信号修正部は、全周波数帯域を複数に分割したサブバンド毎に、第一の隠蔽信号を修正してもよい。

上記のようにサブバンド毎の補助情報を用いる場合でも、補助情報復号部は、音声復号部が復号する音声符号に対応するフレームの１つ以上前あるいは１つ以上後ろのフレームに相当する時間区間に含まれる音声信号に関する補助情報符号を復号してもよい。

なお、音声符号を復号して得られる信号は、ＭＤＣＴ（Modified Discrete Cosine Transform）やＱＭＦ（Quadrature Mirror Filter）により周波数領域に変換された信号であってもよいし、過去の復号信号からパケットロス隠蔽のために生成した第一隠蔽信号は上記変換により周波数領域に変換されたものであってもよい。また、第一隠蔽係数は、過去に正常に受信した音声符号を復号して得られる復号信号を反復して得られるものであってもよいし、ピッチ単位で反復して得られるものであってもよいし、予測により生成してもよい。

本発明の一側面（音声復号に関する側面）に係る一実施形態において、パワーの時間変化に関する補助情報に、パワーの急激な変化の有無を表す指示情報が含まれてもよい。

また、一実施形態において、パワーの時間変化に関する補助情報に、パワーが急激に変化する位置と、パワーが急激に変化するサブフレームのパワーあるいはパワーが急激に変化するサブフレームのパワーを量子化した値と、が含まれてもよい。

また、一実施形態において、パワーの時間変化に関する補助情報に、パワーが急激に変化するサブフレームのパワーあるいはパワーが急激に変化するサブフレームのパワーを量子化した値、が含まれてもよい。

また、一実施形態において、パワーの時間変化に関する補助情報に、パワーの急激な変化の有無を表す指示情報と、パワーが急激に変化するサブフレームのパワーあるいはパワーが急激に変化するサブフレームのパワーを量子化した値と、が含まれてもよい。

また、一実施形態において、パワーの時間変化に関する補助情報に、パワーの急激な変化の有無を表す指示情報と、パワーが急激に変化する位置と、パワーが急激に変化するサブフレームのパワーあるいはパワーが急激に変化するサブフレームのパワーを量子化した値と、が含まれてもよい。このとき、パワーの時間変化に関する補助情報に、パワーの変化をベクトル量子化した情報が、さらに含まれてもよい。

また、一実施形態において、パワーの時間変化に関する補助情報に、パワーが急激に変化するサブフレームに含まれる１つ以上のサブバンドのパワーあるいはパワーが急激に変化するサブフレームに含まれる１つ以上のサブバンドのパワーを量子化した値、が含まれてもよい。

また、一実施形態において、パワーの時間変化に関する補助情報に、パワーの急激な変化の有無を表す指示情報と、パワーが急激に変化するサブフレームに含まれる１つ以上のサブバンドのパワーあるいはパワーが急激に変化するサブフレームに含まれる１つ以上のサブバンドのパワーを量子化した値と、が含まれてもよい。

また、一実施形態において、パワーの時間変化に関する補助情報に、パワーが急激に変化する位置と、パワーが急激に変化するサブフレームに含まれる１つ以上のサブバンドのパワーあるいはパワーが急激に変化するサブフレームに含まれる１つ以上のサブバンドのパワーを量子化した値と、が含まれてもよい。

また、一実施形態において、パワーの時間変化に関する補助情報に、パワーの急激な変化の有無を表す指示情報と、パワーが急激に変化する位置と、パワーが急激に変化するサブフレームに含まれる１つ以上のサブバンドのパワーあるいはパワーが急激に変化するサブフレームに含まれる１つ以上のサブバンドのパワーを量子化した値と、が含まれてもよい。このとき、パワーの時間変化に関する補助情報に、パワーが急激に変化するサブフレームに含まれる１つ以上のサブバンドのパワーの変化をベクトル量子化した情報が、さらに含まれてもよい。

また、一実施形態において、補助情報復号部は、補助情報を２以上の集合として別々に復号してもよい。

また、一実施形態において、パワーの時間変化に関する補助情報に、全周波数帯域を複数に分割したサブバンドのうちの一部のサブバンドについて算出した、１フレームよりも短いサブフレーム複数分のパワーに関する情報が含まれていてもよい。

また、一実施形態において、補助情報復号部は、パワーが急激に変化するサブフレームに含まれる１つ以上のサブバンドに関するパワーの量子化において、上記１つ以上のサブバンドに含まれる１つ以上のサブバンドであるコアサブバンドのパワー、および、コアサブバンドのパワーとコアサブバンド以外のサブバンドのパワーとの差分、を量子化した情報が含まれる補助情報を復号してもよい。このとき、パワーの時間変化に関する補助情報に、パワーが急激に変化するサブフレーム以降のパワーの変化を量子化した情報が、さらに含まれてもよい。

また、一実施形態において、補助情報復号部は、パワーの急激な変化の有無を表す指示情報に応じて異なる長さで符号化された補助情報を復号してもよい。

なお、過去の復号信号からパケットロス隠蔽のために生成した第一隠蔽信号は、別の実施形態として例えば、TS26.402の第5.2節に示すような既存の標準技術により生成してもよいし、標準技術ではない別の隠蔽信号生成技術により生成してもよい。

本発明の別の側面は、音声符号化に関するものであり、以下の音声符号化装置、音声符号化方法、および音声符号化プログラムを含み得る。

本発明の別の側面に係る音声符号化装置は、複数のフレームからなる音声信号を符号化する音声符号化装置であって、音声信号を符号化する音声符号化部と、音声信号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報を推定し符号化する補助情報符号化部と、を備えることを特徴とする。

本発明の別の側面に係る音声符号化方法は、複数のフレームからなる音声信号を符号化する音声符号化装置、により実行される音声符号化方法であって、音声信号を符号化する音声符号化ステップと、音声信号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報を推定し符号化する補助情報符号化ステップと、を備えることを特徴とする。

本発明の別の側面に係る音声符号化プログラムは、コンピュータを、複数のフレームからなる音声信号を符号化する音声符号化部と、音声信号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報を推定し符号化する補助情報符号化部、として機能させることを特徴とする。

一実施形態において、パワーの時間変化に関する補助情報に、１フレームよりも短いサブフレーム複数分のパワーを関数近似したパラメータが含まれてもよい。

一実施形態において、パワーの時間変化に関する補助情報に、１フレームよりも短いサブフレーム複数分のパワーをベクトル量子化して得られたベクトルに関する情報が含まれてもよい。

一実施形態において、補助情報符号化部は、音声符号化部が符号化するフレームの１つ以上前あるいは１つ以上後ろのフレームに相当する時間区間に含まれる音声信号について、前記補助情報を推定し符号化してもよい。

一実施形態において、パワーの時間変化に関する補助情報に、全周波数帯域を複数に分割したサブバンド毎に算出した１フレームよりも短いサブフレーム複数分のパワーをサブバンド毎に関数近似したパラメータが含まれてもよい。

一実施形態において、パワーの時間変化に関する補助情報に、全周波数帯域を複数に分割したサブバンド毎に算出した１フレームよりも短いサブフレーム複数分のパワーをベクトル量子化して得られたベクトルに関する情報が含まれてもよい。

上記のようにサブバンド毎の補助情報を用いる場合でも、補助情報符号化部は、音声符号化部が符号化するフレームの１つ以上前あるいは１つ以上後ろのフレームに相当する時間区間に含まれる音声信号について、前記補助情報を推定し符号化してもよい。

一実施形態において、補助情報符号化部は、補助情報を２以上の集合として別々に符号化してもよい。

なお、一例として、補助情報符号化部は、補助情報をスカラ量子化した上で符号化してもよいし、ベクトル量子化した上で符号化してもよいし、事前に用意したコードブックを用いて補助情報を直接符号化してもよい。ここでの符号化の方法については特に限定しない。また、補助情報符号化部は、必要なサンプル数だけ音声信号を蓄積した上で、１フレームを複数のサブフレームに分割してサブフレーム毎に算出したパワーを算出し、補助情報としてもよい。補助情報は、上記サブフレーム毎に算出したパワーを最適に直線近似する予測係数であってもよいし、サブフレーム毎に算出したパワーを直線近似した際の予測係数および切片であってもよいし、何らかの関数を用いて近似した際のパラメータであってもよいし、予め定めたコードブックに格納された候補ベクトルのうち、サブフレーム毎に算出したパワーを最適に近似する候補ベクトルのインデックスであってもよいし、その他事前に仮定したモデルに対し定まるパラメータであってもよい。なお、符号化の方法については、前述した補助情報復号部で用いたものに対応する符号化方法を用いる。

本発明の別の側面（音声符号化に関する側面）に係る一実施形態において、パワーの時間変化に関する補助情報に、パワーの急激な変化の有無を表す指示情報が含まれてもよい。

また、一実施形態において、全周波数帯域を複数に分割したサブバンドのうち１つ以上のサブバンドについて求めた、１フレームよりも短いサブフレーム複数分のパワーに関する情報が含まれていてもよい。

また、一実施形態において、これら補助情報は、全周波数帯域を複数に分割したサブバンドのうち１つ以上のサブバンドに関するものであってもよい。なお、符号化の方法については、前述した補助情報復号部で用いたものに対応する符号化方法を用いる。

また、一実施形態において、補助情報符号化部は、パワーが急激に変化するサブフレームに含まれる１つ以上のサブバンドに関するパワーの量子化において、上記１つ以上のサブバンドに含まれる１つ以上のサブバンドであるコアサブバンドのパワー、および、コアサブバンドのパワーとコアサブバンド以外のサブバンドのパワーとの差分、を量子化してもよい。このとき、パワーの時間変化に関する補助情報に、パワーが急激に変化するサブフレーム以降のパワーの変化を量子化した情報が、さらに含まれてもよい。

また、一実施形態において、補助情報符号化部は、補助情報を、パワーの急激な変化の有無を表す指示情報に応じて異なる長さで符号化してもよい。

本発明は、以下の態様も採用しうる。本発明に係る音声符号化装置は、複数のフレームからなる音声信号を符号化する音声符号化装置であって、音声信号を符号化する音声符号化部と、音声信号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報を推定し符号化する補助情報符号化部と、を備え、前記補助情報符号化部は、前記補助情報として、パワーの変化に関するフラグ及び量子化トランジェントパワーを推定し符号化する。

前記補助情報には、前記フラグ及び前記量子化トランジェントパワーのみが含まれてもよい。

本発明に係る音声符号化装置は、複数のフレームからなる音声信号を符号化する音声符号化装置であって、音声信号を符号化する音声符号化部と、音声信号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報を推定し符号化する補助情報符号化部と、を備え、前記補助情報符号化部は、前記補助情報として、パワーの変化に関するフラグを推定し符号化し、前記フラグが所定のモードである場合、前記補助情報として、さらに、量子化トランジェントパワーを推定し符号化し、前記フラグが所定のモードでない場合、前記補助情報として、量子化トランジェントパワーを含めない。

本発明に係る音声復号装置は、音声符号と、音声符号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報符号と、を含んだ音声パケットから、音声符号を復号する音声復号装置であって、音声パケットにおけるパケットエラー又はパケットロスを検出し、検出結果を示すエラーフラグを出力するエラー／ロス検出部と、音声パケットに含まれる音声符号を復号して復号信号を求める音声復号部と、音声パケットに含まれる補助情報符号を復号して補助情報を求める補助情報復号部と、前記エラーフラグが音声パケットの異常を示す場合、既に求められた復号信号に基づいて、パケットロスを隠蔽するための第一の隠蔽信号を生成する第一隠蔽信号生成部と、前記補助情報に基づいて、第一の隠蔽信号を修正する隠蔽信号修正部と、を備え、前記補助情報復号部は、前記補助情報符号に含まれる、パワーの変化に関するフラグ及び量子化トランジェントパワーを復号して、補助情報として前記フラグ及び前記量子化トランジェントパワーを求める。

前記補助情報符号には、前記フラグ及び前記量子化トランジェントパワーのみが含まれてもよい。

本発明に係る音声復号装置は、音声符号と、音声符号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報符号と、を含んだ音声パケットから、音声符号を復号する音声復号装置であって、音声パケットにおけるパケットエラー又はパケットロスを検出し、検出結果を示すエラーフラグを出力するエラー／ロス検出部と、音声パケットに含まれる音声符号を復号して復号信号を求める音声復号部と、音声パケットに含まれる補助情報符号を復号して補助情報を求める補助情報復号部と、前記エラーフラグが音声パケットの異常を示す場合、既に求められた復号信号に基づいて、パケットロスを隠蔽するための第一の隠蔽信号を生成する第一隠蔽信号生成部と、前記補助情報に基づいて、第一の隠蔽信号を修正する隠蔽信号修正部と、を備え、前記補助情報復号部は、前記補助情報符号に含まれる、パワーの変化に関するフラグを復号し、前記フラグが所定のモードである場合、さらに前記補助情報符号に含まれる量子化トランジェントパワーを復号して、補助情報として前記フラグ及び前記量子化トランジェントパワーを求め、前記フラグが所定のモードでない場合、前記補助情報として、量子化トランジェントパワーを含めない。

本発明に係る音声符号化方法は、複数のフレームからなる音声信号を符号化する音声符号化装置、により実行される音声符号化方法であって、音声信号を符号化する音声符号化ステップと、音声信号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報を推定し符号化する補助情報符号化ステップと、を備え、前記補助情報符号化ステップでは、前記音声符号化装置は、前記補助情報として、パワーの変化に関するフラグ及び量子化トランジェントパワーを推定し符号化する。

本発明に係る音声符号化方法は、複数のフレームからなる音声信号を符号化する音声符号化装置、により実行される音声符号化方法であって、音声信号を符号化する音声符号化ステップと、音声信号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報を推定し符号化する補助情報符号化ステップと、を備え、前記補助情報符号化ステップでは、前記音声符号化装置は、前記補助情報として、パワーの変化に関するフラグを推定し符号化し、前記フラグが所定のモードである場合、前記補助情報として、さらに、量子化トランジェントパワーを推定し符号化し、前記フラグが所定のモードでない場合、前記補助情報として、量子化トランジェントパワーを含めない。

本発明に係る音声復号方法は、音声符号と、音声符号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報符号と、を含んだ音声パケットから、音声符号を復号する音声復号装置、により実行される音声復号方法であって、音声パケットにおけるパケットエラー又はパケットロスを検出し、検出結果を示すエラーフラグを出力するエラー／ロス検出ステップと、音声パケットに含まれる音声符号を復号して復号信号を求める音声復号ステップと、音声パケットに含まれる補助情報符号を復号して補助情報を求める補助情報復号ステップと、前記エラーフラグが音声パケットの異常を示す場合、既に求められた復号信号に基づいて、パケットロスを隠蔽するための第一の隠蔽信号を生成する第一隠蔽信号生成ステップと、前記補助情報に基づいて、第一の隠蔽信号を修正する隠蔽信号修正ステップと、を備え、前記補助情報復号ステップでは、前記音声復号装置は、前記補助情報符号に含まれる、パワーの変化に関するフラグ及び量子化トランジェントパワーを復号して、補助情報として前記フラグ及び前記量子化トランジェントパワーを求める。

本発明に係る音声復号方法は、音声符号と、音声符号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報符号と、を含んだ音声パケットから、音声符号を復号する音声復号装置、により実行される音声復号方法であって、音声パケットにおけるパケットエラー又はパケットロスを検出し、検出結果を示すエラーフラグを出力するエラー／ロス検出ステップと、音声パケットに含まれる音声符号を復号して復号信号を求める音声復号ステップと、音声パケットに含まれる補助情報符号を復号して補助情報を求める補助情報復号ステップと、前記エラーフラグが音声パケットの異常を示す場合、既に求められた復号信号に基づいて、パケットロスを隠蔽するための第一の隠蔽信号を生成する第一隠蔽信号生成ステップと、前記補助情報に基づいて、第一の隠蔽信号を修正する隠蔽信号修正ステップと、を備え、前記補助情報復号ステップでは、前記音声復号装置は、前記補助情報符号に含まれる、パワーの変化に関するフラグを復号し、前記フラグが所定のモードである場合、さらに前記補助情報符号に含まれる量子化トランジェントパワーを復号して、補助情報として前記フラグ及び前記量子化トランジェントパワーを求め、前記フラグが所定のモードでない場合、前記補助情報として、量子化トランジェントパワーを含めない。

さらに、本発明は、以下の態様も採用しうる。一実施形態に係る音声符号化装置は、複数のフレームからなる音声信号を符号化する音声符号化装置であって、音声信号を符号化する音声符号化部と、音声信号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報を推定し符号化する補助情報符号化部と、を備え、前記補助情報符号化部は、前記補助情報として、パワーの変化に関するフラグを推定し符号化し、前記フラグが所定のモードである場合、前記補助情報として、さらに、量子化トランジェントパワーを推定し符号化し、前記補助情報には、前記フラグ及び前記量子化トランジェントパワーのみが含まれ、前記フラグが所定のモードでない場合、前記補助情報には、量子化トランジェントパワーを含めず、前記補助情報には、前記フラグのみが含まれる。

また、一実施形態に係る音声復号装置は、音声符号と、音声符号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報符号と、を含んだ音声パケットから、音声符号を復号する音声復号装置であって、音声パケットにおけるパケットエラー又はパケットロスを検出し、検出結果を示すエラーフラグを出力するエラー／ロス検出部と、音声パケットに含まれる音声符号を復号して復号信号を求める音声復号部と、音声パケットに含まれる補助情報符号を復号して補助情報を求める補助情報復号部と、前記エラーフラグが音声パケットの異常を示す場合、既に求められた復号信号に基づいて、パケットロスを隠蔽するための第一の隠蔽信号を生成する第一隠蔽信号生成部と、前記補助情報に基づいて、第一の隠蔽信号を修正する隠蔽信号修正部と、を備え、前記補助情報復号部は、前記補助情報符号に含まれる、パワーの変化に関するフラグを復号し、前記フラグが所定のモードである場合、さらに前記補助情報符号に含まれる量子化トランジェントパワーを復号して、補助情報として前記フラグ及び前記量子化トランジェントパワーを求め、前記補助情報には、前記フラグ及び前記量子化トランジェントパワーのみが含まれ、前記フラグが所定のモードでない場合、前記補助情報には、量子化トランジェントパワーを含めず、前記補助情報には、前記フラグのみが含まれる。

また、一実施形態に係る音声符号化方法は、複数のフレームからなる音声信号を符号化する音声符号化装置、により実行される音声符号化方法であって、音声信号を符号化する音声符号化ステップと、音声信号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報を推定し符号化する補助情報符号化ステップと、を備え、前記補助情報符号化ステップでは、前記音声符号化装置は、前記補助情報として、パワーの変化に関するフラグを推定し符号化し、前記フラグが所定のモードである場合、前記補助情報として、さらに、量子化トランジェントパワーを推定し符号化し、前記補助情報には、前記フラグ及び前記量子化トランジェントパワーのみが含まれ、前記フラグが所定のモードでない場合、前記補助情報には、量子化トランジェントパワーを含めず、前記補助情報には、前記フラグのみが含まれる。

また、一実施形態に係る音声復号方法は、音声符号と、音声符号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報符号と、を含んだ音声パケットから、音声符号を復号する音声復号装置、により実行される音声復号方法であって、音声パケットにおけるパケットエラー又はパケットロスを検出し、検出結果を示すエラーフラグを出力するエラー／ロス検出ステップと、音声パケットに含まれる音声符号を復号して復号信号を求める音声復号ステップと、音声パケットに含まれる補助情報符号を復号して補助情報を求める補助情報復号ステップと、前記エラーフラグが音声パケットの異常を示す場合、既に求められた復号信号に基づいて、パケットロスを隠蔽するための第一の隠蔽信号を生成する第一隠蔽信号生成ステップと、前記補助情報に基づいて、第一の隠蔽信号を修正する隠蔽信号修正ステップと、を備え、前記補助情報復号ステップでは、前記音声復号装置は、前記補助情報符号に含まれる、パワーの変化に関するフラグを復号し、前記フラグが所定のモードである場合、さらに前記補助情報符号に含まれる量子化トランジェントパワーを復号して、補助情報として前記フラグ及び前記量子化トランジェントパワーを求め、前記補助情報には、前記フラグ及び前記量子化トランジェントパワーのみが含まれ、前記フラグが所定のモードでない場合、前記補助情報には、量子化トランジェントパワーを含めず、前記補助情報には、前記フラグのみが含まれる。

さらに、本発明は、以下の態様も採用しうる。一実施形態に係る音声符号化装置は、複数のフレームからなる音声信号を符号化する音声符号化装置であって、音声信号を符号化する音声符号化部と、音声信号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報を推定し符号化する補助情報符号化部と、を備え、前記補助情報符号化部は、前記補助情報として、パワーの変化に関するフラグを推定し符号化し、前記フラグが所定のモードである場合、前記補助情報として、さらに、量子化トランジェントパワーを推定し符号化し、前記補助情報には、前記フラグ及び前記量子化トランジェントパワーのみが含まれ、前記フラグが所定のモードでない場合、前記補助情報には、量子化トランジェントパワーを含めず、前記補助情報には、前記フラグのみが含まれ、前記音声信号の前記フレームは複数のサブフレームからなり、前記量子化トランジェントパワーは前記サブフレームから推定される。

また、一実施形態に係る音声符号化方法は、複数のフレームからなる音声信号を符号化する音声符号化装置、により実行される音声符号化方法であって、音声信号を符号化する音声符号化ステップと、音声信号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報を推定し符号化する補助情報符号化ステップと、を備え、前記補助情報符号化ステップでは、前記音声符号化装置は、前記補助情報として、パワーの変化に関するフラグを推定し符号化し、前記フラグが所定のモードである場合、前記補助情報として、さらに、量子化トランジェントパワーを推定し符号化し、前記補助情報には、前記フラグ及び前記量子化トランジェントパワーのみが含まれ、前記フラグが所定のモードでない場合、前記補助情報には、量子化トランジェントパワーを含めず、前記補助情報には、前記フラグのみが含まれ、前記音声信号の前記フレームは複数のサブフレームからなり、前記量子化トランジェントパワーは前記サブフレームから推定される。

本発明は上記述べた方法により、パワーが急激に変化する部分に関する情報を送ることができるので、従来技術ではパケットロス隠蔽が困難であったパワーの急激な時間変化を伴う信号（トランジェント信号）に対して、高精度なパケットロス隠蔽を実現することができる。

発明の一実施形態におけるシステム環境を示す図である。第１、第２、第３、第６実施形態における符号化部の構成図である。図２の符号化部の処理のフローチャートである。第１実施形態等における補助情報符号化部の構成図である。音声符号化対象となる信号と補助情報符号化対象となる信号との時間的関係およびビットストリームの構成例を示す図である。第１、第２、第３、第５、第６実施形態における復号部の構成図である。図６の復号部の処理のフローチャートである。隠蔽信号修正部の処理の一例を示すフローチャートである。補助情報符号化部の構成の一例を示す図である。第４、第５実施形態における符号化部の構成図である。第一隠蔽信号生成部の構成の一例を示す図である。隠蔽信号修正部の処理の一例を示すフローチャートである。第４実施形態における復号部の構成図である。第６実施形態における音声符号化対象となる信号と補助情報符号化対象となる信号との時間的関係およびビットストリームの構成例を示す図である。コンピュータのハードウェア構成図である。コンピュータの外観図である。音声符号化プログラムの構成を示す図である。音声復号プログラムの構成を示す図である。復号部の別の構成例を示す図である。第７実施形態における補助情報符号化部の構成図である。図２０の補助情報符号化部の処理のフローチャートである。第７、第１１実施形態における補助情報復号部の構成図である。図２２の補助情報復号部の処理のフローチャートである。第７、第８実施形態における隠蔽信号修正部の構成図である。第７実施形態の隠蔽信号修正部の処理のフローチャートである。第８実施形態における補助情報符号化部の構成図である。図２６の補助情報符号化部の処理のフローチャートである。第８実施形態における補助情報符号化部の変形例を示す構成図である。図２８の補助情報符号化部の処理のフローチャートである。第８実施形態における補助情報復号部の構成図である。図３０の補助情報復号部の処理のフローチャートである。第８実施形態の隠蔽信号修正部の処理のフローチャートである。第１０実施形態における補助情報符号化部の構成図である。図３３の補助情報符号化部の処理のフローチャートである。第１０実施形態における補助情報復号部の構成図である。図３５の補助情報復号部の処理のフローチャートである。第１０実施形態における隠蔽信号修正部の処理のフローチャートである。第１１実施形態における補助情報符号化部の構成図である。図３８の補助情報符号化部の処理のフローチャートである。第１１実施形態における補助情報復号部の処理のフローチャートである。トランジェント検出部の出力内容を示す図である。トランジェント位置情報のスカラ量子化方法の例を示す図である。第１２実施形態における補助情報符号化部の構成図である。第１２実施形態における補助情報復号部の構成図である。第１３実施形態における補助情報符号化部の構成図である。第１３実施形態における補助情報復号部の構成図である。第１４実施形態における補助情報符号化部の構成図である。第１４実施形態における補助情報復号部の構成図である。第１５実施形態における補助情報符号化部の構成図である。第１５実施形態における補助情報復号部の構成図である。

以下、図面を用いて、本発明に係るさまざまな実施形態を説明する。

［第１実施形態］
まず、図１を用いて、本発明が想定するシステム環境を説明する。図１に示すように、マイクなどのセンサを通じて得られた音声信号はディジタル形式で表現され、符号化部１に入力される。

符号化部１は、決まったサンプル数の音声信号が、内蔵したバッファに所定量蓄積するたびにバッファ内のディジタル信号を符号化する。上記の所定量、即ち、蓄積するサンプル数をフレーム長といい、バッファに蓄積したディジタル信号の集合をフレームと呼ぶ。例えば、３２ｋＨｚのサンプリング周波数で収音する際に２０ｍｓのフレーム長とした場合には６４０サンプルのディジタル信号をバッファに蓄積するものとする。なお、バッファの長さは１フレームよりも長くてよい。例えば、バッファの長さを２フレーム分とした場合、最初だけは２フレーム分のディジタル信号がバッファに蓄積するのを待ってから符号化を始めれば、符号化対象となるフレームの次フレームのディジタル信号を補助情報の推定に利用することができる。符号化を行うタイミングとしては、フレーム長単位で符号化を行ってもよいし、フレーム間にある長さのオーバーラップを持たせて符号化を行ってもよい。符号化には、3GPP enhanced aacPlusや、G.718などの音声符号化を用いる。音声符号化の方法に関しては何を用いてもよい。また、補助情報算出のためにバッファに蓄積した音声音響信号を用いて補助情報を算出し、符号化して伝送する（補助情報符号）。補助情報符号は、音声符号と同一パケットで伝送してもよいし、音声符号を含めたパケットとは別パケットで伝送してもよい。符号化部１の動作の詳細については後述する。

パケット構成部２は、符号化部１で得られた音声符号にＲＴＰヘッダなどの通信に必要な情報を付加して、音声パケットを生成する。生成された音声パケットはネットワークを通じて受信側に送られる。

パケット分離部３は、ネットワークを通じて受信した音声パケットをパケットヘッダ情報とそれ以外の部分（音声符号および補助情報符号、以下「ビットストリーム」という）とに分離し、ビットストリームを復号部４へ出力する。

復号部４は、正常に受信された音声パケットに含まれる音声符号の復号を行い、一方、受信した音声パケットにおける異常（パケットエラー又はパケットロス）を検出した場合にはパケットロス隠蔽を行う。復号部４の詳細な動作については、以下の実施形態にて述べる。復号部４から出力された復号音声は、オーディオのバッファ等に送られスピーカなどを通じて再生されるか、メモリやハードディスクなどの記録媒体に蓄積される。

以上で述べた図１の全体構成は、後述する第２〜第６実施形態でも同様であるため、第２〜第６実施形態では、全体構成についての重複した説明は省略する。

さて、以下では、第１実施形態の特徴的部分として、符号化部１と復号部４について詳細に説明する。第１実施形態では、パワーの時間変化に関する補助情報として、１フレームよりも短いサブフレーム複数分のパワーを関数近似したパラメータを用いる例を説明する。

（符号化部１の構成および動作）
図２に示すように符号化部１は、音声信号を符号化する音声符号化部１１と、音声信号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報を推定して符号化する補助情報符号化部１２と、補助情報符号化部１２による符号化で得られた補助情報符号と音声符号化部１１による符号化で得られた音声符号とを多重化してビットストリームとして出力する符号多重化部１３と、を備える。

このうち補助情報符号化部１２は、図４に示すように、後述するサブフレームパワー計算部１２１と減衰係数推定部１２２と減衰係数量子化部１２３とを備える。

以下、図３を用いて符号化部１の動作について説明する。

音声符号化部１１は、予め決めた時間分の入力音声を蓄積し、蓄積した入力音声のうち符号化対象となる分を符号化する（図３のステップS1101）。符号化には例えば、文献「3GPP TS26.401 “Enhanced aacPlus general audio codec General description”」に規定された3GPP enhanced aacPlusや、文献「Recommedation ITU-T G.718 “Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32kbit/s”」に規定されたG.718などの音声符号化を用いてもよいし、その他の符号化方法を用いてもよい。

補助情報符号化部１２におけるサブフレームパワー計算部１２１は、予め決めた時間分の入力音声を蓄積し、蓄積した入力音声のうち符号化対象となる分s(0),s(1),…,s(T-1)よりも予め決めたフレーム数（本実施形態ではdフレーム）分後ろの音声信号s(dT),s(1+dT),…,s((d+1)T-1)に対してサブフレームパワー系列を算出する（図３のステップS1211）。ここで、１フレームに含まれるサンプル数をTとした。予測対象信号を

とすると、サブフレームl（0≦l≦L-1）のパワーP(l)は次式により求められる。ｋはサブフレームにおけるサンプルのインデックスを表す（0≦k≦K-1）。ここで、サブフレームに含まれるディジタル信号のサンプル数をＫとした。

なお、第１実施形態では、サブフレームの長さをＫとしたが、サブフレーム毎に事前に定めた異なる長さを用いてもよい。l番目のサブフレームの開始のインデックスをｋ^l _start、終了のインデックスをｋ^l _endとして、次式に従いサブフレームパワー系列を算出してもよい。

減衰係数推定部１２２は、サブフレームパワー系列から、例えば最小二乗法などを用いて、パワーの時間変化を表す直線の傾きγ_optを求める（図３のステップS1221）。より単純にP(0)、P(L-1)から傾きを求めてもよい。ここで、Ｌは１フレームに含まれるサブフレームの数を表す。また、直線の傾きγ_optに加えて、サブフレームパワー系列P(l)を直線近似して得られる切片P_optを求めてもよい。

ここで、サブフレームｍのパワーは以下の式で表される。

このとき、直線の傾きγ_optと切片P_optは次式に従う（最小二乗法）。

減衰係数量子化部１２３は、直線の傾きγ_optをスカラ量子化した上で符号化し、補助情報符号を出力する（図３のステップS1231）。事前に用意したスカラ量子化コードブックを用いてもよい。サブフレームパワーP(l)を直線近似した場合には、直線の傾きγ_optに加えて切片P_optも符号化してもよい。

符号多重化部１３は、音声符号と補助情報符号を所定の順序で書き出してビットストリームを出力する（図３のステップS1301）。図５には、音声符号化対象となる信号と補助情報符号化対象となる信号の時間的関係、およびビットストリームの構成の一例を示す（d=1の場合）。例えば図５に示すように、フレームＮの音声符号に、例えばフレーム（Ｎ＋１）の補助情報符号を加えることでビットストリームが得られ、符号多重化部１３から出力される。さらに、パケット構成部２により、ビットストリームにパケットヘッダ情報が付加され、第Ｎ番目に伝送される音声パケットとなる。

以上のステップS1101〜S1301の処理は入力音声の終了まで繰り返される（ステップS1401）。

（復号部４の構成および動作）
図６に示すように、復号部４は、エラー/ロス検出部４１と、符号分離部４０と、音声復号部４２と、補助情報復号部４５と、第一隠蔽信号生成部４３と、隠蔽信号修正部４４と、を備える。このうち第一隠蔽信号生成部４３は、図１１に示すように、復号係数蓄積部４３１と、蓄積復号係数反復部４３２とを備える。隠蔽信号修正部４４は、図１２に示すように、補助情報蓄積部４４１と、サブフレームパワー修正部４４２と、を備える。

以下、図６、図７を用いて復号部４の動作について説明する。

エラー/ロス検出部４１は、受信した音声パケットにおける異常（パケットエラー又はパケットロス）を検出し、検出結果を示すエラーフラグを出力する（図７のステップS4101）。エラーフラグは、デフォルトではパケット正常を示すオフにセットされており、エラー／ロス検出部４１は、受信した音声パケットにおける異常を検出した場合、エラーフラグをオン（パケット異常）にセットする。例えば、エラー/ロス検出部４１は、新たなパケットを受信するたびに１ずつ値が増加するカウンタを備え、パケットには符号化側からの送信順に番号が振られているとすると、パケットに振られた番号とカウンタ値とを比較して、これらの値が異なる場合にパケットロスを検出することができる。ただし、ここで述べたエラー/ロス検出部４１におけるパケットロス検出方法はあくまでも一例に過ぎず、どのような方法を用いてパケットロスを検出してもよい。

以下、エラーフラグがオン（パケット異常）の場合、オフ（パケット正常）の場合それぞれについて動作を説明する。

（エラーフラグがオフの場合（図７のステップS4102でＮＯの場合））
エラー/ロス検出部４１は、エラーフラグを音声復号部４２、第一隠蔽信号生成部４３、隠蔽信号修正部４４および補助情報復号部４５に送るとともに、ビットストリームを符号分離部４０に送る。

符号分離部４０は、ビットストリームをエラー／ロス検出部４１から受け取り、ビットストリームを音声符号と補助情報符号とに分離し、音声符号を音声復号部４２へ、補助情報符号を補助情報復号部４５へ送る（図７のステップS4001）。

音声復号部４２は、音声符号を復号して復号信号を生成し、復号音声として出力する。音声符号の復号には、前述した音声符号化部１１に対応する復号方法を用いる。このとき、音声復号部４２は、復号信号を第一隠蔽信号生成部４３にも送る（図７のステップS4311）。このとき第一隠蔽信号生成部４３では、送られてきた復号信号が図１１の復号係数蓄積部４３１により蓄積される。ここで蓄積された蓄積復号信号をb(k,l)とする。蓄積される信号は少なくとも過去ｄフレーム以上としてもよい。ここで、ｋはサブフレームにおけるサンプルのインデックスを表し（ただし0≦k≦K-1）、lは復号係数蓄積部４３１に蓄積したサブフレームのインデックスを表す（ただし0≦l≦dL-1）。

補助情報復号部４５は、符号分離部４０から出力された補助情報符号を復号して補助情報を生成し、隠蔽信号修正部４４に送る（図７のステップS4202）。このとき隠蔽信号修正部４４では、送られてきた補助情報が図１２の補助情報蓄積部４４１により蓄積される。このとき蓄積する補助情報は、過去数フレーム分（少なくともｄフレーム分以上）が望ましい。

上記ステップS4202で補助情報復号部４５は、符号分離部４０から出力された補助情報符号を復号してインデックスを生成し、インデックスに対応する直線の傾きγ_Ｊをコードブックより求める。ここで、P(-1)はフレームロス直前に正常に受け取った信号のうち最後のサブフレームのパワーを表す。

また、サブフレームのパワーを直線近似して直線の切片を同時に符号化していた場合には、切片P_Jを用いてサブフレームパワーを次式により求める。

（エラーフラグがオンの場合（図７のステップS4102でＹＥＳの場合））
エラー/ロス検出部４１は、エラーフラグを音声復号部４２、第一隠蔽信号生成部４３、隠蔽信号修正部４４および補助情報復号部４５に送る。

第一隠蔽信号生成部４３内の蓄積復号係数反復部４３２は、復号係数蓄積部４３１に蓄積された蓄積復号信号を用いて第一隠蔽信号z(k)を求める（図７のステップS4321）。具体的には例えば、次式に示す通り、最後のサブフレームを繰り返すことにより第一隠蔽信号を算出する。

なお、繰り返しの単位を最後のサブフレームに限定せず、b(k,l)の任意の部分を取り出して繰り返してもよい。また、上記のような反復による第一隠蔽信号の生成に限ることなく、復号係数蓄積部４３１からピッチ単位で波形を取り出して繰り返すことで第一隠蔽信号を算出してもよいし、例えば線形予測などを用いた予測により第一隠蔽信号を生成してもよい。その他にも、例えば以下に示すように事前に定めたモデルに従い、第一隠蔽信号を生成してもよい。

サブフレームパワー修正部４４２は、第一隠蔽信号から、以下の式に従い第一隠蔽信号のパワーの値をサブフレーム毎に修正して隠蔽信号y(K・l＋k)を求める。具体的には、次式に従い修正を行う（ただし、0≦l≦L-1、0≦k≦K-1）。また、P^-d(m)は、当該パケット（第一隠蔽信号生成対象のパケット）よりもｄ個前のパケットで伝送された補助情報符号に含まれていたサブフレームに関するパワーを表す（図７のステップS4421）。

例えば、サブフレームパワー修正部４４２は、図８に示すように、補助情報蓄積部４４１から、ｄ個前のパケットで伝送された補助情報を取り出し（図８のステップS60）、第一隠蔽信号についてサブフレーム毎に平均二乗振幅値を算出し、サブフレームに含まれる値を平均二乗振幅値で割る（図８のステップS61）。この結果、z’(K・l＋k)が得られる。そして、補助情報から、各サブフレームのパワーを算出し、パワーから求められる平均振幅値を上記サブフレームの値に乗算する（図８のステップS62）。これにより、隠蔽信号y(K・l＋k)が求められる。

以上の図７のステップS4101〜S4421の処理は入力音声の終了まで繰り返される（図７のステップS4431）。

以上のように第１実施形態では、パワーの時間変化に関する補助情報として、１フレームよりも短いサブフレーム複数分のパワーを関数近似したパラメータを用いることができる。

［第２実施形態］
補助情報としては予め学習あるいは経験的に定めておいたベクトルc_i(l)を用いたベクトル量子化によりサブフレームのパワー系列を符号化して、補助情報として用いてもよい。そこで、第２実施形態では、第１実施形態における補助情報符号化部１２、補助情報復号部４５において、サブフレーム複数分のパワーをベクトル量子化して得られたベクトルに関する情報を補助情報として、符号化又は復号する例を説明する。

第２実施形態では、補助情報符号化部１２と補助情報復号部４５だけが第１実施形態と異なるので、以下、これら２つの要素について説明する。

補助情報符号化部１２は、図９に示すように、サブフレームパワー計算部１２１とサブフレームパワーベクトル量子化部１２４とを備える。このうちサブフレームパワー計算部１２１の機能・動作は、第１実施形態と同様である。

サブフレームパワーベクトル量子化部１２４は、サブフレームl（ただし0≦l≦L-1）のパワーP(l)をベクトル量子化した上で符号化し、補助情報符号を出力する。なお、Iはコードブック中の直線またはベクトルのエントリ数であり、Jは選ばれた直線あるいはベクトルのインデックスである。なお、c_i(l)はコードブック中のi番目のコードベクトルのl番目の要素を表す。

選択したJをバイナリ符号化などによって符号化し、補助情報符号とする。

一方、補助情報復号部４５は、符号分離部４０から出力された補助情報符号を復号してインデックスＪを生成し、インデックスＪに対応するベクトルc_J(l)をコードブックより求めて出力する。

以上のように第２実施形態では、予め学習あるいは経験的に定めておいたベクトルを用いたベクトル量子化によりサブフレームのパワー系列を符号化して、補助情報として用いることができる。

［第３実施形態］
前述した第１、第２実施形態では、補助情報の算出において音声符号化部１１で符号化した信号のｄフレーム以上後ろの信号を用いていたが、以下の第３実施形態では、補助情報の算出において音声符号化部１１で符号化した信号のｄフレーム前の信号を用いる例を説明する。

以下の第３実施形態では、第１実施形態との違いは、補助情報符号化部１２におけるサブフレームパワー計算部１２１および隠蔽信号修正部４４におけるサブフレームパワー修正部４４２のみであるので、これらサブフレームパワー計算部１２１およびサブフレームパワー修正部４４２について説明する。

サブフレームパワー計算部１２１は、予め決めた時間分の入力音声を蓄積し、蓄積した入力音声のうち符号化対象となる分s(0),s(1),…,s(T-1)よりも予め決めたフレーム数（本実施形態ではdフレーム）分前の音声信号s(-dT),s(1-dT),…,s(-1)に対してサブフレームパワー系列を計算する。ここで、１フレームに含まれるサンプル数をＴとした。予測対象信号を

一方、サブフレームパワー修正部４４２は、第一隠蔽信号から、以下の式に従い第一隠蔽信号のパワーの値をサブフレーム毎に修正して隠蔽信号y(K・l＋k)を求める。具体的には次式に従い修正を行う（ただし、0≦l≦L-1、0≦k≦K-1）。またP^d(m)は、当該パケット（第一隠蔽信号生成対象のパケット）よりもｄ個後ろのパケットで伝送された補助情報符号に含まれていたサブフレームに関するパワーを表す。

以上のように第３実施形態では、補助情報の算出において、音声符号化部で符号化した信号よりも数フレーム前の信号を用いることができる。

［第４実施形態］
第４実施形態では、時間周波数変換した信号に対して第１、第２実施形態で行ったような処理を適用する例を説明する。

第４実施形態における符号化部１は、図１０に示すように、第１、第２実施形態における符号化部１（図２）に対し、音声符号化部１１および補助情報符号化部１２の入力側に時間周波数変換部１０を追加した構成とされている。

時間周波数変換部１０は、分析ＱＭＦを用いて音声信号を時間周波数変換する。具体的には次式により時間周波数変換を行う。

ここで、Ｅは時間方向のサブフレーム数を表し、Ｋは周波数ビンの数を表す。ｋは周波数ビンのインデックスであり（ただし0≦k≦K-1）、lはサブフレームのインデックス（ただし0≦l≦L-1）である。他にも、ＭＤＣＴ（Modified Discrete Cosine Transform）などにより時間周波数変換を行うこともできる。

音声符号化部１１は、時間周波数変換した音声信号を符号化する。例えばＳＢＲ(Spectral Band Replication)などの符号化方法により符号化を行ってもよいが、どのような符号化方法を用いてもよい。

補助情報符号化部１２は、図４に示すように、サブフレームパワー計算部１２１と、減衰係数推定部１２２と、減衰係数量子化部１２３とを備える。これら構成要素の中で第１、第２実施形態と異なるのはサブフレームパワー計算部１２１のみであるので、サブフレームパワー計算部１２１について以下に説明する。なお、減衰係数量子化部１２３においては、第２実施形態で述べたようなベクトル量子化を用いてもよい。

サブフレームパワー計算部１２１は、予め決めた時間分の音声信号を蓄積し、蓄積した音声信号のうち、符号化対象となる分V(k.l)よりも予め決めたフレーム数（ｄフレーム）分後ろの音声信号に対し時間周波数領域に変換して得られた音声信号V(k,l+d)を用いて、以下の通り補助情報の算出を行う。サブフレームl+dのパワーP(l+d)は、次式により算出する。

符号多重化部１３は、第１、第２実施形態と同様に、音声符号と補助情報符号を所定の順序で書き出してビットストリームを出力する。

一方、第４実施形態における復号部４は、図１３に示すように、第１、第２実施形態における復号部４（図６）に対し、音声復号部４２および隠蔽信号修正部４４の出力側に逆変換部４６を追加した構成とされている。

このような図１３の復号部４において、エラー/ロス検出部４１、符号分離部４０および音声復号部４２の動作は、第１、第２実施形態と同様なので、以下、第一隠蔽信号生成部４３、補助情報復号部４５、隠蔽信号修正部４４および逆変換部４６の動作について説明する。

図１１に示すように第一隠蔽信号生成部４３は、復号係数蓄積部４３１と、蓄積復号係数反復部４３２とを備える。このうち復号係数蓄積部４３１は、音声復号部４２から入力した復号信号を蓄積する。蓄積された蓄積復号信号をB(k,l)とする。ここで、ｋはサブフレームにおけるサンプルのインデックスを表し（ただし0≦k≦K-1）、lは復号係数蓄積部４３１に蓄積したサブフレームのインデックスを表す（ただし0≦l≦L-1）。

蓄積復号係数反復部４３２は、エラーフラグがオン（パケット異常）の場合に、復号係数蓄積部４３１に蓄積された蓄積復号信号を用いて第一隠蔽信号z(k,l)を求める。具体的には例えば、次式に従い最後のサブフレームを繰り返すことにより第一隠蔽信号を算出する。

なお、繰り返しの単位を最後のサブフレームに限定せず、B(k,l)の任意の部分を取り出して繰り返してもよいし、例えば線形予測などを用いた予測により第一隠蔽信号を生成してもよい。その他にも、例えば以下に示すように事前に定めたモデルに従い、第一隠蔽信号を生成してもよい。

補助情報復号部４５は、符号分離部４０が出力した補助情報符号を復号してインデックスを生成し、インデックスに対応する直線の傾きγ_Ｊをコードブックより求めて出力する。ここで、P(-1)はフレームロス直前に正常に受け取った信号のうち最後のサブフレームのパワーを表す。

また、第２実施形態のように補助情報符号化部１２内の減衰係数量子化部１２３においてベクトル量子化を用いていた場合には、第２実施形態における補助情報復号部４５のように、本実施形態の補助情報復号部４５は、コードブックを用いてサブフレームのパワーを算出する。

図１２に示すように隠蔽信号修正部４４は、補助情報蓄積部４４１とサブフレームパワー修正部４４２とを備える。このうち補助情報蓄積部４４１は、エラーフラグがオフ（パケット正常）の場合に補助情報復号部４５から入力された補助情報を蓄積する。蓄積する補助情報は過去数フレーム分が望ましい。サブフレームパワー修正部４４２は、第一隠蔽信号から、以下の式に従い第一隠蔽信号のパワーの値をサブフレーム毎に修正して隠蔽信号Y(k,l)を求める。具体的には次式に従い修正を行う（ただし、0≦l≦L-1、0≦k≦K-1）。またP^-d(m)は、当該パケット（第一隠蔽信号生成対象のパケット）よりもｄ個前のパケットで伝送された補助情報符号に含まれていたサブフレームに関するパワーを表す。

逆変換部４６は、隠蔽信号あるいは復号信号を時間周波数領域から時間領域の信号に変換する。たとえば、合成ＱＭＦを示す以下の式により行う。

ここで、lは時間領域の信号のインデックスであり、0≦l≦K(2+L)である。

以上のように第４実施形態では、時間周波数変換した信号に対して第１、第２実施形態で行ったような処理を適用することができる。

［第５実施形態］
第５実施形態では、第１実施形態で述べた手法をサブバンド毎に適用した例を説明する。

第５実施形態における符号化部１では、補助情報符号化部１２の動作が第１実施形態とは異なるため、以下、補助情報符号化部１２の動作について説明する。補助情報符号化部１２は、図４に示すように、サブフレームパワー計算部１２１と、減衰係数推定部１２２と、減衰係数量子化部１２３とを備える。

このうちサブフレームパワー計算部１２１は、予め決めた時間分の入力音声を蓄積し、蓄積した入力音声のうち符号化対象となる分v(k,l)よりも予め決めたフレーム数（本実施形態ではｄフレーム）分後ろの音声信号v(k,l+d)に対してサブフレームパワー系列を計算する。ここで、１フレームに含まれるサンプル数をＴとした。予測対象信号をv(k,l+d)＝s(k,l+d)とすると、サブフレームl（0≦l≦L-1）のi番目のサブバンドのパワーPⁱ(l)は次式により求められる。ｋはサブフレームにおけるサンプルのインデックスを表す（ただし0≦k≦K-1）。

なお、サブバンドの決め方としては、サブバンド幅を非等間隔としてもよいし、クリティカルバンドの幅に設定してもよいし、サブバンド幅を１としてもよい。

減衰係数推定部１２２は、サブフレームパワー系列から、例えば最小二乗法などを用いて、サブフレーム毎にパワーの時間変化を表す直線の傾きγⁱ _optを求める。より単純にPⁱ(0)とPⁱ(L-1)から傾きを求めてもよい。また、直線の傾きγⁱ _optに加えて、サブフレームパワー系列Pⁱ(l)を直線近似して得られる切片Pⁱ _optを求めてもよい。ここで、サブフレームｍのパワーは以下の式で表される。

このとき、直線の傾きγ_optと切片P_Jは次式に従う（最小二乗法）。

減衰係数量子化部１２３は、直線の傾きγⁱ _optをスカラー量子化した上で符号化し、補助情報符号を出力する。事前に用意したスカラ量子化コードブックを用いてもよい。サブフレームパワーPⁱ(l)を直線近似した場合には、直線の傾きγⁱ _optに加えて切片Pⁱ _optも符号化してもよい。また、γⁱ _optをすべてのサブバンドについて並べてできるベクトルをベクトル量子化した上で符号化してもよいし、γⁱ _optとPⁱ _optを並べて出来るベクトルをベクトル量子化した上で符号化してもよい。

第５実施形態における復号部４では、蓄積復号係数反復部４３２、補助情報復号部４５およびサブフレームパワー修正部４４２の動作が第１実施形態とは異なるため、以下、これらの要素の動作について説明する。

蓄積復号係数反復部４３２は、エラーフラグがオン（パケット異常）の場合、復号係数蓄積部４３１に蓄積されている蓄積復号信号を用いて第一隠蔽信号Z(k,l)を求める。なお、復号係数蓄積部４３１に蓄積された蓄積復号信号をB(k,l)とする。ここで、ｋはサブフレームにおけるサンプルのインデックスを表し（0≦k≦K-1）、lは復号係数蓄積部４３１に蓄積されたサブフレームのインデックスを表す（0≦l≦L-1）。

具体的には、蓄積復号係数反復部４３２は、次式に示す通り、最後のサブフレームを繰り返すことにより第一隠蔽信号を算出する。

なお、繰り返しの単位を最後のサブフレームに限定せず、B(k,l)の任意の部分を取り出して繰り返してもよい。また、上記反復による第一隠蔽信号生成に限ることなく、例えば線形予測などを用いた予測により第一隠蔽信号を生成してもよい。その他にも、例えば以下に示すように事前に定めたモデルに従い、第一隠蔽信号を生成してもよい。

補助情報復号部４５は、符号分離部４０から出力された補助情報符号を復号してインデックスを生成し、インデックスに対応する直線の傾きγⁱ _Jをコードブックより求める。ここで、Pⁱ(-1)はパケットロス直前に正常に受け取った信号のうち最後のサブフレームのパワーを表す。

また、サブフレームのパワーを直線近似して直線の切片を同時に符号化していた場合には、切片Pⁱ _Jを用いてサブフレームパワーを次式により求める。

隠蔽信号修正部４４内の補助情報蓄積部４４１は、エラーフラグが正常なパケットを表す値を示す場合に補助情報復号部４５から入力された補助情報を蓄積している。蓄積する補助情報は過去数フレーム分（少なくともｄフレーム分以上）が望ましい。

このような隠蔽信号修正部４４において、サブフレームパワー修正部４４２は、第一隠蔽信号から、以下の式に従い第一隠蔽信号のパワーの値をサブフレーム毎に修正して隠蔽信号Y(k,l)を求める。具体的には次式に従い修正を行う（ただし、0≦l≦L-1、0≦k≦K-1）。また、Pⁱ _-d(m)は、当該パケット（第一隠蔽信号生成対象のパケット）よりもｄ個前のパケットで伝送された補助情報符号に含まれていたサブフレームに関するｉ番目のサブバンドのパワーを表す。

なお、上記の第５実施形態では、符号化対象となる信号の「ｄフレーム後」のフレームについて補助情報を算出して符号化する例を示したが、第３実施形態のように符号化対象となる信号の「ｄフレーム前」のフレームについての補助情報を算出して符号化してもよい。

以上のように第５実施形態では、第１実施形態で述べた手法をサブバンド毎に適用することができる。

［第６実施形態］
第６実施形態では、補助情報符号化部において、２以上の補助情報を求めて別々に符号化してビットストリームに含める例を説明する。以下、第１実施形態との相違点を重点的に説明する。

第６実施形態における符号化部１は、図２に示すように、音声符号化部１１と、補助情報符号化部１２と、符号多重化部１３と、を備える。このうち音声符号化部１１は、第１実施形態と同様である。補助情報符号化部１２は、図４に示すように、サブフレームパワー計算部１２１と、減衰係数推定部１２２と、減衰係数量子化部１２３とを備える。

このうちサブフレームパワー計算部１２１は、予め決めた時間分の入力音声を蓄積し、蓄積した入力音声のうち符号化対象となる分s(0),s(1),…,s(T-1)よりも予め決めたフレーム数（本実施形態ではｄフレーム）分後ろの音声信号s(dT),s(1+dT),…,s((d+1)T-1)に対してサブフレームパワー系列P₁(l)を計算する。

さらに、サブフレームパワー計算部１２１は、予め決めたフレーム数（本実施形態では(d+1)フレーム）分後ろの音声信号s((d+1)T),s(1+(d+1)T),…,s((d+2)T-1)に対してサブフレームパワー系列P₂(l)を計算する。

ここで、１フレームに含まれるサンプル数をＴとする。予測対象信号を

とすると、サブフレームl（0≦l≦L-1）のパワーP₁(l)，P₂(l)は次式により求められる。ｋはサブフレームにおけるサンプルのインデックスを表す（0≦k≦K-1）。

なお、本実施形態では、サブフレームの長さをＫとしたが、サブフレーム毎に事前に定めたサブフレーム毎に異なる長さを用いてもよい。l番目のサブフレームの開始のインデックスをｋ^l _start、終了のインデックスをｋ^l _endとして次式に従いサブフレームパワー系列を算出してもよい。

減衰係数推定部１２２は、サブフレームパワー系列P₁(l)，P₂(l)から、例えば最小二乗法などを用いて、それぞれパワーの時間変化を表す直線の傾きγ¹ _opt、γ² _optを求める。算出方法は第１実施形態の減衰係数推定部１２２と同様である。

減衰係数量子化部１２３は、直線の傾きγ¹ _opt、γ² _optを、それぞれスカラ量子化した上で符号化し、補助情報符号Ｃ¹、Ｃ²を出力する。事前に用意したスカラ量子化コードブックを用いてもよい。サブフレームパワーP(l)を直線近似した場合には、直線の傾きγ¹ _opt、γ² _optに加えて切片P¹ _opt、P² _optも符号化してもよい。

符号多重化部１３は、音声符号と補助情報符号Ｃ¹、Ｃ²を所定の順序で書き出してビットストリームを出力する。図１４に音声符号化対象となる信号と補助情報符号化対象となる信号の時間的関係と、ビットストリームの構成の一例を示す。図１４に示すように、フレームＮの音声符号に、例えばフレーム（Ｎ＋１）の補助情報符号とフレーム（Ｎ＋２）の補助情報符号とを加えることでビットストリームが得られ、符号多重化部１３から出力される。さらに、図１のパケット構成部２により、ビットストリームにパケットヘッダ情報が付加され、第Ｎ番目に伝送される音声パケットとなる。なお、本実施形態では２つの補助情報を生成したが、３つ以上の補助情報を生成してもよい。また、補助情報は、音声符号化部が符号化した音声信号よりも１フレーム以上前の音声信号を対象として、算出してもよい。

第６実施形態における復号部４は、図６に示すように、エラー/ロス検出部４１と、符号分離部４０と、音声復号部４２と、補助情報復号部４５と、第一隠蔽信号生成部４３と、隠蔽信号修正部４４と、を備える。このうちエラー/ロス検出部４１、音声復号部４２および第一隠蔽信号生成部４３の動作は、第１実施形態と同様の動作であるので、重複した説明は省略する。

符号分離部４０は、ビットストリームから音声符号と補助情報符号Ｃ¹、Ｃ²を読み出し、音声符号を音声復号部４２へ送り、補助情報符号Ｃ¹、Ｃ²を補助情報復号部４５に送る。

補助情報復号部４５は、補助情報符号Ｃ¹、Ｃ²を復号して補助情報を算出し、隠蔽信号修正部４４に送る。例えば、補助情報復号部４５は、符号分離部４０から出力された補助情報符号Ｃ¹、Ｃ²を復号してインデックスを生成し、それぞれインデックスに対応する直線の傾きγ_Jをコードブックより求める。ここで、P(-1)はフレームロス直前に正常に受け取った信号のうち最後のサブフレームのパワーを表す。

隠蔽信号修正部４４は、図１２に示すように、補助情報蓄積部４４１と、サブフレームパワー修正部４４２とを備える。

このうち補助情報蓄積部４４１は、エラーフラグが正常なパケットを表す値を示す場合に補助情報復号部４５から入力した補助情報を蓄積する。蓄積する補助情報は過去数フレーム分（少なくともｄフレーム分以上）が望ましい。本実施形態では、１パケットにつき２フレーム分の補助情報が得られる。

サブフレームパワー修正部４４２は、第一隠蔽信号から、以下の式に従い第一隠蔽信号のパワーの値をサブフレーム毎に修正して隠蔽信号Y(K・l＋k)を求める。具体的には次式に従い修正を行う（ただし、0≦l≦L-1、0≦k≦K-1）。また、P^-d(m)は、当該パケット（第一隠蔽信号生成対象のパケット）よりもｄ個前のパケットで伝送された補助情報符号Ｃ¹に含まれていたサブフレームに関するパワーを表す。

例えば、サブフレームパワー修正部４４２は、図８に示すように、補助情報蓄積部４４１から、ｄ個前のパケットで伝送された補助情報を取り出し（図８のステップS60）、第一隠蔽信号についてサブフレーム毎に平均二乗振幅値を算出し、サブフレームに含まれる値を平均二乗振幅値で割る（ステップS61）。この結果、z’(K・l＋k)が得られる。そして、補助情報から、各サブフレームのパワーを算出し、パワーから求められる平均振幅値を上記サブフレームの値に乗算する（ステップS62）。これにより、隠蔽信号Y(K・l＋k)が求められる。以上のステップS4101〜S4421の処理は入力音声の終了まで繰り返される（ステップS4431）。

さらに連続してパケットロスが起きた場合は、当該パケット（第一隠蔽信号生成対象のパケット）よりもｄ個前のパケットで伝送された補助情報符号Ｃ²に含まれていたサブフレームに関するパワーを用いて、同様の処理を行うことにより連続してパケットロスが起こった場合にパケットロスを隠蔽することができる。

以上のように第６実施形態では、補助情報符号化部において、２以上の補助情報を求めて別々に符号化してビットストリームに含めることができる。

ところで、図１９には、復号部４の変形例の構成図が示されている。前述した第４実施形態における図１３の復号部４では、エラーフラグを音声復号部４２、第一隠蔽信号生成部４３、隠蔽信号修正部４４、補助情報復号部４５に入力していたが、図１９の構成ではこれらの入力を省略している。これらの入力を省略した構成でも、エラーフラグがオンの場合は音声復号部４２および補助情報復号部４５への入力がないため、当該入力がないことを以ってエラーフラグがオンと判断できる。即ち、音声復号部４２および補助情報復号部４５への入力の有無に応じて、エラーフラグの状態判断を行うことができる。第一隠蔽信号生成部４３、隠蔽信号修正部４４も同様にしてエラーフラグの状態判断を行うことができる。また、図１３の復号部４は、図１９に示す音声パラメータ蓄積部４７が第一隠蔽信号生成部４３に含まれる構成としていたが、音声パラメータ蓄積部４７は図１９のように、第一隠蔽信号生成部４３とは独立した構成要素としてもよい。このような図１９の復号部４の機能は図１３の復号部４の機能と実質同一である。なお、図６に示す第１、第２、第３、第５、第６実施形態の復号部４についても、上記のように、音声復号部４２、第一隠蔽信号生成部４３、隠蔽信号修正部４４、補助情報復号部４５へのエラーフラグの入力を省略してもよいし、音声パラメータ蓄積部を第一隠蔽信号生成部４３とは独立した構成要素としてもよい。

［第７実施形態］
第７実施形態では、パワーの急激な変化（以下「トランジェント」という）に関する補助情報として、補助情報符号化対象となるフレーム中のトランジェントの位置と、トランジェントの位置におけるサブフレームのパワーとを用いる例を説明する。

（符号化部１の構成および動作）
第７実施形態でも、符号化部１の全体構成は図２の通りであり、復号部４の全体構成は図６の通りである。第７実施形態でも、第２〜６実施形態と同様に全体構成に関する説明を省略する。

以下では、第７実施形態における符号化部１の特徴的部分として、補助情報符号化部１２について詳細に説明する。補助情報符号化部１２は、図２０に示す通り、トランジェント検出部１２４Ａ、トランジェント位置量子化部１２５、トランジェントパワースカラ量子化部１２６、パラメータ符号化部１２７を備える。

このような補助情報符号化部１２の動作を図２１に基づき説明する。トランジェント検出部１２４Ａは、予め決めた時間分の入力音声を蓄積し、蓄積した入力音声のうち符号化対象となる分s(0),s(1),…,s(T-1)よりも予め決めたフレーム数（本実施形態ではdフレーム）分後ろの音声信号s(dT),s(1+dT),…,s((d+1)T-1)を用いてトランジェントを検出する（図２１のステップS7401）。なお、補助情報符号化対象フレームは、音声符号化対象フレームより１フレーム以上後ろのフレームであってもよいし、１フレーム以上前のフレームであってもよい。また、音声符号化対象のフレームより１フレーム以上前あるいは後ろのフレームから、２以上のフレームを選んで補助情報符号を算出して利用してもよい。

トランジェントの検出方法には、例えば「ITU-T Recommendation G.719」の7.2節で述べられている方法を用いることが出来る。また、他の標準の技術および非標準の技術を用いてトランジェントの検出を行ってもよい。上記7.2節で述べられている方法は、サブフレーム毎のパワーを算出した上で、サブフレームの時間的な変化を閾値と比較することによりトランジェントの判定を行う。トランジェント検出の結果、補助情報符号化対象フレーム中にトランジェントを含むか否かを示すトランジェントフラグF_tran、トランジェントの位置l_tran、さらにサブフレームパワー系列P(l)が算出される。また、図４１に示すようにトランジェントの位置l_tranにおけるサブフレームのパワーをP(l_tran)とすると、トランジェント検出部１２４Ａは、ライン１Ｌ４５を通じてトランジェントの位置l_tranを出力し、ライン１Ｌ４６を通じてトランジェントの位置l_tranにおけるサブフレームのパワーをP(l_tran)を出力し、ライン１Ｌ４７を通じてトランジェントフラグF_tranを出力する。なお、トランジェント検出部１２４Ａがライン１Ｌ４６を通じてトランジェントの位置l_tranとサブフレームパワー系列P(l)とを出力する構成としてもよい。

なお、例えば「ITU-T Recommendation G.719」の7.2節で述べられている方法を用いてトランジェント検出を行った場合には、トランジェント検出部１２４Ａは、図４のサブフレームパワー計算部１２１で算出されるサブフレームパワー系列と同様のパラメータを算出するものとする。その他の方法によりトランジェント検出を行った場合も、トランジェント検出部１２４Ａは、図４のサブフレームパワー計算部１２１で算出されるサブフレームパワー系列と同様のパラメータを計算して出力する。

トランジェントフラグF_tranが、フレーム中にトランジェントを含む値を示さないときは、通常フレームを示す値がF_tranに入力される。この場合、パラメータ符号化部１２７は、トランジェントフラグのみを符号化し、補助情報符号として出力する（図２１のステップS7702）。

一方、トランジェントフラグF_tranが、フレーム中にトランジェントを含む値を示すときは、トランジェント位置量子化部１２５は、トランジェントの位置l_tranを予め定めたビット数でスカラ量子化し、量子化位置情報を出力する（図２１のステップS7501）。スカラ量子化の方法としては、l_tranを２進数とみなしてバイナリ符号化する方法を用いてもよいし、予め定めた位置にインデックスを設け、l_tranに最も近い位置のインデックスをバイナリ符号化する方法を用いてもよいし、ハフマン符号化などのエントロピ符号化を用いてもよいし、その他いかなる量子化方法を用いてもよい。図４２（ａ）にはバイナリ符号化によるトランジェント位置情報符号化の一例の模式図を、図４２（ｂ）にはスカラ量子化によるトランジェント位置情報符号化の一例の模式図を示す。また、変形例として、トランジェントの位置だけでなく、「パワーの変化を表す情報」として２以上のサブフレームインデックスを選択し、選択された２以上のサブフレームインデックスを符号化して伝送してもよい。ここでの符号化の方法に特に制限は設けない。

トランジェントフラグF_tranに、フレーム中にトランジェントを含む値がセットされたときは、トランジェントパワースカラ量子化部１２６は、トランジェントの位置l_tranに対応するサブフレームのパワーをスカラ量子化し、量子化トランジェントパワーを出力する（図２１のステップS7601）。例えば６ビットの線形符号化器を用いて0dBから96dBまでの間で量子化を行う場合は、以下の式に従う。ここで、Cは1.55、εは0.001などの値とすることができるが、これらの定数は量子化ビット数等に応じて変更してもよい。

上式により、トランジェントのパワーは0から63までのインデックスに量子化される。また、量子化には、事前に学習などにより定めたコードブックを用いて量子化を行ってもよいし、その他いかなる量子化手段を用いてもよい。なお、トランジェントフラグF_tranがフレーム中にトランジェントを含む値を示さないときは、通常フレームを示す値が上式のI_Eに入力される。

パラメータ符号化部１２７は、トランジェントフラグと、量子化位置情報と、量子化トランジェントパワーとを合わせて補助情報符号を出力する（図２１のステップS7701）。トランジェントフラグと量子化位置情報と量子化トランジェントパワーとをまとめて１つのベクトルとみなした上で、ベクトル量子化やその他の符号化方法により符号化してもよい。符号化の方法については特に制限を設けない。

（復号部４の構成および動作）
復号部４の全体構成は第１実施形態で述べた図６の通りである。以下では、第７実施形態において特徴的な構成である補助情報復号部４５および隠蔽信号修正部４４の構成と動作について述べる。なお、第一隠蔽信号生成部４３は、第１〜第６実施形態で述べた手法に加えて、例えばTS26.402 5.2節に示すような既存の標準技術により第一の隠蔽信号を生成してもよいし、標準ではない別の隠蔽信号生成技術により生成してもよい。

補助情報復号部４５は、図２２に示す通り、トランジェントフラグ復号部１２９、トランジェント位置復号部１２１２、トランジェントパワー復号部１２１３を備える。

このような補助情報復号部４５の動作を図２３に基づき説明する。補助情報復号部４５では、補助情報符号が復号され、得られたトランジェントフラグF_tranがオン（トランジェントを含むフレームを表す）かオフ（トランジェントを含まないフレームを表す）かが判断される（図２３のステップS7901）。

トランジェントフラグF_tranがトランジェントを含まないフレームを表す場合には、トランジェントフラグF_tranの値のみが補助情報として出力される（図２３のステップS7142）。

一方、トランジェントフラグF_tranがトランジェントを含むフレームを表す場合には、補助情報符号から量子化位置情報l_tranを読み出し、復号して量子化位置情報を出力する（図２３のステップS7121）。さらに、補助情報符号から量子化トランジェントパワーI_Eを読み出して復号し、復号トランジェントパワーを出力する（図２３のステップS7131）。例えば、上記述べたような線形量子化を用いている場合は、以下の式に従い量子化トランジェントパワーから復号トランジェントパワーを求める。

そして補助情報復号部４５は、上記算出されたトランジェントフラグF_tran、量子化位置情報、復号トランジェントパワーを補助情報として出力する（図２３のステップS7141）。

次に、隠蔽信号修正部４４について述べる。図２４に示す通り、隠蔽信号修正部４４は、補助情報蓄積部４４１、サブフレームパワー修正部４４２を備える。なお、第１〜第６実施形態では、エラーフラグをサブフレームパワー修正部４４２に入力する構成としていたが、図２４の隠蔽信号修正部４４は、エラーフラグをサブフレームパワー修正部４４２に入力しない構成とされており、第一隠蔽信号生成部４３からの第一隠蔽信号の入力の有無によりエラーフラグの状態判定をする。即ち、第一隠蔽信号生成部４３から第一隠蔽信号が入力された場合、エラーフラグがオフと判定し、第一隠蔽信号生成部４３から第一隠蔽信号が入力されない場合、エラーフラグがオンと判定する。当然、補助情報蓄積部４４１、サブフレームパワー修正部４４２にエラーフラグを入力することによりエラーフラグの判定を行う構成としてもよい。

隠蔽信号修正部４４の動作は、図２５のフローチャートに示す通りである。まず、上述したように第一隠蔽信号生成部４３からの第一隠蔽信号の入力の有無によりエラーフラグの状態判定をする（図２５のステップS7800）。ここでエラーフラグがオフである（パケットロスを表さない）場合、補助情報復号部４５は、補助情報符号を復号し、図２４のライン６Ｌ００１を通じてトランジェントフラグ、トランジェント位置情報、復号トランジェントパワーを出力する（図２５のステップS7101）。そして補助情報蓄積部４４１は、トランジェントフラグ、トランジェント位置情報、復号トランジェントパワーを蓄積する（図２５のステップS7111）。

一方、エラーフラグがオンである（パケットロスを表す）場合は、サブフレームパワー修正部４４２は、補助情報蓄積部４４１からトランジェントフラグ、量子化位置情報、復号トランジェントパワーを読み出し、第一隠蔽信号z(K・l+k)のパワーの値をサブフレーム毎に修正して隠蔽信号y(K・l＋k)を求める（ただし、0≦l≦L-1、0≦k≦K-1）（図２５のステップS7901）。具体的には、以下の手順に従い第一隠蔽信号z(K・l+k)のパワーの値を修正する。まず、第一隠蔽信号生成部４３から出力された第一の隠蔽信号は、図２４のライン６Ｌ００２を通じてサブフレームパワー修正部４４２に入力される。次に、サブフレームパワー修正部４４２は、トランジェントフラグＦ_ｔｒａｎ、トランジェント位置情報ｌ_ｔｒａｎ、復号トランジェントパワー

を補助情報蓄積部４４１から読み出す。

次に、サブフレームパワー修正部４４２は、補助情報蓄積部４４１から読み出したトランジェント位置情報ｌ_ｔｒａｎ、復号トランジェントパワー

から、修正した各サブフレームのパワーを算出する（図２５のステップS7121）。具体的には以下の手順で行う。まず、各サブフレームのパワーを以下の式に従い算出する。

次に、トランジェントの位置における第一隠蔽信号のパワーと復号トランジェントパワーの差分（差分トランジェントパワー）を算出する。

次にトランジェントの位置以降のサブフレームに対応する第一の隠蔽信号のパワーを、前記、差分トランジェントパワーを用いて修正し、修正隠蔽信号サブフレームパワーを求める。

次に、サブフレームパワー修正部４４２は、第一の隠蔽信号についてサブフレーム毎のパワーを算出した上で正規化を行う（図２５のステップS7801）。第２〜第６実施形態のようにサブフレームの長さを不均一となるよう設定してもよい。本実施形態では、サブフレームの長さが等しい場合について詳細に説明する。

最後に、修正隠蔽信号サブフレームパワーを正規化した第一の隠蔽信号に乗算して、隠蔽信号を算出する（図２５のステップS7131）。

なお、図２５のステップS7121の変形例として、サブフレームパワーP(m)、復号トランジェントパワー

から、修正隠蔽信号サブフレームパワー

を算出する方法として、次式のような方法を用いてもよい。

最後に予め定めた予測係数a_pを用いて修正隠蔽信号パワーを算出する。予測係数はサブフレームパワー系列の性質により切り替えてもよい。

他にも事前に定めたモデルを用いて平滑化を行ってもよい。

ここでのｆとしては、例えば、シグモイド関数やスプライン関数などを用いてもよいし、平滑化が実現可能であれば、特に制限を設けない。

以上のような第７実施形態により、パワーの急激な変化（トランジェント）に関する補助情報として、パワーの急激な変化の有無を表す指示情報と、補助情報符号化対象となるフレーム中のトランジェントの位置と、トランジェントの位置におけるサブフレームのパワーとを用いて、トランジェント信号に対する高精度なパケットロス隠蔽を実現することができる。

[第８実施形態]
（符号化部１の構成および動作）
第８実施形態における補助情報符号化部１２は、図２６に示す通り、トランジェント検出部１２４Ａ、トランジェント位置量子化部１２５、トランジェントパワースカラ量子化部１２６、トランジェントパワーベクトル量子化部１２８、パラメータ符号化部１２７を備える。第８実施形態は、第７実施形態におけるトランジェントパワースカラ量子化部１２６に加えてトランジェントパワーベクトル量子化部１２８を備えている点と、補助情報復号部４５の構成および動作が、第７実施形態とは異なる。

第８実施形態における補助情報符号化部１２の動作を図２７に示す。まず、トランジェント検出部１２４Ａは、補助情報符号化対象フレームに対してトランジェントの検出を行う（図２７のステップS7401）。トランジェントの検出方法は第７実施形態における図２１のステップS7401と同様である。なお、補助情報符号化対象フレームは、音声符号化対象フレームより１フレーム以上後ろのフレームであってもよいし、１フレーム以上前のフレームであってもよい。また、音声符号化対象のフレームより１フレーム以上前あるいは後ろのフレームから、２以上のフレームを選んで補助情報符号を算出して利用してもよい。

トランジェントが検出された場合は、以下の手順を行う。まず、トランジェント位置量子化部１２５は、トランジェント位置情報を量子化する（図２７のステップS7501）。量子化の方法は第７実施形態における図２１のステップS7501と同様である。

次に、トランジェントパワースカラ量子化部１２６は、トランジェント位置に対応するサブフレームのパワーをスカラ量子化して、量子化トランジェントパワーを出力する。トランジェントパワースカラ量子化部１２６の動作は第７実施形態と同様である（図２７のステップS7601）。

次に、トランジェントパワーベクトル量子化部１２８は、量子化位置情報が示すサブフレームのパワーを用いて、サブフレームパワー系列を正規化した上で、ベクトル量子化する（図２７のステップS8701）。

ベクトル量子化は以下の式に従う。

なお、Iはコードブック中の直線またはベクトルのエントリ数であり、Jは、選ばれた直線あるいはベクトルのインデックス（以下「コードベクトルインデックス」という）である。なお、c_i(l)はコードブック中のi番目のコードベクトルのl番目の要素を表す。

なお、本実施形態では、サブフレームパワー系列を正規化した上でベクトル量子化する例を示したが、変形例として、図２８のように正規化を行わずにベクトル量子化を行う構成としてもよい。なお、図２８の補助情報符号化部１２の動作は図２９の通りであり、図２７のS8701に代わり、ベクトル量子化は以下の式に従う（図２９のステップS8901）。その他は図２７と同様である。

図２７へ戻り、次に、パラメータ符号化部１２７は、トランジェントフラグと量子化位置情報と量子化トランジェントパワーとコードベクトルインデックスとを補助情報符号として出力する（図２７のステップS8801）。このうちトランジェントフラグと量子化位置情報と量子化トランジェントパワーは、ベクトル量子化やその他の符号化方法により符号化してもよい。符号化の方法については特に制限を設けない。また、トランジェントフラグの値がトランジェントの存在を示す値を表す場合のみ、２ビット以上の値で補助情報を符号化し、トランジェントが存在しないことを示す値の場合は、トランジェントフラグを示す１ビットのみを補助情報とする可変長符号化により、補助情報を符号化してもよい。

（復号部４の構成および動作）
第８実施形態と第７実施形態との違いは、図３０の補助情報復号部４５の構成および動作と、隠蔽信号修正部４４における補助情報蓄積部４４１およびサブフレームパワー修正部４４２の動作である。図３０に示すように、補助情報復号部４５は、トランジェントフラグ復号部１２９、トランジェント位置復号部１２１２、トランジェントパワー復号部１２１３、トランジェントパワーベクトル復号部１２１４を備える。

補助情報復号部４５の動作を図３１に示す。補助情報復号部４５は、補助情報符号からトランジェントフラグF_tranと、量子化位置情報l_tranと、量子化トランジェントパワーI_Eと、コードベクトルインデックスJとを読み出し、トランジェントフラグF_tranの状態判別を行う（図３１のステップS901）。ここでトランジェントフラグF_tranの値がトランジェントを表さない場合は、第７実施形態と同様に、トランジェントフラグF_tranの値のみが補助情報として出力される（図３１のステップS906）。

一方、トランジェントフラグF_tranの値がトランジェントを表す場合は、第７実施形態における図２３のステップS7121と同様の方法で、量子化位置情報l_tranを復号して復号位置情報を出力する（図３１のステップS902）。

次に、第７実施形態における図２３のステップS7131と同様の方法で、量子化トランジェントパワーから復号トランジェントパワーを求める（図３１のステップS903）。

また、コードベクトルインデックスJに対応するコードベクトルc_J(ｍ)を出力する（図３１のステップS904）。

最後に、トランジェントフラグ、復号位置情報、復号トランジェントパワー、コードベクトルを出力する（図３１のステップS905）。

次に、図２４に示す隠蔽信号修正部４４の構成を参照しながら、図３２に示す隠蔽信号修正部４４の動作を説明する。

まず、エラーフラグの状態判定を行う（図３２のステップS1500）。エラーフラグの状態判定に当たっては、外部から入力したエラーフラグの値を読み込んでもよいし、第一隠蔽信号生成部４３からの第一隠蔽信号がサブフレームパワー修正部４４２に入力するか否かによって判定してもよい。即ち、第一隠蔽信号がサブフレームパワー修正部４４２に入力されれば、エラーフラグの値がパケットロスを示していない（オフである）と判定し、第一隠蔽信号がサブフレームパワー修正部４４２に入力されなければ、エラーフラグの値がパケットロスを示している（オンである）と判定してもよい。

エラーフラグの値がパケットロスを示していない（オフである）場合、補助情報蓄積部４４１は、トランジェントフラグ、復号位置情報、復号トランジェントパワー、コードベクトルを蓄積する（図３２のステップS1501）。

一方、エラーフラグの値がパケットロスを示している（オンである）場合、サブフレームパワー修正部４４２は、第一隠蔽信号z(K・l+k)から後述の式に従い第一の隠蔽信号のパワーの値をサブフレーム毎に修正して、隠蔽信号y(K・l＋k)を求める（ただし、0≦l≦L-1、0≦k≦K-1）。具体的には、以下の手順に従い第一の隠蔽信号のパワーの値をサブフレーム毎に修正する。

まず、補助情報蓄積部から、トランジェントフラグ、復号位置情報、復号トランジェントパワー、コードベクトルを読み出す（図３２のステップS1502）。

次に、補助情報を利用してサブフレーム毎のパワーを算出する（図３２のステップS1503）。ここでは、まず、サブフレームパワーを算出する。

次に、トランジェント位置に対応するサブフレームパワーと復号トランジェントパワーとの差分である差分トランジェントパワーを算出する。

次に、差分トランジェントパワーとコードベクトルを用いて修正隠蔽信号サブフレームパワーを算出する。

ここで、本実施形態では、符号化側でサブフレームパワー系列の値を正規化した上でベクトル量子化する例を示しているが、正規化を行わずにサブフレームパワー系列のベクトル量子化を行う構成としてもよい。正規化を行わない場合は、修正隠蔽信号サブフレームパワーを以下の通り算出する。

次に、第一の隠蔽信号をサブフレーム毎に正規化する（図３２のステップS1504）。

最後に、修正サブフレームパワーを正規化した第一の隠蔽信号に乗算して隠蔽信号を出力する（図３２のステップS1505）。

以上のような第８実施形態により、パワーの急激な変化（トランジェント）に関する補助情報として、トランジェントパワーの変化をベクトル量子化した情報をさらに用いて、トランジェント信号に対する高精度なパケットロス隠蔽を実現することができる。

[第９実施形態]
第９実施形態では、時間周波数変換した信号に対して第７、第８実施形態で行ったような処理を適用する例を説明する。なお、補助情報符号化対象フレームは、音声符号化対象フレームより1フレーム以上後ろのフレームであってもよいし、1フレーム以上前のフレームであってもよい。また、音声符号化対象のフレームより1フレーム以上前あるいは後ろのフレームから、２以上のフレームを選んで補助情報符号を算出して利用してもよい。

（符号化部１の構成および動作）
第９実施形態における符号化部１は、第１実施形態で述べた図２と同様の構成であり、全体の詳細な説明を省略する。時間周波数変換については第４実施形態で述べたとおりであり、周波数領域に変換された信号をV(k,l)とする。ここで、kは周波数ビンのインデックスであり（ただし0≦k≦K-1）、lはサブフレームのインデックス（ただし0≦l≦L-1）とする。

以下では、第９実施形態の特徴的部分として、補助情報符号化部について詳細に説明する。補助情報符号化部は、図２０に示す通りトランジェント検出部１２４Ａ、トランジェント検出部１２４Ａ、トランジェントパワースカラ量子化部１２６、パラメータ符号化部１２７からなる。第９実施形態では、パワーの急激な変化（トランジェント）に関する補助情報として、補助情報符号化対象となるフレーム中のトランジェントの位置と、トランジェントの位置におけるサブフレームのパワーのうち、全帯域を複数に分割したうちの一つ以上のサブバンドのパワーを用いる例を説明する。なお、補助情報の符号化においては、第８実施形態で行ったようにベクトル量子化により補助情報の符号化を行ってもよい。また、符号化するサブバンドの数は一つに限定せず、２以上のサブバンドについて同様の処理を行ってもよい。

トランジェント検出部１２４Ａは、周波数領域に変換された信号を用いてトランジェントの検出を行う。トランジェントの検出に当たっては、第７実施形態で用いた手段を用いてもよいし、周波数領域の信号に対するトランジェント検出の標準技術であるTS26.404などを用いてもよいし、その他の周波数領域信号に対するトランジェント検出技術を用いてもよい。ここで、トランジェント検出において予め定めた周波数領域における範囲（Ｋ_ｓ≦ｋ＜Ｋ_ｅ）の値についてサブバンドパワー系列を算出するものとする。なお、トランジェントの検出において用いる周波数帯域の信号は、全帯域の信号を用いてもよいし、１つ以上の特定のサブバンドのみを用いてもよい。

トランジェント位置情報、トランジェント位置に対応するサブバンドパワーの値あるいはトランジェント位置に対応するサブバンドパワーを量子化した値の符号化の方法については、上記の通り算出したサブバンドパワー系列に対して、第７実施形態、第８実施形態と同様に適用することができる。なお、補助情報として符号化するサブバンドパワー系列は全帯域を用いて算出されるものでもよいし、１つ以上の特定のサブバンドのみを用いたものでもよい。また、補助情報として符号化するサブバンドパワー系列は、トランジェント検出に用いたサブバンドについて算出したサブバンドパワー系列としてもよいし、トランジェント検出に用いなかったサブバンドについて算出したサブバンドパワー系列としてもよい。

（復号部４の構成および動作）
復号部４の全体構成は、第１実施形態で述べた図６と同様である。以下では第８実施形態において特徴的な構成である補助情報復号部４５と、隠蔽信号修正部４４の構成と動作について述べる。なお、第一隠蔽信号生成部４３は、第１〜第６実施形態で述べた手段に加えて、例えばTS26.402 5.2節に示すような既存の標準技術により第一の隠蔽信号を生成してもよいし、標準ではない別の隠蔽信号生成技術により生成してもよい。

補助情報復号部４５は、エラーフラグが通常フレームを表す場合は、補助情報符号からトランジェントフラグF_tranと、量子化位置情報l_tranと、量子化トランジェントパワーI_Eを読み出す。トランジェントフラグと量子化位置情報と量子化トランジェントパワーを符号化している場合、補助情報復号部４５は、対応する復号手段により補助情報符号を復号し、これらのパラメータを求める。例えば、上記述べたような線形量子化を用いている場合は、以下の式に従い量子化トランジェントパワーから復号トランジェントパワーを求める。

次に、隠蔽信号修正部の動作について述べる。エラーフラグがパケットロスを表す場合は、サブフレームパワー修正部４４２は、補助情報蓄積部４４１から補助情報を読み出し、第一隠蔽信号Z(l,k)から以下の式に従い第一隠蔽信号のパワーの値をサブフレーム毎に修正して隠蔽信号Y(l,k)を求める。具体的には、次式に従い修正を行う（ただし、0≦l≦L-1、0≦k≦K-1）。

まず、補助情報蓄積部からトランジェントフラグを読み出し、トランジェントの状態判定を行う。トランジェントを示す場合は、第一の隠蔽信号についてサブフレーム毎のパワーを求める。第２〜第６実施形態のようにサブフレームの長さを不均一となるよう設定してもよい。本実施形態では、サブフレームの長さが等しい場合について詳細に説明する。

さらに、トランジェントの位置における第一隠蔽信号のパワーと復号トランジェントパワーの差分（差分トランジェントパワー）を算出する。

さらに、トランジェントの位置以降のサブフレームに対応する第一の隠蔽信号のパワーを、前記、差分トランジェントパワーを用いて修正し、修正隠蔽信号サブフレームパワーを求める。

次に、第一の隠蔽信号をサブフレーム毎に正規化する。

最後に、修正隠蔽信号サブバンドパワーを正規化した第一の隠蔽信号に乗算して、隠蔽信号を算出する。

また、第７実施形態で述べたような平滑化を適用してもよいし、第８実施形態で述べたようなベクトル量子化を組み合わせてもよい。

最後に得られた隠蔽信号を逆変換部４６により時間領域の信号に変換することにより隠蔽信号を出力する。

以上のような第９実施形態により、時間周波数変換した信号に対して第７、第８実施形態で行ったような処理を適用することができる。

[第１０実施形態]
第１０実施形態では、符号化側において、入力信号がトランジェント信号の場合には第７あるいは第８実施形態の手段により補助情報符号を出力し、トランジェント信号以外の部分についても第１〜第３実施形態の手段を用いることによりパケットロスした信号をさらに高品質に隠蔽する。なお、周波数領域で表現された入力信号に対して、トランジェントの場合には第９実施形態の方法を、トランジェント以外の場合には第４〜第６実施形態の方法を用いてもよい。

（符号化部１の動作と構成）
図３３に示すとおり、補助情報符号化部１２は、減衰係数推定部１２２、減衰係数量子化部１２３、トランジェント検出部１２４Ａ、トランジェント位置量子化部１２５、トランジェントパワースカラ量子化部１２６、およびパラメータ符号化部１２７を備える。個々の構成要素の動作は第１、第２、第７、第８実施形態にて述べた動作と同様である。以下、補助情報符号化部１２全体の動作について説明する。補助情報符号化部１２の動作は、図３４のフローチャートに示した。

まず、トランジェント検出部１２４Ａは、入力信号からトランジェントの有無について判定を行う。トランジェント検出部１２４Ａの動作は第７実施形態と同様である（図３４のステップS1701）。補助情報符号化対象となる信号にトランジェントが含まれない場合は、減衰係数推定部１２２は、第１実施形態と同様の動作により、サブフレームパワー系列から減衰係数を推定する（図３４のステップS1702）。

次に、減衰係数量子化部１２３は、第１実施形態と同様の動作により、減衰係数を量子化し、量子化された減衰係数を出力する（図３４のステップS1703）。

次に、パラメータ符号化部１２７は、量子化された減衰係数を補助情報符号として出力する（図３４のステップS1704）。

補助情報符号化対象となる信号にトランジェントが含まれる場合のトランジェント位置量子化部１２５、トランジェントパワースカラ量子化部１２６の動作は第７実施形態と同様である（図３４のステップS1705〜S1706）。

次に、パラメータ符号化部１２７は、トランジェントフラグが補助情報符号化対象のフレームにトランジェントを含む値を示す場合、トランジェントフラグ、トランジェント位置情報、量子化トランジェントパワーを符号化して補助情報符号を出力する（図３４のステップS1707）。

(復号部４の動作と構成)
第１０実施形態の全体構成も第１実施形態〜第９実施形態と同様であるので、主な差分である補助情報復号部４５および隠蔽信号修正部４４の動作について述べる。

補助情報復号部４５は、図３５に示す通り、トランジェントフラグ復号部１２９、減衰係数復号部１２１０、トランジェント位置復号部１２１２、トランジェントパワー復号部１２１３を備える。以下に補助情報復号部４５の動作について述べる。動作の流れを示すフローチャートは図３６の通りである。

トランジェントフラグ復号部１２９は、補助情報符号からトランジェントフラグを読み出し、補助情報符号がトランジェント信号に対応するか否かを判別する（図３６のステップS1901）。

トランジェントフラグが、補助情報符号がトランジェントに対応していないことを示している場合は、減衰係数復号部１２１０が補助情報符号から量子化減衰係数符号を読み出し、量子化減衰係数符号を復号し、得られた復号減衰係数およびトランジェントフラグを補助情報として出力する（図３６のステップS1902〜S1903）。減衰係数復号部１２１０の基本的な動作は、第１実施形態の補助情報復号部における減衰係数の算出と同様である。

一方、トランジェントフラグが、補助情報符号がトランジェントに対応していることを示している場合は、トランジェント位置復号部１２１２が量子化トランジェント位置情報を復号して、得られたトランジェント位置情報（以下「復号位置情報」という）を出力し（図３６のステップS1904）、トランジェントパワー復号部１２１３が、符号化された量子化パワーを復号して、得られた復号トランジェントパワーを出力し（図３６のステップS1905）、これによりトランジェントフラグと復号位置情報と復号トランジェントパワーとが補助情報として出力される（図３６のステップS1906）。トランジェント位置復号部１２１２とトランジェントパワー復号部１２１３の動作は第７実施形態と同様である。

図２４の隠蔽信号修正部４４の動作の流れを示すフローチャートは図３７の通りである。以下、隠蔽信号修正部４４の動作について説明する。

エラーフラグを参照し、パケットがエラーを含むか否かを判断する（図３７のステップS2001）。ここで、エラーフラグが通常フレームを表す場合、補助情報蓄積部４４１は、トランジェントフラグの値を参照し(図３７のステップS2002)、トランジェントの場合はトランジェントフラグ、復号位置情報、および復号トランジェントパワーを蓄積する(図３７のステップS2003)。一方、トランジェントでない場合は、トランジェントフラグおよび復号減衰係数を蓄積する(図３７のステップS2004)。

一方、エラーフラグがパケットロスを表す場合、サブフレームパワー修正部４４２は、第一の隠蔽信号を正規化する(図３７のステップS2005)。正規化の方法は、第７実施形態における第一隠蔽信号の正規化と同様である。

次に、サブフレームパワー修正部４４２は、補助情報蓄積部４４１からトランジェントフラグを読み出しトランジェントフラグの値を判定する(図３７のステップS2006)。ここで、トランジェントフラグがトランジェントを示す値の場合は、サブフレームパワー修正部４４２は、補助情報蓄積部４４１から復号位置情報および復号トランジェントパワーを読み出し、これら復号位置情報および復号トランジェントパワーから各サブフレームのパワーを算出し、該パワーから求められる平均振幅値を、ステップS2005で求めた上記サブフレームの値に乗算することで、隠蔽信号を求める（図３７のステップS2007）。

一方、トランジェントフラグがトランジェントを示さない場合は、サブフレームパワー修正部４４２は、補助情報蓄積部４４１から復号減衰係数を読み出し、第１実施形態に示した方法と同様の方法で復号減衰係数からサブフレームパワー系列を算出する。次に、サブフレームパワー修正部４４２は、算出したサブフレームパワー系列からゲインを算出し、得られたゲインを、正規化した第一の隠蔽信号に乗算することで、隠蔽信号を求める（図３７のステップS2008）。

以上述べた第１０実施形態の手法は、周波数領域に変換された入力信号に対して適用してもよい。周波数領域に変換された入力信号に対して適用するに当たっては、一つ以上のサブバンドに対して補助情報の算出・符号化を行ってもよい。

以上のような第１０実施形態により、符号化側において、入力信号がトランジェント信号の場合には第７あるいは第８実施形態の手段により補助情報符号を出力し、トランジェント信号以外の部分についても第１〜第３実施形態の手段を用いることによりパケットロスした信号をさらに高品質に隠蔽することができる。

[第１１実施形態]
図３８に示す通り、補助情報符号化部１２に符号長選択部１２８Ａを追加することにより、トランジェントフラグの値がトランジェントの存在を示す値の場合のみ２ビット以上の値で補助情報を符号化し、トランジェントが存在しないことを示す値の場合は、トランジェントフラグを示す１ビットのみを補助情報として符号化する。以上のような可変長符号化により、補助情報を符号化してもよいし、トランジェントが存在しない場合にもトランジェント位置情報と量子化トランジェントパワーと同じビット数分だけゼロを詰めることで常に同じビット数での符号化としてもよいし、何らかの他の情報を変わりに符号化して補助情報符号としてもよい。

当然、本実施形態のように補助情報符号化部に符号長選択部を設けて、補助情報の符号長を可変とする構成は、第１実施形態〜第１０実施形態の全てに適用することができる。

以下、第７実施形態の構成に符号長選択部を追加して可変符号長とした場合の構成および動作について説明する。補助情報符号化部１２は、図３８に示す通りトランジェント検出部１２４Ａ、トランジェント位置量子化部１２５、トランジェントパワースカラ量子化部１２６、パラメータ符号化部１２７、符号長選択部１２８Ａを備える。

補助情報符号化部１２の動作を図３９に基づき説明する。トランジェント検出部１２４Ａは、第７実施形態と同様の動作でトランジェントの検出を行う（図３９のステップS2201）。

トランジェントフラグF_tranがフレーム中にトランジェントを含む値を示すときは、符号長選択部１２８Ａは、予め定めた１ビットより大きいビット数を出力する（図３９のステップS2204）。

トランジェント位置量子化部１２５は、トランジェントの位置l_tranを予め定めたビット数でスカラ量子化し、量子化位置情報を出力する（図３９のステップS2205）。トランジェント位置量子化部１２５の動作は第７実施形態と同様である。

次に、トランジェントパワースカラ量子化部１２６は、トランジェントの位置l_tranに対応するサブフレームのパワーをスカラ量子化し、量子化トランジェントパワーを出力する（図３９のステップS2206）。トランジェントパワースカラ量子化部１２６の動作は第７実施形態と同様である。

パラメータ符号化部１２７は、トランジェントフラグと、量子化位置情報と、量子化トランジェントパワーとを合わせて補助情報符号を出力する（図３９のステップS2207）。このとき、補助情報符号全体の長さは図３９のステップS2204で定めた値となる。

一方、ステップS2201でトランジェントフラグF_tranがフレーム中にトランジェントを含む値を示さないときは、符号長選択部１２８Ａは符号長を１ビットに決定する（図３９のステップS2202）。次に、パラメータ符号化部１２７はトランジェントフラグのみを１ビットで符号化し出力する（図３９のステップS2203）。

（復号部４の構成および動作）
補助情報復号部４５は、第７実施形態と同様、図２２に示す通りトランジェントフラグ復号部１２９、トランジェント位置復号部１２１２、トランジェントパワー復号部１２１３を備える。

このような補助情報復号部４５の動作を図４０に基づき説明する。補助情報復号部４５では、補助情報符号が復号され、得られたトランジェントフラグF_tranがオン（トランジェントを含むフレームを表す）かオフ（トランジェントを含まないフレームを表す）かが判断される（図４０のステップS2401）。

トランジェントフラグF_tranがトランジェントを含むフレームを表す場合には、トランジェントフラグ復号部１２９は、さらに、補助情報符号から量子化位置情報を読み出してトランジェント位置復号部１２１２へ出力し、さらに、補助情報符号から量子化トランジェントパワーI_Eを読み出してトランジェントパワー復号部１２１３へ出力する（図４０のステップS2402）
次に、トランジェント位置復号部１２１２は、量子化位置情報を復号し、得られた復号位置情報l_tranを出力する（図４０のステップS2403）。さらに、トランジェントパワー復号部１２１３は、量子化トランジェントパワーI_Eを復号し、得られた復号トランジェントパワーP(l_tran)を出力する（図４０のステップS2404）。

これにより、トランジェントフラグF_tran、復号位置情報l_tran、復号トランジェントパワーP(l_tran)が補助情報として出力される（図４０のステップS2405）。なお、図４０のステップS2403〜S2405は、第７実施形態と同様である。

一方、トランジェントフラグF_tranがトランジェントを含まないフレームを表す場合には、トランジェントフラグF_tranのみが補助情報として出力される（図４０のステップS2406）。

隠蔽信号修正部４４（図２４）の動作は第７実施形態と同様である。

以上のような第１１実施形態により、補助情報の符号長を可変とすることができる。

［第１２実施形態］
第１２実施形態では、第７実施形態の変形例について述べる。本実施形態では、量子化トランジェントパワーのみを補助情報として伝送する例を説明する。

（符号化部１の構成および動作）
符号化部１の構成は第１実施形態と同様である。以下では、本実施形態において特徴的な構成である補助情報符号化部１２の構成と動作について述べる。補助情報符号化部１２の構成は図４３に示したとおり、トランジェント検出部１２４Ａと、トランジェントパワースカラ量子化部１２６と、パラメータ符号化部１２７とを備える。

トランジェント検出部１２４Ａは、第７実施形態と同様の処理によりサブフレームパワー系列を出力する。トランジェントの位置は、サブフレームパワーが予め定めた閾値を越えるところとしてもよいし、直前サブフレームのパワーに対するサブフレームパワーの比が最大になるところとしてもよい。また、バッファに格納した一定時間分のサブフレームパワーの分散を算出し、得られた分散が最大になるところとしてもよい。

次に、トランジェントパワースカラ量子化部１２６が、トランジェント位置のサブフレームパワーを第７実施形態と同様の方法で量子化し、量子化トランジェントパワーをパラメータ符号化部１２７へ出力する。

そして、パラメータ符号化部１２７は、量子化トランジェントパワーのみを符号化し補助情報符号を生成する。

（復号部４の構成および動作）
復号部４の全体構成は第１実施形態と同様である（図６の通り）。以下では本実施形態において特徴的な構成である補助情報復号部４５の構成と動作について述べる。なお、第一隠蔽信号生成部４３は、第７実施形態と同様の方法で生成する。

本実施形態における補助情報復号部４５の構成は図４４に示したとおりである。本実施形態では、符号化部１から送られてくる補助情報符号に、トランジェントフラグおよび量子化位置情報は含まれない。そこで、本実施形態においてはトランジェントフラグを常にオンの値にセットし、トランジェント位置情報には予め定めておいた値l_constを常にセットする。トランジェントパワー復号部１２１３は、第７実施形態と同様の処理で、量子化トランジェントパワーのみを含む補助情報符号（量子化パワー符号）を復号して復号トランジェントパワーを出力する。

なお、上記のトランジェントフラグ、トランジェント位置情報、および、出力された復号トランジェントパワーが補助情報として、図６の隠蔽信号修正部４４により処理される。

以上のようにして、量子化トランジェントパワーのみを補助情報として伝送する実施形態を実現でき、第７実施形態と同様の効果を得ることができる。

［第１３実施形態］
第１３実施形態では、第７実施形態の別の変形例について述べる。本実施形態では、トランジェントフラグと量子化トランジェントパワーのみを補助情報として伝送する例を説明する。

（符号化部１の構成および動作）
本実施形態において特徴的な構成である補助情報符号化部１２の構成と動作について述べる。補助情報符号化部１２の構成は図４５に示したとおり、トランジェント検出部１２４Ａと、トランジェントパワースカラ量子化部１２６と、パラメータ符号化部１２７とを備える。

トランジェント検出部１２４Ａと、トランジェントパワースカラ量子化部１２６の動作は、第７実施形態と同様である。

パラメータ符号化部１２７は、トランジェントフラグと量子化トランジェントパワーをまとめて補助情報符号を生成する。トランジェントフラグの値がオフのときは、第７実施形態と同様、パラメータ符号化部１２７は量子化トランジェントパワーを補助情報符号に含めない。

（復号部４の構成および動作）
復号部４の全体構成は第１実施形態と同様である（図６の通り）。以下では本実施形態において特徴的な構成である補助情報復号部４５の構成と動作について述べる。本実施形態における補助情報復号部４５の構成は、図４６に示す通りである。

トランジェントフラグ復号部１２９の動作と、トランジェントパワー復号部１２１３の動作は、第７実施形態と同様である。本実施形態では、第１２実施形態と同様に、トランジェント位置情報には予め決めておいた値l_constを常にセットする。

以上のようにして、トランジェントフラグと量子化トランジェントパワーのみを補助情報として伝送する実施形態を実現でき、第７実施形態と同様の効果を得ることができる。

［第１４実施形態］
第１４実施形態では、トランジェント位置におけるサブフレームをサブバンド毎に分割し、１つ以上のサブバンドのパワーを量子化して補助情報とする。１つ以上のサブバンドのパワーを量子化するにあたって、１つ以上のサブバンドに含まれる１つ以上のサブバンドを「コアサブバンド」とする。次に、コアサブバンド以外のサブバンドについては、当該サブバンド（コアサブバンド以外のサブバンド）のパワーとコアサブバンドのパワーとの差分を算出し、コアサブバンドのパワーおよび上記の差分を量子化して補助情報とする。なお、コアサブバンドのパワーは、補助情報に含めてもよいし、補助情報に含めずに音声符号そのものに含まれる値を代用してもよい。

（符号化部１の構成と動作）
本実施形態における符号化部１は、第１実施形態で述べた図１０と同様の構成であり、全体の詳細な説明を省略する。時間周波数変換については第４実施形態において述べたとおりである。周波数領域に変換された信号をV(k,l)とする。ここで、kは周波数ビンのインデックスであり（ただし0≦k≦K-1）、lはサブフレームのインデックス（ただし0≦l≦L-1）とする。また、時間周波数変換部１０は、周波数領域に変換された信号V(k,l)と、時間周波数領域変換する前の音声信号の両方を補助情報符号化部１２に入力する。

本実施形態における補助情報符号化部１２の構成を図４７に示す。補助情報符号化部１２は、トランジェント検出部１２４Ａと、サブバンドパワー算出部１２８Ｂと、コアサブバンドパワー量子化部１２９Ａと、差分量子化部１２１０Ａと、パラメータ符号化部１２７と、を備える。さらに、トランジェント位置量子化部１２５を含める構成としてもよいが、以下ではトランジェント位置量子化部１２５を含めない構成により説明する。

トランジェント検出部１２４Ａの動作は第７実施形態と同様である。

サブバンドパワー算出部１２８Ｂは、トランジェント位置に対応するサブフレームについて、以下の式に従いサブバンドパワーを計算する。なお、P⁽ⁱ⁾(l_tran)を、トランジェント位置におけるi番目のサブバンドのパワーとする。また、K_s ⁽ⁱ⁾，K_e ⁽ⁱ⁾を、順に、i番目のサブバンドの最初の周波数ビンのインデックス、i番目のサブバンドの最後の周波数ビンのインデックスとする。

コアサブバンドパワー量子化部１２９Ａは、予め定めたi_core番目のサブバンドをコアサブバンドとし、コアサブバンドのパワー

を量子化し、コアサブバンドパワー符号を出力する。量子化には、予め定めた量子化コードブックを用いて量子化してもよいし、ハフマン符号化などを用いてエントロピ符号化により量子化してもよい。また、予め１つ以上のＪ個のサブバンド

をコアサブバンドとし、上記Ｊ個のサブバンドのパワーの平均をコアサブバンドのパワーとしてもよい。また、Ｊ個のサブバンドの最大値、または最小値、または中央値をコアサブバンドのパワーとしてもよい。さらに、コアサブバンドパワー量子化部１２９Ａは、コアサブバンドパワー符号を復号し、復号コアサブバンドパワー

を出力する。

差分量子化部１２１０Ａは、差分サブバンドパワー系列

を次式により算出して量子化し、差分サブバンドパワー符号を出力する。量子化には、予め定めた量子化コードブックを用いて量子化してもよいし、ハフマン符号化などを用いてエントロピ符号化により量子化してもよいし、差分サブバンドパワー系列が２以上のサブバンドを備える場合にはベクトル量子化により量子化してもよい。

パラメータ符号化部１２７は、トランジェントフラグ、コアサブバンドパワー符号、差分サブバンドパワー符号をまとめて補助情報符号を出力する。ただし、トランジェントフラグの値がオフの場合には、コアサブバンドパワー符号、差分サブバンドパワー符号を補助情報符号に含めない。

（復号部４の構成と動作）
本実施形態における補助情報復号部４５の構成を図４８に示す。補助情報復号部４５は、トランジェントフラグ復号部１２９と、コアサブバンドパワー復号部１２１４Ａと、差分復号部１２１５と、を備える。さらに、トランジェント位置復号部１２１２を含める構成としてもよいが、以下ではトランジェント位置復号部１２１２を含めない構成により説明する。

トランジェントフラグ復号部１２９の動作は第７実施形態と同様である。

コアサブバンドパワー復号部１２１４Ａは、量子化コアサブバンドパワーを復号し、復号コアサブバンドパワー

を出力する。

差分復号部１２１５は、差分サブバンドパワー符号を復号し、復号差分サブバンドパワー系列

を出力する。さらに、差分復号部１２１５は、次式に従い、復号差分サブバンドパワー系列と復号コアサブバンドパワーとを加算して、トランジェントパワースペクトル

を算出する。

次に、本実施形態におけるサブフレームパワー修正部４４２（図２４）の動作について述べる。補助情報蓄積部４４１は、上記の補助情報復号部４５により得られたトランジェントフラグおよびトランジェントパワースペクトルを補助情報として蓄積しており、サブフレームパワー修正部４４２は、補助情報蓄積部４４１からトランジェントフラグおよびトランジェントパワースペクトルを読み出し、第一隠蔽信号z(K・l+k)のパワーの値をサブフレーム毎に修正して隠蔽信号y(K・l＋k)を求める。具体的には、以下の手順に従い、修正を行う（ただし、0≦l≦L-1、0≦k≦K-1）。

まず、第一隠蔽信号生成部４３から出力された第一の隠蔽信号が、サブフレームパワー修正部４４２に入力される。さらに、補助情報蓄積部４４１に蓄積されたトランジェントフラグおよびトランジェントパワースペクトルがサブフレームパワー修正部４４２に入力される。

次に、サブフレームパワー修正部４４２は、予め定めた値をトランジェント位置情報l_tranにセットする。

次に、サブフレームパワー修正部４４２は、サブバンドパワー系列を以下の式に従い算出する。

次に、サブフレームパワー修正部４４２は、トランジェントの位置における第一隠蔽信号のサブバンドパワー系列とトランジェントパワースペクトルとの差分（差分トランジェントパワー）を以下の式に従い算出する。

次に、サブフレームパワー修正部４４２は、トランジェントの位置以降のサブフレームに対応する第一の隠蔽信号のパワーを、上記の差分トランジェントパワーを用いて修正し、修正隠蔽信号サブフレームパワーを求める。

最後に、サブフレームパワー修正部４４２は、すべてのサブバンドiについて以下の式に従い、修正隠蔽信号サブフレームパワーを第一隠蔽信号に乗算して、隠蔽信号を算出する。ただし、K_s ⁽ⁱ⁾≦k＜K_e ⁽ⁱ⁾，l≧l_tranとする。

以上のように、コアサブバンドのパワーとコアサブバンド以外のサブバンドのパワーとの差分を補助情報として利用し、トランジェント信号に対する高精度なパケットロス隠蔽を実現することができる。

なお、本実施形態では、図４７の補助情報符号化部１２においてトランジェント位置量子化部１２５を省略し、図４８の補助情報復号部４５においてトランジェント位置復号部１２１２を省略した構成について説明したが、これらを含めた構成としてもよい。

［第１５実施形態］
第１５実施形態では、第１４実施形態における図４７のコアサブバンドパワー量子化部１２９Ａおよび図４８のコアサブバンドパワー復号部１２１４Ａを省略した場合について述べる。

（符号化部１の構成と動作）
本実施形態における符号化部１は、第１実施形態で述べた図１０と同様の構成であり、全体の詳細な説明を省略する。時間周波数変換は第１４実施形態と同様である。

音声符号化部１１は、音声信号のパワーを算出・量子化してコアサブバンドパワー符号を算出し、音声符号に含めるものとする。コアサブバンドパワー符号の出力に当たっては、時間領域で求めたフレームあるいは１つ以上のサブフレームに関するパワーを量子化してもよいし、周波数領域で求めたフレームあるいは１つ以上のサブフレームのパワーを量子化してもよいし、QMF領域に変換した信号の１つ以上のサブサンプルに関するパワーを量子化してもよい。周波数領域、QMF領域での量子化にあたっては、１つ以上のサブバンドについて算出したパワーを量子化してもよい。

本実施形態における補助情報符号化部１２の構成を図４９に示す。補助情報符号化部１２は、トランジェント検出部１２４Ａと、サブバンドパワー算出部１２８Ｂと、差分量子化部１２１０Ａと、パラメータ符号化部１２７と、を備える。さらに、トランジェント位置量子化部１２５を含める構成としてもよいが、以下ではトランジェント位置量子化部１２５を含めない構成により説明する。

トランジェント検出部１２４Ａの動作は第７実施形態と同様であり、サブバンドパワー算出部１２８Ｂは、第１４実施形態と同様である。

音声符号化部１１は、音声符号に含まれるパワーに関する符号を復号して得られる復号コアサブバンドパワーP_coreを差分量子化部１２１０Ａに入力する。

差分量子化部１２１０Ａは、差分サブバンドパワー系列

を次式により算出して量子化し、得られた差分サブバンドパワー符号を出力する。量子化では、予め定めた量子化コードブックを用いて量子化してもよいし、ハフマン符号化などを用いてエントロピ符号化により量子化してもよいし、差分サブバンドパワー系列が２以上のサブバンドを備える場合にはベクトル量子化により量子化してもよい。

パラメータ符号化部１２７は、第１４実施形態と同様である。

（復号部４の構成と動作）
本実施形態における補助情報復号部４５の構成を図５０に示す。補助情報復号部４５は、トランジェントフラグ復号部１２９と、差分復号部１２１５と、を備える。さらに、トランジェント位置復号部１２１２を含める構成としてもよいが、以下ではトランジェント位置復号部１２１２を含めない構成により説明する。

音声復号部４２は、音声符号に含まれるパワーに関する符号を復号して得られる復号コアサブバンドパワーP_coreを差分復号部１２１５に入力する。P_coreが時間領域など、周波数領域に変換された信号V(k,l)とは異なる領域で求めた値である場合には、オフセットを加算して単位をそろえた上で、P_coreを差分復号部１２１５に入力する。

を出力する。さらに、差分復号部１２１５は、下記の式に従い、復号差分サブバンドパワー系列と復号コアサブバンドパワーとを加算して、トランジェントパワースペクトル

を算出する。

図２４のサブフレームパワー修正部４４２は、第１４実施形態と同様の動作である。

以上のようにして、第１４実施形態における図４７のコアサブバンドパワー量子化部１２９Ａおよび図４８のコアサブバンドパワー復号部１２１４Ａを省略した実施形態を実現でき、第１４実施形態と同様の効果を得ることができる。

なお、本実施形態では、図４９の補助情報符号化部１２においてトランジェント位置量子化部１２５を省略し、図５０の補助情報復号部４５においてトランジェント位置復号部１２１２を省略した構成について説明したが、これらを含めた構成としてもよい。

［音声符号化プログラムおよび音声復号プログラムについて］
まず、コンピュータを、本発明に係る音声符号化装置として動作させる音声符号化プログラムについて説明する。

図１７は、一実施形態に係る音声符号化プログラムの構成を示す図である。図１５は、一実施形態に係るコンピュータのハードウェア構成図である。図１６は、一実施形態に係るコンピュータの外観図である。図１７に示す音声符号化プログラムＰ１は、図１５および図１６に示すコンピュータＣ１０を符号化部１として動作させることができる。なお、本明細書に説明するプログラムは、図１５および図１６に示すようなコンピュータに限定されず、携帯電話、携帯情報端末、携帯型パーソナルコンピュータといった任意の情報処理装置を、当該プログラムに従って動作させることができる。

音声符号化プログラムＰ１は、記録媒体Ｍに格納されて提供され得る。なお、記録媒体Ｍとしては、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ、あるいはＲＯＭ等の記録媒体、あるいは半導体メモリ等が例示される。

図１５に示すように、コンピュータＣ１０は、フレキシブルディスクドライブ装置、ＣＤ−ＲＯＭドライブ装置、ＤＶＤドライブ装置等の読み取り装置Ｃ１２と、作業用メモリ（ＲＡＭ）Ｃ１４と、記録媒体Ｍに記憶されたプログラムを記憶するメモリＣ１６と、ディスプレイＣ１８と、入力装置であるマウスＣ２０及びキーボードＣ２２と、データ等の送受信を行うための通信装置Ｃ２４と、プログラムの実行を制御する中央演算部（ＣＰＵ）Ｃ２６とを備える。

コンピュータＣ１０は、記録媒体Ｍが読み取り装置Ｃ１２に挿入されると、記録媒体Ｍに格納された音声符号化プログラムＰ１に読み取り装置Ｃ１２からアクセス可能になり、音声符号化プログラムＰ１によって、本発明に係る音声符号化装置として動作することが可能になる。

図１６に示すように、音声符号化プログラムＰ１は、搬送波に重畳されたコンピュータデータ信号Ｗとしてネットワークを介して提供されるものであってもよい。この場合、コンピュータＣ１０は、通信装置Ｃ２４によって受信した音声符号化プログラムＰ１をメモリＣ１６に格納し、音声符号化プログラムＰ１を実行することができる。

図１７に示すように、音声符号化プログラムＰ１は、音声符号化モジュールＰ１１、および補助情報符号化モジュールＰ１２を備えている。これらの音声符号化モジュールＰ１１、および補助情報符号化モジュールＰ１２は、前述した音声符号化部１１、および補助情報符号化部１２とそれぞれ同様の機能をコンピュータＣ１０に実行させる。かかる音声符号化プログラムＰ１によれば、コンピュータＣ１０は、本発明に係る音声符号化装置として動作することが可能となる。

次に、コンピュータを、本発明に係る音声復号装置として動作させる音声復号プログラムについて説明する。図１８は、一実施形態に係る音声復号プログラムの構成を示す図である。

図１８に示す音声復号プログラムＰ４は、図１５および図１６に示したコンピュータにおいて使用され得るものである。また、音声復号プログラムＰ４は、音声符号化プログラムＰ１と同様に提供され得る。

図１８に示すように、音声復号プログラムＰ４は、エラー／ロス検出モジュールＰ４１、音声復号モジュールＰ４２、補助情報復号モジュールＰ４５、第一隠蔽信号生成モジュールＰ４３、および隠蔽信号修正モジュールＰ４４を備えている。これらのエラー／ロス検出モジュールＰ４１、音声復号モジュールＰ４２、補助情報復号モジュールＰ４５、第一隠蔽信号生成モジュールＰ４３、および隠蔽信号修正モジュールＰ４４は、前述したエラー／ロス検出部４１、音声復号部４２、補助情報復号部４５、第一隠蔽信号生成部４３、および隠蔽信号修正部４４とそれぞれ同様の機能をコンピュータＣ１０に実行させる。かかる音声復号プログラムＰ４によれば、コンピュータＣ１０は、本発明に係る音声復号装置として動作することが可能となる。

以上説明したさまざまな実施形態によって、パワーが急激に変化する部分についての有効な補助情報を符号化側から復号側へ送ることができ、従来技術ではパケットロス隠蔽が困難であったパワーの急激な時間変化を伴う信号（トランジェント信号）に対して、高精度なパケットロス隠蔽を実現し、パケットロス時の主観品質低下を軽減することができる。

１…符号化部、２…パケット構成部、３…パケット分離部、４…復号部、１０…時間周波数変換部、１１…音声符号化部、１２…補助情報符号化部、１３…符号多重化部、４０…符号分離部、４１…エラー／ロス検出部、４２…音声復号部、４３…第一隠蔽信号生成部、４４…隠蔽信号修正部、４５…補助情報復号部、４６…逆変換部、４７…音声パラメータ蓄積部、１２１…サブフレームパワー計算部、１２２…減衰係数推定部、１２３…減衰係数量子化部、１２４…サブフレームパワーベクトル量子化部、１２４Ａ…トランジェント検出部、１２５…トランジェント位置量子化部、１２６…トランジェントパワースカラ量子化部、１２７…パラメータ符号化部、１２８…トランジェントパワーベクトル量子化部、１２８Ａ…符号長選択部、１２８Ｂ…サブバンドパワー算出部、１２９…トランジェントフラグ復号部、１２９Ａ…コアサブバンドパワー量子化部、１２１０…減衰係数復号部、１２１０Ａ…差分量子化部、１２１２…トランジェント位置復号部、１２１３…トランジェントパワー復号部、１２１４…トランジェントパワーベクトル復号部、１２１４Ａ…コアサブバンドパワー復号部、１２１５…差分復号部、４３１…復号係数蓄積部、４３２…蓄積復号係数反復部、４４１…補助情報蓄積部、４４２…サブフレームパワー修正部、Ｃ１０…コンピュータ、Ｃ１２…読み取り装置、Ｃ１４…作業用メモリ、Ｃ１６…メモリ、Ｃ１８…ディスプレイ、Ｃ２０…マウス、Ｃ２２…キーボード、Ｃ２４…通信装置、Ｃ２６…ＣＰＵ、Ｍ…記録媒体、Ｗ…コンピュータデータ信号、Ｐ１…音声符号化プログラム、Ｐ１１…音声符号化モジュール、Ｐ１２…補助情報符号化モジュール、Ｐ４…音声復号プログラム、Ｐ４１…エラー／ロス検出モジュール、Ｐ４２…音声復号モジュール、Ｐ４３…第一隠蔽信号生成モジュール、Ｐ４４…隠蔽信号修正モジュール、Ｐ４５…補助情報復号モジュール。

Claims

複数のフレームからなる音声信号を符号化する音声符号化装置であって、
音声信号を符号化する音声符号化部と、
音声信号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報を推定し符号化する補助情報符号化部と、
を備え、
前記補助情報符号化部は、
前記補助情報として、前記音声符号化部による符号化対象のフレームとは異なるフレームの音声信号におけるパワーの変化に関するフラグを推定し符号化し、
前記フラグが所定のモードである場合、前記補助情報として、さらに、前記符号化対象のフレームとは異なるフレームの音声信号におけるパワーの変化の位置での量子化トランジェントパワーを推定し符号化し、前記補助情報には、前記フラグ及び前記量子化トランジェントパワーのみが含まれ、
前記フラグが所定のモードでない場合、前記補助情報には、量子化トランジェントパワーを含めない、
音声符号化装置。
複数のフレームからなる音声信号を符号化する音声符号化装置、により実行される音声符号化方法であって、
音声信号を符号化する音声符号化ステップと、
音声信号を復号する際のパケットロス隠蔽に用いられる、音声信号のパワーの時間変化に関する補助情報を推定し符号化する補助情報符号化ステップと、
を備え、
前記補助情報符号化ステップでは、前記音声符号化装置は、
前記補助情報として、前記音声符号化ステップにおける符号化対象のフレームとは異なるフレームの音声信号におけるパワーの変化に関するフラグを推定し符号化し、
前記フラグが所定のモードである場合、前記補助情報として、さらに、前記符号化対象のフレームとは異なるフレームの音声信号におけるパワーの変化の位置での量子化トランジェントパワーを推定し符号化し、前記補助情報には、前記フラグ及び前記量子化トランジェントパワーのみが含まれ、
前記フラグが所定のモードでない場合、前記補助情報には、量子化トランジェントパワーを含めない、
音声符号化方法。