JP7209032B2

JP7209032B2 - 音声符号化装置および音声符号化方法

Info

Publication number: JP7209032B2
Application number: JP2021031899A
Authority: JP
Inventors: 公孝堤; 圭菊入; 貴史山口
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2012-11-15
Filing date: 2021-03-01
Publication date: 2023-01-19
Anticipated expiration: 2033-11-12
Also published as: KR20200051858A; HK1209229A1; JP2019070866A; AU2020294317B2; RU2760485C1; KR20160111550A; US11176955B2; KR20200124339A; BR112015008505B1; AU2019202186B2; KR20170107590A; CA2886140A1; CA3044983C; JP2020034951A; JP2018112749A; US11195538B2; EP2922053A1; DK2922053T3; BR112015008505A2; JP6158214B2

Description

本発明は、音声パケットを、ＩＰ網や移動体通信網経由で伝送する際のエラー隠蔽に関するものであり、さらに詳しくは、エラー隠蔽を実現する、高精度パケットロス隠蔽信号生成のための音声符号化装置および音声符号化方法に関する。

音声・音響信号（以下「音声信号」と総称する）をＩＰ網や移動体通信において伝送する際には、ある一定時間長ごとに音声信号を符号化して音声パケットを生成し、通信網経由で伝送する。受信側では、通信網を通じて音声パケットを受け取り、受信側のサーバ、ＭＣＵ（Multipoint Control Unit）、端末等において復号し、復号音声信号とする。

音声信号は、通常、ディジタル形式で収音される。すなわち、１秒間あたりサンプリング周波数と同数の数列として計測・蓄積する。この数列の個々の要素をサンプルと呼ぶ。音声符号化においては、決まったサンプル数の音声信号が、内蔵したバッファに所定量蓄積するたびにバッファ内の音声信号を符号化する。上記所定のサンプル数をフレーム長といい、フレーム長と同数のサンプルの集合をフレームと呼ぶ。例えば、３２ｋＨｚのサンプリング周波数において、フレーム長を２０ｍｓとした場合、フレーム長は６４０サンプルである。なお、バッファの長さは１フレームより長くてもよい。

通信網を通じて音声パケットを伝送する際には、通信網の輻輳状態等に起因して、一部の音声パケットが失われる、あるいは音声パケットに書き込まれた情報の一部に誤りが生じるといった現象（いわゆるパケットロス）が起こりうる。そのような場合には、受信側において音声パケットを正しく復号することができないため、所望の復号音声信号を得ることが出来ない。また、パケットロスが生じた音声パケットに対応する復号音声信号は雑音として知覚されるため、受聴する人間に対して与える主観品質を著しく損なう。

上記のような不都合を解消するため、パケットロスにより失われた部分の音声音響信号を補間する技術として、パケットロス隠蔽技術が用いられる。パケットロス隠蔽技術には、受信側のみでパケットロス隠蔽を行う「補助情報を用いないパケットロス隠蔽技術」と、送信側でパケットロス隠蔽に役立つパラメータを求めた上で、受信側に伝送し、受信側では受け取ったパラメータを利用してパケットロス隠蔽を行う「補助情報を用いるパケットロス隠蔽技術」がある。

このうち「補助情報を用いないパケットロス隠蔽技術」では、例えば、非特許文献１の技術のように過去に正常に受信したパケットに含まれていた復号音声信号をピッチ単位でコピーした上で、予め決めた減衰係数を乗算することにより、パケットロスした部分に対応する音声信号を生成する。「補助情報を用いないパケットロス隠蔽技術」は、パケットロスした部分の音声の性質がパケットロスする直前の音声と似ていることを前提としているため、パケットロスした部分がロスする直前の音声と異なる性質を持つ場合や、パワーが急激に変化する場合に、十分な隠蔽効果を発揮することができない。

一方、「補助情報を用いるパケットロス隠蔽技術」には、特許文献１のように、送信側でパケットロス隠蔽に必要なパラメータを符号化して伝送し、受信側でのパケットロス隠蔽に利用する技術がある。特許文献１では、主要符号化・冗長符号化の２つの符号化方式により音声を符号化する。冗長符号化は、主要符号化よりも低いビットレートで、主要符号化が符号化するフレームより１つ前のフレームを符号化する（図１（ａ）参照）。例えば、第Ｎ番目のパケットには、第Ｎフレームを主要符号化により符号化して得た音声符号と、第Ｎ－１フレームを冗長符号化により符号化して得た補助情報符号を含めて伝送する。

受信側では、時間的に連続する２つ以上のパケットの到着を待ってから、時間的に早い方のパケットを復号して、復号音声信号を得る。例えば、第Ｎフレームに対応する信号を得る場合、第Ｎ＋１パケットが到着するのを待ってから復号を行う。第Ｎパケット、第Ｎ＋１パケットを正常に受信した場合、第Ｎパケットに含まれる音声符号を復号することにより第Ｎフレームの音声信号を得る（図１（ｂ）参照）。一方、パケットロスした場合（第Ｎパケットがロスした状況で、第Ｎ＋１パケットを得た場合）、第Ｎ＋１パケットに含まれる補助情報符号を復号することにより、第Ｎフレームの音声信号を得ることができる（図１（ｃ）参照）。

特許文献１の方法では、復号対象となるパケットが到着しても、さらに１パケット以上到着するまで、復号を待たなければならず、アルゴリズム遅延が１パケット分以上増加する。従って、特許文献１の方法では、パケットロス隠蔽による音質向上は期待できるものの、アルゴリズム遅延が増加し、音声通話品質が低下する。

さらに、上記のようなパケットロス隠蔽技術をＣＥＬＰ（Code Excited Linear Prediction、符号励振線形予測）符号化に対して適用する際には、ＣＥＬＰの動作の特徴に起因する別の課題も生じる。ＣＥＬＰは、線形予測に基づく音声モデルであり、音声信号を高精度にかつ高い圧縮率で符号化できるため、多くの国際標準で用いられている。

ＣＥＬＰでは、全極型合成フィルタによって励振信号ｅ（ｎ）をフィルタリングすることにより合成される。すなわち、次式に従い音声信号ｓ（ｎ）を合成する。

ａ（ｉ）は線形予測係数（ＬＰ係数）であり、次数として例えばＰ＝１６などの値を用いる。

励振信号は、適応符号帳と呼ばれるバッファに蓄積される。あらたなフレームの音声を合成するに当たっては、ピッチラグと呼ばれる位置情報を元に、適応符号帳から読み出された適応符号帳ベクトルと、励振信号の時間変化を表す固定符号帳ベクトルを加算することにより、新たに励振信号を生成する。新たに生成された励振信号は、適応符号帳に蓄積されると同時に、全極型合成フィルタによりフィルタリングされ、復号信号が合成される。

ＣＥＬＰでは、全てのフレームについてＬＰ係数が算出される。ＬＰ係数を算出するに当たっては、１０ｍｓ程度の先読み信号が必要である。すなわち、符号化対象フレームに加えて、先読み信号もバッファに蓄積した上で、ＬＰ係数算出およびその後の処理を実施する（図２参照）。各フレームは４つ程度のサブフレームに分割され、サブフレーム単位で、上記ピッチラグ算出、適応符号帳ベクトル算出、固定符号帳ベクトル算出、適応符号帳更新といった処理を行う。上記サブフレーム単位の処理にあたっては、ＬＰ係数も補間処理を行うことにより、サブフレーム毎に異なる係数に変化させる。また、ＬＰ係数は量子化・補間処理の都合上、ＬＰ係数の等価表現であるＩＳＰ（Immittance Spectral Pair）パラメータ、ＩＳＦ（Immittance Spectral Frequency）パラメータに変換した上で符号化される。ＬＰ係数とＩＳＰパラメータ・ＩＳＦパラメータの相互変換の処理手順については、非特許文献２に記載されている。

ＣＥＬＰ符号化では、符号化側と復号側がそれぞれ適応符号帳をもち、それら適応符号帳が常に同期することを前提として符号化・復号を行う。パケットを正常に受信し、復号が正常に行われる状況では、符号化側の適応符号帳と復号側の適応符号帳は同期しているが、一度パケットロスが起こると、適応符号帳の同期を取ることができなくなる。

例えば、ピッチラグとして用いる値が、符号化側と復号側で異なれば、適応符号帳ベクトルは時間的にずれたものとなる。この適応符号帳ベクトルで適応符号帳の更新を行うため、次のフレームを正常に受信したとしても、符号化側で求まる適応符号帳ベクトルと、復号側で求まる適応符号帳ベクトルは一致せず、適応符号帳の同期が回復することはない。このような適応符号帳の不一致によって、パケットロスしたフレーム以降、数フレームに渡って音質劣化が生じる。

ＣＥＬＰ符号化におけるパケットロス隠蔽において、より高度な技術として特許文献２の手法がある。特許文献２では、パケットロスによる影響が大きい特定のフレームにおいて、ピッチラグや適応符号帳ゲインの代わりに、遷移モードコードブックのインデクスを伝送する。特許文献２では、パケットロスによる影響が大きいフレームとして、遷移フレーム（無音の音声セグメントから有音の音声セグメントへの遷移、あるいは２つの母音間の遷移）に着目している。この遷移フレームにおいて、遷移モードコードブックを用いた励振信号生成を行うことにより、過去の適応符号帳に非依存の励振信号を生成し、過去のパケットロスによる適応符号帳不一致から回復することができる。

特許文献２の方法は、例えば長めの母音が継続するフレームなどでは、遷移フレームコードブックを利用しないため、従来と同様、適応符号帳の不一致から回復することができない。さらに、遷移モードコードブックを含むパケットが失われた場合には、これまでと同様に、パケットロス以降のフレームにもロスの影響が残ってしまう。これは、遷移モードコードブックを含むパケットの次のパケットが失われた場合も同様である。

遷移フレームコードブックのような過去のフレームに依存しないコードブックを、全てのフレームに適応することもできるが、符号化の効率が著しく落ちるため、低ビットレート・高音質を達成できない。

特表２００３－５３３９１６号公報特表２０１０－５０７８１８号公報

ＩＴＵ－ＴＧ．７１１ＡｐｐｅｎｄｉｘＩ３ＧＰＰＴＳ２６－１９１３ＧＰＰＴＳ２６－１９０ＩＴＵ－ＴＧ．７１８

特許文献１の方法を用いると、復号対象のパケットが到着した後、後続のパケット到着を待ってから復号を開始する。そのため、パケットロス隠蔽による音質向上はあるものの、アルゴリズム遅延が増加し、通話品質が低下する。

ＣＥＬＰ符号化におけるパケットロス時に、符号化部・復号部間における適応符号帳の不一致が原因で、音声品質の劣化が生じる。特許文献２のような方法により、適応符号帳の不一致から回復することもできるが、遷移フレームの直前以外のフレームがロスした場合に十分な効果が得られない。

本発明は、上記課題の解決のためになされたものであり、音声符号化におけるパケットロスにおいて、アルゴリズム遅延を増加させずに音声品質を回復する音声符号化方法および音声符号化装置を提供することを目的とする。

上述の課題を解決するために、本発明の音声符号化方法は、音声信号を符号化する音声符号化装置による音声符号化方法であって、音声信号を符号化する音声符号化ステップと、先読み信号から、復号音声を合成するための音声パラメータの予測値を算出するための補助情報を算出して符号化する補助情報符号化ステップと、を含み、前記補助情報は、符号化対象フレームの線形予測係数から求められるＬＳＦ係数を用いて算出された先読み信号部分のＬＳＦ係数に基づいて、算出される。

また、前記補助情報は、先読み信号におけるピッチラグに関する。

また、本発明の音声符号化装置は、音声信号を符号化する音声符号化装置であって、音声信号を符号化する音声符号化部と、先読み信号から、復号音声を合成するための音声パラメータの予測値を算出するための補助情報を算出して符号化する補助情報符号化部と、を備え、前記補助情報は、符号化対象フレームの線形予測係数から求められるＬＳＦ係数を用いて算出された先読み信号部分のＬＳＦ係数に基づいて、算出される。

音声符号化におけるパケットロスにおいて、アルゴリズム遅延を増加させずに音声品質を回復することができる。特に、ＣＥＬＰ符号化において、パケットロス時におこる適応符号帳の劣化を低減し、パケットロス時の音声品質を改善することができる。

特許文献１に記載の先行発明におけるパケットと復号信号の時間的関係を示す図である。ＣＥＬＰ符号化におけるＬＰ分析対象信号と先読み信号の時間的関係を示す図である。本発明の実施形態におけるパケットと復号信号の時間的関係を示す図である。本発明の実施例１における音声信号送信装置の機能構成例を示す図である。本発明の実施例１における音声信号受信装置の機能構成例を示す図である。本発明の実施例１における音声信号送信装置の処理手順を示す図である。本発明の実施例１における音声信号受信装置の処理手順を示す図である。本発明の実施例１における補助情報符号化部の機能構成例を示す図である。本発明の実施例１における補助情報符号化部の処理手順を示す図である。本発明の実施例１におけるＬＰ係数算出部の処理手順を示す図である。本発明の実施例１におけるターゲット信号算出部の処理手順を示す図である。本発明の実施例１における音声パラメータ紛失処理部の機能構成例を示す図である。本発明の実施例１における音声パラメータ予測の処理手順を示す図である。本発明の実施例１の変形例１－１における励振ベクトル合成部の処理手順を示す図である。本発明の実施例１における音声合成部の機能構成図を示す図である。本発明の実施例１における音声合成部の処理手順を示す図である。本発明の実施例１の変形例１－２における補助情報符号化部（補助情報出力判定部を設けた場合）の機能構成例を示す図である。本発明の実施例１の変形例１－２における補助情報符号化部（補助情報出力判定部を設けた場合）の処理手順を示す図である。本発明の実施例１の変形例１－２における音声パラメータ予測の処理手順を示す図である。本発明の実施例２における音声信号送信装置の機能構成例を示す図である。本発明の実施例２における主要符号化部の機能構成例を示す図である。本発明の実施例２における音声信号送信装置の処理手順を示す図である。本発明の実施例２における音声信号受信装置の機能構成例を示す図である。本発明の実施例２における音声信号受信装置の処理手順を示す図である。本発明の実施例２における音声合成部の機能構成図を示す図である。本発明の実施例２における音声パラメータ復号部の機能構成例を示す図である。本発明の実施例３における補助情報符号化部の機能構成例を示す図である。本発明の実施例３における補助情報符号化部の処理手順を示す図である。本発明の実施例３におけるピッチラグ選定部の処理手順を示す図である。本発明の実施例３における補助情報復号部の処理手順を示す図である。本発明の実施形態に係る音声符号化プログラムの構成を記憶媒体と共に示す図である。本発明の実施形態に係る音声復号プログラムの構成を記憶媒体と共に示す図である。本発明の実施例４における補助情報符号化部の機能構成例を示す図である。本発明の実施例４における補助情報符号化部の処理手順を示す図である。本発明の実施例４におけるピッチラグ予測部の処理手順を示す図（その１）である。本発明の実施例４におけるピッチラグ予測部の処理手順を示す図（その２）である。本発明の実施例４におけるピッチラグ予測部の処理手順を示す図（その３）である。本発明の実施例４における適応符号帳算出部の処理手順を示す図である。本発明の実施例５における補助情報符号化部の機能構成例を示す図である。本発明の実施例５におけるピッチラグ符号化部の処理手順を示す図である。本発明の実施例５における補助情報復号部の処理手順を示す図である。本発明の実施例５におけるピッチラグ予測部の処理手順を示す図である。本発明の実施例５における適応符号帳算出部の処理手順を示す図である。

添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。

本発明の実施形態は、符号化器側で算出した補助情報を符号化して伝送し、復号側でのパケットロス隠蔽に利用する「補助情報を用いるパケットロス隠蔽技術」を実現する符号化器、および復号器である。

本発明の実施形態では、パケットロス隠蔽に用いる補助情報は１つ前のパケットに含める。パケットに含まれる音声符号と補助情報符号の時間的関係を図３に示す。図３からも明らかなように、本発明の実施形態における補助情報は、ＣＥＬＰ符号化における先読み信号について求めたパラメータである（ピッチラグ，適応符号帳ゲイン等）。

補助情報符号を１つ前のパケットに含めたことにより、復号対象のパケットよりも後続のパケットを待つことなく、復号を行うことができる。パケットロスを検出した際も、隠蔽対象となるフレームに関する補助情報が、直前のパケットにおいて得られているので、後続のパケットを待つことなく、高精度なパケットロス隠蔽を実現することができる。

また、補助情報として先読み信号におけるＣＥＬＰ符号化のパラメータを伝送することにより、パケットがロスしても適応符号帳の不一致を軽減することができる。

本発明の実施形態は、音声信号送信装置（音声符号化装置）、音声信号受信装置（音声復号装置）からなる。音声信号送信装置の機能構成例を図４に示し、処理手順を図６に示す。また、音声信号受信装置の機能構成例を図５に示し、処理手順を図７に示す。

音声信号送信装置は、図４に示す通り、音声符号化部１１１、補助情報符号化部１１２からなる。音声信号受信装置は、図５に示す通り、音声符号バッファ１２１、音声パラメータ復号部１２２、音声パラメータ紛失処理部１２３、音声合成部１２４、補助情報復号部１２５、補助情報蓄積部１２６からなる。

音声信号送信装置は、図６に示す処理手順により、音声信号をフレーム毎に符号化して伝送する。

音声符号化部１１１は、符号化対象フレームに対して音声パラメータを算出して、音声符号を出力する（図６ステップＳ１３１）。

補助情報符号化部１１２は、先読み信号に対して音声パラメータを算出して、補助情報符号を出力する（図６ステップＳ１３２）。

音声信号が終了したか否かを判定し、音声信号が終了するまで上記を繰り返す（図６ステップＳ１３３）。

音声信号受信装置は、図７に示す処理手順により、到着する音声パケットを復号して音声信号を出力する。

音声符号バッファ１２１は、音声パケットの到着を待って、音声符号を蓄積する。音声パケットが正常に到着した場合は、処理を音声パラメータ復号部１２２に切替える。一方、音声パケットが正常に到着しない場合は、処理を音声パラメータ紛失処理部１２３に切り替える（図７ステップＳ１４１）。

＜音声パケットを正常に受信した場合＞

音声パラメータ復号部１２２は、音声符号を復号して音声パラメータを出力する（図７ステップＳ１４２）。

補助情報復号部１２５は、補助情報符号を復号して、補助情報を出力する。出力した補助情報は、補助情報蓄積部１２６に送られる（図７ステップＳ１４３）。

音声合成部１２４は、音声パラメータ復号部１２２が出力した音声パラメータから音声信号を合成して出力する（図７ステップＳ１４４）。

音声パラメータ紛失処理部１２３は、音声パラメータ復号部１２２が出力した音声パラメータを、パケットロス時に備えて蓄積する（図７ステップＳ１４５）。

音声符号バッファ１２１は、音声パケットの送信が終了したかどうかを判断し、音声パケットの送信が終了した場合は処理を停止する。音声パケットの送信が継続する間は、上記ステップＳ１４１－Ｓ１４６を繰り返す（図７ステップＳ１４７）。

＜音声パケットがロスした場合＞
音声パラメータ紛失処理部１２３は、補助情報蓄積部１２６から補助情報を読み出し、補助情報に含まれないパラメータについては予測を行うことで、音声パラメータを出力する（図７ステップＳ１４６）。

音声合成部１２４は、音声パラメータ紛失処理部１２３が出力した音声パラメータから音声信号を合成して出力する（図７ステップＳ１４４）。

音声パラメータ紛失処理部１２３は、音声パラメータ紛失処理部１２３が出力した音声パラメータを、パケットロス時に備えて蓄積する（図７ステップＳ１４５）。

［実施例１］
本実施例では、補助情報としてピッチラグを伝送し、復号側ではパケットロス隠蔽信号の生成に用いる例について記載する。

音声信号送信装置の機能構成例を図４に、音声信号受信装置の機能構成例を図５にそれぞれ示し、音声信号送信装置の処理手順を図６に、音声信号受信装置の処理手順を図７にそれぞれ示す。

＜送信側＞
音声信号送信装置において、入力音声信号は、音声符号化部１１１に送られる。

音声符号化部１１１は、符号化対象フレームを、ＣＥＬＰ符号化により符号化する（図６ステップ１３１）。ＣＥＬＰ符号化の詳細については、例えば非特許文献３に記載の方法を用いる。ＣＥＬＰ符号化の処理手順の詳細については省略する。なお、ＣＥＬＰ符号化では符号化側でローカルデコードが行われる。ローカルデコードとは、符号化側でも音声符号を復号して、音声合成に必要なパラメータ（ＩＳＰパラメータおよび対応するＩＳＦパラメータ、ピッチラグ、長期予測パラメータ、適応符号帳、適応符号帳ゲイン、固定符号帳ゲイン、固定符号帳ベクトル等）を得ることである。ローカルデコードにより得られたパラメータのうち、少なくともＩＳＰパラメータおよびＩＳＦパラメータのいずれか又は両方、ピッチラグ、適応符号帳が、補助情報符号化部１１２に送られる。音声符号化部１１１として、非特許文献４のような音声符号化を用いる場合には、さらに符号化対象フレームの性質を表すインデクスを送ってもよい。また、音声符号化部１１１としてＣＥＬＰ符号化以外の符号化を用いることもできる。この場合、入力信号あるいはローカルデコードにより得られた復号信号から、少なくともＩＳＰパラメータおよびＩＳＦパラメータのいずれか又は両方、ピッチラグ、適応符号帳を別途算出し、補助情報符号化部１１２に伝送する。
補助情報符号化部１１２は、音声符号化部１１１で算出したパラメータと先読み信号を用いて補助情報符号を算出する（図６ステップ１３２）。補助情報符号化部１１２は、図８に示す通り、ＬＰ係数算出部１５１、ターゲット信号算出部１５２、ピッチラグ算出部１５３、適応符号帳算出部１５４、励振ベクトル合成部１５５、適応符号帳バッファ１５６、合成フィルタ１５７、ピッチラグ符号化部１５８からなる。補助情報符号化部の処理手順を図９に示す。

ＬＰ係数算出部１５１は、音声符号化部１１１で算出したＩＳＦパラメータと、過去数フレームにおいて算出したＩＳＦパラメータを用いてＬＰ係数を算出する（図９ステップ１６１）。ＬＰ係数算出部１５１の処理手順を図１０に示す。

最初に、音声符号化部１１１から得たＩＳＦパラメータを用いてバッファを更新する（図１０ステップ１７１）。次に、先読み信号におけるＩＳＦパラメータ

を算出する。ＩＳＦパラメータ

は次式により算出する（図１０ステップ１７２）。

ここで、

はバッファに格納されたｊフレーム前のＩＳＦパラメータである。
また、

は事前に学習等で求めた発話区間でのＩＳＦパラメータである。βは定数であり、例えば０．７５のような値とすることができるが、これには限られない。また、αも定数であり、０．９のような値とすることができるが、これに限定されない。

は、例えば非特許文献４記載のＩＳＦコンシールメントのように、符号化対象フレームの性質を表すインデクスにより変化させてもよい。

次に、

が

を満たすようｉの値を並び替え、隣り合う

同士が接近しすぎないよう調整する。

の値を調整する手順には、例えば非特許文献４（式１５１）を用いることができる（図１０ステップ１７３）。

次に、ＩＳＦパラメータ

をＩＳＰパラメータに変換した上で、サブフレーム毎に補間する。ＩＳＦパラメータからＩＳＰパラメータを算出する方法として非特許文献４の６．４．４節記載の方法を、補間の方法としては、非特許文献４の６．８．３節に記載の処理手順を用いることができる（図１０ステップ１７４）。

次にサブフレーム毎のＩＳＰパラメータをＬＰ係数

に変換する。ここで、先読み信号に含まれるサブフレームの数をＭ_ｌａとした。ＩＳＰパラメータからＬＰ係数への変換には、非特許文献４の６．４．５節に記載の処理手順を用いることができる（図１０ステップ１７５）。

ターゲット信号算出部１５２は、ＬＰ係数

を用いて、ターゲット信号ｘ（ｎ）およびインパルス応答ｈ（ｎ）を算出する（図９ステップ１６２）。非特許文献４の６．８．４．１．３節に記載の通り、ターゲット信号は線形予測残差信号を聴覚重み付けフィルタに通すことにより得られる（図１１）。

まず、ＬＰ係数を用いて先読み信号

の残差信号ｒ（ｎ）を次式に従い算出する（図１１ステップ１８１）。

ただし、Ｌ’はサブフレームのサンプル数を表し、Ｌは符号化対象フレームｓ_ｐｒｅ（ｎ）（０≦ｎ＜Ｌ）のサンプル数を表す。このとき、

である。

次に、ターゲット信号ｘ（ｎ）（０≦ｎ＜Ｌ’）を次式に従い算出する（図１１ステップ１８２）。

ここで、聴覚重み付けフィルタγ＝０．６８である。聴覚重み付けフィルタの値は、音声符号化の設計方針により別の値としてもよい。

次に、次式に従いインパルス応答ｈ（ｎ）（０≦ｎ＜Ｌ’）を算出する（図１１ステップ１８３）。

ピッチラグ算出部１５３は、次式を最大化するｋを求めることにより、サブフレーム毎にピッチラグを算出する（図９ステップ１６３）。ここで、演算量削減のために、上記ターゲット信号算出（図１１ステップ１８２）およびインパルス応答算出（図１１ステップ１８３）を省略して、残差信号そのものをターゲット信号として用いてもよい。
Ｔ_ｐ＝ａｒｇｍａｘＴ_ｋ

なお、ｙ_ｋ（ｎ）は線形予測残差にインパルス応答を畳み込むことにより得られる。ここで、Ｉｎｔ（ｉ）は補間フィルタを表す。補間フィルタの詳細は非特許文献４の６．８．４．１．４．１節に記載の通りである。当然、補間にフィルタを用いず、ｖ’（ｎ）＝ｕ（ｎ＋Ｎ_{ａｄａｐｔ}－Ｔ_ｐ＋ｉ）としてもよい。

上記、算出方法により、ピッチラグは整数値で求まるが、上記Ｔ_ｋを補間することにより、ピッチラグの精度を小数点以下まで上げた場合についても求めることができる。補間により小数点以下のピッチラグを求める処理手順の詳細については、非特許文献４の６．８．４．１．４．１節に記載の処理方法を利用できる。

適応符号帳算出部１５４はピッチラグＴ_ｐ、適応符号帳バッファ１５６に格納された適応符号帳ｕ（ｎ）から、次式に従い適応符号帳ベクトルｖ’（ｎ）および長期予測パラメータを算出する（図９ステップ１６４）。

長期パラメータ算出の詳細な処理手順として非特許文献３の５．７節に記載の方法を用いることができる。

励振ベクトル合成部１５５は、適応符号帳ベクトルｖ’（ｎ）に事前に定めた適応符号帳ゲイン

を乗算して、次式に従い励振信号ベクトルを出力する（図９ステップ１６５）。

適応符号帳ゲイン

の値には、例えば１．０などを用いるが、事前の学習により求めた値を用いてもよいし、符号化対象フレームの性質を表すインデクスにより変化させてもよい。

次に、以下の式に従い、励振信号ベクトルにより、適応符号帳バッファ１５６に格納された適応符号帳ｕ（ｎ）の状態を更新する（図９ステップ１６６）。
ｕ（ｎ）＝ｕ（ｎ＋Ｌ）（０≦ｎ＜Ｎ－Ｌ）
ｕ（ｎ＋Ｎ－Ｌ）＝ｅ（ｎ）（０≦ｎ＜Ｌ）

合成フィルタ１５７は、励振信号ベクトルを励振源とする、線形予測逆フィルタリングにより、次式に従い復号信号を合成する（図９ステップ１６７）。

上記図９ステップ１６２～ステップ１６７を先読み信号終了まで、サブフレーム毎に繰り返す（図９ステップ１６８）。

ピッチラグ符号化部１５８は、先読み信号において算出したピッチラグ

を符号化する（図９のステップ１６９）。ここで、先読み信号に含まれるサブフレームの数をＭ_ｌａとした。

符号化の方法としては、例えば以下が考えられるが、符号化の方法には何を用いても良い。
１．ピッチラグ

の一部あるいは全部をバイナリ符号化あるいはスカラ量子化あるいはベクトル量子化あるいは算術符号化して伝送する方法。
２．直前サブフレームのピッチラグとの差分

の一部あるいは全部をバイナリ符号化あるいはスカラ量子化あるいはベクトル量子化あるいは算術符号化して伝送する方法。ただし、

は符号化対象フレームにおける最後のサブフレームのピッチラグである。
３．ピッチラグ

の一部あるいは全部と、符号化対象フレームで算出したピッチラグの一部または全部をまとめてベクトル量子化あるいは算術符号化して伝送する方法。
４．ピッチラグ

の一部あるいは全部を手がかりに、事前に定めた補間手法のうちの１つを選択し、その補間手法のインデクスを伝送する方法。この時、過去に音声の合成に用いた複数のサブフレームのピッチラグを、併せて補間手法の選択に用いてもよい。

スカラ量子化およびベクトル量子化には、経験的に定めたコードブックや、学習により事前に算出したコードブックを用いることができる。また、上記ピッチラグにオフセットの値を加算した上で符号化する方法も当然、本発明の実施形態の思想に含まれる。

＜復号側＞
図５に示す通り、音声信号受信装置は、音声符号バッファ１２１、音声パラメータ復号部１２２、音声パラメータ紛失処理部１２３、音声合成部１２４、補助情報復号部１２５、補助情報蓄積部１２６からなる。音声信号受信装置の処理手順は図７に示す通りである。

音声符号バッファ１２１は、パケットを正常に受信したか否かを判断し、パケットを正常に受信したと判断した場合には、音声パラメータ復号部１２２および補助情報復号部１２５に処理を切替え、パケットを正常に受信できなかったと判断した場合には、音声パラメータ紛失処理部１２３に処理を切り替える（図７ステップ１４１）。

＜正常にパケットを受信した場合＞
音声パラメータ復号部１２２は、受信した音声符号を復号し、符号化対象フレームに関する音声を合成するのに必要な音声パラメータ（ＩＳＰパラメータおよび対応するＩＳＦパラメータ、ピッチラグ、長期予測パラメータ、適応符号帳、適応符号帳ゲイン、固定符号帳ゲイン、固定符号帳ベクトル等）を算出する（図７ステップ１４２）。

補助情報復号部１２５は、補助情報符号を復号してピッチラグ

を算出し、補助情報蓄積部１２６に格納する。補助情報復号部１２５では、符号化側で用いた符号化方法に対応する復号方法を用いて、補助情報符号を復号する（図７ステップ１４３）。

音声合成部１２４は、音声パラメータ復号部１２２が出力したパラメータから符号化対象フレームに対応する音声信号を合成する（図７ステップ１４４）。音声合成部１２４の機能構成例を図１５に示し、処理手順を図１６に示す。なお、信号の流れを示すために音声パラメータ紛失処理部１２３を記載しているが、音声パラメータ紛失処理部１２３は音声合成部１２４の機能構成には含まれない。

ＬＰ係数算出部１１２１は、ＩＳＦパラメータをＩＳＰパラメータに変換した上で、補間処理を実施して、サブフレーム毎のＩＳＰ係数を得る。次にＩＳＰ係数を線形予測係数（ＬＰ係数）に変換し、サブフレーム毎のＬＰ係数を得る（図１６ステップ１１３０１）。ＩＳＰ係数の補間処理、およびＩＳＰ－ＬＰ係数については、例えば非特許文献４の６．４．５節に記載の方法を用いることができる。これらパラメータ変換処理の手順は本発明の実施形態の本質ではないため、詳細については省略する。

適応符号帳算出部１１２３は、ピッチラグおよび長期予測パラメータと、適応符号帳１１２２を用いて適応符号帳ベクトルを算出する（図１６ステップ１１３０２）。ピッチラグ

、適応符号帳ｕ（ｎ）から、次式に従い、適応符号帳ベクトルｖ’（ｎ）を算出する。

適応符号帳ベクトルは、適応符号帳ｕ（ｎ）をＦＩＲフィルタＩｎｔ（ｉ）により補間することで算出する。ここで、適応符号帳の長さをＮ_{ａｄａｐｔ}とした。補間に用いるフィルタＩｎｔ（ｉ）は、（数２７）の補間フィルタと同じである。事前に定めた長さ２ｌ＋１のＦＩＲフィルタである。Ｌ’はサブフレームのサンプル数である。エンコーダ側と同様、補間にフィルタを用いなくてもよい。

適応符号帳算出部１１２３は、長期予測パラメータの値に応じて、上記、適応符号帳ベクトルに対してフィルタリングを行う（図１６ステップ１１３０３）。長期予測パラメータがフィルタリングを指示する値をとる場合は、以下の式により適応符号帳ベクトルにフィルタリングを行う。
ｖ’（ｎ）＝０．１８ｖ’（ｎ－１）＋０．６４ｖ’（ｎ）＋０．１８ｖ’（ｎ＋１）

一方、長期予測パラメータがフィルタリングを指示しない値をとる場合は、フィルタリングを行わず、ｖ（ｎ）＝ｖ’（ｎ）とする。

励振ベクトル合成部１１２４は、適応符号帳ベクトルに適応符号帳ゲインｇ_ｐを乗算する（図１６ステップ１１３０４）。さらに、励振ベクトル合成部１１２４は、固定符号帳ベクトルｃ（ｎ）に固定符号帳ゲインｇ_ｃを乗算する（図１６ステップ１１３０５）。さらに、励振ベクトル合成部１１２４は、適応符号帳ベクトルと固定符号帳ベクトルを加算して、励振信号ベクトルを出力する（図１６ステップ１１３０６）。
ｅ（ｎ）＝ｇ_ｐ・ｖ’（ｎ）＋ｇ_ｃ・ｃ（ｎ）

ポストフィルタ１１２５は、励振信号ベクトルに対して、例えば、ピッチ強調、ノイズ強調、低域強調といった後処理を加える。ピッチ強調、ノイズ強調、低域強調と言った技術の詳細は、非特許文献３の６．１節に記載の通りである。ポストフィルタにおける処理は、本発明の実施形態の本質との関係が薄いので、詳細を省略する（図１６ステップ１１３０７）。

適応符号帳１１２２は、以下の式に従い、励振信号ベクトルにより状態を更新する（図１６ステップ１１３０８）。
ｕ（ｎ）＝ｕ（ｎ＋Ｌ）（０≦ｎ＜Ｎ－Ｌ）
ｕ（ｎ＋Ｎ－Ｌ）＝ｅ（ｎ）（０≦ｎ＜Ｌ）

合成フィルタ１１２６は、励振信号ベクトルを励振源とする、線形予測逆フィルタリングにより、次式に従い、復号信号を合成する（図１６ステップ１１３０９）。

聴覚重み逆フィルタ１１２７は、復号信号に対して、次式に従い聴覚重み逆フィルタを適用する（図１６ステップ１１３１０）。

βの値としては典型的には０．６８等を用いるが、この値に限定されない。

音声パラメータ紛失処理部１２３は、音声合成部１２４で用いた音声パラメータ（ＩＳＦパラメータ、ピッチラグ、適応符号帳ゲイン、固定符号帳ゲイン）をバッファに格納する（図７ステップ１４５）。

＜パケットロスを検出した場合＞
音声パラメータ紛失処理部１２３は、補助情報蓄積部１２６からピッチラグ

を読み出し、音声パラメータを予測する。音声パラメータ紛失処理部１２３の機能構成例を図１２に示し、音声パラメータ予測の処理手順を図１３に示す。

ＩＳＦ予測部１９１は、直前フレームに関するＩＳＦパラメータと、過去数フレームにおいて算出したＩＳＦパラメータを用いてＩＳＦパラメータを算出する（図１３ステップ１１０１）。ＩＳＦ予測部１９１の処理手順を図１０に示す。

最初に、直前フレームのＩＳＦパラメータを用いてバッファを更新する（図１０ステップ１７１）。次に、以下の式に従いＩＳＦパラメータ

を算出する（図１０ステップ１７２）。

ここで、

はバッファに格納されたｊフレーム前のＩＳＦパラメータである。また、

，α，βは、符号化側で用いた値と同様である。

次に、

が

を満たすようｉの値を並び替え、隣り合う

同士が接近しすぎないよう調整する。

の値を調整手順には、例えば非特許文献４（式１５１）を用いることができる（図１０ステップ１７３）。

ピッチラグ予測部１９２は、補助情報蓄積部１２６から補助情報符号を復号してピッチラグ

を得る。さらに、過去に復号に用いたピッチラグ

を用いて、ピッチラグ

を出力する。ここで、１フレームに含まれるサブフレームの数はＭ、補助情報に含まれるピッチラグの数をＭ_ｌａである。ピッチラグ

の予測に当たっては、例えば非特許文献４の７．１１．１．３節に記載の処理手順を用いることができる（図１３ステップ１１０２）。

適応符号帳ゲイン予測部１９３は、事前に定めた適応符号帳ゲイン

と、過去に復号に用いた適応符号帳ゲイン

を用いて、適応符号帳ゲイン

を出力する。ここで、１フレームに含まれるサブフレームの数はＭ、補助情報に含まれるピッチラグの数をＭ_ｌａである。適応符号帳ゲイン

の予測に当たっては、例えば、非特許文献４の７．１１．２．５．３節記載の処理手順を用いることができる（図１３ステップ１１０３）。

固定符号帳ゲイン予測部１９４は、過去に復号に用いた固定符号帳ゲイン

を用いて、固定符号帳ゲイン

を出力する。ここで、１フレームに含まれるサブフレームの数はＭである。固定符号帳ゲイン

の予測に当たっては、例えば、非特許文献４の７．１１．２．６節に記載の処理手順を用いることができる（図１３ステップ１１０４）。

雑音信号生成部１９５は、長さＬの白色雑音を出力する（図１３ステップ１１０５）。ここで、１フレームの長さをＬとした。

音声合成部１２４は、音声パラメータ紛失処理部１２３が出力した音声パラメータから復号信号を合成する（図７ステップ１４４）。音声合成部１２４の動作は、＜音声パケットを正常に受信した場合＞の音声合成部の動作と同様であるので、詳細を省略する（図７ステップ１４４）。

上記実施例では、先読み信号に含まれる全てのサブフレームに関する補助情報を符号化して伝送する例を述べたが、特定のサブフレームに関する補助情報のみを伝送する構成としてもよい。

［変形例１－１］
実施例１の変形例として、ピッチゲインを補助情報に追加する例を示す。変形例１－１と実施例１との差分は、励振ベクトル合成部１５５の動作のみであるので、その他の部分について説明を省略する。

＜符号化側＞
励振ベクトル合成部１５５の処理手順を図１４に示す。

適応符号帳ベクトルｖ’（ｎ）とターゲット信号ｘ（ｎ）から、適応符号帳ゲイン

を次式に従い算出する（図１４ステップ１１１１）。

但し、ｙ（ｎ）は適応符号帳ベクトルにインパルス応答を畳み込んで得られる信号ｙ（ｎ）＝ｖ（ｎ）＊ｈ（ｎ）である。

算出した適応符号帳ゲインを符号化し、補助情報符号に含める（図１４ステップ１１１２）。符号化には、事前に学習により求めたコードブックを用いたスカラ量子化を用いることができるが、符号化の手法そのものには何を用いてもよい。

適応符号帳ゲインの符号化において求めた符号を、復号して得られる適応符号帳ゲイン

を適応符号帳ベクトルに乗算することにより次式に従い、励振ベクトルを算出する（図１４ステップ１１１３）。

＜復号側＞
励振ベクトル合成部１５５は、適応符号帳ベクトルｖ’（ｎ）に補助情報符号を復号することにより得られる適応符号帳ゲイン

を乗算して、次式により励振信号ベクトルを出力する（図９ステップ１６５）。

［変形例１－２］
実施例１の変形例として、補助情報の利用判断のためのフラグを補助情報に追加する例を示す。

＜符号化側＞
補助情報符号化部の機能構成例を図１７に、補助情報符号化部の処理手順を図１８に示す。実施例１との差分は、補助情報出力判定部１１２８（図１８ステップ１１３１）のみであるので、その他の部分について説明を省略する。

補助情報出力判定部１１２８は、次式に従い復号信号と先読み信号のｓｅｇｍｅｎｔａｌＳＮＲを算出し、ｓｅｇｍｅｎｔａｌＳＮＲが閾値を越えるときのみフラグの値をオンにセットして補助情報に含める。

一方、ｓｅｇｍｅｎｔａｌＳＮＲが閾値を越えないときは、フラグの値をオフにして補助情報に含める（図１８ステップ１１３１）。なお、フラグの値がオンのときのみ、ピッチラグやピッチゲインなどの補助情報をフラグに付加して伝送し、フラグの値がオフのときはフラグの値のみ伝送することにより補助情報のビット量を削減してもよい。

＜復号側＞
補助情報復号部は、補助情報符号に含まれるフラグを復号する。音声パラメータ紛失処理部は、フラグの値がオンの場合は、実施例１と同様の処理手順により復号信号を算出する。一方、フラグの値がオフの場合は、補助情報を用いないパケットロス隠蔽手法により復号信号を算出する（図１９ステップ１１５１）。

［実施例２］
本実施例では、先読み信号部分の復号音声を正常受信時にも利用する例について述べる。説明を容易にするため、１フレームに含まれるサブフレームの数をＭサブフレーム、先読み信号の長さをＭ’サブフレームとする。

＜符号化側＞
音声信号送信装置は、図２０に示す通り、主要符号化部２１１、補助情報符号化部２１２、隠蔽信号蓄積部２１３、誤差信号符号化部２１４からなる。音声信号送信装置の処理手順を図２２に示す。

誤差信号符号化部２１４は、隠蔽信号蓄積部２１３から１サブフレーム分の隠蔽信号を読み出し、音声信号から減算して、誤差信号を算出する（図２２ステップ２２１）。

誤差信号符号化部２１４は誤差信号を符号化する。具体的な処理手順として非特許文献４の６．８．４．１．５節に記載のＡＶＱ等を利用する。誤差信号の符号化にあたって、ローカルデコードを行い、復号誤差信号を出力する（図２２ステップ２２２）。

復号誤差信号を隠蔽信号に加算することにより、１サブフレーム分の復号信号を出力する（図２２ステップ２２３）。

上記、ステップ２２１～２２３を隠蔽信号終了までＭ’サブフレーム分繰り返す。

主要符号化部２１１の機能構成を図２１に示す。主要符号化部２１１は、ＩＳＦ符号化部２０１１、ターゲット信号算出部２０１２、ピッチラグ算出部２０１３、適応符号帳算出部２０１４、固定符号帳算出部２０１５、ゲイン算出部２０１６、励振ベクトル算出部２０１７、合成フィルタ２０１８、適応符号帳バッファ２０１９からなる。

ＩＳＦ符号化部２０１１は、符号化対象フレームおよび先読み信号に対してレビンソンダービン法を適用してＬＰ係数を得る。次にＬＰ係数をＩＳＦパラメータに変換して符号化する。次に符号を復号して復号ＩＳＦパラメータを得る。最後に復号ＩＳＦパラメータを補間したうえで、サブフレーム毎の復号ＬＰ係数を得る。レビンソンダービン法、ＬＰ係数からのＩＳＦパラメータ変換の処理手順は実施例１と同様である。また、ＩＳＦパラメータの符号化には、例えば非特許文献４の６．８．２節に記載の処理手順を用いる。ＩＳＦ符号化部２０１１により、ＩＳＦパラメータを符号化したインデクス、復号ＩＳＦパラメータ、および復号ＩＳＦパラメータをＬＰ係数に変換して得られる復号ＬＰ係数が得られる（図２２ステップ２２４）。

ターゲット信号算出部２０１２の詳細な処理手順は実施例１の図９ステップ１６２と同様である（図２２ステップ２２５）。

ピッチラグ算出部２０１３は、適応符号帳バッファを参照して、ターゲット信号を用いてピッチラグ、および長期予測パラメータを算出する。ピッチラグ、および長期予測パラメータ算出の詳細な処理手順は実施例１と同様である（図２２ステップ２２６）。

適応符号帳算出部２０１４は、ピッチラグ算出部２０１３で求めたピッチラグおよび長期予測パラメータを用いて適応符号帳ベクトルを算出する。適応符号帳算出部２０１４の詳細な処理手順は、実施例１と同様である（図２２ステップ２２７）。

固定符号帳算出部２０１５は、ターゲット信号および適応符号帳ベクトルを用いて、固定符号帳ベクトルおよび固定符号帳ベクトルを符号化して得られるインデクスを算出する。詳細な手順は誤差信号符号化部２１４で用いたＡＶＱの処理手順と同様である（図２２ステップ２２８）。

ゲイン算出部２０１６は、ターゲット信号、適応符号帳ベクトル、固定符号帳ベクトルを用いて、適応符号帳ゲイン、固定符号帳ゲイン、およびこれら２つのゲインを符号化して得られるインデクスを算出する。詳細な処理手順として非特許文献４の６．８．４．１．６節に記載の処理手順を利用できる（図２２ステップ２２９）。

励振ベクトル算出部２０１７は、ゲインを適用した適応符号帳ベクトルおよび固定符号帳ベクトルを加算して励振ベクトルを算出する。詳細な処理手順は実施例１と同様である。さらに励振ベクトル算出部２０１７は、励振ベクトルを用いて適応符号帳バッファ２０１９の状態を更新する。詳細な処理手順は実施例１と同様である（図２２ステップ２２１０）。

合成フィルタ２０１８は、復号ＬＰ係数および励振ベクトルを用いて復号信号を合成する（図２２ステップ２２１１）。

上記、ステップ２２４～２２１１を符号化対象フレーム終了までＭ－Ｍ’サブフレーム分繰り返す。

補助情報符号化部２１２は先読み信号Ｍ’サブフレームに対して、補助情報を算出する。具体的な処理手順は実施例１と同様である（図２２ステップ２２１２）。

実施例１の手順に加えて、実施例２では、補助情報符号化部２１２の合成フィルタ１５７が出力する復号信号を隠蔽信号蓄積部２１３に蓄積する（図２２ステップ２２１３）。

＜復号部＞
図２３に示す通り、音声信号受信装置は、音声符号バッファ２３１、音声パラメータ復号部２３２、音声パラメータ紛失処理部２３３、音声合成部２３４、補助情報復号部２３５、補助情報蓄積部２３６、誤差信号復号部２３７、隠蔽信号蓄積部２３８からなる。音声信号受信装置の処理手順を図２４に示す。音声合成部２３４の機能構成を図２５に示す。

音声符号バッファ２３１は、パケットを正常に受信したか否かを判断し、パケットを正常に受信したと判断した場合には、音声パラメータ復号部２３２、補助情報復号部２３５、誤差信号復号部２３７に処理を切替え、パケットを正常に受信できなかったと判断した場合には、音声パラメータ紛失処理部２３３に処理を切り替える（図２４ステップ２４１）。

＜正常にパケットを受信した場合＞
誤差信号復号部２３７は誤差信号符合を復号して復号誤差信号を得る。具体的な処理手順として非特許文献４の７．１．２．１．２節に記載のＡＶＱ等、符号化側で用いた方法に対応した復号方法を用いる（図２４ステップ２４２）。

先読み励振ベクトル合成部２３１８は、隠蔽信号蓄積部２３８から１サブフレーム分の隠蔽信号を読み出し、復号誤差信号に加算することにより、１サブフレーム分の復号信号を出力する（図２４ステップ２４３）。

上記、ステップ２４１～２４３を隠蔽信号終了までＭ’サブフレーム分繰り返す。

音声パラメータ復号部２３２は、ＩＳＦ復号部２２１１、ピッチラグ復号部２２１２、ゲイン復号部２２１３、固定符号帳復号部２２１４からなる。音声パラメータ復号部２３２の機能構成例を図２６に示す。

ＩＳＦ復号部２２１１は、ＩＳＦ符号を復号し、ＬＰ係数に変換することにより復号ＬＰ係数を得る。例えば非特許文献４の７．１．１節に記載の処理手順を用いる（図２４ステップ２４４）。

ピッチラグ復号部２２１２は、ピッチラグ符号を復号してピッチラグおよび長期予測パラメータを得る（図２４ステップ２４５）。

ゲイン復号部２２１３は、ゲイン符号を復号して適応符号帳ゲイン、固定符号帳ゲインを得る。詳細な処理手順は非特許文献４の７．１．２．１．３節に記載の通りである（図２４ステップ２４６）。

適応符号帳算出部２３１３は、ピッチラグおよび長期予測パラメータを用いて適応符号帳ベクトルを算出する。適応符号帳算出部２３１３の詳細な処理手順は、実施例１に記載の通りである（図２４ステップ２４７）。

固定符号帳復号部２２１４は、固定符号帳符号を復号して、固定符号帳ベクトルを算出する。詳細な手順は非特許文献４の７．１．２．１．２節に記載の通りである（図２４ステップ２４８）。

励振ベクトル合成部２３１４は、ゲインを適用した適応符号帳ベクトルおよび固定符号帳ベクトルを加算して励振ベクトルを算出する。さらに励振ベクトル算出部は、励振ベクトルを用いて適応符号帳バッファを更新する（図２４ステップ２４９）。詳細な処理手順は実施例１と同様である。

合成フィルタ２３１６は、復号ＬＰ係数および励振ベクトルを用いて復号信号を合成する（図２４ステップ２４１０）。詳細な処理手順は実施例１と同様である。

上記、ステップ２４４～２４１０を符号化対象フレーム終了までＭ－Ｍ’サブフレーム分繰り返す。

補助情報復号部２３５の機能構成は実施例１と同様である。補助情報復号部２３５は、補助情報符号を復号してピッチラグを算出する（図２４ステップ２４１１）。
音声パラメータ紛失処理部２３３の機能構成は実施例１と同様である。

ＩＳＦ予測部１９１は、直前フレームのＩＳＦパラメータを用いてＩＳＦパラメータを予測し、ＬＰ係数に変換する。処理手順は実施例１の図１０のステップ１７２、１７３、１７４と同様である（図２４ステップ２４１２）。

適応符号帳算出部２３１３は、補助情報復号部２３５が出力したピッチラグと、適応符号帳２３１２を用いて適応符号帳ベクトルを算出する（図２４ステップ２４１３）。処理手順は図１６ステップ１１３０１、１１３０２と同様である。

適応符号帳ゲイン予測部１９３は、適応符号帳ゲインを出力する。具体的な処理手順は図１３ステップ１１０３と同様である（図２４ステップ２４１４）。

固定符号帳ゲイン予測部１９４は、固定符号帳ゲインを出力する。具体的な処理手順は図１３ステップ１１０４と同様である（図２４ステップ２４１５）。

雑音信号生成部１９５は、白色雑音を出力し、固定符号帳ベクトルとする。処理手中は図１３ステップ１１０５と同様である（図２４ステップ２４１６）。

励振ベクトル合成部２３１４は、適応符号帳ベクトルおよび固定符号帳ベクトルに各々ゲインを適用した上で加算し、励振ベクトルを算出する。また励振ベクトルにより適応符号帳バッファを更新する（図２４ステップ２４１７）。

合成フィルタ２３１６は、上記ＬＰ係数と励振ベクトルを用いて復号信号を算出する。算出した復号信号で隠蔽信号蓄積部２３８を更新する（図２４ステップ２４１８）。

上記ステップをＭ’サブフレーム分繰り返し、復号信号を音声信号として出力する。

＜パケットをロスした場合＞
隠蔽信号蓄積部から１サブフレーム分の隠蔽信号を読み出し、復号信号とする（図２４ステップ２４１９）。

上記をＭ’サブフレーム分繰り返す。

ＩＳＦ予測部１９１は、ＩＳＦパラメータを予測する（図２４ステップ２４２０）。処理手順として、図１３ステップ１１０１を用いる。

ピッチラグ予測部１９２は、過去に復号に用いたピッチラグを用いて予測ピッチラグを出力する（図２４ステップ２４２１）。予測に用いる処理手順は、実施例１の図１３ステップ１１０２と同様である。

適応符号帳ゲイン予測部１９３、固定符号帳ゲイン予測部１９４、雑音信号生成部１９５、音声合成部２３４の動作は実施例１と同様である（図２４ステップ２４２２）。

上記ステップをＭサブフレーム分繰り返し、Ｍ－Ｍ’サブフレーム分の復号信号は音声信号として出力し、残りのＭ’サブフレーム分の復号信号で隠蔽信号蓄積部２３８を更新する。

［実施例３］
適応符号帳ベクトルの算出に当たって、声門パルス同期を用いる場合について述べる。

＜符号化側＞
音声信号送信装置の機能構成は実施例１と同じである。機能構成および処理手順が異なるのは補助情報符号化部のみであるので、ここでは補助情報符号化部の動作についてのみ述べる。

補助情報符号化部は、ＬＰ係数算出部３１１、ピッチラグ予測部３１２、ピッチラグ選定部３１３、ピッチラグ符号化部３１４、適応符号帳バッファ３１５からなる。補助情報符号化部の機能構成図を図２７に、処理手順を図２８に示す。

ＬＰ係数算出部３１１は、実施例１のＬＰ係数算出部と同じであるので説明を省略する（図２８ステップ３２１）。

ピッチラグ予測部３１２は、音声符号化部から得たピッチラグを用いてピッチラグ予測値

を算出する（図２８ステップ３２２）。予測の具体的な処理は実施例１におけるピッチラグ予測部１９２における、ピッチラグ

の予測と同様である（図１３ステップ１１０２と同じである）。

次にピッチラグ選定部３１３は、補助情報として伝送するピッチラグを決定する（図２８ステップ３２３）。ピッチラグ選定部３１３のより詳細な処理手順を図２９に示す。

最初に、ピッチラグ予測値

および過去のピッチラグの値

から、次式に従いピッチラグコードブックを生成する（図２９ステップ３３１）。

ここで、１サブフレーム前のピッチラグの値は

である。またコードブックのインデクス数をＩとする。またδ_ｊは事前に定めたステップ幅であり、ρは事前に定めた定数である。

次に適応符号帳、ピッチラグ予測値

を用いて、次式に従い初期励振ベクトルｕ_０（ｎ）を生成する（図２９ステップ３３２）。

初期励振ベクトル算出の処理手順は、非特許文献４の式（６０７）および式（６０８）と同様である。

次に初期励振ベクトルに対して、ピッチラグコードブック中の全ての候補ピッチラグ

を用いて声門パルス同期を適用し、候補適応符号帳ベクトルｕ^ｊ（ｎ）（０≦ｊ＜Ｉ）を生成する（図２９ステップ３３３）。声門パルス同期は非特許文献４の７．１１．２．５節におけるパルス位置が利用できない場合と同様の処理手順を用いる。ただし、非特許文献４におけるｕ（ｎ）は本発明の実施形態のｕ_０（ｎ）に対応し、ｅｘｔｒａｐｏｌａｔｅｄｐｉｔｃｈは本発明の実施形態の

に対応し、ｔｈｅｌａｓｔｒｅｌｉａｂｌｅｐｉｔｃｈ（Ｔ_ｃ）は本発明の実施形態の

に対応する。

候補適応符号帳ベクトルｕ^ｊ（ｎ）（０≦ｊ＜Ｉ）について、評価尺度を計算する（図２９ステップ３３４）。評価尺度としてｓｅｇｍｅｎｔａｌＳＮＲを用いる場合には、ＬＰ係数を用いた逆フィルタリングにより信号を合成し、入力信号との間で次式に従いｓｅｇｍｅｎｔａｌＳＮＲを算出する。

逆フィルタリングを行う代わりに、次式に従い、残差信号を用いて適応符号帳ベクトルの領域でｓｅｇｍｅｎｔａｌＳＮＲを算出してもよい。

この場合、ＬＰ係数を用いて先読み信号ｓ（ｎ）（０≦ｎ＜Ｌ’）の残差信号ｒ（ｎ）を算出する（図１１ステップ１８１）。

ステップ３３４で算出した評価尺度のうち最大のものに対応するインデクスを選択し、当該インデクスに対応するピッチラグを求める。（図２９ステップ３３５）。

＜復号側＞
音声信号受信装置の機能構成は実施例１と同様である。実施例１との差分は音声パラメータ紛失処理部１２３、補助情報復号部１２５、補助情報蓄積部１２６の機能構成と処理手順であるので、これらについてのみ述べる。

＜正常にパケットを受信した場合＞
補助情報復号部１２５は、補助情報符号を復号してピッチラグ

を算出し、補助情報蓄積部１２６に格納する。補助情報復号部１２５の処理手順を図３０に示す。

ピッチラグ算出に当たって、最初にピッチラグ予測部３１２は、音声復号部から得たピッチラグを用いてピッチラグ予測値

を算出する（図３０ステップ３４１）。予測の具体的な処理は実施例３における図２８ステップ３２２と同様である。

次に、ピッチラグ予測値

および過去のピッチラグの値

から、次式に従いピッチラグコードブックを生成する（図３０ステップ３４２）。

処理手順は図２９ステップ３３１と同様である。ここで、１サブフレーム前のピッチラグの値は

次に、ピッチラグコードブックを参照し、補助情報として伝送されたインデクスｉｄｘに対応するピッチラグ

を求め、補助情報蓄積部１２６に格納する（図３０ステップ３４３）。

＜パケットロスを検出した場合＞
音声合成部の機能構成も実施例１と同様であるが（図１５と同様）、実施例１と動作が異なる適応符号帳算出部１１２３についてのみ以下に述べる。

音声パラメータ紛失処理部１２３は、補助情報蓄積部１２６からピッチラグを読み出した上で次式に従ってピッチラグ予測値を算出し、ピッチラグ予測部１９２の出力の代わりに用いる。

ここで、

は予め定めた定数である。

次に、適応符号帳、ピッチラグ予測値

次に初期励振ベクトルに対して、ピッチラグ

を用いて声門パルス同期を適用し、適応符号帳ベクトルｕ（ｎ）を生成する。声門パルス同期は図２９ステップ３３３と同様の処理手順を用いる。

続いて、上述した一連の音声信号送信装置による処理をコンピュータに実行させるための音声符号化プログラム７０を説明する。図３１に示すように、音声符号化プログラム７０は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記録媒体６０に形成されたプログラム格納領域６１内に格納される。

音声符号化プログラム７０は、音声符号化モジュール７００と、補助情報符号化モジュール７０１とを備えて構成される。音声符号化モジュール７００と、補助情報符号化モジュール７０１とを実行させることにより実現される機能は、上述した音声信号送信装置の音声符号化部１１１と、補助情報符号化部１１２との機能とそれぞれ同様である。

なお、音声符号化プログラム７０は、その一部若しくは全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記録（インストールを含む）される構成としてもよい。また、音声符号化プログラム７０の各モジュールは、１つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータからなるコンピュータシステムによって上述した一連の音声符号化プログラム７０の処理が行われる。

続いて、上述した一連の音声信号受信装置による処理をコンピュータに実行させるための音声復号プログラム９０を説明する。図３２に示すように、音声復号プログラム９０は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記録媒体８０に形成されたプログラム格納領域８１内に格納される。

音声復号プログラム９０は、音声符号バッファモジュール９００と、音声パラメータ復号モジュール９０１と、補助情報復号モジュール９０２と、補助情報蓄積モジュール９０３と、音声パラメータ紛失処理モジュール９０４と、音声合成モジュール９０５とを備えて構成される。音声符号バッファモジュール９００と、音声パラメータ復号モジュール９０１と、補助情報復号モジュール９０２と、補助情報蓄積モジュール９０３と、音声パラメータ紛失処理モジュール９０４と、音声合成モジュール９０５とを実行させることにより実現される機能は、上述した音声信号受信装置の音声符号バッファ２３１と、音声パラメータ復号部２３２と、補助情報復号部２３５と、補助情報蓄積部２３６と、音声パラメータ紛失処理部２３３と、音声合成部２３４との機能とそれぞれ同様である。

なお、音声復号プログラム９０は、その一部若しくは全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記録（インストールを含む）される構成としてもよい。また、音声復号プログラム９０の各モジュールは、１つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータからなるコンピュータシステムによって上述した一連の音声復号プログラム９０の処理が行われる。

［実施例４］
補助情報を復号側でのピッチラグ予測に用いる例について述べる。

＜符号化側＞
音声信号送信装置の機能構成は実施例１と同様である。機能構成および処理手順が異なるのは補助情報符号化部１１２のみであるので、ここでは補助情報符号化部１１２の動作についてのみ述べる。

補助情報符号化部１１２の機能構成図を図３３に、処理手順を図３４に示す。補助情報符号化部１１２は、ＬＰ係数算出部５１１、残差信号算出部５１２、ピッチラグ算出部５１３、適応符号帳算出部５１４、適応符号帳バッファ５１５、ピッチラグ符号化部５１６からなる。

ＬＰ係数算出部５１１は、実施例１の図８のＬＰ係数算出部１５１と同様であるので説明を省略する。

残差信号算出部５１２は、実施例１の図１１のステップ１８１と同様の処理により、残差信号を算出する。

ピッチラグ算出部５１３は、次式を最大化するｋを求めることにより、サブフレーム毎にピッチラグを算出する（図３４のステップ１６３）。ここで、ｕ（ｎ）は適応符号帳、Ｌ’は１サブフレームに含まれるサンプル数を表す。
Ｔ_ｐ＝ａｒｇ_ｋｍａｘＴ_ｋ

適応符号帳算出部５１４はピッチラグＴ_ｐ、適応符号帳ｕ（ｎ）から、適応符号帳ベクトルｖ’（ｎ）を算出する。ここで適応符号帳の長さをＮ_{ａｄａｐｔ}とした。（図３４のステップ１６４）
ｖ’（ｎ）＝ｕ（ｎ＋Ｎ_{ａｄａｐｔ}－Ｔ_ｐ）

適応符号帳バッファ５１５は、適応符号帳ベクトルｖ’（ｎ）により状態を更新する（図３４のステップ１６６）。
ｕ（ｎ）＝ｕ（ｎ＋Ｌ’）（０≦ｎ＜Ｎ－Ｌ’）
ｕ（ｎ＋Ｎ－Ｌ’）＝ｖ’（ｎ）（０≦ｎ＜Ｌ）

ピッチラグ符号化部５１６は、実施例１と同様なので省略する（図３４のステップ１６９）。

＜復号側＞
音声信号受信装置は、実施例１と同様に、音声符号バッファ１２１、音声パラメータ復号部１２２、音声パラメータ紛失処理部１２３、音声合成部１２４、補助情報復号部１２５、補助情報蓄積部１２６からなる。音声信号受信装置の処理手順は図７に示す通りである。

音声符号バッファ１２１の動作は実施例１と同様である。

＜正常にパケットを受信した場合＞
音声パラメータ復号部１２２の動作は実施例１と同様である。

を算出し、補助情報蓄積部１２６に格納する。補助情報復号部１２５では、符号化側で用いた符号化方法に対応する復号方法を用いて、補助情報符号を復号する。

音声合成部１２４は、実施例１と同様である。

＜パケットロスを検出した場合＞
音声パラメータ紛失処理部１２３（図１２参照）のＩＳＦ予測部１９１は、実施例１と同様にしてＩＳＦパラメータを算出する。

ピッチラグ予測部１９２の処理手順を図３５に示す。ピッチラグ予測部１９２は、実施例１と同様にして、補助情報蓄積部１２６から補助情報符号を読み出してピッチラグ

を得る（図３５のステップ４０５１）。さらに、過去に復号に用いたピッチラグ

を用いて、ピッチラグ

を出力する（図３５のステップ４０５２）。ここで、１フレームに含まれるサブフレームの数はＭ、補助情報に含まれるピッチラグの数をＭ_ｌａとする。ピッチラグ

の予測に当たっては、非特許文献４のような処理手順を用いることができる（図１３のステップ１１０２）。

ここで、ピッチラグ予測部１９２は、ピッチラグ

の予測に当たって、過去に復号に用いたピッチラグ

とピッチラグ

を用いてピッチラグ

を予測してもよい。また、

としてもよい。この場合のピッチラグ予測部の処理手順は図３６のようになる。

さらに、ピッチラグ予測部１９２は、ピッチラグの予測値について信頼性が低い場合にのみ

としてもよい。この場合のピッチラグ予測部１９２の処理手順を図３７に示す。予測値を用いたか、補助情報により得られたピッチラグ

を用いたかに関する指示情報を適応符号帳算出部１５４に入力するようにしてもよい。

適応符号帳ゲイン予測部１９３、固定符号帳ゲイン予測部１９４は実施例１と同様である。

雑音信号生成部１９５は、実施例１と同様である。

音声合成部１２４は、音声パラメータ紛失処理部１２３が出力したパラメータから符号化対象フレームに対応する音声信号を合成する。

音声合成部１２４（図１５参照）のＬＰ係数算出部１１２１は、実施例１と同様にしてＬＰ係数を得る（図１６のステップ１１３０１）。

適応符号帳算出部１１２３は、実施例１と同様にして適応符号帳ベクトルを算出する。適応符号帳算出部１１２３は、常に適応符号帳ベクトルにフィルタリングを行うようにしてもよいし、常にフィルタリングを行わないようにしてもよい。すなわち以下の式を用いて適応符号帳ベクトルを算出する。ここで、フィルタ係数をｆ_ｉとした。
ｖ（ｎ）＝ｆ_－１ｖ’（ｎ－１）＋ｆ_０ｖ’（ｎ）＋ｆ_１ｖ’（ｎ＋１）
フィルタリングを指示しない値をとる場合は、ｖ（ｎ）＝ｖ’（ｎ）とする（適応符号帳算出ステップＡ）。

適応符号帳算出部１１２３は、次の手順で適応符号帳ベクトルを算出してもよい（適応符号帳算出ステップＢ）。

ピッチラグおよび適応符号帳１１２２を用いて初期適応符号帳ベクトルを算出する。
ｖ（ｎ）＝ｆ_－１ｖ’（ｎ－１）＋ｆ_０ｖ’（ｎ）＋ｆ_１ｖ’（ｎ＋１）
設計方針によって、ｖ（ｎ）＝ｖ’（ｎ）としてもよい。

次に初期適応符号帳ベクトルに対して、声門パルス同期を適用する。声門パルス同期は非特許文献４の７．１１．２．５節におけるパルス位置が利用できない場合と同様の処理手順を用いる。ただし、非特許文献４におけるｕ（ｎ）は本発明の実施形態のｖ（ｎ）に対応し、ｅｘｔｒａｐｏｌａｔｅｄｐｉｔｃｈは本発明の実施形態の

に対応する。

さらに、適応符号帳算出部１１２３は、ピッチラグ予測部１９２が、上記予測値の指示情報を出力している場合に、上記指示情報が、補助情報として送られてきたピッチラグを予測値として用いないことを示す場合（図３８のステップ４０８２：ＮＯ）に上記適応符号帳算出ステップＡを用い、それ以外の場合（図３８のステップ４０８２：ＹＥＳ）には上記適応符号帳算出ステップＢを用いるようにしてもよい。この場合の適応符号帳算出部１１２３の処理手順を図３８に示す。

励振ベクトル合成部１１２４は、実施例１と同様にして、励振信号ベクトルを出力する（図１６のステップ１１３０６）。

ポストフィルタ１１２５は、実施例１と同様にして、合成信号に後処理を加える。

適応符号帳１１２２は、実施例１と同様にして、励振信号ベクトルにより状態を更新する（図１６のステップ１１３０８）。

合成フィルタ１１２６は、実施例１と同様にして、復号信号を合成する（図１６のステップ１１３０９）。

聴覚重み逆フィルタ１１２７は、実施例１と同様にして、聴覚重み逆フィルタを適用する。

音声パラメータ紛失処理部１２３は、実施例１と同様にして、音声合成部１２４で用いた音声パラメータ（ＩＳＦパラメータ、ピッチラグ、適応符号帳ゲイン、固定符号帳ゲイン）をバッファに格納する（図７のステップ１４５）。

［実施例５］
本実施例では、特定のフレームクラスにおいてのみ補助情報としてピッチラグを伝送し、それ以外では、ピッチラグを伝送しない構成について述べる。

本実施例における音声符号化部１１１は、符号化対象フレームの性質を表すインデクスを必ず算出し、補助情報符号化部１１２に伝送する。それ以外の動作については、実施例１と同様である。

補助情報符号化部１１２において、実施例１－４との違いは、ピッチラグ符号化部１５８のみであるので、ピッチラグ符号化部１５８の動作について、以下に述べる。実施例５における補助情報符号化部１１２の構成図を図３９に示す。

ピッチラグ符号化部１５８の処理手順を図４０に示す。ピッチラグ符号化部１５８は、符号化対象フレームの性質を現すインデクスを読み出し（図４０のステップ５０２１）、符号化対象フレームの性質を現すインデクスが、事前に定めた値と等しい場合は、補助情報に割り当てるビット数をＢビットとする（Ｂ＞１）。一方、符号化対象フレームの性質を現すインデクスが事前に定めた値と異なる場合は、補助情報に割り当てるビット数を１ビットとする（図４０のステップ５０２２）。

補助情報に割り当てるビット数が１ビットの場合（図４０のステップ５０２２：ＮＯ）、補助情報インデクスに補助情報を伝送していないことを示す値をセットし、補助情報符号とする（図４０のステップ５０２３）。

一方、補助情報に割り当てるビット数がＢビットの場合（図４０のステップ５０２２：ＹＥＳ）、補助情報インデクスに補助情報を伝送することを示す値をセットし（図４０のステップ５０２４）、さらにピッチラグを実施例１の方法により符号化して得られるＢ－１ビットの符号を含めて、補助情報符号とする（図４０のステップ５０２５）。

音声符号バッファ１２１の動作は実施例１と同様である。

補助情報復号部１２５の処理手順を図４１に示す。補助情報復号部１２５は、最初に補助情報符号に含まれる補助情報インデクスを復号する（図４１のステップ５０３１）。補助情報インデクスが補助情報を伝送していないことを表す場合、それ以上の復号動作を行わない。また、補助情報インデクスの値を補助情報蓄積部１２６に格納する（図４１のステップ５０３２）。

一方、補助情報インデクスが、補助情報を伝送することを表す場合、さらにＢ－１ビットの復号を行い、ピッチラグ

を算出し、補助情報蓄積部１２６に格納する（図４１のステップ５０３３）。また、補助情報インデクスの値を補助情報蓄積部１２６に格納する。なお、Ｂ－１ビットの補助情報の復号は、実施例１の補助情報復号部１２５と同様の動作である。

音声合成部１２４は、実施例１と同様である。

ピッチラグ予測部１９２の処理手順を図４２に示す。ピッチラグ予測部１９２は、補助情報蓄積部１２６から補助情報インデクスを読み出して（図４２のステップ５０４１）、補助情報を伝送することを表す値であるかどうかを調べる（図４２のステップ５０４２）。

＜補助情報インデクスが補助情報を伝送することを表す値である場合＞
実施例１と同様にして、補助情報蓄積部１２６から補助情報符号を読み出してピッチラグ

を得る（図４２の５０４３）。さらに、過去に復号に用いたピッチラグ

および補助情報として得られた

を用いて、ピッチラグ

を出力する（図４２のステップ５０４４）。ここで、１フレームに含まれるサブフレームの数はＭ、補助情報に含まれるピッチラグの数をＭ_ｌａとする。ピッチラグ

の予測に当たっては、非特許文献４のような処理手順を用いることができる（図１３のステップ１１０２）。また、

としてもよい。

とし、それ以外の場合には予測値を

とするようにしてもよい（図４２のステップ５０４６）。また、予測値を用いたか、補助情報により得られたピッチラグ

を用いたかに関するピッチラグ指示情報を適応符号帳算出部１１２３に入力するようにしてもよい。

＜補助情報インデクスが補助情報を伝送しないことを表す値である場合＞
ピッチラグ予測部１９２は、ピッチラグ

の予測に当たって、過去に復号に用いたピッチラグ

を用いてピッチラグ

を予測する（図４２のステップ５０４８）。

とし（図４２のステップ５０４９）、それ以外の場合には予測値を

とするようにしてもよい。また、予測値を用いたか、過去復号に用いたピッチラグ

を用いたかに関するピッチラグ指示情報を適応符号帳算出部１１２３に入力する（図４２のステップ５０５０）。

雑音信号生成部１９５は、実施例１と同様である。

適応符号帳算出部１１２３の処理手順を図４３に示す。適応符号帳算出部１１２３は、実施例１と同様にして適応符号帳ベクトルを算出する。まず、ピッチラグ指示情報を参照し（図４３のステップ５０５１）、予測値の信頼性が低い場合（図４３のステップ５０５２：ＹＥＳ）は、以下の式を用いて適応符号帳ベクトルを算出する（図４３のステップ５０５５）。ここで、フィルタ係数をｆ_ｉとした。
ｖ（ｎ）＝ｆ_－１ｖ’（ｎ－１）＋ｆ_０ｖ’（ｎ）＋ｆ_１ｖ’（ｎ＋１）
なお設計方針により、ｖ（ｎ）＝ｖ’（ｎ）としてもよい。

ピッチラグ指示情報を参照し、予測値の信頼性が高い場合（図４３のステップ５０５２：ＮＯ）、適応符号帳算出部１１２３は、次の手順で適応符号帳ベクトルを算出する。

まず、ピッチラグおよび適応符号帳１１２２を用いて初期適応符号帳ベクトルを算出する（図４３のステップ５０５３）。
ｖ（ｎ）＝ｆ_－１ｖ’（ｎ－１）＋ｆ_０ｖ’（ｎ）＋ｆ_１ｖ’（ｎ＋１）
設計方針によって、ｖ（ｎ）＝ｖ’（ｎ）としてもよい。

次に初期適応符号帳ベクトルに対して、声門パルス同期を適用する。声門パルス同期は非特許文献４の７．１１．２．５節におけるパルス位置が利用できない場合と同様の処理手順を用いる（図４３のステップ５０５４）。ただし、非特許文献４におけるｕ（ｎ）は本発明の実施形態のｖ（ｎ）に対応し、ｅｘｔｒａｐｏｌａｔｅｄｐｉｔｃｈは本発明の実施形態の

に対応する。

本発明の一側面に係る音声符号化装置は、音声信号を符号化する音声符号化装置であって、音声信号を符号化する音声符号化部と、先読み信号から補助情報を算出して符号化する補助情報符号化部と、を備える。

補助情報は、先読み信号におけるピッチラグに関すること、又は、補助情報は、先読み信号におけるピッチゲインに関すること、又は、先読み信号におけるピッチラグおよびピッチゲインに関することとしてもよい。また、補助情報は、補助情報の利用可否に関する情報を含むこととしてもよい。

補助情報符号化部は、先読み信号部分について補助情報を算出して符号化し、さらに隠蔽信号を生成し、入力音声信号と補助情報符号化部が出力する隠蔽信号の誤差信号を符号化する誤差信号符号化部と、入力音声信号そのものを符号化する主要符号化部と、をさらに備えることとしてもよい。

また、本発明の一側面に係る音声復号装置は、音声符号を復号して音声信号を出力する音声復号装置であって、音声パケットの受信状態からパケットロスを検出する音声符号バッファと、音声パケット正常受信時に音声符号を復号する音声パラメータ復号部と、音声パケット正常受信時に補助情報符号を復号する補助情報復号部と、補助情報符号を復号して得られる補助情報を蓄積する補助情報蓄積部と、音声パケットロス検出時に音声パラメータを出力する音声パラメータ紛失処理部と、音声パラメータから復号音声を合成する音声合成部と、を備える。

補助情報は、先読み信号におけるピッチラグに関すること、又は、先読み信号におけるピッチゲインに関すること、又は、先読み信号におけるピッチラグおよびピッチゲインに関することとしてもよい。また、補助情報は、補助情報の利用可否に関する情報を含むこととしてもよい。

補助情報復号部は、補助情報符号を復号して補助情報を出力し、かつ補助情報を利用して先読み部分に関する隠蔽信号を出力し、音声信号と隠蔽信号との誤差信号に関する符号を復号する誤差復号部と、音声信号に関する符号を復号する主要復号部と、補助情報復号部が出力した隠蔽信号を蓄積する隠蔽信号蓄積部と、をさらに備えることとしてもよい。

音声パケット正常受信時には、隠蔽信号蓄積部から読み出した隠蔽信号と、誤差復号部が出力した復号誤差信号を加算することにより復号信号の一部を生成し、補助情報復号部が出力した隠蔽信号により隠蔽信号蓄積部を更新する、こととしてもよい。

音声パケットロス検出時には、隠蔽信号蓄積部から読み出した隠蔽信号を、復号信号の一部あるいは全部とする、こととしてもよい。

音声パケットロス検出時には、音声パラメータ紛失処理部により予測した音声パラメータを用いて復号信号を生成し、その一部を用いて隠蔽信号蓄積部を更新する、こととしてもよい。

音声パラメータ紛失処理部は、音声パケットロス検出時に、補助情報蓄積部から読み出した補助情報を、音声パラメータの予測値の一部として利用する、こととしてもよい。

音声合成部は、音声パケットロス検出時に、補助情報蓄積部から読み出した補助情報を用いて、音声パラメータの１つである適応符号帳ベクトルを修正する、こととしてもよい。

また、本発明の一側面に係る音声符号化方法は、音声信号を符号化する音声符号化装置による音声符号化方法であって、音声信号を符号化する音声符号化ステップと、先読み信号から補助情報を算出して符号化する補助情報符号化ステップと、を含む。

また、本発明の一側面に係る音声復号方法は、音声符号を復号して音声信号を出力する音声復号装置による音声復号方法であって、音声パケットの受信状態からパケットロスを検出する音声符号バッファステップと、音声パケット正常受信時に音声符号を復号する音声パラメータ復号ステップと、音声パケット正常受信時に補助情報符号を復号する補助情報復号ステップと、補助情報符号を復号して得られる補助情報を蓄積する補助情報蓄積ステップと、音声パケットロス検出時に音声パラメータを出力する音声パラメータ紛失処理ステップと、音声パラメータから復号音声を合成する音声合成ステップと、を含む。

また、本発明の一側面に係る音声符号化プログラムは、コンピュータを、音声信号を符号化する音声符号化部と、先読み信号から補助情報を算出して符号化する補助情報符号化部、として機能させる。

また、本発明の一側面に係る音声復号プログラムは、コンピュータを、音声パケットの受信状態からパケットロスを検出する音声符号バッファと、音声パケット正常受信時に音声符号を復号する音声パラメータ復号部と、音声パケット正常受信時に補助情報符号を復号する補助情報復号部と、補助情報符号を復号して得られる補助情報を蓄積する補助情報蓄積部と、音声パケットロス検出時に音声パラメータを出力する音声パラメータ紛失処理部と、音声パラメータから復号音声を合成する音声合成部、として機能させる。

６０、８０…記憶媒体、６１、８１…プログラム格納領域、７０…音声符号化プログラム、９０…音声復号プログラム、１１１…音声符号化部、１１２…補助情報符号化部、１２１、２３１…音声符号バッファ、１２２、２３２…音声パラメータ復号部、１２３、２３３…音声パラメータ紛失処理部、１２４、２３４…音声合成部、１２５、２３５…補助情報復号部、１２６、２３６…補助情報蓄積部、１５１、５１１、１１２１…ＬＰ係数算出部、１５２、２０１２…ターゲット信号算出部、１５３、５１３、２０１３…ピッチラグ算出部、１５４、１１２３、５１４、２０１４、２３１３…適応符号帳算出部、１５５、１１２４、２３１４…励振ベクトル合成部、１５６、３１５、５１５、２０１９…適応符号帳バッファ、１５７、１１２６、２０１８、２３１６…合成フィルタ、１５８、５１６…ピッチラグ符号化部、１９１…ＩＳＦ予測部、１９２…ピッチラグ予測部、１９３…適応符号帳ゲイン予測部、１９４…固定符号帳ゲイン予測部、１９５…雑音信号生成部、２１１…主要符号化部、２１２…補助情報符号化部、２１３、２３８…隠蔽信号蓄積部、２１４…誤差信号符号化部、２３７…誤差信号復号部、３１１…ＬＰ係数算出部、３１２…ピッチラグ予測部、３１３…ピッチラグ選定部、３１４…ピッチラグ符号化部、５１２…残差信号算出部、７００…音声符号化モジュール、７０１…補助情報符号化モジュール、９００…音声パラメータ復号モジュール、９０１…音声パラメータ紛失処理モジュール、９０２…音声合成モジュール、９０３…補助情報復号モジュール、１１２８…補助情報出力判定部、１１２２、２３１２…適応符号帳、１１２５…ポストフィルタ、１１２７…聴覚重み逆フィルタ、２０１１…ＩＳＦ符号化部、２０１５…固定符号帳算出部、２０１６…ゲイン算出部、２０１７…励振ベクトル算出部、２２１１…ＩＳＦ復号部、２２１２…ピッチラグ復号部、２２１３…ゲイン復号部、２２１４…固定符号帳復号部、２３１８…先読み励振ベクトル合成部。

Claims

音声信号を符号化する音声符号化装置による音声符号化方法であって、
音声信号を符号化する音声符号化ステップと、
先読み信号から、復号音声を合成するための音声パラメータの予測値を算出するための補助情報を算出して符号化する補助情報符号化ステップと、
を含み、
前記補助情報は、
先読み信号におけるピッチラグに関し、
符号化対象フレームの先読み信号から算出される線形予測係数に基づいて、算出され、
前記先読み信号は、
線形予測分析窓において符号化対象フレームに続く所定の信号である、
音声符号化方法。
音声信号を符号化する音声符号化装置であって、
音声信号を符号化する音声符号化部と、
先読み信号から、復号音声を合成するための音声パラメータの予測値を算出するための補助情報を算出して符号化する補助情報符号化部と、
を備え、
前記補助情報は、
先読み信号におけるピッチラグに関し、
符号化対象フレームの先読み信号から算出される線形予測係数に基づいて、算出され、
前記先読み信号は、
線形予測分析窓において符号化対象フレームに続く所定の信号である、
音声符号化装置。