JP5894286B2

JP5894286B2 - ジッタバッファの管理方法及びこれを利用するジッタバッファ

Info

Publication number: JP5894286B2
Application number: JP2014537000A
Authority: JP
Inventors: インギュカン; ヨンハンリ; ギュヒョクチョン; ヘジョンチョン; ラギョンキム
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2011-10-20
Filing date: 2012-10-22
Publication date: 2016-03-23
Anticipated expiration: 2032-10-22
Also published as: EP2770504B1; EP2770504A4; KR102058714B1; US9324336B2; JP2014531055A; CN103988255A; EP2770504A2; KR20140085452A; WO2013058626A3; WO2013058626A2; CN103988255B; US20140310008A1

Description

本発明は、音声信号を処理する技術に関し、具体的には、復号のために受信端のジッタバッファを管理／制御する方法、及びこれを利用するジッタバッファに関する。

一般に、オーディオ信号には多様な周波数の信号が含まれており、人の可聴周波数は２０Ｈｚ〜２０ｋＨｚであるのに対して、普通の人の音声は、約４ｋＨｚより下の領域に存在する。

入力オーディオ信号は、人の音声が存在する帯域だけでなく、人の音声が存在し難い７ｋＨｚ以上の高周波領域の成分まで含む場合がある。

このように広帯域（約８ｋＨｚまで）又は超広帯域（約１６ｋＨｚまで）の信号に対して、狭帯域（約４ｋＨｚまで）に適した符号化方式を採用すると、符号化されない帯域のため音質の劣化が発生するという問題点がある。

最近、画像電話、画像会議などの需要が増加するに伴って、オーディオ信号、すなわち音声信号を実際の音声に近く復元できるように符号化／復号する技術に対する関心もまた、増加している。具体的には、符号化帯域を拡張させた符号化／復号技術に対する関心が増加しており、音声情報を送信するネットワークでも回線交換網方式からパケット交換網方式へ関心の領域が移動しつつある。

この場合、符号化によってパケット化された音声信号を送信する過程において、ネットワーク上の問題による遅延が発生することがある。送信過程において発生する遅延は、出力端で出力遅延又は音質低下を引き起こす。

そのため、送信過程において発生する音声信号の遅延又は損失の問題を受信端で解決する方法を考慮する必要がある。

本発明は、ジッタバッファ制御が必要なとき、音声パケットの重要度に応じて加重値を与えてジッタバッファ制御を行うことができる方法及び装置を提供することを目的とする。

本発明は、音声情報の調整において、音声パケットの重要度に応じて処理対象としての優先順位を設定する方法及び装置を提供することを目的とする。

本発明は、無音区間に優先順位を与えて音声パケットを省略又は復元することによって、ジッタバッファ管理を介して再生がスムーズになされるようにすることができるだけでなく、音質劣化を防止できる方法及び装置を提供することを目的とする。

本発明は、無音区間を処理する場合に、音声品質に及ぼす影響が有音区間を処理する場合より少ないという点を反映して、無音区間の音声パケットを優先的に省略／復元したり、音声信号を圧縮したりしてジッタバッファ管理を行う方法及び装置を提供することを目的とする。

本発明によれば、重要度に基づいて判断するとき、優先順位の高い音声パケット（例えば、重要度の低い音声パケット）が存在しないとき、ジッタバッファ制御要求をイベントスタックに入れて、シーケンス番号又はタイムスタンプによって再配列した順に、再生端に送信する方法及び装置を提供することを目的とする。

本発明の一実施形態は、ジッタバッファの管理方法であって、音声情報フレームを受信するステップ、及び受信した音声情報フレームに基づいてジッタバッファの調整を行うステップを含み、ジッタバッファの調整は音声信号の補償を含み、音声信号の補償は音声情報フレームのサブフレーム単位で行うことができる。

音声信号の補償は、音声信号の復号パラメータレベルで行うことができる。

音声信号の補償は、音声信号フレームの重要度に基づいて行うことができる。このとき、音声信号は重要度の低い順に音声信号補償の対象になり、連続無音区間の音声信号フレームが最も低い重要度を有することができる。

音声信号の補償としてフレーム除去を行う場合には、音声信号フレームを構成する二つのサブフレームに対する復号パラメータを補間して、サブフレームの新しい復号パラメータを生成できる。

音声信号の補償としてフレーム生成を行う場合には、音声信号フレームを構成する二つのサブフレームに対する復号パラメータを補間して、新しいサブフレームの復号パラメータを生成できる。

音声信号の補償としてフレーム生成を行う場合には、サブフレーム補間を行い、サブフレーム補間は、音声信号フレームを構成する二つのサブフレームの間に新しいサブフレームを生成し、二つのサブフレームに対する復号パラメータを補間して、新しいサブフレームの復号パラメータを生成できる。

本発明の他の実施形態は、ジッタバッファであって、音声情報フレームを受信する受信部、音声情報フレームを記憶及び管理するバッファ部、及び音声情報フレームを出力する出力部を備え、バッファ部は、受信した音声情報フレームのサブフレーム単位で音声情報の補償を行うことができる。

バッファ部は、復号パラメータレベルで音声情報の補償を行うことができる。

バッファ部は、別個の二つのサブフレームの復号パラメータを補間して、新しい復号パラメータを生成できる。

本発明によれば、ジッタバッファ制御が必要な時点で音声パケットの重要度に応じて加重値をおくことによって、性能を向上させることができる。例えば、音声情報の調整において重要度に応じて処理対象としての優先順位を設定できる。

本発明によれば、所定基準の重要度に基づいてジッタバッファ管理を行うことによって、ジッタバッファ管理によって音質に及ぼす影響を減らすことができる。

本発明によれば、無音区間に優先順位を与えて音声パケットを省略又は復元することによって、ジッタバッファ管理によって再生がスムーズになされるようにすることができるだけでなく、音質劣化を減少させることができる。

本発明によれば、無音区間を処理する場合に、音声品質に及ぼす影響が有音区間を処理する場合より少ないという点を反映して、無音区間の音声パケットを優先的に省略／復元したり、音声信号を圧縮したりして、ジッタバッファ管理による効果を高めることができる。

本発明によれば、ジッタバッファ内のパケットの重要度に基づいて、パケットの省略／復元及び／又は音声信号の圧縮／伸張などに優先順位を与えることによって、ジッタバッファ管理による効果を少なく受ける高音質の音声サービスを提供できる。

本発明によれば、重要度に基づいて判断するとき、優先順位の高い音声パケット（例えば、重要度の低い音声パケット）が存在しないときは、ジッタバッファ制御要求をイベントスタックに入れて、シーケンス番号又はタイムスタンプによって再配列された順に再生端に送信することができる。

一般的な音声符号化器に関する構成の一例を概略的に説明する図である。一般的な音声復号器の一実施形態を概略的に示した図である。ジッタバッファに関する構成の一例を概略的に説明する図である。一般的なジッタバッファの一例を概略的に説明する図である。ジッタバッファを使用しない場合の一例を概略的に示す図である。ジッタバッファ管理の一例を概略的に説明する図である。ジッタバッファの制御が必要な場合の例を概略的に示した図である。ジッタバッファで音声情報の補償を行う場合に、ジッタバッファ内の音声フレームの重要度を決定する方法の一例を概略的に説明する図である。音声フレームの補償を含むジッタバッファの管理方法の一例を概略的に説明するフローチャートであるジッタバッファの調整方法の一例を概略的に説明する図である。パケット受信時にジッタバッファの調整を行う方法の一例を概略的に説明するフローチャートである。再生要求時にジッタバッファの調整を行う方法の一例を概略的に説明するフローチャートである。ビットストリームレベルでジッタバッファ管理が行われる一例を概略的に示した図である。音声信号レベルでジッタバッファ管理が行われる一例を概略的に示した図である。音声フレームのサブフレーム単位で音声情報の補償を行う一例を概略的に説明する図である。復号パラメータレベルでサブフレーム単位に音声情報の補償を行う方法の例を概略的に説明する図である。復号パラメータレベルでサブフレーム単位に音声情報の補償を行う方法の例を概略的に説明する図である。復号パラメータレベルでサブフレーム単位に音声情報の補償を行う方法の例を概略的に説明する図である。復号パラメータレベルでサブフレーム単位に音声情報の補償を行う方法の例を概略的に説明する図である。復号パラメータレベルでサブフレーム単位に音声情報の補償を行う方法の例を概略的に説明する図である。復号パラメータレベルでサブフレーム単位に音声情報の補償を行う方法の例を概略的に説明する図である。復号パラメータレベルでサブフレーム単位に音声情報の補償を行う方法の例を概略的に説明する図である。

以下、図面を参照して、本発明の実施形態について具体的に説明する。本発明を説明するに当たって、関連した公知の機能又は構成についての具体的な説明が本発明の要旨を不明確にする恐れがあると判断される場合には、その詳細な説明を省略する。

本明細書において第１構成要素が第２構成要素に「連結されて」いるか、又は「接続されて」いると記載された場合には、第２構成要素に直接的に連結又は接続されている場合もあるし、第３構成要素を媒介して第２構成要素に連結又は接続されている場合もある。

“第１”、“第２”などの用語は、一つの技術的構成を他の技術的構成から区別するために使用することがある。例えば、本発明の技術的思想の範囲内で第１構成要素と呼ばれる構成要素は、第２構成要素と呼ばれて同じ機能を行うこともできる。

図１は、一般的な音声符号化器に関する構成の一例を概略的に説明する図である。

図１に示すように、音声符号化器１００は、帯域幅確認部１０５、標本化変換部１２５、前処理部１３０、帯域分割部１１０、線形予測分析部１１５、１３５、線形予測量子化部１２０、１４０、量子化部１５０、１７５、変換部１４５、逆変換部１５５、１８０、ピッチ検出部１６０、適応符号表検索部１６５、固定符号表検索部１７０、モード選択部１８５、帯域予測部１９０、補償利得予測部１９５を備えることができる。

帯域幅確認部１０５は、入力される音声信号の帯域幅情報を判断できる。音声信号は、帯域幅に応じて、約４ｋＨｚの帯域幅を有し、公衆交換電話網（ＰＳＴＮ）において主に使用される狭帯域信号、約７ｋＨｚの帯域幅を有し狭帯域の音声信号より自然な高音質スピーチ又はＡＭラジオで主に使用される広帯域信号、及び約１４ｋＨｚの帯域幅を有し、音楽、デジタル放送のように音質が重要となる分野において主に使用される超広帯域信号に、分類することができる。帯域幅確認部１０５では、入力された音声信号を周波数領域に変換して、現在音声信号の帯域幅が狭帯域信号なのか、広帯域信号なのか、超広帯域信号なのかを判断できる。帯域幅確認部１０５は、入力された音声信号を周波数領域に変換して、スペクトルの上位帯域ビン（ｂｉｎ）の有無及び／又は成分を調査し判別することもできる。具現方法によっては、入力される音声信号の帯域幅が固定されている場合は、帯域幅確認部１０５を別に備えなくてもよい。

帯域幅確認部１０５は、入力された音声信号の帯域幅に応じて、超広帯域信号は、帯域分割部１１０に送信し、狭帯域信号又は広帯域信号は、標本化変換部１２５に送信できる。

帯域分割部１１０は、入力された信号の標本化速度を変換し、上位帯域と下位帯域とに分割できる。例えば、３２ｋＨｚの音声信号を２５．６ｋＨｚの標本化周波数に変換し、上位帯域と下位帯域とに１２．８ｋＨｚずつ分割できる。帯域分割部１１０は、分割された帯域のうち、下位帯域信号を前処理部１３０に送信し、上位帯域信号を線形予測分析部１１５に送信する。

標本化変換部１２５は、入力された狭帯域信号又は広帯域信号を受信し、特定の標本化速度を変更できる。例えば、入力された狭帯域音声信号の標本化速度が８ｋＨｚである場合、１２．８ｋＨｚにアップサンプリングして上位帯域信号を生成でき、入力された広帯域音声信号が１６ｋＨｚの場合、１２．８ｋＨｚにダウンサンプリングを行って下位帯域信号を作ることができる。標本化変換部１２５は、標本化変換された下位帯域信号を出力する。内部標本化周波数は、１２．８ｋＨｚではない他の標本化周波数であってもよい。

前処理部１３０は、標本化変換部１２５及び帯域分割部１１０から出力された下位帯域信号に対して前処理を行う。前処理部１３０では、音声パラメータが効率的に抽出されうるように、入力信号をろ波する。音声帯域幅に応じて異なる遮断周波数を設定して、相対的に余り重要でない情報が集まっている周波数帯域である極低周波を高域通過ろ波することによって、パラメータ抽出時に必要な重要帯域に集中できる。更に他の例として、プリエンファシスろ波を使用して入力信号の高い周波数帯域を増強することによって、低い周波数領域と高い周波数領域のエネルギを調整（スケーリング）できる。したがって、線形予測分析時に解像度を増加させることができる。

線形予測分析部１１５、１３５は、線形予測係数（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔ、ＬＰＣ）を算出できる。線形予測分析部１１５、１３５では、音声信号の周波数スペクトルの全体模様を表すフォルマントをモデル化できる。線形予測分析部１１５、１３５では、本来の音声信号と、線形予測分析部１３５から算出された線形予測係数を利用して生成した予測音声信号との差である誤差値の平均２乗誤差（ＭＳＥ）が最も小さくなるように、ＬＰＣ値を算出できる。ＬＰＣを算出するためには、自己相関法又は共分散法など多様な方法を使用することができる。

線形予測分析部１１５は、下位帯域信号に対する線形予測分析部１３５とは異なり、低い次数のＬＰＣを抽出できる。

線形予測量子化部１２０、１４０では抽出されたＬＰＣを変換して、線スペクトル対（ＬｉｎｅＳｐｅｃｔｒａｌＰａｉｒ、ＬＳＰ）又は線スペクトル周波数（ＬｉｎｅＳｐｅｃｔｒａｌＦｒｅｑｕｅｎｃｙ、ＬＳＦ）のような周波数領域の変換係数を生成し、生成された周波数領域の変換係数を量子化できる。ＬＰＣは、大きな動的範囲（ＤｙｎａｍｉｃＲａｎｇｅ）を有するため、このようなＬＰＣをそのまま送信する場合、多くのビットが必要となる。したがって、周波数領域に変換し、変換係数を量子化することによって、少ないビット（圧縮量）でＬＰＣ情報を送信できる。

線形予測量子化部１２０、１４０では、量子化されたＬＰＣを逆量子化して時間領域に変換されたＬＰＣを利用することによって、線形予測残余信号を生成できる。線形予測残余信号は、音声信号から予測されたフォルマント成分が除かれた信号であって、ピッチ情報とランダム信号とを含むことができる。

線形予測量子化部１２０では、量子化されたＬＰＣを利用して、本来の上位帯域信号をろ波することによって先行予測残余信号を生成する。生成された線形予測残余信号は、上位帯域予測励起信号との補償利得を求めるために、補償利得予測部１９５に送信される。

線形予測量子化部１４０では、量子化されたＬＰＣを利用して、本来の下位帯域信号をろ波することによって線形予測残余信号を生成する。生成された線形予測残余信号は、変換部１４５及びピッチ検出部１６０に入力される。

図１において、変換部１４５、量子化部１５０、逆変換部１５５は、変換符号化励起（ＴｒａｎｓｆｏｒｍＣｏｄｅｄＥｘｃｉｔａｔｉｏｎ、ＴＣＸ）モードを行うＴＣＸモード部として動作できる。また、ピッチ検出部１６０、適応符号表検索部１６５、固定符号表検索部１７０は、符号励起線形予測（ＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ、ＣＥＬＰ）モードを行うＣＥＬＰモード遂行部として動作できる。

変換部１４５では、離散フーリエ変換（ＤＦＴ）又は高速フーリエ変換（ＦＦＴ）のような変換関数に基づいて、入力された線形予測残余信号を周波数領域に変換することができる。変換部１４５は、変換係数情報を量子化部１５０に送信できる。

量子化部１５０では、変換部１４５から生成された変換係数に対して量子化を行うことができる。量子化部１５０では、多様な方法で量子化を行うことができる。量子化部１５０は、選択的に周波数帯域に応じて量子化を行うことができ、また、合成分析（ＡｎａｌｙｓｉｓｂｙＳｙｎｔｈｅｓｉｓ、ＡｂＳ）を利用して最適の周波数の組合せを算出することもできる。

逆変換部１５５は、量子化された情報に基づいて逆変換を行って、時間領域で線形予測残余信号の復元された励起信号を生成できる。

量子化後に逆変換された線形予測残余信号、すなわち、復元された励起信号は、線形予測を介して音声信号として復元される。復元された音声信号は、モード選択部１８５に送信される。このようにＴＣＸモードに復元された音声信号は、後述するＣＥＬＰモードに量子化し復元された音声信号と比較することができる。

一方、ＣＥＬＰモードにおいて、ピッチ検出部１６０は、自己相関方法のような開ループ（ｏｐｅｎ−ｌｏｏｐ）方式を利用して、線形予測残余信号に対するピッチを算出できる。例えば、ピッチ検出部１６０は、合成された音声信号と実際の音声信号とを比較して、ピッチ周期及びピック値などを算出でき、このとき、ＡｂＳなどの方法を利用できる。

適応符号表検索部１６５は、ピッチ検出部から算出されたピッチ情報に基づいて、適応符号表インデクスと利得とを抽出する。適応符号表検索部１６５は、ＡｂＳなどを利用して適応符号表インデクスと利得情報とに基づいて、線形予測残余信号からピッチ構造を算出できる。適応符号表検索部１６５は、適応符号表の寄与分、例えばピッチ構造に関する情報の除かれた線形予測残余信号を固定符号表検索部１７０に送信する。

固定符号表検索部１７０は、適応符号表検索部１６５から受信した線形予測残余信号に基づいて、固定符号表インデクスと利得とを抽出し、符号化できる。このとき、固定符号表検索部１７０から固定符号表インデクスと利得とを抽出するために利用する線形予測残余信号は、ピッチ構造に関する情報の除かれた線形予測残余信号であってよい。

量子化部１７５は、ピッチ検出部１６０から出力されたピッチ情報、適応符号表検索部１６５から出力された適応符号表インデクス及び利得、固定符号表検索部１７０から出力された固定符号表インデクス及び利得、などのパラメータを量子化する。

逆変換部１８０は、量子化部１７５で量子化された情報を利用して、復元された線形予測残余信号である励起信号を生成できる。励起信号に基づいて線形予測の逆過程を通じて音声信号を復元できる。

逆変換部１８０は、ＣＥＬＰモードに復元された音声信号をモード選択部１８５に送信する。

モード選択部１８５では、ＴＣＸモードを介して復元されたＴＣＸ励起信号と、ＣＥＬＰモードを介して復元されたＣＥＬＰ励起信号とを比較して、本来の線形予測残余信号により類似した信号を選択できる。モード選択部１８５は、選択した励起信号がどのモードによって復元されたかについての情報もまた、符号化できる。モード選択部１８５は、復元された音声信号の選択に関する選択情報と励起信号とを帯域予測部１９０に送信できる。

帯域予測部１９０は、モード選択部１８５から送信された選択情報と復元された励起信号とを利用して、上位帯域の予測励起信号を生成できる。

補償利得予測部１９５は、帯域予測部１９０から送信された上位帯域予測励起信号と、線形予測量子化部１２０から送信された上位帯域予測残余信号とを比較して、スペクトル上の利得を補償できる。

一方、図１の例における各構成部は、各々別途のモジュールとして動作してもよいし、複数の構成部が一つのモジュールを形成して動作してもよい。例えば、量子化部１２０、１４０、１５０、１７５は、一つのモジュールとして各動作を行ってもよいし、量子化部１２０、１４０、１５０、１７５それぞれが、別途のモジュールとしてプロセス上の必要な位置に備えられてもよい。

図２は、一般的な音声復号器の一実施形態を概略的に示した図である。

図２に示すように、音声復号器２００は、逆量子化部２０５、２１０、帯域予測部２２０、利得補償部２２５、逆変換部２１５、線形予測合成部２３０、２３５、標本化変換部２４０、帯域合成部２５０、後処理ろ波部２４５、２５５を備えることができる。

逆量子化部２０５、２１０は、量子化されたパラメータ情報を音声符号化器から受信し、これを逆量子化する。

逆変換部２１５は、ＴＣＸモード又はＣＥＬＰモードで符号化された音声情報を逆変換して、励起信号を復元できる。逆変換部２１５は、符号化器から受信したパラメータに基づいて復元された励起信号を生成できる。このとき、逆変換部２１５は、音声符号化器から選択された一部帯域に対してだけ、逆変換を行うことができる。逆変換部２１５は、復元された励起信号を線形予測合成部２３５と帯域予測部２２０とに送信できる。

線形予測合成部２３５は、逆変換部２１５から送信された励起信号と、音声符号化器から送信された線形予測係数とを利用して、下位帯域信号を復元できる。線形予測合成部２３５は、復元された下位帯域信号を標本化変換部２４０と帯域合成部２５０とに送信できる。

帯域予測部２２０は、逆変換部２１５から受信した復元された励起信号値に基づいて、上位帯域の予測励起信号を生成できる。

利得補償部２２５は、帯域予測部２２０から受信した上位帯域予測励起信号と、符号化器から送信された補償利得値とに基づいて、超広帯域音声信号に対するスペクトル上の利得を補償できる。

線形予測合成部２３０は、補償された上位帯域予測励起信号値を利得補償部２２５から受信し、補償された上位帯域予測励起信号値と、音声符号化器から受信した線形予測係数値とに基づいて、上位帯域信号を復元できる。

帯域合成部２５０は、復元された下位帯域の信号を線形予測合成部２３５から受信し、復元された上位帯域信号を線形予測合成部２３０から受信して、受信した上位帯域信号と下位帯域信号とに対する帯域合成を行うことができる。

標本化変換部２４０は、内部標本化周波数値を本来の標本化周波数値に再度変換することができる。

後処理部２４５、２５５では、信号復元のために必要な後処理を行うことができる。例えば、後処理部２４５、２５５は、前処理部でプリエンファシスフィルタの逆ろ波ができるデエンファシスフィルタを有することができる。後処理部２４５、２５５は、ろ波だけでなく、量子化誤差を最小化したり、スペクトルの高調波ピークを生かして谷（ｖａｌｌｅｙ）を除去したりするなど、色々な後処理動作を行うこともできる。後処理部２４５は、復元された狭帯域又は広帯域信号を出力し、後処理部２５５は、復元された超広帯域信号を出力できる。

前述したように、図１及び図２において開示した音声符号化器は、本発明において開示された発明が使用される一つの例示であって、本発明に係る技術的思想の範囲内で多様な応用が可能である。

上述したように、符号化器は、入力された音声信号からパラメータを抽出し、これを量子化してパケットに送信する。復号器は、符号化器から送信されたパケットを受信し、これに基づいて音声信号を復元する復号を行う。このとき、音声信号から抽出／送信され、受信／復号されるパラメータは、励起信号、ピッチ周期及びＬＰＣ係数を含む。ＬＰＣ係数は、量子化が困難であるため、ＬＰＣ係数に１対１に対応するイミタンススペクトル対（ＩｍｍｉｔｔａｎｃｅＳｐｅｃｔｒａｌＰａｉｒｓ、ＩＳＰ）係数に変換して送信することができる。

音声信号のうち、フォルマント成分は、線形予測（ＬＰ）によってモデル化することができる。その他の残余信号部分は、ピッチ検索によってモデル化することができ、ピッチ検索後の残余部分は、符号表による励起信号を通じて補正できる。

与えられた時点での音声信号は、先行音声信号の線形組合せ、すなわち線形予測によって近似でき、線形予測による信号と原本信号との間の誤差は、励起信号によって補償することができる。

このとき、線形予測において先行音声サンプルに適用される利得又は係数を線形予測（ＬＰ）又は線形予測係数（ＬＰＣ）という。上述したように、量子化のためにＬＰＣ係数はＩＳＰ係数に変換することができる。ＩＳＰは、ＬＰＣパラメータ（ＬＰＣ係数）を変換して得られる。例えば、ＩＳＰ係数は、逆フィルタ伝達関数を、奇対称（ｏｄｄｓｙｍｍｅｔｒｙ）を有する伝達関数と、偶対称（ｅｖｅｎｓｙｍｍｅｒｙ）を有する伝達関数とに分離して得られる多項式の根であってもよい。

ＩＳＰ係数の他にも、ＬＰＣ係数を変換した他の係数を音声信号符号化／復号に使用することができる。例えば、ＩＳＰ係数の他にもＬＳＰ係数、イミタンススペクトル周波数（ＩｍｍｉｔｔａｎｃｅＳｐｅｃｔｒａｌＦｒｅｑｕｅｎｃｉｅｓ、ＩＳＦ）係数、ＬＳＦ係数などを使用することができる。

ＬＳＰ係数は、ＩＳＰ係数と同様に、ＬＰＣ係数に基づいた逆フィルタ関数を利用して加法多項式（ｓｕｍｍａｔｉｏｎｐｏｌｙｎｏｍｉａｌ）及び減法多項式（ｓｕｂｔｒａｃｔｉｏｎｐｏｌｙｎｏｍｉａｌ）を構成して作られた奇対称伝達関数及び偶対称伝達関数の根であってよい。

求めようとする根の個数を考慮して、前記構成される多項式の項数に応じて、ＬＳＰとＩＳＰとを区分することができる。例えば、ＬＳＰは、１０次のＬＰＣ係数を変換するときに使用することができ、ＩＳＰは、１６次のＬＰＣ係数を変換するときに使用することができる。

ＩＳＦ係数とＬＳＦ係数とは、前述のＩＳＰとＬＳＰとをコサイン領域に対応付けた値である。

また、先行音声信号は、各ピッチ周期別に選択することができる。ピッチは、例えば、時間軸において周期的に現れるピークの周波数を意味し、音声信号の基本的な周波数と同じ周波数を有する。ピッチ周期は、誤差を最小化するループ検索（ＡｂＳ）を利用して検索した遅延（ｌａｇ）に基づいて決定することができる。

励起信号は、原本音声信号と、線形予測による音声信号との間の誤差を補償するための残余信号ということができる。励起信号は、符号表を介して指定することができる。

符号化器は、音声信号のフレーム別にＬＰＣ係数に関する情報（例えば、ＬＰＣ係数を導出するためのＩＳＰ係数）、ピッチ周期に関する情報（例えば、ピッチ周期を導出するためのピッチ遅延）、励起信号に関する情報（例えば、励起信号を導出するための符号表インデクス及び符号表利得）を量子化及び符号化して送信できる。

復号器は、ＩＳＰ係数から導出したＬＰＣ係数及び前記励起信号とピッチ情報とに基づいて、音声信号を復元できる。復号器は、符号化器から受信した情報のうち、符号表インデクスと利得とに基づいて励起信号を生成し、ピッチ遅延と利得とに基づいてピッチ周期を生成できる。復号器は、符号表からピッチ情報、利得、位置及び符号（ｓｉｇｎ）情報を取得して励起信号を生成することもできる。

ピッチ周期及び励起信号を導出するための符号表として、代数的符号表を使用してもよいし、適応的／固定的符号表を使用してもよい。適応的符号表は、各サブフレームに適した励起信号情報（励起信号ベクトル）を含み、ピッチ周期に対する遅延値を適応的符号表のインデクスから導出することもできる。固定的符号表は、スピーチ合成フィルタに対する励起ベクトルを含み、含んでいる内容は、固定された値を有することができる。

復号器はまた、ＩＳＰ係数を変換してＬＰＣ係数を生成できる。ＬＰＣ係数は、上述したＩＳＰへの変換過程を逆に適用して導出できる。

復号器は、復元された信号（ＬＰＣ係数、ピッチ周期、励起信号、等）を合成して、音声信号を復元できる。

以下、本明細書では、音声信号を復号するために必要なパラメータ（ＬＰＣ係数又はＩＳＰ係数、ピッチ周期、励起信号、等）を復号パラメータという。

後述するように、音声信号は、復号器から復号された後、ジッタバッファを経て、出力／再生装置に出力することができる。また、音声信号は、ジッタバッファを経て復号器で復号された後、音声出力／再生装置に出力することもできる。また、音声信号は、ジッタバッファ及び復号器において並列に処理することもできる。音声信号が並列に処理される場合に、音声信号は、ジッタバッファで記憶／管理され、復号器で復号されてもよく、一方、ジッタバッファの記憶／管理に必要な情報と、復号器の復号に必要な情報とをジッタバッファと復号器との間で送受信してもよい。

図３は、ジッタバッファに関する構成の一例を概略的に説明する図である。図３に示すように、ジッタバッファ３００は、受信部３１０、バッファ３２０、出力部３３０を備えることができる。

受信部３１０は、音声信号を受信することができる。受信される音声信号は、音声パケットであってもよいし、音声フレームであってもよい。受信部３１０は、符号化器から音声信号を受信してもよいし、復号器を介して音声信号を受信してもよい。

バッファ３２０は、音声信号を記憶し管理できる。記憶及び管理される音声信号は、音声パケットであってもよいし、音声フレームであってもよい。

出力部３３０は、再生（ｐｌａｙｂａｃｋ）時間に合わせて音声信号を出力できる。出力される音声信号は、音声パケットであってもよいし、音声フレームであってもよい。出力部３３０は、ジッタバッファにバッファされた音声信号を復号器に音声信号を出力することもできるし、再生装置（出力装置）に音声信号を出力することもできる。

ここでは、説明の便宜のために、ジッタバッファ３００が三つの構成を含むと説明したが、本発明はこれに限定されず、ジッタバッファ自体が音声信号の受信、管理／処理、出力を行うこともできる。

ジッタバッファは、ネットワーク上において発生するデータのジッタに関する問題を処理するためのバッファである。

ジッタは、音声情報を符号化してパケット化した音声パケットが目的地（例えば、復号器）に到着するときに発生する可変的なネットワーク遅延を意味し、パケットが送信されるネットワーク上において発生できる。例えば、ジッタは、パケットの優先順位を決定するルータ内の待ち行列（Ｑｕｅｕｅ）及び／又はＬＡＮ間の衝突など、色々な理由によって発生することがある。そのため、音声パケットは、特定の間隔で到着しないときもあり、これによって発生する問題を解決するためにジッタバッファが使用される。

言い換えれば、ジッタバッファの利用目的の一つは、入力されるデータの不規則性を調整することであると言える。

図４は、一般的なジッタバッファの一例を概略的に説明する図である。図４では、ジッタバッファのバッファが５個の音声パケットを待機させること（ｑｕｅｕｅｉｎｇ）ができるサイズを有する場合を例として説明している。

ジッタバッファは、バッファ（又は待ち行列）内に音声パケットを待機させ、音声パケットの実時間伝送プロトコル（ＲＴＰ）ヘッダ情報を利用して、音声パケットの生成順序と間隔とを解析し、これに基づいて音声パケットをバッファ内で順次に再配列できる。

図４に示すように、ジッタバッファに受信された音声パケットがバッファ（待ち行列）内にシーケンス１００（タイムスタンプ（ＴＳ）８０００）のパケット、シーケンス１０１（タイムスタンプ８１６０）のパケット、シーケンス１０２（タイムスタンプ８３２０）のパケット、シーケンス１０４（タイムスタンプ８６４０）のパケットの順に配列されている場合、シーケンス１０３（タイムスタンプ８４８０）のパケット４１０が入力されると、ジッタバッファは、パケットの生成順序を考慮してシーケンス１０３のパケットとシーケンス１０４のパケットの順序を変えて再整列する。

ジッタバッファ内の音声パケットは、順に最優先のパケット４２０から出力される。

ジッタバッファは、音声信号を除去又は生成して遅延受信又は損失などによる問題を解決できる。また、ジッタバッファは、待機中である音声信号の長さを考慮してジッタバッファのサイズを減少又は増加させることができる。

ジッタバッファを使用しない場合、音声信号の再生時間を一定に維持することが困難であるという問題がある。

図５は、ジッタバッファを使用しない場合の一例を概略的に示した図である。図５に示すように、音声パケットの送信側では、５個の音声パケットＰＫＴ１〜ＰＫＴ５を順に送信する。

音声パケットが送信端から送信される送信時間は、送信時間軸５１０上に表示されたとおりである。例えば、音声パケットＰＫＴ１〜ＰＫＴ５は、Ｔ_pktの時間間隔で各送信時間Ｔ_s1〜Ｔ_s5に送信される。このとき、時間間隔Ｔ_pktは、各音声パケットの再生時間であってよい。

音声パケットが受信端で受信される受信時間は、受信時間軸５２０上に表示されたとおりである。例えば、音声パケットＰＫＴ１〜ＰＫＴ５は、受信時間Ｔ_r1〜Ｔ_r5にそれぞれ受信される。図示のように、受信された音声パケットは、送信過程において多様な遅延要素の影響を受けることができ、特定の時間間隔で受信されないときもある。

各音声パケットが再生端で再生される再生時間は、再生時間軸５３０上に表示されたとおりである。例えば、音声パケットＰＫＴ１〜ＰＫＴ５は、再生時間Ｔ_pkt間隔で再生時間Ｔ_p1〜Ｔ_p5に出力されなければならない。しかしながら、音声パケットの受信は、特定の時間間隔でなされないときもあり、図示のように音声パケットＰＫＴ３と音声パケットＰＫＴ４とは、再生時間Ｔ_pktより大きな時間間隔をおいて受信することができる。

図５の例を考慮すれば、再生端でＰＫＴ４を再生しようとする時間Ｔ_p4にＰＫＴ４が受信されなかったため、再生端では、ＰＫＴ４を再生することができず、音質の損失が発生できる。

言い換えれば、ジッタバッファを使用しない場合には、Ｘ番目の音声パケットの受信時間Ｔ_rXが再生時間Ｔ_pXより遅れることがあり、これによる音質の損失が発生することがある。

受信時間と再生時間との間の逆転又は受信遅延による再生遅延／不可の問題を解決するために、ジッタバッファは、十分な音声パケットを待機させ、再生端での周期的なパケット要求に対応する。図４のパケット４２０のようにジッタバッファに初めて受信される音声パケットは、再生要求に対応して最も先に出力することができる。

ジッタバッファは、音声パケットのＲＴＰヘッダ情報に基づいて各音声パケットの生成間隔／時間に応じて音声パケットの補償を行うことができる。例えば、同じ生成間隔を有する音声パケットを生成することもあるし、同じ時間帯の音声パケットのうち、少なくとも一つを削除することもある。これによって、ジッタバッファは、再生される音声パケットによる音質の損失を最小化できる。

図６は、ジッタバッファ管理の一例を概略的に説明する図である。図６では、５個の音声パケットが送信／受信／管理／再生される場合を例として説明する。

図６に示すように、音声パケットが送信端から送信される送信時間は、送信時間軸６１０上に表示されたとおりである。例えば、音声パケットＰＫＴ１〜ＰＫＴ５は、Ｔ_pktの時間間隔で各送信時間Ｔ_s1〜Ｔ_s5に送信される。このとき、時間間隔Ｔ_pktは、各音声パケットの再生時間であってよい。

音声パケットが受信端で受信される受信時間は、受信時間軸６２０上に表示されたとおりである。例えば、音声パケットＰＫＴ１〜ＰＫＴ５は、受信時間Ｔ_r1〜Ｔ_r5にそれぞれ受信される。図示のように、受信された音声パケットは、送信過程において多様な遅延要素の影響を受けることもあるし、特定の時間間隔で受信されないこともある。

音声パケットは、図５の場合とは異なり、ジッタバッファに伝達される。音声パケットがジッタバッファに入力される時間は、ジッタバッファ時間軸６３０上に表示されたとおりである。例えば、音声パケットＰＫＴ１〜ＰＫＴ５は、ジッタバッファ入力時間Ｔ_j1〜Ｔ_j5にジッタバッファに入力される。ジッタバッファは、所定の時間の間に該当音声パケットを記憶した後、音声パケット別再生時間に合わせて再生端に伝達できる。

音声パケットが再生端で再生される再生時間は、再生時間軸６４０上に表示されたとおりである。例えば、音声パケットＰＫＴ１〜ＰＫＴ５は、再生時間Ｔ_pkt間隔で再生時間Ｔ_p1〜Ｔ_p5に出力される。図５の場合と比較して、Ｘ番目の音声パケットは、図５の再生時間Ｔ_pXよりバッファ時間Ｔ_j分だけが経過した後に再生端で再生される。

図６に示すように、図５の場合と同様に、４番目の音声パケットＴＰＫ４は、ジッタバッファの入力予定時間であるＴ_j4より遅いＴ_r4に受信されたが、バッファ時間Ｔ_j内に受信されて、ＴＰＫ４に対する再生は、再生時間Ｔ_p4に円滑に行うことができる。

ジッタバッファから提供するバッファ時間Ｔ_jが大きいほど、送信遅延による音質劣化は減少できるが、ジッタバッファ内で追加遅延が発生できる。したがって、音質劣化と遅延とは、Ｔ_j値に比例したトレードオフ関係にある。

音質劣化と遅延との関係を最適化し、再生性能を改善するために、ジッタバッファの制御／管理が必要となる。ジッタバッファ内の音声パケット（又は音声フレーム）は、ＲＴＰヘッダに含まれたシーケンス番号フィールドとタイムスタンプフィールドとによって特定することができ、これに基づいて処理することができる。

タイムスタンプフィールドは、音声パケットが再生される時点を示す。シーケンス番号フィールドは、音声パケットごとに増加される番号をジッタバッファ（又はジッタバッファの制御を行う装置）に提供して、音声パケットがジッタバッファ内で順に配列されるようにする。

待機させられた音声パケットは、各々の再生時間に合わせて順次再生される。これと関連して、ジッタバッファの管理が必要な場合の二つの例として、ジッタバッファが音声パケットで一杯になった場合と、ジッタバッファ内の音声パケットの個数が最小サイズのバッファが収容できる音声パケットの個数より少ない場合とがある。

ジッタバッファが音声パケットで一杯になって音声パケットをそれ以上バッファに収容できない場合は、長時間送信遅延が減少して音声パケットが到着するか、又はいくつかの音声パケットが同時に到着するときにも発生することがあり、送信側の録音部で発振誤差（例えば、与えられた標本化速度より速い場合）があるか、又は受信側再生部で発振誤差（例えば、与えられた標本化速度より遅い場合）がある場合にも発生することがある。この場合に、ジッタバッファは、再生手順においてジッタバッファ内の音声パケットを省略（ｄｒｏｐ）するか、又はオーディオ信号を圧縮することによって問題を解決できる。

ジッタバッファ内の音声パケットの個数が不足して音声パケットが円滑に再生されない場合は、音声パケットの送信遅延が長時間増加したか、及び／又は音声パケットが損失したか、又は送信側録音部で発振誤差（例えば、与えられた標本化速度より遅い場合）があるか、又は受信側再生部で発振誤差（例えば、与えられた標本化速度より速い場合）がある場合に発生することがある。この場合には、音声パケットを生成したり、音声信号の長さを伸張したりして問題を解決できる。

図７は、ジッタバッファの制御が必要な場合の例を概略的に示した図である。図７に示すように、音声パケットが送信端から送信される送信時間は、送信時間軸７１０上に表示されたとおりであり、音声パケットが受信端で受信される受信時間は、受信時間軸７２０上に表示されたとおりである。

音声パケットがジッタバッファに入力される時間は、ジッタバッファ時間軸７３０上に表示されたとおりである。また、音声パケットが再生端で再生される再生時間は、再生時間軸７４０上に表示されたとおりである。

図７の例では、送信遅延によってＰＫＴ３、ＰＫＴ４、ＰＫＴ５のジッタバッファ入力時間がＴ_j5に集中している。したがって、ＰＫＴ３及びＰＫＴ４の再生時間Ｔ_p3とＴ_p4では、再生する音声パケットがジッタバッファに存在しない。

したがって、ジッタバッファの管理を再生時間に合わせて考慮すると、再生時間Ｔ_p3及びＴ_p4では、先に言及したジッタバッファ内の音声パケットが不足するという問題が発生し、再生時間Ｔ_p5では、先に言及した音声パケットによって突然、ジッタバッファが一杯になるという問題が発生する。

ジッタバッファ又は再生端では、ジッタバッファ内に記憶された音声パケットを再生するために、ジッタバッファ内の最上位パケットのシーケンス番号とタイムスタンプとを確認する。例えば、予想増加分だけシーケンス番号が増加した場合には、該当音声パケットを再生することができる。これに対し、予想増加分だけ順次に増加したシーケンス番号でない場合（例えば、以前に再生された音声パケットよりシーケンス番号が１だけ大きくない場合）には、パケット損失があると判断し、これを補償するための手順を実行することができる。

音声パケットの損失があると判断した場合、損失が発生したパケット（フレーム）を補完するための代替情報（例えば、代替音声フレーム又は代替音声パケット）を生成し、該生成した代替情報を再生する方法を考慮できる。ジッタバッファ内に記憶された音声パケットがないとき、白色雑音フレームを利用する再生方法と信号の長さを伸張して再生する方法などを利用して、特定の期間に損失パケットを補償する方法も利用できる。

一方、上述したように、ジッタバッファの大きさが余りに小さいときは、ジッタバッファは、音声パケットのジッタを十分に処理することが困難である。また、ジッタバッファが容易に一杯になることによって、新しい音声パケットを入力することが困難になる。

これに対し、ジッタバッファの大きさが余りに大きいときは、ジッタバッファは、過度な再生遅延を引き起こすこともある。

したがって、音声信号の信号品質を低下させずに、遅延無しで音声再生がなされるようにするために、効果的にジッタバッファの大きさを調整するか、又は音声情報を補償できる方法が必要となる。

このとき、再生端で要求した最上位音声パケットだけを考慮せずに、音声パケットの種類を考慮して、例えばジッタバッファ内の音声パケットに対する重要度に基づいて音声情報の補償が行われるようにすることができる。

音声信号は、有音区間と無音区間とから構成することができる。音声パケットが有音に該当するか、無音に該当するかは、符号化された音声パケットのフレーム種別（ＦＴ）指示子を介して指示することができる。また、音声パケットが復号された後、別途の分類（ｃｌａｓｓｉｆｉｃａｔｉｏｎ）ブロック、例えば音声活動検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ、ＶＡＤ）を介して該当音声パケットが有音に該当しているか、無音に該当しているかを指示することができる。

一般に、無音区間の信号編集は、有音区間の信号編集に比べて音声品質に及ぼす影響が相対的に少ない。したがって、こういう特性を利用してジッタバッファ内の音声パケットの重要度を決定できる。

ジッタバッファは、決定された音声パケットの重要度に基づいてジッタバッファ制御を行うことができ、音声パケットの重要度に基づいてジッタバッファを管理／制御することによって、ジッタバッファ制御による音声の歪みの頻度を減らし、音声品質を改善できる。

具体的には、ジッタバッファ管理／制御の対象になる音声パケットの重要度は、次の順序によって決定することができる。例えば、最も先にジッタバッファ管理の対象になる音声パケットを決定し、その次にジッタバッファ管理の対象になる音声パケットを決定する方式によって、ジッタバッファ管理の対象になる音声パケットの順位を決定できる。

第１順位でジッタバッファ制御の対象になりうる音声パケットは、連続的な無音区間の中間に位置する音声パケットである。例えば、広帯域適応多速度符号化方式（ＡｄａｐｔｉｖｅＭｕｌｔｉ−ＲａｔｅＷｉｄｅＢａｎｄ、ＡＭＲ−ＷＢ）の場合、連続的な無音区間の中間パケットを不連続送信（ＤＴＸ）パケットとして決定することができる

第２順位でジッタバッファ制御の対象になりうる音声パケットは、単一の無音区間に位置する音声パケットである。例えば、ＡＭＲ−ＷＢの場合、単一の無音区間パケットは、ＳＩＤパケットとして決定することができる。

第３順位でジッタバッファ制御の対象になりうる音声パケットは、ジッタバッファ内の最も前方に位置する音声パケットである。

音声パケットの重要度は、上記の処理対象順位の逆順といえる。したがって、重要度が最も低い音声パケットは、連続的な無音区間の中間に位置する音声パケットであり、次に重要度の低い音声パケットは、単一の無音区間に位置する音声パケットであり、その次に重要度の低い音声パケットは、バッファ内で最も前方に位置する音声パケットである。

ジッタバッファは、バッファ内の音声パケットを制御するときに、連続的な無音区間の中間に位置する音声パケット→単一の無音区間に位置する音声パケット→ジッタバッファ内の最も前方に位置する音声パケット、の優先順位に応じて制御対象音声パケットを選択できる。

図８は、ジッタバッファで音声情報の補償を行う場合に、ジッタバッファ内の音声フレームの重要度を決定する方法の一例を概略的に説明する図である。

図８では、ジッタバッファの現在大きさ８１０が最大９個の音声パケットをバッファに記憶できるように設定されている場合を例として説明する。図８に示すように、音声パケットＰ₀、Ｐ₁、Ｐ₂、Ｐ₇は、有音信号であり、音声パケットＰ₃、Ｐ₄、Ｐ₅、Ｐ₆、Ｐ₈は、無音信号である。

上述した音声パケットの重要度決定方法によってジッタバッファ制御の対象を決定すると、図８の例において第１順位の制御対象は、連続的な無音区間であるＰ₃〜Ｐ₆の中間に位置する音声パケットＰ₄、Ｐ₅になる。図８の例において第２順位の制御対象は、単一の無音パケット８３０で、音声パケットＰ₃、Ｐ₆、Ｐ₈が対象になる。図８の例において第３順位の制御対象は、バッファ内で最も前方に位置するパケットＰ₀８４０が対象になる。

本発明では、上述したように音声パケットの重要度に基づいてジッタバッファ管理を行う。ジッタバッファは、バッファ内の音声パケットの重要度を決定し、音声情報の補償が必要な場合に、重要度に基づいて選択された音声パケットから始まる音声パケットを、ジッタバッファ管理の対象として処理してもよい。

図９は、音声フレームの補償を含むジッタバッファの管理方法の一例を概略的に説明するフローチャートである。ジッタバッファ管理は、バッファの大きさ調整とバッファ内の音声情報の補償とを含み、ジッタバッファの調整と表現できる。

図９に示すように、ジッタバッファは、音声パケット（音声フレーム）を受信する（Ｓ９１０）。音声パケットは、復号器から送信されてもよく、符号化器からビットストリームを介して直に送信されてもよい。

ジッタバッファは、受信した音声パケットに基づいてジッタバッファの調整を行うことができる（Ｓ９２０）。

ジッタバッファの調整（ジッタバッファ管理）は、バッファの大きさ調整とバッファ内の音声情報の補償とを含む。

バッファの大きさ調整は、バッファの最大大きさと最小大きさとの間でバッファ大きさを減少又は増加させる方式によって行うことができる。

音声情報の補償は、音声情報の除去と音声情報の生成とを含む。音声情報は、音声パケットであってもよいし、音声フレームであってもよい。音声フレーム又は音声パケットの除去は、音声信号の補償とみなしてもよいし、音声フレームの生成又は音声パケットの生成は、音声信号の伸張とみなしてもよい。

一般に、音声情報の補償を行う場合には、音声パケット単位又は音声フレーム単位で音声情報を除去又は生成する。また、音声情報は、ビットストリームレベル又は復元が完了した音声信号のレベルで除去／圧縮又は生成／伸張される。

これと関連して、音声情報が音声パケット又は音声フレーム単位で補償が行われる場合は、一度に消失又は生成される情報がフレーム長又はそれ以上になるため、連続した音声情報の損失によって音質の劣化を引き起こす。したがって、音声情報の補償を音声フレームのサブフレーム単位で行う方法を考慮してもよい。

また、ビットストリームレベル又は復元が完了した音声信号のレベルで補償が行われる場合は、基本信号の損失又は計算量の増加を引き起こすことがある。したがって、音声情報の補償をビットストリームレベルの情報と復元された音声信号との中間領域といえる復号パラメータレベルで行う方法を考慮してもよい。

本明細書における復号パラメータは、ビットストリームを復号して音声信号に合成／復元する前の情報であって、ＬＰＣ係数又はＬＰＣ係数を導出するためのＩＳＰ係数、ピッチ周期、励起信号成分又は励起信号成分を導出するための符号表インデクスなどを含む。

図１０は、ジッタバッファの調整方法の一例を概略的に説明する図である。

図１０に示すように、ジッタバッファは、音声パケットを受信する場合にジッタバッファの調整を行うことができる（Ｓ１０１０）。これを音声情報受信時のジッタバッファの調整又はジッタバッファ管理という。

ジッタバッファは、音声パケットを受信すると、現在バッファの状態に基づいてバッファの大きさを調整できる。例えば、ジッタバッファは、現在バッファが一杯になって新しい音声パケットを収容できない場合には、ジッタバッファの大きさを調整して新しい音声パケットを収容する空間を確保することができる。

また、ジッタバッファは、バッファ内の音声情報の補償を行うこともできる。

ジッタバッファは、再生要求がある場合に、ジッタバッファの調整を行うことができる（Ｓ１０２０）。これを再生要求時のジッタバッファの調整又はジッタバッファ管理という。

ジッタバッファは、再生要求がある場合、現在バッファの状態に基づいてバッファの大きさを調整できる。例えば、ジッタバッファは、現在バッファが空いていて再生する音声フレームがないか、又は現在バッファ内の音声フレームの個数が少なくて再生が遅れる恐れがある場合には、バッファの大きさを調整してバッファ時間を減少させることができる。

また、ジッタバッファは、バッファ内の音声情報に対する補償を行うこともできる。

ネットワーク上の問題又は発振誤差などによってジッタが発生した場合、図１０にようにジッタバッファは、音声情報に対する補償を行うか、又はバッファの大きさを調整して、再生がスムーズになされるように管理できる。

上述したように、本発明におけるジッタバッファ管理による音声情報の補償は、サブフレーム単位に復号パラメータレベルで行うことができる。ビットストリームを介して送信される音声パケットは、少なくとも一つの音声フレームを含むことができる。

構文解析によって音声パケットから音声フレームとこれに対するパラメータを抽出することができる。

したがって、音声パケットがパラメータを有する音声フレームに構文解析又は復号される位置と関連して、本発明に係るジッタバッファ構成は、図３を参照すれば、下記の５種類の構成のうちのいずれか一つであってよい。

（ｉ）ビットストリームを受信部３１０で直接受信し、ジッタバッファ３００又はジッタバッファ３００のバッファ３２０が音声パケットを復号して、復号パラメータレベルの情報を有する音声フレームをバッファ３２０に記憶しながら、復号パラメータに基づいてジッタバッファ管理を行う構成

（ｉｉ）復号器から復号パラメータレベルの情報を有する音声フレームを受信部３１０で受信してバッファ３２０に記憶し、復号パラメータに基づいてジッタバッファ管理を行う構成

（ｉｉｉ）ビットストリーム（音声パケット）を直接受信部３１０で受信してバッファ３２０に記憶し、必要な場合に復号器又は復号器の一部モジュールを呼び出して、復号パラメータレベルの情報を有する音声フレームを取得してジッタバッファ管理を行う構成

（ｉｖ）ビットストリーム（音声パケット）を直接受信部３１０で受信してバッファ３２０に記憶し、必要な場合、ジッタバッファ３００又はジッタバッファ３００のバッファ３２０が復号パラメータレベルの情報を有する音声フレームを音声パケットから取得して、ジッタバッファ管理を行う構成

（ｖ）ジッタバッファ３００が復号器の一部構成として復号器に含まれ、音声パケットから取得された音声フレームをバッファ３２０で記憶及び管理し、復号手順に合わせて出力する構成

したがって、（ｉ）及び（ｉｖ）の場合、音声情報は、ジッタバッファ→復号器の順に伝達することができ、（ｉｉ）の場合、音声情報は、復号器→ジッタバッファの順に伝達することができる。また、（ｉｉｉ）の場合、ジッタバッファ及び復号器は、並列にデータを処理することができ、音声情報は、必要な場合、ジッタバッファと復号器との間で送受信することができる。

（ｉ）及び（ｉｉ）の場合、ジッタバッファは、復号パラメータレベルの情報を有する音声フレームを記憶し、サブフレーム単位でジッタバッファ管理が行うことができる。（ｉｉｉ）及び（ｉｖ）の場合、ジッタバッファは、音声パケットを記憶し、必要な場合に復号パラメータレベルの情報を有する音声フレームを取得して、サブフレーム単位で音声情報の補償を行うことができる。

これと関連して、音声フレームに対するジッタバッファ管理が行われる場合には、音声パケットに対する重要度決定方法を音声フレームに対しても適用できる。ジッタバッファが音声フレームを記憶及び管理する場合に、第１順位でジッタバッファ管理の対象になることができる音声フレームは、連続的な無音音声フレームであり、第２順位でジッタバッファ制御の対象になることができる音声フレームは、連続的でない無音音声フレームであり、第３順位でジッタバッファ制御の対象になることができる音声フレームは、ジッタバッファ内の最も前方に位置する音声フレームである。

ジッタバッファで管理された音声情報は、復号器を経て再生装置（出力装置）に送信してもよいし、復号器を経ないで再生装置の出力バッファに送信してもよい。例えば、ジッタバッファが復号パラメータレベルの情報として復号が必要な音声情報をバッファに記憶及び管理する場合には、復号器で復号された後、再生装置に出力してもよい。

以下、ジッタバッファ管理について、パケット受信時のジッタバッファの調整と再生要求時のジッタバッファの調整とに分けて説明する。

パケット受信時のジッタバッファの調整

図１１は、パケット受信時のジッタバッファの調整方法に関する一例を概略的に説明するフローチャートである。図１１では、前記（ｉｉｉ）又は（ｉｖ）の場合であって、ジッタバッファがバッファ内に音声パケットを記憶してジッタバッファ管理を行う場合を例として説明する。したがって、上述したように、サブフレーム単位で復号パラメータレベルの音声情報補償を行うために、ジッタバッファは、必要な情報を復号器から取得するか、又はジッタバッファが音声パケットから抽出できる。

図１１に示すように、ジッタバッファは、音声パケットを受信する（Ｓ１１００）。

ジッタバッファは、現在バッファが音声パケットで一杯になっているかどうかを判断する（Ｓ１１１０）。

バッファが音声パケットで一杯になっている場合、ジッタバッファは、バッファ内の音声パケットに対する重要度を決定できる（Ｓ１１２０）。上述したように、連続的な無音区間の中間に位置する音声パケットの重要度が最も低く、単一の無音区間に位置する音声パケットの重要度が次に低く、バッファ内の最も前方に位置する音声パケットの重要度が最も低い。

ジッタバッファは、現在バッファ内の音声パケットのうち、重要度の最も低い音声パケットを処理する（Ｓ１１３０）。ジッタバッファは、重要度の最も低い音声パケットを除去できる。音声パケットが除去された場合には、これを指示する除去情報（例えば、除去されたことを指示するフラグであるＤｅｌ＿ｆｌａｇ）を設定できる。除去情報は、再生要求時に参照されて該当音声情報が存在しないということをジッタバッファ、復号器又は再生装置などに知らせることができる。

重要度の低い音声パケットの処理が該当パケットの削除である場合に、ジッタバッファは、音声フレームに属するサブフレーム単位に復号パラメータレベルで音声情報を削除する補償を行うために、音声フレーム及びサブフレームに対する復号パラメータを取得できる。音声フレーム及びサブフレームに対する復号パラメータは、上述したように、復号器から取得してもよいし、ジッタバッファが自体的に復号を行って取得してもよい。

ジッタバッファは、重要度の低い音声パケットを処理した後に、現在ジッタバッファのバッファ大きさとジッタバッファの最大バッファ大きさとを比較できる（Ｓ１１４０）。

現在バッファの大きさが最大バッファの大きさより小さな場合、ジッタバッファは、現在ジッタバッファのバッファ大きさを増加させることができる（Ｓ１１５０）。バッファが音声パケットで一杯になっているため、バッファ内に空間を確保する必要があり、現在バッファの大きさが最大バッファの大きさより小さく、バッファの大きさを増やす余地がある場合、ジッタバッファは、現在ジッタバッファのバッファ大きさを増加させることができる。

具体的には、ジッタバッファのバッファ大きさは、バッファ内で記憶されうる音声パケットの個数に対応して決定することができる。ジッタバッファの大きさＴｊｉｔは、最小ジッタバッファの大きさＴｊｍｉｎと、最大ジッタバッファの大きさＴｊｍａｘとの間の値を有することができる。

ジッタバッファの大きさＴｊｉｔは、音声パケット当たりの再生時間であるＴ_pkt単位で大きさを調整できる。このとき、Ｔｊｍｉｎ及びＴｊｍａｘは、ネットワーク状況などを考慮してＴ_pkt単位で可変的に設定することができる。

例えば、通話中の端末間の遅延（ｅｎｄ−ｔｏ−ｅｎｄｄｅｌａｙ）がＴｄ以下になるように設定すると、最大ジッタバッファの大きさＴｊｍａｘは、式１の関係を満たす。
（式１）
Ｔｊｍａｘ≦Ｔｄ-Ｔｐｋｔ-Ｔｅｔｃ１

式１中、Ｔｅｔｃ１は、ネットワーク上において発生するその他の遅延要素による遅延時間を意味する。例えば、その他の遅延要素には、後処理フィルタ、ネットワーク中継器の問題、送信端録音部及び受信端再生部の発振誤差など固定的遅延要素が含まれ、端末間の遅延であるＴｄは、一般に用いられる端末間の遅延臨界値である１５０ｍｓなどに設定することができる。

式１の関係を満たし新しく設定されるジッタバッファのバッファ大きさＴｊｉｔは、式２のように表すことができる
（式２）
Ｔｊｉｔ＝Ｔｊｉｔ＋Ｔｐｋｔ，Ｔｊｉｔ≦Ｔｊｍａｘ

ジッタバッファのバッファが一杯になっていない場合に、ジッタバッファは、受信した音声パケットをバッファに追加できる（Ｓ１１６０）。ジッタバッファのバッファが一杯になっていない場合は、ステップＳ１１１０にてジッタバッファのバッファが一杯になっていない場合、ステップＳ１１４０にてジッタバッファの現在バッファ大きさが最大サイズである場合、又はステップＳ１１５０にてジッタバッファのバッファ大きさが増加された場合のうちのいずれか一つであってよい。

ジッタバッファは、バッファ内の音声パケットのシーケンス番号とタイムスタンプ番号とを比較できる（Ｓ１１７０）。タイムスタンプ番号は、音声パケットが再生される時点を表し、シーケンス番号は、音声パケットごとに増加される番号をジッタバッファに提供して、音声パケットがジッタバッファ内で順に配列されるようにする。

ジッタバッファは、バッファ内にある音声パケットを再配置できる（Ｓ１１８０）。例えば、ジッタバッファは、バッファ内にある音声パケットを各パケットのシーケンス番号に従って順に再配置できる。

ジッタバッファは、現在タイムスタンプの値に基づいて音声パケットを省略（ｄｒｏｐ）できる（Ｓ１１９０）。例えば、ジッタバッファは、ジッタバッファのバッファ内にある音声パケットのタイムスタンプを確認し、現在再生時間以前のタイムスタンプ（現在再生時間に該当するタイムスタンプ値より小さな値のタイムスタンプ）を有する（複数の）音声パケットがある場合、該当音声パケットを省略できる。

図１１では、音声パケット受信時に行うことのできるジッタバッファの調整の内容をすべて説明しているが、ジッタバッファは、上述したジッタバッファの調整をすべて行ってもよいし、ジッタバッファの調整に関する動作のうち、必要な動作だけを選択的に行ってもよい。

また、図１１では、ジッタバッファが上述した（ｉｉｉ）又は（ｉｖ）の構成を有する場合を例として説明したが、本発明は、これに限定されず、ジッタバッファが（ｉ）又は（ｉｉ）の構成を有する場合にも同様に適用できる。

ジッタバッファが（ｉ）及び（ｉｉ）の構成を有する場合、ジッタバッファは、上記のステップＳ１１００〜１１９０を、音声パケットではなく音声フレームを対象に実行することができる。このとき、ジッタバッファは、ステップＳ１１００にて音声パケットでなく復号パラメータレベルの情報を有する音声フレームを受信又は取得し、これをバッファに記憶及び管理する。

再生要求時のジッタバッファの調整

図１２は、再生要求時におけるジッタバッファの調整を行う方法の一例を概略的に説明するフローチャートである。図１２では、説明の便宜のために、ジッタバッファが上述した（ｉｉｉ）又は（ｉｖ）の構成を有する場合を例として説明する。したがって、上述したように、サブフレーム単位に復号パラメータレベルで音声情報補償を行うために、ジッタバッファは、必要な情報を復号器から取得するか、又はジッタバッファが音声パケットから抽出できる。

図１２を参照すると、再生端（再生装置）から再生要求がある場合に、ジッタバッファは、現在のバッファが空いているかどうかを判断できる（Ｓ１２００）。例えば、ジッタバッファは、再生要求がある場合に、バッファ内に再生に必要な音声パケットが十分に存在しているかどうかを判断できる。

バッファが空いていると判断した場合に、ジッタバッファは、現在バッファの大きさ（ジッタバッファの大きさ）が最小ジッタバッファの大きさより大きいかどうかを判断できる（Ｓ１２１０）。

ジッタバッファの現在バッファ大きさが最小ジッタバッファの大きさより大きい場合、ジッタバッファは、ジッタバッファのバッファ大きさを減少できる（Ｓ１２２０）。バッファに音声パケットがないか、又は余りに少なくてバッファに留まる時間を減らす必要がある場合、ジッタバッファは、現在ジッタバッファのバッファ大きさを減少させることができる。

具体的には、ジッタバッファの大きさＴｊｉｔは、最小ジッタバッファの大きさＴｊｍｉｎと最大ジッタバッファの大きさＴｊｍａｘとの間の値を有することができ、音声パケット当たりの再生時間であるＴ_pkt単位で大きさが調整することができる。このとき、Ｔｊｍｉｎ及びＴｊｍａｘは、ネットワーク状況などを考慮して、Ｔ_pkt単位で可変的に設定することができる。

例えば、最大ジッタバッファの大きさＴｊｍｉｎは、少なくとも音声パケット当たりの再生時間であるＴ_pktより大きくなるように設定することができるため、式３の関係を満たす。
（式３）
Ｔｊｍｉｎ≧Ｔｐｋｔ＋Ｔｅｔｃ２

式３中、Ｔｅｔｃ２は、その他の遅延要素による遅延時間を意味する。その他の遅延要素は、再生端で発振素子の誤差によって発生する再生周波数誤差などを含む。

式３の関係を満たし、新しく設定されるジッタバッファのバッファ大きさＴｊｉｔは、式４のように表すことができる
（式４）
Ｔｊｉｔ＝Ｔｊｉｔ−Ｔｐｋｔ，Ｔｊｉｔ≧Ｔｊｍｉｎ

一方、再生要求時にジッタバッファが空いていない場合（再生に必要な音声パケットが十分な場合）、ジッタバッファは、バッファ内の音声パケットのシーケンス番号が音声パケットが配置された順序に従って順次に増加しているか、又は除去フラグ（Ｄｅｌ−ｆｌａｇ）が設定されているかを判断できる（Ｓ１２３０）。

ジッタバッファは、バッファ内の音声パケットのシーケンス番号が順次に増加しているか、又は除去フラグが設定されているかを判断して、音声情報の補償が必要であるかどうかを決定できる。

例えば、ジッタバッファは、バッファ内の音声パケットのシーケンス番号が順次に増加しているかどうかを判断することによって、音声情報の補償によって新しい音声パケットを生成する必要があるかどうかを決定できる。このとき、除去情報（ｄｅｌ＿ｆｌａｇ）が設定されているとき、ジッタバッファは、除去情報の設定された音声パケットが除去されたと判断できる。

シーケンス番号が順次に増加していないか、又は除去情報（ｄｅｌ＿ｆｌａｇ）が設定されている場合、又はジッタバッファの現在バッファの大きさが最小ジッタバッファの大きさと同一であるか、又はジッタバッファのバッファ大きさが減少した場合、必要なときに、ジッタバッファは、音声情報の補償を行うことができる（Ｓ１２４０）。

ジッタバッファは、音声パケットの重要度に基づいて音声情報の生成を行うことができる。このとき、ジッタバッファは、音声フレームに属するサブフレーム単位に復号パラメータレベルで音声情報を生成するために、音声フレーム及びサブフレームに対する復号パラメータを取得できる。音声フレーム及びサブフレームに対する復号パラメータは、上述したように、復号器から取得してもよいし、ジッタバッファが自体的に復号を行って取得してもよい。

シーケンス番号が順次に増加しており、除去情報（ｄｅｌ＿ｆｌａｇ）が設定されていない場合には、音声情報の補償無しで音声パケットが復号することができる（Ｓ１２５０）。音声パケットの復号は、復号器で行うことができる。シーケンス番号が順次に増加しており、除去フラグが設定されていない場合に、ジッタバッファは、音声パケットを復号器に送信できる。復号器は、受信された音声パケットを復号して（複数の）音声フレームを生成できる。

音声フレームは、出力装置（再生装置）の出力バッファに追加することができる（Ｓ１２６０）。

出力装置は、音声フレームが順次に再生されるようにするために、再生シーケンス番号を更新できる（Ｓ１２７０）。

音声フレームは、ユーザに順次に伝達することができる（Ｓ１２８０）。音声フレームは、出力装置からユーザに順次に伝達されて再生される。

図１２では、音声パケット受信時に行うことのできるジッタバッファの調整の内容をすべて説明しているが、ジッタバッファは、上述したジッタバッファの調整をすべて行ってもよいし、ジッタバッファの調整に関する動作のうち、必要な動作だけを選択的に行ってもよい。

また、図１２では、ジッタバッファが先に説明した（ｉｉｉ）又は（ｉｖ）の構成を有する場合を例として説明したが、本発明は、これに限定されず、ジッタバッファが（ｉ）又は（ｉｉ）の構成を有する場合にも同様に適用できる。

ジッタバッファが（ｉ）及び（ｉｉ）の構成を有する場合、ジッタバッファは、前記ステップＳ１２００〜１２８０を、音声パケットではなく音声フレームを対象として実行することができる。このとき、ジッタバッファは、音声フレームをバッファに記憶及び管理するため、音声フレームに属するサブフレーム及びこれに対する復号パラメータを利用して、ジッタバッファ管理を行うことができる。例えば、復号ステップでは、復号パラメータを利用して音声フレーム単位で音声信号を復元する復号を行うことができる。

以下、音声パケット受信時のジッタバッファの調整及び再生要求時のジッタバッファの調整に適用することができる音声情報の補償方法について具体的に説明する。

上述したように、音声情報の補償は、音声情報の除去と音声情報の生成とを含む。図１１及び図１２に示すように、音声情報の除去は、音声パケット受信時のジッタバッファの調整に適用され（例えば、ステップＳ１１３０）、音声情報の生成は、再生要求時のジッタバッファの調整に適用することができる（例えば、ステップＳ１２４０）。

ジッタバッファの管理方法として音声情報の処理は、復号パラメータレベルの他にも、従来の方式によってビットストリームレベルで行ってもよいし、音声信号レベルで行ってもよい。

図１３は、ビットストリームレベルでジッタバッファ管理が行われる一例を概略的に示した図である。図１３では、音声フレームを除去（ｄｅｃｉｍａｔｉｏｎ）する方法によってジッタバッファ管理が行われる例を説明している。

ジッタバッファは、バッファが一杯になっている場合、ビットストリームから除去するフレームを決定し、選択されたフレームを除去できる。図１３を参照すれば、ｎ番目の音声フレームを除去する場合に、ビットストリームレベルでｎ番目のフレームを除去してジッタバッファ管理が行われる。

図１３の場合、ジッタバッファは、音声フレーム単位で情報を処理するため、復号器の出力端に位置して復号器から復号された音声情報を受信し、これを記憶／管理できる。

図１４は、音声信号レベルでジッタバッファ管理が行われる一例を概略的に示した図である。図１４では、音声信号の長さを減らしてジッタバッファ管理を行う場合を例として説明している。

ジッタバッファは、バッファが一杯になっている場合、ビットストリームを音声信号に復元し、復元された信号を時間調整修正（ＴｉｍｅＳｃａｌｉｎｇＭｏｄｉｆｉｃａｔｉｏｎ、ＴＳＭ）技術を適用して、音声信号の長さを減らすことができる。図１４に示すように、ジッタバッファ管理後、ｎ−１番目の音声フレーム、ｎ番目の音声フレーム及びｎ＋１番目の音声フレームの全体長が全体的な音声信号のパターンを維持したまま、一つの音声フレーム長分だけ減る。

図１４の場合、ジッタバッファは、音声信号を処理するため、復号器の出力端に位置して復号器から復元された音声情報を受信し、これを記憶／管理できる。

一方、図１３の例のように、ビットストリームレベルでフレーム単位に音声情報を除去してジッタバッファ管理を行う場合には、簡単な演算によってジッタバッファの調整が可能であるが、一つの音声フレームに該当する音声情報（音声信号）が一度に除去されるため、音質劣化が大きい。

また、図１４の例のように、音声信号レベルでジッタバッファ管理を行う場合には、音声再生速度を高くする効果が発生し、損失になる音声情報がビットストリームレベルでジッタバッファ管理を行う場合に比べて少なくなるが、符号化器／復号器の複雑度が増加する。

したがって、本発明では、上述したように、音声フレームのサブフレーム単位に復号パラメータレベルでジッタバッファ管理を行うと、音質の劣化を避け、かつ処理過程の複雑度を減らすことができる。

本発明のように、音声フレームに属するサブフレーム単位に復号パラメータレベルでジッタバッファを管理する場合に、ジッタバッファは、復号器の出力端に位置する図１３及び図１４の例とは異なり、上記の（ｉ）〜（ｖ）において説明したように、復号器に情報を出力したり、復号器から情報を受信したりすることができる。

図１５は、音声フレームのサブフレーム単位で音声情報の補償を行う一例を概略的に説明する図である。

上述したように、ジッタバッファ管理を行う過程において音声フレーム単位で音声信号が除去されたとき、一度に損失になる音声信号が音声フレームの長さと同一であるため、音質劣化が大きくなる。

図１５の例では、連続して損失になる音声信号の成分を減らすために、サブフレーム単位で音声信号を除去する。

図１５に示すように、図１３及び図１４の場合と比較すると、除去される音声信号は、一つのフレームで同一であるが、図１５の例では、除去対象音声フレームのサブフレームで隣接フレームのサブフレームを代替する方式で音声信号の除去を行うことができる。

本明細書においてフレーム又はパケットを指示するｎ−１、ｎ、ｎ＋１は、連続する音声フレーム又は連続する音声パケットを指示するためのインデクスであり、ｎ番目のフレームは、除去対象フレームとして全体フレーム列における任意のｎ番目のフレームであり、ｎ−１番目のフレームとｎ＋１番目のフレームは、除去対象（又は削除された）フレームの前後に位置する隣接フレームである。

図１５の例では、ｎ番目のフレームの１番目のサブフレームＳ１でｎ−１番目のフレームの３番目のサブフレームＳ３を代替し、ｎ番目のフレームの２番目のサブフレームＳ２でｎ−１番目のフレームの４番目のサブフレームＳ４を代替し、ｎ番目のフレームの３番目のサブフレームＳ３でｎ＋１番目のフレームの１番目のサブフレームＳ１を代替し、ｎ番目のフレームの４番目のサブフレームＳ４でｎ＋１番目のフレームの２番目のサブフレームＳ３を代替する。

これによって、ｎ番目の音声フレームが除去され、ｎ−１番目の音声フレームの３番目のサブフレームＳ３’と４番目のサブフレームＳ４’、ｎ＋１番目の音声フレームの１番目のサブフレームＳ１’と２番目のサブフレームＳ２’が新しく生成される。

サブフレーム単位で音声信号を除去する場合には、図示のように、対象音声フレームの隣接音声フレームにおいて一部サブフレームが除去されることによって、一つのフレームに集中していた音声信号の損失の効果を隣接フレームが分担できる。したがって、連続的に損失になる音声信号の成分を減らし、同時にジッタバッファ管理において伴われる追加計算量の発生（複雑度の増加）も防止できる。

図１５では、音声フレームが４個のサブフレームから構成される場合を例として説明したが、本発明は、これに限定されない。例えば、音声フレームがＬ個のサブフレームから構成される場合、除去対象フレーム（ｎ番目のフレーム）の先行フレーム（ｎ−１番目のフレーム）の後方Ｌ／２個のサブフレームは、除去対象フレーム（ｎ番目のフレーム）の前方Ｌ／２個のサブフレームで代替され、除去対象フレーム（ｎ番目のフレーム）の後続フレーム（ｎ＋１番目のフレーム）の前方Ｌ／２個のサブフレームは、除去対象フレーム（ｎ番目のフレーム）の後方Ｌ／２個のサブフレームで代替することができる。

一方、ビットストリームレベルで音声情報の補償を行うと、サブフレーム単位で音声情報の除去がなされても該当サブフレームの成分がそのままなくなることによって、一定水準の音質劣化は発生できる。これを防止するために、音声信号レベルで音声情報の補償を行おうとすると、計算量が大きく増加する恐れがある。

したがって、サブフレーム単位で音声情報の補償を行うものの、ビットストリームレベルの情報と復元された音声信号の中間ステップといえる復号パラメータレベルで音声情報の補償がなされるようにすることができる。ここで、復号パラメータは、ビットストリームを復号して音声信号に合成する前の情報を意味する。

復号パラメータには、例えばＬＰＣ係数又はＬＰＣ係数を導出するためのＩＳＰ係数、ピッチ周期、励起信号の成分又は励起信号の成分を導出するための符号表インデクスなどがある。

ジッタバッファは、対象フレーム又は対象サブフレームとその復号パラメータとを単純に除去するのではなく、隣接フレーム又は隣接サブフレームの復号パラメータを利用して音声情報の補償を行ってもよい。このとき、除去対象サブフレームの復号パラメータが音声情報の補償に利用してもよい。

音声パケットを受信した場合に、ジッタバッファは、上述したパケットの重要度（フレームの重要度）に応じて除去対象フレームを決定し、音声情報除去に関する次の３つの音声情報補償のうちのいずれか一つを行うことができる。

（１）ジッタバッファは、除去対象フレームを除去するものの、除去対象フレームの前後に位置していたフレームに属するサブフレームの復号パラメータを除去対象フレームの復号パラメータを利用して修正

（２）除去対象フレームを除去するものの、除去対象フレームの前に位置していたフレームに属するサブフレームの復号パラメータを除去対象フレームの復号パラメータを利用して修正

（３）除去対象フレームを除去するものの、除去対象フレームの後に位置していたフレームに属するサブフレームの復号パラメータを除去対象フレームの復号パラメータを利用して修正

図１６は、復号パラメータレベルでサブフレーム単位に音声情報の補償を行う方法の一例を概略的に説明する図である。

図１６では、前記（１）の音声情報補償方法を適用する場合を例として説明する。したがって、除去されるフレーム（ｎ番目のフレーム）の前後フレーム内の一部サブフレームに対する復号パラメータは、互いに隣接する二つのサブフレームの復号パラメータを利用して修正される。

図１６に示すように、ｎ番目の音声フレームを除去する場合に、隣接音声フレームであるｎ−１番目の音声フレーム及びｎ＋１番目の音声フレームのフレーム成分（復号パラメータ）を修正する。

音声情報補償によって、ｎ番目のフレームは除去され、音声情報補償前のｎ−１番目のフレームのサブフレームＳ３とサブフレームＳ４の復号パラメータを利用して、ｎ−１番目のフレームのサブフレームＳ３’の復号パラメータが修正され、除去前のｎ番目のフレームのサブフレームＳ１とサブフレームＳ２の復号パラメータを利用して、ｎ−１番目のフレームのサブフレームＳ４’の復号パラメータが修正され、除去前のｎ番目のフレームのサブフレームＳ３とサブフレームＳ４の復号パラメータを利用して、ｎ＋１番目のフレームのサブフレームＳ１’の復号パラメータが修正され、音声情報補償前のｎ＋１番目のフレームのサブフレームＳ１とサブフレームＳ２の復号パラメータを利用して、ｎ＋１番目のフレームのサブフレームＳ２’の復号パラメータが修正される。

このとき、復号パラメータは、二つのサブフレームの復号パラメータを補間して生成される値で修正することができる。

式５は、図１６の例による音声情報の補償（音声情報の除去）によって、復号パラメータのうち、ＩＳＰ係数を二つのサブフレームのＩＳＰ係数を補間して生成される値に修正する方法を表したものである。
（式５）
ＩＳＰ^n-1 _m3＝０．５×ＩＳＰ^n-1 ₃＋０．５×ＩＳＰ^n-1 ₄
ＩＳＰ^n-1 _m4＝０．５×ＩＳＰⁿ ₁＋０．５×ＩＳＰⁿ ₂
ＩＳＰⁿ⁺¹ _m1＝０．５×ＩＳＰⁿ ₃＋０．５×ＩＳＰⁿ ₄
ＩＳＰⁿ⁺¹ _m2＝０．５×ＩＳＰⁿ⁺¹ ₁＋０．５×ＩＳＰⁿ⁺¹ ₂

本明細書におけるＩＳＰ^N _Lは、Ｎ番目のフレームに属するＬ番目のサブフレームのＩＳＰ係数を意味し、ＩＳＰ^N _mLは、Ｎ番目のフレームに属するＬ番目のサブフレームの修正されたＩＳＰ係数を意味する。

ＩＳＰ係数は、上述したようにＬＰＣ係数から変換によって導出することができ、ＬＰＣ係数は、ＩＳＰ係数から変換によって導出することができる。

式６は、図１６の例による音声情報の補償（音声情報の除去）によって、復号パラメータのうち、ピッチ周期を二つのサブフレームのピッチ周期を補間して生成される値に修正する方法を表したものである。
（式６）
Ｐ^n-1 _m3 ＝０．５×Ｐ^n-1 ₃＋０．５×Ｐ^n-1 ₄
Ｐ^n-1 _m4 ＝０．５×Ｐⁿ ₁＋０．５×Ｐⁿ ₂
Ｐⁿ⁺¹ _m1 ＝０．５×Ｐⁿ ₃＋０．５×Ｐⁿ ₄
Ｐⁿ⁺¹ _m2 ＝０．５×Ｐⁿ⁺¹ ₁＋０．５×Ｐⁿ⁺¹ ₂
本明細書において、Ｐ^N _Lは、Ｎ番目のフレームに属するＬ番目のサブフレームのピッチ周期を意味し、Ｐ^N _mLは、Ｎ番目のフレームに属するＬ番目のサブフレームの修正されたピッチ周期を意味する。

ピッチ周期は、長期予測（ＬｏｎｇＴｅｒｍＰｒｅｄｉｃｔｉｏｎ、ＬＴＰ）ろ波、ピッチ遅延（ラグ）、符号表利得などを復号して得ることができる。

式７は、図１６の例による音声情報の補償（音声情報の除去）によって、復号パラメータのうち、励起信号成分ＦＣＢを二つのサブフレームの励起信号成分を補間して生成される値に修正する方法を表したものである。
（式７）
ＦＣＢ^n-1 _m3（ｋ）＝０．５×ＦＣＢ^n-1 ₃（ｋ）＋０．５×ＦＣＢ^n-1 ₄（ｋ）
ＦＣＢ^n-1 _m4（ｋ）＝０．５×ＦＣＢⁿ ₁（ｋ）＋０．５×ＦＣＢⁿ ₂（ｋ）
ＦＣＢⁿ⁺¹ _m1（ｋ）＝０．５×ＦＣＢⁿ ₃（ｋ）＋０．５×ＦＣＢⁿ ₄（ｋ）
ＦＣＢⁿ⁺¹ _m2（ｋ）＝０．５×ＦＣＢⁿ⁺¹ ₁（ｋ）＋０．５×ＦＣＢⁿ⁺¹ ₂（ｋ）

本明細書におけるＦＣＢ^N _L（Ｋ）は、Ｎ番目のフレームに属するＬ番目のサブフレームの励起信号におけるｋ番目の成分を意味し、ＦＣＢ^N _mL（Ｋ）は、Ｎ番目のフレームに属するＬ番目のサブフレームの励起信号の修正されたｋ番目の成分を意味する。

励起信号は、固定符号表（ｆｉｘｅｄｃｏｄｅｂｏｏｋ）及び符号表利得を復号して得ることができる。

一方、励起信号の場合には、補間によって修正せずに、修正されるサブフレームの励起信号成分のうち、前半部分及び後半成分を修正前のサブフレームの励起信号成分でそれぞれ代替する方法を適用することもできる。

式８は、図１６の例による音声情報の補償（音声情報の除去）によって、励起信号成分を二つのサブフレームの励起信号成分を部分的に代替して生成した値で修正する方法を表したものである。
（式８）
ＦＣＢ^n-1 _m3（ｋ）＝ＦＣＢ^n-1 ₃（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢ^n-1 ₄（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢ^n-1 _m4（ｋ）＝ＦＣＢⁿ ₁（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢⁿ ₂（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢⁿ⁺¹ _m1（ｋ）＝ＦＣＢⁿ ₃（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢⁿ ₄（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢⁿ⁺¹ _m2（ｋ）＝ＦＣＢⁿ⁺¹ ₁（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢⁿ⁺¹ ₂（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）

式８によれば、音声情報の補償によってｎ番目のフレームは除去されるが、ｎ−１番目のフレームに属する３番目のサブフレームＳ３のｋ番目の励起信号成分で前半が代替され、ｎ−１番目のフレームに属する４番目のサブフレームＳ４のｋ番目の励起信号成分で後半が代替され、修正された復号パラメータを有するｎ−１番目のフレームの３番目のサブフレームＳ３’が生成される。

同じ方法によって、式８のように、修正された復号パラメータを有するｎ−１番目のフレームの４番目のサブフレームＳ４’、修正された復号パラメータを有するｎ＋１番目のフレームの１番目のサブフレームＳ１’、修正された復号パラメータを有するｎ＋１番目のフレームの２番目のサブフレームＳ２’を得ることができる。

また、復号パラメータのうち、励起信号成分の場合には、修正されるサブフレームの励起信号成分を、励起信号を生成するトラック単位で代替する方法を適用することもできる。

式９は、図１６の例による音声情報の補償（音声情報の削除）によって、励起信号成分を、励起信号成分を生成するトラック単位に代替して生成した値で修正する方法を表したものである。
（式９）
ＦＣＢ^n-1 _m3（ｋ）＝ＦＣＢ^n-1 ₃（ｋ）（トラック１＆３）＋ＦＣＢ^n-1 ₄（ｋ）（トラック２＆４）
ＦＣＢ^n-1 _m4（ｋ）＝ＦＣＢⁿ ₁（ｋ）（トラック１＆３）＋ＦＣＢⁿ ₂（ｋ）（トラック２＆４）
ＦＣＢⁿ⁺¹ _m1（ｋ）＝ＦＣＢⁿ ₃（ｋ）（トラック１＆３）＋ＦＣＢⁿ ₄（ｋ）（トラック２＆４）
ＦＣＢⁿ⁺¹ _m2（ｋ）＝ＦＣＢⁿ⁺¹ ₁（ｋ）（トラック１＆３）＋ＦＣＢⁿ⁺¹ ₂（ｋ）（トラック２＆４）

修正されるサブフレームの励起信号成分は、修正（音声情報の補償）前の二つのサブフレームの励起信号成分の部分的な和から構成される。このとき、修正されるサブフレームの励起信号成分は、波数（ｗａｖｅｎｕｍｂｅｒ）ｋが属するトラック別に該当トラックでの励起信号値を取る。

図１６では、音声フレームが４個のサブフレームから構成される場合を例として説明したが、本発明はこれに限定されない。例えば、音声フレームがＬ個のサブフレームから構成される場合、除去対象フレーム（ｎ番目のフレーム）の先行フレーム（ｎ−１番目のフレーム）の後方Ｌ／２個のサブフレームと除去対象フレーム（ｎ番目のフレーム）の後続フレーム（ｎ＋１番目のフレーム）の前方Ｌ／２個のサブフレームを除去対象フレーム（ｎ番目のフレーム）のサブフレームと除去対象フレーム（ｎ番目のフレーム）の先行フレーム（ｎ−１番目のフレーム）の後方Ｌ／２個のサブフレームと除去対象フレーム（ｎ番目のフレーム）の後続フレーム（ｎ＋１番目のフレーム）の前方Ｌ／２個のサブフレームを利用して、上述したように修正し、対象フレーム（ｎ番目のフレーム）を除去できる。

この場合、式５〜７にて説明した補間度ｐ個（２≦ｐ≦Ｌ）のサブフレーム（サブフレームの復号パラメータ）を利用して行うことができる。このとき、補間のフィルタ係数（平坦化比率）は、二つのサブフレームが適用される場合の０．５の代わりに、補間に利用されるサブフレーム（サブフレームの復号パラメータ）の個数に応じて定めることができる。例えば、ｐ個のサブフレームが利用される場合、平坦化係数は、１／ｐと定めることができる。

図１７は、復号パラメータレベルでサブフレーム単位に音声情報の補償を行う方法の他の例を概略的に説明する図である。

図１７は、前記（２）の音声情報補償方法が適用される場合を例として説明する。したがって、除去されるフレーム（ｎ番目のフレーム）の後続フレーム内のサブフレームに対する復号パラメータは、除去されるフレーム及び後続フレームに属するサブフレームのうち、互いに隣接する二つのサブフレームの復号パラメータを利用して修正できる。

復号パラメータは、二つのサブフレームの復号パラメータを補間して生成される値に修正できる。

式１０は、図１７の例による音声情報の補償（音声情報の除去）によって、復号パラメータのうち、ＩＳＰ係数を補間して修正する方法を表したものである。
（式１０）
ＩＳＰⁿ⁺¹ _m1＝０．５×ＩＳＰⁿ ₁＋０．５×ＩＳＰⁿ ₂
ＩＳＰⁿ⁺¹ _m2＝０．５×ＩＳＰⁿ ₃＋０．５×ＩＳＰⁿ ₄
ＩＳＰⁿ⁺¹ _m3＝０．５×ＩＳＰⁿ⁺¹ ₁＋０．５×ＩＳＰⁿ⁺¹ ₂
ＩＳＰⁿ⁺¹ _m4＝０．５×ＩＳＰⁿ⁺¹ ₃＋０．５×ＩＳＰⁿ⁺¹ ₄

式１０は、式５と同じ方法で適用され、ただし、修正される復号パラメータの属するサブフレームと利用される復号パラメータの属するサブフレームとが式５と異なる。

式１１は、図１７の例による音声情報の補償（音声情報の除去）によって、復号パラメータのうち、ピッチ周期を補間によって修正する方法を表したものである。
（式１１）
Ｐⁿ⁺¹ _m1＝０．５×Ｐⁿ ₁＋０．５×Ｐⁿ ₂
Ｐⁿ⁺¹ _m2＝０．５×Ｐⁿ ₃＋０．５×Ｐⁿ ₄
Ｐⁿ⁺¹ _m3＝０．５×Ｐⁿ⁺¹ ₁＋０．５×Ｐⁿ⁺¹ ₂
Ｐⁿ⁺¹ _m4＝０．５×Ｐⁿ⁺¹ ₃＋０．５×Ｐⁿ⁺¹ ₄

式１１は、式６と同じ方法で適用され、ただし、修正される復号パラメータの属するサブフレームと利用される復号パラメータの属するサブフレームとが式６と異なる。

式１２は、図１７の例による音声情報の補償（音声情報の除去）によって、復号パラメータのうち、励起信号成分ＦＣＢを補間して修正する方法を表したものである。
（式１２）
ＦＣＢⁿ⁺¹ _m1＝０．５×ＦＣＢⁿ ₁＋０．５×ＦＣＢⁿ ₂
ＦＣＢⁿ⁺¹ _m2＝０．５×ＦＣＢⁿ ₃＋０．５×ＦＣＢⁿ ₄
ＦＣＢⁿ⁺¹ _m3＝０．５×ＦＣＢⁿ⁺¹ ₁＋０．５×ＦＣＢⁿ⁺¹ ₂
ＦＣＢⁿ⁺¹ _m4＝０．５×ＦＣＢⁿ⁺¹ ₃＋０．５×ＦＣＢⁿ⁺¹ ₄

式１２は、式７と同じ方法で適用され、ただし、修正される復号パラメータの属するサブフレームと利用される復号パラメータの属するサブフレームとが式７と異なる。

図１６の例のように、励起信号の場合には、修正されるサブフレームの励起信号成分のうち、前半成分及び後半成分を修正前のサブフレームの励起信号成分でそれぞれ代替する方法を適用することもできる。

式１３は、図１７の例による音声情報の補償（音声情報の除去）によって、励起信号成分を、二つのサブフレームの励起信号成分を部分的に代替して生成した値で修正する方法を表したものである。
（式１３）
ＦＣＢⁿ⁺¹ _m1（ｋ）＝ＦＣＢⁿ ₁（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢⁿ ₂（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢⁿ⁺¹ _m2（ｋ）＝ＦＣＢⁿ ₃（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢⁿ ₄（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢⁿ⁺¹ _m3（ｋ）＝ＦＣＢⁿ⁺¹ ₁（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢⁿ⁺¹ ₂（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢⁿ⁺¹ _m4（ｋ）＝ＦＣＢⁿ⁺¹ ₃（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢⁿ⁺¹ ₄（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）

式１３は、式８と同じ方法で適用され、ただし、修正される復号パラメータの属するサブフレームと利用される復号パラメータの属するサブフレームとが式８と異なる。

式１４は、図１７の例による音声情報の補償（音声情報の削除）によって、励起信号成分を、励起信号成分を生成するトラック単位に代替して生成した値で修正する方法を表したものである。
（式１４）
ＦＣＢⁿ⁺¹ _m1（ｋ）＝ＦＣＢⁿ ₁（ｋ）（トラック１＆３）＋ＦＣＢⁿ ₂（ｋ）（トラック２＆４）
ＦＣＢⁿ⁺¹ _m2（ｋ）＝ＦＣＢⁿ ₃（ｋ）（トラック１＆３）＋ＦＣＢⁿ ₄（ｋ）（トラック２＆４）
ＦＣＢⁿ⁺¹ _m3（ｋ）＝ＦＣＢⁿ⁺¹ ₁（ｋ）（トラック１＆３）＋ＦＣＢⁿ⁺¹ ₂（ｋ）（トラック２＆４）
ＦＣＢⁿ⁺¹ _m4（ｋ）＝ＦＣＢⁿ⁺¹ ₃（ｋ）（トラック１＆３）＋ＦＣＢⁿ⁺¹ ₄（ｋ）（トラック２＆４）

式１４は、式９と同じ方法で適用され、ただし、修正される復号パラメータの属するサブフレームと利用される復号パラメータの属するサブフレームとが式９と異なる。

図１７では、音声フレームが４個のサブフレームから構成される場合を例として説明したが、本発明は、これに限定されない。例えば、音声フレームがＬ個のサブフレームから構成される場合、除去対象フレーム（ｎ番目のフレーム）の後続フレーム（ｎ＋１番目のフレーム）のサブフレームを除去対象フレーム（ｎ番目のフレーム）のサブフレームと除去対象フレーム（ｎ番目のフレーム）の後続フレーム（ｎ＋１番目のフレーム）のサブフレームを利用して上述したように修正し、対象フレーム（ｎ番目のフレーム）を除去できる。

この場合、式１０〜１２で説明した補間度ｐ個（２≦ｐ≦Ｌ）のサブフレーム（サブフレームの復号パラメータ）を利用して行うことができる。このとき、補間のフィルタ係数（平坦化比率）は、二つのサブフレームが適用される場合の０．５の代わりに、補間に利用されるサブフレーム（サブフレームの復号パラメータ）の個数に応じて定めることができる。例えば、ｐ個のサブフレームが利用される場合、平坦化係数は、１／ｐと定めることができる。

図１８は、復号パラメータレベルでサブフレーム単位に音声情報の補償を行う方法の更に他の例を概略的に説明する図である。

図１８は、上記（３）のジッタバッファの調整方法が適用される場合を例として説明する。したがって、除去されるフレーム（ｎ番目のフレーム）の先行フレームに属するサブフレームに対する復号パラメータは、除去されるフレーム及び先行フレームに属するサブフレームのうち、互いに隣接する二つのサブフレームの復号パラメータを利用して修正することができる。

復号パラメータは、二つのサブフレームの復号パラメータを補間して生成される値で修正することができる。

式１５は、図１８の例による音声情報の補償（音声情報の除去）によって、復号パラメータのうち、ＩＳＰ係数を補間して修正する方法を表したものである。
（式１５）
ＩＳＰ^n-1 _m1＝０．５×ＩＳＰ^n-1 ₁＋０．５×ＩＳＰ^n-1 ₂
ＩＳＰ^n-1 _m2＝０．５×ＩＳＰ^n-1 ₃＋０．５×ＩＳＰ^n-1 ₄
ＩＳＰ^n-1 _m3＝０．５×ＩＳＰⁿ ₁＋０．５×ＩＳＰⁿ ₂
ＩＳＰ^n-1 _m4＝０．５×ＩＳＰⁿ ₃＋０．５×ＩＳＰⁿ ₄

式１５は、式５と同じ方法で適用され、ただし、修正される復号パラメータの属するサブフレームと利用される復号パラメータの属するサブフレームとが式５と異なる。

式１６は、図１８の例による音声情報の補償（音声情報の除去）によって、復号パラメータのうち、ピッチ周期を補間によって修正する方法を表したものである。
（式１６）
Ｐ^n-1 _m1＝０．５×Ｐ^n-1 ₁＋０．５×Ｐ^n-1 ₂
Ｐ^n-1 _m2＝０．５×Ｐ^n-1 ₃＋０．５×Ｐ^n-1 ₄
Ｐ^n-1 _m3＝０．５×Ｐⁿ ₁＋０．５×Ｐⁿ ₂
Ｐ^n-1 _m4＝０．５×Ｐⁿ ₃＋０．５×Ｐⁿ ₄

式１６は、式６と同じ方法で適用され、ただし、修正される復号パラメータの属するサブフレームと利用される復号パラメータの属するサブフレームとが式６と異なる。

式１７は、図１７の例による音声情報の補償（音声情報の除去）によって、復号パラメータのうち、励起信号成分ＦＣＢを補間して修正する方法を表したものである。
（式１７）
ＦＣＢ^n-1 _m1＝０．５×ＦＣＢ^n-1 ₁＋０．５×ＦＣＢ^n-1 ₂
ＦＣＢ^n-1 _m2＝０．５×ＦＣＢ^n-1 ₃＋０．５×ＦＣＢ^n-1 ₄
ＦＣＢ^n-1 _m3＝０．５×ＦＣＢⁿ ₁＋０．５×ＦＣＢⁿ ₂
ＦＣＢ^n-1 _m4＝０．５×ＦＣＢⁿ ₃＋０．５×ＦＣＢⁿ ₄

式１７は、式７と同じ方法で適用され、ただし、修正される復号パラメータの属するサブフレームと利用される復号パラメータの属するサブフレームとが式７と異なる。

式１８は、図１８の例による音声情報の補償（音声情報の除去）によって、励起信号成分を二つのサブフレームの励起信号成分を部分的に代替して生成した値で修正する方法を表したものである。
（式１８）
ＦＣＢ^n-1 _m1（ｋ）＝ＦＣＢ^n-1 ₁（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢ^n-1 ₂（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢ^n-1 _m2（ｋ）＝ＦＣＢ^n-1 ₃（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢ^n-1 ₄（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢ^n-1 _m3（ｋ）＝ＦＣＢⁿ ₁（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢⁿ ₂（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢ^n-1 _m4（ｋ）＝ＦＣＢⁿ ₃（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢⁿ ₄（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）

式１８は、式８と同じ方法で適用され、ただし、修正される復号パラメータの属するサブフレームと利用される復号パラメータの属するサブフレームとが式８と異なる。

式１９は、図１８の例による音声情報の補償（音声情報の削除）によって、励起信号成分を、励起信号成分を生成するトラック単位に代替して生成した値で修正する方法を表したものである。
（式１９）
ＦＣＢ^n-1 _m1（ｋ）＝ＦＣＢ^n-1 ₁（ｋ）（トラック１＆３）＋ＦＣＢ^n-1 ₂（ｋ）（トラック２＆４）
ＦＣＢ^n-1 _m2（ｋ）＝ＦＣＢ^n-1 ₃（ｋ）（トラック１＆３）＋ＦＣＢ^n-1 ₄（ｋ）（トラック２＆４）
ＦＣＢⁿ _m3（ｋ）＝ＦＣＢⁿ ₁（ｋ）（トラック１＆３）＋ＦＣＢⁿ ₂（ｋ）（トラック２＆４）
ＦＣＢⁿ _m4（ｋ）＝ＦＣＢⁿ ₃（ｋ）（トラック１＆３）＋ＦＣＢⁿ ₄（ｋ）（トラック２＆４）

式１９は、式９と同じ方法で適用され、ただし、修正される復号パラメータの属するサブフレームと利用される復号パラメータの属するサブフレームとが式９と異なる。

図１８では、音声フレームが４個のサブフレームから構成される場合を例として説明したが、本発明は、これに限定されない。例えば、音声フレームがＬ個のサブフレームから構成される場合、除去対象フレーム（ｎ番目のフレーム）の先行フレーム（ｎ−１番目のフレーム）のサブフレームを除去対象フレーム（ｎ番目のフレーム）のサブフレームと除去対象フレーム（ｎ番目のフレーム）の後続フレーム（ｎ＋１番目のフレーム）のサブフレームを利用して上述したように修正し、対象フレーム（ｎ番目のフレーム）を除去できる。

この場合、式１５〜１７で説明した補間度ｐ個（２≦ｐ≦Ｌ）のサブフレーム（サブフレームの復号パラメータ）を利用して行うことができる。このとき、補間のフィルタ係数（平坦化比率）は、二つのサブフレームが適用される場合の０．５の代わりに、補間に利用されるサブフレーム（サブフレームの復号パラメータ）の個数に応じて定めることができる。例えば、ｐ個のサブフレームが利用される場合、平坦化係数は、１／ｐと定めることができる。

一方、再生要求を受信した場合に、ジッタバッファは、音声情報生成に関する次の４種類の音声情報補償のうちのいずれか一つを行うことができる。

（Ａ）フレーム単位でサブフレームを生成して音声信号を伸張するものの、隣接した二つのフレームのうち、後フレームに属するサブフレームの復号パラメータと、前フレームに属する一部サブフレームの復号パラメータとを利用して、新しいサブフレームの復号パラメータを生成

（Ｂ）フレーム単位でサブフレームを生成して音声信号を伸張するものの、隣接した二つのフレームのうち、前フレームに属するサブフレームの復号パラメータと、後フレームに属する一部サブフレームの復号パラメータとを利用して、新しいサブフレームの復号パラメータを生成

（Ｃ）フレーム単位でサブフレームを生成して音声信号を伸張するものの、隣接した二つのフレームのうち、前フレームに属する一部サブフレームの復号パラメータと、後フレームに属する一部サブフレームの復号パラメータとを利用して、新しいサブフレームの復号パラメータを生成

（Ｄ）フレーム単位でサブフレームを生成して音声信号を伸張するものの、隣接した二つのフレームのうち、前フレームに属するサブフレームの復号パラメータと、後フレームに属するサブフレームの復号パラメータとを利用して、新しいサブフレームの復号パラメータを生成

上記（Ａ）〜（Ｄ）の音声情報補償において、新しいサブフレームは、ジッタバッファの調整前の隣接していた二つのサブフレームの間に生成され、新しいサブフレームの復号パラメータは、前記隣接していた二つのサブフレームの復号パラメータを利用して生成することができる。

図１９は、復号パラメータレベルでサブフレーム単位に音声情報の補償を行う方法の更に他の例を概略的に説明する図である。

図１９では、前記（Ａ）の音声情報補償が適用される場合を例として説明する。したがって、生成されるフレーム（ｎ番目のフレーム）の先行フレーム（ｎ−１番目のフレーム）に属する一部サブフレームの復号パラメータと、後続フレーム（ｎ＋１番目のフレーム）に属するサブフレームの復号パラメータとを利用して、生成されるサブフレームの復号パラメータを導出できる。

具体的には、先行フレームの最後のサブフレームＳ４と後続フレームの１番目のサブフレームＳ１との間に新しいサブフレームを生成し、後続フレームの１番目のサブフレームＳ１と後続フレームの２番目のサブフレームＳ２との間に新しいサブフレームを生成し、後続フレームの２番目のサブフレームＳ２と後続フレームの３番目のサブフレームＳ３との間に新しいサブフレームを生成し、後続フレームの３番目のサブフレームＳ３と後続フレームの最後のサブフレームＳ４との間に新しいサブフレームを生成する。生成されるサブフレームの復号パラメータは、生成に利用されたサブフレームの復号パラメータから導出される。

ジッタバッファは、生成されたサブフレームをフレーム単位で集約して新しいフレームを構成できる。例えば、既存のサブフレームの間に新しいサブフレームが生成された場合、既存のサブフレームと新しいサブフレームとから構成されたフレームを設定できる。

式２０は、図１９の例による音声情報の補償（音声情報の生成）によって、復号パラメータのうち、ＩＳＰ係数を補間して生成する方法を表したものである。
（式２０）
ＩＳＰⁿ _m1＝０．５×ＩＳＰ^n-1 ₄＋０．５×ＩＳＰⁿ⁺¹ ₁
ＩＳＰⁿ _m3＝０．５×ＩＳＰⁿ⁺¹ ₁＋０．５×ＩＳＰⁿ⁺¹ ₂
ＩＳＰⁿ⁺¹ _m1＝０．５×ＩＳＰⁿ⁺¹ ₂＋０．５×ＩＳＰⁿ⁺¹ ₃
ＩＳＰⁿ⁺¹ _m3＝０．５×ＩＳＰⁿ⁺¹ ₃＋０．５×ＩＳＰⁿ⁺¹ ₄

ＩＳＰ係数は、上述したようにＬＰＣ係数から変換によって導出してもよいし、ＬＰＣ係数は、ＩＳＰ係数から変換によって導出してもよい。

式２１は、図１９の例による音声情報の補償（音声情報の生成）によって、復号パラメータのうち、ピッチ周期を補間して生成する方法を表したものである。
（式２１）
Ｐⁿ _m1＝０．５×Ｐ^n-1 ₄＋０．５×Ｐⁿ⁺¹ ₁
Ｐⁿ _m3＝０．５×Ｐⁿ⁺¹ ₁＋０．５×Ｐⁿ⁺¹ ₂
Ｐⁿ⁺¹ _m1＝０．５×Ｐⁿ⁺¹ ₂＋０．５×Ｐⁿ⁺¹ ₃
Ｐⁿ⁺¹ _m3＝０．５×Ｐⁿ⁺¹ ₃＋０．５×Ｐⁿ⁺¹ ₄

ピッチ周期は、ＬＴＰろ波、ピッチ遅延（遅延）、符号表利得などを復号して得ることができる。

式２２は、図１９の例による音声情報の補償（音声情報の生成）によって、復号パラメータのうち、励起信号の成分を補間して生成する方法を表したものである。
（式２２）
ＦＣＢⁿ _m1＝０．５×ＦＣＢ^n-1 ₄＋０．５×ＦＣＢⁿ⁺¹ ₁
ＦＣＢⁿ _m3＝０．５×ＦＣＢⁿ⁺¹ ₁＋０．５×ＦＣＢⁿ⁺¹ ₂
ＦＣＢⁿ⁺¹ _m1＝０．５×ＦＣＢⁿ⁺¹ ₂＋０．５×ＦＣＢⁿ⁺¹ ₃
ＦＣＢⁿ⁺¹ _m3＝０．５×ＦＣＢⁿ⁺¹ ₃＋０．５×ＦＣＢⁿ⁺¹ ₄

励起信号は、固定符号表、符号表利得を復号して得ることができる。

一方、励起信号の場合には、補間によって生成されずに、生成されるサブフレームに対する励起信号成分の前半部分及び後半成分として生成に利用されるサブフレームの励起信号成分を利用する方法を適用することもできる。

式２３は、図１９の例による音声情報の補償（音声情報の生成）によって、生成されるサブフレームに対する励起信号成分の前半部分及び後半成分として生成に利用されるサブフレームの励起信号成分を利用する方法を表したものである。
（式２３）
ＦＣＢⁿ _m1（ｋ）＝ＦＣＢ^n-1 ₄（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢⁿ⁺¹ ₁（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢⁿ _m3（ｋ）＝ＦＣＢⁿ⁺¹ ₁（ｋ）（ｋ＝０〜サブフレーム／２）
ＦＣＢⁿ⁺¹ ₂（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢⁿ⁺¹ _m1（ｋ）＝ＦＣＢⁿ⁺¹ ₂（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢⁿ⁺¹ ₃（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢⁿ⁺¹ _m3（ｋ）＝ＦＣＢⁿ⁺¹ ₃（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢⁿ⁺¹ ₄（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）

また、復号パラメータのうち、励起信号成分の場合には、生成に利用されるサブフレームの励起信号成分をトラック単位で利用する方法を適用して、励起信号成分を生成することもできる。

式２４は、図１９の例による音声情報の補償（音声情報の生成）によって、トラック単位に既存のサブフレームの励起信号成分を利用して、励起信号成分を生成する方法を表したものである。
（式２４）
ＦＣＢⁿ _m1（ｋ）＝ＦＣＢ^n-1 ₄（ｋ）（トラック１＆３）＋ＦＣＢⁿ⁺¹ ₁（ｋ）（トラック２＆４）
ＦＣＢⁿ _m3（ｋ）＝ＦＣＢⁿ⁺¹ ₁（ｋ）（トラック１＆３）＋ＦＣＢⁿ⁺¹ ₂（ｋ）（トラック２＆４）
ＦＣＢⁿ⁺¹ _m1（ｋ）＝ＦＣＢⁿ⁺¹ ₂（ｋ）（トラック１＆３）＋ＦＣＢⁿ⁺¹ ₃（ｋ）（トラック２＆４）
ＦＣＢⁿ⁺¹ _m3（ｋ）＝ＦＣＢⁿ⁺¹ ₃（ｋ）（トラック１＆３）＋ＦＣＢⁿ⁺¹ ₄（ｋ）（トラック２＆４）

生成されるサブフレームの励起信号成分は、既存の二つのサブフレームの励起信号成分の部分的な和から構成される。このとき、生成されるサブフレームの励起信号成分は、波数ｋが属するトラック別に該当トラックでの励起信号値を取る。

図１９では、音声フレームが４個のサブフレームから構成される場合を例として説明したが、本発明は、これに限定されない。例えば、音声フレームがＬ個のサブフレームから構成される場合、先行フレーム（ｎ−１番目のフレーム）において一つのサブフレームを利用し、後続フレーム（ｎ＋１番目のフレーム）においてＬ個のサブフレームを利用して、上述したようにフレーム（ｎ番目のフレーム）を生成できる。

この場合、式２０〜２２で説明した補間度ｐ個（２≦ｐ≦Ｌ）のサブフレーム（サブフレームの復号パラメータ）を利用して行うことができる。このとき、補間のフィルタ係数（平坦化比率）は、二つのサブフレームが適用される場合の０．５の代わりに、補間に利用されるサブフレーム（サブフレームの復号パラメータ）の個数に応じて定めることができる。例えば、ｐ個のサブフレームが利用される場合、平坦化係数は、１／ｐと定めることができる。

図２０は、復号パラメータレベルでサブフレーム単位に音声情報の補償を行う方法の更に他の例を概略的に説明する図である。

図２０では、前記（Ｂ）の音声情報補償が適用される場合を例として説明する。したがって、生成されるフレーム（ｎ番目のフレーム）の後続フレーム（ｎ＋１番目のフレーム）に属する一部サブフレームの復号パラメータと、先行フレーム（ｎ−１番目のフレーム）に属するサブフレームの復号パラメータとを利用して、生成されるサブフレームの復号パラメータを導出できる。

図２０の例では、図１９の例と基本的に同じ方法を利用するものの、図１９の例とは異なるサブフレームと復号パラメータとを利用して、サブフレームと復号パラメータとを生成する。

具体的には、先行フレームの１番目のサブフレームＳ１と先行フレームの２番目のサブフレームＳ２との間に新しいサブフレームを生成し、先行フレームの２番目のサブフレームＳ２と先行フレームの３番目のサブフレームＳ３との間に新しいサブフレームを生成し、先行フレームの３番目のサブフレームＳ３と先行フレームの最後のサブフレームＳ４との間に新しいサブフレームを生成し、先行フレームの最後のサブフレームＳ４と後続フレームの１番目のサブフレームＳ１との間に新しいサブフレームを生成する。生成されるサブフレームの復号パラメータは、生成に利用されたサブフレームの復号パラメータから導出される。

生成されたサブフレームをフレーム単位で集約して新しいフレームを構成できる。例えば、既存のサブフレームの間に新しいサブフレームが生成された場合、既存のサブフレームと新しいサブフレームとから構成されたフレームを設定できる。

式２５は、図２０の例による音声情報の補償（音声情報の生成）によって、復号パラメータのうち、ＩＳＰ係数を補間して生成する方法を表したものである。
（式２５）
ＩＳＰ^n-1 _m2＝０．５×ＩＳＰ^n-1 ₁＋０．５×ＩＳＰ^n-1 ₂
ＩＳＰ^n-1 _m4＝０．５×ＩＳＰ^n-1 ₂＋０．５×ＩＳＰ^n-1 ₃
ＩＳＰⁿ _m2＝０．５×ＩＳＰ^n-1 ₃＋０．５×ＩＳＰ^n-1 ₄
ＩＳＰⁿ _m4＝０．５×ＩＳＰ^n-1 ₄＋０．５×ＩＳＰⁿ⁺¹ ₁

式２５は、式２０と同じ方法で適用することができ、ただし、修正される復号パラメータの属するサブフレームと、利用される復号パラメータの属するサブフレームとが式２０と異なる。

式２６は、図２０の例による音声情報の補償（音声情報の生成）によって、復号パラメータのうち、ピッチ周期を補間して生成する方法を表したものである。
（式２６）
Ｐ^n-1 _m2＝０．５×Ｐ^n-1 ₁＋０．５×Ｐ^n-1 ₂
Ｐ^n-1 _m4＝０．５×Ｐ^n-1 ₂＋０．５×Ｐ^n-1 ₃
Ｐⁿ _m2＝０．５×Ｐ^n-1 ₃＋０．５×Ｐ^n-1 ₄
Ｐⁿ _m4＝０．５×Ｐ^n-1 ₄＋０．５×Ｐⁿ⁺¹ ₁

式２６は、式２１と同じ方法で適用することができ、ただし、修正される復号パラメータの属するサブフレームと、利用される復号パラメータの属するサブフレームとが式２１と異なる。

式２７は、図２０の例による音声情報の補償（音声情報の生成）によって、復号パラメータのうち、励起信号の成分を補間して生成する方法を表したものである。
（式２７）
ＦＣＢ^n-1 _m2＝０．５×ＦＣＢ^n-1 ₁＋０．５×ＦＣＢ^n-1 ₂
ＦＣＢ^n-1 _m4＝０．５×ＦＣＢ^n-1 ₂＋０．５×ＦＣＢ^n-1 ₃
ＦＣＢⁿ _m2＝０．５×ＦＣＢ^n-1 ₃＋０．５×ＦＣＢ^n-1 ₄
ＦＣＢⁿ _m4＝０．５×ＦＣＢ^n-1 ₄＋０．５×ＦＣＢⁿ⁺¹ ₁

式２７は、式２２と同じ方法で適用することができ、ただし、修正される復号パラメータの属するサブフレームと、利用される復号パラメータの属するサブフレームとが式２２と異なる。

式２８は、図２０の例による音声情報の補償（音声情報の生成）によって、励起信号の場合には、補間によって生成されず、生成されるサブフレームに対する励起信号成分のうち、前半部分及び後半成分として生成に利用されるサブフレームの励起信号成分を利用する方法を表したものである。
（式２８）
ＦＣＢ^n-1 _m2（ｋ）＝ＦＣＢ^n-1 ₁（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢ^n-1 ₂（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢ^n-1 _m4（ｋ）＝ＦＣＢ^n-1 ₂（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢ^n-1 ₃（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢⁿ _m2（ｋ）＝ＦＣＢ^n-1 ₃（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢ^n-1 ₄（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢⁿ _m4（ｋ）＝ＦＣＢ^n-1 ₄（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢⁿ⁺¹ ₁（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）

式２８は、式２３と同じ方法で適用することができ、ただし、修正される復号パラメータの属するサブフレームと、利用される復号パラメータの属するサブフレームとが式２３と異なる。

式２９は、図２０の例による音声情報の補償（音声情報の生成）によって、トラック単位に既存のサブフレームの励起信号成分を利用して励起信号成分を生成する方法を表したものである。
（式２９）
ＦＣＢ^n-1 _m2（ｋ）＝ＦＣＢ^n-1 ₁（ｋ）（トラック１＆３）＋ＦＣＢ^n-1 ₂（ｋ）（トラック２＆４）
ＦＣＢ^n-1 _m4（ｋ）＝ＦＣＢ^n-1 ₂（ｋ）（トラック１＆３）＋ＦＣＢ^n-1 ₃（ｋ）（トラック２＆４）
ＦＣＢⁿ _m2（ｋ）＝ＦＣＢ^n-1 ₃（ｋ）（トラック１＆３）＋ＦＣＢ^n-1 ₄（ｋ）（トラック２＆４）
ＦＣＢⁿ _m4（ｋ）＝ＦＣＢ^n-1 ₄（ｋ）（トラック１＆３）＋ＦＣＢⁿ⁺¹ ₁（ｋ）（トラック２＆４）

式２９は、式２４と同じ方法で適用することができ、ただし、修正される復号パラメータの属するサブフレームと、利用される復号パラメータの属するサブフレームとが式２４と異なる。

図２０では、音声フレームが４個のサブフレームから構成される場合を例として説明したが、本発明は、これに限定されない。例えば、音声フレームがＬ個のサブフレームから構成される場合、後続フレーム（ｎ＋１番目のフレーム）において一つのサブフレームを利用し、先行フレーム（ｎ−１番目のフレーム）においてＬ個のサブフレームを利用して、上述したようにフレーム（ｎ番目のフレーム）を生成できる。

この場合、式２５〜２７で説明した補間度ｐ個（２≦ｐ≦Ｌ）のサブフレーム（サブフレームの復号パラメータ）を利用して行うことができる。このとき、補間のフィルタ係数（平坦化比率）は、二つのサブフレームが適用される場合の０．５の代わりに、補間に利用されるサブフレーム（サブフレームの復号パラメータ）の個数に応じて定めることができる。例えば、ｐ個のサブフレームが利用される場合、平坦化係数は、１／ｐと定めることができる。

図２１は、復号パラメータレベルでサブフレーム単位に音声情報の補償を行う方法の更に他の例を概略的に説明する図である。

図２１では、前記（Ｃ）の音声情報補償が適用される場合を例として説明する。したがって、生成されるフレーム（ｎ番目のフレーム）の先行フレーム（ｎ＋１番目のフレーム）に属する一部サブフレームと後続フレーム（ｎ−１番目のフレーム）に属する一部サブフレームの復号パラメータを利用して、生成されるサブフレームの復号パラメータを導出できる。

図２１の例では、図１９〜図２０の例と基本的に同じ方法を利用するものの、図１９〜図２０の例とは異なるサブフレームと復号パラメータとを利用して、サブフレームと復号パラメータとを生成する。

具体的には、先行フレームの２番目のサブフレームＳ２と先行フレームの３番目のサブフレームＳ３との間に新しいサブフレームを生成し、先行フレームの３番目のサブフレームＳ３と先行フレームの４番目のサブフレームＳ４との間に新しいサブフレームを生成し、後続フレームの１番目のサブフレームＳ１と後続フレームの２番目のサブフレームＳ２との間に新しいサブフレームを生成し、後続フレームの２番目のサブフレームＳ２と後続フレームの３番目のサブフレームＳ３との間に新しいサブフレームを生成する。生成されるサブフレームの復号パラメータは、生成に利用されたサブフレームの復号パラメータから導出される。

式３０は、図２１の例による音声情報の補償（音声情報の生成）によって、復号パラメータのうち、ＩＳＰ係数を補間して生成する方法を表したものである。
（式３０）
ＩＳＰ^n-1 _m3＝０．５×ＩＳＰ^n-1 ₂＋０．５×ＩＳＰ^n-1 ₃
ＩＳＰⁿ _m1＝０．５×ＩＳＰ^n-1 ₃＋０．５×ＩＳＰ^n-1 ₄
ＩＳＰⁿ _m4＝０．５×ＩＳＰⁿ⁺¹ ₁＋０．５×ＩＳＰⁿ⁺¹ ₂
ＩＳＰⁿ⁺¹ _m2＝０．５×ＩＳＰⁿ⁺¹ ₂＋０．５×ＩＳＰⁿ⁺¹ ₃

式３０は、式２０と同じ方法で適用することができ、ただし、修正される復号パラメータの属するサブフレームと、利用される復号パラメータの属するサブフレームとが式２０と異なる。

式３１は、図２１の例による音声情報の補償（音声情報の生成）によって、復号パラメータのうち、ピッチ周期を補間して生成する方法を表したものである。
（式３１）
Ｐ^n-1 _m3＝０．５×Ｐ^n-1 ₂＋０．５×Ｐ^n-1 ₃
Ｐⁿ _m1＝０．５×Ｐ^n-1 ₃＋０．５×Ｐ^n-1 ₄
Ｐⁿ _m4＝０．５×Ｐⁿ⁺¹ ₁＋０．５×Ｐⁿ⁺¹ ₂
Ｐⁿ⁺¹ _m2＝０．５×Ｐⁿ⁺¹ ₂＋０．５×Ｐⁿ⁺¹ ₃

式３１は、式２１と同じ方法で適用することができ、ただし、修正される復号パラメータの属するサブフレームと、利用される復号パラメータの属するサブフレームとが式２１と異なる。

式３２は、図２１の例による音声情報の補償（音声情報の生成）によって、復号パラメータのうち、励起信号の成分を補間して生成する方法を表したものである。
（式３２）
ＦＣＢ^n-1 _m3＝０．５×ＦＣＢ^n-1 ₂＋０．５×ＦＣＢ^n-1 ₃
ＦＣＢⁿ _m1＝０．５×ＦＣＢ^n-1 ₃＋０．５×ＦＣＢ^n-1 ₄
ＦＣＢⁿ _m4＝０．５×ＦＣＢⁿ⁺¹ ₁＋０．５×ＦＣＢⁿ⁺¹ ₂
ＦＣＢⁿ⁺¹ _m2＝０．５×ＦＣＢⁿ⁺¹ ₂＋０．５×ＦＣＢⁿ⁺¹ ₃

式３２は、式２２と同じ方法で適用することができ、ただし、修正される復号パラメータの属するサブフレームと、利用される復号パラメータの属するサブフレームとが式２２と異なる。

式３３は、図２１の例による音声情報の補償（音声情報の生成）によって、励起信号の場合には、補間によって生成されず、生成されるサブフレームに対する励起信号成分のうち、前半部分及び後半成分として生成に利用されるサブフレームの励起信号成分を利用する方法を表したものである。
（式３３）
ＦＣＢ^n-1 _m3（ｋ）＝ＦＣＢ^n-1 ₂（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢ^n-1 ₃（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢⁿ _m1（ｋ）＝ＦＣＢ^n-1 ₃（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢ^n-1 ₄（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢⁿ _m4（ｋ）＝ＦＣＢⁿ⁺¹ ₁（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢⁿ⁺¹ ₂（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢⁿ⁺¹ _m2（ｋ）＝ＦＣＢⁿ⁺¹ ₂（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢⁿ⁺¹ ₃（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）

式３３は、式２３と同じ方法で適用することができ、ただし、修正される復号パラメータの属するサブフレームと、利用される復号パラメータの属するサブフレームとが式２３と異なる。

式３４は、図２１の例による音声情報の補償（音声情報の生成）によって、トラック単位に既存のサブフレームの励起信号成分を利用して励起信号成分を生成する方法を表したものである。
（式３４）
ＦＣＢ^n-1 _m3（ｋ）＝ＦＣＢ^n-1 ₂（ｋ）（トラック１＆３）＋ＦＣＢ^n-1 ₃（ｋ）（トラック２＆４）
ＦＣＢⁿ _m1（ｋ）＝ＦＣＢ^n-1 ₃（ｋ）（トラック１＆３）＋ＦＣＢ^n-1 ₄（ｋ）（トラック２＆４）
ＦＣＢⁿ _m4（ｋ）＝ＦＣＢⁿ⁺¹ ₁（ｋ）（トラック１＆３）＋ＦＣＢⁿ⁺¹ ₂（ｋ）（トラック２＆４）
ＦＣＢⁿ⁺¹ _m2（ｋ）＝ＦＣＢⁿ⁺¹ ₂（ｋ）（トラック１＆３）＋ＦＣＢⁿ⁺¹ ₃（ｋ）（トラック２＆４）

式３４は、式２４と同じ方法で適用することができ、ただし、修正される復号パラメータの属するサブフレームと、利用される復号パラメータの属するサブフレームとが式２４と異なる。

図２１では、音声フレームが４個のサブフレームから構成される場合を例として説明したが、本発明は、これに限定されない。例えば、後続フレーム（ｎ＋１番目のフレーム）と先行フレーム（ｎ−１番目のフレーム）のサブフレームを利用して、上述したようにフレーム（ｎ番目のフレーム）を生成できる。

この場合、式３０〜３２で説明した補間度ｐ個（２≦ｐ≦Ｌ）のサブフレーム（サブフレームの復号パラメータ）を利用して行うことができる。このとき、補間のフィルタ係数（平坦化比率）は、二つのサブフレームが適用される場合の０．５の代わりに、補間に利用されるサブフレーム（サブフレームの復号パラメータ）の個数に応じて定めることができる。例えば、ｐ個のサブフレームが利用される場合、平坦化係数は、１／ｐと定めることができる。

図２２は、復号パラメータレベルでサブフレーム単位に音声情報の補償を行う方法の更に他の例を概略的に説明する図である。

図２２では、前記（Ｄ）の音声情報補償が適用される場合を例として説明する。したがって、生成されるフレーム（ｎ番目のフレーム）の先行フレーム（ｎ＋１番目のフレーム）に属するサブフレームと、後続フレーム（ｎ＋１番目のフレーム）に属するサブフレームの復号パラメータとを利用して、生成されるサブフレームの復号パラメータを導出できる。

図２２の例では、図１９〜図２１の例と基本的に同じ方法を利用するものの、図１９〜図２１の例とは異なるサブフレームと復号パラメータとを利用して、サブフレームと復号パラメータとを生成する。

具体的には、先行フレームの１番目のサブフレームＳ１と先行フレームの２番目のサブフレームＳ２との間に新しいサブフレームを生成し、先行フレームの３番目のサブフレームＳ３と先行フレームの４番目のサブフレームＳ４との間に新しいサブフレームを生成し、後続フレームの１番目のサブフレームＳ１と後続フレームの２番目のサブフレームＳ２との間に新しいサブフレームを生成し、後続フレームの３番目のサブフレームＳ３と後続フレームの最後のサブフレームＳ４との間に新しいサブフレームを生成する。生成されるサブフレームの復号パラメータは、生成に利用されたサブフレームの復号パラメータから導出される。

式３５は、図２２の例による音声情報の補償（音声情報の生成）によって、復号パラメータのうち、ＩＳＰ係数を補間して生成する方法を表したものである。
（式３５）
ＩＳＰ^n-1 _m2＝０．５×ＩＳＰ^n-1 ₁＋０．５×ＩＳＰ^n-1 ₂
ＩＳＰⁿ _m1＝０．５×ＩＳＰ^n-1 ₃＋０．５×ＩＳＰ^n-1 ₄
ＩＳＰⁿ _m4＝０．５×ＩＳＰⁿ⁺¹ ₁＋０．５×ＩＳＰⁿ⁺¹ ₂
ＩＳＰⁿ⁺¹ _m3＝０．５×ＩＳＰⁿ⁺¹ ₃＋０．５×ＩＳＰⁿ⁺¹ ₄

式３５は、式２２と同じ方法で適用することができ、ただし、修正される復号パラメータの属するサブフレームと、利用される復号パラメータの属するサブフレームとが式２２と異なる。

式３６は、図２２の例による音声情報の補償（音声情報の生成）によって、復号パラメータのうち、ピッチ周期を補間して生成する方法を表したものである。
（式３６）
Ｐ^n-1 _m2＝０．５×Ｐ^n-1 ₁＋０．５×Ｐ^n-1 ₂
Ｐⁿ _m1＝０．５×Ｐ^n-1 ₃＋０．５×Ｐ^n-1 ₄
Ｐⁿ _m4＝０．５×Ｐⁿ⁺¹ ₁＋０．５×Ｐⁿ⁺¹ ₂
Ｐⁿ⁺¹ _m3＝０．５×Ｐⁿ⁺¹ ₃＋０．５×Ｐⁿ⁺¹ ₄

式３６は、式２１と同じ方法で適用することができ、ただし、修正される復号パラメータの属するサブフレームと、利用される復号パラメータの属するサブフレームとが式２１と異なる。

式３７は、図２２の例による音声情報の補償（音声情報の生成）によって、復号パラメータのうち、励起信号の成分を補間して生成する方法を表したものである。
（式３７）
ＦＣＢ^n-1 _m2＝０．５×ＦＣＢ^n-1 ₁＋０．５×ＦＣＢ^n-1 ₂
ＦＣＢⁿ _m1＝０．５×ＦＣＢ^n-1 ₃＋０．５×ＦＣＢ^n-1 ₄
ＦＣＢⁿ _m4＝０．５×ＦＣＢⁿ⁺¹ ₁＋０．５×ＦＣＢⁿ⁺¹ ₂
ＦＣＢⁿ⁺¹ _m3＝０．５×ＦＣＢⁿ⁺¹ ₃＋０．５×ＦＣＢⁿ⁺¹ ₄

式３７は、式２２と同じ方法で適用することができ、ただし、修正される復号パラメータの属するサブフレームと、利用される復号パラメータの属するサブフレームとが式２２と異なる。

式３８は、図２２の例による音声情報の補償（音声情報の生成）によって、励起信号の場合には、補間によって生成されず、生成されるサブフレームに対する励起信号成分のうち、前半部分及び後半成分として生成に利用されるサブフレームの励起信号成分を利用する方法を表したものである。
（式３８）
ＦＣＢ^n-1 _m2（ｋ）＝ＦＣＢ^n-1 ₁（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢ^n-1 ₂（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢⁿ _m1（ｋ）＝ＦＣＢ^n-1 ₃（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢ^n-1 ₄（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢⁿ _m4（ｋ）＝ＦＣＢⁿ⁺¹ ₁（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢⁿ⁺¹ ₂（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）
ＦＣＢⁿ⁺¹ _m3（ｋ）＝ＦＣＢⁿ⁺¹ ₃（ｋ）（ｋ＝０〜サブフレーム／２）
＝ＦＣＢⁿ⁺¹ ₄（ｋ）（ｋ＝サブフレーム／２〜サブフレーム）

式３８は、式２４と同じ方法で適用することができ、ただし、修正される復号パラメータの属するサブフレームと、利用される復号パラメータの属するサブフレームとが式２４と異なる。

式３９は、図２２の例による音声情報の補償（音声情報の生成）によって、トラック単位に既存のサブフレームの励起信号成分を利用して励起信号成分を生成する方法を表したものである。
（式３９）
ＦＣＢ^n-1 _m2（ｋ）＝ＦＣＢ^n-1 ₁（ｋ）（トラック１＆３）＋ＦＣＢ^n-1 ₂（ｋ）（トラック２＆４）
ＦＣＢⁿ _m1（ｋ）＝ＦＣＢ^n-1 ₃（ｋ）（トラック１＆３）＋ＦＣＢ^n-1 ₄（ｋ）（トラック２＆４）
ＦＣＢⁿ _m4（ｋ）＝ＦＣＢⁿ⁺¹ ₁（ｋ）（トラック１＆３）＋ＦＣＢⁿ⁺¹ ₂（ｋ）（トラック２＆４）
ＦＣＢⁿ⁺¹ _m3（ｋ）＝ＦＣＢⁿ⁺¹ ₃（ｋ）（トラック１＆３）＋ＦＣＢⁿ⁺¹ ₄（ｋ）（トラック２＆４）

式３９は、式２４と同じ方法で適用することができ、ただし、修正される復号パラメータの属するサブフレームと、利用される復号パラメータの属するサブフレームとが式２４と異なる。

図２２では、音声フレームが４個のサブフレームから構成される場合を例として説明したが、本発明は、これに限定されない。例えば、後続フレーム（ｎ＋１番目のフレーム）のサブフレーム及び復号パラメータと先行フレーム（ｎ−１番目のフレーム）のサブフレーム及び復号パラメータとを利用して、上述したようにフレーム（ｎ番目のフレーム）を生成できる。

この場合、式３５〜３７で説明した補間度ｐ個（２≦ｐ≦Ｌ）のサブフレーム（サブフレームの復号パラメータ）を利用して行うことができる。このとき、補間のフィルタ係数（平坦化比率）は、二つのサブフレームが適用される場合の０．５の代わりに、補間に利用されるサブフレーム（サブフレームの復号パラメータ）の個数に応じて定めることができる。例えば、ｐ個のサブフレームが利用される場合、平坦化係数は、１／ｐと定めることができる。

一方、上述した説明では、ＬＰＣ係数と関連した復号パラメータとしてＩＳＰ係数を利用する場合を例として説明したが、本発明は、これに限定されない。例えば、ＩＳＰ係数に対する補間方法は、先のＩＳＰ係数と共にＬＳＰ係数に対しても同様に適用することができ、周波数領域への変換を考慮してＩＳＦ係数とＬＳＦ係数にも適用することができる。

上述した例示において、方法は、一連のステップ又はブロックでフローチャートに基づいて説明されているが、本発明は、ステップの順序に限定されるものではなく、あるステップは、上述したように、他のステップと他の順序で又は同時に発生できる。また、上述した実施形態は、多様な様態の例示を含む。例えば、上述した実施形態を互いに組み合わせて実施することもでき、これもまた本発明に係る実施形態に属する。本発明は、以下の特許請求の範囲内に属する本発明の技術的思想による多様な修正及び変更を含む。

Claims

ジッタバッファを管理する方法であって、
音声フレームを受信するステップと、
前記受信した音声フレームに基づいてジッタバッファの調整を行うステップと、を含み、
前記ジッタバッファの調整は、音声信号の補償を含み、
前記音声信号の補償は、前記音声フレームのサブフレーム単位に行われ、
前記音声信号の補償は、前記音声フレームの重要度に基づいて行われ、
前記ジッタバッファにおける最も前方の音声フレームの重要度は、単一の無音区間の音声フレームの重要度より高く、
前記単一の無音区間の音声フレームの重要度は、連続的な無音区間中の音声フレームより高いことを特徴とする、方法。
前記音声信号の補償は、前記音声信号の復号パラメータレベルで行われることを特徴とする、請求項１に記載の方法。
前記ジッタバッファの調整は、前記ジッタバッファの大きさの調整を有することを特徴とする、請求項１に記載の方法。
前記重要度が低い順に前記音声信号の補償の対象になることを特徴とする、請求項３に記載の方法。
前記音声信号の補償としてフレーム除去を行う場合、除去対象フレーム、前記除去対象フレームの先行フレーム、前記除去対象フレームの後続フレームに対して、
前記除去対象フレームの前半サブフレームに対する復号パラメータを、前記先行フレームの後半サブフレームに対する復号パラメータで代替し、
前記除去対象フレームの後半サブフレームに対する復号パラメータを、前記後続フレームの前半サブフレームに対する復号パラメータで代替して、前記除去対象フレームを除去することを特徴とする、請求項１に記載の方法。
前記音声信号の補償としてフレーム除去を行う場合、音声フレームを構成する二つのサブフレームに対する復号パラメータを補間して、サブフレームの新しい復号パラメータを生成することを特徴とする、請求項１に記載の方法。
前記音声信号の補償としてフレーム除去を行う場合、
除去対象フレーム、前記除去対象フレームの先行フレームである第１隣接フレーム、前記除去対象フレームの後続フレームである第２隣接フレームに対して音声信号の補償を行って、補償された第１隣接フレーム及び補償された第２隣接フレームを生成し、
前記第１隣接フレームの後半サブフレームに対する復号パラメータの補間によって、前記補償された第１隣接フレームの後半第１サブフレームに対する復号パラメータを生成し、
前記除去対象フレームの前半サブフレームに対する復号パラメータの補間によって、前記補償された第１隣接フレームの後半第２サブフレームに対する復号パラメータを生成し、
前記除去対象フレームの後半サブフレームに対する復号パラメータの補間によって、前記補償された第２隣接フレームの前半第１サブフレームに対する復号パラメータを生成し、
前記第２隣接フレームの前半サブフレームに対する復号パラメータの補間によって、前記補償された第２隣接フレームの前半第２サブフレームに対する復号パラメータを生成することを特徴とする、請求項１に記載の方法。
前記音声信号の補償としてフレーム除去を行う場合、
除去対象フレーム、前記除去対象フレームの先行フレームに対して音声信号の補償を行って、補償された先行フレームを生成し、
前記先行フレームの前半サブフレームに対する復号パラメータの補間によって、前記補償された先行フレームの第１サブフレームを生成し、
前記先行フレームの後半サブフレームに対する復号パラメータの補間によって、前記補償された先行フレームの第２サブフレームを生成し、
前記除去対象フレームの前半サブフレームに対する復号パラメータの補間によって、前記補償された先行フレームの第３サブフレームを生成し、
前記除去対象フレームの後半サブフレームに対する復号パラメータの補間によって、前記補償された先行フレームの第４サブフレームを生成することを特徴とする、請求項１に記載の方法。
前記音声信号の補償としてフレーム除去を行う場合、
除去対象フレーム、前記除去対象フレームの後続フレームに対して音声信号の補償を行って、補償された後続フレームを生成し、
前記除去対象フレームの前半サブフレームに対する復号パラメータの補間によって、前記補償された後続フレームの第１サブフレームを生成し、
前記除去対象フレームの後半サブフレームに対する復号パラメータの補間によって、前記補償された後続フレームの第２サブフレームを生成し、
前記後続フレームの前半サブフレームに対する復号パラメータの補間によって、前記補償された後続フレームの第３サブフレームを生成し、
前記後続フレームの後半サブフレームに対する復号パラメータの補間によって、前記補償された後続フレームの第４サブフレームを生成することを特徴とする、請求項１に記載の方法。
前記音声信号の補償としてフレーム生成を行う場合、音声フレームを構成する二つのサブフレームに対する復号パラメータを補間して、新しいサブフレームの復号パラメータを生成することを特徴とする、請求項１に記載の方法。
前記音声信号の補償としてフレーム生成を行う場合、サブフレーム補間を行い、
前記サブフレーム補間は、音声フレームを構成する二つのサブフレームの間に新しいサブフレームを生成し、
前記二つのサブフレームに対する復号パラメータを補間して、前記新しいサブフレームの復号パラメータを生成することを特徴とする、請求項１に記載の方法。
第１フレームの４サブフレーム及び第２フレームの第１サブフレームのうち、隣接したサブフレームから構成される４サブフレーム対に対してサブフレーム補間を行うことを特徴とする、請求項１１に記載の方法。
第１フレームの第４サブフレーム及び第２フレームの４サブフレームのうち、隣接したサブフレームから構成される４サブフレーム対に対してサブフレーム補間を行うことを特徴とする、請求項１１に記載の方法。
第１フレームの第２及び第３サブフレーム、前記第１フレームの第３及び第４サブフレーム、第２フレームの第１及び第２サブフレーム、前記第２フレームの第２及び第３サブフレームに対してサブフレーム補間を行うことを特徴とする、請求項１１に記載の方法。
第１フレームの第１及び第２サブフレーム、前記第１フレームの第３及び第４サブフレーム、第２フレームの第１及び第２サブフレーム、前記第２フレームの第３及び第４サブフレームに対してサブフレーム補間を行うことを特徴とする、請求項１１に記載の方法。
音声フレームを受信する受信部と、
音声フレームを記憶及び管理するバッファ部と、
音声フレームを出力する出力部と、を備え、
前記バッファ部は、前記受信した音声フレームのサブフレーム単位に音声信号の補償を行い、
前記音声信号の補償は、前記音声フレームの重要度に基づいて行われ、
前記バッファ部における最も前方の音声フレームの重要度は、単一の無音区間の音声フレームの重要度より高く、
前記単一の無音区間の音声フレームの重要度は、連続的な無音区間中の音声フレームより高いことを特徴とする、ジッタバッファ。
前記バッファ部は、復号パラメータレベルで前記音声信号の補償を行うことを特徴とする、請求項１６に記載のジッタバッファ。
前記バッファ部は、別個の二つのサブフレームの復号パラメータを補間して、新しい復号パラメータを生成することを特徴とする、請求項１６に記載のジッタバッファ。