JP7202161B2

JP7202161B2 - 改善されたピッチラグ推定を採用するａｃｅｌｐ型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法

Info

Publication number: JP7202161B2
Application number: JP2018228601A
Authority: JP
Inventors: ジェレミールコント、; ミヒャエルシュナーベル、; ゴーランマールコヴィッチ、; マルティンデイツ、; ベルンハルトノイゲバウア、
Original assignee: フラウンホーファーゲゼルシャフトツールフォルデルングデルアンゲヴァンテンフォルシユングエー．フアー．
Priority date: 2013-06-21
Filing date: 2018-12-06
Publication date: 2023-01-11
Anticipated expiration: 2034-06-16
Also published as: PL3011554T3; CN105408954B; US20190304473A1; AU2014283393A1; US11410663B2; RU2016101599A; TW201812743A; PT3011554T; BR112015031824A2; TWI711033B; MX2015017833A; MX371425B; ES2746322T3; WO2014202539A1; JP2016525220A; JP2021103325A; RU2665253C2; HK1224427A1; TWI613642B; EP3540731A2

Description

本発明は、オーディオ信号処理、詳細には、音声処理に関し、かつより詳細には、ＡＣＥＬＰ型封じ込め（ＡＣＥＬＰ（ＡｌｇｅｂｒａｉｃＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）＝代数符号励振線形予測）における適応型コードブックの改善された封じ込めのための装置および方法に関する。

オーディオ信号処理は、ますます重要度が増している。オーディオ信号処理の分野では、封じ込め技術が重要な役割を果たす。フレームが失われたり破損された場合、その失われたり破損されたフレームからの失われた情報を置換する必要がある。音声信号処理においては、特に、ＡＣＥＬＰまたはＡＣＥＬＰ型音声コーデックを考慮する場合、ピッチ情報が非常に重要である。ピッチ予測技術およびパルス再同期化技術が必要とされる。

ピッチの再構成に関して、様々なピッチ外挿技術が先行技術には存在する。

これらの技術の１つが、繰り返しによる技術である。前提技術のコーデックのほとんどが単純な繰り返しによる封じ込めのアプローチを適用しており、これは、良好なフレームが到着して新しいピッチ情報をビットストリームから復号化できるまで、パケット損失前に最後に正確に受信されたピッチ周期を繰り返すことを意味する。あるいは、パケットの損失時よりもう少し前に受信されたピッチ値を選択することによるピッチ安定性論理を適用する。繰り返しによるアプローチに従うコーデックは、例えば、Ｇ．７１９（非特許文献９[ＩＴＵ０８ｂ、８．６]を参照）、Ｇ．７２９（非特許文献１０［ＩＴＵ１２、４．４］を参照）、ＡＭＲ（非特許文献２［３ＧＰ１２ａ、６．２．３．１］、非特許文献４［ＩＴＵ０３］を参照）、ＡＭＲ－ＷＢ（非特許文献３［３ＧＰ１２ｂ、６．２．３．４．２］を参照)およびＡＭＲ－ＷＢ＋（ＡＣＥＬＰおよびＴＣＸ２０（ＡＣＥＬＰ型）封じ込め)、（非特許文献１［３ＧＰ０９］を参照） (ＡＭＲ＝適応型マルチレート（ＡｄａｐｔｉｖｅＭｕｌｔｉ‐Ｒａｔｅ）、ＡＭＲ‐ＷＢ＝適応型マルチレートワイドバンド（ＡｄａｐｔｉｖｅＭｕｌｔｉ‐Ｒａｔｅ‐Ｗｉｄｅｂａｎｄ）である。

先行技術の他のピッチ再構成技術は、時間領域からのピッチの生成である。いくつかのコーデックについては、ピッチは、封じ込めのため必要だが、ビットストリームには埋め込まれない。したがって、ピッチ周期を計算するため、前のフレームの時間領域信号に基づいてピッチを計算して、次いでこれを封じ込め中、一定に保つ。このアプローチに従うコーデックは、たとえばＧ．７２２であり、特に、Ｇ．７２２補遺３（非特許文献５[ＩＴＵ０６ａ、III．６．６およびIII．６．７]を参照）およびＧ．７２２補遺４（非特許文献７[ＩＴＵ０７、ＩＶ．６．１．２．５]を参照）を参照。

先行技術の他のピッチ再構成技術は、外挿によるものである。いくつかの前提技術のコーデックは、ピッチ外挿アプローチを適用し、かつ、応じてパケット損失中に、外挿されたピッチ推定値にピッチを変更する特定のアルゴリズムを実行する。こられのアプローチについては、以下にＧ．７１８およびＧ．７２９．１を参照してより詳細に説明する。

まず、Ｇ．７１８を考察する（非特許文献８［ＩＴＵ０８ａ］を参照）。未来のピッチの推定は、声門パルス再同期化モジュールを支持するために、外挿により実行される。可能な将来のピッチ値についてのこの情報は、封じ込められた励振の声門パルスを同期するために使用される。

最後の良好なフレームが、「無声」ではない場合にのみピッチ外挿が行われる。Ｇ．７１８のピッチ外挿は、エンコーダがスムーズなピッチ輪郭を有するという仮定に基づく。前記外挿は、消失前の最後の７つのサブフレームのピッチラグｄ^[ｉ] _ｆｒに基づき実行される。

Ｇ．７１８においては、フレームが正しく受け取られるたびに浮動ピッチ値の履歴更新が行われる。この目的で、ピッチ値は、コアモードが「無声」以外の場合にのみ更新される。損失フレームの場合には、浮動ピッチラグ間の差ｄ^[ｉ] _ｄｆｒが以下の式により計算される。

式（１）において、ｄ^[－１] _ｆｒは、前のフレームの最後の（すなわち、第４の）サブフレームのピッチラグを示し、ｄ^[－２] _ｆｒは、前のフレームの第３のサブフレームのピッチラグを示す等である。

Ｇ．７１８によれば、差ｄ^[ｉ] _ｆｒの和は、以下のように計算される。

値Δ^[ｉ] _ｄｆｒは、正または負が可能なので、Δ^[ｉ] _ｄｆｒの符号の反転回数が合計され、かつ第１の反転の位置が、メモリに保存されるパラメータにより示される。

パラメータｆ_ｃｏｒｒは、以下の式により得られる。

ここで、ｄ_ｍａｘ＝２３１は、最大想定ピッチラグである。

Ｇ．７１８において、最大の絶対差を示す位置ｉ_ｍａｘは、以下の定義により得られる。

この最大差についての比は、以下のように計算される。

この比が５以上の場合、最後に正しく受け取られたフレームの４番目のサブフレームのピッチが、封じ込められるべき全サブフレームについて使用される。この比が５以上の場合、これは、アルゴリズムがこのピッチを外挿するのに十分に確実ではなく、かつ声門パルス再同期化が行われないことを意味する。

ｒ_ｍａｘが、５未満の場合、できる限り良好な外挿が行えるよう、さらなる処理が行われる。未来のピッチを外挿するために３つの異なる方法が利用される。可能なピッチ外挿アルゴリズムから選択を行うため、偏差パラメータｆ_{ｃоｒｒ２}を計算するが、これは、ファクタｆ_ｃоｒｒ、および最大ピッチ変化の位置ｉ_ｍａｘに依存する。しかしながら、まず、平均から大きすぎるピッチ差を除去するために、平均浮動ピッチ差を修正する。

ｆ_ｃоｒｒ＜０．９８であり、ｉ_ｍａｘ＝３の場合、２つのフレーム間の遷移に関連するピッチ差を除くために、平均分数ピッチ差／Δ_ｄｆｒが以下の式により決定される。

f_corr≧０．９８またはｉ_ｍａｘ≠３の場合、平均小数ピッチ差／Δ_ｄｆｒは、以下のとおり計算され、

かつ最大浮動ピッチ差は、この新しい平均値により置き換えられる。

浮動ピッチ差のこの新しい平均で、正規化された偏差ｆ_{ｃоｒｒ２}は、以下のとおり計算される。

ここで、Ｉ_ｓｆは、第１のケースにおいては４であり、第２のケースでは６である。

この新しいパラメータに依拠して、未来のピッチを外挿する３つの方法の中から選択を行う。

・Δ^[ｉ] _ｄｆｒが２回を上回って符号を変え（高いピッチ変化を意味する）、第１の符号反転が、最後の良好なフレーム（ｉ＜３について）におけるものであり、かつｆ_{ｃоｒｒ２}＞０．９４５の場合、外挿されるピッチｄ_ｅｘｔ（外挿されるピッチはＴ_ｅｘｔとも表す）を以下のとおり計算する。

・０．９４５＜ｆ_{ｃоｒｒ２}＜０．９９で、かつ、Δ^ｉ _ｄｆｒが１回以上符号を変える場合には、ピッチを外挿するために分数ピッチ差の重み付き平均が採用される。平均差の重み付けｆ_Ｗは、正規化された偏差ｆ_{ｃоｒｒ２}に関連し、かつ第１の符号の反転の位置は以下のとおり規定される。

この式のパラメータｉ_ｍｅｍは、Δ^ｉ _ｄｆｒの第１の符号反転の位置に依存するので、第１の符号反転が過去のフレームの最後の２つのサブフレーム間で起こっていれば、ｉ_ｍｅｍ＝０となり、第１の符号反転が過去のフレームの第２および第３のサブフレーム間で起こっていれば、ｉ_ｍｅｍ＝１となり、以下同様である。第１の符号反転が、最後のフレームの終りに近ければ、これは、ピッチの変化が損失フレームのすぐ前では、より安定していなかったことを意味する。したがって、平均に適用される重み付けファクタは、０に近くなり、外挿されたピッチｄ_ｅｘｔは、最後の良好なフレームの第４のサブフレームのピッチに近くなる。

・さもなければ、ピッチの展開は、安定していると考えられ、外挿されたピッチｄ_ｅｘｔは、以下のとおり決定される。

この処理の後、ピッチラグは、３４から２３１の範囲に制限される（これらの値は、最小および最大許容ピッチラグを示す）。

ここで、ピッチ再構成技術に基づく外挿の他の例を示すため、Ｇ.７２９.１を考える（非特許文献６［ＩＴＵ０６ｂ］を参照）。

Ｇ.７２９．１は、復号化可能な前方誤り封じ込め情報（フェーズ情報等）がない場合のピッチ外挿アプローチ（特許文献１［Ｇａо］を参照）を特徴とする。これは、たとえば、２つの連続するフレームが失われた場合に起こる（１つのスーパーフレームが、ＡＣＥＬＰまたはＴＣＸ２０いずれかが可能な４つのフレームからなる）。また、可能なＴＣＸ４０またはＴＣＸ８０フレームおよびそのほとんどすべての組み合わせが存在する。

有声領域で１以上のフレームが失われた場合、つねに前のピッチ情報を使用して現在失われているフレームを再構成する。現在の推定されるピッチの精度は、オリジナル信号の位相整合に直接影響を与える可能性があり、現在の損失フレームおよび損失フレーム後に受信されたフレームの再構成品質には決定的である。前のピッチラグを単にコピーするのではなく、いくつかの過去のピッチラグを使うことで、統計的により良いピッチ推定が得られると考えられる。Ｇ．７２９.１のコーダにおいて、ＦＥＣ（ＦＥＣ＝前方誤り訂正）のためのピッチ外挿は、過去の５つのピッチ値に基づく線形外挿から構成される。過去の５つのピッチ値は、Ｐ（ｉ）（ｉ＝０、１、２、３、４）で、Ｐ（４）が最も最近のピッチ値である。外挿モデルは、以下のとおり規定される。

損失フレームにおける、第１のサブフレームについての外挿されたピッチ値は、以下のとおり規定される。

係数ａおよびｂを決定するために、誤差Ｅを最小化する。誤差Ｅは、以下のとおり規定される。

以下のとおり設定することで、

ａおよびｂは、以下のとおりになる。

以下では、非特許文献１１（［ＭＣＺ１１］）に提示されるようなＡＭＲ-ＷＢコーデックのための先行技術のフレーム消失封じ込めコンセプトについて説明する。このフレーム消失封じ込めコンセプトは、ピッチおよびゲイン線形予測に基づく。前記論文では、フレームの損失の場合に、最小二乗平均誤差基準（ＭｉｎｉｍｕｍＭｅａｎＳｑｕａｒｅＥｒｒｏｒＣｒｉｔｅｒｉｏｎ）に基づいた線形ピッチ内挿／外挿アプローチを提案する。

このフレーム消失封じ込めコンセプトによれば、デコーダで、消失したフレームの前の最後の有効なフレーム（過去のフレーム）のタイプが、消失フレーム後の最も早いフレーム（未来のフレーム）のタイプと同じ場合、ピッチＰ（ｉ）が規定され、ｉ＝－Ｎ，－Ｎ＋１、．．．、０、１、．．．、Ｎ＋４、Ｎ＋５であり、かつ、Ｎは、消失したフレームの過去および未来のサブフレームの数である。Ｐ(１)、Ｐ（２）、Ｐ（３）、Ｐ（４）が、消失したフレームにおける４つのサブフレームの４つのピッチであり、Ｐ（０）、（－１）、．．．Ｐ（－Ｎ）が、過去のサブフレームのピッチであり、かつ、Ｐ（５）、Ｐ（６）、．．．、Ｐ（Ｎ＋５）が未来のサブフレームのピッチである。線形予測モデルＰ’（ｉ）＝ａ＋ｂ・ｉが採用される。ｉ＝１、２、３、４で、Ｐ’（１）、Ｐ’（２）、Ｐ’（３）、Ｐ’（４）は、消失したフレームについての予測ピッチである。ＭＭＳ基準（ＭＭＳ＝最小二乗平均（ＭｉｎｉｍｕｍＭｅａｎＳｑｕａｒｅ））を考慮して、内挿アプローチにより、２つの予測される係数ａおよびｂの値を生成する。このアプローチによれば、誤差Ｅは、以下のとおり規定される。

次に、係数ａおよびｂは、以下を計算することにより得ることができる。

消失フレームの最後の４つのサブフレームについてのピッチラグは、以下のとおり計算できる。

Ｎ＝４で、最良の結果が得られることがわかる。Ｎ＝４とは、過去の５つのサブフレームと未来の５つのサブフレームを内挿に使用することを意味する。

しかしながら、過去のフレームのタイプが未来のフレームのタイプと異なる場合、例えば、過去のフレームが有声で、未来のフレームが無声の場合、上記の外挿アプローチを使用して、消失フレームのピッチを予測するために、過去または未来のフレームの有声のピッチだけが使用される。

ここで、特にＧ．７１８およびＧ．７２９.１を参照して、先行技術のパルス再同期化を考える。パルス再同期化のためのアプローチは、特許文献２（［ＶＪＧＳ１２］）に記載される。

まず、励振の周期的部分を構成することについて説明する。

「無声」以外の正しく受信されたフレームに続く消失したフレームを封じ込めるため、励振の周期的部分を、前のフレームのローパスフィルタ処理した最後のピッチ周期を繰り返すことにより構成する。

周期的部分の構成は、前のフレームの終りから励振信号のローパスフィルタ処理されたセグメントの単純なコピーを使用することによって行う。

ピッチ周期長さは、最も近い整数に丸められる。

最後のピッチ周期の長さがＴ_ｐであると考えれば、コピーされたセグメントの長さＴ_ｒは、たとえば以下のように規定され得る。

周期的な部分は、１つのフレームおよび１つの追加サブフレームについて構成される。

たとえば、フレームにおいてＭ個のサブフレームがあれば、サブフレームの長さはＬ_ｓｕｂｆｒ＝Ｌ／Ｍであり、ここで、Ｌは、フレームの長さであり、Ｌ_{ｆｒａｍｅ}としても示される（Ｌ＝Ｌ_{ｆｒａｍｅ}）。

図３は、音声信号の構成された周期的部分を示す。

Ｔ［０］は、励振の構成された周期的部分における第１の最大パルスの場所である。他のパルスの位置は、以下の式により与えられる。

これは、以下の式に対応する。

励振の周期的部分の構成の後、損失フレーム（Ｐ）における最後のパルスの推定されるターゲット位置と励振の構成された周期的部分におけるその実際の位置（Ｔ［ｋ］）との間の差を修正するために、声門パルス再同期化が行われる。

ピッチラグ展開は、損失フレームの前の最後の７つのサブフレームのピッチラグに基づいて外挿される。各サブフレームにおける展開ピッチラグは、以下のとおりである。

ここで

であり、かつ、Ｔ_ｅｘｔ（ｄ_ｅｘｔとも呼ぶ）は、ｄ_ｅｘｔについての上に記載する外挿ピッチである。

一定ピッチ（Ｔ_ｃ）のピッチサイクル内のサンプルの合計数の和と、展開するピッチｐ［ｉ］のピッチサイクル内のサンプルの合計数の和との間のｄで示す差は、フレーム長さの範囲内でみつかる。ｄを見つける方法について文献には記載がない。

Ｇ．７１８（非特許文献８［ＩＴＵ０８ａ］を参照）のソースコードでは、ｄは、以下のアルゴリズムを用いて見つけられる（ここで、Ｍは、フレームにおけるサブフレームの数）。

フレーム長さの範囲で構成される周期的部分のパルス＋未来のフレームにおける第１パルスの数はＮである。Ｎを見つける方法について文献には記載がない。

Ｇ．７１８（非特許文献［ＩＴＵ０８ａ］を参照）のソースコードにおいて、Ｎは以下のとおり見つけられる。

損失フレームに属する励振の構成された周期的部分における最後のパルスＴ［ｎ］の位置は、以下の式により決定される。

推定される最後のパルス位置Ｐは、

である。

最後のパルス位置の実際の位置Ｔ［ｋ］は、推定されるターゲット位置Ｐに最も近い励振（サーチにおける現在のフレームの後の最初のパルスを含む）の構成された周期的部分のパルスの位置である。

声門パルス再同期化は、フルピッチサイクルの最小エネルギ領域においてサンプルを加えたり除いたりすることにより行われる。加えたり除いたりするサンプルの数は、以下の差により決定される。

最小エネルギ領域は、スライドする５サンプルのウィンドウを使用して決定される。最小エネルギ位置は、エネルギが最小のウィンドウの中央に設定される。Ｔ［ｉ］＋Ｔｃ／８～Ｔ［ｉ＋１］－Ｔｃ／４からの２つのピッチパルス間でサーチが行われる。Ｎ_ｍｉｎ＝ｎ-１の最小エネルギ領域が存在する。

Ｎ_ｍｉｎ＝１の場合、最小エネルギ領域は、１つしかなく、ｄｉｆｆサンプルがその位置で挿入されるかまたは削除される。

Ｎ_ｍｉｎ＞１については、最初に加えられるかまたは除かれるサンプルは、より少なく、フレームの終りに向かって多くなる。パルスＴ［ｉ］とＴ［ｉ＋１］との間で除かれるかまたは加えられるサンプルの数は、以下の再帰関係に従って見つけられる。

Ｒ［ｉ］＜Ｒ［ｉ－１］の場合、Ｒ［ｉ］およびＲ［ｉ－１］の値が交換される。

ヨーロッパ特許第２００２４２７Ｂ１号（[Gao] Yang Gao, Pitch prediction for packet loss concealment, European Patent 2 002 427 B1）米国特許第８２５５２０７Ｂ２号（[VJGS12] Tommy Vaillancourt, Milan Jelinek, Philippe Gournay, and Redwan Salami, Method and device for efficient frame erasure concealment in speech codecs, US 8,255,207 B2, 2012）

[3GP09] 3GPP; Technical Specification Group Services and System Aspects, Extended adaptive multi-rate - wideband (AMR-WB+) codec, 3GPP TS 26.290, 3rd Generation Partnership Project, 2009 [3GP12a] , Adaptive multi-rate (AMR) speech codec; error concealment of lost frames (release 11), 3GPP TS 26.091, 3rd Generation Partnership Project, Sep 2012 [3GP12b] , Speech codec speech processing functions; adaptive multi-rate - wideband (AMRWB) speech codec; error concealment of erroneous or lost frames, 3GPP TS 26.191, 3rd Generation Partnership Project, Sep 2012 [ITU03] ITU-T, Wideband coding of speech at around 16 kbit/s using adaptive multi-rate wideband (amr-wb), Recommendation ITU-T G.722.2, Telecommunication Standardization Sector of ITU, Jul 2003 [ITU06a] , G.722 Appendix III: A high-complexity algorithm for packet loss concealment for G.722, ITU-T Recommendation, ITU-T, Nov 2006 [ITU06b] , G.729.1: G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with g.729, Recommendation ITU-T G.729.1, Telecommunication Standardization Sector of ITU, May 2006 [ITU07] , G.722 Appendix IV: A low-complexity algorithm for packet loss concealment with G.722, ITU-T Recommendation, ITU-T, Aug 2007 [ITU08a] , G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s, Recommendation ITU-T G.718, Telecommunication Standardization Sector of ITU, Jun 2008 [ITU08b] , G.719: Low-complexity, full-band audio coding for high-quality, conversational applications, Recommendation ITU-T G.719, Telecommunication Standardization Sector of ITU, Jun 2008 [ITU12] , G.729: Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (cs-acelp), Recommendation ITU-T G.729, Telecommunication Standardization Sector of ITU, June 2012 [MCZ11] Xinwen Mu, Hexin Chen, and Yan Zhao, A frame erasure concealment method based on pitch and gain linear prediction for AMR-WB codec, Consumer Electronics (ICCE), 2011 IEEE International Conference on, Jan 2011, pp. 815-816 [MTTA90] J.S. Marques, I. Trancoso, J.M. Tribolet, and L.B. Almeida, Improved pitch prediction with fractional delays in celp coding, Acoustics, Speech, and Signal Processing, 1990. ICASSP-90., 1990 International Conference on, 1990, pp. 665-668 vol.2

本発明の目的は、オーディオ信号処理についての改善されたコンセプトを提供することであり、特に、音声処理についての改善されたコンセプトを提供することであり、かつより詳細には、改善された封じ込めのコンセプトを提供することである。

本発明の目的は、請求項１に記載の装置、請求項１５に記載の方法および請求項１６に記載のコンピュータプログラムにより解決される。

推定されるピッチラグを決定するための装置が提供される。この装置は、複数のオリジナルピッチラグ値を受けるための入力インターフェースと、推定ピッチラグを推定するためのピッチラグ推定器とを含む。ピッチラグ推定器が、複数のオリジナルピッチラグ値および複数の情報値に依拠して、推定ピッチラグを推定するよう構成され、複数のオリジナルピッチラグ値の各々のオリジナルピッチラグ値について、複数の情報値のうちの１つの情報値が、前記オリジナルピッチラグ値に割り当てられる。

実施形態によれば、ピッチラグ推定器が、たとえば複数のオリジナルピッチラグ値と、複数の情報値としての複数のピッチゲイン値とに依拠して、推定ピッチラグを推定するよう構成されることが可能で、複数のオリジナルピッチラグ値の各々のオリジナルピッチラグ値について、複数のピッチゲイン値のうちの１つのピッチゲイン値が、前記オリジナルピッチラグ値に割り当てられる。

特定の実施形態において、複数のピッチゲイン値の各々が、たとえば適応型コードブックゲインであり得る。

ある実施形態において、ピッチラグ推定器が、たとえば誤差関数を最小化することにより推定ピッチラグを推定するよう構成され得る。

ある実施形態によれば、ピッチラグ推定器が、たとえば以下の誤差関数を最小化することにより、２つのパラメータａ、ｂを決定して、推定ピッチラグを推定するよう構成されることが可能で、

ここで、ａは実数であり、ｂは実数であり、ｋは、ｋ≧２の整数であり、Ｐ（ｉ）は、ｉ番目のオリジナルピッチラグ値であり、ｇ_ｐ（ｉ）が、ｉ番目のピッチラグ値Ｐ（ｉ）に割り当てられるｉ番目のピッチゲイン値である。

ある実施形態において、ピッチラグ推定器を、たとえば以下の誤差関数を最小化することにより２つのパラメータａ、ｂを決定して、推定ピッチラグを推定するよう構成することが可能で、

ここで、ａは実数であり、ｂは実数であり、Ｐ（ｉ）はｉ番目のオリジナルピッチラグ値であり、ｇ_ｐ（ｉ）は、ｉ番目のピッチラグ値Ｐ（ｉ）に割り当てられるｉ番目のピッチゲイン値である。

ある実施形態によれば、ピッチラグ推定器は、たとえばｐ＝ａ・ｉ＋ｂに従って推定ピッチラグｐを決定するよう構成され得る。

ある実施形態において、ピッチラグ推定器を、たとえば複数のオリジナルピッチラグ値と、複数の情報値としての複数の時間値とに依拠して、推定ピッチラグを推定するよう構成することが可能で、複数のオリジナルピッチラグ値の各々のオリジナルピッチラグ値について、複数の時間値のうちの１つの時間値が前記オリジナルピッチラグ値に割り当てられる。

ある実施形態によれば、ピッチラグ推定器が、たとえば誤差関数を最小化することにより推定ピッチラグを推定するよう構成され得る。

ここで、ａは実数であり、ｂは実数であり、ｋはｋ≧２の整数であり、かつｐ（ｉ）はｉ番目のオリジナルピッチラグ値であり、ｔｉｍｅ_{ｐａｓｓｅｄ}（ｉ）は、ｉ番目のピッチラグ値Ｐ（ｉ）に割り当てられたｉ番目の時間値である。

ある実施形態によれば、ピッチラグ推定器は、たとえば以下の誤差関数を最小化することにより２つのパラメータａ、ｂを決定して、推定ピッチラグを推定するよう構成することが可能で、

ここで、ａは実数であり、ｂは実数であり、ｐ（ｉ）はｉ番目のオリジナルピッチラグ値であり、ｔｉｍｅ_{ｐａｓｓｅｄ}（ｉ）が、ｉ番目のピッチラグ値Ｐ（ｉ）に割り当てられるｉ番目の時間値である。

ある実施形態において、ピッチラグ推定器が、ｐ＝ａ・ｉ＋ｂに従って推定ピッチラグｐを決定するよう構成される。

また、推定ピッチラグを決定するための方法が提供される。この方法は、以下のステップを含む。
・複数のオリジナルピッチラグ値を受けるステップ
・推定ピッチラグを推定するステップ。

推定ピッチラグを推定するステップは、複数のオリジナルピッチラグ値と、複数の情報値とに依拠して行われ、複数のオリジナルピッチラグ値の各々のオリジナルピッチラグ値について、複数の情報値のうちの１つの情報値が、前記オリジナルピッチラグ値に割り当てられる。

さらに、コンピュータまたは信号プロセッサ上で実行されて、上記の方法を実現するためのコンピュータプログラムが提供される。

また、再構成されたフレームとして音声信号を含むフレームを再構成するための装置が提供され、前記再構成されたフレームが、１以上の入手可能なフレームと関連し、前記１以上の入手可能なフレームが、再構成されたフレームの１以上の先行フレームおよび再構成されたフレームの１以上の後続フレームのうちの１以上のフレームであり、１以上の入手可能なフレームが、１以上の入手可能なピッチサイクルとして、１以上のピッチサイクルを含む。この装置は、１以上の入手可能なピッチサイクルのうちの１つのサンプルの数と再構成されるべき第１のピッチサイクルのサンプルの数との差を示すサンプル数の差を決定するための決定部を含む。また、この装置は、サンプル数の差と、１以上の入手可能なピッチサイクルのうちの前記１つのサンプルとに依拠して、第１の再構成ピッチサイクルとして再構成されるべき第１のピッチサイクルを再構成することにより再構成フレームを再構成するためのフレーム再構成部を含む。フレーム再構成部は、再構成フレームを再構成するように構成され、それにより再構成フレームが完全にまたは部分的に第１の再構成ピッチサイクルを含み、再構成フレームが完全にまたは部分的に第２の再構成ピッチサイクルを含み、かつ第１の再構成ピッチサイクルのサンプル数が第２の再構成ピッチサイクルのサンプル数とは異なるようになっている。

ある実施形態によれば、決定部は、たとえば、再構成対象の複数のピッチサイクルの各々についてサンプル数の差を決定して、それによりピッチサイクルの各々のサンプル数の差が、１以上の入手可能なピッチサイクルのうちの前記１つのサンプルの数と、再構成対象の前記ピッチサイクルのサンプル数との差を示すようになっている。フレーム再構成部は、たとえば、再構成対象の前記ピッチサイクルのサンプル数の差および１以上の入手可能なピッチサイクルの前記１つのサンプルに依拠して、再構成対象の複数のピッチサイクルの各ピッチサイクルを再構成して、再構成フレームを再構成するよう構成され得る。

ある実施形態においては、フレーム再構成部は、たとえば、１以上の入手可能なピッチサイクルのうちの前記１つに依拠して中間フレームを生成するよう構成され得る。フレーム再構成部は、たとえば、再構成フレームを得るために、中間フレームを修正するよう構成され得る。

実施形態によれば、決定部は、たとえば、いくつのサンプルを中間フレームから取り除くかまたはいくつのサンプルを中間フレームに加えるかを示すフレーム差値（ｄ；ｓ）を決定するよう構成され得る。また、フレーム再構成部は、たとえば、フレーム差値が、第１のサンプルがフレームから除去されることを示す場合、再構成フレームを得るために中間フレームから第１のサンプルを除去するよう構成され得る。さらに、フレーム再構成部は、たとえば、フレーム差値（ｄ；ｓ）が、第２のサンプルがフレームに加えられることを示す場合、再構成フレームを得るために中間フレームに第２のサンプルを加えるよう構成され得る。

ある実施形態において、フレーム再構成部は、たとえば、フレーム差値が、第１のサンプルがフレームから除去されるべきことを示す場合、中間フレームから第１のサンプルを除去するよう構成することが可能で、中間フレームから除去される第１のサンプルの数がフレーム差値により示されるようになっている。また、フレーム再構成部は、たとえば、フレーム差値が、第２のサンプルがフレームに加えられるべきことを示す場合、中間フレームに第２のサンプルを加えるよう構成することが可能で、中間フレームに加えられる第２のサンプルの数がフレーム差値により示されるようになっている。

ある実施形態によれば、決定部は、たとえば、以下の式が真であるように、フレーム差数ｓを決定するように構成され得る。

ここで、Ｌは、再構成フレームのサンプルの数を表し、Ｍは、再構成フレームのサブフレームの数を表し、Ｔ_ｒは、１以上の入手可能なピッチサイクルの前記１つの丸められたピッチ周期長さを示し、ｐ［ｉ］は、再構成フレームのｉ番目のサブフレームの再構成されたピッチサイクルのピッチ周期長さを示す。

ある実施形態において、フレーム再構成部は、たとえば、１以上の入手可能なピッチサイクルの前記１つに依拠して中間フレームを生成するようになっていてもよい。また、フレーム再構成部は、たとえば、中間フレームが、第１の部分中間ピッチサイクル、１以上のさらなる中間ピッチサイクルおよび第２の部分中間ピッチサイクルを含むように中間フレームを生成するようにされてもよい。さらに、第１の部分中間ピッチサイクルは、たとえば、１以上の入手可能なピッチサイクルのうちの前記１つのサンプルのうちの１以上に依拠することが可能で、１以上のさらなる中間ピッチサイクルの各々が、１以上の入手可能なピッチサイクルの前記１つのサンプルの全部に依拠し、かつ第２の部分中間ピッチサイクルが、１以上の入手可能なピッチサイクルの前記１つのサンプルのうちの１以上に依拠する。また、決定部は、たとえば、第１の部分中間ピッチサイクルからいくつのサンプルを除くかまたは加えるかを示す開始部差数を決定するよう構成することができ、かつフレーム再構成部は、開始部差数に依拠して、第１の部分中間ピッチサイクルから１以上の第１のサンプルを除去するよう構成されるか、または第１の部分中間ピッチサイクルに１以上の第１のサンプルを加えるよう構成される。さらに、決定部は、たとえば、さらなる中間ピッチサイクルの前記１つから除くかまたは加えるサンプルの数を表すピッチサイクル差数を、さらなる中間ピッチサイクルの各々について決定するよう構成され得る。また、フレーム再構成部は、たとえば、前記ピッチサイクル差数に依拠して、さらなる中間ピッチサイクルの前記１つから１以上の第２のサンプルを除去するよう構成され得るか、または、さらなる中間ピッチサイクルの前記１つに１以上の第２のサンプルを加えるよう構成され得る。さらに、決定部は、たとえば、第２の部分中間ピッチサイクルから除くかまたは加えるサンプルの数を示す終了部差数を決定するよう構成することができ、かつフレーム再構成部は、終了部差数に依拠して、第２の部分中間ピッチサイクルから１以上の第３のサンプルを除去するよう構成される、かまたは第２の部分中間ピッチサイクルに１以上の第３のサンプルを加えるよう構成される。

ある実施形態によれば、フレーム再構成部は、たとえば、１以上の入手可能なピッチサイクルの前記１つに依拠して中間フレームを生成するよう構成され得る。また、決定部は、たとえば、中間フレームにより含まれる音声信号の１以上の低エネルギ信号部を決定するようにされてもよく、１以上の低エネルギ信号部の各々が、中間フレーム内の音声信号の第１の信号部であり、音声信号のエネルギが、中間フレームにより含まれる音声信号の第２の信号部におけるエネルギより低い。さらに、フレーム再構成部は、たとえば、再構成されたフレームを得るために、音声信号の１以上の低エネルギ信号部の１以上から１以上のサンプルを除去するか、または音声信号の１以上の低エネルギ信号部分の１以上へ１以上のサンプルを加えるよう構成され得る。

特定の実施形態において、フレーム再構成部は、たとえば、中間フレームを生成するよう構成されることが可能で、それにより中間フレームが１以上の再構成されたピッチサイクルを含み、１以上の再構成されたピッチサイクルの各々が、１以上の入手可能なピッチサイクルの前記１つに依拠するようになっている。また、決定部は、たとえば、１以上の再構成ピッチサイクルの各々から除去するサンプルの数を決定するように構成され得る。さらに、決定部は、たとえば、１以上の低エネルギ信号部の各々について、前記低エネルギ信号部のサンプルの数が、１以上の再構成ピッチサイクルの１つから除去されるサンプル数に依拠するように、１以上の低エネルギ信号部の各々を決定するように構成することが可能で、前記低エネルギ信号部が、１以上の再構成ピッチサイクルの前記１つ内に位置する。

ある実施形態において、決定部は、たとえば、再構成フレームとして再構成されるべきフレームの音声信号の１以上のパルスの位置を決定するよう構成され得る。また、フレーム再構成部は、たとえば、音声信号の１以上のパルスの位置に依拠して再構成フレームを再構成するよう構成され得る。

ある実施形態によれば、決定部は、たとえば、再構成フレームとして再構成されるべきフレームの音声信号の２以上のパルスの位置を決定するよう構成することが可能で、Ｔ［０］は、再構成フレームとして再構成されるべきフレームの音声信号の２以上のパルスのうちの１つの位置であり、かつ決定部は、以下の式に従う音声信号の２以上のパルスのうちのさらなるパルスの位置（Ｔ［ｉ］）を決定するよう構成される。

ここで、Ｔ_ｒは、１以上の入手可能なピッチサイクルの前記１つの丸められた長さを示し、かつｉは整数である。

ある実施形態によれば、決定部は、たとえば、以下の式のように、再構成フレームとして再構成されるべきフレームの音声信号の最後のパルスのインデクスｋを決定するよう構成され得る。

ここで、Ｌは、再構成フレームのサンプルの数を示し、ｓは、フレーム差値を示し、Ｔ［０］は、音声信号の最後のパルスとは異なる再構成フレームとして再構成されるべきフレームの音声信号のパルスの位置を示し、Ｔ_ｒは、１以上の入手可能なピッチサイクルの前記１つの丸められた長さを示す。

ある実施形態において、決定部は、たとえば、パラメータδを決定することにより再構成フレームとして再構成されるべきフレームを再構成するよう構成することが可能で、δは以下の式により規定される。

ここで、再構成フレームとして再構成されるべきフレームは、Ｍ個のサブフレームを含み、Ｔ_ｐは、１以上の入手可能なピッチサイクルの前記１つの長さを示し、Ｔ_ｅｘｔは、再構成フレームとして再構成されるべきフレームの再構成されるべきピッチサイクルのうちの１つの長さを示す。

ある実施形態によれば、決定部は、たとえば、以下の式に基づき１以上の入手可能なピッチサイクルの前記１つの丸められた長さＴ_ｒを決定することにより再構成フレームを再構成するよう構成され得る。

ここで、Ｔ_ｐは、１以上の入手可能なピッチサイクルの前記１つの長さを示す。

ある実施形態において、決定部は、たとえば以下の式を適用することにより再構成フレームを再構成するよう構成され得る。

ここで、Ｔ_ｐは、１以上の入手可能なピッチサイクルの前記１つの長さを示し、Ｔ_ｒは、１以上の入手可能なピッチサイクルの前記１つの丸められた長さを示し、再構成フレームとして再構成されるべきフレームは、Ｍ個のサブフレームを含み、再構成フレームとして再構成されるべきフレームは、Ｌ個のサンプルを含み、δが１以上の入手可能なピッチサイクルのうちの前記１つのサンプルの数と、再構成されるべき１以上のピッチサイクルの１つのサンプルの数との差を表す実数である。

また、音声信号を含むフレームを、再構成されたフレームとして再構成するための方法が提供され、前記再構成されたフレームが、１以上の入手可能なフレームと関連し、前記１以上の入手可能なフレームが、再構成されたフレームの１以上の先行フレームおよび再構成されたフレームの１以上の後続フレームのうちの１以上のフレームであり、１以上の入手可能なフレームが、１以上の入手可能なピッチサイクルとして、１以上のピッチサイクルを含み、この方法は、以下のステップを含む。
・１以上の入手可能なピッチサイクルのうちの１つのサンプルの数と再構成されるべき第１のピッチサイクルのサンプルの数との差を示すサンプル数の差（Δ^ｐ _０；Δ_ｉ；Δ^ｐ _ｋ＋１）を決定するステップ。
・サンプル数の差（Δ^ｐ _０；Δ_ｉ；Δ^ｐ _ｋ＋１）および１以上の入手可能なピッチサイクルのうちの前記１つのサンプルに依拠して、第１の再構成ピッチサイクルとして再構成されるべき第１のピッチサイクルを再構成することにより再構成フレームを再構成するステップ。

再構成フレームの再構成が行われ、それにより再構成フレームが完全にまたは部分的に第１の再構成ピッチサイクルを含み、再構成フレームが完全にまたは部分的に第２の再構成ピッチサイクルを含み、かつ第１の再構成ピッチサイクルのサンプル数が第２の再構成ピッチサイクルのサンプル数とは異なるようになっている。

また、音声信号を含むフレームを再構成するためのシステムが提供される。このシステムは、上記および後述の実施形態の１つに従う推定ピッチラグを決定するための装置と、フレームを再構成するための装置とを含み、フレームを再構成するための装置が、推定ピッチラグに依拠してフレームを再構成するよう構成される。推定ピッチラグは、音声信号のピッチラグである。

ある実施形態において、再構成されたフレームが、たとえば、１以上の入手可能なフレームと関連し、前記１以上の入手可能なフレームが、再構成されたフレームの１以上の先行フレームおよび再構成されたフレームの１以上の後続フレームのうちの１以上のフレームであり、１以上の入手可能なフレームが、１以上の入手可能なピッチサイクルとして、１以上のピッチサイクルを含む。フレームを再構成するための装置は、たとえば、上記または後述の実施形態の１つに従ってフレームを再構成するための装置であってもよい。

本発明は、先行技術が大きな欠点を有するとする所見に基づく。Ｇ．７１８（非特許文献８［ＩＴＵ０８ａ］を参照）およびＧ．７２９．１（非特許文献６［ＩＴＵ０６ｂ］を参照）の双方とも、フレーム損失の場合にピッチ外挿を用いる。これが必要なのは、フレーム損失時には、ピッチラグも失われるからである。Ｇ．７１８およびＧ．７２９．１によれば、ピッチは、最後の２つのフレームの間のピッチの展開を考慮に入れることにより外挿される。しかしながら、Ｇ．７１８およびＧ．７２９．１により再構成されるピッチラグは、あまり正確ではなく、たとえば、実際のピッチラグから大きく異なる再構成ピッチラグが得られる場合が多い。

本発明の実施形態により、より正確なピッチラグ再構成が提供される。この目的で、Ｇ．７１８およびＧ．７２９．１とは対照的に、いくつかの実施形態では、ピッチ情報の信頼性に関する情報を考慮する。

先行技術では、外挿が基礎とするピッチ情報は、最後に正確に受信された８つのピッチラグを含み、これらについては、符号化モードは「無声」とは異なっていた。しかしながら、先行技術では、低いピッチゲイン（低い予測ゲインに対応する）により示される有声特性が非常に弱いかもしれない。先行技術では、外挿が、異なるピッチゲインを有するピッチラグに基づく場合、外挿が、妥当な結果をもたらさないか、または、全くうまくいかず、再び単純なピッチラグ繰り返しのアプローチに戻ることになる。

実施形態は、先行技術のこれらの欠点の原因が、エンコーダ側で、適応型コードブックの符号化ゲインを最大化するため、ピッチゲインを最大化することに関してピッチラグを選択するが、音声特性が弱い場合には、音声信号における雑音でピッチラグ推定が不正確になるため、ピッチラグが基本周波数を正確に表示しない可能性があると言う点にあるとする所見に基づく。

したがって、実施形態によれば、封じ込め中に、ピッチラグ外挿の適用は、この外挿について使用した前に受信したラグの信頼性に依拠して重み付けが行われる。

いくつかの実施形態によれば、過去の適応型コードブックゲイン（ピッチゲイン）を、信頼性の尺度として採用し得る。

本発明の他のいくつかの実施形態によれば、ピッチラグがどこまで過去に受信されたかによる重み付けが信頼性の尺度として使用される。たとえば、より最近のラグには高い重み付けがされ、より後に受けられたラグにはより低い重み付けがされる。

実施形態によれば、重み付けピッチ予測のコンセプトが提供される。先行技術とは対照的に、本発明の実施形態により提供されるピッチ予測は、基礎とするピッチラグの各々についての信頼性の尺度を使用し、予測結果をより有効で安定したものにする。特に、ピッチゲインを信頼性の指標として使用することができる。代替的にまたは付加的に、いくつかの実施形態によれば、たとえば、ピッチラグを正しく受け取った後に経過した時間を、指標として使用することができる。

パルス再同期化については、本発明は、声門パルス再同期化に関する先行技術の欠点の１つは、ピッチ外挿が封じ込められたフレームにおいて構成すべきパルス（ピッチサイクル）の数を考慮しない点にあるとする所見に基づく。

先行技術によれば、ピッチにおける変化がサブフレームの境界でのみ予測されるようにピッチ外挿が行われる。

実施形態によれば、声門パルス再同期化を実行する際は、連続するピッチ変化とは異なるピッチ変化を考慮に入れることができる。

本発明の実施形態は、Ｇ．７１８およびＧ．７２９．１が以下の欠点を有するとする所見に基づく。

まず、先行技術では、ｄを計算する際に、フレーム内に整数個のピッチサイクルが存在すると仮定する。ｄが、封じ込めフレームにおける最後のパルスの場所を規定するので、非整数のピッチサイクルがフレーム内に存在する場合には、最後のパルスの位置は、正確にならない。これを、図６および図７に示す。図６は、サンプル除去前の音声信号を示す。図７は、サンプル除去後の音声信号を示す。さらに、ｄを計算するために先行技術が採用するアルゴリズムは非効率である。

また、先行技術の計算では、励振の構成された周期的部分において、パルス数Ｎが必要である。これが、不必要な計算の複雑さを増大させる。

さらに、先行技術においては、励振の構成された周期的部分におけるパルス数Ｎの計算は、第１のパルスの場所を考慮に入れない。

図４および図５において提示される信号は、長さＴ_ｃの同じピッチ周期を有する。

図４は、フレーム内に３つのパルスを有する音声信号を示す。

対照的に、図５は、フレーム内に２つのパルスのみを有する音声信号を示す。

図４および図５が示すこれらの例は、パルスの数が第１のパルスの位置に依拠することを示す。

また、先行技術によれば、Ｎが、後続のフレームにおける第１のパルスを含むと規定されても、励振の構成された周期的部分におけるＮ番目のパルスの場所であるＴ［Ｎ-１］が、フレーム長さの範囲内にあるかどうかをチェックする。

さらに、先行技術によれば、最初のパルスの前および最後のパルスの後には、サンプルが加えられたり除去されたりしない。本発明の実施形態は、このことが、第１のフルピッチサイクルの長さにおける突然の変化が起こる可能性があるという欠点につながり、これが、また、ピッチラグが減少している場合でさえ、最後のパルス後のピッチサイクルの長さが、最後のパルスの前の最後のフルピッチサイクルの長さより大きくなり得るという欠点につながるとする所見に基づく（図６および図７参照）。

実施形態は、パルスＴ［ｋ］＝Ｐ‐ｄｉｆｆおよびＴ［ｎ］＝Ｐ-ｄが以下の場合等しくないという所見に基づく。
・ｄ＞[Ｔ_ｃ／２]の場合。この場合、ｄｉｆｆ＝Ｔ_ｃ－ｄであり、かつ除去されたサンプルの数がｄではなくｄｉｆｆになる。
・Ｔ［ｋ］が、未来のフレーム内にあり、かつｄサンプルを除いて初めて現在のフレームに移動する場合。
・Ｔ［ｎ］が、‐ｄサンプル（ｄ＜０）を加えた後に未来のフレームに移動する場合。

これが、封じ込められたフレームにおけるパルスの間違った位置につながる。

また、実施形態は、先行技術において、ｄの最大値が符号化されたピッチラグの最小許容値に制限されるという所見に基づく。これは、他の問題の発生を制限する制約だが、ピッチにおいて可能な変化も制限し、かつパルス再同期化も制限する。

さらに、実施形態は、先行技術において、周期的部分が整数ピッチラグを用いて構成され、かつこれが高調波の周波数シフトおよび一定のピッチでの音信号の封じ込めにおける大きな劣化を作り出すとする所見に基づく。この劣化については、丸められたピッチラグを用いるときに再同期化される音声信号の時間‐周波数表現を示す図８に見ることができる。

また、実施形態は、先行技術の問題の殆どが、ｄサンプルが除去される図６および図７の例が示すような状況で発生するという所見に基づく。ここでは、問題をより簡単に可視化するため、ｄの最大値についての制約はないと考える。問題は、ｄに限度があるがあまり明確に可視化されない場合にも生じる。連続して増加するピッチではなく、ピッチが突然増大した後に突然減少することも考えられる。実施形態は、これが、最後のパルスの前後でサンプルが除去されないこと、間接的にはパルスＴ［２］が、ｄサンプル除去の後のフレーム内で移動することを考慮に入れないことにより起こるとする所見に基づく。この例では、Ｎの計算の誤りも発生する。

実施形態によれば、改善されたパルス再同期化のコンセプトが提供される。実施形態は、音声を含むモノラルの信号の改善された封じ込めを提供し、これは、標準Ｇ．７１８（非特許文献８［ＩＴＵ０８ａ］を参照）およびＧ．７２９．１（非特許文献６［ＩＴＵ０６ｂ］を参照）に記載の既存技術に比べて有利である。本件の実施形態は、一定のピッチの信号およびピッチが変化する信号両方に適している。

とりわけ、実施形態によれば３つの技術が提供される。

ある実施形態が提供する第１の技術によれば、Ｇ．７１８およびＧ．７２９．１とは対照的に、Ｎで表す構成された周期的部分におけるパルスの数の計算において、第１のパルスの場所を考慮に入れる、パルスについてのサーチコンセプトが提供される。

他の実施形態により提供される第２の技術によれば、Ｇ．７１８およびＧ．７２９．１とは対照的に、Ｎで示す、構成された周期的部分におけるパルスの数を必要とせず、第１のパルスの場所を考慮に入れ、かつｋで示す封じ込めフレームにおける最後のパルスインデクスを直接的に計算するパルスをサーチするためのアルゴリズムが提供される。

他の実施形態により提供される第３の技術によれば、パルスサーチは不要である。この第３の技術によれば、周期的部分の構成とサンプルの除去または付加を組み合わせることにより、以前の技術よりも複雑さが抑えられる。

付加的または代替的に、いくつかの実施形態は、上記の技術ならびにＧ．７１８およびＧ．７２９．１の技術について以下の変更を提供する。
・ピッチラグの小数部分は、たとえば、一定ピッチの信号について周期的部分を構成するために使用できる。
・封じ込めフレームにおける最後のパルスの予測される場所のオフセットが、たとえば、フレーム内の非整数のピッチサイクルについて計算され得る。
・たとえば、最初のパルスの前と最後のパルスの後にもサンプルを加えたり除いたりできる。
・たとえば、パルスが１つしかない場合にも、サンプルを加えたり除いたりできる。
・除くかまたは加えるべきサンプルの数は、たとえば、ピッチにおける予測線形変化に従って線形に変更できる。

以下に、図面を参照して本発明の実施形態についてより詳細に説明する。

図１は、実施形態による推定ピッチラグを決定するための装置を示す図である。図２Ａは、実施形態による再構成フレームとして音声信号を含むフレームを再構成するための装置を示す図である。図２Ｂは、複数のパルスを含む音声信号を示す図である。図２Ｃは、実施形態による音声信号を含むフレームを再構成するためのシステムを示す図である。図３は、音声信号の構成された周期的部分を示す図である。図４は、フレーム内に３つのパルスを有する音声信号を示す図である。図５は、フレーム内に２つのパルスを有する音声信号を示す図である。図６は、サンプルの除去前の音声信号を示す図である。図７は、サンプルの除去後の図６の音声信号を示す図である。図８は、丸められたピッチラグを用いて再同期化された音声信号の時間―周波数表現を示す図である。図９は、小数部分を有する非丸めピッチラグを用いて再同期化された音声信号の時間‐周波数表現を示す図である。図１０は、ピッチラグが前提技術のコンセプトを採用して再構成されるピッチラグ図を示す図である。図１１は、実施形態によりピッチラグが再構成されるピッチラグ図を示す図である。図１２は、サンプルを除去する前の音声信号を示す図である。図１３は、Δ_０からΔ_３を付加的に示す図１２の音声信号を示す図である。

図１は、実施形態による推定ピッチラグを決定するための装置を示す。この装置は、複数のオリジナルピッチラグ値を受けるための入力インターフェース１１０と、推定ピッチラグを推定するためのピッチラグ推定器１２０とを含む。ピッチラグ推定器１２０は、複数のオリジナルピッチラグ値および複数の情報値に依拠して推定ピッチラグを推定するよう構成され、複数のオリジナルピッチラグ値の各オリジナルピッチラグ値について、複数の情報値のうちの１つの情報値が前記オリジナルピッチラグ値に割り当てられる。

実施形態によれば、ピッチラグ推定器１２０は、たとえば、複数のオリジナルピッチラグ値と、複数の情報値としての複数のピッチゲイン値とに依拠して推定ピッチラグを推定するよう構成することが可能で、複数のオリジナルピッチラグ値の各オリジナルピッチラグ値について、複数のピッチゲイン値のうちの１つのピッチゲイン値が前記オリジナルピッチラグ値に割り当てられる。

特定の実施形態において、複数のピッチゲイン値の各々は、たとえば、適応型コードブックゲインでもよい。

ある実施形態において、ピッチラグ推定器１２０は、たとえば、誤差関数を最小化することにより推定ピッチラグを推定するよう構成され得る。

ある実施形態によれば、ピッチラグ推定器１２０は、たとえば、以下の誤差関数を最小化して、２つのパラメータａ，ｂを決定することにより推定ピッチラグを推定するよう構成され得る。

ここで、ａは実数であり、ｂは実数であり、ｋはｋ≧２の整数であり、Ｐ（ｉ）はｉ番目のオリジナルピッチラグ値であり、ｇ_ｐ（ｉ）はｉ番目のピッチラグ値Ｐ（ｉ）に割り当てられるｉ番目のピッチゲイン値である。

ある実施形態において、ピッチラグ推定器１２０は、たとえば、以下の誤差関数を最小化して、２つのパラメータａ、ｂを決定することにより、推定ピッチラグを推定するよう構成され得る。

ここで、ａは実数であり、ｂは実数であり、Ｐ（ｉ）はｉ番目のオリジナルピッチラグ値であり、ｇ_ｐ（ｉ）はｉ番目のピッチラグ値Ｐ（ｉ）に割り当てられるｉ番目のピッチゲイン値である。

ある実施形態によれば、ピッチラグ推定器１２０は、たとえば、ｐ＝ａ・ｉ+ｂに従って推定ピッチラグｐを決定するよう構成され得る。

ある実施形態において、ピッチラグ推定器１２０は、たとえば、複数のオリジナルピッチラグ値と、複数の情報値としての複数の時間値とに依拠して推定ピッチラグを推定するよう構成されることが可能で、複数のオリジナルピッチラグ値のうちの各オリジナルピッチラグ値について、複数の時間値のうちの１つの時間値が前記オリジナルピッチラグ値に割り当てられる。

ある実施形態によれば、ピッチラグ推定器１２０は、たとえば、誤差関数を最小化することにより推定ピッチラグを推定するよう構成され得る。

ここで、ａは実数であり、ｂは実数であり、ｋは、ｋ≧２の整数であり、かつＰ（ｉ）はｉ番目のオリジナルピッチラグ値であり、ｔｉｍｅ_{ｐａｓｓｅｄ}（ｉ）は、ｉ番目のピッチラグ値Ｐ（ｉ）に割り当てられるｉ番目の時間値である。

ある実施形態によれば、ピッチラグ推定器１２０は、たとえば、以下の誤差関数を最小化して、２つのパラメータａ、ｂを決定することにより、推定ピッチラグを推定するよう構成され得る。

ここで、ａは、実数であり、ｂは実数であり、Ｐ（ｉ）は、ｉ番目のオリジナルピッチラグ値であり、ｔｉｍｅ_{ｐａｓｓｅｄ}（ｉ）は、ｉ番目のピッチラグ値Ｐ（ｉ）に割り当てられるｉ番目の時間値である。

ある実施形態において、ピッチラグ推定器１２０は、ｐ＝ａ・ｉ+ｂに従って推定ピッチラグｐを決定するよう構成される。

以下に、重み付けピッチ予測を行う実施形態を、式（２０）から式（２４ｂ）を参照して記載する。

まず、ピッチゲインによる重み付けを採用する重み付けピッチ予測の実施形態について式（２０）から式（２２ｃ）を参照して説明する。これらの実施形態のいくつかは、先行技術の欠点を克服するため、ピッチラグをピッチゲインで重み付けしてピッチ予測を行う。

いくつかの実施形態において、ピッチゲインは、標準Ｇ．７２９において規定される適応型コードブックゲインｇ_ｐが可能である（非特許文献１０［ＩＴＵ１２］、特に３．７.３章、より詳細には式（４３）を参照）。Ｇ．７２９においては、適応型コードブックゲインは、以下に従って決定される。

ここで、ｘ（ｎ）は、ターゲット信号であり、かつｙ（ｎ）は、以下のとおり、ｖ（ｎ）をｈ（ｎ）と畳み込むことにより得られる。

ここで、ｖ（ｎ）は、適応型コードブックベクトルであり、ｙ（ｎ）は、フィルタ化された適応型コードブックベクトルであり、かつｈ（ｎ－ｉ）は、Ｇ．７２９に規定される重み付合成フィルタのインパルス応答である（非特許文献１０［ＩＴＵ１２］を参照）。

同様に、いくつかの実施形態において、ピッチゲインは、標準Ｇ．７１８において規定される適応型コードブックゲインｇ_ｐであることが可能である（非特許文献８［ＩＴＵ０８ａ］、特に６．８．４．１．４．１章、より詳細には式（１７０）を参照）。Ｇ．７１８においては、適応型コードブックゲインが以下のとおり決定される。

ここで、ｘ（ｎ）はターゲット信号であり、かつｙ_ｋ（ｎ）は、遅延ｋでの過去のフィルタ化された励振である。

たとえば、定義について、ｙ_ｋ（ｎ）がいかに規定できるかは、非特許文献８（［ＩＴＵ０８ａ］）、６．８.４．１.４．１章、式（１７１）を参照。

同様に、いくつかの実施形態では、ピッチゲインは、ＡＭＲ標準で規定される適応型コードブックゲインｇ_ｐ（非特許文献３［３ＧＰ１２ｂ］を参照）が可能で、ピッチゲインとしての適応型コードブックゲインｇ_ｐは、以下のとおり規定される。

ここで、ｙ（ｎ）は、フィルタ化された適応型コードブックベクトルである。

いくつかの実施形態において、ピッチラグは、たとえば、ピッチ予測を行う前にピッチゲインで重み付けすることが可能である。

この目的で、ある実施形態によれば、たとえば、ピッチラグと同じサブフレームで取られたピッチゲインを保持する、長さ８の第２のバッファを導入してもよい。ある実施形態では、バッファは、ピッチラグの更新と全く同じルールを使用して更新され得る。１つの可能な実現例は、そのフレームに誤差がないかまたは誤差がありがちかにかかわらず、各フレームの終りに両方のバッファ（最後の８つのサブフレームのピッチラグとピッチゲインを保持）を更新することである。

先行技術から２つの異なる予測戦略が知られており、重み付けピッチ予測を使用するためにこれらを強化することができる。

いくつかの実施形態は、Ｇ．７１８標準の予測戦略に対し大きな発明的改善をもたらす。Ｇ．７１８において、パケットが失われる場合において、関連するピッチゲインが高い場合、高いファクタでピッチラグを重み付けし、かつ関連するピッチゲインが低い場合には、低いファクタでこれを重み付けするために、バッファが要素ごとに相互に乗算され得る。その後、Ｇ．７１８に従って、ピッチ予測が通常通り行われる（Ｇ．７１８に関する詳細については、非特許文献８［ＩＴＵ０８ａ、セクション７．１１.１．３］を参照）。

いくつかの実施形態は、Ｇ．７２９．１標準の予測戦略に対し大きな発明的改善をもたらす。ピッチを予測するためのＧ．７２９.１において使用されるアルゴリズム（Ｇ．７２９．１に関する詳細については、非特許文献６［ＩＴＵ０６ｂ］を参照）が、重み付け予測を用いるために、実施形態に従って修正される。

いくつかの実施形態によれば、目標は、以下の誤差関数を最小化することである。

ここで、ｇ_ｐ（ｉ）は、過去のサブフレームからのピッチゲインを保持し、かつ、Ｐ（ｉ）は、対応のピッチラグを保持する。

本発明の式（２０）では、ｇ_ｐ（ｉ）が、重み付けファクタを表す。上記の例では、各ｇ_ｐ（ｉ）が、過去のサブフレームの１つからのピッチゲインを表す。

以下に、実施形態による等式を記述するが、これらは、ａ+ｉ・ｂ（ｉが予測対象のサブフレームのサブフレーム番号）によってピッチラグを予測するために使用できるファクタａおよびｂを生成する方法を記述する。

たとえば、最後の５つのサブフレームＰ（０）、．．．、Ｐ（４）に関する予測に基づき第１の予測サブフレームを得るために、予測ピッチ値Ｐ（５）は、以下のようになると考えられる。

係数ａおよびｂを生成するために、たとえば、誤差関数を生成し（導き）、かつゼロに設定することができる。

先行技術は、実施形態により提供される本発明の重み付けを採用することについて開示してない。特に、先行技術は、重み付けファクタｇ_ｐ（ｉ）を採用していない。

このように、重み付けファクタｇ_ｐ（ｉ）を採用しない先行技術においては、誤差関数を生成して、誤差関数の導関数をゼロに設定すると、以下のようになると考えられる。

（非特許文献６［ＩＴＵ０６ｂ、７．６．５を参照］）。

対照的に、実施形態の重み付け予測アプローチ、たとえば、重み付けファクタｇ_ｐ（ｉ）での式（２０）の重み付け予測アプローチを用いれば、ａおよびｂは、以下のようになる。

特定の実施形態によれば、Ａ、Ｃ、Ｄ；Ｅ、Ｆ、Ｇ、Ｈ、Ｉ、ＪおよびＫは、たとえば以下の値を有し得る。

図１０および図１１は、提案されるピッチ外挿のより優れた性能を示す。

ここで、図１０は、ピッチラグが前提技術のコンセプトを採用して再構成される場合のピッチラグ図を示す。対照的に、図１１は、ピッチラグが実施形態に従って再構成される場合のピッチラグ図を示す。

詳細には、図１０は、先行技術の標準Ｇ．７１８およびＧ７２９．１の性能を示し、図１１は、実施形態により提供されるコンセプトの性能を示す。

横軸がサブフレーム番号を表す。実線１０１０が、ビットストリームに埋め込まれ、かつ、グレイのセグメント１０３０の領域で失われるエンコーダピッチラグを示す。左側の縦軸は、ピッチラグ軸を表す。右側の縦軸は、ピッチゲイン軸を表す。実線１０１０は、ピッチラグを示し、破線１０２１、１０２２、１０２３はピッチゲインを示す。

グレイの矩形１０３０は、フレーム損失を示す。グレイのセグメント１０３０の領域で生じたフレーム損失のため、この領域におけるピッチラグおよびピッチゲインについての情報は、デコーダ側で入手できず、再構成する必要がある。

図１０において、Ｇ．７１８標準を使用して封じ込められるピッチラグは、一点鎖線部１０１１により示される。Ｇ．７２９．１標準を使用して封じ込められるピッチラグは、実線部１０１２により示される。提供されるピッチ予測（図１１、実線部１０１３）を使用することは、本質的に、失われたエンコーダピッチラグに対応し、かつ、Ｇ．７１８およびＧ７２９．１の技術により有利であることがはっきりわかる。

以下では、経過時間に依拠する重み付けを採用する実施形態について、式（２３ａ）から式（２４ｂ）を参照して説明する。

先行技術の欠点を克服するため、いくつかの実施形態は、ピッチ予測を行う前に、ピッチラグに対し時間重み付けを適用する。時間重み付けの適用は、以下の誤差関数を最小化することにより実行され得る。

ここで、ｔｉｍｅ_{ｐａｓｓｅｄ}（ｉ）は、ピッチラグを正しく受信した後に経過した時間の量の逆数を表し、かつ、Ｐ（ｉ）は、対応するピッチラグを保持する。

いくつかの実施形態は、たとえば、より最近のラグに対して高い重みを付け、より以前に受信されたラグに対しては低い重みを付け得る。

次いで、いくつかの実施形態によれば、式（２１ａ）を採用して、ａおよびｂを生成することができる。

第１の予測されたサブフレームを得るため、いくつかの実施形態では、たとえば、最後の５つのサブフレームＰ（０）、．．．Ｐ（４）に基づいて予測を行い得る。次いで、たとえば、予測ピッチ値Ｐ（５）は、以下のとおり得ることができる。

たとえば、以下のとおりであれば、

（サブフレーム遅延に従う時間重み付け）、以下のようになると考えられる。

以下では、パルス再同期化を提供する実施形態を説明する。

図２ａは、実施形態に従う再構成されたフレームとして音声信号を含むフレームを再構成するための装置を示す。前記再構成されたフレームは、１以上の入手可能なフレームに関連し、前記１以上の入手可能なフレームは、再構成されたフレームの１以上の先行フレームおよび再構成されたフレームの１以上の後続のフレームのうちの少なくとも１つであり、１以上の入手可能なフレームが１以上の入手可能なピッチサイクルとして１以上のピッチサイクルを含む。

装置は、１以上の入手可能なピッチサイクルのうちの１つのサンプルの数と、再構成されるべき第１のピッチサイクルのサンプルの数との差を示すサンプル数の差（Δ^ｐ _０；Δ_ｉ；Δ^ｐ _ｋ＋１）を決定するための決定部２１０を含む。

また、装置は、サンプル数の差（Δ^ｐ _０；Δ_ｉ；Δ^ｐ _ｋ＋１）および１以上の入手可能なピッチサイクルのうちの前記１つのサンプルに依拠して第１の再構成ピッチサイクルとして再構成されるべき第１のピッチサイクルを再構成することにより再構成フレームを再構成するためのフレーム再構成部を含む。

フレーム再構成部２２０は、再構成フレームを再構成するよう構成され、それにより再構成されたフレームが、完全にまたは部分的に第１の再構成されたピッチサイクルを含み、再構成されたフレームが、完全にまたは部分的に第２の再構成されたピッチサイクルを含み、かつ第１の再構成されたピッチサイクルのサンプル数が、第２の再構成されたピッチサイクルのサンプル数とは異なるようになっている。

ピッチサイクルの再構成は、再構成するピッチサイクルのサンプルの一部または全部を再構成することにより行われる。再構成されるべきピッチサイクルが、失われたフレームに完全に含まれる場合には、たとえば、ピッチサイクルのサンプルのすべてを、再構成する必要があるかもしれない。再構成されるべきピッチサイクルが、一部のみ失われたフレームにより含まれ、かつ他のフレームに含まれる場合など、ピッチサイクルのサンプルのいくつかが入手可能な場合、ピッチサイクルを再構成するために、失われたフレームにより含まれるピッチサイクルのサンプルを再構成するだけで十分かもしれない。

図２ｂは、図２ａの装置の機能性を示す。図２ｂは、特に、パルス２１１、２１２、２１３、２１４、２１５、２１６および２１７を含む音声信号２２２を示す。

音声信号２２２の第１の部分は、フレームｎ－１により含まれる。音声信号２２２の第２の部分は、フレームｎにより含まれる。音声信号２２２の第３の部分は、フレームｎ＋１により含まれる。

図２ｂにおいて、フレームｎ－１は、フレームｎに先行し、かつフレームｎ＋１は、フレームｎの後に続く。これは、フレームｎ－１がフレームｎの音声信号の部分に比べて時間的により早く生じた音声信号の部分を含み、かつフレームｎ＋１が、フレームｎの音声信号の部分に比べて時間的により遅く生じた音声信号の部分を含むことを意味する。

図２ｂの例では、フレームｎが失われたか、または破損されていると仮定するので、フレームｎに先行するフレーム（「先行フレーム」）およびフレームｎに後続するフレーム（「後続フレーム」）のみが入手可能である（「入手可能フレーム」）。

たとえば、ピッチサイクルを以下のように規定することができる。ピッチサイクルは、音声信号において、パルス２１１、２１２、２１３他のうちの１つで開始され、直後に続くパルスで終了する。たとえば、パルス２１１および２１２がピッチサイクル２０１を規定する。パルス２１２および２１３がピッチサイクル２０２を規定する。パルス２１３および２１４は、ピッチサイクル２０３を規定する等である。

ピッチサイクルの他の開始および終了点を採用する、当業者に周知の他のピッチサイクルの定義についても、代替的に考慮してもよい。

図２ｂの例では、フレームｎは、受信部で入手可能ではないか破損されている。したがって、受信部は、フレームｎ－１のパルス２１１および２１２ならびにピッチサイクル２０１について認識する。さらに、受信部は、フレームｎ＋１のパルス２１６および２１７ならびにピッチサイクル２０６についても認識する。しかしながら、パルス２１３、２１４および２１５を含み、ピッチサイクル２０３および２０４を完全に含み、かつ、ピッチサイクル２０４および２０５を部分的に含むフレームｎを再構成する必要がある。

いくつかの実施形態によれば、フレームｎは、入手可能フレーム（たとえば、先行フレームｎ－１または後続フレームｎ＋１）の１以上のピッチサイクル（「入手可能ピッチサイクル」）のサンプルに依拠して再構成され得る。たとえば、フレームｎ－１のピッチサイクル２０１のサンプルは、失われたか、または破損されたフレームのサンプルを再構成するために周期的にに繰り返しコピーされ得る。ピッチサイクルのサンプルを周期的に繰り返しコピーすることで、ピッチサイクル自体がコピーされ、たとえばピッチサイクルがｃの場合、以下のようになる。

実施形態においては、フレームｎ－１の終りからのサンプルがコピーされる。ｎ‐１番目のフレームのコピーされる部分の長さが、ピッチサイクル２０１の長さに等しい（またはほとんど等しい）。しかしながら、２０１および２０２双方からのサンプルがコピーに使用される。これは、ｎ－１番目のフレームにパルスが１つしかない場合には、特に慎重に考慮する必要がある。

いくつかの実施形態においては、コピーされたサンプルは修正される。

本発明は、また、失われたフレーム（ｎ）により（完全にまたは部分的に）含まれるピッチサイクル（ピッチサイクル２０２、２０３、２０４および２０５）のサイズが、コピーされた入手可能なピッチサイクル（ここでは、ピッチサイクル２０１）のサイズと異なる場合には、ピッチサイクルのサンプルを周期的に繰り返しコピーすることにより、失われたフレームｎのパルス２１３、２１４および２１５が間違った位置に移動するという所見に基づく。

たとえば、図２ｂでは、ピッチサイクル２０１とピッチサイクル２０２との差は、Δ_１で示され、ピッチサイクル２０１とピッチサイクル２０３との差は、Δ_２で示され、ピッチサイクル２０１とピッチサイクル２０４との差は、Δ_３で示され、かつピッチサイクル２０１とピッチサイクル２０５との差は、Δ_４で示される。

図２ｂにおいて、フレームｎ－１のピッチサイクル２０１が、ピッチサイクル２０６よりかなり大きいことがわかる。また、フレームｎに（一部または完全に）含まれるピッチサイクル２０２、２０３、２０４および２０５は、各々ピッチサイクル２０１より小さく、かつ、ピッチサイクル２０６より大きい。さらに、大きいピッチサイクル２０１により近いピッチサイクル（たとえば、ピッチサイクル２０２）は、小さいピッチサイクル２０６により近いピッチサイクル（たとえば、ピッチサイクル２０５）より大きい。

本発明のこれらの所見に基づいて、実施形態によれば、フレーム再構成部２２０は、第１の再構成されたピッチサイクルのサンプル数が、再構成されたフレームに部分的にまたは完全に含まれる第２の再構成されたピッチサイクルのサンプル数と異なるように、再構成フレームを再構成するよう構成される。

たとえば、いくつかの実施形態によれば、フレームの再構成は、１以上の入手可能なピッチサイクル（ピッチサイクル２０１等）のうちの１つのサンプル数と、再構成される第１のピッチサイクル（ピッチサイクル２０２、２０３、２０４、２０５等）のサンプル数との差を示すサンプル数の差に依拠する。

たとえば、ある実施形態によれば、ピッチサイクル２０１のサンプルは、たとえば、周期的に繰り返しコピーされ得る。

そこで、サンプル数の差は、再構成されるべき第１のピッチサイクルに対応する周期的に繰り返されたコピーからいくつのサンプルを削除するか、または再構成されるべき第１のピッチサイクルに対応する周期的に繰り返されたコピーにいくつのサンプルを加えるかを示す。

図２ｂにおいて、各サンプル数は、周期的に繰り返されたコピーからいくつのサンプルを削除するかを示す。しかしながら、他の例では、サンプル数は、周期的に繰り返されたコピーにいくつのサンプルを加えるかを示し得る。たとえば、いくつかの実施形態では、振幅ゼロのサンプルを対応のピッチサイクルに加えることにより、サンプルを加えることができる。他の実施形態では、たとえば、ピッチサイクルの他のサンプルをコピーすることによって、たとえば、加えるべきサンプルの位置に隣接するサンプルをコピーすることによって、ピッチサイクルにサンプルを加え得る。

上記では、失われたかまたは破損されたフレームに先行するフレームのピッチサイクルのサンプルが周期的に繰り返しコピーされている実施形態について説明したが、他の実施形態では、失われたかまたは破損されたフレームの後続のフレームのピッチサイクルのサンプルを、周期的に繰り返しコピーして失われたフレームを再構成する。上記および後述の同じ原則が同様に当てはまる。

このようなサンプル数の差を再構成対象の各ピッチサイクルについて決定し得る。次いで、各ピッチサイクルのサンプル数の差が、再構成対象の対応のピッチサイクルに対応する周期的に繰り返されるコピーからいくつのサンプルを削除するか、または再構成対象の対応するピッチサイクルに対応する周期的に繰り返されるコピーにいくつのサンプルを加えるかを示す。

ある実施形態によれば、決定部２１０は、たとえば、再構成対象の複数のピッチサイクルの各々についてサンプル数の差を決定して、それによりピッチサイクルの各々のサンプル数の差が、１以上の入手可能なピッチサイクルのうちの前記１つのサンプルの数と、再構成対象の前記ピッチサイクルのサンプル数との差を示すように構成され得る。フレーム再構成部２２０は、再構成フレームを再構成するために、たとえば、再構成対象の前記ピッチサイクルのサンプル数の差および１以上の入手可能なピッチサイクルの前記１つのサンプルに依拠して、再構成対象の複数のピッチサイクルの各ピッチサイクルを再構成するよう構成され得る。

ある実施形態においては、フレーム再構成部２２０は、たとえば、１以上の入手可能なピッチサイクルのうちの前記１つに依拠して中間フレームを生成するよう構成され得る。フレーム再構成部２２０は、たとえば、再構成フレームを得るために、中間フレームを修正するよう構成され得る。

実施形態によれば、決定部２１０は、たとえば、いくつのサンプルを中間フレームから除くか、またはいくつのサンプルを中間フレームに加えるかを示すフレーム差値（ｄ；ｓ）を決定するよう構成され得る。また、フレーム再構成部２２０は、たとえば、フレーム差値が、第１のサンプルがフレームから除去されることを示す場合、再構成フレームを得るために中間フレームから第１のサンプルを除去するよう構成され得る。さらに、フレーム再構成部２２０は、たとえば、フレーム差値（ｄ；ｓ）が、第２のサンプルがフレームに加えられることを示す場合、再構成フレームを得るために中間フレームに第２のサンプルを加えるよう構成され得る。

ある実施形態において、フレーム再構成部２２０は、たとえば、フレーム差値が、第１のサンプルが中間フレームから除去されるべきであることを示す場合、中間フレームから第１のサンプルを除去するよう構成することが可能で、それにより、中間フレームから除去される第１のサンプルの数がフレーム差値により示されるようになっている。また、フレーム再構成部２２０は、たとえば、フレーム差値が、第２のサンプルがフレームに加えられるべきであることを示す場合、中間フレームに第２のサンプルを加えるよう構成することが可能で、それにより、中間フレームに加えられる第２のサンプルの数がフレーム差値により示されるようになっている。

ある実施形態によれば、決定部２１０は、たとえば、以下の式が真であるように、フレーム差数ｓを決定するように構成され得る。

ある実施形態において、フレーム再構成部２２０は、たとえば、１以上の入手可能なピッチサイクルの前記１つに依拠して中間フレームを生成するようになっていてもよい。また、フレーム再構成部２２０は、たとえば、中間フレームが、第１の部分中間ピッチサイクル、１以上のさらなる中間ピッチサイクルおよび第２の部分中間ピッチサイクルを含むように中間フレームを生成するようにされてもよい。さらに、第１の部分中間ピッチサイクルは、たとえば、１以上の使用可能なピッチサイクルのうちの前記１つのサンプルのうちの１以上に依拠することが可能で、１以上のさらなる中間ピッチサイクルの各々が、１以上の入手可能なピッチサイクルの前記１つのサンプルの全部に依拠し、かつ第２の部分中間ピッチサイクルが、１以上の入手可能なピッチサイクルの前記１つのサンプルのうちの１以上に依拠する。また、決定部２１０は、たとえば、第１の部分中間ピッチサイクルからいくつのサンプルを除去するかまたは加えるかを示す開始部差数を決定するよう構成することができ、かつフレーム再構成部２２０は、開始部差数に依拠して、第１の部分中間ピッチサイクルから１以上の第１のサンプルを除去するよう構成されるかまたは第１の部分中間ピッチサイクルに１以上の第１のサンプルを加えるよう構成される。さらに、決定部２１０は、たとえば、さらなる中間ピッチサイクルの前記１つからいくつのサンプルを除去するまたは加えるかを示すピッチサイクル差数を、さらなる中間ピッチサイクルの各々について決定するよう構成され得る。また、フレーム再構成部２２０は、たとえば、前記ピッチサイクル差数に依拠して、さらなる中間ピッチサイクルの前記１つから１以上の第２のサンプルを除去するよう構成され得るか、または、さらなる中間ピッチサイクルの前記１つに１以上の第２のサンプルを加えるよう構成される。さらに、決定部２１０は、たとえば、第２の部分中間ピッチサイクルからいくつのサンプルを除去するかまたは加えるかを表す終了部差数を決定するよう構成することができ、かつフレーム再構成部２２０は、終了部差数に依拠して、第２の部分中間ピッチサイクルから１以上の第３のサンプルを除去するよう構成されるか、または第２の部分中間ピッチサイクルに１以上の第３のサンプルを加えるよう構成される。

ある実施形態により、フレーム再構成部２２０は、たとえば、１以上の入手可能なピッチサイクルの前記１つに依拠して中間フレームを生成するよう構成され得る。また、決定部２１０は、たとえば、中間フレームにより含まれる音声信号の１以上の低エネルギ信号部を決定するようにされてもよく、１以上の低エネルギ信号部の各々が、中間フレーム内の音声信号の第１の信号部であり、音声信号のエネルギが、中間フレームにより含まれる音声信号の第２の信号部におけるエネルギより低い。さらに、フレーム再構成部２２０は、たとえば、再構成フレームを得るために、音声信号の１以上の低エネルギ信号部の１以上から１以上のサンプルを除去するか、または音声信号の１以上の低エネルギ信号部分の１以上へ１以上のサンプルを加えるよう構成され得る。

特定の実施形態において、フレーム再構成部２２０は、たとえば、中間フレームを生成するよう構成されることが可能で、それにより中間フレームが１以上の再構成ピッチサイクルを含み、１以上の再構成ピッチサイクルの各々が、１以上の入手可能なピッチサイクルの前記１つに依拠するようになっている。また、決定部２１０は、たとえば、１以上の再構成ピッチサイクルの各々から除去するサンプルの数を決定するように構成され得る。さらに、決定部２１０は、たとえば、１以上の低エネルギ信号部の各々について、前記低エネルギ信号部のサンプルの数が、１以上の再構成ピッチサイクルの１つから除去されるべきサンプル数に依拠するように、１以上の低エネルギ信号部の各々を決定するように構成することが可能で、前記低エネルギ信号部が、１以上の再構成ピッチサイクルの前記１つ内に位置する。

ある実施形態において、決定部２１０は、たとえば、再構成フレームとして再構成されるべきフレームの音声信号の１以上のパルスの位置を決定するよう構成され得る。また、フレーム再構成部２２０は、たとえば、音声信号の１以上のパルスの位置に依拠して再構成フレームを再構成するよう構成され得る。

ある実施形態によれば、決定部２１０は、たとえば、再構成フレームとして再構成されるべきフレームの音声信号の２以上のパルスの位置を決定するよう構成することが可能で、Ｔ［０］は、再構成フレームとして再構成されるべきフレームの音声信号の２以上のパルスのうちの１つの位置であり、かつ決定部２１０は、以下の式に従う音声信号の２以上のパルスのうちのさらなるパルスの位置（Ｔ［ｉ］）を決定するよう構成される。

ある実施形態によれば、決定部２１０は、たとえば、以下の式のように、再構成フレームとして再構成されるべきフレームの音声信号の最後のパルスのインデクスｋを決定するよう構成され得る。

ここで、Ｌは、再構成フレームのサンプルの数を示し、ｓは、フレーム差値を示し、Ｔ［０］は、音声信号の最後のパルスとは異なる、再構成フレームとして再構成されるべきフレームの音声信号のパルスの位置を示し、Ｔ_ｒは、１以上の入手可能なピッチサイクルの前記１つの丸められた長さを示す。

ある実施形態において、決定部２１０は、たとえば、パラメータδを決定することにより再構成フレームとして再構成されるべきフレームを再構成するよう構成することが可能で、δは以下の式により規定される。

ある実施形態によれば、決定部２１０は、たとえば、以下の式に基づき１以上の入手可能なピッチサイクルの前記１つの丸められた長さＴ_ｒを決定することにより再構成フレームを再構成するよう構成され得る。

ある実施形態において、決定部２１０は、たとえば以下の式を適用することにより再構成フレームを再構成するよう構成され得る。

ここで、実施形態についてより詳細に説明する。

以下では、パルス再同期化の実施形態の第１のグループについて式（２５）から（６３）を参照して説明する。

これらの実施形態では、ピッチに変化がない場合、最後のピッチラグを、丸めずに小数部分を維持したまま使用する。周期的な部分は、たとえば非特許文献１２（［ＭＴＴＡ９０］）にあるような非整数ピッチおよび内挿を用いて構成される。これにより、丸めたピッチラグを使用する場合に比べて高調波の周波数シフトが減じられるので、一定のピッチの音または有声信号の封じ込めが大きく改善する。

この効果は、図８および図９により示され、フレームの損失を伴うピッチパイプを表す信号が、それぞれ丸めおよび非丸め小数ピッチラグを用いて封じ込められる。ここで、図８は、丸められたピッチラグを使用する再同期化された音声信号の時間－周波数表現を示す。対照的に、図９は、小数部分を伴う非丸めピッチラグを使用して再同期化された音声信号の時間－周波数表現を示す。

ピッチの小数部分を使用する場合、計算の複雑さが増大することになる。声門パルス再同期の必要はないので、これが最悪計算量に影響することはないはずである。

予測されるピッチの変更がない場合には、以下に説明する処理を行う必要はない。

ピッチの変化が予測される場合、式（２５）から（６３）を参照して説明する実施形態は、一定ピッチ（Ｔ_ｃ）を伴うピッチサイクル内の合計サンプル数の和と、展開ピッチｐ［ｉ］を伴うピッチサイクル内の合計サンプル数の和との間の差であるｄを決定するためのコンセプトを提供する。

以下において、Ｔ_ｃは、式（１５ａ）のように規定される。すなわち、Ｔ_ｃ＝ｒｏｕｎｄ（ｌａｓｔ＿ｐｉｔｃｈ）。

実施形態によれば、以下に説明するとおり、差ｄをより高速でかつより正確なアルゴリズムを使用して決定することができる（ｄを決定するための高速アルゴリズムのアプローチ）。

このようなアルゴリズムは、たとえば、以下の原則に基づくことができる。
・各サブフレームｉにおいて、（長さＴ_ｃの）各ピッチサイクルについて、Ｔ_ｃ－ｐ［ｉ］サンプルを除去する必要がある（またはＴ_ｃ－ｐ［ｉ］＜０の場合、ｐ［ｉ］－Ｔ_ｃを加える必要がある）。
・各サブフレームには、（Ｌ＿ｓｕｂｆｒ）／Ｔ_ｃピッチサイクルが存在する。
・したがって、各サブフレーム（Ｔ_ｃ－ｐ［ｉ］）について、（Ｌ＿ｓｕｂｆｒ）／Ｔ_ｃサンプルを除去する必要がある。

いくつかの他の実施形態によれば、丸めが行われる。整数ピッチについては（Ｍはフレームにおけるサブフレームの数である。）、ｄは以下のとおり規定される。

ある実施形態によれば、応じてｄを計算するためのアルゴリズムが提供される。

他の実施形態では、アルゴリズムの最後の行を以下と置換する。
ｄ＝（ｓｈｏｒｔ）ｆｌｏｏｒ（Ｌ＿ｆｒａｍｅ－ｆｔｍｐ＊（ｆｌｏａｔ）Ｌ＿ｓｕｂｆｒ／Ｔ_ｃ＋０．５）；

実施形態によれば、最後のパルスＴ［ｎ］は、以下の式に従って見つけられる。

ある実施形態によれば、Ｎを計算する式が採用される。この式は、以下に従って式（２６）から得られ、

かつ最後のパルスは、インデクスＮ－１を有する。

この式によれば、図４および図５に示す例についてＮを計算できる。

以下において、最後のパルスについて明示的サーチを伴わないが、パルスの位置を考慮に入れるコンセプトについて説明する。このコンセプトは、構成された周期的部分における最後のパルスインデクスのＮを必要としない。

励振の構成された周期的部分における実際の最後のパルスの位置（Ｔ［ｋ］）がフルピッチサイクルｋの数を決定し、サンプルが除去される（または加えられる）。

図１２は、ｄ個のサンプルを除去する前の最後のパルスの位置Ｔ［２］を示す。式（２５）から式（６３）を参照して説明する実施形態については、参照番号１２１０がｄを示す。

図１２の例では、最後のパルスｋのインデクスは２であり、サンプルを除去すべき２つのフルピッチサイクルが存在する。

信号長さＬ＿ｆｒａｍｅ+ｄの信号からｄ個のサンプルを除去した後は、Ｌ＿ｆｒａｍｅ+ｄ個のサンプルを超えるオリジナル信号からのサンプルは存在しない。したがって、Ｔ［ｋ］は、Ｌ＿ｆｒａｍｅ+ｄサンプルの範囲内であり、かつ、従って、ｋは以下により決定される。

式（１７）および式（２８）から、以下のとおりになる。

すなわち、以下のとおりである。

式（３０）から、以下のとおりになる。

たとえば、２０ｍｓ以上のフレームを使用するコーデックにおいて、音声の最低基本周波数が、たとえば、４０Ｈｚ以上なら、多くの場合、「無声」以外に、封じ込められたフレームに、１以上のパルスが存在する。

以下において、式（３２）から式（４６）を参照して、２以上のパルス（ｋ≧１）の場合について説明する。

パルス間の各フルのｉ番目のピッチサイクルにおいて、Δ_ｉサンプルが除去されると仮定するが、ここで、Δ_ｉは、以下のとおり規定される。

ここで、ａは、既知の変数で表現する必要がある未知の変数である。

第１のパルスの前でΔ_０サンプルが除去されると仮定するが、ここで、Δ_０は、以下のとおり規定される。

Δ_ｋ＋１サンプルが、最後のパルスの後に除去されると仮定するが、ここで、Δ_ｋ＋１は、以下のとおり規定される。

最後の２つの仮定は、部分的な最初と最後のピッチサイクルの長さを考慮に入れる式（３２）と合致する。

Δ_ｉ値の各々がサンプル数の差である。また、Δ_０は、サンプル数の差である。さらに、Δ_ｋ＋１は、サンプル数の差である。

図１３は、図１２の音声信号の図であって、Δ_０からΔ_３を追加して示す。各ピッチサイクルにおいて除去すべきサンプルの数を、図１３の例では模式的に示し、ｋ＝２である。式（２５）から（６３）を参照して記載する実施形態に関しては、参照番号１２１０がｄを示す。

除去するサンプルの合計数ｄは、以下のとおりΔ_ｉに関連する。

式（３２）～式（３５）から、ｄは、以下のとおり求めることができる。

式（３６）は、以下の式と等価である。

封じ込められたフレームにおける最後のフルピッチサイクルがｐ［Ｍ－１］の長さを有すると仮定する。すなわち、以下のとおりである。

式（３２）および式（３８）から、以下のとおりである。

また、式（３７）および式（３９）から、以下のとおりである。

式（４０）は、以下の式と等価である。

式（１７）および式（４１）から、以下のとおりである。

式（４２）は、以下の式と等価である。

さらに、式（４３）から、以下のとおりである。

式（４４）は、以下の式と等価である。

また、式（４５）は、以下の式と等価である。

実施形態によれば、ここで、式（３２）から式（３４）、式（３９）および式（４６）に基づいて、第１のパルスの前および／またはパルスの間および／または最後のパルスの後に除去するかまたは加えるサンプルの数を計算する。

実施形態において、サンプルは、最小エネルギ領域において除去されるかまたは加えられる。

実施形態によれば、除去されるサンプルの数は、たとえば、以下を使用して丸めることができる。

以下では、１つのパルス（ｋ＝０）の場合について、式（４７）から（５５）を参照して記載する。

封じ込められたフレーム内に１つのパルスしかなければ、そのパルスの前のΔ_０のサンプルが除去されることになる。

ここで、Δおよびａは、既知の変数で表現する必要がある未知の変数である。Δ_１個のサンプルが、このパルスの後、除去されることになる。ここで、

である。

そして、除去されるべきサンプルの合計数は、以下のとおり与えられる。

式（４７）から式（４９）より、以下のとおりである。

式（５０）は、以下の式と等価である。

パルスの前のピッチサイクルのパルス後のピッチサイクルに対する比は、前に受信されたフレームにおける最後のサブフレームと最初のサブフレームにおけるピッチラグの比と同じであると仮定する。

式（５２）から、以下のとおりである。

また、式（５１）と式（５３）から、以下のとおりである。

式（５４）は、以下の式と等価である。

除去すべきまたは加えるべき［Δ－ａ］個のサンプルが、上記パルスの前の最小エネルギ領域に存在し、同パルスの後にｄ－［Δ－ａ］個のサンプルが存在する。

以下では、パルス（の場所）のサーチを必要としない、実施形態による簡素化されたコンセプトについて、式（５６）から式（６３）を参照して説明する。

ｔ［ｉ］は、ｉ番目のピッチサイクルの長さを示す。信号からｄ個のサンプルを除去した後、ｋ個のフルピッチサイクルおよび１つの部分（フルまでの）ピッチサイクルを入手する。したがって、以下のとおりである。

長さｔ［ｉ］のピッチサイクルを、いくつかのサンプルを除去した後に長さＴ_Ｃのピッチサイクルから得て、除去されたサンプルの合計数がｄなので、以下のとおりになる。

したがって、以下のとおりになる。

また、以下のとおりになる。

実施形態によれば、ピッチラグにおいて線形の変化を想定し得る。

実施形態では、（ｋ＋１）Δ個のサンプルを、ｋ番目のピッチサイクルにおいて除去する。

実施形態によれば、サンプルを除去した後もフレームにとどまるｋ番目のピッチサイクルの部分において、

個のサンプルが除去される。

したがって、除去されるサンプルの合計数は、以下のとおりである。

式（６０）は以下の式と等価である。

また、式（６１）は、以下の式と等価である。

さらに、式（６２）は、以下の式と等価である。

実施形態によれば、（ｉ＋１）Δ個のサンプルが、最小エネルギの位置で除去される。１ピッチサイクルを保持する環状バッファにおいて、最小エネルギ位置のサーチが行われるので、パルスの場所を知る必要はない。

最小エネルギ位置が、第１のパルスの後であり、かつ第１のパルスの前のサンプルが除去されない場合、ピッチラグが、(Ｔ_ｃ＋Δ）、Ｔ_ｃ、Ｔ_ｃ、（Ｔ_ｃ－Δ）、（Ｔ_ｃ－２Δ）（最後に受信したフレームにおける２つピッチサイクルおよび封じ込められたフレームにおける３つのピッチサイクル）として展開する状況が発生し得る。したがって、不連続性が存在し得る。同様の不連続性については、最後のパルスの後に生じ得るが、第１のパルスの前に発生する場合と同じ時には生じない。

他方、パルスが封じ込められたフレームの開始に近いほど、最小エネルギ領域が第１のパルスの後に現れる可能性が高い。第１のパルスが、封じ込められたフレームの開始に近いほど、最後に受信したフレームにおける最後のピッチサイクルがＴ_ｃより大きくなる可能性が高くなる。ピッチ変化における不連続性の可能性を減じるため、重み付けを用いてピッチサイクルの開始または終了により近い最小領域を有利にする。

実施形態によれば、以下の方法ステップの１以上または全部を実現する、提供されるコンセプトの実現例について説明する。

１．最小エネルギ領域について並列でサーチし、最後に受信したフレームの終わりからローパスフィルタ処理したＴ_ｃ個のサンプルを一時バッファＢに格納する。一時バッファは、最小エネルギ領域のサーチの際には環状バッファとして考えられる（これは、最小エネルギ領域が、ピッチサイクルの始まりからの数サンプルと終わりからの数サンプルから構成され得るということを意味し得る）。最小エネルギ領域は、たとえば、長さが［（ｋ＋１）Δ］のサンプルのスライディングウィンドウについて最小の場所でもよい。たとえば重み付けを使用して、ピッチサイクルの開始により近い最小領域を有利にすることができる。

２．最小エネルギ領域の［Δ］個のサンプルをスキップして、フレームに一時バッファＢからのサンプルをコピーする。したがって、長さｔ［０］のピッチサイクルが作られる。δ_０＝Δ－［Δ］を設定。

３．ｉ番目のピッチサイクル（０＜ｉ＜ｋ）について、最小エネルギ領域の［Δ］＋［δ_ｉ－１］個のサンプルをスキップして、（ｉ－１）番目のピッチサイクルからのサンプルをコピーする。δ_ｉ＝δ_ｉ－１－［δ_ｉ－１］＋Δ－［Δ］を設定する。このステップをｋ－１回繰り返す。

４．ｋ番目のピッチサイクルについて、ピッチサイクルの終りに近い最小領域ほど有利になる重み付けを用いて、（ｋ－１）番目のピッチサイクルにおける新たな最小領域をサーチする。次いで、最小エネルギ領域において以下の式で表す個数のサンプルをスキップして、（ｋ－１）番目のピッチサイクルからのサンプルをコピーする。

サンプルを加える必要がある場合には、ｄ＜０でかつΔ＜０であり、かつ合計|ｄ|個のサンプルを加えるということを考慮に入れることにより、等価な手順を用いることができ、すなわち（ｋ＋１）|Δ|個のサンプルが、ｋ番目のサイクルにおいて、最小エネルギの位置に加えられる。

いずれにしても、近似化したピッチサイクル長さを用いるので、「ｄを決定するための高速アルゴリズムアプローチ」に関して、上記のｄを生成するため、サブフレームレベルで小数ピッチを使用することができる。

以下で、パルス再同期化の実施形態の第２のグループについて、式（６４）から（１１３）を参照して説明する。第１のグループのこれらの実施形態は、式（１５ｂ）の定義を採用する。

ここで、最後のピッチ周期長さは、Ｔ_ｐであり、かつコピーされたセグメントの長さは、Ｔ_ｒである。

パルス再同期化実施形態の第２のグループにより使用されるいくつかのパラメータが以下に規定されない場合は、本発明の実施形態は、上に規定したパルス再同期化実施形態の第１のグループに関してこれらのパラメータについて与えられた定義を採用し得る（式（２５）から（６３）を参照）。

パルス再同期化実施形態の第２のグループの式（６４）から（１１３）のいくつかは、パルス再同期化実施形態の第１のグループに関して既に使用されたパラメータのいくつかを再定義し得る。この場合、与えられる再定義された定義が、第２のパルス再同期化の実施形態に適用される。

上記のとおり、いくつかの実施形態によれば、周期的部分は、たとえば、１つのフレームおよび１つの追加のサブフレームについて構成することができ、ここで、フレーム長さはＬ＝Ｌ_{ｆｒａｍｅ}として示される。

たとえば、フレームにＭ個のサブフレームがある場合、サブフレームの長さは、Ｌ＿ｓｕｂｆｒ＝Ｌ／Ｍである。

上記のとおり、Ｔ［０］は、励振の構成された周期的部分における第１の最大パルスの場所である。他のパルスの位置は、以下の式により与えられる。

実施形態によれば、励振の周期的部分の構成に依拠して、たとえば励振の周期的部分の構成後、声門パルス再同期化を行って、失われたフレーム（Ｐ）の最後のパルスの推定目標位置と、励振の構成された周期的部分におけるその実際の位置（Ｔ［ｋ］）との差を訂正する。

失われたフレーム（Ｐ）における最後のパルスの推定目標位置は、たとえば、ピッチラグ展開の推定により間接的に決定され得る。ピッチラグ展開は、たとえば、失われたフレームの前の最後の７つのサブフレームのピッチラグに基づいて外挿される。各サブフレームにおける展開ピッチラグは、以下のとおりである。

ここで、以下のとおりであり、

かつＴ_ｅｘｔは、外挿されたピッチであり、かつｉは、サブフレームインデクスである。ピッチ外挿は、たとえば、重み付線形フィッティングまたはＧ．７１８からの方法もしくはＧ．７２９．１からの方法またはたとえば未来のフレームからの１以上のピッチを考慮するピッチ内挿のための他の方法を用いて行うことができる。ピッチ外挿は、非線形でも可能である。実施形態では、Ｔ_ｅｘｔは、上記でＴ_ｅｘｔが決定されるのと同じ方法で決定され得る。

展開ピッチ（ｐ［ｉ］）を伴うピッチサイクル内の合計サンプル数の和と、一定ピッチ（Ｔ_ｐ）を伴うピッチサイクル内の合計サンプル数の和との間のフレーム長内の差をｓで示す。

実施形態によれば、Ｔ_ｅｘｔ＞Ｔ_ｐなら、ｓ個のサンプルをフレームに加える必要があり、かつＴ_ｅｘｔ＜Ｔ_ｐなら、－ｓ個のサンプルをフレームから除去する必要がある。|ｓ|個のサンプルを追加または除去した後、封じ込められたフレームにおける最後のパルスは、推定目標位置（Ｐ）にあることになる。

Ｔ_ｅｘｔ＝Ｔ_ｐなら、フレーム内にサンプルを加えたり除去したりする必要はない。

いくつかの実施形態によれば、声門パルス再同期化は、全てのピッチサイクルの最小エネルギ領域において、サンプルを加えるかまたは除去することにより行われる。

以下では、実施形態によるパラメータｓの計算について、式（６６）から（６９）を参照して説明する。

いくつかの実施形態によれば、差ｓは、たとえば、以下の原則に基づいて計算され得る。
・各サブフレームｉにおいて、（長さＴ_ｒの）ピッチサイクルごとにｐ［ｉ］－Ｔ_ｒ個のサンプルを加える必要がある（ｐ［ｉ］－Ｔ_ｒ＞０の場合）（さもなくばｐ［ｉ］－Ｔ_ｒ＜０の場合、Ｔ_ｒ－ｐ［ｉ］個のサンプルを除く必要がある）。

・各サブフレームには、（Ｌ＿ｓｕｂｆｒ）／Ｔ_ｒ＝Ｌ／（ＭＴ_ｒ）のピッチサイクルが存在する。
・したがって、ｉ番目のサブフレームにおいて（ｐ[ｉ]－Ｔ_ｒ）Ｌ／（ＭＴ_ｒ）個のサンプルを除去する必要がある。

したがって、式（６４）に従って、実施形態により、ｓは、たとえば式（６６）に従って計算され得る。

式（６６）は、以下の式と等価である。

ここで、式（６７）は、以下の式と等価である。

式（６８）は、以下の式と等価である。

なお、Ｔ_ｅｘｔ＞Ｔ_ｐなら、ｓは正であり、サンプルを加える必要があり、Ｔ_ｅｘｔ＜Ｔ_ｐなら、ｓは負であり、サンプルを除去する必要がある。したがって、除去または追加するべきサンプルの数は、|ｓ|として示すことができる。

以下では、実施形態による最後のパルスのインデクスの計算について式（７０）から式（７３）を参照して説明する。

励振の構成された周期的部分における実際の最後のパルス位置（Ｔ［ｋ］）は、サンプルが除去される（または加えられる）フルピッチサイクルの数ｋを決定する。

図１２は、サンプルを除去する前の音声信号を示す。

図１２が示す例においては、最後のパルスｋのインデクスが２であり、サンプルを除去すべき２つのフルピッチサイクルが存在する。式（６４）から（１１３）を参照して説明する実施形態に関しては、参照番号１２１０が|ｓ|を示す。

|ｓ|個のサンプルを長さＬ－ｓの信号から除去した後（Ｌ＝Ｌ＿ｆｒａｍｅ）または|ｓ|個のサンプルを長さＬ－ｓの信号に加えた後、Ｌ－ｓ個のサンプルを超えるオリジナル信号からのサンプルは存在しない。なお、サンプルが加えられる場合、ｓは正であり、サンプルが除去される場合、ｓは負である。したがって、サンプルが加えられるなら、Ｌ－ｓ＜Ｌであり、かつサンプルが除去されるなら、Ｌ－ｓ＞Ｌである。したがって、Ｔ［ｋ］は、Ｌ－ｓサンプルの範囲内でなければならず、かつｋは以下のとおり決定される。

式（１５ｂ）および式（７０）から、以下のとおりになる。

すなわち、以下のとおりである。

ある実施形態によれば、ｋは、たとえば式（７２）に基づき以下のとおり決定され得る。

たとえば、２０ｍｓ以上のフレームおよび４０Ｈｚ以上の音声の最低基本周波数を採用するコーデックにおいては、多くの場合、「無声」以外に封じ込められたフレームにおいて１以上のパルスが存在する。

以下では、実施形態に従って、最小領域において除去されるべきサンプルの数の計算について、式（７４）から（９９）を参照して説明する。

たとえば、パルス間の各フルのｉ番目のピッチサイクルにおいてΔ_ｉ個のサンプルを除去（または追加）するものと仮定することができ、ここで、Δ_ｉは、以下のとおり定義される。

ここで、ａは、たとえば既知の変数で表現され得る未知の変数である。

また、たとえば第１のパルスの前に、Δ^ｐ _０個のサンプルを除去（または追加）すると仮定することができ、ここでΔ^ｐ _０は、以下のとおり規定される。

さらに、たとえば、最後のパルスの後にΔ^ｐ _ｋ＋１個のサンプルを除去（または追加）すると仮定することができ、ここでΔ^ｐ _ｋ＋１は、以下のとおり規定される。

最後の２つの仮定は、部分的な最初と最後のピッチサイクルの長さを考慮に入れる式（７４）に合致する。

各ピッチサイクルにおいて除去される（または加えられる）サンプルの数を図１３の例に模式的に示し、ここで、ｋ＝２である。図１３は、各ピッチサイクルにおいて除去されるサンプルを模式的に示す図である。式（６４）から（１１３）を参照して説明した実施形態については、参照番号１２１０が|ｓ|を示す。

除去すべき（または加えるべき）サンプルの合計数ｓは、以下に従ってΔ_ｉに関連する。

式（７４）～式（７７）から、以下のとおりである。

式（７８）は、以下の式と等価である。

また、式（７９）は、以下の式と等価である。

さらに、式（８０）は、以下の式と等価である。

また、式（１６ｂ）を考慮して、式（８１）は、以下の式と等価である。

実施形態に従って、最後のパルスの後の完全なピッチサイクルにおいて除去（または追加）するべきサンプルの数が以下の式により与えられると仮定し得る。

式（７４）および式（８３）から、以下のとおりである。

式（８２）および式（８４）から、以下のとおりである。

式（８５）は、以下の式と等価である。

また、式（８６）は、以下の式と等価である。

さらに、式（８７）は、以下の式と等価である。

式（１６ｂ）および式（８８）から、以下のようになる。

式（８９）は、以下の式と等価である。

また、式（９０）は以下の式と等価である。

さらに、式（９１）は、以下の式と等価である。

また、式（９２）は、以下の式と等価である。

式（９３）から、以下のとおりである。

このように、たとえば、式（９４）に基づき、実施形態に従えば、以下のとおりである。
・第１のパルスの前で除去されるべきかつ／または加えられるべきサンプルの数が計算され、かつ／または
・パルス間で除去されるべきかつ／または加えられるべきサンプルの数が計算されかつ／または
・最後のパルスの後で除去されるべきかつ／または加えられるべきサンプルの数が計算される。

いくつかの実施形態によれば、サンプルは、たとえば、最小エネルギ領域において除去されるかまたは加えられ得る。

式（８５）および式（９４）から、以下のとおりになる。

式（９５）は、以下の式と等価である。

また、式（８４）および式（９４）から、以下のとおりである。

式（９７）は、以下の式と等価である。

ある実施の形態によれば、最後のパルスの後に除去されるべきサンプルの数は、以下の式に従って、式（９７）に基づいて計算することができる。

なお、実施形態によれば、Δ^ｐ _０、Δ_ｉおよびΔ^ｐ _ｋ＋１は正で、かつｓの符号が、サンプルが加えられるか除去されるかを決定する。

複雑さを理由に、いくつかの実施形態では、整数個のサンプルを加えるかまたは除去することが望ましく、そのような実施形態においては、Δ^ｐ _０、Δ_ｉおよびΔ^ｐ _ｋ＋１が、たとえば、丸められ得る。他の実施形態では、たとえば波形内挿を用いる他のコンセプトも代替的または付加的に使用して、丸めを回避できるが、複雑さは増大する。

以下では、実施形態に従うパルス再同期化のためのアルゴリズムについて式（１００）から式（１１３）を参照して説明する。

実施形態によれば、このようなアルゴリズムの入力パラメータは、たとえば以下のとおりである。
Ｌフレーム長さ
Ｍサブフレームの数
Ｔ_ｐ最後に受信したフレームの終りのピッチサイクル長さ
Ｔ_ｅｘｔ封じ込められたフレームの終りのピッチサイクル長さ
ｓｒｃ＿ｅｘｃ上記のとおり最後に受信したフレームの終りから励振信号のローパスフィルタ処理された最後のピッチサイクルをコピーして作られた入力励振信号
ｄｓｔ＿ｅｘｃパルス再同期化についてここに記載のアルゴリズムを使用してｓｒｃ＿ｅｘｃから作られる出力励振信号。

実施形態によれば、このようなアルゴリズムは、以下のステップの１以上または全部を含み得る。

・式（６５）に基づいて、サブフレーム当たりのピッチの変化を計算する。

・式（１５ｂ）に基づき、丸められた開始ピッチを計算する。

・式（６９）に基づき、加えられるべき（負の場合には除去すべき）サンプルの数を計算する。

・励振ｓｒｃ＿ｅｘｃの構成された周期的部分における第１のＴ_ｒ個のサンプルから、第１の最大パルスＴ［０］の場所を見つける。

・式（７３）に基づき再同期化されたフレームｄｓｔ＿ｅｘｃにおける最後のパルスのインデクスを取得する。

・式（９４）に基づいて、連続するサイクルの間で加えるかまたは除去すべきサンプルのａ－Δを計算する。

・式（９６）に基づいて第１のパルスの前に加えるかまたは除去すべきサンプルの数を計算する。

・第１のパルスの前に加えるかまたは除去すべきサンプルの数を丸めて、小数部分をメモリに維持する。

・２つのパルス間の各領域について、式（９８）に基づいて加えるかまたは除去すべきサンプルの数を計算する。

・前回の丸めの時の残余の小数部分を考慮に入れて、２つのパルス間で加えるかまたは除去すべきサンプルの数を丸める。

・いくつかのｉについて、加えられたＦにより、Δ^’ _ｉ＞Δ^’ _ｉ－１となる場合、これらの値をΔ^’ _ｉおよびΔ^’ _ｉ－１に交換する。

・式（９９）に基づいて、最後のパルス後に加えられるかまたは除去されるべきサンプルの数を計算する。

・次いで、最小エネルギ領域の間で加えられるまたは除去されるべきサンプルの最大数を計算する。

・長さΔ^’ _ｍａｘのｓｒｃ＿ｅｘｃにおける最初の２つのパルスの間の最小エネルギセグメントＰ_ｍｉｎ［１］の場所を見つける。２つのパルスの間のすべての連続する最小エネルギセグメントについて、位置を以下の式により計算する。

・Ｐ_ｍｉｎ［１］＞Ｔ_ｒなら、Ｐ_ｍｉｎ[０]＝Ｐ_ｍｉｎ[１]－Ｔ_ｒを用いて、ｓｒｃ＿ｅｘｃにおける最初のパルスの前の最小エネルギセグメントの場所を計算する。さもなければ、長さΔ^’ _０を有するｓｒｃ＿ｅｘｃにおける最初のパルスの前の最小エネルギセグメントＰ_ｍｉｎ［０］の場所を見つける。

・Ｐ_ｍｉｎ[１]＋ｋＴ_ｒ＜Ｌ－ｓならば、Ｐ_ｍｉｎ[ｋ＋１]＝Ｐ_ｍｉｎ[１]＋ｋＴ_ｒを用いて、ｓｒｃ＿ｅｘｃにおける最後のパルス後の最小エネルギセグメントの場所を計算する。さもなければ、長さΔ’_ｋ＋１を有するｓｒｃ＿ｅｘｃにおける最後のパルス後の最小エネルギセグメントＰ_ｍｉｎ［ｋ＋１］の場所を見つける。

・封じ込められた励振信号ｄｓｔ＿ｅｘｃにおいてパルスが１つしか存在しない場合には、すなわちｋ＝０の場合、Ｐ_ｍｉｎ［１］のサーチをＬ－ｓに限定する。その場合、Ｐ_ｍｉｎ［１］は、ｓｒｃ＿ｅｘｃにおける最後のパルス後の最小エネルギセグメントの場所を指す。

ｓ＞０の場合、場所Ｐ_ｍｉｎ［ｉ］（０≦ｉ≦ｋ＋１）で、信号ｓｒｃ＿ｅｘｃにΔ’_ｉ個のサンプルを追加し、それをｄｓｔ＿ｅｘｃに格納し、さもなければ、ｓ＜０の場合、場所Ｐ_ｍｉｎ［ｉ］（０≦ｉ≦ｋ＋１）でΔ’_ｉ個のサンプルを信号ｓｒｃ＿ｅｘｃから除去して、それをｄｓｔ＿ｅｘｔに格納する。サンプルが加えられたり除去されるｋ＋２の領域が存在する。

図２ｃは、実施形態に従って音声信号を含むフレームを再構成するためのシステムを示す図である。このシステムは、上記の実施形態の１つに従って、推定ピッチラグを決定するための装置１００およびフレームを再構成するための装置２００を含み、フレームを再構成するための装置が、推定ピッチラグに依拠してフレームを再構成するよう構成される。推定ピッチラグは、音声信号のピッチラグである。

ある実施形態において、再構成されたフレームは、たとえば、１以上の入手可能なフレームと関連し得るが、前記１以上の入手可能なフレームは、再構成されたフレームの１以上の先行フレームおよび再構成されたフレームの１以上の後続フレームのうちの１以上のフレームであり、１以上の入手可能なフレームは、１以上の入手可能なピッチサイクルとして１以上のピッチサイクルを含む。フレームを再構成するための装置２００は、たとえば、上記実施形態の１つによるフレームを再構成するための装置であり得る。

いくつかの態様について、装置に関連して説明したが、これらの態様が対応する方法の説明も表すことは明らかであり、その場合、ブロックまたは装置が方法ステップまたは方法ステップの特徴に相当する。同様に、方法ステップに関連して説明した態様も、対応の装置の対応のブロックもしくはアイテムまたは特徴の説明を表す。

発明の分解された信号は、デジタル記憶媒体に記憶されるかまたは無線送信媒体またはインターネット等の有線送信媒体等の送信媒体で送信され得る。

特定の実装要件に依拠して、発明の実施形態を、ハードウェアまたはソフトウェアで実装することができる。実装は、それぞれの方法が実行されるように、プログラマブルコンピュータシステムと協働する（または協働することができる）電子的に可読な制御信号を記憶した、フロッピー（登録商標）ディスク、ＤＶＤ，ＣＤ，ＲＯＭ，ＰＲＯＭ，ＥＰＲＯＭ，ＥＥＰＲＯＭまたはフラッシュメモリ等のデジタル記憶媒体を用いて行うことができる。

発明によるいくつかの実施形態は、本件明細書に記載の方法の１つを実行するように、プログラマブルコンピュータシステムと協働することができる、電子的に可読な制御信号を有する非一時的データキャリアを含む。

一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実現することが可能で、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されると、方法の１つを実行するように動作する。プログラムコードは、たとえば、機械可読なキャリア上に記憶することができる。

他の実施形態は、機械可読なキャリア上に記憶される、本件明細書に記載の方法の１つを実行するためのコピュータプログラムを含む。

したがって、言い換えれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行された時に、本件明細書に記載の方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法の他の実施形態は、本件明細書中に記載の方法の１つを実行するためのコンピュータプログラムを記録するデータキャリア（またはデジタル記憶媒体またはコンピュータ可読媒体）である。

したがって、本発明の方法の他の実施形態は、本件明細書に記載の方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、たとえば、インターネットを経由する等データ通信接続を経由して転送されるように構成され得る。

他の実施形態は、たとえば、本件明細書に記載の方法の１つを実行するよう構成または適合されたコンピュータまたはプログラマブル論理装置等の処理手段を含む。

他の実施形態は、本件明細書に記載の方法の１つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。

いくつかの実施形態において、プログラマブル論理装置（フィールドプログラマブルゲートアレイ等）を使用して、本件明細書に記載の方法の機能の一部または全部を実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイが、本件明細書に記載の方法の１つを実行するために、マイクロプロセッサと協働し得る。一般に、方法は、なんらかのハードウェア装置により実行されることが好ましい。

上記の実施形態は、本発明の原則を説明するに過ぎない。当業者には、本件明細書に記載の構成および詳細の変形例および修正例が明らかになることは当然である。したがって、特許請求の範囲によってのみ限定され、本件明細書における実施形態の記載および説明により提示される特定の詳細によっては限定されないことを意図する。

Claims

推定ピッチラグを決定するための装置であって、
複数のオリジナルピッチラグ値を受けるための入力インターフェース（１１０）と、
推定ピッチラグを推定するためのピッチラグ推定器（１２０）とを備え、
ピッチラグ推定器（１２０）は、ピッチラグを正しく受信した後に経過した経過時間に依拠する重み付けを採用する誤差関数を最小化することにより推定ピッチラグを推定するよう構成され、
ピッチラグ推定器（１２０）が、複数のオリジナルピッチラグ値および複数の情報値としての複数の時間値に依拠して、推定ピッチラグを推定するよう構成され、
複数のオリジナルピッチラグ値の各々のオリジナルピッチラグ値について、複数の時間値のうちの１つの時間値が、前記オリジナルピッチラグ値に割り当てられる、装置。
ピッチラグ推定器が、以下の誤差関数を最小化することにより２つのパラメータａ、ｂを決定して、推定ピッチラグを推定するよう構成され、

ここで、ａは実数であり、ｂは実数であり、ｋはｋ≧２の整数であり、Ｐ（ｉ）はｉ番目のオリジナルピッチラグ値であり、ｔｉｍｅ_{ｐａｓｓｅｄ}（ｉ）は、ピッチラグを正しく受信した後に経過した時間の量の逆数を表し、ｉ番目のピッチラグ値Ｐ（ｉ）に割り当てられるｉ番目の時間値である、請求項１に記載の装置。
ピッチラグ推定器が、以下の誤差関数を最小化することにより前記２つのパラメータａ、ｂを決定して、推定ピッチラグを推定するよう構成される、請求項２に記載の装置。
ピッチラグ推定器が、以下の式によって推定ピッチラグｐを決定するよう構成される、請求項２に記載の装置。
ｐ＝ａ＋ｂ・ｉ
音声信号を含むフレームを再構成するためのシステムであって、
請求項１に記載の推定ピッチラグを決定するための装置と、
フレームを再構成するための装置とを備え、フレームを再構成するための装置が、推定ピッチラグに依拠してフレームを再構成するよう構成され、
推定ピッチラグが、音声信号のピッチラグである、システム。
再構成されたフレームが、１以上の入手可能なフレームと関連し、前記１以上の入手可能なフレームが、再構成されたフレームの１以上の先行フレームおよび再構成されたフレームの１以上の後続フレームのうちの１以上のフレームであり、
１以上の入手可能なフレームが、１以上の入手可能なピッチサイクルとして、１以上のピッチサイクルを含み、かつ
フレームを再構成するための装置が、
１以上の入手可能なピッチサイクルのうちの１つのサンプルの数と再構成されるべき第１のピッチサイクルのサンプルの数との差を示すサンプル数の差を決定するための決定部（２１０）と、
サンプル数の差および１以上の入手可能なピッチサイクルのうちの前記１つのサンプルに依拠して第１の再構成ピッチサイクルとして再構成されるべき第１のピッチサイクルを再構成することにより再構成フレームを再構成するためのフレーム再構成部（２２０）とを含み、
フレーム再構成部（２２０）が、再構成フレームを再構成するように構成され、それにより再構成フレームが完全にまたは部分的に第１の再構成ピッチサイクルを含み、再構成フレームが完全にまたは部分的に第２の再構成ピッチサイクルを含み、かつ第１の再構成ピッチサイクルのサンプル数が第２の再構成ピッチサイクルのサンプル数とは異なるようになっており、
決定部（２１０）が、推定ピッチラグに依拠してサンプル数の差を決定するよう構成される、請求項５に記載のフレームを再構成するためのシステム。
推定ピッチラグを決定するための方法であって、
複数のオリジナルピッチラグ値を受けるステップと、
推定ピッチラグを推定するステップとを備え、
推定ピッチラグを推定するステップは、ピッチラグを正しく受信した後に経過した経過時間に依拠する重み付けを採用する誤差関数を最小化することにより実行され、
推定ピッチラグを推定するステップは、複数のオリジナルピッチラグ値および複数の情報値としての複数の時間値に依拠して行われ、複数のオリジナルピッチラグ値の各々のオリジナルピッチラグ値について、複数の時間値のうちの１つの時間値が、前記オリジナルピッチラグ値に割り当てられる、方法。
コンピュータまたは信号プロセッサ上で実行されるとき、請求項７に記載の方法を実現するためのコンピュータプログラム。