JP7079325B2

JP7079325B2 - ピッチラグの選択

Info

Publication number: JP7079325B2
Application number: JP2020524874A
Authority: JP
Inventors: ラヴェッリ・エマニュエル; ディーツ・マーティン; シュナベル・ミヒャエル; トリサート・アーサー; チェカリンスキー・アレクサンダー
Original assignee: フラウンホーファー－ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2017-11-10
Filing date: 2018-11-05
Publication date: 2022-06-01
Anticipated expiration: 2038-11-05
Also published as: CA3082175C; AU2018363670A1; MX2020004786A; KR102426050B1; CN111566733A; RU2742739C1; EP3483886A1; AU2018363670B2; BR112020009114A2; SG11202004203WA; US20200273475A1; PL3707718T3; CN111566733B; WO2019091922A1; ZA202002521B; CA3082175A1; TW201923755A; EP3707718B1; AR114388A1; JP2021502596A

Description

たとえば、長期ポストフィルタリングＬＴＰＦ、エンコードなど、低複雑度ピッチ検出手順を実行することが可能な方法および装置の例が、ここに提供される。
たとえば、例は、たとえばＬＴＰＦを実行するための、たとえばオーディオ信号などの情報信号のピッチラグを選択することができる。

１．１．背景
変換ベースのオーディオコーデックは一般に、高調波オーディオ信号を、特に低遅延および低ビットレートで処理するときに、高調波間ノイズを発生させる。この高調波間ノイズは一般に、非常に迷惑なアーチファクトとして知覚され、トーンの高いオーディオ素材で主観的に評価された時の変換ベースのオーディオコーデックの性能を著しく低下させる。

長期ポストフィルタリング（ＬＴＰＦ）は、この高調波間ノイズを低減するのに役立つ変換ベースのオーディオコーディング用のツールである。これは、変換デコードの後に時間領域信号に適用されるポストフィルタに依存する。このポストフィルタは本質的に、ピッチラグおよび利得の２つのパラメータによって制御される櫛形周波数応答を有する無限インパルス応答（ＩＩＲ）フィルタである。

さらなる堅牢性のため、ポストフィルタパラメータ（ピッチラグおよび／またはフレームあたりの利得）がエンコーダ側で推定され、利得が非ゼロのときにビットストリーム内でエンコードされる。ゼロ利得の場合は１ビットで通知され、信号が高調波部分を含まないときに使用される非アクティブなポストフィルタに対応する。

ＬＴＰＦは、最初に３ＧＰＰＥＶＳ規格［１］に導入され、後にＭＰＥＧ－Ｈ３Ｄオーディオ規格［２］に統合された。対応する特許は［３］および［４］である。

ピッチ検出アルゴリズムは、フレームごとに１つのピッチラグを推定する。複雑度を低減するために、これは通常、低サンプリングレート（たとえば、６．４ｋＨｚ）で実行される。理想的には、これは正確で安定した連続的な推定を提供すべきである。

ＬＴＰＦエンコードに使用されるときには、連続的なピッチ輪郭を有することが最も重要であり、そうでなければＬＴＰＦフィルタリングされた出力信号において、いくつかの不安定なアーチファクトが聞こえる可能性がある。真の基本周波数Ｆ０を持たないこと（たとえばその倍数を持つことによる）は、重大なアーチファクトではなく、ＬＴＰＦ性能のわずかな劣化をもたらすので、あまり重要ではない。

ピッチ検出アルゴリズムの別の重要な特性は、計算上の複雑度である。低電力デバイスまたは超低電力デバイスさえ対象とするオーディオコーデックに実装されるとき、その計算上の複雑度は可能な限り低くなければならない。

１．２．従来技術
公共領域で見られるＬＴＰＦエンコーダの一例がある。これは３ＧＰＰＥＶＳ規格［１］に記載されている。この実装は、標準仕様のセクション５．１．１０に記載されているピッチ検出アルゴリズムを使用している。このピッチ検出アルゴリズムは、非常に安定した連続的なピッチ輪郭を与えるので、優れた性能を有し、ＬＴＰＦとうまく連携する。しかしながら、その主な欠点は、その比較的高い複雑度である。

これらはＬＴＰＦエンコードには決して使用されなかったものの、理論的には他の既存のピッチ検出アルゴリズムがＬＴＰＦに使用され得る。一例は、多くの場合最も正確なものの１つとして認識されるピッチ検出アルゴリズムである、ＹＩＮ［６］である。しかしながら、ＹＩＮは非常に複雑であり、［１］のものよりも遙かに複雑でさえある。

言及する価値のあるもう１つの例は、３ＧＰＰＡＭＲ－ＷＢ規格［７］で使用されるピッチ検出アルゴリズムであり、これは［１］のものよりも複雑度がはるかに低いが性能もまた悪く、特にあまり安定せず連続しないピッチ輪郭を与える。

従来技術は、以下の開示を備える。

［１］３ＧＰＰＴＳ２６．４４５；ＥｎｈａｎｃｅｄＶｏｉｃｅＳｅｒｖｉｃｅｓ（ＥＶＳ）用のコーデック；詳細なアルゴリズム記

［２］ＩＳＯ／ＩＥＣ２３００８－３：２０１５；情報技術――異機種環境における高効率コーディングおよびメディア配信――パート３：３Ｄオーディ

［３］Ｒａｖｅｌｌｉら「高調波ポストフィルタを使用してオーディオ信号を処理するための装置および方法（Ａｐｐａｒａｔｕｓａｎｄｍｅｔｈｏｄｆｏｒｐｒｏｃｅｓｓｉｎｇａｎａｕｄｉｏｓｉｇｎａｌｕｓｉｎｇａｈａｒｍｏｎｉｃｐｏｓｔ－ｆｉｌｔｅｒ）」。米国特許出願第２０１７／０１４０７６９Ａ１号明細書、２０１７年５月１８日。

［４］Ｍａｒｋｏｖｉｃら「高調波フィルタツールの調和性依存制御（Ｈａｒｍｏｎｉｃｉｔｙ－ｄｅｐｅｎｄｅｎｔｃｏｎｔｒｏｌｌｉｎｇｏｆａｈａｒｍｏｎｉｃｆｉｌｔｅｒｔｏｏｌ）」。米国特許出願第２０１７／０１３３０２９Ａ１号明細書、２０１７年５月１１日。

［５］ＩＴＵ－ＴＧ．７１８：８－３２ｋｂｉｔ／ｓからのスピーチとオーディオの、フレームエラーに強い狭帯域および広帯域埋め込み可変ビットレートコーディング。

［６］ＤｅＣｈｅｖｅｉｇｎｅ、Ａｌａｉｎ、およびＨｉｄｅｋｉＫａｗａｈａｒａ。「ＹＩＮ、スピーチおよび音楽用の基本周波数推定器（ＹＩＮ，ａｆｕｎｄａｍｅｎｔａｌｆｒｅｑｕｅｎｃｙｅｓｔｉｍａｔｏｒｆｏｒｓｐｅｅｃｈａｎｄｍｕｓｉｃ）」。ＴｈｅＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ１１１．４（２００２）：１９１７－１９３０

［７］３ＧＰＰＴＳ２６．１９０；音声コーデック音声処理機能；適応型マルチレート－広帯域（ＡＭＲ－ＷＢ）音声コーデック；トランスコード機能。

しかしながら、ピッチラグ推定を改善しなければならない場合がある。
現在の低複雑度ピッチ検出アルゴリズム（［７］のものなど）は、ＬＴＰＦにとって、特にポリフォニー音楽のような複雑な信号にとって、不十分な性能を有する。ピッチ輪郭は、静止トーンの間であっても非常に不安定になる可能性がある。これは、重み付けされた自己相関関数の極大値間のジャンプによるものである。

米国特許出願第２０１７／０１４０７６９Ａ１号明細書米国特許出願第２０１７／０１３３０２９Ａ１号明細書

ＤｅＣｈｅｖｅｉｇｎｅ、Ａｌａｉｎ、およびＨｉｄｅｋｉＫａｗａｈａｒａ。「ＹＩＮ、スピーチおよび音楽用の基本周波数推定器（ＹＩＮ，ａｆｕｎｄａｍｅｎｔａｌｆｒｅｑｕｅｎｃｙｅｓｔｉｍａｔｏｒｆｏｒｓｐｅｅｃｈａｎｄｍｕｓｉｃ）」。ＴｈｅＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ１１１．４（２００２）：１９１７－１９３０．

したがって、従来技術と同じかまたはより低い複雑度で、複雑な信号によりよく適応するピッチラグ推定を取得する必要性がある。

例によれば、複数のフレームを含む情報信号をエンコードするための装置が提供され、装置は、
第１推定値を取得するように構成された第１推定器であって、第１推定値は現在のフレームのピッチラグの推定値である、第１推定器と、
第２推定値を取得するように構成された第２推定器であって、第２推定値は現在のフレームのピッチラグの別の推定値である、第２推定器と、
第１および第２相関測定値に基づいて第１推定値と第２推定値との間の選択を実行することによって選択値を選ぶように構成されたセレクタと、
を備え、
第２推定器は、現在のフレームの第２推定値を取得するように、前のフレームで選択されたピッチラグによって条件付けられ、
セレクタは、
第２相関測定値が第１相関測定値のダウンスケールバージョンよりも小さいときに第１推定値を選択するように、および／または
第２相関測定値が第１相関測定値のダウンスケールバージョンよりも大きいときに第２推定値を選択するように、
現在のフレームに関連付けられ、第１推定値に対応するラグで取得された第１相関測定値のダウンスケールバージョンと、
現在のフレームに関連付けられ、第２推定値に対応するラグで取得された第２相関測定値と
の間で比較を実行するように構成されており、
第１および第２相関測定値のうちの少なくとも１つは、自己相関測定値および／または正規化自己相関測定値である、
ことを特徴とする。

例によれば、情報信号を、複数のフレームを含むビットストリーム（６３）にエンコードするための装置が提供され、装置（６０ａ）は、
第１推定値を取得するように構成された第１推定器であって、第１推定値は現在のフレームのピッチラグの推定値である、第１推定器と、
第２推定値を取得するように構成された第２推定器であって、第２推定値は現在のフレームのピッチラグの別の推定値であり、第２推定器は、現在のフレームの第２推定値を取得するように、前のフレームで選択されたピッチラグによって条件付けられる、第２推定器と、
少なくとも１つの相関測定値に基づいて第１推定値と第２推定値との間の選択を実行することによって選択値を選ぶように構成されたセレクタであって、セレクタは、
第２相関測定値がピッチラグ選択閾値よりも大きいときに第２推定値を選択するように、および／または
第２相関測定値がピッチラグ選択閾値よりも小さいときに第１推定値を選択するように、
現在のフレームに関連付けられ、第２推定値に対応するラグで取得された第２相関測定値と、
ピッチラグ選択閾値と
の間で比較を実行するように構成されている、セレクタと、
デコーダでＬＴＰＦを実行するのに有用なデータをエンコードするように構成された長期ポストフィルタリングＬＴＰＦツールであって、ＬＴＰＦを実行するのに有用なデータは選択値を含む、長期ポストフィルタリングＬＴＰＦツールと、
を備える検出ユニットを備える。

例によれば、複数のフレームを含む情報信号をエンコードするための装置が提供され、装置は、
第１推定値を取得するように構成された第１推定器であって、第１推定値は現在のフレームのピッチラグの推定値である、第１推定器と、
第２推定値を取得するように構成された第２推定器であって、第２推定値は現在のフレームのピッチラグの別の推定値である、第２推定器と、
少なくとも１つの相関測定値に基づいて第１推定値と第２推定値との間の選択を実行することによって選択値を選ぶように構成されたセレクタと、
を備え、
第２推定器は、現在のフレームの第２推定値を取得するように、前のフレームで選択されたピッチラグによって条件付けられる。

例によれば、セレクタは、
第２相関測定値がピッチラグ選択閾値よりも大きいときに第２推定値を選択するように、および／または
第２相関測定値がピッチラグ選択閾値よりも小さいときに第１推定値を選択するように、
現在のフレームに関連付けられ、第２推定値に対応するラグで取得された第２相関測定値と、
ピッチラグ選択閾値と
の間で比較を実行するように構成されている。

例によれば、セレクタは、
第１相関測定値が少なくとも第２相関測定値よりも大きいときに第１推定値を選択するように、および／または
第１相関測定値が少なくとも第２相関測定値よりも小さいときに第２推定値を選択するように、
現在のフレームに関連付けられ、第１推定値に対応するラグで取得された第１相関測定値と、
現在のフレームに関連付けられ、第２推定値に対応するラグで取得された第２相関測定値と
の間の選択を実行するように構成されている。

例によれば、セレクタは、
第２相関測定値が第１相関測定値のダウンスケールバージョンよりも小さいときに第１推定値を選択するように、および／または
第２相関測定値が第１相関測定値のダウンスケールバージョンよりも大きいときに第２推定値を選択するように、
現在のフレームに関連付けられ、第１推定値に対応するラグで取得された第１相関測定値のダウンスケールバージョンと、
現在のフレームに関連付けられ、第２推定値に対応するラグで取得された第２相関測定値と
の間の選択を実行するように構成されている。

例によれば、第１および第２相関測定値のうちの少なくとも１つは、自己相関測定値および／または正規化自己相関測定値である。

情報信号の表現またはその処理済みバージョンを生成するための変換コーダが実装されてもよい。

例によれば、第２推定器は、
前のフレームのために選択されたピッチラグを含む第２サブインターバル内の第２相関関数を最大化させるラグを検索することによって、第２推定値を取得するように構成されている。

例によれば、第２サブインターバルは、前のフレームのために選択されたピッチラグから所定のラグ数閾値よりも短い距離内のラグを含む。

例によれば、第２推定器は、
第２相関関数値の中の最大値に関連付けられたラグに第２推定値を関連付けるために、第２相関関数値の中の最大値を検索するように構成されている。

例によれば、第１推定器は、
現在のフレームに関連付けられた第１相関関数を最大化させるラグとして第１推定値を取得するように構成されている。

例によれば、第１相関関数は、第１サブインターバル内のラグに制限されている。

例によれば、第１サブインターバルは、第２サブインターバルよりも大きいいくつかのラグを含み、および／または第２サブインターバル内のラグのうちの少なくともいくつかは、第１サブインターバルに含まれる。

例によれば、第１推定器）は、
第１相関関数を最大化させるラグを検索する前に単調に減少する重み関数を使用して第１相関関数の相関測定値を重み付けするように構成されている。

例によれば、第２および第１相関関数のうちの少なくとも１つは、自己相関関数および／または正規化自己相関関数である。

例によれば、第１推定器は、以下の演算のうちの少なくともいくつかを実行することによって第１推定値

を取得するように構成されており、

は重み関数であり、

および

は最小ラグおよび最大ラグに関連付けられており、

は情報信号またはその処理済みバージョンに基づいて推定された自己相関測定値であり、Ｎはフレーム長である。

例によれば、第２推定器は、

を実行することによって第２推定値

を取得するように構成されており、

、

は前のフレームで選択された推定値であり、

は

からの距離であり、

および

は最小ラグおよび最大ラグに関連付けられている。

例によれば、セレクタは、以下の点に関してピッチラグ推定値

の選択を実行するように構成されており、

ここで

は第１推定値、

は第２推定値、

は情報信号またはその処理済みバージョンの値、

はラグ

での長さ

の信号

の正規化相関測定値、

はダウンスケーリング係数である。

例によれば、セレクタの下流に、デコーダ装置における長期ポストフィルタを制御するための長期ポストフィルタリングＬＴＰＦツールが提供される。

例によれば、情報信号はオーディオ信号である。

例によれば、装置は、現在のフレームの高調波の測定値として第１相関測定値を、および前のフレームに対して定義されたサブインターバルに制限された現在のフレームの高調波の測定値として第２相関測定値を取得するように構成されている。

例によれば、装置は、重み関数まで同じ相関関数を使用して第１および第２相関測定値を取得するように構成されている。

例によれば、装置は、重み関数までの第１推定値の正規化バージョンとして第１相関測定値を取得するように構成されている。

例によれば、装置は、第２推定値の正規化バージョンとして第２相関測定値を取得するように構成されている。

例によれば、エンコーダ側およびデコーダ側を備えるシステムが提供され、エンコーダ側は上記の通りであり、デコーダ側は、セレクタによって選択されたピッチラグ推定値に基づいて制御される長期ポストフィルタリングツールを備える。

例によれば、フレームに分割された信号のピッチラグを決定する方法であって、
現在のフレームの第１推定を実行するステップと、
現在のフレームの第２推定を実行するステップと、
少なくとも１つの相関測定値に基づいて、第１推定で取得された第１推定値と第２推定で取得された第２推定値との間で選択するステップと
を備え、
第２推定を実行するステップは、前のフレームで実行された選択ステップの結果に基づいて取得される、方法が提供される。

例によれば、方法は、長期ポストフィルタリングＬＴＰＦのために選択されたラグを使用するステップを備えてもよい。

例によれば、方法は、パケット損失隠蔽ＰＬＣのために選択されたラグを使用するステップを備えてもよい。

例によれば、フレームに分割された信号のピッチラグを決定する方法であって、
現在のフレームの第１推定を実行するステップと、
現在のフレームの第２推定を実行するステップと、
相関測定値に基づいて、第１推定で取得された第１推定値と第２推定で取得された第２推定値との間で選択するステップと、
を備え、
第２推定を実行するステップは、前のフレームで実行された選択ステップの結果に基づいて取得され、
選択ステップは、
現在のフレームに関連付けられ、第１推定値に対応するラグで取得された第１相関測定値のダウンスケールバージョンと、
現在のフレームに関連付けられ、第２推定値に対応するラグで取得された第２相関測定値と
の間で比較を実行するステップと、
第２相関測定値が第１相関測定値のダウンスケールバージョンよりも小さいときに第１推定値を選択し、および／または第２相関測定値が第１相関測定値のダウンスケールバージョンよりも大きいときに第２推定値を選択するステップと、を備え、
第１および第２相関測定値のうちの少なくとも１つは自己相関測定値および／または正規化自己相関測定値であることを特徴とする、方法が提供される。

例によれば、フレームに分割された信号のためにビットストリームをエンコードする方法であって、
現在のフレームの第１推定を実行するステップと、
現在のフレームの第２推定を実行するステップと、
少なくとも１つの相関測定値に基づいて、第１推定で取得された第１推定値と第２推定で取得された第２推定値との間で選択するステップと
を備え、
第２推定を実行するステップは、前のフレームで実行された選択ステップの結果に基づいて取得され、
選択ステップは、
現在のフレームに関連付けられ、第２推定値に対応するラグで取得された第２相関測定値と、
ピッチラグ選択閾値と
の間で比較を実行するステップと、
第２相関測定値がピッチラグ選択閾値よりも大きいときに第２推定値を選択し、および／または第２相関測定値がピッチラグ選択式位置よりも小さいときに第１推定値を選択するステップと、を備え、
方法は、選択値を用いてデコーダでＬＴＰＦを実行するのに有用なデータをエンコードするステップをさらに備える、方法が提供される。

例によれば、プロセッサによって実行されると、上記または下記の方法のいずれかをプロセッサに実行させる命令を備えるプログラムが提供される。

例による装置を示す図である。例による方法を示す図である。例による装置を示す図である。例による方法を示す図である。例による方法を示す図である。相関関数の図である。相関関数の図である。相関関数の図である。相関関数の図である。相関関数の図である。本発明によるシステムを示す図である。本発明による装置を示す図である。本発明による装置を示す図である。デコーダでの動作の例を示す図である。

５．選択および推定の例
たとえばＬＴＰＦエンコードおよび／またはデコードのための、低複雑度ピッチ検出手順、システム、および装置の例が開示される。

情報信号は、異なる離散時刻（ｎ）で獲得された連続するサンプル（たとえば、ｘ（ｎ））として、時間領域ＴＤに記述され得る。ＴＤ表現は、各々が複数のサンプルに関連付けられた、複数のフレームを備えてもよい。フレームは、現在のフレームが後続のフレームよりも時間的に前であって前のフレームよりも時間的に後になるように、連続して次々に見られることがある。前のフレームに対して実行された動作が現在のフレームに繰り返されるように、反復的に動作することが可能である。

現在のフレームに関連付けられた反復の間、前のフレームに関連付けられた前の反復で実行された選択によって条件付けられた、少なくともいくつかの動作（たとえば、第２推定値）を実行することが可能である。したがって、たとえば長期ポストフィルタリング（ＬＴＰＦ）を実行するためにデコーダによって使用されるピッチラグを選択するために、前のフレームでの信号の履歴が考慮される。

５．１例による一般的な構造および関数
図１ａは、情報信号をエンコードするための装置１０の一部を示す。装置１０は、現在のフレーム１３の第１推定値１４（Ｔ_１）を取得するための第１推定プロセスを実行するように構成された第１推定器１１を備え得る。装置１０は、現在のフレーム１３）の第２推定値１６（Ｔ_２）を取得するための第２推定プロセスを実行するように構成された第２推定器１２を備え得る。装置１０は、少なくとも１つの相関測定値に基づいて第１推定値１４と第２推定値１６との間の選択１８を実行するように構成されたセレクタ１７を備え得る（スイッチ１７ａによって表される要素は、要素１７によって制御される）。出力（最終）推定値１９（Ｔ_ｂｅｓｔ）は、第１推定値１４と第２推定値１６との間で選ばれ、たとえばＬＴＰＦを実行するために、たとえばデコーダに提供され得る。出力（最終）推定値１９は、ＬＴＰＦのピッチラグとして使用される。

最終推定値（選択値）１９はまた、レジスタ１９’に入力されて、後続のフレームに対して反復を実行するときに、先に行われた選択に関する第２推定器１２への入力１９’’（Ｔ_ｐｒｅｖ）として使用されてもよい。各フレーム１３について、第２推定器１２は、前のフレームの前の最終推定値１９’’に基づいて第２推定値１６を取得する。

図１ｂは、フレームに分割された信号の（たとえば、ＬＰＴＦに使用される最終ピッチラグを決定する）方法１００を示す。方法は、ステップＳ１０１において、現在のフレームの第１推定（ピッチラグ推定）を実行するステップを備える。方法は、ステップＳ１０２において、現在のフレームの第２推定を実行するステップを備え、第２推定は、前のフレームで行われた選択に基づく（たとえば、前のフレームでＬＴＰＦのために選ばれた最終ピッチラグ）。方法は、ステップＳ１０３において、少なくとも１つの相関測定値に基づいて第１推定値１４と第２推定値１６との間で選択するステップを備える。

続いて、ステップＳ１０４において、フレームが更新され、「現在のフレーム」であったフレームは「前のフレーム」になり、新しい（後続の）フレームが新しい「現在のフレーム」になる。更新の後、方法は反復されてもよい。

図２は、情報信号をエンコードするための（図１ａと同じであってもよい）装置１０の一部を示す。セレクタ１７において、第１測定器２１は、現在のフレーム１３（たとえば、第１推定値Ｔ_１の正規化自己相関）に関連付けられた第１相関（たとえば、正規化相関）２３を測定し得る。第２測定器２２は、現在のフレーム１３（たとえば、第２推定値Ｔ_２の正規化自己相関）に関連付けられた第２相関（たとえば、正規化相関）２５を測定し得る。第１の正規化相関２３は、スケーラ２６において、たとえば０．８から０．９の間、より具体的には０．８４から０．８６の間の値であってもよく、０．８５であってもよい所定値αだけ、ダウンスケールされ得る。現在のフレーム１３に関連付けられた第２相関（たとえば、正規化相関）２５は、たとえば、スケーリングされた第１相関２４と比較され得る（例では、スケーラ２６はオプションであり、第１相関はスケーリングされない）。第１推定値１４（Ｔ_１）と第２推定値１６（Ｔ_２）との間の選択１８は、比較器２７で実行された比較に基づく。第２相関２５がスケーリングされた第１相関２４よりも大きいとき、第２推定値１６は、デコーダに提供される（たとえば、ＬＴＰＦのピッチラグとして使用される）選択された出力推定値１９（Ｔ_ｂｅｓｔ＝Ｔ_２）としてのピッチラグ情報として選ばれる。第２相関２５がスケーリングされた第１相関２４よりも小さいとき、第１推定値１４（Ｔ_１）は、デコーダに提供されるピッチラグ情報１９（Ｔ_ｂｅｓｔ＝Ｔ_１）として選ばれる。

５．２第１推定
例において、現在のフレーム１３に基づいて第１推定値１４を提供するために使用され得る第１推定器１１の動作が、ここで論じられる。方法３０が、図３に示されている。

ステップ１．第１段の再サンプリング（ステップＳ３１）
サンプリングレート

での入力信号

は、より低いサンプリングレート

（たとえば、

）に再サンプリングされる。再サンプリングは、たとえば、古典的なアップサンプリング＋ローパス＋ダウンサンプリングアプローチを使用して実施され得る。本ステップは、いくつかの例ではオプションである。

ステップ２．ハイパスフィルタリング（ステップＳ２１）
次に、再サンプリングされた信号は、たとえば５０Ｈｚで３ｄＢカットオフの２次ＩＩＲフィルタを使用して、ハイパスフィルタリングされる。得られた信号は、

で示される。本ステップは、いくつかの例ではオプションである。

ステップ３．第２段の再サンプリング（ステップＳ３３）
信号

は、たとえば４次ＦＩＲローパスフィルタとこれに続くデシメータを使用して、２の倍数でさらにダウンサンプリングされる。サンプリングレート

（たとえば

）で得られた信号は、

ステップ４．自己相関計算（ステップＳ３４）
自己相関プロセスが実行され得る。たとえば、自己相関は

に対して、

によって処理でき、

はフレームサイズである。

および

は、ピッチラグを引き出すための最小値および最大値である（たとえば

および

）。したがって、

および

は、第１推定値（現在のフレームのピッチラグ）が見つかる最初のインターバルの極値を構成し得る。

ステップ５．自己相関重み付け（ステップＳ３５）
より低いピッチラグを強調するために自己相関が重み付けされてもよい。

ここで

は、たとえば

で与えられる減少関数（たとえば、単調減少関数）である。

ステップ６．第１推定（ステップＳ３６）
第１推定値

は、重み付けされた自己相関を最大化させる値である。

第１推定値

は、第１推定器１１の出力１４として提供され得る。これは、本フレームのピッチラグの推定値であり得る。

（またはその重み付けバージョン

）は、その最大値が第１のピッチラグ推定値１４（Ｔ_１）に関連付けられた第１相関関数の一例である。

５．３第２推定
例において、現在のフレーム１３および前に選択（出力）された推定値１９’’（前のフレームのために取得されたピッチラグ）に基づいて第２推定値１６を提供するために使用され得る第２推定器１２の動作（および／またはステップＳ１０２）が、ここで論じられる。方法４０が、図４に示されている。第２推定値１６は、第１推定値１４とは異なってもよい。さらに、推定ピッチラグは、いくつかの例では、前に推定されたピッチラグとは異なる場合がある。

図５を参照すると、例によれば、ステップＳ４１において、検索は、特定の第２サブインターバル５２内にある、制限されたラグのグループに制限される。検索は、（前の）選択値１９’’に対応するラグ５１に基づく。検索は、第２サブインターバル５２において、値δ内のラグに制限される（たとえば、２、３、４、５、６、７、８、９、１０または他の正の自然数から選ばれてもよく、いくつかの例では、δは、フレームがＮ個のサンプルを有する場合にδがＮの１％から３０％、特に１５％から２５％の間のパーセンテージとなるような、フレームの長さのパーセンテージであってもよい）。δは、所定のラグ数閾値、または所定のパーセンテージであり得る。

例によれば、ステップＳ４２において、サブインターバル５２内の自己相関値が、たとえば第２測定器２２によって計算される。

例によれば、ステップＳ４２において、自己相関の結果の中の最大値が引き出される。第２推定値

は、前の選択値１９’’を中心とする第２サブインターバル内のラグの中の現在のフレームのピッチラグの近傍の自己相関を最大化させる値であり、たとえば、

ここで

は（セレクタ１７によって）前に選択された最終ピッチラグ５１（１９’’）であり、

はサブインターバル５２を定義する定数（たとえば、

）である。値

は、第２推定器１２の出力１６として提供され得る。

とりわけ、第１推定値１４および第２推定値１６は、互いに大きく異なり得る。

（ここでその領域はＴ_ｐｒｅｖ－δとＴ_ｐｒｅｖ＋δとの間に制限される）は、その最大値が第２のピッチラグ推定値１６（Ｔ_２）に関連付けられた第２相関関数の例である。

５．４第１および第２相関測定値
第１測定器２１および／または第２測定器２２は、相関測定を実行し得る。第１測定器２１および／または第２測定器２２は、自己相関測定を実行し得る。相関および／または自己相関測定値は正規化され得る。ここで一例が示される。

は、ピッチラグ

での信号

の正規化相関であってもよい。

したがって、第１相関測定値２３はｎｏｒｍｃｏｒｒ（Ｔ_１）であってもよく、ここでＴ_１は第１推定値１４であり、第２相関測定値２５はｎｏｒｍｃｏｒｒ（Ｔ_２）であってもよく、ここでＴ_２は第２推定値１６である。

とりわけ、第１相関測定値２３はＲ（Ｔ_１）（またはＲ_ｗ（Ｔ_１））の正規化された値であり、第２相関測定値２５はＲ（Ｔ_２）の正規化された値である。

５．５閾値との比較
これで、選択を実行するために相関を比較する方法の例を示すことができる。例として、以下の式によって提供される。

は、ピッチラグ選択閾値２４として見られる。

の場合、セレクタは

を選び、そうでなければセレクタは

を選ぶ。したがって、値

（またはこれに関連付けられた情報）は、選択された出力値１９（Ｔ_１またはＴ_２のいずれかとして）であり、（たとえば、ＬＴＰＦのために）デコーダに提供されてもよく、これは、第２推定値１６を取得するために第２推定器１２によって、１９’’として使用される。

５．６方法４０
方法３０に関連付けられた方法４０は、方法３０のみに基づく手法に対して性能を向上させる。

複雑度がわずかに加わるが、ピッチ輪郭をより安定的および連続的にすることで、性能を著しく向上させることができる。

方法４０は、自己相関関数の第２の最大値を見つける。これは方法３０のような全域的最大値ではなく、前のフレームのピッチラグの近傍の局所的最大値である。この第２のピッチラグは、選択された場合、平滑で連続的なピッチ輪郭を生成する。しかしながら、すべての場合にこの第２のピッチラグを選択するわけではない。たとえば、基本周波数に予想される変化がある場合は、全域的最大値を維持する方がよい。

最後の選択は、方法３０で見つかる第１のピッチラグ

（１４）を選択するか方法４０で見つかる第２のピッチラグ

（１６）を選択するかである。この判断は、周期性の尺度に基づいている。周期性の尺度として、正規化相関を選ぶ。信号が完全に周期的な場合は１、非周期的な場合は０である。次に、その対応する正規化相関が、パラメータ

によってスケーリングされた第１のピッチラグ

よりも高い場合に、第２のピッチラグ

が選ばれる。このパラメータ

は、その正規化相関が第１のピッチラグ

（１４）の正規化相関よりもわずかに低いときでも

を選択すること（１６）によって、判断をさらに円滑にする。

５．７手法の検討
図５（１）～図５（４）を参照する。

第１推定の例が、図５（１）に示されている。自己相関関数の最大値に対応するピッチラグが選択されている。

これは、（何らかの所与のピッチを有する）高調波信号の自己相関がピッチラグおよびこのピッチラグのすべての倍数の位置にピークを含むという事実に基づいている。

ピッチラグの倍数に対応するピークを選択するのを回避するために、図５（２）のように自己相関関数が重み付けされ、より高いピッチラグを強調しないようにする。これはたとえば［７］で使用される。

その後、重み付けされた自己相関の全域的最大値は、信号のピッチラグに対応すると見なされる。

一般に、単独で行われた第１推定は問題なく機能する。これにより、ほとんどのフレームに正確なピッチを与える。

第１推定は、自己相関関数（第１サブインターバル）のラグの数が比較的少ない場合に複雑度が比較的低いという利点も有する。

図５（１）は、入力信号の（非重み付け）自己相関を示す。

５つのピークがあり、最初のピーク５３はピッチラグに対応し、他のものはこのピッチラグの倍数５３’に対応する。

（非重み付け）自己相関の全域的最大値を取ることで、この場合は誤ったピッチラグを与えることになる。その倍数、この場合は正しいピッチラグの４倍を選ぶ。

しかしながら、重み付けされた自己相関の全域的最大値（図５（２））は正しいピッチラグである。

第１推定は、機能する場合もある。しかしながら、不安定な推定値を生成する場合もある。

このようなケースの１つは、ピッチの異なるいくつかのトーンの混合を含むポリフォニー音楽信号である。この場合、マルチピッチ信号から単一のピッチを抽出することは困難である。その場合、第１推定器１１は、１つのフレームにおいてトーンのうちの１つのピッチ（またはおそらくその倍数）を推定し、次のフレームではおそらく別のトーンのピッチ（またはその倍数）を推定することができるだろう。したがって、信号が安定していたとしても（異なるトーンのピッチがフレーム間で変化しなくても）、第１推定によって検出されたピッチは不安定になり得る（ピッチはフレーム間で著しく変化する）。

この不安定な挙動は、ＬＴＰＦの主要な問題である。ＬＴＰＦにピッチが使用されるときには、連続的なピッチ輪郭を有することが最も重要であり、そうでなければＬＴＰＦフィルタリングされた出力信号において、いくつかのアーチファクトが聞こえる可能性がある。

図５（３）および図５（４）は、この問題を示している。

図５（３）は、安定したマルチピッチ信号のフレームにおける重み付けされた自己相関およびその最大値を示している。ピッチラグ１９’’は、ピーク５４に対応して“２０”において正しく引き出される。

図５（４）は、後続のフレームの同じものを示している。

この場合、最初の３つのピーク５４’、５４’’、および５４’’’は、非常に近い振幅を有する。したがって、２つの連続するフレーム間の非常にわずかな変化でも、全域的最大値および推定ピッチラグを著しく変化させる可能性がある。

本発明で採用された解決策は、これらの不安定性の問題を解決する。

本解決策は、フレーム内のピークに関連付けられたピッチラグの他に、前のフレームのピッチラグに近いピッチラグを選択する。

たとえば、図５（３）は前のフレームに対応し、図５（４）は現在のフレームに対応する。我々は、現在のフレーム内で、２０前後のピッチラグ（すなわち、前のフレームのピッチラグ１９’’またはＴ_ｐｒｅｖ）を選択し、第１推定器１１によって与えられた４０のピッチラグは選択しないことが望ましいかどうかを検証しようとしている。

そうするために、前のフレームのピッチラグである、サブインターバル５２の周りで自己相関関数を最大化させる第２のピッチラグＴ_２を推定することにより（Ｔ_ｐｒｅｖ－δ、Ｔ_ｐｒｅｖ＋δ）、（たとえば、第２推定器１２によって）第２推定が実行される。図５（４）の場合、この第２のピッチラグＴ_２は２０である（第１のピッチラグは４０である）。（この場合にＴ_２＝Ｔ_ｐｒｅｖであっても、これは生成規則ではない。一般に、Ｔ_ｐｒｅｖ－δ≦Ｔ_２≦Ｔ_ｐｒｅｖ＋δである）。とりわけ、例では、Ｔ_２を推定するために、自己相関は重み付けされない。

しかしながら、すべてのケースでこの第２のピッチラグＴ_２を選択したくはない。いくつかの基準に基づいて、第１のピッチラグＴ_１または第２のピッチラグＴ_２のいずれかを選択したい。この基準は、たとえばセレクタ１７によって測定された、正規化相関（ＮＣ）に基づいており、これは一般に、何らかの特定のピッチラグでの信号がどのくらい周期的かの優れた尺度と見なされる（０のＮＣは全く周期的でないことを意味し、１のＮＣは完全に周期的であることを意味する）。

次に、いくつかのケースがある。

第２推定値Ｔ_２のＮＣが第１推定値Ｔ_１のＮＣよりも高い場合：第２推定値Ｔ_２の方が優れたＮＣを有し（前のフレームのピッチと現在のフレームのピッチは非常に近い）、安定した判断を行うので、第１推定値Ｔ_１よりも第２推定値Ｔ_２の方が優れていると確信することができ、したがって安全にこれを選択することができる。

第２推定値Ｔ_２のＮＣが第１推定値のＮＣよりもはるかに低い場合：これは、前のフレームのピッチ１９’’が現在のフレームのいずれの周期性にも対応せず、信号は不安定であり、ピッチは変化していることを示しており、したがって、前のフレームのピッチ１９’’を維持することも安定した判断を行おうとすることも、意味をなさない。その場合、第２推定値Ｔ_２は無視され、第１推定値Ｔ_１が選択される。

第２推定値Ｔ_２のＮＣが第１推定値Ｔ_１のＮＣよりもわずかに低い場合：両方の推定値Ｔ_１およびＴ_２のＮＣは近く、その場合、ＮＣがわずかに劣っていても、安定した判断を生み出す推定値（すなわち、第２推定値Ｔ_２）を選びたい。これにより、ＮＣがわずかに劣っていても第２推定値Ｔ_２を選択できるようにする。その場合、パラメータα（α＜１）が使用される。このパラメータαの調整によって、第１推定値Ｔ_１または第２推定値Ｔ_２に向けて選択を偏らせることができるようになる。値が低いほど、第２推定値がより頻繁に選択される（＝判断がより安定する）ことを意味する。０．８５（または０．８から０．９の間の値）は、適切なトレードオフである。これにより、判断がＬＴＰＦにとって十分に安定するように、十分な頻度で第２推定値Ｔ_２を選択する。

第１推定（第２推定および選択）に加えて提供される追加のステップは、複雑度が非常に低い。したがって、提案される発明の複雑度は低い。

６．エンコード／デコードシステムの例
図６は、エンコード／デコードの動作に関するブロックスキームを示す。スキームは、（装置１０を備え得る）エンコーダ６０ａおよびデコーダ６０ｂを備えるシステム６０を示す。エンコーダ６０ａは、（オーディオ信号であってもよい、および／または現在のフレーム１３と前のフレームなどのフレーム間で分割され得る）入力情報信号６１を取得し、ビットストリーム６３を準備する。デコーダ６０ｂは、出力信号６８（たとえば、オーディオ信号）を生成するために（たとえばＢｌｕｅｔｏｏｔｈを使用するなど、たとえば無線で）ビットストリーム６３を取得する。

エンコーダ６０ａは、変換コーダ６２を使用して、情報信号６１の周波数領域表現６３ａ（またはその処理済みバージョン）を生成し、これをビットストリーム６３でデコーダ６０ｂに提供し得る。デコーダ６０ｂは、出力信号６４ａを取得するための変換デコーダを備え得る。

エンコーダ６０ａは、検出ユニット６５を使用して、デコーダ６０ｂでＬＴＰＦを実行するのに有用なデータを生成し得る。これらのデータは、ピッチラグ推定値（たとえば、１９）および／または利得情報を備えてもよい。これらのデータは、制御フィールド内のデータ６３ｂとして、ビットストリーム６３にエンコードされ得る。（ピッチラグの最終推定値１９を備え得る）データ６３ｂは、（いくつかの例ではデータ６３ｂをエンコードするか否かを判断し得る）ＬＴＰＦコーダ６６によって準備され得る。これらのデータは、出力信号６８を取得するために変換デコーダ６４からの出力信号６４ａにこれらを適用し得るＬＴＰＦデコーダ６７によって使用されてもよい。

７．たとえばＬＴＰＦの例
７．１エンコーダでのパラメータ（たとえば、ＬＴＰＦパラメータ）
ＬＴＰＦパラメータ（または別のタイプのパラメータ）の計算の例が、ここに提供される。

ＬＴＰＦの情報を準備する例が、次のサブセクションに提供される。

７．２．１．再サンプリン

（オプションの）再サンプリング手法の例が、ここで論じられる（他の手法が使用されてもよい）。

サンプリングレート

の入力信号は、１２．８ｋＨｚの固定サンプリングレートに再サンプリングされ得る。再サンプリングは、以下のように定式化され得るアップサンプリング＋ローパスフィルタリング＋ダウンサンプリングアプローチを使用して実行される。

ここで、

は（整数に切り捨てられた）トラック値を示し、

は入力信号であり、

は１２．８ｋＨｚで再サンプリングされた信号であり、

はアップサンプリング係数であり、

は以下によって与えられるＦＩＲローパスフィルタのインパルス応答である。

ｔａｂ＿ｒｅｓａｍｐ＿ｆｉｌｔｅｒの例が、以下の表に示される。

double tab_resamp_filter[239] = {
-2.043055832879108e-05, -4.463458936757081e-05, -7.163663994481459e-05,
-1.001011132655914e-04, -1.283728480660395e-04, -1.545438297704662e-04,
-1.765445671257668e-04, -1.922569599584802e-04, -1.996438192500382e-04,
-1.968886856400547e-04, -1.825383318834690e-04, -1.556394266046803e-04,
-1.158603651792638e-04, -6.358930335348977e-05, +2.810064795067786e-19,
+7.292180213001337e-05, +1.523970757644272e-04, +2.349207769898906e-04,
+3.163786496265269e-04, +3.922117380894736e-04, +4.576238491064392e-04,
+5.078242936704864e-04, +5.382955231045915e-04, +5.450729176175875e-04,
+5.250221548270982e-04, +4.760984242947349e-04, +3.975713799264791e-04,
+2.902002172907180e-04, +1.563446669975615e-04, -5.818801416923580e-19,
-1.732527127898052e-04, -3.563859653300760e-04, -5.411552308801147e-04,
-7.184140229675020e-04, -8.785052315963854e-04, -1.011714513697282e-03,
-1.108767055632304e-03, -1.161345220483996e-03, -1.162601694464620e-03,
-1.107640974148221e-03, -9.939415631563015e-04, -8.216921898513225e-04,
-5.940177657925908e-04, -3.170746535382728e-04, +9.746950818779534e-19,
+3.452937604228947e-04, +7.044808705458705e-04, +1.061334465662964e-03,
+1.398374734488549e-03, +1.697630799350524e-03, +1.941486748731660e-03,
+2.113575906669355e-03, +2.199682452179964e-03, +2.188606246517629e-03,
+2.072945458973295e-03, +1.849752491313908e-03, +1.521021876908738e-03,
+1.093974255016849e-03, +5.811080624426164e-04, -1.422482656398999e-18,
-6.271537303228204e-04, -1.274251404913447e-03, -1.912238389850182e-03,
-2.510269249380764e-03, -3.037038298629825e-03, -3.462226871101535e-03,
-3.758006719596473e-03, -3.900532466948409e-03, -3.871352309895838e-03,
-3.658665583679722e-03, -3.258358512646846e-03, -2.674755551508349e-03,
-1.921033054368456e-03, -1.019254326838640e-03, +1.869623690895593e-18,
+1.098415446732263e-03, +2.231131973532823e-03, +3.348309272768835e-03,
+4.397022774386510e-03, +5.323426722644900e-03, +6.075105310368700e-03,
+6.603520247552113e-03, +6.866453987193027e-03, +6.830342695906946e-03,
+6.472392343549424e-03, +5.782375213956374e-03, +4.764012726389739e-03,
+3.435863514113467e-03, +1.831652835406657e-03, -2.251898372838663e-18,
-1.996476188279370e-03, -4.082668858919100e-03, -6.173080374929424e-03,
-8.174448945974208e-03, -9.988823864332691e-03, -1.151698705819990e-02,
-1.266210056063963e-02, -1.333344579518481e-02, -1.345011199343934e-02,
-1.294448809639154e-02, -1.176541543002924e-02, -9.880867320401294e-03,
-7.280036402392082e-03, -3.974730209151807e-03, +2.509617777250391e-18,
+4.586044219717467e-03, +9.703248998383679e-03, +1.525124770818010e-02,
+2.111205854013017e-02, +2.715337236094137e-02, +3.323242450843114e-02,
+3.920032029020130e-02, +4.490666443426786e-02, +5.020433088017846e-02,
+5.495420172681558e-02, +5.902970324375908e-02, +6.232097270672976e-02,
+6.473850225260731e-02, +6.621612450840858e-02, +6.671322871619612e-02,
+6.621612450840858e-02, +6.473850225260731e-02, +6.232097270672976e-02,
+5.902970324375908e-02, +5.495420172681558e-02, +5.020433088017846e-02,
+4.490666443426786e-02, +3.920032029020130e-02, +3.323242450843114e-02,
+2.715337236094137e-02, +2.111205854013017e-02, +1.525124770818010e-02,
+9.703248998383679e-03, +4.586044219717467e-03, +2.509617777250391e-18,
-3.974730209151807e-03, -7.280036402392082e-03, -9.880867320401294e-03,
-1.176541543002924e-02, -1.294448809639154e-02, -1.345011199343934e-02,
-1.333344579518481e-02, -1.266210056063963e-02, -1.151698705819990e-02,
-9.988823864332691e-03, -8.174448945974208e-03, -6.173080374929424e-03,
-4.082668858919100e-03, -1.996476188279370e-03, -2.251898372838663e-18,
+1.831652835406657e-03, +3.435863514113467e-03, +4.764012726389739e-03,
+5.782375213956374e-03, +6.472392343549424e-03, +6.830342695906946e-03,
+6.866453987193027e-03, +6.603520247552113e-03, +6.075105310368700e-03,
+5.323426722644900e-03, +4.397022774386510e-03, +3.348309272768835e-03,
+2.231131973532823e-03, +1.098415446732263e-03, +1.869623690895593e-18,
-1.019254326838640e-03, -1.921033054368456e-03, -2.674755551508349e-03,
-3.258358512646846e-03, -3.658665583679722e-03, -3.871352309895838e-03,
-3.900532466948409e-03, -3.758006719596473e-03, -3.462226871101535e-03,
-3.037038298629825e-03, -2.510269249380764e-03, -1.912238389850182e-03,
-1.274251404913447e-03, -6.271537303228204e-04, -1.422482656398999e-18,
+5.811080624426164e-04, +1.093974255016849e-03, +1.521021876908738e-03,
+1.849752491313908e-03, +2.072945458973295e-03, +2.188606246517629e-03,
+2.199682452179964e-03, +2.113575906669355e-03, +1.941486748731660e-03,
+1.697630799350524e-03, +1.398374734488549e-03, +1.061334465662964e-03,
+7.044808705458705e-04, +3.452937604228947e-04, +9.746950818779534e-19,
-3.170746535382728e-04, -5.940177657925908e-04, -8.216921898513225e-04,
-9.939415631563015e-04, -1.107640974148221e-03, -1.162601694464620e-03,
-1.161345220483996e-03, -1.108767055632304e-03, -1.011714513697282e-03,
-8.785052315963854e-04, -7.184140229675020e-04, -5.411552308801147e-04,
-3.563859653300760e-04, -1.732527127898052e-04, -5.818801416923580e-19,
+1.563446669975615e-04, +2.902002172907180e-04, +3.975713799264791e-04,
+4.760984242947349e-04, +5.250221548270982e-04, +5.450729176175875e-04,
+5.382955231045915e-04, +5.078242936704864e-04, +4.576238491064392e-04,
+3.922117380894736e-04, +3.163786496265269e-04, +2.349207769898906e-04,
+1.523970757644272e-04, +7.292180213001337e-05, +2.810064795067786e-19,
-6.358930335348977e-05, -1.158603651792638e-04, -1.556394266046803e-04,
-1.825383318834690e-04, -1.968886856400547e-04, -1.996438192500382e-04,
-1.922569599584802e-04, -1.765445671257668e-04, -1.545438297704662e-04,
-1.283728480660395e-04, -1.001011132655914e-04, -7.163663994481459e-05,
-4.463458936757081e-05, -2.043055832879108e-05};

７．２．２．ハイパスフィルタリン
（オプションの）ハイパスフィルタ手法の例が、ここで論じられる（他の手法が使用されてもよい）。

再サンプリングされた信号は、伝達関数が以下のようになる２次ＩＩＲフィルタを使用して、ハイパスフィルタリングされ得る。

７．２．３．ピッチ検出
ピッチ検出手法の例が、ここで論じられる（他の手法が使用されてもよい）。

信号

は、以下を用いて２の倍数によって（オプションで）ダウンサンプリングされ得る。

ここで、

＝｛０．１２３６７９６４１１１８０５３７、０．２３５３５１２１２８３６４８８９、０．２８１９３８２９２０９０９１４８、０．２３５３５１２１２８３６４８８９、０．１２３６７９６４１１１８０５３７｝。

の自己相関は、

によって計算でき、ここで

および

は、第１サブインターバルを定義する最小ラグおよび最大ラグである（

および

には他の値が提供されてもよい）。

自己相関は、

を使用して重み付けされてもよく、ここで

は以下のように定義される。

ピッチラグ

の第１推定値１４は、以下のように重み付けされた自己相関を最大化させるラグであり得る。

ピッチラグ

の第２推定値１６は、以下のように前のフレームで推定されたピッチラグ（１９’’）の近傍の重み付けされていない自己相関を最大化させるラグであり得る。

ここで

、

、および

は前のフレームで推定された最終ピッチラグ（したがって前に選択されたピッチラグによって条件付けられたその選択）である。

次に、現在のフレーム１３のピッチラグの最終推定値１９は

によって与えられ、ここで

は、ラグ

での長さ

の信号

の正規化相関である。

各正規化相関２３または２５は、信号第１または第２測定器２１または２２によって得られた測定値のうちの少なくとも１つであり得る。

７．２．４．ＬＴＰＦビットストリーム
いくつかの例では、ＬＴＰＦビットストリームの最初のビットは、ビットストリーム内のピッチラグパラメータの存在を通知する。これは以下によって得られる。

（０．６の代わりに、たとえば０．４から０．８、０．５から０．７、または０．５５から０．６５の間など、異なる閾値が使用され得る。）
ｐｉｔｃｈ＿ｐｒｅｓｅｎｔが０の場合、これ以上のビットはエンコードされず、１ビットのみのＬＴＰＦビットストリームになる。

ｐｉｔｃｈ＿ｐｒｅｓｅｎｔが１の場合、もう２つのパラメータがエンコードされ、１つのピッチラグパラメータは９ビットでエンコードされ、１ビットはＬＴＰＦのアクティブ化を通知する。その場合、ＬＴＰＦビットストリームは１１ビットで構成される。

７．２．５．ＬＴＰＦピッチラグパラメータ
ＬＴＰＦピッチラグパラメータを取得する例が、ここで論じられる（他の手法が使用されてもよい）。

ＬＴＰＦピッチラグパラメータの整数部分は

によって与えられ、ここで

および

、

である。

次に、ＬＴＰＦピッチラグの小数部分は

によって与えられ、ここで

であり、

は

で与えられるＦＩＲローパスフィルタのインパルス応答であり、

はたとえば、

double tab_ltpf_interp_R[31] = {
-2.874561161519444e-03, -3.001251025861499e-03, +2.745471654059321e-03
+1.535727698935322e-02, +2.868234046665657e-02, +2.950385026557377e-02
+4.598334491135473e-03, -4.729632459043440e-02, -1.058359163062837e-01
-1.303050213607112e-01, -7.544046357555201e-02, +8.357885725250529e-02
+3.301825710764459e-01, +6.032970076366158e-01, +8.174886856243178e-01
+8.986382851273982e-01, +8.174886856243178e-01, +6.032970076366158e-01
+3.301825710764459e-01, +8.357885725250529e-02, -7.544046357555201e-02
-1.303050213607112e-01, -1.058359163062837e-01, -4.729632459043440e-02
+4.598334491135473e-03, +2.950385026557377e-02, +2.868234046665657e-02
+1.535727698935322e-02, +2.745471654059321e-03, -3.001251025861499e-03
-2.874561161519444e-03};

の場合には、

および

の両方とも

にしたがって修正される。

最後に、ピッチラグパラメータインデックスは、

によって与えられる。

７．２．６．ＬＴＰＦアクティブ化ビット
正規化相関は、最初に以下のように計算される。

ここで

そして

は

で与えられるＦＩＲローパスフィルタのインパルス応答であり、ここで

は以下によって与えられる。

double tab_ltpf_interp_x12k8[15] = {
+6.698858366939680e-03, +3.967114782344967e-02, +1.069991860896389e-01
+2.098804630681809e-01, +3.356906254147840e-01, +4.592209296082350e-01
+5.500750019177116e-01, +5.835275754221211e-01, +5.500750019177116e-01
+4.592209296082350e-01, +3.356906254147840e-01, +2.098804630681809e-01
+1.069991860896389e-01, +3.967114782344967e-02, +6.698858366939680e-03};

次に、ＬＴＰＦアクティブ化ビットが以下のように設定される。
if
（ｍｅｍ＿ｌｔｐｆ＿ａｃｔｉｖｅ＝＝０＆＆ｍｅｍ＿ｎｃ＞０．９４＆＆ｎｃ＞０．９４）｜
（ｍｅｍ＿ｌｔｐｆ＿ａｃｔｉｖｅ＝＝１＆＆ｎｃ＞０．９）｜
（ｍｅｍ＿ｌｔｐｆ＿ａｃｔｉｖｅ＝＝１＆＆ａｂｓ（ｐｉｔｃｈ－ｍｅｍ＿ｐｉｔｃｈ）＜２＆＆（ｎｃ－ｍｅｍ＿ｎｃ）＞－０．１＆＆ｎｃ＞０．８４）
）
｛
ｌｔｐｆ＿ａｃｔｉｖｅ＝１；
｝
ｅｌｓｅ
｛
ｌｔｐｆ＿ａｃｔｉｖｅ＝０；
｝

ここで、ｍｅｍ＿ｌｔｐｆ＿ａｃｔｉｖｅは前のフレームのｌｔｐｆ＿ａｃｔｉｖｅの値（前のフレームでｐｉｔｃｈ＿ｐｒｅｓｅｎｔ＝０の場合は０）、ｍｅｍ＿ｎｃは前のフレームのｎｃの値（前のフレームでｐｉｔｃｈ＿ｐｒｅｓｅｎｔ＝０の場合は０）、ｐｉｔｃｈ＝ｐｉｔｃｈ＿ｉｎｔ＋ｐｉｔｃｈ＿ｆｒ／４およびｍｅｍ＿ｐｉｔｃｈは前のフレームのピッチの値（前のフレームでｐｉｔｃｈ＿ｐｒｅｓｅｎｔ＝０の場合は０）である。

７．３デコーダでのＬＴＰＦ
たとえば、ＭＤＣＴ（変形離散コサイン変換）合成、ＭＤＳＴ（変形離散サイン変換）合成、または別の変換に基づく合成の後の、周波数領域（ＦＤ）内のデコード済み信号は、そのパラメータがＬＴＰＦビットストリームデータ「ｐｉｔｃｈ＿ｉｎｄｅｘ」および「ｌｔｐｆ＿ａｃｔｉｖｅ」に依存し得るＩＩＲフィルタを使用して、時間領域内でポストフィルタリングされ得る。パラメータがフレーム間で変化するときの不連続性を回避するために、現在のフレームの最初の４分の１に対して遷移メカニズムが適用され得る。

例では、

を使用してＬＴＰＦＩＩＲフィルタが実装されてもよく、ここで

はフィルタ入力信号（すなわち、ＭＤＣＴ合成後のデコード済み信号）であり、

はフィルタ出力信号である。

ＬＴＰＦピッチラグの整数部分

および小数部分

は、以下のように計算され得る。まず、１２．８ｋＨｚでのピッチラグが、

を使用して引き出される。

次に、ピッチラグは出力サンプリングレート

に合わせてスケーリングされ、

を使用して整数部分および小数部分に変換されてもよく、ここで

はサンプリングレートである。

フィルタ係数

および

は、以下のように計算され得る。

ここで

そして

および

は以下にしたがって取得され得る。

fs_idx = min(4,(

/8000-1));
if (nbits < 320 + fs_idx*80)
{
gain_ltpf = 0.4;
gain_ind = 0;
}
else if (nbits < 400 + fs_idx*80)
{
gain_ltpf = 0.35;
gain_ind = 1;
}
else if (nbits < 480 + fs_idx*80)
{
gain_ltpf = 0.3;
gain_ind = 2;
}
else if (nbits < 560 + fs_idx*80)
{
gain_ltpf = 0.25;
gain_ind = 3;
}
else
{
gain_ltpf = 0;
}

そして表「

」および「

」はあらかじめ決定されている。
「

」の例がここに提供される（「ｆｓ」の代わりに、サンプリングレートが示されている）。

double tab_ltpf_num_8000[4][3] = {
{6.023618207009578e-01,4.197609261363617e-01,-1.883424527883687e-02},
{5.994768582584314e-01,4.197609261363620e-01,-1.594928283631041e-02},
{5.967764663733787e-01,4.197609261363617e-01,-1.324889095125780e-02},
{5.942410120098895e-01,4.197609261363618e-01,-1.071343658776831e-02}};

double tab_ltpf_num_16000[4][3] = {
{6.023618207009578e-01,4.197609261363617e-01,-1.883424527883687e-02},
{5.994768582584314e-01,4.197609261363620e-01,-1.594928283631041e-02},
{5.967764663733787e-01,4.197609261363617e-01,-1.324889095125780e-02},
{5.942410120098895e-01,4.197609261363618e-01,-1.071343658776831e-02}};

double tab_ltpf_num_24000[4][5] = {
{3.989695588963494e-01,5.142508607708275e-01,1.004382966157454e-01,-1.278893956818042e-02,-1.572280075461383e-03},
{3.948634911286333e-01,5.123819208048688e-01,1.043194926386267e-01,-1.091999960222166e-02,-1.347408330627317e-03},
{3.909844475885914e-01,5.106053522688359e-01,1.079832524685944e-01,-9.143431066188848e-03,-1.132124620551895e-03},
{3.873093888199928e-01,5.089122083363975e-01,1.114517380217371e-01,-7.450287133750717e-03,-9.255514050963111e-04}};

double tab_ltpf_num_32000[4][7] = {
{2.982379446702096e-01,4.652809203721290e-01,2.105997428614279e-01,3.766780380806063e-02,-1.015696155796564e-02,-2.535880996101096e-03,-3.182946168719958e-04},
{2.943834154510240e-01,4.619294002718798e-01,2.129465770091844e-01,4.066175002688857e-02,-8.693272297010050e-03,-2.178307114679820e-03,-2.742888063983188e-04},
{2.907439213122688e-01,4.587461910960279e-01,2.151456974108970e-01,4.350104772529774e-02,-7.295495347716925e-03,-1.834395637237086e-03,-2.316920186482416e-04},
{2.872975852589158e-01,4.557148886861379e-01,2.172126950911401e-01,4.620088878229615e-02,-5.957463802125952e-03,-1.502934284345198e-03,-1.903851911308866e-04}};

double tab_ltpf_num_48000[4][11] = {
{1.981363739883217e-01,3.524494903964904e-01,2.513695269649414e-01,1.424146237314458e-01,5.704731023952599e-02,9.293366241586384e-03,-7.226025368953745e-03,-3.172679890356356e-03,-1.121835963567014e-03,-2.902957238400140e-04,-4.270815593769240e-05},
{1.950709426598375e-01,3.484660408341632e-01,2.509988459466574e-01,1.441167412482088e-01,5.928947317677285e-02,1.108923827452231e-02,-6.192908108653504e-03,-2.726705509251737e-03,-9.667125826217151e-04,-2.508100923165204e-04,-3.699938766131869e-05},
{1.921810055196015e-01,3.446945561091513e-01,2.506220094626024e-01,1.457102447664837e-01,6.141132133664525e-02,1.279941396562798e-02,-5.203721087886321e-03,-2.297324511109085e-03,-8.165608133217555e-04,-2.123855748277408e-04,-3.141271330981649e-05},
{1.894485314175868e-01,3.411139251108252e-01,2.502406876894361e-01,1.472065631098081e-01,6.342477229539051e-02,1.443203434150312e-02,-4.254449144657098e-03,-1.883081472613493e-03,-6.709619060722140e-04,-1.749363341966872e-04,-2.593864735284285e-05}};

の例がここに提供される（「ｆｓ」の代わりに、サンプリングレートが示されている）。

double_tab_ltpf_den_8000[4][5] = {
{0.000000000000000e+00, 2.098804630681809e-01, 5.835275754221211e-01, 2.098804630681809e-01, 0.000000000000000e+00},
{0.000000000000000e+00, 1.069991860896389e-01, 5.500750019177116e-01, 3.356906254147840e-01, 6.698858366939680e-03},
{0.000000000000000e+00, 3.967114782344967e-02, 4.592209296082350e-01, 4.592209296082350e-01, 3.967114782344967e-02},
{0.000000000000000e+00, 6.698858366939680e-03, 3.356906254147840e-01, 5.500750019177116e-01, 1.069991860896389e-01}};

double_tab_ltpf_den_16000[4][5] = {
{0.000000000000000e+00, 2.098804630681809e-01, 5.835275754221211e-01, 2.098804630681809e-01, 0.000000000000000e+00},
{0.000000000000000e+00, 1.069991860896389e-01, 5.500750019177116e-01, 3.356906254147840e-01, 6.698858366939680e-03},
{0.000000000000000e+00, 3.967114782344967e-02, 4.592209296082350e-01, 4.592209296082350e-01, 3.967114782344967e-02},
{0.000000000000000e+00, 6.698858366939680e-03, 3.356906254147840e-01, 5.500750019177116e-01, 1.069991860896389e-01}};

double_tab_ltpf_den_24000[4][7] = {
{0.000000000000000e+00, 6.322231627323796e-02, 2.507309606013235e-01, 3.713909428901578e-01, 2.507309606013235e-01, 6.322231627323796e-02, 0.000000000000000e+00},
{0.000000000000000e+00, 3.459272174099855e-02, 1.986515602645028e-01, 3.626411726581452e-01, 2.986750548992179e-01, 1.013092873505928e-01, 4.263543712369752e-03},
{0.000000000000000e+00, 1.535746784963907e-02, 1.474344878058222e-01, 3.374259553990717e-01, 3.374259553990717e-01, 1.474344878058222e-01, 1.535746784963907e-02},
{0.000000000000000e+00, 4.263543712369752e-03, 1.013092873505928e-01, 2.986750548992179e-01, 3.626411726581452e-01, 1.986515602645028e-01, 3.459272174099855e-02}};

double_tab_ltpf_den_32000[4][9] = {
{0.000000000000000e+00, 2.900401878228730e-02, 1.129857420560927e-01, 2.212024028097570e-01, 2.723909472446145e-01, 2.212024028097570e-01, 1.129857420560927e-01, 2.900401878228730e-02, 0.000000000000000e+00},
{0.000000000000000e+00, 1.703153418385261e-02, 8.722503785537784e-02, 1.961407762232199e-01, 2.689237982237257e-01, 2.424999102756389e-01, 1.405773364650031e-01, 4.474877169485788e-02, 3.127030243100724e-03},
{0.000000000000000e+00, 8.563673748488349e-03, 6.426222944493845e-02, 1.687676705918012e-01, 2.587445937795505e-01, 2.587445937795505e-01, 1.687676705918012e-01, 6.426222944493845e-02, 8.563673748488349e-03},
{0.000000000000000e+00, 3.127030243100724e-03, 4.474877169485788e-02, 1.405773364650031e-01, 2.424999102756389e-01, 2.689237982237257e-01, 1.961407762232199e-01, 8.722503785537784e-02, 1.703153418385261e-02}};

double_tab_ltpf_den_48000[4][13] = {
{0.000000000000000e+00, 1.082359386659387e-02, 3.608969221303979e-02, 7.676401468099964e-02, 1.241530577501703e-01, 1.627596438300696e-01, 1.776771417779109e-01, 1.627596438300696e-01, 1.241530577501703e-01, 7.676401468099964e-02, 3.608969221303979e-02, 1.082359386659387e-02, 0.000000000000000e+00},
{0.000000000000000e+00, 7.041404930459358e-03, 2.819702319820420e-02, 6.547044935127551e-02, 1.124647986743299e-01, 1.548418956489015e-01, 1.767122381341857e-01, 1.691507213057663e-01, 1.352901577989766e-01, 8.851425011427483e-02, 4.499353848562444e-02, 1.557613714732002e-02, 2.039721956502016e-03},
{0.000000000000000e+00, 4.146998467444788e-03, 2.135757310741917e-02, 5.482735584552816e-02, 1.004971444643720e-01, 1.456060342830002e-01, 1.738439838565869e-01, 1.738439838565869e-01, 1.456060342830002e-01, 1.004971444643720e-01, 5.482735584552816e-02, 2.135757310741917e-02, 4.146998467444788e-03},
{0.000000000000000e+00, 2.039721956502016e-03, 1.557613714732002e-02, 4.499353848562444e-02, 8.851425011427483e-02, 1.352901577989766e-01, 1.691507213057663e-01, 1.767122381341857e-01, 1.548418956489015e-01, 1.124647986743299e-01, 6.547044935127551e-02, 2.819702319820420e-02, 7.041404930459358e-03}}

遷移処理を参照して、５つの異なるケースが検討される。

第１のケース：ｌｔｐｆ＿ａｃｔｉｖｅ＝０およびｍｅｍ＿ｌｔｐｆ＿ａｃｔｉｖｅ＝０

第２のケース：ｌｔｐｆ＿ａｃｔｉｖｅ＝１およびｍｅｍ＿ｌｔｐｆ＿ａｃｔｉｖｅ＝０

第３のケース：ｌｔｐｆ＿ａｃｔｉｖｅ＝０およびｍｅｍ＿ｌｔｐｆ＿ａｃｔｉｖｅ＝１

ここで、

、

、および

は、前のフレームで計算されたフィルタパラメータである。

第４のケース：ｌｔｐｆ＿ａｃｔｉｖｅ＝１およびｍｅｍ＿ｌｔｐｆ＿ａｃｔｉｖｅ＝１および

および

第５のケース：ｌｔｐｆ＿ａｃｔｉｖｅ＝１およびｍｅｍ＿ｌｔｐｆ＿ａｃｔｉｖｅ＝１および（

または

）

ここで、Ｎ_ｆは１つのフレーム内のサンプル数である。

７．４さらなる利点
理解され得るように、上記の例による解決策は、デコーダに対して透過的である。たとえば、第１推定値または第２推定値が選択されたことをデコーダに通知する必要はない。

したがって、ビットストリーム６３においてペイロードは増加しない。

さらに、エンコーダで実行される新しいプロセスに適応するようにデコーダを修正する必要がない。デコーダは、本発明が実施されたことを知る必要がない。したがって、本発明は、レガシーシステムとの互換性を向上できるようにする。

８．パケット損失隠蔽
上記の装置１０、６０ａ、または１１０によって取得されたピッチラグＴ_ｂｅｓｔ（１９）は、デコーダ（たとえば、６０ｂ）において、パケット損失隠蔽（ＰＬＣ）（エラー隠蔽としても知られる）を実施するために使用され得る。ＰＬＣは、エンコーダからデコーダへの送信中に消失または破損パケットを隠蔽するためにオーディオコーデックで使用される。従来技術では、ＰＬＣは、デコーダ側で実行され、変換領域または時間領域のいずれかでデコード済み信号を外挿し得る。

ピッチラグは、ピッチベースのＰＬＣで使用される主要なパラメータであり得る。このパラメータは、エンコーダ側で推定されてビットストリームにエンコードされることが可能である。この場合、現在の消失フレームを隠蔽するために、最後の良好なフレームのピッチラグが使用される。

破損フレームは、正しい可聴出力を提供せず、破棄される。

デコーダにおける各デコード済みフレームについて、その有効性が検証され得る。たとえば、各フレームは、所定のアルゴリズムによって提供された所定の演算を実行することによって検証される巡回冗長コード（ＣＲＣ）を搬送するフィールドを有してもよい。この手順は、計算結果がＣＲＣフィールド上の値に対応するか否かを検証するために繰り返されてもよい。フレームが（たとえば送信における干渉の観点から）適切にデコードされていない場合、いくつかのエラーがフレームに影響を及ぼしたと想定される。したがって、検証によって不正なデコードの結果が提供された場合、フレームは不適切にデコードされた状態で保持される（無効、破壊）。

フレームが不適切にデコードされたと確認されると、可聴出力を提供するために隠蔽戦略が使用され得る。そうでなければ、迷惑な可聴穴のようなものが聞こえる可能性がある。したがって、不適切にデコードされたフレームによって開かれたままの「ギャップを満たす」何らかの形態のフレームを見つける必要がある。フレーム損失隠蔽手順の目的は、デコードのために利用不可または破損したいずれのフレームの影響も隠蔽することである。

８．１隠蔽のための戦略
フレーム損失隠蔽手順は、様々な信号タイプのための隠蔽方法を備え得る。フレーム損失を有するエラーが発生しやすい状況での最良の可能なコーデック性能は、最も適切な方法を選択することで得られる。パケット損失隠蔽方法の１つは、たとえば、ＴＣＸ時間領域隠蔽であろう。

８．２ＴＣＸ時間領域隠蔽
ＴＣＸ時間領域隠蔽方法は、時間領域で動作するピッチベースのＰＬＣ手法である。これは、支配的な調波構造を有する信号に最も適している。手順の例は、以下の通りである。セクション８．２．２．で説明された周期信号を取得するために、セクション８．２．１で説明されたＬＰフィルタを用いて最後にデコードされたフレームの合成信号が逆フィルタリングされる。ランダム信号は、セクション８．２．３．でほぼ均一な分布でランダムジェネレータによって生成される。セクション８．２．４．で説明されたように全励起信号を形成するために２つの励起信号が加算され、これはセクション８．２．６．で説明された減衰率で適応的にフェードアウトし、最終的に、合成および隠蔽された時間信号を取得するためにＬＰフィルタでフィルタリングされる。ＬＴＰＦが最後の良好なフレームで使用された場合、ＬＴＰＦは、セクション８．３で説明されたように、合成および隠蔽された時間信号にも適用され得る。消失フレームの後の最初の良好なフレームとの適切な重複を得るために、セクション８．２．５．で時間領域エイリアスキャンセル信号が生成される。

８．２．１ＬＰＣパラメータ計算
ＴＣＸ時間領域隠蔽方法は、励起領域で動作している。自己相関関数は、８０の等距離周波数領域帯域で計算され得る。エネルギーは、固定プリエンファシス係数

でプリエンファシスされる

自己相関関数は、逆に均等にスタックされたＤＦＴを使用して時間領域に変換される前に、以下のウィンドウを使用してラグウィンドウ化される。

最後に、隠蔽されたフレームのＬＰフィルタ

を取得するために、レビンソン・ダービン演算が使用される。以下に例を示す。

ＬＰフィルタは、良好なフレームの後の最初の消失フレーム内でのみ計算され、
その後消失したフレーム内に残る。

８．２．２励起の周期的部分の構造
最後の

個のデコードされた時間サンプルは、信号

を取得するために、フィルタ

を使用してセクション８．２．１からプリエンファシス係数で最初にプリエンファシスされ、ここで

はピッチラグ値

、または

の場合

である。値

および

は、ビットストリームで送信されたピッチラグ値である。

プリエンファシスされた信号

は、前の励起信号

を取得するために、計算された逆ＬＰフィルタでさらにフィルタリングされる。現在の消失フレームの励起信号

を構成するために、

は以下のように

を用いて繰り返し複製され、

ここで

は

における最後のサンプルに対応する。安定係数

が１未満の場合、

の最初のピッチサイクルは、以下の表に記載されている１１タップ線形位相ＦＩＲ（有限インパルス応答）フィルタを用いて最初にローパスフィルタリングされる

ピッチの利得

は、以下のように計算され得る。

の場合、

である。そうでなければ、ピッチの第２利得

は、以下のように計算され得る。

および

。

の場合には、

はさらなる処理のために１だけ減少する。
最後に、

が

によって制限される。

形成された周期的励起

は、

を取得するために、１から始まって減衰率

で終わるフレーム全体を通じてサンプルごとに減衰する。ピッチの利得は、良好なフレームの後の最初の消失フレームでのみ計算され、さらに連続するフレーム損失については

に設定される。

８．２．３励起のランダム部分の構造
励起のランダム部分は、以下のようにほぼ均一な分布でランダムジェネレータを用いて生成され得る。

ここで、

はこの方法で隠蔽された全く最初のフレームについて２４６０７で初期化され、

は値の１６ＬＳＢを抽出する。さらなるフレームでは、

が記憶され、次の

として使用される。

ノイズをより高い周波数にさらにシフトするために、励起信号は、

を取得するために以下の表に記載される１１タップ線形位相ＦＩＲフィルタでハイパスフィルタリングされる

ノイズが減衰率

に依存するフェージング速度で全帯域ノイズにフェードアウトし得ることを保証するために、

は全帯域

とハイパスフィルタリングされたバージョン

との間の線形補間を介して以下のように構成される。

ここで、

は良好なフレームの後の最初の消失フレームのものであり、

は２番目およびさらに連続するフレーム損失のものであり、ここで

は前の隠蔽されたフレームの

である。

ノイズレベルを調整するために、ノイズの利得

は以下のように計算される。

セクション８．２．２の後に

の場合には、

である。そうでなければ、ノイズの第２の利得

は、上記の式のように計算されるが、

は

である。以下、

である。

さらなる処理では、

を取得するために、

は最初に正規化され、次に

で乗算される。

形成されたランダム励起

は、

を取得するために、最初のサンプルからサンプル５まで、続いてサンプルごとに、

から始まって

で終わるまでフレーム全体にわたって、

で均一に減衰する。ノイズの利得

は、良好なフレームの後の最初の消失フレームでのみ計算され、さらに連続するフレーム損失については

に設定される。

８．２．４全励起、合成、および後処理の構造
ランダム励起

は、全励起信号

を形成するために周期的励起

に追加される。隠蔽されたフレームの最終的な合成信号は、セクション８．２．１からのＬＰフィルタで全励起をフィルタリングすることによって取得され、ディエンファシスフィルタで後処理される。

８．２．５時間領域エイリアスキャンセル
次のフレームが良好なフレームである場合に適切な重畳加算を得るために、時間領域エイリアスキャンセル部分

が生成され得る。そのために、信号

を取得するため、上記と同じように

の追加サンプルが作成される。その上で、以下のステップによって時間領域エイリアスキャンセル部分が作成される。

合成された時間領域バッファ

をゼロで埋める

をＭＤＣＴウィンドウ

でウィンドウ化

２ＮからＮに再成形

Ｎから２Ｎに再成形

反転したＭＤＣＴ（変形離散コサイン変換）（または別の例ではＭＤＳＴ、変形離散サイン変換）ウィンドウ

で

をウィンドウ化

８．２．６複数のフレーム損失の処理
構成された信号は、ゼロにフェードアウトする。フェードアウト速度は、前の減衰率

に依存する減衰率

、最後に正しく受信したフレームで計算されたピッチの利得

、連続して削除されたフレームの数

、および安定性

によって制御される。減衰率

を計算するために、以下の手順が使用され得る。
if (

== 1)

=

if (

> 0.98)

= 0.98
else if (

< 0.925)

= 0.925
else if (

== 2)

= (0.63 + 0.35

)

if

< 0.919

= 0.919;
else if (

== 3)

= (0.652 + 0.328

)

else if (

== 4)

= (0.674 + 0.3

)

else if (

== 5) {

= (0.696 + 0.266

)

else

= (0.725 + 0.225

)

=

係数

（最後の２つの隣接するスケール係数ベクトル

および

の安定性）は、たとえば以下のように取得され得る。

ここで、

および

は最後の２つの隣接するフレームのスケール係数ベクトルである。係数

は

によって制限され、

の値が大きいほど、より安定した信号に対応する。これにより、エネルギーおよびスペクトルエンベロープの変動を制限する。２つの隣接するスケール係数ベクトルが存在しない場合、係数

は０．８に設定される。

急激な高エネルギーの増加を防ぐために、スペクトルは

および

でローパスフィルタリングされる。

９．同じピッチラグ情報を用いるＬＴＰＦおよびＰＬＣ
図９は、デコーダ６０ｂを動作させるために使用され得る方法１００’の一般的な例を示す。ステップＳ１０１’で、信号のエンコードされたバージョンがデコードされ得る。例では、記憶ユニットからフレームが（たとえば、Ｂｌｕｅｔｏｏｔｈ接続を介して）受信および／または取得され得る。（上記で論じられたＴ_１とＴ_２との間で選択された）ピッチラグＴ_ｂｅｓｔは、ＰＬＣおよびＬＴＰＦの両方に使用され得る。

ステップＳ１０２’で、フレームの有効性がチェックされる（たとえば、ＣＲＣ、パリティなどで）。フレームの無効性が確認された場合、隠蔽が実行される（下記参照）。
そうではなく、フレームが有効のまま維持されている場合、ステップＳ１０３’で、ピッチ情報がフレーム内でエンコードされているか否かがチェックされる。いくつかの例では、ピッチ情報は、高調波が特定の閾値を超えていると確認された場合にのみエンコードされる（これはたとえば、ＬＴＰＦおよび／またはＰＬＣを実行するのに十分に高い高調波を示すことができる）。

Ｓ１０３’でピッチ情報が実際にエンコードされていると確認された場合には、ステップＳ１０４’でピッチ情報はデコードおよび記憶される。そうでなければ、サイクルは終了し、新しいフレームがＳ１０１’でデコードされ得る。

続いて、ステップＳ１０５’で、ＬＴＰＦがイネーブルされているか否かがチェックされる。ＬＴＰＦがイネーブルされていることが検証された場合には、ステップＳ１０６でＬＴＰＦが実行される。そうでなければ、ＬＴＰＦはスキップされ、サイクルは終了し、新しいフレームがＳ１０１’でデコードされ得る。

隠蔽を参照すると、後者はいくつかのステップに細分化され得る。ステップＳ１０７’で、前のフレームのピッチ情報（または前のフレームのうちの１つのピッチ情報）がメモリ内に記憶されている（すなわち、自由にできる）か否かが検証される。

検索したピッチ情報が記憶されていると検証された場合には、ステップＳ１０８でエラー隠蔽が実行され得る。信号スクランブリングを伴うＭＤＣＴ（またはＭＤＳＴ）フレーム解像度反復、および／またはＴＣＸ時間領域隠蔽、および／またはフェーズＥＣＵが実行され得る。

そうではなく、（たとえば、デコーダがピッチラグを送信しなかった結果として）新しいピッチ情報が記憶されていないことがＳ１０７’で検証された場合、ステップＳ１０９’で、それ自体既知であって、エンコーダによって提供されたピッチ情報の使用を暗示していない、異なる隠蔽手法が使用され得る。これらの手法のいくつかは、デコーダでのピッチ情報および／またはその他の高調波情報の推定に基づいてもよい。いくつかの例では、この場合、隠蔽手法は実行されなくてもよい。
隠蔽を実行した後、サイクルは終了し、新しいフレームがＳ１０１’でデコードされ得る。

なお、ＰＬＣによって使用されたピッチラグは、上記で論じられたように、推定値Ｔ_１とＴ_２との間の選択に基づいて、装置１０および／または６０ｂによって準備された値１９（ｔ_ｂｅｓｔ）であることに留意すべきである。

１０．その他の例
図７は、上記方法の少なくともいくつかのステップを実行する装置１０および／または６０ａを実装し得る装置１１０を示す。装置１１０は、プロセッサ１１１と、プロセッサ１１１によって実行されると、第１推定１１２ａ（たとえば、第１推定器１１を実装するためなど）、第２推定１１２ｂ（たとえば、第２推定器１２を実装するためなど）、および／または選択１１２ｃ（たとえば、セレクタ１８を実装するためなど）をプロセッサ１１１に実行させる命令（たとえば、プログラム）を記憶している非一時的メモリユニット１１２とを備え得る。装置１１０は、入力ユニット１１６を備えてもよく、これは入力情報信号（たとえば、オーディオ信号）を取得し得る。装置は、たとえば記憶空間１２８に、ビットストリームを記憶し得る。

図８は、たとえば、デコーダ６０ｂを実装し、および／またはＬＴＰＦフィルタリングを実行し得る、装置１２０を示す。装置１２０は、プロセッサ１２１と、プロセッサ１２１によって実行されると、たとえばエンコーダから取得したパラメータに基づいて、特にＬＴＰＦフィルタリング動作をプロセッサ１２１に実行させる命令１２２ａ（たとえば、プログラム）を記憶している非一時的メモリユニット１２２とを備え得る。装置１２０は、入力ユニット１２６を備えてもよく、これは情報信号（たとえば、オーディオ信号）のデコードされた表現を取得し得る。したがって、プロセッサ１２１は、情報信号のデコードされた表現を取得するためのプロセスを実行し得る。このデコードされた表現は、出力ユニット１２７を使用して外部ユニットに提供され得る。出力ユニット１２７は、たとえば、（たとえばＢｌｕｅｔｏｏｔｈなどの無線通信を使用して）外部デバイスおよび／または外部記憶空間と通信するための通信ユニットを備え得る。プロセッサ１２１は、オーディオ信号のデコードされた表現をローカル記憶空間１２８に保存し得る。

例では、システム１１０および１２０は同じデバイスであってもよい。

特定の実装要件に応じて、例はハードウェアに実装されてもよい。実装は、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働できる）電子的に読み取り可能な制御信号が記憶されたデジタル記憶媒体、たとえばフロッピーディスク、デジタル多用途ディスク（ＤＶＤ）、Ｂｌｕ－Ｒａｙディスク、コンパクトディスク（ＣＤ）、読み取り専用メモリ（ＲＯＭ）、プログラム可能な読み取り専用メモリ（ＰＲＯＭ）、消去可能でプログラム可能な読み取り専用メモリ（ＥＰＲＯＭ）、電気的消去可能でプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ）、またはフラッシュメモリを使用して実行され得る。したがって、デジタル記憶媒体はコンピュータ読み取り可能であり得る。

一般に、例は、プログラム命令を有するコンピュータプログラム製品として実装されてもよく、プログラム命令は、コンピュータプログラム製品がコンピュータ上で実行されたときに方法の１つを実行するように動作する。プログラム命令は、たとえば機械可読媒体上に記憶され得る。

別の例は、機械可読キャリアに記憶された、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを備える。言い換えると、方法の例は、コンピュータプログラム製品がコンピュータ上で実行されたときに本明細書に記載の方法の１つを実行するためのプログラム命令を有するコンピュータプログラムである。

したがって、方法のさらなる例は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを備え、該コンピュータプログラムを記録したデータキャリア媒体（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。データキャリア媒体、デジタル記憶媒体、または記録媒体は、無形で一時的な信号ではなく、有形および／または非一時的なものである。

さらなる例は、本明細書に記載の方法の１つを実行する処理ユニット、たとえばコンピュータ、またはプログラマブル論理デバイスを備える。

さらなる例は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを備える。

さらなる例は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを受信機に（たとえば、電子的または光学的に）転送する、装置またはシステムを備える。受信機は、たとえば、コンピュータ、モバイル機器、メモリデバイスなどであり得る。装置またはシステムは、たとえば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えてもよい。

いくつかの例では、本明細書に記載の方法の機能のうちの一部または全部を実行するために、プログラマブル論理デバイス（たとえば、フィールドプログラマブルゲートアレイ）が使用され得る。いくつかの例では、本明細書に記載の方法の１つを実行するために、フィールドプログラマブルゲートアレイがマイクロプロセッサと協働し得る。一般に、方法は、いずれの適切なハードウェア装置によって実行されてもよい。

上記の例は、上記で論じられた原理を例示するものである。本明細書に記載された配置および詳細の修正および変形が明らかであることは、理解される。したがって、本明細書の例の記載および説明によって表される特定の詳細によってではなく、差し迫った特許請求の範囲によって限定されることが意図される。

Claims

複数のフレームを含む情報信号をエンコードするための装置（１０、６０ａ、１１０）であって、前記装置は、
第１推定値（１４、Ｔ_１）を取得するように構成された第１推定器（１１）であって、前記第１推定値は現在のフレーム（１３）のピッチラグの推定値であり、前記第１推定値（１４）は前記現在のフレーム（１３）に関連付けられた第１相関関数を最大化させる前記ピッチラグ（Ｔ_１）として取得される、前記第１推定器と、
第２推定値（１６、Ｔ_２）を取得するように構成された第２推定器（１２）であって、前記第２推定値は前記現在のフレーム（１３）のピッチラグの別の推定値であり、前記第２推定器（１２）は、前記現在のフレーム（１３）の前記第２推定値（１６、Ｔ_２）を取得するように、前のフレームで選択された前記ピッチラグ（５１、１９”）によって条件付けられ、前記第２推定器（１２）は、前記前のフレームのために選択された前記ピッチラグ（５１、１９”）を含む第２サブインターバル（５２）内で第２相関関数を最大化させる前記ピッチラグを検索することによって前記第２推定値（１６、Ｔ_２）を取得するように構成されている、前記第２推定器（１２）と、
第１および第２相関測定値（２３、２５）に基づいて前記第１推定値（１４、Ｔ_１）と前記第２推定値（１６、Ｔ_２）との間の選択を実行することによって選択値（１９、Ｔ_ｂｅｓｔ）を選ぶ（Ｓ１０３）ように構成されたセレクタ（１７）であって、前記セレクタ（１７）は、
第２正規化自己相関測定値（２５）が第１正規化自己相関測定値（２３）のダウンスケールバージョン（２４）よりも小さいときに前記第１推定値（１４、Ｔ_１）を選択するように、および
前記第２正規化自己相関測定値（２５）が前記第１正規化自己相関測定値（２３）のダウンスケールバージョン（２４）よりも大きいときに前記第２推定値（１６、Ｔ_２）を選択するように、
前記現在のフレーム（１３）に関連付けられ、前記第１推定値（１４、Ｔ_１）に対応するピッチラグで取得された前記第１正規化自己相関測定値（２３）の前記ダウンスケールバージョン（２４）と、
前記現在のフレーム（１３）に関連付けられ、前記第２推定値（１６、Ｔ_２）に対応するピッチラグで取得された前記第２正規化自己相関測定値（２５）と
の間で比較を実行するように構成されている、前記セレクタ（１７）と、
を備える装置（１０、６０ａ、１１０）。
前記第１推定器、前記第２推定器、および前記セレクタ（１７）を備える検出ユニット（１０、６５）と、
デコーダ（６０ｂ）でＬＴＰＦを実行するのに有用なデータをエンコードするように構成された長期ポストフィルタリングＬＴＰＦツール（６６）であって、前記ＬＴＰＦを実行するのに有用なデータは前記選択値（１９、Ｔ_ｂｅｓｔ）を含む、前記長期ポストフィルタリングＬＴＰＦツール（６６）と、
をさらに備える、請求項１に記載の装置（６０ａ）。
前記セレクタ（１７）の下流に、デコーダ装置（６０ｂ）における長期ポストフィルタ（６７）を制御するための長期ポストフィルタリングＬＴＰＦツール（６６）をさらに供える、請求項１に記載の装置。
前記選択値（１９、Ｔ_ｂｅｓｔ）の高調波が所定のＬＴＰＦ閾値未満である場合に前記選択値（１９、Ｔ_ｂｅｓｔ）をエンコードするのを回避するように、前記選択値（１９、Ｔ_ｂｅｓｔ）の前記高調波を前記所定のＬＴＰＦ閾値と比較するように構成されている、請求項１から３のいずれか一項に記載の装置。
前記第２サブインターバル（５２）は、前記前のフレームのために選択された前記ピッチラグ（５１、１９”）から所定のラグ数閾値より短い距離内のラグ（Ｔ）を含む、
請求項１から４のいずれか一項に記載の装置。
前記第２推定器（１２）は、
前記第２相関関数の第２相関関数値の中の最大値に関連付けられた前記ピッチラグ（Ｔ_２）に前記第２推定値（１６）を関連付けるために、前記第２相関関数値の中の前記最大値を検索する
ように構成されている、請求項１から５のいずれか一項に記載の装置。
前記第１相関関数は、第１サブインターバル内のラグに制限されている、請求項１から６のいずれか一項に記載の装置。
前記第１サブインターバルは、前記第２サブインターバル（５２）よりも大きいいくつかのラグを含み、および／または前記第２サブインターバル（５２）内の前記ピッチラグのうちの少なくともいくつかは、前記第１サブインターバルに含まれる、請求項７に記載の装置。
前記第１推定器（１１）は、
前記第１相関関数を最大化させる前記ピッチラグ（Ｔ_１）を検索する前に単調に減少する重み関数を使用して前記第１相関関数の前記相関測定値を重み付けする
ように構成されている、請求項１から８のいずれか一項に記載の装置。
前記第１推定器（１１）は、以下の演算のうちの少なくともいくつかを実行することによって前記第１推定値

を取得するように構成されており、

は重み関数であり、

および

は最小ラグおよび最大ラグに関連付けられており、

は前記情報信号またはその処理済みバージョンに基づいて推定された自己相関測定値であり、Ｎはフレーム長であり、ｘは前記情報信号である、請求項１から９のいずれか一項に記載の装置。
前記第２推定器（１２）は、

を実行することによって前記第２推定値

を取得するように構成されており、

、

、

は前記前のフレームで選択された前記推定値であり、

は

からの距離であり、

および

は最小ラグおよび最大ラグに関連付けられており、Ｒは前記情報信号またはその処理済みバージョンに基づいて推定された自己相関測定値である、
請求項１から１０のいずれか一項に記載の装置。
前記セレクタ（１７）は、以下の点に関してピッチラグ推定値

の選択を実行するように構成されており、

ここで

は前記第１推定値、

は前記第２推定値、

は前記情報信号またはその処理済みバージョンの値、

はラグ

での長さ

の前記信号

の正規化相関測定値、

はダウンスケーリング係数である、
請求項１から１１のいずれか一項に記載の装置。
前記情報信号はオーディオ信号である、請求項１から１２のいずれか一項に記載の装置。
同じ相関関数を使用して前記第１および第２正規化自己相関測定値を取得するように構成されており、ただし前記第１および第２正規化自己相関測定値は重み関数の対象になる、請求項１から１３のいずれか一項に記載の装置。
重み関数を適用した前記第１推定値の正規化バージョンとして前記第１正規化自己相関測定値を取得するように構成されている、請求項１から１４のいずれか一項に記載の装置。
前記第２推定値の正規化バージョンとして前記第２正規化自己相関測定値を取得するように構成されている、請求項１から１５のいずれか一項に記載の装置。
前記情報信号（６１）またはその処理済みバージョンの表現（６３ａ）を生成するように構成された変換コーダ（６２）をさらに備える、請求項１から１６のいずれか一項に記載の装置。
エンコーダ側（１０、６０ａ）およびデコーダ側（６０ｂ）を備えるシステム（６０）であって、前記エンコーダ側は、請求項１から１７のいずれか一項に記載の装置を備え、前記デコーダ側は、前記セレクタ（１７）によって選択された前記ピッチラグ推定値に基づいて制御される長期ポストフィルタリングツール（６７）を備えるシステム（６０）。
フレームに分割された信号のピッチラグを決定する方法（１００）であって、
現在のフレーム（１３）に関連付けられた第１相関関数を最大化させる前記ピッチラグ（Ｔ_１）として第１推定値（１４）を取得するために、前記現在のフレームの第１推定を実行するステップ（Ｓ１０１）と、
前のフレームのために選択された前記ピッチラグ（５１、１９”）を含む第２サブインターバル（５２）内の第２相関関数を最大化させる前記ピッチラグ（Ｔ_２）を検索することによって取得された前記現在のフレームの第２推定を実行するステップ（Ｓ１０２）であって、前記第２推定を実行するステップは、前記前のフレームで実行された選択ステップの結果に基づいて取得される、ステップと、
第１および第２正規化自己相関測定値に基づいて、前記第１推定で取得された前記第１推定値（１４、Ｔ_１）と前記第２推定で取得された第２推定値（１６、Ｔ_２）との間で選択するステップ（Ｓ１０３）と
を備え、
選択ステップは、
前記現在のフレーム（１３）に関連付けられ、前記第１推定値（１４、Ｔ_１）に対応するピッチラグで取得された前記第１正規化自己相関測定値（２３）のダウンスケールバージョン（２４）と、
前記現在のフレーム（１３）に関連付けられ、前記第２推定値（１６、Ｔ_２）に対応するピッチラグで取得された前記第２正規化自己相関測定値（２５）と
の間で比較を実行するステップと、
前記第２正規化自己相関測定値（２５）が前記第１正規化自己相関測定値（２３）の前記ダウンスケールバージョンよりも小さいときに前記第１推定値（１４、Ｔ_１）を選択し、および／または前記第２正規化自己相関測定値（２５）が前記第１正規化自己相関測定値（２３）の前記ダウンスケールバージョンよりも大きいときに前記第２推定値（１６、Ｔ_２）を選択するステップと、を備える方法（１００）。
長期ポストフィルタリングＬＴＰＦのために選択された前記ラグを使用するステップをさらに備える、請求項１９に記載の方法。
フレームに分割された信号のためにビットストリームをエンコードする方法（１００）であって、
請求項１９または２０に記載の方法を実行するステップと、
デコーダ（６０ｂ）でＬＴＰＦを実行するのに有用なデータをエンコードするステップであって、前記ＬＴＰＦを実行するのに有用なデータは、前記第１推定値（１４、Ｔ _１）から前記第２推定値（１６、Ｔ _２）の間で選択することによって得られる選択値（１９、Ｔ_ｂｅｓｔ）を含む、ステップと
を備える方法（１００）。
パケット損失隠蔽ＰＬＣのために選択された前記ラグを使用するステップをさらに備える、請求項１９から２１のいずれか一項に記載の方法。
プロセッサ（１１１）によって実行されると、請求項１９から２２のいずれか一項に記載の方法を前記プロセッサに実行させる命令を備えるプログラム。