JP2009514032A

JP2009514032A - オーディオコーディングのためのエンコーダ支援フレーム損失隠蔽技術

Info

Publication number: JP2009514032A
Application number: JP2008538157A
Authority: JP
Inventors: リュ、サン−ウク; チョイ、エディー・エル．ティー．; グプタ、サミア・クマー
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2005-10-26
Filing date: 2006-10-25
Publication date: 2009-04-02
Anticipated expiration: 2026-10-25
Also published as: EP1941500A1; ATE499676T1; US8620644B2; KR20080070026A; WO2007051124A1; EP1941500B1; CN101346760A; US20070094009A1; DE602006020316D1; JP4991743B2; CN101346760B; KR100998450B1

Abstract

オーディオ信号をデコードするエンコーダ支援フレーム損失隠蔽（ＦＬＣ）技術が説明されている。デコーダは、オーディオ信号の誤りフレームを破棄し、エンコーダから送信されたサイド情報と隣接フレームとに基づいて、該破棄されたフレームを正確に隠蔽するために該エンコーダ支援ＦＬＣ技術を実施することができる。該エンコーダ支援ＦＬＣ技術は、隣接フレームの周波数ドメインデータに基づいて該フレームの周波数ドメインデータの大きさを推定することと、サイド情報として該エンコーダから送信された符号のサブセットに基づいて該周波数ドメインデータの符号を推定することとを含んでいる。オーディオ信号のフレームの周波数ドメインデータは、トーン成分および雑音成分を含んでいる。ランダム信号から推定された符号は、該周波数ドメインデータの該雑音成分について実質的に正確であるだろう。しかしながら、該トーン成分の非常に正確な符号推定を達成するために、該エンコーダは、サイド情報として該周波数ドメインデータの該トーン成分の符号を送信する。

Description

本出願は、２００５年１０月２６日に出願された米国仮特許出願第６０／７３０，４５９号、および２００５年１０月３１日に出願された米国仮特許出願第６０／７３２，０１２号の利点に権利を主張している。

本開示は、オーディオコーディング技術、より具体的にはオーディコーディングのためのフレーム損失隠蔽技術に関する。

オーディオコーディングは、衛星無線、ディジタル無線、インターネットストリーミング（ウェブ無線）、ディジタル音楽プレーヤ、および種々のモバイルマルチメディアの応用のような多数の応用および環境において使用されている。モーションピクチャエキスパートグループ（ＭＰＥＧ）による標準、ウィンドウズ（登録商標）メディアオーディオ（ＷＭＡ）、およびドルビーラボラトリーズ社（ＤｏｌｂｙＬａｂｏｒａｔｏｒｉｅｓ，Ｉｎｃ．）による標準のような多数のオーディオコーディング標準がある。ＭＰ３標準およびＭＰ３標準の後継の標準、例えば、アップルコンピュータ社（ＡｐｐｌｅＣｏｍｐｕｔｅｒ，Ｉｎｃ．）から販売されている「ｉＰｏｄ」デバイスで使用されている高度オーディオコーディング（ＡＡＣ）標準を含む多数のオーディオコーディング標準が登場し続けている。オーディコーディング標準は、一般に、圧縮技術を使用して、低ビットレートかつ高品質のオーディオコーディングを達成しようと試みている。一部のオーディオコーディングは「ロスレス（ｌｏｓｓｌｅｓｓ）」であり、すなわち、このコーディングはオーディオ信号を劣化させないのに対して、他のオーディオコーディングは、さらなる圧縮を達成するために、いくらかの損失を取り込むことがある。

多数の応用において、オーディオコーディングは、テレビ電話（ｖｉｄｅｏｔｅｌｅｐｈｏｎｙ，ＶＴ）やストリーミングビデオなどの応用にマルチメディアコンテンツを提供するために、ビデオコーディングと併用される。例えば、ＭＰＥＧに従うビデオコーディング標準は、しばしばオーディオおよびビデオコーディングを使用する。ＭＰＥＧ標準は、現在ＭＰＥＧ−１、ＭＰＥＧ−２、およびＭＰＥＧ−４を含んでいるが、他の標準もおそらく登場するであろう。他の例示的なビデオ標準としては、国際電気通信連合（ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＵｎｉｏｎ，ＩＴＵ）Ｈ．２６３標準、ＩＴＵＨ．２６４標準、アップルコンピュータ社（ＡｐｐｌｅＣｏｍｐｕｔｅｒＩｎｃ．）によって開発されたＱｕｉｃｋＴｉｍｅ（登録商標）技術、マイクロソフト社（ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎ）によって開発されたＶｉｄｅｏｆｏｒＷｉｎｄｏｗｓ（登録商標）、インテル社（ＩｎｔｅｌＣｏｒｐｏｒａｔｉｏｎ）によって開発されたＩｎｄｅｏ（登録商標）、リアルネットワークス社（ＲｅａｌＮｅｔｗｏｒｋｓ，Ｉｎｃ．）からのＲｅａｌＶｉｄｅｏ（登録商標）、およびスーパーマック社（ＳｕｐｅｒＭａｃ．Ｉｎｃ．）によって開発されたＣｉｎｅｐａｋ（登録商標）がある。オープンソースであるオーディオおよびビデオ標準もあるのに対して、登録商標権を有しているものもある。多数の他のオーディオおよびビデオコーディング標準が、登場および進化し続けるであろう。

送信されたオーディオ信号に生じたビットストリームエラーは、可聴アーチファクトを取り込むことによって、デコードされたオーディ信号に重大な影響を及ぼす場合がある。この品質劣化に対処するために、エラー検出モジュールおよびフレーム損失隠蔽（ｆｒａｍｅｌｏｓｓｃｏｎｃｅａｌｍｅｎｔ，ＦＬＣ）モジュールを含むエラーコントロールブロックが、デコーダに付加されることがある。受信したビットストリームのフレームにエラーが検出されると、エラー検出モジュールは誤りフレームの全ビットを破棄する。次に、ＦＬＣモジュールは、知覚的にシームレスなサウンドオーディ信号を生成しようとして、オーディデータを推定して、破棄されたフレームを置換する。

デコーダのフレーム損失隠蔽のための種々の技術が提案されてきた。しかしながら、多くのＦＬＣ技術は、隠蔽されたオーディオ信号品質と実施コストとの間におけるとても困難な折り合いに苦慮している。例えば、破棄されたフレームを、先行フレームのサイレンス、雑音、またはオーディオデータと単に置換することは、計算コストは低いが、隠蔽性能は不良であるために、交換の１つの極端を表す。破棄されたフレームを隠蔽するソースモデリングに基づく高度な技術は、十分な隠蔽性能を達成するのに高いまたは桁違いに高い実施コストを必要とすることによって、別の極端にあたる。

発明の概要

全体的に、本開示は、オーディオ信号をデコードするためのエンコーダ支援フレーム損失隠蔽（ＦＬＣ）技術に関する。エンコーダからオーディオ信号のフレームのオーディオビットストリームを受信すると、デコーダはエラー検出を実行し、エラー検出された場合に該フレームを破棄することができる。該デコーダは、隣接フレームと、該エンコーダから該オーディオビットストリームと共に送信されたサイド情報とに基づいて、該破棄されたフレームを正確に隠蔽するために、該エンコーダ支援ＦＬＣ技術を実施することができる。該エンコーダ支援ＦＬＣ技術は、該フレームの周波数ドメインデータの大きさを隣接フレームの周波数ドメインデータに基づいて推定することと、サイド情報として該エンコーダから送信された符号（ｓｉｇｎ）のサブセットに基づいて該周波数ドメインデータの符号を推定することとを含んでいる。このように、該エンコーダ支援ＦＬＣ技術は、可聴アーチファクトの発生を削減して、知覚的にシームレスなサウンドオーディオ信号を作成することができる。

オーディオ信号のフレームの周波数ドメインデータは、トーン成分および雑音成分を含んでいる。ランダム信号から推定された符号は、該周波数ドメインデータの該雑音成分については実質的に正確であるだろう。しかしながら、トーン成分の非常に正確な符号推定を達成するために、該エンコーダは、サイド情報として該周波数ドメインデータの該トーン成分の符号を送信する。該デコーダへ送信される該サイド情報量を最小化するために、該エンコーダは、該フレーム内の該トーン成分の場所を送信しない。そうではなくて、該エンコーダおよび該デコーダは共に、同じ動作を使用して、該トーン成分の該場所を自己導出する。したがって、該エンコーダ支援ＦＬＣ技術は、該エンコーダから送信された最小量のサイド情報によって、該デコーダにおいてフレーム隠蔽品質のかなりの改良を達成する。

本明細書に記載されている該エンコーダ支援ＦＬＣ技術は、ウィンドウズ（登録商標）メディアオーディオ（ＷＭＡ）標準、ＭＰ３標準、およびＡＡＣ（高度オーディオコーディング）標準のようなオーディオコーディング標準を使用するマルチメディア応用で実施されてもよい。該ＡＡＣ標準の場合、オーディオ信号のフレームの周波数ドメインデータは、修正離散コサイン変換（ＭＤＣＴ）係数によって表される。該ＭＤＴＣ係数の各々はトーン成分または雑音成分のいずれかを備えている。１個のフレームは１０２４個のＭＤＣＴ係数を含むことができ、該ＭＤＣＴ係数の各々は、大きさおよび符号を含んでいる。該エンコーダ支援ＦＬＣ技術は、破棄されたフレームのＭＤＣＴ係数の大きさおよび符号を別々に推定する。

一実施形態では、本開示は、オーディオ信号のフレームを隠蔽する方法を提供する。該方法は、該フレームの隣接フレームに基づいて該フレームの周波数ドメインデータの大きさを推定するステップと、サイド情報としてエンコーダから送信された該フレームの符号のサブセットに基づいて該フレームの周波数ドメインデータの符号を推定するステップと、該大きさ推定と該符号推定とを結合して該フレームの周波数ドメインデータを推定するステップとを備えている。

別の実施形態では、本開示は、オーディオ信号のフレームを隠蔽する命令を備えるコンピュータ読み取り可能な媒体を提供する。該命令はプログラマブルプロセッサに、該フレームの隣接フレームに基づいて該フレームの周波数ドメインデータの大きさを推定させ、サイド情報としてエンコーダから送信された該フレームの符号のサブセットに基づいて該フレームの該周波数ドメインデータの符号を推定させる。該命令はまた該プログラマブルプロセッサに、該大きさ推定と該符号推定とを結合して該フレームの周波数ドメインデータを推定させる。

さらなる実施形態では、本開示は、サイド情報として該フレームの符号のサブセットを送信するエンコーダと、該エンコーダから該フレームの該サイド情報を受信するＦＬＣモジュールを含むデコーダとを備える、オーディオ信号のフレームを隠蔽するためのシステムを提供する。該デコーダ内の該ＦＬＣモジュールは、該フレームの隣接フレームに基づいて該フレームの周波数ドメインデータの大きさを推定し、該受信したサイド情報に基づいて該フレームの周波数ドメインデータの符号を推定し、該大きさ推定と該符号推定とを結合して該フレームの周波数ドメインデータを推定する。

別の実施形態では、本開示は、オーディオ信号のフレームの周波数ドメインデータの成分を選択する成分選択モジュールと、該フレームの該周波数ドメインデータから該選択された成分の符号のサブセットを抽出する符号抽出器とを備えるエンコーダを提供する。該エンコーダは、該フレームの該符号のサブセットをサイド情報としてデコーダへ送信する。

さらなる実施形態では、本開示は、フレームの隣接フレームに基づいてオーディオ信号の該フレームの周波数ドメインデータの大きさを推定する大きさ推定器と、サイド情報としてエンコーダから送信された該フレームの符号のサブセットに基づいて該フレームの周波数ドメインデータの符号を推定する符号推定器とを含むＦＬＣモジュールを備えるデコーダを提供する。該デコーダは、該大きさ推定と該符号推定とを結合して、該フレームの周波数ドメインデータを推定する。

ここに説明されている技術は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組み合わせで実施されることができる。ソフトウェアで実施される場合、本技術は、プログラマブルプロセッサによって実行されたときに本明細書に説明されている該方法の１つ以上を実行する命令を含むプログラムコードを備えるコンピュータ読み取り可能な媒体によって部分的に実現することができる。

１つ以上の実施形態に関する詳細は添付の図面および以下の記述によって説明される。本発明の他の特徴、目的、および利点は、説明、図面、および請求項から明らかになるであろう。

詳細な説明

図１は、エンコーダ支援フレーム損失隠蔽（ＦＬＣ）技術を実施するオーディオエンコーダ／デコーダ（コーデック）を組み込んだオーディオエンコーディング／デコーディングシステム２を示すブロック図である。図１に示されているように、システム２は、第１の通信デバイス３および第２の通信デバイス４を含んでいる。システム２はまた、通信デバイス３および４を接続する送信チャネル５を含んでいる。システム２は、送信チャネル５で通信デバイス３と４間の双方向のオーディオデータ送信をサポートする。

示されている実施形態では、通信デバイス３は、ＦＬＣモジュール７を具備するオーディオコーデック６と、多重化（ｍｕｘ）／デマルチプレックス（ｄｅｍｕｘ）コンポーネント８とを含んでいる。通信デバイス４は、ｍｕｘ／ｄｅｍｕｘコンポーネント９と、ＦＬＣモジュール１１を具備するオーディオコーデック１０とを含んでいる。それぞれのオーディオコーデック６および１０のＦＬＣモジュール７および１１は、本明細書に説明されているエンコーダ支援ＦＬＣ技術にしたがって、エンコーダから送信されたサイド情報と隣接フレームとに基づいて、オーディオ信号の破棄されたフレームを正確に隠蔽することができる。別の実施形態では、ＦＬＣモジュール７および１１は、エンコーダから送信された追加のサイド情報によって隣接フレームに基づいてオーディオ信号の複数の破棄されたフレームを正確に隠蔽することができる。

通信デバイス３および４は、オーディオデータを送受信するように構成されてもよい。通信デバイス３および４は、無線モバイル端末や有線端末として実施されてもよい。このために、通信デバイス３および４はさらに、無線通信をサポートするための適切な無線送信機、受信機、モデム、および処理エレクトロニクスを含んでもよい。無線モバイル端末の例としては、モバイル無線電話、モバイル携帯情報端末（ＰＤＡ）、モバイルコンピュータ、あるいは無線通信能力並びにオーディオエンコーディングおよび／またはデコーディング能力を備えた他のモバイルデバイスを含む。有線端末の例としては、デスクトップコンピュータ、テレビ電話、ネットワーク機器、セットトップボックス、双方向テレビ、などを含む。

送信チャネル５は、有線通信媒体であっても、または無線通信媒体であってもよい。無線通信では、極めて低いビットレートがしばしば必要とされるために、帯域幅は重要な問題である。とりわけ、送信チャネル５は帯域幅が制限されていることがあり、チャネル５での大量のオーディオデータの送信を極めて困難にしている。例えば、送信チャネル５は、チャネル５の物理的制約、または場合によっては送信チャネル５のプロバイダによって課されるサービス品質（ＱｏＳ）制限または帯域幅割り当て制約のために、帯域幅が制限された無線通信リンクであることもある。

それぞれの通信デバイス３および４内のオーディオコーデック６および１０の各々は、モーションピクチャエキスパートグループ（ＭＰＥＧ）に従った標準、ＤｏｌｂｙＬａｂｏｒａｔｏｒｉｅｓ，Ｉｎｃ．による標準、ウィンドウズ（登録商標）メディアオーディオ（ＷＭＡ）標準、ＭＰ３標準、および高度オーディオコーディング（ＡＡＣ）標準のようなオーディオコーディング標準にしたがって、オーディオデータをエンコードおよびデコードする。オーディオコーディング標準は、一般に、圧縮技術を使用して、低ビットレートかつ高品質のオーディオコーディングを達成しようと試みている。一部のオーディオコーディングは「ロスレス」であり、すなわち、このコーディングはオーディオ信号を劣化させないのに対して、他のオーディオコーディングは、さらなる圧縮を達成するためにいくらかの損失を取り込むことがある。

いくつかの実施形態では、通信デバイス３および４はまた、それぞれのオーディオコーデック６および１０と統合されたビデオコーデック（図示せず）を含むこともあり、またデータストリームのオーディオおよびビデオ部分を処理する適切なｍｕｘ／ｄｅｍｕｘコンポーネント８および９を含むこともある。ｍｕｘ／ｄｅｍｕｘコンポーネント８および９は、国際電気通信連合（ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＵｎｉｏｎ，ＩＴＵ）Ｈ．２２３のマルチプレクサプロトコル、またはユーザーデータグラムプロトコル（ＵＤＰ）のような他のプロトコルに準拠してもよい。

オーディオコーディングは、テレビ電話（ＶＴ）またはストリーミングビデオのような応用のためのマルチメディアコンテンツを提供するために、ビデオコーディングと併用されてもよい。例えば、ＭＰＥＧに従うビデオコーディング標準はしばしばオーディオおよびビデオコーディングを使用する。ＭＰＥＧ標準は現在ＭＰＥＧ−１、ＭＰＥＧ−２、およびＭＰＥＧ−４を含んでいるが、他の標準もおそらく登場するであろう。他の例示的なビデオ標準は、ＩＴＵＨ．２６３標準、ＩＴＵＨ．２６４標準、アップルコンピュータ社（ＡｐｐｌｅＣｏｍｐｕｔｅｒＩｎｃ．）によって開発されたＱｕｉｃｋＴｉｍｅ（登録商標）技術、マイクロソフト社（ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎ）によって開発されたＶｉｄｅｏｆｏｒＷｉｎｄｏｗｓ（登録商標）、インテル社（ＩｎｔｅｌＣｏｒｐｏｒａｔｉｏｎ）によって開発されたＩｎｄｅｏ（登録商標）、リアルネットワークス社（ＲｅａｌＮｅｔｗｏｒｋｓ，Ｉｎｃ．）のＲｅａｌＶｉｄｅｏ（登録商標）、およびスーパーマック社（ＳｕｐｅｒＭａｃ，Ｉｎｃ．）によって開発されたＣｉｎｅｐａｋ（登録商標）を含んでいる。

例示の目的のために、通信デバイス３および４の各々はオーディオデータの送信機および受信機双方として動作可能であると想定する。通信デバイス３から通信デバイス４に送信されるオーディオデータの場合、通信デバイス３は送信デバイスであり、通信デバイス４は受信デバイスである。この場合、通信デバイス３内のオーディオコーデック６はエンコーダとして動作し、通信デバイス４内のオーディオコーデック１０はデコーダとして動作することができる。逆に、通信デバイス４から通信デバイス３に送信されるオーディオデータの場合、通信デバイス３は受信デバイスであり、通信デバイス４は送信デバイスである。この場合、通信デバイス３内のオーディオコーデック６はデコーダとして動作し、通信デバイス４内のオーディオコーデック１０はエンコーダとして動作することができる。ここで説明されている技術はまた、このようなオーディオデータを送信のみ、または受信のみするデバイスにも適用可能である。

開示されている技術によると、受信デバイスとして動作する通信デバイス４は、送信デバイスとして動作する通信デバイス３からオーディオ信号のフレームのオーディオビットストリームを受信する。通信デバイス４内でデコーダとして動作するオーディオコーデック１０はエラー検出を実行して、エラーが検出される場合には当該フレームを破棄してもよい。オーディオコーデック１０は、エンコーダ支援ＦＬＣ技術を実施して、通信デバイス３からオーディオビットストリームと共に送信されたサイド情報に基づいて、破棄されたフレームを正確に隠蔽することができる。エンコーダ支援ＦＬＣ技術は、隣接フレームの周波数ドメインデータに基づいて当該フレームの周波数ドメインデータの大きさを推定することと、サイド情報としてエンコーダから送信された符号のサブセットに基づいて周波数ドメインデータの符号を推定することとを含んでいる。

オーディオ信号のフレームの周波数ドメインデータは、トーン成分および雑音成分を含んでいる。ランダム信号から推定された符号は、周波数ドメインデータの雑音成分について実質的に正確であるだろう。しかしながら、トーン成分の非常に正確な符号推定を達成するために、エンコーダは、周波数ドメインデータのトーン成分の符号をサイド情報としてデコーダへ送信する。

例えば、通信デバイス４内でデコーダとして動作するオーディオコーデック１０のＦＬＣモジュール１１は、大きさ推定器と、成分選択モジュールと、符号推定器とを含むことができるが、これらのコンポーネントは図１には示されていない。大きさ推定器は、オーディオ信号の隣接フレームから周波数ドメインデータをコピーする。次に、大きさ推定器は、コピーされた周波数ドメインデータのエネルギをスケーリングして、破棄されたフレームの周波数ドメインデータの大きさを推定する。成分選択モジュールは、当該フレームの周波数ドメインデータのトーン成分と雑音成分とを区別する。このようにして、成分選択モジュールはフレーム内のトーン成分の場所を導出する。符号推定器は、単に、サイド情報として通信デバイス３から送信されたフレームの符号のサブセットに基づいて、成分選択モジュールによって選択されたトーン成分の符号を推定する。次に、デコーダとして動作するオーディオコーデック１０は、トーン成分の符号推定を、対応する大きさ推定と結合する。

通信デバイス３内でエンコーダとして動作するオーディオコーデック６は、成分選択モジュールおよび符号抽出器を含むことができるが、これらのコンポーネントは図１には示されていない。成分選択モジュールは、当該フレームの周波数ドメインデータのトーン成分と雑音成分とを区別する。このようにして、成分選択モジュールはフレーム内のトーン成分の場所を導出する。符号抽出器は、成分選択モジュールによって選択されたトーン成分の符号のサブセットを抽出する。次に、抽出された符号は、エンコードされたオーディオビットストリームにサイド情報としてパッキングされる。例えば、当該フレームの符号のサブセットは、隣接フレームのオーディオビットストリームに添付されることができる。

送信チャネル５で送信されるサイド情報量を最小化するために、エンコーダとして動作するオーディオコーデック６は、トーン成分の符号のサブセットと共に当該フレーム内のトーン成分の場所を送信しない。そうではなく、オーディオコーデック６および１０の両方とも、同じ動作を使用してトーン成分の場所を自己導出する。言い換えると、エンコーダとして動作するオーディオコーデック６は、デコーダとして動作するオーディオコーデック１０と同じ成分選択動作を実行する。このようにして、エンコーダ支援ＦＬＣ技術は、エンコーダから送信された最小量のサイド情報によってデコーダにおいてフレーム隠蔽品質のかなりの改良を達成する。

ＡＡＣ標準を利用するオーディオコーデック６および１０の場合、オーディオ信号のフレームの周波数ドメインデータは修正離散コサイン変換（ＭＤＣＴ）係数によって表される。１個のフレームは１０２４個のＭＤＣＴ係数を含むことができ、ＭＤＣＴ係数の各々は大きさおよび符号を含んでいる。ＭＤＣＴ係数の一部はトーン成分を備えており、残りのＭＤＣＴ係数は雑音成分を備えている。オーディオコーデック６および１０は、エンコーダ支援ＦＬＣ技術を実施して、破棄されたフレームのＭＤＣＴ係数の大きさおよび符号を別々に推定することができる。他のオーディオ標準の場合、他のタイプの変換係数がフレームの周波数ドメインデータを表すこともある。加えて、フレームは任意の数の係数を含むことができる。

図２は、図１のオーディオエンコーディングおよびデコーディングシステム２によってエンコーダ支援フレーム損失隠蔽を実行する例示的な動作を示すフローチャートである。例示の目的のために、通信デバイス３は、エンコーダとして動作するオーディオコーデック６を具備する送信機デバイスとして動作し、通信デバイス４は、デコーダとして動作するオーディオコーデック１０を具備する受信デバイスとして動作する。

通信デバイス３はフレームｍ＋１のオーディオ信号をサンプリングし、通信デバイス３内のオーディオコーデック６はフレームｍ＋１の時間ドメインデータを周波数ドメインデータに変換する。次に、オーディオコーデック６は、フレームｍ＋１の周波数ドメインデータをオーディオビットストリームにエンコードする（１２）。オーディオコーデック６は、フレーム遅延を実行して、フレームｍの周波数ドメインデータを生成することができる。周波数ドメインデータはトーン成分および雑音成分を含んでいる。オーディオコーデック６はフレームｍの周波数ドメインデータのトーン成分の符号のサブセットを抽出する（１３）。

一実施形態では、オーディオコーデック６はＦＬＣモジュール７を利用して、推定インデックスサブセットに基づいてフレームｍの周波数ドメインデータのトーン成分の符号のサブセットを抽出する。推定インデックスサブセットは、フレームｍの周波数ドメインデータの推定された大きさから、フレームｍ内のトーン成分の場所を識別する。ＦＬＣモジュール７は大きさ推定器と、成分選択モジュールと、符号抽出器とを含むことができるが、ＦＬＣモジュール７のこれらのコンポーネントは図１に示されていない。成分選択モジュールは、大きさ推定器からのフレームｍの周波数ドメインデータの推定された大きさに基づいて、推定インデックスサブセットを生成することができる。

別の実施形態では、オーディオコーデック６は、フレームｍ＋１の周波数ドメインデータの大きさからフレームｍ＋１内のトーン成分の場所を識別するインデックスサブセットに基づいて、フレームｍの周波数ドメインデータのトーン成分の符号のサブセットを抽出する。この場合、フレームｍのインデックスサブセットはフレームｍ＋１のインデックスサブセットにほぼ等しいと想定される。オーディオコーデック６は成分選択モジュールおよび符号抽出器を含むことができるが、これらのコンポーネントは図１には示されていない。成分選択モジュールは、フレームｍ＋１の周波数ドメインデータの大きさに基づいてインデックスサブセットを生成することができる。

オーディオコーデック６は、フレームｍのトーン成分の符号のサブセットをサイド情報として、フレームｍ＋１のオーディオビットストリームに添付する。オーディオコーデック６は、トーン成分の場所をフレームｍ＋１のオーディオビットストリームに添付しない。そうではなくて、オーディオコーデック６および１０は両方とも、同じ動作を使用してトーン成分の場所を自己導出する。このようにして、本技術は、フレームｍ＋１のオーディオビットストリームに添付されるサイド情報量を最小化する。次に、通信デバイス３は、フレームｍの符号のサブセットを含めてフレームｍ＋１のオーディオビットストリームを、送信チャネル５を介して通信デバイス４に送信する（１４）。

通信デバイス４はフレームｍのオーディオビットストリームを受信する（１５）。通信デバイス４内のオーディオコーデック１０は、オーディオビットストリームにエラー検出を実行して、オーディオビットストリームにエラーが発見された場合にはフレームｍを破棄する（１６）。通信デバイス４は、フレームｍのトーン成分の符号のサブセットを含めてフレームｍ＋１のオーディオビットストリームを受信する（１７）。次に、オーディオコーデック１０はＦＬＣモジュール１１を使用して、通信デバイス３からフレームｍ＋１のオーディオビットストリームと共に送信されたフレームｍのトーン成分の符号のサブセットを使用することによって、破棄されたフレームｍのフレーム損失隠蔽を実行する（１８）。ＦＬＣモジュール１１は大きさ推定器と、成分選択モジュールと、符号推定器とを含むことができるが、ＦＬＣモジュール１１のこれらのコンポーネントは図１に示されていない。

ＦＬＣモジュール１１内の大きさ推定器は、隣接フレームｍ−１およびｍ＋１の周波数ドメインデータに基づいて、フレームｍの周波数ドメインデータの大きさを推定することができる。一実施形態では、成分選択モジュールは、大きさ推定器からのフレームｍの周波数ドメインデータの推定された大きさに基づいて、フレームｍ内のトーン成分の場所を識別する推定インデックスサブセットを生成することができる。次に、符号推定器は、フレームｍの推定インデックスサブセットに基づいて、フレームｍの符号のサブセットからフレームｍ内のトーン成分の符号を推定する。

別の実施形態では、成分選択モジュールは、フレームｍ＋１の周波数ドメインデータの大きさからフレームｍ＋１内のトーン成分の場所を識別するインデックスサブセットを生成してもよい。この場合、フレームｍのインデックスサブセットはフレームｍ＋１のインデックスサブセットとほぼ等しいと想定される。次に、符号推定器は、フレームｍ＋１のインデックスサブセットに基づいて、フレームｍの符号のサブセットからフレームｍ内のトーン成分の符号を推定する。

ＦＬＣモジュール１１内の符号推定器は、ランダム信号からフレームｍ内の雑音成分の符号を推定することができる。次に、オーディオコーデック１０は、トーン成分および雑音成分の符号推定を対応する大きさ推定と結合して、フレームｍの周波数ドメインデータを推定する。次に、オーディオコーデック１０は、フレームｍの推定周波数ドメインデータを、フレームｍのオーディオ信号の推定時間ドメインデータにデコードする（１９）。

図３は、サイド情報として送信されるフレームの符号のサブセットを生成するＦＬＣモジュール３３を含む例示的なオーディオエンコーダ２０を示すブロック図である。オーディオエンコーダ２０は、図１のそれぞれの通信デバイス３および４内のオーディオコーデック６および１０と実質的に類似していてもよい。図３に示されているように、オーディオエンコーダ２０は変換ユニット２２と、コアエンコーダ２４と、第１のフレーム遅延３０と、第２のフレーム遅延３２と、ＦＬＣモジュール３３とを含んでいる。例示の目的のために、オーディオエンコーダ２０は、ここでは、オーディオ信号のフレームの周波数ドメインデータがＭＤＣＴ係数によって表されるＡＡＣ標準に準拠するものとして説明される。加えて、変換ユニット２２は、修正離散コサイン変換ユニットとして説明される。他の実施形態では、オーディオエンコーダ２０は、上述で列挙したオーディオコーディング標準または他の標準のいずれかに準拠していてもよい。

本技術は、ここでは、オーディオ信号のフレームｍを隠蔽するものとして説明される。フレームｍ＋１は、オーディオ信号のフレームｍの直後のオーディオフレームを表している。同様に、フレームｍ−１は、オーディオ信号のフレームｍの直前のオーディオフレームを表している。他の実施形態では、エンコーダ支援ＦＬＣ技術は、フレームｍの直前でも直後でもないフレームｍの近傍フレームを利用して、フレームｍを隠蔽してもよい。

変換ユニット２２はフレームｍ＋１のオーディオ信号ｘ_ｍ＋１［ｎ］のサンプルを受信して、このサンプルを係数Ｘ_ｍ＋１（ｋ）に変換する。次に、コアエンコーダ２４はこの係数をフレームｍ＋１のオーディオビットストリーム２６にエンコードする。ＦＬＣモジュール３３はフレームｍ＋１の係数Ｘ_ｍ＋１（ｋ）、フレームｍの係数Ｘ_ｍ（ｋ）、およびフレームｍ−１の係数Ｘ_ｍ−１（ｋ）を使用して、フレームｍの係数Ｘ_ｍ（ｋ）のトーン成分の符号Ｓ_ｍのサブセット２８を生成する。ＦＬＣモジュール３３は、符号Ｓ_ｍのサブセット２８をサイド情報として、フレームｍ＋１のオーディオビットストリーム２６に添付する。

ＦＬＣモジュール３３は大きさ推定器３４と、成分選択モジュール３６と、符号抽出器３８とを含んでいる。変換ユニット２２はフレームｍ＋１の係数Ｘ_ｍ＋１（ｋ）を大きさ推定器３４および第１のフレーム遅延３０に送る。第１のフレーム遅延３０はフレームｍの係数Ｘ_ｍ（ｋ）を生成して、フレームｍの係数を第２のフレーム遅延３２に送る。第２のフレーム遅延３２はフレームｍ−１の係数Ｘ_ｍ−１（ｋ）を生成して、フレームｍ−１の係数を大きさ推定器３４に送る。

大きさ推定器３４は、フレームｍ＋１およびｍ−１の係数に基づいて、フレームｍの係数の大きさを推定する。大きさ推定器３４は、種々の補間技術の１つを実施して、フレームｍの係数の大きさを推定することができる。例えば、大きさ推定器３４は、フレームｍ−１の先行フレーム係数Ｘ_ｍ−１（ｋ）およびフレームｍ＋１の次のフレーム係数Ｘ_ｍ＋１（ｋ）のエネルギに基づいて、エネルギ補間を実施することができる。大きさ推定は以下のように与えられる：

ここでα（ｋ）は以下の式によって算出されるエネルギスケーリングファクタである：

ここで、Ｂ_ｂはｂ番目のスケールファクタ帯域におけるＭＤＣＴ係数のセットである。他の実施形態では、大きさ推定器４４は、フレームｍの直前でも直後でもないフレームｍの近傍フレームを利用して、フレームｍの係数の大きさを推定してもよい。

次に、大きさ推定器３４は、フレームｍの推定された係数の大きさ

を成分選択モジュール３６に送る。成分選択モジュール３６は、フレームｍの推定された係数の大きさを分類することによって、フレームｍのトーン成分と雑音成分とを区別する。最大の大きさまたは最も顕著なスペクトルピークを有する係数をトーン成分とみなし、残りの係数は雑音成分をみなしてもよい。

選択されるトーン成分数は、送信される所定数の符号に基づいてもよい。例えば、最大の大きさを有する係数の１０個がフレームｍのトーン成分として選択されてもよい。他の場合には、成分選択モジュール３６は１０個より多いか、または１０個未満のトーン成分を選択してもよい。さらに別の場合には、フレームｍについて選択されるトーン成分数は、オーディオ信号に基づいて変化してもよい。例えば、オーディオ信号がフレームｍにおいて、オーディオ信号の他のフレームよりも、多くのトーン成分を含んでいる場合、成分選択モジュール３６は、他のフレームからよりも、フレームｍからより多くのトーン成分を選択してもよい。

他の実施形態では、成分選択モジュール３６は、フレームｍのトーン成分と雑音成分とを区別するための種々の他の方式を使用して、フレームｍの推定された係数の大きさからトーン成分を選択してもよい。例えば、成分選択モジュール３６は、いくつかの心理音響原理に基づいて、係数のサブセットを選択してもよい。ＦＬＣモジュール４３は、オーディオエンコーダ２０の複雑さレベルが許容するより正確な成分区別方式を用いてもよい。

次に、成分選択モジュール３６は、フレームｍの推定された係数の大きさから選択されるトーン成分の場所を識別する推定インデックスサブセット

を生成する。トーン成分は、最も顕著な大きさを有するフレームｍの係数として選択される。しかしながら、フレームｍの係数は、フレームｍの隠蔽を実行するときにオーディオデコーダに使用可能ではない。したがって、インデックスサブセットが、フレームｍの推定係数の大きさ

に基づいて導出され、推定インデックスサブセットと称される。推定インデックスサブセットは以下のように与えられる：

ここで、Ｍは、フレームｍ内のＭＤＣＴ係数の数であり、Ｔｈｒは、

となるように判断される閾値であり、Ｂ_ｍは、送信される符号の数である。例えば、例示的な実施形態において、Ｂ_ｍは１０個の符号に等しくてもよい。他の実施形態において、Ｂ_ｍは１０より大きくても、または１０未満であってもよい。さらに別の実施形態において、Ｂ_ｍはフレームｍのオーディオ信号に基づいて変化してもよい。

成分選択モジュール３６は、フレームｍの推定インデックスサブセットを符号抽出器３８に送る。符号抽出器３８はまた、フレームｍの係数Ｘ_ｍ（ｋ）を第１のフレーム遅延３０から受信する。次に、符号抽出器３８は、推定インデックスサブセットによって識別されたフレームｍの係数Ｘ_ｍ（ｋ）から符号を抽出する。例えば、推定インデックスサブセットは、所定数、例えば１０個の係数インデックスを含み、これらは、フレームｍの推定された係数の大きさから選択されるトーン成分を識別する。次に、符号抽出器３８は、推定インデックスサブセット内のインデックスと等しいインデックスｋを有するフレームｍの係数Ｘ_ｍ（ｋ）に対応する符号を抽出する。次に、符号抽出器３８は、推定インデックスサブセットによって識別されたフレームｍのトーン成分から抽出された符号Ｓ_ｍのサブセット２８を、フレームｍ＋１のオーディオビットストリーム２６に添付する。

成分選択モジュール３６は、オーディオエンコーダ２０からの送信を受信するオーディオデコーダと同じ動作を使用して、フレームｍ内のトーン成分を選択する。したがって、フレームｍの推定された係数の大きさから選択されるトーン成分の場所を識別する同じ推定インデックスサブセット

は、オーディオエンコーダ２０およびオーディオデコーダの両方で生成されることができる。したがって、オーディオデコーダは、フレームｍのトーン成分の符号Ｓ_ｍのサブセット２８を、推定インデックスサブセットによって識別されたフレームｍの適切な推定された係数の大きさに適用することができる。このように、オーディオエンコーダ２０は、符号Ｓ_ｍのサブセット２８と共にフレームｍ内のトーン成分の場所を送信する必要がないため、送信されるサイド情報量を最小化することができる。

図４は、サイド情報としてエンコーダから受信されたフレームの符号のサブセットを利用するフレーム損失隠蔽モジュール４３を含む例示的なオーディオデコーダ４０を示すブロック図である。オーディオデコーダ４０は、図１のそれぞれの通信デバイス３および４内のオーディオコーデック６および１０と実質的に類似していてもよい。オーディオデコーダ４０は、図３のオーディオエンコーダ２０と実質的に類似しているオーディオエンコーダから、オーディオビットストリームを受信してもよい。図４に示されているように、オーディオデコーダ４０はコアデコーダ４１と、エラー検出モジュール４２と、ＦＬＣモジュール４３と、逆変換ユニット５０とを含んでいる。

例示の目的のために、ここでは、オーディオデコーダ４０を、オーディオ信号のフレームの周波数ドメインデータがＭＤＣＴ係数によって表されるＡＡＣ標準に準拠するものとして説明する。加えて、逆変換ユニット５０を、逆修正離散コサイン変換ユニットとして説明する。他の実施形態では、オーディオデコーダ４０は、上述で列挙したオーディオコーディング標準のいずれかに準拠していてもよい。

コアデコーダ４１は、係数Ｘ_ｍ（ｋ）を含むフレームｍのオーディオビットストリームを受信して、フレームｍのオーディオビットストリームをエラー検出モジュール４２に送る。次に、エラー検出モジュール４２は、フレームｍのオーディオビットストリームにエラー検出を実行する。コアデコーダ４１は続いて、係数Ｘ_ｍ＋１（ｋ）を含むフレームｍ＋１のオーディオビットストリーム２６と、サイド情報としてフレームｍの符号Ｓ_ｍのサブセット２８とを受信する。コアデコーダ４１は、第１のフレーム遅延５１を使用して、フレームｍの係数を、破棄されない場合は生成し、第２のフレーム遅延５２を使用して、フレームｍ＋１のオーディオビットストリームからフレームｍ−１の係数を生成する。フレームｍの係数が破棄されない場合、第１のフレーム遅延５１はフレームｍの係数をマルチプレクサ４９に送る。第２のフレーム遅延５２はフレームｍ−１の係数をＦＬＣモジュール４３に送る。

フレームｍ内にエラーが検出されない場合、エラー検出モジュール４２は、マルチプレクサ４９がフレームｍの係数Ｘ_ｍ（ｋ）を第１のフレーム遅延５１から逆変換ユニット５０に直接に渡すことを可能にし、それはフレームｍのオーディオ信号サンプルに変換される。

フレームｍ内にエラーが検出される場合、エラー検出モジュール４２はフレームｍの係数のすべてを破棄して、マルチプレクサ４９が、フレームｍの係数推定

をＦＬＣモジュール４３から逆変換ユニット５０に渡すことを可能にする。ＦＬＣモジュール４３はフレームｍ＋１の係数Ｘ_ｍ＋１（ｋ）をコアデコーダ４１から受信し、フレームｍ−１の係数Ｘ_ｍ−１（ｋ）を第２のフレーム遅延５２から受信する。ＦＬＣモジュール４３はフレームｍ＋１およびｍ−１の係数を使用して、フレームｍの係数の大きさを推定する。加えて、ＦＬＣモジュール４３は、オーディオエンコーダ２０からフレームｍ＋１のオーディオビットストリーム２６と共に送信されたフレームｍの符号Ｓ_ｍのサブセット２８を使用して、フレームｍの係数の符号を推定する。次に、ＦＬＣモジュール４３は、大きさ推定と符号推定を結合して、フレームｍの係数を推定する。次に、ＦＬＣモジュール４３は係数推定

を逆変換ユニット５０に送り、逆変換ユニット５０は、フレームｍの係数推定を、フレームｍのオーディオ信号の推定サンプル

に変換する。

ＦＬＣモジュール４３は大きさ推定器４４と、成分選択モジュール４６と、符号推定器４８とを含んでいる。コアデコーダ４１はフレームｍ＋１の係数Ｘ_ｍ＋１（ｋ）を大きさ推定器４４に送り、第２のフレーム遅延５２はフレームｍ−１の係数Ｘ_ｍ−１（ｋ）を大きさ推定器４４に送る。オーディオエンコーダ２０内の大きさ推定器３４と実質的に類似して、大きさ推定器４４は、フレームｍ＋１およびｍ−１の係数に基づいて、フレームｍの係数の大きさを推定する。大きさ推定器４４は、種々の補間技術の１つを実施して、フレームｍの係数の大きさを推定することができる。例えば、大きさ推定器４４は、フレームｍ−１の先行フレーム係数Ｘ_ｍ−１（ｋ）およびフレームｍ＋１の次のフレーム係数Ｘ_ｍ＋１（ｋ）のエネルギに基づいて、エネルギ補間を実施することができる。大きさ推定は上述の式（１）で与えられている。他の実施形態では、大きさ推定器４４は、フレームｍの直前でも直後でもないフレームｍの近傍フレームを利用して、フレームｍの係数の大きさを推定してもよい。

次に、大きさ推定器４４は、フレームｍの推定された係数の大きさ

を成分選択モジュール４６に送る。成分選択モジュール４６は、フレームｍの推定された係数の大きさを分類することによって、フレームｍのトーン成分と雑音成分とを区別する。最大の大きさまたは最も顕著なスペクトルピークを有する係数をトーン成分とみなし、残りの係数は雑音成分をみなしてもよい。選択されるトーン成分数は、送信される所定数の符号に基づいてもよい。他の場合には、フレームｍについて選択されるトーン成分数は、オーディオ信号に基づいて変化してもよい。次に、成分選択モジュール４６は、フレームｍの推定された係数の大きさから選択されるトーン成分の場所を識別する推定インデックスサブセット

を生成する。推定インデックスサブセットは上述の式（３）で与えられている。

成分選択モジュール４６は、オーディオエンコーダ２０（オーディオビットストリームはオーディオエンコーダ２０から受信される）内の成分選択モジュール３６と全く同じ動作を使用して、フレームｍ内のトーン成分を選択する。したがって、フレームｍの推定された係数の大きさから選択されるトーン成分の場所を識別する同じ推定インデックスサブセット

は、オーディオエンコーダ２０とオーディオデコーダ４０の両方で生成することができる。したがって、オーディオデコーダ４０は、フレームｍのトーン成分の符号Ｓ_ｍのサブセット２８を、推定インデックスサブセットによって識別されるフレームｍの適切な推定された係数の大きさに適用することができる。

成分選択モジュール４６は、フレームｍの推定インデックスサブセットを符号推定器４８に送る。符号推定器４８はまた、フレームｍ＋１のオーディオビットストリーム２６と共に送信されたフレームｍの符号Ｓ_ｍのサブセット２８をオーディオエンコーダ２０から受信する。次に、符号推定器４８は、フレームｍのトーン成分と雑音成分との両方の符号を推定する。

雑音成分の場合、符号推定器４８はランダム信号から符号を推定する。トーン成分の場合、符号推定器４８は、推定インデックスサブセット

に基づいて符号Ｓ_ｍのサブセット２８から符号を推定する。例えば、推定インデックスサブセットは、所定数、例えば１０個の係数インデックスを含み、これらは、フレームｍの推定された係数の大きさから選択されるトーン成分を識別する。次に、符号推定器４８は、推定インデックスサブセット内のインデックスに等しいインデックスｋを有する符号Ｓ_ｍのサブセット２８としてフレームｍのトーン成分の符号を推定する。符号推定

は以下のように与えられる：

ここで、ｓｇｎ（）は符号関数を示しており、

は、選択されたトーン成分に対応する係数の推定インデックスサブセットであり、Ｓ_ｍ（ｋ）はサンプル空間｛−１，１｝を有するランダム変数である。

上述のように、フレームｍのトーン成分の符号を推定するために、オーディオデコーダ４０は、フレームｍ内のトーン成分の場所と、フレームｍのオリジナルトーン成分の対応する符号とを知る必要がある。オーディオデコーダ４０がこの情報を受信する簡単なやり方は、高められたビットレートによって、オーディオエンコーダ２０からオーディオデコーダ４０に両方のパラメータを明確に送信することである。示されている実施形態では、推定インデックスサブセット

は、オーディオエンコーダ２０およびオーディオデコーダ４０の両方で全く同じ導出プロセスを使用して自己導出されるのに対して、推定インデックスサブセット

によってインデックスを付けられたフレームｍのトーン成分の符号は、サイド情報としてオーディオエンコーダ２０から送信される。

次に、ＦＬＣモジュール４３は、大きさ推定器４４からの大きさ推定

と、符号推定器４８からの符号推定

とを結合して、フレームｍの係数を推定する。フレームｍの係数推定

は以下のように与えられる：

次に、ＦＬＣモジュール４３は、フレームｍの係数推定を渡すことを可能にされたマルチプレクサ４９を介して、逆変換ユニット５０に係数推定を送り、逆変換ユニット５０はフレームｍの係数推定をフレームｍのオーディオ信号の推定サンプル

に変換する。

図５は、オーディオビットストリームをエンコードして、オーディオビットストリームと共に送信されるフレームの符号のサブセットをサイド情報として生成する例示的な動作を説明するフローチャートである。この動作を図３のオーディオエンコーダ２０を参照してここで説明する。

変換ユニット２２はフレームｍ＋１のオーディオ信号ｘ_ｍ＋１［ｎ］のサンプルを受信して、このサンプルをフレームｍ＋１の係数Ｘ_ｍ＋１（ｋ）に変換する（５４）。次に、コアエンコーダ２４は、この係数をフレームｍ＋１のオーディオビットストリーム２６にエンコードする（５６）。変換ユニット２２はフレームｍ＋１の係数Ｘ_ｍ＋１（ｋ）を大きさ推定器３４および第１のフレーム遅延３０に送る。第１のフレーム遅延３０はフレーム遅延を実行して、フレームｍの係数Ｘ_ｍ（ｋ）を生成する（５８）。次に、第１のフレーム遅延３０は、フレームｍの係数を第２のフレーム遅延３２に送る。第２のフレーム遅延３２はフレーム遅延を実行して、フレームｍ−１の係数Ｘ_ｍ−１（ｋ）を生成する（６０）。次に、第２のフレーム遅延３２は、フレームｍ−１の係数を大きさ推定器３４に送る。

大きさ推定器３４は、フレームｍ＋１およびｍ−１の係数に基づいて、フレームｍの係数の大きさを推定する（６２）。例えば、大きさ推定器３４は、式（１）で与えられたエネルギ補間技術を実施して、係数の大きさを推定することができる。次に、大きさ推定器３４は、フレームｍの推定された係数の大きさ

を成分選択モジュール３６に送る。成分選択モジュール３６は、フレームｍの推定された係数の大きさを分類することによって、フレームｍのトーン成分と雑音成分とを区別する。最大の大きさを有する係数をトーン成分とみなし、残りの係数を雑音成分とみなしてもよい。選択されるトーン成分数は、送信される所定数の符号に基づいてもよい。他の場合には、フレームｍについて選択されるトーン成分数は、オーディオ信号に基づいて変化してもよい。次に、成分選択モジュール３６は、フレームｍの推定された係数の大きさから選択されるトーン成分の場所を識別する推定インデックスサブセット

を生成する（６４）。

成分選択モジュール３６はフレームｍの推定インデックスサブセットを符号抽出器３８に送る。符号抽出器３８はまた、フレームｍの係数Ｘ_ｍ（ｋ）を第１のフレーム遅延３０から受信する。次に、符号抽出器３８は、推定インデックスサブセットによって識別されたフレームｍの係数Ｘ_ｍ（ｋ）から符号を抽出する（６６）。次に、符号抽出器３８は、推定インデックスサブセットによって識別されたフレームｍのトーン成分から抽出された符号Ｓ_ｍのサブセット２８を、フレームｍ＋１のオーディオビットストリーム２６に添付する（６８）。

図６は、オーディオビットストリームをデコードして、サイド情報としてエンコーダから受信されたフレームの符号のサブセットを使用してフレーム損失隠蔽を実行する例示的な動作を図示するフローチャートである。この動作を図４のオーディオデコーダ４０を参照してここで説明する。

コアデコーダ４１は、係数Ｘ_ｍ（ｋ）を含むフレームｍのオーディオビットストリームを受信する（７２）。次に、エラー検出モジュール４２は、フレームｍのオーディオビットストリームにエラー検出を実行する（７４）。コアデコーダ４１は続いて、係数Ｘ_ｍ＋１（ｋ）を含むフレームｍ＋１のオーディオビットストリーム２６と、サイド情報としてフレームｍの符号Ｓ_ｍのサブセット２８とを受信する（７５）。コアデコーダ４１は、第１のフレーム遅延５１を使用して、フレームｍの係数を、破棄されない場合は生成し、第２のフレーム遅延５２を使用して、フレームｍ＋１のオーディオビットストリームからフレームｍ−１の係数を生成する。フレームｍの係数が破棄されない場合、第１のフレーム遅延５１はフレームｍの係数をマルチプレクサ４９に送る。第２のフレーム遅延５２はフレームｍ−１の係数をＦＬＣモジュール４３に送る。

フレームｍ内にエラーが検出されない場合、エラー検出モジュール４２は、マルチプレクサ４９がフレームｍの係数を第１のフレーム遅延５１から逆変換ユニット５０に直接に渡すことを可能にし、それはフレームｍのオーディオ信号サンプルに変換される。フレームｍ内にエラーが検出される場合、エラー検出モジュール４２は、フレームｍの係数のすべてを破棄して、マルチプレクサ４９がフレームｍの係数推定をＦＬＣモジュール４３から逆変換ユニット５０に渡すことを可能にする（７６）。

コアデコーダ４１はフレームｍ＋１の係数Ｘ_ｍ＋１（ｋ）を大きさ推定器４４に送り、第２のフレーム遅延５２はフレームｍ−１の係数Ｘ_ｍ−１（ｋ）を大きさ推定器４４に送る。大きさ推定器４４は、フレームｍ＋１およびｍ−１の係数に基づいて、フレームｍの係数の大きさを推定する（７８）。例えば、大きさ推定器４４は、上述の式（１）で与えられているエネルギ補間技術を実施して、係数の大きさを推定することができる。次に、大きさ推定器４４は、フレームｍの推定された係数の大きさ

を成分選択モジュール４６に送る。

成分選択モジュール４６は、フレームｍの推定された係数の大きさを分類することによって、フレームｍのトーン成分と雑音成分とを区別する。最大の大きさを有する係数をトーン成分とみなし、残りの係数を雑音成分とみなしてもよい。選択されるトーン成分数は、送信される所定数の符号に基づいてもよい。他の場合には、フレームｍについて選択されるトーン成分数は、オーディオ信号に基づいて変化してもよい。次に、成分選択モジュール４６は、フレームｍの推定された係数の大きさから選択されるトーン成分の場所を識別する推定インデックスサブセット

を生成する（８０）。

成分選択モジュール４６は、オーディオビットストリームが受信されるオーディオエンコーダ２０内の成分選択モジュール３６と全く同じ動作を使用して、フレームｍ内のトーン成分を選択する。したがって、フレームｍの推定された係数の大きさから選択されるトーン成分の場所を識別する同じ推定インデックスサブセット

は、オーディオエンコーダ２０およびオーディオデコーダ４０の両方で生成されることができる。したがって、オーディオデコーダ４０は、フレームｍのトーン成分の符号Ｓ_ｍのサブセット２８を、推定インデックスサブセットによって識別されたフレームｍの適切な推定された係数の大きさに適用することができる。

成分選択モジュール４６は、フレームｍの推定インデックスサブセットを符号推定器４８に送る。符号推定器４８はまた、フレームｍ＋１のオーディオビットストリーム２６と共に送信されるフレームｍの符号Ｓ_ｍのサブセット２８を、オーディオエンコーダ２０から受信する。次に、符号推定器４８は、フレームｍのトーン成分および雑音成分の両方の符号を推定する。トーン成分の場合には、符号推定器４８は、推定インデックスサブセットに基づいてフレームｍの符号Ｓ_ｍのサブセット２８から符号を推定する（８２）。雑音成分の場合、符号推定器４８はランダム信号から符号を推定する（８４）。

と、符号推定器４８からの符号推定

とを結合して、フレームｍの係数を推定する（８６）。ＦＬＣモジュール４３は係数推定

を逆変換ユニット５０に送り、逆変換ユニット５０はフレームｍの係数推定をフレームｍのオーディオ信号の推定サンプル

に変換する（８８）。

図７は、別の例示的なオーディオエンコーダ９０を示すブロック図であり、オーディオエンコーダ９０は、成分選択モジュール１０２と符号抽出器１０４とを含み、サイド情報として送信されるフレームの符号のサブセットを生成する。オーディオエンコーダ９０は、図１のそれぞれの通信デバイス３および４内のオーディオコーデック６および１０と実質的に類似していてもよい。図７に示されているように、オーディオエンコーダ９０は変換ユニット９２と、コアエンコーダ９４と、フレーム遅延１００と、成分選択モジュール１０２と、符号抽出器１０４とを含んでいる。例示の目的のために、オーディオエンコーダ９０は、ここでは、オーディオ信号のフレームの周波数ドメインデータがＭＤＣＴ係数によって表されるＡＡＣ標準に準拠しているものとして説明される。加えて、変換ユニット９２は修正離散コサイン変換ユニットとして説明される。他の実施形態では、オーディオエンコーダ９０は、上述で列挙されているオーディオコーディング標準のいずれかに準拠していてもよい。

本技術は、ここでは、オーディオ信号のフレームｍを隠蔽するものとして説明される。フレームｍ＋１は、オーディオ信号のフレームｍの直後のオーディオフレームを表している。同様に、フレームｍ−１は、オーディオ信号のフレームｍの直前のオーディオフレームを表している。他の実施形態では、エンコーダ支援ＦＬＣ技術は、フレームの直前でも直後でもないフレームｍの近傍フレームを利用して、フレームｍを隠蔽することができる。

変換ユニット９２はフレームｍ＋１のオーディオ信号ｘ_ｍ＋１［ｎ］のサンプルを受信して、このサンプルを係数Ｘ_ｍ＋１（ｋ）に変換する。次に、コアエンコーダ９４は、この係数をフレームｍ＋１のオーディオビットストリーム９６にエンコードする。成分選択モジュール１０２はフレームｍ＋１の係数Ｘ_ｍ＋１（ｋ）を使用し、符号抽出器１０４はフレームｍの係数Ｘ_ｍ（ｋ）を使用して、フレームｍの符号Ｓ_ｍのサブセット９８を生成する。符号抽出器１０４は、この符号Ｓ_ｍのサブセット９８をサイド情報としてフレームｍ＋１のオーディオビットストリーム９６に添付する。

より具体的には、変換ユニット９２はフレームｍ＋１の係数Ｘ_ｍ＋１（ｋ）を成分選択モジュール１０２およびフレーム遅延１００に送る。フレーム遅延１００はフレームｍの係数Ｘ_ｍ（ｋ）を生成して、フレームｍの係数を符号抽出器１０４に送る。成分選択モジュール１０２は、フレームｍ＋１の係数の大きさを分類することによって、フレームｍ＋１のトーン成分と雑音成分とを区別する。最大の大きさまたは最も顕著なスペクトルピークを有する係数をトーン成分とみなし、残りの係数を雑音成分とみなしてもよい。

選択されるトーン成分数は、送信される所定数の符号に基づいてもよい。例えば、最大の大きさを有する係数の１０個が、フレームｍ＋１のトーン成分として選択されてもよい。他の場合には、成分選択モジュール１０２は１０個より多いか、または１０個未満のトーン成分を選択してもよい。さらに別の場合には、フレームｍ＋１について選択されるトーン成分数は、オーディオ信号に基づいて変化してもよい。例えば、オーディオ信号がフレームｍ＋１において、オーディオ信号の他のフレームよりも、多くのトーン成分を含んでいる場合、成分選択モジュール３６は、他のフレームよりもフレームｍ＋１からより多くのトーン成分を選択してもよい。

他の実施形態では、成分選択モジュール１０２は、フレームｍ＋１のトーン成分と雑音成分とを区別するための種々の他の方式を使用して、フレームｍ＋１の係数の大きさからトーン成分を選択してもよい。例えば、成分選択モジュール１０２は、いくつかの心理音響原理に基づいて係数のサブセットを選択してもよい。オーディオエンコーダ９０は、オーディオエンコーダ９０の複雑さレベルが許容するより正確な成分区別方式を用いてもよい。

次に、成分選択モジュール１０２は、フレームｍ＋１の係数の大きさから選択されるトーン成分の場所を識別するインデックスサブセットＩ_ｍ＋１を生成する。トーン成分は、最も顕著な大きさを有するフレームｍ＋１の係数として選択される。フレームｍ＋１の係数は、フレームｍの隠蔽を実行する場合に、オーディオデコーダに使用可能である。したがって、インデックスサブセットは、フレームｍ＋１の係数の大きさＸ_ｍ＋１（ｋ）に基づいて導出される。インデックスサブセットは以下のように与えられる：

ここで、Ｍは、フレームｍ＋１内のＭＤＣＴ係数の数であり、Ｔｈｒは、｜Ｉ_ｍ＋１｜＝Ｂ_ｍ＋１となるように判断される閾値であり、Ｂ_ｍ＋１は、送信される符号の数である。例えば、Ｂ_ｍ＋１は１０個の符号に等しくてもよい。他の実施形態では、Ｂ_ｍ＋１は１０より大きいか、または１０未満であってもよい。さらに別の実施形態では、Ｂ_ｍ＋１はフレームｍのオーディオ信号に基づいて変化してもよい。

成分選択モジュール１０２はフレームｍ＋１のインデックスサブセットを符号抽出器１０４に送る。符号抽出器１０４はまた、フレームｍの係数Ｘ_ｍ（ｋ）をフレーム遅延１００から受信する。フレームｍのインデックスサブセットは、フレームｍ＋１のインデックスサブセットにほぼ等しいと想定される。次に、符号抽出器１０４は、フレームｍ＋１のインデックスサブセットによって識別されたフレームｍの係数Ｘ_ｍ（ｋ）から符号を抽出する。例えば、インデックスサブセットは、所定数、例えば１０個の係数インデックスを含み、係数インデックスは、フレームｍ＋１の係数の大きさから選択されるトーン成分を識別する。次に、符号抽出器１０４は、フレームｍ＋１のインデックスサブセット内のインデックスに等しいインデックスｋを有するフレームｍの係数Ｘ_ｍ（ｋ）に対応する符号を抽出する。次に、符号抽出器１０４は、フレームｍ＋１のインデックスサブセットによって識別されたフレームｍのトーン成分から抽出された符号Ｓ_ｍのサブセット９８を、フレームｍ＋１のオーディオビットストリーム９６に添付する。

成分選択モジュール１０２は、オーディオエンコーダ９０からの送信を受信するオーディオデコーダと全く同じ動作を使用して、フレームｍ＋１内のトーン成分を選択する。したがって、フレームｍ＋１の係数の大きさから選択されるトーン成分の場所を識別する同じインデックスサブセットＩ_ｍ＋１は、オーディオエンコーダ９０およびオーディオデコーダの両方で生成することができる。したがって、オーディオデコーダは、フレームｍのトーン成分の符号Ｓ_ｍのサブセット９８を、フレームｍ＋１のインデックスサブセットによって識別されたフレームｍの適切な推定された係数の大きさに適用することができる。このように、オーディオエンコーダ９０は、符号Ｓ_ｍのサブセット９８と共にフレームｍ内のトーン成分の場所を送信する必要がないため、送信されるサイド情報量を最小化することができる。

図８は、サイド情報としてエンコーダから受信されたフレームの符号のサブセットを利用するフレーム損失隠蔽モジュール１１３を含む別の例示的なオーディオデコーダ１１０を示すブロック図である。オーディオデコーダ１１０は、図１のそれぞれの通信デバイス３および４内のオーディオコーデック６および１０に実質的に類似していてもよい。オーディオデコーダ１１０は、図７のオーディオエンコーダ９０と実質的に類似しているオーディオエンコーダから、オーディオビットストリームを受信してもよい。図８に示されているように、オーディオデコーダ１１０はコアデコーダ１１１と、エラー検出モジュール１１２と、ＦＬＣモジュール１１３と、逆変換ユニット１２０とを含んでいる。

例示の目的のために、ここでは、オーディオデコーダ１１０は、オーディオ信号のフレームの周波数ドメインデータがＭＤＣＴ係数によって表されるＡＡＣ標準に準拠するものとして説明される。加えて、逆変換ユニット１２０は逆修正離散コサイン変換ユニットとして説明される。他の実施形態では、オーディオデコーダ１１０は、上述で列挙されたオーディオコーディング標準のいずれかに準拠してもよい。

コアデコーダ１１１は、係数Ｘ_ｍ（ｋ）を含むフレームｍのオーディオビットストリームを受信して、フレームｍのオーディオビットストリームをエラー検出モジュール１１２に送る。次に、エラー検出モジュール１１２は、フレームｍのオーディオビットストリームにエラー検出を実行する。コアデコーダ１１は続いて、係数Ｘ_ｍ＋１（ｋ）を含むフレームｍ＋１のオーディオビットストリーム９６と、サイド情報としてフレームｍの符号Ｓ_ｍのサブセット９８とを受信する。コアデコーダ１１１は、第１のフレーム遅延１２１を使用して、フレームｍの係数を、破棄されない場合は生成し、第２のフレーム遅延１２２を使用して、フレームｍ＋１のオーディオビットストリームからフレームｍ−１の係数を生成する。フレームｍの係数が破棄されない場合、第１のフレーム遅延１２１はフレームｍの係数をマルチプレクサ１１９に送る。第２のフレーム遅延１２２はフレームｍ−１の係数をＦＬＣモジュール１１３に送る。

フレームｍ内にエラーが検出されない場合、エラー検出モジュール１１２は、マルチプレクサ１１９がフレームｍの係数Ｘ_ｍ（ｋ）を第１のフレーム遅延１２１から逆変換ユニット１２０に直接に渡すことを可能にし、それはフレームｍのオーディオ信号サンプルに変換される。

フレームｍ内にエラーが検出される場合、エラー検出モジュール１１２はフレームｍの係数のすべてを破棄して、マルチプレクサ１１９が、フレームｍの係数推定

をＦＬＣモジュール１１３から逆変換ユニット１２０に渡すことを可能にする。ＦＬＣモジュール１１３はフレームｍ＋１の係数Ｘ_ｍ＋１（ｋ）をコアデコーダ１１１から受信し、フレームｍ−１の係数Ｘ_ｍ−１（ｋ）を第２のフレーム遅延１２２から受信する。ＦＬＣモジュール１１３はフレームｍ＋１およびｍ−１の係数を使用して、フレームｍの係数の大きさを推定する。加えて、ＦＬＣモジュール１１３は、オーディオエンコーダ９０からフレームｍ＋１のオーディオビットストリーム９６と共に送信されたフレームｍの符号Ｓ_ｍのサブセット９８を使用して、フレームｍの係数の符号を推定する。次に、ＦＬＣモジュール１１３は、大きさ推定と符号推定とを結合して、フレームｍの係数を推定する。ＦＬＣモジュール１１３は係数推定

を逆変換ユニット１２０に送り、逆変換ユニット１２０はフレームｍの係数推定を、フレームｍのオーディオ信号の推定サンプル

に変換する。

ＦＬＣモジュール１１３は大きさ推定器１１４と、成分選択モジュール１１６と、符号推定器１１８とを含んでいる。コアデコーダ１１１はフレームｍ＋１の係数Ｘ_ｍ＋１（ｋ）を大きさ推定器１１４に送り、第２のフレーム遅延１２２はフレームｍ−１の係数Ｘ_ｍ−１（ｋ）を大きさ推定器１１４に送る。大きさ推定器１１４は、フレームｍ＋１およびｍ−１の係数に基づいて、フレームｍの係数の大きさを推定する。大きさ推定器１１４は、種々の補間技術の１つを実施して、フレームｍの係数の大きさを推定することができる。例えば、大きさ推定器１１４は、フレームｍ−１の先行フレーム係数Ｘ_ｍ−１（ｋ）およびフレームｍ＋１の次のフレーム係数Ｘ_ｍ＋１（ｋ）のエネルギに基づいて、エネルギ補間を実施することができる。係数の大きさ推定

は式（１）で与えられている。他の実施形態では、エンコーダ支援ＦＬＣ技術は、フレームｍの直前でも直後でもないフレームｍの近傍フレームを利用して、フレームｍの係数の大きさを推定してもよい。

成分選択モジュール１１６はフレームｍ＋１の係数Ｘ_ｍ＋１（ｋ）を受信して、フレームｍ＋１の係数の大きさを分類することによってフレームｍ＋１のトーン成分と雑音成分とを区別する。最大の大きさまたは最も顕著なスペクトルピークを有する係数をトーン成分とみなし、残りの係数を雑音成分とみなしてもよい。選択されるトーン成分数は、送信される所定数の符号に基づいてもよい。他の場合には、フレームｍ＋１について選択されるトーン成分数は、オーディオ信号に基づいて変化してもよい。次に、成分選択モジュール１１６は、フレームｍ＋１の係数の大きさから選択されるトーン成分の場所を識別するインデックスサブセットＩ_ｍ＋１を生成する。フレームｍ＋１のインデックスサブセットは、上述の式（６）で与えられている。フレームｍのインデックスサブセットは、フレームｍ＋１のインデックスサブセットとほぼ等しいと想定される。

成分選択モジュール１１６は、オーディオエンコーダ９０（オーディオビットストリームはオーディオエンコーダ９０から受信される）内の成分選択モジュール１０２と全く同じ動作を使用して、フレームｍ＋１内のトーン成分を選択する。したがって、フレームｍ＋１の係数の大きさから選択されるトーン成分の場所を識別する同じインデックスサブセットＩ_ｍ＋１は、オーディオエンコーダ９０とオーディオデコーダ１１０との両方で生成されることができる。したがって、オーディオデコーダ１１０は、フレームｍのトーン成分の符号Ｓ_ｍのサブセット９８を、フレームｍ＋１のインデックスサブセットによって識別されたフレームｍの適切な推定された係数の大きさに適用することができる。

成分選択モジュール１１６は、フレームｍ＋１のインデックスサブセットを符号推定器１１８に送る。符号推定器１１８はまた、エンコーダ９０からフレームｍ＋１のオーディオビットストリーム９６と共に送信されたフレームｍの符号Ｓ_ｍのサブセット９８を受信する。次に、符号推定器１１８は、フレームｍのトーン成分および雑音成分の両方の符号を推定する。

雑音成分の場合、符号推定器１１８はランダム信号から符号を推定する。トーン成分の場合、符号推定器１１８は、フレームｍ＋１のインデックスサブセットに基づいて符号Ｓ_ｍのサブセット９８から符号を推定する。例えば、インデックスサブセットは、所定数、例えば１０個の係数インデックスを含み、係数インデックスは、フレームｍ＋１の係数の大きさから選択されるトーン成分を識別する。次に、符号推定器１１８は、フレームｍ＋１のインデックスサブセット内のインデックスと等しいインデックスｋを有する符号Ｓ_ｍのサブセット９８としてフレームｍのトーン成分の符号を推定する。符号推定は以下のように与えられる：

ここで、ｓｇｎ（）は、符号関数を示しており、Ｉ_ｍ＋１は、選択されたトーン成分に対応する係数のインデックスサブセットであり、Ｓ_ｍ（ｋ）は、サンプル空間｛−１，１｝を有するランダム変数である。

上述のように、フレームのトーン成分の符号を推定するために、オーディオデコーダ１１０は、フレームｍ内のトーン成分の場所と、フレームｍのオリジナルトーン成分の対応する符号を知る必要がある。オーディオデコーダ１１０がこの情報を受信する簡単なやり方は、高められたビットレートによって、オーディオエンコーダ９０からオーディオデコーダ１１０に両方のパラメータを明確に送信することである。示されている実施形態では、インデックスサブセットＩ_ｍ＋１は、オーディオエンコーダ９０とオーディオデコーダ１１０の両方で全く同じ導出プロセスを使用して自己導出されるのに対して、フレームｍ＋１のインデックスサブセットＩ_ｍ＋１によってインデックスを付けられたフレームｍのトーン成分の符号は、サイド情報としてオーディオエンコーダ９０から送信される。

次に、ＦＬＣモジュール１１３は、大きさ推定器１１４からの大きさ推定

と、符号推定器１１８からの符号推定

は、式（５）で与えられている。次に、ＦＬＣモジュール１１３は係数推定を逆変換ユニット１２０に送り、逆変換ユニット１２０は、フレームｍの係数推定をフレームｍのオーディオ信号の推定サンプル

に変換する。

図９は、オーディオビットストリームをエンコードして、オーディオビットストリームと共に送信されるフレームの符号のサブセットをサイド情報として生成する別の例示的な動作を示すフローチャートである。この動作を図７のオーディオエンコーダ９０を参照してここで説明する。

変換ユニット９２は、フレームｍ＋１のオーディオ信号ｘ_ｍ＋１［ｎ］のサンプルを受信し、このサンプルをフレームｍ＋１の係数Ｘ_ｍ＋１（ｋ）に変換する（１２４）。次に、コアエンコーダ９４は、この係数をフレームｍ＋１のオーディオビットストリーム９６にエンコードする（１２６）。変換ユニット９２は、フレームｍ＋１の係数Ｘ_ｍ＋１（ｋ）を成分選択モジュール１０２およびフレーム遅延１００に送る。フレーム遅延１００はフレーム遅延を実行して、フレームｍの係数Ｘ_ｍ（ｋ）を生成する（１２８）。次に、フレーム遅延１００は、フレームｍの係数を符号抽出器１０４に送る。

成分選択モジュール１０２は、フレームｍ＋１の係数の大きさを分類することによって、フレームｍ＋１のトーン成分と雑音成分とを区別する。最大の大きさを有する係数をトーン成分とみなし、残りの係数を雑音成分とみなしてもよい。選択されるトーン成分数は、送信される所定数の符号に基づいてもよい。他の場合には、フレームｍ＋１について選択されるトーン成分数は、オーディオ信号に基づいて変化してもよい。次に、成分選択モジュール１０２は、フレームｍ＋１の係数の大きさから選択されるトーン成分を識別するインデックスサブセットＩ_ｍ＋１を生成する（１３０）。

成分選択モジュール１０２は、フレームｍ＋１のインデックスサブセットを符号抽出器１０４に送る。符号抽出器１０４はまた、フレームｍの係数Ｘ_ｍ（ｋ）をフレーム遅延１００から受信する。フレームｍのインデックスサブセットは、フレームｍ＋１のインデックスサブセットとほぼ等しいと想定される。次に、符号抽出器１０４は、フレームｍ＋１のインデックスサブセットによって識別されたフレームｍの係数Ｘ_ｍ（ｋ）から符号を抽出する（１３２）。次に、符号抽出器１０４は、フレームｍ＋１のインデックスサブセットによって識別されたフレームｍのトーン成分から抽出された符号Ｓ_ｍのサブセット９８を、フレームｍ＋１のオーディオビットストリーム９６に添付する（１３４）。

図１０は、オーディオビットストリームをデコードして、サイド情報としてエンコーダから受信したフレームの符号のサブセットを使用してフレーム損失隠蔽を実行する別の例示的な動作を示すフローチャートである。この動作を図８のオーディオデコーダ１１０を参照してここで説明する。

コアデコーダ１１１は、係数Ｘ_ｍ（ｋ）を含むフレームｍのオーディオビットストリームを受信する（１３８）。次に、エラー検出モジュール１１２は、フレームｍのオーディオビットストリームにエラー検出を実行する（１４０）。コアデコーダ１１１は続いて、係数Ｘ_ｍ＋１（ｋ）を含むフレームｍ＋１のオーディオビットストリーム９６と、サイド情報としてのフレームｍの符号Ｓ_ｍのサブセット９８とを受信する（１４１）。コアデコーダ１１１は、第１のフレーム遅延１２１を使用して、フレームｍの係数を、破棄されない場合は生成し、第２のフレーム遅延１２２を使用して、フレームｍ＋１のオーディオビットストリームからフレームｍ−１の係数を生成する。フレームｍの係数が破棄されない場合、第１のフレーム遅延１２１はフレームｍの係数をマルチプレクサ１１９に送る。第２のフレーム遅延１２２はフレームｍ−１の係数をＦＬＣモジュール１１３に送る。

フレームｍ内にエラーが検出されない場合、エラー検出モジュール１１２は、マルチプレクサ１１９がフレームｍの係数を第１のフレーム遅延１２１から逆変換ユニット１２０に直接に渡すことを可能にし、それはフレームｍのオーディオ信号サンプルに変換される。フレームｍ内にエラーが検出される場合、エラー検出モジュール１１２は、フレームｍの係数のすべてを破棄して、マルチプレクサ１１９がフレームｍの係数推定をＦＬＣモジュール１１３から逆変換ユニット１２０に渡すことを可能にする（１４２）。

コアデコーダ１１１は、フレームｍ＋１の係数Ｘ_ｍ＋１（ｋ）を大きさ推定器１１４に送り、第２の遅延フレーム１２２はフレームｍ−１の係数Ｘ_ｍ−１（ｋ）を大きさ推定器１１４に送る。大きさ推定器１１４は、フレームｍ＋１およびｍ−１の係数に基づいて、フレームｍの係数の大きさを推定する（１４４）。例えば、大きさ推定器４４は、式（１）で与えられたエネルギ補間技術を実施して、係数の大きさを推定することができる。

成分選択モジュール１１６は、フレームｍ＋１の係数Ｘ_ｍ＋１（ｋ）を受信して、フレームｍ＋１の係数の大きさを分類することによって、フレームｍ＋１のトーン成分と雑音成分とを区別する。最大の大きさを有する係数をトーン成分とみなし、残りの係数を雑音成分とみなしてもよい。選択されるトーン成分数は、送信される所定数の符号に基づいてもよい。他の場合には、フレームｍ＋１について選択されたトーン成分は、オーディオ信号に基づいて変化してもよい。次に、成分選択モジュール１１６は、フレームｍ＋１の係数の大きさから選択されるトーン成分の場所を識別するインデックスサブセットＩ_ｍ＋１を生成する（１４６）。フレームｍのインデックスサブセットは、フレームｍ＋１のインデックスサブセットとほぼ等しいと想定される。

成分選択モジュール１１６は、オーディオエンコーダ９０（ここからオーディオビットストリームが受信される）内の成分選択モジュール１０２と全く同じ動作を使用して、フレームｍ＋１内のトーン成分を選択する。したがって、フレームｍ＋１の係数の大きさから選択されるトーン成分の場所を識別する同じインデックスサブセットＩ_ｍ＋１は、オーディオエンコーダ９０およびオーディオデコーダ１１０の両方で生成されることができる。したがって、オーディオデコーダ１１０は、フレームｍのトーン成分の符号Ｓ_ｍのサブセット９８を、フレームｍ＋１のインデックスサブセットによって識別されたフレームｍの適切な推定された係数の大きさに適用することができる。

成分選択モジュール１１６は、フレームｍ＋１のインデックスサブセットを符号推定器１１８に送る。符号推定器１１８はまた、エンコーダ９０からフレームｍ＋１のオーディオビットストリーム９６と共に送信されたフレームｍの符号Ｓ_ｍのサブセット９８を受信する。符号推定器１１８は、フレームｍ＋１のインデックスサブセットに基づいて、符号Ｓ_ｍのサブセット９８からフレームｍのトーン成分の符号を推定する（１４８）。符号推定器１１８は、ランダム信号から雑音成分の符号を推定する（１５０）。

と、符号推定器１１８からの符号推定

とを結合して、フレームｍの係数を推定する（１５２）。ＦＬＣモジュール１１３は係数推定

を逆変換ユニット１２０に送り、逆変換ユニット１２０はフレームｍの係数推定をフレームｍのオーディオ信号の推定サンプル

に変換する（１５４）。

図１１は、従来のＦＬＣ技術１６０のフレーム損失レートと、本明細書に説明されているエンコーダ支援ＦＬＣ技術１６２のフレーム損失レートとの品質比較を示すプロットである。この比較は、２つのＦＬＣ方法間で、０％、５％、１０％、１５％、および２０％のフレーム損失レート（ＦＬＲ）において行われている。ＣＤからサンプリングされた多数のモノオーディオシーケンスは、ビットレート４８ｋｂｐｓでエンコードされ、エンコードされたフレームは、１つのフレーム損失に制限されて特定のレートでランダムに落ちている。

本明細書に説明されているエンコーダ支援ＦＬＣ技術では、エンコーダがサイド情報として送信した符号の数はすべてのフレームについて固定され、１０ビット／フレームに制限され、これはビットレート０．４３ｋｂｐｓに等しい。２つの異なるビットレート、すなわち（ｉ）従来のＦＬＣ技術の４８ｋｂｐｓのＡＡＣビットストリーム、および（ｉｉ）エンコーダ支援ＦＬＣ技術のビットレート０．４３ｋｂｐｓの符号情報を含む４７．５７ｋｂｐｓのＡＡＣビットストリームが生成された。隠蔽されたオーディオ品質の主観的評価について、４４．１ｋＨｚサンプリングレートで多声オーディオシーケンスの種々のジャンルを選択し、種々のＦＬＲで両方法によってデコーダ再構成を比較した。アンカによる多数刺激の隠されたリファレンス（ｍｕｌｔｉ−ｓｔｉｍｕｌｕｓｈｉｄｄｅｎｒｅｆｅｒｅｎｃｅｗｉｔｈａｎｃｈｏｒ，ＭＵＳＨＲＡ）テストを採用して、１１人のリスナーによって実行した。

図１１から、エンコーダ支援ＦＬＣ技術１６２は、全ＦＬＲにおいてオーディオデコーダ再構成品質を高めていることが分かる。例えば、エンコーダ支援ＦＬＣ技術は、中間（５％および１０％）のＦＬＲで８０ポイントよりも良いＭＵＳＨＲＡスコアの再構成品質を維持している。さらに、１５％のＦＬＲのエンコーダ支援ＦＬＣ技術１６２の再構成品質は、５％のＦＬＲの従来のＦＬＣ技術１６０と統計的に同等であり、これは、向上したエラー耐性がエンコーダ支援ＦＬＣ技術によって提供されたことを示している。

多数の実施形態が説明された。しかしながら、これらの実施形態に対して種々の修正が可能であり、ここで提示された原理は他の実施形態にも適用可能である。ここで説明された方法は、ハードウェア、ソフトウェア、および／またはファームウェアで実施されることができる。このような方法の種々のタスクは、マイクロプロセッサ、埋め込みコントローラ、またはＩＰコアのような論理要素の１つ以上のアレイによって実行可能な命令のセットとして実施されることができる。一例では、１つ以上のこのようなタスクは、セルラ電話のようなパーソナル通信デバイスの種々のデバイスの動作をコントロールするように構成されている移動局のモデムチップまたはチップセット内で実行するように構成されている。

本開示で説明されている技術は、汎用マイクロプロセッサ、ディジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または他の同等の論理デバイスで実施されることができる。ソフトウェアで実施される場合、本技術は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、電気的に消去可能なプログラム可能な読み出し専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、などのようなコンピュータ読み取り可能な媒体上の命令として具現することができる。この命令によって、１つ以上のプロセッサは、本開示に説明されている機能性の特定の態様を実行する。

別の例として、実施形態は、配線回路として、特定用途向け集積回路に組み立てられる回路構成として、あるいは、不揮発性記憶装置にロードされたファームウェアプログラム、またはデータ記憶媒体からまたはデータ記憶媒体にロードされる機械読み取り可能なコードのようなソフトウェアプログラムとして、部分的または全体的に実施されることができる。このようなコードは、マイクロプロセッサや他のディジタル信号処理ユニットのような論理要素のアレイによって実行可能な命令である。データ記憶媒体は、半導体メモリ（ダイナミックまたはスタティックＲＡＭ、ＲＯＭ、および／またはフラッシュＲＡＭを含むことができるが、これらに制限されない）あるいは強誘電体、オボニック、高分子、または位相変化メモリ、もしくはディスク媒体（例えば、磁気または光ディスク）のような記憶要素のアレイであってもよい。

本開示では、隣接フレームと、エンコーダからオーディオビットストリームと共に送信されたサイド情報とに基づいて、オーディオ信号の破棄フレームを正確に隠蔽する、デコーダにおけるエンコーダ支援フレーム損失隠蔽について、種々の技術が説明された。エンコーダ支援ＦＬＣ技術はまた、エンコーダから送信された追加のサイド情報によって隣接フレームに基づいてオーディオ信号の複数の破棄フレームを正確に隠蔽することができる。エンコーダ支援ＦＬＣ技術は、隣接フレームの周波数ドメインデータに基づいて当該フレームの周波数ドメインデータの大きさを推定することと、サイド情報としてエンコーダから送信された符号のサブセットに基づいて周波数ドメインデータの符号を推定することとを含んでいる。

オーディオ信号のフレームの周波数ドメインデータは、トーン成分および雑音成分を含んでいる。ランダム信号から推定された符号は、周波数ドメインデータの雑音成分について実質的に正確であるであろう。しかしながら、トーン成分の非常に正確な符号推定を達成するために、エンコーダは、周波数ドメインデータのトーン成分の符号をサイド情報として送信する。デコーダへ送信されるサイド情報量を最小化するために、エンコーダは、フレーム内のトーン成分の場所を送信しない。そうではなくて、エンコーダおよびデコーダの両方が、同じ動作を使用してトーン成分の場所を自己導出する。このようにして、エンコーダ支援ＦＬＣ技術は、エンコーダから送信された最小量のサイド情報によって、デコーダにおいてフレーム隠蔽品質の相当な改良を達成する。

エンコーダ支援ＦＬＣ技術は、ここでは、オーディオ信号のフレームの周波数ドメインデータがＭＤＣＴ係数によって表されるＡＡＣ標準を利用するマルチメディア応用に関して主に説明されているが、本技術は種々のオーディオコーディング標準のいずれかを使用するマルチメディア応用に適用されてもよい。例えば、ＭＰＥＧにしたがう標準、ＷＭＡ標準、ドルビーラボラトリーズ社（ＤｏｌｂｙＬａｂｏｒａｔｏｒｉｅｓ，Ｉｎｃ．）による標準、ＭＰ３標準、およびＭＰ３標準の後継の標準である。これらおよび他の実施形態は、本発明の請求項の範囲内である。

エンコーダ支援フレーム損失隠蔽（ＦＬＣ）技術を実施するオーディオエンコーダ／デコーダ（コーデック）を組み込んだオーディオエンコーディングおよびデコーディングシステムを示すブロック図。図１のオーディオエンコーディングおよびデコーディングシステムによってエンコーダ支援フレーム損失隠蔽を実行する例示的な動作を示すフローチャート。サイド情報として送信されるフレームの符号のサブセットを生成するフレーム損失隠蔽モジュールを含む例示的なオーディオエンコーダを示すブロック図。サイド情報としてエンコーダから受信されたフレームの符号のサブセットを利用するフレーム損失隠蔽モジュールを含む例示的なオーディオデコーダを示すブロック図。オーディオビットストリームをエンコードして、サイド情報としてオーディオビットストリームと共に送信されるフレームの符号のサブセットを生成する例示的な動作を示すフローチャート。オーディオビットストリームをデコードして、サイド情報としてエンコーダから受信されたフレームの符号のサブセットを使用してフレーム損失隠蔽を実行する例示的な動作を示すフローチャート。成分選択モジュールと符号抽出器とを含み、サイド情報として送信されるフレームの符号のサブセットを生成する、別の例示的なオーディオエンコーダを示すブロック図。サイド情報としてエンコーダから受信されたフレームの符号のサブセットを利用するフレーム損失隠蔽モジュールを含む別の例示的なオーディオデコーダを示すブロック図。オーディオビットストリームをエンコードして、サイド情報としてオーディオビットストリームと共に送信されるフレームの符号のサブセットを生成する別の例示的な動作を示すフローチャート。オーディオビットストリームをデコードして、サイド情報としてエンコーダから受信されたフレームの符号のサブセットを使用してフレーム損失隠蔽を実行する別の例示的な動作を示すフローチャート。従来のフレーム損失隠蔽技術のフレーム損失レートと、本明細書に記載されたエンコーダ支援フレーム損失隠蔽技術のフレーム損失レートとの品質比較を示すプロット。

Claims

オーディオ信号のフレームを隠蔽する方法であって、
前記フレームの隣接フレームに基づいて前記フレームの周波数ドメインデータの大きさを推定するステップと、
サイド情報としてエンコーダから送信された前記フレームの符号のサブセットに基づいて前記フレームの周波数ドメインデータの符号を推定するステップと、
前記大きさ推定と前記符号推定を結合して、前記フレームの周波数ドメインデータを推定するステップとを備える方法。
周波数ドメインデータを含む前記フレームのオーディオビットストリームを前記エンコーダから受信するステップと、
隣接フレームのオーディオビットストリームと共に前記フレームの前記サイド情報を前記エンコーダから受信するステップとをさらに備える、請求項１に記載の方法。
前記エンコーダから送信された前記フレームのオーディオビットストリームにエラー検出を実行するステップと、
１つ以上のエラーが検出された場合に前記フレームの周波数ドメインデータを破棄するステップとをさらに備える、請求項１に記載の方法。
前記フレームの前記周波数ドメインデータの大きさを推定するステップは、前記フレームの先行フレームおよび前記フレームの後続フレームのエネルギに基づいてエネルギ補間を実行するステップを備える、請求項１に記載の方法。
前記フレームの前記周波数ドメインデータの符号を推定するステップは、
前記フレームの前記周波数ドメインデータの雑音成分の符号をランダム信号から推定するステップと、
前記サイド情報として前記エンコーダから送信された前記フレームの前記符号のサブセットに基づいて前記フレームの前記周波数ドメインデータのトーン成分の符号を推定するステップとを備える、請求項１に記載の方法。
前記フレームの前記周波数ドメインデータの符号を推定するステップは、
前記フレームの前記周波数ドメインデータのトーン成分を選択するステップと、
前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成するステップと、
前記インデックスサブセットに基づいて前記フレームの前記符号のサブセットから前記トーン成分の符号を推定するステップとを備える、請求項１に記載の方法。
トーン成分を選択するステップは、
前記周波数ドメインデータを大きさ順に分類するステップと、
最大の大きさを有する所定数の前記周波数ドメインデータを前記トーン成分として選択するステップとを備える、請求項６に記載の方法。
前記フレームの前記周波数ドメインデータの符号を推定するステップは、
前記フレームの前記周波数ドメインデータの前記大きさ推定からトーン成分を選択するステップと、
前記フレームの前記周波数ドメインデータの前記大きさ推定から選択された前記トーン成分の場所を識別する推定インデックスサブセットを生成するステップと、
前記フレームの前記推定インデックスサブセットに基づいて前記フレームの前記符号のサブセットから前記トーン成分の符号を推定するステップとを備える、請求項１に記載の方法。
前記フレームの前記周波数ドメインデータの符号を推定するステップは、
前記フレームの隣接フレームの周波数ドメインデータの大きさからトーン成分を選択するステップと、
前記隣接フレームの前記周波数ドメインデータの前記大きさから選択された前記トーン成分の場所を識別するインデックスサブセットを生成するステップと、
前記隣接フレームの前記インデックスサブセットに基づいて前記フレームの前記符号のサブセットから前記トーン成分の符号を推定するステップとを備える、請求項１に記載の方法。
周波数ドメインデータを含む前記フレームのオーディオビットストリームをデコーダへ送信するステップと、
隣接フレームのオーディオビットストリームと共に前記フレームの前記サイド情報をデコーダへ送信するステップとをさらに備える、請求項１に記載の方法。
前記サイド情報を送信するステップは、
前記フレームの前記周波数ドメインデータから前記符号のサブセットを抽出するステップと、
前記符号のサブセットを前記サイド情報として前記隣接フレームの前記オーディオビットストリームに添付するステップとを備える、請求項１０に記載の方法。
前記フレームの前記符号のサブセットを抽出するステップは、
前記フレームの前記周波数ドメインデータのトーン成分を選択するステップと、
前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成するステップと、
前記インデックスサブセットに基づいて前記フレームの前記周波数ドメインデータから前記トーン成分の前記符号のサブセットを抽出するステップとを備える、請求項１１に記載の方法。
トーン成分を選択するステップは、
前記周波数ドメインデータを大きさ順に分類するステップと、
最大の大きさを有する所定数の前記周波数ドメインデータを前記トーン成分として選択するステップとを備える、請求項１２に記載の方法。
前記フレームの前記符号のサブセットを抽出するステップは、
前記フレームの隣接フレームに基づいて前記フレームの前記周波数ドメインデータの大きさを推定するステップと、
前記フレームの前記周波数ドメインデータの大きさ推定からトーン成分を選択するステップと、
前記フレームの前記周波数ドメインデータの大きさ推定から選択された前記トーン成分の場所を識別する推定インデックスサブセットを生成するステップと、
前記フレームの前記推定インデックスサブセットに基づいて前記フレームの前記周波数ドメインデータから前記トーン成分の前記符号のサブセットを抽出するステップとを備える、請求項１１に記載の方法。
前記フレームの前記符号のサブセットを抽出するステップは、
前記隣接フレームの周波数ドメインデータの大きさからトーン成分を選択するステップと、
前記隣接フレームの前記周波数ドメインデータの大きさから選択された前記トーン成分の場所を識別するインデックスサブセットを生成するステップと、
前記隣接フレームの前記インデックスサブセットに基づいて前記フレームの前記周波数ドメインデータから前記トーン成分の前記符号のサブセットを抽出するステップとを備える、請求項１１に記載の方法。
前記エンコーダに含まれている変換ユニットによって前記フレームの時間ドメインオーディオ信号を前記フレームの周波数ドメインデータにエンコードするステップと、
デコーダに含まれている逆変換ユニットによって前記フレームの前記推定周波数ドメインデータを前記フレームの推定時間ドメインデータにデコードするステップとをさらに備える、請求項１に記載の方法。
前記サイド情報は、前記フレームの周波数ドメインデータのトーン成分の符号のサブセットを備えており、前記方法はさらに、
前記エンコーダによって前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成するステップと、
前記エンコーダによって前記インデックスサブセットに基づいて前記フレームの前記周波数ドメインデータから前記トーン成分の前記符号のサブセットを抽出するステップと、
前記トーン成分の前記符号のサブセットを前記サイド情報としてデコーダへ送信するステップと、
前記エンコーダと同じプロセスを使用して、前記デコーダによって前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成するステップと、
前記インデックスサブセットに基づいて前記符号のサブセットから前記トーン成分の符号を推定するステップとをさらに備える、請求項１に記載の方法。
オーディオ信号のフレームを隠蔽する命令を備えるコンピュータ読み取り可能な媒体であって、前記命令はプログラマブルプロセッサに、
フレームの隣接フレームに基づいて前記フレームの周波数ドメインデータの大きさを推定させ、
サイド情報としてエンコーダから送信された前記フレームの符号のサブセットに基づいて前記フレームの前記周波数ドメインデータの符号を推定させ、
前記大きさ推定と前記符号推定とを結合して前記フレームの周波数ドメインデータを推定させる、コンピュータ読み取り可能な媒体。
前記命令は前記プログラマブルプロセッサに、
前記フレームの前記周波数ドメインデータの雑音成分の符号をランダム信号から推定させ、
前記サイド情報として前記エンコーダから送信された前記フレームの前記符号のサブセットに基づいて前記フレームの前記周波数ドメインデータのトーン成分の符号を推定させる、請求項１８に記載のコンピュータ読み取り可能な媒体。
前記命令は前記プログラマブルプロセッサに、
前記フレームの前記周波数ドメインデータを大きさ順に分類させ、
最大の大きさを有する所定数の前記周波数ドメインデータを前記フレームの前記周波数ドメインデータのトーン成分として選択させ、
前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成させ、
前記インデックスサブセットに基づいて前記フレームの前記符号のサブセットから前記トーン成分の符号を推定させる、請求項１８に記載のコンピュータ読み取り可能な媒体。
前記プログラマブルプロセッサに、
前記フレームの前記周波数ドメインデータから前記符号のサブセットを抽出させ、
前記符号のサブセットを前記サイド情報として隣接フレームのオーディオビットストリームに添付させ、
前記隣接フレームの前記オーディオビットストリームと共に前記フレームの前記サイド情報をデコーダへ送信させる命令をさらに備える、請求項１８に記載のコンピュータ読み取り可能な媒体。
前記命令は前記プログラマブルプロセッサに、
前記フレームの前記周波数ドメインデータを大きさ順に分類させ、
最大の大きさを有する所定数の前記周波数ドメインデータを前記フレームの前記周波数ドメインデータのトーン成分として選択させ、
前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成させ、
前記インデックスサブセットに基づいて前記フレームの前記周波数ドメインデータから前記トーン成分の前記符号のサブセットを抽出させる、請求項２１に記載のコンピュータ読み取り可能な媒体。
オーディオ信号のフレームを隠蔽するシステムであって、
サイド情報として前記フレームの符号のサブセットを送信するエンコーダと、
前記フレームの前記サイド情報を前記エンコーダから受信するフレーム損失隠蔽（ＦＬＣ）モジュールを含むデコーダとを備えており、
前記ＦＬＣモジュールは、前記フレームの隣接フレームに基づいて前記フレームの周波数ドメインデータの大きさを推定し、前記受信されたサイド情報に基づいて前記フレームの周波数ドメインデータの符号を推定し、前記大きさ推定と前記符号推定とを結合して前記フレームの周波数ドメインデータを推定する、システム。
前記ＦＬＣモジュールは、前記エンコーダから送信された前記フレームのオーディオビットストリームにエラー検出を実行し、１つ以上のエラーが検出された場合には前記フレームの周波数ドメインデータを破棄するエラー検出モジュールを含む、請求項２３に記載のシステム。
前記ＦＬＣモジュールは、前記フレームの先行フレームおよび前記フレームの後続フレームのエネルギに基づいてエネルギ補間を実行し、前記フレームの前記周波数ドメインデータの前記大きさを推定する大きさ推定器を含む、請求項２３に記載のシステム。
前記ＦＬＣモジュールは、
前記フレームの前記周波数ドメインデータの雑音成分の符号をランダム信号から推定し、
前記サイド情報として前記エンコーダから送信された前記フレームの前記符号のサブセットに基づいて、前記フレームの前記周波数ドメインデータのトーン成分の符号を推定する符号推定器を含む、請求項２３に記載のシステム。
前記ＦＬＣモジュールは、前記フレームの前記周波数ドメインデータを大きさ順に分類し、最大の大きさを有する所定数の前記周波数ドメインデータを前記フレームの前記周波数ドメインデータのトーン成分として選択し、前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成する成分選択モジュールを含んでおり、
前記符号推定器は、前記インデックスサブセットに基づいて前記フレームの前記符号のサブセットから前記トーン成分の符号を推定する、請求項２３に記載のシステム。
前記エンコーダは、前記フレームの前記周波数ドメインデータから前記符号のサブセットを抽出し、前記符号のサブセットを前記サイド情報として隣接フレームのオーディオビットストリームに添付する符号抽出器を含み、前記エンコーダは、前記隣接フレームの前記オーディオビットストリームと共に前記フレームの前記サイド情報を前記デコーダへ送信する、請求項２３に記載のシステム。
前記エンコーダは、前記フレームの前記周波数ドメインデータを大きさ順に分類し、最大の大きさを有する所定数の前記周波数ドメインデータを前記フレームの前記周波数ドメインデータのトーン成分として選択し、前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成する成分選択モジュールを含み、
前記符号抽出器は、前記インデックスサブセットに基づいて前記フレームの前記周波数ドメインデータから前記トーン成分の前記符号のサブセットを抽出する、請求項２８に記載のシステム。
前記フレームの周波数ドメインデータは、修正離散コサイン変換（ＭＤＣＴ）係数によって表される、請求項２３に記載のシステム。
前記エンコーダは、前記フレームの時間ドメインオーディオ信号を前記フレームの周波数ドメインデータにエンコードする変換ユニットを含み、
前記デコーダは、前記フレームの前記推定周波数ドメインデータを前記フレームの推定時間ドメインデータにデコードする逆変換ユニットを含む、請求項２３に記載のシステム。
前記エンコーダに含まれている前記変換ユニットは修正離散コサイン変換ユニットを備えており、前記デコーダに含まれている前記逆変換ユニットは逆修正離散コサイン変換ユニットを備えている、請求項３１に記載のシステム。
前記サイド情報は、前記フレームの周波数ドメインデータのトーン成分の符号のサブセットを備えており、
前記エンコーダは、前記エンコーダによって前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成し、前記エンコーダによって前記インデックスサブセットに基づいて前記フレームの前記周波数ドメインデータから前記トーン成分の前記符号のサブセットを抽出し、前記トーン成分の前記符号のサブセットを前記サイド情報として前記デコーダへ送信し、
前記デコーダは、前記エンコーダと同じプロセスを使用して前記デコーダによって前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成し、前記インデックスサブセットに基づいて前記符号のサブセットから前記トーン成分の符号を推定する、請求項２３に記載のシステム。
オーディオ信号のフレームの周波数ドメインデータの成分を選択する成分選択モジュールと、
前記フレームの前記周波数ドメインデータから前記選択された成分の符号のサブセットを抽出する符号抽出器とを備えたエンコーダであって、
前記フレームの前記符号のサブセットをサイド情報としてデコーダへ送信する、エンコーダ。
前記エンコーダは、周波数ドメインデータを含む前記フレームのオーディオビットストリームを前記デコーダへ送信し、隣接フレームのオーディオビットストリームと共に前記フレームの前記サイド情報を前記デコーダへ送信し、前記符号抽出器は、前記フレームの前記サイド情報を前記隣接フレームの前記オーディオビットストリームに添付する、請求項３４に記載のエンコーダ。
前記成分選択モジュールは、前記フレーム内の前記成分の場所を識別するインデックスサブセットを生成する、請求項３４に記載のエンコーダ。
前記選択された成分は、前記フレームの前記周波数ドメインデータのトーン成分を備えており、前記成分選択モジュールは、前記フレームの前記周波数ドメインデータを大きさ順に分類し、最大の大きさを有する所定数の前記周波数ドメインデータを前記トーン成分として選択する、請求項３４に記載のエンコーダ。
前記フレームの隣接フレームに基づいて前記フレームの前記周波数ドメインデータの大きさを推定する大きさ推定器と、
前記フレームの前記周波数ドメインデータの大きさ推定からトーン成分を選択し、前記フレームの前記周波数ドメインデータの大きさ推定から選択された前記トーン成分の場所を識別する推定インデックスサブセットを生成する前記成分選択モジュールと、
前記フレームの前記推定インデックスサブセットに基づいて前記フレームの前記周波数ドメインデータから前記トーン成分の前記符号のサブセットを抽出する前記符号抽出器とを含むＦＬＣモジュールをさらに備える、請求項３４に記載のエンコーダ。
前記成分選択モジュールは、前記隣接フレームの周波数ドメインデータの大きさからトーン成分を選択し、前記隣接フレームの前記周波数ドメインデータの大きさから選択された前記トーン成分の場所を識別するインデックスサブセットを生成し、
前記符号抽出器は、前記隣接フレームの前記インデックスサブセットに基づいて前記フレームの前記周波数ドメインデータから前記トーン成分の前記符号のサブセットを抽出する、請求項３４に記載のエンコーダ。
前記フレームの隣接フレームに基づいてオーディオ信号のフレームの周波数ドメインデータの大きさを推定する大きさ推定器と、
サイド情報としてエンコーダから送信された前記フレームの符号のサブセットに基づいて前記フレームの周波数ドメインデータの符号を推定する符号推定器とを含むフレーム損失隠蔽（ＦＬＣ）モジュールを備えたデコーダであって、
前記大きさ推定と前記符号推定とを結合して、前記フレームの周波数ドメインデータを推定する、デコーダ。
前記デコーダは、周波数ドメインデータを含む前記フレームのオーディオビットストリームを前記エンコーダから受信し、隣接フレームのオーディオビットストリームと共に前記フレームの前記サイド情報を前記エンコーダから受信する、請求項４０に記載のデコーダ。
前記ＦＬＣモジュールは、前記エンコーダから送信された前記フレームのオーディオビットストリームにエラー検出を実行し、１つ以上のエラーが検出された場合に前記フレームの周波数ドメインデータを破棄するエラー検出モジュールを含む、請求項４０に記載のデコーダ。
前記ＦＬＣモジュールは、前記フレームの先行フレームおよび前記フレームの後続フレームのエネルギに基づいてエネルギ補間を実行し、前記フレームの前記周波数ドメインデータの前記大きさを推定する大きさ推定器を含む、請求項４０に記載のデコーダ。
前記符号推定器は、前記フレームの前記周波数ドメインデータの雑音成分の符号をランダム信号から推定し、前記サイド情報として前記エンコーダから送信された前記フレームの前記符号のサブセットに基づいて前記フレームの前記周波数ドメインデータのトーン成分の符号を推定する、請求項４０に記載のデコーダ。
前記ＦＬＣモジュールは、前記フレームの前記周波数ドメインデータのトーン成分を選択し、前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成する成分選択モジュールを含んでおり、
前記符号推定器は、前記インデックスサブセットに基づいて前記フレームの前記符号のサブセットから前記トーン成分の符号を推定する、請求項４０に記載のデコーダ。
前記成分選択モジュールは、前記周波数ドメインデータを大きさ順に分類し、最大の大きさを有する所定数の前記周波数ドメインデータを前記トーン成分として選択する、請求項４５に記載のデコーダ。
前記ＦＬＣモジュールは、前記フレームの前記周波数ドメインデータの前記大きさ推定からトーン成分を選択し、前記フレームの前記周波数ドメインデータの前記大きさ推定から選択された前記トーン成分の場所を識別する推定インデックスサブセットを生成する成分選択モジュールを含んでおり、
前記符号推定器は、前記フレームの前記推定インデックスサブセットに基づいて前記フレームの前記符号のサブセットから前記トーン成分の符号を推定する、請求項４０に記載のデコーダ。
前記ＦＬＣモジュールは、前記フレームの隣接フレームの周波数ドメインデータの大きさからトーン成分を選択し、前記隣接フレームの前記周波数ドメインデータの前記大きさから選択された前記トーン成分の場所を識別するインデックスサブセットを生成する成分選択モジュールを含んでおり、
前記符号推定器は、前記隣接フレームの前記インデックスサブセットに基づいて前記フレームの前記符号のサブセットから前記トーン成分の符号を推定する、請求項４０に記載のデコーダ。