JP2009514032A - オーディオコーディングのためのエンコーダ支援フレーム損失隠蔽技術 - Google Patents

オーディオコーディングのためのエンコーダ支援フレーム損失隠蔽技術 Download PDF

Info

Publication number
JP2009514032A
JP2009514032A JP2008538157A JP2008538157A JP2009514032A JP 2009514032 A JP2009514032 A JP 2009514032A JP 2008538157 A JP2008538157 A JP 2008538157A JP 2008538157 A JP2008538157 A JP 2008538157A JP 2009514032 A JP2009514032 A JP 2009514032A
Authority
JP
Japan
Prior art keywords
frame
domain data
frequency domain
subset
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008538157A
Other languages
English (en)
Other versions
JP4991743B2 (ja
Inventor
リュ、サン−ウク
チョイ、エディー・エル.ティー.
グプタ、サミア・クマー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2009514032A publication Critical patent/JP2009514032A/ja
Application granted granted Critical
Publication of JP4991743B2 publication Critical patent/JP4991743B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Abstract

オーディオ信号をデコードするエンコーダ支援フレーム損失隠蔽(FLC)技術が説明されている。デコーダは、オーディオ信号の誤りフレームを破棄し、エンコーダから送信されたサイド情報と隣接フレームとに基づいて、該破棄されたフレームを正確に隠蔽するために該エンコーダ支援FLC技術を実施することができる。該エンコーダ支援FLC技術は、隣接フレームの周波数ドメインデータに基づいて該フレームの周波数ドメインデータの大きさを推定することと、サイド情報として該エンコーダから送信された符号のサブセットに基づいて該周波数ドメインデータの符号を推定することとを含んでいる。オーディオ信号のフレームの周波数ドメインデータは、トーン成分および雑音成分を含んでいる。ランダム信号から推定された符号は、該周波数ドメインデータの該雑音成分について実質的に正確であるだろう。しかしながら、該トーン成分の非常に正確な符号推定を達成するために、該エンコーダは、サイド情報として該周波数ドメインデータの該トーン成分の符号を送信する。

Description

本出願は、2005年10月26日に出願された米国仮特許出願第60/730,459号、および2005年10月31日に出願された米国仮特許出願第60/732,012号の利点に権利を主張している。
本開示は、オーディオコーディング技術、より具体的にはオーディコーディングのためのフレーム損失隠蔽技術に関する。
オーディオコーディングは、衛星無線、ディジタル無線、インターネットストリーミング(ウェブ無線)、ディジタル音楽プレーヤ、および種々のモバイルマルチメディアの応用のような多数の応用および環境において使用されている。モーション ピクチャ エキスパート グループ(MPEG)による標準、ウィンドウズ(登録商標)メディアオーディオ(WMA)、およびドルビーラボラトリーズ社(Dolby Laboratories,Inc.)による標準のような多数のオーディオコーディング標準がある。MP3標準およびMP3標準の後継の標準、例えば、アップルコンピュータ社(Apple Computer,Inc.)から販売されている「iPod」デバイスで使用されている高度オーディオコーディング(AAC)標準を含む多数のオーディオコーディング標準が登場し続けている。オーディコーディング標準は、一般に、圧縮技術を使用して、低ビットレートかつ高品質のオーディオコーディングを達成しようと試みている。一部のオーディオコーディングは「ロスレス(loss less)」であり、すなわち、このコーディングはオーディオ信号を劣化させないのに対して、他のオーディオコーディングは、さらなる圧縮を達成するために、いくらかの損失を取り込むことがある。
多数の応用において、オーディオコーディングは、テレビ電話(video telephony, VT)やストリーミングビデオなどの応用にマルチメディアコンテンツを提供するために、ビデオコーディングと併用される。例えば、MPEGに従うビデオコーディング標準は、しばしばオーディオおよびビデオコーディングを使用する。MPEG標準は、現在MPEG−1、MPEG−2、およびMPEG−4を含んでいるが、他の標準もおそらく登場するであろう。他の例示的なビデオ標準としては、国際電気通信連合(International Telecommunications Union, ITU)H.263標準、ITU H.264標準、アップルコンピュータ社(Apple Computer Inc.)によって開発されたQuickTime(登録商標)技術、マイクロソフト社(Microsoft Corporation)によって開発されたVideo for Windows(登録商標)、インテル社(Intel Corporation)によって開発されたIndeo(登録商標)、リアルネットワークス社(RealNetworks,Inc.)からのRealVideo(登録商標)、およびスーパーマック社(SuperMac.Inc.)によって開発されたCinepak(登録商標)がある。オープンソースであるオーディオおよびビデオ標準もあるのに対して、登録商標権を有しているものもある。多数の他のオーディオおよびビデオコーディング標準が、登場および進化し続けるであろう。
送信されたオーディオ信号に生じたビットストリームエラーは、可聴アーチファクトを取り込むことによって、デコードされたオーディ信号に重大な影響を及ぼす場合がある。この品質劣化に対処するために、エラー検出モジュールおよびフレーム損失隠蔽(frame loss concealment, FLC)モジュールを含むエラーコントロールブロックが、デコーダに付加されることがある。受信したビットストリームのフレームにエラーが検出されると、エラー検出モジュールは誤りフレームの全ビットを破棄する。次に、FLCモジュールは、知覚的にシームレスなサウンドオーディ信号を生成しようとして、オーディデータを推定して、破棄されたフレームを置換する。
デコーダのフレーム損失隠蔽のための種々の技術が提案されてきた。しかしながら、多くのFLC技術は、隠蔽されたオーディオ信号品質と実施コストとの間におけるとても困難な折り合いに苦慮している。例えば、破棄されたフレームを、先行フレームのサイレンス、雑音、またはオーディオデータと単に置換することは、計算コストは低いが、隠蔽性能は不良であるために、交換の1つの極端を表す。破棄されたフレームを隠蔽するソースモデリングに基づく高度な技術は、十分な隠蔽性能を達成するのに高いまたは桁違いに高い実施コストを必要とすることによって、別の極端にあたる。
発明の概要
全体的に、本開示は、オーディオ信号をデコードするためのエンコーダ支援フレーム損失隠蔽(FLC)技術に関する。エンコーダからオーディオ信号のフレームのオーディオビットストリームを受信すると、デコーダはエラー検出を実行し、エラー検出された場合に該フレームを破棄することができる。該デコーダは、隣接フレームと、該エンコーダから該オーディオビットストリームと共に送信されたサイド情報とに基づいて、該破棄されたフレームを正確に隠蔽するために、該エンコーダ支援FLC技術を実施することができる。該エンコーダ支援FLC技術は、該フレームの周波数ドメインデータの大きさを隣接フレームの周波数ドメインデータに基づいて推定することと、サイド情報として該エンコーダから送信された符号(sign)のサブセットに基づいて該周波数ドメインデータの符号を推定することとを含んでいる。このように、該エンコーダ支援FLC技術は、可聴アーチファクトの発生を削減して、知覚的にシームレスなサウンドオーディオ信号を作成することができる。
オーディオ信号のフレームの周波数ドメインデータは、トーン成分および雑音成分を含んでいる。ランダム信号から推定された符号は、該周波数ドメインデータの該雑音成分については実質的に正確であるだろう。しかしながら、トーン成分の非常に正確な符号推定を達成するために、該エンコーダは、サイド情報として該周波数ドメインデータの該トーン成分の符号を送信する。該デコーダへ送信される該サイド情報量を最小化するために、該エンコーダは、該フレーム内の該トーン成分の場所を送信しない。そうではなくて、該エンコーダおよび該デコーダは共に、同じ動作を使用して、該トーン成分の該場所を自己導出する。したがって、該エンコーダ支援FLC技術は、該エンコーダから送信された最小量のサイド情報によって、該デコーダにおいてフレーム隠蔽品質のかなりの改良を達成する。
本明細書に記載されている該エンコーダ支援FLC技術は、ウィンドウズ(登録商標)メディアオーディオ(WMA)標準、MP3標準、およびAAC(高度オーディオコーディング)標準のようなオーディオコーディング標準を使用するマルチメディア応用で実施されてもよい。該AAC標準の場合、オーディオ信号のフレームの周波数ドメインデータは、修正離散コサイン変換(MDCT)係数によって表される。該MDTC係数の各々はトーン成分または雑音成分のいずれかを備えている。1個のフレームは1024個のMDCT係数を含むことができ、該MDCT係数の各々は、大きさおよび符号を含んでいる。該エンコーダ支援FLC技術は、破棄されたフレームのMDCT係数の大きさおよび符号を別々に推定する。
一実施形態では、本開示は、オーディオ信号のフレームを隠蔽する方法を提供する。該方法は、該フレームの隣接フレームに基づいて該フレームの周波数ドメインデータの大きさを推定するステップと、サイド情報としてエンコーダから送信された該フレームの符号のサブセットに基づいて該フレームの周波数ドメインデータの符号を推定するステップと、該大きさ推定と該符号推定とを結合して該フレームの周波数ドメインデータを推定するステップとを備えている。
別の実施形態では、本開示は、オーディオ信号のフレームを隠蔽する命令を備えるコンピュータ読み取り可能な媒体を提供する。該命令はプログラマブルプロセッサに、該フレームの隣接フレームに基づいて該フレームの周波数ドメインデータの大きさを推定させ、サイド情報としてエンコーダから送信された該フレームの符号のサブセットに基づいて該フレームの該周波数ドメインデータの符号を推定させる。該命令はまた該プログラマブルプロセッサに、該大きさ推定と該符号推定とを結合して該フレームの周波数ドメインデータを推定させる。
さらなる実施形態では、本開示は、サイド情報として該フレームの符号のサブセットを送信するエンコーダと、該エンコーダから該フレームの該サイド情報を受信するFLCモジュールを含むデコーダとを備える、オーディオ信号のフレームを隠蔽するためのシステムを提供する。該デコーダ内の該FLCモジュールは、該フレームの隣接フレームに基づいて該フレームの周波数ドメインデータの大きさを推定し、該受信したサイド情報に基づいて該フレームの周波数ドメインデータの符号を推定し、該大きさ推定と該符号推定とを結合して該フレームの周波数ドメインデータを推定する。
別の実施形態では、本開示は、オーディオ信号のフレームの周波数ドメインデータの成分を選択する成分選択モジュールと、該フレームの該周波数ドメインデータから該選択された成分の符号のサブセットを抽出する符号抽出器とを備えるエンコーダを提供する。該エンコーダは、該フレームの該符号のサブセットをサイド情報としてデコーダへ送信する。
さらなる実施形態では、本開示は、フレームの隣接フレームに基づいてオーディオ信号の該フレームの周波数ドメインデータの大きさを推定する大きさ推定器と、サイド情報としてエンコーダから送信された該フレームの符号のサブセットに基づいて該フレームの周波数ドメインデータの符号を推定する符号推定器とを含むFLCモジュールを備えるデコーダを提供する。該デコーダは、該大きさ推定と該符号推定とを結合して、該フレームの周波数ドメインデータを推定する。
ここに説明されている技術は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組み合わせで実施されることができる。ソフトウェアで実施される場合、本技術は、プログラマブルプロセッサによって実行されたときに本明細書に説明されている該方法の1つ以上を実行する命令を含むプログラムコードを備えるコンピュータ読み取り可能な媒体によって部分的に実現することができる。
1つ以上の実施形態に関する詳細は添付の図面および以下の記述によって説明される。本発明の他の特徴、目的、および利点は、説明、図面、および請求項から明らかになるであろう。
詳細な説明
図1は、エンコーダ支援フレーム損失隠蔽(FLC)技術を実施するオーディオエンコーダ/デコーダ(コーデック)を組み込んだオーディオエンコーディング/デコーディングシステム2を示すブロック図である。図1に示されているように、システム2は、第1の通信デバイス3および第2の通信デバイス4を含んでいる。システム2はまた、通信デバイス3および4を接続する送信チャネル5を含んでいる。システム2は、送信チャネル5で通信デバイス3と4間の双方向のオーディオデータ送信をサポートする。
示されている実施形態では、通信デバイス3は、FLCモジュール7を具備するオーディオコーデック6と、多重化(mux)/デマルチプレックス(demux)コンポーネント8とを含んでいる。通信デバイス4は、mux/demuxコンポーネント9と、FLCモジュール11を具備するオーディオコーデック10とを含んでいる。それぞれのオーディオコーデック6および10のFLCモジュール7および11は、本明細書に説明されているエンコーダ支援FLC技術にしたがって、エンコーダから送信されたサイド情報と隣接フレームとに基づいて、オーディオ信号の破棄されたフレームを正確に隠蔽することができる。別の実施形態では、FLCモジュール7および11は、エンコーダから送信された追加のサイド情報によって隣接フレームに基づいてオーディオ信号の複数の破棄されたフレームを正確に隠蔽することができる。
通信デバイス3および4は、オーディオデータを送受信するように構成されてもよい。通信デバイス3および4は、無線モバイル端末や有線端末として実施されてもよい。このために、通信デバイス3および4はさらに、無線通信をサポートするための適切な無線送信機、受信機、モデム、および処理エレクトロニクスを含んでもよい。無線モバイル端末の例としては、モバイル無線電話、モバイル携帯情報端末(PDA)、モバイルコンピュータ、あるいは無線通信能力並びにオーディオエンコーディングおよび/またはデコーディング能力を備えた他のモバイルデバイスを含む。有線端末の例としては、デスクトップコンピュータ、テレビ電話、ネットワーク機器、セットトップボックス、双方向テレビ、などを含む。
送信チャネル5は、有線通信媒体であっても、または無線通信媒体であってもよい。無線通信では、極めて低いビットレートがしばしば必要とされるために、帯域幅は重要な問題である。とりわけ、送信チャネル5は帯域幅が制限されていることがあり、チャネル5での大量のオーディオデータの送信を極めて困難にしている。例えば、送信チャネル5は、チャネル5の物理的制約、または場合によっては送信チャネル5のプロバイダによって課されるサービス品質(QoS)制限または帯域幅割り当て制約のために、帯域幅が制限された無線通信リンクであることもある。
それぞれの通信デバイス3および4内のオーディオコーデック6および10の各々は、モーション ピクチャ エキスパート グループ(MPEG)に従った標準、Dolby Laboratories,Inc.による標準、ウィンドウズ(登録商標)メディアオーディオ(WMA)標準、MP3標準、および高度オーディオコーディング(AAC)標準のようなオーディオコーディング標準にしたがって、オーディオデータをエンコードおよびデコードする。オーディオコーディング標準は、一般に、圧縮技術を使用して、低ビットレートかつ高品質のオーディオコーディングを達成しようと試みている。一部のオーディオコーディングは「ロスレス」であり、すなわち、このコーディングはオーディオ信号を劣化させないのに対して、他のオーディオコーディングは、さらなる圧縮を達成するためにいくらかの損失を取り込むことがある。
いくつかの実施形態では、通信デバイス3および4はまた、それぞれのオーディオコーデック6および10と統合されたビデオコーデック(図示せず)を含むこともあり、またデータストリームのオーディオおよびビデオ部分を処理する適切なmux/demuxコンポーネント8および9を含むこともある。mux/demuxコンポーネント8および9は、国際電気通信連合(International Telecommunications Union, ITU)H.223のマルチプレクサプロトコル、またはユーザー データグラム プロトコル(UDP)のような他のプロトコルに準拠してもよい。
オーディオコーディングは、テレビ電話(VT)またはストリーミングビデオのような応用のためのマルチメディアコンテンツを提供するために、ビデオコーディングと併用されてもよい。例えば、MPEGに従うビデオコーディング標準はしばしばオーディオおよびビデオコーディングを使用する。MPEG標準は現在MPEG−1、MPEG−2、およびMPEG−4を含んでいるが、他の標準もおそらく登場するであろう。他の例示的なビデオ標準は、ITU H.263標準、ITU H.264標準、アップルコンピュータ社(Apple Computer Inc.)によって開発されたQuickTime(登録商標)技術、マイクロソフト社(Microsoft Corporation)によって開発されたVideo for Windows(登録商標)、インテル社(Intel Corporation)によって開発されたIndeo(登録商標)、リアルネットワークス社(RealNetworks,Inc.)のRealVideo(登録商標)、およびスーパーマック社(SuperMac,Inc.)によって開発されたCinepak(登録商標)を含んでいる。
例示の目的のために、通信デバイス3および4の各々はオーディオデータの送信機および受信機双方として動作可能であると想定する。通信デバイス3から通信デバイス4に送信されるオーディオデータの場合、通信デバイス3は送信デバイスであり、通信デバイス4は受信デバイスである。この場合、通信デバイス3内のオーディオコーデック6はエンコーダとして動作し、通信デバイス4内のオーディオコーデック10はデコーダとして動作することができる。逆に、通信デバイス4から通信デバイス3に送信されるオーディオデータの場合、通信デバイス3は受信デバイスであり、通信デバイス4は送信デバイスである。この場合、通信デバイス3内のオーディオコーデック6はデコーダとして動作し、通信デバイス4内のオーディオコーデック10はエンコーダとして動作することができる。ここで説明されている技術はまた、このようなオーディオデータを送信のみ、または受信のみするデバイスにも適用可能である。
開示されている技術によると、受信デバイスとして動作する通信デバイス4は、送信デバイスとして動作する通信デバイス3からオーディオ信号のフレームのオーディオビットストリームを受信する。通信デバイス4内でデコーダとして動作するオーディオコーデック10はエラー検出を実行して、エラーが検出される場合には当該フレームを破棄してもよい。オーディオコーデック10は、エンコーダ支援FLC技術を実施して、通信デバイス3からオーディオビットストリームと共に送信されたサイド情報に基づいて、破棄されたフレームを正確に隠蔽することができる。エンコーダ支援FLC技術は、隣接フレームの周波数ドメインデータに基づいて当該フレームの周波数ドメインデータの大きさを推定することと、サイド情報としてエンコーダから送信された符号のサブセットに基づいて周波数ドメインデータの符号を推定することとを含んでいる。
オーディオ信号のフレームの周波数ドメインデータは、トーン成分および雑音成分を含んでいる。ランダム信号から推定された符号は、周波数ドメインデータの雑音成分について実質的に正確であるだろう。しかしながら、トーン成分の非常に正確な符号推定を達成するために、エンコーダは、周波数ドメインデータのトーン成分の符号をサイド情報としてデコーダへ送信する。
例えば、通信デバイス4内でデコーダとして動作するオーディオコーデック10のFLCモジュール11は、大きさ推定器と、成分選択モジュールと、符号推定器とを含むことができるが、これらのコンポーネントは図1には示されていない。大きさ推定器は、オーディオ信号の隣接フレームから周波数ドメインデータをコピーする。次に、大きさ推定器は、コピーされた周波数ドメインデータのエネルギをスケーリングして、破棄されたフレームの周波数ドメインデータの大きさを推定する。成分選択モジュールは、当該フレームの周波数ドメインデータのトーン成分と雑音成分とを区別する。このようにして、成分選択モジュールはフレーム内のトーン成分の場所を導出する。符号推定器は、単に、サイド情報として通信デバイス3から送信されたフレームの符号のサブセットに基づいて、成分選択モジュールによって選択されたトーン成分の符号を推定する。次に、デコーダとして動作するオーディオコーデック10は、トーン成分の符号推定を、対応する大きさ推定と結合する。
通信デバイス3内でエンコーダとして動作するオーディオコーデック6は、成分選択モジュールおよび符号抽出器を含むことができるが、これらのコンポーネントは図1には示されていない。成分選択モジュールは、当該フレームの周波数ドメインデータのトーン成分と雑音成分とを区別する。このようにして、成分選択モジュールはフレーム内のトーン成分の場所を導出する。符号抽出器は、成分選択モジュールによって選択されたトーン成分の符号のサブセットを抽出する。次に、抽出された符号は、エンコードされたオーディオビットストリームにサイド情報としてパッキングされる。例えば、当該フレームの符号のサブセットは、隣接フレームのオーディオビットストリームに添付されることができる。
送信チャネル5で送信されるサイド情報量を最小化するために、エンコーダとして動作するオーディオコーデック6は、トーン成分の符号のサブセットと共に当該フレーム内のトーン成分の場所を送信しない。そうではなく、オーディオコーデック6および10の両方とも、同じ動作を使用してトーン成分の場所を自己導出する。言い換えると、エンコーダとして動作するオーディオコーデック6は、デコーダとして動作するオーディオコーデック10と同じ成分選択動作を実行する。このようにして、エンコーダ支援FLC技術は、エンコーダから送信された最小量のサイド情報によってデコーダにおいてフレーム隠蔽品質のかなりの改良を達成する。
AAC標準を利用するオーディオコーデック6および10の場合、オーディオ信号のフレームの周波数ドメインデータは修正離散コサイン変換(MDCT)係数によって表される。1個のフレームは1024個のMDCT係数を含むことができ、MDCT係数の各々は大きさおよび符号を含んでいる。MDCT係数の一部はトーン成分を備えており、残りのMDCT係数は雑音成分を備えている。オーディオコーデック6および10は、エンコーダ支援FLC技術を実施して、破棄されたフレームのMDCT係数の大きさおよび符号を別々に推定することができる。他のオーディオ標準の場合、他のタイプの変換係数がフレームの周波数ドメインデータを表すこともある。加えて、フレームは任意の数の係数を含むことができる。
図2は、図1のオーディオエンコーディングおよびデコーディングシステム2によってエンコーダ支援フレーム損失隠蔽を実行する例示的な動作を示すフローチャートである。例示の目的のために、通信デバイス3は、エンコーダとして動作するオーディオコーデック6を具備する送信機デバイスとして動作し、通信デバイス4は、デコーダとして動作するオーディオコーデック10を具備する受信デバイスとして動作する。
通信デバイス3はフレームm+1のオーディオ信号をサンプリングし、通信デバイス3内のオーディオコーデック6はフレームm+1の時間ドメインデータを周波数ドメインデータに変換する。次に、オーディオコーデック6は、フレームm+1の周波数ドメインデータをオーディオビットストリームにエンコードする(12)。オーディオコーデック6は、フレーム遅延を実行して、フレームmの周波数ドメインデータを生成することができる。周波数ドメインデータはトーン成分および雑音成分を含んでいる。オーディオコーデック6はフレームmの周波数ドメインデータのトーン成分の符号のサブセットを抽出する(13)。
一実施形態では、オーディオコーデック6はFLCモジュール7を利用して、推定インデックスサブセットに基づいてフレームmの周波数ドメインデータのトーン成分の符号のサブセットを抽出する。推定インデックスサブセットは、フレームmの周波数ドメインデータの推定された大きさから、フレームm内のトーン成分の場所を識別する。FLCモジュール7は大きさ推定器と、成分選択モジュールと、符号抽出器とを含むことができるが、FLCモジュール7のこれらのコンポーネントは図1に示されていない。成分選択モジュールは、大きさ推定器からのフレームmの周波数ドメインデータの推定された大きさに基づいて、推定インデックスサブセットを生成することができる。
別の実施形態では、オーディオコーデック6は、フレームm+1の周波数ドメインデータの大きさからフレームm+1内のトーン成分の場所を識別するインデックスサブセットに基づいて、フレームmの周波数ドメインデータのトーン成分の符号のサブセットを抽出する。この場合、フレームmのインデックスサブセットはフレームm+1のインデックスサブセットにほぼ等しいと想定される。オーディオコーデック6は成分選択モジュールおよび符号抽出器を含むことができるが、これらのコンポーネントは図1には示されていない。成分選択モジュールは、フレームm+1の周波数ドメインデータの大きさに基づいてインデックスサブセットを生成することができる。
オーディオコーデック6は、フレームmのトーン成分の符号のサブセットをサイド情報として、フレームm+1のオーディオビットストリームに添付する。オーディオコーデック6は、トーン成分の場所をフレームm+1のオーディオビットストリームに添付しない。そうではなくて、オーディオコーデック6および10は両方とも、同じ動作を使用してトーン成分の場所を自己導出する。このようにして、本技術は、フレームm+1のオーディオビットストリームに添付されるサイド情報量を最小化する。次に、通信デバイス3は、フレームmの符号のサブセットを含めてフレームm+1のオーディオビットストリームを、送信チャネル5を介して通信デバイス4に送信する(14)。
通信デバイス4はフレームmのオーディオビットストリームを受信する(15)。通信デバイス4内のオーディオコーデック10は、オーディオビットストリームにエラー検出を実行して、オーディオビットストリームにエラーが発見された場合にはフレームmを破棄する(16)。通信デバイス4は、フレームmのトーン成分の符号のサブセットを含めてフレームm+1のオーディオビットストリームを受信する(17)。次に、オーディオコーデック10はFLCモジュール11を使用して、通信デバイス3からフレームm+1のオーディオビットストリームと共に送信されたフレームmのトーン成分の符号のサブセットを使用することによって、破棄されたフレームmのフレーム損失隠蔽を実行する(18)。FLCモジュール11は大きさ推定器と、成分選択モジュールと、符号推定器とを含むことができるが、FLCモジュール11のこれらのコンポーネントは図1に示されていない。
FLCモジュール11内の大きさ推定器は、隣接フレームm−1およびm+1の周波数ドメインデータに基づいて、フレームmの周波数ドメインデータの大きさを推定することができる。一実施形態では、成分選択モジュールは、大きさ推定器からのフレームmの周波数ドメインデータの推定された大きさに基づいて、フレームm内のトーン成分の場所を識別する推定インデックスサブセットを生成することができる。次に、符号推定器は、フレームmの推定インデックスサブセットに基づいて、フレームmの符号のサブセットからフレームm内のトーン成分の符号を推定する。
別の実施形態では、成分選択モジュールは、フレームm+1の周波数ドメインデータの大きさからフレームm+1内のトーン成分の場所を識別するインデックスサブセットを生成してもよい。この場合、フレームmのインデックスサブセットはフレームm+1のインデックスサブセットとほぼ等しいと想定される。次に、符号推定器は、フレームm+1のインデックスサブセットに基づいて、フレームmの符号のサブセットからフレームm内のトーン成分の符号を推定する。
FLCモジュール11内の符号推定器は、ランダム信号からフレームm内の雑音成分の符号を推定することができる。次に、オーディオコーデック10は、トーン成分および雑音成分の符号推定を対応する大きさ推定と結合して、フレームmの周波数ドメインデータを推定する。次に、オーディオコーデック10は、フレームmの推定周波数ドメインデータを、フレームmのオーディオ信号の推定時間ドメインデータにデコードする(19)。
図3は、サイド情報として送信されるフレームの符号のサブセットを生成するFLCモジュール33を含む例示的なオーディオエンコーダ20を示すブロック図である。オーディオエンコーダ20は、図1のそれぞれの通信デバイス3および4内のオーディオコーデック6および10と実質的に類似していてもよい。図3に示されているように、オーディオエンコーダ20は変換ユニット22と、コアエンコーダ24と、第1のフレーム遅延30と、第2のフレーム遅延32と、FLCモジュール33とを含んでいる。例示の目的のために、オーディオエンコーダ20は、ここでは、オーディオ信号のフレームの周波数ドメインデータがMDCT係数によって表されるAAC標準に準拠するものとして説明される。加えて、変換ユニット22は、修正離散コサイン変換ユニットとして説明される。他の実施形態では、オーディオエンコーダ20は、上述で列挙したオーディオコーディング標準または他の標準のいずれかに準拠していてもよい。
本技術は、ここでは、オーディオ信号のフレームmを隠蔽するものとして説明される。フレームm+1は、オーディオ信号のフレームmの直後のオーディオフレームを表している。同様に、フレームm−1は、オーディオ信号のフレームmの直前のオーディオフレームを表している。他の実施形態では、エンコーダ支援FLC技術は、フレームmの直前でも直後でもないフレームmの近傍フレームを利用して、フレームmを隠蔽してもよい。
変換ユニット22はフレームm+1のオーディオ信号xm+1[n]のサンプルを受信して、このサンプルを係数Xm+1(k)に変換する。次に、コアエンコーダ24はこの係数をフレームm+1のオーディオビットストリーム26にエンコードする。FLCモジュール33はフレームm+1の係数Xm+1(k)、フレームmの係数X(k)、およびフレームm−1の係数Xm−1(k)を使用して、フレームmの係数X(k)のトーン成分の符号Sのサブセット28を生成する。FLCモジュール33は、符号Sのサブセット28をサイド情報として、フレームm+1のオーディオビットストリーム26に添付する。
FLCモジュール33は大きさ推定器34と、成分選択モジュール36と、符号抽出器38とを含んでいる。変換ユニット22はフレームm+1の係数Xm+1(k)を大きさ推定器34および第1のフレーム遅延30に送る。第1のフレーム遅延30はフレームmの係数X(k)を生成して、フレームmの係数を第2のフレーム遅延32に送る。第2のフレーム遅延32はフレームm−1の係数Xm−1(k)を生成して、フレームm−1の係数を大きさ推定器34に送る。
大きさ推定器34は、フレームm+1およびm−1の係数に基づいて、フレームmの係数の大きさを推定する。大きさ推定器34は、種々の補間技術の1つを実施して、フレームmの係数の大きさを推定することができる。例えば、大きさ推定器34は、フレームm−1の先行フレーム係数Xm−1(k)およびフレームm+1の次のフレーム係数Xm+1(k)のエネルギに基づいて、エネルギ補間を実施することができる。大きさ推定は以下のように与えられる:
Figure 2009514032
ここでα(k)は以下の式によって算出されるエネルギスケーリングファクタである:
Figure 2009514032
ここで、Bはb番目のスケールファクタ帯域におけるMDCT係数のセットである。他の実施形態では、大きさ推定器44は、フレームmの直前でも直後でもないフレームmの近傍フレームを利用して、フレームmの係数の大きさを推定してもよい。
次に、大きさ推定器34は、フレームmの推定された係数の大きさ
Figure 2009514032
を成分選択モジュール36に送る。成分選択モジュール36は、フレームmの推定された係数の大きさを分類することによって、フレームmのトーン成分と雑音成分とを区別する。最大の大きさまたは最も顕著なスペクトルピークを有する係数をトーン成分とみなし、残りの係数は雑音成分をみなしてもよい。
選択されるトーン成分数は、送信される所定数の符号に基づいてもよい。例えば、最大の大きさを有する係数の10個がフレームmのトーン成分として選択されてもよい。他の場合には、成分選択モジュール36は10個より多いか、または10個未満のトーン成分を選択してもよい。さらに別の場合には、フレームmについて選択されるトーン成分数は、オーディオ信号に基づいて変化してもよい。例えば、オーディオ信号がフレームmにおいて、オーディオ信号の他のフレームよりも、多くのトーン成分を含んでいる場合、成分選択モジュール36は、他のフレームからよりも、フレームmからより多くのトーン成分を選択してもよい。
他の実施形態では、成分選択モジュール36は、フレームmのトーン成分と雑音成分とを区別するための種々の他の方式を使用して、フレームmの推定された係数の大きさからトーン成分を選択してもよい。例えば、成分選択モジュール36は、いくつかの心理音響原理に基づいて、係数のサブセットを選択してもよい。FLCモジュール43は、オーディオエンコーダ20の複雑さレベルが許容するより正確な成分区別方式を用いてもよい。
次に、成分選択モジュール36は、フレームmの推定された係数の大きさから選択されるトーン成分の場所を識別する推定インデックスサブセット
Figure 2009514032
を生成する。トーン成分は、最も顕著な大きさを有するフレームmの係数として選択される。しかしながら、フレームmの係数は、フレームmの隠蔽を実行するときにオーディオデコーダに使用可能ではない。したがって、インデックスサブセットが、フレームmの推定係数の大きさ
Figure 2009514032
に基づいて導出され、推定インデックスサブセットと称される。推定インデックスサブセットは以下のように与えられる:
Figure 2009514032
ここで、Mは、フレームm内のMDCT係数の数であり、Thrは、
Figure 2009514032
となるように判断される閾値であり、Bは、送信される符号の数である。例えば、例示的な実施形態において、Bは10個の符号に等しくてもよい。他の実施形態において、Bは10より大きくても、または10未満であってもよい。さらに別の実施形態において、Bはフレームmのオーディオ信号に基づいて変化してもよい。
成分選択モジュール36は、フレームmの推定インデックスサブセットを符号抽出器38に送る。符号抽出器38はまた、フレームmの係数X(k)を第1のフレーム遅延30から受信する。次に、符号抽出器38は、推定インデックスサブセットによって識別されたフレームmの係数X(k)から符号を抽出する。例えば、推定インデックスサブセットは、所定数、例えば10個の係数インデックスを含み、これらは、フレームmの推定された係数の大きさから選択されるトーン成分を識別する。次に、符号抽出器38は、推定インデックスサブセット内のインデックスと等しいインデックスkを有するフレームmの係数X(k)に対応する符号を抽出する。次に、符号抽出器38は、推定インデックスサブセットによって識別されたフレームmのトーン成分から抽出された符号Sのサブセット28を、フレームm+1のオーディオビットストリーム26に添付する。
成分選択モジュール36は、オーディオエンコーダ20からの送信を受信するオーディオデコーダと同じ動作を使用して、フレームm内のトーン成分を選択する。したがって、フレームmの推定された係数の大きさから選択されるトーン成分の場所を識別する同じ推定インデックスサブセット
Figure 2009514032
は、オーディオエンコーダ20およびオーディオデコーダの両方で生成されることができる。したがって、オーディオデコーダは、フレームmのトーン成分の符号Sのサブセット28を、推定インデックスサブセットによって識別されたフレームmの適切な推定された係数の大きさに適用することができる。このように、オーディオエンコーダ20は、符号Sのサブセット28と共にフレームm内のトーン成分の場所を送信する必要がないため、送信されるサイド情報量を最小化することができる。
図4は、サイド情報としてエンコーダから受信されたフレームの符号のサブセットを利用するフレーム損失隠蔽モジュール43を含む例示的なオーディオデコーダ40を示すブロック図である。オーディオデコーダ40は、図1のそれぞれの通信デバイス3および4内のオーディオコーデック6および10と実質的に類似していてもよい。オーディオデコーダ40は、図3のオーディオエンコーダ20と実質的に類似しているオーディオエンコーダから、オーディオビットストリームを受信してもよい。図4に示されているように、オーディオデコーダ40はコアデコーダ41と、エラー検出モジュール42と、FLCモジュール43と、逆変換ユニット50とを含んでいる。
例示の目的のために、ここでは、オーディオデコーダ40を、オーディオ信号のフレームの周波数ドメインデータがMDCT係数によって表されるAAC標準に準拠するものとして説明する。加えて、逆変換ユニット50を、逆修正離散コサイン変換ユニットとして説明する。他の実施形態では、オーディオデコーダ40は、上述で列挙したオーディオコーディング標準のいずれかに準拠していてもよい。
コアデコーダ41は、係数X(k)を含むフレームmのオーディオビットストリームを受信して、フレームmのオーディオビットストリームをエラー検出モジュール42に送る。次に、エラー検出モジュール42は、フレームmのオーディオビットストリームにエラー検出を実行する。コアデコーダ41は続いて、係数Xm+1(k)を含むフレームm+1のオーディオビットストリーム26と、サイド情報としてフレームmの符号Sのサブセット28とを受信する。コアデコーダ41は、第1のフレーム遅延51を使用して、フレームmの係数を、破棄されない場合は生成し、第2のフレーム遅延52を使用して、フレームm+1のオーディオビットストリームからフレームm−1の係数を生成する。フレームmの係数が破棄されない場合、第1のフレーム遅延51はフレームmの係数をマルチプレクサ49に送る。第2のフレーム遅延52はフレームm−1の係数をFLCモジュール43に送る。
フレームm内にエラーが検出されない場合、エラー検出モジュール42は、マルチプレクサ49がフレームmの係数X(k)を第1のフレーム遅延51から逆変換ユニット50に直接に渡すことを可能にし、それはフレームmのオーディオ信号サンプルに変換される。
フレームm内にエラーが検出される場合、エラー検出モジュール42はフレームmの係数のすべてを破棄して、マルチプレクサ49が、フレームmの係数推定
Figure 2009514032
をFLCモジュール43から逆変換ユニット50に渡すことを可能にする。FLCモジュール43はフレームm+1の係数Xm+1(k)をコアデコーダ41から受信し、フレームm−1の係数Xm−1(k)を第2のフレーム遅延52から受信する。FLCモジュール43はフレームm+1およびm−1の係数を使用して、フレームmの係数の大きさを推定する。加えて、FLCモジュール43は、オーディオエンコーダ20からフレームm+1のオーディオビットストリーム26と共に送信されたフレームmの符号Sのサブセット28を使用して、フレームmの係数の符号を推定する。次に、FLCモジュール43は、大きさ推定と符号推定を結合して、フレームmの係数を推定する。次に、FLCモジュール43は係数推定
Figure 2009514032
を逆変換ユニット50に送り、逆変換ユニット50は、フレームmの係数推定を、フレームmのオーディオ信号の推定サンプル
Figure 2009514032
に変換する。
FLCモジュール43は大きさ推定器44と、成分選択モジュール46と、符号推定器48とを含んでいる。コアデコーダ41はフレームm+1の係数Xm+1(k)を大きさ推定器44に送り、第2のフレーム遅延52はフレームm−1の係数Xm−1(k)を大きさ推定器44に送る。オーディオエンコーダ20内の大きさ推定器34と実質的に類似して、大きさ推定器44は、フレームm+1およびm−1の係数に基づいて、フレームmの係数の大きさを推定する。大きさ推定器44は、種々の補間技術の1つを実施して、フレームmの係数の大きさを推定することができる。例えば、大きさ推定器44は、フレームm−1の先行フレーム係数Xm−1(k)およびフレームm+1の次のフレーム係数Xm+1(k)のエネルギに基づいて、エネルギ補間を実施することができる。大きさ推定は上述の式(1)で与えられている。他の実施形態では、大きさ推定器44は、フレームmの直前でも直後でもないフレームmの近傍フレームを利用して、フレームmの係数の大きさを推定してもよい。
次に、大きさ推定器44は、フレームmの推定された係数の大きさ
Figure 2009514032
を成分選択モジュール46に送る。成分選択モジュール46は、フレームmの推定された係数の大きさを分類することによって、フレームmのトーン成分と雑音成分とを区別する。最大の大きさまたは最も顕著なスペクトルピークを有する係数をトーン成分とみなし、残りの係数は雑音成分をみなしてもよい。選択されるトーン成分数は、送信される所定数の符号に基づいてもよい。他の場合には、フレームmについて選択されるトーン成分数は、オーディオ信号に基づいて変化してもよい。次に、成分選択モジュール46は、フレームmの推定された係数の大きさから選択されるトーン成分の場所を識別する推定インデックスサブセット
Figure 2009514032
を生成する。推定インデックスサブセットは上述の式(3)で与えられている。
成分選択モジュール46は、オーディオエンコーダ20(オーディオビットストリームはオーディオエンコーダ20から受信される)内の成分選択モジュール36と全く同じ動作を使用して、フレームm内のトーン成分を選択する。したがって、フレームmの推定された係数の大きさから選択されるトーン成分の場所を識別する同じ推定インデックスサブセット
Figure 2009514032
は、オーディオエンコーダ20とオーディオデコーダ40の両方で生成することができる。したがって、オーディオデコーダ40は、フレームmのトーン成分の符号Sのサブセット28を、推定インデックスサブセットによって識別されるフレームmの適切な推定された係数の大きさに適用することができる。
成分選択モジュール46は、フレームmの推定インデックスサブセットを符号推定器48に送る。符号推定器48はまた、フレームm+1のオーディオビットストリーム26と共に送信されたフレームmの符号Sのサブセット28をオーディオエンコーダ20から受信する。次に、符号推定器48は、フレームmのトーン成分と雑音成分との両方の符号を推定する。
雑音成分の場合、符号推定器48はランダム信号から符号を推定する。トーン成分の場合、符号推定器48は、推定インデックスサブセット
Figure 2009514032
に基づいて符号Sのサブセット28から符号を推定する。例えば、推定インデックスサブセットは、所定数、例えば10個の係数インデックスを含み、これらは、フレームmの推定された係数の大きさから選択されるトーン成分を識別する。次に、符号推定器48は、推定インデックスサブセット内のインデックスに等しいインデックスkを有する符号Sのサブセット28としてフレームmのトーン成分の符号を推定する。符号推定
Figure 2009514032
は以下のように与えられる:
Figure 2009514032
ここで、sgn( )は符号関数を示しており、
Figure 2009514032
は、選択されたトーン成分に対応する係数の推定インデックスサブセットであり、S(k)はサンプル空間{−1,1}を有するランダム変数である。
上述のように、フレームmのトーン成分の符号を推定するために、オーディオデコーダ40は、フレームm内のトーン成分の場所と、フレームmのオリジナルトーン成分の対応する符号とを知る必要がある。オーディオデコーダ40がこの情報を受信する簡単なやり方は、高められたビットレートによって、オーディオエンコーダ20からオーディオデコーダ40に両方のパラメータを明確に送信することである。示されている実施形態では、推定インデックスサブセット
Figure 2009514032
は、オーディオエンコーダ20およびオーディオデコーダ40の両方で全く同じ導出プロセスを使用して自己導出されるのに対して、推定インデックスサブセット
Figure 2009514032
によってインデックスを付けられたフレームmのトーン成分の符号は、サイド情報としてオーディオエンコーダ20から送信される。
次に、FLCモジュール43は、大きさ推定器44からの大きさ推定
Figure 2009514032
と、符号推定器48からの符号推定
Figure 2009514032
とを結合して、フレームmの係数を推定する。フレームmの係数推定
Figure 2009514032
は以下のように与えられる:
Figure 2009514032
次に、FLCモジュール43は、フレームmの係数推定を渡すことを可能にされたマルチプレクサ49を介して、逆変換ユニット50に係数推定を送り、逆変換ユニット50はフレームmの係数推定をフレームmのオーディオ信号の推定サンプル
Figure 2009514032
に変換する。
図5は、オーディオビットストリームをエンコードして、オーディオビットストリームと共に送信されるフレームの符号のサブセットをサイド情報として生成する例示的な動作を説明するフローチャートである。この動作を図3のオーディオエンコーダ20を参照してここで説明する。
変換ユニット22はフレームm+1のオーディオ信号xm+1[n]のサンプルを受信して、このサンプルをフレームm+1の係数Xm+1(k)に変換する(54)。次に、コアエンコーダ24は、この係数をフレームm+1のオーディオビットストリーム26にエンコードする(56)。変換ユニット22はフレームm+1の係数Xm+1(k)を大きさ推定器34および第1のフレーム遅延30に送る。第1のフレーム遅延30はフレーム遅延を実行して、フレームmの係数X(k)を生成する(58)。次に、第1のフレーム遅延30は、フレームmの係数を第2のフレーム遅延32に送る。第2のフレーム遅延32はフレーム遅延を実行して、フレームm−1の係数Xm−1(k)を生成する(60)。次に、第2のフレーム遅延32は、フレームm−1の係数を大きさ推定器34に送る。
大きさ推定器34は、フレームm+1およびm−1の係数に基づいて、フレームmの係数の大きさを推定する(62)。例えば、大きさ推定器34は、式(1)で与えられたエネルギ補間技術を実施して、係数の大きさを推定することができる。次に、大きさ推定器34は、フレームmの推定された係数の大きさ
Figure 2009514032
を成分選択モジュール36に送る。成分選択モジュール36は、フレームmの推定された係数の大きさを分類することによって、フレームmのトーン成分と雑音成分とを区別する。最大の大きさを有する係数をトーン成分とみなし、残りの係数を雑音成分とみなしてもよい。選択されるトーン成分数は、送信される所定数の符号に基づいてもよい。他の場合には、フレームmについて選択されるトーン成分数は、オーディオ信号に基づいて変化してもよい。次に、成分選択モジュール36は、フレームmの推定された係数の大きさから選択されるトーン成分の場所を識別する推定インデックスサブセット
Figure 2009514032
を生成する(64)。
成分選択モジュール36はフレームmの推定インデックスサブセットを符号抽出器38に送る。符号抽出器38はまた、フレームmの係数X(k)を第1のフレーム遅延30から受信する。次に、符号抽出器38は、推定インデックスサブセットによって識別されたフレームmの係数X(k)から符号を抽出する(66)。次に、符号抽出器38は、推定インデックスサブセットによって識別されたフレームmのトーン成分から抽出された符号Sのサブセット28を、フレームm+1のオーディオビットストリーム26に添付する(68)。
図6は、オーディオビットストリームをデコードして、サイド情報としてエンコーダから受信されたフレームの符号のサブセットを使用してフレーム損失隠蔽を実行する例示的な動作を図示するフローチャートである。この動作を図4のオーディオデコーダ40を参照してここで説明する。
コアデコーダ41は、係数X(k)を含むフレームmのオーディオビットストリームを受信する(72)。次に、エラー検出モジュール42は、フレームmのオーディオビットストリームにエラー検出を実行する(74)。コアデコーダ41は続いて、係数Xm+1(k)を含むフレームm+1のオーディオビットストリーム26と、サイド情報としてフレームmの符号Sのサブセット28とを受信する(75)。コアデコーダ41は、第1のフレーム遅延51を使用して、フレームmの係数を、破棄されない場合は生成し、第2のフレーム遅延52を使用して、フレームm+1のオーディオビットストリームからフレームm−1の係数を生成する。フレームmの係数が破棄されない場合、第1のフレーム遅延51はフレームmの係数をマルチプレクサ49に送る。第2のフレーム遅延52はフレームm−1の係数をFLCモジュール43に送る。
フレームm内にエラーが検出されない場合、エラー検出モジュール42は、マルチプレクサ49がフレームmの係数を第1のフレーム遅延51から逆変換ユニット50に直接に渡すことを可能にし、それはフレームmのオーディオ信号サンプルに変換される。フレームm内にエラーが検出される場合、エラー検出モジュール42は、フレームmの係数のすべてを破棄して、マルチプレクサ49がフレームmの係数推定をFLCモジュール43から逆変換ユニット50に渡すことを可能にする(76)。
コアデコーダ41はフレームm+1の係数Xm+1(k)を大きさ推定器44に送り、第2のフレーム遅延52はフレームm−1の係数Xm−1(k)を大きさ推定器44に送る。大きさ推定器44は、フレームm+1およびm−1の係数に基づいて、フレームmの係数の大きさを推定する(78)。例えば、大きさ推定器44は、上述の式(1)で与えられているエネルギ補間技術を実施して、係数の大きさを推定することができる。次に、大きさ推定器44は、フレームmの推定された係数の大きさ
Figure 2009514032
を成分選択モジュール46に送る。
成分選択モジュール46は、フレームmの推定された係数の大きさを分類することによって、フレームmのトーン成分と雑音成分とを区別する。最大の大きさを有する係数をトーン成分とみなし、残りの係数を雑音成分とみなしてもよい。選択されるトーン成分数は、送信される所定数の符号に基づいてもよい。他の場合には、フレームmについて選択されるトーン成分数は、オーディオ信号に基づいて変化してもよい。次に、成分選択モジュール46は、フレームmの推定された係数の大きさから選択されるトーン成分の場所を識別する推定インデックスサブセット
Figure 2009514032
を生成する(80)。
成分選択モジュール46は、オーディオビットストリームが受信されるオーディオエンコーダ20内の成分選択モジュール36と全く同じ動作を使用して、フレームm内のトーン成分を選択する。したがって、フレームmの推定された係数の大きさから選択されるトーン成分の場所を識別する同じ推定インデックスサブセット
Figure 2009514032
は、オーディオエンコーダ20およびオーディオデコーダ40の両方で生成されることができる。したがって、オーディオデコーダ40は、フレームmのトーン成分の符号Sのサブセット28を、推定インデックスサブセットによって識別されたフレームmの適切な推定された係数の大きさに適用することができる。
成分選択モジュール46は、フレームmの推定インデックスサブセットを符号推定器48に送る。符号推定器48はまた、フレームm+1のオーディオビットストリーム26と共に送信されるフレームmの符号Sのサブセット28を、オーディオエンコーダ20から受信する。次に、符号推定器48は、フレームmのトーン成分および雑音成分の両方の符号を推定する。トーン成分の場合には、符号推定器48は、推定インデックスサブセットに基づいてフレームmの符号Sのサブセット28から符号を推定する(82)。雑音成分の場合、符号推定器48はランダム信号から符号を推定する(84)。
次に、FLCモジュール43は、大きさ推定器44からの大きさ推定
Figure 2009514032
と、符号推定器48からの符号推定
Figure 2009514032
とを結合して、フレームmの係数を推定する(86)。FLCモジュール43は係数推定
Figure 2009514032
を逆変換ユニット50に送り、逆変換ユニット50はフレームmの係数推定をフレームmのオーディオ信号の推定サンプル
Figure 2009514032
に変換する(88)。
図7は、別の例示的なオーディオエンコーダ90を示すブロック図であり、オーディオエンコーダ90は、成分選択モジュール102と符号抽出器104とを含み、サイド情報として送信されるフレームの符号のサブセットを生成する。オーディオエンコーダ90は、図1のそれぞれの通信デバイス3および4内のオーディオコーデック6および10と実質的に類似していてもよい。図7に示されているように、オーディオエンコーダ90は変換ユニット92と、コアエンコーダ94と、フレーム遅延100と、成分選択モジュール102と、符号抽出器104とを含んでいる。例示の目的のために、オーディオエンコーダ90は、ここでは、オーディオ信号のフレームの周波数ドメインデータがMDCT係数によって表されるAAC標準に準拠しているものとして説明される。加えて、変換ユニット92は修正離散コサイン変換ユニットとして説明される。他の実施形態では、オーディオエンコーダ90は、上述で列挙されているオーディオコーディング標準のいずれかに準拠していてもよい。
本技術は、ここでは、オーディオ信号のフレームmを隠蔽するものとして説明される。フレームm+1は、オーディオ信号のフレームmの直後のオーディオフレームを表している。同様に、フレームm−1は、オーディオ信号のフレームmの直前のオーディオフレームを表している。他の実施形態では、エンコーダ支援FLC技術は、フレームの直前でも直後でもないフレームmの近傍フレームを利用して、フレームmを隠蔽することができる。
変換ユニット92はフレームm+1のオーディオ信号xm+1[n]のサンプルを受信して、このサンプルを係数Xm+1(k)に変換する。次に、コアエンコーダ94は、この係数をフレームm+1のオーディオビットストリーム96にエンコードする。成分選択モジュール102はフレームm+1の係数Xm+1(k)を使用し、符号抽出器104はフレームmの係数X(k)を使用して、フレームmの符号Sのサブセット98を生成する。符号抽出器104は、この符号Sのサブセット98をサイド情報としてフレームm+1のオーディオビットストリーム96に添付する。
より具体的には、変換ユニット92はフレームm+1の係数Xm+1(k)を成分選択モジュール102およびフレーム遅延100に送る。フレーム遅延100はフレームmの係数X(k)を生成して、フレームmの係数を符号抽出器104に送る。成分選択モジュール102は、フレームm+1の係数の大きさを分類することによって、フレームm+1のトーン成分と雑音成分とを区別する。最大の大きさまたは最も顕著なスペクトルピークを有する係数をトーン成分とみなし、残りの係数を雑音成分とみなしてもよい。
選択されるトーン成分数は、送信される所定数の符号に基づいてもよい。例えば、最大の大きさを有する係数の10個が、フレームm+1のトーン成分として選択されてもよい。他の場合には、成分選択モジュール102は10個より多いか、または10個未満のトーン成分を選択してもよい。さらに別の場合には、フレームm+1について選択されるトーン成分数は、オーディオ信号に基づいて変化してもよい。例えば、オーディオ信号がフレームm+1において、オーディオ信号の他のフレームよりも、多くのトーン成分を含んでいる場合、成分選択モジュール36は、他のフレームよりもフレームm+1からより多くのトーン成分を選択してもよい。
他の実施形態では、成分選択モジュール102は、フレームm+1のトーン成分と雑音成分とを区別するための種々の他の方式を使用して、フレームm+1の係数の大きさからトーン成分を選択してもよい。例えば、成分選択モジュール102は、いくつかの心理音響原理に基づいて係数のサブセットを選択してもよい。オーディオエンコーダ90は、オーディオエンコーダ90の複雑さレベルが許容するより正確な成分区別方式を用いてもよい。
次に、成分選択モジュール102は、フレームm+1の係数の大きさから選択されるトーン成分の場所を識別するインデックスサブセットIm+1を生成する。トーン成分は、最も顕著な大きさを有するフレームm+1の係数として選択される。フレームm+1の係数は、フレームmの隠蔽を実行する場合に、オーディオデコーダに使用可能である。したがって、インデックスサブセットは、フレームm+1の係数の大きさXm+1(k)に基づいて導出される。インデックスサブセットは以下のように与えられる:
Figure 2009514032
ここで、Mは、フレームm+1内のMDCT係数の数であり、Thrは、|Im+1|=Bm+1となるように判断される閾値であり、Bm+1は、送信される符号の数である。例えば、Bm+1は10個の符号に等しくてもよい。他の実施形態では、Bm+1は10より大きいか、または10未満であってもよい。さらに別の実施形態では、Bm+1はフレームmのオーディオ信号に基づいて変化してもよい。
成分選択モジュール102はフレームm+1のインデックスサブセットを符号抽出器104に送る。符号抽出器104はまた、フレームmの係数X(k)をフレーム遅延100から受信する。フレームmのインデックスサブセットは、フレームm+1のインデックスサブセットにほぼ等しいと想定される。次に、符号抽出器104は、フレームm+1のインデックスサブセットによって識別されたフレームmの係数X(k)から符号を抽出する。例えば、インデックスサブセットは、所定数、例えば10個の係数インデックスを含み、係数インデックスは、フレームm+1の係数の大きさから選択されるトーン成分を識別する。次に、符号抽出器104は、フレームm+1のインデックスサブセット内のインデックスに等しいインデックスkを有するフレームmの係数X(k)に対応する符号を抽出する。次に、符号抽出器104は、フレームm+1のインデックスサブセットによって識別されたフレームmのトーン成分から抽出された符号Sのサブセット98を、フレームm+1のオーディオビットストリーム96に添付する。
成分選択モジュール102は、オーディオエンコーダ90からの送信を受信するオーディオデコーダと全く同じ動作を使用して、フレームm+1内のトーン成分を選択する。したがって、フレームm+1の係数の大きさから選択されるトーン成分の場所を識別する同じインデックスサブセットIm+1は、オーディオエンコーダ90およびオーディオデコーダの両方で生成することができる。したがって、オーディオデコーダは、フレームmのトーン成分の符号Sのサブセット98を、フレームm+1のインデックスサブセットによって識別されたフレームmの適切な推定された係数の大きさに適用することができる。このように、オーディオエンコーダ90は、符号Sのサブセット98と共にフレームm内のトーン成分の場所を送信する必要がないため、送信されるサイド情報量を最小化することができる。
図8は、サイド情報としてエンコーダから受信されたフレームの符号のサブセットを利用するフレーム損失隠蔽モジュール113を含む別の例示的なオーディオデコーダ110を示すブロック図である。オーディオデコーダ110は、図1のそれぞれの通信デバイス3および4内のオーディオコーデック6および10に実質的に類似していてもよい。オーディオデコーダ110は、図7のオーディオエンコーダ90と実質的に類似しているオーディオエンコーダから、オーディオビットストリームを受信してもよい。図8に示されているように、オーディオデコーダ110はコアデコーダ111と、エラー検出モジュール112と、FLCモジュール113と、逆変換ユニット120とを含んでいる。
例示の目的のために、ここでは、オーディオデコーダ110は、オーディオ信号のフレームの周波数ドメインデータがMDCT係数によって表されるAAC標準に準拠するものとして説明される。加えて、逆変換ユニット120は逆修正離散コサイン変換ユニットとして説明される。他の実施形態では、オーディオデコーダ110は、上述で列挙されたオーディオコーディング標準のいずれかに準拠してもよい。
コアデコーダ111は、係数X(k)を含むフレームmのオーディオビットストリームを受信して、フレームmのオーディオビットストリームをエラー検出モジュール112に送る。次に、エラー検出モジュール112は、フレームmのオーディオビットストリームにエラー検出を実行する。コアデコーダ11は続いて、係数Xm+1(k)を含むフレームm+1のオーディオビットストリーム96と、サイド情報としてフレームmの符号Sのサブセット98とを受信する。コアデコーダ111は、第1のフレーム遅延121を使用して、フレームmの係数を、破棄されない場合は生成し、第2のフレーム遅延122を使用して、フレームm+1のオーディオビットストリームからフレームm−1の係数を生成する。フレームmの係数が破棄されない場合、第1のフレーム遅延121はフレームmの係数をマルチプレクサ119に送る。第2のフレーム遅延122はフレームm−1の係数をFLCモジュール113に送る。
フレームm内にエラーが検出されない場合、エラー検出モジュール112は、マルチプレクサ119がフレームmの係数X(k)を第1のフレーム遅延121から逆変換ユニット120に直接に渡すことを可能にし、それはフレームmのオーディオ信号サンプルに変換される。
フレームm内にエラーが検出される場合、エラー検出モジュール112はフレームmの係数のすべてを破棄して、マルチプレクサ119が、フレームmの係数推定
Figure 2009514032
をFLCモジュール113から逆変換ユニット120に渡すことを可能にする。FLCモジュール113はフレームm+1の係数Xm+1(k)をコアデコーダ111から受信し、フレームm−1の係数Xm−1(k)を第2のフレーム遅延122から受信する。FLCモジュール113はフレームm+1およびm−1の係数を使用して、フレームmの係数の大きさを推定する。加えて、FLCモジュール113は、オーディオエンコーダ90からフレームm+1のオーディオビットストリーム96と共に送信されたフレームmの符号Sのサブセット98を使用して、フレームmの係数の符号を推定する。次に、FLCモジュール113は、大きさ推定と符号推定とを結合して、フレームmの係数を推定する。FLCモジュール113は係数推定
Figure 2009514032
を逆変換ユニット120に送り、逆変換ユニット120はフレームmの係数推定を、フレームmのオーディオ信号の推定サンプル
Figure 2009514032
に変換する。
FLCモジュール113は大きさ推定器114と、成分選択モジュール116と、符号推定器118とを含んでいる。コアデコーダ111はフレームm+1の係数Xm+1(k)を大きさ推定器114に送り、第2のフレーム遅延122はフレームm−1の係数Xm−1(k)を大きさ推定器114に送る。大きさ推定器114は、フレームm+1およびm−1の係数に基づいて、フレームmの係数の大きさを推定する。大きさ推定器114は、種々の補間技術の1つを実施して、フレームmの係数の大きさを推定することができる。例えば、大きさ推定器114は、フレームm−1の先行フレーム係数Xm−1(k)およびフレームm+1の次のフレーム係数Xm+1(k)のエネルギに基づいて、エネルギ補間を実施することができる。係数の大きさ推定
Figure 2009514032
は式(1)で与えられている。他の実施形態では、エンコーダ支援FLC技術は、フレームmの直前でも直後でもないフレームmの近傍フレームを利用して、フレームmの係数の大きさを推定してもよい。
成分選択モジュール116はフレームm+1の係数Xm+1(k)を受信して、フレームm+1の係数の大きさを分類することによってフレームm+1のトーン成分と雑音成分とを区別する。最大の大きさまたは最も顕著なスペクトルピークを有する係数をトーン成分とみなし、残りの係数を雑音成分とみなしてもよい。選択されるトーン成分数は、送信される所定数の符号に基づいてもよい。他の場合には、フレームm+1について選択されるトーン成分数は、オーディオ信号に基づいて変化してもよい。次に、成分選択モジュール116は、フレームm+1の係数の大きさから選択されるトーン成分の場所を識別するインデックスサブセットIm+1を生成する。フレームm+1のインデックスサブセットは、上述の式(6)で与えられている。フレームmのインデックスサブセットは、フレームm+1のインデックスサブセットとほぼ等しいと想定される。
成分選択モジュール116は、オーディオエンコーダ90(オーディオビットストリームはオーディオエンコーダ90から受信される)内の成分選択モジュール102と全く同じ動作を使用して、フレームm+1内のトーン成分を選択する。したがって、フレームm+1の係数の大きさから選択されるトーン成分の場所を識別する同じインデックスサブセットIm+1は、オーディオエンコーダ90とオーディオデコーダ110との両方で生成されることができる。したがって、オーディオデコーダ110は、フレームmのトーン成分の符号Sのサブセット98を、フレームm+1のインデックスサブセットによって識別されたフレームmの適切な推定された係数の大きさに適用することができる。
成分選択モジュール116は、フレームm+1のインデックスサブセットを符号推定器118に送る。符号推定器118はまた、エンコーダ90からフレームm+1のオーディオビットストリーム96と共に送信されたフレームmの符号Sのサブセット98を受信する。次に、符号推定器118は、フレームmのトーン成分および雑音成分の両方の符号を推定する。
雑音成分の場合、符号推定器118はランダム信号から符号を推定する。トーン成分の場合、符号推定器118は、フレームm+1のインデックスサブセットに基づいて符号Sのサブセット98から符号を推定する。例えば、インデックスサブセットは、所定数、例えば10個の係数インデックスを含み、係数インデックスは、フレームm+1の係数の大きさから選択されるトーン成分を識別する。次に、符号推定器118は、フレームm+1のインデックスサブセット内のインデックスと等しいインデックスkを有する符号Sのサブセット98としてフレームmのトーン成分の符号を推定する。符号推定は以下のように与えられる:
Figure 2009514032
ここで、sgn( )は、符号関数を示しており、Im+1は、選択されたトーン成分に対応する係数のインデックスサブセットであり、S(k)は、サンプル空間{−1,1}を有するランダム変数である。
上述のように、フレームのトーン成分の符号を推定するために、オーディオデコーダ110は、フレームm内のトーン成分の場所と、フレームmのオリジナルトーン成分の対応する符号を知る必要がある。オーディオデコーダ110がこの情報を受信する簡単なやり方は、高められたビットレートによって、オーディオエンコーダ90からオーディオデコーダ110に両方のパラメータを明確に送信することである。示されている実施形態では、インデックスサブセットIm+1は、オーディオエンコーダ90とオーディオデコーダ110の両方で全く同じ導出プロセスを使用して自己導出されるのに対して、フレームm+1のインデックスサブセットIm+1によってインデックスを付けられたフレームmのトーン成分の符号は、サイド情報としてオーディオエンコーダ90から送信される。
次に、FLCモジュール113は、大きさ推定器114からの大きさ推定
Figure 2009514032
と、符号推定器118からの符号推定
Figure 2009514032
とを結合して、フレームmの係数を推定する。フレームmの係数推定
Figure 2009514032
は、式(5)で与えられている。次に、FLCモジュール113は係数推定を逆変換ユニット120に送り、逆変換ユニット120は、フレームmの係数推定をフレームmのオーディオ信号の推定サンプル
Figure 2009514032
に変換する。
図9は、オーディオビットストリームをエンコードして、オーディオビットストリームと共に送信されるフレームの符号のサブセットをサイド情報として生成する別の例示的な動作を示すフローチャートである。この動作を図7のオーディオエンコーダ90を参照してここで説明する。
変換ユニット92は、フレームm+1のオーディオ信号xm+1[n]のサンプルを受信し、このサンプルをフレームm+1の係数Xm+1(k)に変換する(124)。次に、コアエンコーダ94は、この係数をフレームm+1のオーディオビットストリーム96にエンコードする(126)。変換ユニット92は、フレームm+1の係数Xm+1(k)を成分選択モジュール102およびフレーム遅延100に送る。フレーム遅延100はフレーム遅延を実行して、フレームmの係数X(k)を生成する(128)。次に、フレーム遅延100は、フレームmの係数を符号抽出器104に送る。
成分選択モジュール102は、フレームm+1の係数の大きさを分類することによって、フレームm+1のトーン成分と雑音成分とを区別する。最大の大きさを有する係数をトーン成分とみなし、残りの係数を雑音成分とみなしてもよい。選択されるトーン成分数は、送信される所定数の符号に基づいてもよい。他の場合には、フレームm+1について選択されるトーン成分数は、オーディオ信号に基づいて変化してもよい。次に、成分選択モジュール102は、フレームm+1の係数の大きさから選択されるトーン成分を識別するインデックスサブセットIm+1を生成する(130)。
成分選択モジュール102は、フレームm+1のインデックスサブセットを符号抽出器104に送る。符号抽出器104はまた、フレームmの係数X(k)をフレーム遅延100から受信する。フレームmのインデックスサブセットは、フレームm+1のインデックスサブセットとほぼ等しいと想定される。次に、符号抽出器104は、フレームm+1のインデックスサブセットによって識別されたフレームmの係数X(k)から符号を抽出する(132)。次に、符号抽出器104は、フレームm+1のインデックスサブセットによって識別されたフレームmのトーン成分から抽出された符号Sのサブセット98を、フレームm+1のオーディオビットストリーム96に添付する(134)。
図10は、オーディオビットストリームをデコードして、サイド情報としてエンコーダから受信したフレームの符号のサブセットを使用してフレーム損失隠蔽を実行する別の例示的な動作を示すフローチャートである。この動作を図8のオーディオデコーダ110を参照してここで説明する。
コアデコーダ111は、係数X(k)を含むフレームmのオーディオビットストリームを受信する(138)。次に、エラー検出モジュール112は、フレームmのオーディオビットストリームにエラー検出を実行する(140)。コアデコーダ111は続いて、係数Xm+1(k)を含むフレームm+1のオーディオビットストリーム96と、サイド情報としてのフレームmの符号Sのサブセット98とを受信する(141)。コアデコーダ111は、第1のフレーム遅延121を使用して、フレームmの係数を、破棄されない場合は生成し、第2のフレーム遅延122を使用して、フレームm+1のオーディオビットストリームからフレームm−1の係数を生成する。フレームmの係数が破棄されない場合、第1のフレーム遅延121はフレームmの係数をマルチプレクサ119に送る。第2のフレーム遅延122はフレームm−1の係数をFLCモジュール113に送る。
フレームm内にエラーが検出されない場合、エラー検出モジュール112は、マルチプレクサ119がフレームmの係数を第1のフレーム遅延121から逆変換ユニット120に直接に渡すことを可能にし、それはフレームmのオーディオ信号サンプルに変換される。フレームm内にエラーが検出される場合、エラー検出モジュール112は、フレームmの係数のすべてを破棄して、マルチプレクサ119がフレームmの係数推定をFLCモジュール113から逆変換ユニット120に渡すことを可能にする(142)。
コアデコーダ111は、フレームm+1の係数Xm+1(k)を大きさ推定器114に送り、第2の遅延フレーム122はフレームm−1の係数Xm−1(k)を大きさ推定器114に送る。大きさ推定器114は、フレームm+1およびm−1の係数に基づいて、フレームmの係数の大きさを推定する(144)。例えば、大きさ推定器44は、式(1)で与えられたエネルギ補間技術を実施して、係数の大きさを推定することができる。
成分選択モジュール116は、フレームm+1の係数Xm+1(k)を受信して、フレームm+1の係数の大きさを分類することによって、フレームm+1のトーン成分と雑音成分とを区別する。最大の大きさを有する係数をトーン成分とみなし、残りの係数を雑音成分とみなしてもよい。選択されるトーン成分数は、送信される所定数の符号に基づいてもよい。他の場合には、フレームm+1について選択されたトーン成分は、オーディオ信号に基づいて変化してもよい。次に、成分選択モジュール116は、フレームm+1の係数の大きさから選択されるトーン成分の場所を識別するインデックスサブセットIm+1を生成する(146)。フレームmのインデックスサブセットは、フレームm+1のインデックスサブセットとほぼ等しいと想定される。
成分選択モジュール116は、オーディオエンコーダ90(ここからオーディオビットストリームが受信される)内の成分選択モジュール102と全く同じ動作を使用して、フレームm+1内のトーン成分を選択する。したがって、フレームm+1の係数の大きさから選択されるトーン成分の場所を識別する同じインデックスサブセットIm+1は、オーディオエンコーダ90およびオーディオデコーダ110の両方で生成されることができる。したがって、オーディオデコーダ110は、フレームmのトーン成分の符号Sのサブセット98を、フレームm+1のインデックスサブセットによって識別されたフレームmの適切な推定された係数の大きさに適用することができる。
成分選択モジュール116は、フレームm+1のインデックスサブセットを符号推定器118に送る。符号推定器118はまた、エンコーダ90からフレームm+1のオーディオビットストリーム96と共に送信されたフレームmの符号Sのサブセット98を受信する。符号推定器118は、フレームm+1のインデックスサブセットに基づいて、符号Sのサブセット98からフレームmのトーン成分の符号を推定する(148)。符号推定器118は、ランダム信号から雑音成分の符号を推定する(150)。
次に、FLCモジュール113は、大きさ推定器114からの大きさ推定
Figure 2009514032
と、符号推定器118からの符号推定
Figure 2009514032
とを結合して、フレームmの係数を推定する(152)。FLCモジュール113は係数推定
Figure 2009514032
を逆変換ユニット120に送り、逆変換ユニット120はフレームmの係数推定をフレームmのオーディオ信号の推定サンプル
Figure 2009514032
に変換する(154)。
図11は、従来のFLC技術160のフレーム損失レートと、本明細書に説明されているエンコーダ支援FLC技術162のフレーム損失レートとの品質比較を示すプロットである。この比較は、2つのFLC方法間で、0%、5%、10%、15%、および20%のフレーム損失レート(FLR)において行われている。CDからサンプリングされた多数のモノオーディオシーケンスは、ビットレート48kbpsでエンコードされ、エンコードされたフレームは、1つのフレーム損失に制限されて特定のレートでランダムに落ちている。
本明細書に説明されているエンコーダ支援FLC技術では、エンコーダがサイド情報として送信した符号の数はすべてのフレームについて固定され、10ビット/フレームに制限され、これはビットレート0.43kbpsに等しい。2つの異なるビットレート、すなわち(i)従来のFLC技術の48kbpsのAACビットストリーム、および(ii)エンコーダ支援FLC技術のビットレート0.43kbpsの符号情報を含む47.57kbpsのAACビットストリームが生成された。隠蔽されたオーディオ品質の主観的評価について、44.1kHzサンプリングレートで多声オーディオシーケンスの種々のジャンルを選択し、種々のFLRで両方法によってデコーダ再構成を比較した。アンカによる多数刺激の隠されたリファレンス(multi−stimulus hidden reference with anchor, MUSHRA)テストを採用して、11人のリスナーによって実行した。
図11から、エンコーダ支援FLC技術162は、全FLRにおいてオーディオデコーダ再構成品質を高めていることが分かる。例えば、エンコーダ支援FLC技術は、中間(5%および10%)のFLRで80ポイントよりも良いMUSHRAスコアの再構成品質を維持している。さらに、15%のFLRのエンコーダ支援FLC技術162の再構成品質は、5%のFLRの従来のFLC技術160と統計的に同等であり、これは、向上したエラー耐性がエンコーダ支援FLC技術によって提供されたことを示している。
多数の実施形態が説明された。しかしながら、これらの実施形態に対して種々の修正が可能であり、ここで提示された原理は他の実施形態にも適用可能である。ここで説明された方法は、ハードウェア、ソフトウェア、および/またはファームウェアで実施されることができる。このような方法の種々のタスクは、マイクロプロセッサ、埋め込みコントローラ、またはIPコアのような論理要素の1つ以上のアレイによって実行可能な命令のセットとして実施されることができる。一例では、1つ以上のこのようなタスクは、セルラ電話のようなパーソナル通信デバイスの種々のデバイスの動作をコントロールするように構成されている移動局のモデムチップまたはチップセット内で実行するように構成されている。
本開示で説明されている技術は、汎用マイクロプロセッサ、ディジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または他の同等の論理デバイスで実施されることができる。ソフトウェアで実施される場合、本技術は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、不揮発性ランダムアクセスメモリ(NVRAM)、電気的に消去可能なプログラム可能な読み出し専用メモリ(EEPROM)、フラッシュメモリ、などのようなコンピュータ読み取り可能な媒体上の命令として具現することができる。この命令によって、1つ以上のプロセッサは、本開示に説明されている機能性の特定の態様を実行する。
別の例として、実施形態は、配線回路として、特定用途向け集積回路に組み立てられる回路構成として、あるいは、不揮発性記憶装置にロードされたファームウェアプログラム、またはデータ記憶媒体からまたはデータ記憶媒体にロードされる機械読み取り可能なコードのようなソフトウェアプログラムとして、部分的または全体的に実施されることができる。このようなコードは、マイクロプロセッサや他のディジタル信号処理ユニットのような論理要素のアレイによって実行可能な命令である。データ記憶媒体は、半導体メモリ(ダイナミックまたはスタティックRAM、ROM、および/またはフラッシュRAMを含むことができるが、これらに制限されない)あるいは強誘電体、オボニック、高分子、または位相変化メモリ、もしくはディスク媒体(例えば、磁気または光ディスク)のような記憶要素のアレイであってもよい。
本開示では、隣接フレームと、エンコーダからオーディオビットストリームと共に送信されたサイド情報とに基づいて、オーディオ信号の破棄フレームを正確に隠蔽する、デコーダにおけるエンコーダ支援フレーム損失隠蔽について、種々の技術が説明された。エンコーダ支援FLC技術はまた、エンコーダから送信された追加のサイド情報によって隣接フレームに基づいてオーディオ信号の複数の破棄フレームを正確に隠蔽することができる。エンコーダ支援FLC技術は、隣接フレームの周波数ドメインデータに基づいて当該フレームの周波数ドメインデータの大きさを推定することと、サイド情報としてエンコーダから送信された符号のサブセットに基づいて周波数ドメインデータの符号を推定することとを含んでいる。
オーディオ信号のフレームの周波数ドメインデータは、トーン成分および雑音成分を含んでいる。ランダム信号から推定された符号は、周波数ドメインデータの雑音成分について実質的に正確であるであろう。しかしながら、トーン成分の非常に正確な符号推定を達成するために、エンコーダは、周波数ドメインデータのトーン成分の符号をサイド情報として送信する。デコーダへ送信されるサイド情報量を最小化するために、エンコーダは、フレーム内のトーン成分の場所を送信しない。そうではなくて、エンコーダおよびデコーダの両方が、同じ動作を使用してトーン成分の場所を自己導出する。このようにして、エンコーダ支援FLC技術は、エンコーダから送信された最小量のサイド情報によって、デコーダにおいてフレーム隠蔽品質の相当な改良を達成する。
エンコーダ支援FLC技術は、ここでは、オーディオ信号のフレームの周波数ドメインデータがMDCT係数によって表されるAAC標準を利用するマルチメディア応用に関して主に説明されているが、本技術は種々のオーディオコーディング標準のいずれかを使用するマルチメディア応用に適用されてもよい。例えば、MPEGにしたがう標準、WMA標準、ドルビーラボラトリーズ社(Dolby Laboratories,Inc.)による標準、MP3標準、およびMP3標準の後継の標準である。これらおよび他の実施形態は、本発明の請求項の範囲内である。
エンコーダ支援フレーム損失隠蔽(FLC)技術を実施するオーディオエンコーダ/デコーダ(コーデック)を組み込んだオーディオエンコーディングおよびデコーディングシステムを示すブロック図。 図1のオーディオエンコーディングおよびデコーディングシステムによってエンコーダ支援フレーム損失隠蔽を実行する例示的な動作を示すフローチャート。 サイド情報として送信されるフレームの符号のサブセットを生成するフレーム損失隠蔽モジュールを含む例示的なオーディオエンコーダを示すブロック図。 サイド情報としてエンコーダから受信されたフレームの符号のサブセットを利用するフレーム損失隠蔽モジュールを含む例示的なオーディオデコーダを示すブロック図。 オーディオビットストリームをエンコードして、サイド情報としてオーディオビットストリームと共に送信されるフレームの符号のサブセットを生成する例示的な動作を示すフローチャート。 オーディオビットストリームをデコードして、サイド情報としてエンコーダから受信されたフレームの符号のサブセットを使用してフレーム損失隠蔽を実行する例示的な動作を示すフローチャート。 成分選択モジュールと符号抽出器とを含み、サイド情報として送信されるフレームの符号のサブセットを生成する、別の例示的なオーディオエンコーダを示すブロック図。 サイド情報としてエンコーダから受信されたフレームの符号のサブセットを利用するフレーム損失隠蔽モジュールを含む別の例示的なオーディオデコーダを示すブロック図。 オーディオビットストリームをエンコードして、サイド情報としてオーディオビットストリームと共に送信されるフレームの符号のサブセットを生成する別の例示的な動作を示すフローチャート。 オーディオビットストリームをデコードして、サイド情報としてエンコーダから受信されたフレームの符号のサブセットを使用してフレーム損失隠蔽を実行する別の例示的な動作を示すフローチャート。 従来のフレーム損失隠蔽技術のフレーム損失レートと、本明細書に記載されたエンコーダ支援フレーム損失隠蔽技術のフレーム損失レートとの品質比較を示すプロット。

Claims (48)

  1. オーディオ信号のフレームを隠蔽する方法であって、
    前記フレームの隣接フレームに基づいて前記フレームの周波数ドメインデータの大きさを推定するステップと、
    サイド情報としてエンコーダから送信された前記フレームの符号のサブセットに基づいて前記フレームの周波数ドメインデータの符号を推定するステップと、
    前記大きさ推定と前記符号推定を結合して、前記フレームの周波数ドメインデータを推定するステップとを備える方法。
  2. 周波数ドメインデータを含む前記フレームのオーディオビットストリームを前記エンコーダから受信するステップと、
    隣接フレームのオーディオビットストリームと共に前記フレームの前記サイド情報を前記エンコーダから受信するステップとをさらに備える、請求項1に記載の方法。
  3. 前記エンコーダから送信された前記フレームのオーディオビットストリームにエラー検出を実行するステップと、
    1つ以上のエラーが検出された場合に前記フレームの周波数ドメインデータを破棄するステップとをさらに備える、請求項1に記載の方法。
  4. 前記フレームの前記周波数ドメインデータの大きさを推定するステップは、前記フレームの先行フレームおよび前記フレームの後続フレームのエネルギに基づいてエネルギ補間を実行するステップを備える、請求項1に記載の方法。
  5. 前記フレームの前記周波数ドメインデータの符号を推定するステップは、
    前記フレームの前記周波数ドメインデータの雑音成分の符号をランダム信号から推定するステップと、
    前記サイド情報として前記エンコーダから送信された前記フレームの前記符号のサブセットに基づいて前記フレームの前記周波数ドメインデータのトーン成分の符号を推定するステップとを備える、請求項1に記載の方法。
  6. 前記フレームの前記周波数ドメインデータの符号を推定するステップは、
    前記フレームの前記周波数ドメインデータのトーン成分を選択するステップと、
    前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成するステップと、
    前記インデックスサブセットに基づいて前記フレームの前記符号のサブセットから前記トーン成分の符号を推定するステップとを備える、請求項1に記載の方法。
  7. トーン成分を選択するステップは、
    前記周波数ドメインデータを大きさ順に分類するステップと、
    最大の大きさを有する所定数の前記周波数ドメインデータを前記トーン成分として選択するステップとを備える、請求項6に記載の方法。
  8. 前記フレームの前記周波数ドメインデータの符号を推定するステップは、
    前記フレームの前記周波数ドメインデータの前記大きさ推定からトーン成分を選択するステップと、
    前記フレームの前記周波数ドメインデータの前記大きさ推定から選択された前記トーン成分の場所を識別する推定インデックスサブセットを生成するステップと、
    前記フレームの前記推定インデックスサブセットに基づいて前記フレームの前記符号のサブセットから前記トーン成分の符号を推定するステップとを備える、請求項1に記載の方法。
  9. 前記フレームの前記周波数ドメインデータの符号を推定するステップは、
    前記フレームの隣接フレームの周波数ドメインデータの大きさからトーン成分を選択するステップと、
    前記隣接フレームの前記周波数ドメインデータの前記大きさから選択された前記トーン成分の場所を識別するインデックスサブセットを生成するステップと、
    前記隣接フレームの前記インデックスサブセットに基づいて前記フレームの前記符号のサブセットから前記トーン成分の符号を推定するステップとを備える、請求項1に記載の方法。
  10. 周波数ドメインデータを含む前記フレームのオーディオビットストリームをデコーダへ送信するステップと、
    隣接フレームのオーディオビットストリームと共に前記フレームの前記サイド情報をデコーダへ送信するステップとをさらに備える、請求項1に記載の方法。
  11. 前記サイド情報を送信するステップは、
    前記フレームの前記周波数ドメインデータから前記符号のサブセットを抽出するステップと、
    前記符号のサブセットを前記サイド情報として前記隣接フレームの前記オーディオビットストリームに添付するステップとを備える、請求項10に記載の方法。
  12. 前記フレームの前記符号のサブセットを抽出するステップは、
    前記フレームの前記周波数ドメインデータのトーン成分を選択するステップと、
    前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成するステップと、
    前記インデックスサブセットに基づいて前記フレームの前記周波数ドメインデータから前記トーン成分の前記符号のサブセットを抽出するステップとを備える、請求項11に記載の方法。
  13. トーン成分を選択するステップは、
    前記周波数ドメインデータを大きさ順に分類するステップと、
    最大の大きさを有する所定数の前記周波数ドメインデータを前記トーン成分として選択するステップとを備える、請求項12に記載の方法。
  14. 前記フレームの前記符号のサブセットを抽出するステップは、
    前記フレームの隣接フレームに基づいて前記フレームの前記周波数ドメインデータの大きさを推定するステップと、
    前記フレームの前記周波数ドメインデータの大きさ推定からトーン成分を選択するステップと、
    前記フレームの前記周波数ドメインデータの大きさ推定から選択された前記トーン成分の場所を識別する推定インデックスサブセットを生成するステップと、
    前記フレームの前記推定インデックスサブセットに基づいて前記フレームの前記周波数ドメインデータから前記トーン成分の前記符号のサブセットを抽出するステップとを備える、請求項11に記載の方法。
  15. 前記フレームの前記符号のサブセットを抽出するステップは、
    前記隣接フレームの周波数ドメインデータの大きさからトーン成分を選択するステップと、
    前記隣接フレームの前記周波数ドメインデータの大きさから選択された前記トーン成分の場所を識別するインデックスサブセットを生成するステップと、
    前記隣接フレームの前記インデックスサブセットに基づいて前記フレームの前記周波数ドメインデータから前記トーン成分の前記符号のサブセットを抽出するステップとを備える、請求項11に記載の方法。
  16. 前記エンコーダに含まれている変換ユニットによって前記フレームの時間ドメインオーディオ信号を前記フレームの周波数ドメインデータにエンコードするステップと、
    デコーダに含まれている逆変換ユニットによって前記フレームの前記推定周波数ドメインデータを前記フレームの推定時間ドメインデータにデコードするステップとをさらに備える、請求項1に記載の方法。
  17. 前記サイド情報は、前記フレームの周波数ドメインデータのトーン成分の符号のサブセットを備えており、前記方法はさらに、
    前記エンコーダによって前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成するステップと、
    前記エンコーダによって前記インデックスサブセットに基づいて前記フレームの前記周波数ドメインデータから前記トーン成分の前記符号のサブセットを抽出するステップと、
    前記トーン成分の前記符号のサブセットを前記サイド情報としてデコーダへ送信するステップと、
    前記エンコーダと同じプロセスを使用して、前記デコーダによって前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成するステップと、
    前記インデックスサブセットに基づいて前記符号のサブセットから前記トーン成分の符号を推定するステップとをさらに備える、請求項1に記載の方法。
  18. オーディオ信号のフレームを隠蔽する命令を備えるコンピュータ読み取り可能な媒体であって、前記命令はプログラマブルプロセッサに、
    フレームの隣接フレームに基づいて前記フレームの周波数ドメインデータの大きさを推定させ、
    サイド情報としてエンコーダから送信された前記フレームの符号のサブセットに基づいて前記フレームの前記周波数ドメインデータの符号を推定させ、
    前記大きさ推定と前記符号推定とを結合して前記フレームの周波数ドメインデータを推定させる、コンピュータ読み取り可能な媒体。
  19. 前記命令は前記プログラマブルプロセッサに、
    前記フレームの前記周波数ドメインデータの雑音成分の符号をランダム信号から推定させ、
    前記サイド情報として前記エンコーダから送信された前記フレームの前記符号のサブセットに基づいて前記フレームの前記周波数ドメインデータのトーン成分の符号を推定させる、請求項18に記載のコンピュータ読み取り可能な媒体。
  20. 前記命令は前記プログラマブルプロセッサに、
    前記フレームの前記周波数ドメインデータを大きさ順に分類させ、
    最大の大きさを有する所定数の前記周波数ドメインデータを前記フレームの前記周波数ドメインデータのトーン成分として選択させ、
    前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成させ、
    前記インデックスサブセットに基づいて前記フレームの前記符号のサブセットから前記トーン成分の符号を推定させる、請求項18に記載のコンピュータ読み取り可能な媒体。
  21. 前記プログラマブルプロセッサに、
    前記フレームの前記周波数ドメインデータから前記符号のサブセットを抽出させ、
    前記符号のサブセットを前記サイド情報として隣接フレームのオーディオビットストリームに添付させ、
    前記隣接フレームの前記オーディオビットストリームと共に前記フレームの前記サイド情報をデコーダへ送信させる命令をさらに備える、請求項18に記載のコンピュータ読み取り可能な媒体。
  22. 前記命令は前記プログラマブルプロセッサに、
    前記フレームの前記周波数ドメインデータを大きさ順に分類させ、
    最大の大きさを有する所定数の前記周波数ドメインデータを前記フレームの前記周波数ドメインデータのトーン成分として選択させ、
    前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成させ、
    前記インデックスサブセットに基づいて前記フレームの前記周波数ドメインデータから前記トーン成分の前記符号のサブセットを抽出させる、請求項21に記載のコンピュータ読み取り可能な媒体。
  23. オーディオ信号のフレームを隠蔽するシステムであって、
    サイド情報として前記フレームの符号のサブセットを送信するエンコーダと、
    前記フレームの前記サイド情報を前記エンコーダから受信するフレーム損失隠蔽(FLC)モジュールを含むデコーダとを備えており、
    前記FLCモジュールは、前記フレームの隣接フレームに基づいて前記フレームの周波数ドメインデータの大きさを推定し、前記受信されたサイド情報に基づいて前記フレームの周波数ドメインデータの符号を推定し、前記大きさ推定と前記符号推定とを結合して前記フレームの周波数ドメインデータを推定する、システム。
  24. 前記FLCモジュールは、前記エンコーダから送信された前記フレームのオーディオビットストリームにエラー検出を実行し、1つ以上のエラーが検出された場合には前記フレームの周波数ドメインデータを破棄するエラー検出モジュールを含む、請求項23に記載のシステム。
  25. 前記FLCモジュールは、前記フレームの先行フレームおよび前記フレームの後続フレームのエネルギに基づいてエネルギ補間を実行し、前記フレームの前記周波数ドメインデータの前記大きさを推定する大きさ推定器を含む、請求項23に記載のシステム。
  26. 前記FLCモジュールは、
    前記フレームの前記周波数ドメインデータの雑音成分の符号をランダム信号から推定し、
    前記サイド情報として前記エンコーダから送信された前記フレームの前記符号のサブセットに基づいて、前記フレームの前記周波数ドメインデータのトーン成分の符号を推定する符号推定器を含む、請求項23に記載のシステム。
  27. 前記FLCモジュールは、前記フレームの前記周波数ドメインデータを大きさ順に分類し、最大の大きさを有する所定数の前記周波数ドメインデータを前記フレームの前記周波数ドメインデータのトーン成分として選択し、前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成する成分選択モジュールを含んでおり、
    前記符号推定器は、前記インデックスサブセットに基づいて前記フレームの前記符号のサブセットから前記トーン成分の符号を推定する、請求項23に記載のシステム。
  28. 前記エンコーダは、前記フレームの前記周波数ドメインデータから前記符号のサブセットを抽出し、前記符号のサブセットを前記サイド情報として隣接フレームのオーディオビットストリームに添付する符号抽出器を含み、前記エンコーダは、前記隣接フレームの前記オーディオビットストリームと共に前記フレームの前記サイド情報を前記デコーダへ送信する、請求項23に記載のシステム。
  29. 前記エンコーダは、前記フレームの前記周波数ドメインデータを大きさ順に分類し、最大の大きさを有する所定数の前記周波数ドメインデータを前記フレームの前記周波数ドメインデータのトーン成分として選択し、前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成する成分選択モジュールを含み、
    前記符号抽出器は、前記インデックスサブセットに基づいて前記フレームの前記周波数ドメインデータから前記トーン成分の前記符号のサブセットを抽出する、請求項28に記載のシステム。
  30. 前記フレームの周波数ドメインデータは、修正離散コサイン変換(MDCT)係数によって表される、請求項23に記載のシステム。
  31. 前記エンコーダは、前記フレームの時間ドメインオーディオ信号を前記フレームの周波数ドメインデータにエンコードする変換ユニットを含み、
    前記デコーダは、前記フレームの前記推定周波数ドメインデータを前記フレームの推定時間ドメインデータにデコードする逆変換ユニットを含む、請求項23に記載のシステム。
  32. 前記エンコーダに含まれている前記変換ユニットは修正離散コサイン変換ユニットを備えており、前記デコーダに含まれている前記逆変換ユニットは逆修正離散コサイン変換ユニットを備えている、請求項31に記載のシステム。
  33. 前記サイド情報は、前記フレームの周波数ドメインデータのトーン成分の符号のサブセットを備えており、
    前記エンコーダは、前記エンコーダによって前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成し、前記エンコーダによって前記インデックスサブセットに基づいて前記フレームの前記周波数ドメインデータから前記トーン成分の前記符号のサブセットを抽出し、前記トーン成分の前記符号のサブセットを前記サイド情報として前記デコーダへ送信し、
    前記デコーダは、前記エンコーダと同じプロセスを使用して前記デコーダによって前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成し、前記インデックスサブセットに基づいて前記符号のサブセットから前記トーン成分の符号を推定する、請求項23に記載のシステム。
  34. オーディオ信号のフレームの周波数ドメインデータの成分を選択する成分選択モジュールと、
    前記フレームの前記周波数ドメインデータから前記選択された成分の符号のサブセットを抽出する符号抽出器とを備えたエンコーダであって、
    前記フレームの前記符号のサブセットをサイド情報としてデコーダへ送信する、エンコーダ。
  35. 前記エンコーダは、周波数ドメインデータを含む前記フレームのオーディオビットストリームを前記デコーダへ送信し、隣接フレームのオーディオビットストリームと共に前記フレームの前記サイド情報を前記デコーダへ送信し、前記符号抽出器は、前記フレームの前記サイド情報を前記隣接フレームの前記オーディオビットストリームに添付する、請求項34に記載のエンコーダ。
  36. 前記成分選択モジュールは、前記フレーム内の前記成分の場所を識別するインデックスサブセットを生成する、請求項34に記載のエンコーダ。
  37. 前記選択された成分は、前記フレームの前記周波数ドメインデータのトーン成分を備えており、前記成分選択モジュールは、前記フレームの前記周波数ドメインデータを大きさ順に分類し、最大の大きさを有する所定数の前記周波数ドメインデータを前記トーン成分として選択する、請求項34に記載のエンコーダ。
  38. 前記フレームの隣接フレームに基づいて前記フレームの前記周波数ドメインデータの大きさを推定する大きさ推定器と、
    前記フレームの前記周波数ドメインデータの大きさ推定からトーン成分を選択し、前記フレームの前記周波数ドメインデータの大きさ推定から選択された前記トーン成分の場所を識別する推定インデックスサブセットを生成する前記成分選択モジュールと、
    前記フレームの前記推定インデックスサブセットに基づいて前記フレームの前記周波数ドメインデータから前記トーン成分の前記符号のサブセットを抽出する前記符号抽出器とを含むFLCモジュールをさらに備える、請求項34に記載のエンコーダ。
  39. 前記成分選択モジュールは、前記隣接フレームの周波数ドメインデータの大きさからトーン成分を選択し、前記隣接フレームの前記周波数ドメインデータの大きさから選択された前記トーン成分の場所を識別するインデックスサブセットを生成し、
    前記符号抽出器は、前記隣接フレームの前記インデックスサブセットに基づいて前記フレームの前記周波数ドメインデータから前記トーン成分の前記符号のサブセットを抽出する、請求項34に記載のエンコーダ。
  40. 前記フレームの隣接フレームに基づいてオーディオ信号のフレームの周波数ドメインデータの大きさを推定する大きさ推定器と、
    サイド情報としてエンコーダから送信された前記フレームの符号のサブセットに基づいて前記フレームの周波数ドメインデータの符号を推定する符号推定器とを含むフレーム損失隠蔽(FLC)モジュールを備えたデコーダであって、
    前記大きさ推定と前記符号推定とを結合して、前記フレームの周波数ドメインデータを推定する、デコーダ。
  41. 前記デコーダは、周波数ドメインデータを含む前記フレームのオーディオビットストリームを前記エンコーダから受信し、隣接フレームのオーディオビットストリームと共に前記フレームの前記サイド情報を前記エンコーダから受信する、請求項40に記載のデコーダ。
  42. 前記FLCモジュールは、前記エンコーダから送信された前記フレームのオーディオビットストリームにエラー検出を実行し、1つ以上のエラーが検出された場合に前記フレームの周波数ドメインデータを破棄するエラー検出モジュールを含む、請求項40に記載のデコーダ。
  43. 前記FLCモジュールは、前記フレームの先行フレームおよび前記フレームの後続フレームのエネルギに基づいてエネルギ補間を実行し、前記フレームの前記周波数ドメインデータの前記大きさを推定する大きさ推定器を含む、請求項40に記載のデコーダ。
  44. 前記符号推定器は、前記フレームの前記周波数ドメインデータの雑音成分の符号をランダム信号から推定し、前記サイド情報として前記エンコーダから送信された前記フレームの前記符号のサブセットに基づいて前記フレームの前記周波数ドメインデータのトーン成分の符号を推定する、請求項40に記載のデコーダ。
  45. 前記FLCモジュールは、前記フレームの前記周波数ドメインデータのトーン成分を選択し、前記フレーム内の前記トーン成分の場所を識別するインデックスサブセットを生成する成分選択モジュールを含んでおり、
    前記符号推定器は、前記インデックスサブセットに基づいて前記フレームの前記符号のサブセットから前記トーン成分の符号を推定する、請求項40に記載のデコーダ。
  46. 前記成分選択モジュールは、前記周波数ドメインデータを大きさ順に分類し、最大の大きさを有する所定数の前記周波数ドメインデータを前記トーン成分として選択する、請求項45に記載のデコーダ。
  47. 前記FLCモジュールは、前記フレームの前記周波数ドメインデータの前記大きさ推定からトーン成分を選択し、前記フレームの前記周波数ドメインデータの前記大きさ推定から選択された前記トーン成分の場所を識別する推定インデックスサブセットを生成する成分選択モジュールを含んでおり、
    前記符号推定器は、前記フレームの前記推定インデックスサブセットに基づいて前記フレームの前記符号のサブセットから前記トーン成分の符号を推定する、請求項40に記載のデコーダ。
  48. 前記FLCモジュールは、前記フレームの隣接フレームの周波数ドメインデータの大きさからトーン成分を選択し、前記隣接フレームの前記周波数ドメインデータの前記大きさから選択された前記トーン成分の場所を識別するインデックスサブセットを生成する成分選択モジュールを含んでおり、
    前記符号推定器は、前記隣接フレームの前記インデックスサブセットに基づいて前記フレームの前記符号のサブセットから前記トーン成分の符号を推定する、請求項40に記載のデコーダ。
JP2008538157A 2005-10-26 2006-10-25 オーディオコーディングのためのエンコーダ支援フレーム損失隠蔽技術 Expired - Fee Related JP4991743B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US73045905P 2005-10-26 2005-10-26
US60/730,459 2005-10-26
US73201205P 2005-10-31 2005-10-31
US60/732,012 2005-10-31
US11/431,733 2006-05-10
US11/431,733 US8620644B2 (en) 2005-10-26 2006-05-10 Encoder-assisted frame loss concealment techniques for audio coding
PCT/US2006/060237 WO2007051124A1 (en) 2005-10-26 2006-10-25 Encoder-assisted frame loss concealment techniques for audio coding

Publications (2)

Publication Number Publication Date
JP2009514032A true JP2009514032A (ja) 2009-04-02
JP4991743B2 JP4991743B2 (ja) 2012-08-01

Family

ID=37772833

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008538157A Expired - Fee Related JP4991743B2 (ja) 2005-10-26 2006-10-25 オーディオコーディングのためのエンコーダ支援フレーム損失隠蔽技術

Country Status (8)

Country Link
US (1) US8620644B2 (ja)
EP (1) EP1941500B1 (ja)
JP (1) JP4991743B2 (ja)
KR (1) KR100998450B1 (ja)
CN (1) CN101346760B (ja)
AT (1) ATE499676T1 (ja)
DE (1) DE602006020316D1 (ja)
WO (1) WO2007051124A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160045917A (ko) * 2013-02-05 2016-04-27 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오 프레임 손실 은폐를 제어하기 위한 방법 및 장치

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008066836A1 (en) * 2006-11-28 2008-06-05 Treyex Llc Method and apparatus for translating speech during a call
KR101261524B1 (ko) * 2007-03-14 2013-05-06 삼성전자주식회사 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
CN101325537B (zh) 2007-06-15 2012-04-04 华为技术有限公司 一种丢帧隐藏的方法和设备
KR100906766B1 (ko) * 2007-06-18 2009-07-09 한국전자통신연구원 키 재동기 구간의 음성 데이터 예측을 위한 음성 데이터송수신 장치 및 방법
CN101471073B (zh) * 2007-12-27 2011-09-14 华为技术有限公司 一种基于频域的丢包补偿方法、装置和系统
CN101588341B (zh) * 2008-05-22 2012-07-04 华为技术有限公司 一种丢帧隐藏的方法及装置
KR101228165B1 (ko) * 2008-06-13 2013-01-30 노키아 코포레이션 프레임 에러 은폐 방법, 장치 및 컴퓨터 판독가능한 저장 매체
US8781612B2 (en) * 2008-07-09 2014-07-15 Nxp, B.V. Method and device for digitally processing an audio signal and computer program product
CN101958119B (zh) * 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
US8595005B2 (en) * 2010-05-31 2013-11-26 Simple Emotion, Inc. System and method for recognizing emotional state from a speech signal
WO2012070370A1 (ja) 2010-11-22 2012-05-31 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置、方法およびプログラム、並びに、音声復号装置、方法およびプログラム
JP5724338B2 (ja) * 2010-12-03 2015-05-27 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
US9767823B2 (en) 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and detecting a watermarked signal
US9767822B2 (en) 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and decoding a watermarked signal
CN102810313B (zh) * 2011-06-02 2014-01-01 华为终端有限公司 音频解码方法及装置
KR102048076B1 (ko) * 2011-09-28 2019-11-22 엘지전자 주식회사 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치
CN107068156B (zh) 2011-10-21 2021-03-30 三星电子株式会社 帧错误隐藏方法和设备以及音频解码方法和设备
CN103325373A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 用于传送和接收音频信号的方法和设备
PL2874149T3 (pl) 2012-06-08 2024-01-29 Samsung Electronics Co., Ltd. Sposób i urządzenie do ukrywania błędu ramki oraz sposób i urządzenie do dekodowania audio
WO2014042439A1 (ko) * 2012-09-13 2014-03-20 엘지전자 주식회사 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치
CN107481725B (zh) * 2012-09-24 2020-11-06 三星电子株式会社 时域帧错误隐藏设备和时域帧错误隐藏方法
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
CN105976824B (zh) * 2012-12-06 2021-06-08 华为技术有限公司 信号解码的方法和设备
HUE045991T2 (hu) * 2013-02-05 2020-01-28 Ericsson Telefon Ab L M Hangkeret-elvesztés elrejtése
EP3098811B1 (en) 2013-02-13 2018-10-17 Telefonaktiebolaget LM Ericsson (publ) Frame error concealment
SG11201510513WA (en) * 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
CA2916150C (en) 2013-06-21 2019-06-18 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method realizing improved concepts for tcx ltp
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
JP2017508188A (ja) 2014-01-28 2017-03-23 シンプル エモーション, インコーポレイテッドSimple Emotion, Inc. 適応型音声対話のための方法
EP2963649A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
KR102547480B1 (ko) * 2014-12-09 2023-06-26 돌비 인터네셔널 에이비 Mdct-도메인 에러 은닉
CN107710662A (zh) * 2015-06-29 2018-02-16 华为技术有限公司 数据处理的方法及接收设备
EP3553777B1 (en) * 2018-04-09 2022-07-20 Dolby Laboratories Licensing Corporation Low-complexity packet loss concealment for transcoded audio signals
CN110908630A (zh) * 2019-11-20 2020-03-24 国家广播电视总局中央广播电视发射二台 音频处理方法、处理器、音频监测装置及设备
US11418876B2 (en) 2020-01-17 2022-08-16 Lisnr Directional detection and acknowledgment of audio-based data transmissions
US11361774B2 (en) * 2020-01-17 2022-06-14 Lisnr Multi-signal detection and combination of audio-based data transmissions
CN112365896B (zh) * 2020-10-15 2022-06-14 武汉大学 一种基于栈式稀疏自编码器的面向对象编码方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08286698A (ja) * 1994-12-21 1996-11-01 Samsung Electron Co Ltd 音響信号のエラー隠匿方法及びその装置
JPH10116096A (ja) * 1996-10-14 1998-05-06 Nippon Telegr & Teleph Corp <Ntt> 欠落音響信号合成処理方法
JP2000059231A (ja) * 1998-08-10 2000-02-25 Hitachi Ltd 圧縮音声エラー補償方法およびデータストリーム再生装置
JP2002534702A (ja) * 1998-12-28 2002-10-15 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号又はビットストリームの符号化又は復号化のための方法及び装置
JP2002372996A (ja) * 2001-06-15 2002-12-26 Sony Corp 音響信号符号化方法及び装置、音響信号復号化方法及び装置、並びに記録媒体
JP2004194048A (ja) * 2002-12-12 2004-07-08 Alps Electric Co Ltd オーディオデータの転送方法および再生方法
JP2004533021A (ja) * 2001-06-22 2004-10-28 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング ディジタルオーディオ信号伝送の際の障害を隠蔽する方法
WO2005059900A1 (en) * 2003-12-19 2005-06-30 Telefonaktiebolaget Lm Ericsson (Publ) Improved frequency-domain error concealment

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
CA2332407C (en) * 1989-01-27 2002-03-05 Dolby Laboratories Licensing Corporation Method for defining coding information
US5504833A (en) * 1991-08-22 1996-04-02 George; E. Bryan Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications
US5233348A (en) * 1992-03-26 1993-08-03 General Instrument Corporation Variable length code word decoder for use in digital communication systems
WO1995003674A1 (en) * 1993-07-19 1995-02-02 British Telecommunications Public Limited Company Detecting errors in video images
CN1140001A (zh) * 1994-12-02 1997-01-08 索尼公司 数字信号的插值方法及其装置、以及记录媒体的记录和(或)再生装置及其方法
JPH08223049A (ja) * 1995-02-14 1996-08-30 Sony Corp 信号符号化方法及び装置、信号復号化方法及び装置、情報記録媒体並びに情報伝送方法
FR2741215B1 (fr) * 1995-11-14 1998-01-23 Matra Communication Procede de transmission d'une sequence de bits d'information avec protection selective contre les erreurs de transmission, procedes de codage et de correction pouvant etre mis en oeuvre dans un tel procede de transmission
WO1999050828A1 (en) * 1998-03-30 1999-10-07 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6240141B1 (en) * 1998-05-09 2001-05-29 Centillium Communications, Inc. Lower-complexity peak-to-average reduction using intermediate-result subset sign-inversion for DSL
US6073151A (en) * 1998-06-29 2000-06-06 Motorola, Inc. Bit-serial linear interpolator with sliced output
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
US6366888B1 (en) * 1999-03-29 2002-04-02 Lucent Technologies Inc. Technique for multi-rate coding of a signal containing information
US7039581B1 (en) * 1999-09-22 2006-05-02 Texas Instruments Incorporated Hybrid speed coding and system
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US7222070B1 (en) * 1999-09-22 2007-05-22 Texas Instruments Incorporated Hybrid speech coding and system
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
JP4190742B2 (ja) * 2001-02-09 2008-12-03 ソニー株式会社 信号処理装置及び方法
US6996523B1 (en) * 2001-02-13 2006-02-07 Hughes Electronics Corporation Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
US6931373B1 (en) * 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system
WO2002071389A1 (fr) * 2001-03-06 2002-09-12 Ntt Docomo, Inc. Procede et dispositif d'interpolation de donnees sonores, procede et dispositif de creation d'informations relatives aux donnees sonores, procede et dispositif de transmission des informations d'interpolation des donnees sonores, et programme et support d'enregistrement correspondants
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
EP1292036B1 (en) * 2001-08-23 2012-08-01 Nippon Telegraph And Telephone Corporation Digital signal decoding methods and apparatuses
EP1315148A1 (en) * 2001-11-17 2003-05-28 Deutsche Thomson-Brandt Gmbh Determination of the presence of ancillary data in an audio bitstream
US6751587B2 (en) * 2002-01-04 2004-06-15 Broadcom Corporation Efficient excitation quantization in noise feedback coding with general noise shaping
US7047187B2 (en) * 2002-02-27 2006-05-16 Matsushita Electric Industrial Co., Ltd. Method and apparatus for audio error concealment using data hiding
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US20040083110A1 (en) * 2002-10-23 2004-04-29 Nokia Corporation Packet loss recovery based on music signal classification and mixing
US6985856B2 (en) * 2002-12-31 2006-01-10 Nokia Corporation Method and device for compressed-domain packet loss concealment
US7139959B2 (en) * 2003-03-24 2006-11-21 Texas Instruments Incorporated Layered low density parity check decoding for digital communications
EP1465349A1 (en) * 2003-03-31 2004-10-06 Interuniversitair Microelektronica Centrum Vzw Embedded multiple description scalar quantizers for progressive image transmission
US7356748B2 (en) * 2003-12-19 2008-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Partial spectral loss concealment in transform codecs
KR101079066B1 (ko) * 2004-03-01 2011-11-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 멀티채널 오디오 코딩
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
KR100647290B1 (ko) * 2004-09-22 2006-11-23 삼성전자주식회사 합성된 음성의 특성을 이용하여 양자화/역양자화를선택하는 음성 부호화/복호화 장치 및 그 방법
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08286698A (ja) * 1994-12-21 1996-11-01 Samsung Electron Co Ltd 音響信号のエラー隠匿方法及びその装置
JPH10116096A (ja) * 1996-10-14 1998-05-06 Nippon Telegr & Teleph Corp <Ntt> 欠落音響信号合成処理方法
JP2000059231A (ja) * 1998-08-10 2000-02-25 Hitachi Ltd 圧縮音声エラー補償方法およびデータストリーム再生装置
JP2002534702A (ja) * 1998-12-28 2002-10-15 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号又はビットストリームの符号化又は復号化のための方法及び装置
JP2002372996A (ja) * 2001-06-15 2002-12-26 Sony Corp 音響信号符号化方法及び装置、音響信号復号化方法及び装置、並びに記録媒体
JP2004533021A (ja) * 2001-06-22 2004-10-28 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング ディジタルオーディオ信号伝送の際の障害を隠蔽する方法
JP2004194048A (ja) * 2002-12-12 2004-07-08 Alps Electric Co Ltd オーディオデータの転送方法および再生方法
WO2005059900A1 (en) * 2003-12-19 2005-06-30 Telefonaktiebolaget Lm Ericsson (Publ) Improved frequency-domain error concealment
JP2007514977A (ja) * 2003-12-19 2007-06-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 改良された周波数領域におけるエラー隠蔽技術

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160045917A (ko) * 2013-02-05 2016-04-27 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오 프레임 손실 은폐를 제어하기 위한 방법 및 장치
US10559314B2 (en) 2013-02-05 2020-02-11 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for controlling audio frame loss concealment
KR102110212B1 (ko) * 2013-02-05 2020-05-13 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오 프레임 손실 은폐를 제어하기 위한 방법 및 장치
US11437047B2 (en) 2013-02-05 2022-09-06 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for controlling audio frame loss concealment

Also Published As

Publication number Publication date
EP1941500A1 (en) 2008-07-09
ATE499676T1 (de) 2011-03-15
US8620644B2 (en) 2013-12-31
KR20080070026A (ko) 2008-07-29
WO2007051124A1 (en) 2007-05-03
EP1941500B1 (en) 2011-02-23
CN101346760A (zh) 2009-01-14
US20070094009A1 (en) 2007-04-26
DE602006020316D1 (de) 2011-04-07
JP4991743B2 (ja) 2012-08-01
CN101346760B (zh) 2011-09-14
KR100998450B1 (ko) 2010-12-06

Similar Documents

Publication Publication Date Title
JP4991743B2 (ja) オーディオコーディングのためのエンコーダ支援フレーム損失隠蔽技術
JP5357904B2 (ja) 変換補間によるオーディオパケット損失補償
JP4991854B2 (ja) オーディオ信号に関連付けられるフレームを持つ窓を修正するためのシステムと方法
US20060031075A1 (en) Method and apparatus to recover a high frequency component of audio data
EP2402939B1 (en) Full-band scalable audio codec
US7610195B2 (en) Decoding of predictively coded data using buffer adaptation
US9123328B2 (en) Apparatus and method for audio frame loss recovery
US9830920B2 (en) Method and apparatus for polyphonic audio signal prediction in coding and networking systems
JP2019505017A (ja) 複数のオーディオ信号の符号化
KR101647576B1 (ko) 스테레오 오디오 신호 인코더
WO2023197809A1 (zh) 一种高频音频信号的编解码方法和相关装置
WO2021213128A1 (zh) 音频信号编码方法和装置
KR20200051620A (ko) 프레임간 시간 시프트 편차들에 대한 채널 조정 방법의 선택
Xie et al. ITU-T G. 719: A new low-complexity full-band (20 kHz) audio coding standard for high-quality conversational applications
Ito et al. Packet loss concealment for MDCT-based audio codec using correlation-based side information
Ito et al. Robust Transmission of Audio Signals over the Internet: An Advanced Packet Loss Concealment for MP3-Based Audio Signals
JP7420829B2 (ja) 予測コーディングにおける低コスト誤り回復のための方法および装置
US20080133248A1 (en) Method and apparatus for matching sound quality measurement sections of variable bandwidth multi-codec
WO2021136343A1 (zh) 音频信号的编解码方法和编解码装置
Kurniawati et al. Error concealment scheme for MPEG-AAC
JP2006157789A (ja) 音声障害検出装置
TWI394398B (zh) 用於傳輸資料分組序列的設備和方法以及用於對資料分組序列進行解碼的解碼器和設備

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110426

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110726

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110802

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110826

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110902

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120403

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120507

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4991743

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees