JP2013531281A - 帯域幅拡張のためのスペクトル平坦性制御 - Google Patents

帯域幅拡張のためのスペクトル平坦性制御 Download PDF

Info

Publication number
JP2013531281A
JP2013531281A JP2013520806A JP2013520806A JP2013531281A JP 2013531281 A JP2013531281 A JP 2013531281A JP 2013520806 A JP2013520806 A JP 2013520806A JP 2013520806 A JP2013520806 A JP 2013520806A JP 2013531281 A JP2013531281 A JP 2013531281A
Authority
JP
Japan
Prior art keywords
band
low
coefficient
energy
bitstream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013520806A
Other languages
English (en)
Other versions
JP5662573B2 (ja
Inventor
ヤン・ガオ
Original Assignee
ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ホアウェイ・テクノロジーズ・カンパニー・リミテッド filed Critical ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Publication of JP2013531281A publication Critical patent/JP2013531281A/ja
Application granted granted Critical
Publication of JP5662573B2 publication Critical patent/JP5662573B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一実施形態によれば、符号化されたオーディオビットストリームをデコーダにおいて復号化する方法は、オーディオビットストリームを受信するステップと、オーディオビットストリームの低帯域ビットストリーム(207)を復号化して、低帯域係数(209)を周波数領域で得るステップと、複数の低帯域係数を高周波数帯域位置にコピーして、高帯域係数(213)を生成するステップとを含む。この方法は、処理された高帯域係数(214)を形成するための、高帯域係数(213)を処理するステップをさらに含む。処理するステップは、修正利得を乗算して、高帯域係数(213)を平坦化または平滑化することによって、高帯域係数(213)のエネルギーエンベロープを修正するステップと、受信したオーディオビットストリームから復号化される受信したスペクトルエンベロープを高帯域係数(213)に付加するステップとを含む。次いで、低帯域係数(209)および処理された高帯域係数(214)を時間領域に逆変換して、時間領域出力信号(215)を取得する。

Description

本出願は、「Spectrum Flatness Control for Bandwidth Extension」という名称の2011年7月18日に出願した米国特許非仮出願第13/185,163号、および「Spectrum Flatness Control for Bandwidth Extension」という名称の2010年7月19日に出願した米国特許仮出願第61/365,456号に対する優先権を主張するものであり、これらの出願は、参照によりその全体が本明細書に組み込まれている。
本発明は、一般に、オーディオ/スピーチ処理に関し、より詳細には、帯域幅拡張のためのスペクトル平坦性制御に関する。
最新のオーディオ/スピーチデジタル信号通信システムでは、デジタル信号がエンコーダにおいて圧縮され、圧縮された情報またはビットストリームはパケット化されて、通信チャネルを介してフレーム毎にデコーダに送信され得る。エンコーダとデコーダの両方が一緒になったシステムは、コーデックと呼ばれる。スピーチ/オーディオ圧縮は、スピーチ/オーディオ信号を表すビットの数を抑えるために使用される場合があり、それによって、送信に必要な帯域幅および/またはビットレートが抑えられる。一般に、より高いビットレートがより高いオーディオ品質をもたらし、より低いビットレートがより低いオーディオ品質をもたらすことになる。
フィルタバンク技術に基づくオーディオコード化は、広範囲に使用される。信号処理では、フィルタバンクは、入力信号を複数のコンポーネントに分割するバンドパスフィルタのアレイであり、各コンポーネントは、元の入力信号の単一の周波数サブバンドを伴う。フィルタバンクによって行われる分解のプロセスを分析と呼び、フィルタバンク分析の出力は、サブバンド信号と呼ばれ、これはフィルタバンク内に存在するフィルタの数に達するほどの数のサブバンドを有する。再構成プロセスは、フィルタバンク合成と呼ばれる。デジタル信号処理では、用語フィルタバンクはまた、一般的に、レシーバのバンクに適用され、これにより、サブバンドをある減率で再サンプリング可能な低い中心周波数へと変換することができる。同じ合成結果は、バンドパスサブバンドをアンダーサンプリングすることによって得ることができることもあり得る。フィルタバンク分析の出力は、複素係数の形態にすることもでき、各複素係数は、フィルタバンクの各サブバンドについて余弦項および正弦項をそれぞれ表す実数要素および虚数要素を有する。
(フィルタバンク分析/フィルタバンク合成)は、時間領域信号を周波数領域係数に変換し、周波数領域係数を逆変換して時間領域信号に戻す一種の変換対である。(FFT/iFFT)、(DFT/iDFT)、および(MDCT/iMDCT)などの他の一般的な変換対がスピーチ/オーディオコード化の際に使用されることもある。
フィルタバンクを適用して信号を圧縮する際、一部の周波数は、他の周波数よりも知覚的に重要である。知覚的に有意な周波数は、分解後、微細分解能によりコード化され得、それは、これらの周波数におけるわずかな差異は、こうした差異を維持するコード化スキームの使用を認めるほど知覚的に目立つからである。一方で、知覚的にほとんど有意でない周波数は、正確に複製されず、したがって、より微細な詳細の一部がコード化において失われることにはなるが、より粗いコード化スキームが使用され得る。典型的なより粗いコード化スキームは、帯域幅拡張(BWE:Bandwidth Extension)、同様に知られている高帯域拡張(HBE:High Band Extension)の概念に基づくことができる。近年、一般的となっている1つの特定のBWEまたはHBEアプローチは、サブバンドレプリカ(SBR:Sub Band Replica)またはスペクトルバンド複製(SBR:Spectral Band Replication)として知られている。これらの技法は、一部の周波数サブバンド(通常は、高帯域)を、ビットレートをほとんど、または全く割り当てずに符号化および復号化し、それによって、通常の符号化/復号化アプローチよりも有意に低いビットレートをもたらすという点で類似している。SBR技術の場合、高周波数帯域におけるスペクトル微細構造は、低周波数帯域からコピーされ、ランダムノイズが加えられる場合がある。次に、高周波数帯域のスペクトルエンベロープが、エンコーダからデコーダに送信されるサイド情報を使用することによって成形される。近年、いくつかの後処理モジュールを用いた特定のSBR技術は、MPEG4 USACという名称の国際規格において利用されており、MPEGはMoving Picture Experts Groupを意味し、USACはUnified Speech Audio Codingを指している。
いくつかの適用例では、デコーダサイドにおいて後処理または制御された後処理が、低ビットレートコード化またはSBRコード化によってコード化される信号の知覚品質をさらに改善するために使用される。いくつかの後処理モジュールまたは制御された後処理モジュールが、SBRデコーダ内に導入される場合もある。
一実施形態によれば、符号化されたオーディオビットストリームをデコーダにおいて復号化する方法は、オーディオビットストリームを受信するステップと、オーディオビットストリームの低帯域ビットストリームを復号化して、低帯域係数を周波数領域で得るステップと、複数の低帯域係数を高周波数帯域位置にコピーして、高帯域係数を生成するステップとを含む。この方法は、処理された高帯域係数を形成するための、高帯域係数を処理するステップをさらに含む。処理するステップは、修正利得を乗算して、高帯域係数を平坦化または平滑化することによって、高帯域係数のエネルギーエンベロープを修正するステップと、受信したオーディオビットストリームから復号化される受信したスペクトルエンベロープを高帯域係数に付加するステップとを含む。次いで、低帯域係数および処理された高帯域係数を時間領域に逆変換して、時間領域出力信号を取得する。
さらなる実施形態によれば、復号化されたスピーチ/オーディオ信号をデコーダにおいて生成し、生成された高周波数帯域のスペクトル平坦性を改善する後処理方法は、帯域幅拡張(BWE)高帯域係数生成方法を使用して、周波数領域の低帯域係数から高帯域係数を生成するステップを含む。この方法はまた、平坦化または平滑化利得を高帯域係数に乗算することによって、高帯域係数のエネルギーエンベロープを平坦化または平滑化するステップと、BWE成形および決定方法を使用することによって、高帯域係数のエネルギーを成形し、決定するステップと、低帯域係数および高帯域係数を時間領域に逆変換して、時間領域出力スピーチ/オーディオ信号を取得するステップとを含む。
さらなる実施形態によれば、符号化されたオーディオ信号を受信するためのシステムは、符号化されたオーディオ信号の低帯域部分を周波数領域低帯域係数に低帯域ブロックの出力において変換するように構成されている、低帯域ブロックを備える。高帯域ブロックが、低帯域ブロックの出力に結合され、複数の低帯域係数を高周波数帯域位置にコピーすることによって、高帯域係数を高帯域ブロックの出力において生成するように構成されている。このシステムはまた、高帯域ブロックの出力に結合され、成形された高帯域係数をエンベロープ成形ブロックの出力において生成する、エンベロープ成形ブロックを備える。エンベロープ成形ブロックは、修正利得を乗算して、高帯域係数を平坦化または平滑化することによって、高帯域係数のエネルギーエンベロープを修正し、符号化されたオーディオ信号から復号化される受信したスペクトルエンベロープを高帯域係数に付加するように構成されている。システムはまた、エンベロープ成形ブロックの出力および低帯域ブロックの出力に結合され、時間領域オーディオ出力を生成するように構成されている逆変換ブロックを備える。
さらなる実施形態によれば、持続性コンピュータ可読媒体には、実行可能なプログラムが記憶されている。このプログラムは、符号化オーディオ信号を復号化して、復号化されたオーディオ信号を生成するステップと、スペクトル帯域幅拡張のためのスペクトル平坦性制御を用いて復号化されたオーディオ信号を後処理するステップとを実行するようにプロセッサに命令する。実施形態においては、符号化されたオーディオ信号は、入力オーディオ信号のコード化された表現を含む。
続く本発明の詳細な説明をより良く理解することができるように、上記では本発明の実施形態の特徴をやや広義に概説した。以降、本発明の特許請求の範囲の主題を成す本発明の諸実施形態の追加の特徴および利点を説明する。開示される概念および特定の実施形態は、本発明の同じ目的を達成するために、他の構造またはプロセスを修正あるいは設計するための礎として容易に利用可能であることは当業者には認識されるはずである。また、そのような均等な構成が、添付の特許請求の範囲に説明する本発明の趣旨および範囲から逸脱するものでないことを当業者には理解されるはずである。
本実施形態、およびその利点をより完全に理解するために、次に、添付の図面と併せて以下の説明を参照する。
本発明の実施形態による具体化エンコーダを示す図である。 本発明の実施形態による具体化デコーダを示す図である。 本発明のさらなる実施形態による具体化エンコーダを示す図である。 本発明のさらなる実施形態による具体化デコーダを示す図である。 具体化スペクトル平坦性制御システムと方法を使用せずに、無声スピーチに対するSBRアプローチを使用して生成された高帯域スペクトルエンベロープを示すグラフである。 具体化スペクトル平坦性制御システムと方法を使用した、無声スピーチに対するSBRアプローチを使用して生成された高帯域スペクトルエンベロープを示すグラフである。 具体化スペクトル平坦性制御システムと方法を使用せずに、典型的な有声スピーチに対するSBRアプローチを使用して生成された高帯域スペクトルエンベロープを示すグラフである。 具体化スペクトル平坦性制御システムと方法を使用した、有声スピーチに対するSBRアプローチを使用して生成された高帯域スペクトルエンベロープを示すグラフである。 本発明の実施形態による通信システムを示す図である。 本発明の方法を実施するために使用可能な処理システムを示す図である。
実施形態の製作および使用について詳細に後述する。しかし、本発明が、広範な特定の文脈において実施可能な多数の適用できる発明的概念を提供することを認識されたい。論じられる特定の実施形態は、本発明を製作し、使用するための特定の方法を単に例示しているに過ぎず、本発明の範囲を限定するものではない。
本発明は、特定の文脈、オーディオの符号化および復号化に関するシステムと方法において様々な実施形態に関して説明する。本発明の実施形態はまた、他のタイプの信号処理にも適用され得る。
本発明の実施形態は、オーディオデコーダにおけるSBR性能を改善するために、スペクトル平坦性制御を使用する。スペクトル平坦性制御は、スピーチおよびオーディオ信号の低ビットレートコード化をさらに改善する後処理または制御された後処理技術のうちの1つ(SBRなど)として見なすことが可能である。SBR技術を用いたコーデックは、低周波数帯域をコード化するために高周波数帯域の場合よりも多くのビットを使用し、それは、高周波数帯域の微細スペクトル構造が、追加のビットをほとんど、または全く費やさずに簡単に低周波数帯域からコピーされるものであるということがSBRの1つの基本特徴であるからである。高周波数帯域にわたってスペクトルエネルギー分布を決定する高周波数帯域のスペクトルエンベロープは、通常、非常に限定された数のビットを用いてコード化される。通例、高周波数帯域は、いくつかのサブバンドに大まかに分割され、サブバンド毎のエネルギーは、量子化され、エンコーダからデコーダに送信される。高周波数帯域の場合にSBRを用いてコード化すべき情報がサイド情報と呼ばれる理由は、高周波数帯域の場合に費やされるビットの数は、通常のコード化アプローチよりもはるかに小さいか、または低周波数帯域コード化よりもはるかに有意でないからである。
実施形態においては、スペクトル平坦性制御は、ビットを全く費やさずにデコーダにおいて使用可能な後処理モジュールとして実施される。例えば、後処理は、具体的には後処理モジュールに対してエンコーダから送信される情報を全く使用することなく、デコーダにおいて実行可能である。そのような実施形態においては、後処理モジュールは、後処理以外の目的のために初期に送信された利用可能な情報のみをデコーダにおいて使用して動作する。制御フラグがスペクトル平坦性制御モジュールを制御するために使用される実施形態においては、エンコーダからデコーダに制御フラグに関して送信される情報は、SBRについてのサイド情報の一部と見なされる。例えば、1つのビットが、スペクトル平坦性制御モジュールをオンまたはオフに切り替えるために、あるいは異なるスペクトル平坦性制御モジュールを選択するために費やされる可能性がある。
図1a〜図1bおよび図2a〜図2bは、SBRアプローチを利用するエンコーダおよびデコーダの具体化例を示している。これらの図はまた、スペクトル平坦性制御アプリケーションの可能な例示的具体化配置を示しているが、スペクトル平坦性制御の正確な配置は、後述する詳細な符号化/復号化スキームによって決まる。図3、図4、図5、および図6は、具体化システムの例示的なスペクトルを示している。
図1aは、具体化フィルタバンクエンコーダを示している。まず、エンコーダにおける元のオーディオ信号またはスピーチ信号101が、フィルタバンク分析または他の変換アプローチを使用することによって周波数領域に変換される。この変換の低帯域フィルタバンク出力係数102が、量子化され、ビットストリームチャネル103を介してデコーダに送信される。変換からの高周波数帯域出力係数104が分析され、高周波数帯域についての低ビットレートサイド情報が、ビットストリームチャネル105を介してデコーダに送信される。いくつかの実施形態においては、高周波数帯域についての低ビットレートサイド情報のみが送信される。
図1bに示される具体化デコーダにおいては、低周波数帯域の量子化されたフィルタバンク係数107が、送信チャネルからのビットストリーム106を使用することによって復号化される。任意選択で、低帯域周波数領域係数107を後処理して、後処理係数108を得てから、フィルタバンク合成などの逆変換を実行することができる。高帯域信号は、SBR技術を用いて復号化され、高周波数帯域の生成を助けるためのサイド情報が使用される。
ある実施形態においては、サイド情報は、ビットストリーム110から復号化され、周波数領域高帯域係数111または後処理高帯域係数112はいくつかのステップを使用して生成される。このステップは、少なくとも2つの基本ステップを含むことが可能であり、一方のステップは、低帯域周波数係数を高帯域位置にコピーすることであり、もう一方のステップは、受信したサイド情報を使用することによってコピーされた高帯域係数のスペクトルエンベロープを成形することである。いくつかの実施形態においては、スペクトル平坦性制御は、スペクトルエンベロープが付加される前でもまたは後でも高周波数帯域に適用可能であり、スペクトル平坦性制御は、最初に、低帯域係数に適用されてもよい。次いで、これらの後処理された低帯域係数は、スペクトル平坦性制御の適用後、高帯域位置にコピーされる。多くの実施形態においては、スペクトル平坦性制御は、信号チェーン内の様々な場所に配置され得る。スペクトル平坦性制御の最も効果的な場所は、例えば、デコーダ構造、および受信したスペクトルエンベロープの精度によって決まる。最終的には、高帯域係数と低帯域係数を一緒に組み合わせ、逆変換して時間領域に戻し、出力オーディオ信号109を取得する。
図2aおよび図2bは、具体化エンコーダおよび具体化デコーダをそれぞれ示している。ある実施形態においては、低帯域の信号は、任意のコード化スキームにより符号化/復号化され、一方、高帯域については、低ビットレートSBRスキームにより符号化/復号化される。図2aのエンコーダにおいては、低帯域の元の信号201を低帯域エンコーダによって分析して低帯域パラメータ202を取得し、次いで、低帯域パラメータは、量子化され、ビットストリームチャネル203を介してエンコーダからデコーダに送信される。高帯域信号を含む元の信号204は、フィルタバンク分析または他の変換ツールを使用することによって、周波数領域に変換される。変換からの高周波数帯域の出力係数を分析して、サイドパラメータ205を取得し、このパラメータ205は、高帯域サイド情報を表す。
いくつかの実施形態においては、高周波数帯域についての低ビットレートサイド情報のみが、ビットストリームチャネル206を介してデコーダに送信される。図2のデコーダサイドにおいては、低帯域信号208が、受信したビットストリーム207により復号化され、次いで、この低帯域信号をフィルタバンク分析などの変換ツールを使用することによって周波数領域に変換して、対応する周波数係数209を取得する。いくつかの実施形態においては、任意選択で、これらの低帯域周波数領域係数209を後処理して、後処理係数210を得てから、フィルタバンク合成などの逆変換に進む。高帯域信号は、SBR技術を用いて復号化され、高周波数帯域の生成を助けるためのサイド情報が使用される。このサイド情報をビットストリーム211から復号化して、サイドパラメータ212を取得する。
ある実施形態においては、周波数領域高帯域係数213または後処理高帯域係数214は、低帯域周波数係数を高帯域位置にコピーすることによって、およびサイドパラメータを使用することによりコピーされた高帯域係数のスペクトルエンベロープを成形することによって生成される。スペクトル平坦性制御は、受信したスペクトルエンベロープが付加される前でもまたは後でも高周波数帯域に適用可能であり、さらにスペクトル平坦性制御は、最初に、低帯域係数に適用されてもよい。次に、これらの後処理された低帯域係数は、スペクトル平坦性制御の適用後、高帯域位置にコピーされる。さらなる実施形態においては、ランダムノイズが高帯域係数に加えられる。最終的には、高帯域係数と低帯域係数を一緒に組み合わせ、逆変換して時間領域に戻し、出力オーディオ信号215を取得する。
図3、図4、図5、および図6は、具体化スペクトル平坦性制御システムと方法のスペクトル性能を示している。低周波数帯域は、高帯域サイド情報をコード化するために使用されるビットレートよりもはるかに高い場合がある通常のビットレートにおける通常のコード化アプローチを使用して符号化/復号化され、高周波数帯域は、SBRアプローチを使用することによって生成されることを仮定している。高帯域が低帯域よりも広い場合、低帯域が高帯域に繰り返してコピーされ、次いで、スケーリングされることが必要であり得る場合もある。
図3は、無声スピーチを表すスペクトルを示しており、ここでは、[F1,F2]からのスペクトルは、[F2,F3]、および[F3,F4]にコピーされる。いくつかの例では、低帯域301が平坦でなく、元の高帯域303が平坦である場合、繰り返して高帯域302をコピーすると、元の高帯域303を有する元の信号に対して歪み信号が生じる場合がある。
図4は、具体化平坦性制御が適用されるシステムのスペクトルを示している。見て取れるように、低帯域401は、図3の低帯域301と類似しているように見えるが、ここでは、繰り返してコピーされる高帯域402は、元の高帯域403にはるかに近いように見える。
図5は、元の高帯域エリア503が、ノイズが多く、平坦であり、低帯域501が平坦でない場合の有音スピーチを表すスペクトルを示している。しかし、繰り返してコピーされる高帯域502はやはり、元の高帯域503に対して平坦ではない。
図6は、具体化スペクトル平坦性制御方法が適用される有声スピーチを表すスペクトルを示している。ここでは、低帯域601は、低帯域501と同様であるが、この場合は、繰り返してコピーされる高帯域602のスペクトル形状は、元の高帯域603にはるかに近い。
スペクトル平坦性制御後処理を適用することによって、生成された高帯域スペクトルをより平坦にするために使用され得るいくつかの具体化システムと方法が存在する。以下に、可能な方法の一部について説明するが、明示的に後述されていない他の代替実施形態も可能である。
一実施形態においては、スペクトル平坦性制御パラメータは、高周波数帯域位置にコピーすべき低帯域係数を分析することによって推定される。スペクトル平坦性制御パラメータはまた、低帯域係数からコピーされる高帯域係数を分析することによっても推定可能である。あるいは、スペクトル平坦性制御パラメータは、他の方法を使用して推定可能である。
ある実施形態においては、スペクトル平坦性制御は、低帯域係数からコピーされる高帯域係数に適用される。あるいは、スペクトル平坦性制御は、高周波数帯域がサイド情報から復号化される受信したスペクトルエンベロープを付加することによって成形される前に、高帯域係数に適用されてもよい。さらにまた、スペクトル平坦性制御は、高周波数帯域がサイド情報から復号化される受信したスペクトルエンベロープを付加することによって成形された後に、高帯域係数に適用されてもよい。あるいは、スペクトル平坦性制御は、他の方法で適用されてもよい。
いくつかの実施形態においては、スペクトル平坦性制御は、異なるクラスの信号について同じパラメータを有し、一方、他の実施形態においては、スペクトル平坦性制御は、異なるクラスの信号について同じパラメータを維持していない。いくつかの実施形態においては、スペクトル平坦性制御は、エンコーダからの受信したフラグに基づいて、かつ/またはデコーダにおいて利用可能な信号クラスに基づいて、オンまたはオフに切り替えられる。また他の条件が、スペクトル平坦性制御をオンおよびオフに切り替えるための礎として使用されてもよい。
いくつかの実施形態においては、スペクトル平坦性制御は、切替えができず、同じ制御パラメータが常に維持される。他の実施形態においては、スペクトル平坦性制御は、切替えができないが、制御パラメータをデコーダサイドにおいて利用可能な情報に適合させる。
諸実施形態においては、スペクトル平坦性制御は、いくつかの方法を使用して達成され得る。例えば、一実施形態においては、スペクトル平坦性制御は、高周波数帯域位置にコピーすべき周波数係数のスペクトルエンベロープを平滑化することによって達成される。スペクトル平坦性制御はまた、低周波数帯域からコピーされる高帯域係数のスペクトルエンベロープを平滑化することによって、または受信したスペクトルエンベロープが付加される前に、低周波数帯域からコピーされる高帯域係数のスペクトルエンベロープを一定の平均値により近づけることによっても達成され得る。さらには、他の方法が使用されてもよい。
ある実施形態においては、フレーム毎に1ビットが、エンコーダからデコーダに分類情報を送信するために使用される。この分類は、強いスペクトル平坦性制御が必要であるのか、または弱いスペクトル平坦性制御が必要であるのかをデコーダに知らせる。分類情報はまた、いくつかの実施形態においては、デコーダにおけるスペクトル平坦性制御をオンまたはオフに切り替えるためにも使用され得る。
ある実施形態においては、スペクトル平坦性の改善には、以下の2つの基本ステップ、すなわち、(1)SBRが使用される場合に、コピーされた高帯域スペクトルが平坦化されるべき信号フレームを識別するためのアプローチ、および(2)識別されたフレームについてデコーダにおける高帯域スペクトルを平坦化するための低コストの方法が使用される。いくつかの実施形態においては、すべての信号フレームが、コピーされた高帯域のスペクトル平坦性の改善に必要であり得るとは限らない。実際に、一部のフレームでは、そのような動作が可聴歪みを取り込む場合があるので、高帯域スペクトルをさらに平坦化しない方がより望ましいこともある。例えば、スペクトル平坦性の改善は、スピーチ信号には必要であり得るが、ミュージック信号には必要でないこともある。いくつかの実施形態においては、スペクトル平坦性の改善は、元の高帯域スペクトルが言わばノイズが多い、または平坦で、強いスペクトルピークを全く含んでいないスピーチフレームに対して適用される。
以下の具体化アルゴリズム例は、ノイズが多く、平坦な高帯域スペクトルを有するフレームを識別する。このアルゴリズムは、例えば、MPEG-4 USAC技術に適用され得る。
このアルゴリズム例が図2に基づいており、エンコーダにおける2048個のデジタルサンプルの長いフレーム(スーパーフレームとも呼ばれる)についてフィルタバンク分析から出力されるフィルタバンク複素係数が、
{Sr_enc[i][k], Si_enc[i][k]}、i=0,1,2,…,31、k=0,1,2,…,63 (1)
であると仮定する。ただし、iは、サンプリングレート28800Hzにおける2.22msステップを表す時間指数であり、kは、0から14400Hzからの64個の小さいサブバンドについての225Hzステップを示す周波数指数である。
1つのスーパーフレームについての時間-周波数エネルギーアレイは、
TF_energy_ecn[i][k] =(Sr_enc[i][k])2+(Si_enc[i][k])2、i=0,1,2,…,31、k=0,1,…,63 (2)
と表すことができる。
簡潔にするために、(2)におけるエネルギーは、線形領域において表され、また、線形領域におけるEnergyをdB領域におけるEnergy_dBに変換するために、よく知られている方程式Energy_dB=10log(Energy)を使用することによって、dB領域においても表すことができる。ある実施形態においては、1つのスーパーフレームについての平均周波数方向エネルギー分布は、
Figure 2013531281
と記すことができる。
ある実施形態においては、Spectrum_Shapnessと呼ばれるパラメータが、以下の方法で推定され、平坦な高帯域を検出するために使用される。Start_HBが低帯域と高帯域との境界を定める開始点であると仮定すると、Spectrum_Shapnessは、高帯域の各サブバンドにおいて評価されるいくつかのスペクトルの鮮明度のパラメータの平均値
Figure 2013531281
であり、ただし、
Figure 2013531281
であり、ただし、
Figure 2013531281
Figure 2013531281
であり、ただし、Start_HB、L_sub、およびK_subは、定数である。一実施形態においては、例示的な値は、Start_HB=30であり、L_sub=3であり、K_sub=11である。あるいは、他の値が使用されてもよい。
平坦な高帯域検出を助けるために使用される別のパラメータは、スペクトル傾斜を表すエネルギー比率
Figure 2013531281
であり、ただし、
Figure 2013531281
Figure 2013531281
であり、L1、L2、およびL3は定数である。一実施形態においては、それらの例示的な値は、L1=8であり、L2=16であり、L3=24である。あるいは、他の値が使用されてもよい。flat_flag=1が平坦高帯域を示し、flat_flag=0が非平坦高帯域を示す場合、平坦指示フラグはflat_flag=0に初期化される。次いで、決定が、以下の方法
if(tilt_energy_ratio>THRD0) {
if(Spectrum_Shapness>THRD1) flat_flag=1;
if(Spectrum_Shapness<THRD2) flat_flag=0;
}
else{
if(Spectrum_Shapness>THRD3) flat_flag=1;
if(Spectrum_Shapness<THRD4) flat_flag=0;
}
でスーパーフレーム毎になされ、ただし、THRD0、THRD1、THRD2、THRD3、およびTHRD4は、定数である。一実施形態においては、例示的な値は、THRD0=32であり、THRD1=0.64であり、THRD2=0.62であり、THRD3=0.72であり、THRD4=0.70である。あるいは、他の値が使用されてもよい。flat_flagがエンコーダにおいて決定された後、いくつかの実施形態においては、スーパーフレーム毎に1ビットのみがスペクトル平坦性フラグをデコーダに送信するのに必要である。ミュージック/スピーチ分類がすでに存在する場合、スペクトル平坦性フラグはまた、単にこのミュージック/スピーチ決定と等しくなるように設定可能である。
デコーダサイドにおいては、高帯域スペクトルは、現在のスーパーフレームについて受信したflat_flagが1である場合、より平坦にされる。デコーダにおける2048個のデジタルサンプルの長いフレーム(スーパーフレームとも呼ばれる)についてのフィルタバンク複素係数が
{Sr_dec[i][k], Si_dec[i][k]}、i=0,1,2,…,31、k=0,1,2,…,63 (9)
であると仮定する。ただし、iは、サンプリングレート28800Hzにおける2.22msステップを表す時間指数であり、kは、0から14400Hzまでの64個のサブバンドについての225Hzステップを示す周波数指数である。あるいは、他の値が、時間指数およびサンプリングレートについて使用されてもよい。
エンコーダと同様に、Start_HBは、低帯域と高帯域との間の境界を定める、高帯域の開始点である。k=0からk=Start_HB-1までの(9)における低帯域係数は、低帯域ビットストリームを直接復号化することによって、または復号化された低帯域信号を周波数領域に変換することによって取得される。SBR技術が使用される場合、k=Start_HBからk=63までの(9)における高帯域係数は、(9)における低帯域係数の一部を高帯域位置にコピーすることによって取得され、次いで、サイド情報から復号化される受信したスペクトルエンベロープを付加することによって、後処理され、平滑化(平坦化)され、かつ/または成形される。高帯域係数の平滑化または平坦化は、いくつかの実施形態においては、受信したスペクトルエンベロープを付加する前に行われる。あるいは、それはまた、受信したスペクトルエンベロープを付加した後に行われてもよい。
エンコーダと同様に、デコーダにおける1つのスーパーフレームについての時間-周波数エネルギーアレイは、
TF_energy_dec[i][k]=(Sr_dec[i][k])2+(Si_dec dec[i][k])2、i=0,1,2,…,31、k=0,1,…,63 (10)
と表すことができる。
高帯域係数の平滑化または平坦化が、受信したスペクトルエンベロープを付加する前に行われる場合、k=Start_HBからk=63までの(10)におけるエネルギーアレイは、受信したスペクトルエンベロープを付加する前に高帯域係数のエネルギー分布を表す。簡潔にするために、(10)におけるエネルギーは、線形領域において表されるが、線形領域におけるEnergyをdB領域におけるEnergy_dBに変換するために、よく知られている方程式Energy_dB=10log(Energy)を使用することによって、dB領域においても表すこともできる。1つのスーパーフレームについての平均周波数方向エネルギー分布は、
Figure 2013531281
と記すことができる。
高帯域の平均化(平均)エネルギーパラメータは、
Figure 2013531281
と定義される。
高帯域をより平坦にする以下の修正利得
Figure 2013531281
が推測され、高帯域フィルタバンク係数に付加される。ただし、修正利得は平坦化(または平滑化)利得とも呼ばれ、flat_flagは、スペクトル平坦性制御をオンまたはオフに切り替える分類フラグである。このフラグは、エンコーダからデコーダに送信され得、スピーチ/ミュージック分類、またはデコーダにおいて利用可能な情報に基づいた決定を表すことができ、Gain(k)は、平坦化(または平滑化)利得であり、Start_HB、End_HB、C0、およびC1は、定数である。一実施形態においては、例示的な値は、Start_HB=30であり、End_HB=64であり、C0=0.5であり、C1=0.5である。あるいは、他の値が使用されてもよい。C0およびC1は、C0+C1=1という条件を満たす。より大きいC1は、より積極的なスペクトル修正が使用されていること、およびスペクトルエネルギー分布は、平均スペクトルエネルギーにより近いように作成されていることを意味し、それにより、スペクトルはより平坦になる。諸実施形態においては、C0およびC1の値設定は、ビットレート、サンプリングレート、および高周波数帯域位置によって決まる。いくつかの実施形態においては、より大きいC1は、高帯域がより高い周波数領域に位置しているとき、選択可能であり、より小さいC0は、より低い周波数領域に相対的に位置している高帯域の場合である。
上述の例は、コピーされた高帯域スペクトルエンベロープを平滑化または平坦化するための方法のほんの1つであることを認識されたい。例えば、多項式曲線適合(Polynomial Curve Fitting)という名称の数学的データ平滑化アルゴリズムを使用して、平坦化(または、平滑化)利得を推定する多くの他の方法が可能である。最終的には、低帯域フィルタバンク係数および高帯域フィルタバンク係数はすべて、オーディオ/スピーチデジタル信号を出力するフィルタバンク合成に入力される。
いくつかの実施形態においては、生成された高周波数帯域のスペクトル平坦性を制御するための後処理方法が使用される。スペクトル平坦性制御方法は、低帯域ビットストリームを復号化して低帯域信号を得るステップと、この低帯域信号を周波数領域に変換して低帯域係数{Sr_dec[i][k], Si_dec[i][k]}、k=0,…,Star_HB-1を取得するステップとを含むいくつかのステップを含み得る。これらの低帯域係数のうちの一部を高周波数帯域位置にコピーして、高帯域係数{Sr_dec[i][k], Si_dec[i][k]}、k=Start_HB,…,End_HB-1を生成する。高帯域係数のエネルギーエンベロープが、平坦化または平滑化利得{Gain(k)}を高帯域係数に乗算することによって平坦化または平滑化される。
ある実施形態においては、平坦化または平滑化利得は、低帯域係数からコピーされる高帯域係数、または高帯域位置にコピーすべき低帯域係数のエネルギー分布{F_energy_dec[k]}を分析し、検証し、使用し、平坦化または平滑化することによって評価される。平坦化(または平滑化)利得を評価するパラメータの1つは、高帯域係数のエネルギーまたはコピーすべき低帯域係数のエネルギーを平均化することによって取得される平均エネルギー値(Mean_HB)である。平坦化または平滑化利得は、エンコーダからデコーダに送信されるスペクトル平坦化分類(flat_flag)に従って、交換可能または変更可能である。この分類は、複数のSpectrum Sharpnessパラメータを使用することによって、エンコーダにおいて決定され、ただし、それぞれのSpectrum Sharpnessパラメータは、元の高周波数帯域のサブバンドjに関して平均エネルギー(MeanEnergy(j))を最大エネルギー(MaxEnergy(j))で除算することによって定義される。
ある実施形態においては、分類はまた、スピーチ/ミュージック決定に基づくことも可能である。受信したビットストリームから復号化される、受信したスペクトルエンベロープもまた、高帯域係数をさらに成形するように付加され得る。最終的には、低帯域係数および高帯域係数を逆変換して時間領域に戻し、時間領域出力スピーチ/オーディオ信号を取得する。
いくつかの実施形態においては、高帯域係数は、帯域幅拡張(BWE)またはスペクトル帯域複製(SBR)技術を用いて生成され、次いで、スペクトル平坦性制御方法は、この生成された高帯域係数に適用される。
他の実施形態においては、低帯域係数は、低帯域ビットストリームから直接復号化され、次いで、スペクトル平坦性制御方法は、低帯域係数の一部からコピーされる高帯域係数に適用される。
図7は、本発明の実施形態による通信システム710を示している。通信システム710は、通信リンク738および740を介してネットワーク736に結合されたオーディオアクセスデバイス706および708を有する。一実施形態においては、オーディオアクセスデバイス706および708は、ボイスオーバインターネットプロトコル(VOIP)デバイスであり、ネットワーク736は、広域ネットワーク(WAN)、公衆交換電話ネットワーク(PSTN)、および/またはインターネットである。別の実施形態においては、オーディオアクセスデバイス706は、受信用オーディオデバイスであり、オーディオアクセスデバイス708は、放送品質、高忠実性オーディオデータ、ストリーミングオーディオデータ、および/またはビデオプログラミングを伴うオーディオを送信する送信用オーディオデバイスである。通信リンク738および740は、ワイヤラインおよび/またはワイヤレスの広帯域接続である。代替の実施形態においては、オーディオアクセスデバイス706および708は、セルラ電話またはモバイル電話であり、リンク738および740は、ワイヤレスモバイル電話チャネルであり、ネットワーク736は、モバイル電話ネットワークを表す。オーディオアクセスデバイス706は、ミュージックまたは人の声などの音声をアナログオーディオ入力信号728に変えるためにマイクロホン712を使用する。マイクロホンインターフェース716は、アナログオーディオ入力信号728をデジタルオーディオ信号732に変えて、CODEC720のエンコーダ722に入力する。エンコーダ722は、本発明の実施形態によれば、符号化されたオーディオ信号TXを生成して、ネットワークインターフェース726を介してネットワーク736に送信する。CODEC720内のデコーダ724は、ネットワークインターフェース726を介してネットワーク736から符号化されたオーディオ信号RXを受信し、符号化されたオーディオ信号RXをデジタルオーディオ信号734に変える。スピーカインターフェース718は、デジタルオーディオ信号734を、ラウドスピーカ714を駆動するのに適しているオーディオ信号730に変える。
オーディオアクセスデバイス706がVOIPデバイスである場合の本発明の諸実施形態においては、オーディオアクセスデバイス706内の一部、またはすべてのコンポーネントは、ハンドセット内に実装可能である。しかし、一部の実施形態においては、マイクロホン712およびラウドスピーカ714は、別個のユニットであり、マイクロホンインターフェース716、スピーカインターフェース718、CODEC720、およびネットワークインターフェース726は、パーソナルコンピュータ内に実装される。CODEC720は、コンピュータもしくは専用プロセッサにおいて動作するソフトウェア、または例えば特定用途向け集積回路(ASIC)における専用ハードウェアのいずれでも実装可能である。マイクロホンインターフェース716は、アナログ/デジタル(A/D)変換器、ならびにハンドセット内および/またはコンピュータ内に配置される他のインターフェース回路によって実装される。同様に、スピーカインターフェース718は、デジタル/アナログ変換器、ならびにハンドセット内および/またはコンピュータ内に配置される他のインターフェース回路によって実装される。さらなる実施形態においては、オーディオアクセスデバイス706は、当技術分野で知られている他の方法で実装および分割可能である。
オーディオアクセスデバイス706がセルラ電話またはモバイル電話である場合の本発明の諸実施形態においては、オーディオアクセスデバイス706内の素子は、セルラハンドセット内に実装される。CODEC720は、ハンドセット内のプロセッサにおいて動作するソフトウェアによって、または専用ハードウェアによって実施される。本発明のさらなる実施形態においては、オーディオアクセスデバイスは、ピアツーピアのワイヤラインおよびワイヤレスのデジタル通信システムなどの他のデバイス、例えば、インターコム、および無線ハンドセットなどに実装され得る。消費者オーディオデバイスなどのアプリケーションにおいては、オーディオアクセスデバイスは、エンコーダ722のみおよびデコーダ724のみを有するCODECを、例えばデジタルマイクロホンシステムまたはミュージックプレイバックデバイスに含むことが可能である。本発明の他の実施形態においては、CODEC720は、例えば、PSTNにアクセスするセルラ基地局において、マイクロホン712およびスピーカ714なしで使用可能である。
図8は、本発明の方法を実施するために利用可能な処理システム800を示している。この場合、主な処理は、プロセッサ802において実行され、このプロセッサ802は、マイクロプロセッサであっても、デジタル信号プロセッサであっても、または任意の他の適切な処理デバイスであってもよい。いくつかの実施形態においては、プロセッサ802は、複数のプロセッサを使用して実装され得る。プログラムコード(例えば、上記開示したアルゴリズムを実施するコード)およびデータは、メモリ804に記憶され得る。メモリ804は、DRAMなどのローカルメモリであっても、あるいはハードドライブ、光ドライブ、または(ローカルもしくはリモートであり得る)他の記憶装置などの大容量記憶装置であってもよい。メモリを単一のブロックを用いて機能的に図示しているが、1つまたは複数のハードウェアのブロックがこの機能を実施するために使用可能であると理解される。
一実施形態においては、プロセッサ802は、図1a〜図1bおよび図2a〜図2bに示すユニットのうちの様々なユニット(またはすべて)を実施するために使用され得る。例えば、プロセッサは、本発明の技法を実行する際に伴うサブタスクを実施するために、異なる時間に特定の機能ユニットとして働くことが可能である。あるいは、(例えば、プロセッサと同じ、またはプロセッサとは異なる)種々のハードウェアブロックが、種々の機能を実行するために使用されてもよい。他の実施形態においては、いくつかのサブタスクは、プロセッサ802によって実行されるが、他のサブタスクは、別個の回路を使用して実行される。
図8はまた、オーディオおよび/またはビットストリームのデータをプロセッサにおよびプロセッサから供給するために使用可能なI/Oポート806を示している。オーディオソース808(行き先は明確に図示していない)は、システムの必ずしも一部とは限らないことを示すために破線で示している。例えば、このオーディオソースは、インターネットなどのネットワーク、またはローカルインターフェース(例えば、USBもしくはLANインターフェース)によってシステムにリンクされ得る。
実施形態の利点は、低コストによる低ビットレートで受信した主観的音声品質の改善を含む。
諸実施形態およびその利点を詳細に説明してきたが、様々な変形、置換、および代替が、添付の特許請求の範囲によって定義される本発明の趣旨および範囲から逸脱することなく、本明細書においてなされ得ることを理解されたい。さらには、本出願の範囲は、本明細書において説明されたプロセス、機械、製造、物質の組成物、手段、方法、およびステップの特定の実施形態に限定するように意図するものではない。当業者が本発明の本開示から容易に理解するように、本明細書に説明される対応する実施形態と同じ機能を実質的に行う、もしくは同じ結果を実質的に達成する、現在のところ存在する、または後に開発されるプロセス、機械、製造、物質の組成物、手段、方法もしくはステップは、本発明に従って利用され得る。これに応じて、添付の特許請求の範囲はその範囲内に、そのようなプロセス、機械、製造、物質の組成物、手段、方法、またはステップを含むように意図される。
101 オーディオ信号またはスピーチ信号
102 低帯域フィルタバンク出力係数
103 ビットストリームチャネル
104 高周波数帯域バンク出力係数
105 ビットストリームチャネル
106 ビットストリーム
107 フィルタバンク係数
108 後処理係数
109 出力オーディオ信号
110 ビットストリーム
111 周波数領域高帯域係数
112 後処理高帯域係数
201 低帯域の元の信号
202 低帯域パラメータ
203 ビットストリームチャネル
204 高帯域信号を含む元の信号
205 サイドパラメータ
206 ビットストリームチャネル
207 ビットストリーム
208 低帯域信号
209 周波数係数
210 後処理係数
211 ビットストリーム
212 サイドパラメータ
213 周波数領域高帯域係数
214 後処理高帯域係数
215 出力オーディオ信号

Claims (24)

  1. 符号化されたオーディオビットストリームをデコーダにおいて復号化する方法であって、
    低帯域ビットストリームを含むオーディオビットストリームを受信するステップと、
    前記低帯域ビットストリームを復号化して、低帯域係数を周波数領域で得るステップと、
    複数の前記低帯域係数を高周波数帯域位置にコピーして、高帯域係数を生成するステップと、
    前記高帯域係数を処理して処理された高帯域係数を形成するステップであって、前記処理が、
    修正利得の乗算による前記高帯域係数の平坦化または平滑化を含む、前記高帯域係数のエネルギーエンベロープを修正するステップ、および
    前記受信したオーディオビットストリームから復号化される受信したスペクトルエンベロープを前記高帯域係数に付加するステップ
    を含むステップと、
    前記低帯域係数および前記処理された高帯域係数を時間領域に逆変換して、時間領域出力信号を取得するステップと
    を含む方法。
  2. 前記受信したビットストリームが、高帯域サイドビットストリームを含み、
    当該方法が、前記高帯域サイドビットストリームを復号化して、サイド情報を得るステップと、スペクトルバンド複製(SBR)技法を使用して、前記サイド情報により前記高帯域を生成するステップとをさらに含む、
    請求項1に記載の方法。
  3. 前記修正利得を評価するステップをさらに含み、前記評価するステップが、前記低帯域係数からコピーされる前記高帯域係数を分析し、修正するステップ、または前記高帯域位置にコピーすべき前記低帯域係数のエネルギー分布を分析し、修正するステップを含む、請求項1に記載の方法。
  4. 前記修正利得を前記評価するステップが、前記高帯域係数のエネルギーを平均化することによって取得される平均エネルギー値を使用するステップを含む、請求項3に記載の方法。
  5. 前記修正利得を前記評価するステップが、以下の方程式、
    Figure 2013531281
    を評価するステップを含み、ただし、{Gain(k)、k=Start_HB,…,End_HB-1}は、前記修正利得であり、F_energy_dec[k]は、コピーされた高帯域の各周波数位置指数kにおけるエネルギー分布であり、Start_HBおよびEnd_HBは、高帯域領域を定義し、C0+C1=1を満たすC0およびC1は、あらかじめ定められた定数であり、Mean_HBは、前記高帯域係数のエネルギーを平均化することによって取得される平均エネルギー値である、
    請求項3に記載の方法。
  6. 前記修正利得が、エンコーダから前記デコーダによって受信されるスペクトル平坦性分類に従って、交換可能または変更可能である、請求項3に記載の方法。
  7. 複数のスペクトル鮮明度パラメータに基づいて前記分類を決定するステップをさらに含み、前記複数のスペクトル鮮明度パラメータのそれぞれが、元の高周波数帯域のサブバンドにおける最大エネルギーによって平均エネルギーを分割することにより定義される、請求項6に記載の方法。
  8. 前記分類が、スピーチ/ミュージック決定に基づく、請求項6に記載の方法。
  9. 前記低帯域ビットストリームを復号化するステップが、
    前記低帯域ビットストリームを復号化して、低帯域信号を得るステップと、
    前記低帯域信号を前記周波数領域に変換して、前記低帯域係数を取得するステップと
    を含む、請求項1に記載の方法。
  10. 前記エネルギーエンベロープを修正するステップが、前記エネルギーエンベロープを平坦化または平滑化するステップを含む、請求項1に記載の方法。
  11. 復号化されたスピーチ/オーディオ信号をデコーダにおいて生成し、生成された高周波数帯域のスペクトル平坦性を改善する後処理方法であって、
    帯域幅拡張(BWE)高帯域係数生成方法を使用して、周波数領域の低帯域係数から高帯域係数を生成するステップと、
    平坦化または平滑化利得を前記高帯域係数に乗算することによって、前記高帯域係数のエネルギーエンベロープを平坦化または平滑化するステップと、
    BWE成形および決定方法を使用することによって、前記高帯域係数のエネルギーを成形し、決定するステップと、
    前記低帯域係数および前記高帯域係数を時間領域に逆変換して、時間領域出力スピーチ/オーディオ信号を取得するステップと
    を含む方法。
  12. 前記平坦化または平滑化利得を評価するステップをさらに含み、前記評価するステップが、前記高帯域係数あるいは高帯域位置にコピーすべき前記低帯域係数を分析し、検証し、使用し、平坦化または平滑化するステップを含む、請求項11に記載の方法。
  13. 前記平坦化または平滑化利得を前記評価するステップが、前記高帯域係数のエネルギーを平均化することによって取得される平均エネルギー値を使用するステップを含む、請求項12に記載の方法。
  14. 前記平坦化または平滑化利得が、エンコーダから前記デコーダに送信されるスペクトル平坦性分類に応じて、交換可能または変更可能である、請求項12に記載の方法。
  15. 前記分類が、スピーチ/ミュージック決定に基づく、請求項14に記載の方法。
  16. 前記BWE高帯域係数生成方法が、スペクトルバンド複製(SBR)高帯域係数生成方法を含み、
    前記BWE成形および決定方法が、SBR成形および決定方法を含む、
    請求項11に記載の方法。
  17. 符号化されたオーディオ信号を受信するためのシステムであって、
    前記符号化されたオーディオ信号の低帯域部分を周波数領域低帯域係数に低帯域ブロックの出力において変換するように構成されている、低帯域ブロックと、
    前記低帯域ブロックの前記出力に結合され、複数の前記低帯域係数を高周波数帯域位置にコピーすることによって、高帯域係数を高帯域ブロックの出力において生成するように構成されている、高帯域ブロックと、
    前記高帯域ブロックの前記出力に結合され、成形された高帯域係数をエンベロープ成形ブロックの出力において生成するように構成されている、エンベロープ成形ブロックであって、
    修正利得を乗算して、前記高帯域係数を平坦化または平滑化することによって、前記高帯域係数のエネルギーエンベロープを修正し、
    前記符号化されたオーディオ信号から復号化される受信したスペクトルエンベロープを前記高帯域係数に付加する
    ように構成されている、エンベロープ成形ブロックと、
    前記エンベロープ成形ブロックの前記出力および前記低帯域ブロックの前記出力に結合され、時間領域オーディオ出力信号を生成するように構成されている逆変換ブロックと
    を備えるシステム。
  18. 前記符号化されたオーディオ信号の高帯域サイドビットストリームから前記受信したスペクトルエンベロープを生成するように構成されている高帯域サイドビットストリームデコーダブロックをさらに備える、請求項17に記載のシステム。
  19. 前記低帯域ブロックが、
    前記符号化されたオーディオ信号の低帯域ビットストリームを、復号化された低帯域信号に低帯域デコーダブロックの出力において復号化するように構成されている、低帯域デコーダブロックと、
    前記低帯域デコーダブロックの前記出力に結合され、前記復号化された低帯域信号から前記周波数領域低帯域係数を生成するように構成されている、時間/周波数フィルタバンクアナライザと
    を備える、請求項17に記載のシステム。
  20. 前記エンベロープ成形ブロックが、前記低帯域ブロックにさらに結合され、
    前記エンベロープ成形ブロックが、前記高帯域係数、または高帯域位置にコピーすべき前記低帯域係数を分析し、検証し、使用し、修正することによって、前記修正利得を評価するようにさらに構成されている、
    請求項17に記載のシステム。
  21. 前記エンベロープ成形ブロックが、前記高帯域係数のエネルギーを平均化することによって取得される平均エネルギー値を使用して、前記修正利得を評価する、請求項20に記載のシステム。
  22. 前記出力オーディオ信号が、ラウドスピーカに入力されるように構成されている、請求項17に記載のシステム。
  23. 実行可能なプログラムが記憶されている持続性コンピュータ可読媒体であって、前記プログラムが、
    入力オーディオ信号のコード化された表現を含む符号化されたオーディオ信号を復号化して、復号化されたオーディオ信号を生成するステップと、
    スペクトル帯域幅拡張のためのスペクトル平坦性制御を用いて、前記復号化されたオーディオ信号を後処理するステップと
    を実行するようにプロセッサに命令する、
    持続性コンピュータ可読媒体。
  24. 前記復号化されたオーディオ信号を後処理する前記ステップが、
    平坦化または平滑化利得を前記高帯域係数に乗算することによって、前記復号化されたオーディオ信号の高帯域係数のエネルギーエンベロープを平坦化または平滑化するステップと、
    BWE成形および決定方法を使用して、前記高帯域係数のエネルギーを成形し、決定するステップと
    をさらに含む、請求項23に記載の持続性コンピュータ可読媒体。
JP2013520806A 2010-07-19 2011-07-19 帯域幅拡張のためのスペクトル平坦性制御 Active JP5662573B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US36545610P 2010-07-19 2010-07-19
US61/365,456 2010-07-19
US13/185,163 US9047875B2 (en) 2010-07-19 2011-07-18 Spectrum flatness control for bandwidth extension
US13/185,163 2011-07-18
PCT/US2011/044519 WO2012012414A1 (en) 2010-07-19 2011-07-19 Spectrum flatness control for bandwidth extension

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2014245697A Division JP6044035B2 (ja) 2010-07-19 2014-12-04 帯域幅拡張のためのスペクトル平坦性制御

Publications (2)

Publication Number Publication Date
JP2013531281A true JP2013531281A (ja) 2013-08-01
JP5662573B2 JP5662573B2 (ja) 2015-02-04

Family

ID=45467633

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2013520806A Active JP5662573B2 (ja) 2010-07-19 2011-07-19 帯域幅拡張のためのスペクトル平坦性制御
JP2014245697A Active JP6044035B2 (ja) 2010-07-19 2014-12-04 帯域幅拡張のためのスペクトル平坦性制御

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2014245697A Active JP6044035B2 (ja) 2010-07-19 2014-12-04 帯域幅拡張のためのスペクトル平坦性制御

Country Status (9)

Country Link
US (2) US9047875B2 (ja)
EP (2) EP3291232A1 (ja)
JP (2) JP5662573B2 (ja)
KR (1) KR101428608B1 (ja)
CN (1) CN103026408B (ja)
AU (1) AU2011282276C1 (ja)
BR (1) BR112013001224B8 (ja)
ES (1) ES2644231T3 (ja)
WO (1) WO2012012414A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016507080A (ja) * 2013-01-29 2016-03-07 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ エネルギー制限演算を用いて周波数増強信号を生成する装置および方法
JP2017517034A (ja) * 2014-06-03 2017-06-22 華為技術有限公司Huawei Technologies Co.,Ltd. 音声/オーディオ信号を処理するための方法および装置
CN111210832A (zh) * 2018-11-22 2020-05-29 广州广晟数码技术有限公司 基于频谱包络模板的带宽扩展音频编解码方法及装置
JP2021092811A (ja) * 2010-07-19 2021-06-17 ドルビー・インターナショナル・アーベー 高周波再構成の際のオーディオ信号処理

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US9300812B2 (en) * 2011-04-15 2016-03-29 Nokia Technologies Oy Method and apparatus for spectrum use
JP5975243B2 (ja) * 2011-08-24 2016-08-23 ソニー株式会社 符号化装置および方法、並びにプログラム
JP6037156B2 (ja) 2011-08-24 2016-11-30 ソニー株式会社 符号化装置および方法、並びにプログラム
WO2013042884A1 (ko) * 2011-09-19 2013-03-28 엘지전자 주식회사 영상 부호화/복호화 방법 및 그 장치
JP6239521B2 (ja) * 2011-11-03 2017-11-29 ヴォイスエイジ・コーポレーション 低レートcelpデコーダに関する非音声コンテンツの向上
CN110706715B (zh) 2012-03-29 2022-05-24 华为技术有限公司 信号编码和解码的方法和设备
KR101897455B1 (ko) * 2012-04-16 2018-10-04 삼성전자주식회사 음질 향상 장치 및 방법
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
PL2951821T3 (pl) * 2013-01-29 2017-08-31 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Koncepcja kompensacji przełączania trybu kodowania
DK2981958T3 (en) 2013-04-05 2018-05-28 Dolby Int Ab AUDIO CODES AND DECODS
JP6305694B2 (ja) * 2013-05-31 2018-04-04 クラリオン株式会社 信号処理装置及び信号処理方法
EP3011560B1 (en) * 2013-06-21 2018-08-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder having a bandwidth extension module with an energy adjusting module
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
EP2830064A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
CN105531762B (zh) 2013-09-19 2019-10-01 索尼公司 编码装置和方法、解码装置和方法以及程序
WO2015081699A1 (zh) 2013-12-02 2015-06-11 华为技术有限公司 一种编码方法及装置
KR20230042410A (ko) 2013-12-27 2023-03-28 소니그룹주식회사 복호화 장치 및 방법, 및 프로그램
FR3017484A1 (fr) 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
CN111710342B (zh) * 2014-03-31 2024-04-16 弗朗霍弗应用研究促进协会 编码装置、解码装置、编码方法、解码方法及程序
CN106409303B (zh) 2014-04-29 2019-09-20 华为技术有限公司 处理信号的方法及设备
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
CN105336336B (zh) 2014-06-12 2016-12-28 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
JP6401521B2 (ja) * 2014-07-04 2018-10-10 クラリオン株式会社 信号処理装置及び信号処理方法
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
JP2016038435A (ja) * 2014-08-06 2016-03-22 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
CN107004422B (zh) * 2014-11-27 2020-08-25 日本电信电话株式会社 编码装置、解码装置、它们的方法及程序
US10068558B2 (en) * 2014-12-11 2018-09-04 Uberchord Ug (Haftungsbeschränkt) I.G. Method and installation for processing a sequence of signals for polyphonic note recognition
TWI771266B (zh) * 2015-03-13 2022-07-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
AU2017219696B2 (en) 2016-02-17 2018-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
EP3453187B1 (en) * 2016-05-25 2020-05-13 Huawei Technologies Co., Ltd. Audio signal processing stage, audio signal processing apparatus and audio signal processing method
CN106202730B (zh) * 2016-07-11 2019-09-24 广东工业大学 一种基于能量包络线的运动规划过程定位精度判断方法
JP6439843B2 (ja) * 2017-09-14 2018-12-19 ソニー株式会社 信号処理装置および方法、並びにプログラム
US11159951B2 (en) 2018-03-19 2021-10-26 Telefonaktiebolaget Lm Ericsson (Publ) System and method of signaling spectrum flatness configuration
CN108630212B (zh) * 2018-04-03 2021-05-07 湖南商学院 非盲带宽扩展中高频激励信号的感知重建方法与装置
CN114242088A (zh) 2018-04-25 2022-03-25 杜比国际公司 具有减少后处理延迟的高频重建技术的集成
MX2020011206A (es) * 2018-04-25 2020-11-13 Dolby Int Ab Integracion de tecnicas de reconstruccion de alta frecuencia con retraso post-procesamiento reducido.
WO2019213965A1 (zh) * 2018-05-11 2019-11-14 华为技术有限公司 语音信号的处理方法和移动设备
JP6693551B1 (ja) * 2018-11-30 2020-05-13 株式会社ソシオネクスト 信号処理装置および信号処理方法
CN110556122B (zh) * 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN115148217A (zh) * 2022-06-15 2022-10-04 腾讯科技(深圳)有限公司 音频处理方法、装置、电子设备、存储介质及程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10006A (en) * 1853-09-06 Improvement in printer s ink
WO2000045379A2 (en) * 1999-01-27 2000-08-03 Coding Technologies Sweden Ab Enhancing perceptual performance of sbr and related hfr coding methods by adaptive noise-floor addition and noise substitution limiting
JP2008096567A (ja) * 2006-10-10 2008-04-24 Matsushita Electric Ind Co Ltd オーディオ符号化装置およびオーディオ符号化方法ならびにプログラム

Family Cites Families (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5778335A (en) * 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
AU7486200A (en) * 1999-09-22 2001-04-24 Conexant Systems, Inc. Multimode speech encoder
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
SE0004163D0 (sv) 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US7555434B2 (en) * 2002-07-19 2009-06-30 Nec Corporation Audio decoding device, decoding method, and program
EP1604354A4 (en) 2003-03-15 2008-04-02 Mindspeed Tech Inc VOICE INDEX CONTROLS FOR CELP LANGUAGE CODING
KR20060132697A (ko) 2004-02-16 2006-12-21 코닌클리케 필립스 일렉트로닉스 엔.브이. 트랜스코더 및 트랜스코딩 방법
EP1742202B1 (en) * 2004-05-19 2008-05-07 Matsushita Electric Industrial Co., Ltd. Encoding device, decoding device, and method thereof
JP2008519308A (ja) * 2004-11-05 2008-06-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号特性を用いた効率的なオーディオ符号化
CN101213590B (zh) * 2005-06-29 2011-09-21 松下电器产业株式会社 可扩展解码装置及丢失数据插值方法
RU2419171C2 (ru) * 2005-07-22 2011-05-20 Франс Телеком Способ переключения скорости передачи битов при аудиодекодировании с масштабированием скорости передачи битов и масштабированием полосы пропускания
WO2007037361A1 (ja) * 2005-09-30 2007-04-05 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
US7953605B2 (en) * 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
US8326638B2 (en) * 2005-11-04 2012-12-04 Nokia Corporation Audio compression
JP4736812B2 (ja) * 2006-01-13 2011-07-27 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
US20110057818A1 (en) * 2006-01-18 2011-03-10 Lg Electronics, Inc. Apparatus and Method for Encoding and Decoding Signal
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
US8239191B2 (en) * 2006-09-15 2012-08-07 Panasonic Corporation Speech encoding apparatus and speech encoding method
JP2008076847A (ja) * 2006-09-22 2008-04-03 Matsushita Electric Ind Co Ltd 復号器及び信号処理システム
US8032359B2 (en) 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
WO2008108701A1 (en) * 2007-03-02 2008-09-12 Telefonaktiebolaget Lm Ericsson (Publ) Postfilter for layered codecs
KR101355376B1 (ko) * 2007-04-30 2014-01-23 삼성전자주식회사 고주파수 영역 부호화 및 복호화 방법 및 장치
ATE518224T1 (de) * 2008-01-04 2011-08-15 Dolby Int Ab Audiokodierer und -dekodierer
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
JP5326311B2 (ja) 2008-03-19 2013-10-30 沖電気工業株式会社 音声帯域拡張装置、方法及びプログラム、並びに、音声通信装置
US8326641B2 (en) * 2008-03-20 2012-12-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding using bandwidth extension in portable terminal
AU2009267529B2 (en) * 2008-07-11 2011-03-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for calculating bandwidth extension data using a spectral tilt controlling framing
JP5203077B2 (ja) * 2008-07-14 2013-06-05 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置及び方法、音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法
US9037474B2 (en) 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
WO2010028292A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive frequency prediction
US8380498B2 (en) 2008-09-06 2013-02-19 GH Innovation, Inc. Temporal envelope coding of energy attack signal by using attack point location
US8407046B2 (en) 2008-09-06 2013-03-26 Huawei Technologies Co., Ltd. Noise-feedback for spectral envelope quantization
US8463603B2 (en) 2008-09-06 2013-06-11 Huawei Technologies Co., Ltd. Spectral envelope coding of energy attack signal
US8532998B2 (en) 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
US8515747B2 (en) 2008-09-06 2013-08-20 Huawei Technologies Co., Ltd. Spectrum harmonic/noise sharpness control
US8352279B2 (en) 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
WO2010031049A1 (en) 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
WO2010031003A1 (en) 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
WO2010036061A2 (en) * 2008-09-25 2010-04-01 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US8175888B2 (en) * 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
CN101770775B (zh) * 2008-12-31 2011-06-22 华为技术有限公司 信号处理方法及装置
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
US8392200B2 (en) * 2009-04-14 2013-03-05 Qualcomm Incorporated Low complexity spectral band replication (SBR) filterbanks
US8718804B2 (en) 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
US8391212B2 (en) 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
US20100324913A1 (en) * 2009-06-18 2010-12-23 Jacek Piotr Stachurski Method and System for Block Adaptive Fractional-Bit Per Sample Encoding
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
US9508351B2 (en) * 2009-12-16 2016-11-29 Dobly International AB SBR bitstream parameter downmix
WO2011127832A1 (en) * 2010-04-14 2011-10-20 Huawei Technologies Co., Ltd. Time/frequency two dimension post-processing
US8886523B2 (en) 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10006A (en) * 1853-09-06 Improvement in printer s ink
WO2000045379A2 (en) * 1999-01-27 2000-08-03 Coding Technologies Sweden Ab Enhancing perceptual performance of sbr and related hfr coding methods by adaptive noise-floor addition and noise substitution limiting
JP2009244886A (ja) * 1999-01-27 2009-10-22 Dolby Sweden Ab 情報源符号化システムの性能向上装置
JP2008096567A (ja) * 2006-10-10 2008-04-24 Matsushita Electric Ind Co Ltd オーディオ符号化装置およびオーディオ符号化方法ならびにプログラム

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021092811A (ja) * 2010-07-19 2021-06-17 ドルビー・インターナショナル・アーベー 高周波再構成の際のオーディオ信号処理
US11568880B2 (en) 2010-07-19 2023-01-31 Dolby International Ab Processing of audio signals during high frequency reconstruction
JP6993523B2 (ja) 2010-07-19 2022-01-13 ドルビー・インターナショナル・アーベー 高周波再構成の際のオーディオ信号処理
JP2016510429A (ja) * 2013-01-29 2016-04-07 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ サブバンドの時間的平滑化を用いて周波数増強信号を生成する装置および方法
JP2016510428A (ja) * 2013-01-29 2016-04-07 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 増強信号の整形を用いて周波数増強信号を生成する装置および方法
US9552823B2 (en) 2013-01-29 2017-01-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a frequency enhancement signal using an energy limitation operation
US9640189B2 (en) 2013-01-29 2017-05-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a frequency enhanced signal using shaping of the enhancement signal
US9741353B2 (en) 2013-01-29 2017-08-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a frequency enhanced signal using temporal smoothing of subbands
JP2016507080A (ja) * 2013-01-29 2016-03-07 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ エネルギー制限演算を用いて周波数増強信号を生成する装置および方法
US10354665B2 (en) 2013-01-29 2019-07-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a frequency enhanced signal using temporal smoothing of subbands
JP2019061282A (ja) * 2014-06-03 2019-04-18 華為技術有限公司Huawei Technologies Co.,Ltd. 音声/オーディオ信号を処理するための方法および装置
JP2021060609A (ja) * 2014-06-03 2021-04-15 華為技術有限公司Huawei Technologies Co.,Ltd. 音声/オーディオ信号を処理するための方法および装置
US10657977B2 (en) 2014-06-03 2020-05-19 Huawei Technologies Co., Ltd. Method for processing speech/audio signal and apparatus
US9978383B2 (en) 2014-06-03 2018-05-22 Huawei Technologies Co., Ltd. Method for processing speech/audio signal and apparatus
JP7142674B2 (ja) 2014-06-03 2022-09-27 華為技術有限公司 音声/オーディオ信号を処理するための方法および装置
US11462225B2 (en) 2014-06-03 2022-10-04 Huawei Technologies Co., Ltd. Method for processing speech/audio signal and apparatus
JP2017517034A (ja) * 2014-06-03 2017-06-22 華為技術有限公司Huawei Technologies Co.,Ltd. 音声/オーディオ信号を処理するための方法および装置
CN111210832A (zh) * 2018-11-22 2020-05-29 广州广晟数码技术有限公司 基于频谱包络模板的带宽扩展音频编解码方法及装置

Also Published As

Publication number Publication date
JP5662573B2 (ja) 2015-02-04
KR101428608B1 (ko) 2014-08-08
BR112013001224A2 (pt) 2016-06-07
AU2011282276B2 (en) 2014-08-28
EP2583277A4 (en) 2015-03-11
US9047875B2 (en) 2015-06-02
WO2012012414A1 (en) 2012-01-26
BR112013001224B8 (pt) 2022-05-03
JP6044035B2 (ja) 2016-12-14
CN103026408B (zh) 2015-01-28
AU2011282276C1 (en) 2014-12-18
US20120016667A1 (en) 2012-01-19
KR20130025963A (ko) 2013-03-12
AU2011282276A1 (en) 2013-03-07
EP3291232A1 (en) 2018-03-07
ES2644231T3 (es) 2017-11-28
CN103026408A (zh) 2013-04-03
US10339938B2 (en) 2019-07-02
US20150255073A1 (en) 2015-09-10
JP2015092254A (ja) 2015-05-14
EP2583277A1 (en) 2013-04-24
EP2583277B1 (en) 2017-09-06
BR112013001224B1 (pt) 2022-03-22

Similar Documents

Publication Publication Date Title
JP6044035B2 (ja) 帯域幅拡張のためのスペクトル平坦性制御
JP6673957B2 (ja) 帯域幅拡張のための高周波数符号化/復号化方法及びその装置
US8793126B2 (en) Time/frequency two dimension post-processing
US8560330B2 (en) Energy envelope perceptual correction for high band coding
US10217470B2 (en) Bandwidth extension system and approach
JP6259024B2 (ja) フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
JP5047268B2 (ja) Mdct係数を使用する音声後処理
US10354665B2 (en) Apparatus and method for generating a frequency enhanced signal using temporal smoothing of subbands

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130228

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141204

R150 Certificate of patent or registration of utility model

Ref document number: 5662573

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250