JP2011527458A - タイムワープ作動信号供給部、オーディオ信号エンコーダ、タイムワープ作動信号を供給するための方法、オーディオ信号をエンコードするための方法、及びコンピュータープログラム - Google Patents

タイムワープ作動信号供給部、オーディオ信号エンコーダ、タイムワープ作動信号を供給するための方法、オーディオ信号をエンコードするための方法、及びコンピュータープログラム Download PDF

Info

Publication number
JP2011527458A
JP2011527458A JP2011517015A JP2011517015A JP2011527458A JP 2011527458 A JP2011527458 A JP 2011527458A JP 2011517015 A JP2011517015 A JP 2011517015A JP 2011517015 A JP2011517015 A JP 2011517015A JP 2011527458 A JP2011527458 A JP 2011527458A
Authority
JP
Japan
Prior art keywords
audio signal
time
signal
time warp
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011517015A
Other languages
English (en)
Other versions
JP5538382B2 (ja
Inventor
バイエル・シュテファン
ディッシュ・ザーシャ
ゲイゲル・ラルフ
フッハス・グイルラウメ
ノイエンドルフ・マックス
シュルレル・ゲラルド
エドレル・ベルンド
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2011527458A publication Critical patent/JP2011527458A/ja
Application granted granted Critical
Publication of JP5538382B2 publication Critical patent/JP5538382B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

オーディオエンコーダは、ウインドウ関数コントローラ(504)、ウインドウ設定部(502)、最終的な品質チェック機能を有するタイムワーパー(506)、時間/周波数コンバータ(508)、TNS段(510)又は量子化部エンコーダ(512)を備えており、ウインドウ関数コントローラ(504)、タイムワーパー(506)、TNS段(510)又は追加のノイズフィリング分析部(524)は、タイムワープ分析部(516)又は信号分類部(520)によって得られる信号分析結果によって制御される。さらに、デコーダは、オーディオ信号のハーモニック又はスピーチ特性に応じて操作されたノイズフィリングの推定を使用してノイズフィリング操作を作動させる。
【選択図】図5A

Description

本発明はオーディオエンコーディング及びデコーディングに関し、具体的には、タイムワープ処理を加えることができるハーモニック成分又はスピーチ成分を有するオーディオ信号のエンコーディング/デコーディングに関する。
以下で、タイムワープ型オーディオエンコーディングの分野への簡単な案内を提示する。タイムワープ型オーディオエンコーディングの考え方は、本発明の実施の形態のいくつかに関連して適用することができる。
近年において、オーディオ信号を周波数ドメイン表現へ変換し、この周波数ドメイン表現を、例えば知覚のマスキングしきい値を考慮して、効率的にエンコードするための技法が開発されてきている。オーディオ信号のエンコーディングのこの考え方は、ブロック長(ブロック長ごとに1組のエンコード後のスペクトル係数が送信される。)が長い場合、及びグローバルなマスキングしきい値を充分に上回るスペクトル係数の数が比較的少数であって、スペクトル係数のうちの多くがグローバルなマスキングしきい値の付近又はそれ以下であり、ゆえに無視することが可能である(あるいは、最小限のコード長でコーディングすればよい)場合に、特に効率的である。
例えば、余弦ベース又は正弦ベースの変調重複変換(modulated lapped transform)が、それらのエネルギー圧縮特性ゆえに、ソースコーディングのための用途において頻繁に使用される。すなわち、一定の基本周波数(ピッチ)を有する倍音については、信号のエネルギーが少数のスペクトル成分(サブ帯域)に集中させられ、効率的な信号の表現がもたらされる。
一般に、信号の(基本)ピッチは、信号のスペクトルから識別することができる最も低い優位周波数(dominant frequency)と理解されるべきである。一般的なスピーチモデルにおいては、ピッチは人間ののどによって変調された励起信号の周波数である。ただ1つの基本周波数だけが存在すると考えられる場合、スペクトルはきわめて単純になり、基本周波数及び倍音だけを含むと考えられる。そのようなスペクトルは、きわめて効率的にエンコードすることが可能である。しかしながら、ピッチが変化する信号においては、各々のハーモニック成分に対応するエネルギーが、いくつかの変換係数にわたって広がり、コーディング効率が低下する結果となる。
このコーディング効率の低下を克服するために、エンコードすべきオーディオ信号が非一様な時間格子上で効率的に再サンプリングされる。続く処理において、非一様な再サンプリングによって得られたサンプル位置があたかも一様な時間格子上の値を表わしているかのように処理される。この操作は、一般に、「タイムワーピング(time warping)」という用語で呼ばれている。サンプル時間は、オーディオ信号のタイムワープ後のバージョンにおけるピッチ変化がオーディオ信号の(タイムワーピング前の)元のバージョンにおけるピッチ変化よりも小さくなるように、ピッチの時間変化に依存して好都合に選択することができる。このピッチ変化は「タイムワープコンター(time warp contour)」という用語で呼ばれることもある。オーディオ信号のタイムワーピングの後で、オーディオ信号のタイムワープ済みのバージョンが周波数ドメインへ変換される。ピッチ依存のタイムワーピングは、タイムワープ後のオーディオ信号の周波数ドメイン表現が、典型的には、元の(タイムワープが加えられていない)オーディオ信号の周波数ドメイン表現と比べて、はるかに少数のスペクトル成分へのエネルギー圧縮を呈するという効果を有する。
デコーダ側において、タイムワープ済みのオーディオ信号の周波数ドメイン表現は、タイムワープ済みのオーディオ信号の時間ドメイン表現をデコーダ側において利用できるように、再び時間ドメインへ変換される。しかしながら、デコーダ側で再現されたタイムワープ済みのオーディオ信号の時間ドメイン表現には、エンコーダ側での入力オーディオ信号の元のピッチ変化が含まれていない。したがって、デコーダ側で再現されたタイムワープ済みのオーディオ信号の時間ドメイン表現について、再サンプリングによるさらに別のタイムワーピングが適用される。デコーダ側においてエンコーダ側での入力オーディオ信号の良好な再現を得るために、デコーダ側でのタイムワーピングが、エンコーダ側でのタイムワーピングに対して少なくともほぼ逆の操作であることが望ましい。適切なタイムワーピングを得るために、デコーダ側でのタイムワーピングの調節を可能にする情報がデコーダにおいて入手可能であることが望ましい。
そのような情報をオーディオ信号のエンコーダからオーディオ信号のデコーダへ伝達することが典型的に必要とされるため、この伝達に必要なビットレートを小さく保ちつつ、デコーダ側における必要なタイムワープ情報の確実な再現を依然として可能にすることが望まれる。
以上の検討に鑑み、オーディオエンコーダにおいて、タイムワープの考え方をビットレートに関して効率的に応用できるようにする考え方を生み出すことが望まれている。
本発明の目的は、タイムワーピング式オーディオ信号エンコーダ又はタイムワープ式オーディオ信号デコーダにおいて入手できる情報に基づいてエンコード済みのオーディオ信号によってもたらされる聴覚的印象を改善するための考え方を生み出すことにある。
この目的は、オーディオ信号の表現に基づいてタイムワープ作動信号を供給するための請求項1に記載のタイムワープ作動信号供給部、入力オーディオ信号をエンコードするための請求項12に記載のオーディオ信号エンコーダ、タイムワープ作動信号を供給するための請求項14に記載の方法、入力オーディオ信号のエンコード済み表現を供給するための請求項15に記載の方法、又は請求項16に記載のコンピュータープログラムによって達成される。
本発明のさらなる目的は、より高い品質又はより低いビットレートを提供する優れたオーディオエンコーディング/デコーディングの仕組みを提供することにある。
この目的は、請求項17、26、32、又は37に記載のオーディオエンコーダ、請求項20に記載のオーディオデコーダ、請求項23、30、35、又は37に記載のオーディオエンコーディングの方法、請求項24に記載のデコーディングの方法、あるいは請求項25、31、36、又は43に記載のコンピュータープログラムによって達成される。
本発明による実施の形態はタイムワープMDCT変換コーダーのための方法に関する。いくつかの実施の形態はエンコーダのみのツールに関する。しかしながら、他の実施の形態はデコーダツールにも関する。
本発明の一実施の形態は、オーディオ信号の表現に基づいてタイムワープ作動信号を供給するためのタイムワープ作動信号供給部を生み出す。タイムワープ作動信号供給部は、オーディオ信号のタイムワープ変換後のスペクトル表現におけるエネルギーの圧縮を描写するエネルギー圧縮情報を供給するように構成されたエネルギー圧縮情報供給部を備えている。さらに、タイムワープ作動信号供給部は、エネルギー圧縮情報を基準値と比較して、比較の結果に応じてタイムワープ作動信号を供給するように構成された比較部を備えている。
この実施の形態は、オーディオ信号のタイムワープ変換後のスペクトル表現が、エネルギーが1つ以上のスペクトル領域(又はスペクトルライン)に集中しているという点で充分にコンパクトなエネルギー分布を含む場合に、オーディオ信号エンコーダにおけるタイムワープ機能の使用が、典型的には、エンコード後のオーディオ信号のビットレートの削減という意味の改善をもたらすという発見に基づいている。これは、成功したタイムワーピングは、例えばオーディオフレームの不鮮明なスペクトルを、1つ以上の識別可能なピークを有し、したがって元の(非タイムワープの)オーディオ信号のスペクトルよりも高いエネルギー圧縮を有しているスペクトルへ変換することによって、ビットレートの減少という効果をもたらすという事実によるものである。
この件に関し、オーディオ信号のフレームで、そのオーディオ信号のピッチが大きく変化するものは不鮮明なスペクトルを含むことを理解すべきである。オーディオ信号の時間変化するピッチは、オーディオ信号のフレームについて実行される時間ドメインから周波数ドメインへの変換が信号エネルギーの不鮮明な分布を周波数に、特に高い方の周波数の領域にもたらすという結果を有している。したがって、そのような元の(非タイムワープの)オーディオ信号のスペクトル表現は低いエネルギー圧縮を含んでおり、典型的にはスペクトルの高い方の周波数の部分にスペクトルのピークを呈していないか、又はスペクトルの高い方の周波数の部分に比較的小さいスペクトルのピークを呈するだけである。それに対し、タイムワーピングが(エンコーディング効率の改善をもたらすことに関して)成功した場合、元のオーディオ信号のタイムワーピングによって、(特にスペクトルの高い方の周波数の部分に)比較的高くかつ明確なピークを持つスペクトルを有するタイムワープ後オーディオ信号がもたらされる。これは、時間変化するピッチを有するオーディオ信号が、ピッチの変化がより小さく又はピッチがほぼ一定でさえあるタイムワープ後オーディオ信号へ変換されるという事実によるものである。結果として、タイムワープ後オーディオ信号のスペクトル表現(オーディオ信号のタイムワープ変換後のスペクトル表現と考えることができる)が、1つ以上の明確なスペクトルピークを含む。換言すると、元のオーディオ信号(時間変化するピッチを有している)のスペクトルの不鮮明さが成功したタイムワープ操作によって軽減され、オーディオ信号のタイムワープ変換後のスペクトル表現が元のオーディオ信号のスペクトルよりも高いエネルギーの圧縮を含む。しかしながら、タイムワーピングは、コーディング効率の改善に常に成功するわけではない。例えば、タイムワーピングは、入力オーディオ信号が大きなノイズ成分を含んでいる場合や、抽出されたタイムワープコンターが不正確である場合にはコーディング効率を改善しない。
この状況に鑑み、エネルギー圧縮情報供給部によってもたらされるエネルギー圧縮情報が、タイムワープがビットレートの削減に関して成功するか否かを判断するための価値ある目安である。
本発明の一実施の形態は、オーディオ信号の表現に基づいてタイムワープ作動信号を供給するためのタイムワープ作動信号供給部を生み出す。タイムワープ作動供給部は、同じオーディオ信号について異なるタイムワープコンター情報を使用して2つのタイムワープ表現を供給するように構成された2つのタイムワープ表現供給部を備えている。したがって、タイムワープ表現供給部は(構造的及び/又は機能的に)同じ方法で構成することができ、同じオーディオ信号を使用するが、異なるタイムワープコンター情報を使用する。さらに、タイムワープ作動信号供給部は、第1のタイムワープ表現に基づいて第1のエネルギー圧縮情報を供給し、第2のタイムワープ表現に基づいて第2のエネルギー圧縮情報を供給するように構成された2つのエネルギー圧縮情報供給部を備えている。エネルギー圧縮情報供給部は、同じ方法で、しかし異なるタイムワープ表現を使用するように構成することができる。さらに、タイムワープ作動信号供給部は、2つの異なるエネルギー圧縮情報を比較して、比較の結果に応じてタイムワープ作動信号を供給するための比較部を備えている。
好ましい実施の形態においては、エネルギー圧縮情報供給部は、エネルギー圧縮情報として、オーディオ信号のタイムワープ変換後のスペクトル表現を描写するスペクトルの平坦さの指標を供給するように構成される。タイムワープは、入力オーディオ信号のスペクトルを入力オーディオ信号のタイムワープ後のバージョンを表わすより平坦でないタイムワープスペクトルへ変換する場合に、ビットレートの削減に関して成功であることが明らかになっている。したがって、スペクトルの平坦さの指標は、スペクトルのエンコーディングプロセスをすべては実行することなく、タイムワープを有効にすべきか又は無効にすべきかを判断するために使用することができる。
好ましい実施の形態においては、エネルギー圧縮情報供給部は、スペクトルの平坦さの指標を得るために、タイムワープ変換後のパワースペクトルの幾何平均とタイムワープ変換後のパワースペクトルの算術平均との商を計算するように構成される。この商は、タイムワーピングによって得ることができる可能なビットレートの節約の描写によく適合したスペクトルの平坦さの指標であることが明らかになっている。
他の好ましい実施の形態においては、エネルギー圧縮情報供給部は、エネルギー圧縮情報を得るために、タイムワープ変換後のスペクトル表現の高い方の周波数部分を、タイムワープ変換後のスペクトル表現の低い方の周波数部分に比べて強調するように構成される。この考え方は、タイムワープが、典型的には、低い方の周波数範囲よりも高い方の周波数範囲に対してはるかに大きな影響を有しているという発見に基づいている。したがって、高い方の周波数範囲を優先的に評価することが、タイムワープの効果をスペクトルの平坦さの指標を使用して判断するために適切である。加えて、典型的なオーディオ信号は、周波数が高くなるにつれて強度が減少するハーモニック成分(基本周波数の高調波を含んでいる)を呈している。タイムワープ変換後のスペクトル表現の高い方の周波数部分をタイムワープ変換後のスペクトル表現の低い方の周波数部分に比べて強調することは、この典型的な周波数の増加につれてのスペクトルラインの減衰を補償するうえでも役にたつ。要約すると、スペクトルの高い方の周波数部分を強調して考慮することで、エネルギー圧縮情報の信頼性の向上がもたらされ、したがってタイムワープ作動信号のより確実な供給が可能になる。
他の好ましい実施の形態においては、エネルギー圧縮情報供給部は、エネルギー圧縮情報を得るために、スペクトルの平坦さについて複数の帯域ごとの指標を得、この複数の帯域ごとのスペクトルの平坦さの指標の平均を計算するように構成される。帯域ごとのスペクトルの平坦さの指標を考慮することで、タイムワープがエンコード後のオーディオ信号のビットレートの削減に有効であるか否かについて、きわめて信頼できる情報がもたらされることが明らかになっている。第1に、タイムワープ変換後のスペクトル表現のエンコーディングが典型的には帯域ごとの方法で実行され、したがって帯域ごとのスペクトルの平坦さの指標の組み合わせがエンコーディングによく適合し、したがって得ることができるビットレートの改善を良好な精度で表わす。さらに、スペクトルの平坦さの指標を帯域ごとに計算することで、高調波の分布からのエネルギー圧縮情報の依存性が実質的に除かれる。例えば、たとえ高い方の周波数帯が比較的小さなエネルギー(低い方の周波数帯のエネルギーよりも小さい)を含む場合でも、高い方の周波数帯が、依然として知覚的に重要である可能性がある。しかしながら、スペクトルの平坦さの指標を帯域ごとの方法で計算しない場合には、単純に高い方の周波数帯のエネルギーが小さいという理由で、この高い方の周波数帯に対するタイムワープの肯定的影響(スペクトルラインの不鮮明さの軽減という意味で)が小さいと判断されてしまうであろう。それに対し、帯域ごとのスペクトルの平坦さの指標はそれぞれの周波数帯の絶対的なエネルギーから独立しているため、帯域ごとの計算を適用することによってタイムワープの肯定的影響を適切な重みで考慮することができる。
他の好ましい実施の形態においては、タイムワープ作動信号供給部は、前記基準値を得るために、オーディオ信号のタイムワーピングされていないスペクトル表現を描写するスペクトルの平坦さの指標を計算するように構成された基準値計算部を備えている。したがって、入力オーディオ信号のタイムワーピングされていない(すなわち、「非ワープ」の)バージョンのスペクトルの平坦さと、入力オーディオ信号のタイムワーピングされたバージョンのスペクトルの平坦さとの比較に基づいて、タイムワープ作動信号を供給することができる。
他の好ましい実施の形態においては、エネルギー圧縮情報供給部は、エネルギー圧縮情報として、オーディオ信号のタイムワープ変換後のスペクトル表現を描写する知覚エントロピーの指標を供給するように構成される。この考え方は、タイムワープ変換後のスペクトル表現の知覚エントロピーが、タイムワープ変換後のスペクトルをエンコードするために必要なビット数(又はビットレート)の良好な推定であるという発見に基づいている。したがって、タイムワープが使用される場合に追加のタイムワープ情報をエンコードしなければならないという事実に鑑みても、タイムワープ変換後のスペクトル表現の知覚エントロピーの指標はタイムワーピングによるビットレートの削減が期待できるか否かについての良好な指標である。
他の好ましい実施の形態においては、エネルギー圧縮情報供給部は、エネルギー圧縮情報として、オーディオ信号のタイムワープ後の表現の自己相関を描写する自己相関の指標を供給するように構成される。この考え方は、タイムワープの(ビットレートの削減に関する)効率をタイムワーピングされた(又は、非一様に再サンプリングされた)時間ドメイン信号に基づいて測定(又は、少なくとも推定)できるという発見に基づいている。タイムワープ後の時間ドメイン信号が比較的高度な周期性を含み、これが自己相関の指標に反映される場合にタイムワーピングが効率的であることが発見されている。それに対し、タイムワープ後の時間ドメイン信号が有意な周期性を含んでいない場合には、タイムワーピングが効率的でないと結論付けることができる。
この発見は、効率的なタイムワーピングが、(周期性を含んでいない)変化する周波数の正弦波信号の一部分を(高度の周期性を含んでいる)ほぼ一定の周波数の正弦波信号の一部分へ変換するという事実に基づいている。それに対し、タイムワーピングが高度な周期性を有する時間ドメイン信号を供給することができない場合、タイムワーピングが、タイムワーピングの適用を正当化すると考えられる大きなビットレートの節約ももたらさないと予想することができる。
好ましい実施の形態においては、エネルギー圧縮情報供給部は、エネルギー圧縮情報を得るために、オーディオ信号のタイムワープ後の表現の(複数のラグ(lag)値にわたる)正規化された自己相関関数の絶対値の合計を割り出すように構成される。演算に関して複雑な自己相関ピークの割り出しは、タイムワーピングの効率の推定のためには不要であることが明らかになっている。むしろ、或る(広い)範囲の自己相関ラグ値にわたって自己相関の評価を合計することも、きわめて信頼できる結果をもたらすことが明らかになっている。これは、タイムワープが、変化する周波数の複数の信号成分(例えば、基本周波数及びその高調波)を周期的な信号成分へ実際に変換するという事実に起因する。したがって、そのようなタイムワープ後信号の自己相関は複数の自己相関ラグ値にピークを呈する。したがって、和の形成は自己相関からエネルギー圧縮情報を抽出する演算に関して効率的な方法である。
別の好ましい実施の形態においては、タイムワープ作動信号供給部は、オーディオ信号のタイムワーピングされていないスペクトル表現に基づき、又はオーディオ信号のタイムワーピングされていない時間ドメイン表現に基づいて、前記基準値を計算するように構成された基準値計算部を備える。この場合、前記比較部は、典型的には、オーディオ信号のタイムワープ変換後のスペクトルにおけるエネルギーの圧縮を描写するエネルギー圧縮情報と前記基準値を使用して比の値を形成するように構成される。さらに比較部は、前記比の値を1つ以上のしきい値と比較してタイムワープ作動信号を得るように構成される。非タイムワープの場合のエネルギー圧縮情報とタイムワープされた場合のエネルギー圧縮情報との間の比は、演算に関して効率的であり、さらに充分に信頼することができるタイムワープ作動信号の生成を可能にすることが明らかになっている。
本発明の別の好ましい実施の形態は、入力オーディオ信号をエンコードして、この入力オーディオ信号のエンコード済み表現を得るためのオーディオ信号エンコーダを生み出す。このオーディオ信号エンコーダは入力オーディオ信号に基づいてタイムワープ変換済みのスペクトル表現を供給するように構成されたタイムワープ変換部を備えている。さらに、このオーディオ信号エンコーダは上述のようなタイムワープ作動信号供給部を備えている。タイムワープ作動信号供給部は、入力オーディオ信号を受信し、入力オーディオ信号のタイムワープ変換後のスペクトル表現におけるエネルギーの圧縮を描写するようなエネルギー圧縮情報を供給するように構成されている。さらにオーディオ信号エンコーダは、発見された非一定の(変化する)タイムワープコンター部分もしくはタイムワーピング情報、又は標準の一定な(変化しない)タイムワープコンター部分もしくはタイムワーピング情報を、タイムワープ作動信号に応じて選択的にタイムワープ変換部へ供給するように構成されたコントローラを備えている。このように、入力オーディオ信号からのエンコード済みのオーディオ信号表現の導出において、発見された非一定のタイムワープコンター部分を選択的に受理又は拒絶することができる。
この考え方は、タイムワープ情報をエンコードするためにかなりのビット数が必要になるため、タイムワープ情報を入力オーディオ信号のエンコード済みの表現へ導入することは常に効率的であるとは限らないという発見に基づいている。さらに、タイムワープ作動信号供給部によって計算されるエネルギー圧縮情報は、タイムワープ変換部に発見された変化する(非一定の)タイムワープコンター部分又は標準の(変化しない一定の)タイムワープコンターを供給することが有利であるかを判断するための演算に関して効率的な指標であることが明らかになっている。タイムワープ変換部がオーバーラッピング変換を含む場合に、発見されたタイムワープコンター部分を2つ以上の次の変換ブロックの計算に使用できることに注意すべきである。特に、タイムワーピングがビットレートの節約を可能にするか否かを判断できるようにするために、新たに発見された変化するタイムワープコンター部分を使用した入力オーディオ信号のタイムワープ変換後のスペクトル表現のバージョン、及び標準の(非変化の)タイムワープコンター部分を使用した入力オーディオ信号のタイムワープ変換後のスペクトル表現のバージョンの両方を、完全にエンコードする必要のないことが明らかになっている。むしろ、入力オーディオ信号のタイムワープ変換後のスペクトル表現のエネルギー圧縮の評価が、決定の信頼できる根拠を形成することが明らかになっている。したがって、必要とされるビットレートを小さく保つことができる。
さらなる好ましい実施の形態においては、オーディオ信号エンコーダは、発見された変化するタイムワープコンターを表わすタイムワープコンター情報をオーディオ信号のエンコード済み表現へとタイムワープ作動信号に応じて選択的に含ませるように構成された出力インターフェイスを備える。その結果、入力信号がタイムワーピングによく適しているか否かにかかわらず、高効率のオーディオ信号エンコーディングを得ることができる。
本発明によるさらなる実施の形態は、オーディオ信号に基づいてタイムワープ作動信号を供給するための方法を生み出す。この方法は、タイムワープ作動信号供給部の機能を実現し、タイムワープ作動信号供給部に関して本明細書において説明される特徴及び機能の任意のいずれかによって補うことができる。
本発明による別の実施の形態は、入力オーディオ信号をエンコードして、この入力オーディオ信号のエンコード済み表現を得るための方法を生み出す。この方法は、オーディオ信号エンコーダに関して本明細書において説明される特徴及び機能の任意のいずれかによって補うことができる。
本発明による別の実施の形態は、本明細書に記載の方法を実行するためのコンピュータープログラムを生み出す。
本発明の第1の態様によれば、オーディオ信号がハーモニック特性又はスピーチ特性を有するか否かについてのオーディオ信号の分析が、エンコーダ側及び/又はデコーダ側でのノイズフィリング処理を制御するために好都合に使用される。タイムワープ機能は、一方ではスピーチと他方ではミュージックとの間の区別及び/又は有声のスピーチと無声のスピーチとの間の区別のための、ピッチ追跡部及び/又は信号分類部を一般的に含んでいるため、タイムワープ機能が使用されるシステムにおいてはオーディオ信号の分析は容易に得ることができる。この情報は、そのような背景においてはさらなるコストを必要とせずに利用可能であるため、この利用可能な情報は、特にスピーチ信号についてハーモニックラインの間のノイズフィリングを少なくし又はなくすように、ノイズフィリングの特徴を制御するために好都合に使用することができる。強いハーモニック成分が得られるが、スピーチがスピーチ検出部によって直接には検出されない状況においても、ノイズフィリングを減らすことでより高い知覚品質がもたらされる。この特徴は、ハーモニック/スピーチの分析がいずれにせよ実行され、したがってこの情報が追加のコストを必要とせずに利用可能であるシステムにおいて特に有用であるが、信号がハーモニック又はスピーチ特性を有するか否かについての信号分析に基づくノイズフィリングの仕組みの制御は、特定の信号分析部をシステムへ挿入しなければならない場合であってもさらに有用である。というのは、エンコーダからデコーダへと送信することができるノイズフィリングレベルそのものが下げられる場合にノイズフィリングレベルをエンコードするために必要なビットが少なくなるため、ビットレートを増加させることなく品質が高められ、逆に言えば、品質を損なうことなくビットレートが下げられるからである。
本発明のさらなる態様においては、信号分析結果、すなわち信号がハーモニック信号又はスピーチ信号であるか否かが、オーディオエンコーダのウインドウ関数の処理を制御するために使用される。スピーチ信号又はハーモニック信号が始まる状況において、簡単なエンコーダは、長いウインドウから短いウインドウへ切り換わる可能性が高いことが明らかになっている。しかしながら、これらの短いウインドウは、結果的に低い周波数分解能を有し、このことが、他方において、強いハーモニック信号におけるコーディングゲインを低下させ、したがってそのような信号部分のコーディングに必要なビット数が増えると考えられる。これに照らし、この態様において定められる本発明は、スピーチ又はハーモニック信号の開始が検出されるときに短いウインドウよりも長いウインドウを使用する。あるいは、長いウインドウとおおむね同様の長さを有するが、前エコーを効果的に減らすためにより短い重なり合いのウインドウが選択される。一般に、信号特性、すなわちオーディオ信号の時間フレームがハーモニック又はスピーチ特性を有しているか否かが、この時間フレームのためのウインドウ関数を選択するために使用される。
本発明のさらなる態様によれば、TNS(時間ノイズ整形)ツールが、基礎となる信号がタイムワーピング操作に基づいているか又は線形ドメインにあるかに基づいて制御される。典型的には、タイムワーピング操作によって処理された信号は強いハーモニック成分を有する。そうでない場合、タイムワーピング段に組み合わせられたピッチ追跡部が有効なピッチコンターを出力しないと考えられ、そのような有効なピッチコンターが存在しない場合、オーディオ信号のこの時間フレームについて、タイムワーピングの機能が無効にされていると考えられる。しかしながら、ハーモニック信号は、通常はTNS処理に適していない。TNS処理は、TNS段によって処理される信号がきわめて平坦なスペクトルを有する場合に特に有用であり、ビットレート/品質の大きなゲインを含む。しかしながら、信号の外観が調性を有する(tonal)場合、すなわちハーモニック成分又は有声成分を有するスペクトルの場合のように非平坦である場合、TNSツールによってもたらされる品質/ビットレートのゲインは少なくなるであろう。したがって、TNSツールの本発明による改良がない場合、タイムワープされた部分は典型的にはTNS処理を受けず、TNSフィルタ処理なしで処理される。それでもなお、他方では、TNSのノイズ整形の特徴は、特に信号の振幅/パワーが変化している状況において品質の改善をもたらす。ハーモニック信号又はスピーチ信号の開始が存在し、かつブロック切り替えの特徴が、この開始にもかかわらず長いウインドウ又は少なくとも短いウインドウよりも長いウインドウが維持されるように実現される場合において、このフレームについて時間ノイズ整形の特徴を有効にすることで、スピーチの開始の周辺へのノイズの集中がもたらされ、これが、後のエンコーダ処理において生じるフレームの量子化に起因してスピーチの開始の前に生じうる前エコーを効果的に軽減する。
本発明のさらなる態様によれば、可変のタイムワーピング特性/ワーピングコンターによるタイムワーピング操作の実行に起因して持ち込まれるフレームごとに変化する帯域幅を補償するために、可変の数のラインがオーディオエンコーディング装置内の量子化部/エントロピーエンコーダによって処理される。タイムワーピング操作がタイムワープ後のフレームに含まれるフレームの時間(線形項での)が増加する状況をもたらす場合、単一の周波数ラインの帯域幅が減少し、一定の全体としての帯域幅のために、処理される周波数ラインの数を非タイムワープの状況に関して増やさなければならない。他方で、タイムワーピング操作が、タイムワープ後のドメインにおけるオーディオ信号の実際の時間が線形ドメインでのオーディオ信号のブロック長に対して減少する状況をもたらす場合、単一の周波数ラインの周波数帯域幅が増加し、したがって帯域幅の変動を減らし、最適には帯域幅の変動をなくすために、ソースエンコーダによって処理されるラインの数を非タイムワーピングの状況に対して減らさなければならない。
次に、いくつかの好ましい実施の形態を、添付の図面に関して説明する。
本発明の一実施の形態によるタイムワープ作動信号供給部の概略のブロック図を示している。 本発明の一実施の形態によるオーディオ信号エンコーダの概略のブロック図を示している。 本発明の一実施の形態によるタイムワープ作動信号供給部の別の概略のブロック図を示している。 オーディオ信号のタイムワーピングされていないバージョンのスペクトルのグラフ表示を示している。 オーディオ信号のタイムワープ後のバージョンのスペクトルのグラフ表示を示している。 個々の周波数帯のスペクトルの平坦さの指標の個別の計算のグラフ表示を示している。 スペクトルの高い方の周波数部分だけを考慮するスペクトルの平坦さの指標の計算のグラフ表示を示している。 高い方の周波数部分が低い方の周波数部分に対して強調されているスペクトル表現を用いてのスペクトルの平坦さの指標の計算のグラフ表示を示している。 本発明の別の実施の形態によるエネルギー圧縮情報供給部の概略のブロック図を示している。 時間ドメインにおける時間変化するピッチを有するオーディオ信号のグラフ表示を示している。 図3Gのオーディオ信号の時間信号のタイムワープ後の(非一様に再サンプリングされた)バージョンのグラフ表示を示している。 図3Gによるオーディオ信号の自己相関関数のグラフ表示を示している。 図3Hによるオーディオ信号の自己相関関数のグラフ表示を示している。 本発明の別の実施の形態によるエネルギー圧縮情報供給部の概略のブロック図を示している。 オーディオ信号に基づいてタイムワープ作動信号を供給するための方法のフロー図を示している。 入力オーディオ信号をエンコードして入力オーディオ信号のエンコード済み表現を得るための本発明の実施の形態による方法のフロー図を示している。 本発明の態様を有するオーディオエンコーダの好ましい実施の形態を示している。 本発明の態様を有するオーディオデコーダの好ましい実施の形態を示している。 本発明のノイズフィリングの態様の好ましい実施の形態を示している。 ノイズフィリングレベル操作部によって実行される制御動作を規定する表を示している。 本発明に従ってタイムワープベースのブロック切り替えを実行するための好ましい実施の形態を示している。 ウインドウ関数を操るための別の実施の形態を示している。 タイムワープ情報に基づくウインドウ関数を示すためのさらに別の実施の形態を示している。 有声の開始における通常のAACの挙動のウインドウの並びを示している。 本発明の好ましい実施の形態に従って得られる代案のウインドウの並びを示している。 TNS(時間ノイズ整形)ツールのタイムワープベースの制御の好ましい実施の形態を示している。 図8Aのしきい値制御信号生成部において実行される制御手順を規定する表を示している。 種々のタイムワーピング特性ならびにそれらに対応する、デコーダ側でのタイムデワーピング操作の後に生じるオーディオ信号の帯域幅への影響を示している。 種々のタイムワーピング特性ならびにそれらに対応する、デコーダ側でのタイムデワーピング操作の後に生じるオーディオ信号の帯域幅への影響を示している。 種々のタイムワーピング特性ならびにそれらに対応する、デコーダ側でのタイムデワーピング操作の後に生じるオーディオ信号の帯域幅への影響を示している。 種々のタイムワーピング特性ならびにそれらに対応する、デコーダ側でのタイムデワーピング操作の後に生じるオーディオ信号の帯域幅への影響を示している。 種々のタイムワーピング特性ならびにそれらに対応する、デコーダ側でのタイムデワーピング操作の後に生じるオーディオ信号の帯域幅への影響を示している。 エンコーディングプロセッサ内のライン数を制御するコントローラの好ましい実施の形態を示している。 破棄/追加すべきラインの数とサンプリングレートとの間の依存関係を示している。 線形な時間尺とワープ後の時間尺との間の比較を示している。 帯域幅の拡張における実施例を示している。 タイムワープ後のドメインにおける局部サンプリングレートとスペクトル係数の制御との間の依存関係を示す表を示している。
図1は本発明の実施の形態によるタイムワープ作動信号供給部の概略のブロック図を示している。タイムワープ作動信号供給部100は、オーディオ信号の表現110を受信し、これに基づいてタイムワープ作動信号112を供給するように構成されている。タイムワープ作動信号供給部100は、オーディオ信号のタイムワープ変換後のスペクトル表現におけるエネルギーの圧縮を表わすエネルギー圧縮情報122を供給するように構成されたエネルギー圧縮情報供給部120を備えている。タイムワープ作動信号供給部100は、エネルギー圧縮情報122を基準値132と比較して、比較の結果に応じてタイムワープ作動信号112を供給するように構成された比較部130をさらに備えている。
上述のように、エネルギー圧縮情報は、時間ワープがビットの節約をもたらすか否かを計算により効率的に推定できるようにする貴重な情報であることが明らかになっている。ビットの節約の存在が、タイムワープがエネルギーの圧縮をもたらすか否かという問いに密接に相関していることが明らかになっている。
図2Aは本発明の一実施の形態によるオーディオ信号エンコーダ200の概略のブロック図を示している。オーディオ信号エンコーダ200は入力オーディオ信号210(a(t)とも称される)を受信し、これに基づいて入力オーディオ信号210のエンコード済み表現212を供給するように構成されている。オーディオ信号エンコーダ200はタイムワープ変換部220を備えており、タイムワープ変換部220は入力オーディオ信号210(時間ドメインで表現されていてよい)を受信し、これに基づいて入力オーディオ信号210のタイムワープ変換済みのスペクトル表現222を供給するように構成されている。オーディオ信号エンコーダ200はさらにタイムワープ分析部284を備えており、タイムワープ分析部284は入力オーディオ信号210を分析し、これに基づいてタイムワープコンター情報(例えば、絶対的又は相対的なタイムワープコンター情報)286を供給するように構成されている。
オーディオ信号エンコーダ200は、さらに、発見されたタイムワープコンター情報286又は標準のタイムワープコンター情報288のどちらがさらなる処理に使用されるのかを決定するための、例えば被制御スイッチ240の形態のスイッチング機構を備えている。すなわち、スイッチング機構240は、タイムワープ作動情報に応じて選択的に、発見されたタイムワープコンター情報286又は標準のタイムワープコンター情報288のいずれかを、新たなタイムワープコンター情報242として、さらなる処理のために、例えばタイムワープ変換部220へ供給するように構成されている。タイムワープ変換部220は、例えば、オーディオフレームのタイムワーピングのために、新たなタイムワープコンター情報242(例えば、新たなタイムワープコンター部分)を使用でき、さらには以前に得られたタイムワープ情報(例えば、1つ以上の以前に得られたタイムワープコンター部分)を使用できることに注意すべきである。随意によるスペクトル事後処理が、例えば、時間ノイズ整形(temporal noise shaping)及び/又はノイズフィリング(noise filling)分析を含むことができる。オーディオ信号エンコーダ200は量子化部/エンコーダ260も備えており、量子化部/エンコーダ260はスペクトル表現222(随意によりスペクトル事後処理250によって処理されている)を受信し、変換済みのスペクトル表現222を量子化及びエンコードするように構成されている。この目的のために、量子化部/エンコーダ260は、知覚マスキングを考慮し、人間の知覚に応じて種々の周波数ビンの量子化精度を調節するために、知覚モデル270に接続することができ、知覚モデル270から知覚関連情報272を受信することができる。オーディオ信号エンコーダ200はさらに出力インターフェイス280を備えており、出力インターフェイス280は、量子化部/エンコーダ260によって供給される量子化及びエンコード済みのスペクトル表現262に基づいて、オーディオ信号のエンコード済み表現212を供給するように構成されている。
オーディオ信号エンコーダ200はさらにタイムワープ作動信号供給部230を備えており、タイムワープ作動信号供給部230はタイムワープ作動信号232を供給するように構成されている。タイムワープ作動信号232は、例えば、新たに発見されたタイムワープコンター情報286又は標準のタイムワープコンター情報288のどちらが(例えば、タイムワープ変換部220によって)さらなる処理工程において使用されるのかを決定するために、スイッチング機構240を制御するために使用することができる。さらには、タイムワープ作動情報232は、選択された新たなタイムワープコンター情報242(新たに発見されたタイムワープコンター情報286及び標準のタイムワープコンター情報から選択される)を入力オーディオ信号210のエンコード済み表現212に含ませるか否かを決定するために、スイッチ280において使用することができる。典型的には、タイムワープコンター情報は、選択されたタイムワープコンター情報が非一定(変化する)タイムワープコンターを表わしている場合に限り、オーディオ信号のエンコード済み表現212へ含められる。また、タイムワープ作動情報232そのものは、例えばタイムワープの作動又は非作動を示す1ビットのフラグの形態でエンコード済み表現212に含まれることができる。
理解を容易にするために、タイムワープ変換部220は、典型的には、分析ウインドウ設定部220a、リサンプラー又は「タイムワーパー」220b、及びスペクトルドメイン変換部(又は、時間/周波数コンバータ)220cを備えることに注意すべきである。しかしながら、実施例によっては、タイムワーパー220bは、信号処理の方向において分析ウインドウ設定部220aの前に配置することができる。しかしながら、タイムワーピング及び時間ドメイン−スペクトルドメイン変換は、いくつかの実施の形態においては、単一のユニットに組み合わせてもよい。
以下で、タイムワープ作動信号供給部230の動作に関する詳細を説明する。タイムワープ作動信号供給部230は、タイムワープ作動信号供給部100と同等であってよいことに注意すべきである。
タイムワープ作動信号供給部230は、好ましくは、時間ドメインのオーディオ信号表現210(a(t)とも示されている)、新たに発見されたタイムワープコンター情報286、及び標準のタイムワープコンター情報288を受け取るように構成されている。また、タイムワープ作動信号供給部230は、時間ドメインのオーディオ信号210、新たに発見されたタイムワープコンター情報286及び標準のタイムワープコンター情報288を使用して、新たに発見されたタイムワープコンター情報286に起因するエネルギーの圧縮を表わすエネルギー圧縮情報を得、このエネルギー圧縮情報に基づいてタイムワープ作動信号232を供給するように構成されている。
図2Bは本発明の一実施の形態によるタイムワープ作動信号供給部234の概略のブロック図を示している。タイムワープ作動信号供給部234は、いくつかの実施の形態においてタイムワープ作動信号供給部230の役目を果たすことができる。タイムワープ作動信号供給部234は、入力オーディオ信号210並びに2つのタイムワープコンター情報286及び288を受け取り、これらに基づいてタイムワープ作動信号234pを供給するように構成されている。タイムワープ作動信号234pはタイムワープ作動信号232の役目を果たすことができる。タイムワープ作動信号供給部は2つの同一なタイムワープ表現供給部234a、234gを備えている。タイムワープ表現供給部234a及び234gは、入力オーディオ信号210とそれぞれのタイムワープコンター情報286及び288を受け取り、これらに基づいて2つのタイムワープ後の表現234e及び234kをそれぞれ供給するように構成されている。タイムワープ作動信号供給部234は、さらに2つの同一なエネルギー圧縮情報供給部234f及び234lを備えており、エネルギー圧縮情報供給部234f及び234lは、タイムワープ後の表現234e及び234kをそれぞれ受け取り、これに基づいてエネルギー圧縮情報234m及び234nをそれぞれ供給するように構成されている。タイムワープ作動信号供給部は、さらに比較部234oを備えており、比較部234oはエネルギー圧縮情報234m及び234nを受け取り、これらに基づいてタイムワープ作動信号234pを供給するように構成されている。
理解を容易にするために、タイムワープ表現供給部234a及び234gは、典型的には、(随意による)同一の分析ウインドウ設定部234b及び234h、同一のリサンプラー又はタイムワーパー234c及び234i、ならびに(随意による)同一のスペクトルドメイン変換部234d及び234jを備えていることに注意すべきである。
以下で、エネルギー圧縮情報を得るための種々の考え方を説明する。あらかじめ、典型的なオーディオ信号におけるタイムワーピングの効果を説明する序論を提示する。
以下で、オーディオ信号におけるタイムワーピングの効果を、図3A及び3Bを参照して説明する。図3Aはオーディオ信号のスペクトルのグラフ表示を示している。横座標301は周波数を表わしており、縦座標30はオーディオ信号の強度を表わしている。曲線303はタイムワープされていないオーディオ信号の強度を周波数fの関数として示している。
図3Bは図3Aに示したオーディオ信号のタイムワープ後のバージョンのスペクトルのグラフ表示を示している。やはり、横座標306は周波数を表わしており、縦座標307はオーディオ信号のワープ後のバージョンの強度を表わしている。曲線308はオーディオ信号のタイムワープ後のバージョンの強度を周波数に対して示している。図3A及び3Bのグラフ表現の比較の結果から見て取ることができるように、オーディオ信号の非タイムワープの(「ワープ前の」)バージョンは、特に高い周波数の領域に、不鮮明なスペクトルを含んでいる。それに対し、入力オーディオ信号のタイムワープ後のバージョンは、高い周波数領域においても、明確に区別することができるスペクトルピークを有するスペクトルを含んでいる。さらに、入力オーディオ信号のタイムワープ後のバージョンの低い方のスペクトル領域においても、スペクトルピークの或る程度の尖鋭化を観察することができる。
図3Bに示されている入力オーディオ信号のタイムワープ後のバージョンのスペクトルは、例えば量子化部/エンコーダ260によって、図3Aに示されているワーピングされていない入力オーディオ信号のスペクトルよりも低いビットレートで量子化及びエンコードできることに注意すべきである。これは、不鮮明なスペクトルは一般的に多数の知覚的に無視することができないスペクトル係数を含む(すなわち、ゼロ又は小さな値へ量子化されるスペクトル係数の数が比較的少ない)のに対し、図3に示されているような「非平坦」なスペクトルは一般的にゼロ又は小さな値へ量子化されるスペクトル係数をより多く含むことに起因する。ゼロ又は小さな値へ量子化されるスペクトル係数は、より大きな値へ量子化されるスペクトル係数に比べて、より少ないビットでエンコードすることが可能であり、したがって図3Bのスペクトルは、図3Aのスペクトルと比べ、より少数のビットを使用してエンコードすることが可能である。
しかしながら、タイムワープの使用が、必ずしも常にタイムワープ後の信号についてコーディング効率の大きな改善をもたらすわけではないことにも注意すべきである。すなわち、場合によっては、タイムワープ情報(例えば、タイムワープコンター)のエンコーディングに必要なビットレートに関する代価が、タイムワープ変換後のスペクトルをエンコードすることによるビットレートに関する節約(タイムワープ変換を行わずにスペクトルをエンコードする場合と比べて)を超えてしまう可能性がある。この場合、タイムワープ変換を制御するために標準的な(変化しない)タイムワープコンターを使用してオーディオ信号のエンコード済み表現を供給することが好ましい。結果として、タイムワープ情報(すなわち、タイムワープコンター情報)の送信を、(タイムワーピングの非作動を知らせるフラグを除き)省略することができ、ビットレートを低く保つことができる。
以下では、タイムワープ作動信号112、232、234pの確実かつ演算に関して効率的な計算のための種々の考え方を、図3C〜3Kを参照して説明する。しかしながら、その前に、本発明の考え方の背景を簡単に要約する。
基本的な仮定は、変化するピッチを有するハーモニック信号にタイムワーピングを加えることでピッチが一定にされ、ピッチを一定にすることで、異なる倍音がいくつかの周波数ビンに不鮮明にまたがる(図3Aを参照)のではなく、限られた数の大きなラインだけが残る(図3Bを参照)ため、以後の時間−周波数変換によって得られるスペクトルのコーディングが改善されるということである。しかしながら、ピッチの変化が検出されたときでも、コーディングゲイン(すなわち、節約されるビットの量)の改善が無視できる程度でしかない(例えば、ハーモニック信号に内在する強いノイズを有している場合や、変化が小さく、高い方の高調波の不鮮明さが問題にならない場合など)かもしれず、タイムワープコンターをデコーダへ伝達するために必要なビットの量よりも少ないかもしれず、又は単純に不適切かもしれない。これらの場合、タイムワープコンターエンコーダによって生成された変化するタイムワープコンター(例えば、286)を拒絶し、標準の(変化しない)タイムワープコンターを知らせる効率的な1ビットの信号を代わりに使用することが好ましい。
本発明の技術的範囲は、得られたタイムワープコンター部分が充分なコーディングゲイン(例えば、タイムワープコンターへのエンコーディングに必要な諸経費を補うために充分なコーディングゲイン)をもたらすか否かを判断するための方法を生み出すことを含む。
上述のように、タイムワーピングの最も重要な態様は、スペクトルのエネルギーをより少数のラインへと圧縮することである(図3A及び3Bを参照)。これを一見すると、エネルギーの圧縮は、スペクトルのピークと谷との間の差が増やされるため、より「非平坦」なスペクトル(図3A及び3Bを参照)にも相当する。エネルギーがより少数のラインに集中され、それらのラインの間のラインは前よりも少ないエネルギーを有することになる。
図3A及び3Bは、強力な高調波及びピッチ変化を有しているフレームのワーピング前のスペクトル(図3A)及び同じフレームのタイムワープ後のバージョンのスペクトル(図3B)による概要の例を示している。
この状況に照らし、スペクトルの平坦さの指標をタイムワーピングの効率に関する指標の候補として使用することが好都合であることが明らかになっている。
スペクトルの平坦さは、例えば、パワースペクトルの幾何平均をパワースペクトルの算術平均で除算することによって計算することができる。例えば、スペクトルの平坦さ(短く、「平坦さ」とも称する)は、以下の式に従って計算することができる。
Figure 2011527458
上記において、x(n)は、番号nのビンの大きさを表わしている。さらに、上記において、Nは、スペクトルの平坦さの指標の計算において考慮されるスペクトルビンの総数を表わしている。
本発明の一実施の形態においては、エネルギー圧縮情報として機能することができる「平坦さ」の上述の計算は、以下の関係を保持できるようにタイムワープ変換後のスペクトル表現234e、234kを使用して実行することができる。
x(n)=│X│tw(n)
この場合、Nはスペクトルドメイン変換部234d、234jによってもたらされるスペクトルラインの数に等しくすることができ、│X│tw(n)は、タイムワープ変換後のスペクトル表現234e、234kである。
たとえスペクトル的な指標がタイムワープ作動信号の供給にとって有用な量であるとしても、スペクトルの平坦さという指標の1つの欠点は、信号対雑音比(SNR)の指標と同様、スペクトル全体に適用された場合に、高い方のエネルギーを有する部分が強調される点にある。通常は、高調波のスペクトルは特定のスペクトルの傾斜を有しており、すなわちエネルギーの多くが最初のいくつかの部分音に集中し、周波数が高くなるにつれて減少しており、結果として、指標において高い部分が過小に表現されることになる。これは、いくつかの実施の形態において望ましくない。なぜならば、これらの高い部分が最も不鮮明になっているため(図3Aを参照)、これらの高い部分の品質の改善が望まれるからである。以下では、スペクトルの平坦さの指標の妥当性を改善するためのいくつかの選択肢としての考え方を説明する。
本発明による一実施の形態においては、いわゆる「部分的SNR(segmental SNR)」指標に類似する手法が選択され、帯域ごとの周波数の平坦さの指標がもたらされる。スペクトルの平坦さの指標の計算がいくつかの帯域において(例えば、別々に)行われ、主な値(main)(又は平均値)が採用される。別々の帯域が同じ帯域幅を有してもよい。しかしながら、好ましくは、帯域幅は、臨界帯域(critical band)などの知覚スケールに従うことができ、又は、例えばいわゆる「アドバンスト・オーディオ・コーディング(advanced audio coding)」(AACとしても知られる)の換算係数帯域に対応することができる。
上述の考え方を、種々の周波数帯についてスペクトルの平坦さの指標の個々の計算のグラフ表示を示している図3Cを参照して、以下で簡単に説明する。見て取ることができるとおり、スペクトルは種々の周波数帯311、312、313に分割することができ、それらの周波数帯は同じ帯域幅をもつことも又は異なる帯域幅をもつこともできる。例えば、第1のスペクトルの平坦さの指標は、例えば上述の「平坦さ」のための式を使用して第1の周波数帯311について計算することができる。この計算において、第1の周波数帯の周波数ビンを考慮することができ(変化する変数nとして第1の周波数帯の周波数ビンの周波数ビンインデックスをとることができる)、第1の周波数帯311の幅を考慮することができる(変数Nとして第1の周波数帯の周波数ビンに関する幅をとることができる)。このようにして、第1の周波数帯311について平坦さの指標が得られる。同様に、第2の周波数帯312の平坦さの指標は、第2の周波数帯312の周波数ビン及び第2の周波数帯の幅を考慮して計算することができる。さらには、第3の周波数帯313など、さらなる周波数帯の平坦さの指標を同じ方法で計算することができる。
次いで、種々の周波数帯311、312、313の平坦さの指標の平均を計算し、平均をエネルギー圧縮情報として使用することができる。
(タイムワープ作動信号の導出を改善するための)別の手法は、スペクトルの平坦さの指標を、特定の周波数を上回る周波数だけに適用することである。そのような手法が図3Bに示されている。見て取ることができるとおり、スペクトルの上方の周波数部分316の周波数ビンだけがスペクトルの平坦さの指標の計算に考慮されている。スペクトルの下方の周波数部分は、スペクトルの平坦さの指標の計算において無視される。高い方の周波数部分316は、スペクトルの平坦さの指標の計算において、周波数帯ごとの方法で考慮することができる。あるいは、高い方の周波数部分316の全体を、スペクトルの平坦さの指標の計算において全体として考慮してもよい。
以上を要約すると、スペクトルの平坦さの減少(タイムワープを適用することによって引き起こされる)をタイムワーピングの効率についての第1の指標として考えることができる、と言うことができる。
例えば、タイムワープ作動信号供給部100、230、234(又は、その比較部130、234o)は、タイムワープ変換後のスペクトル表現234eのスペクトルの平坦さの指標を、標準のタイムワープコンター情報を使用したタイムワープ変換後のスペクトル表現234kのスペクトルの平坦さの指標と比較し、この比較に基づいてタイムワープ作動信号を有効又は無効のいずれにすべきかを決定することができる。例えば、タイムワープは、タイムワーピングがタイムワーピングのない場合に比べてスペクトルの平坦さの指標の充分な減少をもたらす場合に、タイムワープ作動信号の適切な設定によって作動させる。
上述の手法に加えて、スペクトルの平坦さの指標の計算において、スペクトルの上方の周波数部分を低い方の周波数部分に対して(例えば、適切なスケーリングによって)強調することができる。図3Cは、高い方の周波数部分が低い方の周波数部分に対して強調されているタイムワープ変換後のスペクトルのグラフ表示を示している。結果として、スペクトルの高い方の部分の過小表現が補償されている。このようにして、図3Eに示されているように高い方の周波数ビンが低い方の周波数ビンに対して強調された、完全なスケーリングされたスペクトルについて、平坦さの指標を計算することができる。
ビットの節約に関して、コーディング効率の典型的な指標は、3GPP TS 26.403 V7.0.0: 3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; General audio codec audio processing functions; Enhanced aacPlus general audio codec; Encoder specification AAC part: Section 5.6.1.1.3 Relation between bit demand and perceptual entropyに記載のように、特定のスペクトルをエンコードするために必要な実際のビット数にきわめて精密に相関するような方法で規定できる知覚エントロピーであると考えられる。結果として、知覚エントロピーの減少がタイムワーピングの効率のもう1つの指標である。
図3Fはエネルギー圧縮情報供給部325を示しており、エネルギー圧縮情報供給部325はエネルギー圧縮情報供給部120、234f、234lと置き換えることができ、タイムワープ作動信号供給部100、290、234において使用することができる。エネルギー圧縮情報供給部325は、例えば、│X│twとしても示されているタイムワープ変換後のスペクトル表現234e、234kの形態のオーディオ信号の表現を受信するように構成されている。また、エネルギー圧縮情報供給部325は、エネルギー圧縮情報122、234m、234nと置き換えることができる知覚エントロピー情報326を供給するように構成されている。
エネルギー圧縮情報供給部325はフォームファクター計算部327を備えており、フォームファクター計算部327はタイムワープ変換後のスペクトル表現234e、234kを受信し、これに基づいて、周波数帯に関連付けることができるフォームファクター情報328を供給するように構成されている。さらに、エネルギー圧縮情報供給部325は周波数帯エネルギー計算部329を備えており、周波数帯エネルギー計算部329はタイムワープ後のスペクトル表現234e、234kに基づいて周波数帯エネルギー情報en(n)(330)を計算するように構成されている。エネルギー圧縮情報供給部325はまた、ライン数推定部331を備えており、ライン数推定部331はインデックスnを有する周波数帯について推定によるライン数情報nl(332)を供給するように構成されている。さらに、エネルギー圧縮情報供給部325は知覚エントロピー計算部333を備えており、知覚エントロピー計算部333は周波数帯エネルギー情報330及び推定によるライン数情報332に基づいて知覚エントロピー情報326を計算するように構成されている。例えば、フォームファクター計算部327は、以下に従ってフォームファクターを計算するように構成することができる。
Figure 2011527458
上記の式において、ffac(n)は、周波数帯インデックスnを有する周波数帯のフォームファクターを指している。kは、スケール係数帯(又は、周波数帯)nのスペクトルビンインデックスを始めから終わりへわたって変化する変数を指している。X(k)は、スペクトルビンインデックス(又は、周波数ビンインデックス)kを有するスペクトルビン(又は、周波数ビン)のスペクトル値(例えば、エネルギー値又は大きさの値)を指している。
ライン数推定部は、以下の式に従って、nlで表わされる非ゼロのラインの数を推定するように構成することができる。
Figure 2011527458
上記の式において、en(n)は、インデックスnを有する周波数帯又はスケール係数帯のエネルギーを指している。kOffset(n+1)-kOffset(n)は、周波数ビンに関してインデックスnの周波数帯又はスケール係数帯の幅を指している。
さらに、知覚エントロピー計算部332は、以下の式に従って知覚エントロピー情報sfbPeを計算するように構成することができる。
Figure 2011527458
上記において、以下の関係を保持することができる。
Figure 2011527458
全体としての知覚エントロピーpeは、複数の周波数帯又はスケール係数帯の知覚エントロピーの和として計算することができる。
上述のように、知覚エントロピー情報326はエネルギー圧縮情報として使用することができる。
知覚エントロピーの計算に関するさらなる詳細については、国際規格「3GPP TS 26.403 V7.0.0(2006-06)」のセクション5.6.1.1.3が参照される。
以下では、時間ドメインにおけるエネルギー圧縮情報の計算の考え方を説明する。
TW−MDCT(タイムワープ修正離散コサイン変換)の別の見方は、1ブロック内で一定又はほぼ一定のピッチを有するような方法で信号を変化させるための基本的な考え方である。一定のピッチが達成される場合、これは1処理ブロックの自己相関の最大値が増加することを意味する。タイムワープ及び非タイムワープの場合について自己相関において対応する最大値を発見することは自明でないため、正規化された自己相関の絶対値の和を改善のための指標として使用することができる。この和の増加がエネルギーの圧縮の増加に対応する。
この考え方を、図3G、3H、3I、3J及び3Kを参照して以下でさらに詳しく説明する。
図3Gは時間ドメインにおける非タイムワープ信号のグラフ表示を示している。横座標350は時間を表わしており、縦座標351は非タイムワープ時間信号a(t)のレベルを表わしている。曲線352は非タイムワープ信号の時間変化を示している。曲線352によって表わされている非タイムワープ時間信号の周波数は、図3Gに見て取ることができるように、時間とともに高くなるものと仮定されている。
図3Hは図3Gの時間信号のタイムワープ後のバージョンのグラフ表示を示している。横座標355はワープ後の時間(例えば、正規化された形態の)を表わしており、縦座標356は信号a(t)のタイムワープ後のバージョンa(tw)のレベルを表わしている。図3Hに見て取ることができるように、非タイムワープ時間信号a(t)のタイムワープ後のバージョンa(tw)は、ワープ後の時間ドメインにおいて(少なくともほぼ)時間的に一定の周波数を含んでいる。
換言すると、図3Hは、時間的に変化する周波数の時間信号が、タイムワーピングの再サンプリングを含むことができる適切なタイムワープ操作によって時間的に一定な周波数の時間信号へ変換されるという事実を示している。
図3Iは非ワープの時間信号a(t)の自己相関関数のグラフ表示を示している。横座標360は自己相関ラグ(autocorrelation lag)τを表わしており、縦座標361は自己相関関数の大きさを表わしている。目印362は自己相関ラグτの関数としての自己相関関数Ruw(τ)の推移を示している。図3Iから見て取ることができるように、非ワープの時間信号a(t)の自己相関関数Ruwは(信号a(t)のエネルギーを反映する)τ=0におけるピークを含んでおり、τ≠0において小さな値をとる。
図3Jはタイムワープ後の時間信号a(tw)の自己相関関数Rtwのグラフ表示を示している。図3Jから見て取ることができるように、自己相関関数Rtwはτ=0におけるピークを含んでおり、自己相関ラグτの他の値τ1、τ2、τ3におけるピークも含んでいる。これらのτ1、τ2、τ3におけるさらなるピークは、タイムワープ後の時間信号a(tw)の周期性を高めるためのタイムワープの効果によって得られている。この周期性は、自己相関関数RuW(τ)と比べたときの自己相関関数Rtw(τ)の追加のピークに反映されている。したがって、元のオーディオ信号の自己相関関数と比べたときに、タイプワープ後のオーディオ信号の自己相関関数の追加のピークの存在(又は、ピークの強度の増加)は、タイムワープの(ビットレートの削減に関する)有効性の指標として使用することができる。
図3Kはエネルギー圧縮情報供給部370の概略のブロック図を示している。エネルギー圧縮情報供給部370は、例えばタイムワープ後の信号234e、234k(スペクトルドメイン変換234d、234jが省略され、随意により分析ウインドウ設定部234b及び234hが省略されている)など、オーディオ信号のタイムワープ後の時間ドメイン表現を受信し、これに基づいて、エネルギー圧縮情報372の役割を果たすことができるエネルギー圧縮情報374を供給するように構成されている。図3Kのエネルギー圧縮情報供給部370は、τの所定の範囲の不連続な値についてタイムワープ後の信号a(tw)の自己相関関数Rtw(τ)を計算するように構成された自己相関計算部371を備えている。また、エネルギー圧縮情報供給部370は、(例えば、τの所定の範囲の不連続な値について)自己相関関数Rtw(τ)の複数の値を合計し、得られた合計をエネルギー圧縮情報122、234m、234nとして供給するように構成された自己相関合計部372を備えている。
このようにして、エネルギー圧縮情報供給部370は、入力オーディオ信号210のタイムワープ時間ドメインバージョンのスペクトルドメイン変換を実際に実行することなく、タイムワープの効率を表わす信頼できる情報の供給を可能にする。したがって、入力オーディオ信号310のタイムワープバージョンのスペクトルドメイン変換を、時間ワープが実際にエンコーディング効率の改善をもたらすことがエネルギー圧縮情報供給部370によって供給されるエネルギー圧縮情報122、234m、234nに基づいて明らかである場合に限って、実行することが可能である。
以上を要約すると、本発明によるいくつかの実施の形態は、最終的な品質をチェックするための考え方を生み出す。得られたピッチコンター(タイムワープオーディオ信号エンコーダにおいて使用される)は、コーディングゲインに関して評価され、容認又は拒絶される。例えばスペクトルの平坦さの指標、帯域ごとの部分スペクトルの平坦さの指標、及び/又は知覚エントロピーなど、スペクトルの希薄度(sparsity)又はコーディングゲインに関するいくつかの指標は、この決定において考慮することができる。
例えばスペクトルの平坦さの指標の使用、知覚エントロピー指標の使用、及び時間ドメイン自己相関指標の使用など、種々のスペクトル圧縮情報の使用について説明した。しかしながら、タイムワープ後のスペクトルにおけるエネルギーの圧縮を表わす他の指標も存在する。
これらの指標はすべて使用可能である。好ましくは、これらの指標のすべてにおいて、ワープ前とタイムワープ後のスペクトルについての指標の間の比が規定され、エンコーダにおいて、この比についてのしきい値が、得られたタイムワープコンターがエンコーディングにおいて利益を有するか否かを判断するために設定される。
これらの指標はすべて、ピッチコンターの第3の部分だけが新しいフレームの全体に適用することができ(例えば、ピッチコンターの3つの部分がフレーム全体に関連付けられている)、又は、好ましくは、例えば(それぞれの)信号部分に中心を有する少ない重なり合いのウインドウによる変換を使用して得られた信号の新しい部分についてのみ適用することができる。
当然ながら、ただ1つの指標又は上述の指標の組み合わせを所望に応じて使用することができる。
図4Aはオーディオ信号に基づいてタイムワープ作動信号を供給するための方法のフロー図を示している。図4Aの方法400はオーディオ信号のタイムワープ変換後のスペクトル表現におけるエネルギーの圧縮を表わすエネルギー圧縮情報を供給するステップ410を含んでいる。方法400はエネルギー圧縮情報を基準値と比較するステップ420をさらに含んでいる。さらに、方法400は比較の結果に応じてタイムワープ作動信号を供給するステップ430を含んでいる。
方法400は、タイムワープ作動信号の供給に関して本明細書において説明した特徴及び機能の任意のいずれかによって補うことができる。
図4Bは、入力オーディオ信号をエンコードして入力オーディオ信号のエンコード済み表現を得るための方法のフロー図を示している。この方法450は、随意により、入力オーディオ信号に基づいてタイムワープ変換後のスペクトル表現を供給するステップ460を含んでいる。また、方法450はタイムワープ作動信号を供給するステップ470を含んでいる。ステップ470は、例えば、方法400の機能を備えることができる。すなわち、エネルギー圧縮情報を、入力オーディオ信号のタイムワープ変換後のスペクトル表現におけるエネルギーの圧縮を表わすように供給することができる。さらに、方法450は、時間ワープ作動信号に応じて選択的に、新たに発見されたタイムワープコンター情報を使用して入力オーディオ信号のタイムワープ変換後のスペクトル表現の記述を供給し、又は標準の(非変化の)タイムワープコンター情報を使用して入力オーディオ信号のタイムワープ変換されていないスペクトル表現の記述を供給し、入力オーディオ信号のエンコード済み表現へと含ませるステップ480を含んでいる。
方法450は、入力オーディオ信号のエンコーディングに関して本明細書において説明した特徴及び機能の任意のいずれかによって補うことができる。
図5は本発明のいくつかの態様が実施されている本発明によるオーディオエンコーダの好ましい実施の形態を示している。オーディオ信号はエンコーダの入力500に供給される。このオーディオ信号は、典型的には、通常サンプリングレートとも称されるサンプリングレートを使用してアナログオーディオ信号から導出された不連続なオーディオ信号である。この通常サンプリングレートはタイムワーピング操作において生成されるローカルサンプリングレートとは異なり、入力500におけるオーディオ信号の通常サンプリングレートは、一定の時間部分によって隔てられたオーディオサンプルをもたらす一定のサンプリングレートである。このオーディオ信号は分析ウインドウ設定部502へ送り込まれ、分析ウインドウ設定部502はこの実施の形態においてはウインドウ関数コントローラ504へ接続されている。分析ウインドウ設定部502はタイムワーパー506へ接続されている。しかしながら、実施例によっては、タイムワーパー506は信号処理の方向において分析ウインドウ設定部502の前に配置することができる。この実施例は、タイムワーピング特性がブロック502における分析ウインドウの設定に必要であって、タイムワーピング操作が非ワープのサンプルにではなくタイムワープ後のサンプルについて実行されるべき場合に、好ましい。具体的には、Bernd Edlerらの「Time Warped MDCT」という国際特許出願PCT/EP2009/002118に記載されているようなMDCTベースのタイムワーピングにおいて。L.Villemoesの「Time Warped Transform Coding of Audio Signals」という2005年11月の国際特許出願PCT/EP2006/010246に記載のような他のタイムワーピングの応用においては、タイムワーパー506及び分析ウインドウ設定部502の間の配置は必要に応じて設定することができる。さらに、時間/周波数コンバータ508が、タイムワープ後のオーディオ信号のスペクトル表現への時間/周波数変換を実行するために設けられている。そのスペクトル表現は、TNS情報を出力510aとして供給し、スペクトル残余値を出力510bとして供給するTNS(時間ノイズ整形)段510へ入力することができる。出力510bは量子化部/コーダーブロック512へ接続される。量子化部/コーダーブロック512は、量子化雑音がオーディオ信号の知覚マスキングしきい値の下方に隠されるように信号を量子化すべく知覚モデル514によって制御することができる。
さらに、図5Aに示されているエンコーダはタイムワープ分析部516を備えている。タイムワープ分析部516はピッチ追跡部として実現でき、タイムワーピング情報を出力518に供給する。ライン518上の信号は、タイムワーピング特性、ピッチ特性、ピッチコンター、又はタイムワープ分析部によって分析された信号がハーモニック信号又は非ハーモニック信号のどちらであるかについての情報を含むことができる。さらに、タイムワープ分析部は、有声のスピーチと非有声のスピーチの間の区別を行う機能を実現することができる。しかしながら、実施例に応じ、かつ信号分類部520が備えられるか否かに応じて、有声/非有声の判断を信号分類部520によって行なうことができる。その場合には、タイムワープ分析部は必ずしも同じ機能を実行する必要はない。タイムワープ分析部の出力518は、ウインドウ関数コントローラ504、タイムワーパー506、TNS段510、量子化部/コーダー512及び出力インターフェイス522を含む機能群のうちの少なくとも1つ、好ましくは、2つ以上の機能へ接続される。
同様に、信号分類部520の出力522は、ウインドウ関数コントローラ504、TNS段510、ノイズフィリング分析部524、又は出力インターフェイス522を含む機能群のうちの1つ以上の機能へ接続することができる。さらに、タイムワープ分析部の出力518はノイズフィリング分析部524にも接続することができる。
図5Aは、分析ウインドウ設定部の入力500におけるオーディオ信号がタイムワープ分析部516及び信号分類部520へ入力される状況を説明しているが、これらの機能のための入力信号を分析ウインドウ設定部502の出力から得ることも可能であり、信号分類部に関しては、タイムワーパー506の出力、時間/周波数コンバータ508の出力、又はTNS段510の出力から得ることさえ可能である。
量子化部/エンコーダ512によって出力される信号526に加えて、出力インターフェイス522は、TNS副情報510a、エンコードされた形態のスケール係数を含むことができる知覚モデル副情報528、ライン518上のピッチコンターなどのさらに進んだタイムワープ副情報のためのタイムワープ表示データ、及びライン522上の信号分類情報を受信する。さらに、ノイズフィリング分析部524も、出力インターフェイス522への出力530にノイズフィリングデータを出力することができる。出力インターフェイス522は、デコーダへの送信又はメモリ装置などのストレージ装置への保存のために、ライン532上にエンコード済みのオーディオ出力データを生成するように構成されている。実施例によっては、出力データ532は、出力インターフェイス522への入力をすべて含むことができ、又は、機能の少ない対応のデコーダが情報を必要としない場合や、情報が別の送信チャネル経由の送信によってデコーダにおいてすでに入手可能である場合には、より少ない情報を含んでもよい。
図5Aに示されているエンコーダは、MPEG−4規格に比べて進んだ機能を有しているウインドウ関数コントローラ504、ノイズフィリング分析部524、量子化エンコーダ512及びTNS段510によって代表される図5Aの本発明のエンコーダに示されている追加の機能の他は、MPEG−4規格に詳しく規定されているように実施することができる。さらなる説明は、AAC規格(国際規格13818−7)又は3GPP TS 26.403 V7.0.0:Third generation partnership project; technical specification group services and system aspect; general audio codec audio processing functions; enhanced AAC plus general audio codecにある。
次に、入力540を介して受信されたエンコード済みのオーディオ信号をデコードするためのオーディオデコーダの好ましい実施の形態を示している図5Bを検討する。入力インターフェイス540は、情報の種々の情報項目をライン540上の信号から抽出できるように、エンコード済みのオーディオ信号を処理するように動作することができる。この情報は、信号分類情報541、タイムワープ情報542、ノイズフィリングデータ543、スケール係数544、TNSデータ545及びエンコード済みのスペクトル情報546を含んでいる。エンコード済みのスペクトル情報はエントロピーデコーダ547へ入力される。エントロピーデコーダ547は、図5Aのブロック512のエンコーダ機能がハフマン(Huffman)エンコーダ又は算術エンコーダなどの対応するエンコーダとして実施されている限りにおいて、ハフマンデコーダ又は算術デコーダを備えることができる。デコード後のスペクトル情報は再量子化部550へと入力され、再量子化部550はノイズフィラー552へ接続されている。ノイズフィラー552の出力は、ライン545上のTNSデータも受信する逆TNS段554へ入力される。実施例によっては、ノイズフィラー552及びTNS段554は、ノイズフィラー552がTNSの入力データに対してではなくTNS段554の出力データに対して動作するように、別の順序で適用することができる。さらに、周波数/時間コンバータ556が設けられ、タイムデワーパー558に接続されている。この一連の信号処理の出力において、好ましくはオーバーラップ/加算の処理を実行する合成ウインドウ設定部560が適用される。タイムデワーパー558と合成段560の順序は変更することができるが、好ましい実施の形態においては、AAC規格(AAC=advanced audio coding)に規定されているようにMDCT−ベースのエンコーディング/デコーディングアルゴリズムを実行することが好ましい。むしろ、すべてのブロッキングアーチファクトが効果的に回避されるように、オーバーラップ/加算の処理による1つのブロックから次のブロックへの固有のクロスフェード操作が、一連の処理の最後の操作として好都合に使用される。
さらに、ノイズフィリング分析部562が設けられている。ノイズフィリング分析部562はノイズフィラー552を制御するように構成され、タイムワープ情報542及び/又は信号分類情報541を入力として受信し、場合に応じて再量子化されたスペクトルについての情報も入力として受信する。
好ましくは、以下で説明されるすべての機能が、強化型のオーディオエンコーダ/デコーダの仕組みにおいてまとめて適用される。しかしながら、以下で説明される機能は互いに別個独立に適用することも可能であり、すなわち、それらの機能のすべてではなく、それらの機能のうちの1つ又は或る機能群を特定のエンコーダ/デコーダの仕組みにおいて実施することができる。
次に、本発明のノイズフィリングの態様を詳しく説明する。
一実施の形態においては、図5Aのタイムワーピング/ピッチコンターツール516によって供給される追加情報は、他のコーデックツール及び特にノイズフィリングツールを制御するために有益に使用される。そのノイズフィリングツールとは、エンコーダ側においてノイズフィリング分析部524によって実現され、さらには/あるいはデコーダ側においてノイズフィリング分析部562及びノイズフィラー552によって実現されるものである。
ノイズフィリングツールなど、AACの枠組みにおけるいくつかのエンコーダツールは、ピッチコンター分析によって集められる情報、及び/又は信号分類部520により供給される信号の分類についての追加情報によって集められる情報により制御される。
発見されたピッチコンターは明確な高調波構造を有する信号セグメントを表わしており、高調波ラインの間へのノイズフィリングは、特にスピーチ信号において、知覚される品質を低下させる可能性があるので、ピッチコンターが発見された場合にはノイズレベルが減らされる。そうしなければ、部分音の間に、不鮮明なスペクトルにおける量子化ノイズの増加と同じ影響を有するノイズが存在したであろう。さらに、ノイズレベルの低減の量は、例えばスピーチ信号においてはノイズフィリングが存在せず、強い高調波構造を有する一般的な信号には適度なノイズフィリングが加えられるなど、信号分類部の情報を使用することによってさらに改良することができる。
一般に、エンコーダからデコーダへゼロが送信されており、すなわち図5Aの量子化部512がスペクトルのラインをゼロへ量子化している場合には、ノイズフィラー552はデコード後のスペクトルにスペクトルラインを挿入するために有用である。当然ながら、スペクトルラインをゼロへ量子化することは送信される信号のビットレートを大いに少なくしており、理論的には、これらのスペクトルラインが知覚モデル514によって決定されるような知覚マスキングしきい値を下回る場合は、これらの(小さい)スペクトルラインの除去は聞き取ることができない。しかしながら、多数の隣接するスペクトルラインを含むことができるこれらの「スペクトルの穴」が、かなり不自然な音をもたらすことが明らかになっている。したがって、ラインがエンコーダ側の量子化部によってゼロへ量子化されている位置にスペクトルラインを挿入するためのノイズフィリングツールが設けられている。これらのスペクトルラインは無作為な振幅又は位相を有することができ、これらのデコーダ側の合成されたスペクトルラインは、図5Aに示されるようにエンコーダ側において決定されるノイズフィリングの指標を使用し、又は随意によるブロック562によって図5Bに示されるようにデコーダ側において決定される指標に応じて、拡大/縮小される。したがって、図5Aのノイズフィリング分析部524は、オーディオ信号の時間フレームについてゼロへ量子化されるオーディオ値のエネルギーのノイズフィリングの指標を推定するように構成される。
本発明の一実施の形態において、ライン500上のオーディオ信号をエンコードするためのオーディオエンコーダは、オーディオ値を量子化するように構成された量子化部512を備えており、量子化部512は量子化しきい値を下回るオーディオ値をゼロへ量子化するようにさらに構成されている。この量子化しきい値は階段方式の量子化部の第1の段階とすることができ、特定のオーディオ値がゼロ、すなわち、ゼロという量子化インデックス、又は1、すなわち、オーディオ値がこの第1のしきい値を上回っていることを示す1という量子化インデックスのどちらに量子化されるかを決定するために使用される。図5Aの量子化部は周波数ドメインの値の量子化を実行するものとして示されているが、ノイズフィリングが周波数ドメインにおいてではなく時間ドメインにおいて実行される別の実施の形態においては、量子化部は時間ドメインの値を量子化するために使用することもできる。
ノイズフィリング分析部524は、量子化部512によってオーディオ信号の時間フレームにおいてゼロへ量子化されたオーディオ値のエネルギーのノイズフィリングの指標を推定するためのノイズフィリング計算部として実現することができる。さらに、オーディオエンコーダは図6Aに示されているオーディオ信号分析部600を備えており、オーディオ信号分析部600はオーディオ信号の時間フレームがハーモニック特性又はスピーチ特性を有しているかを分析するように構成されている。信号分析部600は、例えば、図5Aのブロック516又は図5Aのブロック520を含むことができ、又は信号がハーモニック信号もしくはスピーチ信号であるか否かを分析するための任意の他の装置を備えることができる。タイムワープ分析部516は常にピッチコンターを探すように実現され、ピッチコンターの存在が信号の高調波構造を示すため、図6Aの信号分析部600はタイムワープ分析部のピッチ追跡部又はタイムワーピングコンター計算部として実現することができる。
オーディオエンコーダは図6Aに示されているノイズフィリングレベル操作部602をさらに備えており、ノイズフィリングレベル操作部602は図5Aに530で示されている出力インターフェイス522へ出力されるべき操作後のノイズフィリングの指標/レベルを出力する。ノイズフィリング指標操作部602は、オーディオ信号のハーモニック又はスピーチ特性に応じてノイズフィリングの指標を操作するように構成されている。さらに、オーディオエンコーダは、送信又は保存のためのエンコード済みの信号であって、ブロック602によってライン530上に出力される操作済みのノイズフィリングの指標を含むエンコード済みの信号を生成する出力インターフェイス522を備えている。ブロック602によって出力される値が、図5Bに示したデコーダ側の実施例においてブロック562によって出力される値に相当する。
図5A及び5Bに示されるように、ノイズフィリングレベルの操作はエンコーダとデコーダのいずれかにおいて実施することができ、又は両方の装置において一緒に実施することができる。デコーダ側での実施においては、エンコード済みのオーディオ信号をデコードするためのデコーダは、ライン540上のエンコード済み信号を処理してノイズフィリングの指標、すなわち、ライン543上のノイズフィリングデータ、及びライン546上のエンコード済みオーディオデータを得る入力インターフェイス539を備えている。デコーダは、デコーダ547及び再量子化されたデータを生成するための再量子化部550をさらに備えている。
さらに、デコーダは信号分析部600(図6A)を備えており、信号分析部600はオーディオデータの時間フレームがハーモニック又はスピーチ特性を有しているかについての情報を取り出すための図5Bのノイズフィリング分析部562内に実装することができる。
さらに、ノイズフィラー552がノイズフィリングオーディオデータを生成するために設けられており、ノイズフィラー552は、エンコード済みの信号によって送信されて入力インターフェイスによって生成されるライン543のノイズフィリングの指標と、エンコーダ側の信号分析部516及び/又は550によって規定され、又はデコーダ側の項目562によって規定されるとおりのオーディオデータのハーモニック又はスピーチ特性とに応答して、特定の時間フレームにタイムワーピング処理が加えられているか否かを知らせるタイムワープ情報542を処理及び解釈することによって、ノイズフィリングデータを生成するように構成されている。
さらに、デコーダは、再量子化されたデータ及びノイズフィリングオーディオデータを処理してデコード済みのオーディオ信号を得るためのプロセッサを備えている。プロセッサは、場合に応じて、図5Bの項目554、556、558及び560を含むことができる。さらに、エンコーダ/デコーダのアルゴリズムの特定の実施例によっては、プロセッサは、例えばAMR WB+エンコーダ又は他のスピーチコーダーなどの時間ドメインエンコーダに設けられる他の処理ブロックを含むことができる。
したがって、本発明のノイズフィリング操作は、エンコーダ側において簡単なノイズの指標を計算し、このノイズの指標をハーモニック/スピーチ情報に基づいて操作し、後にデコーダによって簡単な方法で適用することができる、すでに正しい操作済みのノイズフィリングの指標を送信するだけで、実現することができる。あるいは、非操作のノイズフィリングの指標をエンコーダからデコーダへ送信することができ、次いでデコーダが、オーディオ信号の実際の時間フレームがタイムワープされているか否か、すなわちハーモニック又はスピーチ特性を有しているか否かを分析し、ノイズフィリングの指標の実際の操作をデコーダ側で行うことができる。
次に、ノイズレベルの見積りの操作のための好ましい実施の形態を説明するために、図6Bを検討する。
第1の実施の形態においては、信号がハーモニック又はスピーチ特性を有していない場合に、通常のノイズレベルが適用される。これは、タイムワープが適用されない場合である。さらに、信号分類部が設けられている場合、スピーチと非スピーチとの間を区別する信号分類部は、タイムワープが有効にならず、すなわちピッチコンターが発見されなかったときは非スピーチを表わす。
しかしながら、タイムワープが有効である場合、すなわちピッチコンターが発見された場合、これはハーモニック成分を示しており、したがってノイズフィリングレベルが、通常の場合よりも低くなるように操作される。追加の信号分類部が設けられ、この信号分類部がスピーチを示し、同時にタイムワープ情報がピッチコンターを示す場合、より低い、又は、ゼロでもよい、ノイズフィリングレベルが合図される。このようにして、図6Aのノイズフィリングレベル操作部602は、操作後のノイズレベルをゼロ又は少なくとも図6Bに示されている低い値よりも低い値に減らす。好ましくは、信号分類部は、図6Bの左方に示されているように、有声/無声検出部をさらに有している。有声のスピーチの場合に、きわめて低いノイズフィリングレベル又はゼロのノイズフィリングレベルが合図/適用される。しかしながら、無声のスピーチの場合は、タイムワープの表示はピッチが発見されないという事実によりタイムワープ処理を示していないが、信号分類部がスピーチ成分を合図しているときはノイズフィリングの指標は操作されず、通常のノイズフィリングレベルが適用される。
好ましくは、オーディオ信号分析部は、ピッチコンター又はオーディオ信号の時間フレームの絶対ピッチなど、ピッチの表示を生成するためのピッチ追跡部を備えている。その場合、操作部は、ピッチが発見されたときにノイズフィリングの指標を減らし、ピッチが発見されない場合にノイズフィリングの指標を減らさないように構成される。
図6Aに示されるように、信号分析部600はデコーダ側に適用されるときはピッチ追跡部又は有声/無声検出部などの実際の信号の分析を実行していないが、信号分析部は、タイムワープ情報又は信号分類情報を抽出するためにエンコード済みのオーディオ信号を解析する。したがって、信号分析部600は図5Bのデコーダの入力インターフェイス539内に実装することができる。
次に、本発明のさらなる実施の形態を図7A〜7Eに関して検討する。
有声のスピーチ部が比較的静かな信号部分の後で始まるスピーチの開始に関して、ブロック切り替えアルゴリズムは、それをアタックに分類し、かつこの特定のフレームのために短いブロックを選択する可能性があり、明確な高調波構造を有する信号セグメントにおけるコーディングゲインの損失を伴う。したがって、ピッチ追跡部の有声/無声の分類は、有声の開始を検出し、ブロック切り替えアルゴリズムが発見された開始の周囲の過渡のアタックを示すことがないようにするために使用される。この特徴は、スピーチ信号におけるブロックの切り替えを防止し、他のすべての信号についてブロックの切り替えを可能にするために、信号分類部と組み合わせることもできる。さらに、ブロック切り替えのより細かい制御を、アタックの検出を可能又は不可能にすることによってだけでなく、有声の開始及び信号分類情報に基づくアタック検出に可変のしきい値を使用することによって、実現することができる。さらに、信号分類情報は、上述の有声の開始などのアタックを検出し、しかし短いブロックへの切り替えを行うのではなく、好ましいスペクトル分解能を保ちつつ事前及び事後のエコーが生じうる時間領域を短縮する短い重なり合いを有する長いウインドウを使用するために、使用することができる。図7Dは適応なしの典型的な挙動を示しており、図7Eは2つの異なる適応の可能性を示している(防止及び少ない重なり合いのウインドウ)。
本発明の一実施の形態によるオーディオエンコーダは、図5Aの出力インターフェイス522によって出力される信号などのオーディオ信号を生成するように動作する。オーディオエンコーダは、図5Aのタイムワープ分析部516又は信号分類部520などのオーディオ信号分析部を備えている。一般に、オーディオ信号分析部は、オーディオ信号の時間フレームがハーモニック又はスピーチ特性を有しているか否かを分析する。この目的のために、図5Aの信号分類部520は、有声/無声検出部520a又はスピーチ/非スピーチ検出部520bを含むことができる。図7Aには示されていないが、ピッチ追跡部を含むことができる図5Aのタイムワープ分析部516などのタイムワープ分析部を、項目520a及び520bに代え、又はこれらの機能に加えて設けることもできる。さらには、オーディオエンコーダは、オーディオ信号分析部によって割り出されたとおりのオーディオ信号のハーモニック又はスピーチ特性に応じてウインドウ関数を選択するためのウインドウ関数コントローラ504を備えている。次いで、ウインドウ設定部502は、オーディオ信号又は特定の実施例によってはタイムワープ後のオーディオ信号にウインドウを適用し、選択されたウインドウ関数を使用してウインドウフレームを得る。次いで、このウインドウフレームは、エンコード済みのオーディオ信号を得るためにプロセッサによってさらに処理される。プロセッサは、図5Aに示した項目508、510及び512を備えることができ、又はスピーチコーダー、特に、AMR−WB+規格に従って実現されたスピーチコーダーなどのLPCフィルタを備えている変換ベースのオーディオエンコーダもしくは時間ドメインベースのオーディオエンコーダなどの周知のオーディオエンコーダの何らかの機能を備えることができる。
好ましい実施の形態においては、ウインドウ関数コントローラ504はオーディオ信号内の過渡を検出するための過渡検出部700を備えており、ウインドウ関数コントローラは、過渡が検出され、かつオーディオ信号分析部によってハーモニック又はスピーチ特性が発見されない場合に、長いブロックのためのウインドウ関数から短いブロックのためのウインドウ関数へ切り替えを行うように構成されている。しかしながら、過渡が検出され、かつオーディオ信号分析部によってハーモニック又はスピーチ特性が発見された場合には、ウインドウ関数コントローラ504は短いブロックのためのウインドウ関数への切り替えを行わない。過渡が得られないときの長いウインドウ及び過渡が過渡検出部によって検出されたときの短いウインドウを示しているウインドウ関数の出力が、図7Aに701及び702として示されている。周知のAACエンコーダによって実行されるとおりのこの通常の手順が、図7Dに示されている。声の開始の位置において、過渡検出部700は、或るフレームから次のフレームへのエネルギーの増加を検出し、長いウインドウ710から短いウインドウ712への切り替えを行う。この切り替えに対応するために、第1の重なり合い部分714a、非エイリアシング部分714b、第2の短い重なり部分714c、及び点716から2048個のサンプルによって示される時間軸上の点まで延びているゼロ部分を有する長いストップウインドウ714が使用される。次いで、712に示されている一連の短いウインドウが実行され、一連の短いウインドウは、図7Dには示されていない次の長いウインドウに重なる長い重なり合い部分718aを有している長いスタートウインドウ718によって終わる。さらに、このウインドウは、非エイリアシング部分718b、短い重なり部分718c、及び時間軸上の点720から2048の点まで延びているゼロ部分を有している。この部分がゼロ部分である。
通常は、短いウインドウへの切り替えは、有声の開始、又は、一般的には、スピーチの開始もしくはハーモニック成分を有する信号の開始の位置である過渡の事象の前のフレームにおいて生じうる前エコーを回避するために有用である。一般に、信号がピッチを有するとピッチ追跡部が判断する場合に、信号はハーモニック成分を有している。また、突出したピークが互いに高調波の関係にある特性とともに存在する特定の最小レベルを上回る調性の指標のような他の高調波の指標が存在する。信号がハーモニックであるか否かを判断するために、複数のさらなる技法が存在する。
短いウインドウの欠点は、時間分解能が高くなるため周波数分解能が低下する点にある。スピーチ、特に有声スピーチ部分又は強いハーモニック成分を有する部分の高品質なエンコーディングのためには、良好な周波数分解能が望まれる。したがって、516、520又は520a、520bに示されているオーディオ信号分析部は、有声スピーチセグメント又は強いハーモニック特性を有する信号セグメントが検出されたときに短いウインドウへの切り替えが防止されるように、過渡検出部700へ無効信号を出力するように動作することができる。これは、そのような信号部分のコーディングにおいて、高い周波数分解能が維持されることを保証する。これは、一方、すなわち、前エコーと他方、すなわち、スピーチ信号又はハーモニックな非スピーチ信号のピッチの高品質及び高分解能なエンコーディングとの間のトレードオフである。ハーモニックなスペクトルが正確にエンコードされない場合が、生じうる前エコーに比べて、はるかに煩わしいことが明らかにされている。前エコーをさらに減らすために、そのような状況においては、図8A及び8Bに関して説明されるTNS処理が好ましい。
図7Bに示されている別の実施の形態においては、オーディオ信号分析部は有声/無声及び/又はスピーチ/非スピーチ検出部520a、520bを備えている。しかしながら、ウインドウ関数コントローラに含まれる過渡検出部700は図7Aのように完全に有効/無効にされるのではなく、過渡検出部に含まれるしきい値がしきい値制御信号704を使用して制御される。この実施の形態において、過渡検出部700はオーディオ信号の定量的特性を割り出し、定量的特性を制御可能なしきい値と比較するように構成され、定量的特性が制御可能なしきい値に対して所定の関係を有する場合に過渡が検出される。その定量的特性は、或るブロックから次のブロックへのエネルギーの増加を表わす数とすることができ、しきい値は特定のしきい値エネルギー増加とすることができる。或るブロックから次のブロックへのエネルギーの増加がしきい値エネルギー増加よりも大きい場合に過渡が検出され、すなわちこの場合には、所定の関係が「・・・よりも大きい」である。他の実施の形態においては、所定の関係は、例えば定量的特性が反転されたエネルギー増加である場合など、「・・・よりも少ない」とすることもできる。図7Bの実施の形態において、制御可能なしきい値は、オーディオ信号分析部がハーモニック又はスピーチ特性を発見したときに短いブロックのためのウインドウ関数への切り替えの可能性が少なくなるように制御される。エネルギー増加の実施の形態において、しきい値制御信号704は、或るブロックから次のブロックへのエネルギーの増加が特に大きなエネルギーの増加である場合に限って短いブロックへの切り替えが行われるように、しきい値の増加をもたらす。
別の実施の形態においては、有声/無声検出部520a又はスピーチ/非スピーチ検出部520bからの出力信号も、スピーチの開始における短いブロックへの切り替えの代わりに短いブロックのためのウインドウ関数よりも長いウインドウ関数への切り替えが実行されるような方法で、ウインドウ関数コントローラ504を制御するために使用することができる。このウインドウ関数は、短いウインドウ関数よりも高い周波数分解能を保証するが、長いウインドウ関数よりも短い長さを有するため、一方、すなわち、前エコーと他方、すなわち、充分な周波数分解能との間の良好な妥協が得られる。別の実施の形態においては、より小さな重なり合いを有するウインドウ関数への切り替えを、図7Eに破線706によって示されるように実行することができる。ウインドウ関数706は長いブロックとして2048個のサンプルからなる長さを有しているが、このウインドウは、ウインドウ706から対応するウインドウ707への短い重なり長712が得られるように、ゼロ部分708及び非エイリアシング部分710を有している。ウインドウ関数707も、ウインドウ関数710と同様に、領域712の左方のゼロ部分及び領域712の右方の非エイリアシング部分を有している。この少ない重なり合いの実施の形態は、ウインドウ706及び707のゼロ部分により前エコーを減らすためのより短い時間長を効果的にもたらすが、他方では充分な周波数分解能が維持されるように重なり部分714及び非エイリアシング部分710による充分な長さを有する。
AACエンコーダによって実現されるとおりの好ましいMDCTの実施例においては、特定の重なりを維持することは、デコーダ側において重なり合い/加算の処理を実行することができ、すなわちブロック間の一種のクロスフェーディングが実行されるというさらなる利点をもたらす。これは、ブロッキングアーチファクトを効果的に回避する。さらに、この重なり合い/加算の特徴は、ビットレートを増加させることなくクロスフェーディング特性をもたらし、すなわち、きわどくサンプリングされたクロスフェードが得られる。通常の長いウインドウ又は短いウインドウにおいては、重なり合い部分は、重なり部分714によって示されるように50%の重なり合いである。ウインドウ関数が2048個のサンプルからなる長さである実施の形態においては、重なり部分が50%、すなわち1024個のサンプルである。スピーチの開始又はハーモニック信号の開始に効果的にウインドウを設定するために使用されるより短い重なり合いを有するウインドウ関数は、好ましくは50%未満であり、図7Eの実施の形態においてはわずかに128個のサンプルであり、全ウインドウ長の1/16である。好ましくは、ウインドウ関数の全長の1/4〜1/32の間の重なり部分が使用される。
図7Cはこの実施の形態を示しており、749に示されているように短い重なりのウインドウ形状を選択するか又は750に示されているように長い重なりのウインドウ形状を選択するために、典型的な有声/無声検出部520aが、ウインドウ関数コントローラ504に含まれるウインドウ形状選択部を制御する。両方の形状のうちの一方の選択は有声/無声検出部500aが751において有声検出信号を出力する場合に実施されるが、分析に使用されるオーディオ信号は、図5Aの入力500におけるオーディオ信号とすることができ、又はタイムワープ後のオーディオ信号もしくは任意の他の前処理の機能が加えられたオーディオ信号などの前処理されたオーディオ信号とすることができる。好ましくは、図5Aのウインドウ関数コントローラ504に含まれる図7Cのウインドウ形状選択部504は、ウインドウ関数コントローラに含まれる過渡検出部が過渡を検出し、図7Aに関して説明したように長いウインドウ関数から短いウインドウ関数への切り替えを指令する場合に、信号751だけを使用する。
好ましくは、ウインドウ関数の切り替えの実施の形態は、図8A及び8Bに関して説明される時間ノイズ整形の実施の形態と組み合わせられる。しかしながら、TNS(時間ノイズ整形)の実施の形態は、ブロック切り替えの実施の形態を備えずに実現することもできる。
タイムワープMDCTのスペクトルエネルギー圧縮特性は時間ノイズ整形(TNS)ツールにも影響する。なぜならば、TNSゲインは、特にいくつかのスピーチ信号において、タイムワープされたフレームについて減少する傾向にあるからである。しかしながら、例えば、ブロック切り替えが望ましくないが依然としてスピーチ信号の時間包絡線が急激な変化を呈する有声の開始又は消失における前エコーを減らす(ブロック切り替えの適応を参照)ためにTNSを有効にすることが望ましい。典型的には、エンコーダが、例えばスペクトルに適用されたときのTNSフィルタの予測ゲインなど、TNSの適用が特定のフレームにおいて有益であるか否かを判断するためのいくつかの指標を使用する。したがって、有効なピッチコンターを有するセグメントについてより低い可変のTNSゲインしきい値が好ましく、そのようにすることで、そのような有声の開始などの重要な信号部分について、TNSがより頻繁に有効になるように保証される。他のツールと同様に、これは信号の分類を考慮に入れることによって補うことも可能である。
オーディオ信号を生成するためのこの実施の形態によるオーディオエンコーダは、オーディオ信号にタイムワーピングを加えてタイムワープオーディオ信号を得るためのタイムワーパー506などの制御可能なタイムワーパーを備えている。さらに、タイムワープオーディオ信号の少なくとも一部分をスペクトル表現へ変換するための時間/周波数コンバータ508が備えられている。時間/周波数コンバータ508は、好ましくは、AACエンコーダから公知のとおりのMDCT変換を実行するが、時間/周波数コンバータはDCT、DST、DFT、FFT又はMDST変換などといった任意の他の種類の変換を実行することもでき、又はQMFフィルタバンクなどのフィルタバンクを備えることができる。
さらに、エンコーダは、時間ノイズ整形制御命令に従ってスペクトル表現の周波数について予測フィルタ処理を実行するための時間ノイズ整形段510を備えているが、予測フィルタ処理は時間ノイズ整形制御命令が存在しない場合には実行されない。
さらに、エンコーダは、スペクトル表現に基づいて時間ノイズ整形制御命令を生成するための時間ノイズ整形コントローラを備えている。
具体的には、時間ノイズ整形コントローラは、スペクトル表現がタイムワープ時間信号に基づいている場合に周波数についての予測フィルタ処理を実行する可能性を高め、スペクトル表現がタイムワープ時間信号に基づいていない場合に周波数についての予測フィルタ処理を実行する可能性を減らすように構成されている。時間ノイズ整形コントローラの仕様は図8に関連して検討される。
さらに、オーディオエンコーダは、周波数についての予測フィルタ処理の結果をさらに処理し、エンコード済み信号を得るためのプロセッサを備えている。一実施の形態においては、プロセッサは図5Aに示されている量子化部エンコーダ段512を備えている。
図5Aに示したTNS段510が図8に詳しく示されている。好ましくは、TNS段510に含まれる時間ノイズ整形コントローラは、TNSゲイン計算部800と、その後に接続されたTNS決定部802と、しきい値制御信号生成部804とを備えている。タイムワープ分析部516もしくは信号分類部520又は両者からの信号に応じて、しきい値制御信号生成部804はしきい値制御信号806をTNS決定部へ出力する。TNS決定部802は、しきい値制御信号806に従って増やされ又は減らされる制御可能なしきい値を有している。TNS決定部802におけるしきい値は、この実施の形態においてはTNSゲインしきい値である。ブロック800によって出力される実際に計算されたTNSゲインがしきい値を超える場合、TNS制御命令が出力としてTNS処理を要求し、一方、TNSゲインがTNSゲインしきい値を下回る他の場合においては、TNS命令が出力されないか、又はこの特定の時間フレームにおいてはTNS処理が有用でなく実行すべきでない旨を指示する信号が出力される。
TNSゲイン計算部800は、入力として、タイムワープ済みの信号から導出されるスペクトル表現を受信する。典型的には、タイムワープ済み信号はより低いTNSゲインを有するが、他方では、タイムワーピング操作が加えられた有声/ハーモニック信号が存在する特定の状況においては、TNS処理は時間ドメインにおける時間ノイズ整形の特徴により有益である。他方では、TNS処理はTNSゲインが低い状況においては有用でなく、すなわちライン510bにおけるTNS残余信号がTNS段510の前の信号と同じか又はそれよりも高いエネルギーを有する。ライン510d上のTNS残余信号のエネルギーがTNS段510の前のエネルギーよりもわずかに低い状況においては、量子化部/エントロピーエンコーダ段512によって効率的に使用される信号におけるわずかに小さいエネルギーによるビットの削減が、図5Aに510aで示されているTNS副情報の必要な送信によって持ち込まれるビットの増加よりも小さいため、TNS処理はやはり有利ではないかもしれない。タイムワープ済みの信号がブロック516からのピッチ情報又はブロック520からの信号分類部情報によって示される入力である一実施の形態は、すべてのフレームについてTNS処理を自動的にオンにするが、好ましい実施の形態は、ゲインが実際に低く、あるいは少なくともハーモニック/スピーチ信号が処理されない通常の場合よりも低い場合に限り、TNS処理を無効にする可能性も維持する。
図8Bは、3つの異なるしきい値設定がしきい値制御信号生成部804/TNS決定部802によって実現される実施例を示している。ピッチコンターが存在せず、信号分類部が無声のスピーチ又は全くの非スピーチを示す場合、TNS決定しきい値は、TNSを有効にするために比較的高いTNSゲインを必要とする通常の状態となるように設定される。しかしながら、ピッチコンターが検出されるが、信号分類部が非スピーチを示し、又は有声/無声検出部が無声のスピーチを検出する場合、TNS決定しきい値はより低いレベルに設定され、すなわち比較的低いTNSゲインが図8Aのブロック800によって計算された場合でもTNS処理が有効にされる。
有効なピッチコンターが検出され、有声スピーチが発見される状況においては、TNS決定しきい値はより低い同じ値又はさらに低い状態に設定され、したがってさらに小さなTNSゲインであってもTNS処理を有効にするために充分である。
一実施の形態においては、オーディオ信号に周波数についての予測フィルタ処理が加えられる場合、TNSゲインコントローラ800はビットレート又は品質にてゲインを推定するように構成される。TNS決定部802は推定されたゲインを決定しきい値と比較し、推定によるゲインが決定しきい値に対して所定の関係にあるとき、予測フィルタ処理を支持するTNS制御情報がブロック802によって出力される。ここで、この所定の関係は、「・・・よりも大きい」という関係にすることができるが、例えば逆TNSゲインにおいては「・・・よりも小さい」という関係にすることもできる。上述のように、時間ノイズ整形コントローラは、推定によるゲインが同じであっても、スペクトル表現がタイムワープ後のオーディオ信号に基づいている場合には予測フィルタ処理が有効にされ、スペクトル表現がタイムワープ後の予測信号に基づいていない場合には予測フィルタ処理が無効にされるように、好ましくはしきい値制御信号806を使用して決定しきい値を変化させるようにさらに構成される。
通常は、有声のスピーチはピッチコンターを呈し、摩擦音又は歯擦音などの無声のスピーチはピッチコンターを呈さない。しかしながら、スピーチ検出部はスピーチを検出しないが、強力なハーモニック成分、したがってピッチコンターを有する非スピーチ信号が存在する。さらに、オーディオ信号分析部(例えば、図5Aの516)によってハーモニック成分を有すると判断されるが、信号分類部520によってスピーチ信号であるとして検出されることはない特定のミュージック上スピーチ又はスピーチ上ミュージックの信号が存在する。そのような状況においては、有声スピーチ信号のためのすべての処理操作をやはり適用することができ、やはり利点がもたらされる。
次に、オーディオ信号をエンコードするためのオーディオエンコーダに関する本発明のさらなる好ましい実施の形態を説明する。このオーディオエンコーダは帯域幅拡張においてとくに有用であるが、オーディオエンコーダが特定の帯域幅限定/低域通過フィルタ処理操作を得るために特定の数のラインをコーディングするように設定されるスタンドアロンのエンコーダ用途においても有用である。非タイムワープの用途において、特定の所定の数のラインを選択することによるこの帯域幅の限定は、オーディオ信号のサンプリング周波数が一定であるため一定の帯域幅をもたらす。しかしながら、図5Aのブロック506などによるタイムワープ処理が実行される状況においては、固定の数のラインに頼るエンコーダは、慣れた聴取者によって知覚可能なだけでなく、不慣れな聴取者にとっても知覚可能である強力なアーチファクトを持ち込む変化する帯域幅をもたらすであろう。
AACコアコーダーは、通常は、固定の数のラインをコーディングし、最大のラインを上回る他のすべてをゼロに設定する。ワーピングされていない場合には、これは、一定のカットオフ周波数による低域通過効果につながり、したがってデコード後のAAC信号の一定の帯域幅につながる。タイムワープの場合には、局部タイムワーピングコンターの関数である局部サンプリング周波数の変化により帯域幅が変化し、可聴なアーチファクトにつながる。アーチファクトは、すべてのフレームについてデコーダでのタイム再ワーピング後に一定の平均帯域幅が得られるように、局部サンプリング周波数に応じて、コアコーダーにおいてコーディングされるべきラインの数を局部タイムワーピングコンター及びその得られた平均サンプリングレートの関数として適応的に選択することによって、少なくすることができる。さらなる利益は、エンコーダにおけるビットの節約である。
この実施の形態によるオーディオエンコーダは、可変のタイムワーピング特性を使用してオーディオ信号をタイムワーピングするためのタイムワーパー506を備えている。さらに、タイムワープ後のオーディオ信号をいくつかのスペクトル係数を有するスペクトル表現へ変換するための時間/周波数コンバータ508が備えられている。さらに、可変の数のスペクトル係数を処理し、エンコードされたオーディオ信号を生成するためのプロセッサが使用され、図5Aの量子化部/コーダーブロック512を備えるこのプロセッサは、フレームごとの被処理の周波数係数の数によって表わされる帯域幅のばらつきが少なくなるか又は皆無になるように、オーディオ信号のフレームについてスペクトル係数の数を、そのフレームのタイムワーピング特性に基づいて設定するように構成されている。
ブロック512によって実現されるプロセッサはラインの数を制御するためのコントローラ1000を備えることができ、コントローラ1000の結果は、タイムワーピングなしでエンコードされている時間フレームの場合に設定されるラインの数に対して、特定の可変の数のラインがスペクトルの上端において追加又は破棄されるような結果である。実施例に応じて、コントローラ1000は、特定のフレームのピッチコンター情報1001及び/又はフレーム内の局部平均サンプリング周波数1002を受信することができる。
図9(A)〜9(E)において、右側の図はフレームについて特定のピッチコンターにおける特定の帯域幅の状況を示しており、タイムワープのためのフレームのピッチコンターがそれぞれの左の図に示され、タイムワープ後のフレームのピッチコンターが真ん中の図に示されている。タイムワープ後のフレームでは実質的に一定のピッチ特性が得られている。タイムワーピング後にピッチ特性が可能なかぎり一定であることがタイムワーピング機能の目標である。
帯域幅900は、時間/周波数コンバータ508又は図5AのTNS段510によって出力された特定のライン数において、タイムワーピング操作が実行されない場合、すなわち破線507によって示されるようにタイムワーパー506が無効にされた場合に得られる帯域幅である。しかしながら、非一定なタイムワープコンターが得られ、このタイムワープコンターがサンプリングレートの増加を生じさせる高い方のピッチへともたらされる場合(図9(A)、(C))、スペクトルの帯域幅は通常の非タイムワープの状況に比べて減少する。これは、このフレームについて送信されるべきラインの数を、この帯域幅の喪失を相殺するために増加させなければならないことを意味している。
また、ピッチを図9(B)又は図9(D)に示されている低い方の一定のピッチにすることでサンプリングレートの減少が生じる。このサンプリングレートの減少は、線形なスケールに対してこのフレームのスペクトルの帯域幅の増加をもたらし、この帯域幅の増加は、通常の非タイムワープの状況におけるライン数の値に対する特定の数のラインの削除又は破棄を使用して相殺しなければならない。
図9(E)は、タイムワーピング操作を実行する代わりに、フレーム内の平均のサンプリング周波数がタイムワーピングなしのサンプリング周波数と同じであるように、ピッチコンターが中間のレベルにされる特別な場合を示している。したがって、タイムワーピング操作が実行されるにもかかわらず、信号の帯域幅は影響を受けず、タイムワーピングなしの通常の場合に使用されるべき簡単な数のラインを処理することができる。図9から、タイムワーピング操作の実行が必ずしも帯域幅に影響を及ぼさないが、帯域幅はピッチコンター及びフレームにおけるタイムワープの実行の方法に依存して影響を受けることが明らかになる。したがって、制御値として、局部又は平均のサンプリングレートを使用することが好ましい。この局部サンプリングレートの決定が図11に示されている。図11の上部は等距離のサンプリング値を有する時間部分を示している。フレームは、例えば、上部のプロットにTnによって示されている7つのサンプリング値を含んでいる。下部のプロットは、タイムワーピング操作の結果を示しており、全体としてサンプリングレートの増加が生じている。これは、タイムワープ後のフレームの時間長がタイムワープ前のフレームの時間長よりも短いことを意味している。しかしながら、時間/周波数コンバータへ導入されるべきタイムワープ後のフレームの時間長は固定されているため、サンプリングレートの増加の場合は、Tnによって示されるフレームには属していない時間信号の追加の部分が、線1100によって示されるようにタイムワープ後のフレームへ導入される事態を引き起こす。すなわち、タイムワープ後のフレームは、時間Tnよりも長いTlinによって示されるオーディオ信号の時間部分を含んでいる。これに鑑み、線形ドメインにおける2つの周波数ラインの間の有効距離又は単一のラインの周波数帯域幅(分解能の逆数である)が減少しており、非タイムワープの場合について設定されるラインの数Nnが、減少した周波数距離によって乗算されるとき、より小さな帯域幅、すなわち帯域幅の減少をもたらす。
図11には示されていない、サンプリングレートの減少がタイムワーパーによって実行される他の場合は、タイムワープ後のドメインにおけるフレームの有効時間長が非タイムワープのドメインの時間長よりも短く、したがって単一のラインの周波数帯域幅又は2つの周波数ラインの間の距離が増加している。今度は、この増加したΔfを通常の場合におけるラインの数NNによって乗算することで、周波数分解能の低下/2つの隣接する周波数係数の間の周波数距離の増加により、帯域幅の増加がもたらされる。
図11はどのように平均サンプリングレートfSRが計算されるのかをさらに説明している。この目的のために、2つのタイムワープ後サンプルの間の時間距離が割り出され、2つのタイムワープ後サンプルの間の局部サンプリングレートとなるように規定される逆数の値がとられる。そのような値は、隣接するサンプルからなる各ペアの間で計算することができ、算術平均値を計算することができ、この値が最終的に図10Aのコントローラ1000への入力として好ましく使用される平均局部サンプリングレートをもたらす。
図10Bは、局部サンプリング周波数に応じて何本のラインを追加又は破棄しなければならないかを示すプロットを示しており、非ワープの場合におけるサンプリング周波数fNが、非タイムワープの場合におけるラインの数NNとともに、一連のタイムワープフレーム、又はタイムワープ及び非タイムワープを含む一連のフレームにおいて可能な限り一定に保たれるべき帯域幅を規定している。
図12Bは、図9、図10B及び図11に関連して説明した種々のパラメータの間の依存を示している。基本的に、フレームからフレームへの帯域幅の変動を少なくし、さらに好ましくは可能な限り取り除くために、サンプリングレート、すなわち平均サンプリングレートfSRが非タイムワープの場合に比べて減少するときはラインを削除しなければならず、一方、サンプリングレートが非タイムワープの場合の通常のサンプリングレートfNに比べて増加するときはラインを追加しなければならない。
ラインの数NN及びサンプリングレートfNによってもたらされる帯域幅は、帯域幅拡張エンコーダ(BWEエンコーダ)をソースコアオーディオエンコーダに加えて有しているオーディオコーダーのためのクロスオーバー周波数1200を好ましくは規定する。この技術分野において既知のように、帯域幅拡張エンコーダは、クロスオーバー周波数までのスペクトルだけを高いビットレートでコーディングし、高い帯域、すなわちクロスオーバー周波数1200と周波数fMAXとの間のスペクトルを低いビットレートでエンコードする。この低いビットレートは、典型的には、周波数ゼロとクロスオーバー周波数1200との間の低い帯域に必要とされるビットレートの1/10以下という低さである。さらに図12Aは簡単なAACオーディオエンコーダの帯域幅BWAACを示しており、その帯域幅BWAACはクロスオーバー周波数よりもはるかに高い。したがって、ラインは破棄できるだけでなく、追加することもできる。さらに、局部サンプリングレートfSRに応じた一定の数のラインについての帯域幅の変化も示されている。好ましくは、通常の場合のラインの数に対して追加又は削除されるべきラインの数は、AACエンコードされたデータの各フレームがクロスオーバー周波数1200に可能なかぎり近い最大周波数を有するように設定される。このようにして、一方では帯域幅の縮小に起因するスペクトルの穴、又は低帯域のエンコード後フレームにおいてクロスオーバー周波数を上回る周波数についての情報を送信することによる諸経費が回避される。これは、一方ではデコード後のオーディオ信号の品質を向上させ、他方ではビットレートを少なくする。
設定された数のラインに対するラインの実際の追加又は設定された数のラインに対するラインの削除は、ラインの量子化の前に、すなわちブロック512の入力において実行することができ、又は量子化に続いて実行することができ、又は特定のエントロピーコードに応じてエントロピーコーディングに続いて実行することもできる。
さらに、帯域幅の変動を最小のレベルにすることが好ましく、さらには帯域幅の変動をなくすことさえ好ましいが、他の実施例においては、タイムワーピング特性に応じたライン数の決定による帯域幅の変動の軽減さえ、一定の数のラインが特定のタイムワープ特性にかかわらずに適用される状況に比べて、オーディオの品質を向上させ必要とされるビットレートを少なくする。
いくつかの態様を装置によって説明してきたが、これらの態様は対応する方法の説明も示しており、ブロック又はデバイスが方法の各段階又は方法の各段階の特徴に対応することは明らかである。同様に、方法の各段階によって説明された態様は、対応する装置の対応するブロック、項目又は特徴の説明も示す。
特定の実施例の要件に応じて、本発明の実施の形態をハードウェア又はソフトウェアにて実現することが可能である。その実現は、例えばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリなど、それぞれの方法が実行されるようにプログラマブルなコンピューターシステムと協働する(あるいは、協働できる)電子的に読み取り可能な制御信号が保存されてなるデジタル記憶媒体を使用して実行することが可能である。本発明によるいくつかの実施の形態は、本明細書に記載の方法のうちの1つが実行されるようにプログラマブルなコンピューターシステムと協働することができる電子的に読み取り可能な制御信号を有しているデータ担体を含む。一般に、本発明のいくつかの実施の形態を、プログラムコードを有するコンピュータープログラム製品であって、コンピュータ上で実行されたときに前記プログラムコードが前記方法のうちの1つを実行するように動作することができるコンピュータープログラム製品として実現することができる。そのプログラムコードは、例えば機械で読み取ることができる担体に保存することができる。他のいくつかの実施の形態は、機械で読み取ることができる担体に保存され、本明細書に記載の方法のうちの1つを実行するコンピュータープログラムを含む。したがって、換言すると、本発明の方法の一実施の形態は、コンピューター上で実行されたときに本明細書に記載の方法のうちの1つを実行するためのプログラムコードを有しているコンピュータープログラムである。したがって、本発明の方法のさらなる実施の形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータープログラムが記録されてなるデータ担体(あるいは、デジタル記憶媒体又はコンピューターで読み取り可能な媒体)である。したがって、本発明の方法のさらなる実施の形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータープログラムを表わしているデータストリーム又は信号のシーケンスである。そのデータストリーム又は信号のシーケンスは、例えば、データ通信接続、例えば、インターネットを介して伝送されるように構成することができる。さらなる実施の形態は、本明細書に記載の方法のうちの1つを実行するように設定又は構成された、例えば、コンピューター又はプログラマブルな論理デバイスなどの処理手段を含む。さらなる実施の形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータープログラムがインストールされてなるコンピューターを含む。いくつかの実施の形態においては、プログラマブルな論理デバイス(例えば、フィールドプログラマブルゲートアレイ)を、本明細書に記載の方法の機能の一部又はすべてを実行するために使用することができる。いくつかの実施の形態においては、フィールドプログラマブルゲートアレイが、本明細書に記載の方法のうちの1つを実行するためにマイクロプロセッサと協働することができる。

Claims (43)

  1. オーディオ信号の表現(110;234e;234k)に基づいてタイムワープ作動信号(112;232;234p)を供給するためのタイムワープ作動信号供給部(100;230;234)であって、
    前記オーディオ信号のタイムワープ変換後のスペクトル表現(222)におけるエネルギーの圧縮を表わすエネルギー圧縮情報(122;234m;234n;326;374)を供給するように構成されたエネルギー圧縮情報供給部(120;234f;234l;325;370)と、
    前記エネルギー圧縮情報(122;234m;234n;326;374)を基準値と比較し、比較の結果に依存して前記タイムワープ作動信号(112;232;234p)を供給するように構成された比較部(130;234o)と、を備えているタイムワープ作動信号供給部。
  2. 前記エネルギー圧縮情報供給部(120;234f;234l)は、前記エネルギー圧縮情報(122;234m;234n)として、前記オーディオ信号のタイムワープ変換後のスペクトル表現(234e;234k)を描写するスペクトルの平坦さの指標を供給するように構成されている請求項1に記載のタイムワープ作動信号供給部(100;230;234)。
  3. 前記エネルギー圧縮情報供給部(120;234f;234l)は、前記スペクトルの平坦さの指標を得るために、前記オーディオ信号のタイムワープ変換後のパワースペクトル(234e;234k)の幾何平均と前記オーディオ信号のタイムワープ変換後のパワースペクトル(234e;234k)の算術平均との商を計算するように構成されている請求項2に記載のタイムワープ作動信号供給部(100;230;234)。
  4. 前記エネルギー圧縮情報供給部(120;234f;234l)は、前記エネルギー圧縮情報(122;234m;234n)を得るために、前記タイムワープ変換後のスペクトル表現(234e;234k)の高い方の周波数部分を、前記タイムワープ変換後のスペクトル表現(234e;234k)の低い方の周波数部分に比べて強調するように構成されている請求項1から3のいずれか一項に記載のタイムワープ作動信号供給部(100;230;234)。
  5. 前記エネルギー圧縮情報供給部(120;234f;234l)は、前記エネルギー圧縮情報(122;234m;234n)を得るために、スペクトルの平坦さについて複数の帯域ごとの指標を得、該複数の帯域ごとのスペクトルの平坦さの指標の平均を計算するように構成されている請求項1から4のいずれか一項に記載のタイムワープ作動信号供給部(100;230;234)。
  6. 前記エネルギー圧縮情報供給部(120;234f;234l;325)は、前記エネルギー圧縮情報(122;234m;234n)として、前記オーディオ信号のタイムワープ変換後のスペクトル表現(234e;234k)を描写する知覚エントロピー(pe)の指標を供給するように構成されている請求項1に記載のタイムワープ作動信号供給部(100;230;234)。
  7. 前記エネルギー圧縮情報供給部(120;234f;234l;325)は、前記オーディオ信号のタイムワープ変換後のスペクトル表現(234e;234k)の1つ以上のスケール係数帯について、非ゼロのラインの推定数(nl)を該スケール係数帯のフォームファクター情報(ffac(n))に基づいて計算し、対象となるスケール係数帯の知覚エントロピーの指標(326)を前記非ゼロのラインの推定数(nl)と対象となるスケール係数帯のエネルギーの指標との乗算を使用して計算するように構成されている請求項6に記載のタイムワープ作動信号供給部(100;230;234;325)。
  8. 前記エネルギー圧縮情報供給部(120;234f;234l;370)は、前記エネルギー圧縮情報として、前記オーディオ信号(234e;234k)のタイムワープ後の時間ドメイン表現の自己相関を描写する自己相関の指標(374)を供給するように構成されている請求項1に記載のタイムワープ作動信号供給部(100;230;234)。
  9. 前記エネルギー圧縮情報供給部(120;234f;234l;370)は、前記エネルギー圧縮情報を得るために、前記オーディオ信号のタイムワープ後の表現(234e;234k)の正規化された自己相関関数の絶対値の合計を割り出すように構成されている請求項8に記載のタイムワープ作動信号供給部(100;230;234)。
  10. 該タイムワープ作動信号供給部(100;230)は、前記オーディオ信号(210)の未ワープのスペクトル表現又は前記オーディオ信号(210)の未ワープの時間ドメイン表現に基づいて前記基準値を計算するように構成された基準値計算部を備えており、
    前記比較部は、前記オーディオ信号のタイムワープ変換後のスペクトル表現におけるエネルギーの圧縮を描写するエネルギー圧縮情報(122)及び前記基準値を使用して比の値を形成し、該比の値を1つ以上のしきい値と比較して、比較の結果として前記タイムワープ作動信号を得るように構成されている請求項1から9のいずれか一項に記載のタイムワープ作動信号供給部(100;230)。
  11. 該タイムワープ作動信号供給部(100;230)は、標準のタイムワープコンター情報(288)を使用してタイムワーピングされた前記入力信号(210)のタイムワープ後の表現に基づいて前記基準値を計算するように構成された基準値計算部を備えており、
    前記比較部は、前記オーディオ信号のタイムワープ後の表現におけるエネルギーの圧縮を描写するエネルギー圧縮情報(234e)及び前記基準値を使用して比の値を形成し、該比の値を1つ以上のしきい値と比較して、比較の結果として前記タイムワープ作動信号を得るように構成されている請求項1から9のいずれか一項に記載のタイムワープ作動信号供給部(230;234)。
  12. 入力オーディオ信号(210)をエンコードして、該入力オーディオ信号のエンコード済み表現(212)を得るためのオーディオ信号エンコーダ(200)であって、
    タイムワープコンターを使用して前記入力オーディオ信号(210)に基づいてタイムワープ変換後のスペクトル表現(222)を供給するように構成されたタイムワープ変換部(220)と、
    前記入力オーディオ信号(210)を受信し、タイムワープ作動信号(112;232;234p)を供給するように構成された請求項1から11のいずれか一項に記載のタイムワープ作動信号供給部(100;230;234)と、
    前記タイムワープ変換部(220)によって使用されるタイムワープコンターを描写するために、前記タイムワープ作動信号(112;232;234p)に応じて、非一定のタイムワープコンター部分を描写する新たに発見されたタイムワープコンター情報(286)又は一定のタイムワープコンター部分を描写する標準のタイムワープコンター情報(288)を選択的に前記タイムワープ変換部(220)へ供給するように構成されたコントローラ(240)と、を備えているオーディオ信号エンコーダ(200)。
  13. 前記タイムワープ変換後のスペクトル表現(222)を前記オーディオ信号のエンコード済み表現(212)へ含ませ、
    前記タイムワープ作動信号(232)に応じてタイムワープコンター情報を前記オーディオ信号のエンコード済み表現(212)へ選択的に含ませるように構成された出力インターフェイス(280)、を備えている請求項12に記載のオーディオ信号エンコーダ。
  14. オーディオ信号に基づいてタイムワープ作動信号を供給するための方法(400)であって、
    前記オーディオ信号のタイムワープ変換後のスペクトル表現におけるエネルギーの圧縮を描写するエネルギー圧縮情報を供給するステップ(410)、
    前記エネルギー圧縮情報を基準値と比較するステップ(420)、及び
    前記比較の結果に応じて前記タイムワープ作動信号を供給するステップ(430)を含んでいる方法。
  15. 入力オーディオ信号をエンコードして、該入力オーディオ信号のエンコード済み表現を得るための方法(450)であって、
    請求項14に従ってタイムワープ作動信号を供給するステップであって、前記エネルギー圧縮情報が前記入力オーディオ信号のタイムワープ変換後のスペクトル表現におけるエネルギーの圧縮を描写しているステップ(470)、及び
    前記入力オーディオ信号のタイムワープ変換後のスペクトル表現の描写又は前記入力オーディオ信号のタイムワープ変換されていないスペクトル表現の描写を、前記タイムワープ作動信号に応じて選択的に前記入力オーディオ信号のエンコード済み表現に含ませるために供給するステップ(480)を含んでいる方法。
  16. コンピューター上で実行されたときに請求項14又は15に記載の方法を実行するためのコンピュータープログラム。
  17. オーディオ信号をエンコードするためのオーディオエンコーダであって、
    オーディオ値を量子化するための量子化部であって、量子化しきい値を下回るオーディオ値をゼロに量子化するように構成されている量子化部(512)と、
    前記オーディオ信号の時間フレームについて、ゼロに量子化されたオーディオ値のエネルギーの指標を推定するためのノイズフィリング計算部(524)と、
    前記オーディオ信号の時間フレームがハーモニック又はスピーチ特性を有するか否かを分析するためのオーディオ信号分析部(516、520)と、
    前記オーディオ信号のハーモニック又はスピーチ特性に応じて前記ノイズフィリングの指標を操作し、操作済みのノイズフィリングの指標を得るための操作部(602)と、
    前記操作済みのノイズフィリングの指標(530)を含むエンコード済み信号を送信又は保存のために生成する出力インターフェイス(522)と、を備えているオーディオエンコーダ。
  18. 前記オーディオ信号分析部(516、520)は、前記オーディオ信号の時間フレームにおいてピッチが発見されたときにピッチの表示を生成するためのピッチトリガーを備えており、
    前記操作部(602)は、ピッチが発見されたときに前記ノイズフィリングの指標を減らすように構成されている請求項17に記載のオーディオエンコーダ。
  19. 前記オーディオ信号分析部は、前記時間フレームの少なくとも一部分が有声であるか否かを検出するための有声/無声検出部(520)を備えており、
    前記操作部(602)は、前記一部分が有声であると検出された場合に、前記ノイズフィリングの指標を減らし、又は前記ノイズフィリングの指標をゼロにするように構成されており、
    前記操作部(602)は、前記一部分が無声であると検出された場合に、前記ノイズフィリングの指標を操作せず、又は前記ノイズフィリングの指標に程度の軽い方の操作を加えるように構成されている請求項17又は18に記載のオーディオエンコーダ。
  20. エンコード済みのオーディオ信号をデコードするためのデコーダであって、
    エンコード済みのオーディオ信号を処理し、ノイズフィリングの指標(543)及びエンコード済みのオーディオデータ(546)を得るための入力インターフェイス(539)と、
    再量子化されたデータを生成するためのデコーダ/再量子化部(547、550)と、
    前記オーディオデータの時間フレームがハーモニック又はスピーチ特性を有しているか否かについての情報を取り出すための信号分析部(600)と、
    ノイズフィリングオーディオデータを生成するためのノイズフィラーであって、前記ノイズフィリングの指標と、前記オーディオデータのハーモニック又はスピーチ特性とに応答してノイズフィリングデータを生成するように構成されたノイズフィラー(552)と、
    前記再量子化されたデータ及び前記ノイズフィリングオーディオデータを処理し、デコード済みのオーディオ信号(564)を得るためのプロセッサ(556、558、560)と、を備えているデコーダ。
  21. 前記エンコード済みのオーディオ信号は、前記オーディオデータの時間フレームがハーモニック又はスピーチ特性を有しているか否かを示すデータ(542、541)を含んでおり、
    前記信号分析部(600)は、前記オーディオデータの時間フレームがハーモニック又はスピーチ特性を有しているか否かを示すデータを取り出すべく前記エンコード済みのオーディオ信号を分析するように構成されている請求項20に記載のデコーダ。
  22. 前記データは前記時間部分にタイムワーピング処理が加えられている旨の表示であり、
    前記プロセッサは、ノイズフィリングデータ及び再量子化されたデータから導出されるオーディオ信号をタイムデワーピングするタイムデワーパー(558)を備えている請求項21に記載のデコーダ。
  23. オーディオ信号のエンコーディングのための方法であって、
    オーディオ値を量子化するステップであって、量子化部が量子化しきい値を下回るオーディオ値をゼロに量子化するように構成されているステップ(512)、
    前記オーディオ信号の時間フレームについて、ゼロに量子化されたオーディオ値のエネルギーの指標を推定するステップ(524)、
    前記オーディオ信号の時間フレームがハーモニック又はスピーチ特性を有するか否かを分析するステップ(516、520)、
    前記オーディオ信号のハーモニック又はスピーチ特性に応じて前記ノイズフィリングの指標を操作し、操作済みのノイズフィリングの指標を得るステップ(602)、及び
    前記操作済みのノイズフィリングの指標(530)を含むエンコード済み信号を送信又は保存のために生成するステップ(522)、を含んでいる方法。
  24. エンコード済みのオーディオ信号のデコーディングのための方法であって、
    エンコード済みのオーディオ信号を処理し、ノイズフィリングの指標(543)及びエンコード済みのオーディオデータ(546)を得るステップ(539)、
    再量子化されたデータを生成するステップ(547、550)、
    前記オーディオデータの時間フレームがハーモニック又はスピーチ特性を有しているか否かについての情報を取り出すステップ(600)、
    前記ノイズフィリングの指標と、前記オーディオデータのハーモニック又はスピーチ特性とに応答してノイズフィリングオーディオデータを生成するステップ(552)、
    前記再量子化されたデータ及び前記ノイズフィリングオーディオデータを処理し、デコード済みのオーディオ信号(564)を得るステップ(556、558、560)、を含んでいる方法。
  25. コンピューター上で動作するときに請求項23又は24に記載の方法を実行するためのプログラムコードを有しているコンピュータープログラム。
  26. エンコード済みのオーディオ信号を生成するためのオーディオエンコーダであって、
    前記オーディオ信号の時間フレームがハーモニック又はスピーチ特性を有するか否かを分析するためのオーディオ信号分析部(516、520)と、
    前記オーディオ信号のハーモニック又はスピーチ特性に応じてウインドウ関数を選択するためのウインドウ関数コントローラ(504)と、
    前記選択されたウインドウ関数を使用して前記オーディオ信号にウインドウを適用し、ウインドウ処理されたフレームを得るためのウインドウ設定部(502)と、
    前記ウインドウ処理されたフレームをさらに処理し、前記エンコード済みのオーディオ信号を得るためのプロセッサ(508、512)と、を備えているオーディオエンコーダ。
  27. 前記ウインドウ関数コントローラ(504)は過渡を検出するための過渡検出部(700)を備えており、
    前記ウインドウ関数コントローラは、過渡が検出されかつ前記オーディオ信号分析部(516、520)によってハーモニック又はスピーチ特性が発見されない場合に長いブロックのためのウインドウ関数から短いブロックのためのウインドウ関数へと切り替えを行い、過渡が検出されかつ前記オーディオ信号分析部(516、520)によってハーモニック又はスピーチ特性が発見された場合に短いブロックのためのウインドウ関数への切り替えを行わないように構成されている請求項26に記載のオーディオエンコーダ。
  28. 前記過渡検出部(700)は、前記オーディオ信号の定量的特性を検出し、該定量的特性を制御可能なしきい値と比較し、該定量的特性が該制御可能なしきい値に対して所定の関係を有する場合に、過渡が検出されるように構成されており、
    前記オーディオ信号分析部は、該オーディオ信号分析部(516、520)がハーモニック又はスピーチ特性を発見した場合に短いブロックのためのウインドウ関数への切り替えの可能性が減らされるように、前記可変のしきい値を制御するように構成されている請求項26又は27に記載のオーディオエンコーダ。
  29. 前記ウインドウ関数コントローラ(504)は、過渡が検出されかつ前記信号がハーモニック又はスピーチ特性を有している場合に、短いブロックのためのウインドウ関数(712)よりも長いウインドウ関数(706、707)へと切り替えを行い、又は長いブロックのためのウインドウ関数(714)よりも短い重なり(712)を有するウインドウ関数へと切り替えを行うように構成されている請求項27又は28に記載のオーディオエンコーダ。
  30. エンコード済みのオーディオ信号を生成するための方法であって、
    前記オーディオ信号の時間フレームがハーモニック又はスピーチ特性を有するか否かを分析するステップ(516、520)、
    前記オーディオ信号のハーモニック又はスピーチ特性に応じてウインドウ関数を選択するステップ(504)、
    前記選択されたウインドウ関数を使用して前記オーディオ信号にウインドウを適用し、ウインドウ処理されたフレームを得るステップ(502)、及び
    前記ウインドウ処理されたフレームを処理し、前記エンコード済みのオーディオ信号を得るステップ(508、512)、を含んでいる方法。
  31. コンピューター上で動作するときに請求項30に記載の方法を実行するためのプログラムコードを有しているコンピュータープログラム。
  32. オーディオ信号を生成するためのオーディオエンコーダであって、
    前記オーディオ信号をタイムワーピングして、タイムワープ後のオーディオ信号を得るための制御可能なタイムワーパー(506)と、
    前記タイムワープ後のオーディオ信号の少なくとも一部分をスペクトル表現へ変換するための時間/周波数コンバータ(508)と、
    時間ノイズ整形制御命令(803)に従って前記スペクトル表現の周波数について予測フィルタ処理を実行し、前記時間ノイズ整形制御命令が存在しない場合には前記予測フィルタ処理を実行しない時間ノイズ整形段と、
    前記スペクトル表現に基づいて前記時間ノイズ整形制御命令を生成するための時間ノイズ整形コントローラ(800、802、804)と、
    前記時間ノイズ整形段の出力をさらに処理し、エンコード済みのオーディオ信号(532)を得るためのプロセッサ(512)と、を備えており、
    前記時間ノイズ整形コントローラは、前記スペクトル表現がタイムワープ後のオーディオ信号に基づいている場合に周波数について前記予測フィルタ処理を実行する可能性を高め、又は前記スペクトル表現がタイムワープ後のオーディオ信号に基づいていない場合に周波数について前記予測フィルタ処理を実行する可能性を減らすように構成されているオーディオエンコーダ。
  33. 前記時間ノイズ整形コントローラ(800、802、804)は、前記オーディオ信号に前記時間ノイズ整形段(510)によって前記予測フィルタ処理が加えられたときのビットレート又は品質のゲインを推定し、該推定によるゲインを決定しきい値と比較(802)し、
    該推定によるゲインが該決定しきい値に対して所定の関係にある場合に前記予測フィルタ処理を支持する決定を行う(802)ように構成されており、
    前記時間ノイズ整形コントローラは、前記推定によるゲインが同じであっても、前記スペクトル表現がタイムワープ後の信号に基づいている場合には前記予測フィルタ処理が有効にされ、前記スペクトル表現がタイムワープが加えられていないオーディオ信号に基づいていない場合には前記予測フィルタ処理が無効にされるように、前記決定しきい値を変化させる(804)ようにさらに構成されている請求項32に記載のオーディオエンコーダ。
  34. 前記タイムワーパーは有声又は無声のスピーチを検出するための信号分類部(520)を備えており、
    前記時間ノイズ整形コントローラ(800、802、804)は、有声のスピーチが検出された場合、又は無声のスピーチが検出されかつ前記スペクトル表現がタイムワープ後のオーディオ信号に基づいている場合に、前記可能性を高めるように構成されている請求項32又は33に記載のオーディオエンコーダ。
  35. オーディオ信号を生成するための方法であって、
    前記オーディオ信号をタイムワーピングして、タイムワープ後のオーディオ信号を得るステップ(506)のために、
    前記タイムワープ後のオーディオ信号の少なくとも一部分をスペクトル表現へ変換するステップ(508)、
    時間ノイズ整形制御命令(803)に従って前記スペクトル表現の周波数について予測フィルタ処理を実行し、前記時間ノイズ整形制御命令が存在しない場合には前記予測フィルタ処理を実行しないステップ、
    前記スペクトル表現に基づいて前記時間ノイズ整形制御命令を生成するステップ(800、802、804)、及び
    前記時間ノイズ整形段の出力を処理し、エンコード済みのオーディオ信号(532)を得るステップ(512)、を含んでおり、
    前記時間ノイズ整形コントローラは、前記スペクトル表現がタイムワープ後のオーディオ信号に基づいている場合に周波数について前記予測フィルタ処理を実行する可能性を高め、又は前記スペクトル表現がタイムワープが加えられていないオーディオ信号に基づいていない場合に周波数について前記予測フィルタ処理を実行する可能性を減らすように構成されている方法。
  36. コンピューター上で動作するときに請求項35に記載の方法を実行するためのプログラムコードを有しているコンピュータープログラム。
  37. オーディオ信号のエンコーディングのためのオーディオエンコーダであって、
    可変のタイムワーピング特性を使用してオーディオ信号のワーピングを行うためのタイムワーパー(506)と、
    タイムワープ後のオーディオ信号を多数のスペクトル係数を有するスペクトル表現へ変換するための時間/周波数コンバータ(508)と、
    可変の数のスペクトル係数を処理し、エンコード済みのオーディオ信号を生成するためのプロセッサ(512)と、を備えており、
    前記プロセッサ(512、1000)は、処理される周波数係数の数によって表わされるフレームごとの帯域幅の変動が軽減又は除去されるように、前記オーディオ信号のフレームのためのスペクトル係数の数をフレームの前記タイムワーピング特性に基づいて可変に設定するように構成されているオーディオエンコーダ。
  38. 前記可変のタイムワーピング特性は、フレームの局部サンプリング周波数(fSR)を含んでおり、
    前記プロセッサ(512、1000)は、前記局部サンプリング周波数が増加する場合にスペクトル係数の数を増加させるように構成されており、又は前記局部サンプリング周波数が減少する場合にスペクトル係数の数を減少させるように構成されている請求項37に記載のオーディオエンコーダ。
  39. クロスオーバー周波数(1200)を上回るスペクトル帯を、該クロスオーバー周波数(1200)を上回るオーディオ信号の帯域から導出されるパラメータを使用してエンコードするための帯域幅拡張エンコーダをさらに備えており、前記クロスオーバー周波数が各フレームの目標帯域幅の最大周波数となっている請求項37又は38に記載のオーディオエンコーダ。
  40. 前記オーディオ信号はタイムワーピングされる前に通常のサンプリング周波数(fN)を使用してサンプリングされており、
    前記プロセッサ(512、1000)は、前記局部サンプリング周波数が前記通常のサンプリング周波数に等しい場合に前記クロスオーバー周波数及び前記通常のサンプリング周波数から導出される所定の数(NN)のスペクトル係数を使用し、又は前記局部サンプリング周波数が前記通常のサンプリング周波数(fN)よりも高い場合に前記所定の数(NN)のスペクトル係数よりも多数のスペクトル係数を使用し、又は前記局部サンプリング周波数が前記通常のサンプリング周波数(fN)よりも低い場合に前記所定の数のスペクトル係数よりも少数のスペクトル係数を使用するように構成されている請求項37から39のいずれか一項に記載のオーディオエンコーダ。
  41. 前記プロセッサは、前記スペクトル係数を量子化し量子化済みのスペクトル係数を得るための量子化部と、該量子化済みのスペクトル係数をエントロピーエンコーディングするためのエントロピーエンコーダと、を備えており、
    前記プロセッサ(512、1000)は、量子化の前又は後で前記設定された数のスペクトル係数に含まれないスペクトル係数を破棄するためのセレクターを含んでおり、結果として前記エンコード済みのオーディオ信号が破棄されなかったスペクトル係数だけを含み、又は
    前記プロセッサは、量子化の前又は後で前記設定された数のスペクトル係数により必要となるスペクトル係数を追加するためのセレクターを含んでおり、結果として前記エンコード済みのオーディオ信号が追加されたスペクトル係数をさらに含む請求項37から40のいずれか一項に記載のオーディオエンコーダ。
  42. オーディオ信号のエンコーディングのための方法であって、
    可変のタイムワーピング特性を使用してオーディオ信号のタイムワーピングを行うステップ(506)、
    タイムワープ後のオーディオ信号を多数のスペクトル係数を有するスペクトル表現へ変換するステップ(508)、及び
    可変の数のスペクトル係数を処理し、エンコード済みのオーディオ信号を生成するステップ(512)、を含んでおり、
    処理される周波数係数の数によって表わされるフレームごとの帯域幅の変動が軽減又は除去されるように、前記オーディオ信号のフレームのためのスペクトル係数の可変の数がフレームの前記タイムワーピング特性に基づいて設定される方法。
  43. コンピューター上で動作するときに請求項42に記載の方法を実行するためのプログラムコードを有しているコンピュータープログラム。
JP2011517015A 2008-07-11 2009-07-06 オーディオ信号エンコーダ、オーディオ信号デコーダ、オーディオ信号をエンコードするための方法、オーディオ信号をデコードするための方法及びコンピュータープログラム Active JP5538382B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US7987308P 2008-07-11 2008-07-11
US61/079,873 2008-07-11
PCT/EP2009/004874 WO2010003618A2 (en) 2008-07-11 2009-07-06 Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs

Related Child Applications (4)

Application Number Title Priority Date Filing Date
JP2013168612A Division JP5591386B2 (ja) 2008-07-11 2013-08-14 タイムワープ作動信号供給部、オーディオ信号エンコーダ、タイムワープ作動信号を供給するための方法、オーディオ信号をエンコードするための方法、及びコンピュータープログラム
JP2013168606A Division JP5567191B2 (ja) 2008-07-11 2013-08-14 オーディオ信号エンコーダ、オーディオ信号をエンコードするための方法、及びコンピュータープログラム
JP2013168605A Division JP5591385B2 (ja) 2008-07-11 2013-08-14 オーディオ信号エンコーダ、オーディオ信号をエンコードするための方法、及びコンピュータープログラム
JP2013168610A Division JP5567192B2 (ja) 2008-07-11 2013-08-14 オーディオ信号エンコーダ、オーディオ信号をエンコードするための方法、及びコンピュータープログラム

Publications (2)

Publication Number Publication Date
JP2011527458A true JP2011527458A (ja) 2011-10-27
JP5538382B2 JP5538382B2 (ja) 2014-07-02

Family

ID=41037694

Family Applications (5)

Application Number Title Priority Date Filing Date
JP2011517015A Active JP5538382B2 (ja) 2008-07-11 2009-07-06 オーディオ信号エンコーダ、オーディオ信号デコーダ、オーディオ信号をエンコードするための方法、オーディオ信号をデコードするための方法及びコンピュータープログラム
JP2013168610A Active JP5567192B2 (ja) 2008-07-11 2013-08-14 オーディオ信号エンコーダ、オーディオ信号をエンコードするための方法、及びコンピュータープログラム
JP2013168606A Active JP5567191B2 (ja) 2008-07-11 2013-08-14 オーディオ信号エンコーダ、オーディオ信号をエンコードするための方法、及びコンピュータープログラム
JP2013168612A Active JP5591386B2 (ja) 2008-07-11 2013-08-14 タイムワープ作動信号供給部、オーディオ信号エンコーダ、タイムワープ作動信号を供給するための方法、オーディオ信号をエンコードするための方法、及びコンピュータープログラム
JP2013168605A Active JP5591385B2 (ja) 2008-07-11 2013-08-14 オーディオ信号エンコーダ、オーディオ信号をエンコードするための方法、及びコンピュータープログラム

Family Applications After (4)

Application Number Title Priority Date Filing Date
JP2013168610A Active JP5567192B2 (ja) 2008-07-11 2013-08-14 オーディオ信号エンコーダ、オーディオ信号をエンコードするための方法、及びコンピュータープログラム
JP2013168606A Active JP5567191B2 (ja) 2008-07-11 2013-08-14 オーディオ信号エンコーダ、オーディオ信号をエンコードするための方法、及びコンピュータープログラム
JP2013168612A Active JP5591386B2 (ja) 2008-07-11 2013-08-14 タイムワープ作動信号供給部、オーディオ信号エンコーダ、タイムワープ作動信号を供給するための方法、オーディオ信号をエンコードするための方法、及びコンピュータープログラム
JP2013168605A Active JP5591385B2 (ja) 2008-07-11 2013-08-14 オーディオ信号エンコーダ、オーディオ信号をエンコードするための方法、及びコンピュータープログラム

Country Status (18)

Country Link
US (7) US9015041B2 (ja)
EP (5) EP2410522B1 (ja)
JP (5) JP5538382B2 (ja)
KR (5) KR101400484B1 (ja)
CN (5) CN103077722B (ja)
AR (8) AR072740A1 (ja)
AT (1) ATE539433T1 (ja)
AU (1) AU2009267433B2 (ja)
BR (1) BRPI0910790A2 (ja)
CA (5) CA2730239C (ja)
ES (5) ES2654432T3 (ja)
HK (5) HK1155551A1 (ja)
MX (1) MX2011000368A (ja)
PL (4) PL2311033T3 (ja)
PT (3) PT2410520T (ja)
RU (5) RU2536679C2 (ja)
TW (1) TWI463484B (ja)
WO (1) WO2010003618A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9129597B2 (en) 2010-03-10 2015-09-08 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Audio signal decoder, audio signal encoder, methods and computer program using a sampling rate dependent time-warp contour encoding
JP2019519869A (ja) * 2016-04-08 2019-07-11 ソース ディジタル インコーポレイテッド オーディオエネルギー特性に基づくオーディオフィンガープリンティング

Families Citing this family (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2410522B1 (en) 2008-07-11 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, method for encoding an audio signal and computer program
WO2011076285A1 (en) * 2009-12-23 2011-06-30 Nokia Corporation Sparse audio
BR112012025878B1 (pt) 2010-04-09 2021-01-05 Dolby International Ab sistema decodificador, sistema codificador, método de decodificação e método de codificação.
US9236063B2 (en) 2010-07-30 2016-01-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
US9208792B2 (en) * 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
WO2012037515A1 (en) 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding
CN103282958B (zh) * 2010-10-15 2016-03-30 华为技术有限公司 信号分析器、信号分析方法、信号合成器、信号合成方法、变换器和反向变换器
US9792925B2 (en) * 2010-11-25 2017-10-17 Nec Corporation Signal processing device, signal processing method and signal processing program
EP2665060B1 (en) * 2011-01-14 2017-03-08 Panasonic Intellectual Property Corporation of America Apparatus for coding a speech/sound signal
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
CN105304090B (zh) 2011-02-14 2019-04-09 弗劳恩霍夫应用研究促进协会 使用对齐的前瞻部分将音频信号编码及解码的装置与方法
PL2676266T3 (pl) 2011-02-14 2015-08-31 Fraunhofer Ges Forschung Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej
TWI484479B (zh) 2011-02-14 2015-05-11 Fraunhofer Ges Forschung 用於低延遲聯合語音及音訊編碼中之錯誤隱藏之裝置和方法
MX2012013025A (es) 2011-02-14 2013-01-22 Fraunhofer Ges Forschung Representacion de señal de informacion utilizando transformada superpuesta.
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
ES2529025T3 (es) 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
SG192718A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Audio codec using noise synthesis during inactive phases
BR112013020588B1 (pt) * 2011-02-14 2021-07-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparelho e método para codificação de uma parte de um sinal de áudio utilizando uma detecção transiente e um resultado de qualidade
WO2012122303A1 (en) 2011-03-07 2012-09-13 Xiph. Org Method and system for two-step spreading for tonal artifact avoidance in audio coding
US9015042B2 (en) * 2011-03-07 2015-04-21 Xiph.org Foundation Methods and systems for avoiding partial collapse in multi-block audio coding
US9009036B2 (en) 2011-03-07 2015-04-14 Xiph.org Foundation Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding
US8891775B2 (en) * 2011-05-09 2014-11-18 Dolby International Ab Method and encoder for processing a digital stereo audio signal
MX350162B (es) * 2011-06-30 2017-08-29 Samsung Electronics Co Ltd Aparato y método para generar señal extendida de ancho de banda.
CN102208188B (zh) 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
CN104011794B (zh) * 2011-12-21 2016-06-08 杜比国际公司 具有并行架构的音频编码器
KR20130109793A (ko) * 2012-03-28 2013-10-08 삼성전자주식회사 잡음 감쇄를 위한 오디오 신호 부호화 방법 및 장치
RU2725416C1 (ru) * 2012-03-29 2020-07-02 Телефонактиеболагет Лм Эрикссон (Пабл) Расширение полосы частот гармонического аудиосигнала
EP3220390B1 (en) * 2012-03-29 2018-09-26 Telefonaktiebolaget LM Ericsson (publ) Transform encoding/decoding of harmonic audio signals
EP2709106A1 (en) 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
CN103854653B (zh) 2012-12-06 2016-12-28 华为技术有限公司 信号解码的方法和设备
WO2014096236A2 (en) * 2012-12-19 2014-06-26 Dolby International Ab Signal adaptive fir/iir predictors for minimizing entropy
AU2013366552B2 (en) 2012-12-21 2017-03-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Comfort noise addition for modeling background noise at low bit-rates
PT2936487T (pt) 2012-12-21 2016-09-23 Fraunhofer Ges Forschung Geração de um ruído de conforto com alta resolução espetrotemporal em transmissão descontínua de sinais de áudio
EP3893240B1 (en) 2013-01-08 2024-04-24 Dolby International AB Model based prediction in a critically sampled filterbank
BR112015017748B1 (pt) * 2013-01-29 2022-03-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Preenchimento de ruído na codificação de áudio de transformada perceptual
MX347080B (es) * 2013-01-29 2017-04-11 Fraunhofer Ges Forschung Llenado con ruido sin informacion secundaria para celp (para codificadores tipo celp).
AU2014211520B2 (en) 2013-01-29 2017-04-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Low-frequency emphasis for LPC-based coding in frequency domain
CN103971694B (zh) 2013-01-29 2016-12-28 华为技术有限公司 带宽扩展频带信号的预测方法、解码设备
SG10201608613QA (en) * 2013-01-29 2016-12-29 Fraunhofer Ges Forschung Decoder For Generating A Frequency Enhanced Audio Signal, Method Of Decoding, Encoder For Generating An Encoded Signal And Method Of Encoding Using Compact Selection Side Information
KR20220140002A (ko) 2013-04-05 2022-10-17 돌비 레버러토리즈 라이쎈싱 코오포레이션 향상된 스펙트럼 확장을 사용하여 양자화 잡음을 감소시키기 위한 압신 장치 및 방법
MX343673B (es) * 2013-04-05 2016-11-16 Dolby Int Ab Codificador y decodificador de audio.
RU2665228C1 (ru) * 2013-04-05 2018-08-28 Долби Интернэшнл Аб Аудиокодер и декодер для кодирования по форме волны с перемежением
CN105359210B (zh) * 2013-06-21 2019-06-14 弗朗霍夫应用科学研究促进协会 Fdns应用前实现将mdct频谱衰落到白噪声的装置及方法
EP3011692B1 (en) 2013-06-21 2017-06-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Jitter buffer control, audio decoder, method and computer program
BR112015032174B1 (pt) * 2013-06-21 2021-02-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V escalador de tempo, descodificador de áudio, método e um programa de computador utilizando um controle de qualidade
CN108364657B (zh) 2013-07-16 2020-10-30 超清编解码有限公司 处理丢失帧的方法和解码器
EP2830063A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for decoding an encoded audio signal
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
US9363027B2 (en) * 2013-08-16 2016-06-07 Arris Enterprises, Inc. Remote modulation of pre-transformed data
CN106683681B (zh) * 2014-06-25 2020-09-25 华为技术有限公司 处理丢失帧的方法和装置
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980793A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder, system and methods for encoding and decoding
EP2980798A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
MX349256B (es) 2014-07-28 2017-07-19 Fraunhofer Ges Forschung Aparato y metodo para seleccionar uno de un primer algoritmo de codificacion y un segundo algoritmo de codificacion usando reduccion de armonicos.
EP2980792A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
EP2980801A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
KR102137537B1 (ko) * 2015-06-30 2020-07-27 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 잡음을 연관시키기 위한 그리고 분석하기 위한 방법 및 장치
US9514766B1 (en) * 2015-07-08 2016-12-06 Continental Automotive Systems, Inc. Computationally efficient data rate mismatch compensation for telephony clocks
JP6705142B2 (ja) * 2015-09-17 2020-06-03 ヤマハ株式会社 音質判定装置及びプログラム
US10186276B2 (en) * 2015-09-25 2019-01-22 Qualcomm Incorporated Adaptive noise suppression for super wideband music
US20170178648A1 (en) * 2015-12-18 2017-06-22 Dolby International Ab Enhanced Block Switching and Bit Allocation for Improved Transform Audio Coding
US9640157B1 (en) * 2015-12-28 2017-05-02 Berggram Development Oy Latency enhanced note recognition method
US9711121B1 (en) * 2015-12-28 2017-07-18 Berggram Development Oy Latency enhanced note recognition method in gaming
BR112018014799A2 (pt) 2016-01-22 2018-12-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. aparelho e método para estimativa de uma diferença de tempo entre canais
US9874624B2 (en) * 2016-02-29 2018-01-23 Nextnav, Llc Interference detection and rejection for wide area positioning systems using maximal ratio combining in the correlation domain
CN106093453B (zh) * 2016-06-06 2019-10-22 广东溢达纺织有限公司 整经机经轴密度检测装置及方法
CN106356076B (zh) * 2016-09-09 2019-11-05 北京百度网讯科技有限公司 基于人工智能的语音活动性检测方法和装置
KR102230645B1 (ko) * 2016-09-14 2021-03-19 매직 립, 인코포레이티드 공간화 오디오를 갖는 가상 현실, 증강 현실 및 혼합 현실 시스템들
US10242696B2 (en) 2016-10-11 2019-03-26 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications
US10475471B2 (en) * 2016-10-11 2019-11-12 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications using a neural network
US20180218572A1 (en) 2017-02-01 2018-08-02 Igt Gaming system and method for determining awards based on matching symbols
EP3382703A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and methods for processing an audio signal
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
US10431242B1 (en) * 2017-11-02 2019-10-01 Gopro, Inc. Systems and methods for identifying speech based on spectral features
EP3483879A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
JP6975928B2 (ja) * 2018-03-20 2021-12-01 パナソニックIpマネジメント株式会社 トリマー刃及び体毛切断装置
CN109448749B (zh) * 2018-12-19 2022-02-15 中国科学院自动化研究所 基于有监督学习听觉注意的语音提取方法、系统、装置
CN113470671B (zh) * 2021-06-28 2024-01-23 安徽大学 一种充分利用视觉与语音联系的视听语音增强方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005530206A (ja) * 2002-06-17 2005-10-06 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 合成されたスペクトル成分に適合するようにデコードされた信号の特性を使用するオーディオコーディングシステム
JP2005530205A (ja) * 2002-06-17 2005-10-06 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スペクトルホール充填を用いるオーディオコーディングシステム
JP2009541802A (ja) * 2006-06-30 2009-11-26 フラウンホーファーゲゼルシャフト・ツア・フェルデルング・デア・アンゲバンテン・フォルシュング・エー・ファウ 動的可変ワーピング特性を有するオーディオエンコーダ、オーディオデコーダ及びオーディオプロセッサ

Family Cites Families (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07850B2 (ja) * 1986-03-11 1995-01-11 河本製機株式会社 フイラメント糸の経糸糊付乾燥方法と経糸糊付乾燥装置
US5054075A (en) 1989-09-05 1991-10-01 Motorola, Inc. Subband decoding method and apparatus
JP3076859B2 (ja) 1992-04-20 2000-08-14 三菱電機株式会社 ディジタルオーディオ信号の信号処理装置
US5408580A (en) * 1992-09-21 1995-04-18 Aware, Inc. Audio compression system employing multi-rate signal analysis
FI105001B (fi) * 1995-06-30 2000-05-15 Nokia Mobile Phones Ltd Menetelmä odotusajan selvittämiseksi puhedekooderissa epäjatkuvassa lähetyksessä ja puhedekooderi sekä lähetin-vastaanotin
US5704003A (en) * 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
JP3707116B2 (ja) 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
US5659622A (en) 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
US5848391A (en) 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
US6134518A (en) 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
KR100261254B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
KR100261253B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
US6016111A (en) 1997-07-31 2000-01-18 Samsung Electronics Co., Ltd. Digital data coding/decoding method and apparatus
US6070137A (en) * 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
ES2247741T3 (es) 1998-01-22 2006-03-01 Deutsche Telekom Ag Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.
US6115689A (en) 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6330533B2 (en) 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6449590B1 (en) 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
US7047185B1 (en) * 1998-09-15 2006-05-16 Skyworks Solutions, Inc. Method and apparatus for dynamically switching between speech coders of a mobile unit as a function of received signal quality
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6223151B1 (en) 1999-02-10 2001-04-24 Telefon Aktie Bolaget Lm Ericsson Method and apparatus for pre-processing speech signals prior to coding by transform-based speech coders
DE19910833C1 (de) * 1999-03-11 2000-05-31 Mayer Textilmaschf Kurzketten-Schärmaschine
JP2003500708A (ja) 1999-05-26 2003-01-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声信号送信システム
US6581032B1 (en) 1999-09-22 2003-06-17 Conexant Systems, Inc. Bitstream protocol for transmission of encoded voice signals
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6366880B1 (en) * 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
US6718309B1 (en) * 2000-07-26 2004-04-06 Ssi Corporation Continuously variable time scale modification of digital audio signals
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
US6850884B2 (en) 2000-09-15 2005-02-01 Mindspeed Technologies, Inc. Selection of coding parameters based on spectral content of a speech signal
JP2004513557A (ja) * 2000-11-03 2004-04-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号のパラメトリック符号化方法及び装置
US6925435B1 (en) * 2000-11-27 2005-08-02 Mindspeed Technologies, Inc. Method and apparatus for improved noise reduction in a speech encoder
SE0004818D0 (sv) 2000-12-22 2000-12-22 Coding Technologies Sweden Ab Enhancing source coding systems by adaptive transposition
JP2004519738A (ja) 2001-04-05 2004-07-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 決定された信号型式に固有な技術を適用する信号の時間目盛修正
FI110729B (fi) 2001-04-11 2003-03-14 Nokia Corp Menetelmä pakatun audiosignaalin purkamiseksi
WO2002093560A1 (en) 2001-05-10 2002-11-21 Dolby Laboratories Licensing Corporation Improving transient performance of low bit rate audio coding systems by reducing pre-noise
DE20108778U1 (de) 2001-05-25 2001-08-02 Mannesmann Vdo Ag Gehäuse für ein in einem Fahrzeug verwendbares Gerät zur automatischen Ermittlung von Straßenbenutzungsgebühren
US6879955B2 (en) * 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
EP1278185A3 (en) 2001-07-13 2005-02-09 Alcatel Method for improving noise reduction in speech transmission
US6963842B2 (en) 2001-09-05 2005-11-08 Creative Technology Ltd. Efficient system and method for converting between different transform-domain signal representations
CN1319043C (zh) 2001-10-26 2007-05-30 皇家飞利浦电子股份有限公司 用于编码和解码音频信号的方法与设备以及包括这样的设备的系统
CA2365203A1 (en) 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
JP2003316392A (ja) 2002-04-22 2003-11-07 Mitsubishi Electric Corp オーディオ信号の復号化及び符号化装置、復号化装置並びに符号化装置
US6950634B2 (en) 2002-05-23 2005-09-27 Freescale Semiconductor, Inc. Transceiver circuit arrangement and method
US7457757B1 (en) 2002-05-30 2008-11-25 Plantronics, Inc. Intelligibility control for speech communications systems
US7043423B2 (en) * 2002-07-16 2006-05-09 Dolby Laboratories Licensing Corporation Low bit-rate audio coding systems and methods that use expanding quantizers with arithmetic coding
AU2003278013A1 (en) 2002-10-11 2004-05-04 Voiceage Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
KR20040058855A (ko) * 2002-12-27 2004-07-05 엘지전자 주식회사 음성 변조 장치 및 방법
IL165425A0 (en) * 2004-11-28 2006-01-15 Yeda Res & Dev Methods of treating disease by transplantation of developing allogeneic or xenogeneic organs or tissues
US7024358B2 (en) * 2003-03-15 2006-04-04 Mindspeed Technologies, Inc. Recovering an erased voice frame with time warping
JP4629353B2 (ja) * 2003-04-17 2011-02-09 インベンテイオ・アクテイエンゲゼルシヤフト エスカレータまたは動く歩道のための移動手摺り駆動装置
EP1618557B1 (en) 2003-05-01 2007-07-25 Nokia Corporation Method and device for gain quantization in variable bit rate wideband speech coding
US7363221B2 (en) * 2003-08-19 2008-04-22 Microsoft Corporation Method of noise reduction using instantaneous signal-to-noise ratio as the principal quantity for optimal estimation
JP3954552B2 (ja) * 2003-09-18 2007-08-08 有限会社スズキワーパー ヤーンガイドの空転防止機構付サンプル整経機
KR100604897B1 (ko) * 2004-09-07 2006-07-28 삼성전자주식회사 하드 디스크 드라이브 조립체, 하드 디스크 드라이브의장착 구조 및 이를 채용한 휴대폰
KR100640893B1 (ko) * 2004-09-07 2006-11-02 엘지전자 주식회사 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
WO2006079813A1 (en) 2005-01-27 2006-08-03 Synchro Arts Limited Methods and apparatus for use in sound modification
US8155965B2 (en) * 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
RU2376657C2 (ru) 2005-04-01 2009-12-20 Квэлкомм Инкорпорейтед Системы, способы и устройства для высокополосного предыскажения шкалы времени
JP4550652B2 (ja) 2005-04-14 2010-09-22 株式会社東芝 音響信号処理装置、音響信号処理プログラム及び音響信号処理方法
US7885809B2 (en) * 2005-04-20 2011-02-08 Ntt Docomo, Inc. Quantization of speech and audio coding parameters using partial information on atypical subsequences
TWI317933B (en) 2005-04-22 2009-12-01 Qualcomm Inc Methods, data storage medium,apparatus of signal processing,and cellular telephone including the same
CN1862969B (zh) * 2005-05-11 2010-06-09 尼禄股份公司 自适应块长、常数变换音频解码方法
US20070079227A1 (en) 2005-08-04 2007-04-05 Toshiba Corporation Processor for creating document binders in a document management system
JP4450324B2 (ja) * 2005-08-15 2010-04-14 日立オートモティブシステムズ株式会社 内燃機関の始動制御装置
JP2007084597A (ja) 2005-09-20 2007-04-05 Fuji Shikiso Kk 表面処理カーボンブラック組成物およびその製造方法
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US7366658B2 (en) * 2005-12-09 2008-04-29 Texas Instruments Incorporated Noise pre-processor for enhanced variable rate speech codec
TWI336599B (en) 2006-02-23 2011-01-21 Lg Electronics Inc Method and apparatus for processing a audio signal
TWI294107B (en) * 2006-04-28 2008-03-01 Univ Nat Kaohsiung 1St Univ Sc A pronunciation-scored method for the application of voice and image in the e-learning
US7873511B2 (en) 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8682652B2 (en) 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US8036903B2 (en) 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
US9653088B2 (en) 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
EP2107556A1 (en) 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2410522B1 (en) 2008-07-11 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, method for encoding an audio signal and computer program
JP5297891B2 (ja) 2009-05-25 2013-09-25 京楽産業.株式会社 遊技機
US8670990B2 (en) 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
US8886548B2 (en) 2009-10-21 2014-11-11 Panasonic Corporation Audio encoding device, decoding device, method, circuit, and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005530206A (ja) * 2002-06-17 2005-10-06 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 合成されたスペクトル成分に適合するようにデコードされた信号の特性を使用するオーディオコーディングシステム
JP2005530205A (ja) * 2002-06-17 2005-10-06 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スペクトルホール充填を用いるオーディオコーディングシステム
JP2009541802A (ja) * 2006-06-30 2009-11-26 フラウンホーファーゲゼルシャフト・ツア・フェルデルング・デア・アンゲバンテン・フォルシュング・エー・ファウ 動的可変ワーピング特性を有するオーディオエンコーダ、オーディオデコーダ及びオーディオプロセッサ

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9129597B2 (en) 2010-03-10 2015-09-08 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Audio signal decoder, audio signal encoder, methods and computer program using a sampling rate dependent time-warp contour encoding
US9524726B2 (en) 2010-03-10 2016-12-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal decoder, audio signal encoder, method for decoding an audio signal, method for encoding an audio signal and computer program using a pitch-dependent adaptation of a coding context
JP2019519869A (ja) * 2016-04-08 2019-07-11 ソース ディジタル インコーポレイテッド オーディオエネルギー特性に基づくオーディオフィンガープリンティング

Also Published As

Publication number Publication date
ES2758799T3 (es) 2020-05-06
CN103000177A (zh) 2013-03-27
CA2730239A1 (en) 2010-01-14
HK1184903A1 (en) 2014-01-30
CA2836863C (en) 2016-09-13
RU2012150075A (ru) 2014-05-27
JP5591386B2 (ja) 2014-09-17
CA2836862A1 (en) 2010-01-14
KR20110043589A (ko) 2011-04-27
US9646632B2 (en) 2017-05-09
JP5567191B2 (ja) 2014-08-06
KR101360456B1 (ko) 2014-02-07
RU2012150074A (ru) 2014-05-27
US20150066488A1 (en) 2015-03-05
CN102150201B (zh) 2013-04-17
KR101400513B1 (ko) 2014-05-28
PT2410522T (pt) 2018-01-09
TW201009812A (en) 2010-03-01
EP2311033A2 (en) 2011-04-20
EP2410521A1 (en) 2012-01-25
MX2011000368A (es) 2011-03-02
HK1182830A1 (en) 2013-12-06
CN103000186B (zh) 2015-01-14
RU2621965C2 (ru) 2017-06-08
RU2012150076A (ru) 2014-05-27
CA2836871A1 (en) 2010-01-14
AR097970A2 (es) 2016-04-20
AR097968A2 (es) 2016-04-20
CN103000177B (zh) 2015-03-25
ES2379761T3 (es) 2012-05-03
EP2410519A1 (en) 2012-01-25
US9263057B2 (en) 2016-02-16
EP2410522B1 (en) 2017-10-04
AU2009267433A1 (en) 2010-01-14
KR101400535B1 (ko) 2014-05-28
AR072740A1 (es) 2010-09-15
EP2311033B1 (en) 2011-12-28
EP2410522A1 (en) 2012-01-25
ES2741963T3 (es) 2020-02-12
US20150066489A1 (en) 2015-03-05
RU2589309C2 (ru) 2016-07-10
ES2654433T3 (es) 2018-02-13
KR20130093671A (ko) 2013-08-22
RU2586843C2 (ru) 2016-06-10
KR101400484B1 (ko) 2014-05-28
RU2580096C2 (ru) 2016-04-10
PT2410521T (pt) 2018-01-09
US9431026B2 (en) 2016-08-30
KR20130086653A (ko) 2013-08-02
JP5538382B2 (ja) 2014-07-02
CN103077722A (zh) 2013-05-01
US20150066490A1 (en) 2015-03-05
HK1182213A1 (en) 2013-11-22
ES2654432T3 (es) 2018-02-13
PL2410520T3 (pl) 2019-12-31
JP5591385B2 (ja) 2014-09-17
WO2010003618A2 (en) 2010-01-14
PL2311033T3 (pl) 2012-05-31
PL2410521T3 (pl) 2018-04-30
CN103000178A (zh) 2013-03-27
EP2410519B1 (en) 2019-09-04
KR20130090919A (ko) 2013-08-14
HK1155551A1 (en) 2012-05-18
US20150066491A1 (en) 2015-03-05
CA2730239C (en) 2015-12-22
AR116330A2 (es) 2021-04-28
US9015041B2 (en) 2015-04-21
US20150066492A1 (en) 2015-03-05
US9293149B2 (en) 2016-03-22
PL2410522T3 (pl) 2018-03-30
KR101400588B1 (ko) 2014-05-28
CA2836858C (en) 2017-09-12
WO2010003618A3 (en) 2010-03-25
US9466313B2 (en) 2016-10-11
RU2012150077A (ru) 2014-05-27
PT2410520T (pt) 2019-09-16
CN103000186A (zh) 2013-03-27
AR097966A2 (es) 2016-04-20
US20150066493A1 (en) 2015-03-05
JP5567192B2 (ja) 2014-08-06
BRPI0910790A2 (pt) 2023-02-28
EP2410520A1 (en) 2012-01-25
CA2836863A1 (en) 2010-01-14
JP2013242600A (ja) 2013-12-05
US20110178795A1 (en) 2011-07-21
TWI463484B (zh) 2014-12-01
KR20130093670A (ko) 2013-08-22
JP2014002404A (ja) 2014-01-09
HK1182212A1 (en) 2013-11-22
EP2410520B1 (en) 2019-06-26
JP2014002403A (ja) 2014-01-09
CN103077722B (zh) 2015-07-22
AU2009267433B2 (en) 2013-06-13
CA2836871C (en) 2017-07-18
ATE539433T1 (de) 2012-01-15
CN102150201A (zh) 2011-08-10
CA2836858A1 (en) 2010-01-14
RU2011104002A (ru) 2012-08-20
AR097967A2 (es) 2016-04-20
US9502049B2 (en) 2016-11-22
EP2410521B1 (en) 2017-10-04
JP2013242599A (ja) 2013-12-05
AR097969A2 (es) 2016-04-20
CA2836862C (en) 2016-09-13
CN103000178B (zh) 2015-04-08
AR097965A2 (es) 2016-04-20
RU2536679C2 (ru) 2014-12-27

Similar Documents

Publication Publication Date Title
JP5567192B2 (ja) オーディオ信号エンコーダ、オーディオ信号をエンコードするための方法、及びコンピュータープログラム
AU2013206267B2 (en) Providing a time warp activation signal and encoding an audio signal therewith

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110708

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130219

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130510

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130910

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131206

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140408

R150 Certificate of patent or registration of utility model

Ref document number: 5538382

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140428

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250