JP7447085B2 - コンパンディングによる密過渡イベントの符号化 - Google Patents

コンパンディングによる密過渡イベントの符号化 Download PDF

Info

Publication number
JP7447085B2
JP7447085B2 JP2021509742A JP2021509742A JP7447085B2 JP 7447085 B2 JP7447085 B2 JP 7447085B2 JP 2021509742 A JP2021509742 A JP 2021509742A JP 2021509742 A JP2021509742 A JP 2021509742A JP 7447085 B2 JP7447085 B2 JP 7447085B2
Authority
JP
Japan
Prior art keywords
companding
audio signal
transient
index
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021509742A
Other languages
English (en)
Other versions
JP2021535426A (ja
Inventor
ビスワス,アリジート
ムント,ハラルト
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2021535426A publication Critical patent/JP2021535426A/ja
Application granted granted Critical
Publication of JP7447085B2 publication Critical patent/JP7447085B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/50Conversion to or from non-linear codes, e.g. companding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3059Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression

Description

[関連出願]
本願は、以下の基礎出願の優先権を主張する。米国仮特許出願番号第62/720,447号(参照番号:D18075USP1)、2018年8月21日出願、参照によりここに組み込まれる。
[技術分野]
1つ以上の実施形態は、概して、オーディオシング脳処理に関し、より詳細には、デジタルオーディオ符号化の最中に信号に依存する方法で圧縮/伸長(compression/expansion)(コンパンディング、companding)技術を最適に使用することに関する。
[著作権表示]
本特許文書の開示の一部は、著作権保護を受ける内容を含む。著作権者は、特許商標庁の特許ファイル又は記録に記載されているように、本特許文書又は特許開示のいずれによる複製にも異議を唱えることがないが、それ以外の場合は全ての著作権を保留する。
多くの一般的なデジタル音声フォーマットは、記憶又はデータレート要件の低減のためにデータの一部を破棄する損失データ圧縮技術を利用する。損失データ圧縮の適用は、ソースコンテンツ(例えば、オーディオコンテンツ)の忠実性を低下させるだけでなく、圧縮アーチファクトの形式で顕著な歪みも導入し得る。オーディオ符号化システムの文脈では、これらの音声アーチファクトは、符号化ノイズ又は量子化ノイズと呼ばれる。デジタルオーディオシステムは、コーデック(コーダ-デコーダコンポーネント)を利用して、所定のオーディオファイルフォーマット又はストリーミングメディアオーディオフォーマットに従い、オーディオデータを圧縮及び伸長する。コーデックは、可能な限り高い忠実度を保ちながら、最小限のビット数でオーディオデータを表現するよう試みるアルゴリズムを実施する。オーディオコーデックで標準的に使用される損失圧縮技術は、人間の聴覚の心理音響モデルの上で動作する。オーディオフォーマットは、通常、時間/周波数ドメイン変換(例えば、修正離散コサイン変換(modified discrete cosine transform, MDCT))の使用、及び周波数マスク又は時間マスクのようなマスク効果の使用、を含み、その結果、任意の明らかな量子化ノイズを含む特定の音声が、実際のコンテンツにより隠蔽され又はマスクされる。
知られているように、オーディオコーデックは、通常、周波数ドメインにおいて符号化ノイズをシェーピングし、その結果、少なくとも聞き取れるようになる。フレームに基づくエンコーダでは、符号化ノイズは、フレームの低強度部分の間に最も聞こえ、復号オーディオ信号の中で高強度セグメントに先行する無音(又は低レベル信号)がノイズによりスワップされるプレエコー歪みとして聞こえることがある。このような効果は、過渡的音声又はカスタネットのような打楽器若しくは他の鋭い打撃音源からの衝撃音(impulses)において最も顕著であり得、標準的に、周波数ドメインに導入された量子化ノイズが時間ドメインにおけるコーデックの変換ウインドウ全体に渡り広がることにより引き起こされる。
プレエコーアーチファクトを最小化するためにフィルタが使用されているが、このようなフィルタは、通常、位相歪み及び時間スミアリング(smearing)を導入する。小さな変換ウインドウの使用も1つのアプローチであるが、これは、周波数解像度を有意に低減し、フレーム内の複数の小さな変換ウインドウの使用は「サイド情報」ビットレートを増大させる。
オーディオコーデックにおいて量子化ノイズの時間的ノイズシェーピングを達成するために、コンパンディング技術の使用を通じて、プレエコーアーチファクトの影響を克服するために、あるシステムが開発された。このような実施形態は、QMFドメインにおいて実装されるコンパンディングアルゴリズムの使用を含み、マスキング閾値計算方針と関連して、量子化ノイズの時間シェーピングを達成する。しかしながら、これは、通常、特定の信号タイプに適よされる必要のあるコンパンディングのタイプを推測するには直接的ではない。一般に、コンパンディングは、時間ドメイン(時間的)ノイズシェーピングにおいて利益を提供するが、周波数ドメインノイズシェーピングにおいても利益を提供できる。しかしながら、ビットレート制約を満たすtまえに閾値低下方針と一緒にマスキング閾値を計算することは、高度に非線形の動作であり、周波数ドメインノイズシェーピングの最終結果を予測することは困難である。このため、本来非線形のコンパンディングの動作と同様に、コンテンツに依存する方法で適用される必要のあるコンパンディングのタイプを予測することは極めて困難である。特定のデータ収集の努力を通じて、専ら又は主に会話又は拍手から成るオーディオコンテンツにとってコンパンディングが有利であることが分かった。会話及び拍手に対して独立に機能する検出器を設計する可能性があるが、会話及び拍手の両方を検出できる、複雑さの少ない且つ遅延を有しない単純な検出器を設計することは直接的ではない。更に、本発明の検出器は、常に100%正確ではない。
必要なことは、従って、入力信号のコンテンツに基づきコンパンディングを適応的に適用できる、信号に依存するコンパンディングシステムである。更に必要なことは、複雑なオーディオ信号にコンパンディングを適切に適用するために、会話/拍手及び更に音色のあるオーディオコンテンツの間を良好に区別できる検出回路である。
背景技術で議論した主題は、単に背景技術の章で言及された結果として従来技術と考えられるべきではない。同様に、背景技術の章で言及された又は背景技術の章の主題に関連する問題は、従来技術で以前に認識されていたと考えられるべきではない。背景技術の章における主題は、単に異なるアプローチを表し、それらのうちのいずれも本発明であってよい。
実施形態は、オーディオ信号を受信し、2つの所定の閾値を用いて純粋な正弦波、ハイブリッド、又は純粋な過渡信号のうちの1つとしてオーディオ信号を分類し、直交変調フィルタ(quadrature modulated filter (QMF))ドメインにおける時間的急激さの測定を使用するコンパンディングルールを用いて、分類したハイブリッド信号に選択的なコンパンディング(圧縮/伸長)操作を適用することにより、オーディオ信号を処理する方法を対象とする。選択的なコンパンディング操作は、コンパンディングオフモード、コンパンディングオンモード、及び平均コンパンディングモード、のうちの1つを含む。平均コンパンディングモードは、オーディオ信号の複数のフレームのうちの各フレームの利得係数を測定し、各フレームに一定の利得係数を適用することにより導出される。ここで、利得係数は、コンパンディングオフモードの隣接フレームの1.0の利得係数より、コンパンディングオンモードの隣接フレームの利得係数に近い。当該方法は、1つのフレームの中の複数のタイムスロットに渡り平均絶対エネルギレベルを平均化することにより、利得係数を計算するステップを更に含んでよい。分類したハイブリッド信号では、選択的なコンパンディング操作は、コンパンディングオンモード、及び平均コンパンディングモード、のうちの1つを含む。
実施形態では、当該方法は、分類した純粋な正弦波信号に対してコンパンディングをオフにするステップと、分類した純粋な過渡信号に対してコンパンディングをオンにするステップと、を更に含む。分類したハイブリッド信号は、拍手又は会話コンテンツを含んでよい。コンパンディングルールは、直交変調フィルタ(QMF)ドメインにおけるスペクトルの急激さの測定を更に使用してよい。実施形態では、当該方法は、選択的なコンパンディング操作を符号化する制御情報を生成するステップと、オーディオエンコーダからオーディオデコーダへのデジタルオーディオ出力と一緒に送信されるビットストリーム内で該制御情報を送信するステップと、を更に含む。分類されたハイブリッド信号は、部分的正弦波及び部分的過渡信号の少なくとも組合せを含み、ハイブリッド信号の優勢な成分に基づき選択的なコンパンディング操作を適用して、圧縮において適用される利得の連続性及び切り替えアーチファクトにより引き起こされるオーディオ歪みを低減するために、部分的正弦波及び部分的過渡信号を区別するために更に処理される。コンパンディングルールは、第1閾数値より高い時間的な急激さを有する周波数帯の数に基づく第1測定と、第1閾数値より低い時間的な急激さの平均に基づく第2測定と、を使用する。
実施形態は、システムを更に対象とし、当該システムは、
広帯域利得値により直交変調フィルタ(QMF)タイムスロットを変更するために圧縮を適用するエンコーダであって、利得値が大きいことは、比較的低い強度のスロットの増幅をもたらし、又は小さいことは、比較的高い強度のスロットの減衰をもたらす、エンコーダと、
エンコーダからデコーダへオーディオ出力を送信するインタフェースであって、デコーダは、コンパンディング操作における圧縮の逆である伸長を適用するよう構成される、インタフェースと、
コンパンディング制御部であって、入力オーディオ信号を受信して信号特性に基づき入力オーディオ信号を分類するよう構成される検出器、及び分類された入力オーディオ信号に基づき複数のコンパンディングモードの間で切り替えるよう構成されるスイッチ、を有するコンパンディング制御部と、を含む。
実施形態は、また、オーディオデコーダを更に対象とし、当該オーディオデコーダは、
広帯域利得値により直交変調フィルタ(QMF)タイムスロットを変更するために圧縮を適用するエンコーダから、符号化圧縮オーディオ信号を受信する第1インタフェースであって、利得値が大きいことは、比較的低い強度のスロットの増幅をもたらし、又は小さいことは、比較的高い強度のスロットの減衰をもたらす、第1インタフェースと、
コンパンディング操作における圧縮を逆処理するために伸長を適用する伸長コンポーネントと、
信号特性に基づき入力オーディオ信号を分類し及び分類した入力オーディオ信号に基づき複数のコンパンディングモードの間で切り替える制御部から、コンパンディング制御モードを符号化するビットストリームを受信する第2インタフェースと、を含む。
更なる実施形態は、方法、システム、装置、及び、オーディオ信号を処理するよう構成される命令を格納する非一時的コンピュータ可読媒体を対象とする。一実施形態では、オーディオが受信される。オーディオ信号の時間セグメント(例えば、フレーム)について、オーディオ信号の時間セグメントが分析されて、オーディオ信号の時間セグメントが粗過渡信号又は密過渡信号を含むかどうかを決定する。オーディオ信号の時間セグメントは、決定の結果に基づきコンパンディング(ダイナミックレンジが圧縮又は伸長)される。オーディオ信号のコンパンディングされた時間セグメントが出力される。ここで、オーディオ信号の時間セグメントをコンパンディングするステップは、コンパンディング指数に基づきオーディオ信号の時間セグメントのダイナミックレンジを圧縮又は伸長するステップを含む。第1コンパンディング指数は、オーディオ信号の時間セグメントが粗過渡信号を含む(例えば、第1過渡タイプの信号を含む)と決定された場合に、コンパンディングにおいて使用される。第1コンパンディング指数と異なる第2コンパンディング指数は、オーディオ信号の時間セグメントが密過渡信号を含む(例えば、第2過渡タイプの信号を含む)と決定された場合に、コンパンディングにおいて使用される。
更なる実施形態によると、システムは、オーディオ信号を受信する。システムは、オーディオ信号の第1フレームが粗過渡信号(例えば、第1過渡タイプの信号)を含むと決定する。システムは、オーディオ信号の第2フレームが密過渡信号(例えば、第2過渡タイプの信号)を含むと決定する。システムは、オーディオ信号の第1フレームに第1コンパンディング指数を適用し及びオーディオ信号の第2フレームに第2コンパンディング指数を適用するコンパンディングルールを用いて、オーディオ信号に圧縮/伸長(コンパンディング)操作を適用する。各コンパンディング指数は、対応するフレームについてダイナミックレンジ圧縮のそれぞれの程度を導出するために使用される。システムは、次に、コンパンディングされたオーディオ信号を、それぞれのコンパンディング指数と共に、消費のために下流装置に提供する。
本願明細書に開示される技術は、従来のオーディオ処理技術に勝る1つ以上の利点を達成するために実装できる。例えば、従来、コンパンディングツールの焦点は、低ビットレートにおける会話品質を向上することであった。その結果、コンパンディングツールにおいてα=0.65の固定されたコンパンディング指数が、会話に合わせた後に使用され、標準化された。α=0.65のコンパンディング指数は、拍手を向上するようにも見える。本願明細書に開示される技術は、「符号化の困難な」密過渡信号(dense transient signal)、例えば拍手、パチパチする火、又は雨を改良することにより、従来技術を改良する。コンテンツの過渡タイプに基づき、コンパンディング指数のために異なる値を選択することにより、開示の技術は、これらの密過渡信号について良好な品質の音声を生成できる。
開示の技術は、オーディオ符号化において最小限のオーバヘッドしか追加しない。以下に詳述されるように、開示の技術は、オーディオ圧縮符号化方式、例えばデジタルオーディオ圧縮(Audio Compression (AC-4))標準におけるコンパンディング制御データ構造に1ビットのみを追加することにより、過渡タイプのコンテンツの音声を向上できる。従って、開示の技術は、簡易且つ効率的である。
実施形態は、また更に、エンコーダ、デコーダ、又は結合型エンコーダ/デコーダシステムの部分として使用され得る信号に依存するコンパンディングシステムを実現し又は実施する回路及び設計を生成し、使用し又は展開する方法を対象とする。
[関連出願]
本願明細書で言及される各技術的仕様、出版物、特許、及び/又は特許出願は、それぞれの個々の出版物及び/マスaa特許出願が具体的に及び個々に参照により組み込まれると示されるのと同程度に、参照によりその全体がここに組み込まれる。
以下の図面において、同様の参照符号は同様の要素を表すために使用される。以下の図面は種々の例を示すが、1つ以上の実装は、図視された例に限定されない。
幾つかの実施形態における、コンテンツ検出器と共に使用され得るコーデックに基づくオーディオ処理システムにおける量子化ノイズを低減するコンパンディングシステムを示す。
実施形態における、複数の短時間セグメントに分割されたオーディオ信号を示す。
実施形態における、短時間セグメントの各々に渡る広帯域利得の適用の後の、図2Aのオーディオ信号を示す。
実施形態における、オーディオ信号を圧縮する方法を示すフローチャートである。
実施形態における、オーディオ信号を伸長する方法を示すフローチャートである。
実施形態における、オーディオ信号を圧縮するシステムを示すブロック図である。
実施形態における、オーディオ信号を伸長するシステムのブロック図である。
実施形態における、オーディオ信号の複数の短時間セグメントへの分割を示す。
例示的な実施形態における、和音(chord)のフレームの例示的なQMFスロットを示す。
幾つかの実施形態における、信号適応型コンパンダを用いるオーディオコンテンツを分類する方法を示すフローチャートである。
幾つかの実施形態における、トーン信号から会話又は拍手を区別するために、スペクトル急激さを用いる方法を示すフローチャートである。
コンテンツに基づくコンパンディング指数を選択する例示的な技術を示す。
コンパンディング指数の例示的な値、及び対応するコンパンディング状態を示すテーブルである。
過渡密度に基づくコンパンディングの第1の例示的な処理を示すフローチャートである。
過渡密度に基づくコンパンディングの第2の例示的な処理を示すフローチャートである。
過渡密度に基づくコンパンディングの第3の例示的な処理を示すフローチャートである。
量子化ノイズの時間シェーピングを達成するために、QMFドメインにおいて実施されるコンパンディングアルゴリズムの使用を通じて、オーディオコーデック内で量子化ノイズの時間ノイズシェーピングを達成するコンパンディング技術に対して特定の改良の使用のためのシステム及び方法が説明される。実施形態は、オーディオコンテンツの中の信号コンテンツ(例えば、会話及び拍手)の検出器を含み、検出したコンテンツに基づき適切なタイプ又は量のコンパンディングを適用し、従って信号に依存する方法で最適なコンパンディングを提供する。
ここに記載される1つ以上の実施形態の態様は、ソフトウェア命令を実行する1つ以上のコンピュータ又は処理装置を含むネットワークを介して送信するためにオーディオ信号を処理するオーディオシステム内に実装されてよい。記載される実施形態のうちの任意のものは、単独で又は任意の組合せで互いに一緒に使用されてよい。種々の実施形態は、本願明細書の1つ以上の箇所で議論され又は言及され得る従来技術の種々の欠点により動機を与えられ得るが、実施形態は、必ずしもこれらの欠点のうちのいずれかを解決しない。言い換えると、異なる実施形態は、本願明細書で議論され得る異なる欠点を解決し得る。幾つかの実施形態は、本願明細書で議論され得る幾つかの欠点を部分的にのみ又は1つの欠点だけを解決し得る。幾つかの実施形態は、これらの欠点のうちのいずれも解決しないこともある。
図1は、幾つかの実施形態における、コンテンツ検出器と共に使用され得るコーデックに基づくオーディオ処理システムにおける量子化ノイズを低減するコンパンディングシステムを示す。図1は、エンコーダ(又は「コアエンコーダ」)106とデコーダ(又は「コアデコーダ」)112とを含むオーディオコーデックについて構築されるオーディオ信号処理システムを示す。エンコーダ106は、ネットワーク110を介して送信するために、オーディオコンテンツをデータストリーム又は信号へと符号化する。データストリーム又は信号は、再生又は更なる処理のために、デコーダ112により復号される。実施形態では、コーデックのエンコーダ106及びデコーダ112は、損失圧縮方法を実施して、デジタルオーディオデータの記憶及び/又はデータレート要件を低減する。従って、コーデックは、MP3、Vorbis、Dolby Digital(AC-3又はAC-4)、AAC、又は同様のコーデックとして実装されてよい。コーデックの損失圧縮方法は、通常、コーデックにより定義されるフレームの展開に渡りレベルの固定した符号化ノイズを生成する。このような符号化ノイズは、しばしば、フレームの低強度部分の間に最も聞こえる。システム100は、コーデックのコアエンコーダ106の前に圧縮ステップ前コンポーネント104と、コアデコーダ112の出力に作用する伸長ステップ後コンポーネント114と、を設けることにより、既存の符号化システムにおける知覚符号化ノイズを低減するコンポーネントを含む。圧縮コンポーネント104は、元のオーディオ入力信号102を複数の時間セグメントに、所定のウインドウ形状を用いて分割し、初期オーディオ信号の周波数ドメインサンプルのエネルギに基づかない平均を用いて、周波数ドメインにおける広帯域利得を計算し適用するよう構成される。ここで、各時間セグメントに適用される利得値は、相対的に低い強度のセグメントを増幅し、相対的に高い強度のセグメントを減衰する。この利得変更は、入力オーディオ信号102の元のダイナミックレンジを圧縮し又は有意に低減する効果を有する。圧縮されたオーディオ信号は、次に、エンコーダ106内で符号化され、ネットワーク1102を介して送信され、デコーダ112内で復号される。復号された圧縮信号は、伸長コンポーネント114に入力される。伸長コンポーネント114は、各時間セグメントに逆利得値を適用して、圧縮オーディオ信号のダイナミックレンジを元の入力オーディオ信号102のダイナミックレンジに戻すことにより、圧縮前ステップ104の逆操作を実行するよう構成される。従って、オーディオ出力信号116は、コンパンディング前及び後ステップを通じて除去される符号化ノイズを有する、元のダイナミックレンジを有するオーディオ信号を含む。
システム100は、QMFドメインにおいて圧縮及び伸長(コンパンディング)を実行して、デジタルコーダ(これはオーディオ又は会話スペクトルフロントエンドのいずれか)量子化ノイズの量子化ノイズの時間的シェーピングを達成する。エンコーダは、Dolby Digital AC-3又はAC-4コアコーダ、又は任意の他の同様のシステムであってよい。エンコーダは、コアエンコーダの前の圧縮を含む特定の前処理機能、及び前処理の逆操作を正確に実行するコアデコーダ出力の伸長を含む後処理機能を実行する。システムは、所望のデコーダコンパンディングレベルの信号に依存するエンコーダ制御、及び信号に依存するステレオ(及びマルチチャネル)コンパンディング処理を含む。図1に示すように、エンコーダ106はエンコードし、圧縮コンポーネント104は、コンパンディング決定の状態を検出するコンパンディング検出器105を含む。コンパンディングオン/オフ/平均化決定は、エンコーダ106内で検出され、デコーダ112へ送信される。その結果、圧縮器及び伸張器は、同じQMFタイムスロットで、オン/オフ/平均化を切り替えることができる。ここで、QMFタイムスロット処理は、以下の詳細に説明される。
更に図1に示すように、圧縮コンポーネント又は圧縮前ステップ104は、コアエンコーダ106に入力されるオーディオ信号102のダイナミックレンジを削減するよう構成される。入力オーディオ信号は、多数の短セグメントに分割される。各短セグメントのサイズ又は長さは、コアエンコーダ106により使用されるフレームサイズの一部である。例えば、コアコーダの標準的なフレームサイズは、40~80ミリ秒程度であってよい。この場合、各短セグメントは、1~3ミリ秒程度であってよい。圧縮コンポーネント104は、適切な広帯域利得値を計算し、セグメント毎に入力オーディオ信号を圧縮する。これは、セグメント毎に適切な利得値により信号の短セグメントを変更することにより達成される。相対的に大きな利得値は、相対的に低い強度のセグメントを増幅するために選択され、小さな利得値は、高い強度のセグメントを減衰するために選択される。
図2Aは、実施形態における、複数の短時間セグメントに分割されたオーディオ信号を示す。図2Bは、圧縮コンポーネントによる広帯域利得の適用の後の、同じオーディオ信号を示す。図2Aに示すように、オーディオ信号202は、打楽器(例えば、カスタネット)により生成され得るような過渡(transient)(過渡イベント)又は音声インパルスを表す。信号は、時間tに対する電圧Vのグラフで示される振幅におけるスパイクを特徴とする。一般的に、信号の振幅は、音声の音響エネルギ又は強度に関連し、任意の時点における音声のパワーの指標を表す。オーディオ信号202がフレームに基づくオーディオコーデックを通じて処理されるとき、信号の部分は、変換(例えば、MDCT)フレーム204内で処理される。標準的な現在のデジタルオーディオシステムは、比較的長い期間のフレームを利用する。その結果、急激な遷移又は短いインパルス音声では、信号フレームは、低い強度と共に高い強度の音声を含み得る。従って、図2に示すように、単一のMDCTフレーム204は、音声信号のインパルス部分(ピーク)と共に、ピークの前後にある比較的大きな量の提供度信号を含む。実施形態では圧縮コンポーネント104は、信号を多数の短時間セグメント206に分割し、信号202のダイナミックレンジを圧縮するために、広帯域利得を各セグメントに適用する。各短セグメントの数及びサイズは、アプリケーションの必要及びシステム制約に基づき選択されてよい。個々のMDCTフレームのサイズに対して、短セグメントの数は、12~64個のセグメントの範囲であってよく、標準的に32個のセグメントを含んでよいが、実施形態はこれに限定されない。
図2Bは、実施形態における、短時間セグメントの各々に渡る広帯域利得の適用の後の、図2Aのオーディオ信号を示す。図2Bに示すように、オーディオ信号212は、元の信号202と同じ相対形状を有する。しかしながら、低強度セグメントの振幅は、利増幅得値の適用により増大されており、高強度セグメントの振幅は、減衰利得値の適用により減少されている。
コアデコーダ112の出力は、縮小されたダイナミックレンジを有する入力オーディオ信号(例えば、信号212)とコアエンコーダ106により導入された量子化ノイズとの和である。この量子化ノイズは、各フレーム内の時間に渡りほぼ均一なレベルを特徴とする。伸長コンポーネント114は、復号信号に作用して、元の信号のダイナミックレンジを復元する。伸長コンポーネント114は、短セグメントサイズ206に基づき同じ短時間解像度を使用し、圧縮コンポーネント104において適用された利得を反転する。従って、伸長コンポーネント114は、元の信号において低強度を有し圧縮器により増幅されたセグメントには小さな利得(減衰)を適用し、元の信号において高強度を有し圧縮機により減衰されたセグメントには大きな利得(増幅)を適用する。コアコーダにより追加された量子化ノイズは、均一な時間エンベロープを有し、従って、後プロセッサにより同時にシェーピングされて、元の信号の時間エンベロープを近似的に辿る。この処理は、静かな部分(passages)の間にあまり聞こえない量子化ノイズを効果的にレンダリングする。ノイズは、高強度の部分の間に増幅され得るが、オーディオコンテンツ自体の騒々しい信号のマスキング効果によりあまり聞こえないままである。
図2Aに示すように、コンパンディング処理は、オーディオ信号の離散セグメントを、それぞれの利得値により個々に変更する。特定の場合には、これは、圧縮コンポーネントの出力での不連続を生じることがあり、これはコアエンコーダ106内で問題を生じ得る。同様に、伸長コンポーネント114における利得の不連続は、シェーピングされたノイズのエンベロープに不連続を生じ得る。これは、オーディオ出力116の中に聞こえるクリックを生じ得る。オーディオ信号の短セグメントに個々の利得値を適用することに関連する別の問題は、標準的なオーディオ信号が多数の個々のソースの混合であるという事実に基づく。これらのソースのうちの幾つかは、時間に渡り固定的であってよく、幾つかは過渡的であってよい。固定的信号は、通常、それらの統計的パラメータが一定である。一方で、過渡的信号は、通常、一定ではない。過渡(transient)の広帯域特性が与えられると、混合におけるようなそれらのフィンガープリントは、つうじょう、高い周波数ほどより顕著になる。信号の短期間エネルギ(short-term energy (RMS))に基づく利得計算は、より強く低い周波数にバイアスされる傾向があり、従って、固定的ソースにより支配的になり、時間に渡り僅かな変動しか示さない。従って、このエネルギに基づくアプローチは、通常、コアエンコーダにより導入されるノイズをシェーピングする際には非効率である。
実施形態では、システム100は、個々の利得値の適用に関連する潜在的問題を解決するために、短プロトタイプフィルタを有するフィルタバンク内の圧縮及び伸長コンポーネントにおける利得を計算し適用する。変更されるべき信号(圧縮コンポーネント104における元の信号、及び伸長コンポーネント114内のコアデコーダ112の出力)は、先ず、フィルタバンクにより分析され、広帯域利得が周波数ドメインにおいて直接適用される。時間ドメインにおける対応する効果は、プロトタイプフィルタの形状に従い利得適用を自然に円滑にすることである。これは、上述の不連続の問題を解決する。変更された周波数ドメイン信号は、次に、対応する合成フィルタバンクにより、時間ドメインへと変換され戻される。フィルタバンクによる信号の分析は、そのスペクトルコンテンツへのアクセスを提供し、高周波数による貢献を優先的にブーストする(又は弱い任意のスペクトルコンテンツによる貢献をブーストする)ことを可能にし、信号ないの最も強い成分により支配されない利得値を提供する。これは、上述のような異なるソースの混合を含む音源に関連する問題を解決する。実施形態では、システムは、スペクトルの大きさのpノルム(norm)を用いて、利得を計算する。ここで、pは、標準的に2より小さい(p<2)。これは、エネルギ(p=2)に基づくときに比べて、弱いスペクトルコンテンツのより大きな強調を可能にする。
上述のように、システムは、利得の適用を円滑にするためにプロトタイプフィルタを含む。通常、プロトタイプフィルタは、フィルタバンクの中で基本ウインドウ形状である。これは、フィルタバンク内の異なるサブバンドフィルタに対するインパルス応答を得るために、正弦波波形により変調される。例えば、短時間フーリエ変換(short-time Fourier transform (STFT))がフィルタバンクであり、この変換の各周波数ラインはフィルタバンクのサブバンドである。短時間フーリエ変換は、信号を、長方形、Hann、KBD(Kaiser-Bessel derived)、又は何らかの他の形状であり得るウインドウ形状(Nサンプルウインドウ)により乗算することにより実施される。ウインドウ化された信号は、次に、STFTを取得するために、離散フーリエ変換(discrete Fourier transform (DFT))操作を行われる。この場合のウインドウ形状はプロトタイプフィルタである。DFTは、それぞれが異なる周波数の正弦波に基づく関数から成る。正弦波関数により乗算されたウインドウ形状は、次に、その周波数に対応するサブバンドのためのフィルタを提供する。ウインドウ形状は全周波数において同じなので、「プロトタイプ」と呼ばれる。
実施形態では、システムは、フィルタバンクのために直交変調フィルタ(Quadrature Modulated Filter、QMF)バンクを利用する。特定の実装では、QMFバンクは、プロトタイプを形成する64ptウインドウを有してよい。余弦及び正弦関数により変調されたこのウインドウ(64個の等間隔の周波数に対応する)は、QMFバンクのためにサブバンドフィルタを形成する。QMF関数の各々の適用の後に、ウインドウは、64サンプルだけ移動される。つまり、この場合の時間セグメントの間の重なり合いは、640-64=576サンプルである。しかしながら、この場合、ウインドウ形状は10個の時間セグメントに渡って広がり(640=10*64)、ウインドウのメインローブ(そのサンプル値は非常に重要である)は約128サンプルの長さである。従って、ウインドウの効果的な長さは、依然として比較的短い。
実施形態では、伸長コンポーネント114は、理想的には、圧縮コンポーネント104により適用された利得を反転する。圧縮コンポーネントにより適用された利得を、ビットストリームを通じてデコーダへ送信することが可能であるが、このようなアプローチは、標準的に有意なビットレートを消費し得る。実施形態では、代わりに、システム100は、伸長コンポーネント114により要求される利得を、自身に利用可能な信号、つまりデコーダ112の出力から直接推定する。これは、事実上、追加ビットを必要としない。圧縮及び伸長コンポーネントにおけるフィルタバンクは、互いに逆である利得を計算するために、同一になるよう選択される。更に、これらのフィルタバンクは、時間同期される。その結果、圧縮コンポーネント104の出力と伸長コンポーネント114の入力との間の任意の事実上の遅延は、フィルタバンクのストライドの倍数である。コアエンコーダ-デコーダが無損失であり、フィルタバンクが完全な再構成を提供する場合、圧縮及び伸長コンポーネントにおける利得は、互いに正確に逆であり、従って元の信号の正確な再構成を可能にする。実際には、しかしながら、伸長コンポーネントにより適用される利得は、単に圧縮コンポーネント104により適用される利得の逆の近い近似である。
実施形態では、圧縮コンポーネント及び伸長コンポーネントにおいて使用されるフィルタバンクはQMFバンクである。標準的な使用適用では、コアオーディオフレームは、4096サンプル長であり、近隣フレームと2048のオーバラップを有する。48kHzで、このようなフレームは、85.3ミリ秒の長さになり得る。これに対し、使用されるQMFバンクは、64サンプル(これは1.3ミリ秒の長さである)のストライドを有してよく、これは利得の精細な時間解像度を提供する。更に、QMFは、640サンプル長の円滑なプロトタイプフィルタを有し、利得適用が時間に渡り円滑に変化することを保証する。このQMFフィルタバンクによる分析は、信号の時間-周波数タイル化表現を提供する。各QMFタイムスロットは、ストライドに等しく、各QMFタイムスロット内には、64個の等間隔のサブバンドがある。代替として、短期間フーリエ変換(short term Fourier transform (STFT))のような他のフィルタバンクが利用されてよく、このような時間-周波数タイル化表現が依然として取得され得る。
実施形態では、圧縮コンポーネント104は、コーデック入力をスケーリングする前処理を実行する。本実施形態では、S(k)は、タイムスロットt及び周波数ビンkにおける複素数値フィルタバンクサンプルである。図6は、実施形態における、周波数範囲について、オーディオ信号の複数のタイムスロットへの分割を示す。図600の実施形態では、図示のような(必ずしも縮尺通りではない)複数の時間-周波数タイルを生成する、64個の周波数ビンk、及び32個のタイムスロットtがある。圧縮前ステップは、S’(k)=S(k)/gになるよう、コーデック入力をスケーリングする。この式で、g=(S /Sγは正規化スロット平均である。
上式で、
Figure 0007447085000001
は平均絶対レベル/1ノルムであり、Sは適切な定数である。一般的なpノルムは、この文脈では以下のように定義される。
Figure 0007447085000002
1ノルムは、エネルギを使用する(RMS/2ノルム)より、遙かに良好な結果を与え得ることが示された。指数γの値は、標準的に、0~1の範囲であり、1/3になるよう選択されてよい。定数Sは、実装プラットフォームと独立の妥当な利得値を保証する。例えば、全部のS(k)の値が絶対値で1に限定され得るプラットフォームに実装されるとき、定数Sは1であってよい。S(k)が異なる最大絶対値を有し得るプラットフォームでは、定数Sは異なる可能性がある。定数Sは、大きな信号セットに渡る平均利得値が1に近いことを保証するためにも使用され得る。つまり、それは、コンテンツの大きなコーパスから決定された、最大信号値と最小信号値との間の中間信号値であり得る。
伸長コンポーネント114により実行される後ステップの処理では、コーデック出力は、圧縮コンポーネント104により適用されたのと逆の利得により伸長される。これは、圧縮コンポーネントのフィルタバンクの正確な又はほぼ正確なレプリカを必要とする。この場合、S (k)は、この第2フィルタバンクの複素数値サンプルを表す。伸長コンポーネント114は、次式になるように、コーデック出力をスケーリングする。
Figure 0007447085000003
上式でg は正規化スロット平均であり、以下のように与えられる。
Figure 0007447085000004
一般的に、伸長コンポーネント114は、圧縮コンポーネント104で使用されたのと同じpノルムを使用する。従って、圧縮コンポーネント104で、平均絶対レベルが
Figure 0007447085000005
を定義するために使用される場合、
Figure 0007447085000006
も、上述の式で1ノルム(p=1)を用いて定義される。
STFT又は複素QMFのような複素フィルタバンク(余弦及び正弦波の両方に基づく関数を含む)が、圧縮及び伸長コンポーネントで使用されるとき、複素サブバンドサンプルの大きさ
Figure 0007447085000007
の計算は、計算集約的な平方演算を必要とする。これは、種々の方法で、例えばその実数部及び虚数部の大きさを合計することにより、複素サブバンドサンプルの大きさを近似することにより、回避できる。
上式では、値Kは、フィルタバンク内のサブバンドの数に等しく、又はそれより小さい。一般的に、pノルムは、フィルタバンク内のサブバンドの任意の部分集合を用いて計算され得る。しかしながら、エンコーダ106及びデコーダ112の両方で同じ部分集合が利用されるべきである。実施形態では、オーディオ信号の高周波数部分(例えば、6kHzより高いオーディオ成分)は、高度スペクトル拡張(advanced spectral extension (A-SPX))ツールにより符号化され得る。更に、ノイズシェーピングを誘導するために、1kHz(又は同様の周波数)より高い信号のみを使用することが望ましい場合がある。このような場合には、1kHz~6kHzの範囲内のサブバンドのみが、pノルム、従って利得値を計算するために使用されてよい。更に、利得はサブバンドの1つの部分集合から計算されるが、依然として、サブバンドの異なる及び場合によってはより大きな部分集合に適用され得る。
図1に示すように、オーディオコーデックのコアエンコーダ106により導入される量子化ノイズをシェーピングするコンパンディング機能は、特定のエンコーダ前圧縮機能及びデコーダ後伸長機能を実行する2つの別個のコンポーネント1034及び114により実行される。図3Aは、実施形態における、エンコーダ前圧縮コンポーネント内のオーディオ信号を圧縮する方法を示すフローチャートである、図3Bは、実施形態における、デコーダ後伸長コンポーネント内のオーディオ信号を伸長する方法を示すフローチャートである。
図3Aに示すように、処理300は、圧縮コンポーネントが入力オーディオ信号を受信することにより開始する(302)。このコンポーネントは、オーディオ信号を短時間セグメントに分割し(304)、短セグメントの各々に広帯域利得値を適用することにより、オーディオ信号を縮小されたダイナミックレンジに圧縮する(306)。圧縮コンポーネントは、また、特定のプロトタイプフィルタリング及びQMFフィルタバンクコンポーネントを実装し、上述のように、連続セグメントに異なる利得値を適用することにより引き起こされる任意の不連続を減少させ又は除去する。特定の場合には、このようなオーディオコンテンツのタイプ又はオーディオコンテンツの特定の特性に基づき、オーディオコーデックの符号化/復号段の前及び後にオーディオ信号を圧縮及び伸長することは、出力オーディオ品質を向上するより、むしろ低下させることがある。このような場合には、コンパンディング処理は、オフにされ、又は異なるコンパンディング(圧縮/伸長)レベルに戻すよう変更されてよい。従って、圧縮コンポーネントは、変数の中でも特に、コンパンディング機能の適性、及び/又は特定の信号入力及びオーディオ再生環境のために要求されるコンパンディングの最適レベルを決定する(310)。この決定ステップ310は、オーディオ信号304の分割又はオーディオ信号306の圧縮の前のような、処理310の任意の運用上の点で生じてよい。コンパンディングが適切であると考えられる場合、利得が適用され、エンコーダは次に、コーデックのフォーマットに従い、デコーダへ送信するために、信号を符号化する(312)。特定のコンパンディング制御データ、例えば、起動データ、同期データ、コンパンディングレベルデータ、及び他の同様の制御データは、伸長コンポーネントによる処理のためにビットストリームの部分として送信されてよい。
図3Bは、実施形態における、デコーダ後伸長コンポーネント内のオーディオ信号を伸長する方法を示すフローチャートである、処理350に示すように、コーデックのデコーダ段は、エンコーダ段から、オーディオ信号を符号化するビットストリームを受信する(352)。デコーダは、次に、コーデックデータフォーマットに従い符号化信号を復号する(353)。伸長コンポーネントは、次に、ビットストリームを処理し、任意の符号化制御データを適用して、制御データに基づき、伸長をオフに切り替え又は伸長パラメータを変更する(354)。伸長コンポーネントは、適切なウインドウ形状を用いて、オーディオ信号を時間セグメントに分割する(356)。実施形態では、時間セグメントは、圧縮コンポーネントにより使用されたのと同じ時間セグメントに対応する。伸長コンポーネントは、次に、周波数ドメインにおいて、セグメント毎に適切な利得値を計算し(358)、利得値を書く時間セグメントに適用して、オーディオ信号のダイナミックレンジを拡張して元のダイナミックレンジに戻し、又は任意の他の適切なダイナミックレンジにする(360)。
コンパンディング制御
システム100のコンパンダを含む圧縮及び伸長コンポーネントは、オーディオ信号処理の最中の特定の時間にのみ、又はオーディオコンテンツの特定のタイプについてのみ、前及び後処理ステップを適用するよう構成されてよい。例えば、コンパンディングは会話(これは、インパルスのようなイベントの疑似定常シリーズで構成される)及び音楽過渡信号について利点を示し得る。しかしながら、定常的信号のような他の信号について、コンパンディングは、信号品質を劣化させ得る。従って、図3Aに示すように、コンパンディング制御メカニズムがブロック310として提供され、制御データは、コンパンディング操作を調整するために、圧縮コンポーネント104から伸長コンポーネント114へ送信される。このような死魚メカニズムの最も単純な形式は、コンパンディングの適用がオーディオ品質を劣化させるオーディオサンプルのブロックについては、コンパンディング機能をオフに切り替えることである。実施形態では、コンパンディングのオン/オフの決定は、エンコーダにおいて検出され、ビットストリーム要素としてデコーダへ送信される。その結果、圧縮器及び伸長器は、同じQMFタイムススロットでオン/オフを切り替えることができる。
2つの状態の間の切り替えは、通常、適用される利得に不連続をもたらし、結果としてアーチファクトの切り替え又はクリックが聞こえてしまう。実施形態は、これらのアーチファクトを低減する又は除去するメカニズムを含む。第1の実施形態では、システムは、コンパンディング機能のオフ及びオンの切り替えを、利得が1に近いフレームにおいてのみ可能にする。この場合コンパンディング機能のオン/オフの切り替えの間に小さな不連続しか存在しない。第2の実施形態では、オンモードとオフモードとの間にある第3の弱いコンパンディングモードが、オンフレームとオフフレームとの間のオーディオフレーム内で適用され、ビットストリーム内でシグナリングされる。弱いコンパンディングモードは、指数γを、コンパンディング中のその規定値から、コンパンディングが無いのと等価な0へゆっくりと遷移させる。中間的な弱いコンパンディングモードの代替として、システムは、開始フレーム及び停止フレームを実施してよい。この間、オーディオサンプルのブロックは、急にコンパンディングモードをオフに切り替える代わりに、コンパンディングモードの無い状態へと円滑にフェードインする。更なる実施形態では、システムは、単にコンパンディングをオフに切り替えるだけではなく、むしろ平均利得を適用するよう構成される。特定の場合には、一定の利得係数が、コンパンディングがおるの状況における1.0の一定の利得係数よりも、隣接するコンパンディングのオンのフレームの利得係数により類似する一定の利得係数がオーディオフレームに適用される場合、音色の固定的な信号のオーディオ品質は、増大され得る。このような一定の平均コンパンディング利得係数は、1つのフレームに渡りタイムスロット当たりに計算された全部の平均絶対レベル/1ノルムを平均することにより計算できる。一定の平均コンパンディング利得を含むフレームは、従って、ビットストリーム内でシグナリングされる。
実施形態は、モノラルオーディオチャネルの文脈で説明されたが、留意すべきことに、直接拡張では、複数のチャネルが、各チャネルに個々に本アプローチを繰り返すことにより処理できる。しかしながら、2以上のチャネルを含むオーディオ信号は、図1のコンパンディングシステムの実施形態により解決される特定の追加の複雑性を提示する。コンパンディング方針は、チャネル間の類似性に依存すべきである。
例えば、ステレオパン過渡信号(stereo-panned transient signal)の場合には、個々のチャネルの独立したコンパンディングは、可聴ステレオ像アーチファクトを生じ得る。実施形態では、システムは、時間セグメント毎に、両方のチャネルのサブバンドサンプルから信号利得値を決定し、同じ利得値を2つの信号を圧縮/伸長するために使用する。本アプローチは、概して、2つのチャネルが非常に類似する信号を有するときは常に適し、ここで、類似性は例えば相互相関を用いて定義される。検出器はチャネル間の類似性を計算し、チャネルの個々のコンパンディングを用いてその間で切り替えるか、又はチャネルを共同でコンパンディングする。より多くのチャネルへの拡張は、類似性基準を用いてチャネルをチャネルグループに分割し、グループに対して共同コンパンディングを適用し得る。このグループ化情報は、次に、ビットストリームを通じて送信できる。
システム実装
図4は、実施形態における、コーデックのエンコーダ段と関連して、オーディオ信号を圧縮するシステムを示すブロック図である。図4は、図3Aに示したコーデックに基づくシステムにおいて使用される圧縮方法の少なくとも一部を実施するハードウェア回路又はシステムを示す。システム400に示すように、時間ドメインにおける入力オーディオ信号401は、QMFフィルタバンク402へ入力される。このフィルタバンクは、入力信号を複数の成分に分ける分析動作を実行する。ここで、各帯域通過フィルタは、元の信号の周波数サブバンドを伝達する。信号の精鉱製は、QMFフィルタバンク410により実行される合成動作の中で実行される。図4の例示的な実施形態では、分析及び合成フィルタバンクの両方が、64個の帯域を扱う。コアエンコーダ412は、合成フィルタバンク410からオーディオ信号を受信し、適切なデジタル形式(例えば、MP3、AAC、AC-4、等)でオーディオ信号を符号化することにより、周波数ドメインのビットストリーム414を生成する。
システム400は、オーディオ信号が分割された短セグメントの各々に利得値を適用する圧縮器406を含む。これは、図2Bに示されるように圧縮されたダイナミックレンジのオーディオ信号を生成する。コンパンディング制御ユニット404は、オーディオ信号を分析して、信号のタイプ(例えば、会話)又は信号の特性(例えば、固定的か過渡的か)又は他の関連パラメータに基づき、圧縮が適用されるべきか否か、又はどれ位適用されるべきか、を決定する。制御ユニット404は、オーディオ信号の時間的ピーク特性を検出するために、検出メカニズムを含んでよい。オーディオ信号の検出した特性、及び特定の所定の基準に基づき、制御ユニット404は、適切な制御信号を圧縮器406へ送信し、圧縮機能をオフにするか、又は短セグメントに適用される利得値を変更する。
留意すべきことに、用語「ピーク(peakness)」は、「鋭さ(sharpness)」(例えば、T又はT)を表し、両者は、近い過去及び将来の時間に対する特定の時間における信号の瞬間エネルギを表す。従って、ピークの又は鋭い信号は、エネルギにおけるインパルス又はスパイクとして現れる。
コンパンディングに加えて、多くの他の符号化ツールも、QMFドメインで動作し得る。1つのこのようなツールはA-SPXであり、図4のブロック408に示される。A-SPXは、知覚的にあまり重要でない周波数を、より重要な周波数より粗い符号化方式で符号化させるために使用される技術である。例えば、デコーダ端にあるA-SPXでは、より低い周波数からのQMFサブバンドサンプルは、より高い周波数において複製されてよく、従って、高周波数帯におけるスペクトルエンベロープは、エンコーダからデコーダへ送信されたサイド情報を用いて先鋭化される。A-SPXは、AC-4のような特定の高度符号化により使用される。例えば、他の類似のツールが使用されてもよい。
コンパンディング及びA-SPX符号化の両方がQMFドメインで実行されるシステムでは、エンコーダにおいて、より高い周波数のエンベロープデータは、図4に示されるような未だ圧縮されていないサブバンドサンプルから抽出されてよく、圧縮は、コアエンコーダ412により符号化される信号の周波数範囲に対応するより低い周波数のQMFサンプルにだけ適用されてよい。図5のデコーダ502で、復号信号のQMF分析504の後に、伸長処理506が先ず適用される。そして、A-SPX動作508は、続いて、より高いサブバンドサンプルを、より低い周波数における伸長された信号から再生成する。
この例示的な実装では、エンコーダにあるQMF合成フィルタバンク410、及びデコーダにあるQMF分析フィルタバンクは、640-64+1サンプル遅延(~9個のQMFスロット)を一緒に導入する。本例のコアコーデック遅延は、3200サンプル(50個のQMFドメインスロット)であり、従って、合計遅延は59スロットである。この遅延は、制御データをビットストリームに埋め込み、デコーダにおいて使用することにより、対処される。その結果、エンコーダの圧縮器及びデコーダの伸長器は、同調して動作する。
代替として、エンコーダにおいて、元の信号の帯域幅全体に圧縮が適用されてよい。エンベロープデータは、後に、圧縮されたサブバンドサンプルから抽出されてよい。このような場合には、デコーダは、QMF分析の後に最初に、先ず、全帯域幅の圧縮された信号を再構成するためのツールを実行する。伸長段は、次に、元のダイナミックレンジを有する信号を復元するために適用される。
QMFドメインで動作し得る更に別のツールは、図4におけるパラメータステレオ(parametric stereo (PS))ツール(図示しない)であってよい。パラメータステレオでは、2つのチャネルが、ステレオ出力を再構成するためにデコーダでQMFドメインにおいて適用できる追加パラメータ空間情報と共にモノダウンミックスとして符号化される。別のこのようなツールは、例えばAC-4のような特定の高度符号化により使用されるA-CPL(Advanced Coupling)ツールセットである。パラメータステレオ(又はA-CPL)及びコンパンディングが、互いに関連して使用されるとき、パラメータステレオツールは、エンコーダにある圧縮段406の後に置かれ、この場合、デコーダにおいて伸長段506の前に適用され得る。代替として、パラメータステレオサイド情報は、未圧縮ステレオ信号から抽出されてよい。この場合、パラメータステレオツールは、デコーダにける伸長段506の後で動作し得る。
図3A及び3Bに示すように、コーデックのエンコーダ段とデコーダ段との間で送信されたビットストリームは、特定の制御データを含む。このような制御データは、システムが異なるコンパンディングモードの間で切り替えることを可能にするサイド情報を構成する。(コンパンディングをオン/オフに切り替えるための)切り替え制御データ及び場合によっては何らかの中間状態が、チャネル当たり、1又は2ビット程度を追加してよい。他の制御データは、離散ステレオの又はマルチチャネル構成の全部のチャネルが共通コンパンディング利得係数を使用するかどうか、又はそれらがチャネル毎に独立に計算されるべきかどうか、を決定するために、信号を含み得る。このようなデータは、単一の追加ビットを必要とするだけである。他の同様の制御データ要素、及びそれらの適切なビット重みは、システム要件及び制約に依存して使用されてよい。
検出メカニズム
実施形態では、コンパンディング制御メカニズムは、QMFドメインにおいてコンパンディングの制御を提供するために、コンパンディングコンポーネント104の部分として含まれる。コンパンディング制御は、多数の因子、例えばオーディオ信号タイプに基づき構成できる。例えば、多くの適用では、コンパンディングは、時間的ピークのある信号(例えば拍手)のクラスの範囲内の会話信号及び過渡的信号又は任意の他の信号についてオンにされるべきである。システムは、コンパンダ機能のために適切な制御信号を生成するのを助けるために、信号のピークを検出するために、検出メカニズム405を含む。検出メカニズム405は、例えば、信号が粗過渡信号(sparse transient signal)か又は密過渡信号(dense transient signal)かを決定するために、信号を分析すると言うことができる。この場合、信号の時間的ピークは、信号の中の過渡(過渡的イベント)の密度の指標を導出するために使用できる。
実施形態では、正規化された第4時点が、エンベロープ信号の中の変動の程度を測定するために使用される。時間的ピークTP(k)frameの指標は、所与のコアコーデックについて周波数ビンkに渡り計算され、次式を用いて計算される。
Figure 0007447085000008
同様に、スペクトルピーク指標は、タイムスロットtに渡り計算されてよい。上式で、S(k)は、サブバンド信号であり、Tは、1つのコアエンコーダフレームに対応するQMFスロットの数である。例示的な実装では、Tの値は32であってよい。帯域毎に計算された時間的ピークは、一般的な2つのカテゴリ、つまり定常的音楽信号、及び音楽的過渡信号若しくは会話信号に、音声コンテンツを分類するために使用できる。TP(k)frameの値が所定値より小さい場合(例えば1.2)、フレームのそのサブバンド内の信号は、定常的音楽信号である可能性が高い。TP(k)frameの値がこの値より大きい場合、信号は、音楽的過渡信号又は会話信号である可能性が高い。値が更に高い閾値より高い場合(例えば1.6)、信号は、純粋な音楽的過渡信号、例えばカスタネットである可能性が非常に高い。更に、自然に生じる信号について、異なる帯域で取得される時間的ピークの値は事実上類似しており、この特定は、時間的ピーク値が計算されるべきサブバンドの数を低減するために利用できることが分かっている。
留意すべきことに、ピーク(鋭さ)は、平坦と反対であり、任意の平坦に基づく指標が、同様の方法で使用されてよい。AC-4で使用されるような複素数値変換では、S(k)の複素数値の大きさが使用される。上述の時間的鋭さの指標は、実数値変換にも適用されてよい。上式で、AC-4/A-SPXの実施形態では、Tは、(個定常的又は過渡的コンテンツに依存する)最終的な値がA-SPXフレーム生成器により決定されたフレーム内のQMFタイムスロットの合計数である。2048フレーム長では、Tは、定常的コンテンツでは2048/64=32である。AC-4は(ビデオフレーム同期オーディオ符号化をサポートするために)種々のフレーム長をサポートするので、Tの値は、異なるフレーム長で異なる。上述のように、大きさの計算では、複素サブバンドサンプルは、計算集約的な平方根演算が必要である。これは、種々の方法で、例えば実数部及び虚数部の大きさを合計することにより、複素サブバンドサンプルの大きさを近似することにより、回避できる。
図4を参照すると、留意すべきことに、QMF行列では、タイムスロットの数は、A-SPX分析に基づき変化することがあり、信号により変化してよい。従って、時間境界データが、A-SPX分析コンポーネントから生じなければならない。
コンパンディング切り替え
実施形態では、上述のシステムは、コアエンコーダの前の入力信号のダイナミックレンジを縮小させる。この意味でコアエンコーディングの前のコンパンディングは、入力信号のダイナミックレンジの圧縮に対応し得る。システムは、(コア符号化における又は非A-SPX周波数範囲内において等価な)QMFタイムススロットを、広帯域利得値により変更することにより、これを行う。利得値は、相対的に低い強度のスロットに対しては大きく(つまり、増幅)、高い強度のスロットに対しては小さい(つまり減衰)。
通常、コンパンディングは、拍手又は会話又は鋭い衝撃を有する信号(例えば、打撃効果)のようなコンテンツに役立ち、音色オーディオのような他のタイプのコンテンツには役立たないことが分かっている。従って、信号適合型コンパンディングは、検出された信号に依存してコンパンディングを適用する。実施形態では、図1のエンコーダ/デコーダシステム100は、信号適応型又は信号依存コンパンディングを実行して、信号コンテンツに基づき最適な量のコンパンディングを提供するコンパンディングモード切替処理を実施する。上述のように、コンパンディングは、時間ノイズシェーピングを提供し、知覚的に有利な周波数ドメインノイズシェーピングを提供することが分かった(ここで、「知覚的に有利な」は、量子化ノイズが、マスキング曲線の下に留まるよう(従うよう)良好にシェーピングされることを意味する)。従って、コンパンディングは非線形動作なので、一般的に、心理音響モデル(非線形モデルとも呼ばれる)と関連してその周波数ドメインの利益を予測することが困難である。例えば準最適な切り替え方針を通じてコンパンディングを不適切に適用することは、切り替えアーチファクトを生じ、システムの複雑性及び遅延を増大してしまう。特定の実施形態におけるコンパンディング切り替え処理は、コンパンディングが役立つとき、及びどのように最適に信号適応型コンパンディングを適用するか、を決定する。
図4は、コーデックのエンコーダ段と関連してオーディオ信号を圧縮する、コンパンダ切り替えコンポーネント又は機能407を含むシステムを示す。スイッチ407は、単にコンパンディングをオフに急に切り替えのではなく、代わりに、コンパンディングがオフの状況での1.0の一定の利得係数よりも隣接するコンパンディングがオンのフレームの利得係数により類似する一定の利得係数をオーディオフレームに適用することにより、最適コンパンディング選択を実現するよう構成される。このような利得係数は、1つのフレーム内のスロットに渡り平均絶対レベルを平均化することにより、計算される。平均コンパンディングが利用されるフレームは、ビットストリーム内でシグナリングされる(例えば、b_compand_avg))。この文脈における平均は、平均絶対レベルの平均を意味する。
実施形態では、スイッチ407は、3つのコンパンディング状態、つまり、コンパンディング無し(Compand_Off)、通常コンパンディング(Compand_On)、及び平均コンパンディング(Compand_Ave)の間の1つに切り替えるよう構成される。特定の実施形態では、compand_offモードは、純粋な正弦波信号のために使用され、他の全部の信号については、システムはオンと平均モードとの間で切り替える。
通常コンパンディングでは、St(k)がタイムススロットt及び周波数帯kにおいて複素数値フィルタバンクサンプルである場合、前処理ステップは、コアコーデック入力をスケーリングして、次式になるようにする。
Figure 0007447085000009
SMtは平均絶対レベル(1ノルム)であり、k=1~Kの範囲にわたり合計されて次式で与えられ、α=0.65である。
Figure 0007447085000010
ここで、αは、コンパンディング指数と呼ばれてよい。実施形態では、コンパンディング検出器は、大きさが±64の間にある複素数値S(k)について設計される。複素数値の範囲が異なる場合、設計は、相応してスケーリングされる必要がある。従って、他の実施形態は、適切な場合には異なる値を特徴としてよい。
平均コンパンディングについて、図7は、例示的な実施形態における、和音(chord)のフレームの例示的なQMFスロットを示す。図7のグラフ700は、適切な楽器(例えば、ピアノ又はギター)で演奏されるような例示的なマルチノート和音(multi-note chord)について、音色(tonal)/調和音(harmonic)コンテンツを示す。図7に示されるように、3つの異なるコンパンディング設定について結果として生じる利得が示される。コンパンディングOFF軌跡702は、平坦な利得を示し、コンパンディングON軌跡706は比較的急な不連続な利得を示す。後プロセッサ(つまり、コンパンディングデコーダ)におけるこのような不連続は、シェーピングされたノイズのエンベロープにおける不連続を生じる。これは、煩わしいクラッキングノイズとして知覚され得る可聴クリックを引き起こす。コンパンディングAVG軌跡704は、(直ぐ前に上述した)通常コンパンディングの代わりに平均コンパンディングの利用が可聴クリックを除去することを示す。同様の考察は、これが他の音色/調和音コンテンツ(例えば、ハープシコード又は同様の楽器)にも当てはまることを示す。言い換えると、コンパンディングは、音色/調和音コンテンツには害になり、音色/調和音コンテンツに対してコンパンディングは「オフ」にされるべきか又は平均コンパンディングが利用されるべきである。
コンパンディングがエンコーダにおいて適用される場合、コアデコーダの出力は、各フレーム内で時間に渡りほぼ均一レベル(時間エンベロープ)の量子化ノイズの追加により、ダイナミックレンジの縮小されたこの信号である。元の信号において低強度を有し前プロセッサにより増幅されたスロットには小さな利得(減衰)が適用され、元の信号において高強度を有し前プロセッサにより減衰されたスロットには大きな利得(増幅)が適用される。量子化ノイズは、従って、後プロセッサにより同時にシェーピングされて、元の信号の時間エンベロープを近似的に辿る。平均コンパンディングがエンコーダにおいて適用される場合には、平均コンパンディングは、デコーダにおいても適用される必要がある。つまり、一定の利得係数がオーディオフレームに適用される。
実施形態では、帯域毎に計算された時間的ピーク(又は鋭さ)は、オーディオコンテンツを、2つの閾値により定義される以下のカテゴリに大まかに分類するために使用できる。
Figure 0007447085000011
純粋な正弦波/音色/純粋な過渡的オーディオの3つのカテゴリを区別するための1.2及び1.6の閾値は、経験的データから導出され、測定の全体範囲及び単位に依存して異なってよい。1.2及び1.6の特定の値は、大きさが±64の間にある複素数値S(k)について設計されたコンパンディング検出器のために導出される。複素数値の範囲が異なる場合、異なる閾値が使用され得る。
図8は、幾つかの実施形態における、信号適応型コンパンダを用いるオーディオコンテンツを分類する方法を示すフローチャートである。方法は、ステップ802で開始し、3つの主なカテゴリ:(1)純粋な正弦波、(2)定常的/音色、(3)純粋な過渡的、を識別する閾値を定義する。第2のカテゴリ、定常的/音色は、正弦波、過渡的、音色、部分的な音色信号、等の混合を含む任意の信号であってよく、一般的に、オーディオプログラム内に存在する大部分の信号を含む。このようなコンテンツは、従って、過渡的及び正弦波信号の混合を表し、「ハイブリッド」信号と呼ばれる。3つの主なカテゴリへの分類のために、2つの閾値が定義される。閾値は、特定のコンパンディング検出器パラメータ、例えば、複素数値の大きさ、上述のように例えば1.2及び1.6に関して定義されるが、任意の他の値も可能である。ステップ804で、これらの閾値に基づき、入力オーディオは、3つのカテゴリに大まかに分類される。決定ブロック806で、信号がハイブリッドか否かについて決定が行われる。信号がハイブリッドではない場合、信号は純粋な正弦波又は純粋な過渡的である。この場合、ブロック808で、適切なコンパンディングルールが適用できる。例えば、純粋な正弦波信号に対してはコンパンディングをオフにし、純粋な過渡的に対してはコンパンディングをオンにする。信号がハイブリッドである場合、信号は正弦波及び過渡信号の両方を含み、コンパンディングのオン又はオフ設定は最適でない可能性がある。この場合、音色信号を、会話若しくは拍手又は打楽器若しくは同様の楽器のような同様の効果に起因する過渡又は部分的過渡信号から区別するために、更なる処理が必要である。実施形態では、ブロック810で、時間的鋭さの特性は、このような会話/拍手信号から、音色信号を区別するのを助ける残りの指標を引き出すために使用される。この処理ステップの詳細は、以下に図9を参照して与えられる。
従って、実施形態では、検出コンポーネント405は、所定の閾値と比較される入力信号の値に基づき、信号のタイプを検出するよう構成される。これは、システムが、定常的/音色音楽を、音色部分も有し得る会話から区別することを可能にする。検出器は、より良好な区別のために、スペクトルの鋭さの指標も使用する。検出器は、何からの明らかに時間的に鋭くないものがスペクトル的に鋭いという事実を用いて、時間的鋭さの特性から、残りの指標を導出する。従って、純粋な音色又は純粋な過渡(上述のカテゴリ1又は3)としての信号の大まかな分類の後に、定常的又は過渡(上述のカテゴリ20)と対照的に、スペクトルの鋭さが、信号を更に区別するために使用される。スペクトルの鋭さは、直接計算されないが、他の計算から残りの指標として導出される。
残りの値の導出に関して、図9は、幾つかの実施形態における、トーン信号から会話を区別するために、スペクトル急激さを用いる方法を示すフローチャートである。ステップ902で、処理は、1.2より大きい時間的鋭さを有する帯域数である指標1を取り込む。ステップ904で、処理は、残りの指標である、1.2より小さい時間的鋭さの平均である指標2を取り込む。処理は、次に、ブロック906で、所定の1又は複数のルールを適用して、コンパンディングをオフ又は平均にする。これは、システムがコンテンツに依存して適応的にコンパンディングを利用することを可能にし、一般的に音色/調和音コンテンツに対してコンパンディングが害となり、図7に示すようにオフ又は平均に切り替えられるべきであるという事実を考慮し続ける。
以下のコードセグメントは、コンパンディングをオン又は平均にするための例示的なルールを示し、[1]は指標1を示し、[2]は指標2を示す。
Figure 0007447085000012
このルールは、0及び1のシリーズを生成する。1の値は、コンパンディングモードがオンに設定されることを示し、0の値は、コンパンディングモードがオフに設定されることを示す。しかしながら、オフは平均モードの使用を生じてよい。従って、上述のコードの例では、0は平均モードを意味し、従って、コードセグメントは、コンパンディングON及びAVERAGEの間で切り替え可能である。
上述のルールでは、指標2は、音色信号を会話と差別化するために、別の分類ラウンドを行うことを試みる。閾値は、(例えば、指標スケール全体に基づき)適切に定義される。その結果、1.18より高いものは純粋な過渡であり、1.1より低いものは純粋な音色信号である。しかし、このような純粋な過渡又は純粋な音色信号は、最も外側のif条件により既に分類されている可能性が非常に高い。従って、内側のif文が、分類を更に微調整することを試みる。1.1と1.8との間の領域について、会話の音色成分の大部分が1.12~1.18の範囲内にあり、音楽の音色信号は1.1~1.12の範囲内にあることが分かっている。
上述のルールで分かるように、一実施形態では、「オン」及び「平均」シーケンスは、コンパンディングモードのオン/オフ又はオン/平均設定に関して、11110100のように構成される検出器を生成する。代替の検出器は、10111000のようであってよい。上述の例では、コンパンディングを「オン」又は「平均」に切り替える8個の可能性がある。一般的に、11110100及び10111000のようなビット構成は、厳しいリスニング及び/又は特定のリスニングツールの使用により見付かる。代替の構成は、会話に対してコンパンディングを僅かに多くオフに切り替える代わりに、音色信号に対して僅かに頻繁にコンパンディングをオフにするというトレードオフを提示する。これらは、会話品質が僅かに劣化するので、「第2の最良」の代替案を提示し得る。この構成は、システム要件、及び最適対準最適音声の主観的指標、及び会話/拍手に対する音色音声の所望のトレードオフに基づき変化又は変更されてよい。
極端な例では、このような純粋な正弦波では、図8のブロック808及び以下のコードセグメントに示されるように、コンパンディングはオフに切り替えられる。
Figure 0007447085000013
上記のコードセグメントは、幾つかの実施形態における、切り替え方法の実装を示す。理解されるべきことに、コードセグメントは、例示的なソフトウェア実装を示し、変形及び追加又は異なるコードセグメントも使用されてよい。
時間的鋭さとスペクトルの鋭さとの間の関係は、時間的ノイズシェーピングに影響することに加えて、コンパンディングが周波数ドメインにおいて特定の知覚的に有利なノイズシェーピング効果も提供するという事実に基づく。図6を参照すると、QMFドメインにおいて、QMFの出力は、y軸が周波数であり、x軸がタイムススロットである行列である。各タイムススロットは、多数のサンプルで構成され、各帯域は多数の周波数で構成される。この周波数×時間の行列は、周波数帯毎の時間的鋭さを検出するために使用できる。ここで、x軸は時間的鋭さを与える。同様に、y軸は、周波数の鋭さを与え、これは必ずしも計算されないが、周波数の鋭さはこの行列から導出できる。
図4は、ETSI(European Telecommunications Standards Institute)でts103 190として標準化されDVB(Digital Video Broadcasting)によりTS101 154で採用されたたDolby AC-4オーディオ配信及び形式に基づくシステムを示す。実施形態は、低ビットレートにおける高周波数の効率的符号化のために、A-SPX(Advanced Spectral Extension)符号化ツールに関しても記載される。留意すべきことに、実施形態は、これに限定されず、任意の適切なコーデック設計及びオーディオ符号化及び配信方法が使用されてよい。
実施形態では、エンコーダにおいて(A-SPXのみの場合又はA-SPX+A-CPLの場合)、圧縮器はQMF合成の前の最後のステップである。A-SPX+A-CPLの場合、エンコーダにおけるハイブリッド分析/合成は、圧縮器の前で動作する。コンパンディング制御部404の出力に依存して、圧縮器406は、スイッチ407の機能に基づき、通常のコンパンディングモード又は平均コンパンディングモードを実行してよい。
異なるオーディオ抄録によりコンパンディングモードをテストする種々の実験的試験を通じて、及びオーディオ符号化処理による劣化の観点でオーディオ出力の品質を評価するためにリスニングツールを使用して、コンパンディングオンにより劣化した抄録が、平均コンパンディングが使用されるとき向上されること、及びコンパンディング「オン」により向上した抄録が平均コンパンディングが使用されたときに非常に僅かに劣化したことが分かった。これらの2つの点は、システムが、大部分の時間、コンパンディングオンと平均コンパンディングとの間で切り替えた可能性を示す。これは、適用される利得のより良好な連続性を有する切り替えの利点を提供し、潜在的な切り替えアーチファクトを回避する。また、結果として、コンパンディング制御を組み込んだ、少ない複雑さの及び遅延のない検出器をもたらす。
これまでに記載された実施形態は、コーデック内のエンコーダにより導入される量子化ノイズを低減するコンパンディング処理を含むが、留意すべきことに、このようなコンパンディング処理の態様は、エンコーダ及びデコーダ(コーデック)段を含まない信号処理システムにも適用されてよい。更に、コンパンディング処理がコーデックと関連して使用される場合には、コーデックは、変換に基づき又は変換に基づかなくてよい。
図10は、コンテンツ(オーディオコンテンツ)に基づきコンパンディング指数(α)を選択する例示的な技術を示す。留意すべきことに、以下では、オーディオ信号の時間セグメントの非限定的な例として理解されるべきオーディオ信号のフレームを参照する。本開示は、フレームに限定されると理解されるべきではないが、時間セグメントのあらゆる可能な実装に同様に適用される。
1つ以上のコンピュータプロセッサを含むシステムは、1つ以上のオーディオ信号を受信する(1004)。システムは、信号の第1フレームF0が第1過渡タイプの信号、例えば過渡(transient)が広い間隔である粗過渡信号を含むことを決定する。これは、過渡が、過渡と過渡との間の無音の(短い)期間により、個々に知覚可能であり識別可能であることを示してよい。第1過渡タイプの信号の幾つかの例は、カスタネット、テクノミュージック、会話、又は何らかの喝采である。これに応答して、システムは、第1フレームF0についてコンパンディング指数値が第1値(例えば、α=0.65)であることを指定する。
システムは、オーディオ信号の第2フレームF1が第2過渡タイプのコンテンツを含むと決定し得る。第2過渡タイプのコンテンツは、密過渡信号を含む。第2過渡タイプのコンテンツの例は、第1タイプのコンテンツより密な過渡を有する喝采である。これに応答して、システムは、第2フレームについてコンパンディング指数値が第2値(例えば、α=0.5)であることを指定する。
システムは、オーディオ信号の第3フレームF2が第3過渡タイプのコンテンツを含むと決定し得る。第3過渡タイプのコンテンツは、第2過渡タイプのコンテンツより密な過渡を有する過渡信号を含む。第3過渡タイプのコンテンツの例は、高い拍手密度を有する密な喝采である。これに応答して、システムは、第3フレームについてコンパンディング指数値が第3値(例えば、α=0.35)であることを指定する。一般的に、第1~第3値は、第1値から第3値へと、例えばα=0.65からα=0.5hである。0.5を介してα=0.35へと、値が減少してよい。
システムは、オーディオ信号の第4フレームF3が第4過渡タイプのコンテンツを含むと決定し得る。第4過渡タイプのコンテンツは、ノイズとして知覚されるほど過渡が密である過渡信号を含む。これに応答して、システムは、第4フレームについてコンパンディング指数値が第4値であることを指定する。第4値は第1値(例えば、α=0.65)と等しくてよい。代替として、システムは、第4フレームについてコンパンディングをオフにできる。1.0の値を有するようにコンパンディング指数値を指定することは、コンパンディングをオフにする。
従って、システムは、オーディオ信号のフレームを分析し(時間セグメントの非限定的な例のように)、フレーム毎に、それぞれのフレームが第1~第4過渡タイプのコンテンツを含むかどうかを決定してよい。幾つかの実装では、システムは、粗過渡タイプ(第1過渡タイプ)及び密過渡タイプ(第2又は第3過渡タイプ)のような、2つ(又は3つ)の過渡タイプのコンテンツのみを区別してよい。次に、システムは、それぞれの過渡タイプのフレームを、それぞれのフレームセット(例えば、第1~第4フレームセット)に属するとして扱い、それぞれのコンパンディング指数を各フレームセットに割り当ててよい。例えば、第1値のコンパンディング指数は、第1過渡タイプの信号を含む全部のフレームで構成される第1フレームセットに割り当てられてよく、第2値のコンパンディング指数は、第2過渡タイプの信号を含む全部のフレームで構成される第2フレームセットに割り当てられてよく、第3値のコンパンディング指数は、第3過渡タイプの信号を含む全部のフレームで構成される第3フレームセットに割り当てられてよ、第4値のコンパンディング指数は、第4過渡タイプの信号を含む全部のフレームで構成される第4フレームセットに割り当てられてよい。
図11は、コンパンディング指数の例示的な値、及び対応するコンパンディング状態を示すテーブルである。従来、コンパンディング制御データ構造における1ビット値は、コンパンディングがオンかオフかを決定する。システムが、コンパンディングがオンであると決定した場合、システムは、固定されたコンパンディング指数値α=0.65を使用する。本願明細書で開示されたような過渡密度に基づくコンパンディングでは、2つの新しいコンパンディング指数値α=0.5及びα=0.35が、図10を参照して開示したような第2及び第3タイプjのコンテンツに対して使用される。コンパンディング指数値を符号化側と復号側との間でシグナリングするために使用されるビット数に依存して、異なるコンパンディング指数のセットが使用されてよい。例えば、1ビットがコンパンディング指数の値をシグナリングするために使用される場合、粗過渡イベントと密過渡イベントとの間で区別されてよい(例えば、粗過渡タイプ及び密過渡タイプの範囲を互いに定めるために、過渡イベントの密度における所定の閾値による)。次に、α=0.65の第1値が、粗過渡イベントフレームについて使用されてよく、α=0.5又はα=0.35の第2値が、密過渡イベントフレームについて使用されてよい。2ビットがコンパンディング指数の値をシグナリングするために使用される場合には、例えば上述のコンパンディング指数の第1~第4値を用いて、4個の異なるフレームタイプの間で区別が行われてよい。
コンパンディングの値αより低いことは、(例えば、コアエンコーディングの前の)コンパンディングにおいてダイナミックレンジ圧縮が高いことに対応する。α=1の値は、コンパンディングが無いことを示す。相応して、コンパンディングの値αより低いことは、(例えば、コアデコーディングの後の)コンパンディングにおいてダイナミックレンジ伸長が高いことに対応する。ダイナミックレンジ圧縮の程度が高いほど、低い強度信号がより多くブーストされること、高い強度信号はより多く減衰されることを意味する。
システムは、以下に示すコンパンディング制御データ構造の中でコンパンディング指数αの値を示すことができる。
データ構造の中で、b_compand_on[ch]は、特定のチャネルchのための2ビット値を含む。
Figure 0007447085000014
b_compand_on[ch]は、バイナリ値00、01、10、又は11を有することができ、それぞれ、特定のフレームについて、コンパンディング指数の値αが1、0.65、0.5、及び0.35であることを示す。値の他の組み合わせが可能である。
図12は、過渡密度に基づくコンパンディングの例示的な処理1200を示すフローチャートである。処理1200は、図10及び図11を参照して説明した技術の例示的な実装である。処理1200は、1つ以上のコンピュータプロセッサを含むシステムにより実行できる。システムは、オーディオエンコーダ、オーディオデコーダ、又はその両方を含むことができる。
システムは、オーディオ信号を受信する(1202)。システムは、オーディオ信号の第1フレームが粗過渡信号を含むと決定する(1204)。粗過渡信号は、第1過渡密度を有する過渡タイプのオーディオ信号を含む。システムは、オーディオ信号の第2フレームが密過渡信号を含むと決定する(1206)。密過渡信号は、第1密度より高い第2過渡密度を有する過渡タイプのオーディオ信号を含む。過渡タイプのオーディオ信号は、拍手、雨、又はパチパチ音のする火、のうちの少なくとも1つを含む。一般的に、システムは、オーディオ信号の時間セグメント(例えば、フレーム)にういて、時間セグメントを分析して、オーディオ信号の時間セグメントが粗過渡信号又は密過渡信号を含むかどうかを決定してよい。
システムは、オーディオ信号をコンパンディングする(1208)。オーディオ信号のコンパンディングは、オーディオ信号の第1フレームに第1コンパンディング指数を適用し及びオーディオ信号の第2フレームに第2コンパンディング指数を適用するコンパンディングルールを用いて、オーディオ信号に圧縮/伸長(コンパンディング)操作を適用する。一般的に、システムは、前述の決定の結果に基づき、オーディオ信号の時間セグメントにコンパンディングを適用する。時間セグメントのこのコンパンディングは、コンパンディング指数に基づきオーディオ信号の時間セグメントのダイナミックレンジを圧縮又は伸長するステップを含んでよい。第1コンパンディング指数(例えば、α=0.65)は、オーディオ信号の時間セグメントが粗過渡信号を含むと決定された場合に、コンパンディングで使用されてよい。第1コンパンディング指数と異なる第2コンパンディング指数(例えば、α=0.5又はα=0.35)は、オーディオ信号の時間セグメントが密過渡信号を含むと決定された場合に、コンパンディングで使用されてよい。各コンパンディング指数は、対応するフレームについてダイナミックレンジ圧縮及び伸長のそれぞれの程度を導出するために使用される。第2コンパンディング指数は、第1コンパンディング指数より値が低く、第1コンパンディング指数のものより高い程度のダイナミックレンジ圧縮及び伸長に対応する。例えば、ダイナミックレンジ圧縮は、タイムススロットt及び周波数バンクkにおける複素数値S(k)について、次式によるオーディオサンプルのスケーリングにより実行されてよい。
Figure 0007447085000015
ここで、g=(SMα-1であり、正規化されたスロット平均(又は利得)であり、SMは平均絶対レベル(1ノルム)であり、k=1~Kの範囲に渡り加算される次式により与えられる。
Figure 0007447085000016
システムは、コンパンディングされたオーディオ信号を下流装置に提供する、つまり圧縮されたオーディオ信号を出力する(1208)。下流装置は、エンコーダ、デコーダ、出力装置、又は記憶装置のうちの少なくとも1つであり得る。
図13は、過渡密度に基づくコンパンディングの例示的な処理1300を示すフローチャートである。処理1300は、図10及び図11を参照して説明した技術の例示的な実装である。処理1300は、1つ以上のコンピュータプロセッサを含むシステムにより実行できる。システムは、オーディオエンコーダ、オーディオデコーダ、又はコンパンディング符号化装置のうちの少なくとも1つを含み得る。特に、処理1300は符号化側で実行できる。この場合、コンパンディングは、オーディオ信号のダイナミックレンジを圧縮することを含んでよい。
システムは、オーディオ信号を受信する(1302)。オーディオ信号は、(時間セグメントの非限定的な例として)フレームのシリーズを含み得る。
システムは、対応するフレームの中でオーディオ信号のコンテンツに基づきオーディオ信号のフレーム毎にそれぞれのコンパンディング指数を決定する(1304)。これは、オーディオ信号のフレームを、例えばそれらのコンテンツに関して分析することを含む。各コンパンディング指数は、対応するフレームのダイナミックレンジ圧縮及び伸長のそれぞれの程度を導出するために使用される。コンパンディング指数を決定することは、以下の動作を含む。システムは、粗過渡信号を含むと決定されたオーディオ信号の第1フレームのために、第1コンパンディング指数を指定する。システムは、密過渡信号を含むと決定されたオーディオ信号の第2フレームのために、第2コンパンディング指数を指定する。第1コンパンディング指数が第2コンパンディング指数より値が高いことは、ダイナミックレンジ圧縮及び伸長の程度が低いことを示す。図10を参照して上述したように、コンパンディング指数は、コンパンディングで使用されるダイナミックレンジ圧縮の量を制御する。コンパンディング指数の値が低いほど、高いダイナミックレンジ圧縮及び伸長に対応する。
一般的に、これは、第1コンパンディング指数を、粗過渡信号を含むと決定されたオーディオ信号の全部の時間セグメントで構成される第1時間セグメント(例えばフレーム)セットに割り当てること、及び第1コンパンディング指数と異なる第2コンパンディング指数を、密過渡信号を含むと決定されたオーディオ信号の全部の時間セグメントで構成される第2時間セグメント(例えばフレーム)セットに割り当てることに対応してよい。
粗過渡信号は、第1密度を有する過渡タイプのオーディオ信号を含む。密過渡信号は、第1密度より高い第2過渡密度を有する過渡タイプの信号を含む。粗過渡イベントと密過渡イベントとの間の区別は、例えば、過渡の密度についての所定の閾値に基づき行われてよい。密度の指標は、例えば、信号のスペクトルの又は時間のピークを用いて導出されてよい。過渡タイプのオーディオ信号は、拍手、雨、又はパチパチ音のする火、のうちの少なくとも1つを含む。
システムは、第1コンパンディング指数に従い第1フレームを圧縮すること、及び第2コンパンディング指数に従い第2フレームを圧縮することを含む、コンパンディングの圧縮部分を実行する(つまり、圧縮に対応するコンパンディングの符号化側部分を実行する)(1306)。これは、第1コンパンディング指数に従い第1時間セグメントセットを圧縮すること及び第2コンパンディング指数に従い第2時間セグメントセットを圧縮することを含む、オーディオ信号にコンパンディング動作を適用することに等しくてよい。
システムは、圧縮されたオーディオ信号をコアエンコーダに提供する(1308)。
システムは、第1コンパンディング指数及び第2コンパンディング指数のそれぞれの指示子を、圧縮されたオーディオ信号に関連付けられたビットストリームに提供する(1310)。指示子は、図11を参照して説明されるコンパンディング制御データ構造の中の値であり得る。各指示子は、オーディオ信号の中のそれぞれのチャネル又はそれぞれのオブジェクトのそれぞれのビットを含み得る。各指示子は、コンパンディング制御データ構造に格納される。指示子の合計サイズは、2ビットデータ構造であり得る。ここで、各指示子は、少なくとも2ビットのそれぞれのコンパンディング状態データを含み、該少なくとも2ビットは、少なくとも4つのコンパンディング状態を決定し、該4つの状態の各々はそれぞれのコンテンツタイプに対応する。
図14は、過渡密度に基づくコンパンディングの第3の例示的な処理を示すフローチャートである。処理1400は、図10及び図11を参照して説明した技術の例示的な実装である。処理1400は、1つ以上のコンピュータプロセッサを含むシステムにより実行できる。システムは、オーディオエンコーダ、オーディオデコーダ、又はコンパンディング符号化装置のうちの少なくとも1つを含み得る。特に、処理1400は復号側で実行できる。この場合、コンパンディングは、オーディオ信号のダイナミックレンジを伸長することを含んでよい。
システムは、複数の指示子に関連付けられた圧縮されたオーディオ信号を受信する(1402)。各指示子は、圧縮されたオーディオ信号の対応するフレームに適用されるダイナミックレンジ圧縮の程度を導出するために使用されたそれぞれのコンパンディング指数を示す。つまり、システムは、オーディオ信号の時間セグメント毎に少なくとも1つ関連付けられた指示子と一緒に、オーディオ信号を受信してよい。少なくとも1つの関連付けられた指示子のそれぞれは、符号化の前のコンパンディング動作の間にオーディオ信号のそれぞれの時間セグメントに適用されている縮又は伸長の程度に対応するそれぞれのコンパンディング指数を示す。
システムは、圧縮されたオーディオ信号の中のコンテンツの第1フレームが、第1指示子に関連付けられていること、及び圧縮されたオーディオ信号の中のコンテンツの第2フレームが第2指示子に関連付けられていることを決定する(1404)。各指示子は、圧縮されたオーディオ信号の中のそれぞれのチャネル又はオブジェクトに対応する。各指示子は、圧縮されたオーディオ信号に関連付けられたメタデータの中のコンパンディング制御データ構造の中に1ビット値を含む。特に、図11に更に詳細に記載されるように、各指示子は、種々のコンパンディング指数を示すよう構成された少なくとも2ビットのコンパンディング状態データを含む。該少なくとも2ビットは、コンテンツのそれぞれの過渡タイプに対応する少なくとも4個のコンパンディング状態に対応する。一般的に、システムは、第1指示子に関連付けられたオーディオ信号の全部の時間セグメントで構成される第1時間セグメントセットを決定し、及び第2指示子に関連付けられたオーディオ信号の全部の時間セグメントで構成され得第2時間セグメントセットを決定してよい。
システムは、第1指示子及び第2指示子に基づき、第1コンパンディング指数がコンテンツの第1フレームを伸長するために使用されるべきであると、及び第2コンパンディング指数がコンテンツの第2フレームを伸長するために使用されるべきであると、決定する(1406)。一般的に、システムは、オーディオ信号の時間セグメント毎に、それぞれの時間セグメントの伸長動作で使用するそれぞれのコンパンディング指数を決定してよい。ここで、第1コンパンディング指数が第1時間セグメントセットのために使用されるべきであること、及び第2コンパンディング指数が第2時間セグメントセットのために使用されるべきであることが決定されてよい。第1コンパンディング指数は、第2コンパンディング指数と異なってよい。
システムは、圧縮されたオーディオ信号に対してコンパンディングの伸長部分を実行する(つまり、伸長に対応する、コンパンディングの復号側部分を実行する)(1408)。動作は、第1コンパンディング指数から導出されたダイナミックレンジ伸長の第1の程度に従い、圧縮されたオーディオ信号のコンテンツの第1フレームを伸長すること、及び第2コンパンディング指数から導出されたダイナミックレンジ伸長の第2の程度に従い、圧縮されたオーディオ信号のコンテンツの第2フレームを伸長することを含む。一般的に、システムは、第1コンパンディング指数から導出されたダイナミックレンジ伸長の第1の程度に従い、第1時間セグメントセットを伸長すること、及び第2コンパンディング指数から導出されたダイナミックレンジ伸長の第2の程度に従い、第2時間セグメントセットを伸長することを含む、オーディオ信号に伸長動作(コンパンディングの復号側部分)を適用してよい。
システムは、伸長されたオーディオ信号を、例えば出力装置に提供する(1410)。出力装置は、記憶装置、ストリーミングサーバ、オーディオプロセッサ、又は増幅器のうちの少なくとも1つを含む。
処理1200及び1300は、(例えば、符号化側にある)上述の圧縮コンポーネント104において実行されてよいことが理解される。処理1200及び1400は、(例えば、復号側にある)伸長コンポーネント114において実行されてよい。
留意すべきことに、処理1200、1300、及び1400は、第1及び第2コンパンディング指数を参照し、同様のものが、2つより多くの過渡タイプの間で区別が実行される場合に適用されてよい。例えば、前述の処理は、コンパンディング指数の第1~第4の値を割り当て/使用してよい。
ここに記載されるシステムの太陽は、デジタル又はデジタルかされたオーディオファイルを処理する適切なコンピュータに基づく音声処理ネットワーク環境で実施されてよい。適応型オーディオシステムの部分は、コンピュータの間で送信されるデータをバッファリング及びルーティングするよう機能する1つ以上のルータ(図示しない)を含む任意の所望の数の個別機械を含む1つ以上のネットワークを含んでよい。このようなネットワークは、種々の異なるネットワークプロトコル上で構築されてよく、インターネット、広域ネットワーク(Wide Area Network (WAN))、ローカルエリアネットワーク(Local Area Network (LAN))、又はそれらの任意の組合せであってよい。
コンポーネント、ブロック、プロセス、又は他の機能的コンポーネントのうちの1つ以上は、システムのプロセッサに基づくコンピューティング装置の実行を制御するコンピュータプログラムを通じて実装されてよい。また、留意すべきことに、ここに開示した種々の機能は、ハードウェア、ファームウェア、及び/又は種々の機械可読若しくはコンピュータ可読媒体の中に具現化されたデータ及び/又は命令として、それらの動作の観点で、レジスタトランスファ、論理コンポーネント、及び/又は他の特性、の任意の数の組合せを用いて記載され得る。このようなフォーマットされたデータ及び/又は命令が具現化されるコンピュータ可読媒体は、限定ではないが、光、磁気、又は半導体記憶媒体のような、種々の形式の物理的(非一時的)不揮発性記憶媒体を含む。
文脈上明確に断りの無い限り、本願明細書及び請求の範囲を通じて、用語「含む、有する(comprise、comprising)」等は、排他的又は網羅的意味ではなく、包含的意味で、言い換えると、限定ではないが「含む、有する(including)」の意味で解釈されるべきである。単数又は複数を使用する語は、複数又は単数もそれぞれ含む。更に、用語「本願明細書で」、「ここで」、「この記載に従い」、「上述の」、「以下の」、及び同様のことを意味する語は、本願を全体として参照し、本願の任意の特定の部分を参照するものではない。語「又は」が2つ以上の項目のリストを参照するときに使用されるとき、その語は、以下のような語の解釈、つまり、リストの中の項目のうちのいずれか、リストの中の項目の全部、及びリストの中の項目の任意の組合せ、の全部をカバーする。
1つ以上の実装が例として、特定の実施形態の観点で記載されたが、1つ以上の実装は、開示された実施形態に限定されないことが理解されるべきである。これに対して、これの実装は、当業者に明らかなように、種々の変形および同様の構成をカバーすることを意図する。従って、添付の請求の範囲は、全部のこのような変形及び同様の構成を包含するように、最も広く解釈されるべきである。
本発明の種々の態様及び実装は、以下に記載する列挙された例示的な実施形態(enumerated example embodiments (EEEs))からも明らかであり得る。
(EEE1)オーディオ信号を処理する方法であって、
オーディオ信号を受信するステップと、
前記オーディオ信号の第1フレームが粗過渡信号を含むと決定するステップと、
前記オーディオ信号の第2フレームが密過渡信号を含むと決定するステップと、
前記オーディオ信号をコンパンディングするステップであって、第1コンパンディング指数を前記オーディオ信号の前記第1フレームに適用し第2コンパンディング指数を前記オーディオ信号の前記第2フレームに適用するコンパンディングルールを用いて、前記オーディオ信号に圧縮/伸長(コンパンディング)動作を適用することを含み、各コンパンディング指数は、対応するフレームのダイナミックレンジ圧縮及び伸長のそれぞれの程度を導出するために使用される、ステップと、
前記コンパンディングされたオーディオ信号を下流装置に提供するステップと、を含む方法。
(EEE2)前記粗過渡信号は、過渡の第1密度を有する前記オーディオ信号の過渡タイプを含み、前記密過渡信号は、前記第1密度より高い過渡の第2密度を有する前記オーディオ信号の過渡タイプを含み、
オーディオ信号の前記過渡タイプは、拍手、雨、又はパチパチする火のうちの少なくとも1つを含む、EEE1に記載の方法。
(EEE3)前記第2コンパンディング指数は、前記第1コンパンディング指数より値が低く、前記第1コンパンディング指数のものより高い程度のダイナミックレンジ圧縮及び伸長に対応する、EEE1に記載の方法。
(EEE4)オーディオ信号を処理する方法であって、前記方法は、
圧縮/伸長(コンパンディング)符号化装置により、オーディオ信号を受信するステップと、
前記コンパンディング装置により、対応するフレームの中の前記オーディオ信号のコンテンツに基づき、前記オーディオ信号のフレーム毎にそれぞれのコンパンディング指数を決定するステップであって、各コンパンディング指数は、前記対応するフレームのダイナミックレンジ圧縮及び伸長のそれぞれの程度を導出するために使用される、ステップと、
粗過渡信号を含むと決定された前記オーディオ信号の第1フレームのために第1コンパンディング指数を指定するステップと、
密過渡信号を含むと決定された前記オーディオ信号の第2フレームのために第2コンパンディング指数を指定するステップであって、前記第1コンパンディング指数は前記第2コンパンディング指数より値が高い、ステップと、
前記コンパンディングの圧縮部分を実行するステップであって、前記第1コンパンディング指数に従い前記第1フレームを圧縮することと、前記第2コンパンディング指数に従い前記第2フレームを圧縮することとを含む、ステップと、
前記圧縮されたオーディオ信号をコアエンコーダに提供するステップと、
前記第1コンパンディング指数及び前記第2コンパンディング指数のそれぞれの指示子を、前記圧縮されたオーディオ信号に関連付けられたビットストリームに提供するステップと、を含む方法。
(EEE5)前記コンパンディング指数は、前記コンパンディングするステップで使用されるダイナミックレンジ圧縮の量を制御し、低い値の前記コンパンディング指数ほど、高い程度のダイナミックレンジ圧縮に対応する、EEE4に記載の方法。
(EEE6)前記粗過渡信号は、第1密度を有する過渡タイプのオーディオ信号を含み、前記密過渡信号は、前記第1密度より高い第2密度を有する過渡タイプのオーディオ信号を含み、
前記過渡タイプのオーディオ信号は、拍手、雨、又はパチパチする火のうちの少なくとも1つを含む、EEE4に記載の方法。
(EEE7)各指示子は、前記オーディオ信号の中のそれぞれのチャネル又はそれぞれのオブジェクトのそれぞれのビットを含み、各指示子は、コンパンディング制御データ構造に格納される、EEE4に記載の方法。
(EEE8)各指示子は、コンパンディングがオンかオフかを示すデータのそれぞれの第2ビットを含む、EEE7に記載の方法。
(EEE9)各指示子は、少なくとも2ビットのそれぞれのコンパンディング状態データを含み、該少なくとも2ビットは、少なくとも4つのコンパンディング状態を決定し、該4つの状態の各々はそれぞれのコンテンツタイプに対応する、EEE8に記載の方法。
(EEE10)オーディオ信号を復号する方法であって、
デコーダ装置により、複数の指示子に関連付けられた圧縮されたオーディオ信号を受信するステップであって、各指示子は、前記圧縮されたオーディオ信号の対応するフレームに適用されたダイナミックレンジ圧縮の程度を導出するために使用されたそれぞれの圧縮/伸長(コンパンディング指数を示す、ステップと、
前記圧縮されたオーディオ信号の中のコンテンツの第1フレームが第1指示子と関連付けられること、及び前記圧縮されたオーディオ信号の中の前記コンテンツの第2フレームが第2指示子と関連付けられること、を決定するステップと、
前記デコーダ装置により、前記第1指示子及び前記第2指示子に基づき、第1コンパンディング指数が前記コンテンツの前記第1フレームを伸長するために使用されるべきであること、及び第2コンパンディング指数が前記コンテンツの前記第2フレームを伸長するために使用されるべきであること、を決定するステップと、
前記圧縮されたオーディオ信号に対して前記コンパンディングの伸長動作を実行するステップであって、前記第1コンパンディング指数から導出された第1の程度のダイナミックレンジ伸長に従い、前記圧縮されたオーディオ信号の前記コンテンツの前記第1フレームを伸長することと、前記第2コンパンディング指数から導出された第2の程度のダイナミックレンジ伸長に従い前記圧縮されたオーディオ信号の前記コンテンツの前記第2フレームを伸長することと、を含むステップと、
前記伸長したオーディオ信号を出力装置に提供するステップと、を含む方法。
(EEE11)各指示子は、前記圧縮したオーディオ信号の中のそれぞれのチャネル又はオブジェクトに対応する、EEE10に記載の方法。
(EEE12)各指示子は、前記圧縮したオーディオ信号に関連付けられたメタデータの中のコンパンディング制御データ構造の中に1ビット値を含む、EEE10に記載の方法。
(EEE13)各指示子は、種々のコンパンディング指数を示すよう構成されるコンパンディング状態データの少なくとも2つのビットを含み、前記少なくとも2つのビットはコンパンディングの少なくとも4個の状態に対応し、該状態の各々はコンテンツのそれぞれの過渡タイプに対応する、EEE12に記載の方法。
(EEE14)出力装置は、記憶装置、ストリーミングサーバ、オーディオプロセッサ、又は増幅器のうちの少なくとも1つを含む、EEE10に記載の方法。
(EEE15)機器であって、
1つ以上のプロセッサと、
命令を格納する非一時的コンピュータ可読記憶媒体であって、前記命令は、前記1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに、EEE1~14のいずれか一項に記載の動作を実行させる、非一時的コンピュータ可読記憶媒体と、
を含む機器。
(EEE16)命令を格納する非一時的コンピュータ可読記憶媒体であって、前記命令は、前記1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに、EEE1~14のいずれか一項に記載の動作を実行させる、非一時的コンピュータ可読記憶媒体。

Claims (22)

  1. オーディオ信号を処理するシステムにより実施される方法であって、前記システムが、
    オーディオ信号を受信するステップと、
    前記オーディオ信号の時間セグメントについて、前記オーディオ信号の前記時間セグメントが粗過渡信号又は密過渡信号を含むかどうかを決定するために、前記オーディオ信号の前記時間セグメントを分析するステップと、
    前記決定の結果に基づき、前記オーディオ信号の前記時間セグメントをコンパンディングするステップと、
    前記オーディオ信号の前記コンパンディングした時間セグメントを出力するステップと、
    を含み、
    前記オーディオ信号の前記時間セグメントをコンパンディングする前記ステップは、コンパンディング指数に基づき、前記オーディオ信号の前記時間セグメントのダイナミックレンジを圧縮又は伸長するステップを含み、
    前記オーディオ信号の前記時間セグメントが前記粗過渡信号を含むと決定された場合、第1コンパンディング指数が前記コンパンディングするステップで使用され、
    前記オーディオ信号の前記時間セグメントが前記密過渡信号を含むと決定された場合、前記第1コンパンディング指数と異なる第2コンパンディング指数が前記コンパンディングするステップで使用される、方法。
  2. 前記粗過渡信号は、第1過渡イベント密度を有する過渡イベントを含み、前記密過渡信号は、前記第1過渡イベント密度より高い第2過渡イベント密度を有する過渡イベントを含む、請求項1に記載の方法。
  3. 前記粗過渡信号は、所定の閾値より低い第1過渡イベント密度を有する過渡イベントを含み、前記密過渡信号は、前記所定の閾値より高い第2過渡イベント密度を有する過渡イベントを含む、請求項1に記載の方法。
  4. 前記粗過渡信号は、拍手、雨、又はパチパチという火、のうちの少なくとも1つに関連する、請求項1~3のいずれか一項に記載の方法。
  5. 前記第2コンパンディング指数は、前記第1コンパンディング指数より高い程度のダイナミックレンジ圧縮又は伸長に対応する、請求項1~4のいずれか一項に記載の方法。
  6. 前記第2コンパンディング指数は、前記第1コンパンディング指数より値が低い、請求項1~5のいずれか一項に記載の方法。
  7. 前記オーディオ信号の前記時間セグメントをコンパンディングする際に使用された前記コンパンディング指数の指示を生成し出力するステップ、を更に含む請求項1~6のいずれか一項に記載の方法。
  8. オーディオ信号を処理するシステムにより実施される方法であって、前記方法は、前記システムが、
    オーディオ信号を受信するステップと、
    前記オーディオ信号の時間セグメント毎に、それぞれの前記時間セグメントの中の前記オーディオ信号のコンテンツに基づき、それぞれのコンパンディング指数を決定するステップであって、各コンパンディング指数は、それぞれの前記時間セグメントのダイナミックレンジの圧縮又は伸長のそれぞれの程度に対応し、前記決定するステップは、
    粗過渡信号を含むと決定された前記オーディオ信号の全部の時間セグメントで構成される第1時間セグメントセットに、第1コンパンディング指数を割り当てるステップと、
    密過渡信号を含むと決定された前記オーディオ信号の全部の時間セグメントで構成される第2時間セグメントセットに、前記第1コンパンディング指数と異なる第2コンパンディング指数を割り当てるステップと、を含む、ステップと、
    前記オーディオ信号にコンパンディング操作を適用するステップであって、前記第1コンパンディング指数に従い前記第1時間セグメントセットを圧縮するステップと、前記第2コンパンディング指数に従い前記第2時間セグメントセットを圧縮するステップと、を含むステップと、
    前記圧縮されたオーディオ信号をコアエンコーダに提供するステップと、
    前記圧縮されたオーディオ信号に関連付けられたビットストリームに、前記第1コンパンディング指数および前記第2コンパンディング指数のそれぞれの指示を提供するステップと、
    を含む方法。
  9. 前記第1コンパンディング指数は、前記第2コンパンディング指数より値が高い、請求項8のいずれか一項に記載の方法。
  10. 前記コンパンディング指数は、前記コンパンディングするステップで使用されるダイナミックレンジの圧縮の程度を制御し、低い値の前記コンパンディング指数ほど、高い程度のダイナミックレンジの圧縮に対応する、請求項8又は9に記載の方法。
  11. 前記粗過渡信号は、第1過渡イベント密度を有する過渡イベントを含み、前記密過渡信号は、前記第1過渡イベント密度より高い第2過渡イベント密度を有する過渡イベントを含む、請求項8~10のいずれか一項に記載の方法。
  12. 前記粗過渡信号は、所定の閾値より低い第1過渡イベント密度を有する過渡イベントを含み、前記密過渡信号は、前記所定の閾値より高い第2過渡イベント密度を有する過渡イベントを含む、請求項8~10のいずれか一項に記載の方法。
  13. 前記粗過渡信号は、拍手、雨、又はパチパチという火、のうちの少なくとも1つに関連する、請求項8~12のいずれか一項に記載の方法。
  14. それぞれの指示子は、前記第1コンパンディング指数または前記第2コンパンディング指数を示し、前記オーディオ信号の時間セグメント毎にそれぞれの指示子ビットを含む、請求項8~13のいずれか一項に記載の方法。
  15. それぞれの指示子は、コンパンディングがオンかオフかを示す、時間セグメント毎のそれぞれの第2指示子ビットを含む、請求項14に記載の方法。
  16. それぞれの指示子は、少なくとも2つの指示子ビットを含み、前記少なくとも2つの指示子ビットは、コンパンディングの少なくとも4個の状態を示し、前記4個の状態の各々は、前記オーディオ信号のそれぞれの前記時間セグメントのそれぞれのコンテンツのタイプに対応する、請求項14又は15に記載の方法。
  17. オーディオ信号を復号するシステムにより実施される方法であって、前記システムが、
    オーディオ信号の時間セグメント毎に、少なくとも1つの関連付けられた指示子と一緒に前記オーディオ信号を受信するステップであって、各々の少なくとも1つの関連付けられた指示子は、符号化の前のコンパンディング操作の間に前記オーディオ信号のそれぞれの前記時間セグメントに適用された圧縮又は伸長の程度に対応するそれぞれのコンパンディング指数を示す、ステップと、
    第1指示子に関連付けられた前記オーディオ信号の全部の時間セグメントで構成される第1時間セグメントセットを決定し、及び第2指示子に関連付けられた前記オーディオ信号の全部の時間セグメントで構成される第2時間セグメントセットを決定するステップであって、各指示子は、前記受信したオーディオ信号に関連付けられたメタデータの中のコンパンディング制御データ構造の中の1ビット値を含み、前記第1指示子は、第1コンパンディング指数が前記第1時間セグメントセットの中の時間セグメントをコンパンディングする間に使用されたことを示す第1値を含み、前記第1時間セグメントセットの中の前記時間セグメントは粗過渡信号を含み、前記第2指示子は、第2コンパンディング指数が前記第2時間セグメントセットの中の時間セグメントをコンパンディングする間に使用されたことを示す第2値を含み、前記第2時間セグメントセットの中の前記時間セグメントは密過渡信号を含む、ステップと、
    前記オーディオ信号の時間セグメント毎に、前記第1指示子及び前記第2指示子に基づきそれぞれの前記時間セグメントについて伸長操作で使用するためのそれぞれのコンパンディング指数を決定するステップであって、前記第1コンパンディング指数が前記第1時間セグメントセットのために使用されるべきであり、前記第2コンパンディング指数が前記第2時間セグメントセットのために使用されるべきであると決定され、前記第1コンパンディング指数は前記第2コンパンディング指数と異なる、ステップと、
    前記オーディオ信号に伸長操作を適用するステップであって、前記第1コンパンディング指数から導出したダイナミックレンジ伸長の第1の程度に従い前記第1時間セグメントセットを伸長するステップと、前記第2コンパンディング指数から導出したダイナミックレンジ伸長の第2の程度に従い前記第2時間セグメントセットを伸長するステップと、を含むステップと、
    前記伸長したオーディオ信号を出力するステップと、
    を含む方法。
  18. 各指示子は、前記受信したオーディオ信号の中のそれぞれのチャネル又はオブジェクトに対応する、請求項17に記載の方法。
  19. 各指示子は、種々のコンパンディング指数を示すよう構成されるコンパンディング状態データの少なくとも2つのビットを含み、前記少なくとも2つのビットはコンパンディングの少なくとも4個の状態に対応し、該状態の各々は前記オーディオ信号のコンテンツのそれぞれの過渡タイプに対応する、請求項17又は18に記載の方法。
  20. 前記伸長されたオーディオ信号は、記憶装置、ストリーミングサーバ、オーディオプロセッサ、又は増幅器、のうちの少なくとも1つに出力される、請求項17~19のいずれか一項に記載の方法。
  21. 機器であって、
    1つ以上のプロセッサと、
    命令を格納する非一時的コンピュータ可読記憶媒体であって、前記命令は、前記1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに、請求項1~20のいずれか一項に記載の動作を実行させる、非一時的コンピュータ可読記憶媒体と、
    を含む機器。
  22. 命令を格納する非一時的コンピュータ可読記憶媒体であって、前記命令は、1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに、請求項1~20のいずれか一項に記載の動作を実行させる、非一時的コンピュータ可読記憶媒体。
JP2021509742A 2018-08-21 2019-08-21 コンパンディングによる密過渡イベントの符号化 Active JP7447085B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862720447P 2018-08-21 2018-08-21
US62/720,447 2018-08-21
PCT/EP2019/072377 WO2020039000A1 (en) 2018-08-21 2019-08-21 Coding dense transient events with companding

Publications (2)

Publication Number Publication Date
JP2021535426A JP2021535426A (ja) 2021-12-16
JP7447085B2 true JP7447085B2 (ja) 2024-03-11

Family

ID=67902492

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021509742A Active JP7447085B2 (ja) 2018-08-21 2019-08-21 コンパンディングによる密過渡イベントの符号化

Country Status (5)

Country Link
US (1) US11830507B2 (ja)
EP (1) EP3841572A1 (ja)
JP (1) JP7447085B2 (ja)
CN (1) CN112771610A (ja)
WO (1) WO2020039000A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220140002A (ko) * 2013-04-05 2022-10-17 돌비 레버러토리즈 라이쎈싱 코오포레이션 향상된 스펙트럼 확장을 사용하여 양자화 잡음을 감소시키기 위한 압신 장치 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016510439A (ja) 2013-04-05 2016-04-07 ドルビー ラボラトリーズ ライセンシング コーポレイション 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法
WO2017080835A1 (en) 2015-11-10 2017-05-18 Dolby International Ab Signal-dependent companding system and method to reduce quantization noise
WO2017140600A1 (en) 2016-02-17 2017-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3508146B2 (ja) * 1992-09-11 2004-03-22 ソニー株式会社 ディジタル信号符号化復号化装置、ディジタル信号符号化装置及びディジタル信号復号化装置
US6778966B2 (en) 1999-11-29 2004-08-17 Syfx Segmented mapping converter system and method
EP1852851A1 (en) 2004-04-01 2007-11-07 Beijing Media Works Co., Ltd An enhanced audio encoding/decoding device and method
WO2005096273A1 (fr) 2004-04-01 2005-10-13 Beijing Media Works Co., Ltd Ameliorations apportees a un procede et un dispositif de codage/decodage audio
US7587254B2 (en) 2004-04-23 2009-09-08 Nokia Corporation Dynamic range control and equalization of digital audio using warped processing
DE102004052296A1 (de) * 2004-10-27 2006-05-04 Sennheiser Electronic Gmbh & Co. Kg Sender und Empfänger für ein drahtloses Audio-Übertragungssystem
US20070094035A1 (en) * 2005-10-21 2007-04-26 Nokia Corporation Audio coding
CN101105940A (zh) * 2007-06-27 2008-01-16 北京中星微电子有限公司 音频编解码的量化方法、反变换方法及音频编解码装置
US9276602B1 (en) 2009-12-16 2016-03-01 Syntropy Systems, Llc Conversion of a discrete-time quantized signal into a continuous-time, continuously variable signal
WO2011127832A1 (en) 2010-04-14 2011-10-20 Huawei Technologies Co., Ltd. Time/frequency two dimension post-processing
US8886523B2 (en) 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
US8392201B2 (en) 2010-07-30 2013-03-05 Deutsche Telekom Ag Method and system for distributed audio transcoding in peer-to-peer systems
WO2014025542A1 (en) 2012-08-06 2014-02-13 Father Flanagan's Boys' Home Doing Business As Boys Town National Research Hospital Multiband audio compression system and method
US10134403B2 (en) * 2014-05-16 2018-11-20 Qualcomm Incorporated Crossfading between higher order ambisonic signals
WO2018053518A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016510439A (ja) 2013-04-05 2016-04-07 ドルビー ラボラトリーズ ライセンシング コーポレイション 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法
WO2017080835A1 (en) 2015-11-10 2017-05-18 Dolby International Ab Signal-dependent companding system and method to reduce quantization noise
WO2017140600A1 (en) 2016-02-17 2017-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing

Also Published As

Publication number Publication date
EP3841572A1 (en) 2021-06-30
US20220270624A1 (en) 2022-08-25
JP2021535426A (ja) 2021-12-16
WO2020039000A1 (en) 2020-02-27
CN112771610A (zh) 2021-05-07
US11830507B2 (en) 2023-11-28

Similar Documents

Publication Publication Date Title
JP7383067B2 (ja) 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法
US10861475B2 (en) Signal-dependent companding system and method to reduce quantization noise
JP7447085B2 (ja) コンパンディングによる密過渡イベントの符号化

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20210415

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220804

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240228

R150 Certificate of patent or registration of utility model

Ref document number: 7447085

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150