JP2014513819A - パラメトリックオーディオコーディング方式の鑑識検出 - Google Patents

パラメトリックオーディオコーディング方式の鑑識検出 Download PDF

Info

Publication number
JP2014513819A
JP2014513819A JP2014511380A JP2014511380A JP2014513819A JP 2014513819 A JP2014513819 A JP 2014513819A JP 2014511380 A JP2014511380 A JP 2014511380A JP 2014511380 A JP2014511380 A JP 2014511380A JP 2014513819 A JP2014513819 A JP 2014513819A
Authority
JP
Japan
Prior art keywords
subband
frequency
correlation
signals
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014511380A
Other languages
English (en)
Other versions
JP5714180B2 (ja
Inventor
ミュント,ハーラルト,ハー
ビスワス,アリジット
ラドハクリッシュナン,レギュナサン
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー・インターナショナル・アーベー filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2014513819A publication Critical patent/JP2014513819A/ja
Application granted granted Critical
Publication of JP5714180B2 publication Critical patent/JP5714180B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本文献は、オーディオ鑑識に関し、特にパラメトリックオーディオ符号化/復号のトレースのブラインド検出に関する。具体的に、本文献は、PCM符号化波形などの非圧縮波形からの、SBRやSPXなどのパラメトリック周波数拡張オーディオコーディングの検出に関する。時間ドメインオーディオ信号中における周波数拡張コーディング履歴を検出する方法を説明する。この方法は、時間ドメインオーディオ信号を周波数ドメインに変換して、それにより低周波サブバンドと高周波サブバンドを含む対応する複数のサブバンドの複数のサブバンド信号を生成するステップと、低周波サブバンドのサブバンド信号と高周波サブバンドのサブバンド信号との間の関係度を決定するステップであって、関係度は複数のサブバンド信号に基づき決まるステップと、関係度が関係閾値より大きいとき、周波数拡張コーディング履歴を決定するステップとを有する。

Description

本文献は、オーディオ鑑識に関し、特にオーディオ信号中のパラメトリックオーディオ符号化/復号のトレースのブラインド検出に関する。具体的に、本文献は、PCM(pulse code modulation)符号化波形などの非圧縮波形からの、SBR(spectral band replication)やSPX(spectral extension)などのパラメトリック周波数拡張オーディオコーディングの検出、及び/またはパラメトリックステレオコーディングの検出に関する。
HE−AAC(high efficiency-advanced audio coding)は、低域及び中域ビットレート(例えば、ステレオコンテンツの場合、24−96kb/s)における効率的な音楽オーディオコーデックである。HE−AACでは、オーディオ信号は係数2だけダウンサンプリングされ、得られた低帯域信号がAAC波形コード化される。除去された高周波は、追加的な低ビットレート(一般的には、1オーディオチャンネル当たり3kb/s)で、SBRを用いて、パラメトリックにコード化される。結果として、オーディオ信号のスペクトル帯域全体にわたる通常のAAC波形コード化と比較して、総ビットレートを大幅に削減できる。
送信されるSBRパラメータは、AAC復号された低帯域出力から高周波数帯域を生成する方法を記述する。この高周波帯域の生成プロセスは、低帯域信号から高周波帯域へのパッチのコピーアンドペーストまたはコピーアップ(copy-up)プロセスを含む。HE−AACでは、パッチは、AACコード化されなかった高周波コンテンツを再生するために高周波にコピーアップされる一群の隣接サブバンドを記述する。コーディングビットストリーム状態に応じて、一般的に2−3パッチが適用される。通常は、パッチパラメータは、一コーディングビットレート状態の時間にわたり変わらない。しかし、MPEG標準では、パッチパラメータは時間的に変化する。人工的に生成された高周波帯域のスペクトルエンベロープは、符号化ビットストリーム中で送信されるエンベロープパラメータに基づいて修正される。コピーアッププロセスとエンベロープ調整の結果として、元のオーディオ信号の特徴を知覚的に維持することができる。
SBRコーディングでは、ノイズ及び/またはトーンの追加/削除により、拡張周波数レンジにおいて信号をさらに調整するために、すなわち高帯域信号を調整するために、他のSBRパラメータを用いることもできる。
本文献では、PCMオーディオ信号が、(例えば、HE−AACを用いて)MPEG SBR技術などのパラメトリック周波数拡張オーディオコーディングを用いてコード化(符号化と復号)されたか評価する手段を提供する。言い換えると、本文献では、非圧縮ドメインのオーディオ信号を分析し、そのオーディオ信号が以前パラメトリック周波数拡張オーディオコーディングにかけられたか判断する手段を提供する。さらに言い換えると、(例えば、PCMフォーマットの)(復号された)オーディオ信号について、そのオーディオ信号が、ある符号化/復号方式を用いて以前符号化されたか否か知ることが望ましい。具体的に、オーディオ信号の高周波スペクトル成分がSBRにより生成されたか否かを知りたいことがある。また、送信されたモノ信号(mono signal)に基づきステレオ信号が生成されたか、またはステレオ信号のある時間/周波数領域が同じモノ信号の時間/周波数データのものか、知りたい場合がある。
言うまでもなく、本文献に概説する方法はオーディオコーディングのコンテキストで説明するが、時間/周波数データの複製を組み込むいかなるオーディオ処理の形式にも適用可能である。具体的に、これらの方法はブラインドSBRのコンテキストで適用可能である。ブラインドSBRはSBRパラメータが送信されないオーディオコーディングの特殊な場合である。
可能性のあるユースケースとしては、SBR関連の知的財産権の保護があり、例えばMPEG SBR技術、または基本的にSBRに基づくその他の新しいパラメトリック周波数拡張コーディングツール、例えばMPEG−D USAC(Universal Speech and Audio Codec)のエンハンストSBR(eSBR)の不正使用の監視がある。さらに、(復号された)PCMオーディオ信号以外の情報が利用できない時に、トランスコーディング及び/または再符号化を改善できる。例として、復号されたPCMオーディオ信号の高周波スペクトル成分が帯域幅拡張プロセスにより生成されたことが分かれば、オーディオ信号を再符号化する時にこの情報を使える。具体的に、再符号化器のパラメータ(例えば、クロスオーバ周波数とパッチパラメータ)を、高周波スペクトル成分がSBR符号化され、一方低帯域信号は波形符号化されるように、設定できる。これにより、普通の波形コーディング及び高音質帯域幅拡張と比較して、ビットレートを節約できる。さらに、(復号された)オーディオ信号の符号化履歴に関する知識を使って、高ビットレート波形符号化された(例えば、AACまたはドルビーデジタル)コンテンツの音質保証に使える。これは、(復号される)オーディオ信号に、過去、トランスパレントなコーディング方法ではないSBRコーディングやその他のパラメトリックコーディング方式が適用されていないことを確認することにより達成できる。また、符号化履歴に関する知識は、例えば、(復号される)オーディオ信号中に検出されるSBRパッチの数とサイズを考慮することにより、(復号される)オーディオ信号の音質評価の基礎になる。
そのため、本文献は、PCM符号化された波形におけるパラメトリックオーディオコーディング方式の検出に関する。その検出は、周波数及び/またはオーディオチャンネルにわたる繰り返しパターンの分析により行われる。識別されるパラメトリックオーディオコーディング方式は、HE−AACv1またはv2のMPEG Spectral Band Replication (SBR)、HE−AAVv2のParametric Stereo (PS)、Dolby DigitalまたはDolby Digital PlusのDolby Digital Plus and CouplingのSpectral Extension (SPX)である。分析は信号位相情報に基づくものなので、提案の方法は、パラメトリックオーディコーディングで一般的に使われる大きさ修正(magnitude modifications)に対してロバストである。SBRコーディング方式では、低周波サブバンドを高周波領域にコピーして、知覚的意味(perceptual sense)でエネルギーエンベロープを調整することにより、高周波コンテンツをオーディオ復号器で生成する。パラメトリック空間オーディオコーディング方式(例えば、PS、カップリング)では、複数のオーディオチャンネルのデータが、単一のオーディオチャンネルのみに関連する送信データから生成される。周波数サブバンド中の位相情報を分析することにより、PCM波形から、データの複製をロバストにトラックバック(track back)できる。
[関連出願との相互参照]
この出願は、2011年5月19日に出願された米国仮特許出願第61/488,122号の優先権を主張するものである。この文献はここにその全体を参照援用する。
一態様では、オーディオ信号の、例えば時間ドメインオーディオ信号のコーディング履歴における周波数拡張コーディングを検出する方法を説明する。言い換えると、本文献で説明する方法は、時間ドメインオーディオ信号(例えば、パルスコード変調されたオーディオ信号)に適用できる。本方法により、(時間ドメインの)オーディオ信号が過去に周波数拡張符号化/復号にかけられたか判断することができる。かかる周波数拡張コーディング/デコーディング方式の例はHE−AACとDD+コーデックである。
本方法は、前記時間ドメインオーディオ信号を周波数ドメインに変換して、それにより対応する複数のサブバンドの複数のサブバンド信号を生成するステップを有する。あるいは、複数のサブバンド信号が提供されてもよい。すなわち、本方法は、変換を適用しなくても、複数のサブバンド信号を取得することができる。複数のサブバンドは低周波サブバンドと高周波サブバンドを有する。この目的において、本方法は、二次ミラーフィルタ(QMF)バンク、修正離散余弦変換、及び/または高速フーリエ変換などの、サウンドエンコーダで一般的に利用される時間ドメインから周波数ドメインへの変換を適用してもよい。かかる変換の結果として、複数のサブバンド信号が得られる。各サブバンド信号はオーディオ信号の周波数スペクトルの異なる部分(excerpt)に、すなわち異なるサブバンドに対応する。具体的に、サブバンド信号は、低周波サブバンドまたは代替的に高周波サブバンドに分けられる(attribute)。低周波サブバンドの複数のサブバンド信号は、クロスオーバ周波数以下の周波数を含みまたは対応し、一方、高周波サブバンドの複数のサブバンド信号は、クロスオーバ周波数より高い周波数を含みまたは対応する。言い換えると、クロスオーバ周波数は、周波数拡張コーダで画定される周波数であり、クロスオーバ周波数より高いオーディオ信号の周波数成分は、クロスオーバ周波数以下のオーディオ信号の周波数成分から生成される。
そのため、複数のサブバンド信号は、複数のフィルタを有するフィルタバンクを用いて生成される。周波数拡張方式のパッチパラメータの正しい特定のために、フィルタバンクは、周波数拡張コーダのデコーダで使われるフィルタバンク(例えば、HE−AACの場合64oddly stackedフィルタ及びDD+の場合256oddly stackedフィルタ)と同じ周波数特性(例えば、同数のチャンネル、同じ中心周波数と帯域幅)を有する。パッチ分析のロバスト性を向上するため、停止帯域減衰を大きくすることにより、隣接帯域へのリークを最小化すると有益である。これは、例えば、デコーダで用いられる元のフィルタバンクと比較して、高いフィルタ次数(例えば、フィルタ次数の2倍)で実現できる。言い換えると、フィルタバンクの高い周波数選択性を確保するために、フィルタバンクの各フィルタは、それぞれのフィルタの停止帯域にある周波数の所定のロールオフ閾値を越えるロールオフを有する。例として、(HE−AACで用いるフィルタの場合のように)約60dBの停止帯域減衰を有するフィルタを用いる替わりに、オーディオ拡張コーディングの検出に用いるフィルタの停止帯域減衰を70または80dBに上げ、それにより検出性能を高くする。これは、ロールオフ閾値が70または80dB減衰に対応することを意味する。そのため、異なるサブバンド信号中のオーディオ信号の異なる周波数成分を分離するため、フィルタバンクが十分に選択的であるようにする。高い選択性は、最小数のフィルタ係数を有するフィルタを用いることにより、実現できる。例として、複数のフィルタのうちのフィルタは、M個のフィルタ係数を有する。ここでMは640より大きくても良い。
留意点として、オーディオ信号は複数のオーディオチャンネルを有し、例えばオーディオ信号はステレオオーディオ信号または5.1または7.1オーディオ信号などのマルチチャンネルオーディオ信号である。本方法は、一または複数のオーディオチャンネルに適用できる。代替的にまたは追加的に、本方法は、複数のオーディオチャンネルをダウンミックスして、ダウンミックスされた時間ドメインオーディオ信号を決定するステップを有する。そのため、本方法は、ダウンミックスされた時間ドメインオーディオ信号に適用できる。具体的に、前記複数のサブバンド信号は前記ダウンミックスされた時間ドメインオーディオ信号から生成される。
本方法は、前記オーディオ信号の最大周波数を決定するステップを有してもよい。言い換えると、本方法は、時間ドメインオーディオ信号の帯域幅を決定するステップを有しても良い。オーディオ信号の最大周波数は、周波数ドメインにおいてオーディオ信号のパワースペクトルを分析することにより決定できる。最大周波数より高いすべての周波数において前記パワースペクトルがパワー閾値未満であるように、前記最大周波数を決定できる。オーディオ信号の帯域幅の決定の結果、コーディング履歴検出方法は、最大周波数までのオーディオ信号の周波数スペクトルに限定できる。そのため、前記複数のサブバンド信号は前記最大周波数のまたはそれ未満の周波数のみを含んでいてもよい。
本方法は、前記低周波サブバンドのサブバンド信号と前記高周波サブバンドのサブバンド信号との間の関係度を決定するステップを有していても良い。前記関係度は前記複数のサブバンド信号に基づき決めることができる。例として、関係度は、低周波サブバンド中の一群のサブバンド信号と高周波サブバンド中の一群のサブバンドとの間の類似性を示す。かかる関係度は、オーディオ信号の分析により、及び/または周波数拡張コーディング履歴を有するオーディオ信号のトレーニングセットから得られた確率モデルの利用により、決定できる。
留意点として、複数のサブバンド信号は複素値であってもよく、すなわち複数のサブバンド信号は複数の複素サブバンド信号に対応する。そのため、複数のサブバンド信号は、対応する複数の位相信号及び/または対応する複数の強さ信号をそれぞれ有する。かかる場合、前記関係度は前記複数の位相信号に基づき決めることができる。また、前記関係度は前記複数の強さ信号に基づき決めることができる。パラメトリックコーディング方式の場合、位相信号を分析すると有益であることが分かった。さらに、複素波形信号により有用な情報が得られる。具体的に、複素位相データから得られる情報を組み合わせて用いて、検出方式のロバスト性を高めることができる。これは、特にパラメトリックコーディング方式が、(変調スペクトルコーデックでのように)周波数に応じた強さデータのコピーアッププロセスを含む場合である。
さらにまた、関係度を決定するステップは、前記低周波サブバンドの一群のサブバンド信号から生成された高周波サブバンドの一群のサブバンドを決定するステップを有してもよい。かかる一群のサブバンド信号は、連続したサブバンドの、すなわち直接的に隣接したサブバンドのサブバンド信号を含む。
本方法は、前記関係度が関係閾値より大きいとき、周波数拡張コーディング履歴を決定するステップとを有してもよい。関係閾値は実験的に決定してもよい。具体的に、関係閾値は、周波数拡張コーディングの履歴を有する一組のオーディオ信号から、及び/または周波数拡張コーディングの履歴を有さない一組のオーディオ信号からでも決定できる。
関係度を決定するステップは、前記複数のサブバンド信号間の一組の相互相関値を決定するステップを有する。第1と第2のサブバンド信号間の相関値は、所定の時間遅れにおける第1と第2のサブバンド信号の対応するサンプルの積の時間的平均として決定できる。所定の時間遅れはゼロであってもよい。言い換えると、所与の時点における(及び所定の時間遅れにおける)第1と第2のサブバンド信号の対応サンプルをかけることにより、その時点における乗算結果を求める。乗算結果はある時間にわたり平均され、それにより平均乗算結果を求め、これを相互相関値の決定に用いることができる。
留意点として、マルチチャンネル信号(例えば、ステレオや5.1/7.1信号)の場合、マルチチャンネル信号をダウンミックスして、そのダウンミックスオーディオ信号に対して一組の相互相関値を決めても良い。あるいは、マルチチャンネル信号の一部または全部のチャンネルに対して、異なる複数の組の相互相関値を決定してもよい。異なる複数の組の相互相関値を平均して、一組の平均相互相関値を決定してもよい。これをコピーアップパッチの検出に使える。
具体的に、複数のサブバンド信号は、K個のサブバンド信号を含み、K>0(例えば、K>1であり、Kは64以下である)。パラメータKは、周波数拡張コーデックのデコーダにおいて、失われた高周波サブバンドを生成するのに使われたチャンネル数と等しくても良い。スペクトル拡張の検出のためだけなら、64バンドで十分であろう(64チャンネルの場合、周波数パッチは一般的には帯域幅より広い)。DD+におけるSPXでパッチを正しく識別するためには、増やしたK個(例えば、K=256)のサブバンドを用いることができる。そのため、前記一組の相互相関値は、前記複数のサブバンド信号の異なるサブバンド信号のすべての組合せに対応する(K−1)!個の相互相関値を含む、オーディオ信号における周波数拡張コーディング履歴を決定するステップは、前記一組の相互相関値から少なくとも一の最大相互相関値を決定するステップを有してもよい。
留意点として、本文献に概説する分析方法は、時間依存的に実行してもよい。上記の通り、一般的に、周波数拡張コーデックは時間依存パッチパラメータを用いる。しかし、周波数拡張コーデックは時間的にパッチパラメータを変更するように構成してもよい。これは、オーディオ信号のウィンドウを分析することにより、考慮できる。オーディオ信号のウィンドウは所定の長さ(例えば、10ないし20秒以下)を有する。パッチパラメータが時間的に変化しない場合、オーディオ信号の異なるウィンドウに対して求めた一組の相互相関値を平均することにより、本文献で説明する分析方法のロバスト性を高めることができる。分析方法の複雑性を低減するため、平均されたオーディオ信号のウィンドウに基づき一組の相互相関値を決定する前に、異なるウィンドウのオーディオ信号(すなわち、異なるオーディオ信号のセグメント)を平均する。
一組の相互相関値は、K×K対称相関マトリックスで平均できる。相関マトリックスの主対角線は、任意の値を、例えばゼロに対応する値を、または複数のサブバンド信号の自己相関値に対応する値を有する。相関マトリックスは、ある構造やパターンを決定できる画像と考えても良い。これらのパターンにより、複数のサブバンド信号間の関係度に関する表示(indication)が得られる。相関マトリックスは対称であることを考慮すると、相関マトリックスの一方の(主対角線の下または上の)「三角形」のみを分析すればよい。そのため、本文献で説明する方法ステップは、相関マトリックスのかかる一方の「三角形」のみに適用される。
上記の通り、相関マトリックスは、低周波サブバンドと高周波サブバンドとの間の関係を示すパターンを有する画像と考えることができる。検出すべきパターンは、相関マトリックスの主対角線に平行な、局所的に相関が大きくなった対角線である。相関マトリックス中の相互相関値が極大となるかかる対角線を強調するために、ラインエンハンスメント方式を相関マトリックスに(または相関マトリックスをチルトしたものに(対角構造が垂直構造または水平構造になるように、相関マトリックスをチルトできる))適用してもよい。ラインエンハンスメントの一例は前記相関マトリックスをエンハンスメントマトリックス
Figure 2014513819
で畳み込んで、エンハンスされた相関マトリックスを求めるステップを有しても良い。ラインエンハンスメントやその他のパターンエンハンスメント手法を適用したとき、周波数拡張コーディング履歴を決定するステップは、前記主対角線を除く、前記エンハンスされた相関マトリックスのうち少なくとも一の最大相互相関値が前記関係閾値を越えると決定するステップを有してもよい。言い換えると、関係度の決定は、エンハンスされた相関マトリックスに(及びエンハンスされた一組の相互相関値に)基づく。
本方法は、時間ドメインオーディオ信号に適用された周波数拡張コーディング方式の具体的なパラメータを決定するように構成できる。かかるパラメータは、例えば、周波数拡張コーディング方式のサブバンドコピーアッププロセスに関するパラメータである。具体的に、低周波サブバンド(ソースサブバンド)のどのサブバンド信号を高周波サブバンド(ターゲットサブバンド)のサブバンド信号にコピーアップしたか、決定できる。この情報は、パッチング情報として参照でき、相関マトリックス中の相互相関値が極大になる対角線から決定できる。
そのため、本方法は、前記相関マトリックスを分析して、相互相関値が極大になる一または複数の対角線を検出するステップをさらに有してもよい。かかる一または複数の対角線を検出するため、以下の基準を適用できる:相互相関値が極大になる対角線は前記相関マトリックスの主対角線上にはない;及び/または、相互相関値が極大になる対角線は1より大きい極大相互相関値を有する。ここで、前記1より大きい極大相互相関値の各々は最小相関閾値より大きく。最小相関閾値は、一般的には、関係閾値より小さい。
前記1より大きい極大相互相関は、前記相関マトリックスの主対角線に平行な対角線状に配置されている場合に、対角線を検出できる。及び/または、前記相関マトリックスの行の前記二以上の極大相互相関値の各々について、同じ行かつすぐ隣接する左側の列の相互相関値は前記最小相関閾値以下であり、及び/または同じ行かつすぐ隣する右側の列の相互相関値は前記最小相関閾値以下である。
上記の通り、相関マトリックスの分析は、相関マトリックスの一方の「三角形」のみに限定できる。前記主対角線の上または下に相互相関値が極大になる二以上の対角線を検出することがある。これは、周波数拡張コーディング方式において複数のコピーアップパッチが適用されたことを示す。他方、相互相関値が極大になる三以上の対角線が検出されたとき、三以上の対角線のうちの少なくとも一つが、コピーアップパッチ間の相関を示す。かかる対角線はコピーアップパッチを示すものではなく、識別すべきである。かかるパッチ間相関を利用して、検出方式のロバスト性を高めることができる。
相関マトリックスは、その行がソースサブバンドを示し、その相関マトリックスの列がターゲットサブバンドを示すように構成される。留意点として、相関マトリックスの列がソースサブバンドを示し、相関マトリックスの行がターゲットサブバンドを示す構成も同様に可能である。この場合、本方法は「行」と「列」を交換することにより使える。
適当なコピーアップパッチを分離するため、本方法は、相関マトリックスの同じソースサブバンドに対して、相互相関値が極大になる少なくとも2つの冗長対角線を検出するステップを有しても良い。最低のターゲットサブバンドを有する少なくとも2つの冗長な対角線を、複数のソースサブバンドから複数のターゲットサブバンドへの真正なコピーアップパッチとして特定することができる。他の対角線は、異なるコピーアップパッチ間の相関を示す。
コピーアップ対角線を特定すれば、対角線のソース及びターゲットサブバンドのペアは、高周波サブバンドにコピーアップされた低周波サブバンドを示す。
コピーアップ対角線のエッジ(すなわち、その始め及び/または終わりの点)は、その対角線の他の相関点に対して、最大相関値が小さいことが分かる。これは、複数のサブバンド信号を決定するのに使われた変換が、時間ドメインオーディオ信号に適用された周波数拡張コーディング方式で使われた変換とは異なる周波数解像度を有することによる。そのため、検出した対角線のエッジが「弱い」ということは、フィルタバンド特性のミスマッチ(例えば、サブバンド数のミスマッチ、中心周波数のミスマッチ、及び/またはサブバンドの帯域幅のミスマッチ)を示し、それゆえ時間ドメインオーディオ信号に適用された周波数拡張コーディング方式のタイプに関する情報を提供する。
上記の観察を利用するため、本方法は、検出された対角線の始め及び/または終わりの前記検出された対角線の極大相互相関値がぼやけ閾値より小さいことを検出するステップを有していてもよい。ぼやけ閾値は、一般的には、最小相関閾値より大きい。本方法は、前記変換ステップのパラメータを、複数の周波数拡張コーディング方式に用いた変換ステップのパラメータと比較するステップを行っても良い。具体的に、変換次数(すなわち、サブバンド数)を比較する。前記比較するステップに基づき、前記オーディオ信号に適用された周波数拡張コーディング方式を、複数の周波数拡張コーディング方式から決定できる。例として、サブバンド数が多いフィルタバンクを用いるとき、及びパッチボーダーがHE−AACで用いられたフィルタバンクのグリッドに合わないとき、周波数拡張コーディング方式はHE−AACではないと結論づけることができる。
周波数拡張コーディング方式により適用された具体的な復号モードを検出するため、相関マトリックスを分析する。これは、例えば、低パワー(LP)または高画質(HQ)復号ができるHE−AACに当てはまる。この目的のため、様々な相関閾値を画定できる。具体的に、前記一組の相互相関値のうち最大相互相関値が復号モード閾値より低いか高いか判断し、それにより前記オーディオ信号に適用された周波数拡張コーディング方式の復号モードを検出することができる。復号モード閾値は最小相関閾値より大きくても良い。さらにまた、復号モード閾値は関係閾値より大きくても良い。LPまたはHQデコーディングの場合、最大相互相関値が復号モード閾値より小さい(しかし、関係閾値より大きい)とき、LPデコーディングが検出できる。最大相互層間値が復号モード閾値より大きいとき、HQデコーディングが検出できる。
上記の通り、低周波サブバンドのサブバンド信号と高周波サブバンドのサブバンド信号との間の関係度は、確率モデルの利用を含んでもよい。そのため、本方法は、周波数拡張コーディング履歴を有するトレーニングオーディオ信号から求めた一組のトレーニングベクトルから決定した確率モデルを設けるステップを有しても良い。前記確率モデルは前記複数の高周波サブバンドと前記低周波サブバンドにより張られたベクトル空間のベクトル間の確率的関係を記述する。複数のサブバンドがK個のサブバンドを含み、ベクトル空間の次元がKであると仮定する。代替的にまたは追加的に、前記確率モデルは前記複数のサブバンドと前記低周波サブバンドとにより張られたベクトル空間のベクトル間の確率的関係を記述する。複数のサブバンドがK個のサブバンドを含み、そのうちのKlが低周波サブバンドであり、ベクトル空間の次元がK+Klであると仮定する。以下、後者の確率モデルをさらに詳しく説明する。しかし、本方法は最初の確率モデルにも等しく適用できる。
前記確率的モデルはガウシアンミクスチャモデルであり得る。具体的に、前記確率モデルは複数のミクスチャ成分を有し、各ミクスチャ成分は前記ベクトル空間の平均ベクトルと、前記ベクトル空間の共分散マトリックスCとを有する。i番目のミクスチャ成分の平均ベクトルμは前記ベクトル空間のクラスタの重心を表し、前記i番目のミクスチャ成分の共分散マトリックスCは前記ベクトル空間の異なる次元間の相関を表す。平均ベクトルμと共分散マトリックスC、すなわち確率モデルのパラメータは、ベクトル空間の一組のトレーニングベクトルを用いて決定できる。ここで、トレーニングベクトルは周波数拡張コーディング履歴がある一組のトレーニングオーディオ信号から決定できる。
本方法は、低周波サブバンドのサブバンド信号が与えられたとき、複数のサブバンド信号の推定を提供するステップを有しても良い。前記推定は前記確率モデルに基づいて決定できる。具体的に、好いては、確率モデルの平均ベクトルμと共分散マトリックスCに基づき決定できる。さらに具体的には、前記推定は
Figure 2014513819
で決定できる。E[y|x]は前記低周波サブバンドのサブバンド信号xが与えられたときの、前記複数のサブバンド信号yの推定であり、h(x)は前記サブバンド信号xが与えられたときの、前記ガウシアンミクスチャモデルのi番目のミクスチャ成分の関係性を示し、μ は前記複数のサブバンドに対応する平均ベクトルμの成分であり、μ は前記低周波サブバンドのサブ空間に対応する平均ベクトルμの成分であり、Qは前記ガウシアンミクスチャモデルの成分の数であり、C yxとC xxは前記共分散マトリックスCのサブマトリックスである。関係性インジケータh(x)は、低周波サブバンドのサブバンド信号xが前記ガウシアンミクスチャモデル
Figure 2014513819
のi番目のミクスチャ成分に入る確率である。
推定が提供されると、関係度は前記複数のサブバンド信号の推定と、前記複数のサブバンド信号との間の推定誤差に基づき決定できる。推定誤差は平均二乗誤差であってもよい。
前記オーディオ信号は、例えば第1と第2のチャンネルを有するマルチチャンネル信号であってもよい。第1と第2のチャンネルはそれぞれ左右チャンネルであってもよい。この場合、マルチチャンネル信号に適用される、MPEGパラメトリックステレオ符号化やDD(+)(またはMPEGインテンシティステレオ)で用いられるカップリングなどの具体的なパラメトリック符号化方式を決定することが望ましい。この情報は、第1と第2のチャンネルの複数のサブバンド信号から検出できる。第1と第2のチャンネルの複数のサブバンド信号を決定するために、本方法は、第1と第2のチャン得るを周波数ドメインに変換し、それにより複数の第1のサブバンド信号と複数の第2のサブバンド信号とを生成するステップを有する。前記第1と第2のサブバンド信号は複素値であり、第1と第2の位相信号を含む。その結果、複数の位相差サブバンド信号を、対応する第1と第2のサブバンド信号の差として決定できる。
本方法は、複数の位相差値を決定するステップであって、各位相差値は前記対応する位相差サブバンド信号のサンプルの時間的平均として決定するステップを行っても良い。オーディオ信号のコーディング履歴のパラメトリックステレオ符号化は、複数の位相差値中の周期構造を検出することにより決定できる。具体的に、周期構造は、正と負の位相差値の間の隣接サブバンドの位相差値の振動を含み、ここで振動する位相差値の強さが振動閾値を越える。
第1と第2のチャンネルのカップリングまたは一般的にマルチチャンネル信号の場合には複数のチャンネル間のカップリングを検出するため、本方法は、各位相差サブバンド信号に対して、位相差閾値より小さい位相差を有するサンプル部分(fraction)を決定するステップを有しても良い。高周波サブバンドのサブバンド信号のその部分が部分閾値(fraction threshold)を越えたことを検出したとき、オーディオ信号のコーディング履歴中の第1と第2のチャンネルのカップリングを決定できる。
他の一態様による、オーディオ信号のコーディング履歴におけるパラメトリックオーディオコーディングツール(例えば、パラメトリックステレオコーディングまたはカップリング)の利用を検出する方法を説明する。前記オーディオ信号は、例えば左右チャンネルである第1と第2のチャンネルを有するマルチチャンネル信号であってもよい。本方法は、複数の第1のサブバンド信号と複数の第2のサブバンド信号とを提供するステップを有する。前記複数の第1のサブバンド信号は前記マルチチャンネル信号の第1のチャンネルの時間/周波数ドメイン表現に対応する。前記複数の第2のサブバンド信号は前記マルチチャンネル信号の第2のチャンネルの時間/周波数ドメイン表現に対応する。そのため、複数の第1と第2のサブバンド信号は、時間ドメインから周波数ドメインへの変換(例えば、QMF)を用いて生成される。前記複数の第1と第2のサブバンド信号は、複素値であり、複数の第1と第2の位相信号を含む。
本方法は、対応する第1と第2の位相信号の、前記複数の第1と第2の位相信号との差として、複数の位相差サブバンド信号を決定するステップを有しても良い。前記複数の位相差サブバンド信号から前記オーディオ信号のコーディング履歴におけるパラメトリックオーディオコーディングツールの使用を検出する。
具体的に、本方法は、複数の位相差値を決定するステップであって、各位相差値は前記対応する位相差サブバンド信号のサンプルの時間的平均として決定するステップを有していてもよい。オーディオ信号のコーディング履歴のパラメトリックステレオ符号化は、複数の位相差値中の周期構造を検出することにより検出できる。
代替的にまたは追加的に、本方法は、各位相差サブバンド信号について、サンプルの一部が位相差閾値より小さい位相差を有すると判断するステップを有する。オーディオ信号のコーディング履歴における第1と第2のチャンネルのカップリングは、その部分が、高周波サブバンドのサブバンド信号の、クロスオーバ周波数(カップリングのコンテキストではカップリング開始周波数とも呼ぶ)より高い周波数におけるサブバンド信号の部分閾値(fraction threshold)を越えることを検出することにより、検出できる。
さらに別の一態様では、ソフトウェアプログラムを説明する。これはプロセッサで実行され、コンピューティングデバイスで実行されると、本文献に概説した方法ステップを実行するように構成される。
他の一態様では、記憶媒体を説明する。これはプロセッサで実行され、コンピューティングデバイスで実行されると、本文献に概説した方法ステップを実行するように構成されたソフトウェアプログラムを有する。
さらに他の一態様では、コンピュータプログラム製品を説明する。これは、コンピュータで実行されたとき、本文献に概説した方法を実行する実行可能命令を有する。
留意点として、本文献で説明する好ましい実施形態を含む方法とシステムは、スタンドアロンで用いても、この文献に開示される他の方法及びシステムと組み合わせて用いてもよい。さらに、本文献で説明する方法とシステムのすべての態様は任意的に組み合わせられる。特に、請求項の発明特定事項は互いに任意に組み合わせることができる。
以下、添付した図面を参照して例示により本発明を説明する。
大きさ、複素及び/または位相データを用いた相関ベースの分析の一例を示す図である。 大きさ、複素及び/または位相データを用いた相関ベースの分析の一例を示す図である。 大きさ、複素及び/または位相データを用いた相関ベースの分析の一例を示す図である。 大きさ、複素及び/または位相データを用いた相関ベースの分析の一例を示す図である。 大きさ、複素及び/または位相データを用いた相関ベースの分析の一例を示す図である。 大きさ、複素及び/または位相データを用いた相関ベースの分析の一例を示す図である。 複素、位相のみデータに基づく最大相互相関値を示す図である。 複素、位相のみデータに基づく確率密度関数を示す図である。 複素、位相のみデータに基づく最大相互相関値を示す図である。 複素、位相のみデータに基づく確率密度関数を示す図である。 相関ベースの分析に用いられるプロトタイプフィルタの周波数応答を示す図である。 異なる分析フィルタバンクを用いて決定される類似性マトリックス例の間の比較を示す図である。 異なる分析フィルタバンクを用いて決定される類似性マトリックス例の間の比較を示す図である。 異なる分析フィルタバンクを用いて決定される最大相互相関値の例を示す図である。 異なる分析フィルタバンクを用いて決定される確率密度関数例を示す図である。 異なる分析フィルタバンクを用いて決定される確率密度関数例を示す図である。 異なる分析フィルタバンクを用いて決定される確率密度関数例を示す図である。 パッチ検出に用いるスキュー類似性マトリックス(skewed similarity matrices)例を示す図である。 表1のコーディング条件によりHE−AAC再符号化されたデータの類似性マトリックス例を示す図である。 SPXでDD+符号化されたデータの類似性マトリックス例を示す図である。 パラメトリックステレオ及びカップリング検出に用いられる位相差グラフ例を示す図である。 パラメトリックステレオ及びカップリング検出に用いられる位相差グラフ例を示す図である。
上記の概説のように、MPEG SBR符号化では、オーディオ信号は低減サンプルレートと帯域幅で波形符号化される。失われる高周波は、送信サイド情報を用いて低周波部分を高周波部分にコピーすることにより、復号器で再構成される。送信されるサイド情報(例えば、空間エンベロープパラメータ、ノイズパラメータ、トーン付加/除去パラメータ)は、低帯域信号から得られるパッチに適用される。パッチは高周波にコピーアップ(copy up)または写されている。このコピーアッププロセスの結果として、ある低帯域のスペクトル部分とコピーアップされた広帯域信号のスペクトル部分との間に相関があるはずである。これらの相関は、復号されたオーディオ信号においてスペクトル帯域複製(spectral band replication)ベースの符号化を検出する基礎となり得る。
低帯域信号のスペクトル部分と広帯域信号のスペクトル部分との間の相関は、コピーアップされるパッチへのサイド情報すなわちSBRパラメータの適用により低減または除去されていることがある。しかし、コピーアップされるパッチへのSBRパラメータの適用は、コピーアップされるパッチの位相特性(すなわち、複素値のサブバンド係数の位相)には大きく影響しないことが分かっている。言い換えると、コピーアップされる低周波帯域の位相特性は、高周波帯域に大部分保存される。保存の程度は、一般的には、符号化された信号のビットレートと、符号化されるオーディオ信号の特性とに依存する。そのため、(復号された)オーディオ信号のスペクトル部分の位相データの相関を用いて、SBR符号化のコンテキストで行われる周波数パッチ動作をトレースバック(trace back)することができる。
以下、PCM波形の相関ベースの分析方法を説明する。これらの方法を用いて、MPEG HE−AACのSBRやDolby Digital Plus(DD+)のSPXなどのパラメトリック周波数拡張ツールを利用するオーディオコーディングの名残を検出できる。また、具体的なパラメータ、具体的には周波数拡張プロセスのパッチング情報を抽出できる。この情報を効率的な再符号化に用いることができる。さらに、HE−AACv2で用いられるMPEG PS(Parametric Stereo)とDD(+)で用いられるカップリング(Coupling)の存在を示す他の手段を説明する
留意点として、DD+で用いられる帯域幅拡張の基本原理はMPEG SBRに似ている。その結果、MPEG SBR符号化オーディオ信号のコンテキストで本文献で概説する分析手法は、以前DD+符号化されたオーディオ信号にも等しく適用可能である。すなわち、分析方法をHE−AACのコンテキストで概説するが、この方法はその他のDD+などの帯域幅拡張ベースの符号化器にも適用できる。
オーディオ信号分析方法は、オーディオ符号化器/復号器の様々な動作モードで動作しなければならない。さらに、これらの分析方法は、これらの異なる動作モードを区別できなければならない。例として、HE−AACコーデックは2つの異なるHE−AAC復号モードを利用する:HQ(High Quality)復号とLP(Low Power)復号である。実数値のクリティカルサンプルされたフィルタバンクを用いることにより、HQモードで用いられる複素値のオーバーサンプルされたフィルタバンクと比較して、LPモードでは復号器の複雑性が低減される。通常、LPモードを用いて復号されたオーディオ信号には、小さく聞き取り不能なエイリアシングプロダクツがある。これらのエイリアシングプロダクツは音質に影響するので、分析されるPCMオーディオ信号を復号するのに用いられた復号モードを検出することが望ましい。同様に、SBRに基づくUSACなどその他の周波数拡張コーデックにおいて、異なる復号モードや複雑性モードも識別すべきである。
HE−AACv2の場合、PS(parametric stereo)に適用されるが、復号器は一般的にHQモードを用いる。PSにより20−32kb/sなどの低ビットレートで音質を改善できるが、64kb/sなどの高ビットレートにおけるHE−AACv1のステレオ音質にはかなわないのが普通である。HE−AACv1は32ないし96kb/sのビットレートにおいて最も効率的であるが、高ビットレートではトランスパレントではない。言い換えると、64kb/sにおけるPS(HE−AACv2)の音質は、64kb/sにおけるHE−AACv1の音質より劣るのが一般的である。他方、32kb/sのPSは、64kb/sのHE−AACv1より少し悪いだけであり、32kb/sのHE−AACv1よりはずっとよい。それゆえ、(復号された)オーディオ信号のおおまかな音質評価をする上で、実際のコーディング条件に関する知識は有用なインジケータである。
例えばドルビーデジタル(DD)とDD+で使われるカップリング(coupling)では、高周波におけるヒアリング位相不感受性(hearing phase insensitivity)を利用する。概念的には、カップリングはMPEG IS(Intensity Stereo)に関連する。MPEG ISでは、ビットストリームにおいて、チャンネル間レベル差(inter channel level difference)パラメータとともに、信号オーディオチャンネルのみ(または、1つのオーディオチャンネルのみのスケールファクタ帯域に関する係数)が送信される。これらのパラメータの時間/周波数共有により、特にマルチチャンネルオーディオの場合、符号化されたビットストリームのビットレートが大きく削減される。そのため、再構成されるオーディオチャンネルの周波数ビンを相関させ、共有されるサイドレベル情報を求める。この情報は、カップリングを用いるオーディオコーデックの検出に使うことができる。
第1のアプローチでは、(復号された)オーディオ信号は、例えばPCM波形信号は、分析フィルタバンクを用いて時間/周波数ドメインに変換される。一実施形態では、分析フィルタバンクはHE−AACエンコーダで用いられるものと同じ分析フィルタバンクである。例えば、64帯域複素値フィルタバンク(係数2でオーバーサンプルされる)を用いて、オーディオ信号を時間/周波数ドメインに変換できる。マルチチャンネルオーディオ信号の場合、ダウンミックスオーディオ信号を生成するため、フィルタバンク分析の前に、複数のチャンネルをダウンミックスしてもよい。そのため、フィルタバンク分析(例えば、QMFフィルタバンクを用いるもの)を、ダウンミックスオーディオ信号に対して行える。あるいは、複数のチャンネルの一部または全部にフィルタバンク分析を行っても良い。
フィルタバンク分析の結果として、複数のフィルタバンクサブバンドに対して、複数の複素サブバンド信号が得られる。これらの複数の複素サブバンド信号は、オーディオ信号の分析の基礎となる。具体的に、複数の複素サブバンド信号または複数の複素QMFビンの位相角を決定できる。
さらにまた、オーディオ信号の帯域幅は、パワースペクトル分析を用いて、複数の複素サブバンド信号から決定できる。例えば、各サブバンドの平均エネルギーを決定してもよい。その後、高周波のすべてのサブバンドが所定のエネルギー閾値より低い平均エネルギーを有するサブバンドとして、カットオフサブバンドを決定できる。これはオーディオ信号の帯域幅の尺度となる。さらにまた、オーディオ信号のサブバンド間の相関の分析は、(後で説明するように)カットオフサブバンドまたはそれより低い周波数を有するサブバンドに限定できる。
また、分析時間レンジにわたるすべてのQMF帯域間のゼロ遅延での相互相関を決定でき、それにより自己類似性(self-similarity)マトリックスを得られる。言い換えると、すべてのサブバンド信号のペア間の相互相関(ゼロ時間遅延のもの)を決定できる。その結果、対称自己類似性マトリックスが得られれ、例えば、64QMF帯域の場合には64×64マトリックスとなる。この自己類似性マトリックスを用いて、周波数ドメインにおける繰り返し構造を検出できる。具体的に、自己類似性マトリックスの最大相関値(または複数の最大相関値)を用いて、オーディオ信号中のスペクトル帯域複製(spectral band replication)を検出できる。一または複数の最大相関値の決定のため、主対角線上の自己相関値は除外しなければならない(自己相関値は異なるサブバンド間の相関を示さないからである)。さらにまた、最大値の決定は、以前に決定されたオーディオ帯域幅の限界まで制限できる。すなわち、自己類似性マトリックスの決定は、カットオフサブバンドと低周波数のサブバンドに制限できる。
留意点として、マルチチャンネルオーディオ信号の場合、上記の手順はマルチチャンネルオーディオ信号のすべてのチャンネルに独立に適用できる。この場合、マルチチャンネル信号の各チャンネルに対して自己類似性マトリックスを決定できる。すべてのオーディオチャンネルにわたる最大相関値は、マルチチャンネルオーディオ信号中のSBRベース符号化の存在のインジケータと考えることができる。具体的には、最大自己相関値が所定の相関閾値を越えるとき、その波形信号は周波数拡張ツールによりコード化されたものと分類できる。
留意点として、上記の手順は、(位相角QMFデータとは対照的に)複素またはマグニチュードQMFデータに基づく。しかし、周波数拡張コーディングでは、パッチされた低帯域信号のマグニチュードエンベロープは、元の高周波データにより修正されているので、マグニチュードデータの分析に基づく場合、相関は小さくなっていることが予想される。
図1aないし図1fにおいて、HE−AAC(左列)コーデックと普通のAAC(右列)コーデックにかけたオーディオ信号に対して、自己類似性マトリックスを調べる。すべての画像は0と1の間でスケールされており、1は黒に対応し、0は白に対応する。図1のマトリックスのx軸及びy軸はサブバンドインデックスに対応する。これらの画像において主対角線は具体的なQMF帯域の自己相関に対応する。分析された最大QMF帯域は、推定オーディオ帯域幅に対応する。推定オーディオ帯域幅は一般的には普通のAAC条件よりもHE−AAC条件の方が高い。言い換えると、(復号された)オーディオ信号の帯域幅またはカットオフ周波数は、例えば、パワースペクトル分析に基づき推定できる。カットオフ周波数より高いオーディオ信号のスペクトル帯域は、一般的に、大きなノイズを含むので、カットオフ周波数より高いスペクトル帯域の自己相関係数は検知できる結果を生じない。図示した例では、HE−AAC符号化信号の場合、64QMF帯域のうち62が分析され、AAC符号化信号の場合、64QMF帯域のうち50が分析された。
主対角線と平行に走る高相関ラインは、QMF帯域との相関または類似性の程度が高いことを示し、それゆえ潜在的に周波数パッチを示す。これらのラインがあることは、(復号された)オーディオ信号に周波数拡張ツールが適用されたことを示唆する。
図1a及び1bには、複素QMFサブバンド信号のマグニチュード情報に基づいて決定された自己類似性マトリックス100、101が示されている。言うまでもなく、QMFサブバンドのマグニチュードのみに基づく分析の結果、ダイナミックレンジが比較的小さい相関係数が得られる。その結果、マグニチュードのみによる分析はロバスト周波数拡張分析には合わない。それにもかかわらず、(中央対角線の横に沿った対角線により示された)HE−AACパッチ情報は、QMFサブバンドのマグニチュードのみを用いて自己類似性マトリックスを決定したときに、見える。
言うまでもなく、位相ベース分析(図1c及び図1d)のダイナミックレンジは高いので、周波数拡張の分析により適している。具体的に、HE−AAC及びAAC符号化オーディオ信号に対する位相のみに基づく自己類似性マトリックス110と111をそれぞれ示す。主対角線115はQMFサブバンドの位相値の自己相関係数を示す。さらにまた、対角線112と113は、サブバンドインデックスが11ないし28の範囲にある低帯域と、サブバンドインデックスが29ないし46及び47ないし60の範囲にある高帯域との間の相関が高いことを示す。対角線112と113は、インデックスが約11ないし28の低帯域から、インデックスが約29ないし46の高帯域にコピーアップされたパッチ(参照数字112)と、インデックスが約15ないし28の低帯域からインデックスが約47ないし60の高帯域にコピーアップされたパッチ(参照数字113)とを示す。しかし、留意点として、第2のHE−AACパッチ113の対応する値は比較的弱い。さらにまた、留意点として、対角線114はオーディオ信号中のコピーアップパッチを示すものではない。対角線114は、2つのコピーアップパッチ112と113の類似性または相関を示している。
図1d及び図1eの自己類似性マトリックス120、121は、複素QMFサブバンドデータ(すなわち、マグニチュードと位相情報)を用いて決定されている。図から分かるように、すべてのHE−AACパッチははっきり見えるが、マトリックス110と111に示した位相のみに基づく分析の場合よりも、高い相関を示すラインのシャープさが少し低く、全体的なダイナミックレンジが小さい。
上記の分析方法をさらに評価するため、160の音楽ファイルと13の異なるコーディング条件について、自己類似性マトリックス110、111、120、121から求めた最大自己相関値をプロットした。13の異なるコーディング条件は、表1に列挙したパラメトリック周波数拡張(SBR/SPX)ツールを有する及び有さないコーダを含む。
Figure 2014513819
表1は、分析された異なるコーディング条件を示す。表から分かるように、コピーアップパッチと周波数拡張ベースコーディングは、十分な確度で検出できる。これは、表1に列挙したオーディオ条件1ないし13に対して最大相関値200、220と確率密度関数210、230を示した図2aと図2dから分かる。パラメトリック周波数拡張コーディングの利用の全体的な検出信頼性は、図5bと6bのコンテキストで示したように、検出閾値を適当に選択すれば、100%に近い。
図2a及び図2bに示した分析結果は、複素サブバンドデータ(すなわち、位相とマグニチュード)に基づき、図2c及び図2dに示した分析結果は、QMFサブバンドの位相のみに基づく。グラフ200から分かるように、パラメトリック周波数拡張ベース符号化(SBRまたはSPX)方式(コーデックNo.1ないし8及びNo.12)にかけられたオーディオ信号は、パラメトリック周波数拡張符号化を含まない符号化方式(コーデックNo.9ないし11及びNo.13)にかけられたオーディオ信号より、最大相関値201が高い(参照数字202を参照)。また、これは、グラフ210において、(SBR/SPXベースコーデックNo.1ないし8及びNo.12の場合の)確率密度関数211、及び(非SBR/SPXベースコーデックNo.9ないし11及びNo.13の場合の)確率密度関数212にも示されている。図2c及び図2dに示した位相のみの分析の場合にも同様の結果が得られる(グラフ220は最大相関値221と222を示す;グラフ230はSBR/SPXベースコーデック及び非SBRベースコーデックの場合の確率密度関数231、232を示す)。
相関ベースの分析方法のロバスト性は、適当な分析フィルタバンクの選択など、様々な手段で改善できる。(修正された)隣接QMF帯域からの漏れにより、元の低周波帯域位相特性が変わる。これは、異なるQMF帯域の位相について決定される相関度に影響を与える。そのため、シャープな周波数セパレーションを与える分析フィルタバンクを選択すると有益である。分析フィルタバンクの周波数セパレーションは、プロトタイプフィルタを用いた分析フィルタバンクの設計で長さを長くする修正を加えることによりシャープになる。一例では、(図2aないし図2dの結果に用いたフィルタの640サンプル長と比較して、)1280サンプル長を有するプロトタイプフィルタを設計し実装した。長いプロトタイプフィルタの周波数応答302と、元のプロトタイプフィルタの周波数応答301とを図3に示した。新しいフィルタの停止帯域減衰302が大きくなったことがはっきり分かる。
図4aと図4bは、QMFサブバンドの位相のみデータに基づき決定された自己類似性マトリックス400と410を示す。マトリックス400には短いフィルタ301を用い、マトリックス410には長いフィルタ302を用いた。第1の周波数パッチ401が、QMF帯域3(x軸)から始まる対角線で示され、帯域インデックス20ないし35(y軸)のターゲットQMF帯域をカバーしている。マトリックス410に用いた選択性の高いフィルタの場合、第2の周波数パッチ412がQMF帯域No.8から始まっていることが分かる。この第2の周波数パッチ412は、元のフィルタ301を用いて求めたマトリックス400には現れていない。
留意点として、第2のパッチ412があることは、x軸のQMF帯域24から始まる対角線403から、推論することができる。しかし、帯域25は第1のパッチのターゲットQMF帯域だから、対角線403は、両方のパッチで利用されたQMFソース帯域のパッチ間類似性を示す。さらに留意点として、QMFソース帯域領域はオーバーラップするが、ターゲットQMF帯域領域はオーバーラップしない。これは、QMFソース帯域が複数のターゲットQMF帯域にパッチされるが、一般的に、すべてのターゲットQMF帯域は一意的な対応QMFソース帯域を有する。図から分かるように、セパレーションが大きい分析フィルタバンク302を用いることにより、図4bの類似性を示す線401、412は、(選択性が高くない分析フィルタバンク301を用いて決定された)図4aにおいて類似性を示す線401と比較して、コントラストとシャープネスが高くなっている。
選択制が高いプロトタイプフィルタ302は、図5aと図5bに示したように、位相のみデータと複素データに基づく分析で評価された。複素データベースの最大相関値500は、選択性が高くない元のフィルタ301(図2aを参照)を用いて決定された相関値200と同様である。しかし、位相のみに基づく最大相関値501は、2つのクラスタ502と503にはっきりと分かれている。クラスタ502は周波数拡張で符号化されたオーディオ信号を示し、クラスタ503は周波数拡張を用いずに符号化されたオーディオ信号を示す。また、ローパワーSBR復号(コーディング条件2,4)の利用は、ハイクオリティSBR復号(コーディング条件1,3,5)の利用とは区別できる。これは、少なくとも、(コーディング条件6,7,8のように)その後の再符号化が行われていない場合である。
複素データに基づき、及び位相のみデータに基づき決定される最大相関値に対応する確率密度関数600と610を図6aと図6bにそれぞれ示した。さらにまた、HQ SBR符号化(参照数字621)とLQ SBR符号化(参照数字622)の検出を示すために、図6cは図6bの一部620を示す。図から分かるように、複素データを用いるとき、周波数拡張を用いないコーディング方式の確率密度関数602は、周波数拡張を用いるコーディング方式の確率密度関数601と、部分的にオーバーラップする。他方、位相のみデータを用いるとき、確率密度関数612(周波数拡張を用いないコ―ディング方式)と確率密度関数611(周波数拡張を用いるコーディング方式)とはオーバーラップせず、ロバストなSBR/SPX符号化の検出方式となる。さらにまた、図6cから分かるように、位相のみ分析方法により、コーディングモード間の区別ができる。具体的に、位相のみ分析方法により、LP復号(参照数字622)とHQ復号(参照数字621)間の区別ができる。
そのため、選択性が高い分析フィルタバンクの利用により、類似性マトリックスベースの周波数拡張検出方式のロバスト性が高くなる。代替的にまたは追加的に、類似性マトリックス中で対角線構造(すなわち、周波数パッチのインジケータ)をよりはっきりときわだたせるために、ラインエンハンスメント方式を用いても良い。ラインエンハンスメント方式の一例では、類似性マトリックスCにエンハンスメントマトリックスh、例えば
Figure 2014513819
を作用させる。ここで、ラインエンハンスメント類似性マトリックスは、エンハンスメントマトリックスhを類似性マトリックスCに畳み込むことにより決まる。ラインエンハンスメントマトリックスの最大値は、オーディオ信号中に周波数拡張があることのインジケータと捉えることができる。
サブバンド間の相互相関係数を含む自己類似性マトリックスを用いて、周波数拡張パラメータを、すなわちオーディオ信号を符号化する時に周波数拡張に用いたパラメータを決定できる。周波数パッチングパラメータの抽出は、自己類似性マトリックスのライン検出方式に基づく。具体的に、高帯域にパッチされた低帯域を決定できる。この対応情報は、低帯域と高帯域との間の同じまたは類似の対応を使えるので、再符号化にとって有用である。
自己類似性マトリックス(例えば、マトリックス410)をグレーレベル画像と考えると、画像処理で知られている任意のライン検出方法(例えば、エッジ検出後のハフ変換)を使うことができる。例として、図7に示したように、一方法例を評価用に実装した。
適当なライン検出方式を設計するために、分析方法をよりロバストにするため、コーデック情報を用いる。例えば、低周波帯域を用いて高周波帯域をパッチすることができ、またはその逆ができると仮定する。さらにまた、パッチされたQMF帯域は単一のソース帯域のものである(すなわち、パッチはオーバーラップしない)と仮定する。他方、同じQMFソース帯域を複数のパッチで用いても良い。これにより、(例えば、図4bの対角線403のように)パッチされた高帯域間の相関が高くなる。それゆえ、本方法は、実際のパッチとパッチ間の類似性との間を区別するように構成すべきである。さらなる仮定として、標準的なデュアルレート(オ―バーラップしていない)SBRの場合、QMFソース帯域はサブバンドインデックス1−32のレンジにある。
上記の仮定の一部または全部を用いて、一例のライン検出方式は、次のステップのいずれかを用いる:
− (例えば、選択性が高いフィルタ302を用いて)QMFドメインの位相のみベースの自己類似性マトリックス410を比較するステップ;
− 主対角線に平行なすべてのラインが垂直ラインにより表されるように、類似性マトリックス410をチルト(tilt)する;結果として、x軸が、対応するターゲットQMF帯域を決定するためにソースQMF帯域(y軸)に適用される(複数のサブバンドとして)周波数シフトに対応する;
− パッチ同士の類似性を示すラインを削除するステップ;これはソース帯域のレンジに関する知識を用いることにより達成できる;
−オーディオ帯域幅の外側のラインを削除する;これは例えばパワースペクトル分析を用いて、オーディオ信号の帯域幅を決定することにより達成できる;
−主対角線(すなわち、自己相関)を削除する;類似性マトリックス410をチルトした後、主対角線はx=0における垂直ラインに、すなわち周波数シフトがないことに対応する。
−水平方向の一または複数の極大を検出し、チルトされたマトリックス内の他の相関値をすべてゼロに設定する;
−すべての相関値を(適応的)閾値より低いゼロに設定する;
−垂直ライン(すなわち、相関値が閾値より大きく、1帯域より長い)を検出する。
図7は、ライン処理前の類似性マトリックス(参照数字700)と、ライン処理後の類似性マトリックス(参照数字710)とを示す。図から分かるように、ぼやけた垂直パッチライン701と702は、上記の方式を用いてはっきりと分離され、それぞれパッチライン711と712となる。
上記のアプローチ(または同様のライン検出方式)を用いて、パッチ検出を行う。具体的に、上記のアプローチを、表1に列挙したHE−AACコーディング(コーディング条件1−8)の場合に評価した。検出性能は、すべてのパッチパラメータが正しく特定されたオーディオファイルのパーセンテージとして決められる。図から分かるように、位相のみデータに基づく分析は、複素データに基づく分析より、再符号化していないHE−AAC(コーディング条件1−5)に対して大幅によい検出結果を与える。これらのコーディング条件の場合、パッチングパラメータ(ソース帯域とターゲット帯域間のマッピング)を高い信頼度で決定できる。そのため、オーディオ信号を再符号化する時、推定されるパッチングパラメータを用いることができ、それにより再符号化プロセスにより信号がさらに劣化することを回避または低減できる。
HQ−SBR復号信号と比較して、LP−SBR復号信号の場合、パッチパラメータ検出レートは低下する。AAC再符号化信号(コーディング条件6−8)の場合、両方の方法の検出レート(位相のみデータに基づくものと複素データに基づくもの)は低レベルに低下する。これはさらに詳細に分析した。条件6について、類似性マトリックス800を図8に示した。図から分かるように、第1のパッチ801ははっきりしており、上記のライン検出方式により正しく識別できる。他方、第2のパッチ802はそれほどはっきりしていない。第2のパッチ802の場合、ソース及びターゲットQMF帯域は正しく検出されたが、ライン検出方式により決定されたQMF帯域数が少なすぎた。図8から分かるように、高い帯域に向かって相関が小さくなっていることによる。このような薄くなるラインは、上で概説した閾値ベースのアルゴリズムではうまく検出できないかもしれない。しかし、例えば、(グレー画像をバイナリ画像に変換するのに使われる)Noboyuki Ostu著「A Threshold Selection Method from Gray-Level Histograms」(IEEE Transactions on Systems, Man and Cybernetics, Vol. SMC-9, No. 1, January 1979, pages 62-66)に記載された方法などの適応的閾値ライン検出方法を用いてパッチパラメータ決定方式のロバスト性を高めることができる。上記の文献は参照援用する。
上記の通り、本文献で説明する方法は、SPX符号化を含む様々な周波数拡張方式に適用できる。そのため、オーディオ信号に適用された周波数帯域方式で用いられるフィルタバンク解像度に必ずしも対応しない分析フィルタバンクの解像度に基づき、類似性マトリックスを決定できる。これは図9に示されている。一例の類似性マトリックス900は、DD+コーディングにかけられたオーディオ信号の64帯域複素QMF分析に基づき決定された。周波数パッチ901がはっきりと見える。しかし、パッチの開始点と終了点は容易には検出できない。これは、DD+に用いられるSPX方式が、類似性マトリックス900を決定するのに用いた64帯域QMFよりも細かい解像度を有するフィルタバンクを用いることによる。チャンネルがもっと多いフィルタバンクを、例えば、(DD/DD+で用いられる256係数MDCTによる)256帯域QMFバンクを用いると、より正確な結果を得ることができる。言い換えると、周波数拡張コーディング方式のチャンネル数に対応したチャンネルを用いると、より正確な結果が得られる。
全般的に言えることとして、周波数解像度が高い分析フィルタバンクを用いれば、例えば周波数拡張コーディングに用いるフィルタバンクの周波数解像度と同じかより高い周波数解像度を有する分析フィルタバンクを用いれば、(周波数拡張コーディングの検出と、パッチパラメータの決定との両方の点において)より正確な分析結果が得られる。
上で指摘したように、DD+コーディングは、HE−AACとは異なる周波数拡張の周波数解像度を用いる。上に示したように、周波数拡張に実際に用いられた周波数解像度とは異なる周波数解像度を周波数拡張に用いると、パッチボーダーすなわちパッチの最低及び/または最高帯域がぼけることがある。この情報を用いて、オーディオ信号に適用されたコーディングシステムに関する情報を決定できる。言い換えると、周波数パッチボーダーを評価することにより、コーディング方式を決定できることがある。例えば、パッチボーダーが類似性マトリックスの決定に用いられる64AMF帯域グリッドとぴったり合わない場合、コーディング方式はHE−AACではないと結論できる。
さらに望ましくは、HE−AACv2でのパラメトリックステレオ(PS)符号化の利用及びDD/DD+でのカップリングの利用を検出する手段を提供する。PSはステレオコンテンツのみに関係し、カップリングはステレオ及びマルチチャンネルのオーディオに適用される。両ツールの場合、ビットストリームにおいて、単一チャンネルによるデータのみが少量のサイド情報とともに送信される。サイド情報は、復号器において、送信されたチャンネルから他のチャンネル(すなわち、第2のステレオチャンネルやマルチチャンネル)を生成するために用いられる。PSはオーディオの全帯域幅にわたりアクティブであるが、カップリングは高周波のみに適用される。カップリングはインテンシティステレオ(IS)のコンセプトに関連し、チャンネル間相関分析により、または左右チャンネルの位相情報の比較により検出できる。PSでは、逆相関方式(decorrelation scheme)により元の信号のチャンネル間相関特性が維持されるので、左右チャンネル間の位相関係は複雑である。しかし、PS逆相関では、図10aに示したように、平均チャンネル間位相差に特徴的なフィンガープリントが残る。この特徴的なフィンガープリントを検出できる。
PS符号化の使用の検出方法例では、次のステップのどれかが適用される:
−(復号された)オーディオ信号の両チャンネルの複素64帯域QMF分析を行うステップ;
−各QMFビンの左右位相角差を計算するステップ;
言い換えると、QMFビン中の複素サンプルの位相を評価するステップ;
具体的には、左右チャンネルの対応するサンプルの位相差を決定する;
−すべてのQMFフレームにわたる平均位相角差を決定するステップ;
異なる符号化をされた信号の平均位相角差例1000を図10aに示した;
−PSは高周波で特徴的な周期的構造1001を示す;
例えば、ピークフィルタリングとえネルぎー計算により、この特徴的構造を検出できる。
カップリングの使用の検出方法例では、次のステップのどれかが適用される:
−(復号された)オーディオ信号の両チャンネルの複素64帯域QMF分析を行うステップ;
−各QMFビンの左右位相角差を計算するステップ;
−QMFビンごとに位相角差が小さいサンプルの数を計算する、すなわち各QMF帯域について位相角差が所定閾値未満(一般的には、位相角差<π/100)のサンプルを計算するステップ;
異なる符号化をした信号の位相角差1010が小さいサブバンドサンプルの割合/パーセンテージ1010を図10bに示した;
−図10bのグラフ1011に示したように、QMF帯域に沿った大きな増加はカップリングの利用を示す。
上に外接したように、スペクトル帯域幅複製方法により、低周波係数中の情報に基づき高周波係数を生成する。これは、帯域幅複製方法により低周波係数と高周波係数との間に何らかの関係または相関が生じることを示唆する。以下、(復号された)オーディオ信号がスペクトル帯域幅複製にかけられたことを検出するさらに別のアプローチを説明する。このアプローチでは、低周波係数と高周波係数との間の関係を捉える確率モデルを構成する。
低周波係数と高周波係数との間の関係を捉えるため、N個のスペクトル低帯域ベクトル{X,X,...X}よりなるトレーニングデータセットを生成する。低帯域ベクトル{X,X,...X}は、所定の最大周波数Fnarrow(例えば、8kHz)を有するオーディオ信号から計算できるスペクトルベクトルである。すなわち、{X,X,...X}は、例えば16kHzのサンプリングレートのオーディオから計算したスペクトルベクトルである。低帯域ベクトルは、例えば、HE−AACまたはMPEG SBR符号化オーディオ信号の、すなわち周波数拡張コーディングの履歴を有するオーディオ信号の低周波帯域に基づき決定される。
さらにまた、これらのN個のスペクトルベクトル{X,X,...X}の帯域幅拡張バージョンは、帯域幅複製方法(例えば、MPEG SBR)を用いて決定できる。ベクトル{X,X,...X}の帯域幅拡張バージョンを{y,y,...y}とする。{y,y,...y}の最大周波数コンテンツは所定最大周波数Fwide(例えば、16kHz)である。これは、Fnarrow(例えば、8kHz)とFwide(例えば、16kHz)との間の周波数係数は{X,X,...X}に基づいて生成されることを示唆する。
このトレーニングデータセットが与えられたとき、z={x,y}(すなわち、狭帯域スペクトルベクトルと広帯域スペクトルベクトルの連結)として、一組のベクトル{z,z,...z}の同時密度(joint density)は、
Figure 2014513819
により決定できる。ここで、nはベクトルzの次元である。GMMにおいて、Qは同時密度p(z|λ)の近似に使われるガウシアンミクスチャモデル(GMM)の成分数であり、μはi番目のミクスチャ成分の平均であり、Cはi番目のミクスチャ成分の共分散である。
留意点として、zの共分散マトリックス(すなわちC)は、
Figure 2014513819
と書ける。ここで、C xxは低帯域スペクトルベクトルの共分散マトリックスを指し、C yyは広帯域スペクトルベクトルの共分散マトリックスを指し、C xyは低帯域及び広帯域スペクトルベクトル間の相互共分散マトリックスを指す。
同様に、zの平均ベクトル(μ)は
Figure 2014513819
と書ける。ここで、μ はi番目のミクスチャ成分の低帯域スペクトルベクトルの平均であり、μ はi番目のミクスチャ成分の広帯域スペクトルベクトルの平均である。
同時密度に基づき、すなわち決定される平均ベクトルμと共分散マトリックスCiとに基づき、低帯域スペクトルベクトル(x)を広帯域スペクトルベクトル(yi)にマッピングする関数F(x)を定義できる。この例では、F(x)は元の広帯域スペクトルベクトルと再構成されたスペクトルベクトルとの間の平均二乗誤差を最小化するように選択される。この仮定の下、F(x)は
Figure 2014513819
と決定できる。
ここで、E[y|x]は、観測された低帯域スペクトルベクトルxが与えられたとして、yの条件付き期待値を指す。h(x)項は、観測された低帯域スペクトルベクトルxが推定されたGMMのi番目のミクスチャ成分(式(1)を参照)から生成される確率を指す。
(x)項は
Figure 2014513819
で計算できる。
上記の統計モデルを用いて、SBR検出方式は次のように記述できる。式(1)と(2)に基づき、低帯域スペクトルベクトルとそれに対応する広帯域スペクトルベクトルとを含むトレーニングデータを用いて、低周波成分と高周波成分との関係を捉えることができる。
新しい(復号された)オーディオ信号から決定された新しい広帯域スペクトルベクトル(u)が与えられたとき、統計モデルを用いて、その(復号された)オーディオ信号の高周波スペクトル成分が帯域複製方法に基づいて生成されたかどうか判断できる。帯域幅複製が行われたか検出するために、以下のステップを実行できる:
入力された広帯域スペクトルベクトル(u)を2つの部分u=[uhi]に分割する。uは帯域スペクトルベクトルに対応し、uhiは、帯域幅複製方法により生成されたまたはされていないオーディオ信号のスペクトルの高周波部分に対応する。
統計モデルを用いて、具体的には式(2)を用いて、uxに基づき広帯域ベクトルF(u)を推定する。高周波成分が式(1)の確率モデルにより生成された場合、予測誤差‖u−F(u)‖は小さい。そうでない場合、予測誤差は大きく、帯域幅複製方法により高周波成分が生成されなかったことを示す。結果として、予測誤差‖u−F(u)‖を好適な誤差閾値と比較することにより、入力ベクトル「u」にSBRが行われたか、すなわち(復号された)オーディオ信号がSBR処理にかけられたか検出できる。
留意点として、代替的に、上記の統計モデルは低帯域ベクトル{X,X,...X}とそれに対応する高帯域ベクトル{y,y,...y}を用いて決定できる。ここで、高帯域ベクトル{y,y,...y}は帯域幅複製方法(例えば、MPEG SBR)を用いて{x,x,...x}から決定されたものである。これは、ベクトル{y,y,...y}が、帯域幅複製方法を用いて生成された高帯域成分のみを含み、高帯域成分が生成された低帯域成分を含まないことを意味する。一組のベクトル{z,z,...z}は、z={x}であり、低帯域スペクトルベクトルと高帯域スペクトルベクトルとの連結として決定される。こうすることにより、ガウシアンミクスチャモデル(GMM)の次元を減らし、全般的な複雑性を低減できる。留意点として、上記の式は、{y,y,...y}が高帯域ベクトルである場合にも適用できる。
本文献では、(復号された)オーディオ信号を分析する方法とシステムを説明した。これらの方法とシステムを用いて、オーディオ信号が周波数拡張ベースのコーデックにかけられたか、例えばHE−AACまたはDD+にかけられたか、判断できる。さらにまた、これらの方法とシステムを用いて、対応する低周波サブバンドと高周波サブバンドのペア、復号モード(LPまたはHQ復号)、パラメトリックステレオ符号化の利用、カップリングの利用など、周波数拡張ベースのコーデックにより用いられたパラメータを検出できる。説明した方法とシステムは、(復号された)オーディオ信号(例えば、PCMオーディオ信号)の履歴に関する情報が無くても、(復号された)オーディオ信号のみから上記の情報を決定するように構成される。
本文献で説明した方法とシステムはソフトウェア、ファームウェア、及び/又はハードウェアとして実施できる。あるコンポーネントは、例えば、デジタル信号プロセッサやマイクロプロセッサ上で動作するソフトウェアとして実施できる。他のコンポーネントは、例えば、ハードウェアとして、及び/又は特定目的集積回路として実施できる。

Claims (38)

  1. オーディオ信号のコーディング履歴における周波数拡張コーディングを検出する方法であって、
    低周波サブバンドと高周波サブバンドを含む対応する複数のサブバンドの複数のサブバンド信号を提供するステップであって、
    前記複数のサブバンド信号は前記オーディオ信号の時間/周波数ドメイン表現に対応するステップと、
    前記低周波サブバンドのサブバンド信号と前記高周波サブバンドのサブバンド信号との間の関係度を決定するステップであって、
    前記関係度は前記複数のサブバンド信号に基づき決まるステップと、
    前記関係度が関係閾値より大きいとき、周波数拡張コーディング履歴を決定するステップとを有する、方法。
  2. 前記複数のサブバンド信号は、
    複素値擬似二次ミラーフィルタバンク、
    修正離散余弦変換、
    修正離散正弦変換、
    離散フーリエ変換、
    変調重複変換、
    複素変調重複変換、または
    高速フーリエ変換、のうちの一を用いて生成される、
    請求項1に記載の方法。
  3. 前記複数のサブバンド信号は複数のフィルタを含むフィルタバンクを用いて生成され、各フィルタはその停止帯域内にある周波数所定のロールオフ閾値を越えるロールオフを有する、
    請求項1または2に記載の方法。
  4. 前記複数のフィルタは、M個のフィルタ係数を有し、Mは検出すべき前記周波数拡張コーディングにより用いられたフィルタ係数の数より大きい、
    請求項3に記載の方法。
  5. 前記オーディオ信号は複数のオーディオチャンネルを有し、
    前記方法は、前記複数のオーディオチャンネルをダウンミックスして、ダウンミックスされた時間ドメインオーディオ信号を決定するステップを有し、
    前記複数のサブバンド信号は前記ダウンミックスされた時間ドメインオーディオ信号から生成される、
    請求項1ないし4いずれか一項に記載の方法。
  6. 前記オーディオ信号の最大周波数を決定するステップをさらに有し、
    前記複数のサブバンド信号は前記最大周波数のまたはそれ未満の周波数のみを含む、
    請求項1ないし5いずれか一項に記載の方法。
  7. 最大周波数を決定するステップは、
    前記周波数ドメインのオーディオ信号のパワースペクトルを分析するステップと、
    最大周波数より高いすべての周波数において前記パワースペクトルがパワー閾値未満であるように、前記最大周波数を決定するステップとを有する、
    請求項6に記載の方法。
  8. 前記複数のサブバンド信号は、複数の位相信号とそれに対応する複数の強さ信号を含む複数の複素サブバンド信号であり、
    前記関係度は、前記複数の強さ信号ではなく、前記複数の位相信号に基づき決定される、
    請求項1ないし7いずれか一項に記載の方法。
  9. 関係度を決定するステップは、前記低周波サブバンドの一群のサブバンド信号から生成された高周波サブバンドの一群のサブバンドを決定するステップを有する、
    請求項1ないし8いずれか一項に記載の方法。
  10. 関係度を決定するステップは、前記複数のサブバンド信号間の一組の相互相関値を決定するステップを有する、
    請求項1ないし9いずれか一項に記載の方法。
  11. 第1と第2のサブバンド信号間の相関値を決定するステップは、ゼロ時間遅れにおける第1と第2のサブバンド信号の対応するサンプルの積の時間的平均を決定するステップを有する、
    請求項10に記載の方法。
  12. 前記複数のサブバンド信号はK個のサブバンド信号を有し、
    前記一組の相互相関値は、前記複数のサブバンド信号の異なるサブバンド信号のすべての組合せに対応する(K−1)!個の相互相関値を含む、
    請求項10または11に記載の方法。
  13. 周波数拡張コーディング履歴を決定するステップは、前記一組の相互相関値から少なくとも一の最大相互相関値を決定するステップを有する、
    請求項10ないし12いずれか一項に記載の方法。
  14. 前記一組の相互相関値は、主対角線が任意の値、例えばゼロまたは前記複数のサブバンド信号の自己相関値に対応する値を有する対称K×K相関マトリックスで構成される、
    請求項12または13に記載の方法。
  15. 前記相関マトリックスの相互相関値が極大になる一または複数の対角線を強調するため、前記相関マトリックスにラインエンハンスメントを適用するステップをさらに有する、
    請求項14に記載の方法。
  16. ラインエンハンスメントは前記相関マトリックスをエンハンスメントマトリックス
    Figure 2014513819
    で畳み込んで、エンハンスされた相関マトリックスを求める、
    請求項15に記載の方法。
  17. 周波数拡張コーディング履歴を決定するステップは、前記主対角線を除く、前記エンハンスされた相関マトリックスのうち少なくとも一の最大相互相関値が前記関係閾値を越えると決定するステップを有する、
    請求項16に記載の方法。
  18. 前記相関マトリックスを分析して、相互相関値が極大になる一または複数の対角線を検出するステップをさらに有し、
    相互相関値が極大になる対角線は前記相関マトリックスの主対角線上にはなく、
    相互相関値が極大になる対角線は二以上の極大相互相関値を有し、
    前記二以上の極大相互相関値の各々は最小相関閾値より大きく、
    前記二以上の極大相互相関は、前記相関マトリックスの主対角線に平行な対角線状にあり、
    前記相関マトリックスの行の前記二以上の極大相互相関値の各々について、同じ行かつすぐ隣接する左側の列の相互相関値は前記最小相関閾値以下であり、及び/または同じ行かつすぐ隣する右側の列の相互相関値は前記最小相関閾値以下である、
    請求項14ないし17いずれか一項に記載の方法。
  19. 前記主対角線の上または下に相互相関値が極大になる三以上の対角線を検出し、
    前記相関マトリックスの行はソースサブバンドを示し、前記相関マトリックスの列はターゲットサブバンドを示し、
    前記方法は、さらに、
    前記相関マトリックスの同じソースサブバンドの極大相互相関値を有する少なくとも2つの冗長な対角線を検出するステップと、
    最低のターゲットサブバンドを有する少なくとも2つの冗長な対角線を、複数のソースサブバンドから複数のターゲットサブバンドへのコピーアップパッチとして特定するステップとを有する、
    請求項18に記載の方法。
  20. 検出された対角線の始め及び/または終わりの前記検出された対角線の極大相互相関値がぼやけ閾値より小さいことを検出するステップと、
    前記変換ステップのパラメータを、複数の周波数拡張コーディング方式に用いた変換ステップのパラメータと比較するステップと、
    前記比較するステップに基づき、前記オーディオ信号に適用された前記複数の周波数拡張コーディング方式のうち周波数拡張コーディング方式を決定するステップとを有する、
    請求項18または19に記載の方法。
  21. 前記一組の相互相関値のうち最大相互相関値が復号モード閾値より低いか高いか判断するステップであって、それにより前記オーディオ信号に適用された周波数拡張コーディング方式の復号モードを検出するステップをさらに有する、
    請求項10ないし20いずれか一項に記載の方法。
  22. 前記オーディオ信号は第1と第2のチャンネルを有するマルチチャンネル信号であり、
    前記方法は、さらに、
    前記第1と第2のチャンネルを周波数ドメインに変換して、それにより複数の第1のサブバンド信号と複数の第2のサブバンド信号を生成するステップであって、
    前記第1と第2のサブバンド信号は複素値であり、第1と第2の位相信号を含むステップと、
    複数の位相差サブバンド信号を、対応する第1と第2のサブバンド信号の差として決定するステップとを有する、
    請求項1ないし21いずれか一項に記載の方法。
  23. 複数の位相差値を決定するステップであって、各位相差値は前記対応する位相差サブバンド信号のサンプルの時間的平均として決定するステップと、
    前記複数の位相差値の周期構造を検出し、それにより前記オーディオ信号のコーディング履歴中のパラメトリックステレオ符号化を検出するステップとを有する、
    請求項22に記載の方法。
  24. 前記周期構造は正と負の位相差値の間の隣接サブバンドの位相差値の振動を含み、
    前記振動する位相差値の強さは振動閾値より大きい、
    請求項23に記載の方法。
  25. 各位相差サブバンド信号について、サンプルの一部が位相差閾値より小さい位相差を有すると判断するステップと、
    前記一部が前記高周波サブバンドのうちのサブバンドの一部閾値を越えることを検出し、それにより前記オーディオ信号のコーディング履歴中の前記第1と第2のチャンネルのカップリングを検出するステップとを有する、
    請求項22ないし24いずれか一項に記載の方法。
  26. 前記関係度を決定するステップは、
    周波数拡張コーディング履歴を有するトレーニングオーディオ信号から求めた一組のトレーニングベクトルから決定した確率モデルを設ける段階であって、
    前記確率モデルは前記複数の高周波サブバンドと前記低周波サブバンドにより張られたベクトル空間のベクトル間の確率的関係を記述するステップと、
    前記低周波サブバンドのサブバンド信号が与えられたとき、前記高周波サブバンドの複数のサブバンド信号の推定を設けるステップであって、
    前記推定は前記確率モデルに基づいて決定されるステップと、
    前記高周波サブバンドの複数のサブバンド信号の推定と、前記高周波サブバンドの複数のサブバンド信号とから求めた推定誤差に基づき関係度を決定するステップとを有する、
    請求項1ないし9いずれか一項に記載の方法。
  27. 前記確率モデルは前記複数のサブバンドと前記低周波サブバンドとにより張られたベクトル空間のベクトル間の確率的関係を記述するし、
    前記低周波サブバンドのサブバンド信号が与えられたとき、前記複数のサブバンド信号の推定を設け、
    関係度は前記複数のサブバンド信号の推定と、前記複数のサブバンド信号との間の推定誤差に基づき決定される、
    請求項26に記載の方法。
  28. 前記確率的モデルはガウシアンミクスチャモデルである、
    請求項27に記載の方法。
  29. 前記確率モデルは複数のミクスチャ成分を有し、各ミクスチャ成分は前記ベクトル空間の平均ベクトルと、前記ベクトル空間の共分散マトリックスCとを有する、
    請求項28に記載の方法。
  30. i番目のミクスチャ成分の平均ベクトルμは前記ベクトル空間のクラスタの重心を表し、
    前記i番目のミクスチャ成分の共分散マトリックスCは前記ベクトル空間の異なる次元間の相関を表す、
    請求項29に記載の方法。
  31. 前記推定は
    Figure 2014513819
    で決定され、
    E[y|x]は前記低周波サブバンドのサブバンド信号xが与えられたときの、前記複数のサブバンド信号yの推定であり、h(x)は前記サブバンド信号xが与えられたときの、前記ガウシアンミクスチャモデルのi番目のミクスチャ成分の関係性を示し、μ は前記複数のサブバンドに対応する平均ベクトルμの成分であり、μ は前記低周波サブバンドのサブ空間に対応する平均ベクトルμiの成分であり、Qは前記ガウシアンミクスチャモデルの成分の数であり、C yxとC xxは前記共分散マトリックスCのサブマトリックスである、
    請求項30に記載の方法。
  32. (x)は低周波サブバンドのサブバンド信号x前記ガウシアンミクスチャモデル
    Figure 2014513819
    のi番目のミクスチャ成分に入る確率である、
    請求項31に記載の方法。
  33. オーディオ信号のコーディング履歴において、パラメトリックオーディオコーディングツールの使用を検出する方法であって、前記オーディオ信号は第1のチャンネルと第2のチャンネルを含むマルチチャンネル信号であり、前記方法は、
    複数の第1のサブバンド信号と複数の第2のサブバンド信号とを提供するステップであって、前記複数の第1のサブバンド信号は前記マルチチャンネル信号の第1のチャンネルの時間/周波数ドメイン表現に対応し、前記複数の第2のサブバンド信号は前記マルチチャンネル信号の第2のチャンネルの時間/周波数ドメイン表現に対応し、前記複数の第1と第2のサブバンド信号は複素値であり複数の第1と第2の位相信号を含むステップと、
    対応する第1と第2の位相信号の、前記複数の第1と第2の位相信号との差として、複数の位相差サブバンド信号を決定するステップと、
    前記複数の位相差サブバンド信号から前記オーディオ信号のコーディング履歴におけるパラメトリックオーディオコーディングツールの使用を検出するステップとを有する、方法。
  34. 複数の位相差値を決定するステップであって、各位相差値は前記対応する位相差サブバンド信号のサンプルの時間的平均として決定するステップと、
    前記複数の位相差値の周期構造を検出し、それにより前記オーディオ信号のコーディング履歴中のパラメトリックステレオ符号化を検出するステップとを有する、
    請求項33に記載の方法。
  35. 各位相差サブバンド信号について、サンプルの一部が位相差閾値より小さい位相差を有すると判断するステップと、
    前記一部が、クロスオーバ周波数より高い周波数において、サブバンド信号の一部閾値を越えることを検出し、それにより前記オーディオ信号のコーディング履歴中の前記第1と第2のチャンネルのカップリングを検出するステップとを有する、
    請求項33ないし34いずれか一項に記載の方法。
  36. プロセッサで実行するために構成され、計算デバイスで実行されると、請求項1ないし35いずれか一項の方法ステップを実行するソフトウェアプログラム。
  37. プロセッサで実行するために構成され、計算デバイスで実行されると、請求項1ないし35いずれか一項の方法ステップを実行するソフトウェアプログラムを有する記憶媒体。
  38. コンピュータで実行されると、請求項1ないし35いずれか一項に記載の方法を実行する実行可能命令を有するコンピュータプログラム製品。
JP2014511380A 2011-05-19 2012-04-30 パラメトリックオーディオコーディング方式の鑑識検出 Expired - Fee Related JP5714180B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161488122P 2011-05-19 2011-05-19
US61/488,122 2011-05-19
PCT/US2012/035785 WO2012158333A1 (en) 2011-05-19 2012-04-30 Forensic detection of parametric audio coding schemes

Publications (2)

Publication Number Publication Date
JP2014513819A true JP2014513819A (ja) 2014-06-05
JP5714180B2 JP5714180B2 (ja) 2015-05-07

Family

ID=46149720

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014511380A Expired - Fee Related JP5714180B2 (ja) 2011-05-19 2012-04-30 パラメトリックオーディオコーディング方式の鑑識検出

Country Status (6)

Country Link
US (1) US9117440B2 (ja)
EP (1) EP2710588B1 (ja)
JP (1) JP5714180B2 (ja)
KR (1) KR101572034B1 (ja)
CN (1) CN103548077B (ja)
WO (1) WO2012158333A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020512593A (ja) * 2017-03-31 2020-04-23 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 音響信号の人為的帯域幅制限処理に関する所定の特性を決定するための装置および方法

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2549953T3 (es) * 2012-08-27 2015-11-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada, programa de ordenador y señal de audio codificada
KR101632238B1 (ko) 2013-04-05 2016-06-21 돌비 인터네셔널 에이비 인터리브된 파형 코딩을 위한 오디오 인코더 및 디코더
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
KR102329309B1 (ko) 2013-09-12 2021-11-19 돌비 인터네셔널 에이비 Qmf 기반 처리 데이터의 시간 정렬
WO2015041478A1 (ko) 2013-09-17 2015-03-26 주식회사 윌러스표준기술연구소 멀티미디어 신호 처리 방법 및 장치
CN108347689B (zh) 2013-10-22 2021-01-01 延世大学工业学术合作社 用于处理音频信号的方法和设备
KR102157118B1 (ko) 2013-12-23 2020-09-17 주식회사 윌러스표준기술연구소 오디오 신호의 필터 생성 방법 및 이를 위한 파라메터화 장치
US9832585B2 (en) 2014-03-19 2017-11-28 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and apparatus
US9542955B2 (en) 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
US9848275B2 (en) 2014-04-02 2017-12-19 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and device
US9306606B2 (en) * 2014-06-10 2016-04-05 The Boeing Company Nonlinear filtering using polyphase filter banks
EP2963646A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and method for decoding an audio signal, encoder and method for encoding an audio signal
EP2963948A1 (en) * 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation
TWI693594B (zh) * 2015-03-13 2020-05-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
EP3271918B1 (en) * 2015-04-30 2019-03-13 Huawei Technologies Co., Ltd. Audio signal processing apparatuses and methods
EP3223279B1 (en) * 2016-03-21 2019-01-09 Nxp B.V. A speech signal processing circuit
CN106097317A (zh) * 2016-06-02 2016-11-09 南京康尼机电股份有限公司 一种基于离散余弦相位信息的多光斑检测和定位方法
CN107731238B (zh) 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
CN107767860B (zh) * 2016-08-15 2023-01-13 中兴通讯股份有限公司 一种语音信息处理方法和装置
US10803119B2 (en) * 2017-01-02 2020-10-13 Gracenote, Inc. Automated cover song identification
US10733998B2 (en) 2017-10-25 2020-08-04 The Nielsen Company (Us), Llc Methods, apparatus and articles of manufacture to identify sources of network streaming services
US11049507B2 (en) 2017-10-25 2021-06-29 Gracenote, Inc. Methods, apparatus, and articles of manufacture to identify sources of network streaming services
US10629213B2 (en) 2017-10-25 2020-04-21 The Nielsen Company (Us), Llc Methods and apparatus to perform windowed sliding transforms
CN108074238B (zh) * 2017-12-29 2020-07-24 惠州市华星光电技术有限公司 基于霍夫变换及高斯拟合的面内mura检测方法及检测系统
US10740889B2 (en) * 2017-12-29 2020-08-11 Huizhou China Star Optoelectronics Technology Co., Ltd. Method and system for detection of in-panel mura based on hough transform and gaussian fitting
US20200042825A1 (en) * 2018-08-02 2020-02-06 Veritone, Inc. Neural network orchestration
CN109584890A (zh) * 2018-12-18 2019-04-05 中央电视台 音频水印嵌入、提取、电视节目互动方法及装置
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding
CN113409804B (zh) * 2020-12-22 2024-08-09 声耕智能科技(西安)研究院有限公司 一种基于变张成广义子空间的多通道频域语音增强算法
US11568884B2 (en) * 2021-05-24 2023-01-31 Invictumtech, Inc. Analysis filter bank and computing procedure thereof, audio frequency shifting system, and audio frequency shifting procedure

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011081033A (ja) * 2009-10-02 2011-04-21 Toshiba Corp 信号処理装置、及び携帯端末装置

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0149759B1 (ko) 1995-11-20 1998-11-02 김광호 디지탈신호 처리칩을 이용한 디티엠프 검출기 및 구현방법
DE10000934C1 (de) * 2000-01-12 2001-09-27 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Bestimmen eines Codierungs-Blockrasters eines decodierten Signals
JP3511502B2 (ja) 2000-09-05 2004-03-29 インターナショナル・ビジネス・マシーンズ・コーポレーション データ加工検出システム、付加情報埋め込み装置、付加情報検出装置、デジタルコンテンツ、音楽コンテンツ処理装置、付加データ埋め込み方法、コンテンツ加工検出方法、記憶媒体及びプログラム伝送装置
SE0004163D0 (sv) 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
SE0004818D0 (sv) 2000-12-22 2000-12-22 Coding Technologies Sweden Ab Enhancing source coding systems by adaptive transposition
CN1279512C (zh) 2001-11-29 2006-10-11 编码技术股份公司 用于改善高频重建的方法和装置
EP1318611A1 (en) 2001-12-06 2003-06-11 Deutsche Thomson-Brandt Gmbh Method for retrieving a sensitive criterion for quantized spectra detection
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
KR100462615B1 (ko) 2002-07-11 2004-12-20 삼성전자주식회사 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
CA2453814C (en) 2002-07-19 2010-03-09 Nec Corporation Audio decoding apparatus and decoding method and program
SE0202770D0 (sv) 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
EP1621047B1 (en) 2003-04-17 2007-04-11 Koninklijke Philips Electronics N.V. Audio signal generation
CN100546233C (zh) 2003-04-30 2009-09-30 诺基亚公司 用于支持多声道音频扩展的方法和设备
EP1672618B1 (en) 2003-10-07 2010-12-15 Panasonic Corporation Method for deciding time boundary for encoding spectrum envelope and frequency resolution
EP1719117A1 (en) 2004-02-16 2006-11-08 Koninklijke Philips Electronics N.V. A transcoder and method of transcoding therefore
TWI393121B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
KR100657916B1 (ko) * 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
WO2006075563A1 (ja) 2005-01-11 2006-07-20 Nec Corporation オーディオ符号化装置、オーディオ符号化方法およびオーディオ符号化プログラム
KR101194902B1 (ko) 2005-02-24 2012-10-25 파나소닉 주식회사 데이터 재생장치
KR100818268B1 (ko) 2005-04-14 2008-04-02 삼성전자주식회사 오디오 데이터 부호화 및 복호화 장치와 방법
EP1949369B1 (en) 2005-10-12 2012-09-26 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding audio data and extension data
AU2006300103B2 (en) 2005-10-13 2010-09-09 Lg Electronics Inc. Method and apparatus for signal processing
US8199828B2 (en) 2005-10-13 2012-06-12 Lg Electronics Inc. Method of processing a signal and apparatus for processing a signal
KR100717058B1 (ko) 2005-11-28 2007-05-14 삼성전자주식회사 고주파 성분 복원 방법 및 그 장치
CN101140759B (zh) * 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
US8036903B2 (en) 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
US20080243518A1 (en) 2006-11-16 2008-10-02 Alexey Oraevsky System And Method For Compressing And Reconstructing Audio Files
JP4967618B2 (ja) 2006-11-24 2012-07-04 富士通株式会社 復号化装置および復号化方法
JP5377974B2 (ja) 2006-11-30 2013-12-25 パナソニック株式会社 信号処理装置
US8015368B2 (en) 2007-04-20 2011-09-06 Siport, Inc. Processor extensions for accelerating spectral band replication
EP2220646A1 (en) 2007-11-06 2010-08-25 Nokia Corporation Audio coding apparatus and method thereof
AU2008326957B2 (en) * 2007-11-21 2011-06-30 Lg Electronics Inc. A method and an apparatus for processing a signal
CN101471072B (zh) 2007-12-27 2012-01-25 华为技术有限公司 高频重建方法、编码装置和解码装置
ATE500588T1 (de) * 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
CA2729971C (en) 2008-07-11 2014-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. An apparatus and a method for calculating a number of spectral envelopes
JP5010743B2 (ja) 2008-07-11 2012-08-29 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル傾斜で制御されたフレーミングを使用して帯域拡張データを計算するための装置及び方法
AU2009267525B2 (en) 2008-07-11 2012-12-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal synthesizer and audio signal encoder
US8532983B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Adaptive frequency prediction for encoding or decoding an audio signal
EP2224433B1 (en) 2008-09-25 2020-05-27 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
KR101424944B1 (ko) 2008-12-15 2014-08-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 인코더 및 대역폭 확장 디코더

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011081033A (ja) * 2009-10-02 2011-04-21 Toshiba Corp 信号処理装置、及び携帯端末装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN7014001986; Jurgen Herre, Michael Schug: 'Analysis of Decompressed Audio- The "Inverse Decoder"' AES 109th Convention *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020512593A (ja) * 2017-03-31 2020-04-23 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 音響信号の人為的帯域幅制限処理に関する所定の特性を決定するための装置および方法
JP2020512591A (ja) * 2017-03-31 2020-04-23 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 音響信号を処理するための装置および方法
JP2020512594A (ja) * 2017-03-31 2020-04-23 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 音響信号のスペクトル強調処理に関する所定の特性を決定するための装置および方法
US11170794B2 (en) 2017-03-31 2021-11-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
JP7059301B2 (ja) 2017-03-31 2022-04-25 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 音響信号の人為的帯域幅制限処理に関する所定の特性を決定するための装置および方法
US12067995B2 (en) 2017-03-31 2024-08-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal

Also Published As

Publication number Publication date
US9117440B2 (en) 2015-08-25
JP5714180B2 (ja) 2015-05-07
CN103548077B (zh) 2016-02-10
EP2710588A1 (en) 2014-03-26
KR101572034B1 (ko) 2015-11-26
KR20140023389A (ko) 2014-02-26
CN103548077A (zh) 2014-01-29
WO2012158333A1 (en) 2012-11-22
US20140088978A1 (en) 2014-03-27
EP2710588B1 (en) 2015-09-09

Similar Documents

Publication Publication Date Title
JP5714180B2 (ja) パラメトリックオーディオコーディング方式の鑑識検出
JP7383067B2 (ja) 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法
JP5826291B2 (ja) 音声信号からの特徴フィンガープリントの抽出及びマッチング方法
RU2536679C2 (ru) Передатчик сигнала активации с деформацией по времени, кодер звукового сигнала, способ преобразования сигнала активации с деформацией по времени, способ кодирования звукового сигнала и компьютерные программы
US9697840B2 (en) Enhanced chroma extraction from an audio codec
US7707030B2 (en) Device and method for generating a complex spectral representation of a discrete-time signal
RU2680352C1 (ru) Способ и устройство для определения режима кодирования, способ и устройство для кодирования аудиосигналов и способ и устройство для декодирования аудиосигналов
RU2719543C1 (ru) Устройство и способ для определения предварительно определенной характеристики, относящейся к обработке искусственного ограничения частотной полосы аудиосигнала
RU2568278C2 (ru) Расширение полосы пропускания звукового сигнала нижней полосы
Umapathy et al. Audio signal processing using time-frequency approaches: coding, classification, fingerprinting, and watermarking
JP6790114B2 (ja) 音声スペクトログラムに基づく構造テンソルを使用して位相情報を復元することによるエンコーディング
CN107221334B (zh) 一种音频带宽扩展的方法及扩展装置
RU2409874C9 (ru) Сжатие звуковых сигналов
Wang et al. Speech Watermarking Based on Source-filter Model of Speech Production.

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20131118

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150310

R150 Certificate of patent or registration of utility model

Ref document number: 5714180

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees