JP2015534116A - マルチチャネル・オーディオ・コンテンツ解析に基づく上方混合検出 - Google Patents

マルチチャネル・オーディオ・コンテンツ解析に基づく上方混合検出 Download PDF

Info

Publication number
JP2015534116A
JP2015534116A JP2015532079A JP2015532079A JP2015534116A JP 2015534116 A JP2015534116 A JP 2015534116A JP 2015532079 A JP2015532079 A JP 2015532079A JP 2015532079 A JP2015532079 A JP 2015532079A JP 2015534116 A JP2015534116 A JP 2015534116A
Authority
JP
Japan
Prior art keywords
channel
channels
audio signal
content
rank
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2015532079A
Other languages
English (en)
Inventor
ラドハクリッシュナン,レギュナサン
エフ デイヴィス,マーク
エフ デイヴィス,マーク
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2015534116A publication Critical patent/JP2015534116A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

法科学的な上方混合器検出が記述される。二つ以上の個々のチャネルをもつオーディオ信号から特徴集合が抽出される。抽出された特徴集合に基づいて、オーディオ信号がより少数のチャネルをもつオーディオ・コンテンツから上方混合されたものであるかどうかが判定される。

Description

本発明は概括的には信号処理に関する。より詳細には、本発明のある実施形態は、コンテンツの解析に基づく、マルチチャネル・オーディオ・コンテンツにおける上方混合〔アップミックス〕の法科学的検出に関する。
ステレオフォニック(ステレオ)オーディオ・コンテンツは二つのチャネルをもち、それらのチャネルはその相対的な空間的配向との関係で、典型的には「左」および「右」チャネルと称される。三つ以上のチャネルをもつオーディオ・コンテンツは典型的には「マルチチャネル」コンテンツと称される。たとえば、「5.1」および「7.1」(およびその他の)マルチチャネル・オーディオ・システムは、通常の両耳聴覚をもつユーザーが「サラウンドサウンド」として知覚しうるサウンドステージを生じる。典型的な5.1マルチチャネル・オーディオ・システムは五つのチャネルをもち、それらのチャネルはその空間的な配向との関係で、典型的には「左」(L)、「右」(R)、「中央」(C)、「左サラウンド」(Ls)、「右サラウンド」(Rs)および「低域効果」(LFE)チャネルと称される。マルチチャネル・オーディオ・コンテンツはさまざまな成分を含みうる。
たとえば、映画サウンドトラックのオーディオ・コンテンツは、発話成分(たとえば俳優の間の会話)、周囲の自然な音成分(たとえば、風ノイズ、海洋の波)、特定のシーンに関係する周囲の音成分(たとえば機械ノイズ、足音またはたたく音のような動物や人間の音)および/または音楽成分(たとえば背景音楽、音楽スコア、歌または合唱のような音楽的な声、シーン内のバンドやオーケストラ)を含みうる。オーディオ・コンテンツ成分のいくつかは典型的には特定のオーディオ・チャネルに関連付けられていることがある。たとえば、発話関連の成分はしばしば、中央ラウドスピーカー(これは時に投影スクリーンの背後に位置される)を駆動する中央チャネルにレンダリングされる。よって、聴衆は発話を、「スクリーン上で話している」人物との空間的対応において知覚しうる。
マルチチャネル・オーディオ・コンテンツは、そのまま直接記録されてもよいし、あるいは当該コンテンツの、それ自身はより少数のチャネルを含むインスタンスから生成されてもよい。マルチチャネル・オーディオ・コンテンツ・インスタンスがより少数のチャネルをもつコンテンツ・インスタンスから生成されるプロセスは典型的には上方混合〔アップミキシング〕と称される。よって、たとえば、ステレオ・コンテンツが5.1コンテンツに上方混合されてもよい。上方混合器は入力ステレオ・コンテンツを解析し、直接および周囲信号成分を推定する。推定された直接および周囲信号成分に基づいて、上方混合器は個々の出力チャネルのそれぞれについての信号を生成する。個々の出力チャネルのそれぞれについて生成された信号は、次いで、対応するL、R、C、LsまたはRsラウドスピーカーを駆動する。
上方混合器から導出されたマルチチャネル・オーディオ・コンテンツは、チャネル対の間の関係のような特性的な特徴をも有する。たとえば、チャネルの対(L/R、Ls/Rs、L/Ls、R/Rs、L/C、R/Cなど)はある種の相対的な位相配向、相対的なチャネル間時間遅延、チャネル間相関および/または他の特性を共有しうる。特定のコンテンツ片またはその一部分の特性の一部は、同じコンテンツの別のインスタンスの対応する特性との関係で、ユニークであることがある。よって、たとえば、5.1コンテンツのある部分の上方混合されたインスタンスの特性は、同じ5.1コンテンツ部分のもとのインスタンスの特性とはいくらか、可能性としては著しく異なることがある。さらに、同じコンテンツ部分の、異なる上方混合器プロセスまたはプラットフォームを用いて独立に上方混合された個々の各インスタンスの特性も、互いにいくらか、可能性としては著しく異なることがある。
上記のセクションで記述されたアプローチは、追求されることができたが必ずしも以前に着想または追求されたアプローチではない。したがって、特に断りのない限り、該セクションにおいて記述されるアプローチはいずれも、該セクションに含まれているというだけのために従来技術の資格をもつと想定されるべきではない。同様に、特に断りのない限り、一つまたは複数のアプローチに関して特定されている問題は、該セクションに基づいて何らかの従来技術において認識されていたと想定されるべきではない。
本発明の実施形態が、限定ではなく例として、付属の図面において示される。図面において、同様の参照符号は同様の要素を指す。
本発明のある実施形態に基づく、法科学的上方混合器素性検出システムを描く図である。 本発明のある実施形態に基づく、階数解析に基づく特徴検出のための例示的なプロセスのフローチャートを描く図である。 本発明のある実施形態の例示的な実装に基づく、階数推定の第一の比較を描く図である。 本発明のある実施形態の例示的な実装に基づく、階数推定の第二の比較を描く図である。 本発明のある実施形態に基づく、発話漏れ特徴を計算するための例示的なプロセスを描く図である。 さまざまなマルチチャネル・コンテンツの例からの信号エネルギー漏れのプロットを描く図である。 AおよびBは、例示的な低域通過フィルタ応答および例示的なシェルフ・フィルタ周波数応答をそれぞれ描く図である。 一対のオーディオ・チャネル間の例示的な時間遅延推定を描く図である。 二つのそれぞれの動作モードにおける例示的な上方混合器についての例示的な相関値分布を描く図の一つである。 二つのそれぞれの動作モードにおける例示的な上方混合器についての例示的な相関値分布を描く図の一つである。 本発明の実施形態が実施されうる例示的なコンピュータ・システム・プラットフォームを描く図である。 本発明の実施形態が実施されうる例示的な集積回路(IC)を描く図である。
コンテンツの解析に基づくマルチチャネル・オーディオ・コンテンツの上方混合の法科学的検出が本稿で記述される。以下の記述では、本発明の十全な理解を提供するために、一つまたは複数の例示的実施形態に関係する数多くの個別的詳細が記載される。しかしながら、本発明はそうした個別的詳細なしでも実施されうることは明白であろう。他方、明確、簡潔、簡単のため、また本発明を無用に隠蔽したり曖昧にしたり埋没させたりするのを避けるために、よく知られた構造および装置は網羅的な詳細さでは記述されない。
〈概観〉
本稿に記載される例示的実施形態は、コンテンツの解析に基づくマルチチャネル・オーディオ・コンテンツにおける上方混合の法科学的検出に関する。二つ以上の個別チャネルをもつオーディオ信号から諸特徴集合が抽出される。抽出された諸特徴集合に基づいて、そのオーディオ信号がより少数のチャネルをもつオーディオ・コンテンツから上方混合されたものかどうかが判定される。この判定は、マルチチャネル・オーディオを生成する際に上方混合が関わっていたことの一般化された検出およびアクセスされたオーディオ信号を生成した特定の上方混合器の特定を許容する。上方混合判定は、統計的学習モデルに基づいて、前記抽出された特徴についてのスコアを計算することを含む。統計的学習モデルは、オフラインのトレーニング・セットに基づいて計算されてもよい。統計的学習モデルは、本稿では適応ブースト(Adaptive Boosting)(AdaBoost)との関係で記述されるが、実施形態はガウシアン混合モデル(GMM: Gaussian Mixture Model)、サポートベクターマシン(SVM: Support Vector Machine)および/または他の機械学習プロセスを使って実装されてもよい。
抽出された特徴は、アクセスされたオーディオ信号の階数解析、アクセスされたオーディオ信号の前記二つ以上のチャネル上の信号の少なくとも一つの成分の漏れの解析、前記二つ以上のチャネルの少なくとも一対の間の伝達関数の推定、前記二つ以上のチャネルの少なくとも一対の間の位相関係の推定および/または前記二つ以上のチャネルの少なくとも一対の間の時間遅延関係の推定のうちの一つまたは複数を含んでいてもよい。前記時間遅延関係または前記位相関係の一つまたは複数の推定は、前記対のチャネルのそれぞれの間の相関を計算することによって推定される。
階数解析は、広くアクセスされたオーディオ信号に対して時間領域においておよび/または、アクセスされたオーディオ信号の前記二つ以上のチャネルに対応する複数の周波数帯域のそれぞれにおいて実行されてもよい。広帯域時間領域ベースの階数解析および対応する周波数帯域のそれぞれにおける階数解析を実行すると、これらの解析が比較されてもよい。当該チャネル対のチャネルのそれぞれは、時間において(たとえば時間的に)整列されてもよく、その後、ある実施形態は前記階数解析を実行する。
ある実施形態は階数解析を反復してもよい。たとえば、第一の階数推定値を得るために最初に第一の階数解析が実行されてもよく、その後、アクセスされたオーディオ信号のサラウンドサウンド・チャネルの少なくとも一対(たとえばLs、Rs)に対して逆脱相関が実行されてもよい。該逆脱相関実行をすると、階数解析は、第二の階数推定値を得るために繰り返されてもよい。次いで第一および第二の階数推定値が比較されてもよい。
信号成分漏れ解析は、ある抽出された特徴を、チャネル間での前記オーディオ信号の一つまたは複数の成分の漏れに関するものとして分類することを含む。いくつかの特定のオーディオ信号成分は典型的には、特定のチャネルまたはチャネル群と関連付けられており、よってそうしたチャネルにおいて見出されることが期待される。たとえばマルチチャネル・オーディオ・コンテンツの離散的なインスタンスでは、それが関連付けられているチャネル以外のチャネルにおいてである。
たとえば、発話に関係した信号成分はしばしばまたは典型的には、当該コンテンツのもとのインスタンスのような離散的なマルチチャネル・オーディオにおいて中央(C)チャネルに関連付けられる。漏れ解析によって、オーディオ・コンテンツから抽出された特徴が前記オーディオ信号のチャネルの少なくとも二つのそれぞれに同時期に(同時に)存在する発話成分に関係することが示される場合、該解析は、そのコンテンツが上方混合されたものであること、たとえばそのコンテンツがその離散的なまたはもとのインスタンス以外を含むことを示しうる。さらに、発話成分が見出される前記少なくとも二つのチャネルのうち一つまたは複数が中央(C)チャネル以外のチャネル、たとえばLおよびRチャネルまたはサラウンドサウンド・チャネルの一つまたは複数を含む。
オーディオ信号の発話に関係する成分自身とは対照的に、和声歌唱または合唱のような音楽的な声に関係する信号成分は、典型的には、離散的なマルチチャネル・オーディオ・コンテンツのLおよびRチャネルに集中していることがある。独唱、歌詞、オペラなどといった他の、より発話のような音楽的な声成分はCチャネルにあることがある。信号漏れ解析によって、オーディオ・コンテンツから抽出されたある特徴が、一つまたは複数のチャネル(たとえばLおよびR)に期待される合唱または歌われる声の和声信号成分であってその定位が予期されない(またはたとえば離散的なマルチチャネル・コンテンツにおいて、非典型的な)一つまたは複数の他のチャネル(たとえばLs、RsまたはC)に存在しているものに関係することが示される場合、その解析はやはり、コンテンツが上方混合されたものであることを示しうる。
やはり発話成分と対照的に、周囲の音、背景音またはその他のシーン音(たとえば意図的なシーン・ノイズを含む)に対応するもののようないくつかの信号成分は、典型的には、離散的なマルチチャネル・コンテンツにおいて一つまたは複数の中心から外れた(たとえば非C;L、R、Lsおよび/またはRs)チャネルに集中していることがありうる。信号漏れ解析によって、オーディオ・コンテンツから抽出されたある特徴がこれらの成分のCチャネルにおける存在に関係することが示される場合、その解析はやはり、コンテンツが上方混合されたものであることを示しうる。
伝達関数推定は、相互パワースペクトル密度(cross-power spectral density)および/または入力パワースペクトル密度ならびに最小平均二乗(LMS: least mean squares)を計算するアルゴリズムに基づいていてもよい。
上方混合判定は、さらに、抽出された特徴をある継続時間にわたって解析し、解析された諸特徴に基づいて、抽出された特徴に対して計算される平均値および分散値のような記述的な統計の集合を計算することを含んでいてもよい。
諸実施形態は、コンテンツの解析に基づくマルチチャネル・オーディオ・コンテンツにおける上方混合の法科学的検出を実行、執行、制御またはプログラムするためのエンコードされた命令をそれぞれ処理または記憶するシステムおよび非一時的なコンピュータ可読記憶媒体にも関する。
上方混合器は、入力ステレオ・コンテンツを解析し、直接および周囲の信号成分を推定する。推定された直接および周囲の信号成分に基づいて、上方混合器は、個々の出力チャネルのそれぞれについての信号を生成する。多様な現代の上方混合器アプリケーションが使用されており、それにはドルビー・ラボラトリーズ社(商標)(米国カリフォルニア州で営業する企業)から市販されているドルビー・プロ・ロジック(商標)、ドルビー・プロ・ロジックII(商標)、ドルビー・プロ・ロジックIIx(商標)およびドルビー・ブロードキャスト・アップミキサー(商標)といった権利で保護された上方混合器が含まれる。上方混合において実行される処理およびフィルタリング動作は、上方混合されたコンテンツに対して特性的な特徴を付与することがあり、その中でその特性の一部は、たとえば上方混合器のアーチファクトとして検出されうる。同じコンテンツ部分の、異なる上方混合器プロセスまたはプラットフォームを用いて独立に上方混合された個々の各インスタンスの特性も、互いにいくらか、可能性としては著しく異なることがある。
本発明の諸実施形態は、本稿では、ステレオ・コンテンツから5.1マルチチャネル・オーディオ・コンテンツを生成する上方混合器を参照して、またいくつかの事例ではドルビー・プロ・ロジック(商標)上方混合器の一つまたは複数を参照して記述されるが、明確、一貫性、簡潔および簡単のため、本記述におけるステレオ5.1上方混合器へのそのような言及は、任意の上方混合器を包含し、任意の上方混合器に当てはまる。そうした任意の上方混合器は、権利で保護されたものであろうとなかろうと、クアドラフォニック(クアッド)、7.1、10.2、22.2および/または他のマルチチャネル・オーディオ・コンテンツを、ステレオのようなより少数のチャネルの対応するオーディオ・コンテンツから生成するものを含む。例示的な5.1マルチチャネル・オーディオは本稿ではそのL、C、R、LsおよびRsチャネルを参照して記述される;さらに、本稿ではLFEチャネルのさらなる議論は明確、簡潔および簡単のため割愛される。
ある例示的な実施形態は、上方混合器を、該上方混合器から導出されたマルチチャネル・コンテンツ片の解析に基づいて盲目的に検出するよう機能する。マルチチャネルL、C、R、Ls、Rsコンテンツの時間的チャンク(たとえば10秒)のようなコンテンツ部分が与えられて、それから特徴の集合が導出される。それらの特徴は、チャネル対間に存在しうる、時間的遅延、位相関係および/または伝達関数のような関係を捕捉するものを含む。それらの特徴は、上方混合に際しての、あるチャネル(典型的にはCチャネル)から一つまたは複数の他のチャネルへの発話の漏れおよび/または入力マルチチャネル・コンテンツから計算される共変行列の階数解析を捕捉するものをも含んでいてもよい。ある特定の上方混合器(たとえばドルビー・プロロジックII(商標))についてのこれらの特徴の分布の統計的モデルを生成するために、ある実施形態は、その特定の上方混合器から導出されるマルチチャネル・コンテンツのような肯定的な例と、その上方混合器から導出されるのではないマルチチャネル・コンテンツ(たとえば、もとのコンテンツ・インスタンスまたは異なる上方混合器を使って生成されていてもよいコンテンツ)のような否定的な例とを含むオフライン・トレーニング・データセットを生成する。このトレーニング・データを使って、ある実施形態は、これらの特徴に基づいて特定の上方混合器を検出する統計的モデルを学習する。
マルチチャネル・コンテンツの新規の試験クリップを与えられて、統計的学習手順の間に使われたのと同じ特徴が抽出され、上方混合器によって上方混合されたコンテンツに対する上方混合器の処理機能のアーチファクトとの関係での上方混合器の特性、効果および振る舞いについての一組の競合する統計的モデルのもとでそれらの特徴が生起する確率値が計算される。計算された特徴が最大の尤度をもつ統計的モデルが、受領された入力マルチチャネル・コンテンツを生成したその上方混合器をなしていると同定される、たとえば法科学的に宣言される。そのような法科学情報は、具体的に上方混合されたコンテンツの検出に際して、たとえば上方混合されたコンテンツの知覚されるオーディオ品質を最適化するために上方混合後に生起しうるさまざまなオーディオ処理アプリケーション、機能または動作の側面の一つまたは複数を制御する、呼び出す、プログラムする、最適化する、設定するまたは構成するために、使用されうる。諸実施形態が抽出する特徴およびそれとともに使われる統計的学習フレームワークに関係する例は、のちにより詳細に述べる。
本発明のある実施形態は、特定の上方混合器によって上方混合されたマルチチャネル・オーディオ・コンテンツの特性的な特徴に基づいて特定の上方混合器を同定する(たとえばその素性〔アイデンティティー〕を法科学的に検出する)。特性的な特徴は、その特定の上方混合器によって生成される多様なマルチチャネル・コンテンツを解析することから学習される。特定の上方混合器によって付与される特性的な特徴を学習すると、ある実施形態は、解析―学習された特性的な特徴を記憶する。さまざまな特徴は、受領される入力マルチチャネル・コンテンツから導出(たとえば抽出)され、チャネル間の関係、他のチャネルへの発話の漏れ、マルチチャネル・コンテンツから計算される共変行列の階数を捕捉する特徴を含む。抽出された特徴は、機械学習アプローチを使って組み合わされる。
ある実施形態は、適応ブースト(AdaBoost)アルゴリズム、ガウシアン混合モデル(GMM)、サポートベクターマシン(SVM)または他の機械学習プロセスに基づく計算により機械学習コンポーネントを実装する。例示的な実施形態は、本稿では明確さ、一貫性、単純さおよび簡潔さのためにAdaBoostを参照して記述されるが、該記述はAdaboost、GMMまたはSVMを含む(ただしそれに限定されない)、実施形態が実装されうるいかなる機械学習プロセスをも代表し、包含し、当てはまるものである。Adaboost(または他の)機械学習プロセスは、ある実施形態では、特定の上方混合器から導出されたコンテンツと他の全てのマルチチャネル・コンテンツとの間の区別をするために用いられる一つまたは複数の分類器(classifier)を学習するよう機能する。学習された分類器は、該分類器が学習されるもとになったマルチチャネル・コンテンツを生成した特定の上方混合器から導出されるマルチチャネル・コンテンツを試験する際に使われるために記憶される。さらに、記憶された学習された分類器は、特定のマルチチャネル・オーディオ・コンテンツ片を上方混合した上方混合器を法科学的に同定するために使われてもよい。
ある例示的な実施形態は、メディア・コンテンツまたはオーディオ信号に対して実行される上方混合処理機能を法科学的に検出することに関する。たとえば、ある実施形態は、少なくとも一対のチャネル間の関係の法科学的な検出に基づいて、たとえばマルチチャネル・コンテンツ、たとえばオーディオ・ファイルにおける個々のチャネルを導出するために、上方混合動作が実行されたかどうかを検出する。ある実施形態はまた、所与のマルチチャネル・コンテンツ片またはあるマルチチャネル・オーディオ信号を上方混合した特定の上方混合器を同定してもよい。
一対のチャネル間の関係は、たとえば、両チャネルの間の時間遅延および/または当該マルチチャネル・コンテンツにおける複数の観測可能なチャネルの一つを導出する、参照チャネルに対して実行されたフィルタリング動作を含んでいてもよい。二つのチャネルの間の時間遅延は、両チャネルにおける信号の相関の計算を用いて推定されてもよい。フィルタリング動作は、少なくとも部分的には、前記チャネルのうちの一つについて参照チャネルを推定し、該参照チャネルと観察されるチャネルとの間の伝達関数関係に基づいて特徴を抽出し、一つまたは複数の他の実施形態と同様にガウシアン混合モデル(GMM)、AdaBoostまたはサポートベクターマシン(SVM)のような統計的学習モデルに基づいて抽出された特徴のスコアを計算することに基づいて検出されてもよい。
参照チャネルは、前記チャネルのうちの一つのチャネルのフィルタリングされたバージョンまたは少なくとも二つのチャネルの線形結合のフィルタリングされたバージョンでありうる。追加的または代替的な実施形態では、参照チャネルはもう一つの特性を有していてもよい。一つまたは複数の実施形態におけるのと同様に、統計的学習モデルはオフラインのトレーニング・セットに基づいて計算されてもよい。
〈例示的な法科学的上方混合器検出システム〉
図1は、本発明のある実施形態に基づく、例示的な法科学的上方混合器素性検出システム100を描いている。法科学的上方混合器素性検出システム100は、上方混合器を用いて上方混合されたマルチチャネル・オーディオ・コンテンツの特性的な特徴に基づいてその特定の上方混合器を同定する。特性的な特徴は、その特定の上方混合器によって生成される多様なマルチチャネル・コンテンツを解析することから学習される。機械学習プロセッサ155(たとえばAdaBoost)は、システム100のリアルタイムの素性検出機能に関してオフラインで機能する。機械学習プロセスは、のちにもう少し詳細に記述する。一つまたは複数の特定の上方混合器型が所与の試験コンテンツ片に付与する特性的な特徴を学習すると、解析‐学習された特性的な特徴が記憶されてもよい。ある実施形態では、解析のためにオーディオ・コンテンツから抽出される特徴は、階数解析に基づく特徴、信号漏れ解析および伝達信号解析に基づく特徴を含む。
法科学的上方混合器素性検出システム100は、システムへの入力として受領される入力マルチチャネル・オーディオ・コンテンツに対して上方混合器を用いて付与される特性的な特徴を検出および解析することによってその特定の上方混合器が同定されるリアルタイム機能を実行する。特徴抽出コンポーネント101は、個別のL、C、R、LsおよびRsチャネルを含む例示的な5.1マルチチャネル入力を受領する。
特徴抽出器101は階数解析モジュール102、信号漏れ解析モジュール104、伝達関数推定器モジュール106、時間遅延検出モジュール108および位相関係検出モジュール110を有する。これらのモジュールの一つまたは複数の機能に基づいて、特徴抽出器101は決定エンジン111に特徴ベクトルを出力する。決定エンジン111は、特徴ベクトルが、試験コンテンツからオフラインで学習される一つまたは複数の統計的モデルへの入力チャネルに対応する確率を計算する。計算された確率は、測定可能な精度をもつ:(1)所与の入力コンテンツ片を生成した特定の上方混合器の同定情報または(2)入力コンテンツの特定のインスタンスがある上方混合器で上方混合されたことの検出を提供する。
〈例示的な階数解析に基づく特徴抽出プロセス〉
マルチチャネル・コンテンツを生成するために、上方混合器は、ステレオ・コンテンツから直接信号成分および周囲信号成分を推定する。一般に、ステレオからマルチチャネル・コンテンツを導出する上方混合器は、下記の式(1)に従って記述されることができる。
y=Ax (1)
式(1)では、変数xは2×1の列ベクトルを表わし、これは入力LおよびRステレオ・チャネルからの信号成分を表わす。係数AはN×2行列を表わし、これは二つの信号成分を整数N(これは2より大きい)個の出力チャネルにルーティングする。積yはN×1の出力列ベクトルであり、これは上方混合器のN個の出力チャネルの信号成分を表わす。積yはxにおける二つの独立な信号の線形結合を含む。よって、積yの内在的な階数は2を超えない。
図2Aは、本発明のある実施形態に基づく、階数解析に基づく特徴検出のための例示的なプロセス200のフローチャートを描いている。yの階数をその共変行列から推定することにより、N個の出力チャネル信号が低い階数をもつか否かの決定ができる。たとえば、オーディオ・コンテンツの「チャンク」または時間的部分が該時間的部分の継続時間にわたってサンプリングされてもよい。そのオーディオ・コンテンツ・チャンクは、48,000サンプル毎秒(s)などのあるサンプル・レートで離散的にサンプリングされてもよい。よって、10sの継続時間をもつオーディオ・コンテンツのチャンクは〔チャンク長さ〕chunck_length「L」=(10s)×(48サンプル/s)=48,000サンプルに対応し、これからその共変行列が推定されうる。共変行列から階数推定を計算する前に、N個の上方混合器出力チャネルにおける信号が時間的に整列され、LsおよびRsサラウンド・チャネル上での脱相関器の逆が行なわれる。
ステップ201では、出力yにおける信号は、前方(たとえばL、C、R)チャネルとサラウンド(たとえばLs、Rs)チャネルの間に時に導入されることがある時間遅延を除去するために時間的に整列される。たとえば、ドルビー・プロロジック(商標)および他のいくつかの上方混合器は、サラウンド・チャネルLsおよびRsと前方チャネルL、CおよびRとの間に10msくらいの遅延を導入する。ある実施形態は、階数推定を計算する前にこれらの遅延を除去するよう機能する。
ステップ202では、サラウンド・チャネルLsおよびRs上の脱相関器について、それらの間に存在する脱相関器差を斟酌するために逆が行なわれる。たとえば、ドルビー・ブロードキャスト・アップミキサー(商標)はチャネルLsについての第一の脱相関器およびチャネルRsについての、第一の脱相関器とは異なる第二の脱相関器を使う。ある実施形態は、階数推定を計算する前に、サラウンド・チャネルのそれぞれの脱相関器の間の差を斟酌するために、Ls第一の脱相関器の逆関数およびRs第二の脱相関器の逆関数を適用する。
ステップ203では、和が計算される。これは、共変行列の要素を決定する。ある実施形態は、共変行列の(i,j)番目の要素Cov(i,j)を決定するために、下記の式(2)に従って和を計算する。
Cov(i,j)=1/(chunk_length)Σk(yik−μi)(yjk−μj) (2)
式(2)において、変数μiおよびμjはそれぞれチャネルiおよびチャネルjからのサンプル値の平均を表わし、kは1ないし最大chunk_lengthの当該チャンクの諸部分の継続時間の範囲を表わす:k=1,2,…,chunk_length。
ステップ204では、規格化された共変行列CovN=(1/max_cov)*(Cov)が計算される。ここで、max_covはN×Nの共変行列における最大値を表わす。
ステップ205では、このN×NのCovN行列の固有値e1,e2,…,eNが計算される。
ステップ206では、ある実施形態は、階数推定値(rank estimate)特徴が下記の式(3)に従って計算される:
rank_estimate=log10[(1/N−2)(Σkek)/(1/2(e1+e2))] (3)
式(3)において、kはk=3,4,…,Nの範囲である。分子(1/N−2)(Σkek)は3から始まってNまでの固有値における平均エネルギーの測定値を表わす。分母1/2(e1+e2)は、最初の二つの有意な固有値についての平均エネルギーの測定値を表わす。2に等しい階数については、比(1/N−2)(Σkek)/(1/2(e1+e2))は0に等しくなる。この比についての0より大きな値は、階数が2より大きいことを示す。
図2Bは、本発明のある実施形態に基づく例示的な実装に基づく階数推定値の第一の比較250を描いている。分布251は、最初からそのようなものとして生成された(よってステレオ・コンテンツから上方混合されたのでない)離散的な5.1コンテンツ、たとえば5.1コンテンツのもとのインスタンスについての例示的な階数推定値をプロットしている。分布252は、源ステレオ・コンテンツを「音楽」に焦点を合わせた動作モードにおいて処理したドルビー・プロロジックII(商標)(PLII(商標))を使ってステレオ・コンテンツから上方混合された5.1コンテンツについての例示的な階数推定値をプロットしている。比較250は、PLII(商標)上方混合された5.1コンテンツは、10sのコンテンツ・チャンクの99%より多くにわたって0に近い階数推定値を有することを示している。対照的に、比較250は、離散的な5.1コンテンツ階数推定値が、10sのコンテンツ・チャンクの約50%について2を超える値を有することを示している。ある実施形態は、計算された階数推定値特徴を、異なる属性もしくは特性をもつ上方混合器の間の区別をするためにおよび/または上方混合の際の特定の脱相関器の使用を検出するために使う。
たとえば、ある実施形態は、rank_estimate特徴を、ドルビー・プロロジック(商標)上方混合器のような広帯域の動作特性をもつ第一の上方混合器とドルビー・ブロードキャスト・アップミキサー(商標)のようなマルチバンドの動作特性をもつ第二の上方混合器との間の区別をするために使う。プロロジック(商標)のような広帯域の上方混合器を特徴付ける際には、変数yおよびxは、上記の式(1)(y=Ax)において時間領域サンプルを含む。対照的に、ブロードキャスト・アップミキサー(商標)のようなマルチバンド上方混合器は、いずれも式(1)におけるサブバンド・エネルギーを有する変数yおよびxをもって特徴付けられ、式(1)における混合行列係数Aは種々のサブバンドにわたって変わりうる。
ある実施形態は、広帯域およびマルチバンドの上方混合器の間の区別をすることを、それぞれに関連付けられた階数推定値を計算し、比較する処理を用いて行なうよう機能する。第一の階数推定値(rank_estimate_1)は、時間領域サンプルから推定される共変行列から計算される。第二の階数推定値(rank_estimate_2)は、サブバンド・エネルギー値から推定される共変行列から計算される。広帯域上方混合は、rank_estimate_1について計算される値がrank_estimate_2について計算される値に一致する、等しくなるまたはそれをよく近似することをもって検出される。マルチバンド上方混合は、対照的に、rank_estimate_1について計算される値がrank_estimate_2について計算される値を超えるおよび/またはrank_estimate_2について計算される値が階数2に対応する値0により近くに接近するまたはそれを近似することをもって検出される。
もう一つの例として、ある実施形態は、上方混合の際にサラウンド・チャネルLsおよびRsに対して使われた特定の脱相関器を検出するためにrank_estimate特徴を使って機能する。ドルビー・ブロードキャスト・アップミキサー(商標)のようないくつかの上方混合器は、より拡散した音場を提供するために、左サラウンドLs信号および右サラウンドRs信号のそれぞれに対して一対のマッチした、相補的もしくは補足的な脱相関器を使用する。よって、時間領域サンプルから推定される共変行列に基づくrank_estimate_1については、脱相関されたサラウンド・チャネルLsおよびRsが考慮されていないので、階数推定値は2を超える。
ある実施形態は、「正しい」脱相関器、たとえば上方混合の際に使用された脱相関器を使って、サラウンド・チャネルLsおよびRsのそれぞれに対する逆脱相関を実行する。よって、階数推定値は、逆脱相関されたチャネルLsおよびRsの時間領域サンプルに基づいて計算され、これは値2をよりよく近似する階数推定値を達成する。このように、ある実施形態は、サラウンド・チャネルLsおよびRsに対して使用された特定の脱相関器を検出または同定することを:
・時間領域サンプルから推定される共変行列に基づいてrank_estimate_1を計算し;
・左サラウンド・チャネルLsおよび右サラウンド・チャネルRsに対して逆脱相関処理を実行し;
・逆脱相関後の時間領域サンプルから推定される共変行列に基づいてrank_estimate_2を計算することによって行なう。
右チャネルRs脱相関器が逆脱相関のために使用されていれば、rank_estimate_1の値はrank_esimate_2の値を超える。しかしながら、上方混合の際にサラウンド・チャネルに対して脱相関が適用されていなければ、rank_estimate_2がrank_estimate_1を超える。
図2Cは、本発明のある実施形態の例示的な実装に基づく、階数推定値の第二の比較275を描いている。分布276は、逆脱相関を実行する前のドルビー・ブロードキャスト・アップミキサー(商標)についてのrank_estimate_1の分布をプロットしている。分布277は、逆脱相関を実行した後の同じ上方混合器についてのrank_estimate_2の分布をプロットしている。
〈例示的な信号漏れ解析プロセス〉
上方混合器が音源分離を実行するのに典型的には困難があることがある。実際、いくつかの上方混合器は音源を分離することができない。二チャネル・ステレオ入力信号を与えられて、上方混合器は典型的には、主要な音源に属するサブバンド・エネルギーの第一の群と、より周辺的な音に属するサブバンドの第二の群とを推定しようと試みる。この推定は、通例、LとRのステレオ・チャネルの間で帯域ごとに計算される相関値に基づいて実行される。たとえば、ある特定の帯域において相関が高い場合、その帯域は、主要な音源からのエネルギーをもつと想定される。
よって、典型的には、高度に相関した帯域からのエネルギーの小さな割合がLsおよびRsサラウンド・チャネルに向けられる。しかしながら、上方混合器は、典型的には、特定の帯域のエネルギー全部を主要な源または周辺のいずれかに向けることにあまり積極的ではない。よって、主要な信号のすべてのチャネルへの漏れがめずらしくない。ある実施形態は、特定の上方混合器を特徴付け、上方混合されたコンテンツを離散的な5.1コンテンツ(たとえば、最初からそのようなものとして生成、録音などされた5.1コンテンツのもとのインスタンス)から区別するためにそのような漏れを検出する。
上記のように、信号成分漏れ解析は、抽出された特徴を、チャネル間での、オーディオ信号の一つまたは複数の成分の漏れに関するものとして分類することを含む。いくつかの具体的なオーディオ信号成分は典型的には、特定のチャネルまたはチャネル群と関連付けられており、よってそうしたチャネルにおいて見出されることが期待される。たとえばマルチチャネル・オーディオ・コンテンツの離散的なインスタンスでは、それが関連付けられているチャネル以外のチャネルにおいてである。
上記のように、発話に関係した信号成分はしばしばまたは典型的には、当該コンテンツのもとのインスタンスのような離散的なマルチチャネル・オーディオにおいて中央(C)チャネルに関連付けられる。漏れ解析によって、オーディオ・コンテンツから抽出された特徴が前記オーディオ信号のチャネルの少なくとも二つのそれぞれに同時期に(同時に)存在する発話成分に関係することが示される場合、該解析は、そのコンテンツが上方混合されたものであること、たとえばそのコンテンツがその離散的なまたはもとのインスタンス以外を含むことを示しうる。さらに、発話成分が見出される前記少なくとも二つのチャネルのうち一つまたは複数が中央(C)チャネル以外のチャネル、たとえばLおよびRチャネルまたはサラウンドサウンド・チャネルの一つまたは複数を含む。
やはり上記したように、オーディオ信号の発話に関係する成分自身とは対照的に、和声歌唱または合唱のような音楽的な声に関係する信号成分は、典型的には、離散的なマルチチャネル・オーディオ・コンテンツのLおよびRチャネルに集中していることがある。独唱、歌詞、オペラなどといった他の、より発話のような音楽的な声成分はCチャネルにあることがある。信号漏れ解析によって、オーディオ・コンテンツから抽出されたある特徴が、一つまたは複数のチャネル(たとえばLおよびR)に期待される合唱または歌われる声の和声信号成分であってその定位が予期されない(またはたとえば離散的なマルチチャネル・コンテンツにおいて、非典型的な)一つまたは複数の他のチャネル(たとえばLs、RsまたはC)に存在しているものに関係することが示される場合、その解析はやはり、コンテンツが上方混合されたものであることを示しうる。このように、マルチチャネル・オーディオ・コンテンツの離散的なインスタンスが、少なくとも相補的な一対のチャネルにおける音楽的な声成分を含み、信号成分漏れ解析が前記相補的なチャネル対以外の少なくとも一つのチャネルにおける前記音楽的な声に関係する成分を検出または分類することに関係する特徴に対して実行される場合、やはりその解析は、そのコンテンツが上方混合されたものであることを示しうる。
やはり上記したように、やはり発話成分と対照的に、周囲の音、背景音またはその他のシーン音(たとえば意図的なシーン・ノイズを含む)に対応するもののようないくつかの信号成分は、典型的には、離散的なマルチチャネル・コンテンツにおいて一つまたは複数の中心から外れた(たとえば非C;L、R、Lsおよび/またはRs)チャネルに集中していることがありうる。マルチチャネル・オーディオ・コンテンツの離散的なインスタンスが、少なくとも一つの特定のチャネルにおいて周囲のまたはシーンの音またはノイズの一つまたは複数に関係する音響成分の一つまたは複数を含み、信号成分漏れ解析がCチャネルにおけるこれらの音響成分の存在に関係する、オーディオ・コンテンツから抽出される特徴に対して実行される場合、やはりその解析は、そのコンテンツが上方混合されたものであることを示しうる。
ある実施形態は、さまざまな上方混合器が、オーディオ・コンテンツ信号の発話信号または発話に関係する成分の、5.1コンテンツの上方混合されたチャネルへの漏れを引き起こす様子を検出するよう機能する。映画やドラマのような離散的な(たとえばそのようなものとして生成/録音/記憶されたもとのインスタンス)5.1コンテンツについて、対話または独白のような発話に関係する信号成分は通例、中央チャネルに集中しており、一方、音楽、サウンド効果および周囲の音はL、R、LsおよびRsチャネルにミキシングされる。しかしながら、5.1コンテンツの離散的なインスタンスはステレオにダウンミックスされてもよく、次いで、そのダウンミックスされたステレオ・コンテンツは次いでその後、当該5.1コンテンツの別の(たとえばもとのでない、派生的な)インスタンスに上方混合されてもよい。
離散的な5.1コンテンツがステレオに下方混合され、該ステレオ・コンテンツがその後派生的な5.1コンテンツに上方混合されるとき、派生的なコンテンツは、一つまたは複数の特性的な特徴において、もとの、離散的な5.1コンテンツとは異なることがある。たとえば、離散的な5.1コンテンツに対して、その後上方混合された派生的な5.1コンテンツにおける発話に関係する成分は、シフトしているように、あるいは他の(たとえば非Cの)チャネルに漏れているように思える。よって、解析されるときまたは映画館サウンドトラックにおいて聞かれるとき、チャネルを上方混合する際に(たとえばもとのまたは離散的なインスタンスの5.1コンテンツにおける)CチャネルからL、R、Lsおよび/またはRsの一つまたは複数に漏れた上方混合された5.1コンテンツにおける発話に関係する成分は、音響的に、みかけの話者と空間的に整列した音源から発しないことがありうる。そのような漏れの検出は、一般に、上方混合されたコンテンツを検出するおよび/または上方混合された5.1コンテンツを5.1コンテンツの離散的なまたはもとのインスタンスから区別することができ、より特定的に、ステレオを上方混合された5.1コンテンツ・インスタンスに上方混合した上方混合器を同定することができる。
ある実施形態は、種々の上方混合器の機能が、複合(たとえば発話/非発話が混合した)オーディオ信号における発話信号または発話に関係する信号を、上方混合されたチャネルに漏れさせる仕方を解析するよう機能する。映画および/またはドラマのもとの5.1インスタンスのような離散的な5.1コンテンツにおいては、対話および他の発話および発話に関係する成分は、通例、中央チャネルCチャネルに定位され、一方、音楽、他のオーディオ・コンテンツ成分および効果は他のチャネルL、R、LsおよびRsにミキシングされる。しかしながら、離散的な5.1コンテンツがステレオにダウンミックスされ、プロロジック(商標)または放送上方混合器のような上方混合器を使って上方混合される場合は、もともと中央チャネルCに存在する発話があるとき、結果として得られる上方混合されたコンテンツはL、R、LsおよびRsに漏れている発話をもつ。
図3は、本発明のある実施形態に基づいて発話漏れ特徴を計算するための例示的なプロセス300を描いている。ステップ301では、中央チャネルCにおけるオーディオ・コンテンツが分類される。ステップ302では、Cチャネル・オーディオ・コンテンツの分類に基づいて、speech_in_center〔中央の発話〕値が計算される;より具体的には、発話または発話に関係する成分を含むCチャネル・コンテンツの部分である。ステップ303では、LおよびR(および/またはLsおよびRs)チャネルのそれぞれにおけるオーディオ・コンテンツが分類される。
ステップ304では、チャネルLおよび/またはR(および/またはLsおよび/またはRs)において検出される発話コンテンツも存在するときにチャネルCにおいて発話が存在する時間の割合を表わす「speech_intersection」〔発話の交わり〕値が、チャネルLおよびR(および/またはLsおよびRs)の分類およびチャネルCの分類に基づいて計算される。ここで、speech_intersectionは。ステップ305では、発話漏れ特徴(たとえばspeech_leakage)が、speech_intersection/speech_in_centerの比として計算される。
離散的な5.1コンテンツの発話成分は、そのチャネルCにおいて見出される。よって、離散的な5.1コンテンツの発話漏れ特徴は0に等しい(たとえば意図的にチャネルCから離れて加えられる発話がまれに生起することを除いて)。対照的に、常に発話漏れが存在する上方混合された5.1コンテンツは、漏れ比1をもち、若干の発話漏れをもつ上方混合されたコンテンツは1より小さな0でない比をもつ。ステップ306では、ある実施形態はさらに、チャネルLおよびR(および/またはLsおよびRs)における発話成分に関係するまたは他のエネルギー・レベルの、チャネルCのエネルギー・レベルに対する比を計算してもよい。
図4は、さまざまなマルチチャネル・コンテンツ例からの信号エネルギー漏れのプロット40を描いている。プロット40は、さまざまな上方混合器を用いて生成された種々の例示的なマルチチャネル・クリップおよび離散的な5.1コンテンツの例から計算された、二つの発話漏れ特徴の散布図である。縦軸は、発話漏れ比speech_intersection/speech_in_centerから計算される割合としてのエネルギー・レベルを、横軸上で目盛られるデシベル(dB)単位での漏れの際のチャネルLエネルギー・レベルの関数として、目盛っている。
例示的なプロット項目41は、離散的な5.1コンテンツを表わしており、これは上方混合されたコンテンツに比較して、最も低い漏れ割合を示している。例示的なプロット項目42は、ドルビー・ブロードキャスト・アップミキサー(商標)のような放送上方混合器を用いて生成される上方混合されたコンテンツに対応する。放送上方混合器から上方混合されるコンテンツについての発話漏れ割合プロット項目42は、一般に、0.9より大きく、音楽モードでのプロロジックII(商標)上方混合器についての漏れを表わす例示的なプロット項目43のエネルギー・レベルを超える。
これは、放送上方混合器が典型的に動作する仕方と整合する。たとえば、放送上方混合器は、より広いスイートスポットのために中央において安定した音像を提供するよう、中央チャネルCのコンテンツをLおよびRチャネルにリークするよう設計されることがある。対照的に、発話漏れレベルおよび割合は、プロット項目44で表わされるプロロジックI(商標)上方混合されたコンテンツについては、より小さい。この振る舞いは、LおよびRチャネルに漏れる発話に関係する信号成分の低いレベルに起因する、発話分類器のより高い誤分類レートから帰結する。
ある実施形態は、漏れ特徴を、他のオーディオ分類ラベルにも基づいて計算する。たとえば、歌っている声が上方混合された音楽コンテンツについてのL/Rチャネルに漏れる割合が計算されてもよい。階数推定のために共変行列を計算する前にオーディオ信号が時間的に正確に整列される必要がある階数解析特徴とは対照的に、ある実施形態は、30ms程度を越えないチャネル間の時間的不整列に敏感でない漏れ解析特徴を計算する。
〈サラウンド・チャネルと参照チャネルとの間の例示的な伝達関数推定〉
ある種の上方混合器(たとえばドルビー・プロロジック(商標))は、まず、ステレオ・コンテンツからサラウンド・チャネルを導出するための信号を推定するための参照チャネルを導出する。これらの上方混合器は、低域通過フィルタリングまたはシェルフ・フィルタリングを参照チャネルに対して適用して、サラウンド・チャネル信号を導出する。たとえば、プロロジック(商標)上方混合器におけるサラウンド・チャネルのための参照信号はmLin−nRinを含み、ここで、mおよびnは正の値を含み、LinおよびRinは入力の左および右のチャネル信号を含む。次いで、そこからサラウンド・チャネルに漏れうる高周波コンテンツを抑制するために、低域通過フィルタ(たとえば7kHz)またはシェルフ・フィルタが適用されてもよい。図5のAおよびBは、それぞれ、例示的な低域通過フィルタ応答51およびシェルフ・フィルタ周波数応答52を描いている。
フィルタ伝達関数を推定するために、サラウンド・チャネルを生成するために使われた参照チャネルがまず推定される。上方混合されたマルチチャネル・コンテンツが与えられて、参照チャネルはL−Rとして推定される。ここで、LおよびRはマルチチャネル・コンテンツの左および右のチャネルを指す。サラウンド・チャネルLsおよびRsへのアクセスを用いて、伝達関数は下記の式(4)に基づいて推定される。
Test=P(l-r)Ls/P(l-r)(l-r) (4)
式(4)において、P(l-r)Lsは、参照チャネル(入力)とサラウンド・チャネル(出力)との間の相互パワースペクトル密度(cross power spectral density)を表わし、P(l-r)(l-r)は参照チャネル(入力)のパワースペクトル密度を表わす。伝達関数Testは、最小平均二乗(LMS)アルゴリズムを使って推定されてもよい。推定された伝達関数Testは次いで、フィルタ応答51および/またはフィルタ応答52のようなテンプレート伝達関数と比較される。
〈チャネル対の間の例示的な時間遅延関係〉
プロロジック(商標)のような上方混合器は、サラウンド・チャネルを前方チャネルから脱相関させるよう、前方チャネルとサラウンド・チャネルとの間の時間遅延を導入することがある。ある実施形態は、一対のチャネル間の時間遅延を推定するよう機能し、それに基づいて特徴が導出できる。下記の表1は、L/R信号に対する前方/サラウンド・チャネル時間遅延オフセット(ms単位)についての情報を与える。
Figure 2015534116
図6は、一対のオーディオ・チャネルX1およびX2の間の例示的な時間遅延推定600を描いている。時間遅延推定600では、X1は前方L/Rチャネルを表わし、X2はLs/Rsサラウンド・チャネルを表わす。各信号はN個のオーディオ・サンプルのフレームに分割され、各フレームはiによってインデックス付けされる。フレームiに対応する二つの信号からのN個のオーディオ・サンプルを与えられて、下記の式(5)のように種々のシフト(w)について相関シーケンスCiが計算される。
Ci(w)=Sum(X1,i(n),X2,i(n+w)) (5)
式(5)において、nは−Nから+Nまで変わり、wは1きざみで−Nから+Nまで変わる。X1,iとX2,iの間の時間遅延推定値は、相関シーケンスが最大値をもつシフトwである:
Ai=argmax(Ci)。
時間遅延推定は、オーディオ・サンプルの全フレームについてのL/RとLs/Rsとの間の時間遅延の推定を許容する。最も頻繁な推定された時間遅延値が10msであれば、観察された5.1チャネル・コンテンツは、「映画」/「ゲーム」モードにおいてプロロジック(商標)またはプロロジックII(商標)によって生成された可能性が高い。同様に、L/RとCとの間の最も頻繁な推定された時間遅延値が2mであれば、観察された5.1チャネル・コンテンツは、「音楽」モードにおいてプロロジックII(商標)によって生成された可能性が高い。
〈チャネル対間の例示的な位相関係〉
プロロジックII(商標)のようないくつかの上方混合器は、出力サラウンド・チャネルの間の位相関係を導入することがある。たとえば、プロロジックIIの「映画」モードではLsチャネルはRsチャネルと同位相であるが、プロロジックIIの「音楽」モードではこれら二つのチャネルは180度位相がずれている。映画モードでは、サラウンド・チャネルが同位相なのは、コンテンツ・クリエーターが、音響的に空間的な意味において、聴取者の背後にオブジェクトを定位させることを許容するためである。対照的に、音楽モードでは、位相がずれたサラウンド・チャネルはより大きな広がりを提供する。ある実施形態は、サラウンド・チャネル間の位相関係を捕捉する特徴を導出し、それにより、コンテンツを上方混合するのに使われた動作のモードを検出するよう機能する。図7および図8は、二つのそれぞれの動作モードにおける例示的な上方混合器についての相関値分布700および800を描いている。
さまざまなマルチチャネル・オーディオ・コンテンツを解析し、それから抽出される特徴にラベル付けすることによって、トレーニング・データのセットが導出される。ラベル付けされたトレーニング・データ・セットが集積されるもとになるマルチチャネル・コンテンツは、ある種の上方混合器、関係する上方混合器の特定の群およびマルチチャネル・コンテンツの離散的な(たとえばもとのオーディオまたは他の源からのような)インスタンスから導出される。機械学習プロセスは、一組の比較的弱い分類器の決定を組み合わせて、より強い分類器に到達する。これらの手がかりのそれぞれは、弱い分類器のための特徴として扱われる。
たとえば、ある実施形態は、トレーニング・データ・セットについての候補マルチチャネル・コンテンツ・セグメントを、単に、その候補セグメントについて計算されるサラウンド・チャネル間の位相関係に基づいて、プロロジックII(商標)上方混合器から導出されたものと分類しうる。たとえば、LsとRsとの間の相関が事前設定された閾値より大きいと判定される場合、その候補セグメントは、プロロジックIIから、その映画および/または音楽モードにおいて導出されたと分類されてもよい。そのような分類器は、決定株をなす。
決定株は、ある精度レベル(たとえば0.9)を超える分類精度をもつことが期待されうる。所与の分類器の精度(たとえば0.5)がその所望される精度を満たさない場合、ある実施形態は、その弱い分類器を一つまたは複数の他の弱い分類器と組み合わせて、上記期待を満たすまたは超える精度をもつ、より強い分類器を得る。ある実施形態では、強い分類器は、少なくとも上記期待される精度をもつ。
期待される精度が到達されるまたは超過されるとき、ある実施形態は、法科学的上方混合器検出に関係する処理関数において使うために、最終的な強い分類器を記憶する。さらに、該最終的な強い分類器を学習する間に、Adaboostアプリケーションは、各弱い分類器の相対的な重要さ、よって異なる、さまざまな手がかりの相対的な重要さをも決定する。
ある実施形態では、機械学習フレームワークは、M個のセグメントをもつトレーニング・データの所与のセットに対して機能する。(Mは正の整数。)M個のセグメントは、特定の「目標」上方混合器を用いて生成されたマルチチャネル・コンテンツから導出された、例となるセグメントを含む。M個のセグメントは、目標以外の上方混合器からおよび離散的なマルチチャネル・コンテンツ、たとえばそのもとのインスタンスから導出される、例となるセグメントをも含む。トレーニング・データ中の各セグメントは、N個の特徴を用いて表現される。(Nは正の整数。)該N個の特徴は、階数解析、信号漏れ解析、伝達関数推定、チャネル間時間遅延(または変位)または位相関係などを含む上記のさまざまな特徴に基づいて導出される。
セグメントiから導出される特徴ベクトルは、N次元特徴ベクトルXiとして表現される。ここで、i=1,2,…,Mである。ラベルYiが各セグメントに関連付けられて、そのセグメントが特定の上方混合器を使って導出されたか(たとえばプロロジックIIについてYi=+1)、あるいは別の上方混合器から導出されたか(たとえばYi=−1)を示す。弱い分類器htが定義される。ここで、t=1,2,…,Tである。ht弱い分類器のそれぞれは、入力特徴ベクトル(Xi)をラベル(Yi,t)にマッピングする。弱い分類器(ht)によって予測されるラベルYi,tは、M個のトレーニング・インスタンスのうち少なくとも50%より多くで、正しい、真実のラベルYiにマッチする(よって、期待される精度0.5をもつ)。
トレーニング・データを与えられて、Adaboostまたは他の機械学習アルゴリズムは、T個のそのような弱い分類器を選択し、重みαtの集合を学習する。該集合の各要素は弱い分類器のそれぞれに対応する。ある実施形態は、下記の式(6)に基づいて強い分類器H(x)を計算する。
Figure 2015534116
機械学習アルゴリズムがAdaboostを含むある実施形態は、下記の表2および/または表3に示される特徴および対応する特徴インデックス(idx)のリストを用いて実装されてもよい。
Figure 2015534116

Figure 2015534116
表3:さまざまな源からのマルチチャネル・コンテンツを検出するためのモデルをトレーニングするAdaBoostフレームワークにおいて使われる特徴の例示的なリスト
1. rank_est: オーディオ・チャンクから計算される共変行列からの階数推定値
2. phase-rel: LsとRsの間の相関
3. mean_align_l-r_ls: L-RとLsの間の時間遅延推定値の平均
4. var_align_l-r_ls: L-RとLsの間の時間遅延推定値の分散
5. most_frequent l-r_ls: L-RとLsの間の最頻の時間遅延推定値
6. mean_align_l-r_rs: L-RとRsの間の時間遅延推定値の平均
7. var_align_l-r_rs: L-RとRsの間の時間遅延推定値の分散
8. most_frequent l-r_rs: L-RとRsの間の最頻の時間遅延推定値
9. mean_align_l_c: LとCの間の時間遅延推定値の平均
10. var_align_l_c: LとCの間の時間遅延推定値の分散
11. most_frequent l_c: LとCの間の最頻の時間遅延推定値
12. rank_est_aft_invdecorr: 逆脱相関後の階数推定値
13. phase-rel_aft_invdecorr: 逆脱相関後のLsとRsの間の相関
14. mean_align_l-r_ls_aft_invdecorr: 逆脱相関後のL-RとLsの間の時間遅延推定値の平均
15. var_align_l-r_ls_aft_invdecorr: 逆脱相関後のL-RとLsの間の時間遅延推定値の分散
16. most_frequent l-r_ls_aft_invdecorr: 逆脱相関後のL-RとLsの間の最頻の時間遅延推定値
17. mean_align_l-r_rs_aft_invdecorr: 逆脱相関後のL-RとRsの間の時間遅延推定値の平均
18. var_align_l-r_rs_aft_invdecorr: 逆脱相関後のL-RとRsの間の時間遅延推定値の分散
19. most_frequent l-r_rs_aft_invdecorr: 逆脱相関後のL-RとRsの間の最頻の時間遅延推定値
20. mean_align_l_c_aft_invdecorr: 逆脱相関後のLとCの間の時間遅延推定値の平均
21. var_align_l_c_aft_invdecorr: 逆脱相関後のLとCの間の時間遅延推定値の分散
22. most_frequent l_c_aft_invdecorr: 逆脱相関後のLとCの間の最頻の時間遅延推定値
23. leakage_to_left: 中央(C)から左(L)への発話の漏れ
24. leakage_to_right: 中央(C)から左(R)への発話の漏れ
25. mean_egy_ratio(left to center): 左と中央の間のエネルギー比
26. mean_corr_shelf_template: 伝達関数推定特徴(相関に関するシェルフ・フィルタ・テンプレートとの比較)
27. mean_corr_emulation_template: 伝達関数推定特徴(相関に関する7kHzフィルタ・テンプレートとの比較)
28. mean_euc_dist_shelf_template: 伝達関数推定特徴(ユークリッド距離に関するシェルフ・フィルタ・テンプレートとの比較)
29. mean_euc_dist_emulation_template: 伝達関数推定特徴(ユークリッド距離に関する7kHzフィルタ・テンプレートとの比較)
30. rank_est-rank_est_aft_invdecorr(1-12): 逆脱相関後の階数推定値における変化
31. var_align_l-r_ls-var_align_l-r_ls_aft_invdecorr(4-15): 逆脱相関後のL-RとLsの間の時間遅延推定値の分散における変化
32. var_align_l-r_rs-var_align_l-r_rs_aft_invdecorr(7-18): 逆脱相関後のL-RとRsの間の時間遅延推定値の分散における変化
33. var_align_l_c-var_align_l_c_aft_invdecorr(10-21): 逆脱相関後のLとCの間の時間遅延推定値の分散における変化
34. mean_align_l_ls: LとLsの間の時間遅延推定値の平均
35. var_align_l_ls: LとLsの間の時間遅延推定値の分散
36. most_frequent l_ls: LとLsの間の最頻の時間遅延推定値
37. mean_align_r_rs: RとRsの間の時間遅延推定値の平均
38. var_align_r_rs: RとRsの間の時間遅延推定値の分散
39. most_frequent r_rs: RとRsの間の最頻の時間遅延推定値
40. mean_align_l_ls_aftinvdecorr: 逆脱相関後のLとLsの間の時間遅延推定値の平均
41. var_align_l_ls_aftinvdecorr: 逆脱相関後のLとLsの間の時間遅延推定値の分散
42. most_frequent l_ls_aftinvdecorr: 逆脱相関後のLとLsの間の最頻の時間遅延推定値
43. mean_align_r_rs_aftinvdecorr: 逆脱相関後のRとRsの間の時間遅延推定値の平均
44. var_align_r_rs_aftinvdecorr: 逆脱相関後のRとRsの間の時間遅延推定値の分散
45. most_frequent r_rs_aftinvdecorr: 逆脱相関後のRとRsの間の最頻の時間遅延推定値
46. var_align_l_ls-var_align_l_ls_aftinvdecorr(35-41): 逆脱相関後のLとLsの間の時間遅延推定値の分散の変化
47. var_align_r_rs-var_align_r_rs_aftinvdecorr(38-44): 逆脱相関後のRとRsの間の時間遅延推定値の分散の変化
48. measure of CWC(corr_mat(1,2)+corr(2,3))*0.5: L,CとRの間の平均相関、すなわち0.5(corr(L,C)+corr(R,C))。これは、中央幅制御(CWC: Center Width Control)設定のインジケーターである。すなわち、中央信号がLおよびRに加えられる場合、この特徴値が大きくなると期待される。
49. measure of CWC(corr_mat(4,1)) (L and Ls corr): LとLsの間の相関
50. measure of CWC(corr_mat(5,3)) (R and Rs corr): RとRsの間の相関
51. measure of CWC(49+abs(50))*0.5/48: (Corr(L,Ls)+Corr(R,Rs))*0.5/Corr(L,Ls)+Corr(R,Rs))*0.5 中央幅制御(CWC)設定のもう一つの指標
52. relativeegy to center (left): db単位での中央チャネルに比べた左チャネルの相対エネルギー
53. relativeegy to center (right) : db単位での中央チャネルに比べた右チャネルの相対エネルギー
54. relativeegy to center (ls): db単位での中央チャネルに比べたLsチャネルの相対エネルギー
55. relativeegy to center (rs): db単位での中央チャネルに比べたRsチャネルの相対エネルギー。
〈例示的なコンピュータ・システム実装〉
本発明の実施形態は、コンピュータ・システム、電子回路およびコンポーネントにおいて構成されたシステム、マイクロコントローラ、フィールド・プログラム可能なゲート・アレイ(FPGA)または他の構成設定可能もしくはプログラム可能な論理デバイス(PLD)、離散時間またはデジタル信号プロセッサ(DSP)、特定用途向けIC(ASIC)のような集積回路(IC)装置および/またはそのようなシステム、デバイスまたはコンポーネントの一つまたは複数を含む装置を用いて実装されてもよい。コンピュータおよび/またはICは、本稿に記載したようなメディア処理履歴の法科学的検出に基づく適応的なオーディオ処理に関する命令を実行、制御または執行してもよい。コンピュータおよび/またはICは、たとえば本稿に記載したような、コンテンツの解析に基づく、マルチチャネル・オーディオ・コンテンツにおける上方混合の法科学的な検出に関する多様なパラメータまたは値の任意のものを計算してもよい。コンテンツの解析に基づくマルチチャネル・オーディオ・コンテンツにおける上方混合の法科学的検出の実施形態はハードウェア、ソフトウェア、ファームウェアおよびそれらのさまざまな組み合わせにおいて実装されうる。
図9は、本発明の実施形態が実装されうる例示的なコンピュータ・システム・プラットフォーム900を描いている。コンピュータ・システム900は、バス902または情報を通信するための他の通信機構と、情報を処理するためのバス902に結合されたプロセッサ904とを含む。コンピュータ・システム900はまた、ランダム・アクセス・メモリ(RAM)または他の動的記憶デバイスのような、バス902に結合された、情報およびプロセッサ904によって実行される命令を記憶するためのメイン・メモリ906をも含む。メイン・メモリ906はまた、プロセッサ904によって実行される命令の実行中に一次変数または他の中間的な情報を記憶するためにも使われてもよい。
コンピュータ・システム900はさらに、バス902に結合された、静的な情報およびプロセッサ904のための命令を記憶するための読み出し専用メモリ(ROM)908または他の静的記憶装置を含む。磁気ディスクまたは光ディスクのような記憶装置910が提供され、情報および命令を記憶するためにバス902に結合される。プロセッサ904は、一つまたは複数のデジタル信号処理(DSP)機能を実行してもよい。追加的または代替的に、DSP機能は別のプロセッサまたはエンティティ(ここではプロセッサ904で表わされる)によって実行されてもよい。
コンピュータ・システム900は、コンピュータ・ユーザーに対して情報を表示するための、液晶ディスプレイ(LCD)、陰極線管(CRT)、プラズマ・ディスプレイなどのようなディスプレイ912にバス902を介して結合されていてもよい。LCDは、デュアル変調またはN変調および/または発光ダイオードのアレイを含むバックライト・ユニットを用いるような、HDR/VDRおよび/またはWCG機能のあるLCDを含んでいてもよい。英数字その他のキーを含む入力装置914が、情報およびコマンド選択をプロセッサ904に伝えるためにバス902に結合される。もう一つの型のユーザー入力装置は、触知機能のある「タッチスクリーン」GUIディスプレイまたは方向情報およびコマンド選択をプロセッサ904に伝えるとともにディスプレイ912上でのカーソル動きを制御するための、マウス、トラックボールまたはカーソル方向キーのような、カーソル・コントロール916である。そのような入力装置は典型的には、第一軸(たとえばx、水平)および第二軸(たとえばy、垂直)の二つの軸方向において二つの自由度をもち、これにより該装置は平面内での位置を指定できる。
本発明の実施形態は、コンテンツの解析に基づいてマルチチャネル・オーディオ・コンテンツにおける上方混合の法科学的な検出をするためのコンピュータ・システム900の使用に関する。本発明のある実施形態によれば、オーディオ信号がアクセスされる。該オーディオ信号は、二つ以上の個別のチャネルをもち、処理動作によって生成される。オーディオ信号は、それぞれの処理動作から帰結する一つまたは複数のセットの属性をもって特徴付けられる。アクセスされたオーディオ信号から抽出される特徴はそれぞれ上記属性セットに対応する。抽出された特徴の解析に基づいて、上記処理動作が、マルチチャネル・オーディオ・ファイルにおける上記個々のチャネルを導出するために使われた上方混合を含んでいるかどうかが判定される。この判定は、アクセスされたオーディオ信号を生成した特定の上方混合器の同定を許容する。上方混合判定は、オフラインのトレーニング・セットに基づいて計算されてもよい統計的な学習モデルに基づいて、上記抽出された特徴についてのスコアを計算することを含む。この特徴は、プロセッサ904がメイン・メモリ906に含まれる一つまたは複数の命令の一つまたは複数のシーケンスを実行するのに応答して機能するコンピュータ・システム900を用いて提供される、制御される、可能にされるまたは許容される。
そのような命令は、記憶装置910のような別のコンピュータ可読媒体からメイン・メモリ906に読み込まれてもよい。メイン・メモリ906に含まれる命令のシーケンスの実行は、コンピュータ904に、本稿に記載されるプロセス段階を実行させる。マルチプロセシング構成における一つまたは複数のプロセッサが、メイン・メモリ906に含まれる命令のシーケンスを実行するために用いられてもよい。代替的な実施形態では、本発明を実装するためのソフトウェア命令の代わりにまたは該ソフトウェア命令と組み合わせて、固定結線の回路が使用されてもよい。このように、本発明の実施形態は、ハードウェア、回路、ファームウェアおよび/またはソフトウェアのいかなる特定の組み合わせにも限定されない。
本稿で用いられる用語「コンピュータ可読媒体」、「コンピュータ可読記憶媒体」および/または「非一時的なコンピュータ可読記憶媒体」は、実行のためにプロセッサ904に命令を提供することに参加する任意の有体の、非一時的な媒体を指しうる。そのような媒体は、不揮発性媒体、揮発性媒体および伝送媒体を含むがこれに限られない多くの形を取りうる。不揮発性媒体は、たとえば、記憶装置910のような光学式または磁気ディスクを含む。揮発性媒体は、メイン・メモリ906のような動的メモリを含む。伝送媒体は同軸ケーブル、銅線および他の導体ならびに光ファイバーを含み、バス902をなすワイヤを含む。伝送媒体は、光学、紫外および/または他の周波数で動作しうる電波、マイクロ波、赤外線およびその他の光学式データ通信の際に生成されるような音響波(たとえば音波、ソニック波、超音波)または電磁波(たとえば光波)の形を取ることもできる。
コンピュータ可読媒体の一般的な形は、たとえば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープまたは他の任意の磁気媒体、CD-ROM、他の任意の光学式媒体、パンチカード、紙テープ、孔のパターンをもつ任意の他のレガシーもしくは他の物理的媒体、RAM、PROMおよびEPROM、フラッシュEPROM、他の任意のメモリ・チップまたはカートリッジ、後述する搬送波またはコンピュータが読み取ることができる他の任意の媒体を含む。
さまざまな形のコンピュータ可読媒体が、一つまたは複数の命令の一つまたは複数のシーケンスを実行のためにプロセッサ904に搬送するのに関与しうる。たとえば、命令は最初、リモート・コンピュータの磁気ディスク上に担持されていてもよい。リモート・コンピュータは該命令をその動的メモリにロードし、該命令をモデムを使って電話線を通じて送ることができる。コンピュータ・システム900にローカルなモデムが、電話線上のデータを受信し、赤外線送信器を使ってそのデータを赤外線信号に変換することができる。バス902に結合された赤外線検出器が赤外線信号において担持されるデータを受信し、そのデータをバス902上に載せることができる。バス902はそのデータをメイン・メモリ906に搬送し、メイン・メモリ906から、プロセッサ904が命令を取り出し、実行する。メイン・メモリ906によって受信される命令は、任意的に、プロセッサ904による実行の前または後に記憶装置910上に記憶されてもよい。
コンピュータ・システム900は、バス902に結合された通信インターフェース918をも含む。通信インターフェース918は、ローカル・ネットワーク922に接続されているネットワーク・リンク920への双方向データ通信結合を提供する。たとえば、通信インターフェース918は、対応する型の電話線へのデータ通信接続を提供するための、統合サービス・デジタル通信網(ISDN)カードまたはデジタル加入者線(DSL)、ケーブルまたは他のモデムであってもよい。もう一つの例として、通信インターフェース918は、互換LANへのデータ通信接続を提供するためのローカル・エリア・ネットワーク(LAN)カードであってもよい。無線リンクも実装されてもよい。そのようないかなる実装でも、通信インターフェース918は、さまざまな型の情報を表すデジタル・データ・ストリームを搬送する電気的、電磁的または光学的信号を送受信する。
ネットワーク・リンク920は典型的には、一つまたは複数のネットワークを通じた他のデータ装置へのデータ通信を提供する。たとえば、ネットワーク・リンク920は、ローカル・ネットワーク922を通じてホスト・コンピュータ924またはインターネット・サービス・プロバイダー(ISP)(または電話交換会社)926によって運営されているデータ設備への接続を提供してもよい。ある実施形態では、ローカル・ネットワーク922は、エンコーダおよび/またはデコーダが機能する際の通信媒体を含んでいてもよい。ISP 926のほうは、現在一般に「インターネット」928と称される世界規模のパケット・データ通信網を通じたデータ通信サービスを提供する。ローカル・ネットワーク922およびインターネット928はいずれも、デジタル・データ・ストリームを担持する電気的、電磁的または光学的信号を使う。コンピュータ・システム900に/からデジタル・データを搬送する、さまざまなネットワークを通じた信号およびネットワーク・リンク920上および通信インターフェース918を通じた信号は、情報を転送する搬送波の例示的な形である。
コンピュータ・システム900は、ネットワーク(単数または複数)、ネットワーク・リンク920および通信インターフェース918を通じて、メッセージを送り、プログラム・コードを含めデータを受信することができる。
インターネットの例では、サーバー930は、インターネット928、ISP 926、ローカル・ネットワーク922および通信インターフェース918を通じてアプリケーション・プログラムのための要求されたコードを送信してもよい。本発明のある実施形態では、一つのそのようなダウンロードされたアプリケーションが、本稿に記載されるような、コンテンツの解析に基づく、マルチチャネル・オーディオ・コンテンツにおける上方混合の法科学的な検出のための備えをする。
受信されたコードは、受信される際にプロセッサ904によって実行されても、および/または、のちの実行のために記憶装置910または他の不揮発性記憶に記憶されてもよい。このように、コンピュータ・システム900は、搬送波の形でアプリケーション・コードを取得してもよい。
〈例示的なICデバイス・プラットフォーム〉
図10は、本発明のある実施形態が、本稿に記載されるような、コンテンツの解析に基づく、マルチチャネル・オーディオ・コンテンツにおける上方混合の法科学的な検出のために実装されうる例示的なICデバイス1000を描いている。ICデバイス1000は、エンコーダおよび/またはデコーダ装置のコンポーネントをなしていて、該コンポーネントが本稿に記載される向上に関係して機能するのでもよい。追加的または代替的に、ICデバイス1000は、表示管理、生産施設、インターネットもしくは電話網もしくは他のネットワークに付随する、上記エンコーダおよび/またはデコーダが機能する際に用いるエンティティ、装置もしくはシステムのコンポーネントをなしていて、該コンポーネントが本稿に記載される向上に関係して機能するのでもよい。
ICデバイス1000は、入出力(I/O)部1001を有していてもよい。I/O部1001は入力信号を受領し、該入力信号を、記憶1003とともに機能する中央処理ユニット(CPU)1002に、ルーティング・ファブリック1005を介してルーティングする。I/O部1001は、ICデバイス1000の他のコンポーネント部から出力信号をも受領し、ルーティング・ファブリック1005を通じて信号フローの一部を制御してもよい。デジタル信号処理(DSP)部1004は、離散時間信号処理に関する一つまたは複数の機能を実行する。インターフェース1005は、外部信号にアクセスしてそれをI/O部1001にルーティングし、ICデバイス1000が出力信号をエクスポートできるようにする。ルーティング・ファブリック1005は、信号および電力を、ICデバイス1000のさまざまなコンポーネント部の間でルーティングする。
能動要素1011は、ICデバイス1000の専用のまたはより一般化された機能を実行しうる論理ゲートのアレイのような、構成可能および/またはプログラム可能な処理要素(CPPE: configurable and/or programmable processing elements)を有していてもよい。該機能は、ある実施形態では、メディア処理履歴の法科学的な検出に基づく適応オーディオ処理に関係していてもよい。追加的または代替的に、能動要素1011は、事前配列された(たとえば、特別に設計された、配列された、レイアウトされた、光リソグラフ的にエッチングされたおよび/または電気的もしくは電気的に相互接続およびゲーティングされた)電界効果トランジスタ(FET)またはバイローラ論理デバイスを有していてもよい。ここでたとえば、ICデバイス1000はASICをなす。記憶1002は、CPPE(または他の能動要素)1001が効率的に機能するために十分なメモリ・セルをあてがう。CPPE(または他の能動要素)1015は一つまたは複数の専用のDSP部1025を含んでいてもよい。
このように、ある例示的な実施形態は、オーディオ信号にアクセスすることに関する。該オーディオ信号は二つ以上の個別のチャネルをもち、処理動作を用いて生成される。オーディオ信号は、それぞれの処理動作から帰結する一つまたは複数のセットの属性をもって特徴付けられる。アクセスされたオーディオ信号から抽出される特徴はそれぞれ上記属性セットに対応する。抽出された特徴の解析に基づいて、上記処理動作が、マルチチャネル・オーディオ・ファイルにおける上記個々のチャネルを導出するために使われた上方混合を含んでいるかどうかが判定される。この判定は、アクセスされたオーディオ信号を生成した特定の上方混合器の同定を許容する。上方混合判定は、オフラインのトレーニング・セットに基づいて計算されてもよい統計的な学習モデルに基づいて、上記抽出された特徴についてのスコアを計算することを含む。
〈等価物、拡張、代替その他〉
コンテンツの解析に基づくマルチチャネル・オーディオ・コンテンツにおける上方混合の法科学的な検出に関する例示的な諸実施形態がこのように記載されている。以上の明細書では、本発明の諸実施形態について、実装によって変わりうる数多くの個別的詳細に言及しつつ述べてきた。このように、何が本発明であるか、何が出願人によって本発明であると意図されているかの唯一にして排他的な指標は、この出願に対して付与される特許の請求項の、その後の訂正があればそれも含めてかかる請求項が特許された特定の形のものである。かかる請求項に含まれる用語について本稿で明示的に記載される定義があったとすればそれは請求項において使用される当該用語の意味を支配する。よって、請求項に明示的に記載されていない限定、要素、属性、特徴、利点もしくは特性は、いかなる仕方であれかかる請求項の範囲を限定すべきではない。よって、明細書および図面は制約する意味ではなく例示的な意味で見なされるべきものである。

Claims (23)

  1. 二つ以上の個別のチャネルを有するオーディオ信号にアクセスするまたは該オーディオ信号を受領する段階と;
    アクセスされたオーディオ信号から一つまたは複数の特徴を抽出する段階と;
    抽出された特徴に基づいて、前記オーディオ信号が、アクセスされたまたは受領されたオーディオ信号より少数のチャネルをもつオーディオ・コンテンツから上方混合されたものであるかどうかを判定する段階とを含む、
    方法。
  2. 前記判定が、特定の上方混合器が前記アクセスされたオーディオ信号を生成したことを同定することを含む、請求項1記載の方法。
  3. 前記上方混合判定が、統計的学習モデルに基づいて前記抽出された特徴についてのスコアを計算することを含む、請求項1記載の方法。
  4. 前記統計的学習モデルが、オフライン・トレーニング・セットに基づいて計算される、請求項3記載の方法。
  5. 前記統計的学習モデルが:
    ・適応ブースト(AdaBoost)アルゴリズム;
    ・ガウシアン混合モデル(GMM);
    ・サポートベクターマシン(SVM);または
    ・機械学習プロセス
    のうちの一つまたは複数を含む、請求項3記載の方法。
  6. 前記抽出された特徴がさらに:
    前記アクセスされたオーディオ信号の階数解析;
    前記アクセスされたオーディオ信号の前記二つ以上のチャネル上の信号の少なくとも一つの成分の漏れの解析;
    前記二つ以上のチャネルの少なくとも一対の間の伝達関数の推定;
    前記二つ以上のチャネルの少なくとも一対の間の位相関係の推定;または
    前記二つ以上のチャネルの少なくとも一対の間の時間遅延関係の推定
    のうちの一つまたは複数を含む、請求項1記載の方法。
  7. 前記時間遅延関係または前記位相関係の一つまたは複数の推定は、前記対のチャネルのそれぞれの間の相関を計算することによって推定される、請求項6記載の方法。
  8. 前記階数解析は:
    広く時間領域における前記アクセスされたオーディオ信号;または
    前記アクセスされたオーディオ信号の前記二つ以上のチャネルに対応する複数の周波数帯域のそれぞれ
    において実行される、請求項6記載の方法。
  9. 時間領域における前記アクセスされたオーディオ信号に対して実行される前記階数解析が広帯域の階数解析を含み;
    前記広帯域の時間領域ベースの階数解析および対応する周波数帯域のそれぞれにおける階数解析を実行したとき、当該方法は:
    前記広帯域の時間領域の階数解析を、前記周波数帯域のそれぞれにおける階数解析と比較することを含み、
    前記比較が、前記上方混合器が広帯域またはマルチバンド上方混合器のいずれを含むかを検出する、
    請求項8記載の方法。
  10. 前記チャネル対のチャネルのそれぞれを時間的に整列させる段階をさらに含み、
    前記階数解析は、時間的整列後に実行される、
    請求項6記載の方法。
  11. 前記階数解析が初期階数付けを含み、当該方法がさらに:
    前記初期階数解析を完了したときに、前記アクセスされたオーディオ信号の少なくとも一対のサラウンドサウンド・チャネルに対して逆脱相関を実行する段階と;
    前記逆脱相関を実行したときに、少なくとも部分的にある特徴に基づいて前記階数解析を繰り返す段階であって、該特徴は、その後の階数付けにおいて該繰り返される階数解析をもって階数付けされる、段階とを含む、
    請求項6記載の方法。
  12. 前記繰り返される階数解析からの前記その後の階数付けを、逆脱相関の前に実行された初期階数付けと比較する段階をさらに含む、請求項11記載の方法。
  13. 前記信号成分漏れ解析は、前記オーディオ信号の前記チャネルのうちの少なくとも二つのチャネルのそれぞれにおいて同時的に発話関係の信号成分を検出または分類することに関する、請求項6記載の方法。
  14. 前記少なくとも二つのチャネルのうちの一つまたは複数が、中央チャネル以外のチャネルである、請求項13記載の方法。
  15. 前記マルチチャネル・オーディオ・コンテンツの離散的なインスタンスが、少なくともチャネルの相補的な対における音楽的な声の成分を含み、前記信号成分漏れ解析が、前記相補的なチャネル対以外の少なくとも一つのチャネルにおける前記音楽的な声に関係した成分を検出または分類することに関する、請求項6記載の方法。
  16. 前記マルチチャネル・オーディオ・コンテンツの離散的なインスタンスが、少なくとも一つの特定のチャネルにおける周囲のまたはシーンの音またはノイズのうちの一つまたは複数に関係する一つまたは複数の成分を含み、前記信号成分漏れ解析が、前記特定のチャネル以外の少なくとも一つのチャネルにおける前記周囲のまたはシーンの音またはノイズに関係した成分を検出または分類することに関する、請求項6記載の方法。
  17. 前記伝達関数推定が:
    相互パワースペクトル密度;および
    入力パワースペクトル密度
    に基づいて実行される、請求項6記載の方法。
  18. 前記伝達関数推定が、最小平均二乗(LMS)アルゴリズムに基づいて実行される、請求項2記載の方法。
  19. 前記上方混合判定がさらに:
    前記抽出された特徴をある継続時間にわたって解析する段階と;
    解析された前記特徴に基づいて、前記抽出された特徴に対して計算される少なくとも平均値、分散値および最頻値を含む記述的な統計の集合を計算する段階とを含む、
    請求項1記載の方法。
  20. コンピュータ・プロセッサを用いて実行されたときに法科学的な上方混合器検出プロセスを前記コンピュータ・プロセッサに実行させる、実行するよう前記コンピュータ・プロセッサを制御するまたは実行するよう前記コンピュータ・プロセッサをプログラムする命令がエンコードされ、記憶されている非一時的なコンピュータ可読記憶媒体であって、前記プロセスは:
    二つ以上の個別のチャネルを有するオーディオ信号にアクセスするまたは該オーディオ信号を受領する段階であって、前記オーディオ信号は属性の一つまたは複数の集合を有する、段階と;
    アクセスされたオーディオ信号から一つまたは複数の特徴を抽出する段階であって、抽出された特徴はそれぞれ属性の前記一つまたは複数の集合に対応する、段階と;
    抽出された特徴に基づいて、前記オーディオ信号が、アクセスされたまたは受領されたオーディオ信号より少数のチャネルをもつオーディオ・コンテンツから上方混合されたものであるかどうかを判定する段階とを含む、
    非一時的なコンピュータ可読記憶媒体。
  21. 前記プロセスがさらに、特定の上方混合器が前記アクセスされたオーディオ信号を生成したことを同定することを含む、請求項20記載の非一時的なコンピュータ可読記憶媒体。
  22. 二つ以上の個別のチャネルを有するオーディオ信号にアクセスするまたは該オーディオ信号を受領する手段であって、前記オーディオ信号は属性の一つまたは複数の集合を有する、手段と;
    アクセスされたオーディオ信号から一つまたは複数の特徴を抽出する手段であって、抽出された特徴はそれぞれ属性の前記一つまたは複数の集合に対応する、手段と;
    抽出された特徴に基づいて、前記オーディオ信号が、アクセスされたまたは受領されたオーディオ信号より少数のチャネルをもつオーディオ・コンテンツから上方混合されたものであるかどうかを判定する手段とを有する、
    システム。
  23. 前記アクセスされたオーディオ信号を生成した特定の上方混合器を同定する手段をさらに有する、請求項22記載のシステム。
JP2015532079A 2012-09-14 2013-09-13 マルチチャネル・オーディオ・コンテンツ解析に基づく上方混合検出 Ceased JP2015534116A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261701535P 2012-09-14 2012-09-14
US61/701,535 2012-09-14
PCT/US2013/059670 WO2014043476A1 (en) 2012-09-14 2013-09-13 Multi-channel audio content analysis based upmix detection

Publications (1)

Publication Number Publication Date
JP2015534116A true JP2015534116A (ja) 2015-11-26

Family

ID=49253430

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015532079A Ceased JP2015534116A (ja) 2012-09-14 2013-09-13 マルチチャネル・オーディオ・コンテンツ解析に基づく上方混合検出

Country Status (5)

Country Link
US (1) US20150243289A1 (ja)
EP (1) EP2896040B1 (ja)
JP (1) JP2015534116A (ja)
CN (1) CN104704558A (ja)
WO (1) WO2014043476A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150025852A (ko) * 2013-08-30 2015-03-11 한국전자통신연구원 멀티채널 오디오 분리 장치 및 방법
CN105336332A (zh) 2014-07-17 2016-02-17 杜比实验室特许公司 分解音频信号
CN105992120B (zh) 2015-02-09 2019-12-31 杜比实验室特许公司 音频信号的上混音
CN105321526B (zh) * 2015-09-23 2020-07-24 联想(北京)有限公司 音频处理方法和电子设备
CN117238300A (zh) 2016-01-22 2023-12-15 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
CN112005210A (zh) * 2018-08-30 2020-11-27 惠普发展公司,有限责任合伙企业 多通道源音频的空间特性
GB2586451B (en) * 2019-08-12 2024-04-03 Sony Interactive Entertainment Inc Sound prioritisation system and method
US10930301B1 (en) * 2019-08-27 2021-02-23 Nec Corporation Sequence models for audio scene recognition
CN112866896B (zh) * 2021-01-27 2022-07-15 北京拓灵新声科技有限公司 一种沉浸式音频上混方法及系统
CN116828385A (zh) * 2023-08-31 2023-09-29 深圳市广和通无线通信软件有限公司 一种基于人工智能分析的音频数据处理方法及相关装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04176279A (ja) * 1990-11-09 1992-06-23 Sony Corp ステレオ/モノラル判別装置
JP2004272134A (ja) * 2003-03-12 2004-09-30 Advanced Telecommunication Research Institute International 音声認識装置及びコンピュータプログラム
US20060008100A1 (en) * 2004-07-09 2006-01-12 Emersys Co., Ltd Apparatus and method for producing 3D sound
JP2006245670A (ja) * 2005-02-28 2006-09-14 Yamaha Corp 適応型音場支援装置
JP2010286586A (ja) * 2009-06-10 2010-12-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置及び音響モデル作成装置とそれらの方法と、プログラムと記録媒体
JP2011150280A (ja) * 2009-12-22 2011-08-04 Vinogradov Alexei 信号検出方法、信号検出装置、及び、信号検出プログラム
JP2011259298A (ja) * 2010-06-10 2011-12-22 Hitachi Consumer Electronics Co Ltd 3次元音声出力装置
WO2012158705A1 (en) * 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US8345899B2 (en) * 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
US8077893B2 (en) * 2007-05-31 2011-12-13 Ecole Polytechnique Federale De Lausanne Distributed audio coding for wireless hearing aids
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
EP2360681A1 (en) * 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04176279A (ja) * 1990-11-09 1992-06-23 Sony Corp ステレオ/モノラル判別装置
JP2004272134A (ja) * 2003-03-12 2004-09-30 Advanced Telecommunication Research Institute International 音声認識装置及びコンピュータプログラム
US20060008100A1 (en) * 2004-07-09 2006-01-12 Emersys Co., Ltd Apparatus and method for producing 3D sound
JP2006245670A (ja) * 2005-02-28 2006-09-14 Yamaha Corp 適応型音場支援装置
JP2010286586A (ja) * 2009-06-10 2010-12-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置及び音響モデル作成装置とそれらの方法と、プログラムと記録媒体
JP2011150280A (ja) * 2009-12-22 2011-08-04 Vinogradov Alexei 信号検出方法、信号検出装置、及び、信号検出プログラム
JP2011259298A (ja) * 2010-06-10 2011-12-22 Hitachi Consumer Electronics Co Ltd 3次元音声出力装置
WO2012158705A1 (en) * 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
伏木 雅昭 MASAAKI FUSHIKI: "身近になったオーディオ符号化", 日本音響学会誌 第60巻 第1号 THE JOURNAL OF THE ACOUSTICAL SOCIETY OF JAPAN, vol. 第60巻、第1号, JPN6016020346, 25 December 2003 (2003-12-25), JP, pages 41 - 46, ISSN: 0003492252 *

Also Published As

Publication number Publication date
WO2014043476A1 (en) 2014-03-20
US20150243289A1 (en) 2015-08-27
CN104704558A (zh) 2015-06-10
EP2896040A1 (en) 2015-07-22
EP2896040B1 (en) 2016-11-09

Similar Documents

Publication Publication Date Title
JP2015534116A (ja) マルチチャネル・オーディオ・コンテンツ解析に基づく上方混合検出
US11877140B2 (en) Processing object-based audio signals
CN110070882B (zh) 语音分离方法、语音识别方法及电子设备
US10607629B2 (en) Methods and apparatus for decoding based on speech enhancement metadata
CN105074822B (zh) 用于音频分类和处理的装置和方法
RU2568926C2 (ru) Устройство и способ извлечения прямого сигнала/сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации
Seetharaman et al. Bootstrapping single-channel source separation via unsupervised spatial clustering on stereo mixtures
WO2012158705A1 (en) Adaptive audio processing based on forensic detection of media processing history
JP2022177253A (ja) 方向性音量マップベースのオーディオ処理
Woodruff et al. Sequential organization of speech in reverberant environments by integrating monaural grouping and binaural localization
Rachavarapu et al. Localize to binauralize: Audio spatialization from visual sound source localization
US11463833B2 (en) Method and apparatus for voice or sound activity detection for spatial audio
Spille et al. Combining binaural and cortical features for robust speech recognition
US20220392461A1 (en) Electronic device, method and computer program
JP2011013383A (ja) オーディオ信号補正装置及びオーディオ信号補正方法
JP2022545709A (ja) マルチチャネル・オーディオ信号のチャネル識別
Sutojo et al. Segmentation of Multitalker Mixtures Based on Local Feature Contrasts and Auditory Glimpses
US20240021208A1 (en) Method and device for classification of uncorrelated stereo content, cross-talk detection, and stereo mode selection in a sound codec
Yuan et al. Exploring the Impacts of Scenario Variability on Speech Separation Tasks
Ibrahim PRIMARY-AMBIENT SEPARATION OF AUDIO SIGNALS

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160826

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170207

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20170627