JP6581324B2 - 複数のメディア処理ノードによる適応処理 - Google Patents

複数のメディア処理ノードによる適応処理 Download PDF

Info

Publication number
JP6581324B2
JP6581324B2 JP2019092763A JP2019092763A JP6581324B2 JP 6581324 B2 JP6581324 B2 JP 6581324B2 JP 2019092763 A JP2019092763 A JP 2019092763A JP 2019092763 A JP2019092763 A JP 2019092763A JP 6581324 B2 JP6581324 B2 JP 6581324B2
Authority
JP
Japan
Prior art keywords
media
processing
data
media data
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019092763A
Other languages
English (en)
Other versions
JP2019152874A (ja
Inventor
リードミラー,ジェフレイ
ラドハクリシュナン,レグナサン
プリバディ,マーヴィン
ファラハニ,ファーハッド
スミサーズ,マイケル
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2019152874A publication Critical patent/JP2019152874A/ja
Application granted granted Critical
Publication of JP6581324B2 publication Critical patent/JP6581324B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Description

関連出願への相互参照および優先権主張
本願は、2010年12月3日に出願された米国仮出願第61/419,747号および2011年11月10日に出願された米国仮出願第61/558,286号の優先権を主張する。両出願はここに参照によってあらゆる目的のために全体において組み込まれる。
技術
本発明は概括的にはメディア処理システムに関し、詳細にはメディア・データのメディア処理状態に基づいてメディア・データを適応的に処理することに関する。
メディア処理ユニットは典型的には盲目的な仕方で動作し、当該メディア・データが受領される前に生起するメディア・データの処理履歴には注意を払わない。これは、単一のエンティティが多様なターゲット・メディア・レンダリング装置のためのメディア処理およびエンコードのすべてを行い、一方、ターゲット・メディア・レンダリング装置がエンコードされたメディア・データのデコードおよびレンダリングのすべてを行うメディア処理フレームワークでは機能するかもしれない。しかしながら、この盲目的な処理は、複数のメディア処理ユニットが多様ネットワークにまたがって分散されているまたは縦続的に(チェーン状に)配置されており、それぞれの型のメディア処理を最適に実行することが期待される状況では、うまく(または全く)機能しない。たとえば、一部のメディア・データは高性能メディア・システムのためにエンコードされていることがあり、メディア処理チェーン上のモバイル装置のために好適な低減した形に変換される必要があることがある。よって、メディア処理ユニットは、そのメディア・データに対する、すでに実行された型の処理を不必要に実行することがある。たとえば、ボリューム平準化(leveling)ユニットは、入力オーディオ・クリップに対して以前にボリューム平準化が実行されているか否かに関わりなく、入力オーディオ・クリップに対して処理を実行する。結果として、ボリューム平準化ユニットは、必要でないときにも平準化を実行する。この不必要な処理は、メディア・データ中のメディア・コンテンツをレンダリングする際に、特定の特徴の劣化および/または除去を引き起こすこともある。
このセクションに記載されるアプローチは、追求されたかもしれないアプローチだが、必ずしも以前に着想ないし追求されたアプローチではない。よって、特に断りのない限り、このセクションに記載されるアプローチのいずれも、単にこのセクションに含まれているために従来技術の資格をもつと想定されるべきではない。同様に、一つまたは複数のアプローチに関して同定される問題は、特に断りのない限り、このセクションに基づいて何らかの従来技術において認識されていたと想定するべきではない。
従来技術の問題を軽減または解消する。
請求項記載の手段によって解決する。
本発明は、限定ではなく例として、付属の図面の図において示されている。図において、同様の参照符号は同様の要素を指す。
本発明のいくつかの可能な実施形態に基づく、例示的なメディア処理チェーンを示す図である。 本発明のいくつかの可能な実施形態に基づく、例示的な向上されたメディア処理チェーンを示す図である。 本発明のいくつかの可能な実施形態に基づく、例示的なエンコーダ/トランスコーダを示す図である。 本発明のいくつかの可能な実施形態に基づく、例示的なデコーダを示す図である。 本発明のいくつかの可能な実施形態に基づく、例示的な後処理ユニットを示す図である。 本発明のいくつかの可能な実施形態に基づく、エンコーダ/トランスコーダの例示的な実装を示す図である。 本発明のいくつかの可能な実施形態に基づく、処理状態メタデータ中のおよび/または処理状態メタデータに関連付けられたラウドネス・メタデータの有効性に基づいて、ボリューム平準化ユニットの動作モードを制御する、例示的な進化デコーダを示す図である。 本発明のいくつかの可能な実施形態に基づく、メディア処理情報を渡すためにデータ隠しを使う例示的な構成を示す図である。 AおよびBは、本発明のある可能な実施形態に基づく、例示的なプロセス・フローを示す図である。 本発明のある可能な実施形態に基づく、本稿に記載されるコンピュータまたはコンピューティング装置が実装されうる例示的なハードウェア・プラットフォームを示す図である。 ある例示的な実施形態に基づく、メディア・フレームとともにメディア・フレーム中のメディア・データに関連付けられた処理状態メタデータが伝送されうるメディア・フレームを示す図である。 本発明の実施形態に基づく、例示的なメディア処理ノード/装置のブロック図である。 本発明の実施形態に基づく、例示的なメディア処理ノード/装置のブロック図である。 本発明の実施形態に基づく、例示的なメディア処理ノード/装置のブロック図である。 本発明の実施形態に基づく、例示的なメディア処理ノード/装置のブロック図である。 本発明の実施形態に基づく、例示的なメディア処理ノード/装置のブロック図である。 本発明の実施形態に基づく、例示的なメディア処理ノード/装置のブロック図である。 本発明の実施形態に基づく、例示的なメディア処理ノード/装置のブロック図である。 本発明の実施形態に基づく、例示的なメディア処理ノード/装置のブロック図である。 本発明の実施形態に基づく、例示的なメディア処理ノード/装置のブロック図である。 本発明の実施形態に基づく、例示的なメディア処理ノード/装置のブロック図である。 本発明の実施形態に基づく、例示的なメディア処理ノード/装置のブロック図である。 本発明の実施形態に基づく、例示的なメディア処理ノード/装置のブロック図の一部である。 本発明の実施形態に基づく、例示的なメディア処理ノード/装置のブロック図の一部である。
メディア・データのメディア処理状態に基づくメディア・データの適応的な処理に関する例示的な可能な実施形態がここに記述される。以下の記述では、説明の目的で、本発明の十全な理解を与えるために数多くの個別的な詳細が記される。しかしながら、本発明がこうした個別的詳細なしでも実施されうることは明白であろう。他方、本発明を無用に隠蔽したり、埋没させたり、ぼかしたりするのを避けるため、よく知られた構造および装置は網羅的な詳細では記述されない。
例示的な実施形態は、ここでは以下のアウトラインに従って記述される。
1.全般的概観
2.メディア処理チェーン
3.メディア処理装置またはユニット
4.メディア・データの例示的な適応的処理
5.データ隠し
6.例示的なプロセス・フロー
7.実装機構――ハードウェアの概観
8.付番実施例
9.等価物、拡張、代替その他。
1.全般的概観
この概観は、本発明の可能な実施形態のいくつかの側面の基本的な記述を呈示する。この概観は可能な実施形態の包括的ないし網羅的な要約ではないことを注意しておくべきである。さらに、この概観は、可能な実施形態の何らかの特に有意な側面または要素を特定するものとも、可能な実施形態や特に本発明一般の範囲を定めるものとも理解されることは意図されていないことを注意しておくべきである。この概観は単に、簡約化した形で例示的な可能な実施形態に関係するいくつかの概念を呈示するものであり、単に、後述する例示的な可能な実施形態のより詳細な記述への概念的な序章として理解されるべきである。
メディア・データのメディア処理状態に基づくメディア・データの適応的な処理のための技法が記述される。いくつかの可能な実施形態では、向上メディア処理チェーンにおける諸メディア処理ユニットが自動的に、メディア処理信号および/または処理状態メタデータを取得および検証し、メディア処理信号(media processing signaling)および/または処理状態メタデータ(processing state metadata)に基づいてメディア・データの状態を判別し、メディア・データの状態に基づいてそれぞれの処理を適応させることができるようにされる。向上メディア処理チェーン内の諸メディア処理ユニットは、これに限られないが、エンコーダ、トランスコーダ、デコーダ、前処理ユニット、後処理ユニット、ビットストリーム処理ツール、先進テレビジョン・システムズ委員会(ATSC: Advanced Television Systems Committee)コーデック、動画像専門家グループ(MPEG: Moving Picture Experts Group)コーデックなどを含んでいてもよい。メディア処理ユニットは、メディア処理システムまたはメディア処理システムの一部であってもよい。
本稿での用法では、用語「処理状態メタデータ(processing state metadata)」は、メディア・データとは別個の異なるデータを指す。一方、メディア・データ(たとえば、メディア・コンテンツを含む、ビデオ・フレーム、知覚的に符号化されたオーディオ・フレームまたはPCMオーディオ・サンプル)は、メディア・コンテンツを表し、該メディア・コンテンツをオーディオまたはビデオ出力としてレンダリングするために使われるメディア・サンプル・データを指す。処理状態メタデータは、メディア・データに関連付けられており、メディア・データに対してどの型の処理がすでに実行されているかを指定する。処理状態メタデータのメディア・データとのこの関連付けは時間同期的(time-synchronous)である。よって、現在の処理状態メタデータは、現在のメディア・データが、指示された型のメディア処理の結果および/またはメディア・データ中のメディア特徴の記述を共時的に(contemporaneously)含むことを示す。いくつかの可能な実施形態では、処理状態メタデータは、処理履歴および/または指示された型のメディア処理において使われるおよび/または指示された型のメディア処理から導出されるパラメータの一部もしくは全部を含んでいてもよい。追加的および/または任意的に、処理状態メタデータは、メディア・データから計算/抽出された一つまたは複数の異なる型のメディア特徴を含んでいてもよい。本稿に記述されるところのメディア特徴は、メディア・データの意味的な記述を提供し、構造的属性、和声およびメロディーを含む音質(tonality)、音色、リズム、基準ラウドネス、ステレオ・ミックスまたはメディア・データのある量の音源、声の不在もしくは存在、反復特性、メロディー、和声、歌詞、音色、知覚的特徴、デジタル・メディア特徴、ステレオ・パラメータ、声認識(たとえば話者が何を言っているか)などの一つまたは複数を含んでいてもよい。処理状態メタデータはまた、メディア・データのいかなる処理にも関係せず、メディア・データのいかなる処理から導出されたのでもない他のメタデータを含んでいてもよい。たとえば、サードパーティー・データ、追跡情報、識別子、独自または標準の情報、ユーザー注釈データ、ユーザー選好データなどが、他のメディア処理ユニットに渡すべく、特定のメディア処理ユニットによって加えられてもよい。これらの独立した型のメタデータは、あちこちに分散され、検証され、メディア処理チェーン内のメディア処理コンポーネントによって使用されてもよい。用語「メディア処理信号(media processing signaling)」は、メディア・ビットストリーム中の、メディア処理ユニット間で通信される比較的軽量の制御またはステータス・データ(これは、処理状態メタデータに比べて小さなデータ量であってもよい)を指す。メディア処理信号は、処理状態メタデータのサブセットまたは要約を含んでいてもよい。
メディア処理信号および/または処理状態メタデータは、一つまたは複数のリザーブされたフィールド(これは、現在不使用のものであってもよいが、それに限定されるわけではない)に埋め込まれる、メディア・ビットストリーム中のサブストリームにおいて搬送される、メディア・データに隠される、あるいは別個のメディア処理データベースを与えられるのでもよい。いくつかの可能な実施形態では、メディア処理信号および/または処理状態メタデータのデータ量は、メディア・データを搬送するために割り当てられるビットレートに影響することなく搬送される(たとえば、リザーブされているフィールドにおいて、または可逆データ隠し技法を使ってメディア・サンプル中に隠されて、あるいはメディア・データからメディア・フィンガープリントを計算してまたはメディア・データからメディア・フィンガープリントを取得して詳細な処理状態情報を外部データベースに記憶するなど)のに十分小さくてもよい。向上メディア処理チェーンにおけるメディア処理信号および/または処理状態メタデータの通信は、メディア処理チェーン(またはコンテンツ・ライフサイクル)を通じて二つ以上のメディア処理ユニットが互いと縦接的に協働する必要がある場合に特に有用である。メディア処理信号および/または処理状態メタデータなしでは、たとえばチェーンにおいて二つ以上のオーディオ・コーデックが利用され、メディア・コンテンツのメディア消費装置(またはメディア・データ中のメディア・コンテンツのレンダリング・ポイント)への行程の間にシングルエンドの(single-ended)ボリューム平準化が二度以上適用される場合、品質、レベルおよび空間的劣化のような深刻なメディア処理問題が起こる可能性が高いことがある。
対照的に、本稿の技法は、向上メディア処理チェーン(コンテンツ・ライフサイクル)におけるメディア処理ユニットのいずれかまたは全部のインテリジェンスを高める。本稿の技法のもとでは、これらのメディア処理ユニットの任意のものは、メディア・データの状態を、「傾聴および適応」するとともに下流のメディア処理ユニットに対して「アナウンス」することができる。よって、本稿の技法のもとでは、下流のメディア処理ユニットは、一つまたは複数の上流のメディア処理ユニットによって実行されたメディア・データの過去の処理の知識に基づいてメディア・データの処理を最適化してもよい。本稿の技法のもとでは、メディア処理チェーン全体によるメディア・データに対するメディア処理は、他の場合に比べ、より効率的、より適応的かつより予測可能になる。結果として、メディア・データ中のメディア・コンテンツの全体的なレンダリングおよび扱いがずっと改善される。
重要なことに、本稿の技法のもとでは、メディア処理信号および/または処理状態メタデータによって示されるメディア・データの状態の存在は、向上メディア処理チェーンに存在することがありうるレガシーのメディア処理ユニットに負の影響を与えることはない。レガシーのメディア処理ユニットは、自身ではメディア・データを適応的に処理するためにメディア・データの状態をプロアクティブに利用し得ない。さらに、たとえメディア処理チェーンにおけるレガシーのメディア処理ユニットが他の上流のメディア処理装置の処理結果に細工をする傾向があったとしても、本稿の処理状態メタデータは、暗号学的値、暗号化、認証およびデータ隠しを利用する安全な通信方法を通じて、安全かつセキュアに下流のメディア処理装置に渡されうる。データ隠しの例は、可逆的および不可逆的の両方のデータ隠しを含む。
いくつかの可能な実施形態では、メディア・データの状態を下流のメディア処理ユニットに伝達するために、本稿の技法は、ソフトウェア、ハードウェアまたは両方の形の一つまたは複数の処理サブユニットを、メディア処理ユニット中に包み込むおよび/または埋め込む。メディア処理ユニットが、メディア・データとともに送達された処理状態メタデータを読み取る、書き込む、および/または検証することができるようにするためである。
いくつかの可能な実施形態では、メディア処理ユニット(たとえば、エンコーダ、デコーダ、平準化器など)は、一つまたは複数の型のメディア処理が以前に実行されているメディア・データを受け取ってもよい。ただし、1)それらの以前に実行されたメディア処理の型を示す処理状態メタデータが存在しないおよび/または2)処理状態メタデータが正しくないまたは不完全であることがありうる。以前に実行されたメディア処理の型は、メディア・サンプルを変更しうる操作(たとえばボリューム平準化)およびメディア・サンプルを変更し得ない操作(たとえばメディア・サンプルに基づくフィンガープリント抽出および/または特徴抽出)を含む。メディア処理ユニットは、自動的にメディア・データの「真の」状態を反映する「正しい」処理状態メタデータを生成し、生成された処理状態メタデータを一つまたは複数の下流のメディア処理ユニットに通信することによってこのメディア・データの状態を当該メディア・データと関連付けるよう構成されていてもよい。さらに、メディア・データと処理状態メタデータとの関連付けは、結果として得られるメディア・ビットストリームがレガシー・デコーダのようなレガシー・メディア処理ユニットと後方互換であるような仕方で実行されてもよい。結果として、本稿の技法を実装しないレガシー・デコーダでも、レガシー・デコーダの設計通り、メディア・データの状態を示す関連付けられた処理状態メタデータを無視しつつメディア・データを正しくデコードしうる。いくつかの可能な実施形態では、本稿のメディア処理ユニットは、法廷解析(forensic analysis)および/または一つまたは複数の埋め込まれたハッシュ値(たとえば署名)の検証を介して(源)メディア・データを用いて処理状態メタデータを検証する機能を並行して構成されてもよい。
本稿に記載される技法のもとでは、受領された処理状態メタデータによって示されるメディア・データの共時的(contemporaneous)状態に基づくメディア・データの適応的な処理が、メディア処理チェーンのさまざまな点で実行されてもよい。たとえば、処理状態メタデータ中のラウドネス・メタデータが有効であれば、デコーダよりあとのボリューム平準化ユニットは、該デコーダによって、メディア処理信号および/または処理状態メタデータを通知されてもよく、ボリューム平準化ユニットがオーディオのようなメディア・データを、不変のまま通しうるようにする。
いくつかの実施形態では、処理状態メタデータは、基礎になるメディア・サンプルから抽出されたメディア特徴を含む。メディア特徴は、メディア・サンプルの意味的記述を提供してもよく、たとえば、メディア・サンプルが発話、音楽を含むか、誰かが静寂の中または騒音のある条件で歌っているか、歌唱が会話している群衆の中でであるか、対話が行われているか、雑音のある背景中の発話か、以上の二つ以上の組み合わせ、などを示すために、処理状態メタデータの一部として与えられてもよい。メディア・データの適応処理は、処理状態メタデータに含まれるメディア特徴の記述に基づいてメディア処理チェーンにおけるさまざまな点において実行されてもよい。
本稿に記載される技法のもとでは、メディア・データとともにメディア・ビットストリームに埋め込まれた処理状態メタデータは、認証および検証されてもよい。たとえば、本稿の技法は、ラウドネス規制エンティティが特定の番組のラウドネスがすでに指定された範囲内であるかどうかと、メディア・データ自身が修正されていないこととを検証する(それにより規制への準拠を保証する)ために有用となりうる。これを検証するために、ラウドネスを再び計算するのではなく、処理状態メタデータを含むデータ・ブロック中に含まれるラウドネス値が読み出されてもよい。
本稿に記載される技法のもとでは、処理状態メタデータを含むデータ・ブロックは、サードパーティー・メタデータをセキュアに搬送するために追加的なリザーブされたバイトを含んでいてもよい。この特徴は、多様な応用を可能にするために使用されうる。たとえば、格付け〔レーティング〕機関(たとえば、ニールセン・メディア・リサーチ)は、コンテンツ識別タグを含めることを選んでもよく、そのタグが、視聴率、視聴者層または聴取者層統計を計算する目的で、視聴または聴取された特定の番組を識別するために使用されることができる。
有意義なことに、本稿に記載される技法および本稿に記載される技法の変形は、メディア・データに関連付けられた処理状態メタデータが、コンテンツ生成からコンテンツ消費までのメディア処理チェーンを通じて保存されることを保証しうる。
いくつかの可能な実施形態では、本稿に記載される機構は、メディア処理システムの一部をなす。メディア処理システムは、これに限られないが、ハンドヘルド装置、ゲーム機、テレビジョン、ラップトップ・コンピュータ、ネットブック・コンピュータ、セルラー無線電話、電子書籍リーダー、販売ポイント端末、デスクトップ・コンピュータ、コンピュータ・ワークステーション、コンピュータ・キオスクおよびさまざまな他の種類の端末およびメディア処理ユニットを含む。
本稿に記載される好ましい実施形態および一般的な原理および特徴へのさまざまな修正が当業者にはすぐに明白となるであろう。よって、本開示は、示されている実施形態に限定されることは意図されておらず、本稿に記載される原理および特徴と整合する最も広い範囲を与えられるべきものである。
2.メディア処理チェーン
図1は、本発明のいくつかの可能な実施形態に基づく、例示的なメディア処理チェーンを示している。メディア処理チェーンは、これに限られないが、エンコーダ、デコーダ、前処理/後処理ユニット、トランスコーダおよび信号解析&メタデータ訂正ユニットを有していてもよい。メタデータ処理チェーンにおけるこれらのユニットは、同じシステム中または異なる複数のシステム中に含まれていてもよい。メディア処理チェーンが複数の異なるシステムにまたがる実施形態では、これらのシステムは、共位置であっても、あるいは地理的に分散されていてもよい。
いくつかの可能な実施形態では、図1の前処理ユニットは、メディア・コンテンツを含むPCM(時間領域)サンプルを入力として受け入れてもよく、処理されたPCMサンプルを出力する。エンコーダはPCMサンプルを入力として受け入れてもよく、メディア・コンテンツのエンコードされた(たとえば圧縮された)メディア・ビットストリームを出力する。
本稿での用法では、メディア・コンテンツを含むデータ(たとえばビットストリームのメイン・ストリーム中に担持される)がメディア・データと称され、一方、メディア処理チェーンにおける任意の所与の点におけるメディア・データに対して実行された処理の型を示す、メディア・データとは別個のデータが処理状態メタデータと称される。
信号解析およびメタデータ訂正ユニットは、一つまたは複数のエンコードされたメディア・ビットストリームを入力として受け入れ、エンコードされたメディア・ビットストリーム中の含まれている処理状態メタデータが正しいかどうかを、信号解析を実行することによって検証してもよい。信号解析およびメタデータ訂正ユニットが、含まれているメタデータが無効であることを見出したら、信号解析およびメタデータ訂正ユニットは、正しくない値を、信号解析から得られる正しい値で置き換える。
トランスコーダは、メディア・ビットストリームを入力として受け入れてもよく、修正されたメディア・ビットストリームを出力する。デコーダは圧縮されたメディア・ビットストリームを入力として受け入れ、デコードされたPCMサンプルのストリームを出力してもよい。後処理ユニットは、デコードされたPCMサンプルのストリームを受け入れ、その中のメディア・コンテンツのボリューム平準化のような任意の後処理を実行し、デコードされたPCMサンプル中のメディア・コンテンツを一つまたは複数のスピーカーおよび/または表示パネル上でレンダリングしてもよい。処理状態メタデータを使ってメディア・データに適用される処理を適応させることを、メディア処理ユニットのすべてができる必要はない。
本稿に与えられる技法は、エンコーダ、デコーダ、トランスコーダ、前処理および後処理ユニットなどといったメディア処理ユニットが、メディア・データに適用されるべきそれぞれの処理を、それらメディア処理ユニットがそれぞれ受領するメディア処理信号および/または処理状態メタデータによって示されるメディア・データの共時的状態に従って適応させる、向上されたメディア処理チェーンを提供する。
図2は、本発明のいくつかの可能な実施形態に基づく、エンコーダ、デコーダ、前処理/後処理ユニット、トランスコーダおよび信号解析&メタデータ訂正ユニットを有する例示的な向上メディア処理チェーンを示している。メディア・データの状態に基づいてメディア・データの処理を適応するため、図2のユニットの一部または全部が修正されてもよい。いくつかの可能な実施形態では、この例示的な向上メディア処理チェーンにおける各メディア処理ユニットは、冗長でないメディア処理を実行し、上流のユニットによって実行された処理の不要なおよび誤った反復を避けることにおいて協働するよう構成される。いくつかの可能な実施形態では、コンテンツ生成からコンテンツ消費までの向上メディア処理チェーンの任意の点におけるメディア・データの状態は、向上メディア処理チェーンのその点における現在メディア処理ユニットによって理解される。
3.メディア処理装置またはユニット
図3は、本発明のいくつかの可能な実施形態に基づく、例示的な(修正された)エンコーダ/トランスコーダを示している。図1のエンコーダとは異なり、図3のエンコーダ/トランスコーダは、入力メディア・データに関連付けられた処理状態メタデータを受領し、当該エンコーダ/トランスコーダに対して一つまたは複数の上流のユニットによって、入力メディア・データ(たとえば入力オーディオ)に対して実行された以前の(前/後)処理を判別するよう構成されていてもよい。入力メディア・データは、修正されたエンコーダ/トランスコーダが論理的に上流のユニット(たとえば、入力オーディオに対して処理を実行した最後の上流ユニット)から受領したものである。
本稿での用法では、用語「論理的に受領」は、入力メディア・データを上流のユニット(たとえば上記最後の上流ユニット)から今の例におけるエンコーダ/トランスコーダ・ユニットのような受け手ユニットに通信する際に中間ユニットが関与してもしなくてもよいことを意味しうる。
一例では、入力メディア・データに対して前/後処理を実行した上流ユニットは、受け手ユニットが一部をなすシステムとは異なるシステムにあってもよい。入力メディア・データは、上流ユニットによって出力され、ネットワーク接続、USB、広域ネットワーク接続、無線接続、光接続などの中間伝送ユニットを通じて伝えられたメディア・ビットストリームであってもよい。
もう一つの例では、入力メディア・データに対して前/後処理を実行した上流ユニットは、受け手ユニットが一部をなすのと同じシステムにあってもよい。入力メディア・データは、上流ユニットによって出力され、システムの一つまたは複数の内部ユニットを介した内部接続を通じて伝えられてもよい。たとえば、データは、内部バス、クロスバー接続、シリアル接続などを通じて物理的に送達されてもよい。いずれにせよ、本稿の技法のもとでは、受け手ユニットは、入力メディア・データを論理的に上流ユニットから受領しうる。
いくつかの可能な実施形態では、エンコーダ/トランスコーダは、入力メディア・データの修正版であってもよいメディア・データに関連付けられる処理状態メタデータを生成または修正するよう構成されている。エンコーダ/トランスコーダによって生成または修正された新たなまたは修正された処理状態メタデータは、メディア処理チェーンにさらに沿ってエンコーダ/トランスコーダによって出力されるメディア・データの状態を自動的かつ正確に捕捉しうる。たとえば、処理状態メタデータは、メディア・データに対してある種の処理(たとえば、ドルビー・ラボラトリーズから商業的に入手可能なドルビー・ボリューム、アップミキシング)が実行されたか否かを含んでいてもよい。追加的および/または任意的に、処理状態メタデータは、ある種の処理または該処理の任意の構成操作において使用されるおよび/またはそれから導出されるパラメータを含んでいてもよい。追加的および/または任意的に、処理状態メタデータは、メディア・データから計算/抽出される一つまたは複数のフィンガープリントを含んでいてもよい。追加的および/または任意的に、処理状態メタデータは、メディア・データから計算/抽出される一つまたは複数の異なる型のメディア特徴を含んでいてもよい。本稿に記載されるメディア特徴は、メディア・データの意味的記述を与え、構造的属性、和声およびメロディーを含む音質(tonality)、音色、リズム、基準ラウドネス、ステレオ・ミックスまたはメディア・データのある量の音源、声の不在もしくは存在、反復特性、メロディー、和声、歌詞、音色、知覚的特徴、デジタル・メディア特徴、ステレオ・パラメータ、声認識(たとえば話者が何を言っているか)などの一つまたは複数を含んでいてもよい。いくつかの実施形態では、抽出されたメディア特徴は、基礎になるメディア・データを複数のメディア・データ・クラスのうちの一つまたは複数に分類するために利用される。前記一つまたは複数のメディア・データ・クラスは、これに限られないが、メディア全体についての単一の全体的な/支配的な「クラス」(たとえばクラス・タイプ)および/または単一のメディア・フレーム、メディア・データ・ブロック、複数のメディア・フレーム、複数のメディア・データ・ブロック、一秒の一部、一秒、複数秒などといったより小さな時間期間を表す単一のクラス(たとえば、作品全体のサブセット/部分区間についてのクラス・サブタイプ)の任意のものを含みうる。たとえば、クラス・ラベルが計算されて、ビットストリーム中に挿入されたりおよび/またはビットストリームについての32msec毎に(可逆的または不可逆的なデータ隠し技法により)隠されたりしてもよい。クラス・ラベルは、一つまたは複数のクラス・タイプおよび/または一つまたは複数のクラス・サブタイプを示すために使用されてもよい。あるメディア・データ・フレームにおいて、クラス・ラベルは、そのクラス・ラベルが関連付けられているメディア・データ・ブロックに先行するまたは代替的に後続するメタデータ構造中に挿入されてもよい。このことは図11に示されている。メディア・クラスは、これに限られないが、音楽、発話、雑音、静寂、喝采といった単一クラス・タイプの任意のものを含みうる。本稿に記述されるメディア処理装置は、音楽にかぶさる発話など、メディア・クラス・タイプの混合を含むメディア・データをも分類するよう構成されていてもよい。追加的、代替的および任意的に、本稿に記述されるメディア処理装置は、計算されたメディア・クラス・ラベルによって示されるメディア・クラス・タイプまたはサブタイプについての独立な「確からしさ」または確率値を担持するよう構成されていてもよい。一つまたは複数のそのような確からしさまたは確率値は、同じメタデータ構造においてメディア・クラス・ラベルとともに送信されてもよい。確からしさまたは確率値は、計算されたメディア・クラス・ラベルによってメディア・クラス・タイプまたはサブタイプが示されるメディア・セグメント/ブロックとの関係で該計算されたメディア・クラス・ラベルがもつ「信頼」のレベルを示す。関連付けられたメディア・クラス・ラベルと組み合わせての前記一つまたは複数の確からしさまたは確率値は、アップミキシング、エンコード、デコード、トランスコード、ヘッドホン仮想化などといったメディア処理チェーン全体を通じた幅広い多様な操作の任意のものを改善する仕方でメディア処理を適応させるよう、受け手メディア処理装置によって利用されてもよい。処理状態メタデータは、これに限られないが、メディア・クラス・タイプまたはサブタイプ、確からしさまたは確率値の任意のものを含みうる。追加的、任意的または代替的に、メディア(オーディオ)データ・ブロックの間に挿入されるメタデータ構造においてメディア・クラス・タイプ/サブタイプおよび確からしさ/確率値を渡す代わりに、メディア・クラス・タイプ/サブタイプおよび確からしさ/確率値の一部または全部は、隠されたメタデータとしてメディア・データ(またはサンプル)中で埋め込まれ、受け手メディア処理ノード/装置に渡されてもよい。いくつかの実施形態では、処理状態メタデータに含まれるメディア・データのコンテンツ解析の結果が、ある種のユーザー定義またはシステム定義のキーワードがそのメディア・データの任意の時間セグメントにおいて話されるかどうかについての一つまたは複数の指標を含んでいてもよい。一つまたは複数のアプリケーションが、関係した動作(たとえば、該キーワードに関係する製品およびサービスのコンテキストに関連した広告を呈示する)の実行をトリガーするためにそのような指標を使ってもよい。
いくつかの実施形態では、第一のプロセッサでメディア・データを処理する間、本稿に記載される装置は、メディア・データのメディア特徴を分類/抽出するために第二のプロセッサを並行して走らせてもよい。メディア特徴は、ある時間期間(一フレーム、複数フレーム、一秒、複数秒、一分、複数分、ユーザー定義された時間期間など)にわたって継続するセグメントから、または代替的に(検出可能な信号特性変化に基づく)あるシーンについて、抽出されてもよい。処理状態メタデータによって記述されるメディア特徴はメディア処理チェーン全体を通じて使用されてもよい。下流の装置は、メディア特徴の一つまたは複数に基づいて、メディア・データに対する自分自身のメディア処理を適応させてもよい。あるいはまた、下流の装置は、処理状態メタデータにおいて記述されるメディア特徴の任意のものまたは全部の存在を無視することを選択してもよい。
メディア処理チェーンにおけるある装置上のアプリケーションは、多様な仕方のうちの一つまたは複数においてメディア特徴を利用してもよい。たとえば、そのようなアプリケーションは、メディア特徴を使って基礎になるメディア・データにインデックス付けしてもよい。審判が演技について語るセクションに行きたいようなユーザーのために、アプリケーションは他の先行するセクションをスキップしてもよい。処理状態メタデータにおいて記述されるメディア特徴は、下流の装置に、メディア・データのコンテキスト情報を、メディア・データの本来的な部分として提供する。
メディア処理チェーンにおける二つ以上の装置が、メディア・データのコンテンツからメディア特徴を抽出するために解析を実行してもよい。これにより、下流の装置がメディア・データのコンテンツを解析しなくても済む。
ある可能な実施形態では、生成されたまたは修正された処理状態メタデータは、メディア・ビットストリーム(たとえば、オーディオの状態についてのメタデータをもつオーディオ・ビットストリーム)の一部として伝送されてもよく、3〜10kbpsのオーダーの伝送レートに上ってもよい。いくつかの実施形態では、処理状態メタデータはデータ隠しに基づいてメディア・データ(たとえばPCMメディア・サンプル)内部で伝送されてもよい。メディア・データを可逆的または不可逆的に変更しうる幅広い多様なデータ隠し技法が、処理状態メタデータ(これだけに限られるものではないが認証関係のデータを含む)の一部または全部をメディア・サンプル中に隠すために使用されてもよい。データ隠しは、基礎になるメディア・サンプルの信号の信号特性(周波数または時間領域における位相および/または振幅)を変更/操作/変調することによって達成されてもよい。データ隠しは、FSK、スペクトラム拡散または他の利用可能な諸方法に基づいて実装されうる。
いくつかの可能な実施形態では、前処理/後処理ユニットが、エンコーダ/トランスコーダと協働する仕方でメディア・データの処理を実行してもよい。協働する前-後処理ユニットによって実行される処理も、下流のメディア処理ユニットに(たとえばオーディオ・ビットストリームを介して)伝えられる処理状態メタデータにおいて指定される。
いくつかの可能な実施形態では、ひとたび(メディア・フィンガープリントならびに一つまたは複数の型のメディア処理において使われるまたは一つまたは複数の型のメディア処理から導出される任意のパラメータを含んでいてもよい)処理状態メタデータの一片が導出されると、処理状態メタデータのこの一片は、メディア処理チェーンにおける諸メディア処理ユニットによって保存され、すべての下流のユニットに伝えられてもよい。こうして、いくつかの可能な実施形態では、メディア処理チェーン(ライフサイクル全体)において、一片の処理状態メタデータが、メディア・ビットストリーム/サブストリーム内の埋め込まれたデータとして、あるいは外部データ源またはメディア処理データベースから導出可能なデータとして、最初のメディア処理ユニットによって生成され、最後のメディア処理ユニットに渡されてもよい。
図4は、本発明のいくつかの可能な実施形態に基づく、例示的なデコーダ(たとえば、本稿の技法を実装する進化デコーダ)を示している。本発明のいくつかの可能な実施形態のデコーダは、(1)中に通された、はいってくるメディア・データに関連付けられた処理状態メタデータ(たとえば処理履歴、メディア特徴の記述など)および他のメタデータ(たとえば、サードパーティー・データ、追跡情報、識別子、独自または標準の情報、ユーザー注釈データ、ユーザー選好データなどといった、メディア・データの何らかの処理とは独立なもの)をパースし(parse)、検証するとともに、(2)検証された処理状態メタデータに基づいて、メディア・データのメディア処理状態を決定するよう構成されていてもよい。たとえば、入力メディア・データおよび処理状態メタデータを担持するメディア・ビットストリーム(たとえば、オーディオの状態についてのメタデータをもつオーディオ・ビットストリーム)中の処理状態メタデータをパースし、検証することによって、デコーダは、ラウドネス・メタデータ(またはメディア特徴メタデータ)が有効であり、信頼できるものであり、本稿に記載される技法を実装する向上コンテンツ・プロバイダー・サブユニット(たとえば、ドルビー・ラボラトリーズから商業的に入手可能なドルビー・メディア生成器(DMG: Dolby media generator))の一つによって生成されたことを判別してもよい。いくつかの可能な実施形態では、受領された処理状態メタデータが有効であり、信頼できるものであると判別することに応答して、デコーダは次いで、少なくとも部分的には受領された処理状態メタデータに基づいて、可逆的または不可逆的データ隠し技法を使ってメディア・データの状態についてのメディア処理信号を生成するよう構成されていてもよい。デコーダは、メディア処理チェーンにおける下流のメディア処理ユニット(たとえば後処理ユニット)に該メディア処理信号を提供するよう構成されていてもよい。この型の信号は、たとえば、デコーダと該下流のメディア処理ユニットの間に専用(かつ同期的な(synchronous))メタデータ経路がない場合に使用されうる。この状況は、デコーダおよび該下流のメディア処理ユニットが消費者電子装置において別個のエンティティとして存在する、あるいは異なるサブシステムまたは異なるシステムに存在していてデコーダと前記後続の処理ユニットとの間の同期的な制御またはデータ経路が利用可能でないいくつかの可能な実施形態において生起しうる。いくつかの可能な実施形態では、本稿のデータ隠し技法のもとでのメディア処理信号は、メディア・ビットストリームの一部として伝送されてもよく、16bpsのオーダーの伝送レートに上ってもよい。メディア・データを可逆的または不可逆的に変更しうる幅広い多様なデータ隠し技法が、処理状態メタデータの一部または全部をメディア・サンプル中に隠すために使用されてもよい。データ隠し技法は、これに限られないが、知覚可能または知覚不可能なセキュアな通信チャネル、基礎になるメディア・サンプルの一つまたは複数の信号の狭帯域またはスペクトラム拡散信号特性(周波数領域または時間領域における位相および/または振幅)の変更/操作/変調または他の利用可能な諸方法を含む。
いくつかの可能な実施形態では、デコーダは、受領されたすべての処理状態メタデータを先に渡そうと試みなくてもよい。むしろ、デコーダは、メディア・データの状態に基づいて下流のメディア処理ユニットの動作モードを変えるのに十分な情報のみを(たとえばデータ隠し容量の限界内で)埋め込んでもよい。
いくつかの可能な実施形態では、メディア・データにおけるオーディオまたはビデオ信号の冗長性が、メディア・データの状態を担持するために活用されてもよい。いくつかの可能な実施形態では、可聴なまたは可視なアーチファクトを引き起こすことなく、メディア処理信号および/または処理状態メタデータの一部または全部が、メディア・データ中の複数のバイトの最下位ビット(LSB: least significant bit)に隠されたり、あるいはメディア・データ内に担持されるセキュアな通信チャネルに隠されたりしてもよい。前記複数のバイトは、隠しデータをもつメディア・サンプルがレガシー・メディア処理ユニットによってレンダリングされるときに前記LSBが知覚可能または可視なアーチファクトを引き起こしうるかどうかを含む一つまたは複数の因子または基準に基づいて選択されてもよい。メディア・データを可逆的または不可逆的に変更しうる他のデータ隠し技法(たとえば、知覚可能または知覚不可能なセキュアな通信チャネル、FSKに基づくデータ隠し技法など)が、処理状態メタデータの一部または全部をメディア・サンプル中に隠すために使われてもよい。
いくつかの可能な実施形態では、たとえば下流のメディア処理ユニットがデコーダの一部として実装されている場合、データ隠し技術は任意的であってもよく、必要とされなくてもよい。たとえば、二つ以上のメディア処理ユニットが、バスおよび他の通信機構を共有してもよい。該バスおよび他の通信機構は、データをメディア・サンプル中に隠すことなく、あるメディア処理ユニットから別のメディア処理ユニットにメタデータが帯域外(out-of-the-band)信号として渡されることを許容する。
図5は、本発明のいくつかの可能な実施形態に基づく、例示的な後処理ユニット(たとえばドルビー進化後処理ユニット)を示している。この後処理ユニットは、まずメディア・データ(たとえば埋め込まれた情報をもつPCMオーディオ・サンプル)中に隠されたメディア処理信号を抽出して、該メディア処理信号によって示されるメディア・データの状態を判別するよう構成されていてもよい。これはたとえば、付属(adjunct)処理ユニット(たとえば、メディア・データがオーディオを含むいくつかの可能な実施形態では情報抽出およびオーディオ復元サブユニット)を用いて行われてもよい。メディア処理信号が可逆データ隠し技法を使って隠されている実施形態では、データ隠し技法(たとえばデコーダ)によってメディア処理信号を埋め込むためにメディア・データに対して実行された以前の修正が取り消しされてもよい。メディア処理信号が不可逆的なデータ隠し技法を使って隠される実施形態では、データ隠し技法(たとえばデコーダ)によってメディア処理信号を埋め込むためにメディア・データに対して実行された以前の修正は完全に取り消しされることはできないが、メディア・レンダリングの品質に対する副作用が最小化されてもよい(たとえば、最小限のオーディオまたは視覚的アーチファクト)。その後、メディア処理信号によって示されるメディア・データの状態に基づいて、後処理ユニットは、メディア・データに対して適用されるべきその処理を適応させるよう構成されていてもよい。一例では、ラウドネス・メタデータが有効であり、ボリューム処理が上流のユニットによって実行されたとの(メディア処理信号からの)判定に応答して、ボリューム処理がオフにされてもよい。もう一つの例では、音声認識されたキーワードによって、コンテキストに関連した広告またはメッセージが呈示され、あるいはトリガーされてもよい。
いくつかの可能な実施形態では、本稿に記述されるメディア処理システムにおける信号解析およびメタデータ訂正ユニットが、エンコードされたメディア・ビットストリームを入力として受け入れ、メディア・ビットストリーム中の埋め込まれたメタデータが正しいかどうかを信号解析を実行することによって検証するよう構成されていてもよい。メディア・ビットストリーム内で埋め込まれたメタデータが有効であるまたはないことを検証したのち、必要に応じて訂正が適用されてもよい。いくつかの可能な実施形態では、信号解析およびメタデータ訂正ユニットは、時間および/または周波数領域での入力メディア・ビットストリームにおいてエンコードされたメディア・データまたはサンプルに対して解析を実行して、メディア・データのメディア特徴を判別するよう構成されていてもよい。メディア特徴を決定したのち、対応する処理状態メタデータ(たとえば一つまたは複数のメディア特徴の記述)が生成され、信号解析およびメタデータ訂正ユニットに対して下流の装置に提供されてもよい。いくつかの可能な実施形態では、信号解析およびメタデータ訂正ユニットは、一つまたは複数のメディア処理システムにおける一つまたは複数の他のメディア処理ユニットと統合されていてもよい。追加的および/または任意的に、信号解析およびメタデータ訂正ユニットは、メディア処理信号をメディア・データ中に隠し、下流のユニット(エンコーダ/トランスコーダ/デコーダ)に対してメディア・データ中の埋め込まれているメタデータが有効であり検証が成功していることを信号伝達するよう構成されていてもよい。いくつかの可能な実施形態では、メディア・データに関連付けられた信号伝達データおよび/または処理状態メタデータは、生成され、メディア・データを担持する圧縮されたメディア・ビットストリーム中に挿入されてもよい。
したがって、本稿に記載される技法は、向上メディア処理チェーンにおける種々の処理ブロックまたはメディア処理ユニット(たとえば、エンコーダ、トランスコーダ、デコーダ、前処理/後処理ユニットなど)がメディア・データの状態を判別できることを保証する。よって、メディア処理ユニットのそれぞれは、上流のユニットによって示されるメディア・データの状態に従って、その処理を適応させうる。さらに、メディア・データの状態についての信号情報が、該信号情報を下流のメディア処理ユニットに伝送するための必要とされるビットレートが最小限となる効率的な仕方で下流のメディア処理ユニットに提供されうることを保証するために、一つまたは複数の可逆的または不可逆的なデータ隠し技法が使用されてもよい。これは、デコーダのような上流ユニットと、後処理ユニットのような下流ユニットとの間にメタデータ経路がない場合、たとえば後処理ユニットがデコーダの一部でない場合に特に有用である。
いくつかの可能な実施形態では、エンコーダは、前処理およびメタデータ検証サブユニットにより向上されてもよく、あるいは該サブユニットを有していてもよい。いくつかの可能な実施形態では、前処理およびメタデータ検証サブユニットは、エンコーダが、メディア処理信号および/または処理状態メタデータによって示されるメディア・データの状態に基づいてメディア・データの適応的な処理を実行することを保証するよう構成されていてもよい。いくつかの可能な実施形態では、前処理およびメタデータ検証サブユニットを通じて、エンコーダは、メディア・データに関連付けられた(たとえばメディア・データとともにメディア・ビットストリームに含まれた)処理状態メタデータを検証するよう構成されていてもよい。たとえば、メタデータが信頼できるものであると検証された場合、実行された型のメディア処理からの結果が再利用されてもよく、その型のメディア処理の新たな実行が回避されうる。他方、メタデータが細工されていると見出される場合には、以前に実行されたとされる型のメディア処理は、エンコーダによって繰り返されてもよい。いくつかの可能な実施形態では、ひとたび処理状態メタデータ(メディア処理信号およびフィンガープリントに基づくメタデータ取得を含む)が信頼できないことが見出されたら、追加的な型のメディア処理がエンコーダによってメタデータに対して実行されてもよい。
処理状態メタデータが有効であると判定されたら(たとえば抽出された暗号学的値と参照用の暗号学的値の一致に基づいて)、エンコーダは、向上メディア処理チェーンにおける他のメディア処理ユニットに対して、たとえばメディア・ビットストリーム中に存在するその処理状態メタデータが有効であることを信号伝達するよう構成されていてもよい。多様なアプローチの任意のもの、一部または全部がエンコーダによって実装されてもよい。
第一のアプローチのもとでは、エンコーダは、処理状態メタデータの検証がこのエンコードされたメディア・ビットストリームに対してすでに実行されていることを示すよう、エンコードされたメディア・ビットストリーム中にフラグ(たとえば「進化フラグ(evolution flag)」)を挿入してもよい。このフラグは、フラグの存在が、本稿に記載されるような処理状態メタデータを処理および利用するよう構成されていないデコーダのような「レガシー」メディア処理ユニットに影響しないような仕方で挿入されてもよい。ある例示的実施形態では、オーディオ圧縮3(AC-3: Audio Compression-3)エンコーダが、ATSC規格(たとえばATSC A/52b)に指定されるAC-3メディア・ビットストリームのxbsi2フィールドにおいて「進化フラグ」を設定する前処理およびメタデータ検証サブユニットにより向上されてもよい。この「ビット」は、AC-3メディア・ビットストリームにおいて搬送されるすべての符号化されたフレームにおいて存在していてもよく、不使用であってもよい。いくつかの可能な実施形態では、xbsi2フィールドにおけるこのフラグの存在は、本稿に記載されるような処理状態メタデータを処理および利用するよう構成されていない、展開済みの「レガシー」デコーダに影響しない。
上記第一のアプローチのもとでは、xbsi2フィールド内の情報を認証することに関して問題があることがありうる。たとえば、(たとえば悪意のある)上流ユニットが、実際に処理状態メタデータを検証することなくxbsi2フィールドを「オン」にすることがありえ、他の下流のユニットに対して、処理状態メタデータが有効であると誤って信号伝達することがありうる。
この問題を解決するために、本発明のいくつかの実施形態は、第二のアプローチを使ってもよい。「進化フラグ」を埋め込むために、セキュアなデータ隠し方法(スペクトラム拡散に基づく諸方法、FSKに基づく諸方法および他のセキュアな通信チャネルに基づく諸方法などといった、メディア・データ自身の中にセキュアな通信チャネルを生成するいくつものデータ隠し方法の任意のものを含むがこれに限られるものではない)が使われてもよい。このセキュアな方法は、「進化フラグ」が平文で渡されることを、よってユニットもしくは侵入者によって意図的にまたは意図せずして簡単に攻撃されることを防ぐよう構成される。その代わり、この第二のアプローチのもとでは、下流のユニットは、隠されたデータを暗号化された形で取得しうる。解読および認証サブプロセスを通じて、下流のユニットは、隠されたデータの正しさを検証し、隠されたデータ中の「進化フラグ」を信頼しうる。結果として、下流のユニットは、メディア・ビットストリーム中の処理状態メタデータが以前に検証に成功していることを判別しうる。さまざまな実施形態において、「進化フラグ」のような処理状態メタデータの任意の部分が、一つまたは複数の暗号学的方法(HMACに基づくもの、HMACに基づかないもの)のうちの任意の方法で、上流の装置によって下流の装置に送達されてもよい。
いくつかの可能な実施形態では、メディア・データは最初は、たとえばPCMサンプルを含むレガシー・メディア・ビットストリームであってもよい。しかしながら、ひとたびメディア・データが本稿に記載されるような一つまたは複数のメディア処理ユニットによって処理されたら、該一つまたは複数のメディア処理ユニットによって生成された処理状態メタデータは、メディア・データの状態ならびにメディア・データをデコードするために使用されうる比較的詳細な情報(これに限られないが、メディア・データから決定される一つまたは複数のメディア特徴の任意のものを含む)を含む。いくつかの可能な実施形態では、生成された処理状態メタデータは、ビデオ・フィンガープリントのようなメディア・フィンガープリント、ラウドネス・メタデータ、ダイナミックレンジ・メタデータ、一つまたは複数のハッシュ・ベースのメッセージ認証コード(HMAC)、一つまたは複数のダイアログ・チャネル、オーディオ・フィンガープリント、列挙された処理履歴、オーディオ・ラウドネス、ダイアログ・ラウドネス、真ピーク値、サンプル・ピーク値および/または任意のユーザー(サードパーティー)が指定したメタデータを含んでいてもよい。処理状態メタデータは「進化データ・ブロック」を含んでいてもよい。
本稿での用法では、用語「向上(enhanced)」は、本稿に記載される技法のもとで他のメディア処理ユニットまたは他のメディア処理システムと、上流のユニットによって設定されたメディア・データの状態に基づいて適応的な処理を実行しうる仕方で協働する、本稿に記載される技法のもとのメディア処理ユニットの能力を指す。用語「進化(evolution)」は、本稿に記載される技法のもとのメディア処理ユニットが、レガシー・メディア処理ユニットまたはレガシー・メディア処理システムと互換な仕方で機能する能力ならびに本稿に記載される技法のもとのメディア処理ユニットが、本稿に記載される技法のもとで他のメディア処理ユニットまたは他のメディア処理システムと、上流のユニットによって設定されたメディア・データの状態に基づいて適応的な処理を実行しうる仕方で協働する能力を指す。
いくつかの可能な実施形態では、本稿に記載されるメディア処理ユニットは、一つまたは複数の型のメディア処理が実行されたメディア・データを受信してもよい。だが、前記一つまたは複数の型のメディア処理を示す、メディア・データに関連付けられたメタデータがないまたは不十分であってもよい。いくつかの可能な実施形態では、そのようなメディア処理ユニットは、そのメディア処理ユニットに対して上流の他のユニットによって実行された前記一つまたは複数の型のメディア処理を示す処理状態メタデータを生成するよう構成されていてもよい。上流装置によって行われていない特徴抽出も実行され、処理状態メタデータを下流装置に転送してもよい。いくつかの可能な実施形態では、メディア処理ユニット(たとえば進化エンコーダ/トランスコーダ)はメディア法廷解析サブユニットを有していてもよい。オーディオ法廷サブユニットのようなメディア法廷解析サブユニットは、ある種の型の処理がメディア・コンテンツ片またはメディア・データに対して実行されているかどうかを(受領されるメタデータなしに)判定するよう構成されていてもよい。解析サブユニットは、前記ある種の型の処理によって導入され、残される特定の信号処理アーチファクト/形跡を探すよう構成されていてもよい。メディア法廷サブユニットは、ある種の型の特徴抽出がメディア・コンテンツ片またはメディア・データに対して実行されているかどうかを判定するよう構成されていてもよい。解析サブユニットは、特徴ベースのメタデータの特定の存在を探すよう構成されていてもよい。本発明の目的のためには、本稿に記載されるメディア法廷解析サブユニットは、メディア処理チェーンにおけるいかなるメディア処理ユニットによって実装されてもよい。さらに、メディア法廷解析サブユニットを介してメディア処理ユニットによって生成される処理状態メタデータは、この中でメディア処理チェーン内の下流のユニットに送達されてもよい。
いくつかの可能な実施形態では、本稿に記載される処理状態メタデータは、サードパーティー・アプリケーションをサポートするために追加的なリザーブされたバイトを含んでいてもよい。追加的なリザーブされたバイトは、それらのリザーブされたバイト内の一つまたは複数のフィールドにおいて担持されるいかなる平文をもスクランブルするよう別個の暗号化鍵を割り当てることによってセキュアであることが保証されていてもよい。本発明の実施形態は、コンテンツ識別および追跡を含む新規なアプリケーションをサポートする。一例では、ニールセン格付けをもつメディアが、(メディア)メディア・ビットストリーム中で、番組についての一意的な識別子を担持していてもよい。すると、ニールセン格付けは、その番組の視聴者または聴取者の統計を計算するためにこの一意的な識別子を使用してもよい。もう一つの例では、ここにおけるリザーブされたバイトはグーグルのような検索エンジンのためのキーワードを担持していてもよい。すると、グーグルは、リザーブされたバイト中の、キーワードを担持する一つまたは複数のフィールドに含まれるキーワードに基づいて、広告を関連付けてもよい。本発明の目的のためには、本稿で論じられるようなアプリケーションにおいて、本稿の技法は、リザーブされたバイトがセキュアであり、該リザーブされたバイトの一つまたは複数のフィールドを使用するよう指定されているサードパーティー以外の何人によっても解読されないことを保証するために使われてもよい。
本稿に記載される処理状態メタデータは、メディア・データと、いくつもある異なる仕方のいずれで関連付けられてもよい。いくつかの可能な実施形態では、処理状態メタデータは、メディア・データを担持する出ていく圧縮されたメディア・ビットストリーム中に挿入されてもよい。いくつかの実施形態では、メタデータは、本稿の処理状態メタデータに基づいて適応的な処理を実行するよう構成されていないレガシー・デコーダとの後方互換性を維持するような仕方で挿入される。
4.メディア・データの例示的な適応的処理
図6は、本発明のいくつかの可能な実施形態に基づく、エンコーダ/トランスコーダの例示的な実装を示している。描かれているコンポーネントのいずれも、一つまたは複数のプロセスおよび/または一つまたは複数のIC回路(ASIC、FPGAなどを含む)として、ハードウェア、ソフトウェアまたはハードウェアとソフトウェアの組み合わせにおいて実装されてもよい。エンコーダ/トランスコーダは、フロントエンド・デコード(FED: front-end decode)、ダイナミックレンジ制御/ダイアログ・ノルム(DRC/Dialnorm)処理をかかる処理がすでに行われているかどうかに基づいて実行することを選ばないバックエンド・デコード(フル・モード)、DRC生成器(DRC Gen)、バックエンド・エンコード(BEE: back end encode)、スタッファ(stuffer)、CRC再生成ユニットなどといったいくつかのレガシー・サブユニットを有していてもよい。これらのレガシー・サブユニットを用いて、エンコーダ/トランスコーダは、ビットストリーム(たとえばAC-3であってもよいがそれに限られない)を、一つまたは複数の型のメディア処理の結果を含む別のビットストリーム(たとえば適応的かつ自動化されたラウドネス処理をもつE AC-3であってもよいがそれに限られない)に変換することができる。しかしながら、メディア処理(たとえばラウドネス処理)は、該ラウドネス処理が以前に実行されたかどうかおよび/または処理状態メタデータが入力ビットストリーム中にあるかどうかに関わりなく実行されうる。こうして、レガシー・サブユニットだけをもつエンコーダ/トランスコーダは、誤ったまたは不必要なメディア処理を実行することになる。
本稿に記載される技法のもとでは、図6に示される、いくつかの可能な実施形態では、エンコーダ/トランスコーダは、メディア・データ・パーサー/検証器(これはたとえばAC-3フラグ・パーサーおよび検証器であってもよいがそれに限られない)、付属処理ユニット(たとえば適応的な変換領域リアルタイム・ラウドネスおよびダイナミックレンジ・コントローラ、信号解析、特徴抽出など)、メディア・フィンガープリント生成(たとえば、オーディオ・フィンガープリント生成)、メタデータ生成器(たとえば進化データ生成器および/または他のメタデータ生成器)、メディア処理信号挿入(たとえば「add_bsi」挿入または補助データ・フィールドへの挿入)、HMAC生成器(これは悪意のあるまたはレガシーのエンティティによる改変を防止するために、一つまたは複数の、全部でもよいフレームにデジタル署名しうる)、他の型の暗号学的処理ユニットの一つまたは複数、処理状態信号および/または処理状態メタデータに基づいて動作する一つまたは複数のスイッチ(たとえば、フラグ・パーサー&検証器から受領されたラウドネス・フラグ「状態」またはメディア特徴についてのフラグ)などといった、複数の新しいサブユニットの任意のものを含んでいてもよい。さらに、ユーザー入力(たとえばユーザー・ターゲット・ラウドネス/ダイアルノルム(dialnorm))および/または他の入力(たとえばビデオ・フィンガープリント生成プロセスからのもの)および/または他のメタデータ入力(たとえばサードパーティー・データ、追跡情報、識別子、独自または標準情報、ユーザー注釈データ、ユーザー選好データなどの一つまたは複数の型)がエンコーダ/トランスコーダによって受領されてもよい。図のように、測定されたダイアログ、ゲートされたおよびゲートされないラウドネスおよびダイナミックレンジ値も進化データ生成器に挿入されてもよい。他のメディア特徴関連情報も、処理状態メタデータの一部を生成するために、本稿に記載される処理ユニットに注入されてもよい。
いくつかの可能な実施形態の一つまたは複数では、本稿に記載される処理状態メタデータは、ATSC A/52bによるエンハンストAC-3(E AC-3)シンタックスにおいて規定される「add_bsi」フィールドにおいて、または本稿に記載されるメディア・ビットストリーム中の一つまたは複数の補助データ・フィールドにおいて担持される。いくつかの可能な実施形態では、これらのフィールドにおける処理状態メタデータの担持は、圧縮されたメディア・ビットストリームのフレーム・サイズおよび/またはビットレートに悪影響を与えない。
いくつかの可能な実施形態では、処理状態メタデータは、主たる番組メディア・ビットストリームに関連付けられた独立したまたは従属したサブストリームに含められてもよい。このアプローチの利点は、(主たる番組メディア・ビットストリームによって担持される)メディア・データをエンコードするために割り当てられるビットレートが影響されないということである。処理状態メタデータがエンコードされたフレームの一部として担持される場合、圧縮されたメディア・ビットストリームのフレーム・サイズおよび/またはビットレートが不変でありうるよう、オーディオ情報をエンコードするために割り当てられるビットは削減されうる。たとえば、処理状態メタデータは、低減されたデータ・レート表現を有し、メディア処理ユニットの間で伝送するために10kbpsのオーダーの低いデータ・レートを取ってもよい。よって、オーディオ・サンプルのようなメディア・データは、処理状態メタデータを受け入れるために、10kbpsだけ低いレートで符号化されうる。
いくつかの可能な実施形態では、処理状態メタデータの少なくとも一部は、可逆的または不可逆的データ隠し技法を介してメディア・データ(またはサンプル)に埋め込まれてもよい。このアプローチの利点は、メディア・サンプルおよびメタデータが、下流の装置によって、同じビットストリーム内で受領されうるということである。
いくつかの可能な実施形態では、処理状態メタデータは、フィンガープリントにリンクされてメディア処理データベースに記憶されてもよい。処理状態メタデータを生成するエンコーダ/トランスコーダのような上流のユニットに対して下流にあるメディア処理ユニットは、受領したメディア・データからフィンガープリントを生成し、次いでそのフィンガープリントをメディア処理データベースに問い合わせするためのキーとして使ってもよい。データベース中の処理状態メタデータが位置特定されたのち、受領されたメディア・データに関連付けられた(または受領されたメディア・データについての)処理状態メタデータを含むデータ・ブロックが、メディア処理データベースから取得されてもよく、下流のメディア処理ユニットに利用可能にされてもよい。本稿での用法では、フィンガープリントは、メディア特徴を示すよう生成された一つまたは複数のメディア・フィンガープリントのうち任意のものを含みうるが、それに限られない。
いくつかの可能な実施形態では、処理状態メタデータを含むデータ・ブロックは、処理状態メタデータおよび/または基礎になるメディア・データについての暗号学的ハッシュ(HMAC)を含む。データ・ブロックはこれらの実施形態ではデジタル署名されると想定されているので、下流のメディア処理ユニットは、比較的簡単に、処理状態メタデータを認証し、検証することができる。これに限られないが一つまたは複数の非HMAC式の暗号学的方法のうち任意のものを含む他の暗号学的方法が、処理状態メタデータおよび/または基礎になるメディア・データのセキュアな送受信のために使われてもよい。
先述したように、本稿に記載されるエンコーダ/トランスコーダのようなメディア処理ユニットは、「レガシー」メディア・ビットストリームおよびPCMサンプルを受け入れるよう構成されてもよい。入力メディア・ビットストリームがレガシー・メディア・ビットストリームである場合、メディア処理ユニットは、メディア・ビットストリーム内にあるかもしれない、あるいは先述したような前処理およびメタデータ検証論理を含む向上「レガシー」エンコーダの一つによってメディア・データ内に隠されているかもしれない進化フラグがあるかどうかをチェックしてもよい。「進化フラグ」がない場合には、エンコーダは、適応的な処理を実行し、処理状態メタデータを、適宜、出力メディア・ビットストリーム中にまたは前記処理状態メタデータを含むデータ・ブロック中に生成するよう構成される。たとえば、図6に示されるように、「変換領域リアルタイム・ラウドネスおよびダイナミックレンジ・コントローラ」のような例示的なユニットは、当該ユニットが受け取った入力メディア・データ中のオーディオ・コンテンツを適応的に処理し、入力メディア・データまたは源メディア・ストリーム中に「進化フラグ」が存在しない場合にラウドネスおよびダイナミックレンジを自動的に調整してもよい。追加的、任意的または代替的に、別のユニットが適応的な処理を実行するために特徴ベースのメタデータを利用してもよい。
図6に示される例示的な実施形態では、エンコーダは、ある型のメディア処理(たとえばラウドネス領域処理)を実行した後処理/前処理ユニットを知っていてもよく、よって、ラウドネス領域処理において使われるおよび/またはラウドネス領域処理から導出される特定の諸パラメータを含むデータ・ブロック中に処理状態メタデータを生成してもよい。いくつかの可能な実施形態では、エンコーダは、メディア・データ中のコンテンツに対して実行された処理の型(たとえばラウドネス領域処理)について該エンコーダが知っている限り、メディア・データ中のコンテンツに対する処理履歴を反映する処理状態メタデータを生成しうる。追加的、任意的または代替的に、エンコーダは、処理状態メタデータによって記述される一つまたは複数のメディア特徴に基づいて適応的な処理を実行してもよい。追加的、任意的または代替的に、エンコーダは、メディア・データの解析を実行して、他の任意の処理ユニットに提供されるよう処理状態メタデータの一部としてメディア特徴の記述を生成してもよい。
いくつかの可能な実施形態では、本稿の技法を使うデコーダは、以下の諸シナリオにおいてメディア・データの状態を理解できる。
第一のシナリオのもとでは、デコーダが、メディア・ビットストリーム中の処理状態メタデータの有効性を示すよう設定された「進化フラグ」をもつメディア・ビットストリームを受信する場合、デコーダは、処理状態メタデータをパースおよび/または取り出し、適切な後処理ユニットのような下流のメディア処理ユニットに信号伝達してもよい。他方、「進化フラグ」が不在の場合は、デコーダは、ラウドネス・メタデータ――たとえば、ボリューム平準化処理がすでに実行されていたとしたらいくつかの可能な実施形態では処理状態メタデータ中に含まれていたはずのもの――が不在であるまたは有効であると信頼できないため、いまだボリューム平準化処理が実行されるべきであると下流のメディア処理ユニットに信号伝達してもよい。
第二のシナリオでは、デコーダが、進化エンコーダのような上流のメディア処理ユニットによって生成され、暗号学的ハッシュをエンコードされたメディア・ビットストリームを受信する場合、デコーダは、処理状態メタデータを含むデータ・ブロックから暗号学的ハッシュをパースおよび取り出し、その暗号学的ハッシュを使って受領したメディア・ビットストリームおよび関連するメタデータを検証してもよい。たとえば、デコーダが、参照暗号学的ハッシュおよび前記データ・ブロックから取得された暗号学的ハッシュの間の一致に基づいて、関連するメタデータ(たとえば、処理状態メタデータ中のラウドネス・メタデータ)が有効であると見出す場合には、デコーダは、ボリューム平準化ユニットのような下流のメディア処理ユニットに、オーディオのようなメディア・データを不変のまま通すよう信号伝達してもよい。追加的、任意的または代替的に、暗号学的ハッシュに基づく方法の代わりに他の型の暗号学的技法が使用されてもよい。追加的、任意的または代替的に、処理状態メタデータ中で記述されるメディア・データの一つまたは複数のメディア特徴に基づいて、ボリューム平準化以外の処理が実行されてもよい。
第三のシナリオでは、デコーダが、進化エンコーダのような上流のメディア処理ユニットによって生成されたメディア・ビットストリームを受信するが、処理状態メタデータを含むデータ・ブロックがメディア・ビットストリームに含まれていない場合には、そのデータ・ブロックはメディア処理データベースに記憶される。デコーダは、オーディオのようなメディア・ストリーム中のメディア・データのフィンガープリントを生成し、そのフィンガープリントを使ってメディア処理データベースに問い合わせするよう構成される。メディア処理データベースは、フィンガープリントの一致に基づいて受領されたメディア・データに関連付けられた適切なデータ・ブロックを返してもよい。いくつかの可能な実施形態では、エンコードされたメディア・ビットストリームは、先に論じたようなフィンガープリント・ベースの問い合わせをメディア処理データベースに送るようデコーダを案内するために、単純な普遍資源位置指定子(URL: universal resource locator)を含む。
これらのシナリオすべてにおいて、デコーダは、メディアの状態を理解して、下流のメディア処理ユニットに、メディア・データに対する該下流のメディア処理ユニットの処理をしかるべく適応させるよう信号伝達するよう構成される。いくつかの可能な実施形態では、本稿でのメディア・データは、デコードされたのちに再エンコードされてもよい。いくつかの可能な実施形態では、再エンコードに対応する共時的な処理状態情報を含むデータ・ブロックが、デコーダ後のエンコーダ/変換器のような下流のメディア処理ユニットに渡されてもよい。たとえば、データ・ブロックは、デコーダからの出ていくメディア・ビットストリーム中の関連付けられたメタデータとして含められてもよい。
図7は、本発明のいくつかの可能な実施形態に基づく、処理状態メタデータ中のおよび/または処理状態メタデータに関連付けられたラウドネス・メタデータの有効性に基づくボリューム平準化ユニットの動作モードを制御する例示的な進化デコーダを示している。特徴ベースの処理のような他の動作も扱われてもよい。描かれているコンポーネントのいずれも、一つまたは複数のプロセスおよび/または一つまたは複数のIC回路(ASIC、FPGAを含む)として、ハードウェア、ソフトウェアまたはハードウェアとソフトウェアの組み合わせにおいて実装されてもよい。デコーダは、フレーム情報モジュール(たとえば、AC-3、MPEG AAC、MPEG HE AAC、E AC-3などにおけるフレーム情報モジュール)、フロントエンド・デコード(たとえば、AC-3、MPEG AAC、MPEG HE AAC、E AC-3などにおけるFED)、同期および変換(たとえば、AC-3、MPEG AAC、MPEG HE AAC、E AC-3などにおける同期および変換モジュール)、フレーム・セット・バッファ、バックエンド・デコード(たとえば、AC-3、MPEG AAC、MPEG HE AAC、E AC-3などにおけるBED(back end decode))、バックエンド・エンコード(たとえば、AC-3、MPEG AAC、MPEG HE AAC、E AC-3などにおけるBEE)、CRC再生成、メディア・レンダリング(たとえばドルビー・ボリューム)などといったいくつかのレガシー・サブユニットを有していてもよい。これらのレガシー・サブユニットを用いて、デコーダは、メディア・データ中のメディア・コンテンツを下流のメディア処理ユニットに伝達し、および/または該メディア・コンテンツをレンダリングすることができる。しかしながら、このデコーダは、メディア・データの状態を伝達したり、出力ビットストリームにおいてメディア処理信号および/または処理状態メタデータを提供したりすることはできないであろう。
本稿の技法のもとでは、いくつかの可能な実施形態では、図7に示されるように、デコーダは、メタデータ・ハンドリング(進化データおよび/またはサードパーティー・データ、追跡情報、識別子、独自または標準情報、ユーザー注釈データ、ユーザー選好データ、特徴抽出、特徴ハンドリングなどのうち一つまたは複数の型を含む他のメタデータ入力)、処理状態情報についてのセキュアな(たとえば耐タンパー性の)通信(HMAC生成器および署名検証器、他の暗号学的技法)、メディア・フィンガープリント抽出(たとえば、オーディオおよびビデオ・フィンガープリント抽出)、付属メディア処理(たとえば、発話チャネル(単数または複数)/ラウドネス情報、他の型のメディア特徴)、データ隠し(たとえば、破壊的/不可逆的または可逆的でありうるPCMデータ隠し)、メディア処理信号挿入、HMAC生成器(たとえば一つまたは複数の補助データ・フィールド中への「add_bsi」挿入(単数または複数)を含んでいてもよい)、他の暗号学的技法、隠しデータ復元および検証(たとえば、隠しPCMデータの復元および検証器)、データ隠しの「取り消し」、処理状態信号および/または処理状態メタデータに基づいて動作する一つまたは複数のスイッチ(たとえば、HMAC生成器&署名検証器からの進化データ「有効」およびデータ隠し挿入制御)などといった複数の新しいサブユニットの任意のものを有していてもよい。図のように、HMAC生成器&署名検証器およびオーディオ&ビデオ・フィンガープリント抽出によって抽出された情報は、オーディオおよびビデオ同期補正、格付け、メディア権利、品質制御、メディア・ロケーション・プロセス、特徴ベースの処理などに対して出力され、あるいはこれらのために使用されてもよい。
いくつかの可能な実施形態では、メディア処理チェーンにおける後処理/前処理ユニットは、独立して動作するのではない。むしろ、後処理/前処理ユニットは、メディア処理チェーンにおけるエンコーダまたはデコーダと相互作用してもよい。エンコーダとの相互作用の場合、後処理/前処理ユニットは、データ・ブロック中のメディア・データの状態についての処理状態メタデータの少なくとも一部を生成するのを助けてもよい。デコーダとの相互作用の場合、後処理/前処理ユニットは、メディア・データの状態を判別し、該メディア・データに対するその処理をしかるべく適応させるよう構成される。一例として、図7では、ボリューム平準化ユニットのような例示的な後処理/前処理ユニットが、上流のデコーダによって送られたPCMサンプル中の隠しデータを取得し、該隠しデータに基づいて、ラウドネス・メタデータが有効であるか否かを判定してもよい。ラウドネス・メタデータが有効であれば、オーディオのような入力メディア・データは、不変のまま、ボリューム平準化ユニットを通過させられてもよい。もう一つの例では、例示的な後処理/前処理ユニットは、上流のデコーダによって送られたPCMサンプル中の隠しデータを取得し、該隠しデータに基づいて、メディア・サンプルのコンテンツから以前に決定されたメディア特徴の一つまたは複数の型を決定してもよい。声認識されたキーワードが示される場合、後処理ユニットは、該声認識されたキーワードに関係する一つまたは複数の特定の動作を実行してもよい。
5.データ隠し〔データ・ハイディング〕
図8は、本発明のいくつかの可能な実施形態に基づく、メディア処理情報を渡すためにデータ隠しを使う例示的な構成を示している。いくつかの可能な実施形態では、データ隠しは、進化エンコーダまたはデコーダ(たとえばオーディオ処理#1)のような上流の処理ユニットと、後処理/前処理ユニット(たとえばオーディオ処理#2)のような下流のメディア処理ユニットとの間の信号伝達を、該上流と下流のメディア処理ユニットの間にメタデータ経路がない場合に、可能にするために使用されてもよい。
いくつかの可能な実施形態では、メディア・データ中のメディア・データ・サンプル(たとえばX)を修正して二つのメディア処理ユニットの間でメディア処理信号および/または処理状態メタデータを運ぶ修正されたメディア・データ・サンプル(たとえばX')にするために、可逆的メディア・データ隠し(たとえば可逆的なオーディオ・データ隠し)が使われてもよい。いくつかの可能な実施形態では、本稿に記載されるメディア・データ・サンプルへの修正は、該修正の結果として、知覚上の劣化がないような仕方で行われる。よって、メディア処理ユニット1よりあとに別のメディア処理ユニットがなかったとしても、修正されたメディア・データ・サンプルに関し、耳に聞こえるまたは目に見えるアーチファクトは知覚されないことがある。換言すれば、知覚的に透明な仕方でメディア処理信号および/または処理状態メタデータを隠すことは、修正されたメディア・データ・サンプルのオーディオおよびビデオがレンダリングされるときにいかなる可聴または可視のアーチファクトも引き起こさない。
いくつかの可能な実施形態では、メディア処理ユニット(たとえば図8のオーディオ処理ユニット#2)は、修正されたメディア・データ・サンプルから、埋め込まれたメディア処理信号および/または処理状態メタデータを取り出し、修正を取り消すことによって修正されたメディア・データ・サンプルをもとのメディア・データ・サンプルに復元する。これはたとえば、サブユニット(たとえば、情報抽出およびオーディオ復元)を通じて行われてもよい。すると、取得された埋め込まれた情報は、二つのメディア処理ユニット(たとえば図8のオーディオ処理ユニット#1および#2)の間の信号伝達機構のはたらきをしうる。本稿のデータ隠し技法の堅牢さは、それらのメディア処理ユニットによって実行されうる処理の型に依存しうる。メディア処理ユニット#1の例は、セットトップボックス中のデジタル・デコーダであってもよい。一方、メディア処理ユニット#2の例は、同じセットトップボックス中のボリューム平準化ユニットであってもよい。デコーダがラウドネス・メタデータが有効であると判定する場合、デコーダは、後続のボリューム平準化ユニットに平準化を適用しないよう信号伝達するために、可逆的データ隠し技法を使ってもよい。
いくつかの可能な実施形態では、メディア・データ中のメディア・データ・サンプル(たとえばX)を修正して二つのメディア処理ユニットの間でメディア処理信号および/または処理状態メタデータを運ぶ修正されたメディア・データ・サンプル(たとえばX')にするために、不可逆的なメディア・データ隠し(たとえば、セキュア通信チャネルに基づくデータ隠し技法)が使われてもよい。いくつかの可能な実施形態では、本稿に記載されるメディア・データ・サンプルへの修正は、該修正の結果としての知覚上の劣化が最小限であるような仕方で行われる。よって、修正されたメディア・データ・サンプルに関し、耳に聞こえるまたは目に見える最小限のアーチファクトが知覚されることがある。換言すれば、知覚的に透明な仕方でメディア処理信号および/または処理状態メタデータを隠すことは、修正されたメディア・データ・サンプルのオーディオおよびビデオがレンダリングされるときに最小限の可聴または可視のアーチファクトを引き起こすことになる。
いくつかの可能な実施形態では、不可逆的データ隠しを通じた修正されたメディア・データ・サンプルにおける修正を取り消してもとのメディア・データ・サンプルを復元することはできない。
6.例示的なプロセス・フロー
図9のAおよびBは、本発明のいくつかの可能な実施形態に基づく、例示的なプロセス・フローを示している。いくつかの可能な実施形態では、メディア処理システム中の一つまたは複数のコンピューティング装置またはユニットがこのプロセス・フローを実行してもよい。
図9のAのブロック910では、メディア処理チェーン(たとえば本稿に記載される向上メディア処理チェーン)内の第一の装置が、メディア・データの出力バージョンに対してある型のメディア処理が実行されているかどうかを判定する。第一の装置は、メディア処理ユニットの一部または全体であってもよい。ブロック920では、メディア・データの出力バージョンに対して前記型のメディア処理が実行されていると判定するのに応答して、第一の装置はメディア・データの状態を生成してもよい。いくつかの可能な実施形態では、メディア・データの状態はメディア処理の型を指定してもよく、該メディア処理の結果が前記メディア・データの出力バージョンに含まれている。第一の装置は、前記メディア処理チェーン内の下流の第二の装置に、前記メディア・データの出力バージョンと、前記メディア・データの状態とを、たとえば出力メディア・ビットストリームにおいて、または前記メディア・データの出力バージョンを担持する別個のメディア・ビットストリームに関連付けられた補助メディア・ビットストリームにおいて、通信してもよい。
いくつかの可能な実施形態では、メディア・データは、オーディオ・コンテンツのみ、ビデオ・コンテンツのみまたはオーディオ・コンテンツおよびビデオ・コンテンツの両方のうちの一つまたは複数としてメディア・コンテンツを含む。
いくつかの可能な実施形態では、第一の装置は、第二の装置に、(a)メディア・フィンガープリント、(b)処理状態メタデータまたは(c)メディア処理信号のうちの一つまたは複数として、前記メディア・データの状態を提供してもよい。
いくつかの可能な実施形態では、第一の装置は、メディア処理データベースにおいて、メディア処理データ・ブロックを記憶してもよい。メディア処理データ・ブロックはメディア処理メタデータを含んでいてもよく、メディア処理データ・ブロックは、該メディア処理データ・ブロックに関連付けられている一つまたは複数のメディア・フィンガープリントに基づいて取り出し可能である。
いくつかの可能な実施形態では、メディア・データの状態は、クレデンシャル情報を用いて暗号化された暗号学的ハッシュ値を含む。暗号学的ハッシュ値は受け手装置によって認証されてもよい。
いくつかの実施形態では、メディア・データの状態の少なくとも一部は、メディア・データ中に隠されている一つまたは複数のセキュア通信チャネルを含み、前記一つまたは複数のセキュア通信チャネルは受け手装置によって認証される。ある例示的な実施形態では、前記一つまたは複数のセキュア通信チャネルは、少なくとも一つのスペクトラム拡散セキュア通信チャネルを含んでいてもよい。ある例示的な実施形態では、前記一つまたは複数のセキュア通信チャネルは、少なくとも一つの周波数シフト符号化(frequency shift keying)セキュア通信チャネルを含む。
いくつかの可能な実施形態では、メディア・データの状態は、前記型のメディア処理において使われるおよび/または前記型のメディア処理から導出されるパラメータの一つまたは複数のセットを含む。
いくつかの可能な実施形態では、第一の装置または第二の装置の少なくとも一方は、前処理ユニット、エンコーダ、メディア処理サブユニット、トランスコーダ、デコーダ、後処理ユニットまたはメディア・コンテンツ・レンダリング・サブユニットのうちの一つまたは複数を含む。ある例示的な実施形態では、第一の装置はエンコーダ(たとえばAVCエンコーダ)であり、一方、第二の装置はデコーダ(たとえばAVCデコーダ)である。
いくつかの可能な実施形態では、前記型の処理は第一の装置によって実行され、他のいくつかの可能な実施形態では、前記型の処理はその代わりに、メディア処理チェーンにおいて第一の装置に対して上流の装置によって実行される。
いくつかの可能な実施形態では、第一の装置はメディア・データの入力バージョンを受け取ってもよい。メディア・データの入力バージョンは、前記型のメディア処理を示す、前記メディア・データの任意の状態を含む。これらの実施形態において、第一の装置は、メディア・データの入力バージョンを解析して、メディア・データの入力バージョンに対してすでに実行されているメディア処理の型を判別してもよい。
いくつかの可能な実施形態では、第一の装置は、メディア・データの状態において、ラウドネスおよびダイナミックレンジをエンコードする。
いくつかの可能な実施形態では、第一の装置は、上流の装置によって実行された型のメディア処理を実行することを適応的に避けうる。しかしながら、前記型のメディア処理が実行されたときでも、第一の装置は、上流の装置によって実行された前記型のメディア処理をオーバーライドするコマンドを受け取ってもよい。その代わり、第一の装置は、たとえば同じまたは異なるパラメータを用いて、前記型のメディア処理をやはり実行するようコマンドされてもよい。第一の装置からメディア処理チェーン内で下流の第二の装置に通信されるメディア・データの状態は、前記コマンドのもとで第一の装置によって実行された前記型のメディア処理の結果を含むメディア・データの出力バージョンと、メディア・データの出力バージョンにおいては前記型のメディア処理がすでに実行されていることを示すメディア・データの状態とを含んでいてもよい。さまざまな可能な実施形態において、第一の装置は:(a)ユーザー入力、(b)第一の装置のシステム構成設定、(c)第一の装置の外部の装置からの信号伝達または(d)第一の装置内のサブユニットからの信号伝達のうちの一つから、前記コマンドを受け取ってもよい。
いくつかの実施形態では、メディア・データの状態は、一つまたは複数のセキュア通信チャネルにおいて隠されている状態メタデータの少なくとも一部を含む。
いくつかの実施形態では、第一の装置は、メディア・データの状態の少なくとも一部を記憶するためにメディア・データ中の複数のバイトを変更する。
いくつかの実施形態では、第一の装置および第二の装置の少なくとも一方は、先進テレビジョン・システムズ委員会(ATSC)コーデック、動画像専門家グループ(MPEG)コーデック、オーディオ・コーデック3(AC-3)コーデックおよびエンハンストAC-3コーデックのうちの一つまたは複数を含む。
いくつかの実施形態では、メディア処理チェーンは:メディア・コンテンツを含む時間領域サンプルを入力として受け入れ、処理された時間領域サンプルを出力するよう構成された前処理ユニットと;処理された時間領域サンプルに基づいてメディア・コンテンツの圧縮されたメディア・ビットストリームを出力するよう構成されたエンコーダと;圧縮されたメディア・ビットストリーム内の処理状態メタデータを検証するよう構成された信号解析およびメタデータ訂正ユニットと;圧縮されたメディア・ビットストリームを修正するよう構成されたトランスコーダと;圧縮されたメディア・ビットストリームに基づいてデコードされた時間領域サンプルを出力するよう構成されたデコーダと;デコードされた時間領域サンプル内のメディア・コンテンツの後処理を実行するよう構成された後処理ユニットとを有する。いくつかの実施形態では、第一の装置および第二の装置の少なくとも一方は、前記前処理ユニット、前記信号解析およびメタデータ訂正ユニット、前記トランスコーダ、前記デコーダおよび前記後処理ユニットのうちの一つまたは複数を含む。いくつかの実施形態では、前記前処理ユニット、前記信号解析およびメタデータ訂正ユニット、前記トランスコーダ、前記デコーダおよび前記後処理ユニットのうちの少なくとも一つは、上流の装置から受領される処理メタデータに基づいてメディア・コンテンツの適応的な処理を実行する。
いくつかの実施形態では、第一の装置は、メディア・データから一つまたは複数のメディア特徴を決定し、メディア・データの状態中に、前記一つまたは複数のメディア特徴の記述を含める。前記一つまたは複数のメディア特徴は、フレーム、秒、分、ユーザー定義可能な時間区間、シーン、歌、音楽片およびレコーディングのうちの一つまたは複数から決定された少なくとも一つのメディア特徴を含んでいてもよい。前記一つまたは複数のメディア特徴はメディア・データの意味的記述を含む。さまざまな実施形態において、前記一つまたは複数のメディア特徴は、構造的属性、和声およびメロディーを含む音質(tonality)、音色、リズム、ラウドネス、ステレオ・ミックス、メディア・データのある量の音源、声の不在もしくは存在、反復特性、メロディー、和声、歌詞、音色、知覚的特徴、デジタル・メディア特徴、ステレオ・パラメータ、発話コンテンツの一つまたは複数の部分のうちの一つまたは複数を含む。
図9のBのブロック950では、メディア処理チェーン(たとえば本稿に記載される向上メディア処理チェーン)内の第一の装置が、メディア・データの入力バージョンに対してある型のメディア処理がすでに実行されているかどうかを判定する。
ブロック960では、メディア・データの入力バージョンに対して前記型のメディア処理がすでに実行されていると判定するのに応答して、第一の装置は、第一の装置における前記型のメディア処理の実行を無効にするようメディア・データの処理を適応させる。いくつかの可能な実施形態では、第一の装置は、メディア・データの入力状態に基づいて一つまたは複数の型のメディア処理をオフにしてもよい。
いくつかの可能な実施形態では、第一の装置は、前記メディア処理チェーン内の下流の第二の装置に、前記メディア・データの出力バージョンと、前記メディア・データの出力バージョンにおいて前記型のメディア処理がすでに実行されていることを示す前記メディア・データの状態とを通信してもよい。
いくつかの可能な実施形態では、第一の装置は、メディア・データの状態において、ラウドネスおよびダイナミックレンジをエンコードしてもよい。いくつかの可能な実施形態では、第一の装置は、メディア・データの入力バージョンに対して前記型の処理がすでに実行されているかどうかに少なくとも部分的に基づいて、是正的なラウドネスまたはダイナミクス・オーディオ処理を適応させることの一つまたは複数を自動的に実行してもよい。
いくつかの可能な実施形態では、第一の装置は、メディア・データに対して第二の、異なる型のメディア処理を実行してもよい。第一の装置は、前記メディア処理チェーン内の下流の第二の装置に、前記メディア・データの出力バージョンと、前記メディア・データの出力バージョンにおいて前記型のメディア処理および前記第二の異なる型のメディア処理がすでに実行されていることを示す前記メディア・データの状態とを通信してもよい。
いくつかの可能な実施形態では、第一の装置は、メディア・データの入力バージョンに関連付けられているメディア・データの入力状態を取得してもよい。いくつかの可能な実施形態では、メディア・データの入力状態は、入力メディア・ビットストリームにおいて、メディア・データの入力バージョンと一緒に担持される。いくつかの可能な実施形態では、第一の装置は、メディア・データ中の、メディア・コンテンツをエンコードしているデータ・ユニット〔データ単位〕から、メディア・データの入力状態を抽出してもよい。
いくつかの可能な実施形態では、第一の装置は、前記データ・ユニットの、メディア・データの入力状態を含まないバージョンを復元し、復元されたデータ・ユニットのバージョンに基づいてメディア・コンテンツをレンダリングしてもよい。
いくつかの可能な実施形態では、第一の装置は、メディア・データの入力状態に関連付けられた暗号学的ハッシュ値を検証することによって、メディア・データの入力状態を認証してもよい。
いくつかの実施形態では、第一の装置は、メディア・データの入力状態に関連付けられた一つまたは複数のフィンガープリントを検証することによって、メディア・データの入力状態を認証してもよい。ここで、前記一つまたは複数のフィンガープリントの少なくとも一つは、メディア・データの少なくとも一部分に基づいて生成される。
いくつかの実施形態では、第一の装置は、メディア・データの入力状態に関連付けられた一つまたは複数のフィンガープリントを検証することによって、メディア・データの入力状態を検証してもよい。ここで、前記一つまたは複数のフィンガープリントの少なくとも一つは、メディア・データの少なくとも一部分に基づいて生成される。
いくつかの可能な実施形態では、第一の装置は、処理状態メタデータをもって記述されるメディア・データの入力状態を受け取ってもよい。第一の装置は、少なくとも部分的には前記処理状態メタデータに基づいて、メディア処理信号を生成してもよい。メディア処理信号は、たとえ処理状態メタデータよりも小さなデータ量であるおよび/または低いビットレートを要求するものであっても、メディア・データの入力状態を示しうる。第一の装置は、メディア処理信号を、メディア処理チェーンにおいて第一の装置の下流にあるメディア処理装置に送信してもよい。いくつかの可能な実施形態では、メディア処理信号は、メディア・データに対する一つまたは複数の修正が受け手装置によって除去できるよう可逆的なデータ隠し技法を使ってメディア・データの出力バージョン中の一つまたは複数のデータ・ユニットに隠される。いくつかの実施形態では、メディア・データに対する一つまたは複数の修正のうち少なくとも一つが受け手装置によって除去できないような不可逆的なデータ隠し技法を使ってメディア・データの出力バージョン中の一つまたは複数のデータ・ユニットに隠される。
いくつかの可能な実施形態では、第一の装置は、メディア・データの状態中の一つまたは複数のメディア特徴の記述に基づいて該一つまたは複数のメディア特徴を決定する。前記一つまたは複数のメディア特徴は、フレーム、秒、分、ユーザー定義可能な時間区間、シーン、歌、音楽片およびレコーディングのうちの一つまたは複数から決定された少なくとも一つのメディア特徴を含んでいてもよい。前記一つまたは複数のメディア特徴はメディア・データの意味的記述を含む。いくつかの実施形態では、第一の装置は、前記一つまたは複数のメディア特徴を決定するのに応答して、一つまたは複数の特定の動作を実行する。
いくつかの可能な実施形態では:メディア処理チェーン中の第一の装置により、メディア・データの源フレームの一つまたは複数のデータ・レート削減表現(data rate reduced representation)を計算する段階と;前記一つまたは複数のデータ・レート削減表現を同時かつセキュアに、メディア・データ自身の状態内で、メディア処理チェーン中の第二の装置に搬送する段階とを含む、一つまたは複数のコンピューティング装置によって実行される方法が提供される。
いくつかの可能な実施形態では、前記一つまたは複数のデータ・レート削減表現は、サブストリーム、一つまたは複数のリザーブされたフィールド、add_bsiフィールド、一つまたは複数の補助データ・フィールドまたは一つまたは複数の変換係数のうちの少なくとも一つにおいて担持される。
いくつかの可能な実施形態では、前記一つまたは複数のデータ・レート削減表現は、メディア・データ内で送達されるオーディオおよびビデオを同期させるために使われる同期データを含む。
いくつかの可能な実施形態では、前記一つまたは複数のデータ・レート削減表現は、(a)メディア処理ユニットによって生成され、(b)品質モニタリング、メディア格付け、メディア追跡またはコンテンツ検索のうちの一つまたは複数のためにメディア・データに埋め込まれた、メディア・フィンガープリントを含む。
いくつかの可能な実施形態では、本方法はさらに、メディア処理チェーン中の前記一つまたは複数のコンピューティング装置の少なくとも一つによって、メディア・データおよび/またはメディア・データの状態に基づく暗号学的ハッシュ値を計算し、メディア・データを担持する一つまたは複数のエンコードされたビットストリーム内で送信する段階を含む。
いくつかの可能な実施形態では、本方法はさらに、受け手装置によって、前記暗号学的ハッシュ値を認証し;前記受け手装置によって一つまたは複数の下流のメディア処理ユニットに対して、メディア・データの状態が有効であるかどうかの判定を信号伝達し;メディア・データの状態が有効であると判定するのに応答して、前記受け手装置によって前記一つまたは複数の下流のメディア処理ユニットに対して、メディア・データの状態を信号伝達することを含む。
いくつかの可能な実施形態では、メディアの状態および/またはメディア・データを表す前記暗号学的ハッシュ値は、サブストリーム、一つまたは複数のリザーブされたフィールド、add_bsiフィールド、一つまたは複数の補助データ・フィールドまたは一つまたは複数の変換係数のうちの少なくとも一つにおいて担持される。
いくつかの可能な実施形態では:音響心理学的ユニット、変換、波形/空間オーディオ符号化ユニット、エンコーダ、デコーダ、トランスコーダまたはストリーム・プロセッサのうちの一つまたは複数を含むメディア処理チェーン中の一つまたは複数のコンピューティング装置により、メディア・データの状態によって示される一つまたは複数の上流のメディア処理ユニットによるメディア・データのラウドネス処理の過去の履歴に基づいて、メディア・データの入力バージョンを適応的に処理する段階と;メディア処理チェーンの末尾におけるメディア・データの出力バージョンのラウドネスおよび/またはダイナミックレンジを、一貫するラウドネスおよび/またはダイナミックレンジ値に正規化する(normalizing)段階とを含む方法が提供される。
いくつかの可能な実施形態では、前記一貫するラウドネス値は、(1)ユーザーによって制御または選択されるまたは(2)メディア・データの入力バージョン内の状態によって適応的に信号伝達されるラウドネス値を含む。
いくつかの可能な実施形態では、前記ラウドネス値は、メディア・データのダイアログ(発話)部分に対して計算される。
いくつかの可能な実施形態では、前記ラウドネス値は、メディア・データの絶対的な、相対的なおよび/またはゲートされていない部分に対して計算される。
いくつかの可能な実施形態では、前記一貫するダイナミックレンジ値は、(1)ユーザーによって制御または選択されるまたは(2)メディア・データの入力バージョン内の状態によって適応的に信号伝達されるダイナミックレンジ値を含む。
いくつかの可能な実施形態では、前記ダイナミックレンジ値は、メディア・データのダイアログ(発話)部分に対して計算される。
いくつかの可能な実施形態では、前記ダイナミックレンジ値は、メディア・データの絶対的な、相対的なおよび/またはゲートされていない部分に対して計算される。
いくつかの可能な実施形態では、本方法はさらに:メディア・データの出力バージョンを一貫するラウドネス値および一貫するダイナミックレンジに正規化するための一つまたは複数のラウドネスおよび/またはダイナミックレンジ利得制御値を計算する段階と;前記一つまたは複数のラウドネスおよび/またはダイナミックレンジ利得制御値を、メディア処理チェーンの末尾におけるメディア・データの出力バージョンの状態内で同時に搬送する段階とをさらに含み、前記一つまたは複数のラウドネスおよび/またはダイナミックレンジ利得制御値は、メディア・データの入力バージョンにおけるもとのラウドネス値およびもとのダイナミックレンジを復元するために前記一つまたは複数のラウドネスおよび/またはダイナミックレンジ利得制御値を逆適用するために別の装置によって使用可能である。
いくつかの可能な実施形態では、メディア・データの出力バージョンの状態を表す前記一つまたは複数のラウドネスおよび/またはダイナミックレンジ制御値は、サブストリーム、一つまたは複数のリザーブされたフィールド、add_bsiフィールド、一つまたは複数の補助データ・フィールドまたは一つまたは複数の変換係数のうちの少なくとも一つにおいて担持される。
いくつかの可能な実施形態では、音響心理学的ユニット、変換、波形/空間オーディオ符号化ユニット、エンコーダ、デコーダ、トランスコーダまたはストリーム・プロセッサのうちの一つまたは複数を含むメディア処理チェーン中の一つまたは複数のコンピューティング装置によって、一つまたは複数のエンコードされたビットストリーム中の、関係するおよび関係しないメディア・データ位置および/または関係するおよび関係しないメディア・データ位置の状態の挿入、抽出または編集のうちの一つを実行する段階を含む方法が提供される。
いくつかの可能な実施形態では、エンコードされたビットストリーム中の、前記一つまたは複数の関係するおよび関係しないメディア・データ位置および/または関係するおよび関係しないメディア・データ位置の状態は、サブストリーム、一つまたは複数のリザーブされたフィールド、add_bsiフィールド、一つまたは複数の補助データ・フィールドまたは一つまたは複数の変換係数のうちの少なくとも一つにおいて担持される。
いくつかの可能な実施形態では、音響心理学的ユニット、変換、波形/空間オーディオ符号化ユニット、エンコーダ、デコーダ、トランスコーダまたはストリーム・プロセッサのうちの一つまたは複数を含むメディア処理チェーン中の一つまたは複数のコンピューティング装置によって、一つまたは複数のエンコードされたビットストリーム中の、関係するおよび関係しないメディア・データおよび/または関係するおよび関係しないメディア・データの状態の挿入、抽出または編集のうちの一つまたは複数を実行する段階を含む方法が提供される。
いくつかの可能な実施形態では、エンコードされたビットストリーム中の、前記一つまたは複数の関係するおよび関係しないメディア・データおよび/または関係するおよび関係しないメディア・データの状態は、サブストリーム、一つまたは複数のリザーブされたフィールド、add_bsiフィールド、一つまたは複数の補助データ・フィールドまたは一つまたは複数の変換係数のうちの少なくとも一つにおいて担持される。
いくつかの可能な実施形態では、メディア処理システムが、音響心理学的ユニット、変換、波形/空間オーディオ符号化ユニット、エンコーダ、デコーダ、トランスコーダまたはストリーム・プロセッサのうちの一つまたは複数を含むメディア処理チェーン中の一つまたは複数のコンピューティング装置によって、メディア・データおよび/またはメディア・データの状態に基づく暗号学的ハッシュ値を計算し、一つまたは複数のエンコードされたビットストリーム中で搬送するよう構成される。
本稿での用法では、用語「関係するおよび関係しないメディア・データ位置」は、関係するメディア(たとえば異なるビットストリーム・フォーマットでのメディアのコピー)の位置を示す絶対的パス、相対パスおよび/またはURLまたは関係しないメディアまたは当該メディア・データ位置が見出されるエッセンスまたはビットストリームに直接関係しない他の型の情報の位置(たとえば、コマーシャル、広告、ウェブ・ページなどといった新しいメディア片の位置)を示す絶対パス、相対パスおよび/またはURLのようなメディア資源位置指定子を含みうる情報を指しうる。
本稿での用法では、用語「関係するおよび関係しないメディア・データ位置の状態」は、該関係するおよび関係しないメディア位置の有効性を指しうる(該位置は、それらが搬送されるビットストリームのライフサイクルを通じて編集/更新されることができるので)。
本稿での用法では、用語「関係するメディア・データ」は、ビットストリームが表す主要メディアと高度に相関している副次的メディア・データ・ビットストリームの形の関係したメディア・データの搬送を指しうる(たとえば第二の(独立な)ビットストリーム・フォーマットでのメディア・データのコピーの搬送)。関係しないメディア・データのコンテキストでは、この情報は、主要メディア・データとは独立な副次的なメディア・データ・ビットストリームの搬送を指しうる。
本稿での用法では、関係するメディア・データについての「状態」は、何らかの信号伝達情報(処理履歴、更新された目標ラウドネスなど……)および/またはメタデータならびに関係するメディア・データの有効性を指しうる。関係しないメディア・データについての「状態」は、「関係する」メディア・データの状態とは別個に(独立に)搬送されることのできる、有効性情報を含む独立な信号伝達おおよび/またはメタデータを指しうる。関係しないメディア・データの状態は、この情報が見出されるメディア・データ・ビットストリームに「関係しない」メディア・データを表す(この情報は、それらが搬送されるビットストリームのライフサイクルを通じて独立に編集/更新されることができるので)。
本稿での用法では、用語「メディア・データの絶対的な、相対的なおよび/またはゲートされていない部分」は、メディア・データに対して実行されるラウドネスおよび/またはレベル測定のゲーティングに関係する。ゲーティングは特定のレベルまたはラウドネス閾値を参照し、閾値を超える計算された値が最終的な測定に含められる(たとえば、最終的な測定値において−60dBFSを下回る短期的なラウドネス値は無視する)。絶対的な値に対するゲーティングは、固定したレベルまたはラウドネスを指し、相対的な値に対するゲーティングは、現在の「ゲートされていない」測定値に依存する値を指す。
図12Aないし図12Lは、本発明のいくつかの可能な実施形態に基づく、いくつかの例示的なメディア処理ノード/装置のブロック図をさらに図解している。
図12Aに示されるところでは、信号プロセッサ(これはN個のノードのうちのノード1であってもよい)は、オーディオPCMサンプルを含んでいてもよい入力信号を受領するよう構成される。オーディオPCMサンプルは、オーディオPCMサンプルの間に隠された処理状態メタデータ(またはメディア状態メタデータ)を含んでいてもいなくてもよい。図12Aの信号プロセッサは、図12Aの信号プロセッサより前の一つまたは複数のメディア処理ユニットによって提供されるところの、オーディオPCMサンプルからの処理状態メタデータを、デコード、抽出および/または解釈するよう構成されているメディア状態メタデータ抽出器を有していてもよい。処理状態メタデータの少なくとも一部は、図12Aの信号プロセッサ中のオーディオ・エンコーダに、該オーディオ・エンコーダについての処理パラメータを適応させるために提供されてもよい。並行して、図12Aの信号プロセッサ中のオーディオ解析ユニットが、入力信号において渡されたメディア・コンテンツを解析してもよい。特徴抽出、メディア分類、ラウドネス推定、フィンガープリント生成などが、オーディオ解析ユニットによって実行される解析の一部として実装されてもよい。この解析の結果の少なくとも一部が、図12Aの信号プロセッサ中のオーディオ・エンコーダに、該オーディオ・エンコーダについての処理パラメータを適応させるために提供されてもよい。オーディオ・エンコーダは、入力信号中のオーディオPCMサンプルを、処理パラメータに基づいてエンコードして、出力信号中の符号化されたビットストリームにする。図12Aの信号プロセッサ中の符号化ビットストリーム解析ユニットは、図12Aの信号プロセッサの出力信号において送信されるべき該符号化されたビットストリーム中のメディア・データまたはサンプルが、処理状態メタデータの少なくとも一部を格納する余地をもつかどうかを判定するよう構成されていてもよい。図12Aの信号プロセッサによって送信されるべき新しい処理状態メタデータは、前記メディア状態メタデータ抽出器によって抽出された処理状態メタデータ、前記オーディオ解析ユニットおよび図12Aの信号プロセッサのメディア状態メタデータ生成器によって生成された処理状態メタデータおよび/または任意のサードパーティー・データの一部または全部を含む。符号化されたビットストリーム中のメディア・データまたはサンプルが処理状態メタデータの少なくとも一部を格納する余地をもつと判定される場合、前記新たな処理状態メタデータの一部または全部が、出力信号中のメディア・データまたはサンプルにおいて隠しデータとして格納されてもよい。追加的、任意的または代替的に、前記新たな処理状態メタデータの一部または全部は、出力信号中のメディア・データおよびサンプルとは別個のメタデータ構造に格納されてもよい。よって、出力信号は、セキュアな隠されたまたは隠されていない通信チャネルを介してメディア・サンプル(エッセンス)内および/またはメディア・サンプル(エッセンス)の間に担持される、前記新たな処理状態(または「メディア状態」)メタデータを含む符号化されたビットストリームを含んでいてもよい。
図12Bに示されるところでは、信号プロセッサ(これはN個のノードのうちのノード1であってもよい)は、オーディオPCMサンプルを含んでいてもよい入力信号を受領するよう構成される。オーディオPCMサンプルは、オーディオPCMサンプルの間に隠された処理状態メタデータ(またはメディア状態メタデータ)を含んでいてもいなくてもよい。図12Bの信号プロセッサは、図12Bの信号プロセッサより前の一つまたは複数のメディア処理ユニットによって提供されるところの、オーディオPCMサンプルからの処理状態メタデータを、デコード、抽出および/または解釈するよう構成されているメディア状態メタデータ抽出器を有していてもよい。処理状態メタデータの少なくとも一部は、図12Bの信号プロセッサ中のPCMオーディオ・サンプル・プロセッサに、該PCMオーディオ・サンプル・プロセッサについての処理パラメータを適応させるために提供されてもよい。並行して、図12Bの信号プロセッサ中のオーディオ解析ユニットが、入力信号において渡されたメディア・コンテンツを解析してもよい。特徴抽出、メディア分類、ラウドネス推定、フィンガープリント生成などが、オーディオ解析ユニットによって実行される解析の一部として実装されてもよい。この解析の結果の少なくとも一部が、図12Bの信号プロセッサ中のオーディオ・エンコーダに、該PCMオーディオ・サンプル・プロセッサについての処理パラメータを適応させるために提供されてもよい。PCMオーディオ・サンプル・プロセッサは、入力信号中のオーディオPCMサンプルを、処理パラメータに基づいて処理して、出力信号中の符号化されたPCMオーディオ(サンプル)ビットストリームにする。図12Bの信号プロセッサ中のPCMオーディオ解析ユニットは、図12Bの信号プロセッサの出力信号において送信されるべきPCMオーディオ・ビットストリーム中のメディア・データまたはサンプルが、処理状態メタデータの少なくとも一部を格納する余地をもつかどうかを判定するよう構成されていてもよい。図12Bの信号プロセッサによって送信されるべき新しい処理状態メタデータは、前記メディア状態メタデータ抽出器によって抽出された処理状態メタデータ、前記オーディオ解析ユニットおよび図12Bの信号プロセッサのメディア状態メタデータ生成器によって生成された処理状態メタデータおよび/または任意のサードパーティー・データの一部または全部を含む。PCMオーディオ・ビットストリーム中のメディア・データまたはサンプルが処理状態メタデータの少なくとも一部を格納する余地をもつと判定される場合、前記新たな処理状態メタデータの一部または全部が、出力信号中のメディア・データまたはサンプルにおいて隠しデータとして格納されてもよい。追加的、任意的または代替的に、前記新たな処理状態メタデータの一部または全部は、出力信号中のメディア・データおよびサンプルとは別個のメタデータ構造に格納されてもよい。よって、出力信号は、セキュアな隠されたまたは隠されていない通信チャネルを介してメディア・サンプル(エッセンス)内および/またはメディア・サンプル(エッセンス)の間に担持される、前記新たな処理状態(または「メディア状態」)メタデータを含むPCMオーディオ・ビットストリームを含んでいてもよい。
図12Cに示されるところでは、信号プロセッサ(これはN個のノードのうちのノード1であってもよい)は、PCMオーディオ(サンプル)ビットストリームを含んでいてもよい入力信号を受領するよう構成される。PCMオーディオ・ビットストリームは、セキュアな隠されたまたは隠されていない通信チャネルを介してPCMオーディオ・ビットストリーム中のメディア・サンプル(エッセンス)内および/またはメディア・サンプル(エッセンス)の間に担持される、処理状態メタデータ(またはメディア状態メタデータ)を含んでいてもよい。図12Cの信号プロセッサは、PCMオーディオ・ビットストリームからの処理状態メタデータを、デコード、抽出および/または解釈するよう構成されているメディア状態メタデータ抽出器を有していてもよい。処理状態メタデータの少なくとも一部は、図12Cの信号プロセッサ中のPCMオーディオ・サンプル・プロセッサに、該PCMオーディオ・サンプル・プロセッサについての処理パラメータを適応させるために提供されてもよい。処理状態メタデータは、図12Cの信号プロセッサより前の一つまたは複数のメディア処理ユニットによって決定される、メディア特徴、メディア・クラス・タイプもしくはサブタイプまたは確からしさ/確率値の記述を含んでいてもよく、図12Cの信号プロセッサはそれを、自分自身のメディア・コンテンツ解析を実行することなく利用するよう構成されていてもよい。追加的、任意的または代替的に、メディア状態メタデータ抽出器は、入力信号からのサードパーティー・データを抽出し、該サードパーティー・データを下流の処理ノード/エンティティ/装置に送信するよう構成されていてもよい。ある実施形態では、PCMオーディオ・サンプル・プロセッサは、図12Cの信号プロセッサより前の前記一つまたは複数のメディア処理ユニットによって与えられる処理状態メタデータに基づいて設定された処理パラメータに基づいて、PCMオーディオ・ビットストリームを処理して出力信号のオーディオPCMサンプルにする。
図12Dに示されるところでは、信号プロセッサ(これはN個のノードのうちのノード1であってもよい)は、符号化されたオーディオ・ビットストリームを含んでいてもよい入力信号を受領するよう構成される。符号化されたオーディオ・ビットストリームは、セキュアな隠されたまたは隠されていない通信チャネルを介してメディア・サンプル内に担持されるおよび/またはメディア・サンプルの間に隠される、処理状態メタデータ(またはメディア状態メタデータ)を含んでいる。図12Dの信号プロセッサは、図12Dの信号プロセッサより前の一つまたは複数のメディア処理ユニットによって提供されるところの、符号化されたビットストリームからの処理状態メタデータを、デコード、抽出および/または解釈するよう構成されているメディア状態メタデータ抽出器を有していてもよい。処理状態メタデータの少なくとも一部は、図12Dの信号プロセッサ中のオーディオ・デコーダに、該オーディオ・デコーダについての処理パラメータを適応させるために提供されてもよい。並行して、図12Dの信号プロセッサ中のオーディオ解析ユニットが、入力信号において渡されたメディア・コンテンツを解析してもよい。特徴抽出、メディア分類、ラウドネス推定、フィンガープリント生成などが、オーディオ解析ユニットによって実行される解析の一部として実装されてもよい。この解析の結果の少なくとも一部が、図12Dの信号プロセッサ中のオーディオ・デコーダに、該オーディオ・デコーダについての処理パラメータを適応させるために提供されてもよい。オーディオ・デコーダは、入力信号中の符号化されたオーディオ・ビットストリームを、処理パラメータに基づいて、出力信号中のPCMオーディオ・ビットストリームに変換する。図12Dの信号プロセッサ中のPCMオーディオ解析ユニットは、PCMオーディオ・ビットストリーム中のメディア・データまたはサンプルが、処理状態メタデータの少なくとも一部を格納する余地をもつかどうかを判定するよう構成されていてもよい。図12Dの信号プロセッサによって送信されるべき新しい処理状態メタデータは、前記メディア状態メタデータ抽出器によって抽出された処理状態メタデータ、前記オーディオ解析ユニットおよび図12Dの信号プロセッサのメディア状態メタデータ生成器によって生成された処理状態メタデータおよび/または任意のサードパーティー・データの一部または全部を含む。PCMオーディオ・ビットストリーム中のメディア・データまたはサンプルが処理状態メタデータの少なくとも一部を格納する余地をもつと判定される場合、前記新たな処理状態メタデータの一部または全部が、出力信号中のメディア・データまたはサンプルにおいて隠しデータとして格納されてもよい。追加的、任意的または代替的に、前記新たな処理状態メタデータの一部または全部は、出力信号中のメディア・データおよびサンプルとは別個のメタデータ構造に格納されてもよい。よって、出力信号は、セキュアな隠されたまたは隠されていない通信チャネルを介してメディア・データ/サンプル(エッセンス)内および/またはメディア・データ/サンプル(エッセンス)の間に担持される、処理状態(または「メディア状態」)メタデータを含むPCMオーディオ(サンプル)・ビットストリームを含んでいてもよい。
図12Eに示されるところでは、信号プロセッサ(これはN個のノードのうちのノード1であってもよい)は、符号化されたオーディオ・ビットストリームを含んでいてもよい入力信号を受領するよう構成される。符号化されたオーディオ・ビットストリームは、セキュアな隠されたまたは隠されていない通信チャネルを介して符号化されたオーディオ・ビットストリーム中のメディア・サンプル(エッセンス)内および/またはメディア・サンプル(エッセンス)の間に担持される、処理状態メタデータ(またはメディア状態メタデータ)を含んでいてもよい。図12Eの信号プロセッサは、符号化されたオーディオ・ビットストリームからの処理状態メタデータを、デコード、抽出および/または解釈するよう構成されているメディア状態メタデータ抽出器を有していてもよい。処理状態メタデータの少なくとも一部は、図12Eの信号プロセッサ中のオーディオ・デコーダに、該オーディオ・デコーダについての処理パラメータを適応させるために提供されてもよい。処理状態メタデータは、図12Eの信号プロセッサより前の一つまたは複数のメディア処理ユニットによって決定される、メディア特徴、メディア・クラス・タイプもしくはサブタイプまたは確からしさ/確率値の記述を含んでいてもよく、図12Eの信号プロセッサはそれを、自分自身のメディア・コンテンツ解析を実行することなく利用するよう構成されていてもよい。追加的、任意的または代替的に、メディア状態メタデータ抽出器は、入力信号からサードパーティー・データを抽出し、該サードパーティー・データを下流の処理ノード/エンティティ/装置に送信するよう構成されていてもよい。ある実施形態では、オーディオ・デコーダは、図12Eの信号プロセッサより前の前記一つまたは複数のメディア処理ユニットによって与えられる処理状態メタデータに基づいて設定された処理パラメータに基づいて、符号化されたオーディオ・ビットストリームを処理して出力信号のオーディオPCMサンプルにする。
図12Fに示されるところでは、信号プロセッサ(これはN個のノードのうちのノード1であってもよい)は、符号化されたオーディオ・ビットストリームを含んでいてもよい入力信号を受領するよう構成される。符号化されたオーディオ・ビットストリームは、セキュアな隠されたまたは隠されていない通信チャネルを介してメディア・サンプル内に担持されるおよび/またはメディア・サンプルの間に隠される、処理状態メタデータ(またはメディア状態メタデータ)を含んでいる。図12Fの信号プロセッサは、図12Fの信号プロセッサより前の一つまたは複数のメディア処理ユニットによって提供されるところの、符号化されたビットストリームからの処理状態メタデータを、デコード、抽出および/または解釈するよう構成されているメディア状態メタデータ抽出器を有していてもよい。処理状態メタデータの少なくとも一部は、図12Fの信号プロセッサ中のビットストリーム・トランスコーダ(または符号化されたオーディオ・ビットストリーム・プロセッサ)に、該ビットストリーム・トランスコーダについての処理パラメータを適応させるために提供されてもよい。並行して、図12Fの信号プロセッサ中のオーディオ解析ユニットが、入力信号において渡されたメディア・コンテンツを解析してもよい。特徴抽出、メディア分類、ラウドネス推定、フィンガープリント生成などが、オーディオ解析ユニットによって実行される解析の一部として実装されてもよい。この解析の結果の少なくとも一部が、図12Fの信号プロセッサ中のビットストリーム・トランスコーダに、該ビットストリーム・トランスコーダについての処理パラメータを適応させるために提供されてもよい。ビットストリーム・トランスコーダは、入力信号中の符号化されたオーディオ・ビットストリームを、処理パラメータに基づいて、出力信号中の符号化されたオーディオ・ビットストリームに変換する。図12Fの信号プロセッサ中の符号化されたビットストリーム解析ユニットは、符号化されたオーディオ・ビットストリーム中のメディア・データまたはサンプルが、処理状態メタデータの少なくとも一部を格納する余地をもつかどうかを判定するよう構成されていてもよい。図12Fの信号プロセッサによって送信されるべき新しい処理状態メタデータは、前記メディア状態メタデータ抽出器によって抽出された処理状態メタデータ、前記オーディオ解析ユニットおよび図12Fの信号プロセッサのメディア状態メタデータ生成器によって生成された処理状態メタデータおよび/または任意のサードパーティー・データの一部または全部を含む。符号化されたオーディオ・ビットストリーム中のメディア・データまたはサンプルが処理状態メタデータの少なくとも一部を格納する余地をもつと判定される場合、前記新たな処理状態メタデータの一部または全部が、出力信号中のメディア・データまたはサンプルにおいて隠しデータとして格納されてもよい。追加的、任意的または代替的に、前記新たな処理状態メタデータの一部または全部は、出力信号中のメディア・データとは別個のメタデータ構造に格納されてもよい。よって、出力信号は、セキュアな隠されたまたは隠されていない通信チャネルを介してメディア・データ/サンプル(エッセンス)内および/またはメディア・データ/サンプル(エッセンス)の間に担持される、処理状態(または「メディア状態」)メタデータを含む符号化されたオーディオ・ビットストリームを含んでいてもよい。
図12Gは部分的に図12Aに似た例示的な構成を示している。追加的、任意的または代替的に、図12Gの信号プロセッサは、図12Gの信号プロセッサにイントラネットおよび/またはインターネットを通じて動作上リンクされうる、ローカルなおよび/または外部のメディア状態メタデータ・データベースに問い合わせするよう構成されているメディア状態メタデータ抽出器を有していてもよい。図12Gの信号プロセッサによってデータベースに送られる問い合わせは、メディア・データに関連付けられた一つまたは複数のフィンガープリント、メディア・データに関連付けられた一つまたは複数の名前(たとえば楽曲のタイトル、映画のタイトル)またはメディア・データに関連付けられた他の任意の型の識別情報を含んでいてもよい。問い合わせ中の情報に基づいて、データベースに記憶されている一致したメディア状態メタデータが位置特定され、図12Gの信号プロセッサに与えられてもよい。メディア状態メタデータは、メディア状態メタデータ抽出器によって、オーディオ・エンコーダのような下流の処理ノード/エンティティに与えられる処理状態メタデータに含められてもよい。追加的、任意的または代替的に、図12Gの信号プロセッサは、図12Gに示されるように、任意の生成されたメディア状態メタデータおよび/またはフィンガープリント、名前および/または他の型の識別情報のような関連付けられた識別情報を、ローカルなおよび/または外部のメディア状態メタデータ・データベースに提供するよう構成されているメディア状態メタデータ生成器を有していてもよい。追加的、任意的または代替的に、データベースに記憶されているメディア状態メタデータの一つまたは複数の部分が、セキュアな隠されたまたは隠されていない通信チャネルを介してメディア・サンプル(エッセンス)内および/またはメディア・サンプル(エッセンス)間で下流のメディア処理ノード/装置に通信されるよう、図12Gの信号プロセッサに提供されてもよい。
図12Hは部分的に図12Bに似た例示的な構成を示している。追加的、任意的または代替的に、図12Hの信号プロセッサは、図12Hの信号プロセッサにイントラネットおよび/またはインターネットを通じて動作上リンクされうる、ローカルなおよび/または外部のメディア状態メタデータ・データベースに問い合わせするよう構成されているメディア状態メタデータ抽出器を有していてもよい。図12Hの信号プロセッサによってデータベースに送られる問い合わせは、メディア・データに関連付けられた一つまたは複数のフィンガープリント、メディア・データに関連付けられた一つまたは複数の名前(たとえば楽曲のタイトル、映画のタイトル)またはメディア・データに関連付けられた他の任意の型の識別情報を含んでいてもよい。問い合わせ中の情報に基づいて、データベースに記憶されている一致したメディア状態メタデータが位置特定され、図12Hの信号プロセッサに与えられてもよい。メディア状態メタデータは、メディア状態メタデータ抽出器によって、PCMオーディオ・サンプル・プロセッサのような下流の処理ノード/エンティティに与えられる処理状態メタデータに含められてもよい。追加的、任意的または代替的に、図12Hの信号プロセッサは、図12Hに示されるように、任意の生成されたメディア状態メタデータおよび/またはフィンガープリント、名前および/または他の型の識別情報のような関連付けられた識別情報を、ローカルなおよび/または外部のメディア状態メタデータ・データベースに提供するよう構成されているメディア状態メタデータ生成器を有していてもよい。追加的、任意的または代替的に、データベースに記憶されているメディア状態メタデータの一つまたは複数の部分が、セキュアな隠されたまたは隠されていない通信チャネルを介してメディア・サンプル(エッセンス)内および/またはメディア・サンプル(エッセンス)間で下流のメディア処理ノード/装置に通信されるよう、図12Hの信号プロセッサに提供されてもよい。
図12Iは部分的に図12Cに似た例示的な構成を示している。追加的、任意的または代替的に、図12Iの信号プロセッサは、図12Iの信号プロセッサにイントラネットおよび/またはインターネットを通じて動作上リンクされうる、ローカルなおよび/または外部のメディア状態メタデータ・データベースに問い合わせするよう構成されているメディア状態メタデータ抽出器を有していてもよい。図12Iの信号プロセッサによってデータベースに送られる問い合わせは、メディア・データに関連付けられた一つまたは複数のフィンガープリント、メディア・データに関連付けられた一つまたは複数の名前(たとえば楽曲のタイトル、映画のタイトル)またはメディア・データに関連付けられた他の任意の型の識別情報を含んでいてもよい。問い合わせ中の情報に基づいて、データベースに記憶されている一致したメディア状態メタデータが位置特定され、図12Iの信号プロセッサに与えられてもよい。メディア状態メタデータは、PCMオーディオ・サンプル・プロセッサのような下流の処理ノード/エンティティに与えられてもよい。
図12Jは部分的に図12Dに似た例示的な構成を示している。追加的、任意的または代替的に、図12Jの信号プロセッサは、図12Jの信号プロセッサにイントラネットおよび/またはインターネットを通じて動作上リンクされうる、ローカルなおよび/または外部のメディア状態メタデータ・データベースに問い合わせするよう構成されているメディア状態メタデータ抽出器を有していてもよい。図12Jの信号プロセッサによってデータベースに送られる問い合わせは、メディア・データに関連付けられた一つまたは複数のフィンガープリント、メディア・データに関連付けられた一つまたは複数の名前(たとえば楽曲のタイトル、映画のタイトル)またはメディア・データに関連付けられた他の任意の型の識別情報を含んでいてもよい。問い合わせ中の情報に基づいて、データベースに記憶されている一致したメディア状態メタデータが位置特定され、図12Jの信号プロセッサに与えられてもよい。データベースからのメディア状態メタデータは、オーディオ・デコーダのような下流の処理ノード/エンティティに与えられる処理状態メタデータに含められてもよい。追加的、任意的または代替的に、図12Jの信号プロセッサは、図12Jに示されるように、任意の生成されたメディア状態メタデータおよび/またはフィンガープリント、名前および/または他の型の識別情報のような関連付けられた識別情報を、ローカルなおよび/または外部のメディア状態メタデータ・データベースに提供するよう構成されているオーディオ解析ユニットを有していてもよい。追加的、任意的または代替的に、データベースに記憶されているメディア状態メタデータの一つまたは複数の部分が、セキュアな隠されたまたは隠されていない通信チャネルを介してメディア・サンプル(エッセンス)内および/またはメディア・サンプル(エッセンス)間で下流のメディア処理ノード/装置に通信されるよう、図12Jの信号プロセッサに提供されてもよい。
図12Kは部分的に図12Fに似た例示的な構成を示している。追加的、任意的または代替的に、図12Kの信号プロセッサは、図12Kの信号プロセッサにイントラネットおよび/またはインターネットを通じて動作上リンクされうる、ローカルなおよび/または外部のメディア状態メタデータ・データベースに問い合わせするよう構成されているメディア状態メタデータ抽出器を有していてもよい。図12Kの信号プロセッサによってデータベースに送られる問い合わせは、メディア・データに関連付けられた一つまたは複数のフィンガープリント、メディア・データに関連付けられた一つまたは複数の名前(たとえば楽曲のタイトル、映画のタイトル)またはメディア・データに関連付けられた他の任意の型の識別情報を含んでいてもよい。問い合わせ中の情報に基づいて、データベースに記憶されている一致したメディア状態メタデータが位置特定され、図12Kの信号プロセッサに与えられてもよい。データベースからのメディア状態メタデータは、ビットストリーム・トランスコーダまたは符号化されたオーディオ・ビットストリーム・プロセッサのような下流の処理ノード/エンティティに与えられる処理状態メタデータに含められてもよい。追加的、任意的または代替的に、データベースに記憶されているメディア状態メタデータの一つまたは複数の部分が、セキュアな隠されたまたは隠されていない通信チャネルを介してメディア・サンプル(エッセンス)内および/またはメディア・サンプル(エッセンス)間で下流のメディア処理ノード/装置に通信されるよう、図12Kの信号プロセッサに提供されてもよい。
図12Lは、ある例示的な実施形態に基づく、信号プロセッサ・ノード1および信号プロセッサ・ノード2を示している。信号プロセッサ・ノード1および信号プロセッサ・ノード2は、全体的なメディア処理チェーンの一部であってもよい。いくつかの実施形態では、信号プロセッサ・ノード1は、信号プロセッサ・ノード2によって受領される処理状態メタデータに基づいてメディア処理を適応させる。一方、信号プロセッサ・ノード2は、信号プロセッサ・ノード2によって受領される処理状態メタデータに基づいてメディア処理を適応させる。信号プロセッサ・ノード2によって受領される前記処理状態メタデータは、信号プロセッサ・ノード1がメディア・データのコンテンツを解析したあとに信号プロセッサ・ノード1によって加えられる処理状態メタデータおよび/またはメディア状態メタデータを含んでいてもよい。結果として、信号プロセッサ・ノード2は、信号プロセッサ・ノード1によって以前に実行された解析の一部または全部を繰り返すことなく、メディア処理において信号プロセッサ・ノード1によって与えられるメタデータを直接利用できる。
7.実装機構――ハードウェアの概観
ある実施形態によれば、本稿に記載される技法は一つまたは複数の特殊目的コンピューティング装置によって実装される。特殊目的コンピューティング装置は、上記技法を実行するよう結線されていてもよいし、あるいは上記技法を実行するよう持続的にプログラムされている一つまたは複数の特定用途向け集積回路(ASIC: application-specific integrated circuit)またはフィールド・プログラム可能ゲート・アレイ(FPGA: field programmable gate array)のようなデジタル電子装置を含んでいてもよいし、あるいはファームウェア・メモリ、他の記憶装置またはそれらの組み合わせにおけるプログラム命令に従って上記技法を実行するようプログラムされた一つまたは複数の汎用ハードウェア・プロセッサを含んでいてもよい。そのような特殊目的コンピューティング装置は、上記技法を達成するために、カスタム結線論理、ASICまたはFPGAをカスタム・プログラミングと組み合わせてもよい。特殊目的コンピューティング装置は、デスクトップ・コンピュータ・システム、ポータブル・コンピュータ・システム、ハンドヘルド装置、ネットワーキング装置または上記技法を実装するための結線および/またはプログラム論理を組み込んでいる他の任意の装置でありうる。
たとえば、図10は、本発明の実施形態が実装されうるコンピュータ・システム1000を示すブロック図である。コンピュータ・システム1000は、情報を通信するためのバス1002または他の通信機構と、情報を処理するための、バス1002に結合されたハードウェア・プロセッサ1004とを含む。ハードウェア・プロセッサ1004はたとえば、汎用マイクロプロセッサであってもよい。
コンピュータ・システム1000は、情報およびプロセッサ1004によって実行されるべき命令を記憶するための、ランダム・アクセス・メモリ(RAM)または他の動的記憶デバイスのような、バス1002に結合された主メモリ1006をも含む。主メモリ1006は、プロセッサ1004によって実行されるべき命令の実行の間、一時的な変数または他の中間的な情報を記憶するためにも使われてもよい。そのような命令は、プロセッサ1004にとってアクセス可能な非一時的な記憶媒体に記憶されたとき、コンピュータ・システム1000を、該命令において指定される動作を実行するようカスタマイズされた特殊目的機械にする。
コンピュータ・システム1000は、静的な情報およびプロセッサ1004のための命令を記憶するための、バス1002に結合された、読み出し専用メモリ(ROM)1008または他の静的記憶デバイスを含む。情報および命令を記憶するために、磁気ディスクまたは光ディスクのような記憶デバイス1010が設けられ、バス1002に結合される。
コンピュータ・システム1000はバス1002を介して、コンピュータ・ユーザーに対して情報を表示するための、陰極線管(CRT)のようなディスプレイ1012に結合されてもよい。情報およびコマンド選択をプロセッサ1004に伝えるために、英数字および他のキーを含む入力装置1014がバス1002に結合される。もう一つの型のユーザー入力装置は、方向情報およびコマンド選択をプロセッサ1004に伝えるためおよびディスプレイ1012上でのカーソル動きを制御するための、マウス、トラックボールまたはカーソル方向キーのようなカーソル・コントロール1016である。この入力装置は典型的には、該装置が平面内での位置を指定できるようにする、第一軸(たとえばx)および第二軸(たとえばy)の二つの軸における二つの自由度をもつ。
コンピュータ・システム1000は、カスタマイズされた結線論理、一つまたは複数のASICまたはFPGA、ファームウェアおよび/またはプログラム論理を使って本稿に記載される技法を実装してもよい。それは、当該コンピュータ・システムと組み合わさってコンピュータ・システム1000を特殊目的機械にするまたはプログラムする。ある実施形態によれば、本稿の技法は、プロセッサ1004が主メモリ1006に含まれる一つまたは複数の命令の一つまたは複数のシーケンスを実行するのに応答して、コンピュータ・システム1000によって実行される。そのような命令は、記憶装置1010のような別の記憶媒体から主メモリ1006に読み込まれてもよい。主メモリ1006に含まれる命令のシーケンスの実行により、プロセッサ1004は、本稿に記載されるプロセス・ステップを実行する。代替的な実施形態では、ソフトウェア命令の代わりにまたはソフトウェア命令と組み合わせて結線回路が使用されてもよい。
本稿で使うところの用語「記憶媒体」は、データおよび/または機械を特定の仕方で動作させる命令を記憶する任意の非一時的な媒体を指す。そのような記憶媒体は、不揮発性媒体および/または揮発性媒体を含みうる。不揮発性媒体は、たとえば、記憶装置1010のような光ディスクまたは磁気ディスクを含む。揮発性媒体は、主メモリ1006のような動的メモリを含む。記憶媒体の一般的な形は、たとえば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、半導体ドライブ、磁気テープまたは他の任意の磁気データ記憶媒体、CD-ROM、他の任意の光学式データ記憶媒体、孔のパターンをもつ任意の物理的媒体、RAM、PROMおよびEPROM、フラッシュEPROM、NVRAM、他の任意のメモリ・チップまたはカートリッジを含む。
記憶媒体は、伝送媒体とは異なるが、伝送媒体との関連で使用されてもよい。伝送媒体は、記憶媒体間で情報を転送するのに参加する。たとえば、伝送媒体は、同軸ケーブル、導線および光ファイバーを含み、バス1002をなすワイヤを含む。伝送媒体は、電波および赤外線データ通信の際に生成されるような、音響または光の波の形を取ることもできる。
さまざまな形の媒体が、一つまたは複数の命令の一つまたは複数のシーケンスを実行のためにプロセッサ1004に搬送することに関わりうる。たとえば、命令は最初、リモート・コンピュータの磁気ディスクまたは半導体ドライブ上で担持されてもよい。リモート・コンピュータは該命令をその動的メモリ中にロードし、該命令をモデムを使って電話線を通じて送ることができる。コンピュータ・システム1000にローカルなモデムが、電話線上のデータを受信し、赤外線送信器を使ってそのデータを赤外線信号に変換することができる。赤外線検出器が、赤外線信号中に担持されるデータを受信することができ、適切な回路がバス1002上にデータを載せることができる。バス1002はそのデータを主メモリ1006に搬送し、主メモリ1006からプロセッサ1004がそれらの命令を取得し、実行する。主メモリ1006によって受領される命令は、任意的に、プロセッサ1004による実行前または実行後に記憶装置1010上に記憶されてもよい。
コンピュータ・システム1000は、バス1002に結合された通信インターフェース1018をも含む。通信インターフェース1018は、ローカル・ネットワーク1022に接続されているネットワーク・リンク1020への双方向データ通信結合を提供する。たとえば、通信インターフェース1018は、対応する型の電話線へのデータ通信接続を提供するための、統合サービス・デジタル通信網(ISDN: integrated services digital network)カード、ケーブル・モデム、衛星モデムまたはモデムであってもよい。もう一つの例として、通信インターフェース1018は、互換なLANへのデータ通信接続を提供するための、ローカル・エリア・ネットワーク(LAN)カードであってもよい。無線リンクが実装されてもよい。そのようないかなる実装においても、通信インターフェース1018は、さまざまな型の情報を表すデジタル・データ・ストリームを搬送する電気、電磁または光信号を送受信する。
ネットワーク・リンク1020は典型的には、他のデータ装置への一つまたは複数のネットワークを通じてのデータ通信を提供する。たとえば、ネットワーク・リンク1020は、ホスト・コンピュータ1024へのまたはインターネット・サービス・プロバイダー(ISP)1026によって運営されているデータ設備へのローカル・ネットワーク1022を通じた接続を提供してもよい。ISP 1026は、現在一般に「インターネット」1028と称されている世界規模のパケット・データ通信網を通じてデータ通信サービスを提供する。ローカル・ネットワーク1022およびインターネット1028はいずれも、デジタル・データ・ストリームを搬送する電気、電磁または光信号を使う。さまざまなネットワークを通じた信号および、コンピュータ・システム1000との間でデジタル・データを搬送する、ネットワーク・リンク1020上および通信インターフェース1018を通じた信号は、伝送媒体の例示的な形である。
コンピュータ・システム1000は、ネットワーク(単数または複数)、ネットワーク・リンク1020および通信インターフェース1018を通じて、メッセージを送り、プログラム・コードを含むデータを受信することができる。インターネットの例では、サーバー1030はインターネット1028、ISP 1026、ローカル・ネットワーク1022および通信インターフェース1018を通じてアプリケーション・プログラムのための要求されたコードを伝送してもよい。
受信されたコードはプロセッサ1004によって、受領される際に実行されてもよく、および/またはのちの実行のために記憶装置1010または他の不揮発性記憶装置に記憶されてもよい。
8.付番実施例
よって、本発明の実施形態は、下記の付番実施例の一つまたは複数に関係することがありうる。各付番実施例は例であり、上記で与えた他の任意の関係する議論と同様、現状の記載であれのちに補正、差し替えまたは追加されたものであれいかなる請求項をも限定するものと解釈すべきではない。同様に、これらの例は、いかなる関係した特許および/または特許出願(外国または国際的な対応出願および/または特許、分割、継続出願、再発行などを含む)のいかなる請求項に関しても限定するものと考えられるべきではない。
〔付番実施例1〕
メディア処理チェーン内の第一の装置によって、メディア・データの出力バージョンに対してある型のメディア処理が実行されているかどうかを判定する段階と;前記第一の装置の装置によって、前記メディア・データの出力バージョンに対して前記型のメディア処理が実行されていると判定するのに応答して:(a)前記第一の装置によって、前記メディア・データの出力バージョンに対して実行されたメディア処理の型を指定する、メディア・データの状態を生成し、(b)前記第一の装置から前記メディア処理チェーン内の下流の第二の装置に、前記メディア・データの出力バージョンと、前記メディア・データの状態とを通信することを実行する段階とを含む、方法。
〔付番実施例2〕
前記メタデータが:オーディオ・コンテンツのみ、ビデオ・コンテンツのみまたはオーディオ・コンテンツとビデオ・コンテンツの両方のうちの一つまたは複数としてメディア・コンテンツを含む、付番実施例1記載の方法。
〔付番実施例3〕
前記第二の装置に、前記メディア・データの状態を:(a)メディア・フィンガープリント、(b)処理状態メタデータ、(c)抽出されたメディア特徴値、(d)メディア・クラス・タイプもしくはサブタイプの記述および/または値、(e)メディア特徴クラスおよび/またはサブクラス確率値、(f)暗号学的ハッシュ値または(f)メディア処理信号のうちの一つまたは複数として提供することをさらに含む、付番実施例1記載の方法。
〔付番実施例4〕
付番実施例1記載の方法であって、メディア処理データベースにおいてメディア処理データ・ブロックを記憶する段階をさらに含み、前記メディア処理データ・ブロックはメディア処理メタデータを含み、前記メディア処理データ・ブロックは、前記メディア処理データ・ブロックに関連付けられた一つまたは複数のメディア・フィンガープリントに基づいて取得可能である、方法。
〔付番実施例5〕
付番実施例1記載の方法であって、前記メディア・データの状態が、クレデンシャル情報を用いて暗号化された暗号学的ハッシュ値を含み、前記暗号学的ハッシュ値は受け手装置によって認証されるものである、方法。
〔付番実施例6〕
付番実施例1記載の方法であって、前記メディア・データの状態の少なくとも一部は、前記メディア・データ中に隠されている一つまたは複数のセキュア通信チャネルを含み、前記一つまたは複数のセキュア通信チャネルは受け手装置によって認証されるものである、方法。
〔付番実施例7〕
付番実施例6記載の方法であって、前記一つまたは複数のセキュア通信チャネルは、少なくとも一つのスペクトラム拡散セキュア通信チャネルを含む、方法。
〔付番実施例8〕
付番実施例6記載の方法であって、前記一つまたは複数のセキュア通信チャネルは、少なくとも一つの周波数シフト符号化(frequency shift keying)セキュア通信チャネルを含む、方法。
〔付番実施例9〕
付番実施例1記載の方法であって、前記メディア・データの状態は、出力メディア・ビットストリームにおいて前記メディア・データの出力バージョンと一緒に搬送される、方法。
〔付番実施例10〕
付番実施例1記載の方法であって、前記メディア・データの状態は、前記メディア・データの出力バージョンを搬送する別個のメディア・ビットストリームに関連する補助メタデータ・ビットストリームにおいて搬送される、方法。
〔付番実施例11〕
前記メディア・データの状態は、前記型のメディア処理に関係するパラメータの一つまたは複数のセットを含む、付番実施例1記載の方法。
〔付番実施例12〕
前記第一の装置または前記第二の装置の少なくとも一方は:前処理ユニット、エンコーダ、メディア処理サブユニット、トランスコーダ、デコーダ、後処理ユニットまたはメディア・コンテンツ・レンダリング・サブユニットのうちの一つまたは複数を含む、付番実施例1記載の方法。
〔付番実施例13〕
前記第一の装置はエンコーダであり、前記第二の装置はデコーダである、付番実施例1記載の方法。
〔付番実施例14〕
前記第一の装置によって、前記型のメディア処理を実行する段階をさらに含む、付番実施例1記載の方法。
〔付番実施例15〕
前記型のメディア処理は、前記メディア処理チェーンにおいて前記第一の装置に対して上流の装置によって実行されており、当該方法がさらに:
前記第一の装置によって、前記メディア・データの入力バージョンを受け取る段階であって、前記メディア・データの入力バージョンは、前記型のメディア処理を示す、前記メディア・データの任意の状態を含む、段階と;
前記メディア・データの入力バージョンを解析して、前記メディア・データの入力バージョンに対してすでに実行されているメディア処理の型を判別する段階を含む、
付番実施例1記載の方法。
〔付番実施例16〕
前記メディア・データの状態において、ラウドネスおよびダイナミックレンジ値をエンコードする段階をさらに含む、付番実施例1記載の方法。
〔付番実施例17〕
前記型のメディア処理は、前記メディア処理チェーンにおいて前記第一の装置に対して上流の装置によって以前に実行されており、当該方法がさらに:
前記第一の装置によって、以前に実行された前記型のメディア処理をオーバーライドするコマンドを受け取る段階と;
前記第一の装置によって、前記型のメディア処理を実行する段階と;
前記第一の装置から前記メディア処理チェーン内で下流の第二の装置に、前記メディア・データの出力バージョンと、前記メディア・データの出力バージョンにおいて前記型のメディア処理がすでに実行されていることを示すメディア・データの状態と通信する段階とを含む、
付番実施例1記載の方法。
〔付番実施例18〕
(a)ユーザー入力、(b)前記第一の装置のシステム構成設定、(c)前記第一の装置の外部の装置からの信号伝達または(d)前記第一の装置内のサブユニットからの信号伝達のうちの一つから前記コマンドを受け取ることをさらに含む、付番実施例17記載の方法。
〔付番実施例19〕
前記第一の装置から前記メディア処理チェーン内の下流の前記第二の装置に、前記メタデータの状態とは独立なメタデータの一つまたは複数の型を通信する段階をさらに含む、付番実施例1記載の方法。
〔付番実施例20〕
前記メディア・データの状態は、一つまたは複数のセキュア通信チャネルにおいて隠されている状態メタデータの少なくとも一部を含む、付番実施例1記載の方法。
〔付番実施例21〕
前記メディア・データの状態の少なくとも一部を記憶するよう前記メディア・データ中の複数のバイトを変更する段階をさらに含む、付番実施例1記載の方法。
〔付番実施例22〕
前記第一の装置および前記第二の装置の少なくとも一方は、先進テレビジョン・システムズ委員会(ATSC)コーデック、動画像専門家グループ(MPEG)コーデック、オーディオ・コーデック3(AC-3)コーデックおよびエンハンストAC-3コーデックのうちの一つまたは複数を含む、付番実施例1記載の方法。
〔付番実施例23〕
前記メディア処理チェーンは:
メディア・コンテンツを含む時間領域サンプルを入力として受け入れ、処理された時間領域サンプルを出力するよう構成された前処理ユニットと;
前記処理された時間領域サンプルに基づいて前記メディア・コンテンツの圧縮されたメディア・ビットストリームを出力するよう構成されたエンコーダと;
前記圧縮されたメディア・ビットストリーム内の処理状態メタデータを検証するよう構成された信号解析およびメタデータ訂正ユニットと;
前記圧縮されたメディア・ビットストリームを修正するよう構成されたトランスコーダと;
前記圧縮されたメディア・ビットストリームに基づいてデコードされた時間領域サンプルを出力するよう構成されたデコーダと;
前記デコードされた時間領域サンプル内の前記メディア・コンテンツの後処理を実行するよう構成された後処理ユニットとを有する、
付番実施例1記載の方法。
〔付番実施例24〕
前記第一の装置および前記第二の装置の少なくとも一方は、前記前処理ユニット、前記信号解析およびメタデータ訂正ユニット、前記トランスコーダ、前記デコーダおよび前記後処理ユニットのうちの少なくとも一つを含む、付番実施例23記載の方法。
〔付番実施例25〕
前記前処理ユニット、前記信号解析およびメタデータ訂正ユニット、前記トランスコーダ、前記デコーダおよび前記後処理ユニットのうちの少なくとも一つは、上流の装置から受領される処理メタデータに基づいて前記メディア・コンテンツの適応的な処理を実行する、付番実施例23記載の方法。
〔付番実施例26〕
前記メディア・データから一つまたは複数のメディア特徴を決定する段階と;
前記メディア・データの状態中に、前記一つまたは複数のメディア特徴の記述を含める段階とをさらに含む、
付番実施例1記載の方法。
〔付番実施例27〕
前記一つまたは複数のメディア特徴は、フレーム、秒、分、ユーザー定義可能な時間区間、シーン、歌、音楽片およびレコーディングのうちの一つまたは複数から決定された少なくとも一つのメディア特徴を含む、付番実施例26記載の方法。
〔付番実施例28〕
前記一つまたは複数のメディア特徴は前記メディア・データの意味的記述を含む、付番実施例26記載の方法。
〔付番実施例29〕
前記一つまたは複数のメディア特徴は、構造的属性、和声およびメロディーを含む音質、音色、リズム、ラウドネス、ステレオ・ミックス、メディア・データの音源の量、声の不在もしくは存在、反復特性、メロディー、和声、歌詞、音色、知覚的特徴、デジタル・メディア特徴、ステレオ・パラメータ、発話コンテンツの一つまたは複数の部分のうちの一つまたは複数を含む、付番実施例26記載の方法。
〔付番実施例30〕
前記一つまたは複数のメディア特徴を使って、前記メディア・データを複数のメディア・データ・クラス中の一つまたは複数のメディア・データ・クラスに分類することをさらに含む、付番実施例26記載の方法。
〔付番実施例31〕
前記一つまたは複数のメディア・データ・クラスが、メディア全体についての単一の全体的な/支配的なメディア・データ・クラスまたはメディア全体より短い時間期間を表す単一のクラスを含む、付番実施例30記載の方法。
〔付番実施例32〕
前記より短い時間期間が、単一のメディア・フレーム、単一のメディア・データ・ブロック、複数のメディア・フレーム、複数のメディア・データ・ブロック、一秒の一部、一秒または複数秒を表す、付番実施例31記載の方法。
〔付番実施例33〕
前記一つまたは複数のメディア・データ・クラスを表す一つまたは複数のメディア・データ・クラス・ラベルが計算され、ビットストリーム中に挿入される、付番実施例30記載の方法。
〔付番実施例34〕
前記一つまたは複数のメディア・データ・クラスを表す一つまたは複数のメディア・データ・クラス・ラベルが計算され、前記メディア・データに埋め込まれた隠しデータとして受け手メディア処理ノードに信号伝達される、付番実施例30記載の方法。
〔付番実施例35〕
前記一つまたは複数のメディア・データ・クラスを表す一つまたは複数のメディア・データ・クラス・ラベルが計算され、前記メディア・データのブロック間の別個のメタデータ構造において受け手メディア処理ノードに信号伝達される、付番実施例30記載の方法。
〔付番実施例36〕
前記単一の全体的な/支配的なメディア・データ・クラスが、音楽、発話、雑音、静寂、喝采といった単一クラス・タイプまたは音楽にかぶさる発話、雑音にかぶさる会話もしくはメディア・データ・タイプの他の混合といった混合クラス・タイプの一つまたは複数を表す、付番実施例31記載の方法。
〔付番実施例37〕
前記一つまたは複数のメディア・データ・クラス・ラベルに一つまたは複数の確からしさまたは確率値を関連付ける段階をさらに含んでおり、確からしさまたは確率値は、計算されたメディア・クラス・ラベルが、該計算されたメディア・クラス・ラベルが関連付けられているメディア・セグメント/ブロックに対してもつ信頼度のレベルを表す、付番実施例30記載の方法。
〔付番実施例38〕
前記確からしさまたは確率値が、アップミキシング、エンコード、デコード、トランスコードまたはヘッドホン仮想化といった一つまたは複数の動作を改善するよう処理を適応させるために前記メディア処理チェーン内の受け手メディア処理ノードによって使用される、付番実施例37記載の方法。
〔付番実施例39〕
前記一つまたは複数の動作のうちの少なくとも一つが、受け手メディア処理ノードによるメディア・データを分類する複雑な解析動作が回避されるために、事前設定処理パラメータの必要性をなくす、前記メディア・チェーンを通じた処理ユニットの複雑さを低下させるまたはバッテリー寿命を延ばす、付番実施例38記載の方法。
〔付番実施例40〕
メディア処理チェーン内の第一の装置によって、メディア・データの入力バージョンに対してある型のメディア処理がすでに実行されているかどうかを判定する段階と;
前記第一の装置によって前記メディア・データの前記入力バージョンに対して前記型のメディア処理がすでに実行されていると判定するのに応答して、前記第一の装置における前記型のメディア処理の実行を無効にするよう前記メディア・データの処理の適応を実行する段階とを含む、
方法。
〔付番実施例41〕
前記第一の装置から前記メディア処理チェーン内の下流の第二の装置に、前記メディア・データの出力バージョンと、前記メディア・データの前記出力バージョンにおいて前記型のメディア処理がすでに実行されていることを示す前記メディア・データの状態とを通信する段階をさらに含む、付番実施例40記載の方法。
〔付番実施例42〕
メディア・データの状態において、ラウドネスおよびダイナミックレンジ値をエンコードする段階をさらに含む、付番実施例41記載の方法。
〔付番実施例43〕
前記第一の装置によって、前記メディア・データに対して前記型のメディア処理とは異なる第二の型のメディア処理を実行する段階と;
前記第一の装置から前記メディア処理チェーン内の下流の第二の装置に、前記メディア・データの出力バージョンと、前記メディア・データの前記出力バージョンにおいて前記第二の型のメディア処理がすでに実行されていることを示す前記メディア・データの状態とを通信する段階をさらに含む、
付番実施例40記載の方法。
〔付番実施例44〕
前記メディア・データの前記入力バージョンに対して前記型の処理がすでに実行されているかどうかに少なくとも部分的に基づいて、是正的なラウドネスまたはダイナミクス・オーディオ処理を適応させることの一つまたは複数を自動的に実行する段階をさらに含む、付番実施例40記載の方法。
〔付番実施例45〕
メディア・コンテンツをエンコードする前記メディア・データ中のデータ・ユニットから前記メディア・データの入力状態を抽出する段階をさらに含む、付番実施例40記載の方法。
〔付番実施例46〕
前記データ・ユニットの、前記メディア・データの前記入力状態を含まないバージョンを復元し、復元されたデータ・ユニットのバージョンに基づいて前記メディア・コンテンツをレンダリングする段階をさらに含む、付番実施例45記載の方法。
〔付番実施例47〕
前記メディア・データの前記入力バージョンに関連付けられた、前記メディア・データの入力状態を取得する段階をさらに含む、付番実施例46記載の方法。
〔付番実施例48〕
前記メディア・データの前記入力状態に関連付けられた暗号学的ハッシュ値を検証することによって、前記メディア・データの前記入力状態を認証する段階をさらに含む、付番実施例47記載の方法。
〔付番実施例49〕
前記メディア・データの前記入力状態に関連付けられた一つまたは複数のフィンガープリントを検証することによって、メディア・データの前記入力状態を認証する段階をさらに含み、前記一つまたは複数のフィンガープリントの少なくとも一つは、前記メディア・データの少なくとも一部分に基づいて生成されている、付番実施例47記載の方法。
〔付番実施例50〕
前記メディア・データの前記入力状態に関連付けられた一つまたは複数のフィンガープリントを検証することによって、前記メディア・データを検証する段階をさらに含む、付番実施例47記載の方法。
〔付番実施例51〕
前記メディア・データの前記入力状態は、入力メディア・ビットストリームにおいて前記メディア・データの前記入力バージョンとともに搬送される、付番実施例47記載の方法。
〔付番実施例52〕
前記メディア・データの前記入力状態に基づいて一つまたは複数の型のメディア処理をオフにする段階をさらに含む、付番実施例47記載の方法。
〔付番実施例53〕
前記メディア・データの前記入力状態が、処理状態メタデータをもって記述され、当該方法がさらに:
少なくとも部分的には前記処理状態メタデータに基づいて、前記メディア・データの前記入力状態を示すメディア処理信号を生成する段階と;
前記メディア処理信号を、前記メディア処理チェーンにおいて前記第一の装置の下流にあるメディア処理装置に送信する段階とをさらに含む、
付番実施例47記載の方法。
〔付番実施例54〕
前記メディア処理信号は、前記メディア・データの出力バージョン中の一つまたは複数のデータ・ユニットに隠される、付番実施例53記載の方法。
〔付番実施例55〕
前記メディア処理信号の伝達は、前記メディア・データに対する一つまたは複数の修正が受け手装置によって除去できるよう可逆的なデータ隠し技法を使って実行される、付番実施例54記載の方法。
〔付番実施例56〕
前記メディア処理信号の伝達は、前記メディア・データに対する一つまたは複数の修正のうち少なくとも一つが受け手装置によって除去できないような不可逆的なデータ隠し技法を使って実行される、付番実施例54記載の方法。
〔付番実施例57〕
前記メディア・データに対して実行された任意の過去のメディア処理とは独立な、メタデータの一つまたは複数の型を、前記メディア処理チェーンにおける上流の装置から受信する段階をさらに含む、付番実施例46記載の方法。
〔付番実施例58〕
前記メディア・データの状態が、一つまたは複数のセキュアな通信チャネルに隠された状態メタデータの少なくとも一部分を含む、付番実施例47記載の方法。
〔付番実施例59〕
前記メディア・データの状態の少なくとも一部を記憶するよう前記メディア・データの複数のバイトを変更する段階をさらに含む、付番実施例46記載の方法。
〔付番実施例60〕
前記第一の装置は、先進テレビジョン・システムズ委員会(ATSC)コーデック、動画像専門家グループ(MPEG)コーデック、オーディオ・コーデック3(AC-3)コーデックおよびエンハンストAC-3コーデックのうちの一つまたは複数を含む、付番実施例46記載の方法。
〔付番実施例61〕
前記メディア処理チェーンは:
メディア・コンテンツを含む時間領域サンプルを入力として受け入れ、処理された時間領域サンプルを出力するよう構成された前処理ユニットと;
前記処理された時間領域サンプルに基づいて前記メディア・コンテンツの圧縮されたメディア・ビットストリームを出力するよう構成されたエンコーダと;
前記圧縮されたメディア・ビットストリーム内の処理状態メタデータを検証するよう構成された信号解析およびメタデータ訂正ユニットと;
前記圧縮されたメディア・ビットストリームを修正するよう構成されたトランスコーダと;
前記圧縮されたメディア・ビットストリームに基づいてデコードされた時間領域サンプルを出力するよう構成されたデコーダと;
前記デコードされた時間領域サンプル内の前記メディア・コンテンツの後処理を実行するよう構成された後処理ユニットとを有する、
付番実施例46記載の方法。
〔付番実施例62〕
前記第一の装置は、前記前処理ユニット、前記信号解析およびメタデータ訂正ユニット、前記トランスコーダ、前記デコーダおよび前記後処理ユニットのうちの一つまたは複数を含む、付番実施例61記載の方法。
〔付番実施例63〕
前記前処理ユニット、前記信号解析およびメタデータ訂正ユニット、前記トランスコーダ、前記デコーダおよび前記後処理ユニットのうちの少なくとも一つは、上流の装置から受領される処理メタデータに基づいて前記メディア・コンテンツの適応的な処理を実行する、付番実施例61記載の方法。
〔付番実施例64〕
メディア・データの前記状態中の前記一つまたは複数のメディア特徴の記述に基づいて、一つまたは複数のメディア特徴を判別する段階をさらに含む、付番実施例47記載の方法。
〔付番実施例65〕
前記一つまたは複数のメディア特徴は、フレーム、秒、分、ユーザー定義可能な時間区間、シーン、歌、音楽片およびレコーディングのうちの一つまたは複数から決定された少なくとも一つのメディア特徴を含む、付番実施例64記載の方法。
〔付番実施例66〕
前記一つまたは複数のメディア特徴は前記メディア・データの意味的記述を含む、付番実施例64記載の方法。
〔付番実施例67〕
前記一つまたは複数のメディア特徴を判別することに応答して、一つまたは複数の特定の動作を実行する段階をさらに含む、付番実施例64記載の方法。
〔付番実施例68〕
前記メディア処理チェーン内の前記第二の装置に、前記メディア・データの状態を:(a)メディア・フィンガープリント、(b)処理状態メタデータ、(c)抽出されたメディア特徴値、(d)メディア・クラス・タイプもしくはサブタイプの記述および/または値、(e)メディア特徴クラスおよび/またはサブクラス確率値、(f)暗号学的ハッシュ値または(f)メディア処理信号のうちの一つまたは複数として提供することをさらに含む、付番実施例43記載の方法。
〔付番実施例69〕
メディア処理チェーン中の第一の装置により、メディア・データの源フレームの一つまたは複数のデータ・レート削減表現を計算する段階と;
前記一つまたは複数のデータ・レート削減表現を、前記メディア・データ自身の状態内で、前記メディア処理チェーン中の第二の装置に、同時かつセキュアに搬送する段階とを含み、
一つまたは複数のコンピューティング装置によって実行される方法。
〔付番実施例70〕
前記一つまたは複数のデータ・レート削減表現は、サブストリーム、一つまたは複数のリザーブされたフィールド、add_bsiフィールド、一つまたは複数の補助データ・フィールドまたは一つまたは複数の変換係数のうちの少なくとも一つにおいて担持される,付番実施例69記載の方法。
〔付番実施例71〕
前記一つまたは複数のデータ・レート削減表現は、前記メディア・データ内で送達されるオーディオおよびビデオを同期させるために使われる同期データを含む、付番実施例69記載の方法。
〔付番実施例72〕
前記一つまたは複数のデータ・レート削減表現は、(a)メディア処理ユニットによって生成され、(b)品質モニタリング、メディア格付け、メディア追跡またはコンテンツ検索のうちの一つまたは複数のために前記メディア・データに埋め込まれた、メディア・フィンガープリントを含む、付番実施例69記載の方法。
〔付番実施例73〕
前記一つまたは複数のデータ・レート削減表現は、一つまたは複数のセキュアな通信チャネルに隠された状態メタデータの少なくとも一部を含む、付番実施例69記載の方法。
〔付番実施例74〕
前記一つまたは複数のデータ・レート削減表現うちの一つの少なくとも一部を記憶するよう前記メディア・データの複数のバイトを変更する段階をさらに含む、付番実施例69記載の方法。
〔付番実施例75〕
前記第一の装置および前記第二の装置の少なくとも一方は、先進テレビジョン・システムズ委員会(ATSC)コーデック、動画像専門家グループ(MPEG)コーデック、オーディオ・コーデック3(AC-3)コーデックおよびエンハンストAC-3コーデックのうちの一つまたは複数を含む、付番実施例69記載の方法。
〔付番実施例76〕
前記メディア処理チェーンは:
メディア・コンテンツを含む時間領域サンプルを入力として受け入れ、処理された時間領域サンプルを出力するよう構成された前処理ユニットと;
前記処理された時間領域サンプルに基づいて前記メディア・コンテンツの圧縮されたメディア・ビットストリームを出力するよう構成されたエンコーダと;
前記圧縮されたメディア・ビットストリーム内の処理状態メタデータを検証するよう構成された信号解析およびメタデータ訂正ユニットと;
前記圧縮されたメディア・ビットストリームを修正するよう構成されたトランスコーダと;
前記圧縮されたメディア・ビットストリームに基づいてデコードされた時間領域サンプルを出力するよう構成されたデコーダと;
前記デコードされた時間領域サンプル内の前記メディア・コンテンツの後処理を実行するよう構成された後処理ユニットとを有する、
付番実施例69記載の方法。
〔付番実施例77〕
前記第一の装置および前記第二の装置の少なくとも一方は、前記前処理ユニット、前記信号解析およびメタデータ訂正ユニット、前記トランスコーダ、前記デコーダおよび前記後処理ユニットのうちの一つまたは複数を含む、付番実施例76記載の方法。
〔付番実施例78〕
前記前処理ユニット、前記信号解析およびメタデータ訂正ユニット、前記トランスコーダ、前記デコーダおよび前記後処理ユニットのうちの少なくとも一つは、上流の装置から受領される処理メタデータに基づいて前記メディア・コンテンツの適応的な処理を実行する、付番実施例76記載の方法。
〔付番実施例79〕
前記第二の装置に前記メディア・データの状態を:(a)メディア・フィンガープリント、(b)処理状態メタデータ、(c)抽出されたメディア特徴値、(d)メディア・クラス・タイプもしくはサブタイプの記述および/または値、(e)メディア特徴クラスおよび/またはサブクラス確率値、(f)暗号学的ハッシュ値または(f)メディア処理信号のうちの一つまたは複数として提供することをさらに含む、付番実施例69記載の方法。
〔付番実施例80〕
音響心理学的ユニット、変換、波形/空間オーディオ符号化ユニット、エンコーダ、デコーダ、トランスコーダまたはストリーム・プロセッサのうちの一つまたは複数を含むメディア処理チェーン中の一つまたは複数のコンピューティング装置により、メディア・データの状態によって示される一つまたは複数の上流のメディア処理ユニットによるメディア・データのラウドネス処理の過去の履歴に基づいて、メディア・データの入力バージョンを適応的に処理する段階と;
前記メディア処理チェーンの末尾における前記メディア・データの出力バージョンのラウドネスおよび/またはダイナミックレンジを、一貫するラウドネスおよび/またはダイナミックレンジ値に正規化する段階とを含む、
方法。
〔付番実施例81〕
前記一貫するラウドネス値は、(1)ユーザーによって制御または選択されるまたは(2)前記メディア・データの前記入力バージョン内の状態によって適応的に信号伝達されるラウドネス値を含む、付番実施例80記載の方法。
〔付番実施例82〕
前記ラウドネス値は、前記メディア・データのダイアログ(発話)部分に対して計算される、付番実施例80記載の方法。
〔付番実施例83〕
前記ラウドネス値は、前記メディア・データの絶対的な、相対的なおよび/またはゲートされていない部分に対して計算される、付番実施例80記載の方法。
〔付番実施例84〕
前記一貫するダイナミックレンジ値は、(1)ユーザーによって制御または選択されるまたは(2)前記メディア・データの前記入力バージョン内の状態によって適応的に信号伝達されるダイナミックレンジ値を含む、付番実施例80記載の方法。
〔付番実施例85〕
前記ダイナミックレンジ値は、前記メディア・データのダイアログ(発話)部分に対して計算される、付番実施例84記載の方法。
〔付番実施例86〕
前記ダイナミックレンジ値は、前記メディア・データの絶対的な、相対的なおよび/またはゲートされていない部分に対して計算される、付番実施例84記載の方法。
〔付番実施例87〕
前記メディア・データの前記出力バージョンを一貫するラウドネス値および一貫するダイナミックレンジに正規化するための一つまたは複数のラウドネスおよび/またはダイナミックレンジ利得制御値を計算する段階と;
前記一つまたは複数のラウドネスおよび/またはダイナミックレンジ利得制御値を、前記メディア処理チェーンの末尾における前記メディア・データの前記出力バージョンの状態内で同時に搬送する段階とをさらに含み、前記一つまたは複数のラウドネスおよび/またはダイナミックレンジ利得制御値は、前記メディア・データの前記入力バージョンにおけるもとのラウドネス値およびもとのダイナミックレンジを復元するために前記一つまたは複数のラウドネスおよび/またはダイナミックレンジ利得制御値を逆適用するために別の装置によって使用可能である、
付番実施例80記載の方法。
〔付番実施例88〕
前記メディア・データの前記出力バージョンの状態を表す前記一つまたは複数のラウドネスおよび/またはダイナミックレンジ制御値は、サブストリーム、一つまたは複数のリザーブされたフィールド、add_bsiフィールド、一つまたは複数の補助データ・フィールドまたは一つまたは複数の変換係数のうちの少なくとも一つにおいて担持される、付番実施例87記載の方法。
〔付番実施例89〕
前記メディア処理チェーン内の前記一つまたは複数のコンピューティング装置のうちの少なくとも一つによって、前記メディア・データおよび/または前記メディア・データの状態に基づいて暗号学的ハッシュ値を計算し、前記メディア・データを搬送する一つまたは複数のエンコードされたビットストリーム内で送信する段階をさらに含む、付番実施例80記載の方法。
〔付番実施例90〕
受け手装置によって、前記暗号学的ハッシュ値を認証する段階と;
前記受け手装置によって一つまたは複数の下流のメディア処理ユニットに、前記メディア・データの状態が有効であるかどうかの判定を信号伝達する段階と;
前記受け手装置によって前記一つまたは複数の下流のメディア処理ユニットに、前記メディア・データの状態が有効であると判定するのに応答して、前記メディア・データの状態を信号伝達する段階とをさらに含む、
付番実施例80記載の方法。
〔付番実施例91〕
前記メディアの状態および/または前記メディア・データを表す前記暗号学的ハッシュ値が、サブストリーム、一つまたは複数のリザーブされたフィールド、add_bsiフィールド、一つまたは複数の補助データ・フィールドまたは一つまたは複数の変換係数のうちの少なくとも一つにおいて担持される、付番実施例89記載の方法。
〔付番実施例92〕
前記メディア・データの前記状態が:(a)メディア・フィンガープリント、(b)処理状態メタデータ、(c)抽出されたメディア特徴値、(d)メディア・クラス・タイプもしくはサブタイプの記述および/または値、(e)メディア特徴クラスおよび/またはサブクラス確率値、(f)暗号学的ハッシュ値または(f)メディア処理信号のうちの一つまたは複数を含む、付番実施例80記載の方法。
〔付番実施例93〕
音響心理学的ユニット、変換、波形/空間オーディオ符号化ユニット、エンコーダ、デコーダ、トランスコーダまたはストリーム・プロセッサのうちの一つまたは複数を含むメディア処理チェーン中の一つまたは複数のコンピューティング装置によって、一つまたは複数のエンコードされたビットストリーム中の、関係するおよび関係しないメディア・データ位置および/または関係するおよび関係しないメディア・データ位置の状態の挿入、抽出または編集のうちの一つを実行する段階を含む、方法。
〔付番実施例94〕
エンコードされたビットストリーム中の、前記一つまたは複数の関係するおよび関係しないメディア・データ位置および/または関係するおよび関係しないメディア・データ位置の状態は、サブストリーム、一つまたは複数のリザーブされたフィールド、add_bsiフィールド、一つまたは複数の補助データ・フィールドまたは一つまたは複数の変換係数のうちの少なくとも一つにおいて担持される、付番実施例93記載の方法。
〔付番実施例95〕
音響心理学的ユニット、変換、波形/空間オーディオ符号化ユニット、エンコーダ、デコーダ、トランスコーダまたはストリーム・プロセッサのうちの一つまたは複数を含むメディア処理チェーン中の一つまたは複数のコンピューティング装置によって、一つまたは複数のエンコードされたビットストリーム中の、関係するおよび関係しないメディア・データおよび/または関係するおよび関係しないメディア・データの状態の挿入、抽出または編集のうちの一つまたは複数を実行する段階を含む、方法。
〔付番実施例96〕
エンコードされたビットストリーム中の、前記一つまたは複数の関係するおよび関係しないメディア・データおよび/または関係するおよび関係しないメディア・データの状態は、サブストリーム、一つまたは複数のリザーブされたフィールド、add_bsiフィールド、一つまたは複数の補助データ・フィールドまたは一つまたは複数の変換係数のうちの少なくとも一つにおいて担持される、付番実施例95記載の方法。
〔付番実施例97〕
上流のメディア処理装置から下流のメディア処理装置に、前記メディア・データの状態を:(a)メディア・フィンガープリント、(b)処理状態メタデータ、(c)抽出されたメディア特徴値、(d)メディア・クラス・タイプもしくはサブタイプの記述および/または値、(e)メディア特徴クラスおよび/またはサブクラス確率値、(f)暗号学的ハッシュ値または(f)メディア処理信号のうちの一つまたは複数として提供する段階をさらに含む、付番実施例93記載の方法。
〔付番実施例98〕
音響心理学的ユニット、変換、波形/空間オーディオ符号化ユニット、エンコーダ、デコーダ、トランスコーダまたはストリーム・プロセッサのうちの一つまたは複数を含むメディア処理チェーン中の一つまたは複数のコンピューティング装置によって、メディア・データおよび/またはメディア・データの状態に基づく暗号学的ハッシュ値を計算し、一つまたは複数のエンコードされたビットストリーム中で搬送するよう構成されたメディア処理システムが提供される。
〔付番実施例99〕
前記メディア・データの前記状態が:(a)メディア・フィンガープリント、(b)処理状態メタデータ、(c)抽出されたメディア特徴値、(d)メディア・クラス・タイプもしくはサブタイプの記述および/または値、(e)メディア特徴クラスおよび/またはサブクラス確率値、(f)暗号学的ハッシュ値または(f)メディア処理信号のうちの一つまたは複数を含む、付番実施例98記載のシステム。
〔付番実施例100〕
一つまたは複数のセキュアな通信チャネルから受領されるメディア・データの状態に基づいて該メディア・データを適応的に処理するよう構成されたメディア処理システム。
〔付番実施例101〕
一つまたは複数の処理ノードを含む、付番実施例100記載のメディア処理システムであって、前記処理ノードは、メディア送達システム、メディア配送システムおよびメディア・レンダリング・システムを含む、メディア処理システム。
〔付番実施例102〕
前記一つまたは複数のセキュアな通信チャネルが、圧縮/符号化されたビットストリームおよびPCM処理ノードの二つ以上を横断する少なくとも一つのセキュアな通信チャネルを含む、付番実施例101記載のメディア処理システム。
〔付番実施例103〕
前記一つまたは複数のセキュアな通信チャネルが、二つの別個のメディア処理装置にまたがる少なくとも一つのセキュアな通信チャネルを含む、付番実施例101記載のメディア処理システム。
〔付番実施例104〕
前記一つまたは複数のセキュアな通信チャネルが、単一のメディア処理装置内の二つのメディア処理ノードにまたがる少なくとも一つのセキュアな通信チャネルを含む、付番実施例101記載のメディア処理システム。
〔付番実施例105〕
付番実施例100記載のメディア処理システムであって、当該メディア処理システムが一部をなすメディア処理チェーンにおいて諸メディア処理システムがどのような順番になっているかとは独立に自律的なメディア処理動作を実行するよう構成された、メディア処理システム。
〔付番実施例106〕
前記メディア・データの前記状態が:(a)メディア・フィンガープリント、(b)処理状態メタデータ、(c)抽出されたメディア特徴値、(d)メディア・クラス・タイプもしくはサブタイプの記述および/または値、(e)メディア特徴クラスおよび/またはサブクラス確率値、(f)暗号学的ハッシュ値または(f)メディア処理信号のうちの一つまたは複数を含む、付番実施例100記載のメディア処理システム。
〔付番実施例107〕
付番実施例1〜99記載のうちいずれか一項記載の方法を実行するよう構成されたメディア処理システム。
〔付番実施例108〕
プロセッサを有し、付番実施例1〜99記載のうちいずれか一項記載の方法を実行するよう構成されている装置。
〔付番実施例109〕
一つまたは複数のプロセッサによって実行されたときに、付番実施例1〜99記載のうちいずれか一項記載の方法を実行させるソフトウェア命令を含むコンピュータ可読記憶媒体。
9.等価物、拡張、代替その他
以上の明細書では、本発明の可能な実施形態について、実装によって変わりうる数多くの個別的詳細に言及しつつ記載している。よって、何が本発明であり、出願人によって本発明であると意図されているかの唯一の指標は、この出願から発行される一組の請求項の、かかる請求項が発行された具体的な形において、その後の訂正があればそれを含むものである。そのような請求項に含まれる用語について本稿で明示的に記載されている定義は、そのような請求項において使われているそのような用語の意味を支配する。よって、請求項に明示的に記載されていない限定、要素、属性、特徴、利点または性格は、いかなる仕方であれ該請求項の範囲を限定するべきではない。よって、明細書および図面は、制約する意味ではなく例解する意味で顧慮されるべきものである。

Claims (7)

  1. オーディオ・デコード方法であって:
    エンコードされたビットストリームをオーディオ・デコーダによって取得する段階であって、前記エンコードされたビットストリームはオーディオ・データおよび信号伝達データを含み、前記信号伝達データは、前記エンコードされたビットストリームにラウドネス値が含まれていることを示し、さらに前記エンコードされたビットストリームにサンプル・ピーク・データが含まれていることを示す、段階と;
    前記オーディオ・デコーダによって、前記エンコードされたビットストリームから前記ラウドネス値および前記サンプル・ピーク・データを取得する段階と;
    前記オーディオ・デコーダによって、前記ラウドネス値および前記サンプル・ピーク・データに応答して前記オーディオ・データのラウドネスを正規化する段階とを含む、
    方法。
  2. 前記オーディオ・データがダイアログ・オーディオ・データを含むことおよび前記ラウドネス値がダイアログ正規化(dialog normalization)値であることを前記信号伝達から判別し;
    前記ダイアログ正規化値に従って前記ダイアログ・オーディオ・データを正規化することをさらに含む、
    請求項1記載の方法。
  3. 前記エンコードされたビットストリームが、前記オーディオ・データを含む第一のビットストリームおよび前記ラウドネス値を含む第二のビットストリームを含む、請求項1記載の方法。
  4. プロセッサと;前記プロセッサによって実行されたときに前記プロセッサに動作を実行させる命令を記憶するよう構成されており、前記プロセッサに結合されたメモリとを有するオーディオ・デコード装置であって、前記動作は:
    エンコードされたビットストリームを取得する段階であって、前記エンコードされたビットストリームはオーディオ・データおよび信号伝達データを含み、前記信号伝達データは、前記エンコードされたビットストリームにラウドネス値が含まれていることを示し、さらに前記エンコードされたビットストリームにサンプル・ピーク・データが含まれていることを示す、段階と;
    前記エンコードされたビットストリームから前記ラウドネス値および前記サンプル・ピーク・データを取得する段階と;
    前記ラウドネス値および前記サンプル・ピーク・データに応答して前記オーディオ・データのラウドネスを正規化する段階とを含む、
    オーディオ・デコード装置。
  5. 前記オーディオ・データがダイアログ・オーディオ・データを含むことおよび前記ラウドネス値がダイアログ正規化(dialog normalization)値であることを前記信号伝達から判別し;
    前記ダイアログ正規化値に従って前記ダイアログ・オーディオ・データを正規化することをさらに含む、
    請求項4記載のオーディオ・デコード装置。
  6. 前記エンコードされたビットストリームが、前記オーディオ・データを含む第一のビットストリームおよび前記ラウドネス値を含む第二のビットストリームを含む、請求項4記載のオーディオ・デコード装置。
  7. コンピューティング装置で実行されたときに請求項1ないし3のうちいずれか一項記載の方法段階を実行するための、プロセッサでの実行のために適応されたソフトウェア・プログラムを有する記憶媒体。
JP2019092763A 2010-12-03 2019-05-16 複数のメディア処理ノードによる適応処理 Active JP6581324B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US41974710P 2010-12-03 2010-12-03
US61/419,747 2010-12-03
US201161558286P 2011-11-10 2011-11-10
US61/558,286 2011-11-10

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018141055A Division JP6530542B2 (ja) 2010-12-03 2018-07-27 複数のメディア処理ノードによる適応処理

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019156678A Division JP6728456B2 (ja) 2010-12-03 2019-08-29 複数のメディア処理ノードによる適応処理

Publications (2)

Publication Number Publication Date
JP2019152874A JP2019152874A (ja) 2019-09-12
JP6581324B2 true JP6581324B2 (ja) 2019-09-25

Family

ID=45422359

Family Applications (8)

Application Number Title Priority Date Filing Date
JP2013542166A Active JP5879362B2 (ja) 2010-12-03 2011-12-01 複数のメディア処理ノードによる適応処理
JP2016017008A Active JP6378703B2 (ja) 2010-12-03 2016-02-01 複数のメディア処理ノードによる適応処理
JP2018141055A Active JP6530542B2 (ja) 2010-12-03 2018-07-27 複数のメディア処理ノードによる適応処理
JP2019092763A Active JP6581324B2 (ja) 2010-12-03 2019-05-16 複数のメディア処理ノードによる適応処理
JP2019156678A Active JP6728456B2 (ja) 2010-12-03 2019-08-29 複数のメディア処理ノードによる適応処理
JP2020113775A Active JP7012786B2 (ja) 2010-12-03 2020-07-01 複数のメディア処理ノードによる適応処理
JP2022005541A Active JP7346617B2 (ja) 2010-12-03 2022-01-18 複数のメディア処理ノードによる適応処理
JP2023144103A Pending JP2023162414A (ja) 2010-12-03 2023-09-06 複数のメディア処理ノードによる適応処理

Family Applications Before (3)

Application Number Title Priority Date Filing Date
JP2013542166A Active JP5879362B2 (ja) 2010-12-03 2011-12-01 複数のメディア処理ノードによる適応処理
JP2016017008A Active JP6378703B2 (ja) 2010-12-03 2016-02-01 複数のメディア処理ノードによる適応処理
JP2018141055A Active JP6530542B2 (ja) 2010-12-03 2018-07-27 複数のメディア処理ノードによる適応処理

Family Applications After (4)

Application Number Title Priority Date Filing Date
JP2019156678A Active JP6728456B2 (ja) 2010-12-03 2019-08-29 複数のメディア処理ノードによる適応処理
JP2020113775A Active JP7012786B2 (ja) 2010-12-03 2020-07-01 複数のメディア処理ノードによる適応処理
JP2022005541A Active JP7346617B2 (ja) 2010-12-03 2022-01-18 複数のメディア処理ノードによる適応処理
JP2023144103A Pending JP2023162414A (ja) 2010-12-03 2023-09-06 複数のメディア処理ノードによる適応処理

Country Status (17)

Country Link
US (3) US9842596B2 (ja)
EP (2) EP2647006B1 (ja)
JP (8) JP5879362B2 (ja)
KR (10) KR20230023828A (ja)
CN (6) CN112002336A (ja)
AR (1) AR084086A1 (ja)
AU (1) AU2011336566A1 (ja)
BR (1) BR112013013353B1 (ja)
CA (3) CA2816889C (ja)
CL (1) CL2013001571A1 (ja)
IL (8) IL292856B2 (ja)
MX (4) MX359652B (ja)
MY (2) MY175099A (ja)
RU (3) RU2015132824A (ja)
SG (1) SG190164A1 (ja)
TW (8) TWI665659B (ja)
WO (1) WO2012075246A2 (ja)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI665659B (zh) * 2010-12-03 2019-07-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
WO2014124377A2 (en) 2013-02-11 2014-08-14 Dolby Laboratories Licensing Corporation Audio bitstreams with supplementary data and encoding and decoding of such bitstreams
US9311923B2 (en) 2011-05-19 2016-04-12 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
JP5416253B2 (ja) * 2012-06-27 2014-02-12 株式会社Nttドコモ 関連コンテンツ検索装置及び関連コンテンツ検索方法
MY176406A (en) 2012-08-10 2020-08-06 Fraunhofer Ges Forschung Encoder, decoder, system and method employing a residual concept for parametric audio object coding
EP2717510B1 (en) * 2012-10-08 2015-05-13 Université de Genève Method for active content fingerprinting
US9411881B2 (en) * 2012-11-13 2016-08-09 Dolby International Ab System and method for high dynamic range audio distribution
ES2843744T3 (es) 2013-01-21 2021-07-20 Dolby Laboratories Licensing Corp Decodificación de trenes de bits de audio codificados con un contenedor de metadatos situado en un espacio de datos reservado
CN109036443B (zh) 2013-01-21 2023-08-18 杜比实验室特许公司 用于在不同回放设备之间优化响度和动态范围的系统和方法
CN107257234B (zh) * 2013-01-21 2020-09-15 杜比实验室特许公司 解码具有保留数据空间中的元数据容器的编码音频比特流
JP6242916B2 (ja) 2013-01-21 2017-12-06 ドルビー ラボラトリーズ ライセンシング コーポレイション メタデータのトランスコード
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN107093991B (zh) 2013-03-26 2020-10-09 杜比实验室特许公司 基于目标响度的响度归一化方法和设备
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
TWM487509U (zh) * 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
CN109785851B (zh) 2013-09-12 2023-12-01 杜比实验室特许公司 用于各种回放环境的动态范围控制
US9349378B2 (en) 2013-11-19 2016-05-24 Dolby Laboratories Licensing Corporation Haptic signal synthesis and transport in a bit stream
US9621963B2 (en) 2014-01-28 2017-04-11 Dolby Laboratories Licensing Corporation Enabling delivery and synchronization of auxiliary content associated with multimedia data using essence-and-version identifier
JP6676047B2 (ja) * 2014-10-10 2020-04-08 ドルビー ラボラトリーズ ライセンシング コーポレイション 伝送に関知しない呈示ベースのプログラム・ラウドネス
US10021436B2 (en) * 2014-10-14 2018-07-10 Disney Enterprises, Inc. Storage of tags in video for carriage in real-time
US9414076B2 (en) * 2014-11-03 2016-08-09 Broadcom Corporation System architecture for distributed coding
US20160239508A1 (en) * 2015-02-12 2016-08-18 Harman International Industries, Incorporated Media content playback system and method
CN106454384B (zh) * 2015-08-04 2019-06-25 中国科学院深圳先进技术研究院 视频帧插入和帧删除检测方法
KR20180132032A (ko) * 2015-10-28 2018-12-11 디티에스, 인코포레이티드 객체 기반 오디오 신호 균형화
US9372881B1 (en) 2015-12-29 2016-06-21 International Business Machines Corporation System for identifying a correspondence between a COBOL copybook or PL/1 include file and a VSAM or sequential dataset
WO2017152173A1 (en) * 2016-03-04 2017-09-08 Leidos, Inc. System and method for implementing adaptive pulse position modulation (appm) for improved optical communications performance
CN105828272A (zh) * 2016-04-28 2016-08-03 乐视控股(北京)有限公司 音频信号处理方法和装置
US10015612B2 (en) * 2016-05-25 2018-07-03 Dolby Laboratories Licensing Corporation Measurement, verification and correction of time alignment of multiple audio channels and associated metadata
JP7086587B2 (ja) * 2017-02-24 2022-06-20 インターデジタル ヴイシー ホールディングス, インコーポレイテッド 復号された画像データから画像データを再構成する方法および装置
US10354660B2 (en) * 2017-04-28 2019-07-16 Cisco Technology, Inc. Audio frame labeling to achieve unequal error protection for audio frames of unequal importance
US10877735B1 (en) * 2017-09-25 2020-12-29 Amazon Technologies, Inc. Automated generation of software applications using analysis of submitted content items
TWI639997B (zh) * 2017-09-28 2018-11-01 大仁科技大學 基於機率規則之對話理解方法
US10705805B1 (en) 2017-12-12 2020-07-07 Amazon Technologies, Inc. Application authoring using web-of-sheets data model
US11586603B1 (en) 2018-05-23 2023-02-21 Amazon Technologies, Inc. Index sheets for robust spreadsheet-based applications
US10348505B1 (en) * 2018-05-24 2019-07-09 DeepTruth, LLC Systems and techniques for validation of media data
JP7171772B2 (ja) 2018-06-28 2022-11-15 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応的なストリーミング整列のためのフレーム変換
US10826606B1 (en) 2018-08-14 2020-11-03 Leidos, Inc. Quantum detection and tracking of pulsed optical signals
US20220059102A1 (en) * 2018-12-13 2022-02-24 Dolby Laboratories Licensing Corporation Methods, Apparatus and Systems for Dual-Ended Media Intelligence
US10733374B1 (en) * 2019-02-14 2020-08-04 Gideon Samid Live documentation (LiDo)
US11632598B2 (en) 2019-05-10 2023-04-18 Roku, Inc. Content-modification system with responsive transmission of reference fingerprint data feature
WO2020231827A1 (en) 2019-05-10 2020-11-19 The Nielsen Company (Us), Llc Content-modification system with responsive transmission of reference fingerprint data feature
TW202331547A (zh) 2019-05-10 2023-08-01 美商六科股份有限公司 用於檢測和回應於在先前檢測到的指紋匹配之後檢測到的指紋不匹配的方法、非暫時性電腦可讀儲存媒體及計算系統
JP7314398B2 (ja) * 2019-08-15 2023-07-25 ドルビー・インターナショナル・アーベー 変更オーディオビットストリームの生成及び処理のための方法及び装置
EP3809709A1 (en) * 2019-10-14 2021-04-21 Koninklijke Philips N.V. Apparatus and method for audio encoding
US20230162743A1 (en) * 2020-05-06 2023-05-25 Dolby Laboratories Licensing Corporation Audio watermark to indicate post-processing
CN112995425B (zh) * 2021-05-13 2021-09-07 北京百瑞互联技术有限公司 一种等响度混音方法及装置
WO2023196219A1 (en) * 2022-04-08 2023-10-12 Dolby Laboratories Licensing Corporation Methods, apparatus and systems for user generated content capture and adaptive rendering

Family Cites Families (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2947685B2 (ja) * 1992-12-17 1999-09-13 シャープ株式会社 音声コーデック装置
US6611607B1 (en) * 1993-11-18 2003-08-26 Digimarc Corporation Integrating digital watermarks in multimedia content
US5949891A (en) * 1993-11-24 1999-09-07 Intel Corporation Filtering audio signals from a combined microphone/speaker earpiece
FI96650C (fi) * 1994-07-11 1996-07-25 Nokia Telecommunications Oy Menetelmä ja laitteisto puheen välittämiseksi tietoliikennejärjestelmässä
TW271524B (ja) * 1994-08-05 1996-03-01 Qualcomm Inc
US5903862A (en) * 1995-01-25 1999-05-11 Weaver, Jr.; Lindsay A. Method and apparatus for detection of tandem vocoding to modify vocoder filtering
US7224819B2 (en) * 1995-05-08 2007-05-29 Digimarc Corporation Integrating digital watermarks in multimedia content
US5625608A (en) * 1995-05-22 1997-04-29 Lucent Technologies Inc. Remote control device capable of downloading content information from an audio system
US7006661B2 (en) * 1995-07-27 2006-02-28 Digimarc Corp Digital watermarking systems and methods
US7711564B2 (en) * 1995-07-27 2010-05-04 Digimarc Corporation Connected audio and other media objects
JP3338042B2 (ja) * 1995-09-29 2002-10-28 松下電器産業株式会社 再生方法、再生装置、記録方法、記録装置、光ディスク
US5794185A (en) * 1996-06-14 1998-08-11 Motorola, Inc. Method and apparatus for speech coding using ensemble statistics
PT1603244E (pt) * 1996-11-07 2007-11-23 Koninkl Philips Electronics Nv Transmissão de um sinal em modo binário
US6959220B1 (en) * 1997-11-07 2005-10-25 Microsoft Corporation Digital audio signal filtering mechanism and method
US6807632B1 (en) 1999-01-21 2004-10-19 Emc Corporation Content addressable information encapsulation, representation, and transfer
CA2265089C (en) 1998-03-10 2007-07-10 Sony Corporation Transcoding system using encoding history information
CN1065400C (zh) * 1998-09-01 2001-05-02 国家科学技术委员会高技术研究发展中心 兼容ac-3和mpeg-2的音频编解码器
US7055034B1 (en) * 1998-09-25 2006-05-30 Digimarc Corporation Method and apparatus for robust embedded data
WO2000054453A1 (en) * 1999-03-10 2000-09-14 Digimarc Corporation Signal processing methods, devices, and applications for digital rights management
JP4785168B2 (ja) * 2000-01-13 2011-10-05 ディジマーク コーポレイション メタデータの認証および媒体信号の透かしへのメタデータの埋込
US20020032502A1 (en) * 2000-05-05 2002-03-14 Russell J. Chris Integrated media production security method and system
US7206775B2 (en) * 2000-07-06 2007-04-17 Microsoft Corporation System and methods for the automatic transmission of new, high affinity media
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US7853664B1 (en) * 2000-07-31 2010-12-14 Landmark Digital Services Llc Method and system for purchasing pre-recorded music
US6983466B2 (en) * 2000-12-06 2006-01-03 Microsoft Corporation Multimedia project processing systems and multimedia project processing matrix systems
KR100587517B1 (ko) * 2001-11-14 2006-06-08 마쯔시다덴기산교 가부시키가이샤 오디오 부호화 및 복호화
EP1318611A1 (en) * 2001-12-06 2003-06-11 Deutsche Thomson-Brandt Gmbh Method for retrieving a sensitive criterion for quantized spectra detection
KR20040067849A (ko) * 2001-12-07 2004-07-30 마쯔시다덴기산교 가부시키가이샤 매체 콘텐츠 분배 시스템과 방법
AUPR960601A0 (en) 2001-12-18 2002-01-24 Canon Kabushiki Kaisha Image protection
US8150937B2 (en) * 2004-10-25 2012-04-03 Apple Inc. Wireless synchronization between media player and host device
WO2003091870A1 (en) 2002-04-26 2003-11-06 Electronics And Telecommunications Research Institute Apparatus and method for adapting audio signal
US7072477B1 (en) * 2002-07-09 2006-07-04 Apple Computer, Inc. Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
RU2005120236A (ru) * 2002-11-28 2006-01-20 Конинклейке Филипс Электроникс Н.В. (Nl) Кодирование аудиосигнала
US7444336B2 (en) 2002-12-11 2008-10-28 Broadcom Corporation Portable media processing unit in a media exchange network
WO2004090886A1 (en) * 2003-04-08 2004-10-21 Koninklijke Philips Electronics N.V. Fragile audio watermark related to a buried data channel
US20040267778A1 (en) * 2003-06-27 2004-12-30 Microsoft Corporation Media foundation topology application programming interface
US7509255B2 (en) * 2003-10-03 2009-03-24 Victor Company Of Japan, Limited Apparatuses for adaptively controlling processing of speech signal and adaptively communicating speech in accordance with conditions of transmitting apparatus side and radio wave and methods thereof
US7516232B2 (en) 2003-10-10 2009-04-07 Microsoft Corporation Media organization for distributed sending of media data
US7315822B2 (en) * 2003-10-20 2008-01-01 Microsoft Corp. System and method for a media codec employing a reversible transform obtained via matrix lifting
US7412380B1 (en) 2003-12-17 2008-08-12 Creative Technology Ltd. Ambience extraction and modification for enhancement and upmix of audio signals
US7653265B2 (en) 2004-01-16 2010-01-26 Nvidia Corporation Video image processing with utility processing stage
US20060013077A1 (en) * 2004-02-11 2006-01-19 Mesarovic Vladimir Z Audio-video systems with application specific modules and common processing software architecture
ATE527654T1 (de) * 2004-03-01 2011-10-15 Dolby Lab Licensing Corp Mehrkanal-audiodecodierung
US8131134B2 (en) * 2004-04-14 2012-03-06 Microsoft Corporation Digital media universal elementary stream
US8688248B2 (en) * 2004-04-19 2014-04-01 Shazam Investments Limited Method and system for content sampling and identification
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US8135136B2 (en) 2004-09-06 2012-03-13 Koninklijke Philips Electronics N.V. Audio signal enhancement
BRPI0518278B1 (pt) 2004-10-26 2018-04-24 Dolby Laboratories Licensing Corporation Método e aparelho para controlar uma característica de sonoridade particular de um sinal de áudio
JP2008527583A (ja) * 2005-01-04 2008-07-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 再生可能データの処理装置及び方法
ATE521143T1 (de) 2005-02-23 2011-09-15 Ericsson Telefon Ab L M Adaptive bitzuweisung für die mehrkanal- audiokodierung
MX2007011286A (es) * 2005-03-14 2007-11-15 Nielsen Media Res Inc Aparatos y metodos de codificacion de dominios comprimidos para su utilizacion con senales de medios.
TWI397903B (zh) * 2005-04-13 2013-06-01 Dolby Lab Licensing Corp 編碼音訊之節約音量測量技術
TW200638335A (en) * 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
WO2006110975A1 (en) * 2005-04-22 2006-10-26 Logovision Wireless Inc. Multimedia system for mobile client platforms
US7634727B2 (en) * 2005-04-26 2009-12-15 Microsoft Corporation System for abstracting audio-video codecs
US20060259781A1 (en) 2005-04-29 2006-11-16 Sony Corporation/Sony Electronics Inc. Method and apparatus for detecting the falsification of metadata
CN101171636B (zh) * 2005-05-02 2014-05-14 松下电器产业株式会社 编创装置
JP2009504026A (ja) * 2005-07-27 2009-01-29 ダグ カーソン アンド アソシエーツ,インク. デジタルコンテンツに関連付けられた検証用来歴データ
US8280944B2 (en) * 2005-10-20 2012-10-02 The Trustees Of Columbia University In The City Of New York Methods, media and systems for managing a distributed application running in a plurality of digital processing devices
KR100803206B1 (ko) 2005-11-11 2008-02-14 삼성전자주식회사 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법
US7877752B2 (en) * 2005-12-14 2011-01-25 Broadcom Corp. Method and system for efficient audio scheduling for dual-decode digital signal processor (DSP)
US20070168197A1 (en) 2006-01-18 2007-07-19 Nokia Corporation Audio coding
FR2899408B1 (fr) * 2006-03-29 2008-07-18 Airbus France Sas Procedes d'emission et de reception de donnees, en particulier pour des echanges securises entre un aeronef et une base au sol, dispositifs associes et aeronef equipe de tels dispositifs
CN101484936B (zh) * 2006-03-29 2012-02-15 皇家飞利浦电子股份有限公司 音频解码
JP4981123B2 (ja) 2006-04-04 2012-07-18 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ信号の知覚音量及び/又は知覚スペクトルバランスの計算と調整
EP1852848A1 (en) * 2006-05-05 2007-11-07 Deutsche Thomson-Brandt GmbH Method and apparatus for lossless encoding of a source signal using a lossy encoded data stream and a lossless extension data stream
US20070299657A1 (en) 2006-06-21 2007-12-27 Kang George S Method and apparatus for monitoring multichannel voice transmissions
US20080007649A1 (en) 2006-06-23 2008-01-10 Broadcom Corporation, A California Corporation Adaptive video processing using sub-frame metadata
KR100781528B1 (ko) * 2006-06-29 2007-12-03 삼성전자주식회사 무결성을 보장하는 비디오 스트림을 제공하는 장치 및 그방법
JP5205373B2 (ja) * 2006-06-30 2013-06-05 フラウンホーファーゲゼルシャフト・ツア・フェルデルング・デア・アンゲバンテン・フォルシュング・エー・ファウ 動的可変ワーピング特性を有するオーディオエンコーダ、オーディオデコーダ及びオーディオプロセッサ
US7940989B2 (en) * 2006-06-30 2011-05-10 New Jersey Institute Of Technology Apparatus and method for a generalized benford's law analysis of DCT and JPEG coefficients
CN101502089B (zh) * 2006-07-28 2013-07-03 西门子企业通讯有限责任两合公司 进行音频会议的方法、音频会议装置和编码器之间的切换方法
CN100489964C (zh) * 2006-08-18 2009-05-20 广州广晟数码技术有限公司 音频解码
BRPI0716854B1 (pt) * 2006-09-18 2020-09-15 Koninklijke Philips N.V. Codificador para codificar objetos de áudio, decodificador para decodificar objetos de áudio, centro distribuidor de teleconferência, e método para decodificar sinais de áudio
US7725311B2 (en) * 2006-09-28 2010-05-25 Ericsson Ab Method and apparatus for rate reduction of coded voice traffic
US20080080722A1 (en) * 2006-09-29 2008-04-03 Carroll Tim J Loudness controller with remote and local control
US8521314B2 (en) * 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
JP2008197199A (ja) * 2007-02-09 2008-08-28 Matsushita Electric Ind Co Ltd オーディオ符号化装置及びオーディオ復号化装置
JP2009032070A (ja) * 2007-07-27 2009-02-12 Hitachi Software Eng Co Ltd 認証システム及び認証方法
US9866785B2 (en) * 2007-08-15 2018-01-09 Advanced Micro Devices, Inc. Automatic reduction of video display device power consumption
US8532306B2 (en) 2007-09-06 2013-09-10 Lg Electronics Inc. Method and an apparatus of decoding an audio signal
US20090079842A1 (en) * 2007-09-26 2009-03-26 Honeywell International, Inc. System and method for image processing
EP2235932A4 (en) 2007-12-20 2013-01-23 Ati Technologies Ulc METHOD, DEVICE AND MACHINE-READABLE MEDIUM FOR DESCRIPTING VIDEO PROCESSING
CN101527829B (zh) * 2008-03-07 2011-07-20 华为技术有限公司 视频数据处理方法及装置
JP4596044B2 (ja) * 2008-06-03 2010-12-08 ソニー株式会社 情報処理システム、情報処理方法
US8793498B2 (en) * 2008-08-11 2014-07-29 Nbcuniversal Media, Llc System and method for forensic analysis of media works
JP5603339B2 (ja) * 2008-10-29 2014-10-08 ドルビー インターナショナル アーベー 既存のオーディオゲインメタデータを使用した信号のクリッピングの保護
US8429287B2 (en) * 2009-04-29 2013-04-23 Rangecast Technologies, Llc Network audio distribution system and method
US8489774B2 (en) * 2009-05-27 2013-07-16 Spot411 Technologies, Inc. Synchronized delivery of interactive content
US8914137B2 (en) 2009-06-19 2014-12-16 Dolby Laboratories Licensing Corporation Upgradeable engine framework for audio and video
JP4894896B2 (ja) * 2009-07-29 2012-03-14 株式会社Jvcケンウッド 音声信号処理装置及び音声信号処理方法
US8594392B2 (en) * 2009-11-18 2013-11-26 Yahoo! Inc. Media identification system for efficient matching of media items having common content
CN102131023A (zh) * 2010-01-12 2011-07-20 株式会社东芝 图像形成装置以及图像形成处理方法
EP2360681A1 (en) * 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
TWI557723B (zh) 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
JP2011186187A (ja) * 2010-03-09 2011-09-22 Jvc Kenwood Holdings Inc 音声処理装置、音声処理方法および音声処理プログラム
US8812498B2 (en) * 2010-09-28 2014-08-19 Apple Inc. Methods and systems for providing podcast content
US8661170B2 (en) * 2010-11-23 2014-02-25 Olympus Corporation Nondestructive testing system
TWI665659B (zh) * 2010-12-03 2019-07-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法

Also Published As

Publication number Publication date
JP2016136256A (ja) 2016-07-28
TWI759223B (zh) 2022-03-21
CN112002336A (zh) 2020-11-27
BR112013013353A2 (pt) 2016-09-13
BR112013013353B1 (pt) 2021-05-04
TWI665659B (zh) 2019-07-11
KR102383651B1 (ko) 2022-04-08
KR101895199B1 (ko) 2018-09-07
JP5879362B2 (ja) 2016-03-08
TWI716169B (zh) 2021-01-11
EP2647006A1 (en) 2013-10-09
IL282781B (en) 2022-06-01
IL298975A (en) 2023-02-01
AU2011336566A1 (en) 2013-05-30
TW202236263A (zh) 2022-09-16
SG190164A1 (en) 2013-07-31
IL304770A (en) 2023-09-01
KR20170113678A (ko) 2017-10-12
JP2023162414A (ja) 2023-11-08
CA3216692A1 (en) 2012-06-07
RU2015132824A (ru) 2018-12-24
RU2013130293A (ru) 2015-01-10
MX2019014282A (es) 2020-01-27
TW201735010A (zh) 2017-10-01
MY175099A (en) 2020-06-05
TW201928944A (zh) 2019-07-16
KR20220047394A (ko) 2022-04-15
KR20140106760A (ko) 2014-09-03
IL292856B1 (en) 2023-01-01
KR20190009850A (ko) 2019-01-29
JP6728456B2 (ja) 2020-07-22
JP2020013143A (ja) 2020-01-23
MY188206A (en) 2021-11-24
IL276179B (en) 2021-05-31
KR20130111601A (ko) 2013-10-10
IL282781A (en) 2021-06-30
IL226100A0 (en) 2013-06-27
CN105845145A (zh) 2016-08-10
MX370087B (es) 2019-11-29
KR102043609B1 (ko) 2019-11-12
CA2816889C (en) 2018-05-01
US20210280200A1 (en) 2021-09-09
KR20190127990A (ko) 2019-11-13
CN103392204B (zh) 2016-05-11
CA2816889A1 (en) 2012-06-07
KR101787363B1 (ko) 2017-11-15
IL298975B2 (en) 2024-01-01
IL253183A0 (en) 2017-08-31
JP7346617B2 (ja) 2023-09-19
KR20200106991A (ko) 2020-09-15
KR102497818B1 (ko) 2023-02-08
TW201236446A (en) 2012-09-01
US9842596B2 (en) 2017-12-12
CN111613233A (zh) 2020-09-01
KR20180100257A (ko) 2018-09-07
RU2568372C9 (ru) 2016-06-10
IL298975B1 (en) 2023-09-01
IL271502A (en) 2020-02-27
JP2014505898A (ja) 2014-03-06
JP7012786B2 (ja) 2022-01-28
TWI496461B (zh) 2015-08-11
JP2019152874A (ja) 2019-09-12
AR084086A1 (es) 2013-04-17
JP6530542B2 (ja) 2019-06-12
CN112002334A (zh) 2020-11-27
RU2019118805A (ru) 2020-12-18
IL271502B (en) 2020-08-31
JP2020170189A (ja) 2020-10-15
EP3627508A1 (en) 2020-03-25
KR101943295B1 (ko) 2019-04-17
RU2568372C2 (ru) 2015-11-20
IL276179A (en) 2020-09-30
US20180068666A1 (en) 2018-03-08
MX2013005898A (es) 2013-06-18
TWI733583B (zh) 2021-07-11
US20130246077A1 (en) 2013-09-19
KR102269529B1 (ko) 2021-06-29
TW202139181A (zh) 2021-10-16
TW202103145A (zh) 2021-01-16
CN105845145B (zh) 2020-08-25
CN103392204A (zh) 2013-11-13
JP2018163379A (ja) 2018-10-18
TWI581250B (zh) 2017-05-01
KR102155491B1 (ko) 2020-09-15
IL292856B2 (en) 2023-05-01
KR20230023828A (ko) 2023-02-17
JP6378703B2 (ja) 2018-08-22
CL2013001571A1 (es) 2013-10-11
WO2012075246A2 (en) 2012-06-07
TW202032537A (zh) 2020-09-01
KR20210081443A (ko) 2021-07-01
IL253183B (en) 2020-01-30
RU2695504C1 (ru) 2019-07-23
MX359652B (es) 2018-10-05
CA2998405C (en) 2023-12-05
CA2998405A1 (en) 2012-06-07
JP2022050646A (ja) 2022-03-30
TWI687918B (zh) 2020-03-11
KR101438386B1 (ko) 2014-09-05
IL226100A (en) 2017-07-31
MX338238B (es) 2016-04-08
CN112002335A (zh) 2020-11-27
IL292856A (en) 2022-07-01
EP2647006B1 (en) 2019-09-18
TW201543469A (zh) 2015-11-16
TWI800092B (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
JP6581324B2 (ja) 複数のメディア処理ノードによる適応処理
AU2020200861B2 (en) Adaptive Processing with Multiple Media Processing Nodes
TW202405797A (zh) 音頻解碼裝置、音頻解碼方法及音頻編碼方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190516

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190521

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190806

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190829

R150 Certificate of patent or registration of utility model

Ref document number: 6581324

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250