JP6581324B2

JP6581324B2 - 複数のメディア処理ノードによる適応処理

Info

Publication number: JP6581324B2
Application number: JP2019092763A
Authority: JP
Inventors: リードミラー，ジェフレイ; ラドハクリシュナン，レグナサン; プリバディ，マーヴィン; ファラハニ，ファーハッド; スミサーズ，マイケル
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2010-12-03
Filing date: 2019-05-16
Publication date: 2019-09-25
Anticipated expiration: 2031-12-01
Also published as: JP2016136256A; TWI759223B; CN112002336A; BR112013013353A2; BR112013013353B1; TWI665659B; KR102383651B1; KR101895199B1; JP5879362B2; TWI716169B; EP2647006A1; IL282781B; IL298975A; AU2011336566A1; TW202236263A; SG190164A1; IL304770A; KR20170113678A; JP2023162414A; CA3216692A1

Description

関連出願への相互参照および優先権主張
本願は、2010年12月3日に出願された米国仮出願第61/419,747号および2011年11月10日に出願された米国仮出願第61/558,286号の優先権を主張する。両出願はここに参照によってあらゆる目的のために全体において組み込まれる。

技術
本発明は概括的にはメディア処理システムに関し、詳細にはメディア・データのメディア処理状態に基づいてメディア・データを適応的に処理することに関する。

メディア処理ユニットは典型的には盲目的な仕方で動作し、当該メディア・データが受領される前に生起するメディア・データの処理履歴には注意を払わない。これは、単一のエンティティが多様なターゲット・メディア・レンダリング装置のためのメディア処理およびエンコードのすべてを行い、一方、ターゲット・メディア・レンダリング装置がエンコードされたメディア・データのデコードおよびレンダリングのすべてを行うメディア処理フレームワークでは機能するかもしれない。しかしながら、この盲目的な処理は、複数のメディア処理ユニットが多様ネットワークにまたがって分散されているまたは縦続的に（チェーン状に）配置されており、それぞれの型のメディア処理を最適に実行することが期待される状況では、うまく（または全く）機能しない。たとえば、一部のメディア・データは高性能メディア・システムのためにエンコードされていることがあり、メディア処理チェーン上のモバイル装置のために好適な低減した形に変換される必要があることがある。よって、メディア処理ユニットは、そのメディア・データに対する、すでに実行された型の処理を不必要に実行することがある。たとえば、ボリューム平準化（leveling）ユニットは、入力オーディオ・クリップに対して以前にボリューム平準化が実行されているか否かに関わりなく、入力オーディオ・クリップに対して処理を実行する。結果として、ボリューム平準化ユニットは、必要でないときにも平準化を実行する。この不必要な処理は、メディア・データ中のメディア・コンテンツをレンダリングする際に、特定の特徴の劣化および／または除去を引き起こすこともある。

このセクションに記載されるアプローチは、追求されたかもしれないアプローチだが、必ずしも以前に着想ないし追求されたアプローチではない。よって、特に断りのない限り、このセクションに記載されるアプローチのいずれも、単にこのセクションに含まれているために従来技術の資格をもつと想定されるべきではない。同様に、一つまたは複数のアプローチに関して同定される問題は、特に断りのない限り、このセクションに基づいて何らかの従来技術において認識されていたと想定するべきではない。

従来技術の問題を軽減または解消する。

請求項記載の手段によって解決する。

本発明は、限定ではなく例として、付属の図面の図において示されている。図において、同様の参照符号は同様の要素を指す。
本発明のいくつかの可能な実施形態に基づく、例示的なメディア処理チェーンを示す図である。本発明のいくつかの可能な実施形態に基づく、例示的な向上されたメディア処理チェーンを示す図である。本発明のいくつかの可能な実施形態に基づく、例示的なエンコーダ／トランスコーダを示す図である。本発明のいくつかの可能な実施形態に基づく、例示的なデコーダを示す図である。本発明のいくつかの可能な実施形態に基づく、例示的な後処理ユニットを示す図である。本発明のいくつかの可能な実施形態に基づく、エンコーダ／トランスコーダの例示的な実装を示す図である。本発明のいくつかの可能な実施形態に基づく、処理状態メタデータ中のおよび／または処理状態メタデータに関連付けられたラウドネス・メタデータの有効性に基づいて、ボリューム平準化ユニットの動作モードを制御する、例示的な進化デコーダを示す図である。本発明のいくつかの可能な実施形態に基づく、メディア処理情報を渡すためにデータ隠しを使う例示的な構成を示す図である。ＡおよびＢは、本発明のある可能な実施形態に基づく、例示的なプロセス・フローを示す図である。本発明のある可能な実施形態に基づく、本稿に記載されるコンピュータまたはコンピューティング装置が実装されうる例示的なハードウェア・プラットフォームを示す図である。ある例示的な実施形態に基づく、メディア・フレームとともにメディア・フレーム中のメディア・データに関連付けられた処理状態メタデータが伝送されうるメディア・フレームを示す図である。本発明の実施形態に基づく、例示的なメディア処理ノード／装置のブロック図である。本発明の実施形態に基づく、例示的なメディア処理ノード／装置のブロック図である。本発明の実施形態に基づく、例示的なメディア処理ノード／装置のブロック図である。本発明の実施形態に基づく、例示的なメディア処理ノード／装置のブロック図である。本発明の実施形態に基づく、例示的なメディア処理ノード／装置のブロック図である。本発明の実施形態に基づく、例示的なメディア処理ノード／装置のブロック図である。本発明の実施形態に基づく、例示的なメディア処理ノード／装置のブロック図である。本発明の実施形態に基づく、例示的なメディア処理ノード／装置のブロック図である。本発明の実施形態に基づく、例示的なメディア処理ノード／装置のブロック図である。本発明の実施形態に基づく、例示的なメディア処理ノード／装置のブロック図である。本発明の実施形態に基づく、例示的なメディア処理ノード／装置のブロック図である。本発明の実施形態に基づく、例示的なメディア処理ノード／装置のブロック図の一部である。本発明の実施形態に基づく、例示的なメディア処理ノード／装置のブロック図の一部である。

メディア・データのメディア処理状態に基づくメディア・データの適応的な処理に関する例示的な可能な実施形態がここに記述される。以下の記述では、説明の目的で、本発明の十全な理解を与えるために数多くの個別的な詳細が記される。しかしながら、本発明がこうした個別的詳細なしでも実施されうることは明白であろう。他方、本発明を無用に隠蔽したり、埋没させたり、ぼかしたりするのを避けるため、よく知られた構造および装置は網羅的な詳細では記述されない。

例示的な実施形態は、ここでは以下のアウトラインに従って記述される。

１．全般的概観
２．メディア処理チェーン
３．メディア処理装置またはユニット
４．メディア・データの例示的な適応的処理
５．データ隠し
６．例示的なプロセス・フロー
７．実装機構――ハードウェアの概観
８．付番実施例
９．等価物、拡張、代替その他。

１．全般的概観
この概観は、本発明の可能な実施形態のいくつかの側面の基本的な記述を呈示する。この概観は可能な実施形態の包括的ないし網羅的な要約ではないことを注意しておくべきである。さらに、この概観は、可能な実施形態の何らかの特に有意な側面または要素を特定するものとも、可能な実施形態や特に本発明一般の範囲を定めるものとも理解されることは意図されていないことを注意しておくべきである。この概観は単に、簡約化した形で例示的な可能な実施形態に関係するいくつかの概念を呈示するものであり、単に、後述する例示的な可能な実施形態のより詳細な記述への概念的な序章として理解されるべきである。

メディア・データのメディア処理状態に基づくメディア・データの適応的な処理のための技法が記述される。いくつかの可能な実施形態では、向上メディア処理チェーンにおける諸メディア処理ユニットが自動的に、メディア処理信号および／または処理状態メタデータを取得および検証し、メディア処理信号（media processing signaling）および／または処理状態メタデータ（processing state metadata）に基づいてメディア・データの状態を判別し、メディア・データの状態に基づいてそれぞれの処理を適応させることができるようにされる。向上メディア処理チェーン内の諸メディア処理ユニットは、これに限られないが、エンコーダ、トランスコーダ、デコーダ、前処理ユニット、後処理ユニット、ビットストリーム処理ツール、先進テレビジョン・システムズ委員会（ATSC: Advanced Television Systems Committee）コーデック、動画像専門家グループ（MPEG: Moving Picture Experts Group）コーデックなどを含んでいてもよい。メディア処理ユニットは、メディア処理システムまたはメディア処理システムの一部であってもよい。

本稿での用法では、用語「処理状態メタデータ（processing state metadata）」は、メディア・データとは別個の異なるデータを指す。一方、メディア・データ（たとえば、メディア・コンテンツを含む、ビデオ・フレーム、知覚的に符号化されたオーディオ・フレームまたはPCMオーディオ・サンプル）は、メディア・コンテンツを表し、該メディア・コンテンツをオーディオまたはビデオ出力としてレンダリングするために使われるメディア・サンプル・データを指す。処理状態メタデータは、メディア・データに関連付けられており、メディア・データに対してどの型の処理がすでに実行されているかを指定する。処理状態メタデータのメディア・データとのこの関連付けは時間同期的（time-synchronous）である。よって、現在の処理状態メタデータは、現在のメディア・データが、指示された型のメディア処理の結果および／またはメディア・データ中のメディア特徴の記述を共時的に（contemporaneously）含むことを示す。いくつかの可能な実施形態では、処理状態メタデータは、処理履歴および／または指示された型のメディア処理において使われるおよび／または指示された型のメディア処理から導出されるパラメータの一部もしくは全部を含んでいてもよい。追加的および／または任意的に、処理状態メタデータは、メディア・データから計算／抽出された一つまたは複数の異なる型のメディア特徴を含んでいてもよい。本稿に記述されるところのメディア特徴は、メディア・データの意味的な記述を提供し、構造的属性、和声およびメロディーを含む音質（tonality）、音色、リズム、基準ラウドネス、ステレオ・ミックスまたはメディア・データのある量の音源、声の不在もしくは存在、反復特性、メロディー、和声、歌詞、音色、知覚的特徴、デジタル・メディア特徴、ステレオ・パラメータ、声認識（たとえば話者が何を言っているか）などの一つまたは複数を含んでいてもよい。処理状態メタデータはまた、メディア・データのいかなる処理にも関係せず、メディア・データのいかなる処理から導出されたのでもない他のメタデータを含んでいてもよい。たとえば、サードパーティー・データ、追跡情報、識別子、独自または標準の情報、ユーザー注釈データ、ユーザー選好データなどが、他のメディア処理ユニットに渡すべく、特定のメディア処理ユニットによって加えられてもよい。これらの独立した型のメタデータは、あちこちに分散され、検証され、メディア処理チェーン内のメディア処理コンポーネントによって使用されてもよい。用語「メディア処理信号（media processing signaling）」は、メディア・ビットストリーム中の、メディア処理ユニット間で通信される比較的軽量の制御またはステータス・データ（これは、処理状態メタデータに比べて小さなデータ量であってもよい）を指す。メディア処理信号は、処理状態メタデータのサブセットまたは要約を含んでいてもよい。

メディア処理信号および／または処理状態メタデータは、一つまたは複数のリザーブされたフィールド（これは、現在不使用のものであってもよいが、それに限定されるわけではない）に埋め込まれる、メディア・ビットストリーム中のサブストリームにおいて搬送される、メディア・データに隠される、あるいは別個のメディア処理データベースを与えられるのでもよい。いくつかの可能な実施形態では、メディア処理信号および／または処理状態メタデータのデータ量は、メディア・データを搬送するために割り当てられるビットレートに影響することなく搬送される（たとえば、リザーブされているフィールドにおいて、または可逆データ隠し技法を使ってメディア・サンプル中に隠されて、あるいはメディア・データからメディア・フィンガープリントを計算してまたはメディア・データからメディア・フィンガープリントを取得して詳細な処理状態情報を外部データベースに記憶するなど）のに十分小さくてもよい。向上メディア処理チェーンにおけるメディア処理信号および／または処理状態メタデータの通信は、メディア処理チェーン（またはコンテンツ・ライフサイクル）を通じて二つ以上のメディア処理ユニットが互いと縦接的に協働する必要がある場合に特に有用である。メディア処理信号および／または処理状態メタデータなしでは、たとえばチェーンにおいて二つ以上のオーディオ・コーデックが利用され、メディア・コンテンツのメディア消費装置（またはメディア・データ中のメディア・コンテンツのレンダリング・ポイント）への行程の間にシングルエンドの（single-ended）ボリューム平準化が二度以上適用される場合、品質、レベルおよび空間的劣化のような深刻なメディア処理問題が起こる可能性が高いことがある。

対照的に、本稿の技法は、向上メディア処理チェーン（コンテンツ・ライフサイクル）におけるメディア処理ユニットのいずれかまたは全部のインテリジェンスを高める。本稿の技法のもとでは、これらのメディア処理ユニットの任意のものは、メディア・データの状態を、「傾聴および適応」するとともに下流のメディア処理ユニットに対して「アナウンス」することができる。よって、本稿の技法のもとでは、下流のメディア処理ユニットは、一つまたは複数の上流のメディア処理ユニットによって実行されたメディア・データの過去の処理の知識に基づいてメディア・データの処理を最適化してもよい。本稿の技法のもとでは、メディア処理チェーン全体によるメディア・データに対するメディア処理は、他の場合に比べ、より効率的、より適応的かつより予測可能になる。結果として、メディア・データ中のメディア・コンテンツの全体的なレンダリングおよび扱いがずっと改善される。

重要なことに、本稿の技法のもとでは、メディア処理信号および／または処理状態メタデータによって示されるメディア・データの状態の存在は、向上メディア処理チェーンに存在することがありうるレガシーのメディア処理ユニットに負の影響を与えることはない。レガシーのメディア処理ユニットは、自身ではメディア・データを適応的に処理するためにメディア・データの状態をプロアクティブに利用し得ない。さらに、たとえメディア処理チェーンにおけるレガシーのメディア処理ユニットが他の上流のメディア処理装置の処理結果に細工をする傾向があったとしても、本稿の処理状態メタデータは、暗号学的値、暗号化、認証およびデータ隠しを利用する安全な通信方法を通じて、安全かつセキュアに下流のメディア処理装置に渡されうる。データ隠しの例は、可逆的および不可逆的の両方のデータ隠しを含む。

いくつかの可能な実施形態では、メディア・データの状態を下流のメディア処理ユニットに伝達するために、本稿の技法は、ソフトウェア、ハードウェアまたは両方の形の一つまたは複数の処理サブユニットを、メディア処理ユニット中に包み込むおよび／または埋め込む。メディア処理ユニットが、メディア・データとともに送達された処理状態メタデータを読み取る、書き込む、および／または検証することができるようにするためである。

いくつかの可能な実施形態では、メディア処理ユニット（たとえば、エンコーダ、デコーダ、平準化器など）は、一つまたは複数の型のメディア処理が以前に実行されているメディア・データを受け取ってもよい。ただし、１）それらの以前に実行されたメディア処理の型を示す処理状態メタデータが存在しないおよび／または２）処理状態メタデータが正しくないまたは不完全であることがありうる。以前に実行されたメディア処理の型は、メディア・サンプルを変更しうる操作（たとえばボリューム平準化）およびメディア・サンプルを変更し得ない操作（たとえばメディア・サンプルに基づくフィンガープリント抽出および／または特徴抽出）を含む。メディア処理ユニットは、自動的にメディア・データの「真の」状態を反映する「正しい」処理状態メタデータを生成し、生成された処理状態メタデータを一つまたは複数の下流のメディア処理ユニットに通信することによってこのメディア・データの状態を当該メディア・データと関連付けるよう構成されていてもよい。さらに、メディア・データと処理状態メタデータとの関連付けは、結果として得られるメディア・ビットストリームがレガシー・デコーダのようなレガシー・メディア処理ユニットと後方互換であるような仕方で実行されてもよい。結果として、本稿の技法を実装しないレガシー・デコーダでも、レガシー・デコーダの設計通り、メディア・データの状態を示す関連付けられた処理状態メタデータを無視しつつメディア・データを正しくデコードしうる。いくつかの可能な実施形態では、本稿のメディア処理ユニットは、法廷解析（forensic analysis）および／または一つまたは複数の埋め込まれたハッシュ値（たとえば署名）の検証を介して（源）メディア・データを用いて処理状態メタデータを検証する機能を並行して構成されてもよい。

本稿に記載される技法のもとでは、受領された処理状態メタデータによって示されるメディア・データの共時的（contemporaneous）状態に基づくメディア・データの適応的な処理が、メディア処理チェーンのさまざまな点で実行されてもよい。たとえば、処理状態メタデータ中のラウドネス・メタデータが有効であれば、デコーダよりあとのボリューム平準化ユニットは、該デコーダによって、メディア処理信号および／または処理状態メタデータを通知されてもよく、ボリューム平準化ユニットがオーディオのようなメディア・データを、不変のまま通しうるようにする。

いくつかの実施形態では、処理状態メタデータは、基礎になるメディア・サンプルから抽出されたメディア特徴を含む。メディア特徴は、メディア・サンプルの意味的記述を提供してもよく、たとえば、メディア・サンプルが発話、音楽を含むか、誰かが静寂の中または騒音のある条件で歌っているか、歌唱が会話している群衆の中でであるか、対話が行われているか、雑音のある背景中の発話か、以上の二つ以上の組み合わせ、などを示すために、処理状態メタデータの一部として与えられてもよい。メディア・データの適応処理は、処理状態メタデータに含まれるメディア特徴の記述に基づいてメディア処理チェーンにおけるさまざまな点において実行されてもよい。

本稿に記載される技法のもとでは、メディア・データとともにメディア・ビットストリームに埋め込まれた処理状態メタデータは、認証および検証されてもよい。たとえば、本稿の技法は、ラウドネス規制エンティティが特定の番組のラウドネスがすでに指定された範囲内であるかどうかと、メディア・データ自身が修正されていないこととを検証する（それにより規制への準拠を保証する）ために有用となりうる。これを検証するために、ラウドネスを再び計算するのではなく、処理状態メタデータを含むデータ・ブロック中に含まれるラウドネス値が読み出されてもよい。

本稿に記載される技法のもとでは、処理状態メタデータを含むデータ・ブロックは、サードパーティー・メタデータをセキュアに搬送するために追加的なリザーブされたバイトを含んでいてもよい。この特徴は、多様な応用を可能にするために使用されうる。たとえば、格付け〔レーティング〕機関（たとえば、ニールセン・メディア・リサーチ）は、コンテンツ識別タグを含めることを選んでもよく、そのタグが、視聴率、視聴者層または聴取者層統計を計算する目的で、視聴または聴取された特定の番組を識別するために使用されることができる。

有意義なことに、本稿に記載される技法および本稿に記載される技法の変形は、メディア・データに関連付けられた処理状態メタデータが、コンテンツ生成からコンテンツ消費までのメディア処理チェーンを通じて保存されることを保証しうる。

いくつかの可能な実施形態では、本稿に記載される機構は、メディア処理システムの一部をなす。メディア処理システムは、これに限られないが、ハンドヘルド装置、ゲーム機、テレビジョン、ラップトップ・コンピュータ、ネットブック・コンピュータ、セルラー無線電話、電子書籍リーダー、販売ポイント端末、デスクトップ・コンピュータ、コンピュータ・ワークステーション、コンピュータ・キオスクおよびさまざまな他の種類の端末およびメディア処理ユニットを含む。

本稿に記載される好ましい実施形態および一般的な原理および特徴へのさまざまな修正が当業者にはすぐに明白となるであろう。よって、本開示は、示されている実施形態に限定されることは意図されておらず、本稿に記載される原理および特徴と整合する最も広い範囲を与えられるべきものである。

２．メディア処理チェーン
図１は、本発明のいくつかの可能な実施形態に基づく、例示的なメディア処理チェーンを示している。メディア処理チェーンは、これに限られないが、エンコーダ、デコーダ、前処理／後処理ユニット、トランスコーダおよび信号解析＆メタデータ訂正ユニットを有していてもよい。メタデータ処理チェーンにおけるこれらのユニットは、同じシステム中または異なる複数のシステム中に含まれていてもよい。メディア処理チェーンが複数の異なるシステムにまたがる実施形態では、これらのシステムは、共位置であっても、あるいは地理的に分散されていてもよい。

いくつかの可能な実施形態では、図１の前処理ユニットは、メディア・コンテンツを含むPCM（時間領域）サンプルを入力として受け入れてもよく、処理されたPCMサンプルを出力する。エンコーダはPCMサンプルを入力として受け入れてもよく、メディア・コンテンツのエンコードされた（たとえば圧縮された）メディア・ビットストリームを出力する。

本稿での用法では、メディア・コンテンツを含むデータ（たとえばビットストリームのメイン・ストリーム中に担持される）がメディア・データと称され、一方、メディア処理チェーンにおける任意の所与の点におけるメディア・データに対して実行された処理の型を示す、メディア・データとは別個のデータが処理状態メタデータと称される。

信号解析およびメタデータ訂正ユニットは、一つまたは複数のエンコードされたメディア・ビットストリームを入力として受け入れ、エンコードされたメディア・ビットストリーム中の含まれている処理状態メタデータが正しいかどうかを、信号解析を実行することによって検証してもよい。信号解析およびメタデータ訂正ユニットが、含まれているメタデータが無効であることを見出したら、信号解析およびメタデータ訂正ユニットは、正しくない値を、信号解析から得られる正しい値で置き換える。

トランスコーダは、メディア・ビットストリームを入力として受け入れてもよく、修正されたメディア・ビットストリームを出力する。デコーダは圧縮されたメディア・ビットストリームを入力として受け入れ、デコードされたPCMサンプルのストリームを出力してもよい。後処理ユニットは、デコードされたPCMサンプルのストリームを受け入れ、その中のメディア・コンテンツのボリューム平準化のような任意の後処理を実行し、デコードされたPCMサンプル中のメディア・コンテンツを一つまたは複数のスピーカーおよび／または表示パネル上でレンダリングしてもよい。処理状態メタデータを使ってメディア・データに適用される処理を適応させることを、メディア処理ユニットのすべてができる必要はない。

本稿に与えられる技法は、エンコーダ、デコーダ、トランスコーダ、前処理および後処理ユニットなどといったメディア処理ユニットが、メディア・データに適用されるべきそれぞれの処理を、それらメディア処理ユニットがそれぞれ受領するメディア処理信号および／または処理状態メタデータによって示されるメディア・データの共時的状態に従って適応させる、向上されたメディア処理チェーンを提供する。

図２は、本発明のいくつかの可能な実施形態に基づく、エンコーダ、デコーダ、前処理／後処理ユニット、トランスコーダおよび信号解析＆メタデータ訂正ユニットを有する例示的な向上メディア処理チェーンを示している。メディア・データの状態に基づいてメディア・データの処理を適応するため、図２のユニットの一部または全部が修正されてもよい。いくつかの可能な実施形態では、この例示的な向上メディア処理チェーンにおける各メディア処理ユニットは、冗長でないメディア処理を実行し、上流のユニットによって実行された処理の不要なおよび誤った反復を避けることにおいて協働するよう構成される。いくつかの可能な実施形態では、コンテンツ生成からコンテンツ消費までの向上メディア処理チェーンの任意の点におけるメディア・データの状態は、向上メディア処理チェーンのその点における現在メディア処理ユニットによって理解される。

３．メディア処理装置またはユニット
図３は、本発明のいくつかの可能な実施形態に基づく、例示的な（修正された）エンコーダ／トランスコーダを示している。図１のエンコーダとは異なり、図３のエンコーダ／トランスコーダは、入力メディア・データに関連付けられた処理状態メタデータを受領し、当該エンコーダ／トランスコーダに対して一つまたは複数の上流のユニットによって、入力メディア・データ（たとえば入力オーディオ）に対して実行された以前の（前／後）処理を判別するよう構成されていてもよい。入力メディア・データは、修正されたエンコーダ／トランスコーダが論理的に上流のユニット（たとえば、入力オーディオに対して処理を実行した最後の上流ユニット）から受領したものである。

本稿での用法では、用語「論理的に受領」は、入力メディア・データを上流のユニット（たとえば上記最後の上流ユニット）から今の例におけるエンコーダ／トランスコーダ・ユニットのような受け手ユニットに通信する際に中間ユニットが関与してもしなくてもよいことを意味しうる。

一例では、入力メディア・データに対して前／後処理を実行した上流ユニットは、受け手ユニットが一部をなすシステムとは異なるシステムにあってもよい。入力メディア・データは、上流ユニットによって出力され、ネットワーク接続、USB、広域ネットワーク接続、無線接続、光接続などの中間伝送ユニットを通じて伝えられたメディア・ビットストリームであってもよい。

もう一つの例では、入力メディア・データに対して前／後処理を実行した上流ユニットは、受け手ユニットが一部をなすのと同じシステムにあってもよい。入力メディア・データは、上流ユニットによって出力され、システムの一つまたは複数の内部ユニットを介した内部接続を通じて伝えられてもよい。たとえば、データは、内部バス、クロスバー接続、シリアル接続などを通じて物理的に送達されてもよい。いずれにせよ、本稿の技法のもとでは、受け手ユニットは、入力メディア・データを論理的に上流ユニットから受領しうる。

いくつかの可能な実施形態では、エンコーダ／トランスコーダは、入力メディア・データの修正版であってもよいメディア・データに関連付けられる処理状態メタデータを生成または修正するよう構成されている。エンコーダ／トランスコーダによって生成または修正された新たなまたは修正された処理状態メタデータは、メディア処理チェーンにさらに沿ってエンコーダ／トランスコーダによって出力されるメディア・データの状態を自動的かつ正確に捕捉しうる。たとえば、処理状態メタデータは、メディア・データに対してある種の処理（たとえば、ドルビー・ラボラトリーズから商業的に入手可能なドルビー・ボリューム、アップミキシング）が実行されたか否かを含んでいてもよい。追加的および／または任意的に、処理状態メタデータは、ある種の処理または該処理の任意の構成操作において使用されるおよび／またはそれから導出されるパラメータを含んでいてもよい。追加的および／または任意的に、処理状態メタデータは、メディア・データから計算／抽出される一つまたは複数のフィンガープリントを含んでいてもよい。追加的および／または任意的に、処理状態メタデータは、メディア・データから計算／抽出される一つまたは複数の異なる型のメディア特徴を含んでいてもよい。本稿に記載されるメディア特徴は、メディア・データの意味的記述を与え、構造的属性、和声およびメロディーを含む音質（tonality）、音色、リズム、基準ラウドネス、ステレオ・ミックスまたはメディア・データのある量の音源、声の不在もしくは存在、反復特性、メロディー、和声、歌詞、音色、知覚的特徴、デジタル・メディア特徴、ステレオ・パラメータ、声認識（たとえば話者が何を言っているか）などの一つまたは複数を含んでいてもよい。いくつかの実施形態では、抽出されたメディア特徴は、基礎になるメディア・データを複数のメディア・データ・クラスのうちの一つまたは複数に分類するために利用される。前記一つまたは複数のメディア・データ・クラスは、これに限られないが、メディア全体についての単一の全体的な／支配的な「クラス」（たとえばクラス・タイプ）および／または単一のメディア・フレーム、メディア・データ・ブロック、複数のメディア・フレーム、複数のメディア・データ・ブロック、一秒の一部、一秒、複数秒などといったより小さな時間期間を表す単一のクラス（たとえば、作品全体のサブセット／部分区間についてのクラス・サブタイプ）の任意のものを含みうる。たとえば、クラス・ラベルが計算されて、ビットストリーム中に挿入されたりおよび／またはビットストリームについての32msec毎に（可逆的または不可逆的なデータ隠し技法により）隠されたりしてもよい。クラス・ラベルは、一つまたは複数のクラス・タイプおよび／または一つまたは複数のクラス・サブタイプを示すために使用されてもよい。あるメディア・データ・フレームにおいて、クラス・ラベルは、そのクラス・ラベルが関連付けられているメディア・データ・ブロックに先行するまたは代替的に後続するメタデータ構造中に挿入されてもよい。このことは図１１に示されている。メディア・クラスは、これに限られないが、音楽、発話、雑音、静寂、喝采といった単一クラス・タイプの任意のものを含みうる。本稿に記述されるメディア処理装置は、音楽にかぶさる発話など、メディア・クラス・タイプの混合を含むメディア・データをも分類するよう構成されていてもよい。追加的、代替的および任意的に、本稿に記述されるメディア処理装置は、計算されたメディア・クラス・ラベルによって示されるメディア・クラス・タイプまたはサブタイプについての独立な「確からしさ」または確率値を担持するよう構成されていてもよい。一つまたは複数のそのような確からしさまたは確率値は、同じメタデータ構造においてメディア・クラス・ラベルとともに送信されてもよい。確からしさまたは確率値は、計算されたメディア・クラス・ラベルによってメディア・クラス・タイプまたはサブタイプが示されるメディア・セグメント／ブロックとの関係で該計算されたメディア・クラス・ラベルがもつ「信頼」のレベルを示す。関連付けられたメディア・クラス・ラベルと組み合わせての前記一つまたは複数の確からしさまたは確率値は、アップミキシング、エンコード、デコード、トランスコード、ヘッドホン仮想化などといったメディア処理チェーン全体を通じた幅広い多様な操作の任意のものを改善する仕方でメディア処理を適応させるよう、受け手メディア処理装置によって利用されてもよい。処理状態メタデータは、これに限られないが、メディア・クラス・タイプまたはサブタイプ、確からしさまたは確率値の任意のものを含みうる。追加的、任意的または代替的に、メディア（オーディオ）データ・ブロックの間に挿入されるメタデータ構造においてメディア・クラス・タイプ／サブタイプおよび確からしさ／確率値を渡す代わりに、メディア・クラス・タイプ／サブタイプおよび確からしさ／確率値の一部または全部は、隠されたメタデータとしてメディア・データ（またはサンプル）中で埋め込まれ、受け手メディア処理ノード／装置に渡されてもよい。いくつかの実施形態では、処理状態メタデータに含まれるメディア・データのコンテンツ解析の結果が、ある種のユーザー定義またはシステム定義のキーワードがそのメディア・データの任意の時間セグメントにおいて話されるかどうかについての一つまたは複数の指標を含んでいてもよい。一つまたは複数のアプリケーションが、関係した動作（たとえば、該キーワードに関係する製品およびサービスのコンテキストに関連した広告を呈示する）の実行をトリガーするためにそのような指標を使ってもよい。

いくつかの実施形態では、第一のプロセッサでメディア・データを処理する間、本稿に記載される装置は、メディア・データのメディア特徴を分類／抽出するために第二のプロセッサを並行して走らせてもよい。メディア特徴は、ある時間期間（一フレーム、複数フレーム、一秒、複数秒、一分、複数分、ユーザー定義された時間期間など）にわたって継続するセグメントから、または代替的に（検出可能な信号特性変化に基づく）あるシーンについて、抽出されてもよい。処理状態メタデータによって記述されるメディア特徴はメディア処理チェーン全体を通じて使用されてもよい。下流の装置は、メディア特徴の一つまたは複数に基づいて、メディア・データに対する自分自身のメディア処理を適応させてもよい。あるいはまた、下流の装置は、処理状態メタデータにおいて記述されるメディア特徴の任意のものまたは全部の存在を無視することを選択してもよい。

メディア処理チェーンにおけるある装置上のアプリケーションは、多様な仕方のうちの一つまたは複数においてメディア特徴を利用してもよい。たとえば、そのようなアプリケーションは、メディア特徴を使って基礎になるメディア・データにインデックス付けしてもよい。審判が演技について語るセクションに行きたいようなユーザーのために、アプリケーションは他の先行するセクションをスキップしてもよい。処理状態メタデータにおいて記述されるメディア特徴は、下流の装置に、メディア・データのコンテキスト情報を、メディア・データの本来的な部分として提供する。

メディア処理チェーンにおける二つ以上の装置が、メディア・データのコンテンツからメディア特徴を抽出するために解析を実行してもよい。これにより、下流の装置がメディア・データのコンテンツを解析しなくても済む。

ある可能な実施形態では、生成されたまたは修正された処理状態メタデータは、メディア・ビットストリーム（たとえば、オーディオの状態についてのメタデータをもつオーディオ・ビットストリーム）の一部として伝送されてもよく、3〜10kbpsのオーダーの伝送レートに上ってもよい。いくつかの実施形態では、処理状態メタデータはデータ隠しに基づいてメディア・データ（たとえばPCMメディア・サンプル）内部で伝送されてもよい。メディア・データを可逆的または不可逆的に変更しうる幅広い多様なデータ隠し技法が、処理状態メタデータ（これだけに限られるものではないが認証関係のデータを含む）の一部または全部をメディア・サンプル中に隠すために使用されてもよい。データ隠しは、基礎になるメディア・サンプルの信号の信号特性（周波数または時間領域における位相および／または振幅）を変更／操作／変調することによって達成されてもよい。データ隠しは、FSK、スペクトラム拡散または他の利用可能な諸方法に基づいて実装されうる。

いくつかの可能な実施形態では、前処理／後処理ユニットが、エンコーダ／トランスコーダと協働する仕方でメディア・データの処理を実行してもよい。協働する前-後処理ユニットによって実行される処理も、下流のメディア処理ユニットに（たとえばオーディオ・ビットストリームを介して）伝えられる処理状態メタデータにおいて指定される。

いくつかの可能な実施形態では、ひとたび（メディア・フィンガープリントならびに一つまたは複数の型のメディア処理において使われるまたは一つまたは複数の型のメディア処理から導出される任意のパラメータを含んでいてもよい）処理状態メタデータの一片が導出されると、処理状態メタデータのこの一片は、メディア処理チェーンにおける諸メディア処理ユニットによって保存され、すべての下流のユニットに伝えられてもよい。こうして、いくつかの可能な実施形態では、メディア処理チェーン（ライフサイクル全体）において、一片の処理状態メタデータが、メディア・ビットストリーム／サブストリーム内の埋め込まれたデータとして、あるいは外部データ源またはメディア処理データベースから導出可能なデータとして、最初のメディア処理ユニットによって生成され、最後のメディア処理ユニットに渡されてもよい。

図４は、本発明のいくつかの可能な実施形態に基づく、例示的なデコーダ（たとえば、本稿の技法を実装する進化デコーダ）を示している。本発明のいくつかの可能な実施形態のデコーダは、（１）中に通された、はいってくるメディア・データに関連付けられた処理状態メタデータ（たとえば処理履歴、メディア特徴の記述など）および他のメタデータ（たとえば、サードパーティー・データ、追跡情報、識別子、独自または標準の情報、ユーザー注釈データ、ユーザー選好データなどといった、メディア・データの何らかの処理とは独立なもの）をパースし（parse）、検証するとともに、（２）検証された処理状態メタデータに基づいて、メディア・データのメディア処理状態を決定するよう構成されていてもよい。たとえば、入力メディア・データおよび処理状態メタデータを担持するメディア・ビットストリーム（たとえば、オーディオの状態についてのメタデータをもつオーディオ・ビットストリーム）中の処理状態メタデータをパースし、検証することによって、デコーダは、ラウドネス・メタデータ（またはメディア特徴メタデータ）が有効であり、信頼できるものであり、本稿に記載される技法を実装する向上コンテンツ・プロバイダー・サブユニット（たとえば、ドルビー・ラボラトリーズから商業的に入手可能なドルビー・メディア生成器（DMG: Dolby media generator））の一つによって生成されたことを判別してもよい。いくつかの可能な実施形態では、受領された処理状態メタデータが有効であり、信頼できるものであると判別することに応答して、デコーダは次いで、少なくとも部分的には受領された処理状態メタデータに基づいて、可逆的または不可逆的データ隠し技法を使ってメディア・データの状態についてのメディア処理信号を生成するよう構成されていてもよい。デコーダは、メディア処理チェーンにおける下流のメディア処理ユニット（たとえば後処理ユニット）に該メディア処理信号を提供するよう構成されていてもよい。この型の信号は、たとえば、デコーダと該下流のメディア処理ユニットの間に専用（かつ同期的な（synchronous））メタデータ経路がない場合に使用されうる。この状況は、デコーダおよび該下流のメディア処理ユニットが消費者電子装置において別個のエンティティとして存在する、あるいは異なるサブシステムまたは異なるシステムに存在していてデコーダと前記後続の処理ユニットとの間の同期的な制御またはデータ経路が利用可能でないいくつかの可能な実施形態において生起しうる。いくつかの可能な実施形態では、本稿のデータ隠し技法のもとでのメディア処理信号は、メディア・ビットストリームの一部として伝送されてもよく、16bpsのオーダーの伝送レートに上ってもよい。メディア・データを可逆的または不可逆的に変更しうる幅広い多様なデータ隠し技法が、処理状態メタデータの一部または全部をメディア・サンプル中に隠すために使用されてもよい。データ隠し技法は、これに限られないが、知覚可能または知覚不可能なセキュアな通信チャネル、基礎になるメディア・サンプルの一つまたは複数の信号の狭帯域またはスペクトラム拡散信号特性（周波数領域または時間領域における位相および／または振幅）の変更／操作／変調または他の利用可能な諸方法を含む。

いくつかの可能な実施形態では、デコーダは、受領されたすべての処理状態メタデータを先に渡そうと試みなくてもよい。むしろ、デコーダは、メディア・データの状態に基づいて下流のメディア処理ユニットの動作モードを変えるのに十分な情報のみを（たとえばデータ隠し容量の限界内で）埋め込んでもよい。

いくつかの可能な実施形態では、メディア・データにおけるオーディオまたはビデオ信号の冗長性が、メディア・データの状態を担持するために活用されてもよい。いくつかの可能な実施形態では、可聴なまたは可視なアーチファクトを引き起こすことなく、メディア処理信号および／または処理状態メタデータの一部または全部が、メディア・データ中の複数のバイトの最下位ビット（LSB: least significant bit）に隠されたり、あるいはメディア・データ内に担持されるセキュアな通信チャネルに隠されたりしてもよい。前記複数のバイトは、隠しデータをもつメディア・サンプルがレガシー・メディア処理ユニットによってレンダリングされるときに前記LSBが知覚可能または可視なアーチファクトを引き起こしうるかどうかを含む一つまたは複数の因子または基準に基づいて選択されてもよい。メディア・データを可逆的または不可逆的に変更しうる他のデータ隠し技法（たとえば、知覚可能または知覚不可能なセキュアな通信チャネル、FSKに基づくデータ隠し技法など）が、処理状態メタデータの一部または全部をメディア・サンプル中に隠すために使われてもよい。

いくつかの可能な実施形態では、たとえば下流のメディア処理ユニットがデコーダの一部として実装されている場合、データ隠し技術は任意的であってもよく、必要とされなくてもよい。たとえば、二つ以上のメディア処理ユニットが、バスおよび他の通信機構を共有してもよい。該バスおよび他の通信機構は、データをメディア・サンプル中に隠すことなく、あるメディア処理ユニットから別のメディア処理ユニットにメタデータが帯域外（out-of-the-band）信号として渡されることを許容する。

図５は、本発明のいくつかの可能な実施形態に基づく、例示的な後処理ユニット（たとえばドルビー進化後処理ユニット）を示している。この後処理ユニットは、まずメディア・データ（たとえば埋め込まれた情報をもつPCMオーディオ・サンプル）中に隠されたメディア処理信号を抽出して、該メディア処理信号によって示されるメディア・データの状態を判別するよう構成されていてもよい。これはたとえば、付属（adjunct）処理ユニット（たとえば、メディア・データがオーディオを含むいくつかの可能な実施形態では情報抽出およびオーディオ復元サブユニット）を用いて行われてもよい。メディア処理信号が可逆データ隠し技法を使って隠されている実施形態では、データ隠し技法（たとえばデコーダ）によってメディア処理信号を埋め込むためにメディア・データに対して実行された以前の修正が取り消しされてもよい。メディア処理信号が不可逆的なデータ隠し技法を使って隠される実施形態では、データ隠し技法（たとえばデコーダ）によってメディア処理信号を埋め込むためにメディア・データに対して実行された以前の修正は完全に取り消しされることはできないが、メディア・レンダリングの品質に対する副作用が最小化されてもよい（たとえば、最小限のオーディオまたは視覚的アーチファクト）。その後、メディア処理信号によって示されるメディア・データの状態に基づいて、後処理ユニットは、メディア・データに対して適用されるべきその処理を適応させるよう構成されていてもよい。一例では、ラウドネス・メタデータが有効であり、ボリューム処理が上流のユニットによって実行されたとの（メディア処理信号からの）判定に応答して、ボリューム処理がオフにされてもよい。もう一つの例では、音声認識されたキーワードによって、コンテキストに関連した広告またはメッセージが呈示され、あるいはトリガーされてもよい。

いくつかの可能な実施形態では、本稿に記述されるメディア処理システムにおける信号解析およびメタデータ訂正ユニットが、エンコードされたメディア・ビットストリームを入力として受け入れ、メディア・ビットストリーム中の埋め込まれたメタデータが正しいかどうかを信号解析を実行することによって検証するよう構成されていてもよい。メディア・ビットストリーム内で埋め込まれたメタデータが有効であるまたはないことを検証したのち、必要に応じて訂正が適用されてもよい。いくつかの可能な実施形態では、信号解析およびメタデータ訂正ユニットは、時間および／または周波数領域での入力メディア・ビットストリームにおいてエンコードされたメディア・データまたはサンプルに対して解析を実行して、メディア・データのメディア特徴を判別するよう構成されていてもよい。メディア特徴を決定したのち、対応する処理状態メタデータ（たとえば一つまたは複数のメディア特徴の記述）が生成され、信号解析およびメタデータ訂正ユニットに対して下流の装置に提供されてもよい。いくつかの可能な実施形態では、信号解析およびメタデータ訂正ユニットは、一つまたは複数のメディア処理システムにおける一つまたは複数の他のメディア処理ユニットと統合されていてもよい。追加的および／または任意的に、信号解析およびメタデータ訂正ユニットは、メディア処理信号をメディア・データ中に隠し、下流のユニット（エンコーダ／トランスコーダ／デコーダ）に対してメディア・データ中の埋め込まれているメタデータが有効であり検証が成功していることを信号伝達するよう構成されていてもよい。いくつかの可能な実施形態では、メディア・データに関連付けられた信号伝達データおよび／または処理状態メタデータは、生成され、メディア・データを担持する圧縮されたメディア・ビットストリーム中に挿入されてもよい。

したがって、本稿に記載される技法は、向上メディア処理チェーンにおける種々の処理ブロックまたはメディア処理ユニット（たとえば、エンコーダ、トランスコーダ、デコーダ、前処理／後処理ユニットなど）がメディア・データの状態を判別できることを保証する。よって、メディア処理ユニットのそれぞれは、上流のユニットによって示されるメディア・データの状態に従って、その処理を適応させうる。さらに、メディア・データの状態についての信号情報が、該信号情報を下流のメディア処理ユニットに伝送するための必要とされるビットレートが最小限となる効率的な仕方で下流のメディア処理ユニットに提供されうることを保証するために、一つまたは複数の可逆的または不可逆的なデータ隠し技法が使用されてもよい。これは、デコーダのような上流ユニットと、後処理ユニットのような下流ユニットとの間にメタデータ経路がない場合、たとえば後処理ユニットがデコーダの一部でない場合に特に有用である。

いくつかの可能な実施形態では、エンコーダは、前処理およびメタデータ検証サブユニットにより向上されてもよく、あるいは該サブユニットを有していてもよい。いくつかの可能な実施形態では、前処理およびメタデータ検証サブユニットは、エンコーダが、メディア処理信号および／または処理状態メタデータによって示されるメディア・データの状態に基づいてメディア・データの適応的な処理を実行することを保証するよう構成されていてもよい。いくつかの可能な実施形態では、前処理およびメタデータ検証サブユニットを通じて、エンコーダは、メディア・データに関連付けられた（たとえばメディア・データとともにメディア・ビットストリームに含まれた）処理状態メタデータを検証するよう構成されていてもよい。たとえば、メタデータが信頼できるものであると検証された場合、実行された型のメディア処理からの結果が再利用されてもよく、その型のメディア処理の新たな実行が回避されうる。他方、メタデータが細工されていると見出される場合には、以前に実行されたとされる型のメディア処理は、エンコーダによって繰り返されてもよい。いくつかの可能な実施形態では、ひとたび処理状態メタデータ（メディア処理信号およびフィンガープリントに基づくメタデータ取得を含む）が信頼できないことが見出されたら、追加的な型のメディア処理がエンコーダによってメタデータに対して実行されてもよい。

処理状態メタデータが有効であると判定されたら（たとえば抽出された暗号学的値と参照用の暗号学的値の一致に基づいて）、エンコーダは、向上メディア処理チェーンにおける他のメディア処理ユニットに対して、たとえばメディア・ビットストリーム中に存在するその処理状態メタデータが有効であることを信号伝達するよう構成されていてもよい。多様なアプローチの任意のもの、一部または全部がエンコーダによって実装されてもよい。

第一のアプローチのもとでは、エンコーダは、処理状態メタデータの検証がこのエンコードされたメディア・ビットストリームに対してすでに実行されていることを示すよう、エンコードされたメディア・ビットストリーム中にフラグ（たとえば「進化フラグ（evolution flag）」）を挿入してもよい。このフラグは、フラグの存在が、本稿に記載されるような処理状態メタデータを処理および利用するよう構成されていないデコーダのような「レガシー」メディア処理ユニットに影響しないような仕方で挿入されてもよい。ある例示的実施形態では、オーディオ圧縮３（AC-3: Audio Compression-3）エンコーダが、ATSC規格（たとえばATSC A/52b）に指定されるAC-3メディア・ビットストリームのxbsi2フィールドにおいて「進化フラグ」を設定する前処理およびメタデータ検証サブユニットにより向上されてもよい。この「ビット」は、AC-3メディア・ビットストリームにおいて搬送されるすべての符号化されたフレームにおいて存在していてもよく、不使用であってもよい。いくつかの可能な実施形態では、xbsi2フィールドにおけるこのフラグの存在は、本稿に記載されるような処理状態メタデータを処理および利用するよう構成されていない、展開済みの「レガシー」デコーダに影響しない。

上記第一のアプローチのもとでは、xbsi2フィールド内の情報を認証することに関して問題があることがありうる。たとえば、（たとえば悪意のある）上流ユニットが、実際に処理状態メタデータを検証することなくxbsi2フィールドを「オン」にすることがありえ、他の下流のユニットに対して、処理状態メタデータが有効であると誤って信号伝達することがありうる。

この問題を解決するために、本発明のいくつかの実施形態は、第二のアプローチを使ってもよい。「進化フラグ」を埋め込むために、セキュアなデータ隠し方法（スペクトラム拡散に基づく諸方法、FSKに基づく諸方法および他のセキュアな通信チャネルに基づく諸方法などといった、メディア・データ自身の中にセキュアな通信チャネルを生成するいくつものデータ隠し方法の任意のものを含むがこれに限られるものではない）が使われてもよい。このセキュアな方法は、「進化フラグ」が平文で渡されることを、よってユニットもしくは侵入者によって意図的にまたは意図せずして簡単に攻撃されることを防ぐよう構成される。その代わり、この第二のアプローチのもとでは、下流のユニットは、隠されたデータを暗号化された形で取得しうる。解読および認証サブプロセスを通じて、下流のユニットは、隠されたデータの正しさを検証し、隠されたデータ中の「進化フラグ」を信頼しうる。結果として、下流のユニットは、メディア・ビットストリーム中の処理状態メタデータが以前に検証に成功していることを判別しうる。さまざまな実施形態において、「進化フラグ」のような処理状態メタデータの任意の部分が、一つまたは複数の暗号学的方法（HMACに基づくもの、HMACに基づかないもの）のうちの任意の方法で、上流の装置によって下流の装置に送達されてもよい。

いくつかの可能な実施形態では、メディア・データは最初は、たとえばPCMサンプルを含むレガシー・メディア・ビットストリームであってもよい。しかしながら、ひとたびメディア・データが本稿に記載されるような一つまたは複数のメディア処理ユニットによって処理されたら、該一つまたは複数のメディア処理ユニットによって生成された処理状態メタデータは、メディア・データの状態ならびにメディア・データをデコードするために使用されうる比較的詳細な情報（これに限られないが、メディア・データから決定される一つまたは複数のメディア特徴の任意のものを含む）を含む。いくつかの可能な実施形態では、生成された処理状態メタデータは、ビデオ・フィンガープリントのようなメディア・フィンガープリント、ラウドネス・メタデータ、ダイナミックレンジ・メタデータ、一つまたは複数のハッシュ・ベースのメッセージ認証コード（HMAC）、一つまたは複数のダイアログ・チャネル、オーディオ・フィンガープリント、列挙された処理履歴、オーディオ・ラウドネス、ダイアログ・ラウドネス、真ピーク値、サンプル・ピーク値および／または任意のユーザー（サードパーティー）が指定したメタデータを含んでいてもよい。処理状態メタデータは「進化データ・ブロック」を含んでいてもよい。

本稿での用法では、用語「向上（enhanced）」は、本稿に記載される技法のもとで他のメディア処理ユニットまたは他のメディア処理システムと、上流のユニットによって設定されたメディア・データの状態に基づいて適応的な処理を実行しうる仕方で協働する、本稿に記載される技法のもとのメディア処理ユニットの能力を指す。用語「進化（evolution）」は、本稿に記載される技法のもとのメディア処理ユニットが、レガシー・メディア処理ユニットまたはレガシー・メディア処理システムと互換な仕方で機能する能力ならびに本稿に記載される技法のもとのメディア処理ユニットが、本稿に記載される技法のもとで他のメディア処理ユニットまたは他のメディア処理システムと、上流のユニットによって設定されたメディア・データの状態に基づいて適応的な処理を実行しうる仕方で協働する能力を指す。

いくつかの可能な実施形態では、本稿に記載されるメディア処理ユニットは、一つまたは複数の型のメディア処理が実行されたメディア・データを受信してもよい。だが、前記一つまたは複数の型のメディア処理を示す、メディア・データに関連付けられたメタデータがないまたは不十分であってもよい。いくつかの可能な実施形態では、そのようなメディア処理ユニットは、そのメディア処理ユニットに対して上流の他のユニットによって実行された前記一つまたは複数の型のメディア処理を示す処理状態メタデータを生成するよう構成されていてもよい。上流装置によって行われていない特徴抽出も実行され、処理状態メタデータを下流装置に転送してもよい。いくつかの可能な実施形態では、メディア処理ユニット（たとえば進化エンコーダ／トランスコーダ）はメディア法廷解析サブユニットを有していてもよい。オーディオ法廷サブユニットのようなメディア法廷解析サブユニットは、ある種の型の処理がメディア・コンテンツ片またはメディア・データに対して実行されているかどうかを（受領されるメタデータなしに）判定するよう構成されていてもよい。解析サブユニットは、前記ある種の型の処理によって導入され、残される特定の信号処理アーチファクト／形跡を探すよう構成されていてもよい。メディア法廷サブユニットは、ある種の型の特徴抽出がメディア・コンテンツ片またはメディア・データに対して実行されているかどうかを判定するよう構成されていてもよい。解析サブユニットは、特徴ベースのメタデータの特定の存在を探すよう構成されていてもよい。本発明の目的のためには、本稿に記載されるメディア法廷解析サブユニットは、メディア処理チェーンにおけるいかなるメディア処理ユニットによって実装されてもよい。さらに、メディア法廷解析サブユニットを介してメディア処理ユニットによって生成される処理状態メタデータは、この中でメディア処理チェーン内の下流のユニットに送達されてもよい。

いくつかの可能な実施形態では、本稿に記載される処理状態メタデータは、サードパーティー・アプリケーションをサポートするために追加的なリザーブされたバイトを含んでいてもよい。追加的なリザーブされたバイトは、それらのリザーブされたバイト内の一つまたは複数のフィールドにおいて担持されるいかなる平文をもスクランブルするよう別個の暗号化鍵を割り当てることによってセキュアであることが保証されていてもよい。本発明の実施形態は、コンテンツ識別および追跡を含む新規なアプリケーションをサポートする。一例では、ニールセン格付けをもつメディアが、（メディア）メディア・ビットストリーム中で、番組についての一意的な識別子を担持していてもよい。すると、ニールセン格付けは、その番組の視聴者または聴取者の統計を計算するためにこの一意的な識別子を使用してもよい。もう一つの例では、ここにおけるリザーブされたバイトはグーグルのような検索エンジンのためのキーワードを担持していてもよい。すると、グーグルは、リザーブされたバイト中の、キーワードを担持する一つまたは複数のフィールドに含まれるキーワードに基づいて、広告を関連付けてもよい。本発明の目的のためには、本稿で論じられるようなアプリケーションにおいて、本稿の技法は、リザーブされたバイトがセキュアであり、該リザーブされたバイトの一つまたは複数のフィールドを使用するよう指定されているサードパーティー以外の何人によっても解読されないことを保証するために使われてもよい。

本稿に記載される処理状態メタデータは、メディア・データと、いくつもある異なる仕方のいずれで関連付けられてもよい。いくつかの可能な実施形態では、処理状態メタデータは、メディア・データを担持する出ていく圧縮されたメディア・ビットストリーム中に挿入されてもよい。いくつかの実施形態では、メタデータは、本稿の処理状態メタデータに基づいて適応的な処理を実行するよう構成されていないレガシー・デコーダとの後方互換性を維持するような仕方で挿入される。

４．メディア・データの例示的な適応的処理
図６は、本発明のいくつかの可能な実施形態に基づく、エンコーダ／トランスコーダの例示的な実装を示している。描かれているコンポーネントのいずれも、一つまたは複数のプロセスおよび／または一つまたは複数のIC回路（ASIC、FPGAなどを含む）として、ハードウェア、ソフトウェアまたはハードウェアとソフトウェアの組み合わせにおいて実装されてもよい。エンコーダ／トランスコーダは、フロントエンド・デコード（FED: front-end decode）、ダイナミックレンジ制御／ダイアログ・ノルム（DRC/Dialnorm）処理をかかる処理がすでに行われているかどうかに基づいて実行することを選ばないバックエンド・デコード（フル・モード）、DRC生成器（DRC Gen）、バックエンド・エンコード（BEE: back end encode）、スタッファ（stuffer）、CRC再生成ユニットなどといったいくつかのレガシー・サブユニットを有していてもよい。これらのレガシー・サブユニットを用いて、エンコーダ／トランスコーダは、ビットストリーム（たとえばAC-3であってもよいがそれに限られない）を、一つまたは複数の型のメディア処理の結果を含む別のビットストリーム（たとえば適応的かつ自動化されたラウドネス処理をもつE AC-3であってもよいがそれに限られない）に変換することができる。しかしながら、メディア処理（たとえばラウドネス処理）は、該ラウドネス処理が以前に実行されたかどうかおよび／または処理状態メタデータが入力ビットストリーム中にあるかどうかに関わりなく実行されうる。こうして、レガシー・サブユニットだけをもつエンコーダ／トランスコーダは、誤ったまたは不必要なメディア処理を実行することになる。

本稿に記載される技法のもとでは、図６に示される、いくつかの可能な実施形態では、エンコーダ／トランスコーダは、メディア・データ・パーサー／検証器（これはたとえばAC-3フラグ・パーサーおよび検証器であってもよいがそれに限られない）、付属処理ユニット（たとえば適応的な変換領域リアルタイム・ラウドネスおよびダイナミックレンジ・コントローラ、信号解析、特徴抽出など）、メディア・フィンガープリント生成（たとえば、オーディオ・フィンガープリント生成）、メタデータ生成器（たとえば進化データ生成器および／または他のメタデータ生成器）、メディア処理信号挿入（たとえば「add_bsi」挿入または補助データ・フィールドへの挿入）、HMAC生成器（これは悪意のあるまたはレガシーのエンティティによる改変を防止するために、一つまたは複数の、全部でもよいフレームにデジタル署名しうる）、他の型の暗号学的処理ユニットの一つまたは複数、処理状態信号および／または処理状態メタデータに基づいて動作する一つまたは複数のスイッチ（たとえば、フラグ・パーサー＆検証器から受領されたラウドネス・フラグ「状態」またはメディア特徴についてのフラグ）などといった、複数の新しいサブユニットの任意のものを含んでいてもよい。さらに、ユーザー入力（たとえばユーザー・ターゲット・ラウドネス／ダイアルノルム（dialnorm））および／または他の入力（たとえばビデオ・フィンガープリント生成プロセスからのもの）および／または他のメタデータ入力（たとえばサードパーティー・データ、追跡情報、識別子、独自または標準情報、ユーザー注釈データ、ユーザー選好データなどの一つまたは複数の型）がエンコーダ／トランスコーダによって受領されてもよい。図のように、測定されたダイアログ、ゲートされたおよびゲートされないラウドネスおよびダイナミックレンジ値も進化データ生成器に挿入されてもよい。他のメディア特徴関連情報も、処理状態メタデータの一部を生成するために、本稿に記載される処理ユニットに注入されてもよい。

いくつかの可能な実施形態の一つまたは複数では、本稿に記載される処理状態メタデータは、ATSC A/52bによるエンハンストAC-3（E AC-3）シンタックスにおいて規定される「add_bsi」フィールドにおいて、または本稿に記載されるメディア・ビットストリーム中の一つまたは複数の補助データ・フィールドにおいて担持される。いくつかの可能な実施形態では、これらのフィールドにおける処理状態メタデータの担持は、圧縮されたメディア・ビットストリームのフレーム・サイズおよび／またはビットレートに悪影響を与えない。

いくつかの可能な実施形態では、処理状態メタデータは、主たる番組メディア・ビットストリームに関連付けられた独立したまたは従属したサブストリームに含められてもよい。このアプローチの利点は、（主たる番組メディア・ビットストリームによって担持される）メディア・データをエンコードするために割り当てられるビットレートが影響されないということである。処理状態メタデータがエンコードされたフレームの一部として担持される場合、圧縮されたメディア・ビットストリームのフレーム・サイズおよび／またはビットレートが不変でありうるよう、オーディオ情報をエンコードするために割り当てられるビットは削減されうる。たとえば、処理状態メタデータは、低減されたデータ・レート表現を有し、メディア処理ユニットの間で伝送するために10kbpsのオーダーの低いデータ・レートを取ってもよい。よって、オーディオ・サンプルのようなメディア・データは、処理状態メタデータを受け入れるために、10kbpsだけ低いレートで符号化されうる。

いくつかの可能な実施形態では、処理状態メタデータの少なくとも一部は、可逆的または不可逆的データ隠し技法を介してメディア・データ（またはサンプル）に埋め込まれてもよい。このアプローチの利点は、メディア・サンプルおよびメタデータが、下流の装置によって、同じビットストリーム内で受領されうるということである。

いくつかの可能な実施形態では、処理状態メタデータは、フィンガープリントにリンクされてメディア処理データベースに記憶されてもよい。処理状態メタデータを生成するエンコーダ／トランスコーダのような上流のユニットに対して下流にあるメディア処理ユニットは、受領したメディア・データからフィンガープリントを生成し、次いでそのフィンガープリントをメディア処理データベースに問い合わせするためのキーとして使ってもよい。データベース中の処理状態メタデータが位置特定されたのち、受領されたメディア・データに関連付けられた（または受領されたメディア・データについての）処理状態メタデータを含むデータ・ブロックが、メディア処理データベースから取得されてもよく、下流のメディア処理ユニットに利用可能にされてもよい。本稿での用法では、フィンガープリントは、メディア特徴を示すよう生成された一つまたは複数のメディア・フィンガープリントのうち任意のものを含みうるが、それに限られない。

いくつかの可能な実施形態では、処理状態メタデータを含むデータ・ブロックは、処理状態メタデータおよび／または基礎になるメディア・データについての暗号学的ハッシュ（HMAC）を含む。データ・ブロックはこれらの実施形態ではデジタル署名されると想定されているので、下流のメディア処理ユニットは、比較的簡単に、処理状態メタデータを認証し、検証することができる。これに限られないが一つまたは複数の非HMAC式の暗号学的方法のうち任意のものを含む他の暗号学的方法が、処理状態メタデータおよび／または基礎になるメディア・データのセキュアな送受信のために使われてもよい。

先述したように、本稿に記載されるエンコーダ／トランスコーダのようなメディア処理ユニットは、「レガシー」メディア・ビットストリームおよびPCMサンプルを受け入れるよう構成されてもよい。入力メディア・ビットストリームがレガシー・メディア・ビットストリームである場合、メディア処理ユニットは、メディア・ビットストリーム内にあるかもしれない、あるいは先述したような前処理およびメタデータ検証論理を含む向上「レガシー」エンコーダの一つによってメディア・データ内に隠されているかもしれない進化フラグがあるかどうかをチェックしてもよい。「進化フラグ」がない場合には、エンコーダは、適応的な処理を実行し、処理状態メタデータを、適宜、出力メディア・ビットストリーム中にまたは前記処理状態メタデータを含むデータ・ブロック中に生成するよう構成される。たとえば、図６に示されるように、「変換領域リアルタイム・ラウドネスおよびダイナミックレンジ・コントローラ」のような例示的なユニットは、当該ユニットが受け取った入力メディア・データ中のオーディオ・コンテンツを適応的に処理し、入力メディア・データまたは源メディア・ストリーム中に「進化フラグ」が存在しない場合にラウドネスおよびダイナミックレンジを自動的に調整してもよい。追加的、任意的または代替的に、別のユニットが適応的な処理を実行するために特徴ベースのメタデータを利用してもよい。

図６に示される例示的な実施形態では、エンコーダは、ある型のメディア処理（たとえばラウドネス領域処理）を実行した後処理／前処理ユニットを知っていてもよく、よって、ラウドネス領域処理において使われるおよび／またはラウドネス領域処理から導出される特定の諸パラメータを含むデータ・ブロック中に処理状態メタデータを生成してもよい。いくつかの可能な実施形態では、エンコーダは、メディア・データ中のコンテンツに対して実行された処理の型（たとえばラウドネス領域処理）について該エンコーダが知っている限り、メディア・データ中のコンテンツに対する処理履歴を反映する処理状態メタデータを生成しうる。追加的、任意的または代替的に、エンコーダは、処理状態メタデータによって記述される一つまたは複数のメディア特徴に基づいて適応的な処理を実行してもよい。追加的、任意的または代替的に、エンコーダは、メディア・データの解析を実行して、他の任意の処理ユニットに提供されるよう処理状態メタデータの一部としてメディア特徴の記述を生成してもよい。

いくつかの可能な実施形態では、本稿の技法を使うデコーダは、以下の諸シナリオにおいてメディア・データの状態を理解できる。

第一のシナリオのもとでは、デコーダが、メディア・ビットストリーム中の処理状態メタデータの有効性を示すよう設定された「進化フラグ」をもつメディア・ビットストリームを受信する場合、デコーダは、処理状態メタデータをパースおよび／または取り出し、適切な後処理ユニットのような下流のメディア処理ユニットに信号伝達してもよい。他方、「進化フラグ」が不在の場合は、デコーダは、ラウドネス・メタデータ――たとえば、ボリューム平準化処理がすでに実行されていたとしたらいくつかの可能な実施形態では処理状態メタデータ中に含まれていたはずのもの――が不在であるまたは有効であると信頼できないため、いまだボリューム平準化処理が実行されるべきであると下流のメディア処理ユニットに信号伝達してもよい。

第二のシナリオでは、デコーダが、進化エンコーダのような上流のメディア処理ユニットによって生成され、暗号学的ハッシュをエンコードされたメディア・ビットストリームを受信する場合、デコーダは、処理状態メタデータを含むデータ・ブロックから暗号学的ハッシュをパースおよび取り出し、その暗号学的ハッシュを使って受領したメディア・ビットストリームおよび関連するメタデータを検証してもよい。たとえば、デコーダが、参照暗号学的ハッシュおよび前記データ・ブロックから取得された暗号学的ハッシュの間の一致に基づいて、関連するメタデータ（たとえば、処理状態メタデータ中のラウドネス・メタデータ）が有効であると見出す場合には、デコーダは、ボリューム平準化ユニットのような下流のメディア処理ユニットに、オーディオのようなメディア・データを不変のまま通すよう信号伝達してもよい。追加的、任意的または代替的に、暗号学的ハッシュに基づく方法の代わりに他の型の暗号学的技法が使用されてもよい。追加的、任意的または代替的に、処理状態メタデータ中で記述されるメディア・データの一つまたは複数のメディア特徴に基づいて、ボリューム平準化以外の処理が実行されてもよい。

第三のシナリオでは、デコーダが、進化エンコーダのような上流のメディア処理ユニットによって生成されたメディア・ビットストリームを受信するが、処理状態メタデータを含むデータ・ブロックがメディア・ビットストリームに含まれていない場合には、そのデータ・ブロックはメディア処理データベースに記憶される。デコーダは、オーディオのようなメディア・ストリーム中のメディア・データのフィンガープリントを生成し、そのフィンガープリントを使ってメディア処理データベースに問い合わせするよう構成される。メディア処理データベースは、フィンガープリントの一致に基づいて受領されたメディア・データに関連付けられた適切なデータ・ブロックを返してもよい。いくつかの可能な実施形態では、エンコードされたメディア・ビットストリームは、先に論じたようなフィンガープリント・ベースの問い合わせをメディア処理データベースに送るようデコーダを案内するために、単純な普遍資源位置指定子（URL: universal resource locator）を含む。

これらのシナリオすべてにおいて、デコーダは、メディアの状態を理解して、下流のメディア処理ユニットに、メディア・データに対する該下流のメディア処理ユニットの処理をしかるべく適応させるよう信号伝達するよう構成される。いくつかの可能な実施形態では、本稿でのメディア・データは、デコードされたのちに再エンコードされてもよい。いくつかの可能な実施形態では、再エンコードに対応する共時的な処理状態情報を含むデータ・ブロックが、デコーダ後のエンコーダ／変換器のような下流のメディア処理ユニットに渡されてもよい。たとえば、データ・ブロックは、デコーダからの出ていくメディア・ビットストリーム中の関連付けられたメタデータとして含められてもよい。

図７は、本発明のいくつかの可能な実施形態に基づく、処理状態メタデータ中のおよび／または処理状態メタデータに関連付けられたラウドネス・メタデータの有効性に基づくボリューム平準化ユニットの動作モードを制御する例示的な進化デコーダを示している。特徴ベースの処理のような他の動作も扱われてもよい。描かれているコンポーネントのいずれも、一つまたは複数のプロセスおよび／または一つまたは複数のIC回路（ASIC、FPGAを含む）として、ハードウェア、ソフトウェアまたはハードウェアとソフトウェアの組み合わせにおいて実装されてもよい。デコーダは、フレーム情報モジュール（たとえば、AC-3、MPEG AAC、MPEG HE AAC、E AC-3などにおけるフレーム情報モジュール）、フロントエンド・デコード（たとえば、AC-3、MPEG AAC、MPEG HE AAC、E AC-3などにおけるFED）、同期および変換（たとえば、AC-3、MPEG AAC、MPEG HE AAC、E AC-3などにおける同期および変換モジュール）、フレーム・セット・バッファ、バックエンド・デコード（たとえば、AC-3、MPEG AAC、MPEG HE AAC、E AC-3などにおけるBED（back end decode））、バックエンド・エンコード（たとえば、AC-3、MPEG AAC、MPEG HE AAC、E AC-3などにおけるBEE）、CRC再生成、メディア・レンダリング（たとえばドルビー・ボリューム）などといったいくつかのレガシー・サブユニットを有していてもよい。これらのレガシー・サブユニットを用いて、デコーダは、メディア・データ中のメディア・コンテンツを下流のメディア処理ユニットに伝達し、および／または該メディア・コンテンツをレンダリングすることができる。しかしながら、このデコーダは、メディア・データの状態を伝達したり、出力ビットストリームにおいてメディア処理信号および／または処理状態メタデータを提供したりすることはできないであろう。

本稿の技法のもとでは、いくつかの可能な実施形態では、図７に示されるように、デコーダは、メタデータ・ハンドリング（進化データおよび／またはサードパーティー・データ、追跡情報、識別子、独自または標準情報、ユーザー注釈データ、ユーザー選好データ、特徴抽出、特徴ハンドリングなどのうち一つまたは複数の型を含む他のメタデータ入力）、処理状態情報についてのセキュアな（たとえば耐タンパー性の）通信（HMAC生成器および署名検証器、他の暗号学的技法）、メディア・フィンガープリント抽出（たとえば、オーディオおよびビデオ・フィンガープリント抽出）、付属メディア処理（たとえば、発話チャネル（単数または複数）／ラウドネス情報、他の型のメディア特徴）、データ隠し（たとえば、破壊的／不可逆的または可逆的でありうるPCMデータ隠し）、メディア処理信号挿入、HMAC生成器（たとえば一つまたは複数の補助データ・フィールド中への「add_bsi」挿入（単数または複数）を含んでいてもよい）、他の暗号学的技法、隠しデータ復元および検証（たとえば、隠しPCMデータの復元および検証器）、データ隠しの「取り消し」、処理状態信号および／または処理状態メタデータに基づいて動作する一つまたは複数のスイッチ（たとえば、HMAC生成器＆署名検証器からの進化データ「有効」およびデータ隠し挿入制御）などといった複数の新しいサブユニットの任意のものを有していてもよい。図のように、HMAC生成器＆署名検証器およびオーディオ＆ビデオ・フィンガープリント抽出によって抽出された情報は、オーディオおよびビデオ同期補正、格付け、メディア権利、品質制御、メディア・ロケーション・プロセス、特徴ベースの処理などに対して出力され、あるいはこれらのために使用されてもよい。

いくつかの可能な実施形態では、メディア処理チェーンにおける後処理／前処理ユニットは、独立して動作するのではない。むしろ、後処理／前処理ユニットは、メディア処理チェーンにおけるエンコーダまたはデコーダと相互作用してもよい。エンコーダとの相互作用の場合、後処理／前処理ユニットは、データ・ブロック中のメディア・データの状態についての処理状態メタデータの少なくとも一部を生成するのを助けてもよい。デコーダとの相互作用の場合、後処理／前処理ユニットは、メディア・データの状態を判別し、該メディア・データに対するその処理をしかるべく適応させるよう構成される。一例として、図７では、ボリューム平準化ユニットのような例示的な後処理／前処理ユニットが、上流のデコーダによって送られたPCMサンプル中の隠しデータを取得し、該隠しデータに基づいて、ラウドネス・メタデータが有効であるか否かを判定してもよい。ラウドネス・メタデータが有効であれば、オーディオのような入力メディア・データは、不変のまま、ボリューム平準化ユニットを通過させられてもよい。もう一つの例では、例示的な後処理／前処理ユニットは、上流のデコーダによって送られたPCMサンプル中の隠しデータを取得し、該隠しデータに基づいて、メディア・サンプルのコンテンツから以前に決定されたメディア特徴の一つまたは複数の型を決定してもよい。声認識されたキーワードが示される場合、後処理ユニットは、該声認識されたキーワードに関係する一つまたは複数の特定の動作を実行してもよい。

５．データ隠し〔データ・ハイディング〕
図８は、本発明のいくつかの可能な実施形態に基づく、メディア処理情報を渡すためにデータ隠しを使う例示的な構成を示している。いくつかの可能な実施形態では、データ隠しは、進化エンコーダまたはデコーダ（たとえばオーディオ処理＃１）のような上流の処理ユニットと、後処理／前処理ユニット（たとえばオーディオ処理＃２）のような下流のメディア処理ユニットとの間の信号伝達を、該上流と下流のメディア処理ユニットの間にメタデータ経路がない場合に、可能にするために使用されてもよい。

いくつかの可能な実施形態では、メディア・データ中のメディア・データ・サンプル（たとえばX）を修正して二つのメディア処理ユニットの間でメディア処理信号および／または処理状態メタデータを運ぶ修正されたメディア・データ・サンプル（たとえばX'）にするために、可逆的メディア・データ隠し（たとえば可逆的なオーディオ・データ隠し）が使われてもよい。いくつかの可能な実施形態では、本稿に記載されるメディア・データ・サンプルへの修正は、該修正の結果として、知覚上の劣化がないような仕方で行われる。よって、メディア処理ユニット１よりあとに別のメディア処理ユニットがなかったとしても、修正されたメディア・データ・サンプルに関し、耳に聞こえるまたは目に見えるアーチファクトは知覚されないことがある。換言すれば、知覚的に透明な仕方でメディア処理信号および／または処理状態メタデータを隠すことは、修正されたメディア・データ・サンプルのオーディオおよびビデオがレンダリングされるときにいかなる可聴または可視のアーチファクトも引き起こさない。

いくつかの可能な実施形態では、メディア処理ユニット（たとえば図８のオーディオ処理ユニット＃２）は、修正されたメディア・データ・サンプルから、埋め込まれたメディア処理信号および／または処理状態メタデータを取り出し、修正を取り消すことによって修正されたメディア・データ・サンプルをもとのメディア・データ・サンプルに復元する。これはたとえば、サブユニット（たとえば、情報抽出およびオーディオ復元）を通じて行われてもよい。すると、取得された埋め込まれた情報は、二つのメディア処理ユニット（たとえば図８のオーディオ処理ユニット＃１および＃２）の間の信号伝達機構のはたらきをしうる。本稿のデータ隠し技法の堅牢さは、それらのメディア処理ユニットによって実行されうる処理の型に依存しうる。メディア処理ユニット＃１の例は、セットトップボックス中のデジタル・デコーダであってもよい。一方、メディア処理ユニット＃２の例は、同じセットトップボックス中のボリューム平準化ユニットであってもよい。デコーダがラウドネス・メタデータが有効であると判定する場合、デコーダは、後続のボリューム平準化ユニットに平準化を適用しないよう信号伝達するために、可逆的データ隠し技法を使ってもよい。

いくつかの可能な実施形態では、メディア・データ中のメディア・データ・サンプル（たとえばX）を修正して二つのメディア処理ユニットの間でメディア処理信号および／または処理状態メタデータを運ぶ修正されたメディア・データ・サンプル（たとえばX'）にするために、不可逆的なメディア・データ隠し（たとえば、セキュア通信チャネルに基づくデータ隠し技法）が使われてもよい。いくつかの可能な実施形態では、本稿に記載されるメディア・データ・サンプルへの修正は、該修正の結果としての知覚上の劣化が最小限であるような仕方で行われる。よって、修正されたメディア・データ・サンプルに関し、耳に聞こえるまたは目に見える最小限のアーチファクトが知覚されることがある。換言すれば、知覚的に透明な仕方でメディア処理信号および／または処理状態メタデータを隠すことは、修正されたメディア・データ・サンプルのオーディオおよびビデオがレンダリングされるときに最小限の可聴または可視のアーチファクトを引き起こすことになる。

いくつかの可能な実施形態では、不可逆的データ隠しを通じた修正されたメディア・データ・サンプルにおける修正を取り消してもとのメディア・データ・サンプルを復元することはできない。

６．例示的なプロセス・フロー
図９のＡおよびＢは、本発明のいくつかの可能な実施形態に基づく、例示的なプロセス・フローを示している。いくつかの可能な実施形態では、メディア処理システム中の一つまたは複数のコンピューティング装置またはユニットがこのプロセス・フローを実行してもよい。

図９のＡのブロック９１０では、メディア処理チェーン（たとえば本稿に記載される向上メディア処理チェーン）内の第一の装置が、メディア・データの出力バージョンに対してある型のメディア処理が実行されているかどうかを判定する。第一の装置は、メディア処理ユニットの一部または全体であってもよい。ブロック９２０では、メディア・データの出力バージョンに対して前記型のメディア処理が実行されていると判定するのに応答して、第一の装置はメディア・データの状態を生成してもよい。いくつかの可能な実施形態では、メディア・データの状態はメディア処理の型を指定してもよく、該メディア処理の結果が前記メディア・データの出力バージョンに含まれている。第一の装置は、前記メディア処理チェーン内の下流の第二の装置に、前記メディア・データの出力バージョンと、前記メディア・データの状態とを、たとえば出力メディア・ビットストリームにおいて、または前記メディア・データの出力バージョンを担持する別個のメディア・ビットストリームに関連付けられた補助メディア・ビットストリームにおいて、通信してもよい。

いくつかの可能な実施形態では、メディア・データは、オーディオ・コンテンツのみ、ビデオ・コンテンツのみまたはオーディオ・コンテンツおよびビデオ・コンテンツの両方のうちの一つまたは複数としてメディア・コンテンツを含む。

いくつかの可能な実施形態では、第一の装置は、第二の装置に、（ａ）メディア・フィンガープリント、（ｂ）処理状態メタデータまたは（ｃ）メディア処理信号のうちの一つまたは複数として、前記メディア・データの状態を提供してもよい。

いくつかの可能な実施形態では、第一の装置は、メディア処理データベースにおいて、メディア処理データ・ブロックを記憶してもよい。メディア処理データ・ブロックはメディア処理メタデータを含んでいてもよく、メディア処理データ・ブロックは、該メディア処理データ・ブロックに関連付けられている一つまたは複数のメディア・フィンガープリントに基づいて取り出し可能である。

いくつかの可能な実施形態では、メディア・データの状態は、クレデンシャル情報を用いて暗号化された暗号学的ハッシュ値を含む。暗号学的ハッシュ値は受け手装置によって認証されてもよい。

いくつかの実施形態では、メディア・データの状態の少なくとも一部は、メディア・データ中に隠されている一つまたは複数のセキュア通信チャネルを含み、前記一つまたは複数のセキュア通信チャネルは受け手装置によって認証される。ある例示的な実施形態では、前記一つまたは複数のセキュア通信チャネルは、少なくとも一つのスペクトラム拡散セキュア通信チャネルを含んでいてもよい。ある例示的な実施形態では、前記一つまたは複数のセキュア通信チャネルは、少なくとも一つの周波数シフト符号化（frequency shift keying）セキュア通信チャネルを含む。

いくつかの可能な実施形態では、メディア・データの状態は、前記型のメディア処理において使われるおよび／または前記型のメディア処理から導出されるパラメータの一つまたは複数のセットを含む。

いくつかの可能な実施形態では、第一の装置または第二の装置の少なくとも一方は、前処理ユニット、エンコーダ、メディア処理サブユニット、トランスコーダ、デコーダ、後処理ユニットまたはメディア・コンテンツ・レンダリング・サブユニットのうちの一つまたは複数を含む。ある例示的な実施形態では、第一の装置はエンコーダ（たとえばAVCエンコーダ）であり、一方、第二の装置はデコーダ（たとえばAVCデコーダ）である。

いくつかの可能な実施形態では、前記型の処理は第一の装置によって実行され、他のいくつかの可能な実施形態では、前記型の処理はその代わりに、メディア処理チェーンにおいて第一の装置に対して上流の装置によって実行される。

いくつかの可能な実施形態では、第一の装置はメディア・データの入力バージョンを受け取ってもよい。メディア・データの入力バージョンは、前記型のメディア処理を示す、前記メディア・データの任意の状態を含む。これらの実施形態において、第一の装置は、メディア・データの入力バージョンを解析して、メディア・データの入力バージョンに対してすでに実行されているメディア処理の型を判別してもよい。

いくつかの可能な実施形態では、第一の装置は、メディア・データの状態において、ラウドネスおよびダイナミックレンジをエンコードする。

いくつかの可能な実施形態では、第一の装置は、上流の装置によって実行された型のメディア処理を実行することを適応的に避けうる。しかしながら、前記型のメディア処理が実行されたときでも、第一の装置は、上流の装置によって実行された前記型のメディア処理をオーバーライドするコマンドを受け取ってもよい。その代わり、第一の装置は、たとえば同じまたは異なるパラメータを用いて、前記型のメディア処理をやはり実行するようコマンドされてもよい。第一の装置からメディア処理チェーン内で下流の第二の装置に通信されるメディア・データの状態は、前記コマンドのもとで第一の装置によって実行された前記型のメディア処理の結果を含むメディア・データの出力バージョンと、メディア・データの出力バージョンにおいては前記型のメディア処理がすでに実行されていることを示すメディア・データの状態とを含んでいてもよい。さまざまな可能な実施形態において、第一の装置は：（ａ）ユーザー入力、（ｂ）第一の装置のシステム構成設定、（ｃ）第一の装置の外部の装置からの信号伝達または（ｄ）第一の装置内のサブユニットからの信号伝達のうちの一つから、前記コマンドを受け取ってもよい。

いくつかの実施形態では、メディア・データの状態は、一つまたは複数のセキュア通信チャネルにおいて隠されている状態メタデータの少なくとも一部を含む。

いくつかの実施形態では、第一の装置は、メディア・データの状態の少なくとも一部を記憶するためにメディア・データ中の複数のバイトを変更する。

いくつかの実施形態では、第一の装置および第二の装置の少なくとも一方は、先進テレビジョン・システムズ委員会（ATSC）コーデック、動画像専門家グループ（MPEG）コーデック、オーディオ・コーデック３（AC-3）コーデックおよびエンハンストAC-3コーデックのうちの一つまたは複数を含む。

いくつかの実施形態では、メディア処理チェーンは：メディア・コンテンツを含む時間領域サンプルを入力として受け入れ、処理された時間領域サンプルを出力するよう構成された前処理ユニットと；処理された時間領域サンプルに基づいてメディア・コンテンツの圧縮されたメディア・ビットストリームを出力するよう構成されたエンコーダと；圧縮されたメディア・ビットストリーム内の処理状態メタデータを検証するよう構成された信号解析およびメタデータ訂正ユニットと；圧縮されたメディア・ビットストリームを修正するよう構成されたトランスコーダと；圧縮されたメディア・ビットストリームに基づいてデコードされた時間領域サンプルを出力するよう構成されたデコーダと；デコードされた時間領域サンプル内のメディア・コンテンツの後処理を実行するよう構成された後処理ユニットとを有する。いくつかの実施形態では、第一の装置および第二の装置の少なくとも一方は、前記前処理ユニット、前記信号解析およびメタデータ訂正ユニット、前記トランスコーダ、前記デコーダおよび前記後処理ユニットのうちの一つまたは複数を含む。いくつかの実施形態では、前記前処理ユニット、前記信号解析およびメタデータ訂正ユニット、前記トランスコーダ、前記デコーダおよび前記後処理ユニットのうちの少なくとも一つは、上流の装置から受領される処理メタデータに基づいてメディア・コンテンツの適応的な処理を実行する。

いくつかの実施形態では、第一の装置は、メディア・データから一つまたは複数のメディア特徴を決定し、メディア・データの状態中に、前記一つまたは複数のメディア特徴の記述を含める。前記一つまたは複数のメディア特徴は、フレーム、秒、分、ユーザー定義可能な時間区間、シーン、歌、音楽片およびレコーディングのうちの一つまたは複数から決定された少なくとも一つのメディア特徴を含んでいてもよい。前記一つまたは複数のメディア特徴はメディア・データの意味的記述を含む。さまざまな実施形態において、前記一つまたは複数のメディア特徴は、構造的属性、和声およびメロディーを含む音質（tonality）、音色、リズム、ラウドネス、ステレオ・ミックス、メディア・データのある量の音源、声の不在もしくは存在、反復特性、メロディー、和声、歌詞、音色、知覚的特徴、デジタル・メディア特徴、ステレオ・パラメータ、発話コンテンツの一つまたは複数の部分のうちの一つまたは複数を含む。

図９のＢのブロック９５０では、メディア処理チェーン（たとえば本稿に記載される向上メディア処理チェーン）内の第一の装置が、メディア・データの入力バージョンに対してある型のメディア処理がすでに実行されているかどうかを判定する。

ブロック９６０では、メディア・データの入力バージョンに対して前記型のメディア処理がすでに実行されていると判定するのに応答して、第一の装置は、第一の装置における前記型のメディア処理の実行を無効にするようメディア・データの処理を適応させる。いくつかの可能な実施形態では、第一の装置は、メディア・データの入力状態に基づいて一つまたは複数の型のメディア処理をオフにしてもよい。

いくつかの可能な実施形態では、第一の装置は、前記メディア処理チェーン内の下流の第二の装置に、前記メディア・データの出力バージョンと、前記メディア・データの出力バージョンにおいて前記型のメディア処理がすでに実行されていることを示す前記メディア・データの状態とを通信してもよい。

いくつかの可能な実施形態では、第一の装置は、メディア・データの状態において、ラウドネスおよびダイナミックレンジをエンコードしてもよい。いくつかの可能な実施形態では、第一の装置は、メディア・データの入力バージョンに対して前記型の処理がすでに実行されているかどうかに少なくとも部分的に基づいて、是正的なラウドネスまたはダイナミクス・オーディオ処理を適応させることの一つまたは複数を自動的に実行してもよい。

いくつかの可能な実施形態では、第一の装置は、メディア・データに対して第二の、異なる型のメディア処理を実行してもよい。第一の装置は、前記メディア処理チェーン内の下流の第二の装置に、前記メディア・データの出力バージョンと、前記メディア・データの出力バージョンにおいて前記型のメディア処理および前記第二の異なる型のメディア処理がすでに実行されていることを示す前記メディア・データの状態とを通信してもよい。

いくつかの可能な実施形態では、第一の装置は、メディア・データの入力バージョンに関連付けられているメディア・データの入力状態を取得してもよい。いくつかの可能な実施形態では、メディア・データの入力状態は、入力メディア・ビットストリームにおいて、メディア・データの入力バージョンと一緒に担持される。いくつかの可能な実施形態では、第一の装置は、メディア・データ中の、メディア・コンテンツをエンコードしているデータ・ユニット〔データ単位〕から、メディア・データの入力状態を抽出してもよい。

いくつかの可能な実施形態では、第一の装置は、前記データ・ユニットの、メディア・データの入力状態を含まないバージョンを復元し、復元されたデータ・ユニットのバージョンに基づいてメディア・コンテンツをレンダリングしてもよい。

いくつかの可能な実施形態では、第一の装置は、メディア・データの入力状態に関連付けられた暗号学的ハッシュ値を検証することによって、メディア・データの入力状態を認証してもよい。

いくつかの実施形態では、第一の装置は、メディア・データの入力状態に関連付けられた一つまたは複数のフィンガープリントを検証することによって、メディア・データの入力状態を認証してもよい。ここで、前記一つまたは複数のフィンガープリントの少なくとも一つは、メディア・データの少なくとも一部分に基づいて生成される。

いくつかの実施形態では、第一の装置は、メディア・データの入力状態に関連付けられた一つまたは複数のフィンガープリントを検証することによって、メディア・データの入力状態を検証してもよい。ここで、前記一つまたは複数のフィンガープリントの少なくとも一つは、メディア・データの少なくとも一部分に基づいて生成される。

いくつかの可能な実施形態では、第一の装置は、処理状態メタデータをもって記述されるメディア・データの入力状態を受け取ってもよい。第一の装置は、少なくとも部分的には前記処理状態メタデータに基づいて、メディア処理信号を生成してもよい。メディア処理信号は、たとえ処理状態メタデータよりも小さなデータ量であるおよび／または低いビットレートを要求するものであっても、メディア・データの入力状態を示しうる。第一の装置は、メディア処理信号を、メディア処理チェーンにおいて第一の装置の下流にあるメディア処理装置に送信してもよい。いくつかの可能な実施形態では、メディア処理信号は、メディア・データに対する一つまたは複数の修正が受け手装置によって除去できるよう可逆的なデータ隠し技法を使ってメディア・データの出力バージョン中の一つまたは複数のデータ・ユニットに隠される。いくつかの実施形態では、メディア・データに対する一つまたは複数の修正のうち少なくとも一つが受け手装置によって除去できないような不可逆的なデータ隠し技法を使ってメディア・データの出力バージョン中の一つまたは複数のデータ・ユニットに隠される。

いくつかの可能な実施形態では、第一の装置は、メディア・データの状態中の一つまたは複数のメディア特徴の記述に基づいて該一つまたは複数のメディア特徴を決定する。前記一つまたは複数のメディア特徴は、フレーム、秒、分、ユーザー定義可能な時間区間、シーン、歌、音楽片およびレコーディングのうちの一つまたは複数から決定された少なくとも一つのメディア特徴を含んでいてもよい。前記一つまたは複数のメディア特徴はメディア・データの意味的記述を含む。いくつかの実施形態では、第一の装置は、前記一つまたは複数のメディア特徴を決定するのに応答して、一つまたは複数の特定の動作を実行する。

いくつかの可能な実施形態では：メディア処理チェーン中の第一の装置により、メディア・データの源フレームの一つまたは複数のデータ・レート削減表現（data rate reduced representation）を計算する段階と；前記一つまたは複数のデータ・レート削減表現を同時かつセキュアに、メディア・データ自身の状態内で、メディア処理チェーン中の第二の装置に搬送する段階とを含む、一つまたは複数のコンピューティング装置によって実行される方法が提供される。

いくつかの可能な実施形態では、前記一つまたは複数のデータ・レート削減表現は、サブストリーム、一つまたは複数のリザーブされたフィールド、add_bsiフィールド、一つまたは複数の補助データ・フィールドまたは一つまたは複数の変換係数のうちの少なくとも一つにおいて担持される。

いくつかの可能な実施形態では、前記一つまたは複数のデータ・レート削減表現は、メディア・データ内で送達されるオーディオおよびビデオを同期させるために使われる同期データを含む。

いくつかの可能な実施形態では、前記一つまたは複数のデータ・レート削減表現は、（ａ）メディア処理ユニットによって生成され、（ｂ）品質モニタリング、メディア格付け、メディア追跡またはコンテンツ検索のうちの一つまたは複数のためにメディア・データに埋め込まれた、メディア・フィンガープリントを含む。

いくつかの可能な実施形態では、本方法はさらに、メディア処理チェーン中の前記一つまたは複数のコンピューティング装置の少なくとも一つによって、メディア・データおよび／またはメディア・データの状態に基づく暗号学的ハッシュ値を計算し、メディア・データを担持する一つまたは複数のエンコードされたビットストリーム内で送信する段階を含む。

いくつかの可能な実施形態では、本方法はさらに、受け手装置によって、前記暗号学的ハッシュ値を認証し；前記受け手装置によって一つまたは複数の下流のメディア処理ユニットに対して、メディア・データの状態が有効であるかどうかの判定を信号伝達し；メディア・データの状態が有効であると判定するのに応答して、前記受け手装置によって前記一つまたは複数の下流のメディア処理ユニットに対して、メディア・データの状態を信号伝達することを含む。

いくつかの可能な実施形態では、メディアの状態および／またはメディア・データを表す前記暗号学的ハッシュ値は、サブストリーム、一つまたは複数のリザーブされたフィールド、add_bsiフィールド、一つまたは複数の補助データ・フィールドまたは一つまたは複数の変換係数のうちの少なくとも一つにおいて担持される。

いくつかの可能な実施形態では：音響心理学的ユニット、変換、波形／空間オーディオ符号化ユニット、エンコーダ、デコーダ、トランスコーダまたはストリーム・プロセッサのうちの一つまたは複数を含むメディア処理チェーン中の一つまたは複数のコンピューティング装置により、メディア・データの状態によって示される一つまたは複数の上流のメディア処理ユニットによるメディア・データのラウドネス処理の過去の履歴に基づいて、メディア・データの入力バージョンを適応的に処理する段階と；メディア処理チェーンの末尾におけるメディア・データの出力バージョンのラウドネスおよび／またはダイナミックレンジを、一貫するラウドネスおよび／またはダイナミックレンジ値に正規化する（normalizing）段階とを含む方法が提供される。

いくつかの可能な実施形態では、前記一貫するラウドネス値は、（１）ユーザーによって制御または選択されるまたは（２）メディア・データの入力バージョン内の状態によって適応的に信号伝達されるラウドネス値を含む。

いくつかの可能な実施形態では、前記ラウドネス値は、メディア・データのダイアログ（発話）部分に対して計算される。

いくつかの可能な実施形態では、前記ラウドネス値は、メディア・データの絶対的な、相対的なおよび／またはゲートされていない部分に対して計算される。

いくつかの可能な実施形態では、前記一貫するダイナミックレンジ値は、（１）ユーザーによって制御または選択されるまたは（２）メディア・データの入力バージョン内の状態によって適応的に信号伝達されるダイナミックレンジ値を含む。

いくつかの可能な実施形態では、前記ダイナミックレンジ値は、メディア・データのダイアログ（発話）部分に対して計算される。

いくつかの可能な実施形態では、前記ダイナミックレンジ値は、メディア・データの絶対的な、相対的なおよび／またはゲートされていない部分に対して計算される。

いくつかの可能な実施形態では、本方法はさらに：メディア・データの出力バージョンを一貫するラウドネス値および一貫するダイナミックレンジに正規化するための一つまたは複数のラウドネスおよび／またはダイナミックレンジ利得制御値を計算する段階と；前記一つまたは複数のラウドネスおよび／またはダイナミックレンジ利得制御値を、メディア処理チェーンの末尾におけるメディア・データの出力バージョンの状態内で同時に搬送する段階とをさらに含み、前記一つまたは複数のラウドネスおよび／またはダイナミックレンジ利得制御値は、メディア・データの入力バージョンにおけるもとのラウドネス値およびもとのダイナミックレンジを復元するために前記一つまたは複数のラウドネスおよび／またはダイナミックレンジ利得制御値を逆適用するために別の装置によって使用可能である。

いくつかの可能な実施形態では、メディア・データの出力バージョンの状態を表す前記一つまたは複数のラウドネスおよび／またはダイナミックレンジ制御値は、サブストリーム、一つまたは複数のリザーブされたフィールド、add_bsiフィールド、一つまたは複数の補助データ・フィールドまたは一つまたは複数の変換係数のうちの少なくとも一つにおいて担持される。

いくつかの可能な実施形態では、音響心理学的ユニット、変換、波形／空間オーディオ符号化ユニット、エンコーダ、デコーダ、トランスコーダまたはストリーム・プロセッサのうちの一つまたは複数を含むメディア処理チェーン中の一つまたは複数のコンピューティング装置によって、一つまたは複数のエンコードされたビットストリーム中の、関係するおよび関係しないメディア・データ位置および／または関係するおよび関係しないメディア・データ位置の状態の挿入、抽出または編集のうちの一つを実行する段階を含む方法が提供される。

いくつかの可能な実施形態では、エンコードされたビットストリーム中の、前記一つまたは複数の関係するおよび関係しないメディア・データ位置および／または関係するおよび関係しないメディア・データ位置の状態は、サブストリーム、一つまたは複数のリザーブされたフィールド、add_bsiフィールド、一つまたは複数の補助データ・フィールドまたは一つまたは複数の変換係数のうちの少なくとも一つにおいて担持される。

いくつかの可能な実施形態では、音響心理学的ユニット、変換、波形／空間オーディオ符号化ユニット、エンコーダ、デコーダ、トランスコーダまたはストリーム・プロセッサのうちの一つまたは複数を含むメディア処理チェーン中の一つまたは複数のコンピューティング装置によって、一つまたは複数のエンコードされたビットストリーム中の、関係するおよび関係しないメディア・データおよび／または関係するおよび関係しないメディア・データの状態の挿入、抽出または編集のうちの一つまたは複数を実行する段階を含む方法が提供される。

いくつかの可能な実施形態では、エンコードされたビットストリーム中の、前記一つまたは複数の関係するおよび関係しないメディア・データおよび／または関係するおよび関係しないメディア・データの状態は、サブストリーム、一つまたは複数のリザーブされたフィールド、add_bsiフィールド、一つまたは複数の補助データ・フィールドまたは一つまたは複数の変換係数のうちの少なくとも一つにおいて担持される。

いくつかの可能な実施形態では、メディア処理システムが、音響心理学的ユニット、変換、波形／空間オーディオ符号化ユニット、エンコーダ、デコーダ、トランスコーダまたはストリーム・プロセッサのうちの一つまたは複数を含むメディア処理チェーン中の一つまたは複数のコンピューティング装置によって、メディア・データおよび／またはメディア・データの状態に基づく暗号学的ハッシュ値を計算し、一つまたは複数のエンコードされたビットストリーム中で搬送するよう構成される。

本稿での用法では、用語「関係するおよび関係しないメディア・データ位置」は、関係するメディア（たとえば異なるビットストリーム・フォーマットでのメディアのコピー）の位置を示す絶対的パス、相対パスおよび／またはURLまたは関係しないメディアまたは当該メディア・データ位置が見出されるエッセンスまたはビットストリームに直接関係しない他の型の情報の位置（たとえば、コマーシャル、広告、ウェブ・ページなどといった新しいメディア片の位置）を示す絶対パス、相対パスおよび／またはURLのようなメディア資源位置指定子を含みうる情報を指しうる。

本稿での用法では、用語「関係するおよび関係しないメディア・データ位置の状態」は、該関係するおよび関係しないメディア位置の有効性を指しうる（該位置は、それらが搬送されるビットストリームのライフサイクルを通じて編集／更新されることができるので）。

本稿での用法では、用語「関係するメディア・データ」は、ビットストリームが表す主要メディアと高度に相関している副次的メディア・データ・ビットストリームの形の関係したメディア・データの搬送を指しうる（たとえば第二の（独立な）ビットストリーム・フォーマットでのメディア・データのコピーの搬送）。関係しないメディア・データのコンテキストでは、この情報は、主要メディア・データとは独立な副次的なメディア・データ・ビットストリームの搬送を指しうる。

本稿での用法では、関係するメディア・データについての「状態」は、何らかの信号伝達情報（処理履歴、更新された目標ラウドネスなど……）および／またはメタデータならびに関係するメディア・データの有効性を指しうる。関係しないメディア・データについての「状態」は、「関係する」メディア・データの状態とは別個に（独立に）搬送されることのできる、有効性情報を含む独立な信号伝達おおよび／またはメタデータを指しうる。関係しないメディア・データの状態は、この情報が見出されるメディア・データ・ビットストリームに「関係しない」メディア・データを表す（この情報は、それらが搬送されるビットストリームのライフサイクルを通じて独立に編集／更新されることができるので）。

本稿での用法では、用語「メディア・データの絶対的な、相対的なおよび／またはゲートされていない部分」は、メディア・データに対して実行されるラウドネスおよび／またはレベル測定のゲーティングに関係する。ゲーティングは特定のレベルまたはラウドネス閾値を参照し、閾値を超える計算された値が最終的な測定に含められる（たとえば、最終的な測定値において−60dBFSを下回る短期的なラウドネス値は無視する）。絶対的な値に対するゲーティングは、固定したレベルまたはラウドネスを指し、相対的な値に対するゲーティングは、現在の「ゲートされていない」測定値に依存する値を指す。

図１２Ａないし図１２Ｌは、本発明のいくつかの可能な実施形態に基づく、いくつかの例示的なメディア処理ノード／装置のブロック図をさらに図解している。

図１２Ａに示されるところでは、信号プロセッサ（これはN個のノードのうちのノード１であってもよい）は、オーディオPCMサンプルを含んでいてもよい入力信号を受領するよう構成される。オーディオPCMサンプルは、オーディオPCMサンプルの間に隠された処理状態メタデータ（またはメディア状態メタデータ）を含んでいてもいなくてもよい。図１２Ａの信号プロセッサは、図１２Ａの信号プロセッサより前の一つまたは複数のメディア処理ユニットによって提供されるところの、オーディオPCMサンプルからの処理状態メタデータを、デコード、抽出および／または解釈するよう構成されているメディア状態メタデータ抽出器を有していてもよい。処理状態メタデータの少なくとも一部は、図１２Ａの信号プロセッサ中のオーディオ・エンコーダに、該オーディオ・エンコーダについての処理パラメータを適応させるために提供されてもよい。並行して、図１２Ａの信号プロセッサ中のオーディオ解析ユニットが、入力信号において渡されたメディア・コンテンツを解析してもよい。特徴抽出、メディア分類、ラウドネス推定、フィンガープリント生成などが、オーディオ解析ユニットによって実行される解析の一部として実装されてもよい。この解析の結果の少なくとも一部が、図１２Ａの信号プロセッサ中のオーディオ・エンコーダに、該オーディオ・エンコーダについての処理パラメータを適応させるために提供されてもよい。オーディオ・エンコーダは、入力信号中のオーディオPCMサンプルを、処理パラメータに基づいてエンコードして、出力信号中の符号化されたビットストリームにする。図１２Ａの信号プロセッサ中の符号化ビットストリーム解析ユニットは、図１２Ａの信号プロセッサの出力信号において送信されるべき該符号化されたビットストリーム中のメディア・データまたはサンプルが、処理状態メタデータの少なくとも一部を格納する余地をもつかどうかを判定するよう構成されていてもよい。図１２Ａの信号プロセッサによって送信されるべき新しい処理状態メタデータは、前記メディア状態メタデータ抽出器によって抽出された処理状態メタデータ、前記オーディオ解析ユニットおよび図１２Ａの信号プロセッサのメディア状態メタデータ生成器によって生成された処理状態メタデータおよび／または任意のサードパーティー・データの一部または全部を含む。符号化されたビットストリーム中のメディア・データまたはサンプルが処理状態メタデータの少なくとも一部を格納する余地をもつと判定される場合、前記新たな処理状態メタデータの一部または全部が、出力信号中のメディア・データまたはサンプルにおいて隠しデータとして格納されてもよい。追加的、任意的または代替的に、前記新たな処理状態メタデータの一部または全部は、出力信号中のメディア・データおよびサンプルとは別個のメタデータ構造に格納されてもよい。よって、出力信号は、セキュアな隠されたまたは隠されていない通信チャネルを介してメディア・サンプル（エッセンス）内および／またはメディア・サンプル（エッセンス）の間に担持される、前記新たな処理状態（または「メディア状態」）メタデータを含む符号化されたビットストリームを含んでいてもよい。

図１２Ｂに示されるところでは、信号プロセッサ（これはN個のノードのうちのノード１であってもよい）は、オーディオPCMサンプルを含んでいてもよい入力信号を受領するよう構成される。オーディオPCMサンプルは、オーディオPCMサンプルの間に隠された処理状態メタデータ（またはメディア状態メタデータ）を含んでいてもいなくてもよい。図１２Ｂの信号プロセッサは、図１２Ｂの信号プロセッサより前の一つまたは複数のメディア処理ユニットによって提供されるところの、オーディオPCMサンプルからの処理状態メタデータを、デコード、抽出および／または解釈するよう構成されているメディア状態メタデータ抽出器を有していてもよい。処理状態メタデータの少なくとも一部は、図１２Ｂの信号プロセッサ中のPCMオーディオ・サンプル・プロセッサに、該PCMオーディオ・サンプル・プロセッサについての処理パラメータを適応させるために提供されてもよい。並行して、図１２Ｂの信号プロセッサ中のオーディオ解析ユニットが、入力信号において渡されたメディア・コンテンツを解析してもよい。特徴抽出、メディア分類、ラウドネス推定、フィンガープリント生成などが、オーディオ解析ユニットによって実行される解析の一部として実装されてもよい。この解析の結果の少なくとも一部が、図１２Ｂの信号プロセッサ中のオーディオ・エンコーダに、該PCMオーディオ・サンプル・プロセッサについての処理パラメータを適応させるために提供されてもよい。PCMオーディオ・サンプル・プロセッサは、入力信号中のオーディオPCMサンプルを、処理パラメータに基づいて処理して、出力信号中の符号化されたPCMオーディオ（サンプル）ビットストリームにする。図１２Ｂの信号プロセッサ中のPCMオーディオ解析ユニットは、図１２Ｂの信号プロセッサの出力信号において送信されるべきPCMオーディオ・ビットストリーム中のメディア・データまたはサンプルが、処理状態メタデータの少なくとも一部を格納する余地をもつかどうかを判定するよう構成されていてもよい。図１２Ｂの信号プロセッサによって送信されるべき新しい処理状態メタデータは、前記メディア状態メタデータ抽出器によって抽出された処理状態メタデータ、前記オーディオ解析ユニットおよび図１２Ｂの信号プロセッサのメディア状態メタデータ生成器によって生成された処理状態メタデータおよび／または任意のサードパーティー・データの一部または全部を含む。PCMオーディオ・ビットストリーム中のメディア・データまたはサンプルが処理状態メタデータの少なくとも一部を格納する余地をもつと判定される場合、前記新たな処理状態メタデータの一部または全部が、出力信号中のメディア・データまたはサンプルにおいて隠しデータとして格納されてもよい。追加的、任意的または代替的に、前記新たな処理状態メタデータの一部または全部は、出力信号中のメディア・データおよびサンプルとは別個のメタデータ構造に格納されてもよい。よって、出力信号は、セキュアな隠されたまたは隠されていない通信チャネルを介してメディア・サンプル（エッセンス）内および／またはメディア・サンプル（エッセンス）の間に担持される、前記新たな処理状態（または「メディア状態」）メタデータを含むPCMオーディオ・ビットストリームを含んでいてもよい。

図１２Ｃに示されるところでは、信号プロセッサ（これはN個のノードのうちのノード１であってもよい）は、PCMオーディオ（サンプル）ビットストリームを含んでいてもよい入力信号を受領するよう構成される。PCMオーディオ・ビットストリームは、セキュアな隠されたまたは隠されていない通信チャネルを介してPCMオーディオ・ビットストリーム中のメディア・サンプル（エッセンス）内および／またはメディア・サンプル（エッセンス）の間に担持される、処理状態メタデータ（またはメディア状態メタデータ）を含んでいてもよい。図１２Ｃの信号プロセッサは、PCMオーディオ・ビットストリームからの処理状態メタデータを、デコード、抽出および／または解釈するよう構成されているメディア状態メタデータ抽出器を有していてもよい。処理状態メタデータの少なくとも一部は、図１２Ｃの信号プロセッサ中のPCMオーディオ・サンプル・プロセッサに、該PCMオーディオ・サンプル・プロセッサについての処理パラメータを適応させるために提供されてもよい。処理状態メタデータは、図１２Ｃの信号プロセッサより前の一つまたは複数のメディア処理ユニットによって決定される、メディア特徴、メディア・クラス・タイプもしくはサブタイプまたは確からしさ／確率値の記述を含んでいてもよく、図１２Ｃの信号プロセッサはそれを、自分自身のメディア・コンテンツ解析を実行することなく利用するよう構成されていてもよい。追加的、任意的または代替的に、メディア状態メタデータ抽出器は、入力信号からのサードパーティー・データを抽出し、該サードパーティー・データを下流の処理ノード／エンティティ／装置に送信するよう構成されていてもよい。ある実施形態では、PCMオーディオ・サンプル・プロセッサは、図１２Ｃの信号プロセッサより前の前記一つまたは複数のメディア処理ユニットによって与えられる処理状態メタデータに基づいて設定された処理パラメータに基づいて、PCMオーディオ・ビットストリームを処理して出力信号のオーディオPCMサンプルにする。

図１２Ｄに示されるところでは、信号プロセッサ（これはN個のノードのうちのノード１であってもよい）は、符号化されたオーディオ・ビットストリームを含んでいてもよい入力信号を受領するよう構成される。符号化されたオーディオ・ビットストリームは、セキュアな隠されたまたは隠されていない通信チャネルを介してメディア・サンプル内に担持されるおよび／またはメディア・サンプルの間に隠される、処理状態メタデータ（またはメディア状態メタデータ）を含んでいる。図１２Ｄの信号プロセッサは、図１２Ｄの信号プロセッサより前の一つまたは複数のメディア処理ユニットによって提供されるところの、符号化されたビットストリームからの処理状態メタデータを、デコード、抽出および／または解釈するよう構成されているメディア状態メタデータ抽出器を有していてもよい。処理状態メタデータの少なくとも一部は、図１２Ｄの信号プロセッサ中のオーディオ・デコーダに、該オーディオ・デコーダについての処理パラメータを適応させるために提供されてもよい。並行して、図１２Ｄの信号プロセッサ中のオーディオ解析ユニットが、入力信号において渡されたメディア・コンテンツを解析してもよい。特徴抽出、メディア分類、ラウドネス推定、フィンガープリント生成などが、オーディオ解析ユニットによって実行される解析の一部として実装されてもよい。この解析の結果の少なくとも一部が、図１２Ｄの信号プロセッサ中のオーディオ・デコーダに、該オーディオ・デコーダについての処理パラメータを適応させるために提供されてもよい。オーディオ・デコーダは、入力信号中の符号化されたオーディオ・ビットストリームを、処理パラメータに基づいて、出力信号中のPCMオーディオ・ビットストリームに変換する。図１２Ｄの信号プロセッサ中のPCMオーディオ解析ユニットは、PCMオーディオ・ビットストリーム中のメディア・データまたはサンプルが、処理状態メタデータの少なくとも一部を格納する余地をもつかどうかを判定するよう構成されていてもよい。図１２Ｄの信号プロセッサによって送信されるべき新しい処理状態メタデータは、前記メディア状態メタデータ抽出器によって抽出された処理状態メタデータ、前記オーディオ解析ユニットおよび図１２Ｄの信号プロセッサのメディア状態メタデータ生成器によって生成された処理状態メタデータおよび／または任意のサードパーティー・データの一部または全部を含む。PCMオーディオ・ビットストリーム中のメディア・データまたはサンプルが処理状態メタデータの少なくとも一部を格納する余地をもつと判定される場合、前記新たな処理状態メタデータの一部または全部が、出力信号中のメディア・データまたはサンプルにおいて隠しデータとして格納されてもよい。追加的、任意的または代替的に、前記新たな処理状態メタデータの一部または全部は、出力信号中のメディア・データおよびサンプルとは別個のメタデータ構造に格納されてもよい。よって、出力信号は、セキュアな隠されたまたは隠されていない通信チャネルを介してメディア・データ／サンプル（エッセンス）内および／またはメディア・データ／サンプル（エッセンス）の間に担持される、処理状態（または「メディア状態」）メタデータを含むPCMオーディオ（サンプル）・ビットストリームを含んでいてもよい。

図１２Ｅに示されるところでは、信号プロセッサ（これはN個のノードのうちのノード１であってもよい）は、符号化されたオーディオ・ビットストリームを含んでいてもよい入力信号を受領するよう構成される。符号化されたオーディオ・ビットストリームは、セキュアな隠されたまたは隠されていない通信チャネルを介して符号化されたオーディオ・ビットストリーム中のメディア・サンプル（エッセンス）内および／またはメディア・サンプル（エッセンス）の間に担持される、処理状態メタデータ（またはメディア状態メタデータ）を含んでいてもよい。図１２Ｅの信号プロセッサは、符号化されたオーディオ・ビットストリームからの処理状態メタデータを、デコード、抽出および／または解釈するよう構成されているメディア状態メタデータ抽出器を有していてもよい。処理状態メタデータの少なくとも一部は、図１２Ｅの信号プロセッサ中のオーディオ・デコーダに、該オーディオ・デコーダについての処理パラメータを適応させるために提供されてもよい。処理状態メタデータは、図１２Ｅの信号プロセッサより前の一つまたは複数のメディア処理ユニットによって決定される、メディア特徴、メディア・クラス・タイプもしくはサブタイプまたは確からしさ／確率値の記述を含んでいてもよく、図１２Ｅの信号プロセッサはそれを、自分自身のメディア・コンテンツ解析を実行することなく利用するよう構成されていてもよい。追加的、任意的または代替的に、メディア状態メタデータ抽出器は、入力信号からサードパーティー・データを抽出し、該サードパーティー・データを下流の処理ノード／エンティティ／装置に送信するよう構成されていてもよい。ある実施形態では、オーディオ・デコーダは、図１２Ｅの信号プロセッサより前の前記一つまたは複数のメディア処理ユニットによって与えられる処理状態メタデータに基づいて設定された処理パラメータに基づいて、符号化されたオーディオ・ビットストリームを処理して出力信号のオーディオPCMサンプルにする。

図１２Ｆに示されるところでは、信号プロセッサ（これはN個のノードのうちのノード１であってもよい）は、符号化されたオーディオ・ビットストリームを含んでいてもよい入力信号を受領するよう構成される。符号化されたオーディオ・ビットストリームは、セキュアな隠されたまたは隠されていない通信チャネルを介してメディア・サンプル内に担持されるおよび／またはメディア・サンプルの間に隠される、処理状態メタデータ（またはメディア状態メタデータ）を含んでいる。図１２Ｆの信号プロセッサは、図１２Ｆの信号プロセッサより前の一つまたは複数のメディア処理ユニットによって提供されるところの、符号化されたビットストリームからの処理状態メタデータを、デコード、抽出および／または解釈するよう構成されているメディア状態メタデータ抽出器を有していてもよい。処理状態メタデータの少なくとも一部は、図１２Ｆの信号プロセッサ中のビットストリーム・トランスコーダ（または符号化されたオーディオ・ビットストリーム・プロセッサ）に、該ビットストリーム・トランスコーダについての処理パラメータを適応させるために提供されてもよい。並行して、図１２Ｆの信号プロセッサ中のオーディオ解析ユニットが、入力信号において渡されたメディア・コンテンツを解析してもよい。特徴抽出、メディア分類、ラウドネス推定、フィンガープリント生成などが、オーディオ解析ユニットによって実行される解析の一部として実装されてもよい。この解析の結果の少なくとも一部が、図１２Ｆの信号プロセッサ中のビットストリーム・トランスコーダに、該ビットストリーム・トランスコーダについての処理パラメータを適応させるために提供されてもよい。ビットストリーム・トランスコーダは、入力信号中の符号化されたオーディオ・ビットストリームを、処理パラメータに基づいて、出力信号中の符号化されたオーディオ・ビットストリームに変換する。図１２Ｆの信号プロセッサ中の符号化されたビットストリーム解析ユニットは、符号化されたオーディオ・ビットストリーム中のメディア・データまたはサンプルが、処理状態メタデータの少なくとも一部を格納する余地をもつかどうかを判定するよう構成されていてもよい。図１２Ｆの信号プロセッサによって送信されるべき新しい処理状態メタデータは、前記メディア状態メタデータ抽出器によって抽出された処理状態メタデータ、前記オーディオ解析ユニットおよび図１２Ｆの信号プロセッサのメディア状態メタデータ生成器によって生成された処理状態メタデータおよび／または任意のサードパーティー・データの一部または全部を含む。符号化されたオーディオ・ビットストリーム中のメディア・データまたはサンプルが処理状態メタデータの少なくとも一部を格納する余地をもつと判定される場合、前記新たな処理状態メタデータの一部または全部が、出力信号中のメディア・データまたはサンプルにおいて隠しデータとして格納されてもよい。追加的、任意的または代替的に、前記新たな処理状態メタデータの一部または全部は、出力信号中のメディア・データとは別個のメタデータ構造に格納されてもよい。よって、出力信号は、セキュアな隠されたまたは隠されていない通信チャネルを介してメディア・データ／サンプル（エッセンス）内および／またはメディア・データ／サンプル（エッセンス）の間に担持される、処理状態（または「メディア状態」）メタデータを含む符号化されたオーディオ・ビットストリームを含んでいてもよい。

図１２Ｇは部分的に図１２Ａに似た例示的な構成を示している。追加的、任意的または代替的に、図１２Ｇの信号プロセッサは、図１２Ｇの信号プロセッサにイントラネットおよび／またはインターネットを通じて動作上リンクされうる、ローカルなおよび／または外部のメディア状態メタデータ・データベースに問い合わせするよう構成されているメディア状態メタデータ抽出器を有していてもよい。図１２Ｇの信号プロセッサによってデータベースに送られる問い合わせは、メディア・データに関連付けられた一つまたは複数のフィンガープリント、メディア・データに関連付けられた一つまたは複数の名前（たとえば楽曲のタイトル、映画のタイトル）またはメディア・データに関連付けられた他の任意の型の識別情報を含んでいてもよい。問い合わせ中の情報に基づいて、データベースに記憶されている一致したメディア状態メタデータが位置特定され、図１２Ｇの信号プロセッサに与えられてもよい。メディア状態メタデータは、メディア状態メタデータ抽出器によって、オーディオ・エンコーダのような下流の処理ノード／エンティティに与えられる処理状態メタデータに含められてもよい。追加的、任意的または代替的に、図１２Ｇの信号プロセッサは、図１２Ｇに示されるように、任意の生成されたメディア状態メタデータおよび／またはフィンガープリント、名前および／または他の型の識別情報のような関連付けられた識別情報を、ローカルなおよび／または外部のメディア状態メタデータ・データベースに提供するよう構成されているメディア状態メタデータ生成器を有していてもよい。追加的、任意的または代替的に、データベースに記憶されているメディア状態メタデータの一つまたは複数の部分が、セキュアな隠されたまたは隠されていない通信チャネルを介してメディア・サンプル（エッセンス）内および／またはメディア・サンプル（エッセンス）間で下流のメディア処理ノード／装置に通信されるよう、図１２Ｇの信号プロセッサに提供されてもよい。

図１２Ｈは部分的に図１２Ｂに似た例示的な構成を示している。追加的、任意的または代替的に、図１２Ｈの信号プロセッサは、図１２Ｈの信号プロセッサにイントラネットおよび／またはインターネットを通じて動作上リンクされうる、ローカルなおよび／または外部のメディア状態メタデータ・データベースに問い合わせするよう構成されているメディア状態メタデータ抽出器を有していてもよい。図１２Ｈの信号プロセッサによってデータベースに送られる問い合わせは、メディア・データに関連付けられた一つまたは複数のフィンガープリント、メディア・データに関連付けられた一つまたは複数の名前（たとえば楽曲のタイトル、映画のタイトル）またはメディア・データに関連付けられた他の任意の型の識別情報を含んでいてもよい。問い合わせ中の情報に基づいて、データベースに記憶されている一致したメディア状態メタデータが位置特定され、図１２Ｈの信号プロセッサに与えられてもよい。メディア状態メタデータは、メディア状態メタデータ抽出器によって、PCMオーディオ・サンプル・プロセッサのような下流の処理ノード／エンティティに与えられる処理状態メタデータに含められてもよい。追加的、任意的または代替的に、図１２Ｈの信号プロセッサは、図１２Ｈに示されるように、任意の生成されたメディア状態メタデータおよび／またはフィンガープリント、名前および／または他の型の識別情報のような関連付けられた識別情報を、ローカルなおよび／または外部のメディア状態メタデータ・データベースに提供するよう構成されているメディア状態メタデータ生成器を有していてもよい。追加的、任意的または代替的に、データベースに記憶されているメディア状態メタデータの一つまたは複数の部分が、セキュアな隠されたまたは隠されていない通信チャネルを介してメディア・サンプル（エッセンス）内および／またはメディア・サンプル（エッセンス）間で下流のメディア処理ノード／装置に通信されるよう、図１２Ｈの信号プロセッサに提供されてもよい。

図１２Ｉは部分的に図１２Ｃに似た例示的な構成を示している。追加的、任意的または代替的に、図１２Ｉの信号プロセッサは、図１２Ｉの信号プロセッサにイントラネットおよび／またはインターネットを通じて動作上リンクされうる、ローカルなおよび／または外部のメディア状態メタデータ・データベースに問い合わせするよう構成されているメディア状態メタデータ抽出器を有していてもよい。図１２Ｉの信号プロセッサによってデータベースに送られる問い合わせは、メディア・データに関連付けられた一つまたは複数のフィンガープリント、メディア・データに関連付けられた一つまたは複数の名前（たとえば楽曲のタイトル、映画のタイトル）またはメディア・データに関連付けられた他の任意の型の識別情報を含んでいてもよい。問い合わせ中の情報に基づいて、データベースに記憶されている一致したメディア状態メタデータが位置特定され、図１２Ｉの信号プロセッサに与えられてもよい。メディア状態メタデータは、PCMオーディオ・サンプル・プロセッサのような下流の処理ノード／エンティティに与えられてもよい。

図１２Ｊは部分的に図１２Ｄに似た例示的な構成を示している。追加的、任意的または代替的に、図１２Ｊの信号プロセッサは、図１２Ｊの信号プロセッサにイントラネットおよび／またはインターネットを通じて動作上リンクされうる、ローカルなおよび／または外部のメディア状態メタデータ・データベースに問い合わせするよう構成されているメディア状態メタデータ抽出器を有していてもよい。図１２Ｊの信号プロセッサによってデータベースに送られる問い合わせは、メディア・データに関連付けられた一つまたは複数のフィンガープリント、メディア・データに関連付けられた一つまたは複数の名前（たとえば楽曲のタイトル、映画のタイトル）またはメディア・データに関連付けられた他の任意の型の識別情報を含んでいてもよい。問い合わせ中の情報に基づいて、データベースに記憶されている一致したメディア状態メタデータが位置特定され、図１２Ｊの信号プロセッサに与えられてもよい。データベースからのメディア状態メタデータは、オーディオ・デコーダのような下流の処理ノード／エンティティに与えられる処理状態メタデータに含められてもよい。追加的、任意的または代替的に、図１２Ｊの信号プロセッサは、図１２Ｊに示されるように、任意の生成されたメディア状態メタデータおよび／またはフィンガープリント、名前および／または他の型の識別情報のような関連付けられた識別情報を、ローカルなおよび／または外部のメディア状態メタデータ・データベースに提供するよう構成されているオーディオ解析ユニットを有していてもよい。追加的、任意的または代替的に、データベースに記憶されているメディア状態メタデータの一つまたは複数の部分が、セキュアな隠されたまたは隠されていない通信チャネルを介してメディア・サンプル（エッセンス）内および／またはメディア・サンプル（エッセンス）間で下流のメディア処理ノード／装置に通信されるよう、図１２Ｊの信号プロセッサに提供されてもよい。

図１２Ｋは部分的に図１２Ｆに似た例示的な構成を示している。追加的、任意的または代替的に、図１２Ｋの信号プロセッサは、図１２Ｋの信号プロセッサにイントラネットおよび／またはインターネットを通じて動作上リンクされうる、ローカルなおよび／または外部のメディア状態メタデータ・データベースに問い合わせするよう構成されているメディア状態メタデータ抽出器を有していてもよい。図１２Ｋの信号プロセッサによってデータベースに送られる問い合わせは、メディア・データに関連付けられた一つまたは複数のフィンガープリント、メディア・データに関連付けられた一つまたは複数の名前（たとえば楽曲のタイトル、映画のタイトル）またはメディア・データに関連付けられた他の任意の型の識別情報を含んでいてもよい。問い合わせ中の情報に基づいて、データベースに記憶されている一致したメディア状態メタデータが位置特定され、図１２Ｋの信号プロセッサに与えられてもよい。データベースからのメディア状態メタデータは、ビットストリーム・トランスコーダまたは符号化されたオーディオ・ビットストリーム・プロセッサのような下流の処理ノード／エンティティに与えられる処理状態メタデータに含められてもよい。追加的、任意的または代替的に、データベースに記憶されているメディア状態メタデータの一つまたは複数の部分が、セキュアな隠されたまたは隠されていない通信チャネルを介してメディア・サンプル（エッセンス）内および／またはメディア・サンプル（エッセンス）間で下流のメディア処理ノード／装置に通信されるよう、図１２Ｋの信号プロセッサに提供されてもよい。

図１２Ｌは、ある例示的な実施形態に基づく、信号プロセッサ・ノード１および信号プロセッサ・ノード２を示している。信号プロセッサ・ノード１および信号プロセッサ・ノード２は、全体的なメディア処理チェーンの一部であってもよい。いくつかの実施形態では、信号プロセッサ・ノード１は、信号プロセッサ・ノード２によって受領される処理状態メタデータに基づいてメディア処理を適応させる。一方、信号プロセッサ・ノード２は、信号プロセッサ・ノード２によって受領される処理状態メタデータに基づいてメディア処理を適応させる。信号プロセッサ・ノード２によって受領される前記処理状態メタデータは、信号プロセッサ・ノード１がメディア・データのコンテンツを解析したあとに信号プロセッサ・ノード１によって加えられる処理状態メタデータおよび／またはメディア状態メタデータを含んでいてもよい。結果として、信号プロセッサ・ノード２は、信号プロセッサ・ノード１によって以前に実行された解析の一部または全部を繰り返すことなく、メディア処理において信号プロセッサ・ノード１によって与えられるメタデータを直接利用できる。

７．実装機構――ハードウェアの概観
ある実施形態によれば、本稿に記載される技法は一つまたは複数の特殊目的コンピューティング装置によって実装される。特殊目的コンピューティング装置は、上記技法を実行するよう結線されていてもよいし、あるいは上記技法を実行するよう持続的にプログラムされている一つまたは複数の特定用途向け集積回路（ASIC: application-specific integrated circuit）またはフィールド・プログラム可能ゲート・アレイ（FPGA: field programmable gate array）のようなデジタル電子装置を含んでいてもよいし、あるいはファームウェア・メモリ、他の記憶装置またはそれらの組み合わせにおけるプログラム命令に従って上記技法を実行するようプログラムされた一つまたは複数の汎用ハードウェア・プロセッサを含んでいてもよい。そのような特殊目的コンピューティング装置は、上記技法を達成するために、カスタム結線論理、ASICまたはFPGAをカスタム・プログラミングと組み合わせてもよい。特殊目的コンピューティング装置は、デスクトップ・コンピュータ・システム、ポータブル・コンピュータ・システム、ハンドヘルド装置、ネットワーキング装置または上記技法を実装するための結線および／またはプログラム論理を組み込んでいる他の任意の装置でありうる。

たとえば、図１０は、本発明の実施形態が実装されうるコンピュータ・システム１０００を示すブロック図である。コンピュータ・システム１０００は、情報を通信するためのバス１００２または他の通信機構と、情報を処理するための、バス１００２に結合されたハードウェア・プロセッサ１００４とを含む。ハードウェア・プロセッサ１００４はたとえば、汎用マイクロプロセッサであってもよい。

コンピュータ・システム１０００は、情報およびプロセッサ１００４によって実行されるべき命令を記憶するための、ランダム・アクセス・メモリ（RAM）または他の動的記憶デバイスのような、バス１００２に結合された主メモリ１００６をも含む。主メモリ１００６は、プロセッサ１００４によって実行されるべき命令の実行の間、一時的な変数または他の中間的な情報を記憶するためにも使われてもよい。そのような命令は、プロセッサ１００４にとってアクセス可能な非一時的な記憶媒体に記憶されたとき、コンピュータ・システム１０００を、該命令において指定される動作を実行するようカスタマイズされた特殊目的機械にする。

コンピュータ・システム１０００は、静的な情報およびプロセッサ１００４のための命令を記憶するための、バス１００２に結合された、読み出し専用メモリ（ROM）１００８または他の静的記憶デバイスを含む。情報および命令を記憶するために、磁気ディスクまたは光ディスクのような記憶デバイス１０１０が設けられ、バス１００２に結合される。

コンピュータ・システム１０００はバス１００２を介して、コンピュータ・ユーザーに対して情報を表示するための、陰極線管（CRT）のようなディスプレイ１０１２に結合されてもよい。情報およびコマンド選択をプロセッサ１００４に伝えるために、英数字および他のキーを含む入力装置１０１４がバス１００２に結合される。もう一つの型のユーザー入力装置は、方向情報およびコマンド選択をプロセッサ１００４に伝えるためおよびディスプレイ１０１２上でのカーソル動きを制御するための、マウス、トラックボールまたはカーソル方向キーのようなカーソル・コントロール１０１６である。この入力装置は典型的には、該装置が平面内での位置を指定できるようにする、第一軸（たとえばｘ）および第二軸（たとえばｙ）の二つの軸における二つの自由度をもつ。

コンピュータ・システム１０００は、カスタマイズされた結線論理、一つまたは複数のASICまたはFPGA、ファームウェアおよび／またはプログラム論理を使って本稿に記載される技法を実装してもよい。それは、当該コンピュータ・システムと組み合わさってコンピュータ・システム１０００を特殊目的機械にするまたはプログラムする。ある実施形態によれば、本稿の技法は、プロセッサ１００４が主メモリ１００６に含まれる一つまたは複数の命令の一つまたは複数のシーケンスを実行するのに応答して、コンピュータ・システム１０００によって実行される。そのような命令は、記憶装置１０１０のような別の記憶媒体から主メモリ１００６に読み込まれてもよい。主メモリ１００６に含まれる命令のシーケンスの実行により、プロセッサ１００４は、本稿に記載されるプロセス・ステップを実行する。代替的な実施形態では、ソフトウェア命令の代わりにまたはソフトウェア命令と組み合わせて結線回路が使用されてもよい。

本稿で使うところの用語「記憶媒体」は、データおよび／または機械を特定の仕方で動作させる命令を記憶する任意の非一時的な媒体を指す。そのような記憶媒体は、不揮発性媒体および／または揮発性媒体を含みうる。不揮発性媒体は、たとえば、記憶装置１０１０のような光ディスクまたは磁気ディスクを含む。揮発性媒体は、主メモリ１００６のような動的メモリを含む。記憶媒体の一般的な形は、たとえば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、半導体ドライブ、磁気テープまたは他の任意の磁気データ記憶媒体、CD-ROM、他の任意の光学式データ記憶媒体、孔のパターンをもつ任意の物理的媒体、RAM、PROMおよびEPROM、フラッシュEPROM、NVRAM、他の任意のメモリ・チップまたはカートリッジを含む。

記憶媒体は、伝送媒体とは異なるが、伝送媒体との関連で使用されてもよい。伝送媒体は、記憶媒体間で情報を転送するのに参加する。たとえば、伝送媒体は、同軸ケーブル、導線および光ファイバーを含み、バス１００２をなすワイヤを含む。伝送媒体は、電波および赤外線データ通信の際に生成されるような、音響または光の波の形を取ることもできる。

さまざまな形の媒体が、一つまたは複数の命令の一つまたは複数のシーケンスを実行のためにプロセッサ１００４に搬送することに関わりうる。たとえば、命令は最初、リモート・コンピュータの磁気ディスクまたは半導体ドライブ上で担持されてもよい。リモート・コンピュータは該命令をその動的メモリ中にロードし、該命令をモデムを使って電話線を通じて送ることができる。コンピュータ・システム１０００にローカルなモデムが、電話線上のデータを受信し、赤外線送信器を使ってそのデータを赤外線信号に変換することができる。赤外線検出器が、赤外線信号中に担持されるデータを受信することができ、適切な回路がバス１００２上にデータを載せることができる。バス１００２はそのデータを主メモリ１００６に搬送し、主メモリ１００６からプロセッサ１００４がそれらの命令を取得し、実行する。主メモリ１００６によって受領される命令は、任意的に、プロセッサ１００４による実行前または実行後に記憶装置１０１０上に記憶されてもよい。

コンピュータ・システム１０００は、バス１００２に結合された通信インターフェース１０１８をも含む。通信インターフェース１０１８は、ローカル・ネットワーク１０２２に接続されているネットワーク・リンク１０２０への双方向データ通信結合を提供する。たとえば、通信インターフェース１０１８は、対応する型の電話線へのデータ通信接続を提供するための、統合サービス・デジタル通信網（ISDN: integrated services digital network）カード、ケーブル・モデム、衛星モデムまたはモデムであってもよい。もう一つの例として、通信インターフェース１０１８は、互換なLANへのデータ通信接続を提供するための、ローカル・エリア・ネットワーク（LAN）カードであってもよい。無線リンクが実装されてもよい。そのようないかなる実装においても、通信インターフェース１０１８は、さまざまな型の情報を表すデジタル・データ・ストリームを搬送する電気、電磁または光信号を送受信する。

ネットワーク・リンク１０２０は典型的には、他のデータ装置への一つまたは複数のネットワークを通じてのデータ通信を提供する。たとえば、ネットワーク・リンク１０２０は、ホスト・コンピュータ１０２４へのまたはインターネット・サービス・プロバイダー（ISP）１０２６によって運営されているデータ設備へのローカル・ネットワーク１０２２を通じた接続を提供してもよい。ISP １０２６は、現在一般に「インターネット」１０２８と称されている世界規模のパケット・データ通信網を通じてデータ通信サービスを提供する。ローカル・ネットワーク１０２２およびインターネット１０２８はいずれも、デジタル・データ・ストリームを搬送する電気、電磁または光信号を使う。さまざまなネットワークを通じた信号および、コンピュータ・システム１０００との間でデジタル・データを搬送する、ネットワーク・リンク１０２０上および通信インターフェース１０１８を通じた信号は、伝送媒体の例示的な形である。

コンピュータ・システム１０００は、ネットワーク（単数または複数）、ネットワーク・リンク１０２０および通信インターフェース１０１８を通じて、メッセージを送り、プログラム・コードを含むデータを受信することができる。インターネットの例では、サーバー１０３０はインターネット１０２８、ISP １０２６、ローカル・ネットワーク１０２２および通信インターフェース１０１８を通じてアプリケーション・プログラムのための要求されたコードを伝送してもよい。

受信されたコードはプロセッサ１００４によって、受領される際に実行されてもよく、および／またはのちの実行のために記憶装置１０１０または他の不揮発性記憶装置に記憶されてもよい。

８．付番実施例
よって、本発明の実施形態は、下記の付番実施例の一つまたは複数に関係することがありうる。各付番実施例は例であり、上記で与えた他の任意の関係する議論と同様、現状の記載であれのちに補正、差し替えまたは追加されたものであれいかなる請求項をも限定するものと解釈すべきではない。同様に、これらの例は、いかなる関係した特許および／または特許出願（外国または国際的な対応出願および／または特許、分割、継続出願、再発行などを含む）のいかなる請求項に関しても限定するものと考えられるべきではない。
〔付番実施例１〕
メディア処理チェーン内の第一の装置によって、メディア・データの出力バージョンに対してある型のメディア処理が実行されているかどうかを判定する段階と；前記第一の装置の装置によって、前記メディア・データの出力バージョンに対して前記型のメディア処理が実行されていると判定するのに応答して：（ａ）前記第一の装置によって、前記メディア・データの出力バージョンに対して実行されたメディア処理の型を指定する、メディア・データの状態を生成し、（ｂ）前記第一の装置から前記メディア処理チェーン内の下流の第二の装置に、前記メディア・データの出力バージョンと、前記メディア・データの状態とを通信することを実行する段階とを含む、方法。
〔付番実施例２〕
前記メタデータが：オーディオ・コンテンツのみ、ビデオ・コンテンツのみまたはオーディオ・コンテンツとビデオ・コンテンツの両方のうちの一つまたは複数としてメディア・コンテンツを含む、付番実施例１記載の方法。
〔付番実施例３〕
前記第二の装置に、前記メディア・データの状態を：（ａ）メディア・フィンガープリント、（ｂ）処理状態メタデータ、（ｃ）抽出されたメディア特徴値、（ｄ）メディア・クラス・タイプもしくはサブタイプの記述および／または値、（ｅ）メディア特徴クラスおよび／またはサブクラス確率値、（ｆ）暗号学的ハッシュ値または（ｆ）メディア処理信号のうちの一つまたは複数として提供することをさらに含む、付番実施例１記載の方法。
〔付番実施例４〕
付番実施例１記載の方法であって、メディア処理データベースにおいてメディア処理データ・ブロックを記憶する段階をさらに含み、前記メディア処理データ・ブロックはメディア処理メタデータを含み、前記メディア処理データ・ブロックは、前記メディア処理データ・ブロックに関連付けられた一つまたは複数のメディア・フィンガープリントに基づいて取得可能である、方法。
〔付番実施例５〕
付番実施例１記載の方法であって、前記メディア・データの状態が、クレデンシャル情報を用いて暗号化された暗号学的ハッシュ値を含み、前記暗号学的ハッシュ値は受け手装置によって認証されるものである、方法。
〔付番実施例６〕
付番実施例１記載の方法であって、前記メディア・データの状態の少なくとも一部は、前記メディア・データ中に隠されている一つまたは複数のセキュア通信チャネルを含み、前記一つまたは複数のセキュア通信チャネルは受け手装置によって認証されるものである、方法。
〔付番実施例７〕
付番実施例６記載の方法であって、前記一つまたは複数のセキュア通信チャネルは、少なくとも一つのスペクトラム拡散セキュア通信チャネルを含む、方法。
〔付番実施例８〕
付番実施例６記載の方法であって、前記一つまたは複数のセキュア通信チャネルは、少なくとも一つの周波数シフト符号化（frequency shift keying）セキュア通信チャネルを含む、方法。
〔付番実施例９〕
付番実施例１記載の方法であって、前記メディア・データの状態は、出力メディア・ビットストリームにおいて前記メディア・データの出力バージョンと一緒に搬送される、方法。
〔付番実施例１０〕
付番実施例１記載の方法であって、前記メディア・データの状態は、前記メディア・データの出力バージョンを搬送する別個のメディア・ビットストリームに関連する補助メタデータ・ビットストリームにおいて搬送される、方法。
〔付番実施例１１〕
前記メディア・データの状態は、前記型のメディア処理に関係するパラメータの一つまたは複数のセットを含む、付番実施例１記載の方法。
〔付番実施例１２〕
前記第一の装置または前記第二の装置の少なくとも一方は：前処理ユニット、エンコーダ、メディア処理サブユニット、トランスコーダ、デコーダ、後処理ユニットまたはメディア・コンテンツ・レンダリング・サブユニットのうちの一つまたは複数を含む、付番実施例１記載の方法。
〔付番実施例１３〕
前記第一の装置はエンコーダであり、前記第二の装置はデコーダである、付番実施例１記載の方法。
〔付番実施例１４〕
前記第一の装置によって、前記型のメディア処理を実行する段階をさらに含む、付番実施例１記載の方法。
〔付番実施例１５〕
前記型のメディア処理は、前記メディア処理チェーンにおいて前記第一の装置に対して上流の装置によって実行されており、当該方法がさらに：
前記第一の装置によって、前記メディア・データの入力バージョンを受け取る段階であって、前記メディア・データの入力バージョンは、前記型のメディア処理を示す、前記メディア・データの任意の状態を含む、段階と；
前記メディア・データの入力バージョンを解析して、前記メディア・データの入力バージョンに対してすでに実行されているメディア処理の型を判別する段階を含む、
付番実施例１記載の方法。
〔付番実施例１６〕
前記メディア・データの状態において、ラウドネスおよびダイナミックレンジ値をエンコードする段階をさらに含む、付番実施例１記載の方法。
〔付番実施例１７〕
前記型のメディア処理は、前記メディア処理チェーンにおいて前記第一の装置に対して上流の装置によって以前に実行されており、当該方法がさらに：
前記第一の装置によって、以前に実行された前記型のメディア処理をオーバーライドするコマンドを受け取る段階と；
前記第一の装置によって、前記型のメディア処理を実行する段階と；
前記第一の装置から前記メディア処理チェーン内で下流の第二の装置に、前記メディア・データの出力バージョンと、前記メディア・データの出力バージョンにおいて前記型のメディア処理がすでに実行されていることを示すメディア・データの状態と通信する段階とを含む、
付番実施例１記載の方法。
〔付番実施例１８〕
（ａ）ユーザー入力、（ｂ）前記第一の装置のシステム構成設定、（ｃ）前記第一の装置の外部の装置からの信号伝達または（ｄ）前記第一の装置内のサブユニットからの信号伝達のうちの一つから前記コマンドを受け取ることをさらに含む、付番実施例１７記載の方法。
〔付番実施例１９〕
前記第一の装置から前記メディア処理チェーン内の下流の前記第二の装置に、前記メタデータの状態とは独立なメタデータの一つまたは複数の型を通信する段階をさらに含む、付番実施例１記載の方法。
〔付番実施例２０〕
前記メディア・データの状態は、一つまたは複数のセキュア通信チャネルにおいて隠されている状態メタデータの少なくとも一部を含む、付番実施例１記載の方法。
〔付番実施例２１〕
前記メディア・データの状態の少なくとも一部を記憶するよう前記メディア・データ中の複数のバイトを変更する段階をさらに含む、付番実施例１記載の方法。
〔付番実施例２２〕
前記第一の装置および前記第二の装置の少なくとも一方は、先進テレビジョン・システムズ委員会（ATSC）コーデック、動画像専門家グループ（MPEG）コーデック、オーディオ・コーデック３（AC-3）コーデックおよびエンハンストAC-3コーデックのうちの一つまたは複数を含む、付番実施例１記載の方法。
〔付番実施例２３〕
前記メディア処理チェーンは：
メディア・コンテンツを含む時間領域サンプルを入力として受け入れ、処理された時間領域サンプルを出力するよう構成された前処理ユニットと；
前記処理された時間領域サンプルに基づいて前記メディア・コンテンツの圧縮されたメディア・ビットストリームを出力するよう構成されたエンコーダと；
前記圧縮されたメディア・ビットストリーム内の処理状態メタデータを検証するよう構成された信号解析およびメタデータ訂正ユニットと；
前記圧縮されたメディア・ビットストリームを修正するよう構成されたトランスコーダと；
前記圧縮されたメディア・ビットストリームに基づいてデコードされた時間領域サンプルを出力するよう構成されたデコーダと；
前記デコードされた時間領域サンプル内の前記メディア・コンテンツの後処理を実行するよう構成された後処理ユニットとを有する、
付番実施例１記載の方法。
〔付番実施例２４〕
前記第一の装置および前記第二の装置の少なくとも一方は、前記前処理ユニット、前記信号解析およびメタデータ訂正ユニット、前記トランスコーダ、前記デコーダおよび前記後処理ユニットのうちの少なくとも一つを含む、付番実施例２３記載の方法。
〔付番実施例２５〕
前記前処理ユニット、前記信号解析およびメタデータ訂正ユニット、前記トランスコーダ、前記デコーダおよび前記後処理ユニットのうちの少なくとも一つは、上流の装置から受領される処理メタデータに基づいて前記メディア・コンテンツの適応的な処理を実行する、付番実施例２３記載の方法。
〔付番実施例２６〕
前記メディア・データから一つまたは複数のメディア特徴を決定する段階と；
前記メディア・データの状態中に、前記一つまたは複数のメディア特徴の記述を含める段階とをさらに含む、
付番実施例１記載の方法。
〔付番実施例２７〕
前記一つまたは複数のメディア特徴は、フレーム、秒、分、ユーザー定義可能な時間区間、シーン、歌、音楽片およびレコーディングのうちの一つまたは複数から決定された少なくとも一つのメディア特徴を含む、付番実施例２６記載の方法。
〔付番実施例２８〕
前記一つまたは複数のメディア特徴は前記メディア・データの意味的記述を含む、付番実施例２６記載の方法。
〔付番実施例２９〕
前記一つまたは複数のメディア特徴は、構造的属性、和声およびメロディーを含む音質、音色、リズム、ラウドネス、ステレオ・ミックス、メディア・データの音源の量、声の不在もしくは存在、反復特性、メロディー、和声、歌詞、音色、知覚的特徴、デジタル・メディア特徴、ステレオ・パラメータ、発話コンテンツの一つまたは複数の部分のうちの一つまたは複数を含む、付番実施例２６記載の方法。
〔付番実施例３０〕
前記一つまたは複数のメディア特徴を使って、前記メディア・データを複数のメディア・データ・クラス中の一つまたは複数のメディア・データ・クラスに分類することをさらに含む、付番実施例２６記載の方法。
〔付番実施例３１〕
前記一つまたは複数のメディア・データ・クラスが、メディア全体についての単一の全体的な／支配的なメディア・データ・クラスまたはメディア全体より短い時間期間を表す単一のクラスを含む、付番実施例３０記載の方法。
〔付番実施例３２〕
前記より短い時間期間が、単一のメディア・フレーム、単一のメディア・データ・ブロック、複数のメディア・フレーム、複数のメディア・データ・ブロック、一秒の一部、一秒または複数秒を表す、付番実施例３１記載の方法。
〔付番実施例３３〕
前記一つまたは複数のメディア・データ・クラスを表す一つまたは複数のメディア・データ・クラス・ラベルが計算され、ビットストリーム中に挿入される、付番実施例３０記載の方法。
〔付番実施例３４〕
前記一つまたは複数のメディア・データ・クラスを表す一つまたは複数のメディア・データ・クラス・ラベルが計算され、前記メディア・データに埋め込まれた隠しデータとして受け手メディア処理ノードに信号伝達される、付番実施例３０記載の方法。
〔付番実施例３５〕
前記一つまたは複数のメディア・データ・クラスを表す一つまたは複数のメディア・データ・クラス・ラベルが計算され、前記メディア・データのブロック間の別個のメタデータ構造において受け手メディア処理ノードに信号伝達される、付番実施例３０記載の方法。
〔付番実施例３６〕
前記単一の全体的な／支配的なメディア・データ・クラスが、音楽、発話、雑音、静寂、喝采といった単一クラス・タイプまたは音楽にかぶさる発話、雑音にかぶさる会話もしくはメディア・データ・タイプの他の混合といった混合クラス・タイプの一つまたは複数を表す、付番実施例３１記載の方法。
〔付番実施例３７〕
前記一つまたは複数のメディア・データ・クラス・ラベルに一つまたは複数の確からしさまたは確率値を関連付ける段階をさらに含んでおり、確からしさまたは確率値は、計算されたメディア・クラス・ラベルが、該計算されたメディア・クラス・ラベルが関連付けられているメディア・セグメント／ブロックに対してもつ信頼度のレベルを表す、付番実施例３０記載の方法。
〔付番実施例３８〕
前記確からしさまたは確率値が、アップミキシング、エンコード、デコード、トランスコードまたはヘッドホン仮想化といった一つまたは複数の動作を改善するよう処理を適応させるために前記メディア処理チェーン内の受け手メディア処理ノードによって使用される、付番実施例３７記載の方法。
〔付番実施例３９〕
前記一つまたは複数の動作のうちの少なくとも一つが、受け手メディア処理ノードによるメディア・データを分類する複雑な解析動作が回避されるために、事前設定処理パラメータの必要性をなくす、前記メディア・チェーンを通じた処理ユニットの複雑さを低下させるまたはバッテリー寿命を延ばす、付番実施例３８記載の方法。
〔付番実施例４０〕
メディア処理チェーン内の第一の装置によって、メディア・データの入力バージョンに対してある型のメディア処理がすでに実行されているかどうかを判定する段階と；
前記第一の装置によって前記メディア・データの前記入力バージョンに対して前記型のメディア処理がすでに実行されていると判定するのに応答して、前記第一の装置における前記型のメディア処理の実行を無効にするよう前記メディア・データの処理の適応を実行する段階とを含む、
方法。
〔付番実施例４１〕
前記第一の装置から前記メディア処理チェーン内の下流の第二の装置に、前記メディア・データの出力バージョンと、前記メディア・データの前記出力バージョンにおいて前記型のメディア処理がすでに実行されていることを示す前記メディア・データの状態とを通信する段階をさらに含む、付番実施例４０記載の方法。
〔付番実施例４２〕
メディア・データの状態において、ラウドネスおよびダイナミックレンジ値をエンコードする段階をさらに含む、付番実施例４１記載の方法。
〔付番実施例４３〕
前記第一の装置によって、前記メディア・データに対して前記型のメディア処理とは異なる第二の型のメディア処理を実行する段階と；
前記第一の装置から前記メディア処理チェーン内の下流の第二の装置に、前記メディア・データの出力バージョンと、前記メディア・データの前記出力バージョンにおいて前記第二の型のメディア処理がすでに実行されていることを示す前記メディア・データの状態とを通信する段階をさらに含む、
付番実施例４０記載の方法。
〔付番実施例４４〕
前記メディア・データの前記入力バージョンに対して前記型の処理がすでに実行されているかどうかに少なくとも部分的に基づいて、是正的なラウドネスまたはダイナミクス・オーディオ処理を適応させることの一つまたは複数を自動的に実行する段階をさらに含む、付番実施例４０記載の方法。
〔付番実施例４５〕
メディア・コンテンツをエンコードする前記メディア・データ中のデータ・ユニットから前記メディア・データの入力状態を抽出する段階をさらに含む、付番実施例４０記載の方法。
〔付番実施例４６〕
前記データ・ユニットの、前記メディア・データの前記入力状態を含まないバージョンを復元し、復元されたデータ・ユニットのバージョンに基づいて前記メディア・コンテンツをレンダリングする段階をさらに含む、付番実施例４５記載の方法。
〔付番実施例４７〕
前記メディア・データの前記入力バージョンに関連付けられた、前記メディア・データの入力状態を取得する段階をさらに含む、付番実施例４６記載の方法。
〔付番実施例４８〕
前記メディア・データの前記入力状態に関連付けられた暗号学的ハッシュ値を検証することによって、前記メディア・データの前記入力状態を認証する段階をさらに含む、付番実施例４７記載の方法。
〔付番実施例４９〕
前記メディア・データの前記入力状態に関連付けられた一つまたは複数のフィンガープリントを検証することによって、メディア・データの前記入力状態を認証する段階をさらに含み、前記一つまたは複数のフィンガープリントの少なくとも一つは、前記メディア・データの少なくとも一部分に基づいて生成されている、付番実施例４７記載の方法。
〔付番実施例５０〕
前記メディア・データの前記入力状態に関連付けられた一つまたは複数のフィンガープリントを検証することによって、前記メディア・データを検証する段階をさらに含む、付番実施例４７記載の方法。
〔付番実施例５１〕
前記メディア・データの前記入力状態は、入力メディア・ビットストリームにおいて前記メディア・データの前記入力バージョンとともに搬送される、付番実施例４７記載の方法。
〔付番実施例５２〕
前記メディア・データの前記入力状態に基づいて一つまたは複数の型のメディア処理をオフにする段階をさらに含む、付番実施例４７記載の方法。
〔付番実施例５３〕
前記メディア・データの前記入力状態が、処理状態メタデータをもって記述され、当該方法がさらに：
少なくとも部分的には前記処理状態メタデータに基づいて、前記メディア・データの前記入力状態を示すメディア処理信号を生成する段階と；
前記メディア処理信号を、前記メディア処理チェーンにおいて前記第一の装置の下流にあるメディア処理装置に送信する段階とをさらに含む、
付番実施例４７記載の方法。
〔付番実施例５４〕
前記メディア処理信号は、前記メディア・データの出力バージョン中の一つまたは複数のデータ・ユニットに隠される、付番実施例５３記載の方法。
〔付番実施例５５〕
前記メディア処理信号の伝達は、前記メディア・データに対する一つまたは複数の修正が受け手装置によって除去できるよう可逆的なデータ隠し技法を使って実行される、付番実施例５４記載の方法。
〔付番実施例５６〕
前記メディア処理信号の伝達は、前記メディア・データに対する一つまたは複数の修正のうち少なくとも一つが受け手装置によって除去できないような不可逆的なデータ隠し技法を使って実行される、付番実施例５４記載の方法。
〔付番実施例５７〕
前記メディア・データに対して実行された任意の過去のメディア処理とは独立な、メタデータの一つまたは複数の型を、前記メディア処理チェーンにおける上流の装置から受信する段階をさらに含む、付番実施例４６記載の方法。
〔付番実施例５８〕
前記メディア・データの状態が、一つまたは複数のセキュアな通信チャネルに隠された状態メタデータの少なくとも一部分を含む、付番実施例４７記載の方法。
〔付番実施例５９〕
前記メディア・データの状態の少なくとも一部を記憶するよう前記メディア・データの複数のバイトを変更する段階をさらに含む、付番実施例４６記載の方法。
〔付番実施例６０〕
前記第一の装置は、先進テレビジョン・システムズ委員会（ATSC）コーデック、動画像専門家グループ（MPEG）コーデック、オーディオ・コーデック３（AC-3）コーデックおよびエンハンストAC-3コーデックのうちの一つまたは複数を含む、付番実施例４６記載の方法。
〔付番実施例６１〕
前記メディア処理チェーンは：
メディア・コンテンツを含む時間領域サンプルを入力として受け入れ、処理された時間領域サンプルを出力するよう構成された前処理ユニットと；
前記処理された時間領域サンプルに基づいて前記メディア・コンテンツの圧縮されたメディア・ビットストリームを出力するよう構成されたエンコーダと；
前記圧縮されたメディア・ビットストリーム内の処理状態メタデータを検証するよう構成された信号解析およびメタデータ訂正ユニットと；
前記圧縮されたメディア・ビットストリームを修正するよう構成されたトランスコーダと；
前記圧縮されたメディア・ビットストリームに基づいてデコードされた時間領域サンプルを出力するよう構成されたデコーダと；
前記デコードされた時間領域サンプル内の前記メディア・コンテンツの後処理を実行するよう構成された後処理ユニットとを有する、
付番実施例４６記載の方法。
〔付番実施例６２〕
前記第一の装置は、前記前処理ユニット、前記信号解析およびメタデータ訂正ユニット、前記トランスコーダ、前記デコーダおよび前記後処理ユニットのうちの一つまたは複数を含む、付番実施例６１記載の方法。
〔付番実施例６３〕
前記前処理ユニット、前記信号解析およびメタデータ訂正ユニット、前記トランスコーダ、前記デコーダおよび前記後処理ユニットのうちの少なくとも一つは、上流の装置から受領される処理メタデータに基づいて前記メディア・コンテンツの適応的な処理を実行する、付番実施例６１記載の方法。
〔付番実施例６４〕
メディア・データの前記状態中の前記一つまたは複数のメディア特徴の記述に基づいて、一つまたは複数のメディア特徴を判別する段階をさらに含む、付番実施例４７記載の方法。
〔付番実施例６５〕
前記一つまたは複数のメディア特徴は、フレーム、秒、分、ユーザー定義可能な時間区間、シーン、歌、音楽片およびレコーディングのうちの一つまたは複数から決定された少なくとも一つのメディア特徴を含む、付番実施例６４記載の方法。
〔付番実施例６６〕
前記一つまたは複数のメディア特徴は前記メディア・データの意味的記述を含む、付番実施例６４記載の方法。
〔付番実施例６７〕
前記一つまたは複数のメディア特徴を判別することに応答して、一つまたは複数の特定の動作を実行する段階をさらに含む、付番実施例６４記載の方法。
〔付番実施例６８〕
前記メディア処理チェーン内の前記第二の装置に、前記メディア・データの状態を：（ａ）メディア・フィンガープリント、（ｂ）処理状態メタデータ、（ｃ）抽出されたメディア特徴値、（ｄ）メディア・クラス・タイプもしくはサブタイプの記述および／または値、（ｅ）メディア特徴クラスおよび／またはサブクラス確率値、（ｆ）暗号学的ハッシュ値または（ｆ）メディア処理信号のうちの一つまたは複数として提供することをさらに含む、付番実施例４３記載の方法。
〔付番実施例６９〕
メディア処理チェーン中の第一の装置により、メディア・データの源フレームの一つまたは複数のデータ・レート削減表現を計算する段階と；
前記一つまたは複数のデータ・レート削減表現を、前記メディア・データ自身の状態内で、前記メディア処理チェーン中の第二の装置に、同時かつセキュアに搬送する段階とを含み、
一つまたは複数のコンピューティング装置によって実行される方法。
〔付番実施例７０〕
前記一つまたは複数のデータ・レート削減表現は、サブストリーム、一つまたは複数のリザーブされたフィールド、add_bsiフィールド、一つまたは複数の補助データ・フィールドまたは一つまたは複数の変換係数のうちの少なくとも一つにおいて担持される，付番実施例６９記載の方法。
〔付番実施例７１〕
前記一つまたは複数のデータ・レート削減表現は、前記メディア・データ内で送達されるオーディオおよびビデオを同期させるために使われる同期データを含む、付番実施例６９記載の方法。
〔付番実施例７２〕
前記一つまたは複数のデータ・レート削減表現は、（ａ）メディア処理ユニットによって生成され、（ｂ）品質モニタリング、メディア格付け、メディア追跡またはコンテンツ検索のうちの一つまたは複数のために前記メディア・データに埋め込まれた、メディア・フィンガープリントを含む、付番実施例６９記載の方法。
〔付番実施例７３〕
前記一つまたは複数のデータ・レート削減表現は、一つまたは複数のセキュアな通信チャネルに隠された状態メタデータの少なくとも一部を含む、付番実施例６９記載の方法。
〔付番実施例７４〕
前記一つまたは複数のデータ・レート削減表現うちの一つの少なくとも一部を記憶するよう前記メディア・データの複数のバイトを変更する段階をさらに含む、付番実施例６９記載の方法。
〔付番実施例７５〕
前記第一の装置および前記第二の装置の少なくとも一方は、先進テレビジョン・システムズ委員会（ATSC）コーデック、動画像専門家グループ（MPEG）コーデック、オーディオ・コーデック３（AC-3）コーデックおよびエンハンストAC-3コーデックのうちの一つまたは複数を含む、付番実施例６９記載の方法。
〔付番実施例７６〕
前記メディア処理チェーンは：
メディア・コンテンツを含む時間領域サンプルを入力として受け入れ、処理された時間領域サンプルを出力するよう構成された前処理ユニットと；
前記処理された時間領域サンプルに基づいて前記メディア・コンテンツの圧縮されたメディア・ビットストリームを出力するよう構成されたエンコーダと；
前記圧縮されたメディア・ビットストリーム内の処理状態メタデータを検証するよう構成された信号解析およびメタデータ訂正ユニットと；
前記圧縮されたメディア・ビットストリームを修正するよう構成されたトランスコーダと；
前記圧縮されたメディア・ビットストリームに基づいてデコードされた時間領域サンプルを出力するよう構成されたデコーダと；
前記デコードされた時間領域サンプル内の前記メディア・コンテンツの後処理を実行するよう構成された後処理ユニットとを有する、
付番実施例６９記載の方法。
〔付番実施例７７〕
前記第一の装置および前記第二の装置の少なくとも一方は、前記前処理ユニット、前記信号解析およびメタデータ訂正ユニット、前記トランスコーダ、前記デコーダおよび前記後処理ユニットのうちの一つまたは複数を含む、付番実施例７６記載の方法。
〔付番実施例７８〕
前記前処理ユニット、前記信号解析およびメタデータ訂正ユニット、前記トランスコーダ、前記デコーダおよび前記後処理ユニットのうちの少なくとも一つは、上流の装置から受領される処理メタデータに基づいて前記メディア・コンテンツの適応的な処理を実行する、付番実施例７６記載の方法。
〔付番実施例７９〕
前記第二の装置に前記メディア・データの状態を：（ａ）メディア・フィンガープリント、（ｂ）処理状態メタデータ、（ｃ）抽出されたメディア特徴値、（ｄ）メディア・クラス・タイプもしくはサブタイプの記述および／または値、（ｅ）メディア特徴クラスおよび／またはサブクラス確率値、（ｆ）暗号学的ハッシュ値または（ｆ）メディア処理信号のうちの一つまたは複数として提供することをさらに含む、付番実施例６９記載の方法。
〔付番実施例８０〕
音響心理学的ユニット、変換、波形／空間オーディオ符号化ユニット、エンコーダ、デコーダ、トランスコーダまたはストリーム・プロセッサのうちの一つまたは複数を含むメディア処理チェーン中の一つまたは複数のコンピューティング装置により、メディア・データの状態によって示される一つまたは複数の上流のメディア処理ユニットによるメディア・データのラウドネス処理の過去の履歴に基づいて、メディア・データの入力バージョンを適応的に処理する段階と；
前記メディア処理チェーンの末尾における前記メディア・データの出力バージョンのラウドネスおよび／またはダイナミックレンジを、一貫するラウドネスおよび／またはダイナミックレンジ値に正規化する段階とを含む、
方法。
〔付番実施例８１〕
前記一貫するラウドネス値は、（１）ユーザーによって制御または選択されるまたは（２）前記メディア・データの前記入力バージョン内の状態によって適応的に信号伝達されるラウドネス値を含む、付番実施例８０記載の方法。
〔付番実施例８２〕
前記ラウドネス値は、前記メディア・データのダイアログ（発話）部分に対して計算される、付番実施例８０記載の方法。
〔付番実施例８３〕
前記ラウドネス値は、前記メディア・データの絶対的な、相対的なおよび／またはゲートされていない部分に対して計算される、付番実施例８０記載の方法。
〔付番実施例８４〕
前記一貫するダイナミックレンジ値は、（１）ユーザーによって制御または選択されるまたは（２）前記メディア・データの前記入力バージョン内の状態によって適応的に信号伝達されるダイナミックレンジ値を含む、付番実施例８０記載の方法。
〔付番実施例８５〕
前記ダイナミックレンジ値は、前記メディア・データのダイアログ（発話）部分に対して計算される、付番実施例８４記載の方法。
〔付番実施例８６〕
前記ダイナミックレンジ値は、前記メディア・データの絶対的な、相対的なおよび／またはゲートされていない部分に対して計算される、付番実施例８４記載の方法。
〔付番実施例８７〕
前記メディア・データの前記出力バージョンを一貫するラウドネス値および一貫するダイナミックレンジに正規化するための一つまたは複数のラウドネスおよび／またはダイナミックレンジ利得制御値を計算する段階と；
前記一つまたは複数のラウドネスおよび／またはダイナミックレンジ利得制御値を、前記メディア処理チェーンの末尾における前記メディア・データの前記出力バージョンの状態内で同時に搬送する段階とをさらに含み、前記一つまたは複数のラウドネスおよび／またはダイナミックレンジ利得制御値は、前記メディア・データの前記入力バージョンにおけるもとのラウドネス値およびもとのダイナミックレンジを復元するために前記一つまたは複数のラウドネスおよび／またはダイナミックレンジ利得制御値を逆適用するために別の装置によって使用可能である、
付番実施例８０記載の方法。
〔付番実施例８８〕
前記メディア・データの前記出力バージョンの状態を表す前記一つまたは複数のラウドネスおよび／またはダイナミックレンジ制御値は、サブストリーム、一つまたは複数のリザーブされたフィールド、add_bsiフィールド、一つまたは複数の補助データ・フィールドまたは一つまたは複数の変換係数のうちの少なくとも一つにおいて担持される、付番実施例８７記載の方法。
〔付番実施例８９〕
前記メディア処理チェーン内の前記一つまたは複数のコンピューティング装置のうちの少なくとも一つによって、前記メディア・データおよび／または前記メディア・データの状態に基づいて暗号学的ハッシュ値を計算し、前記メディア・データを搬送する一つまたは複数のエンコードされたビットストリーム内で送信する段階をさらに含む、付番実施例８０記載の方法。
〔付番実施例９０〕
受け手装置によって、前記暗号学的ハッシュ値を認証する段階と；
前記受け手装置によって一つまたは複数の下流のメディア処理ユニットに、前記メディア・データの状態が有効であるかどうかの判定を信号伝達する段階と；
前記受け手装置によって前記一つまたは複数の下流のメディア処理ユニットに、前記メディア・データの状態が有効であると判定するのに応答して、前記メディア・データの状態を信号伝達する段階とをさらに含む、
付番実施例８０記載の方法。
〔付番実施例９１〕
前記メディアの状態および／または前記メディア・データを表す前記暗号学的ハッシュ値が、サブストリーム、一つまたは複数のリザーブされたフィールド、add_bsiフィールド、一つまたは複数の補助データ・フィールドまたは一つまたは複数の変換係数のうちの少なくとも一つにおいて担持される、付番実施例８９記載の方法。
〔付番実施例９２〕
前記メディア・データの前記状態が：（ａ）メディア・フィンガープリント、（ｂ）処理状態メタデータ、（ｃ）抽出されたメディア特徴値、（ｄ）メディア・クラス・タイプもしくはサブタイプの記述および／または値、（ｅ）メディア特徴クラスおよび／またはサブクラス確率値、（ｆ）暗号学的ハッシュ値または（ｆ）メディア処理信号のうちの一つまたは複数を含む、付番実施例８０記載の方法。
〔付番実施例９３〕
音響心理学的ユニット、変換、波形／空間オーディオ符号化ユニット、エンコーダ、デコーダ、トランスコーダまたはストリーム・プロセッサのうちの一つまたは複数を含むメディア処理チェーン中の一つまたは複数のコンピューティング装置によって、一つまたは複数のエンコードされたビットストリーム中の、関係するおよび関係しないメディア・データ位置および／または関係するおよび関係しないメディア・データ位置の状態の挿入、抽出または編集のうちの一つを実行する段階を含む、方法。
〔付番実施例９４〕
エンコードされたビットストリーム中の、前記一つまたは複数の関係するおよび関係しないメディア・データ位置および／または関係するおよび関係しないメディア・データ位置の状態は、サブストリーム、一つまたは複数のリザーブされたフィールド、add_bsiフィールド、一つまたは複数の補助データ・フィールドまたは一つまたは複数の変換係数のうちの少なくとも一つにおいて担持される、付番実施例９３記載の方法。
〔付番実施例９５〕
音響心理学的ユニット、変換、波形／空間オーディオ符号化ユニット、エンコーダ、デコーダ、トランスコーダまたはストリーム・プロセッサのうちの一つまたは複数を含むメディア処理チェーン中の一つまたは複数のコンピューティング装置によって、一つまたは複数のエンコードされたビットストリーム中の、関係するおよび関係しないメディア・データおよび／または関係するおよび関係しないメディア・データの状態の挿入、抽出または編集のうちの一つまたは複数を実行する段階を含む、方法。
〔付番実施例９６〕
エンコードされたビットストリーム中の、前記一つまたは複数の関係するおよび関係しないメディア・データおよび／または関係するおよび関係しないメディア・データの状態は、サブストリーム、一つまたは複数のリザーブされたフィールド、add_bsiフィールド、一つまたは複数の補助データ・フィールドまたは一つまたは複数の変換係数のうちの少なくとも一つにおいて担持される、付番実施例９５記載の方法。
〔付番実施例９７〕
上流のメディア処理装置から下流のメディア処理装置に、前記メディア・データの状態を：（ａ）メディア・フィンガープリント、（ｂ）処理状態メタデータ、（ｃ）抽出されたメディア特徴値、（ｄ）メディア・クラス・タイプもしくはサブタイプの記述および／または値、（ｅ）メディア特徴クラスおよび／またはサブクラス確率値、（ｆ）暗号学的ハッシュ値または（ｆ）メディア処理信号のうちの一つまたは複数として提供する段階をさらに含む、付番実施例９３記載の方法。
〔付番実施例９８〕
音響心理学的ユニット、変換、波形／空間オーディオ符号化ユニット、エンコーダ、デコーダ、トランスコーダまたはストリーム・プロセッサのうちの一つまたは複数を含むメディア処理チェーン中の一つまたは複数のコンピューティング装置によって、メディア・データおよび／またはメディア・データの状態に基づく暗号学的ハッシュ値を計算し、一つまたは複数のエンコードされたビットストリーム中で搬送するよう構成されたメディア処理システムが提供される。
〔付番実施例９９〕
前記メディア・データの前記状態が：（ａ）メディア・フィンガープリント、（ｂ）処理状態メタデータ、（ｃ）抽出されたメディア特徴値、（ｄ）メディア・クラス・タイプもしくはサブタイプの記述および／または値、（ｅ）メディア特徴クラスおよび／またはサブクラス確率値、（ｆ）暗号学的ハッシュ値または（ｆ）メディア処理信号のうちの一つまたは複数を含む、付番実施例９８記載のシステム。
〔付番実施例１００〕
一つまたは複数のセキュアな通信チャネルから受領されるメディア・データの状態に基づいて該メディア・データを適応的に処理するよう構成されたメディア処理システム。
〔付番実施例１０１〕
一つまたは複数の処理ノードを含む、付番実施例１００記載のメディア処理システムであって、前記処理ノードは、メディア送達システム、メディア配送システムおよびメディア・レンダリング・システムを含む、メディア処理システム。
〔付番実施例１０２〕
前記一つまたは複数のセキュアな通信チャネルが、圧縮／符号化されたビットストリームおよびPCM処理ノードの二つ以上を横断する少なくとも一つのセキュアな通信チャネルを含む、付番実施例１０１記載のメディア処理システム。
〔付番実施例１０３〕
前記一つまたは複数のセキュアな通信チャネルが、二つの別個のメディア処理装置にまたがる少なくとも一つのセキュアな通信チャネルを含む、付番実施例１０１記載のメディア処理システム。
〔付番実施例１０４〕
前記一つまたは複数のセキュアな通信チャネルが、単一のメディア処理装置内の二つのメディア処理ノードにまたがる少なくとも一つのセキュアな通信チャネルを含む、付番実施例１０１記載のメディア処理システム。
〔付番実施例１０５〕
付番実施例１００記載のメディア処理システムであって、当該メディア処理システムが一部をなすメディア処理チェーンにおいて諸メディア処理システムがどのような順番になっているかとは独立に自律的なメディア処理動作を実行するよう構成された、メディア処理システム。
〔付番実施例１０６〕
前記メディア・データの前記状態が：（ａ）メディア・フィンガープリント、（ｂ）処理状態メタデータ、（ｃ）抽出されたメディア特徴値、（ｄ）メディア・クラス・タイプもしくはサブタイプの記述および／または値、（ｅ）メディア特徴クラスおよび／またはサブクラス確率値、（ｆ）暗号学的ハッシュ値または（ｆ）メディア処理信号のうちの一つまたは複数を含む、付番実施例１００記載のメディア処理システム。
〔付番実施例１０７〕
付番実施例１〜９９記載のうちいずれか一項記載の方法を実行するよう構成されたメディア処理システム。
〔付番実施例１０８〕
プロセッサを有し、付番実施例１〜９９記載のうちいずれか一項記載の方法を実行するよう構成されている装置。
〔付番実施例１０９〕
一つまたは複数のプロセッサによって実行されたときに、付番実施例１〜９９記載のうちいずれか一項記載の方法を実行させるソフトウェア命令を含むコンピュータ可読記憶媒体。

９．等価物、拡張、代替その他
以上の明細書では、本発明の可能な実施形態について、実装によって変わりうる数多くの個別的詳細に言及しつつ記載している。よって、何が本発明であり、出願人によって本発明であると意図されているかの唯一の指標は、この出願から発行される一組の請求項の、かかる請求項が発行された具体的な形において、その後の訂正があればそれを含むものである。そのような請求項に含まれる用語について本稿で明示的に記載されている定義は、そのような請求項において使われているそのような用語の意味を支配する。よって、請求項に明示的に記載されていない限定、要素、属性、特徴、利点または性格は、いかなる仕方であれ該請求項の範囲を限定するべきではない。よって、明細書および図面は、制約する意味ではなく例解する意味で顧慮されるべきものである。

Claims

オーディオ・デコード方法であって：
エンコードされたビットストリームをオーディオ・デコーダによって取得する段階であって、前記エンコードされたビットストリームはオーディオ・データおよび信号伝達データを含み、前記信号伝達データは、前記エンコードされたビットストリームにラウドネス値が含まれていることを示し、さらに前記エンコードされたビットストリームにサンプル・ピーク・データが含まれていることを示す、段階と；
前記オーディオ・デコーダによって、前記エンコードされたビットストリームから前記ラウドネス値および前記サンプル・ピーク・データを取得する段階と；
前記オーディオ・デコーダによって、前記ラウドネス値および前記サンプル・ピーク・データに応答して前記オーディオ・データのラウドネスを正規化する段階とを含む、
方法。
前記オーディオ・データがダイアログ・オーディオ・データを含むことおよび前記ラウドネス値がダイアログ正規化（dialog normalization）値であることを前記信号伝達から判別し；
前記ダイアログ正規化値に従って前記ダイアログ・オーディオ・データを正規化することをさらに含む、
請求項１記載の方法。
前記エンコードされたビットストリームが、前記オーディオ・データを含む第一のビットストリームおよび前記ラウドネス値を含む第二のビットストリームを含む、請求項１記載の方法。
プロセッサと；前記プロセッサによって実行されたときに前記プロセッサに動作を実行させる命令を記憶するよう構成されており、前記プロセッサに結合されたメモリとを有するオーディオ・デコード装置であって、前記動作は：
エンコードされたビットストリームを取得する段階であって、前記エンコードされたビットストリームはオーディオ・データおよび信号伝達データを含み、前記信号伝達データは、前記エンコードされたビットストリームにラウドネス値が含まれていることを示し、さらに前記エンコードされたビットストリームにサンプル・ピーク・データが含まれていることを示す、段階と；
前記エンコードされたビットストリームから前記ラウドネス値および前記サンプル・ピーク・データを取得する段階と；
前記ラウドネス値および前記サンプル・ピーク・データに応答して前記オーディオ・データのラウドネスを正規化する段階とを含む、
オーディオ・デコード装置。
前記オーディオ・データがダイアログ・オーディオ・データを含むことおよび前記ラウドネス値がダイアログ正規化（dialog normalization）値であることを前記信号伝達から判別し；
前記ダイアログ正規化値に従って前記ダイアログ・オーディオ・データを正規化することをさらに含む、
請求項４記載のオーディオ・デコード装置。
前記エンコードされたビットストリームが、前記オーディオ・データを含む第一のビットストリームおよび前記ラウドネス値を含む第二のビットストリームを含む、請求項４記載のオーディオ・デコード装置。
コンピューティング装置で実行されたときに請求項１ないし３のうちいずれか一項記載の方法段階を実行するための、プロセッサでの実行のために適応されたソフトウェア・プログラムを有する記憶媒体。