JP2008035551A - 次世代テレビジョンにおける暗号化および透かし処理を施される時間的および解像度レイヤ構造 - Google Patents

次世代テレビジョンにおける暗号化および透かし処理を施される時間的および解像度レイヤ構造 Download PDF

Info

Publication number
JP2008035551A
JP2008035551A JP2007248973A JP2007248973A JP2008035551A JP 2008035551 A JP2008035551 A JP 2008035551A JP 2007248973 A JP2007248973 A JP 2007248973A JP 2007248973 A JP2007248973 A JP 2007248973A JP 2008035551 A JP2008035551 A JP 2008035551A
Authority
JP
Japan
Prior art keywords
unit
watermarking
data stream
watermark
watermarking technique
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007248973A
Other languages
English (en)
Inventor
Gary A Demos
ガリー エー デモス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Priority to JP2007248973A priority Critical patent/JP2008035551A/ja
Publication of JP2008035551A publication Critical patent/JP2008035551A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】圧縮された画像フレームの時間および解像度レイヤ化を用い、透かし処理を行うための方法および装置を提供すること。
【解決手段】基本レイヤおよび拡張レイヤへ符号化および圧縮されたビデオ情報のデータストリームに透かし処理を施す方法であって、(a)少なくとも1つの透かし処理手法を選択するステップと、(b)前記基本レイヤまたは前記拡張レイヤのうちの少なくとも1つの透かし処理を施すべきユニットを選択するステップと、(c)前記少なくとも1つの選択された透かし処理手法を適用して、前記選択されたユニットの各々に透かし処理を施すステップと、(d)前記少なくとも1つの選択された透かし処理手法を適用して、前記ビデオ情報のデータストリームのコピーをそのソースまで遡って追跡するために同データストリームに追跡データを追加するステップと、を含む方法。
【選択図】なし

Description

本発明は電子通信システムに関し、より詳細には、圧縮画像フレームの時間的および解像度レイヤ構造を有し、暗号化および透かしをいれる能力を提供する次世代(advanced)電子テレビジョンシステムに関する。
現在、米国ではテレビジョン伝送にNTSC規格が使用されている。しかしながら、NTSC規格から次世代テレビジョン規格へ移行する提案がなされている。例えば、24Hz、30Hz、60Hz、および60Hzインターレースの各レートのデジタル標準精細度および次世代テレビジョンフォーマットの米国での採用が提案されている。これらのレートは、既存のNTSCテレビジョン表示レートの60Hz(または59.94Hz)を続けること(従ってそれとの互換性)を意図していることが明白である。また、時間レートが毎秒24フレーム(fps)の映画を表示する場合、「3−2プルダウン」が60Hz用ディスプレイ上での表示に意図されていることも明白である。しかしながら、上記提案は選択可能な複数のフォーマットを提供するものの、各フォーマットはそれぞれ単一の解像度およびフレームレートを符号化および複合化するにすぎない。これらのフォーマットの表示または動作レートは互いに整的に関連していないため、あるフォーマットから別のフォーマットへの変換は困難である。
更に、この提案は、極めて重大なコンピュータディスプレイとの間の互換能力を提供するものではない。提案されているこれら画像動作レートは、今世紀の初頭へ遡る歴史上のレートに基づいている。もし「白紙の状態」にするなら、これらのレートが選択されることはないだろう。過去10年間に渡ってディスプレイに任意レートを利用してきたコンピュータ業界では、70から80Hzレンジのレートが最適であることが証明され、72および75Hzが最も一般的なレートになっている。残念ながら、提案のレート30および60Hzは72または75Hzとの有用な相互運用性に欠け、時間的性能で劣っている。
その上、高フレームレートで約1000本の解像度を持つ必要があるとの主張は、フレームインターレースを必要とするが、その考えに基づくと、従来の6MHz放送のテレビジョンチャネルで利用可能な18〜19mビット/秒内にこれらの画像を圧縮することは不可能であるという当業者の指摘もある。
所望の標準および高精細解像度の全てを含む単一の信号フォーマットが採用することができることは非常に望ましい。しかしながら、従来の6MHz放送のテレビジョンチャネルの帯域幅制約内でそれを実現するには、フレームレート(時間的)および解像度(空間的)の両方の圧縮(すなわち「スケーラビリティ」)が要求される。かかるスケーラビリティの提供を具体的に意図した方法の1つにMPEG−2規格がある。残念ながら、MPEG−2規格で規定されている時間的および空間スケーラビリティの特徴は、米国向け次世代テレビジョンのニーズに対応するのには十分に効率的ではない。従って、米国向け次世代テレビジョンに対する提案は、時間的(フレームレート)および空間的(解像度)レイヤ構造が不十分であり、それゆえ別個のフォーマットが必要であるという前提に基づいている。
上記課題に加え、本発明者はデジタル映画等、貴重な著作権付き音声および映像媒体の使用を保護および管理する必要性を確認している。映画データ配信の全技術の存続は、使用を保護および管理する能力にかかっていると言える。デジタルの圧縮された映画マスターの品質がオリジナル作品の品質に近づくにつれて、保護および管理手法に対するニーズが決定的な要件になる。
デジタルコンテンツの保護および管理のためのシステムアーキテクチャに取り組む際、モジュール化したフレキシブルな方式で適用できる各種のツールおよび手法を採ることが有益だろう。ほとんどの商用暗号化システムは最終的には傷つけられてしまっている。そのため、どの保護システムをも、それが傷つけられる場合、自らを適応させ、そして強化できるように、充分にフレキシブルに構築する必要がある。また、ソース及び予防措置(セキュリティ)が危険に晒された方法を正確に特定するために、記号および/またはシリアル番号情報の透かし処理により各コピーへ情報的な手掛かりを与えることも有益である。
映画館へのデジタル形式での映画配信が実現しつつある。高価な新作映画をコピーすることが今日のフィルムプリントの盗難またはコピーの標的となって久しい。DVD等のデジタル媒体は、不十分な暗号化および認証スキーム(DIVX等)を試みてきた。プレミアム有線チャネルおよびペイ・パー・ビュー番組および映画の課金には、アナログ有線スクランブラ(盗視聴防止のためにテレビなどの信号を混合混乱させる周波数帯変換機)が当初から使用されている。しかしながら、これら不十分なスクランブラは幅広く傷つけられてきている。
デジタルおよびアナログのビデオシステムがかかる貧弱なセキュリティシステムを許してきた一つの理由は、2次的なビデオリリースの価値および海賊行為による損失の市場での割合が比較的小さいことである。しかしながら、デジタル形式の封切り映画、高価なライブイベントおよび高解像度画像の(HDTV形式による)家庭および事業所への配信の場合、強健(ロバスト)なセキュリティシステムが必需品になる。
本発明は、現行のデジタルコンテンツ保護システムの上記問題およびその他の諸問題を克服する。
要約
本発明は、高フレームレートで高品質を備えた1000ラインの解像度よりも優れた解像度を明白に実現できる画像圧縮の方法および装置を提供する。本発明はまた、従来のテレビジョン放送チャネルで利用可能な帯域幅内で、この解像度および高フレームレートでの時間的および解像度の両方のスケーラビリティを達成する。本発明の手法は、フレキシブルな暗号化および透かし処理手法を提供しながら、次世代テレビジョンに提案されている圧縮率の2倍以上を効率的に達成する。
画像素材を、最初の、すなわち主フレーミングレートの72fpsでキャプチャするのが好ましい。そして以下を含むMPEG−2データストリームが生成される:
(1)好ましくはMPEG−2のPフレームのみ用いて符号化され、低解像度(例えば、1024x512ピクセル)、低フレームレート(24または36Hz)のビットストリームを含む、基本レイヤ。
(2)MPEG−2のBフレームのみ用いて符号化され、低解像度(例えば、1024x512ピクセル)、高フレームレート(72Hz)のビットストリームを含む、オプションの基本解像度時間拡張レイヤ。
(3)好ましくはMPEG−2のPフレームのみ用いて符号化され、高解像度(例えば、2kx1kピクセル)、低フレームレート(24または36Hz)のビットストリームを含む、オプションの基本時間高解像度拡張レイヤ。
(4)MPEG−2のBフレームのみ用いて符号化され、高解像度(例えば、2kx1kピクセル)、高フレームレート(72Hz)のビットストリームを含む、オプションの高解像度時間拡張レイヤ。
本発明は、現行提案に対して本質的な改良を可能にする幾つかの主要な技術的特性を提供し、こうした特性には以下が含まれる:数多くの解像度およびフレームレートを、単一のレイヤ化された解像度およびフレームレートに置換すること;6MHzのテレビジョンチャネル内において高フレームレート(72Hz)で2メガピクセル画像に対し1000ラインよりも優れた解像度を達成するためにインターレースを必要としないこと;主フレーミングレートである72fpsを使用するコンピュータディスプレイとの互換性;そして、「ストレスの多い(stressful)」画像素材が出現した際は利用可能な全ビットを低解像度の基本レイヤに割り当て可能であることにより、次世代テレビジョンに対する現行の未レイヤ化フォーマットの提案よりも高いロバスト性。
開示のレイヤ化圧縮技術は、画像のモジュール化された分解の一形態を可能にする。このモジュール性は、スケーラブル復号化および優れたストレス復元力を可能にするにとどまらず、更なる利点を有する。モジュラー性は更に、フレキシブルな暗号化および透かし処理手法をサポートする構造として開発され得る。暗号化機能は、1つ以上の適正なキーが認証済み解読システムに適用されない限り、音声/映像ショーの視聴、上映、コピー、またはその他の使用を制限することである。透かし処理機能は、遺失したまたは窃取されたコピーをソースまで追跡し、盗難方法の性質を判定してシステムの安全性を向上するとともに、窃取にかかわった人々を特定できることである。
レイヤ化圧縮を用いることにより、基本レイヤおよびその基本レイヤの様々な内部コンポーネント(IフレームおよびそれらのDC係数、またはPフレームの動きベクトル等)を使用して、圧縮されたレイヤ構造の映画ストリームを暗号化できる。このようなレイヤ化されたビットのサブセットを使用することにより、ピクチャストリーム全体のビットのうちの小部分を暗号化するだけでピクチャストリーム全体を(解読されない限り)認識不能にできる。更に、様々な暗号化アルゴリズムおよび強度を、拡張レイヤ(プレミアム品質のサービスとして視聴可能であり、特別に暗号化されている)を含むレイヤ化されたストリームの様々な部分に適用できる。暗号化アルゴリズムまたはキーを各スライス境界毎に変更して、暗号化と画像ストリームとをより絡み合わせることも可能である。
本発明のレイヤ化圧縮構造は、透かし処理にも用いることができる。透かし処理の目標は、検出により高い信頼性をもって識別可能であり、なお目には本質的に不可視とすることである。例えば、Iフレーム内のDC係数におけるローオーダービットは、目には不可視だろうけれども、透かしを持つ特定のピクチャストリームを唯一に識別するのになお使用可能である。拡張レイヤは、それら自身の唯一の識別透かし構造を有することができる。
本発明の1つ以上の実施の形態の詳細を添付の図面および以下の説明で提示する。本発明のその他の特長、目的および利点は、説明、図面、および特許請求の範囲から明らかになろう。
この説明を通じて、以下の好ましい実施の形態および実施例は、本発明を限定するのではなく模範例として解釈されるべきである。
時間的および解像度レイヤ化
時間レートファミリの目標
従来技術の諸問題を検討した上で、本発明を実施するにあたり、目標を以下の通り定めて、将来のデジタルテレビジョンシステムの時間的特徴を明確にする:
・高解像度の遺物である毎秒24フレームのフィルムを最適に表示
・スポーツ等、素早く動く画像のタイプに対する滑らかなモーションキャプチャ
・既存のアナログNTSCディスプレイ、および72または75Hzで動作するコンピュータ互換ディスプレイ上での、スポーツおよび同様な画像の動きの滑らかな表示
・ニュースおよび生活ドラマ等、それほど速く動かない画像の適当で且つより効率的なモーションキャプチャ
・全ての新しいデジタル形式の画像をコンバータボックスを介して既存のNTSCディスプレイ上で適当に表示
・全ての新しいデジタル形式の画像をコンピュータ互換ディスプレイ上に高品質で表示
・60Hzのデジタル標準または高解像度ディスプレイが市場に登場した場合、こうしたディスプレイ上で適当にまたは高品質で表示
60Hzおよび72/75Hzのディスプレイは、映画のレートである24Hz以外のいずれのレートとも本質的に互換性がないので、72/75と60のどちらかを表示レートから除くのが最善であろう。72または75HzはN.I.I.(National
Information Infrastructure:全米情報基盤)およびコンピュータ用途で要求されるレートであることから、60Hzのレートを基本的に時代遅れのレートとして除くのが最も未来志向であろう。しかしながら、放送およびテレビジョン機器業界内には競合する利害関係が数多くあり、そして新しいどのようなデジタルテレビジョンインフラも60Hz(および30Hz)に基づくべきであるという強い要請もある。このことが、テレビジョン、放送およびコンピュータ業界の間で激しい議論の火種となっている。
更に、放送およびテレビジョン業界にはインターレース60Hzフォーマットを主張する利害関係も存在し、コンピュータディスプレイの要求とのギャップを更に拡大させている。デジタルテレビジョンシステムをコンピュータ等に適用した場合には非インターレース表示が要求されるので、インターレース信号を表示するためにはデインターレーサ(de-interlacer)が必要になる。デインターレーサはそのような受信装置の全てに必要となることから、デインターレーサのコストおよび品質について相当な議論がある。デインターレース処理に加え、フレームレートの変換も更にコストおよび品質に影響を与える。例えば、NTSCとPAL間のコンバータのコストは非常に高いままであるにもかかわらず、その変換能力は依然として一般的シーンの多くについて信頼できない。インターレースに関する議論は複雑で厄介な問題なので、また時間レートの諸問題および課題に取り組むために、本発明はインターレースのないデジタルテレビジョン規格に関連して説明する。
最適時間レートの選択
うなり(beat)の問題 72または75Hz用ディスプレイ上では、その表示レート(それぞれ72または75Hz)と等しい動作レートを持つカメラまたはシミュレート画像が形成された場合に最適表示が得られ、その逆も同様に成り立つ。同様に、60Hz用ディスプレイ上では、60Hzのカメラまたはシミュレート画像から最適なモーションフィデリティ(忠実度)が得られる。72Hzまたは75Hzの生成レートを60Hz用ディスプレイで使用すると、それぞれ12Hzまたは15Hzのうなり周波数が発生する。このうなりは動作解析を通じて除去できるが、動作解析は高価な上に不正確であり、目に見える不自然な結果(可視アーチファクト)および時間的エイリアシングを引き起こしてしまうことがよくある。動作解析を伴わない場合は、うなり周波数が、感知された表示レートを支配し、12または15Hzのうなりが出現して24Hzよりも更に不正確な動作(動き)がもたらされる。従って、24Hzが、60および72Hzの間の自然数の時間的な共通の分母を形成する。75Hzは60Hzに対してやや高い15Hzのうなりを生じるものの、その動作はやはり24Hzほどスムースではなく、24Hzのレートを25Hzに増加しない限り75Hzと24Hzとの間に整数関係は存在しない。(欧州の50Hzの国々では、映画が4%速く25Hzで上映されることがよくあるが、これはフィルムを75Hz用ディスプレイ上で表示できるようにするためである。)
各受信装置で動作解析をしない場合、72または75Hz用ディスプレイ上での60Hzの動作、および60Hz用ディスプレイ上での75または72Hzの動作は、24Hz画像ほどスムースではないだろう。従って、72/75Hzまたは60Hzの動作はどちらも、72または75Hz用ディスプレイおよび60Hz用のディスプレイの両者を含む混成のディスプレイ集団に到達するには不適当である。
3−2プルダウン 最適フレームレートを選択する際の更なる難題が、テレシネ(フィルムからビデオへの)変換処理中のビデオ効果に関わる「3−2プルダウン」を使用することにより生ずる。かかる変換中、3−2プルダウンパターンが最初のフレーム(またはフィールド)を3回、そして次のフレームを2回、そして次のフレームを3回、そして次のフレームを2回というように繰り返す。このようにして、24fpsのフィルムがテレビジョン上に60Hz(実際には、NTSCカラーの場合59.94Hz)で表示される。つまり、1秒間のフィルムにおいて2個のフレームを1対とする12対のフレームがそれぞれ5回表示されることによって毎秒60個の画像が与えられる。3−2プルダウンパターンを図1に示す。
ある推定によれば、ビデオ上の全フィルムの半分以上は、そのかなりの部分において、59.94Hzのビデオフィールドレートで24fpsのフィルムへの調整がなされている。かかる調整は、「パンアンドスキャン」、色補正、およびタイトルスクロールを含む。更に、多くのフィルムはフレームの削除またはシーンの開始および終了部分を切り取ることによって時間調整され、与えられた放送予定内に収まるように適合されている。これら操作は、59.94Hzおよび24Hzの両方の動作が存在するので、3−2プルダウン処理が逆転することを不可能にし得る。このためMPEG−2規格を使用してフィルムを圧縮することが非常に困難になる。幸い、3−2プルダウンを使用した高解像度デジタルフィルムの大きいライブラリがないことから、この問題は既存のNTSC解像度の素材に限られている。
モーションブラー(動きの不鮮明化) 24Hzよりも高い共通時間レートを見つけるという課題を更に検討するため、動画のキャプチャでのモーションブラーに言及することは有効である。カメラセンサおよびモーションピクチャフィルムは、各フレームの継続時間の一部で、動いている画像を感知するべく開いている。モーションピクチャカメラおよび多くのビデオカメラでは、この露光持続時間を調整できる。フィルムカメラはフィルム送り時間を必要とするため、通常は360度のうちの約210度、すなわち58%のデューティサイクル分だけ開いているように制限される。CCDセンサを持つビデオカメラでは、センサから画像を「読み込む」のにフレーム時間の幾らかを必要とすることが多い。これはフレーム時間の10%から50%の間で変動し得る。センサによっては、この読み出し時間中に光を遮断するために電子シャッタを使用しなければならない。従って、CCDセンサの「デューティサイクル」は、通常50から90%の間で変動し、カメラによっては調整できるものもある。光シャッタは、もし望まれるのであれば、そのデューティサイクルを更に低下させるように時には調整可能である。しかしながら、フィルムおよびビデオの両者に対し、最も一般的なセンサのデューティサイクル持続時間は50%である。
好ましいレート この課題を念頭に置くと、60、72、または75Hzでキャプチャされた画像シーケンスからのフレームのほんの幾つかだけを使用することを考えることができる。1つのフレームを2、3、4個等の組で利用することにより、表1に示すサブレートが導き出される。
Figure 2008035551
15Hzというレートは60および75Hz間の統合レートである。12Hzというレートは60および72Hz間の統合レートである。しかしながら、24Hzより高いレートを望むと、これらのレートは排除される。24Hzは共通ではないが、60Hz用ディスプレイ上での表示については3−2プルダウンの使用が業界で受け入れられてきている。従って、候補となるレートは、30、36、および37.5Hzのみである。30Hzは75Hzに対して7.5Hzのうなりを発生し、そして72Hzに対して6Hzのうなりを発生するので、候補としての役に適うものではない。
36および37.5Hzの動作レートは、60および72/75Hzのディスプレイ上で表示される際、24Hz素材よりもスムースな動きをもたらす最重視すべき候補である。これらの両レートは24Hzよりも約50%高速でスムースである。37.5Hzのレートは、60または72Hzのどちらの使用にも適さないため排除しなければならず、36Hzのみが所望の時間レート特性を有するものとして残る。(37.5Hzの動作レートは、テレビジョンの60Hz表示レートを62.5Hzへ4%移動可能であれば使用できるだろう。60Hzの裏にある利害関係により62.5Hzはありそうもない。中には非常に時代遅れの59.94Hzを新しいテレビジョンシステムに提案している人々さえいる。しかしながら、かかる変更がなされれば、本発明の他の態様を37.5Hzのレートに適用できるだろう。)
24、36、60、および72Hzのレートが時間レートファミリの候補として残っている。72および60Hzのレートは、配信レートとして使用することはできない。なぜなら、上述したように、24Hzを配信レートとして使用した場合に比べ、これら2つのレートとの間で変換を行った際、動作がスムースでないためである。前提として、我々は24Hzより速いレートを求めている。そのため、36Hzが、60および72/75Hzのディスプレイで使用されるマスターに対するモーションキャプチャおよび画像配信を統合する最有力候補である。
上述のように、24Hz素材に対する3−2プルダウンパターンは、最初のフレーム(またはフィールド)を3回、そして次のフレームを2回、そして次のフレームを3回、そして次のフレームを2回というように繰り返す。36Hzを用いる場合、各パターンは2−1−2のパターンで繰り返されるのが最適であろう。これは表2および図1から図式的に分かる。
Figure 2008035551
この36Hzと60Hzとの間の関係は、真に36Hzの素材に対してのみ成立する。60Hz素材はインターレースされれば36Hzで「格納」できるが、36Hzは動作解析および再構築をしなければ60Hzから適当には生み出されない。しかしながら、モーションキャプチャのための新しいレートを探す際、36Hzは、60Hz上で24Hzよりも幾分スムースな動作を提供し、そして72Hzのディスプレイ上でかなり良好なイメージモーションのスムースさを提供する。そのため、36Hzは、60および72/75Hzのディスプレイで用いるマスター用のモーションキャプチャおよび画像配信レートを統合する最適なレートであり、そのようなディスプレイ上で表示される場合に24Hz素材よりもスムースな動きをもたらす。
36Hzは上述の目標に合致しているが、キャプチャレートとして好適なものはそれだけではない。36Hzは60Hzから単純には抽出できないため、60Hzはキャプチャに適したレートを提供しない。しかしながら、72Hzは1個おきのフレームを36Hz配信の基礎として使用することによって、キャプチャに使用できる。72Hz素材の1個おきのフレームを使用することによって発生するモーションブラーは、36Hzのキャプチャの場合のモーションブラーの半分であろう。72Hzからの3個毎のフレームのモーションブラーの見え方を試験してみると、24Hzの断続的な閃光が嫌である。しかしながら、36Hzのディスプレイのために72Hzから1個おきのフレームを利用することは、もともと36Hzのキャプチャと比べると、目に嫌ではない。
従って、36Hzは、72Hzでキャプチャすることによって72Hz用ディスプレイ上で非常にスムースな動作を提供できるとともに、もともと72Hzでキャプチャした素材の交互のフレームを使用して36Hz配信レートを達成し、そして2−1−2プルダウンを用いて60Hz画像を抽出すことによって、24Hz素材よりも優れた動きを60Hzのディスプレイ上に提供する。
本発明によるキャプチャおよび配信の好ましい最適時間レートを表3に要約する。
Figure 2008035551
また、72Hzのカメラからの交互のフレームを利用して36Hz配信レートを達成するこの手法では、増加したモーションブラーデューティサイクルの恩恵も受けられるという点にも、言及しておく価値がある。72Hzで通常の50%のデューティサイクルは、36Hzでは25%のデューティサイクルをもたらすのであるが、許容できることが実証されており、そして60Hzおよび72Hのディスプレイ上で24Hzを上回る顕著な改善を示している。しかしながら、デューティサイクルが75〜90%の範囲に増加される場合、36Hzのサンプルはより一般的な50%のデューティサイクルに近づき始めるだろう。デューティレートを増加させることは、例えば、記録されていない時間(blanking
time)が短く、高いデューティサイクルが得られる「補助記憶(backing
store)」CCD設計を用いることによって達成してもよい。デュアルCCD多重設計を含むその他の方法を使用してもよい。
部分修正されたMPEG−2圧縮
効率よく格納および配信するには、好ましい時間レートである36Hzを有するデジタルソース素材を圧縮するのがよい。本発明のための好ましい圧縮形式は、MPEG−2規格の新規なバリエーションを用いて達成される。
MPEG−2の基本 MPEG−2は、よりコンパクトなコード化データ形式で画像シーケンスを表現する効率的な方法を提供するビデオシンタクスを定義した国際的なビデオ圧縮規格である。コード化(符合化)されたビットの言語が「シンタクス」である。例えば、数個のトークンで64個のサンプルからなるブロック全体を表現できる。また、MPEGは、コード化されたビットが、コンパクトな表現からオリジナルの「生」のフォーマットの画像シーケンスへとマッピングされる複合化(再構築)処理についても説明している。例えば、コード化されたビットストリーム中のフラグは、続くビットが離散コサイン変換(DCT)アルゴリズム、または予測アルゴリズムのどちらで復号化(デコード)されるべきかを示す。復号化処理を含むアルゴリズムは、MPEGが定義するセマンティクスによって規定されている。このシンタクスは、空間的冗長性、時間的冗長性、一定の動作、空間的マスキング等、ビデオに共通した特徴を利用するのに適用できる。MPEG−2は、実際にはデータフォーマットだけでなくプログラム言語も定義している。MPEG−2デコーダは、入ってくるデータストリームを構文解析および復号化できなければならないが、データストリームがMPEG−2のシンタクスに準拠している限り、あり得るデータ構造および圧縮手法を幅広く使用できる。本発明は、MPEG−2規格を用いた時間的および解像度スケーリングのための新規な手段および方法を考案することにより、このMPEG−2のフレキシビリティを利用している。
MPEG−2は、フレーム内およびフレーム間の圧縮方法を使用している。ほとんどのビデオシーンでは、背景が比較的安定している一方、前景ではアクションが発生する。背景が動くこともあるが、シーンの大部分は冗長である。MPEG−2は、I(Intra:イントラを表す)フレームと呼ばれる参照フレームを作成することによって圧縮を開始する。Iフレームは他のフレームを参照することなく圧縮され、従ってフレーム全体のビデオ情報を含む。Iフレームはランダムアクセスを行うためのデータビットストリームへのエントリポイントを提供するが、わずかしか圧縮できない。典型的には、Iフレームを表すデータは、ビットストリーム内で10から15フレーム毎に配置される。その後、参照用Iフレーム間に入るフレームはそのわずかな部分だけが両側のIフレームと異なっているため、その差分のみキャプチャされ(とらえられ)、圧縮および格納される。かかる差分には2種類のフレームが用いられ、それらはP(Predicted:予測を表す)フレームおよびB(Bi-directional Interpolated:双方向補間を表す)フレームである。
Pフレームは、一般的に過去のフレーム(Iフレームまたは先行のPフレームのどちらか)を参照して符号化され、概して未来のPフレームのための参照として使用される。Pフレームが擁する圧縮量はかなり高い。Bフレームのピクチャは圧縮量が最も高いが、概して符号化されるのに過去および未来の両方の参照を必要とする。双方向フレームは参照用フレームとして使用されることはない。
Pフレーム内のマクロブロックも、フレーム内コード化を用いて個々に符号化され得る。また、Bフレーム内のマクロブロックも、フレーム内コード化、順方向予測コード化、逆方向予測コード化、順方向および逆方向の両方つまり双方向補間予測コード化を用いて個々に符号化できる。マクロブロックとは、4個の8x8DCTブロックからなる16x16ピクセルのグループであって、Pフレームについては1つの動きベクトルを伴い、Bフレームについては1つまたは2つの動きベクトルを伴っている。
コード化後、MPEGデータのビットストリームはI、P及びBフレームのシーケンスを含んでいる。一つのシーケンスは、I、P及びBフレームのほとんどどのようなパターンからなってもよい(それらの配置に関しては重要ではない意味上の制限が少数ある)。しかしながら、固定のパターン(例えば、IBBPBBPBBPBBPBB)を有するのが業界プラクティスでは一般的である。
本発明の重要な部分として、基本レイヤ(base layer)、少なくとも1つの任意の時間拡張レイヤ(temporal enhancement layer)および任意の解像度拡張レイヤ(resolution enhancement
layer)を含むMPEG−2データストリームが作成される。これらの各レイヤは後で詳細に説明する。
時間スケーラビリティ
基本レイヤ 基本レイヤは36Hzのソース素材の伝達に使用される。好ましい実施の形態では、2種類のMPEG−2フレームシーケンス、すなわちIBPBPBPまたはIPPPPPPの一方が基本レイヤに使用され得る。後者のパターンは、デコーダがPフレームを復号化する必要があるだけで、24Hzの映画がBフレームを用いずに復号化されていた場合に要求されるメモリ帯域幅を削減できるので、最も好ましい。
72Hz時間拡張レイヤ MPEG−2圧縮を用いる際、Pフレーム間の間隔が規則正しければ、36Hz基本レイヤのMPEG−2シーケンス内に36Hz時間拡張レイヤをBフレームとして埋め込むことが可能である。これにより、1つのデータストリームで36Hzのディスプレイおよび72Hzのディスプレイの両方をサポートできる。例えば、両レイヤを復号化してコンピュータモニタ用の72Hz信号を生成できる一方で、基本レイヤのみ復号化および変換してテレビ用の60Hz信号を生成してもよい。
好ましい実施の形態では、IPBBBPBBBPBBBPまたはIPBPBPBPBのMPEG−2コード化パターンは共に、一つの独立したストリームに、時間的拡張Bフレームのみを含むフレームを一つおきに配置することによって、36Hzを72Hzにしている。これらのコード化パターンをそれぞれ図2および3に示す。図3のPの間隔が2フレームであるコード化パターンは、36HzデコーダがPフレームを復号化する必要があるだけで、24Hzの映画がBフレームを用いずに復号化される場合に要求されるメモリ帯域幅を削減できるという更なる利点を有する。
高解像度画像を用いた実験は、図3のPの間隔が2フレームである場合が、ほとんどの種類の画像について最適であると示した。つまり、図3の構成は、60および72Hzの両方をサポートする最適な時間的構造を提供し、かつ近代の72Hzのコンピュータ互換ディスプレイ上で優れた結果をもたらすようである。この構成は2つのデジタルストリーム、すなわち基本レイヤの36Hzおよび拡張レイヤBフレームの36Hzによって72Hzを達成している。これが図4で図解されている。図4は、36Hz基本レイヤMPEG−2デコーダ50がPフレームを単純に復号化して36Hzの出力を生成し、そしてその出力が60Hzまたは72Hzの表示のどちらにも容易に変換できることを示すブロック図である。任意の第2のデコーダ52は、Bフレームを単純に復号化して第2の36Hzの出力を生成し、その出力が基本レイヤデコーダ50の36Hzの出力と結合されると、72Hzの出力が得られる(結合方法は後に議論する)。代替の実施の形態では、1つの高速MPEG−2デコーダ50は、基本レイヤのPフレームおよび拡張レイヤのBフレームの両方を復号化できる。
最適なマスターのフォーマット 相当数の会社が、11Mピクセル/秒程度で動作するMPEG−2復号化チップを製造している。MPEG−2規格は、解像度およびフレームレートに対する「プロファイル」を幾つか定義している。これらのプロファイルは、60Hz、非正方形ピクセル、およびインターレース等、コンピュータ非互換フォーマットパラメータに強く偏っているが、多くのチップメーカは「メインプロファイル、メインレベル」で動作するデコーダチップを開発しているようである。このプロファイルは、最高720ピクセルの水平解像度、25Hzまでは最高576ラインの垂直解像度、および30Hzまでは最高480ラインの垂直解像度となるように定められている。また、略1.5Mビット/秒から約10Mビット/秒までの幅広いデータレートが規定されている。しかしながら、チップの観点から重要な事項は、ピクセルが復号化されるレートである。メインレベル、メインプロファイルのピクセルレートは約10.5Mピクセル/秒である。
チップメーカ間でばらつきはあるものの、ほとんどのMPEG−2デコーダチップは、高速なサポートメモリを与えられた場合、実際には最高13Mピクセル/秒で動作するだろう。20Mピクセル/秒と同等又はそれを超えるほどに高速なデコーダチップもいくつか存在するだろう。所定のコストにてCPUチップが毎年50%以上性能アップする傾向を考慮すると、近い将来におけるMPEG−2デコーダチップのピクセルレートのフレキシビリティを予測できる。
幾つかの望ましい解像度およびフレームレート、ならびにそれらに対応するピクセルレートを表4に示す。
Figure 2008035551
少なくとも12.6Mピクセル/秒で生成できるMPEG−2デコーダチップを用いてこれらのフォーマットの全てを利用できる。非常に望ましい36Hzで640x480のフォーマットは、そのレートが11.1Mピクセル/秒であることから、ほぼ全ての現行チップで実現できる。ワイドスクリーンの1024x512画像は、1.5:1の圧縮比で680x512に圧縮することが可能で、12.5Mピクセル/秒が扱えるならば36Hzでサポートされ得る。大いに望ましい、1024x512の正方形ピクセルのワイドスクリーンテンプレートは、MPEG−2デコーダチップが約18.9Mピクセル/秒を処理できるとき、36Hzで実現できる。これは、24Hzおよび36Hz素材がPフレームのみ用いてコード化され、Bフレームが72Hzの時間拡張レイヤデコーダにおいて必要であるとき、より実現可能性が高くなる。Pフレームのみ使用するデコーダは、必要なメモリおよびメモリ帯域幅が少なく、19Mピクセル/秒という目標を達成し易いものにする。
1024x512の解像度テンプレートは、24fpsでアスペクト比2.35:1および1.85:1のフィルムに対して最も頻繁に使用されるだろう。この素材は11.8Mピクセル/秒のみ必要とし、ほとんどの既存のメインレベル−メインプロファイル用デコーダの限界内に適合するはずである。
これらのフォーマットの全ては、図6において、24または36Hzでの基本レイヤのための「マスターテンプレート」内に示されている。従って、本発明は従来技術と比べて幅広いアスペクト比および時間的解像度を収容する独特な方法を提供する。(マスターテンプレートは以下で更に議論する)。
72Hzを生成するBフレームの時間拡張レイヤは、上で規定した2倍のピクセルレートを持つチップを使用して、または第2のチップをデコーダメモリに追加的にアクセスできるように並列的に使用することによって、復号化できる。本発明下では、拡張および基本レイヤのデータストリームを結合して交互のBフレームを挿入する少なくとも2つの方法が存在する。第1に、結合は、MPEG−2トランスポート層を使用して、デコーダチップに対して不可視な状態でなされ得る。2つのPID(プログラムID)に対するMPEG−2トランスポートパケットは、基本レイヤおよび拡張レイヤを含むと認識されることが可能で、それらストリームのコンテンツは共に、2倍のレート能力を持つデコーダチップへ、または適切に構成された1対の標準レートのデコーダへ、単純に送られることが可能になる。第2に、MPEG−2システムのトランスポート層の代わりに、MPEG−2データストリームにおける「データ・パーティショニング」機能を用いることも可能である。データ・パーティショニング機能によってBフレームはMPEG−2圧縮データストリーム内で異なる分類に属するとしてマーキングされ、従って、時間的基本レイヤのレートだけをサポートする36Hzデコーダから無視されるようにフラグを立てられる。
MPEG−2ビデオ圧縮により定義されているように、時間スケーラビリティは、本発明の単純なBフレーム分割ほど適切ではない。MPEG−2の時間スケーラビリティは先行のPまたはBフレームから順方向に参照されるにすぎず、従って、順方向および逆方向の両方で参照される、ここで提案されているBフレーム符号化によって得られる効率には及ばない。それ故、Bフレームを時間拡張レイヤとして単純に使用することは、MPEG−2に定義されている時間スケーラビリティと比べてより単純かつ効率的な時間スケーラビリティをもたらす。それにもかかわらず、このようにBフレームを時間スケーラビリティのメカニズムとして使用することは、MPEG−2と完全に整合している。Bフレームに対するデータ・パーティショニングまたは交互のPIDによってこれらBフレームを拡張レイヤとして認識する2つの方法もまた、完全に整合している。
50/60Hzの時間拡張レイヤ 上述した72Hz時間拡張レイヤ(36Hz信号を符号化する)に加えて、あるいはその代替として、60Hzの時間拡張レイヤ(24Hz信号を符号化する)を同様の方法で36Hzの基本レイヤに追加できる。60Hz時間拡張レイヤは、既存の60Hzインターレースのビデオ素材を符号化するのに特に有用である。
既存の60Hzインターレース素材のほとんどは、アナログで、D1またはD2フォーマットのNTSC用ビデオテープである。日本のHDTV(SMPTE240/260M)も少しであるが存在する。また、このフォーマットで動作するカメラも存在する。いずれの60Hzインターレースフォーマットも、信号がデインターレースされおよびフレームレート変換される既知の方法で処理され得る。この処理は、ロボットビジョンに類似した非常に複雑な画像を理解する技術を含んでいる。非常に高性能の技術をもってしても、時間的エイリアシングはアルゴリズムによる「誤解」を生じさせるのが一般的で、時折アーチファクトを生じる。画像キャプチャの典型的な50%のデューティサイクルは、カメラが半分の時間は「見ていない」ことを意味する。映画における「馬車の車輪の逆回転」は、普通のプラクティスとしての時間的アンダーサンプリングによる時間的エイリアシングの一例である。かかるアーチファクトは人の支援による再構築なしでは除去できないのが一般的である。従って、自動的に訂正できないケースは常に存在するだろう。しかしながら、現行技術で可能な動作変換は、ほとんどの素材上でそれなりの結果をもたらすはずである。
高精細カメラまたはテープマシン1台の価格はこのようなコンバータのコストと同等であろう。従って、何台かのカメラおよびテープマシンを有するスタジオであれば、このような変換のコストは適度である。しかしながら、このような処理を十分に行うことは、現時点では家庭およびオフィス向け製品の予算を超えている。従って、既存の素材に対してインターレースを除去し、フレームレートを変換する複雑な処理は、製作スタジオで成し遂げられるのが好ましい。これを図5に示す。図5は、カメラ60またはその他のソース(非フィルム式ビデオテープ等)62から、デインターレーサ機能およびフレームレート変換機能を含み36Hz信号(36Hz基本レイヤのみ)および72Hz信号(36Hzの基本レイヤ+36Hzの時間拡張レイヤ)を出力できるコンバータ64への、60Hzインターレース入力を示すブロック図である。
72Hz信号(36Hzの基本レイヤ+36Hzの時間拡張レイヤ)を出力する代替として、この変換処理は、24Hzの第2MPEG−2時間拡張レイヤを36Hz基本レイヤ上に生成するようになされ、それによりデインターレースされているもののオリジナルの60Hz信号を再現できるだろう。同様の量子化を60Hz時間拡張レイヤのBフレームに用いれば、Bフレームの数が少ないため、データレートは72Hz時間拡張レイヤのレートをわずかに下回るはずである。
>60I→36+36=72
>60I→36+24=60
>72→36,72,60
>50I→36,50,72
>60→24,36,72
米国にとって利益のある素材の圧倒的多数は低解像度NTSCである。現在、ほとんどのNTSC信号は、ほとんどの家庭用テレビジョン上で実質的な悪化を伴って視聴される。更に視聴者は、フィルムをテレビジョン上で上演するための3−2プルダウンの使用につきものの時間的悪化を甘受してきた。ゴールデンアワーのテレビジョンのほぼ全ては毎秒24フレームのフィルム上で作られている。従って、スポーツ、ニュース、およびその他ビデオオリジナルのショーだけをこのように処理する必要がある。これらショーの36/72Hzフォーマットへの変換に伴うアーチファクトおよび損失は、信号の高品質デインターレース化に伴う改善によって相殺されるはずであろう。
60Hz(または59.94Hz)のフィールドに固有のモーションブラーは、72Hzのフレームにおけるモーションブラーと非常に類似しているはずである。従って、基本および拡張レイヤを提供するこの手法は、モーションブラーの点では72Hzのオリジナルと同様に見えるはずである。そのため、インターレース化された60HzのNTSC素材を36Hz基本レイヤへ処理し、時間拡張レイヤからの24Hzを加えて60Hzで表示した場合、わずかな改善として気付く場合はあっても、ほとんどの視聴者はその違いに気付かないだろう。しかし、新型の72Hz非インターレース式デジタルテレビジョンを購入した人は、NTSCを視聴した場合には小さな改善に気付き、更に、72Hzでキャプチャまたは製作された新しい素材を視聴した場合には大きな改善に気付くだろう。復号化された36Hz基本レイヤを72Hzのディスプレイ上で表示した場合でさえ、インターレースのアーチファクトが低速フレームレートに置き換えられて、高品質デジタルNTSCと同等に見えるだろう。
同様の処理は、既存の50HzのPAL素材を第2MPEG−2拡張レイヤへ変換するのにも適用できる。PALビデオテープはかかる変換の前に48Hzへ減速しておくのが最善である。生のPALは、相対関係のない50、36および72Hzの各レートを用いる変換が必要である。かかるコンバータユニットは、現時点では放送信号のソースでしか採算が合わず、現時点で家庭およびオフィスの各受信装置では実用的でない。
解像度スケーラビリティ
基本レイヤ上により高い解像度を達成するために、MPEG−2を利用した階層的な解像度スケーラビリティを用いて基本解像度テンプレートを拡張することが可能である。拡張の使用によって基本レイヤの1.5倍および2倍の解像度を達成できる。2倍の解像度は、3/2そして4/3を用いて2ステップで実現してもよいし、係数2の1ステップであってもよい。これを図7に示す。
解像度拡張処理は、独立したMPEG−2ストリームとして解像度拡張レイヤを生成し、その拡張レイヤにMPEG−2圧縮を適用することによって達成できる。この手法は、MPEG−2で定義され、極めて非効率であることが証明されている「空間スケーラビリティ」とは異なる。しかしながら、MPEG−2は空間スケーラビリティを提供するために、効果的なレイヤ化された解像度を構成するためのツールの全てを含んでいる。本発明の好ましいレイヤ化された解像度の符号化処理を図8に示す。本発明の好ましい復号化処理を図9に示す。
解像度レイヤのコード化 図8において、2kx1kのオリジナル画像80は従来方法でフィルタ処理されて各寸法の解像度が1/2になり、1024x512の基本レイヤ81が生成される。そして、基本レイヤ81は従来のMPEG−2アルゴリズムに従って圧縮され、伝送に適したMPEG−2基本レイヤ82が生成される。この圧縮ステップの間、MPEG−2の全動き補償(full
MPEG-2 motion compensation)が使用され得ることが重要である。次に、その同じ信号が従来のMPEG−2アルゴリズムを用いて伸長され、1024x512の画像83に戻る。1024x512の画像83は拡張され(例えばピクセル複製によって、または好ましくはスプライン補間等のより優れたフィルタによって)、2kx1kの第1の拡大画像84になる。
一方、任意のステップとして、フィルタ処理された1024x512の基本レイヤ81が拡張されて2kx1kの第2拡大画像85になる。この2kx1kの第2拡大画像85が2kx1kオリジナル画像80から減算され、オリジナルの高解像度画像80とオリジナルの基本レイヤ画像81との間の解像度のトップオクターブを表す画像が生成される。得られた画像は任意にシャープネス係数すなわち加重値と乗算され、そして2kx1kのオリジナル画像80と2kx1kの第2拡大画像85との間の差分に加算されて、2kx1kの中心加重処理された拡張レイヤのソース画像86が生成される。次に、この拡張レイヤのソース画像86は従来のMPEG−2アルゴリズムに従って圧縮され、伝送に適した別のMPEG−2解像度拡張レイヤ87が生成される。この圧縮ステップの間、MPEG−2の全動き補償(full
MPEG-2 motion compensation)が利用できることが重要である。
解像度レイヤ復号化 図9において、基本レイヤ82は従来のMPEG−2アルゴリズムを用いて伸長され、1024x512の画像90に戻る。1024x512の画像90は拡張され、2kx1kの第1画像91になる。一方、解像度拡張レイヤ87が従来のMPEG−2アルゴリズムを用いて伸長され、2kx1kの第2画像92に戻る。そして、2kx1kの第1画像91および2kx1kの第2画像92は加算され、2kx1kの高解像度画像93が生成される。
MPEG−2からの改良点 本質的に、拡張レイヤは復号化された基本レイヤを拡張し、そのオリジナル画像とその復号化された基本レイヤとの間の差分を取り、圧縮することによって形成される。しかしながら、オプションとして、圧縮された解像度拡張レイヤは、任意ではあるが復号化後に基本レイヤに加算されて、デコーダ内により高解像度の画像が作成されてもよい。本発明によるレイヤ化された解像度符号化処理は、MPEG−2の空間スケーラビリティと幾つかの点で異なる。すなわち:
・拡張レイヤの差分ピクチャは、I、B及びPフレームと共に、それ自身のMPEG−2データストリームとして圧縮される。この違いは、MPEG−2の空間スケーラビリティが効果的でない場合でも、本明細書で提案されている解像度スケーラビリティが効果的であるという主たる理由を表している。MPEG−2に定義されている空間スケーラビリティは、上位レイヤのピクチャと拡張された基本レイヤとの間の差分として、又は実際のピクチャの動き補償されたMPEG−2データストリームとして、又は両者が結合したものとして、上位レイヤをコード化することを可能にしている。しかしながら、これらの符号化はいずれも効率的ではない。基本レイヤからの差分を、差分のIフレームとして考えることも可能だが、それは本発明のような動き補償された差分ピクチャと比較して非効率的である。MPEG−2に定義されている上位レイヤの符号化も、上位レイヤを完全に符号化することに等しいため、非効率的である。そのため、本発明のように、差分ピクチャの動き補償符号化の方が大幅に効率的である。
・拡張レイヤは独立したMPEG−2データストリームであるので、基本レイヤおよび拡張レイヤを多重化するためにMPEG−2システムのトランスポート層(または他の同様のメカニズム)を用いなければならない。
・拡張および解像度減少フィルタ処理はガウスまたはスプライン関数でよく、MPEG−2の空間スケーラビリティに規定されているバイリニア補間よりも好適である。
・好ましい実施の形態では、画像のアスペクト比が下位および上位レイヤ間で一致していなければならない。MPEG−2の空間スケーラビリティでは、幅および/または高さに対する伸長が許容されている。かかる伸長は、効率の要求に従い、好ましい実施の形態では許容されない。
・効率の要求により、および、拡張レイヤで用いられる極めて大きな圧縮量により、拡張レイヤの全エリアはコード化されない。通常、拡張から除外されるエリアは境界エリアであろう。従って、好ましい実施の形態における2kx1kの拡張レイヤソース画像86は中心加重されている。好ましい実施の形態では、フェーディング関数(線形加重等)を使用して拡張レイヤを画像の中心に向かって、境界縁部から離れるにつれて「ぼかす」ことにより、画像内の急激な変化を回避する。その上、目で追うことになるディテールを持つ領域を決定する手動または自動の方法を利用して、ディテールを必要とする領域を選択し、および過剰なディテールが要求されない領域を除外することができる。画像全体が基本レイヤレベルのディテールを持っていて、画像の総てが存在している。特別な関心の対象となるエリアのみが拡張レイヤの恩恵を受ける。その他の基準がない場合は、上記の中心加重された実施の形態のように、フレームの縁部または境界が拡張から除外され得る。MPEG−2パラメータであって負号付き整数として使用される「下位_レイヤ_予測_水平&垂直オフセット」パラメータを、「水平&垂直_サブサンプリング_係数m&n」の値と組み合わせて使用して、拡張レイヤの矩形の全体的なサイズおよび拡張された基本レイヤ内での配置を指定することができる。
・シャープネス係数を拡張レイヤに加算して、量子化中に発生するシャープネスの損失を相殺する。オリジナルピクチャの鮮明度およびシャープネスを復元するためにのみ、このパラメータを利用し、画像を強調するために利用しないように注意しなければならない。図8に関連して述べたように、シャープネス係数は、オリジナル高解像度画像80とオリジナル基本レイヤ画像81(拡張後)との間の解像度の「ハイオクターブ」である。このハイオクターブ画像は、ハイオクターブの解像度のシャープネスおよびディテールを含むことに加え、ノイズがかなり多くなる。この画像を加算しすぎると、拡張レイヤの動き補償符号化が不安定になり得る。加算すべき量はオリジナル画像中のノイズレベルによる。典型的な加重値は0.25である。ノイズが多い画像の場合は、シャープネスを加算すべきではなく、むしろディテールを維持する従来のノイズ抑制手法を用いて、圧縮前に、拡張レイヤに対するオリジナル画像中のノイズを抑制するのが賢明かもしれない。
・時間スケーラビリティおよび解像度スケーラビリティは、基本レイヤおよび解像度拡張レイヤの両方において、36から72Hzへの時間的拡張のためのBフレームを利用することによって混合される。このようにして、時間スケーラビリティの2レベルで利用可能なオプションがあることから、解像度スケーラビリティの2つのレイヤで4レベルの復号化能力を得ることができる。
これらの違いは、MPEG−2の空間スケーラビリティおよび時間スケーラビリティからの本質的な改良点を表している。しかしながら、これらの違いは、図9に示す解像度拡張復号化処理において拡張および加算を行うための追加ロジックがデコーダ内で必要になるかもしれないが、依然としてMPEG−2デコーダチップと調和している。かかる追加ロジックは、効果の点で劣るMPEG−2の空間スケーラビリティが要求するロジックとほぼ同一である。
任意の解像度拡張レイヤの非MPEG−2コード化 MPEG−2とは異なる圧縮手法を解像度拡張レイヤに利用可能である。更に、基本レイヤに対するのと同じ圧縮技術を解像度拡張レイヤに利用する必要もない。例えば、差分レイヤがコード化されるとき、動き補償されたブロックウェーブレットを利用して、非常に効率的にディテールをマッチングおよびトラッキングすることができる。各ウェーブレットを配置する最も効率的な位置が差分の量の変化に起因して画面上でジャンプしたとしても、低振幅の拡張レイヤでは気付かれないだろう。更に、画像の全体をカバーする必要はなく、ディテール上にウェーブレットを配置することのみが必要である。ウェーブレットの配置を画像内のディテール領域によって案内させることも可能である。それらの配置は縁部から離れて偏っていてもよい。
多数の解像度拡張レイヤ 2Mピクセル(2048x1024)、72フレーム/秒が18.5mビット/秒でコード化される本明細書に記載のビットレートでは、基本レイヤ(1024x512、72fps)および1つの解像度拡張レイヤだけが実現に成功しているにすぎない。しかしながら、解像度拡張レイヤコード化の更なるリファインによって可能になると予想される改善効率により、多数の解像度拡張レイヤが可能になるはずである。例えば、512x256基本レイヤが4つのレイヤによって1024x512、1536x768および2048x1024に解像度拡張可能になることが考えられる。これは、映画のフレームレートの毎秒24フレームであれば既存のMPEG−2コード化でも可能である。毎秒72フレーム等の高フレームレートでは、MPEG−2は各解像度拡張レイヤのコード化を充分な効率で行うことができず、現時点ではこの多数レイヤを実現できない。
マスタリングフォーマット
2048x1024ピクセルまたはそれに近いテンプレートを利用すると、様々な公開フォーマットに対応する単一のデジタル動画マスターフォーマットソースを作成することが可能である。図6に示すように、2kx1kのテンプレートは、一般的なワイドスクリーンのアスペクト比である1.85:1および2.35:1を効率的にサポートできる。2kx1kのテンプレートは1.33:1およびその他アスペクト比にも対応できる。
解像度のレイヤ化においては整数(特に係数2)および単分数(3/2および4/3)が最も効率的なステップサイズであるが、任意の比率を用いて要求されるいかなる解像度レイヤ構造も達成可能である。しかしながら、2048x1024のテンプレートまたはそれに近いものの使用は、高品質なデジタルマスターフォーマットを提供するのみならず、その他多くの都合のよい解像度を係数2の基本レイヤ(1kx512)から提供可能で、それらは米国テレビジョン規格のNTSCを含む。
フィルムを4kx2k、4kx3kまたは4kx4k等、より高い解像度でスキャンすることも可能である。任意の解像度拡張を用いると、2kx1k付近の中心的マスターフォーマット解像度からこれらより高い解像度を形成できる。このようなフィルムに対する拡張レイヤは、画像ディテール、粒状感およびその他ノイズのソース(スキャナーノイズ等)から成るものであろう。このノイズのため、これらの非常に高い解像度に対する拡張レイヤにおいて圧縮技術を使用するには、MPEG−2タイプの圧縮に代わるものが必要になるだろう。幸い、画像内の所望ディテールを維持しつつこのようなノイズの多い信号を圧縮するのに利用できるその他の圧縮技術が存在する。かかる圧縮技術の一例は、動き補償ウェーブレットまたは動き補償フラクタルである。
望ましくは、既存の映画からならば、デジタルマスタリングフォーマットが、フィルムのフレームレート(すなわち24フレーム毎秒)で作成されるべきである。3−2プルダウンおよびインターレースの両方を共に使用することは、デジタルフィルムマスターには適切ではないだろう。新しいデジタル電子素材には、60Hzインターレースの使用は近い将来なくなり、本明細書で提案されているように、72Hz等、よりコンピュータ互換性が高いフレームレートに取って替わられることが期待されている。デジタル画像マスターは、72Hz、60Hz、36Hz、37.5Hz、75Hz、50Hz、またはその他のいかなるレートであれ、画像がキャプチャされるフレームレートで作られるべきである。
全ての電子公開フォーマットに対応する単一のデジタルソースピクチャフォーマットとしてのマスタリングフォーマットの概念は、PAL、NTSC、レターボックス、パンアンドスキャン、HDTV、およびその他のマスターが全て概して独立してフィルムのオリジナルから作られるという既存のプラクティスとは異なっている。マスタリングフォーマットの使用により、フィルムおよびデジタル/電子の両方のショーは一度マスター化されれば様々な解像度およびフォーマットで公開できるようになる。
結合された解像度拡張レイヤおよび時間拡張レイヤ
上述のように、時間的および解像度の両方の拡張レイヤ化は結合できる。時間拡張はBフレームの復号化によって提供される。解像度拡張レイヤも2つの時間レイヤを有し、従ってBフレームを含む。
24fpsのフィルムの場合、最も効率的かつ最も低コストのデコーダはPフレームのみを使用するかもしれない。それによってメモリおよびメモリ帯域幅が共に最小化し、またBフレームの復号化を排除することによりデコーダが簡素化される。従って、本発明によれば、24fpsの映画の復号化および36fpsの次世代テレビジョンの復号化は、Bフレーム処理能力を持たないデコーダを利用することも可能である。そして、図3に示すように、Bフレームは各Pフレーム間で利用され、より高い72Hzの時間レイヤを生み出し、それを第2のデコーダで復号化することも可能である。また、この第2デコーダもBフレームを復号化するだけでよいので簡素化され得るであろう。
また、かかるレイヤ化は拡張された解像度レイヤにも適用され、24および36fpsの各レートについてPおよびIフレームだけを同様に利用できる。解像度拡張レイヤ内でBフレームを復号化することを追加することにより、解像度拡張レイヤは高解像度で72Hzの完全な時間レートを更に達成できる。
デコーダの、結合された解像度および時間スケーラブルのオプションを図10に示す。この例はまた、本発明の空間−時間レイヤ化された次世代テレビジョンを実現するための略18mビット/秒のデータストリームの割合の配分を示す。
図10において、基本レイヤのMPEG−2、1024x512ピクセルのデータストリーム(好ましい実施の形態ではPフレームのみ含む)が基本解像度デコーダ100へ与えられる。Pフレームには略5mビット/秒の帯域幅が要求される。基本解像度デコーダ100は24または36fpsで復号化できる。基本解像度デコーダ100の出力は、低解像度、低フレームレートの画像(1024x512ピクセルで24または36Hz)を含む。
同じデータストリームからのBフレームは構文解析され、基本解像度時間拡張レイヤデコーダ102へ与えられる。かかるBフレームには略3mビット/秒の帯域幅が要求される。基本解像度デコーダ100の出力は、時間拡張レイヤデコーダ102へも連結されている。時間拡張レイヤデコーダ102は36fpsで復号化できる。時間拡張レイヤデコーダ102の結合出力は、低解像度、高フレームレートの画像(1024x512ピクセルで72Hz)を含む。
また図10において、解像度拡張レイヤのMPEG−2、2kx1kピクセルのデータストリーム(好ましい実施の形態ではPフレームのみ含む)が基本時間高解像度拡張レイヤデコーダ104へ与えられる。これらのPフレームには略6mビット/秒の帯域幅が要求される。基本解像度デコーダ100の出力も、高解像度拡張レイヤデコーダ104に連結されている。高解像度拡張レイヤデコーダ104は24または36fpsで復号化できる。高解像度拡張レイヤデコーダ104の出力は、高解像度、低フレームレートの画像(2kx1kピクセルで24または36Hz)を含む。
同じデータストリームからのBフレームは構文解析され、高解像度時間拡張レイヤデコーダ106へ与えられる。かかるBフレームには略4mビット/秒の帯域幅が要求される。高解像度拡張レイヤデコーダ104の出力は、高解像度時間拡張レイヤデコーダ106へ連結されている。時間拡張レイヤデコーダ102の出力も高解像度時間拡張レイヤデコーダ106へ連結されている。高解像度時間拡張レイヤデコーダ106は36fpsで復号化できる。高解像度時間拡張レイヤデコーダ106の結合された出力は、高解像度、高フレームレートの画像(72Hzで2kx1kピクセル)を含む。
このスケーラブル符号化メカニズムを通じて達成される圧縮率は非常に高く、極めて高い圧縮効率を示している。図10の例における時間的およびスケーラビリティの各オプションについての圧縮率を表5に示す。これらの圧縮率は24ビット/ピクセルのソースRGBピクセルに基づいている。(従来の16ビット/ピクセルの4:2:2符号化または従来の12ビット/ピクセルの4:2:0符号化を計算にいれる場合、圧縮率は示す値のそれぞれ3/4および1/2になるだろう。)
Figure 2008035551
これらの高圧縮率は2つの要素により可能になっている。
1)高フレームレートの72Hz画像の高い時間的コヒーレント性(干渉性)
2)高解像度の2kx1k画像の高い空間的コヒーレント性(干渉性)
3)解像度ディテール拡張を画像の重要部分(例えば、中央の中心部)に適用し、それほど重要でない部分(例えば、フレームの境界)には適用しないこと
これらの要素は、本発明のレイヤ化圧縮手法において、MPEG−2符号化シンタクスの強さを利用することによって活用されている。これらの強さは、時間スケーラビリティのための双方向補間されるBフレームを含む。MPEG−2シンタクスはまた、基本および拡張の両レイヤにおいて動きベクトルを使用することよって効率的な動作表現を提供する。MPEG−2はまた、高いノイズおよび素早い画像変化のある閾値までは、DCT量子化と連携した動き補償によって拡張レイヤ内で効率的にノイズではなくディテールをコード化する。この閾値を超えたら、データ帯域幅は基本レイヤへ割り当てるのが最善である。これらのMPEG−2メカニズムは、時間的にも空間的にもスケーラブルな非常に効率的かつ効果的なコード化を生み出すために本発明に従って使用されるとき、協働する。
5mビット/秒のCCIR601デジタルビデオの符号化と比較すると、表5中の圧縮率ははるかに高い。この理由の1つはインターレースによる、あるコヒーレンスの損失である。インターレースは、垂直に隣接するピクセル間の相関だけでなく、後続のフレームおよびフィールドの両方を予測する能力にも悪影響を与える。従って、ここで説明されている圧縮効率の増加の大部分は、インターレースがないことによるものである。
本発明によって達成される大きな圧縮率は、各MPEG−2マクロブロックをコード化するのに利用可能なビット数という観点から考慮することができる。上述のように、マクロブロックは、4個の8x8のDCTブロックからなる16x16ピクセルのグループであって、Pフレームについて1つの動きベクトル、Bフレームについて1つまたは2つの動きベクトルを伴っている。各レイヤについてのマクロブロック当たりに利用可能なビットを表6に示す。
Figure 2008035551
各マクロブロックをコード化するのに利用可能なビット数は、基本レイヤよりも拡張レイヤにおいて少ない。基本レイヤはできるだけ高品質であるのが望ましいため、これは適切である。動きベクトルは8ビット程度を必要とし、マクロブロックタイプのコードならびに全4個の8x8DCTブロックについてのDCおよびAC係数に10〜25ビットが残される。これは、数個分の「戦略的に利用できる」AC係数にのみしか余裕がない。従って、統計上、各ブロックについて利用可能な情報のほとんどは、拡張レイヤの先行するフレームから来るものでなければならない。
MPEG−2の空間スケーラビリティが、これらの圧縮率においてなぜ効果的でないかが容易に分かる。拡張差分画像によって表わされるディテールのハイオクターブを表すのに十分なDCおよびAC係数をコード化するのに利用可能な十分なデータスペースがないからである。ハイオクターブは、主に第5乃至第8の水平および垂直AC係数において表される。DCTブロック当たり2〜3ビットしか利用可能でない場合は、これらの係数に到達できない。
ここで記述されたシステムは、過去の拡張差分フレームからの動き補償予測を利用することによってその効率を得ている。これは、時間的および解像度(空間的)レイヤ構造の符号化において優れた結果をもたらす上で明らかに効果的である。
グレースフルデグラデーション ここで述べる時間的スケーリングおよび解像度スケーリングの手法は、2kx1kのオリジナルソースを用いた毎秒72フレームで通常に動作する素材に対して上手く動く。これらの手法は、24fpsで動作するフィルムベースの素材に対しても上手く動く。しかしながら、高フレームレートでは、非常にノイズのような画像がコード化される場合、または画像ストリーム中に非常に多い撮影カットが存在する場合、拡張レイヤは、効果的なコード化のために必要なフレーム間のコヒーレンスを失ってしまうことがある。かかる損失は、典型的なMPEG−2エンコーダ/デコーダのバッファ占有量/レート制御メカニズムが量子化器を非常に粗いセッティングに設定しようとするので、容易に検出される。この状態に遭遇したとき、通常は解像度拡張レイヤの符号化に使用されるビットを全て基本レイヤに割り当てられ得る。基本レイヤは、そのストレスの多い素材をコード化するのにできるだけ多くのビットを必要とするからである。例えば、基本レイヤについて毎フレーム約0.5および0.33Mピクセルの間で、毎秒72フレームでは、得られるピクセルレートは24から36Mピクセル/秒であろう。利用可能なビットを全て基本レイヤに与えることは、フレームあたり約50万から67万の追加ビットが18.5mビット/秒で与え、それはストレスの多い素材であっても非常に良好にコード化するのに充分なはずである。
全フレームが非常にノイズ的であったり、および/または、数フレーム毎にカットが発生したりというような、より極端なケースであっても、基本レイヤにおける解像度の損失を伴うことなく、更にグレースフルデグラデーションを行うことが可能である。これは、時間拡張レイヤをコード化するBフレームを除去することによって達成でき、それにより利用可能な帯域幅(ビット)の全てを36fpsの基本レイヤのIおよびPフレームに使用できるようになる。これによって、基本レイヤの各フレームについて利用可能なデータ量が約1.0〜1.5mビット/フレーム(基本レイヤの解像度による)に増加する。また、極端にストレスの多いコーディング条件の状況下でもなお、36fpsというかなり良好な動作表現レートを、基本レイヤのかなりの高品質な解像度で実現するだろう。しかしながら、基本レイヤの量子化器が約18.5mビット/秒、36fpsという粗いレベルで依然として動作している場合は、基本レイヤのフレームレートは毎秒24、18、あるいは12フレームにまで劇的が低下し(各フレームに1.5〜4mビットを利用可能とするだろう)、それによって最も異常に動く画像タイプであっても処理できるはずである。かかる状況でフレームレートを変化させる方法は公知である。
米国の次世代テレビジョンに対する現行提案は、これらのグレースフルデグラデーションの方法を許容しておらず、そのためストレスの多い素材に対しては本発明のシステムほど優れた性能を発揮することはできない。
ほとんどのMPEG−2エンコーダにおいて、適応量子化レベルは出力バッファ占有量によって制御されている。本発明の解像度拡張レイヤにおける高圧縮率では、このメカニズムは最適には動作しないかもしれない。様々な手法を使用して最適画像領域へのデータ割り当てを最適化できる。概念的に最も単純な手法は、解像度拡張レイヤ上で符号化のプリパスを実施し、統計を集めて、維持するべきディテールを検索することである。プリパスの結果は、解像度拡張レイヤにおけるディテールの維持を最適化するために適した量子化を設定することに使用され得る。また、量子化の設定を画像上で不均一なるように人為的に偏らせ、画像ディテールをメイン画面領域に割り当て、フレームの最縁部のマクロブロックから離れるように偏らせて割り当てることも可能である。
既存のデコーダはかかる改良がなくても良好に機能するので、拡張レイヤの境界を高フレームレートで残す以外は、これら調整のいずれも必要ではない。しかしながら、こうした更なる改良は、拡張レイヤエンコーダに僅かに余分な工夫を施すことによって利用できるようになる。
結論
新しい共通基盤となる時間レートとして36Hzを選択することは最適なようである。このフレームレートの使用を論証すると、60Hzおよび72Hzの両ディスプレイに対して、24Hzからは顕著な改善があることが分かる。36Hz画像は、72Hz画像キャプチャから1つおきのフレームを利用して作成できる。これにより、36Hz基本レイヤ(好ましくはPフレームを使用)と36Hz時間拡張レイヤ(Bフレームを使用)とを結合して、72Hz表示を実現できる。
本発明のアプローチによって「未来志向」のレートである72Hzは譲歩されない。60Hz用アナログNTSC表示のための移行が提供される。本発明はまた、検討されているその他の受動的エンターテイメント専用(コンピュータ非互換)のその他の60Hzフォーマットが受け入れられた場合でも、その60Hz用表示のための移行をも可能にする。
解像度スケーラビリティは、解像度拡張レイヤに対して分離したMPEG−2画像データストリームを用いることにより達成できる。解像度スケーラビリティはBフレームアプローチを利用して、基本解像度および拡張解像度の両レイヤにおいて時間スケーラビリティを提供できる。
ここで説明する発明は多くの非常に望ましい特長を達成している。米国の次世代テレビジョン処理関係者の中には、地上波放送で利用可能な略18.5mビット/秒以内では、解像度または時間スケーラビリティのどちらも高精細解像度で達成できないと主張する者もいる。しかしながら、本発明はこの利用可能なデータレート内で時間スケーラビリティおよび空間−解像度スケーラビリティの両方を達成する。
また、利用可能な18.5mビット/秒のデータレート内では、インターレースを用いずに高フレームレートでの2Mピクセルは達成できないとも主張されてきた。しかしながら、本発明は、解像度(空間的)スケーラビリティおよび時間的なスケーラビリティを達成するのみでなく、72フレーム/秒で2Mピクセルを実現できる。
これらの能力の提供に加えて、本発明は、特に次世代テレビジョンについての現行提案と比較して非常に強健(ロバスト)でもある。これは、非常にストレスの多い画像素材に遭遇した場合、ほとんどまたは全てのビットを基本レイヤに割り当てることによって可能にされている。そのようなストレスの多い素材は、その性質上ノイズのようであり、かつ、非常に素早く変化する。このような状況下では、解像度の拡張レイヤに関連したディテールは目に見えない。ビットは基本レイヤに当てられるので、再生フレームは、単一で一定した、より高い解像度を用いる現行提案の次世代テレビジョンシステムに比べて、相当に精確なものとなる。
このようにして、本発明のシステムは、最大限の視覚的インパクトを提供しつつ、知覚上の効率およびコード化の効率を共に最適化するものである。このシステムは、これまで多くの人に不可能と考えられてきた解像度およびフレームレート能力で、非常に鮮明な画像を提供する。本発明のシステムは、現時点で提案されている次世代テレビジョンフォーマットより性能がすぐれている可能性が高いと信じられる。この予想される素晴らしい性能に加え、本発明は時間的および解像度レイヤ構造の非常に価値ある特長も提供する。
暗号化および透かし処理
概要
レイヤ化圧縮は、フレキシブルな暗号化および透かし処理手法をサポートする画像のモジュール化した分解の形式を可能にする。レイヤ化圧縮を用いることにより、基本レイヤおよび基本レイヤの様々な内部コンポーネントは、圧縮されたレイヤ構造の映画データストリームを暗号化および/または透かし処理するために、使用され得る。圧縮されたデータストリームに暗号化および透かし処理を施すことは、オリジナルデータのレートで処理しなければならない高解像度のデータストリームと比較して、必要な処理量を削減する。暗号化および透かし処理に要求される計算時間は、処理しなければならないデータ量に依存する。演算リソースが特定のレベルである場合、レイヤ化圧縮を通じてデータ量を削減することは、暗号強度の改善、又は、暗号化/解読コストの削減、もしくは、その両方を生み出せる。
暗号化によって圧縮画像(および音声)データは保護され、キーを持つユーザに限って情報へ容易にアクセスできるようになる。レイヤ化圧縮は、画像をコンポーネント、すなわち時間および空間基本レイヤ、ならびに時間および空間各拡張レイヤに分解する。基本レイヤは可視ピクチャの復号化へのキーである。従って、時間および空間基本レイヤのみ暗号化すればよく、それによって必要計算量を削減できる。時間および空間拡張レイヤは、解読および伸長された基本レイヤがなければ無価値である。そのため、このようなレイヤ化されたビットのサブセットを使用することにより、ストリーム全体のビットの小部分だけを暗号化することでピクチャストリーム全体を認識不能にできる。様々な暗号化アルゴリズムおよび強度が、拡張レイヤを含むレイヤ化されたストリームの様々な部分に適用され得る。また、暗号化アルゴリズムまたはキーは、暗号化とピクチャストリームとをより絡み合わせるために、各スライス境界(信号エラー回復のためのデータストリーム構造)毎に変更され得もする。
不可視に(またはほとんど不可視に)透かし処理を行うことで作品のコピー(複製品)はマーキングされる。この概念は、紙の中に識別可能な記号を配置して書類(例えば、お金)が真正であることを保証するというプラクティスに端を発している。透かし処理によって、認証済みオーナーまたはライセンシーの所有から取り去られ得るコピーを追跡(トラッキング)できる。従って、透かし処理は遺失したまたは窃取されたコピーをそのソースまでトラッキングするのに役立ち、盗難方法の性質の判定ができ、窃取にかかわった人々の特定を可能にする。
透かし処理の概念は、表示されている実際の画像上にかすかな画像シンボルまたは署名の配置を試みることによって画像へ適用されてきた。電子透かし処理の最も幅広く認知されている概念は、高振幅の可視画像上に印加した低振幅の可視画像である。しかしながら、このアプローチは、テレビジョン上の画面の隅にネットワークロゴを印加する処理と同様に、オリジナル画像の品質を若干変更してしまう。そのような変更はピクチャ品質を低下させてしまうので望ましくない。
圧縮ドメインでは、信号を改変して、透かし記号またはコードをそれらの信号上に印加しつつも、これらの透かし改変が視覚ドメインに直接適用されないようにすることができる。例えば、DCT変換は周波数変換スペース内にて動作する。このスペースにおけるいかなる改変も、特にフレームからフレームへと訂正されるのであれば、はるかに見え難い(または完全に不可視)かもしれない。好ましくは、透かし処理は、目には不可視またはほとんど不可視でありながらも、信頼性の高い識別を提供するために、レイヤ化圧縮映画ストリームの特定のフレームにおける特定の係数の低位ビットを使用する。透かし処理は圧縮データストリームの基本レイヤに適用できる。しかしながら、拡張レイヤは最初はディテールにおいて非常に微妙であるため、基本レイヤよりもはるかに大きい程度にて保護することができる。各拡張レイヤは、それ自身の独特な(ユニークな)識別用透かし構造を有することができる。
一般に、透かし処理がストリームから容易に除去できないように、暗号化および透かし処理を混合することを確実にするように注意が払われなければならない。このため、透かしをレイヤ化データストリーム内の様々な有用な位置に適用することが有益である。しかしながら、透かし処理は海賊および海賊行為の経路の検出に最も有用であることから、暗号化は完全にまたは部分的に弱められたと推定しなければならず、従って透かし処理は、単純な手順を使ってそれら様々な透かしを除去できないように、データストリーム中に強健に深くしみこまされるべきである。好ましいアプローチは、安全に保管された作品のマスター表示を持ち、そのマスターからランダムなバリエーションを提供して各透かしを独自に作成することである。かかるランダムなバリエーションは、最終的なストリームからはそれらのバリエーションがどのようなものであったかは検出する方法がないので、除去され得ない。しかしながら、透かしを混乱させるべく略奪されたストリームに加えられる追加のランダムなバリエーション(多分可視レベルのノイズを画像に加えることによる)から守るためには、透かしを定める様々なその他の手法(後述の動きベクトル第2ベスト手法等)を備えることが役に立つ。
暗号化は、できるだけ小さい暗号化ユニットによりできるだけ多くのフレームを撹乱する(スクランブルをかける)、または少なくとも視覚的に損傷を与えるように動作するのが好ましい。様々な種類のMPEGおよび動き補償ウェーブレット等の圧縮システムは、ある範囲のフレーム(「ピクチャ群:Group
of Pictures」、すなわちGOP)を復号化するために、カスケード処理しなければならない階層構造の情報のユニットを利用する。この特徴は、その連結された復号化されたユニットの範囲の初期に、少数のパラメータから広い範囲のフレームをスクランブルするように暗号化する機会を提供する。更に、作品を商業的に保護するためには、全てのユニットをより高レベルのユニットの暗号化によって暗号化すなわち撹乱しておく必要はない。例えば、1分おきのフィルムのフレーム、または特に重要なプロットもしくはアクションシーンを暗号化すなわち撹乱しておけば、フィルムは海賊行為にとっては無価値になるであろう。
これに対して、透かし処理の目標は、分析により検出可能ながらも画像中では不可視またはほとんど不可視の(すなわち、顕著な視覚的損傷を生じない)記号および/またはシリアル番号式の識別マークを画像ストリーム上に配置することである。従って、透かし処理は、好ましくは、フレーム群内の各フレームに生じる影響を最小限にするように、復号化ユニットチェーンにおける各ユニットの階層構造の末端付近の各部分へ適用される。
例えば、図11は暗号化および透かし処理が及ぶ範囲をI、PおよびBフレームに対するユニット従属性の関数として表す図である。どのフレームを暗号化しても後続の従属フレームが全て撹乱される。従って、最初のIフレームを暗号化するとそのIフレームから導き出される全てのPおよびBフレームが撹乱される。これに対して、そのIフレーム上の透かしは通常、後続フレームへは繰り越されず、従ってより数が多いBフレームに透かし処理を行ってデータストリーム中で透かしをより広く行き渡らせた方がよい。
ビデオ情報の単位 圧縮されたMPEGタイプまたは動き補償ウェーブレットのビットストリームは、ビデオ中の圧縮された情報の様々な基本的なユニットを正常に抽出および処理することによって、構文解析される。これは、MPEG−2、MPEG−4および動き補償ウェーブレット(ウェーブレットがI、PおよびBフレームに相当するものを有すると考えるとき)等の最も効率的な圧縮システムに当てはまる。かかるユニットは、マルチフレームユニット(GOP等)、シングルフレームユニット(例えばI、PおよびBフレームのタイプ、ならびに動き補償ウェーブレットの均等物)、サブフレームユニット(ACおよびDC係数、マクロブロック、ならびに動きベクトル)、および「分散ユニット(distributed
unit)」(後述)から構成され得る。
GOPを暗号化ユニットとして用いる場合、各GOPは独立した方法および/またはキーで暗号化できる。このようにすると、各GOPは独自の処理およびモジュール性の恩恵を受け、非リアルタイムまたは準リアルタイム(数秒ほど僅かに遅延される)のアプリケーション(電子映画および放送等)において、他のGOPと並行してまたは順不同で復号化および/または解読できる。最終的なフレームは、最終的な表示の順番に配列されるだけでよい。
上述のように、特定のユニットの暗号化は、その暗号化されたユニットから取得される情報に従属する他のユニットの適切な復号化を撹乱させることがある。つまり、一つのフレーム内のある情報が後続フレームのビデオ情報の復号化に要求され、先のフレームのみを暗号化した場合に、それ以外には暗号化されていない後のフレームの復号化が撹乱されることがある。従って、暗号化するユニットを選択する際には、特定のユニットを暗号化することによって他の関連するユニットの可用性がどのように撹乱されるかに留意することは有益である。例えば、一つのGOPに及ぶ多数のフレームは、表7に示す様々なレベルで影響を受ける。
Figure 2008035551
更に、GOPのある部分または全てを撹乱させるに、フレーム全体を暗号化する必要はない。フレームのサブユニットを暗号化してもよく、暗号化および解読の処理時間を削減しつつ、なおも撹乱効果を発揮する。例えば、特定フレーム内ユニットを暗号化は、表8に示す様々なレベルで後続フレームに影響を与える。
Figure 2008035551
多くのアプリケーション(放送およびデジタル映画等)では遅延を適用して、同類のユニットからのアイテムの集合体を伝送前に暗号化することが可能である。これにより、暗号化/解読ユニットを含むビットが上述した種類の従来型ユニット内でデータストリームのいたるところへ物理的に割り当てられている「分散ユニット」が実現し、キーを知らずに解読することをはるかに困難にできる。解読するには、充分な数の従来型ユニットを(例えば、バッファ内に)集め、グループとして解読する。例えば、フレームまたはGOPの全体についてグループ内にDC係数を集めることができる。同様に、動きベクトルは、1つの動きベクトルから次の動きベクトルへ、1つのマクロブロックから次のマクロブロックへというように、フレームを通じて差分的に(differentially)コード化および予測され、これにより集合体内で暗号化および解読され得る。また、可変長コード化テーブルもグループ内に集められ、「スタートコード」間でモジュール型ユニットを形成可能である。集合化され、暗号化され、そしてその暗号化されたビットがデータストリーム内で分離されまたは分散させられることが可能なユニットまたはサブユニットの更なる例は、動きベクトル、DC係数、AC係数および量子化器のスケールファクタを含む。
暗号化の適用
好ましい実施の形態では、1つ以上の上記ユニット(または同様の特性を持つ他のデータストリームユニット)が暗号化のために選択されてもよく、各ユニットは、(MPEG−1、MPEG−2およびMPEG−4と同様に)結合されたストリームとしてではなく、独立して暗号化され得る。各ユニットの暗号化には異なる強度の異なるキー(例えば、キー毎のビット数)を使用してもよく、そして異なる暗号化アルゴリズムを使用してもよい。
暗号化は独自に作品の個別のコピー毎に適用され得(DVD−RAM等の物理媒体が使用される場合)、その結果、各コピーがそれ独自のキーを有するようにできる。あるいは、暗号化アルゴリズムは、(例えば、左側のマクロブロックの動きベクトルを全てゼロに設定することによって)ストリームの重要部分が暗号化前にそのデータストリームから除去または改変された状態で組み立てられたストリームに適用され得る。それによりバルク(大量)配信用コピーの形を定める。除去または改変された部分は、次いで、各表示サイト毎に別々におよび独自に暗号化されることができ、それによって便利な方法(例えば、衛星伝送、モデム、インターネット等)で個々のサイトへ別々に送信されるカスタム配信用コピーが定められる。この手法は、例えば、作品の大部分がDVD−ROM等の媒体で配信される一方、より小さい重要な圧縮ユニットの独自のコピーが、それら自身に独自のキーと共に独立した受取先へ別々に送信される(例えば、衛星、インターネット、モデム、速達便等で)場合に有用である。カスタム部分が解読され、そして解読されたバルク配信用コピーと再結合されて初めて、作品全体がビデオ信号として復号化できることになる。かかるカスタム情報の帯域幅(サイズ容量)が大きいほど、カスタム暗号化され得る画像部分も大きい。この手法は透かし処理とも併用できる。
このアプローチの変形には、データストリームのユニットのサブセットをカスタム配信用コピーとして暗号化し、残りのユニットは全く暗号化しないというものがある。残りのユニットはバルク形式でカスタム配信用コピーとは別に配信してもよい。カスタム部分が解読され、そして暗号化解除されたバルク配信用コピーと再結合されて初めて、作品全体がビデオ信号として復号化できる。
1つ以上の全体的な暗号化は、ビデオ復号化情報の様々な重要なユニットに対する特別なカスタマイズされた暗号化に連結又は結合され得る。例えば、ビデオデータストリーム全体を「軽く」(例えば、短いキーまたは単純なアルゴリズムを使用して)暗号化する一方、そのデータストリームの特定の鍵を握るユニットをより「重く」(例えば、長いキーまたはより複雑なアルゴリズムを使用して)暗号化してもよい。例えば、一実施の形態では、最も高次の解像度および/または時間レイヤをより重く暗号化して、適正に解読された場合に最も見栄えがよい画像を提供するプレミアム信号の形を作ってもよい。画像の低次のレイヤがかかる暗号化の影響を受けることはない。このアプローチはエンドユーザに対する様々なグレードの信号サービスを可能にするだろう。
各ユニットが互いに独立して暗号化されている場合、圧縮画像ストリーム内の別々のユニットに1つ以上の並行処理解読方法を私用し、解読を並行して実行してもよい。
透かし処理の適用
上で議論した各ユニットおよび同様の特性を有する他のユニットに関して、圧縮ビデオデータストリーム内の様々な個所が様々な方法での透かしを適用するのに適しており、そのような個所には以下が含まれる。
・変換空間もしくは実空間、またはそれらの組み合わせにおいて。
・DC係数の最下位ビット(LSB)において。例えば、DC係数は余分なビットを有することが可能である(MPEG2では10および11ビット、MPEG4では最高14ビットが許容される)。低位ビットは、画像を視覚的に全く劣化させることなく特定の透かし識別子をコード化できる。更に、明瞭な透かしが全てのフレームにある必要はないので、このような低位ビットはIフレームだけにあればよいだろう。
・AC係数のLSB内のノイズパターンにおいて。
・低振幅のピクチャ全体の低周波数において、フレームから次のフレームへとコード化されて、視覚的に検出できない画像化パターンを形成する。これは例えば、各フレーム上の少数の低信号振幅の文字または数字であり、各文字が非常に大きく柔らかいものであってもよいだろう。例えば、ひとつのピクセルが2進数値の「84」を有するべきであるところ、透かし処理はその値を代わりに「83」に設定することが可能で、その透かしはこの位置において「1」の値を有することになる。その差異は本質的に目には不可視だが、圧縮データストリーム内にコードを形成する。かかる画像化パターンは、復号化画像を、乱されていない(透かし処理を施されていない)伸長されたオリジナルから(および圧縮されていないオリジナルソース作品から)減算し、そしてその振幅を大幅に増大することによって検出されることになる。すると、非常に大きくぼんやりとした一連の文字または数字が出現するだろう。
・伝搬しないフレーム(Iフレーム、Iフレームの前の最後のPフレーム、およびBフレーム等)において、極めて可視性が低いマークを使用する。これらのフレームはまた短時間表示されるにすぎない。
・スライス境界において(通常、マクロブロックラインの左端開始部分)
これらの個所における透かしは一般に、ピクセルデータの小変動のパターンが加えられている。これらの変動は、ピクセルの輝度および色彩におけるビット変動の振幅が非常に低いため、および/または、表示の短さのため、目には不可視またはほとんど不可視の画像または記号を形成することがある。例えば、図12Aおよび12Bは、異なるタイプの透かしを持つ画像フレーム1200の図である。図12Aは、一隅に単一の記号(「X」)1202を持つフレーム1200を示す。図12Bは、マーク(この例では点)1204のセットを持つフレーム1200を示し、マーク1204はフレーム1200上で分散している。これらの透かしはデータ比較によってのみ検出でき、透かし信号を発生する。例えば、精密なデコーダは、目には不可視であるが、オリジナル作品のカスタマイズされたコピーに独自の透かし処理を施す、オリジナル作品と透かし処理を施された作品との間の、LSB変動を検出できる。
特定の画像や記号は付加しないが、データストリーム中にユニークなパターンを形成する他の透かし処理形式を使用してもよい。例えば、コード化のある決定は、ほとんど不可視であるが、データストリームに透かし処理を施すのに使用され得る。例えば、レート制御の小変動は目には不可視だが、各コピーをマーキングするのに用いて、各コピーが幾つかの位置ではわずかに異なる数のAC係数を有するように使用され得る。その他のかかる決定の例には以下が含まれる:
・Iフレーム内のレート制御の変動
・PおよびBフレーム内のレート制御の変動
・LSBに影響を与える、特定のAC係数の割り当て
同様に、透かしコードを作成するために、最適な動きベクトルとほぼ同等の2番目に最良な動きベクトルを選択してもよい。また、全く同じSAD(差分絶対和、共通動きベクトルのマッチング基準)が発生し且つ発生する場所で、それらの2番目に最良なものを選択してもよい。必要があれば、その他の非最適(例えば、3番目及び高ランクの)動きベクトルの一致も、視覚的な損傷をほとんど伴うことなく使用できる。かかる2番目選択(およびさらにそれ以上の位)の動きベクトルは、透かしコードを形成するために、時折(例えばフレーム毎に2〜3紺個)コヒーレントのパターンで使用されることが必要となるのみである。
画像の変動は、フレームの周辺部付近(すなわち上部、下部、右縁および左縁付近)では一層見え難い。そのため、画像または記号のタイプの透かしが僅かでも見える恐れがあるなら、その選択した透かしを画像の縁部領域に適用する方がよい。可視性が極めて低い透かし処理方法(2番目に最適な動きベクトルまたはレート制御の変動等)は、画像上の至る所で使用できる。
また、透かし処理は、透かし処理を施したコピー毎に独自の(ユニークな)シリアル番号式のコードとしてコード化できる。従って、オリジナル作品の1000個のコピーは、1つ以上の上記手法を使用してわずかに異なるように各々透かしが入れられることになる。透かし処理が施されたコピーがそれぞれどこへ出荷されたかを追跡することによって、無許可コピー中に透かしが見つかればどのコピーが無許可複製のソースになったかを決定することが可能である。
透かしの検出
これらの透かし処理方法のほとんどは、その透かしを明らかに見えるようにする(解読する)ために、透かし処理を施した各コピーとの比較用の参照基準として伸張されたオリジナル画像を使用することを要求する。両画像間の差異が透かしを明らかにする。従って、マスターとなる伸張されたソースを安全な場所に保管する必要がある。安全確保が要求されるのは、マスターとなる伸張されたソースのコピーが所有されると、透かし処理方法の多くを駄目にするのに充分な情報が提供されることになるからである。しかしながら、透かし処理比較用マスターの盗難それ自体は検出できる。透かし処理比較用マスターには自動的にそれ自身に完璧にマッチするように「透かし処理」が施されるからである。コピーを撹乱する(すなわち、透かしを見つけて除去する)のに透かし処理比較用マスターが使用された場合、それはマスターを所有していることを示唆する。
低振幅の大きくぼんやりとした記号または画像を透かしとして使用することは、伸張されたマスターソースに対する比較によるだけでなく、圧縮されていないオリジナル作品に対する比較によっても、かかる記号や画像を検出できるという利点を有する。従って、圧縮されていないオリジナル作品を独立した安全な環境に格納することにより、低振幅の透かしはオリジナルの(それ以外には変更されていない)圧縮マスターソース内で使用され得る。このように、オリジナル作品または圧縮/伸張マスターソースのどちらかが窃取されたとしても、透かし比較用の参照基準は残っているだろう。しかしながら、両方を所有することは、両方の透かしを駄目にすることができるであろう。
透かしの脆弱性
透かし処理を用いる際に重要なことは、かかるマークの検出を駄目にしたりまたは撹乱するのに使用され得る方法を理解しておくことである。透かし処理方法には、画像に少量のノイズを加えることによって撹乱されてしまうものもある。これによって画像の品質は多少劣化し、その劣化は視覚的には小さいかもしれない。しかし、透かしの判読を撹乱するには充分である可能性がある。ノイズを加える撹乱に対して脆弱な透かし処理手法は、DCまたはAC係数内のLSBを使用するものを含む。
ノイズを用いて撹乱を起こすことがもっと困難な透かし処理方法もある。ノイズによる撹乱に対して耐性があるものの、依然として容易に検出できる透かし処理手法には、低振幅のピクチャ全体の低周波数の画像変動(画像上にスーパーインポーズされた低振幅の非常にぼんやりとした大きな単語等)、2番目に最適な動きベクトルおよびレート制御の小変動を含む。
従って、透かしの検出を撹乱しようとする単純な方法を駄目にするために、
複数の透かし処理方法を利用することは価値が高い。更に、暗号化を用いることによって、暗号化が傷つけられない限り、透かしを改変できないことを確実にすることができる。そのため、好ましくは、透かし処理はアプリケーションに適した強度の暗号化と併用される。
ツールキットアプローチ
本発明のこのような態様を含む暗号化および透かし処理の様々な概念は、好ましくは、価値の高い音声/映像媒体を保護するというタスクに適用できるツールセットとして具現化される。ツールは、レイヤ化圧縮データストリームの保護システムを作るために、コンテンツ開発者または配信者によって要望に応じて様々に組み合わせ得る。
例えば、図13は本発明の暗号化手法を適用した1つの方法を示すフローチャートである。暗号化されるユニットが選択される(ステップ1300)。これは、上記ユニットのいずれ(例えば、分散ユニット、マルチフレームユニット、シングルフレームユニット、もしくはサブフレームユニット)であってもよいし、または同様の特性を持つその他のユニットであってもよい。暗号化アルゴリズムが選択される(ステップ1302)。これは上記のように、暗号化セッションを通じて適用される単一のアルゴリズムであってもよいし、またはユニット毎に選択されたものであってもよい。好適なアルゴリズムは周知であり、例えば、DES、トリプルDES、RSA、ブローフィッシュ他等、秘密と公開キーとの両方のアルゴリズムを含む。次に、1つ以上のキーが生成される(ステップ1304)。これはキーの長さおよびキーの値の両方の選択を伴う。再度、これは上記のように、暗号化セッションを通じて適用される単一の選択であってもよいし、または真にユニット毎の選択であってもよい。最後に、選択されたアルゴリズムおよびキーを使用してユニットが暗号化される(ステップ1306)。そして次のユニットに対する処理が繰り返される。当然、幾つかのステップ、特にステップ1300、1302および1304は、異なる順番で実行されてもよい。
伸張のためには、データストリームを解読するために関連するキーが適用されるであろう。その後、データストリームは上記のように伸張および復号化され、表示可能な画像が生成される。
図14は本発明の透かし処理手法を適用する1つの方法を示すフローチャートである。透かし処理が施されるユニットが選択される(ステップ1400)。これも、上記ユニットのいずれ(例えば、分散ユニット、マルチフレームユニット、シングルフレームユニット、もしくはサブフレームユニット)であってもよいし、または同様の特性を持つその他のユニットであってもよい。そして、ノイズに耐性のある方法およびノイズに耐性のない方法等、1つ以上の透かし処理手法が選択される(ステップ1402)。これは、透かし処理セッションを通じて適用される1つの選択であってもよいし、または真にユニット(もしくは、異なるタイプのユニットに2つ以上の透かし処理手法が適用される場合、ユニットの分類)毎の選択であってもよい。最後に、選択した手法を使用して選択したユニットに透かし処理を施す(ステップ1404)。そして次のユニットに対して処理を繰り返す。当然、幾つかのステップ、特にステップ1400および1402は、異なる順番で実行されてもよい。
キー管理
暗号化/解読キーは、より安全なまたは同期化されたキーを構成するために、様々な情報のアイテムと結び付けられ得る。例えば、公開または秘密の暗号化および解読キーは、以下の構成要素のいずれかを含むように生成しても、あるいはそれらから導き出してもよい。
・過去のキー。
・宛先の装置(例えば、安全なシリアル番号を持つ映画館のプロジェクタ)のシリアル番号。
・日付または時間の範囲(安全な時計を使用)、キーが特定時間しか作用しないようにする(例えば、週の特定曜日のみ、1週間等の相対的な期間のみ)。例えば、暗号化システムは、時間ソースとしてデコーダ内での安全なGPS(全地球測位衛星)の使用を計画してもよい。解読処理装置はその安全な時間ソースへアクセスする必要があるだけで、画像ファイルまたはストリームを解読できる。
・解読処理装置の位置。GPS能力によってかなり正確なリアルタイム位置情報をキーに組み込むことが可能になる。また、既知の宛先の静的インターネットプロトコル(IP)アドレスも使用可能である。
・各映画館から(手動または自動で)報告される、作品の過去の上映回数の会計記録。
・特定の認証者(例えば、映画館の管理者)の「PIN」(個人識別番号)。
・物理的なカスタマイズ暗号化された映画(例えばDVDの映画であり、そこでは各映画は特定の映画館に対してユニークにキー登録がなされる)を用いて、その意図されているサイトでキー保有者による暗号化された映画のそのものの所有をもって、後続映画のキー認証の形式とすることが可能である。例えば、映画の一部を再生し遠隔地のキー発生サイトへその部分を伝送することを、キー認証プロトコルの一部にすることが可能である。更に、配信用コピーがハードディスクまたはDVD−RAM等の消去可能な媒体に格納されている場合、キー要素として暗号化された映画データを使用することが安全な媒体消去キーと結び付けられ得る。このようにして、新しい映画を取得するためのキー処理の一部として過去の映画は消去される。
・また、キーは、特定の上映回数またはその他の自然数の使用単位に対して有効であり、その後は新しいキーを要求するようにできる。
解読用キーの配信を管理する様々な方法が適用できる。様々なキー管理戦術が各使用方式および各データ配信方式(ネットワークデータ転送、衛星、または物理的なディスクもしくはテープ媒体のいずれか)に適用できる。キー配信および管理手続きの例を以下に示す。
・キーは、媒体(例えばフロッピーディスク(フロッピーは登録商標)、CDROM)に格納されて翌日配達で宛先へ物理的に送られ、または電子的にもしくは文書形式で(例えばファクシミリ、電子メール、直結データ伝送、インターネット伝送等によって)伝送することができる。
・公開キーによる方法は、認証された第三者によるキー検証に加えて局所的な独自キーとも併用できる。
・各宛先(例えば映画館)毎にキーの解読および適用規則を予め定義しておくことで、キーそのものを暗号化して電子的に伝送(例えば直結データ伝送、インターネット伝送、電子メール、他によって)してもよい。
・新しいキーを取得または利用する条件として現行キーの所有を要件にしてもよい。現行キー値は上記の好適などの手段でキー管理サイトへ伝送してもよく、新しいキーは上記の手段の1つで返送できる。
・解読キーの使用は、解読の全ケースでキーの適用を検証または認証するキー管理サイトとの「キー握手」を要求してもよい。例えば、解読キーは、キー管理サイトによって維持される追加記号、その特定の記号は使用の度に変化するのだが、と結合する必要があってもよい。キー握手の使用は、上映毎、もしくは使用時間の長さ毎、またはその他の自然数値の単位毎に使用可能である。かかる使用は自然数単位の課金であってもよいので、キー管理は、使用回数または使用時間をログ記録してキー保持者に対して適切に課金(例えば、映画館に対する上映毎のレンタル料金)する課金システムと一体化することもできる。例えば、キー管理および使用ログ記録の両方を、認証された各上映または使用時間、に対する課金を同時に扱えるキー認証サーバシステムに結び付けることができる。
あるキーは、オンサイトで認証されるキーに対する事前認証されたキーであってもよい。事前認証キーは、一般に、キー管理サイトによって一度に1つずつ発行されるだろう。オンサイトキー認証では、キー管理サイトが映画館に対してキーのセットを発行し、それにより現場の管理者が、観客の要望に対応するために、当初予測したよりも人気が出た映画の追加的解読(すなわち上映)の権限を与えることを可能にしてもよい。かかるキーを使用する場合、課金目的で、追加上映についてキー管理サイトへ信号を(例えば、インターネットを介して送信する電子メールもしくはデータ記録により、またはモデムにより)送るようにシステムが設計されているのが好ましい。
結論
新規であると考えられる本発明の様々な態様は、限定されることなく、以下の概念を含む。
・レイヤ化圧縮に適用する暗号化
・レイヤ化圧縮に適用する透かし処理
・レイヤ化されたシステムの各レイヤに適用され、各独立レイヤのロック解除のための異なるキー、認証、またはアルゴリズムを要求するユニークな暗号化
・各レイヤに適用され、(シリアル番号等の方法を使用して)特定レイヤを識別するためのユニークな透かし処理
・暗号化または透かし処理に圧縮画像ストリームのサブフレームユニットを利用すること
・特定種類の透かしの検出を撹乱しようとする方法から保護するため、複数の透かし処理方法を同時に利用すること
・複数の暗号化方法および強度を同時に利用。それにより、単一レイヤまたはレイヤ構造の圧縮画像ストリーム内の様々なユニットを復号化するため、複数の独立した解読システムを要求すること
・圧縮画像ストリーム内の様々なユニットに対して1つ以上の解読方法を同時に用いて並行に解読すること
・課金システムへキーを結び付けること
・特定の媒体および/または特定の目標位置もしくはシリアル番号へ暗号化を結び付けること
・安全な時計および使用日の範囲に暗号化を結び付けること
・安全な使用カウンタによる特定の使用回数へ暗号化を結び付けること
・新しい映画またはキーを取得するためのキーとして映画そのものを使用すること
・新しい映画を取得するためのキーとして使用される時、または認証された使用期間が終了する時に、物理媒体から映画データを消去すること
・フレキシブルなキーツールキットのアプローチを用い、フレキシビリティ、使用利便性、および安全性を改良するために、キーの使用方法を継続的にリファインすること
・透かし処理手法として2番目に最適な(または3番目等の最適な)の動きベクトルを使用すること
・透かし処理手法としてレート制御の小変動を使用すること(I、B、および/またはPタイプフレームの任意の組合せ、ならびにそれらに相当する動き補償ウェーブレットに適用)
・透かし処理手法としてDCおよび/またはAC係数における低位ビットの変動を使用すること(I、B、および/またはPタイプフレーム、ならびにそれらに相当するものに適用)
・各コピーへユニークに透かし処理を施すために、圧縮時に画像の各コピーへユニークに加えられる低振幅のぼんやりとした文字または数字を使用すること
・画像ストリームの大きな部分に影響を与えるビットストリームの部分に暗号化を適用すること(暗号化に高影響)
・作品の大部分に全体的な暗号化を適用し、選択されたユニットにカスタマイズされた暗号化を適用すること
・データストリームのわずかな部分を暗号化し、これらをポイントツーポイントの方法で各特定の位置へ送信すること(シリアル番号、キー、職員コード、IPアドレス、およびその特定の位置におけるその他のユニークな識別子へ結び付けることを含む)
・可視性を最小化するために、その他のフレームへの影響が低いビットストリームの部分に透かし処理を適用すること
・視覚的影響を最小化するために、画像の縁部領域(上部、下部、左縁および右縁付近)に対して潜在的に可視の透かし(低振幅の文字および数字、またはDCもしくはAC係数内のLSB等)を使用すること
・左コラム(スライス開始)動きベクトル、Iフレーム内のDCおよびAC係数、予測モードビット、制御コード等、独立して暗号化するためにサブフレームユニットの影響点を抽出すること
コンピュータ実装
本発明は、ハードウェア(例えば集積回路)もしくはソフトウェア、または両者の組み合わせで実施可能である。しかしながら、本発明は、少なくとも処理装置、データ記憶システム(揮発性および不揮発性メモリ、ならびに/または記憶素子を含む)、入力装置、および出力装置を含む、1つ以上のプログラム可能なコンピュータ上で実行されるコンピュータプログラムにおいて実施されるのが好ましい。プログラムコードを入力データに適用することにより、本明細書に記載する機能を実行するとともに出力情報を生成する。出力情報は既知の方法で1つ以上の出力装置に適用される。
かかるプログラムの各々は、任意の所望のコンピュータ言語(機械語、アセンブリ語、または高レベル命令型語、論理語、もしくはオブジェクト指向プログラミング言語を含む)で実装して、コンピュータシステムと通信させてもよい。いずれの場合も、言語はコンパイル言語でも翻訳言語でもよい。
かかるコンピュータプログラムの各々は、汎用または専用のプログラムマブルコンピュータシステムによって可読な記憶媒体または装置(例えば、ROM、CD−ROM、または磁気もしくは光学媒体)に格納され、その記憶媒体または装置がコンピュータシステムによって読み込まれるとコンピュータを環境設定および動作させて、本明細書に記載の手順を遂行するのが好ましい。本発明のシステムはまた、コンピュータプログラムと共に構成されたコンピュータ可読記憶媒体としての実装されるものと考えられ、そのように構成した記憶媒体によってコンピュータシステムを特定の予め定義された方法で動作させ、本明細書に記載の機能を遂行してもよい。
本発明の幾つかの実施の形態を説明してきたが、本発明の精神および範囲を逸脱することなく、種々の変更が可能であることは言うまでもない。例えば、好ましい実施の形態はMPEG−2コード化および復号化を用いるが、本発明はI、B、およびPフレームと均等なものならびにレイヤを提供するいかなる同様の規格でも作動するであろう。そのため、本発明は説明した特定の実施の形態に限定されるものではなく、専ら添付の特許請求範囲により限定されるものであることが理解されよう。
24fpsおよび36fpsの素材を60Hzで表示するためのプルダウンレートを示すタイミング図である。 第1の好ましいMPEG−2コード化パターンを示す。 第2の好ましいMPEG−2コード化パターンを示す。 本発明の好ましい実施の形態による時間レイヤ復号化を示すブロック図である。 36Hzおよび72Hzの両方のフレームを出力できるコンバータへの60Hzインターレース入力を示すブロック図である。 24または36Hzにおける基本MPEG−2レイヤのための「マスターテンプレート」を示す図である。 MPEG−2を利用する階層的な解像度スケーラビリティを用いる基本解像度テンプレートの拡張を示す図である。 好ましいレイヤ化解像度符号化処理を示す図である。 好ましいレイヤ化解像度復号化処理を示す図である。 本発明によるデコーダに対する解像度および時間的スケーラブルのオプションの組合せを示すブロック図である。 暗号化および透かし処理が及ぶ範囲をユニット従属性の関数として表す図である。 あるタイプの透かしを持つ画像フレームの図である。 異なるタイプの透かしを持つ画像フレームの図である。 本発明の暗号化手法を適用する1つの方法を示すフローチャートである。 本発明の透かし処理手法を適用する1つの方法を示すフローチャートである。
符号の説明
50…MPEG−2デコーダ、52…第2のデコーダ、60…カメラ、62…他のソース、64…コンバータ、1200…フレーム、1202…記号、1204…マーク。

Claims (48)

  1. 基本レイヤおよび少なくとも1つの拡張レイヤへ符号化および圧縮されたビデオ情報のデータストリームに透かし処理を施す方法であって、
    (a)少なくとも1つの透かし処理手法を選択するステップと、
    (b)前記基本レイヤまたは前記少なくとも1つの拡張レイヤのうちの少なくとも1つの透かし処理を施すべきユニットを選択するステップと、
    (c)前記少なくとも1つの選択された透かし処理手法を適用して、前記選択されたユニットの各々を透かし処理が施されるユニットとして透かし処理を施すステップと、
    (d)前記少なくとも1つの選択された透かし処理手法を適用して、前記ビデオ情報のデータストリームのコピーを同データストリームのソースまで遡って追跡するために同データストリームに追跡データを追加するステップと、
    を含む方法。
  2. コンピュータに、前記透かしの可視性を最小化させるために、透かし処理を施すべきユニットであって透かし処理が施されないユニットへの影響が低いユニットを選択させる命令を含む請求項1に記載の方法。
  3. 前記少なくとも1つの選択されたユニットがマルチフレームユニットである請求項1に記載方法。
  4. 前記少なくとも1つの選択されたユニットがフレームユニットである請求項1に記載の方法。
  5. 前記少なくとも1つの選択されたユニットがサブフレームユニットである請求項1に記載の方法。
  6. 前記少なくとも1つの選択されたユニットが分散ユニットである請求項1に記載の方法。
  7. 前記ビデオ情報のデータストリームは表示可能なフレームを含み、更に、コンピュータに、前記透かしの可視性を最小化させるために、前記選択された透かし処理手法を適用させて前記表示可能なフレームの各々の周辺部へ透かしを加えさせる命令を含む請求項1に記載の方法。
  8. 基本レイヤおよび少なくとも1つの拡張レイヤへ符号化および圧縮されたビデオ情報のデータストリームに透かし処理を施す方法であって、
    (a)少なくとも1つの透かし処理手法を選択するステップと、
    (b)前記基本レイヤまたは前記少なくとも1つの拡張レイヤのうちの少なくとも1つの透かし処理を施すべきユニットを選択するステップと、
    (c)前記少なくとも1つの選択された透かし処理手法を適用して、前記選択されたユニットの各々を透かし処理が施されるユニットとして透かし処理を施すステップと、
    (d)第1のユニークな選択された透かし処理手法を前記基本レイヤから選択されたユニットに適用し、且つ、第2のユニークな選択された透かし処理手法を前記少なくとも1つの拡張レイヤから選択されたユニットに適用するステップと、
    を含む方法。
  9. 前記少なくとも1つの透かし処理手法がノイズ耐性のある透かし処理手法である請求項1に記載の方法。
  10. 前記少なくとも1つの透かし処理手法が、前記ビデオ情報のデータストリームの各々に対しユニークな識別記号またはコードを適用する請求項1に記載の方法。
  11. 前記少なくとも1つの透かし処理手法が、前記ビデオ情報のデータストリームのレイヤの各々に対しユニークな識別記号またはコードを適用する請求項1に記載の方法。
  12. 1つの透かし処理手法が非最適動きベクトルを透かしとして使用する請求項1に記載の方法。
  13. 1つの透かし処理手法がレート制御の小変動を透かしとして使用する請求項1に記載の方法。
  14. 1つの透かし処理手法が前記データストリームのDC係数またはAC係数における低位ビットの変動を透かしとして使用する請求項1に記載の方法。
  15. 1つの透かし処理手法が、圧縮時に前記ビデオ情報のデータストリームへユニークに加えられる低振幅のぼんやりとした記号を使用して同データストリームへユニークに透かし処理を施す請求項1に記載の方法。
  16. 請求項1に記載の方法であって、更に、
    (d)少なくとも1つの暗号化アルゴリズムを選択するステップと、
    (e)前記基本レイヤまたは前記少なくとも1つの拡張レイヤのうちの少なくとも1つの暗号化すべきユニットを選択するステップと、
    (f)前記少なくとも1つの選択された暗号化アルゴリズムを適用して、前記選択されたユニットの各々を暗号化されたユニットへと暗号化するステップと、
    を含む方法。
  17. 基本レイヤおよび少なくとも1つの拡張レイヤへ符号化および圧縮されたビデオ情報のデータストリームに透かし処理を施すシステムであって、
    (a)少なくとも1つの透かし処理手法を選択する手段と、
    (b)前記基本レイヤまたは前記少なくとも1つの拡張レイヤのうちの少なくとも1つの透かし処理を施すべきユニットを選択する手段と、
    (c)前記少なくとも1つの選択された透かし処理手法を適用して、前記選択されたユニットの各々を透かし処理が施されるユニットとして透かし処理を施す手段と、
    (d)前記少なくとも1つの選択された透かし処理手法を適用して、前記ビデオ情報のデータストリームのコピーを同データストリームのソースまで遡って追跡するために同データストリームに追跡データを追加する手段と、
    を含むシステム。
  18. 前記透かしの可視性を最小化させるために、透かし処理を施すべきユニットであって透かし処理が施されないユニットへの影響が低いユニットを選択する手段を更に含む請求項17のシステム。
  19. 前記少なくとも1つの選択されたユニットがマルチフレームユニットである請求項17のシステム。
  20. 前記少なくとも1つの選択されたユニットがフレームユニットである請求項17のシステム。
  21. 前記少なくとも1つの選択されたユニットがサブフレームユニットである請求項17のシステム。
  22. 前記少なくとも1つの選択されたユニットが分散ユニットである請求項17のシステム。
  23. 前記ビデオ情報の前記データストリームは表示可能なフレームを含み、更に、前記透かしの可視性を最小化するために、前記選択された透かし処理手法を適用して前記表示可能なフレームの各々の周辺部へ透かしを加える手段、を更に含む請求項17のシステム。
  24. 基本レイヤおよび少なくとも1つの拡張レイヤへ符号化および圧縮されたビデオ情報のデータストリームに透かし処理を施すシステムであって、
    (a)少なくとも1つの透かし処理手法を選択する手段と、
    (b)前記基本レイヤまたは前記少なくとも1つの拡張レイヤのうちの少なくとも1つの透かし処理を施すべきユニットを選択する手段と、
    (c)前記少なくとも1つの選択された透かし処理手法を適用して、前記選択されたユニットの各々を透かし処理が施されるユニットとして透かし処理を施す手段と、
    (d)第1のユニークな選択された透かし処理手法を前記基本レイヤから選択されたユニットに適用し、且つ、第2のユニークな選択された透かし処理手法を前記少なくとも1つの拡張レイヤから選択されたユニットに適用する手段と、
    を含むシステム。
  25. 前記少なくとも1つの透かし処理手法が、ノイズ耐性のある透かし処理手法である請求項17に記載のシステム。
  26. 前記少なくとも1つの透かし処理手法が、前記ビデオ情報のデータストリームの各々に対しユニークな識別記号またはコードを適用する請求項17に記載のシステム。
  27. 前記少なくとも1つの透かし処理手法が、前記ビデオ情報のデータストリームのレイヤの各々に対しユニークな識別記号またはコードを適用する請求項17に記載のシステム。
  28. 1つの透かし処理手法が非最適動きベクトルを透かしとして使用する請求項17に記載のシステム。
  29. 1つの透かし処理手法がレート制御の小変動を透かしとして使用する請求項17に記載のシステム。
  30. 1つの透かし処理手法が前記データストリームのDC係数またはAC係数における低位ビットの変動を透かしとして使用する請求項17に記載のシステム。
  31. 1つの透かし処理手法が、圧縮時に前記ビデオ情報のデータストリームへユニークに加えられる低振幅のぼんやりとした記号を使用して同データストリームへユニークに透かし処理を施す請求項17に記載のシステム。
  32. 請求項17に記載のシステムであって、更に、
    (d)少なくとも1つの暗号化アルゴリズムを選択する手段と、
    (e)前記基本レイヤまたは前記少なくとも1つの拡張レイヤのうちの少なくとも1つの暗号化すべきユニットを選択する手段と、
    (f)前記少なくとも1つの選択された暗号化アルゴリズムを適用して、前記選択されたユニットの各々を暗号化されたユニットへと暗号化する手段と、
    を含むシステム。
  33. コンピュータ可読媒体に格納され、基本レイヤおよび少なくとも1つの拡張レイヤへ符号化および圧縮されたビデオ情報のデータストリームに透かし処理を施すコンピュータプログラムであって、コンピュータに、
    (a)少なくとも1つの透かし処理手法を選択させ、
    (b)前記基本レイヤまたは前記少なくとも1つの拡張レイヤのうちの少なくとも1つの透かし処理を施すべきユニットを選択させ、
    (c)前記少なくとも1つの選択された透かし処理手法を適用させて、前記選択されたユニットの各々を透かし処理が施されるユニットとして透かし処理を施させ、
    (d)前記少なくとも1つの選択された透かし処理手法を適用させて、前記ビデオ情報のデータストリームのコピーを同データストリームのソースまで遡って追跡するために同データストリームに追跡データを追加させる、
    命令を含むコンピュータプログラム。
  34. 前記コンピュータに、前記透かしの可視性を最小化させるために、透かし処理を施すべきユニットであって透かし処理が施されないユニットへの影響が低いユニットを選択させる命令を更に含む請求項33に記載のコンピュータプログラム。
  35. 前記少なくとも1つの選択されたユニットがマルチフレームユニットである請求項33に記載のコンピュータプログラム。
  36. 前記少なくとも1つの選択されたユニットがフレームユニットである請求項33に記載のコンピュータプログラム。
  37. 前記少なくとも1つの選択されたユニットがサブフレームユニットである請求項33に記載のコンピュータプログラム。
  38. 前記少なくとも1つの選択されたユニットが分散ユニットである請求項33に記載のコンピュータプログラム。
  39. 前記ビデオ情報のデータストリームは表示可能なフレームを含み、更に、前記コンピュータに、前記透かしの可視性を最小化させるために、前記選択された透かし処理手法を適用させて前記表示可能なフレームの各々の周辺部へ透かしを加えさせる命令を含む請求項33に記載のコンピュータプログラム。
  40. コンピュータ可読媒体に格納され、基本レイヤおよび少なくとも1つの拡張レイヤへ符号化および圧縮されたビデオ情報のデータストリームに透かし処理を施すコンピュータプログラムであって、コンピュータに、
    (a)少なくとも1つの透かし処理手法を選択させ、
    (b)前記基本レイヤまたは前記少なくとも1つの拡張レイヤのうちの少なくとも1つの透かし処理を施すべきユニットを選択させ、
    (c)前記少なくとも1つの選択された透かし処理手法を適用させて、前記選択されたユニットの各々を透かし処理が施されるユニットとして透かし処理を施させ、
    (d)第1のユニークな選択された透かし処理手法を前記基本レイヤから選択されたユニットに適用させ、且つ、第2のユニークな選択された透かし処理手法を前記少なくとも1つの拡張レイヤから選択されたユニットに適用させる、
    命令を含むコンピュータプログラム。
  41. 前記少なくとも1つの透かし処理手法がノイズ耐性のある透かし処理手法である請求項33に記載のコンピュータプログラム。
  42. 前記少なくとも1つの透かし処理手法が前記ビデオ情報のデータストリームの各々に対しユニークな識別記号またはコードを適用する請求項33に記載のコンピュータプログラム。
  43. 前記少なくとも1つの透かし処理手法が、前記ビデオ情報のデータストリームのレイヤの各々に対しユニークな識別記号またはコードを適用する請求項33に記載のコンピュータプログラム。
  44. 1つの透かし処理手法が非最適動きベクトルを透かしとして使用する請求項33に記載のコンピュータプログラム。
  45. 1つの透かし処理手法がレート制御の小変動を透かしとして使用する請求項33に記載のコンピュータプログラム。
  46. 1つの透かし処理手法が前記データストリームのDC係数またはAC係数における低位ビットの変動を透かしとして使用する請求項33に記載のコンピュータプログラム。
  47. 1つの透かし処理手法が、圧縮時に前記ビデオ情報のデータストリームへユニークに加えられる低振幅のぼんやりとした記号を使用して同データストリームへユニークに透かし処理を施す請求項33に記載のコンピュータプログラム。
  48. 請求項33に記載のコンピュータプログラムであって、コンピュータに、更に、
    (d)少なくとも1つの暗号化アルゴリズムを選択させ、
    (e)前記基本レイヤまたは前記少なくとも1つの拡張レイヤのうちの少なくとも1つの暗号化すべきユニットを選択させ、
    (f)前記少なくとも1つの選択された暗号化アルゴリズムを適用させて、前記選択されたユニットの各々を暗号化されたユニットへと暗号化させる、
    命令を含むコンピュータプログラム。
JP2007248973A 2007-09-26 2007-09-26 次世代テレビジョンにおける暗号化および透かし処理を施される時間的および解像度レイヤ構造 Pending JP2008035551A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007248973A JP2008035551A (ja) 2007-09-26 2007-09-26 次世代テレビジョンにおける暗号化および透かし処理を施される時間的および解像度レイヤ構造

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007248973A JP2008035551A (ja) 2007-09-26 2007-09-26 次世代テレビジョンにおける暗号化および透かし処理を施される時間的および解像度レイヤ構造

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2004524453A Division JP2005530462A (ja) 2002-06-13 2002-06-13 次世代テレビジョンにおける暗号化および透かし処理を施される時間的および解像度レイヤ構造

Publications (1)

Publication Number Publication Date
JP2008035551A true JP2008035551A (ja) 2008-02-14

Family

ID=39124408

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007248973A Pending JP2008035551A (ja) 2007-09-26 2007-09-26 次世代テレビジョンにおける暗号化および透かし処理を施される時間的および解像度レイヤ構造

Country Status (1)

Country Link
JP (1) JP2008035551A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7439880B2 (ja) 2014-04-25 2024-02-28 ソニーグループ株式会社 受信装置および受信方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001258004A (ja) * 2000-01-05 2001-09-21 Canon Inc 画像符号化装置及び画像復号装置とその方法
JP2002027223A (ja) * 2000-07-05 2002-01-25 Konica Corp データ処理装置及びデータ管理システム
JP2003060889A (ja) * 2001-08-16 2003-02-28 Sony Corp 付加データ埋め込み装置、付加データ埋め込み方法及び付加データ埋め込みプログラム、並びに、付加データ抽出装置、付加データ抽出方法及び付加データ抽出プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001258004A (ja) * 2000-01-05 2001-09-21 Canon Inc 画像符号化装置及び画像復号装置とその方法
JP2002027223A (ja) * 2000-07-05 2002-01-25 Konica Corp データ処理装置及びデータ管理システム
JP2003060889A (ja) * 2001-08-16 2003-02-28 Sony Corp 付加データ埋め込み装置、付加データ埋め込み方法及び付加データ埋め込みプログラム、並びに、付加データ抽出装置、付加データ抽出方法及び付加データ抽出プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7439880B2 (ja) 2014-04-25 2024-02-28 ソニーグループ株式会社 受信装置および受信方法

Similar Documents

Publication Publication Date Title
US7428639B2 (en) Encrypted and watermarked temporal and resolution layering in advanced television
KR100481572B1 (ko) Atv에서의시간및해상도계층화
KR100205701B1 (ko) 송신 장치, 수신 장치 및 이들을 통합한 통신처리 시스템과, 디지탈 텔레비젼 방송 시스템
KR100906957B1 (ko) 서브-프레임 메타데이터를 이용한 적응 비디오 프로세싱
US20050185795A1 (en) Apparatus and/or method for adaptively encoding and/or decoding scalable-encoded bitstream, and recording medium including computer readable code implementing the same
Boho et al. End-to-end security for video distribution: the combination of encryption, watermarking, and video adaptation
KR20010034208A (ko) 계층화 mpeg 인코더
US20080018785A1 (en) Adaptive video processing circuitry & player using sub-frame metadata
US20100014666A1 (en) Method and Apparatus for Protecting Scalable Video Coding Contents
JP2003531514A (ja) アドバンスドテレビジョンの強化された時相及び解像度の階層化
Lippman Feature sets for interactive images
Challapali et al. The grand alliance system for US HDTV
JP2001258004A (ja) 画像符号化装置及び画像復号装置とその方法
CA2486448C (en) Encrypted and watermarked temporal and resolution layering in advanced television
US20050243924A1 (en) Device for scrambling mpeg-4-type audio-visual and multimedia content
JP2008048447A (ja) 次世代テレビジョンにおける暗号化および透かし処理を施される時間的および解像度レイヤ構造
JP2008035551A (ja) 次世代テレビジョンにおける暗号化および透かし処理を施される時間的および解像度レイヤ構造
JPH1013828A (ja) 画像符号化方法、画像信号記録媒体、及び画像復号装置
Spinsante et al. Masking video information by partial encryption of H. 264/AVC coding parameters
AU2008200152B2 (en) Encrypted and watermarked temporel and resolution layering in advanced television
Chaumont Ensuring security of H. 264 videos by using watermarking
Mustafa Secure HEVC video by utilizing selective manipulation method and grading level model
Saxena et al. Analysis of implementation strategies for video communication on some parameters
Design Video Coding Standards: JPEG and MPEG
Deshmukh Strategically Study on Steganography based Video Compression Arati Arun Bhonkar (8983531174) bhonkararati91@ gmail. com Priyanka Ramesh Deshmukh (9503825967) priyankadeshmukh12293@ gmail. com

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101221

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110719