JP2020508010A

JP2020508010A - 画像処理およびビデオ圧縮方法

Info

Publication number: JP2020508010A
Application number: JP2019544673A
Authority: JP
Inventors: エリックレインダース，クリスティアーン
Original assignee: コジセンエッセエッレエッレ
Priority date: 2017-02-17
Filing date: 2018-02-19
Publication date: 2020-03-12
Also published as: IL268214B; CN110300977A; EP3364342A1; CN110300977B; IL268214A; WO2018150024A1; KR20190117651A; US20180240221A1; EP3583547A1; US10586312B2; KR102535098B1

Abstract

本発明は、画像または画像のデジタルビデオストリームのいずれかに基づいて電子処理ユニットによって実行される、画像処理およびオブジェクト検出を介したビデオ圧縮方法に関する。本方法において、画像は、識別されるコンテンツを示す周波数領域信号が強化および分離されるように、および画像またはビデオストリーム内のコンテンツに対する周波数領域ノイズが低減または無視されるように、ビデオストリーム内の単一フレームまたはフレームシーケンスによって定義される。また、本方法は、ビデオストリームの対応する単一フレームまたは対応するフレームシーケンスのいずれかから、デジタル画像またはデジタル画像シーケンスを取得するステップであって、すべてのデジタル画像が空間領域内で画定される、デジタル画像またはデジタル画像シーケンスを取得するステップと、疎ゾーンのペアを１つまたは複数選択するステップであって、疎ゾーンはそれぞれ単一フレームの少なくとも一部またはフレームシーケンスの少なくとも２フレームをカバーし、疎ゾーンの各ペアは選択された特徴を生成し、ゾーンはそれぞれ空間データの２つのシーケンスによって定義される、疎ゾーンのペアを１つまたは複数選択するステップと、伝達関数ならびにゾーンごとの周波数領域データの形状および方向を変化させることで選択された特徴に対してそれぞれ正規化された複素ベクトルを生成するＬ変換の２次元バリエーションを介して、疎ゾーンごとに空間データの２つのシーケンスを結合して、選択された特徴を周波数領域データに変換するステップと、識別されるコンテンツのモデルが定義されるように、正規化された複素ベクトルをすべて結合するステップと、ビデオ圧縮に使用するオブジェクト検出または視覚的顕著性のためのデータが取得されるように、選択された特徴からモデルを分類子に入力するステップと、を備える。【選択図】図２１

Description

＜１．発明の分野＞
本開示は、画像をデジタル化するための適切な手段を備えた一般的なデバイスを含むあらゆる種類のデバイスに組み込まれ、且つビデオ圧縮を改善するコンテンツ検出用の画像処理およびデータ生成方法に関する。本方法は、デジタルビデオストリーム内で使用するための時間モデルを作製するのに特に有用であるが、デジタルビデオストリームに限定されない。

コンテンツとは、検出したい任意のオブジェクトを意味する。そしてコンテンツの概念は、オブジェクト、すなわち画像を介して見える物理的なアイテムに限定されない。例えば、暴力的画像、裸体、スポーツ活動および群衆の中の顔の表示、車両の車種または大きさでの識別および選択、歩行者の判別、サイクリストおよび自動運転車両システム用の信号機、場所または風景の認識を含む引数または種類によって選択されるオブジェクトファミリーも含む。とりわけ特定のコンテンツを検出するステップを含む任意の分野が、本発明に関連し得る。

一般的なデバイスとは、スマートフォン、タブレット、ノートパソコン、または適切なデジタルビデオカメラを備えた任意のポータブルデバイスまたはハンドヘルドデバイスのような、一般に市販されている電子デバイスを意味する。また、デバイスは、コンピュータまたは画像計算用のサーバのいずれかにリンクされた且つおそらくネットワーク内で編成された、１つまたは複数のカメラであってもよい。さらに、ビデオ圧縮方法は、記憶されたデジタル画像またはビデオに対して、ストレージメモリ、ＲＡＭメモリ、および少なくともマイクロプロセッサを含む適切なハードウェア内で実行されるソフトウェアを介して、ハードウェアによるオフラインプロセスにおいて単に実施されてもよい。

また、本開示は、少なくともビデオストリームまたは一連のデジタル画像を生成するデジタルカメラを備えたデバイスまたはシステムを動作させる方法に関する。これにより、操作対象のデバイスまたはシステムからアクセス可能なメモリデバイスに記憶された少なくとも１つのビデオコーデックに関連して、デバイスまたはシステムのカメラとプロセッサの両方を介したビデオ圧縮を改善することができる。

本方法における開示は、画像データを疎ら（スパース）にすなわち非常に迅速に周波数領域に変換することに関連する。これにより、画像処理およびコンテンツ検出を使用してより多くのビデオ圧縮を得るビデオ圧縮方式の新しいデータ入力タイプが可能になる。また、本方法によって、周波数領域データに変換するための複数の調整パラメータを提供することができ、ビデオ圧縮を改善するために選択された画像処理またはコンテンツ検出方法の特性に従って、これらを最適化することができる。

さらに、方法は、所与のビットレートに対するビデオストリームの主観的品質に相関するように、周波数領域データを使用するために適用することができる。これは、本方法で生成された周波数領域データを使用して、画像内の圧縮アーチファクトを引き起こすデータ内の特性を回避することができることを意味する。したがって、本方法において、圧縮時に所与のビットレートに対して主観的なビデオ品質が向上する。

本方法で開示される周波数領域計算の実装形態のうちの１つにおいて、圧縮を変化させるように視覚的顕著性マップが作製されて、ビデオコーデックと統合される。このような顕著性マップのための入力は、（フレーム内静的顕著性の場合）現在のビデオフレーム、または（フレーム間動き顕著性の場合）フレーム間の差のいずれかである。

顕著性マップの出力は、視覚的顕著性に従って、ビデオエンコーダの量子化ブロックに送信されて、画像の各部分に割り当てられた情報量に影響を与える。多くのコーデックは、圧縮と品質との間のトレードオフに影響を与える手段を提供する。例えば、一般的なコーデックＨ２６４の場合、このトレードオフは「レート歪み」と呼ばれる。レート歪みによって、エンコーダが行った様々な決定の結果が、品質ゲインに対して費やされるビットに関して影響を受けるようになる。エンコーダは、レート歪み曲線に基づいて決定を評価する。レート歪み曲線を制御する値は、通常、ラムダと呼ばれる。

通常、エンコーダは、ラムダを自動的に変化させて、品質とビットレートとの間の妥協点を見つける。本方法で作製された顕著性マップは、各マクロブロックに対して別々にコーデックのラムダを変調する。符号化の出力は、コーデック規格に全体的に準拠したビデオビットストリームである。したがって、本方法の周波数領域データを使用することで、圧縮コーデックは、アーチファクトを生成しやすいこれらの領域に対してより少ない圧縮を実行するように指示することができる。これにより、所与のビットレートに対して主観的なビデオ品質が向上する。

＜２．従来技術の説明＞
＜＜２．１ビデオ圧縮のための画像処理およびオブジェクト検出＞＞
画像処理におけるオブジェクト検出技術は、様々なコンテキストで広く適用されている。このようなアルゴリズムが使用される非限定的な一例として、様々なビデオ圧縮技術、ならびにソーシャルネットワーク上の人間の顔のタグ付け技術、手のジェスチャを認識するためのソフトウェア、歩行者、サイクリストおよび他の車両を検出するための自動車用ソフトウェア、体の動きを認識するためのソフトウェア、拡張現実および３Ｄ効果を備えた画面用の人間の顔の感情を検出する技術、拡張現実用のオブジェクト認識、頭の向きまたは目の向きの追跡技術を使用するインターフェース、セキュリティシステム用のオブジェクト追跡技術、および視線追跡技術が挙げられる。

既知の文書は、ビデオ圧縮を目的としたこれらの技術に対して、特にビデオストリーム内のコンテンツおよび視覚情報を処理して現在のビデオ圧縮コーデックの有効性を向上させる、追加の計算の使用に関する。

これらすべてのオブジェクト検出および画像処理技術は、次世代のインタラクティブなインターフェースおよびオペレーティングシステムに移行するという明確な将来性がある。そのような技術を表すことができるデバイスは、例えば、スマートフォン、タブレット、およびインタラクティブな眼鏡やバーチャルリアリティインターフェースを含むウェアラブルハードウェアだけでなく、将来の自宅、オフィス、または公共の場所のあらゆる種類のインタラクティブオブジェクトである。これらのデバイスは、双方向テレビ番組またはスマートホームなどの特殊な用途に提供することができる。また、自動車の安全システム、ヘルスケア、広告、防犯カメラネットワーク、モノのインターネット（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）、およびその他多くの可能性のある用途に使用することもできる。

基本的に、このような技術は、再プログラム可能なハードウェアが使用され、且つビデオカメラ入力を追加することができる任意のデバイスまたはネットワーク接続デバイスに統合することができる。

純粋にオブジェクト検出および画像処理アルゴリズムの機能を支援するために、デバイスにさらなるハードウェアを追加することは、コストの増加および余分なバッテリ消耗をもたらす。そして、現在の最先端ハードウェアは、多くの場合、ほとんどの家電製品に統合するにはまだ大きすぎるが、超小型ハードウェアを作製するには、追加の研究開発コストが必要になる。

ハードウェアコストの他に、モバイルハードウェアプラットフォームなどでのこのようなビデオ圧縮技術の大規模な使用を大きく妨げているものは、必要なオブジェクト検出および画像処理の計算が遅すぎてカメラのフレームレートに対応できないことと、それらの計算において、利用可能な処理能力を使用しすぎることである。

したがって、次世代のオペレーティングシステムおよびデバイス上で大量の実装形態が容易に実行できるようになる前に、現在の最先端技術よりもはるかに高速に画像を処理することができるソフトウェアのみによる解決策が、上記ビデオ圧縮技術に必要である。

このソフトウェアのみによる解決策への移行は、カメラ技術の継続的な改善によって促進される。これにより、フレームレートの増大、動き処理の改善、より効果的な色の強調表示、コントラストへの鋭敏な適応、光の変化へのスマートな適応、およびさらに高い画面解像度がもたらされる。これは、オブジェクト検出のためのソフトウェアのみによる解決策の有効性をさらに高める。

オブジェクト検出では、バッテリ寿命を節約するためおよびリアルタイム使用に対する要件を満たすために、できるだけ少ない処理能力が使用されるようにする必要がある。また、リアルタイムで実行中のオブジェクト検出アルゴリズムは、フォアグラウンドで実行されているメインプロセスを制限することなく、バックグラウンドで実行される必要がある。

さらに、入力画像のサイズが大きくなるにつれて、必要な計算作業が指数関数的に増加することに留意されたい。また、ビデオフレームレートの上昇は、次のビデオ入力フレームが到着する前の、画像処理アルゴリズムが計算を終了するための時間が短くなることを意味する。

したがって、現在の最先端技術の画像処理およびオブジェクト検出アルゴリズムでは、ビデオフレームレートの増加と入力画像の品質の向上に伴って、入力画像をますますダウンサンプリングして許容可能な処理速度に戻す必要がある。これにより、高品質の入力画像内の追加情報の多くが失われる。

このようにして、ダウンサンプリングは、入力の中に高解像度の画像を有することの利点の大部分を無効にする。

オブジェクト検出に関するこれらの課題をさらに複雑にしているのは、ビデオストリームの時間データでのみ表示されるコンテンツを捕捉する必要があるということである。その一例として、暴力の検出、歩行者の意図的検出、防犯カメラのライブフィードでの疑わしい動きの検出などが挙げられる。これは、ビデオストリームの２つ以上の画像フレームが、単一モデル内で相互参照される必要があることを意味する。現在の方法は、主に静止画像に対する訓練に基づいている。言い換えれば、ビデオは、時間データを正確に処理するのではなく、静止画像シーケンスとして処理される。単一の分類モデルを処理するために複数のフレームを相互参照する必要がある場合、複雑さおよび処理のオーバーヘッドが増大することは明らかである。

ビデオコーデックの圧縮を変調するために使用される顕著性モデルを作製する場合、このような時間データは特に重要である。これは、上記方法がそのようなビデオ圧縮の実装形態に非常に効果的であることを意味する。

また、所与のアルゴリズムによる処理能力の相対的な使用を減らすために、処理能力の継続的な向上を期待することは効果的ではない。これは、インタラクティブビデオを使用するゲームのようなアプリケーションが、最大の処理能力を使用して、常にバックグラウンドでオブジェクト検出などのアルゴリズムを実行するために最小限の量を残すようにスケーリングするためである。

上記を考慮して、ビデオ圧縮を改善するためのオブジェクト認識および画像処理技術に関する多くの方法が、コンピュータビジョンに関する文献に記載されている。

＜＜２．２ビデオ圧縮＞＞
デジタルビデオの生の形式での記憶および送信は非常にコストがかかる。また、アナログテレビビデオシーケンスは、デジタル化されると、最大毎秒１６５メガビットを消費する可能性がある。この問題を回避するために、一連のビデオ圧縮技術が導出されて、デジタルビデオデータを表すために必要なビット数を削減しながら、許容できる忠実度またはビデオ品質を維持する。必要なビットを削減するビデオ圧縮方法の能力は、圧縮ビデオのサイズに対する元のビデオのサイズの比率である「圧縮率」によって定量化される。これらの方法は、通常、画像処理および／またはオブジェクト検出を使用して圧縮率を向上させる。

ビデオは、順番に表示される画像シーケンスとして考えることができる。これらの画像の各々は、フレームと呼ばれる。ビデオ信号は、いくつかの重要な特性において画像信号と異なる。最も重要な違いは、ビデオ信号のカメラフレームレートが１５フレーム／秒〜６０フレーム／秒の範囲であるために、表示される信号に滑らかな動きがあるように見えることである。画像圧縮とビデオ圧縮との間のもう１つの違いは、空間的冗長性（フレーム内）および時間的冗長性（フレーム間）を活用できることである。

フレーム内コーディングとは、現在のフレーム内にのみ含まれる情報に対して圧縮が実行され、ビデオシーケンス内の他のフレームに対して実行されないことを意味する。言い換えれば、現在の画像またはフレームの外部で時間的な処理は実行されない。このようなフレーム内コーディングは、ＪＰＥＧ静止画像ビデオエンコーダのコーディングと非常によく似ているが、実装形態の詳細がわずかに異なる。

フレーム間コーディングとは、通常、毎秒３０フレームが画面に表示されることを意味する。連続するフレーム内で多くの情報が繰り返されるため、フレーム間圧縮は、隣接するフレーム間の時間的冗長性を利用して、より高い圧縮率を実現する。ツリーが１秒間表示されて、そのツリーに３０フレームが使用される場合、この繰り返される情報は、前のフレームに基づいてフレームを定義することで圧縮することができる（図１）。

時間的冗長性の一例として、ビデオシーケンス内の画像の要素間の対応関係を確立する「動き補償」が挙げられる。動き補償は、ビデオシーケンス内のオブジェクトが予測可能なパターンで移動する傾向があるため、画像シーケンスではなく、フレームからフレームに移動する単一のオブジェクトとして符号化することができることを利用する。

フレーム間符号化とフレーム内符号化は、いずれも「ロスレス（ｌｏｓｓｌｅｓｓ）」または「ロッシー（ｌｏｓｓｙ）」であり得る。人間は色のわずかな違いのようなフレーム内の小さな変化に気付くことができないため、ビデオ圧縮規格はビデオ内のすべての詳細を符号化せず、実際には詳細の一部が失われる。これは、ロッシー圧縮と呼ばれる。ロスレス圧縮では、元のデータを完全に復元することができる。ロッシー圧縮を使用すると、非常に高い圧縮率を得ることができる。

＜＜２．３ブロック符号化＞＞
最も一般的なビデオコーデックは、すべて、フレーム内およびフレーム間で圧縮することができる「ブロック」に画像を分割する。最も単純な「ブロッキング」アルゴリズムは、ビデオフレームを「マクロブロック」と呼ばれる同じサイズのブロックに分割する（図２）。

エンコーダは、各ブロックの生のピクセル値を直接符号化する代わりに、以前に符号化された「参照フレーム」と呼ばれるフレームで、符号化したブロックのようなブロックを見つけようとする。この検索プロセスは、ブロックマッチングアルゴリズムによって行われる。

より精巧なブロッキングアルゴリズムは、情報コンテンツの測定値およびフレーム間の変化に基づいて不均一なブロックサイズを使用する。通常、これらのブロックは、既存のブロックをより小さなブロックに分割することで作製される（図３）。

＜＜２．４可変ブロック圧縮＞＞
異なる圧縮係数を適用することで、一部のブロックを他のブロックよりも圧縮することができる。圧縮の違いは、いくつかの異なる要因に基づく場合がある。例えば、アルゴリズムは、シャープなエッジをより少なく圧縮されるように決定して、圧縮アーチファクトを回避する場合がある（図４）。

＜＜２．５顕著性＞＞
顕著性とは、提供された視覚情報の量と種類によって、画像内のある一部が他の一部よりも注視されることを意味する。また顕著性とは、利用できる感覚データの最も適切なサブセットに限定された知覚および認知リソースを生物に集中させることで学習および生存を促進する重要な注意メカニズムであると考えられる。

通常、ビデオには、観察者がより注視する対象物と、画像のあまり注目されない他の部分とが含まれる。人が最も注視する画像の部分は、知覚品質に大きく影響するため、わずかにしか圧縮されない場合があるが、画像のあまり注目されない部分は、知覚される画質に影響を与えることなくより強く圧縮される場合がある（図５）。

通常使用される顕著性の１つの方法は、顕著なオブジェクトをセグメント化するための画像分析である。この方法は、エッジ検出またはコントラストなどの画像属性を使用して、画像のどの部分が顕著になるかを大まかに予測する。パフォーマンス上の理由から、通常、顕著性アルゴリズムはエッジ検出などの単純なモデルを使用する。

顕著性を予測する別の方法は、疎らな注視を予測することである。人間は、脳内の注意メカニズムに基づいて重要な視覚情報を選択する。この動機を考えると、顕著性検出に関する初期の研究では、アイトラッカによって検出される人間の疎らな視線ポイントの予測に集中していた。したがって、このトラッキング（追跡）に関する研究のほとんどは、人間の注意メカニズムのダイナミクスを模倣しようとする、生物学的に着想を得たアルゴリズムに基づいている。ほとんどの従来のオブジェクト検出器は、特定のオブジェクトカテゴリを検出するために訓練を必要とする。しかしながら、人間の視覚は、一般的なオブジェクト検出を十分に処理することができる視覚的注意メカニズムを有するため、クラスタ化された視覚画像において、訓練なしで一般的な顕著なオブジェクトに迅速に焦点を合わせることができる。

＜＜２．６セグメンテーション＞＞
セグメンテーションは、画像を領域またはオブジェクトに分割する行為である。セグメンテーションを使用することで、対象のオブジェクトが過剰に圧縮されないようにすることができる（図６）。

セグメンテーションの問題の１つは、対象のオブジェクトをセグメンテーションによって細かく分割することができるため、圧縮に顕著な違いが生じることである（図７）。

「アクティブビジュアルセグメンテーション」は、顕著性マップを使用して、潜在的なセグメント領域が注視点を含むかどうかを判定する（Ｍｉｓｈｒａら［１］）。これにより、セグメンテーションを調整してオブジェクト内のジャンクションを回避することができる。

これは、セグメンテーションプロセスが開始される前に、対象のオブジェクトを識別する必要があることを意味する。

＜＜２．７ボトムアップ顕著性＞＞
顕著性は、画像ピクセル内の特定のパターンを探すアルゴリズムによって導出することができる。これは、情報内のパターンから純粋に注意予測を導出するため、「ボトムアップ」顕著性と呼ばれる。ボトムアップの視覚的顕著性は、他のすべてのピクセルに対するピクセルレベルのコントラストと、平均的な画像の色との色の違いを使用して導出することができる。ＢｒｕｃｅおよびＴｓｏｔｓｏｓ［２］ならびにＺｈａｎｇら［１３］を含む一部の研究者は、情報理論に基づいて視覚的顕著性を定義しようと試みた。さらに、他の一部の研究者は、グラフカットアルゴリズムを使用して、顕著性マップの境界線を調整して、複数のスケールにわたって顕著なオブジェクトの輪郭をカウントした（例：ＭａおよびＺｈａｎｇ［３］）。いくつかの方法が局所的に視覚的顕著性を定義する一方で、他のいくつかの方法は、画像全体にわたる画像領域の大域的な希少性に基づいている。

一部のモデルは、注視位置にある画像領域から学習された動き、ちらつき、オプティカルフロー、または関心点を利用することで、時空間領域内での顕著性検出に対処する。近年、注視点を含む領域をセグメント化する意図で、アクティブな視覚セグメンテーションと呼ばれる新しいトレンドが出現している（Ｍｉｓｈｒａら［１］）。それらのフレームワークは、キューに依存しないように単眼キュー（色／強度／テクスチャ）とステレオおよび／または動きとを結合する。

一部のコーデックは、眼の生理学および神経科学のモデルを使用して、どの領域が人間の注意を引いて注視される可能性が高いかを予測する。人間の視覚選択的注意のモデルから、方向、強度、動きなどの低レベルの特徴を処理する計算注意モデルが作製され、これらの特徴の非線形の生物学的に着想を得た組み合わせによって、顕著性マップを生成することができる。例えば、互いに接近している顕著なオブジェクトは、それらの間に大きなスペースがある同じ顕著なオブジェクトよりも比較的注意を引く可能性がある。

ほとんどのボトムアップ顕著性モデルは、以下の７つの一般的なカテゴリのいずれかに分類される。

認知モデル：Ｉｔｔｉら（１９９８）［４］がＫｏｃｈおよびＵｌｌｍａｎ（１９８５）［５］の計算アーキテクチャを実装した後から、顕著性に基づくモデルの開発が拡大した。認知モデルは、任意のデジタル画像に適用することができる顕著性計算のアルゴリズムに最初にアプローチしたものである。これらのモデルでは、入力画像は、複数の空間スケールにおいて、基本的な視覚属性（輝度またはコントラスト、運動エネルギーなど）のための選択的な特徴マップに分解される。特徴マップは、特徴およびスケール全体で結合されて、マスター顕著性マップを形成する。この理論の重要な要素は、中心と周囲の演算子に関する。この演算子は、顕著性を周囲と比較した画像領域の特徴として定義する。ほとんどすべての顕著性モデルは、視覚的注意の認知概念によって直接的または間接的に影響を受けている（例えば、ＬｅＭｅｕｒら（２００６）、Ｍａｒａｔら（２００９）［６］）。

情報理論モデル：生物学的に妥当な実装形態から一旦離れるとする。本カテゴリにおける情報理論モデルは、局所的な顕著性の計算が最初に最も情報を有する画像領域に注意を導くように機能するという前提に基づいている。したがって、これらのモデルは、まれな（低い確率の）特徴を有する画像領域により高い顕著性を割り当てる。理論的には、任意の特徴空間を使用することは実現可能であるが、多くの場合、（視覚野での効率的なコーディングによって着想を得た）これらのモデルは、自然な画像から学習した基本的な機能の疎セットを利用する。このカテゴリ内の例示的なモデルには、ＡＩＭ（Ｂｒｕｃｅ＆Ｔｓｏｔｓｏｓ、２００５［８］）、Ｒａｒｉｔｙ（Ｍａｎｃａｓ、２００７［９］）、ＬＧ（Ｌｏｃａｌ＋Ｇｌｏｂａｌｉｍａｇｅｐａｔｃｈｒａｒｉｔｙ）（Ｂｏｒｊｉ＆Ｉｔｔｉ、２０１２［１０］）、および増分コーディング長モデル（Ｈｏｕ＆Ｚｈａｎｇ、２００８［１１］）がある。

グラフィカルモデル：グラフィカルモデルは、一般化されたベイズモデルであり、空間および時間にわたる複雑な注意メカニズムのモデル化に使用されている。Ｔｏｒｒａｌｂａ（２００３）［１２］は、視覚検索に対するコンテキスト効果をモデル化するためのベイジアンアプローチを提案している。これは、後に自由視聴点における注視予測用のＳＵＮモデルで採用された。Ｉｔｔｉ＆Ｂａｌｄｉ（２００５）［１３］は、驚くべき刺激を、観察者の信念を大きく変える刺激として定義した。Ｈａｒｅｌら（２００７）［１４］は、全体的に接続されたグラフ内の特徴の類似性を伝播して、顕著性マップを構築した。また、Ａｖｒａｈａｍ＆Ｌｉｎｄｅｎｂａｕｍ（２０１０）［１５］、ＪｉａＬｉら（２０１０）［１６］、およびＴａｖａｋｏｌｉら（２０１１）［１７］は、顕著性モデル化のためにベイジアンの概念を活用した。

決定理論モデル：本解釈は、タスクに関して注意が最適に促進されることを提案する。Ｇａｏ＆Ｖａｓｃｏｎｃｅｌｏｓ（２００４）［１８］は、オブジェクトの認識について、顕著な特徴は、対象のオブジェクトのクラスを他のすべてのクラスから最もよく区別するものであると主張した。各々が位置および割り当てられたクラスラベル（例えば、背景または対象のオブジェクト）を有する、いくつかの特徴セットを考えると、顕著性は相互情報量（通常、ＫｕｌｌｂａｃｋＬｅｉｂｌｅｒの発散）の測定値である。これらのモデルは、注視予測に優れた制度を有することに加えて、コンピュータビジョンアプリケーション（例えば、異常検出およびオブジェクト追跡）において成功している。

スペクトル分析モデル：これらのモデルは、空間領域内で画像を処理する代わりに、周波数領域内で顕著性を計算する。Ｈｏｕ＆Ｚｈａｎｇ（２００７）［１９］は、画像のフーリエ変換を計算し、（画像の不連続性に焦点を当てるために）振幅スペクトルの大部分を破棄しながら位相情報を記憶し、逆フーリエ変換を行って最終的な顕著性マップを取得することで、画像についての顕著性を導出した。

パターン分類モデル：本カテゴリにおけるモデルは、画像の特徴から注視まで、機械学習技術を使用して、刺激と顕著性のマッピングを学習する。これらは、周囲の近隣要素と比較した位置のコントラストの可能性がある特徴ベクトルとして顕著性を推定する。Ｋｉｅｎｚｌｅら（２００７）［２０］、Ｐｅｔｅｒｓ＆Ｉｔｔｉ（２００７）［２１］、およびＪｕｄｄら（２００９）［２２］は、各ピクセルでそれぞれ画像パッチ、画像の要旨、およびいくつかの特徴のベクトルを使用し、パターン分類子を使用して特徴から顕著性を学習した。Ｔａｖａｋｏｌｉら（２０１１）［１７］は、疎サンプリングおよびカーネル密度推定を使用して、ベイジアンフレームワーク内で上記の確率を推定した。これらのモデルの一部は、顔またはテキストのようなトップダウンの注意を導く特徴を使用するため、純粋にボトムアップではない場合がある（Ｊｕｄｄら、２００９［２２］、Ｃｅｒｆら、２００８［２３］）。

他のモデル：本分類に適合しにくい他のモデルも存在する。例えば、Ｓｅｏ＆Ｍｉｌａｎｆａｒ（２００９）［２４］は、顕著性検出のためのローカル画像構造の自己類似性を提案した。神経応答の無相関化の考え方は、ＡＷＳ（ＡｄａｐｔｉｖｅＷｈｉｔｅｎｉｎｇＳａｌｉｅｎｃｙ）モデルにおける正規化方式に使用された（Ｇａｒｃｉａ−Ｄｉａｚら、２００９［２５］）。Ｋｏｏｔｓｔｒａら（２００８）［２６］は、顕著性を測定するための対称演算子を開発し、Ｇｏｆｅｒｍａｎら（２０１０）［２７］は、再標的化および要約の適用に成功したコンテキスト認識顕著性検出モデルを提案した。

ボトムアップ顕著性に伴う問題は、人々が様々な状況で様々なものを探すため、知覚感度が必ずしも人々の注意に対応しない場合があることである。それを解決するには、人が画像またはビデオを見るときに達成しようとしていることを「トップダウン」で理解する必要がある。

＜＜２．８トップダウン顕著性＞＞
人間の意図の知識から「トップダウン」で顕著性を導出することも可能である。オブジェクトに基づいた注意の理論は、人間がオブジェクトおよび高度な概念に注意することを提案する。人は、他のオブジェクトタイプよりも特定のタイプのオブジェクトに引き付けられる。例えば、人は、他のオブジェクトタイプよりも画像内の顔を見ることに引き付けられる。これらの認知的発見によって着想を得て、いくつかのモデル（例えば、Ｊｕｄｄら［２２］）は、顔、人間、動物、およびテキストなどのオブジェクト検出器を使用して、顕著な位置を検出している。

トップダウンのタスク依存の注意に対する影響に対処するモデルは複雑である。なぜなら、目標およびタスクに対していくつかの表現が必要だからである。また、通常、トップダウンモデルには、オブジェクトおよびそれらのコンテキストに注意を向けて認識するためのある程度の認知的推定が含まれる。

トップダウンモデルにおける典型的なステップは以下の通りである。

タスク定義を解釈するステップ：（長期シンボリックメモリ内の）既知のエンティティと現在のタスクとの関連性を評価し、いくつかの最も関連性の高いエンティティをシンボリックワーキングメモリに記憶することでタスク定義を解釈する。例えば、タスクが運転することである場合、交通標識、歩行者、および他の車両に注意する必要がある。

主要な視覚分析を行うステップ：所望のエンティティのセットならびに環境の「要点」およびその大まかなレイアウトの迅速な分析に対して、通常は関連性があるように学習された空間位置をプライミングして、また、探している最も関連性のあるエンティティの視覚的特徴（例えば、色、サイズ）をプライミングすることで、視覚的分析を行う。（Ｗｏｌｆｅ、１９９４［２８］）。

参加および認識するステップ：前のステップで行われたプライミングおよびバイアスを考慮して、最も顕著な場所に参加して認識する。エンティティ間の相互関係の長期的な知識を利用して、認識されたエンティティがワーキングメモリ内の関連するエンティティにどのように関連するかを評価する。

更新ステップ：認識されたエンティティの関連性に基づいて、対象外として削除するか、行動計画の対象となる可能性があるオブジェクトおよび位置としてワーキングメモリに保持する（ワーキングメモリに関連するサマリ「オブジェクトファイル」を作製する（Ｋａｈｎｅｍａｎら、１９９２［２９］））かを決定する。

反復ステップ：自信をもって行動するために十分な情報が収集されるまで、プロセスを繰り返す。

行動ステップ：視覚環境および高度な目標に関する現在の理解に基づいて行動する。

トップダウン顕著性に伴う問題は、より精巧なトップダウンの視覚的注意モデルがオブジェクト認識の進行に依存することである。これは、次に検索するオブジェクトについて推定できるようにするために必要である。

上記方法に伴う別の問題は、顕著性がビデオのフレームで何が顕著であるか、および圧縮アーチファクトのために何が顕著になるか、に関することである。ビデオの圧縮により、共鳴、輪郭削り、ポスタリゼーション、曲線エッジに沿ったエイリアシング、およびマクロブロック境界アーチファクトなどのアーチファクトが発生する可能性がある。画像を強く圧縮すると、アーチファクトの歪みが生じ、以前は目立たなかった画像の部分が目立つようになる。例えば、滑らかにテクスチャ付けされた領域は、非常に大きく量子化されるとブロック状になる。顕著なアーチファクトは、必ずしも人々の注意を引くとは限らない画像の背景に属することが多い、滑らかなグラデーションおよび規則的な動きを有するオブジェクトにとって特に問題である。しかしながら、これらのタイプの領域は、注意が払われないと知覚的にかなり敏感である。背景は目立たないため、通常は強く圧縮されている。そのため、視聴者が背景を見る原因となるアーチファクトは、その品質がどれほど低いかを認識させる。

＜＜２．９動き／時空間の顕著性＞＞
各ビデオフレーム内にはかなりの冗長性が存在するが、通常、画像の８０％はフレーム間で変化しないため、ビデオフレーム間で最大量の冗長性が発生する。人は、動いているオブジェクトにより多くの注意を払うため、フレーム間には顕著性も存在する。動きのないマクロブロックは、動きのあるマクロブロックよりも目立たないため、品質を著しく低下させることなくそれらを圧縮することができる（図８）。

動きの顕著性は「時空間的顕著性」と呼ばれ、動きや動きの欠如だけを含むものではない。様々なタイプの動きは、多かれ少なかれ注意を引く。例えば、海の穏やかな波は、カメラに向かって投げられたレンガよりも注意を引かない。同様に、動きの顕著性は、顕著性の時間導関数だけを含むものではない。動きで注意を引くものは、静的な空間内のものとは非常に異なる場合がある。例えば、同じ投げられたレンガが、静的なときは注意を引かない場合がある。顕著性の精巧な測定値は、動きの顕著性に関する人間の知覚モデルを使用して顕著性マップを作製する。次いで、動きおよび静的な顕著性を結合して、全体的な顕著性マップを作製する。

時空間的顕著性は、空間的顕著性ほど研究されておらず、次の２つの主な研究手段がある。

認知モデル：人間の時空間的顕著性に基づく人間のモデル。本方法は、追加の時間軸を使用して単一画像の顕著性モデルを拡張し、経時的な視覚パターンを探す（例えば、ＭａｈａｄｅｖａｎおよびＶａｓｃｏｎｃｅｌｏｓ［３０］、Ｍｕｄｄａｍｓｅｔｔｙ、Ｓｉｄｉｂ′ｅ、Ｔｒ′ｅｍｅａｕ、およびＭｅｒｉａｕｄｅａｕ２０１４［３１］）。

スペクトル分析モデル：Ｂｉａｎ＆Ｚｈａｎｇ（２００９）［３２］およびＧｕｏ＆Ｚｈａｎｇ（２０１０）［３３］は、位相データの周波数領域の使用を拡張することで、スペクトル領域内の時空間モデルを提案した。

時空間的顕著性は、（特に低光量における）カメラセンサからの「粒状」ノイズまたはコーデックからの圧縮ノイズによって困難になる。ノイズの多い環境では、フレーム間の動きのほとんどがピクセルノイズであるため、時空間的顕著性アルゴリズムは、ノイズの除去および真に顕著な動きの認識に優れている必要がある。

＜＜２．１０顕著性に基づくビデオ圧縮＞＞
顕著性の計算を使用して、ビデオコーデックの圧縮率を向上させることができる。プロセッサオーバーヘッドをほとんど追加することなく顕著性を効率的に計算できる場合、処理能力（例えば、モバイルデバイス）または時間（例えば、ライブビデオ）に制約がある状況において使用することができる。顕著性の迅速な計算は、ライブビデオの圧縮にとって特に重要である。なぜなら、他の多くの圧縮形式はライブでの計算が遅すぎるため、顕著性が除去できるビデオ内の冗長性がかなり多くなるためである。

通常、空間領域内の顕著性の計算には、多くの処理が含まれる。複数の計算が画像全体を数回処理して、様々な現象およびスケールに対応する。

通常、顕著性マップは、空間領域内の複数の現象から構成される。例えば、ＺｈｉｃｈｅｎｇＬｉ、ＳｈｉｙｉｎＱｉｎ、ＬａｕｒｅｎｔＩｔｔｉ［３４］による顕著性モデルは、１２個の低レベルの特徴チャネルを分析して、マルチスケールの顕著性マップを生成し、シミュレートされた中心−周辺ニューロンを使用して、潜在的に対象となり得る局所的な空間不連続性を検出する。この１２個の特徴チャネルは、以下のものに敏感な神経特徴をシミュレートするために使用される。
１．赤／緑のコントラスト
２．青／黄のコントラスト
３．時間的な強度のちらつき
４．強度のコントラスト
５．０°の向き
６．４５°の向き
７．９０°の向き
８．１３５°の向き
９．上向き運動エネルギー
１０．下向き運動エネルギー
１１．左向き運動エネルギー
１２．右向き運動エネルギー
これらの特徴は、複数のスケールで比較される。中心−周辺スケールは、スケール０（元の画像）からスケール８（水平方向および垂直方向で係数によって２８＝２５６に縮小された画像）までの９つのスケールを有する二項ピラミッドから取得される。次いで、１２個の特徴の各々について、ピラミッドスケール全体のポイント間差分として６つの中心−周辺差分マップが計算され、合計７２個の特徴マップが生成される。また、各特徴マップには、内部ダイナミクスが設けられる。内部ダイナミクスは、活動において特徴内およびスケール内の強力な空間的競合を提供し、特徴内およびスケール全体の競合がそれに続く。すべての特徴マップは、最終的に一意のスカラー顕著性マップに寄与する。この方法の複雑さは、空間領域内で顕著性を計算することの難しさを示している。

また、ローカルピクセルに基づいた他の顕著性計算方法が研究者（例えば、ＢｒｕｃｅおよびＴｓｏｔｓｏｓ［２］）によって使用されてきた。これは、情報理論に基づいて、またはグラフカットアルゴリズムもしくはグラブカットアルゴリズムを使用して、顕著性マップの境界を調整し且つ顕著なオブジェクトの輪郭の数を数えて、視覚的顕著性を定義するために使用された。これらの方法は、不正確および／または計算集約的であり、汎用性がない。また、それらの精度は、選択されたパラメータに依存する。

他のいくつかの空間的顕著性の計算は、局所的な視覚的顕著性を計算する代わりに、画像全体にわたる画像領域の大域的な希少性に基づいている。オブジェクトに基づいた注意の理論は、人間がオブジェクトおよび高度な概念に注意することを提案する。これらの認知的発見によって着想を得て、いくつかのモデル（例えば、Ｊｕｄｄら［２２］）は、顔、人間、動物、およびテキストなどのオブジェクト検出器を使用して、顕著な位置を検出している。いくつかのモデルは、注視位置にある画像領域から学習された動き、ちらつき、オプティカルフロー、または関心点を利用して、時空間領域内での顕著性検出に対処する。これらの大域的な検索方法は、それぞれ単一の現象に対処するため、汎用の顕著性アルゴリズムでは、このような検索アルゴリズムの多くを結合して、他の顕著性計算が受ける同じく重い計算負荷を効果的に生成する必要がある。

＜＜２．１１ビデオ圧縮の周波数領域に基づいた顕著性＞＞
周波数領域は、ビデオ画像の視覚的顕著性の計算に使用されている。これは、人間の視覚が、周波数領域内でより簡潔に画定される特定のパターンに引き付けられるためである。

画像の周波数領域表現は、空間領域よりも検索が単純な場合がある。周波数領域内の各ポイントは、空間領域内のあらゆるポイントに接続されているため、周波数領域内の単一の位置を調べることで、画像内の既知の形状またはパターンを見つけることができる（図９）。

画像の周波数領域表現を使用することの難しさは、周波数領域への変換が、通常、計算集約的であることである。フーリエは、時間領域内のあらゆる信号が、様々な振幅、周波数、および位相を有する正弦波の合計として周波数領域内で表され得ることを示している（図１０）。

より多くの正弦波を結合すると、それらの正弦波の合計は、時間領域信号のより正確な表現になる。ほとんどの時間領域信号では、全体的な表現に必要な正弦波の数は無限に長いため、時間領域信号の周波数領域表現は、正弦波の無限列である。

実際には、無限波は使用することができないため、離散フーリエ変換と呼ばれる、周波数領域内で等間隔の不連続な数のステップに周波数波の連続列をサンプリングすることで、近似が行われる。ほとんどの最先端機器では、周波数領域への変換は、通常、高速フーリエ変換（ＦＦＴ）を使用して実行される。高速フーリエ変換では、離散フーリエ変換行列をわずかな（ほとんどゼロの）係数の積に因数分解することで、周波数領域変換を迅速に計算する。各ステップは前のステップの残差に作用するため、高速フーリエ変換は依然として計算集約的である。そのため、対象領域を見つけるために行列全体を計算する必要がある。しかしながら、簡潔なアルゴリズムは知られていない。ＦＦＴ全体を計算する必要があるということは、顕著性の周波数領域表現は単純である場合があっても、必要な計算がリアルタイム計算にはまだ重すぎることを意味する。

ほとんどの画像圧縮には、ＦＦＴの代わりに離散コサイン変換（ＤＣＴ）が使用される。離散フーリエ変換（ＤＦＴ）と離散コサイン変換（ＤＣＴ）との違いは、離散コサイン変換はコサイン関数のみを使用するのに対して、離散フーリエ変換がコサインとサインの両方を使用することである。コサインのみを使用すると、ＤＣＴは実数のみを生成する。これは、すべての波は同じ位相をもち、フーリエ変換は位相および振幅を含む複素数を生成するためである。ＤＣＴは、強力な「エネルギー圧縮」特性を有するため、圧縮でよく使用される。通常のアプリケーションでは、ほとんどの信号情報はＤＣＴのいくつかの低周波成分に集中する傾向があり、小さな高周波成分は破棄することができる（図１１）。

いくつかの研究チームが、画像内の周波数領域顕著性アルゴリズムを調査した。

２００７年、ＨｏｕおよびＺｈａｎｇ［３５］は、画像内のスペクトル成分を使用して、視覚的顕著性を検出した。ボトムアップ顕著性は、振幅または位相から取得できるコントラストの違いから抽出される。Ｈｏｕは、振幅スペクトル残差（ＳＲ）による単純且つ高速な顕著性検出アプローチを設計した。この方法において、Ｈｏｕは、画像情報がイノベーションおよび事前知識の２つの部分から構成されていると想定した。振幅スペクトル内の統計的特異点は、顕著なオブジェクトがポップアップする画像内の異常領域の原因となる場合がある。彼らの方法では、画像の要点は平均フーリエ包絡線で表され、微分スペクトル成分は顕著な領域を抽出するために使用される。彼らは、スペクトル残差アプローチを使用して、周波数領域から顕著性を計算した。彼らは、画像の対数振幅スペクトルのスペクトル残差がその「イノベーション」レベルを表すことを発見した。元の振幅スペクトルの代わりにスペクトル残差の指数関数を使用して位相スペクトルを維持することで、逆フーリエ変換を実行して顕著性マップを生成した。アルゴリズムは、同等の空間領域顕著性方法よりも著しく高速に実行された。

２０１２年、ＳｃｈａｕｅｒｔｅおよびＳｔｉｅｆｅｌｈａｇｅｎ［３６］は、注視予測のための四元数に基づいたスペクトル顕著性検出を調査した。

２０１３年、Ｌｉ、Ｌｅｖｉｎｅ、Ａｎ、およびＨｅ［３７］は、空間領域および周波数領域の顕著性予測を結合する方法を検討した。

２０１５年、Ｌｉ、Ｄｕａｎ、Ｃｈｅｎ、Ｈｕａｎｇ、およびＴｉａｎ［３８］は、中間周波数の位相からの視覚的顕著性を調査した。彼らは、テンプレートに基づいたコントラスト計算の観点から離散フーリエ変換の概念を再解釈し、教師なし学習と教師あり学習の両方を介して得られた事前知識の支援の下で、顕著性検出器を設計した。

画像内の周波数領域アルゴリズムに関する研究のほかに、周波数領域に基づいた動き顕著性に関する論文における簡潔且つ明確な説明もある。

２００８年、Ｇｕｏ、Ｍａ、およびＺｈａｎｇ［３９］は、フーリエ変換の位相スペクトルを使用して時空間（動き）顕著性を計算し、位相がスペクトル残差などの他の周波数領域方法よりも成功しやすく、計算オーバーヘッドが小さくなったことを発見した。Ｇｕｏは、位相スペクトルが視覚的顕著性への重要な要因であり、顕著な領域が位相の突然の変化によって引き起こされることが多いと考えた。振幅スペクトル値に関係なく、極座標フーリエ変換によって顕著性マップを計算できるため、計算作業が減少する。彼らは、２次元画像の極座標フーリエ変換を計算して、各ピクセルを強度、色および動きから構成される四元数として表すことで、さらに四元数フーリエ変換に拡張することができた。追加された「動き」次元により、画像だけでなくビデオでも位相スペクトルが機能することができる。

２０１０年、ＧｕｏおよびＺｈａｎｇ［４０］は、多重解像度で時空間的顕著性を計算する極座標フーリエ変換方法を作製し、画像およびビデオ圧縮のアプリケーションに適用した。四元数フーリエ変換モデルの位相スペクトルは、粗いものから細かいものまで様々な解像度で画像の顕著性マップを計算できるため、モデルに基づく「階層型選択性フレームワーク」を導入して画像のツリー構造表現を構築することができる。階層型選択性の助けを借りて、画像およびビデオ圧縮におけるコーディング効率および顕著性計算時間を改善するために、多重解像度ウェーブレット領域陥凹形成と呼ばれるモデルが提案された。

２０１３年、Ｌｉ、Ｘｕｅ、Ｚｈｅｎｇ、Ｌａｎ、およびＴｉａｎ［４１］は、位相と振幅の両方のデータを含めて「超複素周波数スペクトルコントラスト」を介して時空間的顕著性知覚を計算することで、四元数フーリエ変換の概念をさらに取り入れた。ＧｕｏおよびＺｈａｎｇの方法を修正した主な理由の１つは、位相スペクトルだけでは視覚的顕著性を計算するには不十分であると発見されたことである。周波数領域変換および逆変換の実装形態には、共通情報の位相および振幅が必要である。振幅情報は突然変異のエネルギースペクトルを示し、位相情報は画像内のテクスチャの変化を示す。振幅スペクトルに基づいて、顕著性検出方法には、顕著なオブジェクトの事前配置機能が存在するが、オブジェクトの整合性は不十分である。位相スペクトルに基づく方法は、顕著なオブジェクトの境界に敏感である。振幅のみまたは位相のみに重点を置くと不十分な結果になるため、両方を考慮する必要がある。

上記方法は、以下のステップを含む。
・画像を人間の知覚により自然に対応するＨＳＶ（色相、彩度、および明度）色空間に変換し、現実世界の陰影をもつオブジェクトに固有の３Ｄ構造の一部を捕捉するステップ。
・３レベルのピラミッド上で２次元ガウス分布によってＨＳＶ画像をぼかすことで、細かいテクスチャの詳細を排除し、画像のエネルギーを平均化して、ＨＳＶ色空間内の純粋な四元数（超複素数）によって画像ピクセルを表現するステップ。
・様々なスケールの画像の振幅および位相の情報を含む超複素数フーリエスペクトルを計算するステップ。
・生画像とぼかされた画像との間のスペクトルコントラストを計算し、生画像の様々なスケールで振幅スペクトルおよび位相スペクトルを使用して、これらのコントラストマップを復元するステップ。
・復元されたスペクトルコントラストマップを正規化し、対数極不均一サンプリングを使用して最終的な顕著性マップを取得するステップ。

次いで、四元数フーリエ変換が実行される。

＜＜２．１２顕著性に基づくビデオ圧縮＞＞
対象領域が抽出された際に、対象領域および対象外領域のビデオ圧縮および符号化品質を調節するための多くの手段が提案されている。

＜＜２．１３ぼかし＞＞
単純なアプローチの１つは、顕著性マップに従って入力フレーム内の情報をぼかして入力フレーム内の情報を減らすことである。注意を引く画像の領域のみが高品質に保たれ、他の領域はすべてぼかされる。しかしながら、ぼかしは、低顕著性領域内で主観的品質の明らかな低下をもたらす。

＜＜２．１４圧縮変調＞＞
従来のレート制御アルゴリズムは、すべてのマクロブロックに同じ圧縮レベルを提供する。顕著性は、ブロックを不均一にコーディングする機会を与え、顕著でないブロックをより強く圧縮してコーディング効率を向上させるか、顕著な領域により多くのビットを割り当てて品質を向上させる（図１２）。

これらのブロックの顕著性に応じて、視覚的顕著性の測定値を使用して、様々な量でブロックを圧縮する多くのアルゴリズムが提案されている。知覚品質は、マクロブロックごとに、以下のような圧縮のいくつかの異なる側面を変調するために使用することができる。
・量子化パラメータ
・モード決定
・参照フレームの数
・動きベクトルの精度
・動き推定の検索範囲
＜＜２．１５プレフィルタ＞＞
顕著でない領域からの情報の削除は、コーデックに統合される必要はない。顕著な特徴を検出および追跡し、それらをシャープに保つプレフィルタとして実装することができるが、顕著でない特徴はローパスフィルタリングされ、自動で有益なビットレートの低下を引き起こす。顕著性に基づくプレフィルタリングは、前処理ステップとして実行されるため、任意のビデオエンコーダとインターフェースで接続することができる。

プレフィルタは、いくつかの欠点を有する。プレフィルタ内のマクロブロックがコーデックのマクロブロックと完全に一致する可能性は低い。また、エンコーダには、細粒度の顕著性のためにマクロブロックをより小さなマクロブロックに細分割するなど、プレフィルタの影響を受けない多くの側面が存在する。また、プレフィルタは、コーデックの処理に干渉する場合がある。例えば、オブジェクトの顕著性を変更すると、オブジェクトの外観が変更されて、追加情報としてのフレーム間のオブジェクトの違いを送なければならないコーデックの動き予測アルゴリズムで使用できなくなる。

＜＜２．１６ビデオコーデック＞＞
業界標準のコーデックは、すべて同じ基本ブロックを共有する（図１３）。これは、ＤＣＴブロックから始まって、画像を周波数領域に変換する。次いで、量子化ブロックがそれらの周波数成分の解像度を低下させ、可変長エンコーダがストリームからエントロピーを除去する。

＜＜２．１７動き補償＞＞
最新のビデオコーデックには、すべて、動き推定も含まれている。現在のフレーム内のピクセルの各ブロックは、前のフレーム内の同じサイズの候補ブロックのセットと比較されて、現在ブロックを最もよく予測するブロックが決定される。最も一致するブロックが見つかると、参照ブロックを指定する動きベクトルが決定される（図１４）。

動き補償についての重要な考えは、マクロブロックを予測することで、予測コーディングを追加して画像をより良く圧縮することである。動き補償は、コーデックに何らかの複雑さを加える（図１５）。

動き補償を周波数領域内で実行することが難しいため、最初のステップでは、圧縮画像が逆量子化および逆変換される。これにより、動き推定ブロックがピクセル領域内で動き補償予測誤差を作製できるようになる。現在のフレームのブロックごとに、動き推定を使用して参照フレーム内の予測ブロックが見つけられて差別化され、予測誤差信号が生成される。この計算には、エンコーダおよびデコーダに記憶された単一のフレームのみが必要である。結果として生じる予測誤差は、ＤＣＴを使用して変換され、可変長コーダ（ＶＬＣ）を使用して量子化およびエントロピー符号化され、固定レートチャネル上の送信用にバッファリングされる。

フレーム内（イントラ）とフレーム間（インター）とに同じ圧縮ブロックを使用することができる。フレーム間圧縮では前のフレームから現在のフレームが差し引かれてフレーム間の差分が処理され、フレーム内圧縮では最新のフレームが処理される（図１６）。

＜＜２．１８業界標準コーデック＞＞
ビデオコーディングにおける主なイニシアチブは、新しいコーデックにつながる。最も一般的なビデオコーデックの年表は、以下の通りである。
・Ｈ．２６１（１９９０） − 国際電気通信連合（ＩＴＵ）によって開発された。コーディングアルゴリズムは、ピクチャ間予測を使用して時間的冗長性を除去する。時間コーディングの基本単位であるマクロブロックは、１６×１６ピクセル領域を表すために使用される。Ｈ．２６１は、電話会議アプリケーションでＩＳＤＮを介してビデオを伝送するためのものであり、一般的なデジタルビデオコーディングでの使用には適していない。
・ＭＰＥＧ−１（１９９１） − 動画専門家集団（ＭＰＥＧ）の最初のコーデックである。ＣＤ−ＲＯＭに映画を１．２Ｍｂｉｔｓ／ｓ程度で記憶するためのものであり、以下のイノベーションが組み込まれている。

・単体で符号化されたフレーム（Ｉフレーム）：隣接するフレームとは無関係の個別フレーム（静止フレーム）として符号化される。

・予測で符号化されたフレーム（Ｐフレーム）：過去のＩフレームまたはＰフレームからの予測によって符号化され、より良い圧縮率（より小さなフレーム）をもたらす。

・双方向予測で符号化されたフレーム（Ｂフレーム）：ＩフレームまたはＰフレームの過去および将来のフレームを使用した予測によって符号化され、最高の圧縮度を提供する。
・Ｈ．２６２／ＭＰＥＧ−２（１９９４） − ＭＰＥＧ−１の圧縮技術を拡張して、帯域幅の使用量を増やしながら、より大きな画像および高品質をカバーする。ＭＰＥＧ−２は、通常、４Ｍｂｐｓ〜１５Ｍｂｐｓのビットレートを必要とするデジタルテレビ放送アプリケーションのため、または２Ｍｂｉｔｓ／ｓ〜４００Ｍｂｉｔｓ／ｓ程度のビデオをＤＶＤ（デジタルビデオディスク）に記憶するために設計されている。
・Ｈ．２６３／ＭＰＥＧ−４Ｐａｒｔ２（１９９６） − テストモデル（ＴＭＮ）と呼ばれる符号化アルゴリズムを使用する。これは、Ｈ．２６１で使用されるものに類似するが、パフォーマンスおよびエラー回復が改善され、効率が向上している。また、低ビットレートでのコーディングに最適化されている。Ｈ．２６３は、ＰＯＴＳ２ネットワークを介した低ビットレートビデオテレフォニーのためのビデオコーディングに使用され、１４．４ｋｂｉｔｓ／ｓ〜５６ｋｂｉｔｓ／ｓのモデムレートで使用されるビデオに１０ｋｂｉｔｓ／ｓが割り振られる。モデムレートには、ビデオコーディング、音声コーディング、制御情報、およびデータ用の他の論理チャネルが含まれる。ＭＰＥＧ４は、ビデオストリームをアルファマスクによって定義されたフォアグラウンド領域とバックグラウンド領域に分割する「ビデオオブジェクトプレーン」と呼ばれる特徴を有する。バックグラウンド情報は、一度だけ送信される必要がある。コーデックは、ビデオストリームを調べることでアルファマスクを自動的に生成することができる。または、コーデックは、最初のフレーム内で対象のオブジェクトを手動で選択して、半自動的に生成することができる。
・Ｈ．２６４／ＭＰＥＧ−４ＡＶＣ／ＭＰＥＧ−４Ｐａｒｔ１０（２００３） − 様々なアプリケーションの既存のビデオコーディング規格と比較して、コーディング効率を２倍にするという目標があった。Ｈ．２６４は、２００３年３月にＩＴＵ−Ｔによって承認された（ＭＰＥＧ−４Ｐａｒｔ１０としても知られる）。その目標は、低ビットレート（８ｋｂｉｔｓ／ｓ程度）と高ビットレート（１Ｍｂｉｔｓ／ｓ以上）のため、低解像度および高解像度のビデオのため、ならびに待ち時間に対する高い要求および低い要求に応じて、多種多様なアプリケーションに規格を適用することができるように十分な柔軟性を提供することであった。コーディング効率を改善する主な特徴は以下の通りである。

・可変ブロックサイズの動き補償
・ピクチャ境界上の動きベクトル
・複数の参照ピクチャの動き補償
・ループ内ブロック解除フィルタリング
・４×４ピクセルの小さなブロックサイズの変換
・エントロピーコーディング方法の強化（コンテキスト適応型可変長コーディング（ＣＡＶＬＣ）およびコンテキスト適応型バイナリ算術コーディング（ＣＡＢＡＣ））
・ＶＰ８（２００８） − Ｈ．２６４／ＡＶＣと多くの共通点をもつ従来のブロックに基づいた変換コーディング形式。
・Ｈ．２６５／ＨＶＥＣ／ＭＰＥＧ−ＨＰａｒｔ２（２０１０） − ＪＣＴ−ＶＣ協会によるものである。ＩＳＯ／ＩＥＣＭＰＥＧとＩＴＵ−ＴＶＣＥＧとの間の共同研究であり、Ｈ．２６４と比較して効率が５０％改善している。
・ＶＰ９（２０１２） − ｘ２６４よりも３０％効率的である。
・ＶＰ１０／ＡＶ１（２０１７年推定） − パフォーマンスについて、ＨＥＶＣおよびＶＰ９と比較して効率が約５０％改善している。

＜＜２．１９標準コーデックの改善された実装形態＞＞
同じコーデックからのすべてのビデオが等しいとは限らない。ビデオ圧縮規格は、ビデオエンコーダによって生成される圧縮ビットストリームの構文およびセマンティクス、ならびにビットストリームを解凍したビデオ信号を生成するための解析および復号方法を指定する。しかしながら、動き推定、コーディングモードの選択、ピクチャの様々な部分へのビットの割振りなど、符号化におけるアルゴリズムおよびパラメータの選択は指定されない。これらはオープンのままであり、エンコーダの実装形態に大きく依存する。しかしながら、符号化の結果として生じるビットストリームは、指定された構文に準拠する必要がある。その結果、同じビットレートであっても、標準のビデオコーデックの品質は、エンコーダの実装形態に大きく依存する。これは、一部の実装形態が他の実装形態よりも優れたビデオ品質をもたらすように見える理由を示す。

＜＜２．２０プレフィルタおよびポストフィルタ＞＞
コーデックは、ビデオのノイズ除去、フリック除去、および振動除去などのプレフィルタを使用することが多い。ノイズ除去およびフリック除去は、通常、ピーク信号対ノイズ比（ＰＳＮＲ）の値を維持しながら、視覚的な品質を向上させる。振動除去は、ＰＳＮＲを大幅に低下させるが、視覚的な品質を向上させる。ポストフィルタは、ブロック解除および共鳴解除のような同様の特性を示し、ＰＳＮＲを維持するが、品質は向上する。（Ｈ．２６４で推奨された）粒状化は、ビデオ品質を向上させるが、ＰＳＮＲを低下させる。すべてのフィルタは、圧縮／解凍時間を増加させる。一部の顕著性アルゴリズム（例えば、ＥｕｃｌｉｄＩＱのＩＱ２６４）は、コーデックに到達する前にビデオ上で動作するプレフィルタとして実装されている。

＜＜２．２１レート制御＞＞
ビデオが変換される最終的なデータレートも制御することができる。通常、可変ビットレートは、シーケンスの同じ平均客観的品質値（例えば、ＰＳＮＲ）に対して、固定ビットレートよりも優れた視覚的品質マークをもたらす。

＜＜２．２２マクロブロックのスキップ＞＞
動き推定は、差分と共に、変更されていない前のフレームの部分を探し、それらを元の参照位置からのベクトルとして符号化。符号化されたストリーム内で、動き推定は、以下の３つのタイプのビデオフレームを作製する。
・Ｉフレーム − すべてのマクロブロックを含む参照フレーム。
・Ｐフレーム − 以前のフレーム（主にＩフレーム）から作製された前方予測ピクチャであり、必要なデータが少ない（通常、Ｉフレームのサイズの５０％）。
・Ｂフレーム − 前後のフレームから予測または補間することができるため、Ｐフレームよりも少ないデータ（通常、Ｉフレームのサイズの２５％）で前後のフレームの一部を使用する双方向予測されたピクチャ。

ＰフレームおよびＢフレームは、動きベクトルおよび変換係数として表され、コーデックがコンテンツの代わりに画像部分の変換を送信できるようにする。しかしながら、これらの動きベクトルおよび変換は、ビットレートの一部を依然として占有する。

また、前のフレームから変更されていない一部のマクロブロックについては、動きベクトルまたは変換を含まないスキップマクロブロックを送信することができる。スキップブロックは、すべて同じ方法で変換されるマクロブロックの大きなグループにも使用することができる。デコーダは、すでに復号化された他のブロックからスキップコード化されたブロックの動きベクトルを推定する。

＜＜２．２３ビデオ圧縮の品質評価＞＞
あるビデオコーデックが別のビデオコーデックよりも優れているかどうかを評価するために、ビデオの品質を測定する方法が必要である。ビデオ品質測定は、ビデオコーデックの開発および評価に不可欠な部分であり、人間の知覚に基づいた新しいタイプのビデオ圧縮を検討する場合、古い品質測定では評価できない可能性があるため、特に重要である。

＜＜２．２４主観的な品質＞＞
ビデオ品質を測定する最も簡単で正確な方法は、人にそれを観察させてスコアを付けさせることである。総合的なモデルによって人間の視覚を完全にモデル化できないため、ビデオ圧縮がより精巧になるにつれておよび人間の目の知覚特性を使用するにつれて、ビデオ品質のスコアリングにおいて人間の主観的な品質評価がより重要になる。

主観的な意見は様々であり、ビデオシーケンスを参加者に見せて参加者の意見を記録する多くの方法があるため、主観的な品質評価を信頼できる品質測定に変えることは困難である。主観的なスコアを信頼できるようにするために、主にＩＴＵ−Ｒ勧告ＢＴ．５００において、被験者から平均意見スコアを取得するための制御されたプレゼンテーション形式を指定するいくつかのプレゼンテーション方法が標準化されている。

また、人間の注意時間は限られているため、主観的なテストに長いシーケンスを使用することは困難である。通常、４つの１０秒シーケンスが使用される。シーケンスの選択には影響がある。開発者がコーデックを調整するために使用するシーケンスと同様のシーケンスは、パフォーマンスが向上する。通常、ビデオ品質を評価するために非専門家の意見が使用される。なぜなら、専門家は、平均的なユーザとは異なる方法でビデオを見るため、消費者がビデオ品質をどのように経験するかを示す品質スコアが得られないためである。

主観的な品質テストに伴う主な問題は、時間がかかり、平均意見スコアの許容可能精度を得るために、（テストの複雑さに応じて）２５人〜４０人のオブザーバを募集する必要があることである。主観的なビデオテストを設計および実行するプロセスは、通常、１週間以上かかる。

＜＜２．２５客観的な品質＞＞
総合的な測定は、人間のビデオテスタの大規模コホートなしでビデオ品質スコアを提供する。人間の視聴には遅延がないため、総合的なスコアを使用と、ビデオコーデックを迅速に開発することができる。また、総合的なスコアを使用と、コーデック内で品質評価を使用して、ビットレートと品質を動的に調整することができる。

＜＜２．２６ＰＳＮＲ＞＞
ピーク信号対ノイズ比（ＰＳＮＲ）は、信号の最大可能電力と破損ノイズの電力との間の比率に使われる工学用語である。ＰＳＮＲは、符号化および復号の前後にビデオフレームのピクセルごとの比較を実行する。このタイプの前後の比較は、「完全参照」と呼ばれる。圧縮画像のみを使用する他のタイプの品質推定も存在する。

ＰＳＮＲの計算では、まず、各ビットの平均二乗誤差（ＭＳＥ）を取得する。最大可能ピクセル値が２乗され、ＭＳＥによって除算され、その対数が取られてＰＳＮＲが得られる。

ピーク信号対ノイズ比は、画像に加えられる歪みおよびノイズの単純な測定値を提供するために使用される。

ＰＳＮＲの弱点は、人間の視覚をうまくモデル化できないことである。人間の目ではほとんど認識されない画像の歪みの中には、大きなＰＳＮＲエラー（例えば、画像の明るさ）を生成するものと、よく見える他の歪みとが存在する。ＰＳＮＲには、人間の知覚の概念がないため、これらの問題が発生する。例えば、顕著性を使用して圧縮を導くコーデックは、ガイドなしのＰＳＮＲスコアと同じＰＳＮＲスコアを有する（損失を再配布するだけである）が、主観的スコアは顕著性ガイド付き画像を著しく高い品質として評価する。最新のコーデックは、人間の知覚を活用して知覚されない情報を破棄するため、ＰＳＮＲスコアの有用性は低下している。

提案されているＰＳＮＲの変形形態の１つに、中心窩のＰＳＮＲがある。この場合、ＰＳＮＲスコアは、各マクロブロックの（注意マップから取得された）相対的な重要度に従ってマクロブロックレベルで適応的に調整される。しかしながら、注意マップは主観的な視聴者の視線追跡によって取得する必要があるため、この方法はラボビデオサンプルのみに限定される。新しいビデオは、注意マップをもたない。

＜＜２．２７ＳＳＩＭ＞＞
ＳｔｒｕｃｔｕｒａｌＳｉｍｉｌａｒｉｔｙ（ＳＳＩＭ：構造的類似性）は、人間が知覚した品質をなんらかの方法でモデル化する「ＳＳＩＭ」の指標を計算することで、人間の知覚により良く適応しようとする。ＳＳＩＭは、絶対誤差を計算するのではなく、画像劣化を「構造情報」内の知覚変化と見なす。これは、特に空間的に近い場合にピクセルが強い相互依存性を有するという考えである。これらの依存関係には、視覚画像内のオブジェクトの構造に関する重要な情報が含まれる。ＳＳＩＭには、「輝度マスキング」および「コントラストマスキング」などの知覚現象も組み込まれる。「輝度マスキング」とは、明るい領域では画像の歪みが目立たなくなる現象である。「コントラストマスキング」とは、画像内に大きな活動または「テクスチャ」がある場合に、それによって歪みが目立たなくなる現象である。

ＳＳＩＭは、次の３つの要素の重視された組み合わせから構成される。
・輝度 − ピクセル用の高い値がより重視される。各ポイントの輝度は、平均の２乗の合計に対する平均ｘとｙの積の２倍である。
・コントラスト − 局所的に一意のピクセル値がより重視される。各ポイントのコントラストは、平均の２乗の合計に対する分散値ｘとｙの積の２倍である。
・構造 − ここでは、隣接する値によって変化するかどうかが判定される。各ポイントの構造は、分散値ｘとｙの積に対するｘとｙの共分散である。

ＳＳＩＭの変形形態の１つであるマルチスケールＳＳＩＭ（ＭＳＳＩＭ）は、初期視覚システム内のマルチスケール処理を模倣するように設計されたサブサンプリングの複数ステージのプロセスを介して、複数のスケール上でこれらのスコアを計算する。ＭＳＳＩＭのパフォーマンスは、画質データベース上で測定されるように、人間の判断と非常に相関している。最も優位性のあるオブジェクトの画質モデルは、ＭＳＳＩＭコンセプトの何らかの形式または変形形態である。

ＭＳＳＩＭにはいくつかの利点があるが、その有用性を制限する問題もある。
・ＭＳＳＩＭは、ＰＳＮＲよりも計算が複雑である。
・おそらく最も重要なことに、ＭＳＳＩＭはビデオ用ではなく、静止画像用であることである。ビデオは、フレーム内よりもフレーム間の相関が高いため、ほとんどの圧縮はフレーム間で実行される。これは、ＭＳＳＩＭが歪みの大部分を測定しないことを意味する。動きの顕著性とＳＳＩＭとの間に相関関係はない。
・ＭＳＳＩＭには顕著性の概念をもたない。構造的な関係を識別することはできるが、それらの関係が顕著であるかどうかは分からない。これは、顕著な領域でより良い品質を提供するために、平均歪みを同じレベルに保ちながらビットを不均一に分散する顕著性に基づく圧縮アルゴリズムをテストする場合の重大な欠点である。通常、ＭＳＳＩＭは顕著性に基づくビット分布からの改善を報告しないが、主観的なテストは大幅な改善を報告する。
・ＭＳＳＩＭは複雑でるため、コーデックを開発することが困難になる。多くの場合、コーデックは、パラメータを変更させ、客観的な測定に対してテストすることで、段階的且つ反復的に最適化される。ＰＳＮＲのような単純な測定の場合、なぜスコアが良くなったか悪くなったかがすぐにわかる。複雑な測定の場合、画像のスコアがなぜ変更されたかを知ることは困難であり得る。

（人間の視覚に基づくものを含む）多くの追加の客観的な品質評価方法が提案されている。しかしながら、ビデオ品質専門家集団（ＶＱＥＧ）の調査結果は、すべての条件で主観的な品質を反映することができる客観的な測定値が存在しないことを示している。

＜＜２．２８品質曲線＞＞
ほとんどのビデオコーデックには、ビットレートと品質との間に非線形関係がある。ビットレートが増加するたびに品質に与える影響が小さくなる。この非線形関係は、コーデックがより高いビットレートおよびより低いビットレートにどのように反応するかを示す「品質曲線」を形成する。圧縮曲線は、コーデックを比較するために使用されるものである（図１７）。

＜＜２．２９閉ループ予測＞＞
客観的な品質測定を閉ループの形式で使用して、圧縮を調節することができる。１つの領域を圧縮すると品質に影響を与えることが品質測定から判明している場合、コーデックは、主観的な品質を維持するためにその領域をより少なく圧縮するように指示される。フィードバックとしての客観的な品質を備えた閉ループビデオ圧縮は、２００５年にＣａｖｉｅｄｅｓおよびＡｌｉによって提案された［４２］。

品質推定および顕著性は、同じアルゴリズムであることがわかる。品質の全体的な測定により、画像のすべての部分において最適な圧縮を使用することができる。

＜＜２．３０業界の問題＞＞
ビデオコーデック業界はいくつかの問題に直面しており、これらの問題をより良く解決するために、新しいコーデックが定期的に導入されている。

＜＜２．３１ビデオの使用の増加＞＞
ビデオインターネットトラフィックは、１桁増加している。インターネットトラフィックの量は、２００５年から２０２０年にかけて１００倍増加すると予想されている（Ｃｉｓｃｏ）。その増加の大部分は、ビデオが占める。ＩＰビデオトラフィックは、２０１５年の７０％から２０２０年までにすべての消費者インターネットトラフィックの８２％に増加する（Ｃｉｓｃｏ）。２０１１年から２０１３年にかけて、平均的なオンラインビデオ視聴は、１人あたり１日６分増加した。

＜＜２．３２ビデオ解像度の増加＞＞
より大きく、より高解像度の画面が使用されるにつれて、ビデオフレームのサイズは増大している。

増大しているのはフレームの解像度だけではなく、より大きな色空間も使用されている。３６０度ビデオおよび立体ビデオなどの新しいスクリーン技術は、データおよび解像度の要求をさらに高めている。

＜＜２．３３帯域幅の小ささ＞＞
インターネットトラフィックは、主にモバイルネットワークを経由するように変化している。スマートフォンのインターネットトラフィックは、２０２０年までにＰＣトラフィックを超える（Ｃｉｓｃｏ）。モバイルデバイスでビデオを視聴する傾向を示すパターンもある。エリクソンは、モバイルデバイスからのＩＰトラフィックが２０１９年までに有線デバイスからのＩＰトラフィックをはるかに超え、ビデオトラフィックがモバイルトラフィックの５０％以上を占めると予測している。しかしながら、通常、モバイルデータの速度は、有線ネットワークの速度よりも遅いため、ビデオあたりの平均帯域幅は急速に増大しない。また、リアルタイムビデオは、ほとんどのセルラー通信リンクの非対称性によってさらに制約されて、アップロードリンクよりも幅広いダウンロードを提供する。

＜＜２．３４リアルタイムビデオの圧縮率が低い＞＞
動き推定などの多くのコーデック動作はリアルタイムで実行するには計算作業が多いため、ビデオコーデックはリアルタイムビデオの符号化ではあまり効率的でない。しかしながら、ビデオコールのハードウェアおよびソフトウェアが利用できるため、ライブビデオはインターネットトラフィックの大きな割合を占める。このライブビデオの多くは、計算能力の低いモバイルデバイス上で符号化されている。

＜＜２．３５新しいコーデックの開発時間の増加＞＞
通常、新しいコーデックは、より精巧なアルゴリズムを採用することで、より高い圧縮率を提供する。これらのコーデックが精巧になるにつれて、開発には時間がかかる。コーデックの新しいバージョン間の平均期間は、２年から５年に増加した。

＜＜２．３６計算作業の増加＞＞
コーデックが精巧になるにつれて、ピクセルごとに実行される計算が増加する。最新のコーデックは、ビットレートを下げるために、検索、変換およびモデル化を実行する場合がある。ビデオ解像度の向上に伴うピクセルごとの作業の増加により、ほとんどの最新のＣＰＵでリアルタイムに実行されるようにビデオ符号化の要求が厳しくなっている。通常、多くのビデオを処理する機関は、ビデオを最適な圧縮で符号化するために、ビデオの符号化に多大な作業を費やす「トランスコーダ」ファームを有する。

＜＜２．３７コーデックのメトリックの難しさ＞＞
コーデックが精巧になるにつれて、コーデックの効率を述べることは難しくなっている。一部の新しいコーデックは、人間の視覚または特定のコンテンツタイプ（例えば、スポーツ）向けに最適化されているため、総合的なテストではパフォーマンスが不十分である。テストでは、最も一般的な種類のコンテンツを代表するビデオを視聴する人間の観察者の大規模なコホートが必要である。

＜＜２．３８ハードウェアの互換性＞＞
ビデオコーデックはプロセッサに大きな負荷をかけるため、特に低電力デバイス（例えば、テレビ、携帯電話）を含む多くのデバイスには、ハードウェアビデオコーデックアクセラレータが含まれる。これらのハードウェアビデオアクセラレータは、新しいコーデックがインストールされたアクセラレータハードウェアの大規模なベースと互換性がないため、新しいビデオ符号化方法の導入に対する障壁になる。

＜＜２．３９ソフトウェアの互換性＞＞
ほとんどのブラウザおよびオペレーティングシステムには、ビデオの再生を可能にするビデオコーデックが含まれる。ビデオを再生するコーデックがないため、ビデオコンテンツはそのコーデックで符号化されず、コーデックを採用する必要性が減るという、卵が先か鶏が先かという状況があり、ソフトウェアは新しいコーデックを採用するのに何年もかかる可能性がある。

＜＜２．４０既存のビデオコンテンツ＞＞
ほとんどのビデオコンテンツは、既存のビデオ形式のいずれかですでに符号化されている。コンテンツの所有者は、ビデオの元の高品質バージョンをもっていないか、またはビデオを再符号化するコストを負担したがらない場合がある。動機は別として、彼らは、以前のエンコーダが新しいコーデックによる圧縮を妨げる視覚的なアーチファクトをもたらしたこと、または圧縮率が低い古いコーデックが所望のビットレートを実現するために品質劣化を必要としていたことに気づく可能性がある。

＜＜２．４１非常に低いビットレートのビデオ＞＞
低解像度／低品質のビデオの量が増加している。かつては静止画像であったウェブサイト、広告、およびユーザインターフェースの一部が、ビデオコンテンツを表示している。しかしながら、ほとんどのビデオエンコーダは、低ビットレートではパフォーマンスが不十分である。ビットレートが非常に低い場合、多くのエンコーダは画像全体を歪め、許容できない品質になる。

要約すると、上記の従来技術として記載した方法は、制約のない実世界のリアルタイムアプリケーションではまだ大規模に使用されていない。これは、そのような方法による現在の処理能力では、ビデオ圧縮を改善する目的でオブジェクト認識および画像処理の許容できる堅牢性および速度を実現することが難しいためである。本方法では、必要な堅牢性と速度の両方を実現することができる計算について記載する。

＜参考文献＞
[1] Mishra AK, Aloimonos Y, Cheong LF, Kassim A (2012). Active visual segmentation. IEEE transactions on pattern analysis and machine intelligence, 34(4), 639-653.
[2] Bruce N, Tsotsos J (2006). Saliency based on information maximization. Advances in neural information processing systems, 18, 155.
[3] Ma Y-F, Zhang H-J. Contrast-based image attention analysis by using fuzzy growing. Proceedings of the eleventh ACM international conference on Multimedia - MULTIMEDIA ’03, 2003. doi:10.1145/957092.957094.
[4] L. Itti, C. Koch, & E. Niebur (1998). A Model of Saliency-Based Visual Attention for Rapid Scene Analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence 20(11):1254-1259.
[5] C. Koch & S. Ullman (1985). Shifts in selective visual attention: towards the underlying neural circuitry. Human Neurobiology 4:219-227.
[6] O. Le Meur, P. Le Callet, D. Barba, & D. Thoreau (2006). A coherent computational approach to model bottom-up visual attention. IEEE Transactions on Pattern Analysis and Machine Intelligence. 28(5):802-817.
[7] Sophie Marat, Tien Ho Phuoc, Lionel Granjon, Nathalie Guyader, Denis Pellerin, et al. (2009). Modelling spatio-temporal saliency to predict gaze direction for short videos. International Journal of Computer Vision, Springer Verlag, 2009, 82 (3), pp.231-243.
[8] Bruce, N.D. and Tsotsos, J.K., (2005), May. An attentional framework for stereo vision. In Computer and Robot Vision, 2005. Proceedings. The 2nd Canadian Conference on (pp. 88-95). IEEE.
[9] Mancas, M., Gosselin B., MA CQ B., (2007). A Three-Level Computational Attention Model. Proceedings of ICVS Workshop on Computational Attention & Applications (WCAA-2007).
[10] A Borji, DN Sihite, L Itti (2012) Quantitative Analysis of Human-Model Agreement in Visual Saliency Modeling: A Comparative Study, IEEE Transactions on Image Processing (TIP)
[11] Hou X, Zhang L. Saliency Detection: A Spectral Residual Approach. 2007 IEEE Conference on Computer Vision and Pattern Recognition, 2007. doi:10.1109/cvpr.2007.383267.
[12] Torralba, A (2003). Contextual Priming for Object Detection International Journal of Computer Vision (2003) 53: 169. doi:10.1023/A:1023052124951
[13] L. Itti & P. Baldi (2006). Bayesian Surprise Attracts Human Attention. In: Advances in Neural Information Processing Systems, Vol. 19 (NIPS*2005), Cambridge, MA: MIT Press.
[14] Harel, J., Koch, C. and Perona, P., (2006, December). Graph-based visual saliency. In NIPS (Vol. 1, No. 2, p. 5).
[15] Avraham, T. & Lindenbaum, M., (2010). Esaliency (extended saliency): Meaningful attention using stochastic image modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32, 693- 708
[16] Li, L.J., Su, H., Fei-Fei, L. and Xing, E.P., (2010). Object bank: A high-level image representation for scene classification & semantic feature sparsification. In Advances in neural information processing systems (pp. 1378-1386).
[17] Hamed Rezazadegan Tavakoli, Esa Rahtu , Janne Heikkila (2011), Fast and efficient saliency detection using sparse sampling and kernel density estimation, Proceedings of the 17th Scandinavian conference on Image analysis, May 01, 2011, Ystad, Sweden
[18] D. Gao and N. Vasconcelos, (2004) Discriminant Saliency for Visual Recognition from Cluttered Scenes, Proceedings of Neural Information Processing Systems (NIPS), Vancouver, Canada, 2004.
[19] Hou, X. and Zhang, L., (2007), June. Saliency detection: A spectral residual approach. In Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on (pp. 1-8). IEEE
[20] Kienzle, W., Wichmann, F.A., Scholkopf, B. and Franz, M.O., (2007). A nonparametric approach to bottom-up visual saliency. Advances in neural information processing systems, 19, p.689.
[21] Peters, R.J. and Itti, L., (2007), June. Beyond bottom-up: Incorporating task-dependent influences into a computational model of spatial attention. In Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on (pp. 1-8). IEEE.
[22] Judd, T., Ehinger, K., Durand, F. and Torralba, A., (2009), September. Learning to predict where humans look. In Computer Vision, 2009 IEEE 12th international conference on (pp. 2106-2113). IEEE.
[23] Cerf, M., Frady, E.P. and Koch, C., (2008), March. Using semantic content as cues for better scanpath prediction. In Proceedings of the 2008 symposium on Eye tracking research & applications (pp. 143-46). ACM.
[24] Seo, H.J. and Milanfar, P., (2009). Static and space-time visual saliency detection by self-resemblance. Journal of vision, 9(12), pp.15-15.
[25] Garcia-Diaz, A., Fdez-Vidal, X.R., Pardo, X.M. and Dosil, R., (2009), September. Decorrelation and distinctiveness provide with human-like saliency. In International Conference on Advanced Concepts for Intelligent Vision Systems (pp. 343-354). Springer Berlin Heidelberg.
[26] Kootstra, G., Nederveen, A. and De Boer, B., (2008). Paying attention to symmetry. In British Machine Vision Conference (BMVC2008) (pp. 1115-1125). The British Machine Vision Association and Society for Pattern Recognition
[27] Goferman, S. and Zelnik, L., (2010), June. L. manor, and A. Tal. Context-aware saliency detection. In CVPR (Vol. 1, No. 2, p. 3).
[28] Wolfe, J.M., (1994). Visual search in continuous, naturalistic stimuli. Vision research, 34(9), pp.1187-1195.
[29] Kahneman, D., Treisman, A. and Gibbs, B.J., 1992. The reviewing of object files: Object-specific integration of information. Cognitive psychology, 24(2), pp.175-219
[30] Mahadevan, V., Li, W., Bhalodia, V. and Vasconcelos, N., (2010), June. Anomaly detection in crowded scenes. In Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on (pp. 1975-1981). IEEE
[31] Muddamsetty, S.M., Sidibe, D., Tremeau, A. and Meriaudeau, F., (2014), August. Spatio-Temporal Saliency Detection in Dynamic Scenes using Local Binary Patterns. In Pattern Recognition (ICPR), 2014 22nd International Conference on (pp. 2353-2358). IEEE.
[32] Bian, P. and Zhang, L., 2008, November. Biological plausibility of spectral domain approach for spatiotemporal visual saliency. In International conference on neural information processing (pp. 251-258). Springer Berlin Heidelberg.
[33] Guo, C. and Zhang, L., 2010. A novel multiresolution spatiotemporal saliency detection model and its applications in image and video compression. IEEE transactions on image processing, 19(1), pp.185-198.
[34] Li, Z., Qin, S. and Itti, L., 2011. Visual attention guided bit allocation in video compression. Image and Vision Computing, 29(1), pp.1-14.
[35] Hou, X. and Zhang, L., 2007, June. Saliency detection: A spectral residual approach. In Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on (pp. 1-8). IEEE.
[36] Schauerte, B. and Stiefelhagen, R., 2012. Quaternion-based spectral saliency detection for eye fixation prediction. In Computer Vision- ECCV 2012 (pp. 116-129). Springer Berlin Heidelberg.
[37] Li, J., Levine, M.D., An, X., Xu, X. and He, H., 2013. Visual saliency based on scale-space analysis in the frequency domain. IEEE transactions on pattern analysis and machine intelligence, 35(4), pp.996-1010.
[38] Li, J., Duan, L.Y., Chen, X., Huang, T. and Tian, Y., 2015. Finding the secret of image saliency in the frequency domain. IEEE transactions on pattern analysis and machine intelligence, 37(12), pp.2428-2440.
[39] Guo, C., Ma, Q. and Zhang, L., 2008, June. Spatio-temporal saliency detection using phase spectrum of quaternion Fourier transform. In Computer vision and pattern recognition, 2008. cvpr 2008. ieee conference on (pp. 1-8). IEEE.
[40] Guo, C. and Zhang, L., 2010. A novel multiresolution spatiotemporal saliency detection model and its applications in image and video compression. IEEE transactions on image processing, 19(1), pp.185-198.
[41] Li, C., Xue, J., Zheng, N., Lan, X. and Tian, Z., 2013. Spatio-temporal saliency perception via hypercomplex frequency spectral contrast. Sensors, 13(3), pp.3409-3431.
[42] Caviedes, J.E. and Ali, W.S.I., 2005, September. Closed-loop video processing for objective quality optimization. In Signal Processing Conference, 2005 13th European (pp. 1-4). IEEE.

上記ビデオ圧縮のための方法は、周波数領域内でカーネルが使用される場合に適用することができる。画像データを周波数領域に変換せずに、空間領域内のピクセル情報の分析に基づく方法には適用することができない。本方法は、ビデオストリームを圧縮するために、圧縮する画像内のオブジェクトを検出する必要がある場合、またはデバイスもしくはネットワーク接続デバイス上でリアルタイムにビデオストリーム内の画像から視覚的顕著性のマップを作製する必要がある場合に特に適用することができる。

一般に、本発明の方法は、周波数領域内で抽出された特徴を使用してオブジェクトまたは視覚的顕著性が検出されるプロセスを有する。これらの特徴は、元の画像を周波数領域に変換し、この変換された画像情報に周波数領域内の１つまたは複数のカーネルを乗算することで取得される。

このプロセスでは、いくつかの特徴が選択されてから、カーネルおよび特徴レイアウトなどのパラメータが最適化されるオフライン学習フェーズにおいて、最適なパラメータ設定が選択される。そのため、特徴のセットは、一般的なオブジェクトまたは視覚的に顕著なオブジェクトのための周波数領域内のモデルを示す。

以下では、「分類子」および「オブジェクト」という記述がしばしば使用される。これは、「分類子および／または視覚的顕著性」を意味する。視覚的顕著性モデルは、分類子よりも高レベルでより一般的なモデルであることは明らかである。例えば、分類子は、顔のようなオブジェクトを認識するように訓練される場合がある。視覚的顕著性モデルの場合、顔は対象オブジェクトのうちの１つにすぎない。本分野の専門家には、分類子および視覚的顕著性モデルを作製する際に本方法の開示が同様に適用されることが明らかであろう。したがって、本開示では、「分類子」および「オブジェクト」という用語は、ビデオ圧縮に使用される視覚的顕著性モデルを十分に説明するために使用される。

より詳細には、周波数領域内の特徴を抽出して使用するための方法は、
・空間領域内のデータを介して定義されたデジタル画像を取得するステップと、
・Ｌ変換の２次元バリエーションを使用して、画像データの全周波数領域データの疎部分を周波数領域に転送するステップと、
・変換された周波数領域に、周波数領域の一部をカバーする１つまたは複数の疎ゾーンと、疎ゾーンと少なくとも部分的に重複する１つまたは複数のフィルタリングカーネルとを適用するステップと、
・各疎ゾーン内の変換された周波数データとカーネルとの間で乗算を実行し、結果を、それぞれ対応する抽出された特徴を示す単一の値に結合するステップと、
・抽出された特徴の出力を使用して分類子および／または視覚的顕著性モデルを作製し、ビデオコーデックと組み合わせて使用した場合にビデオ圧縮を変調する手段を取得するステップと、
・疎ゾーンおよび／またはカーネルのパラメータを変化させ、所定の精度が達成されるまで乗算および抽出のプロセスを繰り返すステップと、
から構成される。

ビデオコーデックの分野の専門家には、デジタル画像入力として使用できる以下のいくつかの可能性が存在することは明らかである。
・画像全体が変換される。
・画像のセグメントが変換される。
・コーデックによって定義された画像の各マクロブロック入力が変換される。

また、添付の特許請求の範囲がデジタル入力のサイズによって変更されないことも明らかである。本方法は、ビデオコーデックのマクロブロックに使用されるサイズのような任意の入力サイズに使用することができる。

上記を考慮して、本発明による画像処理およびビデオ圧縮のための方法は、添付の請求項１に定義される。

追加の利点をもたらす本方法のさらなる詳細は、従属請求項に定義される。

したがって、本方法は、オブジェクト検出および画像処理方法の処理速度を大幅に向上させることができ、同時にその精度を向上させることができる。

上述したように、オブジェクト検出および画像処理技術の速度を向上させることができる新しい方法に対する大きなニーズがある。この速度の向上により、最新世代のモバイルデバイスおよび他の同様のデバイス内のバックグラウンドで動作するのに十分な速度でオブジェクト検出および視覚的顕著性の計算をすることができるようになる。

アルゴリズムは、最新世代のモバイルデバイスでの使用とは別に、ウェアラブルハードウェアなどの将来の傾向を見越して、主なパーソナルコンピュータのオペレーティングシステムおよびモバイルオペレーティングシステムの外部で動作して、プロセッサおよびＦＰＧＡ（ｆｉｅｌｄ−ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）などの再プログラム可能なハードウェアでプログラム可能である必要がある。また、本方法は、アルゴリズムから構成される必要がある。これらのアルゴリズムは、マルチコアおよび強力なグラフィックスプロセッシングユニット（ＧＰＵ）などのパーソナルコンピュータおよびモバイルデバイスに対する最新のハードウェア開発を活用することができる。

これに関連して、周波数領域内で計算を使用することは、いくつかの理由でより高速な計算の必要性に対処することに役立つ。本方法により、このような並列処理が可能になる。この分野の専門家は、ＦＦＴの多くの変形形態がプロセッサ上のプログラミングに適していないことをよく知っている。

フーリエの標準周波数領域理論では、任意の信号、この場合はデジタル画像が、一連の正弦波の合計として表現することができると述べている。画像処理の場合、これらは画像全体の明るさの正弦波の変化を示す。

正弦関数は、
・空間周波数、
・振幅、および
・位相
を符号化することができる。

空間周波数は、明るさが変調する空間全体の周波数である。

正弦曲線の振幅は、コントラスト、または画像の最も暗いピークと最も明るいピークとの差に対応する。位相は、波が原点に対してどのようにシフトされるかを示す。

フーリエ変換は、単一の正弦波だけでなく、ゼロから「ナイキスト周波数」までの空間周波数の範囲にわたって一連の正弦波を符号化する。ナイキスト周波数とは、デジタル画像で符号化できる最高の空間周波数を意味し、解像度またはピクセルの総数に関連する。

フーリエ変換は、画像内に存在するすべての空間周波数を同時に符号化する。

ナイキスト周波数は、離散信号処理システム（この場合はデジタル画像）のサンプリングレートの１／２である。

画像処理に使用されるフーリエ変換の根底にある基本原則は、各ピクセルがすべての周波数に影響を与え、各周波数がすべてのピクセルに影響を与えるということである。

本明細書に記載する方法の根底にある直観的知識は、空間領域内のコントラストの位置が周波数領域内の正弦波によって符号化されるということである。空間領域内の特定のコントラストは、周波数領域内の特定の正弦波のみから影響を受ける。空間領域内のコントラストの組み合わせによって定義される形状の場合、この形状は、周波数領域内の位置情報の一意の組み合わせによって捕捉されることを意味する。また、周波数領域内の位置情報の一意の変化によって動きが捕捉されることも意味する。

したがって、特定のオブジェクトの検出には、周波数領域内の特定の情報の捕捉または情報の変化を使用することができる。

周波数領域内で作業することで、フィルタを用いた乗算や行列を用いた他の同様の計算は単純な成分ごとの乗算であるため計算がより単純になる。これは、２つの関数間の畳み込みであり、計算がより高価になる空間領域内とは異なる。

したがって、周波数領域を使用すると、周波数領域情報の小さな疎部分を計算的に簡単に使用してオブジェクト検出することができる。

疎ゾーンおよび周波数領域内のフィルタとして動作するカーネルについては、以下で詳述する。

周波数領域の計算後に画像を空間領域に変換し直す計算を必要とせずに、周波数領域内で全体的に動作することで、周波数領域への変換を実行する数学を選択する際に柔軟性を加えることができるようになる。

本方法のさらなる特徴および利点は、添付の図面を参照してなされる好適な実施形態に関する以下の説明からより明らかになるであろう。
従来技術によるビデオ圧縮方法を示す図である（上記参照）。従来技術によるビデオ圧縮方法を示す図である（上記参照）。従来技術によるビデオ圧縮方法を示す図である（上記参照）。従来技術によるビデオ圧縮方法を示す図である（上記参照）。従来技術によるビデオ圧縮方法を示す図である（上記参照）。従来技術によるビデオ圧縮方法を示す図である（上記参照）。従来技術によるビデオ圧縮方法を示す図である（上記参照）。従来技術によるビデオ圧縮方法を示す図である（上記参照）。従来技術によるビデオ圧縮方法を示す図である（上記参照）。従来技術によるビデオ圧縮方法を示す図である（上記参照）。従来技術によるビデオ圧縮方法を示す図である（上記参照）。従来技術によるビデオ圧縮方法を示す図である（上記参照）。従来技術によるビデオ圧縮方法を示す図である（上記参照）。従来技術によるビデオ圧縮方法を示す図である（上記参照）。従来技術によるビデオ圧縮方法を示す図である（上記参照）。従来技術によるビデオ圧縮方法を示す図である（上記参照）。従来技術によるビデオ圧縮方法を示す図である（上記参照）。画像の空間領域において、インデックスが位置を示し、画像内の周波数がピクセル強度の正弦波変化を示し、周波数領域内ではその逆が当てはまることを示す図である。所与のオブジェクトの空間領域内の動き情報が、周波数領域内の位置をコード化する波の変化によってどのように捕捉されるかを示す図である。周波数領域内で、画像内のオブジェクトを分類するのに十分な位置情報および形状情報を捕捉するために、多数の波がどのように必要かを示す図である。周波数領域内の正弦波情報を捕捉するために、周波数領域情報の疎部分のみがどのように必要かを示す図である。Ｇｏｅｒｔｚｅｌアルゴリズムの完全な２次元形態が、実際、多くの１次元Ｇｏｅｒｔｚｅｌ計算の組み合わせであることを示す図である。Ｇｏｅｒｔｚｅｌアルゴリズムの完全な２次元形態が、実際、多くの１次元Ｇｏｅｒｔｚｅｌ計算の組み合わせであることを示す図である。完全な２次元形態が計算上理想的でないことを示す図である。理想的でない場合でも、完全な２次元形態を高速化する方法を示す図である。インデックスの行と列のための１次元出力を個別に計算し、これを単一の値に結合することで、インデックスの結果が取得される場合の効率を示す図である。計算を高速化する方法を示す図であり、周波数領域への変換用の入力セルが、値が必要とするインデックスの位置の周りでのみ取得されることを示す。ゾーンへの入力が、入力として行および列だけに限定されないことを示す図であり、任意の自由な形状であり得ることを示す。各ゾーンが、任意の自由な形状であり得る２つの入力をどのように有するかを示す図である。２つのゾーンが特徴を形成する方法を示す図であり、正規化により、特徴が２つのゾーン間の情報シフトを示す複素ベクトルになることを示す。各インデックスが目標周波数、変換用の基礎となる伝達関数、ならびに周波数領域変換用の入力の方向およびシーケンスを定義する特定の特徴形状をどのように有するかを示す図である。入力の各インデックスを順次移動させることで、周波数領域変換用の入力の形状を最適化する方法を示す図である。入力画像が正方形および長方形に限定されずに任意の形状であり得ることを示す図である。ビデオストリーム内のフレームシーケンスにおいて、ゾーンおよび特徴がデータを相互参照する方法を示す図である。各インデックスの周波数領域変換のシーケンスを定義する形状が単一のフレームに限定されず、ビデオストリーム内の複数のフレームを相互参照できることを示す図である。モデルの周波数領域変換を生成するために使用されるフレームシーケンスの選択において本方法が許容する自由度を示す図であり、コンテンツの検出に真の時間データが使用されることを示す。周波数領域内の最適化が、ノイズの非常に大きな多次元領域内の明確な信号であるという非常に大きな利点を示す図であり、教師あり学習だけでなく教師なし学習のタイプのロジックも可能であること示す。本明細書に記載する方法が提供する可能な最適化ロジックの一例を示すフロー図である。

以下、本発明による方法の一実施形態を、添付図面を参照して詳述する。

本明細書において、ビデオストリームに関する説明は、特定のレートを有する一連の連続画像フレームにも適用されることは明らかである。これらは、ビデオストリームのフレームに相当し、単一画像は単一フレームに相当する。

最初のステップでは、入力画像全体に対して検索ロジックを使用して、本方法の計算のための入力フレームを生成することができる。検索ロジックは、例えば、画像全体または画像のサブセットにすることができる。多くのタイプの検索ロジックが可能であることは明らかである。しかしながら、本明細書に記載する方法の観点から、計算または要求は変更されず、変換用の画像入力のみが変更される。また、特許請求の範囲に記載するように処理される複数の計算に対して、単一フレームが複数の入力をもつことができることも明らかである。

次いで、フレームまたはフレームシーケンスから取得された１つまたは複数の入力が、周波数領域内で抽出される。次いで、フレームの周波数領域データ内のデータが処理されて、コンテンツが検出される。本明細書に記載する方法では、使用する分類がオープンのままであるが、代わりにこの方法で強調されることは、選択の分類に使用されるデータの品質およびタイプの改善である。

上述したように、本明細書に記載する方法は、ビデオストリームの時間データ内に特にまたはさらに排他的に存在するオブジェクトの検出およびプロセスにおいて、特に効果的である。本明細書では、検出のために複数のフレームを単一入力に結合する方法を説明する。

オブジェクトが検出されるか、または検索ロジックの繰り返しが画像内のオブジェクトの検出に失敗すると、検出は、ビデオストリーム内の次のフレームまたはフレームシーケンスに移る。前のフレームで見つかったオブジェクトに基づいて、検索ロジックを適応型にすることができることは明らかである。

既知の技術では、周波数領域内の画像の処理は、一般に高速フーリエ変換（ＦＦＴ）の変形形態を使用して行われるが、本方法は、ＦＦＴまたはその変形形態、例えば、離散コサイン変換（ＤＣＴ）、および離散フーリエ変換（ＤＦＴ）を使用しない。

しかしながら、従来の画像処理と本方法との違いを強調するために、ＦＦＴおよびＤＦＴの一般的な概要をここに示す。

ＦＦＴは、画像分析、画像復元および画像圧縮、ならびにテキスト認識を含む幅広いアプリケーションで使用される。

ＦＦＴの主要原理は、離散フーリエ変換（ＤＦＴ）から得られる。ＤＦＴは、非常に多くの計算を必要とするため、プロセスを高速化する他のタイプの変換も存在する。これらの中で、高速フーリエ変換（ＦＦＴ）が最も確立されている。ＤＦＴでは、入力行列の長さをＮとすると、計算の数はＮ^２と相関がある。

ＦＦＴアルゴリズムは、標準ＤＦＴが多くの冗長計算を含むという事実に依存している。

ＦＦＴは、サンプルシーケンスをサブシーケンスに分割することで計算される。各ステージにおいて、前のステージの結果を結合するために、Ｎ／２の複素乗算が必要である。

ｌｏｇ（Ｎ）ステージが存在するため、ＦＦＴでＮ点のＤＦＴを評価するために必要な複素乗算の数は、おおよそＮ＊ｌｏｇ（Ｎ）である。

周波数の数は、空間領域画像内のピクセル数に対応する。すなわち、空間領域と周波数領域内の画像は同じサイズを有する。

上述したように、ＦＦＴには多くの変形形態が存在する。また、ＦＦＴの画像処理には限界がある。例えば、ＦＦＴ用の入力で使用される画像の辺は、２の累乗であるピクセル単位の長さを有する必要がある。

さらなる制限は、特定の周波数についての結果を得る前に、ＦＦＴ全体が計算される必要があることである。言い換えれば、単一の周波数の値を取得する前に、ＦＦＴ全体を計算する必要があるため、ＦＦＴを疎計算用に変換することはできない。また、ＦＦＴの複雑な構造により、再プログラム可能なハードウェアおよびマルチコアプロセッサ上でのコーディング実装が容易にならない。さらに、単一の結果を取得するためにＦＦＴ全体を最初に計算する必要があるため、デバイス上のメモリをより多く使用する必要がある。

切り詰められた高速フーリエ変換などの方法が提供される場合がある。しかしながら、再プログラム可能なハードウェアにこれを実装することは依然として困難であり、また、速度およびメモリ使用を比較的小さくするために、大量の複雑なコードが必要である。

空間領域における値は、通常０〜２５５の範囲のピクセルの光強度である。同じ画像のフーリエ領域値は、空間領域内の画像よりもはるかに広い範囲をもっている。

フーリエ変換は、実数部と虚数部、または振幅と位相のいずれかを有する２つの画像で表示できる複素数値の出力画像を生成する。画像処理では、空間領域画像の幾何学的構造の情報のほとんどが含まれるため、フーリエ変換の振幅のみが表示されることが多い。しかしながら、周波数領域内で何らかの処理を行った後に、フーリエ画像を正しい空間領域に再変換するために、フーリエ画像の振幅と位相の両方を保持する必要がある。

本開示による方法では、すべての計算が周波数領域内の情報のみを使用することができる。

空間領域に戻るためにすべての情報を保持する必要がないため、次のいくつかの利点がある。

第１に、周波数領域から空間領域に戻る余分なステップがないため、計算全体が高速化される。

第２に、周波数領域データを変換して正しい空間領域画像に戻す必要がないため、より小さな疎ゾーンを使用することができる。これは、画像の品質および情報を大きく失うことなく、画像データを変換して空間領域に戻すことができる周波数領域データが必要ないためである。周波数領域内の疎ゾーン自体には、空間画像を再作製するのに十分な周波数領域情報が含まれているとは限らない。しかしながら、分類には十分な情報が含まれている。

第３に、ＦＦＴおよび他の計算でも一般的なエイリアシングを除去するための計算を実行して、周波数領域内の分類のためにデータをより適切に準備することができる。

第４に、ＦＦＴおよびＤＣＴのような方法に存在する他の制限が解除される。例えば、ＦＦＴおよびＤＣＴ用の周波数変換は、画像の行および列に沿って、常に単一のフレーム内で実行される。本方法では、周波数領域変換の方向は、伝達関数の自由度は高く、且つビデオシーケンスのフレーム間での変換を含む任意の順列である。

図１８では、画像の空間領域において、インデックスが位置を示し、画像内の周波数がピクセル強度の正弦波変化を示す。周波数領域内ではその逆が当てはまり、インデックスが周波数を示し、正弦波が位置データを含む。

同様に、所与のオブジェクト用の空間領域内の移動情報は、周波数領域内の位置をコード化する波の変化によって捕捉される。これは、図１９の目の動きの画像で概略的に示されている。

言うまでもなく、上述した例は、概念を説明するために簡略化されている。実際には、空間領域では、画像を描画するためにピクセル強度の変化を捕捉する多くの周波数が必要である。同様に、周波数領域では、画像内のオブジェクトを分類するのに十分な位置情報および形状情報を捕捉するために多くの波が必要である。これを図２０に示す。

上述したように、周波数領域内の各インデックスは、空間領域内のすべてのピクセルに潜在的に影響を与える。したがって、空間領域から抽出された特徴を用いてオブジェクトを分類する場合と比較して、オブジェクトを分類するために周波数領域で必要な特徴は少ない。本明細書に記載するオブジェクト検出方法では、空間領域内の特定のタイプの形状を捕捉する周波数領域内の情報の最小限の部分的な結合を見つけるための技術が開示されている。この情報の結合は、ビデオストリーム内のフレームシーケンスでもあり、シーケンスの各静止画像を単独で検討する場合には見られない時間的および動的な情報を捕捉することを目的としている。

ここおよび以下の説明では、疎ゾーンとは、周波数領域の一部をカバーする情報の選択を意味する。各ゾーンは、特定の周波数領域情報と見なされる。図２１は、周波数領域内の疎らな特徴のレイアウトの一例を示している。ゾーンのペアから各特徴がどのように作製されるかに留意されたい。周波数領域グリッドのサイズは、説明のみを目的としており、後述するように、他の多くのサイズにすることができる。図２１は、空間領域内の位置および動きを捕捉することができる周波数領域の正弦波コントラストの一例を重ねて示している。図２１は、疎ゾーンの動作である空間領域内の動きまたは形状のタイプを検出するために、周波数領域の正弦コントラストの一部のみを捕捉する必要があることを示している。

疎ゾーンは、局所的な解像度を高めるために、部分的に互いに重なり合ってまたは横に並んで配置され、グループ化されている場合がある。

疎ゾーンから導出された周波数値に対する計算は、疎計算として示される。

画像を変換して空間領域に戻す必要はなく、すべての周波数領域情報が必要というわけではないため、ＤＦＴまたはＦＦＴ以外の方法を使用して画像を空間領域に変換することができるようになる。

本方法によれば、それぞれが単一フレームの少なくとも一部、またはフレームシーケンスの少なくとも２フレームをカバーする、疎ゾーンのペアが１つまたは複数選択される。

上述したように、疎ゾーンの各ペアは特徴を生成し、各疎ゾーンは空間データの２つのシーケンスによって定義される。

次いで、本方法によれば、疎ゾーンごとに、Ｌ変換の２次元バリエーションを介して空間データの２つのシーケンスを結合することで、選択された特徴が周波数領域データに変換される。Ｌ変換では、伝達関数ならびにゾーンごとの周波数領域データの形状および方向が変化して、各特徴に対して正規化された複素ベクトルが生成される。

したがって、変換は、対象周波数、変換で使用される伝達関数、ならびに変換用の入力を定義するループの形状および方向に関して、かなりの設計自由度をもつＧｏｅｒｔｚｅｌアルゴリズムから導出された２次元変換などの方法を使用して実行することができる。本開示でさらに説明するように、使用される方法はＧｏｅｒｔｚｅｌアルゴリズムとは非常に異なるため、以下の説明は、Ｌ変換の２次元バリエーションであるということである。

上述したように、本方法の利点は、メモリ量の使用を最小限に抑えながら、再プログラム可能なプロセッサまたはＧＰＵ上で使用するためのより柔軟な方法で、疎らに並行して設定することができることである。以下では、最初にＧｏｅｒｔｚｅｌ変換の根底にある理論を記載する。その後、画像処理の２次元ケースの拡張機能、および使用可能な様々な設計オプションを有する本方法の実装形態を詳述する。

単一の正弦波トーンの検出および測定においてスペクトル分析を実行する必要がある場合、無限インパルス応答（ＩＩＲ）フィルタ構造が使用される。

スペクトルエネルギーの標準的な方法は、離散フーリエ変換（ＤＦＴ）であり、通常、高速フーリエ変換（ＦＦＴ）アルゴリズムまたは離散コサイン変換（ＤＣＴ）アルゴリズムを使用して実装される。

しかしながら、Ｎ点のＤＦＴにおけるＮビンの中心周波数のサブセットに対してのみスペクトル分析を必要とするアプリケーションが存在する。１次元でスパースＦＦＴの結果を計算するための一般的且つ効率的な技術は、ＩＩＲフィルタ実装形態を使用してＮ個の入力時間サンプルに基づいて単一の複素ＤＦＴスペクトルビン値を計算するＧｏｅｒｔｚｅｌアルゴリズムである。

このプロセスの最も一般的な用途は、単一の連続正弦波トーンの存在を検出することである。Ｇｏｅｒｔｚｅｌアルゴリズムは１次元計算であり、画像が２次元である画像処理に使用することはできない。

Ｇｏｅｒｔｚｅｌアルゴリズムは、長さＮの信号
のｋ成分を計算するという考えに基づいている。
式（１）の右側に
を掛けると、次のようになる。
これは、次のように書くことができる。
式（３）の右側は、信号
および
の離散線形畳み込みとして見なされる。ここでは、
を意味する。

実際、
がその畳み込みの結果を示すとすると、次のようになる。
これは、次のように書くことができる。

畳み込みは、１つの関数が反転およびシフトされた後の２つの関数の積の積分として定義される。そのため、これは特定の種類の積分変換である。

畳み込み定理は、畳み込みのフーリエ変換が適切な条件下においてフーリエ変換の点ごとの積であると述べている。言い換えれば、１つの領域（例えば、時間領域）内での畳み込みは、他の領域（例えば、周波数領域）内での点ごとの乗算に等しい。

式（３）と式（５）を比較すると、所望の
が畳み込みのＮ番目のサンプルであることは明らかである。
ここで、
である。これは、インパルス応答
を伴うＩＩＲ線形システムの時間Ｎにおける出力サンプルとして必要な値を取得できることを意味する。

このシステムの伝達関数
が導出される。これは、インパルス応答のＬ変換である。
幾何級数は収束的であり、その合計は伝達関数に等しい。

これにより、以下の差分方程式が得られる。

式（１２）には、複素数による乗算が含まれる。各複素乗算の結果は、４つの実数乗算および４つの実数加算になる。

複素乗算を回避するために、関数に複素共役極を乗算し、以下のように簡略化することができる。

この２次のＩＩＲの差分方程式は、以下の通りである。
このような構造は、状態変数を使用して以下のように記述することができる。
そして、
を設定する。

実際、Ｇｏｅｒｔｚｅｌアルゴリズムは、単一の１次元ＤＦＴ係数の計算を実行する。これはＤＦＴと比較していくつかの利点があるため、１次元アプリケーションで使用される場合がある。

Ｇｏｅｒｔｚｅｌアルゴリズムは、スペクトル全体ではなく、いくつかのスペクトル成分の値のみが必要な状況で有利である。一例として、特定のオーディオパルスをもつボタンの押下の認識技術がある。このような場合、アルゴリズムは大幅に高速化することができる。

ＤＦＴ成分の計算にＦＦＴアルゴリズムを使用する効率は、信号長Ｎによって強く決定される（Ｎは２のべき乗である必要がある）。対照的に、Ｇｏｅｒｔｚｅｌアルゴリズムの場合、Ｎは任意であるが、計算の複雑さは変わらない。

計算は、任意の時点で開始することができ、ＦＦＴの場合のようにデータブロック全体を待つ必要がない。したがって、Ｇｏｅｒｔｚｅｌアルゴリズムは、メモリ容量の観点から要求が少なく、非常に低い待ち時間で実行することができる。したがって、Ｇｏｅｒｔｚｅｌアルゴリズムは、ビット逆順で入力データまたは出力データを並べ替える必要がない。

＜１次元Ｇｏｅｒｔｚｅｌアルゴリズム＞
１次元Ｇｏｅｒｔｚｅｌ用のアルゴリズムは、ごく基本的な構造をもつ。これは、式（１７）から始めることができる。

すべてのサンプルでいくつかの中間処理が行われる。ＦＦＴと同様に、サンプルのブロックを処理する。

１次元Ｇｏｅｒｔｚｅｌの計算を初期化するために、いくつかの設定が必要である。
１．サンプリングレート
２．ブロックサイズＮ
３．目標周波数
サンプリングレートおよびブロックサイズが選択されると、必要な定数を計算する５段階のプロセスが存在する。

以下、定数ｋ、ｗ、ｃｏｓｉｎｅ、ｓｉｎｅ、ｃｏｅｆｆを定義する。

サンプルごとの処理では、Ｓ０、Ｓ１およびＳ２の３つの変数が使用される。Ｓ１は、最後の反復においてＳ０の値である。Ｓ２は、２反復ステップ前（すなわち、Ｓ１の１反復前）のＳ０の値である。Ｓ１およびＳ２は、サンプルの各ブロックの開始時にゼロに初期化する必要がある。

行列［ｎ×ｍ］のすべての列（行）について、以下の３つの式が計算される。

これは、１次元Ｇｏｅｒｔｚｅｌアルゴリズムの基本バージョンである。上述したように、１次元ＤＦＴと同じ結果が得られる。

１次元Ｇｏｅｒｔｚｅｌの別のバージョンを使用することもできる。このバージョンでは、位相情報を犠牲にするが、基本バージョンよりも計算量が少なくなる。これは、変換の実数部と虚数部の両方を計算しないことを意味する。実数部と虚数部の両方を計算することが好ましいこと、およびより高速なオプションは、プロセッサのオーバーヘッドが非常に厳密に制限されている場合のみに使用できることは明らかである。

高速バージョンでは、サンプルごとの処理は同じであるが、ブロック処理の終わりは異なる。実数成分と虚数成分を計算し、それらを相対振幅の２乗に変換する代わりに、実数成分と虚数成分も計算される基本バージョンのステップを使用せずに、以下が直接計算される。

＜Ｌ変換のバージョンの２次元形態＞
Ｇｏｅｒｔｚｅｌアルゴリズムのこの共通バージョンは、１次元計算用に定義されることに留意されたい。計算の画像処理では、画像を周波数領域に変換するための計算をＸとＹの２つの次元で行う必要があるため、これは十分ではない。また、Ｇｏｅｒｔｚｅｌの１次元形態は、１次元ＤＦＴと同等であるが、２次元の場合は同様にならない。そのため、Ｇｏｅｒｔｚｅｌアルゴリズムは、オブジェクト検出および画像処理の候補であるように見えない。Ｇｏｅｒｔｚｅｌアルゴリズムに対する別の制限は、特定の信号に対して調整および最適化する能力があまりないことである。

しかしながら、本開示は、２次元形態で画像を周波数領域に変換する方法を説明する。この説明は、１次元Ｇｏｅｒｔｚｅｌアルゴリズムの原理から始まるが、２次元におけるまったく新しい方法と呼ぶことができる程度に変更される。ここでは、Ｌ変換の２次元バリエーションとして記載する。また、本方法の計算は、周波数領域内全体で実施されるため、空間領域に戻る必要がなく、２次元計算が２次元ＤＦＴと同等である必要がない。

図２２および図２３は、Ｇｏｅｒｔｚｅｌアルゴリズムの完全な２次元形態が、実際、多くの１次元Ｇｏｅｒｔｚｅｌ計算の組み合わせであることを示す図である。

図２２の行に対して様々な１次元計算を最初に実行し、図２３に示すように、２番目のステップでこれらの結果を使用して、列に対してすべての１次元Ｇｏｅｒｔｚｅｌ計算を実行するオプションがある。あるいは、最初に列を計算してから行を計算することもできる。

本明細書に記載する方法では、上記のような実装形態を使用することができる場合がある。しかしながら、これはいくつかの理由で好ましい方法とはいえない。

第１に、行の計算は、列の計算が完了するまで待つ必要があり、逆の場合も同様である。これは、並列処理が可能でないことを意味する。

第２に、計算は依然として真に疎らではない。図２４は、これを示している。図では、インデックス（ｉ，ｊ）内の周波数領域値が必要とする２次元形態において必要な計算が示されている。図２４では、最初に行が計算され、次いで列が計算されるオプションが示されている。１次元計算では、最初にインデックスｉで行ごとの値が計算される。この後、列の１次元計算が実行され、インデックスｊでの値を取得することができる。計算上、これが理想的でないことは明らかである。周波数領域変換の分野の専門家にとっても、Ｇｏｅｒｔｚｅｌの２次元形態が、空間領域に戻って元の画像を再作製できないような方法でデータを変更することは明らかである。しかしながら、上述したように、この方法は、周波数領域の日付のみを使用してデータの分類を記述する。したがって、本明細書に記載する方法の駆動体は、駆動体が空間領域データである代わりに、分類子に最適な入力を生成する可能な限り高速な計算を実行する。

次に、本開示では、速度と検出の両方の観点から、分類子用のデータを最適化するための一連のオプションを説明する。特に、ビデオストリーム内の時間データがどのように最適に捕捉されるかを説明する。

これらは、とりわけ以下の通りである。
・それぞれ２つのゾーンを使用する多数の特徴を使用する。
・特徴およびゾーンによってカバーされるビデオストリームのシーケンス内のフレーム数を選択する。
・ゾーンごとに異なる目標周波数を選択する。
・ゾーンごとに２つの入力を有し、それぞれが周波数領域変換である。
・変換の実数部と虚数部の両方に対して最適化することができる、入力ごとの可変コアフィルタを有する。
・各インデックスの周波数領域変換を定義するループ用の入力の可変のシーケンスおよび形状を有する。
・特徴の各ペアを使用して、特徴ごとに正規化された複素ベクトルを生成する。
・最後に、すべての正規化された複素ベクトルを単一形式に結合する。

計算は、図２４の例よりも疎らに行うことができる。図２５に示す一方法では、周波数領域への変換用の入力セルは、値が必要なインデックスの位置の周りでのみ取得される。ただし、これには行が列の結果を待つ必要があり、逆も同様である。この利点は、セルの量の長さが入力パラメータになり、特徴間のより多くの差別化が可能になること、また、分類されるオブジェクトの詳細を捕捉することができることである。

より効果的な計算が図２６に示されている。ここでは、インデックスでの行と列用の１次元出力を個別に計算し、次いでこれを単一の値に結合することで、インデックスの結果が取得される。速度の増加とは別に、この方式の最大の利点は、行の１次元または列の１次元が最初に計算された場合でも違いがないため、行と列の値を並行して計算できることである。図２７に示すように、入力の長さを制限することで、さらに大きな速度増加を実現することができる。この場合、計算する必要があるのは、単一の行と列の入力のみである。

図２８に示すように、所与のゾーンインデックスで結果を得るために続く２つの入力が行と列または隣接するセルに沿う必要がないと考えると、周波数領域の入力データで分類子を訓練する自由度はさらに大きくなる。

以下の説明では、図をより概略的に示すために、ゾーンごとに単一の入力を示す場合がある。ただし、図２９に示すように、ゾーンごとに２つの入力があることに留意されたい。

入力ごとに周波数領域変換が行われ、実数および虚数が与えられる。上述したように、各ゾーンは２つの入力を有する。以下では、それらを単一の正規化された複素数値に結合する方法について説明する。これは、図３０にも示されている。

最初に、ゾーン１の２つの実数入力が結合される。

ゾーン１の２つの虚数入力が結合されて、位相が与えられる。

ゾーン２の２つの実数入力と虚数入力に対して同じプロセスが繰り返される。

次に、ゾーン１とゾーン２の実数値用の結果が正規化で結合される。

これは、ゾーン１およびゾーン２の虚数値に対しても行われる。

このようにして、１つの特徴を形成するゾーンの各ペアは、図３０に示すように、正規化された複素ベクトルを提供する。

このような正規化された複素ベクトルを多数使用して、モデルを構築することができる。

多数の正規化された複素ベクトルのこの形式は、分類子の新しいタイプの入力としてここに記載する方法が提供する入力であるで。この形式により、確率論および量子物理学のすべての数学を分類に適用できることは、当業者には明らかである。

インデックス内の値を取得するために必要な周波数領域計算の数は、分類子への入力として空間領域内のピクセルをもつ場合と比較して、本明細書に記載する方法では大幅に削減されている。この方法で得られた値は、周波数領域内の形状情報と依然として強く相関する。ただし、エイリアシングおよび周期的な信号などによる影響を減らすために、多くの制御も可能になる。重要な目的の１つは、各インデックス内で一意の結果を得ることなので、これらの影響の低減は重要である。この方法では、空間領域内で画像を再構築するためにすべてのデータをもつ必要がないことに留意されたい。その目標は、検出されているオブジェクトの位置および動きを疎らに符号化する周波数領域情報を捕捉することである。

作製された周波数領域空間が、空間領域内でピクセル入力を直接使用する場合と比較して、分類子が処理する必要があるパラメータの量を非常に大幅に削減することは明らかである。この利点は、本明細書に記載する方法を使用してビデオストリーム内のフレームシーケンスでのみ検出できる時間情報を捕捉する場合に、指数関数的に増幅される。

説明を、各インデックスに沿った１次元計算に戻す。ここでは、行または列に沿っている必要がなく自由であるため、以下のように書き換えることができる。

本方法では、周波数領域変換の実数部と虚数部の両方に対して、パラメータａおよびｂを使用して、伝達関数が調整可能になっていることがわかる。

これらのデジタル転送機能オプションは、ゾーンの入力ごとに個別に選択することができることに留意されたい。これは、最初の入力と２番目の入力とが異なる離散デジタル伝達関数設定をもつことができることを意味する。

上述したように、本方法の利点の１つは、分類子用の入力として使用する前にクリーンアップする周波数領域データを調整する際の自由度が高いことについて記載した多くのオプションが提供されることである。

これは、図３１に示されている。入力ごとに目標周波数、コアループで使用される入力の方向およびシーケンス、ならびにコアループ内で使用される基礎となる伝達関数を自由に選択できることがわかる。

図３２は、最適化フェーズでコア内部ループ用の入力の方向およびシーケンスを調整する方法を示している。

この時点で、本方法における計算が、Ｌ変換（式７）を使用してＧｏｅｒｔｚｅｌアルゴリズムを作製する理論とは非常に異なることが明らかである。また、Ｌ変換に繋がるＺ変換とも実質的に異なる。説明のために、本方法で使用される変換をＬ変換の２次元バリエーションと呼ぶ。

本方法では、特徴を含むインデックス内の周波数領域値のみを計算する必要があることは、当業者には明らかであろう。ＦＦＴを使用する場合、ＦＦＴは疎計算することができないため、周波数領域内のすべての値を計算する必要がある。また、本方法は、ＦＦＴのような画像入力サイズの制限がないことにも再び留意されたい。実際、図３３に示すように、正方形または長方形の入力画像サイズをもつことの制限さえない。

次に、ビデオフレームシーケンスから時間情報を抽出する方法の適用について説明する。

図３４は、特徴を形成するゾーンの各ペアが必ずしもビデオシーケンスの同じフレーム内にある必要がないことを示している。一方、図３５は、コア内部ループの各入力の方向およびシーケンスが、ビデオフレームシーケンスの単一フレームに限定されない経路を取る方法を示している。ピクセルが空間領域からの入力として直接使用される場合、ビデオシーケンスのフレーム間でピクセルを相互参照するときに解決する置換は、本明細書に記載する方法と比較して、はるかに遅く、はるかに困難であることは専門家には明らかである。

図３６は、モデルの周波数領域変換を生成するために使用されるフレームシーケンスの選択において本方法が許容する自由度を示す。これにより、コンテンツの検出に真の時間データを使用することができるようになる。

また、図３７では、周波数領域での作業がピクセルの空間領域と比較して大きな利点をもつことがわかる。空間領域では、各ピクセルは０〜２５５の範囲の入力を有し、ピクセルの良さを判断する可能性はあまりない。一方、周波数領域では、周波数領域内の探索空間は、大部分が大量のノイズから構成されており、信号がはっきりと目立っている。したがって、本明細書に記載する方法は、信号品質を基本とする、より効果的な最適化ロジックを含む可能性がある。これは、潜在的に監視なしで実行することもできる。

図３８は、本方法を使用してビデオフレームシーケンス内の時間的影響を検出するモデルを作製する場合に、本明細書に記載する方法に使用することができる訓練に関する上位図である。図３８は、シーケンスで使用されるフレームの数がどれほど可変であり、また図３１にも示すように、各特徴のインデックスごとに目標周波数が最適化され、基礎となるループのシーケンスが選択され、ループ内で使用される基礎となる伝達関数が最適化されることを示している。これは、各ループの実数部と虚数部の両方に対して行われる。最適化の出力は、多数の正規化された複素ベクトルを有する形式になる。これは、ビデオフレームシーケンス内の時間的影響の検出および分類に特に効果的な入力として使用することができる。ただし、本方法はそのような実装形態に限定されない。

Claims

画像または画像のデジタルビデオストリームのいずれかに基づいて電子処理ユニットによって実行される、画像処理およびオブジェクト検出を介したビデオ圧縮方法であって、前記画像は、識別されるコンテンツを示す周波数領域信号が強化および分離されるように、および前記画像または前記ビデオストリーム内の前記コンテンツに対する周波数領域ノイズが低減または無視されるように、前記ビデオストリーム内の単一フレームまたはフレームシーケンスによって定義され、前記方法は、
・前記ビデオストリームの対応する前記単一フレームまたは対応する前記フレームシーケンスのいずれかから、デジタル画像またはデジタル画像シーケンスを取得するステップであって、すべての前記デジタル画像が空間領域内で画定される、デジタル画像またはデジタル画像シーケンスを取得するステップと、
・疎ゾーンのペアを１つまたは複数選択するステップであって、前記疎ゾーンはそれぞれ前記単一フレームの少なくとも一部または前記フレームシーケンスの少なくとも２フレームをカバーし、前記疎ゾーンの各ペアは選択された特徴を生成し、前記ゾーンはそれぞれ空間データの２つのシーケンスによって定義される、疎ゾーンのペアを１つまたは複数選択するステップと、
・伝達関数ならびに前記ゾーンごとの周波数領域データの形状および方向を変化させることで前記選択された特徴に対してそれぞれ正規化された複素ベクトルを生成するＬ変換の２次元バリエーションを介して、前記疎ゾーンごとに前記空間データの２つのシーケンスを結合して、前記選択された特徴を周波数領域データに変換するステップと、
・前記識別されるコンテンツのモデルが定義されるように、前記正規化された複素ベクトルをすべて結合するステップと、
・前記ビデオ圧縮に使用するオブジェクト検出または視覚的顕著性のためのデータが取得されるように、前記選択された特徴から前記モデルを分類子に入力するステップと、
を備える、
方法。
前記選択された特徴を周波数領域データに変換するステップは、様々な数の前記フレームおよび／または選択された前記フレームからの空間データを使用する、
請求項１に記載の方法。
前記疎ゾーンが識別される入力フレームを生成するために、検索ロジックが入力画像全体に対して使用される、
請求項１に記載の方法。
前記疎ゾーンは、局所的な解像度を高めるために、部分的に互いに重なり合ってまたは横に並んで配置され、グループ化される、
請求項１に記載の方法。
前記２つの軸に対する計算は、並列に実行される、
請求項１に記載の方法。
前記変換ステップにおいて、行に対して１次元Ｇｏｅｒｔｚｅｌ計算が実行されてから、その結果を使用して、列に対して１次元Ｇｏｅｒｔｚｅｌ計算が実行される、またはその逆も同様である、
請求項１に記載の方法。
前記疎ゾーンのペアごとに、異なる目標周波数が選択される、
請求項１に記載の方法。
前記周波数領域に変換するステップのための入力セルは、値を必要とするインデックスの位置の周りでのみ取得される、
請求項１に記載の方法。
インデックスでの行および列のための１次元出力を個別に計算し、次いでこれを単一の値に結合することで、前記インデックスの結果が取得される、
請求項１に記載の方法。
前記伝達関数は、最初の入力と２番目の入力とが異なる離散伝達関数設定を有するように、前記疎ゾーンの入力ごとに個別に選択される、
請求項１に記載の方法。