JP2020508010A - 画像処理およびビデオ圧縮方法 - Google Patents

画像処理およびビデオ圧縮方法 Download PDF

Info

Publication number
JP2020508010A
JP2020508010A JP2019544673A JP2019544673A JP2020508010A JP 2020508010 A JP2020508010 A JP 2020508010A JP 2019544673 A JP2019544673 A JP 2019544673A JP 2019544673 A JP2019544673 A JP 2019544673A JP 2020508010 A JP2020508010 A JP 2020508010A
Authority
JP
Japan
Prior art keywords
image
video
frequency domain
saliency
sparse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019544673A
Other languages
English (en)
Inventor
エリック レインダース,クリスティアーン
エリック レインダース,クリスティアーン
Original Assignee
コジセン エッセエッレエッレ
コジセン エッセエッレエッレ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コジセン エッセエッレエッレ, コジセン エッセエッレエッレ filed Critical コジセン エッセエッレエッレ
Publication of JP2020508010A publication Critical patent/JP2020508010A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/431Frequency domain transformation; Autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/10Image enhancement or restoration using non-spatial domain filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Image Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本発明は、画像または画像のデジタルビデオストリームのいずれかに基づいて電子処理ユニットによって実行される、画像処理およびオブジェクト検出を介したビデオ圧縮方法に関する。本方法において、画像は、識別されるコンテンツを示す周波数領域信号が強化および分離されるように、および画像またはビデオストリーム内のコンテンツに対する周波数領域ノイズが低減または無視されるように、ビデオストリーム内の単一フレームまたはフレームシーケンスによって定義される。また、本方法は、ビデオストリームの対応する単一フレームまたは対応するフレームシーケンスのいずれかから、デジタル画像またはデジタル画像シーケンスを取得するステップであって、すべてのデジタル画像が空間領域内で画定される、デジタル画像またはデジタル画像シーケンスを取得するステップと、疎ゾーンのペアを1つまたは複数選択するステップであって、疎ゾーンはそれぞれ単一フレームの少なくとも一部またはフレームシーケンスの少なくとも2フレームをカバーし、疎ゾーンの各ペアは選択された特徴を生成し、ゾーンはそれぞれ空間データの2つのシーケンスによって定義される、疎ゾーンのペアを1つまたは複数選択するステップと、伝達関数ならびにゾーンごとの周波数領域データの形状および方向を変化させることで選択された特徴に対してそれぞれ正規化された複素ベクトルを生成するL変換の2次元バリエーションを介して、疎ゾーンごとに空間データの2つのシーケンスを結合して、選択された特徴を周波数領域データに変換するステップと、識別されるコンテンツのモデルが定義されるように、正規化された複素ベクトルをすべて結合するステップと、ビデオ圧縮に使用するオブジェクト検出または視覚的顕著性のためのデータが取得されるように、選択された特徴からモデルを分類子に入力するステップと、を備える。【選択図】図21

Description

<1.発明の分野>
本開示は、画像をデジタル化するための適切な手段を備えた一般的なデバイスを含むあらゆる種類のデバイスに組み込まれ、且つビデオ圧縮を改善するコンテンツ検出用の画像処理およびデータ生成方法に関する。本方法は、デジタルビデオストリーム内で使用するための時間モデルを作製するのに特に有用であるが、デジタルビデオストリームに限定されない。
コンテンツとは、検出したい任意のオブジェクトを意味する。そしてコンテンツの概念は、オブジェクト、すなわち画像を介して見える物理的なアイテムに限定されない。例えば、暴力的画像、裸体、スポーツ活動および群衆の中の顔の表示、車両の車種または大きさでの識別および選択、歩行者の判別、サイクリストおよび自動運転車両システム用の信号機、場所または風景の認識を含む引数または種類によって選択されるオブジェクトファミリーも含む。とりわけ特定のコンテンツを検出するステップを含む任意の分野が、本発明に関連し得る。
一般的なデバイスとは、スマートフォン、タブレット、ノートパソコン、または適切なデジタルビデオカメラを備えた任意のポータブルデバイスまたはハンドヘルドデバイスのような、一般に市販されている電子デバイスを意味する。また、デバイスは、コンピュータまたは画像計算用のサーバのいずれかにリンクされた且つおそらくネットワーク内で編成された、1つまたは複数のカメラであってもよい。さらに、ビデオ圧縮方法は、記憶されたデジタル画像またはビデオに対して、ストレージメモリ、RAMメモリ、および少なくともマイクロプロセッサを含む適切なハードウェア内で実行されるソフトウェアを介して、ハードウェアによるオフラインプロセスにおいて単に実施されてもよい。
また、本開示は、少なくともビデオストリームまたは一連のデジタル画像を生成するデジタルカメラを備えたデバイスまたはシステムを動作させる方法に関する。これにより、操作対象のデバイスまたはシステムからアクセス可能なメモリデバイスに記憶された少なくとも1つのビデオコーデックに関連して、デバイスまたはシステムのカメラとプロセッサの両方を介したビデオ圧縮を改善することができる。
本方法における開示は、画像データを疎ら(スパース)にすなわち非常に迅速に周波数領域に変換することに関連する。これにより、画像処理およびコンテンツ検出を使用してより多くのビデオ圧縮を得るビデオ圧縮方式の新しいデータ入力タイプが可能になる。また、本方法によって、周波数領域データに変換するための複数の調整パラメータを提供することができ、ビデオ圧縮を改善するために選択された画像処理またはコンテンツ検出方法の特性に従って、これらを最適化することができる。
さらに、方法は、所与のビットレートに対するビデオストリームの主観的品質に相関するように、周波数領域データを使用するために適用することができる。これは、本方法で生成された周波数領域データを使用して、画像内の圧縮アーチファクトを引き起こすデータ内の特性を回避することができることを意味する。したがって、本方法において、圧縮時に所与のビットレートに対して主観的なビデオ品質が向上する。
本方法で開示される周波数領域計算の実装形態のうちの1つにおいて、圧縮を変化させるように視覚的顕著性マップが作製されて、ビデオコーデックと統合される。このような顕著性マップのための入力は、(フレーム内静的顕著性の場合)現在のビデオフレーム、または(フレーム間動き顕著性の場合)フレーム間の差のいずれかである。
顕著性マップの出力は、視覚的顕著性に従って、ビデオエンコーダの量子化ブロックに送信されて、画像の各部分に割り当てられた情報量に影響を与える。多くのコーデックは、圧縮と品質との間のトレードオフに影響を与える手段を提供する。例えば、一般的なコーデックH264の場合、このトレードオフは「レート歪み」と呼ばれる。レート歪みによって、エンコーダが行った様々な決定の結果が、品質ゲインに対して費やされるビットに関して影響を受けるようになる。エンコーダは、レート歪み曲線に基づいて決定を評価する。レート歪み曲線を制御する値は、通常、ラムダと呼ばれる。
通常、エンコーダは、ラムダを自動的に変化させて、品質とビットレートとの間の妥協点を見つける。本方法で作製された顕著性マップは、各マクロブロックに対して別々にコーデックのラムダを変調する。符号化の出力は、コーデック規格に全体的に準拠したビデオビットストリームである。したがって、本方法の周波数領域データを使用することで、圧縮コーデックは、アーチファクトを生成しやすいこれらの領域に対してより少ない圧縮を実行するように指示することができる。これにより、所与のビットレートに対して主観的なビデオ品質が向上する。
<2.従来技術の説明>
<<2.1 ビデオ圧縮のための画像処理およびオブジェクト検出>>
画像処理におけるオブジェクト検出技術は、様々なコンテキストで広く適用されている。このようなアルゴリズムが使用される非限定的な一例として、様々なビデオ圧縮技術、ならびにソーシャルネットワーク上の人間の顔のタグ付け技術、手のジェスチャを認識するためのソフトウェア、歩行者、サイクリストおよび他の車両を検出するための自動車用ソフトウェア、体の動きを認識するためのソフトウェア、拡張現実および3D効果を備えた画面用の人間の顔の感情を検出する技術、拡張現実用のオブジェクト認識、頭の向きまたは目の向きの追跡技術を使用するインターフェース、セキュリティシステム用のオブジェクト追跡技術、および視線追跡技術が挙げられる。
既知の文書は、ビデオ圧縮を目的としたこれらの技術に対して、特にビデオストリーム内のコンテンツおよび視覚情報を処理して現在のビデオ圧縮コーデックの有効性を向上させる、追加の計算の使用に関する。
これらすべてのオブジェクト検出および画像処理技術は、次世代のインタラクティブなインターフェースおよびオペレーティングシステムに移行するという明確な将来性がある。そのような技術を表すことができるデバイスは、例えば、スマートフォン、タブレット、およびインタラクティブな眼鏡やバーチャルリアリティインターフェースを含むウェアラブルハードウェアだけでなく、将来の自宅、オフィス、または公共の場所のあらゆる種類のインタラクティブオブジェクトである。これらのデバイスは、双方向テレビ番組またはスマートホームなどの特殊な用途に提供することができる。また、自動車の安全システム、ヘルスケア、広告、防犯カメラネットワーク、モノのインターネット(Internet of Things)、およびその他多くの可能性のある用途に使用することもできる。
基本的に、このような技術は、再プログラム可能なハードウェアが使用され、且つビデオカメラ入力を追加することができる任意のデバイスまたはネットワーク接続デバイスに統合することができる。
純粋にオブジェクト検出および画像処理アルゴリズムの機能を支援するために、デバイスにさらなるハードウェアを追加することは、コストの増加および余分なバッテリ消耗をもたらす。そして、現在の最先端ハードウェアは、多くの場合、ほとんどの家電製品に統合するにはまだ大きすぎるが、超小型ハードウェアを作製するには、追加の研究開発コストが必要になる。
ハードウェアコストの他に、モバイルハードウェアプラットフォームなどでのこのようなビデオ圧縮技術の大規模な使用を大きく妨げているものは、必要なオブジェクト検出および画像処理の計算が遅すぎてカメラのフレームレートに対応できないことと、それらの計算において、利用可能な処理能力を使用しすぎることである。
したがって、次世代のオペレーティングシステムおよびデバイス上で大量の実装形態が容易に実行できるようになる前に、現在の最先端技術よりもはるかに高速に画像を処理することができるソフトウェアのみによる解決策が、上記ビデオ圧縮技術に必要である。
このソフトウェアのみによる解決策への移行は、カメラ技術の継続的な改善によって促進される。これにより、フレームレートの増大、動き処理の改善、より効果的な色の強調表示、コントラストへの鋭敏な適応、光の変化へのスマートな適応、およびさらに高い画面解像度がもたらされる。これは、オブジェクト検出のためのソフトウェアのみによる解決策の有効性をさらに高める。
オブジェクト検出では、バッテリ寿命を節約するためおよびリアルタイム使用に対する要件を満たすために、できるだけ少ない処理能力が使用されるようにする必要がある。また、リアルタイムで実行中のオブジェクト検出アルゴリズムは、フォアグラウンドで実行されているメインプロセスを制限することなく、バックグラウンドで実行される必要がある。
さらに、入力画像のサイズが大きくなるにつれて、必要な計算作業が指数関数的に増加することに留意されたい。また、ビデオフレームレートの上昇は、次のビデオ入力フレームが到着する前の、画像処理アルゴリズムが計算を終了するための時間が短くなることを意味する。
したがって、現在の最先端技術の画像処理およびオブジェクト検出アルゴリズムでは、ビデオフレームレートの増加と入力画像の品質の向上に伴って、入力画像をますますダウンサンプリングして許容可能な処理速度に戻す必要がある。これにより、高品質の入力画像内の追加情報の多くが失われる。
このようにして、ダウンサンプリングは、入力の中に高解像度の画像を有することの利点の大部分を無効にする。
オブジェクト検出に関するこれらの課題をさらに複雑にしているのは、ビデオストリームの時間データでのみ表示されるコンテンツを捕捉する必要があるということである。その一例として、暴力の検出、歩行者の意図的検出、防犯カメラのライブフィードでの疑わしい動きの検出などが挙げられる。これは、ビデオストリームの2つ以上の画像フレームが、単一モデル内で相互参照される必要があることを意味する。現在の方法は、主に静止画像に対する訓練に基づいている。言い換えれば、ビデオは、時間データを正確に処理するのではなく、静止画像シーケンスとして処理される。単一の分類モデルを処理するために複数のフレームを相互参照する必要がある場合、複雑さおよび処理のオーバーヘッドが増大することは明らかである。
ビデオコーデックの圧縮を変調するために使用される顕著性モデルを作製する場合、このような時間データは特に重要である。これは、上記方法がそのようなビデオ圧縮の実装形態に非常に効果的であることを意味する。
また、所与のアルゴリズムによる処理能力の相対的な使用を減らすために、処理能力の継続的な向上を期待することは効果的ではない。これは、インタラクティブビデオを使用するゲームのようなアプリケーションが、最大の処理能力を使用して、常にバックグラウンドでオブジェクト検出などのアルゴリズムを実行するために最小限の量を残すようにスケーリングするためである。
上記を考慮して、ビデオ圧縮を改善するためのオブジェクト認識および画像処理技術に関する多くの方法が、コンピュータビジョンに関する文献に記載されている。
<<2.2 ビデオ圧縮>>
デジタルビデオの生の形式での記憶および送信は非常にコストがかかる。また、アナログテレビビデオシーケンスは、デジタル化されると、最大毎秒165メガビットを消費する可能性がある。この問題を回避するために、一連のビデオ圧縮技術が導出されて、デジタルビデオデータを表すために必要なビット数を削減しながら、許容できる忠実度またはビデオ品質を維持する。必要なビットを削減するビデオ圧縮方法の能力は、圧縮ビデオのサイズに対する元のビデオのサイズの比率である「圧縮率」によって定量化される。これらの方法は、通常、画像処理および/またはオブジェクト検出を使用して圧縮率を向上させる。
ビデオは、順番に表示される画像シーケンスとして考えることができる。これらの画像の各々は、フレームと呼ばれる。ビデオ信号は、いくつかの重要な特性において画像信号と異なる。最も重要な違いは、ビデオ信号のカメラフレームレートが15フレーム/秒〜60フレーム/秒の範囲であるために、表示される信号に滑らかな動きがあるように見えることである。画像圧縮とビデオ圧縮との間のもう1つの違いは、空間的冗長性(フレーム内)および時間的冗長性(フレーム間)を活用できることである。
フレーム内コーディングとは、現在のフレーム内にのみ含まれる情報に対して圧縮が実行され、ビデオシーケンス内の他のフレームに対して実行されないことを意味する。言い換えれば、現在の画像またはフレームの外部で時間的な処理は実行されない。このようなフレーム内コーディングは、JPEG静止画像ビデオエンコーダのコーディングと非常によく似ているが、実装形態の詳細がわずかに異なる。
フレーム間コーディングとは、通常、毎秒30フレームが画面に表示されることを意味する。連続するフレーム内で多くの情報が繰り返されるため、フレーム間圧縮は、隣接するフレーム間の時間的冗長性を利用して、より高い圧縮率を実現する。ツリーが1秒間表示されて、そのツリーに30フレームが使用される場合、この繰り返される情報は、前のフレームに基づいてフレームを定義することで圧縮することができる(図1)。
時間的冗長性の一例として、ビデオシーケンス内の画像の要素間の対応関係を確立する「動き補償」が挙げられる。動き補償は、ビデオシーケンス内のオブジェクトが予測可能なパターンで移動する傾向があるため、画像シーケンスではなく、フレームからフレームに移動する単一のオブジェクトとして符号化することができることを利用する。
フレーム間符号化とフレーム内符号化は、いずれも「ロスレス(lossless)」または「ロッシー(lossy)」であり得る。人間は色のわずかな違いのようなフレーム内の小さな変化に気付くことができないため、ビデオ圧縮規格はビデオ内のすべての詳細を符号化せず、実際には詳細の一部が失われる。これは、ロッシー圧縮と呼ばれる。ロスレス圧縮では、元のデータを完全に復元することができる。ロッシー圧縮を使用すると、非常に高い圧縮率を得ることができる。
<<2.3 ブロック符号化>>
最も一般的なビデオコーデックは、すべて、フレーム内およびフレーム間で圧縮することができる「ブロック」に画像を分割する。最も単純な「ブロッキング」アルゴリズムは、ビデオフレームを「マクロブロック」と呼ばれる同じサイズのブロックに分割する(図2)。
エンコーダは、各ブロックの生のピクセル値を直接符号化する代わりに、以前に符号化された「参照フレーム」と呼ばれるフレームで、符号化したブロックのようなブロックを見つけようとする。この検索プロセスは、ブロックマッチングアルゴリズムによって行われる。
より精巧なブロッキングアルゴリズムは、情報コンテンツの測定値およびフレーム間の変化に基づいて不均一なブロックサイズを使用する。通常、これらのブロックは、既存のブロックをより小さなブロックに分割することで作製される(図3)。
<<2.4 可変ブロック圧縮>>
異なる圧縮係数を適用することで、一部のブロックを他のブロックよりも圧縮することができる。圧縮の違いは、いくつかの異なる要因に基づく場合がある。例えば、アルゴリズムは、シャープなエッジをより少なく圧縮されるように決定して、圧縮アーチファクトを回避する場合がある(図4)。
<<2.5 顕著性>>
顕著性とは、提供された視覚情報の量と種類によって、画像内のある一部が他の一部よりも注視されることを意味する。また顕著性とは、利用できる感覚データの最も適切なサブセットに限定された知覚および認知リソースを生物に集中させることで学習および生存を促進する重要な注意メカニズムであると考えられる。
通常、ビデオには、観察者がより注視する対象物と、画像のあまり注目されない他の部分とが含まれる。人が最も注視する画像の部分は、知覚品質に大きく影響するため、わずかにしか圧縮されない場合があるが、画像のあまり注目されない部分は、知覚される画質に影響を与えることなくより強く圧縮される場合がある(図5)。
通常使用される顕著性の1つの方法は、顕著なオブジェクトをセグメント化するための画像分析である。この方法は、エッジ検出またはコントラストなどの画像属性を使用して、画像のどの部分が顕著になるかを大まかに予測する。パフォーマンス上の理由から、通常、顕著性アルゴリズムはエッジ検出などの単純なモデルを使用する。
顕著性を予測する別の方法は、疎らな注視を予測することである。人間は、脳内の注意メカニズムに基づいて重要な視覚情報を選択する。この動機を考えると、顕著性検出に関する初期の研究では、アイトラッカによって検出される人間の疎らな視線ポイントの予測に集中していた。したがって、このトラッキング(追跡)に関する研究のほとんどは、人間の注意メカニズムのダイナミクスを模倣しようとする、生物学的に着想を得たアルゴリズムに基づいている。ほとんどの従来のオブジェクト検出器は、特定のオブジェクトカテゴリを検出するために訓練を必要とする。しかしながら、人間の視覚は、一般的なオブジェクト検出を十分に処理することができる視覚的注意メカニズムを有するため、クラスタ化された視覚画像において、訓練なしで一般的な顕著なオブジェクトに迅速に焦点を合わせることができる。
<<2.6 セグメンテーション>>
セグメンテーションは、画像を領域またはオブジェクトに分割する行為である。セグメンテーションを使用することで、対象のオブジェクトが過剰に圧縮されないようにすることができる(図6)。
セグメンテーションの問題の1つは、対象のオブジェクトをセグメンテーションによって細かく分割することができるため、圧縮に顕著な違いが生じることである(図7)。
「アクティブビジュアルセグメンテーション」は、顕著性マップを使用して、潜在的なセグメント領域が注視点を含むかどうかを判定する(Mishraら[1])。これにより、セグメンテーションを調整してオブジェクト内のジャンクションを回避することができる。
これは、セグメンテーションプロセスが開始される前に、対象のオブジェクトを識別する必要があることを意味する。
<<2.7 ボトムアップ顕著性>>
顕著性は、画像ピクセル内の特定のパターンを探すアルゴリズムによって導出することができる。これは、情報内のパターンから純粋に注意予測を導出するため、「ボトムアップ」顕著性と呼ばれる。ボトムアップの視覚的顕著性は、他のすべてのピクセルに対するピクセルレベルのコントラストと、平均的な画像の色との色の違いを使用して導出することができる。BruceおよびTsotsos[2]ならびにZhangら[13]を含む一部の研究者は、情報理論に基づいて視覚的顕著性を定義しようと試みた。さらに、他の一部の研究者は、グラフカットアルゴリズムを使用して、顕著性マップの境界線を調整して、複数のスケールにわたって顕著なオブジェクトの輪郭をカウントした(例:MaおよびZhang[3])。いくつかの方法が局所的に視覚的顕著性を定義する一方で、他のいくつかの方法は、画像全体にわたる画像領域の大域的な希少性に基づいている。
一部のモデルは、注視位置にある画像領域から学習された動き、ちらつき、オプティカルフロー、または関心点を利用することで、時空間領域内での顕著性検出に対処する。近年、注視点を含む領域をセグメント化する意図で、アクティブな視覚セグメンテーションと呼ばれる新しいトレンドが出現している(Mishraら[1])。それらのフレームワークは、キューに依存しないように単眼キュー(色/強度/テクスチャ)とステレオおよび/または動きとを結合する。
一部のコーデックは、眼の生理学および神経科学のモデルを使用して、どの領域が人間の注意を引いて注視される可能性が高いかを予測する。人間の視覚選択的注意のモデルから、方向、強度、動きなどの低レベルの特徴を処理する計算注意モデルが作製され、これらの特徴の非線形の生物学的に着想を得た組み合わせによって、顕著性マップを生成することができる。例えば、互いに接近している顕著なオブジェクトは、それらの間に大きなスペースがある同じ顕著なオブジェクトよりも比較的注意を引く可能性がある。
ほとんどのボトムアップ顕著性モデルは、以下の7つの一般的なカテゴリのいずれかに分類される。
認知モデル:Ittiら(1998)[4]がKochおよびUllman(1985)[5]の計算アーキテクチャを実装した後から、顕著性に基づくモデルの開発が拡大した。認知モデルは、任意のデジタル画像に適用することができる顕著性計算のアルゴリズムに最初にアプローチしたものである。これらのモデルでは、入力画像は、複数の空間スケールにおいて、基本的な視覚属性(輝度またはコントラスト、運動エネルギーなど)のための選択的な特徴マップに分解される。特徴マップは、特徴およびスケール全体で結合されて、マスター顕著性マップを形成する。この理論の重要な要素は、中心と周囲の演算子に関する。この演算子は、顕著性を周囲と比較した画像領域の特徴として定義する。ほとんどすべての顕著性モデルは、視覚的注意の認知概念によって直接的または間接的に影響を受けている(例えば、Le Meurら(2006)、Maratら(2009)[6])。
情報理論モデル:生物学的に妥当な実装形態から一旦離れるとする。本カテゴリにおける情報理論モデルは、局所的な顕著性の計算が最初に最も情報を有する画像領域に注意を導くように機能するという前提に基づいている。したがって、これらのモデルは、まれな(低い確率の)特徴を有する画像領域により高い顕著性を割り当てる。理論的には、任意の特徴空間を使用することは実現可能であるが、多くの場合、(視覚野での効率的なコーディングによって着想を得た)これらのモデルは、自然な画像から学習した基本的な機能の疎セットを利用する。このカテゴリ内の例示的なモデルには、AIM(Bruce&Tsotsos、2005[8])、Rarity(Mancas、2007[9])、LG(Local+Global image patch rarity)(Borji&Itti、2012[10])、および増分コーディング長モデル(Hou&Zhang、2008[11])がある。
グラフィカルモデル:グラフィカルモデルは、一般化されたベイズモデルであり、空間および時間にわたる複雑な注意メカニズムのモデル化に使用されている。Torralba(2003)[12]は、視覚検索に対するコンテキスト効果をモデル化するためのベイジアンアプローチを提案している。これは、後に自由視聴点における注視予測用のSUNモデルで採用された。Itti&Baldi(2005)[13]は、驚くべき刺激を、観察者の信念を大きく変える刺激として定義した。Harelら(2007)[14]は、全体的に接続されたグラフ内の特徴の類似性を伝播して、顕著性マップを構築した。また、Avraham&Lindenbaum(2010)[15]、Jia Liら(2010)[16]、およびTavakoliら(2011)[17]は、顕著性モデル化のためにベイジアンの概念を活用した。
決定理論モデル:本解釈は、タスクに関して注意が最適に促進されることを提案する。Gao&Vasconcelos(2004)[18]は、オブジェクトの認識について、顕著な特徴は、対象のオブジェクトのクラスを他のすべてのクラスから最もよく区別するものであると主張した。各々が位置および割り当てられたクラスラベル(例えば、背景または対象のオブジェクト)を有する、いくつかの特徴セットを考えると、顕著性は相互情報量(通常、KullbackLeiblerの発散)の測定値である。これらのモデルは、注視予測に優れた制度を有することに加えて、コンピュータビジョンアプリケーション(例えば、異常検出およびオブジェクト追跡)において成功している。
スペクトル分析モデル:これらのモデルは、空間領域内で画像を処理する代わりに、周波数領域内で顕著性を計算する。Hou&Zhang(2007)[19]は、画像のフーリエ変換を計算し、(画像の不連続性に焦点を当てるために)振幅スペクトルの大部分を破棄しながら位相情報を記憶し、逆フーリエ変換を行って最終的な顕著性マップを取得することで、画像についての顕著性を導出した。
パターン分類モデル:本カテゴリにおけるモデルは、画像の特徴から注視まで、機械学習技術を使用して、刺激と顕著性のマッピングを学習する。これらは、周囲の近隣要素と比較した位置のコントラストの可能性がある特徴ベクトルとして顕著性を推定する。Kienzleら(2007)[20]、Peters&Itti(2007)[21]、およびJuddら(2009)[22]は、各ピクセルでそれぞれ画像パッチ、画像の要旨、およびいくつかの特徴のベクトルを使用し、パターン分類子を使用して特徴から顕著性を学習した。Tavakoliら(2011)[17]は、疎サンプリングおよびカーネル密度推定を使用して、ベイジアンフレームワーク内で上記の確率を推定した。これらのモデルの一部は、顔またはテキストのようなトップダウンの注意を導く特徴を使用するため、純粋にボトムアップではない場合がある(Juddら、2009[22]、Cerfら、2008[23])。
他のモデル:本分類に適合しにくい他のモデルも存在する。例えば、Seo&Milanfar(2009)[24]は、顕著性検出のためのローカル画像構造の自己類似性を提案した。神経応答の無相関化の考え方は、AWS(Adaptive Whitening Saliency)モデルにおける正規化方式に使用された(Garcia−Diazら、2009[25])。Kootstraら(2008)[26]は、顕著性を測定するための対称演算子を開発し、Gofermanら(2010)[27]は、再標的化および要約の適用に成功したコンテキスト認識顕著性検出モデルを提案した。
ボトムアップ顕著性に伴う問題は、人々が様々な状況で様々なものを探すため、知覚感度が必ずしも人々の注意に対応しない場合があることである。それを解決するには、人が画像またはビデオを見るときに達成しようとしていることを「トップダウン」で理解する必要がある。
<<2.8 トップダウン顕著性>>
人間の意図の知識から「トップダウン」で顕著性を導出することも可能である。オブジェクトに基づいた注意の理論は、人間がオブジェクトおよび高度な概念に注意することを提案する。人は、他のオブジェクトタイプよりも特定のタイプのオブジェクトに引き付けられる。例えば、人は、他のオブジェクトタイプよりも画像内の顔を見ることに引き付けられる。これらの認知的発見によって着想を得て、いくつかのモデル(例えば、Juddら[22])は、顔、人間、動物、およびテキストなどのオブジェクト検出器を使用して、顕著な位置を検出している。
トップダウンのタスク依存の注意に対する影響に対処するモデルは複雑である。なぜなら、目標およびタスクに対していくつかの表現が必要だからである。また、通常、トップダウンモデルには、オブジェクトおよびそれらのコンテキストに注意を向けて認識するためのある程度の認知的推定が含まれる。
トップダウンモデルにおける典型的なステップは以下の通りである。
タスク定義を解釈するステップ:(長期シンボリックメモリ内の)既知のエンティティと現在のタスクとの関連性を評価し、いくつかの最も関連性の高いエンティティをシンボリックワーキングメモリに記憶することでタスク定義を解釈する。例えば、タスクが運転することである場合、交通標識、歩行者、および他の車両に注意する必要がある。
主要な視覚分析を行うステップ:所望のエンティティのセットならびに環境の「要点」およびその大まかなレイアウトの迅速な分析に対して、通常は関連性があるように学習された空間位置をプライミングして、また、探している最も関連性のあるエンティティの視覚的特徴(例えば、色、サイズ)をプライミングすることで、視覚的分析を行う。(Wolfe、1994[28])。
参加および認識するステップ:前のステップで行われたプライミングおよびバイアスを考慮して、最も顕著な場所に参加して認識する。エンティティ間の相互関係の長期的な知識を利用して、認識されたエンティティがワーキングメモリ内の関連するエンティティにどのように関連するかを評価する。
更新ステップ:認識されたエンティティの関連性に基づいて、対象外として削除するか、行動計画の対象となる可能性があるオブジェクトおよび位置としてワーキングメモリに保持する(ワーキングメモリに関連するサマリ「オブジェクトファイル」を作製する(Kahnemanら、1992[29]))かを決定する。
反復ステップ:自信をもって行動するために十分な情報が収集されるまで、プロセスを繰り返す。
行動ステップ:視覚環境および高度な目標に関する現在の理解に基づいて行動する。
トップダウン顕著性に伴う問題は、より精巧なトップダウンの視覚的注意モデルがオブジェクト認識の進行に依存することである。これは、次に検索するオブジェクトについて推定できるようにするために必要である。
上記方法に伴う別の問題は、顕著性がビデオのフレームで何が顕著であるか、および圧縮アーチファクトのために何が顕著になるか、に関することである。ビデオの圧縮により、共鳴、輪郭削り、ポスタリゼーション、曲線エッジに沿ったエイリアシング、およびマクロブロック境界アーチファクトなどのアーチファクトが発生する可能性がある。画像を強く圧縮すると、アーチファクトの歪みが生じ、以前は目立たなかった画像の部分が目立つようになる。例えば、滑らかにテクスチャ付けされた領域は、非常に大きく量子化されるとブロック状になる。顕著なアーチファクトは、必ずしも人々の注意を引くとは限らない画像の背景に属することが多い、滑らかなグラデーションおよび規則的な動きを有するオブジェクトにとって特に問題である。しかしながら、これらのタイプの領域は、注意が払われないと知覚的にかなり敏感である。背景は目立たないため、通常は強く圧縮されている。そのため、視聴者が背景を見る原因となるアーチファクトは、その品質がどれほど低いかを認識させる。
<<2.9 動き/時空間の顕著性>>
各ビデオフレーム内にはかなりの冗長性が存在するが、通常、画像の80%はフレーム間で変化しないため、ビデオフレーム間で最大量の冗長性が発生する。人は、動いているオブジェクトにより多くの注意を払うため、フレーム間には顕著性も存在する。動きのないマクロブロックは、動きのあるマクロブロックよりも目立たないため、品質を著しく低下させることなくそれらを圧縮することができる(図8)。
動きの顕著性は「時空間的顕著性」と呼ばれ、動きや動きの欠如だけを含むものではない。様々なタイプの動きは、多かれ少なかれ注意を引く。例えば、海の穏やかな波は、カメラに向かって投げられたレンガよりも注意を引かない。同様に、動きの顕著性は、顕著性の時間導関数だけを含むものではない。動きで注意を引くものは、静的な空間内のものとは非常に異なる場合がある。例えば、同じ投げられたレンガが、静的なときは注意を引かない場合がある。顕著性の精巧な測定値は、動きの顕著性に関する人間の知覚モデルを使用して顕著性マップを作製する。次いで、動きおよび静的な顕著性を結合して、全体的な顕著性マップを作製する。
時空間的顕著性は、空間的顕著性ほど研究されておらず、次の2つの主な研究手段がある。
認知モデル:人間の時空間的顕著性に基づく人間のモデル。本方法は、追加の時間軸を使用して単一画像の顕著性モデルを拡張し、経時的な視覚パターンを探す(例えば、MahadevanおよびVasconcelos[30]、Muddamsetty、Sidib′e、Tr′emeau、およびMeriaudeau 2014[31])。
スペクトル分析モデル:Bian&Zhang(2009)[32]およびGuo&Zhang(2010)[33]は、位相データの周波数領域の使用を拡張することで、スペクトル領域内の時空間モデルを提案した。
時空間的顕著性は、(特に低光量における)カメラセンサからの「粒状」ノイズまたはコーデックからの圧縮ノイズによって困難になる。ノイズの多い環境では、フレーム間の動きのほとんどがピクセルノイズであるため、時空間的顕著性アルゴリズムは、ノイズの除去および真に顕著な動きの認識に優れている必要がある。
<<2.10 顕著性に基づくビデオ圧縮>>
顕著性の計算を使用して、ビデオコーデックの圧縮率を向上させることができる。プロセッサオーバーヘッドをほとんど追加することなく顕著性を効率的に計算できる場合、処理能力(例えば、モバイルデバイス)または時間(例えば、ライブビデオ)に制約がある状況において使用することができる。顕著性の迅速な計算は、ライブビデオの圧縮にとって特に重要である。なぜなら、他の多くの圧縮形式はライブでの計算が遅すぎるため、顕著性が除去できるビデオ内の冗長性がかなり多くなるためである。
通常、空間領域内の顕著性の計算には、多くの処理が含まれる。複数の計算が画像全体を数回処理して、様々な現象およびスケールに対応する。
通常、顕著性マップは、空間領域内の複数の現象から構成される。例えば、Zhicheng Li、Shiyin Qin、Laurent Itti[34]による顕著性モデルは、12個の低レベルの特徴チャネルを分析して、マルチスケールの顕著性マップを生成し、シミュレートされた中心−周辺ニューロンを使用して、潜在的に対象となり得る局所的な空間不連続性を検出する。この12個の特徴チャネルは、以下のものに敏感な神経特徴をシミュレートするために使用される。
1. 赤/緑のコントラスト
2. 青/黄のコントラスト
3. 時間的な強度のちらつき
4. 強度のコントラスト
5. 0°の向き
6. 45°の向き
7. 90°の向き
8. 135°の向き
9. 上向き運動エネルギー
10. 下向き運動エネルギー
11. 左向き運動エネルギー
12. 右向き運動エネルギー
これらの特徴は、複数のスケールで比較される。中心−周辺スケールは、スケール0(元の画像)からスケール8(水平方向および垂直方向で係数によって28=256に縮小された画像)までの9つのスケールを有する二項ピラミッドから取得される。次いで、12個の特徴の各々について、ピラミッドスケール全体のポイント間差分として6つの中心−周辺差分マップが計算され、合計72個の特徴マップが生成される。また、各特徴マップには、内部ダイナミクスが設けられる。内部ダイナミクスは、活動において特徴内およびスケール内の強力な空間的競合を提供し、特徴内およびスケール全体の競合がそれに続く。すべての特徴マップは、最終的に一意のスカラー顕著性マップに寄与する。この方法の複雑さは、空間領域内で顕著性を計算することの難しさを示している。
また、ローカルピクセルに基づいた他の顕著性計算方法が研究者(例えば、BruceおよびTsotsos[2])によって使用されてきた。これは、情報理論に基づいて、またはグラフカットアルゴリズムもしくはグラブカットアルゴリズムを使用して、顕著性マップの境界を調整し且つ顕著なオブジェクトの輪郭の数を数えて、視覚的顕著性を定義するために使用された。これらの方法は、不正確および/または計算集約的であり、汎用性がない。また、それらの精度は、選択されたパラメータに依存する。
他のいくつかの空間的顕著性の計算は、局所的な視覚的顕著性を計算する代わりに、画像全体にわたる画像領域の大域的な希少性に基づいている。オブジェクトに基づいた注意の理論は、人間がオブジェクトおよび高度な概念に注意することを提案する。これらの認知的発見によって着想を得て、いくつかのモデル(例えば、Juddら[22])は、顔、人間、動物、およびテキストなどのオブジェクト検出器を使用して、顕著な位置を検出している。いくつかのモデルは、注視位置にある画像領域から学習された動き、ちらつき、オプティカルフロー、または関心点を利用して、時空間領域内での顕著性検出に対処する。これらの大域的な検索方法は、それぞれ単一の現象に対処するため、汎用の顕著性アルゴリズムでは、このような検索アルゴリズムの多くを結合して、他の顕著性計算が受ける同じく重い計算負荷を効果的に生成する必要がある。
<<2.11 ビデオ圧縮の周波数領域に基づいた顕著性>>
周波数領域は、ビデオ画像の視覚的顕著性の計算に使用されている。これは、人間の視覚が、周波数領域内でより簡潔に画定される特定のパターンに引き付けられるためである。
画像の周波数領域表現は、空間領域よりも検索が単純な場合がある。周波数領域内の各ポイントは、空間領域内のあらゆるポイントに接続されているため、周波数領域内の単一の位置を調べることで、画像内の既知の形状またはパターンを見つけることができる(図9)。
画像の周波数領域表現を使用することの難しさは、周波数領域への変換が、通常、計算集約的であることである。フーリエは、時間領域内のあらゆる信号が、様々な振幅、周波数、および位相を有する正弦波の合計として周波数領域内で表され得ることを示している(図10)。
より多くの正弦波を結合すると、それらの正弦波の合計は、時間領域信号のより正確な表現になる。ほとんどの時間領域信号では、全体的な表現に必要な正弦波の数は無限に長いため、時間領域信号の周波数領域表現は、正弦波の無限列である。
実際には、無限波は使用することができないため、離散フーリエ変換と呼ばれる、周波数領域内で等間隔の不連続な数のステップに周波数波の連続列をサンプリングすることで、近似が行われる。ほとんどの最先端機器では、周波数領域への変換は、通常、高速フーリエ変換(FFT)を使用して実行される。高速フーリエ変換では、離散フーリエ変換行列をわずかな(ほとんどゼロの)係数の積に因数分解することで、周波数領域変換を迅速に計算する。各ステップは前のステップの残差に作用するため、高速フーリエ変換は依然として計算集約的である。そのため、対象領域を見つけるために行列全体を計算する必要がある。しかしながら、簡潔なアルゴリズムは知られていない。FFT全体を計算する必要があるということは、顕著性の周波数領域表現は単純である場合があっても、必要な計算がリアルタイム計算にはまだ重すぎることを意味する。
ほとんどの画像圧縮には、FFTの代わりに離散コサイン変換(DCT)が使用される。離散フーリエ変換(DFT)と離散コサイン変換(DCT)との違いは、離散コサイン変換はコサイン関数のみを使用するのに対して、離散フーリエ変換がコサインとサインの両方を使用することである。コサインのみを使用すると、DCTは実数のみを生成する。これは、すべての波は同じ位相をもち、フーリエ変換は位相および振幅を含む複素数を生成するためである。DCTは、強力な「エネルギー圧縮」特性を有するため、圧縮でよく使用される。通常のアプリケーションでは、ほとんどの信号情報はDCTのいくつかの低周波成分に集中する傾向があり、小さな高周波成分は破棄することができる(図11)。
いくつかの研究チームが、画像内の周波数領域顕著性アルゴリズムを調査した。
2007年、HouおよびZhang[35]は、画像内のスペクトル成分を使用して、視覚的顕著性を検出した。ボトムアップ顕著性は、振幅または位相から取得できるコントラストの違いから抽出される。Houは、振幅スペクトル残差(SR)による単純且つ高速な顕著性検出アプローチを設計した。この方法において、Houは、画像情報がイノベーションおよび事前知識の2つの部分から構成されていると想定した。振幅スペクトル内の統計的特異点は、顕著なオブジェクトがポップアップする画像内の異常領域の原因となる場合がある。彼らの方法では、画像の要点は平均フーリエ包絡線で表され、微分スペクトル成分は顕著な領域を抽出するために使用される。彼らは、スペクトル残差アプローチを使用して、周波数領域から顕著性を計算した。彼らは、画像の対数振幅スペクトルのスペクトル残差がその「イノベーション」レベルを表すことを発見した。元の振幅スペクトルの代わりにスペクトル残差の指数関数を使用して位相スペクトルを維持することで、逆フーリエ変換を実行して顕著性マップを生成した。アルゴリズムは、同等の空間領域顕著性方法よりも著しく高速に実行された。
2012年、SchauerteおよびStiefelhagen[36]は、注視予測のための四元数に基づいたスペクトル顕著性検出を調査した。
2013年、Li、Levine、An、およびHe[37]は、空間領域および周波数領域の顕著性予測を結合する方法を検討した。
2015年、Li、Duan、Chen、Huang、およびTian[38]は、中間周波数の位相からの視覚的顕著性を調査した。彼らは、テンプレートに基づいたコントラスト計算の観点から離散フーリエ変換の概念を再解釈し、教師なし学習と教師あり学習の両方を介して得られた事前知識の支援の下で、顕著性検出器を設計した。
画像内の周波数領域アルゴリズムに関する研究のほかに、周波数領域に基づいた動き顕著性に関する論文における簡潔且つ明確な説明もある。
2008年、Guo、Ma、およびZhang[39]は、フーリエ変換の位相スペクトルを使用して時空間(動き)顕著性を計算し、位相がスペクトル残差などの他の周波数領域方法よりも成功しやすく、計算オーバーヘッドが小さくなったことを発見した。Guoは、位相スペクトルが視覚的顕著性への重要な要因であり、顕著な領域が位相の突然の変化によって引き起こされることが多いと考えた。振幅スペクトル値に関係なく、極座標フーリエ変換によって顕著性マップを計算できるため、計算作業が減少する。彼らは、2次元画像の極座標フーリエ変換を計算して、各ピクセルを強度、色および動きから構成される四元数として表すことで、さらに四元数フーリエ変換に拡張することができた。追加された「動き」次元により、画像だけでなくビデオでも位相スペクトルが機能することができる。
2010年、GuoおよびZhang[40]は、多重解像度で時空間的顕著性を計算する極座標フーリエ変換方法を作製し、画像およびビデオ圧縮のアプリケーションに適用した。四元数フーリエ変換モデルの位相スペクトルは、粗いものから細かいものまで様々な解像度で画像の顕著性マップを計算できるため、モデルに基づく「階層型選択性フレームワーク」を導入して画像のツリー構造表現を構築することができる。階層型選択性の助けを借りて、画像およびビデオ圧縮におけるコーディング効率および顕著性計算時間を改善するために、多重解像度ウェーブレット領域陥凹形成と呼ばれるモデルが提案された。
2013年、Li、Xue、Zheng、Lan、およびTian[41]は、位相と振幅の両方のデータを含めて「超複素周波数スペクトルコントラスト」を介して時空間的顕著性知覚を計算することで、四元数フーリエ変換の概念をさらに取り入れた。GuoおよびZhangの方法を修正した主な理由の1つは、位相スペクトルだけでは視覚的顕著性を計算するには不十分であると発見されたことである。周波数領域変換および逆変換の実装形態には、共通情報の位相および振幅が必要である。振幅情報は突然変異のエネルギースペクトルを示し、位相情報は画像内のテクスチャの変化を示す。振幅スペクトルに基づいて、顕著性検出方法には、顕著なオブジェクトの事前配置機能が存在するが、オブジェクトの整合性は不十分である。位相スペクトルに基づく方法は、顕著なオブジェクトの境界に敏感である。振幅のみまたは位相のみに重点を置くと不十分な結果になるため、両方を考慮する必要がある。
上記方法は、以下のステップを含む。
・ 画像を人間の知覚により自然に対応するHSV(色相、彩度、および明度)色空間に変換し、現実世界の陰影をもつオブジェクトに固有の3D構造の一部を捕捉するステップ。
・ 3レベルのピラミッド上で2次元ガウス分布によってHSV画像をぼかすことで、細かいテクスチャの詳細を排除し、画像のエネルギーを平均化して、HSV色空間内の純粋な四元数(超複素数)によって画像ピクセルを表現するステップ。
・ 様々なスケールの画像の振幅および位相の情報を含む超複素数フーリエスペクトルを計算するステップ。
・ 生画像とぼかされた画像との間のスペクトルコントラストを計算し、生画像の様々なスケールで振幅スペクトルおよび位相スペクトルを使用して、これらのコントラストマップを復元するステップ。
・ 復元されたスペクトルコントラストマップを正規化し、対数極不均一サンプリングを使用して最終的な顕著性マップを取得するステップ。
次いで、四元数フーリエ変換が実行される。
<<2.12 顕著性に基づくビデオ圧縮>>
対象領域が抽出された際に、対象領域および対象外領域のビデオ圧縮および符号化品質を調節するための多くの手段が提案されている。
<<2.13 ぼかし>>
単純なアプローチの1つは、顕著性マップに従って入力フレーム内の情報をぼかして入力フレーム内の情報を減らすことである。注意を引く画像の領域のみが高品質に保たれ、他の領域はすべてぼかされる。しかしながら、ぼかしは、低顕著性領域内で主観的品質の明らかな低下をもたらす。
<<2.14 圧縮変調>>
従来のレート制御アルゴリズムは、すべてのマクロブロックに同じ圧縮レベルを提供する。顕著性は、ブロックを不均一にコーディングする機会を与え、顕著でないブロックをより強く圧縮してコーディング効率を向上させるか、顕著な領域により多くのビットを割り当てて品質を向上させる(図12)。
これらのブロックの顕著性に応じて、視覚的顕著性の測定値を使用して、様々な量でブロックを圧縮する多くのアルゴリズムが提案されている。知覚品質は、マクロブロックごとに、以下のような圧縮のいくつかの異なる側面を変調するために使用することができる。
・ 量子化パラメータ
・ モード決定
・ 参照フレームの数
・ 動きベクトルの精度
・ 動き推定の検索範囲
<<2.15 プレフィルタ>>
顕著でない領域からの情報の削除は、コーデックに統合される必要はない。顕著な特徴を検出および追跡し、それらをシャープに保つプレフィルタとして実装することができるが、顕著でない特徴はローパスフィルタリングされ、自動で有益なビットレートの低下を引き起こす。顕著性に基づくプレフィルタリングは、前処理ステップとして実行されるため、任意のビデオエンコーダとインターフェースで接続することができる。
プレフィルタは、いくつかの欠点を有する。プレフィルタ内のマクロブロックがコーデックのマクロブロックと完全に一致する可能性は低い。また、エンコーダには、細粒度の顕著性のためにマクロブロックをより小さなマクロブロックに細分割するなど、プレフィルタの影響を受けない多くの側面が存在する。また、プレフィルタは、コーデックの処理に干渉する場合がある。例えば、オブジェクトの顕著性を変更すると、オブジェクトの外観が変更されて、追加情報としてのフレーム間のオブジェクトの違いを送なければならないコーデックの動き予測アルゴリズムで使用できなくなる。
<<2.16 ビデオコーデック>>
業界標準のコーデックは、すべて同じ基本ブロックを共有する(図13)。これは、DCTブロックから始まって、画像を周波数領域に変換する。次いで、量子化ブロックがそれらの周波数成分の解像度を低下させ、可変長エンコーダがストリームからエントロピーを除去する。
<<2.17 動き補償>>
最新のビデオコーデックには、すべて、動き推定も含まれている。現在のフレーム内のピクセルの各ブロックは、前のフレーム内の同じサイズの候補ブロックのセットと比較されて、現在ブロックを最もよく予測するブロックが決定される。最も一致するブロックが見つかると、参照ブロックを指定する動きベクトルが決定される(図14)。
動き補償についての重要な考えは、マクロブロックを予測することで、予測コーディングを追加して画像をより良く圧縮することである。動き補償は、コーデックに何らかの複雑さを加える(図15)。
動き補償を周波数領域内で実行することが難しいため、最初のステップでは、圧縮画像が逆量子化および逆変換される。これにより、動き推定ブロックがピクセル領域内で動き補償予測誤差を作製できるようになる。現在のフレームのブロックごとに、動き推定を使用して参照フレーム内の予測ブロックが見つけられて差別化され、予測誤差信号が生成される。この計算には、エンコーダおよびデコーダに記憶された単一のフレームのみが必要である。結果として生じる予測誤差は、DCTを使用して変換され、可変長コーダ(VLC)を使用して量子化およびエントロピー符号化され、固定レートチャネル上の送信用にバッファリングされる。
フレーム内(イントラ)とフレーム間(インター)とに同じ圧縮ブロックを使用することができる。フレーム間圧縮では前のフレームから現在のフレームが差し引かれてフレーム間の差分が処理され、フレーム内圧縮では最新のフレームが処理される(図16)。
<<2.18 業界標準コーデック>>
ビデオコーディングにおける主なイニシアチブは、新しいコーデックにつながる。最も一般的なビデオコーデックの年表は、以下の通りである。
・ H.261(1990) − 国際電気通信連合(ITU)によって開発された。コーディングアルゴリズムは、ピクチャ間予測を使用して時間的冗長性を除去する。時間コーディングの基本単位であるマクロブロックは、16×16ピクセル領域を表すために使用される。H.261は、電話会議アプリケーションでISDNを介してビデオを伝送するためのものであり、一般的なデジタルビデオコーディングでの使用には適していない。
・ MPEG−1(1991) − 動画専門家集団(MPEG)の最初のコーデックである。CD−ROMに映画を1.2Mbits/s程度で記憶するためのものであり、以下のイノベーションが組み込まれている。
・ 単体で符号化されたフレーム(Iフレーム):隣接するフレームとは無関係の個別フレーム(静止フレーム)として符号化される。
・ 予測で符号化されたフレーム(Pフレーム):過去のIフレームまたはPフレームからの予測によって符号化され、より良い圧縮率(より小さなフレーム)をもたらす。
・ 双方向予測で符号化されたフレーム(Bフレーム):IフレームまたはPフレームの過去および将来のフレームを使用した予測によって符号化され、最高の圧縮度を提供する。
・ H.262/MPEG−2(1994) − MPEG−1の圧縮技術を拡張して、帯域幅の使用量を増やしながら、より大きな画像および高品質をカバーする。MPEG−2は、通常、4Mbps〜15Mbpsのビットレートを必要とするデジタルテレビ放送アプリケーションのため、または2Mbits/s〜400Mbits/s程度のビデオをDVD(デジタルビデオディスク)に記憶するために設計されている。
・ H.263/MPEG−4 Part2(1996) − テストモデル(TMN)と呼ばれる符号化アルゴリズムを使用する。これは、H.261で使用されるものに類似するが、パフォーマンスおよびエラー回復が改善され、効率が向上している。また、低ビットレートでのコーディングに最適化されている。H.263は、POTS2ネットワークを介した低ビットレートビデオテレフォニーのためのビデオコーディングに使用され、14.4kbits/s〜56kbits/sのモデムレートで使用されるビデオに10kbits/sが割り振られる。モデムレートには、ビデオコーディング、音声コーディング、制御情報、およびデータ用の他の論理チャネルが含まれる。MPEG4は、ビデオストリームをアルファマスクによって定義されたフォアグラウンド領域とバックグラウンド領域に分割する「ビデオオブジェクトプレーン」と呼ばれる特徴を有する。バックグラウンド情報は、一度だけ送信される必要がある。コーデックは、ビデオストリームを調べることでアルファマスクを自動的に生成することができる。または、コーデックは、最初のフレーム内で対象のオブジェクトを手動で選択して、半自動的に生成することができる。
・ H.264/MPEG−4 AVC/MPEG−4 Part10(2003) − 様々なアプリケーションの既存のビデオコーディング規格と比較して、コーディング効率を2倍にするという目標があった。H.264は、2003年3月にITU−Tによって承認された(MPEG−4 Part10としても知られる)。その目標は、低ビットレート(8kbits/s程度)と高ビットレート(1Mbits/s以上)のため、低解像度および高解像度のビデオのため、ならびに待ち時間に対する高い要求および低い要求に応じて、多種多様なアプリケーションに規格を適用することができるように十分な柔軟性を提供することであった。コーディング効率を改善する主な特徴は以下の通りである。
・ 可変ブロックサイズの動き補償
・ ピクチャ境界上の動きベクトル
・ 複数の参照ピクチャの動き補償
・ ループ内ブロック解除フィルタリング
・ 4×4ピクセルの小さなブロックサイズの変換
・ エントロピーコーディング方法の強化(コンテキスト適応型可変長コーディング(CAVLC)およびコンテキスト適応型バイナリ算術コーディング(CABAC))
・ VP8(2008) − H.264/AVCと多くの共通点をもつ従来のブロックに基づいた変換コーディング形式。
・ H.265/HVEC/MPEG−H Part2(2010) − JCT−VC協会によるものである。ISO/IEC MPEGとITU−T VCEGとの間の共同研究であり、H.264と比較して効率が50%改善している。
・ VP9(2012) − x264よりも30%効率的である。
・ VP10/AV1(2017年推定) − パフォーマンスについて、HEVCおよびVP9と比較して効率が約50%改善している。
<<2.19 標準コーデックの改善された実装形態>>
同じコーデックからのすべてのビデオが等しいとは限らない。ビデオ圧縮規格は、ビデオエンコーダによって生成される圧縮ビットストリームの構文およびセマンティクス、ならびにビットストリームを解凍したビデオ信号を生成するための解析および復号方法を指定する。しかしながら、動き推定、コーディングモードの選択、ピクチャの様々な部分へのビットの割振りなど、符号化におけるアルゴリズムおよびパラメータの選択は指定されない。これらはオープンのままであり、エンコーダの実装形態に大きく依存する。しかしながら、符号化の結果として生じるビットストリームは、指定された構文に準拠する必要がある。その結果、同じビットレートであっても、標準のビデオコーデックの品質は、エンコーダの実装形態に大きく依存する。これは、一部の実装形態が他の実装形態よりも優れたビデオ品質をもたらすように見える理由を示す。
<<2.20 プレフィルタおよびポストフィルタ>>
コーデックは、ビデオのノイズ除去、フリック除去、および振動除去などのプレフィルタを使用することが多い。ノイズ除去およびフリック除去は、通常、ピーク信号対ノイズ比(PSNR)の値を維持しながら、視覚的な品質を向上させる。振動除去は、PSNRを大幅に低下させるが、視覚的な品質を向上させる。ポストフィルタは、ブロック解除および共鳴解除のような同様の特性を示し、PSNRを維持するが、品質は向上する。(H.264で推奨された)粒状化は、ビデオ品質を向上させるが、PSNRを低下させる。すべてのフィルタは、圧縮/解凍時間を増加させる。一部の顕著性アルゴリズム(例えば、EuclidIQのIQ264)は、コーデックに到達する前にビデオ上で動作するプレフィルタとして実装されている。
<<2.21 レート制御>>
ビデオが変換される最終的なデータレートも制御することができる。通常、可変ビットレートは、シーケンスの同じ平均客観的品質値(例えば、PSNR)に対して、固定ビットレートよりも優れた視覚的品質マークをもたらす。
<<2.22 マクロブロックのスキップ>>
動き推定は、差分と共に、変更されていない前のフレームの部分を探し、それらを元の参照位置からのベクトルとして符号化。符号化されたストリーム内で、動き推定は、以下の3つのタイプのビデオフレームを作製する。
・ Iフレーム − すべてのマクロブロックを含む参照フレーム。
・ Pフレーム − 以前のフレーム(主にIフレーム)から作製された前方予測ピクチャであり、必要なデータが少ない(通常、Iフレームのサイズの50%)。
・ Bフレーム − 前後のフレームから予測または補間することができるため、Pフレームよりも少ないデータ(通常、Iフレームのサイズの25%)で前後のフレームの一部を使用する双方向予測されたピクチャ。
PフレームおよびBフレームは、動きベクトルおよび変換係数として表され、コーデックがコンテンツの代わりに画像部分の変換を送信できるようにする。しかしながら、これらの動きベクトルおよび変換は、ビットレートの一部を依然として占有する。
また、前のフレームから変更されていない一部のマクロブロックについては、動きベクトルまたは変換を含まないスキップマクロブロックを送信することができる。スキップブロックは、すべて同じ方法で変換されるマクロブロックの大きなグループにも使用することができる。デコーダは、すでに復号化された他のブロックからスキップコード化されたブロックの動きベクトルを推定する。
<<2.23 ビデオ圧縮の品質評価>>
あるビデオコーデックが別のビデオコーデックよりも優れているかどうかを評価するために、ビデオの品質を測定する方法が必要である。ビデオ品質測定は、ビデオコーデックの開発および評価に不可欠な部分であり、人間の知覚に基づいた新しいタイプのビデオ圧縮を検討する場合、古い品質測定では評価できない可能性があるため、特に重要である。
<<2.24 主観的な品質>>
ビデオ品質を測定する最も簡単で正確な方法は、人にそれを観察させてスコアを付けさせることである。総合的なモデルによって人間の視覚を完全にモデル化できないため、ビデオ圧縮がより精巧になるにつれておよび人間の目の知覚特性を使用するにつれて、ビデオ品質のスコアリングにおいて人間の主観的な品質評価がより重要になる。
主観的な意見は様々であり、ビデオシーケンスを参加者に見せて参加者の意見を記録する多くの方法があるため、主観的な品質評価を信頼できる品質測定に変えることは困難である。主観的なスコアを信頼できるようにするために、主にITU−R勧告BT.500において、被験者から平均意見スコアを取得するための制御されたプレゼンテーション形式を指定するいくつかのプレゼンテーション方法が標準化されている。
また、人間の注意時間は限られているため、主観的なテストに長いシーケンスを使用することは困難である。通常、4つの10秒シーケンスが使用される。シーケンスの選択には影響がある。開発者がコーデックを調整するために使用するシーケンスと同様のシーケンスは、パフォーマンスが向上する。通常、ビデオ品質を評価するために非専門家の意見が使用される。なぜなら、専門家は、平均的なユーザとは異なる方法でビデオを見るため、消費者がビデオ品質をどのように経験するかを示す品質スコアが得られないためである。
主観的な品質テストに伴う主な問題は、時間がかかり、平均意見スコアの許容可能精度を得るために、(テストの複雑さに応じて)25人〜40人のオブザーバを募集する必要があることである。主観的なビデオテストを設計および実行するプロセスは、通常、1週間以上かかる。
<<2.25 客観的な品質>>
総合的な測定は、人間のビデオテスタの大規模コホートなしでビデオ品質スコアを提供する。人間の視聴には遅延がないため、総合的なスコアを使用と、ビデオコーデックを迅速に開発することができる。また、総合的なスコアを使用と、コーデック内で品質評価を使用して、ビットレートと品質を動的に調整することができる。
<<2.26 PSNR>>
ピーク信号対ノイズ比(PSNR)は、信号の最大可能電力と破損ノイズの電力との間の比率に使われる工学用語である。PSNRは、符号化および復号の前後にビデオフレームのピクセルごとの比較を実行する。このタイプの前後の比較は、「完全参照」と呼ばれる。圧縮画像のみを使用する他のタイプの品質推定も存在する。
PSNRの計算では、まず、各ビットの平均二乗誤差(MSE)を取得する。最大可能ピクセル値が2乗され、MSEによって除算され、その対数が取られてPSNRが得られる。
ピーク信号対ノイズ比は、画像に加えられる歪みおよびノイズの単純な測定値を提供するために使用される。
PSNRの弱点は、人間の視覚をうまくモデル化できないことである。人間の目ではほとんど認識されない画像の歪みの中には、大きなPSNRエラー(例えば、画像の明るさ)を生成するものと、よく見える他の歪みとが存在する。PSNRには、人間の知覚の概念がないため、これらの問題が発生する。例えば、顕著性を使用して圧縮を導くコーデックは、ガイドなしのPSNRスコアと同じPSNRスコアを有する(損失を再配布するだけである)が、主観的スコアは顕著性ガイド付き画像を著しく高い品質として評価する。最新のコーデックは、人間の知覚を活用して知覚されない情報を破棄するため、PSNRスコアの有用性は低下している。
提案されているPSNRの変形形態の1つに、中心窩のPSNRがある。この場合、PSNRスコアは、各マクロブロックの(注意マップから取得された)相対的な重要度に従ってマクロブロックレベルで適応的に調整される。しかしながら、注意マップは主観的な視聴者の視線追跡によって取得する必要があるため、この方法はラボビデオサンプルのみに限定される。新しいビデオは、注意マップをもたない。
<<2.27 SSIM>>
Structural Similarity(SSIM:構造的類似性)は、人間が知覚した品質をなんらかの方法でモデル化する「SSIM」の指標を計算することで、人間の知覚により良く適応しようとする。SSIMは、絶対誤差を計算するのではなく、画像劣化を「構造情報」内の知覚変化と見なす。これは、特に空間的に近い場合にピクセルが強い相互依存性を有するという考えである。これらの依存関係には、視覚画像内のオブジェクトの構造に関する重要な情報が含まれる。SSIMには、「輝度マスキング」および「コントラストマスキング」などの知覚現象も組み込まれる。「輝度マスキング」とは、明るい領域では画像の歪みが目立たなくなる現象である。「コントラストマスキング」とは、画像内に大きな活動または「テクスチャ」がある場合に、それによって歪みが目立たなくなる現象である。
SSIMは、次の3つの要素の重視された組み合わせから構成される。
・ 輝度 − ピクセル用の高い値がより重視される。各ポイントの輝度は、平均の2乗の合計に対する平均xとyの積の2倍である。
・ コントラスト − 局所的に一意のピクセル値がより重視される。各ポイントのコントラストは、平均の2乗の合計に対する分散値xとyの積の2倍である。
・ 構造 − ここでは、隣接する値によって変化するかどうかが判定される。各ポイントの構造は、分散値xとyの積に対するxとyの共分散である。
SSIMの変形形態の1つであるマルチスケールSSIM(MSSIM)は、初期視覚システム内のマルチスケール処理を模倣するように設計されたサブサンプリングの複数ステージのプロセスを介して、複数のスケール上でこれらのスコアを計算する。MSSIMのパフォーマンスは、画質データベース上で測定されるように、人間の判断と非常に相関している。最も優位性のあるオブジェクトの画質モデルは、MSSIMコンセプトの何らかの形式または変形形態である。
MSSIMにはいくつかの利点があるが、その有用性を制限する問題もある。
・ MSSIMは、PSNRよりも計算が複雑である。
・ おそらく最も重要なことに、MSSIMはビデオ用ではなく、静止画像用であることである。ビデオは、フレーム内よりもフレーム間の相関が高いため、ほとんどの圧縮はフレーム間で実行される。これは、MSSIMが歪みの大部分を測定しないことを意味する。動きの顕著性とSSIMとの間に相関関係はない。
・ MSSIMには顕著性の概念をもたない。構造的な関係を識別することはできるが、それらの関係が顕著であるかどうかは分からない。これは、顕著な領域でより良い品質を提供するために、平均歪みを同じレベルに保ちながらビットを不均一に分散する顕著性に基づく圧縮アルゴリズムをテストする場合の重大な欠点である。通常、MSSIMは顕著性に基づくビット分布からの改善を報告しないが、主観的なテストは大幅な改善を報告する。
・ MSSIMは複雑でるため、コーデックを開発することが困難になる。多くの場合、コーデックは、パラメータを変更させ、客観的な測定に対してテストすることで、段階的且つ反復的に最適化される。PSNRのような単純な測定の場合、なぜスコアが良くなったか悪くなったかがすぐにわかる。複雑な測定の場合、画像のスコアがなぜ変更されたかを知ることは困難であり得る。
(人間の視覚に基づくものを含む)多くの追加の客観的な品質評価方法が提案されている。しかしながら、ビデオ品質専門家集団(VQEG)の調査結果は、すべての条件で主観的な品質を反映することができる客観的な測定値が存在しないことを示している。
<<2.28 品質曲線>>
ほとんどのビデオコーデックには、ビットレートと品質との間に非線形関係がある。ビットレートが増加するたびに品質に与える影響が小さくなる。この非線形関係は、コーデックがより高いビットレートおよびより低いビットレートにどのように反応するかを示す「品質曲線」を形成する。圧縮曲線は、コーデックを比較するために使用されるものである(図17)。
<<2.29 閉ループ予測>>
客観的な品質測定を閉ループの形式で使用して、圧縮を調節することができる。1つの領域を圧縮すると品質に影響を与えることが品質測定から判明している場合、コーデックは、主観的な品質を維持するためにその領域をより少なく圧縮するように指示される。フィードバックとしての客観的な品質を備えた閉ループビデオ圧縮は、2005年にCaviedesおよびAliによって提案された[42]。
品質推定および顕著性は、同じアルゴリズムであることがわかる。品質の全体的な測定により、画像のすべての部分において最適な圧縮を使用することができる。
<<2.30 業界の問題>>
ビデオコーデック業界はいくつかの問題に直面しており、これらの問題をより良く解決するために、新しいコーデックが定期的に導入されている。
<<2.31 ビデオの使用の増加>>
ビデオインターネットトラフィックは、1桁増加している。インターネットトラフィックの量は、2005年から2020年にかけて100倍増加すると予想されている(Cisco)。その増加の大部分は、ビデオが占める。IPビデオトラフィックは、2015年の70%から2020年までにすべての消費者インターネットトラフィックの82%に増加する(Cisco)。2011年から2013年にかけて、平均的なオンラインビデオ視聴は、1人あたり1日6分増加した。
<<2.32 ビデオ解像度の増加>>
より大きく、より高解像度の画面が使用されるにつれて、ビデオフレームのサイズは増大している。
増大しているのはフレームの解像度だけではなく、より大きな色空間も使用されている。360度ビデオおよび立体ビデオなどの新しいスクリーン技術は、データおよび解像度の要求をさらに高めている。
<<2.33 帯域幅の小ささ>>
インターネットトラフィックは、主にモバイルネットワークを経由するように変化している。スマートフォンのインターネットトラフィックは、2020年までにPCトラフィックを超える(Cisco)。モバイルデバイスでビデオを視聴する傾向を示すパターンもある。エリクソンは、モバイルデバイスからのIPトラフィックが2019年までに有線デバイスからのIPトラフィックをはるかに超え、ビデオトラフィックがモバイルトラフィックの50%以上を占めると予測している。しかしながら、通常、モバイルデータの速度は、有線ネットワークの速度よりも遅いため、ビデオあたりの平均帯域幅は急速に増大しない。また、リアルタイムビデオは、ほとんどのセルラー通信リンクの非対称性によってさらに制約されて、アップロードリンクよりも幅広いダウンロードを提供する。
<<2.34 リアルタイムビデオの圧縮率が低い>>
動き推定などの多くのコーデック動作はリアルタイムで実行するには計算作業が多いため、ビデオコーデックはリアルタイムビデオの符号化ではあまり効率的でない。しかしながら、ビデオコールのハードウェアおよびソフトウェアが利用できるため、ライブビデオはインターネットトラフィックの大きな割合を占める。このライブビデオの多くは、計算能力の低いモバイルデバイス上で符号化されている。
<<2.35 新しいコーデックの開発時間の増加>>
通常、新しいコーデックは、より精巧なアルゴリズムを採用することで、より高い圧縮率を提供する。これらのコーデックが精巧になるにつれて、開発には時間がかかる。コーデックの新しいバージョン間の平均期間は、2年から5年に増加した。
<<2.36 計算作業の増加>>
コーデックが精巧になるにつれて、ピクセルごとに実行される計算が増加する。最新のコーデックは、ビットレートを下げるために、検索、変換およびモデル化を実行する場合がある。ビデオ解像度の向上に伴うピクセルごとの作業の増加により、ほとんどの最新のCPUでリアルタイムに実行されるようにビデオ符号化の要求が厳しくなっている。通常、多くのビデオを処理する機関は、ビデオを最適な圧縮で符号化するために、ビデオの符号化に多大な作業を費やす「トランスコーダ」ファームを有する。
<<2.37 コーデックのメトリックの難しさ>>
コーデックが精巧になるにつれて、コーデックの効率を述べることは難しくなっている。一部の新しいコーデックは、人間の視覚または特定のコンテンツタイプ(例えば、スポーツ)向けに最適化されているため、総合的なテストではパフォーマンスが不十分である。テストでは、最も一般的な種類のコンテンツを代表するビデオを視聴する人間の観察者の大規模なコホートが必要である。
<<2.38 ハードウェアの互換性>>
ビデオコーデックはプロセッサに大きな負荷をかけるため、特に低電力デバイス(例えば、テレビ、携帯電話)を含む多くのデバイスには、ハードウェアビデオコーデックアクセラレータが含まれる。これらのハードウェアビデオアクセラレータは、新しいコーデックがインストールされたアクセラレータハードウェアの大規模なベースと互換性がないため、新しいビデオ符号化方法の導入に対する障壁になる。
<<2.39 ソフトウェアの互換性>>
ほとんどのブラウザおよびオペレーティングシステムには、ビデオの再生を可能にするビデオコーデックが含まれる。ビデオを再生するコーデックがないため、ビデオコンテンツはそのコーデックで符号化されず、コーデックを採用する必要性が減るという、卵が先か鶏が先かという状況があり、ソフトウェアは新しいコーデックを採用するのに何年もかかる可能性がある。
<<2.40 既存のビデオコンテンツ>>
ほとんどのビデオコンテンツは、既存のビデオ形式のいずれかですでに符号化されている。コンテンツの所有者は、ビデオの元の高品質バージョンをもっていないか、またはビデオを再符号化するコストを負担したがらない場合がある。動機は別として、彼らは、以前のエンコーダが新しいコーデックによる圧縮を妨げる視覚的なアーチファクトをもたらしたこと、または圧縮率が低い古いコーデックが所望のビットレートを実現するために品質劣化を必要としていたことに気づく可能性がある。
<<2.41 非常に低いビットレートのビデオ>>
低解像度/低品質のビデオの量が増加している。かつては静止画像であったウェブサイト、広告、およびユーザインターフェースの一部が、ビデオコンテンツを表示している。しかしながら、ほとんどのビデオエンコーダは、低ビットレートではパフォーマンスが不十分である。ビットレートが非常に低い場合、多くのエンコーダは画像全体を歪め、許容できない品質になる。
要約すると、上記の従来技術として記載した方法は、制約のない実世界のリアルタイムアプリケーションではまだ大規模に使用されていない。これは、そのような方法による現在の処理能力では、ビデオ圧縮を改善する目的でオブジェクト認識および画像処理の許容できる堅牢性および速度を実現することが難しいためである。本方法では、必要な堅牢性と速度の両方を実現することができる計算について記載する。
<参考文献>
[1] Mishra AK, Aloimonos Y, Cheong LF, Kassim A (2012). Active visual segmentation. IEEE transactions on pattern analysis and machine intelligence, 34(4), 639-653.
[2] Bruce N, Tsotsos J (2006). Saliency based on information maximization. Advances in neural information processing systems, 18, 155.
[3] Ma Y-F, Zhang H-J. Contrast-based image attention analysis by using fuzzy growing. Proceedings of the eleventh ACM international conference on Multimedia - MULTIMEDIA ’03, 2003. doi:10.1145/957092.957094.
[4] L. Itti, C. Koch, & E. Niebur (1998). A Model of Saliency-Based Visual Attention for Rapid Scene Analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence 20(11):1254-1259.
[5] C. Koch & S. Ullman (1985). Shifts in selective visual attention: towards the underlying neural circuitry. Human Neurobiology 4:219-227.
[6] O. Le Meur, P. Le Callet, D. Barba, & D. Thoreau (2006). A coherent computational approach to model bottom-up visual attention. IEEE Transactions on Pattern Analysis and Machine Intelligence. 28(5):802-817.
[7] Sophie Marat, Tien Ho Phuoc, Lionel Granjon, Nathalie Guyader, Denis Pellerin, et al. (2009). Modelling spatio-temporal saliency to predict gaze direction for short videos. International Journal of Computer Vision, Springer Verlag, 2009, 82 (3), pp.231-243.
[8] Bruce, N.D. and Tsotsos, J.K., (2005), May. An attentional framework for stereo vision. In Computer and Robot Vision, 2005. Proceedings. The 2nd Canadian Conference on (pp. 88-95). IEEE.
[9] Mancas, M., Gosselin B., MA CQ B., (2007). A Three-Level Computational Attention Model. Proceedings of ICVS Workshop on Computational Attention & Applications (WCAA-2007).
[10] A Borji, DN Sihite, L Itti (2012) Quantitative Analysis of Human-Model Agreement in Visual Saliency Modeling: A Comparative Study, IEEE Transactions on Image Processing (TIP)
[11] Hou X, Zhang L. Saliency Detection: A Spectral Residual Approach. 2007 IEEE Conference on Computer Vision and Pattern Recognition, 2007. doi:10.1109/cvpr.2007.383267.
[12] Torralba, A (2003). Contextual Priming for Object Detection International Journal of Computer Vision (2003) 53: 169. doi:10.1023/A:1023052124951
[13] L. Itti & P. Baldi (2006). Bayesian Surprise Attracts Human Attention. In: Advances in Neural Information Processing Systems, Vol. 19 (NIPS*2005), Cambridge, MA: MIT Press.
[14] Harel, J., Koch, C. and Perona, P., (2006, December). Graph-based visual saliency. In NIPS (Vol. 1, No. 2, p. 5).
[15] Avraham, T. & Lindenbaum, M., (2010). Esaliency (extended saliency): Meaningful attention using stochastic image modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32, 693- 708
[16] Li, L.J., Su, H., Fei-Fei, L. and Xing, E.P., (2010). Object bank: A high-level image representation for scene classification & semantic feature sparsification. In Advances in neural information processing systems (pp. 1378-1386).
[17] Hamed Rezazadegan Tavakoli, Esa Rahtu , Janne Heikkila (2011), Fast and efficient saliency detection using sparse sampling and kernel density estimation, Proceedings of the 17th Scandinavian conference on Image analysis, May 01, 2011, Ystad, Sweden
[18] D. Gao and N. Vasconcelos, (2004) Discriminant Saliency for Visual Recognition from Cluttered Scenes, Proceedings of Neural Information Processing Systems (NIPS), Vancouver, Canada, 2004.
[19] Hou, X. and Zhang, L., (2007), June. Saliency detection: A spectral residual approach. In Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on (pp. 1-8). IEEE
[20] Kienzle, W., Wichmann, F.A., Scholkopf, B. and Franz, M.O., (2007). A nonparametric approach to bottom-up visual saliency. Advances in neural information processing systems, 19, p.689.
[21] Peters, R.J. and Itti, L., (2007), June. Beyond bottom-up: Incorporating task-dependent influences into a computational model of spatial attention. In Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on (pp. 1-8). IEEE.
[22] Judd, T., Ehinger, K., Durand, F. and Torralba, A., (2009), September. Learning to predict where humans look. In Computer Vision, 2009 IEEE 12th international conference on (pp. 2106-2113). IEEE.
[23] Cerf, M., Frady, E.P. and Koch, C., (2008), March. Using semantic content as cues for better scanpath prediction. In Proceedings of the 2008 symposium on Eye tracking research & applications (pp. 143-46). ACM.
[24] Seo, H.J. and Milanfar, P., (2009). Static and space-time visual saliency detection by self-resemblance. Journal of vision, 9(12), pp.15-15.
[25] Garcia-Diaz, A., Fdez-Vidal, X.R., Pardo, X.M. and Dosil, R., (2009), September. Decorrelation and distinctiveness provide with human-like saliency. In International Conference on Advanced Concepts for Intelligent Vision Systems (pp. 343-354). Springer Berlin Heidelberg.
[26] Kootstra, G., Nederveen, A. and De Boer, B., (2008). Paying attention to symmetry. In British Machine Vision Conference (BMVC2008) (pp. 1115-1125). The British Machine Vision Association and Society for Pattern Recognition
[27] Goferman, S. and Zelnik, L., (2010), June. L. manor, and A. Tal. Context-aware saliency detection. In CVPR (Vol. 1, No. 2, p. 3).
[28] Wolfe, J.M., (1994). Visual search in continuous, naturalistic stimuli. Vision research, 34(9), pp.1187-1195.
[29] Kahneman, D., Treisman, A. and Gibbs, B.J., 1992. The reviewing of object files: Object-specific integration of information. Cognitive psychology, 24(2), pp.175-219
[30] Mahadevan, V., Li, W., Bhalodia, V. and Vasconcelos, N., (2010), June. Anomaly detection in crowded scenes. In Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on (pp. 1975-1981). IEEE
[31] Muddamsetty, S.M., Sidibe, D., Tremeau, A. and Meriaudeau, F., (2014), August. Spatio-Temporal Saliency Detection in Dynamic Scenes using Local Binary Patterns. In Pattern Recognition (ICPR), 2014 22nd International Conference on (pp. 2353-2358). IEEE.
[32] Bian, P. and Zhang, L., 2008, November. Biological plausibility of spectral domain approach for spatiotemporal visual saliency. In International conference on neural information processing (pp. 251-258). Springer Berlin Heidelberg.
[33] Guo, C. and Zhang, L., 2010. A novel multiresolution spatiotemporal saliency detection model and its applications in image and video compression. IEEE transactions on image processing, 19(1), pp.185-198.
[34] Li, Z., Qin, S. and Itti, L., 2011. Visual attention guided bit allocation in video compression. Image and Vision Computing, 29(1), pp.1-14.
[35] Hou, X. and Zhang, L., 2007, June. Saliency detection: A spectral residual approach. In Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on (pp. 1-8). IEEE.
[36] Schauerte, B. and Stiefelhagen, R., 2012. Quaternion-based spectral saliency detection for eye fixation prediction. In Computer Vision- ECCV 2012 (pp. 116-129). Springer Berlin Heidelberg.
[37] Li, J., Levine, M.D., An, X., Xu, X. and He, H., 2013. Visual saliency based on scale-space analysis in the frequency domain. IEEE transactions on pattern analysis and machine intelligence, 35(4), pp.996-1010.
[38] Li, J., Duan, L.Y., Chen, X., Huang, T. and Tian, Y., 2015. Finding the secret of image saliency in the frequency domain. IEEE transactions on pattern analysis and machine intelligence, 37(12), pp.2428-2440.
[39] Guo, C., Ma, Q. and Zhang, L., 2008, June. Spatio-temporal saliency detection using phase spectrum of quaternion Fourier transform. In Computer vision and pattern recognition, 2008. cvpr 2008. ieee conference on (pp. 1-8). IEEE.
[40] Guo, C. and Zhang, L., 2010. A novel multiresolution spatiotemporal saliency detection model and its applications in image and video compression. IEEE transactions on image processing, 19(1), pp.185-198.
[41] Li, C., Xue, J., Zheng, N., Lan, X. and Tian, Z., 2013. Spatio-temporal saliency perception via hypercomplex frequency spectral contrast. Sensors, 13(3), pp.3409-3431.
[42] Caviedes, J.E. and Ali, W.S.I., 2005, September. Closed-loop video processing for objective quality optimization. In Signal Processing Conference, 2005 13th European (pp. 1-4). IEEE.
上記ビデオ圧縮のための方法は、周波数領域内でカーネルが使用される場合に適用することができる。画像データを周波数領域に変換せずに、空間領域内のピクセル情報の分析に基づく方法には適用することができない。本方法は、ビデオストリームを圧縮するために、圧縮する画像内のオブジェクトを検出する必要がある場合、またはデバイスもしくはネットワーク接続デバイス上でリアルタイムにビデオストリーム内の画像から視覚的顕著性のマップを作製する必要がある場合に特に適用することができる。
一般に、本発明の方法は、周波数領域内で抽出された特徴を使用してオブジェクトまたは視覚的顕著性が検出されるプロセスを有する。これらの特徴は、元の画像を周波数領域に変換し、この変換された画像情報に周波数領域内の1つまたは複数のカーネルを乗算することで取得される。
このプロセスでは、いくつかの特徴が選択されてから、カーネルおよび特徴レイアウトなどのパラメータが最適化されるオフライン学習フェーズにおいて、最適なパラメータ設定が選択される。そのため、特徴のセットは、一般的なオブジェクトまたは視覚的に顕著なオブジェクトのための周波数領域内のモデルを示す。
以下では、「分類子」および「オブジェクト」という記述がしばしば使用される。これは、「分類子および/または視覚的顕著性」を意味する。視覚的顕著性モデルは、分類子よりも高レベルでより一般的なモデルであることは明らかである。例えば、分類子は、顔のようなオブジェクトを認識するように訓練される場合がある。視覚的顕著性モデルの場合、顔は対象オブジェクトのうちの1つにすぎない。本分野の専門家には、分類子および視覚的顕著性モデルを作製する際に本方法の開示が同様に適用されることが明らかであろう。したがって、本開示では、「分類子」および「オブジェクト」という用語は、ビデオ圧縮に使用される視覚的顕著性モデルを十分に説明するために使用される。
より詳細には、周波数領域内の特徴を抽出して使用するための方法は、
・ 空間領域内のデータを介して定義されたデジタル画像を取得するステップと、
・ L変換の2次元バリエーションを使用して、画像データの全周波数領域データの疎部分を周波数領域に転送するステップと、
・ 変換された周波数領域に、周波数領域の一部をカバーする1つまたは複数の疎ゾーンと、疎ゾーンと少なくとも部分的に重複する1つまたは複数のフィルタリングカーネルとを適用するステップと、
・ 各疎ゾーン内の変換された周波数データとカーネルとの間で乗算を実行し、結果を、それぞれ対応する抽出された特徴を示す単一の値に結合するステップと、
・ 抽出された特徴の出力を使用して分類子および/または視覚的顕著性モデルを作製し、ビデオコーデックと組み合わせて使用した場合にビデオ圧縮を変調する手段を取得するステップと、
・ 疎ゾーンおよび/またはカーネルのパラメータを変化させ、所定の精度が達成されるまで乗算および抽出のプロセスを繰り返すステップと、
から構成される。
ビデオコーデックの分野の専門家には、デジタル画像入力として使用できる以下のいくつかの可能性が存在することは明らかである。
・ 画像全体が変換される。
・ 画像のセグメントが変換される。
・ コーデックによって定義された画像の各マクロブロック入力が変換される。
また、添付の特許請求の範囲がデジタル入力のサイズによって変更されないことも明らかである。本方法は、ビデオコーデックのマクロブロックに使用されるサイズのような任意の入力サイズに使用することができる。
上記を考慮して、本発明による画像処理およびビデオ圧縮のための方法は、添付の請求項1に定義される。
追加の利点をもたらす本方法のさらなる詳細は、従属請求項に定義される。
したがって、本方法は、オブジェクト検出および画像処理方法の処理速度を大幅に向上させることができ、同時にその精度を向上させることができる。
上述したように、オブジェクト検出および画像処理技術の速度を向上させることができる新しい方法に対する大きなニーズがある。この速度の向上により、最新世代のモバイルデバイスおよび他の同様のデバイス内のバックグラウンドで動作するのに十分な速度でオブジェクト検出および視覚的顕著性の計算をすることができるようになる。
アルゴリズムは、最新世代のモバイルデバイスでの使用とは別に、ウェアラブルハードウェアなどの将来の傾向を見越して、主なパーソナルコンピュータのオペレーティングシステムおよびモバイルオペレーティングシステムの外部で動作して、プロセッサおよびFPGA(field−programmable gate array)などの再プログラム可能なハードウェアでプログラム可能である必要がある。また、本方法は、アルゴリズムから構成される必要がある。これらのアルゴリズムは、マルチコアおよび強力なグラフィックスプロセッシングユニット(GPU)などのパーソナルコンピュータおよびモバイルデバイスに対する最新のハードウェア開発を活用することができる。
これに関連して、周波数領域内で計算を使用することは、いくつかの理由でより高速な計算の必要性に対処することに役立つ。本方法により、このような並列処理が可能になる。この分野の専門家は、FFTの多くの変形形態がプロセッサ上のプログラミングに適していないことをよく知っている。
フーリエの標準周波数領域理論では、任意の信号、この場合はデジタル画像が、一連の正弦波の合計として表現することができると述べている。画像処理の場合、これらは画像全体の明るさの正弦波の変化を示す。
正弦関数は、
・ 空間周波数、
・ 振幅、および
・ 位相
を符号化することができる。
空間周波数は、明るさが変調する空間全体の周波数である。
正弦曲線の振幅は、コントラスト、または画像の最も暗いピークと最も明るいピークとの差に対応する。位相は、波が原点に対してどのようにシフトされるかを示す。
フーリエ変換は、単一の正弦波だけでなく、ゼロから「ナイキスト周波数」までの空間周波数の範囲にわたって一連の正弦波を符号化する。ナイキスト周波数とは、デジタル画像で符号化できる最高の空間周波数を意味し、解像度またはピクセルの総数に関連する。
フーリエ変換は、画像内に存在するすべての空間周波数を同時に符号化する。
ナイキスト周波数は、離散信号処理システム(この場合はデジタル画像)のサンプリングレートの1/2である。
画像処理に使用されるフーリエ変換の根底にある基本原則は、各ピクセルがすべての周波数に影響を与え、各周波数がすべてのピクセルに影響を与えるということである。
本明細書に記載する方法の根底にある直観的知識は、空間領域内のコントラストの位置が周波数領域内の正弦波によって符号化されるということである。空間領域内の特定のコントラストは、周波数領域内の特定の正弦波のみから影響を受ける。空間領域内のコントラストの組み合わせによって定義される形状の場合、この形状は、周波数領域内の位置情報の一意の組み合わせによって捕捉されることを意味する。また、周波数領域内の位置情報の一意の変化によって動きが捕捉されることも意味する。
したがって、特定のオブジェクトの検出には、周波数領域内の特定の情報の捕捉または情報の変化を使用することができる。
周波数領域内で作業することで、フィルタを用いた乗算や行列を用いた他の同様の計算は単純な成分ごとの乗算であるため計算がより単純になる。これは、2つの関数間の畳み込みであり、計算がより高価になる空間領域内とは異なる。
したがって、周波数領域を使用すると、周波数領域情報の小さな疎部分を計算的に簡単に使用してオブジェクト検出することができる。
疎ゾーンおよび周波数領域内のフィルタとして動作するカーネルについては、以下で詳述する。
周波数領域の計算後に画像を空間領域に変換し直す計算を必要とせずに、周波数領域内で全体的に動作することで、周波数領域への変換を実行する数学を選択する際に柔軟性を加えることができるようになる。
本方法のさらなる特徴および利点は、添付の図面を参照してなされる好適な実施形態に関する以下の説明からより明らかになるであろう。
従来技術によるビデオ圧縮方法を示す図である(上記参照)。 従来技術によるビデオ圧縮方法を示す図である(上記参照)。 従来技術によるビデオ圧縮方法を示す図である(上記参照)。 従来技術によるビデオ圧縮方法を示す図である(上記参照)。 従来技術によるビデオ圧縮方法を示す図である(上記参照)。 従来技術によるビデオ圧縮方法を示す図である(上記参照)。 従来技術によるビデオ圧縮方法を示す図である(上記参照)。 従来技術によるビデオ圧縮方法を示す図である(上記参照)。 従来技術によるビデオ圧縮方法を示す図である(上記参照)。 従来技術によるビデオ圧縮方法を示す図である(上記参照)。 従来技術によるビデオ圧縮方法を示す図である(上記参照)。 従来技術によるビデオ圧縮方法を示す図である(上記参照)。 従来技術によるビデオ圧縮方法を示す図である(上記参照)。 従来技術によるビデオ圧縮方法を示す図である(上記参照)。 従来技術によるビデオ圧縮方法を示す図である(上記参照)。 従来技術によるビデオ圧縮方法を示す図である(上記参照)。 従来技術によるビデオ圧縮方法を示す図である(上記参照)。 画像の空間領域において、インデックスが位置を示し、画像内の周波数がピクセル強度の正弦波変化を示し、周波数領域内ではその逆が当てはまることを示す図である。 所与のオブジェクトの空間領域内の動き情報が、周波数領域内の位置をコード化する波の変化によってどのように捕捉されるかを示す図である。 周波数領域内で、画像内のオブジェクトを分類するのに十分な位置情報および形状情報を捕捉するために、多数の波がどのように必要かを示す図である。 周波数領域内の正弦波情報を捕捉するために、周波数領域情報の疎部分のみがどのように必要かを示す図である。 Goertzelアルゴリズムの完全な2次元形態が、実際、多くの1次元Goertzel計算の組み合わせであることを示す図である。 Goertzelアルゴリズムの完全な2次元形態が、実際、多くの1次元Goertzel計算の組み合わせであることを示す図である。 完全な2次元形態が計算上理想的でないことを示す図である。 理想的でない場合でも、完全な2次元形態を高速化する方法を示す図である。 インデックスの行と列のための1次元出力を個別に計算し、これを単一の値に結合することで、インデックスの結果が取得される場合の効率を示す図である。 計算を高速化する方法を示す図であり、周波数領域への変換用の入力セルが、値が必要とするインデックスの位置の周りでのみ取得されることを示す。 ゾーンへの入力が、入力として行および列だけに限定されないことを示す図であり、任意の自由な形状であり得ることを示す。 各ゾーンが、任意の自由な形状であり得る2つの入力をどのように有するかを示す図である。 2つのゾーンが特徴を形成する方法を示す図であり、正規化により、特徴が2つのゾーン間の情報シフトを示す複素ベクトルになることを示す。 各インデックスが目標周波数、変換用の基礎となる伝達関数、ならびに周波数領域変換用の入力の方向およびシーケンスを定義する特定の特徴形状をどのように有するかを示す図である。 入力の各インデックスを順次移動させることで、周波数領域変換用の入力の形状を最適化する方法を示す図である。 入力画像が正方形および長方形に限定されずに任意の形状であり得ることを示す図である。 ビデオストリーム内のフレームシーケンスにおいて、ゾーンおよび特徴がデータを相互参照する方法を示す図である。 各インデックスの周波数領域変換のシーケンスを定義する形状が単一のフレームに限定されず、ビデオストリーム内の複数のフレームを相互参照できることを示す図である。 モデルの周波数領域変換を生成するために使用されるフレームシーケンスの選択において本方法が許容する自由度を示す図であり、コンテンツの検出に真の時間データが使用されることを示す。 周波数領域内の最適化が、ノイズの非常に大きな多次元領域内の明確な信号であるという非常に大きな利点を示す図であり、教師あり学習だけでなく教師なし学習のタイプのロジックも可能であること示す。 本明細書に記載する方法が提供する可能な最適化ロジックの一例を示すフロー図である。
以下、本発明による方法の一実施形態を、添付図面を参照して詳述する。
本明細書において、ビデオストリームに関する説明は、特定のレートを有する一連の連続画像フレームにも適用されることは明らかである。これらは、ビデオストリームのフレームに相当し、単一画像は単一フレームに相当する。
最初のステップでは、入力画像全体に対して検索ロジックを使用して、本方法の計算のための入力フレームを生成することができる。検索ロジックは、例えば、画像全体または画像のサブセットにすることができる。多くのタイプの検索ロジックが可能であることは明らかである。しかしながら、本明細書に記載する方法の観点から、計算または要求は変更されず、変換用の画像入力のみが変更される。また、特許請求の範囲に記載するように処理される複数の計算に対して、単一フレームが複数の入力をもつことができることも明らかである。
次いで、フレームまたはフレームシーケンスから取得された1つまたは複数の入力が、周波数領域内で抽出される。次いで、フレームの周波数領域データ内のデータが処理されて、コンテンツが検出される。本明細書に記載する方法では、使用する分類がオープンのままであるが、代わりにこの方法で強調されることは、選択の分類に使用されるデータの品質およびタイプの改善である。
上述したように、本明細書に記載する方法は、ビデオストリームの時間データ内に特にまたはさらに排他的に存在するオブジェクトの検出およびプロセスにおいて、特に効果的である。本明細書では、検出のために複数のフレームを単一入力に結合する方法を説明する。
オブジェクトが検出されるか、または検索ロジックの繰り返しが画像内のオブジェクトの検出に失敗すると、検出は、ビデオストリーム内の次のフレームまたはフレームシーケンスに移る。前のフレームで見つかったオブジェクトに基づいて、検索ロジックを適応型にすることができることは明らかである。
既知の技術では、周波数領域内の画像の処理は、一般に高速フーリエ変換(FFT)の変形形態を使用して行われるが、本方法は、FFTまたはその変形形態、例えば、離散コサイン変換(DCT)、および離散フーリエ変換(DFT)を使用しない。
しかしながら、従来の画像処理と本方法との違いを強調するために、FFTおよびDFTの一般的な概要をここに示す。
FFTは、画像分析、画像復元および画像圧縮、ならびにテキスト認識を含む幅広いアプリケーションで使用される。
FFTの主要原理は、離散フーリエ変換(DFT)から得られる。DFTは、非常に多くの計算を必要とするため、プロセスを高速化する他のタイプの変換も存在する。これらの中で、高速フーリエ変換(FFT)が最も確立されている。DFTでは、入力行列の長さをNとすると、計算の数はNと相関がある。
FFTアルゴリズムは、標準DFTが多くの冗長計算を含むという事実に依存している。
FFTは、サンプルシーケンスをサブシーケンスに分割することで計算される。各ステージにおいて、前のステージの結果を結合するために、N/2の複素乗算が必要である。
log(N)ステージが存在するため、FFTでN点のDFTを評価するために必要な複素乗算の数は、おおよそN*log(N)である。
周波数の数は、空間領域画像内のピクセル数に対応する。すなわち、空間領域と周波数領域内の画像は同じサイズを有する。
上述したように、FFTには多くの変形形態が存在する。また、FFTの画像処理には限界がある。例えば、FFT用の入力で使用される画像の辺は、2の累乗であるピクセル単位の長さを有する必要がある。
さらなる制限は、特定の周波数についての結果を得る前に、FFT全体が計算される必要があることである。言い換えれば、単一の周波数の値を取得する前に、FFT全体を計算する必要があるため、FFTを疎計算用に変換することはできない。また、FFTの複雑な構造により、再プログラム可能なハードウェアおよびマルチコアプロセッサ上でのコーディング実装が容易にならない。さらに、単一の結果を取得するためにFFT全体を最初に計算する必要があるため、デバイス上のメモリをより多く使用する必要がある。
切り詰められた高速フーリエ変換などの方法が提供される場合がある。しかしながら、再プログラム可能なハードウェアにこれを実装することは依然として困難であり、また、速度およびメモリ使用を比較的小さくするために、大量の複雑なコードが必要である。
空間領域における値は、通常0〜255の範囲のピクセルの光強度である。同じ画像のフーリエ領域値は、空間領域内の画像よりもはるかに広い範囲をもっている。
フーリエ変換は、実数部と虚数部、または振幅と位相のいずれかを有する2つの画像で表示できる複素数値の出力画像を生成する。画像処理では、空間領域画像の幾何学的構造の情報のほとんどが含まれるため、フーリエ変換の振幅のみが表示されることが多い。しかしながら、周波数領域内で何らかの処理を行った後に、フーリエ画像を正しい空間領域に再変換するために、フーリエ画像の振幅と位相の両方を保持する必要がある。
本開示による方法では、すべての計算が周波数領域内の情報のみを使用することができる。
空間領域に戻るためにすべての情報を保持する必要がないため、次のいくつかの利点がある。
第1に、周波数領域から空間領域に戻る余分なステップがないため、計算全体が高速化される。
第2に、周波数領域データを変換して正しい空間領域画像に戻す必要がないため、より小さな疎ゾーンを使用することができる。これは、画像の品質および情報を大きく失うことなく、画像データを変換して空間領域に戻すことができる周波数領域データが必要ないためである。周波数領域内の疎ゾーン自体には、空間画像を再作製するのに十分な周波数領域情報が含まれているとは限らない。しかしながら、分類には十分な情報が含まれている。
第3に、FFTおよび他の計算でも一般的なエイリアシングを除去するための計算を実行して、周波数領域内の分類のためにデータをより適切に準備することができる。
第4に、FFTおよびDCTのような方法に存在する他の制限が解除される。例えば、FFTおよびDCT用の周波数変換は、画像の行および列に沿って、常に単一のフレーム内で実行される。本方法では、周波数領域変換の方向は、伝達関数の自由度は高く、且つビデオシーケンスのフレーム間での変換を含む任意の順列である。
図18では、画像の空間領域において、インデックスが位置を示し、画像内の周波数がピクセル強度の正弦波変化を示す。周波数領域内ではその逆が当てはまり、インデックスが周波数を示し、正弦波が位置データを含む。
同様に、所与のオブジェクト用の空間領域内の移動情報は、周波数領域内の位置をコード化する波の変化によって捕捉される。これは、図19の目の動きの画像で概略的に示されている。
言うまでもなく、上述した例は、概念を説明するために簡略化されている。実際には、空間領域では、画像を描画するためにピクセル強度の変化を捕捉する多くの周波数が必要である。同様に、周波数領域では、画像内のオブジェクトを分類するのに十分な位置情報および形状情報を捕捉するために多くの波が必要である。これを図20に示す。
上述したように、周波数領域内の各インデックスは、空間領域内のすべてのピクセルに潜在的に影響を与える。したがって、空間領域から抽出された特徴を用いてオブジェクトを分類する場合と比較して、オブジェクトを分類するために周波数領域で必要な特徴は少ない。本明細書に記載するオブジェクト検出方法では、空間領域内の特定のタイプの形状を捕捉する周波数領域内の情報の最小限の部分的な結合を見つけるための技術が開示されている。この情報の結合は、ビデオストリーム内のフレームシーケンスでもあり、シーケンスの各静止画像を単独で検討する場合には見られない時間的および動的な情報を捕捉することを目的としている。
ここおよび以下の説明では、疎ゾーンとは、周波数領域の一部をカバーする情報の選択を意味する。各ゾーンは、特定の周波数領域情報と見なされる。図21は、周波数領域内の疎らな特徴のレイアウトの一例を示している。ゾーンのペアから各特徴がどのように作製されるかに留意されたい。周波数領域グリッドのサイズは、説明のみを目的としており、後述するように、他の多くのサイズにすることができる。図21は、空間領域内の位置および動きを捕捉することができる周波数領域の正弦波コントラストの一例を重ねて示している。図21は、疎ゾーンの動作である空間領域内の動きまたは形状のタイプを検出するために、周波数領域の正弦コントラストの一部のみを捕捉する必要があることを示している。
疎ゾーンは、局所的な解像度を高めるために、部分的に互いに重なり合ってまたは横に並んで配置され、グループ化されている場合がある。
疎ゾーンから導出された周波数値に対する計算は、疎計算として示される。
画像を変換して空間領域に戻す必要はなく、すべての周波数領域情報が必要というわけではないため、DFTまたはFFT以外の方法を使用して画像を空間領域に変換することができるようになる。
本方法によれば、それぞれが単一フレームの少なくとも一部、またはフレームシーケンスの少なくとも2フレームをカバーする、疎ゾーンのペアが1つまたは複数選択される。
上述したように、疎ゾーンの各ペアは特徴を生成し、各疎ゾーンは空間データの2つのシーケンスによって定義される。
次いで、本方法によれば、疎ゾーンごとに、L変換の2次元バリエーションを介して空間データの2つのシーケンスを結合することで、選択された特徴が周波数領域データに変換される。L変換では、伝達関数ならびにゾーンごとの周波数領域データの形状および方向が変化して、各特徴に対して正規化された複素ベクトルが生成される。
したがって、変換は、対象周波数、変換で使用される伝達関数、ならびに変換用の入力を定義するループの形状および方向に関して、かなりの設計自由度をもつGoertzelアルゴリズムから導出された2次元変換などの方法を使用して実行することができる。本開示でさらに説明するように、使用される方法はGoertzelアルゴリズムとは非常に異なるため、以下の説明は、L変換の2次元バリエーションであるということである。
上述したように、本方法の利点は、メモリ量の使用を最小限に抑えながら、再プログラム可能なプロセッサまたはGPU上で使用するためのより柔軟な方法で、疎らに並行して設定することができることである。以下では、最初にGoertzel変換の根底にある理論を記載する。その後、画像処理の2次元ケースの拡張機能、および使用可能な様々な設計オプションを有する本方法の実装形態を詳述する。
単一の正弦波トーンの検出および測定においてスペクトル分析を実行する必要がある場合、無限インパルス応答(IIR)フィルタ構造が使用される。
スペクトルエネルギーの標準的な方法は、離散フーリエ変換(DFT)であり、通常、高速フーリエ変換(FFT)アルゴリズムまたは離散コサイン変換(DCT)アルゴリズムを使用して実装される。
しかしながら、N点のDFTにおけるNビンの中心周波数のサブセットに対してのみスペクトル分析を必要とするアプリケーションが存在する。1次元でスパースFFTの結果を計算するための一般的且つ効率的な技術は、IIRフィルタ実装形態を使用してN個の入力時間サンプルに基づいて単一の複素DFTスペクトルビン値を計算するGoertzelアルゴリズムである。
このプロセスの最も一般的な用途は、単一の連続正弦波トーンの存在を検出することである。Goertzelアルゴリズムは1次元計算であり、画像が2次元である画像処理に使用することはできない。
Goertzelアルゴリズムは、長さNの信号
のk成分を計算するという考えに基づいている。
式(1)の右側に
を掛けると、次のようになる。
これは、次のように書くことができる。
式(3)の右側は、信号
および
の離散線形畳み込みとして見なされる。ここでは、
を意味する。
実際、
がその畳み込みの結果を示すとすると、次のようになる。
これは、次のように書くことができる。
畳み込みは、1つの関数が反転およびシフトされた後の2つの関数の積の積分として定義される。そのため、これは特定の種類の積分変換である。
畳み込み定理は、畳み込みのフーリエ変換が適切な条件下においてフーリエ変換の点ごとの積であると述べている。言い換えれば、1つの領域(例えば、時間領域)内での畳み込みは、他の領域(例えば、周波数領域)内での点ごとの乗算に等しい。
式(3)と式(5)を比較すると、所望の
が畳み込みのN番目のサンプルであることは明らかである。
ここで、
である。これは、インパルス応答
を伴うIIR線形システムの時間Nにおける出力サンプルとして必要な値を取得できることを意味する。
このシステムの伝達関数
が導出される。これは、インパルス応答のL変換である。
幾何級数は収束的であり、その合計は伝達関数に等しい。
これにより、以下の差分方程式が得られる。
式(12)には、複素数による乗算が含まれる。各複素乗算の結果は、4つの実数乗算および4つの実数加算になる。
複素乗算を回避するために、関数に複素共役極を乗算し、以下のように簡略化することができる。
この2次のIIRの差分方程式は、以下の通りである。
このような構造は、状態変数を使用して以下のように記述することができる。
そして、
を設定する。
実際、Goertzelアルゴリズムは、単一の1次元DFT係数の計算を実行する。これはDFTと比較していくつかの利点があるため、1次元アプリケーションで使用される場合がある。
Goertzelアルゴリズムは、スペクトル全体ではなく、いくつかのスペクトル成分の値のみが必要な状況で有利である。一例として、特定のオーディオパルスをもつボタンの押下の認識技術がある。このような場合、アルゴリズムは大幅に高速化することができる。
DFT成分の計算にFFTアルゴリズムを使用する効率は、信号長Nによって強く決定される(Nは2のべき乗である必要がある)。対照的に、Goertzelアルゴリズムの場合、Nは任意であるが、計算の複雑さは変わらない。
計算は、任意の時点で開始することができ、FFTの場合のようにデータブロック全体を待つ必要がない。したがって、Goertzelアルゴリズムは、メモリ容量の観点から要求が少なく、非常に低い待ち時間で実行することができる。したがって、Goertzelアルゴリズムは、ビット逆順で入力データまたは出力データを並べ替える必要がない。
<1次元Goertzelアルゴリズム>
1次元Goertzel用のアルゴリズムは、ごく基本的な構造をもつ。これは、式(17)から始めることができる。
すべてのサンプルでいくつかの中間処理が行われる。FFTと同様に、サンプルのブロックを処理する。
1次元Goertzelの計算を初期化するために、いくつかの設定が必要である。
1. サンプリングレート
2. ブロックサイズN
3. 目標周波数
サンプリングレートおよびブロックサイズが選択されると、必要な定数を計算する5段階のプロセスが存在する。
以下、定数k、w、cosine、sine、coeffを定義する。
サンプルごとの処理では、S0、S1およびS2の3つの変数が使用される。S1は、最後の反復においてS0の値である。S2は、2反復ステップ前(すなわち、S1の1反復前)のS0の値である。S1およびS2は、サンプルの各ブロックの開始時にゼロに初期化する必要がある。
行列[n×m]のすべての列(行)について、以下の3つの式が計算される。
これは、1次元Goertzelアルゴリズムの基本バージョンである。上述したように、1次元DFTと同じ結果が得られる。
1次元Goertzelの別のバージョンを使用することもできる。このバージョンでは、位相情報を犠牲にするが、基本バージョンよりも計算量が少なくなる。これは、変換の実数部と虚数部の両方を計算しないことを意味する。実数部と虚数部の両方を計算することが好ましいこと、およびより高速なオプションは、プロセッサのオーバーヘッドが非常に厳密に制限されている場合のみに使用できることは明らかである。
高速バージョンでは、サンプルごとの処理は同じであるが、ブロック処理の終わりは異なる。実数成分と虚数成分を計算し、それらを相対振幅の2乗に変換する代わりに、実数成分と虚数成分も計算される基本バージョンのステップを使用せずに、以下が直接計算される。
<L変換のバージョンの2次元形態>
Goertzelアルゴリズムのこの共通バージョンは、1次元計算用に定義されることに留意されたい。計算の画像処理では、画像を周波数領域に変換するための計算をXとYの2つの次元で行う必要があるため、これは十分ではない。また、Goertzelの1次元形態は、1次元DFTと同等であるが、2次元の場合は同様にならない。そのため、Goertzelアルゴリズムは、オブジェクト検出および画像処理の候補であるように見えない。Goertzelアルゴリズムに対する別の制限は、特定の信号に対して調整および最適化する能力があまりないことである。
しかしながら、本開示は、2次元形態で画像を周波数領域に変換する方法を説明する。この説明は、1次元Goertzelアルゴリズムの原理から始まるが、2次元におけるまったく新しい方法と呼ぶことができる程度に変更される。ここでは、L変換の2次元バリエーションとして記載する。また、本方法の計算は、周波数領域内全体で実施されるため、空間領域に戻る必要がなく、2次元計算が2次元DFTと同等である必要がない。
図22および図23は、Goertzelアルゴリズムの完全な2次元形態が、実際、多くの1次元Goertzel計算の組み合わせであることを示す図である。
図22の行に対して様々な1次元計算を最初に実行し、図23に示すように、2番目のステップでこれらの結果を使用して、列に対してすべての1次元Goertzel計算を実行するオプションがある。あるいは、最初に列を計算してから行を計算することもできる。
本明細書に記載する方法では、上記のような実装形態を使用することができる場合がある。しかしながら、これはいくつかの理由で好ましい方法とはいえない。
第1に、行の計算は、列の計算が完了するまで待つ必要があり、逆の場合も同様である。これは、並列処理が可能でないことを意味する。
第2に、計算は依然として真に疎らではない。図24は、これを示している。図では、インデックス(i,j)内の周波数領域値が必要とする2次元形態において必要な計算が示されている。図24では、最初に行が計算され、次いで列が計算されるオプションが示されている。1次元計算では、最初にインデックスiで行ごとの値が計算される。この後、列の1次元計算が実行され、インデックスjでの値を取得することができる。計算上、これが理想的でないことは明らかである。周波数領域変換の分野の専門家にとっても、Goertzelの2次元形態が、空間領域に戻って元の画像を再作製できないような方法でデータを変更することは明らかである。しかしながら、上述したように、この方法は、周波数領域の日付のみを使用してデータの分類を記述する。したがって、本明細書に記載する方法の駆動体は、駆動体が空間領域データである代わりに、分類子に最適な入力を生成する可能な限り高速な計算を実行する。
次に、本開示では、速度と検出の両方の観点から、分類子用のデータを最適化するための一連のオプションを説明する。特に、ビデオストリーム内の時間データがどのように最適に捕捉されるかを説明する。
これらは、とりわけ以下の通りである。
・ それぞれ2つのゾーンを使用する多数の特徴を使用する。
・ 特徴およびゾーンによってカバーされるビデオストリームのシーケンス内のフレーム数を選択する。
・ ゾーンごとに異なる目標周波数を選択する。
・ ゾーンごとに2つの入力を有し、それぞれが周波数領域変換である。
・ 変換の実数部と虚数部の両方に対して最適化することができる、入力ごとの可変コアフィルタを有する。
・ 各インデックスの周波数領域変換を定義するループ用の入力の可変のシーケンスおよび形状を有する。
・ 特徴の各ペアを使用して、特徴ごとに正規化された複素ベクトルを生成する。
・ 最後に、すべての正規化された複素ベクトルを単一形式に結合する。
計算は、図24の例よりも疎らに行うことができる。図25に示す一方法では、周波数領域への変換用の入力セルは、値が必要なインデックスの位置の周りでのみ取得される。ただし、これには行が列の結果を待つ必要があり、逆も同様である。この利点は、セルの量の長さが入力パラメータになり、特徴間のより多くの差別化が可能になること、また、分類されるオブジェクトの詳細を捕捉することができることである。
より効果的な計算が図26に示されている。ここでは、インデックスでの行と列用の1次元出力を個別に計算し、次いでこれを単一の値に結合することで、インデックスの結果が取得される。速度の増加とは別に、この方式の最大の利点は、行の1次元または列の1次元が最初に計算された場合でも違いがないため、行と列の値を並行して計算できることである。図27に示すように、入力の長さを制限することで、さらに大きな速度増加を実現することができる。この場合、計算する必要があるのは、単一の行と列の入力のみである。
図28に示すように、所与のゾーンインデックスで結果を得るために続く2つの入力が行と列または隣接するセルに沿う必要がないと考えると、周波数領域の入力データで分類子を訓練する自由度はさらに大きくなる。
以下の説明では、図をより概略的に示すために、ゾーンごとに単一の入力を示す場合がある。ただし、図29に示すように、ゾーンごとに2つの入力があることに留意されたい。
入力ごとに周波数領域変換が行われ、実数および虚数が与えられる。上述したように、各ゾーンは2つの入力を有する。以下では、それらを単一の正規化された複素数値に結合する方法について説明する。これは、図30にも示されている。
最初に、ゾーン1の2つの実数入力が結合される。
ゾーン1の2つの虚数入力が結合されて、位相が与えられる。
ゾーン2の2つの実数入力と虚数入力に対して同じプロセスが繰り返される。
次に、ゾーン1とゾーン2の実数値用の結果が正規化で結合される。
これは、ゾーン1およびゾーン2の虚数値に対しても行われる。
このようにして、1つの特徴を形成するゾーンの各ペアは、図30に示すように、正規化された複素ベクトルを提供する。
このような正規化された複素ベクトルを多数使用して、モデルを構築することができる。
多数の正規化された複素ベクトルのこの形式は、分類子の新しいタイプの入力としてここに記載する方法が提供する入力であるで。この形式により、確率論および量子物理学のすべての数学を分類に適用できることは、当業者には明らかである。
インデックス内の値を取得するために必要な周波数領域計算の数は、分類子への入力として空間領域内のピクセルをもつ場合と比較して、本明細書に記載する方法では大幅に削減されている。この方法で得られた値は、周波数領域内の形状情報と依然として強く相関する。ただし、エイリアシングおよび周期的な信号などによる影響を減らすために、多くの制御も可能になる。重要な目的の1つは、各インデックス内で一意の結果を得ることなので、これらの影響の低減は重要である。この方法では、空間領域内で画像を再構築するためにすべてのデータをもつ必要がないことに留意されたい。その目標は、検出されているオブジェクトの位置および動きを疎らに符号化する周波数領域情報を捕捉することである。
作製された周波数領域空間が、空間領域内でピクセル入力を直接使用する場合と比較して、分類子が処理する必要があるパラメータの量を非常に大幅に削減することは明らかである。この利点は、本明細書に記載する方法を使用してビデオストリーム内のフレームシーケンスでのみ検出できる時間情報を捕捉する場合に、指数関数的に増幅される。
説明を、各インデックスに沿った1次元計算に戻す。ここでは、行または列に沿っている必要がなく自由であるため、以下のように書き換えることができる。
本方法では、周波数領域変換の実数部と虚数部の両方に対して、パラメータaおよびbを使用して、伝達関数が調整可能になっていることがわかる。
これらのデジタル転送機能オプションは、ゾーンの入力ごとに個別に選択することができることに留意されたい。これは、最初の入力と2番目の入力とが異なる離散デジタル伝達関数設定をもつことができることを意味する。
上述したように、本方法の利点の1つは、分類子用の入力として使用する前にクリーンアップする周波数領域データを調整する際の自由度が高いことについて記載した多くのオプションが提供されることである。
これは、図31に示されている。入力ごとに目標周波数、コアループで使用される入力の方向およびシーケンス、ならびにコアループ内で使用される基礎となる伝達関数を自由に選択できることがわかる。
図32は、最適化フェーズでコア内部ループ用の入力の方向およびシーケンスを調整する方法を示している。
この時点で、本方法における計算が、L変換(式7)を使用してGoertzelアルゴリズムを作製する理論とは非常に異なることが明らかである。また、L変換に繋がるZ変換とも実質的に異なる。説明のために、本方法で使用される変換をL変換の2次元バリエーションと呼ぶ。
本方法では、特徴を含むインデックス内の周波数領域値のみを計算する必要があることは、当業者には明らかであろう。FFTを使用する場合、FFTは疎計算することができないため、周波数領域内のすべての値を計算する必要がある。また、本方法は、FFTのような画像入力サイズの制限がないことにも再び留意されたい。実際、図33に示すように、正方形または長方形の入力画像サイズをもつことの制限さえない。
次に、ビデオフレームシーケンスから時間情報を抽出する方法の適用について説明する。
図34は、特徴を形成するゾーンの各ペアが必ずしもビデオシーケンスの同じフレーム内にある必要がないことを示している。一方、図35は、コア内部ループの各入力の方向およびシーケンスが、ビデオフレームシーケンスの単一フレームに限定されない経路を取る方法を示している。ピクセルが空間領域からの入力として直接使用される場合、ビデオシーケンスのフレーム間でピクセルを相互参照するときに解決する置換は、本明細書に記載する方法と比較して、はるかに遅く、はるかに困難であることは専門家には明らかである。
図36は、モデルの周波数領域変換を生成するために使用されるフレームシーケンスの選択において本方法が許容する自由度を示す。これにより、コンテンツの検出に真の時間データを使用することができるようになる。
また、図37では、周波数領域での作業がピクセルの空間領域と比較して大きな利点をもつことがわかる。空間領域では、各ピクセルは0〜255の範囲の入力を有し、ピクセルの良さを判断する可能性はあまりない。一方、周波数領域では、周波数領域内の探索空間は、大部分が大量のノイズから構成されており、信号がはっきりと目立っている。したがって、本明細書に記載する方法は、信号品質を基本とする、より効果的な最適化ロジックを含む可能性がある。これは、潜在的に監視なしで実行することもできる。
図38は、本方法を使用してビデオフレームシーケンス内の時間的影響を検出するモデルを作製する場合に、本明細書に記載する方法に使用することができる訓練に関する上位図である。図38は、シーケンスで使用されるフレームの数がどれほど可変であり、また図31にも示すように、各特徴のインデックスごとに目標周波数が最適化され、基礎となるループのシーケンスが選択され、ループ内で使用される基礎となる伝達関数が最適化されることを示している。これは、各ループの実数部と虚数部の両方に対して行われる。最適化の出力は、多数の正規化された複素ベクトルを有する形式になる。これは、ビデオフレームシーケンス内の時間的影響の検出および分類に特に効果的な入力として使用することができる。ただし、本方法はそのような実装形態に限定されない。

Claims (10)

  1. 画像または画像のデジタルビデオストリームのいずれかに基づいて電子処理ユニットによって実行される、画像処理およびオブジェクト検出を介したビデオ圧縮方法であって、前記画像は、識別されるコンテンツを示す周波数領域信号が強化および分離されるように、および前記画像または前記ビデオストリーム内の前記コンテンツに対する周波数領域ノイズが低減または無視されるように、前記ビデオストリーム内の単一フレームまたはフレームシーケンスによって定義され、前記方法は、
    ・ 前記ビデオストリームの対応する前記単一フレームまたは対応する前記フレームシーケンスのいずれかから、デジタル画像またはデジタル画像シーケンスを取得するステップであって、すべての前記デジタル画像が空間領域内で画定される、デジタル画像またはデジタル画像シーケンスを取得するステップと、
    ・ 疎ゾーンのペアを1つまたは複数選択するステップであって、前記疎ゾーンはそれぞれ前記単一フレームの少なくとも一部または前記フレームシーケンスの少なくとも2フレームをカバーし、前記疎ゾーンの各ペアは選択された特徴を生成し、前記ゾーンはそれぞれ空間データの2つのシーケンスによって定義される、疎ゾーンのペアを1つまたは複数選択するステップと、
    ・ 伝達関数ならびに前記ゾーンごとの周波数領域データの形状および方向を変化させることで前記選択された特徴に対してそれぞれ正規化された複素ベクトルを生成するL変換の2次元バリエーションを介して、前記疎ゾーンごとに前記空間データの2つのシーケンスを結合して、前記選択された特徴を周波数領域データに変換するステップと、
    ・ 前記識別されるコンテンツのモデルが定義されるように、前記正規化された複素ベクトルをすべて結合するステップと、
    ・ 前記ビデオ圧縮に使用するオブジェクト検出または視覚的顕著性のためのデータが取得されるように、前記選択された特徴から前記モデルを分類子に入力するステップと、
    を備える、
    方法。
  2. 前記選択された特徴を周波数領域データに変換するステップは、様々な数の前記フレームおよび/または選択された前記フレームからの空間データを使用する、
    請求項1に記載の方法。
  3. 前記疎ゾーンが識別される入力フレームを生成するために、検索ロジックが入力画像全体に対して使用される、
    請求項1に記載の方法。
  4. 前記疎ゾーンは、局所的な解像度を高めるために、部分的に互いに重なり合ってまたは横に並んで配置され、グループ化される、
    請求項1に記載の方法。
  5. 前記2つの軸に対する計算は、並列に実行される、
    請求項1に記載の方法。
  6. 前記変換ステップにおいて、行に対して1次元Goertzel計算が実行されてから、その結果を使用して、列に対して1次元Goertzel計算が実行される、またはその逆も同様である、
    請求項1に記載の方法。
  7. 前記疎ゾーンのペアごとに、異なる目標周波数が選択される、
    請求項1に記載の方法。
  8. 前記周波数領域に変換するステップのための入力セルは、値を必要とするインデックスの位置の周りでのみ取得される、
    請求項1に記載の方法。
  9. インデックスでの行および列のための1次元出力を個別に計算し、次いでこれを単一の値に結合することで、前記インデックスの結果が取得される、
    請求項1に記載の方法。
  10. 前記伝達関数は、最初の入力と2番目の入力とが異なる離散伝達関数設定を有するように、前記疎ゾーンの入力ごとに個別に選択される、
    請求項1に記載の方法。
JP2019544673A 2017-02-17 2018-02-19 画像処理およびビデオ圧縮方法 Pending JP2020508010A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17156726.6 2017-02-17
EP17156726.6A EP3364342A1 (en) 2017-02-17 2017-02-17 Method for image processing and video compression
PCT/EP2018/054029 WO2018150024A1 (en) 2017-02-17 2018-02-19 Method for image processing and video compression

Publications (1)

Publication Number Publication Date
JP2020508010A true JP2020508010A (ja) 2020-03-12

Family

ID=58094262

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019544673A Pending JP2020508010A (ja) 2017-02-17 2018-02-19 画像処理およびビデオ圧縮方法

Country Status (7)

Country Link
US (1) US10586312B2 (ja)
EP (2) EP3364342A1 (ja)
JP (1) JP2020508010A (ja)
KR (1) KR102535098B1 (ja)
CN (1) CN110300977B (ja)
IL (1) IL268214B (ja)
WO (1) WO2018150024A1 (ja)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10410398B2 (en) * 2015-02-20 2019-09-10 Qualcomm Incorporated Systems and methods for reducing memory bandwidth using low quality tiles
EP3364343A1 (en) 2017-02-17 2018-08-22 Cogisen SRL Method for image processing for object detection
EP3364342A1 (en) 2017-02-17 2018-08-22 Cogisen SRL Method for image processing and video compression
US10579898B2 (en) * 2017-04-16 2020-03-03 Facebook, Inc. Systems and methods for provisioning content using barrel projection representation
US11263470B2 (en) 2017-11-15 2022-03-01 Adobe Inc. Saliency prediction for informational documents
US10664999B2 (en) * 2018-02-15 2020-05-26 Adobe Inc. Saliency prediction for a mobile user interface
US11159798B2 (en) * 2018-08-21 2021-10-26 International Business Machines Corporation Video compression using cognitive semantics object analysis
CN110874547B (zh) * 2018-08-30 2023-09-12 富士通株式会社 从视频中识别对象的方法和设备
US10674152B2 (en) * 2018-09-18 2020-06-02 Google Llc Efficient use of quantization parameters in machine-learning models for video coding
CN109547711A (zh) 2018-11-08 2019-03-29 北京微播视界科技有限公司 视频合成方法、装置、计算机设备及可读存储介质
US10776669B1 (en) * 2019-03-31 2020-09-15 Cortica Ltd. Signature generation and object detection that refer to rare scenes
EP3722998A1 (en) * 2019-04-11 2020-10-14 Teraki GmbH Data analytics on pre-processed signals
CN111279617A (zh) * 2019-04-17 2020-06-12 深圳市大疆创新科技有限公司 数据解压缩的装置与方法
CN110795977B (zh) * 2019-04-29 2020-09-04 当家移动绿色互联网技术集团有限公司 交通信号识别方法、装置、存储介质及电子设备
CN110120020A (zh) * 2019-04-30 2019-08-13 西北工业大学 一种基于多尺度空洞残差注意力网络的sar图像去噪方法
CN110287798B (zh) * 2019-05-27 2023-04-18 魏运 基于特征模块化和上下文融合的矢量网络行人检测方法
CN112243132A (zh) * 2019-07-19 2021-01-19 四川大学 结合非局部先验与注意力机制的压缩视频后处理方法
CN111368629A (zh) * 2019-11-23 2020-07-03 中国科学院长春光学精密机械与物理研究所 一种基于全色遥感图像的舰船识别方法、系统及终端设备
CN112905551B (zh) * 2019-12-04 2022-04-29 阿里巴巴集团控股有限公司 数据压缩方法、装置、电子设备及计算机可读存储介质
CN111010495B (zh) * 2019-12-09 2023-03-14 腾讯科技(深圳)有限公司 一种视频降噪处理方法及装置
CN111178188B (zh) * 2019-12-17 2022-09-20 南京理工大学 基于频域先验的视频显著性目标检测方法
CN111050174A (zh) * 2019-12-27 2020-04-21 清华大学 图像压缩方法、装置及系统
US11823352B2 (en) * 2020-02-13 2023-11-21 Intel Corporation Processing video frames via convolutional neural network using previous frame statistics
EP4111697A4 (en) * 2020-02-27 2024-03-20 SSIMWAVE Inc. REAL-TIME LATENCY MEASUREMENT OF VIDEO STREAMS
US11954819B1 (en) * 2020-02-28 2024-04-09 Unm Rainforest Innovations System and methods for fast and scalable 2D convolutions and cross-correlations for processing image databases and videos on CPUs
CN111400405B (zh) * 2020-03-30 2021-04-02 兰州交通大学 一种基于分布式的监控视频数据并行处理系统及方法
CN111464834B (zh) * 2020-04-07 2023-04-07 腾讯科技(深圳)有限公司 一种视频帧处理方法、装置、计算设备及存储介质
CN113518227B (zh) * 2020-04-09 2023-02-10 于江鸿 数据处理的方法和系统
WO2021203203A1 (en) * 2020-04-10 2021-10-14 Gao Xihe Method and system for video encoding guided by hybrid visual attention analysis
CN111726633B (zh) * 2020-05-11 2021-03-26 河南大学 基于深度学习和显著性感知的压缩视频流再编码方法
DE102020208008A1 (de) * 2020-06-29 2021-12-30 Robert Bosch Gesellschaft mit beschränkter Haftung Bildklassifikation und zugehöriges Training für sicherheitsrelevante Klassifikationsaufgaben
CN112084887A (zh) * 2020-08-19 2020-12-15 北京影谱科技股份有限公司 一种基于注意力机制的自适应视频分类方法及系统
CN112148774B (zh) * 2020-09-29 2023-08-11 华能新能源股份有限公司 一种高分辨率空间多区域气象数据处理系统及方法
CN112200247B (zh) * 2020-10-12 2021-07-02 西安泽塔云科技股份有限公司 基于多维图像映射的图像处理系统及方法
WO2022087826A1 (zh) * 2020-10-27 2022-05-05 深圳市大疆创新科技有限公司 视频处理方法、装置、可移动设备及可读存储介质
CN112699878B (zh) * 2020-12-26 2024-05-28 中国科学院大学 一种注视点指导的显著目标检测方法
US20230171435A1 (en) * 2021-01-20 2023-06-01 Boe Technology Group Co., Ltd. Image encoding, decoding method and device, coder-decoder
CN112819761B (zh) * 2021-01-21 2023-09-01 百度在线网络技术(北京)有限公司 模型训练方法、分数确定方法、装置、设备、介质和产品
CN112837341B (zh) * 2021-01-26 2022-05-03 石家庄铁道大学 自适应时空域行人外观还原方法
CN112949431B (zh) * 2021-02-08 2024-06-25 证通股份有限公司 视频篡改检测方法和系统、存储介质
CN113112527B (zh) * 2021-03-26 2024-01-09 西北工业大学 一种基于h264视频码流的运动小目标检测方法
US11715495B2 (en) * 2021-05-26 2023-08-01 Flawless Holdings Limited Modification of objects in film
US11398255B1 (en) 2021-05-26 2022-07-26 Flawless Holdings Limited Modification of objects in film
CN113379858A (zh) * 2021-05-31 2021-09-10 超级视线科技有限公司 一种基于深度学习的图像压缩方法及装置
KR20240090254A (ko) * 2021-09-29 2024-06-21 엘지전자 주식회사 피쳐 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
DE102021005196B4 (de) 2021-10-13 2023-11-02 Paul Zetzsch Neustrukturierung von digitalem Bildmaterial durch Anpassung an punktbasierte Netzstrukturen
US11962811B2 (en) * 2021-10-19 2024-04-16 Google Llc Saliency based denoising
WO2022104293A1 (en) * 2021-10-26 2022-05-19 Innopeak Technology, Inc. Multi-modal video transformer (mm-vit) for compressed video action recognition
CN116456098A (zh) 2022-01-05 2023-07-18 南宁富联富桂精密工业有限公司 视频压缩方法、终端及计算机可读存储介质
CN114549673B (zh) * 2022-02-25 2023-06-23 电子科技大学 一种基于学习频域信息预处理图像的图像压缩方法
CN114978313B (zh) * 2022-05-18 2023-10-24 重庆邮电大学 一种基于贝叶斯神经元的可见光cap系统的补偿方法
CN114895275B (zh) * 2022-05-20 2024-06-14 中国人民解放军国防科技大学 基于高效多维注意力神经网络的雷达微动手势识别方法
CN115019151B (zh) * 2022-08-05 2022-10-21 成都图影视讯科技有限公司 非显著特征区域加速型神经网络构架、方法和设备
WO2024054467A1 (en) * 2022-09-07 2024-03-14 Op Solutions, Llc Image and video coding with adaptive quantization for machine-based applications
CN115620385B (zh) * 2022-11-07 2023-07-28 湖南苏科智能科技有限公司 一种基于多元数据的安检工作人员注意力检测方法及系统
CN116019058B (zh) * 2023-02-21 2023-10-13 凤集食品集团有限公司 一种蛋鸡养殖的间歇性补光方法及间歇性补光终端
CN116051811B (zh) * 2023-03-31 2023-07-04 深圳思谋信息科技有限公司 区域识别方法、装置、计算机设备及计算机可读存储介质
CN116402817B (zh) * 2023-06-08 2023-08-15 青岛国源中创电气自动化工程有限公司 基于视频分析的污水曝气量的检测方法
CN117437123A (zh) * 2023-09-27 2024-01-23 宁波大学 一种光谱与纹理注意力融合的深度光谱超分辨率方法
CN117395381B (zh) * 2023-12-12 2024-03-12 上海卫星互联网研究院有限公司 一种遥测数据的压缩方法、装置及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2790130A1 (en) * 2013-04-08 2014-10-15 Cogisen SRL Method for object recognition

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5608458A (en) * 1994-10-13 1997-03-04 Lucent Technologies Inc. Method and apparatus for a region-based approach to coding a sequence of video images
US20030043918A1 (en) * 1999-12-20 2003-03-06 Jiang Hong H. Method and apparatus for performing video image decoding
KR100961760B1 (ko) * 2002-08-13 2010-06-07 퀄컴 인코포레이티드 이산코사인변환 계수를 참조하는 움직임 추정 방법 및 장치
CN1928543A (zh) * 2006-09-15 2007-03-14 哈尔滨工业大学深圳研究生院 基于霍尔传感器阵列的钢丝绳无损检测方法及检测装置
US8200022B2 (en) 2008-03-24 2012-06-12 Verint Systems Ltd. Method and system for edge detection
CN101271525B (zh) * 2008-04-10 2011-05-04 复旦大学 一种快速的图像序列特征显著图获取方法
US9609342B2 (en) * 2010-02-19 2017-03-28 Skype Compression for frames of a video signal using selected candidate blocks
CN102214298B (zh) * 2011-06-20 2013-10-16 复旦大学 基于选择性视觉注意机制的遥感图像机场目标检测与识别方法
EP2790126B1 (en) * 2013-04-08 2016-06-01 Cogisen SRL Method for gaze tracking
CN103327359B (zh) * 2013-06-14 2015-02-18 中国计量学院 一种应用于视频质量评价的视频显著性区域搜索方法
US9195903B2 (en) * 2014-04-29 2015-11-24 International Business Machines Corporation Extracting salient features from video using a neurosynaptic system
EP3364342A1 (en) 2017-02-17 2018-08-22 Cogisen SRL Method for image processing and video compression
EP3364343A1 (en) 2017-02-17 2018-08-22 Cogisen SRL Method for image processing for object detection

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2790130A1 (en) * 2013-04-08 2014-10-15 Cogisen SRL Method for object recognition

Also Published As

Publication number Publication date
IL268214B (en) 2022-07-01
CN110300977A (zh) 2019-10-01
EP3364342A1 (en) 2018-08-22
CN110300977B (zh) 2024-04-16
IL268214A (en) 2019-09-26
WO2018150024A1 (en) 2018-08-23
KR20190117651A (ko) 2019-10-16
US20180240221A1 (en) 2018-08-23
EP3583547A1 (en) 2019-12-25
US10586312B2 (en) 2020-03-10
KR102535098B1 (ko) 2023-05-19

Similar Documents

Publication Publication Date Title
CN110300977B (zh) 用于图像处理和视频压缩的方法
CN111868751B (zh) 在视频代码化的机器学习模型中使用应用于量化参数的非线性函数
CN110798690B (zh) 视频解码方法、环路滤波模型的训练方法、装置和设备
Bovik Automatic prediction of perceptual image and video quality
US20200329233A1 (en) Hyperdata Compression: Accelerating Encoding for Improved Communication, Distribution & Delivery of Personalized Content
RU2461977C2 (ru) Сжатие и снятие сжатия изображения
Chen et al. Perceptual video coding: Challenges and approaches
US20230065862A1 (en) Scalable coding of video and associated features
US20130279598A1 (en) Method and Apparatus For Video Compression of Stationary Scenes
WO2022139617A1 (en) Encoding with signaling of feature map data
WO2022139618A1 (en) Decoding with signaling of segmentation information
JP2023543520A (ja) 機械学習を基にしたピクチャコーディングにおけるクロマサブサンプリングフォーマット取り扱いのための方法
EP4211899A1 (en) Decoding with signaling of feature map data
CN118216144A (zh) 条件图像压缩
US20240161488A1 (en) Independent positioning of auxiliary information in neural network based picture processing
Florentín-Núñez et al. Adaptive kernel regression and probabilistic self-organizing maps for JPEG image deblocking
WO2023160835A1 (en) Spatial frequency transform based image modification using inter-channel correlation information
WO2023172153A1 (en) Method of video coding by multi-modal processing
CN118020306A (zh) 视频编解码方法、编码器、解码器及存储介质
NO20200708A1 (en) Method, computer program and system for detecting changes and moving objects in a video view
Saeedi et al. Content adaptive pre-filtering for video compression
CN111885378B (zh) 多媒体数据编码方法、装置、设备以及介质
Dai Visual Saliency Estimation Via HEVC Bitstream Analysis
TW202416712A (zh) 使用神經網路進行圖像區域的並行處理-解碼、後濾波和rdoq
TW202420815A (zh) 使用神經網路進行圖像區域的並行處理-解碼、後濾波和rdoq

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210205

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20211029

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20211221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220308

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220608

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220805

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221101