JP2020508010A - 画像処理およびビデオ圧縮方法 - Google Patents
画像処理およびビデオ圧縮方法 Download PDFInfo
- Publication number
- JP2020508010A JP2020508010A JP2019544673A JP2019544673A JP2020508010A JP 2020508010 A JP2020508010 A JP 2020508010A JP 2019544673 A JP2019544673 A JP 2019544673A JP 2019544673 A JP2019544673 A JP 2019544673A JP 2020508010 A JP2020508010 A JP 2020508010A
- Authority
- JP
- Japan
- Prior art keywords
- image
- video
- frequency domain
- saliency
- sparse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 171
- 230000006835 compression Effects 0.000 title claims abstract description 109
- 238000007906 compression Methods 0.000 title claims abstract description 109
- 238000012545 processing Methods 0.000 title claims abstract description 57
- 230000000007 visual effect Effects 0.000 claims abstract description 48
- 238000001514 detection method Methods 0.000 claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 22
- 238000012546 transfer Methods 0.000 claims abstract description 15
- 230000002829 reductive effect Effects 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 64
- 230000001131 transforming effect Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 abstract description 5
- 238000004422 calculation algorithm Methods 0.000 description 62
- 230000033001 locomotion Effects 0.000 description 60
- 230000003935 attention Effects 0.000 description 32
- 230000008569 process Effects 0.000 description 21
- 230000006870 function Effects 0.000 description 20
- 238000001228 spectrum Methods 0.000 description 18
- 230000008901 benefit Effects 0.000 description 17
- 230000003595 spectral effect Effects 0.000 description 14
- 230000002123 temporal effect Effects 0.000 description 13
- 238000005259 measurement Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 230000011218 segmentation Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000001149 cognitive effect Effects 0.000 description 8
- 238000011045 prefiltration Methods 0.000 description 8
- 241000282412 Homo Species 0.000 description 7
- 230000006872 improvement Effects 0.000 description 7
- 230000015654 memory Effects 0.000 description 7
- 230000008447 perception Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 6
- 230000018109 developmental process Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000001303 quality assessment method Methods 0.000 description 4
- 238000010183 spectrum analysis Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000003936 working memory Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000037452 priming Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 239000011449 brick Substances 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 101150114886 NECTIN1 gene Proteins 0.000 description 1
- 102100023064 Nectin-1 Human genes 0.000 description 1
- 101500019086 Ustilago maydis P6 virus KP6 killer toxin subunit alpha Proteins 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000013476 bayesian approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 235000013330 chicken meat Nutrition 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 235000013601 eggs Nutrition 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000005469 granulation Methods 0.000 description 1
- 230000003179 granulation Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000008904 neural response Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008825 perceptual sensitivity Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000012372 quality testing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000010332 selective attention Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000000857 visual cortex Anatomy 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/431—Frequency domain transformation; Autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/10—Image enhancement or restoration using non-spatial domain filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
- H04N19/139—Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/149—Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/80—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Image Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
本開示は、画像をデジタル化するための適切な手段を備えた一般的なデバイスを含むあらゆる種類のデバイスに組み込まれ、且つビデオ圧縮を改善するコンテンツ検出用の画像処理およびデータ生成方法に関する。本方法は、デジタルビデオストリーム内で使用するための時間モデルを作製するのに特に有用であるが、デジタルビデオストリームに限定されない。
<<2.1 ビデオ圧縮のための画像処理およびオブジェクト検出>>
画像処理におけるオブジェクト検出技術は、様々なコンテキストで広く適用されている。このようなアルゴリズムが使用される非限定的な一例として、様々なビデオ圧縮技術、ならびにソーシャルネットワーク上の人間の顔のタグ付け技術、手のジェスチャを認識するためのソフトウェア、歩行者、サイクリストおよび他の車両を検出するための自動車用ソフトウェア、体の動きを認識するためのソフトウェア、拡張現実および3D効果を備えた画面用の人間の顔の感情を検出する技術、拡張現実用のオブジェクト認識、頭の向きまたは目の向きの追跡技術を使用するインターフェース、セキュリティシステム用のオブジェクト追跡技術、および視線追跡技術が挙げられる。
デジタルビデオの生の形式での記憶および送信は非常にコストがかかる。また、アナログテレビビデオシーケンスは、デジタル化されると、最大毎秒165メガビットを消費する可能性がある。この問題を回避するために、一連のビデオ圧縮技術が導出されて、デジタルビデオデータを表すために必要なビット数を削減しながら、許容できる忠実度またはビデオ品質を維持する。必要なビットを削減するビデオ圧縮方法の能力は、圧縮ビデオのサイズに対する元のビデオのサイズの比率である「圧縮率」によって定量化される。これらの方法は、通常、画像処理および/またはオブジェクト検出を使用して圧縮率を向上させる。
最も一般的なビデオコーデックは、すべて、フレーム内およびフレーム間で圧縮することができる「ブロック」に画像を分割する。最も単純な「ブロッキング」アルゴリズムは、ビデオフレームを「マクロブロック」と呼ばれる同じサイズのブロックに分割する(図2)。
異なる圧縮係数を適用することで、一部のブロックを他のブロックよりも圧縮することができる。圧縮の違いは、いくつかの異なる要因に基づく場合がある。例えば、アルゴリズムは、シャープなエッジをより少なく圧縮されるように決定して、圧縮アーチファクトを回避する場合がある(図4)。
顕著性とは、提供された視覚情報の量と種類によって、画像内のある一部が他の一部よりも注視されることを意味する。また顕著性とは、利用できる感覚データの最も適切なサブセットに限定された知覚および認知リソースを生物に集中させることで学習および生存を促進する重要な注意メカニズムであると考えられる。
セグメンテーションは、画像を領域またはオブジェクトに分割する行為である。セグメンテーションを使用することで、対象のオブジェクトが過剰に圧縮されないようにすることができる(図6)。
顕著性は、画像ピクセル内の特定のパターンを探すアルゴリズムによって導出することができる。これは、情報内のパターンから純粋に注意予測を導出するため、「ボトムアップ」顕著性と呼ばれる。ボトムアップの視覚的顕著性は、他のすべてのピクセルに対するピクセルレベルのコントラストと、平均的な画像の色との色の違いを使用して導出することができる。BruceおよびTsotsos[2]ならびにZhangら[13]を含む一部の研究者は、情報理論に基づいて視覚的顕著性を定義しようと試みた。さらに、他の一部の研究者は、グラフカットアルゴリズムを使用して、顕著性マップの境界線を調整して、複数のスケールにわたって顕著なオブジェクトの輪郭をカウントした(例:MaおよびZhang[3])。いくつかの方法が局所的に視覚的顕著性を定義する一方で、他のいくつかの方法は、画像全体にわたる画像領域の大域的な希少性に基づいている。
人間の意図の知識から「トップダウン」で顕著性を導出することも可能である。オブジェクトに基づいた注意の理論は、人間がオブジェクトおよび高度な概念に注意することを提案する。人は、他のオブジェクトタイプよりも特定のタイプのオブジェクトに引き付けられる。例えば、人は、他のオブジェクトタイプよりも画像内の顔を見ることに引き付けられる。これらの認知的発見によって着想を得て、いくつかのモデル(例えば、Juddら[22])は、顔、人間、動物、およびテキストなどのオブジェクト検出器を使用して、顕著な位置を検出している。
各ビデオフレーム内にはかなりの冗長性が存在するが、通常、画像の80%はフレーム間で変化しないため、ビデオフレーム間で最大量の冗長性が発生する。人は、動いているオブジェクトにより多くの注意を払うため、フレーム間には顕著性も存在する。動きのないマクロブロックは、動きのあるマクロブロックよりも目立たないため、品質を著しく低下させることなくそれらを圧縮することができる(図8)。
顕著性の計算を使用して、ビデオコーデックの圧縮率を向上させることができる。プロセッサオーバーヘッドをほとんど追加することなく顕著性を効率的に計算できる場合、処理能力(例えば、モバイルデバイス)または時間(例えば、ライブビデオ)に制約がある状況において使用することができる。顕著性の迅速な計算は、ライブビデオの圧縮にとって特に重要である。なぜなら、他の多くの圧縮形式はライブでの計算が遅すぎるため、顕著性が除去できるビデオ内の冗長性がかなり多くなるためである。
1. 赤/緑のコントラスト
2. 青/黄のコントラスト
3. 時間的な強度のちらつき
4. 強度のコントラスト
5. 0°の向き
6. 45°の向き
7. 90°の向き
8. 135°の向き
9. 上向き運動エネルギー
10. 下向き運動エネルギー
11. 左向き運動エネルギー
12. 右向き運動エネルギー
これらの特徴は、複数のスケールで比較される。中心−周辺スケールは、スケール0(元の画像)からスケール8(水平方向および垂直方向で係数によって28=256に縮小された画像)までの9つのスケールを有する二項ピラミッドから取得される。次いで、12個の特徴の各々について、ピラミッドスケール全体のポイント間差分として6つの中心−周辺差分マップが計算され、合計72個の特徴マップが生成される。また、各特徴マップには、内部ダイナミクスが設けられる。内部ダイナミクスは、活動において特徴内およびスケール内の強力な空間的競合を提供し、特徴内およびスケール全体の競合がそれに続く。すべての特徴マップは、最終的に一意のスカラー顕著性マップに寄与する。この方法の複雑さは、空間領域内で顕著性を計算することの難しさを示している。
周波数領域は、ビデオ画像の視覚的顕著性の計算に使用されている。これは、人間の視覚が、周波数領域内でより簡潔に画定される特定のパターンに引き付けられるためである。
・ 画像を人間の知覚により自然に対応するHSV(色相、彩度、および明度)色空間に変換し、現実世界の陰影をもつオブジェクトに固有の3D構造の一部を捕捉するステップ。
・ 3レベルのピラミッド上で2次元ガウス分布によってHSV画像をぼかすことで、細かいテクスチャの詳細を排除し、画像のエネルギーを平均化して、HSV色空間内の純粋な四元数(超複素数)によって画像ピクセルを表現するステップ。
・ 様々なスケールの画像の振幅および位相の情報を含む超複素数フーリエスペクトルを計算するステップ。
・ 生画像とぼかされた画像との間のスペクトルコントラストを計算し、生画像の様々なスケールで振幅スペクトルおよび位相スペクトルを使用して、これらのコントラストマップを復元するステップ。
・ 復元されたスペクトルコントラストマップを正規化し、対数極不均一サンプリングを使用して最終的な顕著性マップを取得するステップ。
対象領域が抽出された際に、対象領域および対象外領域のビデオ圧縮および符号化品質を調節するための多くの手段が提案されている。
単純なアプローチの1つは、顕著性マップに従って入力フレーム内の情報をぼかして入力フレーム内の情報を減らすことである。注意を引く画像の領域のみが高品質に保たれ、他の領域はすべてぼかされる。しかしながら、ぼかしは、低顕著性領域内で主観的品質の明らかな低下をもたらす。
従来のレート制御アルゴリズムは、すべてのマクロブロックに同じ圧縮レベルを提供する。顕著性は、ブロックを不均一にコーディングする機会を与え、顕著でないブロックをより強く圧縮してコーディング効率を向上させるか、顕著な領域により多くのビットを割り当てて品質を向上させる(図12)。
・ 量子化パラメータ
・ モード決定
・ 参照フレームの数
・ 動きベクトルの精度
・ 動き推定の検索範囲
<<2.15 プレフィルタ>>
顕著でない領域からの情報の削除は、コーデックに統合される必要はない。顕著な特徴を検出および追跡し、それらをシャープに保つプレフィルタとして実装することができるが、顕著でない特徴はローパスフィルタリングされ、自動で有益なビットレートの低下を引き起こす。顕著性に基づくプレフィルタリングは、前処理ステップとして実行されるため、任意のビデオエンコーダとインターフェースで接続することができる。
業界標準のコーデックは、すべて同じ基本ブロックを共有する(図13)。これは、DCTブロックから始まって、画像を周波数領域に変換する。次いで、量子化ブロックがそれらの周波数成分の解像度を低下させ、可変長エンコーダがストリームからエントロピーを除去する。
最新のビデオコーデックには、すべて、動き推定も含まれている。現在のフレーム内のピクセルの各ブロックは、前のフレーム内の同じサイズの候補ブロックのセットと比較されて、現在ブロックを最もよく予測するブロックが決定される。最も一致するブロックが見つかると、参照ブロックを指定する動きベクトルが決定される(図14)。
ビデオコーディングにおける主なイニシアチブは、新しいコーデックにつながる。最も一般的なビデオコーデックの年表は、以下の通りである。
・ H.261(1990) − 国際電気通信連合(ITU)によって開発された。コーディングアルゴリズムは、ピクチャ間予測を使用して時間的冗長性を除去する。時間コーディングの基本単位であるマクロブロックは、16×16ピクセル領域を表すために使用される。H.261は、電話会議アプリケーションでISDNを介してビデオを伝送するためのものであり、一般的なデジタルビデオコーディングでの使用には適していない。
・ MPEG−1(1991) − 動画専門家集団(MPEG)の最初のコーデックである。CD−ROMに映画を1.2Mbits/s程度で記憶するためのものであり、以下のイノベーションが組み込まれている。
・ H.262/MPEG−2(1994) − MPEG−1の圧縮技術を拡張して、帯域幅の使用量を増やしながら、より大きな画像および高品質をカバーする。MPEG−2は、通常、4Mbps〜15Mbpsのビットレートを必要とするデジタルテレビ放送アプリケーションのため、または2Mbits/s〜400Mbits/s程度のビデオをDVD(デジタルビデオディスク)に記憶するために設計されている。
・ H.263/MPEG−4 Part2(1996) − テストモデル(TMN)と呼ばれる符号化アルゴリズムを使用する。これは、H.261で使用されるものに類似するが、パフォーマンスおよびエラー回復が改善され、効率が向上している。また、低ビットレートでのコーディングに最適化されている。H.263は、POTS2ネットワークを介した低ビットレートビデオテレフォニーのためのビデオコーディングに使用され、14.4kbits/s〜56kbits/sのモデムレートで使用されるビデオに10kbits/sが割り振られる。モデムレートには、ビデオコーディング、音声コーディング、制御情報、およびデータ用の他の論理チャネルが含まれる。MPEG4は、ビデオストリームをアルファマスクによって定義されたフォアグラウンド領域とバックグラウンド領域に分割する「ビデオオブジェクトプレーン」と呼ばれる特徴を有する。バックグラウンド情報は、一度だけ送信される必要がある。コーデックは、ビデオストリームを調べることでアルファマスクを自動的に生成することができる。または、コーデックは、最初のフレーム内で対象のオブジェクトを手動で選択して、半自動的に生成することができる。
・ H.264/MPEG−4 AVC/MPEG−4 Part10(2003) − 様々なアプリケーションの既存のビデオコーディング規格と比較して、コーディング効率を2倍にするという目標があった。H.264は、2003年3月にITU−Tによって承認された(MPEG−4 Part10としても知られる)。その目標は、低ビットレート(8kbits/s程度)と高ビットレート(1Mbits/s以上)のため、低解像度および高解像度のビデオのため、ならびに待ち時間に対する高い要求および低い要求に応じて、多種多様なアプリケーションに規格を適用することができるように十分な柔軟性を提供することであった。コーディング効率を改善する主な特徴は以下の通りである。
・ ピクチャ境界上の動きベクトル
・ 複数の参照ピクチャの動き補償
・ ループ内ブロック解除フィルタリング
・ 4×4ピクセルの小さなブロックサイズの変換
・ エントロピーコーディング方法の強化(コンテキスト適応型可変長コーディング(CAVLC)およびコンテキスト適応型バイナリ算術コーディング(CABAC))
・ VP8(2008) − H.264/AVCと多くの共通点をもつ従来のブロックに基づいた変換コーディング形式。
・ H.265/HVEC/MPEG−H Part2(2010) − JCT−VC協会によるものである。ISO/IEC MPEGとITU−T VCEGとの間の共同研究であり、H.264と比較して効率が50%改善している。
・ VP9(2012) − x264よりも30%効率的である。
・ VP10/AV1(2017年推定) − パフォーマンスについて、HEVCおよびVP9と比較して効率が約50%改善している。
同じコーデックからのすべてのビデオが等しいとは限らない。ビデオ圧縮規格は、ビデオエンコーダによって生成される圧縮ビットストリームの構文およびセマンティクス、ならびにビットストリームを解凍したビデオ信号を生成するための解析および復号方法を指定する。しかしながら、動き推定、コーディングモードの選択、ピクチャの様々な部分へのビットの割振りなど、符号化におけるアルゴリズムおよびパラメータの選択は指定されない。これらはオープンのままであり、エンコーダの実装形態に大きく依存する。しかしながら、符号化の結果として生じるビットストリームは、指定された構文に準拠する必要がある。その結果、同じビットレートであっても、標準のビデオコーデックの品質は、エンコーダの実装形態に大きく依存する。これは、一部の実装形態が他の実装形態よりも優れたビデオ品質をもたらすように見える理由を示す。
コーデックは、ビデオのノイズ除去、フリック除去、および振動除去などのプレフィルタを使用することが多い。ノイズ除去およびフリック除去は、通常、ピーク信号対ノイズ比(PSNR)の値を維持しながら、視覚的な品質を向上させる。振動除去は、PSNRを大幅に低下させるが、視覚的な品質を向上させる。ポストフィルタは、ブロック解除および共鳴解除のような同様の特性を示し、PSNRを維持するが、品質は向上する。(H.264で推奨された)粒状化は、ビデオ品質を向上させるが、PSNRを低下させる。すべてのフィルタは、圧縮/解凍時間を増加させる。一部の顕著性アルゴリズム(例えば、EuclidIQのIQ264)は、コーデックに到達する前にビデオ上で動作するプレフィルタとして実装されている。
ビデオが変換される最終的なデータレートも制御することができる。通常、可変ビットレートは、シーケンスの同じ平均客観的品質値(例えば、PSNR)に対して、固定ビットレートよりも優れた視覚的品質マークをもたらす。
動き推定は、差分と共に、変更されていない前のフレームの部分を探し、それらを元の参照位置からのベクトルとして符号化。符号化されたストリーム内で、動き推定は、以下の3つのタイプのビデオフレームを作製する。
・ Iフレーム − すべてのマクロブロックを含む参照フレーム。
・ Pフレーム − 以前のフレーム(主にIフレーム)から作製された前方予測ピクチャであり、必要なデータが少ない(通常、Iフレームのサイズの50%)。
・ Bフレーム − 前後のフレームから予測または補間することができるため、Pフレームよりも少ないデータ(通常、Iフレームのサイズの25%)で前後のフレームの一部を使用する双方向予測されたピクチャ。
あるビデオコーデックが別のビデオコーデックよりも優れているかどうかを評価するために、ビデオの品質を測定する方法が必要である。ビデオ品質測定は、ビデオコーデックの開発および評価に不可欠な部分であり、人間の知覚に基づいた新しいタイプのビデオ圧縮を検討する場合、古い品質測定では評価できない可能性があるため、特に重要である。
ビデオ品質を測定する最も簡単で正確な方法は、人にそれを観察させてスコアを付けさせることである。総合的なモデルによって人間の視覚を完全にモデル化できないため、ビデオ圧縮がより精巧になるにつれておよび人間の目の知覚特性を使用するにつれて、ビデオ品質のスコアリングにおいて人間の主観的な品質評価がより重要になる。
総合的な測定は、人間のビデオテスタの大規模コホートなしでビデオ品質スコアを提供する。人間の視聴には遅延がないため、総合的なスコアを使用と、ビデオコーデックを迅速に開発することができる。また、総合的なスコアを使用と、コーデック内で品質評価を使用して、ビットレートと品質を動的に調整することができる。
ピーク信号対ノイズ比(PSNR)は、信号の最大可能電力と破損ノイズの電力との間の比率に使われる工学用語である。PSNRは、符号化および復号の前後にビデオフレームのピクセルごとの比較を実行する。このタイプの前後の比較は、「完全参照」と呼ばれる。圧縮画像のみを使用する他のタイプの品質推定も存在する。
Structural Similarity(SSIM:構造的類似性)は、人間が知覚した品質をなんらかの方法でモデル化する「SSIM」の指標を計算することで、人間の知覚により良く適応しようとする。SSIMは、絶対誤差を計算するのではなく、画像劣化を「構造情報」内の知覚変化と見なす。これは、特に空間的に近い場合にピクセルが強い相互依存性を有するという考えである。これらの依存関係には、視覚画像内のオブジェクトの構造に関する重要な情報が含まれる。SSIMには、「輝度マスキング」および「コントラストマスキング」などの知覚現象も組み込まれる。「輝度マスキング」とは、明るい領域では画像の歪みが目立たなくなる現象である。「コントラストマスキング」とは、画像内に大きな活動または「テクスチャ」がある場合に、それによって歪みが目立たなくなる現象である。
・ 輝度 − ピクセル用の高い値がより重視される。各ポイントの輝度は、平均の2乗の合計に対する平均xとyの積の2倍である。
・ コントラスト − 局所的に一意のピクセル値がより重視される。各ポイントのコントラストは、平均の2乗の合計に対する分散値xとyの積の2倍である。
・ 構造 − ここでは、隣接する値によって変化するかどうかが判定される。各ポイントの構造は、分散値xとyの積に対するxとyの共分散である。
・ MSSIMは、PSNRよりも計算が複雑である。
・ おそらく最も重要なことに、MSSIMはビデオ用ではなく、静止画像用であることである。ビデオは、フレーム内よりもフレーム間の相関が高いため、ほとんどの圧縮はフレーム間で実行される。これは、MSSIMが歪みの大部分を測定しないことを意味する。動きの顕著性とSSIMとの間に相関関係はない。
・ MSSIMには顕著性の概念をもたない。構造的な関係を識別することはできるが、それらの関係が顕著であるかどうかは分からない。これは、顕著な領域でより良い品質を提供するために、平均歪みを同じレベルに保ちながらビットを不均一に分散する顕著性に基づく圧縮アルゴリズムをテストする場合の重大な欠点である。通常、MSSIMは顕著性に基づくビット分布からの改善を報告しないが、主観的なテストは大幅な改善を報告する。
・ MSSIMは複雑でるため、コーデックを開発することが困難になる。多くの場合、コーデックは、パラメータを変更させ、客観的な測定に対してテストすることで、段階的且つ反復的に最適化される。PSNRのような単純な測定の場合、なぜスコアが良くなったか悪くなったかがすぐにわかる。複雑な測定の場合、画像のスコアがなぜ変更されたかを知ることは困難であり得る。
ほとんどのビデオコーデックには、ビットレートと品質との間に非線形関係がある。ビットレートが増加するたびに品質に与える影響が小さくなる。この非線形関係は、コーデックがより高いビットレートおよびより低いビットレートにどのように反応するかを示す「品質曲線」を形成する。圧縮曲線は、コーデックを比較するために使用されるものである(図17)。
客観的な品質測定を閉ループの形式で使用して、圧縮を調節することができる。1つの領域を圧縮すると品質に影響を与えることが品質測定から判明している場合、コーデックは、主観的な品質を維持するためにその領域をより少なく圧縮するように指示される。フィードバックとしての客観的な品質を備えた閉ループビデオ圧縮は、2005年にCaviedesおよびAliによって提案された[42]。
ビデオコーデック業界はいくつかの問題に直面しており、これらの問題をより良く解決するために、新しいコーデックが定期的に導入されている。
ビデオインターネットトラフィックは、1桁増加している。インターネットトラフィックの量は、2005年から2020年にかけて100倍増加すると予想されている(Cisco)。その増加の大部分は、ビデオが占める。IPビデオトラフィックは、2015年の70%から2020年までにすべての消費者インターネットトラフィックの82%に増加する(Cisco)。2011年から2013年にかけて、平均的なオンラインビデオ視聴は、1人あたり1日6分増加した。
より大きく、より高解像度の画面が使用されるにつれて、ビデオフレームのサイズは増大している。
インターネットトラフィックは、主にモバイルネットワークを経由するように変化している。スマートフォンのインターネットトラフィックは、2020年までにPCトラフィックを超える(Cisco)。モバイルデバイスでビデオを視聴する傾向を示すパターンもある。エリクソンは、モバイルデバイスからのIPトラフィックが2019年までに有線デバイスからのIPトラフィックをはるかに超え、ビデオトラフィックがモバイルトラフィックの50%以上を占めると予測している。しかしながら、通常、モバイルデータの速度は、有線ネットワークの速度よりも遅いため、ビデオあたりの平均帯域幅は急速に増大しない。また、リアルタイムビデオは、ほとんどのセルラー通信リンクの非対称性によってさらに制約されて、アップロードリンクよりも幅広いダウンロードを提供する。
動き推定などの多くのコーデック動作はリアルタイムで実行するには計算作業が多いため、ビデオコーデックはリアルタイムビデオの符号化ではあまり効率的でない。しかしながら、ビデオコールのハードウェアおよびソフトウェアが利用できるため、ライブビデオはインターネットトラフィックの大きな割合を占める。このライブビデオの多くは、計算能力の低いモバイルデバイス上で符号化されている。
通常、新しいコーデックは、より精巧なアルゴリズムを採用することで、より高い圧縮率を提供する。これらのコーデックが精巧になるにつれて、開発には時間がかかる。コーデックの新しいバージョン間の平均期間は、2年から5年に増加した。
コーデックが精巧になるにつれて、ピクセルごとに実行される計算が増加する。最新のコーデックは、ビットレートを下げるために、検索、変換およびモデル化を実行する場合がある。ビデオ解像度の向上に伴うピクセルごとの作業の増加により、ほとんどの最新のCPUでリアルタイムに実行されるようにビデオ符号化の要求が厳しくなっている。通常、多くのビデオを処理する機関は、ビデオを最適な圧縮で符号化するために、ビデオの符号化に多大な作業を費やす「トランスコーダ」ファームを有する。
コーデックが精巧になるにつれて、コーデックの効率を述べることは難しくなっている。一部の新しいコーデックは、人間の視覚または特定のコンテンツタイプ(例えば、スポーツ)向けに最適化されているため、総合的なテストではパフォーマンスが不十分である。テストでは、最も一般的な種類のコンテンツを代表するビデオを視聴する人間の観察者の大規模なコホートが必要である。
ビデオコーデックはプロセッサに大きな負荷をかけるため、特に低電力デバイス(例えば、テレビ、携帯電話)を含む多くのデバイスには、ハードウェアビデオコーデックアクセラレータが含まれる。これらのハードウェアビデオアクセラレータは、新しいコーデックがインストールされたアクセラレータハードウェアの大規模なベースと互換性がないため、新しいビデオ符号化方法の導入に対する障壁になる。
ほとんどのブラウザおよびオペレーティングシステムには、ビデオの再生を可能にするビデオコーデックが含まれる。ビデオを再生するコーデックがないため、ビデオコンテンツはそのコーデックで符号化されず、コーデックを採用する必要性が減るという、卵が先か鶏が先かという状況があり、ソフトウェアは新しいコーデックを採用するのに何年もかかる可能性がある。
ほとんどのビデオコンテンツは、既存のビデオ形式のいずれかですでに符号化されている。コンテンツの所有者は、ビデオの元の高品質バージョンをもっていないか、またはビデオを再符号化するコストを負担したがらない場合がある。動機は別として、彼らは、以前のエンコーダが新しいコーデックによる圧縮を妨げる視覚的なアーチファクトをもたらしたこと、または圧縮率が低い古いコーデックが所望のビットレートを実現するために品質劣化を必要としていたことに気づく可能性がある。
低解像度/低品質のビデオの量が増加している。かつては静止画像であったウェブサイト、広告、およびユーザインターフェースの一部が、ビデオコンテンツを表示している。しかしながら、ほとんどのビデオエンコーダは、低ビットレートではパフォーマンスが不十分である。ビットレートが非常に低い場合、多くのエンコーダは画像全体を歪め、許容できない品質になる。
[1] Mishra AK, Aloimonos Y, Cheong LF, Kassim A (2012). Active visual segmentation. IEEE transactions on pattern analysis and machine intelligence, 34(4), 639-653.
[2] Bruce N, Tsotsos J (2006). Saliency based on information maximization. Advances in neural information processing systems, 18, 155.
[3] Ma Y-F, Zhang H-J. Contrast-based image attention analysis by using fuzzy growing. Proceedings of the eleventh ACM international conference on Multimedia - MULTIMEDIA ’03, 2003. doi:10.1145/957092.957094.
[4] L. Itti, C. Koch, & E. Niebur (1998). A Model of Saliency-Based Visual Attention for Rapid Scene Analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence 20(11):1254-1259.
[5] C. Koch & S. Ullman (1985). Shifts in selective visual attention: towards the underlying neural circuitry. Human Neurobiology 4:219-227.
[6] O. Le Meur, P. Le Callet, D. Barba, & D. Thoreau (2006). A coherent computational approach to model bottom-up visual attention. IEEE Transactions on Pattern Analysis and Machine Intelligence. 28(5):802-817.
[7] Sophie Marat, Tien Ho Phuoc, Lionel Granjon, Nathalie Guyader, Denis Pellerin, et al. (2009). Modelling spatio-temporal saliency to predict gaze direction for short videos. International Journal of Computer Vision, Springer Verlag, 2009, 82 (3), pp.231-243.
[8] Bruce, N.D. and Tsotsos, J.K., (2005), May. An attentional framework for stereo vision. In Computer and Robot Vision, 2005. Proceedings. The 2nd Canadian Conference on (pp. 88-95). IEEE.
[9] Mancas, M., Gosselin B., MA CQ B., (2007). A Three-Level Computational Attention Model. Proceedings of ICVS Workshop on Computational Attention & Applications (WCAA-2007).
[10] A Borji, DN Sihite, L Itti (2012) Quantitative Analysis of Human-Model Agreement in Visual Saliency Modeling: A Comparative Study, IEEE Transactions on Image Processing (TIP)
[11] Hou X, Zhang L. Saliency Detection: A Spectral Residual Approach. 2007 IEEE Conference on Computer Vision and Pattern Recognition, 2007. doi:10.1109/cvpr.2007.383267.
[12] Torralba, A (2003). Contextual Priming for Object Detection International Journal of Computer Vision (2003) 53: 169. doi:10.1023/A:1023052124951
[13] L. Itti & P. Baldi (2006). Bayesian Surprise Attracts Human Attention. In: Advances in Neural Information Processing Systems, Vol. 19 (NIPS*2005), Cambridge, MA: MIT Press.
[14] Harel, J., Koch, C. and Perona, P., (2006, December). Graph-based visual saliency. In NIPS (Vol. 1, No. 2, p. 5).
[15] Avraham, T. & Lindenbaum, M., (2010). Esaliency (extended saliency): Meaningful attention using stochastic image modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32, 693- 708
[16] Li, L.J., Su, H., Fei-Fei, L. and Xing, E.P., (2010). Object bank: A high-level image representation for scene classification & semantic feature sparsification. In Advances in neural information processing systems (pp. 1378-1386).
[17] Hamed Rezazadegan Tavakoli, Esa Rahtu , Janne Heikkila (2011), Fast and efficient saliency detection using sparse sampling and kernel density estimation, Proceedings of the 17th Scandinavian conference on Image analysis, May 01, 2011, Ystad, Sweden
[18] D. Gao and N. Vasconcelos, (2004) Discriminant Saliency for Visual Recognition from Cluttered Scenes, Proceedings of Neural Information Processing Systems (NIPS), Vancouver, Canada, 2004.
[19] Hou, X. and Zhang, L., (2007), June. Saliency detection: A spectral residual approach. In Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on (pp. 1-8). IEEE
[20] Kienzle, W., Wichmann, F.A., Scholkopf, B. and Franz, M.O., (2007). A nonparametric approach to bottom-up visual saliency. Advances in neural information processing systems, 19, p.689.
[21] Peters, R.J. and Itti, L., (2007), June. Beyond bottom-up: Incorporating task-dependent influences into a computational model of spatial attention. In Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on (pp. 1-8). IEEE.
[22] Judd, T., Ehinger, K., Durand, F. and Torralba, A., (2009), September. Learning to predict where humans look. In Computer Vision, 2009 IEEE 12th international conference on (pp. 2106-2113). IEEE.
[23] Cerf, M., Frady, E.P. and Koch, C., (2008), March. Using semantic content as cues for better scanpath prediction. In Proceedings of the 2008 symposium on Eye tracking research & applications (pp. 143-46). ACM.
[24] Seo, H.J. and Milanfar, P., (2009). Static and space-time visual saliency detection by self-resemblance. Journal of vision, 9(12), pp.15-15.
[25] Garcia-Diaz, A., Fdez-Vidal, X.R., Pardo, X.M. and Dosil, R., (2009), September. Decorrelation and distinctiveness provide with human-like saliency. In International Conference on Advanced Concepts for Intelligent Vision Systems (pp. 343-354). Springer Berlin Heidelberg.
[26] Kootstra, G., Nederveen, A. and De Boer, B., (2008). Paying attention to symmetry. In British Machine Vision Conference (BMVC2008) (pp. 1115-1125). The British Machine Vision Association and Society for Pattern Recognition
[27] Goferman, S. and Zelnik, L., (2010), June. L. manor, and A. Tal. Context-aware saliency detection. In CVPR (Vol. 1, No. 2, p. 3).
[28] Wolfe, J.M., (1994). Visual search in continuous, naturalistic stimuli. Vision research, 34(9), pp.1187-1195.
[29] Kahneman, D., Treisman, A. and Gibbs, B.J., 1992. The reviewing of object files: Object-specific integration of information. Cognitive psychology, 24(2), pp.175-219
[30] Mahadevan, V., Li, W., Bhalodia, V. and Vasconcelos, N., (2010), June. Anomaly detection in crowded scenes. In Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on (pp. 1975-1981). IEEE
[31] Muddamsetty, S.M., Sidibe, D., Tremeau, A. and Meriaudeau, F., (2014), August. Spatio-Temporal Saliency Detection in Dynamic Scenes using Local Binary Patterns. In Pattern Recognition (ICPR), 2014 22nd International Conference on (pp. 2353-2358). IEEE.
[32] Bian, P. and Zhang, L., 2008, November. Biological plausibility of spectral domain approach for spatiotemporal visual saliency. In International conference on neural information processing (pp. 251-258). Springer Berlin Heidelberg.
[33] Guo, C. and Zhang, L., 2010. A novel multiresolution spatiotemporal saliency detection model and its applications in image and video compression. IEEE transactions on image processing, 19(1), pp.185-198.
[34] Li, Z., Qin, S. and Itti, L., 2011. Visual attention guided bit allocation in video compression. Image and Vision Computing, 29(1), pp.1-14.
[35] Hou, X. and Zhang, L., 2007, June. Saliency detection: A spectral residual approach. In Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on (pp. 1-8). IEEE.
[36] Schauerte, B. and Stiefelhagen, R., 2012. Quaternion-based spectral saliency detection for eye fixation prediction. In Computer Vision- ECCV 2012 (pp. 116-129). Springer Berlin Heidelberg.
[37] Li, J., Levine, M.D., An, X., Xu, X. and He, H., 2013. Visual saliency based on scale-space analysis in the frequency domain. IEEE transactions on pattern analysis and machine intelligence, 35(4), pp.996-1010.
[38] Li, J., Duan, L.Y., Chen, X., Huang, T. and Tian, Y., 2015. Finding the secret of image saliency in the frequency domain. IEEE transactions on pattern analysis and machine intelligence, 37(12), pp.2428-2440.
[39] Guo, C., Ma, Q. and Zhang, L., 2008, June. Spatio-temporal saliency detection using phase spectrum of quaternion Fourier transform. In Computer vision and pattern recognition, 2008. cvpr 2008. ieee conference on (pp. 1-8). IEEE.
[40] Guo, C. and Zhang, L., 2010. A novel multiresolution spatiotemporal saliency detection model and its applications in image and video compression. IEEE transactions on image processing, 19(1), pp.185-198.
[41] Li, C., Xue, J., Zheng, N., Lan, X. and Tian, Z., 2013. Spatio-temporal saliency perception via hypercomplex frequency spectral contrast. Sensors, 13(3), pp.3409-3431.
[42] Caviedes, J.E. and Ali, W.S.I., 2005, September. Closed-loop video processing for objective quality optimization. In Signal Processing Conference, 2005 13th European (pp. 1-4). IEEE.
・ 空間領域内のデータを介して定義されたデジタル画像を取得するステップと、
・ L変換の2次元バリエーションを使用して、画像データの全周波数領域データの疎部分を周波数領域に転送するステップと、
・ 変換された周波数領域に、周波数領域の一部をカバーする1つまたは複数の疎ゾーンと、疎ゾーンと少なくとも部分的に重複する1つまたは複数のフィルタリングカーネルとを適用するステップと、
・ 各疎ゾーン内の変換された周波数データとカーネルとの間で乗算を実行し、結果を、それぞれ対応する抽出された特徴を示す単一の値に結合するステップと、
・ 抽出された特徴の出力を使用して分類子および/または視覚的顕著性モデルを作製し、ビデオコーデックと組み合わせて使用した場合にビデオ圧縮を変調する手段を取得するステップと、
・ 疎ゾーンおよび/またはカーネルのパラメータを変化させ、所定の精度が達成されるまで乗算および抽出のプロセスを繰り返すステップと、
から構成される。
・ 画像全体が変換される。
・ 画像のセグメントが変換される。
・ コーデックによって定義された画像の各マクロブロック入力が変換される。
・ 空間周波数、
・ 振幅、および
・ 位相
を符号化することができる。
1次元Goertzel用のアルゴリズムは、ごく基本的な構造をもつ。これは、式(17)から始めることができる。
1. サンプリングレート
2. ブロックサイズN
3. 目標周波数
サンプリングレートおよびブロックサイズが選択されると、必要な定数を計算する5段階のプロセスが存在する。
Goertzelアルゴリズムのこの共通バージョンは、1次元計算用に定義されることに留意されたい。計算の画像処理では、画像を周波数領域に変換するための計算をXとYの2つの次元で行う必要があるため、これは十分ではない。また、Goertzelの1次元形態は、1次元DFTと同等であるが、2次元の場合は同様にならない。そのため、Goertzelアルゴリズムは、オブジェクト検出および画像処理の候補であるように見えない。Goertzelアルゴリズムに対する別の制限は、特定の信号に対して調整および最適化する能力があまりないことである。
・ それぞれ2つのゾーンを使用する多数の特徴を使用する。
・ 特徴およびゾーンによってカバーされるビデオストリームのシーケンス内のフレーム数を選択する。
・ ゾーンごとに異なる目標周波数を選択する。
・ ゾーンごとに2つの入力を有し、それぞれが周波数領域変換である。
・ 変換の実数部と虚数部の両方に対して最適化することができる、入力ごとの可変コアフィルタを有する。
・ 各インデックスの周波数領域変換を定義するループ用の入力の可変のシーケンスおよび形状を有する。
・ 特徴の各ペアを使用して、特徴ごとに正規化された複素ベクトルを生成する。
・ 最後に、すべての正規化された複素ベクトルを単一形式に結合する。
Claims (10)
- 画像または画像のデジタルビデオストリームのいずれかに基づいて電子処理ユニットによって実行される、画像処理およびオブジェクト検出を介したビデオ圧縮方法であって、前記画像は、識別されるコンテンツを示す周波数領域信号が強化および分離されるように、および前記画像または前記ビデオストリーム内の前記コンテンツに対する周波数領域ノイズが低減または無視されるように、前記ビデオストリーム内の単一フレームまたはフレームシーケンスによって定義され、前記方法は、
・ 前記ビデオストリームの対応する前記単一フレームまたは対応する前記フレームシーケンスのいずれかから、デジタル画像またはデジタル画像シーケンスを取得するステップであって、すべての前記デジタル画像が空間領域内で画定される、デジタル画像またはデジタル画像シーケンスを取得するステップと、
・ 疎ゾーンのペアを1つまたは複数選択するステップであって、前記疎ゾーンはそれぞれ前記単一フレームの少なくとも一部または前記フレームシーケンスの少なくとも2フレームをカバーし、前記疎ゾーンの各ペアは選択された特徴を生成し、前記ゾーンはそれぞれ空間データの2つのシーケンスによって定義される、疎ゾーンのペアを1つまたは複数選択するステップと、
・ 伝達関数ならびに前記ゾーンごとの周波数領域データの形状および方向を変化させることで前記選択された特徴に対してそれぞれ正規化された複素ベクトルを生成するL変換の2次元バリエーションを介して、前記疎ゾーンごとに前記空間データの2つのシーケンスを結合して、前記選択された特徴を周波数領域データに変換するステップと、
・ 前記識別されるコンテンツのモデルが定義されるように、前記正規化された複素ベクトルをすべて結合するステップと、
・ 前記ビデオ圧縮に使用するオブジェクト検出または視覚的顕著性のためのデータが取得されるように、前記選択された特徴から前記モデルを分類子に入力するステップと、
を備える、
方法。 - 前記選択された特徴を周波数領域データに変換するステップは、様々な数の前記フレームおよび/または選択された前記フレームからの空間データを使用する、
請求項1に記載の方法。 - 前記疎ゾーンが識別される入力フレームを生成するために、検索ロジックが入力画像全体に対して使用される、
請求項1に記載の方法。 - 前記疎ゾーンは、局所的な解像度を高めるために、部分的に互いに重なり合ってまたは横に並んで配置され、グループ化される、
請求項1に記載の方法。 - 前記2つの軸に対する計算は、並列に実行される、
請求項1に記載の方法。 - 前記変換ステップにおいて、行に対して1次元Goertzel計算が実行されてから、その結果を使用して、列に対して1次元Goertzel計算が実行される、またはその逆も同様である、
請求項1に記載の方法。 - 前記疎ゾーンのペアごとに、異なる目標周波数が選択される、
請求項1に記載の方法。 - 前記周波数領域に変換するステップのための入力セルは、値を必要とするインデックスの位置の周りでのみ取得される、
請求項1に記載の方法。 - インデックスでの行および列のための1次元出力を個別に計算し、次いでこれを単一の値に結合することで、前記インデックスの結果が取得される、
請求項1に記載の方法。 - 前記伝達関数は、最初の入力と2番目の入力とが異なる離散伝達関数設定を有するように、前記疎ゾーンの入力ごとに個別に選択される、
請求項1に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17156726.6 | 2017-02-17 | ||
EP17156726.6A EP3364342A1 (en) | 2017-02-17 | 2017-02-17 | Method for image processing and video compression |
PCT/EP2018/054029 WO2018150024A1 (en) | 2017-02-17 | 2018-02-19 | Method for image processing and video compression |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020508010A true JP2020508010A (ja) | 2020-03-12 |
Family
ID=58094262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019544673A Pending JP2020508010A (ja) | 2017-02-17 | 2018-02-19 | 画像処理およびビデオ圧縮方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US10586312B2 (ja) |
EP (2) | EP3364342A1 (ja) |
JP (1) | JP2020508010A (ja) |
KR (1) | KR102535098B1 (ja) |
CN (1) | CN110300977B (ja) |
IL (1) | IL268214B (ja) |
WO (1) | WO2018150024A1 (ja) |
Families Citing this family (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10410398B2 (en) * | 2015-02-20 | 2019-09-10 | Qualcomm Incorporated | Systems and methods for reducing memory bandwidth using low quality tiles |
EP3364343A1 (en) | 2017-02-17 | 2018-08-22 | Cogisen SRL | Method for image processing for object detection |
EP3364342A1 (en) | 2017-02-17 | 2018-08-22 | Cogisen SRL | Method for image processing and video compression |
US10579898B2 (en) * | 2017-04-16 | 2020-03-03 | Facebook, Inc. | Systems and methods for provisioning content using barrel projection representation |
US11263470B2 (en) | 2017-11-15 | 2022-03-01 | Adobe Inc. | Saliency prediction for informational documents |
US10664999B2 (en) * | 2018-02-15 | 2020-05-26 | Adobe Inc. | Saliency prediction for a mobile user interface |
US11159798B2 (en) * | 2018-08-21 | 2021-10-26 | International Business Machines Corporation | Video compression using cognitive semantics object analysis |
CN110874547B (zh) * | 2018-08-30 | 2023-09-12 | 富士通株式会社 | 从视频中识别对象的方法和设备 |
US10674152B2 (en) * | 2018-09-18 | 2020-06-02 | Google Llc | Efficient use of quantization parameters in machine-learning models for video coding |
CN109547711A (zh) | 2018-11-08 | 2019-03-29 | 北京微播视界科技有限公司 | 视频合成方法、装置、计算机设备及可读存储介质 |
US10776669B1 (en) * | 2019-03-31 | 2020-09-15 | Cortica Ltd. | Signature generation and object detection that refer to rare scenes |
EP3722998A1 (en) * | 2019-04-11 | 2020-10-14 | Teraki GmbH | Data analytics on pre-processed signals |
CN111279617A (zh) * | 2019-04-17 | 2020-06-12 | 深圳市大疆创新科技有限公司 | 数据解压缩的装置与方法 |
CN110795977B (zh) * | 2019-04-29 | 2020-09-04 | 当家移动绿色互联网技术集团有限公司 | 交通信号识别方法、装置、存储介质及电子设备 |
CN110120020A (zh) * | 2019-04-30 | 2019-08-13 | 西北工业大学 | 一种基于多尺度空洞残差注意力网络的sar图像去噪方法 |
CN110287798B (zh) * | 2019-05-27 | 2023-04-18 | 魏运 | 基于特征模块化和上下文融合的矢量网络行人检测方法 |
CN112243132A (zh) * | 2019-07-19 | 2021-01-19 | 四川大学 | 结合非局部先验与注意力机制的压缩视频后处理方法 |
CN111368629A (zh) * | 2019-11-23 | 2020-07-03 | 中国科学院长春光学精密机械与物理研究所 | 一种基于全色遥感图像的舰船识别方法、系统及终端设备 |
CN112905551B (zh) * | 2019-12-04 | 2022-04-29 | 阿里巴巴集团控股有限公司 | 数据压缩方法、装置、电子设备及计算机可读存储介质 |
CN111010495B (zh) * | 2019-12-09 | 2023-03-14 | 腾讯科技(深圳)有限公司 | 一种视频降噪处理方法及装置 |
CN111178188B (zh) * | 2019-12-17 | 2022-09-20 | 南京理工大学 | 基于频域先验的视频显著性目标检测方法 |
CN111050174A (zh) * | 2019-12-27 | 2020-04-21 | 清华大学 | 图像压缩方法、装置及系统 |
US11823352B2 (en) * | 2020-02-13 | 2023-11-21 | Intel Corporation | Processing video frames via convolutional neural network using previous frame statistics |
EP4111697A4 (en) * | 2020-02-27 | 2024-03-20 | SSIMWAVE Inc. | REAL-TIME LATENCY MEASUREMENT OF VIDEO STREAMS |
US11954819B1 (en) * | 2020-02-28 | 2024-04-09 | Unm Rainforest Innovations | System and methods for fast and scalable 2D convolutions and cross-correlations for processing image databases and videos on CPUs |
CN111400405B (zh) * | 2020-03-30 | 2021-04-02 | 兰州交通大学 | 一种基于分布式的监控视频数据并行处理系统及方法 |
CN111464834B (zh) * | 2020-04-07 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种视频帧处理方法、装置、计算设备及存储介质 |
CN113518227B (zh) * | 2020-04-09 | 2023-02-10 | 于江鸿 | 数据处理的方法和系统 |
WO2021203203A1 (en) * | 2020-04-10 | 2021-10-14 | Gao Xihe | Method and system for video encoding guided by hybrid visual attention analysis |
CN111726633B (zh) * | 2020-05-11 | 2021-03-26 | 河南大学 | 基于深度学习和显著性感知的压缩视频流再编码方法 |
DE102020208008A1 (de) * | 2020-06-29 | 2021-12-30 | Robert Bosch Gesellschaft mit beschränkter Haftung | Bildklassifikation und zugehöriges Training für sicherheitsrelevante Klassifikationsaufgaben |
CN112084887A (zh) * | 2020-08-19 | 2020-12-15 | 北京影谱科技股份有限公司 | 一种基于注意力机制的自适应视频分类方法及系统 |
CN112148774B (zh) * | 2020-09-29 | 2023-08-11 | 华能新能源股份有限公司 | 一种高分辨率空间多区域气象数据处理系统及方法 |
CN112200247B (zh) * | 2020-10-12 | 2021-07-02 | 西安泽塔云科技股份有限公司 | 基于多维图像映射的图像处理系统及方法 |
WO2022087826A1 (zh) * | 2020-10-27 | 2022-05-05 | 深圳市大疆创新科技有限公司 | 视频处理方法、装置、可移动设备及可读存储介质 |
CN112699878B (zh) * | 2020-12-26 | 2024-05-28 | 中国科学院大学 | 一种注视点指导的显著目标检测方法 |
US20230171435A1 (en) * | 2021-01-20 | 2023-06-01 | Boe Technology Group Co., Ltd. | Image encoding, decoding method and device, coder-decoder |
CN112819761B (zh) * | 2021-01-21 | 2023-09-01 | 百度在线网络技术(北京)有限公司 | 模型训练方法、分数确定方法、装置、设备、介质和产品 |
CN112837341B (zh) * | 2021-01-26 | 2022-05-03 | 石家庄铁道大学 | 自适应时空域行人外观还原方法 |
CN112949431B (zh) * | 2021-02-08 | 2024-06-25 | 证通股份有限公司 | 视频篡改检测方法和系统、存储介质 |
CN113112527B (zh) * | 2021-03-26 | 2024-01-09 | 西北工业大学 | 一种基于h264视频码流的运动小目标检测方法 |
US11715495B2 (en) * | 2021-05-26 | 2023-08-01 | Flawless Holdings Limited | Modification of objects in film |
US11398255B1 (en) | 2021-05-26 | 2022-07-26 | Flawless Holdings Limited | Modification of objects in film |
CN113379858A (zh) * | 2021-05-31 | 2021-09-10 | 超级视线科技有限公司 | 一种基于深度学习的图像压缩方法及装置 |
KR20240090254A (ko) * | 2021-09-29 | 2024-06-21 | 엘지전자 주식회사 | 피쳐 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 |
DE102021005196B4 (de) | 2021-10-13 | 2023-11-02 | Paul Zetzsch | Neustrukturierung von digitalem Bildmaterial durch Anpassung an punktbasierte Netzstrukturen |
US11962811B2 (en) * | 2021-10-19 | 2024-04-16 | Google Llc | Saliency based denoising |
WO2022104293A1 (en) * | 2021-10-26 | 2022-05-19 | Innopeak Technology, Inc. | Multi-modal video transformer (mm-vit) for compressed video action recognition |
CN116456098A (zh) | 2022-01-05 | 2023-07-18 | 南宁富联富桂精密工业有限公司 | 视频压缩方法、终端及计算机可读存储介质 |
CN114549673B (zh) * | 2022-02-25 | 2023-06-23 | 电子科技大学 | 一种基于学习频域信息预处理图像的图像压缩方法 |
CN114978313B (zh) * | 2022-05-18 | 2023-10-24 | 重庆邮电大学 | 一种基于贝叶斯神经元的可见光cap系统的补偿方法 |
CN114895275B (zh) * | 2022-05-20 | 2024-06-14 | 中国人民解放军国防科技大学 | 基于高效多维注意力神经网络的雷达微动手势识别方法 |
CN115019151B (zh) * | 2022-08-05 | 2022-10-21 | 成都图影视讯科技有限公司 | 非显著特征区域加速型神经网络构架、方法和设备 |
WO2024054467A1 (en) * | 2022-09-07 | 2024-03-14 | Op Solutions, Llc | Image and video coding with adaptive quantization for machine-based applications |
CN115620385B (zh) * | 2022-11-07 | 2023-07-28 | 湖南苏科智能科技有限公司 | 一种基于多元数据的安检工作人员注意力检测方法及系统 |
CN116019058B (zh) * | 2023-02-21 | 2023-10-13 | 凤集食品集团有限公司 | 一种蛋鸡养殖的间歇性补光方法及间歇性补光终端 |
CN116051811B (zh) * | 2023-03-31 | 2023-07-04 | 深圳思谋信息科技有限公司 | 区域识别方法、装置、计算机设备及计算机可读存储介质 |
CN116402817B (zh) * | 2023-06-08 | 2023-08-15 | 青岛国源中创电气自动化工程有限公司 | 基于视频分析的污水曝气量的检测方法 |
CN117437123A (zh) * | 2023-09-27 | 2024-01-23 | 宁波大学 | 一种光谱与纹理注意力融合的深度光谱超分辨率方法 |
CN117395381B (zh) * | 2023-12-12 | 2024-03-12 | 上海卫星互联网研究院有限公司 | 一种遥测数据的压缩方法、装置及设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2790130A1 (en) * | 2013-04-08 | 2014-10-15 | Cogisen SRL | Method for object recognition |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5608458A (en) * | 1994-10-13 | 1997-03-04 | Lucent Technologies Inc. | Method and apparatus for a region-based approach to coding a sequence of video images |
US20030043918A1 (en) * | 1999-12-20 | 2003-03-06 | Jiang Hong H. | Method and apparatus for performing video image decoding |
KR100961760B1 (ko) * | 2002-08-13 | 2010-06-07 | 퀄컴 인코포레이티드 | 이산코사인변환 계수를 참조하는 움직임 추정 방법 및 장치 |
CN1928543A (zh) * | 2006-09-15 | 2007-03-14 | 哈尔滨工业大学深圳研究生院 | 基于霍尔传感器阵列的钢丝绳无损检测方法及检测装置 |
US8200022B2 (en) | 2008-03-24 | 2012-06-12 | Verint Systems Ltd. | Method and system for edge detection |
CN101271525B (zh) * | 2008-04-10 | 2011-05-04 | 复旦大学 | 一种快速的图像序列特征显著图获取方法 |
US9609342B2 (en) * | 2010-02-19 | 2017-03-28 | Skype | Compression for frames of a video signal using selected candidate blocks |
CN102214298B (zh) * | 2011-06-20 | 2013-10-16 | 复旦大学 | 基于选择性视觉注意机制的遥感图像机场目标检测与识别方法 |
EP2790126B1 (en) * | 2013-04-08 | 2016-06-01 | Cogisen SRL | Method for gaze tracking |
CN103327359B (zh) * | 2013-06-14 | 2015-02-18 | 中国计量学院 | 一种应用于视频质量评价的视频显著性区域搜索方法 |
US9195903B2 (en) * | 2014-04-29 | 2015-11-24 | International Business Machines Corporation | Extracting salient features from video using a neurosynaptic system |
EP3364342A1 (en) | 2017-02-17 | 2018-08-22 | Cogisen SRL | Method for image processing and video compression |
EP3364343A1 (en) | 2017-02-17 | 2018-08-22 | Cogisen SRL | Method for image processing for object detection |
-
2017
- 2017-02-17 EP EP17156726.6A patent/EP3364342A1/en not_active Withdrawn
-
2018
- 2018-02-19 WO PCT/EP2018/054029 patent/WO2018150024A1/en unknown
- 2018-02-19 US US15/899,331 patent/US10586312B2/en active Active
- 2018-02-19 CN CN201880012659.5A patent/CN110300977B/zh active Active
- 2018-02-19 JP JP2019544673A patent/JP2020508010A/ja active Pending
- 2018-02-19 KR KR1020197026846A patent/KR102535098B1/ko active IP Right Grant
- 2018-02-19 EP EP18705151.1A patent/EP3583547A1/en active Pending
- 2018-02-19 IL IL268214A patent/IL268214B/en unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2790130A1 (en) * | 2013-04-08 | 2014-10-15 | Cogisen SRL | Method for object recognition |
Also Published As
Publication number | Publication date |
---|---|
IL268214B (en) | 2022-07-01 |
CN110300977A (zh) | 2019-10-01 |
EP3364342A1 (en) | 2018-08-22 |
CN110300977B (zh) | 2024-04-16 |
IL268214A (en) | 2019-09-26 |
WO2018150024A1 (en) | 2018-08-23 |
KR20190117651A (ko) | 2019-10-16 |
US20180240221A1 (en) | 2018-08-23 |
EP3583547A1 (en) | 2019-12-25 |
US10586312B2 (en) | 2020-03-10 |
KR102535098B1 (ko) | 2023-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110300977B (zh) | 用于图像处理和视频压缩的方法 | |
CN111868751B (zh) | 在视频代码化的机器学习模型中使用应用于量化参数的非线性函数 | |
CN110798690B (zh) | 视频解码方法、环路滤波模型的训练方法、装置和设备 | |
Bovik | Automatic prediction of perceptual image and video quality | |
US20200329233A1 (en) | Hyperdata Compression: Accelerating Encoding for Improved Communication, Distribution & Delivery of Personalized Content | |
RU2461977C2 (ru) | Сжатие и снятие сжатия изображения | |
Chen et al. | Perceptual video coding: Challenges and approaches | |
US20230065862A1 (en) | Scalable coding of video and associated features | |
US20130279598A1 (en) | Method and Apparatus For Video Compression of Stationary Scenes | |
WO2022139617A1 (en) | Encoding with signaling of feature map data | |
WO2022139618A1 (en) | Decoding with signaling of segmentation information | |
JP2023543520A (ja) | 機械学習を基にしたピクチャコーディングにおけるクロマサブサンプリングフォーマット取り扱いのための方法 | |
EP4211899A1 (en) | Decoding with signaling of feature map data | |
CN118216144A (zh) | 条件图像压缩 | |
US20240161488A1 (en) | Independent positioning of auxiliary information in neural network based picture processing | |
Florentín-Núñez et al. | Adaptive kernel regression and probabilistic self-organizing maps for JPEG image deblocking | |
WO2023160835A1 (en) | Spatial frequency transform based image modification using inter-channel correlation information | |
WO2023172153A1 (en) | Method of video coding by multi-modal processing | |
CN118020306A (zh) | 视频编解码方法、编码器、解码器及存储介质 | |
NO20200708A1 (en) | Method, computer program and system for detecting changes and moving objects in a video view | |
Saeedi et al. | Content adaptive pre-filtering for video compression | |
CN111885378B (zh) | 多媒体数据编码方法、装置、设备以及介质 | |
Dai | Visual Saliency Estimation Via HEVC Bitstream Analysis | |
TW202416712A (zh) | 使用神經網路進行圖像區域的並行處理-解碼、後濾波和rdoq | |
TW202420815A (zh) | 使用神經網路進行圖像區域的並行處理-解碼、後濾波和rdoq |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210205 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20211029 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20211221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220308 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220608 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220805 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20221101 |