JP2003523587A - ビジュアルアテンションシステム - Google Patents

ビジュアルアテンションシステム

Info

Publication number
JP2003523587A
JP2003523587A JP2001560954A JP2001560954A JP2003523587A JP 2003523587 A JP2003523587 A JP 2003523587A JP 2001560954 A JP2001560954 A JP 2001560954A JP 2001560954 A JP2001560954 A JP 2001560954A JP 2003523587 A JP2003523587 A JP 2003523587A
Authority
JP
Japan
Prior art keywords
pixel
image
sequence
pixels
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001560954A
Other languages
English (en)
Other versions
JP2003523587A5 (ja
JP4732660B2 (ja
Inventor
スタンティフォード、フレデリック・ウォーウィック・マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP00301262A external-priority patent/EP1126411A1/en
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JP2003523587A publication Critical patent/JP2003523587A/ja
Publication of JP2003523587A5 publication Critical patent/JP2003523587A5/ja
Application granted granted Critical
Publication of JP4732660B2 publication Critical patent/JP4732660B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)
  • Color Television Systems (AREA)

Abstract

(57)【要約】 目視可能なスクリーン内の最も顕著な特徴を予備的な訓練なしにシーン内部で近隣との間の類似性を見付ける上での困難性を測定することによって識別する。ある領域内のピクセルはシーン内の他の部分の大部分が似ている領域では、目視での注目について低測度の得点(スコア)を得る。これに対して、画像の他の部分とはたくさんの非類似を有している領域は目視での注目について高測度を集めることになる。この発明は試行錯誤プロセスを使用して画像の部分間での非類似を見つけるようにして、提示されることができる異常についての予備知識を必要としない。この発明はピクセル間の依存性を処理することの使用を避けて、各ピクセルについての直截的な並列実施を可能にしている。この発明は広い応用を有しているものであり、健康上のスクリーニングと品質管理プロセスにおける異常パターンの探索、及びサインや広告の目視可能性(ビジビリティ)を評価するための目視に係る人間工学的解析で使用される。この発明は、可変レート画像圧縮を与えるために画像プロセッサに対して顕著な特徴の測度を提供する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】
この発明は静止画像もしくはビデオシーケンス内部に含まれている目立ったオ
ブジェクトの位置決めをするためのシステムに係り、限定するわけではないが、
とくに画像圧縮システムにより使用されるシステムに関する。
【0002】
【従来の技術】
人間の視覚に係る眼と脳との知覚系(human visual eye-brain perceptual sy
stem)は提示されたシーン(情景)の一番重要な特徴を識別、同定するのに非常
に優れていて、大部分の自動化システムにとって必要とされているような予備的
な学習訓練なしでも、背景とか周囲の分布(ポピュレーション)からある種の違
いがあるオブジェクトを識別するのに非常によくできている。しかし、オートメ
ーションが望まれる若干の応用が存在し、例えば作業が非常に頻繁に反復される
とか、データ量が莫大な場合である。特定の例は医学的な顕微鏡の検鏡板に塗っ
た少量の(smear)サンプルを癌細胞識別のために検査することである。このよ
うな情況下では、大きな数のサンプルが検査されなければならず、しかも異常は
まれであり、人間である観察者の注意が緩んでしまって、探しているその特徴を
見過してしまうことがある。
【0003】 区別することができる画像内のオブジェクトを自動的に識別するシステムは、
また視覚上の情景(ビジュアルシーン、以下、visualを目視上とか目視可能なと
訳出する)内の重要な主体(principal subject)の位置の識別同定、情報サイ
ン(標識)の設計と位置決め、また目視可能な表示装置の長ったらしくしかも高
価な人間的因子の試行に代るものといった例のように数多くの他の目的にとって
も望ましいこととされている。
【0004】
【発明が解決しようとする課題】
目視上注目されるところを測定するための既存のシステムは、画像から前もっ
て特定した特徴(フィーチャ、例えば色、強度、配向)を抽出し、つぎに分類器
(例えばニューラル網)を学習訓練させて、大きく注目を集めるところ(ハイア
テンション)の領域を識別、同定する。これらの学習訓練ができるモデルは、そ
の画像内で探し求められている特徴の選択に大きく依存していて、システムの設
計と試験とのために使用されたものと殆んど類似性のないような新しい目視可能
な素材を処理することができない。逆説的な(パラドキシカルな)言い方をする
と、ある特徴は、学習訓練をしたシステムによってそうと同定されることになる
には奇形変形の仕方が過度であると単純にされるものである。このようなシステ
ムはまた予め選定した特徴を処理するためにかなりの計算処理資源を必要として
おり、さらに加えて、このような負荷は処理の範囲が拡大されて、もっと特徴が
加えられるのに伴って無制限に増加するものである。
【0005】 既知の画像圧縮システムの大部分は画像を一定の圧縮レートでしたがって一定
の圧縮品質でだけ圧縮できるという不都合を備えている。既知の可変レート圧縮
システムは画像内の関心のある領域に従り圧縮レートを自動的に変えることがで
きない。大部分の場合には、関心のある領域だけを高品質で圧縮しながら、画像
のその余の部分(背景のようなところ)を低品質でのみ圧縮することで十分であ
ろう。圧縮品質と画像ファイルサイズとは互に他に依存しているので、これは圧
縮された画像ファイルにとって必要とされるスペース(空間)の全体量を減らす
ことになる。職業的な(プロフェッショナルの)Web設計者により使用されて
いる一つの技術は、JPEGでの圧縮前に画像の背景を単純にぼんやりさせる(
blur)ことである。これは背景が連続しているトーンで作られるように強制し、
それによって画像内の空間周波数量を低減する。このように前処理された画像は
その記憶要件を最大30%まで減らされていて、この量はぼんやりさせていない
画像に対して比較したぼんやりしている量に依存している。手によって画像をぼ
んやりさせることは大層労働力を意識させるものであり、画像によっては価値あ
るほどに十分なスペースを節減できないことになりかねない。
【0006】 ジョイント・ピクチャ・専門家集団(JPEG)は新しい画像圧縮規格、JP
EG2000について作業を進めており、これはまた画像内で関心のある特定領
域を画像のその余の部分よりも高品質で圧縮できるようにしている。しかしなが
ら、関心のある領域の自動識別、同定は依然として問題となっている。
【0007】
【課題を解決するための手段】
この発明によると、目視上注目される領域を識別するために、目視可能な画像
を処理する方法が提供されていて、この方法は、各ピクセルが値を有しているピ
クセルのアレイとして画像を記憶する段階と、該アレイから試験ピクセルを選択
する段階と、各試験ピクセルについて、該試験ピクセルの近隣にあるいくつかの
近隣シーケンスのピクセルを選択する段階と、該アレイから比較ピクセルを選択
する段階と、選ばれた近隣シーケンスのピクセルが該試験ピクセルに対してもっ
ているのと同じそれぞれの位置関係を、該比較ピクセルに対して、もっていると
して選ばれた比較ピクセルの近隣にあるピクセルのシーケンスを識別する段階と
、該選ばれた近隣シーケンスの値を、該識別されたシーケンスの値と、所定の整
合規準に従り比較する段階と、各試験ピクセルについての目視上注目される測度
を、比較結果が不整合となった相手である試験ピクセルについて行なわれた比較
の回数に依存して生成する段階とを備えた方法である。
【0008】 この方法はまた画像のシーケンスにも適用できる。
【0009】 好ましい構成では、各比較ピクセルについて、試験ピクセルに隣接している選
ばれたピクセルのいくつかが、比較ピクセルに隣接している対応するピクセルと
実質的には類似していない強度値を有しているとすると、異常値(anomaly valu
e)がインクレメントされ、別の比較ピクセルを用いて同じ試験ピクセルとの比
較が繰返されて、比較ピクセルが選ばれるまで続き、選ばれた比較ピクセルにつ
いては、すべての選ばれたピクセルが試験ピクセルの近隣にある対応するピクセ
ルと実質的に類似している強度値をもつものとなり、この場合、別の近隣のシー
ケンスが選ばれて処理が繰返される。
【0010】 前に大きな異常値を発生したことがある近隣ピクセルシーケンスが後の試験ピ
クセルの解析用に選ばれるとするとこの処理は最も効率的に動作することが見付
かっている。そこで好ましいのは、処理が大きな異常値が生成された対象となっ
ている近隣シーケンスパターンを記憶する段階と、後の試験ピクセルについて、
後の試験ピクセルとのそれぞれの位置関係として該記憶された近隣シーケンスと
同じ位置関係をもつ近隣シーケンスを選ぶ段階とを含むことである。
【0011】 この発明の別な特徴によると、目視可能な画像もしくはこの種の画像のシーケ
ンスを目視上注目される領域を位置決めするために処理する装置が提供されてい
て、この装置は、各ピクセルが値を有しているピクセルのアレイとして画像を記
憶する手段と、該アレイから試験ピクセルを選択する手段と、該試験ピクセルの
近隣にあるピクセルについての近隣シーケンスを選択する手段と、該アレイから
比較ピクセルを選択する手段と、選ばれたピクセルについての近隣シーケンスが
該試験ピクセルに対してもっているのと同じそれぞれの位置関係を、該比較ピク
セルに対してもっているとして選ばれた比較ピクセルの近隣にあるピクセルのシ
ーケンスを識別する手段と、該選ばれた近隣シーケンスの値を、該識別されたシ
ーケンスの値と、所定の整合規準に従り比較する手段と、各試験ピクセルについ
ての目視上注目される測定を、不整合シーケンスと識別する比較数に依存して、
生成する手段とを備えた装置である。
【0012】 この装置は、適切にプログラムされた、汎用計算機として実施されているのが
よい。
【0013】 この発明はまたこの発明の方法を実行するためにプログラムされた計算機と、
ディジタル計算機の内部メモリ内に直接ロードできる計算機プログラム製品にま
で展開され、そこにはソフトウェアコード部分があって、上記で特定した段階を
実行するのにあてられる。
【0014】 また別な特徴によると、この発明は次のものを用意している。すなわち、計算
機で使用可能な媒体上に記憶された計算機プログラム製品であって、計算機をし
て各ピクセルが値を有しているピクセルのアレイとして画像を記憶するようにさ
せる計算機が読取り可能なプログラム手段と、該計算機をして該アレイから試験
ピクセルを選ぶようにさせる計算機が読取り可能なプログラム手段と、該計算機
をして、各試験ピクセルについて、該試験ピクセルの近隣にあるピクセルについ
ての近隣シーケンスを選ぶようにさせる計算機が読取り可能なプログラム手段と
、計算機をして該アレイから比較ピクセルを選ぶようにさせる計算機が読取り可
能なプログラム手段と、計算機をして、該試験ピクセルに対してピクセルについ
ての選ばれた近隣シーケンスと同じそれぞれの位置関係を比較ピクセルに対して
もっている、選ばれた比較ピクセルの近隣にある該ピクセルについてのシーケン
スを識別させる計算機が読取り可能なプログラム手段と、計算機をして、該選ば
れた近隣シーケンスの値を該識別されたシーケンスと所定の整合規準に従り比較
させる計算機が読取り可能なプログラム手段と、計算機をして各試験ピクセルに
ついての目視上注意される測度を、該比較で不整合となった比較の数に依存して
、生成させる計算機が読取り可能なプログラム手段とを備えた計算機プログラム
製品である。
【0015】 この発明は目視可能なシーン内部の重要な主体を識別、同定(アイデンティフ
ァイ)するために使用できるものであり、一番大きな異常値を有するピクセルを
含んでいる領域を識別することによっている。目視可能なシーンの中の所与のオ
ブジェクトに与えられているビジュアル・アテンション(目視上注目されるとこ
ろ)についての測度(あるいは尺度、メジャー)を判断するために使用されても
よく、ここではそのシーンの他の部分について生成された異常値をそのオブジェ
クトを表わしているピクセルについて生成された異常値と比較することにより測
度が決められる。
【0016】 この処理(プロセス)が繰返されるという性質をもっていることが並列処理に
手助けをしていて、いくつかの試験ピクセルが互に並列に処理されること、また
各試験ピクセルについて、近隣ピクセルのいくつかのシーケンスが並列に処理さ
れてもよいことに注目されたい。
【0017】 シーンについての他の類似の要素間での強度についての小さな変動を許すよう
にするために、値の比較は値についての小さな差異は二つのピクセルが整合と考
えられるようにできることが好ましく、また“実質的に類似している(同じもの
)(substantially similar)”と上述したのはこの意味であると理解されるべ
きことである。このしきい値差についての値は異なるサイクルで変えることがで
き、これらの値は記憶されて処理の後のサイクルで再使用される要素間で適切な
差別(違い)を作っている。
【0018】 カラー画像については、強度値は三要素(赤,緑,青;RGB)ベクトルであ
ってよい。代って他の色空間である色相(hue)、飽和(saturation)、ルミナ
ンス(luminance)などが使用されてもよい。
【0019】 この発明はシーン内の近隣間での類似度(similarity)を見付ける際の困難さ
を測定することによって目視可能なシーン内での顕著性(saliency;突出度)を
識別、同定する。ある領域のピクセルは、その領域がシーンの他のかなりの部分
と類似していれば目視上注目されることでは低い測度の得点とすることになる。
これに対して、画像の他の部分とは数多くの非類似をもつ領域は、得点される異
常値が大きくなるので、目視上注目されることでは高い測定を誘引することにな
る。
【0020】 この発明は試行錯誤処理を使用して画像の部分間での非類似を見出すようにし
、かつ顕著性を判断するために異常の性質についての前もっての知識を必要とし
ていない。この方法はピクセル間での処理の依存性を使用することを避けていて
、各ピクセルについて直截的な並列実施を可能にしている。
【0021】
【発明の実施の形態】
添付の図面を参照して、例をあげて、好ましい実施例を記述して行く。
【0022】 図4に示した部品は、スキャナ(走査器)のような入力手段41と、中央処理
装置(CPU)42と、ビデオディスプレイユニット(VDU)とかプリンタの
ような出力ユニット43と、メモリ44と、計算処理装置(計算プロセッサ)4
5とを備えている。メモリ(記憶装置)にはメモリ(ストア)440,444〜
446と、レジスタ441,447〜449と、カウンタ442,443とが含
まれている。データとプログラムで計算機を制御するためのものがメモリ44内
に記憶される。CPU42はこの情報を用いて計算機の機能を制御する。
【0023】 ここで図1と4とを考察すると、解析対象の画像40は入力手段によってアク
セスされて、画像メモリ440内にディジタル形式で記憶され、記憶はピクセル
xのアレイAとして行なわれ、ここで各ピクセルは色(カラー)強度(r,g ,b)としてピクセルの属性となっているものを有していて、グレイレベル
画像の場合には単一のグレイスケール強度値tを有することになる。
【0024】 ピクセルxはそこでアレイAから選ばれて(段階1)、その強度値(r,g ,b)もしくはtが試験ピクセルレジスタ441内に記憶される。いくつ
かの試験ピクセルが並列に処理されてよいが、例示の目的では一つだけがここで
は考察されることになる。
【0025】 異常カウントcは異常カウンタ442に記憶されていて、ピクセル比較I の数のカウント(計数値)は比較カウンタ443内に記憶されていて、その両方
がゼロに設定される(段階2)。
【0026】 サーチ戦略(ストラテジィ)が次にCPU42により選ばれて(段階3,4,
5)、近隣グループ定義メモリ444に送られる。各サーチ戦略は一組の色差し
きい値(Δr,Δgx,Δb)(あるいはグレイレベルの場合には単一のし
きい値Δt)(段階3)と近隣グループ定義(段階4,5)とを備えている。
【0027】 色相、飽和、値(HSV)空間内でカラー画像に作用するこの発明の別な実施
例では、Δh,Δs,Δv色差しきい値が使用されており、これについて
はもう少し詳しく後で述べる。カラー画像についてこの発明の実施例で使用され
るしきい値は、ピクセル間の比較が実行されるカラー空間に依存することになる
【0028】 この発明の別の実施例では色差しきい値は前もって決められていて、新しい近
隣グループ定義戦略の選定毎に変わることはない。
【0029】 最初にサーチ戦略がCPU42によってランダムに生成されることになり、も
しその戦略が差を識別するのに不適当であるとすると、そのサイクルは排斥され
(段階9以降)、新しい戦略が選ばれる。成功する戦略はサーチ戦略メモリ44
5内に後続の再使用のために記憶されるようにできる(段階11)。
【0030】 段階3で選んだ色差しきい値は二つのピクセルが類似していると考えられるべ
きかどうかを決める。この差しきい値はある最小値を越えていなければならず、
そうでないと類似が何も見付からないことになるのであるが、そうかといって大
きすぎると、多すぎるくらいの類似が見付かることになる。
【0031】 近隣グループを定義するために、半径uがある境界内でランダムに選ばれる
(段階4)。この値はxの近隣の拡がり(範囲)を決めており、この中ではピク
セル類似比較が計算プロセッサ45により行なわれる。u上の境界は目視上の
注目を設定する特徴(フィーチャ)のスケール(寸法)によって決められ、この
スケールは画像が解析される目的に依存することになる。差しきい値のように、
選定はこういった限界の内部ではランダムであり、区別を与えることに失敗する
選定は排斥される(段階9)。
【0032】 試験ピクセルxの近隣の中の中でn個のピクセルxのシーケンスが画像メモ
リ440から選ばれる(段階5)。ここでもまた、選定はランダムであり、選定
は次による。
【0033】 dist(x,x(j−1)<u ここでj=1,…,nであり、またx0=xである。
【0034】 選定がランダムであるから、このようなピクセルのシーケンスは必ずしも互に
近隣にある必要はないし、いかなる意味でも連続しているということにならない
【0035】 このようなシーケンスの例が図2に示されていて、ここでは試験ピクセル(箱
で示す)はそれと関係しているシーケンス(陰影はつけていない)を有している
。一般にn=3で、u=1である。ある場合には、uはjとともに変る。こ
れはピクセルが広い領域から選ばれるようにしながら、選ばれたピクセルのいく
つかが試験ピクセルxに近くにあることを確かにしている。dist(x,x(
j−1))の値は何でもよい適当な単位で定義でき、例えばピクセルの寸法でよ
い。近隣シーケンスの定義は近隣グループ定義メモリ444内に記憶される。
【0036】 この発明の他の実施例では、n個のピクセルxのシーケンスで試験ピクセル
xの近隣にあるものが画像メモリ440から選ばれ(段階5)、選定は次による
【0037】 dist(x,x)<u ここでj=1,…,nであり、またx=xである。
【0038】 前に生成されたサーチ戦略は、CPU42によって先取り選択されてよい。こ
れらのサーチ戦略は、(1)近隣ピクセルシーケンス定義xと、(2)関係す
る色差しきい値(Δr,Δg,Δb)であって、サーチ戦略メモリ445
内に記憶されている。この記憶は、後に論じられる段階11での、先行する試験
ピクセルについての大きな異常に関する得点を得るという結果として行われる。
この戦略はランダムに生成された候補をプロセッサ42が現在の近隣グルーム定
義メモリに向けて、条件が満足されるときに供給される。この条件は、このよう
な記憶された規準(すなわち、戦略)が使い尽くされることとなっている。
【0039】 同じように、たくさんの類似の画像を処理するときには、(例えば動いている
画像の中とか、医学的な微量の試料を塗った顕微鏡用検顕板(smear)の試験の
ような類似画像の大量組の処理では)、先行する試験について大きな異常得点を
得ている試験シーケンスがサーチ戦略メモリ445から検索読出し(レトリーブ
)されてよい。
【0040】 ピクセルyはランダムに選ばれて(段階6)、現在の比較ピクセルとなるよう
にされ(これは図2の箱で示されている)このアイデンテティ(識別子ID)が
比較ピクセルレジスタ447内に記憶される。
【0041】 比較カウンタ443に記憶されているIの値はインクレメントされる(段階
7)。近隣グループ定義レジスタ444のコンテンツ(内容)はそこで計算プロ
セッサ45により使用されて、試験グループxを形成する一組のピクセル(レ
ジスタ448)と、比較グループyを形成する一組のピクセル(レジスタ44
9)とを定義し、比較グループの各ピクセルyは、試験ピクセルxに対して試
験グループ内の対応するピクセルxがもっているのと同じ位置関係を比較ピク
セルyに対して持つことになる(段階9)。計算プロセッサ45はそこで各ピク
セルx(図2で陰影のあるもの)を対応するピクセルy(これも陰影がある
)と比較し、この比較には近隣グループ定義メモリ444から検索読取られたし
きい値が用いられる。 ピクセルyは試験ピクセルxと類似しているとして識別されるが、その条件は、
|ry−|<Δr,|gy−|<Δg,及び|by−|<Δb である。 すべてのグレイレベル画像については|ty−|<Δtである。 別の実施例では、計算がHSV色空間(カラースペース)で実行され、ピクセル
yは試験ピクセルxと類似しているとして識別され、その条件は、 |vy−|<Δv,|sy−|<Δs,及び|hy−|<Δh であり、ここでΔh=Z(2−v(2−s)である。Zはh
依存しているしきい値の経験的テーブル内に記憶されている。これがvとs との小さい値に対してΔhが大きくなるという結果をもたらしている。二値画
像についてこの発明の方法の動作を加速するために、比較ピクセルyは試験ピク
セルxと整合するように選ばれてよい(すなわち、“白”とか“黒”とかである
背景ピクセルを無視することである)。
【0042】 カラーもしくはグレイレベル画像については、動作速度は比較ピクセルメモリ
446内に記憶されるようにしてよい比較グループから比較ピクセルyを選ぶこ
とによって増大されるようにできる。比較グループは図12に示したように選ぶ
ことができる。目視上注目されるところの測度が比較グループ内のピクセルの全
てについて生成されると、新しい比較グループが、ピクセルは一番大きな目視上
注目されるところの測度を生成しているピクセルの近くにある、ピクセル(複数
)から選ばれてよい。
【0043】 試験グループ内のピクセルのすべてが比較グループ内の対応するピクセルy と類似であるとすると、処理は新しい比較規準を選び(段階4,5)、また新し
い比較ピクセルyを選ぶ(段階6)によって繰返される。もし(図2に示したよ
うに)試験グループ内でいくつかのピクセルxが上述の類似性定義に従り、比
較グループ内でのカウントcで異常カウントレジスタ442に記憶されている
ものがインクレメントされる(段階10)。別の比較ピクセルyがランダムに選
ばれて、比較ピクセルレジスタ447内に記憶され(段階6に戻る)、近隣グル
ープ定義メモリ444から検索された近隣グループ定義が使用され、新しい比較
近隣グループを比較グループレジスタ449に向けて供給して、試験グループレ
ジスタ448内に記憶された試験グループとの比較にあてられる。一組のピクセ
ルxが試験グループレジスタ448内に保存されていて、その期間は画像の他
の部分との整合に失敗するまで続く。このような組はxの在る場所(locality)
についての区別できる顕著な特徴を表わしていて、整合の失敗が起れば起るほど
顕著性があることになる。もっと多くの比較ピクセルyが試験ピクセルxとの整
合に失敗するとなると、異常カウンタ442内に記憶されている異常値cがも
っと大きくなる。逆に、試験ピクセルxがより多くの整合を生じさせると、しき
い値Lが比較カウンタ443によって到達されるときには異常値についての値が
より低いものとなる。エル(l)回の比較がされる度毎に、この処理によりもた
らされる結果の異常値cは、試験ピクセルxについて整合がとれなかったラン
ダムに選ばれたピクセルの割合の測度であると考えられてよい。
【0044】 処理が継続するにつれて、成功するサーチ規準が次第に明らかになる。このサ
ーチ規準は言い換えるとΔr,Δg,Δbとuの値と、近隣シーケンス
の組合せであって、大きなcの値を生成するものである。もし、n個のピクセ
ルxのシーケンスと、対応する色差しきい値(Δr,Δg,Δb)が異
常カウンタ442内に記憶されたcの異常値をして、整合が見付かる前に、し
きい値Mと到達するようにさせるものであるとすると、近隣グループ定義メモリ
444内に記憶されたサーチ戦略はサーチ戦略メモリ445にコピィされて(段
階11)将来の使用にあてられるが、これはすでに記憶されていないことを条件
とする。大きな異常値を生成した規準はこうしてサーチ戦略メモリ445で利用
可能であり、別なサイクルでの適当な値を選択するために使用される(段落4,
5)。一旦、整合が見付かると、処理が再開され、新しいサーチ戦略(色差しき
い値及び近隣の組)で近隣グループ定義メモリ444に記憶されているものが使
用される(段階9)。ここではサーチ戦略メモリ445からの検索か、ランダム
生成されたものかのいずかが使用される。
【0045】 反復値Iで比較カウンタ443内に記憶されているものがしきい値Lに到達
するときには、反復処理は停止し(段階8)、現在の異常値cであって異常カ
ウンタ442内に記憶されているものが出力ユニット43でピクセルxについて
の異常値として出力される。最終の異常値cは試験ピクセルxについての目視
上注目される測度であり、これは全体でL回の試行となるうちの試行の数であっ
て、この数はランダムに選ばれたピクセルyについての対応している近隣との整
合に失敗したピクセルxのランダムに選ばれた近隣の本来の特性(すなわちカラ
ー)についての試行数である。cについての大きな値はピクセルxがその画像
のその余の部分と不整合の程度が大きいことを示しており、その結果、ピクセル
xが目視上注目に値するオブジェクトの一部であることを示している。
【0046】 出力ユニット43は一般に記憶媒体であり、この媒体はプリンタとか、目視可
能な表示ユニットなどによる表示用にあるいは後続の処理のために各ピクセルの
異常値を記憶するのであって、例えば、後の処理は画像圧縮であって、これは後
で図5〜11を参照して記述することにする。
【0047】 この発明は三つの値(R,G,B/H,S,V)あるいは単一の値(グレイレ
ベル)をもつポイント(点)の二次元画像を参照して記述されてきたのであるが
、この方法はpの値をもつポイントを有するn次元画像にも拡張できることは理
解できよう。
【0048】 pの値があるポイントを使用する場合には二つのピクセルが類似しているかど
うかを、上述の段階9でグレイレベル、RGB及びHSV画像についてした評価
のための機能はpの値についての比較に拡張されることになる。
【0049】 n次元画像の場合には近隣ピクセルの選択はn次元距離測度を用いて行なわれ
、段階5で近隣グループを選ぶようにする。このようにして、この発明の方法を
ビデオシーケンス内の継続するフレームのシーケンスに対して応用することがで
き、この例では使用される次元の一つが時間となっている。
【0050】 この発明の二つの単純化した例で使用されているものについて記述することに
する。図2aはモノクローム画像であり、いくつかの垂直方向特徴と一個の対角
特徴を有しているものを示す。図2aから見とれることは、垂直方向特徴の一つ
からのあるピクセルについての近隣の組を形成しているピクセルのグループが他
の垂直方向の特徴からの近隣のピクセルのグループと整合することになるという
ことである。しかしながら、対角特徴のピクセル形成部分は他の特徴からのピク
セルと整合がとれそうもない。対角特徴内での別のピクセルについても、試験ピ
クセルか比較ピクセルのいずれかの近隣ピクセルがこの特徴の端を越えて延びて
いるとすると整合をとるのに失敗することになる。そこで、いずれかの近隣組に
ついて整合を得る確率は、垂直特徴の一つについての形成部分と比較すると、対
角特徴のピクセル形成部分については極めて僅かなものになる。
【0051】 例示の実施形態では、ピクセルは規則的な直線で囲まれた図形による埋めつく
し(regular rectilinear tessellation)を形成しているが、この処理はピクセ
ルの他の構成についても適切とされる。もしアレイが不規則であると各ピクセル
の比較ピクセルyに対する位置関係は、各ピクセルxの試験ピクセルxに
対する位置関係と正確に同じでなくてよいが、それぞれはできる限り正確に対応
している位置に密接するようにする。
【0052】 この処理には他のプロセスよりも好都合ないくつかの点がある。第一に、この
処理は画像のコンテンツについて何の仮定も置いておらず、測定処理の一部とし
てコンテンツに関係する有用な特徴を抽出できて、これによりどんな画像中の素
材(マテリアル)にも適応することができる。第二に、このプロセスはどんなピ
クセルの構成にも等しく応用されることであり、ピクセルが矩形のアレイに並べ
られていても、ら線状のアレイでも、あるいは不規則パターンであってもよい。
第三に、この処理は各ピクセルxiに応用できることであり、この際には他のピ
クセルと関係している計算に何ら依存しないので、それにより数多くのピクセル
に同時に並列に適用してよい。これが意味するところは、並列実施では、結果が
ビデオ素材から実時間すなわちずっと高速で得られることである。第四に、この
アルゴリズムは進化したプロセスに基づいているので、このプロセスでは試行が
規則上厳格な励行を求められる(rigor)正規に許されているソフトウェアプロ
セスで用意されなければならないということがないという好都合さがある。若干
のサイクルは有用な結果を作り出さないことがあり、例えば結果に明らかな冗長
さが含まれていることが理由となっている(例をあげると、同じピクセルを一度
ならず含んでいる近隣ピクセルxのシーケンスがある)。このようなサイクル
は顕著な特徴を識別とそこなった他のサイクルと同じように排斥され、その際に
はこのようなシーケンスを識別することが必要とされている特種排斥プロセスを
用いなくてよい。これが試行について顕著な候補を正確に構築するために求めら
れる計算処理上の負荷を取除いている。
【0053】 以下の簡単化した例では、この処理が黒白画像に応用され、しかもこの画像が
完全に1と0との画像である。この場合にはΔti =1/2,n=3,L=10
0,またu=1である。第一の例(図2a,2b)は“ポップアウト(popout
)”(注:見たときに、とくに目立つ形のこと)についての古典的な問題をあげ
ていて、この問題では形状についてのある種の形式が異なる形状で囲まれている
ときに登場する。
【0054】 図2aの各ピクセルに属している目視上注目される測度は図2bのチャートに
示されている。たて軸は異常値(試行数Lの百分率としてある)を各ピクセルに
ついて示している。異常値ci は垂直方向バーについてよりも対角バーについて
非常に高いものとなっている。
【0055】 図3aは目視上注目されるところでのクラスタ化の効果を示すもので、ここで
は垂直方向線のグループ形成がもっと広幅に分離されている他部の中に置かれて
いる。この発明の処理を用いる結果が図3bに示されている。ここでもまたクラ
スタ化したラインがより大きな異常得点を得ている。
【0056】 この処理は予備的な前もっての知識をサーチされる異常についての性質につい
て求めていない。異常は方向であってよいし(図2のような場合)、間隔であっ
てよいし(図3aのような場合)、形状、長さ、色、もしくは他の特性であって
よい。
【0057】 この発明は多数の分野で広範囲の応用をもつものである。第一に、目視可能な
シーンの中での重要な主体の識別は、フィルタをかけていない目視可能なコンテ
ンツの分類における第一の本質的な段階である。このことはまた最もむづかしい
ものでもある。一度この段階が達成されると、手操作によるタグ付けが続き、あ
るいはいろいろな範囲のテンプレートマッチングとか他の自動化技術であって、
このように識別された特徴の認識にあてられるものとかが続く。
【0058】 この発明の方法を用いる画像圧縮の方法を図5ないし11を参照して記述して
行くことにするが、最初はこの発明による画像データの圧縮方法の概観を図5a
,5bを参照して用意することとする。
【0059】 離散的余弦変換(Discrete Cosine Transform)を用いる画像の圧縮は既知で
ある。数多くの画像圧縮アルゴリズムは、JPEGがその例であるが、このよう
な圧縮を使用し、またよく動作することが証明済みである。DCTを用いる原理
は、画像内のピクセルが二次元信号として取扱えるということであり、これがD
CTによって周波数ドメインに変換される。色と輝度に変化がほとんどない画像
内の領域は、低い空間周波数をもつ領域であり、これに対して、色と輝度とに大
きな変化をもつ領域は高い空間周波数をもつ領域である。研究により示されたと
ころは、人間の眼は高い空間周波数に対しては非常に敏感であるというのではな
いことと、この事実が圧縮に使えるということであった。さらにもっと重要なこ
とは低い空間周波数についての情報をもつことであり、それによって高い空間周
波数はもとの画像を合理的な妥当な品質で回復するために伝送されたり記憶され
たりする必要がないということである。高圧縮率(レート)については空間周波
数に対する人間の感度のモデルが使用され、これがある周波数についてのフィル
タとして取扱うことができる。
【0060】 標準的な圧縮アルゴリズムは関心のある領域が画像内で自動的に特定できて、
それにより、その領域が背景よりも高品質で圧縮できるということを許さないの
で圧縮は最適とはならない。もしある画像がnバイトの寸法をもつことを求めら
れるとすると、全体の画像が求められたファイル寸法に適するように同じ品質で
圧縮されなければならないが、これがときによっては品質が非常に貧弱で不満足
なものであることを意味しかねない。画像の中にはいつもある部分があって、そ
こが他よりもっと関心のあるところとなっていて、またそうではなく僅かな関心
しかない部分もある。通常は人物に関心があり、背景には関心がない。したがっ
て、背景を非常に高い圧縮率で(低品質で)、また画像のその余の部分を非常に
低い圧縮率(高品質)で圧縮するのが好都合ということになる。もし平均の圧縮
率が一定の圧縮率で圧縮された画像についてと同じであるとすると、結果として
のファイルサイズは同じことになる。しかし、可変圧縮率で圧縮した画像は、看
者に対して、この画像の方が全体の画像について一定の圧縮率で圧縮したものよ
りも、よい印象を与えることになる。
【0061】 この発明の方法は、ユーザがある画像を圧縮するのに、その画像の異なる部分
について異なる品質レベルを用いてすることができるようにしている。品質のレ
ベルはビジュアル・アテンション・マップ(VA−マップ)30を用いて画像内
のある領域について判断される。このマップは簡単に作れる。圧縮後にはVA−
マップ30は圧縮された画像データの一部を形成することになる。
【0062】 入力画像はRGB画像であり、言い換えると、そのピクセルは三原色R,G,
B(赤緑青)の和として表わされる。この三原色の各々が0〜255の間の整数
とにより表わされる。もともモノクローム画像も等しく使用されてよい。
【0063】 入力画像はYCbCrカラー空間に変換され、同時に成分であるルミナンス(
Y)とクロミナンス(CbとCr)とに分解される。人間の眼はカラー(色)の
変化よりも輝度(ブライトネス)の変化により敏感であるから、二色成分Cb,
Crが4:1:1ダウンサンプリング機構を用いてダウンサンプルされる。
【0064】 次にこれらの成分が8×8ピクセルブロック32に区分され、各ブロックは圧
縮アルゴリズムにより個別に取扱いがされる。すべての成分(Y,Cb,Cr)
について各方向のサンプルの数が8の倍数でなければならず、それで後の処理の
ための完全なピクセルブロックが用意される。入力画像がこの要件に適っていな
いとすると、追加のサンプルが人為的に作り出されてブロック内の空になってい
るピクセル空間内に充填される。ダウンサンプリングが理由となって、x方向と
y方向とのブロックの数はY成分について2の倍数でなければならず、このこと
は後に説明する。
【0065】 あるブロックが周波数ドメインにFDCT(フォワードDCT)14により変
換される。結果の係数はそこで量子化器16によって量子化される。量子化はデ
ータの低減に通じ、画像圧縮に対する鍵(キー)となっている。量子化後となる
と、画像は誤差(エラー)なしには再構築することができない。しかし量子化テ
ーブル18を用いることによって、このテーブルが人間の空間周波数に対する感
度を実現するものとなっていて、エラーは認知することができない程小さいもの
とすることができる。量子化のレベルは量子化係数20により影響を受けていて
、この係数20が使用された、その画像についてのVAマップ30により可変品
質レベルを作るようにしている。
【0066】 量子化の後に、各ブロックはジグザグスキャナ22により64次元ベクトルに
変換される。これが低い空間周波数についての係数をベクトルの始め(低インデ
ックス)に置き、また高い空間周波数についての係数を終り(高インデックス)
に置く。高周波数についての係数は量子化の結果としてゼロとなるから、ゼロの
長いシーケンスがジグザグスキャニングプロセスによって作られる。ジグザグベ
クトルはそこでランレングスエンコーダ24でエンコードされて、その結果が二
つのアレイ、すなわちランレングスアレイ26とレベルアレイ28の中に記憶さ
れる。最後に、すべてのブロックが処理されてしまうと、こういった二つのアレ
イがエントロピィコーダ50によってエントロピーコーデングされ、結果のバイ
トアレイ52が出力ファイルにVA−マップ30と画像についての一般情報と一
緒に出力ファイルに書込まれる。ファイルフォーマットについては後述する。
【0067】 画像のデコード(解圧縮)をここで図6a,6bを参照して記述することとし
、それからコーダとエンコーダとの個々の部分の機能について図7ない11を参
照して記述する。
【0068】 画像データのデコードと画像の再構成とは上述のコーデング処理の逆となって
いる。バイトアレイ52内の画像データはまずエントロピィデコードがエントロ
ピーデコーダ60によつて行なわれ、結果が単一の8×8ブロックについてのア
レイに区分される。単一のブロック26,28についてのアレイは次にランレン
グスデコーダ62によりランレングスデコードされ逆ジグザグスキャナ64を用
いて8×8サンプルマトリックスとして記録されて、解量子化器(デクオンタイ
ザ)66により量子化が解かれ、その際には適切な量子化テーブル18がVA−
マップ30から得られた情報と一緒に用いられている。次にデータが周波数ドメ
インから成分サンプル値に戻る変換にかけられ、ここでは逆DCT67が使用さ
れ、結果が各成分について異なるアレイ内に記憶される。最期に、三つの成分ア
レイが使用されて最終画像が編成される。CbとCrとの成分は線形補間フィル
タ68,69を用いてアップサンプルされる。結果として得られた画像はもとの
画像よりも大きくなりそうであり、その理由としてブロックパッデング(block
padding)があげられ、また画像はもとのサイズにクロップ(crop,トリミング
)されなければならない。
【0069】 もとのRGB画像から8×8ピクセルブロック32(図5,6)を形成するこ
とについて、図7と8を参照してより詳細に記述して行く。
【0070】 RGB値からY,Cb,Cr値への変換は次の式で与えられる。
【0071】 Y=rnd(0.299・R+0.587・G+0.114・B) Cb=「−0.1687・R−0.3313・G+0.5・B+128」 Cr=「0.5・R−0.4187・G−0.0813・B+128」 ここでR,G,Bは[0,255]の範囲内にあり、Y,Cb,Crもまた[0
,255]の範囲内にある。R,G,BとY,Cb,Crとは整数である。
【0072】 CbとCr成分は4:1:1ダウンサンプラ機構を用いてダウンサンプルされ
る。xとyとの方向で毎第二のピクセルについて、三成分のすべてが記憶される
。他のピクセルについてはY成分だけが記憶される。これが意味するのは毎四つ
のYサンプルについて一つのCbサンプルと一つのCrサンプルとがあることで
ある。このダウンサンプリングが模式的に図7に示されている。こうしてCbと
CrとのアレイがYアレイの大きさのちょうど1/4となる。これができるのは
人間の眼がカラー(Cb,Cr)よりも輝度(Y)での変化にずっと敏感である
ことによる。
【0073】 前述しているようにダウンサンプリングはデータ量をファクタ2だけ減らす。
ダウンサンプリングとすべての成分が8×8ピクセルブロックに分けられるとい
う事実とが理由となって、後の処理にとって必要とされるサンプルの数はすべて
の成分についてxとyとの方向で8の倍数となる必要がある。
【0074】 図7に示されるように、8×8サンプルのブロックを形成するためには、8×
8入力サンプル(RGBサンプル)のアレイはY成分について必要とされ、また
、16×16入力サンプル(RGBサンプル)のアレイがCbとCrとの成分に
ついて必要とされる。16×16入力サンプルアレイはマクロブロックと呼ばれ
る。空へ成分についての関心のレベルは、マクロブロックを形成している四つの
サンプルブロックのVA−マップ内で定義される関心についての最大レベルとし
て定義される。
【0075】 xとyとの方向の8×8ピクセルブロックの数は[数1]で与えられる。
【0076】
【数1】
【0077】 これらの式でwidth(幅)は入力画像のx方向における入力サンプル(ピクセ
ル)の数であり、またheight(高さ)はy方向における入力サンプル(ピクセル
)の数である。サンプルが境界で加えられた後に画像内で必要とされるサンプル
の全数は[数2]によって計算される。
【0078】
【数2】
【0079】 境界で加えられることになるサンプルの数は[数3]によって計算される。
【数3】
【0080】 ここでwidthは幅をheightは高さをそれぞれ表わす。
【0081】 追加のサンプルは高い空間周波数が何も生成されないように加えられなければ
ならない。これが行なわれるのは、境界サンプルで拡張することによる。このこ
とは簡単に実施され、また水平または垂直の周波数のいずれかがない形で自動的
に作り出せる。しかしながら、その境界における画像のコンテンツに依存して、
一方向における高い周波数は依然として作られてよい。まず、すべての行が境界
における最新のサンプルでパッド(詰めること)され、次に列が後でパッドされ
る。画像からの8×8ピクセルブロックの編成(フォーメーション)が模式的に
図8に示されている。
【0082】 画像の圧縮を解くために、上述のカラー変換の逆が[数4]で定義される。
【0083】
【数4】
【0084】 逆カラー変換については、R,G,Bについての結果値は、丸めが理由となっ
て[0,255]の有効範囲を越えてもよい。したがって、超過した値はそれぞ
れ最小値及び最大値まで切り詰められる(クランプされる)。
【0085】 離散的余弦変換(DCT)がサンプルを周波数ドメインに変換するために使用
される。フォワード離散的余弦変換(FDCT)で変換器14により使用される
ものが[数5]によって定義される。
【0086】
【数5】
【0087】 ここで成分サンプルsx,yはFDCTの計算に先立ってDCレベルシフトさ
れていて、各サンプルから128を原産することによってゼロの周りにそれらの
中心が来るようにしている。
【0088】 この画像の圧縮を解くために逆離散的余弦変換(IDCT)が逆離散的余弦変
換器67によって使用され、この変換が[数6]で定義される。
【0089】
【数6】
【0090】 DCレベルシフトを戻すために、128が各サンプルsx,yにIDCTの計
算の後で加えられる。
【0091】 量子化器16は次のように動作する。変換器16からの64のDCT係数の各
々は量子化器16によって、量子化テーブル18内に記憶されている値を用いて
量子化される。各係数についての量子化器ステップサイズSu,vが量子化テー
ブルからの対応する要素Qu,vに量子化係数を乗算した値から計算される。こ
こで乗数である係数はVA−マップ30によって定義された品質のレベルを表わ
している。量子化テーブルは人間の眼の空間周波数感度を反映していて、経験的
に求められる。二つの異なる量子化テーブルは一つがルミナンス成分(Y)につ
いてであり、また一つがクロミナンス成分(CbとCr)についてのものである
。一般に、クロミナンス係数の量子化のためのステップサイズはルミナンス係数
のためのものよりも大きく、その理由は、人間の眼がルミナンスの誤差に対して
、クロミナンスの誤差に対するよりも、敏感であることによる。
【0092】 量子化は[数7]により定義される。
【0093】
【数7】
【0094】 ここで因子qはVA−マップ10によって定義される品質レベル因子である
。この発明の実施例ではVA−マップは品質についての四つのレベルをサポート
していて、これが2ビットを用いて記憶されていて、これらのレベルが品質レベ
ル因子を定義する適切な数に写像される。品質についての個々のレベルについて
の品質レベル因子は圧縮された画像ファイル内に記憶される。
【0095】 画像の解圧縮については、逆量子化関数が[数8]により与えられる。
【0096】
【数8】
【0097】 この発明の実施例では、ルミナンス係数についての量子化テーブルは表1で定
義される。
【0098】
【表1】
【0099】 また、クロミナンス係数についての量子化テーブルは表2で定義される。
【0100】
【表2】
【0101】 量子化の後には、64の係数は数多くのゼロを含むことになり、とくに高い周
波数係数についてはそれが言える。ゼロの長いシーケンスを作るためには、この
64の係数は8×8マトリックスから64次元ベクトルzに変換されて、図9に
模式的に示すように、ジグザグスキャナ22によってジグザグシーケンスに再順
序付けされる。
【0102】 ジグザク走査(スキャニング)から生じたベクトルがゼロの長いシーケンスを
含んでいることから、ランレングスコーデングがデータ量を減らすために使用さ
れる。
【0103】 このベクトル内の各値は二つの出力値であって、ランレベルコンビネーション
(組合せ)と呼ばれているものにより表わされ、一つは先行するゼロの数を定義
し、一つはゼロのシーケンスの後に続くゼロでない値のレベル(数値)を定義す
る。最後にランレングスエンコードした値に続くすべての値がそのベクトル内で
ゼロであれば、(0,0)である特別のランレングス組合せが使用される。この
特殊組合せはブロックの終り(EOB,エンドオブブロック)組合せと呼ばれる
【0104】 DCTの性質が原因となって、ベクトルの第一の要素は変換された画像データ
のDC係数となっている。このDC係数はAC係数とは違った取扱いを受ける。
エンコードされることになる値は、前のDC項からの現在のDC項の差である。
これがエンコードすべき数をより小さいものとして、これが後続のエントロピー
コーデングにおけるデータ量を減らすのに役立つことになる。ランとレベルとに
ついての二つの値は二つのアレイとしてランレングスエンコーダ24により出力
される。二つのアレイはランレングスアレイ26とレベルアレイ28であって、
これらは8×8ピクセルブロックのすべてが一旦処理されると、エントロピーエ
ンコーダ50によって使用されて、データ量をさらに減らすようにする。
【0105】 レベルは[数9]によって計算される。
【0106】
【数9】
【0107】 また解圧縮のために、逆レベルエンコーデングが[数10]により計算される。
【0108】
【数10】
【0109】 ランレングスエンコーデングの例は次による。この例ではランレベル組合せは
(r,l)と書かれ、ここでrはゼロのランレングスであり、またlはこのゼロ
に続くレベルである。 ランレングスエンデングについての入力レベルが、 {-126,26,43,2,2,1,1,0,0,0,1,0,0,-1,-1,0,0,0,0,0,…,0}(全部で64の値)
であり、また先のDC項−119である。ランレングスエンコードしたデータは
そこで次になる。 (0,-7),(0,26),(0,13),(0,2),(0,2),(0,1),(0,1),(3,1),(2,-1),(0,-1),(0,0) 二つの出力ベクトルは次のように見えることになる(グレイ値は前のブロックか
らの値である) {…2,4,0,23,0,0,0,0,0,0,0,0,3,2,0,0,}(ランベクトル) また、 {…-1,1,2,-1,0,-7,26,43,2,2,1,1,1,-1,-1,0}(レベルベクトル)。
【0110】 ランレングスエンコーデングの後で、ランベクトルとレベルベクトルとは組合
されてエントロピーエンコーダによってエントロピイエンコードされることは図
5bで前に示した通りである。これはピクセル当りのビット数を減らす。エント
ロピイエンコーデングは一番頻繁に発生するランレベル組合せについての修正さ
れたHuffman(ハフマン)テーブルによって行なわれる。頻繁に発生する組合せ
を表わすのに使用されるコードについてのビット数が小さくなると、ラン・レベ
ル組合せが発生する頻度は高くなる。画像ファイルサイズを最少に保つために、
固定のテーブルが使用される。このテーブルは試験画像の大きな組から経験的に
得られたものである。ある画像については、ダイナミック(動的)ハフマンコー
ドテーブルがより小さなファイルサイズに導くことができるが、しかし大部分の
場合にはこの発明のこの実施例で使用されるハフマンコートテーブルは一番小さ
なファイルサイズに導くものとなっている。
【0111】 ランレベル組合せは次のやり方を用いてエンコードされる: エンコードのためにラン・レベル組合せについてハフマンコードテーブル内にエ
ントリィがあるとすると、そのときはこのテーブルからのコードが使用される。
正と負とのレベルをエンコードするために、符号ビットがテーブルから採用され
たコードの先頭に置かれる; ・ある種のラン・レベル組合せについてハフマンテーブル内にエントリィがなけ
ればそのときは次の標準コーデングのやり方が使用されなければならない。
【0112】 標準コーデングは符号ビットを“1”に設定し、続いて二つの可能なエスケー
プ(ESC1,ESC2マーカ)の一つを設定することによって達成される。次
の6ビットは符号なし二値コードとしてランレングスを表わし、また最後にレベ
ルが続く。このレベルは符号付き二値コードとしてエンコードされることになる
。もし、レベルが[−127,127]の中にあれば、ESC1マーカが使用さ
れて、8ビットを用いてレベルがエンコードされる。もし、レベルが[−255
,255]の中にあれば、ESC2マーカが使用されて、9ビットを用いてレベ
ルがエンコードされる。この段階では、レベルは[−255,255]をはみ出
すことができず、これが最大9ビットだけでレベルをエンコードするのに十分で
あるという理由となっている。事実上、係数の最大絶対値は200よりも小さい
ものとなることになる。
【0113】 最も普通のラン・レベル組合せについては、次の表3〜7で定義されるような
ハフマンコードが使用される。このテーブルはランとレベルとで種分けされてい
て、エンコード用に使用できる。エンコーダはラン・レベル組合せを用いて対応
するハフマンコードを一覧参照(ルックアップ)する。
【0114】
【表3】
【0115】
【表4】
【0116】
【表5】
【0117】
【表6】
【0118】 同じ情報が画像データをデコードするために使用されるる表3〜6はコードレ
ングスによって種分けされている。この表はエントロピーデコーダ60(図6b
)により使用され、このデコーダ60は受取ったコードとそのコードレングス(
コード長)とを用いてラン・レベル組合せをルックアップする。
【0119】
【表7】
【0120】
【表8】
【0121】
【表9】
【0122】
【表10】
【0123】 ハフマンコードの若干のサンプルを表11に示す。
【0124】
【表11】
【0125】 この発明のこの実施例で使用される方法により圧縮された画像の全成分は下か
ら上へまた左から右へ(ボトム・アップ・レフト・トウ・ライト)のやり方で処
理される。これが意味することは、ある成分の第一のブロックが入力画像の下左
隅にあり、次のブロックがその右にあるというふうにそのブロックラインの端ま
で進ということであり、次のブロックラインは前のブロックラインの上にあり、
すべてのブロックラインは左で始まるということである。このプロセスは図10
に示されている。
【0126】 各ブロックはエントロピーエンコーデングまでは個別に取扱われるのでブロッ
クデータ流(ストリーム)を作ることの異なるやり方がたくさん存在する。すべ
ての画像データを実際に受取る前に画像はデコードされる必要がないのでインタ
ーリーブがされていない構造が選ばれており、その理由はアルゴリズムを単純に
することと、処理時間を短縮することがあげられる。これが意味するところは、
Y成分の全ブロックが先ず処理されて記憶され、それに続いてCb成分について
の全ブロックが、そして最後にCr成分についての全ブロックが処理されて記憶
されることである。進行形のデコード/エンコードがまた可能であり、後に記述
される。結果のデータ流を図11に示す。
【0127】 この発明の方法に用いて圧縮された画像はこの実施例では次のようなファイル
フォーマット(ここではVACIMGファイルと呼ぶ)で記憶される。
【0128】 この発明のこの実施例はビジュアルアテンションマップ(VA−マップ)を用
いて画像を圧縮し、このマップが関心のある異なるレベルで圧縮すべき画像内の
異なる領域を定義する。四つのレベルがこの実施例で使用されているが、もっと
レベルあっても少いレベルでも望むところにより使用可能である。関心のある各
レベルに対応する領域は各々がそれ自体の圧縮レートで圧縮され、これによって
背景は画像の他の部分よりも高い圧縮率で(かつ低品質で)圧縮できるようにな
る。圧縮された画像はそこでファイル内に記憶され、このファイルも、VA−マ
ップを含んでいる。高い圧縮率というのがこの発明のこの実施例の目標の一つで
あるから、画像についての情報は必要最小限がファイルに記憶される。画像につ
いての一般的な情報のすべてが先ずファイルに来て、次にVA−マップが続き、
それから圧縮された画像データがファイルに来る。画像についての一般的な情報
はx及びy方向におけるサンプル数と、四つの可能なレベルのすべてについての
品質のレベルとで構成されている。あるファイルがVACIMGファイルであるかどう
かを応用が検出できるようにするために、ファイルシグネチャが一般的な画像情
報の前部に挿入される。
【0129】 表12はVACIMG画像により使用されるファイルフォーマットの概要を与えてい
る。
【0130】
【表12】
【0131】 すべてのバイトはバイト内の標準のウインドウズビットアラインメントを用いて
ファイルに書込まれる。このファイルは文字“V”,“A”,“C”,“I”,
“M”及び“G”を表わしている6バイトで始まる。次にサンプル数、幅と高さ
とが続く。両方とも符号なしの16ビット整数として記憶される。最高位(最重
要度)バイトが最初に来る。これに四つの品質レベルが続き、これらが符号なし
の8ビット整数として記憶される。次にVA−マップが来て、このマップは関心
のあるレベル(と、したがって、圧縮のレベル)を記憶する。VA−マップは8
×8ピクセルブロックについて2ビットで表わされている。x及びy方向のブロ
ック数は前記の式で与えられ、この式が使用されて、VA−マップにより使用さ
れるバイト数が次のように計算される。すなわち、 k=bxby/4 最後にすべての圧縮された画像データが続く。圧縮された画像データについて使
用されたバイトの数はデコーダにとっては不知である。デコーダに与えられたす
べてのバイトを使用して画像を再構築しなければならず、ファイルの終りに到達
したときには自動的にデコードを終結させなければならない。
【0132】 VA−マップを用いることは、画像について進行形の(プログレッシブ)デコ
ーデングを可能とし、この場合には画像の一番関心のある部分が先ずデコードさ
れる。画像成分のDCT係数を記憶するために非インターリーブ構造を用いるの
に代って、インターリーブした構造を用いることができ、それによってあるブロ
ックを再構成するためのすべての情報がデータ流の中で一緒に接近するようにす
る。これが受信側にとって受取った画像を完全なファイルを受取る前に、解圧縮
を開始して、組み上げることができるようにする。これはワールドワイドウエブ
(WWW)、無線応用プロトコル(WAP)電話、あるいはビデオフォンにとっ
てもいえることであるが、こういった技術にとって極めて有用となる。JPEG
はすでに進行形のエンコーデングを提供しているが、ビジュアルアテンション(
目視上注目)に基づいた画像圧縮を用いることから得ることができる利点が存在
する。最も重要とされているブロック(レベル3のブロック)が最初におくられ
るようにでき、それにレベル2のブロック、レベル1のブロックが続き、最後に
背景ブロック(レベル0のブロック)が続く。これが意味することは、受信側が
画像の“メッセージ”をかなり早くに得て、受信者が十分な情報を受取ってしま
うと、データ流を切断することを決意することもできるということである。大部
分の応用では、画像はピクセルの固定シーケンスとして送られていて、例えば左
下隅で始まってライン毎に上方へ画像が走査される。したがって、画像の“メッ
セージ”を得るためには、全体の画像が送られて再構成されるまで待たなければ
ならないことになる。VA−マップを用いることは、重要なピクセルを先ず送り
、それに続いて次に重要なピクセルをという順序で続くことができ、それによっ
てメッセージを得るのに十分な情報があるところでデータ流を切断することがで
きる。この技術はビデオ流の送りを、狭い帯域幅の網上で、妥当な品質で可能と
している。とくに、ビデオフォンにとっては、この技術は多少の背景情報の損失
を伴うものの低い帯域幅で画像を提供することになる。
【0133】 もし帯域幅が全体の画像を送るのに狭すぎるときにはデコーダとエンコーダと
がいつでもブロックの送りを停止でき、このときは一番重要なブロックの送信だ
けが行なわれる。受信側で改良された画像を得るためには。全体の画像は背景も
また更新するために毎度しばしば送られねばならない。しかしながら、ほとんど
のときには一番重要なブロックだけを置換すれば十分であり、新しいブロックで
置換えできないときには前の画像の背景ブロックを用いることで足りる。
【0134】 また自動的にブロックをぼんやりさせることも可能であり、対象となるブロッ
クはVA−マップ内での低いVAレベルが原因となって量子化が低いレベルでデ
コードされたものである。これはメモリや帯域幅のオーバーヘッド(計算機負荷
)を伴わずにデコードされた画像の知覚上の品質を改善する。
【0135】 この発明の別な応用には設計と警告標識(例えば道路標識)の位置についての
人間工学的な考慮を含んでいて、その目的とするところは標識を目立つように描
くことであり、このことは試行錯誤のプロセスとしばしばなっているところであ
り、これが公衆にとって危険をその間に与えることがある。目視上の注目につい
ての客観的な測度(言い換えれば、提案された環境の中にある、意図された観衆
の視ている標識の中で標識とかあるいはその他の何かが主要な主体となっている
かどうかを識別する測度)が設計プロセスを改良して、不十分な目立ち方の試験
標識によって生ずる事故の危険を減らすことになる。他の識別たとえば広告のよ
うなものと、インターネット“ウエブサイト”のような表示スクリーンの配置と
いったものの目視上のインパクトもまたこのプロセスを用いて最適化されて、特
定の場所での注目度を最大のものとする。
【0136】 この発明はまた背景もしくは周辺の密度分布(ポピュレーション)からある点
で異なっているオブジェクトを識別することもできる。例えば、癌にかかった細
胞は周辺の健康な細胞内には存在しない特徴を有していることにより識別できる
。眼によるこのような以上の識別は非常に労力を要するプロセスであり、その理
由には多数のサンプルが調べられることと、癌細胞の比較的希有なこと(rarity
)とが挙げられる。人間の観察者は眼にかかるひずみ(ストレイン,いわゆるス
トレス)と疲労との結果として注意が変えることが知られている。
【0137】 別な例として素粒子物理学者により使用される泡箱写真では、新しいしかも異
常な粒子軌跡のパターンがこのプロセスによって識別できる。関心のある大部分
の軌跡はこれまでに未発見の粒子で未知の性質をもつものによって生成されたも
のであるから、このようなサーチのためのテンプレートを工夫することは不可能
である。
【0138】 他の例には、繊維製品等のテクスチャの目視的な提示における欠陥の客観的な
検出であり、これが織物やマイクロチップ配置の製造プロセスについて、あるい
は他のプロセスで表面欠陥が避けられないものの品質力保証を改善する。
【0139】 その他の応用では周囲と正号していないオブジェクトの存在の認識がセキュリ
ティサーベイランス(安全調査)の分野で数多くの応用を有している。このよう
な対象(オブジェクト)は保安要員が早くに注目しないとすると、重大な危害を
もたらすことになる。同じように、衛星画像内に存在する異常なオブジェクトは
生態系(エコロジー)の局所的変化とか有用な知的情報を顕在化できる。
【0140】 この発明はまた人間の視覚のモデルとして役立つものであり、いろいろな課題
への応用をもち、この課題の中では人間の挙動性質を長くしかも経費を要する人
間因子についての試行に代るものとしてエミュレートするのが必要とされている
【0141】 この発明が応用を見出すことができる他の分野にはビデオ素材についての改善
された描画が含まれ、ここでは知覚上重要な領域がより詳細に描画され、学生生
徒の注目を集めるために教材を強調したり、高い注目をもつオブジェクトについ
ての外形線をつけるように画像編集をしたりして、それにより切断されて例えば
複合用に使用されるようにしたり、また鉄道、道路上の安全信号を、目視上注目
されるレベルについての自動監視を介して、自動チェックすることが含まれてい
る。
【図面の簡単な説明】
【図1】 プロセスを模式的に示す図。
【図2】 この発明による方法で処理されることになる画像を表わし、ピクセルx,y の二つの組についての比較プロセスを示す図(図2a)と、これらの画像につ
いて生成された異常値の写像を示す図(図2b)。
【図3】 この発明による方法で処理されることになる第二の画像を表わす図(図3a)
、およびこれらの画像について生成された異常値の写像を示す図(図3b)。
【図4】 この発明を実行できる汎用計算機の基本的な部品を模式的に示す図。
【図5】 ともにこの発明による画像コーダを示す図(図5a、b)。
【図6】 ともにこの発明による画像デコーダを示す図(図6a、b、c)。
【図7】 4:1:1ダウンサンプリング技術を示す図。
【図8】 ある画像をブロックとブロックパッデングに分けることを示す図。
【図9】 ジグザグ走査を示す図。
【図10】 画像ボトムアップ及び左から右への処理を示す図。
【図11】 インターリーブされていないデータ流の例を示す図。
【図12】 処理速度を高めるために比較ピクセル群を選択する例を示す図。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE,TR),OA(BF ,BJ,CF,CG,CI,CM,GA,GN,GW, ML,MR,NE,SN,TD,TG),AP(GH,G M,KE,LS,MW,MZ,SD,SL,SZ,TZ ,UG,ZW),EA(AM,AZ,BY,KG,KZ, MD,RU,TJ,TM),AE,AG,AL,AM, AT,AU,AZ,BA,BB,BG,BR,BY,B Z,CA,CH,CN,CR,CU,CZ,DE,DK ,DM,DZ,EE,ES,FI,GB,GD,GE, GH,GM,HR,HU,ID,IL,IN,IS,J P,KE,KG,KP,KR,KZ,LC,LK,LR ,LS,LT,LU,LV,MA,MD,MG,MK, MN,MW,MX,MZ,NO,NZ,PL,PT,R O,RU,SD,SE,SG,SI,SK,SL,TJ ,TM,TR,TT,TZ,UA,UG,US,UZ, VN,YU,ZA,ZW (72)発明者 スタンティフォード、フレデリック・ウォ ーウィック・マイケル イギリス国、アイピー12・3エルエイチ、 サフォーク、ウッドブリッジ、ボイトン、 シープスター(番地なし) Fターム(参考) 5C057 EA01 EA02 EA07 EM09 EM13 EM16 GH03 5C059 MA00 MA23 MC11 MC38 ME02 ME05 PP01 PP15 PP16 TA46 TB08 TC34 UA02 5L096 AA02 AA06 GA36 GA41 HA07 JA11 KA07

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】 目視上注目される領域を識別するために、目視可能な画像を処
    理する方法であって、 各ピクセルが値を有しているピクセルのアレイとして画像を記憶する段階と、 該アレイから試験ピクセルを選択する段階と、 各試験ピクセルについて、該試験ピクセルの近隣にあるいくつかの近隣シーケン
    スのピクセルを選択する段階と、 該アレイから比較ピクセルを選択する段階と、 選ばれた近隣シーケンスのピクセルが該試験ピクセルに対してもっているのと同
    じそれぞれの位置関係を、該比較ピクセルに対して、もっているとして選ばれた
    比較ピクセルの近隣にあるピクセルのシーケンスを識別する段階と、 該選ばれた近隣シーケンスの値を、該識別されたシーケンスの値と、 所定の整合規準に従り比較する段階と、 各試験ピクセルについての目視上注目される測度を、比較結果が不整合となった
    相手である試験ピクセルについて行なわれた比較の回数に依存して生成する段階
    とを備えた方法。
  2. 【請求項2】 各比較ピクセルについて、該試験ピクセルの近隣の該選ばれ
    たピクセルのいくつかが該比較ピクセル近隣の対応するピクセルの値と実質的に
    は同じでない値をもっているときには、異常値がインクレメントされ、処理が別
    の比較ピクセルを用いて、同じ試験ピクセルで比較ピクセルが選ばれるまで繰返
    されて、これによってすべての選ばれたピクセルが試験ピクセルの近隣の該対応
    するピクセルと実質的に同じとなる値をもつことになり、この場合に別の近隣シ
    ーケンスが選ばれて、処理が繰返される、請求項1記載の方法。
  3. 【請求項3】 複数の試験ピクセルが同時に解析される、請求項1または2
    記載の方法。
  4. 【請求項4】 複数の比較ピクセルが与えられた試験ピクセルと同時に比較
    される、請求項1,2,3のいずれか1項記載の方法。
  5. 【請求項5】 前記値がカラー画像を表わしている三元ベクトルである、請
    求項1ないし4のいずれか1項記載の方法。
  6. 【請求項6】 近隣シーケンスに加えて、別の可変サーチ規準が選ばれる、
    請求項1ないし5のいずれか記載の方法。
  7. 【請求項7】 前記別の可変サーチ規準が二つのピクセル値は実質的に同じ
    であるかどうかを判断するためのしきい値を含んでいる、請求項6記載の方法。
  8. 【請求項8】 請求項1ないし7のいずれか1項に記載の方法であって、該
    方法は高い異常値が生成されたサーチ規準についての値を記憶し、かつ後続の試
    験ピクセルについて同じサーチ規準を選ぶ段階を含んでいる方法。
  9. 【請求項9】 請求項1ないし8のいずれか1項に記載の方法であって、目
    視可能なシーン内の重要な主体が一番大きな異常値をもつピクセルを含んでいる
    領域の識別によって同定される方法。
  10. 【請求項10】 請求項1ないし8のいずれか1項に記載の方法であって、
    目視可能なシーン内での所与のオブジェクトに対して与えられる目視上注目され
    る測度が、そのオブジェクトを表わしているピクセルについて生成された異常値
    を該シーンの他の部分について生成された異常値との比較によって判断される方
    法。
  11. 【請求項11】 画像圧縮の方法であって、請求項1ないし10のいずれか
    1項により目視上注目される領域を位置決めするように画像を処理することと、
    目視上注目される局所的領域に従り該画像を、目視上低く注目される領域を備え
    た該画像の領域よりもより高精度でコード化することとを備えた画像圧縮方法。
  12. 【請求項12】 目視上注目される局所的領域が該画像のコード化のための
    量子化レベルを選ぶために使用される、請求項11記載の画像圧縮方法。
  13. 【請求項13】 目視可能な画像もしくはこの種の画像のシーケンスを目視
    上注目される領域を位置決めするために処理する装置であって、 各ピクセルが値を有しているピクセルのアレイとして画像を記憶する手段と、 該アレイから試験ピクセルを選択する手段と、 該試験ピクセルの近隣にあるピクセルについての近隣シーケンスを選択する手段
    と、 該アレイから比較ピクセルを選択する手段と、 選ばれたピクセルについての近隣シーケンスが該試験ピクセルに対してもってい
    るのと同じそれぞれの位置関係を、該比較ピクセルに対してもっているとして選
    ばれた比較ピクセルの近隣にあるピクセルのシーケンスを識別する手段と、 該選ばれた近隣シーケンスの値を、該識別されたシーケンスの値と、所定の整合
    規準に従り比較する手段と、 各試験ピクセルについての目視上注目される測定を、不整合シーケンスと識別す
    る比較数に依存して、生成する手段とを備えた装置。
  14. 【請求項14】 請求項1ないし12のいずれか1項の方法を実行するよう
    にプログラムされた計算機。
  15. 【請求項15】 ディジタル計算機の内部メモリ内に直接ロードできる計算
    機プログラム製品であって、該製品が計算機上で実行されるときには、請求項1
    ないし12のいずれか1項に記載の段階を実行するためのソフトウェアコード部
    分を備えている計算機プログラム製品。
  16. 【請求項16】 計算機で使用可能な媒体上に記憶された計算機プログラム
    製品であって、 計算機をして各ピクセルが値を有しているピクセルのアレイとして画像を記憶す
    るようにさせる計算機が読取り可能なプログラム手段と、 該計算機をして該アレイから試験ピクセルを選ぶようにさせる計算機が読取り可
    能なプログラム手段と、 該計算機をして、各試験ピクセルについて、該試験ピクセルの近隣にあるピクセ
    ルについての近隣シーケンスを選ぶようにさせる計算機が読取り可能なプログラ
    ム手段と、 計算機をして該アレイから比較ピクセルを選ぶようにさせる計算機が読取り可能
    なプログラム手段と、 計算機をして、該試験ピクセルに対してピクセルについての選ばれた近隣シーケ
    ンスと同じそれぞれの位置関係を比較ピクセルに対してもっている、選ばれた比
    較ピクセルの近隣にある該ピクセルについてのシーケンスを識別させる計算機が
    読取り可能なプログラム手段と、 計算機をして、該選ばれた近隣シーケンスの値を該識別されたシーケンスと所定
    の整合規準に従り比較させる計算機が読取り可能なプログラム手段と、 計算機をして各試験ピクセルについての目視上注目される測度を、該比較で不整
    合となった比較の数に依存して、生成させる計算機が読取り可能なプログラム手
    段とを備えた計算機プログラム製品。
  17. 【請求項17】 目視上注目される領域を識別する、目視可能な画像のシー
    ケンスを処理する方法であって、 各ピクセルが値を有しているピクセルの多次元アレイとして画像のシーケンスを
    記憶する段階と、 該アレイから試験ピクセルを選択する段階と、 各試験ピクセルについて、該試験ピクセルの近隣にあるピクセルについてのいく
    つかの近隣シーケンスを選択する段階と、 該アレイから比較ピクセルを選択する段階と、 選ばれた近隣シーケンスのピクセルが該試験ピクセルに対してもっているのと同
    じそれぞれの位置関係を、該比較ピクセルに対して、もっているとして選ばれた
    比較ピクセルの近隣にあるピクセルのシーケンスを識別する段階と、 該選ばれた近隣シーケンスの値を、該識別されたシーケンスと、所定の整合規準
    に従り比較する段階と、 各試験ピクセルについての目視上注目される測度を、該比較結果が不整合となっ
    た相手である試験ピクセルについて行なわれた比較の回数に依存して生成する段
    階とを備えた方法。
JP2001560954A 2000-02-17 2001-02-08 ビジュアルアテンションシステム Expired - Lifetime JP4732660B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP00301262.2 2000-02-17
EP00301262A EP1126411A1 (en) 2000-02-17 2000-02-17 Visual attention location system
EP00307771 2000-09-08
EP00307771.6 2000-09-08
PCT/GB2001/000504 WO2001061648A2 (en) 2000-02-17 2001-02-08 Visual attention location system

Publications (3)

Publication Number Publication Date
JP2003523587A true JP2003523587A (ja) 2003-08-05
JP2003523587A5 JP2003523587A5 (ja) 2008-03-27
JP4732660B2 JP4732660B2 (ja) 2011-07-27

Family

ID=26073010

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001560954A Expired - Lifetime JP4732660B2 (ja) 2000-02-17 2001-02-08 ビジュアルアテンションシステム

Country Status (8)

Country Link
US (1) US6934415B2 (ja)
EP (1) EP1281164B1 (ja)
JP (1) JP4732660B2 (ja)
KR (1) KR100821847B1 (ja)
CN (1) CN1214349C (ja)
AU (1) AU2001232029A1 (ja)
CA (1) CA2400085C (ja)
WO (1) WO2001061648A2 (ja)

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2400085C (en) * 2000-02-17 2008-02-19 British Telecommunications Public Limited Company Visual attention system
US20020154833A1 (en) * 2001-03-08 2002-10-24 Christof Koch Computation of intrinsic perceptual saliency in visual environments, and applications
US6870956B2 (en) 2001-06-14 2005-03-22 Microsoft Corporation Method and apparatus for shot detection
KR100976930B1 (ko) 2002-03-22 2010-08-18 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니 패턴 비교 방법
US7546236B2 (en) 2002-03-22 2009-06-09 British Telecommunications Public Limited Company Anomaly recognition method for data streams
US7098117B2 (en) * 2002-10-18 2006-08-29 The Regents Of The University Of Michigan Method of fabricating a package with substantially vertical feedthroughs for micromachined or MEMS devices
US7274741B2 (en) 2002-11-01 2007-09-25 Microsoft Corporation Systems and methods for generating a comprehensive user attention model
US7116716B2 (en) * 2002-11-01 2006-10-03 Microsoft Corporation Systems and methods for generating a motion attention model
US20040088723A1 (en) * 2002-11-01 2004-05-06 Yu-Fei Ma Systems and methods for generating a video summary
US7130461B2 (en) * 2002-12-18 2006-10-31 Xerox Corporation Systems and method for automatically choosing visual characteristics to highlight a target against a background
GB0229625D0 (en) 2002-12-19 2003-01-22 British Telecomm Searching images
US7164798B2 (en) * 2003-02-18 2007-01-16 Microsoft Corporation Learning-based automatic commercial content detection
US7260261B2 (en) * 2003-02-20 2007-08-21 Microsoft Corporation Systems and methods for enhanced image adaptation
US7369167B2 (en) * 2003-06-02 2008-05-06 Micron Technology, Inc. Photo diode ID for CMOS imagers
US7400761B2 (en) * 2003-09-30 2008-07-15 Microsoft Corporation Contrast-based image attention analysis framework
US7471827B2 (en) 2003-10-16 2008-12-30 Microsoft Corporation Automatic browsing path generation to present image areas with high attention value as a function of space and time
JP4396430B2 (ja) * 2003-11-25 2010-01-13 セイコーエプソン株式会社 視線誘導情報生成システムおよび視線誘導情報生成プログラム、並びに視線誘導情報生成方法
AU2004233453B2 (en) * 2003-12-03 2011-02-17 Envysion, Inc. Recording a sequence of images
GB0328326D0 (en) 2003-12-05 2004-01-07 British Telecomm Image processing
JP4207883B2 (ja) * 2004-03-24 2009-01-14 セイコーエプソン株式会社 視線誘導度算出システム
US9053754B2 (en) 2004-07-28 2015-06-09 Microsoft Technology Licensing, Llc Thumbnail generation and presentation for recorded TV programs
US7986372B2 (en) * 2004-08-02 2011-07-26 Microsoft Corporation Systems and methods for smart media content thumbnail extraction
CN101057172B (zh) * 2004-09-03 2015-07-15 优卡西公司 用于改进视觉的系统和方法
US7620249B2 (en) 2004-09-17 2009-11-17 British Telecommunications Public Limited Company Analysis of patterns
US7562056B2 (en) * 2004-10-12 2009-07-14 Microsoft Corporation Method and system for learning an attention model for an image
EP1732030A1 (en) 2005-06-10 2006-12-13 BRITISH TELECOMMUNICATIONS public limited company Comparison of patterns
US8135210B2 (en) 2005-07-28 2012-03-13 British Telecommunications Public Limited Company Image analysis relating to extracting three dimensional information from a two dimensional image
US8559525B2 (en) * 2005-10-21 2013-10-15 Amimon Ltd. Apparatus and method for uncompressed, wireless transmission of video
US20070297612A1 (en) * 2005-10-21 2007-12-27 Meir Feder Method, device and system of encrypted wireless communication
EP1938624A4 (en) * 2005-10-21 2009-10-28 Amimon Ltd APPARATUS AND METHOD FOR WIRELESS TRANSMISSION OF UNCOMPRESSED VIDEO
US7860180B2 (en) * 2005-10-21 2010-12-28 Amimon Ltd OFDM modem for transmission of continuous complex numbers
US8180826B2 (en) 2005-10-31 2012-05-15 Microsoft Corporation Media sharing and authoring on the web
US7773813B2 (en) * 2005-10-31 2010-08-10 Microsoft Corporation Capture-intention detection for video content analysis
US8196032B2 (en) * 2005-11-01 2012-06-05 Microsoft Corporation Template-based multimedia authoring and sharing
EP1798961A1 (en) 2005-12-19 2007-06-20 BRITISH TELECOMMUNICATIONS public limited company Method for focus control
US7599918B2 (en) * 2005-12-29 2009-10-06 Microsoft Corporation Dynamic search with implicit user intention mining
US20070156382A1 (en) * 2005-12-29 2007-07-05 Graham James L Ii Systems and methods for designing experiments
JP2007241479A (ja) * 2006-03-06 2007-09-20 Toshiba Corp 変動領域検出装置及びその方法
US7809170B2 (en) * 2006-08-10 2010-10-05 Louisiana Tech University Foundation, Inc. Method and apparatus for choosing and evaluating sample size for biometric training process
TWI324326B (en) * 2006-11-03 2010-05-01 Univ Nat Taipei Technology A mura defect detection algorithm for flat panel displays
US8132096B1 (en) * 2007-03-26 2012-03-06 Hewlett-Packard Development Company, L.P. Image composition evaluation
US7940985B2 (en) * 2007-06-06 2011-05-10 Microsoft Corporation Salient object detection
KR101605919B1 (ko) * 2007-07-03 2016-03-24 쓰리엠 이노베이티브 프로퍼티즈 컴파니 배정된 컨텐츠의 효과를 측정하기 위해 컨텐츠가 배정될 수 있는 시간 슬롯 샘플을 발생시키는 시스템 및 방법
US20090012847A1 (en) * 2007-07-03 2009-01-08 3M Innovative Properties Company System and method for assessing effectiveness of communication content
AU2008272901B2 (en) * 2007-07-03 2011-03-17 3M Innovative Properties Company System and method for assigning pieces of content to time-slots samples for measuring effects of the assigned content
EP2101503A1 (en) 2008-03-11 2009-09-16 British Telecommunications Public Limited Company Video coding
US8326061B2 (en) * 2008-05-12 2012-12-04 Google Inc. Fast visual degrading of images
WO2010039966A1 (en) * 2008-10-03 2010-04-08 3M Innovative Properties Company Systems and methods for optimizing a scene
CA2750840A1 (en) * 2009-01-07 2010-07-15 3M Innovative Properties Company System and method for concurrently conducting cause-and-effect experiments on content effectiveness and adjusting content distribution to optimize business objectives
KR101584115B1 (ko) * 2009-03-31 2016-01-12 삼성전자주식회사 시각적 관심맵 생성 장치 및 방법
US8649606B2 (en) * 2010-02-10 2014-02-11 California Institute Of Technology Methods and systems for generating saliency models through linear and/or nonlinear integration
US8542875B2 (en) 2010-09-17 2013-09-24 Honeywell International Inc. Image processing based on visual attention and reduced search based generated regions of interest
US8504912B2 (en) * 2011-07-15 2013-08-06 Neodata Group S.R.L. System to forecast performance of online news articles to suggest the optimal homepage layout to maximize article readership and readers stickiness
CN102568016B (zh) * 2012-01-03 2013-12-25 西安电子科技大学 基于视觉注意的压缩感知图像目标重构方法
US9042648B2 (en) * 2012-02-23 2015-05-26 Microsoft Technology Licensing, Llc Salient object segmentation
US8705870B2 (en) 2012-03-02 2014-04-22 Microsoft Corporation Image searching by approximate κ-NN graph
US9710493B2 (en) 2013-03-08 2017-07-18 Microsoft Technology Licensing, Llc Approximate K-means via cluster closures
US9866900B2 (en) * 2013-03-12 2018-01-09 The Nielsen Company (Us), Llc Methods, apparatus and articles of manufacture to detect shapes
US9128994B2 (en) * 2013-03-14 2015-09-08 Microsoft Technology Licensing, Llc Visually representing queries of multi-source data
CN105190689A (zh) * 2013-06-14 2015-12-23 英特尔公司 包括基于毗连特征的对象检测和/或双边对称对象分段的图像处理
US9245192B2 (en) 2013-09-20 2016-01-26 Here Global B.V. Ad collateral detection
US9373057B1 (en) * 2013-11-01 2016-06-21 Google Inc. Training a neural network to detect objects in images
US10026010B2 (en) 2014-05-14 2018-07-17 At&T Intellectual Property I, L.P. Image quality estimation using a reference image portion
US12099357B1 (en) * 2014-08-24 2024-09-24 AI Incorporated Method for robotic devices to authenticate users
EP3475785A4 (en) * 2016-04-22 2020-05-13 SZ DJI Technology Co., Ltd. SYSTEMS AND METHODS FOR PROCESSING IMAGE DATA BASED ON A USER'S INTEREST
US10452951B2 (en) 2016-08-26 2019-10-22 Goodrich Corporation Active visual attention models for computer vision tasks
US10685432B2 (en) * 2017-01-18 2020-06-16 Ricoh Company, Ltd. Information processing apparatus configured to determine whether an abnormality is present based on an integrated score, information processing method and recording medium
US10901726B2 (en) 2018-10-12 2021-01-26 International Business Machines Corporation Intelligent visual regression system
US20200160089A1 (en) * 2018-11-15 2020-05-21 International Business Machines Corporation Visual pattern recognition with selective illumination for assisted inspection
CN111079740A (zh) * 2019-12-02 2020-04-28 咪咕文化科技有限公司 图像的质量评价方法、电子设备和计算机可读存储介质
WO2023203493A1 (en) * 2022-04-18 2023-10-26 Lean Ai Technologies Ltd. Similarity map-based outliers detection
CN115171328B (zh) * 2022-06-30 2023-11-10 国网北京市电力公司 基于视频压缩编码的烟火识别方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5113454A (en) * 1988-08-19 1992-05-12 Kajaani Electronics Ltd. Formation testing with digital image analysis
US5200820A (en) * 1991-04-26 1993-04-06 Bell Communications Research, Inc. Block-matching motion estimator for video coder
WO1999005639A1 (en) * 1997-07-25 1999-02-04 Arch Development Corporation Wavelet snake technique for discrimination of nodules and false positives in digital radiographs

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248303A (ja) * 1995-03-07 1996-09-27 Minolta Co Ltd 焦点検出装置
JP3580670B2 (ja) * 1997-06-10 2004-10-27 富士通株式会社 入力画像を基準画像に対応付ける方法、そのための装置、及びその方法を実現するプログラムを記憶した記憶媒体
US6282317B1 (en) * 1998-12-31 2001-08-28 Eastman Kodak Company Method for automatic determination of main subjects in photographic images
EP1126411A1 (en) 2000-02-17 2001-08-22 BRITISH TELECOMMUNICATIONS public limited company Visual attention location system
CA2400085C (en) * 2000-02-17 2008-02-19 British Telecommunications Public Limited Company Visual attention system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5113454A (en) * 1988-08-19 1992-05-12 Kajaani Electronics Ltd. Formation testing with digital image analysis
US5200820A (en) * 1991-04-26 1993-04-06 Bell Communications Research, Inc. Block-matching motion estimator for video coder
WO1999005639A1 (en) * 1997-07-25 1999-02-04 Arch Development Corporation Wavelet snake technique for discrimination of nodules and false positives in digital radiographs

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN5002027944, GUOYOU WANG, OPTICAL ENGINEERING, 19960301, V35 N3, P761−768, US, SOC.OF PHOTO−OPTICAL INSTRUMENTATION ENGINEERS *

Also Published As

Publication number Publication date
WO2001061648A2 (en) 2001-08-23
EP1281164A2 (en) 2003-02-05
KR20020075918A (ko) 2002-10-07
AU2001232029A1 (en) 2001-08-27
CA2400085A1 (en) 2001-08-23
CA2400085C (en) 2008-02-19
JP4732660B2 (ja) 2011-07-27
US6934415B2 (en) 2005-08-23
KR100821847B1 (ko) 2008-04-11
EP1281164B1 (en) 2015-05-27
CN1214349C (zh) 2005-08-10
WO2001061648A3 (en) 2002-03-21
CN1430767A (zh) 2003-07-16
US20020081033A1 (en) 2002-06-27

Similar Documents

Publication Publication Date Title
JP4732660B2 (ja) ビジュアルアテンションシステム
TWI426774B (zh) 用於針對jpeg壓縮歷史紀錄分類為壓縮影像的方法、及用於針對影像是否已經過jpeg壓縮而分類影像的設備及影像分類方法
RU2546616C2 (ru) Система и способ сжатия изображения
JP3373008B2 (ja) 画像像域分離装置
US7782339B1 (en) Method and apparatus for generating masks for a multi-layer image decomposition
WO2016082277A1 (zh) 一种视频认证方法及装置
JP4907938B2 (ja) 少なくとも1つの画像及び画像群を表現する方法、画像又は画像群の表現、画像及び/又は画像群を比較する方法、画像又は画像群を符号化する方法、画像又は画像シーケンスを復号する方法、符号化されたデータの使用、画像又は画像群を表現する装置、画像及び/又は画像群を比較する装置、コンピュータプログラム、システム、及びコンピュータ読み取り可能な記憶媒体
JP5097280B2 (ja) 画像及び画像群を表現、比較及び検索する方法及び装置、プログラム、コンピュータ読み取り可能な記憶媒体
CN111062314B (zh) 图像选取方法、装置、计算机可读存储介质及电子设备
KR20060124660A (ko) 이미지 처리방법, 처리장치, 및 프로그램
CN104661037B (zh) 压缩图像量化表篡改的检测方法和系统
KR101968921B1 (ko) 강건한 낮은 복잡도 비디오 핑거프린팅을 위한 장치 및 방법
KR20030029187A (ko) 영상 의존적인 얼굴 영역 추출방법
Kumar et al. Near lossless image compression using parallel fractal texture identification
Yue et al. SIFT-based image compression
KR102177247B1 (ko) 조작 이미지 판별 장치 및 방법
Vázquez et al. Using normalized compression distance for image similarity measurement: an experimental study
CN110930287A (zh) 一种图像隐写检测方法、装置及计算机设备、存储介质
CN108230411B (zh) 一种篡改图像的检测方法和装置
Hong et al. Saliency-based feature learning for no-reference image quality assessment
JP2001203899A (ja) カラー量子化の方法および装置
JP3774498B2 (ja) 画像処理方法とその装置
Osina et al. Text detection algorithm on real scenes images and videos on the base of discrete cosine transform and convolutional neural network
CN118537690B (zh) 基于异构硬件的精度验证方法、设备以及存储介质
KR101484531B1 (ko) 영상 조각 기반 희소 표현을 활용한 번호판 영역 검출 방법 및 시스템

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080205

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100413

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100709

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100716

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110421

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4732660

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term