JP4176154B2 - コード化する前に画像をセグメントに分割するための方法および装置 - Google Patents

コード化する前に画像をセグメントに分割するための方法および装置 Download PDF

Info

Publication number
JP4176154B2
JP4176154B2 JP53461898A JP53461898A JP4176154B2 JP 4176154 B2 JP4176154 B2 JP 4176154B2 JP 53461898 A JP53461898 A JP 53461898A JP 53461898 A JP53461898 A JP 53461898A JP 4176154 B2 JP4176154 B2 JP 4176154B2
Authority
JP
Japan
Prior art keywords
map
neural network
image
neuron
luminance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP53461898A
Other languages
English (en)
Other versions
JP2002511162A (ja
Inventor
チェン,ツハン
ターナー スワイン,キャサンドラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JP2002511162A publication Critical patent/JP2002511162A/ja
Application granted granted Critical
Publication of JP4176154B2 publication Critical patent/JP4176154B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

発明の背景
本発明は、その全文を引用によって本明細書の記載に援用する、1995年4月25日付けの、同じ発明者による出願第08/429,458号(特許第5,710,829号)に関連する。
本発明は、概して、ビデオ・コード化に関し、特にその内部でコード化が行われる前に、画像が対象物に分解されるビデオ・コード化に関する。その後、個々の対象物は、それぞれ別々にコード化される。
多くの画像送信および画像記憶の場合には、画像の移動する対象物の起動がうまく推定することができる場合には、有意のデータ圧縮を行うことができる。従来、簡単で効率的であるために、ブロック指向移動推定が広く研究されてきた。しかし、あるシーンのブロックと対象物との間の境界は通常一致しない。何故なら、ブロックは画像内容に適応しないからである。そのため、低いビット速度のコード化装置の場合には、ボケおよび蚊模様と呼ばれる、目に感じる歪が発生する場合がある。
対象物指向コード化技術は、ブロック指向コード化の欠点を克服するために開発された。あるタイプの対象物指向コード化の場合には、画像シーケンスは、複数の移動対象物のセグメントに分割される。均等な移動をする大きな領域を抽出することができるが、そのため、より高度の圧縮が行われる結果となり、また目に感じる境界の歪も大きくなる。ゆっくりと変化する背景と比較すると、前景の対象物は、より新しい情報を含んでいるので、背景の送信頻度は、前景の送信頻度より少なくてすむ。従って、不当な歪を起こさないで必要な圧縮を行うには、前景の対象物を正しく識別しなければならない。
その結果、対象物指向画像処理の場合には、セグメントへの分割は重要な中間ステップとなる。そのため、移動をベースとし、焦点をベースとし、輝度をベースとし、および不均衡をベースとするセグメント分割のような多くのセグメント分割方法が試みられてきた。上記各方法に関連する問題は、これらの方法が特徴を指定する方法であるために、この方法をうまく適用できるシーンが制限されるということである。例えば、上記シーンは、適用可能な移動をベースとするセグメント分割に対する移動を含んでいなければならない。上記シーンは、輝度をベースとするセグメント分割を行うための有意なコントラストを含んでいなければならない。他の方法に対しても、類似の特徴が必要になる。さらに、移動をベースとする方法は、背景上を前景の影が移動するような、前景の移動と背景の移動の両方を含むシーンには、使用してもうまくいかない。焦点をベースとする方法も、前景がボケている場合には使用することができない。輝度をベースとする方法は、織り目を持つ対象物には使用することができない。何故なら、単一の対象物が誤って複数の対象物にセグメント分割されてしまうからである。不均衡をベースとする方法での不均衡の測定は、複雑で誤りを起こし易い。
ある方法の場合には、この問題を克服することができるコード化方法を選択するために、画像についての予備知識が使用される。しかし、この方法は、処理の際に画像のタイプを決定し、その後で、その画像に対する最も適当なコード化タイプを選択しなければならないので、画像のコード化を行うのが不便である。この方法を使用すると、コード化を行う前の画像の処理コストが有意に増大する。そうでない場合には、画質がもっと低いコード化を使用しなければならない。都合の悪いことに、代わりのこれらの方法は、どれも使用することができない。何故なら、画像送信のための帯域幅が狭いのに、消費者は技術の改善によるより高い画質を期待しているからである。
そのため、これらの方法の利点をどのようにうまく使い、前景および背景のセグメント分割の際の欠点をどのようにカバーするかということが問題になってきている。いくつかの可能性が検討された。一つの方法は、移動情報と輝度情報とを移動する対象物の境界を決定する一つのセグメント分割手順に結合する方法である。この場合もまた、この方法はうまくいかない。何故なら、移動する背景が移動する前景と一緒にセグメント分割され、そのため前景として分類され、コード化されるからである。
他の方法は、画像の背景部分から、画像の前景部分をセグメント分割するために、焦点をボカし、移動の検出を行う。図7−図9にこの方法を示す。図7は上記プロセスを示し、図8はいくつかのフレームのセグメント分割結果であり、図9は焦点がボケている状態での測定の結果を示す。しかし、この方法は、上記プロセスで充填ステップを行わなければならない。充填は軽視できる問題ではない。特にこのプロセスにより出力された前景画像セグメントが、閉じた境界を持たない画像の場合には軽視できない。この場合、全体のプロセスはさらにかなり複雑なものになる。ビデオコード化固有の複雑さがある場合には、それ自身内のおよびそれ自身のすべての複雑なステップを除去することが重要である。
それ故、本発明は、画像をコード化する前に、画像シーケンスで背景から、前景をセグメント分割するための方法および装置を開発するためのものである。上記方法および装置は、セグメント分割される画像に関する予備知識を必要としないし、その上比較的簡単に実行することができる。
発明の概要
本発明は、個々の各技術が決定したセグメント分割マッピングに、適当な加重を適用するために、神経ネットワークを使用して複数のセグメント分割技術を結合することによりこの問題を解決する。この場合、上記神経ネットワークは、手作業でセグメント分割された画像によりトレーニング済みである。トレーニングが行われると、上記神経ネットワークは、適当な加重を種々の技術で決定したセグメント分割マップに割り当てる。
本発明の方法および装置の一実施形態の場合には、画像の移動、焦点および輝度セグメント分割マップを計算し、これら各マップを神経ネットワークに送る。上記神経ネットワークは、最終的セグメント分割マップを計算し、その後、このマップは元の画像上のセグメント分割された前景の輪郭を描くのに使用される。この実施形態の場合には、神経ネットワークへの、種々のセグメント分割マップ入力を検出する際に使用するために、二つの連続している画像の取得が行われる。
移動検出ステップは、連続フレームのピクセルの間の差の検出と、あるピクセルに対する差が所定のしきい値を超えた場合には、そのピクセルが移動中であるとの判断とを含む。焦点検出ステップは、n×nのピクセル正方形のソーベル縁部検出の大きさの計算と、上記ソーベル縁部検出の大きさを、縁部の幅で割ることとを含む。輝度検出ステップは、上記ピクセルのグレイ・レベルの決定を含む。
背景から前景をセグメント分割するために、画像シーケンスを処理するための本発明の方法の他の実施形態は、上記シーケンス中の連続画像の取得と、上記連続画像内のピクセルの移動、焦点および輝度の同時測定と、神経ネットワークへの、移動、焦点および輝度の測定値の入力と、神経ネットワークによる上記移動、焦点および輝度の測定値による前景セグメントと背景セグメントとの計算と、上記の計算した前景セグメントおよび背景セグメントに基づくセグメント・マップの作成とを含む。
本発明の上記方法の好適な実施形態の場合には、適応学習速度により神経ネットワークのトレーニングをスピードアップすることができる。適応学習速度の一つの可能な実施形態は、下記式により表わすことができる。
Δw=lr*dpT
Δb=lr*d
ここで、wは層の加重、bは層のバイアス、lrは適応学習速度、dは上記層のデルタ・ベクトル、pは上記層の入力ベクトル、Tは掛け算を行う前にベクトルpが、最初に移項されることを示す。
本発明の画像のシーケンスから前景および背景をセグメント分割するための装置は、移動検出装置、焦点検出装置、輝度検出装置および神経ネットワークを含む。上記移動検出装置は、画像シーケンス内のピクセルの移動を検出し、移動セグメント分割マップを出力する。上記焦点検出装置は、焦点が合っているピクセルを検出し、焦点セグメント分割マップを出力する。上記輝度検出装置は、高い輝度を持つピクセルおよび低い輝度を持つピクセルを検出し、輝度セグメント分割マップを出力する。上記神経ネットワークは、上記移動検出装置、上記焦点検出装置、および上記輝度検出装置に接続していて、これらの検出装置からの出力を加重し、最終セグメント分割マップを出力する。
本発明で使用される神経ネットワークのある好適な実施形態は、二つの層からなる神経ネットワークを含む。この場合、神経ネットワークは、二つのニューロンを含む隠れた層と、一つのニューロンを含む出力層を含む。この実施形態の場合には、輝度マップは、第一の加重により隠れた層の第一のニューロンに送られ、第二の加重により隠れた層の第二のニューロンに送られ、焦点マップは、第三の加重により隠れた層の第一のニューロンに送られ、第四の加重により隠れた層の第二のニューロンに送られ、移動マップは、第五の加重により隠れた層の第一のニューロンに送られ、第六の加重により隠れた層の第二のニューロンに送られる。バイアス情報は、それぞれ、第七の加重および第八の加重により第一および第二のニューロンに送られる。
本発明の方法を実行するためのさらに他の好適な実施形態は、デジタル化画像シーケンスを入手するために、上記画像シーケンスをデジタル化するための手段と、上記画像内のある対象物の移動に基づいて、ある画像をセグメント分割するための手段とを含む。上記移動セグメント分割手段は、移動セグメント分割マップをデジタル化および出力するための手段に接続していて、画像をセグメント分割するための手段は、焦点測定値を使用し、焦点セグメント分割手段は、焦点セグメント分割マップをデジタル化し、出力するための手段に接続していて、画像をセグメント分割するための手段は、輝度測定値を使用し、輝度セグメント分割手段は輝度セグメント分割マップをデジタル化し、出力するための手段に接続していて、セグメント分割マップを計算する神経ネットワークは、移動セグメント分割手段、輝度セグメント分割手段および焦点セグメント分割手段が出力した、セグメント分割マップを使用する。
【図面の簡単な説明】
図1は、本発明の装置で使用される二層神経ネットワークである。この図は、また上記ネットワークの異なる経路に対する加重のある実施形態も示す。
図2は、前景/背景セグメント分割用の神経ネットワーク・トレーニング・アルゴリズムである。
図3は、本発明の前景/背景セグメント分割アルゴリズムである。
図4は、合計平方エラー対エポックを示す神経ネットワークのトレーニング曲線である。
図5(a)−(c)は、本発明のセグメント分割結果である。図中、図5(a)は元のフレームであり、図5(b)は神経ネットワークのセグメント分割出力であり、図5(c)はセグメント分割した前景の略図である。
図6は、本発明の方法を使用するための装置の一つの可能な実施形態である。
図7は、充填セグメント分割手順を使用する従来技術のプロセスである。
図8は、いくつかのフレームに対する図7のプロセスのセグメント分割結果である。
図9は、図7のプロセスで使用する焦点ボケ測定値の結果である。
詳細な説明
本発明は、統合基準に基づいて背景から前景をセグメント分割するための方法を提供する。この方法は、複合シーンをセグメント分割するために、二層神経ネットワークを使用する、三つの値、すなわち、焦点測定値、輝度測定値および移動測定値を統合する。その利点は、種々のシーンをセグメント分割するための頑丈さを増大するために、単一のセグメント分割測定値を結合することである。
画像シーケンスの三つの別々のセグメントマップを形成することにより、本発明は、神経ネットワークのトレーニングに基づいて最善のマップを選択する。図1は、種々の画像を使用して、このネットワークをトレーニングして決定した最適加重と一緒に、本発明で使用する上記神経ネットワークを示す。
各マップは、N×MピクセルからなるN×M画像である。神経ネットワークへの入力は、ピクセルI(i,j)、m(i,j)、f(i,j)に対応する。この場合、i=1、...、Nであり、j=1、...Mである。これらの配列は、一度に一つずつ、左から右、上から下の順番になっている。移動マップに対するピクセル値は、0または255である。(この場合、0は移動が全然ないことを示し、255は移動を示す。)焦点マップ、輝度マップに対するピクセル値は、0−255である。
各ピクセルが神経ネットワークに入力されると、ネットワークは(i,j)入力に対する出力値ο(i、j)を計算する。最後の出力結果は、N×M画像である。この場合、0=背景、255=前景である。
それ故、一つの画像の処理をN×M回繰り返されるループと見なすことができる。すなわち、神経ネットワークが、N×M回アクセスされるものを見なすことができる。同様に、画像のシーケンスの場合には、一つの画像ループがN×M回反復される場合で、画像数がKである場合には、神経ネットワークがN×M回アクセスされる。
本発明の場合には、二層神経ネットワークは、セグメント分割に対して三つの測定値、すなわち、焦点測定値、輝度測定値、および移動測定値を含む。それぞれ、焦点、輝度または移動を検出するための任意の技術は、その技術が、同じ情報に基づいてセグメント分割マップを提供する限りは、満足するということは注目に値する。神経ネットワークのトレーニングは、異なるセグメント分割技術を使用して、種々の入力に適用する適当な加重を決定する。
シーンについて二つの仮定を行う。第一の仮定は、前景に焦点が結ばれ、背景がボケているとすること、すなわち、より近い対象物に焦点が結ばれているとすることである。第二の仮定は、セグメント分割される対象物が移動しているとすることである。
<セグメント分割測定>
<焦点検出装置>
本発明で使用される焦点検出技術は、周知の技術であるので、この技術を非常に詳細に説明する必要はない。しかし、本発明を簡単に説明すれば、本発明を理解するのに役立つだろう。
焦点は、深さの関数である。ある縁部が焦点から遠ざかると、その縁部はますますボヤけることになる。この測定値は深さの違いを示す。ある物点Eが焦点でない場合、得られる画像は、錯乱円と呼ばれるボケた画像eである。それ故、上記錯乱円の大きさは、すなわち、焦点の深さは点Nの深さuの関数である。
像焦点は、画像の縁部のような高周波成分から容易に測定することができる。ある縁部の画像がハッキリすればするほど、縁部強度からの像焦点はますます高くなる。ある画像の付近のn×nの領域内の焦点測定値dは、下記式で表わされる。
Figure 0004176154
ここで、|S(x,y)|2は、画像g(x,y)上のソーベル縁部検出の大きさであり、wは画像g(x,y)の縁部の幅である。付近のn×n領域内においては、f(x+i,y+j)=dである。ここで、f(x,y)は、焦点測定画像である。この場合、i=0、...、nであり、j=0,...,nである。
この検出装置の出力は、焦点が合っている現在の画像のピクセル、およびボケているピクセル、すなわち、前景の一部であるピクセル、および背景の一部であるピクセルを示すマップである。その後、このマップは、以下に説明するように、神経ネットワークに送られる。
<移動検出装置>
焦点検出の場合と同様に、本発明で使用する移動検出技術は周知の物であるので、本発明を説明するために、この技術を詳細に説明する必要はない。しかし、本発明を簡単に説明すれば、本発明を理解するのに役立つだろう。
移動は引算により検出される。
md(x,y)=gi+l(x,y)−gi(x,y)
ここで、md(x、y)は、移動を検出された画像であり、giおよびgi+1は、シーケンスのi番目および(i+1)番目のフレームである。連続フレームの間の移動は、しきい値Tより大きいピクセルの差により表わされる。上記ピクセルの差が上記しきい値より大きい場合には、現在の画像のピクセルは255のグレイ・レベルに設定され、そうでない場合には、0のグレイ・レベルに設定される。この場合、255のグレイ・レベルは黒を表わし、0のグレイ・レベルは白を表わす。このしきい値は周知の方法で、実験的に決定される。対象物が移動しない場合には、結果は黒の画像になる。
Figure 0004176154
ここで、m(x,y)は、移動がセグメント分割された画像である。
この移動検出装置からの出力は、移動中のピクセル、それぞれ、および前景の一部であるピクセル、および背景の一部であるピクセルを表わす移動中でないピクセルを示す移動マップである。
<輝度検出装置>
焦点検出および移動検出の場合と同様に、本発明で使用する輝度検出技術は周知の物であるので、本発明を説明するためにこの技術を詳細に説明する必要はない。しかし、本発明を簡単に説明すれば、本発明を理解するのに役立つだろう。
輝度I(x,y)は、単に0−255のグレイ・レベルである。前景輝度データが重要であるのは、対象物の内部をセグメント分割する際に、このデータが神経ネットワークを助けるからである。焦点および移動は、対象物の縁部から測定される。それ故、上記対象物の内部については、第三の測定を行う必要がある。研究中この測定は輝度であり、この場合、神経ネットワークには大きな領域が入力される。
この検出装置の出力は、前景に属するピクセル、および背景に属するピクセルを示す輝度マップである。
<神経ネットワーク>
シーケンスをセグメント分割するために、二層後方伝播神経ネットワークをトレーニングする。
図1は、ネットワーク・アーキテクチャである。神経ネットワーク10は、隠れた層11および出力層12を含む。上記隠れた層11は二つのニューロン13、14を含み、上記出力層は一つのニューロン15を含む。上記ニューロン13−15は、加重入力を持つS字状の関数を使用する。本質的には、これらニューロンは、加重入力を持つ総和器である。上記ネットワークへの入力は、移動、焦点および輝度の測定値か、セグメント分割マップである。出力はセグメント分割された前景画像ο(x,y)である。
Figure 0004176154
上記ネットワークは、シーケンスの最初の二つのフレーム、およびその手作業によりセグメント分割された結果によりトレーニングされる。下記式に示すように、適応学習速度によりトレーニングをスピードアップすることができる。
Δw=lr*dpT
Δb=lr*d
ここで、wは層の加重であり、bはそのバイアスであり、lrは適応学習速度であり、dは層のデルタ・ベクトルであり、pはその入力ベクトルであり、Tはベクトルpが掛け算を行う前に最初に移項されることを示す。
<方法>
本発明は、画像をコード化するための内蔵セグメント分割方法を提供する。前景の特徴および背景の特徴はセグメント分割され、背景の特徴は捨て去られる。ネットワークは、移動、輝度およびセグメント分割されたデータを入手するために、最初、シーケンスの最初の二つのフレームを使用してトレーニングされる。図2を参照されたい。この図は、神経ネットワークをトレーニングするための四つのステップを含むトレーニング・アルゴリズム20を示す、
上記プロセスの第一のステップ21において、上記シーケンス中の第一の画像が入手される。次に、上記画像は、ステップ22で、手作業によりセグメント分割される。次に、ステップ23において、移動、焦点および輝度が計算される。最後に、神経ネットワークが、上記のスピートアップ・プロセスによりトレーニング24される。
図3は、四つのステップを含むセグメント分割アルゴリズム30である。最初に、ステップ31において二つの連続している画像が入手される。次に、ステップ32において、焦点、移動および輝度が測定される。ステップ33において、上記測定値が、トレーニングを受けた神経ネットワークに入力される。ネットワークは、セグメント分割した前景を出力する。ステップ34において、上記のセグメント分割された前景の輪郭が、その後、本発明の能力を示す元の画像の上に描かれる。
図5(c)を見れば分かるように、このプロセスの出力は、背景から男を正しく切り離した。セグメント分割マップは、画像コード化プロセス中に、背景から前景を分離するためのマスクとして使用される。
神経ネットワークは、下記式を計算するために下記の表1の加重を適用する。
Figure 0004176154
ここで、ο(x、y)はセグメント分割マップであり、I(x、y)は輝度セグメント分割マップであり、m(x、y)は移動セグメント分割マップであり、f(x、y)は、焦点セグメント分割マップであり、b(x、y)はバイアス情報であり、v11、v21、v31、v41、v12、v22、v32、v42、w1、w2およびw3は、表1の加重である。これらの加重は、いくつかの特定の画像に使用するものとして決定されたものである。使用している正確な加重により、正確な加重を修正する場合が出てくる。これらの加重は、単に発明者が決定した加重である。
Figure 0004176154
<結果>
<神経ネットワークのトレーニング>
図4は、試験シーケンスのトレーニング中の誤り率(合計平方エラー)41対エポック(すなわち、N×M画像に対する、処理のN×Mバイト処理、トレーニング・サイクル)の曲線40である(図5参照)。うまくトレーニングを行えば、トレーニング時間が増すにつれて、エラーは少なくなり、最終的にはエラーを最小にすることができる。我々のトレーニング・セッションにおいては、4000で合計平方エラーが最小になった。このことは、我々の0.0025/ピクセルの176×144画像に対する神経ネットワークが発生したセグメント分割マップと、実際のセグメント分割マップとの間の平均輝度の差に変換される。
本発明の利点は、セグメント分割した対象物の内部を充填するために、後処理を全然行わなくても、セグメント分割を行うことができるということである。従来技術の場合には、図5(b)に示すセグメント分割マスクを生成するために、充填作業が必要であった。充填作業は軽視できないものである。特に、閉鎖しているライン・セグメントを持たない画像の場合には軽視することはできない。本発明によれば、対象物の形は神経ネットワークでの輝度測定により保存される。焦点検出装置および移動検出装置は、高周波成分である縁部効果により動作するので、上記検出装置は画像内部に関しては全然情報を提供しない。それ故、輝度測定を行わない場合には、充填作業が必要になる。輝度測定は、画像内部に関する情報を提供するので、神経ネットワークでこの情報を使用すると、画像の内部を充填する必要がなくなり、そのため、後処理充填ステップが必要なくなる。さらに、輝度測定は簡単に計算できる。
<セグメント分割>
図5は、画像シーケンスの、あるフレームに対するセグメント分割結果を示す。この図に示すように、このシーケンスの15番目のフレームに対する神経ネットワークのセグメント分割は正確である。このセグメント分割は、上記シーケンスの第一および第二のフレーム上でトレーニングされたものである。図5(a)は、カメラ61からの出力である。この出力は三つの検出装置の入力になる。図5(b)は、神経ネットワークからの最後のセグメント分割マップ出力である。図を見ればハッキリと分かるように、この出力は図の略図によく一致する。図5(c)は、セグメント分割の前景の略図である。この図は前景および背景の境界を示す。この図は、このセグメント分割方法が成功した場合のものであるが、コード化プロセスの次のステップに対して、実際には決して生成されないものである。
図6は、本発明の方法を実行するための装置60である。二つの連続している画像が、最初、例えば、デジタル・カメラ61により取得される。次に、上記のデジタル化された画像が、それぞれ、セグメント分割マップ、焦点セグメント分割マップ、および輝度セグメント分割マップを計算する、三つの検出装置63、64、65に送られる。これらのマップは、その後、神経ネットワーク66に送られ、上記神経ネットワーク66は最終セグメント分割マップを出力し、上記マップは背景から前景の輪郭を描くために使用される。
それ故、本発明は、統合測定により前景および背景をセグメント分割する方法を開示する。この方法は、二つの理由で有利なものである。一方の理由は計算が簡単なことである。他方の理由は結合測定により、複合シーンをセグメント分割する際の強度が増大することである。他の可能な実施形態は、セグメント分割のベースとして、輝度測定対カラー測定の比較を含む。
神経ネットワークが、複数のマップの統合および加重の割当てを行うために使用されるが、ファジィ論理回路も使用することができる。本発明は、デジタル・カメラおよびビデオ・ボードのような画像取得装置を備える、サン・スパーク・ワークステーションで実行することもできる。
この方法を修正することもできるし、神経ネットワークへの追加入力として、または焦点測定または輝度測定の一方の代わりとして、周知の不均衡検出装置を使用することもできる。このような修正などは、焦点検出装置または輝度検出装置の一方を不均衡検出装置で置き換えることによって行うことができる。上記不均衡検出装置は、セグメント分割マップのそのバージョンを出力し、上記マップは、その後、神経ネットワークにより加重される。

Claims (4)

  1. 画像のシーケンスから前景および背景をセグメント分割するための装置であって、
    a)画像シーケンスのピクセルの移動を検出し、移動マップを出力する移動検出装置と、
    b)焦点が合っているピクセルを検出し、焦点マップを出力する焦点検出装置と、
    c)高い輝度を持つピクセルと低い輝度を持つピクセルを検出し、輝度マップを出力する輝度検出装置と、
    d)前記移動検出装置、焦点検出装置および輝度検出装置に接続していて、これらの検出装置からの出力を加重し、セグメント分割マップを出力する神経ネットワークであって、二つのニューロンを持つ隠れた層と、一つのニューロンを持つ出力層を持ち、各ニューロンがS字状の関数を使用する神経ネットワークを備え、
    (i)前記神経ネットワークが、前記隠れた層の第一のニューロンへの入力になる輝度マップに、第一の加重を適用し、前記神経ネットワークが、また前記隠れた層の第二のニューロンの入力になる前記輝度マップに、第二の加重を適用し、
    (ii)前記神経ネットワークが、前記隠れた層の第一のニューロンへの入力になる焦点マップに、第三の加重を適用し、前記神経ネットワークが、また前記隠れた層の第二のニューロンの入力になる焦点マップに、第四の加重を適用し、
    (iii)前記神経ネットワークが、前記隠れた層の第一のニューロンへの入力になる移動マップに、第五の加重を適用し、前記神経ネットワークが、また前記隠れた層の第二のニューロンの入力になる前記移動マップに、第六の加重を適用する装置。
  2. 請求項に記載の装置において、さらに、前記神経ネットワークへの入力であるバイアス信号を発生するためのバイアス・ゼネレータを備え、前記神経ネットワークが、前記バイアス信号に、それぞれ、第七の加重および第八の加重を適用し、前記加重バイアス信号を第一および第二のニューロンに入力する装置。
  3. 画像を送信および記憶するために、画像のコード化を行う前に、あるシーケンスで対象物をセグメント分割するための装置であって、
    a)デジタル化した画像のシーケンスを入手するために、画像シーケンスをデジタル化するための手段と、
    b)前記画像内である対象物の移動に基づいて、画像をセグメント分割するためのものであって、前記デジタル化手段に接続していて、移動セグメント分割マップを出力するための手段と、
    c)焦点測定に使用する画像をセグメント分割するためのものであって、前記デジタル化手段に接続していて、焦点セグメント分割マップを出力するための手段と、
    d)輝度測定に使用する画像をセグメント分割するためのものであって、前記デジタル化手段に接続していて、輝度セグメント分割マップを出力するための手段と、
    e)前記移動セグメント分割手段、前記輝度セグメント分割手段、および前記焦点セグメント分割手段によるセグメント分割マップ出力を使用して、最終セグメント分割マップを計算するための神経ネットワークと、
    f)前記神経ネットワークが、第一のニューロンおよび第二のニューロンを持つ隠れた層と、一つのニューロンを持つ出力層を含む、二層神経ネットワークを備える場合であって、前記輝度セグメント分割マップが、第二の加重を使用して、前記隠れた層の第一のニューロンに入力され、第二の加重を使用して前記隠れた層の第二のニューロンに入力され、前記焦点セグメント分割マップが、第三の加重を使用して、前記隠れた層の第一のニューロンに入力され、第四の加重を使用して前記隠れた層の第二のニューロンに入力され、前記移動セグメント分割マップが、第五の加重を使用して、前記隠れた層の第一のニューロンに入力され、第六の加重を使用して前記隠れた層の第二のニューロンに入力され、前記バイアス信号が、それぞれ、第七および第八の加重を使用して、前記第一および第二のニューロンに入力される場合に、神経ネットワークに接続していて、バイアス信号を出力するバイアス発生手段を備える装置。
  4. 画像を送信および記憶するために、画像のコード化を行う前に、あるシーケンスで対象物をセグメント分割するための装置であって、
    a)デジタル化した画像のシーケンスを入手するために、画像シーケンスをデジタル化するための手段と、
    b)前記画像内で、ある対象物の移動に基づいて、画像をセグメント分割するためのものであって、前記デジタル化手段に接続していて、移動セグメント分割マップを出力するための手段と、
    c)焦点測定を使用して、画像をセグメント分割するためのものであって、前記デジタル化手段に接続していて、焦点セグメント分割マップを出力するための手段と、
    d)輝度測定を使用して、画像をセグメント分割するためのものであって、前記デジタル化手段に接続していて、輝度セグメント分割マップを出力するための手段と、
    e)前記神経ネットワークが下記式を計算する場合に、前記移動セグメント分割手段、前記輝度セグメント分割手段、および前記焦点セグメント分割手段による、セグメント分割マップ出力を使用して、最終セグメント分割マップを計算するための神経ネットワークとを備える装置。
    Figure 0004176154
    (但し、ο(x,y)が前記最終セグメント分割マップであり、l(x,y)が前記輝度セグメント分割マップであり、f(x,y)が焦点セグメント分割マップであり、b(x,y)がバイアス信号であり、v11、v21、v31、v41、v12、v22、v32、v42、w1、w2およびw3が、前記神経ネットワークで使用する加重である)
JP53461898A 1997-02-10 1998-01-20 コード化する前に画像をセグメントに分割するための方法および装置 Expired - Fee Related JP4176154B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/798,200 1997-02-10
US08/798,200 US5960111A (en) 1997-02-10 1997-02-10 Method and apparatus for segmenting images prior to coding
PCT/US1998/000980 WO1998035318A1 (en) 1997-02-10 1998-01-20 A method and apparatus for segmenting images prior to coding

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2008173042A Division JP2008282416A (ja) 1997-02-10 2008-07-02 コード化する前に画像をセグメントに分割するための方法および装置

Publications (2)

Publication Number Publication Date
JP2002511162A JP2002511162A (ja) 2002-04-09
JP4176154B2 true JP4176154B2 (ja) 2008-11-05

Family

ID=25172784

Family Applications (2)

Application Number Title Priority Date Filing Date
JP53461898A Expired - Fee Related JP4176154B2 (ja) 1997-02-10 1998-01-20 コード化する前に画像をセグメントに分割するための方法および装置
JP2008173042A Pending JP2008282416A (ja) 1997-02-10 2008-07-02 コード化する前に画像をセグメントに分割するための方法および装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2008173042A Pending JP2008282416A (ja) 1997-02-10 2008-07-02 コード化する前に画像をセグメントに分割するための方法および装置

Country Status (5)

Country Link
US (2) US5960111A (ja)
EP (1) EP1008106A1 (ja)
JP (2) JP4176154B2 (ja)
CA (1) CA2278423A1 (ja)
WO (1) WO1998035318A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008282416A (ja) * 1997-02-10 2008-11-20 At & T Corp コード化する前に画像をセグメントに分割するための方法および装置

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6157733A (en) * 1997-04-18 2000-12-05 At&T Corp. Integration of monocular cues to improve depth perception
EP0891075A3 (en) 1997-06-09 2002-03-06 Seiko Epson Corporation An image processing apparatus and method, and an image evaluation device and method
US6526168B1 (en) * 1998-03-19 2003-02-25 The Regents Of The University Of California Visual neural classifier
US6393142B1 (en) * 1998-04-22 2002-05-21 At&T Corp. Method and apparatus for adaptive stripe based patch matching for depth estimation
JP4663047B2 (ja) * 1998-07-13 2011-03-30 株式会社半導体エネルギー研究所 レーザー照射装置及び半導体装置の作製方法
US7136525B1 (en) * 1999-09-20 2006-11-14 Microsoft Corporation System and method for background maintenance of an image sequence
US7333672B2 (en) * 2000-03-30 2008-02-19 British Telecommunications Public Limited Company Image processing system/network which performs recognition process only upon regions having higher high spatial frequency content
TW473645B (en) * 2000-11-22 2002-01-21 Elecvision Inc Method of displacement detection for digital camera
US7003061B2 (en) 2000-12-21 2006-02-21 Adobe Systems Incorporated Image extraction from complex scenes in digital video
US6912313B2 (en) * 2001-05-31 2005-06-28 Sharp Laboratories Of America, Inc. Image background replacement method
US7079706B2 (en) * 2001-06-20 2006-07-18 Paul Peterson Methods and apparatus for generating a multiple composite image
US7079279B2 (en) * 2001-06-20 2006-07-18 Paul Peterson Methods and apparatus for producing a lenticular novelty item at a point of purchase
US20020198724A1 (en) * 2001-06-20 2002-12-26 Paul Peterson Methods and apparatus for producing a lenticular novelty item interactively via the internet
JP4596220B2 (ja) * 2001-06-26 2010-12-08 ソニー株式会社 画像処理装置および方法、記録媒体、並びにプログラム
US6754646B1 (en) * 2001-09-25 2004-06-22 Ruibo Wang Optical pulse-coupled artificial neurons
US20030058237A1 (en) * 2001-09-27 2003-03-27 Koninklijke Philips Electronics N.V. Multi-layered background models for improved background-foreground segmentation
US7085401B2 (en) * 2001-10-31 2006-08-01 Infowrap Systems Ltd. Automatic object extraction
SE520474C2 (sv) * 2001-11-20 2003-07-15 Anoto Ab Sätt och anordning för identifiering av objekt i digitala bilder
US7283676B2 (en) * 2001-11-20 2007-10-16 Anoto Ab Method and device for identifying objects in digital images
GB2382940A (en) * 2001-11-27 2003-06-11 Nokia Corp Encoding objects and background blocks
AU2002359541A1 (en) * 2001-11-30 2003-06-17 Zaxel Systems, Inc. Image-based rendering for 3d object viewing
US7110596B2 (en) * 2002-04-25 2006-09-19 Microsoft Corporation System and method facilitating document image compression utilizing a mask
US7263227B2 (en) * 2002-04-25 2007-08-28 Microsoft Corporation Activity detector
US7043079B2 (en) * 2002-04-25 2006-05-09 Microsoft Corporation “Don't care” pixel interpolation
US7024039B2 (en) * 2002-04-25 2006-04-04 Microsoft Corporation Block retouching
US7120297B2 (en) * 2002-04-25 2006-10-10 Microsoft Corporation Segmented layered image system
US7392472B2 (en) * 2002-04-25 2008-06-24 Microsoft Corporation Layout analysis
US7164797B2 (en) * 2002-04-25 2007-01-16 Microsoft Corporation Clustering
US7302096B2 (en) * 2002-10-17 2007-11-27 Seiko Epson Corporation Method and apparatus for low depth of field image segmentation
US7899245B2 (en) * 2002-12-30 2011-03-01 Lockheed Martin Corporation Morphological based segmenter
JP4307910B2 (ja) * 2003-03-07 2009-08-05 富士フイルム株式会社 動画像切り出し装置および方法並びにプログラム
US7372991B2 (en) * 2003-09-26 2008-05-13 Seiko Epson Corporation Method and apparatus for summarizing and indexing the contents of an audio-visual presentation
US7295700B2 (en) 2003-10-24 2007-11-13 Adobe Systems Incorporated Object extraction based on color and visual texture
US7813549B2 (en) * 2003-12-08 2010-10-12 Koninklijke Philips Electronics N.V. Image segmentation in a volume data set
US20050140781A1 (en) * 2003-12-29 2005-06-30 Ming-Chieh Chi Video coding method and apparatus thereof
US20060078217A1 (en) * 2004-05-20 2006-04-13 Seiko Epson Corporation Out-of-focus detection method and imaging device control method
JP2006053690A (ja) * 2004-08-10 2006-02-23 Ricoh Co Ltd 画像処理装置、画像処理方法、画像処理プログラムおよび記録媒体
JP4634842B2 (ja) * 2005-03-31 2011-02-16 株式会社デンソーアイティーラボラトリ 風景推定装置
US7873185B2 (en) * 2005-08-03 2011-01-18 Siemens Medical Solutions Usa, Inc. Method for detection and tracking of deformable objects
WO2007076892A1 (en) * 2005-12-30 2007-07-12 Telecom Italia S.P.A. Edge comparison in segmentation of video sequences
US7783118B2 (en) * 2006-07-13 2010-08-24 Seiko Epson Corporation Method and apparatus for determining motion in images
US7456760B2 (en) * 2006-09-11 2008-11-25 Apple Inc. Complexity-aware encoding
US20090304086A1 (en) * 2008-06-06 2009-12-10 Apple Inc. Method and system for video coder and decoder joint optimization
US8175376B2 (en) * 2009-03-09 2012-05-08 Xerox Corporation Framework for image thumbnailing based on visual similarity
US8289373B2 (en) * 2009-04-28 2012-10-16 Chunghwa Picture Tubes, Ltd. Image processing method for multi-depth-of-field 3D-display
US8406510B2 (en) * 2010-03-10 2013-03-26 Industrial Technology Research Institute Methods for evaluating distances in a scene and apparatus and machine readable medium using the same
US8976856B2 (en) 2010-09-30 2015-03-10 Apple Inc. Optimized deblocking filters
GB2489674A (en) * 2011-03-29 2012-10-10 Sony Corp 3D image generation
US11229364B2 (en) * 2013-06-14 2022-01-25 Medtronic, Inc. Patient motion analysis for behavior identification based on video frames with user selecting the head and torso from a frame
US9609236B2 (en) 2013-09-16 2017-03-28 Kyle L. Baltz Camera and image processing method
US9876964B2 (en) 2014-05-29 2018-01-23 Apple Inc. Video coding with composition and quality adaptation based on depth derivations
WO2017120384A1 (en) 2016-01-08 2017-07-13 Flir Systems, Inc. Thermal-image based object detection and heat map generation systems and methods
US10147195B2 (en) 2016-02-19 2018-12-04 Flir Systems, Inc. Object detection along pre-defined trajectory
US10614574B2 (en) * 2017-10-16 2020-04-07 Adobe Inc. Generating image segmentation data using a multi-branch neural network
CN108648253B (zh) * 2018-05-08 2019-08-20 北京三快在线科技有限公司 动态图片的生成方法及装置
WO2020036502A1 (en) * 2018-08-14 2020-02-20 Huawei Technologies Co., Ltd Machine-learning-based adaptation of coding parameters for video encoding using motion and object detection
US11024037B2 (en) * 2018-11-15 2021-06-01 Samsung Electronics Co., Ltd. Foreground-background-aware atrous multiscale network for disparity estimation

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0766446B2 (ja) * 1985-11-27 1995-07-19 株式会社日立製作所 移動物体像を抽出する方法
US4937878A (en) * 1988-08-08 1990-06-26 Hughes Aircraft Company Signal processing for autonomous acquisition of objects in cluttered background
US4876457A (en) * 1988-10-31 1989-10-24 American Telephone And Telegraph Company Method and apparatus for differentiating a planar textured surface from a surrounding background
IT1232109B (it) * 1989-06-21 1992-01-23 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento del contorno di immagini in movimento
US5727081A (en) * 1991-12-31 1998-03-10 Lucent Technologies Inc. System and method for automated interpretation of input expressions using novel a posteriori probability measures and optimally trained information processing networks
EP0610916A3 (en) * 1993-02-09 1994-10-12 Cedars Sinai Medical Center Method and device for generating preferred segmented numerical images.
JP3373008B2 (ja) * 1993-10-20 2003-02-04 オリンパス光学工業株式会社 画像像域分離装置
US5768409A (en) * 1995-08-02 1998-06-16 Lucent Technologies Inc. Automatic inspection method for contactlessly measuring an offset of a central feature of an object
US5715325A (en) * 1995-08-30 1998-02-03 Siemens Corporate Research, Inc. Apparatus and method for detecting a face in a video image
US5864630A (en) * 1996-11-20 1999-01-26 At&T Corp Multi-modal method for locating objects in images
US5960111A (en) * 1997-02-10 1999-09-28 At&T Corp Method and apparatus for segmenting images prior to coding

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008282416A (ja) * 1997-02-10 2008-11-20 At & T Corp コード化する前に画像をセグメントに分割するための方法および装置

Also Published As

Publication number Publication date
JP2002511162A (ja) 2002-04-09
WO1998035318A1 (en) 1998-08-13
US6301385B1 (en) 2001-10-09
JP2008282416A (ja) 2008-11-20
CA2278423A1 (en) 1998-08-13
EP1008106A1 (en) 2000-06-14
US5960111A (en) 1999-09-28

Similar Documents

Publication Publication Date Title
JP4176154B2 (ja) コード化する前に画像をセグメントに分割するための方法および装置
US10339643B2 (en) Algorithm and device for image processing
CN107220931B (zh) 一种基于灰度级映射的高动态范围图像重建方法
KR101313637B1 (ko) 콘트라스트 개선을 위한 영상 처리 장치 및 영상 처리 방법
US5572258A (en) Motion compensation estimating device and method achieving improved motion compensation
US6535254B1 (en) Method and device for noise reduction
KR100583902B1 (ko) 이미지세그멘테이션
JPH0795592A (ja) 画像データを符号化して夫々がコヒーレント運動領域を表わす複数の層とそれら層に付随する運動パラメータとにするシステム
JP2009536417A (ja) デジタル画像における改良された前景/背景分離
CN111047543A (zh) 图像增强方法、装置和存储介质
US20060104535A1 (en) Method and apparatus for removing false edges from a segmented image
JP2002522836A (ja) 静止画像生成方法および装置
Kapah et al. Demosaicking using artificial neural networks
CN111583357A (zh) 一种基于matlab系统的物体运动图像捕捉合成方法
Ponomaryov et al. Fuzzy color video filtering technique for sequences corrupted by additive Gaussian noise
JP2003203237A (ja) 画像マッチング方法と装置、および画像符号化方法と装置
Guan et al. NODE: Extreme low light raw image denoising using a noise decomposition network
CN114862707A (zh) 一种多尺度特征恢复图像增强方法、装置及存储介质
Arora et al. Enhancement of overexposed color images
Veeravasarapu et al. Fast and fully automated video colorization
Xue et al. Iterative image restoration using a non-local regularization function and a local regularization operator
Wang et al. A novel framework for object removal from digital photograph
Shim et al. De-ghosting in High Dynamic Range Imaging Based on Intensity Scaling Cue.
MXPA99007331A (en) A method and apparatus for segmenting images prior to coding
Lee et al. Colourisation in Yxy colour space for purple fringing correction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070123

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070423

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080702

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080717

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080728

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080820

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110829

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 4

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130829

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees