JP3847832B2 - 画像情報処理方法及びその装置、並びにその制御方法 - Google Patents

画像情報処理方法及びその装置、並びにその制御方法 Download PDF

Info

Publication number
JP3847832B2
JP3847832B2 JP07876396A JP7876396A JP3847832B2 JP 3847832 B2 JP3847832 B2 JP 3847832B2 JP 07876396 A JP07876396 A JP 07876396A JP 7876396 A JP7876396 A JP 7876396A JP 3847832 B2 JP3847832 B2 JP 3847832B2
Authority
JP
Japan
Prior art keywords
image
feature point
input
unit
optical axis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP07876396A
Other languages
English (en)
Other versions
JPH08329033A (ja
Inventor
輝芳 鷲澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP07876396A priority Critical patent/JP3847832B2/ja
Publication of JPH08329033A publication Critical patent/JPH08329033A/ja
Application granted granted Critical
Publication of JP3847832B2 publication Critical patent/JP3847832B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Input (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、視覚情報を適切に処理し、例えば、入力装置、画像符号化復号装置、画像認識装置、画像復元装置、監視装置、自律走行車、あるいは自律作業ロボットへの応用が考えられる画像情報処理方法及びその装置、並びのその制御方法に関するものである。
【0002】
【従来の技術】
生物は、自分を取り巻く環境を、有限個の処理装置で必要なだけ正確に認識し、それに対処する機能を持っている。環境を認識するために必要とされる信号のダイナミックレンジは、あらゆる状況を想定すると非常に広い。例として視覚情報を考えてみると、生物が有する視覚センサは勿論有限個であるが、環境は全方位に広がる。従って、移動手段を持たない生物が自分を取り巻く環境を認識するためには、全方位について必要なだけの解像度で信号を入力しなければならない。しかし、生物が移動手段、即ちセンサにおける観測パラメータを変更するための手段を有するなら、生物の視覚認識系への負荷は遥かに軽くなる。何故なら、認識するために重要と思われる場所だけを認識に十分な解像度で入力し、そうでない場合は入力しなくてもいいからである。
【0003】
従来の画像入力装置は、CCDカメラやスキャナ等に見られるように、対象とする画像を均一にサンプリングするものであった。このような画像入力装置から得られるのは、ある解像度で得られた有限な領域の画像データである。画像を環境の視覚情報の一部と考えると、このようにして得られた2次元の画像から3次元の視覚情報を推定するというのが、視覚情報処理の本質的問題である。このような問題に対して、以下の2種類のアプローチが取られている。
【0004】
まず、1980年代に盛んに行われた生物の視覚系に対する研究のうち、数理モデルによる研究の殆どは、Marrのアイデア(D. Marr: "Vision" W.H.Freeman and Co.NY(1982)) に端を発するといっても過言ではない。これらの研究は視覚の計算論と呼ばれ、正則化理論からMarkov確率場、ライン過程、そして繰り込み変換群の応用と、統計物理学のアイデアにより研究を発展させてきている。しかし、これらの議論では、視覚情報は有限個の画像データとして既に与えられるものだけを対象とし、それら2次元の画像集合から3次元の構造を推定することを取り扱う。これは、例えば写真や絵を見て、その3次元世界を推定することに対応する。手持ちの情報だけで3次元の構造を推定しようとすると、一般に、問題は解が不定となるという意味で不良設定となってしまうので、彼らは知識を利用することで対処している。
【0005】
一方、視覚入力系そのものを制御することによって認識に十分な情報を用意し、そのうえで環境を認識しようという方法論が、同時期に提案された。Ballard によるAnimate Visionである(D.H. Ballard: "Behavioural constraints on animate vision",image and vision computing, Vol.7, No.1, pp.3-9 (1989))。この方法論は、最初に入力された視覚情報に存在する不良設定性を、別の観測パラメータによる入力データで解消しようというものである。観測パラメータとしては、光学系の光軸方向やズーミング等があるが、この技術で最も重要なことは、“次に何を探すのか”“次にどこを観測するのか”を決定すること、即ち観測パラメータの制御方法である。
【0006】
1.Ballard らによる方法(D.H. Ballard and C.M. Brown: "Principles of Animate Vision",CVGIP: IMAGE UNDERSTANDING,Vol.156, No.1, pp.3-21 (Aug.1992))
Ballard らが構築した視覚環境認識システムでは、画像入力装置は、高解像度で光軸付近の狭い領域をサンプリングする中心窩観察(foveal vision) と、低解像度で光軸から離れた広い領域をサンプリングする周辺観察(peripheral vision) との、2種類の画像入力形態を備えている。物体は、foeval vision で捕えられれば必ず認識できるとしている。知識データを、IS-A木やpart-of 木等の木構造で表現し、オブジェクト間の関係に確率構造を導入した。この木構造と確率構造とに基づいて、ある動作を遂行したときに得られる情報量とそれに費やされるエネルギーとで動作の有効関数(utility function)を定義し、このutility functionを用いて、次の動作を決定するという戦略を採用している。このような戦略によって、ある環境をより短時間で認識することができる。
【0007】
2.上記Ballard らのシステムでは、次に探したい物体を直接探索するという方式を採っていた。Wixsonらは、目的とする物体を探索するための観測点制御法として、間接探索法を提案している(L.E. Wixon and DH. Ballard: "Using intermediate objects to improve the efficiency of visual search",Int'l. J. Computer Vision, 12:2/3 ,pp.209-230(1994)) 。間接探索法では、観測によって同定した物体と目的とする物体との間の空間的位置関係によって探索を行なう。例えば、目的とする物体がコーヒーカップで、同定した物体が机,椅子,黒板だとすると、コーヒーカップと最も空間的位置関係が強い机が存在する位置を、更に高解像度で観測するように入力系が制御される。
【0008】
また、Brooks等のシステム(R.A. Brooks: "New Approaches to Robotics",Science,Vol.25,pp.1227-1232(1991)) は、センサ入力とアクチュエータ出力とを結ぶいくつもの基本的処理プログラムを備えている。谷等は、時系列信号ベクトルとしてのセンサ入力に存在する規則を学習によって獲得し、その規則を行動計画に利用するシステムを提案している(特開平6−274224号)。この方法によれば、未知の環境に適応するシステムを構築することができる。また、複数の可能な行動が存在する場合でも、その中からひとつを選択するようなメカニズムを提供している。
【0009】
以上、従来の代表的な理論を紹介したが、その他にも以下のような提案がある。
【0010】
R. Rimey and C.M. Brown: "Task-Oriented Vision with Multiple Bayes Nets", in "Active Vision", A. Blake and A. Yuille(Eds.) MIT press(1992)
S. Geman and D. Geman: "Stochastic Relaxation, Gibbs Distributions, and the Bayesian Restoration of Image", IEEE Trans. on Pattern Anal. Machine Intell., Vol.6, No.6,pp721-741(Nov.1984)
B. Gidas: "A Renormalization Group Approach to Image Processing Problems", IEEE Trans. on Pattern Anal. Machine Intell., Vol.11, No.2, pp.164-180(Feb.1989)
Kawato and Inui: "Computational Theory of the Visual Cortical Areas", IEICE Trans., Vol.J73-D-II, No.8,pp.1111-1121(Aug.1990)
D.V. Lindley: "On a measure of the infomation providedby an experiment", Ann. Math. Stat.,vol.27,pp.986-1005(1956)
K.J. Bradshaw, P.F. McLauchlan, I.D. Reid and D.W. Murray: "Saccade and pursuit on an active head/eye platform", Image and Vision Computing,Vol.12, no.3, pp.155-163 (Apr.1994)
J.G. Lee and H. Chung: "Global path planning for mobile robot with grid-type world model", Robotics and Computer-Integrated Manufacturing, Vol.11,no.1,pp.13-21(1994)
【0011】
【発明が解決しようとしている課題】
しかしながら、上記のような計算理論の多くは、与えられた画像(の組)だけから得られる情報を議論しているため、得られる結果はあくまで推定値である。また観測者中心座標系を用いて世界を記述しているので、移動物体等の扱いが複雑である。
【0012】
一方、Animate Visionでは、物体中心座標系を用いて世界を記述しているので、移動物体等の扱いは比較的簡単になるが、その際に最も重要となる観測点制御には、以下のいくつかの問題点が存在する。
【0013】
1.知識を構成する物体の最小単位の認識方法を議論していない。即ち、これら最小単位の認識は容易であることを前提として議論を展開している。
【0014】
2.知識は知識エンジニアによって記述されるとしている。即ち、人間が知らない環境に対する知識は与えられない。
【0015】
又、特開平6−274224号等のシステムでは、知識は学習によって獲得されるが、入出力データやニューラルネットの構造が一般的であるので、知識の階層構造が得られるという保証はないし、知識の 階層構造を獲得する能力がニューラルネットにあったとしても、膨大な時間を要することが予想される。
【0016】
そこで、本発明は、高速に必要な画像情報を獲得できる画像情報処理方法と装置を提供することを目的とする。
【0017】
また、本発明は、画像情報処理方法及びその装置を有効に適用した各種システムを提供することを目的とする。
【0018】
【課題を解決するための手段】
本発明によれば、画像情報処理装置の制御方法において、画像情報処理装置の画像入力部より画像を光学的に入力し、入力された画像を2次元フィルタにより多重解像度展開し、多重解像度展開された画像より特徴点を検出し、検出された各特徴点について、その特徴点における正規化された前記2次元フィルタの出力値と、各特徴点の位置座標及び多重解像度展開された局所パターンに対するその特徴点の相互情報量と、その特徴点と前記画像入力部の光軸との距離とに基づいて評価値を算出し、前記評価値が最大となる特徴点に前記光軸を一致させるように、前記画像入力部を制御する。
【0020】
また、本発明の他の態様によれば、画像情報処理装置に、画像を光学的に入力する画像入力手段と、前記画像入力手段から入力された画像を多重解像度展開する2次元フィルタと、前記2次元フィルタにより多重解像度展開された画像より特徴点を検出する検出手段と、前記検出手段により検出された各特徴点について、その特徴点における正規化された前記2次元フィルタの出力値と、各特徴点の位置座標及び多重解像度展開された局所パターンに対するその特徴点の相互情報量と、その特徴点と前記画像入力手段の光軸との距離とに基づいて評価値を算出する算出手段と、前記算出手段により算出された評価値が最大となる特徴点に前記光軸を一致させるように、前記画像入力手段を制御する制御手段とを備える。
【0023】
【発明の実施の形態】
以下、添付図面を参照しながら、本発明に係る好適な1実施形態を詳細に説明する。
【0024】
〔実施形態1〕
図1は、本実施形態の視覚情報処理装置の構成例を表すブロック図である。以下、順に構成要素の動作を説明する。
【0025】
<レンズ系(lens system) 1>
ここで、レンズ系1は、広角レンズ(wide view lens)(魚眼レンズ(fish eye lens) を含む)を備え、画像を光学的に入力するためのレンズ系であり、更に通常レンズを設けてもよい。
【0026】
図2に、レンズ系1の広角レンズによる座標変換例を示す。図中、xが入力系の正面に位置する画像面上での極座標系の動径、tが広角レンズで変換された後の極座標系の動径である。本光学系は、この極座標系の角度(紙面に垂直な面上での極座標系の角度θ)を保存するので、図2及び以下の説明は全て動径方向に限って行う。
【0027】
x,tは、光軸に対する入射角度φ,焦点距離ξを用いて、
t=2ξ tan(φ/2) (1)
x=ξ tan(φ) (2)
と書ける。これらより、xはtの関数として次式で表わせる:
x=t/{1−(t/2ξ)2} (3)
これが広角レンズにおける座標変換である。
【0028】
画像平面全域に広がる動径方向周波数f(0)のパターンをレンズ系1によってアレイセンサ2の平面上に投射したとき、アレイセンサ2の平面上で光軸10から距離tの位置での局所的な動径方向周波数は、式(4)で表せる。
【0029】
f(t)=f(0)・{(1−(t/2ξ)2)2/{1+(t/2ξ )2} (4)
実際には、極座標系(t,θ)を用いて、2次元画像f(t,θ)が出力される。もちろん、3次元の実空間に存在する任意の物体を対象とする場合には、入射角度φとtとの関係のみを知ればいいから、
t=2ξ tan(φ/2) (5)
が座標変換となる。
【0030】
なお、広角レンズには、上記以外の座標変換規則に従うものがいくつかあり、上記広角レンズに代えて、それらの広角レンズをレンズ系1に使用してもよい。
【0031】
<アレイセンサ(array sensor)2>
アレイセンサ2は、レンズ系1によって座標変換を受けた2次元画像f(t,θ)を、2次元アレイ状に並べられたセンサでサンプリングし、離散2次元画像を得る。アレイセンサ2の左上のセンサ番号を(1,1)とし、横方向にm番目、縦方向にn番目のセンサ番号を(m,n)と記述する。センサ番号(m,n)のセンサの出力gm,n は、積分核をψm,n (x) として、
【0032】
【外1】
Figure 0003847832
となる。これにより、{gm,nm,n が離散2次元画像を構成する。
【0033】
<2次元フィルタ(2D filter) 3>
2次元フィルタ3は、アレイセンサ2の出力信号、即ち離散2次元画像
{gm,nm,n を入力として受取り、以下のようなマスク処理を施して、多重解像度展開する。
【0034】
【外2】
Figure 0003847832
このマスクは例えば、▽2Gの作用素:
【0035】
【外3】
Figure 0003847832
を用いる。
【0036】
また、以下のような作用素集合も有効である。
【0037】
(a)空間定数の異なる複数の▽2 G作用素:等方性バンドパスフィルタの集合を構成することができる。
【0038】
(b)空間定数と方向の異なる複数のGabor 作用素:方向に依存するバンドパスフィルタの集合を構成することができる。
【0039】
図3は、レンズ系1,アレイセンサ2,2次元フィルタ3を組み合わせたシステム(以下、広角レンズ入力装置と呼ぶ)で検出される動径方向周波数帯域と光軸10からの距離との関係を図式的に表している。同図は、2次元フィルタ3におけるマスク作用素が▽2 Gで、場所に拠らず一定の場合である。光軸から離れるに従って高周波成分検出に寄与する積分核を削除していくように構成された画像フィルタと近似的に等しい。図3より、光軸の方向を変えることによって、周波数空間の全領域を覆うことができることがわかる。
【0040】
上記考察は、図4に示すシミュレーション結果によって検証される。同図から、広角レンズ入力装置が検出する中心周波数は、光軸からの変位とともに、単調に減少すること、装置が検出できる最大周波数以下の成分を全て検出することが確認できる。
【0041】
<特徴点検出部(feature extractor) 4>
特徴点検出部4では、2次元フィルタ3の出力画像から極大点を抽出して特徴点とし、それらの座標を出力する。これら特徴点の座標は、入力パラメータ制御部8に送られ、入力パラメータ制御量の決定のために用いられる。
【0042】
2次元フィルタ3、および特徴点検出部4は、偏角の原理を応用して次のように構成することもできる。2次元フィルタでは、まず画像{gm,nm,n にグラジエント(gradient)▽を作用させてベクトル場{ωm,nm,n を生成する:
ωm,n =▽gm,n
={(gm,n-gm-1,n)/△x}e1+{(gm,n-gm,n-1)/△y} e2 (9)
ただし、e1、e2は基底ベクトル、△x、△yは横方向、および縦方向のグリッド間隔である。次に各点(m,n)におけるベクトルの方向を求める:
arg(ωm,n)=arctan〔{(gm,n-gm,n-1) /△y}/{(gm,n-gm,n-1) /△x}〕 (10)ベクトル場を複素関数で表現すれば、上記方向は複素数の偏角である。これに、偏角の原理を応用して、零点や極が検出できる。
【0043】
偏角の原理とは、関数f(z)は単連結領域Dで有理形、CはD内の正の向きの単純閉曲線で、Cの上にはf(z)の零点も極も存在しないものとする。Cの内部において、f(z)はaj (j=1,2,…,m)にそれぞれ位数λj の零点、bk (k=1,2,…,n)にそれぞれ位数μk の極をもつとする。このとき、C上の1点z0 から出発してCを一周してz0 へ戻ったときのf(z)の偏角の増加量△c arg f(z)は、C内部にある零点及び極の個数(位数も考慮した)を
【0044】
【外4】
Figure 0003847832
と書けば、次式で与えられる:
c arg f(z)=2π(Nz(f)−Np(f)) (11)
上記偏角の原理を用いてベクトル場{ωm,nm,n の特徴点を検出する方法を以下で説明する。
【0045】
Step1 n=1とする。
【0046】
Step2 m=1とする。
【0047】
Step3 (m,n)を中心に適当な近傍を考える。例えば8近傍:
{(m-1,n-1),(m,n-1),(m+1,n-1),(m-1,n),(m+1,n),(m-1,n+1),(m,n+1),
(m+1,n+1)} (12)
を選ぶ。
【0048】
Step5 偏角の原理により、上記近傍に囲まれる領域内に存在する零点及び極の、位数を考慮した個数が次のように与えられる:
z (ω)−Np (ω)=(△c arg ωm,n )/2π (13)
cargω m,nは以下のように計算する:
cargω m,n
≒Υ(ωm+1,n+1 ,ωm+1,n)+Υ(ωm,n+1 ,ωm+1,n+1)
+Υ(ωm-1,n+1 ,ωm,n+1)+Υ(ωm-1,n ,ωm-1,n+1)
+Υ(ωm-1,n-1 ,ωm-1,n)+Υ(ωm,n-1 ,ωm-1,n-1)
+Υ(ωm+1,n-1 ,ωm,n-1)+Υ(ωm+1,n ,ωm+1,n-1) (14)
ここで、Υ(x,y)=argx−argy if argx−argy≦π
argy−argx otherwise (15)
【0049】
Step6 m=m+1とする。
【0050】
Step7 mが画像の範囲を越えたかどうかを判断し、越えたらStep8に進み、そうでなければ、Step2からの処理を繰り返す。
【0051】
Step8 n=n+1とする。
【0052】
Step9 nが画像の範囲を越えたかどうかを判断し、越えたら処理を終了し、そうでなければ、Step3からの処理を繰り返す。
【0053】
特徴検出装置では、上記偏角の原理より得られた個数Nz(ω)−Np(ω)が負になる点を検出する。これにより、零点より極の方が多い領域が検出され、十分小さな領域では極が存在する点を検出することになる。
【0054】
<変換符号化部(transform encoder) 5>
変換符号化部5は、2次元フィルタ3によって多重解像度空間上に写像された画像データを、局所パターン空間へ変換して出力する機能を有する。
【0055】
まず、多重解像度空間での座標{sf(=2k),bf}に対する深さdまでの近傍の集合Nd(sf,bf)というものを、
s=2p ;p={k, k-1, …,Max(0, k-d) } (16)
b=bf ±{(m-1/2)2p△x, (n-1/2)2p△y)} ;m,n ={1, …,2k-p} (17)
と定義する。ただし、sf ,bf は特徴点検出部4で検出された特徴点のスケール(空間周波数の逆数と考えてよい)と座標であり、△x,△yはアレイセンサ2のx方向,y方向のセンサ間の距離である。
【0056】
図5にはN2(sf ,bf )51が示されている。N2(sf ,bf )51は、多重解像度空間に於ける位置(sf ,bf )が異なれば、52や53で示すように、局所パターンが覆う領域、即ち実空間領域(bの幅)及びスケール領域(sの幅で周波数領域に相当)が異なることがわかる。すなわち、N2(s53,b53)が覆う領域は、実空間領域55とスケール領域57となり、N2(s52,b52)が覆う領域は、実空間領域54とスケール領域56となる。特に、深さ“0”の近傍は特徴点位置の画素そのものを表す。
【0057】
このようにNd(sf ,bf )は多重解像度空間での座標(sf ,bf )をルートとする4分木(図では2分木)に等しい。多重解像度空間の座標(sf ,bf )における深さdの局所パターンPd(sf ,bf )とは、Nd(sf ,bf )の各ノードに強度を対応させたものをいい、深さdの局所パターン空間とは、上記4分木の集合に有限次元ベクトルに対する内積を定義することによって張られる関数空間をいう。多重解像度空間における局所パターンを考えることによって、3次元物体のある種の運動に対する不変量が得られる。ただし、その深さ(例えばどのくらいのスケールの範囲に亙っているか)は物体によって異なる。
【0058】
変換符号化部5から出力されるデータ形式は、例えば深さ2の局所パターンのみを採用した場合の、s={s0,s1,s2},b={b0,b1… , bj,…, bJ }の離散多重解像度空間に対しては、
{(b0,(P2(s0,b0), P2(s1,b0), P2(s2,b0))),
(b1,(P2(s0,b1), P2(s1,b1), P2(s2,b1))),

(bJ,(P2(s0,bJ), P2(s1,bJ), P2(s2,bJ)))} (18)
となる。
【0059】
<量子化部(quantizer)6>
図6に量子化部6の詳細な構成図を示す。量子化部6は、変換符号化部5から例えば以下の形式のデータを受ける。
【0060】
{(b0,(P2(s0,b0), P2(s1,b0), P2(s2,b0))),
(b1,(P2(s0,b1), P2(s1,b1), P2(s2,b1))),

(bJ,(P2(s0,bJ), P2(s1,bJ), P2(s2,bJ)))} (19)
量子化部6は、上記データの例えば局所パターンを量子化して、符号語
2(sf ,bf )∈Zに変換する:
{(b0,(S2(s0,b0), S2(s1,b0), S2(s2,b0))),
(b1,(S2(s0,b1), S2(s1,b1), S2(s2,b1))),

(bJ,(S2(s0,bJ), S2(s1,bJ), S2(s2,bJ)))} (20)
以下、量子化部6における処理手順を簡単に説明する。
【0061】
(a)j=0とする。
【0062】
(b)量子化部6に特徴点bj に関するデータ、最初の場合、
(b0,(P2(s0,b0), P2(s1,b0), P2(s2,b0))) (21)が入力される。
【0063】
(c)P2(s0,b0), P2(s1,b0), P2(s2,b0) のそれぞれが量子化器61,62,63に入力され、対応する符号語S2(s0,b0), S2(s1,b0), S2(s2,b0) が出力される。このとき、量子化器61,62,63ともコードブック64を用いる。
【0064】
(d)(b0,(S2(s0,b0), S2(s1,b0), S2(s2,b0)))を出力する。
【0065】
(e)j←j+1として(b)に戻る。
【0066】
量子化部6には、代表ベクトルを獲得するための学習モードと、入力信号を符号化するための実行モードがあるが、これらは通常のベクトル量子化技術で実現できる。
【0067】
ここで、コードブック64は、各ノード位置における成分強度の組として表現された上記局所パターンに番号(符号語)付けを行うものであり、例えば、以下の実施例2で説明するような学習ベクトル量子化で作成されてもよい。又、出現する全ての局所パターンに順番に番号を割り付けてもよい。
【0068】
すなわち、与えられた画像は、特徴点の位置座標と局所パターンの符号語との組として符号化される。しかし、このような符号化は、空間的に隣接する局所パターン間に強い相関が存在するという意味でかなり冗長性を含んでいる。量子化部6の代表ベクトルには、このような冗長性が含まれていていないことが望ましい。これら冗長性は、それぞれの代表ベクトル間の同時出現確率を用いて削減することができる。
【0069】
<確率オートマトン(stochastic automaton)7>
上記量子化部6から出力された特徴点の位置座標と局所パターンの符号語との組が、確率オートマトン7の各セルに入力される。
【0070】
図7に確率オートマトン7の構成例を示す。図中、71は、画像入力データの幾何学的特徴及び時間的相関に基づいて構築されるパターンオートマトンであり、72は、上記パターンネットの結果と他の入力信号、例えば人間によるキーボードからの知識データや他のセンサ信号等とによって構築されるシンボルオートマトンである。73はセルであり、有限個の状態を取ることができる。状態値の集合上に確率構造が定義されている。確率オートマトン7は形式的に階層構造をしているが、一般的にはブロック化されているという。q層に属するr番目のセルの状態の集合をΩr (q)、その上の確率分布を{p(ωu)};ωu ∈Ωr (q)、(q+1)層に属するv番目のセルの状態の集合をΩv (q+1)、その上の確率分布を{p(ωz)};ωz ∈Ωv (q+1)と書く。このとき、これら確率分布は、以下のように条件付き確率によって関係付けられているとする。
【0071】
【外5】
Figure 0003847832
ここで、p(ωu )はq層に属するr番目のセルがωu である確率を表現し、p(ωzu)は、q層に属するr番目のあるセルがωu であった時に、(q+1)層に属するv番目のセルがωz である確率(条件付き確率)を表している。
【0072】
パターンオートマトン71に属するセルは、多重解像度空間を分割したときの各々の部分領域に対して1対1に割当てている。従って、セルの状態値は、多重解像度空間の部分領域における符号語に当たる。条件付き確率を要素とする状態遷移行列は、量子化器6のコードブック64を学習するときに、同時に計算する。
【0073】
一方、シンボルオートマトン72に属するセルは、物体或いは事象と1対1に対応する。これらの間の条件付き確率は、知識エンジニアによって与えられてもいいし、画像入力データの時間的空間的相関によって計算してもよい。
【0074】
例えば、変換符号化部5による多重解像度表現をしない場合の3レベルの階層表現の例を、図8に示す。それぞれのレベルにおける配位空間は、1つ下のレベルの配位空間の(3×3)の空間的配置により構成される。つまり、Ω(0) は実数値を取る画素を(3×3)に並べてできるパターンの全体、Ω(1) はΩ(0) のパターンに付けられた番号の全体を整数としたときに、この整数を(3×3)に並べてできるパターンの全体、…という具合である。従って、各層間の条件付き確率がモデルとして存在し、Ω(0) に属する18個のパターンに対する事前確率が与えられれば、Ω(1) ,Ω(2) に属するパターンの確率分布が計算できる。
【0075】
尚、実施例1の確率オートマトン7及び実施例2の相互結合型ニューラルネット207等を、まとめて知識獲得部とも総称する。
【0076】
<入力パラメータ制御部(input parameter controller)8>
上記特徴点検出部4からの特徴点の座標及び確率オートマトン7からのパターンの確率分布に基づいて、レンズの光軸方向やズーミング等の入力パラメータ制御信号を上記広角レンズ入力装置に出力する構成要素であり、例えば光軸方向に関しては、以下のような処理を行う。
【0077】
光軸制御法は、特徴点検出部4で検出された特徴点の集合のうちのどの特徴点を選択するかで決まる。例えば、この選択の評価基準を次式で定義する。
【0078】
br=L(wbr,T(brv (q+1)),ρ(br)) (23)
ここで、wbrは特徴点br における正規化された2次元フィルタ3の出力値、右辺第2項はΩv (q+1)に対する特徴点br の相互情報量、ρ(br)は現在の光軸からbr までの距離である。Lbrの最も簡単な例としては、それぞれの変数の線形結合が考えられる。
【0079】
br=α0br+α1 T(brv (q+1))+α2 ρ(br) (24)
先ずΩv (q+1)に対するΩr (q)の相互情報量T(Ωr (q),Ωv (q+1))を次式(25)で定義し、これを用いて、T(brv (q+1))=T(Ωr (0),Ωv (q+1))を計算する。
【0080】
【外6】
Figure 0003847832
【0081】
上式(23)あるいは(24)を最大にする空間座標に光軸を一致させるように、光軸の修正量を決定する。パターンオートマトン71の各セルは、実空間座標とスケール座標との両方をもっている。従って、相互情報量が最大の(観測)位置に光軸を一致させるということは、相互情報量が最大のセルを見つけることと同じである。各セルは符号語とそれに対する出現確率を記憶しており、さらに各セル間の関係は条件付き確率で結び付いているので、これらを用いて、ある特性のセルの状態を決定する(これはその特定のセルの符号語の出現確率に対するエントロピを下げることと同じ)ために、最も有効なセル、即ち相互情報量が最大となるセルを決定することができる。これを、式(23)から式(25)を使って計算する。
【0082】
尚、上記式(23)から式(25)は、多重解像度空間あるいはその局所パターンに適用すれば、ズーム制御の評価値ともなる。本発明の評価値の計算及び評価は式(23)から式(25)に限定されない。
【0083】
<本実施例の具体例>
以下では、上記本理論を簡単な例に適用することによって、その有効性を示す。尚、本具体例では説明を簡単にするために、(3×3)のアレイセンサを使用し、広角レンズや変換符号化部の作用による多重解像度表現をしない例で説明する。本例で式(24)の第1項は画素データの変化量(黒/白)と考えられる。
【0084】
入力装置は一度に(3×3)画素の範囲が見えるものとし、図8のようなモデルを知識として持っているものとする。ここでは、パターンオートマトンのみを利用して、2次元パターンを認識する例を示す。図よりレベル(0)パターンの台は3×3画素、レベル(1)パターンの台は9×9画素、レベル(2)パターンの台は27×27画素であることがわかる。従って、システムは一度の観測でレベル(0)のパターンを認識することができる。また、レベル(1)及びレベル(2)のパターン中に現れる数字は、それぞれレベル(0)及びレベル(1)パターンの符号語である。また、それぞれのレベルのパターンに対する出現確率は等しいとする。以下、レベル(1)パターンを認識する操作を、レベル(1)観測と書くことにする。
【0085】
視覚環境として図9に示すパターンが与えられたとして、レベル(2)パターンを認識する問題を考える。ただし、図中、左上を原点(0,0)、右にi番目、下にj番目の画素の座標を(i,j)と記す。システムは2つのレベル(2)パターンしか知らないので、与えられた画像中のパターンがこのどちらかを特定すればいい。
【0086】
図9は本装置に入力される入力画像で、この画像が、変換符号化部5及び量子化部6を経て、式(13)の形式になる(ただし冗長な部分は削除される)。
【0087】
図7のパターンオートマトン71の一番上のそのセルには、図8のΩ(0) に含まれる18個の符号語に対する出現確率を記憶するバッファがあり、パターンオートマトン71の上から1層目の各セルは、自分が受け持つ空間領域にある部分画像(入力画像の部分画像)(本例では3×3の部分画像)と図8のΩ(0) に含まれる18個の局所パターンとのマッチングを取り、それに対応する符号語とそれぞれの出現確率を記憶する。1層目のあるセルに対応する部分画像が得られていない時には、1層目のセルは、全ての符号語に対して同じ出現確率“1/18”を割り当てる。また、部分画像が局所パターンの“1”か“2”であることがわかったときは、符号語1と符号語2の出現確率として“1/2”を、その他の符号語の出現確率として“0”を記憶する。
【0088】
パターンオートマトン71の各セルは、図8のΩ(1) に含まれる4つのパターンに対する符号語とその出現確率を記憶する。ここでいうパターンとは、1層目のセルの符号語の空間的配置を言う。即ち、1層目のセルの符号語の局所的配置を、“1”から“4”までの数字で代表させる。2層目のセルの受け持つ部分空間で1層目の符号語が“1”から“4”までのどの配置をしているかは、式(22)を用いて計算される。式(22)の乗算は、本例では3×3個のパターンについて行う。3層目のセルについても同様に、2つの符号語に対する出現確率を式(22)を用いて計算する。
【0089】
さて、初期のレベル(0)観測が座標(10,10)の位置で行われたとし、引き続く処理を順を追って説明する。座標(10,10)は特徴点検出部により検出されたものとしてもよい。
【0090】
(ステップS1)
座標(10,10)のレベル(0)観測によって得られた情報は、レベル(0)パターンが“18”であるということであり、この情報が“0”であることは容易にわかる。システムは現在自分が観測している位置とレベル(2)パターンの相対的位置との対応を付けるために、先ず現在の観測点付近でのレベル(1)パターンを特定する必要がある。
【0091】
レベル(2)の観測を終了させるためには、Ω(2) でのエントロピーを最小にしなければならない。即ち、T(Ω(i,j) (1),Ω(10,10) (2))を最大にするような観測点(i,j)を選択する。観測点の候補としては、{(16,10),(13,13),(10,16),(16,16)}の4点が選ばれる。それぞれの点を観測したときの情報量の期待値は、
T(Ω(16,10) (1),Ω(10,10) (2))=0. 219,
T(Ω(13,13) (1),Ω(10,10) (2))=0. 354,
T(Ω(10,16) (1),Ω(10,10) (2))=0. 219,
T(Ω(16,16) (1),Ω(10,10) (2))=0. 354. (26)
となる。これより、距離の近い観測点を選ぶものとすれば、次の観測点として
(13,13)を選択する。距離に関する条件はこれに限定はされない。
【0092】
(ステップS2)
座標(13,13)でのレベル(0)観測を行う。その結果レベル(0)パターン“14”を得る。これではまだ座標(13,13)を中心とするレベル(1)パターンは特定されない。そこで、ステップS1と同様にして、座標(16,16)でのレベル(0) 観測を行う。その結果レベル(0)パターン“10”を得、これより、座標(13,13)を中心とするレベル(1)パターンは“1”に特定される。再びレベル(2)のそれぞれの観測点における情報量を計算する。観測点の候補はレベル(1)の座標(22,22)の1点である。即ち座標(22,22)でのレベル(2)パターンが“2”か“3”かを特定する。そのための、レベル(0)の観測点候補の点を観測したときの情報量の期待値は、
T(Ω(19,19) (1),Ω(16,16) (2))=0. 171,
T(Ω(25,19) (1),Ω(16,16) (2))=0. 171,
T(Ω(22,22) (1),Ω(16,16) (2))=0. 585,
T(Ω(19,25) (1),Ω(16,16) (2))=0. 171,
T(Ω(25,25) (1),Ω(16,16) (2))=0. 585,
これより次の観測点として距離の近い(22,22)を選択する。
【0093】
(ステップS3)
座標(22,22)の観測によって、レベル(0)パターン“17”が得られる。これより、この位置でのレベル(1)パターンが“3”か“4”かであることがわかり、結局、与えられた入力信号は、レベル(2)パターンの“2”であることが認識できる。
【0094】
尚、上記具体例では、簡略化のために多重解像度空間やその局所パターンを考慮していないが、多重解像度空間やその局所パターンを考慮に入れても、処理が複雑になるのみで同様の処理が可能である。多重解像度空間やその局所パターンを考慮に入れることにより、光軸の制御に他にズーム制御等も可能となる。
【0095】
〔実施形態2〕
実施形態2では、実施形態1の確率オートマトン7を相互結合型ニューラルネット(Hopfield-type NN)で実現した例を示す。これによって、入力パラメータ制御部208における処理も変わる。
【0096】
図10は、本実施形態の視覚情報処理装置の構成例を表すブロック図であり、レンズ系201,アレイセンサ202,2次元フィルタ203,特徴点検出部204,変換符号化部205は、それぞれ、実施形態1のレンズ系1,アレイセンサ2,2次元フィルタ3,特徴点検出部4,変換符号化部5と同様である。
【0097】
<量子化部206>
図11に量子化部206の構成を示す。量子化部206には、代表ベクトルを獲得するための学習モードと、入力信号を符号化するための実行モードとがある。学習モードでの代表ベクトルの獲得には、相関行列を用いる方法と、Kohonen によって提案されている学習ベクトル量子化器を用いる方法がある。以下では、Kohonen の学習ベクトル量子化器によって、深さmの量子化器を構成する方法を説明する。
【0098】
(a)代表ベクトルの個数分のウェイトベクトルWn mを用意し、それぞれを小さい乱数によって初期化する。
【0099】
(b)局所パターンXm とWn mとの内積を出力する、ウェイトベクトルWn mと同数の演算素子(processing element)PEn mを用意する。各PE間には2次元距離が導入されており、PEの近傍半径Rを適当に設定する。
【0100】
(c)入力される局所パターンXm に対して、最大値を出力するPEn m MAX を見つけ出し、PEn m MAX との距離がRより小さいPEに対するウェイトベクトルWn mを次式で修正する。
【0101】
n m←Wn m+ηW ( Xm −Wn m MAX
ここでηW は定数である。ウェイトベクトルの修正とともにPE近傍半径Rを徐々に小さくしていく。
【0102】
このようにして、出現確率の高い局所パターンは、ウェイトベクトルとして学習ベクトル量子化器に記憶される。局所パターンの符号化は、最大値を出力するPEのインデックスとして与えられる。
【0103】
量子化部206の実行モードでは、各特徴点近傍の特徴ベクトルを、上記学習ベクトル量子化器に入力し、そのときの{PEn mn のうち、出力が最大となる演算素子のインデックスを符号語とする。この処理によって、全ての特徴点に適当な符号語の組が対応づけられる。
【0104】
このようにして、与えられた画像は、特徴点の位置座標と局所パターンの符号語との組として符号化される。しかし、このような符号化は、空間的に隣接する局所パターン間に強い相関が存在するという意味でかなりの冗長性を含んでいる。量子化部206の代表ベクトルには、このような冗長性が含まれていないことが望ましい。これら冗長性は、それぞれの代表ベクトル間の同時出現確率を用いて削減することができる。
【0105】
<相互結合型ニューラルネット(Hopfield-type neural network)207>
図12に相互結合型ニューラルネット207の構成を示す。図12中、パターンネット121は、画像入力データの幾何学的特徴及び時間的相関に基づいて構築されるネットワークであり、概念ネット122は、上記パターンネットの結果と他の入力信号、例えば人間によるキーボードからの知識データや他のセンサ信号等によって構築されるネットワークである。
【0106】
ニューロン123は、多入力1出力の演算素子であり、入力ベクトルxと出力値yとは、ウェイトベクトルwを用いて、
y=sgm(wT x) (28)
という関係で結び付けられる。ただし、sgm(・)はシグモイド関数である。ニューロンの出力値は、ニューロンに対応するパターン或いは概念の出現確率を表している。
【0107】
124は互いに競合するニューロンの集合としてのニューロン群であり、125はニューロンjとニューロンkとを結ぶウエイトWj,k である。ニューロン群は形式的に階層構造をしており、更に各階層で複数のブロックを形成している。(q)層rブロックのニューロン群をΩ(q):r 、(q+1)層vブロックのニューロン群をΩ(q+1):v と書く。パターンネット121に属するニューロン群は、多重解像度空間の対応する座標に於ける局所パターン空間を表現している。パターンネット121には、初期状態として量子化部206からのデータが設定される。
【0108】
上記構成のニューラルネット207の運動は、次式で定義されるエネルギ関数に支配される。即ち、各ブロックに属するニューロンの出力値をVm ∈Ω(q):r ,Vn ∈Ω(q+1):v と書けば、以下のように定義できる:
【0109】
【外7】
Figure 0003847832
【0110】
パターンネット121のウエイトは、学習ベクトル量子化器に於けるウエイトと対応するので、学習ベクトル量子化によるウエイトの値を利用することができるが、以下の方法でも獲得できる。
【0111】
パターンネット121及び概念ネット122のウエイトは以下のように獲得することができる。即ち、式(29)を学習ポテンシャル関数と見做すことによって、ウエイトの修正量は、
【0112】
【外8】
Figure 0003847832
となる。
【0113】
<入力パラメータ制御部208>
実施形態1で説明した相互情報量は、相互結合型ニューラルネットに対応させて、以下のように算出する。
【0114】
(a)相互結合型ニューラルネットの(q)層rブロックのニューロンの集合Vm ∈Ω(q):r と(q+1)層vブロックのニューロンの集合Vn ∈Ω(q+1):v とを結ぶコネクションの集合Wm nに関するエントロピーε(q):r (q+1):vを、
【0115】
【外9】
Figure 0003847832
により計算する。ここで、
【0116】
【外10】
Figure 0003847832
は、学習モードで計算される値なので、入力パラメータ算出過程では既知として扱ってよい。
【0117】
(b)相互結合型ニューラルネットの、(q)層rブロックのニューロンの集合Vm ∈Ω(q):r に対して、エントロピーε(q):r を、
【0118】
【外10】
Figure 0003847832
により計算する。
【0119】
(c)ε(q):r (q+1):vとε(q):r より、以下のように式(25)と同様の値を得る。
【0120】
T(ε(q),T+1,p(ω;AT (q+1)))=−ε(q):r (q+1):v+ε(q):r (33)
【0121】
〔実施形態3〕
実施形態3では、本実施形態の視覚情報処理装置の監視装置への応用例を示す。
【0122】
図13は、本実施形態の監視装置の構成例を表すブロック図であり、レンズ系301,アレイセンサ302,2次元フィルタ303は、実施形態1のレンズ系1,アレイセンサ2,2次元フィルタ3と同様である。
【0123】
<特徴点検出部304>
特徴点検出部304では、2次元フィルタ303による空間的配置に関する特徴点のみならず、画像データの時間的変化の極値も特徴点として検出する。監視装置は、店内やオフィス内等のように、通常動くものが殆ど存在しない場所に設置される。異変が無ければ画像データは変化しないので、変化する場所だけを詳しく観測すればよい。これによって、監視情報の録画時間が大幅に長くできる。
【0124】
このような意味から、画像データの時間変化は重要な特徴である。運動する物体を捕捉するためには、フィードバック制御の時間遅れをできるだけ小さくしたい。特徴点検出部304には、検出した特徴点位置に光軸を向ける光軸制御量を計算し、入力パラメータ制御部308に送る機能も有する。このような機能によって、運動物体のセンサ上での像は静止画像として処理できる。
【0125】
<変換符号化部305>
捕捉した運動物体に関する画像データを符号化する。この符号化データは、通信回線或いはバスライン等を通じて、外部記憶装置309に記憶される。
【0126】
<量子化部306>
捕捉した物体の符号化データは、即座に適当な符号語に割り当てられる。従って、以後これらの物体が画像上に現れたときには、それらは位置と、対応する符号語とで表現される。
【0127】
<確率オートマトン307>
捕捉した物体の符号化データは、即座に確率オートマトン307の状態遷移確率行列に反映される。ある限定された周波数領域の強度を知ることによって、その周波数強度関数を含む物体を推定することができる。これによって、一度捕捉した物体の位置は、光軸を合わせた高解像度のデータは必要なく広角レンズの任意の部分で観測すればよい。即ち光軸を制御する必要がない。監視領域に複数の物体が現れた場合でも、それらを1度だけ順々に観測すれば良い。
【0128】
<入力パラメータ制御部308>
特徴点選択の評価基準としては、特徴点における2次元フィルタ出力値と、時間変化量、そして、相互情報量の線型結合を採用する。
【0129】
運動する物体に対しては、それが現れた時刻に光軸中心で観測することとし、あとはその物体を光軸中心で捕捉することはしないという基準を設ければ、より効率的な監視装置が可能になる。
【0130】
<外部記憶部309>
各種データを記憶する。監視装置は、最初に正常な状態の画像データを記憶する。以後は、時間的に変化した部分だけを記憶する。記憶されるデータは、捕捉した物体の符号化データと捕捉した時刻、それらの位置の時間変化(軌跡)である。このような記憶形態によって、記憶するデータ量を大幅に減少させられるため、長時間の録画が可能となる。
【0131】
<監視装置の動作例>
上記のように構成される監視装置の実際の動きを、図14のフローチャートに従って説明する。
【0132】
まず、ステップS11で、設置された場所の初期画像を記憶部309に記憶する。
【0133】
次に、ステップS12で、式(24)によって特徴点の評価を行う。式(24)から明らかなように、評価値が大きくなる特徴点とは、その近傍の画素値の時間変化量が大きいか、得られる情報が大きいかである。上記2つの項目の評価値が等しい特徴点が複数存在した場合でも、それらのうち、光軸に最も近いものが選ばれるように、式(24)は定義されている。
【0134】
ステップS13では、特徴点のうち、評価値があるしきい値αより大きいものが存在する場合は、ステップS16へ行く。
【0135】
ステップS14で、全ての特徴点の時間変化量があるしきい値βより小さい場合には、ステップS12へ戻る。
【0136】
ステップS15では、特徴点のうち、時間変化量があるしきい値βを越えるものは、その特徴点に対応する符号語ベクトル(不完全でよい)をもとに、後述の物体に関する完全な記述を用いてそこに存在する物体を同定し、現在の時刻と特徴点の座標と物体に対応する符号語とを組にして、記憶部309に記憶し、ステップS12へ戻る。
【0137】
ステップS16では、選択された特徴点に光軸を一致させる。
【0138】
ステップS17において、特徴点近傍に存在する物体の完全な記述(符号語の組)を獲得し、適当な番号を割当てる。物体に割り立てられた番号と、符号語の組と、時刻と、特徴点座標とを組にして記憶部309に記憶する。ステップS12に戻る。
【0139】
前記ステップS15への移行は、特徴点付近の測定データをもとに、それが高い信頼性をもって以前に観測し詳細なデータを記憶したデータであると推定できる場合に相当する。従って、本実施形態の監視装置は、誰かが店内に入ってきた時だけ詳細な観測を行ない(S16,S17)、それ以降はその人の位置情報のみを記憶するという処理を行う(S15)。
【0140】
このような監視装置を用いれば、動画像をそのまま記憶するよりはるかに少ない容量の記憶装置で、長時間の監視が可能となる。例えば1枚の画像が260Kバイト(512×512画素で1画素が1バイト)のとき、108,000枚の画像列(30枚/秒で1時間)を記憶するためには、28Gバイトが必要になる。本実施形態によれば、例えば運動物体(店内であれば客)が常時100個あったとして、それぞれの物体の完全な記述に1画面分(260Kバイト)を要したとしても、1時間の記憶に必要な容量は、初期画像の記憶に0. 26Mバイト、物体の記述に26Mバイト、物体の軌跡に1. 728Mバイト(ただし特徴点の位置を倍精度の2次元座標で記述して)の和、即ち28Mバイトで済む。実際には、店内に常時100人もいるような状況は考えにくいし、物体の記述で使う容量も画像全体を記憶する容量よりは小さい。例えば店内にいる物体が10個に減っただけでも、1時間の記憶に要する容量は3Mバイトまで激減する。
【0141】
〔実施形態4〕
実施形態4では、実施形態1の量子化部6を学習局所ベクトル量子化器で、確率オートマトン7を対称結合型ニューラルネット群で、それぞれ実現するとともに、外部から信号を入力する信号入力部と、外部へ信号を出力する信号出力部とを設けた例を示す。これによって、入力パラメータ制御部における処理も変わる。
【0142】
図15は、本実施形態の視覚情報処理装置の構成例を表すブロック図であり、画像入力部401は、実施形態1のレンズ系1及びアレイセンサ2と同様のレンズ系及びアレイセンサを備えている。2次元フィルタ403,特徴点検出部404,変換符号化部405は、それぞれ、実施形態1の2次元フィルタ3,特徴点検出部4,変換符号化部5と同様である。
【0143】
<量子化部406>
図16に、量子化部406となる学習局所ベクトル量子化器(LLVQ)の構成を示す。LLVQには、代表ベクトルを獲得するための学習モードと、入力信号を符号化するための実行モードとがある。学習モードでの代表ベクトルの獲得には、相関行列を用いる方法と、Kohonen によって提案されている学習ベクトル量子化器を用いる方法がある。以下では、Kohonen の学習ベクトル量子化器によって、深さmの量子化器を構成する方法を説明する。
【0144】
(a)ウェイト記憶部162は予め定められた個数だけ用意されており、あるカテゴリnに属する代表ベクトルWn を記憶する。図16は、代表ベクトルが2個の場合を示している。
【0145】
(b)ウェイト更新部163は、ウェイト記憶部162毎に設けられており、2値化部164から送信される信号が1の時に限り、ウェイト記憶部162に記憶されたウェイトの値を次式(34)に従って更新する。
【0146】
n m←Wn m+ηW(Wn m−Xm) (34)
【0147】
(c)内積計算部161は、入力信号XとWn との内積を計算して2値化部164に送信する。
【0148】
(d)2値化部164は、複数の内積計算部161の出力信号を受け取り、それらの内で最大値を取る出力値を1に、他を0に変換する。変換された信号(2値信号)は、それぞれ対応するウェイト記憶更新部163に送信される。また、これらの2値信号の組が対称結合型ニューラルネット群406に送信される。
【0149】
このようにして、与えられた画像は、特徴点の位置座標と局所パターンの符号語との組として符号化される。しかし、このような符号化は、空間的に隣接する局所パターン間に強い相関が存在するという意味でかなりの冗長性を含んでいる。量子化部405の代表ベクトルには、このような冗長性が含まれていないことが望ましい。これら冗長性は、それぞれの代表ベクトル間の同時出現確率を用いて削減することができる。
【0150】
<対称結合型ニューラルネット群406>
図17に対称結合型ニューラルネット群406の構成を示す。対称結合型ニューラルネット群406は、互いに信号を送信し合う複数の対称結合型ニューラルネットにより構成され、各対称結合型ニューラルネットは、他の対称結合型ニューラルネット、量子化部405、あるいは信号入力部408から信号を受け取り、他の対称結合型ニューラルネット、入力パラメータ制御部407、あるいは信号出力部409へ入力信号の処理結果を出力する。
【0151】
図18に1つの対称結合型ニューラルネットの構成を示す。図18中、対象結合型ニューラルネット状態更新部171は、多入力1出力で非線形入出力関数としてシグモイド関数を持つニューロンが、ウェイトを介して互いに対象に結合している。ニューロンは少なくとも2つのブロックを形成しており、そのうちの1つは出力ブロック、残りはすべて入力ブロックである。出力ブロックのニューロンの出力値の組は出力信号(ベクトル)となり、入力ブロックに属するニューロンは、他の対称結合型ニューラルネット、量子化部405、あるいは信号入力部408から信号を受け取る。
【0152】
上記構成のニューラルネット207の運動は、次式で定義されるエネルギ関数に支配される。即ち、各出力ブロックに属するニューロンの出力値をVn 、任意の1つの入力ブロックに属するニューロンの出力値をVm 、入力値をIm 、これらのニューロン間のウェイトをWm,n と書けば、これらに対するエネルギー関数Hを次式(35)のように定義できる:
【0153】
【外12】
Figure 0003847832
【0154】
ウエイト更新部172は、例えば、次式(30)のウエイト更新規則に基づいて、ニューラルネットのウェイトを更新する。
【0155】
【外13】
Figure 0003847832
ウェイト記憶部173は、ウエイト更新部172で更新されたウェイトを記憶する。
【0156】
第1情報量計算部174は、出力ブロックに属するニューロンの出力値Vn に基づく第1情報量ε1 を以下のように計算する。
【0157】
【外14】
Figure 0003847832
第2情報量計算部175は、出力ブロックに属するニューロンの出力値Vn 、入力ブロックに属するニューロンの出力値Vm 、これらのニューロン間のウェイトをWm,n に基づく第2情報量ε2 を以下のように計算する。
【0158】
【外15】
Figure 0003847832
ここで、
【0159】
【外16】
Figure 0003847832
は学習モードで計算される値なので、入力パラメータ算出過程では、既知の値として扱ってよい。
【0160】
第3情報量計算部176は、第1情報量ε1 及び第2情報量ε2 から第3情報量Tを以下のように計算する。
【0161】
T=−ε2 +ε1 (39)
【0162】
<入力パラメータ制御部407>
入力パラメータ制御部407は、特徴点検出部403からの特徴点の座標及び対称結合型ニューラルネット群406の状態値に基づいて、画像入力部401に対して、レンズの光軸方向やズーミング等のための入力パラメータ制御信号を出力する。
【0163】
例えば、光軸方向の制御は、特徴点検出部403で検出された特徴点の集合のうちのどの特徴点を選択するかで決まる。この選択基準を、例えば次式(40)で定義する。
【0164】
j =L(ωj,Tjj) (40)
ここで、ωj はj番目の特徴点近傍における正規化された2次元フィルタの出力値、Tj はj番目の特徴点近傍の第3情報量、ρj は現在の光軸からj番目の特徴点までの距離である。
【0165】
また、信号入力部408は、他の装置などからの入力信号、例えば人間によるキーボードからの知識データや他のセンサ信号等を入力する。信号出力部409は、対称結合型ニューラルネット群406の出力信号を、視覚情報処理装置の入力パラメータ制御部407以外の他のユニット、あるいは他の装置に出力する。
【0166】
このように、更に他の装置と組み合わせることによって、上記本実施形態の視覚情報処理装置は、種々の特徴ある使用が可能である。
【0167】
例えば、無線信号装置や有線信号装置と組み合わせて、人間の顔を観測しているときに、有線信号あるいは無線信号によってその人の名前を入力すれば、顔の画像データと名前とを関連付けて記憶することができる。これは、画像にタグをつけるという意味では、人間の顔に限らない。さらに、音声信号入力装置と組み合わせて、音声信号と関連づけることによって、画像の認識精度が向上する。
【0168】
音声信号入力装置や音声信号処理装置は、特に人間の音声に限るものではなく超音波であっても構わない。この場合には、超音波センサによって周囲の物体までの距離情報が得られるので、視覚情報と距離情報とを用いて自律走行ロボットを構成することができる。
【0169】
無線信号装置や無線信号処理装置は、複数の自律走行ロボット、あるいは複数の監視装置間の通信に利用することができる。例えば、建物の内部が1台の監視装置では監視できないような場合を考える。監視装置jが移動物体を検出し、その詳細な観測を行ったとする。この移動物体が、監視装置jの観測可能領域を出て今まさに監視装置kの観測可能領域に進入しようとしている時、監視装置jが監視装置kに、“今、監視装置jの観測可能領域から監視装置kの観測可能領域に進入した移動物体の詳細なデータは、監視装置jが獲得している”という情報を監視装置kに送信すれば、監視装置kでは、この移動物体の詳細な観測を行わなくて済む。これは、記憶データ量及び監視装置の仕事量の軽減に有効である。
【0170】
更に、例えば工場内で部品などを運搬する走行ロボットと組み合わせれば、環境に柔軟に対応する走行ロボットが実現できる。又、音声信号出力装置との組み合わせもできる。
【0171】
以上説明した実施形態によれば、高速に最適な視覚情報を獲得できる画像情報処理方法及びその装置、並びにその制御方法を提供でき、その装置を有効に適用した各種装置をも提供できる。
【0172】
更に詳細には、
1.何らかの原因で、引き続く画像入力が困難になった場合でも、もっとも出現確率の高い結果を得ることができる。更にこれらを並列処理で行なうことができるため、処理時間が大幅に短縮できる。更に、相互結合型ニューラルネットワークによって実現しているため、状態遷移規則が単純になり、処理時間の更なる向上が見込める。
【0173】
2.画像の特徴点集合は有限個の点の集合であることが望ましい。しかし、従来の技術で特徴量として広く用いられているエッジは連続的であり、これをもとに有限個の点集合を得るためには、何らかの後処理、例えばエッジの強度に対する2値化処理が必要となる。本発明によれば、孤立点として特異点を得ることができる。また、変換符号化部と量子化部と知識獲得部とによって、センサ入力と知識データとを統一的に取り扱うことができ、これによって、複雑な視覚パターンで構成される環境の認識に応用することができる。
【0174】
3.2次元フィルタとしてLaplacian−Gussian フィルタを用いることによって、環境の視覚情報を、多重解像度空間の部分領域上の変換が近似的に実現できる。光軸の方向を適当に制御すれば、画像、或いは環境の部分領域に対する多重解像度空間での記述を近似的に得ることができる。2次元フィルタとして単なる平均化処理を用いれば、画像或いは環境の部分領域に対する多重解像度近似での記述を得ることができる。このように、2次元フィルタの核として多重解像度空間で用いられるものを利用すれば、それに対応した多重解像空間が得られる。これは、環境の視覚情報が多重解像度空間の部分領域を覆うような場合に、有効なセンシング方法である。
【0175】
4.フィードフォワード型ニューラルネットによって、相互結合型ニューラルネットより高速なフィードフォワード制御が可能となる。
【0176】
5.特徴量空間として多重解像度空間を採用し、そこでの局所パターンに着目することによって、環境内に存在する物体の特定の運動に対する不変量を得ることができる。例えば、光軸に沿う運動は、物体の特徴量をスケール軸に沿って平行移動させるだけである。
【0177】
6.音声信号入力装置と音声信号処理装置と組み合せることによって、音声による人間からのコマンドの送信、或いは音による障害物の同定等が可能になり、無線信号通信装置と無線信号処理装置、或いは有線信号通信装置と有線信号処理装置と組み合せることによって、他のコンピュータとのコマンドの送受信、或いは他の視覚情報処理装置との情報の送受信が可能となり、知識獲得部によって、該音声信号,該無線信号及び該有線信号をもとに入力パラメータ制御を行うことができ、単一の信号だけでは認識できなかった物体が認識できるようになる。また、他の視覚情報処理装置の知識データを受信することによって、学習モードに要する時間を短縮することができる。
【0178】
7.作業用工具と該作業用工具制御装置と組み合せることによって、外界の状態に適応した作業を行うことができ、作業の遂行の仕方が環境に大きく依存するような場合に有効に動作する自律作業ロボットによる共同作業が可能となる。
【0179】
8.音声信号出力装置と組み合せることによって、周囲の人間に自分の状態を知らせることができ、人間との共同作業にも対応するような自律作業ロボットを構成できる。
【0180】
以上説明した本発明は、複数の機器から構成されるシステムに適用しても、システム内の特定の機器に適用しても良い。また、本発明は、この機器がプログラムを実行することによって達成される場合に適用でき、このプログラムは外部の記憶媒体から供給してもよく、このプログラムを記憶する記憶媒体も、本発明の範囲にある。
【0181】
【発明の効果】
以上説明したように、本発明によれば、高速に最適な視覚情報を獲得できる画像情報処理方法及びその装置、並びにその制御方法を提供できる。
【図面の簡単な説明】
【図1】実施形態1の視覚情報処理装置のブロック構成を示す図である。
【図2】広角レンズによる座標変換を説明するための図である。
【図3】広角レンズの周波数特性を説明するための図である。
【図4】センサの検出する空間周波数を説明するための図である。
【図5】多重解像度空間上の局所パターンの例を説明するための図である。
【図6】実施形態1で使用される量子化部の構成例を説明する図である。
【図7】実施形態1の確率オートマトンの例を説明する図である。
【図8】具体例で使用される階層表現の例を示す図である。
【図9】具体例で使用される視覚環境の例を示す図である。
【図10】実施形態2の視覚情報処理装置の構成例を示すブロック図である。
【図11】実施形態2の量子化部の構成例を説明する図である。
【図12】相互結合型ニューラルネットワークの例を説明する図である。
【図13】実施形態3の監視装置の構成例を示すブロック図である。
【図14】実施形態3の監視装置の動作例を示すフローチャートである。
【図15】実施形態4の視覚情報処理装置の構成例を示すブロック図である。
【図16】実施形態4の量子化部の構成例を説明する図である。
【図17】対称結合型ニューラルネットワーク群の構成例を示す図である。
【図18】対称結合型ニューラルネットワークの構成例を示す図である。
【符号の説明】
1、201、301 レンズ系
2、202、302 アレイセンサ
3、203、303、402 2次元フィルタ
4、204、304、403 特徴点検出部
5、205、305、404 変換符号化部
6、206、306 量子化部
7、307 確率オートマトン
8、208、308、407 入力パラメータ制御部
10 光軸
61、62、63 量子化器
64 コードブック
71 パターンオートマトン
72 シンボルオートマトン
73 セル
121 パターンネットワーク
122 概念ネット
123 ニューロン
124 ニューロン群
125 ウェイト
161 内積計算部
162、173 ウェイト記憶部
163、172 ウェイト更新部
164 2値化部
171 対称結合型ニューラルネット更新部
174 第1情報量計算部
175 第2情報量計算部
176 第3情報量計算部
207 相互結合型ニューラルネット
309 記憶部
401 画像入力部
406 対称結合型ニューラルネット群
408 信号入力部

Claims (7)

  1. 画像情報処理装置の画像入力部より画像を光学的に入力し、
    入力された画像を2次元フィルタにより多重解像度展開し、
    多重解像度展開された画像より特徴点を検出し、
    検出された特徴点について、その特徴点における正規化された前記2次元フィルタの出力値と、各特徴点の位置座標及び多重解像度展開された局所パターンに対するその特徴点の相互情報量と、その特徴点と前記画像入力部の光軸との距離とに基づいて評価値を算出し、
    前記評価値最大となる特徴点に前記光軸を一致させるように、前記画像入力部を制御することを特徴とする画像情報処理装置の制御方法。
  2. 前記画像入力部の制御は、画像のズームを含むことを特徴とする請求項1に記載の制御方法。
  3. 前記相互情報量は、階層化された複数のセルを含み、各セルの状態値が多重解像度空間の部分領域に対応し、前層のセルの状態に対する各層のセルの状態の条件付き確率を状態遷移行列の要素とする確率オートマンにおいて、異なるセル間の相互情報量に基づいて算出されることを特徴とする請求項1に記載の制御方法。
  4. 前記確率オートマンを前記セルに対応するニューロン群を有する相互結合型ニューラルネットワークにより構成し前記相互情報量をニューロンの集合間のコネクションに関するエントロピーに基づいて算出することを特徴とする請求項に記載の制御方法。
  5. 前記画像を入力するステップは、広角レンズを用いて、入力された画像を該広角レンズと垂直な方向について座標変換するステップを含むことを特徴とする請求項1に記載の制御方法。
  6. 前記特徴点を検出するステップは、入力画像を表す関数からベクトル場を生成するステップと、該ベクトル場を複素関数で表現し、偏角の原理を用いて、特異点として当該特徴点を検出するステップを備えることを特徴とする請求項1に記載の制御方法。
  7. 画像を光学的に入力する画像入力手段と、
    前記画像入力手段から入力された画像を多重解像度展開する2次元フィルタと、
    前記2次元フィルタにより多重解像度展開された画像より特徴点を検出する検出手段と、
    前記検出手段により検出された特徴点について、その特徴点における正規化された前記2次元フィルタの出力値と、各特徴点の位置座標及び多重解像度展開された局所パターンに対するその特徴点の相互情報量と、その特徴点と前記画像入力手段の光軸との距離とに基づいて評価値を算出する算出手段と、
    前記算出手段により算出された評価値最大となる特徴点に前記光軸を一致させるように、前記画像入力手段を制御する制御手段とを具えたことを特徴とする画像情報処理装置。
JP07876396A 1995-03-31 1996-04-01 画像情報処理方法及びその装置、並びにその制御方法 Expired - Fee Related JP3847832B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP07876396A JP3847832B2 (ja) 1995-03-31 1996-04-01 画像情報処理方法及びその装置、並びにその制御方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP7-76583 1995-03-31
JP7658395 1995-03-31
JP07876396A JP3847832B2 (ja) 1995-03-31 1996-04-01 画像情報処理方法及びその装置、並びにその制御方法

Publications (2)

Publication Number Publication Date
JPH08329033A JPH08329033A (ja) 1996-12-13
JP3847832B2 true JP3847832B2 (ja) 2006-11-22

Family

ID=26417720

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07876396A Expired - Fee Related JP3847832B2 (ja) 1995-03-31 1996-04-01 画像情報処理方法及びその装置、並びにその制御方法

Country Status (1)

Country Link
JP (1) JP3847832B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2407932B1 (en) * 2009-03-13 2019-11-27 Nec Corporation Image identifier extraction device
KR101335902B1 (ko) * 2009-03-13 2013-12-02 닛본 덴끼 가부시끼가이샤 화상 식별자 추출 장치

Also Published As

Publication number Publication date
JPH08329033A (ja) 1996-12-13

Similar Documents

Publication Publication Date Title
EP0737938B1 (en) Method and apparatus for processing visual information
Budiharto et al. Fast object detection for quadcopter drone using deep learning
CN108764107B (zh) 基于人体骨架序列的行为与身份联合识别方法及装置
Gottipati et al. Deep active localization
Liu et al. Extreme trust region policy optimization for active object recognition
KR20180004898A (ko) 딥러닝 기반의 이미지 처리 기술 및 그 방법
EP2690582B1 (en) System for controlling an automated device
Zaki et al. Convolutional hypercube pyramid for accurate RGB-D object category and instance recognition
CN114638954B (zh) 点云分割模型的训练方法、点云数据分割方法及相关装置
KR20210152404A (ko) 멀티스케일 딥 평형 모델들을 위한 시스템 및 방법
Chin et al. Episodic memory multimodal learning for robot sensorimotor map building and navigation
JP3847832B2 (ja) 画像情報処理方法及びその装置、並びにその制御方法
Micarelli et al. A case-based approach to image recognition
Itano et al. Human actions recognition in video scenes from multiple camera viewpoints
Yan et al. Multiple binocular cameras-based indoor localization technique using deep learning and multimodal fusion
Pratihar et al. A review on applications of soft computing in design and development of intelligent autonomous robots
Bodyanskiy et al. Fast training of neural networks for image compression
Zheng Augmented deep representations for unconstrained still/video-based face recognition
Heikkonen et al. Self-organizing maps for visually guided collision-free navigation
Reily et al. Simultaneous view and feature selection for collaborative multi-robot perception
Wang et al. Hybrid frame-event solution for vision-based grasp and pose detection of objects
WO2024014199A1 (ja) 画像識別方法、画像識別プログラムおよび画像識別装置
Nicolai Augmented Deep Learning Techniques for Robotic State Estimation
Vij et al. An Experience with Multi-sensor Robot for Adaptive Human Sensing
Do Predictive models for robotics and biomedical applications

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060424

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060824

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees