JP2001034758A

JP2001034758A - 画像理解方法、画像理解プログラムを記録した記録媒体及び画像理解システム

Info

Publication number: JP2001034758A
Application number: JP11205318A
Authority: JP
Inventors: Takashi Omori; 隆司大森; Yoshiyuki Mitsumori; 芳幸三ッ森
Original assignee: Japan Science and Technology Corp
Current assignee: Japan Science and Technology Agency
Priority date: 1999-07-19
Filing date: 1999-07-19
Publication date: 2001-02-09

Abstract

(57)【要約】【課題】記号処理とパターン処理が並列に存在し補完
することで、認識した物体の領域分割、欠けた対象物体
の補完画像の獲得、重なり図形の前後関係の判断を行
う。【解決手段】画像処理前処理部１は、連続画像からエ
ッジを取り出す。パターン処理部２は、パターン処理に
よる画像（場面）認識を行う。記号処理部３は、記号処
理による画像（場面）理解を行う。相互変換部４は、パ
ターン処理部２による画像（場面）認識における特徴
（フィルター、画像）を記号化する変換、逆に、記号処
理部３による画像（場面）理解における記号を画像化す
る変換等を行う。知識の階層としては、線等の原始的な
特徴抽出層６、コーナー等の図形認識層７、部分図形等
の場面認識・理解層８が、それぞれ備えられる。判断部
５は、画像の領域分割、複数画像の重ね合わせ制御等を
行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、画像理解方法、画
像理解プログラムを記録した記録媒体及び画像理解シス
テムに係り、特に、画像の特徴抽出の段階でも記号処理
とパターン処理とが並列に存在し補完するようなハイブ
リッド画像理解方法、画像理解プログラムを記録した記
録媒体及び画像理解システムに関する。

【０００２】

【従来の技術】人間のようなパターン認識・理解の能力
を持つシステムを実現するための研究はこれまでにも数
多く行われてきた。その中心的分野は記号処理とパター
ン処理である。それらは人工知能とパターン認識として
別々に発達してきた。記号処理による画像理解システム
の代表的なものにR.A.BrooksによるACRONYMがある。こ
のシステムは一般化円筒に基づく３次元物体の表現、上
位−下位、部分−全体の関係を用いた知識の構造化およ
び投影幾何学に基づいて、２次元画像と３次元シーンと
の写像関係を推論する。また、ACRONYMはボトムアップ
解析のみであったが、トップダウン解析との統合を行う
システムとして松山らによるSIGMA（松山、Hwnag：画像
理解システム SIGMA、情報処理学会論文誌、Vol.29, N
o.2, pp.169-177, 1998参照）がある。

【０００３】一方、パターン処理ベースによる画像理解
システムにおいてその中心となるものは、画像の特徴に
基づくパターン認識である。パターン認識にはＤＰマッ
チングやニューラルネットワークなどを使ったものがあ
る。特にニューラルネットワークを使ったものは、対象
物体に関する知識を学習により獲得するので人間が記述
する必要がないという利点がある。このようなものの例
としては、バックプロパゲーションを用いた単純なシス
テムや、入力図形の変形に強いネオコグニトロンなどが
ある（福島:『神経回路網と情報処理』,朝倉書店,１９
８９年、特許第1908140号、特許第1221756号、特許第12
79063号、等参照）。また、重なり図形という複雑な入
力に対しては、Leeらはホップフィールドネットワーク
を用いた認識システムを提案している（Lee, Chen, Sun
and Tseng:Occluded objects recognition using mult
iscale features and Hopfield neural network,Patter
n Recognition vol.30 No.1 pp.113-122, 1997参照）。

【０００４】これら記号処理ベースとパターン処理ベー
スの画像理解システムの違いは、主に、入力から出力ま
でのどのレベルまでパターン処理を行うかの違いであ
る。つまり、記号処理ベースのシステムでは単純な特徴
をパターン処理で抽出し、それ以降を記号処理で行う
が、一方、パターン処理ベースのシステムは物体の認識
までをパターン処理で行い、最終的な出力を記号的に処
理をする。

【０００５】

【発明が解決しようとする課題】しかし、最近の複雑な
画像理解の研究において、記号処理とパターン処理を別
々のものとしたままで問題を解決することは次第に困難
となってきている。特に領域分割を必要とするような画
像理解において、記号処理とパターン処理の相互協調・
相互補完が必要であると考えられる。

【０００６】記号処理ベースの画像理解システムは、単
純なパターン認識に比べより厳密な画像解釈が得られる
が、その反面推論に時間がかかり組み合わせ爆発の可能
性が指摘されている。また、ほとんどのシステムでは対
象物体に関する知識を人間が記述する必要がある。一
方、パターン処理ベースの画像理解システムでは物体の
認識は行えるがどの物体が手前にあるのかといった相互
関係の理解までは行えない。また、プロダクションルー
ルをネオコグニトロンに学習させるシステムをYeungら
が提案しているが（Yeung and Chan:Incorporating pro
duction rules with spatial information onto a Neoc
ognitron neural network,International Jurnal of Ne
ural Systems, Vol.5 No.2 pp.131-142, 1994参照）、
やはり認識しか行えず、また、プロダクションルールを
人間が記述する必要がある。このような最近の研究で
は、より複雑な入力画像に対しても正しい認識が行える
ようになってきているが、いずれも画像理解を行うには
パターン認識のみでは不十分であり、最終的には記号推
論を行う必要がある。

【０００７】また、従来からの画像理解システムにおい
ては、各処理プロセスは、パターン処理か記号処理のい
ずれか一方であった。それに対し人間は、記号的な情報
処理とパターン的な情報処理能力の両方を兼ね備え、そ
れらが単に独立して機能するだけではなく、双方が相互
協調することにより現実世界の多様な画像でのロバスト
な理解が効率よく実現されていると考えられる。このよ
うな知能システムを実現させるには、パターン処理と記
号処理の相補性あるいは統合的機能を考慮に入れる必要
がある。統合的機能を考える場合、記号処理とパターン
処理で共通の知識が必要になる。従来の記号推論に基づ
くシステムではこのような知識を人間が作成していた。
しかし、これまで発表させたシステムは完璧でなく、多
少複雑な画像において、曖昧さが残ってしまう。さら
に、従来システムでは、記号処理とパターン処理で共通
な情報を含むように人間が知識を構築することは容易で
はなかった。

【０００８】本発明は、以上の点に鑑み、画像の特徴抽
出の段階でも記号処理とパターン処理が並列に存在し補
完するような画像理解方法、画像理解プログラムを記録
した記録媒体及び画像理解システムを提供することを目
的とする。また、本発明は、「選択的注意モデル」が図
形の局所特徴を抽出して想起することができる点に着目
し、この抽出した特徴の情報を記号知識へと変換するこ
とで共通な知識を自動的に獲得し、その知識を用いた記
号推論によって認識した物体の領域分割や欠けた対象物
体の補完画像を得るようにすることを目的とする。そし
て、本発明は、重なり図形の領域分割に適用することに
より、重なり図形の前後関係も判断することを目的とす
る。

【０００９】

【課題を解決するための手段】本発明の特徴は、例え
ば、以下のようになる。 (1) 本発明においては、ネオコグニトロンの学習結果
（ニューラルネットのコネクションで表現されている）
から、学習した図形に関する知識を抽出し、記号処理で
操作可能な形態で表現した（図形知識の抽出法）。 (2) 抽出した図形知識を、同じ物体を含む学習したとき
とは異なる入力画像に適用すると、物体が変形している
ため知識を変形して入力画像にフィッティングする必要
がある。本発明では、そのフィッティング手法を提供
し、実際の画像に適用して効果を確認した。 (3) 本発明においては、入力画像中の物体像のうち、重
複によって他の物体にかくされた部分を記号知識を利用
して補完的に想起し、その想起領域の大きさによって二
つの物体の前後関係を判別する方法を提供し、効果を確
認した。そして、本発明では、画像中の物体認識、その
物体の位置ずれ変形に対応した想起、入力画像中のその
物体の消去・再認識による別の物体の検出、というサイ
クルによる複数物体の順次認識を実現する。さらに、本
発明では、補完的な想起による物体間の重なり関係の検
出を、一つの処理サイクルとして実現する。

【００１０】本発明の第１の解決手段によると、入力画
像からエッジ画像を取り出す画像処理前処理と、前記画
像処理前処理により取り出されたエッジ画像に基づき、
パターン処理による画像認識を行うパターン処理と、前
記パターン処理による認識出力に基づき、記号処理によ
る画像理解を行う記号処理と、前記パターン処理による
画像認識における特徴を記号化する変換、及び、前記記
号処理による画像理解における記号を画像化する変換を
行う相互変換処理と、要求が与えられ、前記パターン処
理による画像認識および前記記号処理による画像理解の
各処理を制御し、結果画像を求める判断処理とを備えた
画像理解方法及び画像理解プログラムを記録した記録媒
体を提供する。

【００１１】本発明の第２の解決手段によると、入力画
像からエッジ画像を取り出す画像処理前処理部と、前記
画像処理前処理部により取り出されたエッジ画像に基づ
き、パターン処理による画像認識を行うパターン処理部
と、前記パターン処理部による認識出力に基づき、記号
処理による画像理解を行う記号処理部と、前記パターン
処理部による画像認識における特徴を記号化する変換、
及び、前記記号処理による画像理解における記号を画像
化する変換を行う相互変換処理部と、要求が与えられ、
前記パターン処理部による画像認識および前記記号処理
部による画像理解の各処理を制御し、結果画像を求める
判断処理部とを備えた画像理解システムを提供する。

【００１２】

【発明の実施の形態】１．ハイブリッド画像理解システ
ムまず、本発明における各語句を説明する。「細胞」：ネオコグニトロンでは、入力画像に対して局
所的なフィルターを通して得られた特徴を表現する単位
を細胞と表現する。画像処理では、特徴抽出フィルター
の出力は二次元に配置された特徴抽出細胞の出力の配列
となる。個々の細胞は、入力データ画像の個々の点およ
びその周辺の画像に対してコンボリュ−ション（convo
lution，重畳）をかけ、さらに非線型関数を通した値を
出力する。ネオコグニトロンの場合、いわゆるシャント
型の細胞出力を使用するのが普通である。「発火」：個々の入力画像からの特徴抽出細胞の出力を
発火値という。すなわち、発火とは細胞が出力すること
をいう。「認識」：ネオコグニトロンの最終出力層には、個々の
図形の認識に対応する細胞が用意され、その発火を持っ
て入力図形の認識とする。個々の認識細胞の発火は、入
力図形にその細胞の記憶パターンに対応する図形が含ま
れ、それを表現するコネクションによる知識が活性化さ
れて出力することを認識という。

【００１３】「想起」：選択的注意のモデルでは、認識
した図形の認識を支える図形特徴を、入力画像に対応す
るトップダウン想起回路の画像特徴面で想起する。すな
わち、トップダウン回路の最終認識層で一つの細胞を興
奮させ、認識時にそれを興奮させるコネクションを逆に
たどって、次々と入力画像に近い局所的な特徴の集合へ
と分解していく。その際、入力画像中の物体と学習した
物体とは、同一物体であっても位置ずれや変形があり、
想起の際に特徴位置の微調整が必要となる。選択的注意
のモデルでは、それをニューラルネットの空間的なぼか
しと入力−想起特徴の相互作用で解決している。本発明
では、この想起の部分に記号知識を使用し、入力・抽出
された特徴と記号知識とのマッチングを取ってその位置
ずれ量をアフィン変換で修正する手法をとる。これによ
り、マッチングの取れなかった、あるいは入力で隠され
ていて検出できなかった特徴でも、記号的な処理で位置
ずれを調整して「ここにあるだろう」と想定される位置
に想起できるようになる。これが、補完的な想起であ
る。「理解」：本発明で言う画像の理解とは、画像中にある
複数の物体を個々に認識し、その物体に対応する画像領
域を分割し、さらに物体間の関係を検出することを言
う。本発明では、主に、認識にはネオコグニトロン（福
島オリジナル）、領域分割には新規に開発した記号想
起、関係検出には新規に開発した補完的な想起による重
なり部分の検出を使用する。

【００１４】１．１記号処理とパターン処理の並列組み合わせ上述したような記号処理とパターン処理のハイブリッド
システムを実現するには、人工知能における「記号によ
る知識表現と論理によるその操作」と、これに対応する
「パターンによる知識表現とその操作」との両方が必要
であると考える。つまり、記号処理のみでも画像理解が
行えること（入力画像からの特徴抽出は画像処理になる
が）、また、パターン処理のみでも画像理解（厳密には
理解ではなくて認識である）が行えることが必要とな
る。両者は、知識に「部分」→「全体」という階層性を
持ち、それぞれでボトムアップ解析とトップダウン解析
を行えることが必要である。さらに、記号処理とパター
ン処理が相互補完・相互協調をするには、各階層におい
て相互操作が行えなくてはならない。そのためには、両
者が共通した知識を、記号とパターンという異なる表現
として持ち、相互に変換できる必要がある。ただし、す
べての知識について両者で共通して持つ必要はない。こ
れは、記号またはパターンでしか表せない知識があり、
共通した知識の間でのみ相互変換が行えると考えるから
である。

【００１５】以上の条件に基づき、図１に、本発明の画
像理解方法に係るシステムの概念構成図を示す。本シス
テムは、画像処理前処理部１、パターン処理部２、記号
処理部３、相互変換部４、判断部５を備える。画像処理
前処理部１は、連続画像からエッジを取り出す。パター
ン処理部２は、パターン処理による画像（場面）認識を
行う。パターン処理部２は、ここでは、一例として、ネ
オコグニロトンによる画像の認識を行う。記号処理部３
は、記号処理による画像（場面）理解を行う。記号処理
部３は、画像を記号で表現することで画像を理解する。
相互変換部４は、パターン処理部２による画像（場面）
認識における特徴（フィルター、画像）を記号化する変
換、逆に、記号処理部３による画像（場面）理解におけ
る記号を画像化する変換等を行う。

【００１６】パターン処理部２による画像（場面）認
識、相互変換部４および記号処理部３による画像（場
面）理解との間は、知識の階層性に応じて、相互操作が
実行される。知識の階層性としては、局所的から大局的
の各階層を有する。例えば、局所的から大局的に向かっ
て、線等の原始的な特徴抽出層６、コーナー等の図形認
識層７、部分図形等の場面認識・理解層８が、それぞれ
備えられる。判断部５は、画像の領域分割、複数画像の
重ね合わせ制御等を行う。判断部５は、要求（質問）が
与えられ、パターン処理部２による画像（場面）認識お
よび記号処理部３による画像（場面）理解の各処理を制
御し、最終結果を求める。要求（質問）としては、たと
えば、どちらの物体が手前であるか等である。また、判
断部５は、得られた結果が要求を満たしているか否かを
判断する。

【００１７】一般に、人間は、時間のかかる記号推論よ
りも時間のかからないボトムアップのパターン認識の結
果をもとに行動している場合が多いと考えられる。しか
し、パターン認識だけで行動するには十分な認識結果が
得られないことがある。そのような時に、この判断部５
が結果を検討し、記号推論やトップダウン解析を行うこ
とになる。重なり画像の理解においては、物体の認識の
みであればパターン認識のみで実現できる。しかし、さ
らに物体同士の重なり方を判断するには、対象物体の特
徴がすべて抽出されているかどうか知ることができず、
推論によるトップダウン解析が必要となる。

【００１８】１．２画像理解の手順選択的注意モデルでは、同一画像中の複数物体の認識に
おいて、一度認識した物体の特徴を抽出する細胞の出力
を下げる制御によって、画像理解を実現している。しか
し、本発明では、これを単純化して、一度認識したパタ
ーンを、その想起パターンを用いて入力画像から一回の
処理で除去することができるマスク操作によって行っ
た。

【００１９】２．画像理解の実現方法本発明に係るハイブリッド画像理解システムでは、パタ
ーン処理と記号処理の双方でボトムアップ処理とトップ
ダウン処理が行える必要がある。そこで、認識物体の想
起という形でトップダウン処理が行える選択的注意モデ
ルをパターン処理部に用いることにした。入力画像は前
処理によりエッジ画像とし、教師なし学習を行った。な
お、これは一例であり、教師あり学習としたり、エッジ
画像以外の画像を得る前処理を行っても良い。

【００２０】２．１パターンと記号による知識の二重表現パターンと記号により知識を二重に持つ事の利点は、記
号処理とパターン処理でそれぞれが得意な処理を分担で
きる点と、どちらか片方の処理だけでは解決できない問
題を相互に補完し合うことができる事である。例えば、
一般に、記号推論による画像認識では処理に時間がかか
るが、一方、パターン処理だけでは処理結果に曖昧さが
残る事があり、より厳密な結果が要求される場合は推論
の必要もある。

【００２１】図２は、選択的注意モデルによる誤想起の
例についての説明図である。図２（ａ）に示した、三角
と正方形の図の内、右側の正方形を想起する場合を想定
する。この場合、パターン処理では、近くに似た特徴、
例えば、三角形の縦線と正方形とが存在すると、これら
が一緒に想起されてしまうことがある。しかし、このよ
うな場合でも、記号処理による補完を用いると正しい想
起画像が得られると考えられる。すなわち、正方形とい
う記号から三角形の一部の縦線は正方形の特徴でなく、
想起すべき画像ではないと判断される。以上のことか
ら、本発明では、認識には主にパターン処理を、想起に
は記号処理を用いることにした。

【００２２】２．２選択的注意モデル図３に、選択的注意モデルの構造についての説明図を示
す。これは、図1におけるパターン処理部２に相当す
る。選択的注意モデルは、多層回路内に、ボトムアップ
信号を伝える細胞と、トップダウン信号を伝える細胞と
が、対になって存在し、互いの出力を授受する相互作用
構造になっている。ボトムアップ側２１とトップダウン
側２２ではほぼ同じ構造を持つが、ボトムアップ経路で
パターン認識の機能を受け持ち、トップダウン経路は想
起の機能を受け持つ。ボトムアップ側では、Ｕs層が局
所的な特徴を抽出し、それをＵc層で空間的なぼかしを
施すことによって入力パターンの変形や位置ずれに影響
されない認識を可能にしている。この例では、パターン
入力から、Ｕs1〜Ｕs3、Ｕc1〜Ｕc3の３層構造を経て、
認識出力を得る。

【００２３】トップダウン側では、このボトムアップ側
のＵs層とＵc層に対応するのが、Ｗs層とＷc層であり、
認識出力から入力層１１側に向かってトップダウン信号
を流すことにより想起画像が得られる。ここでは、認識
出力が出力層３１を経て、想起キー入力となり、Ｗs1〜
Ｗs3、Ｗc1〜Ｗc3の３層構造を経て想起出力を得る。

【００２４】選択的注意モデルでは教師図形の変形パタ
ーンをいくつか入力し、それを学習することにでさらに
変形に強い認識性能を持つことができるが、本実施の形
態では変形パターンの学習はさせず、認識時に入力画像
と１層目のコネクションをぼかすことにした。また、選
択的注意モデルでは、各細胞に異なる閾値を設定するこ
とができるが、制御の容易さを考慮して本システムでは
各層で共通の閾値をとるようにした。

【００２５】以下に、パターン処理部２における処理概
要の一例を説明する。まず、入力層１１では、線画を入
力し、エッジ検出する。つぎに、ボトムアップ側２１に
おいて、Ｕs1層では、線の方向性を検出する。たとえ
ば、縦方向、横方向、右上がりの斜め方向、右下がりの
斜め方向、適宜の角度の方向等、適宜必要な所定の数の
特徴面を用意することができる。さらに、Ｕc1層では、
各特徴面で検出された特徴にぼかしを与える。つぎに、
Ｕs2層では、Ｕc1層の画像を重ね合わせ、コーナーを検
出する。ここでは、検出のためのフィルターは、適宜の
形状のコーナーに反応するように学習するフィルタを用
いる。コーナーとしては、たとえば、Λ形状、Ｌ形状、
Ｖ形状、Ｉ形状、長方形の角形状、ある角度の形状等適
宜の形状の特徴面を用意することができる。Ｕc2層で
は、各特徴面で検出された特徴にぼかしを与える。つぎ
に、Ｕs3層では、Ｕc2層の画像を重ね合わせ、もう少し
広い視野による部分特徴を検出する。ここでは、検出の
ためのフィルターは、適宜の形状のコーナーに反応する
ように学習するフィルタを用いる。Ｕc3層では、各特徴
面で検出された特徴にぼかしを与える。

【００２６】さらに、Ｕc3層の検出結果を重ね合わせ、
出力層３１において認識出力を得る。ここで、判断部５
は、出力層３１において、入力層１１で入力されたパタ
ーンが複数ある場合、ひとつのパターンを選択すること
ができる。たとえば、出力層３１における強く検出され
た方の画像を選択し、想起キー入力とする。

【００２７】Ｗc3層では、想起キー入力された画像に基
づき、フィルタ逆演算等により予め記憶された部分特徴
ごとに各特徴面に分解する。トップダウン側２２のＷc3
及びＷs3とボトムアップ側２１のＵc3及びＵs3との相互
作用では、選択されなかったパターン入力を消去する。
たとえば、両方の対応する各特徴面についてアンド条件
（例えば、Ｗc3＊Ｕc3、または、Ｗc3＊Ｕs3）を求める
こと等により、不用なパターン入力を消去することがで
きる。Ｗs3層では、得られた画像に対して、さらに、ぼ
かしを与えて、実際に検出された成分のみの部分特徴面
を求める。このようにして、検出されなかった部分特徴
面は消去され、実際に入力された画像と部分特徴に分解
された画像との位置合わせを行う。

【００２８】つぎに、Ｗc2層では、Ｗs3層の検出結果に
基づき、フィルタ逆演算によりコーナーごとに各特徴面
に分解する。Ｗc2及びＷs2とＵc2及びＵs2との相互作用
では、先ほどと同様に、実際に検出した成分のみとし
て、他の成分を消去する。たとえば、両方の対応する各
特徴面についてアンド条件を求めること等により、消去
することができる。Ｗs2層では、さらに、ぼかしを与え
て、実際に検出された成分のみの部分特徴面を求め、検
出されなかった部分特徴面は消去することにより、位置
合わせを行う。つぎに、Ｗc1層では、Ｗs2層の検出結果
に基づき、フィルタ逆演算により線ごとに各特徴面に分
解する。Ｗc1及びＷs1とＵc1及びＵs1との相互作用で
は、先ほどと同様に、実際に検出した成分のみとして、
他の成分を消去する。たとえば、両方の対応する各特徴
面についてアンド条件を求めること等により、消去する
ことができる。Ｗs1層では、さらに、ぼかしを与えて、
実際に検出された成分のみの部分特徴面を求め、検出さ
れなかった部分特徴面は消去することにより、位置合わ
せを行う。さらに、Ｗs1層の検出結果を重ね合わせて、
想起出力を得る。

【００２９】２．３記号知識の自動獲得記号処理とパターン処理のハイブリッドシステムでは、
両者に共通の知識が必要である。共通な情報を含むよう
な知識を人間が構築するのは容易ではない。特に、本シ
ステムのように、ニューラルネットワークを用いた場合
は、コネクションの解析を行わなければならない。選択
的注意モデルは、図形の局所特徴を階層的に抽出し、か
つトップダウン処理により想起が可能である。そこで、
本発明では、この想起時に抽出した局所特徴の情報を記
号知識へと変換することで、共通な知識を自動的に獲得
するようにした。

【００３０】図４に、選択的注意モデルからの記号知識
の自動獲得についての説明図を示す。ここでは、記号知
識として、選択的注意モデルのＵs層において発火して
いる細胞面および面内での発火位置を階層的（ツリー構
造）に蓄える。記号処理では、Ｕs層とＷc層との近傍関
係に基づく対応付けで、位置合わせを行いＷs層の細胞
の位置を求めた際、アフィン変換により変形量を求め
る。これが、選択的注意モデルのぼかしを与えることに
対応する。記号処理では、余計なパーツ（特徴）が検出
されると、検出画像がおかしいことがわかる。また、欠
けた画像がある場合、どの層で消滅したかが記録され
る。さらに、消滅したものも想起フローに流すことがで
きる。

【００３１】選択的注意モデルからのパターン知識と記
号知識の自動獲得手順は、次のようになる。ステップ１．認識する物体を選択的注意モデルに学習
させる。（パターン知識の獲得）ステップ２．学習させた物体の一つを認識させる。ステップ３．その物体に反応するＷsL層(図４では、
最初にL＝３としてＷs3)の細胞を発火させる。ステップ４．ＷsL-1層の想起を行い、発火した細胞の
属する細胞面番号と発火位置を、ＷsL層の発火位置との
相対位置として各層の記号知識面に記憶する。この時、
図４の実線と破線で示したように、複数の受容野で特徴
を共有しているならばその情報も記憶する(記号知識の
獲得)。図４では、選択的注意モデルの細胞面番号は、
Ｗs3層は１〜４番、Ｗs2層は１〜６番、Ｗs1層は１〜４
番を含む。Ｗs3層の、発火細胞面番号１について、子ノ
ード（Ｗs2層の面番号）１、３〜６に発火がある場合、
親ノードと各子ノードの発火の相対位置が記号知識面に
記憶される。例えば、以下のようなデータが記憶され
る。発火細胞面番号：１親ノードの発火細胞との相対位置子ノード番号：１、ΔＸ1、ΔＹ1 子ノード番号：３、ΔＸ3、ΔＹ3 ・・・ステップ５． L＝１ならば終了。（Ｗc0層までとして
よい) ステップ６．ＷsL-1で発火した細胞のうち、一つだけ
を発火させる。もし、発火させるべき細胞が無ければ上
位層にもどる。ステップ７． L←L-1にしてステップ４．へ戻り、Ｗs1
層まで想起する。

【００３２】ここで、図５に、ネオコグニトロンによる
特徴抽出の説明図を示す。図５(a)のような直線が入力
図形にあると、ネオコグニトロンではオーバーラップし
て特徴抽出するために、図５(c)のようにＵsL層では直
線になる。これをそのまま記号化すると、各細胞毎に相
対位置を記憶する必要があるため無駄な知識が増えてし
まう。その結果、推論に時間がかかってしまうばかりで
なく、ボトムアップ時に組み合わせ爆発を起こす可能性
もある。このようなオーバーラップを起こさないように
する必要があり、そのため、選択的注意モデルでは側抑
制をかけているが、本システムではさらに極大値をとる
ことにした。

【００３３】また、選択的注意モデルから、記号処理へ
の変換の際、記号知識量を圧縮することができる。線の
検出フィルターでは、フィルターごとに、図５（ｂ）の
ようにたとえば、縦線、横線、斜め線等の検出すべき特
徴抽出フィルタを用意することができる。その他に、コ
ーナー、部分特徴についても、適宜の形状のフィルター
を適宜の数、予め用意することができる。このような、
特徴抽出フィルタ毎に、相対位置を記憶することで、各
細胞毎に、相対位置を記憶するよりも少ないデータ量と
することができる。

【００３４】２．４記号推論による想起・補完認識図形の想起や補完（修復）は、選択的注意モデルの
みでも行えるが、入力の変化による局所特徴の変化のた
め、不完全な想起パターンになる場合がある。そこで、
より厳密な想起パターンを得るには、知識を用いた推論
が必要になる。本発明では、選択的注意モデルによる想
起を用いず、記号知識を利用して想起パターンを得る。
このアルゴリズムを、以下に示す。

【００３５】ステップ１０．対応点検出ＵsL層（この例では、L＝３として、Ｕs3層とする。）
での発火細胞に対応する記号知識から、その細胞と結合
すべきＵsL-1層（Ｕs2層）での細胞の発火位置を推測す
る。推測した発火位置に選択的注意モデルのＵsL-1層
（Ｕs2層）で実際に発火しているか探索する。探索範囲
はＵsL-1層での受容野の大きさとし、同じ受容野内に対
応点が複数ある場合は対応点が見つからなかったものと
しておく。ステップ２０．アフィン変換パラメータの計算ＵsL層の発火細胞１つに対応付けられたＵsL-1層での発
火細胞の学習時からの位置ずれ（ローカルアフィン変換
パラメータ:LAP）と、ＵsL-1層の発火細胞それぞれの位
置ずれすべて（グローバルアフィン変換パラメータ:GA
P）を、入力図形の変形度として求める。つまり、LAPは
個々の細胞の受容野内で、GAPは細胞面全体での変形度
を求めていることになる。

【００３６】ここで、記号推論で用いるアフィン変換の
パラメータの求め方について説明する。アフィン変換の
一般式は次式で与えられる。 x' = ax + by + c y' = dx + ey + f しかし、本システムで用いている選択的注意モデルは、
回転図形の認識能力が無いので回転について考慮する必
要が無い。そこで上式ではなく次式を用い、最小二乗法
によりa,c,e,fを求めることができる。 x' = ax + c y' = ey + f

【００３７】ステップ３０．対応点の絞り込みステップ１０で複数の対応点が見つかった記号知識に対
して、学習時の位置にGAPを使用してアフィン変換し、
その位置に近い点を対応点とする。また、対応点が見つ
かっていてもアフィン変換後の推定位置から遠いもの
は、誤った対応点として除外する。ステップ４０．アフィン変換パラメータの再計算ステップ３０で見つけた対応点を含めて、ステップ２０
と同様にLAPとGAPを求める。さらに、対応点が見つかっ
ていても学習点のアフィン変換後の位置に遠いものは除
外する。

【００３８】ステップ５０．見つからなかった対応点の位置推定ある記号知識に対して、選択的注意モデルのＵs細胞中
に対応点が見つからなかった場合、記号知識の学習時の
位置にアフィン変換を施して得られた位置に発火してい
るものと考える。このとき、LAPが求まっていればそれ
を用い、求まっていなければGAPを用いる。ステップ６０． L←L-1にしてL＝１までステップ１０
から５０を繰り返す。

【００３９】ステップ７０．想起・補完図形の計算１層目で対応点が求まっている点のみを用い、選択的注
意モデルを用いて１層目から入力層へ想起することで想
起図形を得る。さらに１層目で対応点が求まっていない
点についてステップ５０と同様に発火位置を推定し、推
定した点のみを選択的注意モデルを用いて強制的に想起
させ、対応点が求まっている点の想起画像と合成するこ
とで補完図形を得る。

【００４０】２．５重なり図形の理解入力図形に重なりがある場合、選択的注意モデルでは図
形の認識を行うことはできるが、どのように重なってい
るかを知ることができない。そこで、本発明では、補完
図形から重なっている領域を抽出し、その領域において
どちらの図形の特徴が欠損しているのかを検出すること
により重なりを判断する。図６は、学習に用いた人工図
形の一例を示す図である。また、図７に、人工図形での
重なり判定結果の説明図を示す。また、重なり図形の理
解についての処理の流れを、以下に示す。

【００４１】ステップ１００．入力画像を選択注意モ
デルを用いて認識させ、最終Ｕs層(この例では、Ｕs４)
での発火位置を記憶しておく。ステップ２００．認識した図形を記号知識により想起
し、入力画像から除去(マスクアウト)する。ステップ３００．認識できる画像が無くなるまで、ス
テップ１００、２００を繰り返す。ステップ４００．認識できた物体の最終Ｕs層での発
火の位置関係から重なりを判定する。重なりが無ければ
終了。ステップ５００．ステップ３００で重なりがあると判
断された物体について補完画像を求め、補完画像が占め
る矩形領域(図７の破線で囲まれた領域)から重なってい
ると思われる領域(図７の入力画像の網掛け領域)を決定
する。ここで、両領域が、重なっていなければ終了。ステップ６００．入力画像とそれぞれの補完画像をス
テップ５００で求めた矩形領域内について比較し、欠損
している画素（補完画像のみ存在する画素）をカウント
する。ステップ７００．欠損画素のより少ない物体の方を手
前にあると判断する。

【００４２】３．画像理解による結果３．１単一物体
の想起・補完実画像において、背景のある単一物体に
対して、想起・補完が行えるか実験した。図８に、学習
図形についての図を示し、図９に、想起・補完結果の図
を示す。図８の学習に用いた画像では、(a)ビデオカメ
ラからの画像、(b)sobelフィルタによりエッジ抽出した
画像をそれぞれ示す。

【００４３】また、図９の単一物体の想起・補完結果で
は、(a)ビデオカメラからの画像、(b)sobelフィルタに
よりエッジ抽出した画像、(c)画像(b)にぼかし処理を施
した画像、(d)記号処理による想起画像、(e)記号処理に
よる補完画像、(f)画像(d)を(b)からマスクアウトした
もの、をそれぞれ示す。このように、対象物体の一部が
隠れていても正しく想起・補完が行えていることがわか
る。

【００４４】３．２合成画像における重なり図形の理解つぎに、合成画像の重なり図形について実験を行った。
図１０に、合成画像の想起に用いた学習画像の図を示
す。この学習図形は、ビデオカメラで撮影した画像から
エッジ抽出したものを用いた（画像サイズは、一例とし
て、56×56）。

【００４５】図１１に、図１０と異なる角度で撮影しエ
ッジ抽出した入力画像の図を示す。この入力画像は、学
習図形とは違う角度で撮影した単体物体についてエッジ
を抽出し、それらの中から２物体を選んで人工的に重ね
合わせた（画像サイズは、一例として、56×56）。

【００４６】図１２に、合成画像での想起・補完結果
（１）の図を示す。図１２では、第１〜４欄の各欄にお
いて、(a)入力画像、(b)記号知識を用いた想起画像、
(c)記号知識を用いた補完画像、(d) (b)を入力画像(a)
からマスクアウトした後にぼかし処理をほどこした画
像、(e) (d)を認識させた後の記号知識による想起画
像、(f)(e)の記号知識による補完画像、をそれぞれ示
す。第４欄(e)と第４欄(f)では、第４欄(d)が認識され
ず、出力が得られなかった。第３欄では、重なりが大き
いため、後ろの物体は認識できなかった。

【００４７】図１３に、合成画像での想起・補完結果
（２）の図を示す。図１３では、第１〜４欄の各欄にお
いて、(a)入力画像、(b)記号知識を用いた想起画像、
(c)記号知識を用いた補完画像、(d) 画像(b)を入力画像
(a)からマスクアウトした後にぼかし処理をほどこした
画像、(e) 画像(d)を認識させた後の記号知識による想
起画像、(f) 画像(e)の記号知識による補完画像、をそ
れぞれ示す。図１３の第２欄ではマウスの左側の縦線
を、先に認識されたカップの右側の線と認識し、マスク
アウトしてしまった。以上のように、合成画像の重なり
図形についても、正しく想起・補完が行えていることが
わかる。

【００４８】３．３実画像における重なり図形の理解図１４に、実画像での想起・補完結果の図を示す。この
図は、図８の図形を学習し、それらを重ねた図形に対す
るに想起・補完結果を示したものである。図１４の第１
及び２欄において、それぞれ(a)ビデオカメラからの画
像、(b) 画像(a)のエッジ画像、(c) 画像(b)にぼかし処
理を行った画像、(d) 想起画像、(e) 画像(d)の補完画
像、(f) 画像(d)を(b)からマスクアウトした後の画像、
(g) 画像(f)にぼかし処理を行った画像、(h) 画像(g)を
認識させた後の記号知識による想起画像、(i) 画像(h)
の補完画像、をそれぞれ示す。図示のように、それぞれ
の入力に対して、正しい結果が得られた。

【００４９】図１５に、３物体の重なり画像の想起・補
完結果の図を示す。この図は、３物体の重なり画像につ
いて認識・想起・補完の実験を行ったものである。図１
５において、(a)ビデオカメラから画像、(b) 画像(a)の
エッジ画像、(c) 画像(b)にぼかし処理を行った画像、
(d) 想起画像、(e) 画像(d)の補完画像、(f) 画像(d)を
(b)からマスクアウトした後の画像、(g) 画像(f)にぼか
し処理を行った画像、(h) 画像(g)を認識させた後の記
号知識による想起画像、(i) 画像(h)の補完画像、(j)
画像(h)を(f)からマスクアウトした後の画像、(k) 画像
(j)にぼかし処理を行った画像、(m) 画像(k)を認識させ
た後の記号知識による想起画像、(n) 画像(m)の補完画
像、をそれぞれ示す。

【００５０】なお、本システムにおいて一番の重要点と
なるのが、選択的注意モデルのパラメータ、特に閾値の
決定の方法である。これまでにも、ネオコグニトロンに
対しての定性的な解析やパラメータ決定方法（谷川、福
島：ネオコグニトロンにおける特徴抽出細胞のしきい値
設定法,電子情報通信学会論文誌 D-II, Vol. J76-D-II,
No.10 pp.2215-2222, 1993、Lovell, Downs and Tsoi:
An Evaluation of The Neocognitron,IEEE TRANSACTIO
NS ON NEURAL NETWORKS, Vol.8, No.5, pp.1090-1105,
1997 等参照）の研究が行われているが、いずれも認識
に対してであり想起に関しては行われていない。本シス
テムでは、領域分割に選択的注意モデルを用いており、
正しい想起画像が得られることが重要である。現在は、
人間が認識・想起画像からパラメータを決定している
が、これを適宜自動化することもできる。

【００５１】また、選択的注意モデルでは入力された特
徴に変形があった場合、閾値を下げれば特徴抽出するこ
とができるが、これを想起するときには学習した特徴を
想起するために入力された特徴と異なる。この想起画像
を入力画像からマスクアウトするとノイズとして残るた
めに、本システムでは想起画像に対して１画素だけ幅を
広げる処理を行い、これを入力画像からマスクアウトし
た。しかし、この方法でノイズは減るものの、必要な画
素も削除されないよう工夫する必要がある。

【００５２】以上の説明においては、細胞の発火位置の
推定には基本的にアフィン変換のみを用いている。アフ
ィン変換では、補完図形のエッジが連続にならないよう
な発火位置を推定してしまう場合がある。発火位置の推
定には、アフィン変換以外にも、その他の線形又は非線
形の座標変換、例えば、アフィン変換に類似の座標変換
や、想起された補完図形のエッジの連続性を考慮するよ
うな他の方法を適宜用いてもよい。なお、画像理解方法
を実現する画像理解プログラムは、CD-ROM等の記録媒体
に記録されて提供されることができる。

【００５３】

【発明の効果】本発明によると、以上の点に鑑み、画像
の特徴抽出の段階でも記号処理とパターン処理が並列に
存在し補完するような画像理解方法、画像理解プログラ
ムを記録した記録媒体及び画像理解システムを提供する
ことができる。

【００５４】また、本発明によると、「選択的注意モデ
ル」が図形の局所特徴を抽出して想起することができる
点に着目し、この抽出した特徴の情報を記号知識へと変
換することで共通な知識を自動的に獲得し、その知識を
用いて記号推論によって認識した物体の領域分割や欠け
た対象物体の補完画像を得るようにすることができる。
そして、本発明によると、重なり図形の領域分割に適用
することにより、重なり図形の前後関係も判断すること
ができる。

【図面の簡単な説明】

【図１】本発明の画像理解方法に係るシステムの概念構
成図。

【図２】選択的注意モデルによる誤想起の例についての
説明図。

【図３】選択的注意モデルの構造についての説明図。

【図４】選択的注意モデルからの記号知識の自動獲得に
ついての説明図。

【図５】ネオコグニトロンによる特徴抽出の説明図。

【図６】学習に用いた人工図形の一例を示す図。

【図７】人工図形での重なり判定結果の説明図。

【図８】学習図形についての図。

【図９】想起・補完結果の図。

【図１０】合成画像の想起に用いた学習画像の図。

【図１１】図１０と異なる角度で撮影しエッジ抽出した
入力画像の図。

【図１２】合成画像での想起・補完結果（１）。

【図１３】合成画像での想起・補完結果（２）。

【図１４】実画像での想起・補完結果の図。

【図１５】３物体の重なり画像の想起・補完結果の図。

【符号の説明】

１画像処理前処理部２パターン処理部３記号処理部４相互変換部５判断部６原始的な特徴抽出層７図形認識層８場面認識・理解層

Claims

【特許請求の範囲】

【請求項１】入力画像からエッジ画像を取り出す画像処
理前処理と、前記画像処理前処理により取り出されたエッジ画像に基
づき、パターン処理による画像認識を行うパターン処理
と、前記パターン処理による認識出力に基づき、記号処理に
よる画像理解を行う記号処理と、前記パターン処理による画像認識における特徴を記号化
する変換、及び、前記記号処理による画像理解における
記号を画像化する変換を行う相互変換処理と、要求が与えられ、前記パターン処理による画像認識およ
び前記記号処理による画像理解の各処理を制御し、結果
画像を求める判断処理とを備えた画像理解方法。
【請求項２】前記相互変換処理は、前記パターン処理及び前記記号処理との相互間で、原始
的な特徴抽出層、図形認識層、画像認識・理解層を含む
複数層の知識の階層性に応じて、それぞれ相互操作が実
行されることを特徴とする請求項１に記載の画像理解方
法。
【請求項３】前記制御処理は、要求に応じて、画像の領
域分割又は選択、複数画像の重ね合わせ制御のいずれか
又はこれら組合せを実行することを特徴とする請求項１
又は２に記載の画像理解方法。
【請求項４】前記パターン処理は、原始的な特徴抽出
層、図形認識層、画像認識・理解層を備え、各層がそれ
ぞれ、学習フィルタにより各層に応じた特徴を抽出する
ことにより得られる第１の特徴面と、前記第１の特徴面
で抽出された特徴をぼかすことにより得られる第２の特
徴面を有し、前記画像処理前処理からの入力パターンに
従いパターン認識をするボトムアップ処理と、原始的な特徴抽出層、図形認識層、画像認識・理解層を
前記ボトムアップ処理の各層に対応して備え、各層がそ
れぞれ、学習フィルタにより各層に応じた特徴を抽出す
ることにより得られる第３の特徴面と、前記第３の特徴
面で抽出された特徴をぼかすことにより得られる第４の
特徴面を備え、前記ボトムアップ層からのパターン認識
結果である想起キー入力に従い想起出力を得るトップダ
ウン処理と、前記ボトムアップ層及び前記トップダウン層との間で、
画像の選択及び位置合わせに関する処理を行うための相
互作用処理とを備えたことを特徴とする請求項１乃至３
のいずれかに記載の画像理解方法。
【請求項５】前記記号処理は、原始的な特徴抽出層、図形認識層、画像認識・理解層を
前記トップダウン処理の各層に対応して含み、各層がそ
れぞれ、想起キー入力に従い各層に応じた特徴に分解す
ることにより得られる記号知識面を備え、前記トップダウン処理による想起時に抽出した各特徴の
情報を記号知識へと変換することを特徴とする請求項１
乃至４のいずれかに記載の画像理解方法。
【請求項６】前記記号処理は、認識する物体を前記パターン処理に学習させるパターン
知識の獲得ステップと、学習させた物体の一つを選択するステップと、選択された物体の特徴を分解して、その特徴に反応する
各層の記号知識面の細胞を発火させるステップと、発火した細胞の属する記号知識面とその発火位置を、前
記パターン処理の第３または第４の特徴面の発火位置と
の位置合わせを行い、両者の位置の変形量を求めるステ
ップとを備えたことを特徴とする請求項１乃至５のいず
れかに記載の画像理解方法。
【請求項７】前記記号処理は、各層に関して、前記パターン処理の第L層での発火細胞に対応する記号
知識から、その細胞と結合すべき第L-1層での細胞の発
火位置を推測する対応点検出ステップと、第L層の発火細胞に対応付けられた第L-1層での発火細胞
の位置ずれを、入力図形の変形度として求めるアフィン
変換パラメータ計算ステップとを備え、第１層目で対応点が求まっている点のみを用い、これら
各ステップを前記各層について繰り返すことにより、選
択的注意モデルを用いて第１層目から入力層へ想起する
ことで想起図形を得るようにしたことを特徴とする請求
項１乃至６のいずれかに記載の画像理解方法。
【請求項８】前記記号処理は、１層目で対応点が求まっていない点について、各層に関して、前記対応点検出ステップと、前記アフィン変換パラメータ計算ステップと、ある記号知識に対して、選択的注意モデルの細胞中に対
応点が見つからなかった場合に、記号知識の学習時の位
置にアフィン変換又はその他の座標変換を施して得られ
た位置に発火しているものとして、見つからなかった対
応点の位置を推定する位置推定ステップとを備え、前記位置推定ステップにより推定した点のみを選択的注
意モデルを用いて強制的に想起させ、対応点が求まって
いる点の想起画像と合成することで補完図形を得るよう
にしたことを特徴とする請求項７に記載の画像理解方
法。
【請求項９】前記記号処理は、補完図形から重なっている領域を抽出し、その領域にお
いて各図形の特徴が欠損している状態を検出することに
より重なりを判断する処理をさらに備えたことを特徴と
する請求項８に記載の画像理解方法。
【請求項１０】重なりを判断する処理は、入力画像を選択注意モデルを用いて認識させ、最終層で
の発火位置を記憶しておくステップと、認識した図形を記号知識により想起し、入力画像から除
去するステップと、認識できた物体の最終層での発火の位置関係から重なり
の発生を判定するステップと、重なりがあると判断された物体について補完画像を求
め、補完画像が占める領域から重なっていると思われる
領域を決定するステップと、入力画像とそれぞれの補完画像を求めた領域内について
比較し、欠損画素のより少ない物体の方を手前にあると
判断するステップとを備えたことを特徴とする請求項９
に記載の画像理解方法。
【請求項１１】入力画像からエッジ画像を取り出す画像
処理前処理と、前記画像処理前処理により取り出されたエッジ画像に基
づき、パターン処理による画像認識を行うパターン処理
と、前記パターン処理による認識出力に基づき、記号処理に
よる画像理解を行う記号処理と、前記パターン処理による画像認識における特徴を記号化
する変換、及び、前記記号処理による画像理解における
記号を画像化する変換を行う相互変換処理と、要求が与えられ、前記パターン処理による画像認識およ
び前記記号処理による画像理解の各処理を制御し、結果
画像を求める判断処理とを備えた画像理解プログラムを
記録した記録媒体。
【請求項１２】入力画像からエッジ画像を取り出す画像
処理前処理部と、前記画像処理前処理部により取り出されたエッジ画像に
基づき、パターン処理による画像認識を行うパターン処
理部と、前記パターン処理部による認識出力に基づき、記号処理
による画像理解を行う記号処理部と、前記パターン処理部による画像認識における特徴を記号
化する変換、及び、前記記号処理による画像理解におけ
る記号を画像化する変換を行う相互変換処理部と、要求が与えられ、前記パターン処理部による画像認識お
よび前記記号処理部による画像理解の各処理を制御し、
結果画像を求める判断処理部とを備えた画像理解システ
ム。