JPH09167233A

JPH09167233A - 画像処理方法および画像処理装置

Info

Publication number: JPH09167233A
Application number: JP7327261A
Authority: JP
Inventors: Yasuto Ishitani; 康人石谷; Akihiro Uda; 明弘宇田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1995-12-15
Filing date: 1995-12-15
Publication date: 1997-06-24
Anticipated expiration: 2015-12-15
Also published as: JP3720892B2

Abstract

(57)【要約】【課題】書式が未知であり、文書の入力方向が未知であ
る文書画像において、文字領域、写真領域、図形領域等
の性質の異なる複数の画像領域を高精度に識別できる画
像処理方法および画像処理装置を提供できる。【解決手段】画像入力部１で入力された文書画像から黒
連結成分を抽出して、その外接矩形のサイズから写真領
域抽出部３、図形領域抽出部４、文字領域抽出部５のい
づれかに振り分け、それぞれにおいて、各画像領域の特
性に合った画像領域抽出処理を行い、写真領域抽出部
３、図形領域抽出部４、文字領域抽出部５のそれぞれで
抽出された領域間に空間的重なりが見られる場合には、
領域重複解消部６で各領域間の排他関係と共存関係に基
づき、組み合わせを抽出する。

Description

【発明の詳細な説明】【０００１】【発明の属する技術分野】本発明は、文字、写真、絵、
図形、表などが混在する文書画像からそれぞれの領域を
識別する画像処理方法、および、それを用いた画像処理
装置に関する。【０００２】【従来の技術】最近、書類形態として蓄積されている大
量の情報を計算機に自動入力できるシステムの実現に対
する要求が非常に高まっている。このようなシステムを
実現する場合には、文書画像をディジタル画像として計
算機に取り込み、文書の意味的、幾何的性質から、文字
領域、写真領域、図形領域などの質の異なる領域を自動
的に分離する機能( 領域分割) が重要となる。【０００３】この機能により得られた各々の領域ではそ
の性質に基づいた認識処理が施されることによって利用
価値の高い情報を計算機に入力でき、活用することが可
能となる。【０００４】これまでに提案されている領域分割方式
は、例えば、「Ｐｒｏｃ．１２ｔｈＩＣＰＲ、ｐｐ３４
５−３４９、（１９９４）」、「信学論Ｄ−ｌｌ、Ｖｏ
ｌ．Ｊ７５−Ｄ−ＩＩ、Ｎｏ．２、ｐｐ２４６−２５
６、（１９９２）」に記載されているように、１種類の
幾何特徴を文書画像で抽出し、その幾何的性質および分
布により上記３つの領域に分離するものであった。【０００５】この方式では、処理に用いた幾何特徴が文
字、写真、図形の各々の領域の幾何的性質を適切に表現
しているものでなければならないが、現状ではそのよう
なものは見つかっておらず、従って十分な分離能力が得
られていない。【０００６】さらに、「Ｐｒｏｃ．１ｓｔＩＣＤＡ
Ｒ、ｐｐ９４５−９６２、（１９９１）」、「信学論Ｄ
−ｌｌ、Ｖｏｌ．Ｊ７２−Ｄ−ＩＩ、Ｎｏ．１、ｐｐ９
３−１０４、（１９８９）」に記載されているように、
文書の背景部( 空白領域) に着目して文書画像を分割す
る方式がある。【０００７】この方式では、オブジェクトが密に分布し
ている文書の空白領域とスペースに分布している文書の
空白領域を明確に区別することができず、従って、異な
る領域をまとめて一つの領域として抽出してしまった
り、同質な領域を分離してしまうという欠点がある。【０００８】また、「信学論Ｄ−ｌｌ、Ｖｏｌ．Ｊ７８
−Ｄ−ＩＩ、Ｎｏ．３、ｐｐ４６５−４７３、（１９９
５）」、「ＭａｃｈｉｎｅＶｉｓｉｏｎａｎｄＡｐ
ｐｌｉｃａｔｉｏｎｓ、Ｖｏｌ．７、ｐｐ．２３７−２
４６、（１９９４）」、「ＩＥＥＥＴｒａｎｓ．Ｐ
ａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎ
ｅＩｎｔｅｌｌｉｇｅｎｃｅＶｏｌ．１５、Ｎｏ．
１１、ｐｐ．１１６２−１１７３（１９９３）」に記載
されているように、文字成分にのみ着目して文字列とそ
の塊であるブロックを抽出し、それ以外を非文字領域と
して無視する手法がある。【０００９】この方式では、・文字らしきものを文書画像から抽出しそれらを順次
統合していって、整列している文字列のみを抽出する
が、そのような条件が非文章領域でも満たされる場合に
はその領域を文字領域とみなしてしまう。・規則的な整列性を重視する余り、「文字が不規則に
分布している文字列」を正しく抽出することはできな
い。・文字成分のみに着目したアプローチでは写真領域と
図形領域を識別することはできない。・縦書き文章と横書き文章が混在する文書を処理する
ことはできない。といった問題点がある。【００１０】【発明が解決しようとする課題】前述の従来方式の何れ
も単一な幾何特徴のみに基づいて文書画像を文字領域、
写真領域、図形領域に分類するので、分類処理に必要と
される情報が十分に得られず高精度な処理結果を得るこ
とができないという問題点があった。【００１１】また、文字領域においては、種々の文字サ
イズ・字間・行間を持つ文字列が混在する文字が二次元
的に配置されている( 縦書き文字列と横書き文字列が混
在する) 文書から各々の文字列を高精度に抽出すること
はできないという問題点があった。【００１２】また、図形領域中の文字列は図形扱いとし
てしまうために、検索などにおいて有効に活用すること
はできなかった。さらには、文書画像は必ず正しい方向
で入力されることを前提としているため文書を入力する
際に文書の方向に関して細心の注意を払わなければなら
ないという問題点があった。【００１３】そこで、本発明は上記問題点に鑑みてなさ
れたものであり、書式が未知であり、文書の入力方向が
未知である文書画像において、文字領域、写真領域、図
形領域を高精度に分離・識別でき、さらには、横書き文
章と縦書き文章を分離して抽出できる画像処理方法およ
び画像処理装置を提供することを目的とする。【００１４】【課題を解決するための手段】本発明の文書認識方法
は、入力された文書画像から性質の異なる画像領域を識
別する画像処理方法において、前記文書画像から前記画
像領域の性質に応じて部分領域の抽出を行い、この抽出
された画像領域間の排他的関係と共存関係に基づいて、
前記抽出された複数の画像領域間の重複領域が属する画
像領域を識別することにより、文書画像を構成する文字
成分・写真成分・図形成分の各々に対応した領域抽出手
段を備えており、領域間で重複が生じてもそれを解消で
きるので、文字領域と写真領域と図形領域を高精度に識
別・分類することができる。また、それぞれの領域に対
応した抽出処理を行うことにより、領域分割の性能が各
々の領域の文書中に占める割合に依存しない。【００１５】また、本発明の画像処理装置は、入力され
た文書画像から抽出された文字成分に基づく統合条件に
従って部分領域を抽出し、この部分領域から抽出された
文字列から文字を切り出して文字認識し、この認識結果
に基づく評価値が最良となるまで、前記統合条件を変更
しながら前記抽出された部分領域を統合することにより
文字領域を抽出することを特徴とする。【００１６】また、本発明の画像処理装置は、入力され
た文書画像から抽出された文字成分に基づく統合条件に
従って部分領域を抽出し、この部分領域から抽出された
文字列の幾何的情報を抽出して、この幾何的情報を基に
前記部分領域の評価値を算出し、この評価値が最良とな
るまで、前記統合条件を変更しながら前記抽出された部
分領域を統合することにより文字領域を抽出することを
特徴とする。【００１７】さらに、本発明の画像処理方法は、入力さ
れた文書画像から抽出された文字成分の隣接関係を抽出
し、この抽出された文字成分の隣接関係に基づき前記文
字成分をグループ化して部分領域を生成し、この生成さ
れた部分領域を構成する文字成分とその隣接関係に基づ
き文字領域を抽出することを特徴とする。【００１８】このような特徴により、文字領域を抽出す
る際、文字列の傾き方向を検出し、縦書き／横書きに対
応して文字列を抽出し、得られた文字列を上下左右の４
方向で文字認識して、その文字認識結果の有効性を評価
するので、入力文書が・縦書き文章と横書き文章が混在している場合・文書が傾いている場合( 部分文章領域で独立して傾い
ている場合を含む) ・文書の入力方向が未知である場合を取り扱うことができる。【００１９】このように領域分割処理に文字認識結果を
利用すると、・文章領域と非文章領域を高精度に識別することが可能
となる・図形領域中の文字成分を抽出することができるという利点もある。【００２０】また、本発明では、複数の領域分割処理結
果を出力することができ、これをオペレータに提示し、
オペレータがその中から最良のものを選ぶというインタ
ラクティブで簡便な作業を実現できる。この結果、常に
高精度な出力結果を得ることが可能である。【００２１】【発明の実施の形態】本発明の実施形態について、図面
を参照して説明する。まず、用語について説明する。以
下の説明において、「画像オブジェクト」とは、画像中
の実体、すなわち、例えば２値画像の場合、実体とは黒
画素の任意の集合のことをいう場合がある。【００２２】また、「部分領域」とは、一つあるいは複
数個の画像オブジェクトによって構成されるある大きさ
を持つ２次元的領域のことをいう場合がある。図１は、
本発明の一実施形態に係る画像処理装置の構成を概略的
に示したものである。【００２３】画像入力部１から例えば光学的に取り込ま
れた文書画像は、公知である２値化処理手法により白と
黒の２値の画像データに変換され、この２値化画像につ
いて例えば文献「信学技報、ＰＲＵ９２−３２、１９９
２」に記載された傾き検出・補正処理を施し、傾きのな
い２値画像に変換する。以後、この画像を入力画像とす
る。【００２４】次に、入力画像は初期セグメンテーション
部２において、初期セグメンテーション処理により画像
オブジェクトを写真、図形、文字のいずれかに分類す
る。そして分類された画像オブジェクトに対して、それ
ぞれ、写真領域抽出部３、図形領域抽出部４、文字領域
抽出部５において、部分領域を抽出して文字領域、図形
領域、写真領域をそれぞれ抽出する。【００２５】抽出結果において解釈の曖昧さが見られる
( 例えば、部分領域に重なりが生じている場合など) に
は、領域重複解消部６で文書画像全体あるいは部分領域
間の整合性や各部分領域の秩序性などを調べることによ
り曖昧さを解消して高精度かつ信頼性の高い処理結果を
得ることができる。【００２６】次に、初期セグメンテーション部２の処理
について説明する。まず、入力画像に対し公知のラベリ
ング処理を行って、黒連結成分を抽出する。得られた連
結成分をその外接矩形で囲み、得られた外接矩形のサイ
ズ( 横幅：ｗと縦幅：ｈ) に基づいて、・文字候補矩形（ｗとｈのどちらかがしきい値ｔｈ_s1を
満たす矩形）・ドット候補矩形（ｗとｈの両方がしきい値ｔｈ_s2を満
たす矩形、微小矩形とも呼ぶ) ・その他( 上記１、２以外の矩形、巨大矩形とも呼ぶ) に分類する。【００２７】ここで、ｔｈ_s1、ｔｈ_s2を予め設定した値
とする。次に、写真領域抽出部３の処理について説明す
る。２値画像では写真領域は「べた塗り領域」かあるい
は「ソルト・ペッパー状のドット領域」と組み合わされ
た形で出現することが多いことからべた塗り領域とドッ
ト領域をそれぞれ抽出し、それらのうち近接するものを
まとめて写真領域と判別する。【００２８】まずドット領域の抽出処理について説明す
る。初期セグメンテーション処理によりドット候補矩形
に分類されたものに対して、近接するものをまとめてい
き、幾つかのクラスタ( 部分領域) を作る。このうちク
ラスタの大きさ( 例えばクラスタを外接する矩形を検出
しその縦幅および横幅の両方) が予め定めたしきい値ｔ
ｈ_n 以下のものをノイズと判定してもよい。得られたク
ラスタの集合を｛Ｄｏｔｓ｝と表す。｛Ｄｏｔｓ｝の各
要素はそれらを内接する多角形で存在範囲が示されてい
る。【００２９】べた塗り領域の抽出処理について説明す
る。初期セグメンテーション処理で「巨大矩形」と判定
されたものに対して、水平方向および垂直方向に長さｔ
ｈ_l （予め定めたしきい値）以上の黒ランを抽出し、そ
れらに対してさらに上記ラベリング処理を行う。得られ
た黒連結成分を多角形で内接し、その多角形内で黒画素
の密度を計算し、密度がｔｈ_density （予め定めたしき
い値）以上のものを「べた塗り領域」と判定する。得ら
れたベタ塗り領域の集合に対して距離を尺度にしてクラ
スタリングを行ない、近接しているものをまとめて新た
にべた塗り領域を構成する。このようにして得られたベ
タ塗り領域の集合を｛Ｐａｉｎｔｓ｝と表す。【００３０】写真領域抽出部３では、｛Ｄｏｔｓ｝と
｛Ｐａｉｎｔｓ｝の中で近接するものまとめて写真領域
の集合｛Ｐｈｏｔｏｓ｝を作る。次に、図形領域抽出部
４の処理について説明する。【００３１】初期セグメンテーション部２において「巨
大矩形」と判定されたものに対して、例えば、文献「信
学論、Ｊ７７−ＤＩＩ、１、ｐｐ９１−１００、（１９
９４）」に記載された手法を用いて線分、円弧、円など
の図形要素を抽出する。得られた図形要素の集合に対し
て距離を尺度にしてクラスタリングを行ない、近接する
ものまとめて図形領域を抽出する。図形領域の集合を
｛Ｇｒａｈｐｓ｝とする。｛Ｇｒａｈｐｓ｝の各要素は
それらを内接する多角形で存在範囲が示されている。【００３２】次に、文字領域抽出部５の処理について説
明する。ここでは、初期セグメンテーションで「文字候
補矩形」と判定されたものに対して以下の処理を適用す
ることにより文字領域を抽出する。すなわち、文字領域
のレイアウト解析処理を行うことにより文字領域を抽出
する。【００３３】文字領域のレイアウト解析処理とは、文字
成分（文字候補矩形と判定され黒連結成分の外接矩形の
サイズ、位置等の幾何的情報を含む）を最小単位とし
て、これらの統合処理により、・タイトル・著者・アブストラクト・パラグラフ・カラムで分離された本文などの論理オブジェクトを抽出する処理である。さらに
は論理オブジェクトを構成する各領域において文字列を
抽出する処理である。【００３４】図２を参照して文字領域抽出部５の処理
（レイアウト解析処理）の概要を説明する。まず、領域
抽出処理部１０において、幾何情報に基づく処理を行
う。領域抽出処理における下位階層である局所統合部１
０ａでは、文字成分をあらかじめ設定した統合パラメー
タ( 他の文字成分を統合するための距離範囲) に基づき
統合する処理を行う。【００３５】領域抽出処理における上位階層である秩序
形成部１０ｂでは、局所統合部１０ａでの統合処理結果
として２次元的な領域が生じたら、そこで・文字列方向の判定・文字列の抽出・文字サイズ、文字間距離( 字間) 、行間距離( 行間)
の計算を行う。【００３６】そして、得られたパラメータ( これらを総
称して秩序パラメータと呼ぶ) を次のように局所統合部
１０ａで境界条件（統合パラメータ）として反映させる
（局所統合部１０ａと秩序形成部１０ｂの周縁制御）。【００３７】局所統合部１０ａで文字分を統合する（局
所統合）する際には、・文字サイズおよび文字列方向が同じ部分領域間で統合
を行う。・文字列方向には字間分だけ、文字列方向と直行した方
向には行間分だけ近接している部分領域を統合する( 字
間および行間値に基づいて統合パラメータが計算され
る) 。【００３８】といった条件が満たされている必要があ
る。この処理サイクルを局所統合において新たな統合処
理が生じなくなるまで繰り返す( 孤立した文字すなわち
領域を構成しない文字については統合パラメータを増加
させる) 。【００３９】この結果、統合範囲と統合対象が適応的に
決定されながら部分領域が抽出され、文字サイズ・文字
列方向・字間・行間が異なる領域が分離される。【００４０】次に、認識処理部１１において、認識処理
( 意味情報に基づく処理) を行う。認識処理は領域抽出
処理部１０での領域抽出処理の上位階層に位置づけられ
ており、その秩序形成の役割を持つ。ここでは、以下
（ステップＳ１〜ステップＳ４）のようにして認識処理
結果により領域の秩序の形成を行なう。【００４１】ステップＳ１：文字認識部１１ａで各部分
領域で文字列単位に文字認識処理を実施し、認識結果評
価部１１ｂで認識結果を評価して、さらに領域変更／棄
却部１１ｃで、・非文字成分を検出して棄却する。【００４２】・認識結果の信頼度の低い文字列や部分領
域に対してパラメータを変更する。といった選択処理を
実施して処理の頑健性を高めるようにする。ステップＳ２：正しく認識できたと判断された部分領域
では秩序パラメータを抽出し、統合パラメータを再計算
し、得られた値を自分の新たな境界条件とする( 認識処
理部１１と領域抽出処理部１０の間の周縁制御) 。【００４３】ステップＳ３：各部分領域で「領域として
のまとまりの良さ」をその秩序性として評価する( これ
を部分領域の秩序度と呼び、秩序パラメータとは区別す
る)。低い秩序度を示す領域についてはその周辺の部分
領域の秩序度を下げずに自らの秩序度を上げるように統
合パラメータを制御して( 境界条件として与えて) 、領
域抽出処理部１０に対し、再び部分領域の統合( 局所統
合) を促す( 部分領域の秩序度を高める) 。【００４４】ステップＳ４：以上の領域抽出処理部１０
と認識処理部１１との間の処理サイクルを全体の秩序度
が上がらなくなるまで繰り返す。次に、文字領域抽出部５におけるレイアウト解析処理に
ついて、図３〜図５に示すフローチャートを参照して詳
細に説明する。【００４５】まず、領域抽出処理部１０の領域抽出処理
について詳細に説明する。ステップＳ１０：局所統合部１０ａにおける文字成分の
統合( 部分領域の生成) 処理（局所統合処理）各文字成分には水平方向の統合パラメータｈｍｐと垂直
方向の統合パラメータｖｍｐが付与されており、この値
に基づいて水平方向と垂直方向に他の文字成分を統合し
て部分領域を生成する。【００４６】これらの統合パラメータの初期値は、例え
ば、あらかじめ「水平方向と垂直方向の文字成分間距離
の最頻値」（文献「信学技報、ＰＲＵ９２−３２、１
９９２」参照）に基づいて、ｈｍｐ＝ｈｓ×θ ｖｍｐ＝ｖｓ×θ… （１）と設定してもよいし、予め最小値として定めた値を付与
してもよい。【００４７】なお、ｈｓ（ｖｓ）：水平( 垂直) 方向文字成分間距離の最頻
値 θ：（０、１）内の定数とする。【００４８】局所統合処理では以下の条件を満たすこと
を制約として課す。すなわち、・統合によって生じた新たな領域がフィールドセパレー
タをまたがないこと。・統合されるべき二つの部分領域では文字サイズがほぼ
等しいこと。【００４９】・統合されるべき二つの部分領域では文字
列方向が等しいこと。・統合されるべき二つの部分領域では字間および行間が
ほぼ等しいこと。局所統合部１０ａにおける統合処理は、上記制限のも
と、新たな統合が生じなくなるまで実施される。【００５０】ステップＳ１１：秩序形成部１０ｂにおけ
る部分領域の秩序の形成局所統合部１０ａでの局所統合が安定した時点で以下の
処理を適用して各部分領域で秩序を形成する。【００５１】まず、文字列方向の検出および文字列の抽
出を行う。すなわち、局所統合部１０ａで生成された各
部分領域について、水平方向と垂直方向に文字列を抽出
してみて、両方向で以下に定義する文字列らしさを表す
尺度Ｓｔｒを計算する。【００５２】Ｓｔｒ＝α×１／Ｃ_o ＋β×１／ＬＲＣ＋γ×（Ｓ_po+ Ｓ_so＋Ｓ_do） … （２）ここで、Ｃ_o ：文字並びの度合い( 文献「信学技報、ＰＲＵ９２
−３２、１９９２」参照) 、Ｓ_po：文字列の先頭位置の平均偏差Ｓ_so：文字列幅に関する平均偏差Ｓ_do：文字列間距離に関する標準偏差、 α、β、γ：定数ＬＲＣ：文字列方向の複雑度（文献「ＰＲＵ９２−３
２」参照）とする。【００５３】水平方向の文字らしさの尺度と垂直方向の
文字列らしさの尺度を比較してその値が小さい方の文字
列方向と文字列抽出結果を採用する。次に、文字サイズ
・字間・行間値の推定を行う。すなわち、抽出された文
字列から文字列の高さ( 横書き文字列なら縦幅、縦書き
文字列なら横幅) の平均値をその部分領域の平均的な文
字サイズとし、文字列間距離を行間と見なしてそれぞれ
抽出する。さらには得られた文字サイズを用いて各文字
行内で文字サイズに満たない文字成分同士を統合して新
たな文字成分を抽出し、さらに平均的な文字成分間距離
を計算してその部分領域における平均的な字間と見な
す。【００５４】ステップＳ１２：周縁制御による局所統合
の規定各部分領域で秩序形成部１０ｂにおける秩序形成処理で
得られたパラメータを局所統合に反映させるため、局所
統合部１０ａでは、新たに得られた字間と行間値に基づ
いて水平方向と垂直方向の統合パラメータを以下の変更
ルールに基づいて再設定して、局所統合を繰り返す。【００５５】変更ルール1 ：字間( 行間) 値が検出でき
た場合には、字間( 行間) ＋ｔｈ_dを新たな統合パラメ
ータとして採用する。ここで、ｔｈ_d を予め定めたしき
い値とする。【００５６】変更ルール2 ：字間( 行間) が検出されな
かった場合には、既に設定されている統合パラメータを
予め設定した増し分σだけ増加させて新しい統合パラメ
ータとする。【００５７】ステップＳ１３：以上、ステップＳ１０〜
ステップＳ１２の局所統合処理、秩序形成処理、周縁制
御の処理サイクルを新たな部分領域の統合が生じなくな
るまで繰り返し、その結果得られた部分領域に対して、
認識処理部１１において認識処理を行う。【００５８】次に、認識処理部１１の認識処理について
詳細に説明する。ここでは、前述の領域抽出処理部１０
のレイアウト解析による領域抽出処理により得られた部
分領域とそれを構成する文字列に対して以下の手順で認
識、評価、選択、変更を行う。【００５９】ステップＳ２０：文字認識まず、文字認識部１１ａにおいて、領域抽出部１０で抽
出された各部分領域の各文字列に対して、文献「信学技
報ＰＲＵ９３−４７、（１９９３−０９）」に記載され
た手法に基づいて文字切り出し／認識処理を実施する。
この処理では分離文字が統合され、また接触文字が切断
されるために正しい文字サイズが得られる。【００６０】ステップＳ２１：認識結果の評価続いて、認識結果評価部１１ｂにおいて、各部分領域で
文字認識結果( 類似度) の平均値ｒｃｇ_ave を計算す
る。ｒｃｇ_ave が予め設定されているしきい値ｔｈ_rcg
より低い部分領域は低信頼度の部分領域、高い場合には
高信頼度の部分領域と判定する。【００６１】ステップＳ２２：認識結果に基づく部分領
域の変更／棄却処理さらに、領域変更／棄却部１１ｃにおいて、信頼度に基
づいて部分領域に対して次の変更／棄却処理を適用す
る。【００６２】ステップＳ２２ａ：低信頼度の部分領域に
対する処理( 文字サイズを変更させて新たな部分領域を
発生させる) ・部分領域内で文字サイズに関する出現頻度のヒストグ
ラムを計算する。【００６３】・このヒストグラムに複数のピークが存在
する場合には、それに基づいて文字サイズ情報を変更し
て、領域抽出処理部１０で前述の領域抽出処理をやり直
す。・ヒストグラムに現状以外のピークが存在しない場合に
は、着目文字列を棄却する。【００６４】ステップＳ２２ｂ：一方、高信頼度の部分
領域に対しては、秩序パラメータを計算し、統合パラメ
ータを変更する。まず、各部分領域に対して以下に定義
する式に基づいて秩序度を計算し、「文字成分が密集し
ている安定したもの」と「少ない文字成分により構成さ
れている不安定なもの」に分類する。秩序度は次式
（３）により決定される。【００６５】【数１】【００６６】ここで、ｍｉｎ（Ａ、Ｂ）：ＡとＢのうち小さい方を選ぶ関数 γ：予め設定した値とする。【００６７】秩序度が予め定めたしきい値ｔｈ_order 以
下の部分領域を低秩序度の部分領域、ｔｈ_order をこえ
る部分領域を高秩序度の部分領域と見なし、高秩序度の
部分領域と、低秩序度の部分領域のそれぞれについて以
下の処理を行う。【００６８】ステップＳ２２ｂ−１：高秩序度の部分領
域の統合範囲の設定高秩序度と判定された部分領域では隣接する( 最近の)
高秩序度部分領域との距離に基づき次式（４）で定義さ
れる自分の統合範囲の限界が設定される( 統合範囲の抑
制) 。【００６９】【数２】【００７０】ここで、 λ＝ｍｉｎ_dd／ｄ₁ ｍｉｎ_dd：最近の部分領域との距離ｄ₁ ：予め定めた値 μ：予め設定した定数とする。【００７１】統合範囲が設定されている部分領域では統
合範囲以上に離れている部分領域とは統合しないことと
する。ステップＳ２２ｂ−２：低秩序度の部分領域の統合パラ
メータの変更低秩序度の部分領域に対して、他の部分領域と統合し安
くする( 自分の秩序度を上げる) ことを目的として水平
方向と垂直方向の統合パラメータ（ｈｍｐ、ｖｍｐ）を
次式により変更する。【００７２】統合パラメータ＝統合パラメータ×δ … （５）ここで、δは1 より大きい値をとり徐々に増大してい
く関数であるとする。文字間隔が不規則でスパースな部
分領域で統合が促進されるようにする。【００７３】ステップＳ２２ｂ−１、ステップＳ２２ｂ
−２での処理で変更された秩序パラメータおよび統合パ
ラメータを下位の領域抽出処理部１０に境界条件として
渡し、下位レベルの処理を規定する( 領域抽出処理部１
０と認識処理部１１間の周縁制御) 。【００７４】各領域に秩序度が付与されたあとの領域抽
出処理部１０における局所統合は次のように規定され
る。・統合により新たに生じる部分領域は他の部分領域と重
ならない・各部分領域で文字列らしさの尺度が統合前と比べて低
下しない・各部分領域で秩序度が統合前と比べて低下しない・統合が衝突する場合にはそれらの中で最良のものを選
択するこのような規定のもと、あらたに設定された統合パラメ
ータに基づく統合範囲内に存在し、かつ、文字列方向が
同じで、文字サイズが類似した他の部分領域を統合して
いく。【００７５】ステップＳ２３：以上ステップＳ１０〜ス
テップＳ２２ｂの領域抽出処理部１０と認識処理部１１
との間の処理サイクルを全体の秩序度、すなわち、
（３）式から計算される秩序度が上がらなくなるまで繰
り返した結果得られた文字領域の集合を｛Ｔｅｘｔ｝と
表す。【００７６】次に、文字領域抽出部５のレイアウト解析
処理の第２の実施形態について説明する。この実施形態
は、自律分散的な処理形態であることを特徴とする。す
なわち、領域抽出処理における各部分領域に対して３つ
のプロセスを与える。プロセスの内訳は以下のとおりで
ある。【００７７】・統合プロセス( 自分で持つ統合範囲内に
近接する他の部分領域を統合する）・幾何的秩序形成プロセス（自分の領域の幾何的な秩
序性( 文字列方向・文字列・文字サイズ・字間・行
間) を抽出する) ・意味的秩序形成プロセス( 自分の領域内の文字列を認
識する) これらのプロセスは、図６に示すように階層構造を有し
た組み( ユニット) となっている。この場合、計算空間
内で部分領域の数だけユニットが存在する。【００７８】ユニット内では統合プロセスと幾何的秩序
形成プロセス間、および、幾何的秩序形成プロセスと意
味的秩序形成プロセス間は同期していない。各上位プロ
セスはその下位プロセスで情報が抽出され次第動作する
ようになっている。【００７９】各プロセスの動作は次のとおりである。・統合プロセス他の統合プロセスを統合する( 統合に関する判断は前述
同様) 。２つの統合プロセス間で統合が生じたら優勢な
情報（より多くの情報）を有している統合プロセスの方
に融合され一つとなる( 統合したプロセスが有する情報
を吸収してユニットごと殺す) 。さらには、自分の統合
範囲および統合相手の適正を判断する。【００８０】・幾何的秩序形成プロセス自分の領域の幾何的な秩序性( 文字列方向・文字列・文
字サイズ・字間・行間) を抽出して、統合プロセスの運
動を規定する( 規定の仕方は前述同様) 。【００８１】・意味的秩序形成プロセス自分の領域内の文字を認識して、不要な情報を棄却した
り、変更する。さらに、下位の幾何的秩序形成プロセス
を規定する( 規定の仕方は前述同様) 。【００８２】このようなユニット群はユニット全体の秩
序性が安定する方向に動く。これは例えば、共有メモリ
を別途設けておき、ここに各ユニットの処理結果である
部分領域およびその秩序パラメータが書き込まれるよう
にする。この共有メモリ上では情報の書き込み、書き換
え、消去が各ユニットにより行なわれる。情報が書き込
まれたら共有メモリ上で部分領域の分布に対する秩序度
が共有メモリ自身によって計算される( 内容は前述同
様) 。【００８３】各ユニットは共有メモリを観察し、秩序度
の分布に応じて( 秩序度が上昇するように) ユニットの
動作( 特に統合ユニットにおける統合処理すなわち自分
はどの相手と統合するか) を決める。【００８４】この自律的な処理が安定したところでレイ
アウト解析処理を終了する。以上の処理で得られた文字
領域の集合を｛Ｔｅｘｔ｝と表す。文字領域抽出部５の
第３の実施形態について説明する。【００８５】前述の文字領域抽出部５のレイアウト解析
処理の領域抽出処理における文字列の抽出処理は以下の
処理により実現されていてもよい。すなわち、この処理
では各部分領域で、文字成分から、文字の大きさ、並
び、文字列方向が同じ物をグループ化して文字列として
抽出するものである。【００８６】まず、文字候補矩形に関する情報の抽出を
行う。文字成分に対してそれを包含する最小の矩形を定
義する。図７に示すように、重なりあっている矩形に対
しては、それらを包含する最小の外接矩形Ｇを定義し、
これを文字矩形と呼ぶ。この文字矩形に対しては縦横比
が求められる。各矩形内部における画像の性質に対して
ストロークの方向成分の分布、ストロークの太さ、複雑
度が求められる。以後それらを統合した情報を矩形情報
と呼ぶ。【００８７】次に、この矩形情報から隣接関係に関する
情報の抽出を行う。すなわち、図８に示すように、各外
接矩形について隣接している外接矩形同士の間に隣接関
係を定義する。その手法としては、例えば、隣接関係に
よって結ばれる矩形間の間隔や複数の隣接関係の整列の
程度を求める。整列の程度としては、例えば、図９に示
すように、矩形の重心を結ぶベクトルや水平、垂直方向
の重なりを用いる。これらの評価値を統合し、矩形同士
のつながりの強さ( 以下接続強度とよぶ) を求める。【００８８】評価値の統合の方法は例えば単に隣の矩形
に対する評価値について、予め定義された重みで各評価
値の線形和を取り、それを接続強度としてもよいし、一
旦隣り合うもの同士の接続強度を求めた後、前後数個の
中で着目矩形に近い程重視するように重み付けし、畳み
込んでも良い。この様に定義された接続強度は各々の外
接矩形が同一文字列に属す確信度を示す。また、これを
部分矩形列で統合したものが部分矩形列の確信度を示
す。【００８９】この矩形列は、図１０に示すように、ノー
ドに矩形情報を有し、エッジが或る接続強度で重み付け
されたグラフで表現でき、以後これを隣接関係グラフと
呼ぶ。【００９０】次に、部分隣接関係グラフを抽出する。す
なわち、文字矩形に関する情報、隣接関係に関する情報
の双方を用いて、文字列に相当する矩形の並び( 部分グ
ラフ) を抽出する。図１１を参照して具体的に説明する
と、まず、隣接関係グラフに対して部分領域中から統計
的に求められた一定値( 接続強度) より強い隣接関係の
みを選択的に抽出することにより部分隣接関係グラフの
初期状態を得る（図１１（ａ）参照）。そして、部分隣
接関係グラフの初期状態をもちいて統計的に求められた
文字矩形に関する情報、隣接関係に関する情報を用い
て、部分隣接関係グラフの理想的状態を得る（図１１
（ｂ））。また、そのグラフの統計量から予想される仮
想文字矩形を発生させ、初期状態から次の理想的状態を
得る（図１１（ｃ））。さらに、理想的隣接関係グラフ
の状態と現実の部分領域とのギャップを文字矩形、隣接
関係の各々に関する尺度で計算する。その際に矩形の統
合、分離が発生する。このギャップが一定値を越えた
時、理想的な部分隣接関係グラフに、それ以後新たな仮
想文字矩形は生成されない。以上の処理を定常状態にな
るまで繰り返す。【００９１】さて、これまでに求められた部分隣接グラ
フ中で同一の矩形について、２種類以上の解釈が存在す
る場合、それを以後の処理に文字列候補として保存して
おく必要がある。複数の解釈が存在する場合、一つの解
釈にのみ基づく仮想文字矩形を生成し、その他の解釈を
排除する事によって、対象となる隣接関係グラフの全て
の解釈の文字列候補を生成することが可能である。【００９２】仮想的な文字矩形として、例えば次のよう
な場合がある。すなわち、図１２に示すように、水平方
向と垂直方向の部分隣接関係グラフに同時に含まれてい
る場合、図１３に示すように、行の構成上、２行の部分
隣接関係グラフと１行の隣接関係グラフのいずれかに含
まれている場合等である。【００９３】また、このように生成された各仮説におけ
る評価値と、分岐点付近における接続強度によって、仮
説を少数に限定することもできる。ところで、入力され
てくる文書の方向が未知である場合には、その方向を把
握する必要がある。この場合、前述の認識処理部１１に
おいて、上下左右の４方向の可能性を考慮して文字認識
処理を行なわなければならない。このときすべての文字
列に対して４方向で文字認識を行なうことが考えられる
が、処理量は文字方向が既知である場合の４倍となり効
率的でない。そこで、文書全体において、または、部分
領域ごとにある一つの文字列を選び、それに対してその
文字方向を特定することによって、その情報に基づいて
残りの文字列を効率的に読み取ることが可能となる。【００９４】この場合、一つの文書あるいは部分領域中
では文字の向きは同一であると仮定し、文字領域中から
一行の文字列を抽出し、この文字列に対してのみ４方向
で文字認識を行ない、その中から最も認識率の良い方向
を選び、その方向で残りの文字列を読み取るようにして
もよい。【００９５】次に、文字方向決定処理の具体例について
説明する。ステップＳ３０：これまでに求められた文字列候補のう
ち、文字矩形数が最大のものを選ぶ。【００９６】ステップＳ３１：ステップＳ３０で選択さ
れた文字列候補を４方向で認識する。例えば文字列パタ
ーンから９０度、１８０度回転させたパターンを生じさ
せ、これらを前述の文字認識手法によって認識させる。【００９７】ステップＳ３２：ステップＳ３１で得られ
た認識結果のうちで平均文字認識率が最も良い方向を選
択する。ステップＳ３３：ステップＳ３２で得られた認識結果が
有効であるか否かについて判定する。この場合、例えば
平均文字認識率がしきい値ＴＨ１より大きい場合を「有
効」、それ以外を「無効」と判定する。【００９８】ステップＳ３４：ステップＳ３３の判定結
果が「無効」である場合には無効となった文字列以外の
文字列に対してステップＳ３０からステップＳ３３まで
を繰り返す。なお、「有効」である場合には処理を終了
する。【００９９】この処理結果をもとに、文書画像あるいは
部分領域の処理結果を得られた角度方向を解消する方向
に回転するようにしてもよい。これにより以後の認識処
理は必ず正しい方向で行なわれる。【０１００】以上、写真領域抽出部３、図形領域抽出部
４、文字領域抽出部５における処理が終了した結果、ど
の部分領域にも成りえなかった画像オブジェクトに対し
て「その他」という属性を付与する。これは後段の処理
において文字、写真、図形の何れかの属性をもつものと
し、この段階では「不明」とする。【０１０１】また、この時点で、・文書画像の大部分が｛Ｄｏｔｓ｝で占められている
（文書画像が全体的にかすれている可能性があるとして
オペレータに再入力を促す）・文書画像の大部分が｛Ｐａｉｎｔｓ｝で占められてい
る (文書画像が全体的につぶれている可能性があるとし
てオペレータに再入力を促す) という結果が得られている場合には、文書画像の再入力
をオペレータに促してもよい。【０１０２】以上の処理により、・写真領域の集合：｛Ｐｈｏｔｓ｝・図形領域の集合：｛Ｇｒａｐｈｓ｝・文字領域の集合：｛Ｔｅｘｔｓ｝が得られている。【０１０３】この時点では、図１４に示すように、同一
の画像オブジェクトが複数種類の領域に属している( 領
域間で重複がある) 可能性がある。一般に文書では異種
領域間で重なりが生じない( 排他的である) としている
ので、部分領域間が重複している場合にはそれらを解消
する必要がある。【０１０４】また、図の記述に用いられている文字列
や、写真中に存在する文字なども文字成分として抽出さ
れている可能性がある。この場合、例えば、図中の文字
列は本文を構成する文字列と区別され（図形領域と文字
領域の排他的関係）、写真中の文字は写真扱いにするほ
うが好ましい（写真領域と文字領域の共存関係）。この
ような領域間の排他的関係、共存関係に関する情報は、
あらかじめ領域間重複解消部６に記憶され、管理されて
いる。これを用いて領域間重複解消部６では、各領域抽
出部３、４、５で抽出された領域の重なりを解消する処
理を行うようになっている。【０１０５】そこで、次に、図１の領域間重複解消部６
において実行される領域の重なりを解消する処理と、図
形領域中の文字列を識別する処理について述べる。ま
ず、写真領域の集合｛Ｐｈｏｔｓ｝、図形領域の集合
｛Ｇｒａｐｈｓ｝、文字領域の集合｛Ｔｅｘｔｓ｝をそ
れぞれ部分集合とする全体集合｛Ａｒｅａ
_{ｃａｎｄ｝を生成する。} _{【０１０６】そして、以下の手順で各領域に確信度が付}
_{与される。} _{ステップＳ４０：写真領域に対する確信度Ｂ} _ｐの付与部分領域のサイズに基づいて、次式（６）に従って写真
領域に確信度Ｂ_p を付与する。【０１０７】【数３】【０１０８】ステップＳ４１：図形領域に対する確信度
Ｂ_g の付与部分領域のサイズに基づいて、次式（７）に従って図形
領域に確信度Ｂ_p を付与する。【０１０９】【数４】【０１１０】ステップＳ４２：文字領域に対する確信度
Ｂ_t の付与式（３）により計算される秩序度を確信度Ｂ_t として採
用する。ステップＳ４３：複数の属性を有する部分領域の確信度
の再計算まず、｛Ａｒｅａ_cand｝の要素のうち、他の要素と領域
が重なるものを複数の属性を有する部分領域として抽出
する。そして、複数の属性を有する部分領域の確信度Ｂ
_mix を次式（８）に基づいて再計算する。【０１１１】【数５】【０１１２】次に、｛Ａｒｅａ_cand｝に対して、・領域は重ならない・領域は文書画像の構成要素の全てを被覆するという幾何的条件に基づいて、同時に共存可能な領域候
補の組み合わせの集合｛Ａｒｅａ_comb｝を求める。【０１１３】同時に共存可能な領域候補の組み合わせ
は、例えば、文献「信学技報、ＰＲＵ９４−３２、１９
９４」に記載されている連合グラフ法を用いて、以下の
手順により作成されてもよい。この方式を用いることに
より同時に成立できる領域候補の組をグラフを用いて表
現することができ、クリーク抽出というグラフ理論的手
法により排他的な領域候補の組み合わせの集合を正確に
抽出することが可能となる。【０１１４】ステップＳ５０：｛Ａｒｅａ_cand｝におけ
る各領域候補を連合グラフのノードとして割り当てる
（図１５参照）。ステップＳ５１：｛Ａｒｅａ_cand｝における全ての２つ
の割り当てにおいてそれらが両立するか否かを判定す
る。２つの領域候補に重なりがない場合にはその２つの
領域は両立すると見なす。【０１１５】ステップＳ５２：両立する割り当て間にエ
ッジを設定することにより連合グラフを作成する（図１
６参照）。ステップＳ５３：連合グラフからすべての極大クリーク
を抽出する（図１６参照）。極大クリーク抽出手順は、
例えば文献「信学論（Ｄ）、Ｊ６８−Ｄ、３、ｐｐ２２
１−２２８、（１９８５）」に記載されている手法を用
いることにより抽出される。図１６では、ノード３個か
らなる共存関係の領域候補の組み合わせとしての極大ク
リークを抽出ししている。【０１１６】ステップＳ５４：極大クリークのうち文書
画像のすべての構成要素を被覆しているものを抽出す
る。得られた極大クリークの集合は同時に共存可能な領
域候補の組み合わせ集合｛Ａｒｅａ_comb｝とする。【０１１７】この手順の他に、各部分領域を仮説と見な
し、部分領域の組み合わせを仮説の組み合わせとしてＡ
ＴＭＳ（ＡｓｓｕｍｐｔｉｏｎｂａｓｅｄＴｒｕｔ
ｈＭａｉｎｔｅｎａｎｃｅＳｙｓｔｅｍ）を用いて
仮説間の無矛盾性を管理することにより共存可能な領域
候補の組み合わせを得るようにしてもよい。【０１１８】最終的な領域分割結果は、領域候補の組み
合わせ集合｛Ａｒｅａ_comb｝の中から最良な組み合わせ
を抽出することで得られる。これは例えば、図１６のグ
ラフ表現された組み合わせ集合に対して（９）式に示す
評価関数に基づいて、極大クリークの各エッジにコスト
Ｃｏｓｔ_edgeを付与し、各極大クリークごとに総コスト
を計算し、最もコストの低い極大クリーク( 領域候補の
組み合わせ) を抽出することによって達成される。【０１１９】【数６】この評価関数によって極大クリークの各エッジにコスト
が割り振られたら、例えば、【０１２０】【数７】【０１２１】といった評価関数を用いて各極大グラフで
総コストＣｏｓｔ_all を計算し、その値が最小となる極
大グラフを抽出し、それが表す部分領域の組み合わせを
領域分割結果と見なしてもよい。【０１２２】ここで、ＢＦ＝１／（エッジの両端の部分領域の確信度の積） … （１１）とする。【０１２３】このとき、コスト値の昇順に複数個の排他
的な領域候補を出力することも可能である。このような
場合、正しい候補をオペレータが指定できるように複数
候補を画面に出力するようにしてもよい。【０１２４】さらに、最適な組み合わせを抽出する方法
として、・各部分領域に属性に応じて確信度を付与し、部分領域
間の局所的な整合性を計算し、弛緩法などを用いて各部
分領域の確信度を反復的に更新していくことにより最終
的に信頼度の高い解を得る。【０１２５】・画像全体に対して領域の整合性を表すエ
ネルギー関数を設定し、関数をシミュレーテッドアニー
リング法（統計的緩和法）などを用いてこのエネルギー
関数を最小にする組み合わせを探索する。【０１２６】などの方法を用いて求めるようにしてもよ
い。領域間重複解消部６における上述した領域分割処理
の結果、領域候補間のあいまいさが解消される。この結
果、確定されなかった領域候補を無効とする。確定され
た領域では各領域は均質であるとして、その内部に含ま
れるすべての画像オブジェクトに対してその領域の属性
を新たに付与する。【０１２７】さて、図形領域と確定された領域では、さ
らにグラフ、表、図などの種類が考えられる。表の場合
はその中の文字列が重要な情報となるのでグラフや図と
区別する必要がある。表の識別は例えば次の規則を適用
することにより実施される。【０１２８】規則：図形領域の属性を持つ部分領域にお
いてその内部の線分のほとんどが水平線か垂直線のいず
れかであり、内部には高信頼度の文字列が含まれてお
り、それらが線分で囲まれているならば、その部分領域
を表領域と見なす。【０１２９】この規則により、表として認識された部分
領域に対しては「表」を意味する属性を新たに付与す
る。また、表を除く図形領域中の部分領域に対しては、
文字領域の部分領域の抽出時に得られた情報を用いて、
当該部分領域に含まれる文字列情報( 認識結果であるコ
ード情報を含む) を無効とせず、それらに対して「図形
を説明する文字列」という属性を付与しておく。これら
の文字列は文書検索時に活用されるようにしておいても
よい。【０１３０】さらに、最終的に得られた領域分割結果に
おいて、各領域は例えば図１７に示すように公知の方法
により両域内の画像を含む最小の凸な多角形で囲み、そ
れをその領域の範囲としても良い。各領域ではそれを構
成する部分領域と画像オブジェクトに関する情報が、画像→領域→部分領域の集合→オブジェクトの集合というように階層的に管理されていてもよい。【０１３１】以上、説明したように、上記実施形態によ
れば、画像入力部１で入力された文書画像に対しラベリ
ング処理を行って黒連結成分を抽出して、その外接矩形
のサイズから写真領域抽出部３、図形領域抽出部４、文
字領域抽出部５のいづれかに振り分け、写真領域抽出部
３では、べた塗り領域、ドット領域の抽出処理を行い、
図形領域抽出部４では、例えば、線分、円弧、円などの
図形要素を抽出して、得られた図形要素の集合に対して
距離を尺度にしてクラスタリングを行ない、近接するも
のまとめて図形領域を抽出する処理を行い、さらに文字
領域抽出部５では、統合パラメータに基づき初期セグメ
ンテーション部２で抽出された文字成分あるいは文字成
分を統合して得られた部分領域を統合する局所統合処理
を行い、この統合された部分領域に対し、文字列らしさ
の評価を行って文字列を抽出するとともに、その文字列
の幾何的な特徴量（秩序パラメータ）を求め、この秩序
パラメータをもとに統合パラメータを再設定しながら部
分領域の統合がなくなり安定するまで部分領域の統合を
行い、さらに、その統合された部分領域を構成する文字
列の文字認識を行い、その認識結果から信頼度の高い部
分領域について、秩序度を算出し、その秩序度が上がる
ように、統合パラメータを変更しながら部分領域を統合
して前記処理を繰り返して行うことにより文字領域を抽
出し、写真領域抽出部３、図形領域抽出部４、文字領域
抽出部５のそれぞれで抽出された領域間に空間的重なり
が見られる場合には、領域重複解消部６で各領域間の排
他関係と共存関係に基づき、例えば、グラフ理論的手法
により最適な組み合わせを抽出することにより、書式が
未知であり、文書の入力方向が未知である文書画像にお
いて、文字領域、写真領域、図形領域等の性質の異なる
複数の画像領域を高精度に分離・識別できる。【０１３２】また、文字領域抽出部５では、文字成分、
部分領域といった小領域単位に幾何的秩序、意味的秩序
の解析を行うことにより、高精度な文字領域の識別が行
える。【０１３３】さらに、文章、写真、絵、図形、グラフ、
表などの種々の成分から構成される様々な書式を持つ文
書においてそれぞれの成分を高精度に分離・識別するこ
とができ、図形、グラフ、表などではそれらに含まれる
文字成分を抽出することができるので、・文章成分のみ利用したい・タイトルやパラグラフ単位に適切にブロック化された
文章成分を抽出したい・図形成分のみ利用したい・写真成分のみ利用したい・図形内に記載されているキーワードを用いて図形を検
索したいといった様々なアプリケーションの高度な要求に答える
ことが可能となる。【０１３４】【発明の効果】以上説明したように本発明によれば、書
式が未知であり、文書の入力方向が未知である文書画像
において、文字領域、写真領域、図形領域等の性質の異
なる複数の画像領域を高精度に識別できる画像処理方法
および画像処理装置を提供できる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る画像処理装置の構成
を概略的に示したブロック図。

【図２】図１の文字領域抽出部の構成を概略的に示した
ブロック図。

【図３】文字領域抽出部の処理動作の一具体例を説明す
るためのフローチャート。

【図４】文字領域抽出部の処理動作の一具体例を説明す
るためのフローチャート。

【図５】文字領域抽出部の処理動作の一具体例を説明す
るためのフローチャート。

【図６】文字領域抽出部の第２の実施形態について説明
するための図で、自立分散的な処理形態の一具体例を示
した図。

【図７】文字領域抽出部の第３の実施形態について説明
するための図で、文字矩形の一具体例を示した図。

【図８】文字領域抽出部の第３の実施形態について説明
するための図で、文字矩形間の隣接関係を説明するため
の図。

【図９】文字領域抽出部の第３の実施形態について説明
するための図で、文字矩形間の接続強度を説明するため
の図。

【図１０】文字領域抽出部の第３の実施形態について説
明するための図で、文字矩形の集合を隣接関係グラフで
表した一具体例を示した図。

【図１１】文字領域抽出部の第３の実施形態について説
明するための図で、隣接関係グラフから接続強度の強い
部分隣接関係グラフを抽出して、理想的な部分隣接関係
グラフを求めながら文字矩形の統合、分離を行う手順に
ついて説明するための図。

【図１２】文字領域抽出部の第３の実施形態について説
明するための図で、部分隣接関係グラフの複数の解釈の
一具体例について説明するための図。

【図１３】文字領域抽出部の第３の実施形態について説
明するための図で、部分隣接関係グラフの複数の解釈の
他の具体例について説明するための図。

【図１４】写真領域抽出部、図形領域抽出部、文字領域
抽出部における処理が終了した時点で、処理対象文書の
画像から抽出された領域の一具体例を示した図で、１つ
の画像オブジェクトが複数の領域に属する場合について
説明するための図。

【図１５】図１の領域間重複解消部において、グラフ理
論的手法により排他的な領域候補の組み合わせの集合を
抽出する処理を説明するための図で、連合グラフを構成
するノードの一具体例を示した図。

【図１６】連合グラフとそこから得られる極大クリーク
の一具体例を示した図。

【図１７】図１の領域間重複解消部での領域分割の結
果、最終的に得られた領域の範囲の表現の一具体例を示
した図。

【符号の説明】

１…画像入力部、２…初期セグメンテーション、３…写
真領域抽出部、４…図形領域抽出部、５…文字領域抽出
部、６…領域間重複解消部。

Claims

【特許請求の範囲】

【請求項１】入力された文書画像から性質の異なる画
像領域を識別する画像処理方法において、前記文書画像から前記画像領域の性質に応じて部分領域
の抽出を行い、この抽出された画像領域間の排他的関係
と共存関係に基づいて、前記抽出された複数の画像領域
間の重複領域が属する画像領域を識別することを特徴と
する画像処理方法。
【請求項２】入力された文書画像から抽出された文字
成分に基づく統合条件に従って部分領域を抽出し、この
部分領域から抽出された文字列から文字を切り出して文
字認識し、この認識結果に基づく評価値が最良となるま
で、前記統合条件を変更しながら前記抽出された部分領
域を統合することにより文字領域を抽出することを特徴
とする画像処理方法。
【請求項３】入力された文書画像から抽出された文字
成分に基づく統合条件に従って部分領域を抽出し、この
部分領域から抽出された文字列の幾何的情報を抽出し
て、この幾何的情報を基に前記部分領域の評価値を算出
し、この評価値が最良となるまで、前記統合条件を変更
しながら前記抽出された部分領域を統合することにより
文字領域を抽出することを特徴とする画像処理方法。
【請求項４】入力された文書画像から抽出された文字
成分の隣接関係を抽出し、この抽出された文字成分の隣
接関係に基づき前記文字成分をグループ化して部分領域
を生成し、この生成された部分領域を構成する文字成分
とその隣接関係に基づき文字領域を抽出することを特徴
とする画像処理方法。
【請求項５】入力された文書画像から性質の異なる画
像領域を識別する画像処理装置において、前記文書画像から前記画像領域の性質に応じて部分領域
の抽出を行う部分領域抽出手段と、この部分領域抽出手段で抽出された部分領域間の排他的
関係と共存関係を管理する管理手段と、この管理手段で管理された部分領域間の排他的関係と共
存関係に基づいて、前記部分領域抽出手段で抽出された
複数の部分領域間の重複領域が属する画像領域を識別す
る識別手段と、を具備することを特徴とする画像処理装置。
【請求項６】入力された文書画像から抽出された文字
成分に基づく統合条件に従って部分領域を抽出する抽出
手段と、この抽出手段で抽出された部分領域から文字列を抽出す
る文字列抽出手段と、この文字列抽出手段で抽出された文字列から文字を切り
出して認識する文字認識手段とを具備し、この文字認識手段での認識結果に基づく評価値が最良と
なるまで、前記統合条件を変更しながら前記抽出手段で
抽出された部分領域を統合することにより、文字領域を
抽出する画像処理装置。
【請求項７】入力された文書画像から抽出された文字
成分に基づく統合条件に従って部分領域を抽出する抽出
手段と、この抽出手段で抽出された部分領域から文字列を抽出す
る文字列抽出手段と、この文字列抽出手段で抽出された文字列の幾何的情報を
抽出する手段と、前記抽出された文字列の幾何的情報を基に前記部分領域
の評価値を算出する手段とを具備し、前記評価値が最良となるまで、前記統合条件を変更しな
がら前記抽出手段で抽出された他の部分領域を統合する
ことにより、文字領域を抽出することを特徴とする画像
処理装置。
【請求項８】入力された文書画像から抽出された文字
成分の隣接関係を抽出する第１の抽出手段と、この第１の抽出手段で抽出された文字成分の隣接関係に
基づき前記文字成分をグループ化して部分領域を生成す
る生成手段と、この生成手段で生成された部分領域を構成する文字成分
とその隣接関係に基づき文字領域を抽出する第２の抽出
手段と、を具備したことを特徴とする画像処理装置。