JPH09167233A - 画像処理方法および画像処理装置 - Google Patents

画像処理方法および画像処理装置

Info

Publication number
JPH09167233A
JPH09167233A JP7327261A JP32726195A JPH09167233A JP H09167233 A JPH09167233 A JP H09167233A JP 7327261 A JP7327261 A JP 7327261A JP 32726195 A JP32726195 A JP 32726195A JP H09167233 A JPH09167233 A JP H09167233A
Authority
JP
Japan
Prior art keywords
character
extracted
area
partial
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7327261A
Other languages
English (en)
Other versions
JP3720892B2 (ja
Inventor
Yasuto Ishitani
康人 石谷
Akihiro Uda
明弘 宇田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP32726195A priority Critical patent/JP3720892B2/ja
Publication of JPH09167233A publication Critical patent/JPH09167233A/ja
Application granted granted Critical
Publication of JP3720892B2 publication Critical patent/JP3720892B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】書式が未知であり、文書の入力方向が未知であ
る文書画像において、文字領域、写真領域、図形領域等
の性質の異なる複数の画像領域を高精度に識別できる画
像処理方法および画像処理装置を提供できる。 【解決手段】画像入力部1で入力された文書画像から黒
連結成分を抽出して、その外接矩形のサイズから写真領
域抽出部3、図形領域抽出部4、文字領域抽出部5のい
づれかに振り分け、それぞれにおいて、各画像領域の特
性に合った画像領域抽出処理を行い、写真領域抽出部
3、図形領域抽出部4、文字領域抽出部5のそれぞれで
抽出された領域間に空間的重なりが見られる場合には、
領域重複解消部6で各領域間の排他関係と共存関係に基
づき、組み合わせを抽出する。

Description

【発明の詳細な説明】 【0001】 【発明の属する技術分野】本発明は、文字、写真、絵、
図形、表などが混在する文書画像からそれぞれの領域を
識別する画像処理方法、および、それを用いた画像処理
装置に関する。 【0002】 【従来の技術】最近、書類形態として蓄積されている大
量の情報を計算機に自動入力できるシステムの実現に対
する要求が非常に高まっている。このようなシステムを
実現する場合には、文書画像をディジタル画像として計
算機に取り込み、文書の意味的、幾何的性質から、文字
領域、写真領域、図形領域などの質の異なる領域を自動
的に分離する機能( 領域分割) が重要となる。 【0003】この機能により得られた各々の領域ではそ
の性質に基づいた認識処理が施されることによって利用
価値の高い情報を計算機に入力でき、活用することが可
能となる。 【0004】これまでに提案されている領域分割方式
は、例えば、「Proc.12thICPR、pp34
5−349、(1994)」、「信学論D−ll、Vo
l.J75−D−II、No.2、pp246−25
6、(1992)」に記載されているように、1種類の
幾何特徴を文書画像で抽出し、その幾何的性質および分
布により上記3つの領域に分離するものであった。 【0005】この方式では、処理に用いた幾何特徴が文
字、写真、図形の各々の領域の幾何的性質を適切に表現
しているものでなければならないが、現状ではそのよう
なものは見つかっておらず、従って十分な分離能力が得
られていない。 【0006】さらに、「Proc. 1st ICDA
R、pp945−962、(1991)」、「信学論D
−ll、Vol.J72−D−II、No.1、pp9
3−104、(1989)」に記載されているように、
文書の背景部( 空白領域) に着目して文書画像を分割す
る方式がある。 【0007】この方式では、オブジェクトが密に分布し
ている文書の空白領域とスペースに分布している文書の
空白領域を明確に区別することができず、従って、異な
る領域をまとめて一つの領域として抽出してしまった
り、同質な領域を分離してしまうという欠点がある。 【0008】また、「信学論D−ll、Vol.J78
−D−II、No.3、pp465−473、(199
5)」、「Machine Vision andAp
plications、Vol.7、pp.237−2
46、(1994)」、「IEEE Trans. P
attern Analysis andMachin
e Intelligence Vol.15、No.
11、pp.1162−1173(1993)」に記載
されているように、文字成分にのみ着目して文字列とそ
の塊であるブロックを抽出し、それ以外を非文字領域と
して無視する手法がある。 【0009】この方式では、 ・ 文字らしきものを文書画像から抽出しそれらを順次
統合していって、整列している文字列のみを抽出する
が、そのような条件が非文章領域でも満たされる場合に
はその領域を文字領域とみなしてしまう。 ・ 規則的な整列性を重視する余り、「文字が不規則に
分布している文字列」を正しく抽出することはできな
い。 ・ 文字成分のみに着目したアプローチでは写真領域と
図形領域を識別することはできない。 ・ 縦書き文章と横書き文章が混在する文書を処理する
ことはできない。 といった問題点がある。 【0010】 【発明が解決しようとする課題】前述の従来方式の何れ
も単一な幾何特徴のみに基づいて文書画像を文字領域、
写真領域、図形領域に分類するので、分類処理に必要と
される情報が十分に得られず高精度な処理結果を得るこ
とができないという問題点があった。 【0011】また、文字領域においては、種々の文字サ
イズ・字間・行間を持つ文字列が混在する文字が二次元
的に配置されている( 縦書き文字列と横書き文字列が混
在する) 文書から各々の文字列を高精度に抽出すること
はできないという問題点があった。 【0012】また、図形領域中の文字列は図形扱いとし
てしまうために、検索などにおいて有効に活用すること
はできなかった。さらには、文書画像は必ず正しい方向
で入力されることを前提としているため文書を入力する
際に文書の方向に関して細心の注意を払わなければなら
ないという問題点があった。 【0013】そこで、本発明は上記問題点に鑑みてなさ
れたものであり、書式が未知であり、文書の入力方向が
未知である文書画像において、文字領域、写真領域、図
形領域を高精度に分離・識別でき、さらには、横書き文
章と縦書き文章を分離して抽出できる画像処理方法およ
び画像処理装置を提供することを目的とする。 【0014】 【課題を解決するための手段】本発明の文書認識方法
は、入力された文書画像から性質の異なる画像領域を識
別する画像処理方法において、前記文書画像から前記画
像領域の性質に応じて部分領域の抽出を行い、この抽出
された画像領域間の排他的関係と共存関係に基づいて、
前記抽出された複数の画像領域間の重複領域が属する画
像領域を識別することにより、文書画像を構成する文字
成分・写真成分・図形成分の各々に対応した領域抽出手
段を備えており、領域間で重複が生じてもそれを解消で
きるので、文字領域と写真領域と図形領域を高精度に識
別・分類することができる。また、それぞれの領域に対
応した抽出処理を行うことにより、領域分割の性能が各
々の領域の文書中に占める割合に依存しない。 【0015】また、本発明の画像処理装置は、入力され
た文書画像から抽出された文字成分に基づく統合条件に
従って部分領域を抽出し、この部分領域から抽出された
文字列から文字を切り出して文字認識し、この認識結果
に基づく評価値が最良となるまで、前記統合条件を変更
しながら前記抽出された部分領域を統合することにより
文字領域を抽出することを特徴とする。 【0016】また、本発明の画像処理装置は、入力され
た文書画像から抽出された文字成分に基づく統合条件に
従って部分領域を抽出し、この部分領域から抽出された
文字列の幾何的情報を抽出して、この幾何的情報を基に
前記部分領域の評価値を算出し、この評価値が最良とな
るまで、前記統合条件を変更しながら前記抽出された部
分領域を統合することにより文字領域を抽出することを
特徴とする。 【0017】さらに、本発明の画像処理方法は、入力さ
れた文書画像から抽出された文字成分の隣接関係を抽出
し、この抽出された文字成分の隣接関係に基づき前記文
字成分をグループ化して部分領域を生成し、この生成さ
れた部分領域を構成する文字成分とその隣接関係に基づ
き文字領域を抽出することを特徴とする。 【0018】このような特徴により、文字領域を抽出す
る際、文字列の傾き方向を検出し、縦書き/横書きに対
応して文字列を抽出し、得られた文字列を上下左右の4
方向で文字認識して、その文字認識結果の有効性を評価
するので、入力文書が ・縦書き文章と横書き文章が混在している場合 ・文書が傾いている場合( 部分文章領域で独立して傾い
ている場合を含む) ・文書の入力方向が未知である場合 を取り扱うことができる。 【0019】このように領域分割処理に文字認識結果を
利用すると、 ・文章領域と非文章領域を高精度に識別することが可能
となる ・図形領域中の文字成分を抽出することができる という利点もある。 【0020】また、本発明では、複数の領域分割処理結
果を出力することができ、これをオペレータに提示し、
オペレータがその中から最良のものを選ぶというインタ
ラクティブで簡便な作業を実現できる。この結果、常に
高精度な出力結果を得ることが可能である。 【0021】 【発明の実施の形態】本発明の実施形態について、図面
を参照して説明する。まず、用語について説明する。以
下の説明において、「画像オブジェクト」とは、画像中
の実体、すなわち、例えば2値画像の場合、実体とは黒
画素の任意の集合のことをいう場合がある。 【0022】また、「部分領域」とは、一つあるいは複
数個の画像オブジェクトによって構成されるある大きさ
を持つ2次元的領域のことをいう場合がある。図1は、
本発明の一実施形態に係る画像処理装置の構成を概略的
に示したものである。 【0023】画像入力部1から例えば光学的に取り込ま
れた文書画像は、公知である2値化処理手法により白と
黒の2値の画像データに変換され、この2値化画像につ
いて例えば文献「信学技報、PRU92−32、199
2」に記載された傾き検出・補正処理を施し、傾きのな
い2値画像に変換する。以後、この画像を入力画像とす
る。 【0024】次に、入力画像は初期セグメンテーション
部2において、初期セグメンテーション処理により画像
オブジェクトを写真、図形、文字のいずれかに分類す
る。そして分類された画像オブジェクトに対して、それ
ぞれ、写真領域抽出部3、図形領域抽出部4、文字領域
抽出部5において、部分領域を抽出して文字領域、図形
領域、写真領域をそれぞれ抽出する。 【0025】抽出結果において解釈の曖昧さが見られる
( 例えば、部分領域に重なりが生じている場合など) に
は、領域重複解消部6で文書画像全体あるいは部分領域
間の整合性や各部分領域の秩序性などを調べることによ
り曖昧さを解消して高精度かつ信頼性の高い処理結果を
得ることができる。 【0026】次に、初期セグメンテーション部2の処理
について説明する。まず、入力画像に対し公知のラベリ
ング処理を行って、黒連結成分を抽出する。得られた連
結成分をその外接矩形で囲み、得られた外接矩形のサイ
ズ( 横幅:wと縦幅:h) に基づいて、 ・文字候補矩形(wとhのどちらかがしきい値ths1
満たす矩形) ・ドット候補矩形(wとhの両方がしきい値ths2を満
たす矩形、微小矩形とも呼ぶ) ・その他( 上記1、2以外の矩形、巨大矩形とも呼ぶ) に分類する。 【0027】ここで、ths1、ths2を予め設定した値
とする。次に、写真領域抽出部3の処理について説明す
る。2値画像では写真領域は「べた塗り領域」かあるい
は「ソルト・ペッパー状のドット領域」と組み合わされ
た形で出現することが多いことからべた塗り領域とドッ
ト領域をそれぞれ抽出し、それらのうち近接するものを
まとめて写真領域と判別する。 【0028】まずドット領域の抽出処理について説明す
る。初期セグメンテーション処理によりドット候補矩形
に分類されたものに対して、近接するものをまとめてい
き、幾つかのクラスタ( 部分領域) を作る。このうちク
ラスタの大きさ( 例えばクラスタを外接する矩形を検出
しその縦幅および横幅の両方) が予め定めたしきい値t
n 以下のものをノイズと判定してもよい。得られたク
ラスタの集合を{Dots}と表す。{Dots}の各
要素はそれらを内接する多角形で存在範囲が示されてい
る。 【0029】べた塗り領域の抽出処理について説明す
る。初期セグメンテーション処理で「巨大矩形」と判定
されたものに対して、水平方向および垂直方向に長さt
l (予め定めたしきい値)以上の黒ランを抽出し、そ
れらに対してさらに上記ラベリング処理を行う。得られ
た黒連結成分を多角形で内接し、その多角形内で黒画素
の密度を計算し、密度がthdensity (予め定めたしき
い値)以上のものを「べた塗り領域」と判定する。得ら
れたベタ塗り領域の集合に対して距離を尺度にしてクラ
スタリングを行ない、近接しているものをまとめて新た
にべた塗り領域を構成する。このようにして得られたベ
タ塗り領域の集合を{Paints}と表す。 【0030】写真領域抽出部3では、{Dots}と
{Paints}の中で近接するものまとめて写真領域
の集合{Photos}を作る。次に、図形領域抽出部
4の処理について説明する。 【0031】初期セグメンテーション部2において「巨
大矩形」と判定されたものに対して、例えば、文献「信
学論、J77−DII、1、pp91−100、(19
94)」に記載された手法を用いて線分、円弧、円など
の図形要素を抽出する。得られた図形要素の集合に対し
て距離を尺度にしてクラスタリングを行ない、近接する
ものまとめて図形領域を抽出する。図形領域の集合を
{Grahps}とする。{Grahps}の各要素は
それらを内接する多角形で存在範囲が示されている。 【0032】次に、文字領域抽出部5の処理について説
明する。ここでは、初期セグメンテーションで「文字候
補矩形」と判定されたものに対して以下の処理を適用す
ることにより文字領域を抽出する。すなわち、文字領域
のレイアウト解析処理を行うことにより文字領域を抽出
する。 【0033】文字領域のレイアウト解析処理とは、文字
成分(文字候補矩形と判定され黒連結成分の外接矩形の
サイズ、位置等の幾何的情報を含む)を最小単位とし
て、これらの統合処理により、 ・タイトル ・著者 ・アブストラクト ・パラグラフ ・カラムで分離された本文 などの論理オブジェクトを抽出する処理である。さらに
は論理オブジェクトを構成する各領域において文字列を
抽出する処理である。 【0034】図2を参照して文字領域抽出部5の処理
(レイアウト解析処理)の概要を説明する。まず、領域
抽出処理部10において、幾何情報に基づく処理を行
う。領域抽出処理における下位階層である局所統合部1
0aでは、文字成分をあらかじめ設定した統合パラメー
タ( 他の文字成分を統合するための距離範囲) に基づき
統合する処理を行う。 【0035】領域抽出処理における上位階層である秩序
形成部10bでは、局所統合部10aでの統合処理結果
として2次元的な領域が生じたら、そこで ・文字列方向の判定 ・文字列の抽出 ・文字サイズ、文字間距離( 字間) 、行間距離( 行間)
の計算 を行う。 【0036】そして、得られたパラメータ( これらを総
称して秩序パラメータと呼ぶ) を次のように局所統合部
10aで境界条件(統合パラメータ)として反映させる
(局所統合部10aと秩序形成部10bの周縁制御)。 【0037】局所統合部10aで文字分を統合する(局
所統合)する際には、 ・文字サイズおよび文字列方向が同じ部分領域間で統合
を行う。 ・文字列方向には字間分だけ、文字列方向と直行した方
向には行間分だけ近接している部分領域を統合する( 字
間および行間値に基づいて統合パラメータが計算され
る) 。 【0038】といった条件が満たされている必要があ
る。この処理サイクルを局所統合において新たな統合処
理が生じなくなるまで繰り返す( 孤立した文字すなわち
領域を構成しない文字については統合パラメータを増加
させる) 。 【0039】この結果、統合範囲と統合対象が適応的に
決定されながら部分領域が抽出され、文字サイズ・文字
列方向・字間・行間が異なる領域が分離される。 【0040】次に、認識処理部11において、認識処理
( 意味情報に基づく処理) を行う。認識処理は領域抽出
処理部10での領域抽出処理の上位階層に位置づけられ
ており、その秩序形成の役割を持つ。ここでは、以下
(ステップS1〜ステップS4)のようにして認識処理
結果により領域の秩序の形成を行なう。 【0041】ステップS1:文字認識部11aで各部分
領域で文字列単位に文字認識処理を実施し、認識結果評
価部11bで認識結果を評価して、さらに領域変更/棄
却部11cで、 ・非文字成分を検出して棄却する。 【0042】・認識結果の信頼度の低い文字列や部分領
域に対してパラメータを変更する。といった選択処理を
実施して処理の頑健性を高めるようにする。 ステップS2:正しく認識できたと判断された部分領域
では秩序パラメータを抽出し、統合パラメータを再計算
し、得られた値を自分の新たな境界条件とする( 認識処
理部11と領域抽出処理部10の間の周縁制御) 。 【0043】ステップS3:各部分領域で「領域として
のまとまりの良さ」をその秩序性として評価する( これ
を部分領域の秩序度と呼び、秩序パラメータとは区別す
る)。低い秩序度を示す領域についてはその周辺の部分
領域の秩序度を下げずに自らの秩序度を上げるように統
合パラメータを制御して( 境界条件として与えて) 、領
域抽出処理部10に対し、再び部分領域の統合( 局所統
合) を促す( 部分領域の秩序度を高める) 。 【0044】ステップS4:以上の領域抽出処理部10
と認識処理部11との間の処理サイクルを全体の秩序度
が上がらなくなるまで繰り返す。 次に、文字領域抽出部5におけるレイアウト解析処理に
ついて、図3〜図5に示すフローチャートを参照して詳
細に説明する。 【0045】まず、領域抽出処理部10の領域抽出処理
について詳細に説明する。 ステップS10:局所統合部10aにおける文字成分の
統合( 部分領域の生成) 処理(局所統合処理) 各文字成分には水平方向の統合パラメータhmpと垂直
方向の統合パラメータvmpが付与されており、この値
に基づいて水平方向と垂直方向に他の文字成分を統合し
て部分領域を生成する。 【0046】これらの統合パラメータの初期値は、例え
ば、あらかじめ「水平方向と垂直方向の文字成分間距離
の最頻値」(文献「信学技報、PRU92−32、 1
992」参照)に基づいて、 hmp=hs×θ vmp=vs×θ… (1) と設定してもよいし、予め最小値として定めた値を付与
してもよい。 【0047】なお、 hs(vs):水平( 垂直) 方向文字成分間距離の最頻
値 θ:(0、1)内の定数 とする。 【0048】局所統合処理では以下の条件を満たすこと
を制約として課す。すなわち、 ・統合によって生じた新たな領域がフィールドセパレー
タをまたがないこと。 ・統合されるべき二つの部分領域では文字サイズがほぼ
等しいこと。 【0049】・統合されるべき二つの部分領域では文字
列方向が等しいこと。 ・統合されるべき二つの部分領域では字間および行間が
ほぼ等しいこと。 局所統合部10aにおける統合処理は、上記制限のも
と、新たな統合が生じなくなるまで実施される。 【0050】ステップS11:秩序形成部10bにおけ
る部分領域の秩序の形成 局所統合部10aでの局所統合が安定した時点で以下の
処理を適用して各部分領域で秩序を形成する。 【0051】まず、文字列方向の検出および文字列の抽
出を行う。すなわち、局所統合部10aで生成された各
部分領域について、水平方向と垂直方向に文字列を抽出
してみて、両方向で以下に定義する文字列らしさを表す
尺度Strを計算する。 【0052】 Str=α×1/Co +β×1/LRC+γ×(Spo+so+Sdo) … (2) ここで、 Co :文字並びの度合い( 文献「信学技報、PRU92
−32、1992」参照) 、 Spo:文字列の先頭位置の平均偏差 Sso:文字列幅に関する平均偏差 Sdo:文字列間距離に関する標準偏差、 α、β、γ:定数 LRC:文字列方向の複雑度(文献「PRU92−3
2」参照) とする。 【0053】水平方向の文字らしさの尺度と垂直方向の
文字列らしさの尺度を比較してその値が小さい方の文字
列方向と文字列抽出結果を採用する。次に、文字サイズ
・字間・行間値の推定を行う。すなわち、抽出された文
字列から文字列の高さ( 横書き文字列なら縦幅、縦書き
文字列なら横幅) の平均値をその部分領域の平均的な文
字サイズとし、文字列間距離を行間と見なしてそれぞれ
抽出する。さらには得られた文字サイズを用いて各文字
行内で文字サイズに満たない文字成分同士を統合して新
たな文字成分を抽出し、さらに平均的な文字成分間距離
を計算してその部分領域における平均的な字間と見な
す。 【0054】ステップS12:周縁制御による局所統合
の規定 各部分領域で秩序形成部10bにおける秩序形成処理で
得られたパラメータを局所統合に反映させるため、局所
統合部10aでは、新たに得られた字間と行間値に基づ
いて水平方向と垂直方向の統合パラメータを以下の変更
ルールに基づいて再設定して、局所統合を繰り返す。 【0055】変更ルール1 :字間( 行間) 値が検出でき
た場合には、字間( 行間) +thdを新たな統合パラメ
ータとして採用する。ここで、thd を予め定めたしき
い値とする。 【0056】変更ルール2 :字間( 行間) が検出されな
かった場合には、既に設定されている統合パラメータを
予め設定した増し分σだけ増加させて新しい統合パラメ
ータとする。 【0057】ステップS13:以上、ステップS10〜
ステップS12の局所統合処理、秩序形成処理、周縁制
御の処理サイクルを新たな部分領域の統合が生じなくな
るまで繰り返し、その結果得られた部分領域に対して、
認識処理部11において認識処理を行う。 【0058】次に、認識処理部11の認識処理について
詳細に説明する。ここでは、前述の領域抽出処理部10
のレイアウト解析による領域抽出処理により得られた部
分領域とそれを構成する文字列に対して以下の手順で認
識、評価、選択、変更を行う。 【0059】ステップS20:文字認識 まず、文字認識部11aにおいて、領域抽出部10で抽
出された各部分領域の各文字列に対して、文献「信学技
報PRU93−47、(1993−09)」に記載され
た手法に基づいて文字切り出し/認識処理を実施する。
この処理では分離文字が統合され、また接触文字が切断
されるために正しい文字サイズが得られる。 【0060】ステップS21:認識結果の評価 続いて、認識結果評価部11bにおいて、各部分領域で
文字認識結果( 類似度) の平均値rcgave を計算す
る。rcgave が予め設定されているしきい値thrcg
より低い部分領域は低信頼度の部分領域、高い場合には
高信頼度の部分領域と判定する。 【0061】ステップS22:認識結果に基づく部分領
域の変更/棄却処理 さらに、領域変更/棄却部11cにおいて、信頼度に基
づいて部分領域に対して次の変更/棄却処理を適用す
る。 【0062】ステップS22a:低信頼度の部分領域に
対する処理( 文字サイズを変更させて新たな部分領域を
発生させる) ・部分領域内で文字サイズに関する出現頻度のヒストグ
ラムを計算する。 【0063】・このヒストグラムに複数のピークが存在
する場合には、それに基づいて文字サイズ情報を変更し
て、領域抽出処理部10で前述の領域抽出処理をやり直
す。 ・ヒストグラムに現状以外のピークが存在しない場合に
は、着目文字列を棄却する。 【0064】ステップS22b:一方、高信頼度の部分
領域に対しては、秩序パラメータを計算し、統合パラメ
ータを変更する。まず、各部分領域に対して以下に定義
する式に基づいて秩序度を計算し、「文字成分が密集し
ている安定したもの」と「少ない文字成分により構成さ
れている不安定なもの」に分類する。秩序度は次式
(3)により決定される。 【0065】 【数1】 【0066】ここで、 min(A、B):AとBのうち小さい方を選ぶ関数 γ:予め設定した値 とする。 【0067】秩序度が予め定めたしきい値thorder
下の部分領域を低秩序度の部分領域、thorder をこえ
る部分領域を高秩序度の部分領域と見なし、高秩序度の
部分領域と、低秩序度の部分領域のそれぞれについて以
下の処理を行う。 【0068】ステップS22b−1:高秩序度の部分領
域の統合範囲の設定 高秩序度と判定された部分領域では隣接する( 最近の)
高秩序度部分領域との距離に基づき次式(4)で定義さ
れる自分の統合範囲の限界が設定される( 統合範囲の抑
制) 。 【0069】 【数2】 【0070】ここで、 λ= mindd/d1 mindd:最近の部分領域との距離 d1 :予め定めた値 μ:予め設定した定数 とする。 【0071】統合範囲が設定されている部分領域では統
合範囲以上に離れている部分領域とは統合しないことと
する。 ステップS22b−2:低秩序度の部分領域の統合パラ
メータの変更 低秩序度の部分領域に対して、他の部分領域と統合し安
くする( 自分の秩序度を上げる) ことを目的として水平
方向と垂直方向の統合パラメータ(hmp、vmp)を
次式により変更する。 【0072】 統合パラメータ = 統合パラメータ×δ … (5) ここで 、δは1 より大きい値をとり徐々に増大してい
く関数であるとする。文字間隔が不規則でスパースな部
分領域で統合が促進されるようにする。 【0073】ステップS22b−1、ステップS22b
−2での処理で変更された秩序パラメータおよび統合パ
ラメータを下位の領域抽出処理部10に境界条件として
渡し、下位レベルの処理を規定する( 領域抽出処理部1
0と認識処理部11間の周縁制御) 。 【0074】各領域に秩序度が付与されたあとの領域抽
出処理部10における局所統合は次のように規定され
る。 ・統合により新たに生じる部分領域は他の部分領域と重
ならない ・各部分領域で文字列らしさの尺度が統合前と比べて低
下しない ・各部分領域で秩序度が統合前と比べて低下しない ・統合が衝突する場合にはそれらの中で最良のものを選
択する このような規定のもと、あらたに設定された統合パラメ
ータに基づく統合範囲内に存在し、かつ、文字列方向が
同じで、文字サイズが類似した他の部分領域を統合して
いく。 【0075】ステップS23:以上ステップS10〜ス
テップS22bの領域抽出処理部10と認識処理部11
との間の処理サイクルを全体の秩序度、すなわち、
(3)式から計算される秩序度が上がらなくなるまで繰
り返した結果得られた文字領域の集合を{Text}と
表す。 【0076】次に、文字領域抽出部5のレイアウト解析
処理の第2の実施形態について説明する。この実施形態
は、自律分散的な処理形態であることを特徴とする。す
なわち、領域抽出処理における各部分領域に対して3つ
のプロセスを与える。プロセスの内訳は以下のとおりで
ある。 【0077】・統合プロセス( 自分で持つ統合範囲内に
近接する他の部分領域を統合する) ・幾何的秩序形成プロセス( 自分の領域の幾何的な秩
序性( 文字列方向・文字列 ・文字サイズ・字間・行
間) を抽出する) ・意味的秩序形成プロセス( 自分の領域内の文字列を認
識する) これらのプロセスは、図6に示すように階層構造を有し
た組み( ユニット) となっている。この場合、計算空間
内で部分領域の数だけユニットが存在する。 【0078】ユニット内では統合プロセスと幾何的秩序
形成プロセス間、および、幾何的秩序形成プロセスと意
味的秩序形成プロセス間は同期していない。各上位プロ
セスはその下位プロセスで情報が抽出され次第動作する
ようになっている。 【0079】各プロセスの動作は次のとおりである。 ・統合プロセス 他の統合プロセスを統合する( 統合に関する判断は前述
同様) 。2つの統合プロセス間で統合が生じたら優勢な
情報(より多くの情報)を有している統合プロセスの方
に融合され一つとなる( 統合したプロセスが有する情報
を吸収してユニットごと殺す) 。さらには、自分の統合
範囲および統合相手の適正を判断する。 【0080】・幾何的秩序形成プロセス 自分の領域の幾何的な秩序性( 文字列方向・文字列・文
字サイズ・字間・行間) を抽出して、統合プロセスの運
動を規定する( 規定の仕方は前述同様) 。 【0081】・意味的秩序形成プロセス 自分の領域内の文字を認識して、不要な情報を棄却した
り、変更する。さらに、下位の幾何的秩序形成プロセス
を規定する( 規定の仕方は前述同様) 。 【0082】このようなユニット群はユニット全体の秩
序性が安定する方向に動く。これは例えば、共有メモリ
を別途設けておき、ここに各ユニットの処理結果である
部分領域およびその秩序パラメータが書き込まれるよう
にする。この共有メモリ上では情報の書き込み、書き換
え、消去が各ユニットにより行なわれる。情報が書き込
まれたら共有メモリ上で部分領域の分布に対する秩序度
が共有メモリ自身によって計算される( 内容は前述同
様) 。 【0083】各ユニットは共有メモリを観察し、秩序度
の分布に応じて( 秩序度が上昇するように) ユニットの
動作( 特に統合ユニットにおける統合処理すなわち自分
はどの相手と統合するか) を決める。 【0084】この自律的な処理が安定したところでレイ
アウト解析処理を終了する。以上の処理で得られた文字
領域の集合を{Text}と表す。文字領域抽出部5の
第3の実施形態について説明する。 【0085】前述の文字領域抽出部5のレイアウト解析
処理の領域抽出処理における文字列の抽出処理は以下の
処理により実現されていてもよい。すなわち、この処理
では各部分領域で、文字成分から、文字の大きさ、並
び、文字列方向が同じ物をグループ化して文字列として
抽出するものである。 【0086】まず、文字候補矩形に関する情報の抽出を
行う。文字成分に対してそれを包含する最小の矩形を定
義する。図7に示すように、重なりあっている矩形に対
しては、それらを包含する最小の外接矩形Gを定義し、
これを文字矩形と呼ぶ。この文字矩形に対しては縦横比
が求められる。各矩形内部における画像の性質に対して
ストロークの方向成分の分布、ストロークの太さ、複雑
度が求められる。以後それらを統合した情報を矩形情報
と呼ぶ。 【0087】次に、この矩形情報から隣接関係に関する
情報の抽出を行う。すなわち、図8に示すように、各外
接矩形について隣接している外接矩形同士の間に隣接関
係を定義する。その手法としては、例えば、隣接関係に
よって結ばれる矩形間の間隔や複数の隣接関係の整列の
程度を求める。整列の程度としては、例えば、図9に示
すように、矩形の重心を結ぶベクトルや水平、垂直方向
の重なりを用いる。これらの評価値を統合し、矩形同士
のつながりの強さ( 以下接続強度とよぶ) を求める。 【0088】評価値の統合の方法は例えば単に隣の矩形
に対する評価値について、予め定義された重みで各評価
値の線形和を取り、それを接続強度としてもよいし、一
旦隣り合うもの同士の接続強度を求めた後、前後数個の
中で着目矩形に近い程重視するように重み付けし、畳み
込んでも良い。この様に定義された接続強度は各々の外
接矩形が同一文字列に属す確信度を示す。また、これを
部分矩形列で統合したものが部分矩形列の確信度を示
す。 【0089】この矩形列は、図10に示すように、ノー
ドに矩形情報を有し、エッジが或る接続強度で重み付け
されたグラフで表現でき、以後これを隣接関係グラフと
呼ぶ。 【0090】次に、部分隣接関係グラフを抽出する。す
なわち、文字矩形に関する情報、隣接関係に関する情報
の双方を用いて、文字列に相当する矩形の並び( 部分グ
ラフ) を抽出する。図11を参照して具体的に説明する
と、まず、隣接関係グラフに対して部分領域中から統計
的に求められた一定値( 接続強度) より強い隣接関係の
みを選択的に抽出することにより部分隣接関係グラフの
初期状態を得る(図11(a)参照)。そして、部分隣
接関係グラフの初期状態をもちいて統計的に求められた
文字矩形に関する情報、隣接関係に関する情報を用い
て、部分隣接関係グラフの理想的状態を得る(図11
(b))。また、そのグラフの統計量から予想される仮
想文字矩形を発生させ、初期状態から次の理想的状態を
得る(図11(c))。さらに、理想的隣接関係グラフ
の状態と現実の部分領域とのギャップを文字矩形、隣接
関係の各々に関する尺度で計算する。その際に矩形の統
合、分離が発生する。このギャップが一定値を越えた
時、理想的な部分隣接関係グラフに、それ以後新たな仮
想文字矩形は生成されない。以上の処理を定常状態にな
るまで繰り返す。 【0091】さて、これまでに求められた部分隣接グラ
フ中で同一の矩形について、2種類以上の解釈が存在す
る場合、それを以後の処理に文字列候補として保存して
おく必要がある。複数の解釈が存在する場合、一つの解
釈にのみ基づく仮想文字矩形を生成し、その他の解釈を
排除する事によって、対象となる隣接関係グラフの全て
の解釈の文字列候補を生成することが可能である。 【0092】仮想的な文字矩形として、例えば次のよう
な場合がある。すなわち、図12に示すように、水平方
向と垂直方向の部分隣接関係グラフに同時に含まれてい
る場合、図13に示すように、行の構成上、2行の部分
隣接関係グラフと1行の隣接関係グラフのいずれかに含
まれている場合等である。 【0093】また、このように生成された各仮説におけ
る評価値と、分岐点付近における接続強度によって、仮
説を少数に限定することもできる。ところで、入力され
てくる文書の方向が未知である場合には、その方向を把
握する必要がある。この場合、前述の認識処理部11に
おいて、上下左右の4方向の可能性を考慮して文字認識
処理を行なわなければならない。このときすべての文字
列に対して4方向で文字認識を行なうことが考えられる
が、処理量は文字方向が既知である場合の4倍となり効
率的でない。そこで、文書全体において、または、部分
領域ごとにある一つの文字列を選び、それに対してその
文字方向を特定することによって、その情報に基づいて
残りの文字列を効率的に読み取ることが可能となる。 【0094】この場合、一つの文書あるいは部分領域中
では文字の向きは同一であると仮定し、文字領域中から
一行の文字列を抽出し、この文字列に対してのみ4方向
で文字認識を行ない、その中から最も認識率の良い方向
を選び、その方向で残りの文字列を読み取るようにして
もよい。 【0095】次に、文字方向決定処理の具体例について
説明する。 ステップS30:これまでに求められた文字列候補のう
ち、文字矩形数が最大のものを選ぶ。 【0096】ステップS31:ステップS30で選択さ
れた文字列候補を4方向で認識する。例えば文字列パタ
ーンから90度、180度回転させたパターンを生じさ
せ、これらを前述の文字認識手法によって認識させる。 【0097】ステップS32:ステップS31で得られ
た認識結果のうちで平均文字認識率が最も良い方向を選
択する。 ステップS33:ステップS32で得られた認識結果が
有効であるか否かについて判定する。この場合、例えば
平均文字認識率がしきい値TH1より大きい場合を「有
効」、それ以外を「無効」と判定する。 【0098】ステップS34:ステップS33の判定結
果が「無効」である場合には無効となった文字列以外の
文字列に対してステップS30からステップS33まで
を繰り返す。なお、「有効」である場合には処理を終了
する。 【0099】この処理結果をもとに、文書画像あるいは
部分領域の処理結果を得られた角度方向を解消する方向
に回転するようにしてもよい。これにより以後の認識処
理は必ず正しい方向で行なわれる。 【0100】以上、写真領域抽出部3、図形領域抽出部
4、文字領域抽出部5における処理が終了した結果、ど
の部分領域にも成りえなかった画像オブジェクトに対し
て「その他」という属性を付与する。これは後段の処理
において文字、写真、図形の何れかの属性をもつものと
し、この段階では「不明」とする。 【0101】また、この時点で、 ・文書画像の大部分が{Dots}で占められている
(文書画像が全体的にかすれている可能性があるとして
オペレータに再入力を促す) ・文書画像の大部分が{Paints}で占められてい
る (文書画像が全体的につぶれている可能性があるとし
てオペレータに再入力を促す) という結果が得られている場合には、文書画像の再入力
をオペレータに促してもよい。 【0102】以上の処理により、 ・写真領域の集合:{Phots} ・図形領域の集合:{Graphs} ・文字領域の集合:{Texts} が得られている。 【0103】この時点では、図14に示すように、同一
の画像オブジェクトが複数種類の領域に属している( 領
域間で重複がある) 可能性がある。一般に文書では異種
領域間で重なりが生じない( 排他的である) としている
ので、部分領域間が重複している場合にはそれらを解消
する必要がある。 【0104】また、図の記述に用いられている文字列
や、写真中に存在する文字なども文字成分として抽出さ
れている可能性がある。この場合、例えば、図中の文字
列は本文を構成する文字列と区別され(図形領域と文字
領域の排他的関係)、写真中の文字は写真扱いにするほ
うが好ましい(写真領域と文字領域の共存関係)。この
ような領域間の排他的関係、共存関係に関する情報は、
あらかじめ領域間重複解消部6に記憶され、管理されて
いる。これを用いて領域間重複解消部6では、各領域抽
出部3、4、5で抽出された領域の重なりを解消する処
理を行うようになっている。 【0105】そこで、次に、図1の領域間重複解消部6
において実行される領域の重なりを解消する処理と、図
形領域中の文字列を識別する処理について述べる。ま
ず、写真領域の集合{Phots}、図形領域の集合
{Graphs}、文字領域の集合{Texts}をそ
れぞれ部分集合とする全体集合{Area
cand}を生成する。 【0106】そして、以下の手順で各領域に確信度が付
与される。 ステップS40:写真領域に対する確信度B の付与 部分領域のサイズに基づいて、次式(6)に従って写真
領域に確信度Bp を付与する。 【0107】 【数3】 【0108】ステップS41:図形領域に対する確信度
g の付与 部分領域のサイズに基づいて、次式(7)に従って図形
領域に確信度Bp を付与する。 【0109】 【数4】 【0110】ステップS42:文字領域に対する確信度
t の付与 式(3)により計算される秩序度を確信度Bt として採
用する。 ステップS43:複数の属性を有する部分領域の確信度
の再計算 まず、{Areacand}の要素のうち、他の要素と領域
が重なるものを複数の属性を有する部分領域として抽出
する。そして、複数の属性を有する部分領域の確信度B
mix を次式(8)に基づいて再計算する。 【0111】 【数5】 【0112】次に、{Areacand}に対して、 ・領域は重ならない ・領域は文書画像の構成要素の全てを被覆する という幾何的条件に基づいて、同時に共存可能な領域候
補の組み合わせの集合{Areacomb}を求める。 【0113】同時に共存可能な領域候補の組み合わせ
は、例えば、文献「信学技報、PRU94−32、19
94」に記載されている連合グラフ法を用いて、以下の
手順により作成されてもよい。この方式を用いることに
より同時に成立できる領域候補の組をグラフを用いて表
現することができ、クリーク抽出というグラフ理論的手
法により排他的な領域候補の組み合わせの集合を正確に
抽出することが可能となる。 【0114】ステップS50:{Areacand}におけ
る各領域候補を連合グラフのノードとして割り当てる
(図15参照)。 ステップS51:{Areacand}における全ての2つ
の割り当てにおいてそれらが両立するか否かを判定す
る。2つの領域候補に重なりがない場合にはその2つの
領域は両立すると見なす。 【0115】ステップS52:両立する割り当て間にエ
ッジを設定することにより連合グラフを作成する(図1
6参照)。 ステップS53:連合グラフからすべての極大クリーク
を抽出する(図16参照)。極大クリーク抽出手順は、
例えば文献「信学論(D)、J68−D、3、pp22
1−228、(1985)」に記載されている手法を用
いることにより抽出される。図16では、ノード3個か
らなる共存関係の領域候補の組み合わせとしての極大ク
リークを抽出ししている。 【0116】ステップS54:極大クリークのうち文書
画像のすべての構成要素を被覆しているものを抽出す
る。得られた極大クリークの集合は同時に共存可能な領
域候補の組み合わせ集合{Areacomb}とする。 【0117】この手順の他に、各部分領域を仮説と見な
し、部分領域の組み合わせを仮説の組み合わせとしてA
TMS(Assumption based Trut
hMaintenance System )を用いて
仮説間の無矛盾性を管理することにより共存可能な領域
候補の組み合わせを得るようにしてもよい。 【0118】最終的な領域分割結果は、領域候補の組み
合わせ集合{Areacomb}の中から最良な組み合わせ
を抽出することで得られる。これは例えば、図16のグ
ラフ表現された組み合わせ集合に対して(9)式に示す
評価関数に基づいて、極大クリークの各エッジにコスト
Costedgeを付与し、各極大クリークごとに総コスト
を計算し、最もコストの低い極大クリーク( 領域候補の
組み合わせ) を抽出することによって達成される。 【0119】 【数6】 この評価関数によって極大クリークの各エッジにコスト
が割り振られたら、例えば、 【0120】 【数7】 【0121】といった評価関数を用いて各極大グラフで
総コストCostall を計算し、その値が最小となる極
大グラフを抽出し、それが表す部分領域の組み合わせを
領域分割結果と見なしてもよい。 【0122】ここで、 BF=1/(エッジの両端の部分領域の確信度の積) … (11) とする。 【0123】このとき、コスト値の昇順に複数個の排他
的な領域候補を出力することも可能である。このような
場合、正しい候補をオペレータが指定できるように複数
候補を画面に出力するようにしてもよい。 【0124】さらに、最適な組み合わせを抽出する方法
として、 ・各部分領域に属性に応じて確信度を付与し、部分領域
間の局所的な整合性を計算し、弛緩法などを用いて各部
分領域の確信度を反復的に更新していくことにより最終
的に信頼度の高い解を得る。 【0125】・画像全体に対して領域の整合性を表すエ
ネルギー関数を設定し、関数をシミュレーテッドアニー
リング法(統計的緩和法)などを用いてこのエネルギー
関数を最小にする組み合わせを探索する。 【0126】などの方法を用いて求めるようにしてもよ
い。領域間重複解消部6における上述した領域分割処理
の結果、領域候補間のあいまいさが解消される。この結
果、確定されなかった領域候補を無効とする。確定され
た領域では各領域は均質であるとして、その内部に含ま
れるすべての画像オブジェクトに対してその領域の属性
を新たに付与する。 【0127】さて、図形領域と確定された領域では、さ
らにグラフ、表、図などの種類が考えられる。表の場合
はその中の文字列が重要な情報となるのでグラフや図と
区別する必要がある。表の識別は例えば次の規則を適用
することにより実施される。 【0128】規則:図形領域の属性を持つ部分領域にお
いてその内部の線分のほとんどが水平線か垂直線のいず
れかであり、内部には高信頼度の文字列が含まれてお
り、それらが線分で囲まれているならば、その部分領域
を表領域と見なす。 【0129】この規則により、表として認識された部分
領域に対しては「表」を意味する属性を新たに付与す
る。また、表を除く図形領域中の部分領域に対しては、
文字領域の部分領域の抽出時に得られた情報を用いて、
当該部分領域に含まれる文字列情報( 認識結果であるコ
ード情報を含む) を無効とせず、それらに対して「図形
を説明する文字列」という属性を付与しておく。これら
の文字列は文書検索時に活用されるようにしておいても
よい。 【0130】さらに、最終的に得られた領域分割結果に
おいて、各領域は例えば図17に示すように公知の方法
により両域内の画像を含む最小の凸な多角形で囲み、そ
れをその領域の範囲としても良い。各領域ではそれを構
成する部分領域と画像オブジェクトに関する情報が、 画像→領域→部分領域の集合→オブジェクトの集合 というように階層的に管理されていてもよい。 【0131】以上、説明したように、上記実施形態によ
れば、画像入力部1で入力された文書画像に対しラベリ
ング処理を行って黒連結成分を抽出して、その外接矩形
のサイズから写真領域抽出部3、図形領域抽出部4、文
字領域抽出部5のいづれかに振り分け、写真領域抽出部
3では、べた塗り領域、ドット領域の抽出処理を行い、
図形領域抽出部4では、例えば、線分、円弧、円などの
図形要素を抽出して、得られた図形要素の集合に対して
距離を尺度にしてクラスタリングを行ない、近接するも
のまとめて図形領域を抽出する処理を行い、さらに文字
領域抽出部5では、統合パラメータに基づき初期セグメ
ンテーション部2で抽出された文字成分あるいは文字成
分を統合して得られた部分領域を統合する局所統合処理
を行い、この統合された部分領域に対し、文字列らしさ
の評価を行って文字列を抽出するとともに、その文字列
の幾何的な特徴量(秩序パラメータ)を求め、この秩序
パラメータをもとに統合パラメータを再設定しながら部
分領域の統合がなくなり安定するまで部分領域の統合を
行い、さらに、その統合された部分領域を構成する文字
列の文字認識を行い、その認識結果から信頼度の高い部
分領域について、秩序度を算出し、その秩序度が上がる
ように、統合パラメータを変更しながら部分領域を統合
して前記処理を繰り返して行うことにより文字領域を抽
出し、写真領域抽出部3、図形領域抽出部4、文字領域
抽出部5のそれぞれで抽出された領域間に空間的重なり
が見られる場合には、領域重複解消部6で各領域間の排
他関係と共存関係に基づき、例えば、グラフ理論的手法
により最適な組み合わせを抽出することにより、書式が
未知であり、文書の入力方向が未知である文書画像にお
いて、文字領域、写真領域、図形領域等の性質の異なる
複数の画像領域を高精度に分離・識別できる。 【0132】また、文字領域抽出部5では、文字成分、
部分領域といった小領域単位に幾何的秩序、意味的秩序
の解析を行うことにより、高精度な文字領域の識別が行
える。 【0133】さらに、文章、写真、絵、図形、グラフ、
表などの種々の成分から構成される様々な書式を持つ文
書においてそれぞれの成分を高精度に分離・識別するこ
とができ、図形、グラフ、表などではそれらに含まれる
文字成分を抽出することができるので、 ・文章成分のみ利用したい ・タイトルやパラグラフ単位に適切にブロック化された
文章成分を抽出したい ・図形成分のみ利用したい ・写真成分のみ利用したい ・図形内に記載されているキーワードを用いて図形を検
索したい といった様々なアプリケーションの高度な要求に答える
ことが可能となる。 【0134】 【発明の効果】以上説明したように本発明によれば、書
式が未知であり、文書の入力方向が未知である文書画像
において、文字領域、写真領域、図形領域等の性質の異
なる複数の画像領域を高精度に識別できる画像処理方法
および画像処理装置を提供できる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る画像処理装置の構成
を概略的に示したブロック図。
【図2】図1の文字領域抽出部の構成を概略的に示した
ブロック図。
【図3】文字領域抽出部の処理動作の一具体例を説明す
るためのフローチャート。
【図4】文字領域抽出部の処理動作の一具体例を説明す
るためのフローチャート。
【図5】文字領域抽出部の処理動作の一具体例を説明す
るためのフローチャート。
【図6】文字領域抽出部の第2の実施形態について説明
するための図で、自立分散的な処理形態の一具体例を示
した図。
【図7】文字領域抽出部の第3の実施形態について説明
するための図で、文字矩形の一具体例を示した図。
【図8】文字領域抽出部の第3の実施形態について説明
するための図で、文字矩形間の隣接関係を説明するため
の図。
【図9】文字領域抽出部の第3の実施形態について説明
するための図で、文字矩形間の接続強度を説明するため
の図。
【図10】文字領域抽出部の第3の実施形態について説
明するための図で、文字矩形の集合を隣接関係グラフで
表した一具体例を示した図。
【図11】文字領域抽出部の第3の実施形態について説
明するための図で、隣接関係グラフから接続強度の強い
部分隣接関係グラフを抽出して、理想的な部分隣接関係
グラフを求めながら文字矩形の統合、分離を行う手順に
ついて説明するための図。
【図12】文字領域抽出部の第3の実施形態について説
明するための図で、部分隣接関係グラフの複数の解釈の
一具体例について説明するための図。
【図13】文字領域抽出部の第3の実施形態について説
明するための図で、部分隣接関係グラフの複数の解釈の
他の具体例について説明するための図。
【図14】写真領域抽出部、図形領域抽出部、文字領域
抽出部における処理が終了した時点で、処理対象文書の
画像から抽出された領域の一具体例を示した図で、1つ
の画像オブジェクトが複数の領域に属する場合について
説明するための図。
【図15】図1の領域間重複解消部において、グラフ理
論的手法により排他的な領域候補の組み合わせの集合を
抽出する処理を説明するための図で、連合グラフを構成
するノードの一具体例を示した図。
【図16】連合グラフとそこから得られる極大クリーク
の一具体例を示した図。
【図17】図1の領域間重複解消部での領域分割の結
果、最終的に得られた領域の範囲の表現の一具体例を示
した図。
【符号の説明】
1…画像入力部、2…初期セグメンテーション、3…写
真領域抽出部、4…図形領域抽出部、5…文字領域抽出
部、6…領域間重複解消部。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 入力された文書画像から性質の異なる画
    像領域を識別する画像処理方法において、 前記文書画像から前記画像領域の性質に応じて部分領域
    の抽出を行い、この抽出された画像領域間の排他的関係
    と共存関係に基づいて、前記抽出された複数の画像領域
    間の重複領域が属する画像領域を識別することを特徴と
    する画像処理方法。
  2. 【請求項2】 入力された文書画像から抽出された文字
    成分に基づく統合条件に従って部分領域を抽出し、この
    部分領域から抽出された文字列から文字を切り出して文
    字認識し、この認識結果に基づく評価値が最良となるま
    で、前記統合条件を変更しながら前記抽出された部分領
    域を統合することにより文字領域を抽出することを特徴
    とする画像処理方法。
  3. 【請求項3】 入力された文書画像から抽出された文字
    成分に基づく統合条件に従って部分領域を抽出し、この
    部分領域から抽出された文字列の幾何的情報を抽出し
    て、この幾何的情報を基に前記部分領域の評価値を算出
    し、この評価値が最良となるまで、前記統合条件を変更
    しながら前記抽出された部分領域を統合することにより
    文字領域を抽出することを特徴とする画像処理方法。
  4. 【請求項4】 入力された文書画像から抽出された文字
    成分の隣接関係を抽出し、この抽出された文字成分の隣
    接関係に基づき前記文字成分をグループ化して部分領域
    を生成し、この生成された部分領域を構成する文字成分
    とその隣接関係に基づき文字領域を抽出することを特徴
    とする画像処理方法。
  5. 【請求項5】 入力された文書画像から性質の異なる画
    像領域を識別する画像処理装置において、 前記文書画像から前記画像領域の性質に応じて部分領域
    の抽出を行う部分領域抽出手段と、 この部分領域抽出手段で抽出された部分領域間の排他的
    関係と共存関係を管理する管理手段と、 この管理手段で管理された部分領域間の排他的関係と共
    存関係に基づいて、前記部分領域抽出手段で抽出された
    複数の部分領域間の重複領域が属する画像領域を識別す
    る識別手段と、 を具備することを特徴とする画像処理装置。
  6. 【請求項6】 入力された文書画像から抽出された文字
    成分に基づく統合条件に従って部分領域を抽出する抽出
    手段と、 この抽出手段で抽出された部分領域から文字列を抽出す
    る文字列抽出手段と、 この文字列抽出手段で抽出された文字列から文字を切り
    出して認識する文字認識手段とを具備し、 この文字認識手段での認識結果に基づく評価値が最良と
    なるまで、前記統合条件を変更しながら前記抽出手段で
    抽出された部分領域を統合することにより、文字領域を
    抽出する画像処理装置。
  7. 【請求項7】 入力された文書画像から抽出された文字
    成分に基づく統合条件に従って部分領域を抽出する抽出
    手段と、 この抽出手段で抽出された部分領域から文字列を抽出す
    る文字列抽出手段と、 この文字列抽出手段で抽出された文字列の幾何的情報を
    抽出する手段と、 前記抽出された文字列の幾何的情報を基に前記部分領域
    の評価値を算出する手段とを具備し、 前記評価値が最良となるまで、前記統合条件を変更しな
    がら前記抽出手段で抽出された他の部分領域を統合する
    ことにより、文字領域を抽出することを特徴とする画像
    処理装置。
  8. 【請求項8】 入力された文書画像から抽出された文字
    成分の隣接関係を抽出する第1の抽出手段と、 この第1の抽出手段で抽出された文字成分の隣接関係に
    基づき前記文字成分をグループ化して部分領域を生成す
    る生成手段と、 この生成手段で生成された部分領域を構成する文字成分
    とその隣接関係に基づき文字領域を抽出する第2の抽出
    手段と、 を具備したことを特徴とする画像処理装置。
JP32726195A 1995-12-15 1995-12-15 画像処理方法および画像処理装置 Expired - Fee Related JP3720892B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32726195A JP3720892B2 (ja) 1995-12-15 1995-12-15 画像処理方法および画像処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32726195A JP3720892B2 (ja) 1995-12-15 1995-12-15 画像処理方法および画像処理装置

Publications (2)

Publication Number Publication Date
JPH09167233A true JPH09167233A (ja) 1997-06-24
JP3720892B2 JP3720892B2 (ja) 2005-11-30

Family

ID=18197149

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32726195A Expired - Fee Related JP3720892B2 (ja) 1995-12-15 1995-12-15 画像処理方法および画像処理装置

Country Status (1)

Country Link
JP (1) JP3720892B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134712A (ja) * 1999-11-02 2001-05-18 Canon Inc 画像処理装置及び画像処理方法
US7620246B2 (en) 2002-07-30 2009-11-17 Fujifilm Corporation Method and apparatus for image processing
US7672022B1 (en) 2000-04-07 2010-03-02 Hewlett-Packard Development Company, L.P. Methods and apparatus for analyzing an image
JP2010224678A (ja) * 2009-03-19 2010-10-07 Fuji Xerox Co Ltd 画像処理装置、情報処理装置、画像読取装置およびプログラム
JP2013041315A (ja) * 2011-08-11 2013-02-28 Fujitsu Ltd 画像認識装置および画像認識方法
JP2013242609A (ja) * 2012-05-17 2013-12-05 Fujitsu Ltd プログラム、画像処理装置及び画像処理方法
JP2014035622A (ja) * 2012-08-08 2014-02-24 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2014160309A (ja) * 2013-02-19 2014-09-04 Fudemame Co Ltd はがき印刷装置およびプログラム
JP5858188B1 (ja) * 2015-06-15 2016-02-10 富士ゼロックス株式会社 画像処理装置、画像処理方法、画像処理システムおよびプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134712A (ja) * 1999-11-02 2001-05-18 Canon Inc 画像処理装置及び画像処理方法
US7672022B1 (en) 2000-04-07 2010-03-02 Hewlett-Packard Development Company, L.P. Methods and apparatus for analyzing an image
US7620246B2 (en) 2002-07-30 2009-11-17 Fujifilm Corporation Method and apparatus for image processing
JP2010224678A (ja) * 2009-03-19 2010-10-07 Fuji Xerox Co Ltd 画像処理装置、情報処理装置、画像読取装置およびプログラム
JP2013041315A (ja) * 2011-08-11 2013-02-28 Fujitsu Ltd 画像認識装置および画像認識方法
JP2013242609A (ja) * 2012-05-17 2013-12-05 Fujitsu Ltd プログラム、画像処理装置及び画像処理方法
JP2014035622A (ja) * 2012-08-08 2014-02-24 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2014160309A (ja) * 2013-02-19 2014-09-04 Fudemame Co Ltd はがき印刷装置およびプログラム
JP5858188B1 (ja) * 2015-06-15 2016-02-10 富士ゼロックス株式会社 画像処理装置、画像処理方法、画像処理システムおよびプログラム

Also Published As

Publication number Publication date
JP3720892B2 (ja) 2005-11-30

Similar Documents

Publication Publication Date Title
USRE47889E1 (en) System and method for segmenting text lines in documents
De Las Heras et al. Statistical segmentation and structural recognition for floor plan interpretation: Notation invariant structural element recognition
CN104751187B (zh) 抄表图像自动识别方法
Cordella et al. Symbol recognition in documents: a collection of techniques?
US8442319B2 (en) System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
CN110232713B (zh) 一种图像目标定位修正方法及相关设备
Lee et al. Parameter-free geometric document layout analysis
CN105930159A (zh) 一种基于图像的界面代码生成的方法及系统
Cohen et al. Robust text and drawing segmentation algorithm for historical documents
Lu et al. Automated analysis of images in documents for intelligent document search
CN105574524B (zh) 基于对白和分镜联合识别的漫画图像版面识别方法和系统
Lalitha et al. A survey on image segmentation through clustering algorithm
Zhou et al. Easy generation of personal Chinese handwritten fonts
Sahare et al. Review of text extraction algorithms for scene-text and document images
Roy et al. Text line extraction in graphical documents using background and foreground information
Oskouie et al. Automated recognition of building façades for creation of As-Is Mock-Up 3D models
Boussellaa et al. Unsupervised block covering analysis for text-line segmentation of Arabic ancient handwritten document images
JPH09167233A (ja) 画像処理方法および画像処理装置
Feild et al. Scene text recognition with bilateral regression
Alhéritière et al. A document straight line based segmentation for complex layout extraction
Úbeda et al. Pattern spotting in historical documents using convolutional models
Musci et al. An object-based image analysis approach based on independent segmentations
Xu et al. Graphic composite segmentation for PDF documents with complex layouts
Tsai et al. Efficiently extracting and classifying objects for analyzing color documents
Zambanini et al. Segmentation of ancient coins based on local entropy and gray value range

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050909

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080916

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090916

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090916

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100916

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100916

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110916

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120916

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120916

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130916

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees