JP3269918B2 - 文章領域の読み順設定方法 - Google Patents

文章領域の読み順設定方法

Info

Publication number
JP3269918B2
JP3269918B2 JP16408594A JP16408594A JP3269918B2 JP 3269918 B2 JP3269918 B2 JP 3269918B2 JP 16408594 A JP16408594 A JP 16408594A JP 16408594 A JP16408594 A JP 16408594A JP 3269918 B2 JP3269918 B2 JP 3269918B2
Authority
JP
Japan
Prior art keywords
area
node
region
text
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP16408594A
Other languages
English (en)
Other versions
JPH0830724A (ja
Inventor
高志 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP16408594A priority Critical patent/JP3269918B2/ja
Publication of JPH0830724A publication Critical patent/JPH0830724A/ja
Application granted granted Critical
Publication of JP3269918B2 publication Critical patent/JP3269918B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書処理に係り、特
に、文書上の文章(文字)領域の読み順を設定するため
の技術に関する。
【0002】
【従来の技術】本発明に関連する技術として、文書の領
域分割を行なった後に同一の段組にある文章領域をノー
ドとする木グラフを作成し、このグラフから論理的構造
を得る方法が知られている(特開平1−183784
号)。しかし、この方法は、複雑な段組の場合、あるい
は変則的な段組の場合に、同一段組の文章領域を1つの
ノードに対応させることが困難で、うまく機能しないこ
とがある。また、画像の傾きにも対処できない。さら
に、箇条書き領域にうまく対応できない等の解決すべき
点がある。
【0003】また、本出願人による特願平5−1103
97号の明細書に、文書の領域分割を行なった後、文章
領域と罫線領域をノードとする木グラフにより文章領域
の配置構造を表現し、この木グラフより文章領域の読み
順を求める方法が述べられている。この方法は、木グラ
フのノードの親子関係の決定の際に”勢力関係”という
概念を導入することによって、単純な上下関係によって
親子関係を判断する方法に比べて文章領域の配置関係を
正確に求めることができる。また、コラム(段)の存在
を前提としないので、様々なレイアウトの文書に適応可
能であり、さらにスキューにも対応できる。しかし、大
きな文章領域から分離して、それに付属する章番号や箇
条書き等の小さな文章領域が存在した場合に、木グラフ
より求められる読み順が本来の読み順と違ってしまうと
いう問題が残されている。
【0004】
【発明が解決しようとする課題】本発明は前記問題点に
鑑みてなされたもので、その一般的な目的は文書の文章
領域の読み順をより正確に求める方法を提供することに
あり、その格別に目的とするところは、大きな文章領域
に付属した箇条書きや章番号などの小領域がある場合に
も文章領域に本来の読み順を正しく割り付ける方法を提
供するにある。
【0005】
【課題を解決するための手段】上記目的を達成するため
の本発明の骨子とするところを述べれば、文書画像より
抽出された文章領域について、本体領域としての大きな
文章領域と、その文字行方向に接近した付属領域として
の小さい文章領域の識別を行ない、本体領域とその付属
領域とを関係付ける。また、付属領域として文章領域を
除外して文章領域の配置構造を求め、文章領域の配置構
造を木グラフとして表現する場合には、付属領域を木グ
ラフを構成するノードとは別のノードとする。そして、
配置構造より文章領域の読み順を求める際に、例えば、
木グラフの先行順探索によって読み順を求める際に、本
体領域の直前に、その付属領域を挿入した形にする。
【0006】
【作用】箇条書きや章番号等の部分は、その本体領域と
しての大きな文章領域より分離した小領域として抽出さ
れる。このような本体領域の付属領域としての小領域を
格別に取り扱わない場合には、前述の”勢力範囲”の概
念を導入して文章領域の配置構造の木グラフを構築した
としても、付属領域と本体領域との関係が正しく木グラ
フに反映されない結果、本来の読み順を割り付けること
ができない。
【0007】本発明によれば、そのような付属領域と本
体領域の関係を予め把握し、文章領域の配置構造あるい
はその木グラフを求める際に付属領域を対象外とするた
め、付属領域を持つ文章領域に関する配置構造または木
グラフの乱れを回避できる。そして、このような配置構
造またはその木グラフより読み順を求める際に、本体領
域としての文章領域の直前に付属領域としの文章領域を
挿入する結果、付属領域以外の文章領域の読み順を乱さ
ず、かつ、付属領域と本体領域の組についても、章番号
等の付属領域→その本体領域、という順にすることによ
り、本来の読み順に沿った正しい読み順を、付属領域と
本体領域を含めた文章領域に割り付けることが可能にな
る。
【0008】本発明の上記の構成及び作用、並びにその
他の構成及び作用について、以下の説明において、より
具体的に説明する。
【0009】
【実施例】以下、本発明の好適な一実施例について図面
を用い説明する。図1に本発明を実施するための処理シ
ステムの一例を示す。このシステムにおける全体的処理
の流れを図2に示す。
【0010】図1において、画像入力手段101は文書
を2値画像として入力するためのスキャナ等である。領
域抽出手段102は、入力画像から文章領域、図領域、
罫線領域等の領域を抽出する手段である。文章領域分別
手段103は、領域抽出手段102により抽出された文
章(文字)領域を、読み順設定の対象である本文領域
と、それ以外の領域(図題、表題、ヘッダ、フッタ等)
に分別する手段である。罫線情報生成手段104は、領
域抽出手段102により抽出された罫線領域や、白領域
の架空罫線、図領域の端部の架空罫線などを生成する手
段である。文章領域配置構造化手段105は、本文相当
領域(囲み枠内も含む)を木グラフとして構造化する手
段である。読み順抽出手段106は、木グラフから文章
領域の読み順を抽出する手段である。108は以上の各
手段を制御する制御部、107は入力画像や抽出した領
域、作成した構造の情報等の各種データを記憶するため
のデータ記憶部である。109はデータ通信路である。
【0011】なお、102乃至106の各手段は、それ
ぞれ個別のハードウエア手段または個別のソフトウエア
手段として実現されてもよいし、共通のハードウエア上
でソフトウエアにより実現されてもよい。
【0012】以下、当該処理システムの動作及び処理内
容について、図2に示された処理の流れに従って、図3
乃至図14を適宜参照しつつ説明する。なお、ステップ
204からステップ207のグラフ化処理の基本は、前
記特願平5−110397号明細書に述べられた方法に
よっており、その特有の効果は本実施例においても同様
に得られる。
【0013】<処理ステップ201> 画像入力手段101によって、処理すべき文書を2値画
像として入力する。この入力画像のデータはデータ記憶
部107に記憶される。
【0014】<処理ステップ202> 領域抽出手段102によって、入力画像の文章(文字)
領域、図領域等を抽出する。抽出された領域の情報はデ
ータ記憶部107に記憶される。この領域抽出は、様々
な方法によって行なうことができるが、その一例とし
て、本出願人の特願平3−329956号の明細書に述
べられているような、文書画像にぼかし処理を施すこと
によってブロックを抽出し、ブロックを文字列領域とそ
れ以外の領域に分類し、文字列領域を統合して文字領域
を抽出する手法等を利用できる。
【0015】<処理ステップ203> 文章領域分別手段103による処理ステップであり、抽
出された文章領域を図題(図面のタイトル)、表題(表
のタイトル)、ヘッダ、フッタの領域と、それ以外の領
域である本文領域とに分類する。この本文領域とは、読
み順の設定されるべき文章領域である(枠で囲まれた領
域も本文領域として扱うが、枠で囲まれていない本文領
域より読み順が後に来るものとする)。以下、この分類
の処理について詳細に説明する。
【0016】まず図題、表題を分類する。この処理にお
いて、処理ステップ202で抽出された領域の表現が外
接矩形のみであった場合には、各領域の図や絵等の実体
(イメージそのもの)と、その外接矩形との相違が大き
いことがある。このような場合には、図領域と他の文章
(文字)領域との重なり等により図の外接矩形を分解し
て、いくつかの外接矩形の集合によって図の実際に存在
する範囲と、その外接矩形による表現との相違を少なく
する。
【0017】図題(図面のタイトル)、表題(表のタイ
トル)は、図・表の近傍に存在する行数の少ない文章領
域である。そこで図と文章領域との距離を計算する。図
の輪郭形状が判明しているならば、その図と文章領域と
の距離を計算し、図が外接矩形で表現されているとき
は、その外接矩形と文章領域との距離を計算する。そし
て、この距離が小さく、かつ行数の少ない文章領域を図
・表題の候補とする。
【0018】次に、図・表題の候補で、当該文章領域に
とって図・表領域の反対側に存在する文章領域との位置
関係を調べる。これを図3によって説明する。図3にお
いて、301は図領域、302は図領域301の近傍に
ある図題候補、303は図題候補の文章領域である。こ
の例のように、図題候補302の反対側に文章領域30
3があり、両領域302,303の左右位置が揃ってい
る場合には、両領域302,303を連続した本文領域
と判断し、図題候補302を図題とは分類しない。左右
いずれかでも位置が揃っていないときには図題候補30
2を図題に分類する。ただし、左右の一方の位置が揃っ
ている場合にも図題としない、という方法も採用可能で
ある。
【0019】以上の図題、表題の分類処理に続いて、ヘ
ッダの分類を行なう。ここで、本文領域が縦書きである
か横書きであるかが判定している場合には、そのいずれ
であってもヘッダは原稿の上部に存在する。縦書き原稿
でも、ヘッダは横書きで原稿上部に存在するのが普通で
ある。また、行(文字列)方向が判明していても、文字
の方向が縦か横かが分かっていない場合については、行
方向が横であっても原稿は縦書きであることがある。原
稿を90゜回転して入力した時に、そうなる。このよう
な場合でも、画像の上の方が文章の先頭にくるものとす
ると、画像左側が原稿の上部にあたる。
【0020】このような考察に基づき、行方向が横の場
合には画像の上部及び左部についてヘッダの存在を調
べ、行方向が縦の場合には画像の上部及び右部について
ヘッダの存在を調べる。
【0021】より具体的に述べる。調べる部位に対し
て、まず罫線の存在を調べる。罫線が存在する場合、こ
の罫線の長さが画像の幅または高さに対して十分に大き
く、かつ、この罫線より外側に大きな文章領域(数行を
含む文章領域)が存在しないならば、この罫線を本文と
ヘッダ部とを分ける罫線であると判断する。そして、そ
の外側に小さな文章領域があれば、それをヘッダとして
分類する。
【0022】図4に示す例で説明すると、401は入力
画像、402は罫線、403〜405は文章領域であ
る。行方向が横であることのみ判明しているとすれば、
ヘッダは上部または左部に存在する筈であるから、この
位置で十分に長い罫線を探す。図4の例においては、罫
線402が存在するので、その上側に大きな文章領域が
存在するか調べる。文章領域403は数行を含むような
大きな領域ではないので、罫線402は本文とヘッダを
分ける罫線であるあると判断する。したがって、この罫
線402より上側にある小さな文章領域403をヘッダ
として分類することになる。
【0023】該当する罫線が存在しない場合、文章領域
の存在する範囲の最上部及び最左部から、ある距離だけ
内側にはいった位置に架空の罫線を生成し、同様の方法
でヘッダの分類を行なう。
【0024】図5に示す例で説明すると、501は入力
画像、502は文章領域の存在範囲、503〜506は
文章領域である。この例では、画像の上部と左部に架空
の罫線507,508を生成することになる。この例で
は、上部の架空罫線507の上側には大きな文章領域は
存在しないので、この架空罫線507は、本文とヘッダ
とを分ける罫線として有効である。そして、この架空罫
線507の上側に小さな文章領域503があるので、こ
れをヘッダとして分類する。架空罫線508の左側には
大きな文章領域は存在しないが、大きな文章領域504
と架空罫線508が重なっている。
【0025】ヘッダの抽出率を上げたい場合には、この
架空罫線508のような文章領域と重なった罫線も有効
な罫線として扱ってよい。しかし、架空罫線と重なった
文章領域がヘッダとして誤抽出されるのを防ぎたい場合
には、そのような罫線を無効とすればよい。なお、この
例では画像の傾き(スキュー)がないが、傾きがある場
合には、その傾き角度にあわせて罫線を傾けて生成す
る。
【0026】行方向が縦の場合も同様に、ヘッダと本文
を分ける罫線を探索し、罫線がないときの架空罫線を生
成して、ヘッダの分類判定を行なう。
【0027】以上のヘッダの分類と同様にしてフッタの
分類を行なう。文字方向が判明している場合には、原稿
の下部に相当する位置についてフッタを調べる。行方向
のみ判明している場合には、行方向が横であれば画像の
下部と右部について調べ、行方向が縦であれば画像の下
部と左部について調べる。
【0028】以上のようにして分類されたヘッダ、フッ
タ、図・表題を除く領域が本文領域となる。ただし、囲
み枠が存在する場合には、枠内の文章領域を、その枠毎
に分類し、枠外の本文領域とは区別しておく。
【0029】<ステップ210> 本文領域の中には、章番号等の小さな領域が付属してい
る大きな領域が存在していることがある。この大きな本
文領域を本体領域、それに付属する小さな本文領域を付
属領域と呼ぶことにする。本ステップでは、文章領域分
別手段103において、本体領域と、それに対する付属
領域(章番号、箇条書き等)を識別し、付属領域を木グ
ラフのノードとは別のノードとするとともに、付属領域
を対応の本体領域にリンクさせる。なお、この付属領域
は、ステップ204以下において文章領域の配置構造を
表わす木グラフを作成する際に無視される。
【0030】本ステップの処理フローを図11に示し説
明する。なお、ここでは文字行方向を水平方向としてい
るが、行方向が垂直方向の場合に座標を90度回転して
同様に扱えばよい。
【0031】まず、ステップ1601において、本文領
域の中より本体領域である可能性のある領域を本体領域
候補として選び出す。本体領域候補であるか否かの判定
は、例えば、領域の大きさ(幅、高さ)が本体領域とし
て適正であるか否か、あるいは、領域の大きさと領域内
の文字の大きさや行数等が本体領域として適正であるか
否かを調べることによって行なうことができる。
【0032】つぎに、ステップ1602において、本体
領域候補の左近傍に、付属領域の候補としての小さな本
文領域を探す。この付属領域候補の判断は、例えば、領
域の大きさが付属領域として適正であること、あるい
は、これに加えて領域内の文字の大きさや行数等が付属
領域として適正であることを調べることによって行なう
ことができる。
【0033】なお、このステップ1602において、本
体領域候補と付属領域候補との間に垂直罫線(行方向に
対して垂直方向の罫線)が存在するか調べ、それが存在
するときには、領域の大きさ等の条件で付属領域候補と
なった小領域を付属領域候補から除外する(対応の本体
領域候補も候補から除外する)。
【0034】次のステップ1603において、ステップ
1602で付属領域候補が見つかった本体領域候補につ
いて、その付属領域候補よりさらに左側の近傍に、別の
本文領域が存在するか調べる。その別の本文領域が見つ
かったときは、当該付属領域候補を付属領域候補から除
外する(本体領域候補も候補から除外する)。別の本文
領域が存在しないときは、当該付属領域候補を付属領域
であると判断し、また対応の本体領域候補を本体領域で
あると判断し、両者間に本体領域−付属領域の関係のリ
ンクを生成する。
【0035】以上に説明した処理に関して、図12及び
図13によって説明する。図12の(a)は本体領域−
付属領域の関係にある本文領域の例を示している。本文
領域1301〜1304の中で、大きな領域1302と
小領域1301とが本体領域−付属領域の関係であり、
同様に、大きな領域1304と小領域1303とが本体
領域−付属領域の関係にある。
【0036】さて、後に詳細に述べるように、ステップ
204以下のグラフ化処理において、本文領域の一つ一
つを木グラフのノードに割り当てるが、各ノードの親子
関係を求める際に”勢力範囲”という概念を導入し、基
本的には、上下に並んだ領域を親子として木グラフで表
現する。このような”勢力範囲”を使用することによ
り、単純な上下関係で親子関係を求める方法に比べ、本
文領域の配置関係を正確に求めることができ、また、コ
ラム(段)の存在を仮定していないので、様々なレイア
ウトの文書に適応可能となる。
【0037】しかし、図12の(a)に示した配置関係
の本文領域1301〜1304を、そのまま処理したの
では、図12(b)に示すようにグラフ化されてしま
う。図12(b)において、1401,1402,14
03,1404はそれぞれ本文領域1301,130
2,1303,1304に対応したノード、1405は
ノード1401,1402を結ぶリンク、1406はノ
ード1402,1404を結ぶリンクである。なお、図
12(b)はグラフの一部を表現したものであるので、
木グラフとはなっていない
【0038】このように領域間がリンクされてしまと、
木グラフの先行順探索によって求められる本文領域の読
み順は、本来の読み順[1301→1302→1303
→1304]とはならないという問題がある。
【0039】ステップ210(図2)は、このような不
都合を解消するために導入された処理ステップである。
すなわち、ステップ210によって、図12(a)に示
した本文領域1301,1303はそれぞれ本文領域1
302,1304の付属領域とされ、特別なノードとし
て木グラフから分離されるため、ステップ204以下の
処理によって、図12(c)のようにグラフ化されるこ
とになる。図12(c)において、1501は付属領域
1301のノード、1502はその本体領域1302の
ノードで、両ノード間はリンク1506で結ばれる。ま
た、1503と1504は付属領域1303と本体領域
1304のノードで、両ノード間はリンク1507で結
ばれる。リンク1506,1507は本体領域−付属領
域の関係を表わすためのリンクで、グラフを構成するリ
ンクではない。上下関係にある本体領域1302,13
04のノード1502,1504は、ノード1502を
親としてリンク1505で結ばれる。このリンク150
5は木グラフを構成するリンクである。
【0040】このようにグラフ化されることにより、ス
テップ208において本来の読み順[1301→130
2→1303→1304]を求めることができるが、こ
れについては後に詳述する。
【0041】また、図13に別の配置関係にある本文領
域の例を示す。ステップ1601において、本文領域
701は本体領域候補となり、ステップ1602におい
て本文領域1702が付属領域候補となったとしよう。
しかし、領域1702の左近傍に別の本文領域1703
が存在するため、ステップ1603において、領域17
01,1702は本体領域−付属領域の関係とは判断さ
れず、したがって、それぞれが通常の本文領域としてグ
ラフ化されることになる。
【0042】<処理ステップ204> 罫線情報生成手段104により架空罫線の生成を行なう
処理ステップである。ここでいう架空罫線とは、処理ス
テップ203におけるヘッダ、フッタの分類のための架
空罫線を除くもので、文章領域の配置構造を表わす木グ
ラフを構築するために図や白領域から新たに生成される
ものである。
【0043】まず、図、表等の領域について説明する。
なお、行方向を横として座標系をとったとして以下の説
明を行なう。ここでは、図及び表領域の左右の端に垂直
架空罫線を生成する。図の存在範囲を外接矩形で表現し
ている場合には、図題の分類時に外接矩形の分割を行な
っているので、この分解された図領域について架空罫線
の生成を行なう。
【0044】図6を例に説明すれば、601は表領域、
602は図領域(の外接矩形)、605は図領域602
と重なった文章領域、603と604は図領域602を
分解した領域である。この例では、領域601,60
3,604の左右端に架空罫線606〜611をそれぞ
れ生成することになる。
【0045】次に白領域から生成する架空罫線について
説明する。この罫線は文字列(行)方向のものであり、
ここでは行方向を横としているので水平罫線となる。こ
の罫線の生成(抽出)は、縦軸への射影をとる方法によ
って、あるいは、画像の行方向へのランレングス符号化
をして、ある閾値以上の長さを持つ白ランの連結成分を
抽出し、この白連結成分の中から水平罫線を十分に構成
し得るものを、その幅と高さによって選択し、選んだ白
連結成分の中心付近に水平架空罫線を生成する方法によ
って行なうことができる。
【0046】また、座標系の一番上部に、画像の幅(行
方向が縦の場合は座標系を90゜回転しているので画像
の高さ)に等しい長さを持つ水平架空罫線を生成する。
【0047】なお、囲み枠線の4辺の線分のうち、上部
の線分は水平罫線として扱い、左右の線分は垂直罫線と
して扱う。
【0048】<処理ステップ205> 文章領域配置構造化手段105により、囲み枠外の本文
領域の配置構造グラフを作成する処理ステップである。
配置構造は木グラフで表わされるので、あるノードが、
どのノードの子に相当するかを順次決定していくことに
よって木グラフを作成することになる。なお、先に述べ
たように、付属領域と判断された本文領域は、木グラフ
を構成するノードとしては扱わず(無視し)、木グラフ
とは分離した特別のノードとして扱う。
【0049】まず、ノードとして、囲み枠外の本文領
域、水平罫線(架空罫線を含む)を登録する。そして、
このノードを上部にあるものから順次処理する。ただ
し、ステップ210で付属領域と判定された本文領域
は、グラフ化の対象外とされる。
【0050】今、あるノードに着目しているとすると、
この着目ノードより処理順番が後になるノードは着目ノ
ードの子候補となる。ここで、子候補が子ノードに相当
するかどうかの判別処理を行ない、子ノードに相当する
場合は着目ノードとの間に親子のリンクを張る。ただ
し、この子に相当すると判別されたノードが既に他のノ
ードの子ノードとしてリンクされていた場合には、どち
らが親ノードとしてふさわしいか判別処理を行ない、ふ
さわしいと判断された方の親ノードと親子関係のリンク
を張り、どちらとも判別がつかない場合には木グラフの
ルートに直接つなぐようにする。また、着目ノードは、
それより前に処理したノードの子候補となっている筈
で、前のノードの処理が完了しているにも拘らず、どの
ノードの子としても未だリンクされていない場合には、
着目ノードを木グラフのルートの子ノードとする。
、囲み枠の上部の水平罫線は直接に木グラフのルート
の子ノードとする。
【0051】図7の例によって、より具体的に処理を説
明する。図7において、701は最上部に生成された架
空罫線、702〜705は文章領域、706〜710は
各ノードの勢力範囲(後述)、711と712はそれぞ
れ架空罫線701と文章領域702の子ノードの探索範
囲、713は図領域、714と715は架空垂直罫線、
716は文章領域704の一時的な勢力範囲、717は
文章領域である。なお、以下の説明において、領域を示
す符号を、それに対応するノードを示すためにも便宜用
いる。
【0052】まず、最上部のノード(701)が最初の
処理ノードとなる。このノードは親ノードが未定である
ので、木グラフのルートの子ノードとする。ここで、各
ノードは勢力範囲と探索範囲を持つ。勢力範囲は親から
継承するもので、探索範囲は勢力範囲と最初は等しい
が、順次更新されて狭まっていく。
【0053】さて、最初の処理ノード(701)は、親
がルートであるので、それ自体の幅に等しい勢力範囲7
06を持つとする。そして、この勢力範囲と等しい幅を
探索範囲として以下のノードの探索を行なう。
【0054】ノード(701)の探索範囲711内にノ
ード(702)が見つかるので、このノード(702)
はノード(701)の子ノード候補となる。そこで、ノ
ード(701)の探索範囲711のノード(702)の
範囲(711の黒部分)を探索済みとして、以下の探索
の範囲から除く。ノード(702)はノード(701)
の子であるので、ノード(701)と同じ幅の勢力範囲
707を継承する。
【0055】ノード(701)の残りの探索範囲で探索
すると、ノード(704)が見つかる。しかし、ノード
(704)はノード(702)との間でも親子関係がな
りたつので、ノード(701)との間で親子関係のリン
クは張らない。また、ノード(703)もノード(70
1)の探索範囲下にあるが、ノード(704)と同様に
ノード(702)の勢力範囲下にありノード(702)
と親子関係がなりたつので、ノード(701)とノード
(703)は親子ではない。ノード(705)は僅かな
がらノード(701)の勢力範囲下にあるが、探索範囲
は連続したある程度の幅のみ有効とするので、探索外と
なる。
【0056】次にノード(702)が処理ノードとな
る。まず、ノード704がノード(702)の子ノード
となる。ここで、勢力範囲は垂直罫線を越えないものと
する。したがって、ノード(704)の勢力範囲は垂直
罫線715を越えない716の範囲となる。次にノード
(705)がノード(704)の勢力範囲下にあり、探
索範囲712にも含まれるが、ノード(704)とノー
ド(705)は親子的位置関係にないので、ノード(7
05)はノード(702)の子ノードとなる。複数の子
ノードがある場合には、その勢力範囲を適当な位置で分
割する。ここでは勢力範囲を中点で分割するものとする
と、ノード(704)とノード(705)の勢力範囲
は、709の範囲と710の範囲に分割される。また、
次にノード(703)もノード(702)の探索範囲下
にあり、子ノードとなって勢力範囲を継承する。
【0057】なお、この例ではみられないが、親ノード
の勢力範囲を子ノードの領域が越える場合には、子ノー
ドの勢力範囲を継承した範囲から、その越えた分だけ拡
張する。また、囲み枠の上部の線分を水平罫線としてノ
ードにしているが、このノードの勢力範囲は親から継承
するのではなく、それ自体の幅に等しい範囲とする。次
にノード(704)が処理ノードとなる。ノード(70
4)の探索範囲709)内にノード(717)が存在す
る。したがって、ノード(717)はノード(704)
の子ノードとなり、探索範囲は全て満たされるので、次
にノード(705)の処理に移る。
【0058】ノード(705)の探索範囲710内にも
やはりノード(717)があるが、このノード(71
7)は既にノード(704)の子ノードとなっているの
で、ここで親ノードの選択を行なうことになる。ところ
が、ノード(704)とノード(705)は同じような
幅を持ち、ノード(717)は両方の勢力範囲に十分に
はいっているため、どちらが親であるが一意に定まらな
い。そこで、ノード(717)をノード(704)の子
から外し、あらためてルートの子ノードとする。なお、
子ノードが複数ある場合、木グラフでの左右の並びは、
例えばノード(703)、ノード(704)、ノード
(705)のように普通のノードに接続する場合は、そ
の位置通りにノード(703)を一番左側、ノード(7
05)を一番右側にする。ルートの子ノードの場合は、
新しく子ノードを接続する度にとりあえず一番右側へと
接続しておき、最終的にソートする。
【0059】続いてタイトル部位の処理について、図7
及び図8に示した例によって説明する。タイトル部位の
処理は、図7に関連して説明した処理の中で行なわれ
る。各ノードには、タイトル部位であるか否かを示すタ
イトルフラグを付ける。図7の例でいえば最初のノード
(701)のタイトルフラグは必ず立て(オンし)、タ
イトル部位であるとする。次にノード(702)がノー
ド(701)の子ノードとなるわけであるが、この時
に、そのノード(702)の左右に文章領域が存在する
か調べる。左右に文章領域が存在しなければ、ノード
(702)のタイトルフラグも立てる。ただし、後にノ
ード(701)の他の子ノードがリンクされた場合に
は、ノード(702)はノード(701)の唯一の子ノ
ードでなくなるので、ノード(702)のタイトルフラ
グを下ろす(オフする)。
【0060】ノードのタイトルフラグが立っている場合
には、左側の勢力範囲を架空垂直罫線で抑えられている
ときに、その架空罫線を1回だけ無視する形で、それを
越えて拡大する。図8の例で説明する。図8において、
801は最上部の架空水平罫線、802は文章領域、8
03は図領域、804と805は図領域803の両端に
生成された架空垂直罫線、806は架空水平罫線801
の勢力範囲、807は文章領域802の勢力範囲であ
る。この勢力範囲807は、架空垂直罫線805に遮ら
れず、次の架空垂直罫線804まで延ばされる。ノード
(702)の勢力範囲707は、もともと遮るような垂
直罫線が存在しないので関係はない。
【0061】さて、ノード(702)の子ノードの探索
に移ると、まずノード(704)が探索されることは前
述のとおりであるが、ノード(704)の左右には文章
領域703,705が存在する。したがって、これ以降
の文章領域はタイトル部位とはならないので、ノード
(702)のタイトルフラグを下ろす。親のノードのタ
イトルフラグが立っていない場合には、その子ノードが
タイトル部位であるか否かを調べるために、左右に文章
領域が存在するか探索する必要もなくなり、以下の処理
時間が短縮される。
【0062】以上の処理を ノードに相当する文章領域
(囲み枠外のもの)について、上から下まで全てについ
て行なう。
【0063】<処理ステップ206> 文章領域配置構造化手段105により、囲み枠内の文章
領域をグラフ化する処理ステップである。
【0064】基本的には先の囲み枠外の本文領域のグラ
フ化処理と同様に、処理ノードの勢力範囲下にあるノー
ドを、処理ノードの子ノードとしてリンクしていく。先
の囲み枠外本文領域のグラフ化処理でリンクが張られた
ノードは木グラフを構成している。この中には囲み枠線
の上部の水平線分もノードとして登録されている。した
がって、そのノード毎に、その囲み枠内の文章領域を対
象に木グラフを構成する。なお、先に述べたように、付
属領域と判断された本文領域は、木グラフを構成するノ
ードとしては扱わず(無視し)、木グラフとは分離した
特別のノードとして扱う。
【0065】図9の例で説明する。図9において、91
0〜916は文章領域、917と918は囲み枠であ
る。901はルート、902〜907は当該処理ステッ
プ206の前に登録されたノードである。902は最上
部架空罫線に相当するノード、903は文章領域910
に相当するノード、904は文章領域911に相当する
ノード、905は文章領域912に相当するノード、9
06は囲み枠918の上部水平罫線920に相当するノ
ード、907は囲み枠917の上部水平罫線919に相
当するノードである。
【0066】囲み枠の上部水平罫線919,920は、
先の処理ステップ205における最上部罫線(902)
に対応し、それと同様の処理を行なうことになる。ただ
し、水平罫線919,920のタイトルフラグは常にオ
フにしておく。したがって、囲み枠内では、タイトル部
位の処理は行なわれない。
【0067】図9の例では、ノード906(つまり水平
罫線920)の下には文章領域913があるので、文章
領域913を子ノードとしてノード906に接続する。
また、ノード907(つまり水平罫線919)の下に文
章領域914があるので、これを子ノードとしてノード
907に接続し、また文章領域914の下には文章領域
915,916があるので、これら二つの領域も文章領
域914に子として接続する。ここでも、先の処理ステ
ップ205での処理と同様に勢力範囲及び探索範囲を用
いて子ノードの探索、及び子ノードであるか否かの判別
を行なう。ただし、ルート901に直接接続されたノー
ド906,907の勢力範囲は、それ自体の幅に等し
い。
【0068】以上のようにして木グラフを作成したなら
ば、次にルートの子ノードのソートを行なう。ルートの
子ノードになっているのは、最上部の架空水平罫線、親
ノードが一意に定まらなかった領域、あるいは囲み枠の
上部罫線である。このようなノードのうち、囲み枠の上
部罫線は、他のノードよりも木グラフ上で右側に来るよ
うにソートする。また、囲み枠のノード同士、及び、囲
み枠の罫線同士については、より上に位置するもの、よ
り左側にあるものを、グラフ上でより左側にするように
順番を入れ替える。この際、各ルートの子ノードの勢力
範囲を使用することによって、どちらが上位にあるかを
判別することができる。
【0069】<処理ステップ207> 文章領域配置構造化手段105により、図・表題の分別
を再度行なう。ここでは、グラフの葉にあたるノード
(子を持たないノード)が罫線ではなく、文章領域であ
って、その行数が少なく(この行数の閾値は、先の処理
ステップ203における図・表題の分別に使用したもの
と同様の値でよい)、かつ、その親ノードの実体との間
に、ある程度大きな図が存在する場合には、当該文章領
域を図題または表題とし、これを本文配置の木グラフか
ら取り除く。
【0070】図10の例によって説明する。図10にお
いて、1001と1002はノード、1003と100
4はそれぞれノード1001,1002の実体である文
字領域である。1005は図領域である。この例のノー
ド1002は葉に相当するもので、その実体たる文章領
域1004の行数が少ない。また、その親ノードたるノ
ード1001との間に、比較的大きな図領域1005が
存在する。したがって、ノード1002は本文配置の木
グラフから取り除かれる。
【0071】<処理ステップ208> 読み順抽出手段106において、以上の処理で得られた
本文領域配置を示す木グラフ上で先行順探索を行ない、
罫線やルートを除いた文章領域の順番を、本文領域の読
み順として抽出する。
【0072】ただし、木グラフの探索中に、本体領域の
ノードに読み順が回ってきたならば、そのノードの前
に、当該本体領域と本体領域−付属領域の関係のリンク
が張られた付属領域のノードを挿入するという操作を行
なう。
【0073】図14(a)に示す例では、先行順探索は
ノード”2”→ノード”3”と進むが、ノード”3”は
本体領域のノードであるので、その前に、その付属領域
のノード”9”が挿入される。その結果、図14(b)
に示す本来の読み順が得られる。
【0074】
【発明の効果】請求項1または2の発明によれば、大き
な文章領域に付属した章番号等の小さな文章領域が存在
する文書においても、文章領域の読み順を正確に求める
ことができるようになる。特に請求項2の発明によれ
ば、各ノードの”勢力範囲”の導入によって複雑なレイ
アウトの文書においても付属領域以外の文章領域の配置
構造を正確にグラフ化することができる結果、複雑なレ
イアウトの文書中の文章領域に対して、付属領域と本体
領域の関係にある文章領域をも含め、正確な読み順を設
定することができる。請求項3の発明によれば、罫線を
考慮することにより、本体領域−付属領域関係の判断間
違いを減らし、そのような判断間違いによる読み順設定
の誤りを防止することができる。
【図面の簡単な説明】
【図1】本発明に係る処理システムの一例を示すブロッ
ク図である。
【図2】本発明の一実施例における処理全体の流れを示
すフローチャートである。
【図3】図・表題の分別の説明図である。
【図4】ヘッダの分別の説明図である。
【図5】ヘッダ分別のための架空罫線の生成の説明図で
ある。
【図6】木グラフ構築のための架空罫線の生成の説明図
である。
【図7】囲み枠外の本文領域の構造化の説明図である。
【図8】架空罫線と勢力範囲との関係の説明図である。
【図9】囲み枠外の本文領域の木グラフと囲み枠内の文
章領域のグラフ化の説明図である。
【図10】図・表題と本文との再分別の説明図である。
【図11】図2の処理フロー中の付属領域に関する処理
ステップの処理フローを示すフローチャートである。
【図12】(a)本体領域と付属領域の関係にある本文
領域の例を示す図である。 (b)本体領域と付属領域の関係を無視して上記(a)
の本文領域をグラフ化した場合に得られるグラフの説明
図である。 (c)本体領域と付属領域の関係を考慮して上記(a)
の本文領域をグラフ化した場合に得られるグラフの説明
図である。
【図13】本体領域−付属領域の関係の判定の説明のた
めの本文領域の配置例を示す図である。
【図14】(a)付属領域を持つ本文領域を含む場合の
木グラフの例を示す図である。 (b)上記(a)の木グラフの先行順探索によって得ら
れる読み順の順序でノードを並べて示す図である。
【符号の説明】
101 画像入力手段 102 領域抽出手段 103 文章領域分別手段 104 罫線情報生成手段 105 文章領域配置構造化手段 106 読み順抽出手段 107 データ記憶部 108 制御部 301〜303 文章領域 402 罫線 403〜405 文章領域 502 文章存在範囲 503〜506 文章領域 507,508 架空罫線 601 表領域 606,607 架空罫線 602,603,604 図領域 605 文章領域 608〜610 架空罫線 701 架空罫線 702〜705,717 文章領域 706〜710,716 勢力範囲 713 表領域 714,715 架空罫線 801 架空罫線 802 文章領域 803 表領域 804,805 架空罫線 806 勢力範囲 901 ルート 902〜907 ノード 910〜916 文章領域 917,918 囲み枠 919,920 囲み枠上部罫線 1001,1002 ノード 1003,1004 文章領域 1005 図領域 1301,1303 付属領域としての本文領域 1302,1304 本体領域としての本文領域 1501,1503 付属領域のノード 1502,1504 本体領域のノード 1505 親子関係のリンク 1506,1507 本体領域−付属領域の関係のリン

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 文書画像より抽出された文章領域の配置
    構造を求め、この配置構造より文章領域の読み順を求め
    る方法において、 本体領域としての大きな文章領域と、その文字行方向に
    接近した付属領域としての小さい文章領域の識別を行な
    い、本体領域とその付属領域とを関係付けるとともに、
    付属領域としての文章領域を除外して文章領域の配置構
    造を求め、 配置構造より文章領域の読み順を求める際に、本体領域
    としての文章領域の直前にその付属領域としての文章領
    域を挿入して読み順を決定することを特徴とする文章領
    域の読み順設定方法。
  2. 【請求項2】 文書画像より抽出された文章領域の配置
    構造を表わす木グラフを作成し、この木グラフの先行順
    探索によって文章領域の読み順を求める方法において、 本体領域としての大きな文章領域と、その文字行方向に
    接近した付属領域としての小さい文章領域の識別を行な
    い、本体領域とその付属領域とを関係付けるとともに、
    付属領域を木グラフを構成するノードとは別のノードと
    し、 付属領域としての文章領域を除く文章領域に関して、そ
    れぞれの文章領域を木グラフの1つのノードに割り当
    て、ノード毎に他のノードへの配置関係を表わす勢力範
    囲を求め、各ノードの親子関係の探索を勢力範囲に従っ
    て行ない、子ノードに親ノードの勢力範囲を承継させる
    ことによって勢力範囲の更新を行ない、親子ノードの探
    索を繰り返すことによって木グラフを作成し、 木グラフの先行順探索時に、本体領域としての文章領域
    のノードの直前にその付属領域としての文章領域のノー
    ドを挿入して読み順を決定することを特徴とする文章領
    域の読み順設定方法。
  3. 【請求項3】 請求項1または2記載の文章領域の読み
    順設定方法において、本体領域と付属領域の識別の際
    に、本体領域の候補である文章領域と、付属領域の候補
    である小さい文章領域との間に罫線が存在するときは、
    それら文章領域の間に本体領域と付属領域の関係がない
    と判断することを特徴とする文章領域の読み順設定方
    法。
JP16408594A 1994-07-15 1994-07-15 文章領域の読み順設定方法 Expired - Lifetime JP3269918B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP16408594A JP3269918B2 (ja) 1994-07-15 1994-07-15 文章領域の読み順設定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP16408594A JP3269918B2 (ja) 1994-07-15 1994-07-15 文章領域の読み順設定方法

Publications (2)

Publication Number Publication Date
JPH0830724A JPH0830724A (ja) 1996-02-02
JP3269918B2 true JP3269918B2 (ja) 2002-04-02

Family

ID=15786497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16408594A Expired - Lifetime JP3269918B2 (ja) 1994-07-15 1994-07-15 文章領域の読み順設定方法

Country Status (1)

Country Link
JP (1) JP3269918B2 (ja)

Also Published As

Publication number Publication date
JPH0830724A (ja) 1996-02-02

Similar Documents

Publication Publication Date Title
JP3302147B2 (ja) 文書画像処理方法
CN108614898B (zh) 文档解析方法与装置
JP2588491B2 (ja) 画像切り出し装置及びその方法
US6006240A (en) Cell identification in table analysis
JP3640972B2 (ja) ドキュメントの解読又は解釈を行う装置
JP4443443B2 (ja) 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法
JP2973944B2 (ja) 文書処理装置および文書処理方法
US7392473B2 (en) Method and apparatus for determining logical document structure
EP0854434A1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
JP4940973B2 (ja) 論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置
US7046847B2 (en) Document processing method, system and medium
Mitchell et al. Newspaper document analysis featuring connected line segmentation
JPH11184894A (ja) 論理要素抽出方法および記録媒体
JP4856235B2 (ja) 帳票認識方法及び帳票認識装置
JP4450888B2 (ja) 帳票認識方法
JP5950700B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN115995087B (zh) 基于融合视觉信息的文档目录智能生成方法及系统
Li et al. Comic image understanding based on polygon detection
JP3269918B2 (ja) 文章領域の読み順設定方法
Saitoh et al. Document image segmentation and layout analysis
JPH08320914A (ja) 表認識方法および装置
JP2003058556A (ja) 文書画像のタイトル抽出方法、抽出プログラム、及びタイトル抽出装置
JPH09319747A (ja) 文書画像の構造化方法
JPH1063744A (ja) 文書のレイアウト解析方法及びシステム
JP2000090194A (ja) 画像処理方法および画像処理装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080118

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090118

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100118

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120118

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130118

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140118

Year of fee payment: 12

EXPY Cancellation because of completion of term