JPH03218569A

JPH03218569A - インデックス抽出装置

Info

Publication number: JPH03218569A
Application number: JP2109932A
Authority: JP
Inventors: Kazuhiro Ishikawa; 和弘石川; Sadamasa Hirogaki; 広垣　節正; Yutaka Mazaki; 裕真崎; Shuichi Fujikura; 秀一藤倉
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1989-11-28
Filing date: 1990-04-25
Publication date: 1991-09-26

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）この発明はインデックス抽出装薗、特に学術論文誌等の
文書を蓄積するデータヘースにおいてテータ検索に必要
なインデックス情報を抽出するための装置に閉する。

（従来の技術）従来より、文′Ｈを蓄積するテータヘースにおいてデー
タ検索に必要なタイトル、発行日等のインデックス情報
を、人手によらす機械的に入力するための研荒か進めら
れでいる。機械的に入力するための技術としで、例えば
文献工：電子情報通信学会技術研究報告ｖｏ１．８７．
Ｎｏ．２０２．　１Ｅ８７−７５，ｐｐ．　４３〜４Ｂ
　（　１９８７年１０月）に提案ざれているものかある
。

この文献値の従来技術では、ます、テータヘースに蓄積
ざれるべき入力文書の種類を識別する。

この識別には、文書の文字、図表等の情報か記載ざれて
いる各情報領域の属性（位置、大きざ、コンテントタイ
プ及びインデックス項目）を記述した書式情報を用いる
。書式情報は文書の種類別に用意ざれ、各種類別に書式
情報の情報領域の属性（仁置、大きさ及びコンテントタ
イプ）と入力文書の情報領域の属性とを照合し、所定の
許容範囲内でこれら属牲が一致するとき当該書式情報の
種類を入力文書の種類と判定する。ここて、入力文書及
び書式情報の情報領域の位曹は入力文書画像を格納する
メモリ上の一定の位置を原点として表現ざれるものであ
る。

次に、識別された文書の種類の書式情報を用いて各イン
デックス項目に対応する入力文書の情報領域を識別する
．この識別では、書式情報及び入力文書に関してインデ
ックス項目の識別ための情報領域の属性を照合し、書式
情報及び入力文書の情報領域の属性か所定の許容範囲内
で一致するとき書式情報の情報領域のインデックス項目
を入力文書の情報領域に対応付ける．そしてインデックス項目に対応する入力文書情報領域内
の情報を当該インデックス項目のインデックス情報とし
て蓄積する。

（発明が解決しようとする課題）しかしなから上述の従来技術では、書式情報及び入力文
書の情報領域の属牲か所定の許容虻囲内て一敗するとき
書式情報の情報領域か有するインデックス項目を入力文
書の情報領域に対応付ける。

従って書式情報の１個の情報領域に対し入力文書の１個
の情報領域か対応するように正確に入力文書の領域分割
を行なう必要がある。

また同し種類の入力文書においで印刷すれや画像読取り
時のセッティングすれ等によって情報領域の位置に誤差
が生するのを考慮しで属牲一敗の許容範囲（特に情報領
域の位置、大きざに間する許容虻囲）を大きくすれば、
入力文書の１個の情報争域に対し１個のインデックス項
目か対応付けられるべきてあるのに複数個のインデック
ス項目か対応付けられてしまうことがある．これを避け
るため属性一敗の許容虻囲を小きくすると印刷すれ等に
よる誤差の発生のために入力文書の情報領域に対応付け
るべきインデックス項目を見つけられないことかあり、
従っで属牲一敗の許容範囲の最適化は難しく、特に異な
るインデックス項目の情報曽域か近梯し合う、文書構造
か複雑な論文誌等にあいで難しい。

ざらに上述した従来技術では、入力文書画像を格納する
メモリ上の一定の位１ｉを常に原点として情報領域の位
置を表すので情報領域の位蘭は印刷すれ、読取時のセッ
ティングすれ等に起因する誤差を含み、この誤差が属性
の一致、不一致の判定精度を悪くする。

この発明の目的は上述した従来の問題点を解決するため
、入力文書の文字情報領域の統合処理を行なうようにし
たインデックス抽出装Ｍを提供することにある。

（課題を解決するための手段）この目的の達成を図るため、この発明の第一のインデッ
クス抽出装置は、入力文書の文字情報領域を抽出する文
字領域抽出手段と、文字情報領域と書式情報に記述され
たモデルのインデックス領域とのマッチングを行なって
、文字情報領域かインデックス領域と重なり合う場合に
当該文字情報領域に対し当該インデックス領域のインデ
ックス項目を付与するマッチング手段と、インデックス
項目を参照し同しインテツウス項目の情報を含むとみな
される文字情報領域を統合する統合手段とを備えて成る
ことを特徴とする。

ざらにこの発明の第二のインデックス抽出装置は、入力
文書の文字情報領域を抽出する文字領域抽出手段と、文
字情報領域と書式情報に記述されたモデルのインデック
ス領域とのマッチングを行なって、文字情報領域かイン
デックス領域と重なり合う場合に当該文字情報領域に対
し当該インデックス領域に含まれることを表す構造情報
を付与するマッチング手段と、構造情報を参照し同しイ
ンデックス領域に含まれるとみなされる文字情報領域を
統合する統合手段とを備えて成ることを特徴とする。

（作用）このような構成の第一のインデックス抽出装置によれば
、入力文書画像から抽出された入力文書の文字情報領域
と書式情報に記述されたモデルの文字情報領域（以下、
インデックス領域）とのマ・ンチングを行ない、入力文
書の文字情報領域かモデルのインデックス領域と重なり
合う場合に当該文字情報領域に対し当該インデックス領
域のインデックス項目を付与する。

そしてインデックス項目ヲ参照し入力文書の文字情報領
域のなかから同しインデックス項目の情報を含むとみな
ざれるものを統合して統合領域を得、ざらに統合領域及
び又は入力文書の文字情報領域のなかから同じインデッ
クス項目の情報を含むとみなざれるものを統合して統合
領域を得る。

このような統合を、同じインデックス項目の情報を含む
とみなされる文字情報禦域及び又は統合領域がなくなる
まで繰り返す。尚、統合領域も文字情報領域である。

このように同しインデックス項目の情報を含むとみなさ
れるもののみを統合してゆくので、入力文書の文字情報
領域に対して複数のインデックス項目か付与されたとし
ても、本来対応付けるべきインテツウス項目と入力文書
の文字情報領域とを精度良く対応付けることかできる。

複数のインデックス項目か付与された場合でもインデッ
クス項目と文字情報領域とを精度良く対応付けることか
できるので、入力文富の文字情報琴域及びモデルのイン
デックス領域の重なりの判定に用いるこれら領域の属性
に（特に位置）間し、文字情報領域の属性の検出精度を
緩和でき、ざらにインデックス領域の属性の設定精度を
緩和できる。

また第二のインデックス抽出装置によれば、入力文書の
文字情報領域とモデルのインデックス領域とのマッチン
グを行ない、入力文書の文字情報領域かインデックス領
域と重なり合う場合に当該文字情報領域に対し当該イン
デックス領域に含まれることを表す構造情報を付与する
。

そして構造情報を参照し、人力文書の文字情報領域のな
かから同じインデックス領域に含まれるとみなされるも
のを統合して統合領域を得、ざらに統合領域及び又は入
力文書の文字情報領域のなかから同しインデックス領域
に含まれるとみなされるものを統合して統合領域を得る
。このような統合を、同しインデックス領域に含まれる
とみなされる文字情報領域及び又は統合領域かなくなる
まで繰り返す。

このように同しインデックス領域に含まれるとみなされ
るもののみを統合してゆくので、入力文書の文字情報領
域に対して複数の構造情報か付与されたとしても、入力
文書の文字情報領域を本来帰属すべきインデックス領域
に精度良く対応付けることができる．また文字情報領域
に本来帰属すべきインデックス領域のインデックス項目
を付与することにより、文字情報領域とインデックス項
目とを精度良く対応付けることができる。

インデックス領域と文字情報領域とを精度良く対応付け
ることかできるので、入力文書の文字情報領域及びモデ
ルのインデックス領域の重なりの判定に用いるこれら領
域の属性（特に位Ｍ）に関し、文字情報領域の属性の検
出精度を緩和でき、ざらにインデックス領域の属性の設
定精度を緩和できる。

（実施例）以下、図面を譬照し、この発明の寅施例につき説明する
。尚、図面はこの発明か理解できる程度に概略的に示し
てあるにすぎす、従って各構成成分の構成、入出力信号
の流れ及び接続間係を図示例に限定するものではない。

第１図はこの発明の第一のインデックス抽出装置の実施
例の説明に供するブロック図である。

同図にも示すように、この実施例のインデックス抽出装
Ｍ１０は、入力文書の文字情報領域を抽出する文字領域
抽出手段１２と、文字情報領域と書式情報に記述された
モデルのインデックス領域とのマッチングを行なって、
文字情報領域がインデックス領域と重なり合う場合に当
該文字情報領域に対し当該インデックス領域のインデッ
クス項目を付与するマッチング手段１４と、インデック
ス項目１ｇ照し同しインデックス項目の情報を含むとみ
なざれる文字情報領域を統合する統合十段１６とを備え
て成る。

そしてこの実施例では、インデックス抽出装置１０に入
力文書の情報領域の位Ｍを基準にして仮想原点を定める
仮想原点設定千段２２と、インデックス項目を付与した
文字情報領域の統合前に、文字情報領域のなかから脚注
領域を抽出する脚注抽出手段２４とを設け、また文字領
域抽出十段１２を、白黒２値の入力文書画像から情報内
容の種類別に入力文書の情報領域を抽出する領域分割手
段１８と、前記情報領域から文字情報領域を抽出する文
字ブロック選別手段２０とから構成する。

ざらにこの実施例では、領域分割により得た入力文書の
情報領域の属性を格納する領域情報メモリ２５と、仮想
原点の座標を格納する仮想原点メモリ２６と、入力文書
の文字情報領域に開する情報を格納する文字ブロックメ
モリ２８と、書式情報を格納する書式メモリ２９と、マ
ッチング手段１４によるマッチング結果及び統合処理に
間する情報を格納するモデル情報メモリ３０と、統合処
理結果を格納する統合情報メモリ３４とを、インデック
ス抽出装［１０に設ける。尚、第１図において３６は入
力文書の画像を出力する前処理装Ｍを示す。

以下、より詳細に説明する。

（前処理装Ｍ）図示例の前処理装１１３６は、読取部３８、多値画像メ
モリ４０、２ｍ化千段４２及び２値画像メモリ４４から
成る。

読取部３８はＣ　Ｃ　Ｄ　（Ｃｈａｒｃ＋ｅ　Ｃｏｕｐ
ｌｅｄ　Ｄｅｖｉｃｅ）等のイメージセンサを備え、情
報媒体である入力文書を任意好適な解像度（例えば８本
／　ｍ　ｍ以上）のイメージセンサで走査し、この走査
で得た入力文書の多悌画像（多値画像デ〜ク）を多値画
像メモリ４０に格納する。

２＠化手段４２はメモリ４０から読み込んた多値画像を
２値画像（２値画像データ）に変換しこの２値画像を２
値画像メモリ４４に格納する。文字線部を２値画像の黒
ヒットで及び文字背景部を白ヒットで表す。２値化処理
技術として、これに限定するものではないか、例えばｒ
ＦＡＸ・ＯＡのための画像の信号処理　吹抜敬彦著　日
刊工業新聞社ｐｐ．　５〜２５」ヤ、「特開昭６１−１
０３３７２号公報」に開示されでいる技術を用いる。

第２図に２値画像メモリ４４に格納された入力文書の２
値画像４６の一例を示す。同図にも示すように、２値画
像メモ１）４４土にはメモリ上の任意好適な位百を原点
○ａとするＸ−Ｙ直交座標系を設定してあり、この座標
系で表現される画素位冒の２悌画像の読出しを自在に行
なえるように構成している。文字行に沿う方向を、例え
ばＸ軸方向とする。

尚、図中の一点鎖線で示す矩形枠は入力文書の文字情報
領域の境界を表し説明の便宜のために示されたものであ
り実際の２優画像４６中には表現ざれない。

（文字領域抽出手段）ａ）領域分割手段この実施例の領域分割手段１８は、主走査及び副走査方
向を例えばＸ軸及びＹ軸方向とし、２＠画像メモリ４４
内の２１画像４６ヲ走査して入力文書の領域分割を行な
う。この領域分割で、入力文書の情報領域Ｂをその情報
内容の種類別に検出する共にその位置を検出し、検出し
た情報領域Ｂの情報内容の！！類及び位曹をその属性と
して領域情報メモリ２５に格納する。

領域分割処理技術として、これに限定するものではない
か、例えは［周辺分布、線凹度、タト接矩形特徴を併用
した文書画像の領ｔ１分割：電子情報通信学会論文誌’
８６／８　　Ｖｏｌ．　Ｊ６９−Ｄ　Ｎｏ．８ｐｐ．　
１１８７〜＋　＋９６Ｊや、「欧文テキスト画像にあけ
る文字領域の抽出アルゴリズム・電子情報通信学会論文
誌’８３／４　　Ｖｏｌ．Ｊ６６−Ｄ　　Ｎｏ．４　　
ｐｐ．　４３７　〜４４４」や、「特開昭６２〜７１３
７９号公報」に開示されている技術を用いることができ
る。

第２図に、領域分割により検出された情報領域Ｂの例を
一点鎖線の矩形枠で囲んで示す。尚、第２図の２値画像
４６の例では、フィールドセパレー夕を例えば罫線で表
しでいるか、この罫線の情報領域を表す一点鎖線の矩形
枠は罫線の輪郭に一致するのでこの矩形枠を省略する。

また第３図に、情報―壇８の属牲の例を表にして示す。

第３図は第２図の２値画像と同し書式の他の２値画像に
間して得た属性を示すものであって、第３図においでは
２値画像から抽出した個々の情報領域已にそれぞれ符号
８１〜Ｂ１６を付しで表し、これら領域８１〜Ｂ１６の
属性を数値的に表しで表の各欄■〜■に記載している。

欄■、■、■、■及び■の各数偵はそれぞれ情報領域８
の始点Ｘ座標、始点ｙ座標、終点Ｘ座標、終点ｙ座標及
び情報内容の種類を表す。欄■〜■の座標は２埴画像メ
モリ４４上の点Ｏａ％原点とする座標系で表してあり情
報領域Ｂは欄■〜■に示す座標の始点及び終点を対角線
の両端点とする矩形枠となる。また欄■の数悌コードは
情報領域Ｂの情報内容のａ頬（大分類）表し、情報内客
のａ類が図表、写真、フィールドセパレータ及び文字で
ある場合をそれぞれコード１、２、３及び４で表す。

ｂ）文字ブロック選別手段この実施例の文字ブロック選別手段２０は、領域分割手
段１８か情報内容の１！頬別に抽出した情報領域Ｂのな
かから、文字情報領域ｂｔ抽出する。この抽出ては属ｔ
！ヲ調べで情報内容の種類か文字であることを表すコー
ト４てある情報領域Ｂを文字情報領域ｂとし、この文字
情報領域ｂの位Ｍ等の属牲を文字ブロックメモリ２８に
格納する。

（仮想原点設定手段）この実施例の仮想原点設定千段２２は、一又は複数種類
の情報領域Ｂの位Ｍ座標のうち最小のＸ座標及び最小の
ｙ／ｉ標を検出し、これら最小のＸ及びｙ座標を仮想原
点の位！座標と定め仮想原点メモリ２６に格納する．こ
の仮想原点の設定に用いる情報領域Ｂの位言情報は、少
なくとも文字情報領域ｂの位置情報を含む。例えば情報
内容の種類（大分類）の全種コード１〜４の情報禦域Ｂ
の位貫座標に間して得た最小のＸ及びｙ座標を仮想原点
の座標とする場合、第３図の例６１〜８１６では仮想原
点○ｂの座標（ｘ，ｙ）＝　（１　６８、１５０）とな
る。

尚、情報領域Ｂの始点座標につき得た最小のＸ座標及び
最小のｙ座標を仮想原点の座標として検出するようにす
れば、処理速度を上げることができる。

（書式メモリ）この実施例では、複数の異なる種類の書式毎にモデルを
用意し、モデルのインデックス争域■の属嘗を各モデル
毎に書式メモリ２９に格納する。

第４図に、モデルの一例を示す。同図に示すモデル４８
は第２図の２値画像４６の入力文書のｔｉ類に対応する
ものてある。モデル４８は複数のインデックス領域■を
備え、図中、インデックス領域工を一点鎖線の矩形枠で
囲んで示した。インデックス領域■は対応する入力文書
の文字情報領域ｂが存在し得る領域であり、各インデッ
クス領域工の位置、インデックス項目ＩＤ（項目ＩＯに
ついては後述する）等の属性か設定ざれでいる．インデ
ックス領域工の設定に当っては、同し書式の複数の入力
文書につき文字情報領域ｂの存在位置のデータを蓄積し
、着目したインデックス項目ＩＤの文字情報領域に関し
蓄積した全ての存在位置を包含する領域をインテ・ンク
ス領域■と設定すればよいので、モデル４８の作成及び
修正が容易となる。

また統合千段１６によって統合処理を行なうので、異な
るインデックス領域工同士か互いに重なり合わないよう
にする必要かあった従来とは違い、異なるインデックス
領域工同士を重なり合うように設定してもインデックス
項目ＩＤに対応付けるへき文字情報ｑｔｉｂｖ精度良く
検出てきる。

第５図に、インデックス領域工の属性の例を表にしで示
す。第５図においては、第４図のモデル４８の個々のイ
ンデックス領域工にそれぞれ符号工１〜工９を付しで表
し、これら領域Ｉ］〜■９の属性を数値的に表しで表の
各欄■〜■に記載しでいる。欄■、■、■、■及び■の
各数１はそれぞれインデックス領域Ｉの始点Ｘ座標、始
点ｙ座標、終点ｘｉ標、終点ｙ座標及びインデックス項
目■Ｄを表す．ａ■〜■の座標は次に述べるようにして
表したものである．ます、２１画像メモリ４４上に設定したＸ−Ｙ座標系に
対応する座標系をモデル４８上に設定しこの座標系で表
した各インデックス領域工の座標のなかから最小のＸ座
標及び最小のｙ座標を検出する。次にこれら最小のＸ及
びｙ座標の位１ｖｉ−仮想原点○ＣとするＸ−Ｙ座標系
をモデル４８上に設定しこの座標系で表した各インデ・
ンクス領域Ｉの座標を欄■〜■に記載する。インデック
ス領域１は、情報傾城Ｂの場合と同様、欄■〜（’Ｔ）
に示す座標の始点及び終点を対角線の両端点とする矩形
枠となる。

また欄■に数値コートで表したインデックス項目ＩＤは
文字情報領域ｂの情報内容の種類（小分類）ヲ表し、イ
ンデックス項目ＩＤが例えば本文、日本語表現のタイト
ル、英語表現のタイトル、日本語表現の著者名、要約、
文献名、巻数号数、脚注及び真数である場合をそれぞれ
数値コート４、５、６、７、９、１１、１２、１３、］
４及び１５で表す。

第６図は領域分割不能な文字情報領域の例を示す図であ
り、入力文書の２頓画像中の一部を拡大して示す。

領域分割処理においでは、同図にも示すように、論文誌
名、論文番号（巻数号数）、頁及び発表年月日等複数の
情報内容かあるにもかかわらす、これら複数の情報内容
の領域を個別に分割して抽出できずひとつのＭＬＥとし
て抽出してしまうこともある。このような場合には、人
間の目で見て確認しない限り複数の情報内容を個別に分
割することは難しい。原則として１個のインデックス領
域■には１個のインデックス項目ＩＤを付与するか、領
域分割不能か予想される場合には、これら分割不能とな
るおそれのある複数の匍域を同し１個のインデックス領
域■に対応付けるようにモデルを作成しこの領域工に対
しこれら分割不能な領域のインデックス項目ＩＤの全部
を付与し欄■に記載するのか好ましい．例えば第６図の
場合、論文誌名、巻数号数、頁及び日付の４個のインデ
ックス項目ＩＤ！１個のインデックス領域工に対し付与
すればよい。

（マッチング手段）この笑施例のマッチング手段１４は入力文書の文字情報
領域ｂの始点及び終点の座標を仮想原点からみた座標に
変換し、この文字情報領＠ｂの始点及び終点の変換後の
座標を含むモデルのインデックス領域工を検出した場合
に当該文字情報領域ｂに対し当該インデックス領域工の
インデックス項目をイ寸存する。

ここで入力文嘉の棧頼は予め判明しているものとし、マ
ッチング手段１４はその種類に対応するモデルの属ｔｉ
＝ｔ照して文字情報領域ｂ及びインデックス領域■のマ
ッチングを行なう。

後の処理で文字情報領域ｂとインデックス項目ＩＤとを
精度良く対応付けるために統合処理か行なわれるので、
マッチング千段１４による処理において１個の文字情報
領域ｂに対して複数個のインデックス項目ＩＤ！付与し
ても構わない。

またこの実施例では、文字情報領域ｂ及びインデックス
領域■の座標を、仮想原点を原点とするＸ−Ｙ座標系で
表し、この座標を用いて文字情報領域ｂ及びインデック
ス領域■の包含関係を調へマッチングを行なうので、文
書の印制すれや読取り時のセッティングすれ等かある場
合でも文字情報領ｔｕｂとインデックス領域■とを精度
良く対応付けることかできる。

第７図はマッチング手段の動作フローの一例を示す図で
ある。以下、第７図を参照しマッチング千段１４の動作
の流れにつき一例を挙げて説明する。

ここで、文字プロ・ンク選別手段２０により文字情報領
域ｂの抽出を終了した時点でｎ個の文字情報領域ｂ（こ
れら個々の文字情報領ｔｆｉｂにそれぞれ符号ｂ］、ｂ
２、・・・、ｂｎを付して表す）か文字ブロックメモリ
２８に格納ざれているものとする。

そしてこれらｎ個の文字情報領域ｂか抽出された入力文
書に対応する種類（書式）のモデルか、ｍ個のインデッ
クス９Ｊ［Ｉ（これら個々のインデックス領域工にそれ
ぞれ符号Ｉ　１　、−・、■２、・・・Ｉｍを付して表
す）を有するものとする。

文字情報領域ｂの抽出及び入力文書上の仮想原点○ｂの
設定か終了すると、マッチング手段１４は動作を開始し
、ます制御変数１を初期＠１に初期化し（Ｓ１００）、
さらに制御変数ｊを初期値１に初期化する（５１０２）
。

次に文字ブロックメモリ２８から点Ｏａ％原点とする座
標系で表した文字情報領域ｂｉの座標を読出し、この座
標を仮想原点ｏｂからみた座標に変換する。

ここで点○ａを原点とする座標系で表した文字情報領域
ｂ値のＸ座標及びｙ座標、点Ｏａを原点とする座標系で
表した仮想原点ＯｂのＸ座標及びｙ座標をそれぞれｘ（
ｂｉ）及びｙ（ｂｉ）、×（○ｂ）及びｙ　（Ｏｂ）と
表せば、文字情報領域ｂｉの変換後のＸ及びｙ座標はｘ
　（ｂｉ）−ｘ　（Ｏｂ）及びｙ　（ｂ　ｉ）　−ｙ　
（Ｏｂ）である。

そして文字情報領ｔ’４ｂｉの始点及び終点の変換後の
座標とインデックス領域工〕の座標との大小関係を判定
し、次の条件■及び■の双方を満足するか否かを判定す
る（Ｓ１０４）。

条件■：文字情報領域ｂｉの始点の変換俊のＸ座標悌か
インデックス領域Ｉｊの始点のＸ座標１以上となり、か
つ領域ｂｉの始点の変換後のｙ座標値か領域Ｉｊの始点
のｙ座標１以上となる。

条件■・文字情報領域ｂ値の終点の変換後のＸ座標偵か
インデックス領域工〕の終点のＸ座標偵以下となり、か
つ領域ｂｉの終点の変換後のｙ座標値か領域Ｉｊの終点
のｙ座標値以下となる。

５１０４て粂件σ）及び又は■を満足しない場合、後述
するＳ１０８の処理を行なう。

また条件■及び■の双方を満足するとき文字情報領域ｂ
ｉはインデックス輸域Ｉｊに包含きれるのてこの文字情
報領域ｂ１に対しインデックス領域■〕のインデックス
項目ＩＤＶ付与し、文字情報領域ｂｉのインデックス項
目ＩＤ及び位万座標をモデル情報メモリ３０に格納し（
Ｓ１０６）．次いてＳ１０８の処理を行なう。

Ｓ１０８では、文字情報領域ｂｉｔｍ個のインデックス
領域Ｉの全てとマッチングさせたか否かを判定する。

ｊ＝ｍでなければｍ個全部のインデックス領域ｌとマッ
チングさせていないことを表すので制御変数コに１を加
算し（Ｓ］］Ｏ）、その後ＳＩＯ４の処理に戻る。

またｊ＝ｍであればｍ個全部のインデックス争域■とマ
ッチングさせたことを表すので、次にｎ個の文字情報領
域ｂの全てにつきマッチング処理を終えたか百力１そ判
定する（５１１２）。

ｉ＝ｎでなければｎ個全部の文字情報領域ｂにつきマッ
チング処理を終えてないことを表すので制御変数ｉに１
を加算し（５１１４）、その？＆Ｓ１０２の処理に戻る
。

またｉ＝ｎであればｎ個全部の文字情報領域ｂにつきマ
ッチング処理７ｉ！終えたことを表すので、マッチング
千段１４は動作を終了する。モデル情報メモリ１４は、
マッチング処理を終了した時点で文字情報領域ｂ］〜ｂ
ｎのそれぞれのインデックス項目ＩＤ及び位置座標を格
納する。

（脚注抽出手段）脚注情報領域の位置は書式か同し種類であっても文：Ｉ
Ｆ毎に異なることが多くその所在は不安定である。例え
ば同一書式の学術論文誌においでは、脚注のほとんどは
文書の左下にあるが、脚注か文書の右下に存在したつ脚
注がなかったつするこどもある。このようにその所在か
不安定な脚注情報領域の抽出を正確に行なうため、脚注
はフイールトセバレー夕により文書本文と区別ざれると
いう一般的′Ｉ！貢を利用し、脚注情報領域を単独に抽
出する処理を行なう。

このためこの実施例の脚注抽出手段２４は、モデル情報
メモリ３０を参照し脚注のインデックス項目ＩＤを付与
された文字情報領域ｂを第一脚注候補として検出する。

次に領域情報メモワ２５のフィールトセバレータの情報
領域Ｂの属性を参照し、第一脚注候補の文字情報領域ｂ
のなかから、Ｘ軸方向においでフィールドセパレー夕と
重なり（■の状態）しかも原点（Ｏａ或はＯｃ）との間
にフィールドセパレータをはきむ位置に位置する（■の
状態）文字情報領ｆｔｔｂｉ第二脚注候補としで検出す
る．例えば文字情報領域ｂの始点から終点までのｘｉ標
の範囲とフィールドセバレー夕の情報領域の始点からＶ
！点までのＸ座標の範囲とか共通虻囲を有する場合を、
■の状態と判定し、例えばフィールトセパレー夕の終点
のｙ座標か文字情報領域ｂの始点のｙ座標よりも小ざ〈
なる状態を、■の状態と判定する。

そして第二脚注候補の文字情報領域ｂとフィールトセバ
レータとの間に文字情報領域ｂか存在しない場合に、こ
の第二脚注候補を脚注情報領域と決定する。

脚注抽出手段２４は脚注情報領域としで抽出した文字情
報領域ｂの、モデル情報メモリ３０に格納ざれでいるイ
ンテ・ンクス項目を、脚５主であることを表すインデッ
クス項目ＩＤのみとする処理を行なう。

（統合手段）この実施例の統合手段１６は統合対象となる文字情報領
域ｂｔのインデックス項目及び位言座標を利用して、文
字情報領域ｂｔの統合処理を行なつ。

統合十段１６は次に述べる処理を統合処理の基本とし、
この基本処理を、統合すべき文字情報領域ｂ（以下、文
字情報領域ｂｔ）かなくなったとみなせるまで繰返し行
なう。

基本処理では、冫王目する文字情報領域ｂｔαからＹ軸
方向に見て最も距離の近い文字情報領域ｂｔを統合候補
ｂｔβとして抽出しさらにこの候補ｂｔβからＹ軸方向
に見て最も距離の近い文字情報領域ｂｔγを抽出する。

そしてこれら文字情報領域ｂｔα及び候補ｂｔγが一致
した場合に、これらｓｔａｂ↑α及び候補ｂｔβか共通
するインデックス項目ＩＤを有すれば、当該領域ｂｔα
及び候補ｂｔＢを統合する。この統合では、領域ｂｔα
及び候補ｂｔＩ３ｉ統合しで得られる文字情報曽域すな
わち統合領域Ｔの始点座標として領域ｂｔα及び候補ｂ
ｔβの始点座標のうち最小のＸ座標及び最小のｙ座標を
検出し、これと共にこれら領域ｂｔα及び候補１）ｔＢ
の統合領域下の終点座標として領域ｂｔα及び候補ｂｔ
βのＶ！点座標のうち最大のＸ座標及び最大のｙ座標を
検出する。

次に第８図そ参照し、この寅施例の統合千段１６の動作
につき具体例を挙げて説明する。

第８図（Ａ）〜（Ｃ）は統合手段の動作フローの一例を
示す図である。以下に説明する処理では、例えば点○ａ
を原点とする座標系で表した位置座標を用いる。

級合手段１６は脚沫情報領域の抽出か終了すると動作を
開始し、ます、統合対象の文字情報領域ｂｔ（以下、単
に統合対象とも称す）をマッチング処理終了時点でモデ
ル情報メモリ３０に格納された全ての文字情報領域ｂと
する。尚、この文字情報領域ｂｔは脚注抽出手段２４に
より脚注と決定された文字情報領域ｂを含む。

そしてＸ軸方向に沿って並列しかつ共通するインデック
ス項目ＩＤを有する文字情報領域ｂｔを統合するための
処理を行なう（Ｓ２００）。

Ｓ２００てはＸ軸方向に沿って並列しかつ共通するイン
デックス項目ＩＤ！有する文字情報領域ｂｔか存在すれ
ばこれら文字情報領域ｂｔｖ統合し、そののちＳ２０２
　１で１個しがないインデックス項目ＩＤ０か存在する
か否かを判定する。また５２００でＸ軸方向に治って並
列しかつ共通するインデックス項目ＩＤを有する文字情
報領域ｂｔか存在しなければ、次に８２０３で閾＋ｋｌ
！ｎ％設定する。

第９図（Ａ）〜（Ｂ）はＳ２００で文字情報領域ｂｔか
統合される場合の処理の説明に供する図及び第１０図（
Ａ）・〜（Ｂ）は並列する文字情報領域ｂｔの例を示す
図である．第９図（Ａ）及び第１０図（Ａ）〜（Ｂ）にも示すよう
に文字情報領域ｂｔのＹ軸方向における存在虻囲（始点
のｙ座標から終点のｙ座標までの虻囲）かつながるもの
同士或はＹ軸上への投影か互いに連結し合うもの同士を
、Ｘ軸方向に沿って並列する文字情報領域ｂｔとして検
出する．第９図（Ａ）中、このようにして抽出した並列
する文字情報領域ｂｔを符号ｂｔｌ〜ｂｔ４を付して示
すと共に、領域ｂｔｌ及びｂｔ２の始点から終点までの
ｙ座標範囲を符号Ｙ１及びＹ２を付して示す。文字情報
領域ｂｔｌを注目する文字情報領域ｂｔαと表現し文字
情報領域ｂｔ２〜ｂｔ４を統合候補と表現することもで
きる。

並列する文字情報領域ｂｔ１〜ｂ↑４を検出すると、次
にこれらｂｔ１〜ｂｔ４においで共通するインデックス
項目ＩＤかあるか杏かを調へる。

ここで、文字情報領域ｂｔｌはインデックス項目ＩＤＩ
、ＩＤ２を、領域ｂｔ２は項目ＩＤＩ、ＩＤ２を、領域
ｔ）ｔ３は項目ＩＤ２を及び領域ｂｔ４はＩＤ３を有す
るものとすると、共通のインデックス項目ＩＤ２を有す
る領域ｂｔｌ〜ｂｔ３ｌＦ！：統合することとなる。

領域ｂｔ１〜ｂｔ３を統合して得た統合領域（文字情報
領域）■を第９図（Ｂ）に示す．統合領域Ｔの始点のＸ
座標を統合された領域ｂｔ１〜ｂｔ３の始点のＸ座標の
うち最小のＸ座標で表し及び統合曽域Ｔの始点のｙ座標
を領域ｂｔｌ〜ｂｔ３の始点のｙ座標のうち最小のｙ座
標で表す。同様に統合領域Ｔの終点のＸ及びｙ座標を領
域１）ｔｌ〜ｂｔ３の終点のＸ及びｙ座標のうち最大の
Ｘ及びｙ座標で表す。

また統合領域Ｔに対しては領域ｂｔｌ〜ｂｔ３のインデ
ックス項目ＩＤの論理和（○Ｒ）であるインデックス項
目ＩＤ１、Ｉ　Ｄ２！付与する。

そして統合領ｔｌ７の位フ及びインデックス項目と、統
合領域Ｔか文字情報領域ｂｔｌ〜ｂｔ３を統合して得た
領域であることを表す情報とをモデル情報メモリ３０に
格納する。これと共に３２００で統合された文字情報領
域ｂｔ１〜ｂｔ３を統合対象から除外し、統合領域Ｔを
新な統合対象として加え、そしてＳ２００での統合処理
を終了する。

Ｓ２００での統合処理が終了すると、次にモデル情報メ
モリ３０か格納する統合対象の文字情報領域ｂｔ全部の
インデックス項目工Ｄを調べ、これらｓｍｂｔのインデ
ックス項目ＩＤのなかで１個しかないもの、すなわちあ
る１つの文字情報領域ｂｔのみか有し残りの他の文字情
報領域ｂｔは有きナいインデックス項目ＩＤ（以下、イ
ンデックス項目ＩＤｏ）か存在するか否か判定する（Ｓ
２０２］）。

１個しかないインデックス項目ＩＤ。か存在しなければ
、次に８２０３で閾＠　ｎ　ｖ！設定する。

１個しかないインデックス項目ＩＤｏか存在する場合に
は、当該ＩＤｏを有する文字情報領域ｂ↑は当該ＩＤｏ
ｉ１個のみ有するか否かを判定する（Ｓ２０２２）。

Ｓ２０２２の判定でインデックス項目ＩＤ。を１個のみ
有する場合には、当該１個のインデックス項目ＩＤ。を
有する文字情報領域ＩＤを当該１個の項目ＩＤｏのみと
する処理を行い（３２０２３）、その後Ｓ２０３て閾値
ｎを設定する。

例えば文字情報領域ｂｔ１〜ｂｔ５を統合対象の全部と
し、文字情報領域ｂｔ１はインデックス項目ＩＤ４を、
領域ｂｔ２は項目ＩＤ４、ＩＤ５を、領域ｂｔ３は項目
ＩＤ６を、領域ｂｔ４は項目ＩＤ６、ＩＤ７を及び領ｔ
＊ｂｔｓは項目ＩＤ７を有するものとする。このとき１
個しかないインデックス項目ＩＤｏはＩＤ５となり、こ
れを有する領域ｂｔ２は項目工Ｄ。をＩＤ５の１個しか
有ざないので領域ｂｔ２のインデックス項目ＩＤをＩＤ
５のみとしＩＤ４を削除する．またＳ２０２２の判定でインデツウス項目ＩＤｏを複数
個有する場合には、これら複数個のＩＤｏを有する文字
情報領域ｂｔは本来統合してはならない領域を級合して
得た統合領域であるので、当該複数個のＩＤｏを有する
文字情報領域ｂｔを統合前の領域の戻す（Ｓ２０２４）
。

例えば文字情報領域ｂｔｌ〜ｂｔ５か統合対象の全部で
あり、領域ｂｔｌか項目ＩＤ４を、争域ｂｔ２か項目Ｉ
Ｄ４を、領域ｂｔ３か項目ＩＤ５、ＩＤ６を、領域ｂｔ
４及び領域ｂｔ５が項目ＩＤ７を有し、統合領域ｂｔ３
かインデックス項目ＩＤ５及びＩＤ６の情報を含む文字
情報領域ｂｔ３１と、ＩＤ５及びＩＤ６の情報を含む領
１表ｂｔ３２とを統合して得た統合領域である場合であ
る。

そこでこの統合領域ｂｔ３を統合前の禦域ｂｔ３１及び
ｂｔ３２に戻すため、Ｓ２０２４では統合領壇ｂｔ３を
統合対象から除くと共に統合対象から既に除外された領
域１）ｔ３１及びｂｔ３２を再び統合対象に加える。そ
して匍域ｂｔ３１及びｂｔ３２のうち、インデックス項
目ＩＤ５のインデックス領域■に距離かより近い領域に
対しインデックス項目ＩＤ５を付与し、同様に領域ｂｔ
３］及びｂｔ３２のうちインデックス項目ＩＤ６のイン
デックス領域■に距離かより近い領域に対しインデック
ス項目ＩＤ６Ｖ付与する。５２０２４で統合前の額域ｂ
ｔ３１及びｔ）ｔ３２に戻す処理を終えたらＳ２０３で
閾値ｎを設定する。

但し、これらＩＤ５及びＩＤ６か第６図に示すような領
域分割不能のおそれかあるため１個のインデックス領域
に対し付与されたインデックス項目である場合にはＳ２
０２４の処理を行なわない。

Ｓ２０３では、Ｓ２０３を行なう時点にあいて統合対象
となっている文字情報領域ｂｔの総個数を、閾値ｎとす
る（５２０３）。この総個数ｎの文字情報領域ｂｔのそ
れぞれを符号ｂｔｌ、ｂｔ２、・・・、ｂｔｎを付して
表す。

次いてｆｌａｑに、統合できる統合対象の文字情報領域
ｂｔかなくなったことを表す情報Ｏを設定し（Ｓ２０４
）さらに制御変数ｉｔ初期１１に初期化する（５２０６
）。

次に、注目する文字情報領域ｂｔαを統合対象となる文
字情報領域ｂｔｉ（ｉ−１、２、・・・ｎ）とし、この
注目領域ｂｔｉを除く残りの統合対象の文字情報領域ｂ
ｔのなかに注目領域ｂｔｉとの共通の領域を有する注目
領域ｂｔｉ以外の領域ｂｔか存在するか否かを判定する
（Ｓ２０７）。

第１１図に、注目領域ｂｔｉとの共通の領域（図中ハッ
チングを付しで示す領域）を有する統合対象の文字情報
領域ｂｔｉ示す．共通の領域を有する文字情報領域ｂｔが存在したら、こ
の領域ｂｔｖ統合候補ｂｔβとしで抽出し（Ｓ２０９）
、次いて後述するＳ２１８で注目領域ｂｔｉ及び候補ｂ
ｔβか共通するインデックス項目■Ｄを有するか否かを
判定する。

また共通の領域を有する文字情報領ｔ！Ｉｉｂｔが存在
しない場合には、次に８２０８の処理を行なつ。

第１２図は５２０８の処理の説明図である．図中、Ｙ軸
方向にあける領域ｂｔｉ．ｂｔｐ間の距Ｎ及Ｕ領域ｂｔ
　ｉ、ｂｔｑｆＷ］の距ａＶ符号ｆｆｐ及びβＱ（ｊ７
ｐ＞βｑ）で表すと共に、Ｘ軸方向において領域ｂｔ１
、ｂｔｐの重なり節囲及び領域ｂｔｉ、ｂｔｑの重なり
虻囲を符号Ｘｉ，ｐ及びＸｉ．ｑを付して表す。

８２０８では、第１２図にも示すように、Ｘ軸方向にお
いて注目領域ｂｔｉと重なり合う文字情報領域ｂｔｐ．
ｂｔｑ！モデル情報メモリ３０から抽出し、これら領域
ｂｔｌ）．ｂｔｑのなかからＹ軸方向に見て注目領域ｂ
ｔｉと距離の最も近い領域ｂｔｑを統合候補ｂｔβとし
で抽出する。

次に注目領域ｂｔｉ及び統合候補ｂｔβの間にフィール
トセバレータか存在するか否かを判定する（５２１０）
。

第１３図はＳ２１０の処理の説明に供する図であり、注
目領域ｂｔｉと５２０８で抽出した統合候補ｂｔβ（ｂ
　ｔ　Ｑ）との間にフィールドセパレータか存在する場
合を示す図である。

フィールトセバレータは文字情報領域ｂｔｖ区分する境
界を表しこの境界で情報の内容か異なることを表すので
、この笑施例では第１３図にも示すように注目領域ｂｔ
ｉ、統合候補ｂｔβ（ｂ↑ｑ）問にフィールトセバレー
夕か存在する場合には、領域ｂｔｉ．ｂｔβ（ｂ　ｔ　
Ｑ）を統合しない。

このためＳ２１０で注目領ｔｓｂｔｉ及び統合候補ｂｔ
Ｂ（１）ｔＱ）の間にフィールドセパレータか存在する
か否かを判定する。

第１３図にも示すように注目領域ｂｔｉ、統合候補ｂｔ
β（ｂ　ｔ　Ｑ）の間にフィールドセパレタの情報領域
Ｂ（図中、符号Ｂｆで表した）か存在する場合には、Ｙ
軸に沿う方向において注目領域ｂｔｉをはざみ候補ｂ↑
β（ｂ　ｔ　Ｑ）とは反対側の領域に位言し、かつＸ軸
方向にあいて注目領域ｂｔｉと重なり合う文字情報領壊
ｂｔを検出する。モして模出した文字情報領域ｂｔのな
かから、Ｙ軸方向において最も距離の近い領ｖｉｂｔｐ
を検出し、当該領域ｂｔＤを統合候補ｂｔｑにかえて新
な統合候補ｂ↑βとし（Ｓ２１２）．次にＳ２１４てこ
の統合候補ｂｔβ（ｂ　ｔ　ｐ）と所定の位置関係にあ
る文字情報領域ｂ↑γを検出する。

また第１２図にも示すように汀目領域ｂｔｉ、統合候補
ｂｔＢ（ｂｔＱ）の間にフィールトセパレー夕か存在し
ない場合には、Ｓ２１０に次いて８２１４で統合候補ｂ
ｔβ（ｂ　ｔ　Ｑ）と所定の位置間係にある文字情報領
域ｂｔγを検出する。

Ｓ２１４では統合候補ｂｔβを除く文字情報領域ｂｔの
なかから統合候補ｂｔβとＸ軸方向において重なり合い
最も距離の近い文字情報領域ｂｔ（注目禦域ｂｔｌを含
む）を領域ｂｔγとしで抽出する。

次に、注目領域ｂｔｉ及び統合候補ｂｔγか致するか杏
かを判定する（Ｓ２１６）。

領域ｂｔｉ．ｂｔγが一敗しなければ、次に後述する８
２２６で制御変数１か閾値ｎと等しくなったか否かを判
定する。

また領域ｂｔｌ，ｂｔγが一致する場合には、注目領域
ｂ↑１及び統合候補ｂｔβか共通するインデックス項目
ＩＤＶ有するか否かを判定する（Ｓ２１８）。

共通のインデックス項目ＩＤを有さない場合には、次に
８２２６で制御変数１か閾値ｎと等しくなったか否かを
判定する。

また共通のインデックス項目ＩＤ！有する場合には、次
に注目領域ｂｔｉ及び統合候補ｂｔβに共通でないｂｔ
ｉ及びｂｔＢのインデックス項目ＩＤＩ、これらｂｔｉ
、ｂｔβ以外の統合対象となる文字情報領域ｂｔが有す
るが杏かを判定する（Ｓ２２０）。

領域ｂｔｉ、ｂｔβの共通でないインデックス項目工Ｄ
を、これらｂ↑１、ｂｔＢ以タトの文字情報響ｔｉｂｔ
か有さない場合には、次に８２２６で制御変数１か閾値
ｎと等しくなったが否かを判定する。

領域ｂｔｉ、ｂｔｓの共通でないインデックス項目ＩＤ
ｔ、これらｂｔｉ、ｂｔβ以外の文字情報領域ｂｔ７！
７ｔ有する場合には、次にこれら領域ｂｔｉ、ｂ↑Ｂを
統合して統合領域Ｔを得る処理を行なう（Ｓ２２２）。

Ｓ２２２ては、これら注目領域ｂｔｉ及び統合候補ｂｔ
１３を統合対象から除外すると共にこれら領域ｂｔｉ、
ｂｔβの統合領壇Ｔを新に統合対象に加える．そしてモ
デル情報メモソ３０に新な統合対象の統合領域Ｔの始点
座標、終点座標及びインデックス項目と、この統合領域
Ｔが注目領域ｂｔｌ及び統合候補ｂｔｓを統合しで得た
文字情報領域ｂｔであることを表す情報を格納する．Ｓ
２２２で得た統合領域Ｔのインデックス項目ＩＯは、注
目領域ｂｔｌ及び統合候補ｂｔβのインデックス項目Ｉ
Ｏの論理槓（ＡＮＤ）とする。

例えば注目領域ｂｔ値のインデックス項目がＩＤ４、Ｉ
Ｄ５及び統合候補ｂｔβのインデックス項目かＩＤ５、
ＩＤ６であれば、統合領ｔｆｉＴのインデックス項目は
ＩＤ５となる。

Ｓ２２２で得た統合領域Ｔの始点、終点座標の決定につ
き第１４図％＝７照し説明する。第１４図はＳ２２２の
説明に供する図である。

第１４図にも示すように、Ｓ２２２の統合領域下の始点
座標のＸ座標及びｙ座標は領壇ｂｔｉ、ｂｔβの始点座
標のうち最小のＸ座標及び最小のｙ座標となり、また統
合領域Ｔの終点座標のＸ座標及びｙ座標は領域ｂｔ１、
ｂｔａの終点座標のうち最大のＸ座標及び最大のｙｉ標
となる。

Ｓ２２２の処理か終わると、次にｆ　ｌａｇに、統合で
きる文字情報領域ｂｔが未た存在することを表す情報］
を設定し（Ｓ２２４）、次いで制御変数１は閾値ｎと等
しいか杏かを判定する（Ｓ２２６）。

ｉ＝ｎでなければ、次の統合対象の文字情報領域ｂｔに
閏して統合処理を行なうべく制御変数ｊに１を加算し（
Ｓ２２８）、その後８２０７の処理に戻る。

ｉ＝ｎであれば、１サイクルの統合処理を終了したこと
を表すのでモデル情報メモリ３０に統合対象として格納
されている文字情報領域ｂｔ全部のインデックス項目Ｉ
Ｄ％調へ、これら領域ｂｔのインデックス項目ＩＤのな
かで１個しかないインデックス項目ＩＤｏを抽出する（
Ｓ２３０］）。

１個しかないインデックス項目ＩＤＯか存在しなければ
、１サイクルの統合処理において消滅したインデックス
項目ＩＤか存在するか杏かを判定する（Ｓ２３２１）。

１個しかないインデックス項目ＩＤｏが存在すれは、当
該ＩＤｏを有する文字情報領域ｂｔが項目ＩＤｏを１個
のみ有するが否かを判定する（Ｓ２３０２）。

Ｓ２３０２の判定で文字情報領域ｂｔが有する項目■Ｄ
ｏか１個のみてある場合には、当該文字情報領域ｂｔの
インデックス項目ＩＤを当該１個の項目ＩＤｏのみとす
る処理％Ｓ２０２３と同様に行い（Ｓ２３０３）　、そ
の後Ｓ２３２　値の処理を行なう。

またＳ２０３２の判定で文字情報領域ｂｔが有する項目
■Ｄｏか複数個である場合には、当該文字情報領域ｂｔ
は本来統合しではならない領域を統合して得た統合領域
Ｔであるので、当該文字情報領域ｂｔを統合前の争域ｂ
ｔに戻す処理を８２０２４と同様に行ない（Ｓ２３０４
）．その後Ｓ２３２］の処理を行なう。

Ｓ２３２１では、］サイクルの統合処理で統合を繰返す
うちに消滅しでしまったインテッタス項目ＴＤかないか
を謂へ、シ肖滅した項目ＩＤかな１サれば次にＳ２３４
てｆｌａｑの情報を調べる。

消滅した項目ＩＤがある場合には、この消滅項目ＩＤの
文字情報領域ｂｔｉ再生するための処理を行なう（Ｓ２
３２２）。

この再生処理では、まずモデル情報メモリ３０を参照し
消滅項目ＩＤを有する統合前の文字情報領域ｂｔを抽出
し、この消滅項目ＩＤの領域ｂｔと共に統合された文字
情報領域ｂｔを抽出する。そして消滅項目ＩＯの文字情
報領＠ｂｔ及びこの領域ｂｔと統合された文字情報領域
ｂｔを再び統合対象とすると共に、これら消滅項目ＩＤ
の領域ｂｔ及びこの領域ｂｔと統合された領域ｂｔとを
統合しで得た統合領域Ｔを統合対象から除外する。

このようにしでＳ２３２の再生処理を終了したら、次に
ｆｌａ９の情報ＩＪＸｔｆｔ合できる統合対象の文字情
報領域ｂｔかなくなったことを表す情報Ｏであるか否か
を判定する（Ｓ２３４）。

ｆｌａｑ＝○てなければ統合できる統合対象の文字情報
領域ｂｔか未た存在するので次の１サイクルの統合処理
を行なうへく、閾値ｎの再設定を行ない（Ｓ２３５）、
その後Ｓ２０４の処理に戻る。Ｓ２３５ては、Ｓ２３５
を行なう時点でモデル情報メモリ３０か格納する統合対
象の文字情報領域ｂｔの総個数を閾［ｎとする。

ｆｌａ９＝ｏであれば、共通のインデ・ンクス項目ＩＤ
を有する統合対象の文字情報領域ｂｔを統合するための
処理を行なう（Ｓ２３６１）。尚、注目領域ｂｔ１〜ｂ
ｔｎの全てに開しＳ２１６、Ｓ２１８又はＳ２２０で判
定結果かＮＯとなった場合に、はしめてＳ２３４てｆｌ
ａｑ＝ｏとなる。

Ｓ２３６１で共通のインデックス項目ＩＤを有する文字
情報領域ｂｔか存在しない場合には、このとき統合対象
としてモデル情報メモリ３０に格納ざれている全ての文
字情報領域ｂｔの始点座標、終点座標及びインデックス
項目ＩＤを統合情報メモリ３４に格納すると共にフィー
ルトセバレー夕として抽出された文字情報領域ｂの始点
座標、終点座標及びインデックス項目ＩＤｕ統合情報メ
モリ３４に格納し統合処理を終了する（動作終了）。

統合情報メモリ３４に格納した文字情報領域内にこの領
域のインデックス項目ＩＤに対応する情報内容の情報（
インデックス情報）か存在するので、外部装Ｍ５０（第
１図参照）はこのインテ・ンウス情報を利用して文書を
蓄積するテータヘースを作成する。

またＳ２３６１で共通のインデックス項目ＩＤを有する
文字情報領域ｂｔが存在する場合には、これら共通項目
ＩＤの領域ｂｔを統合して得た統合領域Ｔ８Ｍ合対象に
新に加えると共にこれら共通項目ＩＤの領域ｂｔを統合
対象となる文字情報領域ｂ↑から除外する。そしてこの
統合領域Ｔの始点座標、終点座標及びインテ・ンクス項
目ＩＤを８２２２の場合と同様にして決定する（Ｓ２３
６２）。Ｓ２３６２の統合を終了したら、このとき統合
対象としてモデル情報メモリ３０に格納されている全て
の文字情報領ｔ＊　ｂ↑の始点座標、終点座標及びイン
テツウス項目ＩＤを統合情報メモ１ノ３４に格納すると
共にフイールトセバレータとして抽出された文字情報領
域ｂの始点座標、終点座標及ひインデックス項目ＩＤ％
統合情報メモリ３４に格納し、統合処理を終了する（動
作終了）。

この笑施例によれば仮想原点を原点とする座標系で表し
た座標位Ｍを用いて、文字情報領域ｂとモデルのインデ
ックス額域とのマッチングを行ない、このマッチングに
より文字情報領域ｂに対してインデックス項目ＩＤを付
与する。そしてインデックス項目工Ｄを付与した文字情
報領域ｂからます脚注領域とみなす領域を抽出し、統合
対象の文字情報領域ｂの統合を行なう。

これかため、所定のインデックス項目ＩＤに対応する情
報内容の文字情報領域ｂｖ正確に抽出てきる。また領域
分割により抽出ざれる文字情報領土或ｂの位置の検出精
度か或る程度悪くともインデックス項目ＩＤに対応する
文字情報領域ｂの抽出を行なえしかも、この抽出を高速
に行なえる。

第１５図はこの発明の第二のインデックス抽出装置の実
施例の説明に供するブロック図である。

以下の説明では、上述した実施例と同様の点については
その詳細な説明を省略する。

同図にも示すように、この寅施例のインデックス抽出装
置５２は、文字領域抽出千段５４と、入力文書の文字情
報争域とモデルのインデックス領域とのマッチングを行
なって、文字情報領域かインデックス領域と重なり合う
場合に当該文字情報領域に対し当該インデックス領域に
含まれることを表す構造情報を付与するマッチング手段
５６と、構造情報％９照し同しインデックス争域に含ま
れるとみなされる文字情報領ｖ２を統合する統合手段５
８とを備えて成る。

そしてこの笑施例ては、インデックス抽出装置５２に仮
想原点設定手段６０と、構造情報を付与した文字情報領
域の統合前に、文字情報領域のなかから脚注領域を抽出
する脚注抽出手段６２とを設け、また文字領域抽出手段
５４を、領域分割千段６４及び文字プロ・ンク選別手段
６６から構成する。

ざらにこの寅施例ては、輸域情報メモリ６８、仮想原点
メモリＴＯ、文字ブロックメモリ７２、書式メモリ７４
、モデル情報メモリ７６及び統合情報メモリ７８ヲ、イ
ンデックス抽出装置１０に設ける。

以下、より詳細に説明する。

（書式メモリ）統合手段５６によって統合処理を行なうので、異なるイ
ンデックス領域■同士か互いに重なり合わないようにす
る必要かあった従来とは違い、異なるインデックス領域
Ｉ同士を重なり合うように設定しても文字情報領ｆｆｔ
ｂを本来帰属ざせるへきインテ・ンクス領域Ｉと精度良
く対応付けることができる。

（マッチング手段）この実施例のマッチング千段５６は入力文書の文字情報
領域ｂの始点及び終点の座標を仮想原点からみた座標に
変換し、この文字情報領域ｂの始点及び終点の変換後の
座標を含むモデルのインデックス領域■を検出した場合
に当該文字情報領域ｂに対し当該インデックス領域■に
含まれることを表す構造情報Ｋ％付与する。例えば各イ
ンデックス領域■に付した符号工１〜■９を構造情報Ｋ
として用い、文字情報領ｔｌｂは構造情報Ｋ＝Ｉ１ｔ付
与されていればこの構造情報Ｋに対応するインデックス
領域■１に含まれる。

後の処理で文字情報領域ｂとインデックス項目ＩＤとを
精度良く対応付けるために統合処理か行なわれるので、
マッチング手段１４による処理において１個の文字情報
領域ｂに対して複数個の構造情報Ｋｔ−付与しても構わ
ない。

第１６図はマッチング手段の動作フローの一例を示す図
であり、Ｓ１０６の処理内容か異なるほかは上述したマ
ッチング千段］４の動作フロ（第７図誉照）と同しであ
る。

Ｓ１０４において粂件■及び■の双方を満足するとき文
字情報領域ｂｉはインデックス領域Ｉｊに包含されるの
で、この実施例のマッチング手段５６は、この文字情報
領域ｂｉに対し構造情報κとしで１コを付与すると共に
インデックス領域Ｉｊのインデックス項目ＩＤｕ付与し
、これら文字情報領ｔｉｂｉの横造情報及びインデック
ス項目ＩＤと文字情報領ｔｉｂｉの位置座標とをモデル
情報メモ１ノ３０に格納する（３１０６）。

従ってモデル情報メモワ１４は、マツチンク処理そ終了
した時点で文字情報領域ｂ１〜ｂｎのそれぞれの構造情
報Ｋ、インデックス項目ＩＤ及び位Ｍ座標を格納する。

（脚注抽出手段）脚注抽出千段６２は脚注情報領域として抽出した文字情
報領域ｂの、モデル情報メモリ３０に格納ざれでいる構
造情報Ｋ及びインデックス項目ＩＤを脚注のインデック
ス領域工の符号のみ及び脚注のインデックス項目ＩＤの
みとする処理を行なう。

例えばインデックス領域■値のインデックス項目ＩＤは
本文及びインデックス領域■２のインデックス項目ＩＤ
は脚注であり、脚注情報領域として抽出された文字情報
領ｔｕｂか構造情報κとして■１及びＩ２％またインデ
ックス項目ＩＤとして本文及び脚注を有する場合、この
文字情報領域ｂの構造情報κ％Ｉ値のみとしまたこの文
字情報領壇ｂのインデックス項目ＩＤを脚レ主のみとす
る。

（統合手段）この笑施例の統合手段５８は統合対象となる文字情報領
域ｂの構造情報Ｋ及び位酉座標を利用しで、文字情報領
域ｂの統合処理を行なう。

統合の基本処理では、文字情報領域ｂｔα及び候補ｂｔ
γが一致した場合にこれら領域ｂｔα及ひ候補ｂｔβか
共通する構造情報Ｋを有すれば、当該領域ｂｔα及び候
補ｂｔＢを統合するようにする。このほかは、上述の統
合手段１６と同様に基本処理を行なう。

第１７図（Ａ）〜（Ｃ）は統合手段の動作フローの一例
を示す図である。以下、第１７図の各ステップの処理内
容につき説明するか、第８図を参照し説明した統合十段
１６の処理内容と同様の点については、詳細な説明を省
略する。

Ｓ２００ではＸ軸方向に冫台って並列しかつ共通する構
造情報κを有する文字情報領域ｂｔを統合するための処
理を行なう。５２００でＸ軸方向に泡って並列しかつ共
通する槙造情報Ｋを有する文字情報領域ｂｔか存在すれ
ばこれら文字情報領域ｂｔを統合したのちＳ２０２　１
を行ない、またＳ２００でＸ軸方向に沿って並列しかつ
共逼する構造情報Ｋを有する文字情報領域ｂｔか存在し
なければ次いて３２０３を行なう。

Ｓ２００にあいて第９図（Ａ）にも示すように並列する
文字情報領域ｂｔｌ〜ｂｔ４を検出すると、これらｂｔ
１〜ｂｔ４において共通する構造情報Ｋかあるか否かを
調へる。

ここで、文字情報領域ｂｔｌは構造情報κとして■１、
■２を、領域ｂｔ２は情報Ｋとして■］、■２を、領域
ｂｔ３は情報Ｋとして■２を及び領域１）ｔ４は情報Ｋ
としてＩｌ有するものとすると、共通の構造情報Ｋを有
する領域ｂｔ１〜ｂｔ３を統合し統合領域Ｔを得る。

統合領域Ｔに対しでは領域ｂｔｌ〜ｂｔ３の構造情報Ｋ
の論理和（○日）である■］及びＩ２％当該領ｔｉＴの
構造情報Ｋとして付与する。ざらにこれらｌｌｉ造情報
■］、■２に対応するインデックス領域工１、■２のイ
ンデックス項目ＩＤを統合領域Ｔに付与する。

そして統合領域Ｔの位置、構造情報Ｋ及びインデックス
項目ＩＤと、統合領域Ｔか文字情報領域ｂｔｌ〜ｂｔ３
を統合して得た領域であることを表す情報とをモデル情
報メモリ３０に格納する。これと共に５２００で統合さ
れた文字情報領域ｂ↑１〜ｂｔ３を統合対象から除外し
、統合領域Ｔを新ナ統合対象として加える。

Ｓ２００での統合処理か終了すると、次にモデル情報メ
モリ３０か格納する統合対象の文字情報領域ｂ↑全部の
構造情報Ｋを調へ、これら構造情報Ｋのなかで１個しか
ないもの、すなわちある１つの文字情報領域ｂｔのみか
有し残りの他の文字情報領域ｂｔか有ざない構造情報κ
（以下、桶追情報ＫＯ）か存在するか杏か判定する（Ｓ
２０２１）。

１個しかない構造情報Ｋ０か存在しなければ、次に３２
０３を行なう。

１個しかない構造情報Ｋ。か存在する場合には、当該Ｋ
。を有する文字情報領域ｂ↑は当該κ。を１個のみ有す
る力Ｘ否かを判定する（Ｓ２０２２）。

Ｓ２０２２の判定で構造情報Ｋ。８１個のみ有する場合
には、当該１個のみの情報Ｋ。を有する文字情報領域ｂ
ｔの構造情報Ｋ７ｊ当該１個の項目■Ｄ。のみとする処
理を行い（Ｓ２０２３）、その後Ｓ２０３を行なう。

例えば文字情報領域ｂｔｌ〜ｂｔ５を統合対象の全部と
し、文字情報領域ｂｔ１は構造情報Ｋとして■４を、領
域ｂｔ２は情報Ｋとして■４、１５を、領域ｂｔ３は情
報Ｋとして項目■６を、領ｔ或ｂｔ４は情報κとして■
６、■７を及び領域ｂｔ５は情報κとしてＩ７ｔ有する
ものとする。このとき１個しかない構造情報Ｋ０は■５
となり、これを有する領域ｂｔ２は情報Ｋ。をＩＤ５の
１個しか有さないので領域ｂ↑２の構造情報κそ■５の
みとする。

またＳ２０２２の判定で構造情報κ。をｗ１数個有する
場合には、これら複数個のＫ。を有する文字情報争域ｂ
ｔｔは本来級合しではならない領ＩＳを統合しで得た統
合領域であるので、当該複数個のκ。を有する文字情報
領域ｂｔを統合前の領域に戻す（Ｓ２０２４）。

例えば文字情報領域ｂｔ］〜ｂｔ５か統合対象の全部で
あり、領域ｂｔｌか構造情報κとして■４を、領域ｂｔ
２か情報Ｋとして■４を、領域ｂｔ３か情報Ｋとして工
５、■６を、頓域ｂｔ４及び領域ｂｔ５か情報Ｋとして
Ｉ７１有し、統合領域ｂｔ３か情報Ｋとしで■５及び■
６の情報を含む文字情報領域ｂｔ３１と、情報κとして
■５及び■６の情報を含む領域ｂｔ３２とを統合して得
た統合領域である場合である。

このような場合８２０２４では統合領域ｂｔ３を統合対
象から除くと共に統合対象から既に除外された領域ｂｔ
３１及びｂｔ３２を再び統合対象に加える。そしてｍ域
ｂｔ３１及びｂｔ３２のうち、イ）テックス領域工５に
距離かより近い領域に対し構造情報工５を付与し、同様
に領域ｂｔ３］及ひｂ↑３２のうちインデックス領１或
１６に距離力＼よつ近い領域に対しイシテツクス項目Ｉ
Ｄ６を付与する。ε２０２４で統合前の頓域ｂ↑３１及
びｂｔ３２に戻す処理を終えたらＳ２０３を行なう。

また８２１８では、注目領域ｂｔｌ及び統合候補ｂｔβ
か共通する構造情報Ｋを有するか否かを判定する（Ｓ２
１８）。

共通の構造情報Ｋを有きない場合には、次に８２２６を
行なう。

また共通の構造情報Ｋを有する場合には、次に注目領域
ｂｔｌ及び統合候補ｂｔβにとって共通でないｂｔｉ及
びｂｔＢの構造情報Ｋを、これらｂｔｉ、ｂｔβ以外の
統合対象となる文字情報領域ｂｔか有するか否かを判定
する（Ｓ２２０）．領域ｂｔｉ、ｂｔβの共通でない構
造情報Ｋを、これらｂｔｉ、ｂｔβ以外の文字情報領域
ｂｔか有きない場合には、次に８２２６を行なつ。

領域ｂｔｉ．ｂ↑３の共通でない橘造情報Ｋを、これら
ｂｔｉ、ｂ↑β以外の文字情報領域ｂｔか有する場合に
は、次にこれら領域ｂ↑ｉ、ｂｔＢを統合して統合領域
Ｔを得る処理を行なう（Ｓ２２２）　。

Ｓ２２２では、これら注目領域ｂｔｉ及び統合候補ｂｔ
Ｂを統合対象から除外すると共にこれら領域ｂｔｉ．ｂ
ｔｌ３の統合領域Ｔを新に統合対象に加える。そしてモ
デル情報メモリ３０に新な統合対象の統合領域Ｔの始点
座標、終点座標、構造情報Ｋ及びこの構造情報Ｋに対応
するインデックス領域工のインデックス項目ＩＤと、こ
の統合領域下か注目領域ｂｔｉ及び統合候補ｂｔβを統
合して得た文字情報領域ｂｔてあることを表す情報とを
格納する。

Ｓ２２２で得た統合領域Ｔの構造情報Ｋは、注目領域ｂ
ｔｉ及び統合候補ｂ．ｔβの構造情報Ｋの論理積（ＡＮ
Ｄ）とする。例えば注目領域ｂｔｉの構造情報Ｋか■４
、■５及び統合候補ｂｔβの構造情報Ｋか１５、■６で
あれば、統合領域Ｔの構造情報κはＩＤ５となる。従っ
て統合額域Ｔに付与するインデックス項目はこの構造情
報κてある■５に対応するインデックス頓域Ｉ一Ｉ５の
インテ・ンクス項目ＩＤとなる。

Ｓ２３０１ではモデル情報メモリ３０に統合対象としで
格納されている文字情報領域Ｆ′）ｔ全部の構造情報κ
を調へ、これら争域ｂｔの構造情報Ｋのなかで１個しか
ない構造情報Ｋ。を抽出する。

１個しかない構造情報Ｋ０か存在しなければＳ２３２１
を行ない、１個しかない構造情報Ｋ０か存在すれば当該
κ。を有する文字情報領域ｂｔか構造情報Ｋ。を］個の
み有するか否かを判定する（Ｓ２３０２）。

Ｓ２３０２の判定で文字情報領域ｂｔか有する構造情報
Ｋ。か１個のみてある場合には、当該文字情報領域ｂｔ
の構造情報Ｋを当該１個の構造情報Ｋ０のみとする処理
％Ｓ２０２３と同様に行い（Ｓ２３０３）．その後Ｓ２
３２１を行なう。

またＳ２０３２の判定で文字情報領域ｂｔか有する構造
情報κ。か複数個である場合には、当該文字情報領域ｂ
ｔは本来統合しではならない伜域を統合して得た統合頓
域Ｔてあるので、当該文字情報領域ｂｔを統合前の領域
ｂｔに戻す処理を８２０２４と同様に行ない（Ｓ２３０
４）　、その後Ｓ２３２　１を行なう。

Ｓ２３２１では、］サイクルの統合処理で統合を繰返す
うちに消滅してしまった橘造情報Ｋかないかを調へ、消
滅し茫構造情報Ｋかなければ次に８２３４を行なう。

消滅した構造情報Ｋかある場合には、この消滅情報Ｋの
文字情報領域ｂｔｔ再生するための処理を行なう（Ｓ２
３２２）。

この再生処理では、まずモデル情報メモリ３０を参照し
消滅情報Ｋ％有する統合前の文字情報領域ｂｔを抽出し
、この消滅情報κの争域ｂｔと共に統合された文字情報
領域ｂｔを抽出する。そして消滅情報Ｋの文字情報領域
ｂ↑及びこの領域ｂｔと統合された文字情報領域ｂｔそ
再び統合対象とすると共に、これら消滅情報Ｋの領域ｂ
ｔ及びこの領域ｂｔと統合された領域ｂ士とを統合して
得た統合領域Ｔを統合対象から除外する。

Ｓ２３６１では共通の構造情報Ｋそ有する統合対象の文
字情報ａｉ表ｂｔを統合するための処理を行なう。

Ｓ２３６　１で共通の構造情報Ｋを有する文字情報領域
ｂｔか存在しない場合には、このとき統合対象としてモ
デル情報メモリ３０に格納ざれている全ての文字情報領
域ｂｔの始点座標、終点座標及びインデックス項目ＩＤ
ｔ統合情報メモリ３４に格納スると共にフィールトセバ
レータとして抽出された文字情報領域ｂの始点座標、終
点座標及びインデックス項目Ｉ　Ｄ　％　Ｍ合情報メモ
リ３４に格納し、統合処理を終了する（１１７１作終了
）。

またＳ２３６　１で共通の構造情報Ｋを有する文字情報
領域ｂｔか存在する場合には、これら共通情報κの領域
ｂｔを統合して得た統合領域Ｔを統合対象に新に加える
と共にこれら共通情報κの領土或ｂｔを統合対象となる
文字情報領域ｂｔから除外し、そしてこの統合領域Ｔの
始点座標、終点座標及びインデックス項目ＩＤ％Ｓ２２
２の場合と同様にして決定する（Ｓ２３６２）。Ｓ２３
６２の統合を終了したら、このとき統合対象としてモデ
ル情報メモワ３０に格納ざれている全ての文字情報領域
ｂ↑の始点座標、終点座標及びインデックス項目ＩＤ！
統合情報メモリ３４に格納すると共にフィールトセバし
一夕として抽出された文字情報領域ｂの始点座標、終点
座標及びインデックス項目ＩＤｔ統合情報メモリ３４１
こ格納し、統合処理を終了する（動作終了）。

この実施例によれば仮想原点を原点とする座標系で表し
た座標位置を用いで、文字情報領域ｂとモデルのインデ
ックス領域とのマッチングを行ない、このマッチングに
より文字情報領域ｂに対して構造情報κそ付与する。そ
して構造情報Ｋを付与した文字情報領域ｂからます脚注
の領域を抽出し、そののち統合対象の文字情報領域ｂの
統合を行なう。

これかため、構造情報Ｋに対応するインデックス領域１
に含まれる文字情報領域ｂを正確に抽出てきる。また領
域分割により抽出ざれる文字情報領域ｂの位百の検出精
度か或る程度悪くともインデックス領域■に含まれる文
字情報領域ｂの抽出を行なえ、しかもこの抽出を高速に
行なえる。

第１８図に夷験結果の一例を示す。第１８図（Ａ）｛は
実験に供した２値の入力文書画像４６を示し、この画像
４６から、モデルを第４図に示すモデル４８とし第二の
インデックス抽出装置のこの実施例装Ｈにより抽出して
統合情報メモリ３４に格納した文字情報領域ｂａそれぞ
れ符号ｂ１〜ｂｌｏ！付した一点鎖線の矩形枠領域で図
中に示した。そして第１８図（Ｂ）に第１８図（Ａ）の
領域ｂ］〜ｂ１０の始点のｘ．ｙ座標、終点のｘ，ｙ座
標及びインデックス項目を表にしで示した。

また第１９図に実験結果の他の例を及び第２０図にモデ
ルの他の例を示す。第１９図は第１８図（Ａ）と同し２
値の入力文書画像４６ヲ示し、この画像４６から、モデ
ルを第２ｏ図に示すモデル４８とし第二のインデックス
抽出装置のこの芙施例装置により抽出して統合情報メモ
１ノ３４に格納した文字情報領域ｂをそれぞれ一点鎖線
の矩形枠領域で図中に示した。

第二のインテツウス抽出装置の統合手段５８は構造情報
κ，Ｉｔ照し同じインデックス領域内に含まれるとみな
される文字情報領域を統合して各インデックス領域に対
応する文字情報領域を検出する。

従って、第４図に示すモデルでは本文全体を包含するよ
うに本文のインデックス領域工Ｈｖｉ−設定しているの
で、第１８図にも示すように、本文の左右の欄を含むひ
とつの文字情報領域ｂ８かインデックス領域■。に対応
する領域として抽出されると共に文字情報領域ｂ８に含
まれる文字情報領ｉ’Ｊｉｂ９かインデックス領域■、
に対応する領域として抽出ざれる。

また第２０図に示すモデルでは本文のインデックス領域
を２つのインデックス領域■。，及びＩＨ２としインデ
ックス領域ＩＨＩそ本文の左欄全体を包含するようにま
たインデックス領域ＩＨ２を本文の右欄全体を包含する
よう１こ設定しているので、第１９図に示す芙験例では
本文の左欄の文字情報領ｉ！ｂＫ＋かインデックス領域
Ｉ　Ｋｌに対応する領域としてまた本文の右欄の文字情
報領域ｂＫ２かインテツウス領域ＩＫ２に対応する傾城
として抽出ざれ従って本文は左右の欄にそれぞれ分Ｈさ
れて抽出ざれると共に脚注の文字情報領域ｂＫと本文の
文字情報領域ｂＫｌとがそれぞれ分Ｍざれて抽出される
。このように第二のインデックス抽出装雪によれば、モ
デルのインデックス領域を任意好適な所望の形式に設定
することによって、その形式に応した文字情報領域ｂを
抽出できる。

一方、第一のインデックス抽出装置の統合手段１６はイ
ンデックス項目工を参照し同じインデックス項目の領域
を含むとみなざれる文字情報領域を統合して各インデッ
クス領域に対応する文字情報領域を検出するので、第４
図及び第２０図のいずれのモデルを用いても、本文の左
右の欄は分離しないで本文全体を含む領域を本文の文字
情報領域として抽出する。

この発明は上述した実施例にのみ限定ざれるものではな
く、従って各構成成分の構成、動作の流れ、処理条件、
処理内容、入出力情報の流れ、接続関係その他を任意好
適に変更できる。

例えば、上述した笑施例てはモデルのインデックス争域
を始点及び終点座標で表現したか、この他インデックス
領域を矩形枠としこの領域を始点座標とこの領域の横幅
及び縦幅て表現するようにしてもよい。

また仮想原点設定手段及び文字ブロック抽出手段か行な
う処理はどちらを先に行なってもよい。

ざらに文字領域抽出手段を入力文書画像から文字情報領
域のみを抽出する手段としてもよい。

上述した例では入力文書の全種類の情報領域の位置を基
準に仮想原点を設定したか仮想原点の位盲設定の基準と
する情報領域の種類は任意好適な−又は複数のｆ！類と
することかでき例えば文字情報領域の位蘭のみを基準に
して仮想原点を定めるようにしでもよい。また入力文書
の情報領域の位Ｍを基準とする仮想原点の設定の仕方を
上述の例にのみ限定するものではなく任意好適に変更で
き、例えば入力文書の情報領域の位置座標のなかの最大
のｘ．ｙ座標を検出しこれら最大のｘ．　ｙ座標を仮想
原点の位Ｍ座標とするようにしてもよい。

仮想原点設定手段を設けなくともよい。

（発明の効果）上述した説明からも明らかなように、この発明の菓−の
インデックス抽出装置によれば、入力文書画像から抽出
された入力文書の文字情報領域と書式情報に記述された
モデルのインデックス領域とのマッチングを行ない、入
力文書の文字情報領域かモデルのインデックス領域と重
なり合う場合に当該文字情報領域に対し当該インデック
ス領域のインデックス項目を付与する。

そしてインデックス項目％？照し入力文書の文字情報領
域のなかから同じインデックス項目の情報を含むとみな
ざれるものを統合して統合領域を得、ざらに統合領域及
び又は入力文書の文字情報領域のなかから同しインデッ
クス項目の情報を含むとみなざれるものを統合して統合
領域を得る。

このような統合を、同じインデックス項目の情報を含む
とみなされる文字情報領域及び又は統合領域かなくなる
まで繰り返す。

従ってマッチング手段においで入力文書の文字情報領域
に対して複数のインテツウス項目か付与されたとしても
、同しインデックス項目の情報を含むとみなざれるもの
のみ％１ｉＲ合してゆくので、インデックス項目と入力
文書の文字情報領域とを精度良く対応付けることかでき
る。

インデックス項目と文字情報領域とを精度良く対応付け
ることができるので、入力文書の文字情報領域及びモデ
ルのインデックス領域の重なりの判定に用いるこれら領
域の属性（特に位Ｍ）に間し、文字情報領域の属性の検
出精度を緩和でき、ざらにインデックス領域の属性の設
定精度を緩和できる。

またこの発明の第二のインテツウス抽出装置によれば、
入力文書の文字情報領域とモデルのインデックス領域と
のマッチングを行ない、入力文書の文字情報領域かモデ
ルのインデックス領域と重なり合う場合に当該文字情報
領域に対し当該インテツウス領域に含まれることを表す
構造情報を付与する。

そして横這情報ヲ替照し入力文値の文字情報領域のなか
から同じインデックス領域に含むとみなざれるものを統
合して統合領域を得、ざらに統合領域及び又は入力文書
の文字情報領域のなかから同じインデックス頓ｔ或に含
まれるとみなされるものを統合して統合争域を得る。こ
のような統合を、同じインデックス領１或に含まれると
みなされる文字情報領域及び又は統合領域かなくなるま
で繰り返す。

従ってマッチング手段においで入力文書の文字情報領域
に対して複数の構造情報か付与されたとしても、同しイ
ンデックス領域に含まれるとみなされるもののみヲ統合
してゆくので、入力文書の文字情報領域を本来帰属すべ
きインデックス領域に精度良く対応付けることかできる
。また文字情報領域に本来帰属すべきインデックス領域
のインデックス項目を付与することにより、文字情報領
域とインテツウス項目とを精度良く対応付けることかて
きる。

インデックス領域と文字情報領域とを精度良く対応付け
ることかできるので、入力文嘗の文字情報領域及びモデ
ルのインデックス領域の重なりの判定に用いるこれら領
域の属性（特に位薗）に開し、文字情報領域の属性の検
出精度を緩和でき、ざらにインデックス領域の属性の設
定精度を緩和できる。

【図面の簡単な説明】

第１図はこの発明の第一のインデックス抽出装置につき
その実施例の構成を概略的に示す機能ブロック図、第２図は２値の入力文書画像の一例を示す図、第３図は
情報領域の属牲の一例を示す図、腑４図はモデルの一例
を示す図、第５図はインデックス領域の属性の一例を示す図、第６図は領域分割不能な文字情報領域の例を示す図、第７図はこの発明の第一のインデックス抽出装置につき
その英施例のマッチング手段の動作フローの一例を示す
図、第８図（Ａ）〜（Ｃ）はこの発明の第一のインデックス
抽出装置につきその実施例の統合手段の動作フローの一
例を示す図、第９図（Ａ）〜（８）はＳ２０Ｑの統合処理の説明図、第］Ｏ図（Ａ）〜（Ｂ）はＸ軸方向において並列する文
字情報領ｔ＊ｂｔの伯の例を示す図、菓１１図は注目す
る文字情報領域ｂｔｉと共通する領域を有する文字情報
領域の例を示す図、第１２図は８２０８の処理の説明図
、第１３図はＳ２１０の処理の説明図、第１４図はＳ２２２の処理の説明図、第１５図はこの発明の第二のインデックス抽出装置につ
きその寅施例の構成を概略的に示す機能ブロック図、第１６図はこの発明の第二のインデックス抽出装置につ
きその実施例のマッチング手段の動作フローの一例を示
す図、第１７図（Ａ）〜（Ｃ）はこの発明の第：のインデツウ
ス抽出装置につきその実施例の統合手段の動作フローの
一例を示す図、第］８図（Ａ）〜（Ｂ）は第二のインテ・ンクス抽出装
置の寅施例装置による実験結果を示す図、第１９図は第二のインデックス抽出装置の実施例装置に
よる他の実験結果を示す図、第２ｏ図はモデルの他の例を示す図である。０、５２　−・・インデックス袖出装嘗２、５４　−・
・文字領域抽出手段４、５６　−・・マッチング手段６、５８・・・統合手段８、６４・・・領域分割手段２０、６６　−・・文字ブロック選別手段２２、６０・
・・仮想原点設定手段２４、６２　−・・脚注抽出手段。

Claims

【特許請求の範囲】

（１）入力文書の文字情報領域を抽出する文字領域抽出
手段と、前記文字情報領域と書式情報に記述されたモデルのイン
デックス領域とのマッチングを行なって、前記文字情報
領域が前記インデックス領域と重なり合う場合に当該文
字情報領域に対し当該インデックス領域のインデックス
項目を付与するマッチング手段と、前記インデックス項目を参照し同じインデックス項目の
情報を含むとみなされる文字情報領域を統合する統合手
段とを備えて成ることを特徴とするインデックス抽出装
置。
（２）前記文字領域抽出手段を、白黒２値の入力文書画
像から情報内容の種類別に入力文書の情報領域を抽出す
る領域分割手段と、前記情報領域から文字情報領域を抽
出する文字ブロック選別手段とから構成することを特徴
とする請求項１に記載のインデックス抽出装置。
（３）前記入力文書の情報領域の位置を基準にして仮想
原点を定める仮想原点設定手段を設けて成ることを特徴
とする請求項２に記載のインデックス抽出装置。
（４）前記仮想原点設定手段を、前記入力文書の一又は
複数種類の情報領域の位置座標のうち最小のｘ座標及び
最小のｙ座標を仮想原点の位置座標として定める手段と
したことを特徴とする請求項３に記載のインデックス抽
出装置。
（５）前記マッチング手段を、前記入力文書の文字情報
領域の始点及び終点の座標を仮想原点からみた座標に変
換し、該文字情報領域の始点及び終点の変換後の座標を
含む前記モデルのインデックス領域を検出した場合に当
該インデックス領域のインデックス項目を前記文字情報
領域に付与する手段としたことを特徴とする請求項３又
は４に記載のインデックス抽出装置。
（６）前記インデックス項目を付与した文字情報領域の
統合前に、前記文字情報領域のなかから脚注領域を抽出
する脚注抽出手段を設けて成ることを特徴とする請求項
１〜５のいずれか一項に記載のインデックス抽出装置。
（７）前記脚注抽出手段を、脚注のインデックス項目を
付与された文字情報領域のなかから、Ｘ軸方向において
フィールドセパレータと重なりしかも原点との間にフィ
ールドセパレータをはさむ位置に位置する文字情報領域
を検出し、当該検出領域及びフィールドセパレータの間
に他の文字情報領域が存在しない場合に当該検出領域を
脚注情報領域として抽出する手段としたことを特徴とす
る請求項６に記載のインデックス抽出装置。
（８）前記統合手段を、前記入力文書の注目する文字情
報領域αからＹ軸方向に見て最も距離の近い文字情報領
域を統合候補βとして抽出しさらに該候補βからＹ軸方
向に見て最も距離の近い文字情報領域γを抽出して文字
情報領域α及びγが一致した場合に、これら文字情報領
域α及び統合候補βが共通するインデックス項目を有す
れば、これら文字情報領域α及び統合候補βを統合し文
字情報領域α及び統合候補βの統合領域の始点座標とし
て文字情報領域α及び統合候補βの始点座標のうち最小
のｘ座標及び最小のｙ座標を検出しこれと共に前記統合
領域の終点座標として文字情報領域α及び統合候補βの
終点座標のうち最大のｘ座標及び最大のｙ座標を検出す
る手段としたことを特徴とする請求項１〜７のいずれか
一項に記載のインデックス抽出装置。
（９）入力文書の文字情報領域を抽出する文字領域抽出
手段と、前記文字情報領域と書式情報に記述されたモデルのイン
デックス領域とのマッチングを行なって、前記文字情報
領域が前記インデックス領域と重なり合う場合に当該文
字情報領域に対し当該インデックス領域に含まれること
を表す構造情報を付与するマッチング手段と、前記構造情報を参照し同じインデックス領域に含まれる
とみなされる文字情報領域を統合する統合手段とを備え
て成ることを特徴とするインデックス抽出装置。
（１０）前記文字領域抽出手段を、白黒２値の入力文書
画像から情報内容の種類別に入力文書の情報領域を抽出
する領域分割手段と、前記情報領域から文字情報領域を
抽出する文字ブロック選別手段とから構成することを特
徴とする請求項９に記載のインデックス抽出装置。
（１１）前記入力文書の情報領域の位置を基準にして仮
想原点を定める仮想原点設定手段を設けて成ることを特
徴とする請求項１０に記載のインデックス抽出装置。
（１２）前記仮想原点設定手段を、前記入力文書の一又
は複数種類の情報領域の位置座標のうち最小のｘ座標及
び最小のｙ座標を仮想原点の位置座標として定める手段
としたことを特徴とする請求項１１に記載のインデック
ス抽出装置。
（１３）前記マッチング手段を、前記入力文書の文字情
報領域の始点及び終点の座標を仮想原点からみた座標に
変換し、該文字情報領域の始点及び終点の変換後の座標
を含む前記モデルのインデックス領域を検出した場合に
当該インデックス領域に含まれることを表す構造情報を
前記文字情報領域に付与する手段としたことを特徴とす
る請求項１１又は１２に記載のインデックス抽出装置。
（１４）前記構造情報を付与した文字情報領域の統合前
に、前記文字情報領域のなかから脚注領域を抽出する脚
注抽出手段を設けて成ることを特徴とする請求項９〜１
３のいずれか一項に記載のインデックス抽出装置。
（１５）前記脚注抽出手段を、脚注のインデックス領域
に含まれる文字情報領域のなかから、Ｘ軸方向において
フィールドセパレータと重なりしかも原点との間にフィ
ールドセパレータをはさむ位置に位置する文字情報領域
を検出し、当該検出領域及びフィールドセパレータの間
に他の文字情報領域が存在しない場合に当該検出領域を
脚注情報領域として抽出する手段としたことを特徴とす
る請求項１４に記載のインデックス抽出装置。
（１６）前記統合手段を、前記入力文書の注目する文字
情報領域αからＹ軸方向に見て最も距離の近い文字情報
領域を統合候補βとして抽出しさらに該候補βからＹ軸
方向に見て最も距離の近い文字情報領域γを抽出して文
字情報領域α及びγが一致した場合に、これら文字情報
領域α及び統合候補βが共通の構造情報を有すれば、こ
れら文字情報領域α及び統合候補βを統合し文字情報領
域α及び統合候補βの統合領域の始点座標として文字情
報領域α及び統合候補βの始点座標のうち最小のｘ座標
及び最小のｙ座標を検出しこれと共に前記統合領域の終
点座標として文字情報領域α及び統合候補βの終点座標
のうち最大のｘ座標及び最大のｙ座標を検出する手段と
したことを特徴とする請求項９〜１５のいずれか一項に
記載のインデックス抽出装置。