JPH03218569A - インデックス抽出装置 - Google Patents

インデックス抽出装置

Info

Publication number
JPH03218569A
JPH03218569A JP2109932A JP10993290A JPH03218569A JP H03218569 A JPH03218569 A JP H03218569A JP 2109932 A JP2109932 A JP 2109932A JP 10993290 A JP10993290 A JP 10993290A JP H03218569 A JPH03218569 A JP H03218569A
Authority
JP
Japan
Prior art keywords
area
index
information
character information
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2109932A
Other languages
English (en)
Inventor
Kazuhiro Ishikawa
和弘 石川
Sadamasa Hirogaki
広垣 節正
Yutaka Mazaki
裕 真崎
Shuichi Fujikura
秀一 藤倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2109932A priority Critical patent/JPH03218569A/ja
Publication of JPH03218569A publication Critical patent/JPH03218569A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) この発明はインデックス抽出装薗、特に学術論文誌等の
文書を蓄積するデータヘースにおいてテータ検索に必要
なインデックス情報を抽出するための装置に閉する。
(従来の技術) 従来より、文′Hを蓄積するテータヘースにおいてデー
タ検索に必要なタイトル、発行日等のインデックス情報
を、人手によらす機械的に入力するための研荒か進めら
れでいる。機械的に入力するための技術としで、例えば
文献工:電子情報通信学会技術研究報告vo1.87.
No.202. 1E87−75,pp. 43〜4B
 ( 1987年10月)に提案ざれているものかある
この文献値の従来技術では、ます、テータヘースに蓄積
ざれるべき入力文書の種類を識別する。
この識別には、文書の文字、図表等の情報か記載ざれて
いる各情報領域の属性(位置、大きざ、コンテントタイ
プ及びインデックス項目)を記述した書式情報を用いる
。書式情報は文書の種類別に用意ざれ、各種類別に書式
情報の情報領域の属性(仁置、大きさ及びコンテントタ
イプ)と入力文書の情報領域の属性とを照合し、所定の
許容範囲内でこれら属牲が一致するとき当該書式情報の
種類を入力文書の種類と判定する。ここて、入力文書及
び書式情報の情報領域の位曹は入力文書画像を格納する
メモリ上の一定の位置を原点として表現ざれるものであ
る。
次に、識別された文書の種類の書式情報を用いて各イン
デックス項目に対応する入力文書の情報領域を識別する
.この識別では、書式情報及び入力文書に関してインデ
ックス項目の識別ための情報領域の属性を照合し、書式
情報及び入力文書の情報領域の属性か所定の許容範囲内
で一致するとき書式情報の情報領域のインデックス項目
を入力文書の情報領域に対応付ける. そしてインデックス項目に対応する入力文書情報領域内
の情報を当該インデックス項目のインデックス情報とし
て蓄積する。
(発明が解決しようとする課題) しかしなから上述の従来技術では、書式情報及び入力文
書の情報領域の属牲か所定の許容虻囲内て一敗するとき
書式情報の情報領域か有するインデックス項目を入力文
書の情報領域に対応付ける。
従って書式情報の1個の情報領域に対し入力文書の1個
の情報領域か対応するように正確に入力文書の領域分割
を行なう必要がある。
また同し種類の入力文書においで印刷すれや画像読取り
時のセッティングすれ等によって情報領域の位置に誤差
が生するのを考慮しで属牲一敗の許容範囲(特に情報領
域の位置、大きざに間する許容虻囲)を大きくすれば、
入力文書の1個の情報争域に対し1個のインデックス項
目か対応付けられるべきてあるのに複数個のインデック
ス項目か対応付けられてしまうことがある.これを避け
るため属性一敗の許容虻囲を小きくすると印刷すれ等に
よる誤差の発生のために入力文書の情報領域に対応付け
るべきインデックス項目を見つけられないことかあり、
従っで属牲一敗の許容範囲の最適化は難しく、特に異な
るインデックス項目の情報曽域か近梯し合う、文書構造
か複雑な論文誌等にあいで難しい。
ざらに上述した従来技術では、入力文書画像を格納する
メモリ上の一定の位1iを常に原点として情報領域の位
置を表すので情報領域の位蘭は印刷すれ、読取時のセッ
ティングすれ等に起因する誤差を含み、この誤差が属性
の一致、不一致の判定精度を悪くする。
この発明の目的は上述した従来の問題点を解決するため
、入力文書の文字情報領域の統合処理を行なうようにし
たインデックス抽出装Mを提供することにある。
(課題を解決するための手段) この目的の達成を図るため、この発明の第一のインデッ
クス抽出装置は、入力文書の文字情報領域を抽出する文
字領域抽出手段と、文字情報領域と書式情報に記述され
たモデルのインデックス領域とのマッチングを行なって
、文字情報領域かインデックス領域と重なり合う場合に
当該文字情報領域に対し当該インデックス領域のインデ
ックス項目を付与するマッチング手段と、インデックス
項目を参照し同しインテツウス項目の情報を含むとみな
される文字情報領域を統合する統合手段とを備えて成る
ことを特徴とする。
ざらにこの発明の第二のインデックス抽出装置は、入力
文書の文字情報領域を抽出する文字領域抽出手段と、文
字情報領域と書式情報に記述されたモデルのインデック
ス領域とのマッチングを行なって、文字情報領域かイン
デックス領域と重なり合う場合に当該文字情報領域に対
し当該インデックス領域に含まれることを表す構造情報
を付与するマッチング手段と、構造情報を参照し同しイ
ンデックス領域に含まれるとみなされる文字情報領域を
統合する統合手段とを備えて成ることを特徴とする。
(作用) このような構成の第一のインデックス抽出装置によれば
、入力文書画像から抽出された入力文書の文字情報領域
と書式情報に記述されたモデルの文字情報領域(以下、
インデックス領域)とのマ・ンチングを行ない、入力文
書の文字情報領域かモデルのインデックス領域と重なり
合う場合に当該文字情報領域に対し当該インデックス領
域のインデックス項目を付与する。
そしてインデックス項目ヲ参照し入力文書の文字情報領
域のなかから同しインデックス項目の情報を含むとみな
ざれるものを統合して統合領域を得、ざらに統合領域及
び又は入力文書の文字情報領域のなかから同じインデッ
クス項目の情報を含むとみなざれるものを統合して統合
領域を得る。
このような統合を、同じインデックス項目の情報を含む
とみなされる文字情報禦域及び又は統合領域がなくなる
まで繰り返す。尚、統合領域も文字情報領域である。
このように同しインデックス項目の情報を含むとみなさ
れるもののみを統合してゆくので、入力文書の文字情報
領域に対して複数のインデックス項目か付与されたとし
ても、本来対応付けるべきインテツウス項目と入力文書
の文字情報領域とを精度良く対応付けることかできる。
複数のインデックス項目か付与された場合でもインデッ
クス項目と文字情報領域とを精度良く対応付けることか
できるので、入力文富の文字情報琴域及びモデルのイン
デックス領域の重なりの判定に用いるこれら領域の属性
に(特に位置)間し、文字情報領域の属性の検出精度を
緩和でき、ざらにインデックス領域の属性の設定精度を
緩和できる。
また第二のインデックス抽出装置によれば、入力文書の
文字情報領域とモデルのインデックス領域とのマッチン
グを行ない、入力文書の文字情報領域かインデックス領
域と重なり合う場合に当該文字情報領域に対し当該イン
デックス領域に含まれることを表す構造情報を付与する
そして構造情報を参照し、人力文書の文字情報領域のな
かから同じインデックス領域に含まれるとみなされるも
のを統合して統合領域を得、ざらに統合領域及び又は入
力文書の文字情報領域のなかから同しインデックス領域
に含まれるとみなされるものを統合して統合領域を得る
。このような統合を、同しインデックス領域に含まれる
とみなされる文字情報領域及び又は統合領域かなくなる
まで繰り返す。
このように同しインデックス領域に含まれるとみなされ
るもののみを統合してゆくので、入力文書の文字情報領
域に対して複数の構造情報か付与されたとしても、入力
文書の文字情報領域を本来帰属すべきインデックス領域
に精度良く対応付けることができる.また文字情報領域
に本来帰属すべきインデックス領域のインデックス項目
を付与することにより、文字情報領域とインデックス項
目とを精度良く対応付けることができる。
インデックス領域と文字情報領域とを精度良く対応付け
ることかできるので、入力文書の文字情報領域及びモデ
ルのインデックス領域の重なりの判定に用いるこれら領
域の属性(特に位M)に関し、文字情報領域の属性の検
出精度を緩和でき、ざらにインデックス領域の属性の設
定精度を緩和できる。
(実施例) 以下、図面を譬照し、この発明の寅施例につき説明する
。尚、図面はこの発明か理解できる程度に概略的に示し
てあるにすぎす、従って各構成成分の構成、入出力信号
の流れ及び接続間係を図示例に限定するものではない。
第1図はこの発明の第一のインデックス抽出装置の実施
例の説明に供するブロック図である。
同図にも示すように、この実施例のインデックス抽出装
M10は、入力文書の文字情報領域を抽出する文字領域
抽出手段12と、文字情報領域と書式情報に記述された
モデルのインデックス領域とのマッチングを行なって、
文字情報領域がインデックス領域と重なり合う場合に当
該文字情報領域に対し当該インデックス領域のインデッ
クス項目を付与するマッチング手段14と、インデック
ス項目1g照し同しインデックス項目の情報を含むとみ
なざれる文字情報領域を統合する統合十段16とを備え
て成る。
そしてこの実施例では、インデックス抽出装置10に入
力文書の情報領域の位Mを基準にして仮想原点を定める
仮想原点設定千段22と、インデックス項目を付与した
文字情報領域の統合前に、文字情報領域のなかから脚注
領域を抽出する脚注抽出手段24とを設け、また文字領
域抽出十段12を、白黒2値の入力文書画像から情報内
容の種類別に入力文書の情報領域を抽出する領域分割手
段18と、前記情報領域から文字情報領域を抽出する文
字ブロック選別手段20とから構成する。
ざらにこの実施例では、領域分割により得た入力文書の
情報領域の属性を格納する領域情報メモリ25と、仮想
原点の座標を格納する仮想原点メモリ26と、入力文書
の文字情報領域に開する情報を格納する文字ブロックメ
モリ28と、書式情報を格納する書式メモリ29と、マ
ッチング手段14によるマッチング結果及び統合処理に
間する情報を格納するモデル情報メモリ30と、統合処
理結果を格納する統合情報メモリ34とを、インデック
ス抽出装[10に設ける。尚、第1図において36は入
力文書の画像を出力する前処理装Mを示す。
以下、より詳細に説明する。
(前処理装M) 図示例の前処理装1136は、読取部38、多値画像メ
モリ40、2m化千段42及び2値画像メモリ44から
成る。
読取部38はC C D (Charc+e Coup
led Device)等のイメージセンサを備え、情
報媒体である入力文書を任意好適な解像度(例えば8本
/ m m以上)のイメージセンサで走査し、この走査
で得た入力文書の多悌画像(多値画像デ〜ク)を多値画
像メモリ40に格納する。
2@化手段42はメモリ40から読み込んた多値画像を
2値画像(2値画像データ)に変換しこの2値画像を2
値画像メモリ44に格納する。文字線部を2値画像の黒
ヒットで及び文字背景部を白ヒットで表す。2値化処理
技術として、これに限定するものではないか、例えばr
FAX・OAのための画像の信号処理 吹抜敬彦著 日
刊工業新聞社pp. 5〜25」ヤ、「特開昭61−1
03372号公報」に開示されでいる技術を用いる。
第2図に2値画像メモリ44に格納された入力文書の2
値画像46の一例を示す。同図にも示すように、2値画
像メモ1)44土にはメモリ上の任意好適な位百を原点
○aとするX−Y直交座標系を設定してあり、この座標
系で表現される画素位冒の2悌画像の読出しを自在に行
なえるように構成している。文字行に沿う方向を、例え
ばX軸方向とする。
尚、図中の一点鎖線で示す矩形枠は入力文書の文字情報
領域の境界を表し説明の便宜のために示されたものであ
り実際の2優画像46中には表現ざれない。
(文字領域抽出手段) a)領域分割手段 この実施例の領域分割手段18は、主走査及び副走査方
向を例えばX軸及びY軸方向とし、2@画像メモリ44
内の21画像46ヲ走査して入力文書の領域分割を行な
う。この領域分割で、入力文書の情報領域Bをその情報
内容の種類別に検出する共にその位置を検出し、検出し
た情報領域Bの情報内容の!!類及び位曹をその属性と
して領域情報メモリ25に格納する。
領域分割処理技術として、これに限定するものではない
か、例えは[周辺分布、線凹度、タト接矩形特徴を併用
した文書画像の領t1分割:電子情報通信学会論文誌’
86/8  Vol. J69−D No.8pp. 
1187〜+ +96Jや、「欧文テキスト画像にあけ
る文字領域の抽出アルゴリズム・電子情報通信学会論文
誌’83/4  Vol.J66−D  No.4  
pp. 437 〜444」や、「特開昭62〜713
79号公報」に開示されている技術を用いることができ
る。
第2図に、領域分割により検出された情報領域Bの例を
一点鎖線の矩形枠で囲んで示す。尚、第2図の2値画像
46の例では、フィールドセパレー夕を例えば罫線で表
しでいるか、この罫線の情報領域を表す一点鎖線の矩形
枠は罫線の輪郭に一致するのでこの矩形枠を省略する。
また第3図に、情報―壇8の属牲の例を表にして示す。
第3図は第2図の2値画像と同し書式の他の2値画像に
間して得た属性を示すものであって、第3図においでは
2値画像から抽出した個々の情報領域已にそれぞれ符号
81〜B16を付しで表し、これら領域81〜B16の
属性を数値的に表しで表の各欄■〜■に記載している。
欄■、■、■、■及び■の各数偵はそれぞれ情報領域8
の始点X座標、始点y座標、終点X座標、終点y座標及
び情報内容の種類を表す。欄■〜■の座標は2埴画像メ
モリ44上の点Oa%原点とする座標系で表してあり情
報領域Bは欄■〜■に示す座標の始点及び終点を対角線
の両端点とする矩形枠となる。また欄■の数悌コードは
情報領域Bの情報内容のa頬(大分類)表し、情報内客
のa類が図表、写真、フィールドセパレータ及び文字で
ある場合をそれぞれコード1、2、3及び4で表す。
b)文字ブロック選別手段 この実施例の文字ブロック選別手段20は、領域分割手
段18か情報内容の1!頬別に抽出した情報領域Bのな
かから、文字情報領域bt抽出する。この抽出ては属t
!ヲ調べで情報内容の種類か文字であることを表すコー
ト4てある情報領域Bを文字情報領域bとし、この文字
情報領域bの位M等の属牲を文字ブロックメモリ28に
格納する。
(仮想原点設定手段) この実施例の仮想原点設定千段22は、一又は複数種類
の情報領域Bの位M座標のうち最小のX座標及び最小の
y/i標を検出し、これら最小のX及びy座標を仮想原
点の位!座標と定め仮想原点メモリ26に格納する.こ
の仮想原点の設定に用いる情報領域Bの位言情報は、少
なくとも文字情報領域bの位置情報を含む。例えば情報
内容の種類(大分類)の全種コード1〜4の情報禦域B
の位貫座標に間して得た最小のX及びy座標を仮想原点
の座標とする場合、第3図の例61〜816では仮想原
点○bの座標(x,y)= (1 68、150)とな
る。
尚、情報領域Bの始点座標につき得た最小のX座標及び
最小のy座標を仮想原点の座標として検出するようにす
れば、処理速度を上げることができる。
(書式メモリ) この実施例では、複数の異なる種類の書式毎にモデルを
用意し、モデルのインデックス争域■の属嘗を各モデル
毎に書式メモリ29に格納する。
第4図に、モデルの一例を示す。同図に示すモデル48
は第2図の2値画像46の入力文書のti類に対応する
ものてある。モデル48は複数のインデックス領域■を
備え、図中、インデックス領域工を一点鎖線の矩形枠で
囲んで示した。インデックス領域■は対応する入力文書
の文字情報領域bが存在し得る領域であり、各インデッ
クス領域工の位置、インデックス項目ID(項目IOに
ついては後述する)等の属性か設定ざれでいる.インデ
ックス領域工の設定に当っては、同し書式の複数の入力
文書につき文字情報領域bの存在位置のデータを蓄積し
、着目したインデックス項目IDの文字情報領域に関し
蓄積した全ての存在位置を包含する領域をインテ・ンク
ス領域■と設定すればよいので、モデル48の作成及び
修正が容易となる。
また統合千段16によって統合処理を行なうので、異な
るインデックス領域工同士か互いに重なり合わないよう
にする必要かあった従来とは違い、異なるインデックス
領域工同士を重なり合うように設定してもインデックス
項目IDに対応付けるへき文字情報qtibv精度良く
検出てきる。
第5図に、インデックス領域工の属性の例を表にしで示
す。第5図においては、第4図のモデル48の個々のイ
ンデックス領域工にそれぞれ符号工1〜工9を付しで表
し、これら領域I]〜■9の属性を数値的に表しで表の
各欄■〜■に記載しでいる。欄■、■、■、■及び■の
各数1はそれぞれインデックス領域Iの始点X座標、始
点y座標、終点xi標、終点y座標及びインデックス項
目■Dを表す.a■〜■の座標は次に述べるようにして
表したものである. ます、21画像メモリ44上に設定したX−Y座標系に
対応する座標系をモデル48上に設定しこの座標系で表
した各インデックス領域工の座標のなかから最小のX座
標及び最小のy座標を検出する。次にこれら最小のX及
びy座標の位1vi−仮想原点○CとするX−Y座標系
をモデル48上に設定しこの座標系で表した各インデ・
ンクス領域Iの座標を欄■〜■に記載する。インデック
ス領域1は、情報傾城Bの場合と同様、欄■〜(’T)
に示す座標の始点及び終点を対角線の両端点とする矩形
枠となる。
また欄■に数値コートで表したインデックス項目IDは
文字情報領域bの情報内容の種類(小分類)ヲ表し、イ
ンデックス項目IDが例えば本文、日本語表現のタイト
ル、英語表現のタイトル、日本語表現の著者名、要約、
文献名、巻数号数、脚注及び真数である場合をそれぞれ
数値コート4、5、6、7、9、11、12、13、]
4及び15で表す。
第6図は領域分割不能な文字情報領域の例を示す図であ
り、入力文書の2頓画像中の一部を拡大して示す。
領域分割処理においでは、同図にも示すように、論文誌
名、論文番号(巻数号数)、頁及び発表年月日等複数の
情報内容かあるにもかかわらす、これら複数の情報内容
の領域を個別に分割して抽出できずひとつのMLEとし
て抽出してしまうこともある。このような場合には、人
間の目で見て確認しない限り複数の情報内容を個別に分
割することは難しい。原則として1個のインデックス領
域■には1個のインデックス項目IDを付与するか、領
域分割不能か予想される場合には、これら分割不能とな
るおそれのある複数の匍域を同し1個のインデックス領
域■に対応付けるようにモデルを作成しこの領域工に対
しこれら分割不能な領域のインデックス項目IDの全部
を付与し欄■に記載するのか好ましい.例えば第6図の
場合、論文誌名、巻数号数、頁及び日付の4個のインデ
ックス項目ID!1個のインデックス領域工に対し付与
すればよい。
(マッチング手段) この笑施例のマッチング手段14は入力文書の文字情報
領域bの始点及び終点の座標を仮想原点からみた座標に
変換し、この文字情報領@bの始点及び終点の変換後の
座標を含むモデルのインデックス領域工を検出した場合
に当該文字情報領域bに対し当該インデックス領域工の
インデックス項目をイ寸存する。
ここで入力文嘉の棧頼は予め判明しているものとし、マ
ッチング手段14はその種類に対応するモデルの属ti
=t照して文字情報領域b及びインデックス領域■のマ
ッチングを行なう。
後の処理で文字情報領域bとインデックス項目IDとを
精度良く対応付けるために統合処理か行なわれるので、
マッチング千段14による処理において1個の文字情報
領域bに対して複数個のインデックス項目ID!付与し
ても構わない。
またこの実施例では、文字情報領域b及びインデックス
領域■の座標を、仮想原点を原点とするX−Y座標系で
表し、この座標を用いて文字情報領域b及びインデック
ス領域■の包含関係を調へマッチングを行なうので、文
書の印制すれや読取り時のセッティングすれ等かある場
合でも文字情報領tubとインデックス領域■とを精度
良く対応付けることかできる。
第7図はマッチング手段の動作フローの一例を示す図で
ある。以下、第7図を参照しマッチング千段14の動作
の流れにつき一例を挙げて説明する。
ここで、文字プロ・ンク選別手段20により文字情報領
域bの抽出を終了した時点でn個の文字情報領域b(こ
れら個々の文字情報領tfibにそれぞれ符号b]、b
2、・・・、bnを付して表す)か文字ブロックメモリ
28に格納ざれているものとする。
そしてこれらn個の文字情報領域bか抽出された入力文
書に対応する種類(書式)のモデルか、m個のインデッ
クス9J[I(これら個々のインデックス領域工にそれ
ぞれ符号I 1 、−・、■2、・・・Imを付して表
す)を有するものとする。
文字情報領域bの抽出及び入力文書上の仮想原点○bの
設定か終了すると、マッチング手段14は動作を開始し
、ます制御変数1を初期@1に初期化し(S100)、
さらに制御変数jを初期値1に初期化する(5102)
次に文字ブロックメモリ28から点Oa%原点とする座
標系で表した文字情報領域biの座標を読出し、この座
標を仮想原点obからみた座標に変換する。
ここで点○aを原点とする座標系で表した文字情報領域
b値のX座標及びy座標、点Oaを原点とする座標系で
表した仮想原点ObのX座標及びy座標をそれぞれx(
bi)及びy(bi)、×(○b)及びy (Ob)と
表せば、文字情報領域biの変換後のX及びy座標はx
 (bi)−x (Ob)及びy (b i) −y 
(Ob)である。
そして文字情報領t’4biの始点及び終点の変換後の
座標とインデックス領域工〕の座標との大小関係を判定
し、次の条件■及び■の双方を満足するか否かを判定す
る(S104)。
条件■:文字情報領域biの始点の変換俊のX座標悌か
インデックス領域Ijの始点のX座標1以上となり、か
つ領域biの始点の変換後のy座標値か領域Ijの始点
のy座標1以上となる。
条件■・文字情報領域b値の終点の変換後のX座標偵か
インデックス領域工〕の終点のX座標偵以下となり、か
つ領域biの終点の変換後のy座標値か領域Ijの終点
のy座標値以下となる。
5104て粂件σ)及び又は■を満足しない場合、後述
するS108の処理を行なう。
また条件■及び■の双方を満足するとき文字情報領域b
iはインデックス輸域Ijに包含きれるのてこの文字情
報領域b1に対しインデックス領域■〕のインデックス
項目IDV付与し、文字情報領域biのインデックス項
目ID及び位万座標をモデル情報メモリ30に格納し(
S106).次いてS108の処理を行なう。
S108では、文字情報領域bitm個のインデックス
領域Iの全てとマッチングさせたか否かを判定する。
j=mでなければm個全部のインデックス領域lとマッ
チングさせていないことを表すので制御変数コに1を加
算し(S]]O)、その後SIO4の処理に戻る。
またj=mであればm個全部のインデックス争域■とマ
ッチングさせたことを表すので、次にn個の文字情報領
域bの全てにつきマッチング処理を終えたか百力1そ判
定する(5112)。
i=nでなければn個全部の文字情報領域bにつきマッ
チング処理を終えてないことを表すので制御変数iに1
を加算し(5114)、その?&S102の処理に戻る
またi=nであればn個全部の文字情報領域bにつきマ
ッチング処理7i!終えたことを表すので、マッチング
千段14は動作を終了する。モデル情報メモリ14は、
マッチング処理を終了した時点で文字情報領域b]〜b
nのそれぞれのインデックス項目ID及び位置座標を格
納する。
(脚注抽出手段) 脚注情報領域の位置は書式か同し種類であっても文:I
F毎に異なることが多くその所在は不安定である。例え
ば同一書式の学術論文誌においでは、脚注のほとんどは
文書の左下にあるが、脚注か文書の右下に存在したつ脚
注がなかったつするこどもある。このようにその所在か
不安定な脚注情報領域の抽出を正確に行なうため、脚注
はフイールトセバレー夕により文書本文と区別ざれると
いう一般的′I!貢を利用し、脚注情報領域を単独に抽
出する処理を行なう。
このためこの実施例の脚注抽出手段24は、モデル情報
メモリ30を参照し脚注のインデックス項目IDを付与
された文字情報領域bを第一脚注候補として検出する。
次に領域情報メモワ25のフィールトセバレータの情報
領域Bの属性を参照し、第一脚注候補の文字情報領域b
のなかから、X軸方向においでフィールドセパレー夕と
重なり(■の状態)しかも原点(Oa或はOc)との間
にフィールドセパレータをはきむ位置に位置する(■の
状態)文字情報領fttbi第二脚注候補としで検出す
る.例えば文字情報領域bの始点から終点までのxi標
の範囲とフィールドセバレー夕の情報領域の始点からV
!点までのX座標の範囲とか共通虻囲を有する場合を、
■の状態と判定し、例えばフィールトセパレー夕の終点
のy座標か文字情報領域bの始点のy座標よりも小ざ〈
なる状態を、■の状態と判定する。
そして第二脚注候補の文字情報領域bとフィールトセバ
レータとの間に文字情報領域bか存在しない場合に、こ
の第二脚注候補を脚注情報領域と決定する。
脚注抽出手段24は脚注情報領域としで抽出した文字情
報領域bの、モデル情報メモリ30に格納ざれでいるイ
ンテ・ンクス項目を、脚5主であることを表すインデッ
クス項目IDのみとする処理を行なう。
(統合手段) この実施例の統合手段16は統合対象となる文字情報領
域btのインデックス項目及び位言座標を利用して、文
字情報領域btの統合処理を行なつ。
統合十段16は次に述べる処理を統合処理の基本とし、
この基本処理を、統合すべき文字情報領域b(以下、文
字情報領域bt)かなくなったとみなせるまで繰返し行
なう。
基本処理では、冫王目する文字情報領域btαからY軸
方向に見て最も距離の近い文字情報領域btを統合候補
btβとして抽出しさらにこの候補btβからY軸方向
に見て最も距離の近い文字情報領域btγを抽出する。
そしてこれら文字情報領域btα及び候補btγが一致
した場合に、これらstab↑α及び候補btβか共通
するインデックス項目IDを有すれば、当該領域btα
及び候補btBを統合する。この統合では、領域btα
及び候補btI3i統合しで得られる文字情報曽域すな
わち統合領域Tの始点座標として領域btα及び候補b
tβの始点座標のうち最小のX座標及び最小のy座標を
検出し、これと共にこれら領域btα及び候補1)tB
の統合領域下の終点座標として領域btα及び候補bt
βのV!点座標のうち最大のX座標及び最大のy座標を
検出する。
次に第8図そ参照し、この寅施例の統合千段16の動作
につき具体例を挙げて説明する。
第8図(A)〜(C)は統合手段の動作フローの一例を
示す図である。以下に説明する処理では、例えば点○a
を原点とする座標系で表した位置座標を用いる。
級合手段16は脚沫情報領域の抽出か終了すると動作を
開始し、ます、統合対象の文字情報領域bt(以下、単
に統合対象とも称す)をマッチング処理終了時点でモデ
ル情報メモリ30に格納された全ての文字情報領域bと
する。尚、この文字情報領域btは脚注抽出手段24に
より脚注と決定された文字情報領域bを含む。
そしてX軸方向に沿って並列しかつ共通するインデック
ス項目IDを有する文字情報領域btを統合するための
処理を行なう(S200)。
S200てはX軸方向に沿って並列しかつ共通するイン
デックス項目ID!有する文字情報領域btか存在すれ
ばこれら文字情報領域btv統合し、そののちS202
 1で1個しがないインデックス項目ID0か存在する
か否かを判定する。また5200でX軸方向に治って並
列しかつ共通するインデックス項目IDを有する文字情
報領域btか存在しなければ、次に8203で閾+kl
!n%設定する。
第9図(A)〜(B)はS200で文字情報領域btか
統合される場合の処理の説明に供する図及び第10図(
A)・〜(B)は並列する文字情報領域btの例を示す
図である. 第9図(A)及び第10図(A)〜(B)にも示すよう
に文字情報領域btのY軸方向における存在虻囲(始点
のy座標から終点のy座標までの虻囲)かつながるもの
同士或はY軸上への投影か互いに連結し合うもの同士を
、X軸方向に沿って並列する文字情報領域btとして検
出する.第9図(A)中、このようにして抽出した並列
する文字情報領域btを符号btl〜bt4を付して示
すと共に、領域btl及びbt2の始点から終点までの
y座標範囲を符号Y1及びY2を付して示す。文字情報
領域btlを注目する文字情報領域btαと表現し文字
情報領域bt2〜bt4を統合候補と表現することもで
きる。
並列する文字情報領域bt1〜b↑4を検出すると、次
にこれらbt1〜bt4においで共通するインデックス
項目IDかあるか杏かを調へる。
ここで、文字情報領域btlはインデックス項目IDI
、ID2を、領域bt2は項目IDI、ID2を、領域
t)t3は項目ID2を及び領域bt4はID3を有す
るものとすると、共通のインデックス項目ID2を有す
る領域btl〜bt3lF!:統合することとなる。
領域bt1〜bt3を統合して得た統合領域(文字情報
領域)■を第9図(B)に示す.統合領域Tの始点のX
座標を統合された領域bt1〜bt3の始点のX座標の
うち最小のX座標で表し及び統合曽域Tの始点のy座標
を領域btl〜bt3の始点のy座標のうち最小のy座
標で表す。同様に統合領域Tの終点のX及びy座標を領
域1)tl〜bt3の終点のX及びy座標のうち最大の
X及びy座標で表す。
また統合領域Tに対しては領域btl〜bt3のインデ
ックス項目IDの論理和(○R)であるインデックス項
目ID1、I D2!付与する。
そして統合領tl7の位フ及びインデックス項目と、統
合領域Tか文字情報領域btl〜bt3を統合して得た
領域であることを表す情報とをモデル情報メモリ30に
格納する。これと共に3200で統合された文字情報領
域bt1〜bt3を統合対象から除外し、統合領域Tを
新な統合対象として加え、そしてS200での統合処理
を終了する。
S200での統合処理が終了すると、次にモデル情報メ
モリ30か格納する統合対象の文字情報領域bt全部の
インデックス項目工Dを調べ、これらsmbtのインデ
ックス項目IDのなかで1個しかないもの、すなわちあ
る1つの文字情報領域btのみか有し残りの他の文字情
報領域btは有きナいインデックス項目ID(以下、イ
ンデックス項目IDo)か存在するか否か判定する(S
202])。
1個しかないインデックス項目ID。か存在しなければ
、次に8203で閾@ n v!設定する。
1個しかないインデックス項目IDoか存在する場合に
は、当該IDoを有する文字情報領域b↑は当該IDo
i1個のみ有するか否かを判定する(S2022)。
S2022の判定でインデックス項目ID。を1個のみ
有する場合には、当該1個のインデックス項目ID。を
有する文字情報領域IDを当該1個の項目IDoのみと
する処理を行い(32023)、その後S203て閾値
nを設定する。
例えば文字情報領域bt1〜bt5を統合対象の全部と
し、文字情報領域bt1はインデックス項目ID4を、
領域bt2は項目ID4、ID5を、領域bt3は項目
ID6を、領域bt4は項目ID6、ID7を及び領t
*btsは項目ID7を有するものとする。このとき1
個しかないインデックス項目IDoはID5となり、こ
れを有する領域bt2は項目工D。をID5の1個しか
有ざないので領域bt2のインデックス項目IDをID
5のみとしID4を削除する. またS2022の判定でインデツウス項目IDoを複数
個有する場合には、これら複数個のIDoを有する文字
情報領域btは本来統合してはならない領域を級合して
得た統合領域であるので、当該複数個のIDoを有する
文字情報領域btを統合前の領域の戻す(S2024)
例えば文字情報領域btl〜bt5か統合対象の全部で
あり、領域btlか項目ID4を、争域bt2か項目I
D4を、領域bt3か項目ID5、ID6を、領域bt
4及び領域bt5が項目ID7を有し、統合領域bt3
かインデックス項目ID5及びID6の情報を含む文字
情報領域bt31と、ID5及びID6の情報を含む領
1表bt32とを統合して得た統合領域である場合であ
る。
そこでこの統合領域bt3を統合前の禦域bt31及び
bt32に戻すため、S2024では統合領壇bt3を
統合対象から除くと共に統合対象から既に除外された領
域1)t31及びbt32を再び統合対象に加える。そ
して匍域bt31及びbt32のうち、インデックス項
目ID5のインデックス領域■に距離かより近い領域に
対しインデックス項目ID5を付与し、同様に領域bt
3]及びbt32のうちインデックス項目ID6のイン
デックス領域■に距離かより近い領域に対しインデック
ス項目ID6V付与する。52024で統合前の額域b
t31及びt)t32に戻す処理を終えたらS203で
閾値nを設定する。
但し、これらID5及びID6か第6図に示すような領
域分割不能のおそれかあるため1個のインデックス領域
に対し付与されたインデックス項目である場合にはS2
024の処理を行なわない。
S203では、S203を行なう時点にあいて統合対象
となっている文字情報領域btの総個数を、閾値nとす
る(5203)。この総個数nの文字情報領域btのそ
れぞれを符号btl、bt2、・・・、btnを付して
表す。
次いてflaqに、統合できる統合対象の文字情報領域
btかなくなったことを表す情報Oを設定し(S204
)さらに制御変数it初期11に初期化する(5206
)。
次に、注目する文字情報領域btαを統合対象となる文
字情報領域bti(i−1、2、・・・n)とし、この
注目領域btiを除く残りの統合対象の文字情報領域b
tのなかに注目領域btiとの共通の領域を有する注目
領域bti以外の領域btか存在するか否かを判定する
(S207)。
第11図に、注目領域btiとの共通の領域(図中ハッ
チングを付しで示す領域)を有する統合対象の文字情報
領域bti示す. 共通の領域を有する文字情報領域btが存在したら、こ
の領域btv統合候補btβとしで抽出し(S209)
、次いて後述するS218で注目領域bti及び候補b
tβか共通するインデックス項目■Dを有するか否かを
判定する。
また共通の領域を有する文字情報領t!Iibtが存在
しない場合には、次に8208の処理を行なつ。
第12図は5208の処理の説明図である.図中、Y軸
方向にあける領域bti.btp間の距N及U領域bt
 i、btqfW]の距aV符号ffp及びβQ(j7
p>βq)で表すと共に、X軸方向において領域bt1
、btpの重なり節囲及び領域bti、btqの重なり
虻囲を符号Xi,p及びXi.qを付して表す。
8208では、第12図にも示すように、X軸方向にお
いて注目領域btiと重なり合う文字情報領域btp.
btq!モデル情報メモリ30から抽出し、これら領域
btl).btqのなかからY軸方向に見て注目領域b
tiと距離の最も近い領域btqを統合候補btβとし
で抽出する。
次に注目領域bti及び統合候補btβの間にフィール
トセバレータか存在するか否かを判定する(5210)
第13図はS210の処理の説明に供する図であり、注
目領域btiと5208で抽出した統合候補btβ(b
 t Q)との間にフィールドセパレータか存在する場
合を示す図である。
フィールトセバレータは文字情報領域btv区分する境
界を表しこの境界で情報の内容か異なることを表すので
、この笑施例では第13図にも示すように注目領域bt
i、統合候補btβ(b↑q)問にフィールトセバレー
夕か存在する場合には、領域bti.btβ(b t 
Q)を統合しない。
このためS210で注目領tsbti及び統合候補bt
B(1)tQ)の間にフィールドセパレータか存在する
か否かを判定する。
第13図にも示すように注目領域bti、統合候補bt
β(b t Q)の間にフィールドセパレタの情報領域
B(図中、符号Bfで表した)か存在する場合には、Y
軸に沿う方向において注目領域btiをはざみ候補b↑
β(b t Q)とは反対側の領域に位言し、かつX軸
方向にあいて注目領域btiと重なり合う文字情報領壊
btを検出する。モして模出した文字情報領域btのな
かから、Y軸方向において最も距離の近い領vibtp
を検出し、当該領域btDを統合候補btqにかえて新
な統合候補b↑βとし(S212).次にS214てこ
の統合候補btβ(b t p)と所定の位置関係にあ
る文字情報領域b↑γを検出する。
また第12図にも示すように汀目領域bti、統合候補
btB(btQ)の間にフィールトセパレー夕か存在し
ない場合には、S210に次いて8214で統合候補b
tβ(b t Q)と所定の位置間係にある文字情報領
域btγを検出する。
S214では統合候補btβを除く文字情報領域btの
なかから統合候補btβとX軸方向において重なり合い
最も距離の近い文字情報領域bt(注目禦域btlを含
む)を領域btγとしで抽出する。
次に、注目領域bti及び統合候補btγか致するか杏
かを判定する(S216)。
領域bti.btγが一敗しなければ、次に後述する8
226で制御変数1か閾値nと等しくなったか否かを判
定する。
また領域btl,btγが一致する場合には、注目領域
b↑1及び統合候補btβか共通するインデックス項目
IDV有するか否かを判定する(S218)。
共通のインデックス項目IDを有さない場合には、次に
8226で制御変数1か閾値nと等しくなったか否かを
判定する。
また共通のインデックス項目ID!有する場合には、次
に注目領域bti及び統合候補btβに共通でないbt
i及びbtBのインデックス項目IDI、これらbti
、btβ以外の統合対象となる文字情報領域btが有す
るが杏かを判定する(S220)。
領域bti、btβの共通でないインデックス項目工D
を、これらb↑1、btB以タトの文字情報響tibt
か有さない場合には、次に8226で制御変数1か閾値
nと等しくなったが否かを判定する。
領域bti、btsの共通でないインデックス項目ID
t、これらbti、btβ以外の文字情報領域bt7!
7t有する場合には、次にこれら領域bti、b↑Bを
統合して統合領域Tを得る処理を行なう(S222)。
S222ては、これら注目領域bti及び統合候補bt
13を統合対象から除外すると共にこれら領域bti、
btβの統合領壇Tを新に統合対象に加える.そしてモ
デル情報メモソ30に新な統合対象の統合領域Tの始点
座標、終点座標及びインデックス項目と、この統合領域
Tが注目領域btl及び統合候補btsを統合しで得た
文字情報領域btであることを表す情報を格納する.S
222で得た統合領域Tのインデックス項目IOは、注
目領域btl及び統合候補btβのインデックス項目I
Oの論理槓(AND)とする。
例えば注目領域bt値のインデックス項目がID4、I
D5及び統合候補btβのインデックス項目かID5、
ID6であれば、統合領tfiTのインデックス項目は
ID5となる。
S222で得た統合領域Tの始点、終点座標の決定につ
き第14図%=7照し説明する。第14図はS222の
説明に供する図である。
第14図にも示すように、S222の統合領域下の始点
座標のX座標及びy座標は領壇bti、btβの始点座
標のうち最小のX座標及び最小のy座標となり、また統
合領域Tの終点座標のX座標及びy座標は領域bt1、
btaの終点座標のうち最大のX座標及び最大のyi標
となる。
S222の処理か終わると、次にf lagに、統合で
きる文字情報領域btが未た存在することを表す情報]
を設定し(S224)、次いで制御変数1は閾値nと等
しいか杏かを判定する(S226)。
i=nでなければ、次の統合対象の文字情報領域btに
閏して統合処理を行なうべく制御変数jに1を加算し(
S228)、その後8207の処理に戻る。
i=nであれば、1サイクルの統合処理を終了したこと
を表すのでモデル情報メモリ30に統合対象として格納
されている文字情報領域bt全部のインデックス項目I
D%調へ、これら領域btのインデックス項目IDのな
かで1個しかないインデックス項目IDoを抽出する(
S230])。
1個しかないインデックス項目IDOか存在しなければ
、1サイクルの統合処理において消滅したインデックス
項目IDか存在するか杏かを判定する(S2321)。
1個しかないインデックス項目IDoが存在すれは、当
該IDoを有する文字情報領域btが項目IDoを1個
のみ有するが否かを判定する(S2302)。
S2302の判定で文字情報領域btが有する項目■D
oか1個のみてある場合には、当該文字情報領域btの
インデックス項目IDを当該1個の項目IDoのみとす
る処理%S2023と同様に行い(S2303) 、そ
の後S232 値の処理を行なう。
またS2032の判定で文字情報領域btが有する項目
■Doか複数個である場合には、当該文字情報領域bt
は本来統合しではならない領域を統合して得た統合領域
Tであるので、当該文字情報領域btを統合前の争域b
tに戻す処理を82024と同様に行ない(S2304
).その後S232]の処理を行なう。
S2321では、]サイクルの統合処理で統合を繰返す
うちに消滅しでしまったインテッタス項目TDかないか
を謂へ、シ肖滅した項目IDかな1サれば次にS234
てflaqの情報を調べる。
消滅した項目IDがある場合には、この消滅項目IDの
文字情報領域bti再生するための処理を行なう(S2
322)。
この再生処理では、まずモデル情報メモリ30を参照し
消滅項目IDを有する統合前の文字情報領域btを抽出
し、この消滅項目IDの領域btと共に統合された文字
情報領域btを抽出する。そして消滅項目IOの文字情
報領@bt及びこの領域btと統合された文字情報領域
btを再び統合対象とすると共に、これら消滅項目ID
の領域bt及びこの領域btと統合された領域btとを
統合しで得た統合領域Tを統合対象から除外する。
このようにしでS232の再生処理を終了したら、次に
fla9の情報IJXtft合できる統合対象の文字情
報領域btかなくなったことを表す情報Oであるか否か
を判定する(S234)。
flaq=○てなければ統合できる統合対象の文字情報
領域btか未た存在するので次の1サイクルの統合処理
を行なうへく、閾値nの再設定を行ない(S235)、
その後S204の処理に戻る。S235ては、S235
を行なう時点でモデル情報メモリ30か格納する統合対
象の文字情報領域btの総個数を閾[nとする。
fla9=oであれば、共通のインデ・ンクス項目ID
を有する統合対象の文字情報領域btを統合するための
処理を行なう(S2361)。尚、注目領域bt1〜b
tnの全てに開しS216、S218又はS220で判
定結果かNOとなった場合に、はしめてS234てfl
aq=oとなる。
S2361で共通のインデックス項目IDを有する文字
情報領域btか存在しない場合には、このとき統合対象
としてモデル情報メモリ30に格納ざれている全ての文
字情報領域btの始点座標、終点座標及びインデックス
項目IDを統合情報メモリ34に格納すると共にフィー
ルトセバレー夕として抽出された文字情報領域bの始点
座標、終点座標及びインデックス項目IDu統合情報メ
モリ34に格納し統合処理を終了する(動作終了)。
統合情報メモリ34に格納した文字情報領域内にこの領
域のインデックス項目IDに対応する情報内容の情報(
インデックス情報)か存在するので、外部装M50(第
1図参照)はこのインテ・ンウス情報を利用して文書を
蓄積するテータヘースを作成する。
またS2361で共通のインデックス項目IDを有する
文字情報領域btが存在する場合には、これら共通項目
IDの領域btを統合して得た統合領域T8M合対象に
新に加えると共にこれら共通項目IDの領域btを統合
対象となる文字情報領域b↑から除外する。そしてこの
統合領域Tの始点座標、終点座標及びインテ・ンクス項
目IDを8222の場合と同様にして決定する(S23
62)。S2362の統合を終了したら、このとき統合
対象としてモデル情報メモリ30に格納されている全て
の文字情報領t* b↑の始点座標、終点座標及びイン
テツウス項目IDを統合情報メモ1ノ34に格納すると
共にフイールトセバレータとして抽出された文字情報領
域bの始点座標、終点座標及ひインデックス項目ID%
統合情報メモリ34に格納し、統合処理を終了する(動
作終了)。
この笑施例によれば仮想原点を原点とする座標系で表し
た座標位Mを用いて、文字情報領域bとモデルのインデ
ックス額域とのマッチングを行ない、このマッチングに
より文字情報領域bに対してインデックス項目IDを付
与する。そしてインデックス項目工Dを付与した文字情
報領域bからます脚注領域とみなす領域を抽出し、統合
対象の文字情報領域bの統合を行なう。
これかため、所定のインデックス項目IDに対応する情
報内容の文字情報領域bv正確に抽出てきる。また領域
分割により抽出ざれる文字情報領土或bの位置の検出精
度か或る程度悪くともインデックス項目IDに対応する
文字情報領域bの抽出を行なえしかも、この抽出を高速
に行なえる。
第15図はこの発明の第二のインデックス抽出装置の実
施例の説明に供するブロック図である。
以下の説明では、上述した実施例と同様の点については
その詳細な説明を省略する。
同図にも示すように、この寅施例のインデックス抽出装
置52は、文字領域抽出千段54と、入力文書の文字情
報争域とモデルのインデックス領域とのマッチングを行
なって、文字情報領域かインデックス領域と重なり合う
場合に当該文字情報領域に対し当該インデックス領域に
含まれることを表す構造情報を付与するマッチング手段
56と、構造情報%9照し同しインデックス争域に含ま
れるとみなされる文字情報領v2を統合する統合手段5
8とを備えて成る。
そしてこの笑施例ては、インデックス抽出装置52に仮
想原点設定手段60と、構造情報を付与した文字情報領
域の統合前に、文字情報領域のなかから脚注領域を抽出
する脚注抽出手段62とを設け、また文字領域抽出手段
54を、領域分割千段64及び文字プロ・ンク選別手段
66から構成する。
ざらにこの寅施例ては、輸域情報メモリ68、仮想原点
メモリTO、文字ブロックメモリ72、書式メモリ74
、モデル情報メモリ76及び統合情報メモリ78ヲ、イ
ンデックス抽出装置10に設ける。
以下、より詳細に説明する。
(書式メモリ) 統合手段56によって統合処理を行なうので、異なるイ
ンデックス領域■同士か互いに重なり合わないようにす
る必要かあった従来とは違い、異なるインデックス領域
I同士を重なり合うように設定しても文字情報領fft
bを本来帰属ざせるへきインテ・ンクス領域Iと精度良
く対応付けることができる。
(マッチング手段) この実施例のマッチング千段56は入力文書の文字情報
領域bの始点及び終点の座標を仮想原点からみた座標に
変換し、この文字情報領域bの始点及び終点の変換後の
座標を含むモデルのインデックス領域■を検出した場合
に当該文字情報領域bに対し当該インデックス領域■に
含まれることを表す構造情報K%付与する。例えば各イ
ンデックス領域■に付した符号工1〜■9を構造情報K
として用い、文字情報領tlbは構造情報K=I1t付
与されていればこの構造情報Kに対応するインデックス
領域■1に含まれる。
後の処理で文字情報領域bとインデックス項目IDとを
精度良く対応付けるために統合処理か行なわれるので、
マッチング手段14による処理において1個の文字情報
領域bに対して複数個の構造情報Kt−付与しても構わ
ない。
第16図はマッチング手段の動作フローの一例を示す図
であり、S106の処理内容か異なるほかは上述したマ
ッチング千段]4の動作フロ(第7図誉照)と同しであ
る。
S104において粂件■及び■の双方を満足するとき文
字情報領域biはインデックス領域Ijに包含されるの
で、この実施例のマッチング手段56は、この文字情報
領域biに対し構造情報κとしで1コを付与すると共に
インデックス領域Ijのインデックス項目IDu付与し
、これら文字情報領tibiの横造情報及びインデック
ス項目IDと文字情報領tibiの位置座標とをモデル
情報メモ1ノ30に格納する(3106)。
従ってモデル情報メモワ14は、マツチンク処理そ終了
した時点で文字情報領域b1〜bnのそれぞれの構造情
報K、インデックス項目ID及び位M座標を格納する。
(脚注抽出手段) 脚注抽出千段62は脚注情報領域として抽出した文字情
報領域bの、モデル情報メモリ30に格納ざれでいる構
造情報K及びインデックス項目IDを脚注のインデック
ス領域工の符号のみ及び脚注のインデックス項目IDの
みとする処理を行なう。
例えばインデックス領域■値のインデックス項目IDは
本文及びインデックス領域■2のインデックス項目ID
は脚注であり、脚注情報領域として抽出された文字情報
領tubか構造情報κとして■1及びI2%またインデ
ックス項目IDとして本文及び脚注を有する場合、この
文字情報領域bの構造情報κ%I値のみとしまたこの文
字情報領壇bのインデックス項目IDを脚レ主のみとす
る。
(統合手段) この笑施例の統合手段58は統合対象となる文字情報領
域bの構造情報K及び位酉座標を利用しで、文字情報領
域bの統合処理を行なう。
統合の基本処理では、文字情報領域btα及び候補bt
γが一致した場合にこれら領域btα及ひ候補btβか
共通する構造情報Kを有すれば、当該領域btα及び候
補btBを統合するようにする。このほかは、上述の統
合手段16と同様に基本処理を行なう。
第17図(A)〜(C)は統合手段の動作フローの一例
を示す図である。以下、第17図の各ステップの処理内
容につき説明するか、第8図を参照し説明した統合十段
16の処理内容と同様の点については、詳細な説明を省
略する。
S200ではX軸方向に冫台って並列しかつ共通する構
造情報κを有する文字情報領域btを統合するための処
理を行なう。5200でX軸方向に泡って並列しかつ共
通する槙造情報Kを有する文字情報領域btか存在すれ
ばこれら文字情報領域btを統合したのちS202 1
を行ない、またS200でX軸方向に沿って並列しかつ
共逼する構造情報Kを有する文字情報領域btか存在し
なければ次いて3203を行なう。
S200にあいて第9図(A)にも示すように並列する
文字情報領域btl〜bt4を検出すると、これらbt
1〜bt4において共通する構造情報Kかあるか否かを
調へる。
ここで、文字情報領域btlは構造情報κとして■1、
■2を、領域bt2は情報Kとして■]、■2を、領域
bt3は情報Kとして■2を及び領域1)t4は情報K
としてIl有するものとすると、共通の構造情報Kを有
する領域bt1〜bt3を統合し統合領域Tを得る。
統合領域Tに対しでは領域btl〜bt3の構造情報K
の論理和(○日)である■]及びI2%当該領tiTの
構造情報Kとして付与する。ざらにこれらlli造情報
■]、■2に対応するインデックス領域工1、■2のイ
ンデックス項目IDを統合領域Tに付与する。
そして統合領域Tの位置、構造情報K及びインデックス
項目IDと、統合領域Tか文字情報領域btl〜bt3
を統合して得た領域であることを表す情報とをモデル情
報メモリ30に格納する。これと共に5200で統合さ
れた文字情報領域b↑1〜bt3を統合対象から除外し
、統合領域Tを新ナ統合対象として加える。
S200での統合処理か終了すると、次にモデル情報メ
モリ30か格納する統合対象の文字情報領域b↑全部の
構造情報Kを調へ、これら構造情報Kのなかで1個しか
ないもの、すなわちある1つの文字情報領域btのみか
有し残りの他の文字情報領域btか有ざない構造情報κ
(以下、桶追情報KO)か存在するか杏か判定する(S
2021)。
1個しかない構造情報K0か存在しなければ、次に32
03を行なう。
1個しかない構造情報K。か存在する場合には、当該K
。を有する文字情報領域b↑は当該κ。を1個のみ有す
る力X否かを判定する(S2022)。
S2022の判定で構造情報K。81個のみ有する場合
には、当該1個のみの情報K。を有する文字情報領域b
tの構造情報K7j当該1個の項目■D。のみとする処
理を行い(S2023)、その後S203を行なう。
例えば文字情報領域btl〜bt5を統合対象の全部と
し、文字情報領域bt1は構造情報Kとして■4を、領
域bt2は情報Kとして■4、15を、領域bt3は情
報Kとして項目■6を、領t或bt4は情報κとして■
6、■7を及び領域bt5は情報κとしてI7t有する
ものとする。このとき1個しかない構造情報K0は■5
となり、これを有する領域bt2は情報K。をID5の
1個しか有さないので領域b↑2の構造情報κそ■5の
みとする。
またS2022の判定で構造情報κ。をw1数個有する
場合には、これら複数個のK。を有する文字情報争域b
ttは本来級合しではならない領ISを統合しで得た統
合領域であるので、当該複数個のκ。を有する文字情報
領域btを統合前の領域に戻す(S2024)。
例えば文字情報領域bt]〜bt5か統合対象の全部で
あり、領域btlか構造情報κとして■4を、領域bt
2か情報Kとして■4を、領域bt3か情報Kとして工
5、■6を、頓域bt4及び領域bt5か情報Kとして
I71有し、統合領域bt3か情報Kとしで■5及び■
6の情報を含む文字情報領域bt31と、情報κとして
■5及び■6の情報を含む領域bt32とを統合して得
た統合領域である場合である。
このような場合82024では統合領域bt3を統合対
象から除くと共に統合対象から既に除外された領域bt
31及びbt32を再び統合対象に加える。そしてm域
bt31及びbt32のうち、イ)テックス領域工5に
距離かより近い領域に対し構造情報工5を付与し、同様
に領域bt3]及ひb↑32のうちインデックス領1或
16に距離力\よつ近い領域に対しイシテツクス項目I
D6を付与する。ε2024で統合前の頓域b↑31及
びbt32に戻す処理を終えたらS203を行なう。
また8218では、注目領域btl及び統合候補btβ
か共通する構造情報Kを有するか否かを判定する(S2
18)。
共通の構造情報Kを有きない場合には、次に8226を
行なう。
また共通の構造情報Kを有する場合には、次に注目領域
btl及び統合候補btβにとって共通でないbti及
びbtBの構造情報Kを、これらbti、btβ以外の
統合対象となる文字情報領域btか有するか否かを判定
する(S220).領域bti、btβの共通でない構
造情報Kを、これらbti、btβ以外の文字情報領域
btか有きない場合には、次に8226を行なつ。
領域bti.b↑3の共通でない橘造情報Kを、これら
bti、b↑β以外の文字情報領域btか有する場合に
は、次にこれら領域b↑i、btBを統合して統合領域
Tを得る処理を行なう(S222) 。
S222では、これら注目領域bti及び統合候補bt
Bを統合対象から除外すると共にこれら領域bti.b
tl3の統合領域Tを新に統合対象に加える。そしてモ
デル情報メモリ30に新な統合対象の統合領域Tの始点
座標、終点座標、構造情報K及びこの構造情報Kに対応
するインデックス領域工のインデックス項目IDと、こ
の統合領域下か注目領域bti及び統合候補btβを統
合して得た文字情報領域btてあることを表す情報とを
格納する。
S222で得た統合領域Tの構造情報Kは、注目領域b
ti及び統合候補b.tβの構造情報Kの論理積(AN
D)とする。例えば注目領域btiの構造情報Kか■4
、■5及び統合候補btβの構造情報Kか15、■6で
あれば、統合領域Tの構造情報κはID5となる。従っ
て統合額域Tに付与するインデックス項目はこの構造情
報κてある■5に対応するインデックス頓域I一I5の
インテ・ンクス項目IDとなる。
S2301ではモデル情報メモリ30に統合対象としで
格納されている文字情報領域F′)t全部の構造情報κ
を調へ、これら争域btの構造情報Kのなかで1個しか
ない構造情報K。を抽出する。
1個しかない構造情報K0か存在しなければS2321
を行ない、1個しかない構造情報K0か存在すれば当該
κ。を有する文字情報領域btか構造情報K。を]個の
み有するか否かを判定する(S2302)。
S2302の判定で文字情報領域btか有する構造情報
K。か1個のみてある場合には、当該文字情報領域bt
の構造情報Kを当該1個の構造情報K0のみとする処理
%S2023と同様に行い(S2303).その後S2
321を行なう。
またS2032の判定で文字情報領域btか有する構造
情報κ。か複数個である場合には、当該文字情報領域b
tは本来統合しではならない伜域を統合して得た統合頓
域Tてあるので、当該文字情報領域btを統合前の領域
btに戻す処理を82024と同様に行ない(S230
4) 、その後S232 1を行なう。
S2321では、]サイクルの統合処理で統合を繰返す
うちに消滅してしまった橘造情報Kかないかを調へ、消
滅し茫構造情報Kかなければ次に8234を行なう。
消滅した構造情報Kかある場合には、この消滅情報Kの
文字情報領域btt再生するための処理を行なう(S2
322)。
この再生処理では、まずモデル情報メモリ30を参照し
消滅情報K%有する統合前の文字情報領域btを抽出し
、この消滅情報κの争域btと共に統合された文字情報
領域btを抽出する。そして消滅情報Kの文字情報領域
b↑及びこの領域btと統合された文字情報領域btそ
再び統合対象とすると共に、これら消滅情報Kの領域b
t及びこの領域btと統合された領域b士とを統合して
得た統合領域Tを統合対象から除外する。
S2361では共通の構造情報Kそ有する統合対象の文
字情報ai表btを統合するための処理を行なう。
S236 1で共通の構造情報Kを有する文字情報領域
btか存在しない場合には、このとき統合対象としてモ
デル情報メモリ30に格納ざれている全ての文字情報領
域btの始点座標、終点座標及びインデックス項目ID
t統合情報メモリ34に格納スると共にフィールトセバ
レータとして抽出された文字情報領域bの始点座標、終
点座標及びインデックス項目I D % M合情報メモ
リ34に格納し、統合処理を終了する(1171作終了
)。
またS236 1で共通の構造情報Kを有する文字情報
領域btか存在する場合には、これら共通情報κの領域
btを統合して得た統合領域Tを統合対象に新に加える
と共にこれら共通情報κの領土或btを統合対象となる
文字情報領域btから除外し、そしてこの統合領域Tの
始点座標、終点座標及びインデックス項目ID%S22
2の場合と同様にして決定する(S2362)。S23
62の統合を終了したら、このとき統合対象としてモデ
ル情報メモワ30に格納ざれている全ての文字情報領域
b↑の始点座標、終点座標及びインデックス項目ID!
統合情報メモリ34に格納すると共にフィールトセバし
一夕として抽出された文字情報領域bの始点座標、終点
座標及びインデックス項目IDt統合情報メモリ341
こ格納し、統合処理を終了する(動作終了)。
この実施例によれば仮想原点を原点とする座標系で表し
た座標位置を用いで、文字情報領域bとモデルのインデ
ックス領域とのマッチングを行ない、このマッチングに
より文字情報領域bに対して構造情報κそ付与する。そ
して構造情報Kを付与した文字情報領域bからます脚注
の領域を抽出し、そののち統合対象の文字情報領域bの
統合を行なう。
これかため、構造情報Kに対応するインデックス領域1
に含まれる文字情報領域bを正確に抽出てきる。また領
域分割により抽出ざれる文字情報領域bの位百の検出精
度か或る程度悪くともインデックス領域■に含まれる文
字情報領域bの抽出を行なえ、しかもこの抽出を高速に
行なえる。
第18図に夷験結果の一例を示す。第18図(A){は
実験に供した2値の入力文書画像46を示し、この画像
46から、モデルを第4図に示すモデル48とし第二の
インデックス抽出装置のこの実施例装Hにより抽出して
統合情報メモリ34に格納した文字情報領域baそれぞ
れ符号b1〜blo!付した一点鎖線の矩形枠領域で図
中に示した。そして第18図(B)に第18図(A)の
領域b]〜b10の始点のx.y座標、終点のx,y座
標及びインデックス項目を表にしで示した。
また第19図に実験結果の他の例を及び第20図にモデ
ルの他の例を示す。第19図は第18図(A)と同し2
値の入力文書画像46ヲ示し、この画像46から、モデ
ルを第2o図に示すモデル48とし第二のインデックス
抽出装置のこの芙施例装置により抽出して統合情報メモ
1ノ34に格納した文字情報領域bをそれぞれ一点鎖線
の矩形枠領域で図中に示した。
第二のインテツウス抽出装置の統合手段58は構造情報
κ,It照し同じインデックス領域内に含まれるとみな
される文字情報領域を統合して各インデックス領域に対
応する文字情報領域を検出する。
従って、第4図に示すモデルでは本文全体を包含するよ
うに本文のインデックス領域工Hvi−設定しているの
で、第18図にも示すように、本文の左右の欄を含むひ
とつの文字情報領域b8かインデックス領域■。に対応
する領域として抽出されると共に文字情報領域b8に含
まれる文字情報領i’Jib9かインデックス領域■、
に対応する領域として抽出ざれる。
また第20図に示すモデルでは本文のインデックス領域
を2つのインデックス領域■。,及びIH2としインデ
ックス領域IHIそ本文の左欄全体を包含するようにま
たインデックス領域IH2を本文の右欄全体を包含する
よう1こ設定しているので、第19図に示す芙験例では
本文の左欄の文字情報領i!bK+かインデックス領域
I Klに対応する領域としてまた本文の右欄の文字情
報領域bK2かインテツウス領域IK2に対応する傾城
として抽出ざれ従って本文は左右の欄にそれぞれ分Hさ
れて抽出ざれると共に脚注の文字情報領域bKと本文の
文字情報領域bKlとがそれぞれ分Mざれて抽出される
。このように第二のインデックス抽出装雪によれば、モ
デルのインデックス領域を任意好適な所望の形式に設定
することによって、その形式に応した文字情報領域bを
抽出できる。
一方、第一のインデックス抽出装置の統合手段16はイ
ンデックス項目工を参照し同じインデックス項目の領域
を含むとみなざれる文字情報領域を統合して各インデッ
クス領域に対応する文字情報領域を検出するので、第4
図及び第20図のいずれのモデルを用いても、本文の左
右の欄は分離しないで本文全体を含む領域を本文の文字
情報領域として抽出する。
この発明は上述した実施例にのみ限定ざれるものではな
く、従って各構成成分の構成、動作の流れ、処理条件、
処理内容、入出力情報の流れ、接続関係その他を任意好
適に変更できる。
例えば、上述した笑施例てはモデルのインデックス争域
を始点及び終点座標で表現したか、この他インデックス
領域を矩形枠としこの領域を始点座標とこの領域の横幅
及び縦幅て表現するようにしてもよい。
また仮想原点設定手段及び文字ブロック抽出手段か行な
う処理はどちらを先に行なってもよい。
ざらに文字領域抽出手段を入力文書画像から文字情報領
域のみを抽出する手段としてもよい。
上述した例では入力文書の全種類の情報領域の位置を基
準に仮想原点を設定したか仮想原点の位盲設定の基準と
する情報領域の種類は任意好適な−又は複数のf!類と
することかでき例えば文字情報領域の位蘭のみを基準に
して仮想原点を定めるようにしでもよい。また入力文書
の情報領域の位Mを基準とする仮想原点の設定の仕方を
上述の例にのみ限定するものではなく任意好適に変更で
き、例えば入力文書の情報領域の位置座標のなかの最大
のx.y座標を検出しこれら最大のx. y座標を仮想
原点の位M座標とするようにしてもよい。
仮想原点設定手段を設けなくともよい。
(発明の効果) 上述した説明からも明らかなように、この発明の菓−の
インデックス抽出装置によれば、入力文書画像から抽出
された入力文書の文字情報領域と書式情報に記述された
モデルのインデックス領域とのマッチングを行ない、入
力文書の文字情報領域かモデルのインデックス領域と重
なり合う場合に当該文字情報領域に対し当該インデック
ス領域のインデックス項目を付与する。
そしてインデックス項目%?照し入力文書の文字情報領
域のなかから同じインデックス項目の情報を含むとみな
ざれるものを統合して統合領域を得、ざらに統合領域及
び又は入力文書の文字情報領域のなかから同しインデッ
クス項目の情報を含むとみなざれるものを統合して統合
領域を得る。
このような統合を、同じインデックス項目の情報を含む
とみなされる文字情報領域及び又は統合領域かなくなる
まで繰り返す。
従ってマッチング手段においで入力文書の文字情報領域
に対して複数のインテツウス項目か付与されたとしても
、同しインデックス項目の情報を含むとみなざれるもの
のみ%1iR合してゆくので、インデックス項目と入力
文書の文字情報領域とを精度良く対応付けることかでき
る。
インデックス項目と文字情報領域とを精度良く対応付け
ることができるので、入力文書の文字情報領域及びモデ
ルのインデックス領域の重なりの判定に用いるこれら領
域の属性(特に位M)に間し、文字情報領域の属性の検
出精度を緩和でき、ざらにインデックス領域の属性の設
定精度を緩和できる。
またこの発明の第二のインテツウス抽出装置によれば、
入力文書の文字情報領域とモデルのインデックス領域と
のマッチングを行ない、入力文書の文字情報領域かモデ
ルのインデックス領域と重なり合う場合に当該文字情報
領域に対し当該インテツウス領域に含まれることを表す
構造情報を付与する。
そして横這情報ヲ替照し入力文値の文字情報領域のなか
から同じインデックス領域に含むとみなざれるものを統
合して統合領域を得、ざらに統合領域及び又は入力文書
の文字情報領域のなかから同じインデックス頓t或に含
まれるとみなされるものを統合して統合争域を得る。こ
のような統合を、同じインデックス領1或に含まれると
みなされる文字情報領域及び又は統合領域かなくなるま
で繰り返す。
従ってマッチング手段においで入力文書の文字情報領域
に対して複数の構造情報か付与されたとしても、同しイ
ンデックス領域に含まれるとみなされるもののみヲ統合
してゆくので、入力文書の文字情報領域を本来帰属すべ
きインデックス領域に精度良く対応付けることかできる
。また文字情報領域に本来帰属すべきインデックス領域
のインデックス項目を付与することにより、文字情報領
域とインテツウス項目とを精度良く対応付けることかて
きる。
インデックス領域と文字情報領域とを精度良く対応付け
ることかできるので、入力文嘗の文字情報領域及びモデ
ルのインデックス領域の重なりの判定に用いるこれら領
域の属性(特に位薗)に開し、文字情報領域の属性の検
出精度を緩和でき、ざらにインデックス領域の属性の設
定精度を緩和できる。
【図面の簡単な説明】
第1図はこの発明の第一のインデックス抽出装置につき
その実施例の構成を概略的に示す機能ブロック図、 第2図は2値の入力文書画像の一例を示す図、第3図は
情報領域の属牲の一例を示す図、腑4図はモデルの一例
を示す図、 第5図はインデックス領域の属性の一例を示す図、 第6図は領域分割不能な文字情報領域の例を示す図、 第7図はこの発明の第一のインデックス抽出装置につき
その英施例のマッチング手段の動作フローの一例を示す
図、 第8図(A)〜(C)はこの発明の第一のインデックス
抽出装置につきその実施例の統合手段の動作フローの一
例を示す図、 第9図(A)〜(8)はS20Qの統合処理の説明図、 第]O図(A)〜(B)はX軸方向において並列する文
字情報領t*btの伯の例を示す図、菓11図は注目す
る文字情報領域btiと共通する領域を有する文字情報
領域の例を示す図、第12図は8208の処理の説明図
、 第13図はS210の処理の説明図、 第14図はS222の処理の説明図、 第15図はこの発明の第二のインデックス抽出装置につ
きその寅施例の構成を概略的に示す機能ブロック図、 第16図はこの発明の第二のインデックス抽出装置につ
きその実施例のマッチング手段の動作フローの一例を示
す図、 第17図(A)〜(C)はこの発明の第:のインデツウ
ス抽出装置につきその実施例の統合手段の動作フローの
一例を示す図、 第]8図(A)〜(B)は第二のインテ・ンクス抽出装
置の寅施例装置による実験結果を示す図、 第19図は第二のインデックス抽出装置の実施例装置に
よる他の実験結果を示す図、 第2o図はモデルの他の例を示す図である。 0、52 −・・インデックス袖出装嘗2、54 −・
・文字領域抽出手段 4、56 −・・マッチング手段 6、58・・・統合手段 8、64・・・領域分割手段 20、66 −・・文字ブロック選別手段22、60・
・・仮想原点設定手段 24、62 −・・脚注抽出手段。

Claims (16)

    【特許請求の範囲】
  1. (1)入力文書の文字情報領域を抽出する文字領域抽出
    手段と、 前記文字情報領域と書式情報に記述されたモデルのイン
    デックス領域とのマッチングを行なって、前記文字情報
    領域が前記インデックス領域と重なり合う場合に当該文
    字情報領域に対し当該インデックス領域のインデックス
    項目を付与するマッチング手段と、 前記インデックス項目を参照し同じインデックス項目の
    情報を含むとみなされる文字情報領域を統合する統合手
    段とを備えて成ることを特徴とするインデックス抽出装
    置。
  2. (2)前記文字領域抽出手段を、白黒2値の入力文書画
    像から情報内容の種類別に入力文書の情報領域を抽出す
    る領域分割手段と、前記情報領域から文字情報領域を抽
    出する文字ブロック選別手段とから構成することを特徴
    とする請求項1に記載のインデックス抽出装置。
  3. (3)前記入力文書の情報領域の位置を基準にして仮想
    原点を定める仮想原点設定手段を設けて成ることを特徴
    とする請求項2に記載のインデックス抽出装置。
  4. (4)前記仮想原点設定手段を、前記入力文書の一又は
    複数種類の情報領域の位置座標のうち最小のx座標及び
    最小のy座標を仮想原点の位置座標として定める手段と
    したことを特徴とする請求項3に記載のインデックス抽
    出装置。
  5. (5)前記マッチング手段を、前記入力文書の文字情報
    領域の始点及び終点の座標を仮想原点からみた座標に変
    換し、該文字情報領域の始点及び終点の変換後の座標を
    含む前記モデルのインデックス領域を検出した場合に当
    該インデックス領域のインデックス項目を前記文字情報
    領域に付与する手段としたことを特徴とする請求項3又
    は4に記載のインデックス抽出装置。
  6. (6)前記インデックス項目を付与した文字情報領域の
    統合前に、前記文字情報領域のなかから脚注領域を抽出
    する脚注抽出手段を設けて成ることを特徴とする請求項
    1〜5のいずれか一項に記載のインデックス抽出装置。
  7. (7)前記脚注抽出手段を、脚注のインデックス項目を
    付与された文字情報領域のなかから、X軸方向において
    フィールドセパレータと重なりしかも原点との間にフィ
    ールドセパレータをはさむ位置に位置する文字情報領域
    を検出し、当該検出領域及びフィールドセパレータの間
    に他の文字情報領域が存在しない場合に当該検出領域を
    脚注情報領域として抽出する手段としたことを特徴とす
    る請求項6に記載のインデックス抽出装置。
  8. (8)前記統合手段を、前記入力文書の注目する文字情
    報領域αからY軸方向に見て最も距離の近い文字情報領
    域を統合候補βとして抽出しさらに該候補βからY軸方
    向に見て最も距離の近い文字情報領域γを抽出して文字
    情報領域α及びγが一致した場合に、これら文字情報領
    域α及び統合候補βが共通するインデックス項目を有す
    れば、これら文字情報領域α及び統合候補βを統合し文
    字情報領域α及び統合候補βの統合領域の始点座標とし
    て文字情報領域α及び統合候補βの始点座標のうち最小
    のx座標及び最小のy座標を検出しこれと共に前記統合
    領域の終点座標として文字情報領域α及び統合候補βの
    終点座標のうち最大のx座標及び最大のy座標を検出す
    る手段としたことを特徴とする請求項1〜7のいずれか
    一項に記載のインデックス抽出装置。
  9. (9)入力文書の文字情報領域を抽出する文字領域抽出
    手段と、 前記文字情報領域と書式情報に記述されたモデルのイン
    デックス領域とのマッチングを行なって、前記文字情報
    領域が前記インデックス領域と重なり合う場合に当該文
    字情報領域に対し当該インデックス領域に含まれること
    を表す構造情報を付与するマッチング手段と、 前記構造情報を参照し同じインデックス領域に含まれる
    とみなされる文字情報領域を統合する統合手段とを備え
    て成ることを特徴とするインデックス抽出装置。
  10. (10)前記文字領域抽出手段を、白黒2値の入力文書
    画像から情報内容の種類別に入力文書の情報領域を抽出
    する領域分割手段と、前記情報領域から文字情報領域を
    抽出する文字ブロック選別手段とから構成することを特
    徴とする請求項9に記載のインデックス抽出装置。
  11. (11)前記入力文書の情報領域の位置を基準にして仮
    想原点を定める仮想原点設定手段を設けて成ることを特
    徴とする請求項10に記載のインデックス抽出装置。
  12. (12)前記仮想原点設定手段を、前記入力文書の一又
    は複数種類の情報領域の位置座標のうち最小のx座標及
    び最小のy座標を仮想原点の位置座標として定める手段
    としたことを特徴とする請求項11に記載のインデック
    ス抽出装置。
  13. (13)前記マッチング手段を、前記入力文書の文字情
    報領域の始点及び終点の座標を仮想原点からみた座標に
    変換し、該文字情報領域の始点及び終点の変換後の座標
    を含む前記モデルのインデックス領域を検出した場合に
    当該インデックス領域に含まれることを表す構造情報を
    前記文字情報領域に付与する手段としたことを特徴とす
    る請求項11又は12に記載のインデックス抽出装置。
  14. (14)前記構造情報を付与した文字情報領域の統合前
    に、前記文字情報領域のなかから脚注領域を抽出する脚
    注抽出手段を設けて成ることを特徴とする請求項9〜1
    3のいずれか一項に記載のインデックス抽出装置。
  15. (15)前記脚注抽出手段を、脚注のインデックス領域
    に含まれる文字情報領域のなかから、X軸方向において
    フィールドセパレータと重なりしかも原点との間にフィ
    ールドセパレータをはさむ位置に位置する文字情報領域
    を検出し、当該検出領域及びフィールドセパレータの間
    に他の文字情報領域が存在しない場合に当該検出領域を
    脚注情報領域として抽出する手段としたことを特徴とす
    る請求項14に記載のインデックス抽出装置。
  16. (16)前記統合手段を、前記入力文書の注目する文字
    情報領域αからY軸方向に見て最も距離の近い文字情報
    領域を統合候補βとして抽出しさらに該候補βからY軸
    方向に見て最も距離の近い文字情報領域γを抽出して文
    字情報領域α及びγが一致した場合に、これら文字情報
    領域α及び統合候補βが共通の構造情報を有すれば、こ
    れら文字情報領域α及び統合候補βを統合し文字情報領
    域α及び統合候補βの統合領域の始点座標として文字情
    報領域α及び統合候補βの始点座標のうち最小のx座標
    及び最小のy座標を検出しこれと共に前記統合領域の終
    点座標として文字情報領域α及び統合候補βの終点座標
    のうち最大のx座標及び最大のy座標を検出する手段と
    したことを特徴とする請求項9〜15のいずれか一項に
    記載のインデックス抽出装置。
JP2109932A 1989-11-28 1990-04-25 インデックス抽出装置 Pending JPH03218569A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2109932A JPH03218569A (ja) 1989-11-28 1990-04-25 インデックス抽出装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP30832189 1989-11-28
JP1-308321 1989-11-28
JP2109932A JPH03218569A (ja) 1989-11-28 1990-04-25 インデックス抽出装置

Publications (1)

Publication Number Publication Date
JPH03218569A true JPH03218569A (ja) 1991-09-26

Family

ID=26449638

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2109932A Pending JPH03218569A (ja) 1989-11-28 1990-04-25 インデックス抽出装置

Country Status (1)

Country Link
JP (1) JPH03218569A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05242142A (ja) * 1991-11-19 1993-09-21 Xerox Corp 文書画像の復号なしに文書を要約するための方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05242142A (ja) * 1991-11-19 1993-09-21 Xerox Corp 文書画像の復号なしに文書を要約するための方法

Similar Documents

Publication Publication Date Title
JP3940491B2 (ja) 文書処理装置および文書処理方法
US5410475A (en) Short case name generating method and apparatus
JP4343213B2 (ja) 文書処理装置および文書処理方法
WO2019212874A1 (en) Automated extraction of unstructured tables and semantic information from arbitrary documents
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
MXPA04011507A (es) Identificador de estructura de documento.
US7046847B2 (en) Document processing method, system and medium
CN110688825A (zh) 一种版式文档中的含线表格信息提取方法
JP5446877B2 (ja) 目次構造特定装置
JP4787955B2 (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
US9049400B2 (en) Image processing apparatus, and image processing method and program
JPH11184894A (ja) 論理要素抽出方法および記録媒体
JP2004178010A (ja) 文書処理装置並びにその方法及びプログラム
Weibel et al. Automated title page cataloging: a feasibility study
Kamola et al. Image-based logical document structure recognition
Lin Header and footer extraction by page association
JPH03218569A (ja) インデックス抽出装置
JPH08221510A (ja) 帳票文書処理装置および帳票文書処理方法
JP3898645B2 (ja) 帳票書式編集装置および帳票書式編集プログラム
Lawrie et al. Building OCR/NER test collections
CN113779218A (zh) 问答对构建方法、装置、计算机设备和存储介质
Yamashita et al. A document recognition system and its applications
CN111966785A (zh) 一种基于层叠序列标注的简历信息抽取方法
CN115995087B (zh) 基于融合视觉信息的文档目录智能生成方法及系统
JPH0327471A (ja) 画像登録方式