JP2000137728A - 文書解析装置及びプログラム記録媒体 - Google Patents

文書解析装置及びプログラム記録媒体

Info

Publication number
JP2000137728A
JP2000137728A JP10311595A JP31159598A JP2000137728A JP 2000137728 A JP2000137728 A JP 2000137728A JP 10311595 A JP10311595 A JP 10311595A JP 31159598 A JP31159598 A JP 31159598A JP 2000137728 A JP2000137728 A JP 2000137728A
Authority
JP
Japan
Prior art keywords
character string
document
character
document image
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10311595A
Other languages
English (en)
Inventor
Yoshinobu Hotta
悦伸 堀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP10311595A priority Critical patent/JP2000137728A/ja
Publication of JP2000137728A publication Critical patent/JP2000137728A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】本発明は、保存される文書画像を処理対象とし
て、その文書画像の利用が図れるようにする文書解析装
置の提供を目的とする。 【解決手段】文書画像を入力として、文書画像の元とな
った文書の構造を解析する機能を持つ文書解析装置であ
って、文書画像から段落文字らしい文字領域を抽出する
抽出手段12と、抽出手段12の抽出する文字領域を構
成要素とする文字列領域を生成する生成手段13と、生
成手段13の生成する文字列領域の段落文字列らしさを
評価することで、段落文字列らしい文字列領域を特定す
る特定手段14と、特定手段14の特定する文字列領域
を文字認識する認識手段15と、認識手段15の認識す
る文字列の段落文字列としての整合性を判定することで
段落文字列を決定する決定手段16とを備えるように構
成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書ファイリング
装置などに保存される文書画像を処理対象として、その
文書画像の利用が図れるようにする文書解析装置と、そ
の装置の実現に用いられるプログラムが格納されるプロ
グラム記録媒体とに関する。
【0002】大量に発生する文書をスキャナで読み取
り、それを記憶装置に保存する文書ファイリング装置が
実用化されている。この文書ファイリング装置に格納さ
れる文書画像は大量であることから、その利用を図るた
めの技術の構築が叫ばれている。
【0003】
【従来の技術】文書ファイリング装置に保存される文書
画像を自在に検索できるようにするためには、文書画像
にキーワードを付加していくことが必要である。
【0004】この課題を解決するために、特開平7-200
634 号では、文書画像を保存していくときに、タイトル
やキーワードなどの情報を記録する登録シートを文書画
像と対応付けて入力する構成を採って、その登録シート
に記録されるタイトルやキーワードを文字認識して、文
書画像と対応付けて格納していくという技術が記載され
ている。
【0005】また、この課題を解決するために、特開平
8-287189 号では、文書画像からタイトルや著者名など
の書誌情報が記録される領域を検出し、その領域に記録
される書誌情報を認識して、文書画像の本文に対応付け
て格納していくという技術が記載されている。
【0006】
【発明が解決しようとする課題】しかしながら、特開平
7-200634 号に記載される従来技術に従っていると、登
録シートを作成して入力していかなければならないとい
う問題点がある。
【0007】一方、特開平8-287189 号に記載される従
来技術に従っていると、そのような問題点はないもの
の、タイトルや著者名などの書誌情報だけでは、文書画
像の利用が十分図れないという問題点がある。
【0008】具体的に説明するならば、タイトルはキー
ワードとして極めて有効なものではあるが、文書画像の
一層の利用を図るためには、本文に含まれるタイトル以
外の重要な文字をキーワードとして登録していく必要が
ある。また、文書画像の一層の利用を図るためには、文
書画像の元となった文書の構造を抽出して登録していく
ことが好ましい。
【0009】しかるに、特開平8-287189 号に記載され
る従来技術では、ただ単に、文書画像からタイトルや著
者名などの書誌情報が記録される領域を検出し、その領
域に記録される書誌情報を認識して、文書画像の本文に
対応付けて格納していくという構成を採っているだけで
ある。
【0010】本発明はかかる事情に鑑みてなされたもの
であって、文書ファイリング装置などに保存される文書
画像を処理対象として、その文書画像の利用が図れるよ
うにする新たな文書解析装置の提供と、その装置の実現
に用いられるプログラムが格納される新たなプログラム
記録媒体の提供を目的とする。
【0011】
【課題を解決するための手段】図1に本発明の原理構成
を図示する。図中、1は本発明を具備する文書解析装置
であって、文書画像を入力して、その文書画像の元とな
った文書の構造を解析する機能を持つものである。
【0012】本発明の文書解析装置1は、入力手段10
と、前処理手段11と、抽出手段12と、生成手段13
と、特定手段14と、認識手段15と、決定手段16
と、作成手段17と、頁番号認識手段18と、キーワー
ド抽出手段19と、レイアウト抽出手段20とを備え
る。
【0013】この入力手段10は、文書画像を2値化し
つつ入力する。前処理手段11は、入力手段10の入力
した文書画像から、外接矩形で区切られる1文字毎の文
字領域を切り出す。抽出手段12は、前処理手段11の
切り出した1文字毎の文字領域の中から、段落文字(章
名のような段落に付される文字)らしい文字領域を抽出
する。生成手段13は、抽出手段12の抽出した文字領
域を構成要素とする文字列領域を生成する。
【0014】特定手段14は、生成手段13の生成した
文字列領域の中から、段落文字列らしい文字列領域を特
定する。認識手段15は、特定手段14の特定した文字
列領域に含まれる文字列を文字認識する。決定手段16
は、認識手段15の認識した文字列の中から、段落文字
列を決定する。
【0015】作成手段17は、決定手段15の決定した
段落文字列から、文書画像の元となった文書の目次を作
成する。頁番号認識手段18は、文書画像の持つページ
番号を認識する。キーワード抽出手段19は、決定手段
15の決定した段落文字列から検索用のキーワードを抽
出する。
【0016】レイアウト抽出手段20は、文書画像の解
析処理に先立って、あるいは、文書画像の解析処理と並
行して、入力手段10の入力した文書画像のレイアウト
情報を抽出したり、レイアウト情報を参照せずに行う文
書画像の解析処理により段落文字列が得られないときに
起動されて、入力手段10の入力した文書画像のレイア
ウト情報を抽出する。
【0017】ここで、本発明の文書解析装置1の持つ機
能は具体的にはプログラムで実現されるものであり、こ
のプログラムは、フロッピィディスクなどに格納された
り、サーバなどのディスクなどに格納され、それらから
文書解析装置1にインストールされてメモリ上で動作す
ることで、本発明を実現することになる。
【0018】このように構成される本発明の文書解析装
置1では、入力手段10が文書画像を2値化しつつ入力
すると、前処理手段11は、入力手段10の入力した2
値化文書画像の持つ連結成分をラベリングした後、1つ
の文字を構成する連結成分を統合することで、外接矩形
で区切られる1文字毎の文字領域を切り出す。
【0019】この前処理を受けて、抽出手段12は、例
えば、文字太さや文字サイズなどの文字属性を使って、
切り出された1文字毎の文字領域の中から、段落文字ら
しい文字領域を抽出し、これを受けて、生成手段13
は、抽出された隣接する文字領域を統合することで、抽
出された文字領域を構成要素とする文字列領域を生成す
る。
【0020】この文字列領域の生成を受けて、特定手段
14は、前後に空白を持つ文字列領域であるかのか否か
といった情報などを使って、生成された文字列領域の段
落文字列らしさを評価することで、生成された文字列領
域の中から段落文字列らしい文字列領域を特定し、これ
を受けて、認識手段15は、特定された文字列領域に含
まれる文字列を文字認識する。
【0021】この段落文字列らしい文字列領域の文字認
識結果を受けて、決定手段16は、段落文字列に含まれ
る通番などの整合性を使って、段落文字列としての整合
性を判定することで、認識された文字列の中から段落文
字列を決定する。
【0022】この段落文字列の決定を受けて、作成手段
17は、決定された段落文字列から、文書画像の元とな
った文書の目次を作成して、文書画像に対応付けて登録
する。このとき、頁番号認識手段18が設けられるとき
には、作成手段17は、頁番号認識手段18により認識
されたページ番号を加味しつつ文書の目次を作成する。
【0023】そして、この段落文字列の決定を受けて、
キーワード抽出手段19は、章などといった段落文字に
固有の文字を排除しつつ、決定された段落文字列から検
索用のキーワードを抽出して、文書画像に対応付けて登
録する。
【0024】この処理構成を採るときに、文書画像の解
析処理に先立って、あるいは、文書画像の解析処理と並
行して、入力手段10の入力した文書画像のレイアウト
情報を抽出する処理を行うレイアウト抽出手段20が設
けられるときには、抽出手段12や生成手段13や特定
手段14や決定手段16は、抽出されたレイアウト情報
を参照しつつ処理を行うことになる。
【0025】そして、レイアウト情報を参照せずに行う
文書画像の解析処理により段落文字列が得られないとき
に起動されて、入力手段10の入力した文書画像のレイ
アウト情報を抽出する処理を行うレイアウト抽出手段2
0が設けられるときには、例えば、段落文字の文字属性
と本文文字の文字属性とが同一であることで、抽出手段
12が段落文字らしい文字領域を抽出できないことで段
落文字列を決定できないときには、レイアウト抽出手段
20が起動されて、例えば、抽出手段12は、抽出され
たレイアウト情報を参照することで段落文字らしい文字
領域を抽出していく処理を行うことになる。
【0026】このように、本発明の文書解析装置1で
は、文書画像を入力として、その文書画像の元となった
文書の目次を生成していくとともに、目次を構成する段
落文字から検索用のキーワードを生成していくという解
析機能を有するので、文書画像の利用が大幅に図れるよ
うになる。
【0027】
【発明の実施の形態】以下、実施の形態に従って本発明
を詳細に説明する。図2に、本発明を具備する文献情報
提供装置1aの一実施例を図示する。
【0028】この本発明を具備する文献情報提供装置1
aは、イメージスキャナ3の読み取る学術論文(通常、
目次などを持たない)などの文献画像を入力し、その入
力した文献画像から目次情報及びキーワードを抽出し
て、それらの文献情報を文献データベース2に登録する
とともに、ネットワーク5を介して接続される端末4か
ら、文献(文献画像)の提供要求があると、その提供要
求に応答して、目次情報及びキーワードを使ってユーザ
の必要とする文献を検索していくことで、ユーザに対し
て文献の提供処理を実行するものである。
【0029】この処理を実行するために、文献情報提供
装置1aは、イメージスキャナ3の読み取る文献画像を
入力して2値化する入力回路100と、入力回路100
の入力する文献画像を格納するメモリ101と、メモリ
101から文献画像を読み出し文献情報を作成して文献
データベース2に登録する文献情報登録プログラム10
2と、端末4からの提供要求に応答して文献の提供処理
を実行する文献提供プログラム103とを備える。
【0030】ここで、本発明を実現すべく用意される文
献情報登録プログラム102は、フロッピィディスクや
回線などを介してインストールされることになる。図3
に、文献情報登録プログラム102の実行する処理フロ
ーの一実施例を図示する。次に、この処理フローに従っ
て本発明について詳細に説明する。
【0031】文献情報登録プログラム102は、イメー
ジスキャナ3が文献画像を入力することで起動される
と、図3の処理フローに示すように、先ず最初に、ステ
ップ1で、入力された文献画像をメモリ101から読み
込み、続くステップ2で、公知の画像処理技術を使い、
この読み込んだ文献画像に対して雑音除去や傾き補正な
どの前処理を施す。
【0032】続いて、ステップ3で、公知の画像処理技
術を使い、前処理の施した文献画像に対して、ラベリン
グ処理を施すことで文書画像の持つ連結成分をラベリン
グした後、1つの文字を構成する連結成分を統合するこ
とで、外接矩形で区切られる1文字毎の文字領域を切り
出す。
【0033】続いて、ステップ4で、ステップ3で切り
出した文字領域の中から、文字属性を使って、章名らし
い文字(各章の題目を構成する文字)の文字領域を抽出
する。
【0034】この章名らしい文字領域の抽出処理は、通
常の場合、章名文字が本文文字よりも太い文字で記載さ
れることを考慮して、例えば、図4(a)に示すよう
に、各文字領域毎に、文字領域を縦方向や横方向に複数
箇所で走査し、そのときに横切る各黒線分の長さを求め
て、図4(b)に示すように、それを横軸とし出現頻度
を縦軸としてプロットする。そして、最も出現頻度の多
い黒線分の長さを求めたり、中央に位置する黒線分の長
さを求めることで各文字領域の文字太さを特定して、図
5(a)に示すように、この特定した文字太さの太い文
字領域を章名らしい文字領域として抽出することで行
う。
【0035】このとき、図6に示すように、Gaborフィ
ルタ(D.Gabor:Theory of Communication,J.Institute
of Elec.Eng.,vol.93,pp.429-456,1947)のような方向別
フィルタを用いて、縦方向、横方向、±45度方向など
の黒線成分を抽出し、それに直交する黒線分の長さを求
めてそれをプロットしていくという方法を採ることも有
効な方法である。
【0036】また、各文字領域毎に、黒画素の形成する
文字画像の輪郭線の長さと文字画像の持つ黒画素の個数
との比率値を使って、文字太さを評価することで文字太
さを特定して、この特定した文字太さの太い文字領域を
章名らしい文字領域として抽出することで行ったり、各
文字領域毎に、文字画像の収縮処理を施し文字画像が消
滅するまでの収縮処理回数を求めることで文字太さを特
定して、この特定した文字太さの太い文字領域を章名ら
しい文字領域として抽出することで行う。
【0037】また、通常の場合、章名文字が本文文字よ
りも大きい文字で記載されることを考慮して、例えば、
各文字領域を囲む外接矩形の大きさを求めて、図5
(b)に示すように、それを横軸とし出現頻度を縦軸と
してプロットする。そして、最も出現頻度の多いものを
本文文字の文字サイズとみなして、その規定の定数倍の
文字サイズを持つものを非文字として除去するととも
に、除去されずに残った本文文字よりも大きな文字サイ
ズの文字領域を章名らしい文字領域として抽出すること
で行う。
【0038】ここで、複数の評価パラメータがあるとき
には、それを正規化した値から章名らしい文字領域の評
価値を求めて、その評価値から章名らしい文字領域を抽
出する処理を行う。
【0039】例えば、ある文字領域の文字サイズをS
a、本文文字の文字領域の文字サイズをSとするときに
は、正規化した文字サイズNSaを、 NSa=Sa/S と求め、その文字領域の文字太さをTa、本文文字の文
字領域の文字太さをTとするときには、正規化した文字
太さNTaを、 NTa=Ta/T と求めて、この正規化した文字サイズNSaと正規化し
た文字太さNTaとから章名らしい文字領域の評価値E
val を、 Eval =NSa+NTa を算出して、その算出する評価値に従って章名らしい文
字領域を抽出する処理を行うのである。
【0040】このようにして、ステップ4で、章名らし
い文字領域を抽出すると、続いて、ステップ5で、図7
に示すように、この抽出した文字領域を統合することで
章名らしい文字列領域の候補となる文字列領域を生成す
る。
【0041】このステップ5で行う文字列領域の生成処
理は、例えば、ステップ4で抽出された章名らしい文字
領域の外接矩形を縦方向や横方向に拡大して、その拡大
処理により重なったものを統合することで行う。更に、
章名が複数行にわたる場合があることを考慮して、ステ
ップ4で抽出された文字領域の外接矩形が隣接する行に
並んで配列される場合には、それを統合することで行
う。
【0042】続いて、ステップ6で、ステップ5で生成
した文字列領域の章名らしさを評価することで、その文
字列領域の中から章名らしい文字列領域を特定する。こ
のステップ6で行う章名らしい文字列領域の特定処理
は、例えば、ステップ5で生成した文字列領域の前後が
空白であるのか否かということを判断したり、その文字
列領域の文字サイズが他の文字列領域(ステップ5で生
成した文字列領域)の文字サイズと違っているのか否か
を判断することなどにより行う。
【0043】すなわち、通常の場合、章名の文字列領域
はその前後が空白となるとともに、章名は文献全体で同
一の文字サイズの文字で記載されているので、ステップ
5で生成した文字列領域の前後が空白であるのか否かと
いうことを判断したり、その文字列領域の文字サイズが
他の文字列領域(ステップ5で生成した文字列領域)の
文字サイズと違っているのか否かを判断することで行う
のである。
【0044】続いて、ステップ7で、ステップ6で特定
した章名らしい文字列領域を認識対象として、公知の文
字認識処理を施すことで、ステップ6で特定した章名ら
しい文字列領域の持つ文字列を認識する。この文字認識
処理は、既に1文字毎の文字領域が切り出されているの
で、公知の文字認識処理を施すことで実行可能である。
【0045】続いて、ステップ8で、ステップ7で認識
した文字列の章名としての整合性を判定することで、ス
テップ7で認識した文字列の中から章名を決定する。こ
のとき、これまでに処理した同一種類の文献画像から得
られた章名に関する情報を記録する構成を採って、その
情報を利用しつつ章名を決定する構成を採ることも可能
である。
【0046】このステップ8で行う章名の決定処理は、
通常の場合、章名の先頭には数字(アルファベットのこ
ともある)が記載されているので、ステップ7で認識し
た文字列の先頭に数字(アルファベット)が記載されて
いるのか否かをチェックしたり、その数字が通番の順
(アルファベットの順)になっているのか否かをチェッ
クすることで行う。また、通常の場合、章名の座標位置
に関連性(例えば左端からの位置が同一であるというよ
うな関連性)があるので、そのような関連性があるのか
否かをチェックすることで行う。また、章名に下線が付
けられることがあるので、そのような統一性があるのか
否かをチェックすることで行う。
【0047】続いて、ステップ9で、文書画像に記載さ
れるページ番号を認識して、その認識したページ番号を
考慮しつつ、ステップ1で読み込んだ文献(文献画像)
の目次を作成する。
【0048】このステップ9で行うページ番号の認識処
理は、ページ番号の記載されやすい1つ又は複数の位置
(例えば最下部)を管理する構成を採って、その管理す
る位置に記載される数字を認識することで行うことにな
るが、ページ番号の記載位置が指定されている場合に
は、その位置に記載される数字を認識することで行う。
ここで、この認識処理にあって、認識した数字が通番の
順になっているのか否かをチェックするなどの整合性の
判定を行うことで、正確なページ番号の認識を行う。
【0049】また、このステップ9で行う目次の作成処
理は、例えば、図8に示すように、ステップ8で決定し
た章名を、それが持つ数字(アルファベット)に従って
階層的に記述することで作成するとともに、各章名がど
のページに記載されているのかが分かるような形式で作
成する。なお、ページ番号を記載する目次を作成する
と、各章名の指す文献内容のボリュームが分かり便利で
ある。
【0050】続いて、ステップ10で、ステップ8で決
定した章名からキーワードを抽出する。このステップ1
0で行うキーワードの抽出処理は、例えば、章名によく
使われる「まえがき」/「むすび」/「考察」などとい
った単語や、学術論文の文献でよく使われる「実験」/
「結果」/「方法」などといった単語のようなキーワー
ドとならない単語を登録する除外用辞書を用意する構成
を採って、章名から抽出された単語から、その除外用辞
書に登録された単語を取り除くことで行う。
【0051】最後に、ステップ11で、ステップ1で読
み込んだ文献画像と、ステップ9で作成した目次情報
と、ステップ10で抽出したキーワードとの対応をとり
つつ、それらを文献データベース2に登録して、処理を
終了する。
【0052】このようにして、文献情報登録プログラム
102の登録処理により、文献データベース2に文献画
像と目次情報とキーワードとが格納されると、文献提供
プログラム103は、文献データベース2を使って、端
末4からの提供要求に応答して文献の提供処理を実行す
ることになる。
【0053】図9に、文献情報登録プログラム102の
実行する処理フローの他の実施例を図示する。この処理
フローと図3の処理フローとの違いは、この処理フロー
では、図3の処理フローのステップ2とステップ3との
間に、文献画像のレイアウト情報を求める処理を行うス
テップ2aを設ける点にある。
【0054】このステップ2aで行うレイアウト情報の
導出処理は、例えば、図10に示すように、文献画像を
水平方向に射影し、その周辺分布に従って文献画像を水
平方向に切り出してから、その切り出した各画像部分を
垂直方向に射影して、その周辺分布に従って文献画像を
垂直方向に切り出すことなどで行う。
【0055】この射影を用いるレイアウト情報の導出処
理は、上述した文書画像の解析処理と独立したものであ
ることから、上述した文書画像の解析処理に先立って実
行することが可能であるが、上述した文書画像の解析処
理で得られる副産物を使ってレイアウト情報の導出する
ことも可能であり、この場合には、上述した文書画像の
解析処理の途中でレイアウト情報を導出することにな
る。
【0056】例えば、図9の処理フローに代えて、図3
の処理フローのステップ3とステップ4との間に、レイ
アウト情報を求めるステップを設ける構成を採って、こ
のステップで、ステップ5の処理で行う文字列領域の生
成処理(隣接する文字領域を統合することで文字列領域
を生成する処理)を、ステップ3で求めた全ての文字領
域に対して適用することで、レイアウト情報を導出する
ことも可能であり、この場合には、上述した文書画像の
解析処理の途中でレイアウト情報を導出することにな
る。
【0057】このようにして文献画像のレイアウト情報
を求める構成を採ると、ステップ4で実行する章名らし
い文字領域の切出処理や、ステップ5で実行する章名ら
しい文字列領域の生成処理や、ステップ6で実行する章
名らしい文字列領域の特定処理や、ステップ8で実行す
る章名の決定処理の精度を高めることができるようにな
る。
【0058】例えば、ステップ4で、文字サイズを使っ
て章名らしい文字領域を切り出す構成を採る場合には、
レイアウト情報から非文字のサイズを得ることができる
ので、これを使って、本文文字の文字サイズと章名文字
の文字サイズとを区分けする文字サイズを決定する構成
を採ることで、章名らしい文字領域の切出処理の精度を
高めることができるようになる。
【0059】また、例えば、ステップ5で、章名らしい
文字領域を拡大して統合することで章名らしい文字列領
域を生成するときに、レイアウト情報を考慮しつつその
拡大率を決定する構成を採ることで、章名らしい文字列
領域の生成処理の精度を高めることができるようにな
る。
【0060】また、例えば、ステップ6で、文字列領域
の章名らしさを評価することで章名らしい文字列領域を
特定するときに、レイアウト情報から得られる画像位置
を使って、文字列領域の段落に対する位置などを得て文
字列領域の章名らしさを評価する構成を採ることで、章
名らしい文字列領域の特定処理の精度を高めることがで
きるようになる。
【0061】また、例えば、ステップ8で、章名として
の整合性を判定することで認識した文字列から章名を決
定するときに、レイアウト情報から得られる画像位置を
使って章名の関連性を評価する方法を採ることで、章名
の決定処理の精度を高めることができるようになる。
【0062】図11及び図12に、文献情報登録プログ
ラム102の実行する処理フローの他の実施例を図示す
る。この処理フローと図3の処理フローとの違いは、こ
の処理フローでは、図3の処理フローのステップ4とス
テップ5との間に、ステップ4で章名らしい文字領域を
抽出できたのか否かを判断する処理を行うステップ4a
と、ステップ4aの判断処理に従って、章名らしい文字
領域を抽出できないことを判断するときに、文献画像の
レイアウト情報を求めてからステップ4に戻る処理を行
うステップ4bとを設ける点にある。
【0063】この処理構成を採るのは、章名が本文文字
と同じ文字形態(文字太さや文字サイズなどの文字属性
が同じ)で記載されていることで、ステップ4で、章名
らしい文字領域を抽出できないことがあり、この場合に
は、文献画像のレイアウト情報を求めて、そのレイアウ
ト情報を使って、ステップ4で抽出した文字領域の前後
上下の空白や段落に対する位置などを得て、それに従っ
て章名らしい文字領域を抽出するように処理するからで
ある。
【0064】この図11及び図12の処理フローでは、
最初は、レイアウト情報を使わずに文献画像の解析処理
を実行するときにあって、章名が本文文字と同じ文字形
態で記載されていることで段落文字列を決定できないと
きに、文献画像のレイアウト情報を求めて、それを使っ
て文献画像の解析処理を実行していくことで説明した
が、文献情報登録プログラム102は、章名が本文文字
と異なる文字形態で記載されているときにあっても、何
らかの理由により段落文字列を決定できないことが起こ
るときには、文献画像のレイアウト情報を求めて、それ
を使って文献画像の解析処理を実行していく構成を採る
ことになる。
【0065】図示実施例に従って本発明について説明し
たが、本発明はこれに限定されるものではない。例え
ば、実施例では、文献情報提供装置1aへの適用を具体
例にして本発明を説明したが、本発明はこれに限られる
ものではない。
【0066】
【発明の効果】以上説明したように、本発明によれば、
文書画像を入力として、その文書画像の元となった文書
の目次を生成していくとともに、目次を構成する段落文
字から検索用のキーワードを生成していくという解析機
能を有するので、文書画像の利用が大幅に図れるように
なる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の一実施例である。
【図3】文献情報登録プログラムの実行する処理フロー
である。
【図4】章名らしい文字領域の抽出処理の説明図であ
る。
【図5】章名らしい文字領域の抽出処理の説明図であ
る。
【図6】章名らしい文字領域の抽出処理の説明図であ
る。
【図7】文字列領域の生成処理の説明図である。
【図8】作成する目次の一例である。
【図9】文献情報登録プログラムの実行する処理フロー
である。
【図10】レイアウト情報の導出処理の説明図である。
【図11】文献情報登録プログラムの実行する処理フロ
ーである。
【図12】文献情報登録プログラムの実行する処理フロ
ーである。
【符号の説明】
1 文書解析装置 10 入力手段 11 前処理手段 12 抽出手段 13 生成手段 14 特定手段 15 認識手段 16 決定手段 17 作成手段 18 頁番号認識手段 19 キーワード抽出手段 20 レイアウト抽出手段

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 文書画像を入力として、該文書画像の元
    となった文書の構造を解析する機能を持つ文書解析装置
    であって、 文書画像から段落文字らしい文字領域を抽出する抽出手
    段と、 上記抽出手段の抽出する文字領域を構成要素とする文字
    列領域を生成する生成手段と、 上記生成手段の生成する文字列領域の段落文字列らしさ
    を評価することで、段落文字列らしい文字列領域を特定
    する特定手段と、 上記特定手段の特定する文字列領域を文字認識する認識
    手段と、 上記認識手段の認識する文字列の段落文字列としての整
    合性を判定することで段落文字列を決定する決定手段と
    を備えることを、 特徴とする文書解析装置。
  2. 【請求項2】 請求項1記載の文書解析装置において、 決定手段の決定する段落文字列から、文書画像の元とな
    った文書の目次を作成する作成手段を備えることを、 特徴とする文書解析装置。
  3. 【請求項3】 請求項1又は2記載の文書解析装置にお
    いて、 文書画像の解析処理に先立って、あるいは、文書画像の
    解析処理と並行して、文書画像のレイアウト情報を抽出
    するレイアウト抽出手段を備え、 上記レイアウト抽出手段により抽出されるレイアウト情
    報を参照しつつ、文書画像の解析処理を実行するように
    構成されることを、 特徴とする文書解析装置。
  4. 【請求項4】 請求項1又は2記載の文書解析装置にお
    いて、 レイアウト情報を使用せずに行う文書画像の解析処理に
    より段落文字列を決定できないときに起動されて、文書
    画像のレイアウト情報を抽出するレイアウト抽出手段を
    備え、 レイアウト情報を使用せずに行う文書画像の解析処理に
    より段落文字列を決定できないときに、上記レイアウト
    抽出手段により抽出されるレイアウト情報を参照しつ
    つ、文書画像の解析処理を実行するように構成されるこ
    とを、 特徴とする文書解析装置。
  5. 【請求項5】 文書画像を入力として、該文書画像の元
    となった文書の構造を解析する機能を持つ文書解析装置
    の実現に用いられるプログラムが格納されるプログラム
    記録媒体であって、 文書画像から段落文字らしい文字領域を抽出する抽出処
    理と、 上記抽出処理の抽出する文字領域を構成要素とする文字
    列領域を生成する生成処理と、 上記生成処理の生成する文字列領域の段落文字列らしさ
    を評価することで、段落文字列らしい文字列領域を特定
    する特定処理と、 上記特定処理の特定する文字列領域を文字認識する認識
    処理と、 上記認識処理の認識する文字列の段落文字列としての整
    合性を判定することで段落文字列を決定する決定処理と
    をコンピュータに実行させるプログラムが格納されるこ
    とを、 特徴とするプログラム記録媒体。
JP10311595A 1998-11-02 1998-11-02 文書解析装置及びプログラム記録媒体 Pending JP2000137728A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10311595A JP2000137728A (ja) 1998-11-02 1998-11-02 文書解析装置及びプログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10311595A JP2000137728A (ja) 1998-11-02 1998-11-02 文書解析装置及びプログラム記録媒体

Publications (1)

Publication Number Publication Date
JP2000137728A true JP2000137728A (ja) 2000-05-16

Family

ID=18019142

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10311595A Pending JP2000137728A (ja) 1998-11-02 1998-11-02 文書解析装置及びプログラム記録媒体

Country Status (1)

Country Link
JP (1) JP2000137728A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002334093A (ja) * 2001-05-11 2002-11-22 Toppan Forms Co Ltd 電子ドキュメントにおけるインデックスファイル作成システム及びインデックスファイル作成方法
JP2008211743A (ja) * 2007-02-28 2008-09-11 Kyocera Mita Corp 画像形成装置
CN100447805C (zh) * 2004-09-17 2008-12-31 富士施乐株式会社 文档处理装置和文档处理方法
JP2009070234A (ja) * 2007-09-14 2009-04-02 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP2009110501A (ja) * 2007-10-29 2009-05-21 Toshiba Corp ドキュメント管理システム、ドキュメント管理方法、ドキュメント管理プログラム
JP2010108208A (ja) * 2008-10-30 2010-05-13 Hitachi Software Eng Co Ltd 文書処理装置

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57199066A (en) * 1981-06-02 1982-12-06 Toshiyuki Sakai File forming system for cutting of newspaper and magazine
JPS6244878A (ja) * 1985-08-23 1987-02-26 Hitachi Ltd 文書フアイリングシステム
JPH01106263A (ja) * 1987-10-20 1989-04-24 Mitsubishi Electric Corp 文書の格納検索装置
JPH01194063A (ja) * 1988-01-29 1989-08-04 Toshiba Corp 文書ファイル目次作成方式
JPH0233686A (ja) * 1988-07-25 1990-02-02 Fuji Electric Co Ltd 文字列抽出方法
JPH04175966A (ja) * 1990-11-09 1992-06-23 Hitachi Ltd 文書論理構造生成方法
JPH0668300A (ja) * 1991-12-18 1994-03-11 Internatl Business Mach Corp <Ibm> 文書画像のレイアウトモデルを作成する方法及び装置
JPH06274551A (ja) * 1993-03-19 1994-09-30 Fujitsu Ltd 画像ファイリング装置
JPH06325084A (ja) * 1993-01-19 1994-11-25 Canon Inf Syst Inc 文書処理装置及びその方法と文書表示装置及びその方法
JPH08137909A (ja) * 1994-11-15 1996-05-31 Canon Inc 画像形成装置及びその編集方法
JPH08329113A (ja) * 1995-05-26 1996-12-13 Canon Inc 画像情報処理装置
JPH09297765A (ja) * 1996-05-01 1997-11-18 Ricoh Co Ltd 文書画像処理方法
JPH1011459A (ja) * 1996-06-25 1998-01-16 N T T Data Tsushin Kk 文書登録システム
JPH10162016A (ja) * 1996-11-29 1998-06-19 Matsushita Electric Ind Co Ltd 電子ファイリング装置及びこれに用いる情報記憶媒体
JPH10240901A (ja) * 1997-02-21 1998-09-11 Mitsubishi Electric Corp 文書ファイリング装置及び文書ファイリング方法
JPH10260993A (ja) * 1997-01-21 1998-09-29 Matsushita Electric Ind Co Ltd 書類の走査画像からのタイトル、見出しおよび写真抽出

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57199066A (en) * 1981-06-02 1982-12-06 Toshiyuki Sakai File forming system for cutting of newspaper and magazine
JPS6244878A (ja) * 1985-08-23 1987-02-26 Hitachi Ltd 文書フアイリングシステム
JPH01106263A (ja) * 1987-10-20 1989-04-24 Mitsubishi Electric Corp 文書の格納検索装置
JPH01194063A (ja) * 1988-01-29 1989-08-04 Toshiba Corp 文書ファイル目次作成方式
JPH0233686A (ja) * 1988-07-25 1990-02-02 Fuji Electric Co Ltd 文字列抽出方法
JPH04175966A (ja) * 1990-11-09 1992-06-23 Hitachi Ltd 文書論理構造生成方法
JPH0668300A (ja) * 1991-12-18 1994-03-11 Internatl Business Mach Corp <Ibm> 文書画像のレイアウトモデルを作成する方法及び装置
JPH06325084A (ja) * 1993-01-19 1994-11-25 Canon Inf Syst Inc 文書処理装置及びその方法と文書表示装置及びその方法
JPH06274551A (ja) * 1993-03-19 1994-09-30 Fujitsu Ltd 画像ファイリング装置
JPH08137909A (ja) * 1994-11-15 1996-05-31 Canon Inc 画像形成装置及びその編集方法
JPH08329113A (ja) * 1995-05-26 1996-12-13 Canon Inc 画像情報処理装置
JPH09297765A (ja) * 1996-05-01 1997-11-18 Ricoh Co Ltd 文書画像処理方法
JPH1011459A (ja) * 1996-06-25 1998-01-16 N T T Data Tsushin Kk 文書登録システム
JPH10162016A (ja) * 1996-11-29 1998-06-19 Matsushita Electric Ind Co Ltd 電子ファイリング装置及びこれに用いる情報記憶媒体
JPH10260993A (ja) * 1997-01-21 1998-09-29 Matsushita Electric Ind Co Ltd 書類の走査画像からのタイトル、見出しおよび写真抽出
JPH10240901A (ja) * 1997-02-21 1998-09-11 Mitsubishi Electric Corp 文書ファイリング装置及び文書ファイリング方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002334093A (ja) * 2001-05-11 2002-11-22 Toppan Forms Co Ltd 電子ドキュメントにおけるインデックスファイル作成システム及びインデックスファイル作成方法
JP4530576B2 (ja) * 2001-05-11 2010-08-25 トッパン・フォームズ株式会社 電子ドキュメントにおけるインデックスファイル作成システム及びインデックスファイル作成方法
CN100447805C (zh) * 2004-09-17 2008-12-31 富士施乐株式会社 文档处理装置和文档处理方法
JP2008211743A (ja) * 2007-02-28 2008-09-11 Kyocera Mita Corp 画像形成装置
US8004731B2 (en) 2007-02-28 2011-08-23 Kyocera Mita Corporation Image forming apparatus
JP2009070234A (ja) * 2007-09-14 2009-04-02 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP2009110501A (ja) * 2007-10-29 2009-05-21 Toshiba Corp ドキュメント管理システム、ドキュメント管理方法、ドキュメント管理プログラム
JP2010108208A (ja) * 2008-10-30 2010-05-13 Hitachi Software Eng Co Ltd 文書処理装置

Similar Documents

Publication Publication Date Title
US6353840B2 (en) User-defined search template for extracting information from documents
JP3469345B2 (ja) 画像のファイリング装置及びファイリング方法
JP4332356B2 (ja) 情報検索装置及び方法並びに制御プログラム
JP2004348591A (ja) 文書検索方法及び装置
JPS61267177A (ja) 文書画像追加情報の蓄積方法
US20040008889A1 (en) Character recognition apparatus and method
KR20100007722A (ko) 카메라 기반 영상의 문자 인식 및 번역 방법
JP2006065477A (ja) 文字認識装置
JP2000137728A (ja) 文書解析装置及びプログラム記録媒体
JP5353325B2 (ja) 文書データ生成装置と文書データ生成方法
JP3912463B2 (ja) 論理構造抽出装置及び論理構造抽出方法
KR101800975B1 (ko) 필기체가 인식되어 생성된 전자문서의 공유 방법 및 그 장치
JP7172343B2 (ja) 文書検索用プログラム
JPH11328306A (ja) 文書画像の論理要素抽出方法、装置および記録媒体
JP2009182530A (ja) 業務処理遂行支援装置
US9015573B2 (en) Object recognition and describing structure of graphical objects
JPH06215184A (ja) 抽出領域のラベリング装置
JP3484446B2 (ja) 光学文字認識装置
JP4677750B2 (ja) 文書属性取得方法および装置並びにプログラムを記録した記録媒体
JP2000259847A (ja) 情報検索方法、装置および記録媒体
JPH0757040A (ja) Ocr付きファイリング装置
KR102673900B1 (ko) 표 데이터 추출 시스템 및 그 방법
JP2002297638A (ja) 文書画像からのタイトル抽出方法
JP4209511B2 (ja) 文字認識方法、文字認識装置および文字認識方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4805485B2 (ja) 単語認識方法および単語認識装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040817

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041214