JPH09134406A

JPH09134406A - 文書画像からのタイトル抽出装置および方法

Info

Publication number: JPH09134406A
Application number: JP7341983A
Authority: JP
Inventors: Yutaka Katsuyama; 裕勝山; Satoshi Naoi; 聡直井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1995-09-06
Filing date: 1995-12-28
Publication date: 1997-05-20
Anticipated expiration: 2015-12-28
Also published as: EP0762730B1; CN1495660A; CN1365079A; CN1094224C; CN1365080A; CN1220162C; CN100501760C; KR100311633B1; EP0762730A2; CN1365078A; US6035061A; DE69624433T2; CN1269068C; DE69624433D1; CN1153955A; CN1220163C; JP3425834B2; EP0762730A3; KR970017047A

Abstract

(57)【要約】【課題】文書を画像データに変換して得られる文書画
像から容易にタイトル部分を抽出することが課題であ
る。【解決手段】タイトル抽出装置は、文書画像内の黒画
素を走査し、それらが連結している領域に外接する矩形
領域を文字矩形として抽出し、さらに、隣接する複数の
文字矩形を統合して、それらの文字矩形に外接する矩形
領域を文字列矩形として抽出する。次に、各文字列矩形
の下線属性、枠付き属性、罫線属性等の属性と、文書画
像内の文字列矩形の位置や相互の位置関係とに基づい
て、タイトルらしさのポイント計算を行い、高ポイント
を獲得した文字列矩形をタイトル矩形として抽出する。
また、表形式の文書の場合、表内からタイトル矩形を抽
出することもできる。抽出されたタイトル矩形内の文字
は、認識処理後に文書画像のキーワードとして用いられ
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は画像データの認識処
理に係り、文書を画像データとして取り込んだ文書画像
から、タイトル部分の領域を抽出するタイトル抽出装置
および方法に関する。

【０００２】

【従来の技術とその問題点】一般文書をスキャナ等の光
電変換装置で読み込んで得られる画像データである文書
画像から、文書のタイトル等の部分領域を抽出する従来
技術としては、以下に示す様なものがある。（１）タイトルなどの領域が固定されている文書を対象
として、固定領域をタイトルとして抽出する（特開昭６
４−４６８７３）。（２）文書に色マーカや枠線で囲むなどの特定のマーク
を付けてから、光電変換装置で読み込んで、特定の色部
分や特定のマーク部分の抽出によってタイトル部分を抽
出する（特開平１−１５０９７４）。（３）文書の文字列や写真などの物理構造を木構造等に
表現して、その論理構造とのマッチングをとることで、
物理構造に「タイトル」、「著者名」等のタグ付けをす
る（特開平１−１８３７８４、特開平５−３４２３２６
等）。（４）文書画像の一部の領域を指定し、その内部を投影
して黒画素のヒストグラムを作成する。そのヒストグラ
ム上で、投影した黒画素の値が２つの閾値の間にある部
分が連続する範囲を求め、その連続長が閾値より大きな
部分をタイトルとして抽出する（特開平５−２７４４７
１）。

【０００３】そのほかに、表を含む文書画像から表内の
タイトル等の部分領域を抽出する従来技術として、以下
に示す様なものがある。（５）表を含む固定フォーマットの文書（タイトルなど
の領域が固定されている文書）を対象として、固定され
た領域をタイトルとして抽出する（特開平７−０９３３
４８）。（６）文書画像を投影して黒画素のヒストグラムを作成
し、ヒストグラムの分布から枠線を抽出して、枠線に囲
まれる文字列をタイトルとして抽出する（特開平５−２
７４３６７）。（７）文書画像内の全文字領域を文字認識し、得られた
文字コードに対して単語（キーワード）照合や形態素解
析等の言語的、論理的な知識処理を行い、その結果から
タイトルらしい文字列を抽出する（特開平３−２７６２
６０）。（８）文書画像内の白画素連結部分で囲まれた領域を表
部分として抽出し、その内部から罫線を抽出して、罫線
で囲まれた領域を求める。そして、求めた領域の内部に
ある画像とあらかじめ決められた文字列（テンプレー
ト）とのテンプレートマッチングを行うことで、それと
同じ文字列をタイトルとして抽出する（特開平３−７４
７２８）。

【０００４】しかしながら、これらの従来技術にはそれ
ぞれ以下のような問題がある。（１）および（５）の方法では、書式の固定した文書し
か扱えない。書式を変更する場合は、抽出する部分の設
定も変更する必要がある。（２）の方法では、原稿文書にマークを付ける手間がか
かる。（３）の方法では、木構造等で表現した論理構造の辞書
を用意する必要がある。また、辞書に無い論理構造の文
書については、正確にタイトルを抽出することができな
くなる。（４）の方法では、文書画像の一部の領域の指定方法が
明らかではないが、仮に全領域にこの方法を適用する
と、図表などの大きな黒画素部分を誤ってタイトルとし
て抽出してしまう恐れがある。また文字だけの文書で
も、文字サイズが大きな文字列がタイトルとは限らない
ので、誤抽出する可能性がある。（６）単純な枠線に囲まれている表ならばこの方式でも
よいが、実際には罫線が複雑に組み合わさった表が使わ
れることが多いため、そのような場合にタイトル領域を
正確に特定できない。（７）現在の文字認識処理ではかなりの処理時間がかか
るため、実質的にバッチ処理としてしか使用方法がな
い。また、認識率は１００％ではないので、タイトルの
位置の情報を使わなければ、誤った部分をタイトルとし
て抽出することが多いと考えられる。（８）画像上のテンプレートマッチングはマッチング処
理自体に時間がかかるだけでなく、テンプレートのフォ
ント形状またはサイズの影響を受けやすく、誤りやすい
という欠点がある。また、この方法ではあらかじめ決ま
った文字列だけしかタイトルとして抽出できず、対象と
する文書が限定される。

【０００５】このように、従来のタイトル抽出方法で
は、ユーザにとって特別な準備作業や操作が必要であっ
たり、対象とする文書やタイトルが限定される等の問題
がある。

【０００６】本発明は、文書画像から容易にタイトル部
分を抽出することのできるタイトル抽出装置およびその
方法を提供することを目的とする。

【０００７】

【問題を解決するための手段】図１は、本発明のタイト
ル抽出装置の原理図である。図１のタイトル抽出装置
は、文字領域生成手段１、文字列領域生成手段２、およ
びタイトル抽出手段３を備える。

【０００８】文字領域生成手段１は、文書を画像データ
に変換して得られる文書画像内の連結した黒画素からな
る黒画素連結領域を含む文字領域を生成する。文字列領
域生成手段２は、文字領域生成手段１が生成した１つ以
上の文字領域を統合して、それらの文字領域を含む文字
列領域を生成する。

【０００９】タイトル抽出手段３は、文字列領域生成手
段２が生成した複数の文字列領域の属性に基づいて、そ
れらの複数の文字列領域のうち特定の文字列領域を、タ
イトル領域として抽出する。

【００１０】文字領域生成手段１は文書画像内の黒画素
を走査し、例えば、それらが連結している領域に外接す
る矩形領域を文字領域として抽出する。この結果、文書
内の多数の文字に対応する多数の文字領域が生成され
る。

【００１１】次に、文字列領域生成手段２は、隣接する
複数の文字領域を統合して、例えば、それらの文字領域
に外接する矩形領域を文字列領域として抽出する。この
文字列領域は、例えば、横書き文書内の１行分の文字列
に対応する。

【００１２】タイトル抽出手段３は、生成された各文字
列領域の下線属性、枠付き属性、罫線属性等の属性に基
づいてタイトルらしさを評価し、最もタイトルらしいと
考えられる特定の文字列領域を、タイトル領域として抽
出する。

【００１３】ここで、下線属性とは、文字列領域の内部
または下方に下線があることを意味し、下線フラグ等を
用いて表現される。枠付き属性とは、文字列領域のまわ
りを枠線が囲んでいることを意味し、枠線フラグ等を用
いて表現される。また、罫線属性とは、文字列領域が横
長または縦長の罫線に対応することを意味し、罫線フラ
グ等を用いて表現される。下線属性や枠付き属性を持つ
文字列領域は文書のタイトルである可能性が高く、罫線
属性を持つ文字列領域はタイトルである可能性がほとん
どない。そこで、このような属性をもとにタイトルらし
さを自動的に評価することができる。

【００１４】また、タイトル抽出手段３は、一定以上の
大きさを持つ黒画素連結領域を含む表領域を抽出し、該
表領域内の複数の文字列領域のうち特定の文字列領域
を、タイトル領域として抽出する。

【００１５】表領域としては、例えば、黒画素連結領域
に外接する矩形領域のうち、一定の閾値以上の大きさを
持つものが用いられる。そして、タイトル抽出手段３
は、表領域内の文字列領域相互の位置や文字数等の関係
を調べて、タイトルらしさを評価し、最もタイトルらし
いと考えられる特定の文字列領域を、タイトル領域とし
て抽出する。

【００１６】例えば、表領域の左上に近い文字列領域ほ
どタイトルらしいと考えられ、また、文字数の大きな文
字列領域もタイトルらしいと考えることができる。本発
明のタイトル抽出装置によれば、表形式文書を含む様々
な文書画像を対象として、原稿にマークすることもな
く、特別な構造辞書が不要で、文字サイズのみに影響さ
れない、高精度なタイトル抽出処理を行うことができ
る。また、抽出されたタイトル領域に含まれる文字領域
を切り出して文字認識を行い、認識結果を文書画像のキ
ーワードとして用いることもできる。

【００１７】図１の文字領域生成手段１、文字列領域生
成手段２、およびタイトル抽出手段３は、例えば、実施
の形態における図２のプロセッサ１４に相当する。

【００１８】

【発明の実施の形態】以下、図面を参照しながら本発明
の実施の形態を詳細に説明する。最近、従来より紙媒体
で保存してきた情報を電子化する動きが多く見られる。
その中の１つに電子ファイリングシステムがある。電子
ファイリングシステムにおいては、紙文書がイメージス
キャナ等の光電変換装置で画像に変換され、それに検索
のためのキーワードや管理情報が付与されて、光ディス
クやハードディスクに保存される。

【００１９】このような方法では文書を画像データとし
て保存するため、文書に記されているすべての文字を文
字認識技術でコード化してから保存する方法よりも、デ
ィスク容量は多く必要となる。その反面、手軽で処理速
度が速く、文字以外の絵や表などもそのまま保存できる
メリットがある。しかし、保存された情報を検索するた
めに、文書画像と共にキーワードや番号などの管理情報
を付与しなければならない。従来のシステムはこのキー
ワード付けの手間がかかり、使いづらいシステムであっ
た。

【００２０】この使いづらさを解決するために、文書中
にあるタイトル部分をキーワードとみなしてそれを自動
的に抽出し、その部分を文字認識してコード化した結果
を文書画像と共に保存する方法が考えられる。

【００２１】現在の文字認識の処理速度は速くても数十
文字／秒であり、Ａ４の文書１枚を処理するのには３０
秒から数分の処理時間がかかってしまう。したがって、
タイトル抽出を高速化するためには、文書全体を文字認
識するのではなく、まず画像上で必要なタイトル部分だ
けを抽出した後にそれを文字認識する方法が有力であ
る。

【００２２】また、文書中の全文字を認識して論理的に
タイトルを抽出する方法では、画像上におけるタイトル
部分の位置関係が考慮されない。このため、誤認識や文
章のつながりの影響で、正確にタイトルコードを抽出で
きない場合がかなりあるはずである。

【００２３】このように、電子ファイリングシステムの
効率的な運用を考えると、文書画像から直接タイトル部
分（領域）を抽出する技術は、重要な技術である。そこ
で、電子ファイリングシステムを例にとり、本発明のタ
イトル抽出技術について説明する。

【００２４】図２は、実施形態のタイトル抽出システム
の構成図である。図２のタイトル抽出システムは、電子
ファイリング装置１１、光電変換装置１２、ディスプレ
イ端末１３、プロセッサ１４、およびメモリ１５を備
え、これらの装置はバス１６により結合されている。

【００２５】電子ファイリング装置１１は、ハードディ
スクや光ディスク等の格納装置を備え、複数の画像デー
タを個別に格納している。光電変換装置１２は、例えば
スキャナ等の光学的な読み取り装置であり、文書や絵、
写真等を画像データに変換する。こうして取り込まれた
画像データは、電子ファイリング装置１１またはメモリ
１５に格納される。ディスプレイ端末１３は、ディスプ
レイ装置とキーボードやマウス等の入力装置とを備えた
オペレータ端末である。

【００２６】プロセッサ１４は、ディスプレイ端末１３
から入力された指示に従い、光電変換装置１２からメモ
リ１５に取り込んだ文書画像、または、電子ファイリン
グ装置１１から取り出した文書画像からタイトル等の特
定領域を抽出する。そして、抽出した領域に含まれる文
字を認識する。尚、文字の認識処理は、タイトル抽出シ
ステムの外部のシステムにより行う構成としてもよい。

【００２７】図２のタイトル抽出システムは、例えば、
後述する図４に示すような文書画像から図６に示すよう
な文字の外接矩形を求め、さらに複数の文字の外接矩形
を統合して、図２７に示すような文字列矩形を求める。
そして、各文字列矩形が文書の中で強調されているかど
うかを調べる。

【００２８】例えば、図１４に示すような枠線で囲まれ
ている文字列は強調されているものとみなし、それだけ
でタイトルらしいと考えられるので、それらをタイトル
候補として抽出する。そのほかにも、下線を持つ文字列
や大きな文字列は強調文字列と考えて、タイトル候補と
して抽出する。また、文書内での文字列の位置や隣接す
る他の文字列との位置関係も、タイトル文字列を識別す
るために有力な情報として用いられる。

【００２９】このように、文字列が強調されているかど
うかやその位置等の外見的な情報をもとにタイトル候補
の文字列を選択するので、タイトルである蓋然性の高い
領域を文書画像から簡単に抽出することができる。この
抽出方法は文書全体を認識してからタイトルを抽出する
方法よりも高速であり、対象とする文書を選ばないとい
う点で汎用的である。また、文字列の２つ以上の外見的
情報を組合せて用いることにより、比較的正確にタイト
ル領域を特定することができる。

【００３０】図３は、図２のタイトル抽出システムによ
るタイトル抽出処理のフローチャートを示している。図
３の処理においては、前提条件として横書き文書を対象
としているが、横書きに限らず縦書き文書でも横書きと
同様の処理で対応可能である。縦書き文書の場合には、
文字領域や文字列領域の高さと幅が、横書き文書の場合
と互いに逆の役割を果たすことになる。

【００３１】図３において処理が開始されると、光電変
換装置１２が文書を読み取り、画像データ（文書画像）
としてメモリ１５に格納する（ステップＳ１）。このと
き、処理の高速化のために、読み取った原画像を縦横そ
れぞれ１／８に圧縮して圧縮画像を作成し、それを文書
画像としてメモリ１５に格納しておく。

【００３２】画像を圧縮する際には、線分がとぎれない
ように論理ＯＲの圧縮方法を用いる。つまり、原画像の
８×８画素の領域の中に１つでも黒画素があれば、圧縮
画像の対応する画素を黒とし、全く黒画素がなければそ
れを白とする。

【００３３】次に、プロセッサ１４が、文書画像から文
字列（あるいは行）を抽出し、文字列の外接矩形（文字
列矩形）を求め、その座標をメモリ１５に保存する（ス
テップＳ２）。次に、保存した文字列矩形から、横幅が
小さい矩形や縦長矩形をノイズ矩形として除去し（ステ
ップＳ３）、さらに文字列らしくない矩形を除いて、文
書領域を決定する（ステップＳ４）。

【００３４】次に、残った文字列矩形を縦方向（ｙ座
標）で並べ替え（ステップＳ５）、枠の画像を含む矩形
（枠矩形）を抽出して、枠矩形内にある文字列矩形を枠
付き矩形としてマークする（ステップＳ６）。また、下
線の画像を含む矩形を抽出して、そのすぐ上にある文字
列矩形を下線矩形としてマークする（ステップＳ７）。

【００３５】次に、タイトルらしさのポイント計算を行
って、ポイントの高い文字列矩形をタイトルとして抽出
し（ステップＳ８）、その結果を用いて文書の宛先と発
信元情報を抽出する（ステップＳ９、Ｓ１０）。そし
て、抽出したタイトル、宛先、発信元情報の認識処理を
行って（ステップＳ１１）、処理を終了する。

【００３６】次に、一般的な社内文書を例に取り、タイ
トル抽出処理を詳細に説明する。社内文書には、通常、
「タイトル」、「宛先」、「発信日」、「発信所属」、
「発信管理番号」、「本文（図表あり）」などの要素が
含まれており、それらが様々な配置で記載されている。
ここでは、このような様々な書式の文書からタイトル、
宛先、および発信者情報（発信日、発信所属、発信管理
番号等）を抽出する。

【００３７】図４は、スキャナでメモリ１５に読み込ま
れた文書画像の例を示している。図４の文書画像は、ソ
フトウェア販推レポートの送付表に関するものであり、
この文書のタイトルは「ソフトウェア販推レポート送
付表」で、その下に宛先や発信元情報が記載されてい
る。プロセッサ１４は、まずこの文書画像から文字列を
抽出する。図５は、図３のステップＳ２の文字列抽出処
理のフローチャートである。

【００３８】図５において処理が開始されると、プロセ
ッサ１４は、まず文書画像から文字に相当する矩形を抽
出する。そのために、文書画像に対してラベリングによ
る黒画素連結処理を施し、黒画素の外接矩形を求めて保
存する（ステップＳ２１）。

【００３９】ここでは、２値化されている圧縮画像の黒
画素を８連結で走査し、連結が有る場合にはそれらの黒
画素に同一のラベル値を与えることによって黒画素連結
領域を生成し、その外接矩形（文字矩形）を求める。８
連結による走査とは、１つの黒画素の上、下、左、右、
左上、右上、左下、右下の８方向を走査して、他の隣接
黒画素があるかどうかを調べる処理を意味する。求めら
れた外接矩形は、ファイルlbtbl に保存される。図４の
文書画像にラベリング処理を施した結果は、図６のよう
になる。

【００４０】次に、ラベリングにより得られた外接矩形
の高さの頻度分布を表すヒストグラムを求め、高さの最
頻値freqを求める（ステップＳ２２）。ここでは、まず
ラベリング結果の外接矩形の集合lbtbl から、図７に示
すような矩形高さのヒストグラムを作成する。図７にお
いて、横軸が各外接矩形の高さを表し、縦軸がその高さ
を持つ矩形の数（頻度値）を表す。外接矩形の高さは、
例えば１画素の高さを単位高さとして求める。

【００４１】次に、頻度値と、その頻度値を持つ矩形高
さの内で最大の高さとの対応関係を求め、矩形高さテー
ブルheightに保存する。そして、heightの中を頻度値０
から順に調査していき、高さの変化が１以内で頻度値の
変化するものが連続し、それらの頻度値の変化の合計が
９以上の場合に、それらの連続する高さのうちで最も高
いものを矩形高さの最頻値freqとする。

【００４２】図８は、図７のヒストグラムに対応するhe
ightの内容を表すヒストグラムを示している。図８にお
いて、頻度値が急激に変化する高さがfreqとなっている
ことがわかる。このようにしてfreqを求めておけば、１
文字よりも小さなノイズの影響を排除することができ
る。

【００４３】図９は、heightの簡単な例を示している。
図９においては、４つの頻度値と、各頻度値を持つ矩形
高さの内で最大の高さとが、それぞれペアで格納されて
いる。freqを求めるために、このheightの内容をヒスト
グラムにすると図１０のようになる。図１０のヒストグ
ラムを、頻度値の低いところから、つまり高さの高いと
ころから順に見ていくと、高さが１０、９、８の位置
で、頻度値がそれぞれ５、５、７だけ変化していること
が分かる。これらの連続する高さの差は１であり、頻度
値の変化の合計は１７である。したがって、高さ１０、
９、８において頻度値の変化の合計が９以上となってい
るので、それらの中で最初に現れた高さ１０をfreqとす
る。

【００４４】次に、枠線や図表の外接矩形を除去するた
めに、大きな矩形と判断するための閾値を設定し、それ
より大きな矩形を抽出する。そして、抽出した大きな矩
形の中から枠線を含む矩形を抽出して保存する（ステッ
プＳ２３）。

【００４５】ここでは、例えば、freqより大きな矩形で
最も頻度値が大きな矩形高さを大きな矩形の閾値th＿la
rge とし、th＿large より大きな矩形を抽出して、ファ
イルbox に保存する。

【００４６】次に、box の中の大きな矩形から枠線を抽
出するために、それぞれの大きな矩形の内部を図１１に
示すように縦に部分分割して、重複のある短冊状の部分
領域を作る。そして、各短冊状部分領域の中で、一定割
合以上の黒画素占有率を持つ高さ１画素の横方向の線状
領域を求める。さらに２つ以上の線状領域が上下に連続
していれば、それらを統合して１つにまとめた部分線分
を求める。

【００４７】図１２は、図１１の大きな矩形の中の１つ
の短冊状部分領域を示している。図１２において、幅ｗ
の部分領域は高さ１の線状領域に細分され、一定割合以
上の黒画素を含み、上下に連続する線状領域が１つの部
分線分矩形として統合されている。図１２に示すよう
に、１つの部分領域には２つ以上の部分線分矩形が存在
する場合がある。次に、このようにして求めた部分線分
矩形同士が左右で８連結の関係にあれば、それらを１つ
の線分として扱う。図１３（ａ）、（ｂ）、（ｃ）は、
それぞれ８連結の関係にある２つの部分線分矩形の例を
示している。こうして、図１１の場合は、大きな矩形の
上端部分から横方向の線分矩形が抽出される。

【００４８】このようにして求めた線分矩形が、対象と
なる大きな矩形の横幅に比べて一定比率以上の場合に、
長い線分矩形として抽出する。この長い線分矩形の両端
と大きな矩形の両端の差が一定マージン以内にあり、か
つ、長い線分矩形の上下端のｙ座標と大きな矩形の上下
端のｙ座標の差が矩形幅の一定比率よりも小さい時に、
大きな矩形の上下に位置している横罫線と判断する。

【００４９】そして、この大きな矩形の左右端付近の黒
画素を縦方向に投影した頻度分布（ヒストグラム）を求
め、そのピークの高さが矩形高さの一定比率より大きい
場合に、左右端に縦罫線もあると判断する。このとき、
この大きな矩形は枠線の外接矩形（枠矩形）と識別され
る。box の中の各大きな矩形について同様の処理を行
い、枠矩形のみをbox に残す。図１４は、検出された枠
矩形を示している。

【００５０】次に、ラベリングで求めた外接矩形の集合
lbtbl から枠矩形および図表と判定された矩形（図表矩
形）を除去して、結果を保存する（ステップＳ２４）。
ここでは、まずlbtbl の中からbox に保存されている枠
矩形を除去する。さらに、次のいずれかに該当する矩形
を図表矩形と推定して、これらをlbtbl から除去する。（ａ）文書画像全体の高さの１／３より大きな矩形（ｂ）高さがfreqの３倍より大きく、高さ／幅の比が
０．４より小さい矩形（ｃ）高さがfreqの３倍より大きく、文書画像全体の幅
の１／３より大きな矩形そして、除去後の矩形集合をnewtblとして管理する。こ
の矩形集合newtblから文字列の外接矩形が抽出される。

【００５１】newtbl内の矩形の中には、矩形同士が重複
またはネストしているものも含まれている。このような
矩形は１つにまとめた方が、矩形相互の位置関係が明確
になり、文字列の抽出を効率的に行うことができる。そ
こで、newtblを対象にして、矩形同士が重複またはネス
トしているものを統一して、重複／ネストを除去し、結
果をファイルlbtbl2に保存する（ステップＳ２５）。

【００５２】図１５は、重複する２つの矩形の例を示し
ている。図１５において、矩形２１と矩形２２は、それ
ぞれ右上がりの斜めの線分の外接矩形を表し、斜線部分
で互いに重複している。この場合、矩形２１、矩形２２
を、これらの矩形を包括する１つの矩形２３にまとめ
て、重複を除去する。図１６は、ネストしている複数の
矩形を示している。図１６において、矩形２５、２６、
２７は、矩形２４に完全に内包されており、その矩形に
ネストしている。この場合、矩形２４のみを残して、ネ
ストを除去する。

【００５３】ところで、newtblの中で、1 つの矩形と重
複／ネストしている他の矩形を探索するのには、次の２
つの方法がある。（ｄ）１つの矩形を基準として、残りの矩形全部を探索
範囲とする。（ｅ）縦または横方向に、矩形の辺の中線上に頂点を持
つ二等辺三角形を作り、そのヒストグラムを作成する。
そして、ヒストグラム中のそれぞれの頻度の山を構成す
る矩形の集合（グループ）を同時に記録する。ヒストグ
ラム中で、山と山の距離が閾値より近いものを統合し、
同時に対応する矩形集合も統合する。この矩形の集合を
１つの探索範囲とし、この集合内にある矩形を基準とし
た場合は、この集合内を探索する。また、縦方向および
横方向で作成した各矩形集合の重なり部分を求めて、探
索範囲としてもよい。

【００５４】図１７は、（ｅ）の方法で用いる二等辺三
角形のヒストグラムの例を示している。図１７におい
て、矩形３１、３２の二等辺三角形３６、３７が１つの
山４１に投影され、矩形３３の二等辺三角形３８が山４
２に投影され、矩形３４、３５の二等辺三角形３９、４
０が山４３に投影されている。例えば、これらの山４
１、４２、４３が一定距離内にある場合は、矩形３１、
３２、３３、３４、３５は１つの矩形集合に統合され
る。あるいはまた、矩形３１と矩形３２のように、対応
する二等辺三角形が１つの山に投影されるような矩形を
１つの矩形集合にまとめてもよい。

【００５５】（ｅ）の方法によれば、限られた範囲の矩
形のみを探索すればよいので、一般に（ｄ）の方法より
も高速処理が可能である。図１８は、このようにして重
複／ネストが除去された外接矩形を示している。

【００５６】次に、重複／ネスト除去後のlbtbl2に含ま
れる矩形の高さのヒストグラムを求め、高さの最頻値fr
eq2 を求める（ステップＳ２６）。高さのヒストグラム
の作成方法およびfreq2 を求める方法は、ステップＳ２
２と同様である。

【００５７】次に、lbtbl2から罫線矩形を抽出して、マ
ークする（ステップＳ２７）。ここでは、lbtbl2内で、
高さがfreqの１／２より小さく、幅がfreqの３倍より大
きく、高さ／幅の比が０．１より小さい矩形を、罫線矩
形としてマークする。

【００５８】次に、１つの文字列に属する複数の文字を
見つけるために、lbtbl2内の矩形相互の関係を求め、連
結関係表connect に保存する（ステップＳ２８）。ここ
では、lbtbl2内の各矩形から上下左右に最も近い矩形を
探索し、その結果をconnectに格納する。矩形相互の関
係とは、ある基準矩形から上下左右の矩形への各ポイン
タと、上下左右の矩形から基準矩形へ向かう各ポイン
タ、および基準矩形から上下左右の矩形までの距離を意
味する。

【００５９】図１９は、１つの矩形を基準矩形とした場
合の矩形間の連結関係を示している。図１９において、
上矩形は基準矩形の上に近接する矩形を表し、ポインタ
５１、５２により基準矩形と連結されている。上矩形は
基準矩形の上に近接する矩形を表し、ポインタ５１、５
２により基準矩形と連結されている。下矩形は基準矩形
の下に近接する矩形を表し、ポインタ５３、５４により
基準矩形と連結されている。左矩形は基準矩形の左に近
接する矩形を表し、ポインタ５５、５６により基準矩形
と連結されている。右矩形は基準矩形の右に近接する矩
形を表し、ポインタ５７、５８により基準矩形と連結さ
れている。

【００６０】このようなポインタを格納する連結関係表
connect の構造は、例えば図２０に示すようになる。図
２０の連結関係表には、基準矩形のラベル値に続いて、
上矩形へのポインタ、上矩形からのポインタ、下矩形へ
のポインタ、下矩形からのポインタ、左矩形へのポイン
タ、左矩形からのポインタ、右矩形へのポインタ、右矩
形からのポインタが格納されている。connect には、こ
れらのポインタの他に基準矩形から上下左右の各矩形ま
での距離も格納される。

【００６１】connect を作成する時には、枠矩形の４辺
で連結関係が切断されるように設定しておく。これは、
後に枠線を越えて文字列を抽出しないようにするためで
ある。基準矩形に最も近い矩形を探索する場合も、ステ
ップＳ２５で用いた（ｄ）と（ｅ）の２通りの方法があ
る。

【００６２】次に、スキャナによる読み取り時のノイズ
に相当するノイズ矩形を識別し、それと他の矩形との横
の関係を切断する（ステップＳ２９）。ここでは、矩形
高さ、幅がfreq2 の１／４より小さい矩形、または、高
／幅の比が０．１より小さいか１０より大きくかつ上下
の矩形との距離が一定値より大きい矩形を、ノイズ矩形
と判定する。そして、その矩形と他の矩形との間の横方
向のポインタを削除して、連結関係を切断する。

【００６３】次に、隣接する矩形間の距離が離れている
場合、または隣接する矩形間で大きさに差がある場合、
それらの矩形の連結関係を切断する（ステップＳ３
０）。ここでは、基準矩形が次のいずれかの条件に該当
する場合に、隣の矩形との連結関係を切断する。（ｆ）基準矩形と隣の矩形との距離が、freq2 の３倍よ
りも大きい。（ｇ）基準矩形または隣の矩形が、freq2 の３倍以上の
大きさを持つ。（ｈ）隣の矩形がfreq2 の２倍より大きい。

【００６４】次に、文字矩形の集合lbtbl2とその連結関
係表connect から、文字列を抽出し、文字列の外接矩形
（文字列矩形）を保存する（ステップＳ３１）。ここで
は、まず、lbtbl2内の矩形のうち、その矩形へ左から向
かうポインタが無いもの、つまり、左側に矩形が無いも
のを開始矩形とする。次に、その矩形の識別番号（例え
ばラベル値）を右側にある他の矩形へ順次伝搬させてい
き、同じ識別番号を付加した複数の矩形を統合して、そ
れらの外接矩形を文字列矩形とする。この時、開始矩形
の識別番号を、抽出した文字列の識別番号（ラベル値）
としてline＿lab に保存しておく。そして、右側に連結
する矩形が無くなったら伝搬を終了する。

【００６５】図２１は、こうして抽出された文字列矩形
の例を示している。図２１では、横に並んだ４つの文字
矩形がラベル値Ｌ１を付加されて、１つの文字列矩形に
統合されている。この場合、その文字列矩形のラベル値
もＬ１になる。

【００６６】もし、右側の矩形の識別番号が、既にline
＿lab 内にある文字列識別番号に一致する場合は、これ
まで伝搬してきた矩形の集合の識別番号を、右側の文字
列識別番号へ置き換える。そして、置き換え前の文字列
の識別番号はline＿lab から除去しておく。

【００６７】この処理の後、左から向かうポインタが無
い矩形を再び検出し、これを基準矩形とする。その基準
矩形の左側に矩形がある場合は、その左側の矩形は既に
抽出された文字列の識別番号に組み込まれているはずで
ある。そこで、その番号を基準矩形より右にある矩形に
対して、右に連結した矩形が無くなるまで伝搬させ、識
別番号を置き換える。そして、line＿lab から置き換え
前の矩形の番号を除去する。

【００６８】例えば、図２２に示すように、１つの文字
列矩形の中に他の文字列矩形が存在する場合を考える。
左からのポインタを持たない矩形６４を基準矩形とし
て、その左へのポインタを辿ると左側に矩形６１がある
ことが分かる。矩形６１は既にラベル値Ｌ０を持ってい
るので、この値を矩形６４、６５へ伝搬させて、それら
のラベル値をＬ０に置き換える。こうして、ラベル値Ｌ
５はline＿lab から除去され、矩形６１、６２、６３、
６４、６５は１つの文字列矩形に統合される。

【００６９】ここまでの処理において、同一文字列と識
別された各矩形には同じ文字列識別番号がついている。
そこで、全部の矩形を走査して、同じ文字列識別番号が
付いている複数の矩形の座標から最左端、最右端、最上
端、最下端を求め、それらを文字列矩形の外周を構成す
る座標として、ファイルlineに保存する。また、抽出し
た文字列の数をmaxline として保存する。

【００７０】以上で、文字列抽出処理が終了する。図２
３は、こうして抽出された文字列矩形を示している。次
に、プロセッサ１４は、抽出された文字列矩形に対し
て、図３のステップＳ３からＳ７までの処理に対応する
文字列矩形加工処理を施す。文字列矩形加工処理におい
ては、各文字列矩形の下線属性、枠付き属性、罫線属性
等の属性を抽出し、それらを記録する。後のポイント計
算において、下線属性や枠付き属性を持つ文字列矩形に
はより高いポイントが付与され、罫線属性を持つ文字列
矩形にはより低いポイントが付与される。

【００７１】図２４は、この文字列矩形加工処理のフロ
ーチャートである。図２４において処理が開始される
と、まず横幅が小さい文字列矩形や縦長の文字列矩形を
ノイズ文字列矩形として除去し、結果を保存する（ステ
ップＳ４１）。ここでは、横幅がfreq／４より小さい文
字列矩形、または、高さがfreq／４より小さくかつ高さ
／幅の比が０．１より大きい文字列矩形をノイズとみな
して除去し、残ったものをファイルline2 に保存する。
図２５は、ノイズ除去後の文字列矩形を示している。

【００７２】次に、line2 内の文字列矩形間の接続関係
を表す連結関係表 str＿connを作る（ステップＳ４
２）。ここでの接続関係は、図１９に示した文字矩形間
の連結関係と同様のものを表し、 str＿connは図２０に
示した連結関係表と同様の構造を持つ。

【００７３】次に、位置関係や高さが一定の条件を満た
す２つ以上の文字列を統合してより長い文字列を求め、
結果を保存する（ステップＳ４３）。ここでは、次のい
ずれかに該当する場合に、それらの文字列矩形を１つに
統合し、さらに大きな文字列矩形を求める。（ｉ）文字列矩形間の距離が文字列矩形の高さより小さ
い場合（ｊ）横方向に重複していて、高さがほぼ等しい文字列
矩形（ｋ）矩形高さの最頻値freq位の高さで、他の文字列矩
形に完全に含まれる文字列矩形（ｌ）３連の文字列矩形で両端の矩形のｙ座標がほぼ等
しく、それらの間にある矩形だけが異なる場合図２６（ａ）、（ｂ）、（ｃ）、（ｄ）は、それぞれ
（ｉ）、（ｊ）、（ｋ）、（ｌ）の場合に統合されてで
きる文字列矩形の例を示している。このような処理を文
字列矩形の数が変化しなくなるまで繰り返し、残った文
字列矩形をファイルline3 に保存する。図２７は、こう
して文字列矩形を統合した結果を示している。図２５と
図２７を比べると、例えば、文字列矩形「ソフトウェア
販推レポート」と「送付表」とが、文字列矩形「ソフト
ウェア販推レポート送付表」に統合されていることが
分かる。

【００７４】次に、文字列の高さのヒストグラムを作成
し、文字列高さの最頻値 str＿freqを求める（ステップ
Ｓ４４）。ここでは、文字列矩形の高さのヒストグラム
を、図７と同様にして作成する。そのヒストグラムか
ら、freq2 以上で最大頻度を与える高さを求め、それを
文字列矩形の高さの最頻値 str＿freqとする。もし、最
大頻度を与える高さが複数個あったら、freq2 に近い方
の高さを採用する。文字列矩形の高さのヒストグラムに
おいて、 str＿freqから連続する頻度分布を見ていった
とき、 str＿freqの両側に頻度値が０になる位置があ
る。これらの頻度値が０になる位置の直前の高さのう
ち、小さい方をst＿h 、大きい方をen＿h とする。

【００７５】次に、ノイズを除いた文書領域を求めて、
その領域の座標を保存する（ステップＳ４５）。ここで
は、文書画像の左右端にある一定領域内に一部分でも掛
かるような文字列矩形は対象外として、高さがst＿h 以
上、en＿h 以下で、かつ、横幅が str＿freq以上で、か
つ、高さ／幅の比が０．５未満の文字列矩形が存在する
範囲を文書領域とする。そして、その領域の左端のｘ座
標、上端のｙ座標、右端のｘ座標、下端のｙ座標を、そ
れぞれst＿x 、st＿y 、en＿x 、en＿y として保存す
る。左右端の一定領域を無視するのは、例えばＡ４サイ
ズの画像領域にＢ５版の本の１ページ分の画像を読み込
んだような場合に、文書画像の左右に存在する隣のペー
ジの文字列矩形を、ノイズとして除去するためである。
図２８は、こうして求められた文書領域を示している。

【００７６】次に、line3 内の文字列矩形を縦方向（ｙ
座標）で並べ替える（ステップＳ４６）。次に、line3
内の文字列矩形間の連結関係を表す連結関係表 str＿co
nn2 を作る（ステップＳ４７）。この時、枠矩形を跨い
で連結する関係がないようにする。

【００７７】次に、各文字列矩形が枠矩形に完全に含ま
れているかどうかをチェックし、含まれている場合には
その文字列矩形に枠付きフラグを立てる（ステップＳ４
８）。ここでは、line3 内の各文字列矩形に対して、そ
れがbox に保存された枠矩形に完全に内包される場合に
枠付き矩形とみなし、その文字列矩形に枠付きフラグを
立てる。枠付き矩形の判定基準としては、枠矩形の内部
にある文字列矩形をすべて枠付き矩形とみなす場合と、
枠矩形と内部の文字列矩形の座標値が閾値以上に離れて
いない場合のみ枠付き矩形とみなす場合とがある。

【００７８】次に、line3 内の文字列矩形の中で、罫線
矩形と判断したものに罫線フラグを立てる（ステップＳ
４９）。ここでは、 str＿freqの１／２以下で、高さ／
幅の比が０．８より小さいか、または１２．５より大き
いものを罫線矩形とみなして、その文字列矩形に罫線フ
ラグを立てる。

【００７９】次に、line3 内の文字列矩形を調べてその
直下に下線らしい罫線矩形（下線矩形）が有る場合、ま
たは、文字列矩形内部を走査して内部に下線が有る場合
は、その文字列矩形に下線フラグを立てる（ステップＳ
５０）。ここでは、罫線矩形の上に文字列矩形があり、
それらの間の距離が str＿freqより小さい範囲にあり、
かつ、上の文字列矩形と罫線矩形の左右端の差が str＿
freq以下のとき、上にある文字列矩形に下線フラグを立
てる。図２９は、下線矩形の例を示している。図２９に
おいて、文字列矩形７１の下には罫線フラグが立てられ
た横長の罫線矩形７２があるため、これが下線矩形とみ
なされ、文字列矩形７１には下線フラグが立てられる。

【００８０】また、幅または高さが str＿freqの１／２
以上の文字列矩形を対象として、後に述べる方法で線分
を抽出する。そして、文字列矩形内で抽出した線分が、
文字列矩形の左右端から一定画素数の範囲にあり、か
つ、線分の高さが矩形高さのWAKUTHIN倍（例えば０．３
倍）以下で、かつ、線分の下のｙ座標が矩形の下のｙ座
標から str＿freq／２だけ上の位置より下にあり、か
つ、線分の上のｙ座標と矩形の上のｙ座標の差が str＿
freq−２よりも大きく、かつ、線分の下のｙ座標と矩形
の下のｙ座標の差が線分の上のｙ座標と矩形の上のｙ座
標の差よりも小さい場合に、この線分を文字列矩形内の
下線として識別し、その文字列矩形に下線フラグを立て
る。

【００８１】こうして、文字列加工処理を終了する。図
３０は、枠付きフラグ、罫線フラグ、下線フラグを立て
る処理を終えた後の文字列矩形を示している。図３０に
おいて、Ｌ０〜Ｌ５４は、各文字列矩形に付加されたラ
ベル値を表している。これらの文字列矩形のうち、ラベ
ル値Ｌ１、Ｌ２、Ｌ１６を持つ文字列矩形が枠付き矩形
に相当する。

【００８２】次に、図２４のステップＳ５０で文字列矩
形から線分を抽出する方法を詳細に説明する。図３１
は、線分抽出処理のフローチャートである。図３１にお
いて処理が開始されると、プロセッサ１４は、まず文字
列矩形を一定画素幅ｗの短冊状の部分領域に分割する
（ステップＳ６１）。この部分領域は、図１１の場合と
同様に半分ずつ重なるような領域とする。

【００８３】次に、各部分領域の内部を上から下へ順
に、縦１画素×横ｗ画素の線状領域毎に注目していく。
ある線状領域の内部の黒画素数が閾値よりも大きい場合
に、この線状領域の内部が全て黒画素であるとみなし、
これを黒領域とする。黒領域の直下に別の黒領域がある
場合は、２つの黒領域は連続しているものと判断し、１
つの黒領域（部分線分矩形）として扱う（ステップＳ６
２）。すなわち、黒領域を表す座標は、左右は部分領域
の左右の座標、上は、上から順に走査していったときに
白領域から黒領域へ変化するときの黒領域のｙ座標、下
は、黒領域から白領域に変化するときの黒領域のｙ座標
となる。この結果、１つの部分領域から１つあるいは複
数個の黒領域の座標が求められる。この操作を全部分領
域で行い、黒領域の集合を求める。

【００８４】次に、黒領域の中で高さが閾値より大きい
ものをワイルドカードと呼ぶことにする（ステップＳ６
３）。ワイルドカードは、例えば、文字列矩形内で文字
が潰れて黒画素の塊になっているような場合に発生す
る。図３２は、部分領域に分割された文字列矩形と、そ
の中のワイルドカードの例を示している。また、図３３
は、１つの部分領域の中の線状領域とワイルドカードの
例を示している。図３３において、部分領域は１５個の
線状領域からなり、それらのうち上から１２個の線状領
域がワイルドカードを形成している。

【００８５】次に、黒領域の集合を走査し、重複または
隣接するものを統合して横長の矩形領域を求める（ステ
ップＳ６４〜Ｓ６９）。まず、最初に黒領域の集合から
１つの黒領域を選び、それに注目する（ステップＳ６
４）。その黒領域がワイルドカード矩形でない場合は、
その黒領域の上下端の座標と左右端の座標を、横長の矩
形領域の座標として保存する。１回でも黒領域の集合か
ら取り出した黒領域は、使用済みフラグを立てて二度と
使用しない。

【００８６】次に、黒領域の集合から１つの黒領域を取
り出し、既に使用済みのものでなければ、記憶した横長
矩形の座標と比較して、その右側に隣接または重複する
関係にあるかどうかをチェックし、そのような関係にあ
る黒領域を選ぶ（ステップＳ６５）。そして、その黒領
域がワイルドカードかどうかを判定し（ステップＳ６
６）、ワイルドカードの場合はその高さを無視して横方
向に領域を統合する（ステップＳ６７）。このとき、記
憶している横長矩形の右端の座標を、そのワイルドカー
ド矩形の右端の座標で置き換える。

【００８７】右側に隣接または重複する黒領域がワイル
ドカードでない場合は、両方の矩形の上下座標を比較
し、それらの差が閾値以内にあれば、縦方向と横方向に
領域を統合する（ステップＳ６８）。このとき、右側の
ワイルドカードでない黒領域の上下座標を新しい横長の
矩形領域の上下座標とする。また、黒領域の右端の座標
を横長矩形の右端の座標とする。そして、黒領域をすべ
て調べたかどうか判定し（ステップＳ６９）、未処理の
黒領域があれば、ステップＳ６５以降の処理を繰り返
す。さらに、注目する黒領域を他のものに変えて（ステ
ップＳ７０、Ｎｏ）、ステップＳ６４以降の処理を繰り
返し、すべての黒領域を取り出すと処理を終了する。

【００８８】このように、図３１の線分抽出処理におい
ては、まず矩形内部を適当な長さの重複がある縦短冊に
分割し、１つの短冊内部で一定の黒画素占有率を満たす
部分を抽出して部分線分矩形（黒領域）で表現し、それ
らを保存する。ここまでは、図１１に示した線分の抽出
方法と同じである。このとき、保存された部分線分矩形
は、下線の一部である高さの小さい矩形の場合もある
が、文字が潰れてそれが下線と接触しているときには、
図３２のワイルドカードのような高さの大きな矩形の場
合もある。これらを横方向に走査していき、全体的な１
つの長い線分矩形として抽出する。図３２においては、
文字列矩形内のワイルドカードの高さは無視されて、他
の部分線分矩形と統合され、文字列矩形の下端部分に横
長の線分矩形が抽出されている。

【００８９】図３４、３５、３６は、線分抽出処理のプ
ログラムコードの例を示している。図３５は、図３４の
Ｃ１の位置のαに相当する部分を示しており、図３６
は、図３４のＣ２の位置のβに相当する部分を示してい
る。また、図３７、３８、３９は、図３４、３５、３６
の処理の概要を示すフローチャートである。この処理に
おいては、文字が潰れてできた大きな黒画素塊をワイル
ドカード矩形として扱い、その前後に８連結で接続され
る横長の矩形に注目する。そして、ワイルドカード矩形
を挟んでお互いに８連結の関係にある矩形を統合してい
き、１つの横に長い矩形を線分候補の罫線として求め
る。以下、図３７、３８、３９を参照しながら、具体的
な処理を説明する。

【００９０】図３７において処理が開始されると、プロ
セッサ１４は、まず各部分線分矩形の高さを調べる（ス
テップＳ７１）。そして、それが文字列矩形の高さ×
０．３以上であれば、ワイルドカード矩形としてマーク
する（ステップＳ７２）。このとき、その部分線分矩形
の識別変数ｕｓｅを９とおくことにより、ワイルドカー
ド印をつける。それ以外の部分線分矩形は普通の矩形
（スタンダード矩形）として、ｕｓｅ＝０とおく（ステ
ップＳ７３）。そして、すべての部分線分矩形をマーク
したかどうかを判定し（ステップＳ７４）、まだ部分線
分矩形が残っていれば、ステップＳ７１以降の処理を繰
り返す。

【００９１】すべての部分線分矩形をマークし終える
と、１つの矩形をカレント矩形ｉとして取り出し、ｘｌ
ｆ＝カレント矩形ｉの左端座標、ｘｒ＝カレント矩形ｉ
の右端座標、ｙｕｐ＝カレント矩形ｉの上端座標、ｙｂ
ｌ＝カレント矩形ｉの下端座標、ｌｉｎｅ＿ｓｔａｒｔ
ｙ＝ｙｕｐ、ｌｉｎｅ＿ｅｎｄｙ＝ｙｂｌとおく（ステ
ップＳ７５）。そして、カレント矩形ｉのｕｓｅが０ま
たは９であるかどうか調べる（ステップＳ７６）。

【００９２】カレント矩形ｉのｕｓｅが０または９であ
れば、次にｕｓｅ＝０かどうかを判定する（ステップＳ
７７）。ｕｓｅ＝０であれば、ｓｔａｎｄａｒｄ＿ｓｔ
＝ｙｕｐ、ｓｔａｎｄａｒｄ＿ｅｎ＝ｙｂｌ、ｂ＿ｕｓ
ｅ＝０、ｕｓｅ＝１、ｈｅｉｇｈｔ＝ｙｂｌ−ｙｕｐ＋
１とおく（ステップＳ７８）。ｂ＿ｕｓｅ＝０は、カレ
ント矩形ｉがワイルドカードではなく、スタンダードと
して設定されていることを意味し、ｕｓｅ＝１はカレン
ト矩形ｉが使用済みであることを意味する。ステップＳ
７６でｕｓｅ＝０でなければ、ｓｔａｎｄａｒｄ＿ｓｔ
＝０、ｓｔａｎｄａｒｄ＿ｅｎ＝０、ｂ＿ｕｓｅ＝９、
ｈｅｉｇｈｔ２＝ｙｂｌ−ｙｕｐ＋１とおく（ステップ
Ｓ７９）。ｂ＿ｕｓｅ＝９は、カレント矩形ｉがワイル
ドカードであるため、スタンダードとして設定されない
ことを意味する。

【００９３】次に、他の部分線分矩形をカレント矩形ｋ
として取り出し、ｒｘｌｆ＝カレント矩形ｋの左端座
標、ｒｘｒ＝カレント矩形ｋの右端座標、ｒｙｕｐ＝カ
レント矩形ｋの上端座標、ｒｙｂｌ＝カレント矩形ｋの
下端座標とおく（図３８、ステップＳ８０）。そして、
カレント矩形ｉがスタンダードとして設定されているか
どうか、すなわち、ｂ＿ｕｓｅ＝０であるかどうかを調
べる（ステップＳ８１）。ｂ＿ｕｓｅ＝０であれば、次
に、カレント矩形ｋのｕｓｅが９であるかどうかを調べ
る（ステップＳ８２）。ここで、ｕｓｅ＝９の場合は、
カレント矩形ｉがスタンダードで、カレント矩形ｋがワ
イルドカードであることを意味をする。

【００９４】ｕｓｅ＝９のとき、ｘｒ＋１≧ｒｘｌｆ、
ｘｒ＜ｒｘｒ、ｙｂｌ＋１≧ｒｙｕｐ、およびｙｕｐ−
１≦ｒｙｂｌが成り立つかどうかを判定する（ステップ
Ｓ８３）。これらが成り立つ時、カレント矩形ｋがカレ
ント矩形ｉの右側にあり、両者が横と縦に１画素（１ド
ット）以上の重なりを有することを意味する。これらの
条件が成り立つ時、ｘｒ＝ｒｘｒとおいて、カレント矩
形ｉの右端をカレント矩形ｋの右端まで延長する（ステ
ップＳ８４）。

【００９５】ステップＳ８２でｕｓｅ＝９でないとき、
次に、ｕｓｅ＝０であるかどうかを調べる（ステップＳ
８５）。ここで、ｕｓｅ＝０の場合は、カレント矩形ｉ
がスタンダードで、カレント矩形ｋがワイルドカードで
ないことを意味をする。ｕｓｅ＝０のとき、ｘｒ＋１≧
ｒｘｌｆ、ｘｒ＜ｒｘｒ、ｙｂｌ＋１≧ｒｙｕｐ、およ
びｙｕｐ−１≦ｒｙｂｌが成り立ち、かつ、カレント矩
形ｋの高さが一定範囲内かどうかを判定する（ステップ
Ｓ８６）。

【００９６】これらの条件が成り立つ時、ｘｒ＝ｒｘ
ｒ、ｙｕｐ＝ｒｙｕｐ、ｙｂｌ＝ｒｙｂｌ、ｕｓｅ＝
２、ｈｅｉｇｈｔ＝ｒｙｂｌ−ｒｙｕｐ＋１とおく（ス
テップＳ８７）。これは、カレント矩形ｉの右端をカレ
ント矩形ｋの右端まで延長し、上下端の座標をカレント
矩形ｋのものに置き換えることを意味する。ここで、ｕ
ｓｅ＝２はカレント矩形ｋが使用済みであることを意味
する。次に、ｒｙｕｐ＜ｌｉｎｅ＿ｓｔａｒｔｙが成り
立つかどうかを判定し（ステップＳ８８）、成り立てば
ｌｉｎｅ＿ｓｔａｒｔｙ＝ｒｙｕｐとおく（ステップＳ
８９）。さらに、ｒｙｂｌ＞ｌｉｎｅ＿ｅｎｄｙが成り
立つかどうかを判定し（ステップＳ９０）、成り立てば
ｌｉｎｅ＿ｅｎｄｙ＝ｒｙｂｌとおく（ステップＳ９
１）。

【００９７】これらの処理の後、次にｂ＿ｕｓｅ＝９か
どうかを判定する（図３９、ステップＳ９２）。ステッ
プＳ８１でｂ＿ｕｓｅ＝０でないとき、あるいはステッ
プＳ８３、Ｓ８５、Ｓ８６、Ｓ８８、Ｓ９０で判定結果
がＮｏのときは、直ちにステップＳ９２以降の処理に移
る。

【００９８】ｂ＿ｕｓｅ＝９であれば、次に、カレント
矩形ｋのｕｓｅが９であるかどうかを調べる（ステップ
Ｓ９３）。ここで、ｕｓｅ＝９の場合は、カレント矩形
ｉとカレント矩形ｋの両方がワイルドカードであること
を意味をする。ｕｓｅ＝９であれば、ｘｒ＋１≧ｒｘｌ
ｆおよびｘｒ＜ｒｘｒが成り立つかどうかを判定する
（ステップＳ９４）。これらが成り立つ時、カレント矩
形ｋがカレント矩形ｉの右側にあり、両者が横と縦に１
ドット以上の重なりを有するので、ｘｒ＝ｒｘｒとおい
て、カレント矩形ｉの右端をカレント矩形ｋの右端まで
延長する（ステップＳ９５）。

【００９９】ステップＳ９３でｕｓｅ＝９でないとき、
次に、ｕｓｅ＝０であるかどうかを調べる（ステップＳ
９６）。ここで、ｕｓｅ＝０の場合は、カレント矩形ｉ
がワイルドカードで、カレント矩形ｋがワイルドカード
でないことを意味をする。ｕｓｅ＝０のとき、ｘｒ＋１
≧ｒｘｌｆおよびｘｒ＜ｒｘｒが成り立つかどうかを判
定する（ステップＳ９７）。これらの条件が成り立つ
時、ｘｒ＝ｒｘｒ、ｙｕｐ＝ｒｙｕｐ、ｙｂｌ＝ｒｙｂ
ｌ、ｕｓｅ＝２、ｌｉｎｅ＿ｓｔａｒｔｙ＝ｒｙｕｐ、
ｌｉｎｅ＿ｅｎｄｙ＝ｒｙｂｌ、ｈｅｉｇｈｔ＝ｒｙｂ
ｌ−ｒｙｕｐ＋１、ｓｔａｎｄａｒｄ＿ｓｔ＝ｒｙｕ
ｐ、ｓｔａｎｄａｒｄ＿ｅｎ＝ｒｙｂｌとおく（ステッ
プＳ９８）。これは、カレント矩形ｉの右端をカレント
矩形ｋの右端まで延長し、上下端の座標をカレント矩形
ｋのものに置き換えることを意味する。また、ｕｓｅ＝
２はカレント矩形ｋが使用済みであることを意味する。

【０１００】次に、カレント矩形ｋとしてすべての部分
線分矩形を取り出したかどうかを判定する（ステップＳ
９９）。ステップＳ９２でｂ＿ｕｓｅ＝９でないとき、
あるいはステップＳ９４、Ｓ９６、Ｓ９７で判定結果が
Ｎｏのときは、直ちにステップＳ９９以降の処理に移
る。ステップＳ９９で、残っている部分線分矩形があれ
ばステップＳ８０以降の処理を繰り返す。

【０１０１】すべての部分線分矩形について処理が終わ
れば、ｂ＿ｕｓｅ＝９であるかどうかを判定し（ステッ
プＳ１００）、ｂ＿ｕｓｅ＝９であれば、ｈｅｉｇｈｔ
＝ｈｅｉｇｈｔ２とおく（ステップＳ１０１）。ステッ
プＳ１００でｂ＿ｕｓｅ＝９となるのは、カレント矩形
ｉとそれに連結するすべての矩形がワイルドカードであ
った場合に相当する。

【０１０２】次に、カレント矩形ｉとしてすべての部分
線分矩形を取り出したかどうかを判定し（ステップＳ１
０２）、残っている部分線分矩形があればステップＳ７
５以降の処理を繰り返す。ステップＳ７６でカレント矩
形ｉのｕｓｅが０または９でない場合は、取り出した部
分線分矩形が既に使用済みであることを意味するので、
直ちにステップＳ１０２の処理に移り、次の部分線分矩
形を取り出す。

【０１０３】すべての部分線分矩形について処理が終わ
れば、ｘｌｆ、ｘｒ、ｌｉｎｅ＿ｓｔａｒｔｙ、ｌｉｎ
ｅ＿ｅｎｄｙを、それぞれ抽出した線分矩形の左端、右
端、上端、下端の座標としてファイルyokolineに保存し
（ステップＳ１０３）、処理を終了する。ここで、yoko
lineは、１つの文字列矩形から抽出された１つ以上の線
分矩形を格納するメモリ領域に対応する。

【０１０４】図２４のステップＳ５０では、以上のよう
にして文字列矩形から線分が抽出され、さらにそれが下
線矩形に相当すれば、その文字列矩形に下線フラグが立
てられる。こうして文字列矩形加工処理が終了すると、
プロセッサ１４は、次に図３のステップＳ８〜Ｓ１０の
処理に相当するタイトル・宛先・発信元抽出処理を行
う。図４０は、タイトル・宛先・発信元抽出処理のフロ
ーチャートである。

【０１０５】図４０において処理が開始されると、まず
文字列矩形の相対的な位置、高さ、枠／下線情報を使っ
て、タイトルらしさのポイント計算を行う（ステップＳ
１１１）。各文字列矩形に対するタイトルらしさのポイ
ント付与の方針は、概ね次の通りである。（ｍ）プラスポイント文字列の属性（枠内、下線有り）：高得点文字列のサイズ（高さ、幅）：大きさに依存する得点文字列の形（縦横比）：一定以上であれば得点文字列の相互位置関係（上下間隔、左の矩形の有無）：
孤立性が高いほど高得点文書内の位置（中央、上など）：中央、上は高得点、上
下の位置の違いには相対的に少ない得点差（ｎ）マイナスポイント文字列の属性（文字列矩形内が１つの文字矩形からな
る）：大減点文字列の相互位置関係（上下近接、重複、上の矩形と左
揃い、上の矩形がオーバラップ）：大減点文書内の位置（右側にある）：大減点これらの方針に従い、各文字列矩形に例えば以下の条件
で得点を与える。（ｏ）罫線矩形は得点０（ｐ）高さが str＿freqの１／２未満は得点０（ｑ）幅／高さの比が３未満は得点０（ｒ）横幅が str＿freqの４倍未満は得点０（ｓ）（ｏ）、（ｐ）、（ｑ）、（ｒ）の条件に該当す
る文字列矩形以外のものについて、以下の条件で得点を
与える。

【０１０６】［＃１］縦横比：幅／高さの比が３の時、
２０点［＃２］上下近接：互いに重複している場合を除き、あ
る文字列矩形と、上下に隣接する２つの文字列矩形との
間隔が両方とも str＿freq／２以下の時、−４０点［＃３］片方近接：上または下の文字列矩形だけが１６
ドットより近接している場合、−２０点［＃４］上下間隔：上下の文字列矩形との間隔が str＿
freqより大きい場合、２０点［＃５］重複：他の文字列矩形と重複がある場合、−４
０点［＃６］中心：文字列矩形の横方向（ｘ方向）の中心座
標が、（文書領域の中心座標）±（文書領域幅の４０
％）以内に入っている場合、３０点［＃７］右側：文字列矩形の中心座標が、文書領域の左
から６０％の位置より右にあり、かつ、（文書領域の中
心座標−文字列矩形の左端座標）が文書領域幅の１／６
以下の場合、３０点［＃８］高さ１：文字列矩形の高さが str＿freqの０．
５倍から１．５倍の間にある場合、２０点［＃９］高さ２：文字列矩形の高さが str＿freqの１．
５倍と３倍の間の場合３０点［＃１０］高さ３：文字列矩形の高さが str＿freqの３
倍より大きい場合、４０点［＃１１］高さ４：文字列矩形の高さが str＿freqの３
倍より大きく、かつ、文字列矩形の下座標が文書領域の
上から１／３以内に入る場合、１０点［＃１２］横幅：文字列矩形の幅が文書領域幅の０．４
倍より大きい場合、１０点［＃１３］下線：文字列矩形に下線フラグがある場合、
３０点［＃１４］枠：文字列矩形に枠付きフラグがある場合、
最大３０点を与え、その横幅に比例して減少させる。

【０１０７】［＃１５］左に矩形が無い：左側に同じよ
うな座標の文字列矩形が無い場合、または、左側に str
＿freqの３倍より小さい文字列矩形がある場合、２０点［＃１６］ｙ座標：最も上にある文字列矩形が２０点、
そこから下に向かって１点づつ減少した得点［＃１７］左端揃い：文字列矩形の上に左端が近い他の
文字列矩形があると−３０点［＃１８］オーバラップ（overlap ）：文字列矩形の上
に左端および右端が近い他の文字列矩形がある場合、ま
たは、上の文字列矩形の方が左端右端とも文書領域の端
に近い場合、−３０点［＃１９］黒領域：大きな文字列矩形で、その内部が１
つの黒画素連結領域で成り立っている場合、−４０点図４１は、［＃１８］のオーバラップしている文字列矩
形の例を示している。図４１（ａ）においては、上の文
字列矩形と下の文字列矩形の左右端が近接しており、図
４１（ｂ）においては、上の文字列矩形の左右端の方
が、下の文字列矩形の左右端より文書領域の端に近い。
このような場合、下の文字列矩形はタイトルである可能
性が低いと考えられる。

【０１０８】上記（ｏ）、（ｐ）、（ｑ）、（ｒ）、
（ｓ）のポイントを、文字列矩形毎に合計し、メモリ１
５に保存する。次に、ポイントが高い順にタイトル候補
として抽出し、結果を保存する（ステップＳ１１２）。
ここでは、line3 内の全文字列矩形を対象にして、それ
らをポイントが高い順に並び替え、その結果をファイル
title に格納する。title 内には、タイトル候補の第１
位の文字列矩形から順に、全文字列矩形が格納される。
これにより、第１候補の文字列矩形がタイトル矩形とし
て抽出される。次に、タイトル候補の第１位の文字列矩
形から見た相対的位置関係の情報を使って宛先の文字列
矩形（宛先矩形）を抽出し、保存する（ステップＳ１１
３）。また、その相対的位置関係の情報または宛先矩形
から見た相対的位置関係の情報を使って発信元情報の文
字列矩形（発信元情報矩形）を抽出し、それを保存して
（ステップＳ１１４）、処理を終了する。発信元情報に
は、文書の発信日、発信者名、レポート番号等が含まれ
る。

【０１０９】ステップＳ１１３においては、まずタイト
ルの第１候補の文字列矩形のｙ方向の位置を求めて、そ
れが最も上であった場合は第１の宛先抽出処理を行い、
それ以外の場合は第２の宛先抽出処理を行う。図４２
は、第１の宛先抽出処理のフローチャートであり、図４
３は、第２の宛先抽出処理のフローチャートである。

【０１１０】まず、第１の宛先抽出処理について説明す
る。図４２において処理が開始されると、プロセッサ１
４は、まずタイトル矩形より下にある文字列矩形の中か
らキー宛先矩形を抽出し、それを保存する（ステップＳ
１２１）。ここでは、タイトル矩形より下にあり、高さ
がst＿h の０．６倍からen＿h の１．４倍の間にある文
字列矩形であって、そのｘ方向の中心座標がタイトル矩
形の中心座標よりも左にあり、幅／高さの比が３より大
きいものを、キー宛先矩形として抽出する。そして、こ
のキー宛先矩形より上にある文字列矩形の中に、ｘ方向
の中心座標がタイトル矩形の中心座標よりも右にあるよ
うな、発信元情報と思える文字列矩形がない場合に、抽
出したキー宛先矩形をファイルtoに保存する。

【０１１１】次に、キー宛先矩形の右にある文字列矩形
を宛先矩形として追加する（ステップＳ１２２）。ここ
では、キー宛先矩形の右にあり、そのｙ座標が（キー宛
先矩形のｙ座標）±（高さの０．２倍）の範囲内に収ま
っている文字列矩形を宛先矩形とみなし、キー宛先矩形
との重複登録を避けて、toに登録する。

【０１１２】次に、上下に宛先矩形がある文字列矩形を
宛先矩形として追加する（ステップＳ１２３）。ここで
は、これまで抽出したto内の宛先矩形の高さの平均値
（平均高さ）を求める。そして、タイトル矩形より下の
全文字列矩形の内、これまで抽出された宛先矩形でな
く、上または下が宛先矩形で、左端の座標が上または下
の宛先矩形の左端の座標と一定誤差以内で一致し、か
つ、高さが平均高さの２倍未満か、上または下の宛先矩
形までの距離が平均高さの１／２未満のものを、宛先矩
形としてtoに追加登録する。このような処理を宛先矩形
数が変化しなくなるまで繰り返す。

【０１１３】こうして、第１の宛先抽出処理が終了し、
to内の文字列矩形が宛先矩形として抽出される。次に、
第２の宛先抽出処理について説明する。図４３において
処理が開始されると、プロセッサ１４は、まずタイトル
矩形より上にある文字列矩形の中からキー宛先矩形を抽
出し、それを保存する（ステップＳ１３１）。ここで
は、タイトル矩形より上にあり、高さがst＿h の０．６
倍からen＿h の１．４倍の間にある文字列矩形であっ
て、そのｘ方向の中心座標がタイトル矩形の中心座標よ
りも左にあり、幅／高さの比が３より大きいものを、キ
ー宛先矩形として抽出する。そして、抽出したキー宛先
矩形をファイルtoに保存する。

【０１１４】次に、キー宛先矩形の右にある文字列矩形
を宛先矩形として追加する（ステップＳ１３２）。ここ
では、キー宛先矩形の右一定距離以内にあり、そのｙ座
標が（キー宛先矩形のｙ座標）±（高さの０．２倍）の
範囲内に収まっている文字列矩形を宛先矩形とみなし、
キー宛先矩形との重複登録を避けて、toに登録する。

【０１１５】次に、上下に宛先矩形がある文字列矩形を
宛先矩形として追加する（ステップＳ１３３）。ここで
は、これまで抽出したto内の宛先矩形の平均高さを求め
る。そして、タイトル矩形より下の全文字列矩形の内、
これまで抽出された宛先矩形でなく、上または下が宛先
矩形で、左端の座標が上または下の宛先矩形の左端の座
標と一定誤差以内で一致し、かつ、高さが平均高さの２
倍未満か、上または下の宛先矩形までの距離が平均高さ
の１／２未満のものを、宛先矩形としてtoに追加登録す
る。このような処理を宛先矩形数が変化しなくなるまで
繰り返す。

【０１１６】こうして、第２の宛先抽出処理が終了し、
to内の文字列矩形が宛先矩形として抽出される。図４０
のステップＳ１１４では、タイトル矩形のｙ方向の位置
を求めて、それが最も上であった場合は、第１の発信元
情報抽出処理を行い、それ以外の場合は第２の発信元情
報抽出処理を行う。

【０１１７】第１の発信元情報抽出処理においては、タ
イトル矩形より下の文字列矩形であって、宛先矩形でな
いものを対象にして、高さがst＿h の０．６倍からen＿
h の１．４倍の間にあり、かつ、ｘ方向の中心座標がタ
イトル矩形のそれよりも右にあるものを、宛先矩形とし
て抽出し、ファイルfromに保存する。また、第２の発信
元情報抽出処理においては、タイトル矩形より上の文字
列矩形であって、宛先矩形でないものを対象にして、第
１の発信元情報抽出処理と同様の文字列矩形を宛先矩形
として抽出し、ファイルfromに保存する。こうして、fr
om内の文字列矩形が発信元情報矩形として抽出される。

【０１１８】第１および第２の発信元情報抽出処理は、
第１および第２の宛先抽出処理に比べて簡単になってい
るが、宛先抽出処理と同様に、一定の条件を満たす他の
文字列矩形をさらに発信元情報矩形に加えるようにして
もよい。

【０１１９】図４４は、タイトルと宛先／発信元情報の
第１の配置を示している。図４４においては、タイトル
矩形が最も上にあるため、第１の宛先抽出処理および第
１の発信元情報抽出処理が適用される。図４５、４６、
４７は、それぞれタイトルと宛先／発信元情報の第２、
第３、第４の配置を示している。これらの配置において
は、タイトル矩形が最も上ではないので、第２の宛先抽
出処理および第２の発信元情報抽出処理が適用される。
また、図４８は、複数の宛先／発信元情報の例を示して
いる。図４８においても、第２の宛先抽出処理および第
２の発信元情報抽出処理が適用される。

【０１２０】図４５、４７、４８のような配置の場合
は、第２の発信元情報抽出処理を行うと、タイトル矩形
より下にある発信元情報矩形が抽出されない。そこで、
タイトル矩形が最も上にない場合でも、第１の発信元情
報抽出処理を行う構成としてもよい。また、第１および
第２の発信元情報抽出処理を併用してもよい。

【０１２１】図４９は、タイトル・宛先・発信元抽出処
理により生成されたファイルtitle、to、fromの内容を
示している。図４９においては、文字列矩形「ソフトウ
ェア販推レポート送付表」がタイトル矩形として抽出
され、それに続く左揃いの文字列矩形が複数の宛先矩形
として抽出されている。また、右下の数字が発信元情報
として抽出されている。

【０１２２】図５０は、タイトル・宛先・発信元抽出処
理による他の抽出結果を示している。図５０において
は、文字列矩形「外部発表の受付状況について（送
付）」がタイトル矩形として抽出され、その左上にある
文字列矩形が宛先矩形として抽出されている。また、タ
イトル矩形の右上の複数の文字列矩形が発信元情報とし
て抽出されている。

【０１２３】こうして、抽出されたタイトル矩形、宛先
矩形、および発信元情報矩形は、図３のステップＳ１１
の認識処理により文字列として認識される。このとき、
各認識対象の矩形から１文字ずつ文字が切り出され、各
文字毎に文字認識が行われる。そして、認識結果は、例
えば、電子ファイリング装置１１内の画像ファイルのキ
ーワードとして用いられる。

【０１２４】以上の実施形態において、図３１の線分抽
出処理は、図２４のステップＳ５０の下線抽出処理のみ
ならず、図３のステップＳ６で大きな矩形から横線分を
抽出する際にも適用できる。これにより、大きな矩形内
のワイルドカードの高さを無視して横方向の線分矩形を
抽出し、それを一部分とする枠線を識別することができ
る。

【０１２５】ところで、図３から図５０までで説明した
実施形態では、表の外部にある領域からタイトルを抽出
する技術について記述されている。表の内部にタイトル
がある場合には、図５のステップＳ２４で表矩形が処理
対象から除外されているため、表内のタイトルを抽出す
ることができない。

【０１２６】一般に表を含む文書においては、その表の
外に文書全体のタイトルがあることが多いが、会社内の
文書の中には、定型の事務文書等のように表の内部にタ
イトルがあるものもある。また、表の外にタイトルがあ
っても、それが「議事録」などのような一般的な文書名
で、電子ファイリングシステムの検索時に必要な文書を
特定できるキーワードとなるタイトルは表内の１つの欄
内に記されていることもある。

【０１２７】このような場合に、文字認識などの処理時
間のかかる技術を使わずに、表内の有効なタイトル部分
を高速に抽出することが望まれる。以下では、表を含む
一般文書の文書画像から、表内にある「表題」や「会社
名」のようなタイトルらしい欄の名称を表現する部分
（項目部分）と、項目の具体的な内容を表すタイトル部
分とを抽出する実施形態を説明する。

【０１２８】図５１は、表形式の社内文書の例を示して
いる。図５１の表形式文書では、表罫線で囲まれた表内
の左上にある「表題」が項目部分に相当し、その右にあ
る「マルチメディアとパターン認識シンポジウム」がタ
イトル部分に相当する。このように、横書き文書の場合
には、表内のタイトル部分は、通常、項目部分の右側に
あると考えてよい。

【０１２９】図５２は、図２のタイトル抽出システムに
よる表内タイトル抽出処理のフローチャートを示してい
る。図５２の処理においては、前提条件として横書き文
書を対象としているが、図３の処理と同様に、縦書き文
書にも対応可能である。

【０１３０】図５２において処理が開始されると、光電
変換装置１２が文書を読み取り、文書画像としてメモリ
１５に格納する（ステップＳ１４１）。ここでも、図３
のステップＳ１と同様にして、原画像を圧縮画像に変換
して保存する。図５１の文書から作成された圧縮画像は
図５３のようになる。

【０１３１】次に、プロセッサ１４が、文書画像にラベ
リング処理を施し、矩形高さの最頻値を求めて、それを
もとに大きな矩形を抽出する（ステップＳ１４２）。こ
こでの処理は、図５のステップＳ２１、Ｓ２２、Ｓ２３
の処理と同様である。ただし、枠矩形の抽出は行ってお
らず、ファイルbox に保存される矩形は閾値th＿large
より大きな矩形である。図５３の文書画像のラベリング
結果は図５４のようになる。

【０１３２】次に、抽出された大きな矩形から表を囲む
矩形（表矩形）を抽出し（ステップＳ１４３）、表矩形
の中からタイトルを含むものを選択する（ステップＳ１
４４）。ここでは、例えば最も面積の大きな表矩形が選
択され、以下の処理は選択された表矩形の内部を対象に
して行われる。

【０１３３】プロセッサ１４は、まず表矩形の内部から
文字列（あるいは行）を抽出し、文字列の外接矩形（文
字列矩形）を求め、その座標をメモリ１５に保存する
（ステップＳ１４５）。次に、保存した文字列矩形か
ら、横幅が小さい矩形や縦長矩形をノイズ矩形として除
去し（ステップＳ１４６）、２つ以上の文字列矩形を統
合する（ステップＳ１４７）。

【０１３４】ステップＳ１４５の処理は、基本的に図５
のステップＳ２５からＳ３１までの処理と同様である。
また、ステップＳ１４６の処理は、図２４のステップＳ
４１の処理と同様であり、ステップＳ１４７の処理は、
ステップＳ４２からＳ４４までの処理と同様である。

【０１３５】ここまでの処理で、表内から抽出された文
字列矩形が整理されるが、これらの文字列矩形は表罫線
の一部を含んでいる場合もあり得る。そこで、文字列矩
形の中の罫線部分を抽出し、その部分を境にして文字列
矩形を分割する（ステップＳ１４８）。

【０１３６】次に、タイトルに相当する文字列矩形を抽
出するために、文字列矩形内の文字数を計算する（ステ
ップＳ１４９）。ここで計算された文字数は、文字列矩
形の属性としてステップＳ１５２の処理で用いられる。

【０１３７】ステップＳ１４８の処理により表罫線で囲
まれた欄毎の文字列矩形が抽出されるが、元の表の外形
が矩形ではない場合には、表の外にある文字列矩形が残
されている可能性がある。そこで、上罫線のチェックを
行って（ステップＳ１５０）、上側に表罫線がないよう
な文字列矩形は表外の文字列矩形とみなし、それを除去
する。

【０１３８】次に、表内の文字列矩形を表矩形の左上座
標に近い順に並び替える（ステップＳ１５１）。そし
て、文字列矩形の文字数が一定の条件を満たす場合に、
その文字列矩形を項目部分またはタイトル部分として抽
出して（ステップＳ１５２）、処理を終了する。このと
き、条件を満たす文字列矩形を、表矩形の左上に近いも
のから優先的にタイトル矩形の候補とする。

【０１３９】次に、表内タイトル抽出処理の各ステップ
で行われる具体的な処理内容を説明する。図５５は、図
５２のステップＳ１４３の表矩形抽出処理のフローチャ
ートである。この表矩形抽出処理に先立ってステップＳ
１４２の処理を行っておくことで、処理対象が一定以上
大きな矩形に限られるため、表矩形の抽出が効率化され
る。

【０１４０】図５５において処理が開始されると、プロ
セッサ１４は、まずbox 内の大きな矩形から高さが閾値
より大きなものを抽出する（ステップＳ１６１）。ここ
では、例えば矩形高さの最頻値freqの５倍より大きい
（高い）矩形が抽出され、表矩形としてファイル large
＿4baiに格納される。ステップＳ１６１で抽出された表
矩形は、ステップＳ１５０の上罫線チェックの際に用い
られる。

【０１４１】次に、box 内の大きな矩形から横幅が閾値
より大きなものを抽出して（ステップＳ１６２）、処理
を終了する。ここでは、例えば横幅が文書画像の横幅の
０．７倍より大きな矩形が抽出され、表矩形としてファ
イルlargewide に格納される。

【０１４２】図５２のステップＳ１４４では、ステップ
Ｓ１６２で抽出されたいくつかの表矩形のうちで最も大
きなものが選択される。ここでは、例えば、largewide
内の複数の矩形からその面積が最大のものが選択され
て、処理対象となる。図５４の文書画像の場合は、larg
ewide 内に格納される大きな矩形は表矩形８０のみであ
るため、自動的にこれが処理対象の表矩形となる。

【０１４３】次に、図５２のステップＳ１４５では、選
択された表矩形内部の文字矩形を対象にして文字列矩形
の抽出が行われる。しかし、次のいずれかの条件に該当
する矩形は処理対象から除外する。（ｔ）枠矩形（ｕ）高さがfreqの３倍より大きく、高さ／幅の比が
０．４より小さな横長矩形（ｖ）文書画像全体の高さの
１／３より大きな矩形このうち、（ｔ）の枠矩形は、図５のステップＳ２３と
同様の処理により抽出することができる。

【０１４４】ステップＳ１４５、Ｓ１４６、Ｓ１４７の
処理を行った後に得られる統合された文字列矩形は、図
５６のようになる。図５６において、例えば文字列矩形
８１、８２、８３等は、表罫線により仕切られた本来別
々の複数の文字列を含んでいる。そこで、表内の文字列
を正しく抽出するために、ステップＳ１４８で文字矩形
間の縦罫線を境界にして文字列矩形を分割する。以下、
図５７から図６５までを参照しながら、この文字列分割
処理について説明する。

【０１４５】文字列分割方法としては、大きく分けて２
つの方法が考えられる。図５７は、第１の文字列分割処
理のフローチャートである。第１の文字列分割処理にお
いては、プロセッサ１４は、各文字列矩形に含まれる任
意の２つの隣接文字矩形の間に縦罫線があるかどうかを
チェックする。このとき、まず文字列矩形内に含まれる
文字矩形を横方向に並び替え、それらの間に黒画素があ
るかどうかチェックする。黒画素がある場合はその位置
で文字列矩形を分割して、複数の新しい文字列矩形を生
成する。

【０１４６】図５７において処理が開始されると、プロ
セッサ１４は、まず文字列矩形内の文字矩形をｘ座標
（横座標）の小さいものから順にソートする（ステップ
Ｓ１７１）。ステップＳ１４７までの処理においては、
文字列矩形内の文字矩形は一般にｙ座標（縦座標）の小
さい順にソートされており、横方向の順序が反映されて
いない。そこで、実際の文字の並びに対応するように、
文字矩形の記憶順序が変更される。

【０１４７】例えば、図５８に示す文字列矩形９１の場
合、文字列分割処理の前には文字矩形９２、９５、９
３、９４の順にソートされて、記憶されている。これら
の文字矩形をｘ座標でソートし直すことにより、図５９
に示すように文字矩形９２、９３、９４、９５の順に正
しく記憶される。

【０１４８】次に、文字列矩形の左端のｘ座標、右端の
ｘ座標、上端のｙ座標、下端のｙ座標を、それぞれｓｘ
１、ｓｘ２、ｓｙ１、ｓｙ２とおき（ステップＳ１７
２）、文字列矩形内の最も左の文字矩形に注目し、それ
をカレント矩形とする（ステップＳ１７３）。そして、
カレント矩形の上端のｙ座標、下端のｙ座標、右端のｘ
座標を、それぞれｃｙ１、ｃｙ２、ｃｘ２とおき（ステ
ップＳ１７４）、カレント矩形の右にある文字矩形の上
端のｙ座標、下端のｙ座標、左端のｘ座標を、それぞれ
ｒｙ１、ｒｙ２、ｒｘ１とおく（ステップＳ１７５）。

【０１４９】次に、直線ｘ＝ｃｘ２，ｘ＝ｒｘ１，ｙ＝
ｍａｘ（ｃｙ１，ｒｙ１），ｙ＝ｍｉｎ（ｃｙ２，ｒｙ
２）で囲まれた矩形領域内に黒画素があるかどうかをチ
ェックする（ステップＳ１７６）。ここで、この矩形領
域は、カレント矩形とカレント矩形の右の文字矩形の間
に位置する領域である。

【０１５０】上記矩形領域内に黒画素があれば、そこに
縦罫線があるとみなして、座標ｘ＝ｓｘ１，ｃｘ２，ｙ
＝ｓｙ１，ｓｙ２で表される矩形を文字列矩形として登
録し、ｓｘ１＝ｒｘ１とする（ステップＳ１７７）。

【０１５１】次に、カレント矩形の右の文字矩形が文字
列矩形の中で最も右にあるかどうかを調べ（ステップＳ
１７８）、そうでない場合はカレント矩形の右の文字矩
形を新たにカレント矩形として（ステップＳ１７９）、
ステップＳ１７４以降の処理を繰り返す。ステップＳ１
７６で上記矩形領域内に黒画素がなければ、そのままス
テップＳ１７８以降の処理を行う。

【０１５２】そして、ステップＳ１７８においてカレン
ト矩形の右の文字矩形が最も右の矩形である場合は、座
標ｘ＝ｓｘ１，ｓｘ２，ｙ＝ｓｙ１，ｓｙ２で表される
矩形を文字列矩形として登録して（ステップＳ１８
０）、処理を終了する。

【０１５３】このような第１の文字列分割処理によれ
ば、カレント矩形とカレント矩形の右の矩形の間に縦罫
線が検出される度に、その左側の１つ以上の文字矩形が
文字列矩形として登録される。したがって、元の文字列
矩形に縦罫線が２本以上含まれていても、必ずそれらの
位置で文字列矩形が分割される。

【０１５４】例えば、図６０のような表内の文字列矩形
１０１の場合、文字矩形１０２、１０３、１０４、１０
５、１０６、１０７を含んでおり、文字矩形１０２と文
字矩形１０３の間には表の縦罫線が通っている。この文
字列矩形１０１を対象に第１の文字列分割処理を行う
と、文字矩形１０２がカレント矩形のとき、文字矩形１
０２と文字矩形１０３の間の領域に黒画素が検出される
（ステップＳ１７６、Ｙｅｓ）。そこで、図６１に示す
ように、文字矩形１０２を含む矩形が文字列矩形１０８
として登録される（ステップＳ１７７）。

【０１５５】その後、文字矩形１０３が新たにカレント
矩形となって（ステップＳ１７９）、同様の処理が繰り
返されるが、縦罫線は検出されない。そして、文字矩形
１０６がカレント矩形となったとき、文字矩形１０３、
１０４、１０５、１０６、１０７を含む矩形が文字列矩
形１０９として登録され（ステップＳ１８０）、処理が
終了する。こうして、元の文字列矩形１０１は、文字列
矩形１０８と１０９に分割される。

【０１５６】図６２および図６３は、第２の文字列分割
処理のフローチャートである。第２の文字列分割処理に
おいては、プロセッサ１４は、各文字列矩形の内部を対
象にして再度ラベリング処理を施す。このとき、まず文
字列矩形を構成する各文字矩形の座標を記憶しておき、
それとは別に、文字列矩形内のラベリング処理により得
られた文字矩形の座標を獲得する。

【０１５７】縦罫線の一部が文字列矩形内にあるとする
と、前者の文字矩形群と後者の文字矩形群とを比較した
場合、後者の方が縦罫線の分だけ矩形の数が増えるた
め、両者の間に差異が生じるはずである。そこで、前者
と比較して後者に余分な文字矩形が出現した位置で文字
列矩形を分割する。

【０１５８】例えば、図６０の文字列矩形１０１の場
合、その内部にラベリング処理を施して得られる文字矩
形は図６４のようになる。図６０の文字矩形群と図６４
の文字矩形群とを比較すると、図６４の方が余分な矩形
１１０を含んでいることが分かる。この矩形１１０は文
字列矩形１０１内に含まれた縦罫線に相当し、この位置
で文字列矩形１０１を分割することができることを表し
ている。

【０１５９】図６２において処理が開始されると、プロ
セッサ１４は、まず文字列矩形内の文字矩形の集合をＯ
とし（ステップＳ１８１）、文字列矩形内をラベリング
処理して求めた文字矩形の集合をＮとする（ステップＳ
１８２）。そして、集合ＯとＮ内の文字矩形をそれぞれ
ｘ座標でソートし（ステップＳ１８３）、文字列矩形の
左端のｘ座標、右端のｘ座標、上端のｙ座標、下端のｙ
座標を、それぞれｓｘ１、ｓｘ２、ｓｙ１、ｓｙ２とお
く（ステップＳ１８４）。ｘ座標によるソート処理は、
図５７のステップＳ１７２と同様にして行う。

【０１６０】次に、登録フラグ＝０とおき、Ｏ内の最も
左の文字矩形を矩形ＯＯとし、Ｎ内の最も左の文字矩形
を矩形ＮＮとする。そして、ｘ２＝ＯＯの右端のｘ座
標、ｐｒｅｖ＝ｘ２とおく（ステップＳ１８５）。以
後、登録フラグは０または１の値をとる。

【０１６１】次に、ＯＯとＮＮの左上頂点および右下頂
点の座標が一致するかどうかをチェックする（ステップ
Ｓ１８６）。これらがともに一致すればＯＯとＮＮは同
じ矩形であるとみなし、次に、登録フラグが１かどうか
を判定する（ステップＳ１８７）。

【０１６２】登録フラグが０の場合は、ＯＯの右の矩形
を新たにＯＯとおき、ＮＮの右の矩形を新たにＮＮとお
く（ステップＳ１８８）。そして、ｐｒｅｖ＝ｘ２とお
いた後（ステップＳ１８９）、ｘ２＝ＯＯの右端のｘ座
標とおき（ステップＳ１９０）、ＯＯが文字列矩形の中
で最も右の文字矩形かどうかを判定する（ステップＳ１
９１）。そして、ＯＯの右にまだ文字矩形があれば、ス
テップＳ１８６以降の処理を繰り返す。

【０１６３】ステップＳ１８６において、ＯＯとＮＮの
座標が一致しない場合はＮＮが縦罫線に相当するとみな
し、次に登録フラグが０かどうかを判定する（図６３、
ステップＳ１９５）。そして、登録フラグが０であれ
ば、座標ｘ＝ｓｘ１，ｐｒｅｖ，ｙ＝ｓｙ１，ｓｙ２で
表される矩形を文字列矩形として登録し（ステップＳ１
９６）、登録フラグ＝１とおく（ステップＳ１９７）。
これにより、ＯＯの左の文字矩形を含む矩形が文字列矩
形として登録される。

【０１６４】次に、縦罫線とみなされたＮＮの右の矩形
を新たにＮＮとおいて（ステップＳ１９８）、ステップ
Ｓ１８６以降の処理を繰り返す。ステップＳ１９５にお
いて登録フラグが０でなければ、そのままステップＳ１
９８以降の処理を行う。

【０１６５】ステップＳ１８７において、登録フラグが
１の場合はＯＯを新たな文字列の先頭文字とみなして、
ｘ２＝ＯＯの右端のｘ座標、ｓｘ１＝ＯＯの左端のｘ座
標とおく（ステップＳ１９２）。そして、ｐｒｅｖ＝ｘ
２、登録フラグ＝０とおき（ステップＳ１９３、Ｓ１９
４）、ステップＳ１９１以降の処理を行う。

【０１６６】そして、ステップＳ１９１においてＯＯが
最も右の文字矩形の場合は、座標ｘ＝ｓｘ１，ｘ２，ｙ
＝ｓｙ１，ｓｙ２で表される矩形を文字列矩形として登
録して（ステップＳ１９９）、処理を終了する。

【０１６７】このような第２の文字列分割処理によれ
ば、集合Ｎ内にあってＯ内にはない余分な矩形が検出さ
れる度に、その左側の１つ以上の文字矩形が文字列矩形
として登録される。また、その後はＯ内の次の矩形が文
字列の左端に設定されるので、余分な縦罫線は文字列矩
形から除去される。

【０１６８】例えば、図６４の文字列矩形１０１の場
合、集合Ｏは文字矩形１０２、１０３、１０４、１０
５、１０６、１０７からなり、集合Ｎは文字矩形１０
２、１１０、１０３、１０４、１０５、１０６、１０７
からなる。そして、ＯＯが文字矩形１０３でＮＮが文字
矩形１１０のとき、文字矩形１１０が縦罫線とみなされ
る（ステップＳ１８６、Ｎｏ）。そこで、図６１に示す
ように、文字矩形１０２を含む矩形が文字列矩形１０８
として登録される（ステップＳ１９６）。

【０１６９】その後、文字矩形１０３が新たにＮＮとな
って（ステップＳ１９８）、同様の処理が繰り返される
が、縦罫線に相当する矩形は検出されない。そして、文
字矩形１０７がＯＯとなったとき、文字矩形１０３、１
０４、１０５、１０６、１０７を含む矩形が文字列矩形
１０９として登録され（ステップＳ１９９）、処理が終
了する。こうして、元の文字列矩形１０１は、第１の文
字列分割処理の結果と同様に、文字列矩形１０８と１０
９に分割される。

【０１７０】第１および第２の文字列分割処理を比較す
ると、それらの機能は基本的に同じであるが、第１の文
字列分割処理の方が処理速度が速いという利点がある。
図５６の文字列矩形に文字列分割処理を施した結果は図
６５のようになる。図５６と図６５とを比較すると、元
の文字列矩形８１は文字列矩形１１１、１１２、および
１１３に分割されていることが分かる。また、文字列矩
形８２は文字列矩形１１４と１１５に分割され、文字列
矩形８３は文字列矩形１１６と１１７に分割されてい
る。

【０１７１】文字列矩形の分割が終了すると、次に、図
５２のステップＳ１４９において、プロセッサ１４は、
文字列矩形内の文字矩形の形状からその文字数を計算す
る。ここでは、文字矩形の高さと幅の比からそれを構成
する文字数を抽出する。

【０１７２】図６６は、このときの文字矩形とその文字
数の関係を示している。図６６において、文字矩形の高
さをＨ、幅をＷとすると、一般に１つの文字の高さと幅
はほぼ等しいと考えられるので、この文字矩形内にある
文字数は［Ｗ／Ｈ］個と表すことができる。ここで、
［Ｗ／Ｈ］は、実数Ｗ／Ｈの小数点以下を切り捨てる演
算記号である。

【０１７３】ステップＳ１４８の文字列分割処理により
表矩形内の文字列矩形が正しく分割されるが、表矩形内
には実際の表の外にある文字列矩形が含まれている可能
性がある。図６７は、このような表矩形内の表外文字列
矩形の例を示している。図６７において、太線で示され
た表罫線の外周は矩形ではないため、その表矩形１２１
内には表外にある文字列矩形１２２が含まれている。一
方、文字列矩形１２２と同じ行にある文字列矩形１２３
は表内の文字列矩形である。

【０１７４】図６８は、図５４の表矩形８０内の文字列
矩形を示している。図６８の文字列矩形のうち、文字列
矩形１３１が表外の文字列矩形に相当する。表内のタイ
トルを抽出するためには、文字列矩形１２２や１３１の
ような表外の文字列矩形を表内の文字列矩形と区別し、
表矩形内から取り除く必要がある。

【０１７５】そこで、ステップＳ１５０において、上に
他の文字列矩形がない文字列矩形を対象に、その上に罫
線があるかどうかをチェックし、罫線がなければその文
字列矩形を除去する。

【０１７６】図６９は、このような上罫線チェック処理
のフローチャートである。図６９において処理が開始さ
れると、プロセッサ１４は、まず図２４のステップＳ４
２と同様の方法で、文字列矩形間の接続関係を表す連結
関係表を作成する（ステップＳ２０１）。そして、連結
関係表を用いて上に他の文字列矩形がない文字列矩形を
求め、それらのうちで上に罫線がないものを除去して
（ステップＳ２０２）、処理を終了する。

【０１７７】図７０は、ステップＳ２０２の表外文字列
矩形除去処理のフローチャートである。図７０の表外文
字列矩形除去処理においては、表矩形内のすべての文字
列矩形の連結関係表を参照して、文字列矩形の上に他の
文字列矩形がないものを抽出する。そして、抽出した文
字列矩形の上の特定領域内を探索して、黒画素を含むバ
イト数の合計Ｍを求める。ただし、８画素＝１バイトと
する。

【０１７８】Ｍが探索範囲の横の長さをバイト数で表し
たしきい値Ｌ以上であれば、この範囲に横罫線があると
みなして、その文字列矩形を表内文字列矩形として残
す。もし、Ｍ＜Ｌとなるような文字列矩形があれば、そ
の文字列矩形の上には横罫線がないとみなし、それを表
外文字列矩形として除去する。

【０１７９】図７０において処理が開始されると、プロ
セッサ１４は、まず表矩形内の文字列矩形からなる集合
を、表内文字列矩形の集合Ｓとする（ステップＳ２１
１）。次に、Ｓ内で、他のＳ内の文字列矩形を上矩形と
する接続関係を持たないものを抽出し、それらの集合を
Ｓ１とする（ステップＳ２１２）。例えば、図６７の場
合は、斜線の文字列矩形１２２と１２３がＳ１の要素と
なる。

【０１８０】次に、Ｓ１内の１つの文字列矩形をＳＳと
し（ステップＳ２１３）、ＳＳの左端のｘ座標、右端の
ｘ座標、上端のｙ座標、下端のｙ座標を、それぞれｓｘ
１、ｓｘ２、ｓｙ１、ｓｙ２とおく（ステップＳ２１
４）。

【０１８１】次に、ＳＳの上にある他の表矩形または表
矩形外の文字列矩形を求め、その左端のｘ座標、右端の
ｘ座標、上端のｙ座標、下端のｙ座標を、それぞれｕｘ
１、ｕｘ２、ｕｙ１、ｕｙ２とおく（ステップＳ２１
５）。ここで、他の表矩形としては、図５５のステップ
Ｓ１６１で抽出されて large＿4baiに格納されている表
矩形が参照される。

【０１８２】次に、直線ｘ＝ｍａｘ（ｓｘ１，ｕｘ
１），ｘ＝ｍｉｎ（ｓｘ２，ｕｘ２），ｙ＝ｓｙ１，ｙ
＝ｕｙ２で囲まれた矩形領域の横幅のバイト数をＬとす
る（ステップＳ２１６）。この矩形領域の横幅は、ＳＳ
の横幅とその上の矩形の横幅の重複部分の長さに相当す
る。このとき、Ｌは次式で与えられる。Ｌ＝ｍｉｎ（ｓｘ２，ｕｘ２）／８−ｍａｘ（ｓｘ１，
ｕｘ１）／８＋１次に、上記矩形領域内で黒画素を求め、８画素を１バイ
トとして、そのバイト数の総和Ｍを計算する（ステップ
Ｓ２１７）。

【０１８３】ステップＳ２１５で求めたＳＳの上にある
矩形が文字列矩形の場合は、ステップＳ２１６のＬと、
ステップＳ２１７における黒画素の探索範囲は、図７１
のようになる。また、ＳＳの上にある矩形が他の表矩形
の場合は、それらは図７２のようになる。

【０１８４】次に、ＭとＬの大きさを比較し（ステップ
Ｓ２１８）、ＭがＬ未満であればＳＳの上に横罫線がな
いものとみなして、ＳＳを表外の文字列矩形と判定す
る。そこで、ＳＳを集合Ｓから除去する（ステップＳ２
１９）。

【０１８５】次に、ＳＳがＳ１内の最後の文字列矩形か
どうかを判定し（ステップＳ２２０）、最後でなければ
ステップＳ２１３以降の処理を繰り返す。そして、Ｓ１
内の文字列矩形をすべて処理すると、処理を終了する。

【０１８６】ステップＳ２１５において、ＳＳの上に表
矩形も文字列矩形もない場合は、ステップＳ２１７で文
書画像の上端までの範囲を探索して、黒画素を求めれば
よい。このときの探索範囲は図７３のようになり、その
横幅はＳＳの横幅に一致する。

【０１８７】図７０の処理により、図６８の表外文字列
矩形１３１が除去され、残された表内文字列矩形は図７
４のようになる。こうして得られた表内文字列矩形を対
象にして、それらの位置や文字数の関係からタイトルの
候補が抽出される。

【０１８８】図７５は、図５２のステップＳ１５１およ
びＳ１５２で行われるタイトル候補出力処理のフローチ
ャートである。横書き文書の場合は、一般に左上に近い
文字列ほどタイトルである可能性が高いので、図７５の
タイトル候補出力処理においては、まず文字列矩形を表
の左上に近い順に並び替える。そして、その順番やステ
ップＳ１４９で求めた文字数等の情報を使用して、文字
列矩形の表内タイトルらしさの優先順位を決め、その順
にタイトル候補として出力する。

【０１８９】優先順位の付け方としては、大きく分けて
次の３通りが考えられる。（ｗ）表の左上に近い順に優先順位を付ける。（ｘ）隣りの文字列矩形内の文字矩形の文字数を調べ、
その関係をもとに優先順位を決める。表内のタイトルに
は、「題名」や「表題」のようにタイトルであることを
示す項目名がタイトルの左（または上）の位置にある場
合が多い。このような項目名とタイトルの関係は、それ
らの文字数を用いて表すことができる。例えば、２文字
から数文字程度の文字列の右側（または下側）に、数文
字から十数文字程度の文字列がある場合に、項目名とタ
イトルのペアがあると判断することができる。そこで、
そのようなペアについて、上から順に優先順位を付け
る。（ｙ）一定の文字数の条件、または隣りの文字列矩形と
の間の一定の文字数の関係を満足するものだけを対象に
して、表の左上に近い順に優先順位を付ける。

【０１９０】この場合は、表内の文字列矩形を左上に近
い順に調べていき、文字列矩形内の文字数の合計が閾値
以上であれば、その文字列矩形を項目候補とする。さら
に、その文字列矩形の右側に他の文字列矩形があれば、
その文字列矩形内の文字数にかかわらず、それをタイト
ル候補とする。

【０１９１】これは、元々１つの欄に項目とタイトルが
併記されており、「項目：タイトル」のように１つの文
字列矩形に両方の要素が含まれる場合を救済するためで
ある。また、文字数の大きな文字列矩形は、それだけで
表内タイトルらしいといえる。このような文字列矩形は
項目候補として出力された場合でも、文字認識の結果か
らタイトルらしいと考えられれば、タイトルとして使用
することができる。

【０１９２】文字列矩形内の文字数が閾値未満の場合
は、その右側に他の文字列矩形があり、かつ、その中の
文字数が閾値以上の場合に、前者を項目候補、後者をタ
イトル候補とする。

【０１９３】上記（ｗ）、（ｘ）、（ｙ）の各方法につ
いて、２０種類の文書画像を用いて実験した結果、
（ｙ）の方法の場合に表内タイトルが候補の上位に入り
やすく、これが最も抽出性能が良いことが分かった。そ
こで、図７５の処理では（ｙ）の方法に従って優先順位
を決めている。

【０１９４】図７５において処理が開始されると、プロ
セッサ１４は、まず図７６に示すような各表内文字列矩
形の左上頂点の座標（ｘ１，ｙ１）を用いて、ｘ１＋ｙ
１の値の小さい順に、それらの文字列矩形をソートする
（ステップＳ２２１）。そして、表内文字列矩形の集合
をＳとし（ステップＳ２２２）、Ｓ内でｘ１＋ｙ１の値
が最も小さいものをカレント矩形ＳＳとする（ステップ
Ｓ２２３）。

【０１９５】次に、ＳＳ内の文字矩形の文字数の合計が
閾値TITLEMOJISUU以上かどうかを判定する（ステップＳ
２２４）。例えば、TITLEMOJISUU＝７とする。ＳＳの文
字数がTITLEMOJISUU以上であれば、ＳＳの右側に他の文
字列矩形があるかどうかを調べる（ステップＳ２２
５）。右側に文字列矩形がなければ、カレント矩形ＳＳ
を項目候補として出力し（ステップＳ２２６）、ＳＳが
Ｓ内の最後の文字列矩形かどうかを判定する（ステップ
Ｓ２２７）。最後の文字列矩形でなければ、ＳＳの次に
ｘ１＋ｙ１の値の小さな文字列矩形を新たにＳＳとし
（ステップＳ２３１）、ステップＳ２２４以降の処理を
繰り返す。

【０１９６】ステップＳ２２５においてＳＳの右側に文
字列矩形がある場合は、カレント矩形ＳＳを項目候補、
その右側の文字列矩形をタイトル候補として出力し（ス
テップＳ２３０）、ステップＳ２２７以降の処理を行
う。

【０１９７】また、ステップＳ２２４においてＳＳ内の
文字数がTITLEMOJISUU未満の場合は、ＳＳの右側に他の
文字列矩形があるかどうかを調べる（ステップＳ２２
８）。右側に文字列矩形があれば、その文字数の合計が
TITLEMOJISUU以上かどうかを判定する（ステップＳ２２
９）。そして、それがTITLEMOJISUU以上であれば、ステ
ップＳ２３０以降の処理を行う。

【０１９８】ステップＳ２２８においてＳＳの右側に文
字列矩形がない場合、および、ステップＳ２２９におい
て右側の文字列矩形の文字数がTITLEMOJISUU未満の場合
は、ステップＳ２２７以降の処理を行う。そして、ステ
ップＳ２２７においてＳＳが最後の文字列矩形であれ
ば、処理を終了する。

【０１９９】このタイトル候補出力処理によれば、次の
３つの場合に該当する文字列矩形が項目またはタイトル
候補として出力される。（α）カレント矩形の文字数が閾値以上で、その右側に
文字列矩形がない場合、カレント矩形を項目候補として
出力する。（β）カレント矩形の文字数が閾値以上で、その右側に
文字列矩形がある場合、カレント矩形を項目候補、右側
の文字列矩形をタイトル候補として出力する。（γ）カレント矩形の文字数が閾値未満で、その右側の
文字列矩形の文字数が閾値以上である場合、カレント矩
形を項目候補、右側の文字列矩形をタイトル候補として
出力する。

【０２００】図７７は、こうして抽出された表内タイト
ルの第１候補を示している。図７７において、文字列矩
形１１１は項目候補であり、文字列矩形１１２はタイト
ル候補である。このような表内タイトル抽出処理によれ
ば、様々な表を含んだ文書画像に対しても、特別な操作
や辞書等を用いずに、表内の項目およびタイトルの領域
を抽出することができる。

【０２０１】こうして抽出された項目候補およびタイト
ル候補の文字列矩形は、図３のステップＳ１１と同様の
処理により文字列として認識される。このとき、実際に
は、項目候補として抽出された文字列がタイトル文字列
を含んでいる場合もあるので、認識結果のうち適当な部
分を項目名あるいはタイトルとして使用する。

【０２０２】本発明においては、文字領域および文字列
領域の形状は必ずしも矩形でなくてもよく、直線または
曲線により囲まれた任意の形状の領域を用いることがで
きる。

【０２０３】

【発明の効果】本発明によれば、様々な文書画像に対し
て、特別な操作を行ったり、辞書等を用意したりしなく
ても、タイトル、宛先、発信元情報に相当する領域を容
易に抽出することができる。これにより、画像データか
ら抽出した文字列等をその画像のキーワードとして用い
ることもできるようになる。

【図面の簡単な説明】

【図１】本発明の原理図である。

【図２】システム構成図である。

【図３】文書画像のタイトル抽出処理のフローチャート
である。

【図４】文書画像データを示す図である。

【図５】文字列抽出処理のフローチャートである。

【図６】ラベリング処理後の外接矩形を示す図である。

【図７】高さのヒストグラムを示す図である。

【図８】高さの最頻値を求めるためのヒストグラムを示
す図である。

【図９】矩形高さテーブルを示す図である。

【図１０】矩形高さテーブルの内容に対応するヒストグ
ラムを示す図である。

【図１１】大きな矩形から抽出された線分矩形を示す図
である。

【図１２】部分線分矩形を示す図である。

【図１３】連結した部分線分矩形を示す図である。

【図１４】枠矩形を示す図である。

【図１５】重複している外接矩形を示す図である。

【図１６】ネストしている外接矩形を示す図である。

【図１７】二等辺三角形のヒストグラムを示す図であ
る。

【図１８】重複・ネスト除去後の外接矩形を示す図であ
る。

【図１９】矩形間の連結関係を示す図である。

【図２０】連結関係表を示す図である。

【図２１】文字列矩形を示す図である。

【図２２】文字列矩形の抽出処理を示す図である。

【図２３】抽出された文字列矩形を示す図である。

【図２４】文字列矩形加工処理のフローチャートであ
る。

【図２５】ノイズ除去後の文字列矩形を示す図である。

【図２６】文字列矩形の統合処理を示す図である。

【図２７】統合された文字列矩形を示す図である。

【図２８】文書領域を示す図である。

【図２９】下線矩形を示す図である。

【図３０】枠付き・罫線・下線チェック後の文字列矩形
を示す図である。

【図３１】線分抽出処理のフローチャートである。

【図３２】ワイルドカードがある場合の線分矩形を示す
図である。

【図３３】ワイルドカードを示す図である。

【図３４】線分抽出処理のコードを示す図（その１）で
ある。

【図３５】線分抽出処理のコードを示す図（その２）で
ある。

【図３６】線分抽出処理のコードを示す図（その３）で
ある。

【図３７】線分抽出処理の詳細フローチャート（その
１）である。

【図３８】線分抽出処理の詳細フローチャート（その
２）である。

【図３９】線分抽出処理の詳細フローチャート（その
３）である。

【図４０】タイトル・宛先・発信元抽出処理のフローチ
ャートである。

【図４１】オーバラップしている文字列矩形を示す図で
ある。

【図４２】第１の宛先抽出処理のフローチャートであ
る。

【図４３】第２の宛先抽出処理のフローチャートであ
る。

【図４４】タイトルと宛先／発信元の第１の配置を示す
図である。

【図４５】タイトルと宛先／発信元の第２の配置を示す
図である。

【図４６】タイトルと宛先／発信元の第３の配置を示す
図である。

【図４７】タイトルと宛先／発信元の第４の配置を示す
図である。

【図４８】複数の宛先／発信元を示す図である。

【図４９】タイトルおよび宛先・発信元情報の抽出結果
を示す図である。

【図５０】タイトルおよび宛先・発信元情報の他の抽出
結果を示す図である。

【図５１】表形式文書を示す図である。

【図５２】表内タイトル抽出処理のフローチャートであ
る。

【図５３】表形式文書の画像データを示す図である。

【図５４】表形式文書のラベリング結果を示す図であ
る。

【図５５】表矩形抽出処理のフローチャートである。

【図５６】表形式文書の文字列矩形を示す図である。

【図５７】第１の文字列分割処理のフローチャートであ
る。

【図５８】文字列矩形内の文字矩形の順位を示す図であ
る。

【図５９】ソート後の文字矩形の順位を示す図である。

【図６０】縦罫線を含む文字列矩形を示す図である。

【図６１】分割された文字列矩形を示す図である。

【図６２】第２の文字列分割処理のフローチャート（そ
の１）である。

【図６３】第２の文字列分割処理のフローチャート（そ
の２）である。

【図６４】文字列矩形内のラベリング結果を示す図であ
る。

【図６５】分割処理後の文字列矩形を示す図である。

【図６６】文字矩形と文字数の関係を示す図である。

【図６７】表矩形内の表外文字列矩形を示す図である。

【図６８】表矩形内の文字列矩形を示す図である。

【図６９】上罫線チェック処理のフローチャートであ
る。

【図７０】表外文字列矩形除去処理のフローチャートで
ある。

【図７１】第１の探索範囲を示す図である。

【図７２】第２の探索範囲を示す図である。

【図７３】第３の探索範囲を示す図である。

【図７４】表外文字列矩形除去後の文字列矩形を示す図
である。

【図７５】タイトル候補出力処理のフローチャートであ
る。

【図７６】文字列矩形の左上頂点の座標を示す図であ
る。

【図７７】表内タイトルの抽出結果を示す図である。

【符号の説明】

１文字領域生成手段２文字列領域生成手段３タイトル抽出手段１１電子ファイリング装置１２光電変換装置１３ディスプレイ端末１４プロセッサ１５メモリ１６バス２１、２２、２３、２４、２５、２６、２７、３１、３
２、３３、３４、３５、６１、６２、６３、６４、６５
外接矩形３６、３７、３８、３９、４０二等辺三角形４１、４２、４３二等辺三角形のヒストグラム５１、５２、５３、５４、５５、５６、５７、５８ポ
インタ７１、８１、８２、８３、９１、１０１、１０８、１０
９、１１１、１１２、１１３、１１４、１１５、１１
６、１１７、１２２、１２３、１３１文字列矩形７２下線矩形８０、１２１表矩形９２、９３、９４、９５、１０２、１０３、１０４、１
０５、１０６、１０７、１１０文字矩形

Claims

【特許請求の範囲】

【請求項１】文書を画像データに変換して得られる文
書画像から必要とする部分領域を取り出して認識する情
報処理装置において、前記文書画像内の連結した黒画素からなる黒画素連結領
域を含む文字領域を生成する文字領域生成手段と、前記文字領域生成手段が生成した１つ以上の文字領域を
統合して、該１つ以上の文字領域を含む文字列領域を生
成する文字列領域生成手段と、前記文字列領域生成手段が生成した複数の文字列領域の
属性に基づいて、該複数の文字列領域のうち特定の文字
列領域を、タイトル領域として抽出するタイトル抽出手
段とを備えることを特徴とするタイトル抽出装置。
【請求項２】前記タイトル領域に含まれる文字領域を
切り出して、文字認識を行う認識手段をさらに備えるこ
とを特徴とする請求項１記載のタイトル抽出装置。
【請求項３】前記文字領域生成手段は、前記黒画素連
結領域の外接矩形を前記文字領域として求め、前記文字
列領域生成手段は、前記文書画像内における該外接矩形
の辺の長さの頻度のヒストグラムを作成し、特定の頻度
と該特定の頻度を与える最大の辺の長さとの関係表を作
成し、該関係表を用いて、前記文書画像内において現れ
る頻度の高い第１の辺の長さを求め、該第１の辺の長さ
を基準として用いて前記文字列領域を生成することを特
徴とする請求項１記載のタイトル抽出装置。
【請求項４】前記文字列領域生成手段は、前記関係表
において頻度が大きく変化する辺の長さをもとに、前記
第１の辺の長さを決定することを特徴とする請求項３記
載のタイトル抽出装置。
【請求項５】前記文字列領域生成手段は、前記外接矩
形の高さまたは幅を前記辺の長さとして用いて、前記ヒ
ストグラムを作成することを特徴とする請求項３記載の
タイトル抽出装置。
【請求項６】前記文字列領域生成手段は、前記第１の
辺の長さを用いて閾値を生成し、該閾値を用いて不要な
文字領域を除去することを特徴とする請求項３記載のタ
イトル抽出装置。
【請求項７】前記文字列領域生成手段は、前記閾値を
用いて図表または写真の外接矩形を除去することを特徴
とする請求項６記載のタイトル抽出装置。
【請求項８】前記文字領域生成手段は、前記黒画素連
結領域の外接矩形を前記文字領域として求め、前記文字
列領域生成手段は、各外接矩形の第１の辺を用いて、前
記文書領域内の第１の方向における外接矩形の分布範囲
を表す第１のヒストグラムを作成し、該第１のヒストグ
ラムの形状から外接矩形のグループを求め、該グループ
毎に処理を行うことを特徴とする請求項１記載のタイト
ル抽出装置。
【請求項９】前記文字列領域生成手段は、各外接矩形
の第２の辺を用いて、前記文書領域内の第２の方向にお
ける外接矩形の分布範囲を表す第２のヒストグラムを作
成し、前記第１および第２のヒストグラムの形状から前
記グループを求め、該グループ毎に処理を行うことを特
徴とする請求項８記載のタイトル抽出装置。
【請求項１０】前記文字列領域生成手段は、前記第１
の辺の中線上に頂点を持つ二等辺三角形を作成し、該二
等辺三角形を用いて前記第１のヒストグラムを作成する
ことを特徴とする請求項８記載のタイトル抽出装置。
【請求項１１】前記文字列領域生成手段は、前記グル
ープに属する外接矩形を探索して、重複する２つ以上の
外接矩形を求め、該２つ以上の外接矩形を１つの外接矩
形に統合することを特徴とする請求項８記載のタイトル
抽出装置。
【請求項１２】前記文字列領域生成手段は、前記グル
ープに属する外接矩形を探索して、ネストしている外接
矩形を求め、ネストを除去することを特徴とする請求項
８記載のタイトル抽出装置。
【請求項１３】前記文字列領域生成手段は、基準とす
る第１の外接矩形が属するグループ内の外接矩形を探索
して、該第１の外接矩形に近接する第２の外接矩形を求
め、該第１および第２の外接矩形の連結関係を表す連結
関係表を作成し、該連結関係表を用いて前記文字列領域
を生成することを特徴とする請求項８記載のタイトル抽
出装置。
【請求項１４】前記文字領域生成手段は、前記黒画素
連結領域の外接矩形を前記文字領域として求め、前記文
字列領域生成手段は、基準とする第１の外接矩形に近接
する第２の外接矩形を求め、該第１および第２の外接矩
形の連結関係を表す連結関係表を作成し、該連結関係表
を用いて該第１および第２の外接矩形に同じ識別情報を
付加することにより、該第１および第２の外接矩形を１
つの文字列領域に統合することを特徴とする請求項１記
載のタイトル抽出装置。
【請求項１５】前記文字列領域生成手段は、前記第１
の外接矩形から前記第２の外接矩形へ向かうポインタ
と、前記第２の外接矩形から前記第１の外接矩形へ向か
うポインタのうち、少なくとも一方を前記連結関係表に
格納することを特徴とする請求項１４記載のタイトル抽
出装置。
【請求項１６】前記文字列領域生成手段は、前記第１
の外接矩形と前記第２の外接矩形の間に枠線がある場合
には、該第１および第２の外接矩形を連結しないことを
特徴とする請求項１４記載のタイトル抽出装置。
【請求項１７】前記タイトル抽出手段は、前記文字列領域の内部を横方向に複数の部分領域に分割
して、各部分領域の中で黒画素占有率の大きな部分線分
領域を抽出し、閾値以上の高さの部分線分領域について
は高さを無視して、横方向に連結している各部分線分領
域を統合し、統合された線分領域を抽出する線分抽出手
段を有し、該線分領域を用いて前記タイトル領域を抽出することを
特徴とする請求項１記載のタイトル抽出装置。
【請求項１８】前記線分抽出手段は、前記文字列領域
の内部を重複する複数の部分領域に分割することを特徴
とする請求項１７記載のタイトル抽出装置。
【請求項１９】前記線分抽出手段は、前記文字列領域
の幅に近い長さの前記線分領域を抽出することを特徴と
する請求項１７記載のタイトル抽出装置。
【請求項２０】前記タイトル抽出手段は、前記線分領
域が前記文字列領域内の下部にあるとき、該線分領域を
下線と判別し、該文字列領域を前記タイトル領域の候補
とすることを特徴とする請求項１７記載のタイトル抽出
装置。
【請求項２１】前記線分抽出手段は、前記文字列領域
から同じ程度の左端座標および右端座標を持つ２つの線
分領域を抽出し、該左端座標付近で縦方向の黒画素の第
３のヒストグラムを作成し、該右端座標付近で縦方向の
黒画素の第４のヒストグラムを作成し、第３および第４
のヒストグラムのピークの高さが前記２つの線分領域の
距離程度であれば、前記文字列領域内に枠線があると判
別することを特徴とする請求項１７記載のタイトル抽出
装置。
【請求項２２】前記タイトル抽出手段は、前記複数の
文字列領域の属性として下線属性または枠付き属性を抽
出し、抽出した属性と各文字列領域の位置と文字列領域
間の相対的位置関係とのうち少なくとも１つを用いて、
各文字列領域にポイントを与え、高ポイントの文字列領
域を前記特定の文字列領域とすることを特徴とする請求
項１記載のタイトル抽出装置。
【請求項２３】前記タイトル抽出手段は、下線属性ま
たは枠付き属性を持つ文字列領域に一定の得点を与える
ことを特徴とする請求項２２記載のタイトル抽出装置。
【請求項２４】前記タイトル抽出手段は、第１の方向
の中心座標が前記文書画像の中央付近にある文字列領域
に一定の得点を与えることを特徴とする請求項２２記載
のタイトル抽出装置。
【請求項２５】前記タイトル抽出手段は、上下にある
文字列領域との距離が離れている文字列領域に一定の得
点を与えることを特徴とする請求項２２記載のタイトル
抽出装置。
【請求項２６】前記タイトル抽出手段は、左側に他の
文字列領域がないような文字列領域に一定の得点を与え
ることを特徴とする請求項２２記載のタイトル抽出装
置。
【請求項２７】前記タイトル抽出手段は、枠線を含む
第１の文字列領域の内部に第２の文字列領域があり、該
第１の文字列領域と第２の文字列領域が閾値以上に離れ
ていないような一定の位置関係にある場合に、該第２の
文字列領域が枠付き属性を持つとみなすことを特徴とす
る請求項２２記載のタイトル抽出装置。
【請求項２８】前記タイトル領域の位置またはサイズ
の情報から、他の文字列領域の相対的な位置関係または
サイズを求め、該他の文字列領域の相対的な位置関係ま
たはサイズが特定の条件を満たすとき、該他の文字列領
域を宛先領域として抽出する宛先抽出手段をさらに備え
ることを特徴とする請求項１記載のタイトル抽出装置。
【請求項２９】前記タイトル領域の位置またはサイズ
の情報から、他の文字列領域の相対的な位置関係または
サイズを求め、該他の文字列領域の相対的な位置関係ま
たはサイズが特定の条件を満たすとき、該他の文字列領
域を発信元情報領域として抽出する発信元情報抽出手段
をさらに備えることを特徴とする請求項１記載のタイト
ル抽出装置。
【請求項３０】前記タイトル抽出手段は、前記文書画
像内で一定範囲のサイズの文字列領域が存在する文書領
域を求め、該文書領域から前記タイトル領域を抽出する
ことを特徴とする請求項１記載のタイトル抽出装置。
【請求項３１】前記タイトル抽出手段は、隣接した２
つの文字列領域のサイズまたは座標値が類似している場
合に、該２つの文字列領域を１つの文字列領域に統合す
ることを特徴とする請求項１記載のタイトル抽出装置。
【請求項３２】前記タイトル抽出手段は、文字列領域
のサイズまたは形状から罫線を表すと判定した時、該文
字列領域に罫線属性を設定し、該罫線属性を用いて前記
タイトル領域を抽出することを特徴とする請求項１記載
のタイトル抽出装置。
【請求項３３】前記タイトル抽出手段は、前記罫線属
性を持つ第３の文字列領域の上にある第４の文字列領域
に下線属性を設定し、該第４の文字列領域を前記タイト
ル領域の候補とすることを特徴とする請求項３２記載の
タイトル抽出装置。
【請求項３４】文書を画像データに変換して得られる
文書画像から必要とする部分領域を取り出して認識する
情報処理装置において、前記文書画像内の連結した黒画素からなる黒画素連結領
域を含む文字領域を生成する文字領域生成手段と、前記文字領域生成手段が生成した１つ以上の文字領域を
統合して、該１つ以上の文字領域を含む文字列領域を生
成する文字列領域生成手段と、一定以上の大きさを持つ黒画素連結領域を含む表領域を
抽出し、該表領域内の複数の文字列領域のうち特定の文
字列領域を、タイトル領域として抽出するタイトル抽出
手段とを備えることを特徴とするタイトル抽出装置。
【請求項３５】前記タイトル抽出手段は、第５の文字
列領域の内部に罫線がある場合に、該罫線の位置で該第
５の文字列領域を分割することを特徴とする請求項３４
記載のタイトル抽出装置。
【請求項３６】前記タイトル抽出手段は、前記第５の
文字列領域内の複数の文字領域の間に黒画素があるかど
うかを調べ、黒画素がある位置で該第５の文字列領域を
分割することを特徴とする請求項３５記載のタイトル抽
出装置。
【請求項３７】前記タイトル抽出手段は、前記第５の
文字列領域内の複数の文字領域と、前記文字領域生成手
段が該第５の文字列領域内を対象にして再度求めた複数
の文字領域との差異を調べ、該差異が検出された位置で
該第５の文字列領域を分割することを特徴とする請求項
３５記載のタイトル抽出装置。
【請求項３８】前記タイトル抽出手段は、前記表領域
内の第６の文字列領域の近くの特定領域に罫線があるか
どうかを調べ、罫線がなければ該第６の文字列領域を表
外の文字列領域とすることを特徴とする請求項３４記載
のタイトル抽出装置。
【請求項３９】前記タイトル抽出手段は、前記表領域
内の文字列領域相互の位置関係から、上側に表内文字列
領域がないような文字列領域を前記第６の文字列領域と
し、該第６の文字列領域の上側にある前記特定領域の黒
画素を探索し、一定閾値以上の黒画素が検出された場合
に、該特定領域内に前記罫線があると判定することを特
徴とする請求項３８記載のタイトル抽出装置。
【請求項４０】前記タイトル抽出手段は、前記第６の
文字列領域の上の他の文字列領域または表領域までの間
を前記特定領域とし、前記閾値を該第６の文字列領域と
該他の文字列領域または表領域との位置関係から決める
ことを特徴とする請求項３９記載のタイトル抽出装置。
【請求項４１】前記タイトル抽出手段は、前記複数の
文字列領域を前記表領域の左上に近い順に優先的に出力
することを特徴とする請求項３４記載のタイトル抽出装
置。
【請求項４２】文字列領域生成手段は、前記１つ以上
の文字領域を含む文字列矩形を文字列領域として生成
し、前記タイトル抽出手段は、該文字列矩形の特定の頂
点の座標値をもとに、前記表領域内の複数の文字列矩形
に優先順位を付けることを特徴とする請求項４１記載の
タイトル抽出装置。
【請求項４３】前記タイトル抽出手段は、前記複数の
文字列領域のうち、項目らしい文字列領域を項目領域と
し、タイトルらしい文字列領域を前記タイトル領域とし
て、優先順位を付けて出力することを特徴とする請求項
３４記載のタイトル抽出装置。
【請求項４４】前記タイトル抽出手段は、あらかじめ
決められた項目とタイトルの位置および文字数の関係に
該当する文字列領域のペアを求め、該文字列領域のペア
を上から順に出力することを特徴とする請求項４３記載
のタイトル抽出装置。
【請求項４５】前記タイトル抽出手段は、前記複数の
文字列領域のうち閾値以上の文字数を持つ第７の文字列
領域を、前記項目領域として出力することを特徴とする
請求項４３記載のタイトル抽出装置。
【請求項４６】前記タイトル抽出手段は、前記第７の
文字列領域の右側の文字列領域を、前記タイトル領域と
して出力することを特徴とする請求項４５記載のタイト
ル抽出装置。
【請求項４７】前記タイトル抽出手段は、前記複数の
文字列領域のうち、閾値未満の文字数を持つ第８の文字
列領域を、前記項目領域として出力し、該第８の文字列
領域の右側にあって該閾値以上の文字数を持つ文字列領
域を、前記タイトル領域として出力することを特徴とす
る請求項４３記載のタイトル抽出装置。
【請求項４８】情報処理装置により用いられる記憶媒
体であって、該情報処理装置が、文書を画像データに変換して得られる文書画像内の連結
した黒画素からなる黒画素連結領域を含む文字領域を生
成し、１つ以上の文字領域を統合して、該１つ以上の文字領域
を含む文字列領域を生成し、複数の文字列領域の属性に基づいて、該複数の文字列領
域のうち特定の文字列領域を、タイトル領域として抽出
するように導くことを特徴とする記憶媒体。
【請求項４９】情報処理装置により用いられる記憶媒
体であって、該情報処理装置が、文書を画像データに変換して得られる文書画像内の連結
した黒画素からなる黒画素連結領域を含む文字領域を生
成し、１つ以上の文字領域を統合して、該１つ以上の文字領域
を含む文字列領域を生成し、一定以上の大きさを持つ黒画素連結領域を含む表領域を
抽出し、該表領域内の複数の文字列領域のうち、特定の文字列領
域をタイトル領域として抽出するように導くことを特徴
とする記憶媒体。
【請求項５０】文書を画像データに変換して文書画像
を生成し、該文書画像内の連結した黒画素からなる黒画素連結領域
を含む文字領域を生成し、１つ以上の文字領域を統合して、該１つ以上の文字領域
を含む文字列領域を生成し、複数の文字列領域の属性に基づいて、該複数の文字列領
域のうち特定の文字列領域をタイトル領域として抽出
し、該タイトル領域に含まれる文字を認識することを特徴と
するタイトル抽出方法。
【請求項５１】文書を画像データに変換して文書画像
を生成し、該文書画像内の連結した黒画素からなる黒画素連結領域
を含む文字領域を生成し、１つ以上の文字領域を統合して、該１つ以上の文字領域
を含む文字列領域を生成し、一定以上の大きさを持つ黒画素連結領域を含む表領域を
抽出し、該表領域内の複数の文字列領域のうち、特定の文字列領
域をタイトル領域として抽出し、該タイトル領域に含まれる文字を認識することを特徴と
するタイトル抽出方法。