JPH09134406A - 文書画像からのタイトル抽出装置および方法 - Google Patents

文書画像からのタイトル抽出装置および方法

Info

Publication number
JPH09134406A
JPH09134406A JP7341983A JP34198395A JPH09134406A JP H09134406 A JPH09134406 A JP H09134406A JP 7341983 A JP7341983 A JP 7341983A JP 34198395 A JP34198395 A JP 34198395A JP H09134406 A JPH09134406 A JP H09134406A
Authority
JP
Japan
Prior art keywords
character string
area
rectangle
title
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7341983A
Other languages
English (en)
Other versions
JP3425834B2 (ja
Inventor
Yutaka Katsuyama
裕 勝山
Satoshi Naoi
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP34198395A priority Critical patent/JP3425834B2/ja
Priority to US08/694,503 priority patent/US6035061A/en
Priority to DE69624433T priority patent/DE69624433T2/de
Priority to EP96112721A priority patent/EP0762730B1/en
Priority to KR1019960035503A priority patent/KR100311633B1/ko
Priority to CN961118970A priority patent/CN1094224C/zh
Priority to CNB011359463A priority patent/CN100501760C/zh
Priority to CNB011359439A priority patent/CN1269068C/zh
Publication of JPH09134406A publication Critical patent/JPH09134406A/ja
Priority to CNB011359455A priority patent/CN1220163C/zh
Priority to CNB011359447A priority patent/CN1220162C/zh
Application granted granted Critical
Publication of JP3425834B2 publication Critical patent/JP3425834B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

(57)【要約】 【課題】 文書を画像データに変換して得られる文書画
像から容易にタイトル部分を抽出することが課題であ
る。 【解決手段】 タイトル抽出装置は、文書画像内の黒画
素を走査し、それらが連結している領域に外接する矩形
領域を文字矩形として抽出し、さらに、隣接する複数の
文字矩形を統合して、それらの文字矩形に外接する矩形
領域を文字列矩形として抽出する。次に、各文字列矩形
の下線属性、枠付き属性、罫線属性等の属性と、文書画
像内の文字列矩形の位置や相互の位置関係とに基づい
て、タイトルらしさのポイント計算を行い、高ポイント
を獲得した文字列矩形をタイトル矩形として抽出する。
また、表形式の文書の場合、表内からタイトル矩形を抽
出することもできる。抽出されたタイトル矩形内の文字
は、認識処理後に文書画像のキーワードとして用いられ
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は画像データの認識処
理に係り、文書を画像データとして取り込んだ文書画像
から、タイトル部分の領域を抽出するタイトル抽出装置
および方法に関する。
【0002】
【従来の技術とその問題点】一般文書をスキャナ等の光
電変換装置で読み込んで得られる画像データである文書
画像から、文書のタイトル等の部分領域を抽出する従来
技術としては、以下に示す様なものがある。 (1)タイトルなどの領域が固定されている文書を対象
として、固定領域をタイトルとして抽出する(特開昭6
4−46873)。 (2)文書に色マーカや枠線で囲むなどの特定のマーク
を付けてから、光電変換装置で読み込んで、特定の色部
分や特定のマーク部分の抽出によってタイトル部分を抽
出する(特開平1−150974)。 (3)文書の文字列や写真などの物理構造を木構造等に
表現して、その論理構造とのマッチングをとることで、
物理構造に「タイトル」、「著者名」等のタグ付けをす
る(特開平1−183784、特開平5−342326
等)。 (4)文書画像の一部の領域を指定し、その内部を投影
して黒画素のヒストグラムを作成する。そのヒストグラ
ム上で、投影した黒画素の値が2つの閾値の間にある部
分が連続する範囲を求め、その連続長が閾値より大きな
部分をタイトルとして抽出する(特開平5−27447
1)。
【0003】そのほかに、表を含む文書画像から表内の
タイトル等の部分領域を抽出する従来技術として、以下
に示す様なものがある。 (5)表を含む固定フォーマットの文書(タイトルなど
の領域が固定されている文書)を対象として、固定され
た領域をタイトルとして抽出する(特開平7−0933
48)。 (6)文書画像を投影して黒画素のヒストグラムを作成
し、ヒストグラムの分布から枠線を抽出して、枠線に囲
まれる文字列をタイトルとして抽出する(特開平5−2
74367)。 (7)文書画像内の全文字領域を文字認識し、得られた
文字コードに対して単語(キーワード)照合や形態素解
析等の言語的、論理的な知識処理を行い、その結果から
タイトルらしい文字列を抽出する(特開平3−2762
60)。 (8)文書画像内の白画素連結部分で囲まれた領域を表
部分として抽出し、その内部から罫線を抽出して、罫線
で囲まれた領域を求める。そして、求めた領域の内部に
ある画像とあらかじめ決められた文字列(テンプレー
ト)とのテンプレートマッチングを行うことで、それと
同じ文字列をタイトルとして抽出する(特開平3−74
728)。
【0004】しかしながら、これらの従来技術にはそれ
ぞれ以下のような問題がある。 (1)および(5)の方法では、書式の固定した文書し
か扱えない。書式を変更する場合は、抽出する部分の設
定も変更する必要がある。 (2)の方法では、原稿文書にマークを付ける手間がか
かる。 (3)の方法では、木構造等で表現した論理構造の辞書
を用意する必要がある。また、辞書に無い論理構造の文
書については、正確にタイトルを抽出することができな
くなる。 (4)の方法では、文書画像の一部の領域の指定方法が
明らかではないが、仮に全領域にこの方法を適用する
と、図表などの大きな黒画素部分を誤ってタイトルとし
て抽出してしまう恐れがある。また文字だけの文書で
も、文字サイズが大きな文字列がタイトルとは限らない
ので、誤抽出する可能性がある。 (6)単純な枠線に囲まれている表ならばこの方式でも
よいが、実際には罫線が複雑に組み合わさった表が使わ
れることが多いため、そのような場合にタイトル領域を
正確に特定できない。 (7)現在の文字認識処理ではかなりの処理時間がかか
るため、実質的にバッチ処理としてしか使用方法がな
い。また、認識率は100%ではないので、タイトルの
位置の情報を使わなければ、誤った部分をタイトルとし
て抽出することが多いと考えられる。 (8)画像上のテンプレートマッチングはマッチング処
理自体に時間がかかるだけでなく、テンプレートのフォ
ント形状またはサイズの影響を受けやすく、誤りやすい
という欠点がある。また、この方法ではあらかじめ決ま
った文字列だけしかタイトルとして抽出できず、対象と
する文書が限定される。
【0005】このように、従来のタイトル抽出方法で
は、ユーザにとって特別な準備作業や操作が必要であっ
たり、対象とする文書やタイトルが限定される等の問題
がある。
【0006】本発明は、文書画像から容易にタイトル部
分を抽出することのできるタイトル抽出装置およびその
方法を提供することを目的とする。
【0007】
【問題を解決するための手段】図1は、本発明のタイト
ル抽出装置の原理図である。図1のタイトル抽出装置
は、文字領域生成手段1、文字列領域生成手段2、およ
びタイトル抽出手段3を備える。
【0008】文字領域生成手段1は、文書を画像データ
に変換して得られる文書画像内の連結した黒画素からな
る黒画素連結領域を含む文字領域を生成する。文字列領
域生成手段2は、文字領域生成手段1が生成した1つ以
上の文字領域を統合して、それらの文字領域を含む文字
列領域を生成する。
【0009】タイトル抽出手段3は、文字列領域生成手
段2が生成した複数の文字列領域の属性に基づいて、そ
れらの複数の文字列領域のうち特定の文字列領域を、タ
イトル領域として抽出する。
【0010】文字領域生成手段1は文書画像内の黒画素
を走査し、例えば、それらが連結している領域に外接す
る矩形領域を文字領域として抽出する。この結果、文書
内の多数の文字に対応する多数の文字領域が生成され
る。
【0011】次に、文字列領域生成手段2は、隣接する
複数の文字領域を統合して、例えば、それらの文字領域
に外接する矩形領域を文字列領域として抽出する。この
文字列領域は、例えば、横書き文書内の1行分の文字列
に対応する。
【0012】タイトル抽出手段3は、生成された各文字
列領域の下線属性、枠付き属性、罫線属性等の属性に基
づいてタイトルらしさを評価し、最もタイトルらしいと
考えられる特定の文字列領域を、タイトル領域として抽
出する。
【0013】ここで、下線属性とは、文字列領域の内部
または下方に下線があることを意味し、下線フラグ等を
用いて表現される。枠付き属性とは、文字列領域のまわ
りを枠線が囲んでいることを意味し、枠線フラグ等を用
いて表現される。また、罫線属性とは、文字列領域が横
長または縦長の罫線に対応することを意味し、罫線フラ
グ等を用いて表現される。下線属性や枠付き属性を持つ
文字列領域は文書のタイトルである可能性が高く、罫線
属性を持つ文字列領域はタイトルである可能性がほとん
どない。そこで、このような属性をもとにタイトルらし
さを自動的に評価することができる。
【0014】また、タイトル抽出手段3は、一定以上の
大きさを持つ黒画素連結領域を含む表領域を抽出し、該
表領域内の複数の文字列領域のうち特定の文字列領域
を、タイトル領域として抽出する。
【0015】表領域としては、例えば、黒画素連結領域
に外接する矩形領域のうち、一定の閾値以上の大きさを
持つものが用いられる。そして、タイトル抽出手段3
は、表領域内の文字列領域相互の位置や文字数等の関係
を調べて、タイトルらしさを評価し、最もタイトルらし
いと考えられる特定の文字列領域を、タイトル領域とし
て抽出する。
【0016】例えば、表領域の左上に近い文字列領域ほ
どタイトルらしいと考えられ、また、文字数の大きな文
字列領域もタイトルらしいと考えることができる。本発
明のタイトル抽出装置によれば、表形式文書を含む様々
な文書画像を対象として、原稿にマークすることもな
く、特別な構造辞書が不要で、文字サイズのみに影響さ
れない、高精度なタイトル抽出処理を行うことができ
る。また、抽出されたタイトル領域に含まれる文字領域
を切り出して文字認識を行い、認識結果を文書画像のキ
ーワードとして用いることもできる。
【0017】図1の文字領域生成手段1、文字列領域生
成手段2、およびタイトル抽出手段3は、例えば、実施
の形態における図2のプロセッサ14に相当する。
【0018】
【発明の実施の形態】以下、図面を参照しながら本発明
の実施の形態を詳細に説明する。最近、従来より紙媒体
で保存してきた情報を電子化する動きが多く見られる。
その中の1つに電子ファイリングシステムがある。電子
ファイリングシステムにおいては、紙文書がイメージス
キャナ等の光電変換装置で画像に変換され、それに検索
のためのキーワードや管理情報が付与されて、光ディス
クやハードディスクに保存される。
【0019】このような方法では文書を画像データとし
て保存するため、文書に記されているすべての文字を文
字認識技術でコード化してから保存する方法よりも、デ
ィスク容量は多く必要となる。その反面、手軽で処理速
度が速く、文字以外の絵や表などもそのまま保存できる
メリットがある。しかし、保存された情報を検索するた
めに、文書画像と共にキーワードや番号などの管理情報
を付与しなければならない。従来のシステムはこのキー
ワード付けの手間がかかり、使いづらいシステムであっ
た。
【0020】この使いづらさを解決するために、文書中
にあるタイトル部分をキーワードとみなしてそれを自動
的に抽出し、その部分を文字認識してコード化した結果
を文書画像と共に保存する方法が考えられる。
【0021】現在の文字認識の処理速度は速くても数十
文字/秒であり、A4の文書1枚を処理するのには30
秒から数分の処理時間がかかってしまう。したがって、
タイトル抽出を高速化するためには、文書全体を文字認
識するのではなく、まず画像上で必要なタイトル部分だ
けを抽出した後にそれを文字認識する方法が有力であ
る。
【0022】また、文書中の全文字を認識して論理的に
タイトルを抽出する方法では、画像上におけるタイトル
部分の位置関係が考慮されない。このため、誤認識や文
章のつながりの影響で、正確にタイトルコードを抽出で
きない場合がかなりあるはずである。
【0023】このように、電子ファイリングシステムの
効率的な運用を考えると、文書画像から直接タイトル部
分(領域)を抽出する技術は、重要な技術である。そこ
で、電子ファイリングシステムを例にとり、本発明のタ
イトル抽出技術について説明する。
【0024】図2は、実施形態のタイトル抽出システム
の構成図である。図2のタイトル抽出システムは、電子
ファイリング装置11、光電変換装置12、ディスプレ
イ端末13、プロセッサ14、およびメモリ15を備
え、これらの装置はバス16により結合されている。
【0025】電子ファイリング装置11は、ハードディ
スクや光ディスク等の格納装置を備え、複数の画像デー
タを個別に格納している。光電変換装置12は、例えば
スキャナ等の光学的な読み取り装置であり、文書や絵、
写真等を画像データに変換する。こうして取り込まれた
画像データは、電子ファイリング装置11またはメモリ
15に格納される。ディスプレイ端末13は、ディスプ
レイ装置とキーボードやマウス等の入力装置とを備えた
オペレータ端末である。
【0026】プロセッサ14は、ディスプレイ端末13
から入力された指示に従い、光電変換装置12からメモ
リ15に取り込んだ文書画像、または、電子ファイリン
グ装置11から取り出した文書画像からタイトル等の特
定領域を抽出する。そして、抽出した領域に含まれる文
字を認識する。尚、文字の認識処理は、タイトル抽出シ
ステムの外部のシステムにより行う構成としてもよい。
【0027】図2のタイトル抽出システムは、例えば、
後述する図4に示すような文書画像から図6に示すよう
な文字の外接矩形を求め、さらに複数の文字の外接矩形
を統合して、図27に示すような文字列矩形を求める。
そして、各文字列矩形が文書の中で強調されているかど
うかを調べる。
【0028】例えば、図14に示すような枠線で囲まれ
ている文字列は強調されているものとみなし、それだけ
でタイトルらしいと考えられるので、それらをタイトル
候補として抽出する。そのほかにも、下線を持つ文字列
や大きな文字列は強調文字列と考えて、タイトル候補と
して抽出する。また、文書内での文字列の位置や隣接す
る他の文字列との位置関係も、タイトル文字列を識別す
るために有力な情報として用いられる。
【0029】このように、文字列が強調されているかど
うかやその位置等の外見的な情報をもとにタイトル候補
の文字列を選択するので、タイトルである蓋然性の高い
領域を文書画像から簡単に抽出することができる。この
抽出方法は文書全体を認識してからタイトルを抽出する
方法よりも高速であり、対象とする文書を選ばないとい
う点で汎用的である。また、文字列の2つ以上の外見的
情報を組合せて用いることにより、比較的正確にタイト
ル領域を特定することができる。
【0030】図3は、図2のタイトル抽出システムによ
るタイトル抽出処理のフローチャートを示している。図
3の処理においては、前提条件として横書き文書を対象
としているが、横書きに限らず縦書き文書でも横書きと
同様の処理で対応可能である。縦書き文書の場合には、
文字領域や文字列領域の高さと幅が、横書き文書の場合
と互いに逆の役割を果たすことになる。
【0031】図3において処理が開始されると、光電変
換装置12が文書を読み取り、画像データ(文書画像)
としてメモリ15に格納する(ステップS1)。このと
き、処理の高速化のために、読み取った原画像を縦横そ
れぞれ1/8に圧縮して圧縮画像を作成し、それを文書
画像としてメモリ15に格納しておく。
【0032】画像を圧縮する際には、線分がとぎれない
ように論理ORの圧縮方法を用いる。つまり、原画像の
8×8画素の領域の中に1つでも黒画素があれば、圧縮
画像の対応する画素を黒とし、全く黒画素がなければそ
れを白とする。
【0033】次に、プロセッサ14が、文書画像から文
字列(あるいは行)を抽出し、文字列の外接矩形(文字
列矩形)を求め、その座標をメモリ15に保存する(ス
テップS2)。次に、保存した文字列矩形から、横幅が
小さい矩形や縦長矩形をノイズ矩形として除去し(ステ
ップS3)、さらに文字列らしくない矩形を除いて、文
書領域を決定する(ステップS4)。
【0034】次に、残った文字列矩形を縦方向(y座
標)で並べ替え(ステップS5)、枠の画像を含む矩形
(枠矩形)を抽出して、枠矩形内にある文字列矩形を枠
付き矩形としてマークする(ステップS6)。また、下
線の画像を含む矩形を抽出して、そのすぐ上にある文字
列矩形を下線矩形としてマークする(ステップS7)。
【0035】次に、タイトルらしさのポイント計算を行
って、ポイントの高い文字列矩形をタイトルとして抽出
し(ステップS8)、その結果を用いて文書の宛先と発
信元情報を抽出する(ステップS9、S10)。そし
て、抽出したタイトル、宛先、発信元情報の認識処理を
行って(ステップS11)、処理を終了する。
【0036】次に、一般的な社内文書を例に取り、タイ
トル抽出処理を詳細に説明する。社内文書には、通常、
「タイトル」、「宛先」、「発信日」、「発信所属」、
「発信管理番号」、「本文(図表あり)」などの要素が
含まれており、それらが様々な配置で記載されている。
ここでは、このような様々な書式の文書からタイトル、
宛先、および発信者情報(発信日、発信所属、発信管理
番号等)を抽出する。
【0037】図4は、スキャナでメモリ15に読み込ま
れた文書画像の例を示している。図4の文書画像は、ソ
フトウェア販推レポートの送付表に関するものであり、
この文書のタイトルは「ソフトウェア販推レポート 送
付表」で、その下に宛先や発信元情報が記載されてい
る。プロセッサ14は、まずこの文書画像から文字列を
抽出する。図5は、図3のステップS2の文字列抽出処
理のフローチャートである。
【0038】図5において処理が開始されると、プロセ
ッサ14は、まず文書画像から文字に相当する矩形を抽
出する。そのために、文書画像に対してラベリングによ
る黒画素連結処理を施し、黒画素の外接矩形を求めて保
存する(ステップS21)。
【0039】ここでは、2値化されている圧縮画像の黒
画素を8連結で走査し、連結が有る場合にはそれらの黒
画素に同一のラベル値を与えることによって黒画素連結
領域を生成し、その外接矩形(文字矩形)を求める。8
連結による走査とは、1つの黒画素の上、下、左、右、
左上、右上、左下、右下の8方向を走査して、他の隣接
黒画素があるかどうかを調べる処理を意味する。求めら
れた外接矩形は、ファイルlbtbl に保存される。図4の
文書画像にラベリング処理を施した結果は、図6のよう
になる。
【0040】次に、ラベリングにより得られた外接矩形
の高さの頻度分布を表すヒストグラムを求め、高さの最
頻値freqを求める(ステップS22)。ここでは、まず
ラベリング結果の外接矩形の集合lbtbl から、図7に示
すような矩形高さのヒストグラムを作成する。図7にお
いて、横軸が各外接矩形の高さを表し、縦軸がその高さ
を持つ矩形の数(頻度値)を表す。外接矩形の高さは、
例えば1画素の高さを単位高さとして求める。
【0041】次に、頻度値と、その頻度値を持つ矩形高
さの内で最大の高さとの対応関係を求め、矩形高さテー
ブルheightに保存する。そして、heightの中を頻度値0
から順に調査していき、高さの変化が1以内で頻度値の
変化するものが連続し、それらの頻度値の変化の合計が
9以上の場合に、それらの連続する高さのうちで最も高
いものを矩形高さの最頻値freqとする。
【0042】図8は、図7のヒストグラムに対応するhe
ightの内容を表すヒストグラムを示している。図8にお
いて、頻度値が急激に変化する高さがfreqとなっている
ことがわかる。このようにしてfreqを求めておけば、1
文字よりも小さなノイズの影響を排除することができ
る。
【0043】図9は、heightの簡単な例を示している。
図9においては、4つの頻度値と、各頻度値を持つ矩形
高さの内で最大の高さとが、それぞれペアで格納されて
いる。freqを求めるために、このheightの内容をヒスト
グラムにすると図10のようになる。図10のヒストグ
ラムを、頻度値の低いところから、つまり高さの高いと
ころから順に見ていくと、高さが10、9、8の位置
で、頻度値がそれぞれ5、5、7だけ変化していること
が分かる。これらの連続する高さの差は1であり、頻度
値の変化の合計は17である。したがって、高さ10、
9、8において頻度値の変化の合計が9以上となってい
るので、それらの中で最初に現れた高さ10をfreqとす
る。
【0044】次に、枠線や図表の外接矩形を除去するた
めに、大きな矩形と判断するための閾値を設定し、それ
より大きな矩形を抽出する。そして、抽出した大きな矩
形の中から枠線を含む矩形を抽出して保存する(ステッ
プS23)。
【0045】ここでは、例えば、freqより大きな矩形で
最も頻度値が大きな矩形高さを大きな矩形の閾値th_la
rge とし、th_large より大きな矩形を抽出して、ファ
イルbox に保存する。
【0046】次に、box の中の大きな矩形から枠線を抽
出するために、それぞれの大きな矩形の内部を図11に
示すように縦に部分分割して、重複のある短冊状の部分
領域を作る。そして、各短冊状部分領域の中で、一定割
合以上の黒画素占有率を持つ高さ1画素の横方向の線状
領域を求める。さらに2つ以上の線状領域が上下に連続
していれば、それらを統合して1つにまとめた部分線分
を求める。
【0047】図12は、図11の大きな矩形の中の1つ
の短冊状部分領域を示している。図12において、幅w
の部分領域は高さ1の線状領域に細分され、一定割合以
上の黒画素を含み、上下に連続する線状領域が1つの部
分線分矩形として統合されている。図12に示すよう
に、1つの部分領域には2つ以上の部分線分矩形が存在
する場合がある。次に、このようにして求めた部分線分
矩形同士が左右で8連結の関係にあれば、それらを1つ
の線分として扱う。図13(a)、(b)、(c)は、
それぞれ8連結の関係にある2つの部分線分矩形の例を
示している。こうして、図11の場合は、大きな矩形の
上端部分から横方向の線分矩形が抽出される。
【0048】このようにして求めた線分矩形が、対象と
なる大きな矩形の横幅に比べて一定比率以上の場合に、
長い線分矩形として抽出する。この長い線分矩形の両端
と大きな矩形の両端の差が一定マージン以内にあり、か
つ、長い線分矩形の上下端のy座標と大きな矩形の上下
端のy座標の差が矩形幅の一定比率よりも小さい時に、
大きな矩形の上下に位置している横罫線と判断する。
【0049】そして、この大きな矩形の左右端付近の黒
画素を縦方向に投影した頻度分布(ヒストグラム)を求
め、そのピークの高さが矩形高さの一定比率より大きい
場合に、左右端に縦罫線もあると判断する。このとき、
この大きな矩形は枠線の外接矩形(枠矩形)と識別され
る。box の中の各大きな矩形について同様の処理を行
い、枠矩形のみをbox に残す。図14は、検出された枠
矩形を示している。
【0050】次に、ラベリングで求めた外接矩形の集合
lbtbl から枠矩形および図表と判定された矩形(図表矩
形)を除去して、結果を保存する(ステップS24)。
ここでは、まずlbtbl の中からbox に保存されている枠
矩形を除去する。さらに、次のいずれかに該当する矩形
を図表矩形と推定して、これらをlbtbl から除去する。 (a)文書画像全体の高さの1/3より大きな矩形 (b)高さがfreqの3倍より大きく、高さ/幅の比が
0.4より小さい矩形 (c)高さがfreqの3倍より大きく、文書画像全体の幅
の1/3より大きな矩形 そして、除去後の矩形集合をnewtblとして管理する。こ
の矩形集合newtblから文字列の外接矩形が抽出される。
【0051】newtbl内の矩形の中には、矩形同士が重複
またはネストしているものも含まれている。このような
矩形は1つにまとめた方が、矩形相互の位置関係が明確
になり、文字列の抽出を効率的に行うことができる。そ
こで、newtblを対象にして、矩形同士が重複またはネス
トしているものを統一して、重複/ネストを除去し、結
果をファイルlbtbl2に保存する(ステップS25)。
【0052】図15は、重複する2つの矩形の例を示し
ている。図15において、矩形21と矩形22は、それ
ぞれ右上がりの斜めの線分の外接矩形を表し、斜線部分
で互いに重複している。この場合、矩形21、矩形22
を、これらの矩形を包括する1つの矩形23にまとめ
て、重複を除去する。図16は、ネストしている複数の
矩形を示している。図16において、矩形25、26、
27は、矩形24に完全に内包されており、その矩形に
ネストしている。この場合、矩形24のみを残して、ネ
ストを除去する。
【0053】ところで、newtblの中で、1 つの矩形と重
複/ネストしている他の矩形を探索するのには、次の2
つの方法がある。 (d)1つの矩形を基準として、残りの矩形全部を探索
範囲とする。 (e)縦または横方向に、矩形の辺の中線上に頂点を持
つ二等辺三角形を作り、そのヒストグラムを作成する。
そして、ヒストグラム中のそれぞれの頻度の山を構成す
る矩形の集合(グループ)を同時に記録する。ヒストグ
ラム中で、山と山の距離が閾値より近いものを統合し、
同時に対応する矩形集合も統合する。この矩形の集合を
1つの探索範囲とし、この集合内にある矩形を基準とし
た場合は、この集合内を探索する。また、縦方向および
横方向で作成した各矩形集合の重なり部分を求めて、探
索範囲としてもよい。
【0054】図17は、(e)の方法で用いる二等辺三
角形のヒストグラムの例を示している。図17におい
て、矩形31、32の二等辺三角形36、37が1つの
山41に投影され、矩形33の二等辺三角形38が山4
2に投影され、矩形34、35の二等辺三角形39、4
0が山43に投影されている。例えば、これらの山4
1、42、43が一定距離内にある場合は、矩形31、
32、33、34、35は1つの矩形集合に統合され
る。あるいはまた、矩形31と矩形32のように、対応
する二等辺三角形が1つの山に投影されるような矩形を
1つの矩形集合にまとめてもよい。
【0055】(e)の方法によれば、限られた範囲の矩
形のみを探索すればよいので、一般に(d)の方法より
も高速処理が可能である。図18は、このようにして重
複/ネストが除去された外接矩形を示している。
【0056】次に、重複/ネスト除去後のlbtbl2に含ま
れる矩形の高さのヒストグラムを求め、高さの最頻値fr
eq2 を求める(ステップS26)。高さのヒストグラム
の作成方法およびfreq2 を求める方法は、ステップS2
2と同様である。
【0057】次に、lbtbl2から罫線矩形を抽出して、マ
ークする(ステップS27)。ここでは、lbtbl2内で、
高さがfreqの1/2より小さく、幅がfreqの3倍より大
きく、高さ/幅の比が0.1より小さい矩形を、罫線矩
形としてマークする。
【0058】次に、1つの文字列に属する複数の文字を
見つけるために、lbtbl2内の矩形相互の関係を求め、連
結関係表connect に保存する(ステップS28)。ここ
では、lbtbl2内の各矩形から上下左右に最も近い矩形を
探索し、その結果をconnectに格納する。矩形相互の関
係とは、ある基準矩形から上下左右の矩形への各ポイン
タと、上下左右の矩形から基準矩形へ向かう各ポイン
タ、および基準矩形から上下左右の矩形までの距離を意
味する。
【0059】図19は、1つの矩形を基準矩形とした場
合の矩形間の連結関係を示している。図19において、
上矩形は基準矩形の上に近接する矩形を表し、ポインタ
51、52により基準矩形と連結されている。上矩形は
基準矩形の上に近接する矩形を表し、ポインタ51、5
2により基準矩形と連結されている。下矩形は基準矩形
の下に近接する矩形を表し、ポインタ53、54により
基準矩形と連結されている。左矩形は基準矩形の左に近
接する矩形を表し、ポインタ55、56により基準矩形
と連結されている。右矩形は基準矩形の右に近接する矩
形を表し、ポインタ57、58により基準矩形と連結さ
れている。
【0060】このようなポインタを格納する連結関係表
connect の構造は、例えば図20に示すようになる。図
20の連結関係表には、基準矩形のラベル値に続いて、
上矩形へのポインタ、上矩形からのポインタ、下矩形へ
のポインタ、下矩形からのポインタ、左矩形へのポイン
タ、左矩形からのポインタ、右矩形へのポインタ、右矩
形からのポインタが格納されている。connect には、こ
れらのポインタの他に基準矩形から上下左右の各矩形ま
での距離も格納される。
【0061】connect を作成する時には、枠矩形の4辺
で連結関係が切断されるように設定しておく。これは、
後に枠線を越えて文字列を抽出しないようにするためで
ある。基準矩形に最も近い矩形を探索する場合も、ステ
ップS25で用いた(d)と(e)の2通りの方法があ
る。
【0062】次に、スキャナによる読み取り時のノイズ
に相当するノイズ矩形を識別し、それと他の矩形との横
の関係を切断する(ステップS29)。ここでは、矩形
高さ、幅がfreq2 の1/4より小さい矩形、または、高
/幅の比が0.1より小さいか10より大きくかつ上下
の矩形との距離が一定値より大きい矩形を、ノイズ矩形
と判定する。そして、その矩形と他の矩形との間の横方
向のポインタを削除して、連結関係を切断する。
【0063】次に、隣接する矩形間の距離が離れている
場合、または隣接する矩形間で大きさに差がある場合、
それらの矩形の連結関係を切断する(ステップS3
0)。ここでは、基準矩形が次のいずれかの条件に該当
する場合に、隣の矩形との連結関係を切断する。 (f)基準矩形と隣の矩形との距離が、freq2 の3倍よ
りも大きい。 (g)基準矩形または隣の矩形が、freq2 の3倍以上の
大きさを持つ。 (h)隣の矩形がfreq2 の2倍より大きい。
【0064】次に、文字矩形の集合lbtbl2とその連結関
係表connect から、文字列を抽出し、文字列の外接矩形
(文字列矩形)を保存する(ステップS31)。ここで
は、まず、lbtbl2内の矩形のうち、その矩形へ左から向
かうポインタが無いもの、つまり、左側に矩形が無いも
のを開始矩形とする。次に、その矩形の識別番号(例え
ばラベル値)を右側にある他の矩形へ順次伝搬させてい
き、同じ識別番号を付加した複数の矩形を統合して、そ
れらの外接矩形を文字列矩形とする。この時、開始矩形
の識別番号を、抽出した文字列の識別番号(ラベル値)
としてline_lab に保存しておく。そして、右側に連結
する矩形が無くなったら伝搬を終了する。
【0065】図21は、こうして抽出された文字列矩形
の例を示している。図21では、横に並んだ4つの文字
矩形がラベル値L1を付加されて、1つの文字列矩形に
統合されている。この場合、その文字列矩形のラベル値
もL1になる。
【0066】もし、右側の矩形の識別番号が、既にline
_lab 内にある文字列識別番号に一致する場合は、これ
まで伝搬してきた矩形の集合の識別番号を、右側の文字
列識別番号へ置き換える。そして、置き換え前の文字列
の識別番号はline_lab から除去しておく。
【0067】この処理の後、左から向かうポインタが無
い矩形を再び検出し、これを基準矩形とする。その基準
矩形の左側に矩形がある場合は、その左側の矩形は既に
抽出された文字列の識別番号に組み込まれているはずで
ある。そこで、その番号を基準矩形より右にある矩形に
対して、右に連結した矩形が無くなるまで伝搬させ、識
別番号を置き換える。そして、line_lab から置き換え
前の矩形の番号を除去する。
【0068】例えば、図22に示すように、1つの文字
列矩形の中に他の文字列矩形が存在する場合を考える。
左からのポインタを持たない矩形64を基準矩形とし
て、その左へのポインタを辿ると左側に矩形61がある
ことが分かる。矩形61は既にラベル値L0を持ってい
るので、この値を矩形64、65へ伝搬させて、それら
のラベル値をL0に置き換える。こうして、ラベル値L
5はline_lab から除去され、矩形61、62、63、
64、65は1つの文字列矩形に統合される。
【0069】ここまでの処理において、同一文字列と識
別された各矩形には同じ文字列識別番号がついている。
そこで、全部の矩形を走査して、同じ文字列識別番号が
付いている複数の矩形の座標から最左端、最右端、最上
端、最下端を求め、それらを文字列矩形の外周を構成す
る座標として、ファイルlineに保存する。また、抽出し
た文字列の数をmaxline として保存する。
【0070】以上で、文字列抽出処理が終了する。図2
3は、こうして抽出された文字列矩形を示している。次
に、プロセッサ14は、抽出された文字列矩形に対し
て、図3のステップS3からS7までの処理に対応する
文字列矩形加工処理を施す。文字列矩形加工処理におい
ては、各文字列矩形の下線属性、枠付き属性、罫線属性
等の属性を抽出し、それらを記録する。後のポイント計
算において、下線属性や枠付き属性を持つ文字列矩形に
はより高いポイントが付与され、罫線属性を持つ文字列
矩形にはより低いポイントが付与される。
【0071】図24は、この文字列矩形加工処理のフロ
ーチャートである。図24において処理が開始される
と、まず横幅が小さい文字列矩形や縦長の文字列矩形を
ノイズ文字列矩形として除去し、結果を保存する(ステ
ップS41)。ここでは、横幅がfreq/4より小さい文
字列矩形、または、高さがfreq/4より小さくかつ高さ
/幅の比が0.1より大きい文字列矩形をノイズとみな
して除去し、残ったものをファイルline2 に保存する。
図25は、ノイズ除去後の文字列矩形を示している。
【0072】次に、line2 内の文字列矩形間の接続関係
を表す連結関係表 str_connを作る(ステップS4
2)。ここでの接続関係は、図19に示した文字矩形間
の連結関係と同様のものを表し、 str_connは図20に
示した連結関係表と同様の構造を持つ。
【0073】次に、位置関係や高さが一定の条件を満た
す2つ以上の文字列を統合してより長い文字列を求め、
結果を保存する(ステップS43)。ここでは、次のい
ずれかに該当する場合に、それらの文字列矩形を1つに
統合し、さらに大きな文字列矩形を求める。 (i)文字列矩形間の距離が文字列矩形の高さより小さ
い場合 (j)横方向に重複していて、高さがほぼ等しい文字列
矩形 (k)矩形高さの最頻値freq位の高さで、他の文字列矩
形に完全に含まれる文字列矩形 (l)3連の文字列矩形で両端の矩形のy座標がほぼ等
しく、それらの間にある矩形だけが異なる場合 図26(a)、(b)、(c)、(d)は、それぞれ
(i)、(j)、(k)、(l)の場合に統合されてで
きる文字列矩形の例を示している。このような処理を文
字列矩形の数が変化しなくなるまで繰り返し、残った文
字列矩形をファイルline3 に保存する。図27は、こう
して文字列矩形を統合した結果を示している。図25と
図27を比べると、例えば、文字列矩形「ソフトウェア
販推レポート」と「送付表」とが、文字列矩形「ソフト
ウェア販推レポート 送付表」に統合されていることが
分かる。
【0074】次に、文字列の高さのヒストグラムを作成
し、文字列高さの最頻値 str_freqを求める(ステップ
S44)。ここでは、文字列矩形の高さのヒストグラム
を、図7と同様にして作成する。そのヒストグラムか
ら、freq2 以上で最大頻度を与える高さを求め、それを
文字列矩形の高さの最頻値 str_freqとする。もし、最
大頻度を与える高さが複数個あったら、freq2 に近い方
の高さを採用する。文字列矩形の高さのヒストグラムに
おいて、 str_freqから連続する頻度分布を見ていった
とき、 str_freqの両側に頻度値が0になる位置があ
る。これらの頻度値が0になる位置の直前の高さのう
ち、小さい方をst_h 、大きい方をen_h とする。
【0075】次に、ノイズを除いた文書領域を求めて、
その領域の座標を保存する(ステップS45)。ここで
は、文書画像の左右端にある一定領域内に一部分でも掛
かるような文字列矩形は対象外として、高さがst_h 以
上、en_h 以下で、かつ、横幅が str_freq以上で、か
つ、高さ/幅の比が0.5未満の文字列矩形が存在する
範囲を文書領域とする。そして、その領域の左端のx座
標、上端のy座標、右端のx座標、下端のy座標を、そ
れぞれst_x 、st_y 、en_x 、en_y として保存す
る。左右端の一定領域を無視するのは、例えばA4サイ
ズの画像領域にB5版の本の1ページ分の画像を読み込
んだような場合に、文書画像の左右に存在する隣のペー
ジの文字列矩形を、ノイズとして除去するためである。
図28は、こうして求められた文書領域を示している。
【0076】次に、line3 内の文字列矩形を縦方向(y
座標)で並べ替える(ステップS46)。次に、line3
内の文字列矩形間の連結関係を表す連結関係表 str_co
nn2 を作る(ステップS47)。この時、枠矩形を跨い
で連結する関係がないようにする。
【0077】次に、各文字列矩形が枠矩形に完全に含ま
れているかどうかをチェックし、含まれている場合には
その文字列矩形に枠付きフラグを立てる(ステップS4
8)。ここでは、line3 内の各文字列矩形に対して、そ
れがbox に保存された枠矩形に完全に内包される場合に
枠付き矩形とみなし、その文字列矩形に枠付きフラグを
立てる。枠付き矩形の判定基準としては、枠矩形の内部
にある文字列矩形をすべて枠付き矩形とみなす場合と、
枠矩形と内部の文字列矩形の座標値が閾値以上に離れて
いない場合のみ枠付き矩形とみなす場合とがある。
【0078】次に、line3 内の文字列矩形の中で、罫線
矩形と判断したものに罫線フラグを立てる(ステップS
49)。ここでは、 str_freqの1/2以下で、高さ/
幅の比が0.8より小さいか、または12.5より大き
いものを罫線矩形とみなして、その文字列矩形に罫線フ
ラグを立てる。
【0079】次に、line3 内の文字列矩形を調べてその
直下に下線らしい罫線矩形(下線矩形)が有る場合、ま
たは、文字列矩形内部を走査して内部に下線が有る場合
は、その文字列矩形に下線フラグを立てる(ステップS
50)。ここでは、罫線矩形の上に文字列矩形があり、
それらの間の距離が str_freqより小さい範囲にあり、
かつ、上の文字列矩形と罫線矩形の左右端の差が str_
freq以下のとき、上にある文字列矩形に下線フラグを立
てる。図29は、下線矩形の例を示している。図29に
おいて、文字列矩形71の下には罫線フラグが立てられ
た横長の罫線矩形72があるため、これが下線矩形とみ
なされ、文字列矩形71には下線フラグが立てられる。
【0080】また、幅または高さが str_freqの1/2
以上の文字列矩形を対象として、後に述べる方法で線分
を抽出する。そして、文字列矩形内で抽出した線分が、
文字列矩形の左右端から一定画素数の範囲にあり、か
つ、線分の高さが矩形高さのWAKUTHIN倍(例えば0.3
倍)以下で、かつ、線分の下のy座標が矩形の下のy座
標から str_freq/2だけ上の位置より下にあり、か
つ、線分の上のy座標と矩形の上のy座標の差が str_
freq−2よりも大きく、かつ、線分の下のy座標と矩形
の下のy座標の差が線分の上のy座標と矩形の上のy座
標の差よりも小さい場合に、この線分を文字列矩形内の
下線として識別し、その文字列矩形に下線フラグを立て
る。
【0081】こうして、文字列加工処理を終了する。図
30は、枠付きフラグ、罫線フラグ、下線フラグを立て
る処理を終えた後の文字列矩形を示している。図30に
おいて、L0〜L54は、各文字列矩形に付加されたラ
ベル値を表している。これらの文字列矩形のうち、ラベ
ル値L1、L2、L16を持つ文字列矩形が枠付き矩形
に相当する。
【0082】次に、図24のステップS50で文字列矩
形から線分を抽出する方法を詳細に説明する。図31
は、線分抽出処理のフローチャートである。図31にお
いて処理が開始されると、プロセッサ14は、まず文字
列矩形を一定画素幅wの短冊状の部分領域に分割する
(ステップS61)。この部分領域は、図11の場合と
同様に半分ずつ重なるような領域とする。
【0083】次に、各部分領域の内部を上から下へ順
に、縦1画素×横w画素の線状領域毎に注目していく。
ある線状領域の内部の黒画素数が閾値よりも大きい場合
に、この線状領域の内部が全て黒画素であるとみなし、
これを黒領域とする。黒領域の直下に別の黒領域がある
場合は、2つの黒領域は連続しているものと判断し、1
つの黒領域(部分線分矩形)として扱う(ステップS6
2)。すなわち、黒領域を表す座標は、左右は部分領域
の左右の座標、上は、上から順に走査していったときに
白領域から黒領域へ変化するときの黒領域のy座標、下
は、黒領域から白領域に変化するときの黒領域のy座標
となる。この結果、1つの部分領域から1つあるいは複
数個の黒領域の座標が求められる。この操作を全部分領
域で行い、黒領域の集合を求める。
【0084】次に、黒領域の中で高さが閾値より大きい
ものをワイルドカードと呼ぶことにする(ステップS6
3)。ワイルドカードは、例えば、文字列矩形内で文字
が潰れて黒画素の塊になっているような場合に発生す
る。図32は、部分領域に分割された文字列矩形と、そ
の中のワイルドカードの例を示している。また、図33
は、1つの部分領域の中の線状領域とワイルドカードの
例を示している。図33において、部分領域は15個の
線状領域からなり、それらのうち上から12個の線状領
域がワイルドカードを形成している。
【0085】次に、黒領域の集合を走査し、重複または
隣接するものを統合して横長の矩形領域を求める(ステ
ップS64〜S69)。まず、最初に黒領域の集合から
1つの黒領域を選び、それに注目する(ステップS6
4)。その黒領域がワイルドカード矩形でない場合は、
その黒領域の上下端の座標と左右端の座標を、横長の矩
形領域の座標として保存する。1回でも黒領域の集合か
ら取り出した黒領域は、使用済みフラグを立てて二度と
使用しない。
【0086】次に、黒領域の集合から1つの黒領域を取
り出し、既に使用済みのものでなければ、記憶した横長
矩形の座標と比較して、その右側に隣接または重複する
関係にあるかどうかをチェックし、そのような関係にあ
る黒領域を選ぶ(ステップS65)。そして、その黒領
域がワイルドカードかどうかを判定し(ステップS6
6)、ワイルドカードの場合はその高さを無視して横方
向に領域を統合する(ステップS67)。このとき、記
憶している横長矩形の右端の座標を、そのワイルドカー
ド矩形の右端の座標で置き換える。
【0087】右側に隣接または重複する黒領域がワイル
ドカードでない場合は、両方の矩形の上下座標を比較
し、それらの差が閾値以内にあれば、縦方向と横方向に
領域を統合する(ステップS68)。このとき、右側の
ワイルドカードでない黒領域の上下座標を新しい横長の
矩形領域の上下座標とする。また、黒領域の右端の座標
を横長矩形の右端の座標とする。そして、黒領域をすべ
て調べたかどうか判定し(ステップS69)、未処理の
黒領域があれば、ステップS65以降の処理を繰り返
す。さらに、注目する黒領域を他のものに変えて(ステ
ップS70、No)、ステップS64以降の処理を繰り
返し、すべての黒領域を取り出すと処理を終了する。
【0088】このように、図31の線分抽出処理におい
ては、まず矩形内部を適当な長さの重複がある縦短冊に
分割し、1つの短冊内部で一定の黒画素占有率を満たす
部分を抽出して部分線分矩形(黒領域)で表現し、それ
らを保存する。ここまでは、図11に示した線分の抽出
方法と同じである。このとき、保存された部分線分矩形
は、下線の一部である高さの小さい矩形の場合もある
が、文字が潰れてそれが下線と接触しているときには、
図32のワイルドカードのような高さの大きな矩形の場
合もある。これらを横方向に走査していき、全体的な1
つの長い線分矩形として抽出する。図32においては、
文字列矩形内のワイルドカードの高さは無視されて、他
の部分線分矩形と統合され、文字列矩形の下端部分に横
長の線分矩形が抽出されている。
【0089】図34、35、36は、線分抽出処理のプ
ログラムコードの例を示している。図35は、図34の
C1の位置のαに相当する部分を示しており、図36
は、図34のC2の位置のβに相当する部分を示してい
る。また、図37、38、39は、図34、35、36
の処理の概要を示すフローチャートである。この処理に
おいては、文字が潰れてできた大きな黒画素塊をワイル
ドカード矩形として扱い、その前後に8連結で接続され
る横長の矩形に注目する。そして、ワイルドカード矩形
を挟んでお互いに8連結の関係にある矩形を統合してい
き、1つの横に長い矩形を線分候補の罫線として求め
る。以下、図37、38、39を参照しながら、具体的
な処理を説明する。
【0090】図37において処理が開始されると、プロ
セッサ14は、まず各部分線分矩形の高さを調べる(ス
テップS71)。そして、それが文字列矩形の高さ×
0.3以上であれば、ワイルドカード矩形としてマーク
する(ステップS72)。このとき、その部分線分矩形
の識別変数useを9とおくことにより、ワイルドカー
ド印をつける。それ以外の部分線分矩形は普通の矩形
(スタンダード矩形)として、use=0とおく(ステ
ップS73)。そして、すべての部分線分矩形をマーク
したかどうかを判定し(ステップS74)、まだ部分線
分矩形が残っていれば、ステップS71以降の処理を繰
り返す。
【0091】すべての部分線分矩形をマークし終える
と、1つの矩形をカレント矩形iとして取り出し、xl
f=カレント矩形iの左端座標、xr=カレント矩形i
の右端座標、yup=カレント矩形iの上端座標、yb
l=カレント矩形iの下端座標、line_start
y=yup、line_endy=yblとおく(ステ
ップS75)。そして、カレント矩形iのuseが0ま
たは9であるかどうか調べる(ステップS76)。
【0092】カレント矩形iのuseが0または9であ
れば、次にuse=0かどうかを判定する(ステップS
77)。use=0であれば、standard_st
=yup、standard_en=ybl、b_us
e=0、use=1、height=ybl−yup+
1とおく(ステップS78)。b_use=0は、カレ
ント矩形iがワイルドカードではなく、スタンダードと
して設定されていることを意味し、use=1はカレン
ト矩形iが使用済みであることを意味する。ステップS
76でuse=0でなければ、standard_st
=0、standard_en=0、b_use=9、
height2=ybl−yup+1とおく(ステップ
S79)。b_use=9は、カレント矩形iがワイル
ドカードであるため、スタンダードとして設定されない
ことを意味する。
【0093】次に、他の部分線分矩形をカレント矩形k
として取り出し、rxlf=カレント矩形kの左端座
標、rxr=カレント矩形kの右端座標、ryup=カ
レント矩形kの上端座標、rybl=カレント矩形kの
下端座標とおく(図38、ステップS80)。そして、
カレント矩形iがスタンダードとして設定されているか
どうか、すなわち、b_use=0であるかどうかを調
べる(ステップS81)。b_use=0であれば、次
に、カレント矩形kのuseが9であるかどうかを調べ
る(ステップS82)。ここで、use=9の場合は、
カレント矩形iがスタンダードで、カレント矩形kがワ
イルドカードであることを意味をする。
【0094】use=9のとき、xr+1≧rxlf、
xr<rxr、ybl+1≧ryup、およびyup−
1≦ryblが成り立つかどうかを判定する(ステップ
S83)。これらが成り立つ時、カレント矩形kがカレ
ント矩形iの右側にあり、両者が横と縦に1画素(1ド
ット)以上の重なりを有することを意味する。これらの
条件が成り立つ時、xr=rxrとおいて、カレント矩
形iの右端をカレント矩形kの右端まで延長する(ステ
ップS84)。
【0095】ステップS82でuse=9でないとき、
次に、use=0であるかどうかを調べる(ステップS
85)。ここで、use=0の場合は、カレント矩形i
がスタンダードで、カレント矩形kがワイルドカードで
ないことを意味をする。use=0のとき、xr+1≧
rxlf、xr<rxr、ybl+1≧ryup、およ
びyup−1≦ryblが成り立ち、かつ、カレント矩
形kの高さが一定範囲内かどうかを判定する(ステップ
S86)。
【0096】これらの条件が成り立つ時、xr=rx
r、yup=ryup、ybl=rybl、use=
2、height=rybl−ryup+1とおく(ス
テップS87)。これは、カレント矩形iの右端をカレ
ント矩形kの右端まで延長し、上下端の座標をカレント
矩形kのものに置き換えることを意味する。ここで、u
se=2はカレント矩形kが使用済みであることを意味
する。次に、ryup<line_startyが成り
立つかどうかを判定し(ステップS88)、成り立てば
line_starty=ryupとおく(ステップS
89)。さらに、rybl>line_endyが成り
立つかどうかを判定し(ステップS90)、成り立てば
line_endy=ryblとおく(ステップS9
1)。
【0097】これらの処理の後、次にb_use=9か
どうかを判定する(図39、ステップS92)。ステッ
プS81でb_use=0でないとき、あるいはステッ
プS83、S85、S86、S88、S90で判定結果
がNoのときは、直ちにステップS92以降の処理に移
る。
【0098】b_use=9であれば、次に、カレント
矩形kのuseが9であるかどうかを調べる(ステップ
S93)。ここで、use=9の場合は、カレント矩形
iとカレント矩形kの両方がワイルドカードであること
を意味をする。use=9であれば、xr+1≧rxl
fおよびxr<rxrが成り立つかどうかを判定する
(ステップS94)。これらが成り立つ時、カレント矩
形kがカレント矩形iの右側にあり、両者が横と縦に1
ドット以上の重なりを有するので、xr=rxrとおい
て、カレント矩形iの右端をカレント矩形kの右端まで
延長する(ステップS95)。
【0099】ステップS93でuse=9でないとき、
次に、use=0であるかどうかを調べる(ステップS
96)。ここで、use=0の場合は、カレント矩形i
がワイルドカードで、カレント矩形kがワイルドカード
でないことを意味をする。use=0のとき、xr+1
≧rxlfおよびxr<rxrが成り立つかどうかを判
定する(ステップS97)。これらの条件が成り立つ
時、xr=rxr、yup=ryup、ybl=ryb
l、use=2、line_starty=ryup、
line_endy=rybl、height=ryb
l−ryup+1、standard_st=ryu
p、standard_en=ryblとおく(ステッ
プS98)。これは、カレント矩形iの右端をカレント
矩形kの右端まで延長し、上下端の座標をカレント矩形
kのものに置き換えることを意味する。また、use=
2はカレント矩形kが使用済みであることを意味する。
【0100】次に、カレント矩形kとしてすべての部分
線分矩形を取り出したかどうかを判定する(ステップS
99)。ステップS92でb_use=9でないとき、
あるいはステップS94、S96、S97で判定結果が
Noのときは、直ちにステップS99以降の処理に移
る。ステップS99で、残っている部分線分矩形があれ
ばステップS80以降の処理を繰り返す。
【0101】すべての部分線分矩形について処理が終わ
れば、b_use=9であるかどうかを判定し(ステッ
プS100)、b_use=9であれば、height
=height2とおく(ステップS101)。ステッ
プS100でb_use=9となるのは、カレント矩形
iとそれに連結するすべての矩形がワイルドカードであ
った場合に相当する。
【0102】次に、カレント矩形iとしてすべての部分
線分矩形を取り出したかどうかを判定し(ステップS1
02)、残っている部分線分矩形があればステップS7
5以降の処理を繰り返す。ステップS76でカレント矩
形iのuseが0または9でない場合は、取り出した部
分線分矩形が既に使用済みであることを意味するので、
直ちにステップS102の処理に移り、次の部分線分矩
形を取り出す。
【0103】すべての部分線分矩形について処理が終わ
れば、xlf、xr、line_starty、lin
e_endyを、それぞれ抽出した線分矩形の左端、右
端、上端、下端の座標としてファイルyokolineに保存し
(ステップS103)、処理を終了する。ここで、yoko
lineは、1つの文字列矩形から抽出された1つ以上の線
分矩形を格納するメモリ領域に対応する。
【0104】図24のステップS50では、以上のよう
にして文字列矩形から線分が抽出され、さらにそれが下
線矩形に相当すれば、その文字列矩形に下線フラグが立
てられる。こうして文字列矩形加工処理が終了すると、
プロセッサ14は、次に図3のステップS8〜S10の
処理に相当するタイトル・宛先・発信元抽出処理を行
う。図40は、タイトル・宛先・発信元抽出処理のフロ
ーチャートである。
【0105】図40において処理が開始されると、まず
文字列矩形の相対的な位置、高さ、枠/下線情報を使っ
て、タイトルらしさのポイント計算を行う(ステップS
111)。各文字列矩形に対するタイトルらしさのポイ
ント付与の方針は、概ね次の通りである。 (m)プラスポイント 文字列の属性(枠内、下線有り):高得点 文字列のサイズ(高さ、幅):大きさに依存する得点 文字列の形(縦横比):一定以上であれば得点 文字列の相互位置関係(上下間隔、左の矩形の有無):
孤立性が高いほど高得点 文書内の位置(中央、上など):中央、上は高得点、上
下の位置の違いには相対的に少ない得点差 (n)マイナスポイント 文字列の属性(文字列矩形内が1つの文字矩形からな
る):大減点 文字列の相互位置関係(上下近接、重複、上の矩形と左
揃い、上の矩形がオーバラップ):大減点 文書内の位置(右側にある):大減点 これらの方針に従い、各文字列矩形に例えば以下の条件
で得点を与える。 (o)罫線矩形は得点0 (p)高さが str_freqの1/2未満は得点0 (q)幅/高さの比が3未満は得点0 (r)横幅が str_freqの4倍未満は得点0 (s)(o)、(p)、(q)、(r)の条件に該当す
る文字列矩形以外のものについて、以下の条件で得点を
与える。
【0106】[#1]縦横比:幅/高さの比が3の時、
20点 [#2]上下近接:互いに重複している場合を除き、あ
る文字列矩形と、上下に隣接する2つの文字列矩形との
間隔が両方とも str_freq/2以下の時、−40点 [#3]片方近接:上または下の文字列矩形だけが16
ドットより近接している場合、−20点 [#4]上下間隔:上下の文字列矩形との間隔が str_
freqより大きい場合、20点 [#5]重複:他の文字列矩形と重複がある場合、−4
0点 [#6]中心:文字列矩形の横方向(x方向)の中心座
標が、(文書領域の中心座標)±(文書領域幅の40
%)以内に入っている場合、30点 [#7]右側:文字列矩形の中心座標が、文書領域の左
から60%の位置より右にあり、かつ、(文書領域の中
心座標−文字列矩形の左端座標)が文書領域幅の1/6
以下の場合、30点 [#8]高さ1:文字列矩形の高さが str_freqの0.
5倍から1.5倍の間にある場合、20点 [#9]高さ2:文字列矩形の高さが str_freqの1.
5倍と3倍の間の場合30点 [#10]高さ3:文字列矩形の高さが str_freqの3
倍より大きい場合、40点 [#11]高さ4:文字列矩形の高さが str_freqの3
倍より大きく、かつ、文字列矩形の下座標が文書領域の
上から1/3以内に入る場合、10点 [#12]横幅:文字列矩形の幅が文書領域幅の0.4
倍より大きい場合、10点 [#13]下線:文字列矩形に下線フラグがある場合、
30点 [#14]枠:文字列矩形に枠付きフラグがある場合、
最大30点を与え、その横幅に比例して減少させる。
【0107】[#15]左に矩形が無い:左側に同じよ
うな座標の文字列矩形が無い場合、または、左側に str
_freqの3倍より小さい文字列矩形がある場合、20点 [#16]y座標:最も上にある文字列矩形が20点、
そこから下に向かって1点づつ減少した得点 [#17]左端揃い:文字列矩形の上に左端が近い他の
文字列矩形があると−30点 [#18]オーバラップ(overlap ):文字列矩形の上
に左端および右端が近い他の文字列矩形がある場合、ま
たは、上の文字列矩形の方が左端右端とも文書領域の端
に近い場合、−30点 [#19]黒領域:大きな文字列矩形で、その内部が1
つの黒画素連結領域で成り立っている場合、−40点 図41は、[#18]のオーバラップしている文字列矩
形の例を示している。図41(a)においては、上の文
字列矩形と下の文字列矩形の左右端が近接しており、図
41(b)においては、上の文字列矩形の左右端の方
が、下の文字列矩形の左右端より文書領域の端に近い。
このような場合、下の文字列矩形はタイトルである可能
性が低いと考えられる。
【0108】上記(o)、(p)、(q)、(r)、
(s)のポイントを、文字列矩形毎に合計し、メモリ1
5に保存する。次に、ポイントが高い順にタイトル候補
として抽出し、結果を保存する(ステップS112)。
ここでは、line3 内の全文字列矩形を対象にして、それ
らをポイントが高い順に並び替え、その結果をファイル
title に格納する。title 内には、タイトル候補の第1
位の文字列矩形から順に、全文字列矩形が格納される。
これにより、第1候補の文字列矩形がタイトル矩形とし
て抽出される。次に、タイトル候補の第1位の文字列矩
形から見た相対的位置関係の情報を使って宛先の文字列
矩形(宛先矩形)を抽出し、保存する(ステップS11
3)。また、その相対的位置関係の情報または宛先矩形
から見た相対的位置関係の情報を使って発信元情報の文
字列矩形(発信元情報矩形)を抽出し、それを保存して
(ステップS114)、処理を終了する。発信元情報に
は、文書の発信日、発信者名、レポート番号等が含まれ
る。
【0109】ステップS113においては、まずタイト
ルの第1候補の文字列矩形のy方向の位置を求めて、そ
れが最も上であった場合は第1の宛先抽出処理を行い、
それ以外の場合は第2の宛先抽出処理を行う。図42
は、第1の宛先抽出処理のフローチャートであり、図4
3は、第2の宛先抽出処理のフローチャートである。
【0110】まず、第1の宛先抽出処理について説明す
る。図42において処理が開始されると、プロセッサ1
4は、まずタイトル矩形より下にある文字列矩形の中か
らキー宛先矩形を抽出し、それを保存する(ステップS
121)。ここでは、タイトル矩形より下にあり、高さ
がst_h の0.6倍からen_h の1.4倍の間にある文
字列矩形であって、そのx方向の中心座標がタイトル矩
形の中心座標よりも左にあり、幅/高さの比が3より大
きいものを、キー宛先矩形として抽出する。そして、こ
のキー宛先矩形より上にある文字列矩形の中に、x方向
の中心座標がタイトル矩形の中心座標よりも右にあるよ
うな、発信元情報と思える文字列矩形がない場合に、抽
出したキー宛先矩形をファイルtoに保存する。
【0111】次に、キー宛先矩形の右にある文字列矩形
を宛先矩形として追加する(ステップS122)。ここ
では、キー宛先矩形の右にあり、そのy座標が(キー宛
先矩形のy座標)±(高さの0.2倍)の範囲内に収ま
っている文字列矩形を宛先矩形とみなし、キー宛先矩形
との重複登録を避けて、toに登録する。
【0112】次に、上下に宛先矩形がある文字列矩形を
宛先矩形として追加する(ステップS123)。ここで
は、これまで抽出したto内の宛先矩形の高さの平均値
(平均高さ)を求める。そして、タイトル矩形より下の
全文字列矩形の内、これまで抽出された宛先矩形でな
く、上または下が宛先矩形で、左端の座標が上または下
の宛先矩形の左端の座標と一定誤差以内で一致し、か
つ、高さが平均高さの2倍未満か、上または下の宛先矩
形までの距離が平均高さの1/2未満のものを、宛先矩
形としてtoに追加登録する。このような処理を宛先矩形
数が変化しなくなるまで繰り返す。
【0113】こうして、第1の宛先抽出処理が終了し、
to内の文字列矩形が宛先矩形として抽出される。次に、
第2の宛先抽出処理について説明する。図43において
処理が開始されると、プロセッサ14は、まずタイトル
矩形より上にある文字列矩形の中からキー宛先矩形を抽
出し、それを保存する(ステップS131)。ここで
は、タイトル矩形より上にあり、高さがst_h の0.6
倍からen_h の1.4倍の間にある文字列矩形であっ
て、そのx方向の中心座標がタイトル矩形の中心座標よ
りも左にあり、幅/高さの比が3より大きいものを、キ
ー宛先矩形として抽出する。そして、抽出したキー宛先
矩形をファイルtoに保存する。
【0114】次に、キー宛先矩形の右にある文字列矩形
を宛先矩形として追加する(ステップS132)。ここ
では、キー宛先矩形の右一定距離以内にあり、そのy座
標が(キー宛先矩形のy座標)±(高さの0.2倍)の
範囲内に収まっている文字列矩形を宛先矩形とみなし、
キー宛先矩形との重複登録を避けて、toに登録する。
【0115】次に、上下に宛先矩形がある文字列矩形を
宛先矩形として追加する(ステップS133)。ここで
は、これまで抽出したto内の宛先矩形の平均高さを求め
る。そして、タイトル矩形より下の全文字列矩形の内、
これまで抽出された宛先矩形でなく、上または下が宛先
矩形で、左端の座標が上または下の宛先矩形の左端の座
標と一定誤差以内で一致し、かつ、高さが平均高さの2
倍未満か、上または下の宛先矩形までの距離が平均高さ
の1/2未満のものを、宛先矩形としてtoに追加登録す
る。このような処理を宛先矩形数が変化しなくなるまで
繰り返す。
【0116】こうして、第2の宛先抽出処理が終了し、
to内の文字列矩形が宛先矩形として抽出される。図40
のステップS114では、タイトル矩形のy方向の位置
を求めて、それが最も上であった場合は、第1の発信元
情報抽出処理を行い、それ以外の場合は第2の発信元情
報抽出処理を行う。
【0117】第1の発信元情報抽出処理においては、タ
イトル矩形より下の文字列矩形であって、宛先矩形でな
いものを対象にして、高さがst_h の0.6倍からen_
h の1.4倍の間にあり、かつ、x方向の中心座標がタ
イトル矩形のそれよりも右にあるものを、宛先矩形とし
て抽出し、ファイルfromに保存する。また、第2の発信
元情報抽出処理においては、タイトル矩形より上の文字
列矩形であって、宛先矩形でないものを対象にして、第
1の発信元情報抽出処理と同様の文字列矩形を宛先矩形
として抽出し、ファイルfromに保存する。こうして、fr
om内の文字列矩形が発信元情報矩形として抽出される。
【0118】第1および第2の発信元情報抽出処理は、
第1および第2の宛先抽出処理に比べて簡単になってい
るが、宛先抽出処理と同様に、一定の条件を満たす他の
文字列矩形をさらに発信元情報矩形に加えるようにして
もよい。
【0119】図44は、タイトルと宛先/発信元情報の
第1の配置を示している。図44においては、タイトル
矩形が最も上にあるため、第1の宛先抽出処理および第
1の発信元情報抽出処理が適用される。図45、46、
47は、それぞれタイトルと宛先/発信元情報の第2、
第3、第4の配置を示している。これらの配置において
は、タイトル矩形が最も上ではないので、第2の宛先抽
出処理および第2の発信元情報抽出処理が適用される。
また、図48は、複数の宛先/発信元情報の例を示して
いる。図48においても、第2の宛先抽出処理および第
2の発信元情報抽出処理が適用される。
【0120】図45、47、48のような配置の場合
は、第2の発信元情報抽出処理を行うと、タイトル矩形
より下にある発信元情報矩形が抽出されない。そこで、
タイトル矩形が最も上にない場合でも、第1の発信元情
報抽出処理を行う構成としてもよい。また、第1および
第2の発信元情報抽出処理を併用してもよい。
【0121】図49は、タイトル・宛先・発信元抽出処
理により生成されたファイルtitle、to、fromの内容を
示している。図49においては、文字列矩形「ソフトウ
ェア販推レポート 送付表」がタイトル矩形として抽出
され、それに続く左揃いの文字列矩形が複数の宛先矩形
として抽出されている。また、右下の数字が発信元情報
として抽出されている。
【0122】図50は、タイトル・宛先・発信元抽出処
理による他の抽出結果を示している。図50において
は、文字列矩形「外部発表の受付状況について(送
付)」がタイトル矩形として抽出され、その左上にある
文字列矩形が宛先矩形として抽出されている。また、タ
イトル矩形の右上の複数の文字列矩形が発信元情報とし
て抽出されている。
【0123】こうして、抽出されたタイトル矩形、宛先
矩形、および発信元情報矩形は、図3のステップS11
の認識処理により文字列として認識される。このとき、
各認識対象の矩形から1文字ずつ文字が切り出され、各
文字毎に文字認識が行われる。そして、認識結果は、例
えば、電子ファイリング装置11内の画像ファイルのキ
ーワードとして用いられる。
【0124】以上の実施形態において、図31の線分抽
出処理は、図24のステップS50の下線抽出処理のみ
ならず、図3のステップS6で大きな矩形から横線分を
抽出する際にも適用できる。これにより、大きな矩形内
のワイルドカードの高さを無視して横方向の線分矩形を
抽出し、それを一部分とする枠線を識別することができ
る。
【0125】ところで、図3から図50までで説明した
実施形態では、表の外部にある領域からタイトルを抽出
する技術について記述されている。表の内部にタイトル
がある場合には、図5のステップS24で表矩形が処理
対象から除外されているため、表内のタイトルを抽出す
ることができない。
【0126】一般に表を含む文書においては、その表の
外に文書全体のタイトルがあることが多いが、会社内の
文書の中には、定型の事務文書等のように表の内部にタ
イトルがあるものもある。また、表の外にタイトルがあ
っても、それが「議事録」などのような一般的な文書名
で、電子ファイリングシステムの検索時に必要な文書を
特定できるキーワードとなるタイトルは表内の1つの欄
内に記されていることもある。
【0127】このような場合に、文字認識などの処理時
間のかかる技術を使わずに、表内の有効なタイトル部分
を高速に抽出することが望まれる。以下では、表を含む
一般文書の文書画像から、表内にある「表題」や「会社
名」のようなタイトルらしい欄の名称を表現する部分
(項目部分)と、項目の具体的な内容を表すタイトル部
分とを抽出する実施形態を説明する。
【0128】図51は、表形式の社内文書の例を示して
いる。図51の表形式文書では、表罫線で囲まれた表内
の左上にある「表題」が項目部分に相当し、その右にあ
る「マルチメディアとパターン認識シンポジウム」がタ
イトル部分に相当する。このように、横書き文書の場合
には、表内のタイトル部分は、通常、項目部分の右側に
あると考えてよい。
【0129】図52は、図2のタイトル抽出システムに
よる表内タイトル抽出処理のフローチャートを示してい
る。図52の処理においては、前提条件として横書き文
書を対象としているが、図3の処理と同様に、縦書き文
書にも対応可能である。
【0130】図52において処理が開始されると、光電
変換装置12が文書を読み取り、文書画像としてメモリ
15に格納する(ステップS141)。ここでも、図3
のステップS1と同様にして、原画像を圧縮画像に変換
して保存する。図51の文書から作成された圧縮画像は
図53のようになる。
【0131】次に、プロセッサ14が、文書画像にラベ
リング処理を施し、矩形高さの最頻値を求めて、それを
もとに大きな矩形を抽出する(ステップS142)。こ
こでの処理は、図5のステップS21、S22、S23
の処理と同様である。ただし、枠矩形の抽出は行ってお
らず、ファイルbox に保存される矩形は閾値th_large
より大きな矩形である。図53の文書画像のラベリング
結果は図54のようになる。
【0132】次に、抽出された大きな矩形から表を囲む
矩形(表矩形)を抽出し(ステップS143)、表矩形
の中からタイトルを含むものを選択する(ステップS1
44)。ここでは、例えば最も面積の大きな表矩形が選
択され、以下の処理は選択された表矩形の内部を対象に
して行われる。
【0133】プロセッサ14は、まず表矩形の内部から
文字列(あるいは行)を抽出し、文字列の外接矩形(文
字列矩形)を求め、その座標をメモリ15に保存する
(ステップS145)。次に、保存した文字列矩形か
ら、横幅が小さい矩形や縦長矩形をノイズ矩形として除
去し(ステップS146)、2つ以上の文字列矩形を統
合する(ステップS147)。
【0134】ステップS145の処理は、基本的に図5
のステップS25からS31までの処理と同様である。
また、ステップS146の処理は、図24のステップS
41の処理と同様であり、ステップS147の処理は、
ステップS42からS44までの処理と同様である。
【0135】ここまでの処理で、表内から抽出された文
字列矩形が整理されるが、これらの文字列矩形は表罫線
の一部を含んでいる場合もあり得る。そこで、文字列矩
形の中の罫線部分を抽出し、その部分を境にして文字列
矩形を分割する(ステップS148)。
【0136】次に、タイトルに相当する文字列矩形を抽
出するために、文字列矩形内の文字数を計算する(ステ
ップS149)。ここで計算された文字数は、文字列矩
形の属性としてステップS152の処理で用いられる。
【0137】ステップS148の処理により表罫線で囲
まれた欄毎の文字列矩形が抽出されるが、元の表の外形
が矩形ではない場合には、表の外にある文字列矩形が残
されている可能性がある。そこで、上罫線のチェックを
行って(ステップS150)、上側に表罫線がないよう
な文字列矩形は表外の文字列矩形とみなし、それを除去
する。
【0138】次に、表内の文字列矩形を表矩形の左上座
標に近い順に並び替える(ステップS151)。そし
て、文字列矩形の文字数が一定の条件を満たす場合に、
その文字列矩形を項目部分またはタイトル部分として抽
出して(ステップS152)、処理を終了する。このと
き、条件を満たす文字列矩形を、表矩形の左上に近いも
のから優先的にタイトル矩形の候補とする。
【0139】次に、表内タイトル抽出処理の各ステップ
で行われる具体的な処理内容を説明する。図55は、図
52のステップS143の表矩形抽出処理のフローチャ
ートである。この表矩形抽出処理に先立ってステップS
142の処理を行っておくことで、処理対象が一定以上
大きな矩形に限られるため、表矩形の抽出が効率化され
る。
【0140】図55において処理が開始されると、プロ
セッサ14は、まずbox 内の大きな矩形から高さが閾値
より大きなものを抽出する(ステップS161)。ここ
では、例えば矩形高さの最頻値freqの5倍より大きい
(高い)矩形が抽出され、表矩形としてファイル large
_4baiに格納される。ステップS161で抽出された表
矩形は、ステップS150の上罫線チェックの際に用い
られる。
【0141】次に、box 内の大きな矩形から横幅が閾値
より大きなものを抽出して(ステップS162)、処理
を終了する。ここでは、例えば横幅が文書画像の横幅の
0.7倍より大きな矩形が抽出され、表矩形としてファ
イルlargewide に格納される。
【0142】図52のステップS144では、ステップ
S162で抽出されたいくつかの表矩形のうちで最も大
きなものが選択される。ここでは、例えば、largewide
内の複数の矩形からその面積が最大のものが選択され
て、処理対象となる。図54の文書画像の場合は、larg
ewide 内に格納される大きな矩形は表矩形80のみであ
るため、自動的にこれが処理対象の表矩形となる。
【0143】次に、図52のステップS145では、選
択された表矩形内部の文字矩形を対象にして文字列矩形
の抽出が行われる。しかし、次のいずれかの条件に該当
する矩形は処理対象から除外する。 (t)枠矩形 (u)高さがfreqの3倍より大きく、高さ/幅の比が
0.4より小さな横長矩形(v)文書画像全体の高さの
1/3より大きな矩形 このうち、(t)の枠矩形は、図5のステップS23と
同様の処理により抽出することができる。
【0144】ステップS145、S146、S147の
処理を行った後に得られる統合された文字列矩形は、図
56のようになる。図56において、例えば文字列矩形
81、82、83等は、表罫線により仕切られた本来別
々の複数の文字列を含んでいる。そこで、表内の文字列
を正しく抽出するために、ステップS148で文字矩形
間の縦罫線を境界にして文字列矩形を分割する。以下、
図57から図65までを参照しながら、この文字列分割
処理について説明する。
【0145】文字列分割方法としては、大きく分けて2
つの方法が考えられる。図57は、第1の文字列分割処
理のフローチャートである。第1の文字列分割処理にお
いては、プロセッサ14は、各文字列矩形に含まれる任
意の2つの隣接文字矩形の間に縦罫線があるかどうかを
チェックする。このとき、まず文字列矩形内に含まれる
文字矩形を横方向に並び替え、それらの間に黒画素があ
るかどうかチェックする。黒画素がある場合はその位置
で文字列矩形を分割して、複数の新しい文字列矩形を生
成する。
【0146】図57において処理が開始されると、プロ
セッサ14は、まず文字列矩形内の文字矩形をx座標
(横座標)の小さいものから順にソートする(ステップ
S171)。ステップS147までの処理においては、
文字列矩形内の文字矩形は一般にy座標(縦座標)の小
さい順にソートされており、横方向の順序が反映されて
いない。そこで、実際の文字の並びに対応するように、
文字矩形の記憶順序が変更される。
【0147】例えば、図58に示す文字列矩形91の場
合、文字列分割処理の前には文字矩形92、95、9
3、94の順にソートされて、記憶されている。これら
の文字矩形をx座標でソートし直すことにより、図59
に示すように文字矩形92、93、94、95の順に正
しく記憶される。
【0148】次に、文字列矩形の左端のx座標、右端の
x座標、上端のy座標、下端のy座標を、それぞれsx
1、sx2、sy1、sy2とおき(ステップS17
2)、文字列矩形内の最も左の文字矩形に注目し、それ
をカレント矩形とする(ステップS173)。そして、
カレント矩形の上端のy座標、下端のy座標、右端のx
座標を、それぞれcy1、cy2、cx2とおき(ステ
ップS174)、カレント矩形の右にある文字矩形の上
端のy座標、下端のy座標、左端のx座標を、それぞれ
ry1、ry2、rx1とおく(ステップS175)。
【0149】次に、直線x=cx2,x=rx1,y=
max(cy1,ry1),y=min(cy2,ry
2)で囲まれた矩形領域内に黒画素があるかどうかをチ
ェックする(ステップS176)。ここで、この矩形領
域は、カレント矩形とカレント矩形の右の文字矩形の間
に位置する領域である。
【0150】上記矩形領域内に黒画素があれば、そこに
縦罫線があるとみなして、座標x=sx1,cx2,y
=sy1,sy2で表される矩形を文字列矩形として登
録し、sx1=rx1とする(ステップS177)。
【0151】次に、カレント矩形の右の文字矩形が文字
列矩形の中で最も右にあるかどうかを調べ(ステップS
178)、そうでない場合はカレント矩形の右の文字矩
形を新たにカレント矩形として(ステップS179)、
ステップS174以降の処理を繰り返す。ステップS1
76で上記矩形領域内に黒画素がなければ、そのままス
テップS178以降の処理を行う。
【0152】そして、ステップS178においてカレン
ト矩形の右の文字矩形が最も右の矩形である場合は、座
標x=sx1,sx2,y=sy1,sy2で表される
矩形を文字列矩形として登録して(ステップS18
0)、処理を終了する。
【0153】このような第1の文字列分割処理によれ
ば、カレント矩形とカレント矩形の右の矩形の間に縦罫
線が検出される度に、その左側の1つ以上の文字矩形が
文字列矩形として登録される。したがって、元の文字列
矩形に縦罫線が2本以上含まれていても、必ずそれらの
位置で文字列矩形が分割される。
【0154】例えば、図60のような表内の文字列矩形
101の場合、文字矩形102、103、104、10
5、106、107を含んでおり、文字矩形102と文
字矩形103の間には表の縦罫線が通っている。この文
字列矩形101を対象に第1の文字列分割処理を行う
と、文字矩形102がカレント矩形のとき、文字矩形1
02と文字矩形103の間の領域に黒画素が検出される
(ステップS176、Yes)。そこで、図61に示す
ように、文字矩形102を含む矩形が文字列矩形108
として登録される(ステップS177)。
【0155】その後、文字矩形103が新たにカレント
矩形となって(ステップS179)、同様の処理が繰り
返されるが、縦罫線は検出されない。そして、文字矩形
106がカレント矩形となったとき、文字矩形103、
104、105、106、107を含む矩形が文字列矩
形109として登録され(ステップS180)、処理が
終了する。こうして、元の文字列矩形101は、文字列
矩形108と109に分割される。
【0156】図62および図63は、第2の文字列分割
処理のフローチャートである。第2の文字列分割処理に
おいては、プロセッサ14は、各文字列矩形の内部を対
象にして再度ラベリング処理を施す。このとき、まず文
字列矩形を構成する各文字矩形の座標を記憶しておき、
それとは別に、文字列矩形内のラベリング処理により得
られた文字矩形の座標を獲得する。
【0157】縦罫線の一部が文字列矩形内にあるとする
と、前者の文字矩形群と後者の文字矩形群とを比較した
場合、後者の方が縦罫線の分だけ矩形の数が増えるた
め、両者の間に差異が生じるはずである。そこで、前者
と比較して後者に余分な文字矩形が出現した位置で文字
列矩形を分割する。
【0158】例えば、図60の文字列矩形101の場
合、その内部にラベリング処理を施して得られる文字矩
形は図64のようになる。図60の文字矩形群と図64
の文字矩形群とを比較すると、図64の方が余分な矩形
110を含んでいることが分かる。この矩形110は文
字列矩形101内に含まれた縦罫線に相当し、この位置
で文字列矩形101を分割することができることを表し
ている。
【0159】図62において処理が開始されると、プロ
セッサ14は、まず文字列矩形内の文字矩形の集合をO
とし(ステップS181)、文字列矩形内をラベリング
処理して求めた文字矩形の集合をNとする(ステップS
182)。そして、集合OとN内の文字矩形をそれぞれ
x座標でソートし(ステップS183)、文字列矩形の
左端のx座標、右端のx座標、上端のy座標、下端のy
座標を、それぞれsx1、sx2、sy1、sy2とお
く(ステップS184)。x座標によるソート処理は、
図57のステップS172と同様にして行う。
【0160】次に、登録フラグ=0とおき、O内の最も
左の文字矩形を矩形OOとし、N内の最も左の文字矩形
を矩形NNとする。そして、x2=OOの右端のx座
標、prev=x2とおく(ステップS185)。以
後、登録フラグは0または1の値をとる。
【0161】次に、OOとNNの左上頂点および右下頂
点の座標が一致するかどうかをチェックする(ステップ
S186)。これらがともに一致すればOOとNNは同
じ矩形であるとみなし、次に、登録フラグが1かどうか
を判定する(ステップS187)。
【0162】登録フラグが0の場合は、OOの右の矩形
を新たにOOとおき、NNの右の矩形を新たにNNとお
く(ステップS188)。そして、prev=x2とお
いた後(ステップS189)、x2=OOの右端のx座
標とおき(ステップS190)、OOが文字列矩形の中
で最も右の文字矩形かどうかを判定する(ステップS1
91)。そして、OOの右にまだ文字矩形があれば、ス
テップS186以降の処理を繰り返す。
【0163】ステップS186において、OOとNNの
座標が一致しない場合はNNが縦罫線に相当するとみな
し、次に登録フラグが0かどうかを判定する(図63、
ステップS195)。そして、登録フラグが0であれ
ば、座標x=sx1,prev,y=sy1,sy2で
表される矩形を文字列矩形として登録し(ステップS1
96)、登録フラグ=1とおく(ステップS197)。
これにより、OOの左の文字矩形を含む矩形が文字列矩
形として登録される。
【0164】次に、縦罫線とみなされたNNの右の矩形
を新たにNNとおいて(ステップS198)、ステップ
S186以降の処理を繰り返す。ステップS195にお
いて登録フラグが0でなければ、そのままステップS1
98以降の処理を行う。
【0165】ステップS187において、登録フラグが
1の場合はOOを新たな文字列の先頭文字とみなして、
x2=OOの右端のx座標、sx1=OOの左端のx座
標とおく(ステップS192)。そして、prev=x
2、登録フラグ=0とおき(ステップS193、S19
4)、ステップS191以降の処理を行う。
【0166】そして、ステップS191においてOOが
最も右の文字矩形の場合は、座標x=sx1,x2,y
=sy1,sy2で表される矩形を文字列矩形として登
録して(ステップS199)、処理を終了する。
【0167】このような第2の文字列分割処理によれ
ば、集合N内にあってO内にはない余分な矩形が検出さ
れる度に、その左側の1つ以上の文字矩形が文字列矩形
として登録される。また、その後はO内の次の矩形が文
字列の左端に設定されるので、余分な縦罫線は文字列矩
形から除去される。
【0168】例えば、図64の文字列矩形101の場
合、集合Oは文字矩形102、103、104、10
5、106、107からなり、集合Nは文字矩形10
2、110、103、104、105、106、107
からなる。そして、OOが文字矩形103でNNが文字
矩形110のとき、文字矩形110が縦罫線とみなされ
る(ステップS186、No)。そこで、図61に示す
ように、文字矩形102を含む矩形が文字列矩形108
として登録される(ステップS196)。
【0169】その後、文字矩形103が新たにNNとな
って(ステップS198)、同様の処理が繰り返される
が、縦罫線に相当する矩形は検出されない。そして、文
字矩形107がOOとなったとき、文字矩形103、1
04、105、106、107を含む矩形が文字列矩形
109として登録され(ステップS199)、処理が終
了する。こうして、元の文字列矩形101は、第1の文
字列分割処理の結果と同様に、文字列矩形108と10
9に分割される。
【0170】第1および第2の文字列分割処理を比較す
ると、それらの機能は基本的に同じであるが、第1の文
字列分割処理の方が処理速度が速いという利点がある。
図56の文字列矩形に文字列分割処理を施した結果は図
65のようになる。図56と図65とを比較すると、元
の文字列矩形81は文字列矩形111、112、および
113に分割されていることが分かる。また、文字列矩
形82は文字列矩形114と115に分割され、文字列
矩形83は文字列矩形116と117に分割されてい
る。
【0171】文字列矩形の分割が終了すると、次に、図
52のステップS149において、プロセッサ14は、
文字列矩形内の文字矩形の形状からその文字数を計算す
る。ここでは、文字矩形の高さと幅の比からそれを構成
する文字数を抽出する。
【0172】図66は、このときの文字矩形とその文字
数の関係を示している。図66において、文字矩形の高
さをH、幅をWとすると、一般に1つの文字の高さと幅
はほぼ等しいと考えられるので、この文字矩形内にある
文字数は[W/H]個と表すことができる。ここで、
[W/H]は、実数W/Hの小数点以下を切り捨てる演
算記号である。
【0173】ステップS148の文字列分割処理により
表矩形内の文字列矩形が正しく分割されるが、表矩形内
には実際の表の外にある文字列矩形が含まれている可能
性がある。図67は、このような表矩形内の表外文字列
矩形の例を示している。図67において、太線で示され
た表罫線の外周は矩形ではないため、その表矩形121
内には表外にある文字列矩形122が含まれている。一
方、文字列矩形122と同じ行にある文字列矩形123
は表内の文字列矩形である。
【0174】図68は、図54の表矩形80内の文字列
矩形を示している。図68の文字列矩形のうち、文字列
矩形131が表外の文字列矩形に相当する。表内のタイ
トルを抽出するためには、文字列矩形122や131の
ような表外の文字列矩形を表内の文字列矩形と区別し、
表矩形内から取り除く必要がある。
【0175】そこで、ステップS150において、上に
他の文字列矩形がない文字列矩形を対象に、その上に罫
線があるかどうかをチェックし、罫線がなければその文
字列矩形を除去する。
【0176】図69は、このような上罫線チェック処理
のフローチャートである。図69において処理が開始さ
れると、プロセッサ14は、まず図24のステップS4
2と同様の方法で、文字列矩形間の接続関係を表す連結
関係表を作成する(ステップS201)。そして、連結
関係表を用いて上に他の文字列矩形がない文字列矩形を
求め、それらのうちで上に罫線がないものを除去して
(ステップS202)、処理を終了する。
【0177】図70は、ステップS202の表外文字列
矩形除去処理のフローチャートである。図70の表外文
字列矩形除去処理においては、表矩形内のすべての文字
列矩形の連結関係表を参照して、文字列矩形の上に他の
文字列矩形がないものを抽出する。そして、抽出した文
字列矩形の上の特定領域内を探索して、黒画素を含むバ
イト数の合計Mを求める。ただし、8画素=1バイトと
する。
【0178】Mが探索範囲の横の長さをバイト数で表し
たしきい値L以上であれば、この範囲に横罫線があると
みなして、その文字列矩形を表内文字列矩形として残
す。もし、M<Lとなるような文字列矩形があれば、そ
の文字列矩形の上には横罫線がないとみなし、それを表
外文字列矩形として除去する。
【0179】図70において処理が開始されると、プロ
セッサ14は、まず表矩形内の文字列矩形からなる集合
を、表内文字列矩形の集合Sとする(ステップS21
1)。次に、S内で、他のS内の文字列矩形を上矩形と
する接続関係を持たないものを抽出し、それらの集合を
S1とする(ステップS212)。例えば、図67の場
合は、斜線の文字列矩形122と123がS1の要素と
なる。
【0180】次に、S1内の1つの文字列矩形をSSと
し(ステップS213)、SSの左端のx座標、右端の
x座標、上端のy座標、下端のy座標を、それぞれsx
1、sx2、sy1、sy2とおく(ステップS21
4)。
【0181】次に、SSの上にある他の表矩形または表
矩形外の文字列矩形を求め、その左端のx座標、右端の
x座標、上端のy座標、下端のy座標を、それぞれux
1、ux2、uy1、uy2とおく(ステップS21
5)。ここで、他の表矩形としては、図55のステップ
S161で抽出されて large_4baiに格納されている表
矩形が参照される。
【0182】次に、直線x=max(sx1,ux
1),x=min(sx2,ux2),y=sy1,y
=uy2で囲まれた矩形領域の横幅のバイト数をLとす
る(ステップS216)。この矩形領域の横幅は、SS
の横幅とその上の矩形の横幅の重複部分の長さに相当す
る。このとき、Lは次式で与えられる。 L=min(sx2,ux2)/8−max(sx1,
ux1)/8+1 次に、上記矩形領域内で黒画素を求め、8画素を1バイ
トとして、そのバイト数の総和Mを計算する(ステップ
S217)。
【0183】ステップS215で求めたSSの上にある
矩形が文字列矩形の場合は、ステップS216のLと、
ステップS217における黒画素の探索範囲は、図71
のようになる。また、SSの上にある矩形が他の表矩形
の場合は、それらは図72のようになる。
【0184】次に、MとLの大きさを比較し(ステップ
S218)、MがL未満であればSSの上に横罫線がな
いものとみなして、SSを表外の文字列矩形と判定す
る。そこで、SSを集合Sから除去する(ステップS2
19)。
【0185】次に、SSがS1内の最後の文字列矩形か
どうかを判定し(ステップS220)、最後でなければ
ステップS213以降の処理を繰り返す。そして、S1
内の文字列矩形をすべて処理すると、処理を終了する。
【0186】ステップS215において、SSの上に表
矩形も文字列矩形もない場合は、ステップS217で文
書画像の上端までの範囲を探索して、黒画素を求めれば
よい。このときの探索範囲は図73のようになり、その
横幅はSSの横幅に一致する。
【0187】図70の処理により、図68の表外文字列
矩形131が除去され、残された表内文字列矩形は図7
4のようになる。こうして得られた表内文字列矩形を対
象にして、それらの位置や文字数の関係からタイトルの
候補が抽出される。
【0188】図75は、図52のステップS151およ
びS152で行われるタイトル候補出力処理のフローチ
ャートである。横書き文書の場合は、一般に左上に近い
文字列ほどタイトルである可能性が高いので、図75の
タイトル候補出力処理においては、まず文字列矩形を表
の左上に近い順に並び替える。そして、その順番やステ
ップS149で求めた文字数等の情報を使用して、文字
列矩形の表内タイトルらしさの優先順位を決め、その順
にタイトル候補として出力する。
【0189】優先順位の付け方としては、大きく分けて
次の3通りが考えられる。 (w)表の左上に近い順に優先順位を付ける。 (x)隣りの文字列矩形内の文字矩形の文字数を調べ、
その関係をもとに優先順位を決める。表内のタイトルに
は、「題名」や「表題」のようにタイトルであることを
示す項目名がタイトルの左(または上)の位置にある場
合が多い。このような項目名とタイトルの関係は、それ
らの文字数を用いて表すことができる。例えば、2文字
から数文字程度の文字列の右側(または下側)に、数文
字から十数文字程度の文字列がある場合に、項目名とタ
イトルのペアがあると判断することができる。そこで、
そのようなペアについて、上から順に優先順位を付け
る。 (y)一定の文字数の条件、または隣りの文字列矩形と
の間の一定の文字数の関係を満足するものだけを対象に
して、表の左上に近い順に優先順位を付ける。
【0190】この場合は、表内の文字列矩形を左上に近
い順に調べていき、文字列矩形内の文字数の合計が閾値
以上であれば、その文字列矩形を項目候補とする。さら
に、その文字列矩形の右側に他の文字列矩形があれば、
その文字列矩形内の文字数にかかわらず、それをタイト
ル候補とする。
【0191】これは、元々1つの欄に項目とタイトルが
併記されており、「項目:タイトル」のように1つの文
字列矩形に両方の要素が含まれる場合を救済するためで
ある。また、文字数の大きな文字列矩形は、それだけで
表内タイトルらしいといえる。このような文字列矩形は
項目候補として出力された場合でも、文字認識の結果か
らタイトルらしいと考えられれば、タイトルとして使用
することができる。
【0192】文字列矩形内の文字数が閾値未満の場合
は、その右側に他の文字列矩形があり、かつ、その中の
文字数が閾値以上の場合に、前者を項目候補、後者をタ
イトル候補とする。
【0193】上記(w)、(x)、(y)の各方法につ
いて、20種類の文書画像を用いて実験した結果、
(y)の方法の場合に表内タイトルが候補の上位に入り
やすく、これが最も抽出性能が良いことが分かった。そ
こで、図75の処理では(y)の方法に従って優先順位
を決めている。
【0194】図75において処理が開始されると、プロ
セッサ14は、まず図76に示すような各表内文字列矩
形の左上頂点の座標(x1,y1)を用いて、x1+y
1の値の小さい順に、それらの文字列矩形をソートする
(ステップS221)。そして、表内文字列矩形の集合
をSとし(ステップS222)、S内でx1+y1の値
が最も小さいものをカレント矩形SSとする(ステップ
S223)。
【0195】次に、SS内の文字矩形の文字数の合計が
閾値TITLEMOJISUU以上かどうかを判定する(ステップS
224)。例えば、TITLEMOJISUU=7とする。SSの文
字数がTITLEMOJISUU以上であれば、SSの右側に他の文
字列矩形があるかどうかを調べる(ステップS22
5)。右側に文字列矩形がなければ、カレント矩形SS
を項目候補として出力し(ステップS226)、SSが
S内の最後の文字列矩形かどうかを判定する(ステップ
S227)。最後の文字列矩形でなければ、SSの次に
x1+y1の値の小さな文字列矩形を新たにSSとし
(ステップS231)、ステップS224以降の処理を
繰り返す。
【0196】ステップS225においてSSの右側に文
字列矩形がある場合は、カレント矩形SSを項目候補、
その右側の文字列矩形をタイトル候補として出力し(ス
テップS230)、ステップS227以降の処理を行
う。
【0197】また、ステップS224においてSS内の
文字数がTITLEMOJISUU未満の場合は、SSの右側に他の
文字列矩形があるかどうかを調べる(ステップS22
8)。右側に文字列矩形があれば、その文字数の合計が
TITLEMOJISUU以上かどうかを判定する(ステップS22
9)。そして、それがTITLEMOJISUU以上であれば、ステ
ップS230以降の処理を行う。
【0198】ステップS228においてSSの右側に文
字列矩形がない場合、および、ステップS229におい
て右側の文字列矩形の文字数がTITLEMOJISUU未満の場合
は、ステップS227以降の処理を行う。そして、ステ
ップS227においてSSが最後の文字列矩形であれ
ば、処理を終了する。
【0199】このタイトル候補出力処理によれば、次の
3つの場合に該当する文字列矩形が項目またはタイトル
候補として出力される。 (α)カレント矩形の文字数が閾値以上で、その右側に
文字列矩形がない場合、カレント矩形を項目候補として
出力する。 (β)カレント矩形の文字数が閾値以上で、その右側に
文字列矩形がある場合、カレント矩形を項目候補、右側
の文字列矩形をタイトル候補として出力する。 (γ)カレント矩形の文字数が閾値未満で、その右側の
文字列矩形の文字数が閾値以上である場合、カレント矩
形を項目候補、右側の文字列矩形をタイトル候補として
出力する。
【0200】図77は、こうして抽出された表内タイト
ルの第1候補を示している。図77において、文字列矩
形111は項目候補であり、文字列矩形112はタイト
ル候補である。このような表内タイトル抽出処理によれ
ば、様々な表を含んだ文書画像に対しても、特別な操作
や辞書等を用いずに、表内の項目およびタイトルの領域
を抽出することができる。
【0201】こうして抽出された項目候補およびタイト
ル候補の文字列矩形は、図3のステップS11と同様の
処理により文字列として認識される。このとき、実際に
は、項目候補として抽出された文字列がタイトル文字列
を含んでいる場合もあるので、認識結果のうち適当な部
分を項目名あるいはタイトルとして使用する。
【0202】本発明においては、文字領域および文字列
領域の形状は必ずしも矩形でなくてもよく、直線または
曲線により囲まれた任意の形状の領域を用いることがで
きる。
【0203】
【発明の効果】本発明によれば、様々な文書画像に対し
て、特別な操作を行ったり、辞書等を用意したりしなく
ても、タイトル、宛先、発信元情報に相当する領域を容
易に抽出することができる。これにより、画像データか
ら抽出した文字列等をその画像のキーワードとして用い
ることもできるようになる。
【図面の簡単な説明】
【図1】本発明の原理図である。
【図2】システム構成図である。
【図3】文書画像のタイトル抽出処理のフローチャート
である。
【図4】文書画像データを示す図である。
【図5】文字列抽出処理のフローチャートである。
【図6】ラベリング処理後の外接矩形を示す図である。
【図7】高さのヒストグラムを示す図である。
【図8】高さの最頻値を求めるためのヒストグラムを示
す図である。
【図9】矩形高さテーブルを示す図である。
【図10】矩形高さテーブルの内容に対応するヒストグ
ラムを示す図である。
【図11】大きな矩形から抽出された線分矩形を示す図
である。
【図12】部分線分矩形を示す図である。
【図13】連結した部分線分矩形を示す図である。
【図14】枠矩形を示す図である。
【図15】重複している外接矩形を示す図である。
【図16】ネストしている外接矩形を示す図である。
【図17】二等辺三角形のヒストグラムを示す図であ
る。
【図18】重複・ネスト除去後の外接矩形を示す図であ
る。
【図19】矩形間の連結関係を示す図である。
【図20】連結関係表を示す図である。
【図21】文字列矩形を示す図である。
【図22】文字列矩形の抽出処理を示す図である。
【図23】抽出された文字列矩形を示す図である。
【図24】文字列矩形加工処理のフローチャートであ
る。
【図25】ノイズ除去後の文字列矩形を示す図である。
【図26】文字列矩形の統合処理を示す図である。
【図27】統合された文字列矩形を示す図である。
【図28】文書領域を示す図である。
【図29】下線矩形を示す図である。
【図30】枠付き・罫線・下線チェック後の文字列矩形
を示す図である。
【図31】線分抽出処理のフローチャートである。
【図32】ワイルドカードがある場合の線分矩形を示す
図である。
【図33】ワイルドカードを示す図である。
【図34】線分抽出処理のコードを示す図(その1)で
ある。
【図35】線分抽出処理のコードを示す図(その2)で
ある。
【図36】線分抽出処理のコードを示す図(その3)で
ある。
【図37】線分抽出処理の詳細フローチャート(その
1)である。
【図38】線分抽出処理の詳細フローチャート(その
2)である。
【図39】線分抽出処理の詳細フローチャート(その
3)である。
【図40】タイトル・宛先・発信元抽出処理のフローチ
ャートである。
【図41】オーバラップしている文字列矩形を示す図で
ある。
【図42】第1の宛先抽出処理のフローチャートであ
る。
【図43】第2の宛先抽出処理のフローチャートであ
る。
【図44】タイトルと宛先/発信元の第1の配置を示す
図である。
【図45】タイトルと宛先/発信元の第2の配置を示す
図である。
【図46】タイトルと宛先/発信元の第3の配置を示す
図である。
【図47】タイトルと宛先/発信元の第4の配置を示す
図である。
【図48】複数の宛先/発信元を示す図である。
【図49】タイトルおよび宛先・発信元情報の抽出結果
を示す図である。
【図50】タイトルおよび宛先・発信元情報の他の抽出
結果を示す図である。
【図51】表形式文書を示す図である。
【図52】表内タイトル抽出処理のフローチャートであ
る。
【図53】表形式文書の画像データを示す図である。
【図54】表形式文書のラベリング結果を示す図であ
る。
【図55】表矩形抽出処理のフローチャートである。
【図56】表形式文書の文字列矩形を示す図である。
【図57】第1の文字列分割処理のフローチャートであ
る。
【図58】文字列矩形内の文字矩形の順位を示す図であ
る。
【図59】ソート後の文字矩形の順位を示す図である。
【図60】縦罫線を含む文字列矩形を示す図である。
【図61】分割された文字列矩形を示す図である。
【図62】第2の文字列分割処理のフローチャート(そ
の1)である。
【図63】第2の文字列分割処理のフローチャート(そ
の2)である。
【図64】文字列矩形内のラベリング結果を示す図であ
る。
【図65】分割処理後の文字列矩形を示す図である。
【図66】文字矩形と文字数の関係を示す図である。
【図67】表矩形内の表外文字列矩形を示す図である。
【図68】表矩形内の文字列矩形を示す図である。
【図69】上罫線チェック処理のフローチャートであ
る。
【図70】表外文字列矩形除去処理のフローチャートで
ある。
【図71】第1の探索範囲を示す図である。
【図72】第2の探索範囲を示す図である。
【図73】第3の探索範囲を示す図である。
【図74】表外文字列矩形除去後の文字列矩形を示す図
である。
【図75】タイトル候補出力処理のフローチャートであ
る。
【図76】文字列矩形の左上頂点の座標を示す図であ
る。
【図77】表内タイトルの抽出結果を示す図である。
【符号の説明】
1 文字領域生成手段 2 文字列領域生成手段 3 タイトル抽出手段 11 電子ファイリング装置 12 光電変換装置 13 ディスプレイ端末 14 プロセッサ 15 メモリ 16 バス 21、22、23、24、25、26、27、31、3
2、33、34、35、61、62、63、64、65
外接矩形 36、37、38、39、40 二等辺三角形 41、42、43 二等辺三角形のヒストグラム 51、52、53、54、55、56、57、58 ポ
インタ 71、81、82、83、91、101、108、10
9、111、112、113、114、115、11
6、117、122、123、131 文字列矩形 72 下線矩形 80、121 表矩形 92、93、94、95、102、103、104、1
05、106、107、110 文字矩形

Claims (51)

    【特許請求の範囲】
  1. 【請求項1】 文書を画像データに変換して得られる文
    書画像から必要とする部分領域を取り出して認識する情
    報処理装置において、 前記文書画像内の連結した黒画素からなる黒画素連結領
    域を含む文字領域を生成する文字領域生成手段と、 前記文字領域生成手段が生成した1つ以上の文字領域を
    統合して、該1つ以上の文字領域を含む文字列領域を生
    成する文字列領域生成手段と、 前記文字列領域生成手段が生成した複数の文字列領域の
    属性に基づいて、該複数の文字列領域のうち特定の文字
    列領域を、タイトル領域として抽出するタイトル抽出手
    段とを備えることを特徴とするタイトル抽出装置。
  2. 【請求項2】 前記タイトル領域に含まれる文字領域を
    切り出して、文字認識を行う認識手段をさらに備えるこ
    とを特徴とする請求項1記載のタイトル抽出装置。
  3. 【請求項3】 前記文字領域生成手段は、前記黒画素連
    結領域の外接矩形を前記文字領域として求め、前記文字
    列領域生成手段は、前記文書画像内における該外接矩形
    の辺の長さの頻度のヒストグラムを作成し、特定の頻度
    と該特定の頻度を与える最大の辺の長さとの関係表を作
    成し、該関係表を用いて、前記文書画像内において現れ
    る頻度の高い第1の辺の長さを求め、該第1の辺の長さ
    を基準として用いて前記文字列領域を生成することを特
    徴とする請求項1記載のタイトル抽出装置。
  4. 【請求項4】 前記文字列領域生成手段は、前記関係表
    において頻度が大きく変化する辺の長さをもとに、前記
    第1の辺の長さを決定することを特徴とする請求項3記
    載のタイトル抽出装置。
  5. 【請求項5】 前記文字列領域生成手段は、前記外接矩
    形の高さまたは幅を前記辺の長さとして用いて、前記ヒ
    ストグラムを作成することを特徴とする請求項3記載の
    タイトル抽出装置。
  6. 【請求項6】 前記文字列領域生成手段は、前記第1の
    辺の長さを用いて閾値を生成し、該閾値を用いて不要な
    文字領域を除去することを特徴とする請求項3記載のタ
    イトル抽出装置。
  7. 【請求項7】 前記文字列領域生成手段は、前記閾値を
    用いて図表または写真の外接矩形を除去することを特徴
    とする請求項6記載のタイトル抽出装置。
  8. 【請求項8】 前記文字領域生成手段は、前記黒画素連
    結領域の外接矩形を前記文字領域として求め、前記文字
    列領域生成手段は、各外接矩形の第1の辺を用いて、前
    記文書領域内の第1の方向における外接矩形の分布範囲
    を表す第1のヒストグラムを作成し、該第1のヒストグ
    ラムの形状から外接矩形のグループを求め、該グループ
    毎に処理を行うことを特徴とする請求項1記載のタイト
    ル抽出装置。
  9. 【請求項9】 前記文字列領域生成手段は、各外接矩形
    の第2の辺を用いて、前記文書領域内の第2の方向にお
    ける外接矩形の分布範囲を表す第2のヒストグラムを作
    成し、前記第1および第2のヒストグラムの形状から前
    記グループを求め、該グループ毎に処理を行うことを特
    徴とする請求項8記載のタイトル抽出装置。
  10. 【請求項10】 前記文字列領域生成手段は、前記第1
    の辺の中線上に頂点を持つ二等辺三角形を作成し、該二
    等辺三角形を用いて前記第1のヒストグラムを作成する
    ことを特徴とする請求項8記載のタイトル抽出装置。
  11. 【請求項11】 前記文字列領域生成手段は、前記グル
    ープに属する外接矩形を探索して、重複する2つ以上の
    外接矩形を求め、該2つ以上の外接矩形を1つの外接矩
    形に統合することを特徴とする請求項8記載のタイトル
    抽出装置。
  12. 【請求項12】 前記文字列領域生成手段は、前記グル
    ープに属する外接矩形を探索して、ネストしている外接
    矩形を求め、ネストを除去することを特徴とする請求項
    8記載のタイトル抽出装置。
  13. 【請求項13】 前記文字列領域生成手段は、基準とす
    る第1の外接矩形が属するグループ内の外接矩形を探索
    して、該第1の外接矩形に近接する第2の外接矩形を求
    め、該第1および第2の外接矩形の連結関係を表す連結
    関係表を作成し、該連結関係表を用いて前記文字列領域
    を生成することを特徴とする請求項8記載のタイトル抽
    出装置。
  14. 【請求項14】 前記文字領域生成手段は、前記黒画素
    連結領域の外接矩形を前記文字領域として求め、前記文
    字列領域生成手段は、基準とする第1の外接矩形に近接
    する第2の外接矩形を求め、該第1および第2の外接矩
    形の連結関係を表す連結関係表を作成し、該連結関係表
    を用いて該第1および第2の外接矩形に同じ識別情報を
    付加することにより、該第1および第2の外接矩形を1
    つの文字列領域に統合することを特徴とする請求項1記
    載のタイトル抽出装置。
  15. 【請求項15】 前記文字列領域生成手段は、前記第1
    の外接矩形から前記第2の外接矩形へ向かうポインタ
    と、前記第2の外接矩形から前記第1の外接矩形へ向か
    うポインタのうち、少なくとも一方を前記連結関係表に
    格納することを特徴とする請求項14記載のタイトル抽
    出装置。
  16. 【請求項16】 前記文字列領域生成手段は、前記第1
    の外接矩形と前記第2の外接矩形の間に枠線がある場合
    には、該第1および第2の外接矩形を連結しないことを
    特徴とする請求項14記載のタイトル抽出装置。
  17. 【請求項17】 前記タイトル抽出手段は、 前記文字列領域の内部を横方向に複数の部分領域に分割
    して、各部分領域の中で黒画素占有率の大きな部分線分
    領域を抽出し、閾値以上の高さの部分線分領域について
    は高さを無視して、横方向に連結している各部分線分領
    域を統合し、統合された線分領域を抽出する線分抽出手
    段を有し、 該線分領域を用いて前記タイトル領域を抽出することを
    特徴とする請求項1記載のタイトル抽出装置。
  18. 【請求項18】 前記線分抽出手段は、前記文字列領域
    の内部を重複する複数の部分領域に分割することを特徴
    とする請求項17記載のタイトル抽出装置。
  19. 【請求項19】 前記線分抽出手段は、前記文字列領域
    の幅に近い長さの前記線分領域を抽出することを特徴と
    する請求項17記載のタイトル抽出装置。
  20. 【請求項20】 前記タイトル抽出手段は、前記線分領
    域が前記文字列領域内の下部にあるとき、該線分領域を
    下線と判別し、該文字列領域を前記タイトル領域の候補
    とすることを特徴とする請求項17記載のタイトル抽出
    装置。
  21. 【請求項21】 前記線分抽出手段は、前記文字列領域
    から同じ程度の左端座標および右端座標を持つ2つの線
    分領域を抽出し、該左端座標付近で縦方向の黒画素の第
    3のヒストグラムを作成し、該右端座標付近で縦方向の
    黒画素の第4のヒストグラムを作成し、第3および第4
    のヒストグラムのピークの高さが前記2つの線分領域の
    距離程度であれば、前記文字列領域内に枠線があると判
    別することを特徴とする請求項17記載のタイトル抽出
    装置。
  22. 【請求項22】 前記タイトル抽出手段は、前記複数の
    文字列領域の属性として下線属性または枠付き属性を抽
    出し、抽出した属性と各文字列領域の位置と文字列領域
    間の相対的位置関係とのうち少なくとも1つを用いて、
    各文字列領域にポイントを与え、高ポイントの文字列領
    域を前記特定の文字列領域とすることを特徴とする請求
    項1記載のタイトル抽出装置。
  23. 【請求項23】 前記タイトル抽出手段は、下線属性ま
    たは枠付き属性を持つ文字列領域に一定の得点を与える
    ことを特徴とする請求項22記載のタイトル抽出装置。
  24. 【請求項24】 前記タイトル抽出手段は、第1の方向
    の中心座標が前記文書画像の中央付近にある文字列領域
    に一定の得点を与えることを特徴とする請求項22記載
    のタイトル抽出装置。
  25. 【請求項25】 前記タイトル抽出手段は、上下にある
    文字列領域との距離が離れている文字列領域に一定の得
    点を与えることを特徴とする請求項22記載のタイトル
    抽出装置。
  26. 【請求項26】 前記タイトル抽出手段は、左側に他の
    文字列領域がないような文字列領域に一定の得点を与え
    ることを特徴とする請求項22記載のタイトル抽出装
    置。
  27. 【請求項27】 前記タイトル抽出手段は、枠線を含む
    第1の文字列領域の内部に第2の文字列領域があり、該
    第1の文字列領域と第2の文字列領域が閾値以上に離れ
    ていないような一定の位置関係にある場合に、該第2の
    文字列領域が枠付き属性を持つとみなすことを特徴とす
    る請求項22記載のタイトル抽出装置。
  28. 【請求項28】 前記タイトル領域の位置またはサイズ
    の情報から、他の文字列領域の相対的な位置関係または
    サイズを求め、該他の文字列領域の相対的な位置関係ま
    たはサイズが特定の条件を満たすとき、該他の文字列領
    域を宛先領域として抽出する宛先抽出手段をさらに備え
    ることを特徴とする請求項1記載のタイトル抽出装置。
  29. 【請求項29】 前記タイトル領域の位置またはサイズ
    の情報から、他の文字列領域の相対的な位置関係または
    サイズを求め、該他の文字列領域の相対的な位置関係ま
    たはサイズが特定の条件を満たすとき、該他の文字列領
    域を発信元情報領域として抽出する発信元情報抽出手段
    をさらに備えることを特徴とする請求項1記載のタイト
    ル抽出装置。
  30. 【請求項30】 前記タイトル抽出手段は、前記文書画
    像内で一定範囲のサイズの文字列領域が存在する文書領
    域を求め、該文書領域から前記タイトル領域を抽出する
    ことを特徴とする請求項1記載のタイトル抽出装置。
  31. 【請求項31】 前記タイトル抽出手段は、隣接した2
    つの文字列領域のサイズまたは座標値が類似している場
    合に、該2つの文字列領域を1つの文字列領域に統合す
    ることを特徴とする請求項1記載のタイトル抽出装置。
  32. 【請求項32】 前記タイトル抽出手段は、文字列領域
    のサイズまたは形状から罫線を表すと判定した時、該文
    字列領域に罫線属性を設定し、該罫線属性を用いて前記
    タイトル領域を抽出することを特徴とする請求項1記載
    のタイトル抽出装置。
  33. 【請求項33】 前記タイトル抽出手段は、前記罫線属
    性を持つ第3の文字列領域の上にある第4の文字列領域
    に下線属性を設定し、該第4の文字列領域を前記タイト
    ル領域の候補とすることを特徴とする請求項32記載の
    タイトル抽出装置。
  34. 【請求項34】 文書を画像データに変換して得られる
    文書画像から必要とする部分領域を取り出して認識する
    情報処理装置において、 前記文書画像内の連結した黒画素からなる黒画素連結領
    域を含む文字領域を生成する文字領域生成手段と、 前記文字領域生成手段が生成した1つ以上の文字領域を
    統合して、該1つ以上の文字領域を含む文字列領域を生
    成する文字列領域生成手段と、 一定以上の大きさを持つ黒画素連結領域を含む表領域を
    抽出し、該表領域内の複数の文字列領域のうち特定の文
    字列領域を、タイトル領域として抽出するタイトル抽出
    手段とを備えることを特徴とするタイトル抽出装置。
  35. 【請求項35】 前記タイトル抽出手段は、第5の文字
    列領域の内部に罫線がある場合に、該罫線の位置で該第
    5の文字列領域を分割することを特徴とする請求項34
    記載のタイトル抽出装置。
  36. 【請求項36】 前記タイトル抽出手段は、前記第5の
    文字列領域内の複数の文字領域の間に黒画素があるかど
    うかを調べ、黒画素がある位置で該第5の文字列領域を
    分割することを特徴とする請求項35記載のタイトル抽
    出装置。
  37. 【請求項37】 前記タイトル抽出手段は、前記第5の
    文字列領域内の複数の文字領域と、前記文字領域生成手
    段が該第5の文字列領域内を対象にして再度求めた複数
    の文字領域との差異を調べ、該差異が検出された位置で
    該第5の文字列領域を分割することを特徴とする請求項
    35記載のタイトル抽出装置。
  38. 【請求項38】 前記タイトル抽出手段は、前記表領域
    内の第6の文字列領域の近くの特定領域に罫線があるか
    どうかを調べ、罫線がなければ該第6の文字列領域を表
    外の文字列領域とすることを特徴とする請求項34記載
    のタイトル抽出装置。
  39. 【請求項39】 前記タイトル抽出手段は、前記表領域
    内の文字列領域相互の位置関係から、上側に表内文字列
    領域がないような文字列領域を前記第6の文字列領域と
    し、該第6の文字列領域の上側にある前記特定領域の黒
    画素を探索し、一定閾値以上の黒画素が検出された場合
    に、該特定領域内に前記罫線があると判定することを特
    徴とする請求項38記載のタイトル抽出装置。
  40. 【請求項40】 前記タイトル抽出手段は、前記第6の
    文字列領域の上の他の文字列領域または表領域までの間
    を前記特定領域とし、前記閾値を該第6の文字列領域と
    該他の文字列領域または表領域との位置関係から決める
    ことを特徴とする請求項39記載のタイトル抽出装置。
  41. 【請求項41】 前記タイトル抽出手段は、前記複数の
    文字列領域を前記表領域の左上に近い順に優先的に出力
    することを特徴とする請求項34記載のタイトル抽出装
    置。
  42. 【請求項42】 文字列領域生成手段は、前記1つ以上
    の文字領域を含む文字列矩形を文字列領域として生成
    し、前記タイトル抽出手段は、該文字列矩形の特定の頂
    点の座標値をもとに、前記表領域内の複数の文字列矩形
    に優先順位を付けることを特徴とする請求項41記載の
    タイトル抽出装置。
  43. 【請求項43】 前記タイトル抽出手段は、前記複数の
    文字列領域のうち、項目らしい文字列領域を項目領域と
    し、タイトルらしい文字列領域を前記タイトル領域とし
    て、優先順位を付けて出力することを特徴とする請求項
    34記載のタイトル抽出装置。
  44. 【請求項44】 前記タイトル抽出手段は、あらかじめ
    決められた項目とタイトルの位置および文字数の関係に
    該当する文字列領域のペアを求め、該文字列領域のペア
    を上から順に出力することを特徴とする請求項43記載
    のタイトル抽出装置。
  45. 【請求項45】 前記タイトル抽出手段は、前記複数の
    文字列領域のうち閾値以上の文字数を持つ第7の文字列
    領域を、前記項目領域として出力することを特徴とする
    請求項43記載のタイトル抽出装置。
  46. 【請求項46】 前記タイトル抽出手段は、前記第7の
    文字列領域の右側の文字列領域を、前記タイトル領域と
    して出力することを特徴とする請求項45記載のタイト
    ル抽出装置。
  47. 【請求項47】 前記タイトル抽出手段は、前記複数の
    文字列領域のうち、閾値未満の文字数を持つ第8の文字
    列領域を、前記項目領域として出力し、該第8の文字列
    領域の右側にあって該閾値以上の文字数を持つ文字列領
    域を、前記タイトル領域として出力することを特徴とす
    る請求項43記載のタイトル抽出装置。
  48. 【請求項48】 情報処理装置により用いられる記憶媒
    体であって、該情報処理装置が、 文書を画像データに変換して得られる文書画像内の連結
    した黒画素からなる黒画素連結領域を含む文字領域を生
    成し、 1つ以上の文字領域を統合して、該1つ以上の文字領域
    を含む文字列領域を生成し、 複数の文字列領域の属性に基づいて、該複数の文字列領
    域のうち特定の文字列領域を、タイトル領域として抽出
    するように導くことを特徴とする記憶媒体。
  49. 【請求項49】 情報処理装置により用いられる記憶媒
    体であって、該情報処理装置が、 文書を画像データに変換して得られる文書画像内の連結
    した黒画素からなる黒画素連結領域を含む文字領域を生
    成し、 1つ以上の文字領域を統合して、該1つ以上の文字領域
    を含む文字列領域を生成し、 一定以上の大きさを持つ黒画素連結領域を含む表領域を
    抽出し、 該表領域内の複数の文字列領域のうち、特定の文字列領
    域をタイトル領域として抽出するように導くことを特徴
    とする記憶媒体。
  50. 【請求項50】 文書を画像データに変換して文書画像
    を生成し、 該文書画像内の連結した黒画素からなる黒画素連結領域
    を含む文字領域を生成し、 1つ以上の文字領域を統合して、該1つ以上の文字領域
    を含む文字列領域を生成し、 複数の文字列領域の属性に基づいて、該複数の文字列領
    域のうち特定の文字列領域をタイトル領域として抽出
    し、 該タイトル領域に含まれる文字を認識することを特徴と
    するタイトル抽出方法。
  51. 【請求項51】 文書を画像データに変換して文書画像
    を生成し、 該文書画像内の連結した黒画素からなる黒画素連結領域
    を含む文字領域を生成し、 1つ以上の文字領域を統合して、該1つ以上の文字領域
    を含む文字列領域を生成し、 一定以上の大きさを持つ黒画素連結領域を含む表領域を
    抽出し、 該表領域内の複数の文字列領域のうち、特定の文字列領
    域をタイトル領域として抽出し、 該タイトル領域に含まれる文字を認識することを特徴と
    するタイトル抽出方法。
JP34198395A 1995-09-06 1995-12-28 文書画像からのタイトル抽出装置および方法 Expired - Fee Related JP3425834B2 (ja)

Priority Applications (10)

Application Number Priority Date Filing Date Title
JP34198395A JP3425834B2 (ja) 1995-09-06 1995-12-28 文書画像からのタイトル抽出装置および方法
US08/694,503 US6035061A (en) 1995-09-06 1996-08-07 Title extracting apparatus for extracting title from document image and method thereof
DE69624433T DE69624433T2 (de) 1995-09-06 1996-08-07 Gerät und Verfahren zur Extrahierung von Titeln aus Dokumentbildern
EP96112721A EP0762730B1 (en) 1995-09-06 1996-08-07 Method and apparatus for extracting a title from a scanned document
KR1019960035503A KR100311633B1 (ko) 1995-09-06 1996-08-26 문서화상으로부터의타이틀추출장치및방법
CNB011359463A CN100501760C (zh) 1995-09-06 1996-09-04 标题抽取装置和方法
CN961118970A CN1094224C (zh) 1995-09-06 1996-09-04 用于从文档图象抽取标题的标题抽取装置及其方法
CNB011359439A CN1269068C (zh) 1995-09-06 1996-09-04 标题抽取设备及标题抽取方法
CNB011359455A CN1220163C (zh) 1995-09-06 2001-10-29 标题抽取装置及其方法
CNB011359447A CN1220162C (zh) 1995-09-06 2001-10-29 用于从文档图象抽取标题的标题抽取设备及方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP7-229508 1995-09-06
JP22950895 1995-09-06
JP34198395A JP3425834B2 (ja) 1995-09-06 1995-12-28 文書画像からのタイトル抽出装置および方法

Publications (2)

Publication Number Publication Date
JPH09134406A true JPH09134406A (ja) 1997-05-20
JP3425834B2 JP3425834B2 (ja) 2003-07-14

Family

ID=26528832

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34198395A Expired - Fee Related JP3425834B2 (ja) 1995-09-06 1995-12-28 文書画像からのタイトル抽出装置および方法

Country Status (6)

Country Link
US (1) US6035061A (ja)
EP (1) EP0762730B1 (ja)
JP (1) JP3425834B2 (ja)
KR (1) KR100311633B1 (ja)
CN (5) CN100501760C (ja)
DE (1) DE69624433T2 (ja)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203305A (ja) * 1998-01-12 1999-07-30 Ricoh Co Ltd 文書画像処理方法および記録媒体
JP2003058556A (ja) * 2001-08-16 2003-02-28 Ricoh Co Ltd 文書画像のタイトル抽出方法、抽出プログラム、及びタイトル抽出装置
US7099507B2 (en) 1998-11-05 2006-08-29 Ricoh Company, Ltd Method and system for extracting title from document image
US7318033B2 (en) 2002-08-02 2008-01-08 Canon Kabushiki Kaisha Method, apparatus and program for recognizing, extracting, and speech synthesizing strings from documents
JP2008288898A (ja) * 2007-05-17 2008-11-27 Canon Inc 動画撮像装置及び動画撮像方法
JP2010066981A (ja) * 2008-09-10 2010-03-25 Ricoh Co Ltd 画像処理装置、画像処理方法、制御プログラム及び記録媒体
EP2299386A2 (en) 2009-09-04 2011-03-23 Ricoh Company, Ltd. Image processing apparatus, image processing system, and image processing method
JP2011248609A (ja) * 2010-05-26 2011-12-08 Hitachi Omron Terminal Solutions Corp 帳票認識装置および帳票認識方法
US8094202B2 (en) 2007-05-17 2012-01-10 Canon Kabushiki Kaisha Moving image capture apparatus and moving image capture method
JP2012208589A (ja) * 2011-03-29 2012-10-25 Hitachi Omron Terminal Solutions Corp 帳票認識装置、帳票認識方法およびそのためのプログラム
WO2012144006A1 (ja) 2011-04-18 2012-10-26 キヤノン株式会社 データ処理装置、データ処理装置の制御方法、及びプログラム
JP2012221118A (ja) * 2011-04-06 2012-11-12 Fuji Xerox Co Ltd 画像処理装置及びプログラム
US8824798B2 (en) 2009-08-20 2014-09-02 Fuji Xerox Co., Ltd. Information processing device, computer readable medium storing information processing program, and information processing method
JP2014238757A (ja) * 2013-06-10 2014-12-18 エヌ・ティ・ティ・コミュニケーションズ株式会社 文章領域読み取り順序判定装置、文章領域読み取り順序判定方法及び文章領域読み取り順序判定プログラム
US20160227066A1 (en) * 2015-01-30 2016-08-04 Pfu Limited Information processing device, method, and medium
JP2019020842A (ja) * 2017-07-12 2019-02-07 京セラドキュメントソリューションズ株式会社 原稿読取装置
JP2019169137A (ja) * 2018-02-15 2019-10-03 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド タイトル推定器
JP2022104498A (ja) * 2020-12-28 2022-07-08 キヤノンマーケティングジャパン株式会社 情報処理システム、情報処理方法、プログラム

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6327387B1 (en) 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
KR100420065B1 (ko) * 1997-01-20 2004-04-17 삼성전자주식회사 이치화된 혼재 이미지에서 글씨영역과 그림영역을 구분하는 방법
US5950196A (en) * 1997-07-25 1999-09-07 Sovereign Hill Software, Inc. Systems and methods for retrieving tabular data from textual sources
JP3881439B2 (ja) * 1998-01-23 2007-02-14 シャープ株式会社 画像処理装置
JP3574584B2 (ja) * 1998-12-16 2004-10-06 富士通株式会社 表画像処理装置及びそのプログラム記憶媒体
US7035463B1 (en) * 1999-03-01 2006-04-25 Matsushita Electric Industrial Co., Ltd. Document image processor, method for extracting document title, and method for imparting document tag information
JP3913985B2 (ja) * 1999-04-14 2007-05-09 富士通株式会社 文書画像中の基本成分に基づく文字列抽出装置および方法
KR100319756B1 (ko) 2000-01-21 2002-01-09 오길록 논문 문서영상 구조 분석 방법
US20020143804A1 (en) * 2001-04-02 2002-10-03 Dowdy Jacklyn M. Electronic filer
JP2002342710A (ja) * 2001-05-16 2002-11-29 Nec Corp 文字切出し装置及びそれに用いる文字切出し方法並びにそのプログラム
US6801673B2 (en) 2001-10-09 2004-10-05 Hewlett-Packard Development Company, L.P. Section extraction tool for PDF documents
US7079686B2 (en) * 2002-08-20 2006-07-18 Lexmark International, Inc. Systems and methods for content-based document image enhancement
JP4113804B2 (ja) * 2003-03-19 2008-07-09 株式会社リコー 画像処理装置及び画像処理プログラム
JP2006085582A (ja) * 2004-09-17 2006-03-30 Fuji Xerox Co Ltd 文書処理装置およびプログラム
CN100444194C (zh) * 2005-10-27 2008-12-17 富士施乐株式会社 文章标题及关联信息的自动抽取装置和抽取方法
CN101226596B (zh) * 2007-01-15 2012-02-01 夏普株式会社 文档图像处理装置以及文档图像处理方法
US8594387B2 (en) * 2007-04-23 2013-11-26 Intel-Ge Care Innovations Llc Text capture and presentation device
US7932907B2 (en) * 2007-05-21 2011-04-26 Microsoft Corp. Layered graph layouts with a given aspect ratio
CN101354704B (zh) * 2007-07-23 2011-01-12 夏普株式会社 字形特征字典制作装置及具备该装置的文档图像处理装置
CN101354703B (zh) * 2007-07-23 2010-11-17 夏普株式会社 文档图像处理装置和文档图像处理方法
CN101354705B (zh) * 2007-07-23 2012-06-13 夏普株式会社 文档图像处理装置和文档图像处理方法
JP4476318B2 (ja) * 2007-10-31 2010-06-09 富士通株式会社 論理構造認識プログラム、論理構造認識装置、および論理構造認識方法
JP6051827B2 (ja) * 2012-12-07 2016-12-27 株式会社リコー 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム
US8233671B2 (en) * 2007-12-27 2012-07-31 Intel-Ge Care Innovations Llc Reading device with hierarchal navigation
US8185398B2 (en) 2007-12-31 2012-05-22 Intel-Ge Care Innovations Llc Reading device with shortcut read function
CN101493896B (zh) * 2008-01-24 2013-02-06 夏普株式会社 文档图像处理装置及文档图像处理方法
CN101551859B (zh) * 2008-03-31 2012-01-04 夏普株式会社 图像辨别装置及图像检索装置
US7471826B1 (en) 2008-03-31 2008-12-30 International Business Machines Corporation Character segmentation by slices
US8180788B2 (en) * 2008-06-05 2012-05-15 Enpulz, L.L.C. Image search engine employing image correlation
US8620080B2 (en) * 2008-09-26 2013-12-31 Sharp Laboratories Of America, Inc. Methods and systems for locating text in a digital image
JP2010134561A (ja) * 2008-12-02 2010-06-17 Hitachi Software Eng Co Ltd 業務文書処理装置
JP5321109B2 (ja) * 2009-02-13 2013-10-23 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP5357612B2 (ja) * 2009-04-13 2013-12-04 株式会社日立ソリューションズ 下線除去装置
CN101635058B (zh) * 2009-06-30 2011-06-01 方正国际软件(北京)有限公司 一种检测页边的方法及装置
JP5340847B2 (ja) 2009-07-27 2013-11-13 株式会社日立ソリューションズ 文書データ処理装置
CN102081736B (zh) * 2009-11-27 2014-11-26 株式会社理光 从可移植电子文档中提取字符外接矩形的设备和方法
JP5488077B2 (ja) * 2010-03-15 2014-05-14 オムロン株式会社 文字列検知装置、文字評価装置、画像処理装置、文字列検知方法、文字評価方法、制御プログラムおよび記録媒体
JP5591578B2 (ja) * 2010-04-19 2014-09-17 日本電産サンキョー株式会社 文字列認識装置および文字列認識方法
JP5508953B2 (ja) 2010-06-28 2014-06-04 株式会社日立ソリューションズ 文書処理装置及びプログラム
CN102402693B (zh) * 2010-09-09 2014-07-30 富士通株式会社 处理包含字符的图像的方法和设备
JP5594269B2 (ja) * 2011-09-29 2014-09-24 コニカミノルタ株式会社 ファイル名作成装置、画像形成装置、およびファイル名作成プログラム
EP2579217A1 (de) * 2011-10-04 2013-04-10 Deutsche Post AG Verfahren und Vorrichtung für die Markierung von Wertlabeln
EP2579222A1 (de) * 2011-10-04 2013-04-10 Deutsche Post AG Automatische Überprüfung von Wertlabeln
CN102426564A (zh) * 2011-11-01 2012-04-25 无敌科技(西安)有限公司 一种矢量斜体字的反白方法
JP5279930B1 (ja) * 2012-03-27 2013-09-04 株式会社東芝 サーバ、電子機器、サーバの制御方法、サーバの制御プログラム
JP2014013534A (ja) * 2012-07-05 2014-01-23 Ricoh Co Ltd 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム
JP6303531B2 (ja) * 2014-01-22 2018-04-04 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
CN107368236B (zh) * 2017-04-19 2020-08-25 阿里巴巴集团控股有限公司 一种信息目录中标题的展示方法及装置
CN107291677A (zh) * 2017-07-14 2017-10-24 北京神州泰岳软件股份有限公司 一种pdf文档标题结构树生成方法、装置、终端及系统
US10726198B2 (en) * 2017-10-17 2020-07-28 Handycontract, LLC Method, device, and system, for identifying data elements in data structures
US11475209B2 (en) 2017-10-17 2022-10-18 Handycontract Llc Device, system, and method for extracting named entities from sectioned documents
CN108021711A (zh) * 2017-12-28 2018-05-11 深圳市巨鼎医疗设备有限公司 一种信息处理的方法
JP7439435B2 (ja) * 2019-09-30 2024-02-28 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11335108B2 (en) 2020-08-10 2022-05-17 Marlabs Incorporated System and method to recognise characters from an image
CN112101323B (zh) * 2020-11-18 2021-02-02 北京智慧星光信息技术有限公司 标题列表的识别方法、系统、电子设备及存储介质
TWI769809B (zh) * 2021-05-06 2022-07-01 廣達電腦股份有限公司 內容擷取系統及內容擷取方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6126150A (ja) * 1984-07-17 1986-02-05 Nec Corp 文書画像フアイル登録検索装置
JPS6126149A (ja) * 1984-07-17 1986-02-05 Nec Corp 文書画像フアイル登録検索装置
JPH0233686A (ja) * 1988-07-25 1990-02-02 Fuji Electric Co Ltd 文字列抽出方法
JPH0314184A (ja) * 1989-06-13 1991-01-22 Fuji Xerox Co Ltd 文書画像再配置ファイリング装置
JPH0343879A (ja) * 1989-07-12 1991-02-25 Fujitsu Ltd 文字認識装置およびその文字領域分離方法
JPH0514703A (ja) * 1991-03-27 1993-01-22 Ricoh Co Ltd 画像処理装置
JPH0520505A (ja) * 1991-07-16 1993-01-29 Nec Home Electron Ltd 文字認識装置
JPH05233873A (ja) * 1991-11-29 1993-09-10 Ricoh Co Ltd 領域分割方法
JPH06103402A (ja) * 1992-09-18 1994-04-15 Sony Corp 名刺認識装置
JPH06208651A (ja) * 1993-01-11 1994-07-26 Canon Inc 画像処理方法及び装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5185813A (en) * 1988-01-19 1993-02-09 Kabushiki Kaisha Toshiba Document image processing apparatus
JP2812982B2 (ja) * 1989-04-05 1998-10-22 株式会社リコー 表認識方法
JPH04207571A (ja) * 1990-11-30 1992-07-29 Toshiba Corp ファクシミリ装置
JPH05274367A (ja) * 1992-03-25 1993-10-22 Toshiba Corp 画像記憶装置
JP3253356B2 (ja) * 1992-07-06 2002-02-04 株式会社リコー 文書画像の領域識別方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6126150A (ja) * 1984-07-17 1986-02-05 Nec Corp 文書画像フアイル登録検索装置
JPS6126149A (ja) * 1984-07-17 1986-02-05 Nec Corp 文書画像フアイル登録検索装置
JPH0233686A (ja) * 1988-07-25 1990-02-02 Fuji Electric Co Ltd 文字列抽出方法
JPH0314184A (ja) * 1989-06-13 1991-01-22 Fuji Xerox Co Ltd 文書画像再配置ファイリング装置
JPH0343879A (ja) * 1989-07-12 1991-02-25 Fujitsu Ltd 文字認識装置およびその文字領域分離方法
JPH0514703A (ja) * 1991-03-27 1993-01-22 Ricoh Co Ltd 画像処理装置
JPH0520505A (ja) * 1991-07-16 1993-01-29 Nec Home Electron Ltd 文字認識装置
JPH05233873A (ja) * 1991-11-29 1993-09-10 Ricoh Co Ltd 領域分割方法
JPH06103402A (ja) * 1992-09-18 1994-04-15 Sony Corp 名刺認識装置
JPH06208651A (ja) * 1993-01-11 1994-07-26 Canon Inc 画像処理方法及び装置

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203305A (ja) * 1998-01-12 1999-07-30 Ricoh Co Ltd 文書画像処理方法および記録媒体
US7099507B2 (en) 1998-11-05 2006-08-29 Ricoh Company, Ltd Method and system for extracting title from document image
JP2003058556A (ja) * 2001-08-16 2003-02-28 Ricoh Co Ltd 文書画像のタイトル抽出方法、抽出プログラム、及びタイトル抽出装置
US7318033B2 (en) 2002-08-02 2008-01-08 Canon Kabushiki Kaisha Method, apparatus and program for recognizing, extracting, and speech synthesizing strings from documents
US8094202B2 (en) 2007-05-17 2012-01-10 Canon Kabushiki Kaisha Moving image capture apparatus and moving image capture method
JP2008288898A (ja) * 2007-05-17 2008-11-27 Canon Inc 動画撮像装置及び動画撮像方法
JP2010066981A (ja) * 2008-09-10 2010-03-25 Ricoh Co Ltd 画像処理装置、画像処理方法、制御プログラム及び記録媒体
US8824798B2 (en) 2009-08-20 2014-09-02 Fuji Xerox Co., Ltd. Information processing device, computer readable medium storing information processing program, and information processing method
US8605336B2 (en) 2009-09-04 2013-12-10 Ricoh Company, Ltd. Image processing apparatus, image processing system, and image conducting character recognition with respect to image data
US9307109B2 (en) 2009-09-04 2016-04-05 Ricoh Company, Ltd. Image processing apparatus, image processing system, and image processing method
EP2299386A2 (en) 2009-09-04 2011-03-23 Ricoh Company, Ltd. Image processing apparatus, image processing system, and image processing method
JP2011248609A (ja) * 2010-05-26 2011-12-08 Hitachi Omron Terminal Solutions Corp 帳票認識装置および帳票認識方法
JP2012208589A (ja) * 2011-03-29 2012-10-25 Hitachi Omron Terminal Solutions Corp 帳票認識装置、帳票認識方法およびそのためのプログラム
JP2012221118A (ja) * 2011-04-06 2012-11-12 Fuji Xerox Co Ltd 画像処理装置及びプログラム
WO2012144006A1 (ja) 2011-04-18 2012-10-26 キヤノン株式会社 データ処理装置、データ処理装置の制御方法、及びプログラム
US8831351B2 (en) 2011-04-18 2014-09-09 Canon Kabushiki Kaisha Data processing apparatus, method for controlling data processing apparatus, and non-transitory computer readable storage medium
JP5847807B2 (ja) * 2011-04-18 2016-01-27 キヤノン株式会社 データ処理装置、データ処理装置の制御方法、及びプログラム
JP2014238757A (ja) * 2013-06-10 2014-12-18 エヌ・ティ・ティ・コミュニケーションズ株式会社 文章領域読み取り順序判定装置、文章領域読み取り順序判定方法及び文章領域読み取り順序判定プログラム
US20160227066A1 (en) * 2015-01-30 2016-08-04 Pfu Limited Information processing device, method, and medium
JP2016143165A (ja) * 2015-01-30 2016-08-08 株式会社Pfu 情報処理装置、方法およびプログラム
US9641715B2 (en) 2015-01-30 2017-05-02 Pfu Limited Information processing device, method, and medium
JP2019020842A (ja) * 2017-07-12 2019-02-07 京セラドキュメントソリューションズ株式会社 原稿読取装置
JP2019169137A (ja) * 2018-02-15 2019-10-03 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド タイトル推定器
JP2022104498A (ja) * 2020-12-28 2022-07-08 キヤノンマーケティングジャパン株式会社 情報処理システム、情報処理方法、プログラム

Also Published As

Publication number Publication date
EP0762730B1 (en) 2002-10-23
CN1495660A (zh) 2004-05-12
CN1365079A (zh) 2002-08-21
CN1094224C (zh) 2002-11-13
CN1365080A (zh) 2002-08-21
CN1220162C (zh) 2005-09-21
CN100501760C (zh) 2009-06-17
KR100311633B1 (ko) 2001-12-17
EP0762730A2 (en) 1997-03-12
CN1365078A (zh) 2002-08-21
US6035061A (en) 2000-03-07
DE69624433T2 (de) 2003-03-06
CN1269068C (zh) 2006-08-09
DE69624433D1 (de) 2002-11-28
CN1153955A (zh) 1997-07-09
CN1220163C (zh) 2005-09-21
JP3425834B2 (ja) 2003-07-14
EP0762730A3 (en) 1998-01-28
KR970017047A (ko) 1997-04-28

Similar Documents

Publication Publication Date Title
JP3425834B2 (ja) 文書画像からのタイトル抽出装置および方法
USRE47889E1 (en) System and method for segmenting text lines in documents
US6006240A (en) Cell identification in table analysis
US5465304A (en) Segmentation of text, picture and lines of a document image
Jain et al. Document representation and its application to page decomposition
JP2973944B2 (ja) 文書処理装置および文書処理方法
EP0543598B1 (en) Method and apparatus for document image processing
US6754385B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
EP0854433B1 (en) Caption and photo extraction from scanned document images
US6335986B1 (en) Pattern recognizing apparatus and method
JP3345224B2 (ja) パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
JPH0652354A (ja) スキュー補正方法並びにスキュー角検出方法並びにドキュメントセグメンテーションシステムおよびスキュー角検出装置
Shafait et al. Document cleanup using page frame detection
Baker et al. Comparing approaches to mathematical document analysis from PDF
Alkalai et al. Improving formula analysis with line and mathematics identification
Yamashita et al. A document recognition system and its applications
Andersen et al. Features for neural net based region identification of newspaper documents
Hobby Using shape and layout information to find signatures, text, and graphics
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム
JPS5949671A (ja) 光学的文字読取装置
JPH0743718B2 (ja) マルチメディア文書構造化方式
Xu et al. Computerising scanned engineering documents
CN117912035A (zh) 一种快速提取文档类pdf文字信息的方法
JP2004133841A (ja) パターン認識装置、パターン認識方法、プログラムおよび記憶媒体
NANDI Block Analysis & Retrieval of Information from Scanned Engineering Drawing Images

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030422

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080509

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090509

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090509

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100509

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100509

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110509

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120509

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130509

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140509

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees