JPH11238098A - 文字列抽出装置及びパターン抽出装置 - Google Patents

文字列抽出装置及びパターン抽出装置

Info

Publication number
JPH11238098A
JPH11238098A JP10146199A JP14619998A JPH11238098A JP H11238098 A JPH11238098 A JP H11238098A JP 10146199 A JP10146199 A JP 10146199A JP 14619998 A JP14619998 A JP 14619998A JP H11238098 A JPH11238098 A JP H11238098A
Authority
JP
Japan
Prior art keywords
rectangle
character
group
character string
connected component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10146199A
Other languages
English (en)
Other versions
JP3601658B2 (ja
Inventor
Hiroaki Takebe
浩明 武部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP14619998A priority Critical patent/JP3601658B2/ja
Priority to US09/198,460 priority patent/US6563949B1/en
Priority to EP02019040A priority patent/EP1265188B1/en
Priority to DE69821595T priority patent/DE69821595D1/de
Priority to EP02019041A priority patent/EP1265189B1/en
Priority to EP98309724A priority patent/EP0924639B1/en
Priority to EP02019039A priority patent/EP1265187B1/en
Priority to DE1998627048 priority patent/DE69827048D1/de
Priority to DE69822237T priority patent/DE69822237D1/de
Priority to KR1019980053284A priority patent/KR100325384B1/ko
Priority to CN98125365A priority patent/CN1119767C/zh
Publication of JPH11238098A publication Critical patent/JPH11238098A/ja
Priority to KR10-2001-0061753A priority patent/KR100383372B1/ko
Application granted granted Critical
Publication of JP3601658B2 publication Critical patent/JP3601658B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 複雑な画像から文字列を抽出することを可能
とし、文字色を見誤ることがなく、かつ線幅が細い線分
を見落とすことがない文字列抽出装置を提供する。 【解決手段】 入力画像の連結成分を求め、連結成分の
相対的位置及び太さの類似性に基づいてグループに分
け、文字認識処理を行ってグループの文字認識度を求
め、矩形領域の面積によって重み付けしたものの総和を
グループの評価値とし、全てのグループの組み合わせに
ついて評価値を求め、組み合わせの評価値が最も高いグ
ループの組み合わせを文字列として抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文書や図面などを読
み取る画像認識技術に関わり、特に、画像から見出しな
どの文字列を抽出する場合に適用して好適なものであ
る。
【0002】
【従来の技術】文書を電子的にファイリングする場合、
キーワードを文書に付与しておくことが不可欠である
が、この作業は作業者にとって極めて煩わしいものであ
り、この作業を自動化することは、電子ファイリングの
有用性を高める上で極めて重要な課題である。
【0003】新聞や雑誌においては、見出し部分を自動
的に抽出し、文字認識してキーワードとするのが最も効
率的である。なぜなら、見出しは文書の内容の特徴を豊
富に含み、かつ文書の中で特定し易いからである。
【0004】このため、キーワードを抽出する時間を短
縮し、キーワードを的確に抽出する技術(例えば特開平
4−287168号 ファイリングの自動キーワード抽
出方法)が考案されている。
【0005】この方法は、図や写真や表の説明文が、図
や写真や表の矩形部分の上部あるいは下部にあることに
着目して、そこにある文字列あるいは文字列領域を抽出
し、文字認識を行い、キーワードとして登録するという
ものである。
【0006】また、画像から文字列を抽出する技術(例
えば、特開平8−293003号文字列抽出方法および
その方法を用いた文字列抽出装置、及びその装置を用い
た文字列認識処理装置ならびに文字列認識処理システ
ム)が考案されている。
【0007】ここでは、画像内の全ての文字を抽出し、
連続性を有する文字列毎にグループ分けし、各グループ
の特徴量と登録された文字列の特徴量のモデルと比較・
判別し、文字列として抽出するものである。ここで、連
続性とは文字列の並びのことであり、特徴量とは漢字や
数字などの文字の種類と大きさのことである。
【0008】このように、電子ファイリングの対象とな
る文書や図面が様々であり、画像認識技術も多様である
が、画像から抽出する文字列の例として、新聞でよく見
られる背景模様のある見出しを対象とする次に示す方法
が一般的によく知られている。
【0009】まず、入力画像を縦書きか、横書きかを判
定し、入力画像とその反転画像にラベリング処理を行
い、同じ色の画素が連なる連結成分を求める。次に、各
連結成分の大きさ、太さ、及び相対的位置から文字候補
を見つけ出す。
【0010】ここで、入力画像の連結成分から得られる
文字候補を黒文字候補、反転画像の連結成分から得られ
る文字候補を白文字候補と呼ぶ。この黒文字候補と白文
字候補の個数から文字の色を決定し、文字色を黒とした
場合は入力画像の連結成分のみをそれ以降の処理対象と
し、文字色を白とした場合は反転画像の連結成分のみを
それ以降の処理対象にする。
【0011】次に、処理対象の連結成分をマージして文
字列領域を求め、この文字列領域に含まれる連結成分
で、しきい値以上の太さの連結成分を文字成分として抽
出する。このしきい値は、連結成分の太さの最大値に対
する一定の割合の値である。最後に、文字成分として抽
出した連結成分を画像として生成し、文字認識処理によ
って文字列とする。
【0012】また、見出し部分を正確に抽出するため、
同一文字列に属する黒画素領域の正確な統合技術が必要
となる。この技術に関する従来方法としては、次の方法
がある。
【0013】まず、傾き補正や枠線除去などの前処理を
してから、画像全体をラベリングし、得られた黒画素連
結領域の重なりネスト統合を行う。次に、得られた黒画
素連結領域から文書全体の本文文字サイズを判断し、そ
の値をもとに各連結領域の属性判別を行う。そして、属
性が文字と判断された矩形に対しては、縦または横の統
合を繰り返し、文字列を確定する。
【0014】
【発明が解決しようとする課題】しかしながら、従来の
技術では、文字抽出処理の途中の段階で文字色を決定
し、一律の標準文字線幅を用いており、また、文字列領
域を設定するときは1行(あるいは1列)を前提にして
いた。そのため、背景模様の白黒混在、複数種類のフォ
ント混在、カラー文書、複数行、縦横混在、およびそれ
らの複合体で構成される複雑な画像から文字列を抽出す
ることが困難になるという問題があった。
【0015】また、黒文字候補と白文字候補の個数の関
係は、文字色を決定するための判断基準として信頼性が
高いとは言えず、また、文字抽出処理の途中の段階で文
字色を決定しているが、ここで判断を誤ると、それ以降
は修復不可能であり、最後に処理する文字認識が不可能
になってしまうという問題があった。
【0016】さらに、一律の標準文字線幅を用いること
は比較的線幅の細い文字成分が消失しやすい傾向にある
ことを意味し、最後に処理する文字認識に影響を及ぼし
てしまうという問題があった。
【0017】また、従来手法では、黒画素連結領域の重
なりネスト統合を行うために、本来統合されるべきでな
いところが次々と統合され、結局文書全体が統合される
という深刻な失敗に陥る可能性があった。
【0018】例えば、文書全体の傾きが補正されない場
合、また枠線が完全に除去されない場合、重なりネスト
統合により、文書全体が統合されることがある。図30
は、従来の重なりネスト統合により、文書全体が統合さ
れる例を示す図である。
【0019】図30(a)において、連結成分の外接矩
形K61〜K65が入力画像から得られたものとする。
この連結成分の外接矩形K61〜K65に対して、重な
りネスト統合を行うと、外接矩形K61と外接矩形K6
2とが重なっているため、外接矩形K61と外接矩形K
62とは統合され、図30(b)に示すように、外接矩
形K61と外接矩形K62とを囲む外接矩形K66が生
成される。外接矩形K66が生成されると、この外接矩
形K66と外接矩形K63とが重なるため、外接矩形K
66と外接矩形K63とが統合され、図30(c)に示
すように、外接矩形K66と外接矩形K63とを囲む外
接矩形K67が生成される。外接矩形K67が生成され
ると、この外接矩形K67と外接矩形K64とが重なる
ため、外接矩形K67と外接矩形K64とが統合され
る。同様にして、図30(a)の外接矩形K61〜K6
5の全てが統合され、図30(d)に示すように、外接
矩形K61〜K65を囲む外接矩形K68が生成され
る。
【0020】また、写真や図、テクスチャ付きの見出し
がある場合には、重なりネスト統合処理の時間がかかり
過ぎるという問題もある。。
【0021】そこで、本発明の第1の目的は、文書や図
面などを読み取る画像認識技術に関わり、特に、複雑な
画像から文字列を抽出することを可能とし、文字色を見
誤ることがなく、かつ線幅が細い線分を見落とすことが
ない文字列抽出装置を提供することである。
【0022】また、本発明の第2の目的は、部分的に重
なりネスト統合を行うことが可能なパターン抽出装置を
提供することである。
【0023】
【課題を解決するための手段】本発明の文字列抽出装置
は、画像から文字列を抽出する装置であって、入力した
画像から画素の色に基づいて、画素の色が連なる連結成
分を抽出する連結成分抽出手段と、連結成分の相対的位
置、および、連結成分の全画素数に対する境界画素数の
比に基づいて、連結成分を共通の文字列または文字列群
を構成する可能性が高いグループに分けるグルーピング
手段と、グループ毎に文字認識処理を行い、その結果の
各文字の第1位認識候補の距離値の逆数の和をグループ
の文字認識度とする文字認識手段と、グループの文字認
識度にグループが占める矩形領域の面積によって重み付
けしたものをグループの評価値とし、全てのグループの
組合せについてグループの評価値の和を組合せの評価値
とする組合せ評価手段と、組合せの評価値が最も高いグ
ループの組合せを文字列として抽出する文字列抽出手段
と、を備えることを特徴とする。
【0024】また、本発明の文字列抽出装置は、入力し
た画像が白黒2値画像の場合には、入力画像と、白黒2
値を反転させた反転画像とについて、黒画素が連なる連
結成分を抽出することを特徴とする。
【0025】更に、本発明の文字列抽出装置は、グルー
プが占める矩形領域に重なりがないグループのみを関連
付け、グループが占める矩形領域に重なりがないグルー
プの組合せを全て求めることを特徴とする。
【0026】更にまた、本発明の記録媒体は、プログラ
ムを記録したコンピュータ読み取り可能な記録媒体であ
って、コンピュータを、入力した画像から画素の色に基
づいて、画素の色が連なる連結成分を抽出する連結成分
抽出手段と、連結成分の相対的位置、および、連結成分
の全画素数に対する境界画素数の比に基づいて、連結成
分を共通の文字列または文字列群を構成する可能性が高
いグループに分けるグルーピング手段と、グループ毎に
文字認識処理を行い、その結果の各文字の第1位認識候
補の距離値の逆数の和をグループの文字認識度とする文
字認識手段と、グループの文字認識度にグループが占め
る矩形領域の面積によって重み付けしたものをグループ
の評価値とし、全てのグループの組合せについてグルー
プの評価値の和を組合せの評価値とする組合せ評価手段
と、組合せの評価値が最も高いグループの組合せを文字
列として抽出する文字列抽出手段と、を備え、画像から
文字列を抽出する文字列抽出装置として機能させること
を特徴とする。
【0027】また、本発明の一態様によれば、入力画像
及び前記入力画像の白黒反転画像のそれぞれから得られ
るパターンの認識結果のうち、互いに領域が重複しない
部分を組み合わせたものを、前記入力画像からのパター
ンの抽出結果とするようにしている。
【0028】このことにより、新聞などの見出し文字の
中に、黒画素で構成された文字と白抜き文字とが混在し
ている場合においても、黒文字候補と白文字候補の個数
から文字の色が決定されたために、文字色が黒とされた
場合は入力画像の連結成分のみがそれ以降の処理対象と
され、黒文字は正確に認識できるが、白抜き文字は認識
不能となったり、文字色が白とされた場合は白黒反転画
像の連結成分のみが文字認識の処理対象とされ、白抜き
文字は正確に認識できるが、黒文字は認識不能となった
りすることを防止することが可能となり、背景模様の白
黒混在、複数種類のフォント混在、カラー文書、複数
行、縦横混在、及びそれらの複合体で構成される複雑な
画像から文字列を精度よく抽出することが可能となる。
【0029】また、本発明の一態様によれば、入力画像
の連結成分を抽出する連結成分抽出手段と、前記連結成
分の外接矩形を生成する外接矩形生成手段と、前記外接
矩形が前記入力画像に存在する頻度を前記外接矩形の面
積で重み付けたヒストグラムを生成するヒストグラム生
成手段と、前記ヒストグラムの最大値を示す外接矩形の
大きさを前記入力画像の文字サイズと推定する文字サイ
ズ推定手段とを備えている。
【0030】このことにより、1つの文字が互いに分離
した複数のストロークで構成され、重なりネスト統合処
理を行わなかったために、各ストロークごとに生成され
る外接矩形がそのまま残ってしまう場合においても、1
つの文字の一部から構成される外接矩形は、1つの文字
全体からの構成される外接矩形よりも、サイズが小さく
なることから、1つの文字の一部から構成される外接矩
形の頻度の評価を低くすることが可能となり、文字サイ
ズを推定する際に、文字の部分的な大きさが文字サイズ
の推定に影響することを小さくすることが可能となるた
め、重なりネスト統合処理を行わない場合においても、
文字サイズを精度よく推定することが可能となる。
【0031】また、本発明の一態様によれば、前記外接
矩形生成手段で生成された外接矩形のグルーピングを行
うグルーピング手段と、前記文字サイズ推定手段で推定
された文字サイズを有する第1の外接矩形を所定の個数
以上含む第2の外接矩形を抽出する枠矩形抽出手段と、
前記第2の外接矩形を前記グルーピングの対象から除外
する枠矩形除外手段とを備えている。
【0032】このことにより、新聞などから見出し文字
を抽出する場合において、見出し文字の近くに本文文字
を囲む枠矩形が存在する場合においても、この枠矩形の
みを抽出することが可能となり、見出し文字の外接矩形
と区別することが可能となることから、見出し文字のみ
を精度良く抽出することが可能となる。
【0033】また、本発明の一態様によれば、前記外接
矩形に与えられた矩形番号を前記入力画像に設定された
各座標に射影する射影手段を備え、前記枠矩形抽出手段
は、前記各座標に含まれる矩形番号を前記第2の外接矩
形の座標の範囲内で探索することにより、第1の外接矩
形を抽出するようにしている。
【0034】このことにより、外接矩形内に存在する他
の外接矩形を容易に抽出することが可能となり、本文文
字を囲む枠矩形と見出し文字とが混在している場合にお
いても、枠矩形のみを高速に抽出することが可能とな
る。
【0035】また、本発明の一態様によれば、入力画像
の連結成分を抽出する連結成分抽出手段と、前記連結成
分の外接矩形を生成する外接矩形生成手段と、前記外接
矩形が互いに重なっている他の外接矩形の個数を算出す
る重なり度評価手段と、前記重なり度評価手段の算出結
果に基づいて、重なりネスト統合処理を行う重なりネス
ト統合処理手段とを備えている。
【0036】このことにより、重なり度の大きな外接矩
形だけを対象に重なりネスト統合処理を行い、重なり度
の小さな外接矩形の重なりネスト統合処理を行わないよ
うにすることが可能となることから、外接矩形が画面全
体で統合されて、見出し文字の外接矩形が消失すること
を防止することが可能となるとともに、重なり度の大き
な図や写真の一部をより大きな矩形に吸収統合しておく
ことが可能となり、図や写真の一部の外接矩形がそのま
ま残り、見出し文字として誤って抽出されたり、見出し
文字を構成するものとして誤って矩形統合されたりする
ことを防止することが可能となり、見出し文字と図や写
真などが混在している場合においても、見出し文字の抽
出を精度良く行うことが可能となる。
【0037】また、本発明の一態様によれば、前記外接
矩形に与えられた矩形番号を前記入力画像に設定された
各座標に射影する射影手段と、前記各座標に含まれる矩
形番号を所定の外接矩形の座標の範囲内で探索すること
により、前記所定の外接矩形に重なっている他の外接矩
形を抽出する重なり矩形抽出手段とを備えている。
【0038】このことにより、互いに重なっている外接
矩形を容易に抽出することが可能となり、外接矩形の重
なり度を高速に算出することが可能となる。
【0039】
【発明の実施の形態】以下、本発明の一実施例に係わる
パターン抽出装置について、図面を参照しながら説明す
る。
【0040】図1は、本発明の第1実施例に係わるパタ
ーン抽出装置の構成を示すブロック図である。図1にお
いて、反転画像生成手段1は、入力画像のラベルを反転
した反転画像を生成する。認識手段2は、入力画像から
抽出されたパターン及び反転画像生成手段1で生成され
た反転画像から抽出されたパターンの認識処理を行う。
出力手段3は、認識手段2で認識された認識結果のう
ち、入力画像から抽出されたパターンの領域と反転画像
生成手段1で生成された反転画像から抽出されたパター
ンの領域との重なりのない組み合わせを、整合性のある
組み合わせとして出力する。
【0041】このことにより、新聞などの見出し文字の
中に、黒画素で構成された文字と白抜き文字とが混在し
ている場合においても、黒画素で構成された文字と白抜
き文字との両方について認識処理を行い、黒画素で構成
された文字の認識結果及び白抜き文字の認識結果を組み
合わせて出力することが可能となる。
【0042】このため、黒文字候補と白文字候補の個数
から文字の色が決定されて、文字色が黒とされた場合は
入力画像の連結成分のみがそれ以降の処理対象とされ、
黒文字は正確に認識できるが、白抜き文字は認識不能と
なったり、文字色が白とされた場合は白黒反転画像の連
結成分のみが文字認識の処理対象とされ、白抜き文字は
正確に認識できるが、黒文字は認識不能となったりする
ことを防止することが可能となり、背景模様の白黒混
在、複数種類のフォント混在、カラー文書、複数行、縦
横混在、及びそれらの複合体で構成される複雑な画像か
ら文字列を精度よく抽出することが可能となる。
【0043】図2は、本発明の第2実施例に係わるパタ
ーン抽出装置の構成を示すブロック図である。図2にお
いて、連結成分抽出手段11は、入力画像のラベリング
を行うことにより、入力画像の連結成分を抽出する。外
接矩形生成手段12は、連結成分抽出手段11で抽出さ
れた連結成分の外接矩形を生成する。重なり度評価手段
13は、外接矩形生成手段12で生成された外接矩形が
互いに重なっている他の外接矩形の個数を算出する。重
なりネスト統合処理手段14は、重なり度評価手段13
の算出結果に基づいて、重なりネスト統合処理を行う。
【0044】このことにより、重なりネスト統合を部分
的に行うことが可能となり、重なり度の大きな外接矩形
だけを対象に重なりネスト統合処理を行い、重なり度の
小さな外接矩形の重なりネスト統合処理を行わないよう
にすることが可能となることから、外接矩形が画面全体
で統合されて、見出し文字の外接矩形が消失することを
防止することが可能となる。
【0045】また、重なり度の大きな図や写真の一部を
より大きな矩形に吸収統合しておくことが可能となり、
図や写真の一部の外接矩形がそのまま残り、見出し文字
として誤って抽出されたり、見出し文字を構成するもの
として誤って矩形統合されたりすることを防止すること
が可能となり、見出し文字と図や写真などが混在してい
る場合においても、見出し文字の抽出を精度良く行うこ
とが可能となる。
【0046】図3は、本発明の一実施例に係わる情報検
索装置のシステム構成を示すブロック図である。図3に
おいて、21は全体的な処理を行う中央演算処理ユニッ
ト(CPU)、22はリードオンリメモリ(ROM)、
23はランダムアクセスメモリ(RAM)、24は通信
インターフェイス、25は通信ネットワーク、26はバ
ス、27は入出力インターフェイス、28は見出し文字
などの認識結果などを表示するディスプレイ、29は見
出し文字などの認識結果などを印刷するプリンタ、30
はスキャナ31により読み取られたデータを一時的に格
納するメモリ、31は入力画像などを読み取るスキャ
ナ、32はキーボード、33は記憶媒体を駆動するドラ
イバ、34はハードディスク、35はICメモリカー
ド、36は磁気テープ、37はフロッピーディスク、3
8はCD−ROMやDVD−ROMなどの光ディスクで
ある。
【0047】パターン抽出処理を行うプログラムなど
は、ハードディスク34、ICメモリカード35、磁気
テープ36、フロッピーディスク37、光ディスク38
などの記憶媒体に格納される。そして、パターン抽出処
理を行うプログラムなどを、これらの記憶媒体からRA
M23に読み出すことにより、新聞や雑誌などの文書画
像から見出し文字などの抽出を行うことができる。ま
た、パターン抽出処理を行うプログラムなどを、ROM
22に格納しておくこともできる。
【0048】さらに、パターン抽出処理を行うプログラ
ムなどを、通信インターフェイス24を介して通信ネッ
トワーク25から取り出すこともできる。通信インター
フェイス24に接続される通信ネットワーク25とし
て、例えば、LAN(Local Area Netw
ork)、WAN(Wide Area Networ
k)、インターネット、アナログ電話網、デジタル電話
網(ISDN:Integral Service D
igital Network)、PHS(パーソナル
ハンディシステム)や衛星通信などの無線通信網を用い
ることができる。
【0049】CPU21は、パターン抽出処理を行うプ
ログラムが起動されると、スキャナ31により読み取ら
れた入力画像にラベリングを行い、同一ラベルが付され
た連結成分ごとに外接矩形を生成する。そして、各外接
矩形の重なり度を調べ、重なり度の大きな外接矩形同士
に対して、重なりネスト統合を行う。次に、重なりネス
ト統合が行われた外接矩形のグルーピングを行い、その
グルーピング結果の中から見出し文字を抽出し、その抽
出結果をディスプレイ28やプリンタ29に出力する。
【0050】図4は、本発明の第3実施例に係わる文字
列抽出装置の動作を説明する図である。図4(a)にお
いて、黒枠の中に「黒白反転」と2行に渡って書かれた
黒画素文字と、「調査グ」と縦書きで書かれた白抜き文
字が入力画像として入力されたものとし、この入力画像
から、「黒白反転」という文字列と「調査グ」という文
字列とを抽出するものとする。
【0051】まず、入力した画像から画素の色に基づい
て、画素の色が連なる連結成分を抽出する。入力画像が
カラー画像である場合は、各色について連結成分を抽出
する。図4(a)の入力画像は白黒2値画像であるで、
白黒2値を反転させた反転画像についても、黒画素およ
び白画素が連なる連結成分を抽出する。反転画像は図4
(a)に示すように、入力画像の背景領域の色と文字部
分の色とが反転する。
【0052】この連結成分の抽出処理により、入力画像
の黒画素の各連結成分ごとに、異なるラベルが付される
ととも、反転画像の黒画素の各連結成分ごとに、異なる
ラベルが付される。
【0053】次に、入力画像と反転画像のそれぞれにつ
いて、連結成分と連結成分の位置関係および連結成分と
連結成分の太さの類似性から、共通の文字列または文字
列群を構成する可能性が高い連結成分をグループ分けす
る。
【0054】ここで、連結成分の太さの類似性とは、連
結成分の全画素数に対する境界画素数の比のことであ
り、共通の文字列または文字列群とは、意味的に共同し
て同一のことがらを表現する文字列の集合のことであ
る。
【0055】その結果、図4(a)に示すように、入力
画像の「黒白反転」という文字は、太さが互いに同じ
で、それぞれ近接して配置されているので、グループa
にグルーピングされる。また、入力画像の「黒白反転」
という文字を囲む枠及び「調査グ」という白抜き文字の
背景部分に対応する黒画素領域は、黒画素で1つに連結
しているので、グループbにグルーピングされる。
【0056】また、反転画像の「黒白反転」という白抜
き文字の背景部分に対応する黒画素領域及び「調査グ」
という文字を囲む枠は、黒画素で1つに連結しているの
で、グループa1にグルーピングされる。また、反転画
像の「調査グ」という文字は、太さが互いに同じで、そ
れぞれ近接して配置されているので、グループb1にグ
ルーピングされる。
【0057】ここで、グループaは背景領域が白で比較
的小さい文字のグループであり、グループbは背景領域
が黒で比較的大きめの白抜き文字であるが、この時点で
はグループbは白抜き文字とは認識できていない。グル
ープaには白を背景に文字があるらしいこと、グループ
bは全体が黒っぽいことが判る程度である。このため、
グループbの黒画素で構成される背景領域についての文
字認識処理を行っても、「調査グ」という文字を認識す
ることはできない。
【0058】また、グループa1は背景領域が黒で比較
的小さめの白抜き文字であり、グループb1は背景領域
が白で比較的大きい文字のグループであるが、この時点
ではグループb1は白抜き文字とは認識できていない。
グループa1は全体が黒っぽいこと、グループb1には
白を背景に文字があるらしいことが判る程度である。こ
のため、グループa1の黒画素で構成される背景領域に
ついての文字認識処理を行っても、「黒白反転」という
文字を認識することはできない。
【0059】このようにグループ分けされると、グルー
プ毎に文字認識処理を行う。その結果の各文字の第1位
認識候補の距離値の逆数の和をグループの文字認識度と
する。従って、グループの文字認識度の値が高ければ、
抽出すべき文字列である可能性が高いことになる。グル
ープの文字認識度にグループが占める矩形領域の面積に
よって重み付けしたものをグループの評価値とする。
【0060】次に、全てのグループの組合せについて評
価値を求め、組合せの評価値とする。グループを組合せ
る時には、グループが占める矩形領域に重なりがないグ
ループのみを関連付け、グループが占める矩形領域に重
なりがないグループの組合せを全て求める。
【0061】図4(b)の組合せは、グループが占める
矩形領域に重なりがないグループを組合せることを説明
するための図である。図4(b)に示すように、図4
(a)のグループaは、グループb1が占める矩形領域
と重ならないため、グループb1と組み合わされる可能
性があるが、グループb及びグループa1とは、グルー
プが占める矩形領域が重なるため、グループb及びグル
ープa1と組み合わされることがない。
【0062】一方、グループbは、グループa、グルー
プa1、あるいはグループb1のどのグループと組み合
わせても、グループが占める矩形領域が重なるため、グ
ループa、グループa1、あるいはグループb1のいず
れのグループとも組み合わされる可能性がない。
【0063】従って、全ての組合せから、グループaと
グループbの組合せ、グループaとグループa1の組合
せ、グループbとグループa1の組合せ、グループbと
グループb1の組合せ及びグループa1とグループb1
の組合せが除外され、グループaとグループb1の組合
せだけが残る。図4(b)に除外される組合せを点線で
示す。実線で接続されるグループの組合せの全てについ
て評価値が計算される。その結果、組合せの評価値が最
も高いグループの組合せを文字列として抽出する。
【0064】図4(c)は、抽出結果を示す。図4
(c)において、グループaとグループb1の組合せが
選択され、グループaから抽出されるパターンの文字認
識を行った結果、「黒白反転」という文字列が出力さ
れ、グループb1から抽出されるパターンの文字認識を
行った結果、「調査グ」という文字列が出力される。
【0065】ここで、もし、グループbについての文字
認識を行った場合には、グループbは、入力画像の「黒
白反転」という文字を囲む枠及び「調査グ」という白抜
き文字の背景部分に対応する黒画素領域で構成されてい
るため、「調査グ」という文字列を正しく認識すること
ができない。
【0066】このため、図4(a)の入力画像から抽出
されるパターンだけを用いて、認識処理を行うと、「黒
白反転」という文字列は抽出できるが、「調査グ」とい
う文字列は抽出できなくなる。
【0067】一方、グループa1についての文字認識を
行った場合には、グループa1は、反転画像の「黒白反
転」という白抜き文字の背景部分に対応する黒画素領域
及び「調査グ」という文字を囲む枠で構成されているた
め、「調査グ」という文字列を正しく認識することがで
きない。
【0068】このため、図4(a)の反転画像から抽出
されるパターンだけを用いて、認識処理を行うと、「調
査グ」という文字列は抽出できるが、「黒白反転」とい
う文字列は抽出できなくなる。
【0069】これに対して、図4の実施例では、入力画
像から抽出されるパターン及び反転画像から抽出される
パターンの両方を用いて文字認識を行い、「黒白反転」
という文字列は入力画像から抽出し、「調査グ」という
文字列は反転画像から抽出することができるので、「黒
白反転」という文字列及び「調査グ」という文字列の両
方とも正しく抽出するこができる。
【0070】図5は、本発明の第3実施例に係わる文字
列抽出装置の構成を示すブロック図である。図5におい
て、文字列抽出装置41は、連結成分抽出手段42とグ
ルーピング手段43と文字認識手段44と組合せ評価手
段45と文字列抽出手段46を備えている。
【0071】連結成分抽出手段42では、入力した画像
から画素の色に基づいて画素の色が連なる連結成分を抽
出する。入力画像がカラー画像である場合は各色につい
て連結成分を抽出し、入力画像が白黒2値画像である場
合は反転画像についても黒画素および白画素が連なる連
結成分を抽出する。
【0072】グルーピング手段43では、連結成分と連
結成分の位置関係および連結成分と連結成分の太さの類
似性から共通の文字列または文字列群を構成する可能性
が高い連結成分をグループ分けする。
【0073】文字認識手段44では、グループ毎に文字
認識処理を行い、グループの文字認識度を求める。組合
せ評価手段45では、グループの評価値を求め、更に組
合せの評価値を求める。文字列抽出手段46では、組合
せの評価値が最も高いグループの組合せを文字列として
抽出する。
【0074】このように、図5の文字列抽出装置41で
は、連結成分の類似性からグループ分けし、グループ毎
に文字認識処理を実施し文字列らしさを付与し、整合性
のある組合せのグループを抽出するので、黒白混在の背
景模様、カラー文書などの複雑な画像から文字列を抽出
することが可能になる。
【0075】また、図5の文字列抽出装置41および記
録媒体では、抽出処理の途中では色の決定を行わず、文
字列領域の仮定も行わず、また、抽出処理の過程で一律
に標準文字の線幅を決定しないので、文字列抽出の精度
が向上する。
【0076】以下、本発明の第3実施例に係わる文字列
抽出装置41について図面を用いて詳細に説明する。こ
の文字列抽出装置41の実施例として、新聞の見出しな
どの白黒2値の画像から文字列を抽出する場合を例にと
る。
【0077】図6は、本発明の第3実施例に係わる文字
列抽出装置の動作を示すフローチャートである。図6に
おいて、まず、ステップS1において、画像が入力さ
れ、ステップS2に進む。ステップS2では、入力され
た画像に対し黒白反転の画像を生成する。続いて、入力
画像と反転画像の処理を並行して行うが、入力画像の処
理をする場合はステップS3へ、反転画像の処理をする
場合はステップS6に進む。
【0078】入力画像と反転画像が得られると、続いて
それぞれの連結成分を求めるためにラベリング処理を行
う。ステップS3では、入力画像のラベリング処理を、
ステップS6では、反転画像のラベリング処理を行う。
【0079】入力画像と反転画像のラベリングに続い
て、それぞれの連結成分をグルーピング(グループ分
け)する。図6のステップS4では、入力画像のグルー
ピングを、ステップS7では、反転画像のグルーピング
を行う。
【0080】入力画像と反転画像のグルーピングに続い
て、それぞれのグループの文字認識処理を行う。ステッ
プS5では、入力画像のグループの文字認識処理を、ス
テップS8では、反転画像のグループの文字認識処理を
行う。
【0081】入力画像と反転画像のグループの文字認識
処理に続いて、ステップS9に進む。ステップS9で
は、グループが占める矩形領域に重なりがあるグループ
をグループの組合せから除外し、整合性のある組合せを
全て数え上げる。
【0082】ステップS10では、候補に上がった組合
せの各々について、評価値に基づいて評価する。各グル
ープの評価値は、グループの文字認識度と各グループが
占める矩形領域の面積との関数であり、組合せの評価値
は、整合性のある組合せについてグループの評価値を組
み合わせて求める。
【0083】続いて、ステップS11に進み、ステップ
S10において、組合せの評価値が最高の組合せのグル
ープに対応する文字列を抽出して処理を終了する。図7
は、本発明の一実施例に係わるラベリング処理を説明す
る図である。図7において、白抜き文字の「祭」の1文
字が1から4までの番号を付けた4つの連結成分R1〜
R4から構成されていることが示される。このように、
同じ色の画素(図4では白画素)が連なる連結成分を番
号などによって識別してゆくことをラベリングという。
【0084】図8は、本発明の一実施例に係わるグルー
ピング処理を示すフローチャートである。図8におい
て、まず、ステップS21において、文字成分候補を選
択する。ステップS21では、対象連結成分の絞り込み
を行う。ここでは、連結成分の外接矩形の大きさがある
基準以下のものを除去し、明らかに文字成分候補となり
得ないものを今後の処理の対象外にする。続いて、ステ
ップS22に進む。
【0085】ステップS22では、連結成分に対して近
傍を設定する。近傍は、連結成分の外接矩形の周囲を一
定の大きさで囲んだ時にできる領域とする。連結成分の
近傍に一部が含まれる連結成分を近傍連結成分と呼ぶ。
続いて、ステップS23に進む。
【0086】ステップS23では、連結成分とその近傍
連結成分とをリンクさせる。ここでリンクとは、連結成
分および近傍連結成分のそれぞれが同じ文字列あるいは
同じ文字列群に属するかを判断し、連結成分とその近傍
連結成分とを関係付けることである。
【0087】連結成分のリンクは、連結成分の相対的位
置および太さの類似性に基づいて行われる。連結成分間
の相対的位置と太さの類似性のことを連結成分の家族的
類似性と呼ぶ。ステップS23では、全ての連結成分お
よび全ての近傍連結成分との家族的類似性が判断され、
ステップS24に進む。
【0088】ステップS24では、リンクで結ばれた連
結成分および近傍連結成分をグループとして抽出する。
連結成分のリンクの仕方は様々であり、例えば、連結成
分Aと連結成分Bと連結成分Cがリンクで結ばれている
が、連結成分Aと連結成分Cは直接結ばれていない場合
がある。また、連結成分Aから連結成分Bにリンクして
いるが、連結成分Bから連結成分Aにはリンクしていな
い場合もある。
【0089】このようなリンクを形成する連結成分を弧
状連結の連結成分と呼ぶ。ステップS24では、リンク
で結ばれた弧状連結の連結成分の集合を取り出して一つ
のグループとする。図9は、本発明の一実施例に係わる
連結成分と外接矩形の例を示す図である。
【0090】図9において、カタカナの「タ」という文
字が一つの連結成分であり、その外接矩形のx方向の長
さがdx、y方向の長さがdyである。図10は、本発
明の一実施例に係わる対象連結成分の絞り込み方法を示
すフローチャートである。
【0091】図10において、連結成分の外接矩形を表
すx方向の長さdxのしきい値とy方向の長さdyのし
きい値とを、それえぞth1乃至th2と予め決めてお
く。図10のステップS31において、x方向の長さd
xとy方向の長さdyが入力されると、ステップS32
において、y方向の長さdyがしきい値th2より小さ
いかどうかが判定される。
【0092】ステップS32において、y方向の長さd
yがしきい値th2より小さければ、ステップS33に
進み、y方向の長さdyがしきい値th2より小さくな
ければ、ステップS36に進む。ステップS33におい
て、x方向の長さdxがしきい値th1より大きく、し
きい値th2より小さければ、ステップS35に進み、
x方向の長さdxがしきい値th1以下であるか、しき
い値th2以上であれば、ステップS34に進む。
【0093】ステップS34において、y方向の長さd
yがしきい値th1より大きければ、ステップS35に
進み、y方向の長さdyがしきい値th1より大きくな
ければ、ステップS36に進む。
【0094】ステップS35においては、当該の連結成
分を文字成分候補となり得るものとし、ステップS36
においては、当該の連結成分を今後の処理の対象外にし
て処理を終了する。
【0095】図11は、本発明の一実施例に係わる連結
成分近傍を説明する図である。図11において、近傍は
連結成分の外接矩形の周囲を一定の大きさで囲んだ時に
できる領域である。
【0096】ここで、一定の大きさとは、図11に示す
ように、縦書きの場合は横方向の両側にそれぞれ横方向
サイズ×(1/6)、縦方向の上下に縦方向サイズ×
(3/4)の領域とする。横書きの場合も近傍の定義は
同じである。
【0097】図11では、「京」という文字に着目し
て、「京」の近傍を設定した場合、「京」の近傍には、
「東」という文字と「に」という文字がかかっているの
で、「京」という文字の近傍連結成分が「東」という文
字と「に」という文字であることが判る。図11の「東
京に今秋」の背景領域の半分には大小の網点が配置され
ており、「京」の文字は○印を付けた部分で接触してい
るように見えるため、「京」の1文字が一つの連結成分
と見なされる。
【0098】なお、図11で「京」の文字が○印を付け
た部分で接触していないとすると、「京」は「なべぶ
た」とそれ以外の2つの連結成分からなり、それぞれの
連結成分の近傍について、それぞれのサイズについて近
傍連結成分が調べられる。
【0099】図12は、本発明の一実施例に係わる連結
成分の家族的類似性を説明する図である。図12におい
て、連結成分の家族的類似性は連結成分間の相対的な位
置関係と連結成分の平均的太さの差に依存して定まる。
ここで、平均的太さは、連結成分の全画素数に対する境
界画素数の比、すなわち(境界画素数/全画素数)で表
される。
【0100】図12に示す連結成分Aと連結成分Aの近
傍連結成分Bの位置関係をdおよびnx、連結成分Aと
近傍連結成分Bの平均的太さをそれぞれtaとtbとす
ると、連結成分Aに対する近傍連結成分Bの家族的類似
性は、以下の式で表される。
【0101】連結成分Aに対する近傍連結成分Bの家族
的類似性=d/nx+0.1×max(ta,tb)/
min(ta,tb) ここで、dは、近傍連結成分Bのx方向の成分nxが連
結成分Aからはみ出た部分の長さを表す。
【0102】図12に示す連結成分Aに対する近傍連結
成分Bの家族的類似性も、連結成分Bに対する連結成分
Cの家族的類似性も同程度に高いので、それぞれの連結
成分A,B,Cは同じ文字列に属すると判断される。こ
こでは、連結成分Bに対する連結成分Cの家族的類似性
は太さの成分についてのみ考慮される。
【0103】図13は、本発明の一実施例に係わるグル
ープの文字認識度の算出方法を説明する図である。図1
3において、グループの文字認識度はグループごとに文
字認識処理を行い、その結果の各文字の第1位認識候補
の距離値の逆数の和で表される。文字の距離値が小さい
ことは文字の認識度が高いことを意味する。
【0104】図13に示すように、例えば、「東京に今
秋」という文字列をグループA、グループAの各文字
「東」、「京」、「に」、「今」、「秋」の第1位認識
候補の距離値をそれぞれd1,d2,d3,d4,d5
とすると、グループAの文字認識度Raは、以下の式で
表される。
【0105】Ra=1/d1+1/d2+1/d3+1
/d4+1/d5 なお、図13の「東京の今秋」という文字列の背景領域
にある「網点模様」は完全に「点」であれば、対象連結
成分の絞り込みで対象外とされる可能性が高いが、仮
に、点と点が接続された「網目模様」であるとすると、
グループBとして分類され、グループBも、「網目模
様」の反転画像のグループも、文字認識度は0であるこ
とが予想される。また、このグループBの「網目模様」
は、「東京の今秋」という文字列からなるグループAと
重なっているため、グループBがグループAと組み合わ
されて出力されることはない。
【0106】図14は、本発明の一実施例に係わる連合
グラフとクリークを示す図である。図14において、グ
ループが占める矩形領域に重なりがないグループのみを
関連付け、グループが占める矩形領域に重なりがないグ
ループの組合せを全て求めるために、連合グラフとクリ
ークの概念を用いている。
【0107】すなわち、整合性のある組合せを数え上げ
るために連合グラフを作成し、完全グラフであるクリー
クを全て求めることで、グループが占める矩形領域に重
なりがあるグループをグループの組合せから除外するこ
とができる。
【0108】図14の連合グラフは、グループをノード
として、グループが占める矩形領域が互いに重ならない
グループに相当するノード同士を、パス(実線)で接続
して作成したものである。連合グラフにおいて、矩形領
域に重なりがあるグループに相当するノード同士はパス
で接続されない。
【0109】クリークは整合性あるノードの組合せを表
す。クリークは連合グラフから複数作成され、それぞれ
のクリークは全てのノードがパスで結ばれる完全グラフ
である。連合グラフからクリークを求めることで整合性
のあるグループの組合せを全て数え上げることができ
る。
【0110】図13ところで仮に設定したグループBの
「網目模様」とグループAの「東京に今秋」について、
グループAとグループBとが個別に認識されても、グル
ープAとグループBとの組合せとして成立しないのはこ
のためである。
【0111】こうして整合性のあるグループについての
組合せの評価値を求めることが可能になり、評価の結
果、例えば、背景領域にある網目模様や、汚れなどが除
外されることになる。
【0112】例えば、図14において、ノードN1〜N
8からなる連合グラフが作成されたものとすると、各ノ
ードから他の全てのノードにパスがででいる完全グラフ
を求める。例えば、ノードN1は、ノードN1から他の
全てのノードN2〜N8にパスがでているので、ノード
N1は、クリークのノードとなり、ノードN2は、ノー
ドN2からノードN8にパスがでていないので、ノード
N2は、クリークのノードから除外され、ノードN3
は、ノードN3から他の全てのノードN1、N2、N4
〜N8にパスがでているので、ノードN3は、クリーク
のノードとなり、ノードN4は、ノードN4から他の全
てのノードN12〜N3、N5〜N8にパスがでている
ので、ノードN4は、クリークのノードとなり、ノード
N5は、ノードN5から他の全てのノードN1〜N4、
N6〜N8にパスがでているので、ノードN5は、クリ
ークのノードとなり、ノードN6は、ノードN6からノ
ードN8にパスがでていないので、ノードN6は、クリ
ークのノードから除外され、ノードN7は、ノードN7
から他の全てのノードN1〜N6、N8にパスがでてい
るので、ノードN7は、クリークのノードとなり、ノー
ドN8は、ノードN8から他の全てのノードN1〜N7
にパスがでているので、ノードN8は、クリークのノー
ドとなる。
【0113】この結果、ノードN1、N3、N4、N
5、N7、N8からなるクリークを抽出することができ
る。連合グラフからクリークを抽出することにより、矩
形領域が互いに重ならないグループのみを効率的に抽出
することができる。
【0114】図15は、本発明の一実施例に係わる連結
成分の重なりのないグループの抽出方法を示すフローチ
ャートである。図15において、各グループについて、
他の全てのグループに対し関連付けられるかどうかの判
断を行い(ステップS41)、連合グラフを生成する
(ステップS42)。次に、連合グラフからクリークを
抽出し(ステップS43)、入力画像から抽出されるグ
ループと反転画像から抽出されるグループの組み合わせ
のうち、整合性のある組み合わせを確定する(ステップ
S44)。
【0115】図16は、本発明の一実施例に係わる連結
成分同士のリンク付けの方法を説明する図である。図1
6(a)において、「水道メーター」という背景が黒色
の白抜き文字と「談合解明」という黒画素文字が入力さ
れたものとし、「談」という文字の一部の連結成分R1
1とリンク付けられる連結成分を抽出するものとする。
【0116】この場合、図16(b)に示すように、連
結成分R11の外接矩形G1が生成され、この外接矩形
G1の周囲に連結成分の近傍B1が設定される。連結成
分の近傍B1が設定されると、図16(c)に示すよう
に、連結成分の近傍B1にかかる近傍連結成分R12〜
R20が抽出される。近傍連結成分R12〜R20が抽
出されると、図16(d)に示すように、連結成分R1
1と近傍連結成分R12〜R20との家族的類似性が調
べられる。ここで、近傍連結成分R12は連結成分R1
1と太さが大きく異なるので、近傍連結成分R12は連
結成分R11とのリンク付けの対象から除外され、近傍
連結成分R12を除いた近傍連結成分R13〜R20が
連結成分R11とリンク付けられる。
【0117】図17は、本発明の一実施例に係わるクリ
ークとなるグループとクリークとならないグループの例
を示す図である。図17(a)において、原画像の「水
道メーター」という文字は、太さが互いに同じで、それ
ぞれ近接して配置されているので、グループ1にグルー
ピングされる。また、原画像の「談合解明」という白抜
き文字の背景部分に対応する黒画素領域は、黒画素で1
つに連結しているので、グループ2にグルーピングされ
る。
【0118】また、反転画像の「水道メーター」という
白抜き文字の背景部分に対応する黒画素領域は、黒画素
で1つに連結しているので、グループaにグルーピング
される。また、反転画像の「談合解明」という文字は、
太さが互いに同じで、それぞれ近接して配置されている
ので、グループbにグルーピングされる。
【0119】次に、図17(c)に示すように、グルー
プ1とグループbは、グループ1が占める矩形領域とグ
ループbが占める矩形領域とが互いに重ならないため、
クリークとみなされ、グループ1とグループbは整合性
のある組み合わせとされる。また、図17(d)に示す
ように、グループ1とグループaは、グループ1が占め
る矩形領域とグループaが占める矩形領域とが互いに重
なり、クリークでないとみなされるため、グループ1と
グループaは整合性のない組み合わせとされる。
【0120】このようにして、図17(b)に示すよう
に、グループ1は、グループb及びグループ2とは整合
性のある組み合わせとなるが、グループaとは整合性の
ある組み合わせとならない。また、グループ2は、グル
ープ1及びグループaとは整合性のある組み合わせとな
るが、グループbとは整合性のある組み合わせとならな
い。また、グループaは、グループ2及びグループbと
は整合性のある組み合わせとなるが、グループ1とは整
合性のある組み合わせとならない。また、グループb
は、グループ1及びグループaとは整合性のある組み合
わせとなるが、グループ2とは整合性のある組み合わせ
とならない。
【0121】図18は、本発明の一実施例に係わる組合
せの評価値の算出方法を示す図である。図18におい
て、組合せの評価値は、整合性のある組合せについて、
グループの文字認識度と各グループが占める矩形領域の
面積との関数であるグループの評価値を組み合わせて求
める。
【0122】例えば、図18の入力画像から整合性のあ
るグループの組合せとして、グループAとグループBの
組合せを得たとする。グループAが占める矩形領域の面
積をSa、グループの文字認識度をRa、グループBが
占める矩形領域の面積をSb、グループの文字認識度を
Rbとすると、グループAとグループBの組合せの評価
値は、以下の式で求められる。
【0123】組み合わせ(A、B)の評価値=aSa×
Ra×Ra+Sb×Rb×Rbなお、本実施例では、黒
白画像について説明したが、本実施例は黒白画像に限定
されることなく、黒白画素を色の彩度、明度、濃度に置
き換えることにより、広くカラー文字やカラーの背景に
適用できることは勿論のことである。
【0124】また、本実施例では、縦書き文字を例にし
て説明したが、縦書き文字にも縦横混在の文字列にも適
用できることは勿論のことである。次に、本発明の第4
実施例に係わるパターン抽出装置について説明する。
【0125】本発明の第4実施例では、連結成分の重な
りネスト統合を省略することにより、画像全体が統合さ
れることを防止するととも、見出し領域を抽出する際に
悪影響のもとになる図や写真の一部は、より大きな矩形
に吸収統合しておくようにして、その影響を軽減する。
一般に、図や写真の一部からなる矩形は、互いに重なっ
ていることが多く、これらを見分ける目安となる。そこ
で、見出し矩形の互いの重なり度を計算し、あるしきい
値を越えるものを図や写真の一部からなる矩形と判断
し、その矩形に限り重なりネスト統合を行う。
【0126】また、重なりネスト統合を省略した時に、
正確な本文文字サイズを推定するために、連結成分の外
接矩形の大きさに関するヒストグラムで、頻度及び矩形
の面積によって重みづけられたものを利用する。これに
より、文字の一部分がそのままカウントされ、実際の本
文文字サイズよりも小さい大きさの矩形の数が最大にな
っても、面積の重みづけがあるので、新しいヒストグラ
ムでは最大にならない。よって、実際の本文文字サイズ
よりも小さい大きさの矩形が推定文字サイズにはならな
い。逆に、大きな連結成分があったとしても、面積は大
きいものの頻度が小さいので、実際の本文文字サイズよ
りも大きい大きさの矩形も推定文字サイズにはならな
い。
【0127】以下、本発明の第4実施例について、白黒
2値の画像の場合を例にとって説明する。図19は、本
発明の第4実施例に係わるパターン抽出装置の動作を示
すフローチャートである。
【0128】図19において、まず、入力された画像に
対し、ラベリング処理を施す(ステップS51)。この
ラベリング処理により、各連結成分の外接矩形の座標情
報が得られる。
【0129】次に、本文文字サイズの推定を行う(ステ
ップS52)。この本文文字サイズの推定では、まず、
連結成分の外接矩形の大きさに関するヒストグラムを作
成する。ただし、このヒストグラムは、頻度及び矩形の
面積によって重みづけられたものとする。具体的には、
まず、ある連結成分の横幅をdx、縦幅をdyとしたと
き、その大きい方のヒトスグラムをとる。さらに、得ら
れたヒストグラムの各値H(i)に対し、 H′(i)=H(i)×H(i)×i×i (ただし、iは矩形の大きさを表す。)という変換を施
して、新しいヒストグラムH′を作成する。この新しい
ヒストグラムH′に関し、ヒストグラム値の最大を与え
るところを本文文字サイズとする。
【0130】図20は、本発明の一実施例に係わる外接
矩形の大きさを求めるためのヒストグラムの一例を示す
図である。図20(a)において、重なりネスト統合を
行わないで、外接矩形の大きさの頻度Hを表すヒストグ
ラムを生成すると、本文文字の大きさに対応するピーク
P2が発生するとともに、統合される前の文字の一部の
外接矩形の大きさに対応するピークP1が発生する場合
がある。
【0131】このため、このヒストグラムを用いて本文
文字サイズを推定すると、ピークP1に対応する外接矩
形の大きさが本文文字サイズと推定され、本文文字サイ
ズの大きさが誤って推定される場合がある。
【0132】一方、図20(b)において、図20
(a)のヒストグラムを外接矩形の大きさで重み付けす
ると、外接矩形の大きさの大きいピークP2のヒストグ
ラム値Hに比べて、外接矩形の大きさの小さいピークP
1のヒストグラム値Hは小さくなる。この結果、図20
(b)のヒストグラムでは、統合される前の文字の一部
の外接矩形の大きさに対応するピークP1’の値に比べ
て、本文文字の大きさに対応するピークP2’の値を大
きく評価することが可能となり、ピークP1’に対応す
る外接矩形の大きさが本文文字サイズと誤って推定され
ることを防止して、本文文字サイズの大きさを正しく推
定することが可能となる。
【0133】次に、本文文字矩形候補の射影テーブルの
作成を行う(ステップS53)。この射影テーブルの作
成では、まず、すべての矩形の中から本文文字矩形候補
を選出する。具体的には、連結成分の横幅をdx、縦幅
をdy、本文文字サイズをc、しきい値をαとすると、 |max(dx,dy)−c|<α を満たす矩形を本文文字矩形候補とする。
【0134】次に、全画像のx座標軸、及びy座標軸に
関し、本文文字矩形候補の射影をとる。すなわち、ある
本文文字矩形候補の番号をn、その矩形の左上点の座標
を(x1,y1)、右下点の座標を(x2,y2)とし
た時、x座標軸上でx1〜x2までのところに、また、
y座標軸上でy1〜y2までのところに、番号nを記録
する。このようにして、本文文字矩形候補の射影テーブ
ルを作成する。
【0135】図21は、本発明の一実施例に係わる矩形
番号の射影方法の一例を示す図である。図21におい
て、矩形番号1〜6の外接矩形が生成されたものとする
と、各矩形番号1〜6をxy座標軸に射影する。例え
ば、x座標が4〜6の点には、矩形番号1、6の外接矩
形がかかっているので、x座標が4〜6の点には矩形番
号1、6が射影される。また、x座標が7、8、10の
点には、矩形番号6の外接矩形がかかっているので、x
座標が7、8、10の点には矩形番号6が射影される。
また、x座標が9の点には、矩形番号2、4、6の外接
矩形がかかっているので、x座標が9の点には矩形番号
2、4、6が射影される。また、x座標が11の点に
は、矩形番号3、5の外接矩形がかかっているので、x
座標が11の点には矩形番号3、5が射影される。y座
標についても同様である。
【0136】次に、見出し矩形候補の選択を行う(ステ
ップS54)。この見出し矩形候補の選択では、見出し
及び見出しを構成する文字を選択する。基本的には、本
文文字のある一定倍の大きさ以上のものを、見出し矩形
候補とする。
【0137】図22は、本発明の一実施例に係わる見出
し矩形候補の選択方法を示すフローチャートである。図
22において、まず、矩形の左上点の座標を(x1,y
1)、矩形の右下点の座標を(x2,y2)、矩形の右
下点のx座標x2と矩形の左上点のx座標x1との差を
dx、矩形の右下点のy座標y2と矩形の左上点のy座
標y1との差をdy、本文文字サイズをmojiとする
(ステップS71)。
【0138】次に、以下の条件を満たすかどうかを判断
し(ステップS72)、この条件を満たさない場合は、
見出し矩形候補でないとして処理を終了し、この条件を
満たす場合は、ステップS73に進む。
【0139】 (dx<moji×16またはdy>moji×2) かつ (dx>moji×2またはdy<moji×16) 次に、以下の条件を満たすかどうかを判断し(ステップ
S73)、この条件を満たさない場合は、見出し矩形候
補でないとして処理を終了し、この条件を満たす場合
は、見出し矩形候補として登録する(ステップS7
4)。
【0140】 (dx>moji×3/2またはdy>moji×3/
2) かつ (dx>moji/3またはdy>moji/3) 次に、枠矩形のチェックを行う(ステップS55)。
【0141】枠の全体、あるいはその一部からなる連結
成分の外接矩形を枠矩形と呼ぶことにすると、枠矩形
は、見出しにはなり得ないものの、大きさ及び形状から
では、枠矩形と見出し矩形との判別ができない。そこ
で、予め矩形全体から枠矩形を除外しなくてはならな
い。一般に、枠の中には本文文字が数多く含まれ、見出
し矩形の中には本文文字がほとんど含まれていないた
め、矩形の中の本文文字矩形候補の数を調べ、枠矩形か
どうかの判断をする。すなわち、注目する領域の外接矩
形内に含まれる本文文字矩形候補の数を数え、ある一定
の数よりも多いとき、枠、あるいは枠の一部で囲まれた
領域であると判断する。ここで、本文文字矩形候補と
は、外接矩形が本文文字サイズである連結黒画素領域の
ことを指す。なお、枠の中の本文文字の数は、文字矩形
候補の射影テーブルを用いて、効率的に計算することが
できる。
【0142】図23は、本発明の一実施例に係わる枠矩
形のチェック方法を説明する図である。図23におい
て、外接矩形K1〜K6が抽出され、外接矩形K1〜K
5が見出し文字の矩形候補として選択されたものとす
る。ここで、外接矩形K1〜K4は見出し文字の外接矩
形であり、外接矩形K5は、本文文字を囲む枠の外接矩
形であるものとする。この場合、外接矩形K1〜K5が
同一のグループにグルーピングされると、見出し文字の
外接矩形のグループの中に見出し文字以外の外接矩形が
属するため、見出し文字の抽出が正確にできなくなるの
で、外接矩形K5を見出し文字の矩形候補から除去する
必要がある。
【0143】そこで、本文文字を囲む枠の中には、本文
文字が多数含まれているということに着目し、見出し文
字の矩形候補として選択された外接矩形K1〜K5の中
に含まれる本文文字サイズの外接矩形K6の個数を数え
る。
【0144】この結果、外接矩形K5の中には、本文文
字サイズの外接矩形K6が多数含まれており、外接矩形
K1〜K4の中には、本文文字サイズの外接矩形が含ま
れていないので、本文文字サイズの外接矩形K6が多数
含まれている外接矩形K5を見出し文字の矩形候補から
除去することにより、見出し文字の矩形候補として外接
矩形K1〜K4だけを正しく選択することが可能とな
る。
【0145】次に、部分的重なりネスト統合を行う(ス
テップS56) 見出し矩形候補の中には、図や写真の一部からなる連結
成分の外接矩形が含まれていることがあり、これらの外
接矩形は他の正しい見出し矩形と統合されるなどして、
悪影響のもとになる。そこで、これらの図や写真の一部
からなる外接矩形は、より大きな矩形に吸収統合してお
くことで、見出し矩形の抽出への悪影響を軽減しなけれ
ばならない。一般に、図や写真の一部からなる矩形は、
互いに重なっていることが多く、これらを見分ける目安
となる。そこで、外接矩形の互いの重なり度を計算し、
あるしきい値を越えるものを図や写真の一部から得られ
た外接矩形と判断し、その矩形に限り重なりネスト統合
を行う。ここで、外接矩形の重なり度とは、外接矩形が
他の外接矩形と何重に重なっているかを示す数である。
【0146】図24は、本発明の一実施例に係わる重な
りネスト統合を説明する図である。図24において、
「画」という文字の連結成分を抽出した結果、2つの連
結成分R1、R2が抽出され、連結成分R1の外接矩形
K11及び連結成分R2の外接矩形K12が生成された
ものとする。この外接矩形K11、K12に重なりネス
ト統合を行うと、外接矩形K11、K12を囲む外接矩
形K13が生成される。
【0147】この結果、複数のストロークから構成され
る文字について、各ストロークごとに異なるラベルが付
与された場合においても、1つの文字を構成する各スト
ロークを1つにまとめることができる。
【0148】図25は、本発明の一実施例に係わる部分
的重なりネスト統合を説明する図である。図25(a)
において、外接矩形K21〜K26が生成されたものと
する。ここで、例えば、外接矩形K22については、外
接矩形K22は外接矩形K21及び外接矩形K23の2
つの外接矩形と重なっているので、重なり度が2とな
る。また、外接矩形K23については、外接矩形K23
は外接矩形K22、外接矩形K24〜K26の4つの外
接矩形と重なっているので、重なり度が4となる。
【0149】ここで、例えば、重なり度が4以上の外接
矩形だけについて、重なりネスト統合を行うものとする
と、図25(b)に示すように、外接矩形K22〜K2
6を含む外接矩形K27が生成され、外接矩形K21と
外接矩形K27は統合されない。
【0150】ここで、例えば、外接矩形K21は見出し
文字の外接矩形であり、外接矩形K22〜K26は背景
の絵柄の外接矩形であるものとし、重なり度を考慮しな
いで重なりネスト統合を行うと、外接矩形K21〜K2
6は全て統合され、見出し文字の外接矩形が消失し、見
出し文字の領域を抽出できなくなる。
【0151】一方、重なりネスト統合を全く行わないよ
うにすると、外接矩形K21〜K26はそれぞれ別個に
存在し、見出し文字の背景の絵柄の外接矩形K22〜K
26が見出し矩形候補として選択される場合が発生し、
見出し文字の背景の絵柄の外接矩形K22〜K26が見
出し矩形候補として選択される場合には、見出し文字の
正確な抽出ができなくなる。
【0152】そこで、重なりネスト統合の対象となる外
接矩形K21〜K26を重なり度を用いて選別し、外接
矩形K22〜K26のみを対象として重なりネスト統合
を行うことにより、見出し文字の背景の絵柄の外接矩形
K22〜K26を外接矩形K27に吸収して、外接矩形
K22〜K26が見出し矩形候補として選択されること
を防止することが可能となるとともに、見出し文字の外
接矩形K21をそのまま残しておくことが可能となり、
見出し文字の抽出精度を向上させることが可能となる。
【0153】重なり度の具体的な計算は、以下のように
して行うことができる。まず、図21に示した方法によ
り、見出し矩形候補の射影テーブルを作成する。次に、
見出し矩形候補について、1画素ずつ、x座標軸の射影
テーブルとy座標軸の射影テーブルとから見出し矩形の
番号を参照することにより、重なり度を計算する。
【0154】次に、矩形統合を行う(ステップS5
7)。この矩形統合では、見出し矩形同士の統合が行わ
れる。まず、注目する見出し矩形について近傍領域をと
り、他の見出し矩形の中で一部がその近傍領域に含まれ
る見出し矩形を調べ上げる。そして、注目している見出
し矩形が、その近傍領域内の見出し矩形と統合できるか
どうかを判断する。この際、近傍領域の取り方及び統合
条件は、縦書き用と横書き用の2つのケースに即した取
り方及び条件で行う。
【0155】図26は、本発明の一実施例に係わる近傍
矩形の例を示す図である。図26において、外接矩形K
31〜K36が生成されているものとし、外接矩形K3
1を注目矩形として、近傍領域を設定するものとする
と、外接矩形K31の周囲の所定の範囲内に近傍領域H
1が設定される。外接矩形K31と矩形統合される外接
矩形の候補として、近傍領域H1にかかる外接矩形K3
2〜K34が選択され、外接矩形K35、K36は、外
接矩形K31と矩形統合される外接矩形の候補から除か
れる。
【0156】図27は、本発明の一実施例に係わる近傍
統合処理を示すフローチャートである。図27におい
て、まず、矩形集合を入力し(ステップS81)、矩形
間のリンク張りを行う(ステップS82)。矩形間のリ
ンク張りでは、まず、注目矩形の近傍を設定し(ステッ
プS91)、注目矩形の近傍にかかる外接矩形を抽出す
ることにより、注目矩形の近傍矩形を決定し(ステップ
S92)、注目矩形と近傍矩形との位置関係、文字線太
さ、または各矩形内の黒画素密度などを考慮することに
より、注目矩形と近傍矩形との統合可否の決定を行う。
そして、注目矩形と近傍矩形とが統合可とされたものに
ついて、リンクを張る。
【0157】次に、リンクでつながる極大矩形集合の抽
出を行い(ステップS83)、極大矩形集合に属する矩
形を、ステップS81で入力された矩形の集合から削除
し、極大矩形集合の外接矩形を矩形集合に追加する(ス
テップS84)。
【0158】次に、重複矩形除去を行う(ステップS5
8)。この重複矩形除去では、統合された見出し矩形の
中で重複をさけるため、同一の矩形の一方を棄却する。
【0159】図28は、本発明の一実施例に係わる重複
矩形の一例を示す図である。図28において、外接矩形
K41、K42が抽出され、外接矩形K41を注目矩形
として縦統合を行う場合、外接矩形K41の周囲に近傍
領域H11が設定される。そして、近傍領域H11にか
かる外接矩形K42が抽出され、外接矩形K41と外接
矩形K42との統合が可能であると判定されると、外接
矩形K41、K42を含む外接矩形K43が生成され
る。
【0160】一方、外接矩形K41を注目矩形として横
統合を行う場合、外接矩形K41の周囲に近傍領域H1
2が設定される。そして、近傍領域H12にかかる外接
矩形K42が抽出され、外接矩形K41と外接矩形K4
2との統合が可能であると判定されると、外接矩形K4
1、K42を含む外接矩形K43が生成される。
【0161】この結果、全く同一の外接矩形K43が重
複して生成されるため、一方の外接矩形K43を棄却す
る。次に、枠矩形のチェックを行う(ステップS5
9)。
【0162】この枠矩形のチェックでは、得られた見出
し矩形について、再び、それが枠矩形かどうかの判断を
射影テーブルを用いて行い、見出し矩形の中から枠矩形
を除外する。
【0163】次に、見出し矩形の得点づけを行う(ステ
ップS60)。この見出し矩形の得点づけでは、得られ
た見出し矩形について、その大きさ及び形状から得点を
付与する。
【0164】図29は、本発明の一実施例に係わる見出
し矩形の得点付け方法を説明する図である。図29にお
いて、外接矩形K51が生成され、その外接矩形K51
の横方向の長さをdx、縦方向の長さをdyとすると、
この外接矩形K51についての得点は、以下の式で与え
られる。
【0165】 得点=(1+α×ratio)×(dx×dy) ratio=max(dx、dy)/min(dx、d
y) ここで、αはパラメータである。
【0166】この得点を算出することにより、見出し文
字から構成されるタイトルが、1つの文書画像から複数
得られた場合、それらのタイトルに優先順位を付けて出
力することができる。
【0167】
【発明の効果】以上の説明したように、本発明によれ
ば、連結成分の家族的類似性からグループ分けし、グル
ープ毎に文字認識処理を実施し文字列らしさを付与し、
整合性のある組合せのグループを抽出するので、白黒混
在の背景模様、複数のフォント混在、カラー文書、複数
行、縦横混在、およびそれらの複合体で構成される複雑
な画像から文字列を抽出することが可能になるという効
果がある。
【0168】また、本発明の一態様によれば、抽出処理
の途中では、色の決定や文字列領域の仮定を行わず、ま
た、抽出処理の過程で一律に標準文字の線幅を決めてし
まうことがないので、文字色を見誤ることがなく、かつ
比較的細い線分を見落とすことがなくなり、文字列抽出
の精度が向上するという効果がある。
【0169】また、本発明の一態様によれば、入力画像
及び前記入力画像の白黒反転画像のそれぞれから得られ
るパターンの認識結果のうち、互いに領域が重複しない
部分を組み合わせたものを、前記入力画像からのパター
ンの抽出結果とすることにより、新聞などの見出し文字
の中に、黒画素で構成された文字と白抜き文字とが混在
している場合においても、黒文字候補と白文字候補の個
数から文字の色を決定されて、文字色が黒とされた場合
は入力画像の連結成分のみがそれ以降の処理対象とさ
れ、黒文字は正確に認識できるが、白抜き文字は認識不
能となったり、文字色が白とされた場合は白黒反転画像
の連結成分のみが文字認識の処理対象とされ、白抜き文
字は正確に認識できるが、黒文字は認識不能となったり
することを防止することが可能となり、背景模様の白黒
混在、複数種類のフォント混在、カラー文書、複数行、
縦横混在、及びそれらの複合体で構成される複雑な画像
から文字列を精度よく抽出することが可能となる。
【0170】また、本発明の一態様によれば、外接矩形
の頻度をその外接矩形の面積で重み付けることにより、
1つの文字が互いに分離した複数のストロークで構成さ
れ、重なりネスト処理を行わなかったために、各ストロ
ークごとに生成される外接矩形がそのまま残ってしまう
場合においても、1つの文字の一部から構成される外接
矩形は、1つの文字全体からの構成される外接矩形より
も、サイズが小さくなることから、1つの文字の一部か
ら構成される外接矩形の頻度を小さくすることが可能と
なり、文字サイズを推定する際に、文字の部分的な大き
さが文字サイズの推定に影響することを小さくすること
が可能となり、重なりネスト処理を行わない場合におい
ても、文字サイズを精度よく推定することが可能とな
る。
【0171】また、本発明の一態様によれば、枠の中に
含まれている本文文字の個数を数えることにより、新聞
などから見出し文字を抽出する場合において、見出し文
字の近くに本文文字を囲む枠矩形が存在する場合におい
ても、この枠矩形のみを抽出することが可能となり、見
出し文字の外接矩形と区別することが可能となることか
ら、見出し文字のみを精度良く抽出することが可能とな
る。
【0172】また、本発明の一態様によれば、外接矩形
に与えられた矩形番号を入力画像に設定された各座標に
射影することにより、外接矩形内に存在する他の外接矩
形を容易に抽出することが可能となり、本文文字を囲む
枠矩形と見出し文字とが混在している場合においても、
枠矩形のみを高速に抽出することが可能となる。
【0173】また、本発明の一態様によれば、重なりネ
スト統合を部分的に行うことにより、重なり度の大きな
外接矩形だけを対象に重なりネスト処理を行い、重なり
度の小さな外接矩形の重なりネスト統合処理を行わない
ようにすることが可能となることから、外接矩形が画面
全体で統合されて、見出し文字の外接矩形が消失するこ
とを防止することが可能となるとともに、重なり度の大
きな図や写真の一部をより大きな矩形に吸収統合してお
くことが可能となり、図や写真の一部の外接矩形がその
まま残り、見出し文字として誤って抽出されたり、見出
し文字を構成するものとして誤って矩形統合されたりす
ることを防止することが可能となり、見出し文字と図や
写真などが混在している場合においても、見出し文字の
抽出を精度良く行うことが可能となる。
【0174】また、本発明の一態様によれば、外接矩形
に与えられた矩形番号を入力画像に設定された各座標に
射影することにより、互いに重なっている外接矩形を容
易に抽出することが可能となり、外接矩形の重なり度を
高速に算出することが可能となる。
【図面の簡単な説明】
【図1】本発明の第1実施例に係わるパターン抽出装置
の構成を示すブロック図である。
【図2】本発明の第2実施例に係わるパターン抽出装置
の構成を示すブロック図である。
【図3】本発明の一実施例に係わるパターン抽出装置の
システム構成を示すブロック図である。
【図4】本発明の第3実施例に係わる文字列抽出装置の
動作を説明する図である。
【図5】本発明の第3実施例に係わる文字列抽出装置の
構成を示すブロック図である。
【図6】本発明の第3実施例に係わる文字列抽出装置の
動作を示すフローチャートである。
【図7】本発明の一実施例に係わるラベリング処理を説
明する図である。
【図8】本発明の一実施例に係わるグルーピング処理を
示すフローチャートである。
【図9】本発明の一実施例に係わる連結成分と外接矩形
の例を示す図である。
【図10】本発明の一実施例に係わる対象連結成分の絞
り込み方法を示すフローチャートである。
【図11】本発明の一実施例に係わる連結成分近傍を説
明する図である。
【図12】本発明の一実施例に係わる連結成分の家族的
類似性を説明する図である。
【図13】本発明の一実施例に係わるグループの文字認
識度の算出方法を説明する図である。
【図14】本発明の一実施例に係わる連合グラフとクリ
ークを示す図である。
【図15】本発明の一実施例に係わる連結成分の重なり
のないグループの抽出方法を示すフローチャートであ
る。
【図16】本発明の一実施例に係わる連結成分同士のリ
ンク付けの方法を説明する図である。
【図17】本発明の一実施例に係わるクリークとなるグ
ループとクリークとならないグループの例を示す図であ
る。
【図18】本発明の一実施例に係わる組合せの評価値の
算出方法を示す図である。
【図19】本発明の第4実施例に係わるパターン抽出装
置の動作を示すフローチャートである。
【図20】本発明の一実施例に係わる外接矩形の大きさ
を求めるためのヒストグラムの一例を示す図である。
【図21】本発明の一実施例に係わる矩形番号の射影テ
ーブルの一例を示す図である。
【図22】本発明の一実施例に係わる見出し矩形候補の
選択方法を示すフローチャートである。
【図23】本発明の一実施例に係わる枠矩形のチェック
方法を説明する図である。
【図24】本発明の一実施例に係わる重なりネスト統合
を説明する図である。
【図25】本発明の一実施例に係わる部分的重なりネス
ト統合を説明する図である。
【図26】本発明の一実施例に係わる近傍矩形の例を示
す図である。
【図27】本発明の一実施例に係わる近傍統合処理を示
すフローチャートである。
【図28】本発明の一実施例に係わる重複矩形の一例を
示す図である。
【図29】本発明の一実施例に係わる見出し矩形の得点
付け方法を説明する図である。
【図30】従来の重なりネスト統合により文書全体の矩
形が統合される例を示す図である。
【符号の説明】
1 反転画像生成手段 2 認識手段 3 出力手段 11 連結成分抽出手段 12 外接矩形生成手段 13 重なり度評価手段 14 重なりネスト処理手段 21 CPU 22 ROM 23 RAM 24 通信インターフェース 25 通信ネットワーク 26 バス 27 入出力インターフェース 28 ディスプレイ 29 プリンタ 30 メモリ 31 スキャナ 32 キーボード 33 ドライバ 34 ハードディスク 35 ICメモリカード 36 磁気テープ 37 フロッピーディスク 38 光ディスク 41 文字列抽出装置 42 連結成分抽出手段 43 グルーピング手段 44 文字認識手段 45 組合せ評価手段 46 文字列抽出手段

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 画像から文字列を抽出する文字列抽出装
    置であって、 入力した画像から画素の色に基づいて、画素の色が連な
    る連結成分を抽出する連結成分抽出手段と、 連結成分の相対的位置、および、連結成分の太さに基づ
    いて、連結成分を共通の文字列または文字列群を構成す
    る可能性が高いグループに分けるグルーピング手段と、 グループ毎に文字認識処理を行い、その結果の各文字の
    第1位認識候補の距離値に基づいてグループの文字認識
    度を決める文字認識手段と、 グループの文字認識度にグループが占める矩形領域の面
    積によって重み付けしたものをグループの評価値とし、
    全てのグループの組合せについてグループの評価値の和
    を組合せの評価値とする組合せ評価手段と、 組合せの評価値が最も高いグループの組合せを文字列と
    して抽出する文字列抽出手段と、 を備えることを特徴とする文字列抽出装置。
  2. 【請求項2】 前記連結成分の太さは、前記連結成分の
    全画素数に対する境界画素数の比であることを特徴とす
    る請求項1に記載の文字列抽出装置。
  3. 【請求項3】 入力した画像が白黒2値画像の場合に
    は、入力画像と、白黒2値を反転させた反転画像とにつ
    いて、黒画素が連なる連結成分を抽出することを特徴と
    する請求項1または2に記載の文字列抽出装置。
  4. 【請求項4】 グループが占める矩形領域に重なりがな
    いグループのみを関連付け、グループが占める矩形領域
    に重なりがないグループの組合せを全て求めることを特
    徴とする請求項1または2に記載の文字列抽出装置。
  5. 【請求項5】 入力画像のラベルを反転した反転画像を
    生成する反転画像生成手段と、 前記入力画像から抽出されたパターン及び前記反転画像
    から抽出されたパターンの認識処理を行う認識手段と、 前記認識結果のうち、前記入力画像から抽出されたパタ
    ーンの領域と前記反転画像から抽出されたパターンの領
    域との重なりのない組み合わせを出力する出力手段とを
    備えることを特徴とするパターン抽出装置。
  6. 【請求項6】 入力画像の連結成分を抽出する連結成分
    抽出手段と、 前記連結成分の外接矩形を生成する外接矩形生成手段
    と、 前記外接矩形の頻度を前記外接矩形の面積で重み付けた
    ヒストグラムを生成するヒストグラム生成手段と、 前記ヒストグラムの最大値を示す外接矩形の大きさを、
    前記入力画像の文字サイズと推定する文字サイズ推定手
    段とを備えることを特徴とするパターン抽出装置。
  7. 【請求項7】 前記外接矩形生成手段で生成された外接
    矩形のグルーピングを行うグルーピング手段と、 前記文字サイズ推定手段で推定された文字サイズを有す
    る第1の外接矩形を所定の個数以上含む第2の外接矩形
    を抽出する枠矩形抽出手段と、 前記第2の外接矩形を前記グルーピングの対象から除外
    する枠矩形除外手段とを備えることを特徴とする請求項
    6に記載のパターン抽出装置。
  8. 【請求項8】 前記外接矩形に与えられた矩形番号を前
    記入力画像に設定された各座標に射影する射影手段を備
    え、 前記枠矩形抽出手段は、前記各座標に含まれる矩形番号
    を前記第2の外接矩形の座標の範囲内で探索することに
    より、第1の外接矩形を抽出することを特徴とする請求
    項7に記載のパターン抽出装置。
  9. 【請求項9】 入力画像の連結成分を抽出する連結成分
    抽出手段と、 前記連結成分の外接矩形を生成する外接矩形生成手段
    と、 前記外接矩形が互いに重なっている他の外接矩形の個数
    を算出する重なり度評価手段と、 前記重なり度評価手段の算出結果に基づいて、重なりネ
    スト統合処理を行う重なりネスト統合処理手段とを備え
    ることを特徴とするパターン抽出装置。
  10. 【請求項10】 前記外接矩形に付与された矩形番号
    を、前記入力画像に設定された各座標に射影する射影手
    段と、 前記各座標に含まれる矩形番号を所定の外接矩形の座標
    の範囲内で探索することにより、前記所定の外接矩形に
    重なっている他の外接矩形を抽出する重なり矩形抽出手
    段とを備えることを特徴とする請求項9に記載のパター
    ン抽出装置。
  11. 【請求項11】 入力画像及び前記入力画像の白黒反転
    画像のそれぞれから得られるパターンの認識結果のう
    ち、互いに領域が重複しない部分を組み合わせたもの
    を、前記入力画像からのパターンの抽出結果とすること
    を特徴とするパターン抽出方法。
  12. 【請求項12】 入力画像の連結成分の外接矩形の重な
    り度に基づいて、重なりネスト統合処理を部分的に行う
    ことを特徴とするパターン抽出方法。
  13. 【請求項13】 コンピュータを入力した画像から画素
    の色に基づいて、画素の色が連なる連結成分を抽出する
    連結成分抽出手段と、 連結成分の相対的位置、および、連結成分の太さに基づ
    いて、連結成分を共通の文字列または文字列群を構成す
    る可能性が高いグループに分けるグルーピング手段と、 グループ毎に文字認識処理を行い、その結果の各文字の
    第1位認識候補の距離値に基づいてグループの文字認識
    度を決める文字認識手段と、 グループの文字認識度にグループが占める矩形領域の面
    積によって重み付けしたものをグループの評価値とし、
    全てのグループの組合せについてグループの評価値の和
    を組合せの評価値とする組合せ評価手段と、 組合せの評価値が最も高いグループの組合せを文字列と
    して抽出する文字列抽出手段と、 を備え、画像から文字列を抽出する文字列抽出装置とし
    て機能させることを特徴とするプログラムを記録したコ
    ンピュータ読み取り可能な記録媒体。
  14. 【請求項14】 入力画像の連結成分を抽出する機能
    と、 前記連結成分の外接矩形を生成する機能と、 前記外接矩形が互いに重なっている他の外接矩形の個数
    を算出する機能と、 前記算出された個数に基づいて、重なりネスト統合処理
    を行う機能とをコンピュータに実行させるプログラムを
    格納したコンピュータ読み取り可能な記憶媒体。
JP14619998A 1997-12-19 1998-05-27 文字列抽出装置及びパターン抽出装置 Expired - Fee Related JP3601658B2 (ja)

Priority Applications (12)

Application Number Priority Date Filing Date Title
JP14619998A JP3601658B2 (ja) 1997-12-19 1998-05-27 文字列抽出装置及びパターン抽出装置
US09/198,460 US6563949B1 (en) 1997-12-19 1998-11-24 Character string extraction apparatus and pattern extraction apparatus
DE1998627048 DE69827048D1 (de) 1997-12-19 1998-11-26 Gerät und Verfahren zur Musterextraktion
EP02019041A EP1265189B1 (en) 1997-12-19 1998-11-26 Pattern extraction apparatus and method
EP98309724A EP0924639B1 (en) 1997-12-19 1998-11-26 Character string extraction apparatus and pattern extraction apparatus
EP02019039A EP1265187B1 (en) 1997-12-19 1998-11-26 Pattern extraction apparatus and method
EP02019040A EP1265188B1 (en) 1997-12-19 1998-11-26 Pattern extraction apparatus and method
DE69822237T DE69822237D1 (de) 1997-12-19 1998-11-26 Gerät und Verfahren zum Extrahieren von Mustern
DE69821595T DE69821595D1 (de) 1997-12-19 1998-11-26 Gerät zur Zeichenkettenermittlung und Gerät zur Musterermittlung
KR1019980053284A KR100325384B1 (ko) 1997-12-19 1998-12-05 문자열추출장치및패턴추출장치
CN98125365A CN1119767C (zh) 1997-12-19 1998-12-18 字符提取设备及方法,模式提取设备及方法和模式识别设备
KR10-2001-0061753A KR100383372B1 (ko) 1997-12-19 2001-10-08 패턴 추출 장치, 패턴 추출 방법, 및 기억 매체

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP35135397 1997-12-19
JP9-351353 1997-12-19
JP14619998A JP3601658B2 (ja) 1997-12-19 1998-05-27 文字列抽出装置及びパターン抽出装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2003353012A Division JP2004030696A (ja) 1997-12-19 2003-10-10 文字列抽出装置及びパターン抽出装置

Publications (2)

Publication Number Publication Date
JPH11238098A true JPH11238098A (ja) 1999-08-31
JP3601658B2 JP3601658B2 (ja) 2004-12-15

Family

ID=26477082

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14619998A Expired - Fee Related JP3601658B2 (ja) 1997-12-19 1998-05-27 文字列抽出装置及びパターン抽出装置

Country Status (6)

Country Link
US (1) US6563949B1 (ja)
EP (4) EP0924639B1 (ja)
JP (1) JP3601658B2 (ja)
KR (2) KR100325384B1 (ja)
CN (1) CN1119767C (ja)
DE (3) DE69822237D1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309771A (ja) * 2004-04-21 2005-11-04 Omron Corp 文字列領域抽出装置
JP2012118649A (ja) * 2010-11-30 2012-06-21 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2012174163A (ja) * 2011-02-24 2012-09-10 Fujitsu Ltd 文字認識処理装置および方法並びに文字認識処理プログラム
JP2015184691A (ja) * 2014-03-20 2015-10-22 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001060247A (ja) * 1999-06-14 2001-03-06 Fuji Xerox Co Ltd 画像処理装置および画像処理方法
JP2001052116A (ja) * 1999-08-06 2001-02-23 Toshiba Corp パターン列マッチング装置とパターン列マッチング方法と文字列マッチング装置と文字列マッチング方法
JP3604993B2 (ja) * 2000-03-16 2004-12-22 シャープ株式会社 画像符号化装置、画像符号化方法、画像復号装置、および画像復号方法
JP4047090B2 (ja) * 2002-07-31 2008-02-13 キヤノン株式会社 画像処理方法及び画像処理装置
JP2004348706A (ja) 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
US7035439B2 (en) * 2003-07-30 2006-04-25 Xerox Corporation System and method for measuring and quantizing document quality
US7171618B2 (en) * 2003-07-30 2007-01-30 Xerox Corporation Multi-versioned documents and method for creation and use thereof
US7483570B1 (en) * 2004-02-11 2009-01-27 Knight Andrew F Software and method for creating a dynamic handwriting font
US20050254546A1 (en) * 2004-05-12 2005-11-17 General Electric Company System and method for segmenting crowded environments into individual objects
EP1785847B1 (en) * 2005-10-27 2015-11-18 Accenture Global Services Limited Display apparatus for automatically visualizing an application landscape
US7561722B2 (en) * 2005-12-14 2009-07-14 Xerox Corporation System and method for interactive document layout
JP4807618B2 (ja) * 2006-03-06 2011-11-02 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP4907382B2 (ja) * 2007-02-23 2012-03-28 ジーイー・メディカル・システムズ・グローバル・テクノロジー・カンパニー・エルエルシー 超音波画像表示方法および超音波診断装置
US8068684B2 (en) 2007-05-04 2011-11-29 I.R.I.S. Compression of digital images of scanned documents
US8094202B2 (en) * 2007-05-17 2012-01-10 Canon Kabushiki Kaisha Moving image capture apparatus and moving image capture method
JPWO2009081791A1 (ja) * 2007-12-21 2011-05-06 日本電気株式会社 情報処理システム、その方法及びプログラム
US8131758B2 (en) 2007-12-26 2012-03-06 Novell, Inc. Techniques for recognizing multiple patterns within a string
CN101551859B (zh) * 2008-03-31 2012-01-04 夏普株式会社 图像辨别装置及图像检索装置
US8134194B2 (en) * 2008-05-22 2012-03-13 Micron Technology, Inc. Memory cells, memory cell constructions, and memory cell programming methods
US8037410B2 (en) * 2008-10-27 2011-10-11 Yahoo! Inc. Method and apparatus for estimating the size of rendered text
US8824785B2 (en) 2010-01-27 2014-09-02 Dst Technologies, Inc. Segregation of handwritten information from typographic information on a document
JP5691817B2 (ja) * 2011-05-12 2015-04-01 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP5831420B2 (ja) * 2012-09-28 2015-12-09 オムロン株式会社 画像処理装置および画像処理方法
JP6003705B2 (ja) * 2013-02-14 2016-10-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2015040908A (ja) * 2013-08-20 2015-03-02 株式会社リコー 情報処理装置、情報更新プログラム及び情報更新方法
CN106157250B (zh) * 2015-03-26 2019-03-01 富士通株式会社 去除文档图像中的印记的方法和设备
US10991104B2 (en) 2017-04-11 2021-04-27 Rakuten, Inc. Image processing device, image processing method, and program

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH591726A5 (ja) * 1973-07-30 1977-09-30 Nederlanden Staat
EP0381773B1 (en) * 1988-07-20 1998-06-10 Fujitsu Limited Character recognition apparatus
US5048109A (en) 1989-12-08 1991-09-10 Xerox Corporation Detection of highlighted regions
JPH0528317A (ja) * 1991-07-23 1993-02-05 Canon Inc 画像処理方法及び装置
JP3278471B2 (ja) 1991-11-29 2002-04-30 株式会社リコー 領域分割方法
US5680479A (en) 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5991435A (en) * 1992-06-30 1999-11-23 Matsushita Electric Industrial Co., Ltd. Inspecting apparatus of mounting state of component or printing state of cream solder in mounting line of electronic component
JP2933801B2 (ja) * 1993-06-11 1999-08-16 富士通株式会社 文字の切り出し方法及びその装置
JPH08123901A (ja) 1994-10-26 1996-05-17 Nec Corp 文字抽出装置及び該装置を用いた文字認識装置
JPH08194780A (ja) 1994-11-18 1996-07-30 Ricoh Co Ltd 特徴抽出方法
JP3400151B2 (ja) * 1994-12-08 2003-04-28 株式会社東芝 文字列領域抽出装置および方法
EP0830842A4 (en) * 1996-03-18 1999-12-15 Furuno Electric Co ULTRASONIC DIAGNOSTIC DEVICE
US5892843A (en) * 1997-01-21 1999-04-06 Matsushita Electric Industrial Co., Ltd. Title, caption and photo extraction from scanned document images

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309771A (ja) * 2004-04-21 2005-11-04 Omron Corp 文字列領域抽出装置
JP2012118649A (ja) * 2010-11-30 2012-06-21 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2012174163A (ja) * 2011-02-24 2012-09-10 Fujitsu Ltd 文字認識処理装置および方法並びに文字認識処理プログラム
JP2015184691A (ja) * 2014-03-20 2015-10-22 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム

Also Published As

Publication number Publication date
EP0924639A3 (en) 2001-11-28
EP1265187A1 (en) 2002-12-11
KR20010110369A (ko) 2001-12-13
DE69821595D1 (de) 2004-03-18
EP1265188A1 (en) 2002-12-11
EP0924639A2 (en) 1999-06-23
EP1265188B1 (en) 2004-10-13
DE69827048D1 (de) 2004-11-18
CN1220434A (zh) 1999-06-23
EP1265187B1 (en) 2004-03-03
EP1265189B1 (en) 2005-01-26
KR100325384B1 (ko) 2002-04-17
JP3601658B2 (ja) 2004-12-15
KR100383372B1 (ko) 2003-05-12
US6563949B1 (en) 2003-05-13
CN1119767C (zh) 2003-08-27
KR19990062829A (ko) 1999-07-26
DE69822237D1 (de) 2004-04-08
EP0924639B1 (en) 2004-02-11
EP1265189A1 (en) 2002-12-11

Similar Documents

Publication Publication Date Title
JP3601658B2 (ja) 文字列抽出装置及びパターン抽出装置
CN111507251B (zh) 试题图像中作答区域的定位方法、装置、电子设备及计算机存储介质
JP3748172B2 (ja) 画像処理装置
US8442319B2 (en) System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
US8428356B2 (en) Image processing device and image processing method for generating electronic document with a table line determination portion
US10423851B2 (en) Method, apparatus, and computer-readable medium for processing an image with horizontal and vertical text
JP3913985B2 (ja) 文書画像中の基本成分に基づく文字列抽出装置および方法
JP3851742B2 (ja) 帳票処理方法及び装置
US10586125B2 (en) Line removal method, apparatus, and computer-readable medium
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
JP4275866B2 (ja) カラー画像から文字列パターンを抽出する装置および方法
JP2005317042A (ja) 画像処理装置
CN111626145A (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
JP2004030696A (ja) 文字列抽出装置及びパターン抽出装置
JP4031189B2 (ja) 文書認識装置及び文書認識方法
US20220406083A1 (en) Image processing apparatus, control method thereof, and storage medium
JP5107100B2 (ja) 文字認識方法、文字認識装置及び文字認識プログラム
JP2001143076A (ja) 画像処理装置
KR100317653B1 (ko) 대용량인쇄체문자인식을위한특징추출방법
JP2002015323A (ja) 文書画像レイアウト識別方法および装置
JP2002342711A (ja) 画像認識装置、画像認識方法、及び画像認識方法を実現するプログラムとこのプログラムの記録媒体
CN117275000A (zh) 单字检测方法及装置
CN115100672A (zh) 文字检测识别方法、装置、设备与计算机可读存储介质
JPH05189607A (ja) 紙文書画像処理装置
Pradnyawatia et al. Character Segmentation to the Case Study: Image of Quadratic Equation Expression

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040914

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040915

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071001

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081001

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081001

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091001

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091001

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101001

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101001

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111001

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111001

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121001

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121001

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131001

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees