JP2002024836A - ディジタルイメージから表題を抽出する方法 - Google Patents

ディジタルイメージから表題を抽出する方法

Info

Publication number
JP2002024836A
JP2002024836A JP2001089836A JP2001089836A JP2002024836A JP 2002024836 A JP2002024836 A JP 2002024836A JP 2001089836 A JP2001089836 A JP 2001089836A JP 2001089836 A JP2001089836 A JP 2001089836A JP 2002024836 A JP2002024836 A JP 2002024836A
Authority
JP
Japan
Prior art keywords
component
components
connected components
image
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001089836A
Other languages
English (en)
Inventor
Yue Ma
マ ユゥー
Min Yi
イー ミン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of JP2002024836A publication Critical patent/JP2002024836A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/155Segmentation; Edge detection involving morphological operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18076Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10008Still image; Photographic image from scanner, fax or copier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20004Adaptive image processing
    • G06T2207/20012Locally adaptive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 (修正有) 【課題】スキャンイメージから表題及び、見出しを抽出
する。 【解決手段】グレースケールイメージに、複数レベルの
しきい値を設定し、複数の2値イメージを得、つぎに各
2値イメージ内のすべての連結成分を同定し、クラスタ
ー化する。更に、各2値イメージ内で可能な表題領域を
同定し、可能な表題領域を合体する。次に、同定した可
能な表題領域の特性を予め定めた判断基準と比較するこ
とにより、各イメージ中の先に同定した可能な表題領域
から非表題領域を除去する処理を行い、表題領域からの
テキストの抽出が実行される。

Description

【発明の詳細な説明】
【0001】
【発明の分野】本発明は一般的にはコンピューター化さ
れた情報へのアクセスに関する。より詳細には、本発明
は、文書がスキャンされたときに生成されるようなビッ
トマップイメージから表題テキスト(title text)また
はその他のテキスト領域を抽出する方法に関する。抽出
された表題テキストはキーワードの探索やビットマップ
イメージ・データベースのインデックス作成を含む種々
の用途に使うことができる。場合によっては、抽出され
た表題テキストが、新聞の見出し(head line)がそうで
あるように、必要な情報をすべて提供しているような場
合もある。
【0002】
【発明の背景と解決したい課題】世界は急速に情報化社
会になりつつある。ディジタル技術は豊富な情報を含む
膨大なデータベースの生成を可能としてきた。イメージ
ベースシステムの最近の爆発的普及が膨大なデータベー
スの生成を促すものと予想され、それがまた、膨大なデ
ータベースアへのアクセスの問題を提起することになる
だろう。この点で、ワールドワイドウェッブの爆発的普
及も、情報技術がいかに急速にイメージベースパラダイ
ムに向かって発展していっているかのほんの1例に過ぎ
ない。
【0003】イメージベースシステムは、主として、そ
の情報収集に問題がある。情報収集技術はコード化され
た文字ベースシステムに対してはかなりよく発達してい
るが、それらの収集技術はイメージベースシステムでは
うまく働かない。これはイメージベースシステムでは、
印刷ページ上の情報が、そのページの情報の内容として
ではなく、外見的なパターンに対応するビットマップデ
ータとしてしまわれているからである。従来技術では、
情報収集システムが動作するに先立って光学的文字認識
(OCR)ソフトによるビットマップデータのテキスト
データへの変化が必要である。
【0004】残念ながら、光学的文字認識(OCR)ソ
フトは計算処理に時間を要するので、その認識プロセス
はどちらかというと遅いものである。大量のイメージベ
ースのデータを扱う場合、データベース全体に対して光
学的文字認識を実行するのは得策ではない。さらに言え
ば、時間と計算資源がイメージデータのテキストデータ
への全面OCR変換を許すような場合でも、それから得
られる結果は、大きいままで構造を持たないデータベー
スであり、関心の文書部分の収集・評価に役立つキーワ
ードの短いリストは得られない。キーワードを選択する
のに全テキストをキーワード探索すると、それが生成す
るヒット数が多くなりすぎる。したがって、データベー
ス全体探索は最良のやり方ではない。さらにOCR変換
のこれ以外の短所として、文書がノイズ(ファックスで
伝送されたとき生ずるような)を含んでいるとき、適正
な結果を出すのが難しいということがある。したがっ
て、文書のキーワード以外の部分の全体を説明するよう
な文字テキストを含んだ文書のキーとなる部分、たとえ
ば、その文書の表題部分だけを抽出するような方法が必
要となる。
【0005】グレースケールイメージにしきい値を設
け、先行技術の部分分割法を用いて文字の位置決めを行
い、先行の光学的文字認識方法を改良した文字認識シス
テムが米国特許5,818,978(「以下‘978特許」と言
う)に開示されている。しかし、‘978特許のシステ
ムは、単一レベルのしきい値を用いた2値イメージによ
る従来の部分分割法を用いており、この方法では、同程
度のグレースケール強度の複数の領域を持つ複雑なグラ
フや文書を含むドキュメントについては不都合な結果が
生成されることもある。
【0006】本発明の特許出願人と同一の出願人に交付
された米国特許No. 5,892,843(「以下‘843特許」
と言う)は、スキャンされたイメージから表題、見出
し、写真などを抽出するシステムを開示している。しか
し、‘843特許は‘978特許のように、2値イメー
ジ(グレースケールイメージにしきい値を設けることに
よって生成される)に対して従来形の部分分割法を用い
ているので、同程度のグレースケール強度の複数の領域
を持つ複雑なグラフや文書を含むドキュメントについて
は、‘843特許のシステムによっても、理想的な結果
を与える処理は得られない。その上、‘843特許の方
法は、その処理に先立って、処理される文書の言語が何
であるかを同定しておく必要がある。また、‘843特
許の方法のもう1つの欠点は、1行以上にわたる表題、
写真領域にある表題、あるいは、反転した(すなわち、
黒地に白抜きの文字の)表題などについての位置決め能
力に欠ける点である。
【0007】
【発明の目的】したがって本発明の1つの目的は、スキ
ャンイメージが同程度のグレースケール強度の複雑なグ
ラフまたは領域を持つとき、従来技術による表題抽出法
より信頼性の高い結果を提供するところのスキャンイメ
ージからの表題及び見出し抽出法を提供することであ
る。
【0008】本発明のひとつの付加的な目的は、1行以
上にわたる表題を抽出するところのスキャンイメージか
らの表題及び見出しの抽出法を提供することである。本
発明のさらにひとつの目的は、写真領域内にある表題を
抽出するところのスキャンイメージからの表題及び見出
し抽出法を提供することである。本発明のもうひとつの
目的は、反転文字からなる表題を抽出するところのスキ
ャンイメージからの表題及び見出し抽出法を提供するこ
とである。
【0009】本発明のなおもうひとつの目的は、その処
理に先立って、処理される文書の言語を同定しておく必
要のないところのスキャンイメージからの表題及び見出
し抽出法を提供することである。本発明の種々の他の目
的、利点、特長は以下の詳細な説明から間もなく明らか
になるだろうし、また、新しい特長は特に付属の請求項
で指摘されるだろう。
【0010】
【発明の概要】本発明は、たとえば文書をスキャニング
することによって受信され、それに対して好ましくは複
数レベルの性質を持つしきい値が設定され、それによっ
てもとのグレースケールイメージを表す複数の2値イメ
ージが得られるところのグレースケールイメージ内に表
題を描く方法に向けられている。2値イメージの各々
は、好ましくは、その中に含まれるノイズ成分を除去す
るのにフィルターで前(まえ)処理され、次に、前記各2
値イメージ内のすべての連結成分が同定され、光学的に
フィルターされ、クラスター化されて、各2値イメージ
内で可能な表題領域が同定される。
【0011】次に、各2値イメージは、好ましくは、字
画(strokes)からなる可能な表題領域に合体され、先
に同定した可能な表題領域の特性を予め定めた判断基準
と比較することによって各イメージ中の先に同定した可
能な表題領域から非表題領域、たとえば写真領域、を除
去するという後(あと)処理が行われる。さらに、予め定
めた判断基準を満足する先に同定された各2値イメージ
内の可能な表題領域のあるものは合体させられる。な
お、後(あと)処理ステップと合体ステップの後で、各2
値イメージ内の表題領域はさらに結合させられる。最後
に、分離された2値イメージから同定された可能な表題
領域のあるものは好ましくは合体せられて、さらなるプ
ロセシング、たとえばもとのイメージから表題のテキス
トを抽出するマスクとして使用するため、同定された可
能な表題領域を生成する。
【0012】好ましくは、複数レベルしきい値設ステッ
プは、グレースケールイメージ内の各強度レベルでのグ
レースケールイメージにしきい値を設定すること、から
得られるランの数(かず)のヒストグラムを生成すること
により行われる。そこで、ヒストグラムのスライディン
グプロファイルが生成され、スライディングプロファイ
ル内のピークが同定される。スライディングプロファイ
ルの各ピークにおける値が同定され、それらの値がグレ
ースケールイメージにしきい値を設定するのに使われ、
それによって複数の2値イメージが生成される。
【0013】前(まえ)処理ステップを行うのに3つの方
法が示されている。第1の方法は、一連の再帰的な侵食
ステップと膨脹ステップからなる適応的形態学的方法を
含む方法である。第2の方法は、まず中心領域と4つの
外側領域を持つスライディングウィンドウを発生し、次
にそのウィンドウを2値イメージ上で移動させるステッ
プからなる孔埋め法からなっている。前記の2値イメー
ジ内の各点において、各外側領域のゼロ値のピクセル数
が計算される。各外側領域がその中で少なくとも1つの
ゼロ値を含み、かつ各外側領域内のゼロ値のピクセル数
の和が第1の予め定められた数よりも大きいとき、中心
領域に相当するピクセルは0にセットされ、各外側領域
内のゼロ値のピクセル数の和が第2の予め定められた数
よりも小さいとき、中心領域に相当するピクセルは1に
セットされる。最後の、好ましい方法である第3の方法
は、形態学的方法であり、それは予め定めた構造的要素
を用いて簡単なオープニング動作を実行するものであ
る。
【0014】上記のまた関係する本発明の目的、特徴な
らびに利点は、ここに添付されている図面と関連して、
図示的ではあるが、本発明の好適な実施例の詳細な説明
を参照することによってよりよく理解されるだろう。
【0015】
【好適な実施例の詳細な説明と効果】図面、特に、本発
明に含まれる複数のステップを示す図1を参照して、ま
ず、文書(ステップ100でスキャンされた)のグレー
スケールイメージに対して複数レベルしきい値法(ステ
ップ110)が適用されて、グレースケール内の異なる
強度レベルを表す1つまたは1つ以上の2値イメージが
生成され、それによって連結成分が同定され、次に、各
レーヤー内でこれら連結成分からそれぞれの表題領域が
同定され、最後に多くのレーヤーから表題領域が合成さ
れる。表題領域を抽出するのに、もとの文書についての
何の予備知識も得られないのが一般であることから、ま
ず各レーヤー内の表題領域が同定され、次にそれらがよ
り大きい表題領域へとクラスター化されるという積み上
げ方式が使われる。当該技術の通常の知識を持つ者によ
って理解されるように、連結成分は2値イメージにおけ
る黒ピクセルに届く最大のセットである。
【0016】図1を参照して、文書はまずステップ10
0でスキャンされてグレースケールイメージを生成す
る。当該技術の通常の知識を持つ者によって容易に理解
されるように、グレースケールイメージを得るのに、こ
れ以外の種々の方法、たとえば、ディジタルカメラを使
ったり、第三者からのディジタル化されたイメージを受
信するなどの方法を、代わりに使うことができる。グレ
ースケールイメージは次に複数レベルしきい値法ステッ
プ110に渡され、そのグレースケールイメージはn個
の異なる2値イメージ(レーヤー)に分離される( す
なわち、IMAGE (i) ただしi=1 からn )。このステ
ップを以下にさらに詳しく説明する。ステップ110で
セットされるレーヤーの数nは、以下に議論されるよう
に、もとの文書の複雑さに依存する。指数iはステップ
120でまず1にセットされ、ステップ110によって
生成された各レーヤーごとに130から160の各ステ
ップを周回するのに用いられる。
【0017】背景には表題文字を連結してしまうノイズ
やホールが存在するので、各レーヤーが好ましくは受け
なければならない最初のステップは、微小な連結成分を
ふるいわけ、細かな線分を除去し、それによって、除去
された細かな線分によって連結されていたかも知れない
連結成分を分離する前処理130である。ステップ13
3は各イメージ中にあるすべての連結成分を同定する処
理を行う。ステップ137は好ましくは線形状の対象物
をふるいわけ、写真領域を抽出する。次に、ステップ1
40では、連結成分が以下に詳しく議論されるように、
クラスター化される。好ましくは(文字の)画(かく)
(すなわち、中国語や日本語などの言語の(文字の)成
分で、文字が一連の分離された画(かく)からなる)をつ
なぐ後処理がステップ150で適用され、予め決められ
た一組の条件にしたがって、以下にさらに詳しく議論さ
れるように、非表題領域がふるいわけられる。
【0018】最後に、ステップ160で、処理中のレー
ヤー内にあって異なったグループにクラスター化された
同一の表題に属する表題要素が統合される。ステップ1
70で、指数iがレーヤーの総数nに対してチェックさ
れ、もしiがnに等しくなければ、指数iはステップ1
80で(1だけ)増やされる。その後、処理は次のレー
ヤーに対するステップ130に続く。ステップ170
で、もしiがnに等しいとわかれば、ステップ180
で、すべてのレーヤーが130-160のステップで処
理されたのであり、ステップ190で、各レーヤー内に
ある表題IMAGE (i)が組み合わされ、異なるレーヤーに
部分分割されていた同一の表題に属するすべての表題要
素が統合される。
【0019】図1のステップ110図2−4に出てくる
しきい値設定は、2値イメージまたは複数レベルの2値
イメージを得るのにグレースケール(またはカラーイメ
ージ)に適用される共通のイメージ処理操作である。当
該技術の通常の知識を持つ者に知られた複数レベルの2
値イメージを得る多くの方法がある。このような方法の
1つが、1994年4月11-13日に開催された第3回文書の解
析と収集年次シンポジウムの論文集の一部として発表さ
れたLaurence O’Gormanの論文「連結性を用いた文書イ
メージの2値化と複数しきい値設定」(O’Gorman論
文)中で述べられている。
【0020】O’Gormanの方法は、その手順が大局的で
ありながら、しきい値はイメージ内で複数領域の連結性
を最もよく保存している強度レベルで見出されると言っ
たような局所連結性情報の測度も用いている。ここで強
度レベルという語はグレースケールイメージの各ピクセ
ルに与えられる不連続な各々の値に対して用いられてい
る(たとえば、8ビットのグレースケールイメージは25
6個の強度レベルを持っている。)
【0021】このようにして、O’Gormanの方法は大局
的ならびに局所的の両方に適応できる手順をとっている
という長所を持っている。O’Gormanの方法を本発明に
使うと、かなりうまく働くが、当該技術の通常の知識を
持つ者によって容易に理解されるように、その他の種々
の方法も使うことができる。複数レベルしきい値設定の
O’Gormanの方法はいくらか時間のかかる方法であり、
したがって本発明の方法の性能に影響を及ぼす。しか
し、現時点では好ましい方法である。
【0022】O’Gorman の方法は次の3つのステップか
らなる。 1. 各強度レベルにについてのグレースケールイメ
ージの行またな列に沿って引き続いた(連結された)一
連のオンの値を持つピクセルのランの数のヒストグラム
を決定する。 2. ヒストグラムグラム中の各強度レベル範囲に対
して、以下のように、すなわち、無変化、つまり、平坦
性の測度を与えるようにヒストグラムの「スライディン
グプロファイル」を決定する。 3. スライディングプロファイル内のピークの数
(かず)としてのしきいの数(かず)をそのピークにお
ける強度として選択する。
【0023】O’Gorman の論文は、各強度レベルでのし
きい値によってもとのイメージから複数の2値イメージ
をグレースケールイメージ内の各分離されたレベルにつ
き各1個ずつ生成することを必要としないグレースケー
ル各強度レベルについてのラン数を計算するためのアル
ゴリズムを与えている。
【0024】図2を参照して、図示のサンプルイメージ
は、4の強度レベルを持つ2つの領域210と220及
び12の強度レベルを持つ1つの第3の領域230を持
っている。ランとはグレースケールイメージの行またな
列に沿って引き続く(連結された)一連のオンの値を持
つピクセルとして定義される。図2の上左領域210
(強度レベル4)は5×5のピクセルサイズを持ってお
り、それは10ランになる。強度レベル4の第2の領域
220は6×6のピクセルサイズを持っており、それは
12ランになる。最後に,上右領域230は4×4のピ
クセルサイズを持っており、それは8ランになる。
【0025】図3を参照して、強度1から4の各強度レ
ベルについてしきい値を設けると、領域210−230
の3領域すべてが強度4かそれ以上の強度を持ってい
て、それはすべてのランに寄与するので、図3のヒスト
グラム中に示すように30ランになることがわかる。
4と12の間の強度に対しては図2中の上右領域230
のみが寄与していて、その結果、図3のヒストグラム3
00は強度4と12の間で8の値を示している。最後
に、12の強度以上では、いずれの領域もこのような強
度を持っていないので、図3のヒストグラム300は強
度12以上でゼロの値を持っている。
【0026】スライディングプロファイルは、まず次式
を計算して各強度のまわりのずれの測度を見出すことに
よって決定される:
【0027】
【数1】
【0028】ここにdiは、強度iにおける強度幅wの
ウィンドウ内の差の総和であり、R(i)はその強度にお
けるランの数である。各強度におけるスライディングプ
ロファイルP(i)は次のように決められる。
【0029】
【数2】
【0030】ここにσはガウス形カーブの標準偏差であ
る。
【0031】式(1)で選ばれたウィンドウ幅wは平均
化によってノイズを減らすためにできるだけ大きくなけ
ればならないが、領域レベル間の最小強度範囲よりは小
さくなければならない。この範囲は最小コントラストと
呼ばれている。このステップの結果、図4に示したP
(i)のグラフが得られる。しきいの数(かず)を決定す
るのに、スライディングプロファイル内のピーク値の数
が決められる。ピーク410と420はそれぞれヒスト
グラム300のプラトー(平坦領域)を表している。
【0032】ラン数はプラトー内でほぼ一定値を保つの
で、プラトー間の強度の範囲は領域レベル間の強度の遷
移に対応していると見ることができる。したがって、図
2のイメージに対するしきい値としては、(1)第1の
しきい値は1から3であり、(2)第2のしきい値は5
から11である。当該技術分野に通常に精通した何人
(なんびと)によっても認められるように1つのピーク
についてのこれらいずれの値もしきい値として採用する
ことが可能である(たとえば、図2のイメージの第1の
しきい値に対して、1、2または3のしいき値は同じ結
果を与える)。好適実施例では、ピークの最大値がしき
い値にとられているが、当該技術分野に通常に精通した
何人(なんびと)によっても認められるように、実際の
しきい点を選ぶのにこれ以外の種々の方法をることがで
きる。
【0033】図2のイメージの複数しきい値設定から3
つのイメージが得られる。第1のイメージは第1のしき
い値、たとえば、3より小さいか等しい強度を持つすべ
てのピクセルを含み、したがって、3つの領域210か
ら230のピクセルを除くすべてのピクセルを含むこと
になる。第2のイメージは第1のしいき値よりは大きい
が、第2のしきい値たとえば10より小さいか10に等
しい強度を持つすべてのピクセルを含み、したがって、
4の強度値を持つ2つの領域210と220を含むこと
になる。最後に、第3のイメージは第2のしいき値より
大きい、したがって、12の強度を持つ領域230だけ
を含むことになる。
【0034】複数レベルのしきい値設定によって生成さ
れるイメージには、数多くの異なった種類のノイズが存
在する。このようなタイプの1つのノイズは含まれてい
るスペックルノイズである。もう1つのタイプのノイズ
は背景と前景の表題文字のいずれにも含まれる多くのホ
ールである。これらのホールが大きいと、文字のあるも
のは相互に連結され、表題の抽出結果に影響を与える。
したがって、最初の前処理ステップ130(図1)は、
クラスター化処理140の前でこの種のノイズを取り除
くのに使うのが好ましい。
【0035】当該技術分野に通常に精通した何人(なん
びと)によっても認められるように、本発明の方法は多
くの文書に対してこのような前処理なしに満足できる結
果を与えるものである。前処理ステップ130を実行す
る3種類の違った方法を本発明の一部として以下に述べ
る。
【0036】以下に述べる前処理の第1の方法は再帰的
形態学的方法で、そこでは一連の形態学的オープニング
(すなわち、侵食ステップとそれに続く膨脹ステップ)
動作が実行される。この方法は再帰的であり、予め決め
られた大きさを持つオープニングの構造要素で開始され
る。一連の形態学的オープニング動作が実行され、各動
作の後に、オープニング構造要素のサイズが、一定の予
め決めておいた判断基準に到達するまで増大される。こ
の方法は,特に大きい表題文字を抽出するのに適してお
り、連結されるべきでない成分間の細かい連結を除去
し、また、テキストの小形の文字を排除して、この後の
処理の負荷を軽減する。
【0037】この適応形の形態学的方法を理解するため
に、まず表題成分がトータルの文書面積(文書サイズ)
の1/kをカバーしているものと仮定する。ただしkは
予め設定したパラメータである。この方法は、1つの再
帰的オープニングのステップの実行に際して、何か1つ
の大きい構造があって、現在の可能な表題成分の面積が
文書面積の1/k以上をカバーしてしまうときには、可
能な表題成分の面積が文書面積の1/kより小さくなる
まで可能な表題成分面積を減らそうとする。この方法に
含まれるステップが図5のフローチャートに示されてい
る。
【0038】図5を参照して、予め設定した小構造成分
(たとえば、好適実施例では表題領域内にある文字につ
いての3ピクセル分の最小の画(かく)線幅に対応する3
×3)を伴う形態学的オープニング動作(ステップ50
0)が、まずスペックルノイズを除去することからはじ
まる。
【0039】次に、この最初のステップの後に、それ以
外の連結成分の面積が式nw上バーh上バーを用いて推
定される。ただしnは現在の連結成分成分の数(かず)で
あり、w上バーは現在の連結成分の平均の幅であり、h
上バーは現在の連結成分の平均の高さである。変数w上
バーとh上バーは次の諸式で求められる:
【0040】
【数3】
【0041】
【数4】
【0042】ただし、h i はi = 1 からnについての
現在の連結成分成分の高さであり、w iはi = 1 から
nについての現在の連結成分成分の幅である。
【0043】このプロセスのスタートでは、ノイズのた
めにイメージ内に非常に多くの小さな成分が存在する。
その結果、推定面積nw上バーh上バーは文書全体の面
積の1/kより大きくなる。すなわち、W*Hを文書面
積とすれば、nw上バーh上バー>W*H/k となる。
現在の平均幅w上バーと現在の平均高さh上バーにもと
づいて得られるであろう連結成分の数(かず)の推定値
を表す変数をn'と選ぶと、 n'= W*H/kw上バー
h上バー となる。この時点で、推定値n'は現在の連
結成分の数(かず)nより少ない、すなわち、n>n'
となる。したがって、ステップ510でnとn'とが計
算され,ステップ520で比較される。nがn'より大
きい限り、ステップ510から540を含むループが繰
り返される。
【0044】ステップ530では、画(かく)線幅が現在
イメージ内にある連結成分のサイズの指標となることか
ら、現在の連結成分の画(かく)線幅にもとづいて変数p
が計算される。画(かく)線幅を決定するために、現在の
成分が最上段から最下段へと段ごとにスキャンされて、
すべてのラン(すなわち、引き続く前景のピクセル)と
そのランの長さが同定される。このデータからラン長さ
のヒストグラムが生成され、画(かく)線幅がヒストグラ
ムのピークの値として設定される。特に、pは次式を満
足する最小の画(かく)線幅として選択される。
【0045】
【数5】
【0046】ただし、M は予め決められた最大の画(か
く)線幅(好適実施例では100ピクセル)であり、i
= 1 からMについてのf(i)はiの画(かく)線幅を持つ
成分の数(たとえば、もし3の画(かく)線幅を持つ成分
が5個あれば、f(3)=5)である。一旦pが選ばれる
と、それは次回のオープニングに対する構造要素のサイ
ズ、すなわち、図5のステップ540のp×(p/2)
をセットするのに使われ、変形された2値のイメージが
生成される。そこで、プロセスはステップ510に戻
り、そこで変形されたイメージを用いてnとn'が計算
される。もしnがn'よりも大きいままであるならば,
ステップ530、540と510が、nがn'より小さ
くなり、この前処理方法がストップするまで繰り返され
る。
【0047】この前処理方法の利点は、それがオープニ
ングの構造要素を適応的に選択することである。この方
法は大きい表題文字を抽出するのに適しているが、画
(かく)線幅が構造要素サイズと同程度である小さい表題
文字には、それがより小さい部分に分解されてしまうか
も知れないので適していない。この方法のもう1つの不
利な点は、この方法が、多くのより小さい領域に分解さ
れてしまう写真や絵を含んでいる文書に対して使われる
ときに問題が生じることである。
【0048】図6に示すように、第2の前処理方法は孔
埋めを含んでいる。この方法は、埋めるべき孔を同定す
るのにイメージ全体にわたってテンプレート(すなわ
ち、図6に示すスライディングインドウ600)をスラ
イドさせる。エッジに対するこの方法の影響を最小にす
るために,スライディングウィンドウ600は、そのセ
ンターにあるピクセルI(650)のまわりの4つの領
域610から640に分けられる。ノイズは、このイメ
ージ中でランダムに分布するので、次の4つの特性値が
得られる:
【0049】1. Sum(1)=SUM(領域1内の値
がゼロのピクセル); 2. Sum(2)=SUM(領域2内の値がゼロのピク
セル); 3. Sum(3)=SUM(領域3内の値がゼロのピク
セル); 4. Sum(4)=SUM(領域4内の値がゼロのピク
セル)。
【0050】スライディングウィンドウの各点におい
て、4領域のすべてに対してゼロカウントが計算され、
次の擬似コードに従って比較される:もし Sum(1)
>0でSum(2)>0でSum(3)>0でSum(4)>
0で(Sum(1)+Sum(2)+Sum(3)+Sum
(4))>5 なら、Iをゼロにセットし // 背景の孔
を埋める。またもし(Sum(1)+Sum(2)+Sum
(3)+Sum(4))<=3 なら、Iを1にセットし
// 前景の孔を埋める。
【0051】この方法は好適実施例において画(かく)線
幅が5ピクセルよりも大きい表題文字に適しており、以
上に述べてきた第1の前処理方法よりも実行が容易であ
る。しかし、この方法は好適実施例において画(かく)線
幅が5ピクセルよりも小さい表題文字には適しておら
ず、また、成分間の太い連結を除去することができな
い。その上、当該技術分野に通常の知識を持つ者によっ
ても認められるように、上にリストした比較のために選
んだ値は好適な値であるが、変更してもよく、変更して
もなお十分な結果を提供するだろう。
【0052】最後に、ここで述べる第3の前処理ステッ
プは簡単なオープニング動作を実行する簡単な形態学的
方法である。これは本発明で用いられる好適な方法であ
る。表題文字の画(かく)線幅が予め3ピクセルよりも大
きくとられている場合についての好適実施例では3×3
の構造要素サイズが用いられる。3×3の構造要素サイ
ズは、表題文字に影響を与えずに、スペックルノイズ及
び誤って連結されている線を除去することを可能として
いる。
【0053】連結成分内にある小さい孔はまわりのピク
セルからピクセル強度の分散によって引き起こされてい
るので、この方法によって連結成分内にある小さい孔を
埋めようとは意図されてい
【0054】小さい連結成分を除去し、また、それによ
って後段のプロセスをスピードアップするための1つの
付加的なステップが、好ましくは形態学的オープニング
ステップの後に以下のように実行される:
【0055】Npが連結成分のピクセルの数として定め
られ、また、Nccがイメージ内の成分の数として定めら
れる。
【0056】そこで、Npの最小のしきい値をTpとす
る、すなわち、もしNp<Tpなら、検査中の連結成分は
除去される。しきい値TpはNccの関数、すなわち、Tp
=f(Ncc)である。好ましくは,線形の関数、すなわ
ち、kを定数として、Tp=kN ccが使われる。したが
って、しきい値Tpは連結成分の数に比例して変化す
る。
【0057】次にステップ133で(図1)で、各イメー
ジが、そこに位置するすべての連結成分が同定されるよ
うに処理される。この処理は、当該技術の通常の知識を
持つ者によって容易に知られているような通常の従来の
方法で行われる。各イメージ内に連結成分を発生した
後、好ましくは、さらに2つの前処理が適用される(図
1のステップ133)。まず小さい線成分が除去され
る。ピクセル数が予め決められた最小のピクセルのしき
い値より小さい成分については、それらの成分は除去さ
れる。特に線成分については、次の判断基準が満足され
るとき除去される:
【0058】max{w(I),h(I)} / min{w
(I),h(I)} > PT
【0059】ここに max{w(I),h(I)}は連結成
分Iの高さまたは幅のより大きいものであり、min
{w(I),h(I)}は連結成分Iの高さまたは幅のより小さ
いものである。好適実施例では、しきい値PTは20に
セットされている。このようにして、このステップは水
平あるいは垂直線状のオブジェクト、特に、垂直線につ
いては、その最大高さが大きく、また、その最低幅が小
さいオブジェクトに対して有用である。しかし、このス
テップは対角線状のオブジェクトを検出するのには適さ
ない。
【0060】写真成分と文字成分を区別するのによく使
われる第2の前処理ステップを使ってもよい。2値文書
イメージに使われる従来法は、写真領域が非常に大きい
連結成分になる傾向があることから、連結成分のサイズ
にもとづいて写真領域の存在を判断している。 しか
し、これを複雑なグレースケール(またはカラー)イメ
ージに対して使うと、写真は、複数レベルしきいステッ
プ110(図1)、ならびに、もとのイメージ内のグレ
ースケール強度の分散によって、多数の分離された小さ
い連結成分に分けられてしまう。その上、これらの分離
された小さい連結成分は、他のレーヤ−の中にも存在す
る。
【0061】したがって、先行技術の写真抽出法は複雑
なグレースケールイメージには適さない。それに加え
て、写真と同定された領域についても、その中にあるか
も知れない表題を探索するようチェックするので、グレ
ースケールイメージの複雑性によって写真内の表題を見
逃すことなはないかもしれないが、特に、複雑な背景を
持つグレースケール(またはカラー)文書イメージ中の
写真を同定するのは2値文書イメージに対するように簡
単ではない。
【0062】このような写真領域(表題領域ではなく)
の抽出を可能とするために次のような判断基準を使うこ
とができる。写真成分(領域)であると考えられるため
には、チェックする領域が次の予め決められた条件の1
つを満足しなければならない。
【0063】(1) 境界ボックスサイズ >(全文書
サイズ / k)、または (2) 1つの成分が他の成分を取り囲み、AND 境界ボックスサイズ >(全文書サイズ / 2k)。 ただし、kはパラメータであり、好適実施例では12に
セットされている。
【0064】図7のスキャンイメージのシミュレーショ
ン図形700を参照して、1つの成分が他の成分を取り
囲んでいるかどうかの決定がある困難性を引き起こすこ
とを説明する。本発明においては,簡単な方法が用いら
れている。図7に示すように、成分710上のどの点に
対しても,4本の線720‐750が4つの異なった方
向(すなわち、左方向線720、上方向線720、右方
向線720、下方向線720)に向かって引かれてい
る。
【0065】もしこれら4本の線、たとえば、線線72
0‐750、が同じ成分760にリンクするならば、、
成分710は成分760によって取り囲まれていると判
断され、したがってまた、もしその境界ボックスが上に
与えられた予め決められたしきい値よりも大きい場合に
は、それは除去されることになる。図7のスキャンイメ
ージのシミュレーション図形700において、線740
は成分710を成分760にリンクしておらず、したが
って、それは除去されることはない。
【0066】図1のステップ140を参照して、グレー
スケールイメージにおいて表題領域を同定する際の1つ
の困難性はクラスター化によるものである。当該技術の
通常の知識を持つ者が認めるように、「クラスター」と
は,同程度のデータ密度を持つ比較的よく連結された領
域として定義される。本発明については、クラスターは
より詳しくは、比較的接近した、よく似た連結成分の一
群として定義され(ここで、連結成分とは、接触する黒
ピクセルの最大のセットを持ったオブジェクトに対して
使っている)、クラスター化とはクラスターの形成に対
して使っている。
【0067】表題領域(クラスター化している)である
かも知れない領域を同定するための主たる仕事は、一様
なオブジェクトのグループをそれらの特徴(寸法)にも
とづいて同定することである。言い方を換えると、イメ
ージ中に連結成分があるとき、それらの成分の特徴空間
を同定し、次に、それらの同定された特徴空間が近い関
係にあるとき、それらの成分がクラスター化される。し
たがって、成分を同定するのに用いられる特徴は適切に
選択されなければならない。先行技術のうちで、K平均
法が広く用いられている。しかし、K平均法の欠点は、
得られるクラスターの数(かず)を予め指定しておく必
要のあることである。したがって、本発明の方法は、正
しい動作を得るのに予めイメージの知識を知る必要のな
い階層クラスター法を用いている。
【0068】本発明のクラスター化方法においては、指
数がIである連結成分から以下の7つの特徴値が得られ
る:
【0069】 (1)境界ボックス高さ H(I) (2)境界ボックス幅 W(I) (3)中心点y座標 center_y(I) (4)中心点x座標 center_x(I) (5)画(かく)線幅 stroke_w(I) (6)グレー強度平均 gray_mean(I) (7)グレー強度標準偏差 gray_std(I)
【0070】境界ボックスサイズ(すなわち、高さ H
(I)、幅W(I)、ならびにその中心位置(center_y
(I) ならびにcenter_x(I))は容易に同定される。
【0071】上に述べたように、各成分を行ごとに上か
ら下までのすべてのラン(すなわち、連続する前景のピ
クセル)をスキャンすることによって、画(かく)線幅
(すなわち、stroke_w(I))が決められ、またそのよ
うなランの長さも決められる。このデータからランの長
さのヒストグラムが生成され、また画(かく)線幅がこの
ヒストグラムのピークにおける値としてセットされる。
大抵の場合には、同定された画(かく)線幅は1つの文字
(すなわち、連結成分)の画(かく)線幅を表している。
【0072】しかし、時として、連結成分中に多くの孔
があり、これらの孔は上の画(かく)線幅決定についての
精度に大きく影響する。図8のスキャンイメージのシミ
ュレーション画面800に多くの孔を含む連結成分が示
されている。このような連結成分に適用したときに生じ
る画(かく)線幅問題を解決するのに2つの方法がある。
1つの方法は、まず、はじめに孔を埋め、その後に画
(かく)線幅を得る方法である。しかし、この方法では、
時として大きいブロックの背景を間違って埋めてしまう
ことが起こり得る。もう1つのより簡単な方法は、各連
結成分にmin_numというしきい値を設けて、もし孔幅が
しきい値min_numより小さければ、その孔をノイズとみ
なして、それを埋め、大きければ、孔は背景とみなして
無視する、というものである。
【0073】gray_mean(I)とgray_std(I)の値は、各
連結成分に対するもとのグレースケールイメージからの
データを用いて計算される。
【0074】図9のフローチャートを参照して、もし2
つの分離している連結成分の特徴類似度が予め決められ
た範囲内にあれば、以下に定義するプロセスによって、
それらを1個に合体させる。本発明の方法では、個々の
連結成分の数(かず)を予め知っている必要はない。本
発明では2個の連結成分を比較するのに多くの特徴類似
度の種々の測度(different measures of feature simi
larity)が用いられており、それらの各々は上に述べた
成分の特徴に依存している。それらの測度は以下のもの
を含んでいる:
【0075】1.境界ボックス高さ類似度
【0076】
【数6】
【0077】2.境界ボックス幅類似度
【0078】
【数7】
【0079】3.画(かく)線幅類似度
【0080】
【数8】
【0081】4.距離
【0082】
【数9】
【0083】ただし、NearestEdgeDist(i,j)は連結成分
iのエッジと連結成分jのエッジの間の最短距離である。
【0084】5.グレー強度平均類似度
【0085】
【数10】
【0086】6.グレー強度標準偏差類似度
【0087】
【数11】
【0088】上の諸式で、得られた値が小さければ小さ
いほど、2つの成分iとjとの間の類似度大きい。本発
明では、2つの成分、IとJについての特徴値がまず計
算され(図9のステップ900と910参照)、次にグ
レー強度平均類似度すなわちS(i,j) 、グレー強度
標準偏差すなわちS(i,j) が計算され、図9のステ
ップ290でチェックされる。もし、これら両方のの値
が既定のしきい値以下であれば、ステップ930で、さ
らに類似度チェックが行われ、しきい値以上であれば、
2つの成分は似ていないとみなされて、プロセスはステ
ップ950へと進む。
【0089】図9のステップ930でのさらなる類似度
チェックを実行することによって寸法類似度が検査され
る。寸法類似度は次式で定義される:
【0090】
【数12】
【0091】ここで、aは類似度測度 S - S4
についての重みであり、Tpはp = 1,… ,4 に対して
各類似度測度についての最大の受け入れ可能なしきい値
である。寸法類似度Sdimは境界ボックス幅、高さ,画
(かく)線幅類似度ならびに距離の組み合わさったもので
あり、成分の寸法的性質に関係している。当該技術の通
常の知識を持つ者によって容易に認められるように、重
み、すなわち、aの値は習熟プロセス,たとえば、ニ
ューラルネットワークによって得ることができる。本発
明では、簡単に次の値が与えられている:
【0092】a=0.5; =0.5;
=1.0; 及び a=1.0
【0093】したがって、もしSdim(i,j)についての
値が、ステップ930で既定しきい値より小さいという
ことがわかったならば、成分、IとJは同じであると判
断され、その後、ステップ940で合体される。そうで
なければ、それらは同じではないと判断され、ステップ
950へとプロセスが進む。
【0094】2つの成分が同形であると判断されると、
それらはクラスター化され、もとのそれぞれの成分のリ
ンクされたリストが生成されて、成分のグループが形成
される。そのグループ内の各成分の特徴はリンクされた
リスト内で維持される。各グループ内のすべての成分に
対して、各成分についての特徴値は、各成分iに関して
同じ値にとどまる特徴center_x(i)とcenter_y(i)以
外は、グループ内のすべての成分について、当該の特徴
の平均値で置き換えられる。
【0095】たとえば、1つのクラスター中に、ひと組
の成分ci (i = 1, … , n)があるとして、各成分が
それぞれの特徴 H(ci )、W(ci)、center_y(ci)、
center_x(ci)、stroke_w(ci)、gray_mean(ci)、及
び gray_std(ci)を i =1, … , n に対して持っ
ているものとする。成分が統合された(クラスター化さ
れた)新しい特徴値は:
【0096】
【数13】
【0097】
【数14】
【0098】
【数15】
【0099】
【数16】
【0100】
【数17】
【0101】先に述べたように、特徴center_x(i)とc
enter_y(i)は、各成分に対して特徴リスト内で変化し
ない。本発明の好適実施例では、入力イメージはまず複
数レベルのしきい値化ステップを受けることを必要とし
たが、本発明のクラスター化ステップ140(図1)
は、当該技術の通常の知識を持つ者によって容易に認め
られるように、どのような2値のイメージに対しても、
それが複数レベルのしきい値化によって生成されたか2
値のしきい値化によって生成されたかに関わらず、動作
可能である。
【0102】ここで図1に帰って、各イメージがクラス
ター化された(図1のステップ140)後、後処理ステ
ップ150が適用されて、まず字画を合体し、次に非表
題成分領域をより分ける。
【0103】合体されてできた字画に関して、中国語や
日本語のようなある種の言語では、さらに、大部分の字
が分離された字画(部首)の集まりでできている。図1
0のスキャンイメージのシミュレーション1000に示
すように、字画の成分のサイズは千差万別なので(図1
0の要素1010と1020を見よ)、このような字画
は、何かの字に統合されなければならない。部首などを
持たない言語の表題(すなわち、英文字の表題)に対し
ては何らの悪影響も及ぼさない以下に述べるような方法
をとるのが好ましい。したがって、本発明の方法は、言
語に無関係に使える。
【0104】
【数18】
【0105】
【数19】
【0106】ここに、H(c)は成分cの高さ、W
(c)は成分成分cの幅であり、kは好ましくは1.
2である。また、H上バー(c)上バー、W上バー(c)上
バーは以下の式で定義される:
【0107】
【数20】
【0108】
【数21】
【0109】また、σh 、σw は以下の式で決められ
る:
【0110】
【数22】
【0111】
【数23】
【0112】2つの成分が後処理ステップ内で合体され
ると、それら2つの成分は新しく合体で生まれた成分で
置き換えられ、リンクされたリスト内の成分の数(か
ず)は1だけ減らされる。前のクラスター化(式13か
ら17まで)と同じようにして.新しく合体された成分
の特徴は、もとの各々からの対応する特徴の平均をとる
ことによって得られる。
【0113】しかし、境界ボックスについては、1個に
合体されるので、新しいcenter_x(i)とcenter_y(i)
が新しい成分について計算される。この合体プロセス
は、同じ成分セット内の2つの成分がそれ以上合体され
なくなるまで続けられる。
【0114】1つのクラスターグループはクラスター内
の成分のリンクされたリストからなっている。各成分は
それ自身の情報維持しているので、クラスター化の情報
とそのクラスター内の成分についての個々の成分の情報
とが、後処理についても利用可能である。
【0115】したがって、非表題成分は、好ましくは、
クラスター化された成分グループ内の成分から同定で
き、後で、そのような成分が以下に示す(それは非表題
成分であると決めることのできる)条件の1つを満足す
るかどうかを判断することによって取り除くことができ
る。
【0116】1. その成分が孤立した成分であれ
ば: 2. 2つの表題成分からなる1つのセットに対し
て、その2つの成分が実質的に垂直か水平方向に並んで
いないならば: 3. 3つの小さい表題成分からなる1つのセットに
対して、実質的に垂直か水平方向に並んでいる少なくと
も2つの表題成分がないならば: 4. 1つのクラスター内でリンクされた成分の数
(かず)があるしきい値T、本発明の好適実施例で10
0にセットされているが、より少なく、表題に含まれる
文字数がTより少ないとみなせる場合、このクラスター
内の成分は非表題文字であろう。
【0117】5. リンクされた成分の数(かず)に
対して、リンクされた成分の数(かず)で割ったグレー
強度平均値の標準偏差値が、好適実施例では0.2とセ
ットされたあるしきい値より大きいならば、これらの成
分が非表題と考えられる。 6. リンクされた成分のセットに対して、高さの平
均値で割った高さの標準偏差値が好適実施例で0.5に
セットされているあるしきい値より大きいか、幅の平均
値で割った幅の標準偏差値が好適実施例で0.5にセッ
トされているあるしきい値より大きければ、これらの成
分は非表題であると考えられる。
【0118】ここで図1に戻って、プロセスの結果の合
体は、最初ステップ160で、同じレーヤーの中のクラ
スター化した成分グループを合体することによって行わ
れる。
【0119】クラスター法では、同じ表題に属する幾つ
かの成分が、時として、異なるグループにクラスター化
されることがある。図1の合体ステップ160の目的
は、これらのグループを合体させることである。
【0120】このステップの基礎は2つの異なるクラス
ターに属するいかなる2つの成分も、もしこれらの成分
が予め決められた判断基準、すなわち、以下に示す最近
接構成要素類似性の判断基準と形状類似性の判断基準を
満足するならば、それらは同じ表題であると考えられ、
したがって、合体させる。最近接構成要素類似性の判断
基準とは次のように定義される:
【0121】
【数24】
【0122】もしSd(i,j) < T なら、2つの成
分iとjは互いに近いと考えられる。Tは最近接構成
要素類似性の判断基準に対して予め決められた最大のし
きい値である。形状類似性の判断基準は次式のように定
義される:
【0123】
【数25】
【0124】ここにk = 1 … 3に対して、Sk(i,
j)は、それぞれ、境界ボックス高さ類似性(S(i,
j)、式6)、境界ボックス幅類似性(S(i,j)、式
7)と画(かく)線幅類似性(S(i,j)、式8)で、
上のように定義されている。これに加えて、Tはp =
1 … 3について、各類似度の測度に対する最大許容し
きい値であり、好適実施例では、すべて0.5にセット
してあり、k = 1 … 3についてaは重み係数であ
り、好ましくは、それぞれ、0.5、0.5と1.0にセ
ットしてある。Tは形状類似度についての既定の最大
しきい値である。もし S(i,j) < T なら、2つ
の成分iとjとは、形状に関して同様であると考えられ
る。
【0125】このステップの結果として、S(i,j)
< Tと S(i,j) < Tが両方とも真であれ
ば、2つの成分iとjとそれらに伴うグループが合体さ
れる。レーヤー内での合体は異なるグループ間からのど
の2つの成分間においても行われ、得られたものはもと
のそれぞれのグループからなる新たに形成されたグルー
プである。このステップにおいて合体成分に課される条
件はクラスター化ステップ140のように厳しくはな
い。これはノイズがクラスター化ステップ140と後処
理ステップ150の両方で大幅に除去されるからであ
る。
【0126】また、このステップを実行する際、グレー
スケールやカラー強度は考慮されていない。最後に、ク
ラスターステップ140におけるように、合体された成
分は、この場合,center_x(i)とcenter_y(i)の特徴
を含んで、それらの平均の特徴値(式13から17を参
照)によって表される。
【0127】上に述べたように、複数レベルしきい値プ
ロセスの間に、表題は、イメージ中のグレースケール強
度変化に応じて多くの異なるレーヤーに分けられる。図
1のステップ190において、連結成分は他のレーヤー
からの成分との合体の可能性を考慮したものである。
【0128】同じ合体の判断基準が同じレーヤー内の成
分同士の合体についても上に述べたように用いられる
(すなわち、式24と25で定義される判断基準)。図
1のステップ190が完了すると、残りの連結成分が表
題領域に同定され、ユーザーに出力される。
【0129】本発明は特に好適実施例とその種々の側面
をを参照して示され、説明されてきたが、その発明の精
神と範囲から逸脱することなく種々の変更と変形がなさ
れ得ることは、当該技術の通常の知識を持つ者によって
理解されるところであろう。したがって、付属請求項
が、以上に述べてきた実施例、それに代わる以上に述べ
てきた工夫、ならびにすべてのそれらに等価物を含むも
のと解釈されることが意図されている。
【図面の簡単な説明】
【図1】本発明の方法のフローチャート
【図2】本発明の複数レベルしきいステップを示すのに
用いられるシミュレーションイメージ
【図3】スキャンイメージ中の強度レベルについて見出
されるランの数(かず)のヒストグラム
【図4】図3のスライディングプロファイル
【図5】本発明の1つの前処理方法のフローチャート
【図6】本発明の1つの局面に用いられた1例の5×5
のスライディングウィンドウのダイアグラム
【図7】本発明のもう1つの局面による取り囲みの1例
を図示するために用いられたスキャンイメージのシミュ
レーションの拡大図
【図8】本発明のさらにもう1つの局面による連結成分
の1例を図示するために用いられたスキャンイメージの
シミュレーションの拡大図
【図9】クラスターアルゴリズムのフローチャート
【図10】日本語や中国語のような言語に現れる部首の
サイズについての変化を説明するスキャンイメージのシ
ミュレーション
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B075 ND07 NK04 NK31 5C077 LL15 MP01 NP03 PP58 PQ19 RR02 RR14 TT10 5L096 AA03 AA06 BA08 BA17 CA18 DA01 EA43 FA19 FA35 FA46 GA36 GA51 HA09 MA07

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 (A)メモリーにしまわれているグレー
    スケールイメージに複数レベルのしきい値を設けて複数
    の2値イメージを得ること、 (B)前記2値イメージのそれぞれの中で連結成分を同
    定すること、 (C)前記2値イメージのそれぞれの中の前記連結成分
    をクラスター化し、前記それぞれのイメージ内に可能な
    表題領域を同定すること、及び、 (D)出力用の前記2値イメージのそれぞれからの前記
    同定された可能な表題領域を結合すること、 のステップスを具備するグレースケールイメージ内に表
    題の領域を描く方法。
  2. 【請求項2】 前記複数レベルしきい値設定ステップが (A)前記グレースケールイメージ内の各強度レベルに
    ある前期グレースケールイメージに複数レベルのしきい
    値を設定することから得られるであろう多数のランのヒ
    ストグラムを生成すること、 (B)前記ヒストグラムのスライディングプロファイル
    を生成すること、 (C)前記スライディングプロファイル内で各ピークと
    各ピークにおける強度レベルをを同定すること、及び (D)前記強度レベルのそれぞれにおいて前記グレース
    ケールイメージにしきい値を設定し、複数の2値イメー
    ジを生成すること、のステップスを具備することを特徴
    とする請求項1の方法。
  3. 【請求項3】 前記クラスター化のステップが (A)前記連結成分のそれぞれを2値イメージ内の前記
    連結成分のそれぞれと互いにペアーにすること、 (B)前記ペアー内の各連結成分間の少なくとも1つの
    グレー強度における差を第1の予め定めたしきい値と比
    較すること、 (C)1対の連結成分内の各連結成分間の前記少なくと
    も1つのグレー強度特性についての差が第1の予め定め
    たしきい値より小さいとき、前記ペアーの連結成分内の
    各連結成分間の少なくとも1次元の寸法的特性を第2の
    予め定めたしきい値と比較すること、及び、 (D)前記ペアーの連結成分内の各連結成分間の少なく
    とも1次元の寸法的特性についての差が前記第2の予め
    定めたしきい値より小さいとき、前記成分を前記ペアー
    の結合成分と結合すること、のステップスを具備する請
    求項1の方法。
  4. 【請求項4】 前記クラスター化ステップが (A)前記連結成分のそれぞれを 2値イメージ内の前
    記連結成分のそれぞれと互いにペアーにすること、 (B)前記ペアー内の各連結成分間の少なくとも1つの
    グレー強度における差を第1の予め定めたしきい値と比
    較すること、 (C)前記1対の連結成分内の各連結成分間の少なくと
    も1つのグレー強度特性についての差が前記第1の予め
    定めたしきい値より小さいとき、前記ペアーの連結成分
    内の前記成分同士を結合すること、のステップスを具備
    する請求項1の方法。
  5. 【請求項5】 前記クラスター化ステップが (A)前記連結成分のそれぞれを 2値イメージ内の前
    記連結成分のそれぞれと互いにペアーにすること、 (B)前記ペアー内の各連結成分間の少なくとも1つの
    グレー強度における差を第1の予め定めたしきい値と比
    較すること、及び (D)前記ペアーの連結成分内の各連結成分間の少なく
    とも1次元の寸法的特性についての差が前記第1の予め
    定めたしきい値より小さいとき、前記成分を前記ペアー
    の結合成分と結合すること、のステップスを具備する請
    求項1の方法。
  6. 【請求項6】 少なくとも前記1つのグレー強度特性
    が、前記連結成分内の強度の平均値と前記連結成分内の
    強度の標準偏差からなるグループから選ばれた少なくと
    も1つの特性を具備する請求項3の方法。
  7. 【請求項7】 少なくとも前記1つのグレー強度特性
    が、前記連結成分内の強度の平均値と前記連結成分内の
    強度の標準偏差からなるグループから選ばれた少なくと
    も1つの特性を具備する請求項4の方法。
  8. 【請求項8】 少なくとも前記1つの寸法的特性が、前
    記連結成の高さ、前記連結成分の幅、前記連結成の最大
    の画(かく)線幅、及び、前記連結成の各々のエッジ間の
    最短距離からなるグループから選ばれた少なくとも1つ
    の特性を具備する請求項3の方法。
  9. 【請求項9】 少なくとも前記1つの寸法的特性が、前
    記連結成の高さ、前記連結成分の幅、前記連結成の最大
    の画(かく)線幅、及び、前記連結成の各々のエッジ間の
    最短距離からなるグループから選ばれた少なくとも1つ
    の特性を具備する請求項5の方法。
  10. 【請求項10】 (A)前記2値イメージ内の連結成分
    を同定すること、及び(B)前記2値イメージのそれぞ
    れの中の前記連結成分をクラスター化して、前記それぞ
    れのイメージ内に可能な表題領域を同定すること、のス
    テップスを具備し、そして前記クラスターリングはさら
    に、 (1)前記連結成分のそれぞれを2値イメージ内の前記
    連結成分のそれぞれと互いにペアーにすること、 (2)前記ペアー内の各連結成分間の少なくとも1つの
    グレー強度における差を第1の予め定めたしきい値と比
    較すること、 (3)1対の連結成分内の各連結成分間の前記少なくと
    も1つのグレー強度特性についての差が第1の予め定め
    たしきい値より小さいとき、前記ペアーの連結成分内の
    各連結成分間の少なくとも1次元の寸法的特性を第2の
    予め定めたしきい値と比較し、 (4)前記ペアーの連結成分内の各連結成分間の少なく
    とも1次元の寸法的特性についての差が前記第2の予め
    定めたしきい値より小さいとき、前記成分を前記ペアー
    の結合成分と結合すること、 のステップスによって行うことを特徴とする、2値イメ
    ージ内に表題の輪郭を描く方法。
  11. 【請求項11】 (A)前記連結成分のそれぞれを2値
    イメージ内の連結成分を同定すること、及び(B)前記
    2値イメージのそれぞれの中の前記連結成分をクラスタ
    ー化して、前記それぞれのイメージ内に可能な表題領域
    を同定すること、 を具備し、そして前記クラスターリングはさらに、 (1)前記連結成分のそれぞれを2値イメージ内の前記
    連結成分のそれぞれと互いにペアーにすること、 (2)前記ペアー内の各連結成分間の少なくとも1つの
    グレー強度における差を第1の予め定めたしきい値と比
    較すること、及び (3)前記1対の連結成分内の各連結成分間の少なくと
    も1つのグレー強度特性についての差が前記第1の予め
    定めたしきい値より小さいとき、前記ペアーの連結成分
    内の前記成分同士を結合すること、 のステップスによって行うこと、を特徴とする、 2値イメージ内に表題の輪郭を描く方法。
  12. 【請求項12】 (A)前記連結成分のそれぞれを2値
    イメージ内の連結成分を同定すること、及び(B)前記
    2値イメージのそれぞれの中の前記連結成分をクラスタ
    ー化して、前記それぞれのイメージ内に可能な表題領域
    を同定すること、を具備し、そして前記クラスターリン
    グはさらに、 (1)前記連結成分のそれぞれを2値イメージ内の前記
    連結成分のそれぞれと互いにペアーにすること、 (2)前記ペアー内の各連結成分間の少なくとも1つの
    グレー強度における差を第1の予め定めたしきい値と比
    較すること、及び (3)前記1対の連結成分内の各連結成分間の少なくと
    も1つのグレー強度特性についての差が前記第1の予め
    定めたしきい値より小さいとき、前記ペアーの連結成分
    内の前記成分同士を結合すること、 のステップスによって行うこと、を特徴とする、 2値イメージ内に表題の輪郭を描く方法。
  13. 【請求項13】 少なくとも前記1つのグレー強度特性
    が、前記連結成分内の強度の平均値と前記連結成分内の
    強度の標準偏差からなるグループから選ばれた少なくと
    も1つの特性を具備する請求項10の方法。
  14. 【請求項14】 少なくとも前記1つのグレー強度特性
    が、前記連結成分内の強度の平均値と前記連結成分内の
    強度の標準偏差からなるグループから選ばれた少なくと
    も1つの特性を具備する請求項11の方法。
  15. 【請求項15】 少なくとも前記1つの寸法的特性が、
    前記連結成の高さ、前記連結成分の幅、前記連結成の最
    大の画(かく)線幅、及び、前記連結成の各々のエッジ間
    の最短距離からなるグループから選ばれた少なくとも1
    つの特性を具備する請求項10の方法。
  16. 【請求項16】 少なくとも前記1つの寸法的特性が、
    前記連結成の高さ、前記連結成分の幅、前記連結成の最
    大の画(かく)線幅、及び、前記連結成の各々のエッジ間
    の最短距離からなるグループから選ばれた少なくとも1
    つの特性を具備する請求項12の方法。
  17. 【請求項17】 (A)グレースケールイメージを受信
    すること、 (B)前記グレースケールイメージに複数レベルのしき
    い値を設け、複数の2進イメージを得ること、 (C)前記2値イメージのそれぞれを前(まえ)処理して
    前記イメージのぞれぞれからノイズ成分をフィルターす
    ること、 (D)前記2値イメージのそれぞれ内の連結成分をクラ
    スター化して各々の前記イメージ内に可能な表題領域を
    同定すること、 (E)前記2値イメージのそれぞれを後(まえ)処理して
    字画からなる可能な表題領域を合体し、前記表題領域の
    特性を予め決められた判断基準と比較することによって
    前記各イメージ中の前記の可能な表題領域から非表題領
    域を除去すること、 (F)予め決められた判断基準を満足する各前記2値イ
    メージ内の前記の可能な表題領域あるものを合体するこ
    と、 (G)各前期2値イメージ内の前記の可能な表題領域を
    結合すること、及び (H)予め決められた判断基準を満足する分離された2
    値イメージから前記の可能な表題領域あるものを合体す
    ること、のステップスによってグレースケールイメージ
    内に表題の輪郭を描く方法。
  18. 【請求項18】 前記前(まえ)処理ステップが (A)表題中の予想される文字の画(かく)線幅よりも小
    さい予め決められた寸法を持つ構造要素を用いる侵食ス
    テップを実行すること、及び、 (B)前記構造要素を用いた膨脹ステップを実行するこ
    と、の形態学的オープニング動作からなる請求項17の
    方法。
  19. 【請求項19】 (A)1個のピクセルとそれぞれが予
    め決められた数のピクセルからなる4つの外側領域のか
    らなる中心領域を持つスライディングウィンドウを生成
    すること、 (B)スライディングウィンドウを前記2値上で移動さ
    せること、 (C)前記2値イメージ内の各点において、各外側領域
    のゼロ値のピクセルの数(かず)を計算すること、 (D)前記2値イメージ内の各点において、各外側領域
    がその中で少なくとも1つのゼロ値を含み、かつ各外側
    領域内のゼロ値のピクセル数(かず)の和が第1の予め
    定められた数よりも大きいとき、中心領域に相当するピ
    クセルを0にセットすること、及び (E)前記2値イメージ内の各点において、各外側領域
    内のゼロ値のピクセルの数(かず)の和が第2の予め定
    められた数よりも小さいとき、中心領域に相当するピク
    セルを1にセットすること、のステップスを具備するキ
    ー領域を含む2値イメージの前(まえ)処理の方法。
  20. 【請求項20】 (A)前記イメージに、予め決められ
    たサイズを持つ構造要素を用いて形態学的オープニング
    ステップを実行すること、 (B)前記オープニングの後、前記内で連結成分の推定
    数を予め定められた判断基準と比較すること、及び (C)連結成分の前記推定数が前記連結成分の数(か
    ず)より少ない間は、一連の再帰的な形態学的オープニ
    ングステップを実行すること、 のステップスを具備するキー領域を含む2値イメージの
    前(まえ)処理の方法。
  21. 【請求項21】 (A)2値イメージの面積を計算する
    こと、 (B)第1のの成分の面積を計算すること、 (C)第2の成分が前記第1の成分によって取り囲まれ
    ているかどうかを決定すること、 (D)第2の成分が前記第1の成分によって取り囲まれ
    ているときには、前記第1の成分の面積を前記2値イメ
    ージの前記面積に占める予め定められた割合と比較する
    こと、 (E)前記第1の成分の前記面積が前記2値イメージの
    前記面積に占める予め定められた割合より大きいとき
    は、前記第1の成分を写真領域と指定すること、及び (F)前記第1の成分の前記面積が前記2値イメージの
    前記面積に占める予め定められた割合より小さいとき
    は、前記第1の成分を文字と指定すること、のステップ
    スを具備する2値イメージ中の写真領域と文字を区別す
    る方法。
JP2001089836A 2000-03-29 2001-03-27 ディジタルイメージから表題を抽出する方法 Pending JP2002024836A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/537931 2000-03-29
US09/537,931 US6674900B1 (en) 2000-03-29 2000-03-29 Method for extracting titles from digital images

Publications (1)

Publication Number Publication Date
JP2002024836A true JP2002024836A (ja) 2002-01-25

Family

ID=24144719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001089836A Pending JP2002024836A (ja) 2000-03-29 2001-03-27 ディジタルイメージから表題を抽出する方法

Country Status (4)

Country Link
US (1) US6674900B1 (ja)
EP (1) EP1146478B1 (ja)
JP (1) JP2002024836A (ja)
DE (1) DE60129872T2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1530857B (zh) * 2003-03-05 2011-11-16 惠普开发有限公司 文档和图案分群的方法及装置
JP2016184396A (ja) * 2015-03-26 2016-10-20 富士通株式会社 文書画像におけるマークの除去方法及び除去装置
KR20200103205A (ko) * 2019-02-20 2020-09-02 경북대학교 산학협력단 도면 상에서 외곽선 및 표제 제거 방법을 포함하는 딥러닝 기반 학습 데이터 생성 방법 및 학습 데이터 생성 시스템

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6888893B2 (en) * 2001-01-05 2005-05-03 Microsoft Corporation System and process for broadcast and communication with very low bit-rate bi-level or sketch video
US7916794B2 (en) * 2001-04-28 2011-03-29 Microsoft Corporation System and process for broadcast and communication with very low bit-rate bi-level or sketch video
US20040161152A1 (en) * 2001-06-15 2004-08-19 Matteo Marconi Automatic natural content detection in video information
JP4100885B2 (ja) * 2001-07-11 2008-06-11 キヤノン株式会社 帳票認識装置、方法、プログラムおよび記憶媒体
US6922487B2 (en) * 2001-11-02 2005-07-26 Xerox Corporation Method and apparatus for capturing text images
US7024049B2 (en) * 2002-01-16 2006-04-04 Xerox Corporation Method and apparatus for improving image appearance
US6970606B2 (en) * 2002-01-16 2005-11-29 Eastman Kodak Company Automatic image quality evaluation and correction technique for digitized and thresholded document images
US7164797B2 (en) 2002-04-25 2007-01-16 Microsoft Corporation Clustering
US7392472B2 (en) 2002-04-25 2008-06-24 Microsoft Corporation Layout analysis
US7110596B2 (en) * 2002-04-25 2006-09-19 Microsoft Corporation System and method facilitating document image compression utilizing a mask
US7043079B2 (en) 2002-04-25 2006-05-09 Microsoft Corporation “Don't care” pixel interpolation
US7024039B2 (en) 2002-04-25 2006-04-04 Microsoft Corporation Block retouching
US7263227B2 (en) 2002-04-25 2007-08-28 Microsoft Corporation Activity detector
US7120297B2 (en) 2002-04-25 2006-10-10 Microsoft Corporation Segmented layered image system
US7634729B2 (en) * 2002-11-10 2009-12-15 Microsoft Corporation Handwritten file names
US7284200B2 (en) * 2002-11-10 2007-10-16 Microsoft Corporation Organization of handwritten notes using handwritten titles
US7136066B2 (en) * 2002-11-22 2006-11-14 Microsoft Corp. System and method for scalable portrait video
US8904267B2 (en) * 2003-10-14 2014-12-02 International Business Machines Corporation Retrieving slide show content from presentation documents
US7379562B2 (en) * 2004-03-31 2008-05-27 Microsoft Corporation Determining connectedness and offset of 3D objects relative to an interactive surface
US8725929B1 (en) 2006-11-06 2014-05-13 Marvell World Trade Ltd. Adaptive read and write systems and methods for memory cells
US8645793B2 (en) 2008-06-03 2014-02-04 Marvell International Ltd. Statistical tracking for flash memory
CN101449290B (zh) 2006-05-19 2013-03-27 皇家飞利浦电子股份有限公司 误差适应性功能成像
ES2313600T3 (es) * 2006-05-19 2009-03-01 Datasensor S.P.A. Sensor de imagenes para un sistema de seguridad y procedimiento operativo correspondiente.
US7941590B2 (en) * 2006-11-06 2011-05-10 Marvell World Trade Ltd. Adaptive read and write systems and methods for memory cells
US7873235B2 (en) * 2007-01-29 2011-01-18 Ford Global Technologies, Llc Fog isolation and rejection filter
US7808834B1 (en) 2007-04-13 2010-10-05 Marvell International Ltd. Incremental memory refresh
US8031526B1 (en) 2007-08-23 2011-10-04 Marvell International Ltd. Write pre-compensation for nonvolatile memory
US8189381B1 (en) 2007-08-28 2012-05-29 Marvell International Ltd. System and method for reading flash memory cells
US8085605B2 (en) 2007-08-29 2011-12-27 Marvell World Trade Ltd. Sequence detection for flash memory with inter-cell interference
US8917935B2 (en) 2008-05-19 2014-12-23 Microsoft Corporation Detecting text using stroke width based text detection
US8320674B2 (en) * 2008-09-03 2012-11-27 Sony Corporation Text localization for image and video OCR
CN101984426B (zh) * 2010-10-21 2013-04-10 优视科技有限公司 用于对网页图片进行字符切分的方法及装置
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US8855375B2 (en) 2012-01-12 2014-10-07 Kofax, Inc. Systems and methods for mobile image capture and processing
US8831381B2 (en) 2012-01-26 2014-09-09 Qualcomm Incorporated Detecting and correcting skew in regions of text in natural images
US9064191B2 (en) 2012-01-26 2015-06-23 Qualcomm Incorporated Lower modifier detection and extraction from devanagari text images to improve OCR performance
EP2645305A3 (en) * 2012-03-26 2014-05-14 Tata Consultancy Services Limited A system and method for processing image for identifying alphanumeric characters present in a series
JP5888068B2 (ja) * 2012-03-30 2016-03-16 ブラザー工業株式会社 画像処理装置およびプログラム
US9183458B2 (en) 2012-07-19 2015-11-10 Qualcomm Incorporated Parameter selection and coarse localization of interest regions for MSER processing
US9141874B2 (en) 2012-07-19 2015-09-22 Qualcomm Incorporated Feature extraction and use with a probability density function (PDF) divergence metric
US9047540B2 (en) 2012-07-19 2015-06-02 Qualcomm Incorporated Trellis based word decoder with reverse pass
US9262699B2 (en) 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
US9076242B2 (en) 2012-07-19 2015-07-07 Qualcomm Incorporated Automatic correction of skew in natural images and video
JP6072560B2 (ja) * 2013-02-14 2017-02-01 パペルック株式会社 電子雑誌生成システムおよび電子雑誌生成方法並びに電子雑誌生成プログラム
US10127636B2 (en) 2013-09-27 2018-11-13 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
JP6107270B2 (ja) * 2013-03-19 2017-04-05 ブラザー工業株式会社 画像処理装置およびコンピュータプログラム
GB2513431B (en) * 2013-04-25 2018-12-05 Testplant Europe Ltd Method for creating a label
US9104940B2 (en) * 2013-08-30 2015-08-11 Konica Minolta Laboratory U.S.A., Inc. Line segmentation method applicable to document images containing handwriting and printed text characters or skewed text lines
US9495343B2 (en) * 2014-09-30 2016-11-15 Konica Minolta Laboratory U.S.A., Inc. Horizontal and vertical line detection and removal for document images
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
JP6365379B2 (ja) 2015-03-31 2018-08-01 ブラザー工業株式会社 画像処理プログラム、画像処理装置、及び、画像処理方法
JP6380209B2 (ja) * 2015-03-31 2018-08-29 ブラザー工業株式会社 画像処理プログラム、画像処理装置、及び、画像処理方法
US9978123B2 (en) 2015-03-31 2018-05-22 Brother Kogyo Kabushiki Kaisha Computer-readable storage medium storing image processing program, image processing device, and image processing method
JP6540280B2 (ja) 2015-06-30 2019-07-10 ブラザー工業株式会社 画像処理装置およびコンピュータプログラム
US10242285B2 (en) * 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
US10467465B2 (en) 2015-07-20 2019-11-05 Kofax, Inc. Range and/or polarity-based thresholding for improved data extraction
US9990561B2 (en) * 2015-11-23 2018-06-05 Lexmark International, Inc. Identifying consumer products in images
US10136103B2 (en) 2015-11-23 2018-11-20 Lexmark International, Inc. Identifying consumer products in images
US10803350B2 (en) 2017-11-30 2020-10-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
JP7484198B2 (ja) * 2020-02-03 2024-05-16 富士フイルムビジネスイノベーション株式会社 文書処理装置およびプログラム
CN113033338B (zh) * 2021-03-09 2024-03-29 太极计算机股份有限公司 电子报头版头条新闻位置识别方法及装置
CN112906686A (zh) * 2021-03-11 2021-06-04 北京小米移动软件有限公司 文字识别方法、装置、电子设备及存储介质
CN115496061B (zh) * 2022-09-30 2023-06-20 内蒙古财经大学 一种神经网络标题生成模型的构建方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2144793C (en) 1994-04-07 1999-01-12 Lawrence Patrick O'gorman Method of thresholding document images
EP0811946A3 (en) 1994-04-15 1998-01-14 Canon Kabushiki Kaisha Image pre-processor for character recognition system
GB2289969A (en) * 1994-05-24 1995-12-06 Ibm Character segmentation
ATE185211T1 (de) * 1995-01-31 1999-10-15 United Parcel Service Inc Verfahren und gerät zum trennen des vordergrunds und hintergrunds in textenthaltenden bildern
US5649025A (en) * 1995-02-03 1997-07-15 Xerox Corporation Multithresholding for document image segmentation
US5892843A (en) 1997-01-21 1999-04-06 Matsushita Electric Industrial Co., Ltd. Title, caption and photo extraction from scanned document images

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1530857B (zh) * 2003-03-05 2011-11-16 惠普开发有限公司 文档和图案分群的方法及装置
JP2016184396A (ja) * 2015-03-26 2016-10-20 富士通株式会社 文書画像におけるマークの除去方法及び除去装置
KR20200103205A (ko) * 2019-02-20 2020-09-02 경북대학교 산학협력단 도면 상에서 외곽선 및 표제 제거 방법을 포함하는 딥러닝 기반 학습 데이터 생성 방법 및 학습 데이터 생성 시스템
KR102193403B1 (ko) 2019-02-20 2020-12-21 경북대학교 산학협력단 도면 상에서 외곽선 및 표제 제거 방법을 포함하는 딥러닝 기반 학습 데이터 생성 방법 및 학습 데이터 생성 시스템

Also Published As

Publication number Publication date
DE60129872T2 (de) 2008-05-15
EP1146478A2 (en) 2001-10-17
DE60129872D1 (de) 2007-09-27
EP1146478A3 (en) 2004-06-09
EP1146478B1 (en) 2007-08-15
US6674900B1 (en) 2004-01-06

Similar Documents

Publication Publication Date Title
JP2002024836A (ja) ディジタルイメージから表題を抽出する方法
US5892843A (en) Title, caption and photo extraction from scanned document images
JP4976608B2 (ja) 画像をイベントに自動的に分類する方法
EP1516264B1 (en) Image retrieval by generating a descriptor for each spot of an image the cells of which having visual characteristics within a selected tolerance
JP3950777B2 (ja) 画像処理方法、画像処理装置および画像処理プログラム
EP0843277A2 (en) Page analysis system
JPH11288465A (ja) カラー画像処理装置及びパターン抽出装置
DE102011005579A1 (de) Bildverarbeitungsvorrichtung, Bildverarbeitungsverfahren und Speichermedium
JP2008257670A (ja) 画像文書の検索装置、画像文書の検索方法、プログラム、及び記録媒体
CN105260428A (zh) 图片处理方法和装置
JPH05225378A (ja) 文書画像の領域分割システム
CN111461131A (zh) 身份证号码信息识别方法、装置、设备及存储介质
CN114863431A (zh) 一种文本检测方法、装置及设备
KR101571681B1 (ko) 동질 영역을 이용한 문서 구조의 분석 방법
JPH10214340A (ja) 矩形分類方法
JP3720892B2 (ja) 画像処理方法および画像処理装置
Chang et al. Binarization of document images using Hadamard multiresolution analysis
JPH1125222A (ja) 文字切り出し方法及び文字切り出し装置
Liu et al. Document image binarization based on texture analysis
JP4194309B2 (ja) 文書方向推定方法および文書方向推定プログラム
Dey et al. Margin noise removal from printed document images
JP2003346081A (ja) 文字認識装置
JPH05342412A (ja) グラディエントベクトルの抽出方式及び文字認識用特徴抽出方式
JP2832928B2 (ja) 文字認識方法
KR100317653B1 (ko) 대용량인쇄체문자인식을위한특징추출방법

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050523

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20061129