JPH11272798A - ボ―ルド体文字を区別する方法及び装置 - Google Patents

ボ―ルド体文字を区別する方法及び装置

Info

Publication number
JPH11272798A
JPH11272798A JP11032561A JP3256199A JPH11272798A JP H11272798 A JPH11272798 A JP H11272798A JP 11032561 A JP11032561 A JP 11032561A JP 3256199 A JP3256199 A JP 3256199A JP H11272798 A JPH11272798 A JP H11272798A
Authority
JP
Japan
Prior art keywords
symbol
symbols
extracted
run
stroke width
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11032561A
Other languages
English (en)
Other versions
JP4309986B2 (ja
Inventor
Davies Daniel
ダビーズ ダニエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH11272798A publication Critical patent/JPH11272798A/ja
Application granted granted Critical
Publication of JP4309986B2 publication Critical patent/JP4309986B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/005Statistical coding, e.g. Huffman, run length coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/245Font recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 2進コード化されたイメージデータから、ボ
ールド体と非ボールド体を識別する。 【解決手段】 プロセッサ102はイメージ文書に含ま
れている記号をスキャンするようにスキャナ108に指
示する。また、ヒストグラム作成部112に対して記号
の第1のヒストグラム(各ランレングスのラン数)と第
2のヒストグラム(各ランレングスのランに含まれるピ
クセル数)の作成を指示する。そして、プロセッサ10
2は乱数とピクセル数に基づいて記号のストローク幅を
決定し、ストローク幅に基づいてボールド体と非ボール
ド体を区別する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、スキャンされたテ
キストイメージの圧縮に関する。特に、本発明は記号識
別に使用される記号のストローク幅の判別に関する。
【0002】
【従来の技術】イメージをデジタル化して使用する場合
の主な障害は、サイズである。8.5″x11″のイメ
ージを300ドット/インチ(dpi)の解像度で表示
すると、約800万ピクセルが含まれる。スキャンイメ
ージを2進化すればビット/ピクセルは1に減少する
が、それでも、同じイメージを記憶するためには1メガ
バイトのメモリが必要になる。圧縮技術は、通常、無損
失または有損失という特徴で分類する。無損失圧縮の場
合、圧縮時及び後続の伸張時にデータが失われることは
ない。これに対し、有損失圧縮の場合、一定のデータ量
が失われる。しかし、データを圧縮しても内容は伸張後
も実際には変わらないため、この損失は容認される。
【0003】2進イメージの一般的な無損失圧縮技術
(CCITTグループ3またはグループ4など)では、
2進イメージの圧縮率は10から20である。この技術
でファイルを作成すると、同等のイメージを合成電子フ
ォームで作成する場合と比べ、ファイルサイズは非常に
大きなものになる。
【0004】大部分の文書には、テキストが含まれてい
る。2進イメージのテキストの圧縮は、例えば、光学文
字認識でテキストストリームを作成し、特定のテキスト
圧縮方法でそのテキストストリームを圧縮し、その結果
を記憶することで行なう。しかし、光学文字認識時の文
字、フォント、字体、及び位置の選択が間違っていて、
所望の結果が得られないことがしばしばある。
【0005】これらのアプリケーションで公開している
システム及び方法では、ランレングス記号抽出を実行
し、横方向及び縦方向のランレングス情報を基に記号を
等価クラスに分類する。抽出記号と基準記号との突合せ
に使用される形状主体の分類基準は、対応する基準記号
テンプレートにより定義されている。この基準記号テン
プレートには複数の水平及び垂直テンプレートグループ
が含まれていて、各グループでは、1つまたは複数の記
号のラン(run)が一致すれば記号を特定するための
基準を定義している。形状主体の分類基準では、ランの
終端から簡単に計算できる量を使用している。
【0006】形状主体の分類基準には、サイズ、黒ピク
セルの数(黒色部)、縁以外の個所の黒のピクセル数
(内部)、記号の傾き計測値、及び丸さ及び四角さの計
測値(量)も含まれる。形状主体の基準に加えてこれら
の計測値を使用することで、使用基準に合った結果を得
ることができる。
【0007】
【発明が解決しようとする課題】しかし、形状主体の方
法では、ボールド体文字と非ボールド体文字を区別する
のに問題がある。文字が小さい場合、ボールド体文字の
ストロークは通常の文字の幅よりわずか1ピクセル太い
だけである。公開されている方法では1ピクセル分のノ
イズを常に考慮しているため、単純な形状主体方法の場
合、小さな文字のボールド体と非ボールド体とを常に区
別できるとは限らない。したがって、ボールド体と非ボ
ールド体とを区別するためには、さらに効果的な方法が
必要とされている。
【0008】
【課題を解決するための手段】本発明は、ボールド体文
字と非ボールド体文字を区別する方法及び装置を提供す
る。
【0009】また、本発明はスキャンされた記号を等価
クラスに分類するための方法も改善している。
【0010】本発明の方法及び装置は、ランレングス記
号抽出を実行し、横方向及び縦方向のランレングス情報
に従って記号を分類する。援用アプリケーションでは各
文字の黒色部を計測するだけであるが、本発明の方法及
び装置では、各文字のストローク幅を計測し、その文字
がボールド体か非ボールド体かを判別する。
【0011】ストローク幅を計測することで、句読点が
非常に小さい場合でも、効率的に区別することができ
る。従来は、小さな句読点を別の小さな句読点と区別す
るために、内部のピクセル数を判別する必要があった。
小さな句読点の場合ピクセルの合計数及びサイズは同じ
であるため、テールがある記号(コンマやアポストロフ
ィなど)とほぼ同じサイズの記号とを区別するために
は、縁でない部分のピクセル数が必要であった。文字の
ストローク幅を計測することで小さな文字の形をより明
確に判別できるようになるため、小さな文字と別の小さ
な文字とを区別するためにその内部ピクセル数を判別す
る必要はなくなる。
【0012】特に、本発明は、スキャンテキストイメー
ジに含まれているボールド体記号と通常の字体記号とを
記号のストローク幅を使用して区別できるようにしてい
る。本発明の好ましい方法には、記号のスキャン、記号
のヒストグラムの生成、ヒストグラムからのピクセル数
の合計の計算、ピクセルの合計に使用されたラン数の合
計の計算、及びこれら2つの合計を使用して記号のスト
ローク幅を決定するステップが含まれる。
【0013】
【発明の実施の形態】本発明を実施するコンピュータベ
ースシステムを、図1を参照して説明する。図1では、
複数の構成要素が、バス101を介してコンピュータベ
ースシステムに結合されている。ここで図示しているバ
ス101は、本発明を分かりやすくするために簡素化さ
れている。バス101には、複数の並行バス(例えば、
アドレス、データ、及びステータスバス)及びバスの階
層(例えば、プロセッサバス、ローカルバス、及び入出
力バス)が含まれていてもよい。コンピュータシステム
にはさらにプロセッサ102が含まれていて、内部メモ
リ103からバス101を介して取り出される命令を実
行できるようにしている。これら命令はソフトウェアで
作成し、図5のフローチャート及び援用アプリケーショ
ンに含まれているフローチャートで概説する処理ステッ
プを実行できるようにする方が良い。ソフトウェアは、
Cプログラミング言語で作成することが望ましい。ヒス
トグラム作成部112、記号分類部113、及び統合部
114の機能は、公知のソフトウェアまたは他の手段で
実行できる。内部メモリ103は、通常、RAM及びR
OM(あるいはその両方)を組み合わせて作成する。プ
ロセッサ102及び内部メモリROM103は、個別構
成部品でも良く、また特定用途向けIC(ASIC)な
どの単一の集積デバイスでも良い。
【0014】また、英数字入力データを入力するための
キーボード104、データを記憶するための外部記憶部
105、カーソルを操作するためのカーソル制御装置1
06、及び表示出力データを表示するための表示装置1
07も、バス101に結合されている。キーボード10
4は通常は標準のQWERTYキーボードであるが、電
話などのキーパッドでも構わない。外部記憶部105
は、固定または取り外し可能磁気ドライブまたは光学デ
ィスクドライブである。カーソル制御装置106には通
常はボタンまたはスイッチが関連付けられていて、特定
の機能の実行をプログラムできるようになっている。さ
らに、スキャナ108もバス101に結合されている。
スキャナ108は、媒体のビットマップ表現を作成する
手段である(つまり、スキャンされた文書イメージ)。
【0015】バス101に結合できる他のオプション要
素としては、プリンタ109、ファクシミリ要素11
0、及びネットワーク接続部111がある。プリンタ1
09は、ビットマップ表現の印刷に使用する。ファクシ
ミリ要素110には特定の要素を組み込み、本発明を使
用して圧縮されたイメージデータを送信するために使用
することができる。また、ファクシミリ要素110には
特定の要素を組み込み、本発明を使用して圧縮された文
書イメージを伸張するために使用することもできる。ネ
ットワーク接続部111は、イメージデータが含まれた
データの送受信に使用する。したがって、本発明により
作成されるイメージデータは、受信されたファックスを
介してまたはネットワークにより、スキャナ108から
入手できる。
【0016】ヒストグラム作成部112は、抽出記号の
ヒストグラムを作成する。記号分類部113は抽出記号
を分類し、固有な基準記号で表現される幾つかの等価ク
ラスにそれら抽出記号を分ける。作成される等価クラス
数は、通常は、抽出記号の合計数より少ない。作成され
る出力分類表には、基準記号ID/位置の組が含まれ、
その後ろに基準記号の辞書が続く。
【0017】統合部114は等価クラス数を減らすこと
で等価クラスセットを統合し、辞書のサイズを縮小する
ことでイメージデータを圧縮する。統合操作の実行方法
は、記号と基準記号との比較操作とほぼ同じである。通
常、記号の突合せ操作に費やす作業量が多ければ多いほ
ど、一致する記号も増える。効率を考慮した場合、この
作業は生(未処理)記号の全体に対し実行するよりは、
比較的小さな等価クラスのセットに対し実行した方が効
果的である。
【0018】イメージ伸張時に、基準記号ID/位置の
各組を処理し、識別された基準記号を指定した場所に配
置する。これを、すべての組に対し継続して実行する。
突合せ処理中に基準記号が元の記号に置き換わるため、
この種の圧縮タイプは有損失圧縮と呼ばれる。この置換
えにもかかわらず、イメージの本質は変わらない。
【0019】記号分類部113は、ビットマップではな
く記号を表すランを分析し、記号を直接分類する。ただ
し、記号分類部113は幅及び高さなどの記号の形状は
そのまま分類で使用する。さらに詳細な記号の形状を調
べるために、記号分類部113は各記号のラン終端位置
と対応する正しい終端場所の範囲とを比較する。この範
囲は、基準記号内で隣接する3本のスキャン行の対応す
るグループを調べることで計算したものである。十分な
精度を上げるために、水平ランから垂直ランを作成し、
両方のランのセットを分類に使用する。
【0020】図1に示すように、コンピュータベースシ
ステムは、できればプログラムされた汎用コンピュータ
で実行する方が望ましい。しかし、コンピュータベース
システムは、専用コンピュータ、プログラムされたマイ
クロプロセッサまたはマイクロコントローラ及び周辺集
積回路要素、ASICまたは他の集積回路、個別要素回
路などのハードワイヤード電子または論理回路、PL
D、PLA、FPGA、またはPALなどのプログラマ
ブル論理デバイスで実行することもできる。一般的に、
本発明の方法を実行可能な有限状態マシンを補完できる
装置であれば、コンピュータベースシステムを実行する
ために使用できる。
【0021】形状主体の分類基準では、ラン終端から簡
単に計算できる数量を使用する。これらの終端を利用す
るため、ビットマップの場合に比較し、記号を数値的に
測定して生成することが容易である。形状主体の分類基
準には、個別記号の幅と高さ、等価クラスの幅と高さ、
ストロークの幅、傾き、及び水平及び垂直量が含まれ
る。
【0022】記号の幅と高さは、記号を囲む境界ボック
スで指定する。記号の幅と高さを使用して比較対象とな
る等価クラスのサブセットを選択し、適用する記号形状
テストを決定する。好適な実施形態においては、等価ク
ラスの基準記号を比較操作で使用するためには、基準記
号は記号の幅及び高さの±2ピクセル以内でなければな
らない。
【0023】大部分の基本テストは、大きな記号を区別
するためには適切である。記号が小さい場合は、微妙な
形状が重要になり、さらにテストを続ける必要がある。
小さな記号は、通常、幅または高さが20ピクセル以下
の記号である。
【0024】等価クラスの幅及び高さの範囲の判別結果
は、以下に述べる2つの操作で使用する。まず、非常に
小さな記号の場合は一致する幅と高さの範囲が狭いた
め、最小許容幅及び最大及び高さを各クラスごとに記録
されている。これらの範囲に収まらない記号は、このク
ラスには組み込まない。次に、等価クラスの統合化処理
時に幅と高さの範囲を使用する。この判別作業により、
各統合クラスの最小及び最大許容幅及び高さが決定され
る。
【0025】文字または記号のストローク幅を決定する
とき、垂直ランと水平ランを分析する。水平ランの分析
は垂直ランの分析と同じであるため、水平ランの分析だ
けを図示し、説明する。水平ランは、ある状態のピクセ
ルの連続行である。図2は、スキャン行201−207
で形成される“o”の水平ランを示したものである。ス
キャン行201と207の水平ランにはそれぞれ5ピク
セル含まれ、スキャン行202と206の4つの水平ラ
ンにはそれぞれ1ピクセル含まれ、スキャン行203−
205の水平ランにはそれぞれ2ピクセル含まれてい
る。短い長さの水平ラン、つまりスキャン行202−2
06の水平ランは、この文字の縦方向のストロークを表
している。
【0026】図3は、図2に示した記号のヒストグラム
である。このヒストグラムはランレングスを横軸にし、
その長さのラン数を示している。図4も、図2に示した
記号のヒストグラムである。このヒストグラムはランレ
ングスを横軸にし、その長さのランに含まれる合計ピク
セル数を示している。特定のランレングスの合計ピクセ
ル数は、そのランレングスにそのレングスのラン数を掛
けて求めることができる。
【0027】最短のランレングスから最長のランレング
スの方向に、各ランレングスごとに、そのレングスのラ
ンに含まれるピクセルの合計数を第1の移動合計に加え
る。第1の移動合計は、その合計が記号の黒色部全体の
かなりの部分を占めるようになったら停止する。記号の
黒色部全体は、その記号を表すために必要な黒のピクセ
ルの合計数である。できれば、第1の移動合計が黒色部
全体の少なくとも半分になった時点で合計操作を停止す
る。しかし、移動合計は他の基準によって停止しても構
わない。
【0028】第2の移動合計は、第1の移動合計を求め
るために使用したラン数の合計である。文字のストロー
ク幅は、第1の移動合計を第2の移動合計で除算した値
である。抽出記号のストローク幅と等価クラスの基準記
号の差が0.5ピクセル以下の場合だけ、その抽出記号
を特定の等価クラスに分類する。ストローク幅の増減許
容量が1ピクセルの場合は、ボールド体記号の凹部や通
常記号の凸部があっても、ストローク幅は一致してしま
う。
【0029】図2に示されている記号を例に使用する
と、黒色部のピクセル数は26で、第1の移動合計は1
6である。第1の移動合計は、ランレングスが1と2の
ランのピクセル数を加えた後に停止する。これは、黒色
部全体のピクセル数である26の半分より16の方が大
きいからである。この例の場合、第2の移動合計は10
である。第2の移動合計は、ランレングスが1と2のラ
ン数の合計である。したがって、図2に示してある記号
のストローク幅は16/10、つまり1.60になる。
【0030】本発明の好ましい方法では、プロセッサ1
02は、イメージ文書に含まれている記号をスキャンす
るようにスキャナ108に指示する。また、プロセッサ
102はヒストグラム作成部112に対し、記号の第1
のヒストグラム(ランレングスを横軸にした各レングス
のラン数)と第2のヒストグラム(ランレングスを横軸
にした各レングスのランに含まれるピクセルの合計数)
を作成するように指示する。プロセッサ102は、黒色
部全体、第1の移動合計、第2の移動合計、及び記号の
ストローク幅を決定する。プロセッサ102は、記号分
類部113に対しその記号を等価クラスに分類するよう
に指示するか、または新しい等価クラスを作成する。
【0031】本発明の好ましい方法を図5を参照して説
明する。
【0032】この方法はステップS500から開始す
る。ステップS510では、イメージ文書に含まれる記
号をスキャンする。ステップS520では、記号の第1
のヒストグラム(ランレングスを横軸にしたレングスの
ラン数)及び第2のヒストグラム(ランレングスを横軸
にしたレングスのランの合計ピクセル数)を生成する。
ステップS530では、黒色部の合計ピクセル数、第1
の移動合計と第2の移動合計、および記号のストローク
幅を決定する。ステップS540では、記号を等価クラ
スに分類するか、または新しい等価クラスを作成する。
ステップS550で、この方法は終了する。
【図面の簡単な説明】
【図1】 本発明を実施する装置のブロック図である。
【図2】 記号の水平ラン数を示す図である。
【図3】 図2に示された記号のピクセルランカウント
のヒストグラム(その1)図である。
【図4】 図2に示された記号のピクセルランカウント
のヒストグラム(その2)図である。
【図5】 本発明の処理フローチャートである。
【符号の説明】
108 スキャナ、102 プロセッサ、113 記号
分類部。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 2進コード化されたイメージデータに含
    まれる記号のストローク幅を決定する方法であって、 記号を抽出するステップと、 抽出された記号のヒストグラムを作成するステップと、 抽出された記号の黒色部全体を決定するステップと、 選択されたヒストグラムグループからピクセル数の合計
    を求めるステップと、 ピクセル数を決定するために使用したラン数の合計を求
    めるステップと、 ピクセル数及びラン数に基づき、抽出された記号のスト
    ローク幅を決定するステップとを含むことを特徴とする
    方法。
  2. 【請求項2】 2進コード化されたイメージデータに含
    まれる記号を分類する方法であって、 ランレングスでコード化された記号の表現を抽出するス
    テップと、 ランレングスでコード化された表現から抽出された記号
    のストローク幅と記号の形状を判別するステップと、 以前に抽出された記号から作成された等価クラスを含む
    辞書から等価クラスのセットを選択するステップであっ
    て、各等価クラスは基準記号により表現され、各基準記
    号はテンプレートで構成され、各テンプレートは基準記
    号に関する情報で構成され、 一致するものが見つかるかまたはすべての基準記号が比
    較されるまで、抽出された記号の少なくともストローク
    幅と等価クラスの各セットの各基準記号のテンプレート
    とを比較するステップと、 比較の結果一致したら、抽出した記号が比較対象基準記
    号の等価クラスに含まれていることを指示するかまたは
    比較に基づいて新しい等価クラスを作成するステップ
    と、 比較の結果一致しない場合は、前記抽出された記号を基
    準記号として新しい等価クラスを作成するステップと、 前記新しい等価クラスを辞書に追加するステップとを含
    むことを特徴とする方法。
  3. 【請求項3】 2進コード化されたイメージデータに含
    まれる記号を分類する装置であって、 電子イメージデータを入力する手段と、 記号のランレングスコード化表現を抽出する手段と、 抽出された記号のストローク幅及び記号の形状をランレ
    ングスコード化表現から決定する手段と、 ストローク幅及び記号の形状に基づき、抽出された記号
    が第1の等価クラスを表す基準記号と一致する場合は抽
    出された記号を第1の等価クラスに分類し、抽出された
    記号が第1の等価クラスを表す基準記号と一致しない場
    合は第2の等価クラスを作成する記号分類部とを備える
    ことを特徴とする装置。
JP03256199A 1998-02-13 1999-02-10 ボールド体文字を区別する方法及び装置 Expired - Fee Related JP4309986B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/023,117 US6088478A (en) 1998-02-13 1998-02-13 Method and apparatus for distinguishing bold face characters
US09/023,117 1998-02-13

Publications (2)

Publication Number Publication Date
JPH11272798A true JPH11272798A (ja) 1999-10-08
JP4309986B2 JP4309986B2 (ja) 2009-08-05

Family

ID=21813229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03256199A Expired - Fee Related JP4309986B2 (ja) 1998-02-13 1999-02-10 ボールド体文字を区別する方法及び装置

Country Status (2)

Country Link
US (1) US6088478A (ja)
JP (1) JP4309986B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003333341A (ja) * 2002-04-25 2003-11-21 Microsoft Corp インククラスタの明示的な表現を用いた2レベルイメージの圧縮

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7472348B2 (en) * 1998-11-05 2008-12-30 Canon Kabushiki Kaisha Image processing apparatus, image processing method and storage medium using character size and width for magnification
US8131503B2 (en) * 2004-01-30 2012-03-06 Weber James S Method and system for determining histogram density estimators
US7603254B2 (en) * 2004-01-30 2009-10-13 Weber James S Method and system for determining histogram appearances from small data samples
WO2006071237A2 (en) * 2004-01-30 2006-07-06 James S Weber Method and system for determining histograms
JP6355908B2 (ja) * 2013-09-30 2018-07-11 国立大学法人広島大学 シンボル認識装置および車両用標識認識装置
CN103761520B (zh) * 2013-12-05 2016-09-21 南京理工大学 基于笔划宽度的文档图像无参二值化方法
US10248857B2 (en) * 2017-03-30 2019-04-02 Wipro Limited System and method for detecting and annotating bold text in an image document
US10628525B2 (en) * 2017-05-17 2020-04-21 International Business Machines Corporation Natural language processing of formatted documents

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5668891A (en) * 1995-01-06 1997-09-16 Xerox Corporation Methods for determining font attributes of characters
US5778095A (en) * 1995-12-20 1998-07-07 Xerox Corporation Classification of scanned symbols into equivalence classes

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003333341A (ja) * 2002-04-25 2003-11-21 Microsoft Corp インククラスタの明示的な表現を用いた2レベルイメージの圧縮

Also Published As

Publication number Publication date
JP4309986B2 (ja) 2009-08-05
US6088478A (en) 2000-07-11

Similar Documents

Publication Publication Date Title
JP3925971B2 (ja) 統合同値類の作成方法
US7936929B2 (en) Image processing method and apparatus for removing noise from a document image
JP6139396B2 (ja) 文書を表す二値画像を圧縮する方法及びプログラム
JP4065460B2 (ja) 画像処理方法及び装置
JP3792747B2 (ja) 文字認識装置及び方法
JP3345350B2 (ja) 文書画像認識装置、その方法、及び記録媒体
US8041113B2 (en) Image processing device, image processing method, and computer program product
EP1349371B1 (en) Image processing apparatus, image processing program and storage medium storing the program
JP4494563B2 (ja) トークン化によるイメージ分割を用いたイメージ処理方法および装置
US20060170944A1 (en) Method and system for rasterizing and encoding multi-region data
JP2001167131A (ja) 文書シグネチュアを使用する文書の自動分類方法
US6885768B2 (en) Image recognition apparatus, method and program product
US20090234820A1 (en) Image processing apparatus, image processing method, and computer-readable storage medium
JP3977468B2 (ja) シンボル分類装置
US20100054591A1 (en) Image processing apparatus and image processing method
JP4077919B2 (ja) 画像処理方法及び装置及びその記憶媒体
US8229214B2 (en) Image processing apparatus and image processing method
US7126612B2 (en) Image processing apparatus, image processing method, program, and storage medium
JP4309986B2 (ja) ボールド体文字を区別する方法及び装置
JP5335581B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
EP0715274A2 (en) Method and apparatus for detecting whether an electronic image has been faxed
JP2020087320A (ja) 画像処理装置、画像処理方法、及びプログラム
Ageenko et al. Context-based filtering of document images
KR100334624B1 (ko) 클러스터링기반문서영상분할방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060207

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081028

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090414

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090511

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130515

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130515

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees