JP2002024766A - 文字認識装置及び方法 - Google Patents

文字認識装置及び方法

Info

Publication number
JP2002024766A
JP2002024766A JP2000208733A JP2000208733A JP2002024766A JP 2002024766 A JP2002024766 A JP 2002024766A JP 2000208733 A JP2000208733 A JP 2000208733A JP 2000208733 A JP2000208733 A JP 2000208733A JP 2002024766 A JP2002024766 A JP 2002024766A
Authority
JP
Japan
Prior art keywords
character recognition
image
resolution
character
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000208733A
Other languages
English (en)
Inventor
Kitahiro Kaneda
北洋 金田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000208733A priority Critical patent/JP2002024766A/ja
Publication of JP2002024766A publication Critical patent/JP2002024766A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】画像内容に応じて適切な解像度の画像を用いて
認識処理を実行することを可能とし、認識処理の効率や
認識精度を向上する。 【解決手段】原稿画像を表す画像データを入力し、これ
を複数の解像度に対応した画像データと該原稿画像中の
文字に関する属性情報とを含むFlashPix画像データに変
換してメモリに格納する(S200、S202)。ここ
で属性情報は例えば文字種を表し、この文字種に基づい
て文字認識処理に適切な解像度を決定する(S204、
S206)。そして、決定された解像度に対応する画像
データを上記メモリより選択、取得し、これに対して文
字認識処理を施す(S208、S210)。文字認識結
果をディスプレイ等の出力装置によって出力する(S2
12)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文字認識装置及び方
法に関する。
【0002】
【従来の技術】一般に文字認識装置では、基本的に単一
解像度の二値画像を入力とし、この画像に対して文字認
識処理を実行している。一方、文字認識の精度は一般に
入力画像の内容(文字種)及びその解像度と密接な関係
にあることが判明している。
【0003】
【発明が解決しようとする課題】しかしながら、一般的
な文字認識装置では、単一解像度の画像を認識処理の対
象としているため、認識精度の観点から見れば、常に最
適な条件で文字認識を行える環境にあるとは言い難かっ
た。
【0004】本発明は、上記の問題に鑑みてなされたも
のであり、画像内容に応じて適切な解像度の画像を用い
て認識処理を実行可能とし、認識処理の効率や認識精度
を向上することを目的とする。
【0005】また、本発明の他の目的は、例えばFlashP
ix画像フォーマットのごとく、予め複数の解像度で画像
が格納されている場合に、それらの中から認識処理に適
切な解像度の画像を用いることを可能とすることにあ
る。
【0006】また、本発明の他の目的は、文字認識対象
となる原稿画像の文字種に基づいて文字認識に適切な解
像度を決定し、決定された解像度の画像を文字認識対象
として用いることにより文字認識精度を向上させること
にある。
【0007】更に、本発明の他の目的は、原稿画像の文
字種等の属性に基づいて適切な文字認識エンジンと文字
認識辞書を選択し、選択された文字認識辞書に適切な解
像度を決定し、決定された解像度の画像を文字認識対象
として用いることにより文字認識精度を向上させること
にある。
【0008】
【課題を解決するための手段】上記の目的を達成するた
めの本発明による文字認識装置は例えば以下の構成を備
える。すなわち、原稿画像を表す画像データと該原稿画
像中の文字に関する属性情報とを含むデータが格納され
たメモリから、該属性情報を取得する第1取得手段と、
前記属性情報に基づいて、前記原稿画像を表す画像デー
タに対する文字認識処理に適した解像度を決定する決定
手段と、前記原稿画像を表し、前記決定手段で決定され
た解像度に対応する画像データを取得する第2取得手段
と、前記第2取得手段で取得した画像データに対して文
字認識処理を行う認識手段とを備える。
【0009】また、上記の目的を達成するための本発明
の文字認識方法は、原稿画像を表す画像データと該原稿
画像中の文字に関する属性情報とを含むデータが格納さ
れたメモリから、該属性情報を取得する第1取得工程
と、前記属性情報に基づいて、前記原稿画像を表す画像
データに対する文字認識処理に適した解像度を決定する
決定工程と、前記原稿画像を表し、前記決定工程で決定
された解像度に対応する画像データを取得する第2取得
工程と、前記第2取得工程で取得した画像データに対し
て文字認識処理を行う認識工程とを備える。
【0010】
【発明の実施の形態】以下、添付の図面を参照して本発
明の好適な実施形態を説明する。
【0011】本実施形態による文字認識装置の説明を行
う前に、本実施形態において入力画像として適用するFl
ashPix(商標)フォーマットについて簡単に説明する。
【0012】<FlashPixのフォーマットについて>以後
説明するFlashPix(TM)(FlashPixは米国EastmanKodak社
の登録商標)ファイルフォーマットでは、画像ヘッダ部
に格納されていた画像属性情報および画像データをさら
に構造化してファイル内に格納する。この構造化した画
像ファイルを図7、図8に示す。
【0013】ファイル内の各プロパティやデータにはM
S−DOSのディレクトリとファイルに相当する、スト
レージとストリームによってアクセスする。図7、図8
において、影付き部分がストレージで影なし部分がスト
リームである。画像データや画像属性情報はストリーム
部分に格納される。画像データは異なる解像度で階層化
されておりそれぞれの解像度の画像をSubimageと呼び、
Resolution 0,1,…nで示してある。各解像度画像に対
して、その画像を読み出すために必要な情報がSubimage
headerに、また画像データがSubimage dataに格納され
る。
【0014】プロパティセットとは属性情報をその使用
目的、内容に応じて分類して定義したもので、SummaryI
nfo. Property Set,Image Info. Property Set,Image
Contents Property Set,Extensionlist property Set
がある。
【0015】[各プロパティセットの説明]Summary In
fo. Property SetはFlashPix特有のものではなく、Micr
osoft社のストラクチャードストレージでは必須のプロ
パティセットで、そのファイルのタイトル・題名・著者
・サムネール画像等を格納する。
【0016】Image Contents Property Setは画像デー
タの格納方法を記述する属性である(図11)。この属
性には画像データの階層数、最大解像度の画像の幅、高
さや、それぞれの解像度の画像についての幅、高さ、色
の構成、あるいはJPEG圧縮を用いる際の量子化テー
ブル・ハフマンテーブルの定義を記述する。
【0017】Image Info. Property Setは画像を使用す
る際に利用できるさまざまな情報、例えば、その画像が
どのようにして取り込まれ、どのように利用可能である
かの情報を格納する。
【0018】Image Info. Property Setには、例えば、 ・デジタルデータの取り込み方法/あるいは生成方法に
関する情報(File Source) ・著作権に関する情報(Intellectual property) ・画像の内容(画像中の人物、場所など)に関する情報
(Contentdescription) ・撮影に使われたカメラに関する情報(Camera informa
tion) ・撮影時のカメラのセッティング(露出、シャッタース
ピード、焦点距離、フラッシュ使用の有無など)の情報
(Per Picture camera settings) ・デジタルカメラ特有解像度やモザイクフィルタに関す
る情報(Digital cameracharacterization) ・フィルムのメーカ名、製品名、種類(ネガ/ポジ、カ
ラー/白黒)などの情報(Filmdescription) ・オリジナルが書物や印刷物である場合の種類やサイズ
に関する情報(Originaldocument scan description) ・スキャン画像の場合、使用したスキャナやソフト、操
作した人に関する情報(scandevice) が記述される。
【0019】Extension list property Setは上記Flash
Pixの基本仕様に含まれない情報を追加する際に使用す
る領域である。
【0020】図8のFlashPix Image View Objectは画像
を表示する際に用いるビューイングパラメータと画像デ
ータをあわせて格納する、画像ファイルである。ビュー
イングパラメータとは画像の回転、拡大/縮小、移動、
色変換、フィルタリングの処理を画像表示の際に適応す
るために記憶しておく処理係数のセットである。
【0021】Source/Result FlashPix Image ObjectはF
lashPix画像データの実体であり、SourceFlashPix Imag
e Objectは必須、Result FlashPix Image Obiectはオプ
ションである。Source FlashPixImage Objectはオリジ
ナルの画像データを、ResultFlashPix Image Objectは
ビューイングパラメータを使って画像を処理した結果の
画像を格納する。
【0022】Source/Result desc. Property setは上
記、画像データの識別のためのプロパティセットであ
り、画像ID、変更禁止のプロパティセット、最終更新
日時等を格納する。
【0023】Transform property setは回転、拡大/縮
小、移動のためのAffine変換係数、色変換マトリクス、
コントラスト調整値、フィルタリング係数を格納してい
る。
【0024】[タイルに分割された複数の解像度の画像
を含む画像フォーマットの説明]次に画像データの取り
扱いについて説明する。
【0025】図9に解像度の異なる複数の画像から構成
される画像ファイルの例を示す。図9で最大解像度の画
像は列×行がC×Rで構成されており、その次に大きい
画像はC/2×R/2であり、それ以降順次、列・行と
もに1/2ずつ縮小し、列・行ともに64画素以下ある
いは等しくなるまで繰り返す。
【0026】このように階層化した結果、画像の属性情
報として「1つの画像ファイル中の階層数」やそれぞれ
の階層の画像に対して、従来の画像フォーマットと同様
にヘッダ情報と画像データが必要となる。1つの画像フ
ァイル中の階層の数や最大解像度の画像の幅、高さ、あ
るいはそれぞれの解像度の画像の幅、高さ、色構成、圧
縮方式等に関する情報は前記Image Contents Property
Set(図11)中に記述される。
【0027】さらに各解像度のレイヤの画像は図10に
示すように64×64のタイルに分割されている。な
お、図10において、Cj=Rj=64画素、Ci及びRiは実際の
画像サイズである。画像の左上部から順次64×64の
タイルに分割をすると、画像によっては右端および下端
のタイルの一部に空白が生ずる場合がある。この場合は
それぞれ最右端画像または最下端画像を繰り返し挿入す
ることで、64×64画素を構築する。FlashPixではそ
れぞれのタイル中の画像をJPEG圧縮、シングルカラ
ー、非圧縮のいずれかの方法で格納する。JPEG圧縮
はISO/IECJTC1/SC29により国際標準化された画像圧縮方
式であり、方式自体の説明はここでは割愛する。このよ
うにタイル分割された画像データはSubimagedataストリ
ーム中に格納され、タイルの総数、個々のタイルのサイ
ズ、データの開始位置、圧縮方法はすべてSubimage hea
der(図12)に格納されている。
【0028】シングルカラーとは、前記1つのタイルが
すべて同じ色で構成されている場合にのみ、個々の画素
の値を記録することなく、そのタイルの色を1色で表現
する方式である。この方法は特に、コンピュータグラフ
ィックスにより生成された画像で有効である。
【0029】<第1の実施形態>図1は、本実施形態に
よる文字認識装置の概略構成を示すブロック図である。
図1において、2は原稿画像を入力するスキャナ、カメ
ラ、あるいはファイル読み込み装置などの画像入力装
置、4は各種処理を行うプロセッサ、6はプロセッサ4
への命令を入力するキーボード、8はFlashPixフォーマ
ットの画像データ(以下、FlashPix画像という)8aを
保存するディスク、10はプロセッサ4において為され
る各種処理用の一時データ記憶(各種ワークエリア10
b)、あるいは画像入力装置2で読み込んだ原稿画像1
0aを蓄積するメモリ、12は処理の結果を出力するデ
ィスプレイ、プリンタ等の出力装置である。尚、画像入
力装置2は、ネットワークに接続されたネットワークイ
ンタフェースを有し、ネットワークを通じて原稿画像を
読み込んで入力するものであってもよい。
【0030】次に動作について説明する。キーボード6
から入力された命令に従い、まず、画像入力装置2より
電子化された原稿画像を取得し、メモリ10に展開す
る。展開された原稿画像10aはプロセッサ4によりFla
shPixフォーマットに変換され、FlashPix画像8aとし
てディスク8に保存される。なお、入力画像があらかじ
めFlashPix画像である場合はそのままディスク8に保存
されるものとする。その後プロセッサ4によりFlashPix
画像より所定の属性情報が抽出され、それに基づき文字
認識に最適な解像度が選択される。そして、選択された
解像度に該当する画像データをメモリ10に読込み、文
字認識が施される。処理結果はディスプレイ、プリンタ
等の出力装置12を通して出力される。
【0031】以下図2,3,4を参照して第1の実施形
態による文字認識装置の動作、特にプロセッサ4が実行
する各種制御処理の動作を説明する。
【0032】図2は、第1の実施形態における文字認識
処理を説明するフローチャートである。なお、図2に示
される処理の流れは、プロセッサ4が1枚の原稿に対し
て文字認識処理をする際の処理の流れである。まず、ス
テップS200において、画像入力装置2から原稿画像
を取込み、画像データとしてメモリ10に転送する。続
いて、ステップS202では、ステップS200におい
てメモリ10に展開された原稿画像10aをFlashPixフ
ォーマットに変換する。なお、FlashPixフォーマットは
公知の技術であり、変換はどのように行っても良い。
【0033】ステップS204では、ステップS202
で変換されたFlashPix画像中の属性情報内に入力されて
いる文字種情報を抽出、参照する。ステップS206で
は、S204で参照された文字種情報により、文字認識
に最適な解像度を決定する。なお、ステップS204及
びステップS206の処理に関しては後ほど詳しく説明
する。
【0034】ステップS208では、ステップS206
で決定された最適解像度の画像をディスク8に保存され
ているFlashPixフォーマットの画像の中より選択し、メ
モリ10に展開する。ステップS210では、ステップ
S208でメモリ10内に展開された原稿画像に対して
文字認識を実行する。そして、ステップS212におい
て、ステップS210で為された文字認識結果が出力装
置12により出力されて、ユーザに提示される。
【0035】次に、上述のステップS204〜S208
の処理について説明する。
【0036】文字認識処理においては文字種毎に最適な
認識解像度が存在する。すなわち、漢字のごとく画数の
多い文字の認識に関しては一定以上の解像度が必要だ
が、画数の少ないひらがな、カタカナ、数字、アルファ
ベット等に関しては解像度を上げても処理時間が増加す
るばかりで精度の向上には結びつかない。また、大きさ
のばらつきの激しい手書き文字の認識は、大きさの揃っ
ている活字と比べ高い解像度が要求される。
【0037】本実施形態では、このような状況を鑑み
て、例えば、FlashPix画像中の属性情報であるImageInf
o. Property setの中のContent Description Group内の
備考欄(図3)に原稿画像の文字種を、FlashPix画像作
成時にユーザがあらかじめ入力しておき、文字認識時に
は、その情報を参照するようにする。そして、例えば図
4に示すごとく文字種と最適解像度の対応を登録したテ
ーブルを例えばディスク8に格納しておき、このテーブ
ルにしたがって当該原稿画像の文字認識に最適な解像度
の選択を行う。すなわち、図2のステップS204で
は、ImageInfo. Property setの中のContent Descripti
on Group内の備考欄に記述されている文字種を参照す
る。そして、図2のステップS206では、図4に示す
テーブルを参照して、ステップS204で参照した文字
種に対する文字認識に最適な解像度の選択を行うことに
より、より効率の良い文字認識を実現することを可能と
する。尚、原稿画像の文字種が入力されていなかった場
合は予め決めておいた解像度(本実施形態では、手書き
漢字の際の解像度である400dpi)を用いるものと
する。
【0038】ステップS208では、ステップS206
で選択された解像度の画像を選択する。なお、ステップ
S206で求められた最適解像度に一致する解像度のデ
ータが当該FlashPix画像中に含まれていない場合は、そ
の最適解像度に最も近い解像度の画像をFlashPix画像中
より選択する。
【0039】以上述べてきたように本実施形態によれ
ば、FlashPixフォーマットのように画像の付加された属
性情報を活用することにより原稿画像の文字種を判別
し、それにより文字認識に最適な解像度をあらかじめ求
めることが可能となる。さらに最適解像度条件に最も近
いFlashPix画像を用いることが可能となり、それにより
文字認識精度を飛躍的に向上させることが可能となっ
た。
【0040】第1の実施形態では文字の属性に応じて文
字認識に適切な解像度を求めるにあたり、文字の属性と
して文字種、すなわち文字フォントに応じて文字認識に
最適な解像度の選択を行っている。しかしながら、解像
度を決定するために参照する文字の属性はこれに限られ
るものではなく、例えば、文字の大きさに応じて最適解
像度の選択を行っても良い。
【0041】また、第1の実施形態では文字種と文字認
識最適解像度の関係を図4のテーブルのごとく表した
が、図4の関係に限ることはなく、当該使用する文字認
識装置に最適な関係を予め求めてこのようなテーブルを
作成しておくことが望ましい。
【0042】<第2の実施形態>次に、第2の実施形態
を説明する。上記第1の実施形態では、認識対象の画像
上の文字種に応じて最適解像度を決定し、複数解像度の
画像から認識対象とすべき画像を選択している。第2の
実施形態では、認識対象の画像上の文字種に応じて文字
認識エンジン、文字認識辞書を選択し、その選択に基づ
いて最適解像度を決定する。なお、第2の実施形態によ
る文字認識装置の構成は第1の実施形態(図1)と同様
であるので、ここでは説明を省略する。
【0043】以下、第2の実施形態による文字認識装置
の動作について説明する。キーボード6から入力された
命令に従い、まず、画像入力装置2より電子化された原
稿画像を取得し、これをメモリ10に展開する。展開さ
れた原稿画像10aはプロセッサ4によりFlashPixフォ
ーマットに変換され、FlashPix画像8aとしてディスク
8に保存される。なお、入力画像が予めFlashPix画像で
ある場合は、そのままディスク8に保存されるものとす
る。その後プロセッサ4により文字認識処理が決定さ
れ、文字認識辞書の作成時の解像度情報が抽出され、そ
れに基づき文字認識最適解像度が選択され、該当画像を
メモリ10に読込み、文字認識が施される。処理結果は
ディスプレイ、プリンタ等の出力手段12を通して出力
される。
【0044】以下図5、図6を参照して第2の実施形態
の文字認識装置、特にプロセッサ4が実行する各種制御
処理の動作を説明する。
【0045】図5は、第2の実施形態における文字認識
処理を説明するフローチャートである。なお、図5に示
される処理の流れは、プロセッサ4が1枚の原稿に対し
て文字認識処理をする際の処理の流れである。
【0046】ステップS500では、画像入力装置2か
ら原稿画像を取込み、画像データとしてメモリ10に転
送する。ステップS502では、ステップS500にお
いてメモリ10に展開された原稿画像10aをFlashPix
フォーマットに変換する。FlashPixフォーマットへの変
換は公知の技術であり、変換はどのように行っても良
い。
【0047】ステップS504では、ステップS502
で変換されたFlashPix画像中の属性情報内に入力されて
いる文字種情報を参照することにより、文字認識エンジ
ン及び文字認識辞書の組み合わせを決定する。ステップ
S506では、ステップS504で決定された文字認識
辞書の解像度情報を参照する。そして、ステップS50
8において、FlashPix画像中に存在している各解像度画
像のうち、ステップS506で参照された解像度情報に
最も近い解像度を文字認識のための最適解像度と決定す
る。ステップS504、ステップS506、ステップS
508の処理に関しては後ほど詳しく説明する。
【0048】ステップS510は、ステップS508で
決定された最適解像度の画像をディスク8に保存されて
いるFlashPix画像8aの中より選択し、メモリ10に展
開する。そして、ステップS512において、ステップ
S510でメモリ10内に展開された原稿画像に対し、
文字認識を施す。その後、ステップS514において、
ステップS512でなされた文字認識結果を出力装置1
2により出力する。
【0049】次に、ステップS504〜S510の処理
について詳細に説明する。一般に、文字認識は文字認識
辞書が作成された環境に近い状況で認識させるほど精度
が向上する。その文字認識辞書作成環境の中で重要な位
置を占めるのは、解像度である。すなわち、文字認識辞
書作成時と同じ、あるいはそれに近い解像度の画像を用
いて認識を実行させることにより認識率の向上が期待さ
れる。
【0050】一方、文字認識は認識対象により文字認識
辞書を変更させる場合が多々ある。すなわち、文書種
類、あるいは文字種毎に文字認識辞書を変更させること
は、特に特定用途向けの文字認識処理では珍しいことで
はない。ここで、文字種毎の最適解像度が異なる等の事
情によりそれぞれの文字認識辞書の作成解像度はまちま
ちである。第2の実施形態では、このような状況を鑑み
て、FlashPix画像のごとく複数の解像度を有するフォー
マットを利用し、文字認識精度を向上させようとするも
のである。
【0051】すなわち、図5のステップS504では、
図6に示すごとくFlashPix画像中の属性情報より原稿画
像の文字種を判断し、それに応じて最適な文字認識エン
ジンと、辞書の組み合わせを決定する。本実施形態で
は、図6のように、文字認識エンジンとして活字日本語
用エンジン、手書き日本語用エンジン、活字英語用エン
ジンなどを有し、それぞれのエンジンに対してフォント
種別毎に適した認識辞書を備えている。図6の例では、
文字認識エンジンとして活字日本語エンジンが、文字認
識辞書として活字漢字(マルチフォント)用の辞書が選
択されている。なお、文字種を表す属性情報は、上記第
1の実施形態と同様に、FlashPix画像中の属性情報であ
るImageInfo. Property setの中のContent Description
Group内の備考欄(図3)に記述されており、文字認識
時には、その情報を参照するようにする。尚、本実施形
態では、認識辞書の選択においては、文字種を表す属性
情報に基づいて、そのフォント種別(例えば、明朝体、
ゴシック体)に適した認識辞書を選択するが、FlashPix
画像に文字種の指定がされていなかった場合は、マルチ
フォント用の認識辞書を用いるものとする。
【0052】次に、ステップS506では、選択された
辞書のヘッダ部に記録されている当該文字認識辞書の作
成時の解像度を読み取り、ステップS508ではこの読
み取った解像度に基づいて文字認識に最適な解像度を求
める。尚、文字認識辞書には、単一の解像度の画像を用
いて辞書を作成したものと、複数の解像度の画像を用い
て辞書を作成したものとが存在するが、ステップS50
6においては、複数の解像度の画像を用いて作成した辞
書については、作成の際に主体となった画像の解像度
(メインターゲットの解像度)を読み取る。更にステッ
プS510では、FlashPix画像中のその最適解像度に最
も近い解像度の画像を選択し、文字認識処理へ提供す
る。
【0053】本実施形態では辞書ヘッダとして文字認識
辞書の名称(認識辞書名)、作成日時、ファイルのサイ
ズ(サイズ)、文字種、適用すべきOCRエンジン、解
像度、備考、を挙げており、この中の解像度が文字認識
辞書作成時の解像度(もしくはメインターゲットの解像
度)である。したがって、ここでは400dpiが最適
解像度と判断される。
【0054】以上述べてきたように、第2の実施形態に
よれば、FlashPixフォーマットのごとく画像の属性情報
が付加されている場合に、これを活用して対象原稿に最
適な文字認識エンジンと文字認識辞書を選択することが
可能となる。そして、更に、選択された文字認識辞書の
ヘッダ情報から辞書作成時の解像度情報を読み出し、そ
の解像度に最も近い条件のFlashPix画像を用いて文字認
識を行うことにより、文字認識精度を飛躍的に向上させ
ることが可能となった。
【0055】上記第2の実施形態では辞書ヘッダ部に作
成解像度情報を入れていたが、ヘッダ部に記載されてい
るものと限られるものではなく、例えば、別ファイルで
も良いし、マニュアルで入力しても良い。
【0056】また、第2の実施形態では辞書ヘッダ部に
文字認識辞書名、作成日時、ファイルサイズ、文字種、
適用OCRエンジン、(メインターゲット)解像度、備
考、を挙げていたが、何もこれだけに限ることはなく、
システムに最適な情報を自由に構成して良い。
【0057】なお、本発明は、複数の機器(例えばホス
トコンピュータ、インタフェイス機器、リーダ、プリン
タなど)から構成されるシステムに適用しても、一つの
機器からなる装置(例えば、複写機、ファクシミリ装置
など)に適用してもよい。
【0058】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体(または記録媒体)を、システムあるい
は装置に供給し、そのシステムあるいは装置のコンピュ
ータ(またはCPUやMPU)が記憶媒体に格納されたプログ
ラムコードを読み出し実行することによっても、達成さ
れることは言うまでもない。この場合、記憶媒体から読
み出されたプログラムコード自体が前述した実施形態の
機能を実現することになり、そのプログラムコードを記
憶した記憶媒体は本発明を構成することになる。また、
コンピュータが読み出したプログラムコードを実行する
ことにより、前述した実施形態の機能が実現されるだけ
でなく、そのプログラムコードの指示に基づき、コンピ
ュータ上で稼働しているオペレーティングシステム(OS)
などが実際の処理の一部または全部を行い、その処理に
よって前述した実施形態の機能が実現される場合も含ま
れることは言うまでもない。
【0059】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張カー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
【0060】
【発明の効果】以上説明したように本発明によれば、画
像内容に応じて適切な解像度の画像を用いて認識処理を
実行することが可能となり、認識処理の効率や認識精度
が向上する。
【0061】また、本発明によれば、例えばFlashPix画
像フォーマットのごとく、予め複数の解像度で画像が格
納されている場合に、それらの中から認識処理に適切な
解像度の画像を用いることが可能となる。
【0062】また、本発明によれば、文字認識対象とな
る原稿画像の文字種等の属性に基づいて文字認識に適切
な解像度を決定し、決定された解像度の画像を文字認識
対象として用いることにより文字認識精度を向上させる
ことが可能となる。
【0063】更に、本発明によれば、原稿画像の文字種
等の属性に基づいて適切な文字認識エンジンと文字認識
辞書を選択し、選択された文字認識辞書に適切な解像度
を決定し、決定された解像度の画像を文字認識対象とし
て用いることにより文字認識精度を向上させることが可
能となる。
【図面の簡単な説明】
【図1】本実施形態による文字認識装置の概略構成を示
すブロック図である。
【図2】第1の実施形態における文字認識処理を説明す
るフローチャートである。
【図3】実施形態によるImage info. Property Setのデ
ータ構成例を示す図である。
【図4】文字認識エンジンと、辞書の組み合わせを示す
テーブルのデータ構成例を示す図である。
【図5】第2の実施形態における文字認識処理を説明す
るフローチャートである。
【図6】文字認識エンジンと文字認識辞書の組み合わせ
を説明する図である。
【図7】本実施形態に関わる画像フォーマットの例とし
てのFlashPixフォーマットの構造化されたファイル構造
を説明した図である。
【図8】本実施形態に関わる画像フォーマットの例とし
てのFlashPixフォーマットの構造化されたファイル構造
を説明した図である。
【図9】本実施形態に関わる画像フォーマットの例とし
てのFlashPixフォーマットの複数の解像度に対応したサ
イズについて説明した図である。
【図10】本実施形態に関わる画像フォーマットの例と
してのFlashPixフォーマットのタイル分割を説明した図
である。
【図11】本実施形態に関わる画像フォーマットの例と
してのFlashPixフォーマットの画像データの格納方法を
記述する属性を説明した図である。
【図12】本実施形態に関わる画像フォーマットの例と
してのFlashPixフォーマットのSubimageheaderを説明し
た図である。
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06K 9/68 G06K 9/68 B

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 原稿画像を表す画像データと該原稿画像
    中の文字に関する属性情報とを含むデータが格納された
    メモリから、該属性情報を取得する第1取得手段と、 前記属性情報に基づいて、前記原稿画像を表す画像デー
    タに対する文字認識処理に適した解像度を決定する決定
    手段と、 前記原稿画像を表し、前記決定手段で決定された解像度
    に対応する画像データを取得する第2取得手段と、 前記第2取得手段で取得した画像データに対して文字認
    識処理を行う認識手段とを備えることを特徴とする文字
    認識装置。
  2. 【請求項2】 前記属性は文字の種類であることを特徴
    とする請求項1に記載の文字認識装置。
  3. 【請求項3】 前記属性は文字の大きさであることを特
    徴とする請求項1に記載の文字認識装置。
  4. 【請求項4】 前記決定手段は、文字の属性と認識処理
    に適切な解像度とを対応づけたテーブルを備え、前記第
    1取得手段で取得された属性情報と前記テーブルとを用
    いて認識処理に適切な解像度を決定することを特徴とす
    る請求項1に記載の文字認識装置。
  5. 【請求項5】 前記認識手段で使用可能な複数の辞書を
    備え、 前記決定手段は、前記属性情報に基づいて、前記複数の
    辞書の中から前記認識手段で使用する辞書を決定し、該
    決定された辞書の作成時の解像度を取得し、該取得され
    た解像度に基づいて前記原稿画像を表す画像データに対
    する文字認識処理に適した解像度を決定することを特徴
    とする請求項1に記載の文字認識装置。
  6. 【請求項6】 前記辞書の作成時の解像度は、それぞれ
    の辞書に登録されていることを特徴とする請求項5に記
    載の文字認識装置。
  7. 【請求項7】 前記認識手段で使用可能な複数の認識エ
    ンジンを備え、 前記決定手段は、更に、前記属性情報に基づいて、前記
    複数の認識エンジンの中から前記認識手段で使用すべき
    認識エンジンを決定することを特徴とする請求項5に記
    載の文字認識装置。
  8. 【請求項8】 前記メモリには、前記原稿画像について
    複数の解像度に対応した画像データが格納されており、 前記第2取得手段は、前記メモリより、前記決定手段で
    決定された解像度に対応する画像データを取得すること
    を特徴とする請求項1に記載の文字認識装置。
  9. 【請求項9】 原稿画像を光学的に読み取り、得られた
    画像データに基づいて複数種類の解像度に対応した画像
    データを生成し、前記属性情報とともに前記メモリに格
    納する格納手段を更に備えることを特徴とする請求項8
    に記載の文字認識装置。
  10. 【請求項10】 前記文字認識手段による文字認識結果
    を出力する出力手段を更に備えることを特徴とする請求
    項1に記載の文字認識装置。
  11. 【請求項11】 原稿画像を表す画像データと該原稿画
    像中の文字に関する属性情報とを含むデータが格納され
    たメモリから、該属性情報を取得する第1取得工程と、 前記属性情報に基づいて、前記原稿画像を表す画像デー
    タに対する文字認識処理に適した解像度を決定する決定
    工程と、 前記原稿画像を表し、前記決定工程で決定された解像度
    に対応する画像データを取得する第2取得工程と、 前記第2取得工程で取得した画像データに対して文字認
    識処理を行う認識工程とを備えることを特徴とする文字
    認識方法。
  12. 【請求項12】 前記属性は文字の種類であることを特
    徴とする請求項11に記載の文字認識方法。
  13. 【請求項13】 前記属性は文字の大きさであることを
    特徴とする請求項11に記載の文字認識方法。
  14. 【請求項14】 前記決定工程は、文字の属性と認識処
    理に適切な解像度とを対応づけたテーブルを備え、前記
    第1取得工程で取得された属性情報と前記テーブルとを
    用いて認識処理に適切な解像度を決定することを特徴と
    する請求項11に記載の文字認識方法。
  15. 【請求項15】 前記認識工程で使用可能な複数の辞書
    を備え、 前記決定工程は、前記属性情報に基づいて、前記複数の
    辞書の中から前記認識工程で使用する辞書を決定し、該
    決定された辞書の作成時の解像度を取得し、該取得され
    た解像度に基づいて前記原稿画像を表す画像データに対
    する文字認識処理に適した解像度を決定することを特徴
    とする請求項11に記載の文字認識方法。
  16. 【請求項16】 前記辞書の作成時の解像度は、それぞ
    れの辞書に登録されていることを特徴とする請求項15
    に記載の文字認識方法。
  17. 【請求項17】 前記認識工程で使用可能な複数の認識
    エンジンを備え、 前記決定工程は、更に、前記属性情報に基づいて、前記
    複数の認識エンジンの中から前記認識工程で使用すべき
    認識エンジンを決定することを特徴とする請求項15に
    記載の文字認識方法。
  18. 【請求項18】 前記メモリには、前記原稿画像につい
    て複数の解像度に対応した画像データが格納されてお
    り、 前記第2取得工程は、前記メモリより、前記決定工程で
    決定された解像度に対応する画像データを取得すること
    を特徴とする請求項11に記載の文字認識方法。
  19. 【請求項19】 原稿画像を光学的に読み取り、得られ
    た画像データに基づいて複数種類の解像度に対応した画
    像データを生成し、前記属性情報とともに前記メモリに
    格納する格納工程を更に備えることを特徴とする請求項
    18に記載の文字認識方法。
  20. 【請求項20】 前記文字認識工程による文字認識結果
    を出力する出力工程を更に備えることを特徴とする請求
    項11に記載の文字認識方法。
  21. 【請求項21】 請求項11乃至20のいずれかに記載
    の文字認識方法をコンピュータに実現させるための制御
    プログラムを格納したことを特徴とする記憶媒体。
JP2000208733A 2000-07-10 2000-07-10 文字認識装置及び方法 Withdrawn JP2002024766A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000208733A JP2002024766A (ja) 2000-07-10 2000-07-10 文字認識装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000208733A JP2002024766A (ja) 2000-07-10 2000-07-10 文字認識装置及び方法

Publications (1)

Publication Number Publication Date
JP2002024766A true JP2002024766A (ja) 2002-01-25

Family

ID=18705266

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000208733A Withdrawn JP2002024766A (ja) 2000-07-10 2000-07-10 文字認識装置及び方法

Country Status (1)

Country Link
JP (1) JP2002024766A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007174601A (ja) * 2005-12-26 2007-07-05 Fuji Xerox Co Ltd 画像読取システム及び画像読取制御方法
JP2008262425A (ja) * 2007-04-12 2008-10-30 Canon Inc 画像処理装置及びその制御方法
JP2010538384A (ja) * 2007-09-07 2010-12-09 ソリステイツク ディジタルインプリントと関連付けられるクライアントコードを用いて郵便物を処理する方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007174601A (ja) * 2005-12-26 2007-07-05 Fuji Xerox Co Ltd 画像読取システム及び画像読取制御方法
JP2008262425A (ja) * 2007-04-12 2008-10-30 Canon Inc 画像処理装置及びその制御方法
JP2010538384A (ja) * 2007-09-07 2010-12-09 ソリステイツク ディジタルインプリントと関連付けられるクライアントコードを用いて郵便物を処理する方法

Similar Documents

Publication Publication Date Title
JP4338155B2 (ja) 画像処理装置及びその方法、コンピュータ可読メモリ
JP4251629B2 (ja) 画像処理システム及び情報処理装置、並びに制御方法及びコンピュータプログラム及びコンピュータ可読記憶媒体
JP5111268B2 (ja) 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体
JP4854491B2 (ja) 画像処理装置及びその制御方法
US8520006B2 (en) Image processing apparatus and method, and program
JP2006023945A (ja) 画像処理システム及び画像処理方法
JP4502385B2 (ja) 画像処理装置およびその制御方法
JP4632443B2 (ja) 画像処理装置及び画像処理方法並びにプログラム
JP2000306103A (ja) 情報処理装置及び方法
JP4338189B2 (ja) 画像処理システム及び画像処理方法
US6714682B2 (en) Image processing device and method and memory medium
JP2006025129A (ja) 画像処理システム及び画像処理方法
JP2004246577A (ja) 画像処理方法
JP2007129557A (ja) 画像処理システム
JP2002024766A (ja) 文字認識装置及び方法
JP7301529B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP4164458B2 (ja) 情報処理装置及び方法、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体
JP2005149097A (ja) 画像処理システム及び画像処理方法
JP2006134042A (ja) 画像処理システム
CN100511267C (zh) 图文影像处理装置及其影像处理方法
JP2002236921A (ja) 文書画像認識方法、文書画像認識装置及び記録媒体
JP2000187670A (ja) 画像処理装置及びその方法、コンピュータ可読メモリ
JP2000172785A (ja) 文字認識装置及びその方法、コンピュータ可読メモリ
JP2005208872A (ja) 画像処理システム
JP2006146486A (ja) 画像処理装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20071002