JP2006011967A - 文字認識装置、文字認識プログラム - Google Patents
文字認識装置、文字認識プログラム Download PDFInfo
- Publication number
- JP2006011967A JP2006011967A JP2004190104A JP2004190104A JP2006011967A JP 2006011967 A JP2006011967 A JP 2006011967A JP 2004190104 A JP2004190104 A JP 2004190104A JP 2004190104 A JP2004190104 A JP 2004190104A JP 2006011967 A JP2006011967 A JP 2006011967A
- Authority
- JP
- Japan
- Prior art keywords
- interpolation
- function
- resolution
- region
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims description 59
- 230000008569 process Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 description 37
- 238000013500 data storage Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4007—Interpolation-based scaling, e.g. bilinear interpolation
Abstract
【課題】 回路規模を狭小なものとしつつも、多種多様なサイズ、形状の文字が混在する文書へのOCR処理を極めて高速且つ高精度に実行する装置を提供すること。
【解決手段】 文字が記された文書のラスターデータを記憶する記憶手段310と、そのラスターデータから注目領域を特定する注目領域特定手段320と、注目領域内にある画素群に第1の補間関数を用いた補間処理を施すことで、当該注目領域における解像度を変換する解像度変換手段330と、解像度変換された画素群から文字を認識してその確度を出力する文字認識手段340とを備える。解像度変換手段330は、文字認識の確度が所定値を下回ると、第1の補間関数よりも高次の第2の補間関数を用いて再度補間処理を施す。
【選択図】 図2
【解決手段】 文字が記された文書のラスターデータを記憶する記憶手段310と、そのラスターデータから注目領域を特定する注目領域特定手段320と、注目領域内にある画素群に第1の補間関数を用いた補間処理を施すことで、当該注目領域における解像度を変換する解像度変換手段330と、解像度変換された画素群から文字を認識してその確度を出力する文字認識手段340とを備える。解像度変換手段330は、文字認識の確度が所定値を下回ると、第1の補間関数よりも高次の第2の補間関数を用いて再度補間処理を施す。
【選択図】 図2
Description
本発明は、文字が記された文書のラスタデータからテキストデータを取得する技術に関する。
文書のラスタデータからその文書に記された文字のテキストデータを取得する処理は、一般にOCR(Optical Character Recognition)処理と呼ばれる。OCR処理では、文書をスキャンして得たラスタデータから文字を描画している画像を各々切り出し、切り出した画像と予め辞書として準備されたパターンとを照合することで、文書内の文字を各々認識している。このため、文字の認識確度の向上という面から見れば、文書から得られるラスタデータは可能な限り高解像度であることが好ましい。ところが、ラスタデータを高解像度化すれば、そのデータを展開するメモリの容量も大きくせざるを得えず、また展開したデータを処理するプロセッサの処理負担も大きくなる。つまり、処理コストの面から見れば、ラスタデータが高解像度であることは好ましくない。
特許文献1には、このような相反する2つの要請を満たすことを目的する文字認識装置が開示されている。同文献によると、この文字認識装置は、原稿に記された文字の属性(例えば、文字サイズ)の入力を受け付け、入力された属性を基に、どの程度の解像度でスキャンした画像であれば十分な認識確度が確保されるかを判断する。つまり、低解像度でスキャンした画像を用いて文字認識を行なうケースと高解像度でスキャンした画像を用いて文字認識を行なうケースとを使用者からの入力に応じて使い分けるものである。
特開2002−24766号公報
特許文献1には、このような相反する2つの要請を満たすことを目的する文字認識装置が開示されている。同文献によると、この文字認識装置は、原稿に記された文字の属性(例えば、文字サイズ)の入力を受け付け、入力された属性を基に、どの程度の解像度でスキャンした画像であれば十分な認識確度が確保されるかを判断する。つまり、低解像度でスキャンした画像を用いて文字認識を行なうケースと高解像度でスキャンした画像を用いて文字認識を行なうケースとを使用者からの入力に応じて使い分けるものである。
しかしながら、特許文献1が提案する文字認識装置は、高解像度の画像を用いるかそれとも低解像度の画像を用いるかの判断を原稿毎に行なう構成となっており、スキャン対象となる文書内に認識が難しい文字(例えば、漢字)と比較的認識しやすい文字(例えば、仮名文字、アルファベット)とが混在する場合の利用には不向きであった。
本発明は、このような背景の下に案出されたものであり、回路規模を狭小なものとしつつも、多種多様なサイズ、形状の文字が混在する文書へのOCR処理を極めて高速且つ高精度に実行する装置を提供することを目的とする。
本発明は、このような背景の下に案出されたものであり、回路規模を狭小なものとしつつも、多種多様なサイズ、形状の文字が混在する文書へのOCR処理を極めて高速且つ高精度に実行する装置を提供することを目的とする。
本発明の好適な態様である文字認識装置は、一又は複数の文字が記された文書を走査して得た画像を入力する入力手段と、前記入力された画像を記憶する記憶手段と、前記記憶手段に記憶された画像の一部又は全部の描画領域を注目領域として特定する注目領域特定手段と、前記特定した注目領域内にある画素群に対し、指定された補間関数を用いた補間処理を施すことで、当該注目領域における解像度を変換する解像度変換手段と、前記解像度が変換された注目領域から文字を認識する認識手段と、前記認識手段による認識の成否に基づき、前記補間処理に用いる補間関数を切り替える制御手段とを備える。
本発明の別の好適な態様である文字認識装置は、一又は複数の文字が記された文書を走査して得た画像を入力する入力手段と、前記入力された画像を記憶する記憶手段と、前記記憶手段に記憶された画像の一部又は全部の描画領域を注目領域として特定する注目領域特定手段と、前記特定した注目領域内にある画素群に対し、第1の補間関数を用いた補間処理を施すことで、当該注目領域における解像度を変換する解像度変換手段と、前記解像度が変換された注目領域から文字を認識する認識手段と、前記認識手段による認識の確度が所定値を下回ったとき、前記補間処理に用いられる補間関数を前記第1の補間関数よりも高次の第2の補間関数に切り替える制御手段とを備える。
この態様において、前記注目領域特定手段は、前記記憶された画像を複数の描画領域に分割し、分割された描画領域の各々を前記注目領域として順次特定してもよい。
また、前記認識手段は、前記記憶手段に記憶された画像から文字を認識し、その認識の成否に基づいて求めた確度を当該画像内の所定の描画領域毎に出力し、前記注目領域特定手段は、前記認識手段から確度が出力されると、出力された確度が所定値を下回った描画領域を前記注目領域として順次特定してもよい。
更に、前記制御手段は、前記補間処理に用いられる補間関数を、ニアレストネイバー補間関数よりも高次の補間関数であるバイリニア補間関数に切り替える手段と、前記補間処理に用いられる補間関数を、バイリニア補間関数よりも高次の補間関数であるキュービックコンボリューション補間関数に切り替える手段のうちいずれか1つ以上の手段を含むとなおよい。
また、前記第2の補間関数を用いた補間処理が施されることによって解像度が変換された注目領域について前記認識手段が文字を認識し、その認識の成否に基づいて求めた確度が所定値を下回ったとき、前記注目領域内にある画素群にフラクタル拡大処理を施すことで、その領域における解像度を変換するフラクタル処理手段を更に備えてもよい。
この発明の別の好適な態様であるプログラムは、一又は複数の文字が記された文書を走査して得た画像を入力する入力手段と、前記入力された画像を記憶する記憶手段とを備えたコンピュータ装置に、前記記憶手段に記憶された画像の一部又は全部の描画領域を注目領域として特定する注目領域特定機能と、前記特定した注目領域内にある画素群に対し、指定された補間関数を用いた補間処理を施すことで、当該注目領域における解像度を変換する解像度変換機能と、前記解像度が変換された注目領域から文字を認識する認識機能と、前記認識機能による認識の成否に基づき、前記補間処理に用いる補間関数を切り替える制御機能とを実現させる。
この発明の別の好適な態様であるプログラムは、一又は複数の文字が記された文書を走査して得た画像を入力する入力手段と、前記入力された画像を記憶する記憶手段とを備えたコンピュータ装置に、前記記憶手段に記憶された画像の一部又は全部の描画領域を注目領域として特定する注目領域特定機能と、前記特定した注目領域内にある画素群に対し、第1の補間関数を用いた補間処理を施すことで、当該注目領域における解像度を変換する解像度変換機能と、前記解像度が変換された注目領域から文字を認識する認識機能と、前記認識機能による認識の確度が所定値を下回ったとき、前記補間処理に用いられる補間関数を前記第1の補間関数よりも高次の第2の補間関数に切り替える制御機能とを実現させる。
本発明によれば、回路規模を狭小なものとしつつも、多種多様なサイズ、形状の文字が混在する文書へのOCR処理を極めて高速且つ高精度に実行することができる。
(発明の実施の形態)
本発明の実施形態に係る文字認識装置について、図を参照しつつ説明する。
図1は、本実施形態に係る文字認識装置のハードウェア概略構成を示すブロック図である。同図に示すように、この文字認識装置は、スキャナ100と、操作子200と、コントローラ300と、通信インターフェース400とを接続してなる。
本発明の実施形態に係る文字認識装置について、図を参照しつつ説明する。
図1は、本実施形態に係る文字認識装置のハードウェア概略構成を示すブロック図である。同図に示すように、この文字認識装置は、スキャナ100と、操作子200と、コントローラ300と、通信インターフェース400とを接続してなる。
スキャナ100は、スキャン対象となる文書を光学的に走査してグレースケールのラスタデータを生成し、コントローラ300に供給する。操作子200は、文字認識処理の開始指示などの各種入力操作を司る。コントローラ300は、ラスタデータにOCR処理を施すことで、文書に記された文字のテキストデータを取得する。通信インターフェース400は、コントローラ300が取得したテキストデータを外部のコンピュータ装置へ送信する。
図2は、コントローラ300の内部構成を示すブロック図である。コントローラ300は、ラスタデータ記憶手段310と、注目領域特定手段320と、解像度変換手段330と、文字認識手段340と、テキストデータ記憶手段350とを内蔵している。
ラスタデータ記憶手段310は、スキャナ100から供給されるラスタデータを一時的に記憶するバッファである。注目領域特定手段320は、ラスタデータ記憶手段310のラスタデータから注目領域を特定し、その領域内にある画素情報群を抽出して解像度変換手段330へ供給する。ここで、画素情報とは、画素のアドレスと画素値とを内包する情報を意味する。解像度変換手段330は、注目領域の画素情報群に解像度変換処理を施した上で文字認識手段340へ供給する。文字認識手段340は、注目領域の画素情報群から文字を認識し、その認識の成否に基づいて求めた確度を出力する。後の動作説明の項で詳述するように、この認識確度が所定値を下回った場合は、解像度変換手段330にてより高い解像度に変換された画素情報群が、文字認識手段340へ再度供給される。テキストデータ記憶手段350は、文字認識手段340によって認識された文字のテキストデータを一時的に記憶するバッファである。
ラスタデータ記憶手段310は、スキャナ100から供給されるラスタデータを一時的に記憶するバッファである。注目領域特定手段320は、ラスタデータ記憶手段310のラスタデータから注目領域を特定し、その領域内にある画素情報群を抽出して解像度変換手段330へ供給する。ここで、画素情報とは、画素のアドレスと画素値とを内包する情報を意味する。解像度変換手段330は、注目領域の画素情報群に解像度変換処理を施した上で文字認識手段340へ供給する。文字認識手段340は、注目領域の画素情報群から文字を認識し、その認識の成否に基づいて求めた確度を出力する。後の動作説明の項で詳述するように、この認識確度が所定値を下回った場合は、解像度変換手段330にてより高い解像度に変換された画素情報群が、文字認識手段340へ再度供給される。テキストデータ記憶手段350は、文字認識手段340によって認識された文字のテキストデータを一時的に記憶するバッファである。
図3は、解像度変換手段330の内部構成を示すブロック図である。解像度変換手段330は、解像度レベル制御手段331と、ニアレストネイバー補間手段322と、バイリニアー補間手段333と、キュービックコンボリューション補間手段334と、フラクタル処理手段335とを内蔵している。解像度レベル制御手段331は、注目領域に施すべき解像度変換の解像度レベルを決定する。解像度レベルは、最も低いレベル0から最も高いレベル4までの5段階となっている。解像度レベル制御手段331は図示しない解像度レベルカウンタを有しており、同じ領域内の画素情報群が供給されるたびにこのカウンタの数値を「0」→「1」→「2」→「3」→「4」と順次増加させ、カウンタの数値を参照することで自らを経由する画素情報群のデータパスを選定する。即ち、カウンタの数値が「0」である場合、画素情報群をそのまま文字認識手段340へ出力し、カウンタの数値が「1」である場合、画素情報群をニアレストネイバー補間手段322へ出力する。更に、カウンタの数値が「2」である場合は画素情報群をバイリニアー補間手段333へ、「3」である場合はキュービックコンボリューション補間手段334へ、「4」である場合はフラクタル処理手段335へそれぞれ出力する。
ニアレストネイバー補間手段322は、注目領域の画素情報群へニアレストネイバー補間法による補間処理を施す。ニアレストネイバー補間法は、補間画素値を、その画素を原画像上に逆写像した点と最も近い画素の画素値と同じ値にする補間法であり、最近傍補間法とも呼ばれる。この補間法は、補間画素とその最近傍に位置する画素との間のX方向及びY方向の距離tを、数1に示す補間関数に作用させることによって実現する。なお、以降の各式において、距離tは、一画素分の距離を「1」として特定されるものとする。
バイリニアー補間手段333は、注目領域の画素情報群へバイリニアー補間法による補間処理を施す。バイリニアー補間法は、補間画素値を、その画素を原画像上に逆写像した点の近傍4画素の画素値を線形に補間して得た値とする補間法であり、線形補間法とも呼ばれる。この補間法は、補間画素とその近傍4画素との間のX方向及びY方向の距離tを、数2に示す補間関数に各々作用させることによって実現する。
キュービックコンボリューション補間手段334は、注目領域の画素群へキュービックコンボリューション補間法による補間処理を施す。キュービックコンボリューション補間法は、補間画素値を、その画素を原画像上に逆写像した点の近傍16画素との距離をSinC関数の近似式により畳み込んで得た値とする補間法であり、3次元補間法とも呼ばれる。この補間法は、補間画素とその近傍16画素との間のX方向及びY方向の距離tを、数3に示す補間関数に各々作用させることによって実現する。
数1乃至3に示したところより明らかなように、バイリニアー補間法は、ニアレストネイバー補間法よりも高次の補間関数(1次)を用いるため、ニアレストネイバー補間法よりも高い解像度への変換が可能となる。更に、キュービックコンボリューション補間法は、バイリニアー補間法よりも高次の補間係数(3次)を用いるため、バイリニアー補間法よりも高い解像度への変換が可能となる。一方で、解像度変換に要する処理負担は、高次の補間関数を用いる補間法であるほど増大する。
フラクタル処理手段335は、フラクタル拡大法による解像度変換を注目領域の画素群へ施す。フラクタル拡大法は、画像全体の中でその画像の一部分を取り出した場合、取り出した画像と良く似た別の画像がその画像の中に異なるサイズの形で存在するとの前提に立つ拡大法である。この手法による解像度変換手順を示せば以下のようになる。まず、注目領域内を、当該領域よりも狭小な複数の正方形のブロックに分割する。このブロックを「ドメインブロック」と呼ぶ。次に、注目領域を含む画像全体を、ドメインブロックを解像度変換倍率で拡大した大きさに相当する正方形のブロックに分割する。このブロックを「レンジブロック」と呼ぶ。そして、解像度変換対象となるドメインブロックを特定し、そのドメインブロックと最も自己相似性が高いレンジブロックを探索する。自己相似性とは、レンジブロックをドメインブロックと同じ大きさに縮小した場合の類似性を意味する。最も自己相似性が高いレンジブロックが見つかると、そのレンジブロックをドメインブロックと置き換える。係る処理を注目領域内のすべてのドメインブロックについて繰り返すことにより、当該注目領域が高解像度化する。フラクタル拡大法によれば、バイリニアー補間法、ニアレストネイバー補間法、及びキュービックコンボリューション補間法よりも高い解像度への変換が可能となる。特に、注目領域内の文字と同じ形状の文字が、別の領域においてより大きなサイズで記されていた場合(例えば見出しなど)は、忠実性の極めて高い高解像度化が実現できる。一方で、フラクタル拡大法は、自己相似性の高いレンジブロックを探索する際に注目領域外の画素を参照することになるため、バイリニアー補間法、ニアレストネイバー補間法、及びキュービックコンボリューション補間法よりもメモリ領域を多く必要とし、またその処理負担も大きくなる。
次に、本実施形態に特徴的な動作である文字認識処理について説明する。
図4及び5は、文字認識処理を示すフローチャートである。
この処理は、利用者が、文書を図示しない原稿載置台に載置し、操作子200から文字認識処理の開始を指示すると開始される。
文字認識処理の開始が指示されると、スキャナ100は、文書を光学的に走査してラスタデータを生成し、コントローラ300に供給する(S10)。供給されるラスタデータはコントローラ300のラスタデータ記憶手段310に記憶される。
図4及び5は、文字認識処理を示すフローチャートである。
この処理は、利用者が、文書を図示しない原稿載置台に載置し、操作子200から文字認識処理の開始を指示すると開始される。
文字認識処理の開始が指示されると、スキャナ100は、文書を光学的に走査してラスタデータを生成し、コントローラ300に供給する(S10)。供給されるラスタデータはコントローラ300のラスタデータ記憶手段310に記憶される。
ラスタデータ記憶手段310にラスタデータが記憶されると、注目領域特定手段320は、記憶されたラスタデータを、互いに重なり部分を有しない複数の描画領域に分割する(S11)。図6に、分割されたラスタデータの一例を示す。この図では、一枚の文書から得たラスタデータの描画領域を縦方向に10等分することで、A乃至Jの各描画領域に分割している。この分割された描画領域の各々を「分割領域」と呼ぶ。以降説明する一連の処理は、この分割領域毎に実行されることになる。
注目領域特定手段320は、分割領域の一つを注目領域として特定する(S12)。注目領域の特定はラスタ順に行なわれる。例えば、図6の場合、分割領域Aが注目領域としてまず特定されることになる。続いて、注目領域特定手段320は、注目領域内の画素情報群を抽出して解像度変換手段330に出力する(S13)。
注目領域特定手段320は、分割領域の一つを注目領域として特定する(S12)。注目領域の特定はラスタ順に行なわれる。例えば、図6の場合、分割領域Aが注目領域としてまず特定されることになる。続いて、注目領域特定手段320は、注目領域内の画素情報群を抽出して解像度変換手段330に出力する(S13)。
注目領域の画素情報群を取得した解像度変換手段330の解像度レベル制御手段331は、自らのレベルカウンタの数値を参照することで、解像度レベルを決定する(S14)。例えば、解像度変換が1度も行われていない分割領域の画素情報群が供給された場合、そのレベルカウンタの値は「0」となっているはずであり、解像度レベルは0と決定されることになる。
ステップ14にて解像度レベルが最も高い「4」と決定されたとき、解像度レベル制御手段331は、最高解像度の画素情報群の出力を予告する旨の信号を、文字認識手段340へ直接通じるデータパスを介して出力する(S15)。信号は、文字認識手段340の図示しないメモリに記憶される。
ステップ14にて解像度レベルが最も高い「4」と決定されたとき、解像度レベル制御手段331は、最高解像度の画素情報群の出力を予告する旨の信号を、文字認識手段340へ直接通じるデータパスを介して出力する(S15)。信号は、文字認識手段340の図示しないメモリに記憶される。
解像度レベル制御手段331は、解像度レベルに応じたデータパスを選定し、選定したデータパスへ画素情報群を出力する(S16)。即ち、解像度レベルが「0」であれば画素情報群を文字認識手段340へ直接出力し、「1」であればニアレストネイバー補間手段322へ出力し、「2」であればバイリニアー補間手段333へ出力し、「3」であればキュービックコンボリューション補間手段334へ出力し、「4」であればフラクタル処理手段335へ出力する。
解像度レベルが「1」乃至「4」のいずれかである場合、補間手段又は処理手段によって解像度変換処理が施された画素情報群が文字認識手段340へ出力されることになる。一方、解像度レベルが「0」である場合、解像度変換処理が施されていない画素情報群が文字認識手段340へ出力されることになる。
解像度レベルが「1」乃至「4」のいずれかである場合、補間手段又は処理手段によって解像度変換処理が施された画素情報群が文字認識手段340へ出力されることになる。一方、解像度レベルが「0」である場合、解像度変換処理が施されていない画素情報群が文字認識手段340へ出力されることになる。
文字認識手段340は、解像度変換手段330から入力される画素情報群に基づく文字認識を試みる(S17)。具体的には、画素情報群によって描画されるビットマップから各文字を描画している画像を切出し、切り出した画像から抽出した特徴量と辞書として予め準備された文字(以下、「基準文字」と呼ぶ)の特徴量との論理上の距離を計測する。そして、計測の結果、特徴量の距離の開きが最も少ない基準文字が描画されているものと判断する。
文字認識手段340は、ステップ17における認識の確度が所定値を下回っているか判断する(S18)。このステップにおける認識の確度は、特徴量の距離と対応する。即ち、描画されているものと判断した標準文字との特徴量の距離が所定値よりも小さければこのステップの判断結果は「NO」となり、所定値よりも大きければこのステップの判断結果は「YES」となる。なお、注目領域に複数の文字の画像が含まれている場合は、各々の文字について求めた認識の確度の平均値が所定値よりも小さければこのステップの判断結果は「NO」となり、大きければ「YES」となる。
文字認識手段340は、ステップ17における認識の確度が所定値を下回っているか判断する(S18)。このステップにおける認識の確度は、特徴量の距離と対応する。即ち、描画されているものと判断した標準文字との特徴量の距離が所定値よりも小さければこのステップの判断結果は「NO」となり、所定値よりも大きければこのステップの判断結果は「YES」となる。なお、注目領域に複数の文字の画像が含まれている場合は、各々の文字について求めた認識の確度の平均値が所定値よりも小さければこのステップの判断結果は「NO」となり、大きければ「YES」となる。
ステップ18の判断結果が「YES」となったとき、文字認識手段340は、最高解像度の画素情報群の出力を予告する旨の信号が取得されているかを自らのメモリの記憶内容を基に判断する(S19)。そして、このステップの判断結果が「NO」となったとき、文字認識手段340は、文字認識が失敗した旨の信号を注目領域特定手段320へ供給する(S20)。信号を取得した注目領域特定手段320は、解像度レベルの変更を指示する信号を解像度変換手段330に供給する(S21)。信号を取得した解像度変換手段330の解像度レベル制御手段331は、自らのレベルカウンタの値に「1」を加算する(S22)。解像度レベルの変更を指示する信号を供給した注目領域特定手段320は、ステップ13に戻って注目領域内の画素情報群を再び解像度変換手段330へ出力し、続くステップ14以降の処理が順次実行される。
ステップ18の判断結果が「NO」となったとき、又はステップ19の判断結果が「YES」となったとき、文字認識手段340は、ステップ17の認識の結果得られたテキストデータをテキストデータ出力手段に出力する(S23)。テキストデータ記憶手段350は、出力されたテキストデータを順次記憶する。続いて、文字認識手段340は、文字認識が成功した旨の信号を注目領域特定手段320へ供給する(S24)。信号を取得した注目領域特定手段320は、カウンタのリセットを指示する信号を解像度変換手段330へ供給する(S25)。信号を取得した解像度変換手段330の解像度レベル制御手段331は、自らのカウンタの値を「0」にリセットする(S26)。その後、ステップ12に戻って注目領域特定手段320が別の分割領域を注目領域として特定し、この新たな注目領域を処理対象としてステップ13以降の処理が繰り返される。
すべての分割領域を注目領域として上記一連の処理が実行し終えると、テキストデータ記憶手段350に記憶されたテキストデータが読み出され、通信インターフェース400を介して外部のコンピュータ装置へ送信される。
すべての分割領域を注目領域として上記一連の処理が実行し終えると、テキストデータ記憶手段350に記憶されたテキストデータが読み出され、通信インターフェース400を介して外部のコンピュータ装置へ送信される。
以上説明した本実施形態では、解像度変換手段330に、ニアレストネイバー補間手段322、バイリニアー補間手段333、キュービックコンボリューション補間手段334、及びフラクタル処理手段335を内蔵する。そして、まず、ニアレストネイバー補間手段322によって解像度を変換した画素情報群を文字認識手段340に供給して文字認識を試み、文字認識が失敗する毎に、バイリニアー補間手段333、キュービックコンボリューション補間手段334、及びフラクタル処理手段335を順次用いて解像度を変換することで、段階的に高解像度化された画素情報群を文字認識手段340に供給する。このように、注目領域内にある画素情報群の解像度を、文字認識結果に応じて段階的に高くするような構成となっているため、解像度変換の際の処理負担を可能な限り抑えつつも、極めて高精度な文字認識結果を得ることができる。
(他の実施形態)
本願発明は、種々の変形実施が可能である。
上記実施形態では、ラスタデータがラスタデータ記憶手段310に記憶されると、そのラスタデータを複数の領域に分割し、分割した領域の各々を順次注目領域として特定して処理を行うようになっていた。これに対し、ラスタデータのすべての描画領域に解像度変換処理を施すことなく文字認識処理を行い、その結果、文字認識の確度が低かった一又は複数の描画領域を抽出し、抽出した描画領域を注目領域として順次特定するようにしてもよい。
また、上記実施形態における解像度変換手段330は、注目領域内の画素情報群に、高解像度化処理を施すようになっていたが、低解像度化処理、即ち、注目領域内の文字の大きさを縮小するような処理を行ってもよい。これにより、文書内の文字のサイズが大きすぎて文字認識ができないといった不都合が解消される。
上記実施形態の解像度変換手段330、注目領域特定手段320、文字認識手段340の各手段と同等の機能を実現するプログラムを汎用のコンピュータ装置に実装させ、このコンピュータ装置のプロセッサに、上記各手段と同等の処理を実行させるようにしてもよい。この種のプログラムは、CD−ROMなどの記憶媒体に記憶して配布してもよいし、ネットワーク上に設けられたサーバ装置からクライアント装置の要求に応じて配信されるようにしてもよい。
上記実施形態において、解像度変換手段330には、ニアレストネイバー補間手段322、バイリニアー補間手段333、キュービックコンボリューション補間手段334、及びフラクタル処理手段335の4つの手段が内蔵され、注目領域における文字認識の確度が所定値を下回ったと判断されるたびに、上記4つの手段が段階的に高解像度した画素情報群が出力されるようになっていた。これに対し、解像度変換手段330が上記4つの手段をすべて内蔵することは必須ではない。即ち、上記4つのうちの少なくとも2つ以上を内蔵し、確度が所定値を下回る毎に、段階的に高解像度化された画素情報群を出力できるようになっていればよい。
本願発明は、種々の変形実施が可能である。
上記実施形態では、ラスタデータがラスタデータ記憶手段310に記憶されると、そのラスタデータを複数の領域に分割し、分割した領域の各々を順次注目領域として特定して処理を行うようになっていた。これに対し、ラスタデータのすべての描画領域に解像度変換処理を施すことなく文字認識処理を行い、その結果、文字認識の確度が低かった一又は複数の描画領域を抽出し、抽出した描画領域を注目領域として順次特定するようにしてもよい。
また、上記実施形態における解像度変換手段330は、注目領域内の画素情報群に、高解像度化処理を施すようになっていたが、低解像度化処理、即ち、注目領域内の文字の大きさを縮小するような処理を行ってもよい。これにより、文書内の文字のサイズが大きすぎて文字認識ができないといった不都合が解消される。
上記実施形態の解像度変換手段330、注目領域特定手段320、文字認識手段340の各手段と同等の機能を実現するプログラムを汎用のコンピュータ装置に実装させ、このコンピュータ装置のプロセッサに、上記各手段と同等の処理を実行させるようにしてもよい。この種のプログラムは、CD−ROMなどの記憶媒体に記憶して配布してもよいし、ネットワーク上に設けられたサーバ装置からクライアント装置の要求に応じて配信されるようにしてもよい。
上記実施形態において、解像度変換手段330には、ニアレストネイバー補間手段322、バイリニアー補間手段333、キュービックコンボリューション補間手段334、及びフラクタル処理手段335の4つの手段が内蔵され、注目領域における文字認識の確度が所定値を下回ったと判断されるたびに、上記4つの手段が段階的に高解像度した画素情報群が出力されるようになっていた。これに対し、解像度変換手段330が上記4つの手段をすべて内蔵することは必須ではない。即ち、上記4つのうちの少なくとも2つ以上を内蔵し、確度が所定値を下回る毎に、段階的に高解像度化された画素情報群を出力できるようになっていればよい。
100…スキャナ、200…操作子、300…コントローラ、310…ラスタデータ記憶手段、320…注目領域特定手段、322…ニアレストネイバー補間手段、330…解像度変換手段、331…解像度レベル制御手段、333…バイリニアー補間手段、334…キュービックコンボリューション補間手段、335…フラクタル処理手段、340…文字認識手段、350…テキストデータ記憶手段、400…通信インターフェース。
Claims (8)
- 一又は複数の文字が記された文書を走査して得た画像を入力する入力手段と、
前記入力された画像を記憶する記憶手段と、
前記記憶手段に記憶された画像の一部又は全部の描画領域を注目領域として特定する注目領域特定手段と、
前記特定した注目領域内にある画素群に対し、指定された補間関数を用いた補間処理を施すことで、当該注目領域における解像度を変換する解像度変換手段と、
前記解像度が変換された注目領域から文字を認識する認識手段と、
前記認識手段による認識の成否に基づき、前記補間処理に用いる補間関数を切り替える制御手段と
を備えた文字認識装置。 - 一又は複数の文字が記された文書を走査して得た画像を入力する入力手段と、
前記入力された画像を記憶する記憶手段と、
前記記憶手段に記憶された画像の一部又は全部の描画領域を注目領域として特定する注目領域特定手段と、
前記特定した注目領域内にある画素群に対し、第1の補間関数を用いた補間処理を施すことで、当該注目領域における解像度を変換する解像度変換手段と、
前記解像度が変換された注目領域から文字を認識する認識手段と、
前記認識手段による認識の確度が所定値を下回ったとき、前記補間処理に用いられる補間関数を前記第1の補間関数よりも高次の第2の補間関数に切り替える制御手段と
を備えた文字認識装置。 - 請求項2記載の文字認識装置において、
前記注目領域特定手段は、
前記記憶された画像を複数の描画領域に分割し、分割された描画領域の各々を前記注目領域として順次特定する
文字認識装置。 - 請求項1記載の文字認識装置において、
前記認識手段は、
前記記憶手段に記憶された画像から文字を認識し、その認識の成否に基づいて求めた確度を当該画像内の所定の描画領域毎に出力し、
前記注目領域特定手段は、
前記認識手段から確度が出力されると、出力された確度が所定値を下回った描画領域を前記注目領域として順次特定する
文字認識装置。 - 請求項2又は3記載の文字認識装置において、
前記制御手段は、
前記補間処理に用いられる補間関数を、ニアレストネイバー補間関数よりも高次の補間関数であるバイリニア補間関数に切り替える手段と、
前記補間処理に用いられる補間関数を、バイリニア補間関数よりも高次の補間関数であるキュービックコンボリューション補間関数に切り替える手段
のうちいずれか1つ以上の手段を含む文字認識装置。 - 請求項2記載の文字認識装置において、
前記第2の補間関数を用いた補間処理が施されることによって解像度が変換された注目領域について前記認識手段が文字を認識し、その認識の成否に基づいて求めた確度が所定値を下回ったとき、前記注目領域内にある画素群にフラクタル拡大処理を施すことで、その領域における解像度を変換するフラクタル処理手段
を更に備えた文字認識装置。 - 一又は複数の文字が記された文書を走査して得た画像を入力する入力手段と、
前記入力された画像を記憶する記憶手段と
を備えたコンピュータ装置に、
前記記憶手段に記憶された画像の一部又は全部の描画領域を注目領域として特定する注目領域特定機能と、
前記特定した注目領域内にある画素群に対し、指定された補間関数を用いた補間処理を施すことで、当該注目領域における解像度を変換する解像度変換機能と、
前記解像度が変換された注目領域から文字を認識する認識機能と、
前記認識機能による認識の成否に基づき、前記補間処理に用いる補間関数を切り替える制御機能と
を実現させるプログラム。 - 一又は複数の文字が記された文書を走査して得た画像を入力する入力手段と、
前記入力された画像を記憶する記憶手段と
を備えたコンピュータ装置に、
前記記憶手段に記憶された画像の一部又は全部の描画領域を注目領域として特定する注目領域特定機能と、
前記特定した注目領域内にある画素群に対し、第1の補間関数を用いた補間処理を施すことで、当該注目領域における解像度を変換する解像度変換機能と、
前記解像度が変換された注目領域から文字を認識する認識機能と、
前記認識機能による認識の確度が所定値を下回ったとき、前記補間処理に用いられる補間関数を前記第1の補間関数よりも高次の第2の補間関数に切り替える制御機能と
を実現させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004190104A JP2006011967A (ja) | 2004-06-28 | 2004-06-28 | 文字認識装置、文字認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004190104A JP2006011967A (ja) | 2004-06-28 | 2004-06-28 | 文字認識装置、文字認識プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006011967A true JP2006011967A (ja) | 2006-01-12 |
Family
ID=35779149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004190104A Pending JP2006011967A (ja) | 2004-06-28 | 2004-06-28 | 文字認識装置、文字認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006011967A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007280267A (ja) * | 2006-04-11 | 2007-10-25 | Matsushita Electric Ind Co Ltd | 画像処理方法及び画像処理装置 |
WO2009085491A2 (en) * | 2007-12-26 | 2009-07-09 | Intel Corporation | Ocr multi-resolution method and apparatus |
JP2009231871A (ja) * | 2008-03-19 | 2009-10-08 | Fuji Xerox Co Ltd | 画像処理装置及び画像処理プログラム |
JP2012104028A (ja) * | 2010-11-12 | 2012-05-31 | Sharp Corp | 画像処理装置、画像読取装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体 |
JP2016192070A (ja) * | 2015-03-31 | 2016-11-10 | キヤノンマーケティングジャパン株式会社 | 情報処理装置と、その処理方法及びプログラム |
JP2017103756A (ja) * | 2015-11-24 | 2017-06-08 | キヤノン株式会社 | 画像データ処理装置及び方法 |
JP2021508123A (ja) * | 2017-12-26 | 2021-02-25 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | リモートセンシング画像認識方法、装置、記憶媒体及び電子機器 |
CN112580738A (zh) * | 2020-12-25 | 2021-03-30 | 特赞(上海)信息科技有限公司 | 基于改进的AttentionOCR文本识别方法及装置 |
JP7452060B2 (ja) | 2020-02-12 | 2024-03-19 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
JP7468103B2 (ja) | 2020-04-15 | 2024-04-16 | 株式会社リコー | Fax受信装置、fax受信方法およびプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11331595A (ja) * | 1998-05-11 | 1999-11-30 | Oki Data Corp | 解像度変換方法及び変換装置 |
JP2000029987A (ja) * | 1998-07-15 | 2000-01-28 | Canon Inc | 画像読取装置の制御方法及び画像読取装置並びに画像読取システム |
JP2000293633A (ja) * | 1999-04-02 | 2000-10-20 | Canon Inc | 画像読取装置と該画像読取装置の制御方法、及び文書管理システム |
JP2001118032A (ja) * | 1999-10-15 | 2001-04-27 | Ricoh Co Ltd | 文字認識装置および文字認識方法、並びに文字認識方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2003283811A (ja) * | 2002-03-20 | 2003-10-03 | Fuji Xerox Co Ltd | 画像処理装置およびプログラム |
-
2004
- 2004-06-28 JP JP2004190104A patent/JP2006011967A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11331595A (ja) * | 1998-05-11 | 1999-11-30 | Oki Data Corp | 解像度変換方法及び変換装置 |
JP2000029987A (ja) * | 1998-07-15 | 2000-01-28 | Canon Inc | 画像読取装置の制御方法及び画像読取装置並びに画像読取システム |
JP2000293633A (ja) * | 1999-04-02 | 2000-10-20 | Canon Inc | 画像読取装置と該画像読取装置の制御方法、及び文書管理システム |
JP2001118032A (ja) * | 1999-10-15 | 2001-04-27 | Ricoh Co Ltd | 文字認識装置および文字認識方法、並びに文字認識方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2003283811A (ja) * | 2002-03-20 | 2003-10-03 | Fuji Xerox Co Ltd | 画像処理装置およびプログラム |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007280267A (ja) * | 2006-04-11 | 2007-10-25 | Matsushita Electric Ind Co Ltd | 画像処理方法及び画像処理装置 |
WO2009085491A2 (en) * | 2007-12-26 | 2009-07-09 | Intel Corporation | Ocr multi-resolution method and apparatus |
WO2009085491A3 (en) * | 2007-12-26 | 2009-08-27 | Intel Corporation | Ocr multi-resolution method and apparatus |
US8611661B2 (en) | 2007-12-26 | 2013-12-17 | Intel Corporation | OCR multi-resolution method and apparatus |
JP2009231871A (ja) * | 2008-03-19 | 2009-10-08 | Fuji Xerox Co Ltd | 画像処理装置及び画像処理プログラム |
JP2012104028A (ja) * | 2010-11-12 | 2012-05-31 | Sharp Corp | 画像処理装置、画像読取装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体 |
JP2016192070A (ja) * | 2015-03-31 | 2016-11-10 | キヤノンマーケティングジャパン株式会社 | 情報処理装置と、その処理方法及びプログラム |
JP2017103756A (ja) * | 2015-11-24 | 2017-06-08 | キヤノン株式会社 | 画像データ処理装置及び方法 |
JP2021508123A (ja) * | 2017-12-26 | 2021-02-25 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | リモートセンシング画像認識方法、装置、記憶媒体及び電子機器 |
JP7080978B2 (ja) | 2017-12-26 | 2022-06-06 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | リモートセンシング画像認識方法、装置、記憶媒体及び電子機器 |
JP7452060B2 (ja) | 2020-02-12 | 2024-03-19 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
JP7468103B2 (ja) | 2020-04-15 | 2024-04-16 | 株式会社リコー | Fax受信装置、fax受信方法およびプログラム |
CN112580738A (zh) * | 2020-12-25 | 2021-03-30 | 特赞(上海)信息科技有限公司 | 基于改进的AttentionOCR文本识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5017031B2 (ja) | 画像処理装置、画像処理方法、画像処理プログラム、並びに、記憶媒体 | |
JPH10178541A (ja) | 画像処理方法、文書表示方法及びコンピュータ実行操作選択方法 | |
JP5137759B2 (ja) | 画像処理装置 | |
JPH03122773A (ja) | 画像形成装置 | |
JPH11338976A (ja) | 文書画像認識装置、その方法、及び記録媒体 | |
JP2006059351A (ja) | 劣化辞書生成プログラム、方法および装置 | |
JP2006011967A (ja) | 文字認識装置、文字認識プログラム | |
JPH11213160A (ja) | 画像処理方法及び装置及びその記憶媒体 | |
JPH1132208A (ja) | 画像変倍処理装置 | |
JP2004120092A (ja) | 画像処理装置、画像処理システム、画像処理方法、記憶媒体、及びプログラム | |
US5361309A (en) | Character recognition apparatus and method with low-resolution storage for character extraction | |
JP3993025B2 (ja) | 文書画像変換方法、文書画像変換プログラム及び文書画像変換装置 | |
JP7301529B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP3478861B2 (ja) | 2値画像データのスムージング拡大処理方法 | |
JP4775161B2 (ja) | 画像処理装置、画像処理プログラム | |
JPH09147109A (ja) | 特定マーク検出方法及び特定マーク検出装置 | |
JPH07334648A (ja) | 画像処理方法及びその装置 | |
JPH08237404A (ja) | 光学文字認識モードの選択方法 | |
JP5424785B2 (ja) | 画像処理装置、画像処理方法、コンピュータプログラム | |
JP4517288B2 (ja) | 画像処理装置、画像処理方法及びそのプログラム | |
JP3814547B2 (ja) | 画像処理装置及びその方法 | |
JP4517287B2 (ja) | 画像処理装置、画像処理方法及びそのプログラム | |
KR100334624B1 (ko) | 클러스터링기반문서영상분할방법 | |
JP2006011966A (ja) | 文字認識装置、文字認識プログラム | |
JPH09167228A (ja) | 画像変換方法及び装置、並びに、それらを利用した画像整形方法及び装置、並びに、それらを利用したシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070517 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100216 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100622 |