JP2005202834A - 文字認識システム、文字認識方法及び文字認識プログラム - Google Patents

文字認識システム、文字認識方法及び文字認識プログラム Download PDF

Info

Publication number
JP2005202834A
JP2005202834A JP2004010391A JP2004010391A JP2005202834A JP 2005202834 A JP2005202834 A JP 2005202834A JP 2004010391 A JP2004010391 A JP 2004010391A JP 2004010391 A JP2004010391 A JP 2004010391A JP 2005202834 A JP2005202834 A JP 2005202834A
Authority
JP
Japan
Prior art keywords
image
character
resolution
character recognition
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004010391A
Other languages
English (en)
Inventor
Hiroyuki Mizutani
博之 水谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2004010391A priority Critical patent/JP2005202834A/ja
Publication of JP2005202834A publication Critical patent/JP2005202834A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

【課題】 撮像領域を容易に変更できる撮像手段を用いて撮像された画面における文字認識処理性能の低下を解決する文字認識システム、文字認識方法及びプログラムを提供する。
【解決手段】 撮像部2により撮像された画像データに対して画像処理部3が画像処理を行い、文字領域検出部6はその画像処理された画像に文字領域が存在するか否かを判定するための処理を行う。文字領域が存在すると判定したとき、文字列のスキュー及び文字列の解像度を計算し、所定の閾値より低い場合は再度の画像処理を行い、所定の閾値より高い場合はそのまま文字認識を行う。
【選択図】図1

Description

本発明は文字認識技術に係り、特に撮像された画像データを再構成することにより撮像された画像データに含まれている文字を認識する文字認識システム、文字認識方法及び文字認識プログラムに関する。
従前の文字認識システムの画像を撮像するための撮像手段として、フライングスポットスキャナ、レーザースキャナ、半導体イメージスキャナ等に代表される走査型センサー、及びデジタルカメラやCCDカメラ等に代表されるエリアセンサーがある。
通常用いられるフラットベッドスキャナを用いた画像読み取りを行う場合、撮像されるべき対象となる領域は予め定められており、この撮像されるべき対象領域を外れたものを読込むことはできない。このため、この対象領域を外れた文字に対して文字認識を行うことはできなかった。
これに対し、デジタルカメラ等に代表される撮像領域を容易に変更することができる撮像手段は、読取り対象物の位置を予め指定する必要がないため、読取り対象物の位置に関する制限は緩和された。しかし、比較的容易に画像を撮像することができる反面、カメラフォーカスの焦点が合わなかったり、画像がスキューしたり(傾いたり)、光源の影響を受けてしまい画像の明るさにムラが出る場合があるため、文字認識処理に悪影響を与える可能性がある。また、デジタルカメラでは一度に撮像できる視野に限度があるため、読取り対象物全体を一度の操作で撮像することが困難である場合があり、仮に読取り対象物を一度の操作で撮像した場合であっても、その撮像のための解像度が小さすぎるため撮像画面の文字が潰れるという問題が生じる虞がある。
また、文書や文字を含む撮像対象を画像データで取り込んだ場合、その文字を含む部分も画像データとして扱われるため、テキストデータとして記憶するよりもかなり大きな記憶容量が必要とされ、必要に応じて再度テキストデータとして入力しなければならないというオペレータにとって不便な問題点がある。この問題点を解決するため、取り込んだ画像に含まれる文字情報をテキストデータに変換する映像入力に関する技術がある(特許文献1参照)。この特許文献1においては、文字情報の有する画像を取り込み、その取り込んだ際における画像のサイズから文字情報が認識できない場合、その取り込んだ画像をズームアップするといった光学的な画像処理を行った後に文字認識をすることにより高画質の静止画像からテキストデータを容易に抽出するものである。
特開平9−83789号公報(第7頁、図14C)
デジタルカメラに代表される撮像領域を容易に変更することができる撮像手段を用いて文字認識システムを構成した場合、読取り対象物の位置に関する制限を著しく緩和する反面、撮像した画像の品質劣化に基づく文字認識処理性能の低下という問題点が生じる。
そこで、本発明は上記問題点を解決するためになされたものであり、PDA、携帯電話やデジタルカメラに代表される撮像領域を容易に変更することができる撮像手段を用いて撮像した画面に生じる画像中における文字認識処理の性能の低下を解決する文字認識システム、文字認識方法及びプログラムを提供することを目的とする。
上記問題点を解決するために、本発明の文字認識システムは、所定の範囲の領域を撮像し、第1の解像度を有する画像データを出力する画像撮像手段と、画像撮像手段により撮像された画像データに対して文字列を含む文字領域があるか否かを検出する文字領域検出手段と、文字領域検出手段により検出された画像データの文字領域における文字列を文字認識する文字認識手段と、画像データを文字認識手段により文字認識するための解像度を有するか否かを判別する画像解像度判別手段と、画像解像度判別手段により、画像データが文字認識するための解像度を有しないと判別された場合、画像撮像手段により撮像された画像の解像度を第1の解像度よりも解像度が高い第2の解像度に変換する画像処理手段とを具備することを特徴としている。
次に、本発明の文字認識方法は、所定の範囲の領域を撮像し、第1の解像度を有する画像データを出力する画像撮像ステップと、撮像された画像データに対して文字列を含む文字領域があるか否かを検出する文字領域検出ステップと、検出された画像データの文字領域における文字列を文字認識する文字認識ステップと、画像データを文字認識するための解像度を有するか否かを判別する画像解像度判別ステップと、画像解像度判別ステップにより、画像データが文字認識するための解像度を有しないと判別された場合、撮像された画像の解像度を第1の解像度よりも解像度が高い第2の解像度に変換する画像処理ステップとを具備することを特徴としている。
さらに、本発明の文字認識プログラムは、コンピュータに、所定の範囲の領域を撮像し、第1の解像度を有する画像データを出力する画像撮像機能と、撮像された画像データに対して文字列を含む文字領域があるか否かを検出する文字領域検出機能と、検出された画像データの文字領域における文字列を文字認識する文字認識機能と、画像データを文字認識するための解像度を有するか否かを判別する画像解像度判別機能と、画像解像度判別機能により、画像データが文字認識するための解像度を有しないと判別された場合、撮像された画像の解像度を第1の解像度よりも解像度が高い第2の解像度に変換する画像処理機能とを実現させることを特徴としている。
本発明によれば、撮像領域を容易に変更することができる撮像手段を用いて撮像された画面における文字認識処理性能の低下を解決し、文字認識可能な撮像画面を得ることができる。
本発明に係る文字認識システムは、撮像された画像に文字が含まれている場合、当該文字領域を検出するとともに、この文字領域内における文字の認識を行うために、撮像された画像に対して「2値化処理」又は「ラベリング処理」などのデジタル処理(これら二つの処理に限られないものとする。)を行うものである。撮像した画像に文字領域があるか否かを判別する。
以下の実施例1においては、撮像するための手段及び文字画像を文字認識することができように再構成するための手段が一体化されている文字認識システムについて、実施例2においては、撮像するための手段及び文字画像を文字認識することができように再構成するための手段が一体化せずに分離している文字認識システムについて記載する。
まず、実施例1に係る文字認識システム1の構成について図1を参照して説明する。
図1は、実施例1に係る文字認識システム1の構成を示すブロック図である。本発明に係る文字認識システム1は、所定の範囲の領域を画像として撮像する撮像部2と、文字認識処理の終了条件を手動的に又は自動的に入力する入力部3と、撮像部2により撮像された画像中に文字領域があるか否かを判別する文字領域検出部4と、文字領域検出部4により検出された文字領域の文字を文字認識する文字認識部5と、撮像部2により撮像された画像に対して文字領域検出処理又は文字認識処理を実行するための画像処理を行う画像処理部6と、画像処理部6による処理結果をオペレータに表示するための表示部7と、画像処理部6による処理結果を記憶するための記憶部8と、これらの各部を制御する制御部9と、バッファ部10とから構成されている。
撮像部2は画像を撮像するためのものであり、例えばPDA(Personal Digital Assistant)、携帯電話、デジタルカメラやCCDカメラに代表されるエリアセンサを配するものである。また撮像される画像領域を自動的に制御するために、レンズなどの光学系の撮像装置の一部又は全体を制御する機構を付加してもよい。本発明の文字認識システム1において、制御部9は、撮像の際に撮像部2を制御し、撮像の対象となる画像領域を拡大し、縮小し、回転し、及び光学系の焦点の調整をする処理のうち少なくとも一つを制御する。
入力部3は後記する文字認識処理に先立ち必要な様々な条件の設定を手動的に又は自動的に行うためのものである。入力部3は、キーボードの他に音声認識装置を備えた音声入力装置、オペレータの視線を検知して入力を行う視線入力装置、又はオペレータの指の動きや位置を検知してデータの入力を行うためのデータグローブ等が該当する。さらに、入力部3による撮像の対象領域の指定方法としては、例えば多角形領域の各頂点座標や、四角形領域の対角する一組の頂点座標、円及び楕円領域の中心座標と半径等を入力することである。また、場合に応じてはこの指定はオペレータが直接手動で入力するのではなく、文字認識システム1自体にプログラムにより予め設定されているものであってもよい。
表示部4は文字認識の結果や画像処理途中の画像データを表示するためのものである。表示部4は、TVモニター、液晶表示装置、又は白板や銀幕に投影するプロジェクター装置が該当する。
画像処理部5は、オペレータの指示により、撮像部2により撮像された画像に対して様々な画像処理を行うものである。例えば、画像の2値化処理、ラベリング処理、ノイズ除去、エッジ検出、画像のアフィン変換、明度変換、彩度変換、色相変換、画素値の多値化、カラー画像に対する色補正、動画像処理におけるオプティカルフロー検出等である。また必要に応じてステレオマッチングも行うことができる。また、この画像処理部5では、上記した様々なデジタル信号による処理が行われることにより、撮像部2により撮像された画像の拡大・縮小・回転・逆透視変換を行うことができる。これは撮像部2により撮像されるときにオペレータにより撮像の対象領域に対して光学的な拡大・縮小・回転が行われなかった場合でも、画像処理部5ではデジタル信号による処理が行われるため、事後的に画像処理部5においても撮像部2により撮像された画像に対して拡大・縮小・回転ができる。
文字領域検出部6は、画像処理部5による画像処理の結果得た画像情報と画像処理部5により画像処理が済んだ画像とに基づいて文字領域の検出を行うものである。この画像処理部5による画像処理の結果得た情報とは、画像処理部5が撮像部2により撮像された画像データに対して2値化処理した原画像、その画像にラベリング処理した画像の数、座標、画像そのもの及び外接矩形等の情報である。この検出に当っては必要に応じて文字領域検出部6及び文字認識部7が連携し、文字認識処理結果をフィードバックすることにより正確に文字領域の検出を行うように文字領域検出部6を構成してもよい。文字領域検出方法としては、例えば新聞や雑誌等のように文字が多数記載されている場合、画像処理の結果得られる2値画像に対して、文字画像(黒画素)の連結部分に対してラベル付けを行い(ラベリング処理)、ラベル画像に対して連結部分であるセグメントの抽出を行い、セグメント群の密度を計算する。このセグメント密度が所定の閾値より大きい領域を文字領域と判定することにより行われる。
またこの文字領域検出処理と同時に、ラベリング処理した画像の外接矩形の中心座標群に対して回帰分析(最小二乗近似)等の手法を適用してラベリング処理した画像中の文字列に対して一次直線近似を行うことにより、文字方向を推定しておくことも重要である。一般的に、画像処理部5が複数枚撮像された画像データを連結する際、撮像部2により撮像された画像中の文字列に限定して連結するが、このとき、印刷物における文字方向の推定は、文字列は一直線状に配置されているようにラベル画像の外接矩形の中心座標に対して回帰分析(最小二乗近似)の手法を適用することにより実現される。
文字認識部7では、文字領域検出部6で文字領域であると検出された文字群の画像から一文字ずつ文字画像の検出切出し処理を行い、この画像群に対して文字認識手法に応じた特徴抽出を行う。必要に応じて、特徴選択や特徴次元数削減を行い、複合類似度法、部分空間法及びLVQ(Learning Vector Quantization)法など既存の文字認識方法により文字認識処理を行う。
記憶部8は、撮像部2により撮像された画像データ、画像処理部5により画像処理が未だ終了していない中間状態である画像データ、画像処理部5により画像処理が終了した画像データの他、画像処理部5による画像処理の結果得た様々な情報、及び制御部9の制御の下バッファ部10に記憶されているデータが記憶されるものである。画像処理部5による画像処理の結果得た様々な情報とは、撮像部2により撮像された画像に対して2値化処理した画像、その2値化処理した画像にラベリング処理した画像の情報、座標の位置、又は2値化処理により生じた外接矩形の情報や外接矩形そのものである。
制御部9は、上記した撮像部2、入力部3、表示部4、画像処理部5、文字領域検出部6、文字認識部7、及び記憶部8を制御するとともに、各種データの計算・編集や各種データ間の転送を行うものである。また、本発明の文字認識システム1においては、撮像部2により撮像される対象となる画像領域を制御するものとする。
バッファ部10は、制御部9が各処理部での処理結果を一時的に記憶するためのワーク領域であり、表示部4に表示される画像未処理の画像データ、画像処理の中間状態の画像データ又は画像処理済み等の画像データは、制御部9が各処理部における処理をバッファ部15内にて実行した画像データ、又は記憶部8から読み込んでこのバッファ部15内に展開したデータであるとする。
次に、実施例1に係る文字認識システム1の動作について図2を参照して説明する。
図2は、本発明の文字認識システム1の動作を説明するフローチャートである。オペレータの指示により、入力部2からオペレータの要求する画像領域、画像データを得るための条件及び文字認識システム1による文字認識処理の終了条件が入力されたときに文字認識システム1はS2以降の処理を開始し(S1のYES)、オペレータの指示により、入力部2からオペレータの要求する画像領域、画像データを得るための条件及び文字認識システム1による文字認識処理の終了条件が入力されていないとき(S1のNO)、文字認識システム1はオペレータからの画像領域及び文字認識処理の終了条件の入力指示を待つ。この「オペレータの要求する画像領域」とは、オペレータが自己の所望する映像をデジタルカメラ等の撮像手段を用いて画像として撮像する対象となる領域である。さらに、この「文字認識システム1による文字認識処理の終了条件」とは、上記したオペレータの要求する画像領域、画像範囲を得るためにオペレータ自身により入力される又は予め設定されている条件である。例えば、撮像部2によりオペレータ自身が所望する同一の範囲の映像を三回撮像し、所定の画像処理を実行して文字領域検出処理をした結果文字領域を検出することができなかったときに撮像部2により撮像された画像には文字領域はないものとして文字認識処理を強制的に終了させるという条件である。
文字認識システム1は、オペレータによりS1で入力された撮像回数を表わすパラメータnを初期設定する(S2)。制御部9は撮像部2を制御し、オペレータの指示により入力部2において入力された所望の条件に基づいて領域指定された映像を画像として撮像する(S3)。文字認識システム1は、このとき撮像回数nをインクリメントし(S4)、この撮像した画像を画像データとして記憶部8に記憶する。このとき、画像処理部5は撮像部2により撮像された画像に対して2値化処理やラベリング処理などの画像処理を行う(S5)。
文字領域検出部6は、画像処理部5により2値化処理された原画像(S3により撮像された画像)、この原画像にラベリング処理した情報、座標の位置、外接矩形の情報及び画像処理部5により画像処理した後の画像データに基づき、S3で撮像した画像の中に文字があるか否かを判別するために文字領域の検出を行う(S6)。
この文字領域検出処理の結果、文字領域検出部6はS3で撮像した画像に文字を有する文字領域を検出せず、S1で入力された文字認識処理の終了条件(例えば、撮像回数nがオペレータによりS1において入力された、文字認識システム1における文字認識処理を終了するための条件を示す値を超えたとき)を満たしたとき(S7のNO、S8のYES)、文字認識システム1は、表示部4に、文字認識処理をすることができなかった旨の最終結果を表示し(S15)、文字認識システム1の文字認識処理は終了する。
文字認識システム1は、S3において撮像された画像に文字領域を検出することができなく、S1で入力された文字認識処理の終了条件(例えば、撮像回数nがオペレータによりS1において入力された、文字認識システム1における文字認識処理を終了するための条件を示す値を超えたとき)が満たされていないとき(S8のNO)、S1で入力された文字認識処理の終了条件を満たすまで、制御部9により撮像部2を再制御させて再度撮像を行い、S4からS7までの処理を繰り返す。また、文字認識システム1は、S15において文字認識処理をすることができなかった旨の結果を表示しているが、このとき、文字認識システム1は文字認識処理を継続するかそれとも文字認識処理を終了するかの判断をオペレータに求めるように構成してもよいものとする。
上記文字領域検出処理の結果、文字領域検出部6はS3で撮像した画像に文字を有する文字領域を検出したとき(S7のYES)、画像処理部5は、この文字領域を検出した画像データに対し、文字列のスキュー(撮像軸と撮像対象画像との間に生じた傾きによる画像に表れている文字列の傾き)及び文字の解像度を算出する(S9)。制御部9は、画像処理部5がこの算出した文字の解像度が所定の閾値より低いと判定したとき(S10のYES)、S6で文字領域を検出した画像データ全体に対してスキュー除去処理、明度変換処理、彩度変換処理、色相変換処理や当該画像全体の解像度を上げる解像度変換処理を行う(S11)。この「所定の閾値」とは、文字認識システム1に予め設定されている値であり、文字領域検出部6が文字領域を検出したときに、その検出した文字領域における文字列の部分を文字認識することができるか否かを判別するために設けられた値であり、例えばこの閾値は200dpi(dot per inch)であるが、この閾値は特にこの値に限定されない。
S11による処理が終わると、又はS9にて算出した文字の解像度が所定の閾値よりも高いとき(S10のNO)、文字認識部7はその文字領域に現れている文字列の文字認識を行う(S12)。文字認識部7が検出された文字領域に対して文字認識をすることができなかったとき(S13のNO)、S6で文字領域を検出した画像データ全体に対して線形補間、スプライン補間又は擬似的な高解像度処理等の画像処理を行う(S14)。
文字認識システム1は、文字領域の情報と文字認識済みの文字情報とに基づき、S6で検出された文字領域における文字認識をした後(S13のYES)、表示部4に、文字認識処理をすることができた旨及びその最終的な文字認識結果を表示し(S15)、文字認識システム1の文字認識処理は終了する。
このように、本発明の実施例1によれば、文字認識システム1は、オペレータにより予め設定された所定の条件に従い、撮像部2により撮像された画像に対して画像処理を行い、この画像処理を行った画像データに対して文字領域の存在の有無を検出する。文字領域を検出することができたとき、文字領域の文字列が文字認識可能な解像度を有しているか否かを判定し、その解像度が所定の閾値を超えているときに文字認識部7は文字認識を行う。その解像度が所定の閾値を超えていないときは、文字認識を行うことができる画像データになるまでさらに画像処理を行った後に、その画像データの文字認識を行う。
これにより、デジタルカメラに代表される撮像領域を容易に変更することができる撮像手段を用いて撮像された画面に現れる文字を認識する際に、文字認識処理をする上で問題となっていた文字認識処理の困難性の問題点を解消することができ、撮像した画像に表れる文字列に対して文字認識を容易に行うことができる。
次に、実施例2に係る文字認識システムの構成について図3ないし図5を参照して説明する。
実施例2に係る文字認識システム11は、図3に示す撮像処理装置12(k)(k;kは自然数であるとし、以下の説明において撮像処理装置12(k)を「撮像処理装置12」という。)、文字画像再構成処理装置13及び画像蓄積サーバ14から構成されるものである。画像蓄積サーバ14は、撮像処理装置12から送信された画像データや画像に関する情報又は文字画像再構成処理装置13から送信された画像データや画像に関する情報が一時的に又は半永久的に蓄積されるサーバである。
図4は、実施例2に係る文字認識システム11の一部である撮像処理装置12の構成を示すブロック図である。実施例2に係る文字認識システム11において、撮像処理装置12は一つ(k=1)であってもよいし、複数(kは2以上の自然数)存在してもよいものとする。実施例2に係る撮像処理装置12は、文字認識システム11における文字認識処理のための終了条件を手動的に又は自動的に入力する入力部15と、所定の範囲の領域を画像として撮像する撮像部16と、画像結果をオペレータに表示するための表示部17と、画像結果を記憶するための記憶部18と、撮像部16により撮像された画像に対して文字領域検出処理又は文字認識処理をより容易にするための画像処理を行う画像処理部19と、撮像部16に撮像された画像を送信するとともに、文字画像再構成処理装置13により再構成処理された画像を受信する通信処理部20と、これらの各部を制御する制御部21と、バッファ部22から構成されているものである。通信処理部20以外の構成部分については、実施例1で説明したため、ここではこれらの説明は省略する。
図5は、実施例2に係る文字認識システム11の一部である文字画像再構成処理装置13の構成を示すブロック図である。実施例2に係る文字画像再構成処理装置13は、文字認識システム1における終了条件を手動的に又は自動的に入力する入力部23と、画像結果をオペレータに表示するための表示部24と、画像結果を記憶するための記憶部25と、文字画像再構成処理装置13にて再構成処理された画像や撮像された画像に対して文字認識することができなかった旨のメッセージを送信するとともに、撮像処理装置12により送信された画像を受信する通信処理部26と、通信処理部26にて受信した画像に対して文字領域検出処理又は文字認識処理をより容易にするための画像処理を行う画像処理部27と、通信処理部26にて受信した画像中に文字領域があるか否かを判別する文字領域検出部28と、文字領域検出部28により検出された文字領域の文字列を文字認識する文字認識部29と、これらの各部を制御する制御部30と、バッファ部31から構成されているものである。通信処理部26以外の構成部分については、実施例1で説明したため、ここではこれらの説明は省略する。また、画像結果をオペレータに表示するための表示部24は、図4の文字画像再構成処理装置13にある必要は特になくてもよいものとする。
実施例2における通信処理部20及び通信処理部26は、画像や制御信号を高速にやり取りするために、データ圧縮/伸長機能を備え、また通信データの漏洩を防ぐために何らかの暗号化処理及び暗号化解読処理を付加する構成としてもよい。具体的には、撮像処理部12における通信処理部20は文字画像再構成処理装置13へ送信する対象となる画像データに対して暗号化処理を行い、文字画像再構成処理装置13における通信処理部26はその暗号化されて送信された画像データを解読するために暗号化解読処理を行うように構成してもよい。
次に、実施例2に係る撮像処理装置12の動作について図6を参照して説明する。
図6は、本発明の撮像処理装置12の動作を説明するフローチャートである。オペレータの指示により、入力部15からオペレータの要求する画像領域、画像データを得るための条件、並びに撮像処理装置12による撮像処理及び文字画像再構成処理装置13による画像再構成処理の終了条件が入力されたときに撮像処理装置12はS22以降の処理を開始し(S21のYES)、オペレータの指示により、入力部15からオペレータの要求する画像領域、画像データを得るための条件及び文字認識処理の終了条件が入力されていないとき(S21のNO)、撮像処理装置12はオペレータからの画像領域及び文字認識処理の終了条件の入力指示を待つ。この「撮像処理装置12による撮像処理及び文字画像再構成処理装置13による画像再構成処理の終了条件」とは、実施例1と同様にオペレータが自己の所望する映像をデジタルカメラ等の撮像手段を用いて画像として撮像する対象となる画像領域、画像範囲を得るためにオペレータ自身により入力される又は予め設定されている条件のことである。例えば、撮像部16によりオペレータ自身が所望する同一の範囲の映像を三回撮像し、所定の画像処理を実行して文字領域検出処理をした結果文字領域を検出することができなかったときに撮像部16により撮像された画像には文字領域はないものとして文字認識処理を終了させるという条件である。
図6において、撮像処理装置12は、オペレータによりS21で入力された撮像回数を表わすパラメータnを初期設定する(S22)。制御部21は撮像部16を制御し、オペレータの指示により入力部15において入力された所望の条件に基づいて指定された領域を画像として撮像する(S23)。撮像処理装置12は撮像回数nをインクリメントし(S24)、この撮像した画像を画像データとして記憶部25に記憶する。このとき、オペレータの指示により、画像処理の指示が入力されたとき(S25のYES)、画像処理部19は撮像部16により撮像された画像に対して2値化処理やラベリング処理などの画像処理を行う(S26)。
撮像処理装置12は、S26において画像処理をしたことを示すための識別子を画像処理後の画像データに付与する(S27)。一方、オペレータの指示により、画像処理の指示が入力されていないとき(S25のNO)、撮像処理装置12はこのままS23において撮像した画像データを文字画像再構成処理装置13に送信する(S28)。
次に、実施例2に係る文字画像再構成処理装置13の動作について図7を参照して説明する。
図7は、本発明の文字画像再構成処理装置13の動作を説明するフローチャートである。撮像処理装置12がS28において送信した画像データを受信したときに画像再構成処理を開始し(S31のYES)、撮像処理装置12から画像データを受信していないとき(S31のNO)、文字画像再構成処理装置13は撮像処理装置12からの画像データを受信するまで文字画像再構成処理をせずに待つ。
制御部30は撮像処理装置12により付与された画像処理の識別子の有無に基づき、S31で受信した画像データが撮像処理装置12により2値化処理やラベリング処理などの画像処理がされたか否かを判別する(S32)。この判別の結果、S31で受信した画像データが撮像処理装置12により2値化処理やラベリング処理などの画像処理がされた画像データではないとき(S33のNO)、画像処理部27はS31において撮像処理装置12から受信した画像データに対して2値化処理やラベリング処理などの画像処理を行う(S34)。
一方、S32の判別の結果、制御部30が撮像処理装置12により付与された画像処理の識別子の有無に基づき、S31で受信した画像データが撮像処理装置12により2値化処理やラベリング処理などの画像処理がされた画像データであるとき(S32のYES)、文字領域検出部28は、画像処理部27により2値化処理された原画像(S31で受信した画像データ)、この原画像にラベリング処理した情報、座標の位置、外接矩形の情報及び画像処理部27により画像処理した後の画像データに基づき、S31で受信した画像の中に文字があるか否かを判別するために文字領域の検出を行う(S35)。
この文字領域検出処理の結果、文字領域検出部26はS31で受信した画像に文字を有する文字領域を検出せず、撮像処理装置12におけるS21で入力された撮像処理装置12による撮像処理及び文字画像再構成処理装置13による画像再構成処理の終了条件(例えば、撮像回数nがオペレータによりS21において入力された、文字認識システム11における文字認識処理を終了するための条件を示す値を超えたとき)を満たしたとき(S36のNO、S37のYES)、文字画像再構成処理装置13は、表示部24に、画像処理再構成処理をすることができなかった旨の結果を表示し(S45)、この旨のメッセージを撮像処理装置12に送信し(S46)、文字画像再構成処理装置13の画像再構成処理は終了する。また、文字画像再構成処理装置13は、S45において画像再構成処理をすることができなかった旨の結果を表示しているが、このとき、文字画像再構成処理装置13は文字認識処理を継続するかそれとも文字認識処理を終了するかの判断をオペレータに求めるように構成してもよい。
文字画像再構成処理装置13は、撮像処理装置12による撮像処理及び文字画像再構成処理装置13による画像再構成処理の終了条件(例えば、撮像回数nがオペレータによりS21において入力された、文字認識システム11における文字認識処理を終了するための条件を示す値を超えたとき)を満たしていないとき(S37のNO)、撮像処理装置12に対して再度撮像する旨のメッセージを転送し(S38)、文字画像再構成処理装置13の画像再構成処理は終了する。
S35の文字領域検出処理の結果、文字領域検出部26はS31で受信した画像に文字を有する文字領域を検出したとき(S36のYES)、画像処理部27は、この文字領域を検出した画像データに対し、文字列のスキュー及び文字の解像度を算出する(S39)。制御部30は、画像処理部25がこの算出した文字の解像度が所定の閾値より低いと判定したとき(S40のYES)、S34で文字領域を検出した画像データ全体に対してスキュー除去処理、明度変換処理、彩度変換処理、色相変換処理や当該画像全体の解像度を上げる解像度変換処理を行う(S41)。この「所定の閾値」とは、文字認識システム11に予め設定されている閾値であり、文字領域検出部6が文字領域を検出したときに、その検出した文字領域における文字列の部分を文字認識することができるか否かを判別するために設けられた閾値であり、例えばこの閾値は200dpi(dot per inch)という値であるが、この閾値は特にこの値に限定されない。さらに、上記S41の処理について、本実施例2ではスキュー除去処理、明度変換処理、彩度変換処理、色相変換処理や当該画像全体の解像度を上げる解像度変換処理を行うとしたが、撮像処理装置12で撮像された当該画像全体の解像度を切り替えるという処理がS41で行われるため、これらの処理が総て行われる必要は特になく、これらの処理のうち少なくとも一つが行われるように構成してもよい。
S41による処理が終わると、又はS39にて算出した文字の解像度が所定の閾値よりも高いとき(S40のYES)、文字認識部29はその文字領域に現れている文字列の文字認識を行う(S42)。文字認識部29が検出された文字領域に対して文字認識をすることができなかったとき(S43のNO)、S34で文字領域を検出した画像データ全体に対して線形補間、スプライン補間又は擬似的な高解像度処理等の画像処理を行う(S44)。
文字画像再構成処理装置13は、文字領域の情報と文字認識済みの文字情報とに基づき、S35で検出された文字領域における文字領域をした後(S43のYES)、表示部24に、文字認識処理をすることができた旨及びその最終的な文字認識結果を表示し(S45)、文字画像再構成処理装置13の文字画像再構成処理は終了する。
このように、本発明の実施例2によれば、複数の撮像処理装置12及び単一の文字画像再構成処理装置13により構成される文字認識システム11において、撮像処理装置12は、撮像部16により撮像された画像に対してオペレータの指示があるときは画像処理を行い、画像処理をしたことを表わす識別子を撮像した画像に付与し、この識別子及び画像データを文字画像再構成処理装置13に転送する。文字画像再構成処理装置13は、撮像処理装置12により撮像された画像を受信し、この画像領域における文字領域の存在の有無を検出する。撮像処理装置12で画像処理がされていないと判定したときは、文字画像再構成処理装置13における画像処理部27が画像処理を行う。文字領域検出部28が文字領域を検出することができたとき、文字領域の文字列が文字認識可能な解像度を有しているか否かを判定し、その解像度が所定の閾値を超えているときに文字認識部29は文字認識を行う。その解像度が所定の閾値を超えていないときは、文字認識を行うことができる画像データになるまでさらに画像処理を行った後に、その画像データの文字認識を行う。文字画像再構成処理装置13は、文字認識した結果を撮像処理装置12に転送する。
これにより、デジタルカメラに代表される撮像領域を容易に変更することができる撮像手段を用いて撮像された画面に現れる文字を認識する際に、文字認識処理をする上で問題となっていた文字認識処理の困難性の問題点を解消することができ、撮像した画像に表れる文字列に対して文字認識を容易に行うことができる。
さらに、実施例1における文字認識システム1を撮像処理装置12と文字画像再構成処理装置13とに通信処理部24を介して分離したことにより、撮像処理装置12の小型化を図ることができ、携帯に便利であるという作用効果を奏する。この他、通信処理により二つの処理装置が接続されることにより、これら二つの処理装置の物理的な距離に関する制約が緩和される。
なお、本発明は、上記実施の形態に限定されるものでなく、その要旨を逸脱しない範囲で種々変形して実施できる。例えば、撮像部2により撮像された画像がS10にて画像処理の対象となるのか、又はS11にて文字認識処理の対象となるのかを判定するための「閾値」は、上記実施例1においては文字認識システム1に予め設定されている値であると記載したが、オペレータの指示により、事後的に変更されてもよいものとする。
また、上記実施例2においては、文字画像再構成処理装置13はS42で文字認識した結果を撮像処理装置12に送信すると説明したが、文字画像再構成処理装置13はS42で文字認識した結果を撮像処理装置12に転送せずに、表示部24にその文字認識結果を表示するようにしてもよい。
さらに、撮像処理装置12及び文字画像再構成処理装置13の通信処理部24にタイムシェアリング機能を持たせ、又は複数の撮像部から転送されてくる画像をバッファリングする記憶装置を付加することにより、単一の文字画像再構成処理装置13で複数の撮像処理装置12から転送されてくる複数の画像に対して画像再構成処理を行うことができる。
実施例1に係る文字認識システム1の機能ブロック図。 実施例1に係る文字認識システム1の動作を説明するフローチャート。 実施例2に係る文字認識システム11の構成を示すブロック図。 実施例2に係る撮像処理装置12の機能ブロック図。 実施例2に係る文字画像再構成処理装置13の機能ブロック図。 実施例2に係る撮像処理装置12の動作を説明するフローチャート。 実施例2に係る文字画像再構成処理装置13の動作を説明するフローチャート。
符号の説明
1、11・・・文字認識システム、2、16・・・撮像部、3、15、23・・・入力部、4、17、24・・・表示部、5、20、27・・・画像処理部、6、28・・・文字領域検出部、7、29・・・文字認識部、8、18、25・・・記憶部、9、21、30・・・制御部、10、22、31・・・バッファ部、12・・・撮像処理装置、20、26・・・通信処理部、13・・・文字画像再構成処理装置、14・・・画像蓄積サーバ

Claims (6)

  1. 所定の範囲の領域を撮像し、第1の解像度を有する画像データを出力する画像撮像手段と、
    前記画像撮像手段により撮像された画像データに対して文字列を含む文字領域があるか否かを検出する文字領域検出手段と、
    前記文字領域検出手段により検出された画像データの文字領域における文字列を文字認識する文字認識手段と、
    前記画像データを前記文字認識手段により文字認識するための解像度を有するか否かを判別する画像解像度判別手段と、
    前記画像解像度判別手段により、前記画像データが前記文字認識するための解像度を有しないと判別された場合、前記画像撮像手段により撮像された画像の解像度を前記第1の解像度よりも解像度が高い第2の解像度に変換する画像処理手段とを具備することを特徴とする文字認識システム。
  2. 前記画像処理手段は、前記画像撮像手段により撮像された画像データに対し、明度変換、彩度変換、色相変換のうち少なくとも一つの画像変換を行うことを特徴とする請求項1記載の文字認識システム。
  3. 所定の範囲の領域を撮像し、第1の解像度を有する画像データを出力する画像撮像ステップと、
    前記撮像された画像データに対して文字列を含む文字領域があるか否かを検出する文字領域検出ステップと、
    前記検出された画像データの文字領域における文字列を文字認識する文字認識ステップと、
    前記画像データを前記文字認識するための解像度を有するか否かを判別する画像解像度判別ステップと、
    前記画像解像度判別ステップにより、前記画像データが前記文字認識するための解像度を有しないと判別された場合、前記撮像された画像の解像度を前記第1の解像度よりも解像度が高い第2の解像度に変換する画像処理ステップとを具備することを特徴とする文字認識方法。
  4. 前記画像処理ステップは、前記画像撮像手段により撮像された画像データに対し、明度変換、彩度変換、色相変換のうち少なくとも一つの画像変換を行うことを特徴とする請求項3記載の文字認識方法。
  5. コンピュータに、
    所定の範囲の領域を撮像し、第1の解像度を有する画像データを出力する画像撮像機能と、
    前記撮像された画像データに対して文字列を含む文字領域があるか否かを検出する文字領域検出機能と、
    前記検出された画像データの文字領域における文字列を文字認識する文字認識機能と、
    前記画像データを前記文字認識するための解像度を有するか否かを判別する画像解像度判別機能と、
    前記画像解像度判別機能により、前記画像データが前記文字認識するための解像度を有しないと判別された場合、前記撮像された画像の解像度を前記第1の解像度よりも解像度が高い第2の解像度に変換する画像処理機能とを実現させるための文字認識プログラム。
  6. 前記画像処理機能は、前記画像撮像機能により撮像された画像データに対し、明度変換、彩度変換、色相変換のうち少なくとも一つの画像変換を行うことを特徴とする請求項5記載の文字認識プログラム。
JP2004010391A 2004-01-19 2004-01-19 文字認識システム、文字認識方法及び文字認識プログラム Pending JP2005202834A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004010391A JP2005202834A (ja) 2004-01-19 2004-01-19 文字認識システム、文字認識方法及び文字認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004010391A JP2005202834A (ja) 2004-01-19 2004-01-19 文字認識システム、文字認識方法及び文字認識プログラム

Publications (1)

Publication Number Publication Date
JP2005202834A true JP2005202834A (ja) 2005-07-28

Family

ID=34823126

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004010391A Pending JP2005202834A (ja) 2004-01-19 2004-01-19 文字認識システム、文字認識方法及び文字認識プログラム

Country Status (1)

Country Link
JP (1) JP2005202834A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016192070A (ja) * 2015-03-31 2016-11-10 キヤノンマーケティングジャパン株式会社 情報処理装置と、その処理方法及びプログラム
JPWO2017109998A1 (ja) * 2015-12-25 2018-05-24 株式会社Pfu モバイル端末、画像処理方法、および、プログラム
CN111680688A (zh) * 2020-06-10 2020-09-18 创新奇智(成都)科技有限公司 字符识别方法及装置、电子设备、存储介质
KR20210085742A (ko) * 2019-12-31 2021-07-08 주식회사 서밋코퍼레이션 카메라를 이용하여 촬상한 이미지에 포함된 텍스트의 인식이 가능한 전자장치 및 그 제어방법
KR20220170126A (ko) * 2021-06-22 2022-12-29 한국전력공사 비전 기술을 이용한 트렌드 데이터 추출 장치 및 그 방법

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016192070A (ja) * 2015-03-31 2016-11-10 キヤノンマーケティングジャパン株式会社 情報処理装置と、その処理方法及びプログラム
JPWO2017109998A1 (ja) * 2015-12-25 2018-05-24 株式会社Pfu モバイル端末、画像処理方法、および、プログラム
US10628713B2 (en) 2015-12-25 2020-04-21 Pfu Limited Mobile terminal, image processing method, and computer-readable recording medium
KR20210085742A (ko) * 2019-12-31 2021-07-08 주식회사 서밋코퍼레이션 카메라를 이용하여 촬상한 이미지에 포함된 텍스트의 인식이 가능한 전자장치 및 그 제어방법
KR102316969B1 (ko) * 2019-12-31 2021-10-26 주식회사 서밋코퍼레이션 카메라를 이용하여 촬상한 이미지에 포함된 텍스트의 인식이 가능한 전자장치 및 그 제어방법
CN111680688A (zh) * 2020-06-10 2020-09-18 创新奇智(成都)科技有限公司 字符识别方法及装置、电子设备、存储介质
CN111680688B (zh) * 2020-06-10 2023-08-08 创新奇智(成都)科技有限公司 字符识别方法及装置、电子设备、存储介质
KR20220170126A (ko) * 2021-06-22 2022-12-29 한국전력공사 비전 기술을 이용한 트렌드 데이터 추출 장치 및 그 방법
KR102633287B1 (ko) * 2021-06-22 2024-02-06 한국전력공사 비전 기술을 이용한 트렌드 데이터 추출 장치 및 그 방법

Similar Documents

Publication Publication Date Title
JP4341629B2 (ja) 撮像装置、画像処理方法及びプログラム
JP4556813B2 (ja) 画像処理装置、及びプログラム
WO2013108727A1 (ja) 撮像装置、撮像画像処理システム、プログラムおよび記録媒体
EP1922693B1 (en) Image processing apparatus and image processing method
US7869630B2 (en) Apparatus and method for processing image
JP2010211255A (ja) 撮像装置、画像処理方法及びプログラム
JP2019040617A (ja) 画像処理装置および画像処理方法
US20130076940A1 (en) Photographing apparatus and method of detecting distortion thereof
JP2014123881A (ja) 情報処理装置、情報処理方法、コンピュータプログラム
JP2005202834A (ja) 文字認識システム、文字認識方法及び文字認識プログラム
JP4636786B2 (ja) 撮影画像投影装置、撮影画像投影装置の画像処理方法及びプログラム
JP5819378B2 (ja) 画像判定装置、画像処理システム、プログラム及び記録媒体
JP2007251532A (ja) 撮像装置及び顔領域抽出方法
JP2006211321A (ja) 撮像装置、画像効果付与方法および画像効果付与プログラム
JP2006279460A (ja) 画像処理装置、印刷装置、画像処理方法、および、画像処理プログラム
JP2011118944A (ja) 画像処理装置、印刷装置、画像処理方法、及びコンピュータープログラム
JP4742642B2 (ja) 画像処理装置、印刷装置、画像処理方法、および、画像処理プログラム
JP2007249526A (ja) 撮像装置及びその顔領域抽出方法
US11991449B2 (en) Imaging apparatus capable of changing thinning-out rates for different angles of view
JP4735649B2 (ja) 撮影画像投影装置
JP4770231B2 (ja) 画像処理装置、画像処理方法および、画像処理プログラム
KR100919341B1 (ko) 화상 처리 장치 및 화상 처리 방법
KR20130033946A (ko) 촬상장치 및 이의 왜곡 검출 방법
JP2008090398A (ja) 画像処理装置、印刷装置、画像処理方法、および、画像処理プログラム
JP2012213075A (ja) 画像処理装置及び画像処理プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071016

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080219