JP2012027524A - 画像処理装置、画像処理方法およびそのプログラム - Google Patents

画像処理装置、画像処理方法およびそのプログラム Download PDF

Info

Publication number
JP2012027524A
JP2012027524A JP2010162615A JP2010162615A JP2012027524A JP 2012027524 A JP2012027524 A JP 2012027524A JP 2010162615 A JP2010162615 A JP 2010162615A JP 2010162615 A JP2010162615 A JP 2010162615A JP 2012027524 A JP2012027524 A JP 2012027524A
Authority
JP
Japan
Prior art keywords
image
character
display
image processing
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010162615A
Other languages
English (en)
Inventor
Minako Masubuchi
美奈子 増渕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2010162615A priority Critical patent/JP2012027524A/ja
Publication of JP2012027524A publication Critical patent/JP2012027524A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】光学文字認識処理により読み込んだ文字列と、その元の画像との対応を、ユーザーが容易に把握できる画像を汎用的に生成すること。
【解決手段】文字を含む画像から文字の領域を検出する文字検出部と、検出した領域の文字を認識する文字認識処理部と、検出した領域と、認識した文字の画像とを含む表示用画像を生成する画像処理部とを備え、画像処理部は、検出した領域の表示サイズと、認識した文字の画像の表示サイズとを一致させた表示用画像を生成することを特徴とする画像処理装置。
【選択図】図5

Description

本発明は、画像処理装置、画像処理方法およびそのプログラムに関する。
従来、画面を左右、2つの領域に分割し、OCR(Optical Character Recognition;光学文字認識)処理を行うために取り込んだ画像を左側の領域に表示し、その画像から読み取った文字列を、画像中のその文字列の読取り部分に対応する位置に表示し、読み取った文字列を修正可能とするOCR結果の修正方法がある(例えば、特許文献1)。
また、OCR処理を行うために取り込んだ画像と、その画像から読み取った文字列とを表示し、OCR結果の文字列中の任意の文字を選択すると、取り込んだ画像中の、その文字に対応する領域をユーザーが確認できるように、取り込んだ画像を拡大または縮小するとともに、該当箇所をスクロール表示する文字認識装置がある(例えば、特許文献2、特許文献3)。
特開2001−256433号公報 特開平6−348912号公報 特開平9−27008号公報
しかしながら、従来の技術においては、例えば、特許文献2、3では、対応を把握できるのは、ユーザーが選択した文字と、それに対応する領域のみであるため、全体の対応関係を把握するには、各文字を選択していかなければならず、操作が煩雑になるという問題がある。また、特許文献1では、対応する位置に読み取った文字列を表示しているものの、読み込む画像中で、認識する文字列の位置が決まっていることが前提となっており、汎用的ではないという問題がある。
本発明は、このような事情に鑑みてなされたもので、その目的は、光学文字認識処理により読み込んだ文字列と、その元の画像との対応を、ユーザーが容易に把握できる画像を汎用的に生成する画像処理装置、画像処理方法およびそのプログラムを提供することにある。
(1)この発明は上述した課題を解決するためになされたもので、本発明の画像処理装置は、文字を含む画像から文字の領域を検出する文字検出部と、前記検出した文字の領域の文字を認識する文字認識処理部と、前記検出した文字の領域と、前記認識した文字の画像とを含む表示用画像を生成する画像処理部とを備え、前記画像処理部は、前記検出した文字の領域の表示サイズと、前記認識した文字の画像の表示サイズとを一致させた表示用画像を生成することを特徴とする。
(2)また、本発明の画像処理装置は、上述の画像処理装置であって、前記画像処理部は、前記文字検出部が検出した文字の領域を切り出した画像を生成し、前記切出した画像の表示サイズを、前記認識した文字の画像の表示サイズに一致させて、前記切出した画像と、前記認識した文字の画像とを含む表示用画像を生成することを特徴とする。
(3)また、本発明の画像処理装置は、上述の画像処理装置であって、前記画像処理部は、前記認識した文字の画像を配置した行間隔と一致するように、前記文字の領域を切り出した画像を配置する事を特徴とする。
(4)また、本発明の画像処理装置は、上述の画像処理装置であって、前記画像処理部は、前記文字の領域を切り出した画像を配置した行間隔に一致するように、前記認識した文字の画像を配置する事を特徴とする。
(5)また、本発明の画像処理装置は、上述の画像処理装置であって、前記画像処理部は、前記認識した文字の画像の表示高さを、前記文字の領域を切り出した画像の表示高さに一致させることを特徴とする。
(6)また、本発明の画像処理装置は、上述の画像処理装置であって、前記画像処理部は、前記認識した文字の画像を、前記文字を検出した領域に表示させることを特徴とする。
(7)また、本発明の画像処理装置は、上述の画像処理装置であって、前記画像処理部は、前記認識した文字の画像を表示するか否かを、ユーザーからの文字毎の指示に従い判定することを特徴とする
(8)また、本発明の画像処理方法は、画像処理装置における画像処理方法であって、前記画像処理装置が、文字を含む画像から文字の領域を検出する第1の過程と、前記画像処理装置が、前記検出した文字の領域の文字を認識する第2の過程と、前記画像処理装置が、前記検出した文字の領域と、前記認識した文字の画像とを含む表示用画像を生成する第3の過程とを有し、前記画像処理装置は、前記第2の過程にて、前記検出した文字の領域の表示サイズと、前記認識した文字の画像の表示サイズとを一致させた表示用画像を生成することを特徴とする。
(9)また、本発明のプログラムは、画像処理装置が備えるコンピュータを、文字を含む画像から文字の領域を検出する文字検出部、前記検出した文字の領域の文字を認識する文字認識処理部、前記検出した文字の領域と、前記認識した文字の画像とを含む表示用画像を生成する画像処理部として動作させ、前記画像処理部は、前記検出した文字の領域の表示サイズと、前記認識した文字の画像の表示サイズとを一致させた表示用画像を生成する。
この発明によれば、光学文字認識処理により読み込んだ文字列と、その元の画像との対応を、ユーザーが容易に把握できる画像を汎用的に生成することができる。
この発明の第1の実施形態による携帯電話端末100の構成を示す概略ブロック図である。 第1及び第2の実施形態における撮像部101が出力する画像データG1の例を示す図である。 第1及び第2の実施形態における画像切出し部122が切出した行毎の画像の例を示す図である。 第1及び第2の実施形態における文字配列部121が生成した行毎の画像の例G3を示す図である。 同実施形態における携帯電話端末100の機能構成を示す概略ブロック図である。 同実施形態におけるOCR処理部110の構成を示す概略ブロック図である。 同実施形態における画像処理部120の構成を示す概略ブロック図である。 第1及び第2の実施形態における表示画像生成部124が生成する表示画像データG4の表示例G5を示す図である。 同実施形態における携帯電話端末100の動作を説明するフローチャートである。 同実施形態における行管理処理を説明するフローチャートである。 同実施形態におけるレイアウト定義処理を説明するフローチャートである。 第1及び第2の実施形態における表示部103による表示画像データG4の表示の例G6を示す図である。 第1及び第2の実施形態における表示部103による表示画像データG4の表示の別の例G7を示す図である。 第1及び第2の実施形態における表示部103による表示画像データG4の表示の別の例G8を示す図である。 第1及び第2の実施形態における表示部103による表示画像が画面操作により変わる例を示す図である。 第1及び第2の実施形態における1行の文字数が多いときの表示例を示す図である。 この発明の第2の実施形態における画像処理部120の構成を示す概略ブロック図である。 同実施形態におけるレイアウト定義処理を説明するフローチャートである。 同実施形態における表示部103による表示例G10を示す図である。 同実施形態における表示部103による別の表示例G11を示す図である。 同実施形態における表示部103による別の表示例G12を示す図である。
[第1の実施形態]
以下、図面を参照して、本発明の第1の実施形態について説明する。図1は、この発明の第1の実施形態による携帯電話端末100の構成を示す概略ブロック図である。本実施形態における携帯電話端末100は、撮像部101、操作部102、表示部103、CPU(Central Processing Unit;中央演算処理装置)104、メモリ部105、通信部106を備え、これらがバス107で接続されている。撮像部101は、CCD(Charge Coupled Device)イメージ素子や、CMOS(Complementary Metal Oxide Semiconductor)イメージ素子などの固体撮像素子と、固体撮像素子の撮像面に被写体の像を結像させるレンズなどとを備え、被写体を撮像した撮像画像の画像データを生成する。操作部102は、シャッターボタン、4方向キー、選択キー、表示部103の表面に備えられたタッチパネルを備え、携帯電話端末100を操作するための操作入力を受け付ける。表示部103は、液晶パネル、有機EL(Electro-Luminescence)などの画像を表示する表示デバイスである。
CPU104は、携帯電話端末100の各部を制御する。メモリ部105は、RAM(Random Access Memory)、ROM(Read Only Memory)を備える。メモリ部105のROMは、CPU104を動作させるためのプログラムを記憶する。CPU104は、メモリ部105のRAMをワーキングメモリとして用い、メモリ部105が記憶するプログラムを読み込み、実行する。通信部106は、携帯電話網と無線通信する。
図2は、撮像部101が出力する画像データG1の例を示す図である。図2に示す画像データG1は、レシートを撮像した画像の画像データであり、レシートには、店名、電話番号などのあとに、行毎に商品名と値段が記載されている。
図3は、画像データG1から画像切出し部122が切出した行毎の画像の例を示す図である。図3に示すように、画像切出し部122が切出した画像の各々は商品名と値段とを示す画像である。なお、本実施形態では、レシートのうち、商品名と値段とをOCR処理の対象とし、その他の店名、電話番号などについては、省略する。
図4は、文字配列部121が生成した行毎の画像の例G3を示す図である。図4に示すように、文字配列部121が生成した画像の各々は、商品名と値段とを示す画像である。
図5は、携帯電話端末100の機能構成を示す概略ブロック図である。携帯電話端末100は、撮像部101、操作部102、表示部103、OCR(Optical Character Reader;光学文字認識)処理部110、画像処理部120を備える。操作部102は、そのシャッターボタンが押されると、撮像部101に撮像指示の信号O1を出力する。また、操作部102は、4方向キーやタッチパネルを用いた操作入力に従い、画像処理部120に画面操作指示の信号O2を出力する。撮像部101は、撮像した画像の画像データG1(図2)をOCR処理部110と画像処理部120とに出力する。OCR処理部110は、画像データG1に対してOCR処理を行い、画像データG1中の文字を認識し、OCR認識結果Cとして、文字を検出した領域を示す文字切出しデータC1と、認識した文字を示す文字認識結果データC2とを出力する。画像処理部120は、画像データG1と、OCR認識結果Cとから撮像画像と認識した文字とをユーザーが比較可能な表示画像データG4を生成し表示部103に表示させる。なお、OCR処理部110および画像処理部120は、メモリ部105が記憶するプログラムをCPU104が読み込んで実行することで実現する。
図6は、OCR処理部110の構成を示す概略ブロック図である。OCR処理部110は、文字切出し処理部111、行管理部112、文字認識部113を備える。
文字切出し処理部111は、画像データG1中の文字各々を含む矩形領域を検出し、その矩形領域を表す座標(例えば、左上と右下の頂点の座標)である文字切り出しデータC1を出力する。管理部112は、文字切出しデータC1に基づき、文字各々について、行頭あるいは行末であるかを判定し、文字切出しデータとともに判定結果を文字切り出しデータC1に追加する。文字認識部113は、文字切出しデータが表す領域各々の文字を認識し、認識した文字を表すコードを文字認識結果データC2として出力する。なお、文字認識部113は、文字の認識に失敗したときは、文字認識結果データC2として、認識に失敗したことを示すコードを出力する。
図7は、画像処理部120の構成を示す概略ブロック図である。画像処理部120は、文字配列部121、画像切出し部122、画像サイズ変換部123、表示画像生成部124を備える。文字配列部121は、OCR認識結果C中の文字認識結果データC2に基づき、認識した文字の行毎の画像(図4のG3a、G3b、G3c、G3d、G3e、G3f)を生成する。なお、このとき、使用するフォントは予め決められたサイズのフォントであって、メモリ部105が記憶するフォントを使用する。画像切出し部122は、OCR認識結果C中の文字切出しデータC1を用いて、画像データG1から行毎の画像(図3のG2a、G2b、G2c、G2d、G2e、G2f)を切出す。
画像サイズ変換部123は、文字配列部121が生成する行毎の画像(例えば、図4のG3a)と表示サイズが一致するように、画像切出し部122が切出した行毎の画像(例えば、図3のG2a) のサイズを変換する。より具体的には、文字配列部121が生成する行毎の画像(図4のG3a、G3b、G3c、G3d、G3e、G3f)を配置した際の行間隔(例えば、図4のG3aとG3bの行間隔)に、切出した行毎の画像を配置した際の行間隔(例えば、図3のG2aとG2bの行間隔)が一致するように、画像切出し部122が切出した行毎の画像を拡大あるいは縮小する。ここで、行間隔とは、行の始まりから次の行の始まりまでの行方向と垂直な方向(ここでは、縦方向)の長さである。例えば、図3のG2aの左上の頂点からG2bの左上の頂点までの長さである。表示画像生成部124は、文字配列部121および画像変換部123が生成した行毎の画像を配置した表示画像データG4を生成する。
図8は、表示画像生成部124が生成する表示画像データG4の表示例G5を示す図である。表示例G5の左側の領域G5aには、画像サイズ変換部123が生成した行毎の画像(図3のG2a、G2b、G2c、G2d、G2e、G2f)が配置され、右側の領域G5bには、文字配列部121が生成した行毎の画像(図4のG3a、G3b、G3c、G3d、G3e、G3f)が配置されている。この様に、表示画像生成部124は、表示画像データG4を生成する。このとき、操作部102からの画面操作指示の信号O2に従い、表示画像データG4に含める行を選択する。
このように、画像サイズ変換部123が生成した画像と、文字配列部121が生成した画像の行間隔を同じにしているので、図8に例示するように、画像サイズ変換部123が生成した画像G5a、文字配列部121が生成した画像G5bを左右に並べて表示することができる。このため、ユーザーは、撮像した画像と、そこから認識した文字列との比較を容易に行うことができる。
図9は、携帯電話端末100の動作を説明するフローチャートである。まず、操作部102のシャッターボタンが押されるなどして、撮像部101が、カメラ撮影を行い、画像データG1を出力する(S1)。次に、文字切出し処理部111が、画像データG1から、1文字分の領域を切出し、切出し文字データを生成する(S2)。次に、行管理部112が、行管理処理を行い、切出し文字データの示す領域について、行頭あるいは行末であるかを判定する(S3)。行管理処理の詳細については、後述する。次に、文字認識部113が、切出し文字データが示す文字の領域について文字認識処理を行い、文字認識結果データを生成する(S4)。次に、切出し文字データと、文字認識結果データをメモリ105に記憶する(S5)。
画像データG1の全ての文字の領域についての処理が終わっていないときは、ステップS2に戻って、処理を繰り返す(S6)。また、1枚の画像データにOCR処理対象が納まらず、さらにカメラ撮影を続けて行うときは、ステップS1に戻る(S7)。次に、撮像した画像とOCR結果とを比較可能な画像のレイアウトを決定するレイアウト定義処理を行う(S8)。なお、レイアウト定義処理の詳細については、後述する。表示画像生成部124は、レイアウト定義処理によって決定したレイアウトに従い、表示画像データG4を生成し、表示部103に表示させる(S9)。ユーザーによる画面操作の入力がなければ、処理を終了する(S10)。画面操作の入力があるときは、画面操作の入力を受け付け(S11)、ステップS9に戻って、表示画像生成部124は、画面操作による指示に従い、表示画像データG4を新たに生成して、表示部103に表示させる。画面操作の入力としては、4方向キーやタッチパネルによるスクロールの指示などがある。
図10は、ステップS3の行管理処理を説明するフローチャートである。行管理部112は、切出し文字データを、一つ選択する(S21)。次に、行管理部112は、選択した切出し文字データが行頭であるか否かを判定する(S22)。ここで、座標系として、画像の左上を原点とし、X軸を右方向に、Y軸を下方向にとった座標系を用いる。例えば、行管理部112は、左上頂点のX座標の値が前の文字よりも小さければ、行頭であると判定する。行頭であると判定したときは(S22−Y)、ステップS23にて、選択している切出し文字データに行頭であることを示す行頭情報を付加する。次に、行管理部112は、選択した切出し文字データが行末であるか否かを判定する(S24)。例えば、行管理部112は、左上頂点のX座標の値が次の文字よりも大きければ、行末であると判定する。行末であると判定したときは(S24−Y)、ステップS25にて、選択している切出し文字データに行末であることを示す行末情報を付加する。全ての切出し文字データについて行管理処理をしているときは(S26−Y)、処理を終了し、未処理の切出し文字データがあるときは(S26−N)、ステップS21に戻って、次の切出し文字データを選択する。
図11は、ステップS8のレイアウト定義処理を説明するフローチャートである。まず、カウンタNを初期化する(S31)。次に、カウンタNの値を1増加させる(S32)。画像切出し部122は、切出し文字データの座標を用いて、N行目の画像を画像データG1から切出す(S33)。このとき切出す画像は、N行目の行頭の左上頂点と、N行目の行末の右下頂点とを、それぞれ左上頂点、右下頂点とする矩形領域である。次に、画像サイズ変換部123は、画像切出し部122が切出した画像の高さが、認識結果の文字表示の文字高さと同じになるように、切出した画像を拡大または縮小する(S34)。表示画像生成部124は、画像サイズ変換部123が生成した画像を、画面左側のN行目の位置に配置する(S35)。また、N行目の認識結果の文字を、画面右側のN行目の位置に配置する(S36)。カウンタNの値が、最終行の値と一致するときは、レイアウト定義処理を終了し(S37−Yes)、一致しないときは、ステップS32に戻って、次の行の処理をする。
図12は、表示部103による表示画像データG4の表示の例G6を示す図である。図12において、網掛けの違いは色の違いを示す。図12に示すように、表示画像生成部124は、行G6a〜G6f毎に異なる色を付すことで、行の違いをユーザーが容易に識別できるようにすることができる。なお、図12は、行毎に異なる色としたが、隣接する行で異なる色となっていればよく、例えば、2色を交互に付すようにしてもよい。
図13は、表示部103による表示画像データG4の表示の別の例G7を示す図である。図13において、網掛けの違いは色の違いを示す。図13に示すように、表示画像生成部124は、撮像画像から切出した行の画像と、その画像に対応する認識した文字の画像とを、結びつけるマークM1を付し、該マークに行毎に異なる色を付すことで、行の違いをユーザーが容易に識別できるようにすることができる。なお、図13は、行毎に異なる色としたが、隣接する行で異なる色となっていればよく、例えば、2色を交互に付すようにしてもよい。
図14は、表示部103による表示画像データG4の表示の別の例G8を示す図である。上述の第1の実施形態では、表示画像生成部124は、画像サイズ変換部123が生成した画像を左側に、文字配列部121が生成した画像を右側に配置したが、表示部103が縦長の場合などには、例えば画像サイズ変換部123が生成した画像(撮像画像)を上側に、文字配列部121が生成した画像(認識結果)を下側に配置するようにしてもよい。この場合は、画像サイズ変換部123は、撮像画像の高さを文字の高さに合わせるのではなく、撮像画像の横幅を、認識結果を表示する領域の横幅に合わせるように拡大または縮小する。
また、図14に示すように、上側(撮像画像)のいずれかの行が、4方向キーまたはタッチパネルにより選択されると、選択された行M2と、その行に対応する下側(認識結果)の行M3とを強調表示しているので、ユーザーが行の対応を容易に認識できる。また、下側のいずれかの行が、選択されると、選択された行と、その行に対応する上側の行とが強調表示されるようにしてもよい。なお、図12に示したように、行毎に異なる色を付して、ユーザーが行の対応を容易に認識できるようにしてもよい。
図15は、表示部103による表示画像が画面操作により変わる例を示す図である。例えば、4方向キーのうちの下方向キーを押下されたとき、あるいは、タッチパネルに対して上方向のスライド操作をされたときは、表示画像を上方向にスクロールさせ、スクロール前に強調表示していた行と、同じ位置に表示される行を強調表示させる。図15の表示画像G9aからG9bに変わる例では、上方向にスクロールして、表示用画像G9aでは「黒豆 ¥890」を強調表示していたが、表示用画像G9bでは、その下の行の「レンコン ¥498」を強調表示する。
図16は、1行の文字数が多いときの表示例を示す図である。例えば、「イカルガのうそん牛乳 ¥198」という行があり、文字数が多いために画面に入りきらないときは、該当する行のみを左方向にスクロールさせる。このとき、左側の撮像画像と、右側の認識結果とを、それぞれ別々にスクロールさせる。ただし、スクロールの周期は、左側の撮像画像と、右側の認識結果とで同じにすることで、同時に画面に表示されている範囲を同じにすることができる。
このように、撮像画像から切出した画像の高さを、認識結果の文字の高さと一致させているので、撮像画像から切出した画像の横に、対応する認識結果の文字が表示され、光学文字認識処理による認識結果の文字列と、その元の撮像画像との対応を、ユーザーが容易に把握できる画像を汎用的に生成することができる。
[第2の実施形態]
以下、図面を参照して、本発明の第2の実施形態について説明する。本実施形態における携帯電話端末は、図5における携帯電話端末100の構成と表示は第一の実施形態と同様であるが、画像処理部120の構成が異なる。図17は、本実施形態における画像処理部120の構成を示す概略ブロック図である。本実施形態における画像処理部120は、文字サイズ決定部131、文字配列部121a、画像サイズ変換部123a、表示画像生成部124aを備える。画像サイズ変換部123aは、画像データG1を、予め設定された撮像画像表示用領域(ここでは、表示部103の左側半分、例えば、図8のG5a)のサイズに合うように、拡大または縮小する。なお、このとき、画像データG1の横幅が撮像画像表示用領域と一致するようにしてもよいし、高さが一致するようにしてもよい。
文字サイズ決定部131は、画像サイズ変換部123aによる拡大または縮小の倍率に従い、文字切出しデータを拡大または縮小したサイズに合うように、文字サイズを決定する。例えば、文字切出しデータを拡大また縮小したときの高さと一致する高さの文字サイズを選択する。これにより、認識結果の文字を配置した際の行間隔を、画像サイズ変換部123aにより拡大または縮小された画像データG1中の文字を検出した領域の行間隔に一致させる。文字配列部121aは、文字サイズ決定部131が決定した文字サイズで、認識結果の文字を行毎に配置した画像を生成する。表示画像生成部124aは、画像サイズ変換部123aが拡大または縮小して生成した画像(例えば、図8のG5a)を左側に配置し、文字配列部121aが生成した画像(例えば、図8のG5b)を右側に配置した表示画像データG4(例えば、図8のG5)を生成する。
本実施形態における携帯電話端末100の動作は、図9に示すフローチャートと同様であるが、ステップS8のレイアウト定義処理のみが異なる。図18は、本実施形態におけるレイアウト定義処理を説明するフローチャートである。まず、画像サイズ変換部123aが、画像データG1(撮像画像)を撮像画像表示用領域のサイズに合うようにリサイズ(拡大または縮小)し、表示用撮像画像を生成する(S41)。次に、カウンタNを0に、初期化する(S42)。次に、カウンタNを、1カウントアップする(S43)。次に文字サイズ決定部131が、N行目の文字切出しデータと、画像サイズ変換部123aによるリサイズ時の倍率とに基づき、表示用撮像画像のN行目の文字高さを算出する(S44)。次に、文字サイズ決定部131が、N行目とN+1行目の文字切出しデータと、リサイズ時の倍率とに基づき、N行目とN+1行目の行間隔を算出する(S45)。
文字サイズ決定部131は、ステップS44にて算出した文字高さと同じ文字サイズを決定する。文字配列部121aは、N−1行目の表示位置と行間隔とから、N行目の表示位置を決定し、その表示位置に、決定された文字サイズで、N行目の認識結果の文字列を配置する(S46)。N行目が最終行であれば(S47−Yes)、処理を終了し、最終行でなければ(S47−No)、ステップS43に戻って、次の行について処理を行う。
図19は、本実施形態における表示部103による表示例G10を示す図である。図19に示すように表示例G10の左側の領域G10aには、撮像画像をリサイズした表示用撮像画像が配置され、右側の領域G10bには、認識結果の文字が配置されている。認識結果の文字は、表示用撮像画像の文字高さと、行間隔とに合わせて表示されているので、表示用撮像画像中の対応する文字を、ユーザーは容易に識別することができる。
図20は、本実施形態における表示部103による別の表示例G11を示す図である。表示例G11では、表示用撮像画像のうち、文字を検出した領域に、認識結果の文字が重ねて表示されている。すなわち、認識結果の文字により隠れているため、表示用撮像画像中の対応する文字の画像は見えない。しかし、表示例G11の「にんじん」のように、認識に失敗しているときは、認識結果の文字コードは、認識失敗を表す文字コードとなっているので、認識結果の文字を表示せずに、表示用撮像画像を表示する。また、図21の表示例G12中の「達巻」のように、タッチパネルを操作して、認識結果の文字を選択すると、表示用撮像画像を表示するようにしてもよい。この場合、選択を解除すると、表示は元に戻る。すなわち、表示画像生成部124aは、認識結果の文字の画像を表示するか否かを、ユーザーからの文字毎の指示に従い判定する。
このように、認識結果の文字の高さを、撮像画像中の文字の高さと一致させているので、撮像画像中の文字の横に、対応する認識結果の文字が表示され、光学文字認識処理による認識結果の文字列と、その元の撮像画像との対応を、ユーザーが容易に把握できる画像を汎用的に生成することができる。
なお、上述の第1および第2の実施形態において、画像処理装置として、携帯電話端末100を挙げたが、PDA(Personal Digital Assistance)、デジタルカメラ、デジタルメディアプレーヤー、パーソナルコンピューターなどであってもよい。また、撮像部101を備えず、USB(登録商標:Universal Serial Bus)端子などの通信端子を介して、外部から画像データを受信するようにしてもよいし、SDカードなどの記憶媒体から画像データを読み出すようにしてもよい。また。表示部103を備えず、HDMI(登録商標:High-Definition Multimedia Interface)端子などの通信端子を介して、外部の表示装置に画像データを出力するようにしてもよい。
また、上述の第1および第2の実施形態において、横書きの場合を例にし、行は横方向であるとして説明したが、縦書きであってもよい。その場合、行は縦方向であり、行間隔は、行の始まりから次の行の始まりまでの横方向の長さである。
また、図5におけるOCR処理部110、画像処理部120の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、この発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。
100…携帯電話端末
101…撮像部
102…操作部
103…表示部
104…CPU
105…メモリ部
106…通信部
107…バス
110…OCR処理部
111…文字切出し処理部
112…行管理部
113…文字認識部
120…画像処理部
121、121a…文字配列部
122…画像切出し部
123、123a…画像サイズ変換部
124、124a…表示画像生成部
131…文字サイズ決定部

Claims (9)

  1. 文字を含む画像から文字の領域を検出する文字検出部と、
    前記検出した文字の領域の文字を認識する文字認識処理部と、
    前記検出した文字の領域と、前記認識した文字の画像とを含む表示用画像を生成する画像処理部と
    を備え、
    前記画像処理部は、前記検出した文字の領域の表示サイズと、前記認識した文字の画像の表示サイズとを一致させた表示用画像を生成すること
    を特徴とする画像処理装置。
  2. 前記画像処理部は、前記文字検出部が検出した文字の領域を切り出した画像を生成し、前記切出した画像の表示サイズを、前記認識した文字の画像の表示サイズに一致させて、前記切出した画像と、前記認識した文字の画像とを含む表示用画像を生成することを特徴とする請求項1に記載の画像処理装置。
  3. 前記画像処理部は、前記認識した文字の画像を配置した行間隔と一致するように、前記文字の領域を切り出した画像を配置する事を特徴とする請求項2に記載の画像処理装置。
  4. 前記画像処理部は、前記文字の領域を切り出した画像を配置した行間隔に一致するように、前記認識した文字の画像を配置する事を特徴とする請求項1に記載の画像処理装置。
  5. 前記画像処理部は、前記認識した文字の画像の表示高さを、前記文字の領域を切り出した画像の表示高さに一致させることを特徴とする請求項1に記載の画像処理装置。
  6. 前記画像処理部は、前記認識した文字の画像を、前記文字を検出した領域に表示させることを特徴とする請求項4に記載の画像処理装置。
  7. 前記画像処理部は、前記認識した文字の画像を表示するか否かを、ユーザーからの文字毎の指示に従い判定することを特徴とする請求項6に記載の画像処理装置。
  8. 画像処理装置における画像処理方法であって、
    前記画像処理装置が、文字を含む画像から文字の領域を検出する第1の過程と、
    前記画像処理装置が、前記検出した文字の領域の文字を認識する第2の過程と、
    前記画像処理装置が、前記検出した文字の領域と、前記認識した文字の画像とを含む表示用画像を生成する第3の過程と を有し、
    前記画像処理装置は、前記第2の過程にて、前記検出した文字の領域の表示サイズと、前記認識した文字の画像の表示サイズとを一致させた表示用画像を生成すること
    を特徴とする画像処理方法。
  9. 画像処理装置が備えるコンピュータを、
    文字を含む画像から文字の領域を検出する文字検出部、
    前記検出した文字の領域の文字を認識する文字認識処理部、
    前記検出した文字の領域と、前記認識した文字の画像とを含む表示用画像を生成する画像処理部 として動作させ、
    前記画像処理部は、前記検出した文字の領域の表示サイズと、前記認識した文字の画像の表示サイズとを一致させた表示用画像を生成する、
    プログラム。
JP2010162615A 2010-07-20 2010-07-20 画像処理装置、画像処理方法およびそのプログラム Pending JP2012027524A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010162615A JP2012027524A (ja) 2010-07-20 2010-07-20 画像処理装置、画像処理方法およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010162615A JP2012027524A (ja) 2010-07-20 2010-07-20 画像処理装置、画像処理方法およびそのプログラム

Publications (1)

Publication Number Publication Date
JP2012027524A true JP2012027524A (ja) 2012-02-09

Family

ID=45780411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010162615A Pending JP2012027524A (ja) 2010-07-20 2010-07-20 画像処理装置、画像処理方法およびそのプログラム

Country Status (1)

Country Link
JP (1) JP2012027524A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017045363A (ja) * 2015-08-28 2017-03-02 沖電気工業株式会社 端末装置及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63204487A (ja) * 1987-02-20 1988-08-24 Nippon Telegr & Teleph Corp <Ntt> 文字読取方法
JPH08161436A (ja) * 1994-12-06 1996-06-21 Toshiba Corp 領収書読取装置
JPH1021326A (ja) * 1996-06-28 1998-01-23 Ricoh Co Ltd 認識結果表示方法および文字認識システムおよび情報記録媒体
JPH10222686A (ja) * 1997-02-07 1998-08-21 Canon Inc 文字処理装置及び文字処理方法
JP2001256433A (ja) * 2000-03-10 2001-09-21 Mitsubishi Electric Corp Ocr認識結果修正方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63204487A (ja) * 1987-02-20 1988-08-24 Nippon Telegr & Teleph Corp <Ntt> 文字読取方法
JPH08161436A (ja) * 1994-12-06 1996-06-21 Toshiba Corp 領収書読取装置
JPH1021326A (ja) * 1996-06-28 1998-01-23 Ricoh Co Ltd 認識結果表示方法および文字認識システムおよび情報記録媒体
JPH10222686A (ja) * 1997-02-07 1998-08-21 Canon Inc 文字処理装置及び文字処理方法
JP2001256433A (ja) * 2000-03-10 2001-09-21 Mitsubishi Electric Corp Ocr認識結果修正方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017045363A (ja) * 2015-08-28 2017-03-02 沖電気工業株式会社 端末装置及びプログラム

Similar Documents

Publication Publication Date Title
US10248878B2 (en) Character input method and system as well as electronic device and keyboard thereof
JPH10240220A (ja) 注釈表示機能を持つ情報処理機器
JPWO2007004489A1 (ja) 画像処理装置及び画像処理方法
US9996516B2 (en) Image processing device for determining a display position of an annotation
TW201305925A (zh) 手寫文字輸入裝置及手寫文字輸入方法
JP2015158900A (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2012169996A (ja) 画像処理装置およびこれを備えた原稿読取システム
JP5991538B2 (ja) データ処理装置、データ処理システム及びプログラム
JP4177325B2 (ja) 画像処理装置、画像処理プログラム及び画像処理方法
JP2012027524A (ja) 画像処理装置、画像処理方法およびそのプログラム
JP7241506B2 (ja) 光学式文字認識結果の修正支援装置および修正支援用プログラム
JP2020017149A (ja) 情報処理装置及び情報処理方法
JP3484092B2 (ja) ポインティングシステム
JP2004102320A (ja) 帳票処理装置、帳票処理方法、及びその方法をコンピュータに行わせるプログラム
US20090166441A1 (en) Method for automatically rectifying business card presentation angle
JP6155893B2 (ja) 画像処理装置、及びプログラム
JP5243228B2 (ja) 文字認識装置、文字認識装置の確認画面生成方法
JP3895343B2 (ja) 画像表示制御装置
JP2012226085A (ja) 電子機器、制御方法、および制御プログラム
US10891021B2 (en) Dynamic variation for selection option information presentation
JP2016009434A (ja) 情報コード読取方法、及び情報コード読取装置
JP4765312B2 (ja) 画像処理装置および画像処理プログラム
JP2005055973A (ja) 携帯情報端末
JP7271889B2 (ja) 情報処理装置及びプログラム
JP2019211595A (ja) 表示制御装置、プログラム及び表示システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130401

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140401

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140523

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20141028