JP2012027524A

JP2012027524A - 画像処理装置、画像処理方法およびそのプログラム

Info

Publication number: JP2012027524A
Application number: JP2010162615A
Authority: JP
Inventors: Minako Masubuchi; 美奈子増渕
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2010-07-20
Filing date: 2010-07-20
Publication date: 2012-02-09

Abstract

【課題】光学文字認識処理により読み込んだ文字列と、その元の画像との対応を、ユーザーが容易に把握できる画像を汎用的に生成すること。
【解決手段】文字を含む画像から文字の領域を検出する文字検出部と、検出した領域の文字を認識する文字認識処理部と、検出した領域と、認識した文字の画像とを含む表示用画像を生成する画像処理部とを備え、画像処理部は、検出した領域の表示サイズと、認識した文字の画像の表示サイズとを一致させた表示用画像を生成することを特徴とする画像処理装置。
【選択図】図５

Description

本発明は、画像処理装置、画像処理方法およびそのプログラムに関する。

従来、画面を左右、２つの領域に分割し、ＯＣＲ（Optical Character Recognition；光学文字認識）処理を行うために取り込んだ画像を左側の領域に表示し、その画像から読み取った文字列を、画像中のその文字列の読取り部分に対応する位置に表示し、読み取った文字列を修正可能とするＯＣＲ結果の修正方法がある（例えば、特許文献１）。
また、ＯＣＲ処理を行うために取り込んだ画像と、その画像から読み取った文字列とを表示し、ＯＣＲ結果の文字列中の任意の文字を選択すると、取り込んだ画像中の、その文字に対応する領域をユーザーが確認できるように、取り込んだ画像を拡大または縮小するとともに、該当箇所をスクロール表示する文字認識装置がある（例えば、特許文献２、特許文献３）。

特開２００１−２５６４３３号公報特開平６−３４８９１２号公報特開平９−２７００８号公報

しかしながら、従来の技術においては、例えば、特許文献２、３では、対応を把握できるのは、ユーザーが選択した文字と、それに対応する領域のみであるため、全体の対応関係を把握するには、各文字を選択していかなければならず、操作が煩雑になるという問題がある。また、特許文献１では、対応する位置に読み取った文字列を表示しているものの、読み込む画像中で、認識する文字列の位置が決まっていることが前提となっており、汎用的ではないという問題がある。

本発明は、このような事情に鑑みてなされたもので、その目的は、光学文字認識処理により読み込んだ文字列と、その元の画像との対応を、ユーザーが容易に把握できる画像を汎用的に生成する画像処理装置、画像処理方法およびそのプログラムを提供することにある。

（１）この発明は上述した課題を解決するためになされたもので、本発明の画像処理装置は、文字を含む画像から文字の領域を検出する文字検出部と、前記検出した文字の領域の文字を認識する文字認識処理部と、前記検出した文字の領域と、前記認識した文字の画像とを含む表示用画像を生成する画像処理部とを備え、前記画像処理部は、前記検出した文字の領域の表示サイズと、前記認識した文字の画像の表示サイズとを一致させた表示用画像を生成することを特徴とする。

（２）また、本発明の画像処理装置は、上述の画像処理装置であって、前記画像処理部は、前記文字検出部が検出した文字の領域を切り出した画像を生成し、前記切出した画像の表示サイズを、前記認識した文字の画像の表示サイズに一致させて、前記切出した画像と、前記認識した文字の画像とを含む表示用画像を生成することを特徴とする。

（３）また、本発明の画像処理装置は、上述の画像処理装置であって、前記画像処理部は、前記認識した文字の画像を配置した行間隔と一致するように、前記文字の領域を切り出した画像を配置する事を特徴とする。

（４）また、本発明の画像処理装置は、上述の画像処理装置であって、前記画像処理部は、前記文字の領域を切り出した画像を配置した行間隔に一致するように、前記認識した文字の画像を配置する事を特徴とする。

（５）また、本発明の画像処理装置は、上述の画像処理装置であって、前記画像処理部は、前記認識した文字の画像の表示高さを、前記文字の領域を切り出した画像の表示高さに一致させることを特徴とする。

（６）また、本発明の画像処理装置は、上述の画像処理装置であって、前記画像処理部は、前記認識した文字の画像を、前記文字を検出した領域に表示させることを特徴とする。

（７）また、本発明の画像処理装置は、上述の画像処理装置であって、前記画像処理部は、前記認識した文字の画像を表示するか否かを、ユーザーからの文字毎の指示に従い判定することを特徴とする

（８）また、本発明の画像処理方法は、画像処理装置における画像処理方法であって、前記画像処理装置が、文字を含む画像から文字の領域を検出する第１の過程と、前記画像処理装置が、前記検出した文字の領域の文字を認識する第２の過程と、前記画像処理装置が、前記検出した文字の領域と、前記認識した文字の画像とを含む表示用画像を生成する第３の過程とを有し、前記画像処理装置は、前記第２の過程にて、前記検出した文字の領域の表示サイズと、前記認識した文字の画像の表示サイズとを一致させた表示用画像を生成することを特徴とする。

（９）また、本発明のプログラムは、画像処理装置が備えるコンピュータを、文字を含む画像から文字の領域を検出する文字検出部、前記検出した文字の領域の文字を認識する文字認識処理部、前記検出した文字の領域と、前記認識した文字の画像とを含む表示用画像を生成する画像処理部として動作させ、前記画像処理部は、前記検出した文字の領域の表示サイズと、前記認識した文字の画像の表示サイズとを一致させた表示用画像を生成する。

この発明によれば、光学文字認識処理により読み込んだ文字列と、その元の画像との対応を、ユーザーが容易に把握できる画像を汎用的に生成することができる。

この発明の第１の実施形態による携帯電話端末１００の構成を示す概略ブロック図である。第１及び第２の実施形態における撮像部１０１が出力する画像データＧ１の例を示す図である。第１及び第２の実施形態における画像切出し部１２２が切出した行毎の画像の例を示す図である。第１及び第２の実施形態における文字配列部１２１が生成した行毎の画像の例Ｇ３を示す図である。同実施形態における携帯電話端末１００の機能構成を示す概略ブロック図である。同実施形態におけるＯＣＲ処理部１１０の構成を示す概略ブロック図である。同実施形態における画像処理部１２０の構成を示す概略ブロック図である。第１及び第２の実施形態における表示画像生成部１２４が生成する表示画像データＧ４の表示例Ｇ５を示す図である。同実施形態における携帯電話端末１００の動作を説明するフローチャートである。同実施形態における行管理処理を説明するフローチャートである。同実施形態におけるレイアウト定義処理を説明するフローチャートである。第１及び第２の実施形態における表示部１０３による表示画像データＧ４の表示の例Ｇ６を示す図である。第１及び第２の実施形態における表示部１０３による表示画像データＧ４の表示の別の例Ｇ７を示す図である。第１及び第２の実施形態における表示部１０３による表示画像データＧ４の表示の別の例Ｇ８を示す図である。第１及び第２の実施形態における表示部１０３による表示画像が画面操作により変わる例を示す図である。第１及び第２の実施形態における１行の文字数が多いときの表示例を示す図である。この発明の第２の実施形態における画像処理部１２０の構成を示す概略ブロック図である。同実施形態におけるレイアウト定義処理を説明するフローチャートである。同実施形態における表示部１０３による表示例Ｇ１０を示す図である。同実施形態における表示部１０３による別の表示例Ｇ１１を示す図である。同実施形態における表示部１０３による別の表示例Ｇ１２を示す図である。

［第１の実施形態］
以下、図面を参照して、本発明の第１の実施形態について説明する。図１は、この発明の第１の実施形態による携帯電話端末１００の構成を示す概略ブロック図である。本実施形態における携帯電話端末１００は、撮像部１０１、操作部１０２、表示部１０３、ＣＰＵ（Central Processing Unit；中央演算処理装置）１０４、メモリ部１０５、通信部１０６を備え、これらがバス１０７で接続されている。撮像部１０１は、ＣＣＤ（Charge Coupled Device）イメージ素子や、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）イメージ素子などの固体撮像素子と、固体撮像素子の撮像面に被写体の像を結像させるレンズなどとを備え、被写体を撮像した撮像画像の画像データを生成する。操作部１０２は、シャッターボタン、４方向キー、選択キー、表示部１０３の表面に備えられたタッチパネルを備え、携帯電話端末１００を操作するための操作入力を受け付ける。表示部１０３は、液晶パネル、有機ＥＬ（Electro-Luminescence）などの画像を表示する表示デバイスである。

ＣＰＵ１０４は、携帯電話端末１００の各部を制御する。メモリ部１０５は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）を備える。メモリ部１０５のＲＯＭは、ＣＰＵ１０４を動作させるためのプログラムを記憶する。ＣＰＵ１０４は、メモリ部１０５のＲＡＭをワーキングメモリとして用い、メモリ部１０５が記憶するプログラムを読み込み、実行する。通信部１０６は、携帯電話網と無線通信する。

図２は、撮像部１０１が出力する画像データＧ１の例を示す図である。図２に示す画像データＧ１は、レシートを撮像した画像の画像データであり、レシートには、店名、電話番号などのあとに、行毎に商品名と値段が記載されている。

図３は、画像データＧ１から画像切出し部１２２が切出した行毎の画像の例を示す図である。図３に示すように、画像切出し部１２２が切出した画像の各々は商品名と値段とを示す画像である。なお、本実施形態では、レシートのうち、商品名と値段とをＯＣＲ処理の対象とし、その他の店名、電話番号などについては、省略する。
図４は、文字配列部１２１が生成した行毎の画像の例Ｇ３を示す図である。図４に示すように、文字配列部１２１が生成した画像の各々は、商品名と値段とを示す画像である。

図５は、携帯電話端末１００の機能構成を示す概略ブロック図である。携帯電話端末１００は、撮像部１０１、操作部１０２、表示部１０３、ＯＣＲ（Optical Character Reader；光学文字認識）処理部１１０、画像処理部１２０を備える。操作部１０２は、そのシャッターボタンが押されると、撮像部１０１に撮像指示の信号Ｏ１を出力する。また、操作部１０２は、４方向キーやタッチパネルを用いた操作入力に従い、画像処理部１２０に画面操作指示の信号Ｏ２を出力する。撮像部１０１は、撮像した画像の画像データＧ１(図２）をＯＣＲ処理部１１０と画像処理部１２０とに出力する。ＯＣＲ処理部１１０は、画像データＧ１に対してＯＣＲ処理を行い、画像データＧ１中の文字を認識し、ＯＣＲ認識結果Ｃとして、文字を検出した領域を示す文字切出しデータＣ１と、認識した文字を示す文字認識結果データＣ２とを出力する。画像処理部１２０は、画像データＧ１と、ＯＣＲ認識結果Ｃとから撮像画像と認識した文字とをユーザーが比較可能な表示画像データＧ４を生成し表示部１０３に表示させる。なお、ＯＣＲ処理部１１０および画像処理部１２０は、メモリ部１０５が記憶するプログラムをＣＰＵ１０４が読み込んで実行することで実現する。

図６は、ＯＣＲ処理部１１０の構成を示す概略ブロック図である。ＯＣＲ処理部１１０は、文字切出し処理部１１１、行管理部１１２、文字認識部１１３を備える。
文字切出し処理部１１１は、画像データＧ１中の文字各々を含む矩形領域を検出し、その矩形領域を表す座標（例えば、左上と右下の頂点の座標）である文字切り出しデータＣ１を出力する。管理部１１２は、文字切出しデータＣ１に基づき、文字各々について、行頭あるいは行末であるかを判定し、文字切出しデータとともに判定結果を文字切り出しデータＣ１に追加する。文字認識部１１３は、文字切出しデータが表す領域各々の文字を認識し、認識した文字を表すコードを文字認識結果データＣ２として出力する。なお、文字認識部１１３は、文字の認識に失敗したときは、文字認識結果データＣ２として、認識に失敗したことを示すコードを出力する。

図７は、画像処理部１２０の構成を示す概略ブロック図である。画像処理部１２０は、文字配列部１２１、画像切出し部１２２、画像サイズ変換部１２３、表示画像生成部１２４を備える。文字配列部１２１は、ＯＣＲ認識結果Ｃ中の文字認識結果データＣ２に基づき、認識した文字の行毎の画像(図４のＧ３ａ、Ｇ３ｂ、Ｇ３ｃ、Ｇ３ｄ、Ｇ３ｅ、Ｇ３ｆ）を生成する。なお、このとき、使用するフォントは予め決められたサイズのフォントであって、メモリ部１０５が記憶するフォントを使用する。画像切出し部１２２は、ＯＣＲ認識結果Ｃ中の文字切出しデータＣ１を用いて、画像データＧ１から行毎の画像（図３のＧ２ａ、Ｇ２ｂ、Ｇ２ｃ、Ｇ２ｄ、Ｇ２ｅ、Ｇ２ｆ）を切出す。

画像サイズ変換部１２３は、文字配列部１２１が生成する行毎の画像（例えば、図４のＧ３ａ）と表示サイズが一致するように、画像切出し部１２２が切出した行毎の画像(例えば、図３のＧ２ａ）のサイズを変換する。より具体的には、文字配列部１２１が生成する行毎の画像(図４のＧ３ａ、Ｇ３ｂ、Ｇ３ｃ、Ｇ３ｄ、Ｇ３ｅ、Ｇ３ｆ）を配置した際の行間隔(例えば、図４のＧ３ａとＧ３ｂの行間隔)に、切出した行毎の画像を配置した際の行間隔(例えば、図３のＧ２ａとＧ２ｂの行間隔）が一致するように、画像切出し部１２２が切出した行毎の画像を拡大あるいは縮小する。ここで、行間隔とは、行の始まりから次の行の始まりまでの行方向と垂直な方向（ここでは、縦方向）の長さである。例えば、図３のＧ２ａの左上の頂点からＧ２ｂの左上の頂点までの長さである。表示画像生成部１２４は、文字配列部１２１および画像変換部１２３が生成した行毎の画像を配置した表示画像データＧ４を生成する。

図８は、表示画像生成部１２４が生成する表示画像データＧ４の表示例Ｇ５を示す図である。表示例Ｇ５の左側の領域Ｇ５ａには、画像サイズ変換部１２３が生成した行毎の画像（図３のＧ２ａ、Ｇ２ｂ、Ｇ２ｃ、Ｇ２ｄ、Ｇ２ｅ、Ｇ２ｆ）が配置され、右側の領域Ｇ５ｂには、文字配列部１２１が生成した行毎の画像（図４のＧ３ａ、Ｇ３ｂ、Ｇ３ｃ、Ｇ３ｄ、Ｇ３ｅ、Ｇ３ｆ）が配置されている。この様に、表示画像生成部１２４は、表示画像データＧ４を生成する。このとき、操作部１０２からの画面操作指示の信号Ｏ２に従い、表示画像データＧ４に含める行を選択する。

このように、画像サイズ変換部１２３が生成した画像と、文字配列部１２１が生成した画像の行間隔を同じにしているので、図８に例示するように、画像サイズ変換部１２３が生成した画像Ｇ５ａ、文字配列部１２１が生成した画像Ｇ５ｂを左右に並べて表示することができる。このため、ユーザーは、撮像した画像と、そこから認識した文字列との比較を容易に行うことができる。

図９は、携帯電話端末１００の動作を説明するフローチャートである。まず、操作部１０２のシャッターボタンが押されるなどして、撮像部１０１が、カメラ撮影を行い、画像データＧ１を出力する（Ｓ１）。次に、文字切出し処理部１１１が、画像データＧ１から、１文字分の領域を切出し、切出し文字データを生成する（Ｓ２）。次に、行管理部１１２が、行管理処理を行い、切出し文字データの示す領域について、行頭あるいは行末であるかを判定する（Ｓ３）。行管理処理の詳細については、後述する。次に、文字認識部１１３が、切出し文字データが示す文字の領域について文字認識処理を行い、文字認識結果データを生成する（Ｓ４）。次に、切出し文字データと、文字認識結果データをメモリ１０５に記憶する（Ｓ５）。

画像データＧ１の全ての文字の領域についての処理が終わっていないときは、ステップＳ２に戻って、処理を繰り返す（Ｓ６）。また、１枚の画像データにＯＣＲ処理対象が納まらず、さらにカメラ撮影を続けて行うときは、ステップＳ１に戻る（Ｓ７）。次に、撮像した画像とＯＣＲ結果とを比較可能な画像のレイアウトを決定するレイアウト定義処理を行う（Ｓ８）。なお、レイアウト定義処理の詳細については、後述する。表示画像生成部１２４は、レイアウト定義処理によって決定したレイアウトに従い、表示画像データＧ４を生成し、表示部１０３に表示させる（Ｓ９）。ユーザーによる画面操作の入力がなければ、処理を終了する（Ｓ１０）。画面操作の入力があるときは、画面操作の入力を受け付け（Ｓ１１）、ステップＳ９に戻って、表示画像生成部１２４は、画面操作による指示に従い、表示画像データＧ４を新たに生成して、表示部１０３に表示させる。画面操作の入力としては、４方向キーやタッチパネルによるスクロールの指示などがある。

図１０は、ステップＳ３の行管理処理を説明するフローチャートである。行管理部１１２は、切出し文字データを、一つ選択する（Ｓ２１）。次に、行管理部１１２は、選択した切出し文字データが行頭であるか否かを判定する（Ｓ２２）。ここで、座標系として、画像の左上を原点とし、Ｘ軸を右方向に、Ｙ軸を下方向にとった座標系を用いる。例えば、行管理部１１２は、左上頂点のＸ座標の値が前の文字よりも小さければ、行頭であると判定する。行頭であると判定したときは（Ｓ２２−Ｙ）、ステップＳ２３にて、選択している切出し文字データに行頭であることを示す行頭情報を付加する。次に、行管理部１１２は、選択した切出し文字データが行末であるか否かを判定する（Ｓ２４）。例えば、行管理部１１２は、左上頂点のＸ座標の値が次の文字よりも大きければ、行末であると判定する。行末であると判定したときは（Ｓ２４−Ｙ）、ステップＳ２５にて、選択している切出し文字データに行末であることを示す行末情報を付加する。全ての切出し文字データについて行管理処理をしているときは（Ｓ２６−Ｙ）、処理を終了し、未処理の切出し文字データがあるときは（Ｓ２６−Ｎ）、ステップＳ２１に戻って、次の切出し文字データを選択する。

図１１は、ステップＳ８のレイアウト定義処理を説明するフローチャートである。まず、カウンタＮを初期化する（Ｓ３１）。次に、カウンタＮの値を１増加させる（Ｓ３２）。画像切出し部１２２は、切出し文字データの座標を用いて、Ｎ行目の画像を画像データＧ１から切出す（Ｓ３３）。このとき切出す画像は、Ｎ行目の行頭の左上頂点と、Ｎ行目の行末の右下頂点とを、それぞれ左上頂点、右下頂点とする矩形領域である。次に、画像サイズ変換部１２３は、画像切出し部１２２が切出した画像の高さが、認識結果の文字表示の文字高さと同じになるように、切出した画像を拡大または縮小する（Ｓ３４）。表示画像生成部１２４は、画像サイズ変換部１２３が生成した画像を、画面左側のＮ行目の位置に配置する（Ｓ３５）。また、Ｎ行目の認識結果の文字を、画面右側のＮ行目の位置に配置する（Ｓ３６）。カウンタＮの値が、最終行の値と一致するときは、レイアウト定義処理を終了し（Ｓ３７−Ｙｅｓ）、一致しないときは、ステップＳ３２に戻って、次の行の処理をする。

図１２は、表示部１０３による表示画像データＧ４の表示の例Ｇ６を示す図である。図１２において、網掛けの違いは色の違いを示す。図１２に示すように、表示画像生成部１２４は、行Ｇ６ａ〜Ｇ６ｆ毎に異なる色を付すことで、行の違いをユーザーが容易に識別できるようにすることができる。なお、図１２は、行毎に異なる色としたが、隣接する行で異なる色となっていればよく、例えば、２色を交互に付すようにしてもよい。
図１３は、表示部１０３による表示画像データＧ４の表示の別の例Ｇ７を示す図である。図１３において、網掛けの違いは色の違いを示す。図１３に示すように、表示画像生成部１２４は、撮像画像から切出した行の画像と、その画像に対応する認識した文字の画像とを、結びつけるマークＭ１を付し、該マークに行毎に異なる色を付すことで、行の違いをユーザーが容易に識別できるようにすることができる。なお、図１３は、行毎に異なる色としたが、隣接する行で異なる色となっていればよく、例えば、２色を交互に付すようにしてもよい。

図１４は、表示部１０３による表示画像データＧ４の表示の別の例Ｇ８を示す図である。上述の第１の実施形態では、表示画像生成部１２４は、画像サイズ変換部１２３が生成した画像を左側に、文字配列部１２１が生成した画像を右側に配置したが、表示部１０３が縦長の場合などには、例えば画像サイズ変換部１２３が生成した画像（撮像画像）を上側に、文字配列部１２１が生成した画像（認識結果）を下側に配置するようにしてもよい。この場合は、画像サイズ変換部１２３は、撮像画像の高さを文字の高さに合わせるのではなく、撮像画像の横幅を、認識結果を表示する領域の横幅に合わせるように拡大または縮小する。

また、図１４に示すように、上側（撮像画像）のいずれかの行が、４方向キーまたはタッチパネルにより選択されると、選択された行Ｍ２と、その行に対応する下側（認識結果）の行Ｍ３とを強調表示しているので、ユーザーが行の対応を容易に認識できる。また、下側のいずれかの行が、選択されると、選択された行と、その行に対応する上側の行とが強調表示されるようにしてもよい。なお、図１２に示したように、行毎に異なる色を付して、ユーザーが行の対応を容易に認識できるようにしてもよい。

図１５は、表示部１０３による表示画像が画面操作により変わる例を示す図である。例えば、４方向キーのうちの下方向キーを押下されたとき、あるいは、タッチパネルに対して上方向のスライド操作をされたときは、表示画像を上方向にスクロールさせ、スクロール前に強調表示していた行と、同じ位置に表示される行を強調表示させる。図１５の表示画像Ｇ９ａからＧ９ｂに変わる例では、上方向にスクロールして、表示用画像Ｇ９ａでは「黒豆￥８９０」を強調表示していたが、表示用画像Ｇ９ｂでは、その下の行の「レンコン￥４９８」を強調表示する。
図１６は、１行の文字数が多いときの表示例を示す図である。例えば、「イカルガのうそん牛乳￥１９８」という行があり、文字数が多いために画面に入りきらないときは、該当する行のみを左方向にスクロールさせる。このとき、左側の撮像画像と、右側の認識結果とを、それぞれ別々にスクロールさせる。ただし、スクロールの周期は、左側の撮像画像と、右側の認識結果とで同じにすることで、同時に画面に表示されている範囲を同じにすることができる。

このように、撮像画像から切出した画像の高さを、認識結果の文字の高さと一致させているので、撮像画像から切出した画像の横に、対応する認識結果の文字が表示され、光学文字認識処理による認識結果の文字列と、その元の撮像画像との対応を、ユーザーが容易に把握できる画像を汎用的に生成することができる。

［第２の実施形態］
以下、図面を参照して、本発明の第２の実施形態について説明する。本実施形態における携帯電話端末は、図５における携帯電話端末１００の構成と表示は第一の実施形態と同様であるが、画像処理部１２０の構成が異なる。図１７は、本実施形態における画像処理部１２０の構成を示す概略ブロック図である。本実施形態における画像処理部１２０は、文字サイズ決定部１３１、文字配列部１２１ａ、画像サイズ変換部１２３a、表示画像生成部１２４aを備える。画像サイズ変換部１２３ａは、画像データＧ１を、予め設定された撮像画像表示用領域（ここでは、表示部１０３の左側半分、例えば、図８のＧ５ａ）のサイズに合うように、拡大または縮小する。なお、このとき、画像データＧ１の横幅が撮像画像表示用領域と一致するようにしてもよいし、高さが一致するようにしてもよい。

文字サイズ決定部１３１は、画像サイズ変換部１２３ａによる拡大または縮小の倍率に従い、文字切出しデータを拡大または縮小したサイズに合うように、文字サイズを決定する。例えば、文字切出しデータを拡大また縮小したときの高さと一致する高さの文字サイズを選択する。これにより、認識結果の文字を配置した際の行間隔を、画像サイズ変換部１２３ａにより拡大または縮小された画像データＧ１中の文字を検出した領域の行間隔に一致させる。文字配列部１２１ａは、文字サイズ決定部１３１が決定した文字サイズで、認識結果の文字を行毎に配置した画像を生成する。表示画像生成部１２４ａは、画像サイズ変換部１２３ａが拡大または縮小して生成した画像（例えば、図８のＧ５ａ）を左側に配置し、文字配列部１２１ａが生成した画像（例えば、図８のＧ５ｂ）を右側に配置した表示画像データＧ４（例えば、図８のＧ５）を生成する。

本実施形態における携帯電話端末１００の動作は、図９に示すフローチャートと同様であるが、ステップＳ８のレイアウト定義処理のみが異なる。図１８は、本実施形態におけるレイアウト定義処理を説明するフローチャートである。まず、画像サイズ変換部１２３ａが、画像データＧ１（撮像画像）を撮像画像表示用領域のサイズに合うようにリサイズ（拡大または縮小）し、表示用撮像画像を生成する（Ｓ４１）。次に、カウンタＮを０に、初期化する（Ｓ４２）。次に、カウンタＮを、１カウントアップする（Ｓ４３）。次に文字サイズ決定部１３１が、Ｎ行目の文字切出しデータと、画像サイズ変換部１２３ａによるリサイズ時の倍率とに基づき、表示用撮像画像のＮ行目の文字高さを算出する（Ｓ４４）。次に、文字サイズ決定部１３１が、Ｎ行目とＮ＋１行目の文字切出しデータと、リサイズ時の倍率とに基づき、Ｎ行目とＮ＋１行目の行間隔を算出する（Ｓ４５）。

文字サイズ決定部１３１は、ステップＳ４４にて算出した文字高さと同じ文字サイズを決定する。文字配列部１２１ａは、Ｎ−１行目の表示位置と行間隔とから、Ｎ行目の表示位置を決定し、その表示位置に、決定された文字サイズで、Ｎ行目の認識結果の文字列を配置する（Ｓ４６）。Ｎ行目が最終行であれば（Ｓ４７−Ｙｅｓ）、処理を終了し、最終行でなければ（Ｓ４７−Ｎｏ）、ステップＳ４３に戻って、次の行について処理を行う。

図１９は、本実施形態における表示部１０３による表示例Ｇ１０を示す図である。図１９に示すように表示例Ｇ１０の左側の領域Ｇ１０ａには、撮像画像をリサイズした表示用撮像画像が配置され、右側の領域Ｇ１０ｂには、認識結果の文字が配置されている。認識結果の文字は、表示用撮像画像の文字高さと、行間隔とに合わせて表示されているので、表示用撮像画像中の対応する文字を、ユーザーは容易に識別することができる。

図２０は、本実施形態における表示部１０３による別の表示例Ｇ１１を示す図である。表示例Ｇ１１では、表示用撮像画像のうち、文字を検出した領域に、認識結果の文字が重ねて表示されている。すなわち、認識結果の文字により隠れているため、表示用撮像画像中の対応する文字の画像は見えない。しかし、表示例Ｇ１１の「にんじん」のように、認識に失敗しているときは、認識結果の文字コードは、認識失敗を表す文字コードとなっているので、認識結果の文字を表示せずに、表示用撮像画像を表示する。また、図２１の表示例Ｇ１２中の「達巻」のように、タッチパネルを操作して、認識結果の文字を選択すると、表示用撮像画像を表示するようにしてもよい。この場合、選択を解除すると、表示は元に戻る。すなわち、表示画像生成部１２４ａは、認識結果の文字の画像を表示するか否かを、ユーザーからの文字毎の指示に従い判定する。

このように、認識結果の文字の高さを、撮像画像中の文字の高さと一致させているので、撮像画像中の文字の横に、対応する認識結果の文字が表示され、光学文字認識処理による認識結果の文字列と、その元の撮像画像との対応を、ユーザーが容易に把握できる画像を汎用的に生成することができる。

なお、上述の第１および第２の実施形態において、画像処理装置として、携帯電話端末１００を挙げたが、ＰＤＡ（Personal Digital Assistance）、デジタルカメラ、デジタルメディアプレーヤー、パーソナルコンピューターなどであってもよい。また、撮像部１０１を備えず、ＵＳＢ（登録商標：Universal Serial Bus）端子などの通信端子を介して、外部から画像データを受信するようにしてもよいし、ＳＤカードなどの記憶媒体から画像データを読み出すようにしてもよい。また。表示部１０３を備えず、ＨＤＭＩ（登録商標：High-Definition Multimedia Interface）端子などの通信端子を介して、外部の表示装置に画像データを出力するようにしてもよい。
また、上述の第１および第２の実施形態において、横書きの場合を例にし、行は横方向であるとして説明したが、縦書きであってもよい。その場合、行は縦方向であり、行間隔は、行の始まりから次の行の始まりまでの横方向の長さである。

また、図５におけるＯＣＲ処理部１１０、画像処理部１２０の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、この発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。

１００…携帯電話端末
１０１…撮像部
１０２…操作部
１０３…表示部
１０４…ＣＰＵ
１０５…メモリ部
１０６…通信部
１０７…バス
１１０…ＯＣＲ処理部
１１１…文字切出し処理部
１１２…行管理部
１１３…文字認識部
１２０…画像処理部
１２１、１２１ａ…文字配列部
１２２…画像切出し部
１２３、１２３ａ…画像サイズ変換部
１２４、１２４ａ…表示画像生成部
１３１…文字サイズ決定部

Claims

文字を含む画像から文字の領域を検出する文字検出部と、
前記検出した文字の領域の文字を認識する文字認識処理部と、
前記検出した文字の領域と、前記認識した文字の画像とを含む表示用画像を生成する画像処理部と
を備え、
前記画像処理部は、前記検出した文字の領域の表示サイズと、前記認識した文字の画像の表示サイズとを一致させた表示用画像を生成すること
を特徴とする画像処理装置。
前記画像処理部は、前記文字検出部が検出した文字の領域を切り出した画像を生成し、前記切出した画像の表示サイズを、前記認識した文字の画像の表示サイズに一致させて、前記切出した画像と、前記認識した文字の画像とを含む表示用画像を生成することを特徴とする請求項１に記載の画像処理装置。
前記画像処理部は、前記認識した文字の画像を配置した行間隔と一致するように、前記文字の領域を切り出した画像を配置する事を特徴とする請求項２に記載の画像処理装置。
前記画像処理部は、前記文字の領域を切り出した画像を配置した行間隔に一致するように、前記認識した文字の画像を配置する事を特徴とする請求項1に記載の画像処理装置。
前記画像処理部は、前記認識した文字の画像の表示高さを、前記文字の領域を切り出した画像の表示高さに一致させることを特徴とする請求項１に記載の画像処理装置。
前記画像処理部は、前記認識した文字の画像を、前記文字を検出した領域に表示させることを特徴とする請求項４に記載の画像処理装置。
前記画像処理部は、前記認識した文字の画像を表示するか否かを、ユーザーからの文字毎の指示に従い判定することを特徴とする請求項６に記載の画像処理装置。
画像処理装置における画像処理方法であって、
前記画像処理装置が、文字を含む画像から文字の領域を検出する第１の過程と、
前記画像処理装置が、前記検出した文字の領域の文字を認識する第２の過程と、
前記画像処理装置が、前記検出した文字の領域と、前記認識した文字の画像とを含む表示用画像を生成する第３の過程とを有し、
前記画像処理装置は、前記第２の過程にて、前記検出した文字の領域の表示サイズと、前記認識した文字の画像の表示サイズとを一致させた表示用画像を生成すること
を特徴とする画像処理方法。
画像処理装置が備えるコンピュータを、
文字を含む画像から文字の領域を検出する文字検出部、
前記検出した文字の領域の文字を認識する文字認識処理部、
前記検出した文字の領域と、前記認識した文字の画像とを含む表示用画像を生成する画像処理部として動作させ、
前記画像処理部は、前記検出した文字の領域の表示サイズと、前記認識した文字の画像の表示サイズとを一致させた表示用画像を生成する、
プログラム。