撮影者がデジタルスチルカメラやカメラ付き携帯電話などのデジタル画像撮像装置を手で持って撮像する場合、焦点が合わないことによって、画像がぼけたり、いわゆる手ぶれによって、撮影者が意図した範囲の画像が撮影できなかったりすることがある。
特に、撮像した画像に基づいて文字認識などの画像認識を行う場合には、ぼけがあると、誤認識率が増加し、手ぶれがあると、読み取りたい対象が中心からずれたり、最悪の場合撮影範囲に入らなかったりすることも有り得る。
ぼけに関しては、オートフォーカス機能により、自動的にピントを合わせることによって対応するのが一般的である。デジタルスチルカメラの多くの機種には、オートフォーカス機能が搭載されている。
また、デジタルスチルカメラには、光学式の手ぶれ補正機能を搭載する機種もある。この手ぶれ補正機能は、手ぶれによる動きをセンサで検出して、それを打ち消す効果を生むように、レンズや撮像素子そのものを動かすか、あるいは変形するものである。
図10を用いて、上記の光学式手ぶれ補正機能のうち、撮像素子そのものを動かすものの、動作の概略を説明する。図10は、光学式手ぶれ補正機能に関する説明図である。
801は、撮像素子であり、802は移動後の撮像素子である。
803は、撮像素子の元の位置をその領域の中心位置で示したものである。804は、補正を行った後の撮像素子の位置を、その領域の中心位置で示したものである。
図示しないセンサにより、手ぶれなどによる動きの大きさ、方向が検出される。これらの検出には、ジャイロ式のセンサなどが用いられる。
センサにより、手ぶれが検出された場合は、それを打ち消す方向に、撮像素子801が動かされる。すなわち、手ぶれと同じ方向に、撮像素子801を動かされる。
図10では、符号805で示す矢印が、前記の検出された手ぶれ、ならびに、撮像素子を動かす方向および量に対応する。
一方、動画を撮影するデジタルビデオカメラには、電子式の手ぶれ補正機能が搭載されている。この手ぶれ補正機能は、手ぶれを動きセンサあるいは取得した画像列自体から検出して、撮像素子上から切り出す画像の位置を調整して、手ぶれによる影響の少ない画像列、すなわち動画像を得るものである。このような方法で動画像を得るので、この手ぶれ補正機能を利用する場合、通常、撮像素子のサイズは、取得したい画像のサイズより大きくなる。
図11を用いて、上記の電子式手ぶれ補正機能の、動作の概略を説明する。図11は、電子式手ぶれ補正機能に関する説明図である。
901は、撮像素子が撮像した画像の通常の切り出し位置である。902は、手ぶれ補正を行った場合の、撮像素子が撮像した画像の切り出し位置である。
903は、通常の切り出し位置901の、領域の中心位置である。904は、手ぶれ補正を行った場合の切り出し位置902の、領域の中心位置である。
この場合、上述したデジタルビデオカメラの回路は、前後のフレーム内の、画像の位置関係を、ブロックマッチングなどの手法により調べることで、撮像素子上での画像の動きを検出する。
ブロックマッチングとは、動きの検出などに一般的に用いられる方法で、一方の画像上に参照領域(通常、この参照領域は矩形とされる)を、他方の画像上にこの参照領域と同じサイズの矩形の探索領域を設定し、これらの領域間の差異を調べ、少しづつ探索領域の位置を変えながら探索を行い、上記の差異が最小になる探索領域を求めることにより、画像間の位置のずれを検出するものである。
領域間の差異を調べる方法として、例えば、領域内の対応する画素値の差の2乗和の大小を比較する方法が用いられる。
撮像素子上での画像の動きが検出されると、上記の検出結果に従い、その動きを打ち消す方向に、画像の切り出し位置が変更される。この場合、検出された動きと同じ方向に、切り出し位置が変更される。図11では、符号905で示す矢印が、検出された動き、ならびに、切り出し位置をずらす方向および量に対応する。
なお、電子式手ぶれ補正機能の動作の概略は上記の通りであるが、実際には、撮像者(すなわちカメラのユーザ)がパンニングなど、自分の意思で、いわゆるカメラワークとしてカメラを動かすことも当然有り得る。
この場合、撮像者の意思で行われた手の動きまで打ち消すことは、避けるのが望ましい。撮像者の意思で行われた手の動きまで打ち消さないように、過去のカメラの動きを解析して、ずらす量を調節することが行われる。例えば、持続的に、左向きから右向きに徐々に向きが変わっていくなど、時間周波数の大きな動きがある場合、その動きは打ち消さずに残すようにする。
さらに、図12を用いて、電子式手ぶれ補正機能の処理のタイミングに関して説明する。図12は、電子式の手ぶれ補正機能の処理のタイミングに関する説明図である。
電子式手ぶれ補正機能の対象は動画であるため、1001や1002のような動画取得タイミングごと(すなわち、動画を取得するために、予め定められたタイミングごと)に、1003や1004のように、画像が取得される(これらの動画取得タイミングは、一定の間隔の周期で到来する)。この一定の間隔の周期とは、例えば、NTSC(National TV Standards Committee)方式のビデオカメラであれば、約1/30秒である。その理由は、NTSC方式のビデオカメラが、1秒間当たり約30枚の画像を取得して、動画像を構成する点にある。画像の取得時には、データを画像撮像素子から記録媒体(半導体メモリあるいはテープなど)に転送するための、転送時間が必要である。次の画像を取得するまでに、既に取得した画像の転送を終了しなければならないため、この転送時間は、通常、動画取得タイミングの間隔以下である必要がある。
一般に、デジタルスチルカメラには、電子式の手ぶれ補正機能は搭載されていない。これは、電子式の手ぶれ補正機能が、動画像のフレーム間の動きを滑らかにするものであって、1つのフレーム自体に対する手ぶれの影響を打ち消すものではないからである。
また、特開平11−258488号公報には、シャッターボタンを押した後、複数のピント位置で撮像して、その中から最も焦点の合った画像を選択する方法が開示されている。該公報によれば、この方法により、被写体を捉えた後、ピントが合ってシャッターボタンを押すことが可能となるまでに時間を要してしまい、その結果シャッターチャンスを逃してしまう、という課題が解決されている。
特開平11−258488号公報
本発明の画像撮像装置は、デジタルスチルカメラなど、通常手に持って撮像を行う画像撮像装置に関し、焦点が十分に合い、かつ、撮像者の意図によく合致した撮像範囲の画像を得るためのものである。
焦点を合わせるための機構として、オートフォーカス機構が開発されて以前から普及している。このオートフォーカス機構は、焦点を合わせている間に、撮像者の手が動くことにより、撮像者の意図した撮像範囲の画像が得られなくなるという問題点を有する。
手ぶれの問題を解決するために、光学式の手ぶれ補正装置を搭載したデジタルスチルカメラが開発されている。これは、手ぶれによる動きをセンサで検出して、それを打ち消す効果を生むように、レンズや、CCD(固体撮像素子、charge coupled device)などの撮像素子そのものを動かすか、あるいは変形するものである。
しかしながら、光学式手ぶれ補正機能は、機構が大きくなる、および、比較的高価である、などの問題があり、必ずしも一般に普及しているとは言えない。カメラ付き携帯電話や、薄型のデジタルスチルカメラには、装置全体を小型化する必要があるため、光学式手ぶれ補正機能は搭載されていない。
特開平11−258488号公報で開示された方法の場合、シャッターボタンが押されると、複数のピント位置で撮像され、撮像された画像の中から最も焦点の合った画像が選択される。
しかしながら、この方法では、これらの複数のピント位置で撮像している最中に起こる手ぶれに対応できない。
本発明のある実施例の場合、撮像者により撮像が指示された時点の第1画像と、焦点が合った時点の第2画像との2枚の画像を取得し、撮像範囲は第1画像のものを採用することにより、オートフォーカスにより焦点を合わせている間の手の動きに対応する。
デジタルビデオカメラなどに搭載されている電子式手ぶれ補正機能でも、動画像を撮影するため、複数の画像を取得し、画像間の動きを検出して、画像の切り出し位置を調整している。
この電子式手ぶれ補正機能は、動画像の手ぶれを補正するものであるため、本発明とは目的が異なる。しかし、この電子式手ぶれ補正機能は、複数の画像を取得し、画像間の動きを検出して、画像の位置を調整する点で、本発明と共通点がある。
しかしながら、電子式手ぶれ補正機能の場合、画像の切り出し位置を調整するため、取得したい画像サイズより大きい撮像素子を備える必要がある。一方本発明の場合、そのような大きい撮像素子を備える必要はなく、取得したい画像サイズに対応した撮像素子があれば十分である。
また、電子式手ぶれ補正では、オートフォーカス機能によって焦点を合わせるのにかかる時間の問題は解決されていない。すなわち、オートフォーカス機能が撮像者の手や対象物体の動きに追随している間は、焦点の合っていない画像が取得される。
また、特に、撮像した画像に基づいて文字認識などの画像認識を行う場合には、ぼけがあった場合は、誤認識率が増加し、手ぶれがあった場合には、読み取りたい対象が中心からずれたり、最悪の場合撮影範囲に入らなかったりすることも有り得るため、本発明の画像撮像装置を用いることにより、より確実に、精度の高い認識を行うことができる。
以下、本発明の第1の実施例について、詳細に説明する。
図1は、本発明の第1の実施例に係るブロック図、図2は、本発明の第1の実施例に係るフローチャートである。
以下、図1のブロック図について、説明する。
101の画像入力ブロックは、画像撮像装置の撮像機構(画像を入力する機構)全体を指すものである。
画像入力ブロック101は、複数枚(1枚であってもよいが、本実施例の場合、レンズは複数枚とする。具体的なレンズの枚数は2枚である。)のレンズから構成されるレンズユニットと、CCD(charge coupled device)などの撮像素子とを含む。レンズユニットは、光を通して撮像素子に導く。撮像素子は、シャッターボタンなどから構成される撮像指示ブロック103が撮像者から撮像の指示を受付けた時点で、撮像素子自身の上に結像されたデータをデジタルデータとして読み出し、デジタル画像として出力する。
後述のように、本発明では、この出力画像を最終の出力画像とはしない。
102のオートフォーカス制御ブロックは、上述のレンズの焦点を上記撮像素子上に自動的に合わせて、ピントの合った被写体像の画像を得るものである。
オートフォーカス機構には、種々の方法が提案されている。赤外線センサなどにより被写体との間の距離を測定して、焦点の合う位置を導出するものや、結像された画像データから高周波成分を取り出してコントラストが高いかどうか判断し、レンズユニットを駆動してコントラストが最大となるように調整する、コントラスト調整型のものなどがその例である。
デジタルスチルカメラやカメラ付き携帯電話など、小型の撮像装置では、コントラスト調整型のものがよく用いられている。しかしこのコントラスト調整型の機構は、上記のようにレンズユニットを駆動してコントラストが最大となる位置を探索するため、焦点が合うまでに比較的長い時間がかかる。
しかしながら、撮影者が手で持って撮像する場合、撮像素子に映される撮像範囲は実際には刻一刻変化し、焦点の合う位置も変化する。通常、オートフォーカス機能はこれらの変化に自動的に追随するが、実際に焦点が合うまで、タイムラグが避けられない。
103の撮像指示ブロックは、シャッターボタンなどを撮像者が押すことにより、撮像のタイミングの指示を受付けるものである。
通常、シャッターボタンを押してから、実際に画像が取得されるまでにはタイムラグがある。そのタイムラグの間に撮像装置を支える手が動くと、撮像者が意図した範囲の画像が撮影できなくなる。
また、シャッターボタンを押すことそのものにより、物理的にある程度の手ぶれが生じることも避けられない。
104の第1画像は、撮像指示ブロック103により撮像が指示された時点で読み出された、撮像素子上の画像データである。
上記のように、オートフォーカス機構により焦点が合うまでには時間が掛かるため、第1画像104は、必ずしも焦点が合った画像にはならないのが普通である。
この第1画像104は、第2画像との位置合わせに必要な解像度があればよい。一般に、第1画像104の解像度は、第2画像105の解像度より低くてもよい。この理由は、後述のように、第1画像104の目的が、撮像者が意図する撮像範囲を知るのが目的であるためという点にある。
この場合、第1画像104の解像度を必要以上に高くすることがないため、画像データの転送時間や画像データを保持するためのメモリが節約できるという利点が発生する。また、動作速度を向上することができるほか、実現がより容易となるという利点も発生する。
105の第2画像は、撮像指示ブロック103により撮像が指示された後、オートフォーカス機構により焦点が合った時点で読み出された、撮像素子上の画像データである。
106の撮像範囲情報取得ブロックは、撮像指示ブロック103により撮像の指示が受付けられた時点で、画像入力ブロック101から、撮像範囲に関する情報を得るものである。
本実施例では、ここで第1画像104を取得しておき、第2画像105との位置合わせを行うことにより、撮像範囲に関する情報を得るとしているが、撮像範囲情報取得ブロック106の構成は、この方法に限るものではない。
例えば、ジャイロ式のセンサなどにより、撮像素子の向いている方向を取得しておき、画像を取得する時点で、再度撮像素子の方向を取得して、これらの向きの差から、画像を補正することも考えられる。
この場合、符号104で示す第1画像は、本発明の構成上必要でない。
なお、撮像範囲情報取得ブロック106は、画像入力ブロック101から入力された第2画像105を、第1画像104を用いて修正するブロックでもある。具体的な修正の方法は後述する。
次に、図2のフローチャートを参照し、各ステップに関して説明する。
まず、画像入力ブロック101による画像入力を開始する(S201)。
これは、通常、撮像者が、電源ボタンや、カメラボタンなどのカメラ機能を開始するためのボタンを押すことにより、開始される。
これにより、レンズから撮像素子に光が導かれる。撮像素子に光が導かれると、画像入力部101は撮像待ちの状態になる。
通常、ファインダやモニタなどにより、撮像素子上の画像が確認できる。ただし、データ転送などのタイムラグがあるため、ファインダやモニタに映っている通りの画像が、その時点で撮像素子上に結像しているとは限らない。
この撮像待ちの状態で、撮像指示ブロック103により撮像の指示が行われると(S202)、画像入力部101は、その時点で撮像素子上に結像されたデータをデジタルデータとして読み出し、第1画像104とする(S203)。また、これと並行して、オートフォーカス制御ブロック102は、焦点位置の制御を開始する(S204)。
上記では、S203で、第1画像104を取得するとしたが、画像に代わる、撮像範囲情報を取得してもよい。
上記では、撮像指示ブロック103の撮像指示の後、焦点位置の制御が開始されるとしたが、焦点位置の制御は常時、あるいは随時行っていてもよい。その場合でも、各時点での画像撮像装置と被写体との位置関係に従って、実際に焦点が合うためにはタイムラグがあるため、本発明は有効である。
その後、画像入力部101は、焦点が合った時点で、撮像素子上に結像されたデータをデジタルデータとして読み出し、第2画像105とする(S205)。
ここで、処理のタイミングに関し、図3を用いて説明する。
1101は、撮像指示ブロック103が指示をするタイミングである。1102は、焦点合わせが終了するタイミングである。
1103は、第1画像104を取得するのにかかる時間である。1104は、第2画像105を取得するのにかかる時間、1105は、焦点合わせにかかる時間である。
1101で、撮像をする旨の指示が行われると、第1画像104の取得、および焦点合わせが並行して開始される。通常、焦点合わせにかかる時間の方が、第1画像104の取得にかかる時間より長いので、焦点合わせが終了した時点(1102)で、第2画像105の取得が開始される。
第1画像104の解像度を第2画像105より低くする場合は、図3のように、第1画像104を取得するのにかかる時間は、第2画像105を取得する時間に比べて短くてよい。
第1画像104は、撮像者の意図した撮像範囲を知るために、シャッターボタンを押した時点での撮像範囲に関する情報を取得するためのものである。第1画像104は、この撮像範囲情報さえ取得できれば十分であり、高い解像度である必要はない。前記のように、ジャイロ式のセンサなどを用いて撮像範囲を知ることも考えられ、その場合は、第1画像を取得する必要はない。
第1画像104を取得するのにかかる時間が、焦点合わせにかかる時間より長くかかると、構成によっては、第1画像104の取得が終わるまで第2画像105を取得することができなくなる。これにより、第1画像104を取得している間にフォーカスがずれてしまうことが考えられるが、前記のように、第1画像104を取得するのにかかる時間を短くすれば、この問題を回避することができる。
次に、撮像範囲情報取得ブロック106は、第1画像104と第2画像105との位置合わせを行う(S206)。
ここで、撮像範囲情報取得ブロック106は、位置情報、すなわち撮像範囲情報として第1画像104の情報を採用し、画像の内容、すなわち各画素の値は第2画像105の情報を採用することにより、焦点が合い、かつ、撮像範囲が撮像者の意図に合致した画像を得る。
具体的には、ブロックマッチングなどの位置合わせ手法により、第1画像104と第2画像105との位置合わせを行う。位置は、第1画像104に合わせ、各画素の画素値は第2画像105のものを用いる。
位置合わせの手法は、上記のように、ブロックマッチングを用いるとよいが、画像内の複数箇所のマッチング結果から、全体の3次元空間内の位置関係、あるいはそれに準じた位置関係を導出する、より高度な手法を用いることも考えられる。
位置合わせを行った後、出力する画像を生成する方法は、いくつか考えられるが、ここでは、図4および図5を用いて、その中の2つの方法に関して説明する。なお、本実施例の場合、撮像範囲情報取得ブロック106が、この「出力する画像」を生成する。
図4は、第1画像104と第2画像105とが重なる領域を、予め指定した大きさに拡大したり縮小したりして、出力画像を得る方法の説明図である。
図4(a)は第1画像104を示す。図4(b)は第2画像105を示す。図4(c)は出力画像を示す。301は、第1画像104の画像領域の外接枠、302は、第2画像105の画像領域の外接枠、306は第1画像104の中心位置、308は第2画像105の中心位置を示す。
中心位置として、例えば、画像の縦軸の座標上の中心位置であって、画像の横軸の座標上の中心位置となる位置を取ればよい。
図4(b)のうち、外接枠302より外側の部分は、実際に取得された画像には含まれない部分である。
図4(b)の303は第1画像104の外接枠を、307は第1画像104の中心位置を、各々上記の位置合わせにより、第2画像105の対応する位置に重ねたものである。
図4(b)の矢印で示すように、第1画像104の中心位置に対応する第2画像105の位置、すなわち符号307で示す位置を、第2画像105の中心位置308に合わせるように、第2画像105を移動することにより、図4(c)の符号304で示すような領域が得られる。この、符号304で示す領域は、第1画像104にも第2画像105にも含まれる部分である。
このままでは、元の画像の外接枠のサイズより小さくなってしまうので、拡大して、図4(c)に符号305で示すような画像を得て、出力画像とする。このとき、画素値は、第2画像105の画素値を採用する。
この方法により、指定の大きさの、自然な出力結果を得ることができる。撮像範囲としては、撮像者の意図よりも狭くなる可能性があるが、全体に焦点の合った画像を得ることができる。
ここでは、第1画像104と第2画像105との共通領域を取って拡大したが、第1画像104と第2画像105との領域を全て含むような矩形領域を取って、縮小することも考えられる。第1画像104にしか存在しない部分は、第1画像104の画素値を採用する。この場合は、第1画像104にも第2画像105にも含まれない部分が矩形内に存在するため、白画素あるいは黒画素で穴埋めするなどの処理を、さらに行う必要がある。この方法では、撮影者の意図した撮像範囲を全て含むことが期待できるが、焦点の合わない部分や、情報がないため穴埋めされた部分が含まれることになる。
上記では、中心位置として、画像の縦軸の座標上の中心位置であって、画像の横軸の座標上の中心位置となる位置を取るとしたが、必ずしもそのような取り方をする必要はなく、第1画像104、第2画像105の対応する1点を基準として処理すればよい。これは、点でなく、領域、あるいはその他の画像特徴として考えてもよく、そのような点を明示的に設定しないような処理手順であっても、本発明の範囲に当然含まれる。
図5は、第1画像104の中心位置に対応する第2画像105の画像位置の所定の領域を、第1画像104に差し替える方法の説明図である。
図5(a)は、第1画像104を示す。図5(b)は第2画像を示す。図5(c)は出力画像を示す。401は、第1画像104の画像領域の外接枠を示す。402は、第2画像105の画像領域の外接枠を示す。408は第1画像104の中心位置を示す。410は第2画像105の中心位置を示す。
図5(b)のうち、外接枠402より外側の部分は、実際に取得された画像には含まれない部分である。
図5(b)の403は第1画像104の外接枠を、409は第1画像104の中心位置を、各々上記の位置合わせにより、第2画像105の対応する位置に重ねたものである。
図5(b)の矢印で示すように、第1画像104の中心位置に対応する第2画像105の位置、すなわち符号409で示す位置を、第2画像105の中心位置410に合わせるように、第2画像105を移動することにより、図5(c)に符号405で示す外接枠に囲まれる領域が得られる。
図5(c)で符号404で示す外接枠に囲まれる領域が、出力画像である。第1画像104にも第2画像105にも含まれる共通部分は、符号407で示す領域となる。この領域に関しては、第2画像105の画素値を採用する。このままでは、元の画像の外接枠のサイズより小さくなってしまうので、符号406で示す、第1画像104にしか含まれない部分は、第1画像104の画素値を採用する。
この方法により、指定の大きさの、自然な出力結果を得ることができる。部分的には焦点が合わない画像となる可能性があるが、撮像範囲としては、より撮像者の意図に合致したものが得られる。
上記では、領域によって第1画像104、第2画像105の画素値を採用しているが、必ずしもこれらの画素値をそのまま用いる必要があるわけではない。拡大処理を行う場合は、スムージングの処理を行うなど、より見やすい画像を得るための処理を行ってもよい。また、第1画像104と第2画像105との境界部分でも、より見やすい画像を得るため、スムージングなどの画像処理を行うことも考えられる。
最後に、得られた画像を出力する(S207)。
これは、通常デジタルスチルカメラや携帯電話の内部のフラッシュメモリ、あるいはこれらに挿入されたフラッシュメモリカードに、JPEG(Joint Photographic Experts Group)形式などの画像ファイルの形で蓄積することで行われる。撮像者、あるいはその他の利用者は、随時、この画像ファイルを読み出すことで、閲覧したり、プリンタに出力したりすることができる。
図2では、画像を出力した時点で終了しているが、もちろん、再度次の画像を撮像するため、これらのステップを反復してもよい。
次に、本発明の第2の実施例について説明する。
本実施例の画像撮像装置のブロックの構成は、第1の実施例の場合と同様である。その機能も同様である。したがって、ここでは説明を省略する。
図6は、本発明の第2の実施例のフローチャートである。
まず、画像入力ブロック101による画像入力を開始する(S501)。
これは、通常、撮像者が、電源ボタンや、カメラボタンなどのカメラ機能を開始するためのボタンを押すことにより、開始される。
これにより、レンズから撮像素子に光が導かれる。撮像素子に光が導かれると、画像入力部101は撮像待ちの状態になる。
この撮像待ちの状態で、撮像指示ブロック103により撮像の指示が受付けられなくても、画像入力ブロック101は、随時、撮像素子上に結像されたデータをデジタルデータとして読み出し、第1画像104とする(S502)。
撮像指示ブロック103による受付けが行われない間は、上記の読み出し処理を繰り返す。それより以前に得られた第1画像104は、上書きにより破棄する(S503)。これにより、撮像指示ブロック103による受付けが行われる直前の第1画像104が得られる。
撮像指示ブロック103による受付けが行われた時点で、焦点位置の制御を開始し(S504)、焦点が合った時点で、撮像素子上に結像されたデータをデジタルデータとして読み出し、第2画像105とする(S505)。
上記では、撮像指示ブロック103の撮像指示の後、焦点位置の制御が開始されるとしたが、焦点位置の制御は常時、あるいは随時行っていてもよい。その場合でも、各時点での画像撮像装置と被写体との位置関係に従って、実際に焦点が合うためにはタイムラグがあるため、本発明は有効である。
この後、S506の位置合わせ以降の処理は、本発明の第1の実施例の場合と同様であるので、説明を省略する。
本発明の第2の実施例によれば、撮像指示を行うためにシャッターボタンを押すなどする前に第1画像104を取得するため、シャッターボタンを押すなどすることによる手ぶれの影響を受けない。これにより、手ぶれの少ない、撮像者の意図に合致した撮像範囲の画像を得ることができる。
次に、本発明の第3の実施例に関して説明する。
図7は、本発明の第3の実施例のブロック図、図8は、本発明の第3の実施例のフローチャートである。
以下、図7のブロック図について、説明する。
画像入力ブロック601、オートフォーカス制御ブロック602、撮像指示ブロック603、第1画像604、第2画像605、撮像範囲情報取得ブロック606に関しては、本発明の第1の実施例の場合と同様であるので、説明を省略する。
画像認識607は、画像中の文字などを抽出し、認識して文字列などの認識結果を得る。
画像認識は、一般に、文字などの要素を画像中から切り出し、切り出した各々の要素を認識辞書とマッチングすることで行われる。
次に、図8のフローチャートを参照し、各ステップに関して説明する。
S706の位置合わせまでは、本発明の第1の実施例の場合と同様であるので、説明を省略する。
なお、ここでは、本発明の第1の実施例と同様に、撮像指示ブロック603の指示の後に第1画像604を取得しているが、本発明の第2の実施例と同様に、随時第1画像604を取得しておいてもよい。
位置合わせを行った後、画像認識ブロック607は、第2画像605を用いて、文字認識などの画像認識を行う(S707)。この時、画像の中心位置は、第1画像604の位置を基準にして判定する。
通常、撮像者は、画像の中心付近に、認識したい文字の行などを持ってくるので、中心位置がどこであるかは重要な意味を持つ。本発明を用いることにより、適切に認識対象を決定することができる。
この点に関し、図9を用いて説明する。
図9(a)は、第1画像604、図9(b)は第2画像605を示し、1201は、第1画像604の画像領域の外接枠、1202は、第2画像605の画像領域の外接枠、1204は第1画像604の中心位置、1206は第2画像605の中心位置を示す。
図9(b)のうち、外接枠1202より外側の部分は、実際に取得された画像には含まれない部分である。
符号1207、1208で示す文字列「YAMADA」が、撮像者が読み取りたい文字列である。このように、撮像指示装置で指示する時点で、読み取りたい文字列を画面の中心付近にくるようにして、撮像する。
第2画像605では、手の動きにより位置がずれているため、その中心位置1206付近には、読み取りたい文字列1208は存在しない。
符号1205は第1画像604の中心位置を、位置合わせにより、第2画像605の対応する位置に重ねたものである。
第2画像605上で、この符号1205で示される点を中心として処理を行うことにより、その付近に読み取りたい文字列1208が存在するので、読み取りたい対象がどれであるかを容易に判定して、正しく文字認識を行うことができる。
画像認識を行う場合は、人間が画像を見るのが目的ではないので、第1画像604と第2画像605の両方を用いる必要は必ずしもない。
しかしながら、ここでは、第2画像605を用いて画像認識を行うとしたが、第1画像604と第2画像605との両方を用いて生成される画像から、画像認識を行うことも考えられる。
第1画像604と第2画像605の両方を用いることにより、焦点を合わせている間の手ぶれにより撮像領域からはみ出てしまった部分についても、画像認識を行える場合もある。
画像認識を行った後は、例えば、撮像装置が携帯電話で、認識対象が電話番号であれば、引き続き、その電話番号に電話を掛けるなどの処理を行ってもよい。
今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
101,601 画像入力ブロック、102,602 オートフォーカス制御ブロック、103,603 撮像指示ブロック、104,604 第1画像、105,605 第2画像、106,606 撮像範囲情報取得ブロック、607 画像認識ブロック。