JP2005134968A

JP2005134968A - 携帯型情報端末装置および情報処理方法、記録媒体、並びにプログラム

Info

Publication number: JP2005134968A
Application number: JP2003367224A
Authority: JP
Inventors: Daisuke Mochizuki; 大介望月; Tomohisa Tanaka; 友久田中; Makoto Sato; 真佐藤
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-10-28
Filing date: 2003-10-28
Publication date: 2005-05-26
Anticipated expiration: 2023-10-28
Also published as: CN1638391A; US20050116945A1; JP4038771B2; KR20050040799A

Abstract

【課題】撮影された画像中から、所定の領域を文字認識して表示するようにする。
【解決手段】CCDカメラ２９は、被写体を撮像し、得られた画像データをメモリ３２に記憶させる。表示画像生成部３３は、メモリ３２に記憶されている画像データを読み出し、LCD２３に表示させる。ユーザは、その表示を見ながら、操作部３５を操作して、認識対象となる画像の始点および終点を選択する。画像処理／文字認識部３７は、選択された画像領域を文字認識し、その認識結果をメモリ３２に記憶させる。表示画像生成部３３は、メモリ３２に記憶されている文字認識結果の文字列データを読み出し、LCD２３に表示させる。本発明は、携帯電話機などの携帯型情報端末装置に適用することができる。
【選択図】図２

Description

本発明は、携帯型情報端末装置および情報処理方法、記録媒体、並びにプログラムに関し、特に、例えば、撮影された画像中から所定の領域を選択し、それを文字認識して表示することができるようにした携帯型情報端末装置および情報処理方法、記録媒体、並びにプログラムに関する。

従来のカメラ付き携帯電話機において、例えば、画面に表示される枠内に、本などに記載されている文字列を当てはめて撮影することにより、その枠内の画像（文字列）を文字認識し、端末内でキャラクタデータとして利用するようにしているものがある。

この一例として、広告に記載されているホームページのアドレスを撮影し、それを文字認識することにより、簡単に、サーバにアクセスすることができるようにしているものが提案されている（例えば、特許文献１参照）。

特開２００２−３６６４６３号公報

しかしながら、枠内に文字列を当てはめて撮影する際、ユーザは、文字のサイズや文字列の傾きを気にしつつ撮影する必要があり、操作が煩雑になる課題があった。

また、文章中から、文字認識させたい所定の文字列だけを枠内に当てはめることは困難である課題があった。

本発明はこのような状況に鑑みてなされたものであり、文字認識させたい文字列を含む文章などを撮影し、撮影された画像中から所定の文字列を選択し、それを文字認識することができるようにするものである。

本発明の携帯型情報端末装置は、被写体を撮像する撮像手段と、撮像手段により撮像された被写体に基づく画像の表示を制御する第１の表示制御手段と、第１の表示制御手段により表示が制御されている画像から、認識対象となる画像領域を選択する選択手段と、選択手段により選択された画像領域を認識する認識手段と、認識手段による認識結果の表示を制御する第２の表示制御手段とを備えることを特徴とする。

前記選択手段は、認識対象となる画像領域の始点および終点を選択するようにすることができる。

前記第１の表示制御手段は、画像の始点を指定するためのマークの表示をさらに制御し、マーク付近に認識対象となる画像が存在した場合、その画像に照準を合わせるように制御する照準制御手段をさらに設けるようにすることができる。

前記選択手段により選択された画像領域の拡張が指示された場合、画像領域に後続する画像を抽出する抽出手段をさらに設けるようにすることができる。

前記認識手段による認識結果を翻訳する翻訳手段をさらに設けるようにすることができる。

前記認識手段による認識結果に基づいて、他の装置にアクセスするアクセス手段をさらに設けるようにすることができる。

本発明の情報処理方法は、被写体を撮像する撮像ステップと、撮像ステップの処理により撮像された被写体に基づく画像の表示を制御する第１の表示制御ステップと、第１の表示制御ステップの処理により表示が制御されている画像から、認識対象となる画像領域を選択する選択ステップと、選択ステップの処理により選択された画像領域を認識する認識ステップと、認識ステップの処理による認識結果の表示を制御する第２の表示制御ステップとを含むことを特徴とする。

本発明の記録媒体に記録されているプログラムは、被写体を撮像する撮像ステップと、撮像ステップの処理により撮像された被写体に基づく画像の表示を制御する第１の表示制御ステップと、第１の表示制御ステップの処理により表示が制御されている画像から、認識対象となる画像領域を選択する選択ステップと、選択ステップの処理により選択された画像領域を認識する認識ステップと、認識ステップの処理による認識結果の表示を制御する第２の表示制御ステップとを含む処理をコンピュータに行わせることを特徴とする。

本発明のプログラムは、被写体を撮像する撮像ステップと、撮像ステップの処理により撮像された被写体に基づく画像の表示を制御する第１の表示制御ステップと、第１の表示制御ステップの処理により表示が制御されている画像から、認識対象となる画像領域を選択する選択ステップと、選択ステップの処理により選択された画像領域を認識する認識ステップと、認識ステップの処理による認識結果の表示を制御する第２の表示制御ステップとを含む処理をコンピュータに行わせることを特徴とする。

本発明においては、被写体が撮像され、撮像された被写体に基づく画像が表示され、表示されている画像から認識対象となる画像領域が選択され、選択された画像領域が認識され、その認識結果が表示される。

本発明によれば、撮影した画像を文字認識することができる。特に、撮影した画像中から、所定の領域を選択し、それを文字認識することが可能となる。

以下に本発明を実施するための最良の形態を説明するが、開示される発明と実施の形態との対応関係を例示すると、次のようになる。本明細書には記載されているが、発明に対応するものとして、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その発明に対応するものではないことを意味するものではない。逆に、実施の形態が発明に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その発明以外の発明には対応しないものであることを意味するものでもない。

さらに、この記載は、明細書に記載されている発明の全てを意味するものではない。換言すれば、この記載は、明細書に記載されている発明であって、この出願では請求されていない発明の存在、すなわち、将来、分割出願されたり、補正により出現し、追加される発明の存在を否定するものではない。

本発明は、被写体を撮像する撮像手段（例えば、図４のステップＳ１１の処理を実行する図１と図２のCCDカメラ２９）と、撮像手段により撮像された被写体に基づく画像の表示を制御する第１の表示制御手段（例えば、図４のステップＳ１３の処理を実行する図１と図２のLCD２３）と、第１の表示制御手段により表示が制御されている画像から、認識対象となる画像領域を選択する選択手段（例えば、図８のステップＳ２２，Ｓ２７の処理を実行する図２の表示画像生成部３３、および、図８のステップＳ２３乃至Ｓ２６の処理を実行する図２のコントロール部３１）と、選択手段により選択された画像領域を認識する認識手段（例えば、図１２のステップＳ５２の処理を実行する図２の画像処理／文字認識部３７）と、認識手段による認識結果の表示を制御する第２の表示制御手段（例えば、図１２のステップＳ５３の処理を実行する図１と図２のLCD２３）とを備える携帯型情報端末装置を提供する。

前記選択手段は、認識対象となる画像領域の始点および終点を（例えば、図１０Ａ乃至図１０Ｇに示すようにして）選択するようにすることができる。

この携帯型情報端末装置は、前記第１の表示制御手段は、画像の始点を指定するためのマーク（例えば、図５に示す指定点マーク５３）の表示をさらに制御し、マーク付近に認識対象となる画像が存在した場合、その画像に照準を合わせるように制御する照準制御手段（例えば、図４のステップＳ１６の処理を実行する図２のコントロール部３１）をさらに設けるようにすることができる。

この携帯型情報端末装置は、選択手段により選択された画像領域の拡張が指示された場合、画像領域に後続する画像を抽出する抽出手段（例えば、図１１の処理を実行する図２のコントロール部３１）をさらに設けるようにすることができる。

この携帯型情報端末装置は、認識手段による認識結果を翻訳する翻訳手段（例えば、図１２のステップＳ５６の処理を実行する図２の翻訳部３８）をさらに設けるようにすることができる。

この携帯型情報端末装置は、認識手段による認識結果に基づいて、他の装置にアクセスするアクセス手段（例えば、図１９のステップＳ１０６の処理を実行する図２のコントロール部３１）をさらに設けるようにすることができる。

また、本発明は、被写体を撮像する撮像ステップ（例えば、図４のステップＳ１１）と、撮像ステップの処理により撮像された被写体に基づく画像の表示を制御する第１の表示制御ステップ（例えば、図４のステップＳ１３）と、第１の表示制御ステップの処理により表示が制御されている画像から、認識対象となる画像領域を選択する選択ステップ（例えば、図８のステップＳ２２乃至Ｓ２７）と、選択ステップの処理により選択された画像領域を認識する認識ステップ（例えば、図１２のステップＳ５２）と、認識ステップの処理による認識結果の表示を制御する第２の表示制御ステップ（例えば、図１２のステップＳ５３）とを含む情報処理方法を提供する。

また、本発明は、被写体を撮像する撮像ステップ（例えば、図４のステップＳ１１）と、撮像ステップの処理により撮像された被写体に基づく画像の表示を制御する第１の表示制御ステップ（例えば、図４のステップＳ１３）と、第１の表示制御ステップの処理により表示が制御されている画像から、認識対象となる画像領域を選択する選択ステップ（例えば、図８のステップＳ２２乃至Ｓ２７）と、選択ステップの処理により選択された画像領域を認識する認識ステップ（例えば、図１２のステップＳ５２）と、認識ステップの処理による認識結果の表示を制御する第２の表示制御ステップ（例えば、図１２のステップＳ５３）とを含む処理をコンピュータに行わせるプログラムを提供する。

このプログラムは、記録媒体に記録することができる。

以下に、本発明の実施の形態について図面を参照して説明する。

図１は、本発明を適用したカメラ付き携帯電話機の外観の構成例を示す図である。

図１に示されるように、カメラ付き携帯電話機１（以下、単に携帯電話機１と称する）は、基本的に、表示部１２および本体１３から構成され、中央のヒンジ部１１により折り畳み可能に形成されている。

表示部１２の上端左部には、アンテナ２１が設けられており、このアンテナ２１を介して、基地局１０３（図１５）との間で電波が送受信される。表示部１２の上端近傍には、スピーカ２２が設けられており、このスピーカ２２から音声が出力される。

表示部１２のほぼ中央には、LCD（Liquid Crystal Display）２３が設けられている。LCD２３には、電波の受信状態、電池の残量、電話帳として登録されている氏名や電話番号、および発信履歴の他、入力ボタン２７が操作されることにより作成された文章（電子メールとして送信する文章）、あるいは、CCD（Charge Coupled Device）カメラ２９により撮像された画像などが表示される。

一方、本体１３には、「０」乃至「９」の数字ボタン（テンキー）、「＊」ボタン、「□」ボタンからなる入力ボタン２７が設けられている。ユーザは、この入力ボタン２７を操作することで、例えば、電子メールとして送信する文章やメモ帳などを作成することができる。

また本体１３の入力ボタン２７の上方中央には、水平方向（筐体の左右方向）を軸として回転自在なジョグダイヤル２４が、本体１３の表面から僅かに突出した状態で設けられている。例えば、このジョグダイヤル２４に対する回転操作に応じて、LCD２３に表示されている電子メールのスクロール等が行われる。ジョグダイヤル２４の左右には、左方向ボタン２５、および右方向ボタン２６がそれぞれ設けられている。本体１３の下方近傍には、マイクロフォン２８が設けられており、ユーザの音声が集音される。

ヒンジ部１１のほぼ中央には、１８０度の角度範囲で回動自在なCCDカメラ２９が設けられており、所望の被写体（本実施の形態では、本などに記載された文章）が撮影される。

図２は、携帯電話機１の内部の構成例を示すブロック図である。

コントロール部３１は、例えば、CPU（Central Processing Unit），ROM（Read Only Memory）,RAM（Random Access Memory）などで構成され、CPUがROMに記憶されている制御プログラムをRAMに展開することにより、CCDカメラ２９、メモリ３２、表示画像生成部３３、通信制御部３４、音声処理部３６、画像処理／文字認識部３７、翻訳部３８、およびドライブ３９の動作を制御する。

CCDカメラ２９は、被写体の画像を撮像し、得られた画像データをメモリ３２に供給する。メモリ３２は、CCDカメラ２９から供給された画像データを記憶するとともに、記憶した画像データを表示画像生成部３３および画像処理／文字認識部３７に供給する。表示画像生成部３３は、LCD２３の表示を制御し、CCDカメラ２９により撮像された画像や画像処理／文字認識部３７により認識された文字列等をLCD２３に表示させる。

通信制御部３４は、アンテナ２１を介して基地局１０３（図１５）との間で電波を送受信し、例えば、音声通話モード時において、アンテナ２１で受信されたRF（Radio Frequency）信号を増幅して周波数変換処理、アナログディジタル変換処理、スペクトラム逆拡散処理等の所定の処理を施し、得られた音声データを音声処理部３６に出力する。また、通信制御部３４は、音声処理部３６から音声データが供給されてきたとき、ディジタルアナログ変換処理、周波数変換処理、およびスペクトラム拡散処理等の所定の処理を施し、得られた音声信号をアンテナ２１から送信する。

操作部３５は、ジョグダイヤル２４、左方向ボタン２５、右方向ボタン２６、および入力ボタン２７等により構成され、ユーザにより、それらのボタンが押下されたとき、または押下された状態から離されたとき、対応する信号をコントロール部３１に出力する。

音声処理部３６は、通信制御部３４から供給されてきた音声データを音声信号に変換し、対応する音声信号をスピーカ２２から出力する。また、音声処理部３６は、マイクロフォン２８により集音されたユーザの音声を音声データに変換し、それを通信制御部３４に出力する。

画像処理／文字認識部３７は、メモリ３２から供給されてきた画像データに対して所定の文字認識アルゴリズムを用いて文字認識を行い、文字認識結果をコントロール部３１に供給するとともに、必要に応じて翻訳部３８に供給する。翻訳部３８は、辞書データを保持しており、その辞書データに基づいて、画像処理／文字認識部３７から供給されてきた文字認識結果を翻訳し、翻訳結果をコントロール部３１に供給する。

コントロール部３１には、必要に応じてドライブ３９が接続され、磁気ディスク、光ディスク、光磁気ディスク、あるいは、半導体メモリなどのリムーバブルメディア４０が適宜装着され、それから読み出されたコンピュータプログラムが、必要に応じて携帯電話機１にインストールされる。

次に、図３のフローチャートを参照して、携帯電話機１の文字認識処理について説明する。この処理は、例えば、ユーザが、本などに記載された文章の中から所定の文字列を認識させたい場合において、LCD２３に表示されるメニューから文字認識処理を開始する項目（図示せず）が選択されたとき、開始される。またこのとき、ユーザは、認識させる文字列が横書きであるか、または縦書きであるかを選択する。ここでは、認識させる文字列が横書きである場合について説明する。

ステップＳ１において、ユーザが認識させたい文字列をCCDカメラ２９で撮像するために、その認識させたい文字列に照準を合わせるべく照準モード処理が実行される。この照準モード処理により、認識対象となる画像（文字列）の始点（先頭文字）が決定される。ステップＳ１の照準モード処理の詳細については、図４のフローチャートを参照して後述する。

ステップＳ２において、ステップＳ１の処理で決定された画像を始点として、認識対象となる画像領域を選択するべく選択モード処理が実行される。この選択モード処理により、認識対象となる画像領域（文字列）が決定される。ステップＳ２の選択モード処理の詳細については、図８のフローチャートを参照して後述する。

ステップＳ３において、ステップＳ２の処理で決定された文字列を認識し、その認識結果を表示するべく結果表示モード処理が実行される。この結果表示モード処理により、選択された画像が認識され、その認識結果が表示され、認識された文字列が翻訳される。ステップＳ３の結果表示モード処理の詳細については、図１２のフローチャートを参照して後述する。

以上のように、携帯電話機１は、本などに記載された文章を撮像し、撮像された画像中から所定の文字列を選択して認識し、その認識結果を表示するといったような処理を行うことができる。

次に、図４のフローチャートを参照して、図３のステップＳ１における照準モード処理の詳細について説明する。

ユーザは、認識させたい文字列が記載されている本などに携帯電話機１を近接させる。そして、CCDカメラ２９により撮像されているスルー画像（いわゆるモニタリング中の画像）を見ながら、そこに表示される指定点マーク５３（図５）に、認識させたい文字列の先頭文字が合致するように携帯電話機１の位置を調整する。

このとき、ステップＳ１１において、CCDカメラ２９は、撮像されているスルー画像を取得し、メモリ３２に供給する。ステップＳ１２において、メモリ３２は、CCDカメラ２９から供給されたスルー画像を記憶する。ステップＳ１３において、表示画像生成部３３は、メモリ３２に記憶されているスルー画像を読み出し、例えば、図５に示されるように、指定点マーク５３とともにスルー画像をLCD２３に表示させる。

図５の例の場合、LCD２３には、撮像画像を表示する画像表示エリア５１、および、「認識する文字の始点を決めてください」と示されたダイアログ５２が表示されている。また、指定点マーク５３は、画像表示エリア５１のほぼ中央に表示されている。ユーザは、この画像表示エリア５１に表示されている指定点マーク５３を、認識対象となる画像の始点に合致するように照準を合わせる。

ステップＳ１４において、コントロール部３１は、表示画像生成部３３によりLCD２３に表示されているスルー画像のうち、指定点マーク５３を中心とした所定領域内のスルー画像を抽出する。ここで、携帯電話機１には、図６に示されるように、指定点マーク５３を中心とした領域６１が予め設定されており、コントロール部３１は、この領域６１内のスルー画像を抽出する。なお、領域６１は、説明をわかりやすくするために、仮想的に図示したものであり、実際には、内部情報としてコントロール部３１により管理される。

ステップＳ１５において、コントロール部３１は、ステップＳ１４の処理で抽出した領域６１内のスルー画像において、認識対象となる画像（文字列）が存在するか否かを判定する。より具体的には、例えば、白色の紙に黒色で文章が記載されている場合、領域６１内に黒色の画像が存在するか否かが判定される。また例えば、予め、様々な文字の形状がデータベースとして登録されており、領域６１内に、データベースに登録されている文字の形状と一致するものがあるか否かが判定される。なお、認識対象となる画像が存在するか否かを判定する方法は、画像の色差を利用したり、データベースとの合致を利用したりするものに限られるものではない。

ステップＳ１５において、認識対象となる画像が存在しないと判定された場合、ステップＳ１１に戻り、上述した処理が繰り返し実行される。一方、ステップＳ１５において、認識対象となる画像が存在すると判定された場合、ステップＳ１６に進み、コントロール部３１は、領域６１内に存在した認識対象となる画像のうち、指定点マーク５３に最も近い画像に照準を合わせる。そして、表示画像生成部３３は、指定点マーク５３に最も近い画像と照準済みマーク７１を合成し、その合成画像をLCD２３に表示させる。

図７は、認識対象となる画像（文字列）と照準済みマーク７１の合成画像の表示例を示している。同図に示されるように、画像表示エリア５１には、認識対象となる“snapped”の画像の先頭画像である“ｓ”に照準済みマーク７１が合成されて表示されている。このように、領域６１内に認識対象となる画像が存在した場合、指定点マーク５３に最も近い画像に照準が自動的に合わされ、照準済みマーク７１が表示される。なお、この照準済み状態から、携帯電話機１の位置が調整されるなどして、領域６１内に認識対象となる画像が存在しなくなると、再び指定点マーク５３に表示が切り替えられる。

ステップＳ１７において、コントロール部３１は、ユーザにより決定ボタンが押下されたか否か、すなわち、ジョグダイヤル２４が押圧されたか否かを判定し、決定ボタンが押下されていないと判定した場合、ステップＳ１１に戻り、上述した処理を繰り返し実行する。そして、ステップＳ１７において、ユーザにより決定ボタンが押下されたと判定された場合、処理は、図３のステップＳ２にリターンされる（すなわち、選択モード処理に遷移される）。

このような照準モード処理が実行されることにより、ユーザが認識させたい文字列の始点（先頭文字）に照準が合わされる。

次に、図８のフローチャートを参照して、図３のステップＳ２における選択モード処理の詳細について説明する。

上述した図４の照準モード処理において、認識対象となる画像（文字列）の先頭（いまの場合、“ｓ”）に照準が合わされ、決定ボタンが押下されると、ステップＳ２１において、表示画像生成部３３は、現在選択されている画像（すなわち、“ｓ”）を囲む領域として、文字列選択領域８１（図９）を初期化する。ステップＳ２２において、表示画像生成部３３は、メモリ３２に記憶されている画像とステップＳ２１の処理で初期化された文字列選択領域８１を合成し、その合成画像をLCD２３に表示させる。

図９は、認識対象となる画像の先頭と文字列選択領域８１の合成画像の表示例を示している。同図に示されるように、認識対象となる画像の先頭画像である“ｓ”を囲むようにして文字列選択領域８１が合成され、表示されている。またダイアログ５２には、「認識する文字の終点を決めてください」と示されたメッセージが表示されている。ユーザは、このダイアログ５２に示されているメッセージに従い、右方向ボタン２６を押下し、認識対象となる画像の終点まで文字列選択領域８１を拡張させる。

ステップＳ２３において、コントロール部３１は、ユーザによりジョグダイヤル２４、左方向ボタン２５、右方向ボタン２６、または入力ボタン２７等のボタンが押下されたか否か、すなわち、操作部３５から入力信号が供給されたか否かを判定し、ボタンが押下されたと判定するまで待機する。そして、ステップＳ２３において、ボタンが押下されたと判定された場合、ステップＳ２４に進み、コントロール部３１は、操作部３５から供給された入力信号から、決定ボタン（すなわち、ジョグダイヤル２４）が押下されたか否かを判定する。

ステップＳ２４において、決定ボタンが押下されていないと判定された場合、ステップＳ２５に進み、コントロール部３１は、さらに、文字列選択領域８１を拡張するボタン（すなわち、右方向ボタン２６）が押下されたか否かを判定し、文字列選択領域８１を拡張するボタンが押下されていないと判定した場合、その操作は無効であると判断して、ステップＳ２３に戻り、上述した処理を繰り返し実行する。

ステップＳ２５において、文字列選択領域８１を拡張するボタンが押下されたと判定された場合、ステップＳ２６に進み、文字列選択領域８１に後続する画像の抽出処理が実行される。この後続画像の抽出処理により、文字列選択領域８１が既に選択している画像の後続画像が抽出される。ステップＳ２６の後続画像の抽出処理の詳細については、図１１のフローチャートを参照して後述する。

ステップＳ２７において、表示画像生成部３３は、ステップＳ２６の処理で抽出した後続画像を含むように、文字列選択領域８１を更新する。その後、処理はステップＳ２２に戻り、上述した処理が繰り返し実行される。そして、ステップＳ２４において、決定ボタンが押下されたと判定された場合、処理は、図３のステップＳ３にリターンされる（すなわち、結果表示モード処理に遷移される）。

図１０Ａ乃至図１０Ｇは、ステップＳ２２乃至Ｓ２７の処理が繰り返し実行されることにより、認識対象となる画像領域（文字列）が選択される動作を示している。すなわち、先頭画像の“ｓ”が始点に決定された後（図１０Ａ）、文字列選択領域８１を拡張するボタン（すなわち、右方向ボタン２６）が１回押下されることで、“sn”が選択される（図１０Ｂ）。同様にして、右方向ボタン２６が順次押下されることで、“sna”（図１０Ｃ）、“snap”（図１０Ｄ）、“snapp”（図１０Ｅ）、“snappe”（図１０Ｆ）、および“snapped”（図１０Ｇ）の順に選択される。

このような選択モード処理が実行されることにより、ユーザが認識させたい文字列の範囲（始点から終点）が決定される。

なお、図示は省略するが、左方向ボタン２５が押下されることで、その選択が順次解除される。例えば、文字列選択領域８１により“snapped”が選択されている状態において（図１０Ｇ）、左方向ボタン２５が１回押下されると、“ｄ”の選択が解除され、“snappe”が選択される状態に更新される（図１０Ｆ）。

次に、図１１のフローチャートを参照して、図８のステップＳ２６の処理における、文字列選択領域８１に後続する画像の抽出処理の詳細について説明する。

ステップＳ４１において、コントロール部３１は、画像中から文字となる画像を全て抽出し、その重心点（x_i,y_i）（ｉ＝１，２，３・・・）を求める。ステップＳ４２において、コントロール部３１は、ステップＳ４１の処理で求めた全ての重心点（x_i,y_i）に対してθρ−Hough変換を行い、（ρ,θ）空間に変換する。

ここで、θρ−Hough変換とは、画像処理において直線検出に用いられるアルゴリズムであり、次式（１）を用いて、（ｘ,ｙ）座標空間から（ρ,θ）空間への変換が行われる。
ρ=ｘ・cosθ＋ｙ・sinθ ・・・（１）

例えば、（ｘ,ｙ）座標空間における１つの点（ｘ',ｙ'）に対してθρ−Hough変換が行われると、（ρ,θ）空間では、次式（２）で表現される正弦波形となる。
ρ＝ｘ'・cosθ＋ｙ'・sinθ ・・・（２）

また例えば、（ｘ,ｙ）座標空間における２つの点に対してθρ−Hough変換が行われると、（ρ,θ）空間では、所定の部分で正弦波が交点を持つ部分がでてくる。この交点の座標（ρ',θ'）が、次式（３）で表現される（ｘ,ｙ）座標空間の２つの点を通る直線のパラメータとなる。
ρ=ｘ・cosθ＋ｙ・sinθ ・・・（３）

また例えば、文字となる画像の全ての重心点に対してθρ−Hough変換が行われると、（ρ,θ）空間では、多数の正弦波が交わる部分がでてくる。その交わり位置のパラメータが、（ｘ,ｙ）座標空間で複数の重心を通る直線のパラメータ、すなわち、文字列を通る直線のパラメータとなる。

正弦波の交わりの回数を（ρ,θ）空間における値とした場合、複数の行が存在する画像では、大きな値を持つ部分が複数でてくる。そこでステップＳ４３において、コントロール部３１は、このような大きな値を持ち、かつ、照準物体の重心付近を通るような直線のパラメータを１つ見つけ、それを照準物体が属する直線のパラメータとする。

ステップＳ４４において、コントロール部３１は、ステップＳ４３の処理で求めた直線のパラメータから、その傾き方向を求める。ステップＳ４５において、コントロール部３１は、ステップＳ４４の処理で求めた直線パラメータの傾き方向の右側に存在する画像を抽出する。ステップＳ４６において、コントロール部３１は、ステップＳ４５の処理で抽出した画像を後続画像と判断し、処理は、図８のステップＳ２７にリターンする。

なお、図３の文字認識処理を開始するにあたって、ユーザにより、認識させる文字が横書きであることが選択されているため、ステップＳ４５において、傾き方向の右側に存在する画像が抽出されるが、認識させる文字が縦書きであることが選択された場合には、傾き方向の下側に存在する画像が抽出される。

以上のような後続画像の抽出処理が実行されることにより、現在の文字列選択領域８１の後続（右側または下側）の画像が抽出される。

次に、図１２のフローチャートを参照して、図３のステップＳ３における結果表示モード処理の詳細について説明する。

上述した図８の選択モード処理において、認識対象となる画像（文字列）が文字列選択領域８１により選択され、決定ボタンが押下されると、ステップＳ５１において、画像処理／文字認識部３７は、メモリ３２に記憶されている画像のうち、文字列選択領域８１内の画像（いまの場合、“snapped”）を、所定の文字認識アルゴリズムを用いて文字認識する。

ステップＳ５２において、画像処理／文字認識部３７は、ステップＳ５１の処理による文字認識結果の文字列データをメモリ３２に記憶させる。ステップＳ５３において、表示画像生成部３３は、メモリ３２に記憶されている文字認識結果の文字列データを読み出し、例えば、図１３に示されるような画面をLCD２３に表示させる。

図１３の例の場合、画像表示エリア５１には、「snapped」と示された文字認識結果９１が表示されており、ダイアログ５２には、「翻訳しますか？」と示されたメッセージが表示されている。ユーザは、このダイアログ５２に示されているメッセージに従い、決定ボタン（ジョグダイヤル２４）を押下する。これにより、携帯電話機１は、認識された文字を翻訳することができる。

ステップＳ５４において、コントロール部３１は、ユーザによりジョグダイヤル２４、左方向ボタン２５、右方向ボタン２６、または入力ボタン２７等のボタンが押下されたか否か、すなわち、操作部３５から入力信号が供給されたか否かを判定し、ボタンが押下されていないと判定した場合、ステップＳ５３に戻り、上述した処理を繰り返し実行する。

そして、ステップＳ５４において、ボタンが押下されたと判定された場合、ステップＳ５５に進み、さらに、コントロール部３１は、ユーザにより決定ボタンが押下されたか否か、すなわち、ジョグダイヤル２４が押圧されたか否かを判定する。ステップＳ５５において、決定ボタンが押下されたと判定された場合、ステップＳ５６に進み、翻訳部３８は、ステップＳ５１の処理で画像処理／文字認識部３７により文字認識され、ステップＳ５３の処理で認識結果としてLCD２３に表示されている文字列データを、所定の辞書データを用いて翻訳する。

ステップＳ５７において、表示画像生成部３３は、ステップＳ５６の処理で翻訳された翻訳結果を、例えば、図１４に示されるように、LCD２３に表示させる。

図１４の例の場合、画像表示エリア５１には、「snapped」と示された文字認識結果９１が表示されており、ダイアログ５２には、「翻訳：撮った」と示された翻訳結果が表示されている。このように、ユーザは、選択した文字列の翻訳を簡単に行うことができる。

ステップＳ５８において、コントロール部３１は、ユーザによりジョグダイヤル２４、左方向ボタン２５、右方向ボタン２６、または入力ボタン２７等のボタンが押下されたか否か、すなわち、操作部３５から入力信号が供給されたか否かを判定し、ボタンが押下されていないと判定した場合、ステップＳ５７に戻り、上述した処理を繰り返し実行する。そして、ステップＳ５８において、ボタンが押下されたと判定された場合、処理は終了される。

このような結果表示モード処理が実行されることにより、認識された文字列が認識結果として表示され、必要に応じて、認識された文字列が翻訳される。

また、認識結果が表示される際、認識された文字列を利用するアプリケーション（例えば、インターネットブラウザ、翻訳ソフト、またはテキスト作成ソフトなど）を選択可能に表示することも可能である。具体的には、例えば、認識結果として、“Hello”が表示される際に、翻訳ソフトやテキスト作成ソフトがアイコンなどで選択可能に表示される。そして、ユーザにより翻訳ソフトが選択された場合には、“こんにちは”に翻訳され、テキスト作成ソフトが選択された場合には、テキスト作成画面に“Hello”が入力される。

以上のように、携帯電話機１は、本などに記載された文章をCCDカメラ２９により撮像し、撮像された画像を文字認識し、認識結果で得られた文字列を簡単に翻訳することができる。すなわち、ユーザは、翻訳したいと思う文字列を入力しなくても、その文字列を携帯電話機１のCCDカメラ２９で撮像させるだけで、簡単に翻訳することが可能となる。

また、認識する文字のサイズや文字列の傾きに注力する必要がないため、文字列の位置合わせといったユーザの操作の負担を軽減することができる。

以上においては、本などに記載された文字列（英単語）をCCDカメラ２９により撮像し、撮像された画像を文字認識し、文字認識で得られた文字列を翻訳するようにしたが、本発明はこれに限られるものではなく、例えば、本などに記載されたURL（Uniform Resource Locator）をCCDカメラ２９により撮像し、撮像された画像を文字認識し、文字認識で得られたURLに基づいてサーバなどにアクセスすることもできる。

図１５は、本発明を適用したサーバアクセスシステムの構成例を示す図である。このシステムにおいては、インターネットなどのネットワーク１０２に、サーバ１０１が接続されているとともに、固定無線端末である基地局１０３を介して携帯電話機１が接続されている。

サーバ１０１は、例えば、ワークステーションまたはコンピュータなどで構成され、そのCPU（図示せず）がサーバプログラムを実行し、携帯電話機１からの要求に基づいて、自己が開設するホームページに関するコンパクトHTML（Hypertext Markup Language）ファイルを、ネットワーク１０２を介して配信する。

基地局１０３は、移動無線端末である、携帯電話機１を、例えば、W-CDMA（Wideband-Code Division Multiple Access）と呼ばれる符号分割多元接続により無線接続し、大容量データを高速にデータ通信する。

携帯電話機１は、基地局１０３とW-CDMA方式により大容量データを高速にデータ通信できるので、音声通話に限らず、電子メールの送受信、簡易ホームページの閲覧、画像の送受信等の多種に及ぶデータ通信を実行することができる。

また携帯電話機１は、本などに記載されたURLをCCDカメラ２９により撮像し、撮像された画像を文字認識し、文字認識で得られたURLに基づいてサーバ１０１にアクセスすることができる。

次に、再び図３のフローチャートを参照して、図１５に示した携帯電話機１の文字認識処理について説明する。なお、説明が上述した内容と重複する場合には、適宜省略する。

ステップＳ１において、照準モード処理が実行されるこれにより、認識対象となる画像（URL）の始点（先頭文字）が決定される。ステップＳ２において、選択モード処理が実行されることにより、認識対象となる画像領域が決定される。ステップＳ３において、結果表示モード処理が実行されることにより、選択された画像が認識され、その認識結果（URL）が表示され、認識されたURLに基づいてサーバ１０１にアクセスされる。

次に、再び図４のフローチャートを参照して、図３のステップＳ１における照準モード処理の詳細について説明する。

ユーザは、認識させたいURLが記載されている本などに携帯電話機１を近接させる。そして、CCDカメラ２９により撮像されているスルー画像を見ながら、そこに表示される指定点マーク５３（図１６）に、認識させたいURLの先頭文字（いまの場合、ｈ）が合致するように携帯電話機１の位置を調整する。

このとき、ステップＳ１１において、CCDカメラ２９は、撮像されているスルー画像を取得し、ステップＳ１２において、メモリ３２は、そのスルー画像を記憶する。ステップＳ１３において、表示画像生成部３３は、メモリ３２に記憶されているスルー画像を読み出し、例えば、図１６に示されるように、指定点マーク５３とともにスルー画像をLCD２３に表示させる。

図１６の例の場合、LCD２３には、撮像画像を表示する画像表示エリア５１、および、「認識する文字の始点を決めてください」と示されたダイアログ５２が表示されている。また、指定点マーク５３は、画像表示エリア５１のほぼ中央に表示されている。ユーザは、この画像表示エリア５１に表示されている指定点マーク５３を、認識対象となる画像の始点に合致するように照準を合わせる。

ステップＳ１４において、コントロール部３１は、表示画像生成部３３によりLCD２３に表示されているスルー画像のうち、指定点マーク５３を中心とした所定の領域６１（図６）内のスルー画像を抽出する。ステップＳ１５において、コントロール部３１は、ステップＳ１４の処理で抽出した領域６１内のスルー画像において、認識対象となる画像（URL）が存在するか否かを判定し、認識対象となる画像が存在しないと判定した場合、ステップＳ１１に戻り、上述した処理を繰り返し実行する。

ステップＳ１５において、認識対象となる画像が存在すると判定された場合、ステップＳ１６に進み、コントロール部３１は、領域６１内に存在した認識対象となる画像のうち、指定点マーク５３に最も近い画像に照準を合わせる。そして、表示画像生成部３３は、指定点マーク５３に最も近い画像と照準済みマーク７１（図７）を合成し、その合成画像をLCD２３に表示させる。

このような照準モード処理が実行されることにより、ユーザが認識させたいURLの始点（先頭文字）に照準が合わされる。

次に、再び図８のフローチャートを参照して、図３のステップＳ２における選択モード処理の詳細について説明する。

ステップＳ２１において、表示画像生成部３３は、文字列選択領域８１（図１７）を初期化し、ステップＳ２２において、メモリ３２に記憶されている画像と初期化された文字列選択領域８１を合成し、その合成画像をLCD２３に表示させる。

図１７は、認識対象となる画像の先頭と文字列選択領域８１の合成画像の表示例を示している。同図に示されるように、認識対象となる画像の先頭画像である“ｈ”を囲むようにして文字列選択領域８１が合成され、表示されている。またダイアログ５２には、「認識する文字の終点を決めてください」と示されたメッセージが表示されている。ユーザは、このダイアログ５２に示されているメッセージに従い、右方向ボタン２６を押下し、認識対象となる画像の終点まで文字列選択領域８１を拡張させる。

ステップＳ２３において、コントロール部３１は、ユーザによりボタンが押下されたか否かを判定し、ボタンが押下されたと判定するまで待機する。そして、ステップＳ２３において、ボタンが押下されたと判定された場合、ステップＳ２４に進み、コントロール部３１は、操作部３５から供給される入力信号から、決定ボタン（すなわち、ジョグダイヤル２４）が押下されたか否かを判定し、決定ボタンが押下されていないと判定した場合、ステップＳ２５に進む。

ステップＳ２５において、コントロール部３１は、さらに、文字列選択領域８１を拡張するボタン（すなわち、右方向ボタン２６）が押下されたか否かを判定し、文字列選択領域８１を拡張するボタンが押下されていないと判定した場合、その操作は無効であると判断し、ステップＳ２３に戻り、上述した処理を繰り返し実行する。ステップＳ２５において、文字列選択領域８１を拡張するボタンが押下されたと判定された場合、ステップＳ２６に進み、図１１のフローチャートを参照して上述したようにして、コントロール部３１は、文字列選択領域８１に後続する画像を抽出する。

図１８は、ステップＳ２２乃至Ｓ２７の処理が繰り返し実行されることにより、認識対象となる画像が文字列選択領域８１により選択された様子を示している。図１８の例の場合、URLの“http://www.aaa.co.jp”が文字列選択領域８１により選択されている。

このような選択モード処理が実行されることにより、ユーザが認識させたい文字列（URL）の範囲（始点から終点）が決定される。

次に、図１９のフローチャートを参照して、図３のステップＳ３における結果表示モード処理の詳細について説明する。なお、説明が図１２を用いて上述した内容と重複する場合には、適宜省略する。

ステップＳ１０１において、画像処理／文字認識部３７は、メモリ３２に記憶されている画像のうち、文字列選択領域８１内の画像（いまの場合、“http://www.aaa.co.jp”）を、所定の文字認識アルゴリズムを用いて文字認識し、ステップＳ１０２において、その文字認識結果の文字列データをメモリ３２に記憶させる。ステップＳ１０３において、表示画像生成部３３は、メモリ３２に記憶されている文字認識結果の文字列データを読み出し、例えば、図２０に示されるような画面をLCD２３に表示させる。

図２０の例の場合、画像表示エリア５１には、「http://www.aaa.co.jp」と示された文字認識結果９１が表示されており、ダイアログ５２には、「アクセスしますか？」と示されたメッセージが表示されている。ユーザは、このダイアログ５２に示されているメッセージに従い、決定ボタン（ジョグダイヤル２４）を押下する。これにより、携帯電話機１は、認識されたURLに基づいて、サーバ１０１へアクセスし、所望のホームページを閲覧することができる。

ステップＳ１０４において、コントロール部３１は、ユーザによりボタンが押下されたか否かを判定し、ボタンが押下されていないと判定した場合、ステップＳ１０３に戻り、上述した処理を繰り返し実行する。そして、ステップＳ１０４において、ボタンが押下されたと判定された場合、ステップＳ１０５に進み、さらに、コントロール部３１は、ユーザにより決定ボタンが押下されたか否か、すなわち、ジョグダイヤル２４が押圧されたか否かを判定する。

ステップＳ１０５において、決定ボタンが押下されたと判定された場合、ステップＳ１０６に進み、コントロール部３１は、ステップＳ１０１の処理で画像処理／文字認識部３７により文字認識されたURLに基づいて、ネットワーク１０２を介してサーバ１０１にアクセスする。

ステップＳ１０７において、コントロール部３１は、ユーザによりサーバ１０１との接続が切断されたか否かを判定し、サーバ１０１との接続が切断されるまで待機する。そして、ステップＳ１０７において、サーバ１０１との接続が切断されたと判定された場合、あるいは、ステップＳ１０５において、決定ボタンが押下されていない（すなわち、サーバ１０１へのアクセスが指示されていない）と判定された場合、処理は終了される。

このような結果表示モード処理が実行されることにより、認識されたURLが認識結果として表示され、必要に応じて、認識されたURLに基づいて所定のサーバにアクセスされる。

以上のように、携帯電話機１は、本などに記載されたURLをCCDカメラ２９により撮像し、撮像された画像を文字認識し、認識結果で得られたURLに基づいてサーバ１０１などにアクセスすることができる。すなわち、ユーザは、閲覧してみたいと思うホームページのURLを入力しなくても、そのURLを携帯電話機１のCCDカメラ２９で撮像させるだけで、簡単にサーバ１０１にアクセスし、所望のホームページを閲覧することが可能となる。

以上においては、本発明を携帯電話機１に適用した場合について説明したが、これに限らず、本などに記載された文字列を撮像するCCDカメラ２９、CCDカメラ２９により撮像された画像や認識結果などを表示するLCD２３、および、認識対象となる文字列を選択したり、文字列選択領域８１の領域を拡張したり、あるいは、各種操作を行う操作部３５を有する携帯型情報端末装置に広く適用することが可能である。

図２１は、本発明を適用した携帯型情報端末装置の外観の構成例を示している。図２１Ａは、携帯型情報端末装置２００の正面斜視図を示し、図２１Ｂは、携帯型情報端末装置２００の背面斜視図を示している。同図に示されるように、携帯型情報端末装置２００の正面には、スルー画像や認識結果などを表示するためのLCD２３、認識対象となる文字を選択するための決定ボタン２０１、および文字列選択領域８１の領域を拡張するための領域拡張ボタン２０２などが設けられている。また、携帯型情報端末装置２００の背面には、本に記載された文章などを撮像するためのCCDカメラ２９が設けられている。

このような構成を有する携帯型情報端末装置２００を用いることにより、本などに記載された文字列を撮像し、撮像された画像を文字認識し、認識結果で得られた文字列を翻訳したり、あるいは、所定のサーバにアクセスしたりすることができる。

なお、携帯型情報端末装置２００は、図２１に示した構成に限られるものではなく、例えば、決定ボタン２０１および拡張ボタン２０２の代わりに、ジョグダイヤルを設けるようにしてもよい。

上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。

この記録媒体は、図２に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM（Compact Disc-Read Only Memory）、DVD(Digital Versatile Disc)を含む）、光磁気ディスク（MD(Mini-Disc)（登録商標）を含む）、もしくは半導体メモリなどのリムーバブルメディア４０により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROMや記憶部などで構成される。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

本発明を適用したカメラ付き携帯電話機の外観の構成例を示す図である。携帯電話機の内部の構成例を示すブロック図である。文字認識処理を説明するフローチャートである。図３のステップＳ１における照準モード処理の詳細を説明するフローチャートである。指定点マークの表示例を示す図である。指定点マークを中心とした領域を説明する図である。照準済みマークの表示例を示す図である。図３のステップＳ２における選択モード処理の詳細を説明するフローチャートである。文字列選択領域の表示例を示す図である。認識対象となる画像が選択される動作を示す図である。図８のステップＳ２６の処理における後続画像の抽出処理を説明するフローチャートである。図３のステップＳ３における結果表示モード処理の詳細を説明するフローチャートである。文字認識結果の表示例を示す図である。翻訳結果の表示例を示す図である。本発明を適用したサーバアクセスシステムの構成例を示す図である。指定点マークの表示例を示す図である。文字列選択領域の表示例を示す図である。認識対象となる画像が選択された様子を示す図である。図３のステップＳ３における結果表示モード処理の詳細を説明するフローチャートである。文字認識結果の表示例を示す図である。本発明を適用した携帯型情報端末装置の外観の構成例を示す図である。

符号の説明

１カメラ付き携帯電話機，２３ LCD，２４ジョグダイヤル，２７入力ボタン，２９ CCDカメラ，３１コントロール部，３３表示画像生成部，３５操作部，３７画像処理／文字認識部，３８翻訳部，３９ドライブ，４０リムーバブルメディア，１０１サーバ

Claims

被写体を撮像する撮像手段と、
前記撮像手段により撮像された前記被写体に基づく画像の表示を制御する第１の表示制御手段と、
前記第１の表示制御手段により表示が制御されている前記画像から、認識対象となる画像領域を選択する選択手段と、
前記選択手段により選択された前記画像領域を認識する認識手段と、
前記認識手段による認識結果の表示を制御する第２の表示制御手段と
を備えることを特徴とする携帯型情報端末装置。
前記選択手段は、前記認識対象となる画像領域の始点および終点を選択する
ことを特徴とする請求項１に記載の携帯型情報端末装置。
前記第１の表示制御手段は、前記画像の始点を指定するためのマークの表示をさらに制御し、
前記マーク付近に前記認識対象となる画像が存在した場合、その画像に照準を合わせるように制御する照準制御手段をさらに備える
ことを特徴とする請求項１に記載の携帯型情報端末装置。
前記選択手段により選択された前記画像領域の拡張が指示された場合、前記画像領域に後続する画像を抽出する抽出手段をさらに備える
ことを特徴とする請求項１に記載の携帯型情報端末装置。
前記認識手段による認識結果を翻訳する翻訳手段をさらに備える
ことを特徴とする請求項１に記載の携帯型情報端末装置。
前記認識手段による認識結果に基づいて、他の装置にアクセスするアクセス手段をさらに備える
ことを特徴とする請求項１に記載の携帯型情報端末装置。
被写体を撮像する撮像ステップと、
前記撮像ステップの処理により撮像された前記被写体に基づく画像の表示を制御する第１の表示制御ステップと、
前記第１の表示制御ステップの処理により表示が制御されている前記画像から、認識対象となる画像領域を選択する選択ステップと、
前記選択ステップの処理により選択された前記画像領域を認識する認識ステップと、
前記認識ステップの処理による認識結果の表示を制御する第２の表示制御ステップと
を含むことを特徴とする情報処理方法。
被写体を撮像する撮像ステップと、
前記撮像ステップの処理により撮像された前記被写体に基づく画像の表示を制御する第１の表示制御ステップと、
前記第１の表示制御ステップの処理により表示が制御されている前記画像から、認識対象となる画像領域を選択する選択ステップと、
前記選択ステップの処理により選択された前記画像領域を認識する認識ステップと、
前記認識ステップの処理による認識結果の表示を制御する第２の表示制御ステップと
を含むことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。
被写体を撮像する撮像ステップと、
前記撮像ステップの処理により撮像された前記被写体に基づく画像の表示を制御する第１の表示制御ステップと、
前記第１の表示制御ステップの処理により表示が制御されている前記画像から、認識対象となる画像領域を選択する選択ステップと、
前記選択ステップの処理により選択された前記画像領域を認識する認識ステップと、
前記認識ステップの処理による認識結果の表示を制御する第２の表示制御ステップと
をコンピュータに実行させることを特徴とするプログラム。