JP4352902B2

JP4352902B2 - 情報処理装置

Info

Publication number: JP4352902B2
Application number: JP2004006213A
Authority: JP
Inventors: 正裕山▲崎▼; 英樹桑本
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2004-01-14
Filing date: 2004-01-14
Publication date: 2009-10-28
Anticipated expiration: 2024-01-14
Also published as: JP2005202533A

Description

本発明は、情報処理装置に関わり、例えば、携帯電話、PHS（Personal Handy-phone System）、PDA（Personal Digital Assistant）、PC（Personal Computer）等に関するものである。

従来、紙面上に印刷された文字列のイメージを読み取り、OCR（Optical Character Recognition）機能を利用してそのイメージから文字列を認識して文字情報に変換し、翻訳辞書を参照してその文字列に対応する翻訳を表示部に表示する電子辞書が提案されている（例えば、特開平５−２７４３４６号公報）。

特開平５−２７４３４６号公報

しかしながら、上記特許文献１では、単語を翻訳する度にボタンを押下する必要があるため、文章中に翻訳したい単語が多く含まれる場合は何度もシャッターを押下しなければならず、非常に手間がかかってしまい操作が煩わしい。そのため、翻訳を簡易に表示可能で使い勝手の良い情報処理装置が望まれていた。

そこで、本発明は、上記課題を解決し、使い勝手を向上した情報処理装置、情報処理方法及びソフトウェアを提供することを目的とする。

本発明にかかる情報処理装置は、静止画又は動画を撮像する通常撮像モードと識別情報を認識する認識モードとを有し、画像情報を出力する撮像部と、ユーザの入力を受け付ける入力部と、前記撮像部により出力された画像情報の中から識別情報の認識を行う対象とする認識範囲を抽出する抽出部と、前記抽出部により抽出された認識範囲の画像情報に含まれる識別情報を認識する認識部と、前記認識部により認識された識別情報の関連情報を表示する表示部と、前記撮像部、前記抽出部、前記認識部、及び前記表示部を制御する制御部と、を備える。そして、前記制御部は、前記認識モードに設定されているとき、前記抽出部により抽出された認識範囲が所定回数連続して同じ大きさであると判断した場合に前記認識範囲の画像情報に含まれる識別情報の認識処理を前記入力部へのユーザ操作なしに実行するように前記認識部を制御し、前記認識範囲が所定回数連続して同じ大きさであると判断しない場合は前記認識処理を実行しないことを特徴とする。または、前記制御部は、前記認識モードに設定されているとき、前記抽出部により抽出された認識範囲が所定時間同じ大きさであると判断した場合に前記認識範囲の画像情報に含まれる識別情報の認識処理を前記入力部へのユーザ操作なしに実行するように前記認識部を制御し、前記認識範囲が所定時間同じ大きさであると判断しない場合は前記認識処理を実行しないことを特徴とする。

本発明によれば、使い勝手の向上した情報処理装置、情報処理方法及びソフトウェアを提供することができる。

以下、本発明の実施の形態を、図面を用いて説明する。なお、以下の図面において、同一の構成部については同符号を用いる。

図１は、本実施形態（第１の実施形態）に係る携帯電話の構成ブロック図である。本実施形態においては、携帯電話に搭載された画像認識機能（ＯＣＲ機能）を利用して、紙面などに記載された英単語の日本語訳を出力する場合について説明する。

入力部１０１は、キーボード等の電話番号その他の情報を入力する入力部であり、携帯電話の電源をＯＮ/ＯＦＦするとき、被写体を撮像するとき、など、ユーザが携帯電話に入力を与える際に使用するものである。入力部１０１は、ユーザからの入力（ユーザ操作による指示等）を受け付ける。

ＣＰＵ１０２は、記憶部１０４に記憶されたプログラムに基づいて動作し、例えば、入力部１０１からの入力に応じて各部を制御するものである。

撮像部１０３は、例えば、カメラなどで構成されたものであり、被写体である人の顔や、景色、文字などを撮像し、ＣＰＵ１０２で扱える画像情報に変換し、変換された画像情報は必要に応じて表示部１０７等に出力する。ユーザは、表示部１０７に出力された画像情報をモニタしながら撮像したい画像を選んで、例えば、シャッターキーとして割り当てられた操作キー（以下、シャッターキー）等を押下することにより撮像の指示を行う。シャッターキーが押下されれば、撮像された画像情報は記憶部１０４に記憶される。

記憶部１０４は、例えば、ＲＯＭ（Read Only Memory）やＲＡＭ(Random Access Memory)等で構成され、携帯電話１００で扱うデータやソフトウェアなども記憶する。

画像認識部１０５は、画像情報に含まれる文字や記号等の識別情報を認識する。また、この画像認識部１０５はＯＣＲ機能を備えており、ＯＣＲ機能を実現する具体的な構成は、例えば、特許文献１に記されている。

ここで、識別情報とは、文字、記号等で表された情報であり、例えば、ホームページのアドレス、メールアドレス、住所、電話番号、地図情報あるいは英語の単語等のように文字や記号等で表現されたものであり、事物を識別できる情報であれば上記例以外のものでも構わない。

また、ここで、認識とは、撮像部１０３により撮像された画像情報に含まれる識別情報を抽出し、その識別情報を所定の領域ごとに分割し、分割された領域を所定のパラメータ値に変換し、そのパラメータ値に基づいて分割された領域がどのような情報であるかを決定することをいう。

より具体的には、例えば、画像情報内の「abc」という文字を「認識」する場合を考えると、まず、「abc」が画像情報内のどの位置の情報であるかを特定し（識別情報を抽出）、次に、「a」「b」「c」に分割し（所定の文字ごとに分割）、「a」を所定のパラメータ値（例えば、その文字を縦、横、斜めからの見た線分の構成を、文字の白色部分を「０」、黒色部分を「１」としてパラメータ化された値）に変換する。そして、変換されたパラメータ値に最も類似したパラメータ値と対応付けされた文字を文字パターンデータ表より選び出す。文字パターンデータ表とは、パラメータ値とそのパラメータ値に対応したアルファベット等の文字とが記述されている表であり、記憶部１０４に予め記憶されているものである。

なお、識別情報の認識を行う前に、認識すべき識別情報を決定する必要がある。認識対象となる識別情報を決定する手法としては、例えば、図３に示すように、表示部１０７の中心に表示された「＋」マークを識別情報の上に持っていき、「＋」マークの位置から近傍のスペース情報からスペース情報までの部分を一区切りの単語として自動的に決定する手法が挙げられる。また、ユーザが入力部１０１を利用して認識部分をカーソル等で指定する手法としても構わない。更に、認識対象を決定する方法が複数ある場合に、複数個同時に選択できるようにしても構わないし、動画の場合は、動画を静止画でコマ送りできるように設定しておき、そのコマ送り画面で認識対象部を選択できるようにしても構わない。このように様々な手法で認識対象となる識別情報を決定できるようにすることで、ユーザの利便性を向上させ、使い勝手の良い携帯電話を提供することが可能となる。

また、認識すべき識別情報を決定する際に、ひとまず対象を決定する「仮決定」と仮決定された対象が間違っていない場合に「本決定」を行うように構成しても構わない。例えば、「＋」マークを識別情報の上に持っていったときに、その識別情報をひとまず認識対象とするために枠で囲って仮決定し、仮決定された識別情報が認識すべき対象として間違いない場合に本決定しても構わない。仮決定から本決定に移行するための手法としては、例えばユーザが特定のキーを押したり、「＋」マークが同じ識別情報から所定時間以上外れない場合に、本決定として認識を行うようにしても良い。このように構成することで、仮決定の段階で認識対象の特定に誤りがある場合に容易に対象文字等の変更を行うことができ、使い勝手の良い携帯電話を提供することが可能となる。

通信部１０６は、他の情報処理装置とデータのやり取りを行う。また、携帯電話１００がインターネットや他の情報処理装置などにアクセスするための通信処理等も行う。また、通信部１０６は、図１に示すように１つのみを使用する場合に限らず、例えば、ＣＤＭＡ、ＥＶ−ＤＯ、無線ＬＡＮ等の複数の通信方式を利用可能にするために複数備えても良い。

表示部１０７は、例えば、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electroluminescence）等で構成され、撮像部１０３により撮像された画像や画像認識部１０５により認識された識別情報を表示する。その他、表示部１０７に、例えば、電源状態、電波強度、電池残量、サーバ接続状態もしくは未読メール等の動作状態、入力した電話番号、メール宛先、メール送信文書等や、動画および静止画、着信時の発呼者の電話番号、着信メール文書、接続されたインターネット画面等の受信データの表示、また、携帯電話の機能を利用するために必要な画面を表示する。

辞書データ１０８は、記憶部１０４に記憶されており、例えば、外国語の単語等といった識別情報、該識別情報の日本語訳が含まれる。また、該識別情報の様々な日本語訳や使い方・用例等を記憶しても良く、これらについて詳しく書かれたホームページのURL等が含まれていてもよい。なお、翻訳言語としては、日本語訳に限定されるものではなく、英語やフランス語などでもよい。さらに、識別情報の説明であることがわかれば、絵や音などのデータでもよい。

また、ＣＰＵ１０２は、モード判定フラグを利用して、撮像モードが通常の静止画又は動画を撮像する通常撮像モードであるか、画像認識部１０５を利用して識別情報を認識するモードである認識モードであるかを判定する。ここで、モード判定フラグは、例えば、記憶部１０４に記憶されたソフトウェアのプログラム中に存在する変数で、認識モードの場合と通常撮像モードとでは異なる値になるようにし、ＣＰＵ１０２はこの変数に基づいて認識モードと通常撮像モードとを、例えば、入力部１０１による操作により切り換える。以下、「認識モード」と「通常撮像モード」との２種類を有する場合を考えるが、これに限定されるものではなく、それ以外にモードがあっても構わない。

次に、図２のフローチャートを用いて、本実施形態における携帯電話の処理手順を説明する。

まず、携帯電話がキー入力を待つ状態（ステップＳ２０１）において、カメラ機能を起動するキー入力をＣＰＵ１０２が検出すると（ステップＳ２０２）、記憶部１０４に保存されているカメラ機能に関する変数の初期化等といったカメラ起動処理を行う（ステップＳ２０３）。

その後、ＣＰＵ１０２は、撮像モードが、「認識モード」「通常撮像モード」のいずれかであるかを判定する。ステップＳ２０３において撮像部１０３を起動させた後、シャッターキー等が押下されることにより撮像対象物の画像データが取得され、取得された画像データは記憶部１０４に一時的に保存される（ステップＳ２０４）。
次に、当該画像データを画像認識部１０５が読み取り（ステップＳ２０５）、文字認識処理を行う。文字認識処理は、まず、文字行抽出処理によって、画像データのどこに文字行があるかを抽出する。そして、文字行の範囲が決定したら、その文字行の中で黒画素の集合と集合との間隔が所定値以上である場合は、それらの集合はスペースによって区切られた文字列とする。すなわち、単語であると認識される。
画像データに含まれる単語の中から、認識対象とする単語を選択する方法としては、例えば、表示部１０７の中心に表示された「＋」マークに最近接している単語を認識対象単語とする（ステップＳ２０６）。そして、ＣＰＵ１０２は、認識対象単語として特定された単語の周囲に枠表示を行い、現在認識対象として特定されている単語が何であるかをユーザに通知する（ステップＳ２０７）。

次に、画像認識部１０５が文字認識処理を行い、（ステップＳ２０８）、認識結果を記憶部１０４に保存する（ステップＳ２０９）。

画像認識部１０５によって認識された認識結果をＣＰＵ１０２が記憶部１０４から読み取り、辞書データに含まれる単語データの中から、認識結果と一致する単語を検索する（ステップＳ２１０）。

検索する方法としては、まず文字列が完全に一致するものを探し出し、完全に一致するものがなかった場合は一文字だけ異なるがその他の文字は一致している単語を探し出すという方法が好ましい。この方法を採用することで、画像認識部１０５が紙面上の文字を誤って認識した場合でも、その文字列に一番近い単語を探し出すことができ、何度も撮像して文字認識をやり直す手間が省くことができ、使い勝手がよい。また、一文字だけ異なる単語もない場合は、二文字異なる単語、三文字異なる単語、というふうに異なる文字数をだんだん増やして検索してもよく、この場合は認識率が低くても該当する可能性が高い単語を探し出すことができ、誤認識に強い携帯端末を提供することが可能となる。

上記検索によって辞書データ内に一致する単語が見つかった場合は（Ｓ２１１：ＹＥＳ）、ＣＰＵ１０２は、その単語に対応する日本語訳を辞書データから読み取って（ステップＳ２１２）、表示部１０７に入力操作なく自動的に日本語訳を表示する（ステップＳ２１３）。一方、辞書データ内に一致する単語が見つからなかった場合は（Ｓ２１１：ＮＯ）、「該当する単語が見つかりません」などといった表示を表示部１０７に表示する（ステップＳ２１４）。

その後、再びステップＳ２０４に戻り、撮像部１０３が画像データを取得する処理に戻る。

次に、図３を用いて携帯電話の具体的な表示画面の例を説明する。

図３（１）は、本実施形態の表示画面例である。ここでは、携帯電話に搭載された撮像部１０３により出力された画像情報を表示部１０７に表示した場合を示しており、英文をモニタした際に「length」という英単語の訳を表示させる場合を例示している。この場合、画像認識部１０５により「length」が認識され、その認識結果と一致する単語データを辞書データから検索される。

図３（１）は、辞書データから検索された「length」に対応する日本語訳「長さ、たけ、期間...」を読み出して表示部１０７に表示した画面の表示例である。

図３（２）は、携帯電話を右方向にずらし、表示部１０７の中心付近に「width」という英単語が表示された場合に、その日本語訳「広さ、幅、横の距離...」を表示した画面の表示例である。

即ち、携帯電話を動かすことにより「＋」マークを英文が記載された紙面に対して相対的に動かして認識すべき英単語を変えることが可能である。この場合、認識すべき英単語は携帯電話を動かして「＋」マークが動くたびに変更され、ユーザが特定の操作をすることなく自働的に日本語訳を表示していく。より具体的には、ユーザが携帯電話を動かして「＋」マークを「length」→「width」→「and」→「slant」…と動かしていくたびに、「長さ、たけ、期間...」→「広さ、幅、横の距離...」→「及び、そして...」→「傾斜、勾配...」と日本語訳が次々と自働的に表示される。

即ち、識別情報（英単語「length」）を認識し、該認識された識別情報（英単語「length」）に関連する関連情報（「length」の日本語訳）を表示部１０７に表示するとともに、新たに識別情報（英単語「width」）が認識されると、該新たな識別情報（英単語「width」）に関連した関連情報（「width」の日本語訳）を連続的に表示するようにする。ここで「連続的」とは、ユーザが入力部１０１への操作をすることなく（例えば、ユーザがボタンを押し下げする等の操作をすることなく）、「＋」マークを動かしていくだけで「＋」マーク上の英単語を自働的に認識し、その日本語訳を表示する場合等をいう。

このように、上記処理を連続的に行うことにより、ユーザはボタンを押下するなどの操作が必要なく、例えば、携帯電話を横にずらすだけで認識対象となる単語の翻訳等を参照できるため、使い勝手のよい携帯電話を提供することが可能となる。

なお、ここでは画像認識部１０５が画像を取得する毎に認識処理を行うようにしたが、これでは携帯電話１００の消費電力が増大し、電池がすぐに消耗してしまう場合がある。例えば、認識処理は複雑な計算を伴う演算処理であり、処理時間を短縮するためにも画像認識部１０５またはＣＰＵ１０２の動作周波数を高めて処理することが好ましく、そのためにＣＰＵ１０２に流れる電流が増大してしまうからである。この問題は、電池容量の限られる携帯端末においては特に重要である。

そこで、ユーザが、翻訳したい単語（翻訳対象単語）が表示部１０７上の「＋」マーク付近に表示されるように携帯電話１００の位置を調整し、「＋」マーク付近に翻訳対象単語が連続して表示されている時間が予め定められた時間（例えば０．５秒）経過した場合にのみ、認識処理を行うようにする。

このようにすれば認識処理の回数を減らすことができ、消費電力の増大も抑えることができる。ここで、「＋」マーク付近に翻訳対象単語が連続して表示されていると、画像認識部１０５は連続して同じ単語を抽出する。同じ単語を抽出すると、抽出領域の大きさはほぼ等しくなる。よって、抽出領域の大きさが連続してほぼ等しくなった場合に、認識処理を行うように制御する。

次に、図４のフローチャートを用いて、本実施形態における携帯電話の処理手順を詳しく説明する。
まず、図２のステップS201からステップS203までと同様の処理を行ない、カメラを起動する。次に、前抽出領域の初期化を行う（ステップS400）。前抽出領域は、画像認識部１０５が最後に抽出した抽出領域の画像中の位置および大きさを表す変数であり、例えば、抽出領域の左上の座標、右下の座標などである。これは、抽出領域の画像中の位置と大きさがわかればよく、どのような形式でも構わない。前抽出領域の初期化とは、例えば、その位置を画像の左上の座標、大きさを０などとする。
また、図２のステップS204、ステップS205と同様の処理を行ない、画像認識部１０５が画像データを取得する。次に、画像認識部１０５は、画像中の単語のうち表示部１０７に表示された「＋」マークに最近接した単語を抽出し、その抽出領域を記憶部１０４に保存する（ステップS401）。ＣＰＵ１０２は、該抽出された単語の周りを囲うように枠を表示するように表示部１０７に信号を送り、これを受けて表示部１０７は枠を表示する（ステップS207）。次に、ＣＰＵ１０２は、該抽出された抽出領域と前抽出領域とを記憶部１０４から読み取り、それぞれの縦の長さ及び横の長さを比較する（ステップS402）。比較の結果、縦・横の長さの違いが３画素以内であったならば、ステップS404に進み、cntを１増やす。cntは、回数を数えるために使用する変数であり、記憶部１０４に記憶されたプログラム中に存在するものである。なお、変数cntはカメラ起動の際に０に初期化されているものとする。
ステップS403において、縦・横の長さの違いが３画素以内でなかった場合、cntを０に戻す（ステップS405）。この後、ステップS406では、ＣＰＵ１０２は、抽出領域を示す変数の値を、前抽出領域を示す変数に代入して保存する。そして、変数cntが３よりも大きかった場合、前抽出領域の初期化し（ステップS408）、文字認識処理を実行する（ステップS208）。この後は、図２のステップS209からステップS214までと同様の処理を行う。また、ステップS407において、変数cntが３以下であった場合はステップS204に戻る。

なお、図４のフローチャートでは、抽出領域と前抽出領域を比較するステップS403において、縦・横の長さの違いが３画素以内かどうかで判断したが、この値は表示部１０７を構成している液晶のサイズが変われば当然変わってくる。よって、抽出領域の大きさと比べて十分小さければ、３画素でなくてもよい。

なお、ここでは抽出領域の大きさだけを比較したが、抽出領域の位置も比較してもよい。例えば、「ball」と「fall」のように文字数が一緒で大きさが似ている単語が近くにあり、この二つの単語を交互に抽出した場合、抽出領域の大きさだけ比較する方法では、二つの単語は同じであると見なしてしまう場合がある。その結果、ユーザは「ball」の翻訳が知りたいのに、「fall」が認識されてその翻訳が表示されてしまう場合が考えられる。ここで、抽出領域の大きさと位置の両方を比較することで、より正確に翻訳対象単語を決定することができ、ユーザの意図した単語の翻訳が表示され、使い勝手がよい。

次に、第３の実施形態について説明する。ここでは、文字認識精度を向上させ、使い勝手をよくすることを目的とする。文字認識の精度は、撮像部１０３が取得した画像に大きく依存する。例えば、ピントが合っていなかったために画像がぼやけている（ピンぼけ）場合は、認識精度が低下する。そのため、実際の単語の綴りとは違った認識結果及び翻訳が表示されてしまう可能性がある。そこで、画像認識部１０５が抽出した単語に対して認識処理を行う前に、画像がピンぼけでないかを検査し、ピンぼけでなかった場合にのみ認識処理を行う場合について説明する。

図５は、本実施形態の処理フローチャートを示した図である。まず、図２のステップS201からステップS207までと同様の処理を行い、認識対象単語を決定してその周りに枠を表示する。ここで、画像認識部１０５は、抽出した画像がピンぼけであるかどうかを検査する。ピンぼけでなかったらステップS208に進み、画像認識部１０５が文字認識処理を行なう。ピンぼけであるかどうかの検査は、例えば、抽出領域の画像をフーリエ変換し、高周波成分すなわち文字とそうでない部分がくっきりとしていることを表す成分が、予め定められた閾値よりも少なかった場合をピンぼけとする。なお、ステップS501において、ピンぼけであると判定された場合はステップS204に戻り、画像を新たに取得する。

このように、ピンぼけなどの認識精度が低下する条件では認識処理を行わず、ピンぼけでない画像であった場合にのみ認識処理を行うことで認識精度が向上し、ユーザが意図した翻訳対象単語の翻訳を確実に表示することができ、使い勝手が向上する。

また、通常の画像は長方形であるが、画像の上底または下底に対して文字列が傾いている場合（斜め）も、ピンぼけと同様に認識精度が低下する。そこで、「斜め」も検査する場合について説明する。

「斜め」の検査方法は、画像認識部１０５が抽出した範囲の画像の中で、様々な方向から文字の一部であることを示す黒い部分の投影分布を作成し、分布の頂点が一番高くなる方向が、文字列の方向であるとすることができる。

図６は、「digital」という単語を右下がりの状態で撮像した画像の例である。６００は抽出領域の範囲を表している。この画像を、抽出領域の上底もしくは下底と同じ方向６０１すなわち横方向に投射して作成した投影分布が、分布６０２である。また、左上から右下にかけて斜めの方向６０３へ投射して作成した投影分布が分布６０４であり、分布６０２に比べてピーク値が高くなっていることがわかる。このように、文字列の傾いている方向と同じ方向に向かって投射した投影分布が一番ピーク値が高くなるため、様々な方向から投影分布を作成することで、文字列の傾きを知ることができる。

図５のステップS501に、ピンぼけの検査の代わりに「斜め」の検査を行なうことで、斜め傾いて撮像した単語は認識処理を行なわないように制御することができる。

また、画像認識部１０５が抽出した抽出領域に二つ以上の単語が含まれている場合（複数単語）は、そのまま認識しても二つの単語が認識されてしまい、その結果、一致する単語がない可能性がある。これも、上記実施携帯と同様に、認識処理の前に検査して、もし二つ以上の単語が抽出領域内に含まれていた場合は認識せずに、もう一度画像を取得し直すことが好ましい。

なお、これまで「ピンぼけ」、「斜め」、「複数単語」は独立に検査するように述べてきたが、それぞれを組み合わせて検査してよいし、全部検査してもよい。例えば、「ピンぼけ」と「斜め」の検査、「ピンぼけ」と「複数単語」の検査、「斜め」と「複数単語」の検査、「ピンぼけ」と「斜め」と「複数単語」の検査のように、それぞれ検査を適切に組合せることも可能である。これにより、より認識精度が高くなる画像をだけを認識することができ、誤認識を減らすことができ、使い勝手がよくなる。

第３の実施形態では、画像認識部１０５が抽出領域の「ピンぼけ」や「斜め」の検査を行って認識処理を行うか否かを判断するようにしたが、ユーザとしては認識処理が行われない理由が分からず、いつまでも翻訳が表示されずに煩わしく感じる可能性がある。そこで、認識処理が行われない理由や、ユーザに調整するように促すメッセージなどを通知することで、ユーザは携帯電話１００の位置などを簡単に調整できる。その結果、画像認識部１０５は速やかに認識処理が行え、翻訳対象単語の翻訳を表示部１０７に表示することができるので、使い勝手が向上する。

例えば、図７に示すようなアイコンを表示部１０７に表示する。図７（１）は、携帯電話１００が紙面に近すぎてピンぼけしているため、もう少し紙面から携帯電話を離して使用するようにユーザに促すメッセージ７０１を表示部１０７に表示している状態である。また、図７（２）は、メッセージの代わりに、７０２のようなアイコンを表示し、紙面から携帯電話を離すべき旨をユーザに通知している。さらに、文字列が斜めになっている場合は、７０３のようなアイコンを表示し、携帯電話を調節する旨を通知している。このようにすることで、認識処理が行われない理由をユーザに通知するとともに、認識処理を行えるように携帯電話の位置などを調整するようにユーザに促すことができる。また、アイコンで表示することで、携帯電話の画面のように限られたスペースを有効に利用することができる。

また、抽出領域が「ピンぼけ」や「斜め」であった場合に、認識対象単語の周囲に表示された枠の色を変化させることにより、これをユーザに通知してもよい。例えば、携帯電話１００が紙面に近すぎてピンぼけしている場合は枠の色を赤で表示し、適度な距離だけ離れていてピントが合っている場合は枠の色を青で表示する。このようにすることで、ユーザは枠の周辺を見ていれば、認識対象の単語と共に「ピンぼけ」や「斜め」の検査結果も同時に知ることができ、使い勝手が向上する。

また、ここではアイコンによりユーザに通知する手法について説明したが、音、振動などにより通知するようにしても構わない。これにより、ユーザは画面を確認するまでもなく認識処理が行われない理由を知ることができるようになるとともに、画面の空きスペースが少ない場合にも通知することができるようになる。

また、認識結果の信頼性を向上させるという観点で、翻訳対象単語を複数回認識し、同様の結果が得られた場合にのみ認識結果を表示するようにしてもよい。ここでは、その場合について説明する。

図８は、本実施形態の処理フローチャートである。まず、図２のステップS201からステップS208と同様の処理を行ない、画像認識部１０５によって抽出した単語の認識処理まで実行し、認識結果を記憶部１０４の定められた変数に記憶する。次に、該認識結果と前認識結果との比較を行なう（ステップS801）。前認識結果とは、画像認識部１０５が最後に認識した認識結果であり、記憶部１０４に保存されているものである。なお、一回目に認識処理を行なった際は、前認識結果は初期化された状態であり、前認識結果を表す変数には何も格納されていないことが好ましい。

認識結果が前認識結果と同じであった場合は、変数cntを１増やし（ステップS803）、また異なる結果であった場合は変数cntを０にする（ステップS804）。そして、認識結果を、前認識結果を表す変数に代入して保存する（ステップS805）。その後、変数cntが３より大きかったらステップS210からステップS214までの処理を実行する。変数cntが３以下であった場合は、ステップS204に戻る。

このように複数回の認識を行うことで、認識結果の信頼性が増し、より正しい翻訳が表示されるようになり、使い勝手が向上する。

なお、通常の認識処理を行っても該当する単語がなかった場合には、「該当する単語がありません」といった検索失敗のメッセージを表示するのではなく、もう一度認識処理を行うようにしてもよい。こうすることで、正しい認識結果が得られずに単語が検索できなかったとしても、もう一度認識処理をすることで、正しい結果が得られる可能性が増える。

次に、第４の実施形態について説明する。本発明のように連続的に認識処理を行う場合には、翻訳を表示した後にまた同じ単語を表示し直してしまうことがあり、画面のちらつきや消費電力の増大といった問題がある。特に、電池の容量が限られている携帯端末においては消費電力の増大は重要な問題である。

ここでは、その問題を解決するために、認識結果から検索された単語が、表示部１０７に表示された単語と同じであるかどうかを比較し、同じであった場合は表示し直さず、異なる単語を認識した場合にのみ表示し直すように制御するものである。

図９は、本実施形態の処理フローチャートである。まず、図２のステップS201からステップS209と同様の処理を行い、認識結果を記憶部１０４に保存する。次に、辞書データを検索して（ステップS210）、該当する単語が見つかった場合は、該単語が表示中単語と同じであるかどうかを調べる（ステップS901）。該単語と該表示中単語が異なる場合は、対応する日本語訳を取得し（ステップS212）、日本語訳を表示する（ステップS213）。ここで、表示中単語とは、ＣＰＵ１０２が最後に検索した単語を表す変数である。表示中単語は単語そのものでもよいが、辞書データに含まれる全ての単語と一対一で対応付けられた数字でもよく、該単語が得られるものであれば何でもよい。

ステップS902では、表示中単語を表す変数に、ステップS210で検索した単語を代入して保存する。そして、またステップS204に戻る。

ステップS211において該当する単語が見つからなかった場合は、辞書データ内に一致する単語が見つからなかった旨をユーザに通知するメッセージを表示部１０７に表示する。

次に、第５の実施形態について説明する。上記の実施形態では、表示部１０７に表示された翻訳をユーザが見終わった後、ユーザは何のキー操作も行わずそのままにするか、もしくは終了キーを押下して携帯電話１００を待受け状態に戻すかのどちらかであると考えられる。何のキー操作もしない場合は、常にステップS204からステップS214までの処理を実行しているため、ユーザの見ていないところで電力を消費し、電池を消耗してしまうという問題がある。また、携帯電話１００を待受け状態に戻してしまうと、次にユーザが翻訳させたいときに、またステップS201からステップS203までの処理を行う必要があり、ユーザを待たせてしまうという問題がある。本実施例は、この問題を解決するために、ステップS204からステップS214までの処理を一時停止する一時停止キーと、処理を再開する再開キーを設けたものである。該一時停止キーおよび該再開キーは、携帯電話１００の入力部１０１のボタンである。
該一時停止キーが入力されると、ＣＰＵ１０２に一時停止イベント信号が通知される。これを受けたＣＰＵ１０２は、画像認識部１０５に認識を一時停止するイベントを通知し、画像認識部１０５は認識を一時停止する。これは、画像認識部１０５が、図２のステップS204の手前でＣＰＵ１０２からのイベント信号を受信するステップを処理することで実現できる。

なお、以上は携帯電話の場合を例に説明してきたが、これに限られるものではなく、ＰＨＳ、ＰＤＡ、ＰＣなどにも適用可能である。

また、上述してきた種々の機能をソフトウェアで実現してもよく、ユーザは、例えば、ＣＤ―ＲＯＭ等の記録媒体やサーバから当該ソフトウェアを受信して当該種々の機能を実現できる。これにより、必要な機能だけを搭載したり、また、好みに応じて色々な機能を追加もしくは削除、あるいは更新することが容易となる。

更に、上述してきた実施形態を組み合わせて新しく実施形態を構成することができることは言うまでもない。

また、本発明は、上記に示された実施形態に限定されるものではなく、ここに開示された原理及び新しい特性は広範囲の技術的範囲を含むものである。

第１の実施例に係る携帯電話の構成ブロック図である。第１の実施例に係る携帯電話の処理フローチャートである。第１の実施例に係る携帯電話の表示部に表示された画面例である。第２の実施例に係る携帯電話の処理フローチャートである。第３の実施例に係る携帯電話の処理フローチャートである。斜めに撮像された単語の投影分布を示した図である。第３の実施例に係る携帯電話の表示部に表示された画面例である。第３の実施例に係る携帯電話の処理フローチャート２である。第４の実施例に係る携帯電話の処理フローチャートである。第５の実施例に係る携帯電話の処理フローチャートである。

符号の説明

１００…携帯電話、１０１…入力部、１０２…ＣＰＵ、１０３…撮像部、１０４…記憶部、１０５…画像認識部、１０６…通信部、１０７…表示部、１０８…辞書データ。

Claims

静止画又は動画を撮像する通常撮像モードと識別情報を認識する認識モードとを有する情報処理装置であって、
画像情報を出力する撮像部と、
ユーザの入力を受け付ける入力部と、
前記撮像部により出力された画像情報の中から識別情報の認識を行う対象とする認識範囲を抽出する抽出部と、
前記抽出部により抽出された認識範囲の画像情報に含まれる識別情報を認識する認識部と、
前記認識部により認識された識別情報の関連情報を表示する表示部と、
前記撮像部、前記抽出部、前記認識部、及び前記表示部を制御する制御部と、
を備え、
前記制御部は、前記認識モードに設定されているとき、前記抽出部により抽出された認識範囲が所定回数連続して同じ大きさであると判断した場合に前記認識範囲の画像情報に含まれる識別情報の認識処理を前記入力部へのユーザ操作なしに実行するように前記認識部を制御し、前記認識範囲が所定回数連続して同じ大きさであると判断しない場合は前記認識処理を実行しないことを特徴とする情報処理装置。
静止画又は動画を撮像する通常撮像モードと識別情報を認識する認識モードとを有する情報処理装置であって、
画像情報を出力する撮像部と、
ユーザの入力を受け付ける入力部と、
前記撮像部により出力された画像情報の中から識別情報の認識を行う対象とする認識範囲を抽出する抽出部と、
前記抽出部により抽出された認識範囲の画像情報に含まれる識別情報を認識する認識部と、
前記認識部により認識された識別情報の関連情報を表示する表示部と、
前記撮像部、前記抽出部、前記認識部、及び前記表示部を制御する制御部と、
を備え、
前記制御部は、前記認識モードに設定されているとき、前記抽出部により抽出された認識範囲が所定時間同じ大きさであると判断した場合に前記認識範囲の画像情報に含まれる識別情報の認識処理を前記入力部へのユーザ操作なしに実行するように前記認識部を制御し、前記認識範囲が所定時間同じ大きさであると判断しない場合は前記認識処理を実行しないことを特徴とする情報処理装置。
前記制御部は、前記認識範囲の縦および横の長さの変化が所定画素以内である場合に、前記認識範囲が同じ大きさであると判断することを特徴とする請求項１または２に記載の情報処理装置。