JP4352902B2 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP4352902B2
JP4352902B2 JP2004006213A JP2004006213A JP4352902B2 JP 4352902 B2 JP4352902 B2 JP 4352902B2 JP 2004006213 A JP2004006213 A JP 2004006213A JP 2004006213 A JP2004006213 A JP 2004006213A JP 4352902 B2 JP4352902 B2 JP 4352902B2
Authority
JP
Japan
Prior art keywords
recognition
unit
image
information
identification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004006213A
Other languages
English (en)
Other versions
JP2005202533A (ja
Inventor
正裕 山▲崎▼
英樹 桑本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2004006213A priority Critical patent/JP4352902B2/ja
Publication of JP2005202533A publication Critical patent/JP2005202533A/ja
Application granted granted Critical
Publication of JP4352902B2 publication Critical patent/JP4352902B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)

Description

本発明は、情報処理装置に関わり、例えば、携帯電話、PHS(Personal Handy-phone System)、PDA(Personal Digital Assistant)、PC(Personal Computer)等に関するものである。
従来、紙面上に印刷された文字列のイメージを読み取り、OCR(Optical Character Recognition)機能を利用してそのイメージから文字列を認識して文字情報に変換し、翻訳辞書を参照してその文字列に対応する翻訳を表示部に表示する電子辞書が提案されている(例えば、特開平5−274346号公報)。
特開平5−274346号公報
しかしながら、上記特許文献1では、単語を翻訳する度にボタンを押下する必要があるため、文章中に翻訳したい単語が多く含まれる場合は何度もシャッターを押下しなければならず、非常に手間がかかってしまい操作が煩わしい。そのため、翻訳を簡易に表示可能で使い勝手の良い情報処理装置が望まれていた。
そこで、本発明は、上記課題を解決し、使い勝手を向上した情報処理装置、情報処理方法及びソフトウェアを提供することを目的とする。
本発明にかかる情報処理装置は、静止画又は動画を撮像する通常撮像モードと識別情報を認識する認識モードとを有し、画像情報を出力する撮像部と、ユーザの入力を受け付ける入力部と、前記撮像部により出力された画像情報の中から識別情報の認識を行う対象とする認識範囲を抽出する抽出部と、前記抽出部により抽出された認識範囲の画像情報に含まれる識別情報を認識する認識部と、前記認識部により認識された識別情報の関連情報を表示する表示部と、前記撮像部、前記抽出部、前記認識部、及び前記表示部を制御する制御部と、を備える。そして、前記制御部は、前記認識モードに設定されているとき、前記抽出部により抽出された認識範囲が所定回数連続して同じ大きさであると判断した場合に前記認識範囲の画像情報に含まれる識別情報の認識処理を前記入力部へのユーザ操作なしに実行するように前記認識部を制御し、前記認識範囲が所定回数連続して同じ大きさであると判断しない場合は前記認識処理を実行しないことを特徴とする。または、前記制御部は、前記認識モードに設定されているとき、前記抽出部により抽出された認識範囲が所定時間同じ大きさであると判断した場合に前記認識範囲の画像情報に含まれる識別情報の認識処理を前記入力部へのユーザ操作なしに実行するように前記認識部を制御し、前記認識範囲が所定時間同じ大きさであると判断しない場合は前記認識処理を実行しないことを特徴とする。
本発明によれば、使い勝手の向上した情報処理装置、情報処理方法及びソフトウェアを提供することができる。
以下、本発明の実施の形態を、図面を用いて説明する。なお、以下の図面において、同一の構成部については同符号を用いる。
図1は、本実施形態(第1の実施形態)に係る携帯電話の構成ブロック図である。本実施形態においては、携帯電話に搭載された画像認識機能(OCR機能)を利用して、紙面などに記載された英単語の日本語訳を出力する場合について説明する。
入力部101は、キーボード等の電話番号その他の情報を入力する入力部であり、携帯電話の電源をON/OFFするとき、被写体を撮像するとき、など、ユーザが携帯電話に入力を与える際に使用するものである。入力部101は、ユーザからの入力(ユーザ操作による指示等)を受け付ける。
CPU102は、記憶部104に記憶されたプログラムに基づいて動作し、例えば、入力部101からの入力に応じて各部を制御するものである。
撮像部103は、例えば、カメラなどで構成されたものであり、被写体である人の顔や、景色、文字などを撮像し、CPU102で扱える画像情報に変換し、変換された画像情報は必要に応じて表示部107等に出力する。ユーザは、表示部107に出力された画像情報をモニタしながら撮像したい画像を選んで、例えば、シャッターキーとして割り当てられた操作キー(以下、シャッターキー)等を押下することにより撮像の指示を行う。シャッターキーが押下されれば、撮像された画像情報は記憶部104に記憶される。
記憶部104は、例えば、ROM(Read Only Memory)やRAM(Random Access Memory)等で構成され、携帯電話100で扱うデータやソフトウェアなども記憶する。
画像認識部105は、画像情報に含まれる文字や記号等の識別情報を認識する。また、この画像認識部105はOCR機能を備えており、OCR機能を実現する具体的な構成は、例えば、特許文献1に記されている。
ここで、識別情報とは、文字、記号等で表された情報であり、例えば、ホームページのアドレス、メールアドレス、住所、電話番号、地図情報あるいは英語の単語等のように文字や記号等で表現されたものであり、事物を識別できる情報であれば上記例以外のものでも構わない。
また、ここで、認識とは、撮像部103により撮像された画像情報に含まれる識別情報を抽出し、その識別情報を所定の領域ごとに分割し、分割された領域を所定のパラメータ値に変換し、そのパラメータ値に基づいて分割された領域がどのような情報であるかを決定することをいう。
より具体的には、例えば、画像情報内の「abc」という文字を「認識」する場合を考えると、まず、「abc」が画像情報内のどの位置の情報であるかを特定し(識別情報を抽出)、次に、「a」「b」「c」に分割し(所定の文字ごとに分割)、「a」を所定のパラメータ値(例えば、その文字を縦、横、斜めからの見た線分の構成を、文字の白色部分を「0」、黒色部分を「1」としてパラメータ化された値)に変換する。そして、変換されたパラメータ値に最も類似したパラメータ値と対応付けされた文字を文字パターンデータ表より選び出す。文字パターンデータ表とは、パラメータ値とそのパラメータ値に対応したアルファベット等の文字とが記述されている表であり、記憶部104に予め記憶されているものである。
なお、識別情報の認識を行う前に、認識すべき識別情報を決定する必要がある。認識対象となる識別情報を決定する手法としては、例えば、図3に示すように、表示部107の中心に表示された「+」マークを識別情報の上に持っていき、「+」マークの位置から近傍のスペース情報からスペース情報までの部分を一区切りの単語として自動的に決定する手法が挙げられる。また、ユーザが入力部101を利用して認識部分をカーソル等で指定する手法としても構わない。更に、認識対象を決定する方法が複数ある場合に、複数個同時に選択できるようにしても構わないし、動画の場合は、動画を静止画でコマ送りできるように設定しておき、そのコマ送り画面で認識対象部を選択できるようにしても構わない。このように様々な手法で認識対象となる識別情報を決定できるようにすることで、ユーザの利便性を向上させ、使い勝手の良い携帯電話を提供することが可能となる。
また、認識すべき識別情報を決定する際に、ひとまず対象を決定する「仮決定」と仮決定された対象が間違っていない場合に「本決定」を行うように構成しても構わない。例えば、「+」マークを識別情報の上に持っていったときに、その識別情報をひとまず認識対象とするために枠で囲って仮決定し、仮決定された識別情報が認識すべき対象として間違いない場合に本決定しても構わない。仮決定から本決定に移行するための手法としては、例えばユーザが特定のキーを押したり、「+」マークが同じ識別情報から所定時間以上外れない場合に、本決定として認識を行うようにしても良い。このように構成することで、仮決定の段階で認識対象の特定に誤りがある場合に容易に対象文字等の変更を行うことができ、使い勝手の良い携帯電話を提供することが可能となる。
通信部106は、他の情報処理装置とデータのやり取りを行う。また、携帯電話100がインターネットや他の情報処理装置などにアクセスするための通信処理等も行う。また、通信部106は、図1に示すように1つのみを使用する場合に限らず、例えば、CDMA、EV−DO、無線LAN等の複数の通信方式を利用可能にするために複数備えても良い。
表示部107は、例えば、LCD(Liquid Crystal Display)や有機EL(Electroluminescence)等で構成され、撮像部103により撮像された画像や画像認識部105により認識された識別情報を表示する。その他、表示部107に、例えば、電源状態、電波強度、電池残量、サーバ接続状態もしくは未読メール等の動作状態、入力した電話番号、メール宛先、メール送信文書等や、動画および静止画、着信時の発呼者の電話番号、着信メール文書、接続されたインターネット画面等の受信データの表示、また、携帯電話の機能を利用するために必要な画面を表示する。
辞書データ108は、記憶部104に記憶されており、例えば、外国語の単語等といった識別情報、該識別情報の日本語訳が含まれる。また、該識別情報の様々な日本語訳や使い方・用例等を記憶しても良く、これらについて詳しく書かれたホームページのURL等が含まれていてもよい。なお、翻訳言語としては、日本語訳に限定されるものではなく、英語やフランス語などでもよい。さらに、識別情報の説明であることがわかれば、絵や音などのデータでもよい。
また、CPU102は、モード判定フラグを利用して、撮像モードが通常の静止画又は動画を撮像する通常撮像モードであるか、画像認識部105を利用して識別情報を認識するモードである認識モードであるかを判定する。ここで、モード判定フラグは、例えば、記憶部104に記憶されたソフトウェアのプログラム中に存在する変数で、認識モードの場合と通常撮像モードとでは異なる値になるようにし、CPU102はこの変数に基づいて認識モードと通常撮像モードとを、例えば、入力部101による操作により切り換える。以下、「認識モード」と「通常撮像モード」との2種類を有する場合を考えるが、これに限定されるものではなく、それ以外にモードがあっても構わない。
次に、図2のフローチャートを用いて、本実施形態における携帯電話の処理手順を説明する。
まず、携帯電話がキー入力を待つ状態(ステップS201)において、カメラ機能を起動するキー入力をCPU102が検出すると(ステップS202)、記憶部104に保存されているカメラ機能に関する変数の初期化等といったカメラ起動処理を行う(ステップS203)。
その後、CPU102は、撮像モードが、「認識モード」「通常撮像モード」のいずれかであるかを判定する。ステップS203において撮像部103を起動させた後、シャッターキー等が押下されることにより撮像対象物の画像データが取得され、取得された画像データは記憶部104に一時的に保存される(ステップS204)。
次に、当該画像データを画像認識部105が読み取り(ステップS205)、文字認識処理を行う。文字認識処理は、まず、文字行抽出処理によって、画像データのどこに文字行があるかを抽出する。そして、文字行の範囲が決定したら、その文字行の中で黒画素の集合と集合との間隔が所定値以上である場合は、それらの集合はスペースによって区切られた文字列とする。すなわち、単語であると認識される。
画像データに含まれる単語の中から、認識対象とする単語を選択する方法としては、例えば、表示部107の中心に表示された「+」マークに最近接している単語を認識対象単語とする(ステップS206)。そして、CPU102は、認識対象単語として特定された単語の周囲に枠表示を行い、現在認識対象として特定されている単語が何であるかをユーザに通知する(ステップS207)。
次に、画像認識部105が文字認識処理を行い、(ステップS208)、認識結果を記憶部104に保存する(ステップS209)。
画像認識部105によって認識された認識結果をCPU102が記憶部104から読み取り、辞書データに含まれる単語データの中から、認識結果と一致する単語を検索する(ステップS210)。
検索する方法としては、まず文字列が完全に一致するものを探し出し、完全に一致するものがなかった場合は一文字だけ異なるがその他の文字は一致している単語を探し出すという方法が好ましい。この方法を採用することで、画像認識部105が紙面上の文字を誤って認識した場合でも、その文字列に一番近い単語を探し出すことができ、何度も撮像して文字認識をやり直す手間が省くことができ、使い勝手がよい。また、一文字だけ異なる単語もない場合は、二文字異なる単語、三文字異なる単語、というふうに異なる文字数をだんだん増やして検索してもよく、この場合は認識率が低くても該当する可能性が高い単語を探し出すことができ、誤認識に強い携帯端末を提供することが可能となる。
上記検索によって辞書データ内に一致する単語が見つかった場合は(S211:YES)、CPU102は、その単語に対応する日本語訳を辞書データから読み取って(ステップS212)、表示部107に入力操作なく自動的に日本語訳を表示する(ステップS213)。一方、辞書データ内に一致する単語が見つからなかった場合は(S211:NO)、「該当する単語が見つかりません」などといった表示を表示部107に表示する(ステップS214)。
その後、再びステップS204に戻り、撮像部103が画像データを取得する処理に戻る。
次に、図3を用いて携帯電話の具体的な表示画面の例を説明する。
図3(1)は、本実施形態の表示画面例である。ここでは、携帯電話に搭載された撮像部103により出力された画像情報を表示部107に表示した場合を示しており、英文をモニタした際に「length」という英単語の訳を表示させる場合を例示している。この場合、画像認識部105により「length」が認識され、その認識結果と一致する単語データを辞書データから検索される。
図3(1)は、辞書データから検索された「length」に対応する日本語訳「長さ、たけ、期間...」を読み出して表示部107に表示した画面の表示例である。
図3(2)は、携帯電話を右方向にずらし、表示部107の中心付近に「width」という英単語が表示された場合に、その日本語訳「広さ、幅、横の距離...」を表示した画面の表示例である。
即ち、携帯電話を動かすことにより「+」マークを英文が記載された紙面に対して相対的に動かして認識すべき英単語を変えることが可能である。この場合、認識すべき英単語は携帯電話を動かして「+」マークが動くたびに変更され、ユーザが特定の操作をすることなく自働的に日本語訳を表示していく。より具体的には、ユーザが携帯電話を動かして「+」マークを「length」→「width」→「and」→「slant」…と動かしていくたびに、「長さ、たけ、期間...」→「広さ、幅、横の距離...」→「及び、そして...」→「傾斜、勾配...」と日本語訳が次々と自働的に表示される。
即ち、識別情報(英単語「length」)を認識し、該認識された識別情報(英単語「length」)に関連する関連情報(「length」の日本語訳)を表示部107に表示するとともに、新たに識別情報(英単語「width」)が認識されると、該新たな識別情報(英単語「width」)に関連した関連情報(「width」の日本語訳)を連続的に表示するようにする。ここで「連続的」とは、ユーザが入力部101への操作をすることなく(例えば、ユーザがボタンを押し下げする等の操作をすることなく)、「+」マークを動かしていくだけで「+」マーク上の英単語を自働的に認識し、その日本語訳を表示する場合等をいう。
このように、上記処理を連続的に行うことにより、ユーザはボタンを押下するなどの操作が必要なく、例えば、携帯電話を横にずらすだけで認識対象となる単語の翻訳等を参照できるため、使い勝手のよい携帯電話を提供することが可能となる。
なお、ここでは画像認識部105が画像を取得する毎に認識処理を行うようにしたが、これでは携帯電話100の消費電力が増大し、電池がすぐに消耗してしまう場合がある。例えば、認識処理は複雑な計算を伴う演算処理であり、処理時間を短縮するためにも画像認識部105またはCPU102の動作周波数を高めて処理することが好ましく、そのためにCPU102に流れる電流が増大してしまうからである。この問題は、電池容量の限られる携帯端末においては特に重要である。
そこで、ユーザが、翻訳したい単語(翻訳対象単語)が表示部107上の「+」マーク付近に表示されるように携帯電話100の位置を調整し、「+」マーク付近に翻訳対象単語が連続して表示されている時間が予め定められた時間(例えば0.5秒)経過した場合にのみ、認識処理を行うようにする。
このようにすれば認識処理の回数を減らすことができ、消費電力の増大も抑えることができる。ここで、「+」マーク付近に翻訳対象単語が連続して表示されていると、画像認識部105は連続して同じ単語を抽出する。同じ単語を抽出すると、抽出領域の大きさはほぼ等しくなる。よって、抽出領域の大きさが連続してほぼ等しくなった場合に、認識処理を行うように制御する。
次に、図4のフローチャートを用いて、本実施形態における携帯電話の処理手順を詳しく説明する。
まず、図2のステップS201からステップS203までと同様の処理を行ない、カメラを起動する。次に、前抽出領域の初期化を行う(ステップS400)。前抽出領域は、画像認識部105が最後に抽出した抽出領域の画像中の位置および大きさを表す変数であり、例えば、抽出領域の左上の座標、右下の座標などである。これは、抽出領域の画像中の位置と大きさがわかればよく、どのような形式でも構わない。前抽出領域の初期化とは、例えば、その位置を画像の左上の座標、大きさを0などとする。
また、図2のステップS204、ステップS205と同様の処理を行ない、画像認識部105が画像データを取得する。次に、画像認識部105は、画像中の単語のうち表示部107に表示された「+」マークに最近接した単語を抽出し、その抽出領域を記憶部104に保存する(ステップS401)。CPU102は、該抽出された単語の周りを囲うように枠を表示するように表示部107に信号を送り、これを受けて表示部107は枠を表示する(ステップS207)。次に、CPU102は、該抽出された抽出領域と前抽出領域とを記憶部104から読み取り、それぞれの縦の長さ及び横の長さを比較する(ステップS402)。比較の結果、縦・横の長さの違いが3画素以内であったならば、ステップS404に進み、cntを1増やす。cntは、回数を数えるために使用する変数であり、記憶部104に記憶されたプログラム中に存在するものである。なお、変数cntはカメラ起動の際に0に初期化されているものとする。
ステップS403において、縦・横の長さの違いが3画素以内でなかった場合、cntを0に戻す(ステップS405)。この後、ステップS406では、CPU102は、抽出領域を示す変数の値を、前抽出領域を示す変数に代入して保存する。そして、変数cntが3よりも大きかった場合、前抽出領域の初期化し(ステップS408)、文字認識処理を実行する(ステップS208)。この後は、図2のステップS209からステップS214までと同様の処理を行う。また、ステップS407において、変数cntが3以下であった場合はステップS204に戻る。
なお、図4のフローチャートでは、抽出領域と前抽出領域を比較するステップS403において、縦・横の長さの違いが3画素以内かどうかで判断したが、この値は表示部107を構成している液晶のサイズが変われば当然変わってくる。よって、抽出領域の大きさと比べて十分小さければ、3画素でなくてもよい。
なお、ここでは抽出領域の大きさだけを比較したが、抽出領域の位置も比較してもよい。例えば、「ball」と「fall」のように文字数が一緒で大きさが似ている単語が近くにあり、この二つの単語を交互に抽出した場合、抽出領域の大きさだけ比較する方法では、二つの単語は同じであると見なしてしまう場合がある。その結果、ユーザは「ball」の翻訳が知りたいのに、「fall」が認識されてその翻訳が表示されてしまう場合が考えられる。ここで、抽出領域の大きさと位置の両方を比較することで、より正確に翻訳対象単語を決定することができ、ユーザの意図した単語の翻訳が表示され、使い勝手がよい。
次に、第3の実施形態について説明する。ここでは、文字認識精度を向上させ、使い勝手をよくすることを目的とする。文字認識の精度は、撮像部103が取得した画像に大きく依存する。例えば、ピントが合っていなかったために画像がぼやけている(ピンぼけ)場合は、認識精度が低下する。そのため、実際の単語の綴りとは違った認識結果及び翻訳が表示されてしまう可能性がある。そこで、画像認識部105が抽出した単語に対して認識処理を行う前に、画像がピンぼけでないかを検査し、ピンぼけでなかった場合にのみ認識処理を行う場合について説明する。
図5は、本実施形態の処理フローチャートを示した図である。まず、図2のステップS201からステップS207までと同様の処理を行い、認識対象単語を決定してその周りに枠を表示する。ここで、画像認識部105は、抽出した画像がピンぼけであるかどうかを検査する。ピンぼけでなかったらステップS208に進み、画像認識部105が文字認識処理を行なう。ピンぼけであるかどうかの検査は、例えば、抽出領域の画像をフーリエ変換し、高周波成分すなわち文字とそうでない部分がくっきりとしていることを表す成分が、予め定められた閾値よりも少なかった場合をピンぼけとする。なお、ステップS501において、ピンぼけであると判定された場合はステップS204に戻り、画像を新たに取得する。
このように、ピンぼけなどの認識精度が低下する条件では認識処理を行わず、ピンぼけでない画像であった場合にのみ認識処理を行うことで認識精度が向上し、ユーザが意図した翻訳対象単語の翻訳を確実に表示することができ、使い勝手が向上する。
また、通常の画像は長方形であるが、画像の上底または下底に対して文字列が傾いている場合(斜め)も、ピンぼけと同様に認識精度が低下する。そこで、「斜め」も検査する場合について説明する。
「斜め」の検査方法は、画像認識部105が抽出した範囲の画像の中で、様々な方向から文字の一部であることを示す黒い部分の投影分布を作成し、分布の頂点が一番高くなる方向が、文字列の方向であるとすることができる。
図6は、「digital」という単語を右下がりの状態で撮像した画像の例である。600は抽出領域の範囲を表している。この画像を、抽出領域の上底もしくは下底と同じ方向601すなわち横方向に投射して作成した投影分布が、分布602である。また、左上から右下にかけて斜めの方向603へ投射して作成した投影分布が分布604であり、分布602に比べてピーク値が高くなっていることがわかる。このように、文字列の傾いている方向と同じ方向に向かって投射した投影分布が一番ピーク値が高くなるため、様々な方向から投影分布を作成することで、文字列の傾きを知ることができる。
図5のステップS501に、ピンぼけの検査の代わりに「斜め」の検査を行なうことで、斜め傾いて撮像した単語は認識処理を行なわないように制御することができる。
また、画像認識部105が抽出した抽出領域に二つ以上の単語が含まれている場合(複数単語)は、そのまま認識しても二つの単語が認識されてしまい、その結果、一致する単語がない可能性がある。これも、上記実施携帯と同様に、認識処理の前に検査して、もし二つ以上の単語が抽出領域内に含まれていた場合は認識せずに、もう一度画像を取得し直すことが好ましい。
なお、これまで「ピンぼけ」、「斜め」、「複数単語」は独立に検査するように述べてきたが、それぞれを組み合わせて検査してよいし、全部検査してもよい。例えば、「ピンぼけ」と「斜め」の検査、「ピンぼけ」と「複数単語」の検査、「斜め」と「複数単語」の検査、「ピンぼけ」と「斜め」と「複数単語」の検査のように、それぞれ検査を適切に組合せることも可能である。これにより、より認識精度が高くなる画像をだけを認識することができ、誤認識を減らすことができ、使い勝手がよくなる。
第3の実施形態では、画像認識部105が抽出領域の「ピンぼけ」や「斜め」の検査を行って認識処理を行うか否かを判断するようにしたが、ユーザとしては認識処理が行われない理由が分からず、いつまでも翻訳が表示されずに煩わしく感じる可能性がある。そこで、認識処理が行われない理由や、ユーザに調整するように促すメッセージなどを通知することで、ユーザは携帯電話100の位置などを簡単に調整できる。その結果、画像認識部105は速やかに認識処理が行え、翻訳対象単語の翻訳を表示部107に表示することができるので、使い勝手が向上する。
例えば、図7に示すようなアイコンを表示部107に表示する。図7(1)は、携帯電話100が紙面に近すぎてピンぼけしているため、もう少し紙面から携帯電話を離して使用するようにユーザに促すメッセージ701を表示部107に表示している状態である。また、図7(2)は、メッセージの代わりに、702のようなアイコンを表示し、紙面から携帯電話を離すべき旨をユーザに通知している。さらに、文字列が斜めになっている場合は、703のようなアイコンを表示し、携帯電話を調節する旨を通知している。このようにすることで、認識処理が行われない理由をユーザに通知するとともに、認識処理を行えるように携帯電話の位置などを調整するようにユーザに促すことができる。また、アイコンで表示することで、携帯電話の画面のように限られたスペースを有効に利用することができる。
また、抽出領域が「ピンぼけ」や「斜め」であった場合に、認識対象単語の周囲に表示された枠の色を変化させることにより、これをユーザに通知してもよい。例えば、携帯電話100が紙面に近すぎてピンぼけしている場合は枠の色を赤で表示し、適度な距離だけ離れていてピントが合っている場合は枠の色を青で表示する。このようにすることで、ユーザは枠の周辺を見ていれば、認識対象の単語と共に「ピンぼけ」や「斜め」の検査結果も同時に知ることができ、使い勝手が向上する。
また、ここではアイコンによりユーザに通知する手法について説明したが、音、振動などにより通知するようにしても構わない。これにより、ユーザは画面を確認するまでもなく認識処理が行われない理由を知ることができるようになるとともに、画面の空きスペースが少ない場合にも通知することができるようになる。
また、認識結果の信頼性を向上させるという観点で、翻訳対象単語を複数回認識し、同様の結果が得られた場合にのみ認識結果を表示するようにしてもよい。ここでは、その場合について説明する。
図8は、本実施形態の処理フローチャートである。まず、図2のステップS201からステップS208と同様の処理を行ない、画像認識部105によって抽出した単語の認識処理まで実行し、認識結果を記憶部104の定められた変数に記憶する。次に、該認識結果と前認識結果との比較を行なう(ステップS801)。前認識結果とは、画像認識部105が最後に認識した認識結果であり、記憶部104に保存されているものである。なお、一回目に認識処理を行なった際は、前認識結果は初期化された状態であり、前認識結果を表す変数には何も格納されていないことが好ましい。
認識結果が前認識結果と同じであった場合は、変数cntを1増やし(ステップS803)、また異なる結果であった場合は変数cntを0にする(ステップS804)。そして、認識結果を、前認識結果を表す変数に代入して保存する(ステップS805)。その後、変数cntが3より大きかったらステップS210からステップS214までの処理を実行する。変数cntが3以下であった場合は、ステップS204に戻る。
このように複数回の認識を行うことで、認識結果の信頼性が増し、より正しい翻訳が表示されるようになり、使い勝手が向上する。
なお、通常の認識処理を行っても該当する単語がなかった場合には、「該当する単語がありません」といった検索失敗のメッセージを表示するのではなく、もう一度認識処理を行うようにしてもよい。こうすることで、正しい認識結果が得られずに単語が検索できなかったとしても、もう一度認識処理をすることで、正しい結果が得られる可能性が増える。
次に、第4の実施形態について説明する。本発明のように連続的に認識処理を行う場合には、翻訳を表示した後にまた同じ単語を表示し直してしまうことがあり、画面のちらつきや消費電力の増大といった問題がある。特に、電池の容量が限られている携帯端末においては消費電力の増大は重要な問題である。
ここでは、その問題を解決するために、認識結果から検索された単語が、表示部107に表示された単語と同じであるかどうかを比較し、同じであった場合は表示し直さず、異なる単語を認識した場合にのみ表示し直すように制御するものである。
図9は、本実施形態の処理フローチャートである。まず、図2のステップS201からステップS209と同様の処理を行い、認識結果を記憶部104に保存する。次に、辞書データを検索して(ステップS210)、該当する単語が見つかった場合は、該単語が表示中単語と同じであるかどうかを調べる(ステップS901)。該単語と該表示中単語が異なる場合は、対応する日本語訳を取得し(ステップS212)、日本語訳を表示する(ステップS213)。ここで、表示中単語とは、CPU102が最後に検索した単語を表す変数である。表示中単語は単語そのものでもよいが、辞書データに含まれる全ての単語と一対一で対応付けられた数字でもよく、該単語が得られるものであれば何でもよい。
ステップS902では、表示中単語を表す変数に、ステップS210で検索した単語を代入して保存する。そして、またステップS204に戻る。
ステップS211において該当する単語が見つからなかった場合は、辞書データ内に一致する単語が見つからなかった旨をユーザに通知するメッセージを表示部107に表示する。
次に、第5の実施形態について説明する。上記の実施形態では、表示部107に表示された翻訳をユーザが見終わった後、ユーザは何のキー操作も行わずそのままにするか、もしくは終了キーを押下して携帯電話100を待受け状態に戻すかのどちらかであると考えられる。何のキー操作もしない場合は、常にステップS204からステップS214までの処理を実行しているため、ユーザの見ていないところで電力を消費し、電池を消耗してしまうという問題がある。また、携帯電話100を待受け状態に戻してしまうと、次にユーザが翻訳させたいときに、またステップS201からステップS203までの処理を行う必要があり、ユーザを待たせてしまうという問題がある。本実施例は、この問題を解決するために、ステップS204からステップS214までの処理を一時停止する一時停止キーと、処理を再開する再開キーを設けたものである。該一時停止キーおよび該再開キーは、携帯電話100の入力部101のボタンである。
該一時停止キーが入力されると、CPU102に一時停止イベント信号が通知される。これを受けたCPU102は、画像認識部105に認識を一時停止するイベントを通知し、画像認識部105は認識を一時停止する。これは、画像認識部105が、図2のステップS204の手前でCPU102からのイベント信号を受信するステップを処理することで実現できる。
なお、以上は携帯電話の場合を例に説明してきたが、これに限られるものではなく、PHS、PDA、PCなどにも適用可能である。
また、上述してきた種々の機能をソフトウェアで実現してもよく、ユーザは、例えば、CD―ROM等の記録媒体やサーバから当該ソフトウェアを受信して当該種々の機能を実現できる。これにより、必要な機能だけを搭載したり、また、好みに応じて色々な機能を追加もしくは削除、あるいは更新することが容易となる。
更に、上述してきた実施形態を組み合わせて新しく実施形態を構成することができることは言うまでもない。
また、本発明は、上記に示された実施形態に限定されるものではなく、ここに開示された原理及び新しい特性は広範囲の技術的範囲を含むものである。
第1の実施例に係る携帯電話の構成ブロック図である。 第1の実施例に係る携帯電話の処理フローチャートである。 第1の実施例に係る携帯電話の表示部に表示された画面例である。 第2の実施例に係る携帯電話の処理フローチャートである。 第3の実施例に係る携帯電話の処理フローチャートである。 斜めに撮像された単語の投影分布を示した図である。 第3の実施例に係る携帯電話の表示部に表示された画面例である。 第3の実施例に係る携帯電話の処理フローチャート2である。 第4の実施例に係る携帯電話の処理フローチャートである。 第5の実施例に係る携帯電話の処理フローチャートである。
符号の説明
100…携帯電話、101…入力部、102…CPU、103…撮像部、104…記憶部、105…画像認識部、106…通信部、107…表示部、108…辞書データ。

Claims (3)

  1. 静止画又は動画を撮像する通常撮像モードと識別情報を認識する認識モードとを有する情報処理装置であって、
    画像情報を出力する撮像部と、
    ユーザの入力を受け付ける入力部と、
    前記撮像部により出力された画像情報の中から識別情報の認識を行う対象とする認識範囲を抽出する抽出部と、
    前記抽出部により抽出された認識範囲の画像情報に含まれる識別情報を認識する認識部と
    前記認識部により認識された識別情報の関連情報を表示する表示部と、
    前記撮像部、前記抽出部、前記認識部、及び前記表示部を制御する制御部と、
    備え、
    前記制御部は、前記認識モードに設定されているとき、前記抽出部により抽出された認識範囲が所定回数連続して同じ大きさであると判断した場合に前記認識範囲の画像情報に含まれる識別情報の認識処理を前記入力部へのユーザ操作なしに実行するように前記認識部を制御し、前記認識範囲が所定回数連続して同じ大きさであると判断しない場合は前記認識処理を実行しないことを特徴とする情報処理装置。
  2. 静止画又は動画を撮像する通常撮像モードと識別情報を認識する認識モードとを有する情報処理装置であって、
    画像情報を出力する撮像部と、
    ユーザの入力を受け付ける入力部と、
    前記撮像部により出力された画像情報の中から識別情報の認識を行う対象とする認識範囲を抽出する抽出部と、
    前記抽出部により抽出された認識範囲の画像情報に含まれる識別情報を認識する認識部と
    前記認識部により認識された識別情報の関連情報を表示する表示部と、
    前記撮像部、前記抽出部、前記認識部、及び前記表示部を制御する制御部と、
    備え、
    前記制御部は、前記認識モードに設定されているとき、前記抽出部により抽出された認識範囲が所定時間同じ大きさであると判断した場合に前記認識範囲の画像情報に含まれる識別情報の認識処理を前記入力部へのユーザ操作なしに実行するように前記認識部を制御し、前記認識範囲が所定時間同じ大きさであると判断しない場合は前記認識処理を実行しないことを特徴とする情報処理装置。
  3. 前記制御部は、前記認識範囲の縦および横の長さの変化が所定画素以内である場合に、前記認識範囲が同じ大きさであると判断することを特徴とする請求項1または2に記載の情報処理装置。
JP2004006213A 2004-01-14 2004-01-14 情報処理装置 Expired - Lifetime JP4352902B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004006213A JP4352902B2 (ja) 2004-01-14 2004-01-14 情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004006213A JP4352902B2 (ja) 2004-01-14 2004-01-14 情報処理装置

Publications (2)

Publication Number Publication Date
JP2005202533A JP2005202533A (ja) 2005-07-28
JP4352902B2 true JP4352902B2 (ja) 2009-10-28

Family

ID=34820245

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004006213A Expired - Lifetime JP4352902B2 (ja) 2004-01-14 2004-01-14 情報処理装置

Country Status (1)

Country Link
JP (1) JP4352902B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007034942A (ja) * 2005-07-29 2007-02-08 Kobe Steel Ltd 情報処理装置及びそのプログラム
JP6251075B2 (ja) * 2014-02-12 2017-12-20 シャープ株式会社 翻訳装置
US10838056B1 (en) 2019-12-25 2020-11-17 NextVPU (Shanghai) Co., Ltd. Detection of target

Also Published As

Publication number Publication date
JP2005202533A (ja) 2005-07-28

Similar Documents

Publication Publication Date Title
JP5192462B2 (ja) リモートサポート方法、システム、プログラム
KR101622196B1 (ko) 휴대용 단말기에서 피오아이 정보 제공 방법 및 장치
US10902234B2 (en) Image recognition method and apparatus
US9589198B2 (en) Camera based method for text input and keyword detection
US7787693B2 (en) Text detection on mobile communications devices
JP2005134968A (ja) 携帯型情報端末装置および情報処理方法、記録媒体、並びにプログラム
CN103425488B (zh) 定位设备
JP2004318826A (ja) 携帯端末装置および文字入力方法
JP2007034625A (ja) 情報表示装置
CN111259907A (zh) 内容识别方法、装置以及电子设备
CN110209324B (zh) 一种显示方法及终端设备
JP4352902B2 (ja) 情報処理装置
WO2019097690A1 (ja) 画像処理装置、制御方法及び制御プログラム
CN112749769B (zh) 图形码检测方法、装置、计算机设备及存储介质
KR101412953B1 (ko) 악보 영상의 오선제거 방법
CN114299056A (zh) 图像的瑕疵点的识别方法、瑕疵图像识别模型训练方法
CN112887781A (zh) 字幕处理方法及装置
JP2012226085A (ja) 電子機器、制御方法、および制御プログラム
JP2007257360A (ja) 2次元コード、2次元コード読み取り装置、及び、2次元コード読み取り用プログラム
CN102968611A (zh) 信息处理器和信息处理方法
JP5999582B2 (ja) 情報出力装置及びプログラム
CN110909840B (zh) 显示方法及电子设备
WO2022267696A1 (zh) 内容识别方法、装置、电子设备以及存储介质
JP2018163413A (ja) 情報処理装置、プログラムおよび情報処理方法
JP4315025B2 (ja) 撮影装置、画像取得方法及びプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060424

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061010

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090707

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090720

R151 Written notification of patent or utility model registration

Ref document number: 4352902

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120807

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120807

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130807

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term