JP6144168B2

JP6144168B2 - 翻訳装置およびその制御プログラム

Info

Publication number: JP6144168B2
Application number: JP2013202483A
Authority: JP
Inventors: 健文大塚; 慎哉佐藤; 梅津　克彦; 克彦梅津
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2013-09-27
Filing date: 2013-09-27
Publication date: 2017-06-07
Anticipated expiration: 2033-09-27
Also published as: JP2015069366A; WO2015045680A1

Description

本発明は、文字認識した文字または文字列を翻訳する翻訳装置およびその制御プログラムに関する。

海外などで看板やメニュー等に記載されている単語や文章の意味を調べる方法として、辞書を引く方法や、翻訳したい単語や文章を手入力してＷｅｂ上で翻訳する方法がある。しかし、すぐに調べたいときや、手入力するには大変な量の文章などの場合は、看板やメニュー等を撮像した撮像画像から文字または文字列が記載されている箇所を抽出して自動的に機械翻訳（以下、単に「翻訳」という）し、さらに、その翻訳の結果を表示できれば非常に便利である。ここで、撮像画像から文字または文字列をＯＣＲ（Optical Character Reader）等で自動的に読み取る場合、撮像画像のピントが合っていないことや、撮像画像の中で文字または文字列の表示箇所が傾いていること等が原因で文字または文字列の認識率が悪化するという問題がある。

このような問題を解決する方法の一つとして、特許文献１に開示された方法がある。この方法では、文字認識の対象となる文字または文字列を含む画像およびその前後にある画像の複数の画像のそれぞれについて、文字認識に係る評価値を算出し、評価値が或る閾値を超えた画像、もしくは、或る閾値までの範囲内の画像のうち、最も評価値の高い画像を選択している。

特開２００９−８８９４４号公報（２００９年４月２３日公開）

しかしながら、上記特許文献１に記載の方法では、文字認識可能な文字を正しく文字認識できるケースは増加すると思われるが、文字が文字として文字認識されないケースが増加する可能性もあり、ユーザが最も文字認識して欲しい文字などを含む特定の画像領域における認識率が改善されない可能性がある。また、上記特許文献１に記載の方法では、文字認識の範囲が画像全体となっているので、仮に従来の翻訳技術を組合せたとしても翻訳範囲も画像全体とならざるを得ない。このため、文字認識と同様に、ユーザが最も翻訳して欲しい文字などを含む特定の画像領域における翻訳精度を向上させることは困難であると考えられる。

本発明は、上記問題点に鑑みて為されたものであり、その目的は、特定の画像領域における翻訳精度を向上させることができる翻訳装置などを提供することにある。

上記の課題を解決するために、本発明の一態様に係る翻訳装置は、撮像画像、および該撮像画像の撮像前または撮像後に収録される少なくとも１枚の静止画像、の各画像を取得する画像取得部と、取得した上記各画像に含まれる文字または文字列を文字認識する文字認識部と、文字認識した文字または文字列を翻訳する翻訳部と、上記文字または上記文字列の翻訳の結果の良否を評価する翻訳評価部と、上記各画像における上記翻訳の結果のうち、上記各画像の特定の画像領域における上記翻訳の結果の評価が最良となる画像における上記翻訳の結果を表示する制御を行う表示制御部と、を備えることを特徴とする翻訳装置。

本発明の一態様によれば、特定の画像領域における翻訳精度を向上させることができるという効果を奏する。

本発明の実施の一形態に係る翻訳装置の構成を示すブロック図である。上記翻訳装置の動作の一態様を示すフローチャートである。上記翻訳装置の動作の別の態様を示すフローチャートである。上記翻訳装置の動作のさらに別の態様を示すフローチャートである。上記翻訳装置の動作を説明するための説明図であり、（ａ）および（ｂ）は、上記翻訳装置の撮像前後の状態を示し、（ｃ）〜（ｅ）は、スルー画像の例を示す。上記翻訳装置の動作を説明するための説明図であり、（ａ）〜（ｄ）は、撮像画像の中央付近を切出す場合の動作の流れを示し、（ｅ）〜（ｈ）は、ユーザが指定した画像領域を切出す場合の動作の流れを示す。上記翻訳装置の動作を説明するための説明図であり、（ａ）および（ｄ）は、対象画像を示し、（ｂ）、（ｃ）、（ｅ）および（ｆ）は、翻訳の結果の例を示す。

本発明の実施の形態について図１〜図７に基づいて説明すれば以下のとおりである。

〔翻訳装置１の構成〕
図１は、本発明の実施の一形態に係る翻訳装置１の構成を示すブロック図である。翻訳装置１は、図１に示すように、制御部２、記憶部３、撮像部（画像取得部）４、操作部５、および表示部６を備える。

翻訳装置１は、撮像した瞬間の撮像画像だけでなく、該撮像画像の撮像前後に収録される少なくとも１枚のスルー画像（静止画像または録画画像）の各画像に対して文字認識処理、翻訳処理、翻訳の結果を評価する処理、および翻訳の結果を表示する処理などの各処理を行う装置である。

制御部２は、翻訳装置１の全体を統括して制御するものであり、例えばＣＰＵ（Central Processing Unit）等で構成することができる。制御部２は、記憶部３、撮像部４、操作部５、および表示部６の各制御ブロックを制御する。制御部２の詳細な構成については後述する。記憶部３は、制御部２が実行する各部の制御プログラムなどを実行するときに読み出す各種データを記憶するものである。記憶部３は、フラッシュメモリなどの不揮発性の記憶装置によって構成される。また、記憶部３は、制御部２が上述のプログラムを実行する過程で生成される各種データを一時的に保持するための作業領域として、ＲＡＭ（Random Access Memory）などの揮発性の記憶装置によって構成される領域を有する。なお、記憶部３は、必ずしも翻訳装置１内に設けられている必要はなく、翻訳装置１に着脱可能な外部記憶装置、または、通信可能なネットワーク上の外部記憶装置として、翻訳装置１に接続される構成であっても良い。そして、記憶部３は、特に、スルー画像データ３１（静止画像または録画画像）、撮像画像データ３２（撮像画像）、解析エリア設定情報３３、文字・文字列ＤＢ（データベース）３４、辞書ＤＢ３５、および重み付け設定情報３６などの各種データを記憶する。

撮像部４は、例えば、操作部５にて受け付けるユーザの操作に基づき、看板やメニュー等の撮像対象を被写体として撮像する通常のカメラが有する機能を備える。そして、撮像部４は、上記撮像によって取得した画像を制御部２に出力する。また、撮像部４は、撮像画像の撮像前後の状態を撮像したスルー画像を定期的または連続的に収録する機能を備える。操作部５は、翻訳装置１のユーザの操作を受け付けるものであり、典型的には、物理キー、キーボード、撮像ボタン、およびタッチパネルなどである。

次に、制御部２の構成について詳細に説明する。図１に示すように、制御部２は、操作部ＩＦ（インターフェース）２１、モード設定部２２、撮像部ＩＦ２３、画像処理部２４、文字認識部２５、翻訳部２６、表示レイアウト設定部２７、および表示制御部２８を備える。

表示部６は、制御部２の指示に基づいて画像を表示したり、画像中に含まれる文字または文字列を文字認識した結果を表示したり、文字認識した文字または文字列を翻訳した結果を表示したりする表示装置である。表示部６として液晶表示パネル、ＥＬ（Electro Luminescence）表示パネル等を適用することができる。また、表示部６は、画像表示と操作入力との両機能を備えるタッチパネルであっても良い。翻訳装置１では、表示部６は、撮像画像、スルー画像、文字認識した文字または文字列、および文字認識した文字または文字列の翻訳の結果などを表示する機能を備える。

操作部ＩＦ２１は、操作部５を介して入力されるユーザの操作信号を情報処理可能なデジタルデータに変換し、制御部２の各部に送信するものである。モード設定部２２は、操作部５を介したユーザ操作に従って翻訳装置１の動作モードを設定または変更するものであり、特定の動作モードに設定または変更されたことを、制御部２の各部に通知する。動作モードの例としては、文字または文字列を文字認識する文字認識モード、文字認識した文字または文字列を予め定められた言語に翻訳する翻訳モードの他、各種表示モードなど（撮像画像表示モード、スルー画像表示モード、認識文字表示モード、および翻訳結果表示モードなど）を例示することができる。

撮像部ＩＦ２３は、撮像部４にてユーザが撮像した撮像画像を取り込み、撮像画像データ３２（以下、単に「撮像画像」という）として記億部３に格納するものである。また、撮像部ＩＦ２３は、撮像画像を撮像する前後において撮像部４によって定期的または連続的に撮像されるスルー画像を取り込み、スルー画像データ３１（以下、単に「スルー画像」という）として記億部３に格納する。また、撮像部ＩＦ２３は、記憶部３に格納した撮像画像およびスルー画像を読み出して、画像処理部２４に受け渡す。ここで、ユーザが撮像画像を撮像する場合、常に同じ角度や傾きで撮像されるのではなく、連続的に角度や傾きが変化しながらある特定の角度や傾きのときに撮像される。なお、角度や傾きは、例えば、矩形の被写体（メモ用紙）の場合、メモ用紙の上下方向（メモ用紙に含まれる文字の上下方向と同じ）に対する角度または傾きとして定義することができる。このとき、撮像画像では文字または文字列の表示箇所が傾いていたり、撮像画像のピントが合っていなかったりしても、撮像前後では傾いていない鮮明な画像が撮像されていた可能性がある。

例えば、図５の（ａ）および（ｂ）は、それぞれ、翻訳装置１の撮像前後の状態を示している。図５の（ａ）では、表示部６に表示される被写体（メモ用紙）のカメラプレビュー画像を見ながら、ユーザがまさに撮像ボタンを押して撮像しようとしている瞬間の状態を示している。次に、図５の（ｂ）では、ユーザが撮像ボタンを押下したことなどによって生じた手振れ等で被写体の上下方向（被写体に含まれる文字の上下方向と同じ）が表示画面の長手方向に対して時計回りに少し傾いた状態で撮像されている状態が示されている。ユーザが撮影するまでの間にも手振れなどにより被写体の傾きやピントなどは刻々と変化する。そこで、本実施形態では、上述したように、撮像画像（静止画）を撮像する際に、スルー画像も定期的にまたは連続して保存しておき、ユーザが撮像した瞬間の撮像画像だけでなく、該撮像画像の撮像前後のスルー画像も使用することで、ユーザは翻訳して欲しい看板やメニュー等を撮像する際に、角度や影などの環境要因を意識しなくても、撮像画像の撮像前後のスルー画像の中で文字認識が可能なものがあればユーザに期待する翻訳の結果を表示することができる。例えば、図５の（ｃ）および（ｄ）に示すスルー画像ＡおよびＢでは、それぞれ、被写体の上下方向が表示画面の長手方向に対して時計回りに少し傾いた状態で撮像されていたり、被写体は傾いてはいないもののピントがあってない状態で撮像されていたりしている。しかしながら、以上のように刻々と変化している状態も保存しておけば、図５の（ｅ）に示すスルー画像Ｃのように、たまたま被写体の上下方向が表示画面の長手方向に対して傾いておらず、かつピントが合った状態で撮像される可能性が生じる。すなわち、以上のようなケースでは、スルー画像Ｃを処理した方が、正しい結果が得られる可能性が高い。

画像処理部２４は、撮像部ＩＦ２３から受け取った撮像画像およびスルー画像に対して画像処理を行うものである。画像処理部２４は、解析エリア設定部２４１および文字切り出し部２４２を備える。また、画像処理部２４は、現在、撮像画像表示モードに設定されている場合、撮像画像を表示レイアウト設定部２７に送信する。解析エリア設定部２４１は、撮像画像およびスルー画像の各画像の中心付近を含む特定の大きさの領域を自動的に解析エリア（特定の画像領域）として設定するか、ユーザが操作部５を介して指定した（または選択した）画像領域を解析エリアとして設定するものである。また、解析エリア設定部２４１は、設定した解析エリアに係る情報を、解析エリア設定情報３３として記憶部３に格納する。文字切り出し部２４２は、撮像画像およびスルー画像から文字または文字列を含む画像部分を切り出した切り出し画像〔例えば、図６の（ｂ）および（ｆ）参照〕を生成し、文字認識部２５に受け渡すものである。この切り出し画像の生成方法については、従来の方法を用いることができるのでその説明を省略する。

文字認識部２５は、例えば、文字切り出し部２４２から受け取った切り出し画像に含まれる文字と、文字・文字列ＤＢ３４において文字コードと対応付けて記録されている文字モデルと、を比較する。切り出し画像に含まれる文字と文字モデルとの類似度が予め設定した閾値を超えた場合、切り出し画像に含まれる文字は、類似する文字モデルに対応する文字コードの文字であると文字認識する。この文字認識の認識率は、例えば、切り出し画像に含まれる文字と文字モデルとの類似度などに基づいて定めれば良い。なお、文字認識の方法はこのような方法に限定されない。例えば、切り出し画像に含まれる文字から抽出される特徴量と、文字コードと対応付けて予め記録されている同種の文字の特徴量とを比較し、その類似度が特定の閾値を超えた場合に、切り出し画像に含まれる文字が、その特徴量に類似する特徴量に対応付けられた文字コードの文字であると文字認識しても良い。

次に、文字認識部２５は、文字列を文字認識する場合、文字列を構成する文字を１文字ずつ文字認識し、文字認識した文字を並べた文字列が、文字・文字列ＤＢ３４に存在しているか否かを確認する。このとき、文字認識した文字列の認識率は、例えば、各文字の認識率の平均値などを用いれば良い。なお、文字列の文字認識の方法は、以上のような方法に限定されず、その他の公知の方法を用いることができる。例えば、切り出し画像に含まれる文字列と、文字・文字列ＤＢ３４において文字列コードと対応付けて記録されている文字列モデルと、を直接比較する構成を採用しても良い。また、文字認識部２５は、認識結果評価部２５１を備えており、認識結果評価部２５１は、文字または文字列の認識率が予め定めた閾値を超えた場合に、文字認識が成功したと判定する。また、文字認識部２５は、現在、認識文字表示モードに設定されている場合、文字認識の結果を後述する表示レイアウト設定部２７に送信する。

翻訳部２６は、文字認識部２５が文字認識した（文字認識に成功した）文字または文字列を特定の言語（例えば、英語から日本語）に翻訳するものである。より具体的には、翻訳部２６は、文字認識された文字または文字列に対応する翻訳の結果が辞書ＤＢ３５に存在しているか否かを確認する。このとき、翻訳の結果の良否を示す評価値、すなわち、翻訳の結果の評価値（翻訳の精度）は、例えば、その文字または文字列の認識率に基づいて定めれば良い。なお、翻訳の評価方法は以上のような方法に限定されない。例えば、撮像画像に含まれるすべての文字または文字列に対して最も多くの文字または文字列の翻訳に成功した場合を最も良い結果と判断しても良く、この場合、例えば、評価値＝（翻訳に成功した文字または文字列の総数／撮像画像に含まれるすべての文字または文字列の総数）とする。また、撮像画像の解析エリア内において翻訳に成功した文字または文字列が最も多かった場合を良い結果と判断しても良く、この場合、例えば、評価値＝（解析エリア内で翻訳に成功した文字または文字列の総数／解析エリア内に含まれるすべての文字または文字列の総数）とする。また、本実施形態の翻訳部２６は、翻訳評価部２６１および重み付け設定部２６２を備える。

翻訳評価部２６１は、撮像画像およびスルー画像の各画像について翻訳の結果の良否の程度を示す評価値を算出し、該評価値の大小で翻訳の結果の良否を評価するものである。重み付け設定部２６２は、各画像上の位置に応じて評価値の重み付けを設定する。対象画像に含まれる文字などを翻訳してほしい場合、ユーザは画像に含まれているすべての文字などを万遍なく翻訳して欲しいのではなく、その中の一部を特に翻訳して欲しいと思うケースがある。その場合、ユーザは最も翻訳してほしい文字などが画面中央にくるように撮影することが多いと考えられるため、例えば、図７の（ｂ）に示す翻訳結果より、図７の（ｃ）に示す翻訳結果のほうがユーザとしては期待する結果と考えられる。しかし、画像全体において翻訳対象の文字などの数に対する翻訳されている文字などの数の割合で結果を評価すると、図７の（ｂ）に示す翻訳結果は７５％、図７の（ｃ）に示す翻訳結果は２５％で前者のほうが良い結果と判断されてしまう。そこで、画面中央付近に存在する「Rest today」が翻訳できた時は、たとえば加点を行い９０％翻訳できているとすることで図７の（ｃ）に示す翻訳結果を最もユーザが求める結果として表示することができる。このような加点のことを重み付けと呼ぶ。なお、この重み付けをおこなう個所は、図７の（ｄ）に示すように、画面中央に限らず、ユーザに特に翻訳してほしいところを指定させるようにしても良い。このとき、ユーザが指定した画像領域に含まれる「Rest today」が翻訳できたときは、たとえば加点を行い９０％翻訳できているとすることで、図７の（ｅ）に示す翻訳結果よりも、図７の（ｆ）に示す翻訳結果を最もユーザが求める結果として表示することができる。

すなわち、重み付け設定部２６２は、記憶部３に予め記録されている重み付け設定情報３６を参照し、撮像画像およびスルー画像の各画像における解析エリアについて算出される評価値の重み付けを、解析エリア以外の領域について算出される評価値の重み付けよりも大きく設定しても良い。より具体的には、解析エリア内であれば、重み付けを９０％に、解析エリア外であれば、１０％に設定する。なお、重み付けの方法は、以上のような方法に限定されない。例えば、記憶部３に予め記録されている重み付け設定情報３６を参照し、撮像画像およびスルー画像の各画像の中心の位置からの距離の大きさに応じて重み付けを小さく（例えば、重み付けの大きさを各画像の中心の位置からの距離に反比例させる）設定しても良い。より具体的には、重み付け設定部２６２は、例えば、画像の中心から何ピクセル離れているかに応じて、重み付けを１／（画像の中心からのピクセル数）に設定しても良い。その後、翻訳評価部２６１は、重み付け設定部２６２が設定した重み付けを用いて各画像について算出される評価値の重み付け和を算出し、該重み付け和の大小で翻訳の結果の良否を評価する。このとき、翻訳の結果の評価値の重み付け和が最大となる画像における翻訳の結果を特定する。翻訳部２６は、現在、翻訳結果表示モードに設定されている場合、特定された翻訳の結果を後述する表示レイアウト設定部２７に送信する。

また、翻訳評価部２６１は、解析エリア内について算出される評価値の総和が最大となる画像を特定し、翻訳部２６は、特定された画像における翻訳の結果を表示レイアウト設定部２７に送信しても良い。ここで、ユーザが翻訳して欲しい文字または文字列は画像の端ではなく、画像の中央付近（または画像の中心付近）にあることが多いため、複数の画像に対する翻訳の結果を評価する際に、上記のように、画像内での位置によって評価値に重み付けを行い、中央付近やユーザが選択した画像領域の評価値が高い画像を使った結果をユーザに表示することで、よりユーザが期待する翻訳の結果が得られ易くなる。また、翻訳部２６は、必ずしも重み付け設定部２６２を備えていなくても良い。

表示レイアウト設定部２７は、現在設定されている表示モードの種類に応じて、画像処理部２４から受け取った撮像画像、文字認識部２５から受け取った文字認識の結果、翻訳部２６から受け取った翻訳の結果に基づき、これらの各種データを統合し、表示部６に表示する表示用画像データを生成するものである。また、表示レイアウト設定部２７は、生成した表示用画像データを表示制御部２８に受け渡す。表示制御部２８は、表示部６を駆動し、表示用画像データを用いて、表示画面に表示用画像を表示させる制御を行うものである。表示制御部２８は、現在、撮像画像表示モードに設定されていれば、表示部６に撮像画像を表示させる。また、文字認識モードに設定されていれば、文字認識の結果を表示部６に表示させる。文字認識の結果は、文字認識の対象の文字または文字列とともに表示しても良いし、文字認識の対象の文字または文字列を文字認識の結果に置き換えて表示しても良い。表示制御部２８は、翻訳結果表示モードに設定されていれば、翻訳の結果を表示部６に表示させる。ここで、翻訳の結果は、文字認識の対象の文字または文字列とともに表示しても良いし〔図６の（ｄ）、図７の（ｃ）、（ｆ）参照〕、文字認識の結果とともに表示しても良い。また、文字認識の対象の文字または文字列を翻訳の結果に置き換えて表示しても良い〔図６の（ｈ）、図７の（ｂ）、（ｅ）参照〕。

〈翻訳装置１の効果〉従来は、ユーザが撮像対象の撮像において角度や傾きなどの環境要因を意識した撮像をする必要があり、環境要因に合せた撮像をしないと期待する結果が得られないケースがあった。しかしながら、本実施形態の翻訳装置１によれば、ユーザが撮像した瞬間の画像だけでなく、その撮像前後のスルー画像も解析することにより、対象を撮像するまでの間に得られていた解析に好適なスルー画像から精度の高い文字認識および翻訳の結果の表示が可能となる。すなわち、翻訳装置１によれば、ユーザは対象の撮像の際に環境要因を意識した撮像を行わなくても期待する翻訳の結果が得られるケースが多くなる。また、翻訳装置１によれば、解析エリアの評価結果を重要視した上で、翻訳の結果として最も評価が高いものをユーザに表示する。すなわち、解析エリア内の翻訳の評価が最良となる画像を使用した結果をユーザに表示することで、よりユーザが所望する翻訳結果が得られ易くなる。

〔実施形態１：翻訳装置１の動作（その１）〕
次に、図２に基づき、翻訳装置１の動作の一態様について説明する。図２は、翻訳装置１の動作の一態様を示すフローチャートである。まず、翻訳装置１の電源を入れて動作を開始する。ステップＳ（以下、「ステップ」は省略する）１１では、ユーザが操作部５を操作して動作モードを、例えば、翻訳モード（または翻訳結果表示モード）に設定し、撮像部４を起動してＳ１２に進む。

Ｓ１２では、撮像部ＩＦ２３は、撮像部４によって定期的または連続的に撮像されるスルー画像の保存を開始してＳ１３に進む。具体的には、撮像部４にて定期的または連続的に撮影したスルー画像を記憶部３に格納する。Ｓ１３では、ユーザの操作部５を介したシャッター操作により、撮像部４は、撮像画像を撮像し、撮像した撮像画像を記憶部３に格納して、Ｓ１４に進む。

Ｓ１４では、画像処理部２４は、撮像画像および撮像前後のスルー画像（静止画）で未解析の画像が存在するか否かを確認する。その結果、未解析の画像が存在する場合には、Ｓ１５に進み、未解析の画像が存在しない場合には、Ｓ１２に戻る。このとき、例えば、画像処理部２４は、未解析の画像の中心の座標から一定の距離だけ離れた点の軌跡で囲まれる円形領域を自動的に解析エリアに設定するか、あるいは、操作部５を介したユーザの指定に従って、解析エリアに設定する。

Ｓ１５では、文字認識部２５は、解析エリア（画像の中央付近またはユーザが選択した領域）の範囲内のみに対して、文字認識処理を行い、Ｓ１６に進む。これにより、解析エリアだけを使うことで特定の文字の認識率を高めるとともに１フレームあたりの処理時間も短縮できるため、ユーザを待たせることなくより多くの画像を評価に使えるようになり、撮像の際のユーザの負担を軽減できる。

Ｓ１６では、少なくとも１文字の文字認識に成功した場合には、Ｓ１６に進む。一方、文字認識に成功した文字が全くなかった場合には、Ｓ１４に戻る。なお、文字認識の詳細については上述したとおりである。Ｓ１７では、翻訳部２６が、文字認識に成功した文字または文字列に対して翻訳処理を行い、Ｓ１８に進む。なお、翻訳処理の詳細については上述したとおりである。

Ｓ１８では、翻訳部２６は、翻訳の結果の評価値（翻訳の精度）が、予め定めた閾値以上か否かを判定し、翻訳の結果の評価値が、予め定めた閾値以上であれば、Ｓ１９に進む。このとき、翻訳部２６は、翻訳処理を行った画像の中で、翻訳の評価が最良の画像の翻訳の結果を表示レイアウト設定部２７に送信する。一方、翻訳の結果の評価値が、予め定めた閾値未満であれば、Ｓ１４に戻る。Ｓ１９では、表示レイアウト設定部２７は、表示制御部２８に表示部６の駆動を制御させて、表示部６に翻訳の評価が最良の画像の翻訳の結果を表示して「ＥＮＤ」となる。

翻訳対象の文字などを含む画像を翻訳して欲しい場合、ユーザは画像に含まれているすべての文字などを万遍なく翻訳して欲しいのではなく、その中の一部を特に翻訳して欲しいと思うケースがある。その場合、ユーザは最も翻訳してほしい文字などが画面の中央付近にくるように撮影することが多いと考えられるため、例えば、画像全体を文字認識しなくても画像の中央付近（特定の画像領域内）だけを文字認識するだけでも期待の結果をユーザに表示できることがある。この場合、解析（文字認識および翻訳処理など）する画像領域のサイズが小さくなるため、翻訳結果が出るまでの時間を短縮できる。これにより、短い時間でより多くのスルー画像を解析することができるため、得られる翻訳結果の精度が高くなる効果が期待できる。そこで、以上で説明した動作のように、フレーム画像の評価に画像全体を使うのではなく、解析エリアだけを使うことで解析エリア内の文字または文字列の認識率を高めるとともに１フレームあたりの処理時間も短縮できるため、ユーザを待たせることなくより多くの画像を評価に使用できるようになり、撮像の際のユーザの負担を軽減できる。

ここで、図６に基づき、本実施形態の翻訳装置１の動作の流れの一態様についてより具体的に説明する。図６は、上述した翻訳装置１の動作を説明するための説明図であり、図６の（ａ）〜（ｄ）は、撮像画像の中央付近（解析エリア）を切出す場合の動作の流れを示している。図６の（ａ）に示す例では、対象画像の中央付近の矩形の画像領域Ａ１が解析エリアに設定されている。この例のように、処理範囲を解析エリア内に限定すれば、その処理時間は、画像全体に対して行うより短くなる。なお、図６の（ａ）に示す例のように、解析エリアの形状は円形でなく、矩形などであっても良く、その形状は特に限定されない。図６の（ｂ）に示す例では、文字切り出し部２４２が、まず、対象画像の中央付近だけを切り出し、「Rest Today」の文字列が切り出さている（抽出されている）状態を示している。さらに、図６の（ｃ）に示す例では、翻訳部２６が、「Rest Today」を翻訳して、「本日休み」という翻訳結果が得られている状態を示している。また、図６の（ｄ）に示す例では、表示部６に翻訳結果ＴＲとしての「本日休み」の文字列が表示されている。特に、この例では、ユーザが最も翻訳して欲しいと思っていた「Rest Today」との文字列も翻訳対象ＵＲとして同時に表示され、翻訳結果ＴＲが翻訳対象ＵＲに対応する翻訳結果であることが一目瞭然となるように表示が工夫されている。

一方、図６の（ｅ）〜（ｈ）は、ユーザが指定した画像領域を切出す場合の翻訳装置１の動作の流れを示している。図６の（ｅ）に示す例では、ユーザが翻訳上重要視して欲しいと考えて指定した画像領域Ａ２が、解析エリアに設定されている。なお、この形態では、文字列を指したときにその文字列を含む予め定めた大きさの画像領域が解析エリアに設定されるようにしている。図６の（ｆ）に示す例では、文字切り出し部２４２が、まず、対象画像の解析エリアの部分だけを切り出し、「Rest Today」の文字列が切り出さている状態を示している。さらに、図６（ｇ）に示す例では、翻訳部２６が、「Rest Today」を翻訳して、「本日休み」という翻訳結果が得られている状態を示している。また、図６の（ｈ）に示す例では、翻訳対象ＵＲとしての「Rest Today」に替えて、翻訳結果ＴＲとしての「本日休み」の文字列が表示部６に表示されている例を示している。

〔変形例〕なお、ユーザが指定した解析エリア内に含まれる文字などの文字認識の結果を重要視したい場合は、上述したＳ１３からＳ１５までの間にユーザが翻訳してほしい文字などを含む解析エリアを指定する処理を追加しても良い。

〔実施形態２：翻訳装置１の動作（その２）〕
次に、図３に基づき、翻訳装置１の動作の別の態様について説明する。図３は、翻訳装置１の動作の別の態様を示すフローチャートである。Ｓ２１〜Ｓ２４、Ｓ２６、Ｓ２７、およびＳ２９の各動作は、上述したＳ１１〜Ｓ１４、Ｓ１６、Ｓ１７、およびＳ１９の各動作とほぼ同じなので、ここでは、説明を省略する。Ｓ２５では、文字認識部２５は、上述したＳ１５と異なり、解析エリア内のみならず、画像全体に対して文字認識処理を行う。また、Ｓ２８では、翻訳評価部２６１は、解析エリア内で、閾値以上の精度（評価値）の翻訳結果が得られたか否かを判定し、閾値以上の精度の翻訳結果が得られた場合には、Ｓ２９に進む。一方、閾値以上の精度の翻訳結果が得られなかった場合にはＳ２４に戻る。本実施形態の動作では、実施形態１の動作と異なり、文字認識の範囲が画像全体となっているため、１フレームあたりの処理時間を短縮することはできないが、解析エリア内の文字または文字列の認識率を高めることができる。

〔実施形態３：翻訳装置１の動作（その３）〕
次に、図４に基づき、翻訳装置１の動作のさらに別の態様について説明する。図４は、翻訳装置１の動作のさらに別の態様を示すフローチャートである。Ｓ３１〜Ｓ３７の各動作は、上述したＳ２１〜Ｓ２７の各動作とほぼ同じなので、ここでは、説明を省略する。Ｓ３８では、重み付け設定部２６２が、画像内の位置に応じて翻訳結果の評価値に対して重み付けを行う。重み付けの方法の詳細は上述したとおりである。次に、翻訳評価部２６１は、重み付け設定部２６２が設定した重み付けを用いて上記各画像について算出される評価値の重み付け和を算出し、該重み付け和の大小で翻訳の結果の良否を評価する。その結果、重み付け和が最大となった画像があれば、その画像に対応する翻訳の結果を表示レイアウト設定部２７に通知してＳ３９に進む。Ｓ３９では、表示制御部２８は、表示部６を駆動して、評価値の重み付け和が最大となった画像に対応する翻訳の結果を表示部６に表示させて「ＥＮＤ」となる。本実施形態の動作では、実施形態１の動作と異なり、文字認識の範囲が画像全体となっているため、１フレームあたりの処理時間を短縮することはできないが、実施形態２と比較して、評価値の重み付け和が最大となる画像を使用した結果をユーザに表示することで、よりユーザが所望する翻訳の結果が得られ易くなる。

〔ソフトウェアによる実現例〕翻訳装置１（または制御部２）の制御ブロック（特に、撮像部ＩＦ２３、画像処理部２４、文字認識部２５、翻訳部２６、翻訳評価部２６１および重み付け設定部２６２など）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現しても良いし、ＣＰＵを用いてソフトウェアによって実現しても良い。後者の場合、翻訳装置１は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭなどを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されても良い。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る翻訳装置（１）は、撮像画像、および該撮像画像の撮像前または撮像後に収録される少なくとも１枚の静止画像（スルー画像）、の各画像を取得する画像取得部（撮像部４）と、取得した上記各画像に含まれる文字または文字列を文字認識する文字認識部（２５）と、文字認識した文字または文字列を翻訳する翻訳部（２６）と、上記文字または上記文字列の翻訳の結果の良否を評価する翻訳評価部（２６１）と、上記各画像における上記翻訳の結果のうち、上記各画像の特定の画像領域における上記翻訳の結果の評価が最良となる画像における上記翻訳の結果を表示する制御を行う表示制御部（２８）と、を備える構成である。

上記構成によれば、撮像画像だけでなく、撮像前後の少なくとも１枚の静止画像に対して文字認識処理、翻訳処理、翻訳の結果を評価する処理、および翻訳の結果を表示する処理を行う。このため、例えば、翻訳して欲しい看板やメニュー等を撮像する際に、角度や影などの環境要因を意識しなくても、撮像画像の撮像前後の静止画像の中で文字認識処理および翻訳処理が可能なものがあればユーザが期待する翻訳の結果を表示させることができる。また、上記構成によれば、特定の画像領域の評価値が最良となる画像を使用した結果をユーザに表示することで、特定の画像領域における翻訳精度を向上させることができる。

また、本発明の態様２に係る翻訳装置は、上記態様１において、上記翻訳評価部は、上記各画像について上記文字または上記文字列の上記翻訳の結果の良否の程度を示す評価値を算出し、該評価値の大小で上記翻訳の結果の良否を評価し、上記表示制御部は、上記特定の画像領域について算出される上記評価値の総和が最大となる画像における上記翻訳の結果を表示する制御を行っても良い。上記構成によれば、特定の画像領域について算出される翻訳の結果の評価値の総和が最大となる画像、すなわち、特定の画像領域における翻訳の結果の評価が最も高くなる画像における翻訳の結果を表示するので、特定の画像領域における翻訳精度を向上させることができる。

また、本発明の態様３に係る翻訳装置は、上記態様１または２において、上記翻訳評価部は、上記各画像について上記文字または上記文字列の上記翻訳の結果の良否の程度を示す評価値を算出し、上記特定の画像領域について算出される上記評価値の重み付けを、上記画像領域以外の領域について算出される上記評価値の重み付けよりも大きく設定する重み付け設定部を備え、上記翻訳評価部は、上記重み付け設定部が設定した重み付けを用いて上記各画像について算出される上記評価値の重み付け和を算出し、該重み付け和の大小で上記翻訳の結果の良否を評価し、上記表示制御部は、上記翻訳の結果の評価値の重み付け和が最大となる画像における上記翻訳の結果を表示する制御を行っても良い。一般に、ユーザが翻訳して欲しい文字または文字列は画像の端ではなく、画像の中央付近に存在することが多いと考えられる。また、例えば、看板の最も大きな文字やメニューのリストの一部など画像全体というより特定の画像領域に存在する文字または文字列を翻訳して欲しいケースのほうがユースケースとして多いと考えられる。このため、上記構成では、特定の画像領域について算出される翻訳の結果の評価値の重み付けを、該画像領域以外の領域について算出される翻訳の結果の評価値の重み付けよりも大きく設定して、各画像について翻訳の結果の評価値の重み付け和を算出し、翻訳の結果の評価値の重み付け和が最大となる画像の翻訳の結果を表示する。これにより、評価値の重み付け和が最大となる画像を使用した結果をユーザに表示することで、よりユーザが所望する翻訳の結果が得られ易くなる。

また、本発明の態様４に係る翻訳装置は、上記態様１〜３のいずれかにおいて、上記文字認識部は、上記特定の画像領域に含まれる上記文字または上記文字列のみを文字認識しても良い。翻訳対象の文字などを含む画像を翻訳して欲しい場合、ユーザは画像に含まれているすべての文字などを万遍なく翻訳して欲しいのではなく、その中の一部を特に翻訳して欲しいと思うケースがある。その場合、ユーザは最も翻訳してほしい文字などが画面の中央付近にくるように撮影することが多いと考えられるため、例えば、画像全体を文字認識しなくても画像の中央付近（特定の画像領域内）だけを文字認識するだけでも期待の結果をユーザに表示できることがある。この場合、解析（文字認識および翻訳処理など）する画像領域のサイズが小さくなるため、翻訳結果が出るまでの時間を短縮できる。これにより、短い時間でより多くの静止画像を解析することができるため、得られる翻訳結果の精度が高くなる効果が期待できる。

本発明の上記態様１〜４のいずれかの翻訳装置における処理をコンピュータに実行させるための制御プログラムおよび上記制御プログラムを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

本発明は、撮像画像に含まれる文字または文字列を文字認識する文字認識機能および文字認識した文字または文字列を翻訳する翻訳機能を搭載した情報処理装置に利用することができる。特に、ＰＣ（Personal Computer）、携帯電話、スマートフォン、タブレットＰＣ、電子辞書、デジタルカメラ、およびゲーム機器などの様々な情報処理装置に幅広く適用することができる。

１翻訳装置
４撮像部（画像取得部）
２５文字認識部
２６翻訳部
２８表示制御部
２６１翻訳評価部
２６２重み付け設定部

Claims

撮像画像、および該撮像画像の撮像前または撮像後に収録される少なくとも１枚の静止画像、の各画像を取得する画像取得部と、
取得した上記各画像に含まれる文字または文字列を文字認識する文字認識部と、
文字認識した文字または文字列を翻訳する翻訳部と、
上記文字または上記文字列の翻訳の結果の良否を評価する翻訳評価部と、
上記各画像における上記翻訳の結果のうち、上記各画像の特定の画像領域における上記翻訳の結果の評価が最良となる画像における上記翻訳の結果を表示する制御を行う表示制御部と、を備えることを特徴とする翻訳装置。
上記翻訳評価部は、上記各画像について上記文字または上記文字列の上記翻訳の結果の良否の程度を示す評価値を算出し、該評価値の大小で上記翻訳の結果の良否を評価し、
上記表示制御部は、上記特定の画像領域について算出される上記評価値の総和が最大となる画像における上記翻訳の結果を表示する制御を行うことを特徴とする請求項１に記載の翻訳装置。
上記翻訳評価部は、上記各画像について上記文字または上記文字列の上記翻訳の結果の良否の程度を示す評価値を算出し、
上記特定の画像領域について算出される上記評価値の重み付けを、上記画像領域以外の領域について算出される上記評価値の重み付けよりも大きく設定する重み付け設定部を備え、
上記翻訳評価部は、上記重み付け設定部が設定した重み付けを用いて上記各画像について算出される上記評価値の重み付け和を算出し、該重み付け和の大小で上記翻訳の結果の良否を評価し、
上記表示制御部は、上記翻訳の結果の評価値の重み付け和が最大となる画像における上記翻訳の結果を表示する制御を行うことを特徴とする請求項１に記載の翻訳装置。
上記文字認識部は、上記特定の画像領域に含まれる上記文字または上記文字列のみを文字認識することを特徴とする請求項１から３までのいずれか１項に記載の翻訳装置。
請求項１から４までのいずれか１項に記載の翻訳装置における処理をコンピュータに実行させるための制御プログラムであって、
撮像画像、および該撮像画像の撮像前または撮像後に収録される少なくとも１枚の静止画像、の各画像を取得する処理と、
取得した上記各画像に含まれる文字または文字列を文字認識する処理と、
文字認識した文字または文字列を翻訳する処理と、
上記文字または上記文字列の翻訳の結果の良否を評価する処理と、
上記各画像における上記翻訳の結果のうち、上記各画像の特定の画像領域における上記翻訳の結果の評価が最良となる画像における上記翻訳の結果を表示する処理と、をコンピュータに実行させるための制御プログラム。