JP6328409B2

JP6328409B2 - 翻訳装置

Info

Publication number: JP6328409B2
Application number: JP2013246529A
Authority: JP
Inventors: 慎哉佐藤; 岸本　達雄; 達雄岸本; 忠郎長沢
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2013-11-28
Filing date: 2013-11-28
Publication date: 2018-05-23
Anticipated expiration: 2033-11-28
Also published as: WO2015079751A1; JP2015106184A; US9824086B2; US20160321246A1

Description

本発明は、撮像された画像に含まれる文字列を翻訳する翻訳装置に関する。

従来、外国語の意味を知るために、カメラで撮影した画像に含まれる外国語の翻訳結果を、当該画像上に表示する技術がある。この技術において、画像に含まれる文字列の抽出は、光学文字認識（Optical character recognition、以下、ＯＣＲと呼称する）を用いることが多い。通常、ＯＣＲにおいては行単位で文字列を抽出するが、一方で、翻訳精度を向上させるためには文字列を文単位で翻訳することが重要である。そのため、行単位で抽出した文字列の文の終わりを判断する技術が知られている。例えば、特許文献１には、句点で文の終わりを判断する技術が開示されているとともに、文字列が英数字や名詞のみで構成されている場合は、句点が無くても一文として判断する技術が開示されている。

特開２０１１−８１５１６号公報（２０１１年４月２１日公開）特開平６−８４０１９号公報（１９９４年３月２５日公開）特開平８−１４７２７２号公報（１９９６年６月７日公開）

しかしながら、従来の技術は、文字列の文の終わりを判断するには十分ではない。例えば、特許文献１の技術では、文字列に句点が無い場合は精度よく判定できないという問題がある。この問題は、外国語で書かれた看板やメニューなど、句点が省略されることが多いものを撮影した画像において特に顕著となる。文の終わりを精度よく判断できなければ、翻訳結果も精度が悪いものとなってしまう。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、複数行からなる文字列を精度よく翻訳することができる翻訳装置等を実現することにある。

上記の課題を解決するために、本発明の一態様に係る翻訳装置は、撮像された画像に含まれる文字列を翻訳する翻訳装置であって、複数の行からなる上記文字列を行単位で抽出する文字列抽出手段と、上記文字列抽出手段により抽出された行のうち、上記画像において連続する２つの行が上記文字列の言語の特徴に基づく条件である結合条件を満たすか否かを判定する判定手段と、上記判定手段により上記結合条件を満たすと判定された場合、上記連続する２つの行を結合して翻訳し、上記結合条件を満たさないと判定された場合、上記連続する２つの行をそれぞれ翻訳する翻訳手段と、を備える。

本発明の一態様によれば、複数行からなる文字列を精度よく翻訳することができる翻訳装置を実現することができる。

一実施形態に係るスマートフォンの要部構成を示すブロック図である。文字列の翻訳における結合条件の一例を示す模式図である。文字列の翻訳における結合条件の別の例を示す模式図である。文字列の翻訳における分離条件の一例を示す模式図である。文字列の翻訳における分離条件の別の例を示す模式図である。分離条件における所定の値の決定を示す模式図である。図１に示すスマートフォンの処理の流れを示すフローチャートである。

以下、本発明の実施形態について、詳細に説明する。以下で説明する実施形態では、本発明をスマートフォンに適用した例を説明する。なお、適用例はスマートフォンに限定されず、撮像された画像に含まれる文字列を翻訳することが可能な翻訳装置であれば、本発明を適用可能である。また、説明の便宜上、各実施形態に示した部材と同一の機能を有する部材については、同一の符号を付し、適宜その説明を省略する。さらに、各図面に記載した構成の形状、並びに、長さ、大きさおよび幅などの寸法は、実際の形状や寸法を反映させたものではなく、図面の明瞭化と簡略化のために適宜変更している。

〔実施形態１〕
本発明の一実施形態において、図１〜３、および７に基づいて説明すれば以下のとおりである。まず、図１および図２を参照して、本実施形態に係るスマートフォン１の概要について説明する。図１は、スマートフォン１の要部構成を示すブロック図であり、図２は、文字列の翻訳における結合条件の一例を示す模式図である。

図１に示すように、本実施形態に係るスマートフォン１は、撮像された画像に含まれる文字列を翻訳するスマートフォンであって、複数の行からなる上記文字列を行単位で抽出する文字列抽出部２３（文字列抽出手段）と、文字列抽出部２３により抽出された行のうち、上記画像において連続する２つの行が上記文字列の言語の特徴に基づく条件である結合条件を満たすか否かを判定する条件判定部２４（判定手段、文字サイズ判定手段）と、条件判定部２４により上記結合条件を満たすと判定された場合、上記連続する２つの行を結合して翻訳し、上記結合条件を満たさないと判定された場合、上記連続する２つの行をそれぞれ翻訳する抽出行結合部２５および翻訳部２６（翻訳手段）とを備える。

具体例を、図２を参照して説明する。図２に示すように、スマートフォン１の表示部１２には撮像した英語の文字列５１が含まれている画像４１が表示されている。本実施形態に係るスマートフォン１は、文字列５１を行単位で抽出するが、抽出した行のうち連続する２つの行である抽出行６１および抽出行６２が文字列の言語の特徴に基づく条件である結合条件を満たす場合は、これらを結合して結合抽出行６３とし、翻訳する。

これにより、結合条件が、文字列の言語の特徴に基づく、連続する２つの行の間の改行箇所が文中である可能性が高いことを示す条件である場合、本来一文として翻訳されるべき複数の行が、別文として翻訳されることを防止できる。また、文字列５１は、図２の（ａ）に示すように句読点などの文の区切りがない英文であるが、本実施形態に係るスマートフォン１は、文の区切りを示す記号を含まないものであっても、本来一文として翻訳されるべき複数の行を正しく一文として翻訳することができる。

次に、図１を参照して、スマートフォン１の要部構成について説明する。図１に示すように、スマートフォン１は、操作部１１、表示部１２、制御部１３、撮像部１４、および記憶部１５を備えている。

操作部１１は、ユーザによる入力操作を受け付ける入力デバイスである。本実施形態における操作部１１は、表示部１２とタッチパネルを構成しており、指示体（指またはペンなど）の接触（接近も含む）を受け付ける入力面と、指示体が入力面に接触したことを検知するとともに、入力面における指示体が接触した位置（座標）を検知するタッチセンサとで構成されている。タッチセンサは、指示体と入力面との接触／非接触を検知できればどのようなセンサで実現されていても構わない。例えば、圧力センサや静電容量センサなどで実現される。また、操作部１１は、検知した座標を後述する操作特定部２１に出力する。なお、操作部１１はタッチパネルに限定されず、物理キーなどであってもよい。

表示部１２は、スマートフォン１が処理する情報を画像として表示領域に表示する表示デバイスである。具体的には、表示部１２は、後述する表示制御部２７によって処理された情報が表示される。表示制御部２７によって処理される情報の一例として、表示部１２は、スマートフォン１が撮像した画像に含まれる文字列を翻訳した翻訳文字列を表示する。なお、表示部１２は、例えば、ＬＣＤ（液晶ディスプレイ）などの表示デバイスで構成される。また、上述したように、本実施形態における表示部１２は、操作部１１と一体となり、タッチパネルを構成している。

制御部１３は、スマートフォン１が備える各部を統括制御するものである。制御部１３は、操作特定部２１、画像取得部２２、文字列抽出部２３、条件判定部２４、抽出行結合部２５、翻訳部２６、および表示制御部２７を含んでいる。

操作特定部２１は、操作部１１が受け付けた入力操作を特定するものである。具体的には、操作特定部２１は、上記入力操作における座標、指示体が入力面に接触していた時間、および、入力面に接触した指示体の移動方向などに基づいて、当該入力操作を特定する。そして、特定した入力操作に応じて、制御部１３内の各部が実行する処理を指示する。例えば、操作特定部２１は、後述する撮像部１４を動作させるための入力操作を特定し、画像取得部２２に指示して、撮像部１４を動作させる。

画像取得部２２は、後述する撮像部１４を動作させて画像を取得するものである。具体的には、画像取得部２２は、操作特定部２１からの指示を受けて、撮像部１４に画像を撮影させる。そして、撮像部１４が撮影した画像を取得し、取得した画像を文字列抽出部２３に供給する。なお、本実施形態における画像取得部２２は、撮像部１４が撮影した画像を取得する構成であるが、この例に限定されない。例えば、画像取得部２２は、操作特定部２１からの指示を受けて、後述する記憶部１５に記憶されている画像を読み出して、読み出した画像を文字列抽出部２３に供給してもよい。また、取得する画像は写真などの静止画像であってもよいし、動画などの映像であってもよいし、撮像部１４で画像を撮影するために表示部１２に表示される、いわゆるスルー画像であってもよい。

文字列抽出部２３は、画像に含まれる文字列を抽出するものである。具体的には、文字列抽出部２３は、画像取得部２２から供給される画像に文字列が含まれている場合、当該文字列を行単位で抽出する。なお、文字列を抽出する技術については、例えば既存の光学文字認識技術を使用することができる。また、抽出された行を示す情報（以降、抽出行と呼称する）は、画像における配置関係を識別できる情報であることが好ましい。例えば、文字列抽出部２３は、画像に含まれる文字列の行を上から順番に抽出し、抽出した順に並ぶテーブル形式の情報に変換してもよい。なお、抽出行は、画像における配置関係を識別できる情報であれば、上記の例に限定されない。また、文字列抽出部２３は、文字列を構成する行をすべて抽出した後、抽出行を条件判定部２４に供給する。

条件判定部２４は、抽出行が所定の条件を満たすか否かを判定するものである。具体的には、条件判定部２４は、後述する結合条件格納部３１に格納された結合条件を読み出す。そして、条件判定部２４は、文字列抽出部２３から供給された抽出行のうち、画像において連続する２つの抽出行が上記結合条件を満たすか否かを判定する。そして、結合条件を満たすと判定された上記連続する２つの抽出行を、抽出行結合部２５に供給する。さらに、条件判定部２４は、抽出行結合部２５から供給された結合抽出行と、画像取得部２２において連続する抽出行とが、上記結合条件を満たすか否かを判定する。ここで、結合抽出行と、結合抽出行に連続する抽出行とが結合条件を満たすと判定された場合、当該結合抽出行および抽出行を、抽出行結合部２５に供給する。最後に、条件判定部２４は、すべての抽出行の判定が終了すると、判定が終了した結合抽出行および抽出行を、翻訳部２６に供給する。

ここで、結合条件とは、文字列の言語の特徴に基づく条件であり、具体的には、連続する２つの行の間の改行箇所が文中である可能性が高いことを示す、文字列の言語の特徴である。例えば、文字列の言語が英語である場合の結合条件の例としては、以下のものが挙げられる。（１）画像取得部２２が取得した画像において連続する２つの行のうち、後に位置する行の先頭文字が小文字である。（２）上記連続する２つの行のうち、前に位置する行の最後に配置された単語の品詞が接続詞、前置詞、または冠詞のいずれかである。（３）上記連続する２つの行のうち、後に位置する行が全て大文字で構成されている。

本実施形態に係る条件判定部２４は、後述する結合条件格納部３１に格納されている上記結合条件（１）〜（３）を読み出し、上記連続する２つの行が上記結合条件（１）〜（３）のうち少なくともいずれか１つを満たすか否かを判定する。このため、本実施形態に係る条件判定部２４は、抽出行を構成する文字が大文字であるか小文字であるかを判定する機能、および、抽出行の最後に配置された単語の品詞を特定する機能を備える。なお、結合条件は上述したものに限定されない。すなわち、結合条件は、画像取得部２２が取得した画像に含まれる文字列の言語の特徴に基づく、連続する２つの行の間の改行箇所が文中である可能性が高いことを示す条件であればよい。また、条件判定部２４が備える機能は上記のものに限定されず、結合条件に応じた機能を備えていればよい。

抽出行結合部２５は、結合条件を満たす連続する２つの抽出行を結合するものである。具体的には、抽出行結合部２５は、条件判定部２４から供給された上記連続する２つの抽出行を結合し、結合抽出行を生成する。そして、抽出行結合部２５は、生成した結合抽出行を、未判定の抽出行として条件判定部２４に供給する。

翻訳部２６は、抽出行および結合抽出行を翻訳するものである。具体的には、翻訳部２６は、後述する翻訳データ格納部３３から読み出した翻訳データに基づいて、条件判定部２４から供給された抽出行および結合抽出行を翻訳する。なお、翻訳データの詳細については後述する。また、翻訳部２６による翻訳処理（例えば、英語から日本語への翻訳処理）は、既存の翻訳技術を使用することができる。翻訳部２６は、抽出行および結合抽出行を翻訳した結果である翻訳文字列を、表示制御部２７に供給する。

表示制御部２７は、表示部１２に表示する画像を決定するものである。具体的には、表示制御部２７は、翻訳部２６から翻訳文字列を供給されると、当該翻訳文字列を画像として表示部１２に表示する。例えば表示制御部２７は、表示部１２において文字列が表示されている領域を特定し、翻訳文字列を特定した領域に表示させてもよい。これにより、翻訳文字列は文字列に重畳されることとなる。よってユーザは、撮像部１４によって撮像した画像のレイアウトを損なうことなく、文字列が翻訳された画像を得ることができる。なお、翻訳文字列の表示形態は上記の例に限定されない。例えば、文字列の近傍に翻訳文字列を表示してもよいし、撮像した画像を表示せず、翻訳文字列のみを表示してもよい。

撮像部１４は、対象物を撮像するための撮像デバイスであり、いわゆるカメラである。撮像部１４としては、スマートフォン１に一般的に搭載されている、既存のカメラを用いることができる。なお、撮像部１４は、写真などの静止画像を撮像するものであってもよいし、動画などの映像を撮像するものであってもよい。また、静止画像および映像の両方を撮像可能であってもよい。撮像部１４は、画像取得部２２によって制御され、対象物を撮像する。また、撮像部１４は、撮像した静止画像や映像を画像取得部２２に出力する。

記憶部１５は、スマートフォン１にて使用される各種データを記憶する記憶デバイスである。図１に示すように、記憶部１５は、結合条件格納部３１、および翻訳データ格納部３３を含む。さらに、図１に示すように、分離条件格納部３２を含んでもよい。分離条件格納部３２を含む形態については、後述する実施形態２にて説明する。

結合条件格納部３１は、条件判定部２４が抽出行を結合するか否かを判定するための結合条件を格納している。本実施形態に係る結合条件格納部３１は少なくとも、上述した結合条件（１）〜（３）を格納している。翻訳データ格納部３３は、翻訳部２６が抽出行および結合抽出行を翻訳するために使用する各種データを格納している。具体的には、文字列に含まれる単語、連語、熟語などを翻訳するための辞書データ（例えば、英和辞書データなど）や、翻訳前後の言語の文法規則などが格納されている。

次に、図２および図３を参照して、結合条件を満たす文字列の具体例について説明する。図３は、文字列の翻訳における結合条件の別の例を示す模式図である。図２の（ａ）に示すように、表示部１２に表示されている画像４１は文字列５１を含んでいる。文字列５１は２行からなる一文であるため、図２の（ｂ）に示すように、文字列抽出部２３は文字列５１を抽出行６１と抽出行６２として抽出する。ここで、抽出行６１および抽出行６２をそのまま翻訳すると、一文を途中で分割して翻訳することとなる。その結果、翻訳結果７１および翻訳結果７２が得られるが、これらはユーザの望む正しい翻訳結果ではない。

そこで、本実施形態に係る条件判定部２４は、抽出行６１および抽出行６２が上述した結合条件（１）〜（３）を満たすか否かを判定する。図２の例の場合、連続する２つの行である抽出行６１および抽出行６２のうち、後に位置する行である抽出行６２の先頭文字が小文字であるため、抽出行６１および抽出行６２は、結合条件（１）を満たす。これにより、抽出行結合部２５は抽出行６１および抽出行６２を結合し、結合抽出行６３を生成する。そして、図２の（ｃ）に示すように、翻訳部２６は生成された結合抽出行６３を翻訳するので、ユーザが望む正しい翻訳結果である翻訳結果７３が得られる。最後に、図２の（ｄ）に示すように、翻訳結果７３が翻訳後文字列８１として表示部１２に表示されることで、ユーザに文字列５１の正しい翻訳結果を提示することができる。

次に、図３の（ａ）に示すように、画像４２は２行からなる文字列５２を含んでいる。ここで、文字列５２の前行の最後に配置された単語は、前置詞である“ｗｉｔｈ”であるため、上述した結合条件（２）を満たしている。そのため、文字列５２の前行と後行は結合されて結合抽出行として翻訳される。その結果、図３の（ｂ）に示すように、文字列５２が正しく翻訳された翻訳後文字列８２が表示部１２に表示される。

また、図３の（ｃ）に示すように、画像４３は２行から成る文字列５３を含んでいる。ここで、文字列５３の後行はすべて大文字で構成されているため、上述した結合条件（３）を満たしている。そのため、文字列５３の前行と後行は結合されて結合抽出行として翻訳される。その結果、図３の（ｄ）に示すように、文字列５３が正しく翻訳された翻訳後文字列８３が表示部１２に表示される。

次に、図７を参照して、スマートフォン１が実行する処理の流れについて説明する。図７は、スマートフォン１が実行する処理の流れの一例を示すフローチャートである。なお、本実施形態は、条件判定部２４が結合条件を満たすか否かのみ判定する構成であるため、ステップＳ５は省略される。

まず、画像取得部２２は画像を取得する（Ｓ１）。例えば、画像取得部２２は、撮像部１４を動作させることによりスマートフォン１の周囲を撮像することで画像を取得する。画像取得部２２は、文字列抽出部２３に取得した画像を供給する。なお、ここで取得した画像には、複数の行からなる文字列が含まれているものとする。次に、文字列抽出部２３は、画像に含まれる文字列を行単位で抽出する（Ｓ２）。そして、文字列抽出部２３は、抽出した行を示す情報（抽出行）を、条件判定部に供給する。次に、条件判定部２４は、抽出された各行について結合条件を満たすか否かを判定する（Ｓ３）。具体的には、画像取得部２２が取得した画像において連続する２行が結合条件を満たすか否かを判定する。結合条件を満たしている場合（Ｓ４でＹＥＳ）、抽出行結合部２５は、画像において連続する２行を結合する（Ｓ６）。具体的には、条件判定部２４から供給された、結合条件を満たす２行を結合し、結合抽出行を生成する。そして、生成した結合抽出行を未判定の抽出行として条件判定部２４に供給する。一方、結合条件を満たしていない場合（Ｓ４でＮＯ）、条件判定部２４は、当該２行を抽出行結合部２５に供給せず、ステップＳ６は省略される。

条件判定部２４がすべての行の判定を終了していない場合（Ｓ７でＮＯ）、ステップＳ４に戻り、判定していない連続する２行について、ステップＳ４からステップＳ６の処理を実行する。すべての行の判定が終了している場合（Ｓ７でＹＥＳ）、条件判定部２４は、結合抽出行および抽出行を、翻訳部２６に供給する。次に、翻訳部２６は、文字列を翻訳する（Ｓ８）。具体的には、条件判定部２４から供給された抽出行および結合抽出行を、翻訳データ格納部３３から読み出した翻訳データに基づいて翻訳する。そして、翻訳部２６は、抽出行および結合抽出行を翻訳した結果である翻訳文字列を、表示制御部２７に供給する。最後に、表示制御部２７は、翻訳した文字列を表示する（Ｓ９）。具体的には、表示制御部２７は、翻訳部２６から翻訳文字列を供給されると、当該翻訳文字列を画像として表示部１２に表示する。

〔実施形態２〕
次に、本発明の別の実施形態について、図１、図４〜５、および図７を参照して説明すれば、以下のとおりである。実施形態１では、条件判定部２４は、結合条件を満たすか否かを判定する構成であったが、本実施形態では、条件判定部２４は、結合条件に加え、上記連続する２つの抽出行が、分離条件格納部３２に格納された分離条件を満たすか否かを判定する構成である。分離条件格納部３２は、条件判定部２４が抽出行を結合するか否かを判定するための分離条件を格納している。本実施形態に係る分離条件格納部３２は少なくとも、後述する分離条件（４）〜（７）を格納している。

ここで、分離条件とは、結合条件を満たす上記連続する２つの行における例外を示す条件である。すなわち、結合条件を満たしているものの、別文である可能性が高い上記連続する２つの行を結合させないための条件である。つまり、条件判定部２４は、結合条件を満たし、かつ、分離条件を満たさないと判定された上記連続する２つの抽出行を、抽出行結合部２５に供給し、抽出行結合部２５は、結合条件を満たし、かつ、分離条件を満たさない連続する２つの抽出行を結合する。

また、具体的には、分離条件は、上記連続する２つの行を構成する文字の特徴、および、上記連続する２つの行の位置関係のうち少なくとも一方に基づく条件であり、上記連続する２つの行が別文である可能性が高いことを示す、上記連続する２つの行を構成する文字の特徴または位置関係である。例えば、分離条件の例としては以下のものが挙げられる。（４）画像取得部２２が取得した画像における連続する２つの行のうち一方を構成する文字のサイズと、他方を構成する文字のサイズとの差が所定の閾値（文字サイズ閾値）を超える。（５）上記連続する２つの行の距離が所定の閾値（距離閾値）を超える。（６）上記連続する２つの行のうち一方を構成する文字の色と、他方を構成する文字の色とが異なる。（７）上記文字列の行方向における、上記連続する２つの行の先頭文字の位置が所定の閾値（文字位置閾値）を超えて離れている。

本実施形態に係る条件判定部２４は、後述する分離条件格納部３２に格納されている上記分離条件（４）〜（７）を読み出し、上記連続する２つの行が上記分離条件（４）〜（７）のうち少なくともいずれか１つを満たすか否かを判定する。このため、本実施形態に係る条件判定部２４はさらに、上記連続する２つの行を構成する文字のサイズを特定し、一方の行における文字のサイズと他方の行における文字のサイズとの差が上記文字サイズ閾値を超えるか否かを判定する機能、上記連続する２つの行の距離を特定し、当該距離が上記距離閾値を超えるか否かを判定する機能、上記連続する２つの行における文字の色を特定し、一方の行における文字の色と他方の行における文字の色とが同じか否かを判定する機能、および文字列の行方向における、上記連続する２つの行の先頭文字の位置を特定し、当該位置が上記文字位置閾値を超えて離れているか否かを判定する機能を備える。なお、分離条件は上述したものに限定されない。すなわち分離条件は、画像取得部２２が取得した画像に含まれる文字列における、上記連続する２つの行を構成する文字の特徴または位置関係が上記連続する２つの行が別文である可能性が高いことを示すものであればよい。また、条件判定部２４が備える機能は上記のものに限定されず、分離条件に応じた機能を備えていればよい。

次に、図４および図５を参照して、分離条件を満たす文字列の具体例について説明する。図４は、文字列の翻訳における分離条件の一例を示す模式図であり、図５は、文字列の翻訳における分離条件の別の例を示す模式図である。図４の（ａ）に示すように、表示部１２に表示されている画像４４は、文字列５４を含んでいる。文字列５４は２行からなるため、図４の（ｂ）に示すように、文字列抽出部２３は、文字列５４を抽出行６４と抽出行６５として抽出する。そして、条件判定部２４は、抽出行６４および抽出行６５が上述した結合条件（１）〜（３）を満たすか否かを判定する。図４の例の場合、連続する２つの行である抽出行６４および抽出行６５のうち、後に位置する行である抽出行６５の先頭文字が小文字であるため、抽出行６４および抽出行６５は、結合条件（１）を満たす。

ここでさらに、条件判定部２４は、抽出行６４および抽出行６５が上述した分離条件（４）〜（７）を満たすか否かを判定する。図４の例の場合、抽出行６４と抽出行６５は文字のサイズが大きく異なる。ここで、抽出行６４の文字のサイズと抽出行６５の文字のサイズとの差が所定の値以上であった場合、抽出行６４および抽出行６５は、分離条件（４）を満たす。よって、抽出行結合部２５は抽出行６４と抽出行６５とを結合せず、翻訳部２６は抽出行６４および抽出行６５をそれぞれ翻訳する。その結果、図４の（ｂ）に示すように、ユーザが望む正しい翻訳結果である翻訳結果７４および翻訳結果７５が得られる。最後に、図４の（ｃ）に示すように、翻訳結果７４および翻訳結果７５が、翻訳後文字列８４として表示部１２に表示されることで、ユーザに文字列５４の正しい翻訳結果を提示することができる。

また、図５の（ａ）に示す画像４５に含まれる文字列５５は、後行の先頭文字が小文字であるため、結合条件（１）を満たすが、前行と後行の文字の色が異なるため、分離条件（６）を満たす。さらに、図５の（ｂ）に示す画像４６に含まれる文字列５６は、後行の先頭文字が小文字であるため、結合条件（１）を満たすが、前行と後行の開始位置が大きく異なる。換言すれば、文字列の行方向に一次元座標を設定したとき、前行の先頭文字の座標と後行の先頭文字の座標とが大きく異なる。ここで、前行と後行の先頭文字の位置（座標）が所定の値以上離れている場合は、分離条件（７）を満たす。また、図５の（ｃ）に示すように、画像４７に含まれる文字列５７は、後行を構成する文字が全て大文字であるため、結合条件（３）を満たすが、前行と後行とが大きく離れている。ここで、前行と後行との距離が所定の値以上である場合は、分離条件（５）を満たす。以上により、文字列５５、文字列５６、文字列５７の前行と後行は、結合条件を満たすものの、それぞれ別々に翻訳されるため、ユーザに各文字列の正しい翻訳結果を提示することができる。

次に、図７を参照して、スマートフォン１が実行する処理の流れについて説明する。なお、実施形態１にて既に説明した処理と同様の処理を行うステップについては、その詳細な説明を省略する。

本実施形態に係るスマートフォン１においては、結合条件を満たしている場合（Ｓ４でＹＥＳ）、条件判定部２４はさらに、当該２行が分離条件を満たしているか否かを判定する（Ｓ５）。分離条件を満たしていない場合（Ｓ５でＮＯ）、条件判定部２４は、当該２行を抽出行結合部２５に供給する。次に、抽出行結合部２５は、画像において連続する２行を結合する（Ｓ６）。具体的には、条件判定部２４から供給された、結合条件を満たし、かつ、分離条件を満たさない２行を結合し、結合抽出行を生成する。一方、結合条件を満たしていない場合（Ｓ４でＮＯ）、条件判定部２４は、当該２行を抽出行結合部２５に供給せず、ステップＳ５およびステップＳ６は省略される。また、分離条件を満たしている場合（Ｓ５でＹＥＳ）、条件判定部２４は、当該２行を抽出行結合部２５に供給せず、ステップＳ６は省略される。
〔実施形態３〕
次に、本発明のさらに別の実施形態について、図６を参照して説明すれば、以下のとおりである。本実施形態では、実施形態２で説明した分離条件における所定の値を、文字サイズに応じて決定する構成について説明する。すなわち、本実施形態に係る条件判定部２４は、特定した上記文字のサイズに応じて、上記分離条件（５）および（７）における所定の値を決定する。一般に、文字列に含まれる行の文字のサイズが大きくなると、連続する２つの行の距離や、連続する２つの行の先頭文字のずれは大きくなることが多い。つまり、これらを判定するための値が文字のサイズによらず一定だった場合、文字のサイズが大きくなると、本来分離条件を満たしていないと判定されるべき連続する２つの行が、分離条件を満たすと誤判定されるおそれがある。このため、上記所定の値を文字のサイズに応じて変化させることで、誤判定の可能性を低くすることができる。

図６は、分離条件における所定の値の決定を示す模式図である。図６の（ａ）に示す画像９１と図６の（ｂ）に示す画像９３とはそれぞれ、結合条件（３）を満たす文字列９２と文字列９４とを含んでいる。ここで画像９１と画像９３とを比較すると、文字列９２を構成する文字のサイズは文字列９４を構成する文字のサイズと比べて小さい。そのため、条件判定部２４は、画像９１の場合における分離条件（５）の所定の値を、画像９３の場合における分離条件（５）の所定の値に比べて小さく設定する。よって、文字列９２における前行と後行との距離と文字列９４における前行と後行との距離とは同じである（図６の（ａ）および図６の（ｂ）における矢印の長さが等しい）が、文字列９２における前行と後行とは分離条件（５）を満たすため、それぞれ別々に翻訳される。一方、文字列９４における前行と後行とは分離条件（５）を満たさないため、前行と後行とは結合され、翻訳される。

また、図６の（ｃ）に示す画像９５は、結合条件（１）を満たす文字列９６を含んでいる。さらに、図６の（ｄ）に示す画像９７は、結合条件（２）を満たす文字列９８を含んでいる。ここで、画像９５と画像９７とを比較すると、文字列９６を構成する文字のサイズは、文字列９８を構成する文字のサイズと比べて小さい。そのため、条件判定部２４は、画像９５の場合における分離条件（７）の所定の値を、画像９７の場合における分離条件（７）の所定の値に比べて小さく設定する。これにより、座標９９を設定したとき、文字列９６における前行および後行の先頭文字の位置と、文字列９８における前行および後行の先頭文字の位置とは同じである（図６の（ｃ）および図６の（ｄ）における破線間の距離が等しい）が、文字列９６における前行と後行とは分離条件（７）を満たすため、それぞれ別々に翻訳される。一方、文字列９８における前行と後行とは分離条件（７）を満たさないため、前行と後行とは結合され、翻訳される。

以上により、連続する２つの行の距離や、連続する２つの行における先頭文字の位置を判定するための値を文字のサイズに応じて決定するので、誤判定の可能性を低くすることができる。

〔ソフトウェアによる実現例〕
スマートフォン１の制御ブロック（特に、操作特定部２１、画像取得部２２、文字列抽出部２３、条件判定部２４、抽出行結合部２５、翻訳部２６、表示制御部２７）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、スマートフォン１は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る翻訳装置（スマートフォン１）は、撮像された画像に含まれる文字列を翻訳する翻訳装置であって、複数の行からなる上記文字列を行単位で抽出する文字列抽出手段（文字列抽出部２３）と、上記文字列抽出手段により抽出された行のうち、上記画像において連続する２つの行が上記文字列の言語の特徴に基づく条件である結合条件を満たすか否かを判定する判定手段（条件判定部２４）と、上記判定手段により上記結合条件を満たすと判定された場合、上記連続する２つの行を結合して翻訳し、上記結合条件を満たさないと判定された場合、上記連続する２つの行をそれぞれ翻訳する翻訳手段（抽出行結合部２５、翻訳部２６）と、を備える。

上記構成によれば、連続する２つの行が結合条件を満たす場合は結合して翻訳する。一方、結合条件を満たさない場合は結合せず、それぞれを翻訳する。ここで、結合条件が、文字列の言語の特徴に基づく、連続する２つの行の間の改行箇所が文中である可能性が高いことを示す条件である場合、本来一文として翻訳されるべき複数の行が、別文として翻訳されることを防止できる。また、結合条件が、文字列の言語の特徴に基づく、連続する２つの行の間の改行箇所が文中である可能性が高いことを示す条件である場合、文字列が句読点などの文の区切りを示す記号を含まないものであっても、本来一文として翻訳されるべき複数の行を正しく一文として翻訳することができる。以上より、複数行からなる文字列を精度よく翻訳することができる翻訳装置を実現することができる。

本発明の態様２に係る翻訳装置は、上記態様１において、上記文字列の言語は英語であり、上記判定手段は、上記結合条件として、（１）上記連続する２つの行のうち、後に位置する行の先頭文字が小文字であること、（２）上記連続する２つの行のうち、前に位置する行の最後に配置された単語の品詞が接続詞、前置詞、または冠詞のいずれかであること、および、（３）上記連続する２つの行のうち、後に位置する行がすべて大文字で構成されていること、のうち少なくともいずれか１つを満たすか否かを判定してもよい。

上記の構成によれば、文字列が英語の場合に、連続する２つの行が、上記結合条件を満たすか否かを判定する。具体的には、後に抽出された行の先頭文字が小文字である場合は、前に抽出された行から文が続いていると考えられるため、結合すべきと判定する。また、前に抽出された行の最後に配置された単語の品詞が、接続詞、前置詞、または冠詞のいずれかである場合は、後に抽出された行に文が続いていると考えられるため、結合すべきと判定する。また、後に抽出された行の先頭文字が大文字であったとしても、当該行を構成するすべての文字が大文字である場合は、前に抽出された行から文が続いている可能性があるため、結合すべきと判定する。これにより、文字列が英語の場合に、文字列を文単位で翻訳することが可能となる。よって、英語で構成された複数行からなる文字列を精度よく翻訳することができる。

本発明の態様３に係る翻訳装置は、上記態様１または２において、上記判定手段は、上記連続する２つの行を構成する文字の特徴、および、上記連続する２つの行の位置関係のうち少なくとも一方に基づく条件である分離条件を満たすか否かをさらに判定し、上記翻訳手段は、上記分離条件を満たす場合は上記結合条件を満たす上記連続する２つの行を結合せず、それぞれ翻訳してもよい。

上記の構成によれば、結合条件を満たす場合であっても、連続する２つの行を構成する文字の特徴、または、連続する２つの行の位置関係に基づく離条件を満たす場合は、連続する２つの行を結合しない。ここで、上記文字の特徴または上記位置関係（分離条件）が、連続する２つの行が別文である可能性が高いことを示すものである場合、結合条件を満たしていても、別文である可能性が高い２つの行をそれぞれ別文として正しく翻訳することができる。よって、複数行からなる文字列をさらに精度よく翻訳することができる。

本発明の態様４に係る翻訳装置は、上記態様３において、上記判定手段は、上記分離条件として、（４）上記連続する２つの行のうち一方を構成する文字のサイズと、他方を構成する文字のサイズとの差が所定の文字サイズ閾値を超えること、（５）上記連続する２つの行の距離が所定の距離閾値を超えること、（６）上記連続する２つの行のうち一方を構成する文字の色と、他方を構成する文字の色とが異なること、（７）上記文字列の行方向における、上記連続する２つの行の先頭文字の位置が所定の文字位置閾値を超えて離れていること、のうち少なくともいずれか１つを満たすか否かを判定してもよい。

上記の構成によれば、連続する２つの行のうち一方を構成する文字のサイズと、他方を構成する文字のサイズとが大きく異なる場合は、２つの行は別文である可能性が高い。また、連続する２つの行が所定の距離以上離れている場合も、２つの行は別文である可能性が高い。同様に、連続する２つの行のうち一方を構成する文字の色と、他方を構成する文字の色とが異なる場合も、２つの行は別文である可能性が高い。さらに、連続する２つの行における先頭文字の位置が所定の値以上離れている場合も、連続する２つの行は別文である可能性が高い。以上より、このような条件、換言すれば、連続する２つの行が別文である可能性が高いことを示す条件を満たす場合に連続する２つの行を結合しないようにすることで、複数行からなる文字列をさらに精度よく翻訳することができる。

本発明の態様５に係る翻訳装置は、上記態様４において、上記文字列抽出手段によって抽出された行を構成する上記文字のサイズを判定する文字サイズ判定手段（条件判定部２４）をさらに備え、上記判定手段は、上記文字サイズ判定手段によって判定された上記文字のサイズに応じて、上記距離閾値および上記文字位置閾値を決定してもよい。

上記の構成によれば、連続する２つの行の距離、および、連続する２つの行における先頭文字の位置のずれを判定するための値は、抽出された行を構成する文字のサイズによって決定される。一般に、文字列に含まれる行の文字のサイズが大きくなると、連続する２つの行の距離や、連続する２つの行の先頭文字の位置のずれは大きくなることが多い。つまり、これらを判定するための値が文字のサイズによらず一定である場合、文字のサイズが大きくなると、本来分離条件を満たしていないと判定されるべき連続する２つの行が、分離条件を満たすと誤判定されるおそれがある。そのため、連続する２つの行の距離や、連続する２つの行における先頭文字の位置のずれを判定するための値を文字のサイズに応じて決定することで、誤判定の可能性を低くすることができる。

本発明の各態様に係る翻訳装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記翻訳装置が備える各手段として動作させることにより上記翻訳装置をコンピュータにて実現させる翻訳装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

本発明は、撮像された画像に含まれる文字列を翻訳する翻訳装置に利用することができる。特に、スマートフォン、タブレット端末、デジタルカメラなどに好適である。

１スマートフォン（翻訳装置）、２３文字列抽出部（文字列抽出手段）、２４条件判定部（判定手段、文字サイズ判定手段）、２５抽出行結合部（翻訳手段）、２６翻訳部（翻訳手段）

Claims

撮像された画像に含まれる文字列を翻訳する翻訳装置であって、
複数の行からなる上記文字列を行単位で抽出する文字列抽出手段と、
上記文字列抽出手段により抽出された行のうち、上記画像において連続する２つの行が上記文字列の言語の特徴に基づく条件である結合条件を満たすか否かを判定する判定手段と、
上記判定手段により上記結合条件を満たすと判定された場合、上記連続する２つの行を結合して翻訳し、上記結合条件を満たさないと判定された場合、上記連続する２つの行をそれぞれ翻訳する翻訳手段と、を備え、
上記文字列の言語は英語であり、
上記判定手段は、上記結合条件として、
（１）上記連続する２つの行のうち、後に位置する行の先頭文字が小文字であること、
（２）上記連続する２つの行のうち、前に位置する行の最後に配置された単語の品詞が接続詞、前置詞、または冠詞のいずれかであること、および、
（３）上記連続する２つの行のうち、後に位置する行がすべて大文字で構成されていること、
のうち少なくともいずれか１つを満たすか否かを判定することを特徴とする翻訳装置。
上記判定手段は、上記連続する２つの行を構成する文字の特徴、および、上記連続する２つの行の位置関係のうち少なくとも一方に基づく条件である分離条件を満たすか否かをさらに判定し、
上記翻訳手段は、上記分離条件を満たす場合は上記結合条件を満たす上記連続する２つの行を結合せず、それぞれ翻訳することを特徴とする請求項１に記載の翻訳装置。
上記判定手段は、上記分離条件として、
（４）上記連続する２つの行のうち一方を構成する文字のサイズと、他方を構成する文字のサイズとの差が所定の文字サイズ閾値を超えること、
（５）上記連続する２つの行の距離が所定の距離閾値を超えること、
（６）上記連続する２つの行のうち一方を構成する文字の色と、他方を構成する文字の色とが異なること、および、
（７）上記文字列の行方向における、上記連続する２つの行の先頭文字の位置が所定の文字位置閾値を超えて離れていること、
のうち少なくともいずれか１つを満たすか否かを判定することを特徴とする請求項２に記載の翻訳装置。
上記文字列抽出手段によって抽出された行を構成する上記文字のサイズを判定する文字サイズ判定手段をさらに備え、
上記判定手段は、上記文字サイズ判定手段によって判定された上記文字のサイズに応じて、上記距離閾値および上記文字位置閾値を決定することを特徴とする請求項３に記載の翻訳装置。
撮像された画像に含まれる文字列を翻訳する翻訳装置であって、
複数の行からなる上記文字列を行単位で抽出する文字列抽出手段と、
上記文字列抽出手段により抽出された行のうち、上記画像において連続する２つの行が上記文字列の言語の特徴に基づく条件である結合条件を満たすか否かを判定する判定手段と、
上記判定手段により上記結合条件を満たすと判定された場合、上記連続する２つの行を結合して翻訳し、上記結合条件を満たさないと判定された場合、上記連続する２つの行をそれぞれ翻訳する翻訳手段と、を備え、
上記判定手段は、上記連続する２つの行を構成する文字の特徴、および、上記連続する２つの行の位置関係のうち少なくとも一方に基づく条件である分離条件を満たすか否かをさらに判定し、
上記翻訳手段は、上記分離条件を満たす場合は上記結合条件を満たす上記連続する２つの行を結合せず、それぞれ翻訳し、
上記判定手段は、上記分離条件として、
（４）上記連続する２つの行のうち一方を構成する文字のサイズと、他方を構成する文字のサイズとの差が所定の文字サイズ閾値を超えること、
（５）上記連続する２つの行の距離が所定の距離閾値を超えること、
（６）上記連続する２つの行のうち一方を構成する文字の色と、他方を構成する文字の色とが異なること、および、
（７）上記文字列の行方向における、上記連続する２つの行の先頭文字の位置が所定の文字位置閾値を超えて離れていること、
のうち少なくともいずれか１つを満たすか否かを判定し、
上記文字列抽出手段によって抽出された行を構成する上記文字のサイズを判定する文字サイズ判定手段をさらに備え、
上記判定手段は、上記文字サイズ判定手段によって判定された上記文字のサイズに応じて、上記距離閾値および上記文字位置閾値を決定することを特徴とする翻訳装置。