JP2021092907A

JP2021092907A - 携帯端末、及び、翻訳処理方法

Info

Publication number: JP2021092907A
Application number: JP2019222184A
Authority: JP
Inventors: 亮一杉田; Ryoichi Sugita; 繁島崎; Shigeru Shimazaki
Original assignee: Panasonic Corp
Current assignee: Panasonic Corp
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2021-06-17
Anticipated expiration: 2039-12-09
Also published as: JP7513387B2

Abstract

【課題】撮像画像内の文字が光の反射によって隠れてしまい、当該文字を翻訳できないという状況を回避する。【解決手段】携帯端末は、撮像部によって撮像された動画を構成する複数の画像フレームの中から１つの画像フレームを抽出し、抽出した画像フレームを、画像内に光の反射領域が含まれるか否かを判定するサーバ装置へ送信し、サーバ装置から画像フレーム内に光の反射領域が含まれないことを示す判定結果を受信した場合、画像フレーム内の文字を翻訳し、翻訳結果を出力する。【選択図】図１６

Description

本開示は、携帯端末、及び、翻訳処理方法に関する。

特許文献１には、文字の読取等の処理に利用可能な画素を特定するために、撮像画像に含まれる各画素の輝度値を示す輝度画像を取得し、各画素の輝度値の度数分布を基に輝度閾値を決定し、高い輝度値の画素を強調する処理を前述した輝度画像に対して行って高輝度部分強調画像を生成する画像評価装置が開示されている。この画像評価装置は、高輝度部分強調装置に含まれる画素のそれぞれについて輝度値が輝度閾値を超えるか否かの判定結果に基づいて、輝度閾値を超える輝度を有する画素を高輝度画素と特定する。

特開２０１７−１６２０３０号公報

しかし、特許文献１には、例えばスマートフォン等の携帯端末により撮像された撮像画像に照明光や外光等の光が反射した部分が含まれている場合に、その撮像画像中に生じた光反射画像領域を検知することは考慮されていない。よって、携帯端末が、撮像した撮像画像内の文字を翻訳する場合、光の反射によって文字が隠れてしまい、文字を翻訳できない場合がある。

本開示は、上述した従来の状況に鑑みて案出され、撮像画像内の文字が光の反射によって隠れてしまい、当該文字を翻訳できないという状況を回避する携帯端末及び翻訳処理方法を提供することを目的とする。

本開示の一態様に係る携帯端末は、プロセッサ、メモリ及び撮像部を備える携帯端末であって、前記プロセッサは、前記メモリと協調して、前記撮像部によって撮像された動画を構成する複数の画像フレームの中から１つの画像フレームを抽出し、抽出した前記画像フレームを、画像内に光の反射領域が含まれるか否かを判定するサーバ装置へ送信し、前記サーバ装置から前記画像フレーム内に光の反射領域が含まれないことを示す判定結果を受信した場合、前記画像フレーム内の文字を翻訳し、翻訳結果を出力する。

本開示の一態様に係る携帯端末は、プロセッサ、メモリ及び撮像部を備える携帯端末であって、前記プロセッサは、前記メモリと協調して、前記撮像部によって撮像された動画を構成する複数の画像フレームの中から１つの画像フレームを抽出し、抽出した前記画像フレームを、画像内に光の反射領域が含まれるか否かを判定するサーバ装置へ送信し、前記サーバ装置から前記画像フレーム内に光の反射領域が含まれないことを示す判定結果を受信した場合、前記撮像部によって静止画を撮像し、前記静止画内の文字を翻訳し、翻訳結果を出力する。

本開示の一態様に係る携帯端末は、プロセッサ、メモリ及び撮像部を備える携帯端末であって、前記プロセッサは、前記メモリと協調して、前記撮像部によって撮像された複数の画像の中から光の反射領域を含まない画像を特定し、当該特定した画像内の文字を翻訳し、翻訳結果を出力する。

なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又は記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

本開示によれば、撮像画像内の文字が光の反射によって隠れてしまい、当該文字を翻訳できないという状況を回避できる。

実施の形態１に係る反射検知システムのハードウェア構成を示すブロック図元画像Ａの準備及び前処理の動作手順の一例を説明するフローチャート学習画像Ｂ１を生成する動作手順の一例を説明するフローチャート学習画像Ｂ２を生成する動作手順の一例を説明するフローチャート学習画像Ｂ３を生成する動作手順の一例を説明するフローチャート元画像Ａ、前処理後の画像Ｂ０、学習画像Ｂ１，Ｂ２，Ｂ３を示す図ＡＩサーバの学習の動作手順の一例を説明するフローチャートＡＩサーバの反射箇所の検出の動作手順の一例を説明するフローチャートスマートフォンの翻訳動作手順の一例を説明するフローチャート撮像画像が表示されたスマートフォンの撮影画面例を示す図重畳画像が表示されたスマートフォンの確認画面例を示す図スマートフォンに表示された翻訳結果画面例を示す図スマートフォンに表示された他の翻訳結果画面例を示す図他の撮像画像が表示されたスマートフォンの撮影画面例を示す図一部文字認識可能な範囲を含む重畳画像が表示されたスマートフォンの確認画面例を示す図一部文字認識可能な範囲が変更された確認画面例を示す図スマートフォンに表示された翻訳結果画面例を示す図スマートフォンに表示された他の翻訳結果画面例を示す図実施の形態２に係るスマートフォンにおける動画を構成する複数の画像から翻訳に用いる画像を抽出する処理を説明するための図実施の形態２に係るスマートフォンにおける翻訳処理の第１例を説明するフローチャート実施の形態２に係るスマートフォンにおける翻訳処理の第２例を説明するフローチャート図１７又は図１８に示す処理の続きの処理を説明するフローチャート実施の形態２に係るＡＩサーバにおける反射領域の検出処理の一例を説明するフローチャート

（実施の形態１の内容に至る経緯）
例えば、外国人等の旅行者が旅行先で自己が所持するスマートフォン等の携帯端末を用いて、その旅行者が内容確認したい文字部分が含まれる被写体を撮像することがある。携帯端末は、外国人等の操作により、その撮像画像中に含まれる文字部分を文字認識し、その文字認識結果を予めインストールされた翻訳アプリケーションで自己の母国語に変換する。これにより、外国人等の旅行者は、携帯端末により撮像された任意の撮像画像に含まれる文字部分の内容確認を行える。

ところが、前述したように、撮像画像中に光反射画像領域が存在すると、その文字部分は文字認識不可となる。従って、携帯端末に表示される任意の撮像画像に対応する文字部分の翻訳結果に文字認識不可領域（つまり、光反射画像領域）が検知された場合には、その領域が撮像画像中に明示されれば、外国人等の旅行者にとっては親切な翻訳等の各種アプリケーションの提供が実現可能となると考えられる。

そこで、以下の実施の形態１では、任意の撮像画像が入力された場合でも、その撮像画像中の光の反射箇所を示す反射画像領域を検知可能な高精度な反射検知モデルを生成でき、任意の撮像画像において検知される反射画像領域の信頼性を的確に担保する学習処理方法、サーバ装置及び反射検知システムの例を説明する。

以下、適宜図面を参照しながら、本開示に係る学習処理方法、サーバ装置及び反射検知システムを具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

図１は、実施の形態１に係る反射検知システム５のハードウェア構成を示すブロック図である。反射検知システム５は、ＡＩ（artificial intelligence）サーバ１０と、スマートフォン３０と、翻訳サーバ５０とを含む構成である。ＡＩ（artificial intelligence）サーバ１０と、スマートフォン３０と、翻訳サーバ５０とは、ネットワーク７０を介して互いに通信可能に接続される。

サーバ装置の一例としてのＡＩサーバ１０は、プロセッサ１１と、ＡＩ処理部１３と、メモリ１５と、ストレージ１７と、通信部１８とを含む構成である。

プロセッサ１１は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＤＳＰ（Digital Signal Processor）もしくはＦＰＧＡ（Field Programmable Gate Array）を用いて構成される。プロセッサ１１は、ＡＩサーバ１０の動作を司るコントローラとして機能し、ＡＩサーバ１０の各部の動作を全体的に統括するための制御処理、ＡＩサーバ１０の各部との間のデータの入出力処理、データの演算（計算）処理及びデータの記憶処理を行う。プロセッサ１１は、メモリ１５に記憶されたプログラム及びデータに従って動作する。プロセッサ１１は、動作時にメモリ１５を使用し、プロセッサ１１が生成又は取得したデータ又は情報をメモリ１５に一時的に保存してよい。

ＡＩ処理部１３は、例えばスマートフォン３０から送信された任意の撮像画像に対するリアルタイムな画像処理（例えば後述する撮像画像中における光の反射箇所の検出並びに学習済みモデルを用いた出力画像の生成）に適したＧＰＵ（Graphics Processing Unit）を用いて構成されるプロセッサである。ＡＩ処理部１３は、後述する元画像と学習画像とを用いて、ＣｙｃｌｅＧＡＮ技術を用いた機械学習を実行して学習済みモデルを生成し、ストレージ１７に学習済みモデルのデータ（つまり、学習済みモデルデータ）を記憶する。ＡＩ処理部１３は、メモリ１３ｚを有し、例えばスマートフォン３０から送信された任意の撮像画像における光の反射箇所の検知処理の実行時に、ストレージ１７に記憶された学習済みモデルデータを読み出し、学習済みモデルをメモリ１３ｚに一時的に展開して記憶する。ＡＩ処理部１３は、スマートフォン３０で撮像された任意の撮像画像を入力し、学習済みモデルの一部の機能（例えば、元画像からその元画像に類似する偽画像を生成する偽画像生成器の機能、生成した偽画像の真偽を評価する偽画像判別器の機能、詳細は後述参照）を用いて、検出された光の反射箇所の画像領域を含む可視化画像を出力する。

メモリ１５は、例えばＲＡＭ（Random Access Memory）とＲＯＭ（Read Only Memory）とを用いて構成され、ＡＩサーバ１０の動作の実行に必要なプログラムやデータ、更には、動作中に生成されたデータ又は情報を一時的に保持する。ＲＡＭは、例えばＡＩサーバ１０の動作時に使用されるワークメモリである。ＲＯＭは、例えばＡＩサーバ１０を制御するためのプログラム及びデータを予め記憶して保持する。

ストレージ１７は、例えばＨＤＤ（Hard Disk Drive）又はＳＳＤ（Solid State Drive）を用いて構成された記録装置である。ストレージ１７は、例えばプロセッサ１１もしくはＡＩ処理部１３が生成又は取得したデータ又は情報を記憶する。ストレージ１７は、ＡＩ処理部１３により生成された学習済みモデルデータを記憶する（図１参照）。

通信部１８は、例えば有線ＬＡＮ（Local Area Network）や無線ＬＡＮ等を用いてネットワーク７０に接続される。通信部１８は、ネットワーク７０に接続された翻訳サーバ５０との間で通信可能であるとともに、外国人等の旅行者（ユーザの一例）が携帯して所持するスマートフォン３０との間で通信可能である。通信部１８は、スマートフォン３０から送信された任意の撮像画像（つまり、前述した旅行者が内容確認したい文字部分を有する任意の被写体の撮像画像）を受信する。通信部１８は、光の反射箇所の検知処理の結果として生成される出力画像（後述参照）をスマートフォン３０翻訳サーバ５０に送信する。

スマートフォン３０は、プロセッサ３１と、撮像部３２と、表示部３３と、入力部３４と、通信部３５と、メモリ３６とを含む構成である。スマートフォン３０は、例えば外国人等の旅行者により携帯され、使用時に把持される。スマートフォン３０は、例えば文字認識処理を実行可能なアプリケーション（文字認識アプリケーション）と、翻訳処理を実行可能なアプリケーション（翻訳アプリケーション）とを少なくとも実行可能に予めインストールされている。

プロセッサ３１は、例えばＣＰＵ、ＭＰＵ、ＤＳＰもしくはＦＰＧＡを用いて構成される。プロセッサ３１は、スマートフォン３０の動作を司るコントローラとして機能し、スマートフォン３０の各部の動作を全体的に統括するための制御処理、スマートフォン３０の各部との間のデータの入出力処理、データの演算（計算）処理及びデータの記憶処理を行う。プロセッサ３１は、メモリ３６に記憶されたプログラム及びデータに従って動作する。プロセッサ３１は、動作時にメモリ３６を使用し、プロセッサ３１が生成又は取得したデータ又は情報をメモリ３６に一時的に保存してよい。

撮像部３２は、集光用のレンズと、ＣＣＤ（Charge Coupled Device）型イメージセンサもしくはＣＭＯＳ（Complementary Metal Oxide Semiconductor）型イメージセンサ等の固体撮像素子とを有する構成である。撮像部３２は、スマートフォン３０の電源がオンである間、固体撮像素子による撮像に基づいて得られた被写体の撮像映像のデータを常時プロセッサ３１に出力する。被写体は、例えば、外国人等の旅行者が内容確認したい文字部分を含む看板もしくは広告等の情報伝達媒体であるが、この情報伝達媒体に限定されないことは言うまでもない。

表示部３３は、例えばＬＣＤ（Liquid Crystal Display）もしくは有機ＥＬ（Electroluminescence）を用いて構成され、スマートフォン３０の現在の状態を報知する以外に、各種の画面（例えば、撮像部３２による撮像時の撮影画面（いわゆる、プレビュー画面）、後述する確認画面、翻訳結果を示す画面等）を表示する。

入力部３４は、ユーザ（例えば前述した外国人等の旅行者）による各種の入力操作を受け付けて、その入力操作に応じた信号をプロセッサ３１に出力する。表示部３３及び入力部３４は、公知のタッチパネルＴＰで構成されてよい。

通信部３５は、ネットワーク７０に接続されたＡＩサーバ１０及び翻訳サーバ５０との間で無線通信可能な通信回路を用いて構成される。通信部３５は、図示しないモバイル通信網（例えば４Ｇ（第４世代移動通信システム）、５Ｇ（第５世代移動通信システム））を介してネットワーク７０に接続される。通信部３５は、ネットワーク７０に接続されたＡＩサーバ１０及び翻訳サーバ５０との間で通信可能である。通信部３５は、撮像部３２により撮像された任意の撮像画像のデータをＡＩサーバ１０に送信する。

メモリ３６は、例えばＲＡＭとＲＯＭとを用いて構成され、スマートフォン３０の動作の実行に必要なプログラムやデータ、更には、動作中に生成されたデータ又は情報を一時的に保持する。ＲＡＭは、例えばスマートフォン３０の動作時に使用されるワークメモリである。ＲＯＭは、例えばスマートフォン３０を制御するためのプログラム及びデータを予め記憶して保持する。

なお、スマートフォン３０は、撮像機能及び通信機能を有する機器の一例であり、スマートフォンに限らず、ネットワーク７０に接続可能なカメラ、タブレット端末、ノートＰＣ、監視カメラ等であってもよい。

翻訳サーバ５０は、プロセッサ５１と、メモリ５２と、ストレージ５３と、通信部５４とを含む構成である。翻訳サーバ５０は、例えばネットワーク７０に接続されたクラウドサーバであってよいし、例えばＡＩサーバ１０が配置される運営業者の事業所（図示略）に設置されるオンプレミスサーバとして構成されてもよい。翻訳サーバ５０は、スマートフォン３０もしくはＡＩサーバ１０から送信された撮像画像もしくは出力画像中の文字部分に相当する文字情報を所定の言語（例えば、スマートフォン３０のユーザにより予め設定された言語）に翻訳処理し、その翻訳処理結果に相当する文字情報をスマートフォン３０に返信する。

プロセッサ５１は、例えばＣＰＵ、ＭＰＵ、ＤＳＰもしくはＦＰＧＡを用いて構成される。プロセッサ５１は、翻訳サーバ５０の動作を司るコントローラとして機能し、翻訳サーバ５０の各部の動作を全体的に統括するための制御処理、翻訳サーバ５０の各部との間のデータの入出力処理、データの演算（計算）処理及びデータの記憶処理を行う。プロセッサ５１は、メモリ５２に記憶されたプログラム及びデータに従って動作する。プロセッサ５１は、動作時にメモリ５２を使用し、プロセッサ５１が生成又は取得したデータ又は情報をメモリ５２に一時的に保存してよい。

メモリ５２は、例えばＲＡＭとＲＯＭとを用いて構成され、翻訳サーバ５０の動作の実行に必要なプログラムやデータ、更には、動作中に生成されたデータ又は情報を一時的に保持する。ＲＡＭは、例えば翻訳サーバ５０の動作時に使用されるワークメモリである。ＲＯＭは、例えば翻訳サーバ５０を制御するためのプログラム及びデータを予め記憶して保持する。

ストレージ５３は、例えばＨＤＤ又はＳＳＤを用いて構成された記録装置である。ストレージ５３は、例えばプロセッサ５１が生成又は取得したデータ又は情報を記憶する。また、ストレージ５３は、翻訳処理の際に参照される、国毎の公用語である言語に対応する辞書データが予め登録された辞書ＤＢ５３ｚを含む。なお、翻訳サーバ５０は、ネットワーク７０もしくは他のネットワーク（図示略）との間で接続された専用の辞書データ管理サーバ（図示略）との間で定期的に通信することで、辞書ＤＢ５３ｚの内容を定期的に更新してよい。

通信部５４は、有線ＬＡＮや無線ＬＡＮ等を用いてネットワーク７０に接続される。通信部５４は、ネットワーク７０に接続されたＡＩサーバ１０及びスマートフォン３０と通信可能である。通信部５４は、スマートフォン３０から文字認識処理結果の文字情報を受信すると、その受信された文字情報をスマートフォン３０のユーザの公用語に対応するように予め設定された又はその都度設定された所定の言語に翻訳処理し、その翻訳結果の文字情報をスマートフォン３０に返信する。

なお、実施の形態１では、文字認識結果の文字情報を、翻訳サーバ５０が翻訳する場合を示したが、スマートフォン３０が、インストール済みの翻訳アプリケーションを起動し、文字認識結果の文字情報を所定の言語に翻訳してもよい。

次に、上述した実施の形態１に係る反射検知システム５の動作について、図面を参照して説明する。

実施の形態１に係る反射検知システム５は、文字部分が掲載された広告等をスマートフォン３０により撮像された撮像画像に含まれる文字情報を文字認識処理し、その文字認識処理された文字情報を所定の言語に翻訳する。反射検知システム５は、スマートフォン３０により撮像された撮像画像中に照明光や外光等の光の反射がある場合に、この光の反射がある個所を含む領域（以下、「反射領域」と称する場合がある）を検出し、反射領域以外の領域より一層識別可能な反射領域を含む可視光画像（以下、「出力画像」と称する場合がある）を出力する。実施の形態１では、ＡＩサーバ１０は、ＡＩモデルとして近年注目されているＣｙｃｌｅＧＡＮ（サイクルガン）を用いて機械学習を行い、スマートフォン３０により撮像される任意の被写体の撮像画像に含まれる反射領域（上述参照）を検出するためのＡＩモデル（つまり、学習済みモデル）を生成する。ＣｙｃｌｅＧＡＮによる機械学習では、元画像である撮像画像とその元画像に基づいて生成される学習画像との両方が用いられる。

（学習画像の生成）
先ず始めに、ＡＩサーバ１０による学習画像の生成について説明する。図２は、元画像Ａの準備及び前処理の動作手順の一例を説明するフローチャートである。ユーザ（例えば、外国人等の旅行者。以下同様とする。）は、スマートフォン３０を用いて広告等の印刷物（被写体の一例）を撮像し、撮像画像である元画像（図６の元画像Ａ）を準備する（Ｓ１）。実施の形態１の説明のために、元画像Ａには、外光や照明光等による光の反射領域が含まれるとしている。

ユーザは、元画像Ａに対し所定の前処理を行い、前処理後の画像Ｂ０を取得する（Ｓ２）。元画像Ａに対する所定の前処理は、例えばスマートフォン３０もしくはＰＣ（図示略）にインストールされた画像編集系のアプリケーション（後述参照）において、ユーザの操作により、撮像画像の一部に映る光の反射領域を所定の色で塗り潰す処理である。例えば、スマートフォン３０の画面に表示された撮像画像に対し、ユーザは、画像編集系のアプリケーション（例えば、描画ツール又は画像処理ソフト）を用いて、反射領域を赤色で塗り潰す。前処理後の画像（つまり、図６の前処理後の画像Ｂ０）には、赤色で塗り潰されたマーカ領域ｍｋが描画される。スマートフォン３０は、前処理後の画像Ｂ０のデータをＡＩサーバ１０に送信する。ＡＩサーバ１０は、スマートフォン３０から受信した前処理後の画像Ｂ０のデータをストレージ１７に記憶する。

ＡＩサーバ１０は、前処理後の画像Ｂ０を用いて、複数の学習画像を生成する。ここでは、ＡＩサーバ１０が３枚の学習画像Ｂ１，Ｂ２，Ｂ３を生成する例を説明するが、任意の枚数の学習画像を生成してもよい。多くの学習画像を用意することで、ＡＩサーバ１０における学習済みモデルを生成する処理（言い換えると、学習済みモデルに用いられる学習パラメータの更新）の精度（つまり、学習精度）が向上する。

図３は、学習画像Ｂ１を生成する動作手順の一例を説明するフローチャートである。図３に示す処理は、例えばＡＩサーバ１０のＡＩ処理部１３により実行される。ＡＩサーバ１０のＡＩ処理部１３は、ストレージ１７に記憶された前処理後の画像Ｂ０から１画素の画素値を取得する（Ｓ１１）。ＡＩ処理部１３は、１画素の画素値の取得の際に、例えば元画像Ａと同一サイズを有する前処理後の画像Ｂ０に対して２次元座標（つまり、ＸＹ座標）を設定し、Ｘ方向及びＹ方向に画素単位に取得対象の画素を移動しながら該当する画素の画素値を取得する。

ＡＩ処理部１３は、取得された１画素の画素値に基づいて、その画素が塗り潰された画素であるか否かを判別する（Ｓ１２）。塗り潰された画素である場合（Ｓ１２、ＹＥＳ）、ＡＩ処理部１３は、この画素の画素値を所定の色に設定（例えば赤色で塗り潰すように設定）し、反射領域の出力画素（つまり、図３により生成される学習画像Ｂ１内の対応する画素）と設定する（Ｓ１３）。

一方、取得された１画素が塗り潰された画素でない場合（Ｓ１２、ＮＯ）、ＡＩ処理部１３は、この画素を白色に設定（例えば白色で塗り潰すように設定）し、非反射領域の出力画素（前述参照）とする（Ｓ１４）。

ステップＳ１３又はステップＳ１４の処理後、ＡＩ処理部１３は、ステップＳ１１において取得された１画素が終端の画素であるか（つまり、前処理後の画像Ｂ０の終端の画素に到達したか）否かを判別する（Ｓ１５）。終端の画素でない場合（Ｓ１５、ＮＯ）、ＡＩ処理部１３は、前処理後の画像Ｂ０に対し、取得対象の画素の位置をＸ方向又はＹ方向に１画素分移動する（Ｓ１６）。ＡＩ処理部１３の処理はステップＳ１１に戻り、ステップＳ１６において移動された次の１画素を対象として取得して同様の処理を繰り返す。

一方、終端の画素である場合（Ｓ１５、ＹＥＳ）、ＡＩ処理部１３は、ステップＳ１１，Ｓ１２，Ｓ１３，Ｓ１４，Ｓ１６，Ｓ１５の一連の処理により得られた画像を学習画像Ｂ１（図６参照）として生成してメモリ１３ｚに保存する（Ｓ１７）。この後、ＡＩ処理部１３は、学習画像Ｂ１の生成処理を終了する。

図４は、学習画像Ｂ２を生成する動作手順の一例を説明するフローチャートである。図４に示す処理は、例えばＡＩサーバ１０のＡＩ処理部１３により実行される。ＡＩサーバ１０のＡＩ処理部１３は、元画像Ａから１画素の画素値を取得する（Ｓ２１）。ＡＩ処理部１３は、前処理後の画像Ｂ０から、元画像Ａの１画素に対応する（つまり、ＸＹ座標が同じである）１画素の画素値を取得する（Ｓ２２）。ＡＩ処理部１３は、その取得された１画素の画素値に基づいて、ステップＳ２２において取得された前処理後の画像Ｂ０の１画素が、塗り潰された画素であるか（つまり、光の反射領域にある画素であるか）否かを判別する（Ｓ２３）。

塗り潰された画素である場合（Ｓ２３、ＹＥＳ）、ＡＩ処理部１３は、元画像Ａの１画素値から輝度値を計算する（Ｓ２４）。例えば、ＡＩ処理部１３は、赤色成分をｒ、緑色成分をｇ、青色成分をｂ、輝度値ｙとすると、「ｙ＝０．２９９ｒ＋０．５８７ｇ＋０．１１４ｂ」の式により輝度値ｙを算出可能であり、以下同様である。ＡＩ処理部１３は、元画像Ａの１画素に対応する出力画素（つまり、図４に示す動作により生成される学習画像Ｂ２内の対応する画素）のＲ画素に、ステップＳ２４で計算された輝度値を設定する（Ｓ２５）。ＡＩ処理部１３は、出力画素のＧ，Ｂ画素にそれぞれ輝度値０を設定する（Ｓ２６）。

一方、ステップＳ２２において取得された前処理後の画像Ｂ０の１画素が塗り潰された画素でない場合（Ｓ２３、ＮＯ）、ＡＩ処理部１３は、元画像Ａの１画素の画素値を出力画素（前述参照）の画素値に設定する（Ｓ２７）。

ステップＳ２６又はステップＳ２７の処理後、ＡＩ処理部１３は、ステップＳ２１において取得された画素が終端の画素であるか（つまり、元画像Ａ０の終端の画素に到達したか）否かを判別する（Ｓ２８）。終端の画素でない場合（Ｓ２８、ＮＯ）、ＡＩ処理部１３は、元画像Ａに対し、取得対象の画素の位置をＸ方向又はＹ方向に１画素分移動する（Ｓ２９）。ＡＩ処理部１３の処理はステップＳ２１に戻り、ステップＳ２９において移動された次の１画素を対象として取得して同様の処理を繰り返す。

一方、終端の画素である場合（Ｓ２８、ＹＥＳ）、ＡＩ処理部１３は、ステップＳ２１，Ｓ２２，Ｓ２３，Ｓ２４，Ｓ２５，Ｓ２６，Ｓ２７，Ｓ２８の一連の処理により得られた画像を学習画像Ｂ２（図６参照）として生成してメモリ１３ｚに保存する（Ｓ３０）。この後、ＡＩ処理部１３は学習画像Ｂ２の生成処理を終了する。

図５は、学習画像Ｂ３を生成する動作手順の一例を説明するフローチャートである。図５に示す処理は、例えばＡＩサーバ１０のＡＩ処理部１３により実行される。ＡＩサーバ１０のＡＩ処理部１３は、元画像Ａから１画素の画素値を取得する（Ｓ３１）。ＡＩ処理部１３は、前処理後の画像Ｂ０から、元画像Ａの１画素に対応する（つまり、ＸＹ座標が同じである）１画素の画素値を取得する（Ｓ３２）。ＡＩ処理部１３は、ステップＳ３１において取得された元画像Ａの１画素の画素値から、例えば上述した算出式を用いて輝度値を計算する（Ｓ３３）。

ＡＩ処理部１３は、その取得された１画素の画素値に基づいて、ステップＳ３２において取得された前処理後の画像Ｂ０の１画素が、塗り潰された画素であるか（つまり、光の反射領域にある画素であるか）否かを判別する（Ｓ３４）。塗り潰された画素である場合（Ｓ３４、ＹＥＳ）、ＡＩ処理部１３は、元画像Ａの１画素に対応する出力画素（つまり、図５に示す動作により生成される学習画像Ｂ３内の対応する画素）のＲ画素の輝度値を、ステップＳ３３において計算された輝度値に設定する（Ｓ３５）。ＡＩ処理部１３は、出力画素（前述参照）のＧ，Ｂ画素に、それぞれ輝度値０を設定する（Ｓ３６）。

一方、ステップＳ３２において取得された前処理後の画像Ｂ０の１画素が塗り潰された画素でない場合（Ｓ３４、ＮＯ）、ＡＩ処理部１３は、出力画素（前述参照）のＲ，Ｇ，Ｂ画素のそれぞれに、ステップＳ３３において計算された輝度値を設定する（Ｓ３７）。

ステップＳ３６又はステップＳ３７の処理後、ＡＩ処理部１３は、ステップＳ３１において取得された画素が終端の画素であるか（つまり、元画像Ａの終端の画素に到達したか）否かを判別する（Ｓ３８）。終端の画素でない場合（Ｓ３８、ＮＯ）、ＡＩ処理部１３は、元画像Ａに対し、取得対象の画素の位置をＸ方向又はＹ方向に１画素分移動する（Ｓ３９）。ＡＩ処理部１３の処理はステップＳ３１に戻り、ステップＳ３９において移動された次の１画素を対象として取得して同様の処理を繰り返す。

一方、終端の画素である場合（Ｓ３８、ＹＥＳ）、ＡＩ処理部１３は、ステップＳ３１，Ｓ３２，Ｓ３３，Ｓ３４，Ｓ３５，Ｓ３６，Ｓ３７，Ｓ３８の一連の処理後の画像を学習画像Ｂ３（図６参照）として生成してメモリ１３ｚに保存する（Ｓ４０）。この後、ＡＩ処理部１３は学習画像Ｂ３の生成処理を終了する。

図６は、元画像Ａ、前処理後の画像Ｂ０、学習画像Ｂ１，Ｂ２，Ｂ３を示す図である。元画像Ａは、広告や飲食店のメニュー等を被写体としてユーザの操作に基づいてスマートフォン３０により撮像された撮像画像である。元画像Ａには、照明光や外光等の光による反射領域ｇ１が存在し、反射領域ｇ１の近傍では、文字認識が不可である（言い換えると、文字情報が判読できない）。

前処理後の画像Ｂ０は、元画像Ａに対して前処理（図２参照）を行った画像である。前処理後の画像Ｂ０は、ユーザが描画ツールや画像処理ソフトを使用して反射領域を赤色で塗り潰したマーカ領域ｍｋが含まれる。

学習画像Ｂ１は、前処理後の画像Ｂ０に対し、マーカ領域ｍｋを所定の色（ここでは、赤色）に設定し、その他の領域を背景色（白色）に設定した画像である。なお、マーカ領域ｍｋに設定される所定の色は、赤色でなく、青色等の任意の色でもよい。また、背景色は、白色に限らず、緑色や青色等、撮像画像にあまり含まれない色でもよい。

学習画像Ｂ２は、元画像Ａから輝度値を算出し、マーカ領域ｍｋでＲ，Ｇ，Ｂ成分のうち、Ｒ成分を算出した輝度値に置換し、Ｇ，Ｂ成分を輝度値０に設定し、その他の領域を元画像Ａの画素値にした画像である。

学習画像Ｂ３は、元画像Ａから輝度値を算出した後、マーカ領域ｍｋでＲ成分を輝度値に置換し、その他の領域でＲ，Ｇ，Ｂ成分を輝度値に置換した画像である。

（学習済モデルを生成するための機械学習）
図７は、ＡＩサーバ１０の学習の動作手順の一例を説明するフローチャートである。図７に示す処理は、例えばＡＩサーバ１０のＡＩ処理部１３により実行される。ＡＩサーバ１０のＡＩ処理部１３は、ＡＩモデル（例えば前述したＣｙｃｌｅＧＡＮ）において使用されるパラメータ（以下、「学習パラメータ」という）を設定する（Ｓ５１）。

学習パラメータは、例えばＡＩモデルを形成するニューラルネットワークを学習する際のＬｅａｒｎｉｎｇＲａｔｅ（つまり、学習率）である。実施の形態１の機械学習では、例えばＣｙｃｌｅＧＡＮを用いたＡＩモデルの学習パラメータを最適化する。ＣｙｃｌｅＧＡＮを用いたＡＩモデルは、例えば、Ｂ´生成器、偽Ｂ評価器、Ｂ−Ｂ´類似度評価器、Ａ´生成器、偽Ａ評価器、及びＡ−Ａ´類似度評価器を含む。また、ＣｙｃｌｅＧＡＮを用いたＡＩモデルでは、元画像Ａ、元画像Ａの偽画像Ａ´、学習画像Ｂ、学習画像Ｂの偽画像Ｂ´が用いられる。このＡＩモデルでは、Ｂ´生成器の学習パラメータが最適化される。Ｂ´生成器は、元画像Ａあるいは偽画像Ａ´から偽画像Ｂ´を生成する。また、この学習モデルでは、Ａ´生成器の学習パラメータが最適化される。Ａ´生成器は、学習画像Ｂあるいは偽画像Ｂ´から偽画像Ａ´を生成する。学習画像Ｂには、図６に示した学習画像Ｂ１，Ｂ２，Ｂ３が用いられる。

ＡＩ処理部１３は、元画像Ａから偽画像Ｂ´を生成する（Ｓ５２）。つまり、ＡＩ処理部１３は、ＡＩモデルのＢ´生成器（偽画像生成器）に元画像Ａを入力して偽画像Ｂ´を生成する。そして、ＡＩ処理部１３は、偽画像Ｂ´の生成精度を評価する（Ｓ５３）。この評価の結果に基づいて、Ｂ´生成器の精度指標となる生成精度指標ＫＢ１が更新される。ＡＩ処理部１３は、偽Ｂ評価器（偽画像判別器）により、Ｂ´生成器で生成した偽画像Ｂ´の真偽を評価する（Ｓ５４）。つまり、偽Ｂ評価器が、Ｂ´生成器で生成された偽画像Ｂ´の真偽を判定する。この判定の結果、偽Ｂ評価器の精度指標となる判別精度指標ＫＢ２が更新される。

ＡＩ処理部１３は、偽画像Ｂ´から偽画像Ａ´を生成する（Ｓ５５）。つまり、ＡＩ処理部１３は、ＡＩモデルのＡ´生成器に偽画像Ｂ´を入力して偽画像Ａ´を生成する。ＡＩ処理部１３は、生成した偽画像Ａ´の類似度を評価する（Ｓ５６）。つまり、Ａ−Ａ´類似度評価器は、偽画像Ａ´と元画像Ａの類似度を計算する。類似度の計算結果、元画像Ａと再構築された偽画像Ａ´の再構築精度指標ＫＡ３が更新される。

また、ＡＩ処理部１３は、学習画像Ｂから偽画像Ａ´を生成する（Ｓ５７）。つまり、
ＡＩ処理部１３は、Ａ´生成器（偽画像生成器）に学習画像Ｂを入力して偽画像Ａ´を生成する。そして、ＡＩ処理部１３は、偽画像Ａ´の生成精度を評価する（Ｓ５８）。この評価の結果に基づいて、Ａ´生成器の精度指標となる生成精度指標ＫＡ１が更新される。ＡＩ処理部１３は、偽Ａ評価器（偽画像判別器）によりＡ´生成器で生成した偽画像Ａ´の真偽を評価する（Ｓ５９）。つまり、偽Ａ評価器は、Ａ´生成器で生成された偽画像Ａ´の真偽を判定する。この判定の結果、偽Ｂ評価器の精度指標となる判別精度指標ＫＡ２が更新される。

ＡＩ処理部１３は、偽画像Ａ´から偽画像Ｂ´を生成する（Ｓ６０）。つまり、ＡＩ処理部１３は、Ｂ´生成器に偽画像Ａ´を入力して偽画像Ｂ´を生成する。ＡＩ処理部１３は、生成した偽画像Ｂ´の類似度を評価する（Ｓ６１）。つまり、Ｂ−Ｂ´類似度評価器は、偽画像Ｂ´と学習画像Ｂの類似度を計算する。類似度の計算結果、元画像Ｂと再構築された偽画像Ｂ´の再構築精度指標ＫＢ３が更新される。

ＡＩ処理部１３は、上述した生成精度指標ＫＡ１、判別精度指標ＫＡ２、再構築精度指標ＫＡ３、生成精度指標ＫＢ１、判別精度指標ＫＢ２、及び再構築精度指標ＫＢ３を基に、ＡＩモデルの学習パラメータ（例えば、Ｂ´生成器の学習パラメータとＡ´生成器の学習パラメータ）を更新する（Ｓ６２）。

ＡＩ処理部１３は、全ての元画像Ａと学習画像Ｂ（例えば、学習画像Ｂ１，Ｂ２，Ｂ３）を用いて、上記ステップＳ５２〜Ｓ６２の学習処理を行ったか否かを判別する（Ｓ６３）。つまり、ＡＩ処理部１３は、全ての元画像Ａと学習画像Ｂのデータが学習済となったか否かを判別する。なお、図６に示した元画像Ａと学習画像Ｂ（Ｂ１，Ｂ２，Ｂ３）は、一例であり、多くの元画像Ａと学習画像Ｂを用いることが学習精度の向上のためには望ましい。

学習済でないデータがある場合（Ｓ６３、ＮＯ）、ＡＩ処理部１３は、次のデータを取得する（Ｓ６４）。ＡＩ処理部１３の処理はステップＳ５２に戻り、同様の処理（つまり、ステップＳ５２，Ｓ５３，Ｓ５４，Ｓ５５，Ｓ５６，Ｓ５７，Ｓ５８，Ｓ５９，Ｓ６０、Ｓ６１，Ｓ６２，Ｓ６３，Ｓ６４の一連の処理）を繰り返す。

一方、全てのデータが学習済となった場合（Ｓ６３、ＹＥＳ）、ＡＩ処理部１３は、学習済みモデル（つまり、学習済みのＣｙｃｌｅＧＡＮを用いたＡＩモデル）を生成し、生成した学習済みモデルのデータをストレージ１７に保存する（Ｓ６５）。この後、ＡＩ処理部１３は、図７に示す学習処理を終了する。

図８は、ＡＩサーバ１０の反射箇所の検出の動作手順の一例を説明するフローチャートである。図８に示す処理は、例えばＡＩサーバ１０のＡＩ処理部１３により実行される。ＡＩサーバ１０のＡＩ処理部１３は、スマートフォン３０により撮像された撮像画像を検出対象画像として取得し、メモリ１３ｚに記憶する（Ｓ７１）。ＡＩ処理部１３は、ストレージ１７に保存された学習済みモデルデータを読み出し、ＡＩネットワークとしてメモリ１３ｚに展開して取り込む（Ｓ７２）。

ＡＩ処理部１３は、学習済みモデルの一部であるＢ´生成器に対し、検出対象画像（撮像画像）を入力し、反射領域が可視化された画像を出力する（Ｓ７３）。反射領域が可視化された画像は、例えばＡＩ処理部１３における学習済みモデル（ＡＩモデル）を用いた処理実行時に反射領域が赤く描画され、その他の領域がグレーで描画された画像である。

ＡＩ処理部１３は、画像の色成分の強度比を基に、非反射領域か反射領域かを判断し、反射領域情報を取得する（Ｓ７４）。非反射領域の画像は、後述するように、文字認識処理及び翻訳処理のそれぞれの対象とされる。反射領域の画像は、文字認識処理及び翻訳処理の対象外とされる。この後、ＡＩ処理部１３は、図８に示すＡＩ反射検出処理を終了する。

（スマートフォンの翻訳動作）
図９は、スマートフォン３０の翻訳動作手順の一例を説明するフローチャートである。図９に示す処理は、例えばスマートフォン３０のプロセッサ３１により主に実行される。スマートフォン３０のプロセッサ３１は、ユーザの操作を受け付けると、文字認識・翻訳アプリを起動する（Ｓ８１）。ユーザが広告等の被写体に対し、シャッタ操作（つまり、撮像開始操作）を行うと、撮像部３２は、被写体を撮像する。プロセッサ３１は、撮像部３２で撮像された撮像画像ＧＺ１（図１０参照）を取得し、メモリ３６に記憶する（Ｓ８２）。通信部３５は、メモリ３６に記憶された撮像画像ＧＺ１を、ネットワーク７０を介して、ＡＩサーバ１０に送信する（Ｓ８３）。

図１０は、撮像画像ＧＺ１が表示されたスマートフォン３０の撮影画面ＧＭ１の一例を示す図である。撮像画像ＧＺ１内には、例えば２箇所に照明光による反射領域ｇ１が現れたとする。また、撮影画面ＧＭ１には、撮像画像ＧＺ１に矩形窓ｗｋ１が重畳して表示される。撮影画面ＧＭ１には、矩形窓ｗｋ１に隠れて表示されないが、撮像画像ＧＺ１には、コーヒー、紅茶の文字情報が含まれる（図１２Ｂ参照）。また、撮影画面ＧＭ１には、カメラのシャッタボタン（つまり、撮像開始ボタン）を示すシャッタアイコンｓｔが表示される。

ＡＩサーバ１０の通信部１８は、スマートフォン３０から撮像画像を受信する。ＡＩ処理部１３は、受信した撮像画像に対し、図８に示したＡＩ反射検出処理を行って反射領域情報を取得する。通信部１８は、ＡＩ処理部１３で得られた反射領域情報をスマートフォン３０に送信する。

スマートフォン３０の通信部３５は、ネットワーク７０を介して、ＡＩサーバ１０から反射領域情報を受信する（Ｓ８４）。プロセッサ３１は、受信された反射領域情報を基に、メモリ３６に記憶された撮像画像に対し、特定の色（例えば赤色）で表された反射位置ｍｃを重畳させ、反射位置ｍｃが重畳した重畳画像ＧＺ２を生成し、表示部３３に表示する（Ｓ８５）。

図１１は、重畳画像ＧＺ２が表示されたスマートフォン３０の確認画面ＧＭ２の一例を示す図である。プロセッサ３１は、反射位置が重畳した重畳画像ＧＺ２に対し、文字認識を行う（Ｓ８６）。プロセッサ３１は、文字認識処理の結果をメモリ３６に記憶する。認識された文字には、文字認識できたことを表すマーキングとして文字掛けｈｍが施される。文字掛けｈｍが施されると、表示部３３の画面に表示される文字の表示形態が変化する。例えば、文字の色が文字認識前の黒色から文字を囲むグレーに変化する。

また、プロセッサ３１は、確認画面ＧＭ２の下方に矩形窓ｗｋ２を表示し、矩形窓ｗｋ２に翻訳の有無を確認するメッセージを表示する。ここでは、タッチパネルＴＰの画面の下方に設定された表示領域には、「Ｔｒａｎｓｌａｔｅｔｈｅｄｉｓｐｌａｙ．ＩｓｉｔＯＫ？」のメッセージが表示される。また、タッチパネルＴＰの画面の下方には、入力部３４としてＹＥＳボタン３４ｚ及びＮＯボタン３４ｙが配置される。ユーザは、文字認識の結果、翻訳を行う場合、ＹＥＳボタン３４ｚを押下する。また、ユーザは、翻訳を行わない場合、ＮＯボタン３４ｙを押下する。

プロセッサ３１は、ユーザの操作を受け付け、翻訳を開始するか否かを判別する（Ｓ８７）。翻訳を開始する場合、通信部３５は、プロセッサの指示に従い、メモリ３６に文字認識の結果得られた文字情報を、ネットワーク７０に接続された翻訳サーバ５０に送信する。翻訳サーバ５０の通信部５４は、スマートフォン３０から送信された文字情報を、受信する。翻訳サーバ５０のプロセッサ５１は、ストレージ５３の辞書ＤＢ５３ｚを参照し、文字情報を予め指定された国の言語（例えば、外国人自身の母国語）で翻訳処理する。通信部５４は、翻訳処理の結果をスマートフォン３０に送信する。

スマートフォン３０の通信部３５は、翻訳サーバ５０から翻訳結果を受信する。プロセッサ３１は、翻訳結果を表示部３３の画面に表示する（Ｓ８８）。なお、ここでは、翻訳サーバが翻訳を行ったが、スマートフォン３０がインストール済みの翻訳アプリを起動し、自装置で翻訳を行ってもよい。

図１２Ａは、スマートフォン３０に表示された翻訳結果画面ＧＭ３の一例を示す図である。翻訳結果画面ＧＭ３の下方に配置された、矩形窓ｗｋ３で囲まれた領域には、翻訳結果が表示される。ここでは、文字情報である「カレー」、「烏龍茶」に対し、それぞれ翻訳結果である「Ｃｕｒｒｙ」、「Ｏｏｌｏｎｇ」が表示される。また、反射位置ｍｃが重畳され、文字認識されなかった「たこ焼き」、「焼きそば」の画像に対しては、翻訳が行われないので、何も標示されない。なお、ここでは、日本語から英語へと翻訳されたが、翻訳前の言語及び翻訳後の言語は、日本語、英語、中国後、ドイツ語、フランス語等、任意の組み合わせが可能である。翻訳アプリは、スマートフォン３０に設定された所有者の国籍を判別し、該当する国の言語で翻訳を行う。

ユーザは、タッチパネルＴＰに対し、所定の操作を行うことで、翻訳結果を保存可能である。所定の操作として、例えば、翻訳結果画面ＧＭ３に表示された矩形窓ｗｋ３で囲まれた領域をダブルタップ操作することが挙げられる。

プロセッサ３１は、ユーザの操作を受け付け、翻訳結果を保存するか否かを判別する（Ｓ８９）。翻訳結果を保存する場合、プロセッサ３１は、メモリ３６に翻訳結果を保存する（Ｓ９０）。プロセッサ３１は、アプリ終了操作が行われたか否かを判別する（Ｓ９１）。アプリ終了操作が行われない場合、ステップＳ８２の処理に戻る。一方、アプリ終了操作が行われた場合、あるいはステップＳ８９で翻訳結果を保存しない場合、プロセッサ３１は、そのまま本処理を終了する。

（他の翻訳結果画面）
図１２Ｂは、スマートフォン３０に表示された他の翻訳結果画面ＧＭ４の一例を示す図である。この翻訳結果画面ＧＭ４には、矩形窓が表示されず、文字認識結果画像ＧＺ４と、翻訳結果画像ＧＺ５とが対比して表示される。文字認識結果画像ＧＺ４には、文字認識された文字情報である、「カレー」、「烏龍茶」、「コーヒー」、「紅茶」が含まれる。翻訳結果画像ＧＺ５には、翻訳された文字情報である、「Ｃｕｒｒｙ」、「Ｏｏｌｏｎｇ」、「Ｃｏｆｆｅｅ」、「Ｂｌａｃｋｔｅａ」が含まれる。

（スマートフォンの他の画面表示例）
別の利用例として、ユーザが、スマートフォン３０で食事メニューを撮像する場合を示す。図１３は、他の撮像画像ＧＺ６が表示されたスマートフォン３０の撮影画面ＧＭ６の一例を示す図である。図１０に示した撮影画面ＧＭ１と同様、撮影画面ＧＭ６には、撮像画像ＧＺ６、矩形窓ｗｋ６、及びシャッタアイコンｓｔが表示される。撮像画像ＧＺ６は、お食事メニュー、チキンカレー、ポークカレー、ビーフカレー、ドリングメニュー等の文字情報を含む。チキンカレー近傍の画像には、光による反射領域ｇ２がチキンカレーの「レー」部分と重畳して存在する。

図１４Ａは、一部文字認識可能な範囲を含む重畳画像ＧＺ７が表示されたスマートフォン３０の確認画面ＧＭ７の一例を示す図である。撮像画像ＧＺ６に対し文字認識を行った結果、確認画面ＧＭ７では、お食事メニュー、ポークカレー、ビーフカレー、ドリングメニューが文字認識された。認識された文字には、文字認識できたことを表すマーキングとして文字掛けｈｍが施される。前述したように、文字掛けｈｍが施されると、表示部３３の画面に表示される文字の表示形態が変化する。

一方、チキンカレーを含む領域には、反射位置ｍｃが重畳表示される。この領域では、反射位置ｍｃが近傍に重畳表示されている。また、チキンカレー全体ではないが、その一部が文字認識可能である、一部文字認識可能な範囲が、マーカｍｒで識別可能に表示される。ここでは、一部文字認識可能な範囲は、チキンカレーのうちの「チキンカ」の部分である。「チキンカ」の範囲は、マーカｍｒとして、例えばオレンジ色の網掛け（図中、ハッチ表示）が施される。また、「チキンカ」の部分を挟むように、左右のカーソルｋｓがタッチパネルＴＰに表示される。ユーザが、例えば指でカーソルｋｓをドラッグ操作することで、一部文字認識可能な範囲が変更される。

図１４Ｂは、一部文字認識可能な範囲が変更された確認画面ＧＭ８の一例を示す図である。ユーザは、「チキンカ」を翻訳しても、誤訳すると判断し、指でカーソルｋｓを図中左に１文字移動させる。一部文字認識可能な範囲は、「チキン」の部分に変化する。これにより、チキンを翻訳した場合、チキンカレーが連想される。

図１４Ａ及び図１４Ｂには、図１１と同様、確認画面ＧＭ７，ＧＭ８の下方に矩形窓ｗｋ７，ｗｋ８がそれぞれ表示され、翻訳の有無を確認するメッセージが表示される。ユーザが、タッチパネルＴＰの下方に表示されたＹＥＳボタン３４ｚを押下すると、確認画面ＧＭ８に対し、翻訳が行われる。

図１５Ａは、スマートフォン３０に表示された翻訳結果画面ＧＭ９の一例を示す図である。翻訳結果画面ＧＭ９の下方には、矩形窓ｗｋ９で囲まれた領域には、翻訳結果が表示される。ここでは、文字情報である、お食事メニュー、チキン、ポークカレー、ビーフカレー、ドリングメニューに対し、それぞれ翻訳結果である「ｆｏｏｄｍｅｎｕ」、「ｃｈｉｋｅｎ」、「ｐｏｒｋｃｕｒｒｙ」、「ｂｅｅｆｃｕｒｒｙ」、「ｄｒｉｎｋｍｅｎｕ」が表示される。

（他の翻訳結果画面）
図１５Ｂは、スマートフォン３０に表示された他の翻訳結果画面ＧＭ１０の一例を示す図である。翻訳結果画面ＧＭ１０の下方に表示された矩形窓ｗｋ１０で囲まれた領域は、空白である。翻訳結果画面ＧＭ１０には、文字情報である、お食事メニュー、チキンカレー、ポークカレー、ビーフカレー、ドリングメニューを上書きして、翻訳結果である「ｆｏｏｄｍｅｎｕ」、「ｃｈｉｋｅｎ」、「ｐｏｒｋｃｕｒｒｙ」、「ｂｅｅｆｃｕｒｒｙ」、「ｄｒｉｎｋｍｅｎｕ」が表示される。ただし、反射位置ｍｃの近傍の領域は、翻訳されず、そのまま表示される。

このように、スマートフォン３０で撮像された撮像画像に反射位置が含まれていても、ユーザが判読可能なように、翻訳結果が表示される。

以上により、実施の形態１に係るＡＩサーバ１０における学習処理方法は、光の反射位置（反射箇所の一例）を示す反射領域ｇ１（反射画像領域の一例）を含む元画像Ａ（学習処理対象の撮像画像の一例）に基づいて、元画像Ａの偽画像Ｂ´（第１類似画像の一例）を生成するステップを有する。また、学習処理方法は、元画像Ａ（撮像画像の一例）中の反射領域ｇ１が他の画像領域と識別可能に生成された学習画像Ｂ１，Ｂ２，Ｂ３と偽画像Ｂ´との比較に応じて、偽画像Ｂ´の真偽性を評価するステップを有する。また、学習処理方法は、偽画像Ｂ´に基づいて、元画像Ａの偽画像Ａ´（第２類似画像の一例）を生成するステップを有する。また、学習処理方法は、偽画像Ａ´と元画像Ａとの比較に応じて、偽画像Ａ´の真偽性を評価するステップを有する。また、学習処理方法は、偽画像Ｂ´及び偽画像Ａ´のそれぞれの真偽性の評価結果に基づいて、任意の撮像画像における反射領域ｇ１の検知に用いる学習済みモデル（反射検知モデルの一例）を生成するステップを有する。

これにより、ＡＩサーバ１０は、スマートフォン３０から任意の撮像画像が入力された場合でも、その撮像画像中の光の反射箇所を示す反射画像領域を検知可能な高精度な反射検知モデルを生成でき、任意の撮像画像において検知される反射画像領域の信頼性を的確に担保できる。

また、学習処理方法において、学習済みモデルを生成するステップは、偽画像Ｂ´及び偽画像Ａ´のそれぞれの真偽性の評価結果に基づいて、学習済みモデルが使用する学習パラメータ（パラメータの一例）を更新するステップと、更新された学習パラメータを用いて学習済みモデルを生成するステップとを含む。これにより、ＡＩサーバ１０は、偽画像と元画像との真偽性の評価結果に基づいて学習パラメータの更新された高精度な学習済みモデルを生成でき、学習済みモデルの学習効果を向上できる。

また、学習処理方法において、偽画像Ｂ´を生成するステップは、元画像Ａ（学習処理対象の撮像画像の一例）が複数存在する場合に、それぞれの元画像Ａ毎に対応する偽画像Ｂ´を生成するステップを含む。これにより、ＡＩサーバ１０は、複数の異なる元画像Ａに対応して複数の偽画像を生成でき、元画像Ａ毎にそれぞれ学習パラメータを更新できるので、学習済みモデルの信頼性の精度を一層向上できる。

また、学習処理方法は、元画像Ａ（撮像画像の一例）中の反射領域ｇ１に赤色（第１の色の一例）を付与し、元画像Ａ中の反射領域ｇ１以外の他の画像領域に白色（第２の色の一例）を付与して学習画像Ｂ１を生成するステップを更に有する。これにより、ＡＩサーバ１０は、スマートフォン３０から入力された撮像画像内に光の反射領域とそれ以外の領域とが明確に識別された学習画像を容易に生成できる。

また、学習処理方法は、元画像Ａ（撮像画像の一例）中の反射領域ｇ１を構成するそれぞれのＲ画素（画素のいずれか１色の一例）の画素値に、元画像Ａ中の対応する画素の輝度値を設定し、元画像Ａ中の反射領域ｇ１以外の他の画像領域を構成するそれぞれの画素の画素値に、元画像Ａ中の対応する画素の画素値を設定して学習画像Ｂ２を生成するステップを更に有する。これにより、ＡＩサーバ１０は、スマートフォン３０から入力された撮像画像内に光の反射領域とそれ以外の領域とが明確に識別された学習画像を容易に生成できる。

また、学習処理方法は、元画像Ａ（撮像画像の一例）中の反射領域ｇ１を構成するそれぞれのＲ画素（画素のいずれか１色の一例）の画素値に、元画像Ａ中の対応する画素の輝度値を設定し、元画像Ａ中の反射領域ｇ１以外の他の画像領域を構成するそれぞれのＲＧＢ画素の（全ての色の一例）の画素値に、元画像Ａ中の対応する画素の画素値を設定して学習画像Ｂ３を生成するステップを更に有する。これにより、ＡＩサーバ１０は、スマートフォン３０から入力された撮像画像内に光の反射領域とそれ以外の領域とが明確に識別された学習画像を容易に生成できる。

また、実施の形態１に係る反射検知システム５は、前述したＡＩサーバ１０（サーバ装置の一例）と、撮像部３２及び表示部３３を有するスマートフォン３０（携帯端末の一例）とが互いに通信可能に接続される。ＡＩサーバ１０は、撮像部３２により撮像された任意の撮像画像を取得すると、学習済みモデル（反射検知モデルの一例）を用いて、撮像画像中の光の反射領域（反射画像領域の一例）を検知するとともに、撮像画像中の光の反射領域を他の画像領域と識別可能に加工した出力画像を生成してスマートフォン３０に送信する。スマートフォン３０は、ＡＩサーバ１０から送信された出力画像を用いて、出力画像のうち光の反射領域以外の他の画像領域を文字認識した結果を表示部３３に表示する。

これにより、スマートフォン３０を使用するユーザ（例えば、外国人等の旅行者）は、自ら内容確認したい広告等を被写体とする撮像画像をＡＩサーバ１０に送信しかつその撮像画像に対するＡＩサーバ１０の処理結果をスマートフォン３０において文字認識及び翻訳させることで、文字部分として認識された文字情報の翻訳結果を把握できる。言い換えると、反射検知システム５は、外国人等の旅行者をユーザに親切な文字認識及び翻訳のアプリケーションを提供でき、ユーザの利便性を的確に向上できる。

（実施の形態２）
実施の形態２では、被写体を動画で撮影し、動画を構成する複数の画像のうちの反射領域を含まない画像を抽出し、当該抽出した画像に含まれる文字を認識及び翻訳するスマートフォンの例について説明する。なお、実施の形態２では、実施の形態１で説明済みの構成要素については、同一の参照符号を付し、説明を省略する場合がある。

図１６は、実施の形態２に係るスマートフォン３０における、動画を構成する複数の画像から翻訳に用いる画像を抽出する処理を説明するための図である。なお、以下の説明において、スマートフォン３０が主体の動作は、スマートフォン３０のプロセッサ３１が主体の動作に読み替えられてよい。

スマートフォン３０は、文字を含む被写体を動画で撮影する。動画は、図１６に示すように、複数の画像が時系列に並べられた構成である。以下、動画を構成する各画像を、画像フレームという。動画のフォーマットは、例えば、ＭＰＥＧ４、Ｈ．２６４、Ｈ．２６５である。

スマートフォン３０は、動画を構成する複数の画像フレームの中から、所定のタイミング（例えば所定の周期）で、画像フレームを抽出する。抽出された画像フレームには、スマートフォン３０の向き又は傾きによって、図１６の画像フレーム１０１Ａに示すように反射領域ｇ３が含まれたり、画像フレーム１０１Ｂに示すように反射領域が含まれなかったりする。そこで、スマートフォン３０は、抽出した画像フレームの中から、反射領域を含まない画像フレームを検出し、その検出した画像フレームに含まれる文字を翻訳する。これにより、実施の形態１で説明したような、反射領域によって文字が隠れてしまい、スマートフォン３０が文字を翻訳できないことを回避できる。

なお、スマートフォン３０は、反射領域を含まない画像フレームを検出したタイミングで、自動的に被写体を静止画で撮影し、その静止画に含まれる文字を翻訳してもよい。典型的には、動画の画像フレームよりも静止画の方が被写体のぼやけが小さい。よって、静止画に含まれる文字の認識精度が向上し、延いては、翻訳精度が向上する。

あるいは、スマートフォン３０は、文字を含む被写体を動画で撮影する代わりに、文字を含む被写体を静止画で連続的に撮影してもよい。この場合、スマートフォン３０は、連続的に撮影した複数の静止画の中から、反射領域を含まない静止画を検出し、その検出した静止画に含まれる文字を翻訳してもよい。

画像フレーム又は静止画に反射領域が含まれるか否かの判定（以下「反射領域有無判定」という）は、実施の形態１で説明したＡＩサーバ１０によって行われてよい。あるいは、実施の形態１で説明したＡＩサーバ１０の機能をスマートフォン３０に内蔵し、反射領域有無判定は、スマートフォン３０の中で行われてもよい。

翻訳は、実施の形態１で説明した翻訳サーバ５０によって行われてよい。あるいは、実施の形態１で説明した翻訳サーバ５０の機能をスマートフォン３０に内蔵し、翻訳は、スマートフォン３０の中で行われてもよい。

図１７は、実施の形態２に係るスマートフォン３０における、翻訳処理の第１例を説明するフローチャートである。

スマートフォン３０のプロセッサ３１は、ユーザの操作に応じて、翻訳アプリケーションを起動する（Ｓ１０１）。以下の処理は、翻訳アプリケーションを構成するコンピュータプログラムがプロセッサ３１に実行されることによって、実現されてよい。

ユーザがスマートフォン３０を被写体に向けて動画撮影の開始の操作を行うと、プロセッサ３１は、撮像部３２を制御して、動画撮影を開始する（Ｓ１０２）。動画撮影の期間中、撮像部３２は、随時、動画のデータを形成し、メモリ３６に格納する。ユーザは、動画撮影の期間中、スマートフォン３０を被写体に向けて、少し動かしたり、傾けたりしてよい。これにより、動画の中に、反射領域を含まない画像フレームが存在する可能性が高まる。

プロセッサ３１は、メモリ３６に格納された動画の中から、所定のタイミング（例えば所定の周期）で、１つの画像フレームを抽出する（Ｓ１０３）。以下、Ｓ１０３で抽出された画像フレームを、抽出画像フレームという。

プロセッサ３１は、通信部３５を介して、抽出画像フレームをＡＩサーバ１０へ送信する（Ｓ１０４）。

プロセッサ３１は、通信部３５を介して、ＡＩサーバ１０から、Ｓ１０４で送信した抽出画像フレームに対する反射領域有無判定の結果を受信する（Ｓ１０５）。ＡＩサーバ１０による反射領域有無判定の処理の詳細については後述する（図２０参照）。

プロセッサ３１は、Ｓ１０５で受信した反射領域有無判定の結果が「反射領域有り」又は「反射領域無し」の何れであるかを判定する（Ｓ１０６）。

プロセッサ３１は、Ｓ１０５で受信した反射領域有無判定の結果が「反射領域有り」を示す場合（Ｓ１０６：ＹＥＳ）、上記Ｓ１０３の処理を実行する。このＳ１０３の処理において、プロセッサ３１は、動画から、先ほど抽出した画像フレームとは異なるタイミングの画像フレームを抽出する。なお、Ｓ１０５で受信した反射領域有無判定の結果が「反射領域有り」を示す場合、プロセッサ３１は、スマートフォン３０を少し動かす又は傾けるようなメッセージを表示部３３に表示してもよい。これにより、２回目以降のＳ１０３の処理において、反射領域を含まない画像フレームが抽出される可能性が高まる。

プロセッサ３１は、Ｓ１０５で受信した反射領域有無判定の結果が「反射領域無し」を示す場合（Ｓ１０６：ＮＯ）、図９のＳ８６と同様に、抽出画像フレームに対して文字認識処理を実行する（Ｓ１０７）。

プロセッサ３１は、Ｓ１０７によって認識した文字に対する翻訳を開始するか否かを、ユーザに問い合わせる（Ｓ１０８）。

Ｓ１０８の問い合わせに対してユーザが翻訳を開始しないことを選択した場合（Ｓ１０８：ＮＯ）、プロセッサ３１は、上記Ｓ１０３の処理を実行する。

Ｓ１０８の問い合わせに対してユーザが翻訳を開始することを選択した場合（Ｓ１０８：ＹＥＳ）、プロセッサ３１は、次の処理を実行する。すなわち、プロセッサ３１は、通信部３５を介して、認識した文字を翻訳サーバ５０へ送信し、翻訳サーバ５０から翻訳結果を受信し、その受信した翻訳結果を表示部３３に表示する（Ｓ１０９）。そして、プロセッサ３１は、後述の図１９に示す処理を実行する。

なお、Ｓ１０８の処理は実行されなくてもよい。例えば、プロセッサ３１は、Ｓ１０７の文字認識処理を実行後、Ｓ１０８のユーザへ問い合わせを実行せずに、直ちに、Ｓ１０９の翻訳結果を表示部３３に表示する処理を実行してもよい。これにより、ユーザの操作手順を少なくできる。

以上の処理によれば、反射領域を含まない画像フレームに対して文字認識及び翻訳を実行できるので、実施の形態１で説明したような、反射領域が文字を隠してしまい、スマートフォン３０が文字を翻訳できないことを回避できる。

図１８は、実施の形態２に係るスマートフォン３０における、翻訳処理の第２例を説明するフローチャートである。なお、図１８では、図１７と同様の処理については、説明を省略する場合がある。

スマートフォン３０のプロセッサ３１は、図１７に示すＳ１０１〜Ｓ１０６と同様の処理を実行する（Ｓ２０１〜Ｓ２０６）

プロセッサ３１は、Ｓ２０５で受信した反射領域有無判定の結果が「反射領域無し」を示す場合（Ｓ２０６：ＮＯ）、撮像部３２を制御して、静止画の撮影を実行する（Ｓ２０７）。そして、プロセッサ３１は、図９のＳ８６と同様に、静止画に対して文字認識処理を実行する（Ｓ２０８）。以降、プロセッサ３１は、図１７に示すＳ１０８〜Ｓ１０９と同様の処理を実行する（Ｓ２０９〜Ｓ２１０）。そして、プロセッサ３１は、後述の図１９に示す処理を実行する。

なお、Ｓ２０９の処理は実行されなくてもよい。例えば、プロセッサ３１は、Ｓ２０８の文字認識処理を実行後、Ｓ２０９のユーザへ問い合わせを実行せずに、直ちに、Ｓ２１０の翻訳結果を表示部３３に表示する処理を実行してもよい。これにより、ユーザの操作手順を少なくできる。

以上の処理によれば、被写体のぼやけの小さい静止画に対して文字認識及び翻訳を実行できるので、翻訳の精度が向上する。

図１９は、図１７又は図１８に示す処理の続きの処理を説明するフローチャートである。

スマートフォン３０のプロセッサ３１は、Ｓ１０９又はＳ２１０で表示した翻訳結果を保存するか否かを、ユーザに問い合わせる（Ｓ３０１）。

Ｓ３０１の問い合わせに対してユーザが翻訳結果を保存しないことを選択した場合（Ｓ３０１：ＮＯ）、プロセッサ３１は、後述するＳ３０３の処理を実行する。

Ｓ３０１の問い合わせに対してユーザが翻訳結果を保存することを選択した場合（Ｓ３０１：ＹＥＳ）、プロセッサ３１は、翻訳結果をメモリ３６に保存する（Ｓ３０２）。

プロセッサ３１は、ユーザによって翻訳アプリケーションを終了する操作が行われたか否かを判定する（Ｓ３０３）。

翻訳アプリケーションを終了する操作が行われていない場合（Ｓ３０３：ＮＯ）、プロセッサ３１は、図１７に示すＳ１０３又は図１８に示すＳ２０３の処理を実行する。

翻訳アプリケーションを終了する操作が行われた場合（Ｓ３０３：ＹＥＳ）、プロセッサ２１は、翻訳アプリケーションを終了する。

図２０は、実施の形態２に係るＡＩサーバ１０における反射領域の検出処理の例を説明するフローチャートである。なお、以下の説明において、ＡＩサーバ１０が主体の動作は、ＡＩサーバ１０のプロセッサ１１が主体の動作に読み替えられてよい。

ＡＩサーバ１０は、図１７のＳ１０４又は図１８のＳ２０４にてスマートフォン３０から送信された抽出画像フレームを取得する（Ｓ４０１）。

ＡＩサーバ１０は、図８のＳ７２と同様、学習済みモデルを取り込む（Ｓ４０２）。

ＡＩサーバ１０は、図８のＳ７３と同様、Ｂ´生成器に抽出画像フレームを入力し、反射領域が可視化された画像を出力する（Ｓ４０３）。

ＡＩサーバ１０は、Ｓ４０３で出力された反射領域が可視化された画像内に反射領域が含まれているか否かを判定する（Ｓ４０４）。すなわち、ＡＩサーバ１０は、反射領域有無判定を実行する。例えば、ＡＩサーバ１０は、図８のＳ７４と同様に、色成分の強度比を基に、画像内における非反射領域及び反射領域を判断し、画像内に反射領域が存在する場合、反射領域有りと判定し、画像内に反射領域が存在しない場合、反射領域無しと判定する。そして、ＡＩサーバ１０は、Ｓ４０４の反射領域有無判定の結果をスマートフォン３０に送信し、処理を終了する。

（実施の形態２のまとめ）
実施の形態２の一態様に係る携帯端末（３０）は、プロセッサ（３１）、メモリ（３６）及び撮像部（３２）を備える。プロセッサは、メモリと協調して、撮像部によって撮像された動画を構成する複数の画像フレームの中から１つの画像フレームを抽出し、抽出した画像フレームを、画像内に光の反射領域が含まれるか否かを判定するサーバ装置（１０）へ送信し、サーバ装置から画像フレーム内に光の反射領域が含まれないことを示す判定結果を受信した場合、画像フレーム内の文字を翻訳し、翻訳結果を出力する。

この構成によれば、翻訳対象の画像フレームには光の反射領域が含まれないので、光の反射によって文字が隠れてしまい、文字を翻訳できないという状況を回避できる。

実施の形態２の一態様に係る携帯端末（３０）は、プロセッサ（３１）、メモリ（３６）及び撮像部（３２）を備える。プロセッサは、メモリと協調して、撮像部によって撮像された動画を構成する複数の画像フレームの中から１つの画像フレームを抽出し、抽出した画像フレームを、画像内に光の反射領域が含まれるか否かを判定するサーバ装置（１０）へ送信し、サーバ装置から画像フレーム内に光の反射領域が含まれないことを示す判定結果を受信した場合、撮像部によって静止画を撮像し、静止画内の文字を翻訳し、翻訳結果を出力する。

この構成によれば、翻訳対象の静止画には光の反射領域が含まれないので、光の反射によって文字が隠れてしまい、文字を翻訳できないという状況を回避できる。

携帯端末（３０）は、サーバ装置（１０）から画像フレーム内に光の反射領域が含まれることを示す判定結果を受信した場合、動画を構成する複数の画像フレームの中から、先に抽出した画像フレームとは異なる画像フレームを抽出し、抽出した異なる画像フレームを、サーバ装置へ送信してよい。

この構成によれば、動画を構成する複数の画像フレームの中から、光の反射領域が含まれない画像フレームを特定できるので、光の反射によって文字が隠れてしまい、文字を翻訳できないという状況を回避できる。

携帯端末（３０）は、プロセッサ（３１）、メモリ（３６）及び撮像部（３２）を備える。プロセッサは、メモリと協調して、撮像部によって撮像された複数の画像の中から光の反射領域を含まない画像を特定し、当該特定した画像内の文字を翻訳し、翻訳結果を出力する。

この構成によれば、翻訳対象の画像には光の反射領域が含まれないので、光の反射によって文字が隠れてしまい、文字を翻訳できないという状況を回避できる。

以上、添付図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても本開示の技術的範囲に属すると了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。

本開示は、撮像画像内の文字を翻訳する装置に利用可能である。

５反射検知システム
１０ＡＩサーバ
１３ＡＩ処理部
３０スマートフォン
３１プロセッサ
３２撮像部
３３表示部
３４入力部
３５通信部
３６メモリ

Claims

プロセッサ、メモリ及び撮像部を備える携帯端末であって、
前記プロセッサは、前記メモリと協調して、
前記撮像部によって撮像された動画を構成する複数の画像フレームの中から１つの画像フレームを抽出し、
抽出した前記画像フレームを、画像内に光の反射領域が含まれるか否かを判定するサーバ装置へ送信し、
前記サーバ装置から前記画像フレーム内に光の反射領域が含まれないことを示す判定結果を受信した場合、前記画像フレーム内の文字を翻訳し、翻訳結果を出力する、
携帯端末。
プロセッサ、メモリ及び撮像部を備える携帯端末であって、
前記プロセッサは、前記メモリと協調して、
前記撮像部によって撮像された動画を構成する複数の画像フレームの中から１つの画像フレームを抽出し、
抽出した前記画像フレームを、画像内に光の反射領域が含まれるか否かを判定するサーバ装置へ送信し、
前記サーバ装置から前記画像フレーム内に光の反射領域が含まれないことを示す判定結果を受信した場合、前記撮像部によって静止画を撮像し、
前記静止画内の文字を翻訳し、翻訳結果を出力する、
携帯端末。
前記プロセッサは、
前記サーバ装置から前記画像フレーム内に光の反射領域が含まれることを示す判定結果を受信した場合、前記動画を構成する複数の画像フレームの中から、先に抽出した画像フレームとは異なる画像フレームを抽出し、
抽出した前記異なる画像フレームを、前記サーバ装置へ送信する、
請求項１又は２に記載の携帯端末。
携帯端末が、
前記携帯端末に備えられた撮像部によって撮像された動画を構成する複数の画像フレームの中から１つの画像フレームを抽出し、
抽出した前記画像フレームを、画像内に光の反射領域が含まれるか否かを判定するサーバ装置へ送信し、
前記サーバ装置から前記画像フレーム内に光の反射領域が含まれないことを示す判定結果を受信した場合、前記画像フレーム内の文字を翻訳し、翻訳結果を出力する、
翻訳処理方法。
携帯端末が、
前記携帯端末に備えられた撮像部によって撮像された動画を構成する複数の画像フレームの中から１つの画像フレームを抽出し、
抽出した前記画像フレームを、画像内に光の反射領域が含まれるか否かを判定するサーバ装置へ送信し、
前記サーバ装置から前記画像フレーム内に光の反射領域が含まれないことを示す判定結果を受信した場合、前記撮像部によって静止画を撮像し、
前記静止画内の文字を翻訳し、翻訳結果を出力する、
翻訳処理方法。
プロセッサ、メモリ及び撮像部を備える携帯端末であって、
前記プロセッサは、前記メモリと協調して、
前記撮像部によって撮像された複数の画像の中から光の反射領域を含まない画像を特定し、
当該特定した画像内の文字を翻訳し、翻訳結果を出力する、
携帯端末。