JP2019096220A

JP2019096220A - 文字情報提供装置および方法

Info

Publication number: JP2019096220A
Application number: JP2017227024A
Authority: JP
Inventors: 真史権瓶; Masashi Gompei; 紀行畑; Noriyuki Hata; 和也粂原; Kazuya Kumehara; 関根　聡; Satoshi Sekine; 聡関根; 圭佑島影; Keisuke SHIMAKAGE; 義弘淺野; Yoshihiro Asano; 秀樹鶴岡; Hideki Tsuruoka; 堅大田中; Kenta Tanaka
Original assignee: Oton Glass Inc; Yamaha Corp
Current assignee: Oton Glass Inc; Yamaha Corp
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2019-06-20

Abstract

【課題】利用者が周囲環境の中の複数の文字列を取捨選択し、所望の文字列を認識することを可能にする。【解決手段】文字情報提供装置１００は、眼鏡型の装置である。撮像部１は、利用者の前方の画像を撮像する。着目位置検出部２は、撮像部１の視野内における利用者の着目位置を検出する。画像／文字変換部４は、撮像部１により撮像された画像に含まれる文字の画像を文字情報に変換する。文字／音声変換部５は、撮像部４により撮像された画像のうち着目位置の文字の画像から得られた文字情報と、着目位置の文字の画像以外の文字の画像から得られた文字情報とを聴覚により区別することが容易な音声情報に変換する。文字／音声変換部５により得られた音声情報は、音像定位部６、加算部７の処理を経て左右のイヤホン８Ｌ、８Ｒに出力される。【選択図】図１

Description

この発明は、視覚障害者等のために文字情報を音声に変換して提供する文字情報提供装置および方法に関する。

この種の技術に関する文献として例えば非特許文献１がある。この非特許文献１に開示された技術では、利用者の周囲の画像をカメラにより撮像し、このカメラにより撮像された画像に含まれる文字の画像の文字認識を行い、認識した文字を示す音声を利用者に提供する。

視覚障害者のための環境文字情報提供システムの検討、岩村雅一、宮田武嗣、程征、田井中渓志、黄瀬浩一、情報処理学会研究報告、２０１６年７月３０日発表

ところで、例えば駅等の公共施設に複数の案内表示等が設置されている場合、あるいは複数の記事が配列された新聞を目の前にする場合等、複数の文字列が利用者の周囲環境に現れる場合がある。このような場合、利用者としては、周囲環境の中の複数の文字列を取捨選択し、複数の文字列の中の所望の文字列を認識したいところである。しかしながら、非特許文献１に開示の技術やその他の従来の技術の中には、このような要求に応えることができるものがなかった。

この発明は以上のような事情に鑑みてなされたものであり、利用者が周囲環境の中の複数の文字列を取捨選択し、所望の文字列を認識することを可能にする技術的手段を提供することを目的とする。

この発明は、画像を撮像する撮像手段と、前記撮像手段により撮像された画像に含まれる文字の画像を文字情報に変換する画像／文字変換手段と、前記撮像手段により撮像された画像のうち着目位置の文字の画像から得られた文字情報と、前記撮像手段により撮像された画像のうち前記着目位置の文字の画像以外の文字の画像から得られた文字情報とを聴覚により区別することが容易な音声情報に変換する文字／音声変換手段とを具備することを特徴とする文字情報提供装置を提供する。

この発明によれば、文字／音声変換手段は、撮像手段により撮像された画像のうち着目位置の文字の画像から得られた文字情報と、撮像手段により撮像された画像のうち着目位置の文字の画像以外の文字の画像から得られた文字情報とを聴覚により区別することが容易な音声情報に変換するので、利用者は、複数の文字の画像に対応した音声情報を聴取しつつ、着目位置の文字の画像に対応した音声情報を他の音声情報と区別して認識することができる。従って、この発明によれば、利用者は、撮像手段によって撮像される複数の文字列を取捨選択し、所望の文字列を認識することができる。

この発明の一実施形態である文字情報提供装置の構成を示すブロック図である。同文字情報提供装置の外観を示す図である。この発明の一実施形態である文字情報提供方法を示すフローチャートである。

以下、図面を参照し、この発明の実施形態について説明する。

図１はこの発明の一実施形態である文字情報提供装置１００の構成を示すブロック図である。また、図２（ａ）および（ｂ）は文字情報提供装置１００の外観を示す図であり、図２（ａ）は斜視図、図２（ｂ）は側面図である。

図２（ａ）および（ｂ）に示すように、文字情報提供装置１００は、眼鏡フレームの形態の本体１０１と、この本体１０１に設けられた各種の装置からなる装置である。通常の眼鏡フレームと同様、本体１０１は、レンズを支持する２個のリム１０２と、２個のリム１０２の間の下部に設けられた鼻パッド１０３と、各々の一端が２個のリム１０２に接続された２本の棒状のテンプル１０４と、２本のテンプル１０４の他端に設けられた２個のイヤピース１０５を有する。利用者は、通常の眼鏡を掛ける場合と同様に、鼻パッド１０３を自分の鼻に載せ、２個のイヤピース１０５を自分の両耳に載せ、２個のリム１０２によって支持された２個のレンズを自分の両眼の前に位置させて、文字情報提供装置１００を利用する。

２個のリム１０２の各々の上縁には、カメラ１１１および１１２が設けられている。ここで、カメラ１１１は、利用者の顔面が向いた方向の所定範囲（視野）内の画像を撮像するカメラである。また、カメラ１１２は、利用者の眼球を撮像するカメラである。なお、カメラ１１１および１１２は、２個のリム１０２の一方のみに設けてもよい。

本実施形態において、カメラ１１２は、利用者の視線の方向を求めるための手段として使用される。また、カメラ１１２は、利用者が瞬きをするのを検知するための手段としても使用される。本実施形態では、カメラ１１２により撮像された画像に基づいて利用者が瞬きするのを検知し、この瞬きが検知されたタイミングにおいて、カメラ１１１による撮像を行うことが可能である。

また、２個のリム１０２の一方の上縁の上面には、撮像ボタン１０６が設けられている。利用者は、上述のように、瞬きをする他、この撮像ボタン１０６を押圧することによっても、カメラ１１１による撮像を指示することができる。

利用者は、本体１０１に設けられた不図示の操作子を操作することにより、撮像に関する動作モードとして、瞬きの検知により撮像を行う瞬き撮像モードまたは撮像ボタン１０６の操作に応じて撮像を行う手動撮像モードの一方を設定することが可能である。なお、このような撮像の制御を行うための手段については後述する。

２本のテンプル１０４のリム１０２寄りの部分は、幅広部分１０４Ａとなっており、この幅広部分１０４Ａには、文字情報提供装置１００の各種の機能を実現するための回路が搭載されている。そして、２本のテンプル１０４の幅広部分１０４Ａには、利用者の左右の耳に挿入される左右２チャネルのイヤホン８Ｌ、８Ｒがケーブルを介して接続されている。

図１には、テンプル１０４のリム１０２寄りの幅広部分１０４Ａに搭載された回路がイヤホン８Ｌ、８Ｒとともに示されている。この図１に示す回路は、２つの幅広部分１０４Ａの一方のみに搭載してもよいし、両方に分散して搭載してもよい。

図１において、撮像部１は、図２のカメラ１１１により、利用者の顔の前方の領域である視野を撮像する撮像手段である。また、着目位置検出部２は、図２のカメラ１１２により利用者の眼球を撮像し、利用者の眼球の画像を解析することにより利用者の視線の先にある着目位置を検出し、撮像部１の視野内における着目位置を示す着目位置情報を出力する手段である。また、着目位置検出部２は、カメラ１１２により撮像された画像に基づいて、着目位置を検出することに加えて、利用者が瞬きをするのを検出することが可能である。

操作検出部９は、図２に示す撮像ボタン１０６等、文字情報提供装置１００に設けられた各種の操作子（撮像ボタン１０６以外は図示略）の操作を検出する手段である。上述した手動撮像モードが設定されている場合、操作検出部９は、撮像ボタン１０６の押圧操作を検知したときに撮像指示を撮像部１および操作音生成部３に送る。一方、上述した瞬き撮像モードが設定されている場合には、着目位置検出部２が利用者の瞬きを検知したときに撮像指示を撮像部１および操作音生成部３に送る。撮像部１は、操作検出部９または着目位置検出部２から与えられる撮像指示に応じて、カメラ１１１による撮像を行う。上述した手動撮像モードが設定されている場合、撮像部１により撮像される画像における着目位置は、カメラ１１１の正面になる。一方、上述した瞬き撮像モードが設定されている場合、撮像部１により撮像される画像における着目位置は、着目位置検出部２により検出された着目位置となる。

操作音生成部３は、各種の操作音信号ＳＴを生成する手段である。例えば着目位置検出部２または操作検出部９が撮像指示を出力するとき、操作音生成部３は、「カシャ」という撮像音を示す操作音信号ＳＴを出力する。その他、操作音生成部３は、操作検出部９が各種の操作子の操作を検知したとき、その操作子の操作音を示す操作音信号ＳＴを出力する。

画像／文字変換部４は、撮像部１により撮像された画像から文字の画像を抽出し、それらの文字の画像を文字の内容を示す文字情報ＣＲ＿０、ＣＲ＿１、…に変換するとともに、視野内における文字の画像の所在位置を示す位置情報Ｐ＿０、Ｐ＿１、…を出力する。さらに詳述すると、画像／文字変換部４は、撮像された画像の中から文字の画像を抽出し、複数の文字を抽出した場合には、それらの文字を、例えば「駅」等、単独で何等かの意味を表す１つの文字、あるいは「国会議事堂」等、互いに隣接した文字が一体となって何らかの意味を表す文字列に分ける。通常、前者の場合よりも後者の場合の方が多いので、画像／文字変換部４の抽出対象は、一般的には複数の文字からなる文字列となる。この文字列は、水平方向に並んだ複数の文字からなるものであってもよく、垂直方向に並んだ複数の文字からなるものであってもよい。文字列における文字の並び方向は任意である。そして、詳細には、文字情報は、抽出した文字列を構成する個々の文字の内容を示す情報となる。また、位置情報は、抽出した文字列を構成する個々の文字の画像の所在位置を示す情報となる。なお、画像から文字情報と位置情報を生成する手法に関しては、公知の手法を利用可能である。

文字／音声変換部５は、音声合成部５１と、着目文字検出部５２とを有する。着目文字検出部５２は、画像／文字変換部４が出力する位置情報Ｐ＿０、Ｐ＿１、…を、着目位置検出部２が出力する着目位置情報と比較し、各文字情報のうち利用者が着目している文字の画像に対応した文字情報を検出する。さらに詳述すると、画像／文字変換部４がある文字列を画像から抽出して文字情報Ｃ＿ｎと位置情報Ｐ＿ｎを出力する場合、文字情報Ｃ＿ｎは抽出した文字列を構成する各文字の内容を示す文字情報を含み、位置情報Ｐ＿ｎは抽出した文字列を構成する各文字の位置情報を含む。そこで、着目文字検出部５２は、これらの各文字の位置情報の中に着目位置情報を中心とした所定範囲内に収まる位置情報があるか否かを判断することにより、当該文字列が利用者の着目している文字列か否かを判断する。着目文字検出部５２は、このような判断を画像／文字変換部４が出力する全ての文字列の位置情報Ｐ＿０、Ｐ＿１、…について実行し、各文字情報のうち利用者が着目している文字列の画像に対応した文字情報を検出するのである。

音声合成部５１は、画像／文字変換部４が出力する文字情報ＣＲ＿０、ＣＲ＿１、…を音声情報に各々変換する。その際、音声合成部５１は、着目位置の文字列の画像から得られた文字情報と、着目位置の文字列の画像以外の文字列の画像から得られた文字情報とを聴覚により区別することが容易な音声情報に変換する。

この音声合成部５１の処理に関しては、各種の態様があり得る。ある好ましい態様において、音声合成部５１は、着目位置の文字列から得られる音声情報の明瞭度とそうでない文字列から得られる音声情報の明瞭度とに高低差を生じさせる。この場合、着目位置の文字列から得られる音声情報とそうでない文字列から得られる音声情報のいずれの明瞭度を調整するかは任意である。すなわち、着目位置の文字列から得られる音声情報の明瞭度をそうでない文字列から得られる音声情報の明瞭度より高くしてもよいし、着目位置の文字列から得られる音声情報の明瞭度よりもそうでない文字列から得られる音声情報の明瞭度を低くしてもよい。明瞭度の調整方法としては、例えば次の方法があり得る。第１の方法では、着目位置の文字列から得られる音声情報の周波数特性とそうでない文字列から得られる音声情報の周波数特性を調整して明瞭度に差を設ける。例えば着目位置の文字列以外の文字列から得られる音声情報（この場合、音声波形を示す信号）の高域成分を除去し、着目位置の文字列から得られる音声情報よりも明瞭度を低下させる。第２の方法では、音量の調整により着目位置の文字列から得られる音声情報の明瞭度をそうでない文字列から得られる音声情報の明瞭度よりも高くする。例えば着目位置の文字列から得られる音声情報の音量をそうでない文字列から得られる音声情報の音量よりも大きくして明瞭度に差を設ける。

他の好ましい態様では、子音、母音等の各種の音声素片を時間軸上において繋げて音声合成を行う場合に、音声合成に用いる音声素片の声質を変えることにより、着目位置の文字列に対応した音声情報と、着目位置の文字列以外の文字列に対応した音声情報とを聴覚により区別できるようにする。例えば着目位置の文字列については、女性の声の音声素片を用いて音声合成を行い、着目位置の文字列以外の文字列については、男性の声の音声素片を用いて音声合成を行うという具合である。あるいは着目位置の文字列については、透明感のある声の音声素片を用いて音声合成を行い、着目位置の文字列以外の文字列については、ハスキーな声の音声素片を用いて音声合成を行ってもよい。

その他、発音タイミングの調整により、着目位置の文字列に対応した音声情報と、着目位置の文字列以外の文字列に対応した音声情報とを聴覚により区別できるようにしてもよい。例えば着目位置の文字列以外の各文字列について、同じタイミングまたは接近したタイミングにおいて音声を発音し、それから遅れたタイミングにおいて、着目位置の文字列に対応した音声を発音する、という具合である。あるいは、発音速度の調整により着目位置の文字列に対応した音声情報と、着目位置の文字列以外の文字列に対応した音声情報とを聴覚により区別できるようにしてもよい。例えば着目位置の文字列は、ゆっくり聞きやすい速度で発音し、それ以外の文字列はスピードを速めて発音する、という具合である。

音像定位部６は、文字／音声変換部５が出力する音声情報Ｓ＿０、Ｓ＿１、…と、操作音生成部３が出力する操作音信号ＳＴの音像定位処理を行って、左右２チャネルの音声信号を生成する。その際、音声情報Ｓ＿０、Ｓ＿１、…については、各々に対応した位置情報Ｐ＿０、Ｐ＿１、…が示す位置への音像定位を行う。ここで、ある位置情報Ｐ＿ｎが複数の文字からなる文字列の位置情報である場合、この位置情報は文字列を構成する複数の文字の位置情報を含む。そこで、音像定位部６は、この文字列を構成する複数の文字の位置情報を例えば平均化し、音声情報Ｓ＿ｎの音像定位に使用する。また、音像定位部６は、操作音信号ＳＴについては、操作音の種類に応じた音像定位を行う。例えば操作音信号ＳＴのうち撮像指示により発生した操作音信号ＳＴについては、音像の位置を撮像部１の撮像方向に沿って利用者から遠ざける音像移動処理を実行する。

加算部７は、音像定位部６が音声情報Ｓ＿０、Ｓ＿１、…と操作音信号ＳＴの各々について出力する左右２チャネルの音声信号を同じチャネル同士加算し、加算結果である左チャネルの音声信号を利用者の左耳に挿入されるイヤホン８Ｌに供給し、加算結果である右チャネルの音声信号を利用者の右耳に挿入されるイヤホン８Ｒに供給する。
以上が本実施形態による文字情報提供装置１００の詳細である。

次に本実施形態の動作を説明する。本実施形態において、利用者は、眼鏡を掛けるのと同様に、文字情報提供装置１００を頭部に装着する。着目位置検出部２は、カメラ１１２により利用者の眼球を撮像し、撮像部１の視野内における利用者の着目位置を検出し、着目位置情報を出力する。具体的には、着目位置検出部２は、２台のカメラ１１２により撮像された両眼の眼球画像から視線の方向と焦点までの距離を算出することにより着目位置を検出する。瞬き撮像モードが設定されている場合、着目位置検出部２が利用者の瞬きを検出すると、撮像指示が撮像部１に送られ、撮像部１はカメラ１１１により利用者の顔の前方の画像を撮像する。このとき、操作音生成部３は、撮像指示に応じて、「カシャ」という撮像音を示す操作音信号ＳＴを出力する。一方、手動撮像モードが設定されている場合は、撮像ボタン１０６の押圧に応じて撮像指示が出力され、撮像部１による撮像と、操作音生成部３による操作音信号ＳＴの出力が行われる。

画像／文字変換部４では、撮像部１により撮像された画像から文字列の画像が抽出され、それらの文字列の画像が文字情報ＣＲ＿０、ＣＲ＿１、…に変換される。また、画像／文字変換部４では、文字情報ＣＲ＿０、ＣＲ＿１、…の各々について、撮像部１の視野内における各文字情報に対応した画像の位置を示す位置情報Ｐ＿０、Ｐ＿１、…が出力される。

文字／音声変換部５では、着目文字検出部５２が画像／文字変換部４から出力された位置情報Ｐ＿０、Ｐ＿１、…を着目位置情報と比較し、文字情報ＣＲ＿０、ＣＲ＿１、…のうち利用者が着目している文字列の文字情報を検出する。音声合成部５１は、画像／文字変換部４から出力された文字情報ＣＲ＿０、ＣＲ＿１、…を音声情報Ｓ＿０、Ｓ＿１、…に各々変換する。その際、音声合成部５１は、着目位置の文字列の画像から得られた文字情報と、着目位置の文字列の画像以外の文字列の画像から得られた文字情報とを聴覚により区別することが容易な音声情報に変換する。例えば前者の音声情報の明瞭度を後者の音声情報の明瞭度よりも高くする、といった具合である。

音像定位部６は、文字／音声変換部５から出力された音声情報Ｓ＿０、Ｓ＿１、…に対し、位置情報Ｐ＿０、Ｐ＿１、…が示す各位置に音像を定位させる音像定位処理を施し、左右２チャネルの音声信号を出力する。また、音像定位部６は、操作音生成部３から出力された操作音信号ＳＴに対し、操作音の種類に応じた音像定位処理を施し、左右２チャネルの音声信号を出力する。例えば操作音信号ＳＴが「カシャ」という撮像音の操作音信号である場合、音像定位部６は、音像を撮像方向に沿って遠ざける音像移動処理を操作音信号ＳＴに施す。

音像定位部６から出力される左右２チャネルの音声信号は、加算部７により同一チャネル同士が加算され、その結果得られる左右２チャネルの音声信号がイヤホン８Ｌ、８Ｒから利用者の左右の耳に放音される。

その結果、利用者は、撮像部１により撮像された視野内の複数の文字列を示す複数の音声を聴くこととなる。その際、利用者は、着目位置の文字列に対応した音声と、着目位置の文字列でない文字列に対応した音声とを区別して聴き取ることができる。従って、利用者は、着目位置の文字列に対応した音声を聴き取ることにより、その着目位置の文字列の内容を音声で認識することができる。ここで、着目位置の文字列が利用者の意図した文字列であった場合、利用者は目的と達成したことになる。着目位置の文字列が利用者の意図した文字列でない場合であっても、利用者の耳には、その周囲の文字列に対応した音声が聴こえる。このため、利用者は、着目位置の周囲に利用者の意図した文字列があることに気が付く可能性が高い。利用者は、現在の着目位置の周囲に意図した文字列のあることに気が付いた場合、視線を周囲に移動させ、例えば瞬きをすることにより撮像指示を発生させる。この結果、撮像部１による再度の撮像が行われ、利用者は、撮像部１により撮像された視野内の複数の文字列を示す複数の音声を聴くこととなる。この場合において、着目位置の文字列が利用者の意図した文字列であった場合、利用者は目的と達成したことになる。このように本実施形態によれば、利用者は、撮像部１によって撮像される複数の文字列を取捨選択し、所望の文字列を認識することができる。

また、本実施形態において、撮像部１により撮像された複数の文字列に対応した複数の音声は、撮像部１の視野内の各文字列の位置に定位した状態で利用者に聴取される。従って、利用者は、着目位置の周囲に意図した文字列があることに気が付いた場合に、意図した文字列に対応した音声の音像位置から意図した文字列の視野内における位置を知ることができ、その位置に着目位置を移動させることができる。従って、本実施形態によれば、利用者は、撮像部１の視野内における自分の意図する文字列の所在位置を容易に捜索することができる。

また、本実施形態において、撮像音を示す操作音信号ＳＴに対して音像移動処理が行われ、音像位置が撮像部１の撮像方向に沿って遠ざかる撮像音が発音される。従って、利用者は、撮像部１の撮像方向（撮像部１の正面方向）を知ることができる。

＜他の実施形態＞
以上、この発明の一実施形態について説明したが、この発明には他にも実施形態が考えられる。例えば次の通りである。

（１）上記実施形態において、着目位置検出部２を省略し、撮像部１の撮像範囲の中心（すなわち、正面）を着目位置としてもよい。この場合、文字情報提供装置は、撮像モードとして手動撮像モードのみを有する装置となる。着目位置検出部２を省略した態様においても、利用者は頭部を動かす等により正面方向を変えることにより着目位置を変え、文字列の取捨選択をすることが可能である。また、着目位置検出部２を省略した態様において、操作子の操作により着目位置の文字列を切り換えるようにしてもよい。例えば本体１０１に着目位置変更ボタンを設ける。初期状態では、着目位置を正面とし、文字／音声変換部５は、正面の文字列の音声情報とそれ以外の文字列の音声情報との間に例えば明瞭度の高低差を生じさせる。そして、着目位置変更ボタンが押されると、文字／音声変換部５は、現在の着目位置（初期状態では正面）の文字列の周囲の別の文字列に着目位置を移動し、着目位置の文字列の音声情報とそれ以外の文字列の音声情報との間に例えば明瞭度の高低差を生じさせる。以下、同様であり、文字／音声変換部５は、着目位置変更ボタンが押される都度、着目位置を移動するのである。この態様によれば、着目位置変更ボタンの操作により着目位置を切り換え、複数の文字列の取捨選択を効率的に行うことができる。

（２）上記実施形態では、撮像部１の撮像方向を知らせるために、操作音の音像位置を撮像方向に沿って移動させたが、任意の音の音像位置を撮像方向に沿って移動させてもよい。例えば撮像部１の撮像範囲の中心にある文字列の画像に対応した音声の音像を撮像方向に沿って移動させてもよい。

（３）上記実施形態において、音像定位部６は、着目位置にある文字列に対応した音声を利用者の頭内に定位させてもよい。

（４）上記実施形態において、上下方向の定位の制御手段として有用なノッチフィルタを音像定位部６に設け、着目位置にある文字列に対応した音声を頭上から聴こえるように再生してもよい。

（５）上記実施形態において、外部装置と情報の授受を行うインタフェースを文字情報提供装置１００に設け、このインタフェースにゲーム機や携帯電話機を接続するようにしてもよい。この場合において、インタフェースに接続された携帯電話機の通話相手からの音声を例えば頭内定位させてイヤホン８Ｌ、８Ｒから放音し、音声合成部５１が出力する利用者の着目位置の文字列の音声情報を携帯電話機の通話相手に送信するようにしてもよい。あるいはインタフェースに接続されたゲーム機が発生する操作音信号を文字情報提供装置１００の音像定位部６に送り、この操作音信号に音像を頭内定位させる音像定位処理を施して加算部７に出力させてもよい。

（６）上記実施形態において、音像定位部を省略してもよい。この場合、着目位置の文字列の音声情報とそれ以外の文字列の音声情報に明瞭度の差を生じさせ、同じ位置（例えば正面）に定位させるようにしてもよい。

（７）上記実施形態では、着目位置の文字列に対応した音声情報と、着目位置の文字列以外の文字列に対応した音声情報との聴覚による区別を容易にする処理を文字／音声変換部５が実行した。しかし、この処理を音像定位部６に実行させてもよい。例えば、音像定位部６が、着目位置の文字列に対応した音声情報に比べて、着目位置の文字列以外の文字列に対応した音声情報の定位音像を曖昧にする、といった態様が考えられる。

（８）上記実施形態において、撮像部１はカメラ１１１により静止画を撮像してもよく、動画を撮像してもよい。撮像部１が動画を撮像する場合、例えば着目位置検出部２が出力する着目位置情報に所定限度を越える大きな変化が生じたときに画像／文字変換部４が動画の例えば１フレームから文字列の画像を抽出して文字情報および位置情報を生成し、音声変換部５が文字情報に対応した音声情報を出力し、音像定位部６が音像定位処理を行うようにしてもよい。

（９）上記実施形態において、文字情報提供装置１００の各種の機能を実現するための回路を幅広部１０４に搭載する代わりに、外部装置として文字情報提供装置１００に接続してもよい。この場合、外部装置を文字情報提供装置１００に対して着脱が可能な携帯型の装置としてもよい。

（１０）上記実施形態において、送信部と受信部とからなる通信装置を文字情報提供装置１００に設け、画像／文字変換部４、文字／音声変換部５、音像定位部６等の少なくとも一部の処理をクラウドを利用して行うようにしてもよい。例えば着目位置情報と画像／文字変換部４が出力する複数の文字列の文字情報と位置情報とを送信部から送信して、クラウドに文字／音声変換部５と音像定位部６と加算部７の処理を実行させ、この結果得られる左右２チャネルの音声信号を受信部により受信し、イヤホン８Ｌおよび８Ｒから放音する、といった態様が考えられる。

（１１）上記実施形態では、この発明を文字情報提供装置１００として実施したが、この発明は文字情報提供方法としても実施され得る。図３はこの発明の一実施形態である文字情報提供方法を示すフローチャートである。この文字情報提供方法では、画像を撮像する撮像処理（ステップＳ１）と、撮像処理により撮像された画像に含まれる文字の画像を文字情報に変換する画像／文字変換処理（ステップＳ２）と、撮像処理により撮像された画像のうち着目位置の文字の画像から得られた文字情報と、撮像処理により撮像された画像のうち着目位置の文字の画像以外の文字の画像から得られた文字情報とを聴覚により区別することが容易な音声情報に変換する文字／音声変換処理（ステップＳ３）とを実行する。具体的には、撮像処理（ステップＳ１）は、上記実施形態の撮像部１により実行された処理が該当し、画像／文字変換処理（ステップＳ２）は上記実施形態の画像／文字変換部４により実行された処理が該当し、文字／音声変換処理（ステップＳ３）は上記実施形態の文字／音声変換部５により実行された処理が該当する。ステップＳ１〜Ｓ３の各処理は、同じ装置が実行してもよく、異なる装置が実行してもよい。また、ステップＳ１〜Ｓ３の各処理は、何らかの操作子の操作をトリガとして１回実行してもよく、停止の指示が与えられるまで繰り返し実行してもよい。また、文字／音声変換処理（ステップＳ３）の後処理として、上記実施形態の音像定位部６により実行された音像定位処理を実行してもよい。また、文字情報提供方法を構成する各処理の少なくとも一部をクラウドを利用して実行してもよい。

１００……文字情報提供装置、１……撮像部、２……着目位置検出部、３……操作音生成部、４……画像／文字変換部、５……文字／音声変換部、５１……音声合成部、５２……着目文字検出部、６……音像定位部、７……加算部、８Ｌ，８Ｒ……イヤホン、９……操作検出部、１０１……本体、１０２……リム、１０３……鼻パッド、１０４……テンプル、１０４Ａ……幅広部、１０５……イヤピース、１０６……撮像ボタン、１１１，１１２……カメラ。

Claims

画像を撮像する撮像手段と、
前記撮像手段により撮像された画像に含まれる文字の画像を文字情報に変換する画像／文字変換手段と、
前記撮像手段により撮像された画像のうち着目位置の文字の画像から得られた文字情報と、前記撮像手段により撮像された画像のうち前記着目位置の文字の画像以外の文字の画像から得られた文字情報とを聴覚により区別することが容易な音声情報に変換する文字／音声変換手段と
を具備することを特徴とする文字情報提供装置。
前記着目位置を検出する着目位置検出手段を具備することを特徴とする請求項１に記載の文字情報提供装置。
前記文字／音声変換手段は、前記着目位置の文字の画像から得られた文字情報に対応する音声情報の明瞭度と、前記着目位置の画像以外の文字の画像から得られた文字情報に対応する音声情報の明瞭度とに高低差を生じさせることを特徴とする請求項１または２に記載の文字情報提供装置。
前記文字／音声変換手段により得られた音声情報の各々について、当該音声情報に対応した文字の画像の位置に音像を定位させる音像定位手段を具備することを特徴とする請求項１〜３のいずれか１の請求項に記載の文字情報提供装置。
音信号を発生する音信号発生手段と、
前記音信号の音像を前記撮像手段の撮像方向に沿って移動させる音像移動手段を具備することを特徴とする請求項１〜４のいずれか１の請求項に記載の文字情報提供装置。
画像を撮像する撮像処理と、
前記撮像処理により撮像された画像に含まれる文字の画像を文字情報に変換する画像／文字変換処理と、
前記撮像処理により撮像された画像のうち着目位置の文字の画像から得られた文字情報と、前記撮像処理により撮像された画像のうち前記着目位置の文字の画像以外の文字の画像から得られた文字情報とを聴覚により区別することが容易な音声情報に変換する文字／音声変換処理と
を具備することを特徴とする文字情報提供方法。