JP2019096220A - 文字情報提供装置および方法 - Google Patents

文字情報提供装置および方法 Download PDF

Info

Publication number
JP2019096220A
JP2019096220A JP2017227024A JP2017227024A JP2019096220A JP 2019096220 A JP2019096220 A JP 2019096220A JP 2017227024 A JP2017227024 A JP 2017227024A JP 2017227024 A JP2017227024 A JP 2017227024A JP 2019096220 A JP2019096220 A JP 2019096220A
Authority
JP
Japan
Prior art keywords
character
image
information
imaging
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017227024A
Other languages
English (en)
Inventor
真史 権瓶
Masashi Gompei
真史 権瓶
紀行 畑
Noriyuki Hata
紀行 畑
和也 粂原
Kazuya Kumehara
和也 粂原
関根 聡
Satoshi Sekine
聡 関根
圭佑 島影
Keisuke SHIMAKAGE
圭佑 島影
義弘 淺野
Yoshihiro Asano
義弘 淺野
秀樹 鶴岡
Hideki Tsuruoka
秀樹 鶴岡
堅大 田中
Kenta Tanaka
堅大 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oton Glass Inc
Yamaha Corp
Original Assignee
Oton Glass Inc
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oton Glass Inc, Yamaha Corp filed Critical Oton Glass Inc
Priority to JP2017227024A priority Critical patent/JP2019096220A/ja
Publication of JP2019096220A publication Critical patent/JP2019096220A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 利用者が周囲環境の中の複数の文字列を取捨選択し、所望の文字列を認識することを可能にする。【解決手段】 文字情報提供装置100は、眼鏡型の装置である。撮像部1は、利用者の前方の画像を撮像する。着目位置検出部2は、撮像部1の視野内における利用者の着目位置を検出する。画像/文字変換部4は、撮像部1により撮像された画像に含まれる文字の画像を文字情報に変換する。文字/音声変換部5は、撮像部4により撮像された画像のうち着目位置の文字の画像から得られた文字情報と、着目位置の文字の画像以外の文字の画像から得られた文字情報とを聴覚により区別することが容易な音声情報に変換する。文字/音声変換部5により得られた音声情報は、音像定位部6、加算部7の処理を経て左右のイヤホン8L、8Rに出力される。【選択図】図1

Description

この発明は、視覚障害者等のために文字情報を音声に変換して提供する文字情報提供装置および方法に関する。
この種の技術に関する文献として例えば非特許文献1がある。この非特許文献1に開示された技術では、利用者の周囲の画像をカメラにより撮像し、このカメラにより撮像された画像に含まれる文字の画像の文字認識を行い、認識した文字を示す音声を利用者に提供する。
視覚障害者のための環境文字情報提供システムの検討、岩村雅一、宮田武嗣、程征、田井中渓志、黄瀬浩一、情報処理学会研究報告、2016年7月30日発表
ところで、例えば駅等の公共施設に複数の案内表示等が設置されている場合、あるいは複数の記事が配列された新聞を目の前にする場合等、複数の文字列が利用者の周囲環境に現れる場合がある。このような場合、利用者としては、周囲環境の中の複数の文字列を取捨選択し、複数の文字列の中の所望の文字列を認識したいところである。しかしながら、非特許文献1に開示の技術やその他の従来の技術の中には、このような要求に応えることができるものがなかった。
この発明は以上のような事情に鑑みてなされたものであり、利用者が周囲環境の中の複数の文字列を取捨選択し、所望の文字列を認識することを可能にする技術的手段を提供することを目的とする。
この発明は、画像を撮像する撮像手段と、前記撮像手段により撮像された画像に含まれる文字の画像を文字情報に変換する画像/文字変換手段と、前記撮像手段により撮像された画像のうち着目位置の文字の画像から得られた文字情報と、前記撮像手段により撮像された画像のうち前記着目位置の文字の画像以外の文字の画像から得られた文字情報とを聴覚により区別することが容易な音声情報に変換する文字/音声変換手段とを具備することを特徴とする文字情報提供装置を提供する。
この発明によれば、文字/音声変換手段は、撮像手段により撮像された画像のうち着目位置の文字の画像から得られた文字情報と、撮像手段により撮像された画像のうち着目位置の文字の画像以外の文字の画像から得られた文字情報とを聴覚により区別することが容易な音声情報に変換するので、利用者は、複数の文字の画像に対応した音声情報を聴取しつつ、着目位置の文字の画像に対応した音声情報を他の音声情報と区別して認識することができる。従って、この発明によれば、利用者は、撮像手段によって撮像される複数の文字列を取捨選択し、所望の文字列を認識することができる。
この発明の一実施形態である文字情報提供装置の構成を示すブロック図である。 同文字情報提供装置の外観を示す図である。 この発明の一実施形態である文字情報提供方法を示すフローチャートである。
以下、図面を参照し、この発明の実施形態について説明する。
図1はこの発明の一実施形態である文字情報提供装置100の構成を示すブロック図である。また、図2(a)および(b)は文字情報提供装置100の外観を示す図であり、図2(a)は斜視図、図2(b)は側面図である。
図2(a)および(b)に示すように、文字情報提供装置100は、眼鏡フレームの形態の本体101と、この本体101に設けられた各種の装置からなる装置である。通常の眼鏡フレームと同様、本体101は、レンズを支持する2個のリム102と、2個のリム102の間の下部に設けられた鼻パッド103と、各々の一端が2個のリム102に接続された2本の棒状のテンプル104と、2本のテンプル104の他端に設けられた2個のイヤピース105を有する。利用者は、通常の眼鏡を掛ける場合と同様に、鼻パッド103を自分の鼻に載せ、2個のイヤピース105を自分の両耳に載せ、2個のリム102によって支持された2個のレンズを自分の両眼の前に位置させて、文字情報提供装置100を利用する。
2個のリム102の各々の上縁には、カメラ111および112が設けられている。ここで、カメラ111は、利用者の顔面が向いた方向の所定範囲(視野)内の画像を撮像するカメラである。また、カメラ112は、利用者の眼球を撮像するカメラである。なお、カメラ111および112は、2個のリム102の一方のみに設けてもよい。
本実施形態において、カメラ112は、利用者の視線の方向を求めるための手段として使用される。また、カメラ112は、利用者が瞬きをするのを検知するための手段としても使用される。本実施形態では、カメラ112により撮像された画像に基づいて利用者が瞬きするのを検知し、この瞬きが検知されたタイミングにおいて、カメラ111による撮像を行うことが可能である。
また、2個のリム102の一方の上縁の上面には、撮像ボタン106が設けられている。利用者は、上述のように、瞬きをする他、この撮像ボタン106を押圧することによっても、カメラ111による撮像を指示することができる。
利用者は、本体101に設けられた不図示の操作子を操作することにより、撮像に関する動作モードとして、瞬きの検知により撮像を行う瞬き撮像モードまたは撮像ボタン106の操作に応じて撮像を行う手動撮像モードの一方を設定することが可能である。なお、このような撮像の制御を行うための手段については後述する。
2本のテンプル104のリム102寄りの部分は、幅広部分104Aとなっており、この幅広部分104Aには、文字情報提供装置100の各種の機能を実現するための回路が搭載されている。そして、2本のテンプル104の幅広部分104Aには、利用者の左右の耳に挿入される左右2チャネルのイヤホン8L、8Rがケーブルを介して接続されている。
図1には、テンプル104のリム102寄りの幅広部分104Aに搭載された回路がイヤホン8L、8Rとともに示されている。この図1に示す回路は、2つの幅広部分104Aの一方のみに搭載してもよいし、両方に分散して搭載してもよい。
図1において、撮像部1は、図2のカメラ111により、利用者の顔の前方の領域である視野を撮像する撮像手段である。また、着目位置検出部2は、図2のカメラ112により利用者の眼球を撮像し、利用者の眼球の画像を解析することにより利用者の視線の先にある着目位置を検出し、撮像部1の視野内における着目位置を示す着目位置情報を出力する手段である。また、着目位置検出部2は、カメラ112により撮像された画像に基づいて、着目位置を検出することに加えて、利用者が瞬きをするのを検出することが可能である。
操作検出部9は、図2に示す撮像ボタン106等、文字情報提供装置100に設けられた各種の操作子(撮像ボタン106以外は図示略)の操作を検出する手段である。上述した手動撮像モードが設定されている場合、操作検出部9は、撮像ボタン106の押圧操作を検知したときに撮像指示を撮像部1および操作音生成部3に送る。一方、上述した瞬き撮像モードが設定されている場合には、着目位置検出部2が利用者の瞬きを検知したときに撮像指示を撮像部1および操作音生成部3に送る。撮像部1は、操作検出部9または着目位置検出部2から与えられる撮像指示に応じて、カメラ111による撮像を行う。上述した手動撮像モードが設定されている場合、撮像部1により撮像される画像における着目位置は、カメラ111の正面になる。一方、上述した瞬き撮像モードが設定されている場合、撮像部1により撮像される画像における着目位置は、着目位置検出部2により検出された着目位置となる。
操作音生成部3は、各種の操作音信号STを生成する手段である。例えば着目位置検出部2または操作検出部9が撮像指示を出力するとき、操作音生成部3は、「カシャ」という撮像音を示す操作音信号STを出力する。その他、操作音生成部3は、操作検出部9が各種の操作子の操作を検知したとき、その操作子の操作音を示す操作音信号STを出力する。
画像/文字変換部4は、撮像部1により撮像された画像から文字の画像を抽出し、それらの文字の画像を文字の内容を示す文字情報CR_0、CR_1、…に変換するとともに、視野内における文字の画像の所在位置を示す位置情報P_0、P_1、…を出力する。さらに詳述すると、画像/文字変換部4は、撮像された画像の中から文字の画像を抽出し、複数の文字を抽出した場合には、それらの文字を、例えば「駅」等、単独で何等かの意味を表す1つの文字、あるいは「国会議事堂」等、互いに隣接した文字が一体となって何らかの意味を表す文字列に分ける。通常、前者の場合よりも後者の場合の方が多いので、画像/文字変換部4の抽出対象は、一般的には複数の文字からなる文字列となる。この文字列は、水平方向に並んだ複数の文字からなるものであってもよく、垂直方向に並んだ複数の文字からなるものであってもよい。文字列における文字の並び方向は任意である。そして、詳細には、文字情報は、抽出した文字列を構成する個々の文字の内容を示す情報となる。また、位置情報は、抽出した文字列を構成する個々の文字の画像の所在位置を示す情報となる。なお、画像から文字情報と位置情報を生成する手法に関しては、公知の手法を利用可能である。
文字/音声変換部5は、音声合成部51と、着目文字検出部52とを有する。着目文字検出部52は、画像/文字変換部4が出力する位置情報P_0、P_1、…を、着目位置検出部2が出力する着目位置情報と比較し、各文字情報のうち利用者が着目している文字の画像に対応した文字情報を検出する。さらに詳述すると、画像/文字変換部4がある文字列を画像から抽出して文字情報C_nと位置情報P_nを出力する場合、文字情報C_nは抽出した文字列を構成する各文字の内容を示す文字情報を含み、位置情報P_nは抽出した文字列を構成する各文字の位置情報を含む。そこで、着目文字検出部52は、これらの各文字の位置情報の中に着目位置情報を中心とした所定範囲内に収まる位置情報があるか否かを判断することにより、当該文字列が利用者の着目している文字列か否かを判断する。着目文字検出部52は、このような判断を画像/文字変換部4が出力する全ての文字列の位置情報P_0、P_1、…について実行し、各文字情報のうち利用者が着目している文字列の画像に対応した文字情報を検出するのである。
音声合成部51は、画像/文字変換部4が出力する文字情報CR_0、CR_1、…を音声情報に各々変換する。その際、音声合成部51は、着目位置の文字列の画像から得られた文字情報と、着目位置の文字列の画像以外の文字列の画像から得られた文字情報とを聴覚により区別することが容易な音声情報に変換する。
この音声合成部51の処理に関しては、各種の態様があり得る。ある好ましい態様において、音声合成部51は、着目位置の文字列から得られる音声情報の明瞭度とそうでない文字列から得られる音声情報の明瞭度とに高低差を生じさせる。この場合、着目位置の文字列から得られる音声情報とそうでない文字列から得られる音声情報のいずれの明瞭度を調整するかは任意である。すなわち、着目位置の文字列から得られる音声情報の明瞭度をそうでない文字列から得られる音声情報の明瞭度より高くしてもよいし、着目位置の文字列から得られる音声情報の明瞭度よりもそうでない文字列から得られる音声情報の明瞭度を低くしてもよい。明瞭度の調整方法としては、例えば次の方法があり得る。第1の方法では、着目位置の文字列から得られる音声情報の周波数特性とそうでない文字列から得られる音声情報の周波数特性を調整して明瞭度に差を設ける。例えば着目位置の文字列以外の文字列から得られる音声情報(この場合、音声波形を示す信号)の高域成分を除去し、着目位置の文字列から得られる音声情報よりも明瞭度を低下させる。第2の方法では、音量の調整により着目位置の文字列から得られる音声情報の明瞭度をそうでない文字列から得られる音声情報の明瞭度よりも高くする。例えば着目位置の文字列から得られる音声情報の音量をそうでない文字列から得られる音声情報の音量よりも大きくして明瞭度に差を設ける。
他の好ましい態様では、子音、母音等の各種の音声素片を時間軸上において繋げて音声合成を行う場合に、音声合成に用いる音声素片の声質を変えることにより、着目位置の文字列に対応した音声情報と、着目位置の文字列以外の文字列に対応した音声情報とを聴覚により区別できるようにする。例えば着目位置の文字列については、女性の声の音声素片を用いて音声合成を行い、着目位置の文字列以外の文字列については、男性の声の音声素片を用いて音声合成を行うという具合である。あるいは着目位置の文字列については、透明感のある声の音声素片を用いて音声合成を行い、着目位置の文字列以外の文字列については、ハスキーな声の音声素片を用いて音声合成を行ってもよい。
その他、発音タイミングの調整により、着目位置の文字列に対応した音声情報と、着目位置の文字列以外の文字列に対応した音声情報とを聴覚により区別できるようにしてもよい。例えば着目位置の文字列以外の各文字列について、同じタイミングまたは接近したタイミングにおいて音声を発音し、それから遅れたタイミングにおいて、着目位置の文字列に対応した音声を発音する、という具合である。あるいは、発音速度の調整により着目位置の文字列に対応した音声情報と、着目位置の文字列以外の文字列に対応した音声情報とを聴覚により区別できるようにしてもよい。例えば着目位置の文字列は、ゆっくり聞きやすい速度で発音し、それ以外の文字列はスピードを速めて発音する、という具合である。
音像定位部6は、文字/音声変換部5が出力する音声情報S_0、S_1、…と、操作音生成部3が出力する操作音信号STの音像定位処理を行って、左右2チャネルの音声信号を生成する。その際、音声情報S_0、S_1、…については、各々に対応した位置情報P_0、P_1、…が示す位置への音像定位を行う。ここで、ある位置情報P_nが複数の文字からなる文字列の位置情報である場合、この位置情報は文字列を構成する複数の文字の位置情報を含む。そこで、音像定位部6は、この文字列を構成する複数の文字の位置情報を例えば平均化し、音声情報S_nの音像定位に使用する。また、音像定位部6は、操作音信号STについては、操作音の種類に応じた音像定位を行う。例えば操作音信号STのうち撮像指示により発生した操作音信号STについては、音像の位置を撮像部1の撮像方向に沿って利用者から遠ざける音像移動処理を実行する。
加算部7は、音像定位部6が音声情報S_0、S_1、…と操作音信号STの各々について出力する左右2チャネルの音声信号を同じチャネル同士加算し、加算結果である左チャネルの音声信号を利用者の左耳に挿入されるイヤホン8Lに供給し、加算結果である右チャネルの音声信号を利用者の右耳に挿入されるイヤホン8Rに供給する。
以上が本実施形態による文字情報提供装置100の詳細である。
次に本実施形態の動作を説明する。本実施形態において、利用者は、眼鏡を掛けるのと同様に、文字情報提供装置100を頭部に装着する。着目位置検出部2は、カメラ112により利用者の眼球を撮像し、撮像部1の視野内における利用者の着目位置を検出し、着目位置情報を出力する。具体的には、着目位置検出部2は、2台のカメラ112により撮像された両眼の眼球画像から視線の方向と焦点までの距離を算出することにより着目位置を検出する。瞬き撮像モードが設定されている場合、着目位置検出部2が利用者の瞬きを検出すると、撮像指示が撮像部1に送られ、撮像部1はカメラ111により利用者の顔の前方の画像を撮像する。このとき、操作音生成部3は、撮像指示に応じて、「カシャ」という撮像音を示す操作音信号STを出力する。一方、手動撮像モードが設定されている場合は、撮像ボタン106の押圧に応じて撮像指示が出力され、撮像部1による撮像と、操作音生成部3による操作音信号STの出力が行われる。
画像/文字変換部4では、撮像部1により撮像された画像から文字列の画像が抽出され、それらの文字列の画像が文字情報CR_0、CR_1、…に変換される。また、画像/文字変換部4では、文字情報CR_0、CR_1、…の各々について、撮像部1の視野内における各文字情報に対応した画像の位置を示す位置情報P_0、P_1、…が出力される。
文字/音声変換部5では、着目文字検出部52が画像/文字変換部4から出力された位置情報P_0、P_1、…を着目位置情報と比較し、文字情報CR_0、CR_1、…のうち利用者が着目している文字列の文字情報を検出する。音声合成部51は、画像/文字変換部4から出力された文字情報CR_0、CR_1、…を音声情報S_0、S_1、…に各々変換する。その際、音声合成部51は、着目位置の文字列の画像から得られた文字情報と、着目位置の文字列の画像以外の文字列の画像から得られた文字情報とを聴覚により区別することが容易な音声情報に変換する。例えば前者の音声情報の明瞭度を後者の音声情報の明瞭度よりも高くする、といった具合である。
音像定位部6は、文字/音声変換部5から出力された音声情報S_0、S_1、…に対し、位置情報P_0、P_1、…が示す各位置に音像を定位させる音像定位処理を施し、左右2チャネルの音声信号を出力する。また、音像定位部6は、操作音生成部3から出力された操作音信号STに対し、操作音の種類に応じた音像定位処理を施し、左右2チャネルの音声信号を出力する。例えば操作音信号STが「カシャ」という撮像音の操作音信号である場合、音像定位部6は、音像を撮像方向に沿って遠ざける音像移動処理を操作音信号STに施す。
音像定位部6から出力される左右2チャネルの音声信号は、加算部7により同一チャネル同士が加算され、その結果得られる左右2チャネルの音声信号がイヤホン8L、8Rから利用者の左右の耳に放音される。
その結果、利用者は、撮像部1により撮像された視野内の複数の文字列を示す複数の音声を聴くこととなる。その際、利用者は、着目位置の文字列に対応した音声と、着目位置の文字列でない文字列に対応した音声とを区別して聴き取ることができる。従って、利用者は、着目位置の文字列に対応した音声を聴き取ることにより、その着目位置の文字列の内容を音声で認識することができる。ここで、着目位置の文字列が利用者の意図した文字列であった場合、利用者は目的と達成したことになる。着目位置の文字列が利用者の意図した文字列でない場合であっても、利用者の耳には、その周囲の文字列に対応した音声が聴こえる。このため、利用者は、着目位置の周囲に利用者の意図した文字列があることに気が付く可能性が高い。利用者は、現在の着目位置の周囲に意図した文字列のあることに気が付いた場合、視線を周囲に移動させ、例えば瞬きをすることにより撮像指示を発生させる。この結果、撮像部1による再度の撮像が行われ、利用者は、撮像部1により撮像された視野内の複数の文字列を示す複数の音声を聴くこととなる。この場合において、着目位置の文字列が利用者の意図した文字列であった場合、利用者は目的と達成したことになる。このように本実施形態によれば、利用者は、撮像部1によって撮像される複数の文字列を取捨選択し、所望の文字列を認識することができる。
また、本実施形態において、撮像部1により撮像された複数の文字列に対応した複数の音声は、撮像部1の視野内の各文字列の位置に定位した状態で利用者に聴取される。従って、利用者は、着目位置の周囲に意図した文字列があることに気が付いた場合に、意図した文字列に対応した音声の音像位置から意図した文字列の視野内における位置を知ることができ、その位置に着目位置を移動させることができる。従って、本実施形態によれば、利用者は、撮像部1の視野内における自分の意図する文字列の所在位置を容易に捜索することができる。
また、本実施形態において、撮像音を示す操作音信号STに対して音像移動処理が行われ、音像位置が撮像部1の撮像方向に沿って遠ざかる撮像音が発音される。従って、利用者は、撮像部1の撮像方向(撮像部1の正面方向)を知ることができる。
<他の実施形態>
以上、この発明の一実施形態について説明したが、この発明には他にも実施形態が考えられる。例えば次の通りである。
(1)上記実施形態において、着目位置検出部2を省略し、撮像部1の撮像範囲の中心(すなわち、正面)を着目位置としてもよい。この場合、文字情報提供装置は、撮像モードとして手動撮像モードのみを有する装置となる。着目位置検出部2を省略した態様においても、利用者は頭部を動かす等により正面方向を変えることにより着目位置を変え、文字列の取捨選択をすることが可能である。また、着目位置検出部2を省略した態様において、操作子の操作により着目位置の文字列を切り換えるようにしてもよい。例えば本体101に着目位置変更ボタンを設ける。初期状態では、着目位置を正面とし、文字/音声変換部5は、正面の文字列の音声情報とそれ以外の文字列の音声情報との間に例えば明瞭度の高低差を生じさせる。そして、着目位置変更ボタンが押されると、文字/音声変換部5は、現在の着目位置(初期状態では正面)の文字列の周囲の別の文字列に着目位置を移動し、着目位置の文字列の音声情報とそれ以外の文字列の音声情報との間に例えば明瞭度の高低差を生じさせる。以下、同様であり、文字/音声変換部5は、着目位置変更ボタンが押される都度、着目位置を移動するのである。この態様によれば、着目位置変更ボタンの操作により着目位置を切り換え、複数の文字列の取捨選択を効率的に行うことができる。
(2)上記実施形態では、撮像部1の撮像方向を知らせるために、操作音の音像位置を撮像方向に沿って移動させたが、任意の音の音像位置を撮像方向に沿って移動させてもよい。例えば撮像部1の撮像範囲の中心にある文字列の画像に対応した音声の音像を撮像方向に沿って移動させてもよい。
(3)上記実施形態において、音像定位部6は、着目位置にある文字列に対応した音声を利用者の頭内に定位させてもよい。
(4)上記実施形態において、上下方向の定位の制御手段として有用なノッチフィルタを音像定位部6に設け、着目位置にある文字列に対応した音声を頭上から聴こえるように再生してもよい。
(5)上記実施形態において、外部装置と情報の授受を行うインタフェースを文字情報提供装置100に設け、このインタフェースにゲーム機や携帯電話機を接続するようにしてもよい。この場合において、インタフェースに接続された携帯電話機の通話相手からの音声を例えば頭内定位させてイヤホン8L、8Rから放音し、音声合成部51が出力する利用者の着目位置の文字列の音声情報を携帯電話機の通話相手に送信するようにしてもよい。あるいはインタフェースに接続されたゲーム機が発生する操作音信号を文字情報提供装置100の音像定位部6に送り、この操作音信号に音像を頭内定位させる音像定位処理を施して加算部7に出力させてもよい。
(6)上記実施形態において、音像定位部を省略してもよい。この場合、着目位置の文字列の音声情報とそれ以外の文字列の音声情報に明瞭度の差を生じさせ、同じ位置(例えば正面)に定位させるようにしてもよい。
(7)上記実施形態では、着目位置の文字列に対応した音声情報と、着目位置の文字列以外の文字列に対応した音声情報との聴覚による区別を容易にする処理を文字/音声変換部5が実行した。しかし、この処理を音像定位部6に実行させてもよい。例えば、音像定位部6が、着目位置の文字列に対応した音声情報に比べて、着目位置の文字列以外の文字列に対応した音声情報の定位音像を曖昧にする、といった態様が考えられる。
(8)上記実施形態において、撮像部1はカメラ111により静止画を撮像してもよく、動画を撮像してもよい。撮像部1が動画を撮像する場合、例えば着目位置検出部2が出力する着目位置情報に所定限度を越える大きな変化が生じたときに画像/文字変換部4が動画の例えば1フレームから文字列の画像を抽出して文字情報および位置情報を生成し、音声変換部5が文字情報に対応した音声情報を出力し、音像定位部6が音像定位処理を行うようにしてもよい。
(9)上記実施形態において、文字情報提供装置100の各種の機能を実現するための回路を幅広部104に搭載する代わりに、外部装置として文字情報提供装置100に接続してもよい。この場合、外部装置を文字情報提供装置100に対して着脱が可能な携帯型の装置としてもよい。
(10)上記実施形態において、送信部と受信部とからなる通信装置を文字情報提供装置100に設け、画像/文字変換部4、文字/音声変換部5、音像定位部6等の少なくとも一部の処理をクラウドを利用して行うようにしてもよい。例えば着目位置情報と画像/文字変換部4が出力する複数の文字列の文字情報と位置情報とを送信部から送信して、クラウドに文字/音声変換部5と音像定位部6と加算部7の処理を実行させ、この結果得られる左右2チャネルの音声信号を受信部により受信し、イヤホン8Lおよび8Rから放音する、といった態様が考えられる。
(11)上記実施形態では、この発明を文字情報提供装置100として実施したが、この発明は文字情報提供方法としても実施され得る。図3はこの発明の一実施形態である文字情報提供方法を示すフローチャートである。この文字情報提供方法では、画像を撮像する撮像処理(ステップS1)と、撮像処理により撮像された画像に含まれる文字の画像を文字情報に変換する画像/文字変換処理(ステップS2)と、撮像処理により撮像された画像のうち着目位置の文字の画像から得られた文字情報と、撮像処理により撮像された画像のうち着目位置の文字の画像以外の文字の画像から得られた文字情報とを聴覚により区別することが容易な音声情報に変換する文字/音声変換処理(ステップS3)とを実行する。具体的には、撮像処理(ステップS1)は、上記実施形態の撮像部1により実行された処理が該当し、画像/文字変換処理(ステップS2)は上記実施形態の画像/文字変換部4により実行された処理が該当し、文字/音声変換処理(ステップS3)は上記実施形態の文字/音声変換部5により実行された処理が該当する。ステップS1〜S3の各処理は、同じ装置が実行してもよく、異なる装置が実行してもよい。また、ステップS1〜S3の各処理は、何らかの操作子の操作をトリガとして1回実行してもよく、停止の指示が与えられるまで繰り返し実行してもよい。また、文字/音声変換処理(ステップS3)の後処理として、上記実施形態の音像定位部6により実行された音像定位処理を実行してもよい。また、文字情報提供方法を構成する各処理の少なくとも一部をクラウドを利用して実行してもよい。
100……文字情報提供装置、1……撮像部、2……着目位置検出部、3……操作音生成部、4……画像/文字変換部、5……文字/音声変換部、51……音声合成部、52……着目文字検出部、6……音像定位部、7……加算部、8L,8R……イヤホン、9……操作検出部、101……本体、102……リム、103……鼻パッド、104……テンプル、104A……幅広部、105……イヤピース、106……撮像ボタン、111,112……カメラ。

Claims (6)

  1. 画像を撮像する撮像手段と、
    前記撮像手段により撮像された画像に含まれる文字の画像を文字情報に変換する画像/文字変換手段と、
    前記撮像手段により撮像された画像のうち着目位置の文字の画像から得られた文字情報と、前記撮像手段により撮像された画像のうち前記着目位置の文字の画像以外の文字の画像から得られた文字情報とを聴覚により区別することが容易な音声情報に変換する文字/音声変換手段と
    を具備することを特徴とする文字情報提供装置。
  2. 前記着目位置を検出する着目位置検出手段を具備することを特徴とする請求項1に記載の文字情報提供装置。
  3. 前記文字/音声変換手段は、前記着目位置の文字の画像から得られた文字情報に対応する音声情報の明瞭度と、前記着目位置の画像以外の文字の画像から得られた文字情報に対応する音声情報の明瞭度とに高低差を生じさせることを特徴とする請求項1または2に記載の文字情報提供装置。
  4. 前記文字/音声変換手段により得られた音声情報の各々について、当該音声情報に対応した文字の画像の位置に音像を定位させる音像定位手段を具備することを特徴とする請求項1〜3のいずれか1の請求項に記載の文字情報提供装置。
  5. 音信号を発生する音信号発生手段と、
    前記音信号の音像を前記撮像手段の撮像方向に沿って移動させる音像移動手段を具備することを特徴とする請求項1〜4のいずれか1の請求項に記載の文字情報提供装置。
  6. 画像を撮像する撮像処理と、
    前記撮像処理により撮像された画像に含まれる文字の画像を文字情報に変換する画像/文字変換処理と、
    前記撮像処理により撮像された画像のうち着目位置の文字の画像から得られた文字情報と、前記撮像処理により撮像された画像のうち前記着目位置の文字の画像以外の文字の画像から得られた文字情報とを聴覚により区別することが容易な音声情報に変換する文字/音声変換処理と
    を具備することを特徴とする文字情報提供方法。
JP2017227024A 2017-11-27 2017-11-27 文字情報提供装置および方法 Pending JP2019096220A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017227024A JP2019096220A (ja) 2017-11-27 2017-11-27 文字情報提供装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017227024A JP2019096220A (ja) 2017-11-27 2017-11-27 文字情報提供装置および方法

Publications (1)

Publication Number Publication Date
JP2019096220A true JP2019096220A (ja) 2019-06-20

Family

ID=66971812

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017227024A Pending JP2019096220A (ja) 2017-11-27 2017-11-27 文字情報提供装置および方法

Country Status (1)

Country Link
JP (1) JP2019096220A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190098932A (ko) * 2019-08-05 2019-08-23 엘지전자 주식회사 지능적인 tts 제공 방법 및 tts를 제공하는 지능형 컴퓨팅 디바이스

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016194612A (ja) * 2015-03-31 2016-11-17 株式会社ニデック 視覚認識支援装置および視覚認識支援プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016194612A (ja) * 2015-03-31 2016-11-17 株式会社ニデック 視覚認識支援装置および視覚認識支援プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190098932A (ko) * 2019-08-05 2019-08-23 엘지전자 주식회사 지능적인 tts 제공 방법 및 tts를 제공하는 지능형 컴퓨팅 디바이스
KR102318080B1 (ko) 2019-08-05 2021-10-27 엘지전자 주식회사 지능적인 tts 제공 방법 및 tts를 제공하는 지능형 컴퓨팅 디바이스

Similar Documents

Publication Publication Date Title
CN105874408B (zh) 用手势交互的可穿戴式空间音频系统
EP2887697B1 (en) Method of audio signal processing and hearing aid system for implementing the same
US9264824B2 (en) Integration of hearing aids with smart glasses to improve intelligibility in noise
CN107506171B (zh) 音频播放设备及其音效调节方法
JP2017521902A (ja) 取得した音響信号のための回路デバイスシステム及び関連するコンピュータで実行可能なコード
KR101861590B1 (ko) 휴대용 단말기에서 입체 데이터를 생성하기 위한 장치 및 방법
US10142733B2 (en) Head-related transfer function selection device, head-related transfer function selection method, head-related transfer function selection program, and sound reproduction device
AU2021235335B2 (en) Hearing assistance device with smart audio focus control
WO2018000764A1 (zh) 一种声道自动匹配的方法、装置以及耳机
US11843926B2 (en) Audio system using individualized sound profiles
CN114115515A (zh) 用于帮助用户的方法和头戴式单元
JP2016194612A (ja) 視覚認識支援装置および視覚認識支援プログラム
JP6290827B2 (ja) オーディオ信号を処理する方法及び補聴器システム
CN111435574A (zh) 用于重度听障者的沟通辅具系统
JP2019096220A (ja) 文字情報提供装置および方法
CN112951236A (zh) 一种语音翻译设备及方法
US20230143588A1 (en) Bone conduction transducers for privacy
JP2015065541A (ja) 音響制御装置及び方法
JP2016171565A (ja) ウェアラブル装置及び翻訳システム
JP3952870B2 (ja) 音声伝送装置、音声伝送方法及びプログラム
US20240098409A1 (en) Head-worn computing device with microphone beam steering
JP2018125784A (ja) 音声出力装置
EP4304207A1 (en) Information processing device, information processing method, and program
JP2024034347A (ja) 音発生通知装置および音発生通知方法
RU2455700C2 (ru) Мобильный переговорный комплекс для глухонемых людей

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171208

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211019

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220420