JP2021033368A - 読み上げ装置 - Google Patents

読み上げ装置 Download PDF

Info

Publication number
JP2021033368A
JP2021033368A JP2019149047A JP2019149047A JP2021033368A JP 2021033368 A JP2021033368 A JP 2021033368A JP 2019149047 A JP2019149047 A JP 2019149047A JP 2019149047 A JP2019149047 A JP 2019149047A JP 2021033368 A JP2021033368 A JP 2021033368A
Authority
JP
Japan
Prior art keywords
unit
voice
user
speaker
operation input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019149047A
Other languages
English (en)
Inventor
圭佑 島影
Keisuke SHIMAKAGE
圭佑 島影
恵太 宮下
Keita Miyashita
恵太 宮下
友優 佐野
Yuyu Sano
友優 佐野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oton Glass Inc
Original Assignee
Oton Glass Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oton Glass Inc filed Critical Oton Glass Inc
Priority to JP2019149047A priority Critical patent/JP2021033368A/ja
Publication of JP2021033368A publication Critical patent/JP2021033368A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】首かけが可能で片手で操作でき、利便性に優れた読み上げ装置を提供する。【解決手段】読み上げ装置は、ユーザが装着する装着具に備えられ、前記ユーザの正面方向を撮像する撮像部と、前記撮像部が撮像した画像から文字を抽出する抽出部と、前記抽出部が抽出した文字を音声に変換する変換部と、前記装着具に備えられ、前記音声を発するスピーカと、前記装着具に備えられ、前記ユーザからの操作入力を受け付ける操作入力部と、前記装着具に備えられ、前記操作入力部を介して受け付けた前記ユーザからの入力に基づいて、前記スピーカから発せられる音声の再生制御を行う制御部と、前記スピーカ、前記操作入力部及び前記制御部を保持する筐体部と、を有する。前記筐体部は、前記スピーカが前記音声を発する方向に設けられた板状の壁部において、音声通過孔及び前記操作入力部を外方に露出する露出孔を有する。【選択図】図4

Description

本発明は、文章を音声に変換して読み上げる読み上げ装置に関する。
げ方法に関する。
近年、弱視者や文字を読むことが困難な読字障害者の視認を支援する機器の開発が行われている。例えば、特許文献1には、ロービジョン者が屋外で夜間等にも歩行ができるように、前方視界を撮像し表示することのできるウェアラブルディスプレイが開示されている。特許文献1のロービジョン者用ウェアラブルディスプレイによれば、撮像した画像のコントラスト及び明るさを変換して表示している。また、撮像画像に文字があった場合に文字認識処理を行ってその文字をユーザに音声で知らせることも開示している。
特開2014−165616号公報
ところで、上記特許文献1に記載のロービジョン者用ウェアラブルディスプレイにおいては、文字認識処理によって、その文字をロービジョン者にスピーカーにより伝達するとのみ記載しており具体的にどのように音声を伝えるかについては開示がない。また、特許文献1に記載のロービジョン者用ウェアラブルディスプレイの場合、毎回の操作において顔面付近に手を運んで操作する構成のため、視野に関する情報を音で聞きたい時にすぐ反応出来なかったり、音の聞き漏らしや再生速度の変更時にも、手を顔近くまで持っていく必要があり、ユーザビリティに欠けるという問題がある。
そこで、本発明は上記問題に鑑みて成されたものであり、首かけ形状が可能で本体をユーザの胴体付近に配置することで、片手で操作できるとともに、使用するユーザにとって上記特許文献1に記載のロービジョン者用ウェアラブルディスプレイよりも利便性に優れた読み上げ装置を提供することを目的とする。
上記課題を解決するため、本発明の読み上げ装置は、ユーザが身に着けて使用する装着具に備えられ、前記ユーザの正面方向を撮像する撮像部と、前記撮像部が撮像した画像から文字を抽出する抽出部と、前記抽出部が抽出した文字を音声に変換する変換部と、前記装着具に備えられ、前記音声を発するスピーカーと、前記装着具に備えられ、前記ユーザからの操作入力を受け付ける1又は複数の操作入力部と、前記装着具に備えられ、前記1又は複数の操作入力部によって受け付けられた前記ユーザからの入力に基づいて、前記スピーカーから発せられる音声の再生制御を行う制御部と、前記スピーカー、前記1又は複数の操作入力部及び前記制御部を保持する筐体部と、を有し、前記筐体部は、前記スピーカーが前記音声を発する方向に設けられた板状の壁部を有し、前記壁部に、前記スピーカーが発した前記音声が通過する音声通過孔及び前記1又は複数の操作入力部のうちの1の操作入力部を外方に露出する露出孔を有することを特徴とする。
上記構成によって、本発明は、首かけ形状が可能で本体をユーザの胴体付近に配置することで、片手で操作できるとともに、使用するユーザにとって上記特許文献1に記載のロービジョン者用ウェアラブルディスプレイよりも利便性の向上を図ることが可能となる。
装着具を装着しているユーザの外観例を示す図である。 装着具を用いて撮像を行って読み上げを行う外観例を示す図である。 読み上げ装置の構成例を示す図である。 コントローラ150の外観図である。 コントローラ150の外観図である。 コントローラ150の内部の部品構成を示す図である。 コントローラ150の内部の部品構成を、正面側から見た図である。 (a)は、装着具がサーバに送信するデータの構成例を示す図であり、(b)は、サーバがユーザ毎に記憶する読み上げ音声情報の構成例を示す図である。 装着具とサーバとのやり取りを示すシーケンス図である。 装着具の動作を示すフローチャートである。 サーバの動作を示すフローチャートである。 画像から優先的に文字を抽出する範囲例を示す図である。 地図を利用した読み上げ音声の再生を行うための画面例を示す図である。 読み上げ装置の構成の別例を示す図である。
以下、本発明の一実施態様に係る読み上げシステムについて、図面を参照しながら詳細に説明する。
<実施の形態>
<構成>
図1Aは、読み上げシステム1に係る装着具100を装着しているユーザの外観例を示す図である。また、図1Bは、装着具100を用いて撮像を行い、読み上げを行っている様子を示す外観例を示す図である。また、図2は、読み上げシステム1のシステム構成例を示す図である。
図1及び図2に示すように、読み上げシステム1は、ユーザが身に着けて使用する装着具100に備えられ、ユーザの正面方向を撮像する撮像部111と、撮像部111が撮像した画像から文字を抽出する抽出部231と、抽出部231が抽出した文字を音声に変換する変換部232と、装着具100に備えられ、音声を出力する出力部156と、装着具100に備えられ、ユーザからの入力操作を受け付ける操作入力部としての入力部154と、装着具100に備えられ、入力部154を介して受け付けたユーザからの入力に基づいて、出力部156から出力される音声の再生速度を制御する制御部155と、を備える。このような読み上げシステム1について、以下詳細に説明する。
図1A及び1Bに示すように、ユーザ10は、ウェアラブルグラス110を装着して使用する。本実施例においては、ウェアラブルグラス110は、通常のメガネに撮像ユニット(撮像部111と通信I/F112と不図示のシャッタースイッチからなる)を取り付けた装置であるとする。
当該撮像ユニットは、市販のメガネのフレームに対して着脱可能になっている。そして当該撮像ユニットがメガネのフレームに取り付けられた状態においては、ウェアラブルグラス110には、ユーザからの指示に従って、ユーザの正面方向を撮像できる位置に、撮像部111が配されている。
なお、本実施例においては撮像ユニットにシャッタースイッチ(不図示)が配置されており、ユーザはメガネを触る動作とほぼ同じような動作でシャッターボタンを押下して撮像可能である。
撮像部111は、所謂カメラである。撮像ユニットは、ケーブル140を介してコントローラ150に接続されている。なお、ケーブル140は、イヤホン130を経由して、撮像ユニットとコントローラ150をコード120を介して接続するようにしても良い。
また、ユーザ10は、イヤホン130を耳に装着し、コントローラ150から伝達された読み上げ音声を聞くことができる。イヤホン130は、コード120を介してコントローラ150に接続されている。後で説明するように、ユーザ10は、コントローラ150に備えつけられたスピーカー1502からの音声を直接聞いてもよい。図1Aに示すように、ユーザ10は、コントローラ150を保持し、当該コントローラ150を用いて、撮像の指示や、読み上げ音声の再生に係る指示を行うことができる。図1Bに示すように、ユーザが撮像指示を行うと、撮像部111は、撮像範囲160を撮像する。そして、撮像範囲160に含まれる文字を認識し、その文字を機械合成音声に変換して読み上げる。したがって、読み上げシステム1は、弱視者等に対して読みにくい文字の情報を提供することができる。
図2は、読み上げシステム1のシステム構成例であり、読み上げシステム1は、装着具100と、サーバ200とを含む。装着具100と、サーバ200とは、ネットワーク300を介して通信可能に構成されている。装着具100とネットワーク300は、無線通信により通信を行う。なお、無線通信を実行できれば、どのような通信プロトコルを用いてもよい。また、サーバ200もネットワークと通信を行うが、これは、無線通信でも有線通信でもいずれの通信態様をとってもよく、また、通信を実行できればどのような通信プロトコルを用いてもよい。
図2に示すように、装着具100は、ウェアラブルグラス110と、イヤホン130と、コントローラ150とを備える。即ち、本実施の形態においては、図2に示すように、ウェアラブルグラス110と、イヤホン130と、コントローラ150とを纏めて装着具100として呼称する。また、ここでは、ウェアラブルグラス110としているが、ユーザ10の正面方向(視野方向)を撮像できるものであればよく、眼鏡に限るものではないことは言うまでもない。
ウェアラブルグラス110は、撮像部111と、通信I/F112を備える。
撮像部111は、ユーザの正面方向を撮像可能なカメラである。撮像部111は、通信I/F112から指示された撮像信号を受けて撮像を行う。撮像部111は、ユーザの正面方向を撮像可能に設けられていればウェアラブルグラス110のどこに設けられてもよい。
図1においては、ウェアラブルグラスの左側丁番部分に設ける例を示しているが、撮像部111は、右側丁番部分に設けることとしてもよいし、ブリッジ部分に設けることとしてもよい。撮像部111は、撮像して得られた撮像画像を、通信I/F112に伝達する。
また、撮像部111は、逐次撮像を行いながら、撮像画像を解析して撮像画像中の文字の有無を検出する検出機能を有してよく、このとき、撮像画像中に文字が含まれていると判定した場合に、ユーザの正面方向に文字が存在すること旨を示す存在信号を通信I/F112に伝達する。
通信I/F112は、コントローラ150と通信を行う機能を有する通信インターフェースである。通信I/F112は、コントローラ150の通信I/F151と通信可能に接続されている。ここでは、図1に示すように有線により接続されていることとするが、これは、無線接続であってもよい。通信I/F112は、コントローラ150の通信I/F151から伝達された撮像信号を撮像部111に伝達する。また、通信I/F112は、撮像部111から伝達された撮像画像や、ユーザの正面方向に文字が存在することを示す存在信号を、通信I/F151に伝達する。
イヤホン130は、コントローラ150の出力部156に接続されており、出力部156から伝達された音声信号を音声として出力する機能を有する。ここでは、図1に示すように、イヤホン130は有線によりコントローラ150と接続されていることとするが、これは、無線接続であってもよい。イヤホン130は、撮像画像に基づいて検出された文字を読み上げた読み上げ音声や、文字の解析中であることを示す音や、撮像部111の正面方向に文字があることを示す音を出力する。
スピーカー1502は、コントローラ150の出力部156に接続されており、出力部156から伝達された音声信号を音声として発する機能を有する。スピーカー1502は、コントローラ150と情報通信可能に、例えば有線により接続されている。スピーカー1502は、撮像画像に基づいて検出された文字を読み上げた読み上げ音声や、文字の解析中であることを示す音声や、撮像部111の正面方向に文字があることを示す音声を出力する。
コントローラ150は、通信I/F151と、通信部152と、記憶部153と、入力部154と、制御部155と、出力部156とを備える。図1に示すように、コントローラ150の各部は互いにバスにより接続されている。
通信I/F151は、ウェアラブルグラス110の通信I/F112と通信を行う機能を有する通信インターフェースである。通信I/F151は、制御部155から撮像信号を受け取ると、当該撮像信号を通信I/F112に伝達する。また、通信I/F151は、通信I/F112から撮像画像や存在信号を受け取ると、制御部155に伝達する。
通信部152は、ネットワーク300を介してサーバ200と通信を実行する機能を有する通信インターフェースである。通信部152は、制御部155からの指示に従って、撮像画像をサーバ200に送信部として機能するとともに、撮像画像に含まれる文字を音声に変換した読み上げ音声をサーバ200から受信する受信部として機能する。通信部152は、サーバ200から読み上げ音声を受信した場合には、当該読み上げ音声を制御部155に伝達する。
記憶部153は、コントローラ150が機能するために必要とする各種のプログラムやデータを記憶する機能を有する。記憶部153は、例えば、HDD(Hard Disc Drive)、SSD(Solid State Drive)、フラッシュメモリなどにより実現することができるが、これらに限定されるものではない。
記憶部153は、制御部155によって実行される読み上げプログラムや、撮像部111が撮像した撮像画像や、通信部152が受信した読み上げ音声の情報などを記憶する。
また、記憶部153は、音声の読み上げ以外のタイミングでユーザに対する告知のために発する音声情報を記憶する。音声情報には、例えば、通信部152が撮像画像をサーバ200に送信してから読み上げ音声を受信するまでの間に出力部156から出力される音声であって、文字を音声に変換中であることを示す音声情報や、撮像部111の撮像方向に文字があった場合にユーザ10にその旨を報知するための音声情報等が含まれる。
入力部154は、ユーザ10からの入力操作を受け付けることができる。入力部154は、例えば、コントローラ150に備えられたハードキーにより実現することができるが、これは、タッチパネルなどにより実現することとしてもよい。
入力部154は、少なくとも、ユーザ10が撮像部111に対して撮像を指示するためのシャッターボタン1501を含む。入力部154は、シャッターボタン1501の他に、例えば、音声のリプレイを指示するためのリプレイスイッチ1507、音声の再生速度を調整するための速度変更スイッチ1508、音声の音量を変更する音量スイッチ1511等を含んでもよい。入力部154は、各ボタンの押下に応じて、押下された内容を示す信号を制御部155に伝達する。
制御部155は、コントローラ150の各部を制御する機能を有するプロセッサである。制御部155は、記憶部153に記憶されている各種プログラムを実行することで、コントローラ150として実行すべき機能を果たす。
制御部155は、入力部154から撮像指示を伝達された場合には、通信I/F151に撮像信号をウェアラブルグラス110に送信するように指示する。
また、制御部155は、通信I/F151から撮像画像を伝達された場合には、当該撮像画像をサーバ200に送信するように通信部152に指示する。また、当該指示の後に、制御部155は、記憶部153から、撮像画像に含まれる文字の音声への変換中であることを示す音声情報を読み出し、出力部156に出力するように指示する。
制御部155は、通信部152から読み上げ音声を伝達された場合には、変換中であることを示す音声情報の出力の停止を出力部156に指示する。そして、制御部155は、読み上げ音声を出力するように出力部156に指示する。
また、制御部155は、通信I/F151から存在信号を伝達された場合には、記憶部153からユーザ10の正面方向に文字が存在することを示す音声を読み出して、出力部156に出力するように指示する。
また、制御部155は、入力部154から伝達されたユーザ10からの指示に応じて読み上げ音声の再生制御処理を実行する。例えば、一時停止指示を受け付けた場合には、読み上げ音声の再生を一時中止するように出力部156に指示する。
また、例えば、スロー再生指示を受け付けた場合には制御部155は読み上げ音声のスロー再生を実行するように出力部156に指示する。スロー再生指示は、再生速度の調整指示によって代替することもでき、制御部155は、読み上げ音声の再生速度を早くしたり遅くしたりすることもできる。また、制御部155は、リプレイ指示を受け付けた場合には、それまでに出力していた読み上げ音声をもう一度再生するように出力部156に指示する。
出力部156は、制御部155から指示された音声信号をイヤホン130及びスピーカー1502のうち、少なくとも一方に出力する機能を有する。出力部156は、読み上げ音声や、文字の音声への変換中を示す音声や、文字がユーザ10の正面方向に文字が存在することを示す音声を、イヤホン130及びスピーカー1502のうち、少なくとも一方に出力する。
以上が、装着具100の構成についての説明である。
次にサーバ200について説明する。図2に示すようにサーバ200は、通信部210と、記憶部220と、制御部230とを備える。通信部210と、記憶部220と、制御部230とは互いにバスを介して接続されている。
通信部210は、ネットワーク300を介して装着具100(コントローラ150)と通信を実行する機能を有する通信インターフェースである。通信部210は、制御部230からの指示に従って、読み上げ音声を装着具100に送信する送信部として機能するとともに、撮像画像を受信する受信部として機能する。通信部210は、装着具100から撮像画像を受信した場合には、当該撮像画像を制御部230に伝達する。
記憶部220は、サーバ200が動作上必要とする各種プログラムやデータを記憶する。記憶部220は、例えば、HDD(Hard Disc Drive)、SSD(Solid State Drive)、フラッシュメモリなどにより実現することができるが、これらに限定されるものではない。記憶部220は、画像から文字を抽出するための文字認識プログラムや、認識した文字を音声変換するための音声変換プログラムや、読み上げ音声情報を記憶する。読み上げ音声情報の詳細については、後述する。
制御部230は、サーバ200の各部を制御する機能を有するプロセッサである。制御部230は、記憶部220に記憶されている各種プログラムを実行することで、サーバ200として実行すべき機能を果たす。制御部230は、文字認識プログラムを実行することで、抽出部231として機能し、音声変換プログラムを実行することで変換部232として機能する。
抽出部231は、撮像画像を解析して、当該撮像画像内に含まれる文字を抽出する機能を有する。当該解析技術には、既存の文字認識処理を用いることができる。
変換部232は、抽出部231が抽出した文字を音声(読み上げ音声)に変換する機能を有する。当該変換技術には、既存の変換処理を用いることができる。
以上が、サーバ200の構成についての説明である。
<コントローラ150の構成>
図3A及び3Bは、コントローラ150の外観図である。図3Aに示すように、コントローラ150は直方体状に形成されている。したがって、コントローラ150の各面は矩形(長方形)に形成されている。なお、本コントローラ150の各面は必ずしも矩形でなくてもよく、設計やデザインに応じて曲線や曲面が含まれても良い。
本実施例において、図1Aに示したコントローラ150をユーザが首からかけた状態において、ユーザに対して外側を向いている(撮像部111の撮像方向)面を正面FS(第1の面)とする。ユーザ側に対して内側、すなわちユーザの体の方向を向いている(対向している)又はユーザの体と接している面を背面BKとする。ユーザの顔方向(重力方向の上側)を向いている面を上面US(第2の面)、ユーザの足方向(重力方向の下側)を向いている面を底面BT(第3の面)とする。ユーザの左手側にある面を左側面LS(第4の面)、ユーザの右手側にある面を右側面RSとする。
コントローラ150の正面FSには、ユーザからの撮像操作を受け付けるシャッターボタン1501が設けられている。シャッターボタン1501は、正面FSに対して垂直な方向に突出するように露出して設けられている。コントローラ150の正面FSには、スピーカー1502から発せられた音声がコントローラ150の外部に出力される音声通過孔SHが設けられている。
コントローラ150の右側面RSには、スピーカー1502及びイヤホン130において再生される音声の速度を変更する速度変更スイッチ1508及びUSB(Universal Serial Bus)端子を接続可能な端子部156Aが配置されている。
コントローラ150の上面USには、スピーカー1502及びイヤホン130において1度再生された音声を再度再生させるリプレイスイッチ1507が設けられている。
上面USから左側面LSに移行する部位においては、ストラップを取り付け可能なストラップ取付部1500Aが設けられている。また、上面から右側面RSに移行する部位においては、ストラップを取り付け可能なストラップ取付部1500Bが設けられている。尚、ストラップは、紐状に形成されるもので、両端には、例えば、ナス環状の接続部材が設けられていてもよい。
ストラップ取付部1500A、1500Bは、ストラップの端部の一方と接続可能に形成されている。本実施例においては、ストラップ取付部1500A、1500Bは、コントローラ150の表面から窪んで凹状に形成された凹部及びこの凹部内において正面FSから背面BKに向かって形成されている棒状の引っ掛け部を有している。
尚、ストラップ取付部1500A、1500Bは、コントローラ150の任意に配置することができる。例えば、左側面LSから正面FSに移行する部位にストラップ取付部1500Aを設け、かつ右側面RSから正面FSに移行する部位にストラップ取付部1500Bを設けてもよい。また、例えば、左側面LSから上面USに移行する部位にストラップ取付部1500Aを設け、かつ左側面LSから底面BTに移行する部位にストラップ取付部1500Bを設けてもよい。
図3Bは、底面BT側からみたコントローラ150の外観を示している。図3Bに示すように、コントローラ150の底面BTには、イヤホンジャック1509及びHDMI(登録商標)端子156Aが設けられている。イヤホン130は、コード120を介してイヤホンジャック1509に接続されることで、コントローラ150に接続されている。また、コントローラ150の右側面RSには、USB端子156Aが設けられている。
このように、ストラップ取り付け部1500A、1500Bに取り付けたストラップをユーザが肩(首)にかけることによって身に着けて使用するため、コントローラ150の上面USは、ユーザが首を下に向けたときに見える。
尚、正面FSの反対側には背面BKが形成されている。正面FSおよび背面BKは、本コントローラ150の面の中で最も面積が大きい面である。
また、本コントローラ150の左側面LSおよび右側面RSに対して直交する軸をX軸とし、右側面RSからみて左側面LSが位置する方向を正方向とする。同様に、本コントローラ150の上面USおよび底面BTに対して直交する軸をY軸とし、底面BTから見て上面USが位置する方向を正方向とする。また、正面FSおよび背面BKに対して直交する軸をZ軸とし、背面BKから見て正面USが位置する方向を正方向とする。
このとき、本コントローラ150のX軸、Y軸、Z軸方向の長さは、次の関係が成り立つ。すなわち、コントローラ150のZ軸方向の長さ(XL)<コントローラ150のY軸方向の長さ(YL)<コントローラ150のX軸方向の長さ(ZL)となっている。また、コントローラ150のY軸方向の長さ(YL)は人が手で握れる程度にするとよい。
図4は、コントローラ150の内部の構成を示した図である。第1の筐体150Aは、背面BKとなる壁部を含み板状に形成されている。第1の筐体150Aは、コントローラ150に搭載する電子機器に応じてリブRBが形成されている。
第2の筐体150Bは、正面FS、上面US、底面BT、右側面RS及び左側面LSとなる壁部を含む。正面FS、上面US、底面BT、右側面RS及び左側面LSとなる壁部は、板状に形成されている。筐体150Bは、正面となる壁部に対して垂直な方向の断面がコ字状に形成されている。
第2の筐体部150Bは、正面FSとなる壁部において、スピーカー1502から発せられた音声を通過させる音声通過孔SHが設けられている。音声通過孔SHは、正面FSとなる壁部において当該正面に対して垂直方向に貫通するように形成されている。
第2の筐体部150Bは、正面FSとなる壁部において、入力部154のうちの1つであるシャッターボタン1501外方に露出する露出孔EPを有する。露出孔EPは、正面FSとなる壁部において当該正面に対して垂直方向に貫通するように形成されている。
第1の筐体150A及び第2の筐体150Bは、互いにネジ等の螺合部材によって締結可能に形成されている。従って、第1の筐体150Aの背面となる部材及び第2の筐体の正面、上面、底面、右側面並びに左側面となる部材によってコントローラ150に搭載する電子機器を収容可能な収容空間が画定されている。すなわち、第1の筐体150A及び第2の筐体150Bは、Z軸方向に互いに組み合わさることが可能である。従って、第1の筐体150A及び第2の筐体150Bによって、コントローラ150の筐体部が構成されている。
筐体部の収容空間には、少なくともスピーカー1502、入力部154部及び制御部155を保持し、各種電子部品が配置されている。具体的には、コントローラ150の筐体部には、シャッターボタン1501、スピーカー1502、スピーカー1502と通信を行う通信部としての通信ユニット1503、バッテリ1504、第一の基板ユニット1505、第2の基板ユニット1506、リプレイスイッチ1507、速度変更スイッチ1508、イヤホンジャック1509、HDMI(登録商標)端子156A、本実施例においてはダイアル式である音量スイッチ1511及び電源スイッチPS等の電子部品が保持されている。
第1の筐体150A上には、板状の第1の基板ユニット1505が搭載されている。第1の基板ユニット1505は、第1の筐体150A上において、背面BKの長手方向の一端側に搭載されている。図中において、第1の基板ユニット1505上には、信号演算を行うプロセッサ(制御部155)やトランジスタ等の他の電子部品が搭載されている。
第1の基板ユニット1505上には、板状の第2の基板ユニット1506が搭載されている。第2の基板ユニット1506は、第1の基板ユニット1505と互いに対向して配置されている。
ここで、プロセッサ(制御部155)やトランジスタ等の他の電子部品は、第1の基板ユニット1505及び第2の基板ユニット1506のうち、いずれかに搭載されていればよい。
プロセッサやトランジスタ等の他の電子部品は、Z軸方向に見て第1の基板ユニット1505および第2の基板ユニット1506の間に配置される。言い換えれば、プロセッサやトランジスタ等の他の電子部品は、第1の基板ユニット1505に搭載される場合は、正面FS側に配置される。また、当該他の電子部品は、第2の基板ユニット1506に搭載される場合は、背面BK側に配置される。
つまり、第1の基板ユニット1505に電子部品が配置されていれば電子部品がZ軸方向正側に突出するように、第2の基板ユニット1506に電子部品が配置されていれば電子部品がZ軸方向負側に突出するように配置される。
また、第1の基板ユニット1505および第2の基板ユニット1506の間に入力部154、たとえばリプレイスイッチ1507や速度変更スイッチ1508、音量スイッチ1511が配置される。また、端子部156Aの例であるイヤホンジャック1509や不図示のHDMI(登録商標)端子が配置されている。
こうすることで、スイッチ、端子、および電子部品を第1の基板ユニット1505および第2の基板ユニット1506の間に配置できるため、Z軸方向の厚みを最小化することができる。
第1の筐体150A上には、直方体状のバッテリ1504が搭載されている。バッテリ1504は、制御部155に電力を供給する。バッテリ1504は、第1の筐体150A上において、背面BKの長手方向の他端側から一端側に向かって延在するように搭載されている。バッテリ1504の第1の筐体150Aの他端側には、コントローラ150の電源ボタンPS が接続されている。
第1の筐体150A上には、直方体状の通信ユニット1503が搭載されている。通信ユニット1503は、第1の筐体150A上において、背面BKの長手方向の他端側から一端側に向かって延在するように搭載されている。また、通信ユニット1503は、バッテリ1504と互いに対向するように配置されている。通信ユニット1503及びバッテリ1504は、互いに対向する面が平行となるように配置されている。
通信ユニット1503上には、円筒状のスピーカー1502が搭載されている。スピーカー1502は、音声を発する方向が正面に向けて配置されている。スピーカー1502及び通信ユニット1503は、Z軸(コントローラ150の壁部の壁面(正面FS)に垂直な方向)に重なって配されている。
第2の基板ユニット1506上には、円筒状のシャッターボタン1501が搭載されている。シャッターボタン1501は、第1の筐体150A及び第2の筐体150Bが締結された際に、第2の筐体150Bの露出孔EPと嵌合可能に搭載されている。
このように、筐体部は、スピーカー1502が音声を発する方向に設けられた正面SFの壁部において、音声通過孔SH及び露出孔EPが形成されている。
尚、コントローラ150には、不図示のイヤホン130及びスピーカー1502のうちの少なくとも一方から再生される音声の音量を変更する音量変更スイッチ なども配置されていてもよい。
なお、スピーカー1502および通信ユニット1503のZ軸方向の厚さは、バッテリ1504のZ軸方向の厚さよりも薄いものとする。つまり、スピーカー1502のZ軸方向の厚さをZ1502、通信ユニット1503のZ軸方向の厚さをZ1503、バッテリ1504のZ軸方向の厚さをZ1504とすると、Z1502<Z1504とZ1503<Z1504の関係が成立する。言い換えれば、スピーカー1502、通信ユニット1503及びバッテリ1504は、筐体部の壁部(正面FS)に対して垂直な方向の高さが互いに異なる。また、Z1502+Z1503≦Z1504の関係が成立する。言い換えれば、スピーカー1502と通信ユニット1503のY軸方向(正面FSの短手方向)の長さの合計が、バッテリ1504のY軸方向(正面FSの短手方向)の長さと同じもしくは短い。
図5は、コントローラ150の内部の部材を、Z軸方向正側から見た図である。
スピーカー1502と通信ユニット1503は、Z軸方向から見て(正面FSに垂直な方向、すなわち上面視)重なって配置されている。スピーカー1502は、通信ユニット1503よりも正面FS側(Z軸方向正側)に配置されている。スピーカー1502は、正面FSにむけて音声を発するように配置されている。通信ユニット1503は、スピーカー1502よりも背面BK側(Z軸方向負側)に配置されている。
なお、スピーカー1502は、コントローラ150の正面FS側から音声を発する必要がある。これは、スピーカー1502が背面BK側から音声を発すると、コントローラ150を首かけ方式(図1Aのような掛け方)で使用する際に、音が身体側の方に出ることになり、例えば、視覚障害のあるユーザへの補助となるべき音声が聞こえにくくなってしまうためである。
また、スピーカー1502および通信ユニット1503は、バッテリ1504とコントローラ150のY軸方向(正面FSの短手方向)に重なって(沿って)並んで配置されているが、X軸方向(正面FSの長手方向)およびZ軸方向には重なっていない。通信ユニット1503とバッテリ1504はどちらも上面視が矩形形状であり、各々の長手方向がX軸方向(正面FSの長手方向)に沿って配置され、各々の短手方向がY軸方向(正面FSの短手方向)に沿って配置されている。
図5に示すように、第1の基板ユニット1505および第2の基板ユニット1506は、スピーカー1502および通信ユニット1503と隣接して配置され、かつバッテリ1504と隣接して配置されている。
第1の基板ユニット1505および第2の基板ユニット1506は、スピーカー1502および通信ユニット1503からみてX軸方向の正方向に配置され、かつバッテリ1504からみてX軸方向の正方向に配置されている。
なお、第1の基板ユニット1505よりも第2の基板ユニット1506の方がZ軸方向の正方向(正面FS側)に配置されている。上述のように、これらの基板ユニット1505、1506はZ軸方向に重なるように配置されている。
スピーカー1502及びシャッターボタン1501は、X軸方向(正面FSの壁部の長手方向)に沿って並んで配されている。また、スピーカー1502及びバッテリ1504は、Y軸方向(正面FSの壁部の短手方向)に沿って並んで配されている。
このように各部材を配置することで、スピーカー1502および通信ユニット1503、バッテリ1504、並びに第1の基板ユニット1505および第2の基板ユニット1506の各部材を効率的に筐体部内に配置し、X軸およびY軸方向に効率よく各部材1502,1503,1504,1505,1506を配置できるとともに、Z軸方向の厚みを最小化することができる。
<データ>
図6は、読み上げシステム1に係るデータのデータ構成例を示す図である。
図6(a)は、装着具100(コントローラ150)がサーバ200に送信する送信データ310(撮像画像)のデータ構成例(フォーマット例)を示す図である。
図6(a)に示すように、送信データ310は、ユーザID311と、撮像画像情報312と、撮像時間情報313とが対応付けられた情報である。
ユーザID311は、装着具100を使用するユーザ10を一意に特定することができる識別情報である。これにより、サーバ200は、どのユーザからの撮像画像であるかを特定できるとともに、ユーザ毎に撮像画像や生成した読み上げ音声を管理することができる。
撮像画像情報312は、撮像部111が撮像した撮像画像の実データを示す情報である。
撮像時間情報313は、撮像画像情報312で示される撮像画像が撮像された日時を示す情報である。当該情報は、図示ししてないが、撮像部111の内部時計から取得することができる。
図6(b)は、サーバ200の記憶部220に記憶されており、読み上げシステム1を利用するユーザ毎に管理する読み上げ音声情報のデータ構成例を示す図である。当該データは、サーバ200が過去に変換して得られた読み上げ音声を管理するための情報である。
図6(b)に示すように読み上げ音声情報320は、撮像時間情報321と、撮像画像情報322と、読み上げ音声323とが対応付けられた情報である。
撮像時間情報321は、対応する撮像画像が撮像された日時を示す情報で、撮像時間情報313と同一の情報である。
撮像画像情報322は、撮像画像の実データを示す情報で、撮像画像情報312と同一の情報である。
読み上げ音声323は、対応する撮像画像情報322から抽出部231が文字を抽出し、当該文字を変換部232が変換して得られた読み上げ音声を示す実データである。
読み上げ音声情報320があることにより、サーバ200は、過去の読み上げ音声を管理することができる。
以上が、読み上げシステム1に主として関わる情報の説明である。
<動作>
ここから、読み上げシステム1の動作について説明する。まず、図7に示すシーケンス図を用いて、読み上げシステム1の全体的な動作を説明した後に、装着具100及びサーバ200の詳細な動作をそれぞれ、図8及び図9のフローチャートを用いて説明する。
図7は、装着具100とサーバ200とのやり取りを示したシーケンス図である。図7に示すように、装着具100は、ユーザ10の正面方向の撮像を実行する(ステップS401)。そして、装着具100は、得られた撮像画像をサーバ200に送信する(ステップS402)。
サーバ200は、装着具100から送信された撮像画像を受信する(ステップS403)。すると、サーバ200は、受信した撮像画像から文字を抽出する(ステップS404)。そして、サーバ200は、抽出した文字を音声に変換して読み上げ音声を生成する(ステップS405)。読み上げ音声を生成すると、サーバ200は、これを装着具100に送信する(ステップS406)。
装着具100は、サーバ200から送信された読み上げ音声を受信する(ステップS407)。すると、装着具100は、受信した読み上げ音声を、出力する(ステップS408)。これにより、読み上げシステム1は、ユーザ10の正面方向(視野方向)に存在する文字を認識して、音でユーザ10に伝えることができる。
図8は、装着具100の動作を示すフローチャートである。
まず、装着具100の入力部154は、ユーザからの入力があったか否かを、各種のボタンの押下があったか否かに基づいて判定する(ステップS501)。ユーザからの入力があった場合には(ステップS501のYES)、ステップS502の処理に移行し、なかった場合には(ステップS501のNO)、ステップS512の処理に移行する。
ステップS502において、制御部155は、入力部154が受け付けた入力が撮像指示であったか否かを判定する(ステップS502)。入力が撮像指示であった場合には(ステップS502のYES)、ステップS503の処理に移行し、撮像指示でなかった場合には(ステップS502のNO)、ステップS506の処理に移行する。
ステップS503において、入力部154が撮像指示をユーザから受け付けると、制御部155に撮像指示が伝達される。これを受けて制御部155は、通信I/F151に撮像信号をウェアラブルグラス110に伝達するように指示する。通信I/F151は当該指示に従って撮像信号を通信I/F112に伝達する。そして、通信I/F112は、撮像部111に撮像信号を伝達し、撮像部111は、撮像を実行する(ステップS503)。
撮像部111は、得られた撮像画像を通信I/F112に伝達し、通信I/F112は、撮像画像を、通信I/F151に伝達する。通信I/F151は、伝達された撮像画像を制御部155に伝達し、制御部155は、これをサーバ200に送信するよう通信部152に指示する。通信部152は、当該指示を受けて、撮像画像をネットワーク300を介してサーバ200に送信する(ステップS504)。
そして、撮像画像の送信後に、制御部155は、撮像画像中の文字を音声に変換中であることを示す音声を記憶部153から読み出し、当該音声を出力するように出力部156に指示する。これを受けて出力部156は、イヤホン130に当該音声を出力し、イヤホン130は、当該音声を報知し(ステップS505)、ステップS501の処理に戻る。撮像画像に含まれる文字を音声に変換中であることを示す音声を報知することによって、ユーザ10は、今、文字を音声に変換する処理を行っている最中であることを認識することができ、何も音が鳴らない(ユーザ10に対して何の報知も成されない)場合に比して、いらだつことなく待機することができるようになる。
一方、ステップS502において、入力指示が撮像指示ではないと判定した場合に(ステップS502のNO)、入力が音声のリプレイであったかを判定する(ステップS506)。入力が音声のリプレイであった場合には(ステップS506のYES)、制御部155は、出力部156に対して、直前に出力した音声を再度再生するように指示する。当該指示を受け付けて、出力部156は、直前に出力した音声を出力を開始し(ステップS507)、ステップS501の処理に戻る。当該リプレイは、新たな再生指示が入力されるまで、あるいは、完全停止指示が入力されるまで行われる。
ステップS506において、入力指示がリプレイ指示ではないと判定した場合に(ステップS506のNO)、入力が再生速度変更の指示であるかを判定する(ステップS508)。入力が再生速度変更の指示であった場合には(ステップS508のYES)、制御部155は、出力部156に対して出力している音声を変更するように指示する。具体的には、速度変更スイッチ1508の入力方向によって速度を上昇(高速再生)または下降(スロー再生)させる。本実施例においては、速度変更スイッチ1508は対になっており、上面US方向のスイッチを押下することで再生速度を上昇、底面BT側のスイッチを押下することで再生速度を下降することができる。つまり、速度変更スイッチ1508は、上側のスイッチが再生速度の上昇、下側のスイッチが再生速度の下降と、上と下の概念が揃っているため、ユーザにとって直感的に操作できる。当該指示を受けて出力部156は、出力している音声の高速再生またはスロー再生を開始し(ステップS509)、ステップS501の処理に戻る。これによって、たとえばスロー再生の場合は、早口を聞き取ることに困難を覚えるユーザであっても、音声を正しく認識できるようになるし、再生速度を速めた場合には、撮像した内容に含まれる文字の概要を把握する時間を短縮するのに役立てることができる。
ステップS508において、入力指示がスロー再生ではないと判定した場合には(ステップS508のNO)、ステップS501の処理に戻る。
ステップS501においてユーザからの入力がない場合に(ステップS501のNO)、制御部155は、サーバ200から読み上げ音声を受信したか否かを判定する(ステップS510 )。読み上げ音声を受信していない場合には(ステップS510のNO)、ステップS501の処理に戻る。
読み上げ音声を受信していた場合には(ステップS510のYES)、制御部155は、まず、出力部156に対して、出力している文字の音声への変換中であることを示す音声の出力を中止するように指示する。当該指示を受けて出力部156は、当該音声の出力を停止する(ステップS511)。
そして、制御部155は、出力部156に、通信部132から伝達された読み上げ音声を出力するように指示する。出力部156は、制御部155から伝達された読み上げ音声の出力を開始し(ステップS512)、ステップS501に戻る。
以上が、装着具100(コントローラ150)の動作の説明である。
図9は、サーバ200が撮像画像を装着具100から受信したときの動作を示すフローチャートである。
まず、サーバ200の通信部210は、ネットワーク300を介して、装着具100からの撮像画像を受信する(ステップS601)。通信部210は、受信した撮像画像を制御部230に伝達する。
制御部230は、抽出部231として、伝達された撮像画像を解析して、文字を抽出する(ステップS602)。抽出部231は、抽出した文字列を変換部232に伝達する。
変換部232は、抽出した文字列を音声に変換し(ステップS603)、機会音声の合成音声である読み上げ音声を生成する。変換部232は、生成した読み上げ音声を通信部210に伝達する。
通信部210は、変換後の合成音声を読み上げ音声として、ネットワーク300を介して、装着具100に送信する(ステップS604)。
その後に、制御部230は、受信した撮像画像と、当該撮像画像の撮像日時と、当該撮像画像から得られた読み上げ音声とをそれぞれ、撮像画像情報322、撮像時間情報321、読み上げ音声323として、読み上げ音声情報に登録して(ステップS605)、処理を終了する。
以上が、サーバ200の動作である。以上に説明した動作を実行することにより、読み上げシステム1は、単に認識した文字を読み上げるのではなく、ユーザにとって聞き取りやすいように音声を再生することができる。
<まとめ>
読み上げシステム1は、撮像画像に含まれる文字を認識して音声にして出力することができる。このとき、読み上げシステム1においては、読み上げ音声について、スロー再生や、一次停止、リプレイ等の操作をユーザが行うことができるので、ユーザは、各々の好みにより聞きやすいように音声を再生することができる。したがって、ユーザにとって利便性の高い読み上げシステムを提供することができる。また、読み上げシステム1においては、撮像画像から読み上げ音声を生成する処理を実行している間は、処理中であることを示す音声を報知することで、ユーザ10に状況を認識させることができる。
<補足>
上記実施の形態に係る読み上げシステムは、上記実施の形態に限定されるものではなく、他の手法により実現されてもよいことは言うまでもない。以下、各種変形例について説明する。
(1) 上記実施の形態においては、コントローラ150を用いて音声を出力することとしたが、ウェアラブルグラス110にスピーカーを備えて、出力部156は、当該スピーカーから読み上げ音声を出力することとしてもよい。このように構成することで、イヤホン130を装着することを苦痛とするユーザであっても、顔の近くで読み上げ音声を聞くことができる。
(2) 上記実施の形態においては、装着具100として、ウェアラブルグラス110と、イヤホン130と、コントローラ150とを含み、それぞれ別の機器として構成する例を示した。しかし、これはその限りではなく、ウェアラブルグラス110と、イヤホン130と、コントローラ150とは一体に成形されてもよい。即ち、ウェアラブルグラス110は、イヤホン130の音声を出力する機能の代替としてスピーカーを備え、コントローラ150が有する機能を保持してもよい。例えば、ウェアラブルグラス110のテンプル部分を中空構造とし、その内部に、コントローラ150のプロセッサやメモリ、通信モジュール等を搭載する構成としてもよい。そして、ウェアラブルグラス110のテンプルあるいはリムの外装側に音声再生制御や、撮像指示のための各種のボタンを配することとしてもよい。
(3) 上記実施の形態においては、装着具100とサーバ200とを別の機器として説明したが、装着具100は、サーバ200が有する機能(抽出部及び変換部の機能)を備えることとしてもよい。例えば、コントローラ150にサーバ200が有する機能を実現するチップを備える構成にしてもよい。このように構成すれば、装着具100はスタンドアローンで読み上げシステムを構築することができる。また、撮像画像の送信及び読み上げ音声の受信に係るレイテンシを抑制することができる。
(4) 上記実施の形態においては、撮像画像から文字を抽出する範囲について予め定めておくこととしたが、これはその限りではない。例えば、ウェアラブルグラス110にユーザの目を撮像するカメラを設けて、視線方向を検出し、その視線方向を中心とした所定範囲を撮像画像に当てはめ、その所定範囲内の文字を検出するように構成してもよい。例えば、ウェアラブルグラス110は、撮像部111が撮像した第1撮像画像と、ユーザの目を撮像した第2撮像画像とをコントローラ150に伝達し、コントローラ150は、第1撮像画像と第2撮像画像とを、サーバ200に送信する。サーバ200の抽出部231は、第2撮像画像からユーザ10の視線方向を特定し、特定した視線方向を含む所定の範囲を特定し、第1撮像画像においてその所定の範囲内に対応する箇所から文字を抽出するように構成してもよい。
(5) 上記実施の形態においては、コントローラ150に対する撮像指示の入力を受け付けて、撮像部111が撮像を行うこととしたが、撮像のトリガはこれに限るものではない。例えば、ウェアラブルグラス110又はコントローラ150にマイクを備え、そのマイクでユーザの発する音声を取得する。そして、ユーザが発した特定の言葉に基づいて撮像を行ってもよい。即ち、音声入力による撮像を行ってもよい。
また、あるいは、ウェアラブルグラス110にユーザの目を撮像するカメラを設け、ユーザの目のブリンク(まばたき)を撮像のトリガとしてもよい。
(6) 上記実施の形態においては、入力部154は、コントローラ150に設ける構成を示したが、これはその限りではなく、ケーブル140の途上に設けられてもよい。
(7) 上記実施の形態においては、特に記載していないが、読み上げシステム1は、読み上げ音声の言語を設定できる設定部を備えることとしてもよい。そして、抽出部231が抽出した文字を設定部に設定された言語に翻訳する翻訳部を備え、変換部232は、翻訳部が翻訳した文字を音声に変換することとしてもよい。この構成を備えることで、読み上げシステム1は、書かれている文字の通訳システムとして機能することができ、弱視者に限らず、異国のユーザにとっても有用なシステムとすることができる。
(8) 上記実施の形態においては、特に説明していないが、抽出部231は、撮像画像から文字を抽出する範囲を撮像画像全体ではなく、所定の範囲内にとどめてもよい。図10は、撮像画像700の一例を示しており、抽出部231は、この撮像画像700のうち、所定の範囲710内のみを文字を抽出する範囲としてもよい。あるいは、所定の範囲710を優先的に、文字を抽出する範囲としてもよい。優先的に文字を抽出する範囲とするとは、当該範囲内をまず文字を抽出する範囲とし、所定の範囲710内から文字を抽出できなかった場合に所定の範囲710外から文字を抽出する処理を行うことをいう。
ここで所定の範囲710は、読み上げシステム1を利用するユーザによって設定されてよい。一般にユーザは、正面方向よりも若干下寄りの方向を見る傾向が高い。したがって、撮像画像700の下部寄りに所定の範囲710を設定すれば効果的である。
また、所定の範囲710は、制御部230が設定することとしてもよい。具体的には、サーバ200が受信した大量の撮像画像について、文字を抽出できた範囲を特定する。そして、その平均範囲を、文字を抽出するための所定の範囲710とすることとしてもよい。
また、更には、ウェアラブルグラス110に各種のセンサを備え、当該センサから得られるセンシングデータに基づいて所定の範囲710を決定することとしてもよい。例えば、ウェアラブルグラス110にジャイロセンサを搭載し、装着具100は、撮像画像とともにジャイロセンサのセンシングデータをサーバ200に送信する。そして、抽出部231は、当該ジャイロセンサのセンシングデータに基づいて所定の範囲710を決定してもよい。例えば、センシングデータから、ユーザ10がうつむき加減であると推定した場合には、所定の範囲710を撮像画像700全体に対して下方よりの位置に設定することとしてよい。
撮像画像700の全体を解析対象としないことで、音声への変換処理に要する時間を短縮することができる。
(9) 上記実施の形態においては、特に記載しなかったが、サーバ200は、ユーザ10が保持するPC等の情報処理装置に、過去ログとして、対応する読み上げ音声情報320を送信する構成を備えてもよい。当該構成により、ユーザ10はいつでも過去の読み上げ音声を聞くことができるようになる。
また、さらには、装着具100は、自装置の存在する場所を示す位置情報を取得するための位置情報取得部を備えてもよい。位置情報取得部は、例えば、GPS(Global Positioning System)やGNSS(Global Navigation Satellite System)等を利用することにより実現することができる。
そして、撮像部111が撮像画像を得るごとに、位置情報取得部は、位置情報を取得し、撮像画像に取得した位置情報を対応付ける。装着具100は、位置情報が対応付けられた撮像画像をサーバ200に送信する。サーバ200は、読み上げ音声情報320として、更に、撮像位置を示す撮像位置情報を対応付けて管理してよい。
そうすると、サーバ200から、読み上げ音声情報320として、位置情報を含む情報がユーザ10の情報処理装置に送信されることから、ユーザ10の情報処理装置においては、更に、図11に示すように読み上げ音声を地図アプリケーションとともに提示することができるようになる。即ち、ユーザ10は、地図上において、いつどこで取得した読み上げ音声であるかを認識することができるようになる。そして、地図情報のログ情報801や802などの上にカーソル803を位置してクリックすることにより、情報処理装置は、読み上げ音声を音声再生ソフト等により再生することとしてもよい。例えば、図11の地図1100に示すように、ログ情報801や、ログ情報802があることにより、どこで撮像した撮像画像に基づいて得られた読み上げ音声であるかを認識することができる。
(10) 上記実施の形態においては、装着具100の動作として詳細には説明していないが、撮像部111は、逐次撮像を行い、得られた撮像画像に文字が含まれているか否かを検出することとしてよい。そして、文字が含まれていることを検出した場合に、その旨をコントローラ150に伝達し、制御部155は、ユーザ10にそのときの正面方向に文字が存在することを認識させるための音声を報知してよい。そうすると、ユーザ10は、そのタイミング、入力部154に対して撮像指示を入力することができる。この構成を備えることで、ユーザ10が弱視者、特に、盲目であった場合など、文字が存在することも視認できないような場合に、ユーザ10に文字の存在を認識させることができ、ユーザ10にとって、利便性の高い読み上げシステム1を提供することができる。
(11) 上記実施の形態においては、特に記載していないが、撮像部111は、ユーザ(ウェアラブルグラス110)の置かれている環境に応じて撮像条件を変えてもよい。例えば、ウェアラブルグラス110は、各種のセンサ(例えば、照度センサなど)を備え、露光時間や画角を変更することとしてもよい。
(12) 上記実施の形態においては、特に記載していないが、サーバ200が画像から文字を抽出できなかったり、抽出した文字を音声に変換できなかったり、画像に文字が含まれていなかった場合には、エラー信号を装着具100に送信し、装着具100はこれを受けてエラーを示す音声を出力部156から出力することとしてもよい。また、エラー音や上記実施の形態に示した変換中であることを示す音声の他、例えば、装着具100を起動したときの起動音や、撮像部111が撮像を行ったときの撮像音(シャッター音)、待機中を示す音、ユーザが処理のキャンセルの入力を行ったときのキャンセル音など各種の音を記憶部153に記憶しておき、制御部155は装着具100の状態に応じて対応する音を出力部156から出力させることとしてもよい。また、通信部152が通信できない(ネットワークと接続できない)場合に、その旨を示す音声を出力部156から出力することとしてもよい。このように各種の状態に応じた音を出力する構成をとることで、装着具100は、装置の状態を音のみでユーザに通知することができる。
(13) 上記実施の形態においては、特に記載していないが、サーバ200は、撮像画像から文字を抽出した箇所や、文字を抽出した範囲の撮像画像に対する割合に応じて生成する読み上げ音声の態様を変更することとしてもよい。
文字を抽出した箇所に応じて音声の態様を変えるとは、撮像画像から文字を抽出した撮像画像における箇所に応じて、ユーザによって音声が聞こえてくる方向を変更することをいう。例えば、文字を抽出した箇所が、撮像画像の右寄りから抽出した場合には、ユーザの右側から読み上げ音声が聞こえるように出力部156から出力するように構成してもよい。この構成にすることによって、ユーザから見てどちらの方向にある文字を読み上げたのかを感覚的にユーザに認識させることができる。
また、文字を抽出した範囲の撮像画像に対する割合に応じて生成する読み上げ音声の態様を変更するとは、文字を抽出した範囲の撮像画像に対する割合の多寡に応じて、読み上げ音声の音量を変更するように構成してもよい。即ち、当該割合のパーセンテージと、読み上げ音声を出力する音量とを対応付けて記憶しておき、撮像画像から文字を抽出した範囲のパーセンテージと照らし合わせて読み上げ音声を出力する音量を決定し、その決定した音量で読み上げ音声を出力することとしてもよい。
(14) 上記実施の形態においては、送信データ310は、ユーザID311と、撮像画像情報312と、撮像時間情報313とが対応付けられていることとしているが、これ以外にも各種の情報が対応付けられていてよい。例えば、上記補足に示したように、装着具100が存在する箇所を示す位置情報や、装着具100の姿勢を特定し得るジャイロセンサや加速度センサ等のセンシングデータの情報も対応付けられていてもよい。
また、読み上げ音声情報についても、撮像時間情報321と、撮像画像情報322と、読み上げ音声323とが対応付けられた情報であるとしているが、これ以外にも、撮像画像を解析して得られた文字のテキストデータや、送信データ310に含まれている位置情報やセンシングデータなども対応付けられてよい。
読み上げ音声情報は、各種の情報をより多く蓄積して集積することで、各ユーザのライフログとして利用することができる。そして、ユーザからの要望に応じて、サーバ200は、蓄積している情報のうち指定された情報を供与する供与部を備えてもよい。例えば、位置情報を蓄積することによって、ユーザの単位時間当たり(例えば、1日)の移動量に関する情報を提供したり、ユーザがどこに行ったのかの情報を提供したり、ジャイロセンサの情報を利用してユーザの姿勢を特定することで、姿勢の情報を提供(例えば、姿勢の良し悪しなど)したりすることもできる。
(15) 上記実施の形態においては、読み上げシステム1が音声の読み上げを実行する手法として、読み上げシステム1を構成する各機能部として機能するプロセッサ(制御部155、制御部230)が読み上げプログラム等を実行することにより、読み上げ処理を実行することとしているが、これは装置に集積回路(IC(Integrated Circuit)チップ、LSI(Large Scale Integration))等に形成された論理回路(ハードウェア)や専用回路を組み込むことによって実現してもよい。また、これらの回路は、1または複数の集積回路により実現されてよく、上記実施の形態に示した複数の機能部の機能を1つの集積回路により実現されることとしてもよい。LSIは、集積度の違いにより、VLSI、スーパーLSI、ウルトラLSIなどと呼称されることもある。すなわち、図12に示すように、読み上げシステム1を構成する装着具100及びサーバ200における各機能部は、物理的な回路により実現されてもよい。即ち、図12に示すように、装着具100は、撮像回路111aと通信I/F回路112aとを備えるウェアラブルグラス110と、イヤホン130と、通信I/F回路151aと、通信回路152aと、記憶回路153aと、入力回路154aと、制御回路155aと、出力回路156aとから構成されてよく、上記実施の形態において対応する各機能部と同様の機能を有することとしてよい。そして、同様に、サーバ200も、通信回路210aと、記憶回路220aと、抽出回路231a及び変換回路232aとを含む制御回路230aとから構成されてよい。
また、上記読み上げプログラムは、プロセッサが読み取り可能な記録媒体に記録されていてよく、記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記読み上げプログラムは、当該読み上げプログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記プロセッサに供給されてもよい。本発明は、上記読み上げプログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
なお、上記読み上げプログラムは、例えば、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。
(16) 上記実施の形態及び各補足に示した構成は、適宜組み合わせることとしてもよい。
1 読み上げシステム
100 装着具
110 ウェアラブルグラス
111 撮像部
112 通信I/F
130 イヤホン
150 コントローラ
151 通信I/F
152 通信部
153 記憶部
154 入力部
155 制御部
156 出力部
200 サーバ
210 通信部
220 記憶部
230 制御部
231 抽出部
232 変換部
1501 シャッターボタン
1502 スピーカー
1504 バッテリ
1505 第1の基板ユニット
1506 第2の基板ユニット
SH 音声通過孔
EP 露出孔

Claims (3)

  1. ユーザが身に着けて使用する装着具に備えられ、前記ユーザの正面方向を撮像する撮像部と、
    前記撮像部が撮像した画像から文字を抽出する抽出部と、
    前記抽出部が抽出した文字を音声に変換する変換部と、
    前記装着具に備えられ、前記音声を発するスピーカーと、
    前記装着具に備えられ、前記ユーザからの操作入力を受け付ける1又は複数の操作入力部と、
    前記装着具に備えられ、前記1又は複数の操作入力部によって受け付けられた前記ユーザからの操作入力に基づいて、前記スピーカーから発せられる音声の再生制御を行う制御部と、
    前記スピーカー、前記1又は複数の操作入力部及び前記制御部を保持する筐体部と、を有し、
    前記筐体部は、前記スピーカーが前記音声を発する方向に設けられた板状の壁部を有し、前記壁部に、前記スピーカーが発した前記音声が通過する音声通過孔及び前記1又は複数の操作入力部のうちの1の操作入力部を外方に露出する露出孔が形成されていることを特徴とする読み上げ装置。
  2. 前記1の操作入力部は、前記ユーザからの前記撮像部に対する操作入力を受け付けることを特徴とする請求項1に記載の読み上げ装置。
  3. 前記筐体部は、前記スピーカーと通信を行う通信部を保持し、
    前記筐体部の前記壁部は、長方形に形成され、
    前記スピーカー及び前記1の操作入力部は、前記壁部の長手方向に沿って並んで配され、
    前記スピーカー及び前記バッテリは、前記壁部の短手方向に沿って並んで配され、
    前記スピーカー及び前記通信部は、前記壁部の壁面に垂直な方向において重なって配されていることを特徴とする請求項1又は2に記載の読み上げ装置。
JP2019149047A 2019-08-15 2019-08-15 読み上げ装置 Pending JP2021033368A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019149047A JP2021033368A (ja) 2019-08-15 2019-08-15 読み上げ装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019149047A JP2021033368A (ja) 2019-08-15 2019-08-15 読み上げ装置

Publications (1)

Publication Number Publication Date
JP2021033368A true JP2021033368A (ja) 2021-03-01

Family

ID=74678348

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019149047A Pending JP2021033368A (ja) 2019-08-15 2019-08-15 読み上げ装置

Country Status (1)

Country Link
JP (1) JP2021033368A (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001318594A (ja) * 2000-05-11 2001-11-16 Kumamoto Technopolis Foundation 視覚障害者用歩行支援システムおよび情報記録媒体
JP2002219142A (ja) * 2001-01-25 2002-08-06 Hiroo Mine 視覚障害者ガイド器
JP2008085548A (ja) * 2006-09-27 2008-04-10 Sony Corp 撮像装置、撮像方法
CN102937751A (zh) * 2011-08-16 2013-02-20 江苏万新光学有限公司 一种具有文字读取朗读功能的专用眼镜
JP2013174898A (ja) * 2013-04-10 2013-09-05 Sony Corp 撮像表示装置、撮像表示方法
JP2016194612A (ja) * 2015-03-31 2016-11-17 株式会社ニデック 視覚認識支援装置および視覚認識支援プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001318594A (ja) * 2000-05-11 2001-11-16 Kumamoto Technopolis Foundation 視覚障害者用歩行支援システムおよび情報記録媒体
JP2002219142A (ja) * 2001-01-25 2002-08-06 Hiroo Mine 視覚障害者ガイド器
JP2008085548A (ja) * 2006-09-27 2008-04-10 Sony Corp 撮像装置、撮像方法
CN102937751A (zh) * 2011-08-16 2013-02-20 江苏万新光学有限公司 一种具有文字读取朗读功能的专用眼镜
JP2013174898A (ja) * 2013-04-10 2013-09-05 Sony Corp 撮像表示装置、撮像表示方法
JP2016194612A (ja) * 2015-03-31 2016-11-17 株式会社ニデック 視覚認識支援装置および視覚認識支援プログラム

Similar Documents

Publication Publication Date Title
US10582328B2 (en) Audio response based on user worn microphones to direct or adapt program responses system and method
US10178292B2 (en) Wearable apparatus with wide viewing angle image sensor
US20180124497A1 (en) Augmented Reality Sharing for Wearable Devices
US20170105622A1 (en) Monitoring pulse transmissions using radar
JP6808751B2 (ja) 表示装置
WO2019039591A4 (ja) 読み上げシステム及び読み上げ方法
US20160249141A1 (en) System and method for improving hearing
CN104509129A (zh) 耳机方位的自动检测
KR20150109229A (ko) 글래스 타입 단말기
JP2015156610A (ja) 電子機器、および電源制御方法
KR102340794B1 (ko) 웨어러블 디바이스 및 이에 대한 제어 방법
US10321217B2 (en) Vibration transducer connector providing indication of worn state of device
CN115211144A (zh) 助听器系统和方法
WO2021103990A1 (zh) 显示方法、电子设备及系统
KR20140000110U (ko) 인터페이스 전송처리 기능을 가진 안경
CN114079838A (zh) 一种音频控制方法、设备及系统
CN109257490A (zh) 音频处理方法、装置、穿戴式设备及存储介质
KR20180066827A (ko) 헤드 마운트 디스플레이 장치
JP2021033368A (ja) 読み上げ装置
JP2014027459A (ja) 通信装置、通信方法及び通信プログラム
US20200241656A1 (en) Information processing apparatus, information processing method, and program
JP6766403B2 (ja) 頭部装着型表示装置、頭部装着型表示装置の制御方法、コンピュータープログラム
US10088894B2 (en) Implanted devices and related user interfaces
JP2020067955A (ja) 表示システム、デバイス、プログラム、及びデバイスの制御方法
US11561404B2 (en) Mount device to which an external electronic device can be coupled so as to slope

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240507