JP2004194207A

JP2004194207A - 携帯端末装置

Info

Publication number: JP2004194207A
Application number: JP2002362555A
Authority: JP
Inventors: Tomohiro Yamamoto; 知広山本
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2002-12-13
Filing date: 2002-12-13
Publication date: 2004-07-08

Abstract

【課題】場所を問わず、発声や手操作を要することなく、利用者のコミュニケーションを支援することが可能な携帯端末装置を提供すること。
【解決手段】表示部１１０に、当該携帯端末装置の利用者に対して文字の一覧を表示する。撮像部１３０により利用者の眼球を逐次撮像し、その画像を視線入力処理部２１０に供給する。視線入力処理部２１０は、得られた画像から利用者の視線方向を検出し、その視線方向に基づき５０音の一覧内の文字を特定する。特定された文字は音声合成機能付音源２４０に供給され、音声信号に合成され、スピーカ１６０から放音される。これにより、発声やキー操作を要することなく、利用者が文字列を入力することができ、その文字列を発音させることにより、他者と会話によるコミュニケーションを図ることができる。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
本発明は、無線通信回線を介して通話を行うために使用される携帯端末装置に関し、特に視線入力機能を備えた携帯端末装置に関する。
【０００２】
【従来の技術】
携帯端末装置の一種である携帯電話においては、従来からの通話機能に加え、各種の付加機能に対する要請があり、例えば発声機能や運動機能に障害を有する人々のコミュニケーションを支援するための付加機能に対する要請がある。従来、この種の支援装置としては、発声装置を有する車イスが知られており、利用者が手元のスティック操作により指定した文字を音声に変換して発音するようになっている。また、この種の支援装置に利用できるものとしては、利用者がキー操作により指定した文字列（文章）を読み上げる機能を有する携帯電話もある。さらには、タブレットを用いて入力された文字データを音声データに変換して発音する音声筆談器もある（特許文献１参照）。
【０００３】
【特許文献１】
特開平０９−３１９２９７号公報
【０００４】
【発明が解決しようとする課題】
しかしながら、上述の発声装置は、車イスに取り付けられるものであるために携行性に乏しく、使用可能な場所が限定される。しかも、スティック操作を要するので、例えば手の運動機能にも障害を有している人にとっては利用しにくい面がある。また、読み上げ機能を有する上述の携帯電話によれば、携行性には優れるものの、キー操作により文字を入力しなければならないので、手の運動機能に障害を有している人にとっては同様に不便である。さらに、上述の音声筆談器によれば、タブレットを用いて文字入力する必要があり、同様に手の運動機能に障害を有している人にとっては不便である。
【０００５】
この発明は、上記事情に鑑みてなされたもので、場所を問わず、発声や手操作を要することなく、利用者のコミュニケーションを支援することが可能な携帯端末装置を提供することを目的とする。
【０００６】
【課題を解決するための手段】
上記課題を解決するため、この発明は以下の構成を有する。
即ち、この発明に係る携帯端末装置は、当該携帯端末装置の利用者に対し所定の配列を有する文字の一覧を表示する表示手段（例えば後述する表示部１１０に相当する構成要素）と、前記利用者の視線方向に基づき前記一覧内の文字を入力する視線入力手段（例えば後述する撮像部１３０と視線入力処理部２１０とを含む構成要素）と、前記視線入力手段により入力された文字を発音するための音声信号を合成する音声合成手段（例えば後述する音声合成機能付音源２４０に相当する構成要素）と、前記音声合成手段により合成された音声信号に基づき発音する発音手段（例えば後述するスピーカ１６０に相当する構成要素）とを備える。
【０００７】
ここで、前記携帯端末装置において、例えば、前記視線入力手段は、前記利用者の眼球を撮像する撮像部（例えば後述する撮像部１３０に相当する構成要素）と、前記撮像部により撮像された画像から前記利用者の視線方向を検出し、該視線方向から入力すべき文字を特定する視線入力処理部と、を備えて構成される。また、前記利用者がまばたきする直前の視線の方向を検出するように、前記視線入力手段を構成してもよい。
なお、前記視線入力手段で入力された文字の情報を、当該携帯端末装置の通信機能を実現する通信部に供給してもよく、また前記音声合成手段で合成された音声信号を前記通信部に供給してもよい。
【０００８】
この発明の作用を説明する。
当該携帯端末装置に文字を入力する場合、利用者は、表示手段により一覧として表示された文字のうち、入力しようとする文字に視線を合わせる。視線入力手段は、利用者の視線の方向からその文字を認識して入力する。このとき、入力すべき文字の確定は、例えば、利用者がまばたきする直前の視線方向を検出することにより行う。具体的には、上記撮像部で撮像された画像のうち、利用者がまばたきする直前の画像から視線方向を特定し、その視線方向に位置する文字を、入力すべき文字として認識する。この認識された文字を発音するための音声信号が音声合成手段により合成され、この音声信号に基づき発音手段が発音する。
【０００９】
また、例えば、視線入力手段で入力された文字を通信部に供給するように構成すれば、メール等の文字情報として外部に送信することが可能になる。また、音声合成手段で合成された音声信号を通信部に供給するように構成すれば、音声情報として外部に送信することが可能になる。
従って、この発明の構成によれば、視線方向から入力すべき文字を指定するように携帯端末装置を構成したので、場所を問わず、しかもキー操作によることなく携帯端末装置に文字を入力することが可能になると共に、その文字を発音させることが可能になる。よって、利用者自身が発声やキー操作によることなく、他者とのコミュニケーションが可能になる。
【００１０】
【発明の実施の形態】
以下、図面を参照して、この発明の一実施形態を説明する。
図１に、この実施形態に係る携帯端末装置１００の外観を示す。この携帯端末装置１００は、通話携帯電話であって、無線公衆回線を介した本来の通信機能に加え、文字等を利用者の視線により入力する視線入力手段と、入力されたテキストを発音するための発音手段とをさらに備えている。
【００１１】
図１において、１１０は表示部、１２０はキー入力部、１３０はＣＣＤカメラ等の撮像部、１４０は受話用のスピーカ、１５０は送話用のマイクロホン、１６０はスピーカ、１７０はアンテナである。ここで、撮像部１３０は、視線入力時に利用者の眼球を撮像するものであり、スピーカ１６０は視線入力された文字を放音するためのものである。また、表示部１１０は、携帯電話に必要とされる一般的な表示機能の他、視線入力に使用される５０音の一覧と、発音の開始を指示するための特殊文字「ENTER」の表示機能を有している。
【００１２】
上述の一覧は、視線入力との関係上、所定の配列を有しており、入力すべき文字が視線方向に位置するように各文字の配置が適切に設定されている。この実施形態では、５０音の文字の一覧を表示するものとするが、これに限らず、数字、アルファベット、図形等であってもよく、発声に使用可能であればどのようなキャラクタから一覧を構成してもよい。この実施形態では、一覧に表示される文字は、発声可能な全てのキャラクタを含むものとする。
【００１３】
図２に、携帯端末装置１００のブロック構成を示す。上述の図１に示す要素と共通する要素には同一符号を付し、その説明を省略する。
図２において、２１０は視線入力処理部であり、携帯端末装置１００の利用者の視線を検出し、その視線方向から文字を特定するための処理を実行する。この視線入力処理部２１０は、上述の撮像部１３０と共に視線入力手段を構成するが、その原理は、福祉機器として公知の「視線入力コミュニケーション装置」（ＵＲＬ：http://www.rehab.go.jp/ri/kaihatsu/itoh/egc.htm、平成１４年１１月１４日検索）と同様である。
【００１４】
２２０は通信部であり、無線公衆回線を介した通信処理を行うものである。この通信部２２０にはアンテナ１７０が接続される。２３０は音声処理部であり、音声信号を符号化／復号化するものである。この音声処理部２３０には、受話用のスピーカ１４０と送話用のマイクロホン１５０が接続される。２４０は音声合成機能付音源であり、入力された文字を発音するための音声信号を合成するものである。
【００１５】
２５０はＣＰＵ(Central Processing Unit)などからなる制御部であり、この装置全体の動作を制御するものである。２６０はＲＡＭ(Random Access Memory)からなる書き替え可能な記憶部であり、処理の過程で発生する一時的なデータを格納するものである。２７０はＲＯＭ(Read Only Memory)からなる記憶部であり、制御部２５０の動作プログラムが格納されている。２８０はバイブレータであり、機械的振動によって着信を報知するものである。２９０はバスである。
【００１６】
次に、図３に示すフローに沿って、この実施形態の視線入力動作について説明する。携帯端末装置１００は、通常の携帯電話としての動作モードに加えて、視線入力モードの選択が可能となっており、この実施形態の動作の説明では、予め、キー入力部１２０の操作により視線入力モードが設定されているものとする。視線入力モードの場合、制御部２５０による制御の下、表示部１１０に５０音の一覧が表示されると共に、撮像部１３０が作動状態に置かれる。この５０音の一覧は、制御部２５０の動作プログラムと共に記憶部（ＲＯＭ）２７０に格納されており、制御部２５０がこの一覧を記憶部２７０から読み出して表示部１１０に表示させる。
【００１７】
視線入力を行う場合、携帯端末装置１００の利用者は、撮像部１３０の撮像範囲内に眼が収まるように、撮像部１３０に対する眼の位置関係を調整する。そして、入力しようとする文字に視線を合わせることにより、入力すべき文字を指定し、まばたきすることにより文字を確定する。例えば、文字列「こんにちは」を入力する場合、最初に文字「こ」に視線を合わせ、その状態でまばたきを１回行う。これにより、文字「こ」が入力される。その後、「ん」、「に」、「ち」、「は」の各文字に対して同様の所作を順に行い、各文字を入力する。最後に、発音の開始を指示するための特殊文字「ENTER」に対し同様の所作を行う。
【００１８】
ここで、上述の利用者の一連の所作の間、携帯端末装置１００内の撮像部１３０は利用者の眼球を逐次撮像し、その画像を視線入力処理部２１０に出力する。視線入力処理部２１０は、その画像から利用者の視線方向を検出し、その視線方向に基づき一覧内の文字を入力するための処理（ステップＳ１〜Ｓ４）を実行する。具体的には、視線入力処理部２１０は、撮像部１３０で撮像された画像から、利用者がまばたきしたか否かを判別する（ステップＳ１）。まばたきがない場合には（ステップ；ＮＯ）、このステップＳ１が一定周期で繰り返され、まばたきがなされるまで次の処理に移行しない。
【００１９】
続いて、まばたきがあると判別した場合（ステップＳ１；ＹＥＳ）、視線入力処理部２１０は、まばたきをする直前の利用者の視線方向を検出し、その視線方向から入力すべき文字を特定する（ステップＳ２）。ここで、まばたきをする直前の視線方向を決定する手法としては、例えば、撮像部１３０で逐次撮像される画像を一定期間保持し、まばたきがあった場合に、その画像の直前の画像を読み出し、この画像から決定する手法が用いられる。
【００２０】
続いて、上述の視線入力処理部２１０により特定された文字は、制御部２５０による制御の下、通常のキー入力が行われた場合と同様に、表示部１１０に順次表示される（ステップＳ３）。図１に示す例では、表示部１１０の最上段に文字列「こんにちは」として表示され、その下側に５０音の一覧が表示されている。また、視線入力処理部２１０により特定された文字は、上述のように表示されると共に記憶部（ＲＡＭ）２６０にも順次記憶される。
【００２１】
続いて、制御部２５０は、視線入力処理部２１０により特定された文字が「ENTER」か否かを判別する（ステップＳ４）。「ENTER」ではない場合（ステップＳ４；ＮＯ）、上述のステップＳ１に処理を戻し、同様の視線入力処理を繰り返し行う。これに対し、「ENTER」である場合（ステップＳ４；ＹＥＳ）、上述の視線入力処理部２１０により特定されて記憶部２６０に記憶された文字を表すデータを音声合成機能付音源２４０に供給し、この入力された文字列を発音するための音声信号を合成させ、この音声信号に基づきスピーカ１６０に発音させる。いま、「ENTER」が入力される前の段階では、文字列「こんにちは」が記憶部２６０に記憶された状態にあるから、この文字列「こんにちは」を表すデータが音声合成機能付音源２４０に供給され、スピーカ１６０から文字列「こんにちは」が発音される。
【００２２】
この実施形態によれば、次のような効果を得ることができる。即ち、視線入力により文字を入力し、それを音声信号に合成するようにしたので、本来音声として発音すべき文字列を音声やキー操作によらずに入力することが可能になり、例えば発声機能に障害を有する人々の会話によるコミュニケーションを支援したり、静寂な場所で周囲に迷惑を与えることなく通話することも可能になる。
また、この実施形態によれば、視線入力する際に５０音の一覧を表示するようにしたので、視線方向を変えるだけで異なる文字を即座に入力することが可能になり、文字列を高速に入力することが可能になる。
さらに、利用者の意思に基づく「まばたき」により入力すべき文字を確定するようにしたので、文字の誤確定を防止することが可能になる。
【００２３】
以下に実施形態のポイントをまとめる。
（１）画面に表示した５０音の文字を見つめる利用者の視線を検出し、その文字を選択・表示する。これにより、音声を用いることなくコミュニケーションを図ることが可能になる。視線の検出は眼球の画像から検出される。
（２）表示部１１０に５０音の一覧が表示される。
（３）ＣＣＤカメラなどの撮像部１３０で利用者の眼球を撮像し、その画像から使用者の視線方向にある文字を特定して表示する。
（４）視線入力手段により入力された文字は、音声合成機能付音源２４０で音声信号に合成され、スピーカ１６０から発音される。
（５）撮像部１３０は、一般的な携帯電話に付属する既存のカメラを代用することが可能である。
【００２４】
以上、この発明の一実施形態を説明したが、この発明は、この実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等があっても本発明に含まれる。例えば、上述の実施の形態では、まばたきにより文字を確定するものとしたが、まばたきの回数により文字の指定や表示形態を制御するものとしてもよい。例えば、まばたきを連続して２回行った場合には５０音の一覧を表示し、連続して３回行った場合には数字を表示する等の制御があり得る。また、「まばたき」と「文字を見つめる時間」との組み合わせにより文字の確定等を制御するものとしてもよい。
【００２５】
また、上述の実施形態では、視線入力された文字をスピーカから発音するものとしたが、メールなどの文字情報として外部に送信するようにしてもよい。この場合、視線入力処理部２１０により入力された文字は、制御部２５０の制御の下、通信部２２０に供給され、この通信部２２０を介して送信される。
また、音声合成機能付音源２４０により得られた音声信号を、音声処理部２３０を介して通信部２２０に供給するようにしてもよい。これにより、視線入力された文字列を音声情報として外部に送信することが可能になる。したがって、この場合、利用者が実際には発音することなく外部と通話することが可能になる。
【００２６】
【発明の効果】
以上説明したように、この発明によれば、視線入力により文字を入力し、その文字を発音するようにしたので、場所を問わず、発声や手操作を要することなく、利用者のコミュニケーションを支援することが可能となる。
【図面の簡単な説明】
【図１】この発明の実施の形態に係る携帯端末装置の外観図である。
【図２】この発明の実施の形態に係る携帯端末装置のブロック図である。
【図３】この発明の実施の形態に係る携帯端末装置の動作の流れを示すフローチャートである。
【符号の説明】
１００；携帯端末装置（携帯電話）、１１０；表示部、１２０；キー入力部、１３０；撮像部（ＣＣＤカメラ）、１４０；スピーカ（受話用）、１５０；マイクロホン（送話用）、１６０；スピーカ、１７０；アンテナ、２１０；視線入力処理部、２２０；通信部、２３０；音声処理部、２４０；音声合成機能付音源、２５０；制御部（ＣＰＵ）、２６０；記憶部（ＲＡＭ）、２７０；記憶部（ＲＯＭ）、２８０；バイブレータ、２９０；バス。

Claims

当該携帯端末装置の利用者に対し所定の配列を有する文字の一覧を表示する表示手段と、
前記利用者の視線方向に基づき前記一覧内の文字を入力する視線入力手段と、
前記視線入力手段により入力された文字を発音するための音声信号を合成する音声合成手段と、
前記音声合成手段により合成された音声信号に基づき発音する発音手段と、
を備えた携帯端末装置。
前記視線入力手段が、
前記利用者の眼球を撮像する撮像部と、
前記撮像部により撮像された画像から前記利用者の視線方向を検出し、該視線方向から入力すべき文字を特定する視線入力処理部と、
を備えたことを特徴とする請求項１に記載された携帯端末装置。
前記視線入力手段が、
前記利用者がまばたきする直前の視線の方向を検出することを特徴とする請求項２に記載された携帯端末装置。