JP3846868B2 - コンピュータ装置、表示制御装置、ポインタの位置制御方法、プログラム - Google Patents
コンピュータ装置、表示制御装置、ポインタの位置制御方法、プログラム Download PDFInfo
- Publication number
- JP3846868B2 JP3846868B2 JP2002157836A JP2002157836A JP3846868B2 JP 3846868 B2 JP3846868 B2 JP 3846868B2 JP 2002157836 A JP2002157836 A JP 2002157836A JP 2002157836 A JP2002157836 A JP 2002157836A JP 3846868 B2 JP3846868 B2 JP 3846868B2
- Authority
- JP
- Japan
- Prior art keywords
- pointer
- volume
- mode
- voice
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 32
- 238000001514 detection method Methods 0.000 claims description 33
- 230000008859 change Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 21
- 230000006870 function Effects 0.000 description 13
- 230000007704 transition Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- User Interface Of Digital Computer (AREA)
- Position Input By Displaying (AREA)
Description
【発明の属する技術分野】
本発明は、表示画面上に表示されるポインタを操作するためのポインタの位置制御方法等に関する。
【0002】
【従来の技術】
周知のように、PC(Personal Computer)を操作するためのユーザインターフェイスの一つとしてマウスが広く普及している。マウスは、机上のマウスをユーザが移動させることで、モニタ上に表示されるポインタを操作するものである。
【0003】
近年、他のユーザインターフェイスとして、音声認識を用いるものが注目されている。これは、マイクを通して入力した音声を認識することにより、文章等の入力が行えるもので、キーボードの代わりとして用いることができるものである。このような音声認識用のアプリケーションの付加機能として、ボイスマウス等と称されるものがある。これは、マイクを通してユーザが所定のコマンドを発声することにより、マウスを用いること無く、モニタ上に表示されるポインタを操作するものである。
【0004】
【発明が解決しようとする課題】
しかしながら、上記のように音声認識によってポインタを操作する従来の技術には、以下に示すような問題が存在する。
まず、通常の音声認識による入力を行うモードからポインタを操作するためのモードに移行する場合、ポインタを移動させる場合、ポインタの移動を停止させる場合、クリックやダブルクリック操作を行う場合等に、それぞれ所定のコマンドをユーザは発声する必要がある。このため、ユーザは多くのコマンドを憶えなければならない。
また、例えばポインタを移動させるためのコマンドには、「上」・「下」・「左」・「右」等の移動方向や、「5cm」等といった移動距離、「速く」・「遅く」等といった移動速度を表現するものがあり、これらを適確に用いて画面上の所望の位置をすばやくポイントするのは困難である。
さらに、例えば通常の音声認識による入力を行っている状態から、ポインタを操作するためのモードに移行してポインタを所望の位置まで移動させ、さらにクリック操作を行うようなケースでは、複数のコマンドを次々と発声しなければならず、ユーザはこれを面倒に感じることもある。
加えて、小さなアイコンにポインタを合わせる場合等、ポインタを微細に動かす必要があるが、上記したようなコマンドを用いてそのような操作を行うことは容易ではない。
【0005】
特に、上記したような音声認識によるポインタの操作は、手でマウスを操作するのが困難であるユーザを主な対象としており、ユーザビリティの向上は非常に重要な課題である。
本発明は、このような技術的課題に基づいてなされたもので、ポインタの操作をより容易に行うことのできるポインタの位置制御方法等を提供することを目的とする。
【0006】
【課題を解決するための手段】
かかる目的のもと、本発明のコンピュータ装置は、音声入力手段で外部から入力された音声の音量を音量検出手段で検出し、周波数を周波数検出手段で検出する。そして、検出された音量と周波数とに基づいて、表示手段の表示画面上に表示されるポインタの動作をポインタ制御手段にて制御するのである。
このとき、ポインタ制御手段は、音声の音量に基づいてポインタの位置を制御し、周波数に基づいてポインタに対する特定の処理を実行させることができる。例えば、音量の大小によって一方向におけるポインタの位置を決めるのである。音量が大きくなるとある方向にポインタを移動させ、音量が小さくなると反対方向にポインタを移動させることができる。このとき、音量とポインタの位置座標とを関数等によって1対1に対応付けておくのが好ましい。また、周波数に基づいて実行させる特定のコマンドとしては、例えば以下のようなものがある。例えば音声の周波数が所定時間以上一定範囲内にある場合に音量の変化に対するポインタの位置の変化の割合を複数段階に切り替える、音声の周波数、つまり音程を変えることによってポインタの移動方向を切り替える、等である。
また、このコンピュータ装置は、音声入力手段で入力された音声の言葉を認識する音声認識手段をさらに備えることもできる。この場合、検出された音量または周波数の変化に基づいて、ポインタ制御手段によるポインタの制御モードと音声認識手段による音声の認識モードを切り替えることができる。
【0007】
本発明の表示制御装置は、音量検出部にて、外部から入力された音声の音量を検出し、周波数検出部にて、音声の周波数を検出する。そして、ポインタ制御部にて、表示装置の表示領域上に表示されるポインタを、検出された音量に対応する位置に移動させる。ここで、ポインタ制御部は、音量の変化に対するポインタの位置の移動量が異なる複数のモードを有し、特定のコマンドが入力されたときにモードを切り替えることができる。つまり、同じ音量の変化に対し、ポインタの移動量を切り替えることができるのである。これにより、ポインタを大きく移動させるモードと、微調整等のために小さく移動させるモードとを使い分けることが可能となる。モードを切り替えるための特定のコマンドとしては、所定時間継続して一定範囲内の音量を検出する、等がある。
また、ポインタ制御部は、表示装置の表示領域上でポインタの移動方向における位置を、例えばポインタの位置に応じて表示されるインジケータライン等によって強調表示させることができる。また、音量の変化に対するポインタの位置の移動量がより少ないモードであるときに、ポインタの移動可能な範囲を、色分け等によって明示させることもできる。
このような表示制御装置は、上記のようにして表示装置の表示領域上に表示されるポインタを制御するものであって、必ずしも表示装置を一体に備える必要はない。
【0008】
本発明は、外部から入力された音声の音量に応じてポインタの位置を移動させるステップと、音声の周波数に応じてポインタの移動方向を切り替えるステップと、を含むポインタの位置制御方法として捉えることもできる。これにより、音声によってポインタを少なくとも2方向に移動させることができる。
また、音声の周波数が所定の変動を示したときに、その時点でのポインタの位置に関連付けられた特定のコマンド、例えばクリック操作等を実行することも可能である。
さらに、音量が所定以下となった状態が一定時間継続したときに、音声によるポインタの位置の制御を終了させることもできる。
【0009】
本発明のプログラムは、外部から入力された音声の音量および周波数を検出する処理(a)と、検出された音量に応じてポインタの位置を移動させる処理(b)と、検出された周波数に応じてポインタの移動方向を切り替える処理(c)と、をコンピュータ装置に実行させることを特徴とする。ここで、処理(b)では、音量の変化に対してポインタが第一の移動量となるモードと、同じ音量の変化に対してポインタが第一の移動量とは異なる第二の移動量となる他のモードとを切り替えることができる。つまり、モードを切り替えることによって、同じ音量の変化に対するポインタの移動量を切り替えることができるのである。モードを切り替えるには、検出された音量が所定時間一定範囲内である、等の条件が採用できる。
また、このプログラムは、外部から入力された音声の言葉を認識する処理(d)をさらにコンピュータ装置に実行させることができる。つまりこのプログラムはいわゆる音声認識アプリケーションとして機能する。このようなプログラムにおいて、処理(d)にて周波数が所定範囲内となった状態が一定時間継続したときに、処理(b)に移行させることができる。逆に、処理(b)にて音量が所定以下となった状態が一定時間継続したときに、処理(d)に移行させることもできる。
【0010】
【発明の実施の形態】
以下、添付図面に示す実施の形態に基づいてこの発明を詳細に説明する。
図1は、本実施の形態におけるコンピュータ装置の機能的な構成を説明するための図である。
この図1に示すように、コンピュータ装置10は、デスクトップ型、ノートブック型等のPCによって構成されるものであり、マイク(音声入力手段)11から入力される音声をデジタル化する音声入力制御部12、音声認識処理を司る音声認識処理部13、モニタ(表示手段)14上におけるポインタの表示を制御するマウスポインタ制御部15、モニタ14の表示を制御する表示制御部16、を備える。
【0011】
上記の構成のうち、音声認識処理部13は、コンピュータ装置10にインストールされた音声認識用のアプリケーションプログラムが、コンピュータ装置10のCPUに所定の処理を実行させることによって実現される機能である。
この音声認識処理部13は、音声認識モードにおける音声による文章入力を司る音声認識制御部(音声認識手段)20と、ボイスマウスモードにおける音声によるポインタの操作を司るボイスマウス制御部(ポインタ制御手段、ポインタ制御部)21と、ユーザが発声した音声の音程を検出する音程検出部(周波数検出手段、周波数検出部)22と、音量を検出する音量検出部(音量検出手段)23と、音声認識モードとボイスマウスモードの間でのモードの移行を制御するモード移行制御部24と、を備える。
【0012】
図2、図3に示すように、このような音声認識処理部13では、音声認識処理の稼動を開始するとまず、音声認識制御部20によって実行される通常の音声認識モードに入る。
通常の音声認識モードでは、マイク11から音声入力制御部12を介して入力されたユーザの音声を予め登録されたデータに基づいて解析することによって、ユーザが発声した音声によって形成される言葉を認識し、この言葉に基づいた文章の入力やコマンドの実行等の処理を行うことができる(ステップS101、S102)。
【0013】
通常の音声認識モードの状態であるときに、言葉として認識することができず、一定範囲内の音程、音量で所定時間Ta以上継続した音声を音程検出部22、音量検出部23で検出すると、ボイスマウス制御部21によって実行されるボイスマウスモードへと移行する(ステップS103〜S107)。
【0014】
このような通常の音声認識モードにある状態で、検出した音声の平均音量Vaが一定であり、かつ音程F1が所定の範囲Rh(Fa≦F1≦Fb)であるときにはポインタをモニタ14の表示領域の横方向に移動させるモード(以下、これをボイスマウスモード(横)と適宜称する)に移行し(ステップS105、S106)、音程F1が所定の範囲Rl(Fc≦F1≦Fd)であるときにはポインタをモニタ14の表示領域の縦方向に移動させるモード(以下、これをボイスマウスモード(縦)と適宜称する)に移行する(ステップS105、S107)。ここで、例えばFa≦Fb≦Fc≦Fdとする。つまり、低い音程であればボイスマウスモード(横)に移行し、高い音程であればボイスマウスモード(縦)に移行するのである。
【0015】
図4に示すように、ボイスマウス制御部21が実行するボイスマウスモード(横)およびボイスマウスモード(縦)では、それぞれ音程検出部22で直前の所定時間で検出した音量の平均値である平均音量Vaに応じ、マウスポインタ制御部15によってモニタ14上に表示させるポインタを、モニタ14の表示領域の横方向あるいは縦方向に移動させる(ステップS201)。このときに音量検出部23で検出される平均音量Vaは、予め設定された所定の範囲(Vmin≦Va≦Vmax)に収まっている必要がある。また、音程検出部22で検出される音声の音程F1も、ボイスマウスモード(横)であれば範囲Rh、ボイスマウスモード(縦)であれば範囲Rlに収まっている必要がある。
平均音量Vaに応じてポインタを移動させるために、モニタ14の表示領域の横方向、縦方向の位置座標X、Yと、平均音量Vaとが1対1で関連付けられたデータが予めコンピュータ装置10の所定のデータ格納領域に格納されている。位置座標X、Yと平均音量Vaとを1対1で関連付ける方法としては、位置座標X、Yと平均音量Vaとを、
X=F(Va)、
Y=G(Va)
といった関数で表現する。ここで、Xは、
表示領域の左端の位置座標 ≦ X ≦ 表示領域の右端の位置座標、
Yは、
表示領域の下端の位置座標 ≦ Y ≦ 表示領域の上端の位置座標
となる。
関数F、Gとしては、図5に示すような一次関数が好適であるが、この他に非線形関数等を採用することもできる。
【0016】
ところで、マウスポインタ制御部15では、ボイスマウスモードに移行した状態では、モニタ14の表示領域上に表示するポインタの位置をより明確に示すため、図5に示したように、ポインタPの位置座標に合わせてインジケータラインLを表示する。このインジケータラインLは、ポインタPを横方向に移動させるボイスマウスモード(横)であれば、縦方向に延びる線によって構成され、ポインタPを縦方向に移動させるボイスマウスモード(縦)であれば、横方向に延びる線によって構成される。
図5の例では、(1)の位置から平均音量Vaが上昇すればインジケータラインLは表示領域の右方に移動し(例えば(2)の位置)、平均音量Vaが下降すればインジケータラインLは表示領域の左方に移動する(例えば(3)の位置)。
【0017】
図2、図4に示したように、ボイスマウス制御部21によって実行されるボイスマウスモード(横)あるいはボイスマウスモード(縦)である状態において、音量検出部23で検出する音量が、予め設定された下限値Vminを下回り、その状態が所定時間Te以上続いたときには、発声が終了して無音状態であると判断し、通常の音声認識モードに戻る(ステップS202〜S205)。
また、ボイスマウスモード(横)である状態において、音程検出部22で検出する音声の音程F1が範囲Rh内から範囲Rl内に変わり、しかも範囲Rl内の音声が所定時間Td以上連続したときには、ボイスマウスモード(横)からボイスマウスモード(縦)に移行し、ポインタPの移動方向を横方向から縦方向に切り替える(ステップS206〜S208)。逆に、ボイスマウスモード(縦)である状態において、音程検出部22で検出する音声の音程F1が範囲Rl内から範囲Rh内に変わり、しかも範囲Rh内の音声が所定時間Td以上連続したときには、ボイスマウスモード(縦)からボイスマウスモード(横)に移行し、ポインタPの移動方向を縦方向から横方向に切り替える(ステップS206〜S208)。これに伴い、図5の(4)に示したように、切り替え直後にインジケータラインLが縦方向から横方向、あるいは横方向から縦方向に切り替わるわけであるが、切り替わった直後のインジケータラインLは、その時点でのポインタPの位置に合わせて表示される。
【0018】
また、図2および図4に示したように、ボイスマウス制御部21によって実行されるボイスマウスモード(横)あるいはボイスマウスモード(縦)である状態において、音量検出部23で検出する平均音量V2が一定の範囲σ内に所定時間Tb継続しているときには、微調整モードに移行する。ここで、ボイスマウスモード(横)であったときには微調整モード(横)に移行し、ボイスマウスモード(縦)であったときには微調整モード(縦)に移行するものとする(ステップS209、S210)。
【0019】
ボイスマウスモード(横)あるいはボイスマウスモード(縦)である状態において、音量検出部23で検出する音量が予め設定された下限値Vminを下回り、発声が終了したと判断できるときには、その直前の所定時間Tcの間における音程変化ΔFが、予め設定された一定の値γを超えるという条件(ΔF≧γ)を満たすかどうかを判断する。その結果、条件を満たすのであれば、ボイスマウス制御部21では、その時点でポインタPがポイントしているオブジェクトに対する所定の操作、例えばシングルクリックやダブルクリックを実行する(ステップS203、S211)。
なお、上記の所定時間Tcは、最終的に音量検出部23で検出する音量が0(ゼロ)になった時点から予め設定された所定時間Ta2だけ遡って設定される。これは、ユーザが発声をやめるときに、意図することなく声が揺れてしまうことなどがあるので、これを排除するためである。
ところで、上記の音程変化ΔFのパターンを予め複数種設定しておき、検出した音程変化ΔF のパターンに応じて、ポインタPがポイントしているオブジェクトに対する操作内容を変えることもできる。例えば、シングルクリックやダブルクリックだけでなく、ドラッグ操作を行うためにいわゆる左クリックを維持する操作や、ドラッグ操作の終了時に左クリックを解放する操作、右クリック操作等である。
【0020】
さて、図6に示すように、前記した、ボイスマウス制御部21によって実行される微調整モード(横)および微調整モード(縦)では、それぞれ音程検出部22で直前の所定時間検出した音量の平均値である平均音量Vbに応じ、マウスポインタ制御部15によってモニタ14上に表示させるポインタPを、モニタ14の表示領域の横方向あるいは縦方向に移動させる(ステップS301)。このときに平均音量Vaは、予め設定された所定の範囲(Vmin≦Vb≦Vmax)に収まっている必要がある。また、音程検出部22で検出される音声の音程F1も、ボイスマウスモード(横)であれば範囲Rh、ボイスマウスモード(縦)であれば範囲Rlに収まっている必要がある。
微調整モード(横)および微調整モード(縦)では、ボイスマウスモード(横)およびボイスマウスモード(縦)に比較すると、同じ音量の変化に対するポインタPの移動量が少なくなる。
平均音量Vbに応じてポインタPを移動させるために、モニタ14の表示領域の横方向、縦方向の位置座標X、Yと平均音量Vbとを1対1で関連付ける、
X=P(Vb)、
Y=Q(Vb)
といった関数P、Qが予め設定されている。関数P、Qとしては、一次関数が好適であるが、この他に非線形関数等を採用することもできる。
微調整モード(横)および微調整モード(縦)において、ボイスマウスモード(横)あるいはボイスマウスモード(縦)から微調整モード(横)あるいは微調整モード(縦)に移行した状態でのポインタPの位置座標が(Xa、Ya)であるとすると、Xは、
Xa−α ≦ X ≦ Xa+α、
Yは、
Ya−β ≦ Y ≦ Ya+β、
となる(ただしα、βは予め設定された値)。
つまり、微調整モード(横)および微調整モード(縦)におけるポインタPの移動範囲を、モニタ14の表示領域よりも小さな範囲に設定するのである。
そして、検出した平均音量Vbに応じて、ポインタPをこのように設定された移動範囲内で移動させるため、音量の変化に対する移動変化がボイスマウスモード(横)あるいはボイスマウスモード(縦)よりも小さくなるよう、前記関数P、Qが設定されている。
【0021】
ところで、マウスポインタ制御部15では、ボイスマウスモードに移行した状態では、モニタ14の表示領域上に表示するポインタPの位置をより明確に示すため、図7に示すように、ポインタPの位置座標に合わせてインジケータラインLを表示する。このインジケータラインLは、ポインタPを横方向に移動させる微調整モード(横)であれば、縦方向に延びる線によって構成され、ポインタPを縦方向に移動させる微調整モード(縦)であれば、横方向に延びる線によって構成される。また、微調整モード(横)あるいは微調整モード(縦)では前記のごとくポインタPの移動範囲が制限されており、モニタ14において、ポインタPの移動可能な範囲Aが、色分け等によって明示されるようになっている。
【0022】
図6に示したように、ボイスマウス制御部21によって実行される微調整モード(横)あるいは微調整モード(縦)である状態においても、音量検出部23で検出する音量が、予め設定された下限値Vminを下回り、その状態が所定時間Te以上続いたときには、発声が終了して無音状態であると判断し、通常の音声認識モードに戻る(ステップS302〜S305)。
また、微調整モード(横)である状態において、音程検出部22で検出する音声の音程F1が範囲Rh内から範囲Rl内に変り、しかも範囲Rl内の音声が所定時間Td以上連続したときには、微調整モード(横)から微調整モード(縦)に移行し、ポインタPの移動方向を横方向から縦方向に切り替える。逆に、微調整モード(縦)である状態において、音程検出部22で検出する音声の音程F1が範囲Rl内から範囲Rh内に変わり、しかも範囲Rh内の音声が所定時間Td以上連続したときには、微調整モード(縦)から微調整モード(横)に移行し、ポインタPの移動方向を縦方向から横方向に切り替える(ステップS306〜S308)。
【0023】
微調整モード(横)あるいは微調整モード(縦)である状態において、音量検出部23で検出する音量が予め設定された下限値Vminを下回り、発声が終了したと判断できるときには、その直前の所定時間Tcの間における音程変化ΔFが、予め設定された一定の値γを超えるという条件(ΔF>γ)を満たすかどうかを判断する(ステップS302、S303)。その結果、条件を満たすのであれば、ボイスマウス制御部21では、その時点でポインタPがポイントしているオブジェクトに対する所定の操作、例えばシングルクリックやダブルクリックを実行する(ステップS309)。
このときも、上記の所定時間Tcは、最終的に音量検出部23で検出する音量が0(ゼロ)になった時点から予め設定された所定時間Ta2だけ遡って設定される。
【0024】
つまりユーザからすれば、発声する音声の音量Vaと音程F1を所定時間Ta以上連続させて一定にすることで通常の音声認識モードからボイスマウスモード(横)またはボイスマウスモード(縦)に移行することができる。このとき、発声する音声の音程F1の高低により、ボイスマウスモード(横)とボイスマウスモード(縦)を選択できるのである。そして、ボイスマウスモード(横)またはボイスマウスモード(縦)に移行した状態で、発声する音声の音量Vaを上下させることによって、ユーザは、ポインタPの位置を横方向あるいは縦方向に移動させることができる。ポインタPが、横方向あるいは縦方向において目的の位置に近づいた時点で、必要があれば発声する音声の音程F1を下げたり上げたりすることによって、ボイスマウスモード(横)からボイスマウスモード(縦)、あるいはボイスマウスモード(縦)からボイスマウスモード(横)に切り替えることができる。
このようにして、ポインタPの移動方向を横方向、縦方向に適宜切り替えてポインタPを目的の位置に近づけた時点で、ユーザは、発声する音声の音量を所定時間Tb以上連続させると、ボイスマウスモード(横)またはボイスマウスモード(縦)から微調整モード(横)または微調整モード(縦)に切り替わる。この状態から、さらに発声する音量Vaを上下させることで、ユーザは、ポインタPの位置を横方向あるいは縦方向に微調整することができる。
そして、ポインタPが目的の位置に達した時点で、ユーザは発声を急に停止させる等して、所定時間Tcの間における音程変化ΔFが、予め設定された一定の値γを超えるようにすれば、その時点でポインタPがポイントしているオブジェクトに対して、シングルクリックやダブルクリック等の所定の操作を実行することができる。
さらに、ユーザが発声を停止させ、所定時間Teが経過すると、ボイスマウスモード(横)、ボイスマウスモード(縦)、微調整モード(横)、微調整モード(縦)から抜けて通常の音声認識モードに戻ることができる。
【0025】
図8は、このような操作系において、ユーザが実際に発声を行ってポインタPの操作を行ったときに検出した音の波形の例である。この図8において、区間K1において、ユーザは通常の言葉を発している。そして、区間K2において、ユーザが、所定時間Ta以上、音量と音程(例えば低い音程)を維持することで、続く区間K3でボイスマウスモード(縦)に移行している。図9(a)および(b)に示すように、ユーザはその状態で音量を変化させ、ポインタPを縦方向において目的の位置に近づける。
続く区間K4で、ユーザは発声する音程を上げ、これを所定時間Td以上維持すると、区間K5にてボイスマウスモード(横)に移行するので、図9(c)に示すように、ユーザはその状態で音量を変化させてポインタPを横方向において目的の位置に近づける。
そして、図7(a)、(b)に示したように、ポインタPが目的の位置に近づいた時点で、音量を所定時間Tb以上維持し、微調整モード(横)に移行させ(区間K6)、さらに音量を変化させてポインタPの横方向の位置を微調整する(区間K7)。
今度は、ユーザは発声する音程を下げ、これを所定時間Td以上維持すると、微調整モード(縦)に移行するので(区間K8)、ユーザはその状態で音量を変化させてポインタPの位置を縦方向に微調整する(区間K9)。
最終的に、ポインタPの位置が目的の位置に合った時点で、所定時間Tc内に音程を急激に変化させることで、ポインタPの位置でクリック操作等を実行させる(区間K10)。このとき、所定時間Tcは、無音状態になった状態から所定時間Ta2(区間K11)だけ遡って設定される。
そして、無音状態が所定時間Te続いた後(区間K12)、通常の音声認識モードに復帰している(区間K13)。
【0026】
上述したコンピュータ装置10によれば、ユーザは特定のコマンド等を発声することなく、発声する音量と音程を変化させることで、手を使うことなく「声」のみでポインタPを二次元方向に移動させ、さらにクリック等の操作を行うことが可能となる。
このときには、ポインタPを移動させるには音量を変化させればよいので、ユーザは直感的にポインタPの移動方向(上方または下方、あるいは左方または右方)を把握することができる。そして、ポインタPに近づいて音量の変化を止めることで自動的に微調整モードに移行してマウスの微調整が可能となるので、これもユーザは違和感を感じにくい。さらに、音量と音程のみを変えるという操作形態において、ポインタPを移動させるための音量ではなく、音程を変えることでポインタPの移動方向が切り替わるので、これも直感的に把握しやすい。加えて、ユーザが発声を急激にやめればクリック操作、発声をやめた状態を続ければ通常の音声認識モードに戻るので、これも操作の簡素化に大きく寄与している。
【0027】
なお、上記実施の形態では、コンピュータ装置10としてPCを例に挙げたが、マイクを内蔵あるいは外付けする等して、音声入力を行うことができるデバイスであれば、PC以外にもPDAや携帯型電話端末、インターネット対応型のテレビ、各種表示端末等にも同様の技術が適用可能である。当然、本来マウスで操作するポインタPに限ること無く、各種ポインティングデバイスでキーやボタン等を用いて操作するポインタを移動させるために上記技術を適用できる。
また、上記実施の形態では、2方向にポインタPを移動させる例を挙げたが、例えば携帯型電話端末等において、1方向にのみポインタPを移動させることも可能であり、この場合には、音程の変化による移動方向の切り替え機能を省略し、マウスクリック操作や、ボイスマウスモードと微調整モードとの切り替え等を音程の変化によってコントロールする構成とすることもできる。
さらに、上記実施の形態では、モードの移行、ポインタPの移動、クリック操作等を、全て音量と音程によってコントロールする構成としたが、これらの操作の一部を従来のようなコマンドによって行うことも可能である。
加えて、上記実施の形態では、ポインタPを移動させるにあたり、検出した音量とポインタPの位置座標を関数によって1対1に対応付ける構成としたが、これに代えて、音量と位置座標の双方を対応付けるテーブル等を用いることもできる。
ところで、上記実施の形態では、音量の変化によってポインタPを移動させ、音程によってモードの移行やクリック操作等を行うようにしたが、当然のことながら、音程と音量を入れ替え、音程によってポインタPを移動させ、音量によってモードの移行等を行うことも可能ではある。しかしながら、実際にユーザが発声を行うという人間工学的な見地からすると、上記実施の形態のような構成とするのが望ましい。
【0028】
また、上記実施の形態で示したような音声でポインタ等を移動させるためのプログラムは、以下のような記憶媒体の形態とすることもできる。
すなわち、記憶媒体としては、コンピュータ装置に実行させる上記したようなプログラムを、CD−ROM、DVD、メモリ、ハードディスク等の記憶媒体に、コンピュータ装置が読み取り可能に記憶させれば良い。
これ以外にも、本発明の主旨を逸脱しない限り、上記実施の形態で挙げた構成を取捨選択したり、他の構成に適宜変更することが可能である。
【0029】
【発明の効果】
以上説明したように、本発明によれば、ポインタの操作を音声によって容易に行い、ユーザにとってのユーザビリティを向上させることが可能となる。
【図面の簡単な説明】
【図1】 本実施の形態におけるコンピュータ装置の機能的な構成を示す図である。
【図2】 モードの遷移を示す図である。
【図3】 通常の音声認識モードにおける処理の流れを示す図である。
【図4】 ボイスマウスモードにおける処理の流れを示す図である。
【図5】 音声によってポインタを移動させるときの表示画面の例である。
【図6】 微調整モードでの処理の流れを示す図である。
【図7】 微調整モードでの表示画面の例である。
【図8】 検出される音声波形の例である。
【図9】 ボイスマウスモードでポインタを移動させるときの表示画面の例である。
【符号の説明】
10…コンピュータ装置、11…マイク(音声入力手段)、12…音声入力制御部、13…音声認識処理部、14…モニタ(表示手段)、20…音声認識制御部(音声認識手段)、21…ボイスマウス制御部(ポインタ制御手段、ポインタ制御部)、22…音程検出部(周波数検出手段、周波数検出部)、23…音量検出部(音量検出手段)、24…モード移行制御部
Claims (15)
- 外部から音声の入力を受け付ける音声入力手段と、
前記音声入力手段で入力された音声の音量を検出する音量検出手段と、
前記音声入力手段で入力された音声の周波数を検出する周波数検出手段と、
表示画面上に画像とともに当該画像を指示するためのポインタを表示する表示手段と、
前記周波数検出手段で検出された周波数に基づいて前記ポインタの移動方向を決定し、前記音量検出手段で検出された音量に基づいて当該ポインタの当該移動方向における位置を決定することで、当該ポインタの動作を制御するポインタ制御手段と、
を備えることを特徴とするコンピュータ装置。 - 前記ポインタ制御手段は、前記音量検出手段で検出された音量が一定の範囲内で所定時間継続した場合に、音量の変化に対する前記ポインタの位置の変化の割合を複数段階に切り替えることを特徴とする請求項1記載のコンピュータ装置。
- 前記音声入力手段で入力された音声の言葉を認識する音声認識手段と、
前記ポインタ制御手段による前記ポインタの制御モードと前記音声認識手段による音声の認識モードとを切り替えるモード切り替え手段とをさらに備え、
前記モード切り替え手段は、前記ポインタの制御モードにおいて、前記音量検出手段で検出された音量が所定以下となった状態が一定時間継続したときに、当該ポインタの制御モードから前記音声の認識モードに切り替えることを特徴とする請求項1記載のコンピュータ装置。 - 前記音声入力手段で入力された音声の言葉を認識する音声認識手段と、
前記ポインタ制御手段による前記ポインタの制御モードと前記音声認識手段による音声の認識モードとを切り替えるモード切り替え手段とをさらに備え、
前記モード切り替え手段は、前記音声の認識モードにおいて、前記周波数検出手段で検出された周波数が所定時間一定の範囲内であり、且つ、前記音量検出手段で検出された音量が当該所定時間一定の範囲内で継続したときに、当該音声の認識モードから前記ポインタの制御モードに切り替えることを特徴とする請求項1記載のコンピュータ装置。 - 外部から入力された音声の音量を検出する音量検出部と、
前記音量検出部で検出された音量に基づき、表示装置の表示領域上に表示されるポインタの特定の移動方向における位置を決定するポインタ制御部と、
を備え、
前記ポインタ制御部は、前記音量の変化に対する前記ポインタの位置の移動量の異なる複数のモードを有し、前記音量検出部で所定時間継続して一定範囲内の音量が検出されたときに、当該モードを切り替えることを特徴とする表示制御装置。 - 前記ポインタ制御部は、前記表示装置の表示領域上で前記ポインタの移動方向における位置を強調表示させることを特徴とする請求項5記載の表示制御装置。
- 前記ポインタ制御部は、前記音量の変化に対する前記ポインタの位置の移動量がより少ないモードであるときに、当該ポインタの移動可能な範囲を前記表示装置の表示領域上で明示させることを特徴とする請求項5記載の表示制御装置。
- コンピュータ装置にて外部から入力される音声によって画面上のポインタの位置を制御する方法であって、
入力された音声の周波数に応じて前記ポインタの移動方向を決定するステップと、
入力された音声の音量に応じて前記ポインタの前記移動方向における位置を決定するステップと、
を含むことを特徴とするポインタの位置制御方法。 - 前記ポインタの前記移動方向における位置を決定するステップは、前記音量が所定時間一定であったときに、その後の音量の変化に対するポインタの移動量を減少させることを特徴とする請求項8記載のポインタの位置制御方法。
- 前記周波数が所定の変動を示したときに、その時点で前記ポインタがポイントしているオブジェクトに対する所定の操作を実行するステップをさらに含むことを特徴とする請求項8記載のポインタの位置制御方法。
- 前記音量が所定以下となった状態が一定時間継続したときに、音声による前記ポインタの位置の制御を終了するステップをさらに含むことを特徴とする請求項8記載のポインタの位置制御方法。
- 外部から入力された音声の音量および周波数を検出する処理(a)と、
検出された前記周波数に応じて表示装置に表示するポインタの位置の移動方向を決定する処理(b)と、
検出された前記音量に応じて前記ポインタの前記移動方向における位置を決定する処理(c)と、
をコンピュータ装置に実行させることを特徴とするプログラム。 - 前記処理(c)では、音量の変化に対してポインタが第一の移動量となるモードの状態にて、検出された前記音量が所定時間一定範囲内であったときに、音量の変化に対してポインタが第二の移動量となる他のモードに移行させることを特徴とする請求項12記載のプログラム。
- 外部から入力された音声の言葉を認識する処理(d)をさらに前記コンピュータ装置に実行させ、
前記処理(d)にて前記周波数が所定時間一定の範囲内であり、且つ、前記音量が当該所定時間一定の範囲内で継続したときに、前記処理(b)に移行させることを特徴とする請求項12記載のプログラム。 - 前記処理(c)にて前記音量が所定以下となった状態が一定時間継続したときに、前記処理(d)に移行させることを特徴とする請求項14記載のプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002157836A JP3846868B2 (ja) | 2002-05-30 | 2002-05-30 | コンピュータ装置、表示制御装置、ポインタの位置制御方法、プログラム |
US10/448,786 US7286991B2 (en) | 2002-05-30 | 2003-05-30 | Computer, display control device, pointer position control method, and program |
US11/876,222 US7870002B2 (en) | 2002-05-30 | 2007-10-22 | Computer, display control device, pointer position control method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002157836A JP3846868B2 (ja) | 2002-05-30 | 2002-05-30 | コンピュータ装置、表示制御装置、ポインタの位置制御方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004005038A JP2004005038A (ja) | 2004-01-08 |
JP3846868B2 true JP3846868B2 (ja) | 2006-11-15 |
Family
ID=30112205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002157836A Expired - Fee Related JP3846868B2 (ja) | 2002-05-30 | 2002-05-30 | コンピュータ装置、表示制御装置、ポインタの位置制御方法、プログラム |
Country Status (2)
Country | Link |
---|---|
US (2) | US7286991B2 (ja) |
JP (1) | JP3846868B2 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3846868B2 (ja) | 2002-05-30 | 2006-11-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | コンピュータ装置、表示制御装置、ポインタの位置制御方法、プログラム |
GB0416773D0 (en) * | 2004-07-28 | 2004-09-01 | Ibm | A voice controlled cursor |
JP2007114417A (ja) * | 2005-10-19 | 2007-05-10 | Fujitsu Ltd | 音声データ処理方法及び装置 |
US7921364B2 (en) * | 2005-11-03 | 2011-04-05 | Nuance Communications, Inc. | Controlling a computer user interface with sound |
WO2008139550A1 (ja) * | 2007-05-01 | 2008-11-20 | Osaka Electro-Communication University | 入力インタフェース装置 |
JP4953095B2 (ja) * | 2008-05-20 | 2012-06-13 | 独立行政法人産業技術総合研究所 | 情報処理装置 |
US8775190B2 (en) * | 2011-02-04 | 2014-07-08 | Ryohei Tanaka | Voice-operated control circuit and method for using same |
CN103197858B (zh) * | 2012-01-04 | 2016-10-05 | 广州三星通信技术研究有限公司 | 便携式终端及控制便携式终端的屏幕显示方向的方法 |
CN104699365A (zh) * | 2013-12-10 | 2015-06-10 | 宏碁股份有限公司 | 可携式电子装置及其界面显示方法 |
US9836192B2 (en) * | 2014-02-25 | 2017-12-05 | Evan Glenn Katsuranis | Identifying and displaying overlay markers for voice command user interface |
CN104731549B (zh) * | 2015-04-09 | 2017-12-19 | 安徽咪鼠科技有限公司 | 一种基于鼠标的语音识别人机交互方法 |
CN106383603A (zh) * | 2016-09-23 | 2017-02-08 | 安徽声讯信息技术有限公司 | 一种基于语音鼠标的语音控制系统 |
CN106371801A (zh) * | 2016-09-23 | 2017-02-01 | 安徽声讯信息技术有限公司 | 一种基于语音识别技术的语音鼠标系统 |
JP2018181219A (ja) * | 2017-04-20 | 2018-11-15 | 株式会社計数技研 | 音声操作デバイス及び音声操作プログラム |
CN108511263B (zh) * | 2018-01-18 | 2023-12-19 | 深圳艾尼莫科技有限公司 | 吹气开关 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62157938A (ja) | 1985-12-28 | 1987-07-13 | Fujitsu Ltd | 音声によるカ−ソル位置制御方式 |
US5133011A (en) * | 1990-12-26 | 1992-07-21 | International Business Machines Corporation | Method and apparatus for linear vocal control of cursor position |
US5923337A (en) * | 1996-04-23 | 1999-07-13 | Image Link Co., Ltd. | Systems and methods for communicating through computer animated images |
US5920841A (en) * | 1996-07-01 | 1999-07-06 | International Business Machines Corporation | Speech supported navigation of a pointer in a graphical user interface |
JP3744161B2 (ja) | 1997-03-28 | 2006-02-08 | セイコーエプソン株式会社 | 音声指示装置および音声指示情報記憶媒体 |
US6297818B1 (en) * | 1998-05-08 | 2001-10-02 | Apple Computer, Inc. | Graphical user interface having sound effects for operating control elements and dragging objects |
JP2001147761A (ja) | 1999-11-18 | 2001-05-29 | Clarion Co Ltd | 表示器 |
US6519566B1 (en) * | 2000-03-01 | 2003-02-11 | International Business Machines Corporation | Method for hands-free operation of a pointer |
GB2374772B (en) * | 2001-01-29 | 2004-12-29 | Hewlett Packard Co | Audio user interface |
JP3846868B2 (ja) | 2002-05-30 | 2006-11-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | コンピュータ装置、表示制御装置、ポインタの位置制御方法、プログラム |
-
2002
- 2002-05-30 JP JP2002157836A patent/JP3846868B2/ja not_active Expired - Fee Related
-
2003
- 2003-05-30 US US10/448,786 patent/US7286991B2/en active Active
-
2007
- 2007-10-22 US US11/876,222 patent/US7870002B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US20080215335A1 (en) | 2008-09-04 |
US7286991B2 (en) | 2007-10-23 |
US7870002B2 (en) | 2011-01-11 |
US20040010414A1 (en) | 2004-01-15 |
JP2004005038A (ja) | 2004-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7870002B2 (en) | Computer, display control device, pointer position control method, and program | |
US11726634B2 (en) | Devices, methods, and graphical user interfaces for dynamically adjusting presentation of audio outputs | |
US10592198B2 (en) | Audio recording/playback device | |
JP6728275B2 (ja) | 仮想コンピュータキーボード | |
US20200348816A1 (en) | Unlocking a device by performing gestures on an unlock image | |
JP7049368B2 (ja) | ユーザインタフェースのための触知フィードバック | |
CN110275664B (zh) | 用于提供视听反馈的设备、方法和图形用户界面 | |
US10528139B2 (en) | Devices, methods, and graphical user interfaces for haptic mixing | |
US9507507B2 (en) | Information processing apparatus, information processing method and program | |
US8405621B2 (en) | Variable rate media playback methods for electronic devices with touch interfaces | |
KR100457509B1 (ko) | 터치스크린과 음성인식을 통해 동작 제어되는 정보단말기 및 그의 명령 실행 방법 | |
US20170061987A1 (en) | Electronic device and method | |
US20130257780A1 (en) | Voice-Enabled Touchscreen User Interface | |
CN117435095A (zh) | 对另一电子设备的多功能设备控制 | |
CN110109730B (zh) | 用于提供视听反馈的设备、方法和图形用户界面 | |
US7352364B2 (en) | Method for toggling between touch control operation modes | |
KR100780437B1 (ko) | 포인팅 장치를 구비한 휴대 단말기의 포인터 제어 방법 | |
KR101814465B1 (ko) | 월패드에서 사용자 인터페이스를 제공하기 위한 장치 및 방법 | |
KR20120050356A (ko) | 터치 스크린 기능을 갖는 전자 기기 및 이를 이용한 문자 입력 방법 | |
JP2016009199A (ja) | 情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060317 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060418 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060711 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060808 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20060810 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060821 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100901 Year of fee payment: 4 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100901 Year of fee payment: 4 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110901 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110901 Year of fee payment: 5 |
|
S202 | Request for registration of non-exclusive licence |
Free format text: JAPANESE INTERMEDIATE CODE: R315201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110901 Year of fee payment: 5 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110901 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120901 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130901 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |