JP3399674B2 - 画面制御装置とその方法 - Google Patents
画面制御装置とその方法Info
- Publication number
- JP3399674B2 JP3399674B2 JP31523794A JP31523794A JP3399674B2 JP 3399674 B2 JP3399674 B2 JP 3399674B2 JP 31523794 A JP31523794 A JP 31523794A JP 31523794 A JP31523794 A JP 31523794A JP 3399674 B2 JP3399674 B2 JP 3399674B2
- Authority
- JP
- Japan
- Prior art keywords
- screen
- input
- phoneme
- voice
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 41
- 238000001514 detection method Methods 0.000 description 33
- 230000008569 process Effects 0.000 description 25
- 238000012545 processing Methods 0.000 description 22
- 238000013528 artificial neural network Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 12
- 230000005236 sound signal Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 241000408728 Hidari Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Controls And Circuits For Display Device (AREA)
- User Interface Of Digital Computer (AREA)
Description
画像に対する操作を指示する画面制御装置に関し、さら
に、その音声の所定の音の継続する長さにより、前記操
作の量を指示することが可能な画面制御装置に関する。
することができれば、その機器の操作が容易に効率よく
行え、ヒューマンインターフェイスが著しく向上する。
そして、近年の音声認識技術の進展により、実際に音声
により各種の機器の制御を行う方法が提案されている。
たとえば、ワークステーションやパーソナルコンピュー
タの画面上において、表示されている種々のオブジェク
トに対する移動/拡大/縮小/回転などの処理を、音声
入力により行う方法も提案されている。
ンなどに外付けされたマイクロフォンなどの音声入力手
段に対して、操作者が所定の処理を示す言葉を発声する
と、その音声を認識し、予め定められた言葉と処理との
対応付けを参照してその認識された言葉に対応する処理
を決定し、画面を制御してその処理を実行するというも
のであった。すなわち、入力された音声を1つのコマン
ドとして認識し、通常のキーボードなどからのコマンド
入力と同じ処理を行って画面の制御を行うものであっ
た。
までの音声による画面制御の指示は、一度のコマンド入
力(音声入力)により、予め定められた所定量の移動/
拡大/縮小/回転を行うものであり、任意の距離だけ移
動させたり、任意の倍率で拡大/縮小させたり、あるい
は任意の角度で回転させたりすることができなかった。
そのように、任意の量だけ前記処理を行おうとすると、
別途キーボードより数値を指定したり、別途数字を発声
して認識させたり、あるいは処理の開始と終了の指示を
別個に入力したりする操作が必要であった。このような
処理は、キーボードなどにより通常に画面操作を行うの
に匹敵する操作であり、音声によるコマンド入力という
利便性を十分生かしたヒューマンインターフェイスのよ
い装置とは言い難かった。
を表示する表示装置に対して、表示画面に対する処理お
よびその処理量を、音声により直感的で容易な方法によ
り指示することが可能な画面制御装置を提供することに
ある。また、本発明の他の目的は、表示装置に対して、
音声により処理の種類と処理量の両方を指示する画面制
御方法を提供することにある。
るコマンド入力によりその処理とともに処理量を指定す
るために、アナログ的に容易に調節可能である発声期間
を用いることを検討した。特に画面の制御においては、
処理結果を実時間で観察することが可能なので、画面を
見ながらその発声の連続/終了を行えば、その画面を所
望の結果に至らせる処理を直接的・直感的に指定するこ
とができる。
された画像について、事前に登録された音声の単語の内
容に応じた移動方向に、該音声の語尾の継続時間に応じ
た移動距離だけ移動させる画面制御装置であって、入力
された音声の単語の内容を認識して前記画面に表示され
た画像の移動方向を決定する音声認識手段と、前記入力
された音声の語尾の継続時間を検出する継続時間検出手
段と、前記画面に表示された画像を、前記検出された語
尾の継続時間に応じた移動距離だけ移動させる画面制御
手段とを有する画面制御装置が提供される。
された画像について、事前に登録された音声の単語の内
容に応じた移動方向に、該音声の語尾の継続時間に応じ
た移動距離だけ移動させる画面制御方法であって、入力
された音声の単語の内容を認識して前記画面に表示され
た画像の移動方向を決定する音声認識工程と、前記入力
された音声の語尾の継続時間を検出する継続時間検出工
程と、前記画面に表示された画像を、前記検出された語
尾の継続時間に応じた移動距離だけ移動させる画面制御
工程とを有する画面制御方法が提供される。
音声が入力されると、その入力音声を分析し、特徴抽出
を行い、その特徴に基づいて入力音を識別する。そし
て、その識別された音声信号が、表示装置に対する所定
の処理に対応する音声信号か否かを判定し、対応する音
声信号だった場合には、前記所定の処理を表示装置に対
して実行する。一方で、その処理を指定した入力音声信
号より所定の音の連続を検出しておき、前記所定の処理
が開始された時には、前記その所定の音の連続が続いて
いる間、その処理を継続する。
して説明する。図1は、第1実施例の画面制御装置の構
成を示すブロック図である。画面制御装置10は、音響
特徴抽出部11、音素識別部12、音素継続検出部1
3、および、画面制御部14を有する。以下、各部の構
成および動作について説明する。
号より音響特徴量を抽出し、音素識別部12に出力す
る。音響特徴抽出部11で行う分析の条件を表1に示
す。またこの分析により、メルスケール16チャネル高
速フーリエ変換(mel-scale 16-channel FFT)の出力の
5フレーム(50ms)を特徴量として音素識別部12
に出力する。
り入力された音響特徴量に基づいて音素の識別を行い、
その識別結果を音素継続検出部13に出力する音素認識
手段である。音素識別部12は、図2に示すような4層
のフィードフォワード型ニューラルネットワークにより
構成される。このニューラルネットワークは、入力層、
隠れ層1、隠れ層2および出力層として、各々80個、
100個、50個、6個のユニットを有する。音素識別
部12は、このニューラルネットワークにより、表2に
示す5個の母音と/sh/の6個の音素を識別する。
ては、予め学習をさせて、音素の識別が可能な回路網を
構成する必要がある。本実施例については、特定の男性
話者1名の発声により2620単語を用いて表2に示す
6個の音素の学習を行うことにより、前記6音素の識別
が十分可能な回路網を構成することができた。また、音
素識別部12の出力は、音素識別パタン列G=(g1 ,
g2 ,・・・,gt ・・・,gT )として出力される。
この音素識別パタン列Gの要素gt は時刻tの出力ベク
トルを表し、要素数Tは音声フレーム長を表す。また、
出力ベクトルgt のベクトル次元数はニューラルネット
ワークの出力ユニット数で、本実施例においては6であ
る。
出力である音素識別パタン列Gに基づいて同一の音素の
継続を検出し、その継続している間、その旨を示す信号
を画面制御部14に出力する。具体的には、音素識別部
12のニューラルネットワークの出力層の各ユニットの
出力レベルを観測し、そのnフレームの平均が一定レベ
ルHを維持している時間を計測し、その時間が最小継続
時間Lmin 以上継続している場合にその音素の音声信号
が継続して入力されていると判定する。そしてその継続
が検出されている間、その音素の継続を示す信号を画面
制御部14に出力する。
て具体的に説明する。図3は、音素の継続の検出を説明
する図であり、音素識別部12のニューラルネットワー
クの出力ユニットに対応した6次元のベクトルgt の1
0msごとの出力値を示す図である。また、本実施例に
おいては、最小継続時間Lmin は5フレームとする。
音素/u/の出力が開始され、フレーム6からフレーム
30の間でそのレベルが大きくなっている。また、フレ
ーム31およびフレーム32においては、レベルの小さ
い出力が観測されている。したがって、フレーム5から
フレーム9までの出力レベルの平均値が前記所定値Hよ
り大きいとすれば、そのフレーム9において音素/u/
の継続が検出され、その継続している旨の信号が出力さ
れる。また、フレーム31およびフレーム32と出力レ
ベルが小さいフレームが連続して、その出力レベルの平
均値が前記所定値Hより小さくなると、直ちに前記継続
している旨の信号が終了される。その結果、その音素/
u/の継続を示す信号はフレーム9からフレーム31の
間で出力される。
り特定の音素が継続して入力されている旨の信号が入力
されたら、その信号が入力されている期間、その音素に
対応した所定の処理を表示装置の画面に対して行う。検
出された音素に対応する画面の処理を表3に示す。
て具体的に説明する。図4は、表示画面の操作を説明す
る図であり、表示画面40に、ポインタ41、第1のウ
ィンドウ42、第2のウィンドウ43、および、クロッ
クツール44が表示されている状態を示す。この表示画
面40は、ワークステーション、パソコンなどでウィン
ドウシステムを起動した場合などに通常見られる画面で
ある。
り/a/の音素の継続を示す信号が入力されたらその信
号が入力されている間ポインタ41を所定の速度で右方
向に移動させる。同様に、/i/の音素の継続を示す信
号が入力されたらその信号が入力されている間ポインタ
41を左方向に、/u/の音素の継続を示す信号が入力
されたらポインタ41を上方向に、各々所定速度で移動
させる。また、/o/の音素の継続を示す信号が入力さ
れたら、ポインタ41が存在するウィンドウ、すなわち
図4の表示画面40においては第1のウィンドウ42を
所定速度で徐々に拡大し、/sh/の音素の継続を示す
信号が入力されたら、ポインタ41が存在する第1のウ
ィンドウ42を同じく所定速度で縮小する。
について、具体的に説明する。画面制御装置10により
制御される表示装置に対して音声が入力されると、音響
特徴抽出部11により分析され特徴が抽出されて、1フ
レーム(10ms)ごとに音素識別部12のニューラル
ネットワークに入力される。音素識別部12において
は、ニューラルネットワークによりリアルタイムで音素
の識別が行われ、それまでのフレームの識別結果と合わ
せて5フレーム分の識別結果が音素識別パタン列Gとし
て出力される。そして、音素継続検出部13において、
その音素識別パタン列Gより各音素ごとのその5フレー
ム間の出力レベルの平均値が求められる。求められた平
均の出力レベルが所定の値Hよりも大きい場合に、その
音素が継続して入力されていると判定し、その旨の信号
を画面制御部14に出力する。画面制御部14において
は、その信号に基づいて、各音素ごとに予め定めた所定
の画面操作を行う。
よれば、所定の単音を発声するだけで画面の表示に所定
の処理を行うことができ、さらに、その処理の量は、連
続して発声する長さに応じて調整することができる。し
たがって、画面を見ながら発声を継続したり止めたりす
ることにより、画面に対して所定の処理を適切な量だけ
行うことができる。また、第1実施例の画面制御装置
は、簡単な音素を認識しその連続性を検出しているので
装置の構成が簡単である。特に、本実施例のように音素
識別手段としてニューラルネットワークを用いたとして
も、比較的簡単なニューラルネットワークにより構成す
ることができる。
して説明する。図5は、第2実施例の画面制御装置の構
成を示すブロック図である。画面制御装置50は、音響
特徴抽出部51、音素識別部52、単語識別部53、画
面制御部54および音声入力検出部55を有する。以
下、各部の構成および動作について説明する。
1実施例の音響特徴抽出部11の構成と基本的に同じで
あり、入力された音声信号を表1に示した条件で分析
し、特徴量を抽出して音素識別部52に出力する。ただ
し、第2実施例においては、特徴量として、前記FFT
出力の7フレーム(70ms)分を特徴量として出力す
るものとする。
り入力された音響特徴量に基づいて音素の識別を行い、
その識別結果を音素継続検出部53に出力する音素認識
手段であり、第1実施例と同様に4層のフィードフォワ
ード型ニューラルネットワークにより構成される。ただ
し、第2実施例の音素識別部52を構成するニューラル
ネットワークは、入力層、隠れ層1、隠れ層2および出
力層に、各々112個、1250個、100個、25個
のユニットを有する。そして、このニューラルネットワ
ークにより、表4に示す25個の音素を識別する。
ワークにおいても、特定の男性話者1名の発声により2
620単語を用いて学習を行い、表4に示す25個の音
素が識別可能な回路網を構成する。なお、音素識別部1
2の出力は、第1実施例と同じく音素識別パタン列G=
(g1 ,g2 ,・・・,gt ・・・,gT )として出力
される。なお、出力ベクトルgt の次元数はニューラル
ネットワークの出力ユニット数なので、第2実施例にお
いては25である。
である音素識別パタン列Gに基づいて、予め定めた所定
の単語を検出し、その旨を示す信号を画面制御部54に
出力する。具体的には、音素識別部52のニューラルネ
ットワークの出力層の各ユニットの出力レベルを観測
し、そのnフレームの平均が一定レベルHを維持してい
る時間を計測し、その時間が最小継続時間Lmin 以上継
続している場合にその音素の音声信号が入力されている
と検出する。そして順次検出される音素の列を、単語識
別部53内の図示せぬ記憶部に予め記憶されている識別
対象の単語の文字列と比較し、前記音素の列が前記文字
列のいずれかと一致したらその単語が音声信号として入
力されたとの判定を行い、その旨の信号を画面制御部1
4に出力する。
れている間、音声検出信号を画面制御部54に出力す
る。すなわち、入力される音声信号のエネルギーレベル
を測定し、その測定結果を予め定めた所定のしきい値レ
ベルと比較し、入力された音声信号のレベルが前記しき
い値より大きい時に音声検出信号を検出する。
力された単語識別結果と、音声入力検出部55より入力
された音声検出信号に基づいて、表示装置に対して所定
の処理を所定の期間行う。画面制御部54は、単語識別
部53より入力された単語に応じて実行する処理を決定
し、音声入力検出部55より音声検出信号が入力されて
いる期間、前記処理を表示装置の画面に対して実行す
る。すなわち、画面制御部54は、所定の単語が入力さ
れた後、その語尾の音素が継続して発せられている間、
その単語により決定された画面操作を実行し続ける。識
別された単語に対応する画面の処理を表5に示す。
いて、図6および図7を参照して具体的に説明する。図
6は、音素の検出、単語の識別、および、語尾の継続を
説明する図である。画面制御装置50において、入力さ
れた音声信号は音響特徴抽出部51において分析され各
フレームごとの出力ベクトルが得られると、音素識別部
52においてその7フレームごとを単位として音素の識
別が行われる。図6に示す例においては、フレーム5か
らフレーム11の間の7フレームの間、音素/u/に相
当の出力レベルが観測され、フレーム12からフレーム
32までの間、音素/e/に相当の出力レベルが観測さ
れる。したがって、音素識別部52はフレーム11で音
素/u/を認識し、フレーム18で音素/e/を認識
し、その結果、単語識別部53は、フレーム18で単語
「うえ」を認識する。一方、音声入力検出部55は入力
される音声信号のエネルギーレベルを観測しており、フ
レーム5からフレーム32の間で予め定めたしきい値以
上のエネルギーレベルが検出され、この期間、音声信号
の入力が有る旨の信号を画面制御部54に出力する。
3より単語「うえ」の検出信号が入力されたら、まず、
その単語「うえ」に対応する画面操作を実行する信号を
出力する。そして、さらにその単語「うえ」の検出信号
が入力された時点から音声入力検出部55からの信号を
チェックし、音声入力が前記単語に引き続き存在してい
るか否かをチェックする。すなわち、単語「うえ」の語
尾がそのまま延ばされて入力されているか否かをチェッ
クする。そして、画面制御部54は音声入力検出部55
からの信号が前記単語検出の信号に引き続いて入力され
ている間、前記画面操作を実行する信号を出力し続け
る。図6の例においてはフレーム19からフレーム32
までは語尾の継続している期間として画面操作を続け
る。フレーム33において、音声入力検出部55からの
音声入力有りの信号が終了すると、画面制御部54は、
画面操作の信号の送出を終了する。
する。図7は、表示画面の操作を説明する図であり、表
示画面70に、ポインタ71、第1のウィンドウ72、
第2のウィンドウ73、および、クロックツール74が
表示されている状態を示す。画面制御部54は、単語識
別部53より単語「みぎ」を識別した旨の信号が入力さ
れたらポインタ71を所定の速度で右方向に移動させ
る。同様に、単語「ひだり」を示す信号が入力されたら
ポインタ71を左方向に、単語「うえ」を示す信号が入
力されたらポインタ71を上方向に、単語「した」を示
す信号が入力されたらポインタ71を下方向に各々所定
速度で移動させる。
が入力されたら、ポインタ71が存在するウィンドウ、
すなわち図7の表示画面70においては第1のウィンド
ウ72を所定速度で徐々に拡大し、単語「しゅくしょ
う」の識別を示す信号が入力されたら、ポインタ71が
存在する第1のウィンドウ72を同じく所定速度で縮小
する。これらの、ポインタの移動、ウィンドウの拡大/
縮小の処理は、音声入力検出部55からの信号に基づい
て、各単語の語尾が延ばされて入力されている間連続的
に行われる。すなわち「うえー」と語尾が伸ばされて入
力されている期間中、ポインタ71は上方向に移動し続
け、「かくだいー」と語尾が伸ばされて入力されている
期間中、ウィンドウ72は拡大を続ける。
よれば、第1実施例同様に音声により、画面の表示に所
定の処理を所定の量だけ行うことができる。また、第2
実施例の画面制御装置においては、処理の指示を単語で
行い、処理量の指定を語尾を伸ばす長さにより指定して
いるため、処理の指示は伸ばす音素に関わらない任意の
単語により指定できる。すなわち、指示可能な処理の数
は無限に設定可能であり、複雑な処理や多種類の処理に
対応することができる。さらに、第2実施例の画面制御
装置においては、単語を発声することにより処理を指定
できるので、その処理の内容を示す単語を用いて処理を
指示することができ、通常の言語表現による指示に近
く、ヒューマンインターフェイスの優れた画面制御装置
が実現できる。
実施例および第2実施例にのみ限定されるものではな
く、種々の改変が可能である。たとえば、前述した実施
例において入力音声を分析して特徴を抽出し、音素を識
別する方法は、メルスケール16チャネルの入力に基づ
いて256標本点の高速フーリエ変換(FFT)を行
い、その結果をニューラルネットワークに入力して音素
を識別するものであった。しかし、これに限られるもの
ではなく、広く知られている種々の解析方法、信号処理
方法を適用してよい。たとえば、音声認識においてしば
しば行われるマルチテンプレートを用いたDTW(Dy
namicTime Warping)や、統計的手法
であるHMM(Hidden Markovモデル)、
さらに、そのほか種々の音韻解析の手法などを任意に用
いてよい。
を検出する方法は、入力された音声信号のエネルギーレ
ベルを音声入力検出部で測定し、その測定結果に基づい
て単語が識別された時点以降の音声入力の有無を検出
し、これにより語尾の継続を検出していた。しかし、単
語識別部の後段に第1実施例の音素継続検出部と同等の
手段を設け、これにより、単語の語尾の継続を検出する
ようにしてもよい。その場合の音素の検出、単語の識
別、および、語尾の継続の状態を図8に示す。図8に示
すように、このような方法においては、単語識別部がフ
レーム18で単語「うえ」を認識すると、19フレーム
以降についても引き続き識別された音素を比較し、フレ
ーム32まで語尾「え」の音素が継続していることを検
出する。そして、フレーム33において、入力された音
声信号のエネルギーレベルが維持されたまま音素が変化
した場合に、この方法であれば、その音素の変化を検出
し、単語「うえ」による処理をフレーム32で終了させ
ることができる。
表示装置として、ワークステーションやパソコンなどの
通常の表示装置を図4および図7に例示したが、これに
限られるものではなく、たとえば、車載テレビや、カー
ナビゲーションシステムのような表示装置でもよい。そ
のような、手入力の不便な環境下においては、本発明の
画面制御装置はより好適である。
は、前述した第1および第2の実施例においては、ポイ
ンタの上下左右方向への移動と、ウィンドウの拡大/縮
小を行うものであった。しかし、これ以外の種々の画面
操作をするようにしてよい。たとえば、表示画面上の特
定のオブジェクトを回転移動するような処理にしてもよ
いし、画面全体の上下左右へのスクロール、画面全体の
拡大/縮小などを行わせるようにしてもよい。
見ながらその表示画面が所望の状態になるように、音声
により直接的・直感的にその処理および処理量を指示す
ることができる、ヒューマンインターフェイスの良い画
面制御装置を提供できる。また、本発明の画面制御方法
によれば、表示装置に対して、音声により処理の種類と
処理量の両方を指示する画面制御方法を提供することが
できる。
すブロック図である。
ニューラルネットワークの構成を示す図である。
おける音素の継続の検出を説明する図である。
示装置の、表示画面の操作を説明する図である。
すブロック図である。
出、単語の識別、および、語尾の継続を説明する図であ
る。
示装置の、表示画面の操作を説明する図である。
声信号の検出を説明する図である。
Claims (2)
- 【請求項1】画面に表示された画像について、事前に登
録された音声の単語の内容に応じた移動方向に、該音声
の語尾の継続時間に応じた移動距離だけ移動させる画面
制御装置であって、 入力された音声の単語の内容を認識して前記画面に表示
された画像の移動方向を決定する音声認識手段と、 前記入力された音声の語尾の継続時間を検出する継続時
間検出手段と、 前記画面に表示された画像を、前記検出された語尾の継
続時間に応じた移動距離だけ移動させる画面制御手段と
を有する画面制御装置。 - 【請求項2】画面に表示された画像について、事前に登
録された音声の単語の内容に応じた移動方向に、該音声
の語尾の継続時間に応じた移動距離だけ移動させる画面
制御方法であって、 入力された音声の単語の内容を認識して前記画面に表示
された画像の移動方向を決定する音声認識工程と、 前記入力された音声の語尾の継続時間を検出する継続時
間検出工程と、 前記画面に表示された画像を、前記検出された語尾の継
続時間に応じた移動距離だけ移動させる画面制御工程と
を有する画面制御方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31523794A JP3399674B2 (ja) | 1994-12-19 | 1994-12-19 | 画面制御装置とその方法 |
US08/573,007 US5933807A (en) | 1994-12-19 | 1995-12-15 | Screen control apparatus and screen control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31523794A JP3399674B2 (ja) | 1994-12-19 | 1994-12-19 | 画面制御装置とその方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002382216A Division JP2003263308A (ja) | 2002-12-27 | 2002-12-27 | 画面制御装置とその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08171375A JPH08171375A (ja) | 1996-07-02 |
JP3399674B2 true JP3399674B2 (ja) | 2003-04-21 |
Family
ID=18063035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP31523794A Expired - Fee Related JP3399674B2 (ja) | 1994-12-19 | 1994-12-19 | 画面制御装置とその方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5933807A (ja) |
JP (1) | JP3399674B2 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6947890B1 (en) * | 1999-05-28 | 2005-09-20 | Tetsuro Kitazoe | Acoustic speech recognition method and system using stereo vision neural networks with competition and cooperation |
US6745165B2 (en) * | 1999-06-16 | 2004-06-01 | International Business Machines Corporation | Method and apparatus for recognizing from here to here voice command structures in a finite grammar speech recognition system |
US6615176B2 (en) * | 1999-07-13 | 2003-09-02 | International Business Machines Corporation | Speech enabling labeless controls in an existing graphical user interface |
JP4320487B2 (ja) * | 1999-09-03 | 2009-08-26 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム格納媒体 |
US6434547B1 (en) | 1999-10-28 | 2002-08-13 | Qenm.Com | Data capture and verification system |
US6718308B1 (en) | 2000-02-22 | 2004-04-06 | Daniel L. Nolting | Media presentation system controlled by voice to text commands |
US20020007315A1 (en) * | 2000-04-14 | 2002-01-17 | Eric Rose | Methods and apparatus for voice activated audible order system |
JP2002007014A (ja) * | 2000-06-19 | 2002-01-11 | Yamaha Corp | 情報処理装置及び該情報処理装置を備えた楽器 |
EP1168840A3 (en) * | 2000-06-30 | 2003-12-17 | Kabushiki Kaisha Toshiba | Method and apparatus for special video reproduction modes |
US20050192808A1 (en) * | 2004-02-26 | 2005-09-01 | Sharp Laboratories Of America, Inc. | Use of speech recognition for identification and classification of images in a camera-equipped mobile handset |
JP4631464B2 (ja) * | 2005-02-23 | 2011-02-16 | パナソニック株式会社 | 体調判定装置およびそのプログラム |
WO2014194314A1 (en) * | 2013-05-31 | 2014-12-04 | Freedom Scientific, Inc. | Vector-based customizable pointing indicia |
JP6536018B2 (ja) * | 2014-11-20 | 2019-07-03 | アイシン・エィ・ダブリュ株式会社 | 音声制御システム、音声制御方法、及び音声制御プログラム |
GB2552723A (en) | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
GB2552722A (en) * | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4741038A (en) * | 1986-09-26 | 1988-04-26 | American Telephone And Telegraph Company, At&T Bell Laboratories | Sound location arrangement |
GB8720387D0 (en) * | 1987-08-28 | 1987-10-07 | British Telecomm | Matching vectors |
JP2733955B2 (ja) * | 1988-05-18 | 1998-03-30 | 日本電気株式会社 | 適応型音声認識装置 |
US5175793A (en) * | 1989-02-01 | 1992-12-29 | Sharp Kabushiki Kaisha | Recognition apparatus using articulation positions for recognizing a voice |
JPH0375860A (ja) * | 1989-08-18 | 1991-03-29 | Hitachi Ltd | パーソナライズド端末 |
DE69232407T2 (de) * | 1991-11-18 | 2002-09-12 | Toshiba Kawasaki Kk | Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung |
US5386494A (en) * | 1991-12-06 | 1995-01-31 | Apple Computer, Inc. | Method and apparatus for controlling a speech recognition function using a cursor control device |
US5377302A (en) * | 1992-09-01 | 1994-12-27 | Monowave Corporation L.P. | System for recognizing speech |
US5528728A (en) * | 1993-07-12 | 1996-06-18 | Kabushiki Kaisha Meidensha | Speaker independent speech recognition system and method using neural network and DTW matching technique |
US5473701A (en) * | 1993-11-05 | 1995-12-05 | At&T Corp. | Adaptive microphone array |
US5617526A (en) * | 1994-12-13 | 1997-04-01 | Microsoft Corporation | Operating system provided notification area for displaying visual notifications from application programs |
-
1994
- 1994-12-19 JP JP31523794A patent/JP3399674B2/ja not_active Expired - Fee Related
-
1995
- 1995-12-15 US US08/573,007 patent/US5933807A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH08171375A (ja) | 1996-07-02 |
US5933807A (en) | 1999-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6308157B1 (en) | Method and apparatus for providing an event-based “What-Can-I-Say?” window | |
JP3399674B2 (ja) | 画面制御装置とその方法 | |
US6795806B1 (en) | Method for enhancing dictation and command discrimination | |
US5950160A (en) | Method and system for displaying a variable number of alternative words during speech recognition | |
US5799279A (en) | Continuous speech recognition of text and commands | |
US5787230A (en) | System and method of intelligent Mandarin speech input for Chinese computers | |
EP0840288B1 (en) | Method and system for editing phrases during continuous speech recognition | |
US20020123894A1 (en) | Processing speech recognition errors in an embedded speech recognition system | |
US20170103748A1 (en) | System and method for extracting and using prosody features | |
US7634401B2 (en) | Speech recognition method for determining missing speech | |
EP0840289A2 (en) | Method and system for selecting alternative words during speech recognition | |
EP0615228B1 (en) | Speech dialogue system | |
JPS62239231A (ja) | 口唇画像入力による音声認識方法 | |
JP2003241790A (ja) | 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム | |
JPH08166866A (ja) | 対話型インターフェースを具備した編集支援システム | |
JP2003263308A (ja) | 画面制御装置とその方法 | |
EP0840287A2 (en) | Method and system for selecting recognized words when correcting recognized speech | |
JP2016157097A (ja) | 音読評価装置、音読評価方法、及びプログラム | |
JPH09114634A (ja) | マルチモーダル情報統合解析装置 | |
JPH11202895A (ja) | 音声認識システムと方法およびそのプログラムを記録した記録媒体 | |
JP3254977B2 (ja) | 音声認識方法及び音声認識装置 | |
JP2003295884A (ja) | 音声入力モード変換システム | |
Yalova et al. | Automatic Speech Recognition System with Dynamic Time Warping and Mel-Frequency Cepstral Coefficients. | |
JPH06250689A (ja) | 音声認識装置 | |
JP2603920B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080221 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090221 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100221 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100221 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110221 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120221 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120221 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130221 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130221 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140221 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |