JPH10326175A - 音声指示装置および音声指示情報記憶媒体 - Google Patents

音声指示装置および音声指示情報記憶媒体

Info

Publication number
JPH10326175A
JPH10326175A JP9337548A JP33754897A JPH10326175A JP H10326175 A JPH10326175 A JP H10326175A JP 9337548 A JP9337548 A JP 9337548A JP 33754897 A JP33754897 A JP 33754897A JP H10326175 A JPH10326175 A JP H10326175A
Authority
JP
Japan
Prior art keywords
voice
recognition
movement
instructing
continuation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9337548A
Other languages
English (en)
Other versions
JP3744161B2 (ja
Inventor
Hiroshi Hasegawa
浩 長谷川
Isanaka Edatsune
伊佐央 枝常
Mitsuhiro Inazumi
満広 稲積
Yasunaga Miyazawa
康永 宮沢
Sunao Aizawa
直 相澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP33754897A priority Critical patent/JP3744161B2/ja
Publication of JPH10326175A publication Critical patent/JPH10326175A/ja
Application granted granted Critical
Publication of JP3744161B2 publication Critical patent/JP3744161B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 実際の感覚により近く、使い勝手のよい音声
指示装置および音声指示情報記憶媒体を提供すること。 【解決手段】 連続音声を入力する入力手段2と、入力
された連続音声を扱いやすいようにディジタルソースに
変換する変換手段4と、変換されたディジタルソースを
記憶する記憶手段6と、入力された連続音声データの
内、認識対象音声を認識して指示する第1の認識指示手
段24と、継続音声を認識して指示する第2の認識指示
手段26とを有する音声指示装置を用いて、連続音声に
含まれる認識対象音声により移動の開始および移動方向
を指示する信号を出力し、制御対象を移動させ、連続音
声に含まれる継続音声を継続して発話されている間、制
御対象を移動の継続を指示する信号を出力し、移動を継
続させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】 本発明は、制御対象に対し
て、連続音声を用いて移動の「方向」「継続」等を指示
する音声指示装置および音声指示情報記憶媒体に関す
る。
【0002】
【背景技術および発明が解決しようとする課題】従来、
例えば、図1に示すように、マウスの代わりに音声でデ
ィスプレイ12の画面10上のポインタを動かす場合、
「みぎ」と言ってポインタを30から31、32と、一
定速度で右への移動を開始させた後、「とまれ」と言っ
てポインタを37で停止させるという方法が採られてい
た。この方法は、実際は1つの指示命令で済むものに2
つの指示命令を用いているため、実際に手で操作する感
覚と著しく異なっていた。また、本当は36の位置でポ
インタを停止させたかったにも関わらず、実際にポイン
タの停止した位置は37であったり、停止させたい位置
のある程度前で「止まれ」と言わなければならないた
め、オペレータに緊張感を強いることとなり、使い勝手
のよいものとは言えないものであった。
【0003】本発明の目的は、実際の感覚により近く、
使い勝手のよい音声指示装置および音声指示情報記憶媒
体を提供することにある。
【0004】
【課題を解決するための手段】前記目的を達成するた
め、請求項1記載の発明は、制御対象の移動方向を指示
する認識対象音声と、これに継続する継続音声との連続
音声で構成される音声指示命令の入力を受け付ける音声
指示装置であって、前記音声指示命令の認識対象音声を
認識し、前記制御対象の移動の開始および移動方向を指
示する信号を出力する第1の認識指示手段と、前記音声
指示命令の継続音声を認識し、その認識期間中は前記制
御対象の移動の継続を指示する信号を出力する第2の認
識指示手段と、を有することを特徴とする。
【0005】本発明によれば、連続音声に含まれる認識
対象音声により移動の開始および移動方向を指示し、連
続音声に含まれる継続音声を継続して発話している間、
制御対象を指示方向への移動を継続させ、発話を止める
ことにより、移動を止めることができる。このように、
制御対象の移動の開始、方向、継続を1回の連続発話で
指示できるため、実際の感覚により近く、使い勝手のよ
い音声指示が行える。請求項2記載の発明は、請求項1
において、前記認識対象音声は、移動方向を指示する第
1の認識対象語と、移動速度を指示する第2の認識対象
語とを含んで構成され、前記第1の認識指示手段は、前
記認識対象音声に含まれる第1および第2の認識対象語
を認識し、前記制御対象の移動方向および移動速度を指
示する信号を出力することを特徴とする。
【0006】本発明によれば、使用する認識対象音声の
種別により制御対象の移動速度を自在に変更することが
できる。したがって、1回の連続発話により、制御対象
の移動の開始、方向、継続に加え、移動速度も指示でき
る。
【0007】請求項3記載の発明は、請求項1におい
て、前記認識対象音声は、発話時間により移動速度を指
示するように構成され、前記第1の認識指示手段は、前
記認識対象音声の発話時間に基づき指示された移動速度
を認識し、前記制御対象の移動方向および移動速度を指
示する信号を出力することを特徴とする。
【0008】本発明によれば、使用する認識対象音声の
発話時間に基づき、制御対象の移動速度を自在に変更す
ることができる。
【0009】請求項4記載の発明は、請求項1〜3のい
ずれかにおいて、前記継続音声は、音量または声の高さ
により移動速度を指示するように構成され、前記第2の
認識指示手段は、前記継続音声の音量または声の高さで
指示される移動速度を認識し、前記制御対象の移動速度
を指示する信号を出力することを特徴とする。
【0010】本発明によれば、強弱をつけて指示するこ
とと同様の感覚で操作指示できるとともに、制御対象の
移動速度を可変にすることができるため、実際の感覚に
より近く、使い勝手がよい。
【0011】請求項5記載の発明は、請求項1〜4のい
ずれかにおいて、発話者の平均的な最長連続発話時間に
対応して制御対象に所与の距離の移動を行わせるよう、
前記制御対象の平均移動速度が設定されていることを特
徴とする。
【0012】本発明によれば、発話者の平均的な最長連
続発話時間に応じた移動量を決定できるため、より使い
勝手のよい音声指示が行える。例えば、ディスプレイの
画面の左端から右端までを平均的な最長連続発話時間で
移動できる最大量と設定すると使い勝手がよい。なお、
最長連続発話時間は、10秒程度である。
【0013】請求項6記載の発明は、請求項1〜5のい
ずれかにおいて、入力される前記音声指示命令に基づ
き、ディスプレイ上に表示されるポインタの移動方向お
よび移動の継続を指示する信号を出力することを特徴と
する。
【0014】本発明によれば、実際のポインタの操作に
近い感覚で音声指示ができるため、快適に操作すること
ができる。
【0015】請求項7記載の発明は、請求項1〜5のい
ずれかにおいて、入力される前記音声指示命令に基づ
き、ディスプレイの表示画面のスクロール方向およびス
クロールの継続を指示する信号を出力することを特徴と
する。
【0016】本発明によれば、小型情報機器などボタン
が小さくて操作しにくいものに対しても、音声指示がで
きるため、快適に操作することができる。
【0017】請求項8記載の発明は、請求項1〜5のい
ずれかにおいて、入力される前記音声指示命令に基づ
き、マニピュレータの移動方向および移動の継続を指示
する信号を出力することを特徴とする。
【0018】本発明によれば、実際のマニピュレータの
操作に近い感覚で音声指示ができるため、快適に操作す
ることができる。
【0019】請求項9記載の発明は、制御対象の移動方
向を指示する認識対象音声と、これに継続する継続音声
との連続音声で構成される音声指示命令の入力を受け付
ける音声指示装置であって、複数の符号データに対応し
た移動方向が予め設定された記憶手段を含み、入力され
た前記音声指示命令の認識対象音声をワードスポッティ
ングの手法により符号データに変換し、この符号データ
と前記記憶手段に記憶されたデータに基づき指示された
移動方向を認識し、前記制御対象の移動の開始および移
動方向を指示する信号を出力する第1の認識指示手段
と、前記音声指示命令の継続音声の継続を認識し、その
認識期間中は前記制御対象の移動の継続を指示する信号
を出力する第2の認識指示手段と、を有することを特徴
とする。
【0020】本発明によれば、符号データ同士を比較す
ることにより音声指示できるため、より確実に音声指示
できる。
【0021】請求項11記載の発明は、制御対象の移動
方向を指示する認識対象音声と、これに継続する継続音
声との連続音声で構成される音声指示命令を認識し、実
行するプログラムを記憶している情報記憶媒体であっ
て、入力された前記音声指示命令の情報を記憶する手順
と、前記認識対象音声をワードスポッティングの手法に
より符号データに変換する手順と、複数の符号データに
対応した移動方向を表す情報と前記変換された符号デー
タとに基づき、指示された移動方向を認識し、前記制御
対象の移動の開始および移動方向を指示する手順と、前
記音声指示命令の継続音声の継続を認識し、その認識期
間中は前記制御対象の移動の継続を指示する手順と、を
コンピュータに実行させるプログラムを記憶しているこ
とを特徴とする。
【0022】本発明によれば、音声認識指示のためのプ
ログラムと音声指示命令を情報記憶媒体内に記憶できる
ため、この情報記憶媒体を種々のコンピュータに使用し
た場合でも、新たに音声認識用の学習を行う必要が無
く、即座に各話者に応じた音声認識ができる。
【0023】また、前記移動の継続を指示する信号を出
力する第2の認識指示手段または前記移動の継続を指示
する手順に代えて、移動の停止を指示する第2の認識指
示手段および移動の継続を指示する手順を用いることも
できる。
【0024】具体的には、請求項10記載の発明は、請
求項1〜9のいずれかにおいて、前記移動の継続を指示
する信号を出力する第2の認識指示手段に代えて、音声
指示命令の継続音声の継続を認識し、その認識が終了し
た時点で前記制御対象の移動の停止を指示する信号を出
力する第2の認識指示手段を有することを特徴とする音
声指示装置であり、また、請求項12記載の発明は、請
求項11において、前記移動の継続を指示する手順に代
えて、音声指示命令の継続音声の継続を認識し、その認
識が終了した時点で前記制御対象の移動の停止を指示す
る手順をコンピュータに実行させるプログラムを記憶し
ていることを特徴とする情報記憶媒体である。
【0025】
【発明の実施の形態】以下、本発明による音声指示装置
および音声指示情報記憶媒体を活用した好適な実施の形
態について、図面を参照しつつ詳細に説明する。
【0026】(第1の実施の形態)本実施の形態では、
認識対象語が一つであり、制御対象に移動の開始、方
向、継続を指示する音声認識装置について説明する。
【0027】図2は、本発明による音声指示装置の機能
ブロック図を示す。本発明による音声指示装置は、連続
音声データを入力する入力手段2と、入力された連続音
声データを扱いやすいようにディジタルソースに変換す
る変換手段4と、変換されたディジタルソースを記憶す
る第1の記憶手段6と、記憶されたディジタルソースか
ら認識対象音声を認識し、制御対象に指示の信号を出力
する認識指示手段8と、認識対象かどうか認識するため
の参照データが記憶されている第2の記憶手段9とを有
する。
【0028】具体的には、例えば、入力手段2はマイ
ク、変換手段4はA/D変換器、第1の記憶手段6はメ
モリ、認識指示手段8はCPUおよび認識指示処理用の
プログラムを記憶したメモリ、第2の記憶手段9はハー
ドディスク等の外部記憶装置またはメモリである。これ
らは全て1台のコンピュータ12に内蔵されていてもよ
いし、入力手段2や第2の記憶手段9は、外部装置とし
てコンピュータ12と接続されるよう形成してもよい。
【0029】図3は、音声指示命令として用いられる連
続音声100の構成の1例を示す。連続音声100は、
基本的には認識対象音声102と、それに継続している
継続音声106とから構成される。
【0030】認識対象音声102としては、「みぎ」、
「うえ」等の方向を指示する音声、「はやく」、「ゆっ
くり」等の速度を指示する音声等がある。これらの認識
対象音声102は、図3に示す第1の認識対象語103
だけであってもよいし、第1の認識対象語103および
第2の認識対象語104のように複数連続して形成して
もよい。本実施の形態では第1の認識対象語103のみ
用いている。
【0031】継続音声106は、認識対象音声102に
継続して発話される音声である。例えば、連続音声10
0が「みぎーーー」の場合、「みぎ」が認識対象音声1
02であり、「ーーー」が継続音声106である。ま
た、図3に示すように場合によっては認識対象音声10
2の前に「えーと」等の不要音声108が含まれること
がある。
【0032】ここで、制御対象としてのディスプレイ1
2の画面10上のポインタを連続音声によって右に動か
す例をとって説明する。
【0033】図4は、「みぎーーーーー」という連続音
声100が音声認識装置に入力された際のフローチャー
トである。連続音声100が入力手段2に入力されると
(ステップ2)、この連続音声100は、変換手段4に
よりディジタル変換された後、第1の記憶手段6内のデ
ータ記憶部20に一時的に記憶された後、認識指示手段
8に入力される(ステップ4)。
【0034】連続音声100が入力されている間(ステ
ップ6)、ステップ6〜200のループにおいて、認識
対象語103が未確定の間、認識対象音声102の認識
指示処理(ステップ8)を行い、認識指示処理(ステッ
プ8)により認識対象語103が確定された後、継続音
声106の認識指示処理(ステップ9)を行う。連続音
声100の入力が終わるとループを抜け(ステップ20
0)、音声認識指示処理を終了する。
【0035】図5(A)は認識対象音声102認識指示
処理(ステップ8)を、図5(B)は継続音声106認
識指示処理(ステップ9)を具体的に表したフローチャ
ートである。認識指示手段8は、第1の認識指示手段2
3と第2の認識指示手段24とを含んで構成されてい
る。また、認識の際に比較するデータとしては、第2の
記憶手段9内の第1の参照データ28を使用する。第1
の参照データとしては、具体的には、「みぎ」「ひだ
り」等があり、比較を容易にし、より確実に音声指示で
きるように符号データとして表され、各参照データに基
づく指示命令とともに第2の記憶手段9内に記憶されて
いる。
【0036】認識対象音声102認識指示処理(ステッ
プ8)においては、まず、第1の認識指示手段23を用
いて、ワードスポッティングの手法により、1語を認識
する(ステップ10)。例えば、「みぎ」の内の「み」
である。次に、認識した1語と第1の参照データ28と
を比較し(ステップ12)、認識対象語103の可能性
がある場合、記憶手段6内の状態記憶部22を認識対象
語103の検出中状態とし、比較する参照データ28を
次の参照語(例えば「みぎ」の内の「ぎ」)にする等の
認識後処理(ステップ14)を行う。この時点で認識対
象語103を確定できない場合(ステップ16)、入力
された音声の内、次の語も参照データ28と比較する
(ステップ12)。認識対象語103が確定された時点
で(ステップ16)、記憶手段6内の状態記憶部22を
認識対象語103の確定状態とし(ステップ17)、第
1の認識指示手段23により、第1の参照データ28内
の指示命令を用いて、制御対象に移動の開始および移動
方向を指示する信号を出力する(ステップ18)。
【0037】一方、認識対象語103が確定されない間
は、参照データ28と入力された次の語との比較を繰り
返す(ステップ12、20)。認識対象語103の確定
後は、それに続く音声は継続音声106であるというこ
とと、確定という状態が判断できるため(ステップ
7)、継続音声106の認識指示処理(ステップ9)を
行う。第2の認識指示手段24により、継続音声106
を認識し、継続音声106が入力されている間、制御対
象に移動継続を指示する信号を出力する(ステップ2
2)。
【0038】なお、第2の認識指示手段24を、継続音
声106を認識し、継続音声106の入力が終了して認
識が終了した時点で移動の停止を指示する信号を出力す
るよう形成することもできる。
【0039】図6は、ディスプレイ12の画面10上の
ポインタの動作を示す。「みぎ」という認識対象語10
2が確定された時点t1で、ポインタは初期位置40か
ら右方向に移動を開始し、「ー」という継続音声が継続
して発話されている間、動作継続が指示され、単位時間
当たり一定の移動量で位置41、位置42と右へ移動す
る。なお、図6では、各ポインタは、単位時間毎のポイ
ンタの表示位置を示す(他の図の表示例も同様であ
る)。オペレータは、自分がポインタを止めたい位置4
6(t2時点)で「みぎーーーーー」という発話を終え
ることにより、ポインタを位置46で止めることができ
る。
【0040】なお、この一定の移動量は、発話者の平均
的な最長連続発話時間に対応して定められている。例え
ば、最長連続発話時間分の発話により、画面10の左端
から右端までポインタが移動するよう設定できる。具体
的には、最長連続発話時間10秒程度である。
【0041】このように、オペレータの感覚と制御対象
(この例ではポインタ)の操作が同期している上、一つ
の命令で指示できるため、極めて使い勝手のよい音声指
示が行える。しかも、制御対象を止めたい位置で止める
ことができるため、オペレータに緊張感を強いることも
ない。
【0042】さらに、オペレータごとの平均的な最長連
続発話時間に対応して移動速度が定められているため、
より使い勝手のよい音声指示が行える。
【0043】(第2の実施の形態)本実施の形態では、
認識対象語が103、104と2つあり、制御対象に移
動の開始、方向、継続、速度を指示する音声認識装置に
ついて説明する。
【0044】例えば、制御対象を右に速く動かしたい場
合、例えば「みぎはやくーー」という音声指示により所
望の移動をさせることができる。「みぎはやくーー」の
ように認識対象語が2つある場合、認識対象音声102
の音声認識指示処理(ステップ8)は図7に示す手順で
行われる。なお、他の処理は第1の実施の形態と同様な
ので省略する。
【0045】第1の認識対象語103が確定するまでは
図5と同様である(ステップ28)。第1の認識対象語
103が確定した後(ステップ26)は、第1の認識指
示処理(ステップ28)と同様に第2の認識指示処理
(ステップ30)を行う。
【0046】第2の認識指示処理(ステップ30)は、
第1の認識対象語103が確定された時点から開始さ
れ、第1の認識指示処理(ステップ28)と同様に、ワ
ードスポッティングにより1語を認識し、第2の参照デ
ータ29と比較し、第2の認識対象語104と確定する
まで認識処理を繰り返す。第2の認識対象語104が確
定された時点で、第1の認識対象語103と第2の認識
対象語104の両方に基づいた指示命令をする信号を出
力する。ここで、第2の参照データ29とは、第2の認
識対象語104と比較するためのデータで、例えば、
「はやく」「ゆっくり」「みぎ」等の符号データであ
り、各符号データに基づく指示命令とともに第2の記憶
手段9内に記憶されている。なお、最初から2つの認識
対象語が確定した時点で指示命令をする信号を出力する
ように形成してもよい。
【0047】図8は、「みぎはやくーー」という音声指
示に対するポインタの動作例を示す図である。図6と図
8を比較すれば分かるように、どちらも一定速度で移動
するが、単位時間当たりの移動量は、ポインタ40、4
1とポインタ60、61を比較すれば分かるように、図
8の例の方が大きい。単位時間当たりの移動量とは、す
なわち、速度のことである。
【0048】この場合の連続音声は「みぎ」と「はや
く」という2つの認識対象語を含んでいる。このように
異なる種別の認識対象語を組み合わせることにより、制
御対象の移動速度と移動方向を同時かつ自在に指示する
ことができる。認識対象語の順序は逆でもよく、「はや
くみぎーー」でも同様の処理が行える。
【0049】また、同じ「みぎ」という認識対象語であ
っても、「みぎみぎ」と2つの認識対象語を発話するこ
とにより、同様の認識指示処理を行うことにより、制御
対象の移動速度を速くすることができる。もちろん、認
識対象語を3つ以上にした場合も同様に認識指示処理が
行える。例えば、「みぎみぎみぎ」と発話すると、「み
ぎみぎ」よりもさらに速く制御対象を右に移動させるこ
とができる。
【0050】(第3の実施の形態)本実施の形態では、
認識対象語103は一つであるが、認識対象語103の
発話の継続時間が標準的な値と異なる場合、制御対象に
移動の開始、方向、速度を指示するとともに速度を変更
できる音声認識装置について説明する。
【0051】例えば、制御対象を右にゆっくり動かした
い場合、「みーぎー」のように認識対象語103をゆっ
くり発話すればよい。同じ「みぎ」という認識対象語で
あっても、ゆっくり発話することにより、制御対象の移
動速度を遅くすることができる。逆に移動速度を速くし
たい場合は、速く発話すればよい。
【0052】「みーぎー」のように認識対象語がある程
度継続して発話されている場合、図5の認識対象語と判
断された後の処理、ステップ14〜18は、図9に示す
発話継続時間処理のように処理する。
【0053】まず、認識対象語と判断したのが初回かど
うか判断し(ステップ50)、初回である場合、開始時
刻を取得する(ステップ52)。この開始時刻として
は、例えば、コンピュータ内部に記憶された現在時刻が
使用できる。その後、認識後処理(ステップ14)を行
い、認識指示処理を繰り返す。認識対象語が確定した場
合(ステップ16)、終了時刻を取得する(ステップ5
4)。この終了時刻としても、例えば、コンピュータ内
部に記憶された現在時刻が使用できる。取得した終了時
刻と開始時刻との差をCPUで演算すれば、一つの認識
対象語の発話継続時間が求められる。この発話継続時間
に基づき、移動速度を決定して指示する信号を出力する
(ステップ18)ことができる。これらの認識指示処理
は、第1の認識指示手段23を用いて行う。
【0054】図10は、「みーぎー」という音声指示に
対するポインタの動作例を示す図である。図6と図10
を比較すれば分かるように、どちらも一定速度で移動す
るが、単位時間当たりの移動量は、ポインタ40、41
とポインタ50、51を比較すれば分かるように、図1
0の例の方が小さい。単位時間当たりの移動量とは、す
なわち、速度のことである。つまり、「みーぎ」とゆっ
くり発話することにより、「みぎ」と発話するより制御
対象をゆっくり動かすことができる。
【0055】(第4の実施の形態)本実施の形態では、
認識対象語103が一つであり、制御対象に移動の開
始、方向、速度を指示するが、継続音声106の音量ま
たは高さを測定し、移動中の速度を自在に変更すること
ができる音声認識装置について説明する。
【0056】図11は、図2に示す音声指示装置の変形
例を示す機能ブロック図である。図11に示す音声指示
装置は、図2に示す音声指示装置の構成に加え、音声デ
ータの音量を測定する測定手段26を有している。この
測定手段26は、ピッチ(音声の高さ)を測定すること
もできる。
【0057】測定手段26は、入力手段2により入力さ
れて変換手段4によりディジタル変換された音声データ
から音の振幅を測定するよう形成されている。測定され
たデータは、第1の記憶手段6内部のデータ記憶部20
に記憶される。
【0058】このときの処理の流れは、図4および図5
で示す連続音声認識指示処理とほぼ同様の処理を行う
が、継続音声106の認識指示処理が異なる。
【0059】図12は、継続音声106の認識指示処理
の流れを示すフローチャートである。認識対象語103
確定後(ステップ7)、継続音声106の音量を測定し
(ステップ60)、その音量に基づいて制御対象の移動
速度の変更指示を命令する(ステップ62)。音量が大
きいほど制御対象は速く動き、音量が小さいほど制御対
象はゆっくり動く。継続音声106および音量の認識
は、第2の認識指示手段24により行う。
【0060】図13は、「みぎーー」という言葉を音量
を変化させながら発声したときの指示に対するポインタ
の動作例を示す図である。データ記憶部20には、「み
ぎーー」という符号データに加え、測定手段26により
測定した発話されたときの音量が時系列データとして記
憶される。図13に示すように、音量を大きくすると
(図13(B)区間)、ポインタは速く動き(図1
3(A)区間)、音量を小さくすると(図13
(B)区間)、ポインタはゆっくり動く(図13
(A)区間)。すなわち、オペレータが発話の音量
を調整することにより、ポインタの移動速度を自分の意
志に合わせて制御できる。
【0061】また、音の高低によって制御することもで
きる。この場合も音量制御と同様で、データ記憶部20
には、「みぎーー」という符号データに加え、測定手段
26により測定された発話されたときの音の振動数が時
系列データとして記憶される。図13に示すように、声
を高く(振動数を大きく)すると、ポインタは速く動き
(図13(A)区間)、声を低く(振動数を小さ
く)すると、ポインタはゆっくり動く(図13(A)
区間)。すなわち、オペレータが発話の音の高低を調
整することにより、ポインタの移動速度を自分の意志に
合わせて制御できる。
【0062】以上のように、オペレータの音量または音
声の高低によって、制御対象の移動速度を可変にできる
ため、よりオペレータの感覚に近い音声指示が行える。
【0063】(第5の実施の形態)本実施の形態では、
上記の各種音声認識装置を小型情報機器、マニピュレー
タ、情報記憶媒体等の各種機器に適用した例について説
明する。
【0064】図14は、本発明を小型情報機器に適用し
た例を示す図である。手のひらサイズの小型情報機器
は、機器上のボタンやキー等が必然的に小さくなり、操
作し難い。本発明による音声指示装置を内部に組み込む
ことにより、極めて操作し易い小型情報機器を実現でき
る。
【0065】例えば、図14(A)に示す状態で、ユー
ザが「うえーーーーー」と発話することにより、マイク
150から小型情報機器内部の音声認識指示装置に音声
データが入力されることにより、画面が上方向にスクロ
ールし、図14(B)に示す状態となる。このように、
小さなボタンやキー等を押すことなく、小型情報機器の
画面を操作することができ、ユーザにとっては極めて使
い勝手がよく、小型情報機器の製造企業にとっては、ボ
タンやキー等を機器上に配置する必要がなくなるため、
より小型の情報機器をユーザに提供することができる。
【0066】また、上記のポインタ指示や画面のスクロ
ールに限らず、ディジタル時計の時刻合わせ等の連続的
に変化するものにも適用できる。
【0067】上記の制御対象はマニピュレータであって
もよい。上記の例と同様に、「みぎーーー」と発話すれ
ば、発話している間マニピュレータを右に動かすことが
でき、発話を止めることでマニピュレータの動きも止め
ることができる。
【0068】本発明によれば、実際のマニピュレータの
操作に近い感覚で音声指示ができるため、快適に操作す
ることができる。
【0069】また、上記の連続音声情報および音声指示
プログラムを情報記憶媒体に記憶するよう形成すること
もできる。
【0070】具体的にはこの情報記憶媒体は、制御対象
の移動方向を指示する認識対象音声と、これに継続する
継続音声との連続音声で構成される音声指示命令を認識
し、実行するプログラムを記憶している情報記憶媒体で
あって、入力された前記音声指示命令の情報を記憶する
手順と、前記認識対象音声をワードスポッティングの手
法により符号データに変換する手順と、複数の符号デー
タに対応した移動方向を表す情報と前記変換された符号
データとに基づき、指示された移動方向を認識し、前記
制御対象の移動の開始および移動方向を指示する手順
と、前記音声指示命令の継続音声の継続を認識し、その
認識期間中は前記制御対象の移動の継続を指示する手順
とをコンピュータに実行させるプログラムを記憶してい
る。
【0071】このような音声指示装置においては、話者
ごとの学習に時間がかかるが、本発明による情報記憶媒
体を適用することにより、音声認識指示のためのプログ
ラムと音声指示命令を情報記憶媒体内に記憶できるた
め、この情報記憶媒体を種々のコンピュータに使用した
場合でも、新たに音声認識用の学習を行う必要が無く、
即座に各話者に応じた音声認識ができる。
【0072】なお、前記音声指示命令の継続音声の継続
を認識し、その認識期間中は前記制御対象の移動の継続
を指示する手順を、前記音声指示命令の継続音声の継続
を認識し、その認識が終了した時点で前記制御対象の移
動の停止を指示する手順として形成することもできる。
【図面の簡単な説明】
【図1】従来の音声指示に対するマウスポインタの動作
例を示す図である。
【図2】本発明の実施の形態の一例に係る音声指示装置
の機能ブロック図である。
【図3】連続音声の構成を示す概略図である。
【図4】本発明の実施の形態の一例に係る音声指示のフ
ローチャートを示す図である。
【図5】本発明の実施の形態の一例に係る認識指示処理
のフローチャートを示す図である。
【図6】本発明の実施の形態の一例に係る「みぎーー
ー」という音声指示に対するポインタの動作例を示す図
である。
【図7】本発明の実施の形態の一例に係る認識対象音声
の認識指示処理のフローチャートを示す図である。
【図8】本発明の実施の形態の一例に係る「みぎはやく
ーー」という音声指示に対するポインタの動作例を示す
図である。
【図9】本発明の実施の形態の一例に係る発話時間処理
のフローチャートを示す図である。
【図10】本発明の実施の形態の一例に係る「みーぎ
ー」という音声指示に対するポインタの動作例を示す図
である。
【図11】図2に示す音声指示装置の変形例を示す機能
ブロック図である。
【図12】本発明の実施の形態の一例に係る音量変化に
よる継続音声の認識指示処理のフローチャートを示す図
である。
【図13】本発明の実施の形態の一例に係る「みぎー
ー」という言葉を音量を変化させながら発声したときの
指示に対するポインタの動作例を示す図である。
【図14】本発明の実施の形態の一例に係る小型情報機
器の操作を示す図である。
【符号の説明】
2 入力手段 4 変換手段 6 第1の記憶手段 8 認識指示手段 9 第2の記憶手段 20 データ記憶部 22 状態記憶部 23 第1の認識指示手段 24 第2の認識指示手段 26 測定手段 28 第1の参照データ 29 第2の参照データ 100 連続音声 102 認識対象音声 103 第1の認識対象語 104 第2の認識対象語 106 継続音声 108 不要音声 150 マイク
───────────────────────────────────────────────────── フロントページの続き (72)発明者 宮沢 康永 長野県諏訪市大和3丁目3番5号 セイコ ーエプソン株式会社内 (72)発明者 相澤 直 長野県諏訪市大和3丁目3番5号 セイコ ーエプソン株式会社内

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 制御対象の移動方向を指示する認識対象
    音声と、これに継続する継続音声との連続音声で構成さ
    れる音声指示命令の入力を受け付ける音声指示装置であ
    って、 前記音声指示命令の認識対象音声を認識し、前記制御対
    象の移動の開始および移動方向を指示する信号を出力す
    る第1の認識指示手段と、 前記音声指示命令の継続音声を認識し、その認識期間中
    は前記制御対象の移動の継続を指示する信号を出力する
    第2の認識指示手段と、 を有することを特徴とする音声指示装置。
  2. 【請求項2】 請求項1において、 前記認識対象音声は、 移動方向を指示する第1の認識対象語と、移動速度を指
    示する第2の認識対象語とを含んで構成され、 前記第1の認識指示手段は、 前記認識対象音声に含まれる第1および第2の認識対象
    語を認識し、前記制御対象の移動方向および移動速度を
    指示する信号を出力することを特徴とする音声指示装
    置。
  3. 【請求項3】 請求項1において、 前記認識対象音声は、 発話時間により移動速度を指示するように構成され、 前記第1の認識指示手段は、 前記認識対象音声の発話時間に基づき指示された移動速
    度を認識し、前記制御対象の移動方向および移動速度を
    指示する信号を出力することを特徴とする音声指示装
    置。
  4. 【請求項4】 請求項1〜3のいずれかにおいて、 前記継続音声は、 音量または声の高さにより移動速度を指示するように構
    成され、 前記第2の認識指示手段は、 前記継続音声の音量または声の高さで指示される移動速
    度を認識し、前記制御対象の移動速度を指示する信号を
    出力することを特徴とする音声指示装置。
  5. 【請求項5】 請求項1〜4のいずれかにおいて、 発話者の平均的な最長連続発話時間に対応して制御対象
    に所与の距離の移動を行わせるよう、前記制御対象の平
    均移動速度が設定されていることを特徴とする音声指示
    装置。
  6. 【請求項6】 請求項1〜5のいずれかにおいて、 入力される前記音声指示命令に基づき、ディスプレイ上
    に表示されるポインタの移動方向および移動の継続を指
    示する信号を出力することを特徴とする音声指示装置。
  7. 【請求項7】 請求項1〜5のいずれかにおいて、 入力される前記音声指示命令に基づき、ディスプレイの
    表示画面のスクロール方向およびスクロールの継続を指
    示する信号を出力することを特徴とする音声指示装置。
  8. 【請求項8】 請求項1〜5のいずれかにおいて、 入力される前記音声指示命令に基づき、マニピュレータ
    の移動方向および移動の継続を指示する信号を出力する
    ことを特徴とする音声指示装置。
  9. 【請求項9】 制御対象の移動方向を指示する認識対象
    音声と、これに継続する継続音声との連続音声で構成さ
    れる音声指示命令の入力を受け付ける音声指示装置であ
    って、 複数の符号データに対応した移動方向が予め設定された
    記憶手段を含み、入力された前記音声指示命令の認識対
    象音声をワードスポッティングの手法により符号データ
    に変換し、この符号データと前記記憶手段に記憶された
    データに基づき指示された移動方向を認識し、前記制御
    対象の移動の開始および移動方向を指示する信号を出力
    する第1の認識指示手段と、 前記音声指示命令の継続音声の継続を認識し、その認識
    期間中は前記制御対象の移動の継続を指示する信号を出
    力する第2の認識指示手段と、 を有することを特徴とする音声指示装置。
  10. 【請求項10】 請求項1〜9のいずれかにおいて、 前記移動の継続を指示する信号を出力する第2の認識指
    示手段に代えて、 音声指示命令の継続音声の継続を認識し、その認識が終
    了した時点で前記制御対象の移動の停止を指示する信号
    を出力する第2の認識指示手段を有することを特徴とす
    る音声指示装置。
  11. 【請求項11】 制御対象の移動方向を指示する認識対
    象音声と、これに継続する継続音声との連続音声で構成
    される音声指示命令を認識し、実行するプログラムを記
    憶している情報記憶媒体であって、 入力された前記音声指示命令の情報を記憶する手順と、 前記認識対象音声をワードスポッティングの手法により
    符号データに変換する手順と、 複数の符号データに対応した移動方向を表す情報と前記
    変換された符号データとに基づき、指示された移動方向
    を認識し、前記制御対象の移動の開始および移動方向を
    指示する手順と、 前記音声指示命令の継続音声の継続を認識し、その認識
    期間中は前記制御対象の移動の継続を指示する手順と、 をコンピュータに実行させるプログラムを記憶している
    ことを特徴とする情報記憶媒体。
  12. 【請求項12】 請求項11において、 前記移動の継続を指示する手順に代えて、 音声指示命令の継続音声の継続を認識し、その認識が終
    了した時点で前記制御対象の移動の停止を指示する手順
    をコンピュータに実行させるプログラムを記憶している
    ことを特徴とする情報記憶媒体。
JP33754897A 1997-03-28 1997-12-08 音声指示装置および音声指示情報記憶媒体 Expired - Fee Related JP3744161B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33754897A JP3744161B2 (ja) 1997-03-28 1997-12-08 音声指示装置および音声指示情報記憶媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP9-77572 1997-03-28
JP7757297 1997-03-28
JP33754897A JP3744161B2 (ja) 1997-03-28 1997-12-08 音声指示装置および音声指示情報記憶媒体

Publications (2)

Publication Number Publication Date
JPH10326175A true JPH10326175A (ja) 1998-12-08
JP3744161B2 JP3744161B2 (ja) 2006-02-08

Family

ID=26418652

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33754897A Expired - Fee Related JP3744161B2 (ja) 1997-03-28 1997-12-08 音声指示装置および音声指示情報記憶媒体

Country Status (1)

Country Link
JP (1) JP3744161B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7286991B2 (en) 2002-05-30 2007-10-23 International Business Machines Corporation Computer, display control device, pointer position control method, and program
US7921364B2 (en) 2005-11-03 2011-04-05 Nuance Communications, Inc. Controlling a computer user interface with sound
WO2018208026A1 (ko) * 2017-05-12 2018-11-15 네이버 주식회사 수신된 음성 입력의 입력 음량에 기반하여 출력될 소리의 출력 음량을 조절하는 사용자 명령 처리 방법 및 시스템
JP2018181219A (ja) * 2017-04-20 2018-11-15 株式会社計数技研 音声操作デバイス及び音声操作プログラム
JP2019028725A (ja) * 2017-07-31 2019-02-21 有限会社ふりーむ 音量値を使用して表示手段に表示された対象を操作制御する方法及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7286991B2 (en) 2002-05-30 2007-10-23 International Business Machines Corporation Computer, display control device, pointer position control method, and program
US7870002B2 (en) 2002-05-30 2011-01-11 Nuance Communications, Inc. Computer, display control device, pointer position control method, and program
US7921364B2 (en) 2005-11-03 2011-04-05 Nuance Communications, Inc. Controlling a computer user interface with sound
JP2018181219A (ja) * 2017-04-20 2018-11-15 株式会社計数技研 音声操作デバイス及び音声操作プログラム
WO2018208026A1 (ko) * 2017-05-12 2018-11-15 네이버 주식회사 수신된 음성 입력의 입력 음량에 기반하여 출력될 소리의 출력 음량을 조절하는 사용자 명령 처리 방법 및 시스템
US10872617B2 (en) 2017-05-12 2020-12-22 Naver Corporation User command processing method and system for adjusting output volume of sound to be output, on basis of input volume of received voice input
JP2019028725A (ja) * 2017-07-31 2019-02-21 有限会社ふりーむ 音量値を使用して表示手段に表示された対象を操作制御する方法及びプログラム

Also Published As

Publication number Publication date
JP3744161B2 (ja) 2006-02-08

Similar Documents

Publication Publication Date Title
KR100457509B1 (ko) 터치스크린과 음성인식을 통해 동작 제어되는 정보단말기 및 그의 명령 실행 방법
JPH0863330A (ja) 音声入力装置
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
US8478600B2 (en) Input/output apparatus based on voice recognition, and method thereof
JP5637131B2 (ja) 音声認識装置
US10504502B2 (en) Sound control device, sound control method, and sound control program
JPH09265299A (ja) テキスト読み上げ装置
JP2006251147A (ja) 音声認識方法
JP3399674B2 (ja) 画面制御装置とその方法
KR100567828B1 (ko) 향상된 음성인식 장치 및 방법
JPH10326175A (ja) 音声指示装置および音声指示情報記憶媒体
JP6522009B2 (ja) 音声認識システム
JP2617527B2 (ja) 音声認識装置
JP2009104047A (ja) 情報処理方法及び情報処理装置
JP2006058641A (ja) 音声認識装置
JP2009104025A (ja) 音声認識制御装置
JP2000250587A (ja) 音声認識装置及び音声認識翻訳装置
WO2000068932A1 (fr) Procede et dispositif de commande, procede et dispositif de traitement d'informations et support
JP2005258235A (ja) 感情発話検知による対話修正機能を備えた対話制御装置
JP2019020475A (ja) 音声認識装置、音声認識方法
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP3698635B2 (ja) 音声認識処理装置
JP2000056796A (ja) 音声入力装置および方法
JP3471686B2 (ja) 動作制御方法およびその装置
JP2001195231A (ja) 音声入力装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050922

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051114

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091202

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101202

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101202

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111202

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111202

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121202

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121202

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131202

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees