JPH05108302A

JPH05108302A - 音声と指示動作を用いた情報入力方法

Info

Publication number: JPH05108302A
Application number: JP3264931A
Authority: JP
Inventors: Masaaki Fukumoto; 雅朗福本; Kenji Mase; 健二間瀬; Yasuhito Suenaga; 康仁末永
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1991-10-14
Filing date: 1991-10-14
Publication date: 1993-04-30

Abstract

(57)【要約】【目的】音声と指示動作を用いた情報入力方法におい
て、音声認識装置の出力が出るまでの間、指示手段を静
止させておくことなく、本来の指示手段に対して音声情
報を適用する。【構成】音声コマンド１３が入力される。認識時間１
６後、音声認識装置からの出力１５が情報入力装置に入
る。音声レベルの走査を行ない、認識出力１５に対応す
る音声コマンド１３の開始時刻１７ａと終了時刻１７ｂ
を検出する。音声コマンド１３の開始時刻１７ａと終了
時刻１７ｂを、それぞれ補正時間１８ａ，１８ｂの範囲
内で移動させ、カーソル探索期間２０を決定する。カー
ソル探索期間２０内のカーソル座標１９ｘ，１９ｙを選
択し、該カーソル座標１９ｘ，１９ｙにある物体に音声
コマンド１３を適用する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、平面上または空間内の
特定の点もしくは物体を指示する指示手段（マウスやタ
ブレットなどのポインティングデバイス、もしくは人間
の手足や指示棒を利用する３次元ビデオタブレットな
ど）による特定の指示動作系列と、音声認識手段による
音声認識結果の任意の組合せに対応して、特定の情報を
情報処理装置に入力する、音声と指示動作を用いた情報
入力方法に関する。

【０００２】

【従来の技術】指示手段（マウスやタブレットなどのポ
インティングデバイス、もしくは人間の手足や指示棒を
利用する３次元ビデオタブレットなど）を計算機とのイ
ンタフェースとして用いる際に、音声認識装置を併用
し、操作者の音声によるコマンドを指示手段と併用する
ことによって、より使い易いインタフェースを実現する
ことができる。例として、米アップルコンピュータ社用
の Voice-Navigator（米 Articulate Systems 社製）
や、人間の手指の動きを直接用いて３次元空間中の指示
動作の認識を行なう「特願平３−１７４０６６号：福本
・間瀬・末永：情報入力方法」などがある。これらの方
法を用いることによって、指示手段による指示に対し
て、マウスやタブレットのボタンを用いるよりも複雑な
命令動作を与えることができる。また、ペン入力型ＯＳ
に対しても、音声認識装置を併用することにより、同様
の効果が期待できる。

【０００３】

【発明が解決しようとする課題】上述した従来の技術に
は、以下のような欠点がある。操作者の音声が入力され
てから、音声認識装置が音声認識結果を出力するまでに
ある程度の時間を要するため、指示手段の指示対象が移
動した場合、本来の指示対象とは別の物に対して音声コ
マンドが適用される危険性がある。音声認識装置の出力
が出るまでの間、指示手段を静止させておくことによっ
て、この問題は回避可能であるが、人間の手足の動作を
直接用いて指示を行なうような場合には、ある一点を正
確に指示し続けることになり、操作者にとって大変な苦
痛となる。

【０００４】本発明の目的は、音声認識装置の出力が出
るまでの間、指示手段を静止させておくことなく、本来
の指示対象に対して音声情報を適用することができる、
音声と指示動作を用いた情報入力方法を提供することで
ある。

【０００５】

【課題を解決するための手段】本発明は、平面上または
空間内の特定の点もしくは物体を指示する指示手段によ
る特定の指示動作系列と、音声を認識する音声認識手段
による音声認識結果の任意の組み合わせに対応して、特
定の情報を情報処理装置に入力する、音声と指示動作を
用いた情報入力方法において、指示手段による指示動作
系列と、音声認識手段に入力される音声信号情報とを時
間同期させて記憶し、音声認識結果の出力開始時点から
前記時間同期記憶情報の探索を行ない、音声認識結果に
対応する音声信号情報を決定するとともに、音声認識結
果に対応する指示手段の指示動作もしくは指示動作系列
の一部を決定し、該時刻における指示動作と音声認識結
果に基づいて特定の情報を情報処理装置に入力するもの
である。

【０００６】また、本発明は、平面上または空間内の特
定の点もしくは物体を指示する指示手段による特定の指
示動作系列と、音声を認識する音声認識手段による音声
認識結果の任意の組み合わせに対応して、特定の情報を
情報処理装置に入力する、音声と指示動作を用いた情報
入力方法において、前記指示手段による指示動作系列
と、音声認識手段に入力される音声信号情報とを時間同
期させて記憶し、音声認識結果の出力開始時点から前記
時間同期記憶情報の探索を行ない、指示手段による指示
動作系列から指示動作の移動速度を決定し、音声認識結
果に対応する音声信号情報の存在時刻の前後において指
示動作の移動速度が最小になる時刻を決定し、該時刻に
おける指示動作と音声認識結果に基づいて特定の情報を
情報処理装置に入力するものである。

【０００７】

【作用】本発明は、指示動作と、音声信号情報とを時間
同期させて記憶し、音声認識結果の出力が開始される
と、これら記憶情報を探索して、音声認識結果に対応す
る指示動作を決定するようにしたものである。また、本
発明は、１つの音声信号情報が発行されている間に複数
の指示動作が行なわれた場合に、移動速度が最小になる
指示動作を有効な指示動作として抽出するようにしたも
のである。

【０００８】

【実施例】次に、本発明の実施例について図面を参照し
て説明する。

【０００９】図１は本発明の一実施例で、指示動作と音
声を用いた情報入力システムを示す図、図２は音声コマ
ンドと指示動作の対応づけを行なうアルゴリズムの説明
図である。

【００１０】本実施例は、操作者８の手９（指示手段）
の平面画像を取り込むテレビカメラ１ａ、立面画像を取
り込むテレビカメラ１ｂによって得られた２つの撮像信
号を情報入力装置２で処理し、一方操作者８の音声をマ
イク７を通じて音声認識装置６に取り込み、音声認識
し、音声認識結果を情報入力装置２に入力して、操作者
８の指示動作と操作者８の音声情報を任意に組合せて有
効な操作情報を情報処理装置３に送るとともに、壁面に
設置されたスクリーン４上に、指示対象物を示すカーソ
ル５を表示する例を示している。なお、三次元空間の座
標系はスクリーン４の右下隈を原点Ｏとして図１のよう
にとられている。

【００１１】次に、本実施例の動作を図により説明す
る。

【００１２】指示によるカーソル５の移動等の指示動作
情報および音声のレベルを、情報入力装置２内のバッフ
ァに時間同期して蓄える。ここでは、カーソル５の座標
は、時間的に連続ではなく、時間軸上で離散的に現れる
ものとする。図２において、１０は音声レベル、１１は
カーソル５のｘ座標、１２はカーソル５のｙ座標であ
り、これらは時間同期して記録されている。１３は音声
コマンド、１４は不正な音声コマンド、１５は音声認識
結果の出力時点、１６は発話終了後の認識時間、１７ａ
は音声コマンドの開始時刻、１７ｂは音声コマンドの終
了時刻、１８ａは開始時刻補正時間、１８ｂは終了時刻
補正時間、１９ｘは選択されたカーソル（ｘ座標）、１
９ｙは選択されたカーソル（ｙ座標）、２０はカーソル
探索期間である。また、２１はカーソル移動速度、２２
はカーソル移動速度最小時刻、２３ｘは補間されたカー
ソル座標ｘ、２３ｙは補間されたカーソル座標ｙ、２３
ｖは補間されたカーソル移動速度ｖ、２４ｖは補間され
たカーソル移動速度が極小かつ最小である時刻、２４ｘ
は選択されたカーソル補間座標ｘ、２４ｙは選択された
カーソル補間座標ｙ、２５v1，２５v2，２５v3はカーソ
ル移動速度の極小時刻である。

【００１３】同期のアルゴリズムを「アルゴリズム１」
に示す。

【００１４】アルゴリズム１１．音声コマンド１３が入力される。

【００１５】２．認識時間１６（音声認識装置６の処理
速度と登録音声数によって異なるが、計算可能）後、音
声認識装置６からの出力１５が情報入力装置２に入る。

【００１６】３．音声レベル１０の走査を行ない、認識
出力１５に対応する音声コマンド１３の開始時刻１７ａ
および終了時刻１７ｂを検出する。

【００１７】４．この場合、認識時間１６を考慮するこ
とによって、認識時間１６内に発話された不正な音声コ
マンド１４の影響を取り除くことができる。

【００１８】５．音声コマンド１３の開始時刻１７ａお
よび終了時刻１７ｂを、それぞれ補正時間１８ａと１８
ｂ（操作者８や操作状況によって異なる）の範囲内で移
動させ、カーソル探索期間２０を決定する。

【００１９】６．カーソル探索期間２０内のカーソル座
標１９ｘ，１９ｙを選択し、該カーソル座標１９ｘ，１
９ｙにある物体に音声コマンド１３を適用する。

【００２０】上記の例においては、音声コマンド１３の
発話中、カーソル情報はただ１組しか存在しないことを
仮定している。カーソル５の検出速度が早い場合、１つ
の音声コマンド１３の発話中に複数のカーソル情報が得
られるが、このような場合にも適切なカーソル情報を抽
出しなければならない。

【００２１】図３は１つの音声コマンドに対して複数の
指示動作が対応する場合での適切な指示動作の抽出を行
なうる場合のアルゴリズムの説明図である。

【００２２】人間が指示を行なう場合の手の動きに着目
すると、対象物体を指示する時にわずかな停止期間があ
ることがわかる。即ち、カーソル５の移動速度を検出す
ることにより、一連の動作中からの指示動作を抽出する
ことが可能であると考えられる。次に、この指示動作抽
出のアルゴリズムを「アルゴリズム２」に示す（図３参
照）。

【００２３】アルゴリズム２１．アルゴリズム１を用いて、カーソル探索期間２０を
求める。

【００２４】２．カーソル５の移動速度２１が最小（理
想的には０）になった時刻２２を求める。

【００２５】３．時刻２２でのカーソル座標１９ｘ，１
９ｙを選択し、音声コマンド１３を、該カーソル座標１
９ｘ，１９ｙにある物体に適用する。

【００２６】なお、現実にはシステムの性能からサンプ
リング間隔を細かくできない（１／１０秒程度）ので、
粗くサンプリングした指先の速度情報を基に、スプライ
ンなどの補間手法を用いてカーソル５の軌跡と速度を推
定することになる。

【００２７】図４は図３において、時間補間を用いて適
切な指示動作の抽出を行なった例を示す図である。

【００２８】補間を用いた指示動作抽出のアルゴリズム
を「アルゴリズム３」に示す（図４参照）。

【００２９】アルゴリズム３１．アルゴリズム１を用いて、カーソル探索期間２０を
求める。

【００３０】２．カーソル５の座標１１，１２を用い
て、スプラインなどの補間処理を行ない、カーソル補間
座標２３ｘ，２３ｙ、およびカーソル５の補間して得ら
れる移動速度２３ｖを求める。

【００３１】３．カーソル探索期間２０内で、カーソル
５の補間して得られる移動速度２３ｖが極小、かつ最小
になった時刻２４ｖを求める。

【００３２】４．時刻２４ｖでのカーソル補間座標２４
ｘ，２４ｙを選択し、該カーソル座標２４ｘ，２４ｙに
ある物体に音声コマンド１３を適用する。

【００３３】なお、アルゴリズム２または３を用いて、
カーソル探索期間２０内で複数のカーソル移動速度最小
点が検出された場合には、選択カーソルの候補を点滅さ
せるなどのフィードバックを操作者に対して行ない、有
効なカーソル情報を選択させることができる。

【００３４】図５は図４において、複数の移動速度極小
点（極小時刻２５v1，２５v2，２５v3）が存在する場合
の例を示す図である。

【００３５】「これとこれ」などの音声コマンドのよう
に、あらかじめ複数のカーソル情報を必要とすることが
既知である場合には、カーソル移動速度の極小点を小さ
いものから複数個求め、この時刻でのカーソル座標を順
次選択することで対応できる（図５）。

【００３６】なお、この手法は、マウスやタブレット、
あるいは電子ペンなどの他の２次元あるいは３次元の指
示手段に対しても同様に適用できる。

【００３７】

【発明の効果】以上説明したように本発明は、次のよう
な効果がある。（１）請求項１の発明は、指示動作認識と音声認識に要
する処理時間が異なる場合に、指示動作と音声信号情報
を時間同期させて記憶し、音声認識結果が出力される
と、該記憶情報を探索し、音声認識結果に対応する指示
動作を決定するようにしたので、指示手段を静止させて
おくことなく、本来の指示対象に対して音声情報を適用
することができる。（２）請求項２の発明は、１つの音声情報発行中に複数
の指示動作が行なわれた場合、移動速度が最小の指示動
作を有効な指示動作として抽出するようにしたことによ
り、適切な指示動作を決定することができる。

【図面の簡単な説明】

【図１】本発明の一実施例で、指示動作と音声を用いた
情報入力システムを示す図である。

【図２】音声コマンドと指示動作の対応づけを行なうア
ルゴリズムの説明図である。

【図３】１つの音声コマンドに対して複数の指示動作が
対応する場合での適切な指示動作の抽出を行なうるアル
ゴリズムの説明図である。

【図４】図３において、時間補間を用いて適切な指示動
作の抽出を行なった例を示す図である。

【図５】図４において、複数の移動速度極小点が存在す
る場合の例を示す図である。

【符号の説明】

１ａ，１ｂテレビカメラ２情報入力装置３情報処理装置４スクリーン５カーソル６音声認識装置７マイク８操作者９手１０音声レベル１１カーソル５のｘ座標１２カーソル５のｙ座標１３音声コマンド１４不正な音声コマンド１５音声認識結果の出力時点１６発話終了後の認識時間１７ａ音声コマンド１３の開始時刻１７ｂ音声コマンド１３の終了時刻１８ａ開始時刻補正時間１８ｂ終了時刻補正時間１９ｘ選択されたカーソル（ｘ座標）１９ｙ選択されたカーソル（ｙ座標）２０カーソル探索期間２１カーソル移動速度２２カーソル移動速度最小時刻２３ｘ補間されたカーソルｘ座標２３ｙ補間されたカーソルｙ座標２３ｖ補間されたカーソル移動速度２４ｖ補間されたカーソル移動速度２３ｖが極小、か
つ最小である時刻２４ｘ選択されたカーソル補間座標（ｘ座標）２４ｙ選択されたカーソル補間座標（ｙ座標）２５v1，２５v2，２５v3 カーソル移動速度２１の極
小時刻

Claims

【特許請求の範囲】

【請求項１】平面上または空間内の特定の点もしくは
物体を指示する指示手段による特定の指示動作系列と、
音声を認識する音声認識手段による音声認識結果の任意
の組み合わせに対応して、特定の情報を情報処理装置に
入力する、音声と指示動作を用いた情報入力方法におい
て、前記指示手段による指示動作系列と、前記音声認識手段
に入力される音声信号情報とを時間同期させて記憶し、
前記音声認識結果の出力開始時点から前記時間同期記憶
情報の探索を行ない、前記音声認識結果に対応する前記
音声信号情報を決定するとともに、前記音声認識結果に
対応する前記指示手段の指示動作もしくは指示動作系列
の一部を決定し、該指示動作と前記音声認識結果に基づ
いて特定の情報を情報処理装置に入力することを特徴と
する、音声と指示動作を用いた情報入力方法。
【請求項２】平面上または空間内の特定の点もしくは
物体を指示する指示手段による特定の指示動作系列と、
音声を認識する音声認識手段による音声認識結果の任意
の組み合わせに対応して、特定の情報を情報処理装置に
入力する、音声と指示動作を用いた情報入力方法におい
て、前記指示手段による指示動作系列と、前記音声認識手段
に入力される音声信号情報とを時間同期させて記憶し、
前記音声認識結果の出力開始時点から前記時間同期記憶
情報の探索を行ない、前記指示手段による指示動作系列
から前記指示動作の移動速度を決定し、前記音声認識結
果に対応する前記音声信号情報の存在時刻の前後におい
て前記指示動作の移動速度が最小になる時刻を決定し、
該時刻における指示動作と前記音声認識結果に基づいて
特定の情報を情報処理装置に入力することを特徴とす
る、音声と指示動作を用いた情報入力方法。