JPH05108302A - 音声と指示動作を用いた情報入力方法 - Google Patents

音声と指示動作を用いた情報入力方法

Info

Publication number
JPH05108302A
JPH05108302A JP3264931A JP26493191A JPH05108302A JP H05108302 A JPH05108302 A JP H05108302A JP 3264931 A JP3264931 A JP 3264931A JP 26493191 A JP26493191 A JP 26493191A JP H05108302 A JPH05108302 A JP H05108302A
Authority
JP
Japan
Prior art keywords
voice
instruction
voice recognition
information
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3264931A
Other languages
English (en)
Inventor
Masaaki Fukumoto
雅朗 福本
Kenji Mase
健二 間瀬
Yasuhito Suenaga
康仁 末永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP3264931A priority Critical patent/JPH05108302A/ja
Publication of JPH05108302A publication Critical patent/JPH05108302A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Position Input By Displaying (AREA)

Abstract

(57)【要約】 【目的】 音声と指示動作を用いた情報入力方法におい
て、音声認識装置の出力が出るまでの間、指示手段を静
止させておくことなく、本来の指示手段に対して音声情
報を適用する。 【構成】 音声コマンド13が入力される。認識時間1
6後、音声認識装置からの出力15が情報入力装置に入
る。音声レベルの走査を行ない、認識出力15に対応す
る音声コマンド13の開始時刻17aと終了時刻17b
を検出する。音声コマンド13の開始時刻17aと終了
時刻17bを、それぞれ補正時間18a,18bの範囲
内で移動させ、カーソル探索期間20を決定する。カー
ソル探索期間20内のカーソル座標19x,19yを選
択し、該カーソル座標19x,19yにある物体に音声
コマンド13を適用する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、平面上または空間内の
特定の点もしくは物体を指示する指示手段(マウスやタ
ブレットなどのポインティングデバイス、もしくは人間
の手足や指示棒を利用する3次元ビデオタブレットな
ど)による特定の指示動作系列と、音声認識手段による
音声認識結果の任意の組合せに対応して、特定の情報を
情報処理装置に入力する、音声と指示動作を用いた情報
入力方法に関する。
【0002】
【従来の技術】指示手段(マウスやタブレットなどのポ
インティングデバイス、もしくは人間の手足や指示棒を
利用する3次元ビデオタブレットなど)を計算機とのイ
ンタフェースとして用いる際に、音声認識装置を併用
し、操作者の音声によるコマンドを指示手段と併用する
ことによって、より使い易いインタフェースを実現する
ことができる。例として、米アップルコンピュータ社用
の Voice-Navigator(米 Articulate Systems 社製)
や、人間の手指の動きを直接用いて3次元空間中の指示
動作の認識を行なう「特願平3−174066号:福本
・間瀬・末永:情報入力方法」などがある。これらの方
法を用いることによって、指示手段による指示に対し
て、マウスやタブレットのボタンを用いるよりも複雑な
命令動作を与えることができる。また、ペン入力型OS
に対しても、音声認識装置を併用することにより、同様
の効果が期待できる。
【0003】
【発明が解決しようとする課題】上述した従来の技術に
は、以下のような欠点がある。操作者の音声が入力され
てから、音声認識装置が音声認識結果を出力するまでに
ある程度の時間を要するため、指示手段の指示対象が移
動した場合、本来の指示対象とは別の物に対して音声コ
マンドが適用される危険性がある。音声認識装置の出力
が出るまでの間、指示手段を静止させておくことによっ
て、この問題は回避可能であるが、人間の手足の動作を
直接用いて指示を行なうような場合には、ある一点を正
確に指示し続けることになり、操作者にとって大変な苦
痛となる。
【0004】本発明の目的は、音声認識装置の出力が出
るまでの間、指示手段を静止させておくことなく、本来
の指示対象に対して音声情報を適用することができる、
音声と指示動作を用いた情報入力方法を提供することで
ある。
【0005】
【課題を解決するための手段】本発明は、平面上または
空間内の特定の点もしくは物体を指示する指示手段によ
る特定の指示動作系列と、音声を認識する音声認識手段
による音声認識結果の任意の組み合わせに対応して、特
定の情報を情報処理装置に入力する、音声と指示動作を
用いた情報入力方法において、指示手段による指示動作
系列と、音声認識手段に入力される音声信号情報とを時
間同期させて記憶し、音声認識結果の出力開始時点から
前記時間同期記憶情報の探索を行ない、音声認識結果に
対応する音声信号情報を決定するとともに、音声認識結
果に対応する指示手段の指示動作もしくは指示動作系列
の一部を決定し、該時刻における指示動作と音声認識結
果に基づいて特定の情報を情報処理装置に入力するもの
である。
【0006】また、本発明は、平面上または空間内の特
定の点もしくは物体を指示する指示手段による特定の指
示動作系列と、音声を認識する音声認識手段による音声
認識結果の任意の組み合わせに対応して、特定の情報を
情報処理装置に入力する、音声と指示動作を用いた情報
入力方法において、前記指示手段による指示動作系列
と、音声認識手段に入力される音声信号情報とを時間同
期させて記憶し、音声認識結果の出力開始時点から前記
時間同期記憶情報の探索を行ない、指示手段による指示
動作系列から指示動作の移動速度を決定し、音声認識結
果に対応する音声信号情報の存在時刻の前後において指
示動作の移動速度が最小になる時刻を決定し、該時刻に
おける指示動作と音声認識結果に基づいて特定の情報を
情報処理装置に入力するものである。
【0007】
【作用】本発明は、指示動作と、音声信号情報とを時間
同期させて記憶し、音声認識結果の出力が開始される
と、これら記憶情報を探索して、音声認識結果に対応す
る指示動作を決定するようにしたものである。また、本
発明は、1つの音声信号情報が発行されている間に複数
の指示動作が行なわれた場合に、移動速度が最小になる
指示動作を有効な指示動作として抽出するようにしたも
のである。
【0008】
【実施例】次に、本発明の実施例について図面を参照し
て説明する。
【0009】図1は本発明の一実施例で、指示動作と音
声を用いた情報入力システムを示す図、図2は音声コマ
ンドと指示動作の対応づけを行なうアルゴリズムの説明
図である。
【0010】本実施例は、操作者8の手9(指示手段)
の平面画像を取り込むテレビカメラ1a、立面画像を取
り込むテレビカメラ1bによって得られた2つの撮像信
号を情報入力装置2で処理し、一方操作者8の音声をマ
イク7を通じて音声認識装置6に取り込み、音声認識
し、音声認識結果を情報入力装置2に入力して、操作者
8の指示動作と操作者8の音声情報を任意に組合せて有
効な操作情報を情報処理装置3に送るとともに、壁面に
設置されたスクリーン4上に、指示対象物を示すカーソ
ル5を表示する例を示している。なお、三次元空間の座
標系はスクリーン4の右下隈を原点Oとして図1のよう
にとられている。
【0011】次に、本実施例の動作を図により説明す
る。
【0012】指示によるカーソル5の移動等の指示動作
情報および音声のレベルを、情報入力装置2内のバッフ
ァに時間同期して蓄える。ここでは、カーソル5の座標
は、時間的に連続ではなく、時間軸上で離散的に現れる
ものとする。図2において、10は音声レベル、11は
カーソル5のx座標、12はカーソル5のy座標であ
り、これらは時間同期して記録されている。13は音声
コマンド、14は不正な音声コマンド、15は音声認識
結果の出力時点、16は発話終了後の認識時間、17a
は音声コマンドの開始時刻、17bは音声コマンドの終
了時刻、18aは開始時刻補正時間、18bは終了時刻
補正時間、19xは選択されたカーソル(x座標)、1
9yは選択されたカーソル(y座標)、20はカーソル
探索期間である。また、21はカーソル移動速度、22
はカーソル移動速度最小時刻、23xは補間されたカー
ソル座標x、23yは補間されたカーソル座標y、23
vは補間されたカーソル移動速度v、24vは補間され
たカーソル移動速度が極小かつ最小である時刻、24x
は選択されたカーソル補間座標x、24yは選択された
カーソル補間座標y、25v1,25v2,25v3はカーソ
ル移動速度の極小時刻である。
【0013】同期のアルゴリズムを「アルゴリズム1」
に示す。
【0014】アルゴリズム1 1.音声コマンド13が入力される。
【0015】2.認識時間16(音声認識装置6の処理
速度と登録音声数によって異なるが、計算可能)後、音
声認識装置6からの出力15が情報入力装置2に入る。
【0016】3.音声レベル10の走査を行ない、認識
出力15に対応する音声コマンド13の開始時刻17a
および終了時刻17bを検出する。
【0017】4.この場合、認識時間16を考慮するこ
とによって、認識時間16内に発話された不正な音声コ
マンド14の影響を取り除くことができる。
【0018】5.音声コマンド13の開始時刻17aお
よび終了時刻17bを、それぞれ補正時間18aと18
b(操作者8や操作状況によって異なる)の範囲内で移
動させ、カーソル探索期間20を決定する。
【0019】6.カーソル探索期間20内のカーソル座
標19x,19yを選択し、該カーソル座標19x,1
9yにある物体に音声コマンド13を適用する。
【0020】上記の例においては、音声コマンド13の
発話中、カーソル情報はただ1組しか存在しないことを
仮定している。カーソル5の検出速度が早い場合、1つ
の音声コマンド13の発話中に複数のカーソル情報が得
られるが、このような場合にも適切なカーソル情報を抽
出しなければならない。
【0021】図3は1つの音声コマンドに対して複数の
指示動作が対応する場合での適切な指示動作の抽出を行
なうる場合のアルゴリズムの説明図である。
【0022】人間が指示を行なう場合の手の動きに着目
すると、対象物体を指示する時にわずかな停止期間があ
ることがわかる。即ち、カーソル5の移動速度を検出す
ることにより、一連の動作中からの指示動作を抽出する
ことが可能であると考えられる。次に、この指示動作抽
出のアルゴリズムを「アルゴリズム2」に示す(図3参
照)。
【0023】アルゴリズム2 1.アルゴリズム1を用いて、カーソル探索期間20を
求める。
【0024】2.カーソル5の移動速度21が最小(理
想的には0)になった時刻22を求める。
【0025】3.時刻22でのカーソル座標19x,1
9yを選択し、音声コマンド13を、該カーソル座標1
9x,19yにある物体に適用する。
【0026】なお、現実にはシステムの性能からサンプ
リング間隔を細かくできない(1/10秒程度)ので、
粗くサンプリングした指先の速度情報を基に、スプライ
ンなどの補間手法を用いてカーソル5の軌跡と速度を推
定することになる。
【0027】図4は図3において、時間補間を用いて適
切な指示動作の抽出を行なった例を示す図である。
【0028】補間を用いた指示動作抽出のアルゴリズム
を「アルゴリズム3」に示す(図4参照)。
【0029】アルゴリズム3 1.アルゴリズム1を用いて、カーソル探索期間20を
求める。
【0030】2.カーソル5の座標11,12を用い
て、スプラインなどの補間処理を行ない、カーソル補間
座標23x,23y、およびカーソル5の補間して得ら
れる移動速度23vを求める。
【0031】3.カーソル探索期間20内で、カーソル
5の補間して得られる移動速度23vが極小、かつ最小
になった時刻24vを求める。
【0032】4.時刻24vでのカーソル補間座標24
x,24yを選択し、該カーソル座標24x,24yに
ある物体に音声コマンド13を適用する。
【0033】なお、アルゴリズム2または3を用いて、
カーソル探索期間20内で複数のカーソル移動速度最小
点が検出された場合には、選択カーソルの候補を点滅さ
せるなどのフィードバックを操作者に対して行ない、有
効なカーソル情報を選択させることができる。
【0034】図5は図4において、複数の移動速度極小
点(極小時刻25v1,25v2,25v3)が存在する場合
の例を示す図である。
【0035】「これとこれ」などの音声コマンドのよう
に、あらかじめ複数のカーソル情報を必要とすることが
既知である場合には、カーソル移動速度の極小点を小さ
いものから複数個求め、この時刻でのカーソル座標を順
次選択することで対応できる(図5)。
【0036】なお、この手法は、マウスやタブレット、
あるいは電子ペンなどの他の2次元あるいは3次元の指
示手段に対しても同様に適用できる。
【0037】
【発明の効果】以上説明したように本発明は、次のよう
な効果がある。 (1)請求項1の発明は、指示動作認識と音声認識に要
する処理時間が異なる場合に、指示動作と音声信号情報
を時間同期させて記憶し、音声認識結果が出力される
と、該記憶情報を探索し、音声認識結果に対応する指示
動作を決定するようにしたので、指示手段を静止させて
おくことなく、本来の指示対象に対して音声情報を適用
することができる。 (2)請求項2の発明は、1つの音声情報発行中に複数
の指示動作が行なわれた場合、移動速度が最小の指示動
作を有効な指示動作として抽出するようにしたことによ
り、適切な指示動作を決定することができる。
【図面の簡単な説明】
【図1】本発明の一実施例で、指示動作と音声を用いた
情報入力システムを示す図である。
【図2】音声コマンドと指示動作の対応づけを行なうア
ルゴリズムの説明図である。
【図3】1つの音声コマンドに対して複数の指示動作が
対応する場合での適切な指示動作の抽出を行なうるアル
ゴリズムの説明図である。
【図4】図3において、時間補間を用いて適切な指示動
作の抽出を行なった例を示す図である。
【図5】図4において、複数の移動速度極小点が存在す
る場合の例を示す図である。
【符号の説明】
1a,1b テレビカメラ 2 情報入力装置 3 情報処理装置 4 スクリーン 5 カーソル 6 音声認識装置 7 マイク 8 操作者 9 手 10 音声レベル 11 カーソル5のx座標 12 カーソル5のy座標 13 音声コマンド 14 不正な音声コマンド 15 音声認識結果の出力時点 16 発話終了後の認識時間 17a 音声コマンド13の開始時刻 17b 音声コマンド13の終了時刻 18a 開始時刻補正時間 18b 終了時刻補正時間 19x 選択されたカーソル(x座標) 19y 選択されたカーソル(y座標) 20 カーソル探索期間 21 カーソル移動速度 22 カーソル移動速度最小時刻 23x 補間されたカーソルx座標 23y 補間されたカーソルy座標 23v 補間されたカーソル移動速度 24v 補間されたカーソル移動速度23vが極小、か
つ最小である時刻 24x 選択されたカーソル補間座標(x座標) 24y 選択されたカーソル補間座標(y座標) 25v1,25v2,25v3 カーソル移動速度21の極
小時刻

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 平面上または空間内の特定の点もしくは
    物体を指示する指示手段による特定の指示動作系列と、
    音声を認識する音声認識手段による音声認識結果の任意
    の組み合わせに対応して、特定の情報を情報処理装置に
    入力する、音声と指示動作を用いた情報入力方法におい
    て、 前記指示手段による指示動作系列と、前記音声認識手段
    に入力される音声信号情報とを時間同期させて記憶し、
    前記音声認識結果の出力開始時点から前記時間同期記憶
    情報の探索を行ない、前記音声認識結果に対応する前記
    音声信号情報を決定するとともに、前記音声認識結果に
    対応する前記指示手段の指示動作もしくは指示動作系列
    の一部を決定し、該指示動作と前記音声認識結果に基づ
    いて特定の情報を情報処理装置に入力することを特徴と
    する、音声と指示動作を用いた情報入力方法。
  2. 【請求項2】 平面上または空間内の特定の点もしくは
    物体を指示する指示手段による特定の指示動作系列と、
    音声を認識する音声認識手段による音声認識結果の任意
    の組み合わせに対応して、特定の情報を情報処理装置に
    入力する、音声と指示動作を用いた情報入力方法におい
    て、 前記指示手段による指示動作系列と、前記音声認識手段
    に入力される音声信号情報とを時間同期させて記憶し、
    前記音声認識結果の出力開始時点から前記時間同期記憶
    情報の探索を行ない、前記指示手段による指示動作系列
    から前記指示動作の移動速度を決定し、前記音声認識結
    果に対応する前記音声信号情報の存在時刻の前後におい
    て前記指示動作の移動速度が最小になる時刻を決定し、
    該時刻における指示動作と前記音声認識結果に基づいて
    特定の情報を情報処理装置に入力することを特徴とす
    る、音声と指示動作を用いた情報入力方法。
JP3264931A 1991-10-14 1991-10-14 音声と指示動作を用いた情報入力方法 Pending JPH05108302A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3264931A JPH05108302A (ja) 1991-10-14 1991-10-14 音声と指示動作を用いた情報入力方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3264931A JPH05108302A (ja) 1991-10-14 1991-10-14 音声と指示動作を用いた情報入力方法

Publications (1)

Publication Number Publication Date
JPH05108302A true JPH05108302A (ja) 1993-04-30

Family

ID=17410182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3264931A Pending JPH05108302A (ja) 1991-10-14 1991-10-14 音声と指示動作を用いた情報入力方法

Country Status (1)

Country Link
JP (1) JPH05108302A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08166866A (ja) * 1994-10-14 1996-06-25 Hitachi Ltd 対話型インターフェースを具備した編集支援システム
JPH08263258A (ja) * 1995-03-23 1996-10-11 Hitachi Ltd 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
JPH1031551A (ja) * 1996-07-15 1998-02-03 Mitsubishi Electric Corp ヒューマンインターフェースシステムおよびこれを使用した高速移動物体位置検出装置
JPH1040068A (ja) * 1996-07-26 1998-02-13 Fuji Xerox Co Ltd 会議情報記録方法および会議情報記録装置並びに会議情報再生装置
US5781179A (en) * 1995-09-08 1998-07-14 Nippon Telegraph And Telephone Corp. Multimodal information inputting method and apparatus for embodying the same
KR100948600B1 (ko) * 2006-12-04 2010-03-24 한국전자통신연구원 제스처/음성 융합 인식 시스템 및 방법
JP2010522380A (ja) * 2007-03-19 2010-07-01 ゼブラ・イメージング・インコーポレイテッド ユーザ入力により動的3次元ディスプレイをアップデートするシステム及び方法
JP2015153324A (ja) * 2014-02-18 2015-08-24 株式会社Nttドコモ 情報検索装置、情報検索方法及び情報検索プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08166866A (ja) * 1994-10-14 1996-06-25 Hitachi Ltd 対話型インターフェースを具備した編集支援システム
JPH08263258A (ja) * 1995-03-23 1996-10-11 Hitachi Ltd 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
US5781179A (en) * 1995-09-08 1998-07-14 Nippon Telegraph And Telephone Corp. Multimodal information inputting method and apparatus for embodying the same
JPH1031551A (ja) * 1996-07-15 1998-02-03 Mitsubishi Electric Corp ヒューマンインターフェースシステムおよびこれを使用した高速移動物体位置検出装置
JPH1040068A (ja) * 1996-07-26 1998-02-13 Fuji Xerox Co Ltd 会議情報記録方法および会議情報記録装置並びに会議情報再生装置
KR100948600B1 (ko) * 2006-12-04 2010-03-24 한국전자통신연구원 제스처/음성 융합 인식 시스템 및 방법
JP2010522380A (ja) * 2007-03-19 2010-07-01 ゼブラ・イメージング・インコーポレイテッド ユーザ入力により動的3次元ディスプレイをアップデートするシステム及び方法
JP2015153324A (ja) * 2014-02-18 2015-08-24 株式会社Nttドコモ 情報検索装置、情報検索方法及び情報検索プログラム

Similar Documents

Publication Publication Date Title
Shlizerman et al. Audio to body dynamics
JP3114813B2 (ja) 情報入力方法
EP1186162B1 (en) Multi-modal video target acquisition and re-direction system and method
KR101706365B1 (ko) 이미지 세그멘테이션 방법 및 이미지 세그멘테이션 장치
US20110273551A1 (en) Method to control media with face detection and hot spot motion
US20120019684A1 (en) Method for controlling and requesting information from displaying multimedia
KR101083408B1 (ko) 인터렉티브 모드를 지원하는 증강현실 구현 장치 및 방법
KR101929077B1 (ko) 이미지 식별 방법 및 이미지 식별 장치
JPH07141101A (ja) 画像を用いた入力システム
US20110300929A1 (en) Synthesis of information from multiple audiovisual sources
CN107832736B (zh) 实时人体动作的识别方法和实时人体动作的识别装置
CN107066081B (zh) 一种虚拟现实系统的交互控制方法和装置及虚拟现实设备
KR20190099347A (ko) 입력 표시 장치, 입력 표시 방법, 및 프로그램
CN105867595A (zh) 联合语音信息与手势信息的人机交互方式以及实施装置
US12105916B2 (en) Systems and methods for providing on-screen virtual keyboards
CN115565241A (zh) 手势识别对象确定方法及装置
JPH05108302A (ja) 音声と指示動作を用いた情報入力方法
JP2003256850A (ja) 動き認識装置および画像処理装置並びにプログラム
KR101447958B1 (ko) 신체 부분 검출 방법 및 장치
JPH09237151A (ja) グラフィカルユーザインタフェース
Choondal et al. Design and implementation of a natural user interface using hand gesture recognition method
JP6886663B2 (ja) 動作指示生成システム、方法およびプログラム
CN112788390A (zh) 一种基于人机交互的控制方法、装置、设备及存储介质
JP2023042181A (ja) 情報処理装置、情報処理方法、及びプログラム
CN114598817B (zh) 一种基于多人交互动作判断的人机交互判断方法及装置