JP2004024863A - Lips recognition device and occurrence zone recognition device - Google Patents
Lips recognition device and occurrence zone recognition device Download PDFInfo
- Publication number
- JP2004024863A JP2004024863A JP2003158723A JP2003158723A JP2004024863A JP 2004024863 A JP2004024863 A JP 2004024863A JP 2003158723 A JP2003158723 A JP 2003158723A JP 2003158723 A JP2003158723 A JP 2003158723A JP 2004024863 A JP2004024863 A JP 2004024863A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- recognition
- input
- lips
- lip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/60—Methods for processing data by generating or executing the game program
- A63F2300/6063—Methods for processing data by generating or executing the game program for sound processing
- A63F2300/6072—Methods for processing data by generating or executing the game program for sound processing of an input signal, e.g. pitch and rhythm extraction, voice recognition
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、音声を用いて操作するゲーム装置、口唇画像や音声を入力する入力装置、および音声反応装置に関する。
【0002】
【従来の技術】
図34に従来のゲーム装置の例として、無線受信機を備えた飛行船を操作者の手元の無線受信器付きリモートコントローラーによって操作するゲーム装置を示す。図34に示すように、従来のゲーム装置では、リモートコントローラに備えられたジョイスティック161を用いて対象物を操作するのが一般的である。操作者がジョイスティック161を動かすと、その角度が角度検出部162および163によって検出され、電気信号に変換されて制御部164に出力される。制御部164は、これらの電気信号に基づき、ジョイスティック161の角度に応じて飛行船7の移動を制御するためのラジオコントロール信号を出力する。
【0003】
【発明が解決しようとする課題】
しかしながら従来のゲーム装置は、ジョイスティック161による操作であるため、人間にとって自然な操作とはなっていない。このため操作習熟に時間がかかる、とっさの反応に鈍くなる等の問題点を有していた。また、飛行船ではなく、駆動装置付きの風船を操作するゲーム装置もあるが、この装置においても上述したようにして風船の動きが制御されるため、風船の動きが非生物的になってしまい、風船独特の暖かみが薄れるという問題があった。
【0004】
また、操作者の口唇の画像を入力することにより、音声を認識する装置も提案されているが、このような装置では、高度な光学系レンズを必要とするために装置自体が大ががりなものとなってしまう上に高価であるという問題点がある。
【0005】
本発明はこのような現状に鑑みてなされたものであり、その目的は、(1)自然な音声による操作が可能であり、操作習熟を必要とせず、さらに騒音下あるいは音声を発しにくい状況での利用、および発声に障害を持つ者の利用を可能にするゲーム装置を低コストかつ簡易な構成で提供すること、(2)操作者の口唇の動きおよび音声を簡易な構成により入力することが可能である入力装置、(3)同一の入力音声に対して、複数の言葉の中からランダムに選択された言葉を音声として出力する音声選択装置、(4)音声によって自然な動作をさせることができるゲーム装置または玩具、ならびにこれらに用いられる音声認識装置を提供すること、および(5)入力される音声に応じて動作を変えることができる音声反応装置を提供することにある。
【0006】
【課題を解決するための手段】
本発明のゲーム装置は、操作者によって発生された音声を含む少なくとも1つの音声を入力し、入力された該音声を第1の電気信号に変換し、該第1の電気信号を出力する音声入力手段と、該音声入力手段から出力された該第1の電気信号に基づいて該少なくとも1つの音声を認識する音声認識手段と、該操作者の口唇の動きを光学的に検出し、検出された該口唇の動きを第2の電気信号に変換し、該第2の電気信号を出力する画像入力手段と、該第2の電気信号を受け取り、受け取った該第2の電気信号に基づいて、該話者によって該音声が発生されている区間を求める発生区間検出手段と、該音声認識手段によって認識された該少なくとも1つの音声と、該発生区間検出手段によって求められた該区間とに基づいて、該少なくとも1つの音声から該操作者によって発生された該音声を抽出する統合判断手段と、該統合判断手段によって抽出された該音声に基づいて、対象物を制御する制御手段とを備えており、そのことにより上記目的を達成する。
【0007】
前記発声区間検出手段は、前記画像入力手段から出力される前記第2の電気信号の変化の度合いを検出する微分手段と、該微分手段によって検出される該変化の度合いが所定の値を超えたときに、対応する音声は前記操作者によって発生されたと判断する手段とを備えていてもよい。
【0008】
前記統合判断手段は、前記発声区間検出手段によって求められた前記区間に所定の長さの区間を加えることにより評価区間を作成する手段と、前記音声認識手段によって認識された前記少なくとも1つの音声が、該音声認識手段から出力された認識結果出力時間を検出する手段と、該認識結果出力時間と該評価区間とを比較し、該少なくとも1つの音声のうち、該認識結果出力時間が該評価区間内に収まっている音声を前記操作者によって発声された前記音声と判断する手段とを備えていてもよい。
【0009】
本発明の他のゲーム装置は、操作者の口唇の動きを光学的に入力し、該入力された口唇の動きを電気信号に変換し、該電気信号を出力する画像入力手段と、該電気信号に基づいて該口唇の動きを求め、該求められた口唇の動きに対応する言葉を認識し、認識結果を出力する口唇認識手段と、該認識結果に基づいた制御信号に応じて対象物を制御する制御手段とを備えており、そのことにより上記目的を達成する。
【0010】
前記口唇認識手段は、所定数の言葉を記憶している記憶手段と、前記求められた口唇の動きに応じて該所定数の言葉から1つを選択し、該選択された言葉を該口唇の動きに対応する該言葉であると判断するマッチング手段とを備えていてもよい。
【0011】
前記記憶手段は、前記所定数の言葉に対応する口唇の動きを標準パターンとして記憶しており、前記マッチング手段は、該標準パターンの全てについて、前記求められた口唇の動きとの距離を算出し、該標準パターンのうちの該距離が最も小さい1つに対応する言葉を選択してもよい。
【0012】
前記ゲーム装置は、音声を入力し、該音声を他の電気信号に変換し、該他の電気信号を出力する音声入力手段と、該音声入力手段から出力された該他の電気信号に基づいて該音声を認識する音声認識手段と、該音声認識手段による認識結果と、前記口唇認識手段による前記認識結果との両方に基づいて、前記制御手段に与えられるべき前記制御信号を出力する統合判断手段とをさらに備えていてもよい。
【0013】
前記ゲーム装置は、前記音声認識手段による前記認識結果に対して、音声認識信頼度を求める手段と、前記口唇認識手段による前記認識結果に対して、口唇認識信頼度を求める手段とを有しており、前記統合判断手段は、該音声認識信頼度および該口唇認識信頼度に基づいて、該音声認識手段による該認識結果および該口唇認識手段の該認識結果のうちの一方を選択し、それを前記制御信号として出力してもよい。
【0014】
前記画像入力手段は、光を出射する発光手段と、前記操作者の前記口唇によって反射された該光を受け取り、該受け取った光を前記第2の電気信号に変換する受光手段とを有していてもよい。
【0015】
前記画像入力手段は、光を出射する発光手段と、前記操作者の前記口唇によって反射された該光を受け取り、該受け取った光を前記電気信号に変換する受光手段とを有していてもよい。
【0016】
前記画像入力手段は、光を出射する発光手段と、前記操作者の前記口唇によって反射された該光を受け取り、該受け取った光を前記電気信号に変換する受光手段とを有していてもよい。
【0017】
前記光は、前記口唇に側方から照射されてもよい。
【0018】
前記光は、前記口唇に正面から照射されてもよい。
【0019】
前記音声入力手段は、少なくとも1つのマイクロフォンを有していてもよい。
前記音声入力手段は少なくとも1つのマイクロフォンを有しており、該少なくとも1つのマイクロフォン、および前記画像入力手段の前記発光手段および前記受光手段は、1つの台上に設けられていてもよい。
【0020】
本発明の入力装置は、ヘッドフォン状のヘッドセットと、一端が該ヘッドセットに接合されている支柱と、該支柱の他端に接合されている台であって、その上に、操作者の口唇に照射される光を発生する少なくとも1つの発光素子と、該口唇によって反射された該光を受け取る少なくとも1つの受光素子とが設けられている台とを備えており、そのことにより上記目的を達成する。
【0021】
前記台上には、音声を入力する音声入力手段が設けられていてもよい。
【0022】
本発明の音声選択装置は、複数のテーブルを格納する第1の記憶手段であって、該複数のテーブルのそれぞれは、1つの入力に対して出力されうる複数の言葉を含んでいる第1の記憶手段と、該複数のテーブルのうちの1つを格納する第2の記憶手段と、外部からの入力に応じて、該第2の記憶手段に格納されている該1つのテーブルに含まれている該複数の言葉から1つの言葉を選択し、該選択された1つの言葉を音声として出力する選択手段と、該第2の記憶手段に格納されている該1つのテーブルを、該第1の記憶手段に格納されている該複数のテーブルのうちから該選択された1つの言葉に応じて決定される他のテーブルに更新する遷移手段とを備えており、そのことにより上記目的を達成する。
【0023】
前記音声選択装置は、乱数を発生する手段をさらに備えており、前記選択手段は該乱数を用いて前記複数の言葉から前記1つの言葉を選択してもよい。
【0024】
本発明の他の音声選択装置は、テーブルを格納する記憶手段であって、該テーブルは、1つの入力に応じて出力されうる複数の言葉を含んでいる記憶手段と、外部からの入力を受け取り、該記憶手段に格納されている該テーブルに含まれている該複数の言葉から乱数を用いて1つの言葉を選択し、それを音声として出力する選択手段と、該乱数を発生する手段とを備えており、そのことにより上記目的を達成する。
【0025】
本発明の音声反応装置は、上述した音声選択装置と、音声を入力し、該音声を認識し、認識結果を該音声選択装置に与える音声認識手段とを備えており、そのことにより上記目的を達成する。
【0026】
本発明の他のゲーム装置は、上述した音声反応装置を備えており、そのことにより上記目的を達成する。
【0027】
本発明の他のゲーム装置は、上述した音声反応装置を複数個備えており、それにより該音声反応装置がお互いに対話し、そのことにより上記目的を達成する。
本発明の他のゲーム装置は、入力した音声を電気信号に変換する複数の音声入力部であって、該複数の音声入力部はそれぞれ異なる方向に対応している音声入力部と、該電気信号のエネルギーを該複数の音声入力部のそれぞれについて求め、該複数の音声入力部のうちの該エネルギーが最大である1つを決定し、該決定された1つの音声入力部に対応する方向を該音声が発生された方向であると判定する方向検出手段とを備えており、そのことにより上記目的を達成する。
【0028】
前記ゲーム装置は、対象物を動作させる動作手段と、前記判定された方向に該対象物の動作する方向を変更するように該動作手段を制御する制御手段とをさらに備えていてもよい。
【0029】
前記ゲーム装置は、対象物の動作の現在の方向を計測する計測手段、および前記判定された方向を入力し、該現在の方向および該判定された方向に基づいて目的方向を求め、該目的方向を格納する手段とを有している方向選択手段と、該対象物を動作させる動作手段とをさらに備えており、該方向選択手段は、該目的方向と該現在の方向の差を用いて、該対象物の動作の該現在の方向と該目的方向とが実質的に一致するように該動作手段を制御してもよい。
【0030】
本発明の他のゲーム装置は、音声により相対的な方向を入力する入力手段と、対象物の現在の方向を計測する計測手段と、該現在の方向および該入力された相対的な方向に基づいて目的方向を求め、該目的方向を格納する手段とを有する方向選択手段を備えたゲーム装置であって、該方向選択手段によって、該目的方向と該現在の方向の差を用いて、該対象物の該現在の方向と該目的方向とが実質的に一致するように該対象物を制御し、そのことにより上記目的を達成する。
【0031】
前記入力手段は、前記音声が入力される入力部と、該入力された音声に基づいて前記相対的な方向を認識する認識部とを有していてもよい。
【0032】
本発明の他のゲーム装置は、音声により絶対的な方向を入力する入力手段と、該絶対的な方向に基づいて目的方向を決定し、該目的方向を格納する手段と、対象物の現在の方向を計測する計測手段とを有する方向選択手段を備えたゲーム装置であって、該方向選択手段によって、該目的方向と該現在の方向の差を用いて、該対象物の該現在の方向と該目的方向とが実質的に一致するように該対象物を制御し、そのことにより上記目的を達成する。
【0033】
前記入力手段は、前記音声が入力される入力部と、該入力された音声に基づいて前記絶対的な方向を認識する認識部とを有していてもよい。
【0034】
本発明の音声認識装置は、音声に対応する電気信号を受け取り、該電気信号から、該音声の入力が終了した時間である音声終了点を検出する第1の検出手段と、該電気信号に基づいて、該音声が入力された区間のうちの該音声が発声された区間である発声区間を決定する第2の検出手段と、該電気信号の該発声区間の部分に基づいて、特徴量ベクトルを作成する特徴量抽出手段と、予め作成された複数の候補音声の特徴量ベクトルを記憶する記憶手段と、該特徴量抽出手段からの該特徴量ベクトルを、該記憶手段に記憶されている該複数の候補音声の該特徴量ベクトルのそれぞれと比較することにより、該入力された音声を認識する手段とを備えており、そのことにより上記目的を達成する。
【0035】
前記第1の検出手段は、前記電気信号を、それぞれが所定の長さを有する複数のフレームに分割する手段と、該複数のフレームのそれぞれに対して該電気信号のエネルギーを求める算出手段と、該エネルギーの分散に基づいて前記音声終了点を決定する決定手段とを備えていてもよい。
【0036】
前記決定手段は、予め定められている閾値と前記エネルギーの前記分散とを比較することにより前記音声終了点を決定し、該音声終了点は、該エネルギーの該分散が該閾値とよりも大きい値から小さい値に変化するときに該分散が該閾値と一致する時間であってもよい。
【0037】
前記決定手段は、前記複数のフレームの前記エネルギーのうちの所定数のフレームのエネルギーに対する分散を用いてもよい。
【0038】
前記第2の検出手段は、前記電気信号の前記エネルギーを平滑化する手段と、該電気信号の該エネルギーを平滑化しないままフレーム毎に順次格納する第1の循環式記憶手段と、該平滑化されたエネルギーをフレーム毎に順次格納する第2の循環式記憶手段と、前記音声終了点が検出されたときに該第1の循環式記憶手段に格納されている該平滑化されていないエネルギーおよび該第2の循環式記憶手段に格納されている平滑化されたエネルギーの両方を用いて、発声区間検出用閾値を算出する閾値算出手段と、該平滑化されていないエネルギーを該発声区間検出用閾値と比較することにより、前記発声区間を決定する発声区間決定手段とを有していてもよい。
【0039】
前記閾値算出手段は、前記音声終了点が検出された時点で前記第1の循環式記憶手段に格納されている前記平滑化されていないエネルギーの最大値と、該音声終了点が検出されていない時点で前記第2の循環式記憶手段に格納されている前記平滑化エネルギーの最小値とを用いて、前記発声区間検出用閾値を算出してもよい。
【0040】
前記特徴量検出手段は、前記電気信号の前記発声区間の部分から、該電気信号のフレーム毎のゼロ交差数と、該電気信号を微分して得られる信号のフレーム毎のゼロ交差数と、該電気信号の前記エネルギーとを算出し、これらを前記特徴量ベクトルの要素としてもよい。
【0041】
本発明の他の音声反応装置は、少なくとも1つの上述した音声認識装置と、該少なくとも1つの音声認識装置の認識結果に基づいて対象物を制御する少なくとも1つの制御手段とを備えており、そのことにより上記目的を達成する。
【0042】
前記音声反応装置は、前記少なくとも1つの音声認識装置に接続されており、該少なくとも1つの音声認識装置による前記認識結果を送信する送信手段と、前記少なくとも1つの制御装置に接続されており、該送信された認識結果を受け取り、該少なくとも1つの制御装置に与える受信手段とをさらに備えており、該少なくとも1つの制御装置および該受信手段は前記対象物に取り付けられており、それにより該対象物を遠隔より操作することを可能としてもよい。
【0043】
以下、作用について説明する。
本発明のゲーム装置では、音声認識手段は入力された音声を認識し、発声区間検出装置は話者(操作者)の口唇の動きから話者が発声している区間である発声区間を検出する。この音声認識結果、および発声区間の検出結果に基づいて、統合判断部が話者が音声により入力したコマンドを認識し、そのコマンドに応じて制御部が対象物を制御する。これにより、人間の音声によりゲームを操作することが可能であり、話者以外の者の音声を誤認識したことに起因する誤操作を防ぐことができる。また、本発明の他のゲーム装置では、操作者の口唇の動きから直にコマンドを認識するので、人間の音声により、騒音下、あるいは音声を発しにくい状況でもゲームを操作することが可能となる。また、このゲーム装置は、発生に障害のある者の利用も可能とする。本発明のさらに他のゲーム装置では、音声認識手段による認識結果と口唇の動きに基づく認識結果との両方から統合判断部がより確からしい認識結果を判定する。このため、上述した利点に加えて、音声によるゲーム操作の信頼性をより高くすることができるという利点も得られる
。
【0044】
本発明の入力装置は、軽いヘッドセットに支柱を取り付け、支柱に取り付けた台に安価な発光素子(例えば、LED等)と安価が受光素子(フォトダイオード等)を取り付けているために、非常に軽く、しかも安価に入力装置を提供することができる。さらに、ヘッドセットを伸縮可能にしておけば、その入力装置の操作者ごとにヘッドセットの長さを調節して、発光素子および受光素子と操作者の口唇付近との位置関係を調節することができる。
【0045】
本発明の音声選択装置では、外部から1つの入力があると、第2の記憶手段に格納されているテーブルに含まれている言葉のうちの1つが選択され、音声として出力される。そして、第2の記憶手段に格納されているテーブルは、第1の記憶手段に格納されている複数のテーブルのうちからこの出力に応じて選ばれるテーブルに変更される。次に外部から入力があると、上述した動作が繰り返される。このようにして、本発明の音声選択装置は、1つの入力に1つの言葉を返すという1回の動作だけではなく、次々と与えられる入力に応じて言葉を返していくということができる。この音声選択装置を音声認識装置と組み合わせれば、入力された音声からそれに対応する言葉を認識し、その認識結果に応じて、ランダムに選ばれた言葉を音声として出力する音声反応装置を構成することができる。ゲーム装置にこの音声反応装置を少なくとも1個設ければ、音声反応装置に操作者と対話を行わせることができるし、また複数個設けると、装置同士で対話を行うゲーム装置を構成することもできる。また1つの入力に対して出力されるべき言葉を乱数を用いて選択することにより、同一の入力に対して常に同じ言葉を出力するというのではなく、変化のある出力を行うことができる。
【0046】
本発明の他のゲーム装置では、それぞれが異なる方向に対応している複数の音声入力部を用いて音声が入力された方向を検出する。そして、検出された方向に対象物の移動の向きあるいは対象物自体の向きを変更する。このようにして、音声により対象物を動作させることができる。また本発明の他のゲーム装置では、音声によって入力された方向と現在の対象物の移動方向あるいは向きとの差を方位計で検出しながら、対象物の移動方向あるいは向きを変更する。
【0047】
本発明の音声認識装置は、入力された音声に対応する電気信号から音声の入力が終了した点を検出する。続いて、このようにして求められる音声が入力されている区間分の電気信号から、さらに音声が発声されている区間を抽出する。この音声が発声されている区間分の電気信号から、実際に候補音声の特徴量ベクトルと比較される特徴量ベクトルを作成するので、本発明の音声認識装置は簡単な構成で精度よく音声を認識することができる。また、音声が発声されている区間の抽出に用いられる閾値は、上記電気信号のエネルギーおよびこのエネルギーを平滑化したものとに基づいて算出される。これにより、音声が発声されている区間を良好に検出することができる。さらに、この音声認識装置を、対象物の動作を制御する手段と組み合わせて得られる音声反応装置では、入力された音声に対応する動作を対象物に行わせることができる。
【0048】
【発明の実施の形態】
(第1の実施例)
以下、図面を参照しながら本発明のゲーム装置の第1の実施例を説明する。本実施例は、飛行船の動きに応じた音声コマンドで飛行船を操作するゲーム装置である。音声コマンドは、「前」・「後ろ」・「右」・「左」・「上」・「下」の6個のコマンドを含んでいる。
【0049】
本実施例では、話者(ゲーム装置の操作者)の音声信号とともに話者の口唇の動きを表す信号を入力し、これらの信号に基づいて話者が発声しているか否かを判定する処理を行っている。これにより、周囲の騒音、特に他者が話した声による誤動作を防止することが可能となる。
【0050】
図1に、本実施例のゲーム装置の構成を簡単に示す。本実施例のゲーム装置は、入力された音声を処理するための音声入力部1および音声認識部2、口唇の動きを入力し、口唇の動きを示す信号を処理するための画像入力部3および発声区間検出部4を備えている。音声認識部2および発声区間検出部4は、ともに統合判断部5に接続されており、ここで入力された音声および口唇の動きの両方に基づき、話者が発声したコマンドが何であるかが判断される。統合判断部5の判断結果は制御部6に入力され、これに基づいて制御部6は飛行船7を制御する。
【0051】
まず、話者が発声したコマンドを含む音声が音声入力部1に入力される。音声の入力は、例えば、通常のマイクロフォン等を利用することができる。音声入力部1は入力された音声を電気信号に変換し、これを音声信号11として音声認識部2に出力する。音声認識部2は音声信号11を解析し、その結果を音声認識結果12として出力する。音声信号11の解析は、例えばDPマッチング等の従来から知られている手法により行うことができる。
【0052】
以上の入力音声の処理と平行して、口唇の動きを表す電気信号の処理が行われる。話者がコマンドを発声すると、そのときの口唇の動きが画像入力部3に入力される。図2に画像入力部3の構成例を示す。本実施例の画像入力部3は、LED21から発した光を話者の口唇部分に照射し、口唇部分に反射された光をフォトダイオード22によって検出する。これにより、口唇の動きに応じた電気信号13を出力する。話者の口唇に動きがある場合、電気信号13のレベルは、話者の口唇付近の陰影の変化に応じて変化する。なお、話者の口唇には、LED21からの光を正面から照射してもよいし、側面から照射してもよい。
【0053】
画像入力部3からの電気信号13は発声区間検出部4に入力される。図3に、本実施例の発声区間検出部4の構成を示す。発声区間検出部4は、微分回路31と区間検出部32とを有している。微分回路31は、入力された電気信号13の変化度合いを示す微分信号33を出力する。微分信号33の波形の一例を図5に示す。図5は、LED21からの光を話者の口唇に側面から照射した状態で話者がコマンド「前」および「後ろ」を発声したときに得られた微分信号33を示している。図5から分かるように、話者が発声している場合には、微分信号33の振幅が大きくなる。また、話者の口唇に側面からLED光を当てているため、コマンド「後ろ」の「う」を発した時に唇が尖る動きが波形に反映されているのがわかる。なお、LED21からの光を話者の口唇に正面からあてる場合には、光が話者の顔のみに当たるので、電気信号13および微分信号33は背景の動きに起因するノイズの影響を受けないという利点がある。
【0054】
区間検出部32は、この微分信号33を受け取り、微分信号33の振幅の大きさを判定し、話者の発声区間を検出する。具体的な発声区間の検出法を図6を参照しながら説明する。
【0055】
区間検出部32は、微分信号33のレベルが所定の振幅閾値51を超えると、その微分信号33は話者がコマンドを発声したことによって生じたものであると判断し、微分信号33のレベルが振幅閾値51を超えている区間を発声区間とする。図6に示す例では、区間1および区間2が発声区間である。続いて、隣接する発声区間のインターバルを所定の時間閾値52と比較する。この時間閾値52は、複数の発声区間が同一の発声に対応するものか否か、つまり複数の発声区間が連続するものか否かを判断するために用いられる値である。発声区間のインターバルが時間閾値52以内であれば、そのインターバルを挟んだ2つの発声区間は連続した発声区間であると判断される。このようにして判定された連続した発声区間を表す信号14が発声区間検出部4から出力される。なお、振幅閾値51および時間閾値52は、いずれも、予め適当な値に設定され得る。
【0056】
以上述べたようにして、発声区間検出部4は、微分信号33を用いて口唇の動きの激しさと持続時間を検出することにより、話者がコマンドを発声した区間を求める。
【0057】
次に、統合判断部5の動作について説明する。統合判断部5は、図4に示すように、音声認識時間判定部41、出力判定部42および出力ゲート43を有している。音声認識時間判定部41は音声認識結果12を受け取り、認識された音声が音声入力部1に入力された時間を出力判定部42に伝える。出力判定部42には、音声認識時間判定部41からの出力の他に、発声区間検出部4からの発声区間検出信号14が入力される。ここで、図7を参照しながら出力判定部42の動作を説明する。
【0058】
出力判定部42は、まず、受け取った発声区間検出信号14に基づいて、発声区間の前後に評価用の時間閾値71を足すことにより評価用発声区間72を作成する。次に、音声認識結果12が音声認識部2から出力された時間が、上記評価用発声区間72に収まっているか否かを判定する。収まっている場合には、音声入力部1に入力され、音声認識部2によって認識された音声は、話者によって発声されたものであると判断される。判断の結果は信号15として制御部6に出力される。
【0059】
なお、評価用発声区間72を作成するための時間閾値71は、音声認識部2が行う認識処理に要する時間を考慮して設定される。これは、認識された音声が話者の発声によるものかどうかを判断する材料の1つとして、音声認識結果12が出力された時間を用いているためである。
【0060】
このようにして、音声によって入力されたコマンドに対応する信号15が得られると、制御部6は、入力されたコマンドに応じたラジオコントロール信号を出力することにより飛行船7を制御する。
【0061】
以上のように第1の実施例では、話者がコマンドを発声したときの口唇の動きから話者が発声している発声区間を検出し、これに基づいて、認識された音声が話者のものか否かを判断する。このため、話者以外の発声による誤認識、およびその結果生じる対象物の誤動作を防止することができる。
【0062】
従って、音声による操作という人間にとって自然な操作によるゲーム装置を実現することが可能となる。また、本実施例では、話者の口唇の動きを、LEDとフォトダイオードとの組み合わせといった簡易な構成・方法によって検出している。このため、話者の口唇の画像をビデオカメラ等を用いて取り入れていた従来の装置と比較して、非常に安価に実現することができる。もちろん、フォトダイオードの代わりにフォトトランジスタを用いても構わない。
【0063】
なお、図2、図3の回路構成は一例を示したもので、この構成のみに限定されるものではない。また、計算機のソフトウェアを利用して実現することも可能である。
【0064】
(第2の実施例)
本発明の第2の実施例のゲーム装置では、コマンドを音声により入力するのではなく、口唇の動きのみで入力し、入力されたコマンドに応じて飛行船を制御する。これにより、騒音下での利用、また例えば真夜中等の音声を発声できない状況における利用、あるいは発声に障害がある者の利用を可能にする。
【0065】
図8は、本実施例のゲーム装置の構成を簡単に示す図である。本実施例のゲーム装置は、上記実施例1と同様に、画像入力部3、制御部6、飛行船7を備えており、さらに、口唇の動きから話者(操作者)の言葉を認識する口唇認識部81を備えている。
【0066】
口唇認識部81の構成例を図9に示す。本実施例では、口唇認識部81は、微分回路31、差分計算部91、データベース92およびパターンマッチング部93から構成される。微分回路31は、上記第1の実施例のゲーム装置の発声区間検出部4において用いられたものと同じである。差分計算部91は、微分回路31からの微分信号33を所定の時間幅でサンプリングし、サンプリングデータ間の差分を計算する。差分計算の結果は、差分計算部91からデータベース92およびパターンマッチング部93の両方に送られる。データベース92には、認識に用いられる標準パターンの差分計算結果が保持されている。パターンマッチング部93は、保持されている標準パターンの差分結果と、認識対象となっている入力パターンの差分計算結果との距離の差を求め、この差に基づいて口唇の動きとして入力された言葉を認識する。もちろん、差が小さいほど認識結果の信頼性は高い。
【0067】
以下、本実施例のゲーム装置の動作を詳細に説明する。本実施例では、口唇認識部81は、上述したように標準パターンと入力パターンとの比較により入力された言葉の認識を行うために、認識動作を行うよりも前に標準パターンを予め口唇認識部81に登録しておく必要がある。
【0068】
(登録動作)
まず、画像入力部3が、話者の口唇部分によって反射されたLED反射光を受け、口唇の動きに応じた電気信号13を口唇認識部81に出力する。電気信号13は口唇認識部81の微分回路31に入力される。微分回路31は、電気信号13の変化の度合いを示す微分信号33を差分計算部91に伝える。ここまでは、第1の実施例と同様である。
【0069】
差分計算部91の動作を図10を参照しながら説明する。まず、微分信号33を時間幅(Δt)でサンプリングし、得られたサンプリングデータにおいて隣り合うサンプリングデータ間の差を計算する。計算されたサンプリングデータ間の差、すなわち一連の差分データはデータベース92に出力される。データベース92はこの差分データ列を保持する。以上の動作を、認識されるべき言葉(カテゴリー)の数だけ繰り返し、全てのカテゴリーに対して差分データ列を格納する。格納された差分データ列は、認識に用いられる標準パターンとして保持されることになる。本実施例では、対象物の制御に用いられるコマンドは、「前」・「後ろ」・「右」・「左」・「上」・「下」の6つである。従って、上述した差分データ列の格納は6回繰り返され、最終的には6つの標準パターンがデータベース92に保持されることになる。
【0070】
このようにして全ての標準パターンをデータベース92に登録し終えると、データベース92は各差分データ列を調べ、口唇が動いている部分に相当するデータが続いている区間の長さを各差分データ列に対して抽出する。具体的には、例えば、差分データ列内でゼロに近い値が所定の時間よりも長く続いていれば、その区間は口唇が動いていないときに相当すると判断する。そして、全ての標準パターンについて口唇が動いている部分に対応する区間の長さを抽出し終わると、最も長い長さを有する標準パターンを選び出し、その長さを標準パターンの差分データ列長(N)と定める。以上で登録動作が終了し、標準パターンの差分データ列がデータベース92に保持された状態となる。
【0071】
(認識動作時)
口唇部分の動きを入力してから微分信号33を得るまでの動作は、登録動作時と全く同様である。ここでは、微分信号33が差分計算部91に入力されてから後の動作を図11を参照しながら説明する。
【0072】
差分計算部91に入力された微分信号33は、登録動作時と同じように時間幅(Δt)でサンプリングされる。続いて、標準パターンの差分データ列長(N)の長さ分の区間内のサンプリングデータについて、隣接するサンプリングデータ間の差分を計算し、得られた一連の差分データをその区間の差分データ列とする。差分が計算される区間は順次Δtずつ時間的に後方にずらしていく。図11では、一番目のサンプリングデータを区間の始まりとし、区間の長さがNであるような区間111についての差分データ列、および区間111からN/2だけ時間的に後方にずれた区間112について差分データ列のみを図示している。
【0073】
区間の長さがNである複数の区間の差分データ列(以下、これらを認識差分データ列とする)が求められると、これらの認識差分データ列は、パターンマッチング部93に送られる。パターンマッチング部93は、データベース92から標準パターンを読み出してきて、複数の認識差分データ列のそれぞれについて、標準パターンのそれぞれとの距離を求める。本実施例では、上述したように6個の標準パターンがデータベース92に登録されているので、パターンマッチング部93は認識差分データ列のそれぞれについて、各標準パターンとの距離を1つずつ計算することになる。
【0074】
認識差分データ列と標準パターンとの距離は、以下の式を用いて計算される。
N
dj=Σ (ri−pij)2
i=1
ここで、riはi番目の認識差分データ列、pijはj番目の標準パターン(j番目のカテゴリーに対応)、djは認識差分データ列とj番目の標準パターンとの距離である。パターンマッチング部93は、この距離dj がある一定値以下となると、認識差分データ列がj番目の標準パターンと一致したと判断し、そのj番目のカテゴリー(言葉)に対応する信号82を判断結果として出力する。
【0075】
この判断結果は制御部6に入力され、制御部6はj番目のカテゴリーに対応したラジオコントロール信号を出力して、飛行船7を制御する。
【0076】
以上述べたように、本実施例では、口唇の動きのみを基に入力された言葉(コマンド)を認識し、認識された言葉に応じて飛行船を制御する。このため、騒音下での利用や、声が出しにくい状況での利用、また発声に障害がある者の利用が可能になる。
【0077】
また、口唇の動きを入力する画像入力部3は、上記実施例1と同様に、LED21とフォトダイオード22の組み合わせによって実現され得るため、ビデオカメラ等を用いて口唇の画像自体を取り込む従来の方法と比較して、非常に安価なゲーム装置を提供することができる。
【0078】
なお、本実施例ではゲームの利用者が、コマンドの入力に先立って、コマンドの認識に用いられる標準パターンの登録を行っている。しかし、例えばゲーム装置製造時あるいは出荷時等にあらかじめ不特定の利用者の口唇の動きに対応できるような標準パターンをデータベース92に登録しておき、利用者による登録を省略するようにしてもよい。
【0079】
(第3の実施例)
続いて、本発明の第3の実施例のゲーム装置を説明する。本実施例では、コマンドを音声および話者(操作者)の口唇の動きの両方により入力し、両方の認識結果を統合して判断することにより、飛行船を操作する。このため、騒音下においても話者が発声したコマンドを確実に認識することが可能である。
【0080】
図12に本実施例のゲーム装置の構成を簡単に示す。本実施例のゲーム装置は、実施例1のゲーム装置と同様の構成を有する音声入力部1、画像入力部3、制御部6および飛行船7を備えている。また、さらに音声処理部121および口唇処理部122を備えている。音声処理部121は、上記実施例1の音声認識部2と同様にして入力された音声を認識し、続いて認識結果の信頼度を算出する。また、口唇処理部122は、実施例2の口唇認識部81と同様にして口唇の動きとして入力された言葉(コマンド)を認識し、それとあわせて認識結果の信頼度を算出する。音声処理部121および口唇処理部122からの出力はともに統合判断部123に入力される。統合判断部123は、各処理部121および122からの認識結果、および信頼度から統合的に話者の入力したコマンドを判断し、判断結果を出力する。
【0081】
以下、本実施例のゲーム装置の動作を詳細に説明する。
【0082】
話者(ゲーム装置の操作者)が発声した音声を音声入力部1が入力し、入力された音声に対応する電気信号11を音声処理部121に伝えるのは、実施例1と同様である。音声処理部121は、電気信号11を受け取り、これに基づいて入力された音声を認識する。音声認識の手法としては、従来から知られているどの方法を用いてもよい。ここでは、例えば上記実施例の口唇認識部の説明において述べた方法と同様に、入力される可能性のある全てのコマンドについてそれを発声したときに得られる電気信号11を処理して得られるデータ列を標準パターンとして予め登録しておき、実際にゲーム装置の操作者がコマンドを発声したときに得られた電気信号11を処理して得られた認識対象データ列と、予め登録された全ての標準パターンとの距離を算出することにより、音声入力部から入力されたコマンド(音声)が何であるかを認識する。このようにして音声が認識されると、続いて音声処理部121は、認識結果はどの程度信頼がおけるものかを示す信頼度を求め、音声認識結果と信頼度との両方を出力124として統合判断部123に与える。信頼度の求め方は後で述べる。
【0083】
また入力された音声の処理と平行して、口唇の動きを表す信号の処理が行われる。まず、画像入力部3は、話者の口唇の動きを実施例1と同様にして入力し、口唇の動きに応じてレベルが変化する電気信号13を出力する。口唇処理部122は電気信号13を受け取り、実施例2と同様の処理を行う。ただし、本実施例の口唇処理部122は、認識差分データ列と標準パターンとのパターンマッチングの結果、認識差分データ列がj番目の標準パターンと一致するものと判断されると、その認識差分データ列とj番目の標準パターンとの距離djに基づいて、認識結果の信頼度を算出する。このようにして得られた認識結果と信頼度はともに統合判断部123に出力される。
【0084】
次に、簡単に信頼度の算出方法を簡単に説明する。本実施例では、音声認識結果の信頼度も口唇の動きに基づく認識結果の信頼度も同じ処理により求められる。以下、音声認識結果の信頼度の算出を説明する。音声認識結果の信頼度を「大」、「中」、「小」の3段階で評価する場合を考える。なお、信頼度「小」のときが最も認識結果の信頼性が高く、信頼度「大」のときに認識結果の信頼性は最も低いものとする。この場合、信頼度「小」と「中」とを分ける閾値αL、および信頼度「中」と「大」とを区切る閾値αH(ただしαL<αH)を用い、認識対象と一致すると判断された標準パターンと認識対象との距離dを上記閾値と比較する。比較した結果d<αLならば信頼度は「小」と判定される。同様に、αL≦d<αH、d≧αHのときには、それぞれ信頼度は「中」、「大」と判定される。口唇の動きに基づく認識結果についても同様に、閾値との比較により信頼度がどの段階であるかが判定される。なお、ここで用いられる閾値は、適当な値に設定することができる。また、信頼度の算出方法は、ここで説明した方法に限られず、公知のどの方法を用いてもよい。
【0085】
続いて、統合判断部123の動作を、図13を参照しながら説明する。
【0086】
図13は、統合判断を行う方法の概念を示す図である。まず、統合判断部123は、音声認識結果が音声処理部121から出力された時間(すなわち出力124が発生された時間)および口唇の動きに基づく認識結果が口唇処理部122から出力された時間(すなわち出力125が発生された時間)を検出し、検出された各出力時間の前後に所定の閾値131に相当する区間を足すことにより、評価用区間132aおよび132bを作成する。続いて、口唇認識結果についての評価用区間132aと音声認識結果について作成された評価用認識区間132bとが重なっているか否かを判定する。重なっている場合には、統合判断部123は、口唇の動きを入力した操作者が発声した音声が入力され、認識されたと判断する。重なっていない場合には、認識された音声は、周囲の騒音や操作者以外のものの発声によると判断される。これにより、操作者以外の音声の誤認識を防ぐことができる。
【0087】
次に、統合判断部123は、口唇の動きに基づく認識結果と音声に基づく認識結果とが一致しているかどうかを判定し、一致した場合にはそれらの認識結果を統合判断結果とする(図13の統合判断結果「前」)。一致しなかった場合、各認識結果に対して求められた信頼度に応じて統合判断結果を決定する。認識結果に対する信頼度の組み合わせと、その組み合わせに応じて決定される統合判断結果との対応関係の例を図14に示す。この例では、上述したように、各認識結果に対する信頼度を、最も信頼性の低い「大」、最も信頼性の高い「小」、およびこれらの間の「中」との3段階で評価している。図14の(a)は、信頼度が同等であるときに音声認識結果を優先する場合の対応関係であり、(b)は口唇認識結果を優先する場合の対応関係である。どちらの認識結果を採用するかは、このゲーム装置が操作される周囲の環境等の要因に応じて決定されるものであり、これを予めゲーム装置に登録しておくことも可能であるし、あるいは操作者が自分で入力するようにゲーム装置を構成してもよい。例えば、(a)のように音声認識結果が優先されるのは、発声に支障がない健常者でかつ周囲の騒音が比較的小さい場合であり、発声に障害を持つ話者の場合や周囲の騒音が非常に大きい場合には(b)を採用する。
【0088】
統合判断部123は、以上述べたように決定された統合判断結果を信号15として出力する。最後に、制御部6が判断結果に応じたラジオコントロール信号を出力して、飛行船7を制御する。
【0089】
以上のように本実施例によれば、音声信号とともに口唇の動きも認識し、両者の結果を統合的に使って認識するため、騒音下においても確実に話者が発声した言葉(コマンド)を認識することができる。同時に、発声に障害を持つ者が音声操作によるゲームを利用することを可能にするという効果もある。また、上述した実施例1および2と同様に、LED21とフォトダイオード22の組み合わせで口唇の動きを検出しているため、ビデオカメラ等を用いて口唇の画像を取り込む方法と比較して非常に安価に実現できる、という効果もある。
【0090】
なお、詳細な説明は省略したが、本実施例でも第2の実施例と同様に、ゲームの利用者が口唇認識時の標準パターンの登録を行うが、あらかじめ不特定話者に対応できる形の標準パターンを準備しておき、利用者による登録を省略するようにしてもよい。
【0091】
また、上記実施例1〜3では、飛行船7をラジオコントロール信号によって制御するゲーム装置を例として説明しているが、本発明が適用されうるゲーム装置はこれに限られないのはもちろんである。例えば、上記実施例のいずれかで述べたような構成を操作者の数だけ設ければ、複数の操作者が同時にプレイすることが可能なゲーム装置を実現することができる。
【0092】
以下、本発明の入力装置を説明する。図15は、本発明の入力装置の構成を簡単に示す図である。本発明の入力装置は、ヘッドセット154と、それに取り付けられた支柱155と、フォトダイオード151およびLED152が設けられた台153とを有しており、台153は所定の角度で支柱155に接合されている(図15の(a)参照)。台153と支柱155との角度を調整すれば、LED152が発した光が操作者の口唇部分に照射される方向を変更することができる。この入力装置は、LED152が発した光を操作者の口唇部分に照射し、反射された光をフォトダイオード151で検出することにより、口唇の動きを入力する装置である。このような入力装置は、例えば、上記実施例1〜3における画像入力部として用いることができる。また、台153にマイク156を付加すれば(図15の(b)参照)、この入力装置を音声入力装置としても用いることができる。
【0093】
図15の(a)に示すようにマイクを設けていない入力装置は、上記実施例2の画像入力部として用いることができる。また、図15の(b)に示すようにマイクを有する入力装置は、上記実施例1および3の音声入力部と画像入力部とを兼ねた装置として用いることができる。
【0094】
このように、本発明の入力装置は、非常にサイズが小さく、かつ非常に軽く実装することができるフォトダイオード151、LED152、およびマイク156を用いているので、入力装置全体のサイズおよび重量は非常に小さい。また、使用している構成要素はすべて安価であるため、低コストで実現することができる。さらに、本発明の入力装置は、ヘッドセット154により操作者の頭部に固定されるため、口唇とフォトダイオード151およびLED152の位置を実質的に一定にすることができる。このため、口唇の動きを安定して入力することができる。また、本発明の入力装置は光により口唇の動きを入力し、それを電気信号に変換して出力するので、従来の入力装置、例えば口唇の動きではなく画像を入力する装置や、超音波を用いる装置といった大がかりで複雑な構成にならざるを得ない入力装置よりも簡易な構成にすることが可能である。
【0095】
なお、ここでは、フォトダイオードとLEDはそれぞれ1つずつしか実装していないが、それぞれを複数個実装することも可能である。たとえば、LEDとフォトダイオードを2組準備し、各組を十字状に配置すれば面上での動き方向が検出できるといった効果がある。
【0096】
以上説明したように、本発明によれば、人間にとって自然な音声による操作が可能であり、かつ操作習熟を必要としないゲーム装置を得ることができる。また、音声のみから入力された言葉(コマンド)を認識するのではなく、口唇の動きを利用しているので、騒音下においても安定な操作が可能である。さらに、口唇の動きをLEDとフォトダイオード(フォトトランジスタ)の組み合わせでとらえるため、ビデオカメラ、あるいは超音波等を利用する場合と比較して、低コストで実現することができる。
【0097】
さらに、上記第1の実施例で述べたように、口唇の動きから話者の発声区間を検出し、これを音声認識結果の判断材料とするため、話者以外の発声による誤認識を防止することができる。また、上記第2および第3の実施例で述べたように、口唇の動きから入力された言葉(コマンド)を認識して飛行船の制御を行うようにすれば、騒音下においても、また声が出しにくい状況や、発声に障害を持つ者の利用も可能となる。
【0098】
また、本発明の入力装置は、軽いヘッドセットと支柱および台に安価な発光素子(LED等)と安価な受光素子(フォトダイオード等)を取り付けている。このため、非常に軽く、しかも安価な入力装置を実現することができる。
【0099】
上記実施例1〜3では、認識された音声あるいは口唇の動きに応じて、対象物の移動が制御される例を説明した。しかし、音声あるいは口唇の動きに基づいて制御される対象物の動作は移動に限らず、例えば何らかの言葉を言い返す、等の動作であってもよい。以下に説明するのは、認識された音声に応じて、対象物に何らかの動作(移動を含む)を行わせるための様々な装置である。
【0100】
以下に、認識された音声に応じて対象物に何らかの動作を行わせるための装置を各実施例において説明する。
【0101】
(第4の実施例)
本実施例では、認識された音声に応じて、その音声に対して用意された出力音声の集合から1つの出力音声を選択し、それを出力する装置を説明する。
【0102】
図16に本実施例の音声選択装置100の構成を簡単に示す。音声選択装置100は、乱数発生部101、選択部102、入出力状態メモリ103、状態遷移部104および入出力状態データベース105とを有している。入出力状態データベース105には、複数個の入出力状態テーブルが予め記憶されている。各入出力状態テーブルは、状態sにおける入力x(xは負でない整数)と、入力xに対するn(s)個の出力音声の集合sp(x,i)(0≦i<n(s))とを含んでいる。入出力状態テーブルの例を図17に示す。入出力状態メモリ103には、最初、図17(a)に示す初期状態のテーブル201が格納されている。乱数発生部101は、出力音声の集合から出力すべき1つの音声を選択するのに用いられるiを決定する。
【0103】
以下、この音声選択装置100の動作を説明する。選択部102に外部から入力xがあると、選択部102は、入出力状態メモリ103に格納されている入出力状態テーブルを参照し、入力xに対応する出力音声集合sp(x,i)を選択する。続いて、選択部102は、乱数発生部101に乱数r(n(s))(ただし、0≦r(n(s))<n(s))によって決定させ、i=r(n(s))として出力音声集合sp(x,i)の中から1つの音声を選び出す。そして、これを外部に出力する。
【0104】
選択部102からの出力は、外部だけではなく、状態遷移部104にも与えられる。選択部102からの出力を受け取ると、状態遷移部104は、入出力状態データベース105を参照しながら、入出力状態メモリ103の内容を、選択部102からの出力に対する入出力状態テーブルに書き換える。例えば、初期状態201において「元気?」が出力された場合、状態遷移部104は、入出力状態データベース105を参照して、出力「元気?」に対する入出力状態202のテーブルを取り出す。そして、取り出した状態202のテーブルを入出力状態メモリ103に格納する。
【0105】
このようにして本実施例の音声選択装置100は、入力された音声に対して、乱数を用いて選ばれた音声を出力する。従って、この音声選択装置100を用いれば簡単な対話システムを構築することが可能となる。また、図18に示すように、状態遷移部104と入出力状態データベース105とを省略した簡単な構成の音声選択装置100aを用いれば、入力された音声に対して一回だけの応答をさせるようにすることもできる。
【0106】
上記音声選択装置100および100aは、図27に示すように音声反応装置1203の音声選択装置1202として、音声認識装置1201と組み合わせて用いられ得る。具体的に説明すると、まず、音声認識装置1201によって音声が認識されると、その認識結果は、例えばその音声に付された識別番号によって音声選択装置1202に入力される。音声選択装置1202は、入力された識別番号を入力xとして出力音声集合から1つの音声をランダムに選択し、それを出力する。これにより、ある音声を入力するとそれに対応した音声が出力され、しかも、同じ入力音声に対してもさまざまな応答をすることができる音声反応装置1203を実現することができる。例えば、音声選択装置1202が初期状態にあるときに音声認識装置1201が「おはよう」という音声を認識結果として出力すると、音声選択装置1202には、「おはよう」という音声に与えられた識別番号1が入力xとして入力される(図2(a)参照)。これに応じて、音声選択装置1202は、「おはよう」、「元気?」の2つの出力音声を含む集合sp(1,i)から1つをランダムに選び、出力する。
【0107】
この音声反応装置1203では、実際の動作に先立って、音声選択装置1202に入力として受け入れられ得る音声を登録しておく必要がある。登録音声集合に含まれていない音声が音声選択装置1202に入力されたときには、例えば、「何?」という音声を音声選択装置1202から出力させればよい。また上記実施例3の装置を音声認識装置1201として用いた場合には、認識された音声の信頼性が低いときにはもう一度音声入力をしてもらうための音声を音声認識選択装置1202から出力させることもできる。
【0108】
このように本発明の音声選択装置では、入出力の状態を表すテーブルを複数個用意し、過去の入出力の履歴に応じて入出力の状態を遷移させている。従って本発明の音声選択装置を用いれば、簡単な対話を行う装置を実現することが可能となる。また、この音声選択装置では、1つの入力に対して複数の出力音声の候補を有しており、これらの出力音声候補から1つをランダムに選択して出力する。
このため、1つの入力に対して常に同じ応答をするのではなく、変化のある応答をすることができる音声反応装置が得られる。
【0109】
(第5の実施例)
次に、本発明の方向検出装置および方向選択装置を説明する。
【0110】
まず、図19を参照しながら方向検出装置400を説明する。方向検出装置400は、方向検出部401とこれに接続された複数のマイク402を有しており、マイク402は、制御される対象物に取り付けられている。ここでは、マイクの個数が4個である場合を例として方向検出装置400の動作を説明する。4個のマイクm(i)(i=0,1,2,3)から音声が入力されると、方向検出部401は、図20に示すように、入力された音声sp(m(i),t)をフレームf(m(i),j)501(0≦j)に分割する。例えば1フレームの長さは16msとされる。次に方向検出部401は、各フレームについてフレーム内の音声のエネルギーe(m(n),j)を求め、求められたエネルギーe(m(n),j)を長さl(例えば長さ100)の循環メモリ(不図示)に順次蓄えていく。このとき方向検出部401は、1フレーム毎のエネルギーが蓄えられる度に各マイクについて過去lフレーム分のエネルギーの和を求め、エネルギーの和が最大となるマイクを決定する。続いて方向検出部401は、エネルギーの和の最大値を予め実験的に定められた閾値Theと比較し、エネルギーの和の最大値が閾値Theよりも大きければ、方向検出部401からそのマイクへ至る方向が音声が聞こえてくる方向であると判定する。こうして判定されたマイクの番号iが、音声が入力された方向として方向検出部401から出力する。
【0111】
このように動作する方向検出装置400を、例えば、図28に示すように動作装置1302と組み合わせて用いれば、音声の聞こえた方向に応じて所定の動作を行う音声反応装置1303を構成することができる。具体的には、例えば対象物(例えば風船やぬいぐるみなど)にこれを動かすための動作装置1302および方向検出装置1301(図19では400)を取り付ければ、人間の声のする方に対象物が移動するというように、音声に応じて音声が聞こえてくる方向に向けて所定の動作を行う装置を作ることができる。
【0112】
なお、上述した動作装置1302の一例としては、対象物に取り付けられたプロペラ付きのモーターを3個とこれらのモーターの駆動装置とを有しており、次に移動しようとする方向を入力すると、対象物がその方向へ移動するように3個のモーターを制御する装置がある。
【0113】
次に図21を参照しながら方向選択装置を説明する。方向選択装置600は、オフセット算出部601、方位計602および目的方向メモリ603を有しており、対象物の移動する方向あるいは対象物の向きを制御するための装置として用いられ得る。オフセット算出部601は、次に対象物が移動すべき方向あるいは対象物が向くべき方向を示す入力x(xは負でない整数)が入力されると、予めオフセット算出部601に格納されているテーブルに基づいて、入力xに応じたオフセットを出力する。出力されたオフセットは、方位計602によって計測されたその時点での対象物の実際の方向に加算されて目的方向メモリ603に送られる。目的方向メモリ603は、方位計602からの実際の方向にオフセットを加えたものを次に対象物が移動すべき方向あるいは次に対象物が向くべき方向として記憶する。
【0114】
このように図21の方向選択装置は、入力xに応じて、現在対象物が移動している方向あるいは対象物が向いている方向を基準として対象物の方向を変えるために用いられる。
【0115】
また、図21の方向選択装置600に代えて図22の方向選択装置700を用いれば、現在の方向を基準とした相対的な方向に対象物の方向を変えるのではなく、絶対的な方向に変えることができる。図22の方向選択装置700では、方向算出部701は、絶対的な方向(例えば、北など)を示す入力x(xは負でない整数)を外部から受け取ると、入力xに対応する値を出力する。出力された値は目的とする方向としてそのまま目的方向メモリ603に記憶される。この方向算出部701も上述したオフセット算出部601と同様に、入力xに対する絶対的な方向の値をテーブルとして保持することによって実現可能である。このように目的とする方向をメモリ603に格納した後、方向選択装置700は、対象物が移動していく、あるいは向きを変えていく中での現在の方向を方位計602で順次計測し、計測された方向と目的方向メモリ603に記憶された方向との差分を出力する。この出力に基づいて対象物に対してフィードバック制御を行えば、目的とする絶対的な方向に対象物を移動させたり、対象物の向きを変えたりすることができる。
【0116】
上述したような方向選択装置を、音声認識装置および動作装置と組み合わせれば、図29に示すように、対象物の向きあるいは移動方向を音声によって入力すればそれに応じて対象物の向きあるいは移動方向が変化する音声反応装置1402を実現することができる。音声反応装置1402では、音声認識装置1201の認識結果を方向選択装置1401の入力とし、さらに方向選択装置1401の出力を動作装置1302に入力している。これにより、現在の対象物の向きあるいは移動方向と目的とする方向とを比較しながら、対象物の動作を制御することが可能になる。
【0117】
例えば、北を0度とし、東回りを正の方向としたときに、対象物が現在0度の方向を向いている場合を考える。このとき、方向選択装置1401として上述した方向選択装置600(図21参照)を用いているものとする。目的とする方向を示す音声が音声認識装置1201により「右」という言葉であると認識されると、方向選択装置600のオフセット算出部601に「右」という言葉に+90度が対応づけられているテーブルを格納しておけば、方向選択装置600は、動作装置1302に対して、対象物の向きあるいは移動方向を現在の向きから東回りに90度ほど変えるようにという出力を送る。このとき、方向選択装置600によって、対象物の向きあるいは移動方向の変化中に現在の方向と目的とする方向とは常に比較される。動作装置1302は、方向選択装置600の出力によって目的とする方向に対象物の向きあるいは移動方向が変わるように制御される。
あるいは方向選択装置1401として用いられているのが図22の方向選択装置700である場合には、目的とする方向を表す言葉として、「右」や「左」ではなく「北」や「南西」というような絶対的な方向を表す言葉が入力されることになる。このとき、方向選択装置700は、入力された言葉が「北」であれば0度を、「南西」であれば−135度を目的とする絶対的な方向として目的方向メモリに格納し、上述したような動作を行う。なお、ここで目的とする方向は−180度〜+180度とする。
【0118】
また、本実施例の方向検出装置および方向選択装置を動作装置と組み合わせてもよい。この場合、図30に示すように、方向検出装置1301の検出結果を方向選択装置1401の入力とし、方向選択装置1401の出力を動作装置1302の入力とする。これにより、対象物の向きあるいは移動している方向を、現在の対象物の向きあるいは移動している方向と目的とする方向とを比較しながら音声が聞こえてくる方向に変えるという音声反応装置1501を実現することができる。
【0119】
(第6の実施例)
本実施例では、音声認識に関する装置を説明する。この装置は、図26に示すように、音声終了点検出装置1101、音声検出装置1102、特徴量抽出装置1103、距離計算装置1104および辞書11105を有している。
【0120】
まず、入力された音声に対応する信号を受け取り、その信号に基づいて音声終了点を検出する音声終了点検出装置1101を説明する。本明細書では「音声終了点」は音声入力が終了した時間を意味するものとする。
【0121】
本実施例の音声終了点検出装置1101は、マイクなどの音声入力装置に接続されている。音声入力装置から音声s(t)が入力されると、音声終了点検出装置1101は、図23に示すように入力された音声s(t)をフレームf(i)(iは負でない整数)に分割し、各フレーム内のエネルギーe(i)を求める。図23では、音声s(t)を曲線801で、エネルギーe(i)を曲線802で表している。続いて音声終了点検出装置1101は、1フレーム分の音声が入力される度にそのフレームから所定個数前のフレームまでのエネルギーの分散を求め、予め実験的に定められている閾値Thvと比較する。比較の結果、エネルギーの分散が閾値Thvと大きい方から小さい方に交差していれば、交差した時点を音声終了点と判定する。
【0122】
ここで一定期間のフレーム毎のエネルギーから分散を求める方法を述べる。まず、循環メモリを使う方法であるが、フレーム毎に求まるエネルギーを順次、長さlの循環メモリ803に格納していく。そして、1フレームのエネルギーが求まる度に、そこから一定期間ほど遡ったフレームのエネルギーを循環メモリ803から参照することにより、分散を求める。
【0123】
また、循環メモリを用いずにエネルギーの分散を求める方法もある。この方法では、音声終了点検出装置1101に過去の所定数個のフレームについての平均m(i−1)と分散v(i−1)を保持させておき、新しいフレームに対してエネルギーe(i)が求められる度に、新しく求められたエネルギーe(i)と過去のエネルギーの平均m(i−1)との重みづけした和を新しいエネルギーの平均m(i)とし、同じく過去の分散v(i−1)と|e(i)−m(i)|との重みづけ和を新しい分散v(i)とする。このようにすれば擬似的なエネルギーの分散を求めることができる。ここで、重みづけには減衰定数αを用い、次式を用いて新しい平均と分散とを求める。αとしては1.02を用いている。
【0124】
【数1】
【0125】
このようにすることにより、循環メモリを必要とせず、メモリの節約につながり、新しいエネルギーが求まる度に一定期間内のエネルギーの総和を求める等の手間が省け、処理時間の短縮にもつながる。
【0126】
次に、実際に音声が発音された区間を抽出する音声検出装置1102を説明する。この区間の抽出のために、エネルギーを格納するための循環メモリ803とは別に、平滑化エネルギーを格納するための循環メモリ902を用意しておき、図24に示すように、1フレームのエネルギーが求まる度にメモリ803にはエネルギー802を、メモリ902には平滑化エネルギー901を蓄えてゆく。上述したようにして音声終了点903が求まった時点では、これらの循環メモリ803および902にはエネルギーおよび平滑化エネルギーの履歴が残っており、これらの循環メモリの長さlを十分な長さ(例えば2秒に相当する長さ)にしておけば、一単語分のエネルギーを残しておくことができる。そこで、音声検出装置1102は、これらのメモリに格納されているエネルギーおよび平滑化エネルギーを用いて音声が発音された区間を抽出する。
【0127】
区間の抽出は次のような手順で行われる。まず、後で説明するようにして閾値Thを決定する。この閾値Thと循環メモリ803内に格納されているエネルギーとを過去のものから順に比較していき、エネルギーが初めてその閾値を超える点を音声が発音された区間の始点とする。また、逆に音声終了点から過去に遡っていくときにエネルギーが初めて閾値と交差する点を音声が発音された区間の終点とする。このようにして、音声が発音された区間を抽出する。
【0128】
ここで閾値Thの決定の仕方を説明する。まず、音声終了点が検出された時点でのメモリ803内のエネルギーの最大値max1001と、メモリ902ないの平滑化エネルギーの最小値min1002とを求める。これらの値を用いて、次式から閾値Thを算出する。
【0129】
【数2】
【0130】
ただし、βとしては0.07程度の値を採用した。
【0131】
またここでは、エネルギーを平滑化する方法としては一定ウインドウ内のメディアン値を採る方法を用いている。しかし、平滑化の方法はこれに限定されるものではなく、例えば平均値を採ってもかまわない。なお、閾値Thを求める際に平滑化エネルギーの最大値ではなくエネルギーの最大値を用いたのは、閾値Thを求めるのに平滑化エネルギーの最大値を用いると、単語の長さが変動した場合に最大値が大幅に変動し、それに伴なって閾値Thも変動してしまい、結果的に良好な音声検出ができなくなるからである。また、平滑化エネルギーの最小値を閾値Thの算出に用いているので、音声ではないノイズが検出されるのを防ぐこともできる。
【0132】
上述したようにして、音声が発音されている区間の抽出、すなわち入力された信号のうちの音声に相当する部分の検出が音声検出装置1102によって行われる。
【0133】
次に、検出された音声から、特徴量抽出装置1103によって、認識のための特徴量を抽出する。特徴量もエネルギー同様、フレーム毎に求めるものとし、循環メモリに蓄えていくものとする。ここで特徴量とは、原信号のゼロ交差数と原信号の微分信号のゼロ交差数と原信号のエネルギーの対数をとったもののフレーム間差分の3つの要素を含む特徴量ベクトルとする。
【0134】
このように音声終了点検出装置1101、音声検出装置1102、および特徴量抽出装置1103を経て得られた音声の特徴量ベクトルは、距離計算装置1104に入力される。距離計算装置1104は、辞書1105に予め登録されている複数の音声の特徴量ベクトルのそれぞれと入力された特徴量ベクトルとを照合し、最もスコアがよかったものを認識結果として出力する。照合の方法は単純にベクトル間のユークリッド距離を取ってもよいし、DPマッチング法を用いてもよい。
【0135】
以上説明したようにして、本実施例の装置は音声認識を行う。この音声認識装置は、図27に示すように実施例4で述べた音声選択装置1202と組み合わせて用いることもできるし、図29に示すように実施例5で述べた方向選択装置1401、および動作装置1302に組み合わせることもできる。また、単に動作装置1302と組み合わせて、音声認識装置1201の結果を動作装置1302の入力として目的の方向へ装置全体を移動させる音声反応装置1601を構成することもできる。
【0136】
さらに、実施例4〜6で述べた音声反応装置のうち音声認識装置1201を含むものでは、音声認識装置側に信号送信装置1701を付加し、それぞれの構成の中で音声認識装置の後段に来る音声選択装置1202や方向選択装置1401や動作装置1302に信号受信装置1702を付加すれば、音声認識装置のみを手元のリモコンとして対象物を遠隔操作することが可能となる。ここで信号送受信に赤外線や無線を用いることが可能である。
【0137】
また、上述した音声反応装置を風船に取りつけることによって、風船と対話したり、風船をコントロールすることが可能になり、風船独特のあたたかみを生かした玩具を作ることが可能となる。
【0138】
また、図33に示すように、上述した音声認識装置と音声選択装置とを備えた音声反応装置1203を風船1801に取り付けた物を2つ用意し、人がこの音声反応装置に話しかけるのではなく、2つの音声反応装置同士がお互いに対話するように構成すれば、勝手に対話するような玩具を作ることが可能となる。さらに、この音声反応装置付き風船1801を複数用意し、対話させることも可能である。このときに、それぞれの音声反応装置付き風船に音声認識過程でリジェクト機能を持たせれば、特定の言葉に対してのみ反応することが可能となり、ある発声に対し一つの風船だけが反応するように構成することも可能となる。例えば、それぞれの風船1801に名前を付け、その名前を呼んだ時だけ反応させることが可能となる。ここでリジェクトの方法は音声認識を行う時に内部の辞書と距離を計算するが、実験的に閾値を決めておき、その閾値を越えたものをリジェクトするというものがある。さらに、音声反応装置に時計を組み込んで、所定の時間が経過したら、登録されている出力音声集合の中から1つの音声をランダムに選んで出力させることにより、音声反応装置側から対話を始めることのできる玩具を構成することも可能である。
【0139】
なお、上記対象物は風船に限定されるものではなく、ぬいぐるみや人形、あるいは写真や絵であってもかまわない。また、ディスプレイ中の動画であってもよい。また、対象物として、風船以外の反重力装置(例えば、ヘリコプターのようにプロペラによって浮上するものや、リニアモーターカーのように磁力によって浮上するもの)を用いてもよい。
【0140】
【発明の効果】
以上説明したように、本発明によれば、人間にとって自然な音声による操作が可能であり、かつ操作習熟を必要としないゲーム装置を得ることができる。また、音声のみから入力された言葉(コマンド)を認識するのではなく、口唇の動きを利用しているので、騒音下においても安定な操作が可能である。さらに、口唇の動きをLEDとフォトダイオード(フォトトランジスタ)の組み合わせでとらえるため、ビデオカメラ、あるいは超音波等を利用する場合と比較して、低コストで実現することができる。
【0141】
さらに、本発明の音声認識装置では、口唇の動きから話者の発声区間を検出し、これを音声認識結果の判断材料とするため、話者以外の発声による誤認識を防止することができる。また、本発明の他の音声認識装置では、口唇の動きから入力された言葉(コマンド)を認識して飛行船の制御を行うために、騒音下においても、また声が出しにくい状況や、発声に障害を持つ者の利用も可能となる。
【0142】
また、本発明の入力装置は、軽いヘッドセットと支柱および台に安価な発光素子(LED等)と安価な受光素子(フォトダイオード等)を取り付けている。このため、非常に軽く、しかも安価な入力装置を実現することができる。
【0143】
以上説明したように、本発明の音声選択装置は、入出力の状態を複数用意し過去の入出力の履歴により入出力の状態を遷移させる。このため、この音声選択装置を用いることにより簡単な対話をする装置を提供することが可能となる。また、本発明の音声選択装置は1つの入力に対し複数の出力を用意しており、この中からランダムに選択した1つを出力するので、1つの入力に対し常に同じ応答ではなく、変化のある応答をすることができる。
【0144】
また、本発明の方向検出装置は、複数のマイクによって音声を入力し、エネルギーが最大となるマイクを検出する。これにより、音声が発声された方向を検出することができる。さらに、本発明の方向選択装置を用いれば、方位計によって現在の位置を検出しながら、対象物を入力された方向に正確に移動させたり、あるいは入力された方向に対象物の向きを変えたりすることができる。
【0145】
また、本発明の音声認識装置は、音声終了点検出装置によりまず大まかな音声の終了点を求めてから、音声検出装置で自動的に閾値を求める。ここで、入力された音声のエネルギーの最大値と、エネルギーを平滑化したものの最小値とから閾値を決定しているので、音声の発声区間の長短に関係なく、良好な音声区間抽出を行うことができる。音声検出装置が閾値を用いて音声を検出すると、この音声から特徴量を求め、これに基づいて音声認識を行う。
【0146】
また、上述した装置を適宜組み合わせることにより、様々な音声反応装置を得ることができる。例えば、音声認識装置と音声選択装置を組み合わせれば、人が声で話しかけると返答する音声反応装置が得られ、これによりマン・マシンインターフェースを構築することが可能となる。また、方向検出装置と動作装置を組み合わせれば、音声に反応して対象物を動作させることが可能となるし、音声認識装置と方向選択装置と動作装置を組み合わせれば、音声の内容が示す方向に対象物を正確に移動させたり、音声の内容が示す方向に対象物の向きを変えたりすることが可能となる。さらに、音声反応装置のうちの音声認識装置に信号送信装置を接続し、音声認識装置の後段にくる装置に信号受信装置を接続して対象物に取り付ければ、遠隔からの操作が可能である音声反応装置を実現することができる。
【0147】
さらに、上述したような音声反応装置を複数個用意すれば、音声反応装置間で自動的に対話をする玩具を構成することも可能である。また、音声反応装置をそれぞれ風船に付ければ、風船独特の暖かみを持ち、しかも話しかけることが可能な玩具を作ることができる。また、時計を組み込み、ある時間がくれば適当な音声を出力することによって人間から話かけるのではなく、自分から話しかける音声反応装置を作ることも可能である。
【図面の簡単な説明】
【図1】本発明の第1の実施例のゲーム装置の構成を示すブロック図である。
【図2】本発明の第1〜第3の実施例の画像入力部の詳細な構成を示す図である。
【図3】本発明の第1の実施例における発声区間検出部の詳細な構成を示す図である。
【図4】本発明の第1の実施例における統合判断部の詳細な構成を示すブロック図である。
【図5】本発明の第1〜第3の実施例における微分信号の出力例を示すグラフである。
【図6】図3の発声区間検出部の処理動作を説明するための図である。
【図7】図4の統合判断部の処理動作を説明するための図である。
【図8】本発明の第2の実施例のゲーム装置の構成を示すブロック図である。
【図9】本発明の第2、第3の実施例における口唇認識部の詳細な構成を示すブロック図である。
【図10】本発明の第2、第3の実施例における微分回路の処理動作を示す図である。
【図11】本発明の第2、第3の実施例のパターンマッチング部の処理動作を示す図である。
【図12】本発明の第3の実施例のゲーム装置の構成を示すブロック図である。
【図13】本発明の第3の実施例における統合判断部の処理動作を示す図である。
【図14】本発明の第3の実施例における統合判断部の処理動作を示す図である。
【図15】本発明の入力装置の具体的構成例を示す図である。
【図16】本発明の第4の実施例の音声選択装置の構成を示す図である。
【図17】図16の音声選択装置における入出力状態を示す図である。
【図18】本発明の変形例の音声選択装置の構成を示す図である。
【図19】本発明の第5の実施例の方向検出装置の構成を示す図である。
【図20】入力された音声の波形とフレームとを説明する図である。
【図21】本発明の第5の実施例の方向選択装置の構成を示す図である。
【図22】本発明の第5の実施例の他の方向選択装置の構成を示す図である。
【図23】音声波形、エネルギー、および循環メモリを説明する図である。
【図24】本発明の第6の実施例における音声終了点の検出方法を説明する図である。
【図25】本発明の第6の実施例における音声検出方法を説明する図である。
【図26】本発明の第6の実施例の音声認識装置の構成を示すブロック図である。
【図27】本発明の音声認識装置、および音声選択装置を用いた音声反応装置の構成を示す図である。
【図28】本発明の方向検出装置、および動作装置を用いた音声反応装置の構成を示す図である。
【図29】本発明の音声認識装置、方向選択装置、および動作装置を用いた音声反応装置の構成を示す図である。
【図30】本発明の方向検出装置、方向選択装置、および動作装置を用いた音声反応装置の構成を示す図である。
【図31】本発明の音声認識装置、および動作装置を用いた音声反応装置の構成を示す図である。
【図32】本発明の遠隔操作が可能な音声反応装置の構成を示す図である。
【図33】本発明の音声反応装置を用いた玩具の一例を示す図である。
【図34】従来のゲーム装置の構成を示す図である。
【符号の説明】
1 音声入力部
3 画像入力部
2 音声認識部
4 発声区間検出部
5、123 統合判断部
6 制御部
7 飛行船
21 LED
22 フォトダイオード
81 口唇認識部
100,100a 音声選択装置
101 乱数発生部
102 音声選択部
103 入出力状態メモリ
104 状態遷移部
105 入出力状態データベース
400、1301 方向検出装置
401 方向検出部
600、700、1401 方向選択装置
601 オフセット算出装置
602 方位計
603 目的方向メモリ
701 方向算出装置
1101 音声終了点検出装置
1102 音声検出装置
1103 特徴量抽出装置
1104 距離計算装置
1105 辞書
1201 音声認識装置
1202 音声選択装置
1302 動作装置
1701 信号送信装置
1702 信号受信装置[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a game device that operates using voice, an input device that inputs a lip image or voice, and a voice reaction device.
[0002]
[Prior art]
As an example of a conventional game apparatus, FIG. 34 shows a game apparatus in which an airship equipped with a wireless receiver is operated by a remote controller with a wireless receiver at hand of the operator. As shown in FIG. 34, in a conventional game device, it is common to operate an object using a joystick 161 provided in a remote controller. When the operator moves the joystick 161, the angle is detected by the
[0003]
[Problems to be solved by the invention]
However, since the conventional game device is an operation with the joystick 161, it is not a natural operation for humans. For this reason, there are problems such as that it takes a long time to learn how to operate, and that the reaction is dull. In addition, there is a game device that operates a balloon with a driving device instead of an airship, but since the movement of the balloon is controlled as described above in this device, the movement of the balloon becomes abiotic, There was a problem that the warmth peculiar to balloons faded.
[0004]
Also, an apparatus for recognizing voice by inputting an image of the operator's lips has been proposed. However, in such an apparatus, an advanced optical system lens is required, so that the apparatus itself is not large. There is a problem that it becomes expensive and expensive.
[0005]
The present invention has been made in view of such a current situation, and the purpose thereof is (1) in a situation where operation by natural voice is possible, operation skill is not required, and noise or voice is difficult to be emitted. Providing a low-cost and simple configuration of a game device that enables use of a person with a disability in speaking, and (2) inputting an operator's lip movement and voice with a simple configuration Possible input device, (3) a voice selection device that outputs a word randomly selected from a plurality of words as a voice for the same input voice, and (4) a natural operation by the voice. Provided game device or toy that can be used, and voice recognition device used for them, and (5) To provide a voice reaction device that can change the operation according to the input voice A.
[0006]
[Means for Solving the Problems]
The game apparatus of the present invention inputs at least one sound including a sound generated by an operator, converts the input sound into a first electric signal, and outputs the first electric signal. Means, a voice recognition means for recognizing the at least one voice based on the first electrical signal output from the voice input means, and a movement of the lip of the operator is optically detected and detected. Image input means for converting the movement of the lips into a second electrical signal and outputting the second electrical signal; and receiving the second electrical signal, and based on the received second electrical signal, Based on the generation section detection means for obtaining a section in which the speech is generated by a speaker, the at least one speech recognized by the speech recognition means, and the section obtained by the generation section detection means, The at least one Integrated judgment means for extracting the voice generated by the operator from voice, and control means for controlling an object based on the voice extracted by the integration judgment means, thereby Achieve the goal.
[0007]
The utterance section detecting means includes a differentiating means for detecting the degree of change of the second electric signal output from the image input means, and the degree of change detected by the differentiating means exceeds a predetermined value. In some cases, there may be provided means for determining that the corresponding sound is generated by the operator.
[0008]
The integrated determination means includes means for creating an evaluation section by adding a section of a predetermined length to the section obtained by the utterance section detection means, and the at least one speech recognized by the speech recognition means A means for detecting a recognition result output time outputted from the voice recognition means, and comparing the recognition result output time with the evaluation section, and the recognition result output time of the at least one speech is the evaluation section. There may be provided means for determining that the voice contained in the voice is the voice uttered by the operator.
[0009]
Another game apparatus of the present invention is an image input means for optically inputting an operator's lip movement, converting the input lip movement into an electrical signal, and outputting the electrical signal; and the electrical signal Lip recognition means for obtaining the movement of the lip based on the recognition, recognizing a word corresponding to the obtained movement of the lip, and outputting a recognition result, and controlling the object according to the control signal based on the recognition result Control means for achieving the above object.
[0010]
The lip recognition means selects one of the predetermined number of words according to the storage means for storing a predetermined number of words and the determined movement of the lips, and selects the selected word of the lips. Matching means for determining that the word corresponds to the movement may be provided.
[0011]
The storage means stores lip movement corresponding to the predetermined number of words as a standard pattern, and the matching means calculates a distance from the determined lip movement for all the standard patterns. The word corresponding to the smallest one of the standard patterns may be selected.
[0012]
The game apparatus is configured to input sound, convert the sound into another electric signal, and output the other electric signal, and based on the other electric signal output from the sound input means. Integrated recognition means for outputting the control signal to be given to the control means based on both the speech recognition means for recognizing the speech, the recognition result by the speech recognition means, and the recognition result by the lip recognition means And may be further provided.
[0013]
The game device includes means for obtaining a speech recognition reliability for the recognition result by the speech recognition means, and means for obtaining a lip recognition reliability for the recognition result by the lip recognition means. And the integrated determination means selects one of the recognition result by the voice recognition means and the recognition result of the lip recognition means based on the voice recognition reliability and the lip recognition reliability, You may output as said control signal.
[0014]
The image input means includes light emitting means for emitting light and light receiving means for receiving the light reflected by the lips of the operator and converting the received light into the second electric signal. May be.
[0015]
The image input means may include light emitting means for emitting light and light receiving means for receiving the light reflected by the lips of the operator and converting the received light into the electrical signal. .
[0016]
The image input means may include light emitting means for emitting light and light receiving means for receiving the light reflected by the lips of the operator and converting the received light into the electrical signal. .
[0017]
The light may be applied to the lips from the side.
[0018]
The light may be applied to the lips from the front.
[0019]
The voice input means may have at least one microphone.
The voice input unit may include at least one microphone, and the light emitting unit and the light receiving unit of the at least one microphone and the image input unit may be provided on one table.
[0020]
An input device according to the present invention includes a headphone-shaped headset, a column having one end bonded to the headset, and a table bonded to the other end of the column. And a table provided with at least one light emitting element that generates light irradiated on the lip and at least one light receiving element that receives the light reflected by the lips, thereby achieving the above object. To do.
[0021]
Voice input means for inputting voice may be provided on the table.
[0022]
The voice selection device of the present invention is a first storage means for storing a plurality of tables, each of the plurality of tables including a plurality of words that can be output in response to one input. Included in the storage means, the second storage means for storing one of the plurality of tables, and the one table stored in the second storage means in response to an external input A selection means for selecting one word from the plurality of words, and outputting the selected one word as speech; and the one table stored in the second storage means, Transition means for updating to another table determined in accordance with the selected one of the plurality of tables stored in the storage means is provided, thereby achieving the above object.
[0023]
The voice selection device may further include means for generating a random number, and the selection means may select the one word from the plurality of words using the random number.
[0024]
Another voice selection device according to the present invention is a storage means for storing a table, the table receiving a storage means including a plurality of words that can be output in response to one input, and an external input. Selection means for selecting one word using a random number from the plurality of words included in the table stored in the storage means and outputting it as speech; and means for generating the random number To achieve the above objective.
[0025]
The voice reaction device of the present invention includes the voice selection device described above, and voice recognition means for inputting voice, recognizing the voice, and giving a recognition result to the voice selection device. Achieve.
[0026]
Another game device of the present invention includes the above-described voice reaction device, thereby achieving the above object.
[0027]
Another game device of the present invention includes a plurality of the above-described voice reaction devices, whereby the voice reaction devices interact with each other, thereby achieving the above-described object.
Another game apparatus according to the present invention includes a plurality of sound input units that convert input sound into an electric signal, the plurality of sound input units corresponding to different directions, and the electric signal. Is determined for each of the plurality of voice input units, one of the plurality of voice input units is determined to have the maximum energy, and a direction corresponding to the determined one voice input unit is determined Direction detection means for determining that the direction in which the sound is generated is provided, thereby achieving the above object.
[0028]
The game apparatus may further include operating means for operating the object, and control means for controlling the operating means so as to change the direction in which the object operates in the determined direction.
[0029]
The game apparatus inputs a measurement unit that measures a current direction of the motion of the object, and the determined direction, obtains a target direction based on the current direction and the determined direction, and determines the target direction. Further comprising direction selection means having means for storing and an operation means for operating the object, wherein the direction selection means uses the difference between the target direction and the current direction, The movement means may be controlled so that the current direction of the movement of the object substantially coincides with the target direction.
[0030]
Another game apparatus of the present invention is based on input means for inputting a relative direction by voice, measurement means for measuring the current direction of an object, and the current direction and the input relative direction. A direction selection means having a means for obtaining a target direction and storing the target direction, and using the difference between the target direction and the current direction by the direction selection means, The object is controlled so that the current direction of the object and the target direction substantially coincide, thereby achieving the above object.
[0031]
The input unit may include an input unit to which the voice is input and a recognition unit that recognizes the relative direction based on the input voice.
[0032]
Another game device of the present invention includes an input unit that inputs an absolute direction by voice, a unit that determines a target direction based on the absolute direction, stores the target direction, and a current object A game apparatus including direction selection means having a measurement means for measuring a direction, and using the difference between the target direction and the current direction by the direction selection means, The object is controlled so that the target direction substantially coincides with the target direction, thereby achieving the object.
[0033]
The input unit may include an input unit to which the voice is input and a recognition unit that recognizes the absolute direction based on the input voice.
[0034]
The speech recognition apparatus of the present invention receives an electrical signal corresponding to speech, detects from the electrical signal a speech end point that is a time when the speech input is completed, and based on the electrical signal Then, based on the second detection means for determining the utterance section that is the section in which the voice is uttered among the sections in which the voice is input, and the portion of the utterance section of the electrical signal, the feature quantity vector is calculated. Feature quantity extraction means to be created, storage means for storing feature quantity vectors of a plurality of candidate voices created in advance, and the feature quantity vectors from the feature quantity extraction means are stored in the storage means Means for recognizing the inputted speech by comparing each of the feature amount vectors of the candidate speech with the candidate speech, thereby achieving the above object.
[0035]
The first detection means includes means for dividing the electrical signal into a plurality of frames each having a predetermined length, and a calculation means for obtaining energy of the electrical signal for each of the plurality of frames. And determining means for determining the voice end point based on the energy dispersion.
[0036]
The determining means determines the voice end point by comparing a predetermined threshold value with the variance of the energy, and the voice end point is a value at which the variance of the energy is larger than the threshold value. It may be the time when the variance matches the threshold when changing from a small value to a small value.
[0037]
The determining means may use a variance for the energy of a predetermined number of frames among the energies of the plurality of frames.
[0038]
The second detection means includes means for smoothing the energy of the electrical signal, first cyclic storage means for sequentially storing the energy of the electrical signal for each frame without smoothing, and the smoothing. Second cyclic storage means for sequentially storing the generated energy for each frame, and the unsmoothed energy stored in the first cyclic storage means when the voice end point is detected, and Threshold calculation means for calculating a utterance interval detection threshold using both of the smoothed energy stored in the second cyclic storage means, and the unsmoothed energy for the utterance interval detection You may have the utterance area determination means which determines the said utterance area by comparing with a threshold value.
[0039]
The threshold calculation means detects the maximum value of the unsmoothed energy stored in the first circulation type storage means and the voice end point when the voice end point is detected. The utterance interval detection threshold value may be calculated using the minimum value of the smoothing energy stored in the second cyclic storage means at the time.
[0040]
The feature amount detection means includes a number of zero crossings for each frame of the electrical signal, a number of zero crossings for each frame of the signal obtained by differentiating the electrical signal, from the portion of the utterance section of the electrical signal, The energy of the electrical signal may be calculated and used as an element of the feature vector.
[0041]
Another speech reaction device of the present invention comprises at least one speech recognition device as described above and at least one control means for controlling an object based on a recognition result of the at least one speech recognition device, This achieves the above objective.
[0042]
The voice reaction device is connected to the at least one voice recognition device, is connected to a transmission means for transmitting the recognition result by the at least one voice recognition device, and to the at least one control device, and Receiving means for receiving the transmitted recognition result and providing it to the at least one control device, wherein the at least one control device and the receiving means are attached to the object, whereby the object May be remotely controlled.
[0043]
The operation will be described below.
In the game device of the present invention, the voice recognition means recognizes the input voice, and the utterance section detection device detects a utterance section that is a section in which the speaker is speaking from the movement of the lip of the speaker (operator). . Based on the voice recognition result and the detection result of the utterance section, the integrated determination unit recognizes a command input by the speaker using voice, and the control unit controls the object according to the command. Thereby, it is possible to operate a game with a human voice, and it is possible to prevent an erroneous operation caused by misrecognizing a voice of a person other than the speaker. Further, in another game device of the present invention, since the command is recognized directly from the movement of the operator's lips, it is possible to operate the game even in a situation where it is difficult to make a voice or sound by human voice. . In addition, this game device can be used by persons with disabilities. In still another game device of the present invention, the integrated determination unit determines a more probable recognition result from both the recognition result by the voice recognition means and the recognition result based on the movement of the lips. For this reason, in addition to the above-described advantages, there is also an advantage that the reliability of the game operation by voice can be further increased.
.
[0044]
Since the input device of the present invention has a column attached to a light headset, and an inexpensive light emitting element (such as an LED) and an inexpensive light receiving element (such as a photodiode) are mounted on a table attached to the column, It is possible to provide an input device that is light and inexpensive. Furthermore, if the headset can be expanded and contracted, the length of the headset can be adjusted for each operator of the input device, and the positional relationship between the light emitting element and the light receiving element and the vicinity of the operator's lips can be adjusted. it can.
[0045]
In the voice selection device of the present invention, when there is one input from the outside, one of words included in the table stored in the second storage means is selected and output as voice. Then, the table stored in the second storage means is changed to a table selected according to this output from the plurality of tables stored in the first storage means. Next, when there is an input from the outside, the above-described operation is repeated. In this way, the voice selection device of the present invention can return words according to the input given one after another as well as one operation of returning one word to one input. Combining this speech selection device with a speech recognition device constitutes a speech reaction device that recognizes words corresponding to the input speech and outputs randomly selected words as speech according to the recognition result. be able to. If at least one voice reaction device is provided in a game device, the voice reaction device can have a dialogue with an operator. If a plurality of voice reaction devices are provided, a game device in which a dialogue between the devices can be formed. it can. Further, by selecting a word to be output with respect to one input using a random number, it is possible not to always output the same word with respect to the same input, but to output with a change.
[0046]
In another game device of the present invention, a direction in which a sound is input is detected using a plurality of sound input units each corresponding to a different direction. Then, the direction of movement of the object or the direction of the object itself is changed in the detected direction. In this way, the object can be moved by voice. In another game device of the present invention, the moving direction or direction of the object is changed while a difference between the direction input by voice and the moving direction or direction of the current object is detected by an azimuth meter.
[0047]
The speech recognition apparatus of the present invention detects a point where speech input is completed from an electrical signal corresponding to the input speech. Subsequently, a section in which the voice is further uttered is extracted from the electrical signal for the section in which the voice thus obtained is input. Since the feature quantity vector that is actually compared with the feature quantity vector of the candidate voice is created from the electrical signal for the section where the voice is uttered, the voice recognition device of the present invention recognizes the voice with a simple configuration and high accuracy. can do. Further, the threshold value used for extracting the section where the voice is uttered is calculated based on the energy of the electric signal and the smoothed energy. Thereby, it is possible to satisfactorily detect a section in which the voice is uttered. Furthermore, in a voice reaction device obtained by combining this voice recognition device with means for controlling the action of an object, the object can be made to perform an action corresponding to the input voice.
[0048]
DETAILED DESCRIPTION OF THE INVENTION
(First embodiment)
A first embodiment of the game apparatus of the present invention will be described below with reference to the drawings. The present embodiment is a game device that operates an airship with a voice command corresponding to the movement of the airship. The voice command includes six commands of “front”, “back”, “right”, “left”, “up”, and “down”.
[0049]
In the present embodiment, a signal representing the movement of the lip of the speaker is input together with the voice signal of the speaker (game device operator), and a process for determining whether or not the speaker is speaking based on these signals. It is carried out. As a result, it is possible to prevent malfunctions caused by ambient noise, particularly voices spoken by others.
[0050]
FIG. 1 simply shows the configuration of the game apparatus of this embodiment. The game apparatus according to the present embodiment includes a
[0051]
First, a voice including a command uttered by a speaker is input to the
[0052]
In parallel with the processing of the input voice described above, processing of an electric signal representing the movement of the lips is performed. When the speaker utters a command, the movement of the lips at that time is input to the
[0053]
The
[0054]
The
[0055]
When the level of the differential signal 33 exceeds a predetermined amplitude threshold value 51, the
[0056]
As described above, the utterance section detection unit 4 uses the differential signal 33 to detect the intensity and duration of the lip movement, thereby obtaining the section in which the speaker uttered the command.
[0057]
Next, the operation of the
[0058]
The
[0059]
The time threshold 71 for creating the evaluation utterance section 72 is set in consideration of the time required for the recognition processing performed by the
[0060]
In this way, when the
[0061]
As described above, in the first embodiment, the utterance section that the speaker utters is detected from the movement of the lips when the speaker utters the command, and based on this, the recognized speech is detected by the speaker. It is judged whether it is a thing. For this reason, it is possible to prevent misrecognition due to utterances other than the speaker and the malfunction of the target object resulting therefrom.
[0062]
Therefore, it is possible to realize a game apparatus that is operated by a natural operation for human beings such as an operation by voice. In this embodiment, the movement of the speaker's lips is detected by a simple configuration / method such as a combination of an LED and a photodiode. For this reason, compared with the conventional apparatus which took in the image of a speaker's lip using a video camera etc., it can implement | achieve very cheaply. Of course, a phototransistor may be used instead of the photodiode.
[0063]
Note that the circuit configurations of FIGS. 2 and 3 are merely examples, and are not limited to this configuration. It can also be realized using computer software.
[0064]
(Second embodiment)
In the game apparatus according to the second embodiment of the present invention, the command is not input by voice, but is input only by the movement of the lips, and the airship is controlled according to the input command. This makes it possible to use it under noisy conditions, use it in situations where it is not possible to utter speech such as midnight, or use a person who has a disability in utterance.
[0065]
FIG. 8 is a diagram simply illustrating the configuration of the game apparatus according to the present embodiment. Similar to the first embodiment, the game apparatus according to the present embodiment includes an
[0066]
A configuration example of the
[0067]
Hereinafter, the operation of the game apparatus according to the present embodiment will be described in detail. In this embodiment, the
[0068]
(Registration operation)
First, the
[0069]
The operation of the
[0070]
When all the standard patterns have been registered in the
[0071]
(During recognition operation)
The operation from the input of the movement of the lip portion until the differential signal 33 is obtained is exactly the same as in the registration operation. Here, the operation after the differential signal 33 is input to the
[0072]
The differential signal 33 input to the
[0073]
When difference data strings of a plurality of sections whose section length is N (hereinafter referred to as recognition difference data strings) are obtained, these recognition difference data strings are sent to the
[0074]
The distance between the recognition difference data string and the standard pattern is calculated using the following equation.
N
dj= Σ (ri-Pij)2
i = 1
Where riIs the i-th recognition difference data string, pijIs the jth standard pattern (corresponding to the jth category), djIs the distance between the recognition difference data string and the j-th standard pattern. The
[0075]
The determination result is input to the
[0076]
As described above, in the present embodiment, an input word (command) is recognized based only on the movement of the lips, and the airship is controlled according to the recognized word. For this reason, it becomes possible to use it under noisy conditions, use it in a situation where it is difficult to make a voice, or use a person who has a disability in speaking.
[0077]
Similarly to the first embodiment, the
[0078]
In this embodiment, a game user registers a standard pattern used for command recognition prior to inputting a command. However, for example, a standard pattern that can correspond to the movement of the lip of an unspecified user is registered in the
[0079]
(Third embodiment)
Subsequently, a game apparatus according to a third embodiment of the present invention will be described. In this embodiment, the airship is operated by inputting a command by both voice and the movement of the speaker's (operator's) lip and integrating and determining both recognition results. For this reason, it is possible to reliably recognize a command uttered by a speaker even under noise.
[0080]
FIG. 12 simply shows the configuration of the game apparatus of this embodiment. The game apparatus according to the present embodiment includes a
[0081]
Hereinafter, the operation of the game apparatus according to the present embodiment will be described in detail.
[0082]
As in the first embodiment, the
[0083]
In parallel with the processing of the input voice, processing of a signal representing the movement of the lips is performed. First, the
[0084]
Next, a method for calculating the reliability will be briefly described. In the present embodiment, the reliability of the speech recognition result and the reliability of the recognition result based on the lip movement are obtained by the same process. Hereinafter, calculation of the reliability of the speech recognition result will be described. Consider a case where the reliability of a speech recognition result is evaluated in three stages of “large”, “medium”, and “small”. The reliability of the recognition result is the highest when the reliability is “low”, and the reliability of the recognition result is the lowest when the reliability is “high”. In this case, the threshold α for separating the reliability “low” and “medium”L, And a threshold value α for separating the reliability from “medium” and “large”H(However, αL<ΑH), The distance d between the standard pattern determined to match the recognition target and the recognition target is compared with the threshold value. Comparison result d <αLIf so, the reliability is determined to be “small”. Similarly, αL≦ d <αH, D ≧ αHIn this case, the reliability is determined as “medium” and “large”, respectively. Similarly, regarding the recognition result based on the movement of the lips, it is determined which level the reliability is by comparing with the threshold value. The threshold value used here can be set to an appropriate value. Further, the calculation method of the reliability is not limited to the method described here, and any known method may be used.
[0085]
Next, the operation of the
[0086]
FIG. 13 is a diagram illustrating a concept of a method for performing integration determination. First, the
[0087]
Next, the
[0088]
The
[0089]
As described above, according to the present embodiment, the movement of the lips is recognized together with the voice signal, and the results of both are recognized and used in an integrated manner. Can be recognized. At the same time, there is an effect that enables a person with a disability to use a game by voice operation. Further, as in the first and second embodiments described above, since the movement of the lips is detected by the combination of the
[0090]
Although a detailed description is omitted, in this embodiment, as in the second embodiment, the user of the game registers a standard pattern for lip recognition. A standard pattern may be prepared and registration by the user may be omitted.
[0091]
In the first to third embodiments, a game apparatus that controls the airship 7 using a radio control signal is described as an example. However, the game apparatus to which the present invention can be applied is not limited to this. For example, if a configuration as described in any of the above embodiments is provided for the number of operators, a game device that allows a plurality of operators to play simultaneously can be realized.
[0092]
The input device of the present invention will be described below. FIG. 15 is a diagram simply showing the configuration of the input device of the present invention. The input device of the present invention includes a headset 154, a support column 155 attached thereto, and a table 153 provided with a photodiode 151 and an
[0093]
An input device not provided with a microphone as shown in FIG. 15A can be used as the image input unit of the second embodiment. Further, as shown in FIG. 15B, the input device having a microphone can be used as a device that serves as both the audio input unit and the image input unit of the first and third embodiments.
[0094]
Thus, since the input device of the present invention uses the photodiode 151, the
[0095]
Here, only one photodiode and one LED are mounted, but a plurality of them can be mounted. For example, if two sets of LEDs and photodiodes are prepared and each set is arranged in a cross shape, there is an effect that the direction of movement on the surface can be detected.
[0096]
As described above, according to the present invention, it is possible to obtain a game apparatus that can be operated by a voice that is natural for humans and that does not require operation learning. Further, since the movement of the lips is used instead of recognizing words (commands) input only from voice, stable operation is possible even under noisy conditions. Furthermore, since the movement of the lips is captured by a combination of an LED and a photodiode (phototransistor), it can be realized at a lower cost than when a video camera or an ultrasonic wave is used.
[0097]
Further, as described in the first embodiment, since the speaker's utterance section is detected from the movement of the lips and is used as a judgment material for the speech recognition result, erroneous recognition due to utterances other than the speaker is prevented. be able to. As described in the second and third embodiments, if the words (commands) input from the movement of the lips are recognized and the airship is controlled, the voice can be heard even under noisy conditions. It is also possible to use it in situations where it is difficult to produce or for people with disabilities in speaking.
[0098]
In the input device of the present invention, an inexpensive light-emitting element (LED or the like) and an inexpensive light-receiving element (photodiode or the like) are attached to a light headset, column, and stand. For this reason, a very light and inexpensive input device can be realized.
[0099]
In the first to third embodiments, the example in which the movement of the object is controlled according to the recognized voice or the movement of the lips has been described. However, the movement of the object controlled based on the voice or the movement of the lips is not limited to movement, and may be movement such as rephrasing some words. Described below are various devices for causing an object to perform some operation (including movement) in accordance with the recognized voice.
[0100]
Hereinafter, an apparatus for causing an object to perform some operation according to recognized speech will be described in each embodiment.
[0101]
(Fourth embodiment)
In the present embodiment, a description will be given of an apparatus that selects one output sound from a set of output sounds prepared for the recognized sound and outputs the selected sound.
[0102]
FIG. 16 simply shows the configuration of the
[0103]
Hereinafter, the operation of the
[0104]
The output from the
[0105]
Thus, the
[0106]
The
[0107]
In the
[0108]
As described above, in the voice selection device according to the present invention, a plurality of tables representing the input / output states are prepared, and the input / output states are changed according to the past input / output history. Therefore, by using the voice selection device of the present invention, it is possible to realize a device for performing a simple dialogue. In addition, this voice selection device has a plurality of output voice candidates for one input, and randomly selects one of these output voice candidates and outputs it.
Therefore, it is possible to obtain a voice reaction device capable of responding with a change instead of always giving the same response to one input.
[0109]
(Fifth embodiment)
Next, the direction detection device and the direction selection device of the present invention will be described.
[0110]
First, the
[0111]
For example, when the
[0112]
In addition, as an example of the
[0113]
Next, the direction selection device will be described with reference to FIG. The
[0114]
As described above, the direction selection device of FIG. 21 is used to change the direction of the object based on the direction in which the object is currently moving or the direction in which the object is facing in accordance with the input x.
[0115]
If the
[0116]
If the direction selection device as described above is combined with a voice recognition device and an operation device, as shown in FIG. 29, if the direction or movement direction of the object is input by voice, the direction or movement direction of the object is accordingly changed. It is possible to realize a
[0117]
For example, let us consider a case where the object is currently facing the direction of 0 degrees when north is 0 degrees and the eastbound direction is a positive direction. At this time, it is assumed that the above-described direction selection device 600 (see FIG. 21) is used as the
Alternatively, when the direction selection device 7001 shown in FIG. 22 is used as the
[0118]
Further, the direction detection device and the direction selection device of the present embodiment may be combined with an operation device. In this case, as shown in FIG. 30, the detection result of the
[0119]
(Sixth embodiment)
In this embodiment, an apparatus related to speech recognition will be described. As shown in FIG. 26, this apparatus includes a voice end
[0120]
First, a voice end
[0121]
The voice end
[0122]
Here, a method for obtaining the variance from the energy of each frame for a certain period will be described. First, in a method using a circular memory, energy obtained for each frame is sequentially stored in a
[0123]
There is also a method for obtaining energy dispersion without using a circular memory. In this method, the voice end
[0124]
[Expression 1]
[0125]
This eliminates the need for a circular memory, saves memory, saves the trouble of obtaining the total energy within a certain period each time new energy is obtained, and shortens the processing time.
[0126]
Next, the
[0127]
The section is extracted by the following procedure. First, the threshold value Th is determined as described later. This threshold value Th and the energy stored in the circulating
[0128]
Here, how to determine the threshold Th will be described. First, the maximum value max1001 of the energy in the
[0129]
[Expression 2]
[0130]
However, a value of about 0.07 was adopted as β.
[0131]
Here, as a method of smoothing energy, a method of taking a median value within a certain window is used. However, the smoothing method is not limited to this, and for example, an average value may be taken. Note that the maximum energy value instead of the maximum smoothing energy value is used when obtaining the threshold value Th when the maximum length of the smoothing energy is used to obtain the threshold value Th. This is because the maximum value fluctuates greatly and the threshold value Th also fluctuates accordingly, and as a result, good voice detection cannot be performed. In addition, since the minimum value of the smoothing energy is used for the calculation of the threshold value Th, it is possible to prevent detection of noise that is not speech.
[0132]
As described above, the
[0133]
Next, a feature quantity for recognition is extracted from the detected voice by the feature
[0134]
The speech feature vector obtained through the speech end
[0135]
As described above, the apparatus of this embodiment performs voice recognition. This voice recognition apparatus can also be used in combination with the
[0136]
Further, among the speech reaction devices described in the fourth to sixth embodiments, including the
[0137]
Further, by attaching the above-described voice reaction device to the balloon, it is possible to interact with the balloon and control the balloon, and it is possible to make a toy that makes use of the warmth unique to the balloon.
[0138]
Also, as shown in FIG. 33, two things are prepared by attaching two
[0139]
The object is not limited to a balloon, and may be a stuffed animal, a doll, a photograph, or a picture. Moreover, the moving image in a display may be sufficient. Moreover, you may use antigravity apparatuses other than a balloon (for example, the thing which floats by a propeller like a helicopter, and the thing which floats by magnetic force like a linear motor car) as a target object.
[0140]
【The invention's effect】
As described above, according to the present invention, it is possible to obtain a game apparatus that can be operated by a voice that is natural for humans and that does not require operation learning. Further, since the movement of the lips is used instead of recognizing words (commands) input only from voice, stable operation is possible even under noisy conditions. Furthermore, since the movement of the lips is captured by a combination of an LED and a photodiode (phototransistor), it can be realized at a lower cost than when a video camera or an ultrasonic wave is used.
[0141]
Furthermore, in the speech recognition apparatus according to the present invention, since the speaker's utterance section is detected from the movement of the lips and used as a judgment material for the speech recognition result, erroneous recognition due to utterances other than the speaker can be prevented. Further, in another speech recognition apparatus of the present invention, since the words (commands) input from the movement of the lips are recognized and the airship is controlled, it is difficult to produce a voice even under noisy conditions. The use of persons with disabilities is also possible.
[0142]
In the input device of the present invention, an inexpensive light-emitting element (LED or the like) and an inexpensive light-receiving element (photodiode or the like) are attached to a light headset, column, and stand. For this reason, a very light and inexpensive input device can be realized.
[0143]
As described above, the voice selection device of the present invention prepares a plurality of input / output states, and changes the input / output states based on past input / output histories. For this reason, it is possible to provide a device for performing a simple dialogue by using this voice selection device. In addition, the voice selection device of the present invention provides a plurality of outputs for one input, and outputs one randomly selected from these, so the response is not always the same for one input, but changes. You can make a response.
[0144]
In addition, the direction detection device of the present invention inputs sound through a plurality of microphones and detects the microphone with the maximum energy. Thereby, the direction in which the voice is uttered can be detected. Furthermore, if the direction selection device of the present invention is used, the current position is detected by an azimuth meter, the object is accurately moved in the input direction, or the direction of the object is changed to the input direction. can do.
[0145]
Also, the speech recognition apparatus of the present invention first obtains a rough speech end point by the speech end point detection device, and then automatically obtains the threshold value by the speech detection device. Here, since the threshold is determined from the maximum value of the energy of the input speech and the minimum value of the smoothed energy, good speech segment extraction should be performed regardless of the length of the speech segment. Can do. When the speech detection device detects speech using a threshold value, a feature amount is obtained from the speech, and speech recognition is performed based on the feature amount.
[0146]
Various voice reaction devices can be obtained by appropriately combining the above-described devices. For example, when a voice recognition device and a voice selection device are combined, a voice reaction device that responds when a person speaks with a voice can be obtained, thereby making it possible to construct a man-machine interface. In addition, if the direction detection device and the motion device are combined, the object can be operated in response to the voice. If the voice recognition device, the direction selection device, and the motion device are combined, the content of the voice is indicated. It becomes possible to accurately move the object in the direction or change the direction of the object in the direction indicated by the content of the voice. Furthermore, if a signal transmission device is connected to a voice recognition device of the voice reaction device, and a signal reception device is connected to a device following the voice recognition device and attached to an object, the voice that can be remotely operated is possible. A reactor can be realized.
[0147]
Furthermore, if a plurality of voice reaction devices as described above are prepared, it is possible to configure a toy that automatically interacts between the voice reaction devices. If a voice reaction device is attached to each balloon, a toy that has the warmth unique to a balloon and can be talked to can be made. It is also possible to create a voice reaction device that speaks from itself instead of speaking from a human by incorporating a clock and outputting a suitable sound at a certain time.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a game device according to a first embodiment of the present invention.
FIG. 2 is a diagram illustrating a detailed configuration of an image input unit according to first to third embodiments of the present invention.
FIG. 3 is a diagram illustrating a detailed configuration of an utterance section detection unit according to the first embodiment of the present invention.
FIG. 4 is a block diagram illustrating a detailed configuration of an integrated determination unit according to the first exemplary embodiment of the present invention.
FIG. 5 is a graph showing an output example of a differential signal in the first to third embodiments of the present invention.
6 is a diagram for explaining the processing operation of the utterance section detection unit of FIG. 3;
7 is a diagram for explaining a processing operation of an integrated determination unit in FIG. 4; FIG.
FIG. 8 is a block diagram illustrating a configuration of a game device according to a second embodiment of the present invention.
FIG. 9 is a block diagram showing a detailed configuration of a lip recognition unit in the second and third embodiments of the present invention.
FIG. 10 is a diagram showing the processing operation of the differentiating circuit in the second and third embodiments of the present invention.
FIG. 11 is a diagram illustrating a processing operation of a pattern matching unit according to second and third embodiments of the present invention.
FIG. 12 is a block diagram showing a configuration of a game apparatus according to a third embodiment of the present invention.
FIG. 13 is a diagram illustrating a processing operation of an integrated determination unit according to the third embodiment of the present invention.
FIG. 14 is a diagram illustrating a processing operation of an integrated determination unit according to the third embodiment of the present invention.
FIG. 15 is a diagram illustrating a specific configuration example of the input device according to the invention.
FIG. 16 is a diagram showing a configuration of a voice selection device according to a fourth exemplary embodiment of the present invention.
17 is a diagram showing an input / output state in the voice selection device of FIG. 16;
FIG. 18 is a diagram showing a configuration of a voice selection device according to a modification of the present invention.
FIG. 19 is a diagram showing a configuration of a direction detecting device according to a fifth embodiment of the present invention.
FIG. 20 is a diagram for explaining a waveform and a frame of an input voice.
FIG. 21 is a diagram showing a configuration of a direction selection device according to a fifth example of the present invention.
FIG. 22 is a diagram showing the configuration of another direction selecting device according to the fifth embodiment of the present invention.
FIG. 23 is a diagram illustrating speech waveforms, energy, and a cyclic memory.
FIG. 24 is a diagram for explaining a method for detecting a voice end point according to the sixth embodiment of the present invention;
FIG. 25 is a diagram illustrating a voice detection method according to a sixth embodiment of the present invention.
FIG. 26 is a block diagram showing a configuration of a speech recognition apparatus according to a sixth embodiment of the present invention.
FIG. 27 is a diagram showing a configuration of a voice reaction device using a voice recognition device and a voice selection device of the present invention.
FIG. 28 is a diagram showing a configuration of a voice reaction device using the direction detection device and the operation device of the present invention.
FIG. 29 is a diagram showing a configuration of a voice reaction device using a voice recognition device, a direction selection device, and an operation device of the present invention.
FIG. 30 is a diagram showing a configuration of a voice reaction device using the direction detection device, the direction selection device, and the operation device of the present invention.
FIG. 31 is a diagram showing a configuration of a voice reaction device using a voice recognition device and an operation device of the present invention.
FIG. 32 is a diagram showing a configuration of a voice reaction device capable of remote operation according to the present invention.
FIG. 33 is a diagram showing an example of a toy using the voice reaction device of the present invention.
FIG. 34 is a diagram showing a configuration of a conventional game device.
[Explanation of symbols]
1 Voice input section
3 Image input section
2 Voice recognition unit
4 Voice detection section
5, 123 Integrated judgment section
6 Control unit
7 Airship
21 LED
22 Photodiode
81 Lip recognition unit
100, 100a voice selection device
101 random number generator
102 Voice selection part
103 I / O status memory
104 State transition part
105 I / O status database
400, 1301 Direction detection device
401 Direction detection unit
600, 700, 1401 Direction selection device
601 Offset calculation device
602 compass
603 Target direction memory
701 Direction calculation device
1101 Voice end point detection device
1102 Voice detection device
1103 Feature quantity extraction device
1104 Distance calculation device
1105 dictionary
1201 Voice recognition device
1202 Voice selection device
1302 Operating device
1701 Signal transmission device
1702 Signal receiving device
Claims (11)
該電気信号に基づいて該口唇の動きを求め、該求められた口唇の動きに対応する言葉を認識し、認識結果を出力する口唇認識手段と、
該認識結果に基づいた制御信号に応じて対象物を制御する制御手段と、
を備えているゲーム装置。An image input means for optically inputting the movement of the operator's lips, converting the inputted movement of the lips into an electrical signal, and outputting the electrical signal;
Lip recognition means for obtaining movement of the lip based on the electrical signal, recognizing a word corresponding to the obtained movement of the lip, and outputting a recognition result;
Control means for controlling an object in accordance with a control signal based on the recognition result;
A game device comprising:
所定数の言葉を記憶している記憶手段と、
前記求められた口唇の動きに応じて該所定数の言葉から1つを選択し、該選択された言葉を該口唇の動きに対応する該言葉であると判断するマッチング手段と、
を備えている請求項1に記載のゲーム装置。The lip recognition means includes
Storage means for storing a predetermined number of words;
Matching means for selecting one of the predetermined number of words according to the determined movement of the lips and determining that the selected word is the word corresponding to the movement of the lips;
The game device according to claim 1, comprising:
前記マッチング手段は、該標準パターンの全てについて、前記求められた口唇の動きとの距離を算出し、該標準パターンのうちの該距離が最も小さい1つに対応する言葉を選択する、請求項2に記載のゲーム装置。The storage means stores a lip movement corresponding to the predetermined number of words as a standard pattern,
The matching means calculates a distance from the determined lip movement for all of the standard patterns, and selects a word corresponding to one of the standard patterns having the smallest distance. The game device described in 1.
該音声入力手段から出力された該他の電気信号に基づいて該音声を認識する音声認識手段と、
該音声認識手段による認識結果と、前記口唇認識手段による前記認識結果との両方に基づいて、前記制御手段に与えられるべき前記制御信号を出力する統合判断手段と、
をさらに備えている、請求項1に記載のゲーム装置。Voice input means for inputting voice, converting the voice to another electrical signal, and outputting the other electrical signal;
Voice recognition means for recognizing the voice based on the other electrical signal output from the voice input means;
Integrated determination means for outputting the control signal to be given to the control means based on both the recognition result by the voice recognition means and the recognition result by the lip recognition means;
The game device according to claim 1, further comprising:
前記口唇認識手段による前記認識結果に対して、口唇認識信頼度を求める手段と、
を有しており、前記統合判断手段は、該音声認識信頼度および該口唇認識信頼度に基づいて、該音声認識手段による該認識結果および該口唇認識手段の該認識結果のうちの一方を選択し、それを前記制御信号として出力する、請求項4に記載のゲーム装置。Means for obtaining a speech recognition reliability for the recognition result by the speech recognition means;
Means for obtaining a lip recognition reliability for the recognition result by the lip recognition means;
And the integrated determination means selects one of the recognition result by the voice recognition means and the recognition result of the lip recognition means based on the voice recognition reliability and the lip recognition reliability. The game apparatus according to claim 4, wherein the game apparatus outputs the control signal as the control signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003158723A JP2004024863A (en) | 1994-05-13 | 2003-06-03 | Lips recognition device and occurrence zone recognition device |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9962994 | 1994-05-13 | ||
JP27491194 | 1994-11-09 | ||
JP2003158723A JP2004024863A (en) | 1994-05-13 | 2003-06-03 | Lips recognition device and occurrence zone recognition device |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7114957A Division JPH08187368A (en) | 1994-05-13 | 1995-05-12 | Game device, input device, voice selector, voice recognizing device and voice reacting device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004024863A true JP2004024863A (en) | 2004-01-29 |
Family
ID=31191762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003158723A Pending JP2004024863A (en) | 1994-05-13 | 2003-06-03 | Lips recognition device and occurrence zone recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004024863A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007241833A (en) * | 2006-03-10 | 2007-09-20 | Kagoshima Univ | Recognition device, recognition system, shape recognition method, program and computer readable recording medium |
JP2007264473A (en) * | 2006-03-29 | 2007-10-11 | Toshiba Corp | Voice processor, voice processing method, and voice processing program |
JP2012198289A (en) * | 2011-03-18 | 2012-10-18 | Fujitsu Ltd | Sound erroneous detection discrimination device, sound erroneous detection discrimination method and program |
CN107452381A (en) * | 2016-05-30 | 2017-12-08 | 中国移动通信有限公司研究院 | A kind of multi-media voice identification device and method |
CN111326152A (en) * | 2018-12-17 | 2020-06-23 | 南京人工智能高等研究院有限公司 | Voice control method and device |
JPWO2021024869A1 (en) * | 2019-08-02 | 2021-02-11 | ||
JP2022512486A (en) * | 2018-12-12 | 2022-02-04 | 深▲せん▼市冠旭電子股▲ふん▼有限公司 | How to play smart speakers, devices and smart speakers |
-
2003
- 2003-06-03 JP JP2003158723A patent/JP2004024863A/en active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007241833A (en) * | 2006-03-10 | 2007-09-20 | Kagoshima Univ | Recognition device, recognition system, shape recognition method, program and computer readable recording medium |
JP2007264473A (en) * | 2006-03-29 | 2007-10-11 | Toshiba Corp | Voice processor, voice processing method, and voice processing program |
US7801726B2 (en) | 2006-03-29 | 2010-09-21 | Kabushiki Kaisha Toshiba | Apparatus, method and computer program product for speech processing |
JP4557919B2 (en) * | 2006-03-29 | 2010-10-06 | 株式会社東芝 | Audio processing apparatus, audio processing method, and audio processing program |
JP2012198289A (en) * | 2011-03-18 | 2012-10-18 | Fujitsu Ltd | Sound erroneous detection discrimination device, sound erroneous detection discrimination method and program |
CN107452381A (en) * | 2016-05-30 | 2017-12-08 | 中国移动通信有限公司研究院 | A kind of multi-media voice identification device and method |
JP2022512486A (en) * | 2018-12-12 | 2022-02-04 | 深▲せん▼市冠旭電子股▲ふん▼有限公司 | How to play smart speakers, devices and smart speakers |
JP7270739B2 (en) | 2018-12-12 | 2023-05-10 | 深▲せん▼市冠旭電子股▲ふん▼有限公司 | Smart speaker playback method, device and smart speaker |
CN111326152A (en) * | 2018-12-17 | 2020-06-23 | 南京人工智能高等研究院有限公司 | Voice control method and device |
JPWO2021024869A1 (en) * | 2019-08-02 | 2021-02-11 | ||
JP7347511B2 (en) | 2019-08-02 | 2023-09-20 | 日本電気株式会社 | Audio processing device, audio processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6471420B1 (en) | Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections | |
JPH08187368A (en) | Game device, input device, voice selector, voice recognizing device and voice reacting device | |
JP7337699B2 (en) | Systems and methods for correlating mouth images with input commands | |
US9754580B2 (en) | System and method for extracting and using prosody features | |
US6006175A (en) | Methods and apparatus for non-acoustic speech characterization and recognition | |
KR101576148B1 (en) | System and method for the multidimensional evaluation of gestures | |
US10702991B2 (en) | Apparatus, robot, method and recording medium having program recorded thereon | |
EP1441328B1 (en) | Speech recognition apparatus and speech recognition method | |
EP2562746A1 (en) | Apparatus and method for recognizing voice by using lip image | |
JP2003255991A (en) | Interactive control system, interactive control method, and robot apparatus | |
JP2003255989A (en) | Learning system and learning method, and robot apparatus | |
JPH08297498A (en) | Speech recognition interactive device | |
KR20010062767A (en) | Information processing device, information processing method and storage medium | |
JP2010256391A (en) | Voice information processing device | |
KR20210017392A (en) | Electronic device and method for speech recognition of the same | |
JP2004024863A (en) | Lips recognition device and occurrence zone recognition device | |
JPH08266747A (en) | Voice recognition device, reacting device, reaction selecting device, and reactive toy using those devices | |
US20190295526A1 (en) | Dialogue control device, dialogue system, dialogue control method, and recording medium | |
WO2014167570A1 (en) | System and method for extracting and using prosody features | |
Adnene et al. | Design and implementation of an automatic speech recognition based voice control system | |
Holmes et al. | Why have HMMs been so successful for automatic speech recognition and how might they be improved | |
Holzapfel et al. | A robot learns to know people—first contacts of a robot | |
KR20080061901A (en) | System and method of effcient speech recognition by input/output device of robot | |
JPH04257900A (en) | Tongue operation detection type syllable recognition device | |
Rossiter | Multimodal intent recognition for natural human-robotic interaction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050720 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20051117 |