JP3179660B2

JP3179660B2 - 音声及び動作の制御装置並びに音声及び画像の出力装置

Info

Publication number: JP3179660B2
Application number: JP18951894A
Authority: JP
Inventors: 晴夫日出; 憲治坂本; 文雄外川
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1994-08-11
Filing date: 1994-08-11
Publication date: 2001-06-25
Anticipated expiration: 2016-06-25
Also published as: JPH0855235A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声及び動作の制御装
置並びに音声及び画像の出力装置に関し、特にコンピュ
ータグラフィックスなど、ユーザの音声や体の動きなど
の入力からシステムが出力する画像の動きが決定される
音声及び動作の制御装置並びに音声及び画像の出力装置
に関する。

【０００２】

【従来の技術】従来、コンピュータグラフィックスなど
による出力呈示の制御を行う場合、コンピュータグラフ
ィックスなど、ユーザの音声や体の動きなどの入力から
システムが出力する画像の動きが決定される音声及び動
作の制御装置においては、予め定められた固定周期に基
づいて画像を動かしている。

【０００３】

【発明が解決しようとする課題】従来の音声及び動作の
制御装置では、ユーザの動きとシステム側の出力にずれ
が生じ、違和感があった。また、ユーザの動きに合わせ
るために、ユーザの動きを取り込んでから動作する装置
についても、システムの処理間隔における遅れがそのま
まシステムの動作時間に上乗せられる結果となり、応答
タイミングが遅れ、非常に使いにくいという問題点があ
った。

【０００４】本発明は、上記のような課題を解消するた
めになされたもので、システムの出力・応答の遅れを吸
収し、システムの処理速度に関わりなく制御が行え、ユ
ーザに動きに出力・応答を合わせることが可能になり、
ユーザに与える違和感が少ない音声及び動作の制御装置
並びに音声及び画像の出力装置を提供することを目的と
する。

【０００５】

【課題を解決するための手段】本発明によれば、前述の
目的は、ユーザの行動により発生した信号を取り込む入
力手段と、該入力手段により入力された信号の特徴点を
抽出する検出手段と、該検出手段からの検出結果の時系
列情報から制御する音声と動作の出力タイミングを算出
する予測手段と、該予測手段における予測結果とユーザ
の行動とのずれを補正するための予測パラメータを記憶
する予測パラメータ設定手段と、前記予測手段の予測結
果に基づき、音声及び動作を制御する制御信号を送出す
る制御手段とを具備する請求項１に記載の音声及び動作
の制御装置によって達成される。

【０００６】本発明によれば、前述の目的は、前記検出
手段が、ユーザの音声のパワーや周波数の入力を検出す
る音声検出手段を有する請求項２に記載の装置によって
達成される。

【０００７】本発明によれば、前述の目的は、前記検出
手段が、ユーザの動作による所定場所の通過や速度ベク
トルの方向の変化を検出する動作検出手段を有する請求
項３に記載の装置によって達成される。

【０００８】本発明によれば、前述の目的は、ユーザの
行動により発生した信号を取り込む入力手段と、該入力
手段により入力された信号の特徴点を抽出する検出手段
と、該検出手段からの検出結果の時系列情報から制御す
べき音声と動作の出力タイミングを算出する予測手段
と、該予測手段における予測結果とユーザの行動とのず
れを補正する予測パラメータを記憶する予測パラメータ
設定手段と、前記予測手段の予測結果に基づき、音声及
び動作を制御する制御信号を送出する制御手段と、該制
御信号に基づき合成音声を生成する音声生成手段と、該
制御信号に基づき合成画像を生成する画像生成手段と、
生成された合成音声と合成画像を出力する出力手段とを
具備する請求項４に記載の音声及び画像の出力装置によ
って達成される。

【０００９】

【作用】請求項１に記載の音声及び動作の制御装置にお
いては、入力手段によりユーザの行動に対応して発生す
る信号が取り込まれ、該入力手段により入力された信号
の特徴点が検出手段により抽出され、該検出手段からの
検出結果の時系列情報から制御すべき音声と動作の出力
タイミングが予測手段により算出され、該予測手段にお
ける予測結果とユーザの行動とのずれを補正するための
予測パラメータが予測パラメータ設定手段に記憶され、
前記予測手段の予測結果に基づき、制御手段により音声
及び動作を制御する制御信号が送出される。これによ
り、システムの出力・応答の遅れを吸収でき、システム
の処理速度に関わりなく制御が行え、ユーザに動きに出
力・応答を合わせることが可能になる。

【００１０】請求項２に記載の装置においては、音声検
出手段によりユーザの音声のパワーや周波数の入力が検
出される。

【００１１】請求項３に記載の装置においては、動作検
出手段によりユーザの動作による所定場所の通過や速度
ベクトルの方向の変化が検出される。

【００１２】請求項４に記載の音声及び画像の出力装置
においては、入力手段によりユーザの行動に対応して発
生する信号が取り込まれ、該入力手段により入力された
信号の特徴点が検出手段により抽出され、該検出手段か
らの検出結果の時系列情報から制御すべき音声と動作の
出力タイミングが予測手段により算出され、該予測手段
における予測結果とユーザの行動とのずれを補正するた
めの予測パラメータが予測パラメータ設定手段に記憶さ
れ、前記予測手段の予測結果に基づき、制御手段により
音声及び動作を制御する制御信号が送出され、制御手段
からの制御信号に基づき、合成音声が音声生成手段によ
り生成され、且つ画像生成手段により合成画像が生成さ
れ、生成された合成音声と合成画像が出力手段により出
力される。これにより、システムの出力・応答の遅れを
吸収でき、システムの処理速度に関わりなく制御が行
え、ユーザの動きに出力・応答を合わせることが可能に
なり、違和感のない音声及び画像を呈示することができ
る。

【００１３】

【実施例】以下、本発明の音声及び画像の出力装置の第
１の実施例を図１を参照しながら説明する。

【００１４】本実施例の音声及び画像の出力装置は、ユ
ーザの発する音声を取り込むマイクロホンから構成され
た音声入力部１と、音声入力部１の入力信号をＡ／Ｄ変
換するＡ／Ｄコンバータ２と、音声用条件設定部３と、
デジタル化された音声信号と音声用条件設定部３に予め
記述されたデータとを比較して条件に適合したデータの
時間情報を送出する音声検出部４と、ユーザの体（例え
ば指先等）に取付けられ、３次元空間における位置が検
出される３次元磁気センサから構成される画像入力部５
と、動作用条件設定部６と、入力された位置情報と動作
用条件設定部６に予め設定されたデータとを比較して条
件に適合したデータの時間情報を送出する検出手段とし
ての画像検出部７と、音声検出部４及び画像検出部７に
おいて検出された信号を識別し、その内容に応じて予測
部９、制御部１０及び比較演算部１１へ送る検出信号制
御部８と、検出結果の時系列情報から制御すべき音声と
動作の出力タイミングを算出する予測手段としての予測
部９と、予測部９における予測結果とユーザの行動との
ずれを補正する予測パラメータを記憶する予測パラメー
タ設定手段としての予測パラメータ設定部１２と、予測
部９の予測結果に基づき、音声及び動作を制御する制御
信号を送出する制御手段としての制御部１０と、制御部
１０からの制御信号に基づき、合成音声を生成する音声
生成手段及び合成画像を生成する画像生成手段としての
グラフィック生成用コンピュータ及び音声合成装置から
構成される音声・画像生成部１３と、生成された合成音
声を出力するスピーカ１４と、生成された合成画像を出
力するスクリーン１５と、予測結果とユーザの行動との
ずれを補正する比較・演算部１１とを具備している。な
お、音声入力部１と画像入力部５とにより入力手段が構
成されており、音声検出部４と画像検出部７とにより検
出手段が構成されており、スピーカ１４とスクリーン１
５とにより出力手段が構成されている。また、音声及び
画像の出力装置から音声・画像生成部１３と、スピーカ
１４と、スクリーン１５とを除いた部分により音声及び
動作の制御装置が構成されている。

【００１５】次に、本実施例の動作について説明する。

【００１６】音声入力部１によりユーザの発する音声の
パワーレベルが入力され、入力された音声信号はＡ／Ｄ
コンバータ２によりデジタル化される。音声検出部４に
よりデジタル化された音声信号と音声用条件設定部３に
予め記述されたデータとが比較されて条件に適合したデ
ータの時間情報が送出される。音声検出部４では、まず
音声検出部４においてＡ／Ｄ変換されたデータは逐次内
部のシフトレジスタに書き込まれる。そして、音声用条
件設定部３にメモリされたしきい値との比較が行われ、
しきい値を越えたものの時刻を検出する方法と、条件設
定部３に設定された波形パターンとの比較をレジスタマ
ッチングするまでシフトさせて、マッチングした波形の
先頭の時刻を検出する方法の２種類で音声の検出が行わ
れる。

【００１７】画像入力部５によりユーザの体の３次元空
間における位置情報が入力される。画像検出部７により
入力された位置情報と動作用条件設定部６に予め設定さ
れたデータとが比較され、条件に適合したデータの時間
情報が送出される。このために、まず画像検出部７にお
いて３次元磁気センサから送られた位置データが逐次内
部のレジスタに書き込まれる。そして、動作用条件設定
部６にメモリされた座標面を通過したときの時刻を検出
する方法と、直前にレジスタに書き込まれた座標と現在
取り込まれた座標のオイラー角が比較され、９０度を越
えたときの時刻を検出する方法の２種類で動作の検出が
行われる。

【００１８】検出信号制御部８により音声検出部４及び
画像検出部７において検出された信号の内、時刻情報信
号（ｔ１及びｔ２）が予測部９及び制御部１０へ送出さ
れ、ｔｕｓｒ信号は予測部９及び制御部１０へは送られ
ずに比較演算部１１へ送られる。予測部９により検出信
号制御部８から送られた時刻情報ｔ１，ｔ２からｔｓｙ
ｓが次式から算出される。

【００１９】ｔｓｙｓ＝Ａ＊（ｔ２−ｔ１）＋ｔ１−ｔｒａｇなお、Ａ、ｔｒａｇは予測パラメータ設定部１２に記憶
された値であり、Ａは比較演算部１１の結果によって毎
回書き換えられる計算結果と実際のユーザの動作とのず
れを補正するためのパラメータである。ｔｒａｇは最初
のテスト信号によって決定されるシステムの処理時間に
よるずれであり、ｔｕｓｒはユーザの動作から検出され
た時間、ｔｓｙｓはｔｕｓｒの値をシステム側が予想し
た時間の値である。

【００２０】制御部１０により検出信号制御部８及び予
測部９から送られた時刻データから音声及び動作のタイ
ミングを制御する制御信号が生成される。音声・画像生
成部１３によりスクリーン１５に描画されたコンピュー
タグラフィックスにより映像が制御部１０から送られた
制御信号に基づいて制御されると共にスピーカ１４から
音声が発生される。比較・演算部１１により実際のユー
ザの動作と予測結果とのずれが測定・補正される。ずれ
の補正は、以下の二点について行う。まず、第一点目は
システムの処理時間からくる遅れによるずれの補正で、
検出信号制御部８から直接に比較・演算部１１に入力さ
れた信号ｃｈｅｃｋ１と、予測部９、制御部１０、音声
・画像生成部１３を通った信号ｃｈｅｃｋ２のずれｔｒ
ａｇが、ｔｒａｇ＝ｃｈｅｃｋ２−ｃｈｅｃｋ１から算出される。そして、二点目は予測結果ｔｓｙｓと
実際のユーザの動作ｔｕｓｒのずれＡが、Ａ＝ｔｕｓｒ／ｔｓｙｓから算出される。この結果は予測パラメータ設定部１２
に記憶され、予測部９により計算のパラメータとして使
用される。予測パラメータ設定部１２に記憶されるＡに
ついては、動作開始時にはデフォルト値として１を設定
しておく。

【００２１】次に、ユーザ画スクリーン１５に表示され
るコンピュータグラフィックスによって作成された人間
モデルと『じゃんけん』を行うシステムの動作を図２の
フローチャートに沿って説明する。

【００２２】まず、最初のテスト信号によって決定され
るシステムの処理時間によるずれｔｒａｇが調整される
（ステップＳ１）。ユーザの音声を検出して制御を行う
システムの場合、図３（ａ）、（ｂ）に示すように、音
声入力部１のマイクロホンにより『じゃん』『けん』〓
『ぽん』という音声が取り込まれる（ステップＳ２）。
取り込まれた音声信号は、図３（ｃ）に示すように、Ａ
／Ｄコンバータ２によりデジタル波形データに変換され
る（ステップＳ３）。音声検出部４によりデジタル化さ
れた音声信号と音声用条件設定部３に予め設定された音
声のパワーレベルのしきい値とが比較され、そのしきい
値を越えた場合に、ユーザの音声による入力があったと
判断され、図３（ｃ）に示すように、検出データとして
検出信号制御部８に信号が送出される（ステップＳ
４）。検出信号制御部８により図３（ｃ）に示す最初の
二つのデータすなわち『じゃん』と『けん』の音声タイ
ミングによるデータは予測部９及び制御部１０へ送出さ
れ、三つ目の『ぽん』の音声タイミングによるデータは
比較演算部１１へ送られ、予測結果と比較を行うための
制御が行われる。

【００２３】予測部９により検出信号制御部８から送ら
れた『じゃん』の音声の始まりの時間と、『けん』の音
声の始まりの時間から検出データの時間間隔を計り、予
測部９の予測式に基づき、図３（ｄ）に示すように、
『ぽん』の画像を提示するためのタイミングが算出され
（ステップＳ５）、制御部１０へ送信される。予想をす
べき信号の場合は、制御部１０は、検出信号制御部８及
び予測部９から送られたタイミング信号に基づき、音声
・画像生成部１３へコンピュータグラフィックス画像に
じゃんけんのために人間モデルの腕を振る動作を行うた
めの画像制御信号を送る（ステップＳ６〜Ｓ８）。ま
た、図３（ｅ）に示すように、合成音によって『じゃ
ん』『けん』『ぽん』と発生するための音声制御信号が
送られる。同時に、音声・画像生成部１３より比較・演
算部１１に『ぽん』の画像を制御するための信号が送ら
れる。比較・演算部１１により検出信号制御部８から送
られたユーザの『ぽん』のタイミングと、予想部９で予
想されかつ音声・画像生成部１３間で送られた信号との
ずれが比較され（ステップＳ９）、その結果が予測パラ
メータ設定部１２に設定され（ステップＳ１０）、次に
じゃんけんに反映される。このような処理を行うこと
で、じゃんけんという即時性を要求されるものでも、ユ
ーザがシステム側の遅れをほとんど感じることなく行う
ことができるようになる。

【００２４】なお、ユーザの動きを検出して制御を行う
システムの場合には、図４（ａ）に示すように、画像入
力部５では入力に位置センサを使い、ユーザが存在する
３次元座標系に腕の振りと垂直になるような面（図４
（ａ）参照）が設定される。そして、指先に付けたセン
サがその面を通過した時にじゃんけんの動作が行われた
と判断して、図４（ｃ）に示すように、検出信号を検出
信号制御部８に送出する。タイミングの予測やずれの検
出等の以降の動作は上述同様に行われる。

【００２５】ここで、上述ステップＳ１を図５のフロー
チャートに沿って説明する。

【００２６】検出信号制御部８によりチェック信号が生
成される（ステップＳ１１）。制御部１０にチェック信
号ｃｈｅｃｋ１が送出される（ステップＳ１２）。比較
・演算部１１にチェック信号ｃｈｅｃｋ２が送出される
（ステップＳ１３）。ずれｔｒａｇが次式ｔｒａｇ＝ｃｈｅｃｋ２−ｃｈｅｃｋ１から算出される（ステップＳ１４）。予測パラメータ設
定部１２のｔｒａｇの値が変更される（ステップＳ１
５）。

【００２７】次に、上述ステップＳ５を図６のフローチ
ャートに沿って説明する。

【００２８】検出信号制御部８から制御部１０に、Ｎ−
２番目のデータとして信号ｔ１が入力され（ステップＳ
１６）、続いて、検出信号制御部８から制御部１０に、
Ｎ−１番目のデータとして信号ｔ２が入力される（ステ
ップＳ１７）。制御部１０により予測パラメータ設定部
１２からＡ、ｔｒａｇが読み込まれる（ステップＳ１
８）。Ｎ番目のデータとしてのｔｓｙｓの予想タイミン
グが次式より算出される（ステップＳ１９）。

【００２９】ｔｓｙｓ＝Ａ＊（ｔ２−ｔ１）＋ｔ１−ｔｒａｇ次に、上述ステップＳ９を図７のフローチャートに沿っ
て説明する。

【００３０】比較・演算部１１により検出信号制御部８
からｔｕｓｒが受信され（ステップＳ２０）、音声・画
像生成用信号の時刻ｔｓｙｓが受信される（ステップＳ
２１）。比較・演算部１１によりｔｕｓｒとｔｓｙｓと
からパラメータＡが次式により算出される（ステップＳ
２２）。

【００３１】Ａ＝ｔｕｓｒ／ｔｓｙｓ算出されたＡにより予測パラメータ設定部１２のＡの値
が変更される（ステップＳ２３）。

【００３２】なお、上述実施例においては、じゃんけん
を例にとり説明したが、これに限らず、周期性のある動
作、例えばうなづき等の首の動きや、まばたきなどの音
声以外の身振り、手振りなどの非言語情報であるノンバ
ーバル言語に適用することも可能である。

【００３３】また、上述実施例においては、出力例とし
てコンピュータグラフィックスによる画像を例にとり説
明したが、これに限らず、出力先を人形などにしても良
く、人形の制御に使うことも可能である。

【００３４】

【発明の効果】請求項１に記載の音声及び動作の制御装
置によれば、入力手段によりユーザの行動が取り込ま
れ、該入力手段により入力されたユーザの行動からその
特徴点が検出手段により抽出され、該検出手段からの検
出結果の時系列情報から制御する音声と動作のタイミン
グが予測手段により算出され、該予測手段における予測
結果とユーザの行動とのずれを補正する予測パラメータ
が予測パラメータ設定手段に記憶され、前記予測手段の
予測結果に基づき、制御手段により音声及び動作を制御
する制御信号が送出されるように構成したので、システ
ムの出力・応答の遅れを吸収でき、システムの処理速度
に関わりなく制御が行え、ユーザの動きに出力・応答を
合わせることが可能になる。これにより、マン・マシン
・インタフェースの向上を図ることができる。

【００３５】請求項２に記載の装置によれば、音声検出
手段によりユーザの音声のパワーや周波数の入力が検出
される。

【００３６】請求項３に記載の装置によれば、動作検出
手段によりユーザの動作による所定場所の通過や速度ベ
クトルの方向の変化が検出される。

【００３７】請求項４に記載の音声及び画像の出力装置
によれば、入力手段によりユーザの行動が取り込まれ、
該入力手段により入力されたユーザの行動からその特徴
点が検出手段により抽出され、該検出手段からの検出結
果の時系列情報から制御する音声と動作のタイミングが
予測手段により算出され、該予測手段における予測結果
とユーザの行動とのずれを補正する予測パラメータが予
測パラメータ設定手段に記憶され、前記予測手段の予測
結果に基づき、制御手段により音声及び動作を制御する
制御信号が送出され、制御手段からの制御信号に基づ
き、合成音声が音声生成手段により生成され、画像生成
手段により合成画像が生成され、生成された合成音声と
合成画像が出力手段により出力されるように構成したの
で、システムの出力・応答の遅れを吸収でき、システム
の処理速度に関わりなく制御が行え、ユーザに動きに出
力・応答を合わせることが可能になり、違和感のない音
声及び画像を呈示することができる。

【図面の簡単な説明】

【図１】本発明の音声及び画像の出力装置の第１の実施
例を示すブロック図である。

【図２】本発明の音声及び画像の出力装置の動作を示す
フローチャートである。

【図３】本発明の音声及び画像の出力装置において、ユ
ーザの音声を取り込む場合の説明図である。

【図４】本発明の音声及び画像の出力装置において、ユ
ーザの動作を取り込む場合の説明図である。

【図５】本発明の音声及び画像の出力装置の動作を示す
フローチャートである。

【図６】本発明の音声及び画像の出力装置の動作を示す
フローチャートである。

【図７】本発明の音声及び画像の出力装置の動作を示す
フローチャートである。

【符号の説明】

1 音声入力部 2 Ａ／Ｄコンバータ 3 音声用条件設定部 4 音声検出部 5 画像入力部 6 画像用条件設定部 7 画像検出部 8 検出信号制御部 9 予測部 10 制御部 11 比較・演算部 12 予測パラメータ設定部 13 音声・画像生成部 14 スピーカ 15 スクリーン

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平５−232601（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06T 13/00 A63F 13/00 A63H 13/00 - 13/20 G10L 13/00 G10L 21/06

Claims

(57)【特許請求の範囲】

【請求項１】ユーザの行動に対応して発生する信号を
取り込む入力手段と、該入力手段により入力された信号
の特徴点を抽出する検出手段と、該検出手段からの検出
結果の時系列情報から制御すべき音声と動作の出力タイ
ミングを算出する予測手段と、該予測手段における予測
結果とユーザの行動とのずれを補正するための予測パラ
メータを記憶する予測パラメータ設定手段と、前記予測
手段の予測結果に基づき、音声及び動作を制御する制御
信号を送出する制御手段とを具備する音声及び動作の制
御装置。
【請求項２】前記検出手段は、ユーザの音声のパワーや
周波数の入力を検出する音声検出手段を有する請求項１
に記載の装置。
【請求項３】前記検出手段は、ユーザの動作による所定
場所の通過や速度ベクトルの方向の変化を検出する動作
検出手段を有する請求項１に記載の装置。
【請求項４】ユーザの行動に対応して発生する信号を取
り込む入力手段と、該入力手段により入力された信号の
特徴点を抽出する検出手段と、該検出手段からの検出結
果の時系列情報から制御すべき音声と動作のタイミング
を算出する予測手段と、該予測手段における予測結果と
ユーザの行動とのずれを補正するための予測パラメータ
を記憶する予測パラメータ設定手段と、前記予測手段の
予測結果に基づき、音声及び動作を制御する制御信号を
送出する制御手段と、該制御信号に基づき音声を生成す
る音声生成手段と、該制御信号に基づき合成画像を生成
する画像生成手段と、生成された合成音声と合成画像を
出力する出力手段とを具備する音声及び画像の出力装
置。