JP3179660B2 - 音声及び動作の制御装置並びに音声及び画像の出力装置 - Google Patents
音声及び動作の制御装置並びに音声及び画像の出力装置Info
- Publication number
- JP3179660B2 JP3179660B2 JP18951894A JP18951894A JP3179660B2 JP 3179660 B2 JP3179660 B2 JP 3179660B2 JP 18951894 A JP18951894 A JP 18951894A JP 18951894 A JP18951894 A JP 18951894A JP 3179660 B2 JP3179660 B2 JP 3179660B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- prediction
- unit
- user
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Processing Or Creating Images (AREA)
Description
置並びに音声及び画像の出力装置に関し、特にコンピュ
ータグラフィックスなど、ユーザの音声や体の動きなど
の入力からシステムが出力する画像の動きが決定される
音声及び動作の制御装置並びに音声及び画像の出力装置
に関する。
による出力呈示の制御を行う場合、コンピュータグラフ
ィックスなど、ユーザの音声や体の動きなどの入力から
システムが出力する画像の動きが決定される音声及び動
作の制御装置においては、予め定められた固定周期に基
づいて画像を動かしている。
制御装置では、ユーザの動きとシステム側の出力にずれ
が生じ、違和感があった。また、ユーザの動きに合わせ
るために、ユーザの動きを取り込んでから動作する装置
についても、システムの処理間隔における遅れがそのま
まシステムの動作時間に上乗せられる結果となり、応答
タイミングが遅れ、非常に使いにくいという問題点があ
った。
めになされたもので、システムの出力・応答の遅れを吸
収し、システムの処理速度に関わりなく制御が行え、ユ
ーザに動きに出力・応答を合わせることが可能になり、
ユーザに与える違和感が少ない音声及び動作の制御装置
並びに音声及び画像の出力装置を提供することを目的と
する。
目的は、ユーザの行動により発生した信号を取り込む入
力手段と、該入力手段により入力された信号の特徴点を
抽出する検出手段と、該検出手段からの検出結果の時系
列情報から制御する音声と動作の出力タイミングを算出
する予測手段と、該予測手段における予測結果とユーザ
の行動とのずれを補正するための予測パラメータを記憶
する予測パラメータ設定手段と、前記予測手段の予測結
果に基づき、音声及び動作を制御する制御信号を送出す
る制御手段とを具備する請求項1に記載の音声及び動作
の制御装置によって達成される。
手段が、ユーザの音声のパワーや周波数の入力を検出す
る音声検出手段を有する請求項2に記載の装置によって
達成される。
手段が、ユーザの動作による所定場所の通過や速度ベク
トルの方向の変化を検出する動作検出手段を有する請求
項3に記載の装置によって達成される。
行動により発生した信号を取り込む入力手段と、該入力
手段により入力された信号の特徴点を抽出する検出手段
と、該検出手段からの検出結果の時系列情報から制御す
べき音声と動作の出力タイミングを算出する予測手段
と、該予測手段における予測結果とユーザの行動とのず
れを補正する予測パラメータを記憶する予測パラメータ
設定手段と、前記予測手段の予測結果に基づき、音声及
び動作を制御する制御信号を送出する制御手段と、該制
御信号に基づき合成音声を生成する音声生成手段と、該
制御信号に基づき合成画像を生成する画像生成手段と、
生成された合成音声と合成画像を出力する出力手段とを
具備する請求項4に記載の音声及び画像の出力装置によ
って達成される。
いては、入力手段によりユーザの行動に対応して発生す
る信号が取り込まれ、該入力手段により入力された信号
の特徴点が検出手段により抽出され、該検出手段からの
検出結果の時系列情報から制御すべき音声と動作の出力
タイミングが予測手段により算出され、該予測手段にお
ける予測結果とユーザの行動とのずれを補正するための
予測パラメータが予測パラメータ設定手段に記憶され、
前記予測手段の予測結果に基づき、制御手段により音声
及び動作を制御する制御信号が送出される。これによ
り、システムの出力・応答の遅れを吸収でき、システム
の処理速度に関わりなく制御が行え、ユーザに動きに出
力・応答を合わせることが可能になる。
出手段によりユーザの音声のパワーや周波数の入力が検
出される。
出手段によりユーザの動作による所定場所の通過や速度
ベクトルの方向の変化が検出される。
においては、入力手段によりユーザの行動に対応して発
生する信号が取り込まれ、該入力手段により入力された
信号の特徴点が検出手段により抽出され、該検出手段か
らの検出結果の時系列情報から制御すべき音声と動作の
出力タイミングが予測手段により算出され、該予測手段
における予測結果とユーザの行動とのずれを補正するた
めの予測パラメータが予測パラメータ設定手段に記憶さ
れ、前記予測手段の予測結果に基づき、制御手段により
音声及び動作を制御する制御信号が送出され、制御手段
からの制御信号に基づき、合成音声が音声生成手段によ
り生成され、且つ画像生成手段により合成画像が生成さ
れ、生成された合成音声と合成画像が出力手段により出
力される。これにより、システムの出力・応答の遅れを
吸収でき、システムの処理速度に関わりなく制御が行
え、ユーザの動きに出力・応答を合わせることが可能に
なり、違和感のない音声及び画像を呈示することができ
る。
1の実施例を図1を参照しながら説明する。
ーザの発する音声を取り込むマイクロホンから構成され
た音声入力部1と、音声入力部1の入力信号をA/D変
換するA/Dコンバータ2と、音声用条件設定部3と、
デジタル化された音声信号と音声用条件設定部3に予め
記述されたデータとを比較して条件に適合したデータの
時間情報を送出する音声検出部4と、ユーザの体(例え
ば指先等)に取付けられ、3次元空間における位置が検
出される3次元磁気センサから構成される画像入力部5
と、動作用条件設定部6と、入力された位置情報と動作
用条件設定部6に予め設定されたデータとを比較して条
件に適合したデータの時間情報を送出する検出手段とし
ての画像検出部7と、音声検出部4及び画像検出部7に
おいて検出された信号を識別し、その内容に応じて予測
部9、制御部10及び比較演算部11へ送る検出信号制
御部8と、検出結果の時系列情報から制御すべき音声と
動作の出力タイミングを算出する予測手段としての予測
部9と、予測部9における予測結果とユーザの行動との
ずれを補正する予測パラメータを記憶する予測パラメー
タ設定手段としての予測パラメータ設定部12と、予測
部9の予測結果に基づき、音声及び動作を制御する制御
信号を送出する制御手段としての制御部10と、制御部
10からの制御信号に基づき、合成音声を生成する音声
生成手段及び合成画像を生成する画像生成手段としての
グラフィック生成用コンピュータ及び音声合成装置から
構成される音声・画像生成部13と、生成された合成音
声を出力するスピーカ14と、生成された合成画像を出
力するスクリーン15と、予測結果とユーザの行動との
ずれを補正する比較・演算部11とを具備している。な
お、音声入力部1と画像入力部5とにより入力手段が構
成されており、音声検出部4と画像検出部7とにより検
出手段が構成されており、スピーカ14とスクリーン1
5とにより出力手段が構成されている。また、音声及び
画像の出力装置から音声・画像生成部13と、スピーカ
14と、スクリーン15とを除いた部分により音声及び
動作の制御装置が構成されている。
パワーレベルが入力され、入力された音声信号はA/D
コンバータ2によりデジタル化される。音声検出部4に
よりデジタル化された音声信号と音声用条件設定部3に
予め記述されたデータとが比較されて条件に適合したデ
ータの時間情報が送出される。音声検出部4では、まず
音声検出部4においてA/D変換されたデータは逐次内
部のシフトレジスタに書き込まれる。そして、音声用条
件設定部3にメモリされたしきい値との比較が行われ、
しきい値を越えたものの時刻を検出する方法と、条件設
定部3に設定された波形パターンとの比較をレジスタマ
ッチングするまでシフトさせて、マッチングした波形の
先頭の時刻を検出する方法の2種類で音声の検出が行わ
れる。
間における位置情報が入力される。画像検出部7により
入力された位置情報と動作用条件設定部6に予め設定さ
れたデータとが比較され、条件に適合したデータの時間
情報が送出される。このために、まず画像検出部7にお
いて3次元磁気センサから送られた位置データが逐次内
部のレジスタに書き込まれる。そして、動作用条件設定
部6にメモリされた座標面を通過したときの時刻を検出
する方法と、直前にレジスタに書き込まれた座標と現在
取り込まれた座標のオイラー角が比較され、90度を越
えたときの時刻を検出する方法の2種類で動作の検出が
行われる。
画像検出部7において検出された信号の内、時刻情報信
号(t1及びt2)が予測部9及び制御部10へ送出さ
れ、tusr信号は予測部9及び制御部10へは送られ
ずに比較演算部11へ送られる。予測部9により検出信
号制御部8から送られた時刻情報t1,t2からtsy
sが次式から算出される。
された値であり、Aは比較演算部11の結果によって毎
回書き換えられる計算結果と実際のユーザの動作とのず
れを補正するためのパラメータである。tragは最初
のテスト信号によって決定されるシステムの処理時間に
よるずれであり、tusrはユーザの動作から検出され
た時間、tsysはtusrの値をシステム側が予想し
た時間の値である。
測部9から送られた時刻データから音声及び動作のタイ
ミングを制御する制御信号が生成される。音声・画像生
成部13によりスクリーン15に描画されたコンピュー
タグラフィックスにより映像が制御部10から送られた
制御信号に基づいて制御されると共にスピーカ14から
音声が発生される。比較・演算部11により実際のユー
ザの動作と予測結果とのずれが測定・補正される。ずれ
の補正は、以下の二点について行う。まず、第一点目は
システムの処理時間からくる遅れによるずれの補正で、
検出信号制御部8から直接に比較・演算部11に入力さ
れた信号check1と、予測部9、制御部10、音声
・画像生成部13を通った信号check2のずれtr
agが、 trag=check2−check1 から算出される。そして、二点目は予測結果tsysと
実際のユーザの動作tusrのずれAが、 A=tusr/tsys から算出される。この結果は予測パラメータ設定部12
に記憶され、予測部9により計算のパラメータとして使
用される。予測パラメータ設定部12に記憶されるAに
ついては、動作開始時にはデフォルト値として1を設定
しておく。
るコンピュータグラフィックスによって作成された人間
モデルと『じゃんけん』を行うシステムの動作を図2の
フローチャートに沿って説明する。
るシステムの処理時間によるずれtragが調整される
(ステップS1)。ユーザの音声を検出して制御を行う
システムの場合、図3(a)、(b)に示すように、音
声入力部1のマイクロホンにより『じゃん』『けん』〓
『ぽん』という音声が取り込まれる(ステップS2)。
取り込まれた音声信号は、図3(c)に示すように、A
/Dコンバータ2によりデジタル波形データに変換され
る(ステップS3)。音声検出部4によりデジタル化さ
れた音声信号と音声用条件設定部3に予め設定された音
声のパワーレベルのしきい値とが比較され、そのしきい
値を越えた場合に、ユーザの音声による入力があったと
判断され、図3(c)に示すように、検出データとして
検出信号制御部8に信号が送出される(ステップS
4)。検出信号制御部8により図3(c)に示す最初の
二つのデータすなわち『じゃん』と『けん』の音声タイ
ミングによるデータは予測部9及び制御部10へ送出さ
れ、三つ目の『ぽん』の音声タイミングによるデータは
比較演算部11へ送られ、予測結果と比較を行うための
制御が行われる。
れた『じゃん』の音声の始まりの時間と、『けん』の音
声の始まりの時間から検出データの時間間隔を計り、予
測部9の予測式に基づき、図3(d)に示すように、
『ぽん』の画像を提示するためのタイミングが算出され
(ステップS5)、制御部10へ送信される。予想をす
べき信号の場合は、制御部10は、検出信号制御部8及
び予測部9から送られたタイミング信号に基づき、音声
・画像生成部13へコンピュータグラフィックス画像に
じゃんけんのために人間モデルの腕を振る動作を行うた
めの画像制御信号を送る(ステップS6〜S8)。ま
た、図3(e)に示すように、合成音によって『じゃ
ん』『けん』『ぽん』と発生するための音声制御信号が
送られる。同時に、音声・画像生成部13より比較・演
算部11に『ぽん』の画像を制御するための信号が送ら
れる。比較・演算部11により検出信号制御部8から送
られたユーザの『ぽん』のタイミングと、予想部9で予
想されかつ音声・画像生成部13間で送られた信号との
ずれが比較され(ステップS9)、その結果が予測パラ
メータ設定部12に設定され(ステップS10)、次に
じゃんけんに反映される。このような処理を行うこと
で、じゃんけんという即時性を要求されるものでも、ユ
ーザがシステム側の遅れをほとんど感じることなく行う
ことができるようになる。
システムの場合には、図4(a)に示すように、画像入
力部5では入力に位置センサを使い、ユーザが存在する
3次元座標系に腕の振りと垂直になるような面(図4
(a)参照)が設定される。そして、指先に付けたセン
サがその面を通過した時にじゃんけんの動作が行われた
と判断して、図4(c)に示すように、検出信号を検出
信号制御部8に送出する。タイミングの予測やずれの検
出等の以降の動作は上述同様に行われる。
チャートに沿って説明する。
成される(ステップS11)。制御部10にチェック信
号check1が送出される(ステップS12)。比較
・演算部11にチェック信号check2が送出される
(ステップS13)。ずれtragが次式 trag=check2−check1 から算出される(ステップS14)。予測パラメータ設
定部12のtragの値が変更される(ステップS1
5)。
ャートに沿って説明する。
2番目のデータとして信号t1が入力され(ステップS
16)、続いて、検出信号制御部8から制御部10に、
N−1番目のデータとして信号t2が入力される(ステ
ップS17)。制御部10により予測パラメータ設定部
12からA、tragが読み込まれる(ステップS1
8)。N番目のデータとしてのtsysの予想タイミン
グが次式より算出される(ステップS19)。
て説明する。
からtusrが受信され(ステップS20)、音声・画
像生成用信号の時刻tsysが受信される(ステップS
21)。比較・演算部11によりtusrとtsysと
からパラメータAが次式により算出される(ステップS
22)。
が変更される(ステップS23)。
を例にとり説明したが、これに限らず、周期性のある動
作、例えばうなづき等の首の動きや、まばたきなどの音
声以外の身振り、手振りなどの非言語情報であるノンバ
ーバル言語に適用することも可能である。
てコンピュータグラフィックスによる画像を例にとり説
明したが、これに限らず、出力先を人形などにしても良
く、人形の制御に使うことも可能である。
置によれば、入力手段によりユーザの行動が取り込ま
れ、該入力手段により入力されたユーザの行動からその
特徴点が検出手段により抽出され、該検出手段からの検
出結果の時系列情報から制御する音声と動作のタイミン
グが予測手段により算出され、該予測手段における予測
結果とユーザの行動とのずれを補正する予測パラメータ
が予測パラメータ設定手段に記憶され、前記予測手段の
予測結果に基づき、制御手段により音声及び動作を制御
する制御信号が送出されるように構成したので、システ
ムの出力・応答の遅れを吸収でき、システムの処理速度
に関わりなく制御が行え、ユーザの動きに出力・応答を
合わせることが可能になる。これにより、マン・マシン
・インタフェースの向上を図ることができる。
手段によりユーザの音声のパワーや周波数の入力が検出
される。
手段によりユーザの動作による所定場所の通過や速度ベ
クトルの方向の変化が検出される。
によれば、入力手段によりユーザの行動が取り込まれ、
該入力手段により入力されたユーザの行動からその特徴
点が検出手段により抽出され、該検出手段からの検出結
果の時系列情報から制御する音声と動作のタイミングが
予測手段により算出され、該予測手段における予測結果
とユーザの行動とのずれを補正する予測パラメータが予
測パラメータ設定手段に記憶され、前記予測手段の予測
結果に基づき、制御手段により音声及び動作を制御する
制御信号が送出され、制御手段からの制御信号に基づ
き、合成音声が音声生成手段により生成され、画像生成
手段により合成画像が生成され、生成された合成音声と
合成画像が出力手段により出力されるように構成したの
で、システムの出力・応答の遅れを吸収でき、システム
の処理速度に関わりなく制御が行え、ユーザに動きに出
力・応答を合わせることが可能になり、違和感のない音
声及び画像を呈示することができる。
例を示すブロック図である。
フローチャートである。
ーザの音声を取り込む場合の説明図である。
ーザの動作を取り込む場合の説明図である。
フローチャートである。
フローチャートである。
フローチャートである。
Claims (4)
- 【請求項1】 ユーザの行動に対応して発生する信号を
取り込む入力手段と、該入力手段により入力された信号
の特徴点を抽出する検出手段と、該検出手段からの検出
結果の時系列情報から制御すべき音声と動作の出力タイ
ミングを算出する予測手段と、該予測手段における予測
結果とユーザの行動とのずれを補正するための予測パラ
メータを記憶する予測パラメータ設定手段と、前記予測
手段の予測結果に基づき、音声及び動作を制御する制御
信号を送出する制御手段とを具備する音声及び動作の制
御装置。 - 【請求項2】前記検出手段は、ユーザの音声のパワーや
周波数の入力を検出する音声検出手段を有する請求項1
に記載の装置。 - 【請求項3】前記検出手段は、ユーザの動作による所定
場所の通過や速度ベクトルの方向の変化を検出する動作
検出手段を有する請求項1に記載の装置。 - 【請求項4】ユーザの行動に対応して発生する信号を取
り込む入力手段と、該入力手段により入力された信号の
特徴点を抽出する検出手段と、該検出手段からの検出結
果の時系列情報から制御すべき音声と動作のタイミング
を算出する予測手段と、該予測手段における予測結果と
ユーザの行動とのずれを補正するための予測パラメータ
を記憶する予測パラメータ設定手段と、前記予測手段の
予測結果に基づき、音声及び動作を制御する制御信号を
送出する制御手段と、該制御信号に基づき音声を生成す
る音声生成手段と、該制御信号に基づき合成画像を生成
する画像生成手段と、生成された合成音声と合成画像を
出力する出力手段とを具備する音声及び画像の出力装
置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP18951894A JP3179660B2 (ja) | 1994-08-11 | 1994-08-11 | 音声及び動作の制御装置並びに音声及び画像の出力装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP18951894A JP3179660B2 (ja) | 1994-08-11 | 1994-08-11 | 音声及び動作の制御装置並びに音声及び画像の出力装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0855235A JPH0855235A (ja) | 1996-02-27 |
JP3179660B2 true JP3179660B2 (ja) | 2001-06-25 |
Family
ID=16242629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP18951894A Expired - Lifetime JP3179660B2 (ja) | 1994-08-11 | 1994-08-11 | 音声及び動作の制御装置並びに音声及び画像の出力装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3179660B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101724873B1 (ko) * | 2015-07-17 | 2017-04-07 | 조현미 | 납골당용 꽃보관함 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4627052B2 (ja) * | 2006-07-06 | 2011-02-09 | 株式会社ソニー・コンピュータエンタテインメント | 画像に連携した音声出力方法および装置 |
-
1994
- 1994-08-11 JP JP18951894A patent/JP3179660B2/ja not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101724873B1 (ko) * | 2015-07-17 | 2017-04-07 | 조현미 | 납골당용 꽃보관함 |
Also Published As
Publication number | Publication date |
---|---|
JPH0855235A (ja) | 1996-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9431027B2 (en) | Synchronized gesture and speech production for humanoid robots using random numbers | |
JP6100263B2 (ja) | 音声認識方法及び音声認識装置 | |
US11790935B2 (en) | Voice onset detection | |
JP7419270B2 (ja) | ウェアラブルシステム発話処理 | |
CN113994424A (zh) | 识别语音识别引擎的输入 | |
KR950035447A (ko) | 음성 분석 자동화를 이용하는 비디오 신호 처리 시스템 및 그 방법 | |
JP2001236093A (ja) | 電子機器制御装置および電子機器 | |
US10497346B2 (en) | Three-dimensional simulation system | |
JP2000338987A (ja) | 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム | |
JPH02234285A (ja) | 画像合成方法及びその装置 | |
JP2000163178A (ja) | 仮想キャラクタとのインタラクション装置、及び仮想キャラクタの映像を生成するプログラムを記憶した記憶媒体 | |
JP4792703B2 (ja) | 音声解析装置、音声解析方法及び音声解析プログラム | |
WO2023193803A1 (zh) | 音量控制方法、装置、存储介质和电子设备 | |
WO2022072752A1 (en) | Voice user interface using non-linguistic input | |
US20050027540A1 (en) | Synchronization control apparatus and method, and recording medium | |
JP3179660B2 (ja) | 音声及び動作の制御装置並びに音声及び画像の出力装置 | |
JPH11175061A (ja) | 制御装置およびカラオケ装置 | |
JP3377463B2 (ja) | 映像/音声ずれ補正システム、方法および記録媒体 | |
US7418388B2 (en) | Voice synthesizing method using independent sampling frequencies and apparatus therefor | |
JP3199972B2 (ja) | あいづち応答のある対話装置 | |
JP2006163227A (ja) | 音声認識装置 | |
JP4801251B2 (ja) | 映像/音声ずれ補正方法及び装置 | |
JPH10111786A (ja) | リズム制御対話装置 | |
JPH06162167A (ja) | 合成画像表示システム | |
JPH10191498A (ja) | 音信号処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090413 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090413 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100413 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100413 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110413 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110413 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120413 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130413 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140413 Year of fee payment: 13 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |