JPH05323993A

JPH05323993A - 音声対話システム

Info

Publication number: JPH05323993A
Application number: JP4211768A
Authority: JP
Inventors: Deibitsuto Guriibusu; デイビットグリーブス; Hitoshi Nagata; 仁史永田; Yoichi Takebayashi; 洋一竹林; Shigenobu Seto; 重宣瀬戸; Yasuki Yamashita; 泰樹山下
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1992-03-16
Filing date: 1992-08-07
Publication date: 1993-12-07
Anticipated expiration: 2018-04-21
Also published as: JP3398401B2

Abstract

(57)【要約】【目的】システムが音声応答を発しているときにおい
ても、話者からの音声入力を取込んで認識することので
きる音声対話システムを提供することを目的とする。【構成】スピーカから出力された音声応答が、話者か
らの音声入力に重畳してマイクロホンから取込まれたと
きに、この音声応答を除去する音声応答除去部を設ける
構成とする。【効果】音声応答出力時においても話者からの音声入
力を認識することができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、人間と計算機が音声で
対話する音声対話システムに関する。

【０００２】

【従来の技術】近年、人間と計算機とのインターフェー
スとして、音声情報を用いた音声対話システムの開発が
盛んに進められている。

【０００３】音声対話システムは、音声出力とともにグ
ラフィック情報や画像，アニメーション等の視覚データ
の表示を行なうマルチメディア対話システムとして有効
であり、話者がマイクロホンに向かって発話すると、こ
の音声を認識し、これに対する音声応答をスピーカから
出力して人間との対話を行なうものである。このような
音声対話システムを、例えばハンバーガーショップで用
いた例を説明する。まず、客がマイクロホンに向かって
「ハンバーガー２個とジュース３個」と発話すると、シ
ステムはこれを認識し、「ハンバーガー２個とジュース
３個ですね」と確認を示す発話が出力される。その後、
客が「はい」と返事をすれば、注文がハンバーガー２個
とジュース３個であることが確認され、従業員に通知さ
れる。

【０００４】ところが、客が誤って、「ハンバーガー３
個…」と言ってしまった場合には、即時に取消すことは
できず、システムが「ハンバーガー３個…ですね」と確
認の応答がされたときに取消しをして、再度、「ハンバ
ーガー２個…」と発話しなければならない。また、例え
ば客が「ハンバーガー２個とコーラとアイスクリームを
下さい」と言った場合に、システムが誤認識して、「ポ
テト４個とコーラとアイスクリームですね」という応答
がされてしまった場合には、客は、「ポテト４個…」と
応答があった時点で直ちに割込んで訂正したいが、シス
テムの応答がすべて終了するまで訂正することはできな
い。このため、対話に長時間を要してしまい、非常に煩
らわしい。

【０００５】

【発明が解決しようとする課題】このように、従来にお
ける音声対話システムでは、話者からの音声入力と音声
応答出力とを同時に行なうことはできず、システムから
の応答音声がすべて終了した後に、音声を入力しなけれ
ばならない。従って、システムが誤認識した際には、再
度入力するために長時間を有してしまい、効率の良い対
話ができないという欠点があった。

【０００６】この発明はこのような従来の課題を解決す
るためになされたもので、その第１の目的は、システム
が音声応答を発しているときにおいても、話者からの音
声入力を取込んで認識することのできる音声対話システ
ムを提供することである。

【０００７】また、第２の目的は、認識内容と応答内容
の重要度に応じて音声応答の出力を変更し得る音声対話
システムを提供することである。

【０００８】

【課題を解決するための手段】上記目的を達成するた
め、本願第１の発明は、マイクロホンから入力された音
声を認識し、この認識結果に基づいて所定の音声応答を
出力して対話を行なう音声対話システムにおいて、前記
スピーカから出力された音声応答が前記マイクロホンか
ら入力された際に、この音声応答をキャンセルする音声
応答除去部を具備することが特徴である。

【０００９】また、本願第２の発明は前記第１の発明に
おいて、音声入力がない状態での背景雑音パワーを求め
る手段と、合成音声出力時のインパルス応答を基にマイ
クロホン信号中の合成音パワーを求める手段と、前記背
景雑音パワーと前記合成音パワーとの和を音声を認識す
る際のパワーのしきい値とする手段と、該しきい値を基
に音声入力があるか否かを判定する手段と、音声入力が
あるときのみ音声認識を行なう手段と、を具備すること
を特徴とする。

【００１０】更に、本願第３の発明は、音声、キーボー
ド、ポインティングデバイスのうち少なくとも１つによ
る利用者からの入力を認識するパターン認識理解部と、
この理解結果に基づいて音声応答や画像応答の応答内容
を決定する対話管理部と、前記パターン認識理解部によ
る理解結果及び前記対話管理部から出力される応答内容
に基づいて、利用者からの割込みを受付けるか否かを判
定する割込制御部と、該割込制御部からの割込情報及び
対話管理部からの応答内容に基づいて画像応答や音声応
答の発話速度・韻律・パワー等の応答生成パラメータを
変更して合成音を出力する応答生成出力部と、を有する
ことを特徴とする。

【００１１】

【作用】上述の如く構成された本願第１の発明では、音
声応答におけるパワー，ピッチ等の音声特性によって音
声応答が補正され、この補正された信号がマイクロホン
入力から減算される。従って、音声応答が重畳したユー
ザの発話信号から、音声応答が除去された後、音声が認
識される。このため、音声応答出力中においてもユーザ
の発話を行なうことができるようになる。

【００１２】また、音声応答信号を平滑化する平滑化フ
ィルタを設け、この出力を基に、音声応答が出力されて
いないときには適応化を停止するように制御すれば、音
声応答が出力されていないときに伝達関数推定精度が低
下することはなく、高い推定精度を維持することができ
る。

【００１３】また、本願第２の発明では、予め背景雑音
のパワーを求め、これよりも大きい入力があったときに
入力された音声を認識している。そして、音声応答が完
全に除去されず、スピーカからの音声応答がマイクロホ
ンから取込まれた場合でも、この音声応答のパワーに応
じて音声入力を認識する際のしきい値を上下させること
によって誤入力を防止している。従って、高精度な音声
入力が可能となる。

【００１４】更に、本願第３の発明では、音声応答中に
利用者からの割込入力があった場合にこの入力内容の重
要度及び音声応答の重要度を基に、割込を許可すべきか
否かが決められ音声応答の出力が制御される。これによ
って、入力音声及び音声応答の内容に応じた高度な対話
が可能となる。

【００１５】

【実施例】以下、本発明の実施例を図面に基づいて説明
する。図１は本発明が適用された音声対話システムの第
１実施例を示す構成図である。

【００１６】図示のように、この音声対話システムは、
話者からの入力音声を取込むマイクロホン１と、システ
ムの音声応答を出力するスピーカ８と、話者からの入力
音声に重畳された音声応答を除去する音声応答除去部２
と、この音声応答除去部２の出力を取込んで話者の発話
内容を認識する音声認識部５と、認識された音声に対応
する音声応答を選択制御する対話制御部６と、実際に音
声応答をスピーカ８、及び音声応答除去部２に出力する
音声応答部７及び、グラフィック情報や画像，アニメー
ション等の視覚データを表示するディスプレイ１６から
構成されている。

【００１７】音声応答除去部２は、各種音声応答のパワ
ー情報，ピッチ情報，振幅情報、及び有声／無声，無音
等の情報が予め記憶されるルックアップテーブル３ａ
と、後述するＬＭＳ／ニュートンアルゴリズムによって
インパルス応答を求め、これによって音声応答を補正し
て出力するアダプティブフィルタ３と、マイクロホン１
の入力からアダプティブフィルタ３の出力を減じる減算
器４を有している。

【００１８】このような構成において、以下、本実施例
の動作を図３に示すフローチャートを参照しながら説明
する。

【００１９】まず、マイクロホン１から話者が音声を入
力すると、この音声信号は音声応答除去部２を介して音
声認識部５に供給される。このとき、音声応答部７から
の出力はないので、音声応答除去部２での処理は行なわ
れず、マイクロホン１から入力された音声信号はそのま
ま音声認識部５に供給される。その後、対話制御部６で
は認識された音声に対する音声応答が選択され（ステッ
プＳＴ１）、この音声応答が音声応答部７から出力され
るので、アダプティブフィルタ３に音声応答が供給され
るとともに、スピーカ８から出力される（ステップＳＴ
２，ＳＴ３）。

【００２０】そして、アダプティブフィルタ３では、次
の（１）式によってインパルス応答を求める。

【００２１】

【数１】Ｗ_(k+1)＝Ｗ_(k)＋２μＲ′_(k)ｅ_(k)Ｘ_(k) …（１）（１）式はＬＭＳ／ニュートンアルゴリズムと称する演
算式である。ここで、ｋは時相を示す因子であり、ｋが
今回の出力、ｋ＋１が次回の出力である。また、Ｒ′は
音声応答の相関マトリクスの逆行列であり、ルックアッ
プテーブル３ａから与えられる。

【００２２】μは集束係数であり、スピーカ８から出力
された音声応答は、そのままマイクロホン１に入力され
るわけではなく、周囲環境によって反射や減衰等が生じ
る。μはこれらの変化を加味して伝達関数Ｗを決めるた
めの因子である。また、ｅはエラー、Ｘは入力信号ベク
トルである。

【００２３】こうして求められたインパルス応答を音声
応答Ｘに乗じて出力信号ｙを生成し、減算器４へ出力す
る（ステップＳＴ４）。

【００２４】即ち、ｙ＝Ｗ^TＸ（Ｔは転置） …（２）である。

【００２５】一方、マイクロホン１では、スピーカ８か
らの音声応答が重畳した入力音声が取込まれる。そし
て、取込まれた音声信号ｄは減算器４に供給され（ステ
ップＳＴ５）、減算器４では減算信号ｓが次の（３）式
で求められる（ステップＳＴ６）。

【００２６】ｓ＝ｄ−ｙ …（３）その後、この減算信号ｓは音声認識部５に供給されて
（ステップＳＴ７）、話者からの入力音声が認識され、
これに対応する音声応答が対話制御部６によって選択さ
れ、音声応答部７から出力される。そして、アダプティ
ブフィルタ３は、この音声応答を取込んで次のインパル
ス応答を求め（ステップＳＴ８）、上述した動作が音声
入力が終了するまで繰り返される（ステップＳＴ９）。

【００２７】このようにして、本実施例では、スピーカ
８から出力される音声応答をＬＳＭ／ニュートンアルゴ
リズムを用いて補正し、補正後の信号をマイクロホン１
から入力された信号から減じることで、マイクロホン１
から取込まれるスピーカ８の出力をキャンセルしてい
る。従って、音声応答がスピーカ８から出力されている
際においても、話者はマイクロホン１から音声を入力す
ることができるようになる。

【００２８】また、上記実施例では、音声応答の自己相
関マクリクスの逆数Ｒ′を用いてアルゴリズムを実施し
たが、音声応答が規則合成されている場合には、音声の
パワー，有声／無声，母音／子音，無音，持続時間情
報、等を用いても良い。特に、音声のパワーｐを用い
て、ＬＭＳ／ニュートンアルゴリズムを実施する場合
は、次の（４）式に示す演算式が用いられる。

【００２９】

【数２】Ｗ_(k+1)＝Ｗ_(k)＋２（μ／ｐ_(k)Ｌ）ｅ_(k)Ｘ_(k) …（４）ただし、Ｌは入力音声ベクトルの次元である。また、本
実施例の音声対話システムでは、予めルックアップテー
ブル３ａ内に、音声応答のパワー情報，ピッチ情報等の
特性が記憶されているので、音声応答の特性に応じた好
適なインパルス応答を得ることができる。

【００３０】図２は、音声応答のパワー情報と、音声応
答除去部２での除去結果を示す特性図であり、曲線Ｓ₃
は音声応答のパワー情報、曲線Ｓ₁はこのパワー情報を
一定値としてアルゴリズムを実施したときの音声応答の
除去結果、そして、曲線Ｓ₂はパワー情報が曲線Ｓ₃の
如く変化したときのデータを基にアルゴリズムを実施し
たときの音声応答の除去結果である。同図から明らかな
ように、ルックアップテーブル３ａ内に記憶されたパワ
ー情報を用いてアルゴリズムを実施した方が音声応答の
除去結果が良好であり、高精度に音声応答を除去できる
ことが理解される。

【００３１】また、この実施例ではスピーカ８から発話
される応答が音声のみの例について述べたが、音声と同
時に音楽を出力させたい場合には、図１に示す音声応答
部７を図６の如く構成する。即ち、音声応答部７は音声
信号を出力する音声合成部１０と、音楽信号を出力する
音楽合成部１１、及びこれらを合成するミキサ９を有し
ている。そして、音楽の特性情報は、音符から容易に入
手することができ、これを図１に示すルックアップテー
ブル３ａ内に記憶させれば、前述した音声信号のみの場
合と同様に、音声応答を除去することができる。

【００３２】また、音声，音楽だけでなく、自然音（鳥
の鳴き声等）やブザー音等の音響信号に対しても適用可
能である。ブザー音は周期信号であり、また、ランダム
雑音は不規則であるが定常雑音であるという性質が予め
わかっているので、これらの情報を利用して高精度なノ
イズキャンセルが行なえる。

【００３３】また、音声応答部から出力される信号が、
広帯域雑音（白色雑音）である場合は、スピーカ８から
マイクロホン１までの伝達関数Ｗの推定が容易であるこ
とが知られている。即ち、音声信号の有声音（母音等）
は、周期信号であり、しかも、非定常性を有するので、
短時間周波数スペクトルは線スペクトルとなる。このた
め、スペクトル成分が広帯域にあるわけではなく、イン
パルス応答の推定精度を悪化させている。そこで、図６
に示した構成とすれば、音声メッセージ以外に音声応答
の周波数成分のないところに雑音や音楽等の広帯域信号
を付加することができ、ＬＭＳ及びＦＬＭＳアルゴリズ
ムの精度を向上させることができる。

【００３４】次に、本発明の第２の実施例について説明
する。上述した第１実施例では、当該音声対話システム
へのユーザの音声入力があった場合に、インパルス応答
の推定精度が著しく低下することが知られている。そこ
で、第２実施例では、図８に示すように伝達関数更新制
御部１５を設け、推定精度を向上させる。以下、この動
作について説明する。

【００３５】まず、インパルス応答をＬＭＳ／ニュート
ンアルゴリズムを用いて推定する際に、過去のインパル
ス応答を例えば１００［ｍｓ］毎に５秒間だけ保持す
る。

【００３６】即ち、Ｗ₀…現在Ｗ_-1…１００［ｍｓ］前Ｗ_-2…２００［ｍｓ］前 ……………………… Ｗ_-50…５［秒］前の各伝達関数が記憶される。そして、図１に示した音声
認識部５において、ユーザの音声が検出された場合に
は、インパルス応答の設定を音声発話以前のものに変更
する。つまり、たとえば７５０［ｍｓ］だけ前にユーザ
からの音声が入力された場合には、８００［ｍｓ］前の
インパルス応答Ｗ_-8がＷ₀に変わって逐次処理に使用さ
れるのである。また、この動作を図７に示すタイムチャ
ートに基づいて説明する。

【００３７】同図に示す曲線Ｓ₄は音声応答信号であ
り、曲線Ｓ₅はユーザの発話信号である。そして、音声
応答除去部２で１００［ｍｓ］毎にインパルス応答を更
新しながら音声応答を除去し、音声認識部５でユーザの
発話を検出して発話の始点ｔ_S、終点ｔ_Eを検出する。
また、ユーザの発話を検出した場合には図８に示すイン
パルス応答更新制御部１５により、インパルス応答の推
定値Ｗ₀を更新するか、過去の推定値Ｗ_i（ｉ＝−１〜
−５０）を用いるかを１００［ｍｓ］毎に判定する。こ
れによって、アダプティブフィルタ３では、より精度の
良いインパルス応答を得ることができるので、音声応答
の除去効率が向上する。

【００３８】また、上述した各実施例では、音声応答を
生成するために音声規則合成を行なっており、以下この
音声合成に必要な一連の内部情報（例えば、ピッチ，パ
ワーの時系列）から精度の良いインパルス応答を推定す
るための方法について図５，図４を参照しながら説明す
る。図５は、「取消します（ｔｏｒｉｋｅｓｈｉｍａｓ
ｕ）」という音声応答を合成する場合のパワーとピッチ
の時間変化を示す図である。また、図４はＦＬＭＳの集
束係数を求める際のフローチャートである。ただしＦＬ
ＭＳではインパルス応答の周波数スペクトルである伝達
関数の推定を行う。

【００３９】まず、時刻ｎ＝０において、図５（ａ）に
示すパワー情報から無音区間であるかどうかを判定する
（ステップＳＴ１１）。そして無音であると判定された
場合（ステップＳＴ１１でＹＥＳ）にはＦＬＭＳの集束
係数μ（ｆ）をすべての周波数において「０」とおく
（ステップＳＴ１４）。これによって、伝達関数の推定
値は適応推定によっても変化しなくなるため、無音区間
で雑音がマイクロホン１から入力されても伝達関数の推
定値は影響を受けない。

【００４０】一方、無音でないと判定された場合には
（ステップＳＴ１１でＮＯ）、音韻が子音であるか母音
であるかが判定される（ステップＳＴ１２）。この判定
は現在の音韻が既知であるため容易に行なえる。

【００４１】そして、子音であると判定された場合（ス
テップＳＴ１２で「子音」側）には、更にそのパワーが
しきい値（例えば、周囲の環境雑音レベル＋２０ｄＢ）
以上であるか否かが判定される（ステップＳＴ１５）。
そして、しきい値以下の場合（ステップＳＴ１５でＮ
Ｏ）にはすべての周波数についてμ（ｆ）＝０とする
（ステップＳＴ１６）。また、しきい値以上の場合はす
べての周波数においてμ（ｆ）＝ａ（ａは所定の集束係
数）とする（ステップＳＴ１７）。

【００４２】一方、音韻が母音である場合（ステップＳ
Ｔ１２で「母音」側）には、そのパワーがしきい値以上
であるか否かが判定される（ステップＳＴ１３）。そし
て、しきい値以下の場合（ステップＳＴ１３でＮＯ）に
は、すべての周波数についてμ（ｆ）＝０とする（ステ
ップＳＴ１８）。

【００４３】また、しきい値以上の場合（ステップ１３
でＹＥＳ）には、例えば、ピッチ周波数ｆ_pの整数倍の
周波数のまわり±（１／３）ｆ_pの範囲で、μ（ｆ）＝
ａとする。また、この範囲外ではμ（ｆ）＝０とする
（ステップＳＴ１９）。即ち、次の（５）式である。

【００４４】

【数３】 μ（ｆ）＝ａ（ｆ_p・ｎ−１／３ｆ_p＜ｆ＜ｆ_p・ｎ＋１／３ｆ_p） μ（ｆ）＝０（上記以外） …（５）そして、上述した操作を例えば１０［ｍｓ］毎にくり返
す（ステップＳＴ２０）。

【００４５】このようにして、音声応答の信号のうちパ
ワーの大きい周波数成分を重視して伝達関数推定値の更
新を行なうため、高精度の推定が可能である。

【００４６】次に本発明の第３実施例について説明す
る。前記したＬＭＳ／ニュートンアルゴリズムによる伝
達関数推定では、音声のような非定常信号を入力とした
場合には推定精度が変化し、推定動作が不安定になるこ
とが知られている。しかし、対話システムでは合成音声
を入力とした場合でも安定なインパルス応答推定が必要
である。そこで、以下では入力信号に大きなパワー変動
がある場合でも高精度のインパルス応答を安定に求める
方法を説明する。

【００４７】図９は第３実施例の構成を示すブロック図
であり、図１に示した音声応答除去部２の内部構成を示
している。図示のように、この音声応答除去部２は、合
成入力側（音声応答）、及びマイク入力側にそれぞれ設
けられたＡ／Ｄ変換器３１，３２と、音声応答信号パワ
ーを平滑化する第１の平滑化フィルタ３３、第２の平滑
化フィルタ３４と、各平滑化フィルタの出力信号を基に
適応化を行なうか否かを判定する適応・停止切換部３５
と、アダプティブフィルタ３と、たたみ込み演算部３６
と、減算部４から構成されている。

【００４８】第１の平滑化フィルタ３３は、時定数が小
さく設定されており、例えば時定数ｔ₁は１０［ｍｓ］
である。

【００４９】第２の平滑化フィルタ３４は、時定数が大
きく設定されており、例えば時定数ｔ₂は１００［ｍ
ｓ］である。

【００５０】適応・停止切換部３５は、前記第１の平滑
化フィルタ３３の出力が所定のしきい値Ｖ_a以下となっ
た場合にアダプティブフィルタ３による適応化を停止さ
せ、第２の平滑化フィルタ３４の出力が所定のしきい値
Ｖ_b以上となったときに適応化を開始させるように動作
する。

【００５１】図１３は、「どうぞ」という音声のパワー
情報を示しており、同図（ａ）は第１の平滑化フィルタ
３３の出力、そして、同図（ｂ）は第２の平滑化フィル
タ３４の出力を示している。なお、時定数の違いから第
２の平滑化フィルタ３４の出力信号の方が滑らかになっ
ていることは言うまでもない。

【００５２】図１４は、「どうぞ」という音声出力中で
音がとぎれた点付近の各フィルタ３３，３４の出力を重
ねた図である。通常、無音部分と音声部分との亘りの部
分のように音声のパワーが大きく変化したときに伝達関
数の推定精度がわずかの時間内、例えば１［ｍｓｅｃ］
の間に急激に低下する。従って、音声のパワーが大きく
変化したときにはす早く適応化を停止することによっ
て、高い推定精度を維持することができる。そこで、図
１４に示す如く、第１の平滑化フィルタ３３の出力Ｐ_a
（ｔ）がしきい値Ｖ_a以下となったときに適応化を停止
し、第２の平滑化フィルタ３４の出力Ｐ_b（ｔ）がしき
い値Ｖ_b以上となったときに適応化を開始すれば、音声
のパワーが大きく変化したときの適応化は行なわれな
い。これによって、高い推定精度を維持することができ
る。

【００５３】図１０は「いらっしゃいませ」という合成
音声を入力したときのインパルス応答の推定結果を示し
ており、曲線Ｓ１１は、上記した適応化推定停止を行な
った場合、曲線Ｓ１２は行なわない場合の推定結果であ
る。同図から明らかなように、停止を行なうほうが高精
度にインパルス応答を推定できることが理解される。

【００５４】図１１は、応答除去後の音声の認識結果で
ある。図から明らかなようにインパルス応答精度が高い
程、すなわち合成音除去量が大きい程音声認識率は高く
なり、合成音声除去の効果が理解される。また、認識方
式は、上記キーワードスポッティングと雑音免疫学習の
組み合わせに限る必要はなく、単語音声認識やＨＭＭに
よる連続音声認識方式でも良い。

【００５５】図１５は第３実施例においてフィルタ更新
の係数であるステップゲインを求める際の動作を示すフ
ローチャートである。

【００５６】まず、時刻ｋ＝０において（ステップＳＴ
３１）、第１の平滑化フィルタ３３の出力パワーｐ
_a（ｋ）がしきい値Ｖ_a（例えばＶ_a＝合成音の平均パ
ワーである−２０ｄＢ）以下であるか否かを判定する
（ステップＳＴ３２）。そして、しきい値Ｖ_a以下であ
ると判定された場合には（ステップＳＴ３２でＹＥ
Ｓ）、ＬＭＳのμを０として（ステップＳＴ３６）伝達
関数の更新を行なわないようにする。これは、前記した
（４）式から容易に理解され、集束係数μ＝０の際には
Ｗ_kは更新されない。

【００５７】一方、パワーｐ_a（ｋ）がしきい値Ｖ_a以
上であると判定されると（ステップＳＴ３２でＮＯ）、
次に第２の平滑化フィルタ３４の出力パワーｐ_b（ｋ）
がしきい値Ｖ_b以下であるか否かを判定する（ステップ
ＳＴ３３）。そして、しきい値Ｖ_b以下であると判定さ
れた場合には（ステップＳＴ３３でＹＥＳ）、集束係数
μ＝０（ステップＳＴ３７）として伝達関数の更新を行
なわない。すなわち、図１４における「停止」の部分を
示している。

【００５８】そして、パワーｐ_b（ｋ）がしきい値Ｖ_b
以上となると（ステップＳＴ３３でＮＯ）、ステップゲ
インを以下の（５）式で求める。

【００５９】

【数４】ステップゲイン＝２μ・ｅ（ｋ）／｛ｐ_b（ｔ）・Ｌ｝ …（５）こうして、伝達関数の更新が行なわれるのである。

【００６０】このようにして、第３実施例では、音声信
号のパワーが低減した場合には、適応化を停止させるの
で、高い推定精度を維持することが可能である。

【００６１】なお、この実施例では平滑化フィルタを２
個設ける構成としたが、特にこれに限定されるものでは
なく、１、又は３以上の平滑化フィルタを用いても構成
可能であることは自明である。

【００６２】また、伝達関数の推定を行なう際には、適
応フィルタの入力信号である合成音声と希望出力である
マイクロホン信号とが常に一定の時間差をもって得られ
ることが必要である。すなわちマイクロホン信号中の合
成音成分は、スピーカから出力された合成音とは音響伝
達系の伝播遅延分だけ時間差があり、伝達関数推定の際
はこれが保存されている必要がある。入力信号の合成音
声を計算機内部から直接得る場合には、計算機の負荷の
具合や思わぬ誤動作により、計算機内部に持っている合
成音声が期待したタイミングでスピーカから出力されな
い場合が考えられる。このような場合にも安定に伝達関
数推定を行なうため、図９に示すように２ｃｈのＡ／Ｄ
変換器３１，３２によってマイクロホン信号と合成音声
信号とを得ることにより、一定のタイミングで２つの信
号を得ることが可能である。

【００６３】また、伝達関数推定は計算量が多いため、
実時間で計算を終えるためにＤＳＰボードを用いて音声
応答除去部を構成できる。

【００６４】図１２は合成音声除去装置付きの音声対話
システムの外観である。利用者はマイクロホン２３に向
かって音声を入力し、システムの合成音声応答がスピー
カ２１から出力される。上記ＡＤ変換装置は音声信号の
帯域を考慮して１２［ｋHz］のサンプリング周波数を使
用している。利用者はモニタ２２の補助情報を見ながら
対話を進めていくが、合成音除去装置によって合成音声
が打ち消されており、音声認識装置には利用者の音声だ
けが入力されるので、利用者はシステムが応答中でも割
り込んで音声を入力することができる。このとき、マイ
クロホンはスピーカからの合成音声をなるべく拾わない
ように指向性のものを用いても良いが、周囲の壁からの
反射音は残ってしまうため、指向性マイクホンの使用の
みでは合成音声を消すことはできない。又、入力音声の
ＳＮ比を良くするためになるべくマイクロホンの近く、
例えばマイクロホンから３０cm以内程度の距離で発声す
るのが望ましいが、ユーザの体に反射した合成音がマイ
クロホンに入ってしまうことになる。この大きさはユー
ザとマイクロホンが近いために反射音の中で最もレベル
が大きく、且つ体の動きによって振幅と時間遅れが変化
する。以上のような場合でも適応フィルタによって伝達
関数を更新しているので周囲の壁による反射やユーザの
動き、あるいは他の人々の動きによる伝達関数の変化に
追随することができ効果的に合成音を除去することがで
きる。

【００６５】次に、本発明の第４実施例について説明す
る。これは、システムが誤って合成音を検出してしまう
ことを防止する例である。

【００６６】図１６は該第４実施例の構成を示すブロッ
ク図である。図示のように、この音声対話システムは減
算器４の出力側に音声検出部３１が設けられている。

【００６７】音声検出部３１は、減算器４の出力信号と
背景雑音及び除去されるべき合成音が誤って残ってしま
った信号を基に音声入力があったか否かを判定するもの
であり、図１７に示すように、検出しきい値決定部３２
と、音声判定部３３と、インパルス応答推定部３４から
構成されている。

【００６８】インパルス応答推定部３４は、スピーカ８
とマイクロホン１間のインパルス応答を推定し、これを
検出しきい値決定部３２に供給する。

【００６９】検出しきい値決定部３２は、前記インパル
ス応答とスピーカ８から出力される合成音声を基に、減
算器４の出力が音声入力であるか否かを判定するための
しきい値を決定する。

【００７０】音声判定部３３は、後述するようにしきい
値を越えた信号の継続時間等に基づいて入力信号が音声
入力であるか否かを判定するものである。

【００７１】以下、図１８を用いて具体的に説明する。
同図は音声検出に使う検出パラメータの例を表したもの
で、音声の始端をＡ、終端をＢで表してある。予め背景
雑音パワーＰｏを測定し、これに始端決定用のマージン
Ｍｓ、例えば５ｄＢを加えた値を始端検出しきい値Ｐ
ｓ、終端決定用マージンＭｅ、例えば３ｄＢを加えた値
を終端検出しきい値Ｐｅと定める。また、始端決定用の
音声持続時間Ｔｓを例えば２０ｍｓ、終端決定用の無音
持続時間Ｔｅを例えば２００ｍｓ、最小音声持続時間Ｔ
ｖを例えば２００ｍｓと定める。

【００７２】そして、入力信号パワーの計算をある時間
間隔、例えば１０ｍｓ毎に行い、新しい値が得られる度
に検出しきい値との比較を行いながら、例えば図１９の
状態遷移図に従って検出状態の遷移を行い、音声検出を
行うことができる。時間はパワー計算時間間隔の倍数で
表すことにし、図１９で始端Ａから測った時間をｎｓ、
終端から測った時間をｎｅとしてある。また、時刻を
ｉ、時刻ｉにおけるパワーをＰｉで表してある。また、
矢印は状態の遷移先を示し、矢印の傍らの式は遷移条件
を表している。状態数は６個であり、音声が入力されて
いない状態を表す無音状態（Ｓ０）、仮の始端が定まっ
た状態を表す始端仮定状態（Ｓ１）、始端が確定した状
態を表す始端確定状態（Ｓ２）、音声であることが確定
していることを表す音声確定状態（Ｓ３）、仮の終端が
定まった状態を表す終端仮定状態（Ｓ４）、音声がまだ
継続していることを表す音声継続状態（Ｓ５）、終端が
確定し、音声検出が終了した状態を表す終端確定状態
（Ｓ６）がある。

【００７３】まず、音声入力がない場合は無音（Ｓ０）
の状態にあり、ある時刻ｉ_sでパワーＰｉが始端検出し
きい値Ｐｓを越えると時刻ｉ_sを仮の始端と定め、始端
仮定状態（Ｓ１）へと遷移する。Ｐｓを越えない場合は
無音状態（Ｓ０）のままである。

【００７４】始端仮定状態（Ｓ１）になった時刻からｎ
ｓを測りはじめ、パワーが始端検出しきい値Ｐｓを越え
たままｎｓが始端決定用の音声持続時間Ｔｓ以上になっ
た場合には時刻ｉ_sを始端であると定めて始端確定状態
（Ｓ２）へと遷移する。時間Ｔｓが経過するまでは始端
仮定状態（Ｓ１）でいる。時間がＴｓに達する前にパワ
ーが始端検出しきい値Ｐｓを下回った場合には無音状態
（Ｓ０）へと遷移する。次いで、始端確定状態（Ｓ２）
においてパワーがＰｓ以上のまま時間ｎｓが最小音声持
続時間Ｔｖ以上になった場合には時刻ｉ_sから現在まで
の入力信号が音声であるとみなし、音声確定状態（Ｓ
３）へと遷移する。Ｔｖに達する前にパワーがＰｓを下
回った場合には無音状態（Ｓ０）へと遷移する。

【００７５】そして、音声確定状態（Ｓ３）においてパ
ワーがＰｅを下回った場合にはこのときの時刻ｉ_eが終
端であると仮定し、終端仮定状態（Ｓ４）へと遷移す
る。時刻ｉ_eから終端決定用の時間長パラメータｎｅを
測り始める。パワーがＰｅ以上の場合には音声確定状態
（Ｓ３）のままである。その後、終端仮定状態（Ｓ４）
においてパワーがＰｅを下回ったままｎｅが終端決定用
の無音持続時間Ｔｅ以上となった場合には終端が決定し
たものとし、終端決定状態（Ｓ６）へ遷移して検出処理
を終了する。Ｔｅに達する前にパワーＰがＰｅ以上とな
った場合には音声継続状態（Ｓ５）へと遷移する。次い
で、音声継続状態（Ｓ５）おいてパワーＰｉがＰｅを下
回った場合にはこのときの時刻ｉ_e′が終端であると仮
定し、終端仮定状態（Ｓ４）へと遷移する。パワーがＰ
ｅ以上の場合には音声継続状態（Ｓ５）のままである。
こうして、音声入力が認識されるのである。

【００７６】次に音声応答があるとき、即ち、スピーカ
８からの音声応答が完全に除去されないときの音声検出
の方法について説明する。音声応答が出力されている場
合には合成音の分だけ入力信号レベルが上がるので、検
出しきい値をその分上げておくことによって誤った音声
検出をなくすことができる。高いレベルの合成音が入力
されても検出されないように、安全のためにしきい値の
上げ幅を大きな一定値で不変の値とすると、音声応答が
ない場合の検出性能を低下させることになる。したがっ
て、常に検出性能を高く保つには、応答音声のパワーに
応じて最低限の上げ幅でしきい値を毎時設定することが
望ましい。以下に図２０のタイムチャートを使って音声
応答のパワーに応じたしきい値設定方法を説明する。

【００７７】まず、音声入力がない状態で、背景雑音パ
ワーＰｏの測定（ステップＳＴ４１）、及び、一定時
間、例えば３秒間合成音を出力してスピーカ−マイクロ
ホン間のインパルス応答推定を行う（ステップＳＴ４
２）。インパルス応答推定は応答音声除去部２で行って
いるのでその結果を使うことができ、新たに推定部を設
ける必要はない（ステップＳＴ４３）。次に推定したイ
ンパルス応答に音声応答信号を畳み込んでマイクロホン
信号中の合成音成分とそのパワーＰｓを求める（ステッ
プＳＴ４４）。合成音パワーＰｓと背景雑音パワーＰｏ
との和Ｐを音声検出のベースレベルＰｂとおくことによ
って合成音パワーに応じたしきい値設定を行うことがで
きる（ステップＳＴ４５）。時間ｉ＝０以後、パワー計
算は一定時間間隔、例えば１０ｍｓ毎に行うことにより
計算量を減らすことができ、その際応答音声除去部２で
推定された新しいインパルス応答を使うことによって音
響系の変化にも対応できる。合成音は音声応答除去部２
によって消去されているので、音声応答パワーの推定値
Ｐｓはもっと小さい値にすることも可能であるが、音響
系が変化している場合はインパルス応答の推定が音響系
の変化に追随できずに消去率が小さくなることもあるの
でＰｓをそのまま使うのが安全である。

【００７８】次にインパルス応答推定を高精度に行う例
について説明する。適応フィルタの入力である音声信号
は周波数スペクトルが平坦でないため、ＬＭＳアルゴリ
ズムによる適応フィルタの収束速度が遅くなることが知
られている。そこで、広帯域雑音を合成音声に付加する
ことによって全周波数のＳ／Ｎを上げ、伝達関数の高精
度な推定を行うことができる。その際、応答音声信号パ
ワーに応じて雑音パワーを変化させることにより雑音が
ユーザーにとって耳障りとならないようにすることがで
きる。特に無音部では雑音が気になりやすいので雑音振
幅を０とおくとよい。

【００７９】また、付加する雑音はシステムを使用する
場所における環境雑音、例えば駅の人込みの雑音や計算
機室の雑音を録音したものか、または似たような雑音と
すれば一定の振幅で連続して出力しても耳障りでないよ
うにできる。

【００８０】また、上述の音声信号による適応フィルタ
駆動時の収束速度の低下は、入力信号のスペクトル平坦
化によっても改善されることが知られている。平坦化の
ためには通常逆フィルタが使われるが、入力の差分信号
をとることによっても低周波成分に偏ったパワーを補正
することができる。差分処理は非常に簡単な処理である
ため計算量も少なく、リアルタイムシステムには都合が
良い。図２１は合成音の「いらっしゃい」の「い」の音
の周波数スペクトルで、曲線ａは差分処理後、曲線ｂは
もとのスペクトルを表している。差分処理によって中高
域成分のパワーが低域と同等となり、平坦化しているこ
とが理解される。

【００８１】また、図２２は「以上でよろしいですか」
という合成音声を入力としたときの伝達関数推定結果で
ある。曲線ｃは音声応答パワーに対して２０ｄＢ低いレ
ベルの白色雑音を付加した場合、曲線ｂは差分処理を使
った場合、ｄはどちらの処理も行わない場合の推定結果
であるが、雑音付加、差分処理各々により推定精度が向
上することが理解できる。更に、曲線ａは雑音付加と差
分処理を併用した場合の実験結果であるが、両処理の併
用により更に推定精度が向上することが理解できる。

【００８２】次に合成音キャンセラを使って音声応答を
キャンセルする際の合成音の音量、スピーカとマイクロ
ホンの位置と向きの設定方法に関する例を以下に説明す
る。

【００８３】図２３は合成音のパワーとキャンセル性能
の関係を示している。図でａは消去されたパワーを、ｂ
は残留パワーを表している。合成音を大きくするほど消
去パワーは大きくなるが残留パワーも大きくなるので、
音声認識に対しては合成音を小さく設定する方が効果的
であることが理解される。また、音声入力用のマイクロ
ホンや出力用のスピーカは指向性を持ち、設定によって
マイクロホンに入力される音声応答のパワーが異なるた
め、キャンセルの効果にも差が出てくる。図２４はマイ
クロホンの向きとキャンセル性能の関係を表した図で、
図２５に示すような設定でマイクロホンとスピーカのな
す角度φを変化させた結果である。図でｂは消去された
パワーを、ｃは残留パワーを表している。マイクロホン
は広く使用されている単一指向性のもので、感度最小と
なる死角はマイクロホンの握り柄の方向である。マイク
ロホンの頭をスピーカに向けた場合が最も消去パワーが
大きいが、残留パワーも大きくなる。逆に死角をスピー
カに向けた場合が残留パワーが最も小さいため、音声認
識に対して効果的であることが理解される。

【００８４】また、図２６はマイクロホンとスピーカと
の間の距離とキャンセル性能の関係を表している。図で
ａは消去されたパワーを、ｂは残留パワーを表してい
る。距離を大きくするほど残留パワーも小さくなること
が理解される。

【００８５】以上を総合するとマイクロホンに入力され
る合成音をなるべく小さくすることが音声認識に対して
効果的な音響系の設定であることが理解される。したが
って、(1) 出力合成音は対話に差支えない範囲内で可能
な限り小さい音量とする、(2) マイクロホンの死角に入
るようにスピーカを置く、(3) スピーカとマイクロホン
はなるべく距離を離す、ことが効果的な音響系設定であ
る。

【００８６】次に、本発明の第５実施例について説明す
る。該第５実施例は、システムからの応答出力中に利用
者が割り込んで入力を行うことへの対処を考慮した音声
対話システムであり、図２７に示すように入力認識理解
部４１と、対話管理部４２と、応答生成出力部４３と、
割込制御部４４から構成されている。そして、例えば図
２８（ａ）に示す如くの応答中に利用者からの割込み入
力を受けることのできない対話から同図（ｂ），
（ｃ），（ｄ）に示すように、割込み入力の意味を理解
するに必要なキーワードを認識し、あるいは、入力音声
の電力が最小音声持続時間Ｔ_V以上続けて始端検出しき
い値Ｐ_Sを越えた場合、割込み入力があったものとして
検出する。この検出に要する時間をＴ_detとする。そし
て、割込みを受けたら応答を中断する場合（ｂ）、割込
みを受けたら応答をフェードアウトさせる場合（ｃ）、
そして、割込みを受けたら応答の区切りの良いところま
で出力する場合（ｄ）など柔軟な対話を可能とさせる。

【００８７】パターン認識理解部４１は、利用者からの
入力を検出、認識してその内容を理解するためのもの
で、入力メディアとして音声、キーボード、マウスやタ
ッチパネルなどのポインティングデバイスを利用してい
る。音声入力では、例えばＨＭＭやキーワードスポッテ
ィングなどの方法により発話内容を認識、意味を理解す
る。キーボード入力では文字列解析を行い、ポインティ
ングデバイスでは例えばポイント位置や移動方向、移動
速度情報からその意味を理解する。

【００８８】対話管理部４２は、パターン認識理解部４
１から得た入力の理解結果から、次に出力すべき応答の
内容を決める。例えば、入力の理解結果とその履歴や入
力の直前のシステムの応答内容から計算機の内部状態が
決まるように対話の流れを状態遷移で表現し、予め決め
ておいた各状態での出力すべき応答内容のテーブルを参
照して、応答内容を決定する。応答内容の例を表１〜表
５に示す。

【００８９】

【表１】

【表２】

【表３】

【表４】

【表５】まず、表１〜表３は「きのう来たメールのリストの表示
ですね。」という応答内容である。表１の例は、応答内
容の中に特に強調すべきポイントのない普通の場合であ
る。表２は、「きのう」であるかどうかを確認するとき
の応答内容の例であり、「きのう」の部分の重要性を高
くしている。表３は、「表示」するかどうかを確認する
ときの応答内容の例であり、「表示ですね」の部分の重
要性を高くしている。表４，５は「ホストpanda から応
答がありません。」という警告のための応答内容であ
り、応答内容の一部の重要性が高い例と応答全体の重要
性が高い例を示している。

【００９０】応答生成出力部４３は、対話管理部４２で
決められた応答内容にしたがい、音声を含む応答メディ
ア、例えば応答内容にしたがった音韻処理、音響パラメ
ータの生成、音声波形の生成の順に処理することによる
合成音声などの聴覚的なメディアを用いた応答の生成、
音声応答と同じ応答文あるいはその要約した内容、ある
いはそのポイントとなる言葉のテキストや応答内容にし
たがい、システムの内部状態などを提示するグラフィク
スなどの視覚的なメディアなどを用いた応答を生成出力
する。対話管理部４２から応答内容が渡されると、応答
出力とその出力タイミングを示す応答出力位置情報を決
定し、それにしたがい応答出力を開始する。応答出力位
置情報の例を表６，図２９に示す。

【００９１】

【表６】この例では、音声応答だけが記されているが、応用によ
りこの限りではなく、他の聴覚メディア、あるいは視覚
メディアについても同様の出力タイミングを示す応答出
力位置情報を決めることができる。

【００９２】この応答出力位置情報は、音声応答の場
合、出力する応答の例えば文、節、句、文節、単語、音
節、あるいはこれら複数からなる意味上のまとまりをな
すシーケンスを合成単位とし、この合成単位とその出力
時間を示すデータを一覧にしたものである。このような
合成単位毎の出力時間の一覧は、発話速度、合成素片の
継続時間長、応答出力開始時刻から容易に作成できる。
この応答出力位置情報により、図２９に示すように、応
答出力の途中におけるユーザの割込みがあると、その割
込みのあった時刻を応答出力と対応づけて知ることがで
き、割込制御部４４は割込制御情報を出力し、例えば応
答出力を途中で打切ったり、フェードアウトさせたり、
応答生成パラメータを変更することができる。

【００９３】また、応答生成出力部４３は、音声応答の
生成を、公知の方法、例えば河井恒：“日本語テキスト
からの音声合成システム”東京大学学位論文（昭和６３
年１２月）に示されている方法により、図３０に構成例
を示すように、音声応答の発話速度、韻律、パワーなど
の応答生成パラメータの値を、それぞれ、発話速度決定
部４５、韻律決定部４６、パワー決定部４７において、
応答内容に応じて決定する。応答生成パラメータ値は、
音響パラメータの生成の際に決定する。またパワーの値
は、後述するように、波形生成後に変更することができ
る。例えば、後述するように応答内容の重要性が高けれ
ば、発話速度を緩め、イントネーションの変化幅を大き
く、パワーは大きめにするなどのように決める。イント
ネーションの変化幅は、公知の方法、例えば藤崎、須
藤：“日本語単語アクセントの基本周波数パタンとその
生成機構のモデル”日本音響学会誌，２７，９，ｐｐ４
４５〜４５３（昭和４６年）の方法により容易に制御で
きる。

【００９４】更に、応答生成出力部４３は、図３０の構
成例に示すように、割込制御部４４から応答割込制御情
報を受け取ると、それにしたがい出力中の音声を含む応
答を打切るか、出力中の音声応答の発話速度、韻律、パ
ワーを含む応答生成パラメータを変更する。応答を打切
る場合、出力中の合成単位までは出力してそこで出力を
打切る。合成単位が音節の場合、例えば、出力中の音節
や単語や文節の直後の境界まで応答を出力する。前述し
た通り、合成単位はさまざまな場合が考えられ、出力を
打切る場所の選び方はこの限りではない。このような応
答の中断方法は、合成単位を音節、単語、文節、句など
にすることにより、自然に応答出力を打切ることができ
る。規則合成などの場合には、音韻、単語、文節、句な
どの単位でまとめて合成をし、途中で打切る場合は、出
力中の合成単位までで応答が終わるように中断させ、録
音音声を再生する場合は、出力中の音声素片の出力が終
わった時点でそのまま応答を打切ればよい。また、応答
生成パラメータを変更する場合、発話速度決定部４５に
おいて発話速度を例えば±３０％変化させるとか、韻律
決定部４６においてアクセント・フレーズに対応するイ
ントネーションの変化率を±５０％変化させるとか、パ
ワー決定部４７おいて例えば１秒後に０になるようにフ
ェードアウトさせる減衰曲線を用意しておき、応答出力
波形にたたみこみをする、あるいは音響パラメータ生成
の際に、パワーの時間変化にこの減衰曲線をたたみこむ
などの方法により制御する。この減衰曲線は、打切り
用、フェードアウト用など複数用意しておくことができ
る。また、たたみこみの結果、出力が完全に０になると
ころで、応答出力を完了したものとして次の処理に移
る。なお、これらの変化率の値の例は応用に応じて変わ
りうるもので、必ずしもこの限りではない。

【００９５】表７は割込制御情報を示し、図３１（ａ）
は応答打切りなどのときの応答出力、同図（ｂ）は４番
目の出力単位で応答を打切る際の応答出力を示してい
る。また、図３２（ａ）は応答打切制御を示すフローチ
ャートであり、同図（ｂ）は応答内容のｎ番目の応答の
生成出力を具体的に示すフローチャートである。この例
では、ＣＶ音節パラメータを合成素片とする音声合成応
答の生成を示している。応用によりＣＶＣ音節パラメー
タを合成素片としたり、録音音声を再生することも可能
であり、応答生成出力の方法はこの限りではない。

【００９６】

【表７】このような制御の流れにおいて応答を打切ったりフェー
ドアウトさせるタイミング、あるいは応答生成パラメー
タ値の変更を始めるタイミングは割込制御情報で指定さ
れる。例えば、発話速度を変える場合には、図３３に示
すように割込制御情報で指定されたタイミングから発話
速度を変更する。この例では応答内容の４番目の応答か
ら速度が上昇している。値の変更は、合成単位毎に変化
させてもよいが、指定されたタイミングからなめらかな
目標値に変化させても良い。また、韻律制御の場合は図
３４，３５に示されており、図３４は韻律変化が普通の
場合、図３５は応答内容の４番目の応答から変化が大き
くなった例である。録音音声を再生する場合は、韻律の
変化幅を変えた数種類の合成素片を用意しておき、割込
制御情報を受けて、変化幅に応じた素片を選択して再生
を行う。

【００９７】また、図３６はパワー制御の例を示してお
り、このパワー制御曲線を、パワーのパラメータ値にた
たみこむか、あるいはパワーのパラメータのオフセット
値として利用する。同図（ａ）は応答内容の４番目応答
からパワーが増加する例、同図（ｄ）は４番目の応答か
らパワーが減少する例、同図（ｃ）は４番目の応答から
フェードアウトする例である。パワーのように時間的に
急激に変化させると本質的にノイズを生じてしまうパラ
メータでは、なめらかな曲線、例えば、臨界制動系のス
テップ応答曲線や、多項式曲線、三角関数による曲線な
どのたたみこみを行う。

【００９８】一方、割込制御部４４は図３７〜図４０に
示す各フローチャートの流れにしたがって応答割込制御
情報を出力する。

【００９９】図３７は未出力応答の長さが少ないときは
割込を許可しない制御を行う例であり、応答出力中には
（ステップＳＴ５１でＹＥＳ）未出力応答の長さが基準
値以上であるか否かが判定される（ステップＳＴ５
２）。基準値は、合成単位の数やモーラ数、単語数、文
節数などを単位として決めておく。例えば８モーラと
か、３単語とか、合成単位１回分のような値にする。そ
して、基準値以上である場合には（ステップＳＴ５２で
ＹＥＳ）、すでに必要な情報を出力されていると見な
し、応答打切り等の制御を行う（ステップＳＴ５３）。
一方、未出力応答の長さが基準以下である場合には（ス
テップＳＴ５２でＮＯ）、未出力応答をそのまま出力す
る（ステップＳＴ５４）。その後、次の応答内容を決定
し、応答生成出力を行う（ステップＳＴ５５）。

【０１００】図３８は出力中の応答内容が重要ならば応
答を中断せずそのまま出力するよう制御する例であり、
応答出力中には（ステップＳＴ６１でＹＥＳ）出力中の
応答内容の重要性を判断する（ステップＳＴ６２）。そ
して、重要である場合には（ステップＳＴ６２でＮ
Ｏ）、例えばパワーを減少させたり、発話速度を遅くさ
せる等の制御を行う（ステップＳＴ６２）。また、出力
中の応答内容が重要である場合には（ステップＳＴ６２
でＹＥＳ）、未出力応答を出力する（ステップＳＴ６
４）。その後、次の応答内容を決定し応答生成出力を行
う（ステップＳＴ６８）。前述したように応答内容の重
要性は、応答全体に対しても、あるいは応答の一部であ
る合成単位ごとに対しても判断でき、各場合についての
具体例は後述する。

【０１０１】図３９は割込入力の理解内容の重要性と出
力中の応答内容の重要性を比較して制御する例である。
つまり、話者からの入力内容とスピーカからの応答内容
とを比較して重要な方を優先させようとするものであ
る。

【０１０２】いま、応答出力中には（ステップＳＴ７１
でＹＥＳ）入力理解内容と出力理解内容との重要性の比
較が行われる（ステップＳＴ７２）。その結果、入力理
解内容の方が重要である場合には（ステップＳＴ７２で
ＹＥＳ）、応答出力のパワーを減少させたり、発話速度
を遅くすることにより、応答出力を制御する（ステップ
ＳＴ７４）。また、出力理解内容の方が重要である場合
には（ステップＳＴ７２でＮＯ）、未入力応答をそのま
ま出力する（ステップＳＴ７３）。その後、次の応答内
容を決定し、応答生成出力を行う（ステップＳＴ７
５）。

【０１０３】図４０は未出力応答中に重要な内容が含ま
れているうちは割込みを行わないよう制御する例であ
る。いま、応答出力中には（ステップＳＴ８１でＹＥ
Ｓ）未出力応答中に重要な内容があるか否がか判定され
る（ステップＳＴ８２）。そして、重要な内容がある場
合には（ステップＳＴ８２でＹＥＳ）、未出力の部分の
応答生成出力を行い（ステップＳＴ８３）、重要な内容
が出力されるまで繰り返す。そして、重要な内容が出力
されると（ステップＳＴ８２でＮＯ）、例えば応答打切
り等により応答出力を中断する（ステップＳＴ８４）。
その後、次の応答内容を決定し、応答生成出力を行う
（ステップＳＴ８５）。

【０１０４】また、パターン認識理解部４１での理解結
果を利用する場合、表８に例を示すように、その利用者
の割込み発声の内容の重要性を評価する。

【０１０５】

【表８】例えば、訂正を意味する発話は相づちよりも高くなるよ
うに、応答の中断を要求する発話には普通の割込み発声
よりも高くなるように入力内容重要性を評価する。例え
ば相づちなど出力中の応答の中断を必要としない割込み
があった場合のように、入力の理解結果内容の重要性の
評価結果が低い場合、出力中の応答はそのまま出力す
る。また、評価結果が普通ないしは重要な場合には、出
力中の応答を中断ないしは応答生成パラメータを変更す
る応答割込制御情報を出力する。例えば、応答の中断を
要求する割込みがあった場合は、応答を中断させるか、
あるいは発話速度を速めたりして応答を早く終了させ
る。なお、表８に示した理解内容、重要性の例はあくま
で一例であり、応用によりこの限りではない。

【０１０６】応答生成出力部４３で出力中の応答内容を
利用する場合、応答内容の重要性と、割込みタイミング
を参照して応答出力の優先度を評価する。この応答出力
の優先度は、表１〜表５に例を示したように、応答の合
成単位毎、あるいは応答内容の全体の重要性を参照し
て、表９〜表１２に例を示すように評価する。

【０１０７】

【表９】

【表１０】

【表１１】

【表１２】例えば、利用者への警告や緊急性の高いメッセージを利
用者へ伝える応答内容のとき割込みがあった場合、即
ち、応答出力の優先度が高い場合、図３８に例を示した
ように、割込み入力を受け付けない。あるいは警告や緊
急性の極めて高い応答内容を出力中に割込みがあった場
合、応答出力の優先度が極めて高い場合、発話速度をゆ
っくり、ピッチ・パワーが高めになるような応答割込制
御情報を出力する。こうすることによってシステムから
の応答に対して割込みを許さない極めて重要な内容であ
ることを伝えることができる。また、ある程度応答出力
の優先度が高いとき割込みがあった場合、発話速度を速
く、ピッチ・パワーが高めになるよう応答割込制御情報
を出力する。一般の警告や緊急性の比較的高いメッセー
ジの出力の場合にこのような応答を出力することによ
り、割込みに対応して直ちに応答は止められないもの
の、できるだけ早く割込みに対処しようとしていること
を伝えることができる。なお、表９に示した応答内容、
重要性はあくまで一例であり、応用によりこの限りでは
ない。

【０１０８】次に割込入力があった場合の各部の処理を
順を追って説明する。システムからの応答の内容は、表
１〜表５に例を示した応答内容の形で、対話制御部が決
定する。これにしたがい、応答生成出力部は、まず、発
話速度決定部、韻律決定部、パワー決定部で発話速度、
韻律、パワーを求める。発話速度は、通常の応答の場合
には、例えば毎秒７モーラ程度の速度に設定し、韻律は
公知の方法で、例えば、広瀬、藤崎、河井、山口“基本
周波数パターン生成過程モデルに基づく文章音声の合
成”電子情報通信学会論文誌Ａ，ｖｏｌ．Ｊ７２−
Ａ，No. １，ｐｐ３２〜４０（平成元年１月）にある方
法で設定する。この発話速度にしたがい、合成素片の時
間長と応答出力開始時刻から表６に例を示した応答出力
位置情報を生成する。同時に応答を生成し出力を開始す
る。利用者からの割込入力があった場合に、パターン認
識理解部はこの入力を検出し、割込制御部に知らせると
共に、その意味内容を理解する。割込制御部は入力検出
を通知されると、応答出力位置情報と照合して割込入力
タイミングを調べる。割込入力タイミングが応答出力完
了後であれば、割込制御部は応答割込制御情報を出力せ
ず、対話制御部が次の応答内容を決定する。割込み入力
タイミングが応答出力完了の前であった場合、その入力
のパターン認識理解部４１での理解結果と応答生成出力
部４３で出力中の応答内容のいずれかまたは双方を利用
して応答割込制御情報を出力する。応答割込制御情報は
発話速度決定部、韻律決定部、パワー決定部、応答打切
制御部に送られ、前述のように発話速度を速める、ある
いは応答を打切る、パワーをフェートアウトさせるなど
の制御をする。また、応答割込制御情報にはどのタイミ
ングから応答出力を変更するかの情報も含まれており、
例えば応答内容のうち出力中の次の合成単位から応答出
力を変更する。

【０１０９】

【発明の効果】以上説明したように、本願第１の発明で
は、ユーザの発話信号に音声応答が重畳されてマイクロ
ホンから入力された場合でも、音声応答が除去され、発
話信号のみが音声認識される。従って、スピーカから音
声応答が出力されている際においても、ユーザからの発
話を認識することができる。その結果、極めて円滑な対
話が可能になるという効果が得られる。また、特にグラ
フィック情報や画像，アニメーション等の視覚データの
表示を行なってユーザと対話するマルチメディアシステ
ムにおいても極めて有効である。また、音声信号のパワ
ーが低減した際に適応化を停止させれば、伝達関数の推
定精度が低下することはなく、常に高い推定精度を維持
することができる。

【０１１０】また、本願第２の発明では、マイクロホン
からの取込まれた音声応答のパワーに応じて音声入力を
認識する際のしきい値を変化させている。従って、誤入
力を防止することが可能となり高精度な音声認識が可能
となる。

【０１１１】また、本願第３の発明では、音声応答出力
中に利用者からの割込みがあった場合に、この入力内容
に応じて音声応答出力を継続するか、打切るか、途中ま
で継続するか等の制御を行う。これによって、スピーデ
ィに次の応答に移ることができ、入力内容に応じた高度
な対話が可能となるという効果が得られる。

【図面の簡単な説明】

【図１】本発明が適用された音声対話システムの第１実
施例の構成を示すブロック図である。

【図２】音声応答の除去特性を示す図である。

【図３】第１実施例の動作を示すフローチャートであ
る。

【図４】ステップゲインμ（ｆ）を決定する操作を示す
フローチャートである。

【図５】音声応答のパワーとピッチの時間変化を示すタ
イムチャートである。

【図６】音声応答部の内部構成を示すブロック図であ
る。

【図７】音声応答、及びユーザの発話信号の時間変化を
示すタイムチャートである。

【図８】本発明が適用された音声対話システムの第２実
施例の構成を示すブロック図である。

【図９】本発明の第３実施例の構成を示すブロック図で
ある。

【図１０】伝達関数の推定精度を示す特性図である。

【図１１】推定精度と音声認識率との関係を示す特性図
である。

【図１２】音声対話システムの外観を示す図である。

【図１３】各平滑化フィルタの出力パワーを示す図であ
る。

【図１４】適応化の停止期間を示す説明図である。

【図１５】第３実施例の動作を示すフローチャートであ
る。

【図１６】本発明の第４実施例の構成を示すブロック図
である。

【図１７】音声検出部の詳細を示すブロック図である。

【図１８】音声信号と音声を認識する際のしきい値を示
す説明図である。

【図１９】音声を認識する際の状態遷移図である。

【図２０】しきい値を変更する動作を示すフローチャー
トである。

【図２１】もとのスペクトル及び差分処理後のスペクト
ルを示す特性図である。

【図２２】“以上よろしいですか”という合成音声を入
力したときの伝達関数推定結果を示す特性図である。

【図２３】合成音のパワーとキャンセル性能との関係を
示す特性図である。

【図２４】マイクロホンの向きとキャンセル性能との関
係を示す特性図である。

【図２５】マイクロホンとスピーカとの位置関係を示す
説明図である。

【図２６】マイクロホンとスピーカとの間の距離と、キ
ャンセル性能との関係を示す特性図である。

【図２７】本発明の第５実施例の構成を示すブロック図
である。

【図２８】音声応答と音声入力の出力タイミングを示す
タイムチャートである。

【図２９】割込発話と応答出力とのタイミングを示すタ
イムチャートである。

【図３０】応答生成出力部の詳細な構成を示すブロック
図である。

【図３１】応答打切りがある場合とない場合との応答出
力を示すタイムチャートである。

【図３２】応答打切制御の流れを示すフローチャートで
ある。

【図３３】発話速度を上昇させる例を示すタイムチャー
トである。

【図３４】韻律変化が同一であるときの各信号を示すタ
イムチャートである。

【図３５】韻律変化が大きくなる際の各信号を示すタイ
ムチャートである。

【図３６】パワーを変化させる際のタイムチャートであ
る。

【図３７】未出力応答の量が少ないときは割込制御を禁
止する動作を示すフローチャートである。

【図３８】出力中の応答内容が重要なときは中断しない
よう制御する際のフローチャートである。

【図３９】割込内容及び出力内容の重要度に応じて割込
みを許可するか否かを決める際のフローチャートであ
る。

【図４０】未出力応答中に重要な内容が含まれている際
には割込みを禁止するよう制御する際のフローチャート
である。

【符号の説明】

１マイクロホン２音声応答除去部３アダプティブフィルタ３ａルックアップテーブル４減算器５音声認識部７音声応答部８スピーカ１０音声合成部１１音楽合成部１５伝達関数更新制御部３１Ａ／Ｄ変換器３２Ａ／Ｄ変換器３３第１の平滑化フィルタ３４第２の平滑化フィルタ３５適応・停止切換部３７音声検出部３８検出しきい値決定部３９音声判定部４０インパルス応答推定部４１入力認識理解部４２対話管理部４３応答生成出力部４４割込制御部

───────────────────────────────────────────────────── フロントページの続き (72)発明者瀬戸重宣神奈川県川崎市幸区小向東芝町１株式会社東芝総合研究所内 (72)発明者山下泰樹兵庫県神戸市東灘区本山町８−６−26 株式会社東芝関西システムセンター内

Claims

【特許請求の範囲】

【請求項１】マイクロホンから入力された音声を認識
し、この認識結果に基づいて所定の音声応答を出力して
対話を行なう音声対話システムにおいて、前記スピーカから出力された音声応答が前記マイクロホ
ンから入力された際に、この音声応答をキャンセルする
音声応答除去部を具備することを特徴とする音声対話シ
ステム。
【請求項２】音声入力がない状態での背景雑音パワー
を求める手段と、合成音声出力時のインパルス応答を基
にマイクロホン信号中の合成音パワーを求める手段と、
前記背景雑音パワーと前記合成音パワーとの和を音声を
認識する際のパワーのしきい値とする手段と、該しきい
値を基に音声入力があるか否かを判定する手段と、音声
入力があるときのみ音声認識を行なう手段と、を具備す
る請求項１記載の音声対話システム。
【請求項３】音声、キーボード、ポインティングデバ
イスのうち少なくとも１つによる利用者からの入力を認
識するパターン認識理解部と、この理解結果に基づいて音声応答、画像応答の応答内容
を決定する対話管理部と、前記パターン認識理解部による理解結果及び前記対話管
理部から出力される応答内容に基づいて、利用者からの
割込みを受付けるか否かを判定する割込制御部と、該割込制御部からの割込情報及び対話管理部からの応答
内容に基づいて画像応答や音声応答の発話速度・韻律・
パワー等の応答生成パラメータを変更して合成音を出力
する応答生成出力部と、を有することを特徴とする音声対話システム。