JPH05323993A - 音声対話システム - Google Patents

音声対話システム

Info

Publication number
JPH05323993A
JPH05323993A JP4211768A JP21176892A JPH05323993A JP H05323993 A JPH05323993 A JP H05323993A JP 4211768 A JP4211768 A JP 4211768A JP 21176892 A JP21176892 A JP 21176892A JP H05323993 A JPH05323993 A JP H05323993A
Authority
JP
Japan
Prior art keywords
response
voice
output
input
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4211768A
Other languages
English (en)
Other versions
JP3398401B2 (ja
Inventor
Deibitsuto Guriibusu
デイビット グリーブス
Hitoshi Nagata
仁史 永田
Yoichi Takebayashi
洋一 竹林
Shigenobu Seto
重宣 瀬戸
Yasuki Yamashita
泰樹 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP21176892A priority Critical patent/JP3398401B2/ja
Publication of JPH05323993A publication Critical patent/JPH05323993A/ja
Application granted granted Critical
Publication of JP3398401B2 publication Critical patent/JP3398401B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 システムが音声応答を発しているときにおい
ても、話者からの音声入力を取込んで認識することので
きる音声対話システムを提供することを目的とする。 【構成】 スピーカから出力された音声応答が、話者か
らの音声入力に重畳してマイクロホンから取込まれたと
きに、この音声応答を除去する音声応答除去部を設ける
構成とする。 【効果】 音声応答出力時においても話者からの音声入
力を認識することができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、人間と計算機が音声で
対話する音声対話システムに関する。
【0002】
【従来の技術】近年、人間と計算機とのインターフェー
スとして、音声情報を用いた音声対話システムの開発が
盛んに進められている。
【0003】音声対話システムは、音声出力とともにグ
ラフィック情報や画像,アニメーション等の視覚データ
の表示を行なうマルチメディア対話システムとして有効
であり、話者がマイクロホンに向かって発話すると、こ
の音声を認識し、これに対する音声応答をスピーカから
出力して人間との対話を行なうものである。このような
音声対話システムを、例えばハンバーガーショップで用
いた例を説明する。まず、客がマイクロホンに向かって
「ハンバーガー2個とジュース3個」と発話すると、シ
ステムはこれを認識し、「ハンバーガー2個とジュース
3個ですね」と確認を示す発話が出力される。その後、
客が「はい」と返事をすれば、注文がハンバーガー2個
とジュース3個であることが確認され、従業員に通知さ
れる。
【0004】ところが、客が誤って、「ハンバーガー3
個…」と言ってしまった場合には、即時に取消すことは
できず、システムが「ハンバーガー3個…ですね」と確
認の応答がされたときに取消しをして、再度、「ハンバ
ーガー2個…」と発話しなければならない。また、例え
ば客が「ハンバーガー2個とコーラとアイスクリームを
下さい」と言った場合に、システムが誤認識して、「ポ
テト4個とコーラとアイスクリームですね」という応答
がされてしまった場合には、客は、「ポテト4個…」と
応答があった時点で直ちに割込んで訂正したいが、シス
テムの応答がすべて終了するまで訂正することはできな
い。このため、対話に長時間を要してしまい、非常に煩
らわしい。
【0005】
【発明が解決しようとする課題】このように、従来にお
ける音声対話システムでは、話者からの音声入力と音声
応答出力とを同時に行なうことはできず、システムから
の応答音声がすべて終了した後に、音声を入力しなけれ
ばならない。従って、システムが誤認識した際には、再
度入力するために長時間を有してしまい、効率の良い対
話ができないという欠点があった。
【0006】この発明はこのような従来の課題を解決す
るためになされたもので、その第1の目的は、システム
が音声応答を発しているときにおいても、話者からの音
声入力を取込んで認識することのできる音声対話システ
ムを提供することである。
【0007】また、第2の目的は、認識内容と応答内容
の重要度に応じて音声応答の出力を変更し得る音声対話
システムを提供することである。
【0008】
【課題を解決するための手段】上記目的を達成するた
め、本願第1の発明は、マイクロホンから入力された音
声を認識し、この認識結果に基づいて所定の音声応答を
出力して対話を行なう音声対話システムにおいて、前記
スピーカから出力された音声応答が前記マイクロホンか
ら入力された際に、この音声応答をキャンセルする音声
応答除去部を具備することが特徴である。
【0009】また、本願第2の発明は前記第1の発明に
おいて、音声入力がない状態での背景雑音パワーを求め
る手段と、合成音声出力時のインパルス応答を基にマイ
クロホン信号中の合成音パワーを求める手段と、前記背
景雑音パワーと前記合成音パワーとの和を音声を認識す
る際のパワーのしきい値とする手段と、該しきい値を基
に音声入力があるか否かを判定する手段と、音声入力が
あるときのみ音声認識を行なう手段と、を具備すること
を特徴とする。
【0010】更に、本願第3の発明は、音声、キーボー
ド、ポインティングデバイスのうち少なくとも1つによ
る利用者からの入力を認識するパターン認識理解部と、
この理解結果に基づいて音声応答や画像応答の応答内容
を決定する対話管理部と、前記パターン認識理解部によ
る理解結果及び前記対話管理部から出力される応答内容
に基づいて、利用者からの割込みを受付けるか否かを判
定する割込制御部と、該割込制御部からの割込情報及び
対話管理部からの応答内容に基づいて画像応答や音声応
答の発話速度・韻律・パワー等の応答生成パラメータを
変更して合成音を出力する応答生成出力部と、を有する
ことを特徴とする。
【0011】
【作用】上述の如く構成された本願第1の発明では、音
声応答におけるパワー,ピッチ等の音声特性によって音
声応答が補正され、この補正された信号がマイクロホン
入力から減算される。従って、音声応答が重畳したユー
ザの発話信号から、音声応答が除去された後、音声が認
識される。このため、音声応答出力中においてもユーザ
の発話を行なうことができるようになる。
【0012】また、音声応答信号を平滑化する平滑化フ
ィルタを設け、この出力を基に、音声応答が出力されて
いないときには適応化を停止するように制御すれば、音
声応答が出力されていないときに伝達関数推定精度が低
下することはなく、高い推定精度を維持することができ
る。
【0013】また、本願第2の発明では、予め背景雑音
のパワーを求め、これよりも大きい入力があったときに
入力された音声を認識している。そして、音声応答が完
全に除去されず、スピーカからの音声応答がマイクロホ
ンから取込まれた場合でも、この音声応答のパワーに応
じて音声入力を認識する際のしきい値を上下させること
によって誤入力を防止している。従って、高精度な音声
入力が可能となる。
【0014】更に、本願第3の発明では、音声応答中に
利用者からの割込入力があった場合にこの入力内容の重
要度及び音声応答の重要度を基に、割込を許可すべきか
否かが決められ音声応答の出力が制御される。これによ
って、入力音声及び音声応答の内容に応じた高度な対話
が可能となる。
【0015】
【実施例】以下、本発明の実施例を図面に基づいて説明
する。図1は本発明が適用された音声対話システムの第
1実施例を示す構成図である。
【0016】図示のように、この音声対話システムは、
話者からの入力音声を取込むマイクロホン1と、システ
ムの音声応答を出力するスピーカ8と、話者からの入力
音声に重畳された音声応答を除去する音声応答除去部2
と、この音声応答除去部2の出力を取込んで話者の発話
内容を認識する音声認識部5と、認識された音声に対応
する音声応答を選択制御する対話制御部6と、実際に音
声応答をスピーカ8、及び音声応答除去部2に出力する
音声応答部7及び、グラフィック情報や画像,アニメー
ション等の視覚データを表示するディスプレイ16から
構成されている。
【0017】音声応答除去部2は、各種音声応答のパワ
ー情報,ピッチ情報,振幅情報、及び有声/無声,無音
等の情報が予め記憶されるルックアップテーブル3a
と、後述するLMS/ニュートンアルゴリズムによって
インパルス応答を求め、これによって音声応答を補正し
て出力するアダプティブフィルタ3と、マイクロホン1
の入力からアダプティブフィルタ3の出力を減じる減算
器4を有している。
【0018】このような構成において、以下、本実施例
の動作を図3に示すフローチャートを参照しながら説明
する。
【0019】まず、マイクロホン1から話者が音声を入
力すると、この音声信号は音声応答除去部2を介して音
声認識部5に供給される。このとき、音声応答部7から
の出力はないので、音声応答除去部2での処理は行なわ
れず、マイクロホン1から入力された音声信号はそのま
ま音声認識部5に供給される。その後、対話制御部6で
は認識された音声に対する音声応答が選択され(ステッ
プST1)、この音声応答が音声応答部7から出力され
るので、アダプティブフィルタ3に音声応答が供給され
るとともに、スピーカ8から出力される(ステップST
2,ST3)。
【0020】そして、アダプティブフィルタ3では、次
の(1)式によってインパルス応答を求める。
【0021】
【数1】 W(k+1) =W(k) +2μR′(k) (k) (k) …(1) (1)式はLMS/ニュートンアルゴリズムと称する演
算式である。ここで、kは時相を示す因子であり、kが
今回の出力、k+1が次回の出力である。また、R′は
音声応答の相関マトリクスの逆行列であり、ルックアッ
プテーブル3aから与えられる。
【0022】μは集束係数であり、スピーカ8から出力
された音声応答は、そのままマイクロホン1に入力され
るわけではなく、周囲環境によって反射や減衰等が生じ
る。μはこれらの変化を加味して伝達関数Wを決めるた
めの因子である。また、eはエラー、Xは入力信号ベク
トルである。
【0023】こうして求められたインパルス応答を音声
応答Xに乗じて出力信号yを生成し、減算器4へ出力す
る(ステップST4)。
【0024】即ち、 y=WT X(Tは転置) …(2) である。
【0025】一方、マイクロホン1では、スピーカ8か
らの音声応答が重畳した入力音声が取込まれる。そし
て、取込まれた音声信号dは減算器4に供給され(ステ
ップST5)、減算器4では減算信号sが次の(3)式
で求められる(ステップST6)。
【0026】 s=d−y …(3) その後、この減算信号sは音声認識部5に供給されて
(ステップST7)、話者からの入力音声が認識され、
これに対応する音声応答が対話制御部6によって選択さ
れ、音声応答部7から出力される。そして、アダプティ
ブフィルタ3は、この音声応答を取込んで次のインパル
ス応答を求め(ステップST8)、上述した動作が音声
入力が終了するまで繰り返される(ステップST9)。
【0027】このようにして、本実施例では、スピーカ
8から出力される音声応答をLSM/ニュートンアルゴ
リズムを用いて補正し、補正後の信号をマイクロホン1
から入力された信号から減じることで、マイクロホン1
から取込まれるスピーカ8の出力をキャンセルしてい
る。従って、音声応答がスピーカ8から出力されている
際においても、話者はマイクロホン1から音声を入力す
ることができるようになる。
【0028】また、上記実施例では、音声応答の自己相
関マクリクスの逆数R′を用いてアルゴリズムを実施し
たが、音声応答が規則合成されている場合には、音声の
パワー,有声/無声,母音/子音,無音,持続時間情
報、等を用いても良い。特に、音声のパワーpを用い
て、LMS/ニュートンアルゴリズムを実施する場合
は、次の(4)式に示す演算式が用いられる。
【0029】
【数2】 W(k+1) =W(k) +2(μ/p(k) L)e(k) (k) …(4) ただし、Lは入力音声ベクトルの次元である。また、本
実施例の音声対話システムでは、予めルックアップテー
ブル3a内に、音声応答のパワー情報,ピッチ情報等の
特性が記憶されているので、音声応答の特性に応じた好
適なインパルス応答を得ることができる。
【0030】図2は、音声応答のパワー情報と、音声応
答除去部2での除去結果を示す特性図であり、曲線S3
は音声応答のパワー情報、曲線S1 はこのパワー情報を
一定値としてアルゴリズムを実施したときの音声応答の
除去結果、そして、曲線S2はパワー情報が曲線S3
如く変化したときのデータを基にアルゴリズムを実施し
たときの音声応答の除去結果である。同図から明らかな
ように、ルックアップテーブル3a内に記憶されたパワ
ー情報を用いてアルゴリズムを実施した方が音声応答の
除去結果が良好であり、高精度に音声応答を除去できる
ことが理解される。
【0031】また、この実施例ではスピーカ8から発話
される応答が音声のみの例について述べたが、音声と同
時に音楽を出力させたい場合には、図1に示す音声応答
部7を図6の如く構成する。即ち、音声応答部7は音声
信号を出力する音声合成部10と、音楽信号を出力する
音楽合成部11、及びこれらを合成するミキサ9を有し
ている。そして、音楽の特性情報は、音符から容易に入
手することができ、これを図1に示すルックアップテー
ブル3a内に記憶させれば、前述した音声信号のみの場
合と同様に、音声応答を除去することができる。
【0032】また、音声,音楽だけでなく、自然音(鳥
の鳴き声等)やブザー音等の音響信号に対しても適用可
能である。ブザー音は周期信号であり、また、ランダム
雑音は不規則であるが定常雑音であるという性質が予め
わかっているので、これらの情報を利用して高精度なノ
イズキャンセルが行なえる。
【0033】また、音声応答部から出力される信号が、
広帯域雑音(白色雑音)である場合は、スピーカ8から
マイクロホン1までの伝達関数Wの推定が容易であるこ
とが知られている。即ち、音声信号の有声音(母音等)
は、周期信号であり、しかも、非定常性を有するので、
短時間周波数スペクトルは線スペクトルとなる。このた
め、スペクトル成分が広帯域にあるわけではなく、イン
パルス応答の推定精度を悪化させている。そこで、図6
に示した構成とすれば、音声メッセージ以外に音声応答
の周波数成分のないところに雑音や音楽等の広帯域信号
を付加することができ、LMS及びFLMSアルゴリズ
ムの精度を向上させることができる。
【0034】次に、本発明の第2の実施例について説明
する。上述した第1実施例では、当該音声対話システム
へのユーザの音声入力があった場合に、インパルス応答
の推定精度が著しく低下することが知られている。そこ
で、第2実施例では、図8に示すように伝達関数更新制
御部15を設け、推定精度を向上させる。以下、この動
作について説明する。
【0035】まず、インパルス応答をLMS/ニュート
ンアルゴリズムを用いて推定する際に、過去のインパル
ス応答を例えば100[ms]毎に5秒間だけ保持す
る。
【0036】即ち、 W0 …現在 W-1…100[ms]前 W-2…200[ms]前 ……………………… W-50 …5[秒]前 の各伝達関数が記憶される。そして、図1に示した音声
認識部5において、ユーザの音声が検出された場合に
は、インパルス応答の設定を音声発話以前のものに変更
する。つまり、たとえば750[ms]だけ前にユーザ
からの音声が入力された場合には、800[ms]前の
インパルス応答W-8がW0 に変わって逐次処理に使用さ
れるのである。また、この動作を図7に示すタイムチャ
ートに基づいて説明する。
【0037】同図に示す曲線S4 は音声応答信号であ
り、曲線S5 はユーザの発話信号である。そして、音声
応答除去部2で100[ms]毎にインパルス応答を更
新しながら音声応答を除去し、音声認識部5でユーザの
発話を検出して発話の始点tS、終点tE を検出する。
また、ユーザの発話を検出した場合には図8に示すイン
パルス応答更新制御部15により、インパルス応答の推
定値W0 を更新するか、過去の推定値Wi (i=−1〜
−50)を用いるかを100[ms]毎に判定する。こ
れによって、アダプティブフィルタ3では、より精度の
良いインパルス応答を得ることができるので、音声応答
の除去効率が向上する。
【0038】また、上述した各実施例では、音声応答を
生成するために音声規則合成を行なっており、以下この
音声合成に必要な一連の内部情報(例えば、ピッチ,パ
ワーの時系列)から精度の良いインパルス応答を推定す
るための方法について図5,図4を参照しながら説明す
る。図5は、「取消します(torikeshimas
u)」という音声応答を合成する場合のパワーとピッチ
の時間変化を示す図である。また、図4はFLMSの集
束係数を求める際のフローチャートである。ただしFL
MSではインパルス応答の周波数スペクトルである伝達
関数の推定を行う。
【0039】まず、時刻n=0において、図5(a)に
示すパワー情報から無音区間であるかどうかを判定する
(ステップST11)。そして無音であると判定された
場合(ステップST11でYES)にはFLMSの集束
係数μ(f)をすべての周波数において「0」とおく
(ステップST14)。これによって、伝達関数の推定
値は適応推定によっても変化しなくなるため、無音区間
で雑音がマイクロホン1から入力されても伝達関数の推
定値は影響を受けない。
【0040】一方、無音でないと判定された場合には
(ステップST11でNO)、音韻が子音であるか母音
であるかが判定される(ステップST12)。この判定
は現在の音韻が既知であるため容易に行なえる。
【0041】そして、子音であると判定された場合(ス
テップST12で「子音」側)には、更にそのパワーが
しきい値(例えば、周囲の環境雑音レベル+20dB)
以上であるか否かが判定される(ステップST15)。
そして、しきい値以下の場合(ステップST15でN
O)にはすべての周波数についてμ(f)=0とする
(ステップST16)。また、しきい値以上の場合はす
べての周波数においてμ(f)=a(aは所定の集束係
数)とする(ステップST17)。
【0042】一方、音韻が母音である場合(ステップS
T12で「母音」側)には、そのパワーがしきい値以上
であるか否かが判定される(ステップST13)。そし
て、しきい値以下の場合(ステップST13でNO)に
は、すべての周波数についてμ(f)=0とする(ステ
ップST18)。
【0043】また、しきい値以上の場合(ステップ13
でYES)には、例えば、ピッチ周波数fp の整数倍の
周波数のまわり±(1/3)fp の範囲で、μ(f)=
aとする。また、この範囲外ではμ(f)=0とする
(ステップST19)。即ち、次の(5)式である。
【0044】
【数3】 μ(f)=a(fp ・n−1/3fp <f<fp ・n+1/3fp ) μ(f)=0(上記以外) …(5) そして、上述した操作を例えば10[ms]毎にくり返
す(ステップST20)。
【0045】このようにして、音声応答の信号のうちパ
ワーの大きい周波数成分を重視して伝達関数推定値の更
新を行なうため、高精度の推定が可能である。
【0046】次に本発明の第3実施例について説明す
る。前記したLMS/ニュートンアルゴリズムによる伝
達関数推定では、音声のような非定常信号を入力とした
場合には推定精度が変化し、推定動作が不安定になるこ
とが知られている。しかし、対話システムでは合成音声
を入力とした場合でも安定なインパルス応答推定が必要
である。そこで、以下では入力信号に大きなパワー変動
がある場合でも高精度のインパルス応答を安定に求める
方法を説明する。
【0047】図9は第3実施例の構成を示すブロック図
であり、図1に示した音声応答除去部2の内部構成を示
している。図示のように、この音声応答除去部2は、合
成入力側(音声応答)、及びマイク入力側にそれぞれ設
けられたA/D変換器31,32と、音声応答信号パワ
ーを平滑化する第1の平滑化フィルタ33、第2の平滑
化フィルタ34と、各平滑化フィルタの出力信号を基に
適応化を行なうか否かを判定する適応・停止切換部35
と、アダプティブフィルタ3と、たたみ込み演算部36
と、減算部4から構成されている。
【0048】第1の平滑化フィルタ33は、時定数が小
さく設定されており、例えば時定数t1 は10[ms]
である。
【0049】第2の平滑化フィルタ34は、時定数が大
きく設定されており、例えば時定数t2 は100[m
s]である。
【0050】適応・停止切換部35は、前記第1の平滑
化フィルタ33の出力が所定のしきい値Va 以下となっ
た場合にアダプティブフィルタ3による適応化を停止さ
せ、第2の平滑化フィルタ34の出力が所定のしきい値
b 以上となったときに適応化を開始させるように動作
する。
【0051】図13は、「どうぞ」という音声のパワー
情報を示しており、同図(a)は第1の平滑化フィルタ
33の出力、そして、同図(b)は第2の平滑化フィル
タ34の出力を示している。なお、時定数の違いから第
2の平滑化フィルタ34の出力信号の方が滑らかになっ
ていることは言うまでもない。
【0052】図14は、「どうぞ」という音声出力中で
音がとぎれた点付近の各フィルタ33,34の出力を重
ねた図である。通常、無音部分と音声部分との亘りの部
分のように音声のパワーが大きく変化したときに伝達関
数の推定精度がわずかの時間内、例えば1[msec]
の間に急激に低下する。従って、音声のパワーが大きく
変化したときにはす早く適応化を停止することによっ
て、高い推定精度を維持することができる。そこで、図
14に示す如く、第1の平滑化フィルタ33の出力Pa
(t)がしきい値Va 以下となったときに適応化を停止
し、第2の平滑化フィルタ34の出力Pb (t)がしき
い値Vb 以上となったときに適応化を開始すれば、音声
のパワーが大きく変化したときの適応化は行なわれな
い。これによって、高い推定精度を維持することができ
る。
【0053】図10は「いらっしゃいませ」という合成
音声を入力したときのインパルス応答の推定結果を示し
ており、曲線S11は、上記した適応化推定停止を行な
った場合、曲線S12は行なわない場合の推定結果であ
る。同図から明らかなように、停止を行なうほうが高精
度にインパルス応答を推定できることが理解される。
【0054】図11は、応答除去後の音声の認識結果で
ある。図から明らかなようにインパルス応答精度が高い
程、すなわち合成音除去量が大きい程音声認識率は高く
なり、合成音声除去の効果が理解される。また、認識方
式は、上記キーワードスポッティングと雑音免疫学習の
組み合わせに限る必要はなく、単語音声認識やHMMに
よる連続音声認識方式でも良い。
【0055】図15は第3実施例においてフィルタ更新
の係数であるステップゲインを求める際の動作を示すフ
ローチャートである。
【0056】まず、時刻k=0において(ステップST
31)、第1の平滑化フィルタ33の出力パワーp
a (k)がしきい値Va (例えばVa =合成音の平均パ
ワーである−20dB)以下であるか否かを判定する
(ステップST32)。そして、しきい値Va 以下であ
ると判定された場合には(ステップST32でYE
S)、LMSのμを0として(ステップST36)伝達
関数の更新を行なわないようにする。これは、前記した
(4)式から容易に理解され、集束係数μ=0の際には
k は更新されない。
【0057】一方、パワーpa (k)がしきい値Va
上であると判定されると(ステップST32でNO)、
次に第2の平滑化フィルタ34の出力パワーpb (k)
がしきい値Vb 以下であるか否かを判定する(ステップ
ST33)。そして、しきい値Vb 以下であると判定さ
れた場合には(ステップST33でYES)、集束係数
μ=0(ステップST37)として伝達関数の更新を行
なわない。すなわち、図14における「停止」の部分を
示している。
【0058】そして、パワーpb (k)がしきい値Vb
以上となると(ステップST33でNO)、ステップゲ
インを以下の(5)式で求める。
【0059】
【数4】 ステップゲイン=2μ・e(k)/{pb (t)・L} …(5) こうして、伝達関数の更新が行なわれるのである。
【0060】このようにして、第3実施例では、音声信
号のパワーが低減した場合には、適応化を停止させるの
で、高い推定精度を維持することが可能である。
【0061】なお、この実施例では平滑化フィルタを2
個設ける構成としたが、特にこれに限定されるものでは
なく、1、又は3以上の平滑化フィルタを用いても構成
可能であることは自明である。
【0062】また、伝達関数の推定を行なう際には、適
応フィルタの入力信号である合成音声と希望出力である
マイクロホン信号とが常に一定の時間差をもって得られ
ることが必要である。すなわちマイクロホン信号中の合
成音成分は、スピーカから出力された合成音とは音響伝
達系の伝播遅延分だけ時間差があり、伝達関数推定の際
はこれが保存されている必要がある。入力信号の合成音
声を計算機内部から直接得る場合には、計算機の負荷の
具合や思わぬ誤動作により、計算機内部に持っている合
成音声が期待したタイミングでスピーカから出力されな
い場合が考えられる。このような場合にも安定に伝達関
数推定を行なうため、図9に示すように2chのA/D
変換器31,32によってマイクロホン信号と合成音声
信号とを得ることにより、一定のタイミングで2つの信
号を得ることが可能である。
【0063】また、伝達関数推定は計算量が多いため、
実時間で計算を終えるためにDSPボードを用いて音声
応答除去部を構成できる。
【0064】図12は合成音声除去装置付きの音声対話
システムの外観である。利用者はマイクロホン23に向
かって音声を入力し、システムの合成音声応答がスピー
カ21から出力される。上記AD変換装置は音声信号の
帯域を考慮して12[kHz]のサンプリング周波数を使
用している。利用者はモニタ22の補助情報を見ながら
対話を進めていくが、合成音除去装置によって合成音声
が打ち消されており、音声認識装置には利用者の音声だ
けが入力されるので、利用者はシステムが応答中でも割
り込んで音声を入力することができる。このとき、マイ
クロホンはスピーカからの合成音声をなるべく拾わない
ように指向性のものを用いても良いが、周囲の壁からの
反射音は残ってしまうため、指向性マイクホンの使用の
みでは合成音声を消すことはできない。又、入力音声の
SN比を良くするためになるべくマイクロホンの近く、
例えばマイクロホンから30cm以内程度の距離で発声す
るのが望ましいが、ユーザの体に反射した合成音がマイ
クロホンに入ってしまうことになる。この大きさはユー
ザとマイクロホンが近いために反射音の中で最もレベル
が大きく、且つ体の動きによって振幅と時間遅れが変化
する。以上のような場合でも適応フィルタによって伝達
関数を更新しているので周囲の壁による反射やユーザの
動き、あるいは他の人々の動きによる伝達関数の変化に
追随することができ効果的に合成音を除去することがで
きる。
【0065】次に、本発明の第4実施例について説明す
る。これは、システムが誤って合成音を検出してしまう
ことを防止する例である。
【0066】図16は該第4実施例の構成を示すブロッ
ク図である。図示のように、この音声対話システムは減
算器4の出力側に音声検出部31が設けられている。
【0067】音声検出部31は、減算器4の出力信号と
背景雑音及び除去されるべき合成音が誤って残ってしま
った信号を基に音声入力があったか否かを判定するもの
であり、図17に示すように、検出しきい値決定部32
と、音声判定部33と、インパルス応答推定部34から
構成されている。
【0068】インパルス応答推定部34は、スピーカ8
とマイクロホン1間のインパルス応答を推定し、これを
検出しきい値決定部32に供給する。
【0069】検出しきい値決定部32は、前記インパル
ス応答とスピーカ8から出力される合成音声を基に、減
算器4の出力が音声入力であるか否かを判定するための
しきい値を決定する。
【0070】音声判定部33は、後述するようにしきい
値を越えた信号の継続時間等に基づいて入力信号が音声
入力であるか否かを判定するものである。
【0071】以下、図18を用いて具体的に説明する。
同図は音声検出に使う検出パラメータの例を表したもの
で、音声の始端をA、終端をBで表してある。予め背景
雑音パワーPoを測定し、これに始端決定用のマージン
Ms、例えば5dBを加えた値を始端検出しきい値P
s、終端決定用マージンMe、例えば3dBを加えた値
を終端検出しきい値Peと定める。また、始端決定用の
音声持続時間Tsを例えば20ms、終端決定用の無音
持続時間Teを例えば200ms、最小音声持続時間T
vを例えば200msと定める。
【0072】そして、入力信号パワーの計算をある時間
間隔、例えば10ms毎に行い、新しい値が得られる度
に検出しきい値との比較を行いながら、例えば図19の
状態遷移図に従って検出状態の遷移を行い、音声検出を
行うことができる。時間はパワー計算時間間隔の倍数で
表すことにし、図19で始端Aから測った時間をns、
終端から測った時間をneとしてある。また、時刻を
i、時刻iにおけるパワーをPiで表してある。また、
矢印は状態の遷移先を示し、矢印の傍らの式は遷移条件
を表している。状態数は6個であり、音声が入力されて
いない状態を表す無音状態(S0)、仮の始端が定まっ
た状態を表す始端仮定状態(S1)、始端が確定した状
態を表す始端確定状態(S2)、音声であることが確定
していることを表す音声確定状態(S3)、仮の終端が
定まった状態を表す終端仮定状態(S4)、音声がまだ
継続していることを表す音声継続状態(S5)、終端が
確定し、音声検出が終了した状態を表す終端確定状態
(S6)がある。
【0073】まず、音声入力がない場合は無音(S0)
の状態にあり、ある時刻is でパワーPiが始端検出し
きい値Psを越えると時刻is を仮の始端と定め、始端
仮定状態(S1)へと遷移する。Psを越えない場合は
無音状態(S0)のままである。
【0074】始端仮定状態(S1)になった時刻からn
sを測りはじめ、パワーが始端検出しきい値Psを越え
たままnsが始端決定用の音声持続時間Ts以上になっ
た場合には時刻is を始端であると定めて始端確定状態
(S2)へと遷移する。時間Tsが経過するまでは始端
仮定状態(S1)でいる。時間がTsに達する前にパワ
ーが始端検出しきい値Psを下回った場合には無音状態
(S0)へと遷移する。次いで、始端確定状態(S2)
においてパワーがPs以上のまま時間nsが最小音声持
続時間Tv以上になった場合には時刻is から現在まで
の入力信号が音声であるとみなし、音声確定状態(S
3)へと遷移する。Tvに達する前にパワーがPsを下
回った場合には無音状態(S0)へと遷移する。
【0075】そして、音声確定状態(S3)においてパ
ワーがPeを下回った場合にはこのときの時刻ie が終
端であると仮定し、終端仮定状態(S4)へと遷移す
る。時刻ie から終端決定用の時間長パラメータneを
測り始める。パワーがPe以上の場合には音声確定状態
(S3)のままである。その後、終端仮定状態(S4)
においてパワーがPeを下回ったままneが終端決定用
の無音持続時間Te以上となった場合には終端が決定し
たものとし、終端決定状態(S6)へ遷移して検出処理
を終了する。Teに達する前にパワーPがPe以上とな
った場合には音声継続状態(S5)へと遷移する。次い
で、音声継続状態(S5)おいてパワーPiがPeを下
回った場合にはこのときの時刻ie ′が終端であると仮
定し、終端仮定状態(S4)へと遷移する。パワーがP
e以上の場合には音声継続状態(S5)のままである。
こうして、音声入力が認識されるのである。
【0076】次に音声応答があるとき、即ち、スピーカ
8からの音声応答が完全に除去されないときの音声検出
の方法について説明する。音声応答が出力されている場
合には合成音の分だけ入力信号レベルが上がるので、検
出しきい値をその分上げておくことによって誤った音声
検出をなくすことができる。高いレベルの合成音が入力
されても検出されないように、安全のためにしきい値の
上げ幅を大きな一定値で不変の値とすると、音声応答が
ない場合の検出性能を低下させることになる。したがっ
て、常に検出性能を高く保つには、応答音声のパワーに
応じて最低限の上げ幅でしきい値を毎時設定することが
望ましい。以下に図20のタイムチャートを使って音声
応答のパワーに応じたしきい値設定方法を説明する。
【0077】まず、音声入力がない状態で、背景雑音パ
ワーPoの測定(ステップST41)、及び、一定時
間、例えば3秒間合成音を出力してスピーカ−マイクロ
ホン間のインパルス応答推定を行う(ステップST4
2)。インパルス応答推定は応答音声除去部2で行って
いるのでその結果を使うことができ、新たに推定部を設
ける必要はない(ステップST43)。次に推定したイ
ンパルス応答に音声応答信号を畳み込んでマイクロホン
信号中の合成音成分とそのパワーPsを求める(ステッ
プST44)。合成音パワーPsと背景雑音パワーPo
との和Pを音声検出のベースレベルPbとおくことによ
って合成音パワーに応じたしきい値設定を行うことがで
きる(ステップST45)。時間i=0以後、パワー計
算は一定時間間隔、例えば10ms毎に行うことにより
計算量を減らすことができ、その際応答音声除去部2で
推定された新しいインパルス応答を使うことによって音
響系の変化にも対応できる。合成音は音声応答除去部2
によって消去されているので、音声応答パワーの推定値
Psはもっと小さい値にすることも可能であるが、音響
系が変化している場合はインパルス応答の推定が音響系
の変化に追随できずに消去率が小さくなることもあるの
でPsをそのまま使うのが安全である。
【0078】次にインパルス応答推定を高精度に行う例
について説明する。適応フィルタの入力である音声信号
は周波数スペクトルが平坦でないため、LMSアルゴリ
ズムによる適応フィルタの収束速度が遅くなることが知
られている。そこで、広帯域雑音を合成音声に付加する
ことによって全周波数のS/Nを上げ、伝達関数の高精
度な推定を行うことができる。その際、応答音声信号パ
ワーに応じて雑音パワーを変化させることにより雑音が
ユーザーにとって耳障りとならないようにすることがで
きる。特に無音部では雑音が気になりやすいので雑音振
幅を0とおくとよい。
【0079】また、付加する雑音はシステムを使用する
場所における環境雑音、例えば駅の人込みの雑音や計算
機室の雑音を録音したものか、または似たような雑音と
すれば一定の振幅で連続して出力しても耳障りでないよ
うにできる。
【0080】また、上述の音声信号による適応フィルタ
駆動時の収束速度の低下は、入力信号のスペクトル平坦
化によっても改善されることが知られている。平坦化の
ためには通常逆フィルタが使われるが、入力の差分信号
をとることによっても低周波成分に偏ったパワーを補正
することができる。差分処理は非常に簡単な処理である
ため計算量も少なく、リアルタイムシステムには都合が
良い。図21は合成音の「いらっしゃい」の「い」の音
の周波数スペクトルで、曲線aは差分処理後、曲線bは
もとのスペクトルを表している。差分処理によって中高
域成分のパワーが低域と同等となり、平坦化しているこ
とが理解される。
【0081】また、図22は「以上でよろしいですか」
という合成音声を入力としたときの伝達関数推定結果で
ある。曲線cは音声応答パワーに対して20dB低いレ
ベルの白色雑音を付加した場合、曲線bは差分処理を使
った場合、dはどちらの処理も行わない場合の推定結果
であるが、雑音付加、差分処理各々により推定精度が向
上することが理解できる。更に、曲線aは雑音付加と差
分処理を併用した場合の実験結果であるが、両処理の併
用により更に推定精度が向上することが理解できる。
【0082】次に合成音キャンセラを使って音声応答を
キャンセルする際の合成音の音量、スピーカとマイクロ
ホンの位置と向きの設定方法に関する例を以下に説明す
る。
【0083】図23は合成音のパワーとキャンセル性能
の関係を示している。図でaは消去されたパワーを、b
は残留パワーを表している。合成音を大きくするほど消
去パワーは大きくなるが残留パワーも大きくなるので、
音声認識に対しては合成音を小さく設定する方が効果的
であることが理解される。また、音声入力用のマイクロ
ホンや出力用のスピーカは指向性を持ち、設定によって
マイクロホンに入力される音声応答のパワーが異なるた
め、キャンセルの効果にも差が出てくる。図24はマイ
クロホンの向きとキャンセル性能の関係を表した図で、
図25に示すような設定でマイクロホンとスピーカのな
す角度φを変化させた結果である。図でbは消去された
パワーを、cは残留パワーを表している。マイクロホン
は広く使用されている単一指向性のもので、感度最小と
なる死角はマイクロホンの握り柄の方向である。マイク
ロホンの頭をスピーカに向けた場合が最も消去パワーが
大きいが、残留パワーも大きくなる。逆に死角をスピー
カに向けた場合が残留パワーが最も小さいため、音声認
識に対して効果的であることが理解される。
【0084】また、図26はマイクロホンとスピーカと
の間の距離とキャンセル性能の関係を表している。図で
aは消去されたパワーを、bは残留パワーを表してい
る。距離を大きくするほど残留パワーも小さくなること
が理解される。
【0085】以上を総合するとマイクロホンに入力され
る合成音をなるべく小さくすることが音声認識に対して
効果的な音響系の設定であることが理解される。したが
って、(1) 出力合成音は対話に差支えない範囲内で可能
な限り小さい音量とする、(2) マイクロホンの死角に入
るようにスピーカを置く、(3) スピーカとマイクロホン
はなるべく距離を離す、ことが効果的な音響系設定であ
る。
【0086】次に、本発明の第5実施例について説明す
る。該第5実施例は、システムからの応答出力中に利用
者が割り込んで入力を行うことへの対処を考慮した音声
対話システムであり、図27に示すように入力認識理解
部41と、対話管理部42と、応答生成出力部43と、
割込制御部44から構成されている。そして、例えば図
28(a)に示す如くの応答中に利用者からの割込み入
力を受けることのできない対話から同図(b),
(c),(d)に示すように、割込み入力の意味を理解
するに必要なキーワードを認識し、あるいは、入力音声
の電力が最小音声持続時間TV 以上続けて始端検出しき
い値PS を越えた場合、割込み入力があったものとして
検出する。この検出に要する時間をTdet とする。そし
て、割込みを受けたら応答を中断する場合(b)、割込
みを受けたら応答をフェードアウトさせる場合(c)、
そして、割込みを受けたら応答の区切りの良いところま
で出力する場合(d)など柔軟な対話を可能とさせる。
【0087】パターン認識理解部41は、利用者からの
入力を検出、認識してその内容を理解するためのもの
で、入力メディアとして音声、キーボード、マウスやタ
ッチパネルなどのポインティングデバイスを利用してい
る。音声入力では、例えばHMMやキーワードスポッテ
ィングなどの方法により発話内容を認識、意味を理解す
る。キーボード入力では文字列解析を行い、ポインティ
ングデバイスでは例えばポイント位置や移動方向、移動
速度情報からその意味を理解する。
【0088】対話管理部42は、パターン認識理解部4
1から得た入力の理解結果から、次に出力すべき応答の
内容を決める。例えば、入力の理解結果とその履歴や入
力の直前のシステムの応答内容から計算機の内部状態が
決まるように対話の流れを状態遷移で表現し、予め決め
ておいた各状態での出力すべき応答内容のテーブルを参
照して、応答内容を決定する。応答内容の例を表1〜表
5に示す。
【0089】
【表1】
【表2】
【表3】
【表4】
【表5】 まず、表1〜表3は「きのう来たメールのリストの表示
ですね。」という応答内容である。表1の例は、応答内
容の中に特に強調すべきポイントのない普通の場合であ
る。表2は、「きのう」であるかどうかを確認するとき
の応答内容の例であり、「きのう」の部分の重要性を高
くしている。表3は、「表示」するかどうかを確認する
ときの応答内容の例であり、「表示ですね」の部分の重
要性を高くしている。表4,5は「ホストpanda から応
答がありません。」という警告のための応答内容であ
り、応答内容の一部の重要性が高い例と応答全体の重要
性が高い例を示している。
【0090】応答生成出力部43は、対話管理部42で
決められた応答内容にしたがい、音声を含む応答メディ
ア、例えば応答内容にしたがった音韻処理、音響パラメ
ータの生成、音声波形の生成の順に処理することによる
合成音声などの聴覚的なメディアを用いた応答の生成、
音声応答と同じ応答文あるいはその要約した内容、ある
いはそのポイントとなる言葉のテキストや応答内容にし
たがい、システムの内部状態などを提示するグラフィク
スなどの視覚的なメディアなどを用いた応答を生成出力
する。対話管理部42から応答内容が渡されると、応答
出力とその出力タイミングを示す応答出力位置情報を決
定し、それにしたがい応答出力を開始する。応答出力位
置情報の例を表6,図29に示す。
【0091】
【表6】 この例では、音声応答だけが記されているが、応用によ
りこの限りではなく、他の聴覚メディア、あるいは視覚
メディアについても同様の出力タイミングを示す応答出
力位置情報を決めることができる。
【0092】この応答出力位置情報は、音声応答の場
合、出力する応答の例えば文、節、句、文節、単語、音
節、あるいはこれら複数からなる意味上のまとまりをな
すシーケンスを合成単位とし、この合成単位とその出力
時間を示すデータを一覧にしたものである。このような
合成単位毎の出力時間の一覧は、発話速度、合成素片の
継続時間長、応答出力開始時刻から容易に作成できる。
この応答出力位置情報により、図29に示すように、応
答出力の途中におけるユーザの割込みがあると、その割
込みのあった時刻を応答出力と対応づけて知ることがで
き、割込制御部44は割込制御情報を出力し、例えば応
答出力を途中で打切ったり、フェードアウトさせたり、
応答生成パラメータを変更することができる。
【0093】また、応答生成出力部43は、音声応答の
生成を、公知の方法、例えば河井恒:“日本語テキスト
からの音声合成システム”東京大学学位論文(昭和63
年12月)に示されている方法により、図30に構成例
を示すように、音声応答の発話速度、韻律、パワーなど
の応答生成パラメータの値を、それぞれ、発話速度決定
部45、韻律決定部46、パワー決定部47において、
応答内容に応じて決定する。応答生成パラメータ値は、
音響パラメータの生成の際に決定する。またパワーの値
は、後述するように、波形生成後に変更することができ
る。例えば、後述するように応答内容の重要性が高けれ
ば、発話速度を緩め、イントネーションの変化幅を大き
く、パワーは大きめにするなどのように決める。イント
ネーションの変化幅は、公知の方法、例えば藤崎、須
藤:“日本語単語アクセントの基本周波数パタンとその
生成機構のモデル”日本音響学会誌,27,9,pp4
45〜453(昭和46年)の方法により容易に制御で
きる。
【0094】更に、応答生成出力部43は、図30の構
成例に示すように、割込制御部44から応答割込制御情
報を受け取ると、それにしたがい出力中の音声を含む応
答を打切るか、出力中の音声応答の発話速度、韻律、パ
ワーを含む応答生成パラメータを変更する。応答を打切
る場合、出力中の合成単位までは出力してそこで出力を
打切る。合成単位が音節の場合、例えば、出力中の音節
や単語や文節の直後の境界まで応答を出力する。前述し
た通り、合成単位はさまざまな場合が考えられ、出力を
打切る場所の選び方はこの限りではない。このような応
答の中断方法は、合成単位を音節、単語、文節、句など
にすることにより、自然に応答出力を打切ることができ
る。規則合成などの場合には、音韻、単語、文節、句な
どの単位でまとめて合成をし、途中で打切る場合は、出
力中の合成単位までで応答が終わるように中断させ、録
音音声を再生する場合は、出力中の音声素片の出力が終
わった時点でそのまま応答を打切ればよい。また、応答
生成パラメータを変更する場合、発話速度決定部45に
おいて発話速度を例えば±30%変化させるとか、韻律
決定部46においてアクセント・フレーズに対応するイ
ントネーションの変化率を±50%変化させるとか、パ
ワー決定部47おいて例えば1秒後に0になるようにフ
ェードアウトさせる減衰曲線を用意しておき、応答出力
波形にたたみこみをする、あるいは音響パラメータ生成
の際に、パワーの時間変化にこの減衰曲線をたたみこむ
などの方法により制御する。この減衰曲線は、打切り
用、フェードアウト用など複数用意しておくことができ
る。また、たたみこみの結果、出力が完全に0になると
ころで、応答出力を完了したものとして次の処理に移
る。なお、これらの変化率の値の例は応用に応じて変わ
りうるもので、必ずしもこの限りではない。
【0095】表7は割込制御情報を示し、図31(a)
は応答打切りなどのときの応答出力、同図(b)は4番
目の出力単位で応答を打切る際の応答出力を示してい
る。また、図32(a)は応答打切制御を示すフローチ
ャートであり、同図(b)は応答内容のn番目の応答の
生成出力を具体的に示すフローチャートである。この例
では、CV音節パラメータを合成素片とする音声合成応
答の生成を示している。応用によりCVC音節パラメー
タを合成素片としたり、録音音声を再生することも可能
であり、応答生成出力の方法はこの限りではない。
【0096】
【表7】 このような制御の流れにおいて応答を打切ったりフェー
ドアウトさせるタイミング、あるいは応答生成パラメー
タ値の変更を始めるタイミングは割込制御情報で指定さ
れる。例えば、発話速度を変える場合には、図33に示
すように割込制御情報で指定されたタイミングから発話
速度を変更する。この例では応答内容の4番目の応答か
ら速度が上昇している。値の変更は、合成単位毎に変化
させてもよいが、指定されたタイミングからなめらかな
目標値に変化させても良い。また、韻律制御の場合は図
34,35に示されており、図34は韻律変化が普通の
場合、図35は応答内容の4番目の応答から変化が大き
くなった例である。録音音声を再生する場合は、韻律の
変化幅を変えた数種類の合成素片を用意しておき、割込
制御情報を受けて、変化幅に応じた素片を選択して再生
を行う。
【0097】また、図36はパワー制御の例を示してお
り、このパワー制御曲線を、パワーのパラメータ値にた
たみこむか、あるいはパワーのパラメータのオフセット
値として利用する。同図(a)は応答内容の4番目応答
からパワーが増加する例、同図(d)は4番目の応答か
らパワーが減少する例、同図(c)は4番目の応答から
フェードアウトする例である。パワーのように時間的に
急激に変化させると本質的にノイズを生じてしまうパラ
メータでは、なめらかな曲線、例えば、臨界制動系のス
テップ応答曲線や、多項式曲線、三角関数による曲線な
どのたたみこみを行う。
【0098】一方、割込制御部44は図37〜図40に
示す各フローチャートの流れにしたがって応答割込制御
情報を出力する。
【0099】図37は未出力応答の長さが少ないときは
割込を許可しない制御を行う例であり、応答出力中には
(ステップST51でYES)未出力応答の長さが基準
値以上であるか否かが判定される(ステップST5
2)。基準値は、合成単位の数やモーラ数、単語数、文
節数などを単位として決めておく。例えば8モーラと
か、3単語とか、合成単位1回分のような値にする。そ
して、基準値以上である場合には(ステップST52で
YES)、すでに必要な情報を出力されていると見な
し、応答打切り等の制御を行う(ステップST53)。
一方、未出力応答の長さが基準以下である場合には(ス
テップST52でNO)、未出力応答をそのまま出力す
る(ステップST54)。その後、次の応答内容を決定
し、応答生成出力を行う(ステップST55)。
【0100】図38は出力中の応答内容が重要ならば応
答を中断せずそのまま出力するよう制御する例であり、
応答出力中には(ステップST61でYES)出力中の
応答内容の重要性を判断する(ステップST62)。そ
して、重要である場合には(ステップST62でN
O)、例えばパワーを減少させたり、発話速度を遅くさ
せる等の制御を行う(ステップST62)。また、出力
中の応答内容が重要である場合には(ステップST62
でYES)、未出力応答を出力する(ステップST6
4)。その後、次の応答内容を決定し応答生成出力を行
う(ステップST68)。前述したように応答内容の重
要性は、応答全体に対しても、あるいは応答の一部であ
る合成単位ごとに対しても判断でき、各場合についての
具体例は後述する。
【0101】図39は割込入力の理解内容の重要性と出
力中の応答内容の重要性を比較して制御する例である。
つまり、話者からの入力内容とスピーカからの応答内容
とを比較して重要な方を優先させようとするものであ
る。
【0102】いま、応答出力中には(ステップST71
でYES)入力理解内容と出力理解内容との重要性の比
較が行われる(ステップST72)。その結果、入力理
解内容の方が重要である場合には(ステップST72で
YES)、応答出力のパワーを減少させたり、発話速度
を遅くすることにより、応答出力を制御する(ステップ
ST74)。また、出力理解内容の方が重要である場合
には(ステップST72でNO)、未入力応答をそのま
ま出力する(ステップST73)。その後、次の応答内
容を決定し、応答生成出力を行う(ステップST7
5)。
【0103】図40は未出力応答中に重要な内容が含ま
れているうちは割込みを行わないよう制御する例であ
る。いま、応答出力中には(ステップST81でYE
S)未出力応答中に重要な内容があるか否がか判定され
る(ステップST82)。そして、重要な内容がある場
合には(ステップST82でYES)、未出力の部分の
応答生成出力を行い(ステップST83)、重要な内容
が出力されるまで繰り返す。そして、重要な内容が出力
されると(ステップST82でNO)、例えば応答打切
り等により応答出力を中断する(ステップST84)。
その後、次の応答内容を決定し、応答生成出力を行う
(ステップST85)。
【0104】また、パターン認識理解部41での理解結
果を利用する場合、表8に例を示すように、その利用者
の割込み発声の内容の重要性を評価する。
【0105】
【表8】 例えば、訂正を意味する発話は相づちよりも高くなるよ
うに、応答の中断を要求する発話には普通の割込み発声
よりも高くなるように入力内容重要性を評価する。例え
ば相づちなど出力中の応答の中断を必要としない割込み
があった場合のように、入力の理解結果内容の重要性の
評価結果が低い場合、出力中の応答はそのまま出力す
る。また、評価結果が普通ないしは重要な場合には、出
力中の応答を中断ないしは応答生成パラメータを変更す
る応答割込制御情報を出力する。例えば、応答の中断を
要求する割込みがあった場合は、応答を中断させるか、
あるいは発話速度を速めたりして応答を早く終了させ
る。なお、表8に示した理解内容、重要性の例はあくま
で一例であり、応用によりこの限りではない。
【0106】応答生成出力部43で出力中の応答内容を
利用する場合、応答内容の重要性と、割込みタイミング
を参照して応答出力の優先度を評価する。この応答出力
の優先度は、表1〜表5に例を示したように、応答の合
成単位毎、あるいは応答内容の全体の重要性を参照し
て、表9〜表12に例を示すように評価する。
【0107】
【表9】
【表10】
【表11】
【表12】 例えば、利用者への警告や緊急性の高いメッセージを利
用者へ伝える応答内容のとき割込みがあった場合、即
ち、応答出力の優先度が高い場合、図38に例を示した
ように、割込み入力を受け付けない。あるいは警告や緊
急性の極めて高い応答内容を出力中に割込みがあった場
合、応答出力の優先度が極めて高い場合、発話速度をゆ
っくり、ピッチ・パワーが高めになるような応答割込制
御情報を出力する。こうすることによってシステムから
の応答に対して割込みを許さない極めて重要な内容であ
ることを伝えることができる。また、ある程度応答出力
の優先度が高いとき割込みがあった場合、発話速度を速
く、ピッチ・パワーが高めになるよう応答割込制御情報
を出力する。一般の警告や緊急性の比較的高いメッセー
ジの出力の場合にこのような応答を出力することによ
り、割込みに対応して直ちに応答は止められないもの
の、できるだけ早く割込みに対処しようとしていること
を伝えることができる。なお、表9に示した応答内容、
重要性はあくまで一例であり、応用によりこの限りでは
ない。
【0108】次に割込入力があった場合の各部の処理を
順を追って説明する。システムからの応答の内容は、表
1〜表5に例を示した応答内容の形で、対話制御部が決
定する。これにしたがい、応答生成出力部は、まず、発
話速度決定部、韻律決定部、パワー決定部で発話速度、
韻律、パワーを求める。発話速度は、通常の応答の場合
には、例えば毎秒7モーラ程度の速度に設定し、韻律は
公知の方法で、例えば、広瀬、藤崎、河井、山口“基本
周波数パターン生成過程モデルに基づく文章音声の合
成”電子情報通信学会論文誌 A,vol.J72−
A,No. 1,pp32〜40(平成元年1月)にある方
法で設定する。この発話速度にしたがい、合成素片の時
間長と応答出力開始時刻から表6に例を示した応答出力
位置情報を生成する。同時に応答を生成し出力を開始す
る。利用者からの割込入力があった場合に、パターン認
識理解部はこの入力を検出し、割込制御部に知らせると
共に、その意味内容を理解する。割込制御部は入力検出
を通知されると、応答出力位置情報と照合して割込入力
タイミングを調べる。割込入力タイミングが応答出力完
了後であれば、割込制御部は応答割込制御情報を出力せ
ず、対話制御部が次の応答内容を決定する。割込み入力
タイミングが応答出力完了の前であった場合、その入力
のパターン認識理解部41での理解結果と応答生成出力
部43で出力中の応答内容のいずれかまたは双方を利用
して応答割込制御情報を出力する。応答割込制御情報は
発話速度決定部、韻律決定部、パワー決定部、応答打切
制御部に送られ、前述のように発話速度を速める、ある
いは応答を打切る、パワーをフェートアウトさせるなど
の制御をする。また、応答割込制御情報にはどのタイミ
ングから応答出力を変更するかの情報も含まれており、
例えば応答内容のうち出力中の次の合成単位から応答出
力を変更する。
【0109】
【発明の効果】以上説明したように、本願第1の発明で
は、ユーザの発話信号に音声応答が重畳されてマイクロ
ホンから入力された場合でも、音声応答が除去され、発
話信号のみが音声認識される。従って、スピーカから音
声応答が出力されている際においても、ユーザからの発
話を認識することができる。その結果、極めて円滑な対
話が可能になるという効果が得られる。また、特にグラ
フィック情報や画像,アニメーション等の視覚データの
表示を行なってユーザと対話するマルチメディアシステ
ムにおいても極めて有効である。また、音声信号のパワ
ーが低減した際に適応化を停止させれば、伝達関数の推
定精度が低下することはなく、常に高い推定精度を維持
することができる。
【0110】また、本願第2の発明では、マイクロホン
からの取込まれた音声応答のパワーに応じて音声入力を
認識する際のしきい値を変化させている。従って、誤入
力を防止することが可能となり高精度な音声認識が可能
となる。
【0111】また、本願第3の発明では、音声応答出力
中に利用者からの割込みがあった場合に、この入力内容
に応じて音声応答出力を継続するか、打切るか、途中ま
で継続するか等の制御を行う。これによって、スピーデ
ィに次の応答に移ることができ、入力内容に応じた高度
な対話が可能となるという効果が得られる。
【図面の簡単な説明】
【図1】本発明が適用された音声対話システムの第1実
施例の構成を示すブロック図である。
【図2】音声応答の除去特性を示す図である。
【図3】第1実施例の動作を示すフローチャートであ
る。
【図4】ステップゲインμ(f)を決定する操作を示す
フローチャートである。
【図5】音声応答のパワーとピッチの時間変化を示すタ
イムチャートである。
【図6】音声応答部の内部構成を示すブロック図であ
る。
【図7】音声応答、及びユーザの発話信号の時間変化を
示すタイムチャートである。
【図8】本発明が適用された音声対話システムの第2実
施例の構成を示すブロック図である。
【図9】本発明の第3実施例の構成を示すブロック図で
ある。
【図10】伝達関数の推定精度を示す特性図である。
【図11】推定精度と音声認識率との関係を示す特性図
である。
【図12】音声対話システムの外観を示す図である。
【図13】各平滑化フィルタの出力パワーを示す図であ
る。
【図14】適応化の停止期間を示す説明図である。
【図15】第3実施例の動作を示すフローチャートであ
る。
【図16】本発明の第4実施例の構成を示すブロック図
である。
【図17】音声検出部の詳細を示すブロック図である。
【図18】音声信号と音声を認識する際のしきい値を示
す説明図である。
【図19】音声を認識する際の状態遷移図である。
【図20】しきい値を変更する動作を示すフローチャー
トである。
【図21】もとのスペクトル及び差分処理後のスペクト
ルを示す特性図である。
【図22】“以上よろしいですか”という合成音声を入
力したときの伝達関数推定結果を示す特性図である。
【図23】合成音のパワーとキャンセル性能との関係を
示す特性図である。
【図24】マイクロホンの向きとキャンセル性能との関
係を示す特性図である。
【図25】マイクロホンとスピーカとの位置関係を示す
説明図である。
【図26】マイクロホンとスピーカとの間の距離と、キ
ャンセル性能との関係を示す特性図である。
【図27】本発明の第5実施例の構成を示すブロック図
である。
【図28】音声応答と音声入力の出力タイミングを示す
タイムチャートである。
【図29】割込発話と応答出力とのタイミングを示すタ
イムチャートである。
【図30】応答生成出力部の詳細な構成を示すブロック
図である。
【図31】応答打切りがある場合とない場合との応答出
力を示すタイムチャートである。
【図32】応答打切制御の流れを示すフローチャートで
ある。
【図33】発話速度を上昇させる例を示すタイムチャー
トである。
【図34】韻律変化が同一であるときの各信号を示すタ
イムチャートである。
【図35】韻律変化が大きくなる際の各信号を示すタイ
ムチャートである。
【図36】パワーを変化させる際のタイムチャートであ
る。
【図37】未出力応答の量が少ないときは割込制御を禁
止する動作を示すフローチャートである。
【図38】出力中の応答内容が重要なときは中断しない
よう制御する際のフローチャートである。
【図39】割込内容及び出力内容の重要度に応じて割込
みを許可するか否かを決める際のフローチャートであ
る。
【図40】未出力応答中に重要な内容が含まれている際
には割込みを禁止するよう制御する際のフローチャート
である。
【符号の説明】
1 マイクロホン 2 音声応答除去部 3 アダプティブフィルタ 3a ルックアップテーブル 4 減算器 5 音声認識部 7 音声応答部 8 スピーカ 10 音声合成部 11 音楽合成部 15 伝達関数更新制御部 31 A/D変換器 32 A/D変換器 33 第1の平滑化フィルタ 34 第2の平滑化フィルタ 35 適応・停止切換部 37 音声検出部 38 検出しきい値決定部 39 音声判定部 40 インパルス応答推定部 41 入力認識理解部 42 対話管理部 43 応答生成出力部 44 割込制御部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 瀬戸 重宣 神奈川県川崎市幸区小向東芝町1 株式会 社東芝総合研究所内 (72)発明者 山下 泰樹 兵庫県神戸市東灘区本山町8−6−26 株 式会社東芝関西システムセンター内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 マイクロホンから入力された音声を認識
    し、この認識結果に基づいて所定の音声応答を出力して
    対話を行なう音声対話システムにおいて、 前記スピーカから出力された音声応答が前記マイクロホ
    ンから入力された際に、この音声応答をキャンセルする
    音声応答除去部を具備することを特徴とする音声対話シ
    ステム。
  2. 【請求項2】 音声入力がない状態での背景雑音パワー
    を求める手段と、合成音声出力時のインパルス応答を基
    にマイクロホン信号中の合成音パワーを求める手段と、
    前記背景雑音パワーと前記合成音パワーとの和を音声を
    認識する際のパワーのしきい値とする手段と、該しきい
    値を基に音声入力があるか否かを判定する手段と、音声
    入力があるときのみ音声認識を行なう手段と、を具備す
    る請求項1記載の音声対話システム。
  3. 【請求項3】 音声、キーボード、ポインティングデバ
    イスのうち少なくとも1つによる利用者からの入力を認
    識するパターン認識理解部と、 この理解結果に基づいて音声応答、画像応答の応答内容
    を決定する対話管理部と、 前記パターン認識理解部による理解結果及び前記対話管
    理部から出力される応答内容に基づいて、利用者からの
    割込みを受付けるか否かを判定する割込制御部と、 該割込制御部からの割込情報及び対話管理部からの応答
    内容に基づいて画像応答や音声応答の発話速度・韻律・
    パワー等の応答生成パラメータを変更して合成音を出力
    する応答生成出力部と、 を有することを特徴とする音声対話システム。
JP21176892A 1992-03-16 1992-08-07 音声認識方法及び音声対話装置 Expired - Lifetime JP3398401B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP21176892A JP3398401B2 (ja) 1992-03-16 1992-08-07 音声認識方法及び音声対話装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP4-58338 1992-03-16
JP5833892 1992-03-16
JP21176892A JP3398401B2 (ja) 1992-03-16 1992-08-07 音声認識方法及び音声対話装置

Publications (2)

Publication Number Publication Date
JPH05323993A true JPH05323993A (ja) 1993-12-07
JP3398401B2 JP3398401B2 (ja) 2003-04-21

Family

ID=13081537

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21176892A Expired - Lifetime JP3398401B2 (ja) 1992-03-16 1992-08-07 音声認識方法及び音声対話装置

Country Status (1)

Country Link
JP (1) JP3398401B2 (ja)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10116177A (ja) * 1996-10-09 1998-05-06 Nippon Telegr & Teleph Corp <Ntt> 出力制御可能型言語生成方法及び装置
JPH1195791A (ja) * 1997-07-31 1999-04-09 Lucent Technol Inc 音声認識方法
JP2000200125A (ja) * 1998-12-30 2000-07-18 Fuji Xerox Co Ltd インタフェ―ス
WO2002061729A1 (fr) * 2001-01-31 2002-08-08 Cai Co., Ltd Procede et systeme pour l'interaction vocale personne/ordinateur
JP2002297186A (ja) * 2001-03-30 2002-10-11 Kddi Corp 音声認識装置
JP2003131692A (ja) * 2001-10-24 2003-05-09 Sharp Corp 対話装置
JP2003208196A (ja) * 2002-01-11 2003-07-25 Matsushita Electric Ind Co Ltd 音声対話方法および装置
JP2003233393A (ja) * 2002-02-13 2003-08-22 Mitsubishi Electric Corp 音声処理装置及び音声処理方法
JP2003241797A (ja) * 2002-02-22 2003-08-29 Fujitsu Ltd 音声対話システム
JP2004085963A (ja) * 2002-08-28 2004-03-18 Alpine Electronics Inc ナビゲーション音声補正装置
JP2004325848A (ja) * 2003-04-25 2004-11-18 Nippon Telegr & Teleph Corp <Ntt> 音声対話制御方法、音声対話制御装置、音声対話制御プログラム
JP2005338454A (ja) * 2004-05-27 2005-12-08 Toshiba Tec Corp 音声対話装置
JP2008003517A (ja) * 2006-06-26 2008-01-10 Nec System Technologies Ltd 音声対話装置、音声対話方法、およびプログラム
JP2008026463A (ja) * 2006-07-19 2008-02-07 Denso Corp 音声対話装置
WO2008126355A1 (ja) * 2007-03-29 2008-10-23 Panasonic Corporation キーワード抽出装置
JP2009053581A (ja) * 2007-08-29 2009-03-12 Oki Electric Ind Co Ltd 音声出力装置
JP2010520513A (ja) * 2007-03-05 2010-06-10 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 定常的な背景雑音の平滑化を制御するための方法及び装置
JP2010164992A (ja) * 2010-03-19 2010-07-29 Toshiba Tec Corp 音声対話装置
JP2011227236A (ja) * 2010-04-19 2011-11-10 Honda Motor Co Ltd 音声対話装置
JP2012128440A (ja) * 2012-02-06 2012-07-05 Denso Corp 音声対話装置
JP2014115377A (ja) * 2012-12-07 2014-06-26 Yamaha Corp 音響処理装置
JP2019053156A (ja) * 2017-09-14 2019-04-04 日本電信電話株式会社 音声処理装置、方法およびプログラム
WO2019138651A1 (ja) * 2018-01-10 2019-07-18 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2020008876A (ja) * 2019-09-24 2020-01-16 株式会社ユピテル システム及びプログラム
JP2020515913A (ja) * 2017-04-10 2020-05-28 北京猟戸星空科技有限公司 音声応答方法、装置及びスマートデバイス
JP2021022928A (ja) * 2019-07-24 2021-02-18 ネイバー コーポレーションNAVER Corporation 人工知能基盤の自動応答方法およびシステム
CN112750442A (zh) * 2020-12-25 2021-05-04 浙江弄潮儿智慧科技有限公司 一种具有小波变换的朱鹮种群生态体系监测系统及其小波变换方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210059367A (ko) 2019-11-15 2021-05-25 삼성전자주식회사 음성 입력 처리 방법 및 이를 지원하는 전자 장치

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10116177A (ja) * 1996-10-09 1998-05-06 Nippon Telegr & Teleph Corp <Ntt> 出力制御可能型言語生成方法及び装置
JPH1195791A (ja) * 1997-07-31 1999-04-09 Lucent Technol Inc 音声認識方法
JP2000200125A (ja) * 1998-12-30 2000-07-18 Fuji Xerox Co Ltd インタフェ―ス
WO2002061729A1 (fr) * 2001-01-31 2002-08-08 Cai Co., Ltd Procede et systeme pour l'interaction vocale personne/ordinateur
JP2002297186A (ja) * 2001-03-30 2002-10-11 Kddi Corp 音声認識装置
JP2003131692A (ja) * 2001-10-24 2003-05-09 Sharp Corp 対話装置
JP2003208196A (ja) * 2002-01-11 2003-07-25 Matsushita Electric Ind Co Ltd 音声対話方法および装置
US7254544B2 (en) 2002-02-13 2007-08-07 Mitsubishi Denki Kabushiki Kaisha Speech processing unit with priority assigning function to output voices
JP2003233393A (ja) * 2002-02-13 2003-08-22 Mitsubishi Electric Corp 音声処理装置及び音声処理方法
JP2003241797A (ja) * 2002-02-22 2003-08-29 Fujitsu Ltd 音声対話システム
JP2004085963A (ja) * 2002-08-28 2004-03-18 Alpine Electronics Inc ナビゲーション音声補正装置
JP2004325848A (ja) * 2003-04-25 2004-11-18 Nippon Telegr & Teleph Corp <Ntt> 音声対話制御方法、音声対話制御装置、音声対話制御プログラム
JP2005338454A (ja) * 2004-05-27 2005-12-08 Toshiba Tec Corp 音声対話装置
JP2008003517A (ja) * 2006-06-26 2008-01-10 Nec System Technologies Ltd 音声対話装置、音声対話方法、およびプログラム
JP4491438B2 (ja) * 2006-06-26 2010-06-30 Necシステムテクノロジー株式会社 音声対話装置、音声対話方法、およびプログラム
JP2008026463A (ja) * 2006-07-19 2008-02-07 Denso Corp 音声対話装置
JP2010520513A (ja) * 2007-03-05 2010-06-10 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 定常的な背景雑音の平滑化を制御するための方法及び装置
WO2008126355A1 (ja) * 2007-03-29 2008-10-23 Panasonic Corporation キーワード抽出装置
JP4838351B2 (ja) * 2007-03-29 2011-12-14 パナソニック株式会社 キーワード抽出装置
US8370145B2 (en) 2007-03-29 2013-02-05 Panasonic Corporation Device for extracting keywords in a conversation
JP2009053581A (ja) * 2007-08-29 2009-03-12 Oki Electric Ind Co Ltd 音声出力装置
JP2010164992A (ja) * 2010-03-19 2010-07-29 Toshiba Tec Corp 音声対話装置
JP2011227236A (ja) * 2010-04-19 2011-11-10 Honda Motor Co Ltd 音声対話装置
JP2012128440A (ja) * 2012-02-06 2012-07-05 Denso Corp 音声対話装置
JP2014115377A (ja) * 2012-12-07 2014-06-26 Yamaha Corp 音響処理装置
JP2020515913A (ja) * 2017-04-10 2020-05-28 北京猟戸星空科技有限公司 音声応答方法、装置及びスマートデバイス
JP2019053156A (ja) * 2017-09-14 2019-04-04 日本電信電話株式会社 音声処理装置、方法およびプログラム
WO2019138651A1 (ja) * 2018-01-10 2019-07-18 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US11373635B2 (en) 2018-01-10 2022-06-28 Sony Corporation Information processing apparatus that fades system utterance in response to interruption
JPWO2019138651A1 (ja) * 2018-01-10 2021-01-14 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2021022928A (ja) * 2019-07-24 2021-02-18 ネイバー コーポレーションNAVER Corporation 人工知能基盤の自動応答方法およびシステム
JP2020008876A (ja) * 2019-09-24 2020-01-16 株式会社ユピテル システム及びプログラム
CN112750442A (zh) * 2020-12-25 2021-05-04 浙江弄潮儿智慧科技有限公司 一种具有小波变换的朱鹮种群生态体系监测系统及其小波变换方法
CN112750442B (zh) * 2020-12-25 2023-08-08 浙江弄潮儿智慧科技有限公司 一种具有小波变换的朱鹮种群生态体系监测系统及其方法

Also Published As

Publication number Publication date
JP3398401B2 (ja) 2003-04-21

Similar Documents

Publication Publication Date Title
JP3398401B2 (ja) 音声認識方法及び音声対話装置
US5548681A (en) Speech dialogue system for realizing improved communication between user and system
JP4567803B2 (ja) 音信号加工方法
US7698133B2 (en) Noise reduction device
US8306815B2 (en) Speech dialog control based on signal pre-processing
JP5381988B2 (ja) 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム
US6643619B1 (en) Method for reducing interference in acoustic signals using an adaptive filtering method involving spectral subtraction
JP4085130B2 (ja) 感情認識装置
US20060247927A1 (en) Controlling an output while receiving a user input
JPH11126090A (ja) 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体
WO2020171868A1 (en) End-to-end speech conversion
JP2012073364A (ja) 音声対話装置、方法、プログラム
JP2004333543A (ja) 音声対話システム及び音声対話方法
JP2005070430A (ja) 音声出力装置および方法
JP3877271B2 (ja) 音声認識用オーディオキャンセル装置
JP4358221B2 (ja) 音信号加工方法及び音信号加工装置
JPH08160994A (ja) 雑音抑圧装置
KR20180127020A (ko) 자연어 대화체 음성 인식 방법 및 장치
JP3376487B2 (ja) 言い淀み検出方法及び装置
WO2010050103A1 (ja) 音声合成装置
JP7139628B2 (ja) 音処理方法および音処理装置
JP4798039B2 (ja) 音声対話装置および方法
Lopes et al. Towards choosing better primes for spoken dialog systems
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP4765394B2 (ja) 音声対話装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080214

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090214

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100214

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100214

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110214

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120214

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120214

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130214

Year of fee payment: 10

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130214

Year of fee payment: 10