JP3285704B2

JP3285704B2 - 音声対話のための音声認識方法及び装置

Info

Publication number: JP3285704B2
Application number: JP13400594A
Authority: JP
Inventors: 眞吾黒岩; 一哉武田; 正樹内藤; 誠一山本
Original assignee: ケイディーディーアイ株式会社
Priority date: 1994-06-16
Filing date: 1994-06-16
Publication date: 2002-05-27
Anticipated expiration: 2017-05-27
Also published as: JPH086590A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声を用いてユーザ（利
用者）との対話を行う音声対話装置に関し、特には、ユ
ーザの発話開始時刻に対する検出精度の向上、並びにユ
ーザの発話に対する音声認識精度の向上に有用なもので
ある。

【０００２】

【従来の技術】音声対話装置では音声を用いて装置側か
らユーザに話しかけることによりシステムアナウンスを
行い、ユーザの発話即ちユーザが発する音声を認識する
ことによりユーザの意思を理解して、ユーザと装置間で
対話を行う。従って、音声認識精度が重要である。

【０００３】図７を参照して、従来の音声対話装置にお
ける音声認識方法及び音声認識装置を説明する。図７に
おいて、音声対話装置は対話管理装置１と、アナウンス
発声装置２と、音声認識装置５０とを具備している。音
声出力回路３及び音声入力回路５は音声対話装置に内蔵
されることもあり、あるいは音声対話装置とは別物で適
宜接続されることもある。後者の例としては電話機の送
受話器があり、電話回線と電話交換機を通して音声対話
装置に接続される。音声認識装置５０は発話検出用の音
声信号通過スイッチ５１と、発話検出用の音響分析部１
３と、発話検出部５２と、音声認識用の音声信号通過ス
イッチ１７と、音声認識用の音響分析部１８と、音声認
識部１９とを具備している。

【０００４】以下、図７に示した音声対話装置の動作と
各部の機能を説明する。

【０００５】（ｉ）アナウンス発声装置２では、対話管
理装置１がコード名等により指定したシステムアナウン
スのテキスト１ａに基づいて、発声すべき音声の電気信
号２ａを作成し、音声出力回路３に送る。また、システ
ムアナウンスの開始を表わすアナウンス開始信号２ｂ、
あるいはシステムアナウンスの終了を表わすアナウンス
終了信号２ｃを音声認識装置５０の発話検出用音声信号
通過スイッチ５１に送る。音声出力回路３は電気信号２
ａを音声に変換して、システムアナウンス３ａをユーザ
に聞かせる。このシステムアナウンス３ａに対するユー
ザの発話４を音声入力回路５が受け取り、電気的音声信
号５ａに変換して音声認識装置５０の発話検出用及び音
声認識用の各音声信号通過スイッチ５１，１７に送る。

【０００６】（ii）音声認識装置５０では、システムア
ナウンス中のユーザの割り込み発話を受け付ける場合は
アナウンス開始信号２ｂを与えられた時からアナウンス
終了信号２ｃを与えられた後の一定時間まで音声信号通
過スイッチ５１が閉（オン）となり、またシステムアナ
ウンス中のユーザの割込み発話を受け付けない場合はア
ナウンス終了信号２ｃを与えられた時から一定時間だけ
音声信号通過スイッチ５１が閉（オン）となる。この音
声信号通過スイッチ５１が閉じている間に送られた音声
信号を発話検出対象の信号５１ａとして発話検出用の音
響分析部１３に送る。

【０００７】(iii）この音響分析部１３では、音声信号
通過スイッチ５１を通過した音声信号５１ａから、パワ
ースペクトラムなどユーザの発話検出に適した特徴パラ
メータ１３ａを算出して発話検出部５２に送る。発話検
出部５２では、特徴パラメータ１３ａに基づき、ユーザ
の発話開始時刻と発話終了時刻とを各一点決定し、その
間を指定する信号５２ａを音声認識用の音声信号通過ス
イッチ１７に送る。

【０００８】（iv）音声信号通過スイッチ１７は発話検
出部５２からの信号５２ａにより指定された間のみ閉
（オン）となり、閉じている間に送られてきた音声信号
を音声認識対象の信号１７ａとして音声認識用の音響分
析部１８に送る。この音響分析部１８では、音声信号通
過スイッチ１７を通過した音声信号１７ａから、音声認
識に適した特徴パラメータ１８ａを算出し、音声認識部
１９に送る。音声認識部１９では、特徴パラメータ１８
ａに基づいて音声認識を行い、その認識結果１９ａを対
話管理装置１に送る。

【０００９】（ｖ）対話管理装置１では、音声認識部１
９から与えられる認識結果１９ａに基づいて、次に発声
すべきシステムアナウンスのテキスト１ａを決定してア
ナウンス発声装置２にコード名等を送る。

【００１０】以上の動作を繰り返すことにより、人間と
装置間で音声を用いた対話が行われる。なお対話管理装
置１は、必要があれば、対話内容からユーザの意思を認
識してその情報１ｂを外部に出力する。

【００１１】

【発明が解決しようとする課題】音声対話装置では音声
認識の精度が重要であるが、上述した従来技術をユーザ
の割り込み発話を受け付けるように利用した場合には、
下記（ａ），（ｂ）のような改善すべき点がある。

【００１２】（ａ）発話検出部５２ではパワースペクト
ラムなどの特徴パラメータ１３ａのみを用いてユーザの
発話検出を行っているため、発話開始時刻の検出精度が
良くない。更に、システムアナウンス中にユーザが意味
のない発声（冗長語）や咳をしてしまうと、その時点を
ユーザの発話開始時刻として誤って検出する可能性が高
い。その結果、意味のない発声や咳をも認識対象に含ん
で音声認識を行うことになり、音声認識精度が低下す
る。

【００１３】（ｂ）更に、発話検出部５２ではユーザの
発話開始時刻を一点のみに決定しているため、発話開始
時刻の検出に誤りが生じた場合には、音声認識部１９で
は回復できない誤りとなって音声認識の精度が低下す
る、という決定的な誤りの伝搬が生じる。

【００１４】そこで本発明は、ユーザの発話開始時刻の
検出精度を向上させることにより高精度な音声認識を行
うことができる音声認識方法及び装置を提供することを
目的とし、更に、ユーザの発話開始時刻の検出に誤りが
あってもこれの影響を減らして高精度な音声認識を行う
ことができる音声認識方法及び装置を提供することを他
の目的とする。

【００１５】

【課題を解決するための手段】上記目的を達成する第１
の発明は、音声を用いてユーザとの対話を行う音声対話
装置に適用される音声認識方法において：前記音声対話
装置のシステムアナウンスに対するユーザの発話開始時
刻の極大点を有する予測分布を予め用意しておき、この
予測分布に基づき、ユーザの発話が開始される期待値を
第１の発話開始点らしさとしてシステムアナウンス開始
後の時刻に応じて算出すること；電気信号に変換された
ユーザの発話を音響分析して発話検出用の特徴パラメー
タを算出し、この特徴パラメータに基づき、ユーザの発
話が開始されたであろう尤度を第２の発話開始点らしさ
として時刻に応じて算出すること；第２の発話開始点ら
しさに対して第１の発話開始点らしさにより重み付けを
行い、この重み付けで得た第３の発話開始点らしさを基
準値と比較し、基準値より大きくなった時点をユーザの
発話開始時刻であると決定すること；電気信号に変換さ
れたユーザの発話を音響分析して音声認識用の特徴パラ
メータを算出し、この特徴パラメータに基づき音声認識
を行う処理を、前記ユーザの発話開始時刻の決定に従っ
て行うこと；を特徴とする音声認識方法である。

【００１６】また第２の発明は音声を用いてユーザとの
対話を行う音声対話装置に適用される音声認識方法にお
いて：前記音声対話装置のシステムアナウンスに対する
ユーザの発話開始時刻の極大点を有する予測分布を予め
用意しておき、この予測分布に基づき、ユーザの発話が
開始される期待値を第１の発話開始点らしさとしてシス
テムアナウンス開始後の時刻に応じて算出すること；電
気信号に変換されたユーザの発話を音響分析して発話検
出用の特徴パラメータを算出し、この特徴パラメータに
基づき、ユーザの発話が開始されたであろう尤度を第２
の発話開始点らしさとして時刻に応じて算出すること；
第１の発話開始点らしさにより第１の基準値を重み付け
して時間に応じて変化する第２の基準値を算出し、第２
の発話開始点らしさをこの第２の基準値と比較し、第２
の基準値より大きくなった時点をユーザの発話開始時刻
であると決定すること；電気信号に変換されたユーザの
発話を音響分析して音声認識用の特徴パラメータを算出
し、この特徴パラメータに基づき音声認識を行う処理
を、前記ユーザの発話開始時刻の決定に従って行うこ
と；を特徴とする音声認識方法である。

【００１７】第３の発明は、音声を用いてユーザとの対
話を行う音声対話装置に適用される音声認識方法におい
て：前記音声対話装置のシステムアナウンスに対するユ
ーザの発話開始時刻の極大点を有する予測分布を予め用
意しておき、この予測分布に基づき、ユーザの発話が開
始される期待値を第１の発話開始点らしさとしてシステ
ムアナウンス開始後の時刻に応じて算出すること；電気
信号に変換されたユーザの発話を音響分析して発話検出
用の特徴パラメータを算出し、この特徴パラメータに基
づき、ユーザの発話が開始されたであろう尤度を第２の
発話開始点らしさとして時刻に応じて算出すること；第
２の発話開始点らしさに対して第１の発話開始点らしさ
により重み付けを行い、第３の発話開始点らしさを算出
すること；電気信号に変換されたユーザの発話を音響分
析して音声認識用の特徴パラメータを算出し、この特徴
パラメータに基づき、認識開始時刻を次々にずらして音
声認識を行い、且つ、各認識開始時刻に対応した音声認
識結果毎の尤度を算出すること；各認識開始時刻毎の音
声認識結果の尤度と、前記重み付けで得た第３の発話開
始点らしさとの和または積を時刻を合わせて算出し、こ
の算出した値が最大となる認識開始時刻に対応した音声
認識結果を、ユーザの発話に対する音声認識結果と判定
すること；を特徴とする音声認識方法である。

【００１８】第４の発明は、音声を用いてユーザとの対
話を行う音声対話装置に適用される音声認識方法におい
て：前記音声対話装置のシステムアナウンスに対するユ
ーザの発話開始時刻の極大点を有する予測分布を予め用
意しておき、この予測分布に基づき、ユーザの発話が開
始される期待値を第１の発話開始点らしさとしてシステ
ムアナウンス開始後の時刻に応じて算出すること；電気
信号に変換されたユーザの発話を音響分析して発話検出
用の特徴パラメータを算出し、この特徴パラメータに基
づき、ユーザの発話が開始されたであろう尤度を第２の
発話開始点らしさとして時刻に応じて算出すること；第
２の発話開始点らしさに対して第１の発話開始点らしさ
により重み付けを行い、第３の発話開始点らしさを算出
すること；電気信号に変換されたユーザの発話を音響分
析して音声認識用の特徴パラメータを算出し、この特徴
パラメータに基づき、先頭に無音状態を有する確率付き
有限状態ネットワークを探索して音声認識を行うこと；
前記確率付き有限状態ネットワークの先頭の無音状態か
ら文の先頭状態へ遷移する確率を、前記重み付けで得た
第３の発話開始点らしさを用いて時刻に応じて更新する
こと；を特徴とする音声認識方法である。

【００１９】そして第５の発明は、第１ないし第４の発
明において、前記ユーザの発話開始時刻の予測分布の極
大点がシステムアナウンスの無音区間に存在することを
特徴とし、第６の発明は更に前記無音区間はその長さが
０．２秒以上３秒以下であり、システムアナウンスの文
と文の間及び文節と文節との間のうち少なくとも一方に
存在することを特徴とする。

【００２０】次に、第７の発明は、音声を用いてユーザ
との対話を行う音声対話装置に適用される音声認識装置
において；前記音声対話装置のシステムアナウンスに対
するユーザの発話開始時刻の極大点を有する予測分布を
格納する第１手段と；前記格納された予測分布に基づ
き、ユーザの発話が開始される期待値を第１の発話開始
点らしさとしてシステムアナウンス開始後の時刻に応じ
て算出する第２手段と；電気信号に変換されたユーザの
発話を音響分析し、発話検出用の特徴パラメータを算出
する第３手段と；前記発話検出用の特徴パラメータに基
づき、ユーザの発話が開始されたであろう尤度を第２の
発話開始点らしさとして時刻に応じて算出する第４手段
と；第２の発話開始点らしさに対して第１の発話開始点
らしさにより重み付けを行い、この重み付けされた値を
第３の発話開始点らしさとして時刻に応じて算出する第
５手段と；第３の発話開始点らしさを基準値と比較し、
この基準値より大きくなった時点をユーザの発話開始時
刻であると決定する第６手段と；電気信号に変換された
ユーザの発話を音響分析して音声認識用の特徴パラメー
タを算出し、この特徴パラメータに基づき音声認識を行
う処理を、前記ユーザの発話開始時刻の決定に従って行
う第７手段と；を具備することを特徴とする音声認識装
置である。

【００２１】第８の発明は、音声を用いてユーザとの対
話を行う音声対話装置に適用される音声認識装置におい
て；前記音声対話装置のシステムアナウンスに対するユ
ーザの発話開始時刻の極大点を有する予測分布を格納す
る第１手段と；前記格納された予測分布に基づき、ユー
ザの発話が開始される期待値を第１の発話開始点らしさ
としてシステムアナウンス開始後の時刻に応じて算出す
る第２手段と；電気信号に変換されたユーザの発話を音
響分析し、発話検出用の特徴パラメータを算出する第３
手段と；前記発話検出用の特徴パラメータに基づき、ユ
ーザの発話が開始されたであろう尤度を第２の発話開始
点らしさとして時刻に応じて算出する第４手段と；第１
の基準値に対して第１の発話開始点らしさにより重み付
けを行い、この重み付けされた値を第２の基準値として
時刻に応じて算出する第５手段と；第２の発話開始点ら
しさを前記重み付けで得た第２の基準値と比較し、この
第２の基準値より大きくなった時点をユーザの発話開始
時刻であると決定する第６手段と；電気信号に変換され
たユーザの発話を音響分析して音声認識用の特徴パラメ
ータを算出し、この特徴パラメータに基づき音声認識を
行う処理を、前記ユーザの発話開始時刻の決定に従って
行う第７手段と；を具備することを特徴とする音声認識
装置である。

【００２２】そして第９の発明は、第７または第８の発
明における第７手段が、電気信号に変換されたユーザの
発話を、ユーザの発話開始時刻であると決定された時点
から通過させるスイッチ手段と；このスイッチ手段を通
過したユーザの発話を音響分析して音声認識用の特徴パ
ラメータを算出する音声認識用の音響分析手段と；この
音響分析手段により算出された音声認識用の特徴パラメ
ータに基づいて音声認識を行う音声認識手段と；を具備
することを特徴とする。また第１０の発明は第７または
第８の発明における第７手段が、ユーザの発話開始時刻
であると決定された時点から、電気信号に変換されたユ
ーザの発話の音響分析を開始して音声認識用の特徴パラ
メータを算出する音声認識用の音響分析手段と；この音
響分析手段により算出された音声認識用の特徴パラメー
タに基づいて音声認識を行う音声認識手段と；を具備す
ることを特徴とする。更に第１１の発明は第７または第
８の発明における第７手段が、電気信号に変換されたユ
ーザの発話を音響分析して音声認識用の特徴パラメータ
を算出する音声認識用の音響分析手段と；この音響分析
手段で算出された音声認識用の特徴パラメータのうち、
ユーザの発話開始時刻であると決定された時点以降の特
徴パラメータに基づいて音声認識を行う音声認識手段
と；を具備することを特徴とする。

【００２３】次に第１２の発明は、音声を用いてユーザ
との対話を行う音声対話装置に適用される音声認識装置
において；前記音声対話装置のシステムアナウンスに対
するユーザの発話開始時刻の極大点を有する予測分布を
格納する予測分布格納手段と；前記格納された予測分布
に基づき、ユーザの発話が開始される期待値を第１の発
話開始点らしさとしてシステムアナウンス開始後の時刻
に応じて算出する第１の演算手段と；電気信号に変換さ
れたユーザの発話を音響分析し、発話検出用の特徴パラ
メータを算出する発話検出用の音声分析手段と；前記発
話検出用の特徴パラメータに基づき、ユーザの発話が開
始されたであろう尤度を第２の発話開始点らしさとして
時刻に応じて算出する第２の演算手段と；第２の発話開
始点らしさに対して第１の発話開始点らしさにより重み
付けを行い、この重み付けされた値を第３の発話開始点
らしさとして時刻に応じて算出する第３の演算手段と；
前記電気信号に変換されたユーザの発話を音響分析し、
音声認識用の特徴パラメータを算出する音声認識用の音
響分析手段と；前記音声認識用の特徴パラメータに基づ
き、認識開始時刻を次々にずらして音声認識を行い、且
つ、各認識開始時刻に対応した音声認識結果毎の尤度を
算出する音声認識手段と；各認識開始時刻毎の音声認識
結果の尤度と、第３の発話開始点らしさとの和または積
を時刻に合せて算出し、この算出した値が最大となる認
識開始時刻に対応した音声認識結果を、ユーザの発話に
対する音声認識結果と判定する音声認識結果判定手段
と；を具備することを特徴とする音声認識装置である。

【００２４】第１３の発明は、音声を用いてユーザとの
対話を行う音声対話装置に適用される音声認識装置にお
いて；前記音声対話装置のシステムアナウンスに対する
ユーザの発話開始時刻の極大点を有する予測分布を格納
する予測分布格納手段と；前記格納された予測分布に基
づき、ユーザの発話が開始される期待値を第１の発話開
始点らしさとしてシステムアナウンス開始後の時刻に応
じて算出する第１の演算手段と；電気信号に変換された
ユーザの発話を音響分析し、発話検出用の特徴パラメー
タを算出する発話検出用の音響分析手段と；前記発話検
出用の特徴パラメータに基づき、ユーザの発話が開始さ
れたであろう尤度を第２の発話開始点らしさとして時刻
に応じて算出する第２の演算手段と；第２の発話開始点
らしさに対して第１の発話開始点らしさにより重み付け
を行い、この重み付けされた値を第３の発話開始点らし
さとして時刻に応じて算出する第３の演算手段と；前記
電気信号に変換されたユーザの発話を音響分析し、音声
認識用の特徴パラメータを算出する音声認識用の音響分
析手段と；前記音声認識用の特徴パラメータに基づき、
先頭に無音状態を有する確率付き有限状態ネットワーク
を探索して音声認識を行う音声認識手段と；前記確率付
き有限状態ネットワークの先頭の無音状態から文の先頭
状態へ遷移する確率を、第３の発話開始点らしさを用い
て時刻に応じて更新する遷移確率更新手段と；を具備す
ることを特徴とする音声認識装置である。

【００２５】そして第１４の発明は、第７ないし第１３
の発明において、前記ユーザの発話開始時刻の予測分布
の極大点がシステムアナウンスの無音区間に存在するこ
とを特徴とし、第１５の発明は更に前記無音区間はその
長さが０．２秒以上３秒以下であり、システムアナウン
スの文と文の間及び文節と文節との間のうち少なくとも
一方に存在することを特徴とする。

【００２６】次に第１６の発明は、第７ないし第１５の
発明の音声認識装置と、システムアナウンスの指定され
たテキストを電気的音声信号に変換すると共にシステム
アナウンスの開始を前記音声認識装置に通知するアナウ
ンス発声装置と、このアナウンス発声装置に対するシス
テムアナウンスのテキストの指定及び前記音声認識装置
からの音声認識結果の入力により音声を用いたユーザと
の対話を管理する対話管理装置とを具備することを特徴
とする音声対話装置である。

【００２７】

【作用】第１，第２及び第７〜第１１の発明では、音響
分析で得た発話検出用の特徴パラメータからユーザの発
話が開始されたであろう尤度（第２の発話開始点らし
さ）を求めて発話開始時刻を決定する際に、予測分布か
ら得た第１の発話開始点らしさで第２の発話開始点らし
さ又は基準値に対して重み付けを行う。これにより、ユ
ーザの発話開始時刻を高精度に一点決定することがで
き、音声認識の精度が向上する。またユーザの発話開始
時刻を高精度に一点決定することができることから、シ
ステムアナウンス中のユーザの割り込み発話を高精度に
音声認識することができ、音声対話装置の利用時間の短
縮が可能となる。

【００２８】第３，第４，第１２及び第１３の発明では
ユーザの発話開始時刻を一点に決定することなく、高精
度な音声認識を可能とする。

【００２９】まず第３及び第１２の発明では、音声認識
をその開始時刻を次々にずらして多数行い、各認識開始
時刻に対応した音声認識結果毎の尤度を求め、この尤度
と第１の発話開始点らしさで第２の発話開始点らしさに
重み付けして得た第３の発話開始点らしさとから、最適
な音声認識結果を判定する。これにより、高精度な音声
認識を行うことができる。なお、第３の発話開始点らし
さが所定レベルを超えた時刻から音声認識を開始するこ
とも可能であり、これにより音声認識の処理量が低減す
る。第３及び第１２の発明ではユーザの発話開始時刻を
高精度に一点決定することができなくても、結果的に音
声認識の精度が向上する。

【００３０】次に第４及び第１３の発明では、先頭に無
音状態を有する確率付き有限状態ネットワークを探索す
ることにより音声認識を行うものとする。その際に、先
頭の無音状態から文の先頭状態へ遷移する確率を、第１
の発話開始点らしさで第２の発話開始点らしさを重み付
けして得た第３の発話開始点らしさを用いて変化させ
る。従って、実質的な音声認識は発話開始が不確かな間
は行われず、最も確からしい発話開始時刻になってから
開始されることになり、高精度な音声認識を行うことが
できる。第４及び第１３の発明では、ユーザの発話開始
時刻を高精度に一点決定することができなくても結果的
に音声認識の精度が向上し、更に第３及び第１２の発明
に比べると、音声認識を開始時間を次々にずらして並列
的に行う必要がないから、高速な処理が可能となり、ま
たメモリ容量を削減することができる。

【００３１】第５，第６，第１４及び第１５の発明で
は、より信頼性が高いユーザの発話が開始される期待値
を求めるための予測分布を得る。発明者等は、システム
アナウンスとユーザの発話開始時刻との間にどのような
因果関係があるかを調べた。これは、特徴的な因果関係
があれば、これを利用することによりユーザの発話開始
時刻を精度良く検出することができると考えたからであ
る。

【００３２】具体的には、多数のユーザに音声対話装置
を利用してもらい、システムアナウンスの開始後にユー
ザが発話を開始する場合のその時刻と頻度とを調べると
いう実験を行った。その結果、ユーザの発話開始時刻が
極大点を持つ分布をすることが判った。特に、システム
アナウンスに割り込んでユーザが発話する場合は、第５
及び第１４の発明のように発話開始時刻がシステムアナ
ウンスの無音区間を中心に分布することが判り、更に第
６及び第１５の発明のように文と文の間あるいは文節と
文節との間に積極的に一定の無音区間を設けると、分布
の山が急峻になり、この傾向は無音区間を好ましくは
０．２秒〜３秒（より好ましくは０．４〜１．５秒）と
すると顕著であることが判った。また、システムアナウ
ンス終了後にユーザが発話を開始する場合も、システム
アナウンス終了直後を中心に発話開始時刻が特定の分布
をすることが判った。なお、無音区間とは音が全く存在
しない場合だけでなく、例えばチャイムやバックグラン
ドミュージックが流れている場合などでも、システムア
ナウンスにとって実質的に無音状態といえる場合は無音
区間である。無音区間はユーザの発話開始を促すように
制御する。

【００３３】そこで、このような実験に基づき図２に示
すようなシステムアナウンスに対するユーザの発話開始
時刻の極大点を有する予測分布１００を予め作成して用
意するか、或いは、実験によらずとも無音区間もしくは
その前後に極大点を持つように正規分布、ポアソン分
布、カイ２乗分布等の確率分布を用いてシステムアナウ
ンスに対するユーザの発話開始時刻の極大点を有する予
測分布を予め用意しておくことより、システムアナウン
ス開始後の時に応じてユーザの発話が開始されるであろ
う期待値（第１の発話開始点らしさ）を求めることがで
きる。

【００３４】第１６の発明では、高精度な音声認識の下
で、ユーザと装置間で対話を行うことができる。

【００３５】

【実施例】以下、図面を参照して発明の実施例を説明す
る。図面中、図１には第１実施例に係る音声対話装置の
ブロック構成が示されている。図２にはシステムアナウ
ンスに対するユーザの発話開始時刻の予測分布を実験に
より観測して得た例が示されている。また、図３には第
２実施例に係る音声対話装置のブロック構成が示され、
図４には第３実施例に係る音声対話装置のブロック構成
が示され、図５には第４実施例に係る音声対話装置のブ
ロック構成が示されている。図６には先頭に無音状態を
有する確率付き有限状態ネットワークの一例が示されて
いる。

【００３６】＜第１実施例＞図１に示されるように、第
１実施例に係る音声対話装置は、対話管理装置１と、ア
ナウンス発声装置２と、音声認識装置１０とを具備した
ものであり、音声出力装置３及び音声入力装置５は必要
に応じて音声対話装置に内蔵されたり、あるいは音声対
話装置とは離れた別物で適宜接続されたりする。音声対
話装置が内線電話受付システムに用いられる場合は、電
話機の送受話器が音声出力回路３と音声入力回路５に相
当し、電話回線及び電話交換機を通して音声対話装置に
接続される。音声認識装置１０は予測分布格納部１１
と、第１の発話開始点らしさの演算部１２と、発話検出
用の音響分析部１３と、第２の発話開始点らしさの演算
部１４と、第３の発話開始点らしさの演算部１５と、発
話開始時刻決定部１６と、音声認識用の音声信号通過ス
イッチ１７と、音声認識用の音響分析部１８と、音声認
識部１９とを具備している。

【００３７】アナウンス発声装置２は、対話管理装置１
がコード名等により指定したシステムアナウンスのテキ
スト１ａに基づいて、発声すべき音声の電気信号２ａを
作成し、音声出力回路３に送る。この時、アナウンス発
声装置２は図２に示すように、システムアナウンスの文
と文の間、または文節と文節との間に一定の無音区間２
００を設けて、音声の電気信号２ａを作成する。本実施
例においては無音区間２００の長さを０．５秒程度とし
てあるが、一般には０．２秒以上３秒以下が妥当であ
り、より好ましくは０．４秒以上１．５秒以下とする。
無音区間が長すぎると、ユーザに不安感を与える。無音
区間とは信号が全く存在しない場合だけでなく、例えば
チャイムやバックグラウンドミュージックが流れている
場合などでもシステムアナウンスにとって実質的な無音
状態であれば無音区間となる。また、アナウンス発声装
置２はシステムアナウンスの開始を表わすアナウンス開
始信号２ｂを音声認識装置１０に送る。なお、システム
アナウンスの開始とはユーザに対して音声が出始める時
点そのものだけを言うのではなく、音声の出始めよりも
一定時間前をもってシステムアナウンスの開始としても
良い。

【００３８】音声出力回路３はアナウンス発声装置２か
ら送られてきた電気信号２ａを音声に変換して、システ
ムアナウンス３ａとしてユーザに聞かせる。このシステ
ムアナウンス３ａに対してユーザの発話４があるので、
この発話４を音声入力回路５が電気信号５ａに変換して
音声認識装置１０に送る。

【００３９】音声認識装置１０では、予測分布格納部１
１に図２に示すようなシステムアナウンスに対するユー
ザの発話開始時刻の予測分布１００を格納してある。こ
の予測分布１００は、予め５００名程度のユーザに内線
電話受付システムの音声対話装置を利用させて同装置か
ら文と文の間に０．５秒程度の無音区間２００を設けた
システムアナウンスを発声させた場合の各ユーザの発話
開始時刻の分布を観測した実験結果から作成したもので
ある。図２中で、横軸はシステムアナウンスの開始を時
刻０とした場合の時刻ｔをとり、縦軸は各時刻ｔでユー
ザの発話が開始される期待値を表わしており、各無音区
間２００に分布の極大点がある。なお、実験によらずと
も、無音区間もしくはその前後に極大点を持つ正規分
布、ポアソン分布あるいはカイ２重分布などの確率分布
を用いることにより、システムアナウンスの開始を時刻
０とした場合の各時刻ｔにおいてユーザの発話が開始さ
れる期待値の分布を作成して、システムアナウンスに対
するユーザの発話開始時刻の極大点を有する予測分布と
しても良い。

【００４０】演算部１２はアナウンス発声装置２よりア
ナウンス開始信号２ｂを受けた時点から時間ｔに応じ
て、予測分布格納部１１の予測分布に基づいて、第１の
発話開始点らしさとして、時刻ｔでユーザの発話が開始
されるであろう期待値ａ（ｔ）を算出し、演算部１５に
送る。

【００４１】発話検出用の音響分析部１３は音声入力回
路５から与えられる電気的音声信号５ａを入力して常時
音響分布を行い、発話検出用の特徴パラメータ１３ａを
次々に算出して演算部１４に送る。

【００４２】演算部１４は発話検出用の特徴パラメータ
１３ａに基づいて、第２の発話開始点らしさとして、ユ
ーザの発話が開始されたであろう尤度ｂ（ｔ）を時間ｔ
に応じて算出し、演算部１５に送る。但し、システムア
ナウンスの開始を時刻０とする。

【００４３】演算部１５は第１の発話開始点らしさａ
（ｔ）により第２の発話開始点らしさｂ（ｔ）に重み付
けを行い、第３の発話開始点らしさα（ｔ）を算出し、
発話開始時刻決定部１６に送る。ここで、重み付けの例
として式（１）〜式（３）をあげておく。但し、式
（２）中、０＜ｋ₁＜１である。

【数１】 α（ｔ）＝ａ（ｔ）＋ｂ（ｔ） …式（１） α（ｔ）＝ｋ₁・ａ（ｔ）＋（１−ｋ₁）・ｂ（ｔ） …式（２） α（ｔ）＝ａ（ｔ）・ｂ（ｔ） …式（３）

【００４４】発話開始時刻決定部１６は第３の発話開始
点らしさα（ｔ）と予め固定した基準値Ｒ_efとを比較
し、最初にα（ｔ）＞Ｒ_efとなった時点、もしくはα
（ｔ）＞Ｒ_efが或る一定時間続いたら最初にα（ｔ）＞
Ｒ_efとなった時点をユーザの発話開始時刻と決定して、
その旨を表わす発話開始信号１６ａを音声認識用の音声
信号通過スイッチ１７に送る。

【００４５】このスイッチ１７は発話開始時刻１６ａを
与えられた時点からオンとなり、音声信号５ａを通過さ
せ、音声認識対象の信号１７ａとして音声認識用の音響
分析部１８に送る。

【００４６】音響分析部１８ではスイッチ１７を通過し
た音声信号１７ａを音響分析して音声認識用の特徴パラ
メータ１８ａを次々に算出し、音声認識部１９に送る。

【００４７】音声認識部１９では音声認識用の特徴パラ
メータ１８ａに基づいて音声認識を行う。その認識結果
１９ａは対話管理装置１に送られる。

【００４８】対話管理装置１では認識結果１９ａに基づ
いて、次に発声すべきシステムアナウンスのテキスト１
ａを決定し、アナウンス発声装置２にコード名等を送
る。また、ユーザとの対話内容からユーザの意思を認識
して、例えば内線電話受付システムであれば内線番号の
情報１ｂを外部に出力する。各装置１，２，１０が上述
した動作を繰り返すことにより対話が行われる。

【００４９】上述した第１実施例の説明ではスイッチ１
７を用いて音声認識対象の信号１７ａのみを音響分析部
１８に与えているが、スイッチ１７を用いずに次のよう
に変更しても良い。（１）音声入力回路５からの音声信号５ａを常時音響分
析部１８に送り、且つ発話開始時刻決定部１６から発話
開始信号１６ａを音響分析部１８に送るものとし、音響
分析部１８は発話開始信号１６ａを与えられた時点から
音響分析を開始する。（２）あるいは、音声入力回路５からの音声信号５ａを
常時音響分析部１８に送り、且つ音響分析部１８は常時
音響分析を行って特徴パラメータ１８ａを音声認識部１
９に送り、更に発話開始時刻決定部１６から発話開始信
号１６ａを音声認識部１９に送るものとし、音声認識部
１９は発話開始信号１６ａを与えられた時点からの特徴
パラメータ１８ａを用いて音声認識を開始する。

【００５０】＜第２実施例＞図３に示されるように、第
２実施例に係る音声対話装置は、対話管理装置１と、ア
ナウンス発声装置２と、音声認識装置２０とを具備した
ものであり、音声出力装置３及び音声入力装置５は必要
に応じて音声対話装置に内蔵されたり、あるいは音声対
話装置とは離れた別物で適宜接続されたりする。音声認
識装置２０は予測分布格納部１１と、第１の発話開始点
らしさの演算部１２と、発話検出用の音響分析部１３
と、第２の発話開始点らしさの演算部１４と、基準値演
算部２１と、発話開始時刻決定部２２と、音声認識用の
音声信号通過スイッチ１７と、音声認識用の音響分析部
１８と、音声認識部１９とを具備している。これら各装
置のうち、演算部１２及び１４と、基準値演算部２１及
び発話開始時刻決定部２２とが図１に示した第１実施例
と異なり、他のもの１，２，３，５，１１，１３及び１
７〜１９は第１実施例における同符号のものと同機能で
あるから説明を簡単にする。

【００５１】演算部１２は予測分布格納部１１に格納さ
れている図２に示すような予測分布に基づいて時刻ｔに
応じて算出した第１の発話開始点らしさａ（ｔ）を、基
準値演算部２１に送る。演算部１４は音響分析部１３か
らの発話検出用の特徴パラメータ１３ａに基づいて時刻
ｔに応じて算出した第２の発話開始点らしさｂ（ｔ）
を、発話開始時刻決定部２２に送る。

【００５２】基準値演算部２１は第１の基準値Ｒ_efoを
第１の発話開始点らしさａ（ｔ）により重み付けして、
時間ｔに応じて変化する第２の基準値Ｒ_ef（ｔ）を算出
し、発話開始時刻決定部２２に送る。ここで重み付けの
例として式（４）〜式（５）をげておく。但し、式
（５）中で、０＜ｋ₂とする。

【数２】Ｒ_ef（ｔ）＝Ｒ _efo／ａ（ｔ） …式（４）Ｒ_ef（ｔ）＝Ｒ _efo−ｋ₂・ａ（ｔ） …式（５）

【００５３】発話開始決定部２２は第２の発話開始点ら
しさｂ（ｔ）と重み付けされた第２の基準値Ｒ_ef（ｔ）
とを比較し、最初にｂ（ｔ）＞Ｒ_ef（ｔ）となった時
点、もしくはｂ（ｔ）＞Ｒ_ef（ｔ）が或る一定時間続い
たら最初にｂ（ｔ）＞Ｒ_ef（ｔ）となった時点をユーザ
の発話開始時刻と決定し、その旨を表わす発話開始信号
２２ａを音声信号通過スイッチ１７に送る。

【００５４】このスイッチ１７は発話開始信号２２ａを
与えられた時点からオンとなり、オンの間に送られてき
た音声信号１７ａのみを音声認識対象として音響分析部
１８に送る。音響分析部１８では、音声信号通過スイッ
チ１７を通過した音声信号１７ａから、音声認識に適し
た特徴パラメータ１８ａを算出し、音声認識部１９に送
る。音声認識部１９では、特徴パラメータ１８ａに基づ
いて音声認識を行い、その認識結果１９ａを対話管理装
置１に送る。対話管理装置１では、音声認識部１９から
与えられる認識結果１９ａに基づいて、次に発声すべき
システムアナウンスのテキスト１ａを決定してアナウン
ス発声装置２にコード名等を送る。

【００５５】上述した第２実施例の説明でもスイッチ１
７を用いて音声認識対象の信号１７ａのみを音響分析部
１８に与えているが、スイッチ１７を用いずに次のよう
に変更しても良い。（１）音声入力回路５からの音声信号５ａを常時音響分
析部１８に送り、且つ発話開始時刻決定部２２から発話
開始信号２２ａを音響分析部１８に送るものとし、音響
分析部１８は発話開始信号２２ａを与えられた時点から
音響分析を開始する。（２）あるいは、音声入力回路５からの音声信号５ａを
常時音響分析部１８に送り、且つ音響分析部１８は常時
音響分析を行って特徴パラメータ１８ａを音声認識部１
９に送り、更に発話開始時刻決定部２２から発話開始信
号２２ａを音声認識部１９に送るものとし、音声認識部
１９は発話開始信号２２ａを与えられた時点からの特徴
パラメータ１８ａを用いて音声認識を開始する。

【００５６】＜第３実施例＞図４に示されるように、第
３実施例に係る音声対話装置は、対話管理装置１と、ア
ナウンス発声装置２と、音声認識装置３０とを具備した
ものであり、音声出力装置３及び音声入力装置５は必要
に応じて音声対話装置に内蔵されたり、あるいは音声対
話装置とは離れた別物で適宜接続されたりする。音声認
識装置３０は予測分布格納部１１と、第１の発話開始点
らしさの演算部１２と、発話検出用の音響分析部１３
と、第２の発話開始点らしさの演算部１４と、第３の発
話開始点らしさの演算部１５と、音声認識用の音響分析
部１８と、音声認識部３１と、音声認識結果判定部３２
とを具備している。

【００５７】第３実施例の各装置構成要素のうち、演算
部１５と、音声認識部３１及び音声認識結果判定部３２
とが図１に示した第１実施例と異なり、また第１実施例
における発話開始時刻決定部１６及びスイッチ１７が存
在しないが、他のもの１，２，３，５，１１〜１４及び
１８は第１実施例の同符号のものと同機能であるから説
明を簡単にする。

【００５８】演算部１５は前述した式（１）〜式（３）
を用いて、第１の発話開始点らしさａ（ｔ）により第２
の発話開始点らしさｂ（ｔ）に対して重み付けを行い、
第３の発話開始点らしさα（ｔ）を時間ｔに応じて算出
するが、これは音声認識結果判定部３２に送る。なお第
１の発話開始点らしさａ（ｔ）は、予測分布格納部１１
に格納されている図２に示したような予測分布に基づい
て、時刻ｔでユーザの発話が開始されるであろう期待値
を演算部１２が算出することにより求まる。また第２の
発話開始点らしさｂ（ｔ）は、音響分析部１３が常時音
響分析して得られる発話検出用の特徴パラメータ１３ａ
に基づいて、時刻ｔでユーザの発話が開始されたであろ
う尤度を演算部１４が算出することにより求まる。但
し、アナウンス発声装置２からアナウンス開始信号２ａ
が与えられた時を時刻０としている。

【００５９】音声認識用の音響分析部１８は音声入力回
路５から与えられる音声信号５ａを常時音響分析して音
声認識用の特徴パラメータ１８ａを次々に算出し、音声
認識部３１に送る。

【００６０】音声認識部３１では例えば１０ミリ秒おき
の各時刻ｔ毎にその時刻ｔをユーザの発話開始時刻と仮
定することにより、音声認識開始時刻を次々にずらして
複数の音声認識を行い、各時刻ｔから開始した場合の各
音声認識結果ｗ（ｔ）を音声認識結果判定部３２に送る
と共に、各音声認識結果ｗ（ｔ）毎の尤度ｐ（ｔ）を算
出して音声認識結果判定部３２に送る。

【００６１】音声認識結果判定部３２は次式（６）また
は式（７）または式（８）を用いて、各認識開始時刻ｔ
毎の音声認識結果の尤度ｐ（ｔ）と第３の発話開始点ら
しさα（ｔ）とを統合した値ｑ（ｔ）を算出し、この値
ｑ（ｔ）が最大となるような時刻ｔ_maxを見い出して、
全ての音声認識結果ｗ（ｔ）のうちで、時刻ｔ_maxに対
応した音声認識結果ｗ（ｔ_max）をユーザの発話に対す
る認識結果３２ａと判定する。対話管理装置１にはこの
音声認識結果３２ａのみを送る。但し、式（７）中で、
例えば０＜ｋ₃＜１とする。これにより、ユーザの発話
開始時刻を高精度に一点決定することができなくても、
結果的にユーザの発話を高精度に音声認識することがで
きる。

【数３】ｑ（ｔ）＝α（ｔ）＋ｐ（ｔ） …式（６）ｑ（ｔ）＝（１−ｋ₃）・α（ｔ）＋ｋ₃・ｐ（ｔ） …式（７）ｑ（ｔ）＝α（ｔ）・ｐ（ｔ） …式（８）

【００６２】対話管理装置１では、音声認識結果判定部
３２から与えられる認識結果３２ａに基づいて、次に発
声すべきシステムアナウンスのテキスト１ａを決定して
アナウンス発声装置２にコード名等を送る。

【００６３】＜第４実施例＞図５に示されるように、第
４実施例に係る音声対話装置は、対話管理装置１と、ア
ナウンス発声装置２と、音声認識装置４０とを具備した
ものであり、音声出力装置３及び音声入力装置５は必要
に応じて音声対話装置に内蔵されたり、あるいは音声対
話装置とは離れた別物で適宜接続されたりする。音声認
識装置４０は予測分布格納部１１と、第１の発話開始点
らしさの演算部１２と、発話検出用の音響分析部１３
と、第２の発話開始点らしさの演算部１４と、第３の発
話開始点らしさの演算部１５と、音声認識用の音響分析
部１８と、音声認識部４１と、遷移確率更新部４２とを
具備している。

【００６４】第４実施例の各装置構成要素のうち、演算
部１５と、音声認識部４１及び遷移確率更新部４２が図
１に示した第１実施例と異なり、また第１実施例におけ
る発話開始時刻決定部１６及びスイッチ１７が存在しな
いが、他のもの１，２，３，５，１１〜１４及び１８は
第１実施例の同符号のものと同機能であるから説明を簡
単にする。

【００６５】演算部１５は前述した式（１）〜式（３）
を用いて、第１の発話開始点らしさａ（ｔ）により第２
の発話開始点らしさｂ（ｔ）に対して重み付けを行い、
第３の発話開始点らしさα（ｔ）を時間ｔに応じて算出
するが、これは遷移確率更新部４２に送る。なお第１の
発話開始点らしさａ（ｔ）は、予測分布格納部１１に格
納されている図２に示したような予測分布に基づいて、
時刻ｔでユーザの発話が開始されるであろう期待値を演
算部１２が算出することにより求まる。また第２の発話
開始点らしさｂ（ｔ）は、音響分析部１３が常時音響分
析して得られる発話検出用の特徴パラメータ１３ａに基
づいて、時刻ｔでユーザの発話が開始されたであろう尤
度を演算部１４が算出することにより求まる。但し、ア
ナウンス発声装置２からアナウンス開始信号２ａが与え
られた時を時刻０としている。

【００６６】音声認識用の音響分析部１８は音声入力回
路５から与えられる音声信号５ａを常時音響分析して音
声認識用の特徴パラメータ１８ａを次々に算出し、音声
認識部４１に送る。

【００６７】音声認識部４１では、音響分析部１８から
与えられる特徴パラメータ１８ａの列に対し、常時、図
６に示すような先頭に無音状態３００を有する確率付き
有限状態ネットワークを探索して、最大の尤度が得られ
る経路を音声認識結果４１ａとして出力し、対話管理装
置１に送る。

【００６８】一般に、確率付き有限状態ネットワークは
音素や単語のＨＭＭ（隠れマルコフモデル：Hidden Mar
kov Model)によって構成されるものであり、ＨＭＭの各
状態には特徴パラメータに応じた尤度が保持されたり、
あるいは特徴パラメータに応じた尤度を計算するための
確率分布が保持されている。

【００６９】この確率付き有限ネットワークを構成する
場合に、図６に示すように、文頭に無音モデル３００を
設けてある。無音モデルは音声のない区間に対応するモ
デルであるが、学習の際、背影雑音や回線雑音を用いる
ことでそれらの雑音に対応することができる。また、咳
や息などの非音声も学習しておくことにより、それらの
非音声を音声と誤認することを防ぐことができる。ま
た、雑音や非音声のモデルを別々に学習し、無音モデル
３００と並列に配置することも可能である。これらによ
り、音響分析部１８からの音声認識用の特徴パラメータ
１８ａの入力をユーザの発話開始前から常時受け付ける
ことが可能となる。

【００７０】遷移確率更新部４２は音声認識部４１で用
いられる確率付き有限状態ネットワークの先頭の無音モ
デル３００から文先頭状態３０３へ遷移する確率を、演
算部１５から与えられる第３の発話開始点らしさα
（ｔ）を用いて、時刻ｔに応じて変化させる。即ち、図
６に示すように、先頭の無音モデル３００には自己状態
への遷移３０１と、文先頭状態への遷移３０２とがあ
り、それぞれのアーク（弧）には状態遷移確率が付えら
れているから、第３の発話開始点らしさα（ｔ）が大き
い時刻ｔでは文先頭状態３０３へ遷移する状態遷移確率
をα（ｔ）に応じて大きくする。これにより、ユーザの
発話開始時刻に先頭の無音モデル３００から文先頭状態
３０３へ遷移し易くなり、音声認識の精度が向上する。
この場合、α（ｔ）が大きい時刻ｔでは同時に、自己状
態３００に遷移する状態遷移確率をα（ｔ）に応じて小
さくすると良い。

【００７１】逆に、第３の発話開始点らしさα（ｔ）が
小さい時刻ｔでは文先頭状態３０３へ遷移する状態遷移
確率をα（ｔ）に応じて小さくする。これにより、ユー
ザの発話開始時刻前では先頭の無音モデル３００から文
先頭状態３０３へは遷移し難くなり、誤った音声認識を
行い難くなるから、音声認識の精度が向上する。この場
合、α（ｔ）が小さい時刻ｔでは同時に、自己状態３０
０に遷移する状態遷移確率をα（ｔ）に応じて大きくす
ると良い。このように、先頭の無音状態３００から文先
頭状態３０３への状態遷移確率を第３の発話開始点らし
さα（ｔ）で変化させることにより、ユーザの発話開始
時刻を高精度に一点決定することができなくても、結果
的にユーザの発話を高精度に音声認識することができ
る。また、音声認識は実質的に１回であるから、第３実
施例に比べて、処理が高速化し、メモリ容量も削減する
ことができる。

【００７２】なお、音声認識用の特徴パラメータ１８ａ
は発話開始の検出には最適ではないため、無音状態３０
０から文先頭状態３０３への状態遷移確率を固定してお
くと、先頭の無音状態３００から文先頭状態３０３への
遷移の精度が低くなり、音声認識の精度が低下する。

【００７３】対話管理装置１では、音声認識部４１から
与えられる音声認識結果４１ａに基づいて、次に発声す
べきシステムアナウンスのテキスト１ａを決定してアナ
ウンス発声装置２にコード名等を送る。

【００７４】

【発明の効果】第１，第２及び第７〜第１１の発明によ
れば、システムアナウンスとユーザの発話開始時刻との
因果関係に着目して、予め用意した予測分布からユーザ
の発話が開始されるであろう期待値（第１の発話開始点
らしさ）を算出し、発話検出用の特徴パラメータから求
めたユーザの発話が開始されたであろう尤度（第２の発
話開始点らしさ）と併用してユーザの発話開始時刻を決
定するので、発話開始時刻を一点高精度に検出すること
ができ、従って高精度な音声認識を実現することができ
る。

【００７５】また第３〜第４及び第１２〜第１３の発明
によれば、音声認識を常に行うことにより、音声認識結
果の尤度が発話開始点を決定するのにも用いられること
になり、例えば無意味な発声や咳を発話開始点と決定し
てしまう等の誤りを回避することができ、結果的に高精
度な音声認識を行うことができる。

【００７６】特に第５及び第１４の発明によればシステ
ムアナウンスの無音区間に予測分布の極大点があり、更
に第６及び第１５の発明によれば無音区間を故意あるい
は積極的に設けることにより、システムアナウンスとユ
ーザの発話開始時刻との因果関係が一層明確化し、発話
開始時刻の検出精度及び音声認識精度が更に向上する。
また、システムアナウンス中に無音区間を故意あるいは
積極的に設けることにより、無音区間でユーザが発話を
開始するようにユーザを制御することができるから、音
声対話装置の利用時間の短縮が可能となる。つまり、対
話における音声認識結果確認時に例えば「山本で良けれ
ばはい、さもなければいいえとお答え下さい」とシステ
ムアナウンスをする場合に比べ、「山本でよろしいでし
ょうか（１秒無音）はい、またはいいえでお答え下さ
い」とアナウンスすることにより、装置に慣れたユーザ
は無音区間に発話するようになり、「はい」以降のシス
テムアナウンスは無用となるから、システムアナウンス
を聞く時間は半分以下に短縮され、ユーザにとっての利
便性を高めると共に装置の効率的な利用が可能となる。
また、必要に応じて、発話開始時刻が決定されたならば
システムアナウンスを停止し、ユーザの発声を妨げない
ようにすることも可能となる。また、無音区間の設定に
より、初心者には十分なシステムアナウンスを聞かせ、
熟練者には短いシステムアナウンスを聞くだけで利用で
きる音声対話装置が実現する。更に、発話開始時刻を高
精度に決定できる場合には、このような利用時間の短縮
が可能な装置が一層有効に働くことができる。

【００７７】第１６の発明によれば高精度な音声認識の
下でユーザと装置間で音声を用いた対話を行うので、ス
ムーズな対話が実現する。

【図面の簡単な説明】

【図１】第１実施例に係る音声対話装置のブロック構成
図。

【図２】予測分布の一例を示す図。

【図３】第２実施例に係る音声対話装置のブロック構成
図。

【図４】第３実施例に係る音声対話装置のブロック構成
図。

【図５】第４実施例に係る音声対話装置のブロック構成
図。

【図６】先頭に無音状態を有する確率付有限状態ネット
ワークの一例を示す図。

【図７】従来例を示す図。

【符号の説明】

１対話管理装置１ａテキスト２アナウンス発声装置２ａ，５ａ音声信号２ｂアナウンス開始信号２ｃアナウンス終了信号３音声出力回路３ａシステムアナウンス４ユーザの発話５音声入力回路１０，２０，３０，４０音声認識装置１１予測分布格納部１２第１の発話開始点らしさの演算部１３発話検出用の音響分析部１３ａ発話検出用の特徴パラメータ１４第２の発話開始点らしさの演算部１５第３の発話開始点らしさの演算部１６，２２発話開始時刻決定部１７音声認識用の音声信号通過スイッチ１８音声認識用の音響分析部１８ａ音声認識用の特徴パラメータ１９，３１，４１音声認識部１９ａ，３２ａ，４１ａ認識結果２１基準値演算部３２音声認識結果判定部４２遷移確率更新部１００予測分布２００無音区間３００無音状態３０３文先頭状態ａ（ｔ）第１の発話開始点らしさｂ（ｔ）第２の発話開始点らしさ α（ｔ）第３の発話開始点らしさｐ（ｔ）音声認識結果の尤度Ｒ_ef 基準値Ｒ_efo 第１の基準値Ｒ_ef（ｔ）第２の基準値

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ１０Ｌ 15/10 Ｇ１０Ｌ 3/00 ５３１Ｗ 15/18 ５３７Ｃ５３７ＥＲ (72)発明者山本誠一東京都新宿区西新宿二丁目３番２号国際電信電話株式会社内 (56)参考文献特開昭63−163498（ＪＰ，Ａ) 黒岩眞吾、武田一哉、井ノ上直己、山本誠一，機械との対話における発話分析，電子情報通信学会技術研究報告［音声］ＳＰ94−23〜30，日本，1994年６月 17日，ＳＰ94−30，ｐ57−64 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 13/00,15/18 G10L 15/22,15/28 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】音声を用いてユーザとの対話を行う音声
対話装置に適用される音声認識方法において：前記音声
対話装置のシステムアナウンスに対するユーザの発話開
始時刻の極大点を有する予測分布を予め用意しておき、
この予測分布に基づき、ユーザの発話が開始される期待
値を第１の発話開始点らしさとしてシステムアナウンス
開始後の時刻に応じて算出すること；電気信号に変換さ
れたユーザの発話を音響分析して発話検出用の特徴パラ
メータを算出し、この特徴パラメータに基づき、ユーザ
の発話が開始されたであろう尤度を第２の発話開始点ら
しさとして時刻に応じて算出すること；第２の発話開始
点らしさに対して第１の発話開始点らしさにより重み付
けを行い、この重み付けで得た第３の発話開始点らしさ
を基準値と比較し、基準値より大きくなった時点をユー
ザの発話開始時刻であると決定すること；電気信号に変
換されたユーザの発話を音響分析して音声認識用の特徴
パラメータを算出し、この特徴パラメータに基づき音声
認識を行う処理を、前記ユーザの発話開始時刻の決定に
従って行うこと；を特徴とする音声認識方法。
【請求項２】音声を用いてユーザとの対話を行う音声
対話装置に適用される音声認識方法において：前記音声
対話装置のシステムアナウンスに対するユーザの発話開
始時刻の極大点を有する予測分布を予め用意しておき、
この予測分布に基づき、ユーザの発話が開始される期待
値を第１の発話開始点らしさとしてシステムアナウンス
開始後の時刻に応じて算出すること；電気信号に変換さ
れたユーザの発話を音響分析して発話検出用の特徴パラ
メータを算出し、この特徴パラメータに基づき、ユーザ
の発話が開始されたであろう尤度を第２の発話開始点ら
しさとして時刻に応じて算出すること；第１の発話開始
点らしさにより第１の基準値を重み付けして時間に応じ
て変化する第２の基準値を算出し、第２の発話開始点ら
しさをこの第２の基準値と比較し、第２の基準値より大
きくなった時点をユーザの発話開始時刻であると決定す
ること；電気信号に変換されたユーザの発話を音響分析
して音声認識用の特徴パラメータを算出し、この特徴パ
ラメータに基づき音声認識を行う処理を、前記ユーザの
発話開始時刻の決定に従って行うこと；を特徴とする音
声認識方法。
【請求項３】音声を用いてユーザとの対話を行う音声
対話装置に適用される音声認識方法において：前記音声
対話装置のシステムアナウンスに対するユーザの発話開
始時刻の極大点を有する予測分布を予め用意しておき、
この予測分布に基づき、ユーザの発話が開始される期待
値を第１の発話開始点らしさとしてシステムアナウンス
開始後の時刻に応じて算出すること；電気信号に変換さ
れたユーザの発話を音響分析して発話検出用の特徴パラ
メータを算出し、この特徴パラメータに基づき、ユーザ
の発話が開始されたであろう尤度を第２の発話開始点ら
しさとして時刻に応じて算出すること；第２の発話開始
点らしさに対して第１の発話開始点らしさにより重み付
けを行い、第３の発話開始点らしさを算出すること；電
気信号に変換されたユーザの発話を音響分析して音声認
識用の特徴パラメータを算出し、この特徴パラメータに
基づき、認識開始時刻を次々にずらして音声認識を行
い、且つ、各認識開始時刻に対応した音声認識結果毎の
尤度を算出すること；各認識開始時刻毎の音声認識結果
の尤度と、前記重み付けで得た第３の発話開始点らしさ
との和または積を時刻を合わせて算出し、この算出した
値が最大となる認識開始時刻に対応した音声認識結果
を、ユーザの発話に対する音声認識結果と判定するこ
と；を特徴とする音声認識方法。
【請求項４】音声を用いてユーザとの対話を行う音声
対話装置に適用される音声認識方法において：前記音声
対話装置のシステムアナウンスに対するユーザの発話開
始時刻の極大点を有する予測分布を予め用意しておき、
この予測分布に基づき、ユーザの発話が開始される期待
値を第１の発話開始点らしさとしてシステムアナウンス
開始後の時刻に応じて算出すること；電気信号に変換さ
れたユーザの発話を音響分析して発話検出用の特徴パラ
メータを算出し、この特徴パラメータに基づき、ユーザ
の発話が開始されたであろう尤度を第２の発話開始点ら
しさとして時刻に応じて算出すること；第２の発話開始
点らしさに対して第１の発話開始点らしさにより重み付
けを行い、第３の発話開始点らしさを算出すること；電
気信号に変換されたユーザの発話を音響分析して音声認
識用の特徴パラメータを算出し、この特徴パラメータに
基づき、先頭に無音状態を有する確率付き有限状態ネッ
トワークを探索して音声認識を行うこと；前記確率付き
有限状態ネットワークの先頭の無音状態から文の先頭状
態へ遷移する確率を、前記重み付けで得た第３の発話開
始点らしさを用いて時刻に応じて更新すること；を特徴
とする音声認識方法。
【請求項５】請求項１ないし４いずれか一つに記載の
音声認識方法において、前記ユーザの発話開始時刻の予
測分布の極大点がシステムアナウンスの無音区間に存在
することを特徴とする音声認識方法。
【請求項６】請求項５記載の音声認識方法において、
前記無音区間はその長さが０．２秒以上３秒以下であ
り、システムアナウンスの文と文の間及び文節と文節と
の間のうち少なくとも一方に存在することを特徴とする
音声認識方法。
【請求項７】音声を用いてユーザとの対話を行う音声
対話装置に適用される音声認識装置において；前記音声
対話装置のシステムアナウンスに対するユーザの発話開
始時刻の極大点を有する予測分布を格納する第１手段
と；前記格納された予測分布に基づき、ユーザの発話が
開始される期待値を第１の発話開始点らしさとしてシス
テムアナウンス開始後の時刻に応じて算出する第２手段
と；電気信号に変換されたユーザの発話を音響分析し、
発話検出用の特徴パラメータを算出する第３手段と；前
記発話検出用の特徴パラメータに基づき、ユーザの発話
が開始されたであろう尤度を第２の発話開始点らしさと
して時刻に応じて算出する第４手段と；第２の発話開始
点らしさに対して第１の発話開始点らしさにより重み付
けを行い、この重み付けされた値を第３の発話開始点ら
しさとして時刻に応じて算出する第５手段と；第３の発
話開始点らしさを基準値と比較し、この基準値より大き
くなった時点をユーザの発話開始時刻であると決定する
第６手段と；電気信号に変換されたユーザの発話を音響
分析して音声認識用の特徴パラメータを算出し、この特
徴パラメータに基づき音声認識を行う処理を、前記ユー
ザの発話開始時刻の決定に従って行う第７手段と；を具
備することを特徴とする音声認識装置。
【請求項８】音声を用いてユーザとの対話を行う音声
対話装置に適用される音声認識装置において；前記音声
対話装置のシステムアナウンスに対するユーザの発話開
始時刻の極大点を有する予測分布を格納する第１手段
と；前記格納された予測分布に基づき、ユーザの発話が
開始される期待値を第１の発話開始点らしさとしてシス
テムアナウンス開始後の時刻に応じて算出する第２手段
と；電気信号に変換されたユーザの発話を音響分析し、
発話検出用の特徴パラメータを算出する第３手段と；前
記発話検出用の特徴パラメータに基づき、ユーザの発話
が開始されたであろう尤度を第２の発話開始点らしさと
して時刻に応じて算出する第４手段と；第１の基準値に
対して第１の発話開始点らしさにより重み付けを行い、
この重み付けで得た値を第２の基準値として時刻に応じ
て算出する第５手段と；第２の発話開始点らしさを前記
重み付けで得た第２の基準値と比較し、この第２の基準
値より大きくなった時点をユーザの発話開始時刻である
と決定する第６手段と；電気信号に変換されたユーザの
発話を音響分析して音声認識用の特徴パラメータを算出
し、この特徴パラメータに基づき音声認識を行う処理
を、前記ユーザの発話開始時刻の決定に従って行う第７
手段と；を具備することを特徴とする音声認識装置。
【請求項９】請求項７または８に記載の音声認識装置
において：第７手段は、電気信号に変換されたユーザの発話を、ユーザの発話開
始時刻であると決定された時点から通過させるスイッチ
手段と；このスイッチ手段を通過したユーザの発話を音
響分析して音声認識用の特徴パラメータを算出する音声
認識用の音響分析手段と；この音響分析手段により算出
された音声認識用の特徴パラメータに基づいて音声認識
を行う音声認識手段と；を具備することを特徴とする音
声認識装置。
【請求項１０】請求項７または８に記載の音声認識装
置において：第７手段は、ユーザの発話開始時刻であると決定された時点から、電
気信号に変換されたユーザの発話の音響分析を開始して
音声認識用の特徴パラメータを算出する音声認識用の音
響分析手段と；この音響分析手段により算出された音声
認識用の特徴パラメータに基づいて音声認識を行う音声
認識手段と；を具備することを特徴とする音声認識装
置。
【請求項１１】請求項７または８に記載の音声認識装
置において：第７手段は、電気信号に変換されたユーザの発話を音響分析して音声
認識用の特徴パラメータを算出する音声認識用の音響分
析手段と；この音響分析手段で算出された音声認識用の
特徴パラメータのうち、ユーザの発話開始時刻であると
決定された時点以降の特徴パラメータに基づいて音声認
識を行う音声認識手段と；を具備することを特徴とする
音声認識装置。
【請求項１２】音声を用いてユーザとの対話を行う音
声対話装置に適用される音声認識装置において；前記音
声対話装置のシステムアナウンスに対するユーザの発話
開始時刻の極大点を有する予測分布を格納する予測分布
格納手段と；前記格納された予測分布に基づき、ユーザ
の発話が開始される期待値を第１の発話開始点らしさと
してシステムアナウンス開始後の時刻に応じて算出する
第１の演算手段と；電気信号に変換されたユーザの発話
を音響分析し、発話検出用の特徴パラメータを算出する
発話検出用の音声分析手段と；前記発話検出用の特徴パ
ラメータに基づき、ユーザの発話が開始されたであろう
尤度を第２の発話開始点らしさとして時刻に応じて算出
する第２の演算手段と；第２の発話開始点らしさに対し
て第１の発話開始点らしさにより重み付けを行い、この
重み付けされた値を第３の発話開始点らしさとして時刻
に応じて算出する第３の演算手段と；前記電気信号に変
換されたユーザの発話を音響分析し、音声認識用の特徴
パラメータを算出する音声認識用の音響分析手段と；前
記音声認識用の特徴パラメータに基づき、認識開始時刻
を次々にずらして音声認識を行い、且つ、各認識開始時
刻に対応した音声認識結果毎の尤度を算出する音声認識
手段と；各認識開始時刻毎の音声認識結果の尤度と、第
３の発話開始点らしさとの和または積を時刻に合せて算
出し、この算出した値が最大となる認識開始時刻に対応
した音声認識結果を、ユーザの発話に対する音声認識結
果と判定する音声認識結果判定手段と；を具備すること
を特徴とする音声認識装置。
【請求項１３】音声を用いてユーザとの対話を行う音
声対話装置に適用される音声認識装置において；前記音
声対話装置のシステムアナウンスに対するユーザの発話
開始時刻の極大点を有する予測分布を格納する予測分布
格納手段と；前記格納された予測分布に基づき、ユーザ
の発話が開始される期待値を第１の発話開始点らしさと
してシステムアナウンス開始後の時刻に応じて算出する
第１の演算手段と；電気信号に変換されたユーザの発話
を音響分析し、発話検出用の特徴パラメータを算出する
発話検出用の音響分析手段と；前記発話検出用の特徴パ
ラメータに基づき、ユーザの発話が開始されたであろう
尤度を第２の発話開始点らしさとして時刻に応じて算出
する第２の演算手段と；第２の発話開始点らしさに対し
て第１の発話開始点らしさにより重み付けを行い、この
重み付けされた値を第３の発話開始点らしさとして時刻
に応じて算出する第３の演算手段と；前記電気信号に変
換されたユーザの発話を音響分析し、音声認識用の特徴
パラメータを算出する音声認識用の音響分析手段と；前
記音声認識用の特徴パラメータに基づき、先頭に無音状
態を有する確率付き有限状態ネットワークを探索して音
声認識を行う音声認識手段と；前記確率付き有限状態ネ
ットワークの先頭の無音状態から文の先頭状態へ遷移す
る確率を、第３の発話開始点らしさを用いて時刻に応じ
て更新する遷移確率更新手段と；を具備することを特徴
とする音声認識装置。
【請求項１４】請求項７ないし１３いずれか一つに記
載の音声認識装置において、前記ユーザの発話開始時刻
の予測分布の極大点がシステムアナウンスの無音区間に
存在することを特徴とする音声認識装置。
【請求項１５】請求項１４記載の音声認識装置におい
て、前記無音区間はその長さが０．２秒以上３秒以下で
あり、システムアナウンスの文と文の間及び文節と文節
との間のうち少なくとも一方に存在することを特徴とす
る音声認識装置。
【請求項１６】請求項７ないし１５いずれか一つに記
載の音声認識装置と、システムアナウンスの指定された
テキストを電気的音声信号に変換すると共にシステムア
ナウンスの開始を前記音声認識装置に通知するアナウン
ス発声装置と、このアナウンス発声装置に対するシステ
ムアナウンスのテキストの指定及び前記音声認識装置か
らの音声認識結果の入力により音声を用いたユーザとの
対話を管理する対話管理装置とを具備することを特徴と
する音声対話装置。