JP2000244609A

JP2000244609A - 話者状況適応型音声対話装置及び発券装置

Info

Publication number: JP2000244609A
Application number: JP11044160A
Authority: JP
Inventors: Keisuke Okamoto; 圭介岡本; Ryuji Yamazaki; 竜二山崎
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 1999-02-23
Filing date: 1999-02-23
Publication date: 2000-09-08

Abstract

(57)【要約】【課題】雑音レベル等の話者の環境の検出結果に応じ
て、音量以外の要素を調整することによって、人間と機
械との効率的な対話を可能とする。【解決手段】マイク１で検出された音声データを雑音レ
ベル測定部５と音声認識部４へ入力し、対話処理部６
は、測定された雑音レベルに基づいてガイダンスの種類
やガイダンスの発声調を決定する。ガイダンス音声生成
部７は、上記決定されたガイダンスの種類や発声調に基
づいてガイダンス音声出力信号を生成し、スピーカ２で
発声する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、話者の周囲の雑
音レベルや話者の特徴などを検出して話者に出力するガ
イダンスを調整することにより、話者の状況に応じて適
切な対話を行うことのできる装置及びこの装置を応用し
た発券装置に関する。

【０００２】

【従来の技術】雑音レベル等の話者状況に応じて出力音
声や音声対話を制御する装置としては、例えば特開平０
２−３０５１５３号や特開平０３−０１０５４８号の各
公報に示されている。いずれも、ファジィ制御によって
話者のまわりの雑音レベルを検出し、これに基づいて出
力音声の音量を制御する。

【０００３】また、特開平０６−０７５５８８号に示さ
れる装置は、音声レベルと雑音レベルに基づいて装置の
使用環境における発声状況を話者に知らせ、話者に対し
て適当な音量で話すように促す。

【０００４】

【発明が解決しようとする課題】しかしながら、上記の
各装置では、音量レベルにのみ着目しており、状況によ
っては適切な対話ができなくなってしまうことがある。
例えば、雑音レベルが一定以上に大きい場合は、単に出
力音声が大きくなったり話者に大声で話すよう促すだけ
であるために、話者にとっては不快な対話状況になるだ
けではなく、周囲に迷惑をかけてしまうことがある。ま
た、雑音レベルが一定以上に小さい場合には、出力音声
もそれに比例して小さくなるために、装置の発した音声
出力を聞き漏らしたりする場合も生じてくる。このよう
な状況になるのは、人間の耳の特性が、単なる電気的な
信号のＳ／Ｎ比に依存するのではなく、さらに複雑な要
素に基づいているからである。

【０００５】この発明の目的は、雑音レベル等の話者の
環境の検出結果に応じて、音量以外の要素を調整するこ
とによって、人間と機械との効率的な対話が可能となる
装置及びその装置を応用した発展装置を提供することに
ある。

【０００６】

【課題を解決するための手段】この発明は次のように構
成される。

【０００７】（１）音声データの入力部と、話者環境
の雑音を検出する雑音検出部と、話者の入力音声を認識
する音声認識部と、話者に対してガイダンスを音声出力
するガイダンス出力部と、話者に対して対話時に出力す
る複数種類のガイダンスをあらかじめ記憶するガイダン
ス記憶部と検出雑音に応じて出力するガイダンスをガイ
ダンス記憶部に記憶されているガイダンスの中から決定
するガイダンス決定部と、を設けた。（請求項１）上記雑音検出部では、話者環境の雑音を検出する。検出
雑音とは、話者の周囲の環境の雑音の検出値である。こ
の雑音のレベルは、典型的には入力した音声データ中か
ら検出する。この他、話者の音声データが入力されるマ
イクとは別の雑音レベルを検出するマイクを設け、この
マイクから雑音レベルを検出することも可能である。入
力された音声データ中から雑音レベルを検出するには、
実時間でフーリエ変換処理した結果の音声信号周波数帯
域以外の周波数成分のパワースペクトルを検出すること
で行う。また、単純にフィルタを通して音声帯域以外の
信号成分のレベルを求める。

【０００８】話者の入力音声を認識する音声認識部は、
話者の入力音声の音素を検出する。例えば、話者が「わ
たし」と話した場合、音声認識部では「わ」「た」
「し」を各音素として認識する。この音声認識手法に
は、音声データから線形予測係数やフーリエスペクトル
係数などの特徴パターンを抽出し、これと、辞書に記憶
されているパターンとのマッチングを行って認識を行う
パターンマッチング手法や、その他、隠れ（Ｈｉｄｄｅ
ｎ）マルコフ法を用いた音声認識法や、シンタックス認
識法等の周知の方法が用いられる。なお、パターンマッ
チング手法では、話者によって発声速度が異なる相違を
吸収するＤＰ（ダイナミックプログラミング）パターン
マッチング手法が、一般に採用されている。また、音声
認識では、各音素の認識とともに形態素解析を行って単
語や品詞の認識も行うことが出来る。この発明では、単
語や品詞の認識をこの音声認識部で行っても行わなくて
も良い。

【０００９】上記ガイダンス出力部は、話者に対して音
声対話を行うためのガイダンスを出力する部分である。
ガイダンスとは、話者が装置に入力すべき情報の種別・
手順・入力内容の確認など、話者との間で対話をすると
きの装置側の出力内容をいう。ガイダンスは予め辞書に
記憶されているが、この発明では、同じ意味内容を持つ
複数種類のガイダンスを予め用意している。

【００１０】上記ガイダンス決定部は、雑音検出部にお
いて検出された検出雑音に応じて上記複数種類のガイダ
ンスから適切なものを決定する。この決定されたガイダ
ンスがガイダンス出力部から話者に対して音声出力され
る。

【００１１】ガイダンスの種類としては、簡潔な表現の
ガイダンス、丁寧な表現（いわゆる丁寧語の事ではな
く、冗長度の大きな表現を意味する。冗長度の大きな表
現を用いる理由は、表現の一部が雑音の影響で正しく聞
き取られなくても、他の部分を聞き取ることができれ
ば、意味が正しく伝わるようにするためである。）のガ
イダンス、より丁寧な表現のガイダンスなどのように分
類され、雑音レベルが大きい程丁寧となる表現のガイダ
ンスが選ばれるようにする。このようにすると、周囲の
雑音レベルが大きくても、話者と装置との対話がより確
実なものになると共に、雑音レベルが小さい場合には対
話のスピードアップを図ることができる。

【００１２】（２）前記ガイダンス記憶部及びガイダン
ス決定部に代えて、検出雑音に応じて話者に対する所定
のガイダンスの発話速度を変える発話速度変更手段を設
けた。（請求項２）雑音レベルが小さい場合には対話のスピードアップを図
り、雑音レベルが大きい場合にはより確実な対話が行わ
れるようにする方法として、上記のガイダンスの種類を
変更するガイダンス記憶部およびガイダンス決定部に代
えて、雑音レベルに応じてガイダンスの発話速度を変え
ることによっても上記（１）の構成と同様の効果を得る
ことができる。一般には、雑音レベルが大きい場合には
ガイダンスの発話速度を遅くし、雑音レベルが小さい場
合には発話速度を速くする。

【００１３】（３）前記音声認識部は、複数の音声認識
エンジンを備え、前記ガイダンス記憶部及びガイダンス
決定部に代えて、検出雑音に応じて使用する音声認識エ
ンジンを切り替える音声認識エンジン変更手段を設けた
（請求項３）また、音声認識のための音声認識エンジンを変更するこ
とによっても同じ効果を得ることができる。音声認識エ
ンジンとは、入力された音声データから話者の音声を認
識するエンジンである。一般に、ＤＰパターンマッチン
グ手法を用いた音声認識エンジンや、隠れマルコフ手法
を用いた音声認識エンジンなど多数のものを使用するこ
とができる。また、ＤＰマッチングの音声認識エンジン
としても、単純なＤＰマッチング手法を採用した音声認
識エンジンと、さらに複雑なＤＰマッチング手法を採用
した音声認識エンジンなどを用いることができる。一般
には、単純なＤＰマッチングによる音声認識では複雑な
ＤＰマッチッグのものよりも音声認識速度は速いが認識
性能は劣化する。また複雑なＤＰマッチング手法を用い
た音声認識エンジンでは、認識速度は低下するがその反
面認識性能がよくなると言える。そこで、雑音レベルが
小さい場合には前者のエンジンを用い、雑音レベルが大
きい場合には後者のエンジンを用いる。このようにし
て、雑音レベルが小さい場合にはスピードアップを図
り、雑音レベルが大きい場合には確実な対話が可能とな
るように音声認識エンジンの切り替えを行う。

【００１４】（４）前記ガイダンス出力部は、アクセン
トを変えてガイダンス出力が可能であり、前記ガイダン
ス記憶部及びガイダンス決定部に代えて、検出雑音に応
じてアクセントを変えるアクセント変更手段を設けた。
（請求項４）さらに、上記（１）のガイダンス出力部を、検出雑音の
レベルに応じてアクセントを変えてガイダンス出力がで
きるようにすることで、同様の効果を得ることができ
る。例えば、雑音レベルがかなり大きな場合にガイダン
スの中のキーワードだけを強調すべきアクセントをつけ
たり、雑音レベルがある程度大きな場合にはガイダンス
が尻上がりになるような高低アクセントをつけたりす
る。またこれ以外にも、声の高さ（例えば、男性や女性
の区別）、ポーズの挿入の有無（例えば、キーワードの
直後にポーズを入れる）などの様々なガイダンスの発声
調を雑音レベルに応じて変えることで、雑音レベルが低
い場合には対話のスピードアップを図り、雑音レベルの
高い場合には確実な対話が可能となるようにすることが
できる。

【００１５】（５）音声データの入力部と、話者の入力
音声を認識する音声認識部と、話者に対してガイダンス
を音声出力または画面出力するガイダンス出力部と、話
者の画像または入力音声データに基づいて話者の特徴量
を抽出する特徴検出部と、抽出した特徴量と予め記憶す
る特徴量とを比較して話者の特徴を認識する特徴認識部
と、認識した話者の特徴に応じて出力するガイダンスの
形態を変更するガイダンス形態変更手段と、を設けた。
（請求項５）この発明では、上記の雑音検出部に代えて話者の特徴を
検出する特徴検出部を設けている。話者の特徴は、入力
音声データの特徴量を抽出することによって行う。その
他、カメラと捉えた画像から特徴を捉えることも出来る
（例えば、大人と子ども、男性と女性など）。特徴量の
抽出後、上記音声認識と同様ＤＰマッチング手法を用い
ることができる。例えば、年令別、男女別、出身地別、
大人子供別、の各特徴量パターンの標準的なものを各音
素毎に予め音声認識用辞書に記憶しておく。そして、音
声認識部で入力音声を認識する時に、上記辞書を用いる
ことによって話者の特徴を認識する。話者の特徴を認識
した時に、その特徴に応じて出力するガイダンスの形態
を変更する。ガイダンスの形態とは、ガイダンスの種
類、発声調をいう。画面出力の場合はガイダンスの表示
の大きさや色などをいう。ガイダンスの発声調とは、発
話速度、強調アクセント、高低アクセント等、発声の調
子をいう。ガイダンスの変更は、例えば話者が子供の場
合にはガイダンスの発話速度を遅くし、大人の場合には
発話速度を速くする、あるいは、子供の場合にはより丁
寧なガイダンスを出力し、大人の場合には普通のガイダ
ンスを出力する、のようなガイダンス形態とする。

【００１６】（６）前記音声認識部は、複数の音声認識
エンジンを備え、前記ガイダンス形態変更手段に代え
て、認識した話者の特徴に応じて使用する音声認識エン
ジンを切り替える音声認識エンジン変更手段を設けた。
（請求項６）上記（３）と同様に音声認識エンジンとして複数のもの
を用意しておき、話者の特徴に応じて使用する音声認識
エンジンを切り替えることも可能である。

【００１７】（７）話者環境の雑音を検出する雑音検出
部を備え、前記ガイダンス形態変更手段は、認識した話
者の特徴とともに検出雑音に応じて出力するガイダンス
の形態を変更する。（請求項７）また、話者の特徴を検出する特徴検出部と共に、話者環
境の雑音を検出する雑音検出部を設け、両者の検出結果
に基づいてガイダンス形態を変更することも可能であ
る。このようにすることで、さらに音声対話の確実性を
高めることができる。

【００１８】（８）ガイダンス内容を表示するガイダン
ス表示部と、検出雑音に応じて表示ガイダンスの表示状
態を変更するガイダンス表示状態変更部とを設けた。
（請求項８）ガイダンス出力を音声で行うと共に、ガイダンス内容を
表示するガイダンス表示部を設けることにより、ガイダ
ンス音声が聞き取れない場合があってもガイダンスの内
容を知らせることが可能になる。また、このガイダンス
内容は、検出雑音に応じて、文字列の大きさを大きくし
たり、キーワード部分を強調表示するなどのガイダンス
形態を変更することで対話の確実性を高めることができ
る。

【００１９】（９）雑音検出部は、入力音声データ中の
雑音を検出して話者環境の雑音を検出する。（請求項
９）雑音検出部による雑音の検出は、上述のように入力音声
データ中から検出するのが可能であるが、話者の周囲の
雑音検出するためのマイクを別に設けて、この信号から
雑音を検出することも可能である。

【００２０】（１０）上記（１）〜（９）のいずれかに
記載の話者状況適応型音声対話装置と、貨幣、プリペイ
ドカード等の価値記憶媒体、口座出金用のカード等の券
購入用媒体受入部と、清算後に発券する発券部とで発券
装置を構成する。前記ガイダンスは発券手順に沿ったガ
イダンスである。（請求項１０）以上の（１）〜（９）に記載の話者状況適応型音声対話
装置を、駅の券売機などの発券装置に適応する場合、金
額等の入力のためのキー類等が不要となる。これによ
り、装置全体の小型化が可能となる。なお、上記（１）
〜（９）の対話装置は、プログラムで構成することが出
来るから、これを記録した媒体で提供することが可能で
ある。

【００２１】

【発明の実施の形態】図１は、この発明の実施形態であ
る音声対話装置の概略の構成図を示す。

【００２２】この装置は、マイク１とスピーカ２と本体
とで構成される。本体は、マイク１からの音声信号をＡ
Ｄ変換するＡＤ変換器３と、ＡＤ変換された音声データ
を認識する音声認識部４と、音声データ中の雑音レベル
を測定する雑音レベル測定部５と、測定した雑音レベル
に基づいてガイダンスの形態を決定する対話処理部６
と、決定されたガイダンスの形態に基づいてガイダンス
音声を生成するガイダンス音声生成部７とで構成され
る。

【００２３】この実施例でのガイダンスの形態とは、ガ
イダンスの対話フローまたはガイダンスの発声調を意味
する。ガイダンスの発声調とは、ガイダンスの音量レベ
ル、発話速度、強弱アクセント、高低アクセントを意味
する。この実施形態では、上記対話フロー及びガイダン
スの発声調を共に対話処理部６において決定するが、こ
のうちの対話フローだけ決定してもよいし、あるいはガ
イダンスの発声調のいずれかの種類を決定するだけでも
よい。

【００２４】音声認識部４は、ＤＰパターンマッチング
手法による音声認識を行う。すなわち、「あ」「い」
「う」．．．．の５０音およびその他の各音素の標準パ
ターンを記憶した辞書を用い、音声データから抽出した
各音素とのＤＰパターンマッチングにより音声認識を行
う。この場合、各音素の母音と子音を分離してマッチン
グするようにしてもよい。認識された結果は外部の処理
部と対話処理部６に入力される。外部の処理部は、認識
結果から形態素解析等によって意味内容を認識する。こ
の形態素解析は音声認識部４や対話処理部６においても
行うことが出来る。対話処理部６には、さらに雑音レベ
ル測定部５で測定された雑音レベルも入力する。そし
て、雑音レベルに応じてガイダンスの形態を決定し、音
声対話を制御する。

【００２５】図２は、対話処理部６でガイダンスの形態
決定処理のために使用するテーブルを示している。雑音
レベルは、小、中、大、特大の４つに区分し、各区分に
対応して対話フロー及びガイダンス発声調を記憶する。
今、この装置を列車券売機に適用した場合の、対話中に
生じる入力キーワードが図３に示すパターンとすると、
列車券売機での対話フロー及びガイダンスの表現は図４
に示すようになる。すなわち、入力キーワードが、駅
名、種別、枚数であるとすると、例えば、対話フローが
Ａの場合は、「駅名、種別、枚数をどうぞ」が音声出力
され、これらの３つの項目が一括して音声入力される。
このような対話フローＡが選択される場合は、雑音レベ
ルが最も小さな小の場合である。また、対話フローと共
に音量レベルや発話速度などのガイダンスの発声調も決
定される。図２に示すテーブルに従うとすると、例えば
雑音レベルが小の場合にはガイダンスの発話速度が速く
設定され、また、雑音レベルが大の場合には発話速度が
遅く設定される。また、雑音レベルが特大の場合には、
強弱アクセントは、キーワードが強調され、高低アクセ
ントもキーワードも強調される。強弱アクセントとは、
ガイダンス中のキーワードの部分だけ音量レベルを上げ
る処理を意味し、高低アクセントとは、ガイダンスの末
尾のイントネーションを上げて疑問文であることを強調
する。イントネーションを上げる部分をキーワードの部
分にしてもかまわない。

【００２６】上記のように、雑音レベルが小さい場合に
はガイダンスの聞取りが容易であると考えられるため
に、装置側から出力するガイダンスを簡潔なものにす
る。これにより操作のスピードアップを図り効率的な入
力を可能にする。また、雑音レベルが大きい場合にはガ
イダンスを長めの丁寧な表現にすることで、ガイダンス
音声の内容を確実に伝達し、雑音環境に影響されずに確
実な入力操作が可能となる。

【００２７】図５は、上記音声対話装置の動作を示すフ
ローチャートである。

【００２８】音声対話開始前に、マイク１から入力され
る音声信号から雑音レベルの測定を開始する（ＳＴ
１）。雑音レベルの測定は、実時間による離散フーリエ
変換演算を行い、音声スペクトル以外のスペクトル成分
によるパワースペクトルを求めることによって行う。な
お、離散フーリエ変換演算を実時間で行うにはＤＳＰ
（デジタルシグナルプロセッサ）による演算が必要であ
る。また、簡易な方法として、フィルタによって音声帯
域以外の信号成分を抽出し、このレベルを雑音レベルと
して測定することも出来る。

【００２９】上記測定した雑音レベルに基づいて、音声
認識のための辞書の切り替えを行う。音声認識用辞書は
各雑音レベルに対応したものを予め複数個用意されてい
る。各辞書には、音素毎の標準パターンが記憶され、大
きな雑音レベルに対応する辞書には、マッチングの許容
幅が大きな標準パターンが、小さな雑音レベルに対応す
る辞書には、マッチングの許容幅が小さな標準パターン
が記憶される。このように、音声認識辞書を切り替える
ことによって、音声認識エンジンの特性を変えることが
可能であるが、音声認識手法そのものを変えることも可
能である。例えば、ＤＰパターンマッチング手法を備え
た音声認識エンジンから、隠れマルコフによる音声認識
手法を備えたエンジンに切り替えたり、単純なＤＰパタ
ーンマッチングによる音声認識エンジンから、複雑なＤ
Ｐパターンマッチングを行う音声認識エンジンに切り替
えたりすることができる。

【００３０】上記ＳＴ２では、使用する音声認識辞書を
対話前の雑音に対応するものとして初期設定する。

【００３１】次に、上記雑音レベルに応じて、図２に示
す、対話フロー及びガイダンスの発声調の初期値を決定
する（ＳＴ３）。

【００３２】初期値の設定をした後、話者との間で音声
の対話を開始する（ＳＴ４）。すなわち、話者に対して
最初のメッセージをガイダンスとして出力する。例え
ば、図４に示す列車券売機の例では、対話フローの初期
値がＡであるとすると、「駅名、種別、枚数をどうぞ」
とガイダンス音声出力する。これに対して、話者よりマ
イク１に向かって音声が入力される。音声対話処理中に
雑音レベルの変化がなければ、同一の辞書を使って、入
力された音声データが音声認識部４で音声認識処理さ
れ、認識結果が図外の処理部（券売機処理部）と対話処
理部６に出力される。

【００３３】音声対話中に雑音レベルの変化があれば、
ＳＴ５→ＳＴ６と進んで、変化した雑音レベルに対応す
る音声認識辞書に切り替えられる（ＳＴ６）。また、対
話フロー及び発声調も、変化した雑音レベルに応じたも
のに変更される（ＳＴ７）。以上の操作を音声対話が終
了するまで行って（ＳＴ８）、対話を終えた段階で雑音
レベルの測定を終了して（ＳＴ９）、動作が終わる。

【００３４】図５において、発声調の変更は、図２に示
す音量レベル、発話速度、強弱アクセント、高低アクセ
ントを同時に変更するものであるが、このうち、少なく
とも、発話速度、強弱アクセント、高低アクセントのい
ずれか１つ以上の発声調の変更であって構わない。音量
レベルのみの変更は信号対雑音のＳＮ比のみを注目した
処理であるために適切ではない。音量レベルに発話速
度、強弱アクセント、高低アクセントの３つの発話調の
いずれか１つ以上を組み合わせるのは効果的である。ま
た、ガイダンスの発声調を変えずに対話フローのみを変
えることでも構わない。さらに、対話フローやガイダン
ス発声調を変えずに、音声認識エンジンを変える、すな
わち、音声認識辞書や音声認識手法だけを切り替えるこ
とでもよい。

【００３５】図６は、この発明の他の実施形態を示して
いる。この実施形態では、図１に示す音声対話装置に、
話者特徴検知部８を新たに設けている。

【００３６】話者特徴検知部８は、音声認識部４におい
て音声を認識するのと同様に、音声データから得られる
特徴量パターンと、予め用意した特徴量標準パターンと
をＤＰパターンマッチングによって話者の特徴を検知す
る。特徴量パターンとしては、年令別パターン、男女別
パターン、出身地別パターン、大人子供別パターンなど
がある。すなわち、音素毎にこれらのパターンの標準パ
ターンを予め辞書に記憶しておき、音声データから得ら
れるパターンとＤＰパターンマッチングで年令や男女を
特定する。例えば、「あ」の音素のパターンが音声デー
タから得られた場合、１０代、２０代、３０代、４０
代、５０代、６０代の各年代別の「あ」の音素の標準パ
ターンとそれぞれ比較し、マッチング適合度の最も高い
標準パターンを認識して年令を特定する。なお、出身地
別パターンは、方言による発音の相違をカバーするため
のものである。話者特徴検知部８では、さらに話者の発
話開始タイミングによる話者の熟練度を検出し、これを
話者の特徴要素として加えることもできる。

【００３７】対話処理部６には、このようにして得られ
た話者の特徴と雑音レベル測定部５で得られた雑音レベ
ルとに基づいてガイダンスの形態を決定する。

【００３８】図７は、対話処理部で用いるテーブルを示
している。図２に示すテーブルと相違するのは、話者の
特徴を決定のためのパラメータとして用いている点であ
る。すなわち、雑音レベルと話者の特徴に基づいて対話
フローまたはガイダンスの発声調を決定する。

【００３９】これ以外にも、ガイダンスの発声調とし
て、ガイダンス音声の声の高さを切り替えたり（例え
ば、話者が男性ならば女性の声のガイダンス音声にする
（もしくはその逆））、方言の切り替えを行ったり（話
者の出身地に応じて、ガイダンス音声の表現とイントネ
ーションを変える）、または、外国人と判定された時に
は英語のガイダンスに切り替えるなどのバリエーション
を追加することが可能である。また、雑音レベル測定部
５を設けずに、話者の特徴だけに基づいて対話フローや
ガイダンスの発声調を決定してもよい。さらに、話者の
特徴は音声データに基づいて検知しているが、カメラな
どからの画像情報に基づいて検知することも可能であ
る。また、身分証明情報を内蔵したカードを差し込んで
利用するシステムの場合には、そのカードに話者の年齢
や性別などの情報が記録されている場合が多く、その場
合には年齢や性別などの情報をカードから読み取って、
話者の特徴として用い、ガイダンスの形態の切替えに用
いることができる。

【００４０】図８は、上記図６に示す音声対話装置の動
作を示すフローチャートである。

【００４１】図５に示すフローチャートと相違する点
は、話者の特徴検知とそのための処理が加えられた点で
ある。すなわち、ＳＴ１０において話者の特徴が検知さ
れ、ＳＴ１で測定された雑音レベルと話者の特徴に基づ
いて図７のテーブルを用いて対話フロー及びガイダンス
の発声調の初期値を決定する（ＳＴ３）。以下、図５と
同様の動作を行う。

【００４２】図９は、この発明の他の実施形態を示す。
同図に示す音声対話装置が図６に示す装置と相違する点
は、ガイダンス文字列生成部９とそのガイダンス文字列
を表示する画面表示部１０を設けた点である。対話処理
部６においては、これまで説明したのと同様に、雑音レ
ベル又は話者の特徴に基づいて対話フローや発声調の決
定を行うが、これと同様に、画面表示用のガイダンス文
字列の表示状態を決定する。ガイダンス文字列の表現は
基本的にはガイダンス音声の表現と同じであるが、雑音
レベルが高い場合には、ガイダンス音声が聞き取れない
可能性があるので、画面上に表示された同内容の文字列
の大きさを大きくする、または強調表示するなどして確
実にガイダンスの内容を伝達するようにする。また、話
者の特徴によってもガイダンス文字列の表示状態を変更
することができる。例えば、話者が高年令であると判定
された場合には、画面に表示するガイダンス文字列の文
字を大きくして読み易くする。子供の場合にはひらがな
表記とする（または漢字に読み仮名をふる）。外国人の
場合には英語表記にする。このように、話者に応じて、
最適な表示状態でガイダンス文字列を表示する。

【００４３】図１０は、上記図９の装置での対話処理部
で用いるテーブルを示す。このテーブルでは、図７に示
すガイダンスの発声調の表示を省略している。この他、
雑音レベルが大きい場合にはキーワードのみゴシック体
にするなどの文字フォントの変更を行うことも有効であ
る。

【００４４】図１１は、上記の装置の動作を示すフロー
チャートである。図８との相違点は、対話フロー及び発
声調を決定する際に、同時にガイダンス文字列の表示状
態を決定している点である（ＳＴ３及びＳＴ７）。

【００４５】以上に述べた音声対話装置は、人間と機械
とのコミュニケーションを図るシステム、特に周囲の雑
音環境が時間、日によって変化するシステムに広く適用
することが出来る。例えば、列車券売機の配置位置は雑
音環境が著しく変動するが、図４に示すようなテーブル
のある音声対話装置に、貨幣、プリペイドカード等の価
値記憶媒体、口座出金用のカード等の券購入用媒体を受
け入れる受入部、清算後に発券する発券部を加えること
で、雑音に強い対話型列車券売機を構成出来る。この券
売機では、入力操作が音声で行われることになるため、
キーパネルが不要となり、装置の小型化が可能である。

【００４６】

【発明の効果】請求項１の発明によれば、雑音環境から
話者の置かれた状況を自動的に検知し、例えば、雑音レ
ベルが低い場合には音声対話をスピードアップし、雑音
レベルが高い場合にはゆっくりと丁寧なガイダンスを音
声出力するようにして確実な入力操作を確保するなど、
効率的で確実な音声対話を実現できる。

【００４７】また、請求項２〜４の発明においても、雑
音レベルに応じて、効率的で且つ確実な音声対話を実現
できる。

【００４８】また、請求項５の発明においては、男女や
年令等の話者の特徴に応じて最適なガイダンスを出力す
ることができ、対話の確実性を高めることができる。

【００４９】また、請求項６の発明でも、話者に応じた
音声認識エンジンを自動選択することで、話者の特徴に
応じた最適な音声認識が可能になり、音声対話の確実性
を高めることができる。

【００５０】請求項７の発明では、話者の特徴と共に周
囲の雑音を検出してこれらに基づいてガイダンスの形態
を変更するために、さらに効率的で且つ確実な音声対話
を得ることができる。

【００５１】請求項８の発明でも、音声対話の確実性を
さらに高めることができる。

【００５２】請求項１０の発明では、人と発券装置本体
とのコミュニケーションが音声でできるために、多数の
キー類が不要となり、発券装置を小型化できる。

【図面の簡単な説明】

【図１】この発明の第１の実施形態の音声対話装置の構
成図

【図２】対話処理部で用いるテーブル

【図３】列車券売機での入力キーワード表

【図４】列車券売機の対話フロー及びガイダンスの表現
を示す図

【図５】音声対話装置の動作を示すフローチャート

【図６】この発明の第２の実施形態の音声対話装置の構
成図

【図７】対話処理部で用いるテーブル

【図８】上記音声対話装置の動作を示すフローチャート

【図９】この発明の第３の実施形態の音声対話装置の構
成図

【図１０】対話処理部で用いるテーブル

【図１１】上記音声対話装置の動作を示すフローチャー
ト

Claims

【特許請求の範囲】

【請求項１】音声データの入力部と、話者環境の雑音
を検出する雑音検出部と、話者の入力音声を認識する音
声認識部と、話者に対してガイダンスを音声出力するガ
イダンス出力部と、話者に対して対話時に出力する複数
種類のガイダンスをあらかじめ記憶するガイダンス記憶
部と検出雑音に応じて、ガイダンス出力部で出力するガ
イダンスをガイダンス記憶部に記憶されているガイダン
スの中から決定するガイダンス決定部と、を設けた、話
者状況適応型音声対話装置。
【請求項２】前記ガイダンス記憶部及びガイダンス決
定部に代えて、検出雑音に応じて話者に対する所定のガ
イダンスの発話速度を変える発話速度変更手段を設け
た、請求項１記載の話者状況適応型音声対話装置。
【請求項３】前記音声認識部は、複数の音声認識エン
ジンを備え、前記ガイダンス記憶部及びガイダンス決定
部に代えて、検出雑音に応じて使用する音声認識エンジ
ンを切り替える音声認識エンジン変更手段を設けた、請
求項１記載の話者状況適応型音声対話装置。
【請求項４】前記ガイダンス出力部は、アクセントを
変えてガイダンス出力が可能であり、前記ガイダンス記
憶部及びガイダンス決定部に代えて、検出雑音に応じて
アクセントを変えるアクセント変更手段を設けた、請求
項１記載の話者状況適応型音声対話装置。
【請求項５】音声データの入力部と、話者の入力音声
を認識する音声認識部と、話者に対してガイダンスを音
声出力または画面出力するガイダンス出力部と、話者の
画像または入力音声データに基づいて話者の特徴量を抽
出する特徴検出部と、抽出した特徴量と予め記憶する特
徴量とを比較して話者の特徴を認識する特徴認識部と、
認識した話者の特徴に応じて出力するガイダンスの形態
を変更するガイダンス形態変更手段と、を設けた、話者
状況適応型音声対話装置。
【請求項６】前記音声認識部は、複数の音声認識エン
ジンを備え、前記ガイダンス形態変更手段に代えて、認
識した話者の特徴に応じて使用する音声認識エンジンを
切り替える音声認識エンジン変更手段を設けた、請求項
５記載の話者状況適応型音声対話装置。
【請求項７】話者環境の雑音を検出する雑音検出部を
備え、前記ガイダンス形態変更手段は、認識した話者の
特徴とともに検出雑音に応じて出力するガイダンスの形
態を変更する、請求項５記載の話者状況適応型音声対話
装置。
【請求項８】ガイダンス内容を表示するガイダンス表
示部と、検出雑音に応じて表示ガイダンスの表示状態を
変更するガイダンス表示状態変更部とを設けた請求項１
〜４または７のいずれかに記載の話者状況適応型音声対
話装置。
【請求項９】雑音検出部は、入力音声データ中の雑音
を検出して話者環境の雑音を検出する、請求項１〜４、
７、８のいずれかに記載の話者状況適応型音声対話装
置。
【請求項１０】請求項１〜９のいずれかに記載の話者
状況適応型音声対話装置と、貨幣、プリペイドカード等
の価値記憶媒体、口座出金用のカード等の券購入用媒体
受入部と、清算後に発券する発券部と、を備え、前記ガ
イダンスは発券手順に沿ったガイダンスである、発券装
置。
【請求項１１】入力された音声データから話者の入力
音声を認識する音声認識ステップと、入力された音声デ
ータから雑音を検出する雑音検出ステップと、検出雑音
に応じて、ガイダンス記憶部に予め記憶されている複数
のガイダンスの中から話者に対して出力するガイダンス
を決定するガイダンス決定ステップと、話者に対して決
定したガイダンスを音声出力するガイダンス出力ステッ
プと、を含むプログラムを記録した話者状況適応型音声
対話プログラム記録媒体。
【請求項１２】入力された音声データから話者の入力
音声を認識する音声認識ステップと、入力された音声デ
ータから雑音を検出する雑音検出ステップと、検出雑音
に応じて、話者に対する所定のガイダンスの発話速度を
決定する発話速度決定ステップと、話者に対して決定さ
れた発話速度でガイダンスを音声出力するガイダンス出
力ステップと、を含むプログラムを記憶した話者状況適
応型音声対話プログラム記録媒体。
【請求項１３】入力された音声データから話者の入力
音声を認識する音声認識ステップと、入力された音声デ
ータから雑音を検出する雑音検出ステップと、検出雑音
に応じて、上記音声認識ステップにおいて使用する音声
認識エンジンを予め用意されている複数の音声認識エン
ジンから決定する音声認識エンジン決定ステップと、話
者に対してガイダンスを音声出力するガイダンス出力ス
テップと、を含むプログラムを記録した話者状況適応型
音声対話プログラム記録媒体。
【請求項１４】入力された音声データから話者の入力
音声を認識する音声認識ステップと、入力された音声デ
ータから雑音を検出する雑音検出ステップと、話者に対
してガイダンスを音声出力するガイダンス出力ステップ
と、検出雑音に応じて、音声出力されるガイダンスのア
クセントを変えるアクセント変更ステップと、を含むプ
ログラムを記録した話者状況適応型音声対話プログラム
記録媒体。
【請求項１５】入力された音声データから話者の入力
音声を認識する音声認識ステップと、話者の画像または
入力音声データに基づいて話者の特徴量を抽出する特徴
検出ステップと、抽出した特徴量と予め記憶する特徴量
とを比較して話者の特徴を認識する特徴認識ステップ
と、話者に対してガイダンスを音声出力または画面出力
するガイダンス出力ステップと、認識した話者の特徴に
応じて、出力するガイダンスの形態を変更するガイダン
ス形態変更ステップと、を含むプログラムを記録した話
者状況適応型音声対話プログラム記録媒体。
【請求項１６】入力された音声データから話者の入力
音声を認識する音声認識ステップと、入力音声データの
特徴量を抽出する特徴検出ステップと、抽出した特徴量
と予め記憶する特徴量とを比較して話者の特徴を認識す
る特徴認識ステップと、認識した話者の特徴に応じて、
上記音声認識ステップにおいて使用する音声認識エンジ
ンを予め用意された複数の音声認識エンジンの中から決
定する音声認識エンジン決定ステップと、話者に対して
ガイダンスを音声出力するガイダンス出力ステップと、
を含むプログラムを記録した話者状況適応型音声対話プ
ログラム記録媒体。
【請求項１７】話者環境の雑音を検出する雑音検出ス
テップをさらに含み、、前記ガイダンス形態変更ステッ
プは、認識した話者の特徴とともに検出雑音に応じて、
音声出力するガイダンスの形態を変更する、請求項１５
記載の話者状況適応型音声対話プログラム記録媒体。
【請求項１８】前記ガイダンス出力ステップで音声出
力するガイダンスの内容を表示するガイダンス表示ステ
ップと、検出雑音に応じて表示ガイダンスの表示状態を
変更するガイダンス表示状態変更ステップとをさらに含
む、請求項１１〜１４または１７のいずれかに記載の話
者状況適応型音声対話プログラム記録媒体。