JP2000244609A - 話者状況適応型音声対話装置及び発券装置 - Google Patents

話者状況適応型音声対話装置及び発券装置

Info

Publication number
JP2000244609A
JP2000244609A JP11044160A JP4416099A JP2000244609A JP 2000244609 A JP2000244609 A JP 2000244609A JP 11044160 A JP11044160 A JP 11044160A JP 4416099 A JP4416099 A JP 4416099A JP 2000244609 A JP2000244609 A JP 2000244609A
Authority
JP
Japan
Prior art keywords
guidance
speaker
voice
unit
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11044160A
Other languages
English (en)
Inventor
Keisuke Okamoto
圭介 岡本
Ryuji Yamazaki
竜二 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP11044160A priority Critical patent/JP2000244609A/ja
Publication of JP2000244609A publication Critical patent/JP2000244609A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Telephone Function (AREA)

Abstract

(57)【要約】 【課題】雑音レベル等の話者の環境の検出結果に応じ
て、音量以外の要素を調整することによって、人間と機
械との効率的な対話を可能とする。 【解決手段】マイク1で検出された音声データを雑音レ
ベル測定部5と音声認識部4へ入力し、対話処理部6
は、測定された雑音レベルに基づいてガイダンスの種類
やガイダンスの発声調を決定する。ガイダンス音声生成
部7は、上記決定されたガイダンスの種類や発声調に基
づいてガイダンス音声出力信号を生成し、スピーカ2で
発声する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、話者の周囲の雑
音レベルや話者の特徴などを検出して話者に出力するガ
イダンスを調整することにより、話者の状況に応じて適
切な対話を行うことのできる装置及びこの装置を応用し
た発券装置に関する。
【0002】
【従来の技術】雑音レベル等の話者状況に応じて出力音
声や音声対話を制御する装置としては、例えば特開平0
2−305153号や特開平03−010548号の各
公報に示されている。いずれも、ファジィ制御によって
話者のまわりの雑音レベルを検出し、これに基づいて出
力音声の音量を制御する。
【0003】また、特開平06−075588号に示さ
れる装置は、音声レベルと雑音レベルに基づいて装置の
使用環境における発声状況を話者に知らせ、話者に対し
て適当な音量で話すように促す。
【0004】
【発明が解決しようとする課題】しかしながら、上記の
各装置では、音量レベルにのみ着目しており、状況によ
っては適切な対話ができなくなってしまうことがある。
例えば、雑音レベルが一定以上に大きい場合は、単に出
力音声が大きくなったり話者に大声で話すよう促すだけ
であるために、話者にとっては不快な対話状況になるだ
けではなく、周囲に迷惑をかけてしまうことがある。ま
た、雑音レベルが一定以上に小さい場合には、出力音声
もそれに比例して小さくなるために、装置の発した音声
出力を聞き漏らしたりする場合も生じてくる。このよう
な状況になるのは、人間の耳の特性が、単なる電気的な
信号のS/N比に依存するのではなく、さらに複雑な要
素に基づいているからである。
【0005】この発明の目的は、雑音レベル等の話者の
環境の検出結果に応じて、音量以外の要素を調整するこ
とによって、人間と機械との効率的な対話が可能となる
装置及びその装置を応用した発展装置を提供することに
ある。
【0006】
【課題を解決するための手段】この発明は次のように構
成される。
【0007】(1) 音声データの入力部と、話者環境
の雑音を検出する雑音検出部と、話者の入力音声を認識
する音声認識部と、話者に対してガイダンスを音声出力
するガイダンス出力部と、話者に対して対話時に出力す
る複数種類のガイダンスをあらかじめ記憶するガイダン
ス記憶部と検出雑音に応じて出力するガイダンスをガイ
ダンス記憶部に記憶されているガイダンスの中から決定
するガイダンス決定部と、を設けた。(請求項1) 上記雑音検出部では、話者環境の雑音を検出する。検出
雑音とは、話者の周囲の環境の雑音の検出値である。こ
の雑音のレベルは、典型的には入力した音声データ中か
ら検出する。この他、話者の音声データが入力されるマ
イクとは別の雑音レベルを検出するマイクを設け、この
マイクから雑音レベルを検出することも可能である。入
力された音声データ中から雑音レベルを検出するには、
実時間でフーリエ変換処理した結果の音声信号周波数帯
域以外の周波数成分のパワースペクトルを検出すること
で行う。また、単純にフィルタを通して音声帯域以外の
信号成分のレベルを求める。
【0008】話者の入力音声を認識する音声認識部は、
話者の入力音声の音素を検出する。例えば、話者が「わ
たし」と話した場合、音声認識部では「わ」「た」
「し」を各音素として認識する。この音声認識手法に
は、音声データから線形予測係数やフーリエスペクトル
係数などの特徴パターンを抽出し、これと、辞書に記憶
されているパターンとのマッチングを行って認識を行う
パターンマッチング手法や、その他、隠れ(Hidde
n)マルコフ法を用いた音声認識法や、シンタックス認
識法等の周知の方法が用いられる。なお、パターンマッ
チング手法では、話者によって発声速度が異なる相違を
吸収するDP(ダイナミックプログラミング)パターン
マッチング手法が、一般に採用されている。また、音声
認識では、各音素の認識とともに形態素解析を行って単
語や品詞の認識も行うことが出来る。この発明では、単
語や品詞の認識をこの音声認識部で行っても行わなくて
も良い。
【0009】上記ガイダンス出力部は、話者に対して音
声対話を行うためのガイダンスを出力する部分である。
ガイダンスとは、話者が装置に入力すべき情報の種別・
手順・入力内容の確認など、話者との間で対話をすると
きの装置側の出力内容をいう。ガイダンスは予め辞書に
記憶されているが、この発明では、同じ意味内容を持つ
複数種類のガイダンスを予め用意している。
【0010】上記ガイダンス決定部は、雑音検出部にお
いて検出された検出雑音に応じて上記複数種類のガイダ
ンスから適切なものを決定する。この決定されたガイダ
ンスがガイダンス出力部から話者に対して音声出力され
る。
【0011】ガイダンスの種類としては、簡潔な表現の
ガイダンス、丁寧な表現(いわゆる丁寧語の事ではな
く、冗長度の大きな表現を意味する。冗長度の大きな表
現を用いる理由は、表現の一部が雑音の影響で正しく聞
き取られなくても、他の部分を聞き取ることができれ
ば、意味が正しく伝わるようにするためである。)のガ
イダンス、より丁寧な表現のガイダンスなどのように分
類され、雑音レベルが大きい程丁寧となる表現のガイダ
ンスが選ばれるようにする。このようにすると、周囲の
雑音レベルが大きくても、話者と装置との対話がより確
実なものになると共に、雑音レベルが小さい場合には対
話のスピードアップを図ることができる。
【0012】(2)前記ガイダンス記憶部及びガイダン
ス決定部に代えて、検出雑音に応じて話者に対する所定
のガイダンスの発話速度を変える発話速度変更手段を設
けた。(請求項2) 雑音レベルが小さい場合には対話のスピードアップを図
り、雑音レベルが大きい場合にはより確実な対話が行わ
れるようにする方法として、上記のガイダンスの種類を
変更するガイダンス記憶部およびガイダンス決定部に代
えて、雑音レベルに応じてガイダンスの発話速度を変え
ることによっても上記(1)の構成と同様の効果を得る
ことができる。一般には、雑音レベルが大きい場合には
ガイダンスの発話速度を遅くし、雑音レベルが小さい場
合には発話速度を速くする。
【0013】(3)前記音声認識部は、複数の音声認識
エンジンを備え、前記ガイダンス記憶部及びガイダンス
決定部に代えて、検出雑音に応じて使用する音声認識エ
ンジンを切り替える音声認識エンジン変更手段を設けた
(請求項3) また、音声認識のための音声認識エンジンを変更するこ
とによっても同じ効果を得ることができる。音声認識エ
ンジンとは、入力された音声データから話者の音声を認
識するエンジンである。一般に、DPパターンマッチン
グ手法を用いた音声認識エンジンや、隠れマルコフ手法
を用いた音声認識エンジンなど多数のものを使用するこ
とができる。また、DPマッチングの音声認識エンジン
としても、単純なDPマッチング手法を採用した音声認
識エンジンと、さらに複雑なDPマッチング手法を採用
した音声認識エンジンなどを用いることができる。一般
には、単純なDPマッチングによる音声認識では複雑な
DPマッチッグのものよりも音声認識速度は速いが認識
性能は劣化する。また複雑なDPマッチング手法を用い
た音声認識エンジンでは、認識速度は低下するがその反
面認識性能がよくなると言える。そこで、雑音レベルが
小さい場合には前者のエンジンを用い、雑音レベルが大
きい場合には後者のエンジンを用いる。このようにし
て、雑音レベルが小さい場合にはスピードアップを図
り、雑音レベルが大きい場合には確実な対話が可能とな
るように音声認識エンジンの切り替えを行う。
【0014】(4)前記ガイダンス出力部は、アクセン
トを変えてガイダンス出力が可能であり、前記ガイダン
ス記憶部及びガイダンス決定部に代えて、検出雑音に応
じてアクセントを変えるアクセント変更手段を設けた。
(請求項4) さらに、上記(1)のガイダンス出力部を、検出雑音の
レベルに応じてアクセントを変えてガイダンス出力がで
きるようにすることで、同様の効果を得ることができ
る。例えば、雑音レベルがかなり大きな場合にガイダン
スの中のキーワードだけを強調すべきアクセントをつけ
たり、雑音レベルがある程度大きな場合にはガイダンス
が尻上がりになるような高低アクセントをつけたりす
る。またこれ以外にも、声の高さ(例えば、男性や女性
の区別)、ポーズの挿入の有無(例えば、キーワードの
直後にポーズを入れる)などの様々なガイダンスの発声
調を雑音レベルに応じて変えることで、雑音レベルが低
い場合には対話のスピードアップを図り、雑音レベルの
高い場合には確実な対話が可能となるようにすることが
できる。
【0015】(5)音声データの入力部と、話者の入力
音声を認識する音声認識部と、話者に対してガイダンス
を音声出力または画面出力するガイダンス出力部と、話
者の画像または入力音声データに基づいて話者の特徴量
を抽出する特徴検出部と、抽出した特徴量と予め記憶す
る特徴量とを比較して話者の特徴を認識する特徴認識部
と、認識した話者の特徴に応じて出力するガイダンスの
形態を変更するガイダンス形態変更手段と、を設けた。
(請求項5) この発明では、上記の雑音検出部に代えて話者の特徴を
検出する特徴検出部を設けている。話者の特徴は、入力
音声データの特徴量を抽出することによって行う。その
他、カメラと捉えた画像から特徴を捉えることも出来る
(例えば、大人と子ども、男性と女性など)。特徴量の
抽出後、上記音声認識と同様DPマッチング手法を用い
ることができる。例えば、年令別、男女別、出身地別、
大人子供別、の各特徴量パターンの標準的なものを各音
素毎に予め音声認識用辞書に記憶しておく。そして、音
声認識部で入力音声を認識する時に、上記辞書を用いる
ことによって話者の特徴を認識する。話者の特徴を認識
した時に、その特徴に応じて出力するガイダンスの形態
を変更する。ガイダンスの形態とは、ガイダンスの種
類、発声調をいう。画面出力の場合はガイダンスの表示
の大きさや色などをいう。ガイダンスの発声調とは、発
話速度、強調アクセント、高低アクセント等、発声の調
子をいう。ガイダンスの変更は、例えば話者が子供の場
合にはガイダンスの発話速度を遅くし、大人の場合には
発話速度を速くする、あるいは、子供の場合にはより丁
寧なガイダンスを出力し、大人の場合には普通のガイダ
ンスを出力する、のようなガイダンス形態とする。
【0016】(6)前記音声認識部は、複数の音声認識
エンジンを備え、前記ガイダンス形態変更手段に代え
て、認識した話者の特徴に応じて使用する音声認識エン
ジンを切り替える音声認識エンジン変更手段を設けた。
(請求項6) 上記(3)と同様に音声認識エンジンとして複数のもの
を用意しておき、話者の特徴に応じて使用する音声認識
エンジンを切り替えることも可能である。
【0017】(7)話者環境の雑音を検出する雑音検出
部を備え、前記ガイダンス形態変更手段は、認識した話
者の特徴とともに検出雑音に応じて出力するガイダンス
の形態を変更する。(請求項7) また、話者の特徴を検出する特徴検出部と共に、話者環
境の雑音を検出する雑音検出部を設け、両者の検出結果
に基づいてガイダンス形態を変更することも可能であ
る。このようにすることで、さらに音声対話の確実性を
高めることができる。
【0018】(8)ガイダンス内容を表示するガイダン
ス表示部と、検出雑音に応じて表示ガイダンスの表示状
態を変更するガイダンス表示状態変更部とを設けた。
(請求項8) ガイダンス出力を音声で行うと共に、ガイダンス内容を
表示するガイダンス表示部を設けることにより、ガイダ
ンス音声が聞き取れない場合があってもガイダンスの内
容を知らせることが可能になる。また、このガイダンス
内容は、検出雑音に応じて、文字列の大きさを大きくし
たり、キーワード部分を強調表示するなどのガイダンス
形態を変更することで対話の確実性を高めることができ
る。
【0019】(9)雑音検出部は、入力音声データ中の
雑音を検出して話者環境の雑音を検出する。(請求項
9) 雑音検出部による雑音の検出は、上述のように入力音声
データ中から検出するのが可能であるが、話者の周囲の
雑音検出するためのマイクを別に設けて、この信号から
雑音を検出することも可能である。
【0020】(10)上記(1)〜(9)のいずれかに
記載の話者状況適応型音声対話装置と、貨幣、プリペイ
ドカード等の価値記憶媒体、口座出金用のカード等の券
購入用媒体受入部と、清算後に発券する発券部とで発券
装置を構成する。前記ガイダンスは発券手順に沿ったガ
イダンスである。(請求項10) 以上の(1)〜(9)に記載の話者状況適応型音声対話
装置を、駅の券売機などの発券装置に適応する場合、金
額等の入力のためのキー類等が不要となる。これによ
り、装置全体の小型化が可能となる。なお、上記(1)
〜(9)の対話装置は、プログラムで構成することが出
来るから、これを記録した媒体で提供することが可能で
ある。
【0021】
【発明の実施の形態】図1は、この発明の実施形態であ
る音声対話装置の概略の構成図を示す。
【0022】この装置は、マイク1とスピーカ2と本体
とで構成される。本体は、マイク1からの音声信号をA
D変換するAD変換器3と、AD変換された音声データ
を認識する音声認識部4と、音声データ中の雑音レベル
を測定する雑音レベル測定部5と、測定した雑音レベル
に基づいてガイダンスの形態を決定する対話処理部6
と、決定されたガイダンスの形態に基づいてガイダンス
音声を生成するガイダンス音声生成部7とで構成され
る。
【0023】この実施例でのガイダンスの形態とは、ガ
イダンスの対話フローまたはガイダンスの発声調を意味
する。ガイダンスの発声調とは、ガイダンスの音量レベ
ル、発話速度、強弱アクセント、高低アクセントを意味
する。この実施形態では、上記対話フロー及びガイダン
スの発声調を共に対話処理部6において決定するが、こ
のうちの対話フローだけ決定してもよいし、あるいはガ
イダンスの発声調のいずれかの種類を決定するだけでも
よい。
【0024】音声認識部4は、DPパターンマッチング
手法による音声認識を行う。すなわち、「あ」「い」
「う」....の50音およびその他の各音素の標準パ
ターンを記憶した辞書を用い、音声データから抽出した
各音素とのDPパターンマッチングにより音声認識を行
う。この場合、各音素の母音と子音を分離してマッチン
グするようにしてもよい。認識された結果は外部の処理
部と対話処理部6に入力される。外部の処理部は、認識
結果から形態素解析等によって意味内容を認識する。こ
の形態素解析は音声認識部4や対話処理部6においても
行うことが出来る。対話処理部6には、さらに雑音レベ
ル測定部5で測定された雑音レベルも入力する。そし
て、雑音レベルに応じてガイダンスの形態を決定し、音
声対話を制御する。
【0025】図2は、対話処理部6でガイダンスの形態
決定処理のために使用するテーブルを示している。雑音
レベルは、小、中、大、特大の4つに区分し、各区分に
対応して対話フロー及びガイダンス発声調を記憶する。
今、この装置を列車券売機に適用した場合の、対話中に
生じる入力キーワードが図3に示すパターンとすると、
列車券売機での対話フロー及びガイダンスの表現は図4
に示すようになる。すなわち、入力キーワードが、駅
名、種別、枚数であるとすると、例えば、対話フローが
Aの場合は、「駅名、種別、枚数をどうぞ」が音声出力
され、これらの3つの項目が一括して音声入力される。
このような対話フローAが選択される場合は、雑音レベ
ルが最も小さな小の場合である。また、対話フローと共
に音量レベルや発話速度などのガイダンスの発声調も決
定される。図2に示すテーブルに従うとすると、例えば
雑音レベルが小の場合にはガイダンスの発話速度が速く
設定され、また、雑音レベルが大の場合には発話速度が
遅く設定される。また、雑音レベルが特大の場合には、
強弱アクセントは、キーワードが強調され、高低アクセ
ントもキーワードも強調される。強弱アクセントとは、
ガイダンス中のキーワードの部分だけ音量レベルを上げ
る処理を意味し、高低アクセントとは、ガイダンスの末
尾のイントネーションを上げて疑問文であることを強調
する。イントネーションを上げる部分をキーワードの部
分にしてもかまわない。
【0026】上記のように、雑音レベルが小さい場合に
はガイダンスの聞取りが容易であると考えられるため
に、装置側から出力するガイダンスを簡潔なものにす
る。これにより操作のスピードアップを図り効率的な入
力を可能にする。また、雑音レベルが大きい場合にはガ
イダンスを長めの丁寧な表現にすることで、ガイダンス
音声の内容を確実に伝達し、雑音環境に影響されずに確
実な入力操作が可能となる。
【0027】図5は、上記音声対話装置の動作を示すフ
ローチャートである。
【0028】音声対話開始前に、マイク1から入力され
る音声信号から雑音レベルの測定を開始する(ST
1)。雑音レベルの測定は、実時間による離散フーリエ
変換演算を行い、音声スペクトル以外のスペクトル成分
によるパワースペクトルを求めることによって行う。な
お、離散フーリエ変換演算を実時間で行うにはDSP
(デジタルシグナルプロセッサ)による演算が必要であ
る。また、簡易な方法として、フィルタによって音声帯
域以外の信号成分を抽出し、このレベルを雑音レベルと
して測定することも出来る。
【0029】上記測定した雑音レベルに基づいて、音声
認識のための辞書の切り替えを行う。音声認識用辞書は
各雑音レベルに対応したものを予め複数個用意されてい
る。各辞書には、音素毎の標準パターンが記憶され、大
きな雑音レベルに対応する辞書には、マッチングの許容
幅が大きな標準パターンが、小さな雑音レベルに対応す
る辞書には、マッチングの許容幅が小さな標準パターン
が記憶される。このように、音声認識辞書を切り替える
ことによって、音声認識エンジンの特性を変えることが
可能であるが、音声認識手法そのものを変えることも可
能である。例えば、DPパターンマッチング手法を備え
た音声認識エンジンから、隠れマルコフによる音声認識
手法を備えたエンジンに切り替えたり、単純なDPパタ
ーンマッチングによる音声認識エンジンから、複雑なD
Pパターンマッチングを行う音声認識エンジンに切り替
えたりすることができる。
【0030】上記ST2では、使用する音声認識辞書を
対話前の雑音に対応するものとして初期設定する。
【0031】次に、上記雑音レベルに応じて、図2に示
す、対話フロー及びガイダンスの発声調の初期値を決定
する(ST3)。
【0032】初期値の設定をした後、話者との間で音声
の対話を開始する(ST4)。すなわち、話者に対して
最初のメッセージをガイダンスとして出力する。例え
ば、図4に示す列車券売機の例では、対話フローの初期
値がAであるとすると、「駅名、種別、枚数をどうぞ」
とガイダンス音声出力する。これに対して、話者よりマ
イク1に向かって音声が入力される。音声対話処理中に
雑音レベルの変化がなければ、同一の辞書を使って、入
力された音声データが音声認識部4で音声認識処理さ
れ、認識結果が図外の処理部(券売機処理部)と対話処
理部6に出力される。
【0033】音声対話中に雑音レベルの変化があれば、
ST5→ST6と進んで、変化した雑音レベルに対応す
る音声認識辞書に切り替えられる(ST6)。また、対
話フロー及び発声調も、変化した雑音レベルに応じたも
のに変更される(ST7)。以上の操作を音声対話が終
了するまで行って(ST8)、対話を終えた段階で雑音
レベルの測定を終了して(ST9)、動作が終わる。
【0034】図5において、発声調の変更は、図2に示
す音量レベル、発話速度、強弱アクセント、高低アクセ
ントを同時に変更するものであるが、このうち、少なく
とも、発話速度、強弱アクセント、高低アクセントのい
ずれか1つ以上の発声調の変更であって構わない。音量
レベルのみの変更は信号対雑音のSN比のみを注目した
処理であるために適切ではない。音量レベルに発話速
度、強弱アクセント、高低アクセントの3つの発話調の
いずれか1つ以上を組み合わせるのは効果的である。ま
た、ガイダンスの発声調を変えずに対話フローのみを変
えることでも構わない。さらに、対話フローやガイダン
ス発声調を変えずに、音声認識エンジンを変える、すな
わち、音声認識辞書や音声認識手法だけを切り替えるこ
とでもよい。
【0035】図6は、この発明の他の実施形態を示して
いる。この実施形態では、図1に示す音声対話装置に、
話者特徴検知部8を新たに設けている。
【0036】話者特徴検知部8は、音声認識部4におい
て音声を認識するのと同様に、音声データから得られる
特徴量パターンと、予め用意した特徴量標準パターンと
をDPパターンマッチングによって話者の特徴を検知す
る。特徴量パターンとしては、年令別パターン、男女別
パターン、出身地別パターン、大人子供別パターンなど
がある。すなわち、音素毎にこれらのパターンの標準パ
ターンを予め辞書に記憶しておき、音声データから得ら
れるパターンとDPパターンマッチングで年令や男女を
特定する。例えば、「あ」の音素のパターンが音声デー
タから得られた場合、10代、20代、30代、40
代、50代、60代の各年代別の「あ」の音素の標準パ
ターンとそれぞれ比較し、マッチング適合度の最も高い
標準パターンを認識して年令を特定する。なお、出身地
別パターンは、方言による発音の相違をカバーするため
のものである。話者特徴検知部8では、さらに話者の発
話開始タイミングによる話者の熟練度を検出し、これを
話者の特徴要素として加えることもできる。
【0037】対話処理部6には、このようにして得られ
た話者の特徴と雑音レベル測定部5で得られた雑音レベ
ルとに基づいてガイダンスの形態を決定する。
【0038】図7は、対話処理部で用いるテーブルを示
している。図2に示すテーブルと相違するのは、話者の
特徴を決定のためのパラメータとして用いている点であ
る。すなわち、雑音レベルと話者の特徴に基づいて対話
フローまたはガイダンスの発声調を決定する。
【0039】これ以外にも、ガイダンスの発声調とし
て、ガイダンス音声の声の高さを切り替えたり(例え
ば、話者が男性ならば女性の声のガイダンス音声にする
(もしくはその逆))、方言の切り替えを行ったり(話
者の出身地に応じて、ガイダンス音声の表現とイントネ
ーションを変える)、または、外国人と判定された時に
は英語のガイダンスに切り替えるなどのバリエーション
を追加することが可能である。また、雑音レベル測定部
5を設けずに、話者の特徴だけに基づいて対話フローや
ガイダンスの発声調を決定してもよい。さらに、話者の
特徴は音声データに基づいて検知しているが、カメラな
どからの画像情報に基づいて検知することも可能であ
る。また、身分証明情報を内蔵したカードを差し込んで
利用するシステムの場合には、そのカードに話者の年齢
や性別などの情報が記録されている場合が多く、その場
合には年齢や性別などの情報をカードから読み取って、
話者の特徴として用い、ガイダンスの形態の切替えに用
いることができる。
【0040】図8は、上記図6に示す音声対話装置の動
作を示すフローチャートである。
【0041】図5に示すフローチャートと相違する点
は、話者の特徴検知とそのための処理が加えられた点で
ある。すなわち、ST10において話者の特徴が検知さ
れ、ST1で測定された雑音レベルと話者の特徴に基づ
いて図7のテーブルを用いて対話フロー及びガイダンス
の発声調の初期値を決定する(ST3)。以下、図5と
同様の動作を行う。
【0042】図9は、この発明の他の実施形態を示す。
同図に示す音声対話装置が図6に示す装置と相違する点
は、ガイダンス文字列生成部9とそのガイダンス文字列
を表示する画面表示部10を設けた点である。対話処理
部6においては、これまで説明したのと同様に、雑音レ
ベル又は話者の特徴に基づいて対話フローや発声調の決
定を行うが、これと同様に、画面表示用のガイダンス文
字列の表示状態を決定する。ガイダンス文字列の表現は
基本的にはガイダンス音声の表現と同じであるが、雑音
レベルが高い場合には、ガイダンス音声が聞き取れない
可能性があるので、画面上に表示された同内容の文字列
の大きさを大きくする、または強調表示するなどして確
実にガイダンスの内容を伝達するようにする。また、話
者の特徴によってもガイダンス文字列の表示状態を変更
することができる。例えば、話者が高年令であると判定
された場合には、画面に表示するガイダンス文字列の文
字を大きくして読み易くする。子供の場合にはひらがな
表記とする(または漢字に読み仮名をふる)。外国人の
場合には英語表記にする。このように、話者に応じて、
最適な表示状態でガイダンス文字列を表示する。
【0043】図10は、上記図9の装置での対話処理部
で用いるテーブルを示す。このテーブルでは、図7に示
すガイダンスの発声調の表示を省略している。この他、
雑音レベルが大きい場合にはキーワードのみゴシック体
にするなどの文字フォントの変更を行うことも有効であ
る。
【0044】図11は、上記の装置の動作を示すフロー
チャートである。図8との相違点は、対話フロー及び発
声調を決定する際に、同時にガイダンス文字列の表示状
態を決定している点である(ST3及びST7)。
【0045】以上に述べた音声対話装置は、人間と機械
とのコミュニケーションを図るシステム、特に周囲の雑
音環境が時間、日によって変化するシステムに広く適用
することが出来る。例えば、列車券売機の配置位置は雑
音環境が著しく変動するが、図4に示すようなテーブル
のある音声対話装置に、貨幣、プリペイドカード等の価
値記憶媒体、口座出金用のカード等の券購入用媒体を受
け入れる受入部、清算後に発券する発券部を加えること
で、雑音に強い対話型列車券売機を構成出来る。この券
売機では、入力操作が音声で行われることになるため、
キーパネルが不要となり、装置の小型化が可能である。
【0046】
【発明の効果】請求項1の発明によれば、雑音環境から
話者の置かれた状況を自動的に検知し、例えば、雑音レ
ベルが低い場合には音声対話をスピードアップし、雑音
レベルが高い場合にはゆっくりと丁寧なガイダンスを音
声出力するようにして確実な入力操作を確保するなど、
効率的で確実な音声対話を実現できる。
【0047】また、請求項2〜4の発明においても、雑
音レベルに応じて、効率的で且つ確実な音声対話を実現
できる。
【0048】また、請求項5の発明においては、男女や
年令等の話者の特徴に応じて最適なガイダンスを出力す
ることができ、対話の確実性を高めることができる。
【0049】また、請求項6の発明でも、話者に応じた
音声認識エンジンを自動選択することで、話者の特徴に
応じた最適な音声認識が可能になり、音声対話の確実性
を高めることができる。
【0050】請求項7の発明では、話者の特徴と共に周
囲の雑音を検出してこれらに基づいてガイダンスの形態
を変更するために、さらに効率的で且つ確実な音声対話
を得ることができる。
【0051】請求項8の発明でも、音声対話の確実性を
さらに高めることができる。
【0052】請求項10の発明では、人と発券装置本体
とのコミュニケーションが音声でできるために、多数の
キー類が不要となり、発券装置を小型化できる。
【図面の簡単な説明】
【図1】この発明の第1の実施形態の音声対話装置の構
成図
【図2】対話処理部で用いるテーブル
【図3】列車券売機での入力キーワード表
【図4】列車券売機の対話フロー及びガイダンスの表現
を示す図
【図5】音声対話装置の動作を示すフローチャート
【図6】この発明の第2の実施形態の音声対話装置の構
成図
【図7】対話処理部で用いるテーブル
【図8】上記音声対話装置の動作を示すフローチャート
【図9】この発明の第3の実施形態の音声対話装置の構
成図
【図10】対話処理部で用いるテーブル
【図11】上記音声対話装置の動作を示すフローチャー

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 音声データの入力部と、話者環境の雑音
    を検出する雑音検出部と、話者の入力音声を認識する音
    声認識部と、話者に対してガイダンスを音声出力するガ
    イダンス出力部と、話者に対して対話時に出力する複数
    種類のガイダンスをあらかじめ記憶するガイダンス記憶
    部と検出雑音に応じて、ガイダンス出力部で出力するガ
    イダンスをガイダンス記憶部に記憶されているガイダン
    スの中から決定するガイダンス決定部と、を設けた、話
    者状況適応型音声対話装置。
  2. 【請求項2】 前記ガイダンス記憶部及びガイダンス決
    定部に代えて、検出雑音に応じて話者に対する所定のガ
    イダンスの発話速度を変える発話速度変更手段を設け
    た、請求項1記載の話者状況適応型音声対話装置。
  3. 【請求項3】 前記音声認識部は、複数の音声認識エン
    ジンを備え、前記ガイダンス記憶部及びガイダンス決定
    部に代えて、検出雑音に応じて使用する音声認識エンジ
    ンを切り替える音声認識エンジン変更手段を設けた、請
    求項1記載の話者状況適応型音声対話装置。
  4. 【請求項4】 前記ガイダンス出力部は、アクセントを
    変えてガイダンス出力が可能であり、前記ガイダンス記
    憶部及びガイダンス決定部に代えて、検出雑音に応じて
    アクセントを変えるアクセント変更手段を設けた、請求
    項1記載の話者状況適応型音声対話装置。
  5. 【請求項5】 音声データの入力部と、話者の入力音声
    を認識する音声認識部と、話者に対してガイダンスを音
    声出力または画面出力するガイダンス出力部と、話者の
    画像または入力音声データに基づいて話者の特徴量を抽
    出する特徴検出部と、抽出した特徴量と予め記憶する特
    徴量とを比較して話者の特徴を認識する特徴認識部と、
    認識した話者の特徴に応じて出力するガイダンスの形態
    を変更するガイダンス形態変更手段と、を設けた、話者
    状況適応型音声対話装置。
  6. 【請求項6】 前記音声認識部は、複数の音声認識エン
    ジンを備え、前記ガイダンス形態変更手段に代えて、認
    識した話者の特徴に応じて使用する音声認識エンジンを
    切り替える音声認識エンジン変更手段を設けた、請求項
    5記載の話者状況適応型音声対話装置。
  7. 【請求項7】 話者環境の雑音を検出する雑音検出部を
    備え、前記ガイダンス形態変更手段は、認識した話者の
    特徴とともに検出雑音に応じて出力するガイダンスの形
    態を変更する、請求項5記載の話者状況適応型音声対話
    装置。
  8. 【請求項8】 ガイダンス内容を表示するガイダンス表
    示部と、検出雑音に応じて表示ガイダンスの表示状態を
    変更するガイダンス表示状態変更部とを設けた請求項1
    〜4または7のいずれかに記載の話者状況適応型音声対
    話装置。
  9. 【請求項9】 雑音検出部は、入力音声データ中の雑音
    を検出して話者環境の雑音を検出する、請求項1〜4、
    7、8のいずれかに記載の話者状況適応型音声対話装
    置。
  10. 【請求項10】 請求項1〜9のいずれかに記載の話者
    状況適応型音声対話装置と、貨幣、プリペイドカード等
    の価値記憶媒体、口座出金用のカード等の券購入用媒体
    受入部と、清算後に発券する発券部と、を備え、前記ガ
    イダンスは発券手順に沿ったガイダンスである、発券装
    置。
  11. 【請求項11】 入力された音声データから話者の入力
    音声を認識する音声認識ステップと、入力された音声デ
    ータから雑音を検出する雑音検出ステップと、検出雑音
    に応じて、ガイダンス記憶部に予め記憶されている複数
    のガイダンスの中から話者に対して出力するガイダンス
    を決定するガイダンス決定ステップと、話者に対して決
    定したガイダンスを音声出力するガイダンス出力ステッ
    プと、を含むプログラムを記録した話者状況適応型音声
    対話プログラム記録媒体。
  12. 【請求項12】 入力された音声データから話者の入力
    音声を認識する音声認識ステップと、入力された音声デ
    ータから雑音を検出する雑音検出ステップと、検出雑音
    に応じて、話者に対する所定のガイダンスの発話速度を
    決定する発話速度決定ステップと、話者に対して決定さ
    れた発話速度でガイダンスを音声出力するガイダンス出
    力ステップと、を含むプログラムを記憶した話者状況適
    応型音声対話プログラム記録媒体。
  13. 【請求項13】 入力された音声データから話者の入力
    音声を認識する音声認識ステップと、入力された音声デ
    ータから雑音を検出する雑音検出ステップと、検出雑音
    に応じて、上記音声認識ステップにおいて使用する音声
    認識エンジンを予め用意されている複数の音声認識エン
    ジンから決定する音声認識エンジン決定ステップと、話
    者に対してガイダンスを音声出力するガイダンス出力ス
    テップと、を含むプログラムを記録した話者状況適応型
    音声対話プログラム記録媒体。
  14. 【請求項14】 入力された音声データから話者の入力
    音声を認識する音声認識ステップと、入力された音声デ
    ータから雑音を検出する雑音検出ステップと、話者に対
    してガイダンスを音声出力するガイダンス出力ステップ
    と、検出雑音に応じて、音声出力されるガイダンスのア
    クセントを変えるアクセント変更ステップと、を含むプ
    ログラムを記録した話者状況適応型音声対話プログラム
    記録媒体。
  15. 【請求項15】 入力された音声データから話者の入力
    音声を認識する音声認識ステップと、話者の画像または
    入力音声データに基づいて話者の特徴量を抽出する特徴
    検出ステップと、抽出した特徴量と予め記憶する特徴量
    とを比較して話者の特徴を認識する特徴認識ステップ
    と、話者に対してガイダンスを音声出力または画面出力
    するガイダンス出力ステップと、認識した話者の特徴に
    応じて、出力するガイダンスの形態を変更するガイダン
    ス形態変更ステップと、を含むプログラムを記録した話
    者状況適応型音声対話プログラム記録媒体。
  16. 【請求項16】 入力された音声データから話者の入力
    音声を認識する音声認識ステップと、入力音声データの
    特徴量を抽出する特徴検出ステップと、抽出した特徴量
    と予め記憶する特徴量とを比較して話者の特徴を認識す
    る特徴認識ステップと、認識した話者の特徴に応じて、
    上記音声認識ステップにおいて使用する音声認識エンジ
    ンを予め用意された複数の音声認識エンジンの中から決
    定する音声認識エンジン決定ステップと、話者に対して
    ガイダンスを音声出力するガイダンス出力ステップと、
    を含むプログラムを記録した話者状況適応型音声対話プ
    ログラム記録媒体。
  17. 【請求項17】 話者環境の雑音を検出する雑音検出ス
    テップをさらに含み、、前記ガイダンス形態変更ステッ
    プは、認識した話者の特徴とともに検出雑音に応じて、
    音声出力するガイダンスの形態を変更する、請求項15
    記載の話者状況適応型音声対話プログラム記録媒体。
  18. 【請求項18】 前記ガイダンス出力ステップで音声出
    力するガイダンスの内容を表示するガイダンス表示ステ
    ップと、検出雑音に応じて表示ガイダンスの表示状態を
    変更するガイダンス表示状態変更ステップとをさらに含
    む、請求項11〜14または17のいずれかに記載の話
    者状況適応型音声対話プログラム記録媒体。
JP11044160A 1999-02-23 1999-02-23 話者状況適応型音声対話装置及び発券装置 Pending JP2000244609A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11044160A JP2000244609A (ja) 1999-02-23 1999-02-23 話者状況適応型音声対話装置及び発券装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11044160A JP2000244609A (ja) 1999-02-23 1999-02-23 話者状況適応型音声対話装置及び発券装置

Publications (1)

Publication Number Publication Date
JP2000244609A true JP2000244609A (ja) 2000-09-08

Family

ID=12683866

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11044160A Pending JP2000244609A (ja) 1999-02-23 1999-02-23 話者状況適応型音声対話装置及び発券装置

Country Status (1)

Country Link
JP (1) JP2000244609A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331192A (ja) * 2000-05-23 2001-11-30 Fujitsu Ten Ltd 音声コマンド案内装置
JP2004004182A (ja) * 2002-05-30 2004-01-08 Toshiba Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2006209215A (ja) * 2005-01-25 2006-08-10 Honda Motor Co Ltd 音声認識型機器制御装置
JP2007163895A (ja) * 2005-12-14 2007-06-28 Mitsubishi Electric Corp 音声認識装置
JP2018523144A (ja) * 2015-05-27 2018-08-16 グーグル エルエルシー 提案される音声ベースのアクションクエリの提供
WO2018211750A1 (ja) * 2017-05-16 2018-11-22 ソニー株式会社 情報処理装置および情報処理方法
US10783903B2 (en) 2017-05-08 2020-09-22 Olympus Corporation Sound collection apparatus, sound collection method, recording medium recording sound collection program, and dictation method

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331192A (ja) * 2000-05-23 2001-11-30 Fujitsu Ten Ltd 音声コマンド案内装置
JP2004004182A (ja) * 2002-05-30 2004-01-08 Toshiba Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2006209215A (ja) * 2005-01-25 2006-08-10 Honda Motor Co Ltd 音声認識型機器制御装置
JP4663342B2 (ja) * 2005-01-25 2011-04-06 本田技研工業株式会社 音声認識型機器制御装置
JP2007163895A (ja) * 2005-12-14 2007-06-28 Mitsubishi Electric Corp 音声認識装置
JP2018523144A (ja) * 2015-05-27 2018-08-16 グーグル エルエルシー 提案される音声ベースのアクションクエリの提供
US11869489B2 (en) 2015-05-27 2024-01-09 Google Llc Providing suggested voice-based action queries
US10504509B2 (en) 2015-05-27 2019-12-10 Google Llc Providing suggested voice-based action queries
US11238851B2 (en) 2015-05-27 2022-02-01 Google Llc Providing suggested voice-based action queries
US10783903B2 (en) 2017-05-08 2020-09-22 Olympus Corporation Sound collection apparatus, sound collection method, recording medium recording sound collection program, and dictation method
US11138991B2 (en) 2017-05-16 2021-10-05 Sony Corporation Information processing apparatus and information processing method
JPWO2018211750A1 (ja) * 2017-05-16 2020-03-19 ソニー株式会社 情報処理装置および情報処理方法
JP7131550B2 (ja) 2017-05-16 2022-09-06 ソニーグループ株式会社 情報処理装置および情報処理方法
WO2018211750A1 (ja) * 2017-05-16 2018-11-22 ソニー株式会社 情報処理装置および情報処理方法

Similar Documents

Publication Publication Date Title
US7062439B2 (en) Speech synthesis apparatus and method
US6725199B2 (en) Speech synthesis apparatus and selection method
US7062440B2 (en) Monitoring text to speech output to effect control of barge-in
JP4085130B2 (ja) 感情認識装置
US7191132B2 (en) Speech synthesis apparatus and method
US10163436B1 (en) Training a speech processing system using spoken utterances
US7280968B2 (en) Synthetically generated speech responses including prosodic characteristics of speech inputs
JP4914295B2 (ja) 力み音声検出装置
JPH09500223A (ja) 多言語音声認識システム
Mouaz et al. Speech recognition of moroccan dialect using hidden Markov models
Wutiwiwatchai et al. Thai speech processing technology: A review
Rao et al. Language identification using spectral and prosodic features
Vaissiere The use of prosodic parameters in automatic speech recognition
USH2187H1 (en) System and method for gender identification in a speech application environment
Li et al. Analysis and modeling of F0 contours for Cantonese text-to-speech
Fellbaum et al. Principles of electronic speech processing with applications for people with disabilities
CN115176309A (zh) 语音处理系统
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2000244609A (ja) 話者状況適応型音声対話装置及び発券装置
JP2001318915A (ja) フォント変換装置
Syadida et al. Sphinx4 for indonesian continuous speech recognition system
JP3110025B2 (ja) 発声変形検出装置
JP3259734B2 (ja) 音声認識装置
JP2664785B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060627

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061024