JP3285704B2 - 音声対話のための音声認識方法及び装置 - Google Patents

音声対話のための音声認識方法及び装置

Info

Publication number
JP3285704B2
JP3285704B2 JP13400594A JP13400594A JP3285704B2 JP 3285704 B2 JP3285704 B2 JP 3285704B2 JP 13400594 A JP13400594 A JP 13400594A JP 13400594 A JP13400594 A JP 13400594A JP 3285704 B2 JP3285704 B2 JP 3285704B2
Authority
JP
Japan
Prior art keywords
utterance
user
speech
likelihood
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP13400594A
Other languages
English (en)
Other versions
JPH086590A (ja
Inventor
眞吾 黒岩
一哉 武田
正樹 内藤
誠一 山本
Original Assignee
ケイディーディーアイ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ケイディーディーアイ株式会社 filed Critical ケイディーディーアイ株式会社
Priority to JP13400594A priority Critical patent/JP3285704B2/ja
Publication of JPH086590A publication Critical patent/JPH086590A/ja
Application granted granted Critical
Publication of JP3285704B2 publication Critical patent/JP3285704B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声を用いてユーザ(利
用者)との対話を行う音声対話装置に関し、特には、ユ
ーザの発話開始時刻に対する検出精度の向上、並びにユ
ーザの発話に対する音声認識精度の向上に有用なもので
ある。
【0002】
【従来の技術】音声対話装置では音声を用いて装置側か
らユーザに話しかけることによりシステムアナウンスを
行い、ユーザの発話即ちユーザが発する音声を認識する
ことによりユーザの意思を理解して、ユーザと装置間で
対話を行う。従って、音声認識精度が重要である。
【0003】図7を参照して、従来の音声対話装置にお
ける音声認識方法及び音声認識装置を説明する。図7に
おいて、音声対話装置は対話管理装置1と、アナウンス
発声装置2と、音声認識装置50とを具備している。音
声出力回路3及び音声入力回路5は音声対話装置に内蔵
されることもあり、あるいは音声対話装置とは別物で適
宜接続されることもある。後者の例としては電話機の送
受話器があり、電話回線と電話交換機を通して音声対話
装置に接続される。音声認識装置50は発話検出用の音
声信号通過スイッチ51と、発話検出用の音響分析部1
3と、発話検出部52と、音声認識用の音声信号通過ス
イッチ17と、音声認識用の音響分析部18と、音声認
識部19とを具備している。
【0004】以下、図7に示した音声対話装置の動作と
各部の機能を説明する。
【0005】(i)アナウンス発声装置2では、対話管
理装置1がコード名等により指定したシステムアナウン
スのテキスト1aに基づいて、発声すべき音声の電気信
号2aを作成し、音声出力回路3に送る。また、システ
ムアナウンスの開始を表わすアナウンス開始信号2b、
あるいはシステムアナウンスの終了を表わすアナウンス
終了信号2cを音声認識装置50の発話検出用音声信号
通過スイッチ51に送る。音声出力回路3は電気信号2
aを音声に変換して、システムアナウンス3aをユーザ
に聞かせる。このシステムアナウンス3aに対するユー
ザの発話4を音声入力回路5が受け取り、電気的音声信
号5aに変換して音声認識装置50の発話検出用及び音
声認識用の各音声信号通過スイッチ51,17に送る。
【0006】(ii)音声認識装置50では、システムア
ナウンス中のユーザの割り込み発話を受け付ける場合は
アナウンス開始信号2bを与えられた時からアナウンス
終了信号2cを与えられた後の一定時間まで音声信号通
過スイッチ51が閉(オン)となり、またシステムアナ
ウンス中のユーザの割込み発話を受け付けない場合はア
ナウンス終了信号2cを与えられた時から一定時間だけ
音声信号通過スイッチ51が閉(オン)となる。この音
声信号通過スイッチ51が閉じている間に送られた音声
信号を発話検出対象の信号51aとして発話検出用の音
響分析部13に送る。
【0007】(iii)この音響分析部13では、音声信号
通過スイッチ51を通過した音声信号51aから、パワ
ースペクトラムなどユーザの発話検出に適した特徴パラ
メータ13aを算出して発話検出部52に送る。発話検
出部52では、特徴パラメータ13aに基づき、ユーザ
の発話開始時刻と発話終了時刻とを各一点決定し、その
間を指定する信号52aを音声認識用の音声信号通過ス
イッチ17に送る。
【0008】(iv)音声信号通過スイッチ17は発話検
出部52からの信号52aにより指定された間のみ閉
(オン)となり、閉じている間に送られてきた音声信号
を音声認識対象の信号17aとして音声認識用の音響分
析部18に送る。この音響分析部18では、音声信号通
過スイッチ17を通過した音声信号17aから、音声認
識に適した特徴パラメータ18aを算出し、音声認識部
19に送る。音声認識部19では、特徴パラメータ18
aに基づいて音声認識を行い、その認識結果19aを対
話管理装置1に送る。
【0009】(v)対話管理装置1では、音声認識部1
9から与えられる認識結果19aに基づいて、次に発声
すべきシステムアナウンスのテキスト1aを決定してア
ナウンス発声装置2にコード名等を送る。
【0010】以上の動作を繰り返すことにより、人間と
装置間で音声を用いた対話が行われる。なお対話管理装
置1は、必要があれば、対話内容からユーザの意思を認
識してその情報1bを外部に出力する。
【0011】
【発明が解決しようとする課題】音声対話装置では音声
認識の精度が重要であるが、上述した従来技術をユーザ
の割り込み発話を受け付けるように利用した場合には、
下記(a),(b)のような改善すべき点がある。
【0012】(a)発話検出部52ではパワースペクト
ラムなどの特徴パラメータ13aのみを用いてユーザの
発話検出を行っているため、発話開始時刻の検出精度が
良くない。更に、システムアナウンス中にユーザが意味
のない発声(冗長語)や咳をしてしまうと、その時点を
ユーザの発話開始時刻として誤って検出する可能性が高
い。その結果、意味のない発声や咳をも認識対象に含ん
で音声認識を行うことになり、音声認識精度が低下す
る。
【0013】(b)更に、発話検出部52ではユーザの
発話開始時刻を一点のみに決定しているため、発話開始
時刻の検出に誤りが生じた場合には、音声認識部19で
は回復できない誤りとなって音声認識の精度が低下す
る、という決定的な誤りの伝搬が生じる。
【0014】そこで本発明は、ユーザの発話開始時刻の
検出精度を向上させることにより高精度な音声認識を行
うことができる音声認識方法及び装置を提供することを
目的とし、更に、ユーザの発話開始時刻の検出に誤りが
あってもこれの影響を減らして高精度な音声認識を行う
ことができる音声認識方法及び装置を提供することを他
の目的とする。
【0015】
【課題を解決するための手段】上記目的を達成する第1
の発明は、音声を用いてユーザとの対話を行う音声対話
装置に適用される音声認識方法において:前記音声対話
装置のシステムアナウンスに対するユーザの発話開始時
刻の極大点を有する予測分布を予め用意しておき、この
予測分布に基づき、ユーザの発話が開始される期待値を
第1の発話開始点らしさとしてシステムアナウンス開始
後の時刻に応じて算出すること;電気信号に変換された
ユーザの発話を音響分析して発話検出用の特徴パラメー
タを算出し、この特徴パラメータに基づき、ユーザの発
話が開始されたであろう尤度を第2の発話開始点らしさ
として時刻に応じて算出すること;第2の発話開始点ら
しさに対して第1の発話開始点らしさにより重み付けを
行い、この重み付けで得た第3の発話開始点らしさを基
準値と比較し、基準値より大きくなった時点をユーザの
発話開始時刻であると決定すること;電気信号に変換さ
れたユーザの発話を音響分析して音声認識用の特徴パラ
メータを算出し、この特徴パラメータに基づき音声認識
を行う処理を、前記ユーザの発話開始時刻の決定に従っ
て行うこと;を特徴とする音声認識方法である。
【0016】また第2の発明は音声を用いてユーザとの
対話を行う音声対話装置に適用される音声認識方法にお
いて:前記音声対話装置のシステムアナウンスに対する
ユーザの発話開始時刻の極大点を有する予測分布を予め
用意しておき、この予測分布に基づき、ユーザの発話が
開始される期待値を第1の発話開始点らしさとしてシス
テムアナウンス開始後の時刻に応じて算出すること;電
気信号に変換されたユーザの発話を音響分析して発話検
出用の特徴パラメータを算出し、この特徴パラメータに
基づき、ユーザの発話が開始されたであろう尤度を第2
の発話開始点らしさとして時刻に応じて算出すること;
第1の発話開始点らしさにより第1の基準値を重み付け
して時間に応じて変化する第2の基準値を算出し、第2
の発話開始点らしさをこの第2の基準値と比較し、第2
の基準値より大きくなった時点をユーザの発話開始時刻
であると決定すること;電気信号に変換されたユーザの
発話を音響分析して音声認識用の特徴パラメータを算出
し、この特徴パラメータに基づき音声認識を行う処理
を、前記ユーザの発話開始時刻の決定に従って行うこ
と;を特徴とする音声認識方法である。
【0017】第3の発明は、音声を用いてユーザとの対
話を行う音声対話装置に適用される音声認識方法におい
て:前記音声対話装置のシステムアナウンスに対するユ
ーザの発話開始時刻の極大点を有する予測分布を予め用
意しておき、この予測分布に基づき、ユーザの発話が開
始される期待値を第1の発話開始点らしさとしてシステ
ムアナウンス開始後の時刻に応じて算出すること;電気
信号に変換されたユーザの発話を音響分析して発話検出
用の特徴パラメータを算出し、この特徴パラメータに基
づき、ユーザの発話が開始されたであろう尤度を第2の
発話開始点らしさとして時刻に応じて算出すること;第
2の発話開始点らしさに対して第1の発話開始点らしさ
により重み付けを行い、第3の発話開始点らしさを算出
すること;電気信号に変換されたユーザの発話を音響分
析して音声認識用の特徴パラメータを算出し、この特徴
パラメータに基づき、認識開始時刻を次々にずらして音
声認識を行い、且つ、各認識開始時刻に対応した音声認
識結果毎の尤度を算出すること;各認識開始時刻毎の音
声認識結果の尤度と、前記重み付けで得た第3の発話開
始点らしさとの和または積を時刻を合わせて算出し、こ
の算出した値が最大となる認識開始時刻に対応した音声
認識結果を、ユーザの発話に対する音声認識結果と判定
すること;を特徴とする音声認識方法である。
【0018】第4の発明は、音声を用いてユーザとの対
話を行う音声対話装置に適用される音声認識方法におい
て:前記音声対話装置のシステムアナウンスに対するユ
ーザの発話開始時刻の極大点を有する予測分布を予め用
意しておき、この予測分布に基づき、ユーザの発話が開
始される期待値を第1の発話開始点らしさとしてシステ
ムアナウンス開始後の時刻に応じて算出すること;電気
信号に変換されたユーザの発話を音響分析して発話検出
用の特徴パラメータを算出し、この特徴パラメータに基
づき、ユーザの発話が開始されたであろう尤度を第2の
発話開始点らしさとして時刻に応じて算出すること;第
2の発話開始点らしさに対して第1の発話開始点らしさ
により重み付けを行い、第3の発話開始点らしさを算出
すること;電気信号に変換されたユーザの発話を音響分
析して音声認識用の特徴パラメータを算出し、この特徴
パラメータに基づき、先頭に無音状態を有する確率付き
有限状態ネットワークを探索して音声認識を行うこと;
前記確率付き有限状態ネットワークの先頭の無音状態か
ら文の先頭状態へ遷移する確率を、前記重み付けで得た
第3の発話開始点らしさを用いて時刻に応じて更新する
こと;を特徴とする音声認識方法である。
【0019】そして第5の発明は、第1ないし第4の発
明において、前記ユーザの発話開始時刻の予測分布の極
大点がシステムアナウンスの無音区間に存在することを
特徴とし、第6の発明は更に前記無音区間はその長さが
0.2秒以上3秒以下であり、システムアナウンスの文
と文の間及び文節と文節との間のうち少なくとも一方に
存在することを特徴とする。
【0020】次に、第7の発明は、音声を用いてユーザ
との対話を行う音声対話装置に適用される音声認識装置
において;前記音声対話装置のシステムアナウンスに対
するユーザの発話開始時刻の極大点を有する予測分布を
格納する第1手段と;前記格納された予測分布に基づ
き、ユーザの発話が開始される期待値を第1の発話開始
点らしさとしてシステムアナウンス開始後の時刻に応じ
て算出する第2手段と;電気信号に変換されたユーザの
発話を音響分析し、発話検出用の特徴パラメータを算出
する第3手段と;前記発話検出用の特徴パラメータに基
づき、ユーザの発話が開始されたであろう尤度を第2の
発話開始点らしさとして時刻に応じて算出する第4手段
と;第2の発話開始点らしさに対して第1の発話開始点
らしさにより重み付けを行い、この重み付けされた値を
第3の発話開始点らしさとして時刻に応じて算出する第
5手段と;第3の発話開始点らしさを基準値と比較し、
この基準値より大きくなった時点をユーザの発話開始時
刻であると決定する第6手段と;電気信号に変換された
ユーザの発話を音響分析して音声認識用の特徴パラメー
タを算出し、この特徴パラメータに基づき音声認識を行
う処理を、前記ユーザの発話開始時刻の決定に従って行
う第7手段と;を具備することを特徴とする音声認識装
置である。
【0021】第8の発明は、音声を用いてユーザとの対
話を行う音声対話装置に適用される音声認識装置におい
て;前記音声対話装置のシステムアナウンスに対するユ
ーザの発話開始時刻の極大点を有する予測分布を格納す
る第1手段と;前記格納された予測分布に基づき、ユー
ザの発話が開始される期待値を第1の発話開始点らしさ
としてシステムアナウンス開始後の時刻に応じて算出す
る第2手段と;電気信号に変換されたユーザの発話を音
響分析し、発話検出用の特徴パラメータを算出する第3
手段と;前記発話検出用の特徴パラメータに基づき、ユ
ーザの発話が開始されたであろう尤度を第2の発話開始
点らしさとして時刻に応じて算出する第4手段と;第1
の基準値に対して第1の発話開始点らしさにより重み付
けを行い、この重み付けされた値を第2の基準値として
時刻に応じて算出する第5手段と;第2の発話開始点ら
しさを前記重み付けで得た第2の基準値と比較し、この
第2の基準値より大きくなった時点をユーザの発話開始
時刻であると決定する第6手段と;電気信号に変換され
たユーザの発話を音響分析して音声認識用の特徴パラメ
ータを算出し、この特徴パラメータに基づき音声認識を
行う処理を、前記ユーザの発話開始時刻の決定に従って
行う第7手段と;を具備することを特徴とする音声認識
装置である。
【0022】そして第9の発明は、第7または第8の発
明における第7手段が、電気信号に変換されたユーザの
発話を、ユーザの発話開始時刻であると決定された時点
から通過させるスイッチ手段と;このスイッチ手段を通
過したユーザの発話を音響分析して音声認識用の特徴パ
ラメータを算出する音声認識用の音響分析手段と;この
音響分析手段により算出された音声認識用の特徴パラメ
ータに基づいて音声認識を行う音声認識手段と;を具備
することを特徴とする。また第10の発明は第7または
第8の発明における第7手段が、ユーザの発話開始時刻
であると決定された時点から、電気信号に変換されたユ
ーザの発話の音響分析を開始して音声認識用の特徴パラ
メータを算出する音声認識用の音響分析手段と;この音
響分析手段により算出された音声認識用の特徴パラメー
タに基づいて音声認識を行う音声認識手段と;を具備す
ることを特徴とする。更に第11の発明は第7または第
8の発明における第7手段が、電気信号に変換されたユ
ーザの発話を音響分析して音声認識用の特徴パラメータ
を算出する音声認識用の音響分析手段と;この音響分析
手段で算出された音声認識用の特徴パラメータのうち、
ユーザの発話開始時刻であると決定された時点以降の特
徴パラメータに基づいて音声認識を行う音声認識手段
と;を具備することを特徴とする。
【0023】次に第12の発明は、音声を用いてユーザ
との対話を行う音声対話装置に適用される音声認識装置
において;前記音声対話装置のシステムアナウンスに対
するユーザの発話開始時刻の極大点を有する予測分布を
格納する予測分布格納手段と;前記格納された予測分布
に基づき、ユーザの発話が開始される期待値を第1の発
話開始点らしさとしてシステムアナウンス開始後の時刻
に応じて算出する第1の演算手段と;電気信号に変換さ
れたユーザの発話を音響分析し、発話検出用の特徴パラ
メータを算出する発話検出用の音声分析手段と;前記発
話検出用の特徴パラメータに基づき、ユーザの発話が開
始されたであろう尤度を第2の発話開始点らしさとして
時刻に応じて算出する第2の演算手段と;第2の発話開
始点らしさに対して第1の発話開始点らしさにより重み
付けを行い、この重み付けされた値を第3の発話開始点
らしさとして時刻に応じて算出する第3の演算手段と;
前記電気信号に変換されたユーザの発話を音響分析し、
音声認識用の特徴パラメータを算出する音声認識用の音
響分析手段と;前記音声認識用の特徴パラメータに基づ
き、認識開始時刻を次々にずらして音声認識を行い、且
つ、各認識開始時刻に対応した音声認識結果毎の尤度を
算出する音声認識手段と;各認識開始時刻毎の音声認識
結果の尤度と、第3の発話開始点らしさとの和または積
を時刻に合せて算出し、この算出した値が最大となる認
識開始時刻に対応した音声認識結果を、ユーザの発話に
対する音声認識結果と判定する音声認識結果判定手段
と;を具備することを特徴とする音声認識装置である。
【0024】第13の発明は、音声を用いてユーザとの
対話を行う音声対話装置に適用される音声認識装置にお
いて;前記音声対話装置のシステムアナウンスに対する
ユーザの発話開始時刻の極大点を有する予測分布を格納
する予測分布格納手段と;前記格納された予測分布に基
づき、ユーザの発話が開始される期待値を第1の発話開
始点らしさとしてシステムアナウンス開始後の時刻に応
じて算出する第1の演算手段と;電気信号に変換された
ユーザの発話を音響分析し、発話検出用の特徴パラメー
タを算出する発話検出用の音響分析手段と;前記発話検
出用の特徴パラメータに基づき、ユーザの発話が開始さ
れたであろう尤度を第2の発話開始点らしさとして時刻
に応じて算出する第2の演算手段と;第2の発話開始点
らしさに対して第1の発話開始点らしさにより重み付け
を行い、この重み付けされた値を第3の発話開始点らし
さとして時刻に応じて算出する第3の演算手段と;前記
電気信号に変換されたユーザの発話を音響分析し、音声
認識用の特徴パラメータを算出する音声認識用の音響分
析手段と;前記音声認識用の特徴パラメータに基づき、
先頭に無音状態を有する確率付き有限状態ネットワーク
を探索して音声認識を行う音声認識手段と;前記確率付
き有限状態ネットワークの先頭の無音状態から文の先頭
状態へ遷移する確率を、第3の発話開始点らしさを用い
て時刻に応じて更新する遷移確率更新手段と;を具備す
ることを特徴とする音声認識装置である。
【0025】そして第14の発明は、第7ないし第13
の発明において、前記ユーザの発話開始時刻の予測分布
の極大点がシステムアナウンスの無音区間に存在するこ
とを特徴とし、第15の発明は更に前記無音区間はその
長さが0.2秒以上3秒以下であり、システムアナウン
スの文と文の間及び文節と文節との間のうち少なくとも
一方に存在することを特徴とする。
【0026】次に第16の発明は、第7ないし第15の
発明の音声認識装置と、システムアナウンスの指定され
たテキストを電気的音声信号に変換すると共にシステム
アナウンスの開始を前記音声認識装置に通知するアナウ
ンス発声装置と、このアナウンス発声装置に対するシス
テムアナウンスのテキストの指定及び前記音声認識装置
からの音声認識結果の入力により音声を用いたユーザと
の対話を管理する対話管理装置とを具備することを特徴
とする音声対話装置である。
【0027】
【作用】第1,第2及び第7〜第11の発明では、音響
分析で得た発話検出用の特徴パラメータからユーザの発
話が開始されたであろう尤度(第2の発話開始点らし
さ)を求めて発話開始時刻を決定する際に、予測分布か
ら得た第1の発話開始点らしさで第2の発話開始点らし
さ又は基準値に対して重み付けを行う。これにより、ユ
ーザの発話開始時刻を高精度に一点決定することがで
き、音声認識の精度が向上する。またユーザの発話開始
時刻を高精度に一点決定することができることから、シ
ステムアナウンス中のユーザの割り込み発話を高精度に
音声認識することができ、音声対話装置の利用時間の短
縮が可能となる。
【0028】第3,第4,第12及び第13の発明では
ユーザの発話開始時刻を一点に決定することなく、高精
度な音声認識を可能とする。
【0029】まず第3及び第12の発明では、音声認識
をその開始時刻を次々にずらして多数行い、各認識開始
時刻に対応した音声認識結果毎の尤度を求め、この尤度
と第1の発話開始点らしさで第2の発話開始点らしさに
重み付けして得た第3の発話開始点らしさとから、最適
な音声認識結果を判定する。これにより、高精度な音声
認識を行うことができる。なお、第3の発話開始点らし
さが所定レベルを超えた時刻から音声認識を開始するこ
とも可能であり、これにより音声認識の処理量が低減す
る。第3及び第12の発明ではユーザの発話開始時刻を
高精度に一点決定することができなくても、結果的に音
声認識の精度が向上する。
【0030】次に第4及び第13の発明では、先頭に無
音状態を有する確率付き有限状態ネットワークを探索す
ることにより音声認識を行うものとする。その際に、先
頭の無音状態から文の先頭状態へ遷移する確率を、第1
の発話開始点らしさで第2の発話開始点らしさを重み付
けして得た第3の発話開始点らしさを用いて変化させ
る。従って、実質的な音声認識は発話開始が不確かな間
は行われず、最も確からしい発話開始時刻になってから
開始されることになり、高精度な音声認識を行うことが
できる。第4及び第13の発明では、ユーザの発話開始
時刻を高精度に一点決定することができなくても結果的
に音声認識の精度が向上し、更に第3及び第12の発明
に比べると、音声認識を開始時間を次々にずらして並列
的に行う必要がないから、高速な処理が可能となり、ま
たメモリ容量を削減することができる。
【0031】第5,第6,第14及び第15の発明で
は、より信頼性が高いユーザの発話が開始される期待値
を求めるための予測分布を得る。発明者等は、システム
アナウンスとユーザの発話開始時刻との間にどのような
因果関係があるかを調べた。これは、特徴的な因果関係
があれば、これを利用することによりユーザの発話開始
時刻を精度良く検出することができると考えたからであ
る。
【0032】具体的には、多数のユーザに音声対話装置
を利用してもらい、システムアナウンスの開始後にユー
ザが発話を開始する場合のその時刻と頻度とを調べると
いう実験を行った。その結果、ユーザの発話開始時刻が
極大点を持つ分布をすることが判った。特に、システム
アナウンスに割り込んでユーザが発話する場合は、第5
及び第14の発明のように発話開始時刻がシステムアナ
ウンスの無音区間を中心に分布することが判り、更に第
6及び第15の発明のように文と文の間あるいは文節と
文節との間に積極的に一定の無音区間を設けると、分布
の山が急峻になり、この傾向は無音区間を好ましくは
0.2秒〜3秒(より好ましくは0.4〜1.5秒)と
すると顕著であることが判った。また、システムアナウ
ンス終了後にユーザが発話を開始する場合も、システム
アナウンス終了直後を中心に発話開始時刻が特定の分布
をすることが判った。なお、無音区間とは音が全く存在
しない場合だけでなく、例えばチャイムやバックグラン
ドミュージックが流れている場合などでも、システムア
ナウンスにとって実質的に無音状態といえる場合は無音
区間である。無音区間はユーザの発話開始を促すように
制御する。
【0033】そこで、このような実験に基づき図2に示
すようなシステムアナウンスに対するユーザの発話開始
時刻の極大点を有する予測分布100を予め作成して用
意するか、或いは、実験によらずとも無音区間もしくは
その前後に極大点を持つように正規分布、ポアソン分
布、カイ2乗分布等の確率分布を用いてシステムアナウ
ンスに対するユーザの発話開始時刻の極大点を有する予
測分布を予め用意しておくことより、システムアナウン
ス開始後の時に応じてユーザの発話が開始されるであろ
う期待値(第1の発話開始点らしさ)を求めることがで
きる。
【0034】第16の発明では、高精度な音声認識の下
で、ユーザと装置間で対話を行うことができる。
【0035】
【実施例】以下、図面を参照して発明の実施例を説明す
る。図面中、図1には第1実施例に係る音声対話装置の
ブロック構成が示されている。図2にはシステムアナウ
ンスに対するユーザの発話開始時刻の予測分布を実験に
より観測して得た例が示されている。また、図3には第
2実施例に係る音声対話装置のブロック構成が示され、
図4には第3実施例に係る音声対話装置のブロック構成
が示され、図5には第4実施例に係る音声対話装置のブ
ロック構成が示されている。図6には先頭に無音状態を
有する確率付き有限状態ネットワークの一例が示されて
いる。
【0036】<第1実施例>図1に示されるように、第
1実施例に係る音声対話装置は、対話管理装置1と、ア
ナウンス発声装置2と、音声認識装置10とを具備した
ものであり、音声出力装置3及び音声入力装置5は必要
に応じて音声対話装置に内蔵されたり、あるいは音声対
話装置とは離れた別物で適宜接続されたりする。音声対
話装置が内線電話受付システムに用いられる場合は、電
話機の送受話器が音声出力回路3と音声入力回路5に相
当し、電話回線及び電話交換機を通して音声対話装置に
接続される。音声認識装置10は予測分布格納部11
と、第1の発話開始点らしさの演算部12と、発話検出
用の音響分析部13と、第2の発話開始点らしさの演算
部14と、第3の発話開始点らしさの演算部15と、発
話開始時刻決定部16と、音声認識用の音声信号通過ス
イッチ17と、音声認識用の音響分析部18と、音声認
識部19とを具備している。
【0037】アナウンス発声装置2は、対話管理装置1
がコード名等により指定したシステムアナウンスのテキ
スト1aに基づいて、発声すべき音声の電気信号2aを
作成し、音声出力回路3に送る。この時、アナウンス発
声装置2は図2に示すように、システムアナウンスの文
と文の間、または文節と文節との間に一定の無音区間2
00を設けて、音声の電気信号2aを作成する。本実施
例においては無音区間200の長さを0.5秒程度とし
てあるが、一般には0.2秒以上3秒以下が妥当であ
り、より好ましくは0.4秒以上1.5秒以下とする。
無音区間が長すぎると、ユーザに不安感を与える。無音
区間とは信号が全く存在しない場合だけでなく、例えば
チャイムやバックグラウンドミュージックが流れている
場合などでもシステムアナウンスにとって実質的な無音
状態であれば無音区間となる。また、アナウンス発声装
置2はシステムアナウンスの開始を表わすアナウンス開
始信号2bを音声認識装置10に送る。なお、システム
アナウンスの開始とはユーザに対して音声が出始める時
点そのものだけを言うのではなく、音声の出始めよりも
一定時間前をもってシステムアナウンスの開始としても
良い。
【0038】音声出力回路3はアナウンス発声装置2か
ら送られてきた電気信号2aを音声に変換して、システ
ムアナウンス3aとしてユーザに聞かせる。このシステ
ムアナウンス3aに対してユーザの発話4があるので、
この発話4を音声入力回路5が電気信号5aに変換して
音声認識装置10に送る。
【0039】音声認識装置10では、予測分布格納部1
1に図2に示すようなシステムアナウンスに対するユー
ザの発話開始時刻の予測分布100を格納してある。こ
の予測分布100は、予め500名程度のユーザに内線
電話受付システムの音声対話装置を利用させて同装置か
ら文と文の間に0.5秒程度の無音区間200を設けた
システムアナウンスを発声させた場合の各ユーザの発話
開始時刻の分布を観測した実験結果から作成したもので
ある。図2中で、横軸はシステムアナウンスの開始を時
刻0とした場合の時刻tをとり、縦軸は各時刻tでユー
ザの発話が開始される期待値を表わしており、各無音区
間200に分布の極大点がある。なお、実験によらずと
も、無音区間もしくはその前後に極大点を持つ正規分
布、ポアソン分布あるいはカイ2重分布などの確率分布
を用いることにより、システムアナウンスの開始を時刻
0とした場合の各時刻tにおいてユーザの発話が開始さ
れる期待値の分布を作成して、システムアナウンスに対
するユーザの発話開始時刻の極大点を有する予測分布と
しても良い。
【0040】演算部12はアナウンス発声装置2よりア
ナウンス開始信号2bを受けた時点から時間tに応じ
て、予測分布格納部11の予測分布に基づいて、第1の
発話開始点らしさとして、時刻tでユーザの発話が開始
されるであろう期待値a(t)を算出し、演算部15に
送る。
【0041】発話検出用の音響分析部13は音声入力回
路5から与えられる電気的音声信号5aを入力して常時
音響分布を行い、発話検出用の特徴パラメータ13aを
次々に算出して演算部14に送る。
【0042】演算部14は発話検出用の特徴パラメータ
13aに基づいて、第2の発話開始点らしさとして、ユ
ーザの発話が開始されたであろう尤度b(t)を時間t
に応じて算出し、演算部15に送る。但し、システムア
ナウンスの開始を時刻0とする。
【0043】演算部15は第1の発話開始点らしさa
(t)により第2の発話開始点らしさb(t)に重み付
けを行い、第3の発話開始点らしさα(t)を算出し、
発話開始時刻決定部16に送る。ここで、重み付けの例
として式(1)〜式(3)をあげておく。但し、式
(2)中、0<k1 <1である。
【数1】 α(t)=a(t)+b(t) …式(1) α(t)=k1 ・a(t)+(1−k1 )・b(t) …式(2) α(t)=a(t)・b(t) …式(3)
【0044】発話開始時刻決定部16は第3の発話開始
点らしさα(t)と予め固定した基準値Refとを比較
し、最初にα(t)>Refとなった時点、もしくはα
(t)>Refが或る一定時間続いたら最初にα(t)>
efとなった時点をユーザの発話開始時刻と決定して、
その旨を表わす発話開始信号16aを音声認識用の音声
信号通過スイッチ17に送る。
【0045】このスイッチ17は発話開始時刻16aを
与えられた時点からオンとなり、音声信号5aを通過さ
せ、音声認識対象の信号17aとして音声認識用の音響
分析部18に送る。
【0046】音響分析部18ではスイッチ17を通過し
た音声信号17aを音響分析して音声認識用の特徴パラ
メータ18aを次々に算出し、音声認識部19に送る。
【0047】音声認識部19では音声認識用の特徴パラ
メータ18aに基づいて音声認識を行う。その認識結果
19aは対話管理装置1に送られる。
【0048】対話管理装置1では認識結果19aに基づ
いて、次に発声すべきシステムアナウンスのテキスト1
aを決定し、アナウンス発声装置2にコード名等を送
る。また、ユーザとの対話内容からユーザの意思を認識
して、例えば内線電話受付システムであれば内線番号の
情報1bを外部に出力する。各装置1,2,10が上述
した動作を繰り返すことにより対話が行われる。
【0049】上述した第1実施例の説明ではスイッチ1
7を用いて音声認識対象の信号17aのみを音響分析部
18に与えているが、スイッチ17を用いずに次のよう
に変更しても良い。 (1)音声入力回路5からの音声信号5aを常時音響分
析部18に送り、且つ発話開始時刻決定部16から発話
開始信号16aを音響分析部18に送るものとし、音響
分析部18は発話開始信号16aを与えられた時点から
音響分析を開始する。 (2)あるいは、音声入力回路5からの音声信号5aを
常時音響分析部18に送り、且つ音響分析部18は常時
音響分析を行って特徴パラメータ18aを音声認識部1
9に送り、更に発話開始時刻決定部16から発話開始信
号16aを音声認識部19に送るものとし、音声認識部
19は発話開始信号16aを与えられた時点からの特徴
パラメータ18aを用いて音声認識を開始する。
【0050】<第2実施例>図3に示されるように、第
2実施例に係る音声対話装置は、対話管理装置1と、ア
ナウンス発声装置2と、音声認識装置20とを具備した
ものであり、音声出力装置3及び音声入力装置5は必要
に応じて音声対話装置に内蔵されたり、あるいは音声対
話装置とは離れた別物で適宜接続されたりする。音声認
識装置20は予測分布格納部11と、第1の発話開始点
らしさの演算部12と、発話検出用の音響分析部13
と、第2の発話開始点らしさの演算部14と、基準値演
算部21と、発話開始時刻決定部22と、音声認識用の
音声信号通過スイッチ17と、音声認識用の音響分析部
18と、音声認識部19とを具備している。これら各装
置のうち、演算部12及び14と、基準値演算部21及
び発話開始時刻決定部22とが図1に示した第1実施例
と異なり、他のもの1,2,3,5,11,13及び1
7〜19は第1実施例における同符号のものと同機能で
あるから説明を簡単にする。
【0051】演算部12は予測分布格納部11に格納さ
れている図2に示すような予測分布に基づいて時刻tに
応じて算出した第1の発話開始点らしさa(t)を、基
準値演算部21に送る。演算部14は音響分析部13か
らの発話検出用の特徴パラメータ13aに基づいて時刻
tに応じて算出した第2の発話開始点らしさb(t)
を、発話開始時刻決定部22に送る。
【0052】基準値演算部21は第1の基準値Refo
第1の発話開始点らしさa(t)により重み付けして、
時間tに応じて変化する第2の基準値Ref(t)を算出
し、発話開始時刻決定部22に送る。ここで重み付けの
例として式(4)〜式(5)をげておく。但し、式
(5)中で、0<k2 とする。
【数2】 Ref(t)= efo a(t) …式(4) Ref(t)= efo −k2 a(t) …式(5)
【0053】発話開始決定部22は第2の発話開始点ら
しさb(t)と重み付けされた第2の基準値Ref(t)
とを比較し、最初にb(t)>Ref(t)となった時
点、もしくはb(t)>Ref(t)が或る一定時間続い
たら最初にb(t)>Ref(t)となった時点をユーザ
の発話開始時刻と決定し、その旨を表わす発話開始信号
22aを音声信号通過スイッチ17に送る。
【0054】このスイッチ17は発話開始信号22aを
与えられた時点からオンとなり、オンの間に送られてき
た音声信号17aのみを音声認識対象として音響分析部
18に送る。音響分析部18では、音声信号通過スイッ
チ17を通過した音声信号17aから、音声認識に適し
た特徴パラメータ18aを算出し、音声認識部19に送
る。音声認識部19では、特徴パラメータ18aに基づ
いて音声認識を行い、その認識結果19aを対話管理装
置1に送る。対話管理装置1では、音声認識部19から
与えられる認識結果19aに基づいて、次に発声すべき
システムアナウンスのテキスト1aを決定してアナウン
ス発声装置2にコード名等を送る。
【0055】上述した第2実施例の説明でもスイッチ1
7を用いて音声認識対象の信号17aのみを音響分析部
18に与えているが、スイッチ17を用いずに次のよう
に変更しても良い。 (1)音声入力回路5からの音声信号5aを常時音響分
析部18に送り、且つ発話開始時刻決定部22から発話
開始信号22aを音響分析部18に送るものとし、音響
分析部18は発話開始信号22aを与えられた時点から
音響分析を開始する。 (2)あるいは、音声入力回路5からの音声信号5aを
常時音響分析部18に送り、且つ音響分析部18は常時
音響分析を行って特徴パラメータ18aを音声認識部1
9に送り、更に発話開始時刻決定部22から発話開始信
号22aを音声認識部19に送るものとし、音声認識部
19は発話開始信号22aを与えられた時点からの特徴
パラメータ18aを用いて音声認識を開始する。
【0056】<第3実施例>図4に示されるように、第
3実施例に係る音声対話装置は、対話管理装置1と、ア
ナウンス発声装置2と、音声認識装置30とを具備した
ものであり、音声出力装置3及び音声入力装置5は必要
に応じて音声対話装置に内蔵されたり、あるいは音声対
話装置とは離れた別物で適宜接続されたりする。音声認
識装置30は予測分布格納部11と、第1の発話開始点
らしさの演算部12と、発話検出用の音響分析部13
と、第2の発話開始点らしさの演算部14と、第3の発
話開始点らしさの演算部15と、音声認識用の音響分析
部18と、音声認識部31と、音声認識結果判定部32
とを具備している。
【0057】第3実施例の各装置構成要素のうち、演算
部15と、音声認識部31及び音声認識結果判定部32
とが図1に示した第1実施例と異なり、また第1実施例
における発話開始時刻決定部16及びスイッチ17が存
在しないが、他のもの1,2,3,5,11〜14及び
18は第1実施例の同符号のものと同機能であるから説
明を簡単にする。
【0058】演算部15は前述した式(1)〜式(3)
を用いて、第1の発話開始点らしさa(t)により第2
の発話開始点らしさb(t)に対して重み付けを行い、
第3の発話開始点らしさα(t)を時間tに応じて算出
するが、これは音声認識結果判定部32に送る。なお第
1の発話開始点らしさa(t)は、予測分布格納部11
に格納されている図2に示したような予測分布に基づい
て、時刻tでユーザの発話が開始されるであろう期待値
を演算部12が算出することにより求まる。また第2の
発話開始点らしさb(t)は、音響分析部13が常時音
響分析して得られる発話検出用の特徴パラメータ13a
に基づいて、時刻tでユーザの発話が開始されたであろ
う尤度を演算部14が算出することにより求まる。但
し、アナウンス発声装置2からアナウンス開始信号2a
が与えられた時を時刻0としている。
【0059】音声認識用の音響分析部18は音声入力回
路5から与えられる音声信号5aを常時音響分析して音
声認識用の特徴パラメータ18aを次々に算出し、音声
認識部31に送る。
【0060】音声認識部31では例えば10ミリ秒おき
の各時刻t毎にその時刻tをユーザの発話開始時刻と仮
定することにより、音声認識開始時刻を次々にずらして
複数の音声認識を行い、各時刻tから開始した場合の各
音声認識結果w(t)を音声認識結果判定部32に送る
と共に、各音声認識結果w(t)毎の尤度p(t)を算
出して音声認識結果判定部32に送る。
【0061】音声認識結果判定部32は次式(6)また
は式(7)または式(8)を用いて、各認識開始時刻t
毎の音声認識結果の尤度p(t)と第3の発話開始点ら
しさα(t)とを統合した値q(t)を算出し、この値
q(t)が最大となるような時刻tmax を見い出して、
全ての音声認識結果w(t)のうちで、時刻tmax に対
応した音声認識結果w(tmax )をユーザの発話に対す
る認識結果32aと判定する。対話管理装置1にはこの
音声認識結果32aのみを送る。但し、式(7)中で、
例えば0<k3 <1とする。これにより、ユーザの発話
開始時刻を高精度に一点決定することができなくても、
結果的にユーザの発話を高精度に音声認識することがで
きる。
【数3】 q(t)=α(t)+p(t) …式(6) q(t)=(1−k3 )・α(t)+k3 ・p(t) …式(7) q(t)=α(t)・p(t) …式(8)
【0062】対話管理装置1では、音声認識結果判定部
32から与えられる認識結果32aに基づいて、次に発
声すべきシステムアナウンスのテキスト1aを決定して
アナウンス発声装置2にコード名等を送る。
【0063】<第4実施例>図5に示されるように、第
4実施例に係る音声対話装置は、対話管理装置1と、ア
ナウンス発声装置2と、音声認識装置40とを具備した
ものであり、音声出力装置3及び音声入力装置5は必要
に応じて音声対話装置に内蔵されたり、あるいは音声対
話装置とは離れた別物で適宜接続されたりする。音声認
識装置40は予測分布格納部11と、第1の発話開始点
らしさの演算部12と、発話検出用の音響分析部13
と、第2の発話開始点らしさの演算部14と、第3の発
話開始点らしさの演算部15と、音声認識用の音響分析
部18と、音声認識部41と、遷移確率更新部42とを
具備している。
【0064】第4実施例の各装置構成要素のうち、演算
部15と、音声認識部41及び遷移確率更新部42が図
1に示した第1実施例と異なり、また第1実施例におけ
る発話開始時刻決定部16及びスイッチ17が存在しな
いが、他のもの1,2,3,5,11〜14及び18は
第1実施例の同符号のものと同機能であるから説明を簡
単にする。
【0065】演算部15は前述した式(1)〜式(3)
を用いて、第1の発話開始点らしさa(t)により第2
の発話開始点らしさb(t)に対して重み付けを行い、
第3の発話開始点らしさα(t)を時間tに応じて算出
するが、これは遷移確率更新部42に送る。なお第1の
発話開始点らしさa(t)は、予測分布格納部11に格
納されている図2に示したような予測分布に基づいて、
時刻tでユーザの発話が開始されるであろう期待値を演
算部12が算出することにより求まる。また第2の発話
開始点らしさb(t)は、音響分析部13が常時音響分
析して得られる発話検出用の特徴パラメータ13aに基
づいて、時刻tでユーザの発話が開始されたであろう尤
度を演算部14が算出することにより求まる。但し、ア
ナウンス発声装置2からアナウンス開始信号2aが与え
られた時を時刻0としている。
【0066】音声認識用の音響分析部18は音声入力回
路5から与えられる音声信号5aを常時音響分析して音
声認識用の特徴パラメータ18aを次々に算出し、音声
認識部41に送る。
【0067】音声認識部41では、音響分析部18から
与えられる特徴パラメータ18aの列に対し、常時、図
6に示すような先頭に無音状態300を有する確率付き
有限状態ネットワークを探索して、最大の尤度が得られ
る経路を音声認識結果41aとして出力し、対話管理装
置1に送る。
【0068】一般に、確率付き有限状態ネットワークは
音素や単語のHMM(隠れマルコフモデル:Hidden Mar
kov Model)によって構成されるものであり、HMMの各
状態には特徴パラメータに応じた尤度が保持されたり、
あるいは特徴パラメータに応じた尤度を計算するための
確率分布が保持されている。
【0069】この確率付き有限ネットワークを構成する
場合に、図6に示すように、文頭に無音モデル300を
設けてある。無音モデルは音声のない区間に対応するモ
デルであるが、学習の際、背影雑音や回線雑音を用いる
ことでそれらの雑音に対応することができる。また、咳
や息などの非音声も学習しておくことにより、それらの
非音声を音声と誤認することを防ぐことができる。ま
た、雑音や非音声のモデルを別々に学習し、無音モデル
300と並列に配置することも可能である。これらによ
り、音響分析部18からの音声認識用の特徴パラメータ
18aの入力をユーザの発話開始前から常時受け付ける
ことが可能となる。
【0070】遷移確率更新部42は音声認識部41で用
いられる確率付き有限状態ネットワークの先頭の無音モ
デル300から文先頭状態303へ遷移する確率を、演
算部15から与えられる第3の発話開始点らしさα
(t)を用いて、時刻tに応じて変化させる。即ち、図
6に示すように、先頭の無音モデル300には自己状態
への遷移301と、文先頭状態への遷移302とがあ
り、それぞれのアーク(弧)には状態遷移確率が付えら
れているから、第3の発話開始点らしさα(t)が大き
い時刻tでは文先頭状態303へ遷移する状態遷移確率
をα(t)に応じて大きくする。これにより、ユーザの
発話開始時刻に先頭の無音モデル300から文先頭状態
303へ遷移し易くなり、音声認識の精度が向上する。
この場合、α(t)が大きい時刻tでは同時に、自己状
態300に遷移する状態遷移確率をα(t)に応じて小
さくすると良い。
【0071】逆に、第3の発話開始点らしさα(t)が
小さい時刻tでは文先頭状態303へ遷移する状態遷移
確率をα(t)に応じて小さくする。これにより、ユー
ザの発話開始時刻前では先頭の無音モデル300から文
先頭状態303へは遷移し難くなり、誤った音声認識を
行い難くなるから、音声認識の精度が向上する。この場
合、α(t)が小さい時刻tでは同時に、自己状態30
0に遷移する状態遷移確率をα(t)に応じて大きくす
ると良い。このように、先頭の無音状態300から文先
頭状態303への状態遷移確率を第3の発話開始点らし
さα(t)で変化させることにより、ユーザの発話開始
時刻を高精度に一点決定することができなくても、結果
的にユーザの発話を高精度に音声認識することができ
る。また、音声認識は実質的に1回であるから、第3実
施例に比べて、処理が高速化し、メモリ容量も削減する
ことができる。
【0072】なお、音声認識用の特徴パラメータ18a
は発話開始の検出には最適ではないため、無音状態30
0から文先頭状態303への状態遷移確率を固定してお
くと、先頭の無音状態300から文先頭状態303への
遷移の精度が低くなり、音声認識の精度が低下する。
【0073】対話管理装置1では、音声認識部41から
与えられる音声認識結果41aに基づいて、次に発声す
べきシステムアナウンスのテキスト1aを決定してアナ
ウンス発声装置2にコード名等を送る。
【0074】
【発明の効果】第1,第2及び第7〜第11の発明によ
れば、システムアナウンスとユーザの発話開始時刻との
因果関係に着目して、予め用意した予測分布からユーザ
の発話が開始されるであろう期待値(第1の発話開始点
らしさ)を算出し、発話検出用の特徴パラメータから求
めたユーザの発話が開始されたであろう尤度(第2の発
話開始点らしさ)と併用してユーザの発話開始時刻を決
定するので、発話開始時刻を一点高精度に検出すること
ができ、従って高精度な音声認識を実現することができ
る。
【0075】また第3〜第4及び第12〜第13の発明
によれば、音声認識を常に行うことにより、音声認識結
果の尤度が発話開始点を決定するのにも用いられること
になり、例えば無意味な発声や咳を発話開始点と決定し
てしまう等の誤りを回避することができ、結果的に高精
度な音声認識を行うことができる。
【0076】特に第5及び第14の発明によればシステ
ムアナウンスの無音区間に予測分布の極大点があり、更
に第6及び第15の発明によれば無音区間を故意あるい
は積極的に設けることにより、システムアナウンスとユ
ーザの発話開始時刻との因果関係が一層明確化し、発話
開始時刻の検出精度及び音声認識精度が更に向上する。
また、システムアナウンス中に無音区間を故意あるいは
積極的に設けることにより、無音区間でユーザが発話を
開始するようにユーザを制御することができるから、音
声対話装置の利用時間の短縮が可能となる。つまり、対
話における音声認識結果確認時に例えば「山本で良けれ
ばはい、さもなければいいえとお答え下さい」とシステ
ムアナウンスをする場合に比べ、「山本でよろしいでし
ょうか(1秒無音)はい、またはいいえでお答え下さ
い」とアナウンスすることにより、装置に慣れたユーザ
は無音区間に発話するようになり、「はい」以降のシス
テムアナウンスは無用となるから、システムアナウンス
を聞く時間は半分以下に短縮され、ユーザにとっての利
便性を高めると共に装置の効率的な利用が可能となる。
また、必要に応じて、発話開始時刻が決定されたならば
システムアナウンスを停止し、ユーザの発声を妨げない
ようにすることも可能となる。また、無音区間の設定に
より、初心者には十分なシステムアナウンスを聞かせ、
熟練者には短いシステムアナウンスを聞くだけで利用で
きる音声対話装置が実現する。更に、発話開始時刻を高
精度に決定できる場合には、このような利用時間の短縮
が可能な装置が一層有効に働くことができる。
【0077】第16の発明によれば高精度な音声認識の
下でユーザと装置間で音声を用いた対話を行うので、ス
ムーズな対話が実現する。
【図面の簡単な説明】
【図1】第1実施例に係る音声対話装置のブロック構成
図。
【図2】予測分布の一例を示す図。
【図3】第2実施例に係る音声対話装置のブロック構成
図。
【図4】第3実施例に係る音声対話装置のブロック構成
図。
【図5】第4実施例に係る音声対話装置のブロック構成
図。
【図6】先頭に無音状態を有する確率付有限状態ネット
ワークの一例を示す図。
【図7】従来例を示す図。
【符号の説明】
1 対話管理装置 1a テキスト 2 アナウンス発声装置 2a,5a 音声信号 2b アナウンス開始信号 2c アナウンス終了信号 3 音声出力回路 3a システムアナウンス 4 ユーザの発話 5 音声入力回路 10,20,30,40 音声認識装置 11 予測分布格納部 12 第1の発話開始点らしさの演算部 13 発話検出用の音響分析部 13a 発話検出用の特徴パラメータ 14 第2の発話開始点らしさの演算部 15 第3の発話開始点らしさの演算部 16,22 発話開始時刻決定部 17 音声認識用の音声信号通過スイッチ 18 音声認識用の音響分析部 18a 音声認識用の特徴パラメータ 19,31,41 音声認識部 19a,32a,41a 認識結果 21 基準値演算部 32 音声認識結果判定部 42 遷移確率更新部 100 予測分布 200 無音区間 300 無音状態 303 文先頭状態 a(t) 第1の発話開始点らしさ b(t) 第2の発話開始点らしさ α(t) 第3の発話開始点らしさ p(t) 音声認識結果の尤度 Ref 基準値 Refo 第1の基準値 Ref(t) 第2の基準値
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 15/10 G10L 3/00 531W 15/18 537C 537E R (72)発明者 山本 誠一 東京都新宿区西新宿二丁目3番2号 国 際電信電話株式会社内 (56)参考文献 特開 昭63−163498(JP,A) 黒岩眞吾、武田一哉、井ノ上直己、山 本誠一,機械との対話における発話分 析,電子情報通信学会技術研究報告[音 声]SP94−23〜30,日本,1994年6月 17日,SP94−30,p57−64 (58)調査した分野(Int.Cl.7,DB名) G10L 13/00,15/18 G10L 15/22,15/28 JICSTファイル(JOIS)

Claims (16)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声を用いてユーザとの対話を行う音声
    対話装置に適用される音声認識方法において:前記音声
    対話装置のシステムアナウンスに対するユーザの発話開
    始時刻の極大点を有する予測分布を予め用意しておき、
    この予測分布に基づき、ユーザの発話が開始される期待
    値を第1の発話開始点らしさとしてシステムアナウンス
    開始後の時刻に応じて算出すること;電気信号に変換さ
    れたユーザの発話を音響分析して発話検出用の特徴パラ
    メータを算出し、この特徴パラメータに基づき、ユーザ
    の発話が開始されたであろう尤度を第2の発話開始点ら
    しさとして時刻に応じて算出すること;第2の発話開始
    点らしさに対して第1の発話開始点らしさにより重み付
    けを行い、この重み付けで得た第3の発話開始点らしさ
    を基準値と比較し、基準値より大きくなった時点をユー
    ザの発話開始時刻であると決定すること;電気信号に変
    換されたユーザの発話を音響分析して音声認識用の特徴
    パラメータを算出し、この特徴パラメータに基づき音声
    認識を行う処理を、前記ユーザの発話開始時刻の決定に
    従って行うこと;を特徴とする音声認識方法。
  2. 【請求項2】 音声を用いてユーザとの対話を行う音声
    対話装置に適用される音声認識方法において:前記音声
    対話装置のシステムアナウンスに対するユーザの発話開
    始時刻の極大点を有する予測分布を予め用意しておき、
    この予測分布に基づき、ユーザの発話が開始される期待
    値を第1の発話開始点らしさとしてシステムアナウンス
    開始後の時刻に応じて算出すること;電気信号に変換さ
    れたユーザの発話を音響分析して発話検出用の特徴パラ
    メータを算出し、この特徴パラメータに基づき、ユーザ
    の発話が開始されたであろう尤度を第2の発話開始点ら
    しさとして時刻に応じて算出すること;第1の発話開始
    点らしさにより第1の基準値を重み付けして時間に応じ
    て変化する第2の基準値を算出し、第2の発話開始点ら
    しさをこの第2の基準値と比較し、第2の基準値より大
    きくなった時点をユーザの発話開始時刻であると決定す
    ること;電気信号に変換されたユーザの発話を音響分析
    して音声認識用の特徴パラメータを算出し、この特徴パ
    ラメータに基づき音声認識を行う処理を、前記ユーザの
    発話開始時刻の決定に従って行うこと;を特徴とする音
    声認識方法。
  3. 【請求項3】 音声を用いてユーザとの対話を行う音声
    対話装置に適用される音声認識方法において:前記音声
    対話装置のシステムアナウンスに対するユーザの発話開
    始時刻の極大点を有する予測分布を予め用意しておき、
    この予測分布に基づき、ユーザの発話が開始される期待
    値を第1の発話開始点らしさとしてシステムアナウンス
    開始後の時刻に応じて算出すること;電気信号に変換さ
    れたユーザの発話を音響分析して発話検出用の特徴パラ
    メータを算出し、この特徴パラメータに基づき、ユーザ
    の発話が開始されたであろう尤度を第2の発話開始点ら
    しさとして時刻に応じて算出すること;第2の発話開始
    点らしさに対して第1の発話開始点らしさにより重み付
    けを行い、第3の発話開始点らしさを算出すること;電
    気信号に変換されたユーザの発話を音響分析して音声認
    識用の特徴パラメータを算出し、この特徴パラメータに
    基づき、認識開始時刻を次々にずらして音声認識を行
    い、且つ、各認識開始時刻に対応した音声認識結果毎の
    尤度を算出すること;各認識開始時刻毎の音声認識結果
    の尤度と、前記重み付けで得た第3の発話開始点らしさ
    との和または積を時刻を合わせて算出し、この算出した
    値が最大となる認識開始時刻に対応した音声認識結果
    を、ユーザの発話に対する音声認識結果と判定するこ
    と;を特徴とする音声認識方法。
  4. 【請求項4】 音声を用いてユーザとの対話を行う音声
    対話装置に適用される音声認識方法において:前記音声
    対話装置のシステムアナウンスに対するユーザの発話開
    始時刻の極大点を有する予測分布を予め用意しておき、
    この予測分布に基づき、ユーザの発話が開始される期待
    値を第1の発話開始点らしさとしてシステムアナウンス
    開始後の時刻に応じて算出すること;電気信号に変換さ
    れたユーザの発話を音響分析して発話検出用の特徴パラ
    メータを算出し、この特徴パラメータに基づき、ユーザ
    の発話が開始されたであろう尤度を第2の発話開始点ら
    しさとして時刻に応じて算出すること;第2の発話開始
    点らしさに対して第1の発話開始点らしさにより重み付
    けを行い、第3の発話開始点らしさを算出すること;電
    気信号に変換されたユーザの発話を音響分析して音声認
    識用の特徴パラメータを算出し、この特徴パラメータに
    基づき、先頭に無音状態を有する確率付き有限状態ネッ
    トワークを探索して音声認識を行うこと;前記確率付き
    有限状態ネットワークの先頭の無音状態から文の先頭状
    態へ遷移する確率を、前記重み付けで得た第3の発話開
    始点らしさを用いて時刻に応じて更新すること;を特徴
    とする音声認識方法。
  5. 【請求項5】 請求項1ないし4いずれか一つに記載の
    音声認識方法において、前記ユーザの発話開始時刻の予
    測分布の極大点がシステムアナウンスの無音区間に存在
    することを特徴とする音声認識方法。
  6. 【請求項6】 請求項5記載の音声認識方法において、
    前記無音区間はその長さが0.2秒以上3秒以下であ
    り、システムアナウンスの文と文の間及び文節と文節と
    の間のうち少なくとも一方に存在することを特徴とする
    音声認識方法。
  7. 【請求項7】 音声を用いてユーザとの対話を行う音声
    対話装置に適用される音声認識装置において;前記音声
    対話装置のシステムアナウンスに対するユーザの発話開
    始時刻の極大点を有する予測分布を格納する第1手段
    と;前記格納された予測分布に基づき、ユーザの発話が
    開始される期待値を第1の発話開始点らしさとしてシス
    テムアナウンス開始後の時刻に応じて算出する第2手段
    と;電気信号に変換されたユーザの発話を音響分析し、
    発話検出用の特徴パラメータを算出する第3手段と;前
    記発話検出用の特徴パラメータに基づき、ユーザの発話
    が開始されたであろう尤度を第2の発話開始点らしさと
    して時刻に応じて算出する第4手段と;第2の発話開始
    点らしさに対して第1の発話開始点らしさにより重み付
    けを行い、この重み付けされた値を第3の発話開始点ら
    しさとして時刻に応じて算出する第5手段と;第3の発
    話開始点らしさを基準値と比較し、この基準値より大き
    くなった時点をユーザの発話開始時刻であると決定する
    第6手段と;電気信号に変換されたユーザの発話を音響
    分析して音声認識用の特徴パラメータを算出し、この特
    徴パラメータに基づき音声認識を行う処理を、前記ユー
    ザの発話開始時刻の決定に従って行う第7手段と;を具
    備することを特徴とする音声認識装置。
  8. 【請求項8】 音声を用いてユーザとの対話を行う音声
    対話装置に適用される音声認識装置において;前記音声
    対話装置のシステムアナウンスに対するユーザの発話開
    始時刻の極大点を有する予測分布を格納する第1手段
    と;前記格納された予測分布に基づき、ユーザの発話が
    開始される期待値を第1の発話開始点らしさとしてシス
    テムアナウンス開始後の時刻に応じて算出する第2手段
    と;電気信号に変換されたユーザの発話を音響分析し、
    発話検出用の特徴パラメータを算出する第3手段と;前
    記発話検出用の特徴パラメータに基づき、ユーザの発話
    が開始されたであろう尤度を第2の発話開始点らしさと
    して時刻に応じて算出する第4手段と;第1の基準値に
    対して第1の発話開始点らしさにより重み付けを行い、
    この重み付けで得た値を第2の基準値として時刻に応じ
    て算出する第5手段と;第2の発話開始点らしさを前記
    重み付けで得た第2の基準値と比較し、この第2の基準
    値より大きくなった時点をユーザの発話開始時刻である
    と決定する第6手段と;電気信号に変換されたユーザの
    発話を音響分析して音声認識用の特徴パラメータを算出
    し、この特徴パラメータに基づき音声認識を行う処理
    を、前記ユーザの発話開始時刻の決定に従って行う第7
    手段と;を具備することを特徴とする音声認識装置。
  9. 【請求項9】 請求項7または8に記載の音声認識装置
    において:第7手段は、 電気信号に変換されたユーザの発話を、ユーザの発話開
    始時刻であると決定された時点から通過させるスイッチ
    手段と;このスイッチ手段を通過したユーザの発話を音
    響分析して音声認識用の特徴パラメータを算出する音声
    認識用の音響分析手段と;この音響分析手段により算出
    された音声認識用の特徴パラメータに基づいて音声認識
    を行う音声認識手段と;を具備することを特徴とする音
    声認識装置。
  10. 【請求項10】 請求項7または8に記載の音声認識装
    置において:第7手段は、 ユーザの発話開始時刻であると決定された時点から、電
    気信号に変換されたユーザの発話の音響分析を開始して
    音声認識用の特徴パラメータを算出する音声認識用の音
    響分析手段と;この音響分析手段により算出された音声
    認識用の特徴パラメータに基づいて音声認識を行う音声
    認識手段と;を具備することを特徴とする音声認識装
    置。
  11. 【請求項11】 請求項7または8に記載の音声認識装
    置において:第7手段は、 電気信号に変換されたユーザの発話を音響分析して音声
    認識用の特徴パラメータを算出する音声認識用の音響分
    析手段と;この音響分析手段で算出された音声認識用の
    特徴パラメータのうち、ユーザの発話開始時刻であると
    決定された時点以降の特徴パラメータに基づいて音声認
    識を行う音声認識手段と;を具備することを特徴とする
    音声認識装置。
  12. 【請求項12】 音声を用いてユーザとの対話を行う音
    声対話装置に適用される音声認識装置において;前記音
    声対話装置のシステムアナウンスに対するユーザの発話
    開始時刻の極大点を有する予測分布を格納する予測分布
    格納手段と;前記格納された予測分布に基づき、ユーザ
    の発話が開始される期待値を第1の発話開始点らしさと
    してシステムアナウンス開始後の時刻に応じて算出する
    第1の演算手段と;電気信号に変換されたユーザの発話
    を音響分析し、発話検出用の特徴パラメータを算出する
    発話検出用の音声分析手段と;前記発話検出用の特徴パ
    ラメータに基づき、ユーザの発話が開始されたであろう
    尤度を第2の発話開始点らしさとして時刻に応じて算出
    する第2の演算手段と;第2の発話開始点らしさに対し
    て第1の発話開始点らしさにより重み付けを行い、この
    重み付けされた値を第3の発話開始点らしさとして時刻
    に応じて算出する第3の演算手段と;前記電気信号に変
    換されたユーザの発話を音響分析し、音声認識用の特徴
    パラメータを算出する音声認識用の音響分析手段と;前
    記音声認識用の特徴パラメータに基づき、認識開始時刻
    を次々にずらして音声認識を行い、且つ、各認識開始時
    刻に対応した音声認識結果毎の尤度を算出する音声認識
    手段と;各認識開始時刻毎の音声認識結果の尤度と、第
    3の発話開始点らしさとの和または積を時刻に合せて算
    出し、この算出した値が最大となる認識開始時刻に対応
    した音声認識結果を、ユーザの発話に対する音声認識結
    果と判定する音声認識結果判定手段と;を具備すること
    を特徴とする音声認識装置。
  13. 【請求項13】 音声を用いてユーザとの対話を行う音
    声対話装置に適用される音声認識装置において;前記音
    声対話装置のシステムアナウンスに対するユーザの発話
    開始時刻の極大点を有する予測分布を格納する予測分布
    格納手段と;前記格納された予測分布に基づき、ユーザ
    の発話が開始される期待値を第1の発話開始点らしさと
    してシステムアナウンス開始後の時刻に応じて算出する
    第1の演算手段と;電気信号に変換されたユーザの発話
    を音響分析し、発話検出用の特徴パラメータを算出する
    発話検出用の音響分析手段と;前記発話検出用の特徴パ
    ラメータに基づき、ユーザの発話が開始されたであろう
    尤度を第2の発話開始点らしさとして時刻に応じて算出
    する第2の演算手段と;第2の発話開始点らしさに対し
    て第1の発話開始点らしさにより重み付けを行い、この
    重み付けされた値を第3の発話開始点らしさとして時刻
    に応じて算出する第3の演算手段と;前記電気信号に変
    換されたユーザの発話を音響分析し、音声認識用の特徴
    パラメータを算出する音声認識用の音響分析手段と;前
    記音声認識用の特徴パラメータに基づき、先頭に無音状
    態を有する確率付き有限状態ネットワークを探索して音
    声認識を行う音声認識手段と;前記確率付き有限状態ネ
    ットワークの先頭の無音状態から文の先頭状態へ遷移す
    る確率を、第3の発話開始点らしさを用いて時刻に応じ
    て更新する遷移確率更新手段と;を具備することを特徴
    とする音声認識装置。
  14. 【請求項14】 請求項7ないし13いずれか一つに記
    載の音声認識装置において、前記ユーザの発話開始時刻
    の予測分布の極大点がシステムアナウンスの無音区間に
    存在することを特徴とする音声認識装置。
  15. 【請求項15】 請求項14記載の音声認識装置におい
    て、前記無音区間はその長さが0.2秒以上3秒以下で
    あり、システムアナウンスの文と文の間及び文節と文節
    との間のうち少なくとも一方に存在することを特徴とす
    る音声認識装置。
  16. 【請求項16】 請求項7ないし15いずれか一つに記
    載の音声認識装置と、システムアナウンスの指定された
    テキストを電気的音声信号に変換すると共にシステムア
    ナウンスの開始を前記音声認識装置に通知するアナウン
    ス発声装置と、このアナウンス発声装置に対するシステ
    ムアナウンスのテキストの指定及び前記音声認識装置か
    らの音声認識結果の入力により音声を用いたユーザとの
    対話を管理する対話管理装置とを具備することを特徴と
    する音声対話装置。
JP13400594A 1994-06-16 1994-06-16 音声対話のための音声認識方法及び装置 Expired - Fee Related JP3285704B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13400594A JP3285704B2 (ja) 1994-06-16 1994-06-16 音声対話のための音声認識方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13400594A JP3285704B2 (ja) 1994-06-16 1994-06-16 音声対話のための音声認識方法及び装置

Publications (2)

Publication Number Publication Date
JPH086590A JPH086590A (ja) 1996-01-12
JP3285704B2 true JP3285704B2 (ja) 2002-05-27

Family

ID=15118158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13400594A Expired - Fee Related JP3285704B2 (ja) 1994-06-16 1994-06-16 音声対話のための音声認識方法及び装置

Country Status (1)

Country Link
JP (1) JP3285704B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001324992A (ja) * 2000-05-15 2001-11-22 Fujitsu Ten Ltd 音声合成装置、及び音声データ記憶媒体
JP2006215418A (ja) * 2005-02-07 2006-08-17 Nissan Motor Co Ltd 音声入力装置及び音声入力方法
JP2010515292A (ja) * 2006-12-25 2010-05-06 トムソン ライセンシング 自動利得制御の方法及び装置
JP5431282B2 (ja) * 2010-09-28 2014-03-05 株式会社東芝 音声対話装置、方法、プログラム
JP2018017776A (ja) * 2016-07-25 2018-02-01 トヨタ自動車株式会社 音声対話装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黒岩眞吾、武田一哉、井ノ上直己、山本誠一,機械との対話における発話分析,電子情報通信学会技術研究報告[音声]SP94−23〜30,日本,1994年6月17日,SP94−30,p57−64

Also Published As

Publication number Publication date
JPH086590A (ja) 1996-01-12

Similar Documents

Publication Publication Date Title
US10600414B1 (en) Voice control of remote device
US20200251107A1 (en) Voice control of remote device
EP3433855B1 (en) Speaker verification method and system
US10593328B1 (en) Voice control of remote device
EP1936606B1 (en) Multi-stage speech recognition
JP3004883B2 (ja) 終話検出方法及び装置並びに連続音声認識方法及び装置
US6192337B1 (en) Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
JPH06332495A (ja) 音声認識装置及び方法
JPH09106296A (ja) 音声認識装置及び方法
US11798559B2 (en) Voice-controlled communication requests and responses
WO2006083020A1 (ja) 抽出された音声データを用いて応答音声を生成する音声認識システム
US10143027B1 (en) Device selection for routing of communications
JP2004333543A (ja) 音声対話システム及び音声対話方法
WO2002091358A1 (en) Method and apparatus for rejection of speech recognition results in accordance with confidence level
EP1110207B1 (en) A method and a system for voice dialling
US20040006469A1 (en) Apparatus and method for updating lexicon
JP3285704B2 (ja) 音声対話のための音声認識方法及び装置
US7177806B2 (en) Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
US11172527B2 (en) Routing of communications to a device
US11735178B1 (en) Speech-processing system
JPH08263092A (ja) 応答音声生成方法および音声対話システム
US10854196B1 (en) Functional prerequisites and acknowledgments
JP2003177788A (ja) 音声対話システムおよびその方法
JPH07230293A (ja) 音声認識装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020212

LAPS Cancellation because of no payment of annual fees