JPH07104786A

JPH07104786A - 音声対話システム

Info

Publication number: JPH07104786A
Application number: JP5247834A
Authority: JP
Inventors: Hiroyuki Sakamoto; 博之坂本; Shoichi Matsunaga; 昭一松永
Original assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Current assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Priority date: 1993-10-04
Filing date: 1993-10-04
Publication date: 1995-04-21
Anticipated expiration: 2014-03-17
Also published as: JP2871420B2

Abstract

(57)【要約】【目的】従来例に比較して音声対話時の話者の音声認
識率を向上させることができ、しかもシステムを小型化
することができる音声対話システムを提供する。【構成】操作者とシステムとの間で音声を用いて所定
の目的のための対話を行うために、上記操作者の発話内
容に応じて自動的に上記操作者に対して発話する発話回
路を備えた音声対話システムにおいて、上記所定の目的
のための対話における複数の場面に応じて互いに異なる
複数の統計的言語モデルを格納する記憶装置と、上記発
話回路による発話内容の場面に基づいて上記複数の統計
的言語モデルのうちの１つを選択する選択回路と、上記
選択回路によって選択された統計的言語モデルを参照し
て、上記発話手段による発話の後に上記操作者が発話す
る発話内容を音声認識する音声認識回路とを備える。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、システムと人間との間
で音声を用いて対話するための音声対話システムに関す
る。

【０００２】

【従来の技術及び発明が解決しようとする課題】人間の
コミュニケーション手段の１つである音声は、対話形式
で用いられるのが一般的であり、このことから、対話音
声処理に関する研究が進められている。

【０００３】例えば、音声認識の効率向上を目的とし
て、対話の話題ならびにシステム側の質問の内容・型か
ら、ユーザの次発話に対し構文・単語予測を行なう音声
対話システム（以下、第１の従来例という。）が、森屋
裕治ほか，“対話予測を利用した音声による観光案内対
話システム”，電子情報通信学会技術報告，ＳＰ９２−
１２１，ｐｐ４３−５０，１９９３年１月に開示されて
いる。この第１の従来例では、観光案内をタスクとした
音声対話システムにおいて、対話システムの音声認識の
効率を向上させるために、ユーザの次発話の予測の方法
を提案している。この方法では、タスクが決定した上で
の対話であれば、対話の進行とともにユーザの発話中の
単語は限定されるために、単語予測を行うことができる
とともに、直前のシステムの発話の内容と文型から、ユ
ーザの発話の構文的な予測を行っている。そして、音声
認識における言語モデルに対して予測情報による制約を
実行することでパープレキシティを減少させている。し
かしながら、この第１の従来例のシステムは、対話予測
により単語辞書と文法の制限を行なうシステムであり、
語彙・構文の知識データベースが必要となり、大きな記
憶容量を有する記憶装置を必要とし、当該システムが大
型化するという問題点があった。

【０００４】一方、音節の連鎖統計情報を隠れマルコフ
モデル（ＨＭＭ）法による音韻認識と組み合わせること
によって、語彙の仮定なしに入力音声を音韻系列に変換
するシステム（以下、第２の従来例という。）が、川端
豪ほか，“ＨＭＭ音韻認識における音節連鎖統計情報の
利用”，電子情報通信学会技術報告，ＳＰ８９−１１
０，ｐｐ７−１２，１９９０年１月に開示されており、
この方法を上記第１の従来例の対話システムに応用する
ことが考えられる。しかしながら、第２の従来例では、
１つの統計的言語モデルを常時使う方法であり、音声認
識率が比較的低く実用化することは難しいという問題点
があった。

【０００５】本発明の目的は以上の問題点を解決し、従
来例に比較して音声対話時の話者の音声認識率を向上さ
せることができ、しかもシステムを小型化することがで
きる音声対話システムを提供することにある。

【０００６】

【課題を解決するための手段】本発明に係る請求項１記
載の音声対話システムは、操作者とシステムとの間で音
声を用いて所定の目的のための対話を行うために、上記
操作者の発話内容に応じて自動的に上記操作者に対して
発話する発話手段を備えた音声対話システムにおいて、
上記所定の目的のための対話における複数の場面に応じ
て互いに異なる複数の統計的言語モデルを格納する記憶
手段と、上記発話手段による発話内容の場面に基づいて
上記複数の統計的言語モデルのうちの１つを選択する選
択手段と、上記選択手段によって選択された統計的言語
モデルを参照して、上記発話手段による発話の後に上記
操作者が発話する発話内容を音声認識する音声認識手段
とを備えたことを特徴とする。

【０００７】また、請求項２記載の音声対話システム
は、請求項１記載の音声対話システムにおいて、上記統
計的言語モデルは、音節ｔｒｉｇｒａｍモデルであるこ
とを特徴とする。

【０００８】さらに、請求項３記載の音声対話システム
は、請求項１又は２記載の音声対話システムにおいて、
上記対話における複数の場面は、（１）対話の開始場面
と、（２）システムが名前を尋ねた場面と、（３）シス
テムがいつかと尋ねた場面と、（４）システムが何かと
尋ねた場面と、（５）システムがどこかと尋ねた場面
と、（６）対話の終了場面と、のうちの少なくとも１つ
を含むことを特徴とする。

【０００９】

【作用】本発明に係る音声対話システムにおいては、上
記選択手段は、上記発話手段による発話内容の場面に基
づいて上記複数の統計的言語モデルのうちの１つを選択
し、次いで、上記音声認識手段は、上記選択手段によっ
て選択された統計的言語モデルを参照して、上記発話手
段による発話の後に上記操作者が発話する発話内容を音
声認識する。

【００１０】

【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。図１は本実施例の音声対話システムの
ブロック図であり、本実施例の音声対話システムは、図
１に示すように、ＨＭＭ−ＬＲ（left-to-right rightm
ost）型音声認識装置を用いて、対話の中で予め場面に
応じて互いに異なる複数の統計的言語モデルを格納した
言語モデルメモリ１２−１乃至１２−６を設け、対話の
場面に応じて、その中から１つを随時選択して用いるこ
とを特徴とする。具体的には、「音声対話システムにお
けるユーザとシステムとの対話」という状況を想定し、
システム側からユーザの発話を予測するという形式で音
節ｔｒｉｇｒａｍの選択を行う。すなわち、システム側
から直前に発話した内容の場面に応じて選択的に切り換
えられた言語モデルメモリ（１２−１乃至１２−６の内
の１つ）内の言語モデルを参照して音声認識処理を実行
する。

【００１１】統計的言語モデルの選択を行なうにあたっ
て、音声対話システムがユーザ発話を予測し得る場面を
設定する必要がある。ここで、ユーザの発話を予測可能
な場面としては、対話の開始・終了場面や、システムが
何らかの質問をした場面、つまり、システムの質問に対
応した回答がユーザから得られる場面が考えられる。本
実施例においては、以下に示す分類に該当する場面を抽
出して、各場面に対応して統計的言語モデルを予め格納
した言語モデルメモリ１２−１乃至１２−６を設ける。（１）対話の開始場面（ｓｔａｒｔ）（２）システムが名前を尋ねた場面（ｗｈｏ）（３）システムがいつかと尋ねた場面（ｗｈｅｎ）（４）システムが何かと尋ねた場面（ｗｈａｔ）（５）システムがどこかと尋ねた場面（ｗｈｅｒｅ）（６）対話の終了場面（ｅｎｄ）

【００１２】図１において、話者の発声音声はマイクロ
ホン１に入力されて音声信号に変換された後、特徴抽出
部２に入力される。特徴抽出部２は、入力された音声信
号をＡ／Ｄ変換した後、例えばＬＰＣ分析を実行し、対
数パワー、１６次ケプストラム係数、Δ対数パワー及び
１６次Δケプストラム係数を含む３４次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ３を介して音素照合部４に入力される。
音素照合部４に接続される隠れマルコフモデル（以下、
ＨＭＭという。）メモリ１１内のＨＭＭは、複数の状態
と、各状態間の遷移を示す弧から構成され、各弧には状
態間の遷移確率と入力コードに対する出力確率を有して
いる。音素照合部４は、ＬＲパーザ５からの音素照合要
求に応じて音素照合処理を実行する。

【００１３】文脈自由文法データベースメモリ２０内の
所定の文脈自由文法（ＣＦＧ）を公知の通り自動的に変
換してＬＲテーブルを作成してＬＲテーブルメモリ１３
に格納される。一方、上記６つの場面に応じてそれぞれ
予め作成されて格納された各音節ｔｒｉｇｒａｍモデル
を含む統計的言語モデルメモリ１２−１乃至１２−６
は、発話決定部６によって選択的に切り換え制御される
スイッチＳＷを介してＬＲパーザ５に接続される。ここ
で、言語モデルメモリ１２−１乃至１２−６に格納した
音節ｔｒｉｇｒａｍモデルは、削除補間法（deleted in
terpolation）を用いて平滑化の処理を予め行う。な
お、本実施例においては、言語モデルメモリ１２−１乃
至１２−６は別々のメモリで構成しているが、これに限
らず、同一のメモリで構成して、スイッチＳＷの代わり
にアドレス指定によって言語モデルを切り換えるように
構成してもよい。

【００１４】ＬＲパーザ５は、言語モデルメモリ１２−
１乃至１２−６のうちの選択された１つと、上記ＬＲテ
ーブルとを参照して、入力された音素予測データについ
て左から右方向に、後戻りなしに処理して連続的に音声
認識の処理を実行する。ここで、構文的にあいまいさが
ある場合は、スタックを分割してすべての候補の解析が
平行して処理される。ＬＲパーザ５は、ＬＲテーブルメ
モリ１３内のＬＲテーブルから次にくる音素を予測して
音素予測データを音素照合部４に出力する。これに応答
して、音素照合部４は、その音素に対応するＨＭＭメモ
リ１１内の情報を参照して照合し、その確率値を音声認
識スコアとしてＬＲパーザ５に戻し、順次音素を連接し
ていくことにより、連続音声の認識を行っている。複数
の音素が予測された場合は、これらすべての存在をチェ
ックし、ビームサーチの方法により、部分的な音声認識
の確率値の高い部分木を残すという枝刈りを行って高速
処理を実現する。入力された話者音声の最後まで処理し
た後、全体の確率値が最大のものを音声認識結果データ
（文字列データ）として発話決定部６に出力する。

【００１５】発話決定部６は、例えば旅行手続き関する
旅行会社と客との間の対話という所定のタスクのために
所定の自動発話のための対話ルールのデータを予め格納
するメモリを内蔵している。そして、発話決定部６は、
入力された音声認識結果データに基づいて起動され、入
力された文字列データが平叙文であるならば対話ルール
スタック上の現在イネーブルされている対話ルールを用
いて解釈実行し、次の発話内容を決定する。一方、疑問
文であれば、その質問に答えるための特別な対話ルール
が対話ルールスタックにロードされ解釈実行して、次の
発話内容を決定する。発話決定部６は、次の発話内容の
決定の後に、当該決定された発話内容のデータを音声合
成部７に出力するとともに、その発話内容の場面に対応
した１つの言語モデルを選択するようにスイッチＳＷを
切り換える。ここで、スイッチＳＷの切り換えにあたっ
ては、システムの発話内容の各々に対して場面の情報が
予め付加され、その情報に基づいて実行される。

【００１６】音声合成部７は、入力された発話内容のデ
ータに基づいてその音声を合成してスピーカ８を介して
出力する。スピーカ８を介して出力された発話内容に対
してユーザがマイクロホン１に向かって発話するが、そ
のとき入力された音声の認識処理は、上述のように、シ
ステムが直前に発話した内容の場面に応じて選択的に切
り換えられた言語モデルメモリ１２−１乃至１２−６の
うちの１つのメモリ内の１つの言語モデルを参照して実
行される。

【００１７】本発明者は、言語モデルの選択の効果を検
証するためにシミュレーションを以下のように行った。
このシミュレーションにおいては、旅行手続きに関する
旅行会社と客の対話データから客側の発話を選択し、そ
のうちの６３８発話（７０９１文節）を学習用テキスト
として使用するとともに、１５８発話（１０１９文節）
を評価用テキストとして使用した。

【００１８】次いで、分類した学習テキストによる言語
モデルを以下のように作成した。各場面について、場面
ごとに分類して得た学習テキストと、学習用テキスト全
体からランダム（ｒａｎｄｏｍ）に選んだ同一の文節数
の学習テキストを用いて、それぞれ言語モデルを作成し
た。そして、対応する場面の評価テキストに対してパー
プレキシティを求めた。その結果を表１に示す。ここで
は、対話の開始場面（ｓｔａｒｔ）についてのみ示した
が、他の場面でも同様の結果が得られた。この結果か
ら、言語情報には、場面に応じて偏りがあることが確認
できる。以下、表中の（）内は文節数を表す。

【００１９】

【表１】分類した学習テキストから作成した言語モデルと、ランダムに選んだテキストから作成した言語モデルの比較 ─────────────────────────── 学習テキストテストテキストパープレキシティ ─────────────────────────── start (３０６) start (６７) ９．５５ random(３０６) start (６７) １７．７ ───────────────────────────

【００２０】場面ごとに分類して得た学習テキストはサ
ンプル数が少ないので、それから求められる言語モデル
は信頼性が低い。そこで、それぞれの場面以外の残りの
テキストを全て補間用テキストとして使用して新たに補
間を施した言語モデルを作成する。この言語モデルの作
成おいては、松永ほか，“音節連鎖統計情報のタスク適
応化”，第４２回情報処理学会全国大会，６Ｄ−５，１
９９１年３月に開示された方法を参照した。上記作成し
たモデルを、場面ごとの学習テキストのみから作成した
モデル、並びに、すべての学習テキストを用いて作成し
た単一の言語モデルと比較した結果を、表２に示す。表
中＊は残りのテキストによる補間を、「ｕｎｉｆｏｒ
ｍ」は分類無しの単一言語モデルを表す。

【００２１】

【表２】補間を施した言語モデルのパープレキシティ ─────────────────────────── テスト学習テキスト ─────────────────────────── start start(３０６) start＊ uniform (６７) ９．５５６．８７７．１７ ─────────────────────────── who who (４２４) who＊ uniform (５３) １３．７１４．１２２．６ ─────────────────────────── what what(５９) what＊ uniform (８) ３１．４１５．３１５．６ ─────────────────────────── when when(３３３) when＊ uniform (３２) １２．１１０．８１１．９ ─────────────────────────── where where(３６６) where＊ uniform (２６) １９．４１４．０１４．２ ─────────────────────────── end end(８０) end＊ uniform (２２) １．７５１．８８３．７７ ───────────────────────────

【００２２】上記表２の結果から、それぞれの場面でそ
の場面に応じた言語モデルを使用する方が、分類無しの
単一言語モデルよりも、パープレキシティが低くなるこ
とがわかる。「ｗｈｏ」及び「ｅｎｄ」については、分
類した学習テキストのみの言語モデルの方が、補間を施
した言語モデルよりもパープレキシティが低くなってい
るが、一般的には補間を施した言語モデルの方がより信
頼性が高いと考えられる。

【００２３】次いで、システム発話テキストの利用を試
みた。これは、「ユーザの発話が直前のシステムの発話
内容の影響を受けるのではないか」という仮定に基づく
ものである。そこで、評価テキストの各発話ごとに、直
前のシステムの１発話分のテキストを取り出し、これを
場面ごとに分類した学習テキストに加え、言語モデルを
作成した。

【００２４】また、前述の６つの場面のいずれにも属さ
ない場面（ｏｔｈｅｒ）は、システムが質問をしない場
面であり、説明を行なっている場面が多い。従って、そ
の説明内容の影響を受けたユーザ発話が多くなると予想
できる。そこで、どの場面にも属さないテキストについ
ても、学習用テキスト全体にシステム発話のテキストを
追加して学習した。そのシミュレーション結果を、表３
に示す。加えるシステム発話テキストに対する重みづけ
（すなわち、何回加えるか。）については、いくつかの
値で評価し最適であったものを選び示す。表中の［］
内は、重みづけの値を表す。

【００２５】

【表３】

【００２６】ユーザ発話直前のシステム発話テキストの
追加によって、全体的にパープレキシティは低くなっ
た。特に、「ｗｈａｔ」、「ｗｈｅｎ」、及び「ｏｔｈ
ｅｒ」は、直前の発話テキストを加える効果が比較的大
きかった。これは、この旅行手続きのタスクにおいては
直前のシステム発話の中で、「ｗｈｅｎ」の場面で期日
の説明、並びに、「ｗｈａｔ」、「ｏｔｈｅｒ」の場面
で旅行の説明を行なっている場合が多く、その説明内容
の影響を受けたユーザ発話が多かったためと考えられ
る。

【００２７】次いで、学習テキストを分類して場面ごと
に作成した言語モデルと、さらにそれにシステム発話を
追加して作成した言語モデルの効果を調べるために、以
下の３つのモデルについて、評価テキスト全体に対する
平均パープレキシティを求めた。（１）分類を行なわず学習用テキスト全てを用いて作成
した、単一の言語モデル（以下、「ｕｎｉｆｏｒｍ」と
いう。）（２）分類した学習テキストに対し、残りのテキストを
用いて補間を施して作成した言語モデル（以下、「条件
１」という。）（３)分類した学習テキストにシステム発話テキストを
追加して、言語モデルを作成し、さらに残りの学習テキ
ストで、上記（２）の補間と同じ係数をそのまま用いて
補間した言語モデル（以下、「条件２」という。）ただし、６つの分類のいずれにも属さない場面の言語モ
デルには、上記（２)では上記（１)「ｕｎｉｆｏｒｍ」
の言語モデルを用いるとともに、上記（３）では学習用
テキスト全体に直前のシステム発話のテキストを追加し
て学習したものを用いた。その結果を表４に示す。

【００２８】

【表４】単一言語モデルと条件つき言語モデルの平均パープレキシティの比較 ─────────────────────────────── 学習（１）uniform （２）条件１（３）条件２ (７０９１) （７０９１） (７０９１) ＋system ─────────────────────────────── テスト −−−−−−すべて(１０１９)−−−−−−− パープレキシティ１０．８１０．３９．７２ ───────────────────────────────

【００２９】上記表４の結果から、対話の場面に応じた
言語モデルを選択し、使用することによって、また、ユ
ーザ発話の直前のシステム発話のテキストを追加するこ
とによって、全体的にパープレキシティが低くなること
が確認できた。

【００３０】以上説明したように、本実施例において
は、「音声対話システムにおけるユーザとシステムの対
話」という状況を想定し、直前のシステム側の発話内容
により分類される場面に応じてユーザの発話を予測する
という形式で音節ｔｒｉｇｒａｍを含む統計的言語モデ
ルの選択を行っている。従って、パープレキシティを減
少させるために、学習テキストを場面ごとに分類して作
成した言語モデルが有効であり、さらにユーザ発話の直
前のシステム発話テキストの利用が有効であることがわ
かった。

【００３１】以上の実施例において、統計的言語モデル
として音節のｔｒｉｇｒａｍモデルを用いているが、本
発明はこれに限らず、音素、モーラ、音節又は単語のＮ
−ｇｒａｍモデル、もしくは確率文脈自由文法などを用
いてもよい。

【００３２】

【発明の効果】以上詳述したように本発明によれば、操
作者とシステムとの間で音声を用いて所定の目的のため
の対話を行うために、上記操作者の発話内容に応じて自
動的に上記操作者に対して発話する発話手段を備えた音
声対話システムにおいて、上記所定の目的のための対話
における複数の場面に応じて互いに異なる複数の統計的
言語モデルを格納する記憶手段と、上記発話手段による
発話内容の場面に基づいて上記複数の統計的言語モデル
のうちの１つを選択する選択手段と、上記選択手段によ
って選択された統計的言語モデルを参照して、上記発話
手段による発話の後に上記操作者が発話する発話内容を
音声認識する音声認識手段とを備える。従って、本発明
は以下の特有の効果を有する。（１）従来例のように、１つの統計的言語モデルを常時
使う方法に比べて、場面に応じたモデルを選択すること
によりパープレキシティの値が低くなるので、音声認識
の効率を大幅に向上させることができる。（２）統計的言語モデルは、知識データベースを必要と
せずテキストデータにより容易に作成できるので、大き
な記憶容量の記憶装置を必要とせず、当該音声対話シス
テムをより小型化することができる。

【図面の簡単な説明】

【図１】本発明に係る一実施例である音声対話システ
ムのブロック図である。

【符号の説明】

１…マイクロホン、２…特徴抽出部、３…バッファメモリ、４…音素照合部、５…ＬＲパーザ、６…発話決定部、７…音声合成部、８…スピーカ、１１…隠れマルコフモデル（ＨＭＭ）メモリ、１２−１乃至１２−６…言語モデルメモリ、１３…ＬＲテーブルメモリ、２０…文脈自由文法データベースメモリ、ＳＷ…スイッチ。

Claims

【特許請求の範囲】

【請求項１】操作者とシステムとの間で音声を用いて
所定の目的のための対話を行うために、上記操作者の発
話内容に応じて自動的に上記操作者に対して発話する発
話手段を備えた音声対話システムにおいて、上記所定の目的のための対話における複数の場面に応じ
て互いに異なる複数の統計的言語モデルを格納する記憶
手段と、上記発話手段による発話内容の場面に基づいて上記複数
の統計的言語モデルのうちの１つを選択する選択手段
と、上記選択手段によって選択された統計的言語モデルを参
照して、上記発話手段による発話の後に上記操作者が発
話する発話内容を音声認識する音声認識手段とを備えた
ことを特徴とする音声対話システム。
【請求項２】上記統計的言語モデルは、音節ｔｒｉｇ
ｒａｍモデルであることを特徴とする請求項１記載の音
声対話システム。
【請求項３】上記対話における複数の場面は、（１）
対話の開始場面と、（２）システムが名前を尋ねた場面
と、（３）システムがいつかと尋ねた場面と、（４）シ
ステムが何かと尋ねた場面と、（５）システムがどこか
と尋ねた場面と、（６）対話の終了場面と、のうちの少
なくとも１つを含むことを特徴とする請求項１又は２記
載の音声対話システム。