JP2002149189A

JP2002149189A - 音声対話システム

Info

Publication number: JP2002149189A
Application number: JP2001266392A
Authority: JP
Inventors: Bernd Souvignier; ズヴィニーアベルント
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-09-05
Filing date: 2001-09-03
Publication date: 2002-05-24
Also published as: US20020107690A1; BR0103860A; MXPA01009036A; KR20020019395A; DE10043531A1; EP1187440A3; EP1187440A2; CN1342017A

Abstract

(57)【要約】【課題】本発明は、音声入力において幅広い範囲の定
型の選択肢に対して夫々の単語サブシーケンスの最大限
に信頼できる識別を保証する対話システムを提供するこ
とを目的とする。【解決手段】本発明は、音声対話システム（１）に関
わる。音声入力において幅広い範囲の定型の選択肢に対
して有意味な単語サブシーケンスの最大限に信頼できる
識別を保証するために、音声対話システムは音声理解ユ
ニット（４）を有する。この音声理解ユニットにおい
て、単語サブシーケンスの評価が音声認識ユニット
（３）によって生成される認識結果から有意味な単語サ
ブシーケンスを識別するための異なる音声モデル（８）
を用いて行われ、これは音声対話システム（１）に与え
られる単語シーケンスに対して決定される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声対話システ
ム、例えば、自動情報システムに関わる。

【０００２】

【従来の技術】このような対話システムは、A.Kellne
r，

【０００３】

【外１】 F．Seide，及びB.H.Tranによる“PADIS−AN AUTOMATIC
TELEPHONE SWITCH BOARD AND DIRECTORY INFORM
ATION SYSTEM”，Speech Communication，vol.23，p
p．95‐111，1997から公知である。ユーザの音声の発声
は、ここでは電話回線網にインタフェースを介して受信
される。音声入力に反応にして、システム応答（音声出
力）は、対話システムによって生成され、この音声出力
はインタフェースを介して、ここでは更に電話回線網を
介してユーザに送信される。隠れマルコフモデル（ＨＭ
Ｍ）に基づく音声認識ユニットは、音声入力を単語グラ
フに変換し、この単語グラフは、受信された音声発声に
対する認識結果として適当である様々な単語シーケンス
を圧縮された形態で示す。単語グラフは、一つ以上の弧
によってつなげられる、決まった単語の境界線を明確に
する。弧には、単語と音声認識ユニットによって決定さ
れる確率値とが夫々割り当てられる。単語グラフを通る
様々なパスは、認識結果に対する可能な選択肢を表わ
す。音声理解ユニットでは、アプリケーションに関連す
る情報は、単語グラフの処理によって決定される。この
目的のために、統語規則及び意味規則を含む文法が使用
される。単語グラフから結果として生ずる様々な単語シ
ーケンスは、文法を使用するパーザを用いて概念シーケ
ンスに変換される一方で、概念は、単語パスの一つ以上
の単語まで広がり対話システムの夫々の使用に関連する
情報を有する単語サブシーケンス（単語の句）を組合わ
し、又は、いわゆるＦＩＬＬＥＲ概念の場合、夫々のア
プリケーションに対して無意味な単語サブシーケンスを
表示する。従って生ずる概念シーケンスは、可能な概念
シーケンスを圧縮された形態で利用できるようにするた
めに最終的に概念グラフに変換され、このとき圧縮され
た形態は処理するに容易である。概念グラフの弧には、
単語グラフの関連する確率値に依存する確率値が割り当
てられる。概念グラフ中の最適なパスから最終的にはア
プリケーション関連意味情報信号が抽出され、これら信
号は文法の意味規則においていわゆる属性によって表示
される。対話制御ユニットは、音声解釈ユニットによっ
て決定される情報を評価し、ユーザに適切な応答を生成
する一方で、対話制御ユニットが特定アプリケーション
用データ（ここでは、電話問い合わせアプリケーション
に対する特定のデータ）を含むデータベースにアクセス
する。

【０００４】このような対話システムは、文法及びデー
タベース中の特定アプリケーション用データだけが適合
されるべき例えば、線路情報システムのために使用され
得る。このような対話システムは、H.Aust，M.Oerder，
F.Seide，

【０００５】

【外２】による“A SPOKEN LANGUAGE INQUIRY SYSTEM FOR
AUTOMATIC TRAIN TIMETABLE INFORMATION”，Phil
ips J.Res.49（1995），pp.399‐418に記載される。

【０００６】このようなシステムでは、文法は、例え
ば、単語シーケンス「十時半に（“atten thirt
y”）」から関連する意味情報「夜の十二時から６３０
分後（630minutes after midnight）」を以下の通り
に導き出す一方で統語及び意味規則が以下の通りに適用
される：

【０００７】

【表１】＜number＿２４＞は、０から２４までの全ての数字を指
し、＜number＿６０＞は０から６０までの全ての数字を
指し、これら２つのパラメータは階層的に構成された文
法のいわゆる非終端記号パラメータである。関連する意
味情報は、尋ねた時間を計算するために関連する数値が
割り当てられる、属性＜number＿２４＞.val及び＜numb
er＿６０＞.valによって表示される。

【０００８】このアプローチ法は、定型を有する情報の
構造が先験的に知られているとき、例えば、時刻、日
付、場所名、又は、決まったリストの名前からの人名の
場合に非常によく作動する。しかしながら、このアプロ
ーチ法は、情報がより自由に定型化されているとき失敗
する。これは、映画情報の分野において音声対話システ
ムが使用される以下の例において明らかになる：１９９
９年のジェームズ・ボンド（James Bond）映画の正式
な題名は、「James Bond−The world is not enou
gh」である。この映画に関する典型的な質問は、「the
new Bond」、「the world is not enough」又は
「the latest film with Pierce Brosnan as Ja
mes Bond」である。可能な定型は、殆ど予測されず、
毎週変わる現在上映している映画に依存する。文法にお
ける決まった規則により、音声入力及び対話システムの
音声認識ユニットによって生成される認識結果において
単語サブシーケンスとして発生するこの多数の定型の一
つだけ又は幾つかを識別することが可能となる。更なる
対策無しでは、複数の定型の変形をもたらし、これらは
使用される文法によって網羅されず、識別されず、従っ
て、意味情報の割り当てによっても解釈され得ない。

【０００９】

【発明が解決しようとする課題】本発明は、音声入力に
おける幅広い範囲定型の選択肢に対して夫々の単語サブ
シーケンスの最大限に信頼できる識別を保証する対話シ
ステムを提供することを目的とする。

【００１０】

【課題を解決するための手段】この目的は、特許請求の
範囲の請求項１記載の対話システムによって実現され
る。

【００１１】この対話システムを用いて、音声認識ユニ
ットによって発生される認識結果の重要な単語サブシー
ケンス（この結果は特に単語グラフ又はＮの最適な単語
シーケンス仮説として発生する）は、統語構造が対話シ
ステムに対して先験的に知られてなく、従って使用され
る文法中に明確に含まれ得ない多数の定型の変形が発生
した場合でさえも高い信頼度で識別され得る。このよう
な単語サブシーケンスの識別は、このような評価が、異
なる（テキスト）コーポラに訓練された音声モデル（例
えば、連字（bigram）又は三重字（trigram）を競争さ
せることでお粉される点で成功である。一般的な、及
び、少なくとも特定テーマ用音声モデルが使用されるこ
とが好ましい。一般的な音声モデルは、例えば、日刊新
聞紙からの文献によって形成される訓練コーパス（trai
ning corpus）に訓練される。例えば、映画情報へのア
プリケーションに対する特定テーマ用音声モデルに関し
て、フィルムのタイトル情報に対する音声モデルと、フ
ィルムのコンテンツ（例えば、役者の名前）に関する情
報に対する音声モデルとが使用される。フィルムタイト
ル用音声モデルに対する訓練コーパスとして、現在上映
しているフィルムのタイトルの構成が使用されてもよ
い。フィルムコンテンツのための音声モデルに対する訓
練コーパスとしてこれらフィルムの短い説明の構成が使
用されてもよい。一方の音声モデルが他方の音声モデル
と比べて（自由に定型された）単語サブシーケンスに語
幹が近い場合、このような音声モデルは他方の音声モデ
ルよりもこの単語サブシーケンスに対して高い特に、一
般的な音声モデル（請求項２と比較）よりも高い確率を
割り当て、これは、単語サブシーケンスを有意味として
識別するために使用される。

【００１２】本発明を用いると、前の対話システムにお
ける単語サブシーケンスの識別と解釈との間の文法定義
された関係が排除される。請求項３は、どのようにして
意味情報が識別された単語サブシーケンスに割り当てら
れ得るかを示す。これら単語サブシーケンスは対話シス
テムの文法によって明確に含まれていないため、特別な
対策がこれに関して取られ得る。それぞれの特定テーマ
用データ材料を有するデータベースにアクセスすること
を提案する。識別された単語サブシーケンスは、データ
ベースアイテムと比較され、最も識別された単語サブシ
ーケンスに類似するデータベースアイテム（可能性とし
て複数の割り当てられたデータフィールドを有する）
は、例えば、選択されたデータベースアイテムの一つ又
は複数のデータフィールドの値を割り当てることによっ
て識別された単語サブシーケンスの意味情報を決定する
ために使用される。

【００１３】請求項４は、重要な単語シーケンスを識別
するために設けられる方法を記載する。

【００１４】

【発明の実施の形態】本発明の実施例は、図面を参照し
て以下に更に明らかにする。

【００１５】図１は、インタフェース２と、音声認識ユ
ニット３と、音声解釈ユニット４と、対話制御ユニット
５と、音声出力ユニット６（テキスト音声変換を含む）
と、特定アプリケーション用データを含むデータベース
７とを有する音声対話システム１（ここでは、映画情報
システム）を示す。ユーザの音声入力は、受信され、イ
ンタフェース２を介して音声認識ユニットに転送され
る。ここではインタフェース２は、特に電話回線網上で
のユーザに対するコネクションである。隠れマルコフモ
デル（ＨＭＭ）に基づく音声認識ユニット３は、認識結
果として単語グラフ（図２参照）を生成する一方で、本
発明の範囲では基本的には一つ以上のＮの最適な単語シ
ーケンスの仮説の処理が適用され得る。認識結果は、音
声認識ユニット３によって生成される認識結果中の関連
する統語及び意味情報を決定するために、音声理解ユニ
ット４によって評価される。音声理解ユニット４は、必
要である場合にはデータベース７中に記憶される特定ア
プリケーション用データにアクセスすることができる特
定アプリケーション用の文法を使用する。音声理解ユニ
ット４によって決定される情報は、対話制御ユニット５
に供給され、対話供給ユニットは、その情報から音声出
力ユニット６に供給されるシステム応答を決定する一方
で、データベース７に記憶される特定アプリケーション
用データが考慮される。システム応答が発生されると
き、対話制御ユニット５は、音声理解ユニット４によっ
て決定され、対話制御ユニット５に転送される情報に意
味ンテンツ及びシンタックスが依存する、先験的に予め
定められた応答サンプルを利用する。構成要素２乃至７
の詳細は、上述のA.Kellner，

【００１６】

【外３】 F.Seide、及び、B.H.Tranによる文献から得られ得る。

【００１７】音声対話システムは、更に、複数の音声モ
デルＬＭ−０、ＬＭ−１、ＬＭ−２、…、ＬＭ−Ｋ
（８）を含む。ここでは、音声モデルＬＭ−０は、一般
的な未特定テーマ用データ（例えば、日刊新聞からのテ
キストによって形成される）で訓練テキストコーパスに
訓練された一般的な音声モデルを表示する。他の音声モ
デルＬＭ−１乃至ＬＭ−Ｋは、特定テーマ用のテキスト
コーパスに訓練された特定テーマ用音声モデルを表わ
す。更に、音声対話システム１は、複数のデータベース
ＤＢ−１、ＤＢ−２、…、ＤＢ−Ｍ（９）を含み、これ
らの中に特定テーマ用の情報が記憶される。特定テーマ
用音声モデル及び特定テーマ用データベースは、夫々の
テーマと一列をなして互いに対応する一方で、一つのデ
ータベースが複数の特定テーマ用音声モデルに割り当て
られてもよい。以下では、その一般性が損なわれること
無く、二つの音声モデルＬＭ−０及びＬＭ−１と、音声
モデルＬＭ−１に割り当てられた一つのデータベースＤ
Ｂ−１とだけが始められる。

【００１８】本発明による音声対話システム１は、音声
入力の一部であり音声認識ユニット３によって生成され
る認識結果の一部として音声認識ユニット３の出力上で
利用できる、自由に定型化された有意味な単語サブシー
ケンスを識別することができる。有意味な単語サブシー
ケンスは、対話システムにおいて非終端記号（＝概念構
成要素）及び文法の概念によって通常表示される。

【００１９】音声解釈ユニット４は、階層的に構造され
た文脈自由文法を利用し、この文法の抜粋は以下の通り
である。

【００２０】

【表２】印

【００２１】

【外４】は、概念の又は非終端記号の定義である。印

【００２２】

【外５】は、概念又は非終端記号に対する意味情報を有する属性
を定義するために使用される。このような文法構造は、
基本的に公知（A.Kellner，

【００２３】

【外６】 F.Seide、及び、B.H.Tranによる上述の文献を参照）で
ある。有意味な単語サブシーケンスの識別は、トップダ
ウン解析を用いて行われる一方で、文法は弧が有意味な
単語サブシーケンスを表わす概念グラフを形成するため
に使用される。概念グラフの弧には確率値が割り当てら
れ、これら確率値は概念グラフを通る最適な（最も可能
性が高い）パスを決定するために使用される。文法を用
いることにより、このパスに関連する統語及び／又は意
味情報が得られ、これら情報は、音声理解ユニットの処
理結果として対話制御ユニット５に送られる。

【００２４】音声認識ユニット３によって音声理解ユニ
ット４（図２はその基本的構造を示す）に送られる単語
グラフ内の可能な単語シーケンスである、音声入力「I
would like to order two tickets for the
new James Bond film」に関して、本発明を説明す
る。

【００２５】単語サブシーケンス「I would like t
o」は、非終端記号＜want＞によって表示され、単語サ
ブシーケンス「two tickets」は非終端記号＜tickets
＞によって表示される一方で、この非終端記号は単語
「two」を指示する非終端記号＜number＞を含む。非終
端記号＜number＞には意味情報として夫々の数値を説明
する属性が再び割り当てられる。この属性は、属性番号
を決定するために使用され、非終端記号＜tickets＞に
夫々の数値を意味情報として割り当てる。単語「orde
r」は、非終端記号＜book＞によって識別される。

【００２６】単語グラフの２つの節点（ここでは７と１
２）の間にある単語サブシーケンス例えば、ここでは文
法の概念又は非終端記号から明確に把握され得ない「ne
w James Bond film」（図２にはdes neuen James
Bond Filmと表記される）を識別し解釈するために
は、文法はこれまで使用された文法と比較して新しいタ
イプの非終端記号、ここでは非終端記号＜title＿phras
e＞だけ拡張される。この非終端記号は、非終端記号＜f
ilm＞を定義するために使用され、この非終端記号＜fil
m＞は概念＜ticket＿order＞を定義するために使用され
る。非終端記号＜title＿phrase＞を用いると、自由に
定型化されたフィルムのタイトルを含む顕著な単語サブ
シーケンスが関連する属性を用いて識別され解釈され
る。フィルムのタイトルの自由な定型により、全てを予
測することは出来ない数多くの定型の変形を考えること
ができる。現在の場合、正しいタイトルは、「James B
ond−The world is not enough」である。使用され
る夫々の単語サブシーケンス「the new James Bond
film」は、フィルムの正しいタイトルと相当に異な
り、使用される文法によって明確に把握されない。それ
にも関わらず、この単語サブシーケンスは、タイトルの
記述として識別される。これは、図１においてＬＭ−０
乃至ＬＭ−Ｋと参照された複数の音声モデルを用いて評
価されることで実現される。

【００２７】映画情報システムとしての対話システム１
の現在の構成に関して、音声モデルＬＭ−０は一般的な
未特定テーマ用のテキストコーパスに訓練された一般的
な音声モデルである。音声モデルＬＭ−１は、特定テー
マ用のテキストコーパスに訓練された特定テーマ用音声
モデルであり、ここでは現在上映しているフィルム全て
の（正しい）タイトル及び短い説明を含む。これの代替
として、これまでに既知のタイプの統語規則（「new J
ames Bond」のような単語シーケンスに対して不成功で
ある）によって単語サブシーケンスを把握することであ
り、それにより、単語サブシーケンスの評価は、音声理
解ユニット４において、ブロック８によって組み合わさ
れる音声モデルを用いて行われ、即ち、ここでは一般的
な音声モデルＬＭ−０及びフィルムのタイトルを特定す
る音声モデルＬＭ−１によって行われる。節点７と１２
との間の単語サブシーケンスを用いると、音声モデルＬ
Ｍ−１は評価結果として一般的な音声モデルＬＭ−０に
よって評価結果として生成される確率よりも高い確率を
生成する。このようにして、単語サブシーケンス「the
new James Bond film」は、可変のシンタックスPH
RASE（LM−１）を含む非終端記号＜title＿phrase＞と
して識別される。音声認識ユニット３による音響評価か
ら結果として生ずる夫々の単語サブシーケンスに対する
確率値と、音声モデルＬＭ−１によって生成される夫々
の単語サブシーケンスに対する確率値とは（例えば、ス
コアを加算することで）組み合わされる一方で、発見的
に決定される重みが使用されることが好ましい。結果と
なる確率値は、非終端記号＜title＿phrase＞に割り当
てられる。

【００２８】非終端記号＜title＿phrase＞には、テキ
スト（text）、タイトル（title）、コンテンツ（conte
nts）の３つの属性による３つの意味情報信号が割り当
てられる。属性textは、識別された単語シーケンス＜ST
RING＞を指す。属性title及びcontentsに対する意味情
報信号は、RETRIEVEと呼ばれる情報検索を用いて決定さ
れ、この情報探索にデータベースＤＢ−１がアクセスさ
れる。データベースＤＢ−１は、シネマフィルムに関す
る特定のデータが記憶される特定テーマ用データベース
である。各データベース入力の下では、別々のフィール
ドＤＢ−１_title及びＤＢ−１_contentsにおいて一方で
夫々のフィルムのタイトル（正しいレファレンスを含
む）が記憶され、他方で、各フィルムのタイトルに対し
て短い説明（ここでは、「the new James Bond fil
m with Pierce Brosnan as agent００７」が記憶
される。ここで、属性title及び属性contentsに関し
て、識別された単語サブシーケンスに最も類似するデー
タベース入力が決定される（実施例において複数の同様
のデータベース入力が決定されることも可能である）一
方で、公知の検索方法、例えば、B.Carpenter，J.Chu−
Carroll，“Natural Language Call Routing：A Ro
bust，Self−Organizing Approach”，ICSLP 1998に
記載する情報引き出し方法が使用される。データベース
入力が検出された場合、フィールドＤＢ−１_titleは、
データベース入力から読み出され属性titleに割り当て
られ、フィルムの短い説明を含むフィールドＤＢ−１
_contentsが読み出され属性contentsに割り当てられる。

【００２９】最後に、従って決定される非終端記号＜ti
tle＿phrase＞は、非終端記号＜film＞を決定するため
に使用される。

【００３０】上記のような方法で解釈され識別される非
終端記号から、属性サービス（service）、数（numbe
r）、及び、タイトル（title）に夫々チケット注文＜ti
ckets．Number＞又は＜film．Title＞の意味コンテンツ
が割り当てられる概念＜ticket＿ordering＞が形成され
る。概念＜ticket＿ordering＞の実現は、図３に示すよ
うに概念グラフの一部を形成する。

【００３１】図２に示す単語グラフ、及び、図３に示す
概念グラフは、明瞭性のために簡略化された形態で表わ
される。実際にはグラフはより多くの弧を有するが、本
発明においては重要でない。上記した実施例において、
音声認識ユニット３が認識結果として単語グラフを供給
すると仮定した。しかしながら、これも本発明において
必須ではない。更に、単語グラフの代わりに、リストＮ
の最適な単語シーケンス又は文仮説の処理が考慮され
る。自由に定型化された単語サブシーケンスを用いる
と、意味コンテンツを決定するためにデータベース問い
合わせを有することは必ずしも必要でない。これは、対
話システムに対する夫々の命令に依存する。基本的に
は、追加のデータベースフィールドを含むことにより、
単語サブシーケンスに割り当てられ得る任意の数の意味
情報信号が予め定められ得る。

【００３２】図３に示す概念グラフの構造は、表の形態
で以下に示す。左側の２列は、概念節点５（概念間の境
界）を示す。これら以外には、適当であれば関連する可
能な属性及び割り当てられた意味コンテンツを含む概念
を山括弧（＜＞）内に示す。単語グラフの対応する単語
サブシーケンスを小括弧（（））に示し、その後に、適
当であれば、英語訳又はコメントを大括弧（［］）内に
示す。

【００３３】

【表３】

【図面の簡単な説明】

【図１】音声対話システムのブロック図である。

【図２】音声対話システムの音声認識ユニットによって
生成される単語グラフを示す図である。

【図３】音声対話システムの音声解釈ユニット中で生成
される概念グラフを示す図である。

【符号の説明】

２インタフェース３音声認識ユニット４音声解釈（理解）ユニット５対話制御ユニット６音声出力ユニット７データベース８複数の音声モデル９複数のデータベース

フロントページの続き (71)出願人 590000248 Ｇｒｏｅｎｅｗｏｕｄｓｅｗｅｇ１, 5621 ＢＡＥｉｎｄｈｏｖｅｎ，ＴｈｅＮｅｔｈｅｒｌａｎｄｓ

Claims

【特許請求の範囲】

【請求項１】音声理解ユニットを有する音声対話シス
テムであって、上記音声理解ユニットは、音声認識ユニットによって生
成される認識結果から有意味な単語サブシーケンスを識
別し、上記認識結果は上記音声対話システムに供給され
る単語シーケンスに対して決定され、上記単語サブシー
ケンスは異なる音声モデルを用いて評価される音声対話
システム。
【請求項２】一般的な音声モデル、及び、少なくとも
一つの特定テーマ用音声モデルが上記単語サブシーケン
スを評価するために設けられることを特徴とする請求項
１記載の音声対話システム。
【請求項３】複数の異なる上記音声モデルは、少なく
とも一つの特定テーマ用音声モデルを含み、上記特定テ
ーマ用音声モデルに対して夫々の特定テーマ用データ材
料を含むデータベースが割り当てられ、上記材料は上記
単語サブシーケンス中に含まれる意味情報を決定するた
めに使用されることを特徴とする請求項２記載の音声対
話システム。
【請求項４】音声対話システムの音声認識ユニットに
よって生成される認識結果から重要な単語サブシーケン
スを抽出する方法であって、上記単語サブシーケンスは上記音声対話システムの音声
理解ユニットにおいて異なる音声モデルを用いて評価さ
れる方法。