JP2004240150A

JP2004240150A - 音声対話装置、音声対話装置選択方法、プログラム及び記録媒体

Info

Publication number: JP2004240150A
Application number: JP2003028913A
Authority: JP
Inventors: Yoshihito Yasuda; 宜仁安田; Kouji Dousaka; 浩二堂坂; Kiyoaki Aikawa; 清明相川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-02-05
Filing date: 2003-02-05
Publication date: 2004-08-26

Abstract

【課題】単一話題分野を扱うことができる音声対話装置の仕組みを何ら変更せず、利用者にとって使い勝手のよい複数話題分野を扱うことができる音声対話装置を提供する。
【解決手段】利用者との対話によりそれぞれ特定の話題分野に関する処理を行う複数の単一話題分野対話装置２０−１〜２０−ｋ、利用者が発話した音声信号を認識し、認識結果の文字列を出力する話題分野選択部用音声認識部４０、該文字列を入力とし、話題分野選択データベース６０を参照して、利用者の発話に対してどの話題分野が適切か決定し、該決定した話題分野に対応する単一話題分野対話装置を選択する話題分野選択部５０を具備する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、利用者と音声による対話をやりとりすることによって、所定の動作を行う音声対話装置に関し、詳しくは、それぞれ特定の話題分野に関する処理を行う複数の単一話題分野対話装置から適切な単一話題分野対話装置を選択する技術にする。
【０００２】
【従来の技術】
従来より、利用者との対話によって所定の動作を行う、いわゆる音声対話装置が知られている。このような音声対話装置は、人が発生した音声を文字列に変換する音声認識部を有し、この結果とこれまでの対話の履歴を利用して次の装置の発話内容を制御し、この発話内容を音声出力装置によって音声として出力する。たとえば、天気情報の案内やスケジュール管理や飛行機の乗り換えなどを音声での対話によって行うサービスする音声対話装置が知られている。
【０００３】
通常、音声対話装置は、利用者の入力した音声を文字列に変換する音声認識部、音声認識部の出力した文字列を装置が理解できる表現（理解状態）に変換する言語理解部、理解状態の内容に応じて装置の発話内容を決定する対話制御部、対話制御部の決定内容に従って音声を生成する発話生成部を備えている。ここで、理解状態は、属性と値の対の表現で実現されることが多い。たとえば、天気情報案内システムであれば、属性として「県名」「曜日」「問合せの種類」などを持ち、それぞれの値としては「神奈川県」「月曜日」「降水確率の問合せ」などが考えられる。
【０００４】
ところで、「天気情報案内」や「スケジュール管理」や「飛行機の乗り換え」といった単一の話題分野ではなく、単一の装置で複数の話題分野を扱えるような音声対話装置を実現する場合、従来の技術は大きく２つのタイプに分けることができる。まず、１つめのタイプは、単一の音声理解部と単一の言語理解部をもち、取り扱うすべての話題分野に関する理解状態を単一の表現によって実現する方式である（非特許文献１、非特許文献２）。もう一方のタイプは、単一の話題分野を扱えるような音声対話システムを複数組み合わせ、利用者が話題分野切り替えのための特定の命令発話を行うことによって切り替える方式（非特許文献３）である。
【０００５】
【非特許文献１】
Ｌｉｎ，Ｂ．Ｓ．，Ｗａｎｇ，Ｈ．Ｍ．，ａｎｄＬｅｅ，Ｌ．Ｓ．，“ＣｏｎｓｉｓｔｅｎｔＤｉａｌｏｇｕｅＡｃｒｏｓｓ
ＣｏｎｃｕｒｒｅｎｔＴｏｐｉｃｓＢａｓｅｄｏｎａｎＥｘｐｅｒｔＳｙｓｔｅｍＭｏｄｅｌ”，ＥＵＲＯＳＰＥＥＣＨ９９
【非特許文献２】
ＬａｕｒｅｎＢａｐｔｉｓｔａｎｄＳｔｅｐｈａｎｉｅＳｃｎｅｆｆ，“ＧＥＮＥＳＩＳ−ＩＩ：ＡＶｅｒｓａｔｉｌｅ
ＳｙｓｔｅｍｆｏｒＬａｎｇｕａｇｅＧｅｎｅｒａｔｉｏｎｉｎＣｏｎｖｅｒｓａｔｉｏｎａｌＳｙｓｔｅｍ
Ａｐｐｌｉｃａｔｉｏｎｓ”，ＩＣＳＬＰ００，２０００
【非特許文献３】
ボイスポータル
（ｈｔｔｐ：／／ｗｗｗ．ｎｔｔ．ｃｏｍ／ｖ−ｐｏｒｔａｌ／ｒｉｙｏｕ／ｉｎｄｅｘ．ｈｔｍｌ，０５７０−００３３−０３）
【０００６】
【発明が解決しようとする課題】
しかし、前者のタイプの場合、装置へ新しい機能を付け加えたり、機能の変更をする場合の手間が非常に大きい問題があった。手間の原因は、単一言語理解部への変更の波及の範囲がどこまで及ぶかの調査が必要であることと、既存の単一言語理解部での理解方法と齟齬がないような変更を行う必要があることによる。また、後者のタイプの場合、利用者は話題分野と命令発話の対応を理解して命令発話を記憶する必要があり、利用者への負担が大きい問題があった。
【０００７】
本発明の目的は、従来の上記のような問題点に鑑み、少ない手間で複数の話題分野を扱える音声対話装置の作成を可能とし、また、利用者は特別の命令を覚えることなく、あたかも単一の話題分野を扱う装置と同様の使い勝手で、複数の話題分野を扱う音声対話装置の利用を可能とすることにある。
【０００８】
【課題を解決するための手段】
本発明では、利用者との対話によりそれぞれ特定の話題分野に関する処理を行う複数の単一話題分野対話装置を使用する。これらには既存の音声対話装置がそのまま利用できる。そして、利用者が発話した音声信号を認識し、認識結果の文字列を出力する話題分野選択部用の音声認識手段と、該音声認識手段の文字列を入力とし、利用者の発話に対してどの話題分野が適切か決定し、該決定した話題分野に対応する単一話題分野対話装置を選択する話題分野選択手段を設ける。また、あらかじめ収集した利用者の発話から作成された発話の文字列と話題分野の対応関係を保持した話題分野選択データベースを備え、話題分野選択手段は、該話題分野選択データベースを参照して、利用者の発話に対する適切な話題分野を決定する。
【０００９】
【発明の実施の形態】
図１に本発明にかかる音声対話装置の一実施例のブロック図を示す。本音声対話装置は、利用者の音声を入力するマイク等の音声入力部１０、それぞれが特定（単一）の話題分野を扱う複数の単一話題分野対話装置２０−１〜２０−ｋ、利用者へ音声を出力するスピーカ等の音声出力部３０、話題分野選択のために利用者の音声を認識する話題分野選択部用音声認識部４０、該話題分野選択部用音声認識部４０の認識結果を入力して、複数の単一話題分野対話装置２０−１〜２０−ｋから適切な単一話題分野対話装置を選択する話題分野選択部５０、該話題分野選択部５０で参照される話題分野選択データベース６０から構成される。なお、本音声対話装置はインターネット等の通信網を介して利用されてもよく、その場合には、音声入力部１０及び音声出力部３０は通信網を介した利用者端末側が具備することになる。
【００１０】
ここで、各単一話題分野対話装置２０−１〜２０−ｋは、通常の音声対話装置と同じであり、それぞれ音声認識部２１、言語理解部２２、対話制御部２３、発話生成部２４などを備えている。ただし、例えば、装置２０−１は天気情報案内、装置２０−２はスケジュール管理、装置２０−ｌは飛行機の乗り換え等、各単一話題分野対話装置２０−１〜２０−ｋはそれぞれ単一の話題分野を扱えればよい。これらの単一話題分野対話装置２０−１〜２０−ｋには既存の音声対話装置をそのまま使うことができる。また、扱う話題分野を増やす場合には、その話題分野の音声対話装置を付加すればよい。
【００１１】
話題分野選択部用音声認識部４０は、音声入力部１０からの利用者の音声信号を受け取り、認結果の文字列を出力する。この話題分野選択用音声認識部４０には既存の一般的な音声認識器を使用することができる。
【００１２】
話題分野選択部５０は、話題分野選択部用音声認識部４０により得られた利用者の発話文字列を入力して、適切な話題分野の選択を行う。この話題分野の選択には、通常の音声対話装置での言語理解方法（つまり、文字列に対して構文解析を行い理解状態を作成する方法）ではなく、話題分野選択データベース６０を使用して、従来より知られているベクトル空間モデル等の情報検索技術を利用する（つまり、理解状態は作成しない）。例えば、重みづけに単語頻度と逆文書頻度の積（ｔｆ・ｉｄｆ）を用いたベクトル空間モデルや相互情報量や信号／雑音比といった一般的に知られている手法が利用可能である。
【００１３】
話題分野選択データベース６０は、話題分野選択部５０が利用者の発話に対して適切な話題分野を判定し、適切な単一話題分野対話装置を選択するために利用される。この話題分野選択データベース６０は次のようなものである。統合して動作させる対象となっている全ての単一話題分野対話装置２０−１〜２０−ｋについて、装置と利用者との対話のうち、利用者の発話を事前に収集しておく。この収集した利用者の発話を文字列に変換し、この文字列を単語単位で区切り、単語列を得る。この際の単語の定義は教科書文法や橋本文法などの一般的な日本語文法の定義に沿ってもよいし、それとは異なる対象の音声対話装置にとって扱いやすい単位であってもよい。収集したすべての利用者発話について、発話が向けられた単一話題分野装置の識別子と発話の文字列中の単語列という対を保持したものが話題分野選択データベース６０である。
【００１４】
例えば、スケジュール管理を扱う単一話題分野対話装置に対する利用者の「月曜日の予定を教えてください」という発話は「月曜日」「の」「予定」「を」「教えて」「ください」と分割され、
（スケジュール管理）−（（月曜日）（の）（予定）（を）（教えて）（ください））
という対を得る。
【００１５】
また、この対話分野選択データベース６０には話題分野選択部５０にとって扱いやすい形式に変換して保持しておくことができる。例えば、話題分野選択部５０が、ベクトル空間モデルを用いて重みづけにｔｆ・ｉｄｆを用いて話題分野の選択を行う場合には、その単語重み行列を準備しておくこともできる。なお、これについては後述する。
【００１６】
以下に、本音声対話装置の全体的な処理の流れを説明する。図２はその処理フローチャートを示したものである。
音声入力部１０は、利用者が発生した音声を入力して電気信号に変換する（Ｓ１０１）。単一話題分野対話装置２０−１〜２０−ｋは、それぞれ音声入力部１０から利用者の音声信号を受け取り、当該装置としての所定の処理を実行する（Ｓ１１０）。すなわち、音声認識部２１では入力された音声信号を文字列に変換し、言語理解部２２では該文字列を当該装置が理解できる表現（理解状態）に変換し、対話制御部２３では該理解状態の内容に応じて当該装置の発話内容を決定し、発話生成部２４では、該決定された発話内容に沿って音声信号を生成する。この単一話題分野対話装置２０−１〜２０−ｋの動作は、通常の音声対話装置と同様であるので、ここではその詳細は省略する。
【００１７】
一方、話題分野選択部用音声認識部４０においても、音声入力部１０からの利用者の音声信号を受け取り、音声認識し、認識結果の文字列を出力する（Ｓ１０２）。話題分野選択部５０は、話題分野選択部用音声認識部４０からの利用者による発話の文字列を入力とし、話題分野選択データベース６０を参照して既存の情報検索技術により、適切な話題分野を決定し（Ｓ１０３）、該決定した話題分野に対応する単一話題分野対話装置を選択する（Ｓ１０４）。そして、話題分野選択部５０は、選択されなかった単一話題分野対話装置からの音声信号を抑制し、選択された単一話題分野対話装置からの音声信号を出力させる。この機構は電気的に行う場合、各単一話題分野装置が電気信号を１つだけ選択するスイッチとして実現可能である。一般的に商品として売られている音声用のミキサを使うことができる。音声出力部３０は、この音声信号を音声に変換して出力する（Ｓ１０５）。
【００１８】
次に、話題分野選択データベース６０の構成及び話題分野選択部５０の処理について詳述する。ここでは、話題分野の決定、選択にｔｆ・ｉｄｆによるベクトル空間モデルでの検索を適用する例を示す。
【００１９】
図３に話題分野選択データベース６０が保持する種々の表（テーブル）を示す。ここで、単一話題分野対話装置はｋ台あり、収集した発話の総数はｎ個、出現単語の種類の数はｍ個であったとする。図３中、（ａ）は各発話に番号を振り、該発話番号ｉ（ｉ∈１，２，…，ｎ）と発話（文字列）との対応をとる発話番号表である。（ｂ）は出現した単語の種類に番号を振り、単語番号（単語種類番号）ｊ（ｊ∈１，２，…，ｍ）と単語との対応をとる単語番号表である。（ｃ）は発話とその発話の向けられた単一話題分野対話装置との対応を取るために、発話番号ｉ（ｉ∈１，２，…，ｎ）と話題分野識別子ｊ（ｊ∈１，２，…，ｋ）との対を要素とする発話−話題分野対応表である。話題分野識別子ｊ（ｊ∈１，２，…，ｋ）は単一話題分野対話装置２０−１〜２０−ｋと一対一に対応する。（ｄ）は単語番号と、その単語番号の単語が最低１回でも出現する発話の数の対を要素とする単語−発話頻度表である。
【００２０】
適切な話題分野を決定し、対応する単一話題分野対話装置を選択する最も簡単な方法は、話題分野選択部用音声認識部４０により得られた利用者の発話文字列と図３（ａ）の発話番号表の発話（文字列）とを照合して、最も照合のとれた発話番号を得、該発話番号をキーに図３（ｃ）の発話−話題分野対応表より、対応する話題分野識別子を検索し、その単一話題分野対話装置を選択することである。勿論、話題分野選択部５０はこのようにして利用者の発話に対し、適切な単一話題分野対話装置を選択してもよい。
【００２１】
次に、ｔｆ・ｉｄｆによるベクトル空間モデルの検索手法を適用する場合について説明する。
いま、発話番号ｉ（ｉ∈１，２，…，ｎ）における、単語番号ｊ（ｊ∈１，２，…，ｍ）の単語の出現回数を（ｉ，ｊ）成分にもつようなｎ×ｍ単語頻度行列Ｈを作成する。また、図３（ｄ）の単語−発話頻度表のそれぞれの要素（単語）の出現発話数について、該出現発話数をｆとして場合に、ｌｏｇｎ／ｆ（ｎは収集した発話の数）を算出し、この値をｍ（単語の種類数）次元のベクトルのｉ（ｉ∈１，２，…，ｍ）成分とするような単語−逆発話頻度ベクトルｖを作成する。そして、この単語−逆発話頻度ベクトルｖと単語頻度行列Ｈを用いて、各単語の重みを記した単語重み行列を作成する。具体的には、ｖとＨの積Ｈ・ｖを単語重み行列Ｗとする。この単語重み行列Ｗをあらかじめ話題分野選択データベース６０に保持しておく。
【００２２】
図４に、単語重み行列Ｗを用いたｔｆ・ｉｄｆによるベクトル空間モデルを利用した話題分野選択の処理フローチャートを示す。
話題分野選択部５０では、話題分野選択部用音声認識部４０により得られた利用者の発話文字列を入力し（Ｓ２０１）、図３（ｂ）の単語番号表を利用して検索ベクトルを作成する（Ｓ２０２）。検索ベクトルは単語の種類数次元（ｍ）のベクトルであり、利用者発話中で各単語が出現した回数を各成分の値として持つ。例えば、「月曜日の予定」と言う利用者発話から検索ベクトルを作成する場合、発話中の単語である「月曜日」「の」「予定」の単語番号を単語番号表（図３（ｂ））より得る。仮にそれぞれの番号が５，１０，２０であったとすると、
（０，０，０，０，１，０，０，０，０，１，０，０，０，０，０，０，０，０，０，１，０，０，…）のように、５，１０，２０番目の成分が１となるようなｍ次元ベクトルが検索ベクトルとなる。
【００２３】
話題分野選択部５０は、この検索ベクトルと単語重み行列Ｗの各列成分との余弦をそれぞれ算出する（Ｓ２０３）。そして、検索ベクトルとの余弦の値が最も大きくなるようなＷの列成分に対応する発話番号ｉ（ｉ∈１，２，…，ｎ）を選択する（Ｓ２０４）。この選択した発話番号をキーに図３（ｃ）の発話−話題分野対応表より、対応する話題分野識別子を得る（Ｓ２０５）。
【００２４】
なお、図１で示した本音声対話装置における各部の一部もしくは全部の処理機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、あるいは、図２、図４で示した処理手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもない。また、コンピュータでその処理機能を実現するためのプログラム、あるいは、コンピュータにその処理手順を実行させるためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えば、ＦＤ、ＭＯ、ＲＯＭ、メモリカード、ＣＤ、ＤＶＤ、リムーバブルディスクなどに記録して、保存したり、提供したりすることができるとともに、インターネット等のネットワークを通してそのプログラムを配布したりすることが可能である。
【００２５】
【発明の効果】
本発明によれば、単一話題分野を扱うことができる音声対話装置の仕組みを何ら変更せずに、話題分野選択部や話題分野選択データベースを用意するだけで複数の話題分野を扱うことができるので、少ない手間で複数の話題分野を取り扱う音声対話装置を作成することが可能である。また、利用者は本音声対話装置を使うにあたって特別な命令を覚える必要はないので、利用者は単一話題分野を扱う装置同様の使い勝手で本音声対話装置を使うことができる。
【図面の簡単な説明】
【図１】本発明に係る音声対話装置の一実施例のブロック図である。
【図２】本音声対話装置の全体的な処理フローチャートである。
【図３】話題分野選択データベース内の各種表を示す図である。
【図４】話題分野選択処理のフローチャートの一例である。
【符号の説明】
１０音声入力部
２−１〜２０−ｋ単一話題分野対話装置
３０音声出力部
４０話題分野選択部用音声認識部
５０話題分野選択部
４０話題分野選択データベース

Claims

利用者との対話によりそれぞれ特定の話題分野に関する処理を行う複数の単一話題分野対話装置と、
利用者が発話した音声信号を認識し、認識結果の文字列を出力する話題分野選択部用音声認識部と、
前記話題分野選択部用音声認識部の文字列を入力とし、利用者の発話に対してどの話題分野が適切か決定し、該決定した話題分野に対応する単一話題分野対話装置を選択する話題分野選択部と、
を具備することを特徴とする音声対話装置。
請求項１記載の音声対話装置において、あらかじめ収集した利用者の発話から作成された発話の文字列と話題分野の対応関係を保持した話題分野選択データベースを備え、前記話題分野選択部は、前記話題分野選択データベースを参照して、利用者の発話に対する適切な話題分野を決定することを特徴とする音声対話装置。
利用者との対話によりそれぞれ特定の話題分野に関する処理を行う複数の単一話題分野対話装置から適切な単一話題分野対話装置を選択する方法であって、
利用者が発話した音声信号を認識し、認識結果の文字列を出力するステップと、
前記認識結果の文字列を入力とし、あらかじめ発話の文字列と話題分野の対応関係を保持した話題分野選択データベースを参照して、利用者の発話に対する適切な話題分野を決定するステップと、
前記決定した話題分野に対応する単一話題分野対話装置を選択するステップと、
を有することを特徴とする音声対話装置選択方法。
利用者との対話によりそれぞれ特定の話題分野に関する処理を行う複数の単一話題分野対話装置から適切な単一話題分野対話装置を選択する処理をコンピュータで実行するためのプログラムであって、
利用者が発話した音声信号を認識し、認識結果の文字列を出力するステップと、
前記認識結果の文字列を入力とし、あらかじめ発話の文字列と話題分野の対応関係を保持した話題分野選択データベースを参照して、利用者の発話に対する適切な話題分野を決定するステップと、
前記決定した話題分野に対応する単一話題分野対話装置を選択するステップと、
を有することを特徴とするプログラム。
請求項４に記載のプログラムを記録したコンピュータで読み取り可能な記録媒体。