JP2004240150A - 音声対話装置、音声対話装置選択方法、プログラム及び記録媒体 - Google Patents
音声対話装置、音声対話装置選択方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2004240150A JP2004240150A JP2003028913A JP2003028913A JP2004240150A JP 2004240150 A JP2004240150 A JP 2004240150A JP 2003028913 A JP2003028913 A JP 2003028913A JP 2003028913 A JP2003028913 A JP 2003028913A JP 2004240150 A JP2004240150 A JP 2004240150A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- user
- topic field
- dialogue
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】単一話題分野を扱うことができる音声対話装置の仕組みを何ら変更せず、利用者にとって使い勝手のよい複数話題分野を扱うことができる音声対話装置を提供する。
【解決手段】利用者との対話によりそれぞれ特定の話題分野に関する処理を行う複数の単一話題分野対話装置20−1〜20−k、利用者が発話した音声信号を認識し、認識結果の文字列を出力する話題分野選択部用音声認識部40、該文字列を入力とし、話題分野選択データベース60を参照して、利用者の発話に対してどの話題分野が適切か決定し、該決定した話題分野に対応する単一話題分野対話装置を選択する話題分野選択部50を具備する。
【選択図】 図1
【解決手段】利用者との対話によりそれぞれ特定の話題分野に関する処理を行う複数の単一話題分野対話装置20−1〜20−k、利用者が発話した音声信号を認識し、認識結果の文字列を出力する話題分野選択部用音声認識部40、該文字列を入力とし、話題分野選択データベース60を参照して、利用者の発話に対してどの話題分野が適切か決定し、該決定した話題分野に対応する単一話題分野対話装置を選択する話題分野選択部50を具備する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、利用者と音声による対話をやりとりすることによって、所定の動作を行う音声対話装置に関し、詳しくは、それぞれ特定の話題分野に関する処理を行う複数の単一話題分野対話装置から適切な単一話題分野対話装置を選択する技術にする。
【0002】
【従来の技術】
従来より、利用者との対話によって所定の動作を行う、いわゆる音声対話装置が知られている。このような音声対話装置は、人が発生した音声を文字列に変換する音声認識部を有し、この結果とこれまでの対話の履歴を利用して次の装置の発話内容を制御し、この発話内容を音声出力装置によって音声として出力する。たとえば、天気情報の案内やスケジュール管理や飛行機の乗り換えなどを音声での対話によって行うサービスする音声対話装置が知られている。
【0003】
通常、音声対話装置は、利用者の入力した音声を文字列に変換する音声認識部、音声認識部の出力した文字列を装置が理解できる表現(理解状態)に変換する言語理解部、理解状態の内容に応じて装置の発話内容を決定する対話制御部、対話制御部の決定内容に従って音声を生成する発話生成部を備えている。ここで、理解状態は、属性と値の対の表現で実現されることが多い。たとえば、天気情報案内システムであれば、属性として「県名」「曜日」「問合せの種類」などを持ち、それぞれの値としては「神奈川県」「月曜日」「降水確率の問合せ」などが考えられる。
【0004】
ところで、「天気情報案内」や「スケジュール管理」や「飛行機の乗り換え」といった単一の話題分野ではなく、単一の装置で複数の話題分野を扱えるような音声対話装置を実現する場合、従来の技術は大きく2つのタイプに分けることができる。まず、1つめのタイプは、単一の音声理解部と単一の言語理解部をもち、取り扱うすべての話題分野に関する理解状態を単一の表現によって実現する方式である(非特許文献1、非特許文献2)。もう一方のタイプは、単一の話題分野を扱えるような音声対話システムを複数組み合わせ、利用者が話題分野切り替えのための特定の命令発話を行うことによって切り替える方式(非特許文献3)である。
【0005】
【非特許文献1】
Lin,B.S.,Wang,H.M.,and Lee,L.S.,“Consistent Dialogue Across
Concurrent Topics Based on an Expert System Model”,EUROSPEECH99
【非特許文献2】
Lauren Baptist and Stephanie Scneff,“GENESIS−II:A Versatile
System for Language Generation in Conversational System
Applications”,ICSLP00,2000
【非特許文献3】
ボイスポータル
(http://www.ntt.com/v−portal/riyou/index.html,0570−0033−03)
【0006】
【発明が解決しようとする課題】
しかし、前者のタイプの場合、装置へ新しい機能を付け加えたり、機能の変更をする場合の手間が非常に大きい問題があった。手間の原因は、単一言語理解部への変更の波及の範囲がどこまで及ぶかの調査が必要であることと、既存の単一言語理解部での理解方法と齟齬がないような変更を行う必要があることによる。また、後者のタイプの場合、利用者は話題分野と命令発話の対応を理解して命令発話を記憶する必要があり、利用者への負担が大きい問題があった。
【0007】
本発明の目的は、従来の上記のような問題点に鑑み、少ない手間で複数の話題分野を扱える音声対話装置の作成を可能とし、また、利用者は特別の命令を覚えることなく、あたかも単一の話題分野を扱う装置と同様の使い勝手で、複数の話題分野を扱う音声対話装置の利用を可能とすることにある。
【0008】
【課題を解決するための手段】
本発明では、利用者との対話によりそれぞれ特定の話題分野に関する処理を行う複数の単一話題分野対話装置を使用する。これらには既存の音声対話装置がそのまま利用できる。そして、利用者が発話した音声信号を認識し、認識結果の文字列を出力する話題分野選択部用の音声認識手段と、該音声認識手段の文字列を入力とし、利用者の発話に対してどの話題分野が適切か決定し、該決定した話題分野に対応する単一話題分野対話装置を選択する話題分野選択手段を設ける。また、あらかじめ収集した利用者の発話から作成された発話の文字列と話題分野の対応関係を保持した話題分野選択データベースを備え、話題分野選択手段は、該話題分野選択データベースを参照して、利用者の発話に対する適切な話題分野を決定する。
【0009】
【発明の実施の形態】
図1に本発明にかかる音声対話装置の一実施例のブロック図を示す。本音声対話装置は、利用者の音声を入力するマイク等の音声入力部10、それぞれが特定(単一)の話題分野を扱う複数の単一話題分野対話装置20−1〜20−k、利用者へ音声を出力するスピーカ等の音声出力部30、話題分野選択のために利用者の音声を認識する話題分野選択部用音声認識部40、該話題分野選択部用音声認識部40の認識結果を入力して、複数の単一話題分野対話装置20−1〜20−kから適切な単一話題分野対話装置を選択する話題分野選択部50、該話題分野選択部50で参照される話題分野選択データベース60から構成される。なお、本音声対話装置はインターネット等の通信網を介して利用されてもよく、その場合には、音声入力部10及び音声出力部30は通信網を介した利用者端末側が具備することになる。
【0010】
ここで、各単一話題分野対話装置20−1〜20−kは、通常の音声対話装置と同じであり、それぞれ音声認識部21、言語理解部22、対話制御部23、発話生成部24などを備えている。ただし、例えば、装置20−1は天気情報案内、装置20−2はスケジュール管理、装置20−lは飛行機の乗り換え等、各単一話題分野対話装置20−1〜20−kはそれぞれ単一の話題分野を扱えればよい。これらの単一話題分野対話装置20−1〜20−kには既存の音声対話装置をそのまま使うことができる。また、扱う話題分野を増やす場合には、その話題分野の音声対話装置を付加すればよい。
【0011】
話題分野選択部用音声認識部40は、音声入力部10からの利用者の音声信号を受け取り、認結果の文字列を出力する。この話題分野選択用音声認識部40には既存の一般的な音声認識器を使用することができる。
【0012】
話題分野選択部50は、話題分野選択部用音声認識部40により得られた利用者の発話文字列を入力して、適切な話題分野の選択を行う。この話題分野の選択には、通常の音声対話装置での言語理解方法(つまり、文字列に対して構文解析を行い理解状態を作成する方法)ではなく、話題分野選択データベース60を使用して、従来より知られているベクトル空間モデル等の情報検索技術を利用する(つまり、理解状態は作成しない)。例えば、重みづけに単語頻度と逆文書頻度の積(tf・idf)を用いたベクトル空間モデルや相互情報量や信号/雑音比といった一般的に知られている手法が利用可能である。
【0013】
話題分野選択データベース60は、話題分野選択部50が利用者の発話に対して適切な話題分野を判定し、適切な単一話題分野対話装置を選択するために利用される。この話題分野選択データベース60は次のようなものである。統合して動作させる対象となっている全ての単一話題分野対話装置20−1〜20−kについて、装置と利用者との対話のうち、利用者の発話を事前に収集しておく。この収集した利用者の発話を文字列に変換し、この文字列を単語単位で区切り、単語列を得る。この際の単語の定義は教科書文法や橋本文法などの一般的な日本語文法の定義に沿ってもよいし、それとは異なる対象の音声対話装置にとって扱いやすい単位であってもよい。収集したすべての利用者発話について、発話が向けられた単一話題分野装置の識別子と発話の文字列中の単語列という対を保持したものが話題分野選択データベース60である。
【0014】
例えば、スケジュール管理を扱う単一話題分野対話装置に対する利用者の「月曜日の予定を教えてください」という発話は「月曜日」「の」「予定」「を」「教えて」「ください」と分割され、
(スケジュール管理)−((月曜日)(の)(予定)(を)(教えて)(ください))
という対を得る。
【0015】
また、この対話分野選択データベース60には話題分野選択部50にとって扱いやすい形式に変換して保持しておくことができる。例えば、話題分野選択部50が、ベクトル空間モデルを用いて重みづけにtf・idfを用いて話題分野の選択を行う場合には、その単語重み行列を準備しておくこともできる。なお、これについては後述する。
【0016】
以下に、本音声対話装置の全体的な処理の流れを説明する。図2はその処理フローチャートを示したものである。
音声入力部10は、利用者が発生した音声を入力して電気信号に変換する(S101)。単一話題分野対話装置20−1〜20−kは、それぞれ音声入力部10から利用者の音声信号を受け取り、当該装置としての所定の処理を実行する(S110)。すなわち、音声認識部21では入力された音声信号を文字列に変換し、言語理解部22では該文字列を当該装置が理解できる表現(理解状態)に変換し、対話制御部23では該理解状態の内容に応じて当該装置の発話内容を決定し、発話生成部24では、該決定された発話内容に沿って音声信号を生成する。この単一話題分野対話装置20−1〜20−kの動作は、通常の音声対話装置と同様であるので、ここではその詳細は省略する。
【0017】
一方、話題分野選択部用音声認識部40においても、音声入力部10からの利用者の音声信号を受け取り、音声認識し、認識結果の文字列を出力する(S102)。話題分野選択部50は、話題分野選択部用音声認識部40からの利用者による発話の文字列を入力とし、話題分野選択データベース60を参照して既存の情報検索技術により、適切な話題分野を決定し(S103)、該決定した話題分野に対応する単一話題分野対話装置を選択する(S104)。そして、話題分野選択部50は、選択されなかった単一話題分野対話装置からの音声信号を抑制し、選択された単一話題分野対話装置からの音声信号を出力させる。この機構は電気的に行う場合、各単一話題分野装置が電気信号を1つだけ選択するスイッチとして実現可能である。一般的に商品として売られている音声用のミキサを使うことができる。音声出力部30は、この音声信号を音声に変換して出力する(S105)。
【0018】
次に、話題分野選択データベース60の構成及び話題分野選択部50の処理について詳述する。ここでは、話題分野の決定、選択にtf・idfによるベクトル空間モデルでの検索を適用する例を示す。
【0019】
図3に話題分野選択データベース60が保持する種々の表(テーブル)を示す。ここで、単一話題分野対話装置はk台あり、収集した発話の総数はn個、出現単語の種類の数はm個であったとする。図3中、(a)は各発話に番号を振り、該発話番号i(i∈1,2,…,n)と発話(文字列)との対応をとる発話番号表である。(b)は出現した単語の種類に番号を振り、単語番号(単語種類番号)j(j∈1,2,…,m)と単語との対応をとる単語番号表である。(c)は発話とその発話の向けられた単一話題分野対話装置との対応を取るために、発話番号i(i∈1,2,…,n)と話題分野識別子j(j∈1,2,…,k)との対を要素とする発話−話題分野対応表である。話題分野識別子j(j∈1,2,…,k)は単一話題分野対話装置20−1〜20−kと一対一に対応する。(d)は単語番号と、その単語番号の単語が最低1回でも出現する発話の数の対を要素とする単語−発話頻度表である。
【0020】
適切な話題分野を決定し、対応する単一話題分野対話装置を選択する最も簡単な方法は、話題分野選択部用音声認識部40により得られた利用者の発話文字列と図3(a)の発話番号表の発話(文字列)とを照合して、最も照合のとれた発話番号を得、該発話番号をキーに図3(c)の発話−話題分野対応表より、対応する話題分野識別子を検索し、その単一話題分野対話装置を選択することである。勿論、話題分野選択部50はこのようにして利用者の発話に対し、適切な単一話題分野対話装置を選択してもよい。
【0021】
次に、tf・idfによるベクトル空間モデルの検索手法を適用する場合について説明する。
いま、発話番号i(i∈1,2,…,n)における、単語番号j(j∈1,2,…,m)の単語の出現回数を(i,j)成分にもつようなn×m単語頻度行列Hを作成する。また、図3(d)の単語−発話頻度表のそれぞれの要素(単語)の出現発話数について、該出現発話数をfとして場合に、log n/f(nは収集した発話の数)を算出し、この値をm(単語の種類数)次元のベクトルのi(i∈1,2,…,m)成分とするような単語−逆発話頻度ベクトルvを作成する。そして、この単語−逆発話頻度ベクトルvと単語頻度行列Hを用いて、各単語の重みを記した単語重み行列を作成する。具体的には、vとHの積H・vを単語重み行列Wとする。この単語重み行列Wをあらかじめ話題分野選択データベース60に保持しておく。
【0022】
図4に、単語重み行列Wを用いたtf・idfによるベクトル空間モデルを利用した話題分野選択の処理フローチャートを示す。
話題分野選択部50では、話題分野選択部用音声認識部40により得られた利用者の発話文字列を入力し(S201)、図3(b)の単語番号表を利用して検索ベクトルを作成する(S202)。検索ベクトルは単語の種類数次元(m)のベクトルであり、利用者発話中で各単語が出現した回数を各成分の値として持つ。例えば、「月曜日の予定」と言う利用者発話から検索ベクトルを作成する場合、発話中の単語である「月曜日」「の」「予定」の単語番号を単語番号表(図3(b))より得る。仮にそれぞれの番号が5,10,20であったとすると、
(0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,…)のように、5,10,20番目の成分が1となるようなm次元ベクトルが検索ベクトルとなる。
【0023】
話題分野選択部50は、この検索ベクトルと単語重み行列Wの各列成分との余弦をそれぞれ算出する(S203)。そして、検索ベクトルとの余弦の値が最も大きくなるようなWの列成分に対応する発話番号i(i∈1,2,…,n)を選択する(S204)。この選択した発話番号をキーに図3(c)の発話−話題分野対応表より、対応する話題分野識別子を得る(S205)。
【0024】
なお、図1で示した本音声対話装置における各部の一部もしくは全部の処理機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、あるいは、図2、図4で示した処理手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもない。また、コンピュータでその処理機能を実現するためのプログラム、あるいは、コンピュータにその処理手順を実行させるためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えば、FD、MO、ROM、メモリカード、CD、DVD、リムーバブルディスクなどに記録して、保存したり、提供したりすることができるとともに、インターネット等のネットワークを通してそのプログラムを配布したりすることが可能である。
【0025】
【発明の効果】
本発明によれば、単一話題分野を扱うことができる音声対話装置の仕組みを何ら変更せずに、話題分野選択部や話題分野選択データベースを用意するだけで複数の話題分野を扱うことができるので、少ない手間で複数の話題分野を取り扱う音声対話装置を作成することが可能である。また、利用者は本音声対話装置を使うにあたって特別な命令を覚える必要はないので、利用者は単一話題分野を扱う装置同様の使い勝手で本音声対話装置を使うことができる。
【図面の簡単な説明】
【図1】本発明に係る音声対話装置の一実施例のブロック図である。
【図2】本音声対話装置の全体的な処理フローチャートである。
【図3】話題分野選択データベース内の各種表を示す図である。
【図4】話題分野選択処理のフローチャートの一例である。
【符号の説明】
10 音声入力部
2−1〜20−k 単一話題分野対話装置
30 音声出力部
40 話題分野選択部用音声認識部
50 話題分野選択部
40 話題分野選択データベース
【発明の属する技術分野】
本発明は、利用者と音声による対話をやりとりすることによって、所定の動作を行う音声対話装置に関し、詳しくは、それぞれ特定の話題分野に関する処理を行う複数の単一話題分野対話装置から適切な単一話題分野対話装置を選択する技術にする。
【0002】
【従来の技術】
従来より、利用者との対話によって所定の動作を行う、いわゆる音声対話装置が知られている。このような音声対話装置は、人が発生した音声を文字列に変換する音声認識部を有し、この結果とこれまでの対話の履歴を利用して次の装置の発話内容を制御し、この発話内容を音声出力装置によって音声として出力する。たとえば、天気情報の案内やスケジュール管理や飛行機の乗り換えなどを音声での対話によって行うサービスする音声対話装置が知られている。
【0003】
通常、音声対話装置は、利用者の入力した音声を文字列に変換する音声認識部、音声認識部の出力した文字列を装置が理解できる表現(理解状態)に変換する言語理解部、理解状態の内容に応じて装置の発話内容を決定する対話制御部、対話制御部の決定内容に従って音声を生成する発話生成部を備えている。ここで、理解状態は、属性と値の対の表現で実現されることが多い。たとえば、天気情報案内システムであれば、属性として「県名」「曜日」「問合せの種類」などを持ち、それぞれの値としては「神奈川県」「月曜日」「降水確率の問合せ」などが考えられる。
【0004】
ところで、「天気情報案内」や「スケジュール管理」や「飛行機の乗り換え」といった単一の話題分野ではなく、単一の装置で複数の話題分野を扱えるような音声対話装置を実現する場合、従来の技術は大きく2つのタイプに分けることができる。まず、1つめのタイプは、単一の音声理解部と単一の言語理解部をもち、取り扱うすべての話題分野に関する理解状態を単一の表現によって実現する方式である(非特許文献1、非特許文献2)。もう一方のタイプは、単一の話題分野を扱えるような音声対話システムを複数組み合わせ、利用者が話題分野切り替えのための特定の命令発話を行うことによって切り替える方式(非特許文献3)である。
【0005】
【非特許文献1】
Lin,B.S.,Wang,H.M.,and Lee,L.S.,“Consistent Dialogue Across
Concurrent Topics Based on an Expert System Model”,EUROSPEECH99
【非特許文献2】
Lauren Baptist and Stephanie Scneff,“GENESIS−II:A Versatile
System for Language Generation in Conversational System
Applications”,ICSLP00,2000
【非特許文献3】
ボイスポータル
(http://www.ntt.com/v−portal/riyou/index.html,0570−0033−03)
【0006】
【発明が解決しようとする課題】
しかし、前者のタイプの場合、装置へ新しい機能を付け加えたり、機能の変更をする場合の手間が非常に大きい問題があった。手間の原因は、単一言語理解部への変更の波及の範囲がどこまで及ぶかの調査が必要であることと、既存の単一言語理解部での理解方法と齟齬がないような変更を行う必要があることによる。また、後者のタイプの場合、利用者は話題分野と命令発話の対応を理解して命令発話を記憶する必要があり、利用者への負担が大きい問題があった。
【0007】
本発明の目的は、従来の上記のような問題点に鑑み、少ない手間で複数の話題分野を扱える音声対話装置の作成を可能とし、また、利用者は特別の命令を覚えることなく、あたかも単一の話題分野を扱う装置と同様の使い勝手で、複数の話題分野を扱う音声対話装置の利用を可能とすることにある。
【0008】
【課題を解決するための手段】
本発明では、利用者との対話によりそれぞれ特定の話題分野に関する処理を行う複数の単一話題分野対話装置を使用する。これらには既存の音声対話装置がそのまま利用できる。そして、利用者が発話した音声信号を認識し、認識結果の文字列を出力する話題分野選択部用の音声認識手段と、該音声認識手段の文字列を入力とし、利用者の発話に対してどの話題分野が適切か決定し、該決定した話題分野に対応する単一話題分野対話装置を選択する話題分野選択手段を設ける。また、あらかじめ収集した利用者の発話から作成された発話の文字列と話題分野の対応関係を保持した話題分野選択データベースを備え、話題分野選択手段は、該話題分野選択データベースを参照して、利用者の発話に対する適切な話題分野を決定する。
【0009】
【発明の実施の形態】
図1に本発明にかかる音声対話装置の一実施例のブロック図を示す。本音声対話装置は、利用者の音声を入力するマイク等の音声入力部10、それぞれが特定(単一)の話題分野を扱う複数の単一話題分野対話装置20−1〜20−k、利用者へ音声を出力するスピーカ等の音声出力部30、話題分野選択のために利用者の音声を認識する話題分野選択部用音声認識部40、該話題分野選択部用音声認識部40の認識結果を入力して、複数の単一話題分野対話装置20−1〜20−kから適切な単一話題分野対話装置を選択する話題分野選択部50、該話題分野選択部50で参照される話題分野選択データベース60から構成される。なお、本音声対話装置はインターネット等の通信網を介して利用されてもよく、その場合には、音声入力部10及び音声出力部30は通信網を介した利用者端末側が具備することになる。
【0010】
ここで、各単一話題分野対話装置20−1〜20−kは、通常の音声対話装置と同じであり、それぞれ音声認識部21、言語理解部22、対話制御部23、発話生成部24などを備えている。ただし、例えば、装置20−1は天気情報案内、装置20−2はスケジュール管理、装置20−lは飛行機の乗り換え等、各単一話題分野対話装置20−1〜20−kはそれぞれ単一の話題分野を扱えればよい。これらの単一話題分野対話装置20−1〜20−kには既存の音声対話装置をそのまま使うことができる。また、扱う話題分野を増やす場合には、その話題分野の音声対話装置を付加すればよい。
【0011】
話題分野選択部用音声認識部40は、音声入力部10からの利用者の音声信号を受け取り、認結果の文字列を出力する。この話題分野選択用音声認識部40には既存の一般的な音声認識器を使用することができる。
【0012】
話題分野選択部50は、話題分野選択部用音声認識部40により得られた利用者の発話文字列を入力して、適切な話題分野の選択を行う。この話題分野の選択には、通常の音声対話装置での言語理解方法(つまり、文字列に対して構文解析を行い理解状態を作成する方法)ではなく、話題分野選択データベース60を使用して、従来より知られているベクトル空間モデル等の情報検索技術を利用する(つまり、理解状態は作成しない)。例えば、重みづけに単語頻度と逆文書頻度の積(tf・idf)を用いたベクトル空間モデルや相互情報量や信号/雑音比といった一般的に知られている手法が利用可能である。
【0013】
話題分野選択データベース60は、話題分野選択部50が利用者の発話に対して適切な話題分野を判定し、適切な単一話題分野対話装置を選択するために利用される。この話題分野選択データベース60は次のようなものである。統合して動作させる対象となっている全ての単一話題分野対話装置20−1〜20−kについて、装置と利用者との対話のうち、利用者の発話を事前に収集しておく。この収集した利用者の発話を文字列に変換し、この文字列を単語単位で区切り、単語列を得る。この際の単語の定義は教科書文法や橋本文法などの一般的な日本語文法の定義に沿ってもよいし、それとは異なる対象の音声対話装置にとって扱いやすい単位であってもよい。収集したすべての利用者発話について、発話が向けられた単一話題分野装置の識別子と発話の文字列中の単語列という対を保持したものが話題分野選択データベース60である。
【0014】
例えば、スケジュール管理を扱う単一話題分野対話装置に対する利用者の「月曜日の予定を教えてください」という発話は「月曜日」「の」「予定」「を」「教えて」「ください」と分割され、
(スケジュール管理)−((月曜日)(の)(予定)(を)(教えて)(ください))
という対を得る。
【0015】
また、この対話分野選択データベース60には話題分野選択部50にとって扱いやすい形式に変換して保持しておくことができる。例えば、話題分野選択部50が、ベクトル空間モデルを用いて重みづけにtf・idfを用いて話題分野の選択を行う場合には、その単語重み行列を準備しておくこともできる。なお、これについては後述する。
【0016】
以下に、本音声対話装置の全体的な処理の流れを説明する。図2はその処理フローチャートを示したものである。
音声入力部10は、利用者が発生した音声を入力して電気信号に変換する(S101)。単一話題分野対話装置20−1〜20−kは、それぞれ音声入力部10から利用者の音声信号を受け取り、当該装置としての所定の処理を実行する(S110)。すなわち、音声認識部21では入力された音声信号を文字列に変換し、言語理解部22では該文字列を当該装置が理解できる表現(理解状態)に変換し、対話制御部23では該理解状態の内容に応じて当該装置の発話内容を決定し、発話生成部24では、該決定された発話内容に沿って音声信号を生成する。この単一話題分野対話装置20−1〜20−kの動作は、通常の音声対話装置と同様であるので、ここではその詳細は省略する。
【0017】
一方、話題分野選択部用音声認識部40においても、音声入力部10からの利用者の音声信号を受け取り、音声認識し、認識結果の文字列を出力する(S102)。話題分野選択部50は、話題分野選択部用音声認識部40からの利用者による発話の文字列を入力とし、話題分野選択データベース60を参照して既存の情報検索技術により、適切な話題分野を決定し(S103)、該決定した話題分野に対応する単一話題分野対話装置を選択する(S104)。そして、話題分野選択部50は、選択されなかった単一話題分野対話装置からの音声信号を抑制し、選択された単一話題分野対話装置からの音声信号を出力させる。この機構は電気的に行う場合、各単一話題分野装置が電気信号を1つだけ選択するスイッチとして実現可能である。一般的に商品として売られている音声用のミキサを使うことができる。音声出力部30は、この音声信号を音声に変換して出力する(S105)。
【0018】
次に、話題分野選択データベース60の構成及び話題分野選択部50の処理について詳述する。ここでは、話題分野の決定、選択にtf・idfによるベクトル空間モデルでの検索を適用する例を示す。
【0019】
図3に話題分野選択データベース60が保持する種々の表(テーブル)を示す。ここで、単一話題分野対話装置はk台あり、収集した発話の総数はn個、出現単語の種類の数はm個であったとする。図3中、(a)は各発話に番号を振り、該発話番号i(i∈1,2,…,n)と発話(文字列)との対応をとる発話番号表である。(b)は出現した単語の種類に番号を振り、単語番号(単語種類番号)j(j∈1,2,…,m)と単語との対応をとる単語番号表である。(c)は発話とその発話の向けられた単一話題分野対話装置との対応を取るために、発話番号i(i∈1,2,…,n)と話題分野識別子j(j∈1,2,…,k)との対を要素とする発話−話題分野対応表である。話題分野識別子j(j∈1,2,…,k)は単一話題分野対話装置20−1〜20−kと一対一に対応する。(d)は単語番号と、その単語番号の単語が最低1回でも出現する発話の数の対を要素とする単語−発話頻度表である。
【0020】
適切な話題分野を決定し、対応する単一話題分野対話装置を選択する最も簡単な方法は、話題分野選択部用音声認識部40により得られた利用者の発話文字列と図3(a)の発話番号表の発話(文字列)とを照合して、最も照合のとれた発話番号を得、該発話番号をキーに図3(c)の発話−話題分野対応表より、対応する話題分野識別子を検索し、その単一話題分野対話装置を選択することである。勿論、話題分野選択部50はこのようにして利用者の発話に対し、適切な単一話題分野対話装置を選択してもよい。
【0021】
次に、tf・idfによるベクトル空間モデルの検索手法を適用する場合について説明する。
いま、発話番号i(i∈1,2,…,n)における、単語番号j(j∈1,2,…,m)の単語の出現回数を(i,j)成分にもつようなn×m単語頻度行列Hを作成する。また、図3(d)の単語−発話頻度表のそれぞれの要素(単語)の出現発話数について、該出現発話数をfとして場合に、log n/f(nは収集した発話の数)を算出し、この値をm(単語の種類数)次元のベクトルのi(i∈1,2,…,m)成分とするような単語−逆発話頻度ベクトルvを作成する。そして、この単語−逆発話頻度ベクトルvと単語頻度行列Hを用いて、各単語の重みを記した単語重み行列を作成する。具体的には、vとHの積H・vを単語重み行列Wとする。この単語重み行列Wをあらかじめ話題分野選択データベース60に保持しておく。
【0022】
図4に、単語重み行列Wを用いたtf・idfによるベクトル空間モデルを利用した話題分野選択の処理フローチャートを示す。
話題分野選択部50では、話題分野選択部用音声認識部40により得られた利用者の発話文字列を入力し(S201)、図3(b)の単語番号表を利用して検索ベクトルを作成する(S202)。検索ベクトルは単語の種類数次元(m)のベクトルであり、利用者発話中で各単語が出現した回数を各成分の値として持つ。例えば、「月曜日の予定」と言う利用者発話から検索ベクトルを作成する場合、発話中の単語である「月曜日」「の」「予定」の単語番号を単語番号表(図3(b))より得る。仮にそれぞれの番号が5,10,20であったとすると、
(0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,…)のように、5,10,20番目の成分が1となるようなm次元ベクトルが検索ベクトルとなる。
【0023】
話題分野選択部50は、この検索ベクトルと単語重み行列Wの各列成分との余弦をそれぞれ算出する(S203)。そして、検索ベクトルとの余弦の値が最も大きくなるようなWの列成分に対応する発話番号i(i∈1,2,…,n)を選択する(S204)。この選択した発話番号をキーに図3(c)の発話−話題分野対応表より、対応する話題分野識別子を得る(S205)。
【0024】
なお、図1で示した本音声対話装置における各部の一部もしくは全部の処理機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、あるいは、図2、図4で示した処理手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもない。また、コンピュータでその処理機能を実現するためのプログラム、あるいは、コンピュータにその処理手順を実行させるためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えば、FD、MO、ROM、メモリカード、CD、DVD、リムーバブルディスクなどに記録して、保存したり、提供したりすることができるとともに、インターネット等のネットワークを通してそのプログラムを配布したりすることが可能である。
【0025】
【発明の効果】
本発明によれば、単一話題分野を扱うことができる音声対話装置の仕組みを何ら変更せずに、話題分野選択部や話題分野選択データベースを用意するだけで複数の話題分野を扱うことができるので、少ない手間で複数の話題分野を取り扱う音声対話装置を作成することが可能である。また、利用者は本音声対話装置を使うにあたって特別な命令を覚える必要はないので、利用者は単一話題分野を扱う装置同様の使い勝手で本音声対話装置を使うことができる。
【図面の簡単な説明】
【図1】本発明に係る音声対話装置の一実施例のブロック図である。
【図2】本音声対話装置の全体的な処理フローチャートである。
【図3】話題分野選択データベース内の各種表を示す図である。
【図4】話題分野選択処理のフローチャートの一例である。
【符号の説明】
10 音声入力部
2−1〜20−k 単一話題分野対話装置
30 音声出力部
40 話題分野選択部用音声認識部
50 話題分野選択部
40 話題分野選択データベース
Claims (5)
- 利用者との対話によりそれぞれ特定の話題分野に関する処理を行う複数の単一話題分野対話装置と、
利用者が発話した音声信号を認識し、認識結果の文字列を出力する話題分野選択部用音声認識部と、
前記話題分野選択部用音声認識部の文字列を入力とし、利用者の発話に対してどの話題分野が適切か決定し、該決定した話題分野に対応する単一話題分野対話装置を選択する話題分野選択部と、
を具備することを特徴とする音声対話装置。 - 請求項1記載の音声対話装置において、あらかじめ収集した利用者の発話から作成された発話の文字列と話題分野の対応関係を保持した話題分野選択データベースを備え、前記話題分野選択部は、前記話題分野選択データベースを参照して、利用者の発話に対する適切な話題分野を決定することを特徴とする音声対話装置。
- 利用者との対話によりそれぞれ特定の話題分野に関する処理を行う複数の単一話題分野対話装置から適切な単一話題分野対話装置を選択する方法であって、
利用者が発話した音声信号を認識し、認識結果の文字列を出力するステップと、
前記認識結果の文字列を入力とし、あらかじめ発話の文字列と話題分野の対応関係を保持した話題分野選択データベースを参照して、利用者の発話に対する適切な話題分野を決定するステップと、
前記決定した話題分野に対応する単一話題分野対話装置を選択するステップと、
を有することを特徴とする音声対話装置選択方法。 - 利用者との対話によりそれぞれ特定の話題分野に関する処理を行う複数の単一話題分野対話装置から適切な単一話題分野対話装置を選択する処理をコンピュータで実行するためのプログラムであって、
利用者が発話した音声信号を認識し、認識結果の文字列を出力するステップと、
前記認識結果の文字列を入力とし、あらかじめ発話の文字列と話題分野の対応関係を保持した話題分野選択データベースを参照して、利用者の発話に対する適切な話題分野を決定するステップと、
前記決定した話題分野に対応する単一話題分野対話装置を選択するステップと、
を有することを特徴とするプログラム。 - 請求項4に記載のプログラムを記録したコンピュータで読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003028913A JP2004240150A (ja) | 2003-02-05 | 2003-02-05 | 音声対話装置、音声対話装置選択方法、プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003028913A JP2004240150A (ja) | 2003-02-05 | 2003-02-05 | 音声対話装置、音声対話装置選択方法、プログラム及び記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004240150A true JP2004240150A (ja) | 2004-08-26 |
Family
ID=32956234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003028913A Pending JP2004240150A (ja) | 2003-02-05 | 2003-02-05 | 音声対話装置、音声対話装置選択方法、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004240150A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007052043A (ja) * | 2005-08-15 | 2007-03-01 | Nippon Telegr & Teleph Corp <Ntt> | 音声対話シナリオ作成方法、装置、音声対話シナリオ作成プログラム、記録媒体 |
JP2015524934A (ja) * | 2012-04-04 | 2015-08-27 | アルデバラン ロボティクス | ユーザとの自然対話をロボットの挙動に組み込むことができるロボットならびに前記ロボットをプログラムする方法および使用する方法 |
CN108806690A (zh) * | 2013-06-19 | 2018-11-13 | 松下电器(美国)知识产权公司 | 声音对话方法及声音对话代理服务器 |
JP2019125317A (ja) * | 2018-01-19 | 2019-07-25 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
-
2003
- 2003-02-05 JP JP2003028913A patent/JP2004240150A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007052043A (ja) * | 2005-08-15 | 2007-03-01 | Nippon Telegr & Teleph Corp <Ntt> | 音声対話シナリオ作成方法、装置、音声対話シナリオ作成プログラム、記録媒体 |
JP4634889B2 (ja) * | 2005-08-15 | 2011-02-16 | 日本電信電話株式会社 | 音声対話シナリオ作成方法、装置、音声対話シナリオ作成プログラム、記録媒体 |
JP2015524934A (ja) * | 2012-04-04 | 2015-08-27 | アルデバラン ロボティクス | ユーザとの自然対話をロボットの挙動に組み込むことができるロボットならびに前記ロボットをプログラムする方法および使用する方法 |
US10052769B2 (en) | 2012-04-04 | 2018-08-21 | Softbank Robotics Europe | Robot capable of incorporating natural dialogues with a user into the behaviour of same, and methods of programming and using said robot |
CN108806690A (zh) * | 2013-06-19 | 2018-11-13 | 松下电器(美国)知识产权公司 | 声音对话方法及声音对话代理服务器 |
JP2018189984A (ja) * | 2013-06-19 | 2018-11-29 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声対話方法、及び、音声対話エージェントサーバ |
USRE49014E1 (en) | 2013-06-19 | 2022-04-05 | Panasonic Intellectual Property Corporation Of America | Voice interaction method, and device |
JP2019125317A (ja) * | 2018-01-19 | 2019-07-25 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11915707B1 (en) | Outcome-oriented dialogs on a speech recognition platform | |
KR100679043B1 (ko) | 음성 대화 인터페이스 장치 및 방법 | |
US10580408B1 (en) | Speech recognition services | |
US10614803B2 (en) | Wake-on-voice method, terminal and storage medium | |
CN104157285B (zh) | 语音识别方法、装置及电子设备 | |
KR102369416B1 (ko) | 복수의 사용자 각각에 대응하는 개인화 레이어를 이용하여 복수의 사용자 각각의 음성 신호를 인식하는 음성 신호 인식 시스템 | |
Adel et al. | Recurrent neural network language modeling for code switching conversational speech | |
US9734839B1 (en) | Routing natural language commands to the appropriate applications | |
JP3724649B2 (ja) | 音声認識用辞書作成装置および音声認識装置 | |
KR101309042B1 (ko) | 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법 | |
JP4468264B2 (ja) | 多言語による名称の音声認識のための方法とシステム | |
KR20160077190A (ko) | 자연 표현 처리 방법, 처리 및 응답 방법, 디바이스 및 시스템 | |
JP2015232868A (ja) | 音声認識機能を用いた情報提供方法および機器の制御方法 | |
CN101567189A (zh) | 声音识别结果修正装置、方法以及系统 | |
WO2006054724A1 (ja) | 音声認識装置及び方法ならびにプログラム | |
CN107680581A (zh) | 用于名称发音的系统和方法 | |
WO2020119432A1 (zh) | 一种语音识别方法、装置、设备和存储介质 | |
JP2009300573A (ja) | 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム | |
JP2016521383A (ja) | 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体 | |
Zue et al. | Spoken dialogue systems | |
JP3837061B2 (ja) | 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法 | |
JP2004240150A (ja) | 音声対話装置、音声対話装置選択方法、プログラム及び記録媒体 | |
JP2019056913A (ja) | 音声認識機能を用いた情報提供方法および機器の制御方法 | |
KR20180124226A (ko) | 음성인식 작동 시스템 및 방법 | |
KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 |