JP6805112B2

JP6805112B2 - 対話システム、対話方法および対話プログラム

Info

Publication number: JP6805112B2
Application number: JP2017215433A
Authority: JP
Inventors: 政巳赤嶺; 尚水吉田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2020-12-23
Anticipated expiration: 2037-11-08
Also published as: US10847151B2; US20190139537A1; JP2019086679A

Description

本発明の実施形態は、ユーザと対話システムとの間の対話の制御に関する。

近年、例えば、スマートフォンまたはＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）のアプリケーション、コールセンターの自動応答システム、などのユーザと対話を行うシステム（対話システム）の採り得る行動（振る舞い）は益々高度化している。具体的には、対話システムは、ユーザからの質問に答えるに留まらず、ユーザの要求条件に合致した、商品、サービス、店名などの検索または候補の絞り込みを行い、その結果をユーザに提示できる。このような対話（以降、検索対話とも呼ぶ）を行う対話システムは、例えばショッピングセンターにおける店舗案内、飲食店の案内、インターネットの旅行サイトにおけるホテルまたは旅行先の案内など、様々な場面で利用されている。

かかる検索対話を実現するために、従来、ルールベースの対話制御、または統計的アプローチに基づく対話制御が用いられている。ルールベースの対話制御では、開発者が、ユーザと対話システムとの対話のシナリオを、さらにシナリオ毎にユーザ入力に対するシステム応答を予め手作業で網羅的に設計してルールを作成する必要がある。このため、開発者によるルール作成の手間が膨大で、これによる開発のコスト増と開発期間の長期化が問題であった。他方、統計的アプローチに基づく対話制御は、ルールベースの対話制御のかかる欠点を克服し得るものであり、ユーザ入力からユーザの要求条件を推定する対話状態モデルと、ユーザに対する対話システムの振る舞いを決定するポリシーモデルとを利用して対話制御を実現する。対話状態モデルおよびポリシーモデルは、対話事例データに基づいて機械学習を行うことで作成することができる。

具体的には、統計的アプローチに基づく対話制御の１つとして、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）モデルに基づく対話制御システム（以降、ＰＯＭＤＰ対話制御システムとも呼ぶ）が提案されている。ＰＯＭＤＰ対話制御システムは、ルールベースの対話制御システムとは異なり開発者によるルール作成作業が不要となるので、この点では開発コストの削減および開発期間の短期化に有利である。

しかしながら、従来の対話システムは、ルールベースの対話制御システム、およびＰＯＭＤＰ対話制御システムを含む統計的アプローチに基づく対話制御のいずれも、ユーザの入力音声を音声認識によってテキスト化し、テキスト化されたユーザ入力に対して対話システムの振る舞いを決定する。ユーザの入力音声に備わっている声の調子、感情などの非言語的な情報は音声認識処理によって失われるので、対話システムの振る舞いの決定においてかかる非言語的な情報が考慮されることはなかった。

特許第４８９０５８５号公報特開２００２−９９４０４号公報

ＪａｓｏｎＤ．Ｗｉｌｌｉａｍｓ， "ＡｐｐｌｙｉｎｇＰＯＭＤＰｓｔｏｄｉａｌｏｇｓｙｓｔｅｍｓｉｎｔｈｅｔｒｏｕｂｌｅｓｈｏｏｔｉｎｇｄｏｍａｉｎ"，ＩｎＷｏｒｋｓｈｏｐｏｎＢｒｉｄｇｉｎｇｔｈｅＧａｐ，ｐｐ．１−８，Ｒｏｃｈｅｓｔｅｒ，ＮｅｗＹｏｒｋ，２００７．ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．ＢｉｎｇＬｉｕ１ａｎｄＩａｎＬａｎｅ， "Ａｔｔｅｎｔｉｏｎ−ＢａｓｅｄＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌｓｆｏｒＪｏｉｎｔＩｎｔｅｎｔＤｅｔｅｃｔｉｏｎａｎｄＳｌｏｔＦｉｌｌｉｎｇ"，ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＮＴＥＲＳＰＥＥＣＨ２０１６，ｐｐ．６８５−６８９，２０１６ＩＳＣＡ．

このように、ユーザの入力音声に備わっている声の調子、感情などの非言語的な情報を考慮せずに対話システムの振る舞いを決定すると、ユーザの満足度を損なうおそれがある。例えば、ユーザが移動中の車内から対話システムを利用してレストラン検索を行う場合に、騒音により、ユーザの入力音声が誤認識され対話システムがユーザの要求とは異なるレストランを提示したり、ユーザの入力音声が認識されず対話システムが希望するジャンルを尋ねる質問を繰り返したりすることがあり得る。このような状況下ではユーザの入力音声に苛立ちの徴候が現れるかもしれないが、対話システムは、ユーザの苛立ちを捉えることができないので再び不適切なシステム応答を繰り返し、ユーザの当該システムに対する満足度を損なうおそれがある。

実施形態は、ユーザの入力音声に備わっている非言語的な情報を考慮してユーザと対話システムとの間の対話を制御することを目的とする。

一実施形態によれば、対話システムは、満足度推定部と、対話状態推定部と、振る舞い決定部とを含む。満足度推定部は、ユーザの入力音声に基づいてユーザの満足度を推定する。対話状態推定部は、ユーザの入力および推定されたユーザの満足度に基づいてユーザとの対話状態を推定する。振る舞い決定部は、推定された対話状態に基づいてユーザに対する振る舞いを決定する。

別の実施形態によれば、対話システムは、満足度推定部と、対話状態推定部と、振る舞い決定部とを含む。満足度推定部は、ユーザの入力音声に基づいてユーザの満足度を推定する。対話状態推定部は、ユーザの入力に基づいてユーザとの対話状態を推定する。振る舞い決定部は、推定された満足度および推定された対話状態に基づいてユーザに対する振る舞いを決定する。

別の実施形態によれば、対話システムは、満足度推定部と、対話状態推定部と、振る舞い決定部と、対話打ち切り決定部とを含む。満足度推定部は、ユーザの入力音声に基づいてユーザの満足度を推定する。対話状態推定部は、少なくともユーザの入力に基づいてユーザとの対話状態を推定する。振る舞い決定部は、推定された対話状態に基づいてユーザに対する振る舞いを決定する。対話打ち切り決定部は、少なくとも、推定された満足度に基づいてユーザとの対話を打ち切るか否かを決定する。

第１の実施形態に係る対話システムを例示するブロック図。図１に示される意図・検索条件推定部の説明図。図１に示される満足度推定部に含まれる畳み込みニューラルネットワークを例示する図。図１に示される満足度推定部によって推定される満足度の事後確率分布を例示する図。図１の対話システムの動作を例示するフローチャート。図１に示される振る舞い決定部によって使用されるポリシーモデルを作成するための機械学習を例示するフローチャート。図１に示される振る舞い決定部によって使用されるポリシーモデルを作成するための機械学習において用いられる報酬値を例示するテーブル。第２の実施形態に係る対話システムを例示するブロック図。第３の実施形態に係る対話システムを例示するブロック図。第１の実施形態乃至第３の実施形態に係る対話システムそれぞれのハードウェア構成を例示するブロック図。

以下、図面を参照しながら実施形態の説明を述べる。なお、以降、説明済みの要素と同一または類似の要素には同一または類似の符号を付し、重複する説明については基本的に省略する。

（第１の実施形態）
図１に例示されるように、第１の実施形態に係る対話システム１００は、音声認識部１０１と、満足度推定部１０２と、意図・検索条件推定部１０３と、対話状態推定部１０４と、振る舞い決定部１０５と、検索部１０６と、検索データベース（ＤＢ：ＤａｔａＢａｓｅ）１０７と、応答生成部１０８と、音声合成部１０９とを含む。

なお、対話システム１００は、１個の装置、例えば１個のスマートフォン、コンピュータなどによって実現される必要はない。すなわち、ある機能部を実現する装置と、他の機能部を実現する装置とが異なっていてもよい。例えば、音声認識部１０１および音声合成部１０９は個々のユーザ１０のスマートフォンによって実現され、残りの機能部が１または複数のサーバによって実現される、という形態が想定される。

音声認識部１０１は、例えば図示されないマイクロフォンから電気信号の形式のユーザ１０の入力音声を受け取る。音声認識部１０１は、ユーザ１０の入力音声に対して自動音声認識（ＡＳＲ：ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）処理を行い、認識結果テキストを得る。音声認識部１０１は、認識結果テキストを意図・検索条件推定部１０３へ送る。

なお、意図・検索条件推定部１０３によって受け付け可能なユーザ入力は、認識結果テキストに限られない。故に、音声認識部１０１に加えて、または音声認識部１０１に代えて他の入力部が用いられてもよい。具体的には、この入力部は、キーボードなどのテキストを直接入力する装置からテキストを受け取ってもよいし、ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）部品へのタッチ情報などの操作情報を受け取ってもよい。

満足度推定部１０２は、例えば図示されないマイクロフォンから電気信号の形式のユーザ１０の入力音声を受け取る。満足度推定部１０２は、ユーザ１０の入力音声に基づいてユーザ１０の満足度を推定する。満足度推定部１０２は、推定した満足度を対話状態推定部１０４へ送る。

満足度は、例えば「１：非常に不満である」、「２：不満である」、「３：普通である」、「４：満足である」および「５：非常に満足である」の５段階の尺度を用いて推定され得る。なお、満足度は、１つの尺度として表現されてもよいし、図４に例示されるように複数の尺度に亘る確率分布として表現されてもよい。また、ここで説明した５段階の尺度は一例に過ぎず、「１：不満である」および「２：満足である」の２段階、「１：不満である」、「２：普通である」および「３：満足である」３段階、またはそれ以外であってもよい。

満足度推定部１０２は、例えば、予め作成されたルールに基づいて満足度を推定してもよい。或いは、満足度推定部１０２は、学習済みの統計モデル（例えば、学習済みのニューラルネットワークなどの統計モデル）に、入力音声に基づく入力データを与えることでユーザ１０の満足度を推定してもよい。この学習済みの統計モデルは、例えば満足度を示すラベルが付与された学習用入力音声を用いた教師付き学習によって作成され得る。かかる満足度推定部１０２の動作および機械学習の詳細は後述される。

意図・検索条件推定部１０３は、音声認識部１０１から認識結果テキストを受け取り、これに基づいてユーザ１０の意図および／または検索条件を推定する。意図・検索条件推定部１０３は、推定した意図・検索条件を対話状態推定部１０４へ送る。

意図・検索条件推定部１０３は、ユーザ１０の発話毎に、当該発話に対応する認識結果テキストに基づいて意図・検索条件を推定する。すなわち、意図・検索条件推定部１０３は、ユーザ１０の発話毎に、当該発話をテキスト化した認識結果テキストから把握可能な意図・検索条件を推定する。

ユーザ１０の意図は、例えば、（発話）タグとスロットとの組として表現され得る。
発話タグは、認識結果テキスト（より一般化すれば入力テキスト）から推定される、ユーザ１０の対話システム１００に対する行動を大まかに分類する情報である。具体的には、「要求を伝達している（Ｉｎｆｏｒｍ）」、「情報を確認している（Ｃｏｎｆｉｒｍ）」、「対話システム１００からの質問に対して肯定している（Ａｆｆｉｒｍ）／否定している（Ｎｅｇａｔｅ）」などの発話タグが利用可能である。或いは、より具体的なレベルの行動を示す発話タグ、例えば、「レストランを探したい（Ｉｎｆｏｒｍ−ｓｅａｒｃｈ−ｒｅｓｔａｕｒａｎｔ）」、「ホテルを探したい（Ｉｎｆｏｒｍ−ｓｅａｒｃｈ−ｈｏｔｅｌ）」などを必要に応じて定めることもできる。

他方、スロットは、入力テキストに含まれる（或いは、それから推定される）、対話処理に必要な情報である。スロットは、［スロット名＝値］として表現される。例えば、意図・検索条件推定部１０３は、「安いバッグが買いたい」という入力テキストから、［値段＝安め］、［商品＝バッグ］、などのスロットを推定することができる。スロットおよびスロット名は、属性および属性名と読み替えることもできる。

意図・検索条件推定部１０３は、キーワードマッチングを利用して発話タグおよびスロットを推定してもよいし、例えば最大エントロピー法、ニューラルネットワークまたはその他の統計モデル、などの統計的アプローチを利用して発話タグおよびスロットを推定してもよい。統計的アプローチでは、例えば、学習用入力テキストに含まれる単語列を用いた機械学習によって作成された学習済みの統計モデルが利用され得る。

ニューラルネットワークを利用した発話タグおよびスロットの推定は、例えば非特許文献２に記載の技法により実現可能である。ここでは、ニューラルネットワークの一種である再帰型ニューラルネットワーク（ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）が用いられる。

具体的には、非特許文献２は、旅行サイトのフライト検索に適用される発話タグおよびスロットの推定法について解説がある。この概念図を図２に示す。この例では、ＲＮＮの一種である双方向ＬＳＴＭ（Ｌｏｎｇ−ＳｈｏｒｔＴｉｍｅＭｅｍｏｒｙ）のエンコーダが、入力テキストに含まれる単語列「ｆｒｏｍＬＡｔｏＳｅａｔｔｌｅ」をエンコードする。そして単方向ＬＳＴＭのデコーダが、エンコードされた単語列をデコード、この場合には、発話タグ「Ｆｌｉｇｈｔ」、ならびにスロット［ＦｒｏｍＬｏｃ（出発空港）＝ＬＡ］および［ＴｏＬｏｃ（到着空港）＝Ｓｅａｔｔｌｅ］を推定する。推定結果は、［ＦｒｏｍＬｏｃ＝ＬＡ］の確率が８０％、［ＴｏＬｏｃ＝Ｓｅａｔｔｌｅ］の確率が６０％のように、確率として表現するのが一般的である。

検索条件は、例えばスロットと同様に［条件（属性）＝値］として表現され得るが、検索条件の表現は検索ＤＢ１０７のスキーマにも依存する。検索条件は、スロットと同様にキーワードマッチングまたは統計的アプローチを用いて推定されてよい。

また、意図・検索条件推定部１０３は、現行の入力テキストが、過去に推定した条件に関して言及していない場合にもかかる条件を維持する、または過去に推定した条件を消すことを意味する場合にはかかる条件を削除する、などの検索条件の引き継ぎ処理を行い得る。かかる検索条件の引き継ぎ処理は、例えばルールとして記述されてよい。また、かかる検索条件の引き継ぎ処理は、前述の条件値と共に統計的アプローチにより推定されてもよい。

なお、図１には示されていないが、意図・検索条件推定部１０３は、入力テキストに加えて、満足度推定部１０２によって推定された満足度を受け取り、これらに基づいて意図・検索条件を推定してもよい。具体的には、意図・検索条件推定部１０３は、満足度も考慮して発話タグ、スロット、または検索条件の確率を決定してもよい。例えば、意図・検索条件推定部１０３は、入力テキストが同じでも満足度が高ければ確率が高くなるように決定してもよく、これにより意図・検索条件がより対話システム１００の振る舞いに反映されやすくなる。

対話状態推定部１０４は、例えばユーザ１０の発話毎に、満足度推定部１０２から満足度を受け取り、意図・検索条件推定部１０３から意図・検索条件を受け取る。対話状態推定部１０４は、これまでに受け取った満足度および意図検索条件に基づいて推定した対話状態と、新たに受け取った満足度および意図・検索条件とに基づいて、最新の対話状態を推定する。

例えば、対話状態推定部１０４は、最初に満足度および意図・検索条件を受け取った時に、これらを初期の対話状態として保存してもよい。以降、対話状態推定部１０４は、最後に保存された対話状態、すなわち最後に推定した対話状態を、新たに受け取った満足度および意図・検索条件に基づいて更新することで最新の対話状態を推定してもよい。

対話状態は、例えば、ユーザ１０の意図、検索条件および満足度を含み得る。対話状態推定部１０４は、最後に保存された対話状態に含まれるユーザ１０の満足度、意図および検索条件の確率を、新たに受け取った満足度、意図および検索条件の確率に基づいて補正することで対話状態を更新してもよい。対話状態推定部１０４は、更新後の対話状態を振る舞い決定部１０５へ送り、さらにこれに含まれる検索条件を検索部１０６へ送る。

検索部１０６は、対話状態推定部１０４から検索条件を受け取り、当該検索条件に基づいて検索ＤＢ１０７を検索する。検索部１０６は、検索結果を振る舞い決定部１０５へ返す。

検索ＤＢ１０７は、予め複数の検索対象が保存されている。検索対象は、例えば、レストランの店舗情報、ホテルの空室情報、フライトの空席情報、バッグの商品情報など様々である。検索ＤＢ１０７において用いられるＤＢの種類、または検索部１０６による検索方法は特に限定されず、種々の形態で実現可能である。例えば、検索ＤＢ１０７は、対話システム１００内部に構築される必要はなく、対話システム１００とは異なるシステムからもアクセス可能な外部のデータベースであってよい。

振る舞い決定部１０５は、対話状態推定部１０４から対話状態、すなわち、意図、検索条件および満足度を受け取り、検索部１０６から検索結果を受け取る。振る舞い決定部１０５は、対話状態および検索結果に基づいて、対話システム１００の振る舞いを決定する。振る舞い決定部１０５は、振る舞いを応答生成部１０８へ送る。

振る舞いは、対話システム１００の採る行動を概念的に表す情報、例えばタグおよびスロットを用いて表現されてよい。具体的には、振る舞い決定部１０５は、例えば「Ｒｅｑｕｅｓｔ（商品）（希望する商品をユーザ１０に確認する）」、「Ｏｆｆｅｒ（店舗名＝Ａストア）（Ａストアをユーザ１０の希望する店舗として提示する）」などを振る舞いとして決定し得る。

振る舞い決定部１０５は、例えば、学習済みの統計モデル（例えば、学習済みのニューラルネットワークであって、ポリシーモデルとも呼ばれる）に、対話状態および検索結果に基づく入力データを与えることで振る舞いを決定してもよい。この学習済みの統計モデルは、例えば強化学習によって作成され得る。かかる振る舞い決定部１０５の動作および機械学習の詳細は後述される。

応答生成部１０８は、振る舞い決定部１０５から振る舞いを受け取り、これに基づいてユーザ１０に提示するための応答文を生成する。応答生成部１０８は、応答文を音声合成部１０９へ送る。

応答生成部１０８は、様々な技法により応答文を生成することができる。応答生成部１０８は、例えば、振る舞い毎に予め作成された応答文を参照し、受け取った振る舞いに対応付けられた応答文を読み出すことで応答文を生成してもよい。応答生成部１０８は、予め作成された空欄のある応答文を利用し、対話状態に含まれるスロットの値（単語）を当該空欄にはめ込んで応答文を作成してもよい。応答生成部１０８は、事前に大量に収集された、振る舞いに対応する応答文を用いた機械学習によって作成された応答文生成モデルを利用して応答文を作成してもよい。

なお、応答生成部１０８は、応答文に加えて検索結果を提示するための情報を生成し、図示されないディスプレイなどの出力部によってこの情報をユーザ１０に提示してもよい。

音声合成部１０９は、応答生成部１０８から応答文を受け取り、これに対して音声合成処理、すなわちＴＴＳ（Ｔｅｘｔ−ｔｏ−Ｓｐｅｅｃｈ）処理を行い、応答音声を生成する。音声合成部１０９は、例えば図示されないスピーカなどの出力部へ応答音声を送る。この出力部によって、応答音声はユーザ１０へ提示される。

なお、応答文を聴覚的に提示する必要がない場合には、音声合成部１０９を省略してもよい。この場合に、例えば、図示されないディスプレイなどの出力部が応答文を視覚的に提示してもよい。

次に、満足度推定部１０２の動作例の詳細を説明する。満足度推定部１０２は、前述のようにルールベースで満足度を推定してもよいが、学習済みの統計モデルを用いて満足度を推定してもよい。ここでは、後者の例について説明する。

満足度推定部１０２は、図３に例示される畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を含むことができる。このＣＮＮは、入力層３０１と、畳み込み層３０２と、プーリング層３０３と、畳み込み層３０４と、プーリング層３０５と、畳み込み層３０６と、全結合層３０７と、全結合層３０８と、ソフトマックス層３０９とを含む。

入力層３０１は、入力音声としての電気信号を３０ｍｓのフレーム単位でフーリエ変換し、フーリエ変換結果を４０個の周波数帯域に分割し、各周波数帯域内で平均化することで、４０次元のベクトルを生成する。そして、入力層３０１は、現在フレームおよびその前後の５フレームの計１１フレーム分のベクトルを二次元上に配置して４０×１１の行列を作成して出力する。

畳み込み層３０２は、入力層３０１の出力行列（特徴マップ）に対して３×３の二次元フィルタを用いた畳み込み演算を行い、さらにそれぞれの演算結果に非線形の活性化関数を適用してから出力する。なお、畳み込み層３０２は、４種類の二次元フィルタを用いるので、４個の３８×９の行列を出力することになる。

プーリング層３０３は、畳み込み層３０２の出力行列に対して、２×２の平均化、すなわち出力行列から抽出された２×２の要素ついて平均を計算し、当該２×２の要素をその平均によって置き換える。これにより、プーリング層３０３は、４個の１９×８の行列を出力することになる。

畳み込み層３０４は、プーリング層３０３の出力行列に対して３×３の二次元フィルタを用いた畳み込み演算を行い、さらにそれぞれの演算結果に非線形の活性化関数を適用してから出力する。なお、畳み込み層３０４は、８種類の二次元フィルタを用いるので、８個の１７×６の行列を出力することになる。プーリング層３０５は、畳み込み層３０４の出力行列に対して、２×２の平均化を行う。これにより、プーリング層３０５は、８個の８×３の行列を出力することになる。

畳み込み層３０６は、プーリング層３０５の出力行列に対して３×３の二次元フィルタを用いた畳み込み演算を行い、さらにそれぞれの演算結果に非線形の活性化関数を適用する。畳み込み層３０６は、８個の入力行列のそれぞれについて５×１の行列、すなわち５次元のベクトルを生成する。畳み込み層３０６は、これら８個のベクトルを結合して４０次元のベクトルとして全結合層３０７へ出力する。

全結合層３０７は、通常のニューラルネットワークと同様に、入力ベクトルに対してアフィン変換（行列演算）を行い、活性化関数を適用してから、全結合層３０８へ出力する。全結合層３０８もまた同様に、入力ベクトルに対してアフィン変換を行い、活性化関数を適用してから、ソフトマックス層３０９へ出力する。

ソフトマックス層３０９は、全結合層３０８の出力ベクトルにソフトマックス関数を適用し、満足度の尺度毎の事後確率を計算して出力する。なお、ソフトマックス層３０９は、入力音声のフレーム毎、すなわち３０ｍｓ毎に事後確率を計算して出力することになる。

満足度推定部１０２は、満足度の尺度毎の事後確率を例えば１つの発話に含まれる全フレームに亘って平均化し、当該発話におけるユーザ１０の満足度の推定結果としてもよい。かかる推定結果の一例を図４に示す。なお、満足度は、必ずしもこのような確率分布として表現されなくてもよい。例えば、満足度推定部１０２は、ある発話について計算された確率分布から計算される期待値、すなわち、各尺度と当該尺度の事後確率との積を全尺度に亘って合計した値を、満足度の推定結果としてもよい。

図３に示したＣＮＮにおいて、フィルタ演算またはアフィン変換に用いられる、重み行列、バイアスベクトルなどは、モデルパラメータと呼ばれる。モデルパラメータは、統計的な機械学習によって決定される。この機械学習では、学習用入力音声と、当該学習用入力音声に割り当てられた満足度のラベルデータとが大量に用いられる。ラベルデータは、例えば学習用入力音声に備わっている声の調子、感情などの非言語的な情報を手がかりに人間が総合的に判断して作成することができる。ラベルデータの尺度体系は前述のように５段階であってもよいし、２段階、３段階またはそれ以外であってもよい。ラベルデータは、教師データとも呼ばれる。この機械学習では、学習用入力音声に対してＣＮＮが出力する事後確率に基づいて推定される満足度と、ラベルデータの示す満足度とに基づいて計算されるクロスエントロピーが最小となるように、バックプロパゲーション的に出力側から入力側に向かってモデルパラメータが繰り返し最適化される。

次に、振る舞い決定部１０５の動作例の詳細を説明する。振る舞い決定部１０５は、前述のようにルールベースで振る舞いを決定してもよいが、これは、開発のコスト増および長期化という問題がある。さらに、学習済みの統計モデル（ポリシーモデル）を用いて振る舞いを決定した場合にはその振る舞いは統計的に最適といえるが、ルールベースで振る舞いを決定した場合にはその振る舞いの適切さを客観的に説明することが困難である。故に、ここでは、振る舞い決定部１０５は、ポリシーモデルを用いて振る舞いを決定することとするが、振る舞い決定部１０５がルールベースで振る舞いを決定したとしても構わない。

振る舞い決定部１０５の用いるポリシーモデルのモデルパラメータは、例えば以下に説明する強化学習によって決定されてよい。ポリシーモデルは、例えば、ガウス過程（Ｇａｕｓｓｉａｎｐｒｏｃｅｓｓ）モデル、ＤＱＮ（ＤｅｅｐＱ−Ｎｅｔ）、などのディープニューラルネットワークに基づくモデル、またはその他のモデルであり得る。また、モデルパラメータの最適化には、アクタークリティック（Ａｃｔｏｒｃｒｉｔｉｃ）法やＳＡＲＳＡ（ＳｔａｔｅＡｃｔｉｏｎＲｅｗａｒｄＳｔａｔｅＡｃｔｉｏｎ）法などを用いることができる。

この強化学習では、対話がユーザ１０の要求に沿って進展しているか否かに応じて、正または負の報酬が与えられる。そして、学習用の対話状態および検索結果に対してどのように振る舞いを決定すると、対話の終了までに獲得できる報酬を最大化できるかという観点で、振る舞いの決定法が試行錯誤的に学習される。学習により最適なモデルパラメータを決定することで、ポリシーモデルが作成される。

報酬は、例えば、対話中の発話毎、そして対話終了時に与えるようにしてもよい。具体的には、対話終了時に絶対値の大きな正の報酬を与え、対話中には発話毎に絶対値の小さな負の報酬を与えてもよい。かかる報酬体系によれば、ポリシーモデルとして、対話を少ないやり取りで終わらせる、振る舞いの決定法が学習される。或いは、図７に例示されるように、対話中には発話毎の満足度に応じた報酬を与えてもよい。図７の例では、５段階の満足度の尺度の昇順に、「−５」、「−３」、「−１」、「１」、「２」の報酬が設定されている。かかる報酬体系によれば、ポリシーモデルとして、ユーザ１０の満足度が普通または低い場合に対話を少ないやり取りで終わらせる、振る舞いの決定法が学習される。他方、対話中には報酬を与えず、対話終了時に満足度に応じた報酬を与えるようにしてもよい。

振る舞い決定部１０５は、このように作成されたポリシーモデルを用いることで、入力された対話状態および検索結果に対して、対話の終了までに獲得できると統計的に期待される報酬を最大化するように振る舞いを決定できる。振る舞い決定部１０５は、対話状態に含まれる満足度を考慮して振る舞いを決定する。故に、ポリシーモデルの学習次第で、振る舞い決定部１０５は、例えばユーザ１０が対話システム１００の応答に苛立って満足度が低下している場合には、同じ質問の繰り返しを避ける、「申し訳ございません」などのユーザ１０の苛立ちを抑えるための一言を応答に添えるなど、ユーザ１０の感情を気遣った振る舞いを選択することができる。

具体的には、振る舞い決定部１０５の使用するポリシーモデルは、図６に例示される機械学習によって作成されてよい。なお、以降の説明では、図１の対話システム１００が図６の機械学習を行うこととしているが、他の装置、例えばコンピュータによってかかる機械学習を行い、作成したポリシーモデルを対話システム１００に設定することもできる。

図６の機械学習が開始すると、処理はまずステップＳ５０１へ進む。ステップＳ５０１では、音声認識部１０１および満足度推定部１０２が、それぞれ学習用入力音声を受け取る。この学習用入力音声は、学習データとして予め大量に収集された、ユーザと対話システム１００との対話事例から抽出されてもよし、正式運用前の対話システム１００にユーザと対話させることでリアルタイムに取得してもよい。

音声認識部１０１は、ステップＳ５０１において受け取った入力音声に音声認識処理を行い、認識結果テキストを得る（ステップＳ５０２）。満足度推定部１０２は、ステップＳ５０１において受け取った入力音声に基づいて、当該入力音声を発話したユーザの満足度を推定する（ステップＳ５０３）。

意図・検索条件推定部１０３は、ステップＳ５０２において生成された認識結果テキストを受け取り、これに基づいてユーザの意図および／または検索条件を推定する（ステップＳ５０４）。

対話状態推定部１０４は、ステップＳ５０３において推定された満足度と、ステップＳ５０４において推定された意図・検索条件と、前回のステップＳ５０５の実行時（ただし、前回の実行時とは異なる対話中である場合には対話状態はリセットされ得る）に推定した対話状態とに基づいて、最新の対話状態を推定する（ステップＳ５０５）。

他方、図示されないポリシーモデル学習部は、ステップＳ５０３において推定された満足度に対応する報酬を設定する（ステップＳ５０８）。ここでの報酬体系は、図７に例示されたものであってよい。さらに、ポリシー学習部は、ステップＳ５０８において設定された報酬に基づいて、ポリシーモデル（のモデルパラメータ）を更新する（ステップＳ５０９）。なお、発話毎に報酬を与えない場合に、ステップＳ５０８およびステップＳ５０９は省略可能である。

振る舞い決定部１０５は、ステップＳ５０９において更新されたポリシーモデルを用いて、ステップＳ５０５において推定された対話状態に基づいて対話システム１００の振る舞いを決定する（ステップＳ５０６）。

応答生成部１０８は、ステップＳ５０６において決定された振る舞いに基づいて、例えば応答文などのシステム応答を生成する（ステップＳ５０７）。ステップＳ５０７の終了時に、対話が終了していれば処理はステップＳ５１１へ進み、終了していなければ対話を継続するために処理はステップＳ５０１へ戻る（ステップＳ５１０）。

ステップＳ５１１では、図示されないポリシーモデル学習部は、対話終了に対応する報酬を設定する（ステップＳ５１１）。ここでの報酬体系は、図７に例示されたものであってよい。さらに、ポリシー学習部は、ステップＳ５１１において設定された報酬に基づいて、ポリシーモデルを更新する（ステップＳ５１２）。ステップＳ５１２の終了時に、未処理の学習データが残存している、ユーザと別の対話を開始するなどして、学習を継続する場合には処理はステップＳ５０１へ戻る（ステップＳ５１３）。他方、学習を継続しない場合には図６の機械学習は終了する。

以下、図５を用いて、対話システム１００の動作を説明する。なお、図５は、対話システム１００がユーザ１０の発話毎に行われ、１回分のシステム応答を提示するための動作を示す。故に、対話の継続中は図５の動作が繰り返し行われ得る。

図５の動作が開始すると、処理はまずステップＳ４０１へ進む。ステップＳ４０１では、音声認識部１０１および満足度推定部１０２が、それぞれユーザ１０からの入力音声を受け取る。

音声認識部１０１は、ステップＳ４０１において受け取った入力音声に音声認識処理を行い、認識結果テキストを得る（ステップＳ４０２）。満足度推定部１０２は、ステップＳ４０１において受け取った入力音声に基づいてユーザ１０の満足度を推定する（ステップＳ４０３）。

意図・検索条件推定部１０３は、ステップＳ４０２において生成された認識結果テキストを受け取り、これに基づいてユーザ１０の意図および／または検索条件を推定する（ステップＳ４０４）。

対話状態推定部１０４は、ステップＳ４０３において推定された満足度と、ステップＳ４０４において推定された意図・検索条件と、前回のステップＳ４０５の実行時（ただし、前回の実行時とは異なる対話中である場合には対話状態はリセットされ得る）に推定した対話状態とに基づいて、最新の対話状態を推定する（ステップＳ４０５）。

検索部１０６は、ステップＳ４０５において推定された対話状態に含まれる検索条件に基づいて検索ＤＢ１０７を検索する（ステップＳ４０６）。そして、振る舞い決定部１０５は、学習済みのポリシーモデルを用いて、ステップＳ４０５において推定された対話状態と、ステップＳ４０６による検索結果とに基づいて対話システム１００の振る舞いを決定する（ステップＳ４０７）。

応答生成部１０８は、ステップＳ４０７において決定された振る舞いに基づいて、例えば応答文などのシステム応答を生成する（ステップＳ４０８）。音声合成部１０９は、ステップＳ４０８において生成された応答文を受け取り、これに対して音声合成処理を行い、応答音声を生成する（ステップＳ４０９）。図示されない出力部は、この応答音声をユーザ１０へ提示する。これで、図５の動作は終了する。

以上説明したように、第１の実施形態に係る対話システムは、ユーザの入力音声に基づいてユーザの満足度を推定し、この満足度とユーザ入力（例えば、上記入力音声の認識結果テキスト）とに基づいて対話状態を推定する。そして、この対話システムは、この対話状態に基づいて振る舞いを決定する。故に、この対話システムによれば、例えばユーが対話システムの応答に苛立って満足度が低下している場合には、同じ質問の繰り返しを避ける、「申し訳ございません」などのユーザの苛立ちを抑えるための一言を応答に添える、など、ユーザの感情を気遣った振る舞いを採ることができる。

（第２の実施形態）
図８に例示されるように、第２の実施形態に係る対話システム６００は、音声認識部１０１と、満足度推定部１０２と、意図・検索条件推定部１０３と、対話状態推定部６０４と、振る舞い決定部６０５と、検索部１０６と、検索ＤＢ１０７と、応答生成部１０８と、音声合成部１０９とを含む。

対話状態推定部６０４は、満足度推定部１０２によって推定されるユーザ１０の発話毎の満足度を考慮せずに対話状態を推定する点で前述の対話状態推定部１０４とは異なる。すなわち、対話状態推定部６０４は、例えばユーザ１０の発話毎に、意図・検索条件推定部１０３から意図・検索条件を受け取る。対話状態推定部６０４は、これまでに受け取った意図検索条件に基づいて推定した対話状態と、新たに受け取った意図・検索条件とに基づいて、最新の対話状態を推定する。

例えば、対話状態推定部６０４は、最初に意図・検索条件を受け取った時に、これらを初期の対話状態として保存してもよい。以降、対話状態推定部６０４は、最後に保存された対話状態、すなわち最後に推定した対話状態を、新たに受け取った意図・検索条件に基づいて更新することで最新の対話状態を推定してもよい。

対話状態は、例えば、ユーザ１０の意図および検索条件を含み得る。対話状態推定部６０４は、最後に保存された対話状態に含まれるユーザ１０の意図および検索条件の確率を、新たに受け取った意図および検索条件の確率に基づいて補正することで対話状態を更新してもよい。対話状態推定部６０４は、更新後の対話状態を振る舞い決定部６０５へ送り、さらにこれに含まれる検索条件を検索部１０６へ送る。

振る舞い決定部６０５は、満足度推定部１０２によって推定されるユーザ１０の発話毎の満足度と、対話状態推定部６０４によって推定された対話状態（これは、満足度を含んでいない）と、検索部１０６による検索結果に基づいて、対話システム６００の振る舞いを決定する。

振る舞い決定部１０５は、例えば、ポリシーモデル（例えば、学習済みのニューラルネットワークなどの統計モデル）に、満足度、対話状態および検索結果に基づく入力データを与えることで振る舞いを決定してもよい。この学習済みの統計モデルは、例えば図６を用いて説明した強化学習と類似の強化学習によって作成され得る。

以上説明したように、第２の実施形態に係る対話システムは、ユーザの入力音声に基づいてユーザの満足度を推定し、ユーザ入力（例えば、上記入力音声の認識結果テキスト）に基づいて対話状態を推定する。そして、この対話システムは、満足度と、対話状態とに基づいて振る舞いを決定する。故に、この対話システムによれば、第１の実施形態に係る対話システムと同様に、ユーザの感情を気遣った振る舞いを採ることができる。

（第３の実施形態）
図９に例示されるように、第３の実施形態に係る対話システム７００は、音声認識部１０１と、満足度推定部１０２と、意図・検索条件推定部１０３と、対話状態推定部６０４と、振る舞い決定部７０５と、検索部１０６と、検索ＤＢ１０７と、応答生成部１０８と、音声合成部１０９と、対話打ち切り決定部７１０とを含む。

振る舞い決定部７０５は、対話状態推定部６０４によって推定された対話状態（これは、満足度を含んでいない）と、検索部１０６による検索結果に基づいて、対話システム７００の振る舞いを決定する。

振る舞い決定部１０５は、例えば、ポリシーモデル（例えば学習済みのニューラルネットワークなどの統計モデル）に、対話状態および検索結果に基づく入力データを与えることで振る舞いを決定してもよい。この学習済みの統計モデルは、例えば図６を用いて説明した強化学習と類似の強化学習によって作成され得る。

なお、振る舞い決定部７０５は、前述の振る舞い決定部６０５に置き換えられてよい。また、対話状態推定部６０４および振る舞い決定部７０５の組み合わせは、前述の対話状態推定部１０４および振る舞い決定部１０５の組み合わせに置き換えられてもよい。

対話打ち切り決定部７１０は、例えばユーザ１０の発話毎に、満足度推定部１０２から満足度を受け取る。対話打ち切り決定部７１０は、受け取った満足度に基づいてユーザ１０と対話システム７００との対話を打ち切るか否かを決定する。

具体的には、対話打ち切り決定部７１０は、満足度の瞬時値、または満足度の統計値、例えば過去数回のユーザ１０の発話の満足度の平均値、が閾値以下となった場合に、対話の打ち切りを決定してもよい。また、対話打ち切り決定部７１０は、満足度に加えて、対話状態推定部６０４によって推定された対話状態、例えば意図または検索条件、の推定確率に基づいて対話の打ち切りを決定してもよい。例えば、対話打ち切り決定部７１０は、満足度が閾値ａ１以下、または対話状態の推定確率が閾値ｂ１以下の場合に対話の打ち切りを決定してもよいし、満足度が閾値ａ２以下、かつ対話状態の推定確率がｂ２以下である場合に対話の打ち切りを決定してもよい。

対話打ち切り決定部７１０は、対話の打ち切りを決定した場合に、これを応答生成部１０８に通知する。例えば、対話打ち切り決定部７１０は、応答生成部１０８に、「申し訳ありません。自動対応ができませんのでオペレータにお繋ぎします。」などの応答文を生成させてもよい。また、対話打ち切り決定部７１０は、上位システムへ対話の打ち切りを通知し、対話をオペレータに引き継いでもよい。

以上説明したように、第３の実施形態に係る対話システムは、ユーザの入力音声に基づいてユーザの満足度を推定する。そして、この対話システムは、満足度に基づいて対話を打ち切るか否かを決定する。故に、この対話システムによる対話の継続が困難となるケース、例えば、ユーザの不満が度を超えそうな場合、または実際に度を超えた場合などに、対話を自動的に打ち切り例えばオペレータに対話を引き継ぐことで、ユーザの対話システムへの満足度が致命的に悪化するのを回避することができる。

なお、上記第１の実施形態乃至第３の実施形態に係る対話システム１００，６００および７００は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現可能である。具体的には、音声認識部１０１、満足度推定部１０２、意図・検索条件推定部１０３、対話状態推定部１０４，６０４、振る舞い決定部１０５，６０５，７０５、検索部１０６、検索ＤＢ１０７、応答生成部１０８、音声合成部１０９、および対話打ち切り決定部７１０のうち一部または全部が、コンピュータ装置に搭載されたプロセッサなどの制御装置にプログラムを実行させることで実現されてもよい。

かかるコンピュータ装置は、図１０に例示されるように、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１３１などの制御装置と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１３２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３３などの記憶装置と、マイクロフォン、（操作）入力装置、表示装置などに接続される入出力Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）１３４と、ネットワークに接続して通信を行う通信Ｉ／Ｆ１３５と、各ハードウェアを接続する１３６とを含むことができる。

制御装置の実行するプログラムは、コンピュータ装置に予めインストールされていてもよいし、ＣＤ−ＲＯＭなどの記憶媒体、またはネットワーク経由で取得され、インストールされてもよい。また、それぞれの機能部は、コンピュータ装置に内蔵または外付けされたメモリ、ハードディスク、またはＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒなどの記憶媒体を適宜利用することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００，６００，７００・・・対話システム
１０１・・・音声認識部
１０２・・・満足度推定部
１０３・・・意図・検索条件推定部
１０４，６０４・・・対話状態推定部
１０５，６０５，７０５・・・振る舞い決定部
１０６・・・検索部
１０７・・・検索ＤＢ
１０８・・・応答生成部
１０９・・・音声合成部
３０１・・・入力層
３０２，３０４，３０６・・・畳み込み層
３０３，３０５・・・プーリング層
３０７，３０８・・・全結合層
３０９・・・ソフトマックス層
７１０・・・対話打ち切り決定部

Claims

ユーザの入力音声を変換することで得られる周波数領域の信号を含む入力データを学習済みの統計モデルに与えることにより、前記ユーザの満足度を推定する満足度推定部と、
前記ユーザの入力および推定された前記ユーザの満足度に基づいて前記ユーザとの対話状態を推定する対話状態推定部と、
推定された前記対話状態に基づいて前記ユーザに対する振る舞いを決定する振る舞い決定部と
を具備し、
前記対話状態は、前記ユーザの意図、検索条件および満足度を含む、対話システム。
前記学習済みの統計モデルは、満足度を示すラベルが付与された学習用入力音声を用いて教師付き学習を行うことで作成される、請求項１に記載の対話システム。
前記満足度は、確率分布として表現される、請求項１に記載の対話システム。
前記振る舞い決定部は、強化学習を行うことで作成された学習済みの統計モデルに、前記対話状態に基づく入力データを与えることで前記ユーザに対する振る舞いを決定する、請求項１に記載の対話システム。
前記強化学習における報酬は、学習用入力音声に基づいて推定された前記学習用入力音声を発話したユーザの満足度に応じて設定される、請求項４に記載の対話システム。
ユーザの入力音声を変換することで得られる周波数領域の信号を含む入力データを学習済みの統計モデルに与えることにより、前記ユーザの満足度を推定する満足度推定部と、
少なくとも前記ユーザの入力に基づいて前記ユーザとの対話状態を推定する対話状態推定部と、
推定された前記対話状態に基づいて前記ユーザに対する振る舞いを決定する振る舞い決定部と、
少なくとも、推定された前記満足度に基づいて前記ユーザとの対話を打ち切るか否かを決定する対話打ち切り決定部と
を具備し、
前記対話状態は、前記ユーザの意図および検索条件を含む、対話システム。
前記対話打ち切り決定部は、前記対話状態および前記推定された満足度に基づいて前記ユーザとの対話を打ち切るか否かを決定する、請求項６に記載の対話システム。
前記対話打ち切り決定部は、前記ユーザとの対話を打ち切ると決定した時に、前記ユーザとの対話をオペレータに自動的に引き継ぐ、請求項６に記載の対話システム。
コンピュータが、
ユーザの入力音声を変換することで得られる周波数領域の信号を含む入力データを学習済みの統計モデルに与えることにより、前記ユーザの満足度を推定することと、
前記ユーザの入力および推定された前記ユーザの満足度に基づいて前記ユーザとの対話状態を推定することと、
推定された前記対話状態に基づいて前記ユーザに対する振る舞いを決定することと
を具備し、
前記対話状態は、前記ユーザの意図、検索条件および満足度を含む、対話方法。
コンピュータが、
ユーザの入力音声を変換することで得られる周波数領域の信号を含む入力データを学習済みの統計モデルに与えることにより、前記ユーザの満足度を推定することと、
少なくとも前記ユーザの入力に基づいて前記ユーザとの対話状態を推定することと、
推定された前記対話状態に基づいて前記ユーザに対する振る舞いを決定することと、
少なくとも、推定された前記満足度に基づいて前記ユーザとの対話を打ち切るか否かを決定することと
を具備し、
前記対話状態は、前記ユーザの意図および検索条件を含む、対話方法。
コンピュータを、
ユーザの入力音声を変換することで得られる周波数領域の信号を含む入力データを学習済みの統計モデルに与えることにより、前記ユーザの満足度を推定する手段、
前記ユーザの入力および推定された前記ユーザの満足度に基づいて前記ユーザとの対話状態を推定する手段、
推定された前記対話状態に基づいて前記ユーザに対する振る舞いを決定する手段
として機能させるための対話プログラムであって、
前記対話状態は、前記ユーザの意図、検索条件および満足度を含む、対話プログラム。
コンピュータを、
ユーザの入力音声を変換することで得られる周波数領域の信号を含む入力データを学習済みの統計モデルに与えることにより、前記ユーザの満足度を推定する手段、
少なくとも前記ユーザの入力に基づいて前記ユーザとの対話状態を推定する手段、
推定された前記対話状態に基づいて前記ユーザに対する振る舞いを決定する手段、
少なくとも、推定された前記満足度に基づいて前記ユーザとの対話を打ち切るか否かを決定する手段
として機能させるための対話プログラムであって、
前記対話状態は、前記ユーザの意図および検索条件を含む、対話プログラム。