JP2022076439A

JP2022076439A - 対話管理

Info

Publication number: JP2022076439A
Application number: JP2021042260A
Authority: JP
Inventors: ストヤンシェヴスベトラーナ; Stoyanchev Svetlana; カイゼルサイモン; Keizer Simon; サナンドドディパトララマ; Sanand Doddipatla Rama
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-11-09
Filing date: 2021-03-16
Publication date: 2022-05-19
Anticipated expiration: 2041-03-16
Also published as: US20220147719A1; GB2604317B; GB202017663D0; JP7279099B2; GB2604317A

Abstract

【課題】ユーザとの対話を行うための対話システムにおける使用のために対話状態を更新するモジュール、分類器をトレーニングする方法及びユーザに対する対話状態を更新する方法を提供する。【解決手段】対話システムは、メモリ中に記憶されユーザと対話システムとの間で交換された情報を記憶するデータ構造を備える対話状態を、ユーザからの自然言語入力をユーザの複数の有り得る要求を示すアクションと比較することにより自然言語入力と一致するアクションからの情報を使用して更新し、更新した対話状態を使用して自然言語入力への応答を生成する。【選択図】図３

Description

ここで説明する実施形態は、対話管理に関する。

対話システム、例えば、タスク指向対話システムは、情報検索、カスタマーサポート、ｅ－コマース、物理的環境制御、および人間－ロボット交流（interaction）のような、タスクに対する自然言語インターフェースである。自然言語は、ユーザがタスク特有コマンドのセットを学習することを必要としない、ユニバーサル通信インターフェースである。音声インターフェースは、話すことによってユーザが通信することを可能にし、チャットインターフェースは、タイピングによって可能にする。ユーザ入力の正しい解釈は、人が幅広い自然入力を苦も無く解釈することを可能にする文法的および常識的知識が欠如している自動対話システムにとって難しい課題でありうる。

以下の図面を参照して、実施形態を説明する。
図１Ａは、実施形態にしたがう対話システムを使用するモバイルの概略図である。図１Ｂは、実施形態にしたがう対話システムを使用するモバイルの概略図である。図２Ａは、実施形態にしたがうシステムの概略図である。図２Ｂは、図２Ｂ中に示すアプリケーションの概略図である。図３は、実施形態にしたがう方法を示すフローチャートである。図４は、例示的な対話状態の概略図である。図５は、実施形態にしたがうシステムの概略図である。

１つの実施形態において、ユーザとの対話を行うための対話システムにおける使用のために対話状態を更新するためのモジュールが提供され、モジュールは、
ユーザ入力と、
プロセッサと、
メモリと、を備え、
ここで、プロセッサは、ユーザからの自然言語入力に応答して対話状態を更新するように適合され、対話状態はメモリに記憶され、
対話状態は、ユーザと対話システムとの間で交換された情報を記憶するデータ構造を備え、
プロセッサは、前記ユーザからの自然言語入力を複数の有り得るアクションと比較することによって前記対話状態を更新し、前記アクションは、ユーザの有り得る要求を示し、自然言語入力と一致するアクションからの情報を使用して、状態を更新するように構成される。

状態に基づく対話システムにおいて、対話が進行すると、ユーザとシステムとの間で情報を交換するために対話状態は使用される。状態に基づく対話システムが有する課題は、より多くの情報をユーザから受信するときに状態を更新することである。ユーザがまず対話システムに発話するとき、対話状態は一般的に空であり、対話が開始する。その後、システムは応答し、ユーザは更新されるべき対話状態に対するさらなる情報を提供して応答するだろう。システムおよびユーザは、その後、交代で発話を提供する。

開示されるモジュールは、ユーザの発話のテキスト入力を入力とする統計モデルを使用する対話システムを実行するコンピュータによる以前に実行されていない機能のコンピュータ性能を可能にすることによって、コンピュータの機能性に改善をもたらす。具体的には、開示されるシステムは、ユーザが対話の前の順番で提供された情報を参照するときに、適切な応答を出力できる対話システムを提供する。それは、３ステージアプローチによってこの改善を提供し、実施形態において、システムは、
１）対話状態から候補アクションを推測し；
２）各候補アクションに対して関連性スコア∈［０,１］を計算し；
３）最も起こりえるアクションで状態を更新する。

上記のシステムは、ドメイン特有の自然言語理解コンポーネントを実装することなく、拡張された機能性を可能にする。さらに、注釈スキームを設計する必要がなく、かつ、意図およびエンティティに注釈をつける必要がない。

実施形態において、対話状態は、対話の間に言及されているアイテムを備えるデータ構造を備える。いくつかの実施形態では、対話状態はスロットを提供することによって、情報を記憶するだろう。他では、決定木データ構造が提供されるだろう。他の実施形態では、構造の何らかのフリーテキスト部分が提供されるかもしれない。

実施形態において、複数の有り得るアクションは、対話の間に言及されている複数のアイテムに関するアクションを含む。いくつかの実施形態では、対話中で言及されているすべてのアイテムが有り得るアクションに含まれることができる。これは、ユーザによる最新の発話が対話中で参照された以前のアイテムと比較されることを可能にする。他の実施形態では、有り得るアクションは、すべての対話ではなく、最後のいくつかの順番に基づいている。

複数の有り得るアクションは、状態およびドメイン定義から推測される。ドメイン定義は、データ構造の説明である。例えば、レストラン検索ドメインにおいて、ドメイン定義は、情報提供可能／要求可能スロットのセットを含む。カタログ注文ドメインにおいて、それは、アイテムタイプおよびその属性（色、サイズ等）である。食べ物の注文において、それは、レストランのメニューを表す構造である。

ドメイン定義はまた、ドメイン特有のルールを含むことができる。例えば、ホテル予約システムにおいて、ユーザは到着日および出発日、または、到着日および滞在期間を特定することができる。（現在の対話状態と共に）ドメイン定義は、候補アクションのリストを生成するために使用される。

対話システムは、多くの使用のために適合できる。１つの可能な使用は、情報検索である。しかしながら、他の使用、例えば、情報収集、トラブルシューティング、カスタマーサポート、ｅ－コマース、物理的環境制御、および人間－ロボット交流が可能である。対話状態は、ユーザとシステムとの間で交換される情報を備える。対話システムは、情報を取り出すように構成され、前記対話状態は、ユーザ目的および履歴を備えるとき、前記ユーザ目的は、ユーザが要求する情報を示し、前記履歴は、ユーザ目的に応答して以前に取り出されているアイテムを定義する。ユーザ目的は、ユーザによって所望される食べ物のタイプ、興味のある物理的エリア等であってもよい。

さらなる実施形態において、プロセッサは、一致するアクションと一致しないアクションを示すために二値分類器を使用することにより、ユーザからの自然言語入力を複数の有り得るアクションと比較するように構成される。二値分類器は、スコアを出力するように構成され、前記スコアは、アクションが一致するかどうかを決定するためにしきい値と比較される。

１つの実施形態において、プロセッサは、各アクションに対する複数のモデル入力を生成することによって、ユーザからの自然言語入力を複数の有り得るアクションと比較するように構成され、各モデル入力は、ユーザからの自然言語入力およびアクションを備え、処理することは、前記スコアを出力するために、モデル入力をトレーニング済み機械学習モデルとして実装された二値分類器に入力するようにさらに構成される。

トレーニング済み機械学習モデルは、トランスフォーマーモデルであってもよい。トランスフォーマーモデルは、自己注意機構（self-attention mechanism）を使用し、自己注意機構によってこれらの距離にかかわらず依存性が捕捉される。トランスフォーマーモデルは、エンコーダ－デコーダフレームワークを用いてよく、トレーニング済み機械学習モデルは、ＢＥＲＴのような双方向にトレーニングされた機械学習モデルであってもよい。

実施形態において、モデル入力は、対話システムからの以前の応答をさらに備える。例えば、最後のシステム発話が使用されてもよく、または、システム発話に対応する語彙対話作用のような以前のシステム発話の表現が使用されてもよい。

実施形態において、アクションは、候補アクションおよび状態更新アクションから選択されてもよく、ここで、候補アクションは、システムからの以前の応答のユーザによって尋ねられた質問を示し、状態更新アクションは、システムからの以前の応答にリンクしないユーザからの要求を示す。状態更新は、「目的変更」を表してもよい。

アクションに対するモジュール入力は、システムの以前の応答の表現、ユーザ入力、対話状態履歴にあるアイテムのアイテム説明、およびアイテム説明において参照されるアイテムに関連する提案された質問を備えてもよい。状態更新アクションに対するモジュール入力は、システムの以前の応答の表現、ユーザ入力、および有り得るユーザクエリに関連して提案された質問を備える。

上記のモジュールは、対話システムの一部を形成してもよい。したがって、さらなる実施形態において、対話システムは、
ユーザ入力と、
プロセッサと、
メモリとを備え、
プロセッサは、ユーザからの自然言語入力に応答して対話状態を更新するように適合され、対話状態はメモリに記憶され、
対話状態は、ユーザと対話システムとの間で交換された情報を記憶するデータ構造を備え、
プロセッサは、前記ユーザからの自然言語入力を複数の有り得るアクションと比較することによって前記対話状態を更新し、前記アクションは、ユーザの有り得る要求を示し、自然言語入力と一致するアクションからの情報を使用して、状態を更新するように構成され、
プロセッサは、更新された状態を使用して、自然言語入力への応答を生成するように構成される。

さらなる実施形態において、ユーザとの対話を行うための対話システムにおけるユーザに対する対話状態を更新するためのコンピュータ実現方法が提供され、方法は、
ユーザから自然言語入力を受信することと、
ユーザからの自然言語入力に応答して、対話状態を更新するように、プロセッサを使用することと、対話状態は、メモリに記憶され、対話状態は、ユーザと対話システムとの間で交換される情報を記憶するデータ構造を備え、
前記ユーザからの自然言語入力を複数の有り得るアクションと比較することにより、前記対話状態を更新することとを備え、前記アクションは、ユーザの有り得る要求を示し、自然言語入力と一致するアクションからの情報を使用して、状態を更新する。

さらなる実施形態において、対話システムにおいて状態を更新するための分類器をトレーニングする方法であって、
分類器を提供することと、前記分類器は、自然言語入力が、有り得るアクションと一致するときに一致を示すスコアを分類器が出力するように、ユーザからの自然言語入力を有り得るアクションと比較することが可能である、
自然言語入力および有り得るアクションを備えるデータセットを使用して、前記分類器をトレーニングすることと、を備え、前記データセットは、自然言語入力と有り得るアクションが一致する場合、肯定の組み合わせを、自然言語入力と有り得るアクションが一致しない場合、不正解の選択肢（distractors）を備える。

上記の方法において、有り得るアクションは、候補アクションおよび状態更新アクションから選択され、ここで、候補アクションは、システムからの以前の応答のユーザによって尋ねられた質問を示し、状態更新アクションは、システムからの以前の応答にリンクしないユーザからの要求を示す。

分類器のトレーニングは、ポリシーモデルのトレーニングと共に、または別々に実行されてもよい。

上記の方法は、命令を備えるコンピュータ読取可能媒体を使用して実行されてもよく、命令がコンピュータによって実行されるとき、コンピュータに、上記の方法を実行させる。

対話システムにおけるユーザ入力は、自然言語理解（ＮＬＵ）と対話状態追跡（ＤＳＴ）とのコンポーネントの組み合わせを使用して理解できる。ＮＬＵはユーザ入力にあるドメイン特有の意図とエンティティを識別し、ＤＳＴは、対話状態を更新する。

図１Ａおよび１Ｂは、実施形態にしたがう方法の使用を図示するための、スマートフォンの概略図である。図１Ａにおいて、ユーザは、質問１「私は安いイタリア風レストランを探しています」を電話機３に入力する。図１Ｂにおいて、電話機５は、「Ｚｉｚｚｉケンブリッジは、中央で良い飲食店です」で応答する。

図１Ａおよび１Ｂは、この説明で使用されるであろう、ケンブリッジのレストラン検索に関連するタスク指向対話システムの１つの例を示している。しかしながら、方法は、ユーザから自然言語有力を受信する、情報検索、カスタマーサポート、ｅコマース、物理的環境制御、および人間－ロボット交流のような、任意のタスク指向対話システムに適用できる。ユーザ入力は、音声認識を介して処理される発話としてマイクロフォンを介して受信されることができ、または、テキスト入力であることがある。

スマートフォンが示されているが、方法は、プロセッサを有する任意のデバイス上で実現できる。例えば、店、銀行、輸送プロバイダ等においてユーザクエリを取り扱うように構成されている、標準コンピュータ、任意の音声－制御オートメーション、サーバである。

会話を以下に示す。

ユーザは、順番１、３、および５においてクエリを入力し、システムは、順番２、４、および６においてそれぞれ応答する。

上記対話の５番目の順番において、ユーザは、別のレストラン（Ｎａｎｄｏ）の提示の直後に、３つ前の順番でシステムによって提示されたレストラン（Ｚｉｚｚｉ）の住所を尋ねている。ユーザは、表現「イタリア風飲食店」を参照してターゲットレストランを識別している。このタイプの対話は、特に対話システムにおいて問題となる。

上記で示した対話は、図２Ａおよび２Ｂならびに図３のフローチャートも参照して説明するシステムを使用して達成される。

図２Ａは、実施形態にしたがう方法を実現するために使用できるハードウェアの概略図である。これは１つの例であり、他の構成を使用できることに留意すべきである。

ハードウェアは、コンピューティングセクション７００を備えている。この特定の例では、このセクションのコンポーネントはともに説明される。しかしながら、これらは必ずしも同じ位置に配置されるわけではないことが認識される。

コンピューティングシステム７００のコンポーネントは、（中央処理ユニット、ＣＰＵのような）処理ユニット７１３、システムメモリ７０１、システムメモリ７０１から処理ユニット７１３までを含むさまざまなシステムコンポーネントを結合するシステムバス７１１、を含んでいてもよいがこれらに限定されない。システムバス７１１は、メモリバスまたはメモリコントローラ、さまざまなバスアーキテクチャ等のうちのいずれかを使用する周辺バスおよびローカルバスを含むいくつかのタイプのバス構造のうちのいずれかであってもよい。コンピューティングセクション７００は、バス７１１に接続された外部メモリ７１５も含む。

システムメモリ７０１は、リードオンリーメモリのような、揮発性／または不揮発性メモリの形態のコンピュータ記憶媒体を含む。基本入力出力システム（ＢＩＯＳ）７０３は、スタートアップの間のような、コンピュータ内の要素間で情報を変換することを助けるルーチンを含み、システムメモリ７０１に典型的には記憶されている。さらに、システムメモリは、ＣＰＵ７１３によって使用される、オペレーティングシステム７０５、アプリケーションプログラム７０７、およびプログラムデータ７０９を含んでいる。

また、インターフェース７２５は、バス７１１に接続されている。インターフェースは、コンピュータシステムがさらなるデバイスから情報を受信するネットワークインターフェースであってもよい。インターフェースはまた、ユーザがあるコマンド等に応答することを可能にするユーザインターフェースであってもよい。

この例では、ビデオインターフェース７１７が提供されている。ビデオインターフェース７１７は、グラフィック処理メモリ７２１に接続されているグラフィック処理ユニット７１９を備えている。

グラフィック処理ユニット（ＧＰＵ）７１９は、ニューラルネットワークトレーニングのような、データ並列動作へのその適合による分類器のトレーニングに特に良く適している。したがって、実施形態において、分類器をトレーニングするための処理は、ＣＰＵ７１３とＧＰＵ７１９との間で分割されてもよい。

いくつかの実施形態において、分類器をトレーニングすることと状態更新を実行することとのために、異なるハードウェアが使用されてもよいことに留意すべきである。例えば、分類器のトレーニングは、１つ以上のローカルデスクトップまたはワークステーションコンピュータ、あるいは、クラウドコンピューティングシステムのデバイスで生じるかもしれず、これらは、１つ以上の分離したデスクトップまたはワークステーションＧＰＵを含んでいてもよく、１つ以上の分離したデスクトップまたはワークステーションＣＰＵは、例えば、ＰＣ指向アーキテクチャ、および例えば１６ＧＢ以上の揮発性システムメモリの実質的量を有するプロセッサである。例えば、対話の性能はモバイルまたは組み込まれたハードウェアを使用してもよいけれども（これらは、システムオンチップ（ＳｏＣ）の一部としてのモバイルＧＰＵを含む、またはＧＰＵを含まない）、１つ以上のモバイルまたは組み込まれているＣＰＵ、例えばモバイル指向アーキテクチャ、またはマイクロコントローラ指向アーキテクチャと、例えば１ＧＢ未満のより少ない量の揮発性メモリとを有するプロセッサ、を使用してもよい。例えば、対話を実行するハードウェアは、スマートスピーカーまたは、バーチャルアシスタントを含む移動体電話機のような音声支援システム１２０であってもよい。

分類器をトレーニングするために使用されるハードウェアは、大幅により多くの計算能力を有してもよく、例えば、エージェントを使用してタスクを実行するために使用されるハードウェアよりも、１秒間により多くの演算を実行でき、かつ、より多くメモリを有する。より少ないリソースを有するハードウェアを使用することは可能である。なぜなら、例えば、１つ以上のニューラルネットワークを使用して推測を実行することによって音声認識を実行することは、例えば、１つ以上のニューラルネットワークをトレーニングすることによって音声認識システムをトレーニングすることよりも、実質的にかなり少ない計算リソースであるからである。さらに、例えば、１つ以上のニューラルネットワークを使用して推測を実行する、音声認識を実行するために使用される計算リソースを低減するために技術が用いられることができる。このような技術の例は、モデル蒸留（distillation）を含み、ニューラルネットワークに対しては、プルーニング（枝刈り：pruning）および量子化のような、ニューラルネットワーク圧縮技術を含む。

対話を行う事に対して、図２Ａのアプリケーションプログラム７０７は、図２Ｂ中に示される３つのメインモジュールを有する。これらは１）アクション状態更新コンポーネント７５１、２）システム移動選択コンポーネント７５３、および３）テンプレートに基づく自然言語生成器７５５である。

対話システムは対話状態を使用して動作する。対話状態の例が図４に示される。実施形態において、対話状態は、以前に議論したアイテムを含む、対話履歴とユーザ目的とについてのシステムビリーフ（the system beliefs）を記憶する。各発話またはユーザ入力の後、状態は、アクション状態更新コンポーネント７５１によって更新される。更新された状態は、システム移動選択コンポーネント７５３に移動する。このシステム移動選択コンポーネント７５３は、更新された状態を受信し、答えを決定するためにシステム移動選択ポリシーを適用する。更新された状態を受信すると応答を提供するように構成されている多くのこのようなモジュールがあることから、システム移動選択コンポーネントまたは「ポリシーコンポーネント」に対する多くの有り得るオプションがある。実施形態において、統計的学習ポリシーが使用される。しかしながら、ルールベースのアプローチを使用する他のシステムも使用できる。例では、以下の方法を使用できる。Jost Schatzmann他、Human Language Technologies 2007における「Agenda-based user simulation for bootstrapping a POMDP dialogue system」。Association for Computational Linguistics、ｐｐ．１４９－１５２、２００７年４月。

システム移動選択コンポーネント７５３の出力は、その後、テンプレートに基づく自然言語生成器７５５によって自然言語応答に変換される。

図４は、状態の例を示している。状態は目的を備えている。この特定の例では、目的は、３つのスロット：食べ物、エリア、価格帯によって表される。対話の開始時に、各スロットは空であるが、ユーザからより多くの情報が集められるとスロットにはデータが入れられる。

対話状態はまた、対話履歴を備える。この例では、対話履歴は、３つのアイテムを含んでいるが、アイテムの数は固定されず、対話の間により多くのアイテムが追加されると増加するであろうことに留意すべきである。この実施形態のシステムは、スロット充填システムに関する履歴を定義し、これは、この例では、特定のエリア、価格帯、または食べ物のタイプに一致するレストランをユーザが見つけることを可能にする。これらは、この例のドメイン定義で情報提供可能なスロットであり、各アイテムに対する対話履歴で設定される（このケースではレストランである）。情報提供可能なスロットに加えて、要求可能なスロットも定義される。この例では、要求可能なスロットは、電話番号、住所、郵便番号、エリア、価格帯、および食べ物のタイプである。スロットは、ドメインによって定義される。

実施形態において、状態更新は、動作のセットまたはアクションにおいて見られる。各アクションは、対話状態の値を変更する。例えば、発話「私はイタリア風の食べ物に関心がある」に対する状態更新アクションは、ユーザ目的を食べ物＝イタリア風で更新する。発話「イタリア風レストランはどのエリアにある？」に対する状態更新アクションは、属性食べ物＝イタリア風に一致するエンティティのエリアフィールドに対する要求ビットをオンに切り替える。アクション検出は、どの状態変更アクションが、所定の文脈においてユーザによって意図されているかを識別するタスクである。我々のアプローチでは、状態変更のための命令であるアクションは、発話の意味解析をすることなく検出される。

全体のプロセスは、図３のフローチャートを参照して説明する。ステップＳ１０１において、ユーザ入力が受信され、これは自然言語入力である。

ステップＳ１０３において、複数入力アクションが生成され、これらは、候補要求アクションおよび目的変更アクションであることがある。候補要求アクションは、対話履歴に記憶された各アイテムに対する要求可能なスロットのそれぞれに対して生成される。例えば、対話履歴がこれらのレストランを含む場合、１８個の要求候補アクションが生成される（６つの要求可能スロット×３アイテム）。ユーザ目的を変更することは、対照的に、文脈－独立アクションである。ドメインオントロジーを考慮すると、（情報提供可能な）スロット－値ペアに対応する、各順番における同じ数の目的変更アクションをモデルは分類する。例えば、ケンブリッジレストランドメインは、食べ物のタイプ、エリア、および価格幅スロットに対して１０２の値を有する。

これらは、その後、モデルへの入力として変換される。この実施形態において、モデルへの入力は、以下からなるワードシーケンスである：１）システムの最後の発話から導出されたワードシーケンス、これは、それが現れるシステム発話であってもよいし、または語彙化された対話作用の形態でのシステム発話であってもよい、２）ステップＳ１０１からのユーザ発話、３）アイテム説明、および４）テンプレート生成アクション文。アイテム説明は、アクションから生成された文字列である。アイテム－独立アクション（目的変更）について、アイテム説明は空であり；アイテム－独立アクション（情報要求）について、それは要求されたアイテムの説明に対応する。図４の状態に対する第１のアイテムのアクション要求アドレスに対応する説明は、「名前ｚｉｚｉエリア中央価格安い食べ物イタリア風」である。

これを説明するために、この例について、システムは、要求アクションに対して１８個の入力を生成する。

Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰ名前ｚｉｚｉエリア中央価格安い食べ物イタリア風ＳＥＰ電話番号は？
Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰ名前ｚｉｚｉエリア中央価格安い食べ物イタリア風ＳＥＰ住所は？
Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰ名前ｚｉｚｉエリア中央価格安い食べ物イタリア風ＳＥＰ郵便番号は？
Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰ名前ｚｉｚｉエリア中央価格安い食べ物イタリア風ＳＥＰエリアは？
Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰ名前ｚｉｚｉエリア中央価格安い食べ物イタリア風ＳＥＰ価格帯は？
Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰ名前ｚｉｚｉエリア中央価格安い食べ物イタリア風ＳＥＰ食べ物のタイプは？
Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰ名前Ｇａｎｄｈｉエリア中央価格手頃食べ物インド風ＳＥＰ電話番号は？
Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰ名前Ｇａｎｄｈｉエリア中央価格手頃食べ物インド風イタリア風ＳＥＰ住所は？
Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰ名前Ｇａｎｄｈｉエリア中央価格手頃食べ物インド風ＳＥＰ郵便番号は？
Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰ名前Ｇａｎｄｈｉエリア中央価格手頃食べ物インド風ＳＥＰエリアは？
Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰ名前Ｇａｎｄｈｉエリア中央価格手頃食べ物インド風ＳＥＰ価格帯は？
Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰ名前Ｇａｎｄｈｉエリア中央価格手頃食べ物インド風ＳＥＰ食べ物のタイプは？
Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰ名前Ｈｏｔｐｏｔエリア北価格高価食べ物中国風ＳＥＰ電話番号は？
Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰ名前Ｈｏｔｐｏｔエリア北価格高価食べ物中国風ＳＥＰ住所は？
Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰ名前Ｈｏｔｐｏｔエリア北価格高価食べ物中国風ＳＥＰ郵便番号は？
Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰ名前Ｈｏｔｐｏｔエリア北価格高価食べ物中国風ＳＥＰエリアは？
Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰ名前Ｈｏｔｐｏｔエリア北価格高価食べ物中国風ＳＥＰ価格帯は？
Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰ名前Ｈｏｔｐｏｔエリア北価格高価食べ物中国風ＳＥＰ食べ物のタイプは？
目的変更アクションについての１０２の入力は、タイプである：
Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰＳＥＰ食べ物イタリア風
Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰＳＥＰ食べ物中国風
Ｎａｎｄｏは北で良いレストランであるＳＥＰイタリア風レストランの価格帯は？
ＳＥＰＳＥＰエリア中央

上記において、ＳＥＰは、文の間の分離を示す。

ステップＳ１０５において、入力がスコアリングされる。実施形態において、これは、双方向トランスフォーマーであるトレーニングされたモデルに入力をすることによってなされる。これは、図５に概略的に示される。１）システム、２）ユーザ、３）アイテム説明、および４）アクション文を備えている入力は、双方向エンコーダへのシーケンスとして入力されることが示されている（このケースではＢＥＲＴである）。分類フラグＣＬＳが全体入力に対して生成され、その後これはスコアを生成するために線形レイヤを通して提供される。モデル入力にアイテム説明を含むことにより、トランスフォーマーモデルの注意機構は、所定の文脈におけるユーザ発話からアクションが推測されうるかどうかを検出するように学習する。アイテム説明の存在、候補アクションの動的生成、およびデータ生成の方法は、参照されている表現をモデルが解釈することを可能にする。

異なる部分に入力を備える上記の方法は、潜在的利点を有しており、それは、事前トレーニングから意味をエンコードすることである。

入力としての上記の「アクション文」例えば「価格帯は」は、単にワード「価格帯」を使用することとは対照的である。しかしながら、ワード「価格帯」のみを使用することもできる。「価格帯を要求」は自然でないことから、文は生成され、自然言語で動作するようにＢＥＲＴが最適化される。

ステップ１０７において、しきい値よりも高いスコアを有する入力が選択され、しきい値はこのケースでは、０．５である。その後ステップ１０９において、これらの入力は状態を更新するために使用される、すなわち、目的（スロット値）を変更すること、または対話履歴中のアイテムのうちの１つについての要求ビットを設定することのいずれかによって対話状態を更新するために使用される。更新の間、以下のヒューリスティクスが適用される：１）スロットに対して複数のアクションが予測される場合、最も高いスコアを有するものが使用される；２）複数の要求アクションが０．５より大きいスコアを受信する場合、最新に言及されたアイテムに対する要求ビットのみが使用される。上記で説明したように、対話状態は、最新に言及された順序で対話履歴を記憶し、したがって、最新に言及されたアイテムを容易に決定することが可能である。いったん要求ビットが設定されると、この情報は、他の状態更新情報を、例えば、目的が更新されることを考慮して要求ビットが設定される情報をどのように取り扱うかの決定を行うポリシーモジュールへと移動される。実施形態において、ポリシーモデルは、システム応答に対するテンプレートを選ぶ分類器である。これはルールが要求ビットの設定によってトリガされるルールベースの応答選択であることもある。

ステップＳ１１１において、更新された対話状態は、その後、ポリシーモデルによって受信され、ポリシーモデルは、ステップＳ１１３においてシステム応答を提供するために使用される。自然言語応答は、Ｓ１１５における出力を提供するために、自然言語生成コンポーネントを使用して生成されることができる。システム応答は、その後、ユーザに提供され、ユーザ応答が待たれる。いったんユーザ入力が受信されると、プロセスは、Ｓ１０１に戻り、再開する。しかしながら、ここで、ステップＳ１１５におけるシステム応答は、複数の入力を生成するために使用される。

上述の実施形態において、対話状態から候補アクションのセットが生成される。文脈は対話状態に記憶され、対話状態を更新するために統計的方法が使用される。二値分類は、ユーザによって意図されたアクションを検出するために使用される。これらのアクションは、その後、状態を決定論的に更新する。

提案される「アクション検出器」モデルは、候補アクションのリストからユーザ発話によって意図されるアクションを識別するようにトレーニングされる。タスク指向対話システム中の候補アクションは、現在の対話状態とドメインオントロジーとに基づいて、動的に生成される。上記の実施形態は、テキストベースのチャットでのタイプされたテキストのようなユーザの発話の入力ワードとして、または、音声対話システムでの音声認識器の出力として取り込んでいる。

上記の実施形態において、状態更新は、動作またはアクションのセットとしてみなされる。各アクションは、対話状態において値を変更し、これは、以前に議論したアイテムを含む、ユーザ目的および対話履歴についてのシステムビリーフを記憶する。例えば、発話「私はイタリア風の食べ物に興味を持っています」についての状態更新は、ユーザ目的を食べ物＝イタリア風で更新する。発話「イタリア風レストランはどのエリアにありますか」についての状態更新アクションは、属性の食べ物＝イタリア風に一致するエンティティのエリアフィールドに対する要求ビットをオンに切り替える。

図５は、図３の上記の説明から理解できるプロセスおよびモデルの概略を示している。図５において、＄スロットは、価格帯、エリア、食べ物のタイプのうちの１つであり、および＄値は、データベースに記憶されているこれらの値（安い／手頃／高価、北／南／．．．、インド風／イタリア風／．．．）である。

実施形態において、上記の状態更新モジュールは、以下の３つの基本ステップを実行する：
１）対話状態から候補アクションを推測
２）各候補アクションに対する関連性スコアを計算
３）最も有り得るアクションで状態を更新

アルゴリズムの第１のステップ、現在の対話状態に対する候補アクションのセットを生成することは、決定論的である。アクションは、現在の状態から推定されうる。所定のアクションのセットの状態を更新する最後のステップも決定論的である。アルゴリズムの第２のステップは、ユーザによって意図されているその確率で各候補アクションをスコアリングすることである。

上記の実施形態では、二進出力によるＢＥＲＴエンコーダおよび線形レイヤが使用される。モデルへの入力は、ワードシーケンスであり、以下からなる：１）語彙化された対話作用のシーケンス、２）ユーザ発話、３）アイテム説明、および４）テンプレート－生成アクション文。アイテム説明は、アクションから生成された文字列である。アイテム－独立アクション（目的変更）について、アイテム説明は空であり；アイテム－依存アクション（情報要求）について、それは要求されたアイテムの説明に対応する。モデルは、アクションがユーザによって意図されたかどうかの確率を出力する。

次に、分類器のトレーニングが説明される。分類器は、肯定および否定例を使用してトレーニングされる。
< sys, usr, action → (itemdescr, actionsent) >:0/1

用語「sys」は、以前のシステム応答であり、「usr」はユーザ発話であり、actionは、ユーザによって意図されたアクションである。上述の例と一致するように、「action」は上述したようなアイテム説明とアクション文に細分化される。

トレーニングセットを作り出すために、（１でラベル付けした）肯定例においてアクションはユーザによって意図されるが、（０でラベル付けした）否定例では、そうではない。アクションは、現在の状態についての命令、例えば、「第１のアイテムの価格帯を要求」であることから、アイテム説明およびモデルへのアクション文の入力は、アクションおよび状態から推測される。分類器をトレーニングするために３つのデータセットは、以下の表２に要約される。

ベースラインデータセットは、ＤＳＴＣ２コーパスのトレーニング区分から生成される。各順番について、ユーザによって意図される各アクションに対する肯定的な例が生成される。意図されたアクションは、マニュアルＮＬ注釈から推測され、例えば、アクションはＮＬ注釈から抽出され、例えば、「私はイタリア風がほしい／食べ物＿タイプ食べ物」／要求＿食べ物（‘I want italian/FOOD_TYPE food’/REQUEST_FOOD）は、アクション要求＿イタリア風に対応する。否定的な例（不正解の選択肢）を生成するために、すべての有効な意図されていないアクション（スロット－値ペア）を使用することが考慮される。しかしながら、これは、アクションの数が大きいとき、高度にゆがめられたデータセットを作り出す。代わりに、各肯定的な例に対して、意図されていないアクションは、より関連のある不正解の選択肢を選択するために頻度および類似性のヒューリスティクスを使用してサンプリングされる。タスクの設計によって、ＤＳＴＣ２データセットは、ユーザの番で表現参照することを含まない。すべてのユーザ要求は、一般的であり、最後に提示されたアイテム（例えば、電話番号は？）を参照する。したがって、ベースラインデータセットでトレーニングされたモデルは、最後に提示されたアイテムへの参照だけを理解できる。

ｅｘｔＨは、表現を参照する自動生成発話でベースラインデータセットを拡張する。ユーザは、要求可能なスロットのうちのいずれかについての質問を尋ね、情報提供可能なスロットのうちのいずれかを参照してもよい。これをするために、ＤＳＴＣ２データセットからの要求スロットに対する参照表現なく要求発話をランダムにサンプリングし、参照スロットのためにそれをテンプレート－生成参照表現と連結することにより、要求可能および情報提供可能なスロットのすべての組み合わせに対するデータセットをトレーニング／開発するための表現を参照して、１０Ｋ／３Ｋ要求が生成される（表３参照）。

表２中に示すように、能動学習（active learning）を使用して、更なるデータセットが生成される。キーアイディアは、アルゴリズムがトレーニングサンプルを選択できることである。表２のｅｘｔＡデータセットは、シミュレートされた対話から最もチャレンジングな不正解の選択肢を自動的に選択することによって、生成される。

トレーニングセットは、目的制約を繰り返し変更することによって複数の場所を探し出し、対話の早期に提供された場所に対するスロットを要求するように拡張されうる。さらに、この新たな挙動に対する表現を参照して発話を生成するためにテンプレートが生成され、結果として、シミュレートされたユーザ発話を生成するためのハイブリッド検索／テンプレートに基づくモデルをもたらす。

テストとして、５０００対話に対するベースラインデータセットでトレーニング済みの分類器を使用するＡＳＵモジュールで第１のシミュレーションが実行される。実際のユーザの代わりのシミュレーションにおいて、ユーザをシミュレートするために別のシステムが使用される。この特定の例では、ランダムに選択された目的を受信し、人－コンピュータ対話に類似した発話を生成するルールに基づきシミュレートされたユーザが用いられる。シミュレートされたユーザ意図から、「意図された」ユーザアクションが推測され、新たなトレーニング例が自動的にラベル付けされる。ベースラインモデルがＴ１未満の関連性スコアを予測した各「意図された」アクションは、肯定的な例として使用される。Ｔ２より大きい最も高い関連性スコアを有する最大Ｍの「意図されていない」アクションは、否定的な例として使用される。このテストでは、Ｔ１＝．９９、Ｔ２＝０．５、およびＭ＝２である。ベースラインデータセットでトレーニングされたモデルでこれらが正しく分類された場合でさえ、表現を参照するすべての生成された発話はまた、肯定的な例として使用される。

上記を論証するために、ＤＳＴＣ２コーパスのテストサブセット上のベースラインモデルで、すなわち、表現を参照することなく、ＡＳＵアプローチがトレーニングされる。ユーザ入力のマニュアルトランスクリプトを使用して、ユーザ通知の９６％およびユーザ要求の９９％（公式ＤＳＴＣ２評価スクリプトによって計算されるような平均目的および要求精度）をモデルは正しく識別する。

次に、ユーザ要求中の表現を参照してシミュレートされた対話に関して提案するアプローチが評価される。ベースライン、ｅｘｐＨ、およびｅｘｐＡデータセットに関して提案したアクション状態更新コンポーネントでシミュレーションは実行される。
結果を表４に示す。

上限（ＧＯＬＤ）条件として、シミュレートされた対話作用から推測された正しいアクションで、シミュレーションは実行される。対話作用（ＤＡ）を入力および２５％対話作用混同率として使用するアジェンダに基づくシミュレーションにより、ポリシーモデルはトレーニングされる。ｅｘｐＨおよびｅｘｐＡでトレーニングされるモデルに関して、ポリシーモデルはまた、入力として、対話作用仮説よりもむしろシミュレートされたユーザ発話でトレーニングされる。この条件において、ポリシーは、ＡＳＵモデルによって作られた状態更新エラーを克服するように学習してもよい。

各実験条件に対して５０００対話がシミュレートされ、対話および個々の順番に対する統計が計算される。（場合によっては多数の目的変更の後）システムが提供する場所がシミュレートされたユーザの目的制約に一致する場合、対話成功率は、シミュレートされた対話の比率であり、シミュレートされたユーザによって要求された追加の情報を提供する。状態更新精度は、ａ）すべての順番、ｂ）通知のみとして注釈された順番、およびｃ）要求のみとして注釈された順番にわたって、平均精度として計算される。

シミュレートされたユーザ挙動は、状態更新モデルによって影響を及ぼされる。シミュレートされた対話の平均長さは、ＧＯＬＤ条件に対する７．９３からベースラインに対する１０．０６の範囲である。より低い状態更新精度は、より長い対話につながる。なぜなら、システムが正しい応答に失敗したとき、シミュレートされるユーザ繰り返しまたは言い換え要求は、対話の長さを増加させるからである。ベースライン条件はたった４３．９パーセントの対話成功を達成し、すべてのユーザの順番で５０%の状態更新精度を達成する。ｅｘｐＨＤＡ条件では、対話成功および全体の精度は、通知について７９％であり要求については僅か５０．０％である精度で９１．１％および７５．１％に増加する。能動学習アプローチ（ｅｘｐＡＤＡ）により、対話成功および全体の精度は、通知について９８．８％であり要求について９４．０％である精度で９９．５％および９８．１％まで増加する。一致したポリシーモデルを使用することは、ｅｘｐＨおよびｅｘｐＡモデルの両方の性能に対して影響を及ぼし、要求について精度を４．３および１．４絶対％ポイント増加させる。しかしながら、ｅｘｐＨモデルによってトレーニングされたポリシーを使用すると、ユーザ通知作用の精度は３．１ポイント減少し、対話の長さを増加させる。結果は、アクション状態更新アプローチが能動学習と組み合わせて効果的であることを示している。

提案したアクション検出モデルを実際のユーザとテストするために、予備的ユーザ研究が実行された。テキストに基づくシステムは、ｅｘｐＡアクション検出モデルを使用する提案された対話状態トラッカー、テキストに基づくユーザシミュレータでトレーニングされた対話ポリシー、およびテンプレートに基づく自然言語生成器からなる。被験者が採用され、レストラン情報ナビゲーションを伴う５つのタスクを実行するように尋ねられる。各タスクにおいて、被験者に制約の初期設定（例えば、食べ物のタイプ：中国風、価格帯：安い）が与えられ、システムから適切な推薦を得るように尋ねられる。彼らは、その後、会話を継続し、制約を変更し、トータルで３つの推薦される場所を取得することにより、２つの代替推薦を得る。最後に、彼らは、これらの２つの場所についての電話番号または住所のような追加の情報を得るように尋ねられる。被験者はまた、＜ｅｒｒｏｒ＞を入力することにより、いつシステム応答が正しくなかったかを示すように尋ねられる。５つのすべてのタスクを完了した後、被験者は、「強く同意しない」から「強く同意する」におよぶ６段階リッカート尺度でスコアリングするために５つの文からなる質問事項、および、いくつのタスクが成功して完了したかを尋ねる質問（表５参照）に入力する。

各ユーザは平均で６０．９の順番（turns）を入力し、これらのうちの１５パーセントをエラーとして印付けた。質問事項の結果は、システムは、彼らの場所への参照を理解していたことを示している（平均スコア４．８）。ユーザの半分は、５つすべてのタスクを完了し、ユーザのうちの一人のみが、システムがよく理解していなかったと感じていた。ユーザ全体での高い標準偏差は、ユーザ経験における高い変動性と、恐らくシステムの期待を示している。人の評価は、双方向の（interactive）対話システムにおいて上記モデルが使用できることを示している。

ここで説明される実施形態は、対話状態を更新する新規のアプローチを提供しており、表現を参照する要求を含む、ユーザ発話を解釈することに成功できる。最初のケンブリッジレストランデータセットを、表現とサンプルされた不正解の選択肢とを参照することを含むシミュレートされた要求で拡張することにより、実験モデルがトレーニングされる。不正解の選択肢が能動学習アプローチを使用してサンプリングされるデータセットでトレーニングされたモデルは、そのトレーニングセットのより小さなサイズにかかわらず、最良の性能を達成する。このモデルの人の評価は、アプローチは実際のユーザと対話システムにおいて使用できることを示している。

ある実施形態を説明してきたが、これらの実施形態は例としてのみ提示されており、本発明の範囲を限定することは意図していない。実際に、ここで説明した新規のデバイス、方法は、さまざまな他の形態で具現化されてもよく、さらに、ここで説明したデバイス、方法、および製品の形態におけるさまざまな省略、置き換え、および変更が、本発明の範囲および精神から逸脱することなくなされてもよい。付随する特許請求の範囲およびこれらの均等物は、本発明の範囲および精神内あるように、このような形態または修正をカバーするように意図されている。

Claims

ユーザとの対話を行うための対話システムにおける使用のために対話状態を更新するためのモジュールであって、
ユーザ入力と、
プロセッサと、
メモリとを備え、
前記プロセッサは、ユーザからの自然言語入力に応答して対話状態を更新するように適応され、前記対話状態は前記メモリに記憶され、
前記対話状態は、前記ユーザと前記対話システムとの間で交換された情報を記憶するデータ構造を備え、
前記プロセッサは、前記ユーザからの前記自然言語入力を複数の有り得るアクションと比較することによって前記対話状態を更新し、前記アクションは、前記ユーザの有り得る要求を示し、前記自然言語入力と一致するアクションからの情報を使用して、前記状態を更新するように構成される、モジュール。
前記対話状態は、前記対話の間に言及されているアイテムを備えるデータ構造を備える、請求項１に記載のモジュール。
前記複数の有り得るアクションは、前記対話の間に言及されている複数のアイテムに関するアクションを含む、請求項２に記載のモジュール。
前記対話システムは、情報検索のために構成され、前記対話状態はユーザ目的および履歴を備え、前記ユーザ目的は前記ユーザが要求する情報を示し、前記履歴はユーザ目的に応答して以前に検索されているアイテムを定義する、請求項１に記載のモジュール。
前記プロセッサは、一致するアクションと一致しないアクションを示すために二値分類器を使用することにより、前記ユーザからの前記自然言語入力を複数の有り得るアクションと比較するように構成される、請求項１に記載のモジュール。
前記二値分類器は、スコアを出力するように構成され、アクションが一致するかどうかを決定するために前記スコアはしきい値と比較される、請求項５に記載のモジュール。
前記プロセッサは、各アクションに対する複数のモデル入力を生成することによって、前記ユーザからの前記自然言語入力を複数の有り得るアクションと比較するように構成され、各モデル入力はアクションと前記ユーザからの前記自然言語入力とを備え、前記プロセッサは、前記スコアを出力するために、トレーニング済み機械学習モデルとして実現された二値分類器に前記モデル入力を入力するようにさらに構成される、請求項６に記載のモジュール。
前記トレーニング済み機械学習モデルは、トランスフォーマーに基づくトレーニング済み機械学習モデルである、請求項７に記載のモジュール。
前記トレーニング済み機械学習モデルは、双方向にトレーニングされた機械学習モデルである、請求項７に記載のモジュール。
前記モデル入力は、前記対話システムからの以前の応答をさらに備える、請求項７に記載のモジュール。
前記アクションは、候補アクションおよび状態更新アクションから選択され、候補アクションは前記システムからの以前の応答の前記ユーザによって尋ねられた質問を示し、状態更新アクションは前記システムからの以前の応答にリンクしない前記ユーザからの要求を示す、請求項７に記載のモジュール。
候補アクションに対するモジュール入力は、前記システムの以前の応答の表現、前記ユーザ入力、対話状態履歴中のアイテムのアイテム説明、および前記アイテム説明において参照される前記アイテムに関連する提案された質問を備える、請求項１１に記載のモジュール。
状態更新アクションに対するモジュール入力は、前記システムの前記以前の応答の表現、前記ユーザ入力、および有り得るユーザクエリに関連する提案された質問を備える、請求項１１に記載のモジュール。
候補アクションに対するモジュール入力が一致するとき、要求ビットを設定するように構成される、請求項１２に記載のモジュール。
状態更新アクションに対するモジュール入力が一致するとき、前記状態を更新するように構成される、請求項１３に記載のモジュール。
対話システムにおいて状態を更新するための分類器をトレーニングする方法であって、
分類器を提供することと、ここで前記分類器は、自然言語入力が有り得るアクションと一致するときに一致を示すスコアを前記分類器が出力するように、ユーザからの前記自然言語入力を有り得るアクションと比較することが可能である、
自然言語入力および有り得るアクションを備えるデータセットを使用して、前記分類器をトレーニングすることと、を備え、前記データセットは、自然言語入力と有り得るアクションが一致する場合に肯定の組み合わせを備え、前記自然言語入力と有り得るアクションが一致しない場合に不正解の選択肢を備える、方法。
前記有り得るアクションは、候補アクションおよび状態更新アクションから選択され、候補アクションは前記システムからの以前の応答の前記ユーザによって尋ねられた質問を示し、状態更新アクションは前記システムからの以前の応答にリンクしない前記ユーザからの要求を示す、請求項１６に記載の方法。
対話システムであって、
ユーザ入力と、
プロセッサと、
メモリとを備え、
前記プロセッサは、ユーザからの自然言語入力に応答して対話状態を更新するように適合され、前記対話状態は前記メモリ中に記憶され、
前記対話状態は、前記ユーザと前記対話システムとの間で交換された情報を記憶するデータ構造を備え、
前記プロセッサは、前記ユーザからの前記自然言語入力を複数の有り得るアクションと比較することによって前記対話状態を更新し、前記アクションは、前記ユーザの有り得る要求を示し、前記自然言語入力と一致するアクションからの情報を使用して、前記状態を更新するように構成され、
前記プロセッサは、前記更新された状態を使用して、前記自然言語入力への応答を生成するように構成される、システム。
ユーザとの対話を行うための対話システムにおけるユーザに対する対話状態を更新するためのコンピュータ実現方法であって、
ユーザから自然言語入力を受信することと、
ユーザからの自然言語入力に応答して、対話状態を更新するように、プロセッサを使用することと、ここで前記対話状態は、メモリ中に記憶され、前記対話状態は、前記ユーザと前記対話システムとの間で交換される情報を記憶するデータ構造を備える、
前記ユーザからの前記自然言語入力を複数の有り得るアクションと比較することにより、前記対話状態を更新することと、を備え、前記アクションは、前記ユーザの有り得る要求を示し、前記自然言語入力と一致するアクションからの情報を使用して、前記状態を更新する、方法。
命令を備えるコンピュータ読取可能媒体であって、前記命令がコンピュータによって実行されるとき、前記コンピュータに、請求項１９の方法を実行させる、コンピュータ読取可能媒体。