JP2022076439A - 対話管理 - Google Patents

対話管理 Download PDF

Info

Publication number
JP2022076439A
JP2022076439A JP2021042260A JP2021042260A JP2022076439A JP 2022076439 A JP2022076439 A JP 2022076439A JP 2021042260 A JP2021042260 A JP 2021042260A JP 2021042260 A JP2021042260 A JP 2021042260A JP 2022076439 A JP2022076439 A JP 2022076439A
Authority
JP
Japan
Prior art keywords
user
dialogue
state
action
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021042260A
Other languages
English (en)
Other versions
JP7279099B2 (ja
Inventor
ストヤンシェヴ スベトラーナ
Stoyanchev Svetlana
カイゼル サイモン
Keizer Simon
サナンド ドディパトラ ラマ
Sanand Doddipatla Rama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2022076439A publication Critical patent/JP2022076439A/ja
Application granted granted Critical
Publication of JP7279099B2 publication Critical patent/JP7279099B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

【課題】ユーザとの対話を行うための対話システムにおける使用のために対話状態を更新するモジュール、分類器をトレーニングする方法及びユーザに対する対話状態を更新する方法を提供する。【解決手段】対話システムは、メモリ中に記憶されユーザと対話システムとの間で交換された情報を記憶するデータ構造を備える対話状態を、ユーザからの自然言語入力をユーザの複数の有り得る要求を示すアクションと比較することにより自然言語入力と一致するアクションからの情報を使用して更新し、更新した対話状態を使用して自然言語入力への応答を生成する。【選択図】図3

Description

ここで説明する実施形態は、対話管理に関する。
対話システム、例えば、タスク指向対話システムは、情報検索、カスタマーサポート、e-コマース、物理的環境制御、および人間-ロボット交流(interaction)のような、タスクに対する自然言語インターフェースである。自然言語は、ユーザがタスク特有コマンドのセットを学習することを必要としない、ユニバーサル通信インターフェースである。音声インターフェースは、話すことによってユーザが通信することを可能にし、チャットインターフェースは、タイピングによって可能にする。ユーザ入力の正しい解釈は、人が幅広い自然入力を苦も無く解釈することを可能にする文法的および常識的知識が欠如している自動対話システムにとって難しい課題でありうる。
以下の図面を参照して、実施形態を説明する。
図1Aは、実施形態にしたがう対話システムを使用するモバイルの概略図である。 図1Bは、実施形態にしたがう対話システムを使用するモバイルの概略図である。 図2Aは、実施形態にしたがうシステムの概略図である。 図2Bは、図2B中に示すアプリケーションの概略図である。 図3は、実施形態にしたがう方法を示すフローチャートである。 図4は、例示的な対話状態の概略図である。 図5は、実施形態にしたがうシステムの概略図である。
1つの実施形態において、ユーザとの対話を行うための対話システムにおける使用のために対話状態を更新するためのモジュールが提供され、モジュールは、
ユーザ入力と、
プロセッサと、
メモリと、を備え、
ここで、プロセッサは、ユーザからの自然言語入力に応答して対話状態を更新するように適合され、対話状態はメモリに記憶され、
対話状態は、ユーザと対話システムとの間で交換された情報を記憶するデータ構造を備え、
プロセッサは、前記ユーザからの自然言語入力を複数の有り得るアクションと比較することによって前記対話状態を更新し、前記アクションは、ユーザの有り得る要求を示し、自然言語入力と一致するアクションからの情報を使用して、状態を更新するように構成される。
状態に基づく対話システムにおいて、対話が進行すると、ユーザとシステムとの間で情報を交換するために対話状態は使用される。状態に基づく対話システムが有する課題は、より多くの情報をユーザから受信するときに状態を更新することである。ユーザがまず対話システムに発話するとき、対話状態は一般的に空であり、対話が開始する。その後、システムは応答し、ユーザは更新されるべき対話状態に対するさらなる情報を提供して応答するだろう。システムおよびユーザは、その後、交代で発話を提供する。
開示されるモジュールは、ユーザの発話のテキスト入力を入力とする統計モデルを使用する対話システムを実行するコンピュータによる以前に実行されていない機能のコンピュータ性能を可能にすることによって、コンピュータの機能性に改善をもたらす。具体的には、開示されるシステムは、ユーザが対話の前の順番で提供された情報を参照するときに、適切な応答を出力できる対話システムを提供する。それは、3ステージアプローチによってこの改善を提供し、実施形態において、システムは、
1)対話状態から候補アクションを推測し;
2)各候補アクションに対して関連性スコア∈[0,1]を計算し;
3)最も起こりえるアクションで状態を更新する。
上記のシステムは、ドメイン特有の自然言語理解コンポーネントを実装することなく、拡張された機能性を可能にする。さらに、注釈スキームを設計する必要がなく、かつ、意図およびエンティティに注釈をつける必要がない。
実施形態において、対話状態は、対話の間に言及されているアイテムを備えるデータ構造を備える。いくつかの実施形態では、対話状態はスロットを提供することによって、情報を記憶するだろう。他では、決定木データ構造が提供されるだろう。他の実施形態では、構造の何らかのフリーテキスト部分が提供されるかもしれない。
実施形態において、複数の有り得るアクションは、対話の間に言及されている複数のアイテムに関するアクションを含む。いくつかの実施形態では、対話中で言及されているすべてのアイテムが有り得るアクションに含まれることができる。これは、ユーザによる最新の発話が対話中で参照された以前のアイテムと比較されることを可能にする。他の実施形態では、有り得るアクションは、すべての対話ではなく、最後のいくつかの順番に基づいている。
複数の有り得るアクションは、状態およびドメイン定義から推測される。ドメイン定義は、データ構造の説明である。例えば、レストラン検索ドメインにおいて、ドメイン定義は、情報提供可能/要求可能スロットのセットを含む。カタログ注文ドメインにおいて、それは、アイテムタイプおよびその属性(色、サイズ等)である。食べ物の注文において、それは、レストランのメニューを表す構造である。
ドメイン定義はまた、ドメイン特有のルールを含むことができる。例えば、ホテル予約システムにおいて、ユーザは到着日および出発日、または、到着日および滞在期間を特定することができる。(現在の対話状態と共に)ドメイン定義は、候補アクションのリストを生成するために使用される。
対話システムは、多くの使用のために適合できる。1つの可能な使用は、情報検索である。しかしながら、他の使用、例えば、情報収集、トラブルシューティング、カスタマーサポート、e-コマース、物理的環境制御、および人間-ロボット交流が可能である。対話状態は、ユーザとシステムとの間で交換される情報を備える。対話システムは、情報を取り出すように構成され、前記対話状態は、ユーザ目的および履歴を備えるとき、前記ユーザ目的は、ユーザが要求する情報を示し、前記履歴は、ユーザ目的に応答して以前に取り出されているアイテムを定義する。ユーザ目的は、ユーザによって所望される食べ物のタイプ、興味のある物理的エリア等であってもよい。
さらなる実施形態において、プロセッサは、一致するアクションと一致しないアクションを示すために二値分類器を使用することにより、ユーザからの自然言語入力を複数の有り得るアクションと比較するように構成される。二値分類器は、スコアを出力するように構成され、前記スコアは、アクションが一致するかどうかを決定するためにしきい値と比較される。
1つの実施形態において、プロセッサは、各アクションに対する複数のモデル入力を生成することによって、ユーザからの自然言語入力を複数の有り得るアクションと比較するように構成され、各モデル入力は、ユーザからの自然言語入力およびアクションを備え、処理することは、前記スコアを出力するために、モデル入力をトレーニング済み機械学習モデルとして実装された二値分類器に入力するようにさらに構成される。
トレーニング済み機械学習モデルは、トランスフォーマーモデルであってもよい。トランスフォーマーモデルは、自己注意機構(self-attention mechanism)を使用し、自己注意機構によってこれらの距離にかかわらず依存性が捕捉される。トランスフォーマーモデルは、エンコーダ-デコーダフレームワークを用いてよく、トレーニング済み機械学習モデルは、BERTのような双方向にトレーニングされた機械学習モデルであってもよい。
実施形態において、モデル入力は、対話システムからの以前の応答をさらに備える。例えば、最後のシステム発話が使用されてもよく、または、システム発話に対応する語彙対話作用のような以前のシステム発話の表現が使用されてもよい。
実施形態において、アクションは、候補アクションおよび状態更新アクションから選択されてもよく、ここで、候補アクションは、システムからの以前の応答のユーザによって尋ねられた質問を示し、状態更新アクションは、システムからの以前の応答にリンクしないユーザからの要求を示す。状態更新は、「目的変更」を表してもよい。
アクションに対するモジュール入力は、システムの以前の応答の表現、ユーザ入力、対話状態履歴にあるアイテムのアイテム説明、およびアイテム説明において参照されるアイテムに関連する提案された質問を備えてもよい。状態更新アクションに対するモジュール入力は、システムの以前の応答の表現、ユーザ入力、および有り得るユーザクエリに関連して提案された質問を備える。
上記のモジュールは、対話システムの一部を形成してもよい。したがって、さらなる実施形態において、対話システムは、
ユーザ入力と、
プロセッサと、
メモリとを備え、
プロセッサは、ユーザからの自然言語入力に応答して対話状態を更新するように適合され、対話状態はメモリに記憶され、
対話状態は、ユーザと対話システムとの間で交換された情報を記憶するデータ構造を備え、
プロセッサは、前記ユーザからの自然言語入力を複数の有り得るアクションと比較することによって前記対話状態を更新し、前記アクションは、ユーザの有り得る要求を示し、自然言語入力と一致するアクションからの情報を使用して、状態を更新するように構成され、
プロセッサは、更新された状態を使用して、自然言語入力への応答を生成するように構成される。
さらなる実施形態において、ユーザとの対話を行うための対話システムにおけるユーザに対する対話状態を更新するためのコンピュータ実現方法が提供され、方法は、
ユーザから自然言語入力を受信することと、
ユーザからの自然言語入力に応答して、対話状態を更新するように、プロセッサを使用することと、対話状態は、メモリに記憶され、対話状態は、ユーザと対話システムとの間で交換される情報を記憶するデータ構造を備え、
前記ユーザからの自然言語入力を複数の有り得るアクションと比較することにより、前記対話状態を更新することとを備え、前記アクションは、ユーザの有り得る要求を示し、自然言語入力と一致するアクションからの情報を使用して、状態を更新する。
さらなる実施形態において、対話システムにおいて状態を更新するための分類器をトレーニングする方法であって、
分類器を提供することと、前記分類器は、自然言語入力が、有り得るアクションと一致するときに一致を示すスコアを分類器が出力するように、ユーザからの自然言語入力を有り得るアクションと比較することが可能である、
自然言語入力および有り得るアクションを備えるデータセットを使用して、前記分類器をトレーニングすることと、を備え、前記データセットは、自然言語入力と有り得るアクションが一致する場合、肯定の組み合わせを、自然言語入力と有り得るアクションが一致しない場合、不正解の選択肢(distractors)を備える。
上記の方法において、有り得るアクションは、候補アクションおよび状態更新アクションから選択され、ここで、候補アクションは、システムからの以前の応答のユーザによって尋ねられた質問を示し、状態更新アクションは、システムからの以前の応答にリンクしないユーザからの要求を示す。
分類器のトレーニングは、ポリシーモデルのトレーニングと共に、または別々に実行されてもよい。
上記の方法は、命令を備えるコンピュータ読取可能媒体を使用して実行されてもよく、命令がコンピュータによって実行されるとき、コンピュータに、上記の方法を実行させる。
対話システムにおけるユーザ入力は、自然言語理解(NLU)と対話状態追跡(DST)とのコンポーネントの組み合わせを使用して理解できる。NLUはユーザ入力にあるドメイン特有の意図とエンティティを識別し、DSTは、対話状態を更新する。
図1Aおよび1Bは、実施形態にしたがう方法の使用を図示するための、スマートフォンの概略図である。図1Aにおいて、ユーザは、質問1「私は安いイタリア風レストランを探しています」を電話機3に入力する。図1Bにおいて、電話機5は、「Zizziケンブリッジは、中央で良い飲食店です」で応答する。
図1Aおよび1Bは、この説明で使用されるであろう、ケンブリッジのレストラン検索に関連するタスク指向対話システムの1つの例を示している。しかしながら、方法は、ユーザから自然言語有力を受信する、情報検索、カスタマーサポート、eコマース、物理的環境制御、および人間-ロボット交流のような、任意のタスク指向対話システムに適用できる。ユーザ入力は、音声認識を介して処理される発話としてマイクロフォンを介して受信されることができ、または、テキスト入力であることがある。
スマートフォンが示されているが、方法は、プロセッサを有する任意のデバイス上で実現できる。例えば、店、銀行、輸送プロバイダ等においてユーザクエリを取り扱うように構成されている、標準コンピュータ、任意の音声-制御オートメーション、サーバである。
会話を以下に示す。
Figure 2022076439000002
ユーザは、順番1、3、および5においてクエリを入力し、システムは、順番2、4、および6においてそれぞれ応答する。
上記対話の5番目の順番において、ユーザは、別のレストラン(Nando)の提示の直後に、3つ前の順番でシステムによって提示されたレストラン(Zizzi)の住所を尋ねている。ユーザは、表現「イタリア風飲食店」を参照してターゲットレストランを識別している。このタイプの対話は、特に対話システムにおいて問題となる。
上記で示した対話は、図2Aおよび2Bならびに図3のフローチャートも参照して説明するシステムを使用して達成される。
図2Aは、実施形態にしたがう方法を実現するために使用できるハードウェアの概略図である。これは1つの例であり、他の構成を使用できることに留意すべきである。
ハードウェアは、コンピューティングセクション700を備えている。この特定の例では、このセクションのコンポーネントはともに説明される。しかしながら、これらは必ずしも同じ位置に配置されるわけではないことが認識される。
コンピューティングシステム700のコンポーネントは、(中央処理ユニット、CPUのような)処理ユニット713、システムメモリ701、システムメモリ701から処理ユニット713までを含むさまざまなシステムコンポーネントを結合するシステムバス711、を含んでいてもよいがこれらに限定されない。システムバス711は、メモリバスまたはメモリコントローラ、さまざまなバスアーキテクチャ等のうちのいずれかを使用する周辺バスおよびローカルバスを含むいくつかのタイプのバス構造のうちのいずれかであってもよい。コンピューティングセクション700は、バス711に接続された外部メモリ715も含む。
システムメモリ701は、リードオンリーメモリのような、揮発性/または不揮発性メモリの形態のコンピュータ記憶媒体を含む。基本入力出力システム(BIOS)703は、スタートアップの間のような、コンピュータ内の要素間で情報を変換することを助けるルーチンを含み、システムメモリ701に典型的には記憶されている。さらに、システムメモリは、CPU713によって使用される、オペレーティングシステム705、アプリケーションプログラム707、およびプログラムデータ709を含んでいる。
また、インターフェース725は、バス711に接続されている。インターフェースは、コンピュータシステムがさらなるデバイスから情報を受信するネットワークインターフェースであってもよい。インターフェースはまた、ユーザがあるコマンド等に応答することを可能にするユーザインターフェースであってもよい。
この例では、ビデオインターフェース717が提供されている。ビデオインターフェース717は、グラフィック処理メモリ721に接続されているグラフィック処理ユニット719を備えている。
グラフィック処理ユニット(GPU)719は、ニューラルネットワークトレーニングのような、データ並列動作へのその適合による分類器のトレーニングに特に良く適している。したがって、実施形態において、分類器をトレーニングするための処理は、CPU713とGPU719との間で分割されてもよい。
いくつかの実施形態において、分類器をトレーニングすることと状態更新を実行することとのために、異なるハードウェアが使用されてもよいことに留意すべきである。例えば、分類器のトレーニングは、1つ以上のローカルデスクトップまたはワークステーションコンピュータ、あるいは、クラウドコンピューティングシステムのデバイスで生じるかもしれず、これらは、1つ以上の分離したデスクトップまたはワークステーションGPUを含んでいてもよく、1つ以上の分離したデスクトップまたはワークステーションCPUは、例えば、PC指向アーキテクチャ、および例えば16GB以上の揮発性システムメモリの実質的量を有するプロセッサである。例えば、対話の性能はモバイルまたは組み込まれたハードウェアを使用してもよいけれども(これらは、システムオンチップ(SoC)の一部としてのモバイルGPUを含む、またはGPUを含まない)、1つ以上のモバイルまたは組み込まれているCPU、例えばモバイル指向アーキテクチャ、またはマイクロコントローラ指向アーキテクチャと、例えば1GB未満のより少ない量の揮発性メモリとを有するプロセッサ、を使用してもよい。例えば、対話を実行するハードウェアは、スマートスピーカーまたは、バーチャルアシスタントを含む移動体電話機のような音声支援システム120であってもよい。
分類器をトレーニングするために使用されるハードウェアは、大幅により多くの計算能力を有してもよく、例えば、エージェントを使用してタスクを実行するために使用されるハードウェアよりも、1秒間により多くの演算を実行でき、かつ、より多くメモリを有する。より少ないリソースを有するハードウェアを使用することは可能である。なぜなら、例えば、1つ以上のニューラルネットワークを使用して推測を実行することによって音声認識を実行することは、例えば、1つ以上のニューラルネットワークをトレーニングすることによって音声認識システムをトレーニングすることよりも、実質的にかなり少ない計算リソースであるからである。さらに、例えば、1つ以上のニューラルネットワークを使用して推測を実行する、音声認識を実行するために使用される計算リソースを低減するために技術が用いられることができる。このような技術の例は、モデル蒸留(distillation)を含み、ニューラルネットワークに対しては、プルーニング(枝刈り:pruning)および量子化のような、ニューラルネットワーク圧縮技術を含む。
対話を行う事に対して、図2Aのアプリケーションプログラム707は、図2B中に示される3つのメインモジュールを有する。これらは1)アクション状態更新コンポーネント751、2)システム移動選択コンポーネント753、および3)テンプレートに基づく自然言語生成器755である。
対話システムは対話状態を使用して動作する。対話状態の例が図4に示される。実施形態において、対話状態は、以前に議論したアイテムを含む、対話履歴とユーザ目的とについてのシステムビリーフ(the system beliefs)を記憶する。各発話またはユーザ入力の後、状態は、アクション状態更新コンポーネント751によって更新される。更新された状態は、システム移動選択コンポーネント753に移動する。このシステム移動選択コンポーネント753は、更新された状態を受信し、答えを決定するためにシステム移動選択ポリシーを適用する。更新された状態を受信すると応答を提供するように構成されている多くのこのようなモジュールがあることから、システム移動選択コンポーネントまたは「ポリシーコンポーネント」に対する多くの有り得るオプションがある。実施形態において、統計的学習ポリシーが使用される。しかしながら、ルールベースのアプローチを使用する他のシステムも使用できる。例では、以下の方法を使用できる。Jost Schatzmann他、Human Language Technologies 2007における「Agenda-based user simulation for bootstrapping a POMDP dialogue system」。Association for Computational Linguistics、pp.149-152、2007年4月。
システム移動選択コンポーネント753の出力は、その後、テンプレートに基づく自然言語生成器755によって自然言語応答に変換される。
図4は、状態の例を示している。状態は目的を備えている。この特定の例では、目的は、3つのスロット:食べ物、エリア、価格帯によって表される。対話の開始時に、各スロットは空であるが、ユーザからより多くの情報が集められるとスロットにはデータが入れられる。
対話状態はまた、対話履歴を備える。この例では、対話履歴は、3つのアイテムを含んでいるが、アイテムの数は固定されず、対話の間により多くのアイテムが追加されると増加するであろうことに留意すべきである。この実施形態のシステムは、スロット充填システムに関する履歴を定義し、これは、この例では、特定のエリア、価格帯、または食べ物のタイプに一致するレストランをユーザが見つけることを可能にする。これらは、この例のドメイン定義で情報提供可能なスロットであり、各アイテムに対する対話履歴で設定される(このケースではレストランである)。情報提供可能なスロットに加えて、要求可能なスロットも定義される。この例では、要求可能なスロットは、電話番号、住所、郵便番号、エリア、価格帯、および食べ物のタイプである。スロットは、ドメインによって定義される。
実施形態において、状態更新は、動作のセットまたはアクションにおいて見られる。各アクションは、対話状態の値を変更する。例えば、発話「私はイタリア風の食べ物に関心がある」に対する状態更新アクションは、ユーザ目的を食べ物=イタリア風で更新する。発話「イタリア風レストランはどのエリアにある?」に対する状態更新アクションは、属性食べ物=イタリア風に一致するエンティティのエリアフィールドに対する要求ビットをオンに切り替える。アクション検出は、どの状態変更アクションが、所定の文脈においてユーザによって意図されているかを識別するタスクである。我々のアプローチでは、状態変更のための命令であるアクションは、発話の意味解析をすることなく検出される。
全体のプロセスは、図3のフローチャートを参照して説明する。ステップS101において、ユーザ入力が受信され、これは自然言語入力である。
ステップS103において、複数入力アクションが生成され、これらは、候補要求アクションおよび目的変更アクションであることがある。候補要求アクションは、対話履歴に記憶された各アイテムに対する要求可能なスロットのそれぞれに対して生成される。例えば、対話履歴がこれらのレストランを含む場合、18個の要求候補アクションが生成される(6つの要求可能スロット×3アイテム)。ユーザ目的を変更することは、対照的に、文脈-独立アクションである。ドメインオントロジーを考慮すると、(情報提供可能な)スロット-値ペアに対応する、各順番における同じ数の目的変更アクションをモデルは分類する。例えば、ケンブリッジレストランドメインは、食べ物のタイプ、エリア、および価格幅スロットに対して102の値を有する。
これらは、その後、モデルへの入力として変換される。この実施形態において、モデルへの入力は、以下からなるワードシーケンスである:1)システムの最後の発話から導出されたワードシーケンス、これは、それが現れるシステム発話であってもよいし、または語彙化された対話作用の形態でのシステム発話であってもよい、2)ステップS101からのユーザ発話、3)アイテム説明、および4)テンプレート生成アクション文。アイテム説明は、アクションから生成された文字列である。アイテム-独立アクション(目的変更)について、アイテム説明は空であり;アイテム-独立アクション(情報要求)について、それは要求されたアイテムの説明に対応する。図4の状態に対する第1のアイテムのアクション要求アドレスに対応する説明は、「名前zizi エリア 中央 価格 安い 食べ物 イタリア風」である。
これを説明するために、この例について、システムは、要求アクションに対して18個の入力を生成する。
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP 名前 zizi エリア 中央 価格 安い 食べ物 イタリア風 SEP 電話番号は?
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP 名前 zizi エリア 中央 価格 安い 食べ物 イタリア風 SEP 住所は?
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP 名前 zizi エリア 中央 価格 安い 食べ物 イタリア風 SEP 郵便番号は?
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP 名前 zizi エリア 中央 価格 安い 食べ物 イタリア風 SEP エリアは?
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP 名前 zizi エリア 中央 価格 安い 食べ物 イタリア風 SEP 価格帯は?
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP 名前 zizi エリア 中央 価格 安い 食べ物 イタリア風 SEP 食べ物のタイプは?
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP 名前 Gandhi エリア 中央 価格 手頃 食べ物 インド風 SEP 電話番号は?
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP 名前 Gandhi エリア 中央 価格 手頃 食べ物 インド風 イタリア風 SEP 住所は?
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP 名前 Gandhi エリア 中央 価格 手頃 食べ物 インド風 SEP 郵便番号は?
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP 名前 Gandhi エリア 中央 価格 手頃 食べ物 インド風 SEP エリアは?
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP 名前 Gandhi エリア 中央 価格 手頃 食べ物 インド風 SEP 価格帯は?
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP 名前 Gandhi エリア 中央 価格 手頃 食べ物 インド風 SEP 食べ物のタイプは?
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP 名前 Hotpot エリア 北 価格 高価 食べ物 中国風 SEP 電話番号は?
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP 名前 Hotpot エリア 北 価格 高価 食べ物 中国風 SEP 住所は?
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP 名前 Hotpot エリア 北 価格 高価 食べ物 中国風 SEP 郵便番号は?
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP 名前 Hotpot エリア 北 価格 高価 食べ物 中国風 SEP エリアは?
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP 名前 Hotpot エリア 北 価格 高価 食べ物 中国風 SEP 価格帯は?
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP 名前 Hotpot エリア 北 価格 高価 食べ物 中国風 SEP 食べ物のタイプは?
目的変更アクションについての102の入力は、タイプである:
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP SEP 食べ物 イタリア風
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP SEP 食べ物 中国風
Nandoは北で良いレストランである SEP イタリア風レストランの価格帯は?
SEP SEP エリア 中央
上記において、SEPは、文の間の分離を示す。
ステップS105において、入力がスコアリングされる。実施形態において、これは、双方向トランスフォーマーであるトレーニングされたモデルに入力をすることによってなされる。これは、図5に概略的に示される。1)システム、2)ユーザ、3)アイテム説明、および4)アクション文を備えている入力は、双方向エンコーダへのシーケンスとして入力されることが示されている(このケースではBERTである)。分類フラグCLSが全体入力に対して生成され、その後これはスコアを生成するために線形レイヤを通して提供される。モデル入力にアイテム説明を含むことにより、トランスフォーマーモデルの注意機構は、所定の文脈におけるユーザ発話からアクションが推測されうるかどうかを検出するように学習する。アイテム説明の存在、候補アクションの動的生成、およびデータ生成の方法は、参照されている表現をモデルが解釈することを可能にする。
異なる部分に入力を備える上記の方法は、潜在的利点を有しており、それは、事前トレーニングから意味をエンコードすることである。
入力としての上記の「アクション文」例えば「価格帯は」は、単にワード「価格帯」を使用することとは対照的である。しかしながら、ワード「価格帯」のみを使用することもできる。「価格帯を要求」は自然でないことから、文は生成され、自然言語で動作するようにBERTが最適化される。
ステップ107において、しきい値よりも高いスコアを有する入力が選択され、しきい値はこのケースでは、0.5である。その後ステップ109において、これらの入力は状態を更新するために使用される、すなわち、目的(スロット値)を変更すること、または対話履歴中のアイテムのうちの1つについての要求ビットを設定することのいずれかによって対話状態を更新するために使用される。更新の間、以下のヒューリスティクスが適用される:1)スロットに対して複数のアクションが予測される場合、最も高いスコアを有するものが使用される;2)複数の要求アクションが0.5より大きいスコアを受信する場合、最新に言及されたアイテムに対する要求ビットのみが使用される。上記で説明したように、対話状態は、最新に言及された順序で対話履歴を記憶し、したがって、最新に言及されたアイテムを容易に決定することが可能である。いったん要求ビットが設定されると、この情報は、他の状態更新情報を、例えば、目的が更新されることを考慮して要求ビットが設定される情報をどのように取り扱うかの決定を行うポリシーモジュールへと移動される。実施形態において、ポリシーモデルは、システム応答に対するテンプレートを選ぶ分類器である。これはルールが要求ビットの設定によってトリガされるルールベースの応答選択であることもある。
ステップS111において、更新された対話状態は、その後、ポリシーモデルによって受信され、ポリシーモデルは、ステップS113においてシステム応答を提供するために使用される。自然言語応答は、S115における出力を提供するために、自然言語生成コンポーネントを使用して生成されることができる。システム応答は、その後、ユーザに提供され、ユーザ応答が待たれる。いったんユーザ入力が受信されると、プロセスは、S101に戻り、再開する。しかしながら、ここで、ステップS115におけるシステム応答は、複数の入力を生成するために使用される。
上述の実施形態において、対話状態から候補アクションのセットが生成される。文脈は対話状態に記憶され、対話状態を更新するために統計的方法が使用される。二値分類は、ユーザによって意図されたアクションを検出するために使用される。これらのアクションは、その後、状態を決定論的に更新する。
提案される「アクション検出器」モデルは、候補アクションのリストからユーザ発話によって意図されるアクションを識別するようにトレーニングされる。タスク指向対話システム中の候補アクションは、現在の対話状態とドメインオントロジーとに基づいて、動的に生成される。上記の実施形態は、テキストベースのチャットでのタイプされたテキストのようなユーザの発話の入力ワードとして、または、音声対話システムでの音声認識器の出力として取り込んでいる。
上記の実施形態において、状態更新は、動作またはアクションのセットとしてみなされる。各アクションは、対話状態において値を変更し、これは、以前に議論したアイテムを含む、ユーザ目的および対話履歴についてのシステムビリーフを記憶する。例えば、発話「私はイタリア風の食べ物に興味を持っています」についての状態更新は、ユーザ目的を食べ物=イタリア風で更新する。発話「イタリア風レストランはどのエリアにありますか」についての状態更新アクションは、属性の食べ物=イタリア風に一致するエンティティのエリアフィールドに対する要求ビットをオンに切り替える。
図5は、図3の上記の説明から理解できるプロセスおよびモデルの概略を示している。図5において、$スロットは、価格帯、エリア、食べ物のタイプのうちの1つであり、および$値は、データベースに記憶されているこれらの値(安い/手頃/高価、北/南/...、インド風/イタリア風/...)である。
実施形態において、上記の状態更新モジュールは、以下の3つの基本ステップを実行する:
1)対話状態から候補アクションを推測
2)各候補アクションに対する関連性スコアを計算
3)最も有り得るアクションで状態を更新
アルゴリズムの第1のステップ、現在の対話状態に対する候補アクションのセットを生成することは、決定論的である。アクションは、現在の状態から推定されうる。所定のアクションのセットの状態を更新する最後のステップも決定論的である。アルゴリズムの第2のステップは、ユーザによって意図されているその確率で各候補アクションをスコアリングすることである。
上記の実施形態では、二進出力によるBERTエンコーダおよび線形レイヤが使用される。モデルへの入力は、ワードシーケンスであり、以下からなる:1)語彙化された対話作用のシーケンス、2)ユーザ発話、3)アイテム説明、および4)テンプレート-生成アクション文。アイテム説明は、アクションから生成された文字列である。アイテム-独立アクション(目的変更)について、アイテム説明は空であり;アイテム-依存アクション(情報要求)について、それは要求されたアイテムの説明に対応する。モデルは、アクションがユーザによって意図されたかどうかの確率を出力する。
次に、分類器のトレーニングが説明される。分類器は、肯定および否定例を使用してトレーニングされる。
< sys, usr, action → (itemdescr, actionsent) >:0/1
用語「sys」は、以前のシステム応答であり、「usr」はユーザ発話であり、actionは、ユーザによって意図されたアクションである。上述の例と一致するように、「action」は上述したようなアイテム説明とアクション文に細分化される。
トレーニングセットを作り出すために、(1でラベル付けした)肯定例においてアクションはユーザによって意図されるが、(0でラベル付けした)否定例では、そうではない。アクションは、現在の状態についての命令、例えば、「第1のアイテムの価格帯を要求」であることから、アイテム説明およびモデルへのアクション文の入力は、アクションおよび状態から推測される。分類器をトレーニングするために3つのデータセットは、以下の表2に要約される。
Figure 2022076439000003
ベースラインデータセットは、DSTC2コーパスのトレーニング区分から生成される。各順番について、ユーザによって意図される各アクションに対する肯定的な例が生成される。意図されたアクションは、マニュアルNL注釈から推測され、例えば、アクションはNL注釈から抽出され、例えば、「私はイタリア風がほしい/食べ物_タイプ 食べ物」/要求_食べ物(‘I want italian/FOOD_TYPE food’/REQUEST_FOOD)は、アクション要求_イタリア風に対応する。否定的な例(不正解の選択肢)を生成するために、すべての有効な意図されていないアクション(スロット-値ペア)を使用することが考慮される。しかしながら、これは、アクションの数が大きいとき、高度にゆがめられたデータセットを作り出す。代わりに、各肯定的な例に対して、意図されていないアクションは、より関連のある不正解の選択肢を選択するために頻度および類似性のヒューリスティクスを使用してサンプリングされる。タスクの設計によって、DSTC2データセットは、ユーザの番で表現参照することを含まない。すべてのユーザ要求は、一般的であり、最後に提示されたアイテム(例えば、電話番号は?)を参照する。したがって、ベースラインデータセットでトレーニングされたモデルは、最後に提示されたアイテムへの参照だけを理解できる。
extHは、表現を参照する自動生成発話でベースラインデータセットを拡張する。ユーザは、要求可能なスロットのうちのいずれかについての質問を尋ね、情報提供可能なスロットのうちのいずれかを参照してもよい。これをするために、DSTC2データセットからの要求スロットに対する参照表現なく要求発話をランダムにサンプリングし、参照スロットのためにそれをテンプレート-生成参照表現と連結することにより、要求可能および情報提供可能なスロットのすべての組み合わせに対するデータセットをトレーニング/開発するための表現を参照して、10K/3K要求が生成される(表3参照)。
Figure 2022076439000004
表2中に示すように、能動学習(active learning)を使用して、更なるデータセットが生成される。キーアイディアは、アルゴリズムがトレーニングサンプルを選択できることである。表2のextAデータセットは、シミュレートされた対話から最もチャレンジングな不正解の選択肢を自動的に選択することによって、生成される。
トレーニングセットは、目的制約を繰り返し変更することによって複数の場所を探し出し、対話の早期に提供された場所に対するスロットを要求するように拡張されうる。さらに、この新たな挙動に対する表現を参照して発話を生成するためにテンプレートが生成され、結果として、シミュレートされたユーザ発話を生成するためのハイブリッド検索/テンプレートに基づくモデルをもたらす。
テストとして、5000対話に対するベースラインデータセットでトレーニング済みの分類器を使用するASUモジュールで第1のシミュレーションが実行される。実際のユーザの代わりのシミュレーションにおいて、ユーザをシミュレートするために別のシステムが使用される。この特定の例では、ランダムに選択された目的を受信し、人-コンピュータ対話に類似した発話を生成するルールに基づきシミュレートされたユーザが用いられる。シミュレートされたユーザ意図から、「意図された」ユーザアクションが推測され、新たなトレーニング例が自動的にラベル付けされる。ベースラインモデルがT1未満の関連性スコアを予測した各「意図された」アクションは、肯定的な例として使用される。T2より大きい最も高い関連性スコアを有する最大Mの「意図されていない」アクションは、否定的な例として使用される。このテストでは、T1=.99、T2=0.5、およびM=2である。ベースラインデータセットでトレーニングされたモデルでこれらが正しく分類された場合でさえ、表現を参照するすべての生成された発話はまた、肯定的な例として使用される。
上記を論証するために、DSTC2コーパスのテストサブセット上のベースラインモデルで、すなわち、表現を参照することなく、ASUアプローチがトレーニングされる。ユーザ入力のマニュアルトランスクリプトを使用して、ユーザ通知の96%およびユーザ要求の99%(公式DSTC2評価スクリプトによって計算されるような平均目的および要求精度)をモデルは正しく識別する。
次に、ユーザ要求中の表現を参照してシミュレートされた対話に関して提案するアプローチが評価される。ベースライン、expH、およびexpAデータセットに関して提案したアクション状態更新コンポーネントでシミュレーションは実行される。
結果を表4に示す。
Figure 2022076439000005
上限(GOLD)条件として、シミュレートされた対話作用から推測された正しいアクションで、シミュレーションは実行される。対話作用(DA)を入力および25%対話作用混同率として使用するアジェンダに基づくシミュレーションにより、ポリシーモデルはトレーニングされる。expHおよびexpAでトレーニングされるモデルに関して、ポリシーモデルはまた、入力として、対話作用仮説よりもむしろシミュレートされたユーザ発話でトレーニングされる。この条件において、ポリシーは、ASUモデルによって作られた状態更新エラーを克服するように学習してもよい。
各実験条件に対して5000対話がシミュレートされ、対話および個々の順番に対する統計が計算される。(場合によっては多数の目的変更の後)システムが提供する場所がシミュレートされたユーザの目的制約に一致する場合、対話成功率は、シミュレートされた対話の比率であり、シミュレートされたユーザによって要求された追加の情報を提供する。状態更新精度は、a)すべての順番、b)通知のみとして注釈された順番、およびc)要求のみとして注釈された順番にわたって、平均精度として計算される。
シミュレートされたユーザ挙動は、状態更新モデルによって影響を及ぼされる。シミュレートされた対話の平均長さは、GOLD条件に対する7.93からベースラインに対する10.06の範囲である。より低い状態更新精度は、より長い対話につながる。なぜなら、システムが正しい応答に失敗したとき、シミュレートされるユーザ繰り返しまたは言い換え要求は、対話の長さを増加させるからである。ベースライン条件はたった43.9パーセントの対話成功を達成し、すべてのユーザの順番で50%の状態更新精度を達成する。expH DA条件では、対話成功および全体の精度は、通知について79%であり要求については僅か50.0%である精度で91.1%および75.1%に増加する。能動学習アプローチ(expA DA)により、対話成功および全体の精度は、通知について98.8%であり要求について94.0%である精度で99.5%および98.1%まで増加する。一致したポリシーモデルを使用することは、expHおよびexpAモデルの両方の性能に対して影響を及ぼし、要求について精度を4.3および1.4絶対%ポイント増加させる。しかしながら、expHモデルによってトレーニングされたポリシーを使用すると、ユーザ通知作用の精度は3.1ポイント減少し、対話の長さを増加させる。結果は、アクション状態更新アプローチが能動学習と組み合わせて効果的であることを示している。
提案したアクション検出モデルを実際のユーザとテストするために、予備的ユーザ研究が実行された。テキストに基づくシステムは、expAアクション検出モデルを使用する提案された対話状態トラッカー、テキストに基づくユーザシミュレータでトレーニングされた対話ポリシー、およびテンプレートに基づく自然言語生成器からなる。被験者が採用され、レストラン情報ナビゲーションを伴う5つのタスクを実行するように尋ねられる。各タスクにおいて、被験者に制約の初期設定(例えば、食べ物のタイプ:中国風、価格帯:安い)が与えられ、システムから適切な推薦を得るように尋ねられる。彼らは、その後、会話を継続し、制約を変更し、トータルで3つの推薦される場所を取得することにより、2つの代替推薦を得る。最後に、彼らは、これらの2つの場所についての電話番号または住所のような追加の情報を得るように尋ねられる。被験者はまた、<error>を入力することにより、いつシステム応答が正しくなかったかを示すように尋ねられる。5つのすべてのタスクを完了した後、被験者は、「強く同意しない」から「強く同意する」におよぶ6段階リッカート尺度でスコアリングするために5つの文からなる質問事項、および、いくつのタスクが成功して完了したかを尋ねる質問(表5参照)に入力する。
Figure 2022076439000006
各ユーザは平均で60.9の順番(turns)を入力し、これらのうちの15パーセントをエラーとして印付けた。質問事項の結果は、システムは、彼らの場所への参照を理解していたことを示している(平均スコア4.8)。ユーザの半分は、5つすべてのタスクを完了し、ユーザのうちの一人のみが、システムがよく理解していなかったと感じていた。ユーザ全体での高い標準偏差は、ユーザ経験における高い変動性と、恐らくシステムの期待を示している。人の評価は、双方向の(interactive)対話システムにおいて上記モデルが使用できることを示している。
ここで説明される実施形態は、対話状態を更新する新規のアプローチを提供しており、表現を参照する要求を含む、ユーザ発話を解釈することに成功できる。最初のケンブリッジレストランデータセットを、表現とサンプルされた不正解の選択肢とを参照することを含むシミュレートされた要求で拡張することにより、実験モデルがトレーニングされる。不正解の選択肢が能動学習アプローチを使用してサンプリングされるデータセットでトレーニングされたモデルは、そのトレーニングセットのより小さなサイズにかかわらず、最良の性能を達成する。このモデルの人の評価は、アプローチは実際のユーザと対話システムにおいて使用できることを示している。
ある実施形態を説明してきたが、これらの実施形態は例としてのみ提示されており、本発明の範囲を限定することは意図していない。実際に、ここで説明した新規のデバイス、方法は、さまざまな他の形態で具現化されてもよく、さらに、ここで説明したデバイス、方法、および製品の形態におけるさまざまな省略、置き換え、および変更が、本発明の範囲および精神から逸脱することなくなされてもよい。付随する特許請求の範囲およびこれらの均等物は、本発明の範囲および精神内あるように、このような形態または修正をカバーするように意図されている。

Claims (20)

  1. ユーザとの対話を行うための対話システムにおける使用のために対話状態を更新するためのモジュールであって、
    ユーザ入力と、
    プロセッサと、
    メモリとを備え、
    前記プロセッサは、ユーザからの自然言語入力に応答して対話状態を更新するように適応され、前記対話状態は前記メモリに記憶され、
    前記対話状態は、前記ユーザと前記対話システムとの間で交換された情報を記憶するデータ構造を備え、
    前記プロセッサは、前記ユーザからの前記自然言語入力を複数の有り得るアクションと比較することによって前記対話状態を更新し、前記アクションは、前記ユーザの有り得る要求を示し、前記自然言語入力と一致するアクションからの情報を使用して、前記状態を更新するように構成される、モジュール。
  2. 前記対話状態は、前記対話の間に言及されているアイテムを備えるデータ構造を備える、請求項1に記載のモジュール。
  3. 前記複数の有り得るアクションは、前記対話の間に言及されている複数のアイテムに関するアクションを含む、請求項2に記載のモジュール。
  4. 前記対話システムは、情報検索のために構成され、前記対話状態はユーザ目的および履歴を備え、前記ユーザ目的は前記ユーザが要求する情報を示し、前記履歴はユーザ目的に応答して以前に検索されているアイテムを定義する、請求項1に記載のモジュール。
  5. 前記プロセッサは、一致するアクションと一致しないアクションを示すために二値分類器を使用することにより、前記ユーザからの前記自然言語入力を複数の有り得るアクションと比較するように構成される、請求項1に記載のモジュール。
  6. 前記二値分類器は、スコアを出力するように構成され、アクションが一致するかどうかを決定するために前記スコアはしきい値と比較される、請求項5に記載のモジュール。
  7. 前記プロセッサは、各アクションに対する複数のモデル入力を生成することによって、前記ユーザからの前記自然言語入力を複数の有り得るアクションと比較するように構成され、各モデル入力はアクションと前記ユーザからの前記自然言語入力とを備え、前記プロセッサは、前記スコアを出力するために、トレーニング済み機械学習モデルとして実現された二値分類器に前記モデル入力を入力するようにさらに構成される、請求項6に記載のモジュール。
  8. 前記トレーニング済み機械学習モデルは、トランスフォーマーに基づくトレーニング済み機械学習モデルである、請求項7に記載のモジュール。
  9. 前記トレーニング済み機械学習モデルは、双方向にトレーニングされた機械学習モデルである、請求項7に記載のモジュール。
  10. 前記モデル入力は、前記対話システムからの以前の応答をさらに備える、請求項7に記載のモジュール。
  11. 前記アクションは、候補アクションおよび状態更新アクションから選択され、候補アクションは前記システムからの以前の応答の前記ユーザによって尋ねられた質問を示し、状態更新アクションは前記システムからの以前の応答にリンクしない前記ユーザからの要求を示す、請求項7に記載のモジュール。
  12. 候補アクションに対するモジュール入力は、前記システムの以前の応答の表現、前記ユーザ入力、対話状態履歴中のアイテムのアイテム説明、および前記アイテム説明において参照される前記アイテムに関連する提案された質問を備える、請求項11に記載のモジュール。
  13. 状態更新アクションに対するモジュール入力は、前記システムの前記以前の応答の表現、前記ユーザ入力、および有り得るユーザクエリに関連する提案された質問を備える、請求項11に記載のモジュール。
  14. 候補アクションに対するモジュール入力が一致するとき、要求ビットを設定するように構成される、請求項12に記載のモジュール。
  15. 状態更新アクションに対するモジュール入力が一致するとき、前記状態を更新するように構成される、請求項13に記載のモジュール。
  16. 対話システムにおいて状態を更新するための分類器をトレーニングする方法であって、
    分類器を提供することと、ここで前記分類器は、自然言語入力が有り得るアクションと一致するときに一致を示すスコアを前記分類器が出力するように、ユーザからの前記自然言語入力を有り得るアクションと比較することが可能である、
    自然言語入力および有り得るアクションを備えるデータセットを使用して、前記分類器をトレーニングすることと、を備え、前記データセットは、自然言語入力と有り得るアクションが一致する場合に肯定の組み合わせを備え、前記自然言語入力と有り得るアクションが一致しない場合に不正解の選択肢を備える、方法。
  17. 前記有り得るアクションは、候補アクションおよび状態更新アクションから選択され、候補アクションは前記システムからの以前の応答の前記ユーザによって尋ねられた質問を示し、状態更新アクションは前記システムからの以前の応答にリンクしない前記ユーザからの要求を示す、請求項16に記載の方法。
  18. 対話システムであって、
    ユーザ入力と、
    プロセッサと、
    メモリとを備え、
    前記プロセッサは、ユーザからの自然言語入力に応答して対話状態を更新するように適合され、前記対話状態は前記メモリ中に記憶され、
    前記対話状態は、前記ユーザと前記対話システムとの間で交換された情報を記憶するデータ構造を備え、
    前記プロセッサは、前記ユーザからの前記自然言語入力を複数の有り得るアクションと比較することによって前記対話状態を更新し、前記アクションは、前記ユーザの有り得る要求を示し、前記自然言語入力と一致するアクションからの情報を使用して、前記状態を更新するように構成され、
    前記プロセッサは、前記更新された状態を使用して、前記自然言語入力への応答を生成するように構成される、システム。
  19. ユーザとの対話を行うための対話システムにおけるユーザに対する対話状態を更新するためのコンピュータ実現方法であって、
    ユーザから自然言語入力を受信することと、
    ユーザからの自然言語入力に応答して、対話状態を更新するように、プロセッサを使用することと、ここで前記対話状態は、メモリ中に記憶され、前記対話状態は、前記ユーザと前記対話システムとの間で交換される情報を記憶するデータ構造を備える、
    前記ユーザからの前記自然言語入力を複数の有り得るアクションと比較することにより、前記対話状態を更新することと、を備え、前記アクションは、前記ユーザの有り得る要求を示し、前記自然言語入力と一致するアクションからの情報を使用して、前記状態を更新する、方法。
  20. 命令を備えるコンピュータ読取可能媒体であって、前記命令がコンピュータによって実行されるとき、前記コンピュータに、請求項19の方法を実行させる、コンピュータ読取可能媒体。

JP2021042260A 2020-11-09 2021-03-16 対話管理 Active JP7279099B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB2017663.2A GB2604317B (en) 2020-11-09 2020-11-09 Dialogue management
GB2017663.2 2020-11-09

Publications (2)

Publication Number Publication Date
JP2022076439A true JP2022076439A (ja) 2022-05-19
JP7279099B2 JP7279099B2 (ja) 2023-05-22

Family

ID=74046239

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021042260A Active JP7279099B2 (ja) 2020-11-09 2021-03-16 対話管理

Country Status (3)

Country Link
US (1) US20220147719A1 (ja)
JP (1) JP7279099B2 (ja)
GB (1) GB2604317B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11587567B2 (en) * 2021-03-21 2023-02-21 International Business Machines Corporation User utterance generation for counterfactual analysis and improved conversation flow
US20230088280A1 (en) * 2021-09-23 2023-03-23 International Business Machines Corporation Conversational system action presentation
CN114510950A (zh) * 2022-01-27 2022-05-17 深圳Tcl新技术有限公司 语音对话方法、装置、电子设备及计算机可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190258714A1 (en) * 2018-02-22 2019-08-22 Salesforce.Com, Inc. Dialogue state tracking using a global-local encoder

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242667B2 (en) * 2016-06-03 2019-03-26 Maluuba Inc. Natural language generation in a spoken dialogue system
US11069340B2 (en) * 2017-02-23 2021-07-20 Microsoft Technology Licensing, Llc Flexible and expandable dialogue system
GB201818237D0 (en) * 2018-11-08 2018-12-26 Polyal A dialogue system, a dialogue method, a method of generating data for training a dialogue system, a system for generating data for training a dialogue system
US11580975B2 (en) * 2020-06-01 2023-02-14 Salesforce.Com, Inc. Systems and methods for response selection in multi-party conversations with dynamic topic tracking
US20220147861A1 (en) * 2020-11-06 2022-05-12 Robert Bosch Gmbh Knowledge-Driven and Self-Supervised System for Question-Answering

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190258714A1 (en) * 2018-02-22 2019-08-22 Salesforce.Com, Inc. Dialogue state tracking using a global-local encoder
JP2021515269A (ja) * 2018-02-22 2021-06-17 セールスフォース ドット コム インコーポレイティッド グローバルローカルエンコーダを使用した対話状態追跡

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XUESONG YANG, ET AL.: "END-TO-END JOINT LEARNING OF NATURAL LANGUAGE UNDERSTANDING AND DIALOGUE MANAGER", ICASSP 2017, JPN6022044261, March 2017 (2017-03-01), pages 5690 - 5694, XP033259500, ISSN: 0004904820, DOI: 10.1109/ICASSP.2017.7953246 *
東中竜一郎他: "対話システムにおける深層学習の適用", 人工知能, vol. 34巻,4号, JPN6022010657, July 2019 (2019-07-01), pages 460 - 466, ISSN: 0004904819 *

Also Published As

Publication number Publication date
US20220147719A1 (en) 2022-05-12
GB2604317B (en) 2024-03-27
GB202017663D0 (en) 2020-12-23
JP7279099B2 (ja) 2023-05-22
GB2604317A (en) 2022-09-07

Similar Documents

Publication Publication Date Title
JP6678764B1 (ja) 多言語での自動化されたアシスタントを用いたエンドツーエンドコミュニケーションの促進
US11568855B2 (en) System and method for defining dialog intents and building zero-shot intent recognition models
US11354521B2 (en) Facilitating communications with automated assistants in multiple languages
US11966703B2 (en) Generating replacement sentences for a particular sentiment
US20190163691A1 (en) Intent Based Dynamic Generation of Personalized Content from Dynamic Sources
US9805718B2 (en) Clarifying natural language input using targeted questions
CN107210035B (zh) 语言理解系统和方法的生成
US10657327B2 (en) Dynamic homophone/synonym identification and replacement for natural language processing
CN107209759B (zh) 注解辅助装置及记录介质
JP2021197138A (ja) エンティティ・リンキング方法、装置、機器、及び記憶媒体
US8156060B2 (en) Systems and methods for generating and implementing an interactive man-machine web interface based on natural language processing and avatar virtual agent based character
JP7279099B2 (ja) 対話管理
US10783877B2 (en) Word clustering and categorization
US10579835B1 (en) Semantic pre-processing of natural language input in a virtual personal assistant
US20070282594A1 (en) Machine translation in natural language application development
US20150286943A1 (en) Decision Making and Planning/Prediction System for Human Intention Resolution
US11907665B2 (en) Method and system for processing user inputs using natural language processing
US10977155B1 (en) System for providing autonomous discovery of field or navigation constraints
JP2015511746A5 (ja)
US20220058191A1 (en) Conversion of natural language query
US20220165257A1 (en) Neural sentence generator for virtual assistants
Stoyanchev et al. Action state update approach to dialogue management
US11501088B1 (en) Techniques for generating natural language text customized to linguistic preferences of a user
Lee N-Gram Language Model
Boroghina et al. Conversational Agent in Romanian for Storing User Information in a Knowledge Graph.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210906

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221213

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20230105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230510

R151 Written notification of patent or utility model registration

Ref document number: 7279099

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151