JP2022547704A

JP2022547704A - 訓練を減らした意図認識技術

Info

Publication number: JP2022547704A
Application number: JP2022516198A
Authority: JP
Inventors: ジョンソン，マーク・エドワード
Original assignee: オラクル・インターナショナル・コーポレイション
Priority date: 2019-09-12
Filing date: 2020-07-30
Publication date: 2022-11-15
Also published as: CN114365120A; US20210082424A1; WO2021050170A1; US11914962B2; EP4028932A1

Abstract

本開示は、一般に、対話システムを使用して音声入力に基づいて意図を判断することに関する。より特定的には、マッチングベースの機械学習技術を使用して、対話システムにおいて音声入力に対応する意図を識別する技術が記載されている。これらの手順は、可能な意図のセットから意図が追加または除去された場合に訓練を必要としない。

Description

関連出願の相互参照
本願は、「訓練を減らした意図認識技術（REDUCED TRAINING INTENT RECOGNITION TECHNIQUES）」と題される２０１９年９月１２日に出願された米国出願番号第６２／８９９，６５４号および「訓練を減らした意図認識技術（REDUCED TRAINING INTENT RECOGNITION TECHNIQUES）」と題される２０２０年７月２９日に出願された米国出願番号第１６／９４２，５３５号の、米国特許法第１１９条（ｅ）のもとでの利益および優先権を主張し、これらの内容は、すべての目的のために全文が引用によって本明細書に援用される。

技術分野
本開示は、一般に対話システムに関する。より具体的には、本開示は、対話システムをセットアップして維持するために必要な訓練の量を大幅に減らすことができる、マッチ関数を使用して自然言語対話タスクを実行するための技術について記載しているが、それに限定されるものではない。

背景
現在、ユーザが音声または口頭のスピーチを使用してデバイスと直接対話することを可能にするデバイスが増えつつある。たとえば、ユーザは、このようなデバイスに自然言語で話しかけることができ、ユーザは、質問をしたり、実行すべき何らかのアクションを要求する発言をしたりし得る。これに応答して、デバイスは、要求されたアクションを実行したり、音声出力を使用してユーザの質問に応答したりする。音声を使用して直接対話することは、人間が周囲とコミュニケーションをとるためのより自然で直観的な方法であるので、このような音声ベースのシステムの人気は、天文学的な速度で上昇している。

音声入力および音声出力を介してユーザと対話することができる音声対応システムは、さまざまな形態のものがある。たとえば、このようなシステムは、スタンドアロンのデバイス、デジタルまたは仮想アシスタント、音声対応サービスなどとして提供され得る。これらの形態の各々では、システムは、音声またはスピーチ入力を受信して、これらの入力を理解して、これらの入力に応答して応答を生成したりアクションを起こしたりして、音声出力を使用して応答を出力することができる。特定の実施形態において、このような音声対応システムにおける対話機能は、対話システムまたはインフラストラクチャ（「対話システム」）によって提供される。

機械学習ベースの技術は、さまざまな機能のために対話システムでよく使用されている。たとえば、音声入力では、対話システムは、教師あり機械学習技術を使用して入力の意図を予測し得て、この意図は、予め構成された意図のセットから選択される。別の例として、質問および回答アプリケーションでは、対話システムは、機械学習技術を使用して、入力された質問に対する回答を予測し得る。これは、通常、分類器ベースのアプローチを使用して実現されるが、この分類器ベースのアプローチは、対象の値または当該値に関連付けられた基礎となるデータが変化すると再訓練されなければならない。その結果、従来のアプローチは、頻繁な再訓練を必要とすることになり、これは、厄介であり、これらの再訓練手続きに大量の時間および計算リソースをつぎ込む必要がある。

簡単な概要
本開示は、一般に対話システムを使用して自動的に質問に回答することに関する。より特定的には、マッチングベースの機械学習システムを使用して、対話システムにおいて音声入力に対応する値（たとえば、意図または回答）を識別する技術が記載されている。方法、システム、１つまたは複数のプロセッサによって実行可能なプログラム、コードまたは命令を格納する非一時的なコンピュータ読取可能記憶媒体などを含むさまざまな実施形態が本明細書に記載されている。

特定の実施形態において、対話システムは、入力された口頭発話を受信する。上記対話システムは、上記入力された口頭発話のベクトル表現を生成する。上記対話システムは、マッチ関数を使用して、複数のキー／値のペアの中の各キー／値のペアについてマッチスコアを生成し、各キー／値のペアについて生成された上記マッチスコアは、上記キー／値のペアのキーと上記入力された口頭発話の上記ベクトル表現とのマッチング度合いを示し、上記複数のキー／値のペアの中の各キーは、文の多次元ベクトル表現であり、上記マッチ関数は、異なる関連付けられた値を有する２つの異なるキーのマッチよりも、同一の関連付けられた値を有する２つの異なるキーのマッチについてより高いマッチスコアを生成するように構成される。上記対話システムは、上記複数のキー／値のペアについて生成された上記マッチスコアに基づいて、上記複数のキー／値のペアから、最も高いマッチスコアを有する特定のキー／値のペアを識別する。上記対話システムは、上記特定のキー／値のペアに関連付けられた値を上記入力された口頭発話についての値として出力する。

いくつかの局面において、上記対話システムはさらに、上記マッチ関数を、訓練データを使用して訓練し、上記訓練は、損失関数を最小化することによって、上記マッチ関数に関連付けられたパラメータのセットを調整することを備える。いくつかの局面において、上記対話システムはさらに、上記マッチ関数を、訓練データを使用して訓練し、上記訓練は、尤度関数を最大化することによって、上記マッチ関数に関連付けられたパラメータのセットを調整することを備える。

いくつかの局面において、上記複数のキー／値のペアの値は、意図である。いくつかの局面において、上記複数のキー／値のペアの上記キーは、質問の表現であり、上記複数のキー／値のペアの上記値は、それぞれの質問に対応する回答であり、上記特定のキー／値のペアに関連付けられた上記出力された値は、選択された回答に対応し、上記値は、上記入力された口頭発話に対する回答として出力される。

いくつかの局面において、上記入力された口頭発話は、第１の入力された口頭発話であり、上記値は、第１の値であり、上記マッチスコアは、第１のマッチスコアであり、上記方法はさらに、上記対話システムが、上記第１の入力された口頭発話についての上記第１の値を出力した後、追加のキー／値のペアを含むように上記複数のキー／値のペアを更新するステップと、上記対話システムが、第２の入力された口頭発話を受信するステップと、上記対話システムが、上記マッチ関数を使用して、上記更新された複数のキー／値のペアの中の各キー／値のペアについて第２のマッチスコアを生成するステップとを備え、上記マッチ関数は、上記第１のマッチスコアを生成するステップと上記第２のマッチスコアを生成するステップとの間で変化せず、上記方法はさらに、上記対話システムが、上記更新された複数のキー／値のペアから、最も高いマッチスコアを有する第２の特定のキー／値のペアを識別するステップと、上記対話システムが、上記第２の特定のキー／値のペアに関連付けられた第２の値を上記入力された口頭発話についての値として出力するステップとを備える。いくつかの局面において、上記マッチ関数は、コサイン類似度関数、双一次関数、単層ネットワーク、多層ネットワーク、または最近傍関数のうちの１つを含む。

いくつかの実施形態において、対話システムにおいて使用されるマッチ関数を訓練するための訓練方法が開示されている。上記方法は、訓練データを用いて上記マッチ関数を訓練するステップを備える。上記マッチ関数は、複数のキー／値のペアの中のキー／値のペアのキーについての、別のキー／値のペアの別のキーに対するマッチスコアを生成するように訓練される。上記生成されたマッチスコアは、上記２つのキーのマッチング度合いを示す。上記複数のキー／値のペアの中の各キーは、文の多次元ベクトル表現である。上記マッチ関数は、異なる関連付けられた値を有する２つの異なるキーのマッチよりも、同一の関連付けられた値を有する２つの異なるキーのマッチについてより高いマッチスコアを生成するように構成される。

いくつかの実施形態において、対話システムにおいて使用されるマッチ関数を訓練するための訓練装置が開示されている。上記装置は、訓練データを用いて上記マッチ関数を訓練するための手段を備える。上記マッチ関数は、複数のキー／値のペアの中のキー／値のペアのキーについての、別のキー／値のペアの別のキーに対するマッチスコアを生成するように訓練される。上記生成されたマッチスコアは、上記２つのキーのマッチング度合いを示す。上記複数のキー／値のペアの中の各キーは、文の多次元ベクトル表現である。上記マッチ関数は、異なる関連付けられた値を有する２つの異なるキーのマッチよりも、同一の関連付けられた値を有する２つの異なるキーのマッチについてより高いマッチスコアを生成するように構成される。

いくつかの実施形態において、非一時的なコンピュータ読取可能媒体が開示されている。上記非一時的なコンピュータ読取可能媒体は、１つまたは複数のプロセッサによって実行可能な複数の命令を格納している。上記複数の命令は、上記１つまたは複数のプロセッサによって実行されると上記１つまたは複数のプロセッサに処理を実行させる命令を備え、上記処理は、訓練データを用いてマッチ関数を訓練するステップを備える。上記マッチ関数は、複数のキー／値のペアの中のキー／値のペアのキーについての、別のキー／値のペアの別のキーに対するマッチスコアを生成するように訓練される。上記生成されたマッチスコアは、上記２つのキーのマッチング度合いを示す。上記複数のキー／値のペアの中の各キーは、文の多次元ベクトル表現である。上記マッチ関数は、異なる関連付けられた値を有する２つの異なるキーのマッチよりも、同一の関連付けられた値を有する２つの異なるキーのマッチについてより高いマッチスコアを生成するように構成される。

実施形態はさらに、本明細書に記載されている方法を実行するように構成されたシステム、コンピュータ読取可能メモリおよびプログラムを含む。

上記は、他の特徴および実施形態とともに、以下の明細書、特許請求の範囲および添付の図面を参照するとより明らかになるであろう。

特定の実施形態に係る、対話システムを示す簡略化されたブロック図である。いくつかの実施形態に係る、入力された口頭発話と値とをマッチングするための方法の簡略化されたフローチャートである。特定の実施形態に係る、セットアップフェーズ中に実行される例示的な処理を示す簡略化されたフローチャートである。さらなる実施形態に係る、セットアップフェーズ中に実行される処理の別の例を示す簡略化されたフローチャートである。一実施形態を実現するための分散型システムの簡略図である。特定の実施形態に係る、さまざまなサービスがクラウドサービスとして提供され得るクラウドベースのシステム環境の簡略化されたブロック図である。特定の実施形態を実現するために使用され得る例示的なコンピュータシステムを示す図である。

詳細な説明
以下の説明には、特定の実施形態を十分に理解できるようにするために、具体的な詳細が説明の目的で記載されている。しかし、これらの具体的な詳細がなくてもさまざまな実施形態を実施できるということは明らかであろう。図面および説明は、限定的であるよう意図されるものではない。本明細書において、「例示的な」という単語は、「例、例証または例示としての役割を果たす」ことを意味するように使用されている。「例示的である」として本明細書に記載されているいかなる実施形態または設計も、必ずしも他の実施形態または設計よりも好ましいまたは有利であると解釈されるものではない。

本開示は、マッチングベースの機械学習技術を使用して、対話システムにおいて音声入力についての値を識別するための技術に関する。この値は、意図または質問に対する回答に対応し得る。識別された値は、システムによってサポートされる機能（購入するおよび行き方を探し出すなど）に結び付けられ得る。マッチ関数を使用して値を求めるためのこれらの技術は、可能な値のセットから値が追加または除去された場合に訓練を必要としない。これにより、開発者は、意図または回答をチャットボットまたはデジタルアシスタントに追加して、訓練ステップを待つことなく新たな意図または回答を用いてシステムをすぐにテストすることができる。

大半の機械学習ベースの技術は、訓練ステップを必要とする。この訓練ステップは、計算集約的であり得るので、１日またはさらに多くの時間さえかかる可能性がある。非常に高速の訓練でさえ、数分かかる（たとえば、５～１５分が高速訓練であると考えられる）。その結果、従来の機械学習ベースの分類器を使用する既存のチャットボットシステムでは、システムを更新して（たとえば、チャットボットシステムに機能を追加して）、システムをタイムリーにデプロイすることは非常に困難である。なぜなら、更新に起因してシステムを再訓練する必要があるからである。

たとえば、ユーザクエリまたは発話が提供されると、従来は、従来の分類アルゴリズムに基づく分類器を使用してこのクエリの意図を判断していた。機械学習技術を使用して構築されたモデルは、分類器として使用され、分類を実行するために使用され、このモデルの構築には訓練ステップが必要である。これらの分類器モデルは、基礎となるデータ（たとえば、候補クラスのセット）が変化すると再訓練を必要とする。具体例として、従来の分類器アプローチ（教師あり分類など）では、新たな意図がチャットボットまたはデジタルアシスタントに追加されると、この新たな意図を処理できるようになるために機械学習訓練アルゴリズムを再実行しなければならない。したがって、新たな意図を訓練データに追加することと、ユーザ要求を意図にマッピングするための更新された手続きを有することとの間には、相当な時間遅延が存在する。この時間遅延により、開発者が新規の意図を有するチャットボットまたはデジタルアシスタントをインタラクティブに開発すること、または、開発者が新たな意図を追加することを含むチャットボットまたはデジタルアシスタント開発ツールキットのデモを行うことが困難になる。

本明細書に記載されている技術は、このような再訓練を必要としない。たとえば、開発者は、新たな意図をシステムに追加して、再訓練なしにそれらを試すことができる。意図が追加または除去された場合に再訓練を必要としない異なるタイプのアルゴリズムを使用して対話システムにおいてタスク（意図認識または質問回答など）を実行するための新たな技術が開示されている。本明細書に記載されているように、従来の分類アルゴリズムの代わりに、マッチ関数を使用して発話についての値を識別する。

マッチ関数の例
いくつかの実施形態において、候補意図のセットが変化するたびに再訓練される必要がない情報検索技術（たとえば、マッチ関数）を使用して、意図判断問題を解決する。したがって、意図判断問題は、従来の分類アルゴリズムベースの技術とは異なる技術を使用して解決される。すなわち、情報検索技術（マッチ関数）を使用してこの問題を解決する。代替的にまたはさらに、マッチ関数を使用して、対話システムにおいて他のタスク（質問回答など）を実行してもよい。

チャットボットシステム環境では、マッチ関数は学習によって取得される。次いで、このマッチ関数を使用して、ユーザ要求発話と、候補意図のセットの中の各意図について提供される候補発話とをマッチングする。意図判断の対象であるユーザ要求発話は、候補意図のセットに提供される候補発話のセットに対してマッチングされる。

いくつかの実施形態において、キー／値ペア検索技術が使用される。たとえば、チャットボットシステムのための質問および回答（ＱｎＡ）設定において、ユーザによって尋ねられる質問またはクエリは、複数のキーのセットからのキーとマッチングされて、当該マッチングされたキーに関連付けられた値が検索される。この値は、クエリに対する応答として出力されるか、またはクエリに対する応答を決定するのに使用され得る。

たとえば、マッチングベースの値算出は、以下のように実行され得る。
（１）クエリをユーザから受信する。

（２）このクエリをキー／値のペアのセットの中のキーと比較する。たとえば、これらのキーは、サンプル発話（文など）であり、これらの値は、対応する意図である。キー／値のペアは、チャットボットシステムが構築されている顧客によって構成され得る。クエリに対するベストマッチキーが識別される。

（３）次いで、このベストマッチキーに関連付けられた値を下流の処理に使用する。たとえば、この値は、クエリに対する応答として出力され得る。別の例として、この値は、クエリに対応する意図を識別し得て、次いで、この意図を使用して応答を生成し得る。

一般に、同一の値に関連付けられるキーは複数存在する。このようなシナリオでは、異なる値を指し示すキーよりも、同一の値にマッピングする２つのキーを優先的にマッチングするマッチ関数（または、モデル）が生成される。一例として、「私に新しい口座を作ってください」というキーが、「口座を解約してもいいですか？」よりも高いマッチスコアを有する「どのようにして口座を開設することができますか？」というキーに優先的にマッチするように、モデルが訓練される。なぜなら、両方のキーが同一の値（たとえば、OPEN_ACCOUNT意図）にマッチするのに対して、「口座を解約してもいいですか？」は異なる値（たとえば、CLOSE_ACCOUNT）意図）にマッピングするからである。同様に、「どのようにして口座を開設することができますか？」は、「口座を解約してもいいですか？」よりも高いマッチスコアを有する「私に新しい口座を作ってください」にマッチする。訓練プロセスは、同一の値を有するキーが異なる値を有するキーよりも優先的に互いにマッチするようにマッチ関数を学習するというものである。マッチ関数は、マッチング度合いを示すマッチスコアが、異なる値にマッピングするキーと比較して同一の値にマッピングするキーについて高くなるように訓練される。

特定の実施形態において、マッチ関数は、マッチスコアに基づいてマッチのランク付けされたリストを返す。チャットボットの文脈では、最も高いスコアを有するマッチが選択される。さまざまなタイプのマッチ関数が使用され得る。これらのマッチ関数は、パラメータを有し得て、学習プロセスの一部として、これらのパラメータは、同一の値を有するキーが異なる値を有するキーよりもよくマッチするように調整される。マッチ関数の中には、独自のパラメータを持たないものもある（たとえば、ドット積／コサイン類似度アルゴリズム）。

特定の実施形態において、マッチ関数の生成に使用される入力された訓練キー／値のペアに基づいて埋め込みを生成するためにニューラルネットワークが使用され得る。訓練プロセス中、ニューラルネットワークのパラメータおよびマッチ関数のパラメータは、同一の関連付けられた値を有するキーが異なる値を有するキーよりもよくマッチするように調整される。

いくつかの実施形態において、マッチ関数が、異なる値にマッピングするキーよりも高いマッチスコアを有する、同一の値にマッピングする全てのキーにマッチすることを確実にするために、同一の値に関連付けられたキーは、正のペアとして処理され、異なる値を有するキーは、負のペアとして処理される。マッチ関数は、正のペア（たとえば、同一の値にマッピングする２つのキー）が、対応する負のペア（たとえば、異なる値にマッピングする２つのキー）よりも高いマッチスコアを有することを確実にするように訓練される。正のペアのマッチスコアは、負のペアのマッチスコアよりも高くなるべきである。正のペアが複数存在し得て、２つの異なる正のペアは、異なるマッチスコアを有し得て、これらのスコアが負のペアのマッチスコアよりも高い限りにおいてそうである。訓練は、マッチ関数が、正のペアがマッチのリストの最上位にくるようなものであることを確実にし、正のペアがリストの最上位にある（すなわち、最も高いマッチスコアを有する）ことを確実にするようになされる。

マッチ関数は、さまざまな技術を使用して生成され得る。いくつかの実施形態において、マッチ関数は、ランキングアルゴリズムに基づいて求められ得る。いくつかの実施形態において、マッチ関数は、ランキングの代わりに確率に基づいて求められ得る。したがって、マッチ関数を生成するさまざまな方法がある。

マッチ関数の使用
次いで、上記のように学習されたマッチ関数を使用して、ユーザからのクエリについてマッチングキーを（複数のキー／値のペアを備えるデータセットから）探し出す。このクエリは、マッチ関数を使用して全てのキーに対してマッチングされ、ベストマッチキー（最も高いマッチスコアを有する）が識別される。マッチングキーは、マッチ関数を使用して識別される。次いで、ベストマッチキーに関連付けられた値が検索されて、下流の処理に使用される。たとえば、この値は、クエリの意図を表し得る。別の例として、この値は、クエリに対する応答として出力され得る。

クエリとキーとの完全一致が存在する場合、または特定の部分においてクエリがキーと異なっている場合でさえ、このモデルを使用してクエリについてのマッチングキーを探し出すことができる。

標準的な分類器との違い
標準的な分類技術では、データセットＤを使用して分類器を訓練する。標準的な分類器ベースのアプローチは、その訓練データセットＤの中に見られなかった値を返すことはないという特性を有する。一方、本開示に開示されている技術では、分類アルゴリズムではなくマッチ関数が使用される。このマッチ関数は、異なるデータセット上で訓練されており（または、マッチ関数は全く訓練されておらず）、実行時に使用されるデータセットは、マッチ関数を訓練するために使用されたデータセットと同一でなくてもよい。実行時に使用されるデータセットは、マッチ関数を訓練するために使用されたデータセットと同一でなくてもよいので、マッチ関数は、マッチ関数を学習するために使用された訓練データセットに存在していなかった値を返す可能性を有している。これにより、たとえば、再訓練プロセスを経る必要なく新たな意図を追加することができる。

例示的な対話システム
図１は、いくつかの実施形態に係る対話システム１００の一例を示す図である。対話システム１００は、音声またはスピーチ入力１０４（スピーチ発話とも称される）をユーザ１０２から受信するように構成される。次いで、対話システム１００は、これらの音声入力を解釈し得る。対話システム１００は、ユーザ１０２との対話を維持して、場合によってはこれらの音声入力の解釈に基づいて１つまたは複数のアクションを実行したり実行させたりし得る。対話システム１００は、適切な応答を準備して、音声またはスピーチ出力を使用してこれらの応答をユーザに出力し得る。対話システム１００は、多数のコンピュータ処理サイクルを使用して大量のデータを処理するために使用され得る専用のコンピューティングシステムである。図１に示される多数のデバイスは、例示の目的で設けられている。異なる数のデバイスが使用されてもよい。たとえば、図１における各デバイス、サーバおよびシステムは、単一のデバイスとして示されているが、その代わりに複数のデバイスが使用されてもよい。

特定の実施形態において、対話システムによって実行される処理は、コンポーネントまたはサブシステムのパイプラインによって実現され、これらのコンポーネントまたはサブシステムは、音声入力コンポーネント１０５と、ウェイクワード検出（ＷＤ）サブシステム１０６と、自動音声認識（ＡＳＲ）サブシステム１０８と、自然言語理解（ＮＬＵ）サブシステム１１０とを含み、ＮＬＵサブシステム１１０は、固有表現認識部（ＮＥＲ）サブシステム１１２と、意図マッチングサブシステム１１３と、セマンティックパーササブシステム１１４とを含み、これらのコンポーネントまたはサブシステムはさらに、マッチングデータベース１１５と、ＱｎＡマッチングサブシステム１１７を含み得る対話マネージャ（ＤＭ）サブシステム１１６と、自然言語生成部（ＮＬＧ）サブシステム１１８と、テキスト・トゥ・スピーチ（ＴＴＳ）サブシステム１２０と、音声出力コンポーネント１２４とを含む。上記のサブシステムは、ソフトウェアのみで（たとえば、１つまたは複数のプロセッサまたはコアによって実行可能なコード、プログラムまたは命令を使用して）実現されてもよく、ハードウェアのみで実現されてもよく、またはハードウェアとソフトウェアとの組み合わせで実現されてもよい。特定の実現例において、サブシステムのうちの１つまたは複数は、組み合わせて単一のサブシステムにされてもよい。さらにまたは代替的に、いくつかの実現例において、特定のサブシステムによって実行されるものとして本明細書に記載されている機能は、複数のサブシステムによって実行されてもよい。

音声入力コンポーネント１０５は、音声入力１０４を受信するように構成されたハードウェアおよびソフトウェアを含む。いくつかの例では、音声入力コンポーネント１０５は、対話システム１００の一部であり得る。いくつかの他の例では、音声入力コンポーネント１０５は、対話システム１００とは別であって、対話システム１００に通信可能に結合され得る。音声入力コンポーネント１０５は、たとえば、音声入力をデジタル化してウェイクワード検出サブシステム１０６に送信するように構成されたソフトウェアに結合されたマイクロフォンを含み得る。

ウェイクワード検出（ＷＤ）サブシステム１０６は、特別な音または単語または単語のセット（ウェイクワードと称される）に対応する入力についてオーディオ入力ストリームを聞いて監視するように構成される。対話システム１００のために構成されたウェイクワードを検出すると、ＷＤサブシステム１０６は、ＡＳＲサブシステム１０８を起動するように構成される。特定の実現例において、ユーザは、（たとえば、ウェイクワードを話してボタンを押すことによって）ＷＤサブシステム１０６を起動したり停止したりする能力を提供され得る。ＷＤサブシステム１０６は、起動されると（または、アクティブモードで動作しているとき）、オーディオ入力ストリームを連続的に受信して、このオーディオ入力ストリームを処理して、ウェイクワードに対応するオーディオまたは音声入力を識別するように構成される。ウェイクワードに対応するオーディオ入力が検出されると、ＷＤサブシステム１０６は、ＡＳＲサブシステム１０８を起動する。

上記のように、ＷＤサブシステム１０６は、ＡＳＲサブシステム１０８を起動する。音声対応システムのいくつかの実現例において、ウェイクワード以外の機構を使用してＡＳＲサブシステム１０８をトリガまたは起動してもよい。たとえば、いくつかの実現例において、デバイスのプッシュボタンを使用して、ウェイクワードを必要とすることなくＡＳＲサブシステム１０８の処理をトリガしてもよい。このような実現例では、ＷＤサブシステム１０６を設けなくてもよい。プッシュボタンが押されるまたは起動されると、ボタン起動後に受信された音声入力は、処理のためにＡＳＲサブシステム１０８に提供される。いくつかの実現例において、ＡＳＲサブシステム１０８は、処理対象の入力を受信したときに起動されてもよい。

ＡＳＲサブシステム１０８は、トリガまたはウェイクアップ信号（たとえば、ウェイクアップ信号は、音声入力の中にウェイクワードを検出するとＷＤサブシステム１０６によって送信され得る、ウェイクアップ信号は、ボタンの起動時に受信され得る、など）後に口頭の音声入力を受信および監視して、この音声入力をテキストに変換するように構成される。その処理の一部として、ＡＳＲサブシステム１０８は、スピーチ・トゥ・テキスト変換を実行する。口頭のスピーチまたは音声入力は、自然言語形式であり得て、ＡＳＲサブシステム１０８は、音声入力の言語で対応する自然言語テキストを生成するように構成される。次いで、ＡＳＲサブシステムによって生成されたテキストは、その後の処理のためにＮＬＵサブシステム１１０に送り込まれる。ＡＳＲサブシステム１０８によって受信された音声入力は、１つまたは複数の単語、句、節、文、質問などを含み得る。ＡＳＲサブシステム１０８は、各々の口頭の節についてテキスト発話を生成して、その後の処理のためにこれらのテキスト発話をＮＬＵサブシステム１１０に送り込むように構成される。

ＮＬＵサブシステム１１０は、ＡＳＲサブシステム１０８によって生成されたテキストを受信する。ＡＳＲサブシステム１０８からＮＬＵサブシステム１１０によって受信されたテキストは、口頭の単語、句、節などに対応するテキスト発話を含み得る。ＮＬＵサブシステム１１０は、各テキスト発話（または、一連のテキスト発話）をその対応する論理形式に変換する。

特定の実現例において、ＮＬＵサブシステム１１０は、固有表現認識部（ＮＥＲ）サブシステム１１２と、意図マッチングサブシステム１１３と、セマンティックパーサ（ＳＰ）サブシステム１１４とを含む。ＮＥＲサブシステム１１２は、テキスト発話を入力として受信して、このテキスト発話の中の固有表現を識別して、識別された固有表現に関連する情報でこのテキスト発話をタグ付けする。次いで、タグ付けされたテキスト発話は、ＳＰサブシステム１１４（各々のタグ付けされたテキスト発話について（または、一連のタグ付けされたテキスト発話について）論理形式を生成するように構成される）、および、意図マッチングサブシステム１１３（論理形式を生成する際にＳＰサブシステム１１４によって使用され得る、テキスト発話に対応する１つまたは複数の意図を識別するように構成される）に送り込まれる。

発話の意図は、発話の目的を識別する。意図の例としては、「Order_Pizza」および「Find_Directions」が挙げられる。各意図は、意図識別子または意図名を与えられる。たとえば、意図マッチングサブシステム１１３が認識するように訓練される意図は、「CheckBalance」、「TransferMoney」、「DepositCheck」などを含み得る。意図は、たとえば、実行されるよう要求されるアクションを識別し得る。意図は、入力された発話について対話システムが推論するように訓練されるカテゴリまたはクラスを表し得る。意図マッチングサブシステム１１３は、発話を受信すると、この発話の意図を判断し得て、推論された意図は、意図マッチングサブシステム１１３を訓練するために使用される予め規定された意図のセットから選択される。次いで、対話システムは、当該発話について推論された意図に基づいて、発話に応答して適切なアクションをとる。

規定された各意図について、設計者は、その意図に対応する、その意図を示す１つまたは複数の例示的な発話を提供し得る。これらの例示的な発話は、当該意図についてユーザが対話システムに入力し得る発話を表すよう意図されている。たとえば、CheckBalance意図では、例示的な発話は、「私の普通預金口座の残高はどれぐらいですか？」、「私の当座預金口座にはどれぐらい入っていますか？」、「私の口座にはどれぐらいの金額がありますか？」などを含み得る。したがって、典型的なユーザ発話のさまざまな置換が意図についての例示的な発話として指定され得る。

これらの意図および関連付けられた例示的な発話は、意図マッチングサブシステム１１３を訓練するための訓練データとして使用される。この訓練の結果、発話を入力としてこの発話について推論された意図を出力するように構成された予測モデル（たとえば、マッチ関数）が生成される。

いくつかの例において、入力された発話は、意図マッチングサブシステム１１３に提供され、意図マッチングサブシステム１１３は、訓練済みモデルを使用して、入力された発話の意図を予測または推論するように構成される。次いで、対話システムは、推論された意図に基づいて１つまたは複数のアクションをとり得る。本明細書に記載されているように、意図マッチングサブシステム１１３は、マッチ関数をテキスト発話に適用して、このテキスト発話に対応する意図を予測し得る。意図マッチングサブシステム１１３は、マッチングデータベース１１５と対話してマッチ関数を適用し得る。マッチングデータベース１１５は、サンプルテキスト発話の表現を値にマッピングする複数のキー／値のペアを格納し得る。いくつかの実施形態において、テキスト発話は、キー／値のペアの中のキーであり、意図は、キー／値のペアの中の値である。代替的にまたはさらに、キー／値のペアの中の値は、質問に対する回答に対応し得る。意図マッチングサブシステム１１３は、マッチ関数を適用して、マッチングデータベース１１５に格納された、テキスト発話にベストマッチするキーを識別し得る。次いで、意図マッチングサブシステム１１３は、対応する値を識別し、それによって、テキスト発話に対応する意図を予測し得る。

意図に加えて、テキスト発話について生成された論理形式は、識別された意図についてスロット（パラメータまたは引数とも称される）も識別し得る。たとえば、「マッシュルームとオリーブののったラージサイズのペパロニピザをオーダーしたい」という音声入力では、ＮＬＵサブシステム１１０は、ピザをオーダーするという意図を識別することができる。ＮＬＵサブシステムは、スロット（たとえば、pizza_size（「ラージサイズの」で充足される）およびpizza_toppings（「マッシュルームとオリーブ」で充足される））も識別して充足することができる。ＮＬＵサブシステムは、機械学習ベースの技術、ルール（ドメインに固有であり得る）、またはこれら２つの組み合わせを使用して、論理形式を生成し得る。次いで、ＮＬＵサブシステム１１０によって生成された論理形式は、その後の処理のためにＤＭサブシステム１１６に送り込まれる。

ＤＭサブシステム１１６は、ＮＬＵサブシステム１１０から受信された論理形式に基づいてユーザとの対話を管理するように構成される。対話管理の一部として、ＤＭサブシステム１１６は、対話状態を追跡して、１つもしくは複数のアクションもしくはタスクの実行を開始するかまたはそれ自体が１つもしくは複数のアクションもしくはタスクを実行して、どのようにユーザと対話するかを判断するように構成される。これらのアクションは、たとえば、１つまたは複数のデータベースに照会すること、実行結果を生成すること、および他のアクションを含み得る。たとえば、ＤＭサブシステム１１６は、ＮＬＵサブシステム１１０から受信された論理形式で識別された意図を解釈するように構成される。この解釈に基づいて、ＤＭサブシステム１１６は、ユーザによって提供された音声入力によって要求されているとして解釈される１つまたは複数のアクションを開始し得る。

特定の実施形態において、ＤＭサブシステム１１６は、現在および過去の音声入力に基づいて、ならびに、ＤＭサブシステム１１６のために構成されたルール（たとえば、対話ポリシ）のセットに基づいて、対話状態追跡を実行する。これらのルールは、さまざまな対話状態、状態間の遷移のための条件、特定の状態にあるときに実行されるアクションなどを指定し得る。これらのルールは、ドメインに固有であり得る。

いくつかの実施形態において、ＤＭサブシステム１１６は、質問および回答（ＱｎＡ）マッチングサブシステム１１７を使用して、クエリに対する回答を識別する。本明細書に記載されているように、ＱｎＡマッチングサブシステム１１７は、マッチ関数をテキスト発話に適用して、クエリに対応する回答を予測し得る。ＱｎＡマッチングサブシステム１１７は、マッチングデータベース１１５と対話してマッチ関数を適用し得る。上記のように、マッチングデータベース１１５は、複数のキー／値のペアを格納し得て、これら複数のキー／値のペアは、テキスト発話を、質問に対する回答に対応し得る値にマッピングする。ＱｎＡマッチングサブシステム１１７は、マッチ関数を適用して、マッチングデータベース１１５に格納された、テキスト発話（たとえば、クエリ（音声入力を介してユーザによって提起されたクエリなど））にベストマッチするキーを識別し得る。次いで、意図マッチングサブシステム１１３は、対応する値を識別し、それによって、テキスト発話に対応する回答を予測し得る。

また、ＤＭサブシステム１１６は、対話に関与しているユーザに返される応答も生成する。これらの応答は、ＤＭサブシステム１１６によって開始されたアクションおよびそれらの結果に基づき得る。ＤＭサブシステム１１６によって生成された応答は、その後の処理のためにＮＬＧサブシステム１１８に送り込まれる。

ＮＬＧサブシステム１１８は、ＤＭサブシステム１１６によって生成された応答に対応する自然言語テキストを生成するように構成される。これらのテキストは、ＴＴＳサブシステム１２０によってそれらを音声に変換することを可能にする形式で生成され得る。ＴＴＳサブシステム１２０は、これらのテキストをＮＬＧサブシステム１１８から受信して、それらの各々をスピーチまたは音声オーディオに変換し、このスピーチまたは音声オーディオは、次いで、対話システムのオーディオまたは音声出力コンポーネント１２４（たとえば、スピーカ、または外部スピーカに結合された通信チャネル）を介してユーザに出力され得る。いくつかの例では、音声出力コンポーネント１２４は、対話システム１００の一部であり得る。いくつかの他の例では、音声出力コンポーネント１２４は、対話システム１００とは別であって、対話システム１００に通信可能に結合され得る。

上記のように、協働して動作する対話システム１００のさまざまなサブシステムは、対話システム１００が音声入力１０４を受信して、音声出力１２２を使用して応答して、自然言語音声を使用してユーザとの対話を維持することを可能にする機能を提供する。上記のさまざまなサブシステムは、単一のコンピュータシステムを使用して実現されてもよく、または協働して動作する複数のコンピュータシステムを使用して実現されてもよい。たとえば、音声対応システムを実装するデバイスでは、上記の対話システム１００のサブシステムは、もっぱらユーザが対話するデバイスに実装され得る。いくつかの他の実現例では、対話システム１００のいくつかのコンポーネントまたはサブシステムは、ユーザが対話するデバイスに実装され得るのに対して、他のコンポーネントは、デバイスからリモートで、場合によっては他のコンピューティングデバイス、プラットフォームまたはサーバに実装され得る。

上記のように、特定の実施形態において、対話システム１００は、サブシステムのパイプラインを使用して実現され得る。いくつかの実施形態において、サブシステムのうちの１つまたは複数は、組み合わせて単一のサブシステムにされてもよい。特定の実施形態において、特定のサブシステムによって提供される機能は、複数のサブシステムによって提供されてもよい。また、特定のサブシステムは、複数のサブシステムを使用して実現されてもよい。

特定の実施形態において、機械学習技術を使用して、対話システム１００の１つまたは複数の機能を実行し得る。たとえば、教師あり機械学習技術（ニューラルネットワーク（たとえば、ディープニューラルネットワーク）を使用して実現されるものなど）を使用して、対話システム１００の１つまたは複数の機能を実行し得る。一例として、実行対象のＡＳＲ機能を実行するように訓練されたニューラルネットワークが提供され得て、このような訓練されたモデルがＡＳＲサブシステム１０８によってその処理に使用され得る。このようなニューラルネットワーク実現例は、音声入力を入力として、テキスト発話をＮＬＵサブシステムに出力し得る。機械学習ベースのモデルは、対話システム１００の他のサブシステムによっても使用され得る。

マッチ関数を使用して値を求める
図２は、いくつかの実施形態に係る、マッチ関数を使用して値を求めるための方法２００を示す簡略化されたフローチャートである。図２に示される処理は、それぞれのシステムの１つまたは複数の処理ユニット（たとえば、プロセッサ、コア）によって実行されるソフトウェア（たとえば、コード、命令、プログラム）で実現されてもよく、ハードウェアで実現されてもよく、またはそれらの組み合わせで実現されてもよい。ソフトウェアは、非一時的な記憶媒体（たとえば、メモリデバイス）に格納され得る。図２に示されて以下で説明される方法は、例示的であって非限定的であるよう意図されている。図２は、特定のシーケンスまたは順序で行われるさまざまな処理ステップを示しているが、これは、限定的であるよう意図されるものではない。特定の代替的な実施形態では、これらのステップは、何らかの異なる順序で実行されてもよく、またはいくつかのステップは、並行して実行されてもよい。特定の実施形態において、図２に示される処理は、図１に関して上記した対話システム１００によって実行され得る。

図２に示されるように、２０２において、入力された口頭発話を受信する。入力された口頭発話は、ユーザが話した単語から生じ得る。対話システムは、たとえば音声入力コンポーネント１０５を介して、入力された口頭発話をユーザから受信し得る。入力された口頭発話は、波形として受信され得る。入力された口頭発話は、特定の言語であって、自然言語クエリ形式であり得る。入力された口頭発話は、ユーザが対話システムに回答させたい質問を指定したり、ユーザが対話システムに開始させたい１つまたは複数のアクション（たとえば、「ミディアムサイズのペパロニピザにします」）を指定したりする、などであり得る。入力された口頭発話は、テキスト発話を生成するようにＡＳＲサブシステム１０８によって処理され得て、このテキスト発話は、その後の処理のためにＮＬＵサブシステム１１０に渡される。

特定の実施形態において、（２０２のように）音声入力を受信する代わりに、入力は、たとえばユーザが対話システムとのチャット中にテキストをタイプする場合にはテキスト形式で受信され得る。本開示に記載されている技術は、口頭のスピーチまたはテキスト入力またはそれらの組み合わせの形式で入力を受信するシステムとともに使用することができる。

２０４において、対話システムは、入力された口頭発話のベクトル表現を生成する。対話システムは、２０２において生成されたテキスト発話を使用して、入力された口頭発話の文エンコーディングを生成し得る。対話システムは、処理のために、入力された口頭発話の符号化されたバージョン（たとえば、入力された口頭発話の中の各単語について別々の埋め込みを含む単語埋め込みのセットであって、各埋め込みは、対応する単語の特徴についての値を含む多次元特徴ベクトルである）を生成し得る。

２０６において、対話システムは、マッチ関数を使用して、複数のキー／値のペアの中の各キー／値のペアについてマッチスコアを生成する。対話システムは、マッチ関数をそれぞれのキー／値のペアの中の複数のキーおよび２０４において生成された入力された口頭発話のベクトル表現に適用することによって、複数のマッチスコアを計算し得る。キー／値のペアについて生成されたマッチスコアは、キー／値のペアのキーと入力された口頭発話のベクトル表現とのマッチング度合いを示す。

対話システムは、複数のキー／値のペア１２５をマッチングデータベース１１５に格納し得る。各キー／値のペアは、キーを含み、このキーは、文字列またはその表現であり得る。これらのキーは、ユーザクエリ（「お店への行き方が必要です」または「どのようにしてケーブル加入を変更しますか？」など）に対応し得る。

いくつかの実施形態において、複数のキー／値のペアの中の各キーは、文、句、単語または単語のセットの多次元ベクトル表現である。これらのキーは、密ベクトルとして（たとえば、文埋め込みとして）符号化され得るため、各々はｋ_ｉ∈Ｒ^ｄであり、式中、ｄは埋め込みの次元である。埋め込みは、単語および文を固定長ベクトルに符号化する。たとえば、埋め込みは、文埋め込み（トランスフォーマを活用した双方向エンコーダ表現（ＢＥＲＴ）またはユニバーサルセンテンスエンコーダ埋め込みなど）であり得る。埋め込みは、機械学習技術を使用して（たとえば、ニューラルネットワークを使用して）訓練され得る。埋め込みは、音声入力タイプを一般化するのに使用され得る。したがって、対話システムは、複数のサンプル発話を表す埋め込みの訓練済みセットを生成し得て、これらの埋め込みは、マッチスコアの計算に使用され得る。いくつかの実施形態において、ユニバーサル埋め込みが実行され得る。ユニバーサル埋め込みの使用は、入力を受信する言語にかかわらず入力に基づいて値を識別することを容易にすることができる。

いくつかの実施形態において、キーは、サンプル発話（たとえば、質問または発言）単独よりも多くの情報を組み込むことができる。たとえば、キーは、関連付けられた回答または値から抽出される情報を含み得る（たとえば、キーは、質問埋め込みと回答埋め込みとの線形組み合わせであり得る）。具体例として、キーに対応する値は、ウェブサイトへのリンクである。このキーは、ウェブサイトへのリンクから導き出された情報（たとえば、当該ウェブサイト上の単語）を含み得る。これを使用してマッチングプロセスを容易にすることができる。たとえば、「口座を解約する」というキーでは、「解約する（close）」の別の語は「閉じる（shut）」である。ウェブサイトは、「口座を閉じる手順」という句を含み得る。値から導き出されたこのような情報を含むことにより、より多くの種類の音声入力にわたって意図を見分けることを容易にすることができる。

各キー／値のペアについて、キーは、それぞれの値にマッピングされ得て、このそれぞれの値は、意図、質問に対する回答、または他の好適な値であり得る。これらの値は、ｖ_ｉ∈Ｖとして表すことができ、式中、Ｖは値のセットである。これらの値は、埋め込まれる場合もあれば、埋め込まれない場合もある。複数のキー／値のペアの各キーは、マッチングデータベース１１５における対応する値に関連付けて格納され得る。たとえば、「お店への行き方が必要です」という発話のベクトル表現は、意図「FIND-DIRECTIONS」にマッピングされる。代替的にまたはさらに、キーおよび値は、質問および回答に対応し得て、キーは、質問に対応し、値は、質問に対する回答を提供する。一例として、表１は、キー／値のペアのセットを示す。

３つのキーが値に関連付けて表に格納されている。表１に示される例において、キーは、クエリ（たとえば、「どのようにして口座を開設することができますか？」）である。値は、それぞれのクエリとペアにされた回答に対応する。表１に示される例において、値は、口座の開設の仕方または解約の仕方をユーザに説明するために使用され得るＵＲＬである。これらのキーおよび値は、マッチングデータベース１１５にＤ＝（（ｋ_１，ｖ_１），...，（ｋ_ｎ，ｖ_ｎ））として格納され得て、式中、ｋ_ｉは、ｉ番目の音声入力タイプまたはキーであり、ｖ_ｉは、対応する値である。

いくつかの実施形態において、値は意図である。この場合、各キーは、サンプル発話を表し得て、各々の対応する値は、当該サンプル発話の意図である。たとえば、キー／値のペアは、キー「１枚のラージサイズのペパロニ」および対応する値「Order_Pizza」で構成され得る。代替的にまたはさらに、複数のキー／値のペアのキーは、質問の表現であり、複数のキー／値のペアの値は、それぞれの質問に対応する回答である。たとえば、キー／値のペアは、キー「ラージサイズのペパロニピザはいくらですか？」と、対応する値「１９．９９ドルです」とを含み得る。

対話システムは、マッチ関数を複数のサンプル発話および２０２において受信された音声入力に適用することによってマッチスコアを計算する。マッチ関数は、２０２において受信された入力された口頭発話とともに、各々の格納されたキーに適用され得る。マッチ関数は、受信された入力された口頭発話が、格納されたサンプル発話にどれぐらいマッチするかを返し得る。マッチ関数は、パラメータθに関連付けられ得て、パラメータθは、情報検索機械学習方法（ランキングアルゴリズムまたは確率的アルゴリズムなど）を使用して学習または微調整され得る。マッチ関数は、異なる関連付けられた値を有する２つの異なるキーのマッチよりも、同一の関連付けられた値を有する２つの異なるキーのマッチについてより高いマッチスコアを生成するように構成され得る。

いくつかの実施形態において、マッチ関数Ｍａｔｃｈ（）は、クエリｑおよびキーｋを実数値マッチスコアＭａｔｃｈ（ｑ，ｋ）にマッピングする。クエリは、２０２における入力された口頭発話に対応する。具体例として、格納されたキー／値のペアのコーパスは、データセットＤである。データセットＤ＝（（ｋ_１，ｖ_１），...，（ｋ_ｎ，ｖ_ｎ））は、ｎ個のキー／値のペア（ｋ_ｉ，ｖ_ｉ）で構成され、ｋ_ｉはキーであり、ｖ_ｉは関連付けられた値である。音声入力ｑが提供されると、システムは、ベストマッチキーを有するＤにおけるキー／値のペアを返す。関数ＢｅｓｔＭａｔｃｈ（）は、ベストマッチキー／値のペアを返す。

ここで、ｑは音声入力の文エンコーディングであり、θはマッチ関数のパラメータのベクトルである。図３に関して以下でさらに説明するように、マッチ関数はさらに、正および負のキーペアの訓練トリプルＴに基づく。例示的なマッチ関数実現例は、以下を含む。

マッチ関数の中には、逆距離（たとえば、ドット積スコア）を返すものもあり、この場合、マッチング問題は、キーｋが音声入力／クエリｑに最も近いＤにおけるペアを探し出すことであるとみなされる。ドット積／コサイン実現例は、コサイン類似度関数を使用する。コサイン類似度は、２つのベクトル間の角度のコサインに基づいてそれらの類似の程度を提供する。（たとえば、ジャウェイ・ハン等による「データが分かるようになる（Getting to Know Your Data）」データマイニング（第３版）（２０１２）を参照されたい。）音声入力タイプの文エンコーディングを生成する文埋め込みモデルを微調整するのに訓練データが依然として有用であり得るにもかかわらず、ドット積／コサインマッチ関数は、訓練データを必要とするパラメータをもたない。

表２に示される残りのマッチ関数は、パラメータθ（３番目の列）を有しており、これらのパラメータθは、図３および図４に関して以下で説明するように、訓練データから推定され得る。双一次実現例は、たとえばウェイ・ウーおよびジェンドン・ルー・ハン・リによる「クエリおよびドキュメントをマッチングするための双一次モデルの学習（Learning Bilinear Model for Matching Queries and Documents）」機械学習研究ジャーナル１４，２５１９－２５４８（２０１３））に記載されているような双一次関数を使用する。一層ネットワークは、単層ニューラルネットワークである。多層ネットワークは、多層ニューラルネットワークである。表２に示される多層ネットワーク実現例のための例示的なマッチ関数は、正規化線形ユニット活性化関数（ＲｅＬＵ）を含む。しかし、ＲｅＬＵ（）の代わりに他の非線形性（ｔａｎｈ（）など）が使用されてもよい。

代替的にまたはさらに、確率的モデル（たとえば、最近傍関数）が実行されてもよい。確率的モデルは、パーティション関数を計算することを含む。パーティション関数を介した逆伝播は、訓練データセットが大きい場合には困難である場合がある。誤り駆動型近似は、必要なメモリ使用量が比較的少ないはずである。例示的な確率的モデルは、以下の通りである。

Ｄ_ｖは、値ｖを有するＤにおけるペアのサブセットである。式［２］および［３］によって示される確率的モデルは、キーｋにわたって周辺化（marginalize）してマッチスコアをポテンシャルとして使用するＤにわたる指数関数的モデルである。

マッチ関数は、パラメータθを生成するように初期時に訓練され得る。この訓練は、図３および図４に関して以下で説明するように、ニューラルネットワークを使用してデータセットＤについてθを最適化することを含み得る。対話システムは、最初に、訓練データを使用してマッチ関数を訓練し得て、この訓練は、図３に関して説明するように、損失関数を最小化することによって、マッチ関数に関連付けられたパラメータのセットを調整することを備える。代替的にまたはさらに、この訓練は、図４に関して説明するように、尤度関数を最大化することによって、マッチ関数に関連付けられたパラメータのセットを調整することを備え得る。

したがって、対話システムは、２０２において入力された口頭発話を受信する前に、サンプルキーおよび値のペアのセットに基づいてマッチ関数のパラメータのセットを求め得る。訓練に使用されるサンプルキーおよび値のペアは、格納されてマッチスコアの計算に使用されるものと同一であり得る。代替的に、訓練に使用されるサンプルキーおよび値のペアは、格納されてマッチスコアの計算に使用されるものとは異なっていてもよい。したがって、キーおよび値は、初期訓練後に追加または除去され得る。

マッチ関数を使用して、対話システムは、入力された口頭発話のベクトル表現とそれぞれの格納されたキーとの間の類似度に対応するさまざまなマッチスコアを生成し得る。たとえば、「モントリオールへはどう行けばいいですか？」という音声入力は、「モントリオールへの行き方を探し出してください」とは１０というマッチスコアを有し得て、「モントリオールとは？」とは４というマッチスコアを有し得る。

２０８において、対話システムは、２０６において生成されたマッチスコアに基づいて、最も高いマッチスコアを有する特定のキー／値のペアを識別する。対話システムは、２０６において生成されたマッチスコア同士を比較して、最も高いマッチスコアを有するキー／値のペアを識別し得る。たとえば、「ハンバーガーはいくらですか？」という発話は、「ハムサンドイッチはいくらですか」というキーと７０％のマッチスコアを有し、「ヴェジーバーガーはいくらですか」というキーと８０％のマッチスコアを有し、「ハンバーガーはいくらですか？」というキーと１００％のマッチスコアを有する。したがって、「ハンバーガーはいくらですか？」と１００％のマッチスコアを有するマッチングキー／値のペアが識別される。代替的に、いくつかの実施形態において、対話システムは、マッチングのレベルに反比例するマッチスコアを割り当て得て、この場合、最も低いマッチスコアを有するキー／値のペアが選択され得る。

２１０において、対話システムは、特定のキー／値のペアに関連付けられた値を、入力された口頭発話の値として出力する。いくつかの実施形態において、対話システムは、３０８において識別されたキー／値のペアから対応する値を選択し、選択された値に対応する応答を生成して提供する。

対話システムは、２０８において選択された最も高いマッチスコアを有するキー／値のペアを横断して、その中の値を識別し得る。この値は、意図、回答、または対話処理を実行するために使用される他の情報に対応し得る。具体例として、意図マッチングサブシステムは、「モントリオールへの行き方を探し出してください」というキーが、入力された発話と最も高いマッチを有すると判断した後に、「モントリオールへの行き方を探し出してください」というキーにマッピングされた意図を識別する。識別された意図は、DIRECTIONS_TOであり、これは、最も高いマッチスコアを有する格納されたキーに関連付けて格納される。別の例として、ＱｎＡマッチングサブシステムは、質問に対する回答、または、最も高いマッチングキーに関連付けて格納された回答を検索するために使用され得るＵＲＬを識別し得る（たとえば、ＱｎＡマッチングサブシステムは、最も近いコーヒーショップの住所を、「最も近いコーヒーショップはどこですか？」という最も高いスコアのキーにマッピングされた値として識別し得る）。この場合、特定のキー／値のペアに関連付けられた出力値は、選択された回答に対応し得て、値は、入力された口頭発話に対する回答として出力される。

対話システムは、値をユーザおよび／または対話システムの別のサブシステムに出力し得る。後者の一例として、意図マッチングサブシステム１１３は、一部には識別された意図に基づいて論理形式を生成するために、識別された意図をＳＰサブシステム１１４に出力する。場合によっては、対話処理パイプラインは、ユーザに対する出力を生成し続ける。ユーザに対する出力は、識別された値および／またはその派生物を音声出力および／または視覚的な合図として含み得る。

いくつかの実施形態において、対話システムは、選択された値を含む、または選択された値から導き出される応答を生成する。たとえば、値は、意図「FIND_STORE」である。対話システムは、ＧＰＳまたはフォローアップ質問を使用して、ユーザの場所を識別し、識別された場所に最も近い店を識別し得る。次いで、対話システムは、（たとえば、単語を追加して完全な文（「ジェイズ・パーティー・サプライはメインストリート３２１５にあります。行き方を知りたいですか？」など）を形成することによって）識別された店をユーザフレンドリな応答としてパッケージングし得る。いくつかの実施形態において、選択された値は、応答または応答の一部を含む情報を含み得る（たとえば、ＱｎＡマッチングサブシステムは、ＵＲＬ（上記の表１に示されるものなど）を識別し得る）。

対話システムは、（たとえば、対話マネージャサブシステム１１６および自然言語生成部サブシステム１１８によって生成されたテキスト応答をテキスト・トゥ・スピーチサブシステム１２０を介して音声出力に変換することによって）音声出力を介して応答を出力として（たとえば、２０２において入力された口頭発話を提供したユーザに）提供し得る。代替的にまたはさらに、対話システムは、ユーザデバイスのディスプレイコンポーネント上にテキスト応答を表示させることによって応答を提供してもよい。

その後、値は、格納されたキー／値マッピングに追加されたり、格納されたキー／値マッピングから除去されたりし得る。対話システムは、変更された値を処理するようにモデルを再訓練することなく、第２の入力された口頭発話を処理し得る。たとえば、２０２において受信された入力された口頭発話は、第１の入力された口頭発話であり、２１０において出力された値は、第１の値である。対話システムは、第１の値を求めた後、追加のキーおよび／または値を含むようにキー／値のペアのセットを更新する。たとえば、顧客は、コールセンターチャットボットが処理することを可能にしたい追加の質問および回答のセットを提供し得る。対話システムのデータベースは、（たとえば、追加のキー／値のペアをデータセットに格納することによって）更新されたキー／値のペアのセットを反映するように更新される。具体例として、対話システムは、「...を返却したい」というサンプル発話および意図「RETURN_ITEM」を含むキー／値のペア、「どうやって何かを返却するのですか？」というサンプル発話を意図「RETURN_ITEM」とともに含むキー／値のペアなどを、新たな値「RETURN_ITEM」に対応するさまざまなキーを含む複数のキー／値のペアとともに追加し得る。次いで、対話システムは、第２の入力された口頭発話を受信する。第２の入力された口頭発話は、最近追加された値に対応し得る（たとえば、第２の音声入力は、「シャツを返却したい」であり、これは、意図「RETURN_ITEM」にマッピングされたキーにマッチする）。対話システムは、マッチ関数（たとえば、２０４～２０８に関して上記した）を使用して、第２の入力された口頭発話に対応する第２の値を求める。対話システムは、追加のキー／値のペアを追加することと第２の入力された口頭発話を処理することとの間で再訓練されない（たとえば、マッチ関数のパラメータのセットは、第１の値を求めることと第２の値を求めることとの間で変化しない）。別の例として、値は、可能な値のセットからその場で除去されることができる。意図をその場で追加したり除去したりする１つの例示的な適用例は、各ユーザが自身の個人別の意図のセットに関連付けられることを可能にするというものである。

図３は、特定の実施形態に係る、セットアップフェーズ中に実行される処理を示す簡略化されたフローチャート３００である。図３に示される処理は、それぞれのシステムの１つまたは複数の処理ユニット（たとえば、プロセッサ、コア）によって実行されるソフトウェア（たとえば、コード、命令、プログラム）で実現されてもよく、ハードウェアで実現されてもよく、またはそれらの組み合わせで実現されてもよい。ソフトウェアは、非一時的な記憶媒体（たとえば、メモリデバイス）に格納され得る。図３に示されて以下で説明される方法は、例示的であって非限定的であるよう意図されている。図３は、特定のシーケンスまたは順序で行われるさまざまな処理ステップを示しているが、これは、限定的であるよう意図されるものではない。特定の代替的な実施形態では、これらのステップは、何らかの異なる順序で実行されてもよく、またはいくつかのステップは、並行して実行されてもよい。特定の実施形態において、図３に示される処理は、上記のように対話システムによって実行され得る。

図３に示される処理は、マッチ関数のパラメータを構成するための訓練ステップにおいて使用され得る。図２に関して上記したように、対話システムは、２０２において入力された口頭発話を受信する前に、マッチ関数のパラメータのセットをもたらす訓練プロセスを実行し得る。いくつかの実施形態において、これは、キー／値のペアのセットの損失関数を最小化することを含み、これは、図３に示される処理を使用して実行され得る。

図３に示されるように、３０２において、対話システムは訓練データを取得する。対話システムは、さまざまなソースから（システムによって受信された以前の音声入力から、顧客から、および／または、ウェブスクレイピングによって）訓練データを取得し得る。たとえば、訓練データは、対話システムが構成されている組織によって提供される音声入力タイプおよび対応する意図の何千ものペアで構成され得る。

３０４において、対話システムは、正および負のキーペアに基づいて損失関数を識別する。正のキーペア（ｋ，ｋ′）は、同一の値にマッチする２つのキーである。たとえば、表１に上記した例を使用して、「どのようにして口座を開設することができますか？」および「私に新しい口座を作ってください」というキーは、http://xxx.com/openという同一の値にマッチする。負のキーペア（ｋ，ｋ″）は、異なる値にマッチする２つのキーである。たとえば、再び表１を参照して、「どのようにして口座を開設することができますか？」および「口座を解約してもいいですか？」というキーは、異なる値にマッチする。

いくつかの実施形態において、値の多くは、データセットＤにおける複数のキーとともに現れる。すなわち、多くの値ｖについて、複数のキーｋ，ｋ′が存在しており、ｋ≠ｋ′であり、（ｋ，ｖ）∈Ｄおよび（ｋ′，ｖ）∈Ｄである。複数のキーを有する値が多くなればなるほど、入手可能なデータが多くなり、最終結果が正確になる。たとえば、上記の表１を参照して、Ｄにおいて、「どのようにして口座を開設することができますか？」および「私に新しい口座を作ってください」というキーは両方とも、「http://xxx.com/open」という同一の値に関連付けられる。これら２つのキーは、この手続きでは正の訓練ペアとしての役割を果たすであろう。

上記は、データセットＤのための正の訓練ペアのセットである。正の訓練ペアＰは、ランダムに選択された負のキーｋ″を各ペアに追加することによって訓練トリプルＴに拡張され得て、負のキーｋ″は、他のキーに対する異なる値に関連付けられる。

代替的に、訓練トリプルは、別のアプローチによって選択されてもよい。訓練データＤ＝（（ｋ_１，ｖ_１），...，（ｋ_ｎ，ｖ_ｎ））が、トリプルのセットＴ＝｛（ｋ，ｋ′，ｋ″）｝を規定したキー／値のペアで構成されるとすると、以下のようになる。

すなわち、ＢｅｓｔＫｅｙ（ｋ，Ｄ）は、キーｋにベストマッチするデータＤにおけるキーｋ′を返す。Ｄ_ｖ＝｛（ｋ′，ｖ′）：（ｋ′，ｖ′）∈Ｄ，ｖ＝ｖ′｝が、値ｖを有するペアだけを含むＤのサブセットであるとする。そうすると、各（ｋ，ｖ）∈Ｄについて、Ｔは以下のようにトリプルを含む。

すなわち、訓練データにおける各キー／値のペア（ｋ，ｖ）について、訓練トリプルを形成し、正のペアは、（ｋ，ｋ′）で構成され、ｋ′＝ＢｅｓｔＫｅｙ（ｋ，Ｄ_ｖ＼｛（ｋ，ｖ）｝）は、値ｖを有する他のペアのＤのサブセット内のｋについてのＢｅｓｔＭａｔｃｈであり、負のペアは、（ｋ，ｋ″）で構成され、ｋ″＝ＢｅｓｔＫｅｙ（ｋ，Ｄ＼｛（ｋ，ｖ）｝）は、Ｄにおける全ての他のペア内のｋについてのＢｅｓｔＭａｔｃｈである。

この手続きは、ＤにおけるベストマッチキーをＤ_ｖ内のベストマッチキーと同じにしようとする。いくつかの実施形態において、この訓練トリプルを選択する方法は、全ての可能なトリプルを生成する方法と組み合わせられる。これを行うための１つの方法は、一部分（たとえば、訓練ミニバッチの５０％）については一方の方法を使用し、一部分（たとえば、訓練ミニバッチの５０％）については他方の方法を使用するというものである。この訓練トリプルを選択する方法は、図４に関して以下で説明するように、確率的モデルの訓練に特に適している。

対話システムは、正および負のキーペアを確立すると、損失関数Ｌｏｓｓ（）を確立し得る。損失関数は、誤った推測にペナルティを科し、一般的には以下のように表すことができる。

式中、θは、確立されるマッチ関数パラメータのベクトルである。いくつかの実施形態において、θに文埋め込み関数パラメータが追加される。θに文埋め込み関数パラメータを追加することによって、それらをマッチ関数パラメータとともに最適化することもできる。いくつかの実施形態において、埋め込み関数のパラメータは、（たとえば、微調整／転移学習方法を使用して）大きな外部コーパスから学習された値で初期化される。

この文脈において好適な例示的な損失関数は、マージンベースの損失目標を含む。

式中、ｃ′はマージン、すなわち正定数ハイパーパラメータである。別の例は、シグモイド関数σ（）を使用するマージンベースの目標の平滑化された確率的バージョンである。

３０６において、対話システムは、損失関数を最小化して、マッチングに使用されるパラメータを識別し、その結果、異なる関連付けられた値を有する２つの異なるキーのマッチよりも、同一の関連付けられた値を有する２つの異なるキーのマッチに対してより高いマッチスコアが割り当てられる。

いくつかの実施形態において、対話システムは、損失関数を使用してパラメータθを最適化する。

対話システムは、θに対して損失関数を最小化し得る。これは、訓練手続きであり、目標は、訓練トリプルＴにおける各トリプル（ｋ，ｋ′，ｋ″）について、正のペア（ｋ，ｋ′）が負のペア（ｋ，ｋ″）よりも高いマッチスコアを有するようにパラメータθを調整することである。これは、以下を確実にすることと等価である。

代替的にまたはさらに、以下を確実にするように計算が実行され得る。

これは、正および負のペアのＭａｔｃｈ（）スコア間の「ギャップ」を確実にすることによってパラメータθをよりロバストにすることができる。これらの損失関数は、ミニバッチ確率的勾配降下法（ＳＧＤ）などの方法を使用して最適化され得る。より複雑なＭａｔｃｈ（）関数では正則化技術（ドロップアウトなど）が有用であろう。

いくつかの実施形態において、パラメータを微調整するために複数の反復が使用され得る。マッチ関数における埋め込みは、複数の反復にわたって再計算され得る。たとえば、埋め込みを微調整するために、各訓練トリプル（ｋ，ｋ′，ｋ″）における各キーについての埋め込みは、各反復において再計算され得る。場合によっては、たとえば１０個または１００個のミニバッチごとにそれらの埋め込みを更新する、そうでなければ全く更新しないことが十分であろう。

図２に関して上記したように、対話システムは、３０６において識別されたパラメータθを、値の識別に使用されるマッチ関数に組み込み得る。

図４は、特定のさらなる実施形態に係る、セットアップフェーズ中に実行される処理を示す簡略化されたフローチャート４００である。図４に示される処理は、それぞれのシステムの１つまたは複数の処理ユニット（たとえば、プロセッサ、コア）によって実行されるソフトウェア（たとえば、コード、命令、プログラム）で実現されてもよく、ハードウェアで実現されてもよく、またはそれらの組み合わせで実現されてもよい。ソフトウェアは、非一時的な記憶媒体（たとえば、メモリデバイス）に格納され得る。図４に示されて以下で説明される方法は、例示的であって非限定的であるよう意図されている。図４は、特定のシーケンスまたは順序で行われるさまざまな処理ステップを示しているが、これは、限定的であるよう意図されるものではない。特定の代替的な実施形態では、これらのステップは、何らかの異なる順序で実行されてもよく、またはいくつかのステップは、並行して実行されてもよい。特定の実施形態において、図４に示される処理は、上記のように対話システムによって実行され得る。

図４は、（たとえば、上記の式２を使用した）確率的モデルに適しているであろう訓練方法を示す。図２に関して上記したように、対話システムは、２０２において入力された口頭発話を受信する前に、マッチ関数のパラメータのセットをもたらす訓練プロセスを実行し得る。いくつかの実施形態において、これは、サンプル発話および意図のペアのセットの尤度関数を最大化して、マッチ関数のパラメータを最適化することを含み、これは、図４に示される処理を使用して実行され得る。

４０２において、対話システムは、訓練データを取得する。図３のステップ３０２に関して上記したように、対話システムは、実質的に訓練データを取得し得る。

４０４において、対話システムは、正および負のキーペアに基づいて尤度関数を識別する。尤度関数は、キーのセットが正のキーペアに対応する見込みとともに増加する値を出力する関数である。具体例として、対数尤度への交差検証スタイルの一個抜き近似が使用され得て、これは、Ｄを、可能なキー／値のペアのセットとして、およびθについての訓練データとして使用する。以下の対数尤度近似は、マッチ関数が対称である、すなわちＭａｔｃｈ（ｋ，ｋ′）＝Ｍａｔｃｈ（ｋ′，ｋ）であると仮定する。尤度関数は、以下のように近似され得る。

対数尤度は、Ｄにおける全てのキー／値のペアにわたって合計する。値ｖがキーｋに関連付けられる確率を計算する前に、当該キー／値のペア（ｋ，ｖ）はＤから除去され得て、これは、ｋが値ｖを有するＤにおける他のキー／値のペアにマッチする確率を推定するために行われる。

（指数関数で生じ得る）オーバーフローおよびアンダーフローを回避するために、対数尤度を計算する際に以下の式が使用され得る。

尤度関数の別の例は、以下の誤り駆動型学習近似である。

この近似は、Ｓにおける値のうちの最大値がＳにおける全ての他の値の合計よりもはるかに大きい場合にかなり正確である。これが対数尤度におけるマッチ関数値に当てはまる場合、以下のように対数尤度を近似することができる。

誤り駆動型学習近似にはさらなる最適化機会がある。たとえば、Ａの計算に関与する埋め込みは、不定期に（たとえば、１０個のミニバッチごとに一度、または反復ごとに一度）更新され得て、これは、Ａの計算を非常に高速にするはずである。実際の訓練更新は、Ｃの計算のみを必要とする。各訓練ペア（ｋ，ｖ）∈ＤとＣの計算において識別された２つのデータペアとを比較することによって、Ｃを比較的簡単に計算することができる。

４０６において、対話システムは、尤度関数を最大化して、マッチ関数のパラメータθを最適化し、その結果、異なる関連付けられた値を有する２つの異なるキーのマッチよりも、同一の関連付けられた値を有する２つの異なるキーのマッチに対してより高いマッチスコアが割り当てられる。ｌ（θ）は、確率的勾配降下法（ＳＧＤ）などの技術を使用して最大化され得る。

図２に関して上記したように、対話システムは、４０６において識別されたパラメータを、値の識別に使用されるマッチ関数に組み込み得る。

本明細書に記載されている技術は、複数の利点を有する。キーｋは、分類器のようにはＭａｔｃｈ（）関数に「組み込まれて」いない（その代わりに、パラメータとしてＭａｔｃｈ（）関数に提供される）ので、Ｍａｔｃｈ（）関数は、Ｍａｔｃｈ（）関数のパラメータθを推定するために使用される訓練データの中にキーｋが登場しなくても、音声入力ｑがキーｋにどれぐらいマッチするかを評価することができる。これは、パラメータθを（再）訓練することなくキー（例示的な文）および値（たとえば、意図）のセットＤを変更することができることを意味する。さらに、訓練データは、非熟練者が生成するのが容易であり（すなわち、同じ回答を返すべきである複数の質問であり）、既存のデータセットの中に既に存在し得る。

これらの技術の有利な適用例の具体例として、チャットボットおよびデジタルアシスタント開発ツールを提供することができ、このツールでは、開発者は、（たとえば、クラウドサービスとして本明細書に記載されている値認識技術を使用して）セットＤからペアを追加または除去し（新たな値を有するペアを追加する、または、１つまたは複数の値について全てのペアを除去することを含む）、次いで、新たな更新済みセットＤを有するチャットボットまたはデジタルアシスタントをすぐにテストおよび／またはデプロイすることができる。システムが新たなパラメータθのセットを訓練するのを待つ必要がない。たとえば、チャットボットまたはデジタルアシスタント開発者は、ペア（「明日の天気はどうなりますか？」、FIND_WEATHER）をセットＤに追加し得る。次いで、システムはすぐに、「明日の天気はどうなりますか？」という音声入力を値「FIND_WEATHER」に属しているとして認識するであろう。これに対して、従来の技術では、データセットが大きくなるにつれて頻繁な再訓練が必要である。必要な追加訓練の量を減らすことにより、値認識を実行することができる速度を大幅に上げることができる。さらに、本明細書に記載されているマッチングベースの技術を使用した値認識の精度は、以前のアプローチ（分類など）を使用した値認識の精度を上回ることができることをテストは証明した。

上記のインフラストラクチャは、さまざまな異なる環境（クラウド環境（プライベート、パブリックおよびハイブリッドクラウド環境を含むさまざまなタイプのクラウドであり得る）、オンプレミス環境、ハイブリッド環境などを含む）において実現されることができる。

図５は、一実施形態を実現するための分散型システム５００の簡略図である。示されている実施形態では、分散型システム５００は、１つまたは複数のクライアントコンピューティングデバイス５０２，５０４，５０６および５０８を含み、それらは、１つまたは複数の通信ネットワーク５１０を介してサーバ５１２に結合されている。クライアントコンピューティングデバイス５０２，５０４，５０６および５０８は、１つまたは複数のアプリケーションを実行するように構成され得る。

さまざまな実施形態において、サーバ５１２は、訓練を減らした状態で値認識を実行することを可能にする１つまたは複数のサービスまたはソフトウェアアプリケーションを実行するように適合され得る。

特定の実施形態において、サーバ５１２は、非仮想環境および仮想環境を含み得る他のサービスまたはソフトウェアアプリケーションも提供し得る。いくつかの実施形態において、これらのサービスは、ウェブベースのサービスもしくはクラウドサービスとして（ソフトウェア・アズ・ア・サービス（ＳａａＳ）モデル下など）クライアントコンピューティングデバイス５０２，５０４，５０６および／または５０８のユーザに対して提供され得る。クライアントコンピューティングデバイス５０２，５０４，５０６および／または５０８を動作させるユーザは、次いで、１つまたは複数のクライアントアプリケーションを利用してサーバ５１２と対話して、これらのコンポーネントによって提供されるサービスを利用し得る。

図５に示される構成では、サーバ５１２は、サーバ５１２によって実行される機能を実現する１つまたは複数のコンポーネント５１８，５２０および５２２を含み得る。これらのコンポーネントは、１つまたは複数のプロセッサによって実行され得るソフトウェアコンポーネント、ハードウェアコンポーネント、またはそれらの組み合わせを含み得る。分散型システム５００とは異なっていてもよいさまざまな異なるシステム構成が可能であるということが理解されるべきである。図５に示される実施形態は、したがって、実施形態のシステムを実現するための分散型システムの一例であり、限定的であるよう意図されるものではない。

ユーザは、本開示の教示に従って、クライアントコンピューティングデバイス５０２，５０４，５０６および／または５０８を使用して、受信された音声入力に基づいてより迅速かつ正確に値を求めることができる。クライアントデバイスは、クライアントデバイスのユーザがクライアントデバイスと対話することを可能にするインターフェイスを提供し得る。また、クライアントデバイスは、このインターフェイスを介して情報をユーザに出力し得る。図５は、クライアントコンピューティングデバイスを４つだけ示しているが、任意の数のクライアントコンピューティングデバイスがサポートされてもよい。

クライアントデバイスは、さまざまなタイプのコンピューティングシステム（携帯型の手持ち式デバイス、汎用コンピュータ（パーソナルコンピュータおよびラップトップなど）、ワークステーションコンピュータ、ウェアラブルデバイス、ゲーミングシステム、シンクライアント、さまざまなメッセージングデバイス、センサまたは他の感知デバイスなど）を含み得る。これらのコンピューティングデバイスは、さまざまなタイプおよびバージョンのソフトウェアアプリケーションおよびオペレーティングシステム（たとえば、マイクロソフトウィンドウズ（登録商標）、アップルマッキントッシュ（登録商標）、ＵＮＩＸ（登録商標）またはＵＮＩＸ系オペレーティングシステム、Ｌｉｎｕｘ（登録商標）またはＬｉｎｕｘ系オペレーティングシステム（グーグルクローム（商標）ＯＳなど））を実行し得て、これらのソフトウェアアプリケーションおよびオペレーティングシステムは、さまざまなモバイルオペレーティングシステム（たとえば、マイクロソフトウィンドウズモバイル（登録商標）、ｉＯＳ（登録商標）、ウィンドウズフォン（登録商標）、アンドロイド（登録商標）、ブラックベリー（登録商標）、パームＯＳ（登録商標））を含む。携帯型の手持ち式デバイスは、携帯電話、スマートフォン（たとえば、ｉＰｈｏｎｅ（登録商標））、タブレット（たとえば、ｉＰａｄ（登録商標））、パーソナルデジタルアシスタント（ＰＤＡ）などを含み得る。ウェアラブルデバイスは、グーグルグラス（登録商標）頭部装着型ディスプレイおよび他のデバイスを含み得る。ゲーミングシステムは、さまざまな手持ち式ゲーミングデバイス、インターネット対応ゲーミングデバイス（たとえば、キネクト（登録商標）ジェスチャ入力デバイスを有していたり有していなかったりするマイクロソフトＸｂｏｘ（登録商標）ゲーム機、ソニープレイステーション（登録商標）システム、任天堂（登録商標）によって提供されるさまざまなゲーミングシステムなど）などを含み得る。クライアントデバイスは、さまざまな異なるアプリケーション（さまざまなインターネット関連アプリ、通信アプリケーション(たとえば、電子メールアプリケーション、ショートメッセージサービス（ＳＭＳ）アプリケーション）など)を実行することが可能であり得て、さまざまな通信プロトコルを使用し得る。

ネットワーク５１０は、さまざまな入手可能なプロトコルのうちのいずれかを使用したデータ通信をサポートすることができる、当業者が精通している任意のタイプのネットワークであり得て、これらのプロトコルは、ＴＣＰ／ＩＰ（伝送制御プロトコル／インターネットプロトコル）、ＳＮＡ（システムネットワークアーキテクチャ）、ＩＰＸ（インターネットパケット交換）、アップルトーク(登録商標)などを含むが、それらに限定されるものではない。単に一例として、ネットワーク５１０は、ローカルエリアネットワーク（ＬＡＮ）、イーサネット（登録商標）に基づくネットワーク、トークンリング、ワイドエリアネットワーク（ＷＡＮ）、インターネット、仮想ネットワーク、仮想プライベートネットワーク（ＶＰＮ）、イントラネット、エクストラネット、公衆交換電話網（ＰＳＴＮ）、赤外線ネットワーク、ワイヤレスネットワーク（たとえば、米国電気電子学会（ＩＥＥＥ）１００２．１１のプロトコル一式、ブルートゥース（登録商標）および／もしくはその他のワイヤレスプロトコルのうちのいずれかの下で動作するネットワーク）、ならびに／または、これらのいずれかの組み合わせおよび／もしくは他のネットワークであり得る。

サーバ５１２は、１つもしくは複数の汎用コンピュータ、専用のサーバコンピュータ（一例として、ＰＣ（パーソナルコンピュータ）サーバ、ＵＮＩＸ（登録商標）サーバ、ミッドレンジサーバ、メインフレームコンピュータ、ラックマウント型サーバなどを含む）、サーバファーム、サーバクラスタ、または、その他の適切な構成および／もしくは組み合わせで構成され得る。サーバ５１２は、仮想オペレーティングシステムを実行する１つもしくは複数の仮想マシン、または、仮想化を含む他のコンピューティングアーキテクチャ（サーバのために仮想ストレージデバイスを維持するように仮想化され得る論理ストレージデバイスの１つもしくは複数のフレキシブルなプールなど）を含み得る。さまざまな実施形態において、サーバ５１２は、前述の開示に記載される機能を提供する１つまたは複数のサービスまたはソフトウェアアプリケーションを実行するように適合され得る。

サーバ５１２におけるコンピューティングシステムは、上記のもののうちのいずれかを含む１つまたは複数のオペレーティングシステム、および、任意の市場で入手可能なサーバオペレーティングシステムを実行し得る。サーバ５１２は、さまざまなさらに他のサーバアプリケーションおよび／または中間層アプリケーションのうちのいずれかも実行し得て、これらのアプリケーションは、ＨＴＴＰ（ハイパーテキスト転送プロトコル）サーバ、ＦＴＰ（ファイル転送プロトコル）サーバ、ＣＧＩ（コモンゲートウェイインターフェイス）サーバ、ＪＡＶＡ（登録商標）サーバ、データベースサーバなどを含む。例示的なデータベースサーバは、オラクル社（登録商標）、マイクロソフト社（登録商標）、サイベース社（登録商標）、ＩＢＭ社（登録商標）（インターナショナルビジネスマシンズ）などから市場で入手可能なものを含むが、それらに限定されるものではない。

いくつかの実現例において、サーバ５１２は、クライアントコンピューティングデバイス５０２，５０４，５０６および５０８のユーザから受信されるデータフィードおよび／またはイベント更新情報を解析および整理統合するための１つまたは複数のアプリケーションを含み得る。一例として、データフィードおよび／またはイベント更新情報は、１つまたは複数の第三者情報源および連続データストリームから受信される、ツイッター（登録商標）フィード、フェイスブック（登録商標）更新情報またはリアルタイムの更新情報を含み得るが、それらに限定されるものではなく、これらは、センサデータアプリケーション、金融株式相場表示板、ネットワーク性能測定ツール（たとえば、ネットワーク監視およびトラフィック管理アプリケーション）、クリックストリーム解析ツール、自動車交通監視などに関連するリアルタイムのイベントを含み得る。サーバ５１２は、データフィードおよび／またはリアルタイムのイベントをクライアントコンピューティングデバイス５０２，５０４，５０６および５０８の１つまたは複数のディスプレイデバイスを介して表示するための１つまたは複数のアプリケーションも含み得る。

分散型システム５００は、１つまたは複数のデータリポジトリ５１４，５１６も含み得る。特定の実施形態において、これらのデータリポジトリは、データおよび他の情報を格納するのに使用され得る。たとえば、データリポジトリ５１４，５１６のうちの１つまたは複数は、情報（音声入力タイプおよび値に対応するキー／値のペアなど）を格納するのに使用され得る。データリポジトリ５１４，５１６は、さまざまな場所にあり得る。たとえば、サーバ５１２によって使用されるデータリポジトリは、サーバ５１２に対してローカルであってもよく、またはサーバ５１２から遠く離れていてネットワークベースのまたは専用の接続を介してサーバ５１２と通信してもよい。データリポジトリ５１４，５１６は、異なるタイプであり得る。特定の実施形態において、サーバ５１２によって使用されるデータリポジトリは、データベース（たとえば、リレーショナルデータベース（オラクル社（登録商標）および他のベンダによって提供されるデータベースなど））であり得る。これらのデータベースのうちの１つまたは複数は、ＳＱＬでフォーマット済みのコマンドに応答したデータベースとの間でのデータの格納、更新および検索を可能にするように適合され得る。

特定の実施形態において、データリポジトリ５１４，５１６のうちの１つまたは複数は、アプリケーションによって、アプリケーションデータを格納するのにも使用され得る。アプリケーションによって使用されるデータリポジトリは、異なるタイプ（たとえば、キー／値格納リポジトリ、オブジェクト格納リポジトリ、またはファイルシステムによってサポートされる一般的なストレージリポジトリなど）であり得る。

特定の実施形態において、本開示に記載されている値認識関連の機能は、クラウド環境を介してサービスとして提供され得る。図６は、特定の実施形態に係る、さまざまな値認識関連のサービスがクラウドサービスとして提供され得るクラウドベースのシステム環境の簡略化されたブロック図である。図６に示される実施形態において、クラウドインフラストラクチャシステム６０２は、１つまたは複数のクライアントコンピューティングデバイス６０４，６０６および６０８を使用してユーザによって要求され得る１つまたは複数のクラウドサービスを提供し得る。クラウドインフラストラクチャシステム６０２は、サーバ６１２について上記したものを含み得る１つまたは複数のコンピュータおよび／またはサーバを備え得る。クラウドインフラストラクチャシステム６０２におけるコンピュータは、汎用コンピュータ、専用のサーバコンピュータ、サーバファーム、サーバクラスタ、またはその他の適切な構成および／もしくは組み合わせとして編成され得る。

ネットワーク６１０は、クライアント６０４，６０６および６０８とクラウドインフラストラクチャシステム６０２との間のデータの伝達およびやりとりを容易にし得る。ネットワーク６１０は、１つまたは複数のネットワークを含み得る。これらのネットワークは、同一のタイプであってもよく、または異なるタイプであってもよい。ネットワーク６１０は、通信を容易にするために、１つまたは複数の通信プロトコル（ワイヤードおよび／またはワイヤレスプロトコルを含む）をサポートし得る。

図６に示される実施形態は、クラウドインフラストラクチャシステムの一例に過ぎず、限定的であるよう意図されるものではない。いくつかの他の実施形態において、クラウドインフラストラクチャシステム６０２は、図６に示されるコンポーネントよりも多くのコンポーネントまたは少ないコンポーネントを有してもよく、２つまたはそれ以上のコンポーネントを組み合わせてもよく、またはコンポーネントの異なる構成もしくは配置を有してもよい、ということが理解されるべきである。たとえば、図６は３つのクライアントコンピューティングデバイスを示しているが、代替的な実施形態では任意の数のクライアントコンピューティングデバイスがサポートされてもよい。

クラウドサービスという語は、一般に、サービスプロバイダのシステム（たとえば、クラウドインフラストラクチャシステム６０２）によって通信ネットワーク（インターネットなど）を介してオンデマンドでユーザが入手できるようにされるサービスを指すのに使用される。一般に、パブリッククラウド環境では、クラウドサービスプロバイダのシステムを構成するサーバおよびシステムは、顧客自身のオンプレミスサーバおよびシステムとは異なっている。クラウドサービスプロバイダのシステムは、クラウドサービスプロバイダによって管理される。したがって、顧客は、クラウドサービスプロバイダによって提供されるクラウドサービスのために別のライセンス、サポート、またはハードウェアおよびソフトウェアリソースを購入する必要なく、これらのサービスを利用することができる。たとえば、クラウドサービスプロバイダのシステムは、アプリケーションをホストし得て、ユーザは、このアプリケーションを実行するためのインフラストラクチャリソースを購入する必要なく、インターネットを介してオンデマンドでこのアプリケーションをオーダーして使用することができる。クラウドサービスは、アプリケーション、リソースおよびサービスへの簡単でスケーラブルなアクセスを提供するように設計される。いくつかのプロバイダは、クラウドサービスを提供する。たとえば、いくつかのクラウドサービス（ミドルウェアサービス、データベースサービス、Ｊａｖａクラウドサービスなど）は、カリフォルニア州レッドウッドショアーズのオラクル社（登録商標）によって提供される。

特定の実施形態において、クラウドインフラストラクチャシステム６０２は、ハイブリッドサービスモデルを含むさまざまなモデル（ソフトウェア・アズ・ア・サービス（ＳａａＳ）モデル、プラットフォーム・アズ・ア・サービス（ＰａａＳ）モデル、インフラストラクチャ・アズ・ア・サービス（ＩａａＳ）モデルなど）を使用して１つまたは複数のクラウドサービスを提供し得る。クラウドインフラストラクチャシステム６０２は、さまざまなクラウドサービスの提供を可能にする一連のアプリケーション、ミドルウェア、データベースおよび他のリソースを含み得る。

ＳａａＳモデルは、基本的なアプリケーションのためのハードウェアまたはソフトウェアを顧客が購入する必要なく、アプリケーションまたはソフトウェアをインターネットのような通信ネットワークを介してサービスとして顧客に提供することを可能にする。たとえば、ＳａａＳモデルは、クラウドインフラストラクチャシステム６０２によってホストされるオンデマンドアプリケーションへのアクセスを顧客に提供するのに使用され得る。オラクル社（登録商標）によって提供されるＳａａＳサービスの例としては、人材／資本管理、顧客関係管理（ＣＲＭ）、企業リソース計画（ＥＲＰ）、サプライチェーン管理（ＳＣＭ）、企業業績管理（ＥＰＭ）、アナリティクスサービス、ソーシャルアプリケーションなどのためのさまざまなサービスが挙げられるが、それらに限定されるものではない。

ＩａａＳモデルは、一般に、インフラストラクチャリソース（たとえば、サーバ、ストレージ、ハードウェアおよびネットワーキングリソース）をクラウドサービスとして顧客に提供して、弾力的な計算およびストレージ機能を提供するのに使用される。さまざまなＩａａＳサービスは、オラクル社（登録商標）によって提供される。

ＰａａＳモデルは、一般に、顧客がプラットフォームおよび環境リソースを調達、構築または保守整備する必要なく、顧客がアプリケーションおよびサービスを開発、実行および管理することを可能にするこのようなリソースをサービスとして提供するのに使用される。オラクル社（登録商標）によって提供されるＰａａＳサービスの例としては、オラクルＪａｖａクラウドサービス（ＪＣＳ）、オラクルデータベースクラウドサービス（ＤＢＣＳ）、データ管理クラウドサービス、さまざまなアプリケーション開発ソリューションサービスなどが挙げられるが、それらに限定されるものではない。

クラウドサービスは、一般に、オンデマンドセルフサービスベースの、申し込みベースの、弾性的にスケーラブルな、信頼性のある、高可用性の、セキュリティ保護された態様で提供される。たとえば、顧客は、クラウドインフラストラクチャシステム６０２によって提供される１つまたは複数のサービスを申し込みオーダーを介してオーダーし得る。次いで、クラウドインフラストラクチャシステム６０２は、顧客の申し込みオーダーで要求されたサービスを提供するように処理を実行する。たとえば、顧客は、顧客によって受信された音声入力タイプに基づいてクラウド上で値を求めるためのモデルを訓練するのにシステムが使用するキー／値のペアのセットを供給し得る。クラウドインフラストラクチャシステム６０２は、１つまたは複数のクラウドサービスを提供するように構成され得る。

クラウドインフラストラクチャシステム６０２は、さまざまなデプロイメントモデルを介してクラウドサービスを提供し得る。パブリッククラウドモデルでは、クラウドインフラストラクチャシステム６０２は、第三者クラウドサービスプロバイダによって所有され得て、クラウドサービスは、任意の一般大衆顧客に提供され、顧客は、個人または企業であり得る。特定の他の実施形態では、プライベートクラウドモデルの下で、クラウドインフラストラクチャシステム６０２は、組織内（たとえば、企業組織内）で運営され得て、当該組織内の顧客にサービスが提供される。たとえば、顧客は、企業のさまざまな部署（人事部、給与支払部など）または当該企業内の個人であり得る。特定の他の実施形態では、コミュニティクラウドモデルの下で、クラウドインフラストラクチャシステム６０２および提供されるサービスは、関連するコミュニティ内のいくつかの組織によって共有され得る。さまざまな他のモデル（上記のモデルのハイブリッドなど）も使用され得る。

クライアントコンピューティングデバイス６０４，６０６および６０８は、異なるタイプ（図６に示されるデバイス６０２，６０４，６０６および６０８など）であり得て、１つまたは複数のクライアントアプリケーションを動作させることが可能であり得る。ユーザは、クライアントデバイスを使用してクラウドインフラストラクチャシステム６０２と対話し得る（クラウドインフラストラクチャシステム６０２によって提供されるサービスを要求するなど）。たとえば、ユーザは、クライアントデバイスを使用して、本開示に記載されている値認識関連のサービスを要求し得る。

いくつかの実施形態において、値認識関連のサービスを提供するためにクラウドインフラストラクチャシステム６０２によって実行される処理は、ビッグデータ解析を含み得る。この解析は、大きなデータセットを使用、解析および操作して、データ内のさまざまなトレンド、挙動、関係などを検出して視覚化することを含み得る。この解析は、場合によってはデータを並行して処理したりデータを使用してシミュレーションを行ったりする１つまたは複数のプロセッサによって実行され得る。たとえば、ビッグデータ解析は、マッチ関数のパラメータを識別するために訓練目的でクラウドインフラストラクチャシステム６０２によって実行され得る。この解析に使用されるデータは、構造化されたデータ（たとえば、データベースに格納されたデータまたは構造化されたモデルに従って構造化されたデータ）および／または構造化されていないデータ（たとえば、データブロブ（バイナリ・ラージ・オブジェクト））を含み得る。

図６の実施形態に示されるように、クラウドインフラストラクチャシステム６０２は、クラウドインフラストラクチャシステム６０２によって提供されるさまざまなクラウドサービスの提供を容易にするために利用されるインフラストラクチャリソース６３０を含み得る。インフラストラクチャリソース６３０は、たとえば、処理リソース、ストレージまたはメモリリソース、ネットワーキングリソースなどを含み得る。

特定の実施形態において、クラウドインフラストラクチャシステム６０２によってさまざまな顧客に提供されるさまざまなクラウドサービスをサポートするためのこれらのリソースの効率的なプロビジョニングを容易にするために、リソースは、リソースまたはリソースモジュールのセット（「ポッド」とも称される）に束ねられ得る。各リソースモジュールまたはポッドは、１つまたは複数のタイプのリソースの予め統合されて最適化された組み合わせを備え得る。特定の実施形態において、さまざまなタイプのクラウドサービスのためにさまざまなポッドが予めプロビジョニングされ得る。たとえば、ポッドの第１のセットは、データベースサービスのためにプロビジョニングされ得て、ポッドの第１のセットの中のポッドとは異なるリソースの組み合わせを含み得るポッドの第２のセットは、Ｊａｖａサービスのためにプロビジョニングされ得る、などである。いくつかのサービスでは、サービスのプロビジョニングに割り当てられるリソースは、サービス間で共有され得る。

クラウドインフラストラクチャシステム６０２自体は、クラウドインフラストラクチャシステム６０２のさまざまなコンポーネントによって共有されるサービス６３２を内部で使用し得て、これにより、クラウドインフラストラクチャシステム６０２によるサービスのプロビジョニングが容易になる。これらの内部共有サービスは、セキュリティおよびアイデンティティサービス、統合サービス、企業リポジトリサービス、企業マネージャサービス、ウイルススキャンおよびホワイトリストサービス、高可用性、バックアップおよび回復サービス、クラウドサポートを可能にするためのサービス、電子メールサービス、通知サービス、ファイル転送サービスなどを含み得るが、それらに限定されるものではない。

クラウドインフラストラクチャシステム６０２は、複数のサブシステムを備え得る。これらのサブシステムは、ソフトウェアで実現されてもよく、またはハードウェアで実現されてもよく、またはそれらの組み合わせで実現されてもよい。図６に示されるように、サブシステムは、クラウドインフラストラクチャシステム６０２のユーザまたは顧客がクラウドインフラストラクチャシステム６０２と対話することを可能にするユーザインターフェイスサブシステム６１２を含み得る。ユーザインターフェイスサブシステム６１２は、さまざまな異なるインターフェイス（ウェブインターフェイス６１４、オンラインストアインターフェイス６１６（クラウドインフラストラクチャシステム６０２によって提供されたクラウドサービスが宣伝されて消費者によって購入可能である）および他のインターフェイス６１８など）を含み得る。たとえば、顧客は、クライアントデバイスを使用して、クラウドインフラストラクチャシステム６０２によって提供された１つまたは複数のサービスをインターフェイス６１４，６１６および６１８のうちの１つまたは複数を使用して要求し得る（サービス要求６３４）。たとえば、顧客は、オンラインストアにアクセスして、クラウドインフラストラクチャシステム６０２によって提供されたクラウドサービスをブラウズして、顧客が申し込みたい、クラウドインフラストラクチャシステム６０２によって提供された１つまたは複数のサービスの申し込みオーダーを行い得る。このサービス要求は、顧客および顧客が申し込みたい１つまたは複数のサービスを識別する情報を含み得る。たとえば、顧客は、クラウドインフラストラクチャシステム６０２によって提供された値認識関連のサービスの申し込みオーダーを行い得る。オーダーの一部として、顧客は、履歴音声入力タイプおよび値ならびに／または現在の音声入力タイプを識別する情報を提供し得る。

特定の実施形態（図６に示される実施形態など）において、クラウドインフラストラクチャシステム６０２は、新たなオーダーを処理するように構成されたオーダー管理サブシステム（ＯＭＳ）６２０を備え得る。この処理の一部として、ＯＭＳ６２０は、まだなされていなければ顧客のアカウントを作成して、要求されたサービスを顧客に提供するために請求書を顧客に発行するのに使用される請求書発行および／または課金情報を顧客から受信して、顧客情報を検証して、検証時に顧客のオーダーを確定して、さまざまなワークフローをオーケストレートしてプロビジョニングに備えてオーダーを準備するように構成され得る。

適切な形で認証されると、ＯＭＳ６２０は、次に、オーダープロビジョニングサブシステム（ＯＰＳ）６２４を呼び出し得る。オーダープロビジョニングサブシステム（ＯＰＳ）６２４は、オーダーのためのリソース（処理、メモリおよびネットワーキングリソースを含む）をプロビジョニングするように構成される。プロビジョニングは、オーダーのためのリソースを割り当てて、顧客オーダーによって要求されたサービスを容易にするようにこれらのリソースを構成することを含み得る。オーダーのためのリソースをプロビジョニングする態様およびプロビジョニングされたリソースのタイプは、顧客によってオーダーされたクラウドサービスのタイプに依存し得る。たとえば、１つのワークフローに従って、ＯＰＳ６２４は、特定のクラウドサービスが要求されていると判断して、当該特定のクラウドサービスについて予め構成されていたであろうポッドの数を識別するように構成され得る。オーダーに割り当てられるポッドの数は、要求されたサービスのサイズ／量／レベル／範囲に依存し得る。たとえば、割り当てられるポッドの数は、サービスによってサポートされるユーザの数、サービスが要求されている期間などに基づいて決定され得る。次いで、割り当てられたポッドは、要求されたサービスを提供するように特定の要求発行顧客に合わせてカスタマイズされ得る。

クラウドインフラストラクチャシステム６０２は、応答または通知６４４を要求発行顧客に送信して、要求されたサービスがいつ使用できる状態になるかを示し得る。いくつかの例において、要求されたサービスの利益を顧客が使用および利用し始めることを可能にする情報（たとえば、リンク）が顧客に送信され得る。

クラウドインフラストラクチャシステム６０２は、サービスを複数の顧客に提供し得る。各顧客について、クラウドインフラストラクチャシステム６０２は、顧客から受信された１つまたは複数の申し込みオーダーに関連する情報を管理して、これらのオーダーに関連する顧客データを維持して、要求されたサービスを顧客に提供することを担当する。クラウドインフラストラクチャシステム６０２は、申し込みされたサービスの顧客の使用に関する使用量統計も収集し得る。たとえば、使用されたストレージの量、転送されたデータの量、ユーザの数、ならびにシステムアップ時間およびシステムダウン時間などについて統計が収集され得る。この使用量情報は、顧客に請求書を発行するのに使用され得る。請求書発行は、たとえば月１回のサイクルで行われ得る。

クラウドインフラストラクチャシステム６０２は、サービスを複数の顧客に並行して提供し得る。クラウドインフラストラクチャシステム６０２は、これらの顧客の情報（場合によっては、専有情報を含む）を格納し得る。特定の実施形態において、クラウドインフラストラクチャシステム６０２は、顧客情報を管理して、ある顧客に関連する情報が別の顧客によってアクセス不可能であるように、管理された情報を分離するように構成されたアイデンティティ管理サブシステム（ＩＭＳ）６２８を備える。ＩＭＳ６２８は、さまざまなセキュリティ関連サービス（アイデンティティサービス（情報アクセス管理、認証および認可サービス、顧客のアイデンティティおよび役割および関連する機能を管理するためのサービスなど））を提供するように構成され得る。

図７は、特定の実施形態を実現するために使用され得る例示的なコンピュータシステム７００を示す図である。たとえば、いくつかの実施形態において、コンピュータシステム７００は、対話システム、ならびに上記のさまざまなサーバおよびコンピュータシステムのうちのいずれかを実現するために使用され得る。図７に示されるように、コンピュータシステム７００は、処理サブシステム７０４を含むさまざまなサブシステムを含み、処理サブシステム７０４は、バスサブシステム７０２を介していくつかの他のサブシステムと通信する。これらの他のサブシステムは、処理加速ユニット７０６と、Ｉ／Ｏサブシステム７０８と、ストレージサブシステム７１８と、通信サブシステム７２４とを含み得る。ストレージサブシステム７１８は、記憶媒体７２２とシステムメモリ７１０とを含む非一時的なコンピュータ読取可能記憶媒体を含み得る。

バスサブシステム７０２は、コンピュータシステム７００のさまざまなコンポーネントおよびサブシステムに意図した通りに互いに通信させるための機構を提供する。バスサブシステム７０２は、単一のバスとして概略的に示されているが、バスサブシステムの代替的な実施形態は、複数のバスを利用してもよい。バスサブシステム７０２は、いくつかのタイプのバス構造のうちのいずれかであり得て、これらのバス構造は、さまざまなバスアーキテクチャのうちのいずれかを用いるメモリバスまたはメモリコントローラ、周辺バス、ローカルバスなどを含む。たとえば、このようなアーキテクチャは、業界標準アーキテクチャ（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭＣＡ）バス、エンハンストＩＳＡ（ＥＩＳＡ）バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション（ＶＥＳＡ）ローカルバス、およびＩＥＥＥＰ１３８６．１規格に従って製造される中二階バスとして実現され得る周辺コンポーネントインターコネクト（ＰＣＩ）バスなどを含み得る。

処理サブシステム７０４は、コンピュータシステム７００の動作を制御し、１つまたは複数のプロセッサ、特定用途向け集積回路（ＡＳＩＣ）またはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）を備え得る。これらのプロセッサは、シングルコアプロセッサまたはマルチコアプロセッサを含み得る。コンピュータシステム７００の処理リソースは、１つまたは複数の処理ユニット７３２，７３４などに編成されることができる。処理ユニットは、１つもしくは複数のプロセッサ、同一のもしくは異なるプロセッサからの１つもしくは複数のコア、コアとプロセッサとの組み合わせ、またはコアとプロセッサとの他の組み合わせを含み得る。いくつかの実施形態において、処理サブシステム７０４は、１つまたは複数の特別目的コプロセッサ（グラフィックスプロセッサ、デジタル信号プロセッサ（ＤＳＰ）など）を含み得る。いくつかの実施形態において、処理サブシステム７０４の処理ユニットの一部または全ては、カスタマイズされた回路（特定用途向け集積回路（ＡＳＩＣ）またはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）など）を使用して実現可能である。

いくつかの実施形態において、処理サブシステム７０４内の処理ユニットは、システムメモリ７１０内またはコンピュータ読取可能記憶媒体７２２上に格納された命令を実行することができる。さまざまな実施形態において、処理ユニットは、さまざまなプログラムまたはコード命令を実行することができ、複数の同時実行プログラムまたはプロセスを維持することができる。どんなときでも、実行対象のプログラムコードの一部または全ては、システムメモリ７１０内および／またはコンピュータ読取可能記憶媒体７２２上（場合によっては、１つまたは複数のストレージデバイス上を含む）にあることができる。好適なプログラミングを通じて、処理サブシステム７０４は、上記のさまざまな機能を提供することができる。コンピュータシステム７００が１つまたは複数の仮想マシンを実行している例では、１つまたは複数の処理ユニットは、各仮想マシンに割り当てられ得る。

特定の実施形態において、処理加速ユニット７０６は、コンピュータシステム７００によって実行される処理全体を加速させるために、カスタマイズされた処理を実行するように、または、処理サブシステム７０４によって実行される処理の一部をオフロードするように任意に設けられ得る。

Ｉ／Ｏサブシステム７０８は、情報をコンピュータシステム７００に入力する、および／または、情報をコンピュータシステム７００からもしくはコンピュータシステム７００を介して出力するためのデバイスおよび機構を含み得る。一般に、入力デバイスという語の使用は、情報をコンピュータシステム７００に入力するための全ての可能なタイプのデバイスおよび機構を含むよう意図されている。ユーザインターフェイス入力デバイスは、たとえば、キーボード、ポインティングデバイス（マウスまたはトラックボールなど）、ディスプレイに組み込まれたタッチパッドまたはタッチスクリーン、スクロールホイール、クリックホイール、ダイアル、ボタン、スイッチ、キーパッド、音声コマンド認識システムを伴うオーディオ入力デバイス、マイクロフォン、および他のタイプの入力デバイスを含み得る。ユーザインターフェイス入力デバイスは、ユーザが入力デバイスを制御して入力デバイスと対話することを可能にするモーション感知および／またはジェスチャ認識デバイス（マイクロソフトキネクト（登録商標）モーションセンサなど）、マイクロソフトＸｂｏｘ（登録商標）３６０ゲームコントローラ、ジェスチャおよび口頭のコマンドを使用して入力を受信するためのインターフェイスを提供するデバイスも含み得る。ユーザインターフェイス入力デバイスは、ユーザから目の動き（たとえば、写真を撮っている間および／またはメニュー選択を行なっている間の「まばたき」）を検出し、アイジェスチャを入力デバイス（たとえば、グーグルグラス（登録商標））への入力として変換するアイジェスチャ認識デバイス（グーグルグラス（登録商標）瞬き検出器など）も含み得る。さらに、ユーザインターフェイス入力デバイスは、ユーザが音声コマンドを介して音声認識システム（たとえば、Ｓｉｒｉ（登録商標）ナビゲータ）と対話することを可能にする音声認識感知デバイスを含み得る。

ユーザインターフェイス入力デバイスの他の例としては、三次元（３Ｄ）マウス、ジョイスティックまたはポインティングスティック、ゲームパッドおよびグラフィックタブレット、ならびにオーディオ／ビジュアルデバイス（スピーカ、デジタルカメラ、デジタルカムコーダ、ポータブルメディアプレーヤ、ウェブカム、画像スキャナ、指紋スキャナ、バーコードリーダ３Ｄスキャナ、３Ｄプリンタ、レーザレンジファインダ、および視線追跡デバイスなど）が挙げられるが、それらに限定されるものではない。さらに、ユーザインターフェイス入力デバイスは、たとえば、医療用画像化入力デバイス（コンピュータ断層撮影、磁気共鳴撮像、ポジションエミッショントモグラフィーおよび医療用超音波検査デバイスなど）を含み得る。ユーザインターフェイス入力デバイスは、たとえば、オーディオ入力デバイス（ＭＩＤＩキーボード、デジタル楽器など）も含み得る。

一般に、「出力デバイス」という語の使用は、情報をコンピュータシステム７００からユーザまたは他のコンピュータに出力するための全ての可能なタイプのデバイスおよび機構を含むよう意図されている。ユーザインターフェイス出力デバイスは、ディスプレイサブシステム、インジケータライト、または非ビジュアルディスプレイ（オーディオ出力デバイスなど）を含み得る。ディスプレイサブシステムは、陰極線管（ＣＲＴ）、フラットパネルデバイス（液晶ディスプレイ（ＬＣＤ）またはプラズマディスプレイを使用するものなど）、投影デバイス、タッチスクリーンなどであり得る。たとえば、ユーザインターフェイス出力デバイスは、テキスト、グラフィックスおよび音声／映像情報を視覚的に伝えるさまざまなディスプレイデバイス（モニタ、プリンタ、スピーカ、ヘッドフォン、自動車ナビゲーションシステム、プロッタ、音声出力デバイスおよびモデムなど）を含み得るが、それらに限定されるものではない。

ストレージサブシステム７１８は、コンピュータシステム７００によって使用される情報およびデータを格納するためのリポジトリまたはデータストアを提供する。ストレージサブシステム７１８は、いくつかの実施形態の機能を提供する基本的なプログラミングおよびデータ構造を格納するための有形の非一時的なコンピュータ読取可能記憶媒体を提供する。ストレージサブシステム７１８は、処理サブシステム７０４によって実行されると上記の機能を提供するソフトウェア（たとえば、プログラム、コードモジュール、命令）を格納し得る。このソフトウェアは、処理サブシステム７０４の１つまたは複数の処理ユニットによって実行され得る。ストレージサブシステム７１８は、本開示の教示に従って使用されるデータを格納するためのリポジトリも提供し得る。

ストレージサブシステム７１８は、揮発性および不揮発性メモリデバイスを含む１つまたは複数の非一時的なメモリデバイスを含み得る。図７に示されるように、ストレージサブシステム７１８は、システムメモリ７１０と、コンピュータ読取可能記憶媒体７２２とを含む。システムメモリ７１０は、いくつかのメモリを含み得て、これらのメモリは、プログラム実行中に命令およびデータを格納するための揮発性メインランダムアクセスメモリ（ＲＡＭ）、および、固定された命令が格納される不揮発性リードオンリメモリ（ＲＯＭ）またはフラッシュメモリを含む。いくつかの実現例において、起動中などにコンピュータシステム７００内の要素間で情報を転送するのを手助けする基本的なルーチンを含むベーシックインプット／アウトプットシステム（ＢＩＯＳ）は、一般に、ＲＯＭに格納され得る。ＲＡＭは、一般に、処理サブシステム７０４によって現在動作および実行されているデータおよび／またはプログラムモジュールを含む。いくつかの実現例において、システムメモリ７１０は、複数の異なるタイプのメモリ（スタティックランダムアクセスメモリ（ＳＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）など）を含み得る。

一例として、図７に示されるように、システムメモリ７１０は、実行中のアプリケーションプログラム７１２（ウェブブラウザ、中間層アプリケーション、リレーショナルデータベース管理システム（ＲＤＢＭＳ）などのさまざまなアプリケーションを含み得る）、プログラムデータ７１４およびオペレーティングシステム７１６をロードし得るが、それらに限定されるものではない。一例として、オペレーティングシステム７１６は、さまざまなバージョンのマイクロソフトウィンドウズ（登録商標）、アップルマッキントッシュ（登録商標）および／もしくはＬｉｎｕｘオペレーティングシステム、さまざまな市場で入手可能なＵＮＩＸ（登録商標）もしくはＵＮＩＸ系オペレーティングシステム（さまざまなＧＮＵ／Ｌｉｎｕｘオペレーティングシステム、グーグルクローム（登録商標）ＯＳなどを含むが、それらに限定されるものではない）、ならびに／または、モバイルオペレーティングシステム（ｉＯＳ、ウィンドウズ(登録商標)フォン、アンドロイド（登録商標）ＯＳ、ブラックベリー（登録商標）ＯＳ、パーム（登録商標）ＯＳオペレーティングシステムなど）を含み得る。

コンピュータ読取可能記憶媒体７２２は、いくつかの実施形態の機能を提供するプログラミングおよびデータ構造を格納し得る。コンピュータ読取可能媒体７２２は、コンピュータ読取可能な命令、データ構造、プログラムモジュールおよび他のデータをコンピュータシステム７００のために格納し得る。処理サブシステム７０４によって実行されると上記の機能を提供するソフトウェア（プログラム、コードモジュール、命令）は、ストレージサブシステム７１８に格納され得る。一例として、コンピュータ読取可能記憶媒体７２２は、不揮発性メモリ（ハードディスクドライブ、磁気ディスクドライブ、光ディスクドライブ（ＣＤＲＯＭ、ＤＶＤ、ブルーレイ（登録商標）ディスクなど）、または他の光学式媒体など）を含み得る。コンピュータ読取可能記憶媒体７２２は、Ｚｉｐ（登録商標）ドライブ、フラッシュメモリカード、ユニバーサルシリアルバス（ＵＳＢ）フラッシュドライブ、セキュアデジタル（ＳＤ）カード、ＤＶＤディスク、デジタルビデオテープなどを含み得るが、それらに限定されるものではない。コンピュータ読取可能記憶媒体７２２は、不揮発性メモリに基づくソリッドステートドライブ（ＳＳＤ）（フラッシュメモリベースのＳＳＤ、企業フラッシュドライブ、ソリッドステートＲＯＭなど）、揮発性メモリに基づくＳＳＤ（ソリッドステートＲＡＭ、ダイナミックＲＡＭ、スタティックＲＡＭなど）、ＤＲＡＭベースのＳＳＤ、磁気抵抗ＲＡＭ（ＭＲＡＭ）ＳＳＤ、およびＤＲＡＭベースのＳＳＤとフラッシュメモリベースのＳＳＤとの組み合わせを使用するハイブリッドＳＳＤも含み得る。

特定の実施形態において、ストレージサブシステム７１８は、コンピュータ読取可能記憶媒体７２２にさらに接続可能なコンピュータ読取可能記憶媒体リーダ７２０も含み得る。リーダ７２０は、メモリデバイス（ディスク、フラッシュドライブなど）からデータを受信して、読み取るように構成され得る。

さらに、いくつかの実施形態の機能を提供するプログラミングおよび／またはデータ構造は、１つまたは複数のネットワークを介してコンピュータ（たとえば、コンピュータシステム７００）にダウンロードすることによっても提供されることができる。

特定の実施形態において、コンピュータシステム７００は、仮想化技術（処理およびメモリリソースの仮想化を含むが、それに限定されるものではない）をサポートし得る。たとえば、コンピュータシステム７００は、１つまたは複数の仮想マシンを実行するためのサポートを提供し得る。特定の実施形態において、コンピュータシステム７００は、仮想マシンの構成および管理を容易にするプログラム（ハイパーバイザなど）を実行し得る。各仮想マシンは、メモリ、計算（たとえば、プロセッサ、コア）、Ｉ／Ｏおよびネットワーキングリソースを割り当てられ得る。各仮想マシンは、一般に、他の仮想マシンから独立して動作する。仮想マシンは、一般に、自身のオペレーティングシステムを実行し、このオペレーティングシステムは、コンピュータシステム７００によって実行される他の仮想マシンによって実行されるオペレーティングシステムと同一であってもよく、または異なっていてもよい。したがって、場合によっては、複数のオペレーティングシステムがコンピュータシステム７００によって同時に実行され得る。

通信サブシステム７２４は、他のコンピュータシステムおよびネットワークに対するインターフェイスを提供する。通信サブシステム７２４は、他のシステムとコンピュータシステム７００との間のデータの送受のためのインターフェイスとしての役割を果たす。たとえば、通信サブシステム７２４は、コンピュータシステム７００が、クライアントデバイスとの間での情報の送受のための、インターネットを介した１つまたは複数のクライアントデバイスとの通信チャネルを確立することを可能にし得る。たとえば、通信サブシステムは、クライアントデバイスから音声入力を受信して、それに応答して値をクライアントデバイスに送信するのに使用され得る。

通信サブシステム７２４は、ワイヤードおよび／またはワイヤレス通信プロトコルを両方ともサポートし得る。たとえば、特定の実施形態において、通信サブシステム７２４は、（たとえば、セルラー電話技術、先進データネットワーク技術（３Ｇ、４ＧもしくはＥＤＧＥ（グローバル進化のための拡張版データ通信速度）など）、ＷｉＦｉ（ＩＥＥＥ８０２．ＸＸファミリー規格）、または他のモバイル通信技術、またはそれらのいずれかの組み合わせを使用して）ワイヤレス音声および／またはデータネットワークにアクセスするための無線周波数（ＲＦ）送受信機コンポーネント、グローバルポジショニングシステム（ＧＰＳ）受信機コンポーネント、ならびに／または、他のコンポーネントを含み得る。いくつかの実施形態において、通信サブシステム７２４は、ワイヤレスインターフェイスに加えて、またはその代わりに、ワイヤードネットワーク接続（たとえば、イーサネット）を提供することができる。

通信サブシステム７２４は、データをさまざまな形式で送受信することができる。たとえば、いくつかの実施形態において、他の形式に加えて、通信サブシステム７２４は、構造化されたおよび／または構造化されていないデータフィード７２６、イベントストリーム７２８、イベント更新情報７３０などの形式で入力通信を受信し得る。たとえば、通信サブシステム７２４は、ソーシャルメディアネットワークのユーザからリアルタイムでデータフィード７２６および／または他の通信サービス（ツイッター（登録商標）フィード、フェイスブック（登録商標）更新情報、ウェブフィード（リッチ・サイト・サマリ（ＲＳＳ）フィードなど）、および／または、１つもしくは複数の第三者情報源からのリアルタイム更新情報など）を受信（または、送信）するように構成され得る。

特定の実施形態において、通信サブシステム７２４は、連続データストリームの形式でデータを受信するように構成され得て、当該連続データストリームは、明確な終端を持たない、本来は連続的または無限であり得るリアルタイムイベントのイベントストリーム７２８および／またはイベント更新情報７３０を含み得る。連続データを生成するアプリケーションの例としては、たとえば、センサデータアプリケーション、金融株式相場表示板、ネットワーク性能測定ツール（たとえば、ネットワーク監視およびトラフィック管理アプリケーション）、クリックストリーム解析ツール、自動車交通監視などを挙げることができる。

また、通信サブシステム７２４は、データをコンピュータシステム７００から他のコンピュータシステムまたはネットワークに伝えるように構成され得る。このデータは、コンピュータシステム７００に結合された１つまたは複数のストリーミングデータソースコンピュータと通信し得る１つまたは複数のデータベースに、さまざまな異なる形式（構造化されたおよび／または構造化されていないデータフィード７２６、イベントストリーム７２８、イベント更新情報７３０など）で伝えられ得る。

コンピュータシステム７００は、さまざまなタイプ（手持ち式の携帯型デバイス（たとえば、ｉＰｈｏｎｅ（登録商標）携帯電話、ｉＰａｄ（登録商標）コンピューティングタブレット、ＰＤＡ）、ウェアラブルデバイス（たとえば、グーグルグラス（登録商標）頭部装着型ディスプレイ）、パーソナルコンピュータ、ワークステーション、メインフレーム、キオスク、サーバラック、またはその他のデータ処理システムを含む）のもののうちの１つであり得る。常に変化するコンピュータおよびネットワークの性質のために、図７に示されるコンピュータシステム７００の記載は、具体例として意図されているに過ぎない。図７に示されるシステムよりも多くのコンポーネントまたは少ないコンポーネントを有する多くの他の構成が可能である。本明細書における開示および教示に基づいて、当業者は、さまざまな実施形態を実現するための他の態様および／または方法を理解するであろう。

特定の実施形態について説明してきたが、さまざまな変形例、変更例、代替的な構成および等価物が可能である。実施形態は、特定の具体的なデータ処理環境内での動作に限定されるものではなく、複数のデータ処理環境内で自由に動作できる。さらに、特定の一連のトランザクションおよびステップを使用して特定の実施形態について説明してきたが、これは限定的であるよう意図されるものではないということが当業者に明らかであるべきである。いくつかのフローチャートは、動作をシーケンシャルなプロセスとして説明しているが、これらの動作の多くは、並列にまたは同時に実行されてもよい。また、動作の順序は、並べ替えられてもよい。プロセスは、図面に含まれていない追加のステップを有してもよい。上記の実施形態のさまざまな特徴および局面は、個々に使用されてもよく、または一緒に使用されてもよい。

さらに、ハードウェアとソフトウェアとの特定の組み合わせを使用して特定の実施形態について説明してきたが、ハードウェアとソフトウェアとの他の組み合わせも可能であるということが認識されるべきである。特定の実施形態は、ハードウェアのみで実現されてもよく、ソフトウェアのみで実現されてもよく、またはそれらの組み合わせを使用して実現されてもよい。本明細書に記載されているさまざまなプロセスは、同一のプロセッサ上で実現されてもよく、または任意の組み合わせの異なるプロセッサ上で実現されてもよい。

デバイス、システム、コンポーネントまたはモジュールは、特定の動作または機能を実行するように構成されるものとして説明されているが、このような構成は、たとえば、動作を実行するように電子回路を設計することによって、動作を実行する（コンピュータ命令もしくはコードを実行するなど）ようにプログラム可能電子回路（マイクロプロセッサなど）をプログラムすることによって、または非一時的なメモリ媒体に格納されたコードもしくは命令を実行するようにプロセッサもしくはコアがプログラムされることによって、またはそれらの任意の組み合わせによって達成することができる。プロセスは、さまざまな技術（プロセス間通信のための従来の技術を含むが、それに限定されるものではない）を使用して通信することができ、異なるプロセスペアは異なる技術を使用してもよく、同じプロセスペアは別々のタイミングで異なる技術を使用してもよい。

実施形態を十分に理解できるようにするために、本開示では具体的な詳細が提供されている。しかし、これらの具体的な詳細がなくても実施形態を実施することができる。たとえば、周知の回路、プロセス、アルゴリズム、構造および技術は、実施形態を曖昧にすることを回避するために、不必要な詳細なしに示されている。この説明は、例示的な実施形態を提供しているに過ぎず、他の実施形態の範囲、適用性または構成を限定するよう意図されているわけではない。むしろ、実施形態の上記の説明は、さまざまな実施形態を実現するための実施可能な程度の説明を当業者に提供するであろう。要素の機能および配置の点でさまざまな変更がなされてもよい。

したがって、明細書および図面は、限定的な意味ではなく例示的な意味で考えられるべきである。しかし、特許請求の範囲に記載されているより広い精神および範囲から逸脱することなく、追加、減算、削除ならびに他の変形および変更がなされてもよい、ということは明らかであろう。したがって、特定の実施形態について説明してきたが、これらは限定的であるよう意図されるものではない。さまざまな変形例および等価物は、以下の特許請求の範囲の範囲内である。

Claims

コンピュータによって実行される方法であって、
対話システムが、入力された口頭発話を受信するステップと、
前記対話システムが、前記入力された口頭発話のベクトル表現を生成するステップと、
前記対話システムが、マッチ関数を使用して、複数のキー／値のペアの中の各キー／値のペアについてマッチスコアを生成するステップとを備え、各キー／値のペアについて生成された前記マッチスコアは、前記キー／値のペアのキーと前記入力された口頭発話の前記ベクトル表現とのマッチング度合いを示し、前記複数のキー／値のペアの中の各キーは、文の多次元ベクトル表現であり、前記マッチ関数は、異なる関連付けられた値を有する２つの異なるキーのマッチよりも、同一の関連付けられた値を有する２つの異なるキーのマッチについてより高いマッチスコアを生成するように構成され、前記方法はさらに、
前記対話システムが、前記複数のキー／値のペアについて生成された前記マッチスコアに基づいて、前記複数のキー／値のペアから、最も高いマッチスコアを有する特定のキー／値のペアを識別するステップと、
前記対話システムが、前記特定のキー／値のペアに関連付けられた値を前記入力された口頭発話についての値として出力するステップとを備える、方法。
前記マッチ関数は、訓練データを使用した訓練によって訓練され、前記訓練は、損失関数を最小化することによって、前記マッチ関数に関連付けられたパラメータのセットを調整することを備える、請求項１に記載の方法。
前記マッチ関数は、訓練データを使用した訓練によって訓練され、前記訓練は、尤度関数を最大化することによって、前記マッチ関数に関連付けられたパラメータのセットを調整することを備える、請求項１または２に記載の方法。
前記複数のキー／値のペアの値は、意図である、先行する請求項のいずれか１項に記載の方法。
前記複数のキー／値のペアの前記キーは、質問の表現であり、
前記複数のキー／値のペアの前記値は、それぞれの質問に対応する回答であり、
前記特定のキー／値のペアに関連付けられた前記出力された値は、選択された回答に対応し、
前記値は、前記入力された口頭発話に対する回答として出力される、先行する請求項のいずれか１項に記載の方法。
前記入力された口頭発話は、第１の入力された口頭発話であり、前記値は、第１の値であり、前記マッチスコアは、第１のマッチスコアであり、前記方法はさらに、
前記対話システムが、前記第１の入力された口頭発話についての前記第１の値を出力した後、追加のキー／値のペアを含むように前記複数のキー／値のペアを更新するステップと、
前記対話システムが、第２の入力された口頭発話を受信するステップと、
前記対話システムが、前記マッチ関数を使用して、前記更新された複数のキー／値のペアの中の各キー／値のペアについて第２のマッチスコアを生成するステップとを備え、前記マッチ関数は、前記第１のマッチスコアを生成するステップと前記第２のマッチスコアを生成するステップとの間で変化せず、前記方法はさらに、
前記対話システムが、前記更新された複数のキー／値のペアから、最も高いマッチスコアを有する第２の特定のキー／値のペアを識別するステップと、
前記対話システムが、前記第２の特定のキー／値のペアに関連付けられた第２の値を前記入力された口頭発話についての値として出力するステップとを備える、先行する請求項のいずれか１項に記載の方法。
前記マッチ関数は、コサイン類似度関数、双一次関数、単層ネットワーク、多層ネットワーク、または最近傍関数のうちの１つを含む、先行する請求項のいずれか１項に記載の方法。
１つまたは複数のプロセッサによって実行可能な複数の命令を格納する非一時的なコンピュータ読取可能メモリであって、前記複数の命令は、前記１つまたは複数のプロセッサによって実行されると前記１つまたは複数のプロセッサに処理を実行させる命令を備え、前記処理は、
入力された口頭発話を受信するステップと、
前記入力された口頭発話のベクトル表現を生成するステップと、
マッチ関数を使用して、複数のキー／値のペアの中の各キー／値のペアについてマッチスコアを生成するステップとを備え、各キー／値のペアについて生成された前記マッチスコアは、前記キー／値のペアのキーと前記入力された口頭発話の前記ベクトル表現とのマッチング度合いを示し、前記複数のキー／値のペアの中の各キーは、文の多次元ベクトル表現であり、前記マッチ関数は、異なる関連付けられた値を有する２つの異なるキーのマッチよりも、同一の関連付けられた値を有する２つの異なるキーのマッチについてより高いマッチスコアを生成するように構成され、前記処理はさらに、
前記複数のキー／値のペアについて生成された前記マッチスコアに基づいて、前記複数のキー／値のペアから、最も高いマッチスコアを有する特定のキー／値のペアを識別するステップと、
前記特定のキー／値のペアに関連付けられた値を前記入力された口頭発話についての値として出力するステップとを備える、非一時的なコンピュータ読取可能メモリ。
前記マッチ関数は、訓練データを使用した訓練によって訓練され、前記訓練は、損失関数を最小化することによって、前記マッチ関数に関連付けられたパラメータのセットを調整することを備える、請求項８に記載の非一時的なコンピュータ読取可能メモリ。
前記マッチ関数は、訓練データを使用した訓練によって訓練され、前記訓練は、尤度関数を最大化することによって、前記マッチ関数に関連付けられたパラメータのセットを調整することを備える、請求項８または９に記載の非一時的なコンピュータ読取可能メモリ。
前記複数のキー／値のペアの値は、意図である、請求項８～１０のいずれか１項に記載の非一時的なコンピュータ読取可能メモリ。
前記複数のキー／値のペアの前記キーは、質問の表現であり、
前記複数のキー／値のペアの前記値は、それぞれの質問に対応する回答であり、
前記特定のキー／値のペアに関連付けられた前記出力された値は、選択された回答に対応し、
前記値は、前記入力された口頭発話に対する回答として出力される、請求項８～１１のいずれか１項に記載の非一時的なコンピュータ読取可能メモリ。
前記入力された口頭発話は、第１の入力された口頭発話であり、前記値は、第１の値であり、前記マッチスコアは、第１のマッチスコアであり、前記処理はさらに、
前記第１の入力された口頭発話についての前記第１の値を出力した後、追加のキー／値のペアを含むように前記複数のキー／値のペアを更新するステップと、
第２の入力された口頭発話を受信するステップと、
前記マッチ関数を使用して、前記更新された複数のキー／値のペアの中の各キー／値のペアについて第２のマッチスコアを生成するステップとを備え、前記マッチ関数は、前記第１のマッチスコアを生成するステップと前記第２のマッチスコアを生成するステップとの間で変化せず、前記処理はさらに、
前記更新された複数のキー／値のペアから、最も高いマッチスコアを有する第２の特定のキー／値のペアを識別するステップと、
前記第２の特定のキー／値のペアに関連付けられた第２の値を前記入力された口頭発話についての値として出力するステップとを備える、請求項８～１２のいずれか１項に記載の非一時的なコンピュータ読取可能メモリ。
前記マッチ関数は、コサイン類似度関数、双一次関数、単層ネットワーク、多層ネットワーク、または最近傍関数のうちの１つを含む、請求項８～１３のいずれか１項に記載の非一時的なコンピュータ読取可能メモリ。
対話システムであって、
１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサに結合されたメモリとを備え、前記メモリは、前記１つまたは複数のプロセッサによって実行可能な複数の命令を格納しており、前記複数の命令は、前記１つまたは複数のプロセッサによって実行されると前記１つまたは複数のプロセッサに処理を実行させる命令を備え、前記処理は、
入力された口頭発話を受信するステップと、
前記入力された口頭発話のベクトル表現を生成するステップと、
マッチ関数を使用して、複数のキー／値のペアの中の各キー／値のペアについてマッチスコアを生成するステップとを備え、各キー／値のペアについて生成された前記マッチスコアは、前記キー／値のペアのキーと前記入力された口頭発話の前記ベクトル表現とのマッチング度合いを示し、前記複数のキー／値のペアの中の各キーは、文の多次元ベクトル表現であり、前記マッチ関数は、異なる関連付けられた値を有する２つの異なるキーのマッチよりも、同一の関連付けられた値を有する２つの異なるキーのマッチについてより高いマッチスコアを生成するように構成され、前記処理はさらに、
前記複数のキー／値のペアについて生成された前記マッチスコアに基づいて、前記複数のキー／値のペアから、最も高いマッチスコアを有する特定のキー／値のペアを識別するステップと、
前記特定のキー／値のペアに関連付けられた値を前記入力された口頭発話についての値として出力するステップとを備える、対話システム。
前記マッチ関数は、訓練データを使用した訓練によって訓練され、前記訓練は、損失関数を最小化することによって、または尤度関数を最大化することによって、前記マッチ関数に関連付けられたパラメータのセットを調整することを備える、請求項１５に記載の対話システム。
前記複数のキー／値のペアの値は、意図である、請求項１５または１６に記載の対話システム。
前記複数のキー／値のペアの前記キーは、質問の表現であり、
前記複数のキー／値のペアの前記値は、それぞれの質問に対応する回答であり、
前記特定のキー／値のペアに関連付けられた前記出力された値は、選択された回答に対応し、
前記値は、前記入力された口頭発話に対する回答として出力される、請求項１５～１７のいずれか１項に記載の対話システム。
前記入力された口頭発話は、第１の入力された口頭発話であり、前記値は、第１の値であり、前記マッチスコアは、第１のマッチスコアであり、前記処理はさらに、
前記第１の入力された口頭発話についての前記第１の値を出力した後、追加のキー／値のペアを含むように前記複数のキー／値のペアを更新するステップと、
第２の入力された口頭発話を受信するステップと、
前記マッチ関数を使用して、前記更新された複数のキー／値のペアの中の各キー／値のペアについて第２のマッチスコアを生成するステップとを備え、前記マッチ関数は、前記第１のマッチスコアを生成するステップと前記第２のマッチスコアを生成するステップとの間で変化せず、前記処理はさらに、
前記更新された複数のキー／値のペアから、最も高いマッチスコアを有する第２の特定のキー／値のペアを識別するステップと、
前記第２の特定のキー／値のペアに関連付けられた第２の値を前記入力された口頭発話についての値として出力するステップとを備える、請求項１５～１８のいずれか１項に記載の対話システム。
前記マッチ関数は、コサイン類似度関数、双一次関数、単層ネットワーク、多層ネットワーク、または最近傍関数のうちの１つを含む、請求項１５～１９のいずれか１項に記載の対話システム。
対話システムにおいて使用されるマッチ関数を訓練するための訓練方法であって、
訓練データを用いて前記マッチ関数を訓練するステップを備え、
前記マッチ関数は、複数のキー／値のペアの中のキー／値のペアのキーについての、別のキー／値のペアの別のキーに対するマッチスコアを生成するように訓練され、前記マッチスコアは、前記２つのキーのマッチング度合いを示し、
前記複数のキー／値のペアの中の各キーは、文の多次元ベクトル表現であり、
前記マッチ関数は、異なる関連付けられた値を有する２つの異なるキーのマッチよりも、同一の関連付けられた値を有する２つの異なるキーのマッチについてより高いマッチスコアを生成するように構成される、訓練方法。
前記訓練は、損失関数を最小化することによって、前記マッチ関数に関連付けられたパラメータのセットを調整することを備える、請求項２１に記載の方法。
前記訓練は、尤度関数を最大化することによって、前記マッチ関数に関連付けられたパラメータのセットを調整することを備える、請求項２１または２２に記載の方法。
前記複数のキー／値のペアの値は、意図である、請求項２１～２３のいずれか１項に記載の方法。
前記複数のキー／値のペアの前記キーは、質問の表現であり、
前記複数のキー／値のペアの前記値は、それぞれの質問に対応する回答である、請求項２１～２４のいずれか１項に記載の方法。
前記マッチ関数は、コサイン類似度関数、双一次関数、単層ネットワーク、多層ネットワーク、または最近傍関数のうちの１つを含む、請求項２１～２５のいずれか１項に記載の方法。
対話システムにおいて使用されるマッチ関数を訓練するための訓練装置であって、訓練データを用いて前記マッチ関数を訓練するための手段を備え、
前記マッチ関数は、複数のキー／値のペアの中のキー／値のペアのキーについての、別のキー／値のペアの別のキーに対するマッチスコアを生成するように訓練され、前記マッチスコアは、前記２つのキーのマッチング度合いを示し、
前記複数のキー／値のペアの中の各キーは、文の多次元ベクトル表現であり、
前記マッチ関数は、異なる関連付けられた値を有する２つの異なるキーのマッチよりも、同一の関連付けられた値を有する２つの異なるキーのマッチについてより高いマッチスコアを生成するように構成される、訓練装置。
前記マッチ関数を訓練するための前記手段は、損失関数を最小化することによって、前記マッチ関数に関連付けられたパラメータのセットを調整するように構成される、請求項２７に記載の装置。
前記マッチ関数を訓練するための前記手段は、尤度関数を最大化することによって、前記マッチ関数に関連付けられたパラメータのセットを調整するように構成される、請求項２７または２８に記載の装置。
前記複数のキー／値のペアの値は、意図である、請求項２７～２９のいずれか１項に記載の装置。
前記複数のキー／値のペアの前記キーは、質問の表現であり、
前記複数のキー／値のペアの前記値は、それぞれの質問に対応する回答である、請求項２７～３０のいずれか１項に記載の装置。
前記マッチ関数は、コサイン類似度関数、双一次関数、単層ネットワーク、多層ネットワーク、または最近傍関数のうちの１つを含む、請求項２７～３１のいずれか１項に記載の装置。
１つまたは複数のプロセッサによって実行可能な複数の命令を格納する非一時的なコンピュータ読取可能媒体であって、前記複数の命令は、前記１つまたは複数のプロセッサによって実行されると前記１つまたは複数のプロセッサに処理を実行させる命令を備え、前記処理は、
訓練データを用いてマッチ関数を訓練するステップを備え、
前記マッチ関数は、複数のキー／値のペアの中のキー／値のペアのキーについての、別のキー／値のペアの別のキーに対するマッチスコアを生成するように訓練され、前記マッチスコアは、前記２つのキーのマッチング度合いを示し、
前記複数のキー／値のペアの中の各キーは、文の多次元ベクトル表現であり、
前記マッチ関数は、異なる関連付けられた値を有する２つの異なるキーのマッチよりも、同一の関連付けられた値を有する２つの異なるキーのマッチについてより高いマッチスコアを生成するように構成される、非一時的なコンピュータ読取可能媒体。
前記訓練は、損失関数を最小化することによって、前記マッチ関数に関連付けられたパラメータのセットを調整することを備える、請求項３３に記載の非一時的なコンピュータ読取可能媒体。
前記訓練は、尤度関数を最大化することによって、前記マッチ関数に関連付けられたパラメータのセットを調整することを備える、請求項３３または３４に記載の非一時的なコンピュータ読取可能媒体。
前記複数のキー／値のペアの値は、意図である、請求項３３～３５のいずれか１項に記載の非一時的なコンピュータ読取可能媒体。
前記複数のキー／値のペアの前記キーは、質問の表現であり、
前記複数のキー／値のペアの前記値は、それぞれの質問に対応する回答である、請求項３３～３６のいずれか１項に記載の非一時的なコンピュータ読取可能媒体。
前記マッチ関数は、コサイン類似度関数、双一次関数、単層ネットワーク、多層ネットワーク、または最近傍関数のうちの１つを含む、請求項３３～３７のいずれか１項に記載の非一時的なコンピュータ読取可能媒体。
請求項１～７のいずれか１項に記載の方法をコンピュータに実行させるためのプログラム。
請求項２１～２６のいずれか１項に記載の方法をコンピュータに実行させるためのプログラム。