JP2010537321A

JP2010537321A - 統計的分類のための最適な選択方略の方法及びシステム

Info

Publication number: JP2010537321A
Application number: JP2010521998A
Authority: JP
Inventors: フー，ジュンリン; モルビニ，ファブリツィオ; ウェン，フイラン; リウ，シュー
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2007-08-24
Filing date: 2008-08-20
Publication date: 2010-12-02
Also published as: US8024188B2; EP2191460A1; WO2009029452A1; ATE529851T1; EP2191460B1; US20090055176A1

Abstract

最適な選択方略又は判断方略を、対話システムにおける使用を含む一例を通じて説明する。選択方略又は選択方法は、複数の予測及び複数の確率を受け取ることを含む。受け取られた予測は、受け取られた入力の内容を予測し、確率のそれぞれは予測のうちの１つに対応する。対話システム例では、受け取られた入力は発話を含む。選択方法は、ランク付けされた予測を生成することによって、受け取られた予測から予測のセットを動的に選択することを含む。ランク付けされた予測は、降順の確率に従って複数の予測を順序付けることによって生成される。
【選択図】図１Ａ

Description

本明細書における開示は、包括的には、自然言語処理、音声認識、自然言語理解、対話行為分類、及び自然言語生成を含む様々な分野における統計的学習手法及びそれらの適用に関する。特に、本開示は、対話システムにおける誤り検出の例示的な適用を示す。

多くのソフトウェアアプリケーションでは、統計的分類器を使用してあり得る出力を予測する。統計的分類器は、すべてのあり得る出力に対し確率分布を割り当てる。システムは、確率が最も高い上位ｎ個の出力を選択することができる。これはｎベスト（n-best）選択方法と呼ばれ、音声認識、自然言語理解、機械翻訳及び他の用途で使用されてきた。従来から、ｎは定数である。

対話システムは、人が、結果を達成するためにコンピュータに自然言語で話すか又は他の方法で入力するシステムである。マイクロプロセッサ制御の電化製品及び機器の増加によって、対話システムは、コンピュータ、自動車、家庭電化製品、電話による顧客サービス等の多くの用途においてマンマシンインタフェースを容易にするために、ますます使用されるようになっている。対話システムは、問合せを処理し、１つ又は複数のデータベースにアクセスして、問合せに対する応答を検索する。対話システムはまた、ユーザからの要求に基づいて他の動作を実行することもできる。可能な限りユーザとのやりとりを少なくして意味のある結果を提供するために、対話システムを、問合せの内容及びフォーマット並びに応答データの内容及びフォーマットの大きなばらつきに対応するように設計及び実装するべきである。

通常、対話システムは、言語理解モジュール、対話管理モジュール、及び応答生成モジュールを含む、いくつかのモジュール又はコンポーネントを含む。音声対話システムの場合、音声認識モジュール、及びテキスト−音声変換モジュールが含まれる。各モジュールは、いくつかのサブモジュールを含む場合がある。これらのモジュールのうちの１つ又は多くにおいて統計的手法が使用される場合、複数の結果候補が生成される可能性がある。従来のシステムで複数の候補が生成される場合、候補の数は、静的パラメータのうちの１つとして固定される。

最近の対話システムにおける永続的な問題は、有効範囲と、それらがユーザの問合せに対する応答を処理して返すために静的規則、データ構造、及び／又はデータ内容に依存するという事実とである。対話システムがいかに広範であるかに関わらず、人々が話す可能性のすべてを網羅することは不可能である。ロバストなシステムを構築するために、新たなデータが収集されると容易に訓練し更新することができる組込み適応コンポーネントを含む対話システムが必要とされている。したがって、システムが理解しない発話を動的に格納し、これらの格納された発話のデータを使用して後にシステムを再訓練することができる対話システムが必要とされている。これによって、システムがすでに理解しているデータについてシステムを訓練する無駄な労力がなくなる。

参照による援用
本明細書で言及する各特許、特許出願、及び／又は刊行物は、各個々の特許、特許出願及び／又は刊行物が参照により援用されているように具体的に且つ個々に示されているのと同程度に、その全体が参照により本明細書に援用される。

一実施形態に基づく、本明細書で説明する最適選択又は判断方略を使用するように構成される音声対話システム１００のブロック図である。一実施形態に基づく、適応対話システム（ＡＤＳ）のブロック図である。一実施形態に基づく、発話を分類するフローチャートである。一実施形態に基づく、対話システムを訓練するフローチャートである。一実施形態に基づく、ＡＤＳの一例に適用されるように能動学習において識別されるデータセット間の関係のブロック図である。一実施形態に基づく、累積確率曲線を示す図である。一実施形態に基づく、所与の入力文又は発話に対しＡＤＳ分類器が返す分布の一例を示す図である。一実施形態に基づく、１１７８点の第１のデータセットにおけるｎ^＊及びｎのヒストグラムを示す図である。一実施形態に基づく、４７１点の第２のデータセットにおけるｎ^＊及びｎのヒストグラムを示す図である。学習した分類器の累積確率分布Ｐを示す図である。確信度が低いものとしてマークされたデータ点のセットＳとｎの値との関係を示す図である。一実施形態に基づく、ＡＤＳの性能評価のために使用されるＲＯＣ曲線の図である。一実施形態に基づく、ケース１の訓練データ例を使用してｎ^＊ベスト選択の下で得られるＲＯＣ曲線を示す図である。一実施形態に基づく、ケース２の訓練データ例を使用してｎ^＊ベスト選択の下で得られるＲＯＣ曲線を示す図である。一実施形態に基づく、ケース１の訓練データ例を使用してｎ^＊ベスト選択（ｎ^＊はｎ＝０として表す）下で得られるＲＯＣＡＵＣの大きさを示す図である。一実施形態に基づく、ケース２の訓練データ例を使用してｎ^＊ベスト選択（ｎ^＊はｎ＝０として表す）下で得られるＲＯＣＡＵＣの大きさを示す図である。

最適選択又は判断方略について以下に説明する。場合によっては、最適選択又は判断方略を、対話システム例を使用して説明するが、本実施形態はそのように限定されない。図１Ａは、一実施形態に基づく、本明細書で説明する最適選択又は判断方略を使用するように構成される音声対話システム１００のブロック図である。この例の対話システム１００は、言語理解モジュール（たとえば自然言語理解（ＮＬＵ）モジュール）、対話管理モジュール（たとえば対話管理部）及び応答生成モジュール（たとえば自然言語生成部（ＮＬＧ）モジュール）を含む、いくつかのモジュール又はコンポーネントを含む。音声対話システム１００の場合、音声認識モジュール（たとえば自動音声認識（ＡＳＲ）モジュール）及びテキスト−音声変換モジュール（たとえばＴＴＳモジュール）が含まれる。各モジュールは、いくつかのサブモジュールを含む場合がある。たとえば、ＮＬＵモジュールは、品詞（ＰＯＳ）タグ付け部、編集領域検出モジュール、固有名詞識別モジュール、構文解析部、意味スロット識別モジュール、及び意味解釈部を含む場合がある。対話管理部では、対話行為分類が１つのコンポーネントである。対話システムのモジュール又はサブモジュールのそれぞれにおいて、統計的手法が使用される場合、モジュール又はサブモジュールから複数の候補が生成され得る。こうした場合、本明細書で説明する最適選択方略を使用することができる。

以下の説明では、ホスト対話システム、たとえば対話システム１００において発話が理解されるか否かを判断する、選択方略又は選択方法が使用される。この選択方略は、システムが理解しない発話が動的に格納されると共に後にシステム（たとえばシステムの統計的モデル）を再訓練するために使用されるように、対話システムにおいて有効範囲拡張をサポートする。こうした判断は、偽陽性の場合と偽陰性の場合とを平衡させなければならない。本明細書で説明する実施形態は、ｎが各発話の分類器分布に基づいて動的に確定される可変ｎベスト出力の累積確率に基づいて、本明細書ではｎ^＊ベスト（n^*-best）選択と呼ぶ選択方略、方法、又はコンポーネントを提供する。固定ｎを用いる従来のｎベスト方法と対照してテストされる、ｎ^＊ベスト選択アルゴリズムとも呼ぶｎ^＊ベスト選択の性能についても説明する。性能を、後述するように、受信者動作特性曲線（Receiver Operating Curve）（ＲＯＣ）の下の面積に基づいて測定した。性能結果によって、ｎ^＊ベスト選択が、任意の固定のｎを用いる他のすべてのｎベスト方法より一貫して良好に動作することが分かった。

一実施形態のｎ^＊ベスト選択の下でｎベストの結果に対してｎを動的に選択することによって、従来の技法に比較して改善された、分類器の出力を使用する方法が提供される。これは特に、分類器出力がより複雑なシステムの他の段階で使用される場合に当てはまる。本明細書で説明するｎ^＊ベスト選択は、対話行為の分類に限定されず、たとえばｎベスト出力が必要である他のコンポーネントにおいても使用することができる。対話行為は、人間対人間の対話若しくは人間対機械の対話又は対話イベントにおいて、要求、質問、確認等のような意図される動作を単語を介して表現する行為である。

一実施形態の対話システムは、システムに、新たなデータによって容易に更新することができる組込み適応コンポーネント（たとえば、統計的自然言語理解（ＮＬＵ）モジュール、分類器ベースの意味解釈部等）を提供することによって、人間のあり得る発話のより広範な有効範囲を含む。一実施形態の対話システムは、組込み適応コンポーネントが、新たなデータが収集されると訓練され更新されるのを可能にするように構成される。一実施形態では、システムが理解しない発話を動的に格納し、格納された発話のデータを使用してシステムを再訓練することによって、有効範囲を拡張する。この構成によって、ラベル付けのコストを最小化するように、訓練のために大きいプールから選択されるデータ点のわずかなサンプルを使用することによって、システムがすでに理解するデータについてシステムを訓練する無駄な労力が排除される。

一実施形態のｎ^＊ベスト選択は、従来のｎベスト選択に類似するが、ｎが、各入力発話に対しその発話に対する分類器の出力の特性に基づいて動的に選択される点が異なる。最初のｎ^＊個のクラスに割り当てられる確率の合計が一定閾値を上回る場合、システムは、ユーザの発話のその分類に対して確信すると判断する。そうでない場合、システムは、文を理解せず、後の訓練のためにそれを保存すると宣言する。

以下の説明では、対話システムの実施形態が完全に理解されると共にそれに対する説明が可能となるように多数の特定の詳細を紹介する。しかしながら、当業者は、これらの実施形態を、特定の詳細のうちの１つ若しくは複数を用いずに、又は他のコンポーネント、システム等を用いて実施することができることを理解するであろう。他の場合では、開示する実施形態の態様を不明瞭にしないために、既知の構造又は動作については示さないか、又は詳細に説明しない。

図１Ｂは、一実施形態に基づく、適応対話システム（ＡＤＳ）のブロック図である。ＡＤＳのコンポーネントは、理解されないユーザ発話を自動的に識別し格納するように、個々に且つ／又は集合的に構成されると共に機能する。理解されなかった発話は、後述するように後の訓練に使用される。ＡＤＳは、データベースに結合された分類器を含む。分類器はまた、ホスト対話システムの名詞句（ＮＰ）抽出部（ＮＰ抽出部）にも結合される。再訓練コンポーネント又はモジュールが、分類器とデータベースとの間に結合される。一実施形態の再訓練コンポーネントは、グラフィカルユーザインタフェース（ＧＵＩ）を含む。

分類器は、入力として発話又は文を受け取る。分類器は、ユーザ発話の解析木から計算される特徴を使用して、ユーザの対話行為に対し予測を行う。分類器は、分類器の結果に関連する確信度のレベルを決定するように構成される判断コンポーネントを含むか又はそれに結合される。判断コンポーネントについては後に詳細に説明する。分類器は、ＡＤＳが結果に関して比較的確信していると決定すると、その発話を「理解された」として分類し、結果をＮＰ抽出部、及び／又はＡＤＳの他のコンポーネント若しくは段階、又は他のホストシステム（複数可）に転送するか又は渡す。

分類器は、確信している場合、正しくないか又は相対的に確信度が低い可能性のある結果をも返すことができ、この場合、発話は「誤解された」として分類される。誤解されたものとして分類される発話（検出が困難な場合もあるが）もまた、ＮＰ抽出部及び／又はＡＤＳの他のコンポーネント若しくは段階に転送される。

判断コンポーネントが、ＡＤＳが分類器の結果に関して確信していないか又はその確信度が相対的にはるかに低いと決定した場合、発話は「理解されなかった」として分類される。理解されなかったものとして分類される発話の情報又は結果は、データベースに転送され、そこで後の訓練のために保存される。データベースは、ＡＤＳによって理解されなかったものとして分類される発話に関する情報を格納する。発話、その解析木、及び分類器によって割り当てられた現ラベルは、たとえばデータベースに格納されるが、データベースは、このデータ若しくは情報のすべてを格納すること、又はこのデータ若しくは情報のみを格納することには限定されない。さらに、ＡＤＳは、理解されなかった発話に応答してユーザに対する応答（たとえば、「理解できない」）を含む出力を生成する。

ＡＤＳコンポーネントは、単一システム、複数のシステム、及び／又は地理的に離れたシステムのコンポーネントであってもよい。ＡＤＳコンポーネントはまた、単一システム、複数のシステム、及び／又は地理的に離れたシステムの、サブコンポーネント又はサブシステムであってもよい。ＡＤＳコンポーネントを、ホストシステム又はホストシステムに結合されたシステムの１つ又は複数の他のコンポーネント（図示せず）に結合してもよい。

一実施形態のＡＤＳは、処理システムを含み、且つ／又はその下で且つ／若しくはそれに関連して実行される。処理システムは、本技術分野において既知であるように、共に動作するプロセッサベースデバイス若しくはコンピューティングデバイスか、又は処理システム若しくは処理デバイスのコンポーネントの任意の集まりを含む。たとえば、処理システムは、ポータブルコンピュータ、通信ネットワーク内で動作するポータブル通信デバイス、及び／又はネットワークサーバのうちの１つ又は複数を含んでもよい。ポータブルコンピュータは、パーソナルコンピュータ、携帯電話、携帯情報端末、ポータブルコンピューティングデバイス、及びポータブル通信デバイスの中から選択される複数のデバイス及び／又はデバイスの組合せのうちの任意のものとすることができるが、そのように限定されない。より詳細には、システムは、いくつか挙げると、対話インタフェースを備えるセキュリティシステム、言語インタフェースを備える電化製品、電話による顧客サポートシステム及び技術サポートシステム、並びに、たとえばナビゲーション、地域情報検索、及び車内エンターテイメントシステムを含む、言語インタフェースを備える自動車製品又はコンポーネントを含んでもよい。処理システムは、より大型のコンピュータシステム内のコンポーネントを含んでもよい。

一実施形態の処理システムは、少なくとも１つのプロセッサと少なくとも１つのメモリデバイス又はサブシステムとを含む。処理システムはまた、少なくとも１つのデータベースを含むか又はそれに結合されてもよい。本明細書において概して使用する用語「プロセッサ」は、１つ又は複数の中央処理装置（ＣＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）等のような任意の論理処理ユニットを指す。プロセッサ及びメモリを、単一チップにモノリシックに集積してもよく、ＩＤＳＳの複数のチップ若しくはコンポーネント間に分散させてもよく、且つ／又はアルゴリズムのいくつかの組合せによって提供してもよい。本明細書で説明するＡＤＳ方法を、ソフトウェアアルゴリズム（複数可）、プログラム、ファームウェア、ハードウェア、コンポーネント、回路のうちの１つ又は複数において任意の組合せで実装してもよい。

ＡＤＳコンポーネントを、合わせて配置してもよく又は別の場所に配置してもよい。通信経路は、ＡＤＳコンポーネントを結合し、それらのコンポーネント間でファイルを通信するか又は転送する任意の媒体を含む。通信経路は、無線接続、有線接続、及びハイブリッド無線／有線接続を含む。通信経路はまた、ローカルエリアネットワーク（ＬＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、広域ネットワーク（ＷＡＮ）、専有（proprietary）ネットワーク、社内ネットワーク又はバックエンドネットワーク、及びインターネットを含む、ネットワークに対する結合又は接続も含む。さらに、通信経路は、フロッピーディスク、ハードディスクドライブ、及びＣＤ−ＲＯＭディスクのような着脱可能な固定媒体と共に、フラッシュＲＡＭ、ユニバーサルシリアルバス（ＵＳＢ）接続、ＲＳ−２３２接続、電話線、バス、及び電子メールメッセージを含む。

図２は、一実施形態に基づく、発話を分類するフローチャートである。ＡＤＳの１つ又は複数のコンポーネントは、発話を受け取る（２０２）ように構成され且つ／又は機能する。発話に対応して対話行為に対する複数の予測が生成される（２０４）。ＡＤＳは、それぞれが予測に対応する複数の確率を生成する（２０６）。ＡＤＳは、複数の予測から予測のセットを動的に選択し（２０８）、その予測のセットの累積確率に従って発話を分類する（２１０）ように構成され且つ／又は機能する。

ＡＤＳの再訓練コンポーネントは、人間のユーザが理解されなかったものとして分類されると共にデータベースに格納された発話を迅速に再度ラベル付けする（たとえば手作業でラベル付けする（hand label））ことを可能にするＧＵＩに結合され且つ／又はそれを含む。ＡＤＳは、ラベルを選択するあり得る対話行為を、ＧＵＩを介して、分類器が人間のユーザに対する提案として選択したものを最初に強調して表示する。再訓練コンポーネントは、再ラベル付けされた発話のデータを使用して、古い訓練データと新たな再ラベル付けされたデータとに基づいて分類器を訓練する。理解されなかった発話の前にｎ個のデータ点があり、且つ理解されなかった発話の数がｍであるとすると、新たな訓練データはｎ＋ｍ個のデータ点を有することになる。新たに訓練されたモデルを、再起動する必要なしに実行中のシステム内に組み込むことができる。

図３は、一実施形態に基づく、対話システムを訓練するフローチャートである。ＡＤＳの１つ又は複数のコンポーネントは、発話を受け取る（３０２）ように構成され且つ／又は機能する。ＡＤＳは、発話に対応する対話行為に対する複数の予測から予測のセットを動的に選択する（３０４）。発話を、予測のセットの累積確率に従って分類する（３０６）。ＡＤＳは、発話が理解されなかったものとして分類された場合に、その発話を使用して分類を動的に再訓練する（３０８）ように構成され且つ／又は機能する。

文を解釈することに関連付けられる確信度に関連する判断は、ラベル付け及び再訓練のためにその文を選択すべきか否かの判断に移行する。この意味で、この判断問題は、能動学習に類似するか又は同じである。図４は、一実施形態に基づく、ＡＤＳの一例に適用されるような能動学習において識別されるデータセット間の関係のブロック図である。元の訓練セットがＮ_１であり、新たなデータが固定セットＮ_２から来るものとすると、判断は、人間のラベル付けに対しそのデータを選択するか否かである。人間のラベル付けに対しデータ点が選択される場合、それは、Ｓとして表されるセットに保存される。能動学習では、目標は、人間のラベル付け労力を低減して、データセットＮ_１に対して以前に訓練されたモデルを改善するように優れたセットＳを決定することである。

選択的サンプリングは、能動学習と等価である。一実施形態のＡＤＳに適用されるような能動学習の特有の特徴は、毎回１つのデータ点しか選択することができないということを含む。毎回１つのデータ点を選択することによって、一実施形態の能動学習は、一括サンプリングが許容される従来の実施形態とは異なるものとなる。

また、ＡＤＳに適用されるような能動学習の特有の特徴によって、データ点の各選択が以前の選択から独立することになる。データ点の各選択が以前の選択から独立することによって、一実施形態の能動学習は、以前の判断からのフィードバックを使用して次のラウンドのサンプリングに役立てる従来の能動学習とは異なるものとなる（たとえば、Thomas Osugi、Deng Kun及びStephen Scott著、2005、「Balancing Exploration and Exploitation: A New Algorithm for Active Machine Learning boundaries」（Proceedings of the Fifth IEEE International Conference on Data Mining (ICDM'05)））。

さらに、ＡＤＳに適用されるような能動学習の特有の特徴は、間違った選択がシステム性能にほぼ即座に影響を与えるという考慮事項を含む。一実施形態の能動学習はまた、リアルタイム又はほぼリアルタイムで実行され、それは、いかなる学習も静的コーパスに対しオフラインで行われる従来の能動学習とは対照的であるという点で、従来の能動学習とは異なる。

能動学習の一態様は、サンプル選択基準を含む。一実施形態に基づくサンプル選択基準は、すべてのサンプルに対する、後のラベル付け及び訓練に対しサンプルを保持するべきか否かに関する判断を含む。サンプル選択は、概して、コミッティ（committee）ベースの選択又は確実性ベースの選択を使用して行われる。ＡＤＳは確実性ベースの選択（Goekhan Tuer、Dilek Hakkani-Tuer及びRobert E.Schapire著、2005、「Combining active and semi-supervised learning for spoken language understanding」（Speech Communication, 45(2):171-186, 2005）によって使用される）を使用するが、そのように限定はされない。

確実性ベースの学習は、分類器結果に対する確実性に基づいてデータ点を選択する。統計的分類器（最大エントロピー又はベイズ分類器等）は、すべてのあり得るクラスに対して確率分布を返す。通常、これらの確率を使用して、分類器のその判断に対する確信度を推定する。一実施形態のＡＤＳ下での動作は、分類器出力を最高確率から最低確率までソートすることによって分類器の確信度を推定する。ソートされた分類器出力の間で、分類器によって最も確信度が高い出力として返されたクラスのセットを規定するカットオフ点（ｎ^＊）が確定される。カットオフ点の前に発生するソートされた分類器出力の確率に対し、返されたクラスすべての確率の合計が計算される。この累積確率が事前定義された閾値を下回る場合、ＡＤＳは、分類器がその分類を確信していないと判断する。累積確率が事前定義された閾値以上である場合、ＡＤＳは、分類器がその分類を確信していると判断し、対話管理部に結果を送出又は転送する。

図５は、一実施形態に基づく、累積確率曲線５００を示す。上述したような所定閾値をｈとして表す。累積確率曲線５００は以下のように定義され、

ここで、ｐ_１は第１のクラスに関連付けられる確率であり、ｐ_ｎは第ｎのクラスに関連付けられる確率である。なお、確率は最高から最低までソートされ、そのため

であることに留意されたい。
確実性ベースの能動学習では、分類器によって返される最良クラスを選択することが一般的であり（たとえば、Tur他、2005）、これを１ベスト方法と呼ぶ。しかしながら、これは一実施形態のＡＤＳには理想的ではない。それは、文が複数の対話の動きにマッピングされる可能性があるためである。したがって、分類器は、互いに非常に近いクラスのグループを返す可能性がある。図６は、一実施形態に基づく、所与の入力された文又は発話に対しＡＤＳ分類器が返す分布６００の一例を示す。確率分布例のこのプロット６００を参照すると、上位の３つのクラス６０１〜６０３のそれぞれ（それぞれ、ｎの値１、２及び３に対応する）は、およそ３０％の確率を有する。１ベスト方法を使用すると、このインスタンスは確信度が低いものとして返される。しかしながら、これらの上位３つのクラスのうちの１つが正しいクラスである可能性がある。選択された上位３つのクラスが対話管理部に送出されると、対話管理部は、文脈及び対話履歴に基づいて最終選択を行うことができる。

ｎベスト方法は、音声認識及びＮＬＵにおいて広範囲に使用されてきており、機械翻訳でも広く使用されている（たとえば、Kristina Toutanova及びHisami Suzuki著「Generating Case Markers in Machine Translation」（Human Language Technologies 2007: The Conference of the NAACL; Proceedings of the Main Conference, April, 2007, Rochester, New York. Association for Computational Linguistics, pages: 49-56, http://www.aclweb.org/anthology/N/N07/N07-017））。システムに、何が適切な翻訳であるかに関する情報がほとんどないとすると、ｎベスト方法下ではすべてのあり得る候補が後の段階に送出され、そこでランク付け部が候補に対して判断を行う。これらの適用の大部分において、候補の数ｎは固定数である。

ｎベストの場合に固定数ｎを選択する代りに、本明細書で説明するＡＤＳは、各発話に対する分類器の分布に基づいてｎを動的に設定する。本明細書では、ｎの動的設定を、ｎ^＊ベスト選択と呼び、それが一実施形態のＡＤＳによって使用される。したがって、ｎ^＊ベストは、ｎが場合によって変化するｎベストの変形である。ｎ^＊ベスト選択は、数ｎ^＊が以下の特性を満足するように、モデルから返されるクラスの数を選択する。すなわち、

であり、ここで、ｐ_ｎ及びｐ_ｎ＋１は、それぞれクラスｎ及びクラスｎ＋１の確率である。言い換えると、ｎ^＊は、低下ｐ_ｎ−ｐ_ｎ＋１を最大にするカットオフ点である。
上述した分布６００（図６）では、たとえばｎ^＊ベストを使用すると、ｐ_３−ｐ_４＝０．２９は他のすべての低下より大きいため、ｎ^＊＝３である。言い換えれば、この例の場合、ＡＤＳは３ベスト候補を返す。

図７は、１１７８点の第１のデータセットにおけるｎ^＊及びｎのヒストグラムを示す。この第１のデータセットは、およそ８００のケースが、９０％の累積確率Ｐ（ｎ）を返すために３つのクラス（ｎ＝３）を必要とすることを示す。別の３００のケースでは、９０％の確信度を有するために４つのクラスを返す必要がある。図８は、４７１点の第２のデータセットにおけるｎ^＊及びｎのヒストグラムを示す。第２のデータセットで、第１のデータセットと同様の結果が示されている。したがって、固定数ｎのｎベスト選択（たとえば３ベスト、４ベスト等）を使用することによって、概して、最適とはいえない結果が提供される。しかしながら、第１のデータセット及び第２のデータセットのそれぞれにおけるｎ^＊のヒストグラムのプロットによって、ｎ^＊が、Ｐ（ｎ）＞９０％をもたらす最適なｎの分布に近いことが分かる。

ｎ^＊ベスト選択を考慮又は評価する別の方法は、累積確率の使用を含む。図９は、学習された分類器の累積確率分布Ｐを示す。学習した分類器の累積確率分布曲線９００が凹関数であることが分かる。学習した分類器の累積確率分布曲線９００が凹関数であるという証明は、凹関数が以下の特性を満足させることを考慮することによって開始する。

以下を考慮すると、

以下のようになる。

ｙ＝（ｘ＋ｋ）を代入すると、

となり、上記式からのさらなる減算の結果、以下のようになる。

上記最後の不等式は、確率が最高から最低までソートされるとき、

であるということから導出される。
ｎ^＊の導出は、累積確率曲線の二次導関数を最大化することと等価である。クラスの数が無限大に近づき、ｎ^＊が上述した式（１）に基づいて選択される場合、以下のようになる

これを、以下を考慮することによって示すことができ、

以下のようになる。

クラスの数が無限大に近づくと、累積曲線は連続的になる。したがって、

を、以下によって近似することができる。

であるため、以下のようになる。

Ｐ（ｎ）が、上述したように凹関数であるとすると、それは以下の特性を有する。

点ｎにおける二次導関数は、凹関数曲線に対する接線の勾配における増大である。したがって、ｎ^＊＋１を通過する接線は、その勾配において最大の増大を有する。
能動学習の一態様は、性能評価を含む。一実施形態のｎ^＊ベスト選択の性能評価は、定義された目的関数又は評価基準を使用して、ｎ^＊ベスト方法の性能を従来のｎベスト選択方法と比較することを含む。能動学習研究では、最も一般に使用される評価基準は誤り率である。誤り率を以下のように書くことができ、

ここで、ＴＰは真陽性（true positive）の数を表し、ＦＰは偽陽性の数を表す。この基準（measure）は重要であるが、ユーザに間違った解答を与えること（偽陽性）と、適当に分類されたユーザの発話の拒絶が多すぎること（偽陰性）との間のトレードオフを捕えない。したがって、一実施形態の目的関数は、受信者動作特性（ＲＯＣ）曲線に基づく。特に、ＲＯＣ曲線を使用する場合、より適切な選択基準は、ＲＯＣ曲線の下の面積がより広いものである。続いて、様々な選択基準の性能を評価するのにＲＯＣ曲線を使用する。

本明細書では、セットＳを、確信度が低いものとしてマークされると共に人によってラベル付けされるデータ点の集まりとして定義する。セットＮ_２は、新たなデータすべてのセットを表し、ｈは、確信度閾値を表し、ｄは、Ｎ_２における任意のデータ点を表す。そして、セットＳを以下のように定義することができる。

したがって、分類器からのｎベストクラスの累積確率が閾値ｈを下回る場合、ＡＤＳは分類器結果に対し確信がなく、したがって、データを将来の訓練のために保存する。セットＳは、上述したようにｎ及びｈ両方の関数である。固定ｈの場合、セットＳのサイズはｎが大きいほど低減する。図１０は、確信度が低いものとしてマークされたデータ点のセットＳとｎの値との間の関係を示す。

真陽性（ＴＰ）及び偽陽性（ＦＰ）に加えて、一実施形態の性能評価は、真陰性（ＴＮ）及び偽陰性（ＦＮ）も考慮する。分類器の結果が人間のラベルと一致する場合、それらは真陽性ケースとしてカウントする。非訓練セット（Ｎ_２−Ｓ）内のデータ点は、このデータ点に対する予測されたクラスが誤っている（人間のラベルセットと一致しない）場合の偽陽性（ＦＰ）か、又は真陽性（ＴＰ）のいずれかである可能性がある。同様に、人間のラベルと一致するＳ内のデータ点は、偽陰性となり、そうでない場合は真陰性となる。

データ点ｄに対する人間のラベルの集まりを、本明細書ではＬ_ｄとして表し、Ｃ_ｄ（ｎ）は、確率によって最高から最低までランク付けされて分類器によって返される最初のｎ個のクラスの集まりを表す。上記表現を考慮すると、以下のようになる。

一実施形態の選択基準は、最適なＳをもたらし、最適なＳは、小さく、且つ真陰性インスタンスのみを含むものである。したがって、選択基準のより適切な性能測度はＲＯＣ曲線であり、それは、ＲＯＣ曲線が偽陽性及び偽陰性も考慮するためである。

ＲＯＣ曲線は、真陽性率対偽陽性率のグラフィカルプロットである。ＲＯＣ分析は、不明確な環境におけるそのロバスト性のために、多数の分野において注意を引いてきた。図１１は、一実施形態に基づく、ＡＤＳの性能評価に使用されるＲＯＣ曲線である。ＲＯＣ空間は、偽陽性率（ＦＰＲ）（たとえばｘ軸）と真陽性率（ＴＰＲ）（たとえばｙ軸）とによって画定され、真陽性と偽陽性との間の相対的なトレードオフを示す。あり得る最適な予測方法は、ＲＯＣ空間の左上隅の点すなわち座標（０，１）をもたらし、それは特定のモデルによって真陽性のみがすべて返される場合を表し、この点は完全な分類に対応する。４５度対角線は、非識別線（no-discrimination line）と呼ばれ、それぞれ真の場合の総数（すなわちＴＰ＋ＦＮ）及び偽の場合の総数（すなわちＴＮ＋ＦＰ）と比較した場合に同じ割合の真陽性及び偽陽性を返す分類器を表す。

ＲＯＣ曲線は、ＴＰＲがＦＰＲに対してプロットされるときに閾値ｈを変化させることによって導出される。検出感度又は再現率とも呼ばれるＴＰＲは、以下の式によって表される。

ＦＰＲは、およそ１−特異度の量であり、以下の式によって表される。

ＲＯＣ曲線の下の面積（ＡＵＣと呼ぶ）は、分類器の性能を定量化するのに使用される要約統計量である。ＡＵＣ値が大きいほど、分類器の性能は優れている。
ＲＯＣ曲線の対角線より上の点は、より優れた分類器（すなわち、より高い率のＴＰ及びＴＮを識別するもの）を示し、線より下の点は、より弱い分類器を示す。その結果、ＲＯＣ曲線と非識別線との間の面積を使用して、分類器の性能を示すことができる。この面積は、一般に、識別面積として知られ、本明細書ではＲＯＣ面積と呼ぶ。

一実施形態のｎ^＊ベスト選択の性能を、図７及び図８を参照して上述した２つのデータセットを使用して評価した。第１のデータセットは１１７８のユーザ発話を含み、第２のデータセットは４７１の発話を含む。これらのサンプル発話は、レストラン推奨ドメインからのものであるが、そのようには限定されない。第１のデータセットを、以下の説明では「大きい訓練データ」すなわち「ＬＤ」と呼び、第２のデータセットを、以下の説明では「小さい訓練データ」すなわち「ＳＤ］と呼ぶ。２つのデータセットＬＤ及びＳＤを使用して、以下のように２つのシナリオをシミュレートする。すなわち、ケース１は、データセットＬＤ及びデータセットＳＤを含み、モデルは、大きいデータセットＬＤに対して訓練され、小さいデータセットＳＤに対してテストされ、ケース２は、データセットＳＤ及びデータセットＬＤを含み、モデルは、小さいデータセットＳＤに対して訓練され、大きいデータセットＬＤに対してテストされる。

データセットＬＤ及びＳＤの両方におけるすべての発話は、対話行為によって手作業でラベル付けされた。各発話に関連付けられる２つ以上の対話行為がある可能性もある。訓練インスタンス例は、「（安いレストラン）、（問合せ：レストラン、回答、修正）」を含む。訓練インスタンスの第１の部分はユーザの発話であり、訓練インスタンスの第２の部分（Ｌ_ｄと呼ぶ）は、人間がラベル付けした対話行為のセットである。全体で、３つのテストに対して使用されるドメインにおいて、３０のあり得るユーザ対話行為がある。

本明細書において提示する評価は、ｎ^＊ベスト方法を、ｎがおよそ１から６の範囲である固定ｎベスト方法と比較した。これらの方法のそれぞれに対し、０．１から１までの範囲で０．０５刻みで閾値ｈの値に対してＴＰ、ＦＰ、ＴＮ及びＦＮを計算する。ＴＰＲ及びＦＰＲを導出し、ＲＯＣ曲線をプロットするために使用する。

図１２は、一実施形態に基づく、ケース１の訓練データ例を使用してｎ^＊ベスト選択の下で得られるＲＯＣ曲線を示す。訓練データ例は、上述したケース１に基づくデータであり、その場合、モデルは大きいデータセットＬＤに対して訓練され、小さいデータセットＳＤに対してテストされる。ｎ^＊ベスト選択のＲＯＣ曲線は、比較のために、ｎが様々な値をとる固定ｎベスト選択と共にプロットされている。

一実施形態のｎ^＊ベスト選択に対するＲＯＣ曲線は、概して、ほとんどの場合、固定ｎである他の方法より優れている。実際には、ｎのいくつかの値に対し、ｎベスト選択は非識別線（「ランダム」線と付す）の下で実行する。たとえば、高閾値ｈでの２ベストは、ほとんどの場合ｈに到達せず、それは、累積確率を計算するために２つのノードしか考慮されないためである。これによって、大きいセットＳは多くのＦＮを含む結果となる。これによって、ＴＰＲは低下し、ＦＰＲはＴＰＲより高くなる。

図１３は、一実施形態に基づく、ケース２の訓練データ例を使用してｎ^＊ベスト選択下で得られるＲＯＣ曲線を示す。訓練データ例は、上述したケース２に基づくデータであり、その場合、モデルは、小さいデータセットＳＤに対して訓練され、大きいデータセットＬＤに対してテストされる。ｎ^＊ベスト選択のＲＯＣ曲線は、比較のために、ｎが様々な値をとる固定ｎベスト選択と共にプロットされている。

すべての選択方法に対するＲＯＣ曲線（ケース２の訓練データ例に基づく）は、ケース１の訓練データ例を使用する以前の例より、非識別線に近い。これによって、分類器は、訓練に小さいセットが使用される場合、識別品質がより低いことが示唆される。しかしながら、ｎ^＊ベスト方法は、概して、依然としてシナリオの大部分において他のｎベスト方法より性能が優れている。

上記ケース１の例及びケース２の例の下でＲＯＣ面積のサイズを計算することによって、他のｎベスト選択方法と比較したｎ^＊ベスト選択の性能の要約統計量が提供される。図１４は、一実施形態に基づく、ケース１の訓練データ例を使用してｎ^＊ベスト選択（ｎ^＊はｎ＝０として表す）下で得られるＲＯＣＡＵＣの大きさを示す。比較のために、ｎが様々な値をとる固定ｎベスト選択下で得られるＲＯＣＡＵＣの大きさも示す。ＲＯＣＡＵＣとしてプロットされるデータは、図１１のＲＯＣ曲線に対応する。ｎ^＊ベスト選択は、概して、ケース１のシナリオ下での他のすべてのｎベスト選択方法より性能が優れている。ｎ^＊ベスト選択の優れた性能の理由は、セットＳの品質である。ｎ^＊ベスト選択は、他のｎベストアルゴリズムとサイズが同じ場合、真陰性の場合をより多く含むセットＳを生成する。

図１５は、一実施形態に基づく、ケース２の訓練データ例を使用してｎ^＊ベスト選択（ｎ^＊はｎ＝０として表す）下で得られるＲＯＣＡＵＣの大きさを示す。比較のために、ｎが様々な値をとる固定ｎベスト選択下で得られるＲＯＣＡＵＣの大きさも示す。ＲＯＣＡＵＣとしてプロットされるデータは、図１２のＲＯＣ曲線に対応する。ｎ^＊ベスト選択は、概して、ケース２のシナリオ下での他のすべてのｎベスト選択方法より性能が優れている。この場合もまた、ｎ^＊ベスト選択の優れた性能の理由は、セットＳの品質である。ｎ^＊ベスト選択は、他のｎベストアルゴリズムとサイズが同じ場合、真陰性の場合をより多く含むセットＳを生成する。

本明細書で説明した対話システムの態様を、フィールドプログラマブルゲートアレイ（ＦＦＧＡ）、プログラマブルアレイロジック（ＰＡＬ）デバイス、電気的にプログラム可能な論理デバイス及びメモリデバイス、並びに標準セルベースデバイス等のプログラマブルロジックデバイス（ＰＬＤ）と共に、特定用途向け集積回路（ＡＳＩＣ）を含む、様々な回路のうちの任意のものにプログラムされる機能として実装してもよい。対話システムの態様を実装する他のいくつかの可能性には、メモリを備えるマイクロコントローラ（電子的消去可能プログラマブル読出し専用メモリ（ＥＥＰＲＯＭ）等）、内蔵のマイクロプロセッサ、ファームウェア、ソフトウェア等がある。さらに、対話システムの態様を、ソフトウェアベース回路エミュレーション、ディスクリートロジック（順序及び組合せ）、カスタムデバイス、ファジー（ニューラル）ロジック、量子デバイス、及び上記デバイスタイプの任意のものの混成を備えるマイクロプロセッサで具現化してもよい。当然ながら、基礎となるデバイス技術を、様々なコンポーネントタイプ、たとえば、相補型金属酸化膜半導体（ＣＭＯＳ）のような金属酸化膜半導体電界効果トランジスタ（ＭＯＳＦＥＴ）技術、エミッタ結合ロジック（ＥＣＬ）のようなバイポーラ技術、ポリマ技術（たとえば、シリコン共役ポリマー及び金属共役ポリマー・金属構造）、アナログ及びデジタル混合等において提供してもよい。

本明細書で開示した任意のシステム、方法、及び／又は他の構成要素を、それらの挙動、レジスタ転送、ロジックコンポーネント、トランジスタ、配置形状、及び／又は他の特徴に関して、コンピュータ支援設計ツールを使用して記述し、様々なコンピュータ可読媒体で具現化されるデータ及び／又は命令として表現（又は表示）してもよいことに留意されたい。こうしたフォーマットされたデータ及び／又は命令が具現化され得るコンピュータ可読媒体には、限定されないが、様々な形態の不揮発性記憶媒体（たとえば、光記憶媒体、磁気記憶媒体、又は半導体記憶媒体）と、こうしたフォーマットされたデータ及び／又は命令を、無線信号媒体、光信号媒体若しくは有線信号媒体、又はそれらの任意の組合せを通じて転送するのに使用することができる搬送波が含まれる。搬送波によるこうしたフォーマットされたデータ及び／又は命令の転送の例には、限定されないが、１つ又は複数のデータ転送プロトコル（たとえばＨＴＴＰ、ＦＴＰ、ＳＭＴＰ等）を用いたインターネット及び／又は他のコンピュータネットワークによる転送（アップロード、ダウンロード、電子メール等）が含まれる。上述したコンポーネントのこうしたデータ及び／又は命令ベースの表現は、１つ又は複数のコンピュータ可読媒体を介してコンピュータシステム内で受け取られると、コンピュータシステム内の処理エンティティ（たとえば１つ又は複数のプロセッサ）によって、１つ又は複数の他のコンピュータプログラムの実行に連動して処理することができる。

文脈が明確に要求しない限り、明細書及び特許請求の範囲を通じて、「備える、含む（comprise、comprising）」等の語は、排他的又は網羅的な意味とは対照的に包括的な意味で、すなわち「含むが限定されない（including, but not limited to）」という意味で解釈されるべきである。また、単数又は複数を用いる語はそれぞれ複数又は単数も含む。さらに、「本明細書において」「以下に」「上記」「下記」という語及び同様の意味の語は、本出願で使用される場合、本出願を全体として指し、本出願のいかなる特定の部分をも指すものではない。「又は」という語が２つ以上の項目のリストに関連して使用される場合、その語は、その語の以下の解釈のすべてを包含する。すなわち、そのリスト内の項目の任意のもの、そのリスト内の項目のすべて、及びそのリスト内の項目の任意の組合せである。

対話システムの実施形態の上記説明は、網羅的であるようにも、又はシステム及び方法を開示した厳密な形態に限定するようにも意図されていない。本明細書では、対話システムの特定の実施形態及びそれに対する例を、例示の目的で説明したが、当業者が理解するように、それらのシステム及び方法の範囲内で様々な等価な変更もあり得る。本明細書で提供した対話システムの教示を、上述したシステム及び方法のみでなく他のシステム及び方法に適用することができる。

上述した様々な実施形態の要素及び行為を組み合わせてさらなる実施形態を提供することができる。これらの変形及び他の変形を、上記の詳細な説明に鑑みて対話システムに対し行うことができる。

概して、以下の特許請求の範囲では、使用する用語は、対話システムを、明細書及び特許請求の範囲で開示する特定の実施形態に限定するように解釈されるべきではなく、特許請求の範囲に基づいて動作するすべてのシステムを包含するように解釈されるべきである。したがって、対話システムは、本開示によって限定されず、対話システムの範囲は、専ら特許請求の範囲によって確定されるものである。

対話システムのいくつかの態様を、いくつかの請求項の形式で以下で提示するが、本発明者らは、任意の数の請求項形式で対話システムの様々な態様を企図する。したがって、本発明者らは、対話システムの他の態様に対するこうした追加の請求形式を求めるために、本出願の提出後にさらなる請求項を追加する権利を留保する。

Claims

方法であって、
複数の予測及び複数の確率を受け取ることであって、該予測は受け取られた入力を予測し、該確率のそれぞれは１つの予測に対応する、受け取ること、及び
前記複数の予測を降順の確率に従って順序付けることによってランク付けされた予測を生成することによって、該複数の予測から予測のセットを動的に選択すること、
を含む、方法。
前記予測のセットを動的に選択することは、前記ランク付けされた予測における予測の連続した対であって、該対間の対応する確率の差が他のいかなる予測の連続した対に対しても最大である、対を確定することを含み、該予測の連続した対は、第１の予測及び第２の予測を含み、該第１の予測は、該第２の予測より高い確率を有する、請求項１に記載の方法。
前記予測のセットの累積確率に従って前記受け取られた入力を分類することを含む、請求項２に記載の方法。
前記予測のセットを動的に選択することは、最高にランク付けされた予測と前記第１の予測とによって境界が画されるグループ内に自身の予測を含む該予測のセットを識別することを含む、請求項２に記載の方法。
前記複数の予測を生成すること、
それぞれが１つの予測に対応する前記複数の確率を生成すること、及び
前記予測のセットの累積確率に従って前記受け取られた入力を分類すること、
を含む、請求項１に記載の方法。
前記分類することは、前記予測のセットの前記累積確率が閾値以上である場合に、前記受け取られた入力を第１の入力クラスとして分類し、前記予測のセットの前記累積確率が閾値未満である場合に、前記受け取られた入力を第２の入力クラスとして分類することを含む、請求項５に記載の方法。
第２の受け取られた入力に対し第２の複数の予測を生成することであって、前記第１の入力クラスの少なくとも１つの入力のデータを動的に使用する、生成することを含む、請求項５に記載の方法。
システムであって、
プロセッサと、
入力であって、前記プロセッサに結合されると共に、複数の予測及び複数の確率を受け取るように構成され、該予測は受け取られた入力を予測し、該確率のそれぞれは１つの予測に対応する、入力と、
判断コンポーネントであって、前記プロセッサに結合されると共に、前記複数の予測を降順の確率に従って順序付けることによってランク付けされた予測を生成することによって、該複数の予測から予測のセットを動的に選択するように構成される、判断コンポーネントと、
を備える、システム。
前記判断コンポーネントは、前記ランク付けされた予測における予測の連続した対であって、該対間の対応する確率の差が他のいかなる予測の連続した対に対しても最大である、対を確定することによって、前記予測のセットを動的に選択するように構成され、該予測の連続した対は、第１の予測及び第２の予測を含み、該第１の予測は、該第２の予測より高い確率を有する、請求項８に記載のシステム。
前記予測のセットを動的に選択することは、最高にランク付けされた予測と前記第１の予測とによって境界が画されるグループ内に自身の予測を含む該予測のセットを識別することを含む、請求項９に記載のシステム。
分類器であって、前記プロセッサに結合されると共に、前記予測のセットの累積確率に従って前記受け取られた入力を分類するように構成される、分類器を備える、請求項９に記載のシステム。
前記分類器は、前記複数の予測を生成し、それぞれが前記複数の予測のうちの１つの予測に対応する前記複数の確率を生成すると共に、前記予測のセットの累積確率に従って前記入力を分類するように構成される、請求項１１に記載のシステム。
前記判断コンポーネントは、前記予測のセットの前記累積確率が閾値以上である場合に、前記入力を第１の入力クラスとして分類するように構成され、前記予測のセットの前記累積確率が閾値未満である場合に、前記入力を第２の入力クラスとして分類するように構成される、請求項１２に記載のシステム。
前記判断コンポーネントは、前記予測のセットを動的に選択するように構成され、該選択することは、前記複数の予測を降順の確率に従って順序付けることによってランク付けされた予測を生成することを含む、請求項１２に記載のシステム。
前記判断コンポーネントに結合されたデータベースであって、該判断コンポーネントは、第２の入力クラスとして分類された入力を該データベースに転送するように構成され、該データベースは該転送された入力を格納するように構成される、データベースを備える、請求項１２に記載のシステム。
前記分類器及び前記データベースに結合された再訓練モジュールであって、別の複数の予測の前に、前記第２の入力クラスとして分類された入力を使用して前記分類器を動的に再訓練するように構成される、再訓練モジュールを備える、請求項１５に記載の対話システム。
前記データベースに結合されたグラフィカルユーザインタフェース（ＧＵＩ）であって、前記第２の入力クラスとして分類された入力に対しラベルを与えることによってラベル付き入力を生成するように構成される、ＧＵＩを備える、請求項１５に記載の対話システム。
実行可能命令を含むコンピュータ可読媒体であって、該実行可能命令は、処理システムにおいて実行されると、
複数の予測及び複数の確率を受け取ることであって、該予測は受け取られた入力を予測し、該確率のそれぞれは１つの予測に対応する、受け取ること、及び
前記複数の予測を降順の確率に従って順序付けることによってランク付けされた予測を生成することによって、該複数の予測から予測のセットを動的に選択すること、
によって、出力予測の選択を制御する、コンピュータ可読媒体。
前記命令は、実行されると、前記ランク付けされた予測における予測の連続した対であって、該対間の対応する確率の差が他のいかなる予測の連続した対に対しても最大である、対を確定することによって、前記予測のセットを動的に選択し、該予測の連続した対は、第１の予測及び第２の予測を含み、該第１の予測は、該第２の予測より高い確率を有する、請求項１８に記載のコンピュータ可読媒体。
前記命令は、実行されると、前記予測のセットの累積確率に従って前記受け取られた入力を分類する、請求項１９に記載のコンピュータ可読媒体。
前記命令は、実行されると、前記予測のセットを動的に選択し、該選択することは、最高にランク付けされた予測と前記第１の予測とによって境界が画されるグループ内に自身の予測を含む該予測のセットを識別することを含む、請求項１９に記載のコンピュータ可読媒体。