JP2010537321A - 統計的分類のための最適な選択方略の方法及びシステム - Google Patents

統計的分類のための最適な選択方略の方法及びシステム Download PDF

Info

Publication number
JP2010537321A
JP2010537321A JP2010521998A JP2010521998A JP2010537321A JP 2010537321 A JP2010537321 A JP 2010537321A JP 2010521998 A JP2010521998 A JP 2010521998A JP 2010521998 A JP2010521998 A JP 2010521998A JP 2010537321 A JP2010537321 A JP 2010537321A
Authority
JP
Japan
Prior art keywords
predictions
prediction
input
probability
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010521998A
Other languages
English (en)
Inventor
フー,ジュンリン
モルビニ,ファブリツィオ
ウェン,フイラン
リウ,シュー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of JP2010537321A publication Critical patent/JP2010537321A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

最適な選択方略又は判断方略を、対話システムにおける使用を含む一例を通じて説明する。選択方略又は選択方法は、複数の予測及び複数の確率を受け取ることを含む。受け取られた予測は、受け取られた入力の内容を予測し、確率のそれぞれは予測のうちの1つに対応する。対話システム例では、受け取られた入力は発話を含む。選択方法は、ランク付けされた予測を生成することによって、受け取られた予測から予測のセットを動的に選択することを含む。ランク付けされた予測は、降順の確率に従って複数の予測を順序付けることによって生成される。
【選択図】図1A

Description

本明細書における開示は、包括的には、自然言語処理、音声認識、自然言語理解、対話行為分類、及び自然言語生成を含む様々な分野における統計的学習手法及びそれらの適用に関する。特に、本開示は、対話システムにおける誤り検出の例示的な適用を示す。
多くのソフトウェアアプリケーションでは、統計的分類器を使用してあり得る出力を予測する。統計的分類器は、すべてのあり得る出力に対し確率分布を割り当てる。システムは、確率が最も高い上位n個の出力を選択することができる。これはnベスト(n-best)選択方法と呼ばれ、音声認識、自然言語理解、機械翻訳及び他の用途で使用されてきた。従来から、nは定数である。
対話システムは、人が、結果を達成するためにコンピュータに自然言語で話すか又は他の方法で入力するシステムである。マイクロプロセッサ制御の電化製品及び機器の増加によって、対話システムは、コンピュータ、自動車、家庭電化製品、電話による顧客サービス等の多くの用途においてマンマシンインタフェースを容易にするために、ますます使用されるようになっている。対話システムは、問合せを処理し、1つ又は複数のデータベースにアクセスして、問合せに対する応答を検索する。対話システムはまた、ユーザからの要求に基づいて他の動作を実行することもできる。可能な限りユーザとのやりとりを少なくして意味のある結果を提供するために、対話システムを、問合せの内容及びフォーマット並びに応答データの内容及びフォーマットの大きなばらつきに対応するように設計及び実装するべきである。
通常、対話システムは、言語理解モジュール、対話管理モジュール、及び応答生成モジュールを含む、いくつかのモジュール又はコンポーネントを含む。音声対話システムの場合、音声認識モジュール、及びテキスト−音声変換モジュールが含まれる。各モジュールは、いくつかのサブモジュールを含む場合がある。これらのモジュールのうちの1つ又は多くにおいて統計的手法が使用される場合、複数の結果候補が生成される可能性がある。従来のシステムで複数の候補が生成される場合、候補の数は、静的パラメータのうちの1つとして固定される。
最近の対話システムにおける永続的な問題は、有効範囲と、それらがユーザの問合せに対する応答を処理して返すために静的規則、データ構造、及び/又はデータ内容に依存するという事実とである。対話システムがいかに広範であるかに関わらず、人々が話す可能性のすべてを網羅することは不可能である。ロバストなシステムを構築するために、新たなデータが収集されると容易に訓練し更新することができる組込み適応コンポーネントを含む対話システムが必要とされている。したがって、システムが理解しない発話を動的に格納し、これらの格納された発話のデータを使用して後にシステムを再訓練することができる対話システムが必要とされている。これによって、システムがすでに理解しているデータについてシステムを訓練する無駄な労力がなくなる。
参照による援用
本明細書で言及する各特許、特許出願、及び/又は刊行物は、各個々の特許、特許出願及び/又は刊行物が参照により援用されているように具体的に且つ個々に示されているのと同程度に、その全体が参照により本明細書に援用される。
一実施形態に基づく、本明細書で説明する最適選択又は判断方略を使用するように構成される音声対話システム100のブロック図である。 一実施形態に基づく、適応対話システム(ADS)のブロック図である。 一実施形態に基づく、発話を分類するフローチャートである。 一実施形態に基づく、対話システムを訓練するフローチャートである。 一実施形態に基づく、ADSの一例に適用されるように能動学習において識別されるデータセット間の関係のブロック図である。 一実施形態に基づく、累積確率曲線を示す図である。 一実施形態に基づく、所与の入力文又は発話に対しADS分類器が返す分布の一例を示す図である。 一実施形態に基づく、1178点の第1のデータセットにおけるn及びnのヒストグラムを示す図である。 一実施形態に基づく、471点の第2のデータセットにおけるn及びnのヒストグラムを示す図である。 学習した分類器の累積確率分布Pを示す図である。 確信度が低いものとしてマークされたデータ点のセットSとnの値との関係を示す図である。 一実施形態に基づく、ADSの性能評価のために使用されるROC曲線の図である。 一実施形態に基づく、ケース1の訓練データ例を使用してnベスト選択の下で得られるROC曲線を示す図である。 一実施形態に基づく、ケース2の訓練データ例を使用してnベスト選択の下で得られるROC曲線を示す図である。 一実施形態に基づく、ケース1の訓練データ例を使用してnベスト選択(nはn=0として表す)下で得られるROC AUCの大きさを示す図である。 一実施形態に基づく、ケース2の訓練データ例を使用してnベスト選択(nはn=0として表す)下で得られるROC AUCの大きさを示す図である。
最適選択又は判断方略について以下に説明する。場合によっては、最適選択又は判断方略を、対話システム例を使用して説明するが、本実施形態はそのように限定されない。図1Aは、一実施形態に基づく、本明細書で説明する最適選択又は判断方略を使用するように構成される音声対話システム100のブロック図である。この例の対話システム100は、言語理解モジュール(たとえば自然言語理解(NLU)モジュール)、対話管理モジュール(たとえば対話管理部)及び応答生成モジュール(たとえば自然言語生成部(NLG)モジュール)を含む、いくつかのモジュール又はコンポーネントを含む。音声対話システム100の場合、音声認識モジュール(たとえば自動音声認識(ASR)モジュール)及びテキスト−音声変換モジュール(たとえばTTSモジュール)が含まれる。各モジュールは、いくつかのサブモジュールを含む場合がある。たとえば、NLUモジュールは、品詞(POS)タグ付け部、編集領域検出モジュール、固有名詞識別モジュール、構文解析部、意味スロット識別モジュール、及び意味解釈部を含む場合がある。対話管理部では、対話行為分類が1つのコンポーネントである。対話システムのモジュール又はサブモジュールのそれぞれにおいて、統計的手法が使用される場合、モジュール又はサブモジュールから複数の候補が生成され得る。こうした場合、本明細書で説明する最適選択方略を使用することができる。
以下の説明では、ホスト対話システム、たとえば対話システム100において発話が理解されるか否かを判断する、選択方略又は選択方法が使用される。この選択方略は、システムが理解しない発話が動的に格納されると共に後にシステム(たとえばシステムの統計的モデル)を再訓練するために使用されるように、対話システムにおいて有効範囲拡張をサポートする。こうした判断は、偽陽性の場合と偽陰性の場合とを平衡させなければならない。本明細書で説明する実施形態は、nが各発話の分類器分布に基づいて動的に確定される可変nベスト出力の累積確率に基づいて、本明細書ではnベスト(n*-best)選択と呼ぶ選択方略、方法、又はコンポーネントを提供する。固定nを用いる従来のnベスト方法と対照してテストされる、nベスト選択アルゴリズムとも呼ぶnベスト選択の性能についても説明する。性能を、後述するように、受信者動作特性曲線(Receiver Operating Curve)(ROC)の下の面積に基づいて測定した。性能結果によって、nベスト選択が、任意の固定のnを用いる他のすべてのnベスト方法より一貫して良好に動作することが分かった。
一実施形態のnベスト選択の下でnベストの結果に対してnを動的に選択することによって、従来の技法に比較して改善された、分類器の出力を使用する方法が提供される。これは特に、分類器出力がより複雑なシステムの他の段階で使用される場合に当てはまる。本明細書で説明するnベスト選択は、対話行為の分類に限定されず、たとえばnベスト出力が必要である他のコンポーネントにおいても使用することができる。対話行為は、人間対人間の対話若しくは人間対機械の対話又は対話イベントにおいて、要求、質問、確認等のような意図される動作を単語を介して表現する行為である。
一実施形態の対話システムは、システムに、新たなデータによって容易に更新することができる組込み適応コンポーネント(たとえば、統計的自然言語理解(NLU)モジュール、分類器ベースの意味解釈部等)を提供することによって、人間のあり得る発話のより広範な有効範囲を含む。一実施形態の対話システムは、組込み適応コンポーネントが、新たなデータが収集されると訓練され更新されるのを可能にするように構成される。一実施形態では、システムが理解しない発話を動的に格納し、格納された発話のデータを使用してシステムを再訓練することによって、有効範囲を拡張する。この構成によって、ラベル付けのコストを最小化するように、訓練のために大きいプールから選択されるデータ点のわずかなサンプルを使用することによって、システムがすでに理解するデータについてシステムを訓練する無駄な労力が排除される。
一実施形態のnベスト選択は、従来のnベスト選択に類似するが、nが、各入力発話に対しその発話に対する分類器の出力の特性に基づいて動的に選択される点が異なる。最初のn個のクラスに割り当てられる確率の合計が一定閾値を上回る場合、システムは、ユーザの発話のその分類に対して確信すると判断する。そうでない場合、システムは、文を理解せず、後の訓練のためにそれを保存すると宣言する。
以下の説明では、対話システムの実施形態が完全に理解されると共にそれに対する説明が可能となるように多数の特定の詳細を紹介する。しかしながら、当業者は、これらの実施形態を、特定の詳細のうちの1つ若しくは複数を用いずに、又は他のコンポーネント、システム等を用いて実施することができることを理解するであろう。他の場合では、開示する実施形態の態様を不明瞭にしないために、既知の構造又は動作については示さないか、又は詳細に説明しない。
図1Bは、一実施形態に基づく、適応対話システム(ADS)のブロック図である。ADSのコンポーネントは、理解されないユーザ発話を自動的に識別し格納するように、個々に且つ/又は集合的に構成されると共に機能する。理解されなかった発話は、後述するように後の訓練に使用される。ADSは、データベースに結合された分類器を含む。分類器はまた、ホスト対話システムの名詞句(NP)抽出部(NP抽出部)にも結合される。再訓練コンポーネント又はモジュールが、分類器とデータベースとの間に結合される。一実施形態の再訓練コンポーネントは、グラフィカルユーザインタフェース(GUI)を含む。
分類器は、入力として発話又は文を受け取る。分類器は、ユーザ発話の解析木から計算される特徴を使用して、ユーザの対話行為に対し予測を行う。分類器は、分類器の結果に関連する確信度のレベルを決定するように構成される判断コンポーネントを含むか又はそれに結合される。判断コンポーネントについては後に詳細に説明する。分類器は、ADSが結果に関して比較的確信していると決定すると、その発話を「理解された」として分類し、結果をNP抽出部、及び/又はADSの他のコンポーネント若しくは段階、又は他のホストシステム(複数可)に転送するか又は渡す。
分類器は、確信している場合、正しくないか又は相対的に確信度が低い可能性のある結果をも返すことができ、この場合、発話は「誤解された」として分類される。誤解されたものとして分類される発話(検出が困難な場合もあるが)もまた、NP抽出部及び/又はADSの他のコンポーネント若しくは段階に転送される。
判断コンポーネントが、ADSが分類器の結果に関して確信していないか又はその確信度が相対的にはるかに低いと決定した場合、発話は「理解されなかった」として分類される。理解されなかったものとして分類される発話の情報又は結果は、データベースに転送され、そこで後の訓練のために保存される。データベースは、ADSによって理解されなかったものとして分類される発話に関する情報を格納する。発話、その解析木、及び分類器によって割り当てられた現ラベルは、たとえばデータベースに格納されるが、データベースは、このデータ若しくは情報のすべてを格納すること、又はこのデータ若しくは情報のみを格納することには限定されない。さらに、ADSは、理解されなかった発話に応答してユーザに対する応答(たとえば、「理解できない」)を含む出力を生成する。
ADSコンポーネントは、単一システム、複数のシステム、及び/又は地理的に離れたシステムのコンポーネントであってもよい。ADSコンポーネントはまた、単一システム、複数のシステム、及び/又は地理的に離れたシステムの、サブコンポーネント又はサブシステムであってもよい。ADSコンポーネントを、ホストシステム又はホストシステムに結合されたシステムの1つ又は複数の他のコンポーネント(図示せず)に結合してもよい。
一実施形態のADSは、処理システムを含み、且つ/又はその下で且つ/若しくはそれに関連して実行される。処理システムは、本技術分野において既知であるように、共に動作するプロセッサベースデバイス若しくはコンピューティングデバイスか、又は処理システム若しくは処理デバイスのコンポーネントの任意の集まりを含む。たとえば、処理システムは、ポータブルコンピュータ、通信ネットワーク内で動作するポータブル通信デバイス、及び/又はネットワークサーバのうちの1つ又は複数を含んでもよい。ポータブルコンピュータは、パーソナルコンピュータ、携帯電話、携帯情報端末、ポータブルコンピューティングデバイス、及びポータブル通信デバイスの中から選択される複数のデバイス及び/又はデバイスの組合せのうちの任意のものとすることができるが、そのように限定されない。より詳細には、システムは、いくつか挙げると、対話インタフェースを備えるセキュリティシステム、言語インタフェースを備える電化製品、電話による顧客サポートシステム及び技術サポートシステム、並びに、たとえばナビゲーション、地域情報検索、及び車内エンターテイメントシステムを含む、言語インタフェースを備える自動車製品又はコンポーネントを含んでもよい。処理システムは、より大型のコンピュータシステム内のコンポーネントを含んでもよい。
一実施形態の処理システムは、少なくとも1つのプロセッサと少なくとも1つのメモリデバイス又はサブシステムとを含む。処理システムはまた、少なくとも1つのデータベースを含むか又はそれに結合されてもよい。本明細書において概して使用する用語「プロセッサ」は、1つ又は複数の中央処理装置(CPU)、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)等のような任意の論理処理ユニットを指す。プロセッサ及びメモリを、単一チップにモノリシックに集積してもよく、IDSSの複数のチップ若しくはコンポーネント間に分散させてもよく、且つ/又はアルゴリズムのいくつかの組合せによって提供してもよい。本明細書で説明するADS方法を、ソフトウェアアルゴリズム(複数可)、プログラム、ファームウェア、ハードウェア、コンポーネント、回路のうちの1つ又は複数において任意の組合せで実装してもよい。
ADSコンポーネントを、合わせて配置してもよく又は別の場所に配置してもよい。通信経路は、ADSコンポーネントを結合し、それらのコンポーネント間でファイルを通信するか又は転送する任意の媒体を含む。通信経路は、無線接続、有線接続、及びハイブリッド無線/有線接続を含む。通信経路はまた、ローカルエリアネットワーク(LAN)、メトロポリタンエリアネットワーク(MAN)、広域ネットワーク(WAN)、専有(proprietary)ネットワーク、社内ネットワーク又はバックエンドネットワーク、及びインターネットを含む、ネットワークに対する結合又は接続も含む。さらに、通信経路は、フロッピーディスク、ハードディスクドライブ、及びCD−ROMディスクのような着脱可能な固定媒体と共に、フラッシュRAM、ユニバーサルシリアルバス(USB)接続、RS−232接続、電話線、バス、及び電子メールメッセージを含む。
図2は、一実施形態に基づく、発話を分類するフローチャートである。ADSの1つ又は複数のコンポーネントは、発話を受け取る(202)ように構成され且つ/又は機能する。発話に対応して対話行為に対する複数の予測が生成される(204)。ADSは、それぞれが予測に対応する複数の確率を生成する(206)。ADSは、複数の予測から予測のセットを動的に選択し(208)、その予測のセットの累積確率に従って発話を分類する(210)ように構成され且つ/又は機能する。
ADSの再訓練コンポーネントは、人間のユーザが理解されなかったものとして分類されると共にデータベースに格納された発話を迅速に再度ラベル付けする(たとえば手作業でラベル付けする(hand label))ことを可能にするGUIに結合され且つ/又はそれを含む。ADSは、ラベルを選択するあり得る対話行為を、GUIを介して、分類器が人間のユーザに対する提案として選択したものを最初に強調して表示する。再訓練コンポーネントは、再ラベル付けされた発話のデータを使用して、古い訓練データと新たな再ラベル付けされたデータとに基づいて分類器を訓練する。理解されなかった発話の前にn個のデータ点があり、且つ理解されなかった発話の数がmであるとすると、新たな訓練データはn+m個のデータ点を有することになる。新たに訓練されたモデルを、再起動する必要なしに実行中のシステム内に組み込むことができる。
図3は、一実施形態に基づく、対話システムを訓練するフローチャートである。ADSの1つ又は複数のコンポーネントは、発話を受け取る(302)ように構成され且つ/又は機能する。ADSは、発話に対応する対話行為に対する複数の予測から予測のセットを動的に選択する(304)。発話を、予測のセットの累積確率に従って分類する(306)。ADSは、発話が理解されなかったものとして分類された場合に、その発話を使用して分類を動的に再訓練する(308)ように構成され且つ/又は機能する。
文を解釈することに関連付けられる確信度に関連する判断は、ラベル付け及び再訓練のためにその文を選択すべきか否かの判断に移行する。この意味で、この判断問題は、能動学習に類似するか又は同じである。図4は、一実施形態に基づく、ADSの一例に適用されるような能動学習において識別されるデータセット間の関係のブロック図である。元の訓練セットがNであり、新たなデータが固定セットNから来るものとすると、判断は、人間のラベル付けに対しそのデータを選択するか否かである。人間のラベル付けに対しデータ点が選択される場合、それは、Sとして表されるセットに保存される。能動学習では、目標は、人間のラベル付け労力を低減して、データセットNに対して以前に訓練されたモデルを改善するように優れたセットSを決定することである。
選択的サンプリングは、能動学習と等価である。一実施形態のADSに適用されるような能動学習の特有の特徴は、毎回1つのデータ点しか選択することができないということを含む。毎回1つのデータ点を選択することによって、一実施形態の能動学習は、一括サンプリングが許容される従来の実施形態とは異なるものとなる。
また、ADSに適用されるような能動学習の特有の特徴によって、データ点の各選択が以前の選択から独立することになる。データ点の各選択が以前の選択から独立することによって、一実施形態の能動学習は、以前の判断からのフィードバックを使用して次のラウンドのサンプリングに役立てる従来の能動学習とは異なるものとなる(たとえば、Thomas Osugi、Deng Kun及びStephen Scott著、2005、「Balancing Exploration and Exploitation: A New Algorithm for Active Machine Learning boundaries」(Proceedings of the Fifth IEEE International Conference on Data Mining (ICDM'05)))。
さらに、ADSに適用されるような能動学習の特有の特徴は、間違った選択がシステム性能にほぼ即座に影響を与えるという考慮事項を含む。一実施形態の能動学習はまた、リアルタイム又はほぼリアルタイムで実行され、それは、いかなる学習も静的コーパスに対しオフラインで行われる従来の能動学習とは対照的であるという点で、従来の能動学習とは異なる。
能動学習の一態様は、サンプル選択基準を含む。一実施形態に基づくサンプル選択基準は、すべてのサンプルに対する、後のラベル付け及び訓練に対しサンプルを保持するべきか否かに関する判断を含む。サンプル選択は、概して、コミッティ(committee)ベースの選択又は確実性ベースの選択を使用して行われる。ADSは確実性ベースの選択(Goekhan Tuer、Dilek Hakkani-Tuer及びRobert E.Schapire著、2005、「Combining active and semi-supervised learning for spoken language understanding」(Speech Communication, 45(2):171-186, 2005)によって使用される)を使用するが、そのように限定はされない。
確実性ベースの学習は、分類器結果に対する確実性に基づいてデータ点を選択する。統計的分類器(最大エントロピー又はベイズ分類器等)は、すべてのあり得るクラスに対して確率分布を返す。通常、これらの確率を使用して、分類器のその判断に対する確信度を推定する。一実施形態のADS下での動作は、分類器出力を最高確率から最低確率までソートすることによって分類器の確信度を推定する。ソートされた分類器出力の間で、分類器によって最も確信度が高い出力として返されたクラスのセットを規定するカットオフ点(n)が確定される。カットオフ点の前に発生するソートされた分類器出力の確率に対し、返されたクラスすべての確率の合計が計算される。この累積確率が事前定義された閾値を下回る場合、ADSは、分類器がその分類を確信していないと判断する。累積確率が事前定義された閾値以上である場合、ADSは、分類器がその分類を確信していると判断し、対話管理部に結果を送出又は転送する。
図5は、一実施形態に基づく、累積確率曲線500を示す。上述したような所定閾値をhとして表す。累積確率曲線500は以下のように定義され、
Figure 2010537321
ここで、pは第1のクラスに関連付けられる確率であり、pは第nのクラスに関連付けられる確率である。なお、確率は最高から最低までソートされ、そのため
Figure 2010537321
であることに留意されたい。
確実性ベースの能動学習では、分類器によって返される最良クラスを選択することが一般的であり(たとえば、Tur他、2005)、これを1ベスト方法と呼ぶ。しかしながら、これは一実施形態のADSには理想的ではない。それは、文が複数の対話の動きにマッピングされる可能性があるためである。したがって、分類器は、互いに非常に近いクラスのグループを返す可能性がある。図6は、一実施形態に基づく、所与の入力された文又は発話に対しADS分類器が返す分布600の一例を示す。確率分布例のこのプロット600を参照すると、上位の3つのクラス601〜603のそれぞれ(それぞれ、nの値1、2及び3に対応する)は、およそ30%の確率を有する。1ベスト方法を使用すると、このインスタンスは確信度が低いものとして返される。しかしながら、これらの上位3つのクラスのうちの1つが正しいクラスである可能性がある。選択された上位3つのクラスが対話管理部に送出されると、対話管理部は、文脈及び対話履歴に基づいて最終選択を行うことができる。
nベスト方法は、音声認識及びNLUにおいて広範囲に使用されてきており、機械翻訳でも広く使用されている(たとえば、Kristina Toutanova及びHisami Suzuki著「Generating Case Markers in Machine Translation」(Human Language Technologies 2007: The Conference of the NAACL; Proceedings of the Main Conference, April, 2007, Rochester, New York. Association for Computational Linguistics, pages: 49-56, http://www.aclweb.org/anthology/N/N07/N07-017))。システムに、何が適切な翻訳であるかに関する情報がほとんどないとすると、nベスト方法下ではすべてのあり得る候補が後の段階に送出され、そこでランク付け部が候補に対して判断を行う。これらの適用の大部分において、候補の数nは固定数である。
nベストの場合に固定数nを選択する代りに、本明細書で説明するADSは、各発話に対する分類器の分布に基づいてnを動的に設定する。本明細書では、nの動的設定を、nベスト選択と呼び、それが一実施形態のADSによって使用される。したがって、nベストは、nが場合によって変化するnベストの変形である。nベスト選択は、数nが以下の特性を満足するように、モデルから返されるクラスの数を選択する。すなわち、
Figure 2010537321
であり、ここで、p及びpn+1は、それぞれクラスn及びクラスn+1の確率である。言い換えると、nは、低下p−pn+1を最大にするカットオフ点である。
上述した分布600(図6)では、たとえばnベストを使用すると、p−p=0.29は他のすべての低下より大きいため、n=3である。言い換えれば、この例の場合、ADSは3ベスト候補を返す。
図7は、1178点の第1のデータセットにおけるn及びnのヒストグラムを示す。この第1のデータセットは、およそ800のケースが、90%の累積確率P(n)を返すために3つのクラス(n=3)を必要とすることを示す。別の300のケースでは、90%の確信度を有するために4つのクラスを返す必要がある。図8は、471点の第2のデータセットにおけるn及びnのヒストグラムを示す。第2のデータセットで、第1のデータセットと同様の結果が示されている。したがって、固定数nのnベスト選択(たとえば3ベスト、4ベスト等)を使用することによって、概して、最適とはいえない結果が提供される。しかしながら、第1のデータセット及び第2のデータセットのそれぞれにおけるnのヒストグラムのプロットによって、nが、P(n)>90%をもたらす最適なnの分布に近いことが分かる。
ベスト選択を考慮又は評価する別の方法は、累積確率の使用を含む。図9は、学習された分類器の累積確率分布Pを示す。学習した分類器の累積確率分布曲線900が凹関数であることが分かる。学習した分類器の累積確率分布曲線900が凹関数であるという証明は、凹関数が以下の特性を満足させることを考慮することによって開始する。
Figure 2010537321
以下を考慮すると、
Figure 2010537321
以下のようになる。
Figure 2010537321
y=(x+k)を代入すると、
Figure 2010537321
となり、上記式からのさらなる減算の結果、以下のようになる。
Figure 2010537321
上記最後の不等式は、確率が最高から最低までソートされるとき、
Figure 2010537321
であるということから導出される。
の導出は、累積確率曲線の二次導関数を最大化することと等価である。クラスの数が無限大に近づき、nが上述した式(1)に基づいて選択される場合、以下のようになる
Figure 2010537321
これを、以下を考慮することによって示すことができ、
Figure 2010537321
以下のようになる。
Figure 2010537321
クラスの数が無限大に近づくと、累積曲線は連続的になる。したがって、
Figure 2010537321
を、以下によって近似することができる。
Figure 2010537321
Figure 2010537321
であるため、以下のようになる。
Figure 2010537321
P(n)が、上述したように凹関数であるとすると、それは以下の特性を有する。
Figure 2010537321
点nにおける二次導関数は、凹関数曲線に対する接線の勾配における増大である。したがって、n+1を通過する接線は、その勾配において最大の増大を有する。
能動学習の一態様は、性能評価を含む。一実施形態のnベスト選択の性能評価は、定義された目的関数又は評価基準を使用して、nベスト方法の性能を従来のnベスト選択方法と比較することを含む。能動学習研究では、最も一般に使用される評価基準は誤り率である。誤り率を以下のように書くことができ、
Figure 2010537321
ここで、TPは真陽性(true positive)の数を表し、FPは偽陽性の数を表す。この基準(measure)は重要であるが、ユーザに間違った解答を与えること(偽陽性)と、適当に分類されたユーザの発話の拒絶が多すぎること(偽陰性)との間のトレードオフを捕えない。したがって、一実施形態の目的関数は、受信者動作特性(ROC)曲線に基づく。特に、ROC曲線を使用する場合、より適切な選択基準は、ROC曲線の下の面積がより広いものである。続いて、様々な選択基準の性能を評価するのにROC曲線を使用する。
本明細書では、セットSを、確信度が低いものとしてマークされると共に人によってラベル付けされるデータ点の集まりとして定義する。セットNは、新たなデータすべてのセットを表し、hは、確信度閾値を表し、dは、Nにおける任意のデータ点を表す。そして、セットSを以下のように定義することができる。
Figure 2010537321
したがって、分類器からのnベストクラスの累積確率が閾値hを下回る場合、ADSは分類器結果に対し確信がなく、したがって、データを将来の訓練のために保存する。セットSは、上述したようにn及びh両方の関数である。固定hの場合、セットSのサイズはnが大きいほど低減する。図10は、確信度が低いものとしてマークされたデータ点のセットSとnの値との間の関係を示す。
真陽性(TP)及び偽陽性(FP)に加えて、一実施形態の性能評価は、真陰性(TN)及び偽陰性(FN)も考慮する。分類器の結果が人間のラベルと一致する場合、それらは真陽性ケースとしてカウントする。非訓練セット(N−S)内のデータ点は、このデータ点に対する予測されたクラスが誤っている(人間のラベルセットと一致しない)場合の偽陽性(FP)か、又は真陽性(TP)のいずれかである可能性がある。同様に、人間のラベルと一致するS内のデータ点は、偽陰性となり、そうでない場合は真陰性となる。
データ点dに対する人間のラベルの集まりを、本明細書ではLとして表し、C(n)は、確率によって最高から最低までランク付けされて分類器によって返される最初のn個のクラスの集まりを表す。上記表現を考慮すると、以下のようになる。
Figure 2010537321
一実施形態の選択基準は、最適なSをもたらし、最適なSは、小さく、且つ真陰性インスタンスのみを含むものである。したがって、選択基準のより適切な性能測度はROC曲線であり、それは、ROC曲線が偽陽性及び偽陰性も考慮するためである。
ROC曲線は、真陽性率対偽陽性率のグラフィカルプロットである。ROC分析は、不明確な環境におけるそのロバスト性のために、多数の分野において注意を引いてきた。図11は、一実施形態に基づく、ADSの性能評価に使用されるROC曲線である。ROC空間は、偽陽性率(FPR)(たとえばx軸)と真陽性率(TPR)(たとえばy軸)とによって画定され、真陽性と偽陽性との間の相対的なトレードオフを示す。あり得る最適な予測方法は、ROC空間の左上隅の点すなわち座標(0,1)をもたらし、それは特定のモデルによって真陽性のみがすべて返される場合を表し、この点は完全な分類に対応する。45度対角線は、非識別線(no-discrimination line)と呼ばれ、それぞれ真の場合の総数(すなわちTP+FN)及び偽の場合の総数(すなわちTN+FP)と比較した場合に同じ割合の真陽性及び偽陽性を返す分類器を表す。
ROC曲線は、TPRがFPRに対してプロットされるときに閾値hを変化させることによって導出される。検出感度又は再現率とも呼ばれるTPRは、以下の式によって表される。
Figure 2010537321
FPRは、およそ1−特異度の量であり、以下の式によって表される。
Figure 2010537321
ROC曲線の下の面積(AUCと呼ぶ)は、分類器の性能を定量化するのに使用される要約統計量である。AUC値が大きいほど、分類器の性能は優れている。
ROC曲線の対角線より上の点は、より優れた分類器(すなわち、より高い率のTP及びTNを識別するもの)を示し、線より下の点は、より弱い分類器を示す。その結果、ROC曲線と非識別線との間の面積を使用して、分類器の性能を示すことができる。この面積は、一般に、識別面積として知られ、本明細書ではROC面積と呼ぶ。
一実施形態のnベスト選択の性能を、図7及び図8を参照して上述した2つのデータセットを使用して評価した。第1のデータセットは1178のユーザ発話を含み、第2のデータセットは471の発話を含む。これらのサンプル発話は、レストラン推奨ドメインからのものであるが、そのようには限定されない。第1のデータセットを、以下の説明では「大きい訓練データ」すなわち「LD」と呼び、第2のデータセットを、以下の説明では「小さい訓練データ」すなわち「SD]と呼ぶ。2つのデータセットLD及びSDを使用して、以下のように2つのシナリオをシミュレートする。すなわち、ケース1は、データセットLD及びデータセットSDを含み、モデルは、大きいデータセットLDに対して訓練され、小さいデータセットSDに対してテストされ、ケース2は、データセットSD及びデータセットLDを含み、モデルは、小さいデータセットSDに対して訓練され、大きいデータセットLDに対してテストされる。
データセットLD及びSDの両方におけるすべての発話は、対話行為によって手作業でラベル付けされた。各発話に関連付けられる2つ以上の対話行為がある可能性もある。訓練インスタンス例は、「(安いレストラン)、(問合せ:レストラン、回答、修正)」を含む。訓練インスタンスの第1の部分はユーザの発話であり、訓練インスタンスの第2の部分(Lと呼ぶ)は、人間がラベル付けした対話行為のセットである。全体で、3つのテストに対して使用されるドメインにおいて、30のあり得るユーザ対話行為がある。
本明細書において提示する評価は、nベスト方法を、nがおよそ1から6の範囲である固定nベスト方法と比較した。これらの方法のそれぞれに対し、0.1から1までの範囲で0.05刻みで閾値hの値に対してTP、FP、TN及びFNを計算する。TPR及びFPRを導出し、ROC曲線をプロットするために使用する。
図12は、一実施形態に基づく、ケース1の訓練データ例を使用してnベスト選択の下で得られるROC曲線を示す。訓練データ例は、上述したケース1に基づくデータであり、その場合、モデルは大きいデータセットLDに対して訓練され、小さいデータセットSDに対してテストされる。nベスト選択のROC曲線は、比較のために、nが様々な値をとる固定nベスト選択と共にプロットされている。
一実施形態のnベスト選択に対するROC曲線は、概して、ほとんどの場合、固定nである他の方法より優れている。実際には、nのいくつかの値に対し、nベスト選択は非識別線(「ランダム」線と付す)の下で実行する。たとえば、高閾値hでの2ベストは、ほとんどの場合hに到達せず、それは、累積確率を計算するために2つのノードしか考慮されないためである。これによって、大きいセットSは多くのFNを含む結果となる。これによって、TPRは低下し、FPRはTPRより高くなる。
図13は、一実施形態に基づく、ケース2の訓練データ例を使用してnベスト選択下で得られるROC曲線を示す。訓練データ例は、上述したケース2に基づくデータであり、その場合、モデルは、小さいデータセットSDに対して訓練され、大きいデータセットLDに対してテストされる。nベスト選択のROC曲線は、比較のために、nが様々な値をとる固定nベスト選択と共にプロットされている。
すべての選択方法に対するROC曲線(ケース2の訓練データ例に基づく)は、ケース1の訓練データ例を使用する以前の例より、非識別線に近い。これによって、分類器は、訓練に小さいセットが使用される場合、識別品質がより低いことが示唆される。しかしながら、nベスト方法は、概して、依然としてシナリオの大部分において他のnベスト方法より性能が優れている。
上記ケース1の例及びケース2の例の下でROC面積のサイズを計算することによって、他のnベスト選択方法と比較したnベスト選択の性能の要約統計量が提供される。図14は、一実施形態に基づく、ケース1の訓練データ例を使用してnベスト選択(nはn=0として表す)下で得られるROC AUCの大きさを示す。比較のために、nが様々な値をとる固定nベスト選択下で得られるROC AUCの大きさも示す。ROC AUCとしてプロットされるデータは、図11のROC曲線に対応する。nベスト選択は、概して、ケース1のシナリオ下での他のすべてのnベスト選択方法より性能が優れている。nベスト選択の優れた性能の理由は、セットSの品質である。nベスト選択は、他のnベストアルゴリズムとサイズが同じ場合、真陰性の場合をより多く含むセットSを生成する。
図15は、一実施形態に基づく、ケース2の訓練データ例を使用してnベスト選択(nはn=0として表す)下で得られるROC AUCの大きさを示す。比較のために、nが様々な値をとる固定nベスト選択下で得られるROC AUCの大きさも示す。ROC AUCとしてプロットされるデータは、図12のROC曲線に対応する。nベスト選択は、概して、ケース2のシナリオ下での他のすべてのnベスト選択方法より性能が優れている。この場合もまた、nベスト選択の優れた性能の理由は、セットSの品質である。nベスト選択は、他のnベストアルゴリズムとサイズが同じ場合、真陰性の場合をより多く含むセットSを生成する。
本明細書で説明した対話システムの態様を、フィールドプログラマブルゲートアレイ(FFGA)、プログラマブルアレイロジック(PAL)デバイス、電気的にプログラム可能な論理デバイス及びメモリデバイス、並びに標準セルベースデバイス等のプログラマブルロジックデバイス(PLD)と共に、特定用途向け集積回路(ASIC)を含む、様々な回路のうちの任意のものにプログラムされる機能として実装してもよい。対話システムの態様を実装する他のいくつかの可能性には、メモリを備えるマイクロコントローラ(電子的消去可能プログラマブル読出し専用メモリ(EEPROM)等)、内蔵のマイクロプロセッサ、ファームウェア、ソフトウェア等がある。さらに、対話システムの態様を、ソフトウェアベース回路エミュレーション、ディスクリートロジック(順序及び組合せ)、カスタムデバイス、ファジー(ニューラル)ロジック、量子デバイス、及び上記デバイスタイプの任意のものの混成を備えるマイクロプロセッサで具現化してもよい。当然ながら、基礎となるデバイス技術を、様々なコンポーネントタイプ、たとえば、相補型金属酸化膜半導体(CMOS)のような金属酸化膜半導体電界効果トランジスタ(MOSFET)技術、エミッタ結合ロジック(ECL)のようなバイポーラ技術、ポリマ技術(たとえば、シリコン共役ポリマー及び金属共役ポリマー・金属構造)、アナログ及びデジタル混合等において提供してもよい。
本明細書で開示した任意のシステム、方法、及び/又は他の構成要素を、それらの挙動、レジスタ転送、ロジックコンポーネント、トランジスタ、配置形状、及び/又は他の特徴に関して、コンピュータ支援設計ツールを使用して記述し、様々なコンピュータ可読媒体で具現化されるデータ及び/又は命令として表現(又は表示)してもよいことに留意されたい。こうしたフォーマットされたデータ及び/又は命令が具現化され得るコンピュータ可読媒体には、限定されないが、様々な形態の不揮発性記憶媒体(たとえば、光記憶媒体、磁気記憶媒体、又は半導体記憶媒体)と、こうしたフォーマットされたデータ及び/又は命令を、無線信号媒体、光信号媒体若しくは有線信号媒体、又はそれらの任意の組合せを通じて転送するのに使用することができる搬送波が含まれる。搬送波によるこうしたフォーマットされたデータ及び/又は命令の転送の例には、限定されないが、1つ又は複数のデータ転送プロトコル(たとえばHTTP、FTP、SMTP等)を用いたインターネット及び/又は他のコンピュータネットワークによる転送(アップロード、ダウンロード、電子メール等)が含まれる。上述したコンポーネントのこうしたデータ及び/又は命令ベースの表現は、1つ又は複数のコンピュータ可読媒体を介してコンピュータシステム内で受け取られると、コンピュータシステム内の処理エンティティ(たとえば1つ又は複数のプロセッサ)によって、1つ又は複数の他のコンピュータプログラムの実行に連動して処理することができる。
文脈が明確に要求しない限り、明細書及び特許請求の範囲を通じて、「備える、含む(comprise、comprising)」等の語は、排他的又は網羅的な意味とは対照的に包括的な意味で、すなわち「含むが限定されない(including, but not limited to)」という意味で解釈されるべきである。また、単数又は複数を用いる語はそれぞれ複数又は単数も含む。さらに、「本明細書において」「以下に」「上記」「下記」という語及び同様の意味の語は、本出願で使用される場合、本出願を全体として指し、本出願のいかなる特定の部分をも指すものではない。「又は」という語が2つ以上の項目のリストに関連して使用される場合、その語は、その語の以下の解釈のすべてを包含する。すなわち、そのリスト内の項目の任意のもの、そのリスト内の項目のすべて、及びそのリスト内の項目の任意の組合せである。
対話システムの実施形態の上記説明は、網羅的であるようにも、又はシステム及び方法を開示した厳密な形態に限定するようにも意図されていない。本明細書では、対話システムの特定の実施形態及びそれに対する例を、例示の目的で説明したが、当業者が理解するように、それらのシステム及び方法の範囲内で様々な等価な変更もあり得る。本明細書で提供した対話システムの教示を、上述したシステム及び方法のみでなく他のシステム及び方法に適用することができる。
上述した様々な実施形態の要素及び行為を組み合わせてさらなる実施形態を提供することができる。これらの変形及び他の変形を、上記の詳細な説明に鑑みて対話システムに対し行うことができる。
概して、以下の特許請求の範囲では、使用する用語は、対話システムを、明細書及び特許請求の範囲で開示する特定の実施形態に限定するように解釈されるべきではなく、特許請求の範囲に基づいて動作するすべてのシステムを包含するように解釈されるべきである。したがって、対話システムは、本開示によって限定されず、対話システムの範囲は、専ら特許請求の範囲によって確定されるものである。
対話システムのいくつかの態様を、いくつかの請求項の形式で以下で提示するが、本発明者らは、任意の数の請求項形式で対話システムの様々な態様を企図する。したがって、本発明者らは、対話システムの他の態様に対するこうした追加の請求形式を求めるために、本出願の提出後にさらなる請求項を追加する権利を留保する。

Claims (21)

  1. 方法であって、
    複数の予測及び複数の確率を受け取ることであって、該予測は受け取られた入力を予測し、該確率のそれぞれは1つの予測に対応する、受け取ること、及び
    前記複数の予測を降順の確率に従って順序付けることによってランク付けされた予測を生成することによって、該複数の予測から予測のセットを動的に選択すること、
    を含む、方法。
  2. 前記予測のセットを動的に選択することは、前記ランク付けされた予測における予測の連続した対であって、該対間の対応する確率の差が他のいかなる予測の連続した対に対しても最大である、対を確定することを含み、該予測の連続した対は、第1の予測及び第2の予測を含み、該第1の予測は、該第2の予測より高い確率を有する、請求項1に記載の方法。
  3. 前記予測のセットの累積確率に従って前記受け取られた入力を分類することを含む、請求項2に記載の方法。
  4. 前記予測のセットを動的に選択することは、最高にランク付けされた予測と前記第1の予測とによって境界が画されるグループ内に自身の予測を含む該予測のセットを識別することを含む、請求項2に記載の方法。
  5. 前記複数の予測を生成すること、
    それぞれが1つの予測に対応する前記複数の確率を生成すること、及び
    前記予測のセットの累積確率に従って前記受け取られた入力を分類すること、
    を含む、請求項1に記載の方法。
  6. 前記分類することは、前記予測のセットの前記累積確率が閾値以上である場合に、前記受け取られた入力を第1の入力クラスとして分類し、前記予測のセットの前記累積確率が閾値未満である場合に、前記受け取られた入力を第2の入力クラスとして分類することを含む、請求項5に記載の方法。
  7. 第2の受け取られた入力に対し第2の複数の予測を生成することであって、前記第1の入力クラスの少なくとも1つの入力のデータを動的に使用する、生成することを含む、請求項5に記載の方法。
  8. システムであって、
    プロセッサと、
    入力であって、前記プロセッサに結合されると共に、複数の予測及び複数の確率を受け取るように構成され、該予測は受け取られた入力を予測し、該確率のそれぞれは1つの予測に対応する、入力と、
    判断コンポーネントであって、前記プロセッサに結合されると共に、前記複数の予測を降順の確率に従って順序付けることによってランク付けされた予測を生成することによって、該複数の予測から予測のセットを動的に選択するように構成される、判断コンポーネントと、
    を備える、システム。
  9. 前記判断コンポーネントは、前記ランク付けされた予測における予測の連続した対であって、該対間の対応する確率の差が他のいかなる予測の連続した対に対しても最大である、対を確定することによって、前記予測のセットを動的に選択するように構成され、該予測の連続した対は、第1の予測及び第2の予測を含み、該第1の予測は、該第2の予測より高い確率を有する、請求項8に記載のシステム。
  10. 前記予測のセットを動的に選択することは、最高にランク付けされた予測と前記第1の予測とによって境界が画されるグループ内に自身の予測を含む該予測のセットを識別することを含む、請求項9に記載のシステム。
  11. 分類器であって、前記プロセッサに結合されると共に、前記予測のセットの累積確率に従って前記受け取られた入力を分類するように構成される、分類器を備える、請求項9に記載のシステム。
  12. 前記分類器は、前記複数の予測を生成し、それぞれが前記複数の予測のうちの1つの予測に対応する前記複数の確率を生成すると共に、前記予測のセットの累積確率に従って前記入力を分類するように構成される、請求項11に記載のシステム。
  13. 前記判断コンポーネントは、前記予測のセットの前記累積確率が閾値以上である場合に、前記入力を第1の入力クラスとして分類するように構成され、前記予測のセットの前記累積確率が閾値未満である場合に、前記入力を第2の入力クラスとして分類するように構成される、請求項12に記載のシステム。
  14. 前記判断コンポーネントは、前記予測のセットを動的に選択するように構成され、該選択することは、前記複数の予測を降順の確率に従って順序付けることによってランク付けされた予測を生成することを含む、請求項12に記載のシステム。
  15. 前記判断コンポーネントに結合されたデータベースであって、該判断コンポーネントは、第2の入力クラスとして分類された入力を該データベースに転送するように構成され、該データベースは該転送された入力を格納するように構成される、データベースを備える、請求項12に記載のシステム。
  16. 前記分類器及び前記データベースに結合された再訓練モジュールであって、別の複数の予測の前に、前記第2の入力クラスとして分類された入力を使用して前記分類器を動的に再訓練するように構成される、再訓練モジュールを備える、請求項15に記載の対話システム。
  17. 前記データベースに結合されたグラフィカルユーザインタフェース(GUI)であって、前記第2の入力クラスとして分類された入力に対しラベルを与えることによってラベル付き入力を生成するように構成される、GUIを備える、請求項15に記載の対話システム。
  18. 実行可能命令を含むコンピュータ可読媒体であって、該実行可能命令は、処理システムにおいて実行されると、
    複数の予測及び複数の確率を受け取ることであって、該予測は受け取られた入力を予測し、該確率のそれぞれは1つの予測に対応する、受け取ること、及び
    前記複数の予測を降順の確率に従って順序付けることによってランク付けされた予測を生成することによって、該複数の予測から予測のセットを動的に選択すること、
    によって、出力予測の選択を制御する、コンピュータ可読媒体。
  19. 前記命令は、実行されると、前記ランク付けされた予測における予測の連続した対であって、該対間の対応する確率の差が他のいかなる予測の連続した対に対しても最大である、対を確定することによって、前記予測のセットを動的に選択し、該予測の連続した対は、第1の予測及び第2の予測を含み、該第1の予測は、該第2の予測より高い確率を有する、請求項18に記載のコンピュータ可読媒体。
  20. 前記命令は、実行されると、前記予測のセットの累積確率に従って前記受け取られた入力を分類する、請求項19に記載のコンピュータ可読媒体。
  21. 前記命令は、実行されると、前記予測のセットを動的に選択し、該選択することは、最高にランク付けされた予測と前記第1の予測とによって境界が画されるグループ内に自身の予測を含む該予測のセットを識別することを含む、請求項19に記載のコンピュータ可読媒体。
JP2010521998A 2007-08-24 2008-08-20 統計的分類のための最適な選択方略の方法及びシステム Pending JP2010537321A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/845,008 US8024188B2 (en) 2007-08-24 2007-08-24 Method and system of optimal selection strategy for statistical classifications
PCT/US2008/073719 WO2009029452A1 (en) 2007-08-24 2008-08-20 Method and system of optimal selection strategy for statistical classifications

Publications (1)

Publication Number Publication Date
JP2010537321A true JP2010537321A (ja) 2010-12-02

Family

ID=40254472

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010521998A Pending JP2010537321A (ja) 2007-08-24 2008-08-20 統計的分類のための最適な選択方略の方法及びシステム

Country Status (5)

Country Link
US (1) US8024188B2 (ja)
EP (1) EP2191460B1 (ja)
JP (1) JP2010537321A (ja)
AT (1) ATE529851T1 (ja)
WO (1) WO2009029452A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8239203B2 (en) * 2008-04-15 2012-08-07 Nuance Communications, Inc. Adaptive confidence thresholds for speech recognition
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8374881B2 (en) * 2008-11-26 2013-02-12 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with dialog acts
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
TWI421857B (zh) * 2009-12-29 2014-01-01 Ind Tech Res Inst 產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統
WO2012094014A1 (en) * 2011-01-07 2012-07-12 Nuance Communications, Inc. Automatic updating of confidence scoring functionality for speech recognition systems
US8838434B1 (en) * 2011-07-29 2014-09-16 Nuance Communications, Inc. Bootstrap call router to other languages using selected N-best translations
US8768071B2 (en) * 2011-08-02 2014-07-01 Toyota Motor Engineering & Manufacturing North America, Inc. Object category recognition methods and robots utilizing the same
KR20130055429A (ko) * 2011-11-18 2013-05-28 삼성전자주식회사 감정 세그먼트 기반의 감정 인식 장치 및 방법
US9805718B2 (en) * 2013-04-19 2017-10-31 Sri Internaitonal Clarifying natural language input using targeted questions
US9613619B2 (en) * 2013-10-30 2017-04-04 Genesys Telecommunications Laboratories, Inc. Predicting recognition quality of a phrase in automatic speech recognition systems
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) * 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10319209B2 (en) * 2016-06-03 2019-06-11 John Carlton-Foss Method and system for motion analysis and fall prevention
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
CN111326142A (zh) * 2020-01-21 2020-06-23 青梧桐有限责任公司 基于语音转文本的文本信息提取方法、系统和电子设备
US11954136B2 (en) * 2022-08-30 2024-04-09 Tencent America LLC Method and apparatus for multi-view conversational query production

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002525664A (ja) * 1998-09-11 2002-08-13 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 仮定の制限された組の確実性を評価することによってユーザ表現を認識する方法および装置におけるエラー復旧方法
JP2003296661A (ja) * 2002-03-29 2003-10-17 Sanyo Electric Co Ltd 文字認識装置、文字認識方法、その実行プログラムおよびそれを記録した記録媒体
JP2005164836A (ja) * 2003-12-01 2005-06-23 Advanced Telecommunication Research Institute International ドメイン検証器のトレーニング装置、入力データのドメイン検証装置、及びコンピュータプログラム
JP2007017548A (ja) * 2005-07-05 2007-01-25 Advanced Telecommunication Research Institute International 音声認識結果の検証装置及びコンピュータプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69322894T2 (de) * 1992-03-02 1999-07-29 At & T Corp Lernverfahren und Gerät zur Spracherkennung
US5519809A (en) * 1992-10-27 1996-05-21 Technology International Incorporated System and method for displaying geographical information
JP2001005488A (ja) * 1999-06-18 2001-01-12 Mitsubishi Electric Corp 音声対話システム
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6615172B1 (en) * 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7054810B2 (en) * 2000-10-06 2006-05-30 International Business Machines Corporation Feature vector-based apparatus and method for robust pattern recognition
GB2376335B (en) * 2001-06-28 2003-07-23 Vox Generation Ltd Address recognition using an automatic speech recogniser
US20030055644A1 (en) * 2001-08-17 2003-03-20 At&T Corp. Systems and methods for aggregating related inputs using finite-state devices and extracting meaning from multimodal inputs using aggregation
WO2004003887A2 (en) * 2002-06-28 2004-01-08 Conceptual Speech, Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
US7257575B1 (en) * 2002-10-24 2007-08-14 At&T Corp. Systems and methods for generating markup-language based expressions from multi-modal and unimodal inputs
US20040148169A1 (en) * 2003-01-23 2004-07-29 Aurilab, Llc Speech recognition with shadow modeling
US20040158468A1 (en) * 2003-02-12 2004-08-12 Aurilab, Llc Speech recognition with soft pruning
US8244545B2 (en) * 2006-03-30 2012-08-14 Microsoft Corporation Dialog repair based on discrepancies between user model predictions and speech recognition results
US7831427B2 (en) * 2007-06-20 2010-11-09 Microsoft Corporation Concept monitoring in spoken-word audio

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002525664A (ja) * 1998-09-11 2002-08-13 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 仮定の制限された組の確実性を評価することによってユーザ表現を認識する方法および装置におけるエラー復旧方法
JP2003296661A (ja) * 2002-03-29 2003-10-17 Sanyo Electric Co Ltd 文字認識装置、文字認識方法、その実行プログラムおよびそれを記録した記録媒体
JP2005164836A (ja) * 2003-12-01 2005-06-23 Advanced Telecommunication Research Institute International ドメイン検証器のトレーニング装置、入力データのドメイン検証装置、及びコンピュータプログラム
JP2007017548A (ja) * 2005-07-05 2007-01-25 Advanced Telecommunication Research Institute International 音声認識結果の検証装置及びコンピュータプログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG199800757035; 佐瀬 幹哉 外2名: '遺伝的アルゴリズムによるニューラルネットの問合せ学習' 電子情報通信学会論文誌 第J79-D-II巻第5号, 19960525, P.960〜968, 社団法人電子情報通信学会 *
CSNG200401965001; 木川 泰 外3名: 'SVMを用いたホルター心電図ノイズ判別' 電子情報通信学会技術研究報告 第103巻 第489号, 20031201, P.1〜6, 社団法人電子情報通信学会 *
JPN6013010689; 佐瀬 幹哉 外2名: '遺伝的アルゴリズムによるニューラルネットの問合せ学習' 電子情報通信学会論文誌 第J79-D-II巻第5号, 19960525, P.960〜968, 社団法人電子情報通信学会 *
JPN6013010692; 木川 泰 外3名: 'SVMを用いたホルター心電図ノイズ判別' 電子情報通信学会技術研究報告 第103巻 第489号, 20031201, P.1〜6, 社団法人電子情報通信学会 *

Also Published As

Publication number Publication date
US8024188B2 (en) 2011-09-20
EP2191460A1 (en) 2010-06-02
WO2009029452A1 (en) 2009-03-05
ATE529851T1 (de) 2011-11-15
EP2191460B1 (en) 2011-10-19
US20090055176A1 (en) 2009-02-26

Similar Documents

Publication Publication Date Title
JP5241379B2 (ja) 対話システムにおける統計的分類のための最適な選択戦略の方法及びシステム
EP2191460B1 (en) Method and system of optimal selection strategy for statistical classifications
CN107609101B (zh) 智能交互方法、设备及存储介质
CN107818781B (zh) 智能交互方法、设备及存储介质
US10431214B2 (en) System and method of determining a domain and/or an action related to a natural language input
Tur et al. Combining active and semi-supervised learning for spoken language understanding
CN107180084B (zh) 词库更新方法及装置
KR20170088164A (ko) 점증적 대화지식 자가학습 기반 대화장치 및 그 방법
WO2003050799A9 (en) Method and system for non-intrusive speaker verification using behavior models
JPH11143491A (ja) 音声に基づくタスク自動分類の方法、呼自動分類の方法及びタスク自動分類システム
CN110060674B (zh) 表格管理方法、装置、终端和存储介质
JP2012118977A (ja) 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム
CN108388553B (zh) 对话消除歧义的方法、电子设备及面向厨房的对话系统
JPWO2007138875A1 (ja) 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
US11526512B1 (en) Rewriting queries
US20230072171A1 (en) System and method for training and refining machine learning models
JP7058574B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6370962B1 (ja) 生成装置、生成方法および生成プログラム
Kim et al. Sequential labeling for tracking dynamic dialog states
JP7096199B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US7085720B1 (en) Method for task classification using morphemes
JP5975938B2 (ja) 音声認識装置、音声認識方法及びプログラム
Chen et al. Active learning for domain classification in a commercial spoken personal assistant
US11625630B2 (en) Identifying intent in dialog data through variant assessment
US20230351257A1 (en) Method and system for training virtual agents through fallback analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110811

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130528

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140205