JP2009110503A - 対話システムにおける統計的分類のための最適な選択戦略の方法及びシステム - Google Patents

対話システムにおける統計的分類のための最適な選択戦略の方法及びシステム Download PDF

Info

Publication number
JP2009110503A
JP2009110503A JP2008213621A JP2008213621A JP2009110503A JP 2009110503 A JP2009110503 A JP 2009110503A JP 2008213621 A JP2008213621 A JP 2008213621A JP 2008213621 A JP2008213621 A JP 2008213621A JP 2009110503 A JP2009110503 A JP 2009110503A
Authority
JP
Japan
Prior art keywords
predictions
prediction
utterance
probability
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008213621A
Other languages
English (en)
Other versions
JP5241379B2 (ja
Inventor
Junling Hu
ジュンリング・フー
Fabrizio Morbini
ファブリオ・モルビニ
Fuliang Weng
フリアン・ウェン
Shu Liu
シュ・リウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of JP2009110503A publication Critical patent/JP2009110503A/ja
Application granted granted Critical
Publication of JP5241379B2 publication Critical patent/JP5241379B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

【課題】対話システムにおける統計的分類のための最適な選択戦略の方法を提供する。
【解決手段】最適な選択戦略又は判断戦略を、対話システムにおける使用を含む一例を通じて説明する。選択戦略又は選択方法は、複数の予測及び複数の確率を受け取ることを含む。受け取られた予測は、受け取られた入力の内容を予測し、確率のそれぞれは予測のうちの1つに対応する。対話システム例では、受け取られた入力は発話を含む。選択方法は、ランク付けされた予測を生成することによって、受け取られた予測から予測のセットを動的に選択することを含む。ランク付けされた予測は、降順の確率に従って複数の予測を順序付けることによって生成される。
【選択図】図1A

Description

本明細書における開示は、包括的には、自然言語処理、音声認識、自然言語理解、対話行為分類及び自然言語生成を含む様々な分野における統計的学習手法及びそれらの適用に関する。特に、本開示は、対話システムにおける誤り検出の例示的な適用を示す。
多くのソフトウェアアプリケーションでは、統計的分類器を使用して可能性のある出力を予測する。統計的分類器は、すべての可能性のある出力に対し確率分布を割り当てる。システムは、確率が最も高い上位n個の出力を選択することができる。これはnベスト(n-best)選択方法と呼ばれ、音声認識、自然言語理解、機械翻訳及び他の用途で使用されてきた。従来、nは定数である。
対話システムは、人が、結果を達成するためにコンピュータに自然言語で話すか又は他の方法で入力するシステムである。マイクロプロセッサ制御の電化製品及び機器の増加によって、対話システムは、コンピュータ、自動車、家庭電化製品、電話による顧客サービス等の多くの用途においてマンマシンインタフェースを容易にするために、ますます使用されるようになっている。対話システムは、問合せを処理し、1つ又は複数のデータベースにアクセスして、問合せに対する応答を検索する。対話システムはまた、ユーザからの要求に基づいて他の動作を実行することもできる。可能な限りユーザとの対話を少なくして意味のある結果を提供するために、対話システムを、問合せの内容及びフォーマット並びに応答データの内容及びフォーマットの大きなばらつきに対応するように設計し実装するべきである。
通常、対話システムは、言語理解モジュール、対話管理モジュール、及び応答生成モジュールを含む、いくつかのモジュール又はコンポーネントを含む。音声対話システムの場合、音声認識モジュール、及びテキスト−音声変換モジュールが含まれる。各モジュールは、いくつかのサブモジュールを含む場合がある。これらモジュールのうちの1つ又は多くにおいて統計的手法が使用される場合、複数の結果候補が生成される可能性がある。従来のシステムで複数の候補が生成される場合、候補の数は、静的パラメータのうちの1つとして固定される。
最近の対話システムにおける永続的な問題は、有効範囲と、それらがユーザ問合せに対する応答を処理して返すために静的規則、データ構造、及び/又はデータ内容に依存するという事実とである。対話システムがいかに広範であるかに関わらず、人々が話す可能性のすべてを網羅することは不可能である。ロバストなシステムを構築するために、新たなデータが収集されると容易に訓練し更新することができる組込み適応コンポーネントを含む対話システムが必要である。したがって、システムが理解しない発話を動的に格納し、これら格納された発話のデータを使用して後にシステムを再訓練することができる対話システムが必要である。これによって、システムがすでに理解しているデータについてシステムを訓練する無駄な労力が無くなる。
参照による援用
本明細書で言及する各特許、特許出願、及び/又は刊行物は、各個々の特許、特許出願及び/又は刊行物が参照により援用されているように具体的に且つ個々に示されているのと同程度に、その全体が参照により本明細書に援用される。
最適選択又は判断戦略について以下に説明する。場合によっては、最適選択又は判断戦略を、対話システム例を使用して説明するが、本実施形態はそのように限定されない。図1Aは、一実施形態に基づく、本明細書で説明する最適選択又は判断戦略を使用するように構成される音声対話システム100のブロック図である。この例の対話システム100は、言語理解モジュール(たとえば自然言語理解(NLU)モジュール)、対話管理モジュール(たとえば対話管理部)及び応答生成モジュール(たとえば自然言語生成部(NLG)モジュール)を含む、いくつかのモジュール又はコンポーネントを含む。音声対話システム100の場合、音声認識モジュール(たとえば自動音声認識(ASR)モジュール)及びテキスト−音声変換モジュール(たとえばTTSモジュール)が含まれる。各モジュールは、いくつかのサブモジュールを含む場合がある。たとえば、NLUモジュールは、品詞(POS)タガー、編集領域検出モジュール、固有名詞識別モジュール、構文解析部、意味スロット識別モジュール、及び意味解釈部を含む可能性がある。対話管理部では、対話行為分類が1つのコンポーネントである。対話システムのモジュール又はサブモジュールのそれぞれにおいて、統計的手法が使用される場合、モジュール又はサブモジュールから複数の候補が生成される可能性がある。こうした場合、本明細書で説明する最適選択戦略を使用することができる。
以下の説明では、ホスト対話システム、たとえば対話システム100において発話が理解されるか否かを判断する、選択戦略又は選択方法が使用される。この選択戦略は、システムが理解しない発話が動的に格納されると共に後にシステム(たとえばシステムの統計的モデル)を再訓練するために使用されるように、対話システムにおいて有効範囲拡張をサポートする。こうした判断は、偽陽性の場合と偽陰性の場合とを平衡させなければならない。本明細書で説明する実施形態は、nが各発話の分類器分布に基づいて動的に確定される可変nベスト出力の累積確率に基づいて、本明細書ではnベスト(n*-best)選択と呼ぶ選択戦略、方法又はコンポーネントを提供する。固定nを用いる従来のnベスト方法と対照してテストされる、nベスト選択アルゴリズムとも呼ぶnベスト選択の性能についても説明する。性能を、後述するように、受信者動作特性曲線(Receiver Operating Curve)(ROC)の下の面積に基づいて測定した。性能結果によって、nベスト選択が、任意の固定のnを用いる他のすべてのnベスト方法より一貫して適切に動作することが分かった。
一実施形態のnベスト選択の下でnベストの結果に対してnを動的に選択することによって、従来の技法に比較して分類器の出力を使用する方法が改善される。これは特に、分類器出力がより複雑なシステムの他の段階で使用される場合に当てはまる。本明細書で説明するnベスト選択は、対話行為の分類に限定されず、たとえばnベスト出力が必要である他のコンポーネントにおいても使用することができる。対話行為は、人間対人間の対話若しくは人間対機械の対話又は対話イベントにおいて、要求、質問、確認等、単語を介して意図された動作を表現する行為である。
一実施形態の対話システムは、システムに、新たなデータによって容易に更新することができる組込み適応コンポーネント(たとえば、統計的自然言語理解(NLU)モジュール、分類器ベースの意味解釈部等)を提供することによって、人間の可能性のある発話のより広範な有効範囲を含む。一実施形態の対話システムは、組込み適応コンポーネントが、新たなデータが収集されると訓練され更新されるのを可能にするように構成される。一実施形態では、システムが理解しない発話を動的に格納し、格納された発話のデータを使用してシステムを再訓練することによって、有効範囲を拡張する。この構成によって、ラベル付けのコストを最小化するように、訓練のために大きいプールから選択されるデータ点のわずかなサンプルを使用することによって、システムがすでに理解するデータについてシステムを訓練する無駄な労力が排除される。
一実施形態のnベスト選択は、従来のnベスト選択に類似するが、nが、各入力発話に対しその発話に対する分類器の出力の特性に基づいて動的に選択される点が異なる。最初のn個のクラスに割り当てられる確率の合計が一定閾値を上回る場合、システムは、ユーザの発話のその分類に対して確信すると判断する。そうでない場合、システムは、文を理解せず、後の訓練のためにそれを保存すると宣言する。
以下の説明では、対話システムの実施形態が完全に理解されると共にそれに対する説明が可能となるように多数の特定の詳細を紹介する。しかしながら、当業者は、これら実施形態を、特定の詳細のうちの1つ又は複数なしに、又は他のコンポーネント、システム等を用いて実施することができることを理解するであろう。他の場合では、開示する実施形態の態様を不明瞭にしないために、既知の構造又は動作については示さず、又は詳細に説明しない。
図1Bは、一実施形態に基づく、適応対話システム(ADS)のブロック図である。ADSのコンポーネントは、理解されないユーザ発話を自動的に識別し格納するように、個々に且つ/又は集合的に構成されると共に機能する。理解されなかった発話は、後述するように後の訓練に使用される。ADSは、データベースに結合された分類器を含む。分類器はまた、ホスト対話システムの名詞句(NP)抽出部(NP抽出部)にも結合される。再訓練コンポーネント又はモジュールが、分類器とデータベースとの間に結合される。一実施形態の再訓練コンポーネントは、グラフィカルユーザインタフェース(GUI)を含む。
分類器は、入力として発話又は文を受け取る。分類器は、ユーザ発話の解析木から計算される特徴を使用して、ユーザの対話行為に対し予測を行う。分類器は、分類器の結果に関連する確信度のレベルを確定するように構成される判断コンポーネントを含むか又はそれに結合される。判断コンポーネントについては後に詳細に説明する。分類器は、ADSが結果に関して比較的確信していると確定すると、その発話を「理解された」として分類し、結果をNP抽出部、及び/又はADSの他のコンポーネント若しくは段階、又は他のホストシステム(複数可)に転送するか又は渡す。
分類器は、確信している場合、正しくないか又は相対的に確信度が低い可能性のある結果をも返すことができ、この場合、発話は「誤解された」として分類される。誤解されたものとして分類される発話(検出が困難な場合もあるが)もまた、NP抽出部及び/又はADSの他のコンポーネント若しくは段階に転送される。
判断コンポーネントが、ADSが分類器の結果に関して確信していないか又はその確信度が相対的にはるかに低いと確定した場合、発話は「理解されなかった」として分類される。理解されなかったものとして分類される発話の情報又は結果は、データベースに転送され、そこで後の訓練のために保存される。データベースは、ADSによって理解されなかったものとして分類される発話に関する情報を格納する。発話、その解析木、及び分類器によって割り当てられた現ラベルは、たとえばデータベースに格納されるが、データベースは、このデータ若しくは情報のすべてを格納すること、又はこのデータ若しくは情報のみを格納することには限定されない。さらに、ADSは、理解されなかった発話に応答してユーザに対する応答(たとえば、「理解できない」)を含む出力を生成する。
ADSコンポーネントは、単一システム、複数のシステム及び/又は地理的に離れたシステムのコンポーネントであってもよい。ADSコンポーネントはまた、単一システム、複数のシステム及び/又は地理的に離れたシステムのサブコンポーネント又はサブシステムであってもよい。ADSコンポーネントを、ホストシステム又はホストシステムに結合されたシステムの1つ又は複数の他のコンポーネント(図示せず)に結合してもよい。
一実施形態のADSは、処理システムを含み、且つ/又はその下で且つ/若しくはそれに関連して実行する。処理システムは、本技術分野において既知であるように、ともに動作するプロセッサベースデバイス若しくはコンピューティングデバイスか、又は処理システム若しくはデバイスのコンポーネントの任意の集まりを含む。たとえば、処理システムは、ポータブルコンピュータ、通信ネットワークで動作するポータブル通信デバイス、及び/又はネットワークサーバのうちの1つ又は複数を含んでもよい。ポータブルコンピュータは、パーソナルコンピュータ、携帯電話、携帯情報端末、ポータブルコンピューティングデバイス、及びポータブル通信デバイスの中から選択される複数のデバイス及び/又はデバイスの組合せのうちのいずれであってもよいが、そのように限定されない。より詳細には、システムは、いくつか挙げると、対話インタフェースを備えるセキュリティシステム、言語インタフェースを備える電化製品、電話による顧客サポートシステム及び技術サポートシステム、並びに、たとえばナビゲーション、地域情報検索、及び車内エンターテイメントシステムを含む、言語インタフェースを備える自動車製品又はコンポーネントを含んでもよい。処理システムは、より大型のコンピュータシステム内のコンポーネントを含んでもよい。
一実施形態の処理システムは、少なくとも1つのプロセッサと少なくとも1つのメモリデバイス又はサブシステムとを含む。処理システムはまた、少なくとも1つのデータベースを含むか又はそれに結合されてもよい。本明細書において概して使用する用語「プロセッサ」は、1つ又は複数の中央処理装置(CPU)、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)等の任意の論理処理ユニットを指す。プロセッサ及びメモリを、単一チップにモノリシックに集積してもよく、IDSSの複数のチップ若しくはコンポーネント間に分散させてもよく、且つ/又はアルゴリズムのいくつかの組合せによって提供してもよい。本明細書で説明するADS方法を、ソフトウェアアルゴリズム(複数可)、プログラム、ファームウェア、ハードウェア、コンポーネント、回路のうちの1つ又は複数において任意の組合せで実装してもよい。
ADSコンポーネントを、合わせて配置してもよく又は別の場所に配置してもよい。通信経路は、ADSコンポーネントを結合し、それらコンポーネント間でファイルを通信するか又は転送する任意の媒体を含む。通信経路は、無線接続、有線接続、及びハイブリッド無線/有線接続を含む。通信経路はまた、ローカルエリアネットワーク(LAN)、メトロポリタンエリアネットワーク(MAN)、広域ネットワーク(WAN)、専属的(proprietary)ネットワーク、社内ネットワーク又はバックエンドネットワーク、及びインターネットを含む、ネットワークに対する結合又は接続も含む。さらに、通信経路は、フロッピーディスク、ハードディスクドライブ、及びCD−ROMディスクのような着脱可能な固定媒体と共に、フラッシュRAM、ユニバーサルシリアルバス(USB)接続、RS−232接続、電話線、バス、及び電子メールメッセージを含む。
図2は、一実施形態に基づく、発話を分類するフローチャートである。ADSの1つ又は複数のコンポーネントは、発話を受け取る(202)ように構成され且つ/又は機能する。発話に対応する対話行為に対して複数の予測が生成される(204)。ADSは、それぞれが予測に対応する複数の確率を生成する(206)。ADSは、複数の予測から予測のセットを動的に選択し(208)、その予測のセットの累積確率に従って発話を分類する(210)ように構成され且つ/又は機能する。
ADSの再訓練コンポーネントは、人間のユーザが理解されなかったものとして分類されると共にデータベースに格納された発話に対し迅速に再度ラベル付けする(たとえば手動でラベル付けする(hand label))のを可能にするGUIに結合され且つ/又はそれを含む。ADSは、ラベルを選択する可能性のある対話行為を、GUIを介して、分類器が人間のユーザに対する提案として選択したものを最初に強調して表示する。再訓練コンポーネントは、再ラベル付けされた発話のデータを使用して、古い訓練データと新たな再ラベル付けされたデータとに基づいて分類器を訓練する。理解されなかった発話の前にn個のデータ点があり、且つ理解されなかった発話の数がmであるとすると、新たな訓練データはn+m個のデータ点を有することになる。新たに訓練されたモデルを、再起動する必要なしに実行中のシステムに組み込むことができる。
図3は、一実施形態に基づく、対話システムを訓練するフローチャートである。ADSの1つ又は複数のコンポーネントは、発話を受け取る(302)ように構成され且つ/又は機能する。ADSは、発話に対応する対話行為に対する複数の予測から予測のセットを動的に選択する(304)。発話は、予測のセットの累積確率に従って分類される(306)。ADSは、発話が理解されなかったものとして分類された場合に、その発話を使用して分類を動的に再訓練する(308)ように構成され且つ/又は機能する。
文を解釈することに関する確信度に関連する判断は、ラベル付け及び再訓練のためにその文を選択すべきか否かの判断に移行する。この意味で、この判断問題は、能動学習に類似するか又は同じである。図4は、一実施形態に基づく、ADSの一例に適用されるような能動学習において識別されるデータセット間の関係のブロック図である。元の訓練セットがNであり、新たなデータが固定セットNからくるものとすると、判断は、人間のラベル付けに対しそのデータを選択するか否かである。人間のラベル付けに対しデータ点が選択される場合、それは、Sとして表されるセットに保存される。能動学習では、目標は、人間のラベル付け労力を低減して、データセットNに対して先に訓練されたモデルを改善するように優れたセットSを確定することである。
選択的サンプリングは、能動学習と等価である。一実施形態のADSに適用されるような能動学習の特有の特徴は、毎回1つのデータ点しか選択することができない、ということを含む。毎回1つのデータ点を選択することによって、一実施形態の能動学習は、一括サンプリングが許容される従来の実施形態とは異なるものとなる。
また、ADSに適用されるような能動学習の特有の特徴によって、データ点の各選択が先の選択から独立することになる。データ点の各選択が先の選択から独立することによって、一実施形態の能動学習は、先の判断からのフィードバックを使用して次のラウンドのサンプリングに役立てる従来の能動学習とは異なるものとなる(たとえば、Thomas Osugi、Deng Kum及びStephen Scott著、2005、「Balancing Exploration and Exploitation: A New Algorithm for Active Machine Learning boundaries」(Proceedings of the Fifth IEEE International Conference on Data Mining(ICDM'05)))。
さらに、ADSに適用されるような能動学習の特有の特徴は、間違った選択がシステム性能にほぼ即座に影響を与えるという考慮事項を含む。一実施形態の能動学習はまた、リアルタイム又はほぼリアルタイムで実行され、それは、いかなる学習も静的コーパスに対しオフラインで行われる従来の能動学習とは対照的であるという点で、従来の能動学習とは異なる。
能動学習の一態様は、サンプル選択基準を含む。一実施形態に基づくサンプル選択基準は、すべてのサンプルに対する、後のラベル付け及び訓練に対しサンプルを保持するべきか否かに関する判断を含む。サンプル選択は、概して、コミッティ(committee)ベースの選択か又は確実性ベースの選択を使用して行われる。ADSは確実性ベースの選択(Goekhan Tuer、Dilek Hakkani-Tuer及びRobert E.Schapire著、2005、「Combining active and semi-supervised learning for spoken language understanding」(Speech Communication, 45(2):171-186, 2005)によって使用される)を使用するが、そのように限定はされない。
確実性ベースの学習は、分類器結果に対する確実性に基づいてデータ点を選択する。統計的分類器(最大エントロピー又はベイズ分類器等)は、すべての可能性のあるクラスに対して確率分布を返す。通常、これら確率を使用して、分類器のその判断に対する確信度を推定する。一実施形態のADS下での動作は、分類器出力を最高確率から最低確率までソートすることによって分類器の確信度を推定する。ソートされた分類器出力の間で、分類器によって最も確信度が高い出力として返されたクラスのセットを規定するカットオフ点(n)が確定される。カットオフ点の前に発生するソートされた分類器出力の確率に対し、返されたクラスすべての確率の合計が計算される。この累積確率が事前定義された閾値を下回る場合、ADSは、分類器がその分類を確信していないと判断する。累積確率が事前定義された閾値であるか又はそれを上回る場合、ADSは、分類器がその分類を確信していると判断し、対話管理部に結果を送出又は転送する。
図5は、一実施形態に基づく、累積確率曲線500を示す。上述したような所定閾値をhとして表す。累積確率曲線500は以下のように定義され、
P(n)=p+p+…+p
ここで、pは第1のクラスに関連する確率であり、pは第nのクラスに関連する確率である。なお、確率は最高から最低までソートされ、そのため
≧p≧…≧p
であることに留意されたい。
確実性ベースの能動学習では、分類器によって返される最良クラスを選択することが一般的であり(たとえば、Tur他、2005)、これを1ベスト方法と呼ぶ。しかしながら、これは一実施形態のADSには理想的ではない。それは、文が複数の対話の動きにマッピングされる可能性があるためである。したがって、分類器は、互いに非常に近いクラスのグループを返す可能性がある。図6は、一実施形態に基づく、所与の入力された文又は発話に対しADS分類器が返す分布600の一例を示す。確率分布例のこのプロット600を参照すると、上位の3つのクラス601〜603のそれぞれ(それぞれ、nの値1、2及び3に対応する)は、およそ30%の確率を有する。1ベスト方法を使用すると、このインスタンスは確信度が低いものとして返される。しかしながら、これら上位3つのクラスのうちの1つが正しいクラスである可能性がある。選択された上位3つのクラスが対話管理部に送出されると、対話管理部は、文脈及び対話履歴に基づいて最終選択を行うことができる。
nベスト方法は、音声認識及びNLUにおいて広範囲に使用されてきており、機械翻訳でも広く使用されている(たとえば、Kristina Toutanova及びHisami Suzuki著「Generating Case Markers in Machine Translation」(Human Language Technologies 2007: The Conference of the NAACL; Proceedings of the Main Conference, April, 2007, Rochester, New York. Association for Computational Linguistics, pages: 49-56, http://www.aclweb.org/anthology/N/N07/N07-017))。システムに、何が適切な翻訳であるかに関する情報がほとんどないとすると、nベスト方法下ではすべてのあり得る候補が後の段階に送出され、そこでランク付け部が候補に対して判断を行う。これら適用の大部分において、候補の数nは固定数である。
nベストの場合に固定数nを選択する代りに、本明細書で説明するADSは、各発話に対する分類器の分布に基づいてnを動的に設定する。本明細書では、nの動的設定を、nベスト選択と呼び、それが一実施形態のADSによって使用される。したがって、nベストは、nが場合によって変化するnベストの変形である。nベスト選択は、数nが以下の特性を満足するように、モデルから返されるクラスの数を選択する。すなわち、
Figure 2009110503
式(1)
であり、ここで、p及びpn+1は、それぞれクラスn及びクラスn+1の確率である。言い換えると、nは、低下p−pn+1を最大にするカットオフ点である。
上述した分布600(図6)では、たとえばnベストを使用すると、p−p=0.29は他のすべての低下より大きいため、n=3である。言い換えれば、この例の場合、ADSは3ベスト候補を返す。
図7は、1178点の第1のデータセットにおけるn及びnのヒストグラムを示す。この第1のデータセットは、およそ800のケースが、90%の累積確率P(n)を返すために3つのクラス(n=3)を必要とすることを示す。別の300のケースでは、90%の確信度を有するために4つのクラスを返す必要がある。図8は、471点の第2のデータセットにおけるn及びnのヒストグラムを示す。第2のデータセットで、第1のデータセットと同様の結果が示されている。したがって、固定数nのnベスト選択(たとえば3ベスト、4ベスト等)を使用することによって、概して、最適とはいえない結果が提供される。しかしながら、第1のデータセット及び第2のデータセットのそれぞれにおけるnのヒストグラムのプロットによって、nが、P(n)>90%をもたらす最適なnの分布に近いことが分かる。
ベスト選択を考慮するか又は評価する別の方法は、累積確率の使用を含む。図9は、学習された分類器の累積確率分布Pを示す。学習した分類器の累積確率分布曲線900が凹関数であることが分かる。学習した分類器の累積確率分布曲線900が凹関数であるという証明は、凹関数が以下の特性を満足させることを考慮することによって開始する。
f{(x+y)/2}≧{f(x)+f(y)}/2
以下を考慮すると、
P(x)=p+p+…+p及びP(y)=p+p+…+p+…+p
以下のようになる。
{P(x)+P(y)}/2=p+p+…+p+(px+1+…+p)/2
y=(x+k)を代入すると、
P{(x+y)/2}=P{x+k/2}
=p+p+…+p+(px+1+…+px+k/2
となり、上記式からのさらなる減算によって、以下のようになる。
P{(x+y)/2}−{P(x)+P(y)}/2
=px+1+…+px+k/2−(px+1+…+px+k)/2
=1/2{px+1+…+px+k/2−(px+k/2+1+…+px+k)}
≧0
上記最後の不等式は、以下の事実から導出される。すなわち、確率が最高から最低までソートされる場合、
≧p≧…≧p
である。
の導出は、累積確率曲線の二次導関数を最大化することと等価である。クラスの数が無限大に近づき、nが上述した式(1)に基づいて選択される場合、以下のようになる
Figure 2009110503
これを、以下を考慮することによって示すことができ、
=P(n)−P(n−1)=△P(n)
以下のようになる。
−pn+1=△P(n)−P(n+1)=−△P(n+1)
クラスの数が無限大に近づくと、累積曲線は連続的になる。したがって、
P(n+1)
を、以下によって近似することができる。
P’’(n+1)
Figure 2009110503
であるため、以下のようになる。
Figure 2009110503
P(n)が、上述したように凹関数であるとすると、それは以下の特性を有する。
P’(n)≧0 且つ P’’(n)≦0
点nにおける二次導関数は、凹関数曲線に対する接線の勾配における増大である。したがって、n+1を通過する接線は、その勾配において最大の増大を有する。
能動学習の一態様は、性能評価を含む。一実施形態のnベスト選択の性能評価は、定義された目的関数又は評価基準を使用して、nベスト方法の性能を従来のnベスト選択方法と比較することを含む。能動学習研究では、最も一般に使用される評価基準は誤り率である。誤り率を以下のように書くことができ、
1−TP/(TP+FP)
ここで、TPは真陽性(true positive)の数を表し、FPは偽陽性の数を表す。この測度(確率を表す関数)は重要であるが、ユーザに間違った解答を与えること(偽陽性)と、適当に分類されたユーザの発話の拒絶が多すぎること(偽陰性)との間のトレードオフを捕えない。したがって、一実施形態の目的関数は、受信者動作特性(ROC)曲線に基づく。特に、ROC曲線を使用する場合、より適切な選択基準は、ROC曲線の下の面積がより広いものである。続いて、様々な選択基準の性能を評価するのにROC曲線を使用する。
本明細書では、セットSを、確信度が低いものとしてマークされると共に人によってラベル付けされるデータ点の集まりとして定義する。セットNは、新たなデータすべてのセットを表し、hは、確信度閾値を表し、dは、Nにおける任意のデータ点を表す。そして、セットSを以下のように定義することができる。
S={d:P(n)<h,∀d∈N} (2)
したがって、分類器からのnベストクラスの累積確率が閾値hを下回る場合、ADSは分類器結果に対し確信がなく、したがって、データを将来の訓練のために保存する。セットSは、上述したようにn及びh両方の関数である。固定hの場合、セットSのサイズはnが大きいほど低減する。図10は、確信度が低いものとしてマークされたデータ点のセットSとnの値との関係を示す。
真陽性(TP)及び偽陽性(FP)に加えて、一実施形態の性能評価は、真偽性(TN)及び偽陰性(FN)も考慮する。分類器の結果が人間のラベルと一致する場合、それらは真陽性ケースとしてカウントする。非訓練セット(N−S)のデータ点は、このデータ点に対する予測されたクラスが誤っている(人間のラベルセットと一致しない)場合の偽陽性(FP)か、又は真陽性(TP)のいずれかである可能性がある。同様に、人間のラベルと一致するSのデータ点は、偽陰性となり、そうでない場合は真陰性となる。
データ点dに対する人間のラベルの集まりを、本明細書ではLとして表し、C(n)は、確率によって最高から最低までランク付けされて分類器によって返される最初のn個のクラスの集まりを表す。上記表現を考慮すると、以下のようになる。
TP={d:C(n)∩L≠φ,∀d∈N−S}
FP={d:C(n)∩L=φ,∀d∈N−S}
TN={d:C(n)∩L=φ,∀d∈S}
FN={d:C(n)∩L≠φ,∀d∈S}
一実施形態の選択基準は、最適なSをもたらし、最適なSは、小さく、且つ真陰性インスタンスのみを含むものである。したがって、選択基準のより適切な性能測度はROC曲線であり、それは、ROC曲線が偽陽性及び偽陰性も考慮するためである。
ROC曲線は、真陽性率対偽陽性率のグラフィカルプロットである。ROC分析は、不正確な環境におけるそのロバスト性のために、多数の分野において注意を引いてきた。図11は、一実施形態に基づく、ADSの性能評価に使用されるROC曲線である。ROC空間は、偽陽性率(FPR)(たとえばx軸)と真陽性率(TPR)(たとえばy軸)とによって画定され、真陽性と偽陽性との間の相対的なトレードオフを示す。可能性のある最適な予測方法は、ROC空間の左上隅の点すなわち座標(0,1)をもたらし、それは特定のモデルによって真陽性のみがすべて返される場合を表し、この点は完全な分類に対応する。45度対角線は、非識別線(no-discrimination line)と呼ばれ、それぞれ真の場合の総数(すなわちTP+FN)及び偽の場合の総数(すなわちTN+FP)と比較した場合に同じ割合の真陽性及び偽陽性を返す分類器を表す。
ROC曲線は、TPRがFPRに対してプロットされる場合に閾値hを変化させることによって導出される。感度又は再現率とも呼ばれるTPRは、以下の式によって表される。
TPR=TP/(TP+FN)
FPRは、およそ1−特異度の量であり、以下の式によって表される。
FPR=1−TN/(FP+TN)
ROC曲線の下の面積(AUCと呼ぶ)は、分類器の性能を定量化するのに使用される要約統計量である。AUC値が大きいほど、分類器の性能は優れている。
ROC曲線の対角線より上の点は、優れた分類器(すなわち、高い率のTP及びTNを識別するもの)であり、線より下の点は、より弱い分類器を示す。その結果、ROC曲線と非識別線との間の面積を使用して、分類器の性能を示すことができる。この面積は、一般に、識別面積として知られ、本明細書ではROC面積と呼ぶ。
一実施形態のnベスト選択の性能を、図7及び図8を参照して上述した2つのデータセットを使用して評価した。第1のデータセットは1178のユーザ発話を含み、第2のデータセットは471の発話を含む。これらサンプル発話は、レストラン推奨ドメインからのものであるが、そのようには限定されない。第1のデータセットを、以下の説明では「大きい訓練データ」すなわち「LD」と呼び、第2のデータセットを、以下の説明では「小さい訓練データ」すなわち「SD]と呼ぶ。2つのデータセットLD及びSDを使用して、以下のように2つのシナリオをシミュレートする。すなわち、ケース1は、データセットLD及びデータセットSDを含み、モデルは、大きいデータセットLDに対して訓練され、小さいデータセットSDに対してテストされ、ケース2は、データセットSD及びデータセットLDを含み、モデルは、小さいデータセットSDに対して訓練され、大きいデータセットLDに対してテストされる。
データセットLD及びSDの両方におけるすべての発話は、対話行為によって手でラベル付けされた。各発話に関して2つ以上の対話行為がある可能性もある。訓練インスタンス例は、「(安いレストラン)、(問合せ:レストラン、回答、修正)」を含む。訓練インスタンスの第1の部分はユーザの発話であり、訓練インスタンスの第2の部分(Lと呼ぶ)は、人間がラベル付けした対話行為のセットである。全体で、3つのテストに対して使用されるドメインにおいて、30のあり得るユーザ対話行為がある。
本明細書において提示する評価は、nベスト方法を、nがおよそ1から6の範囲である固定nベスト方法と比較した。これらの方法のそれぞれに対し、0.1から1までの範囲で0.05刻みの閾値hの値に対してTP、FP、TN及びFNを計算する。TPR及びFPRを導出し、ROC曲線をプロットするために使用する。
図12は、一実施形態に基づく、ケース1の訓練データ例を使用してnベスト選択の下で得られるROC曲線を示す。訓練データ例は、上述したケース1に基づくデータであり、その場合、モデルは大きいデータセットLDに対して訓練され、小さいデータセットSDに対してテストされる。nベスト選択のROC曲線は、比較のために、nが様々な値をとる固定nベスト選択と共にプロットされている。
一実施形態のnベスト選択に対するROC曲線は、概して、ほとんどの場合、固定nである他の方法より優れている。実際には、nのいくつかの値に対し、nベスト選択は非識別線(「ランダム」線と付す)の下で実行する。たとえば、高閾値hでの2ベストは、ほとんどの場合hに到達せず、それは、累積確率を計算するために2つのノードしか考慮されないためである。これによって、大きいセットSは多くのFNを含む結果となる。これによって、TPRは低下し、FPRはTPRより高くなる。
図13は、一実施形態に基づく、ケース2の訓練データ例を使用してnベスト選択下で得られるROC曲線を示す。訓練データ例は、上述したケース2に基づくデータであり、その場合、モデルは、小さいデータセットSDに対して訓練され、大きいデータセットLDに対してテストされる。nベスト選択のROC曲線は、比較のために、nが様々な値をとる固定nベスト選択と共にプロットされている。
すべての選択方法に対するROC曲線(ケース2の訓練データ例に基づく)は、ケース1の訓練データ例を使用する先の例より、非識別線に近い。これによって、分類器は、訓練に小さいセットが使用される場合、識別品質がより低いことが示唆される。しかしながら、nベスト方法は、概して、依然としてシナリオの大部分において他のnベスト方法より性能が優れている。
上記ケース1の例及びケース2の例の下でROC面積のサイズを計算することによって、他のnベスト選択方法と比較したnベスト選択の性能の要約統計量が提供される。図14は、一実施形態に基づく、ケース1の訓練データ例を使用してnベスト選択(nはn=0として表す)下で得られるROC AUCの大きさを示す。比較のために、nが様々な値をとる固定nベスト選択下で得られるROC AUCの大きさも示す。ROC AUCとしてプロットされるデータは、図11のROC曲線に対応する。nベスト選択は、概して、ケース1のシナリオに基づく他のすべてのnベスト選択方法より性能が優れている。nベスト選択の優れた性能の理由は、セットSの品質である。nベスト選択は、他のnベストアルゴリズムとサイズが同じ場合、真陰性の場合をより多く含むセットSを生成する。
図15は、一実施形態に基づく、ケース2の訓練データ例を使用してnベスト選択(nはn=0として表す)下で得られるROC AUCの大きさを示す。比較のために、nが様々な値をとる固定nベスト選択下で得られるROC AUCの大きさも示す。ROC AUCとしてプロットされるデータは、図12のROC曲線に対応する。nベスト選択は、概して、ケース2のシナリオに基づく他のすべてのnベスト選択方法より性能が優れている。この場合もまた、nベスト選択の優れた性能の理由は、セットSの品質である。nベスト選択は、他のnベストアルゴリズムとサイズが同じ場合、真陰性の場合をより多く含むセットSを生成する。
本明細書で説明した対話システムの態様を、フィールドプログラマブルゲートアレイ(FPGA)、プログラマブルアレイロジック(PAL)デバイス、電気的にプログラム可能な論理デバイス及びメモリデバイス、並びに標準セルベースデバイス等のプログラマブルロジックデバイス(PLD)と共に、特定用途向け集積回路(ASIC)を含む、様々な回路のうちの任意のものにプログラムされる機能として実装してもよい。対話システムの態様を実装する他のいくつかの可能性には、メモリを備えるマイクロコントローラ(電子的消去可能プログラマブル読出し専用メモリ(EEPROM)等)、埋込みマイクロプロセッサ、ファームウェア、ソフトウェア等がある。さらに、対話システムの態様を、ソフトウェアベース回路エミュレーション、ディスクリートロジック(順序及び組合せ)、カスタムデバイス、ファジー(ニューラル)ロジック、量子デバイス、及び上記デバイスタイプの任意のものの混成で具現化してもよい。当然ながら、基礎となるデバイス技術を、様々なコンポーネントタイプ、たとえば、相補型金属酸化膜半導体(CMOS)のような金属酸化膜半導体電界効果トランジスタ(MOSFET)技術、エミッタ結合ロジック(ECL)のようなバイポーラ技術、ポリマ技術(たとえば、シリコン共役ポリマー及び金属共役ポリマー・金属構造)、アナログ及びデジタル混合等において提供してもよい。
本明細書で開示した様々なシステム、方法及び/又は他の構成要素を、それらの挙動、レジスタ転送、ロジックコンポーネント、トランジスタ、配置形状、及び/又は他の特徴に関して、コンピュータ支援設計ツールを使用して記述し、様々なコンピュータ可読媒体で具現化されるデータ及び/又は命令として表現(又は表示)してもよい。こうしたフォーマットされたデータ及び/又は命令が具現化され得るコンピュータ可読媒体には、限定されないが、様々な形態の不揮発性記憶媒体(たとえば、光記憶媒体、磁気記憶媒体又は半導体記憶媒体)と、こうしたフォーマットされたデータ及び/又は命令を、無線信号媒体、光信号媒体若しくは有線信号媒体、又はそれらの任意の組合せを通じて転送するのに使用することができる搬送波が含まれる。搬送波によるこうしたフォーマットされたデータ及び/又は命令の転送の例には、限定されないが、1つ又は複数のデータ転送プロトコル(たとえばHTTP、FTP、SMTP等)を介するインターネット及び/又は他のコンピュータネットワークによる転送(アップロード、ダウンロード、電子メール等)が含まれる。上述したコンポーネントのこうしたデータ及び/又は命令ベースの表現は、1つ又は複数のコンピュータ可読媒体を介してコンピュータシステム内で受け取られると、コンピュータシステム内の処理エンティティ(たとえば1つ又は複数のプロセッサ)によって、1つ又は複数の他のコンピュータプログラムの実行に関連して処理することができる。
文脈が明確に要求しない限り、明細書及び特許請求の範囲を通じて、「具備する、備える、含む(comprise、comprising)」等の語は、排他的又は網羅的な意味とは対照的に包括的な意味で、すなわち「含むが限定されない(including, but not limited to)」という意味で解釈されるべきである。また、単数又は複数を用いる語はそれぞれ複数又は単数も含む。さらに、「本明細書において」「以下に」「上記」「下記」という語及び同様の意味の語は、本出願で使用される場合、本出願を全体として指し、本出願のいかなる特定の部分をも指すものではない。「又は」という語が2つ以上の項目のリストに関連して使用される場合、その語は、その語の以下の解釈のすべてを包含する。すなわち、そのリストの項目の任意のもの、そのリストの項目のすべて、及びそのリストの項目の任意の組合せである。
対話システムの実施形態の上記説明は、網羅的であるようにも、又はシステム及び方法を開示した厳密な形態に限定するようにも意図されていない。本明細書では、対話システムの特定の実施形態及びそれに対する例を、例示の目的で説明したが、当業者が理解するように、それらシステム及び方法の範囲内で様々な等価な変更もあり得る。本明細書で提供した対話システムの教示を、上述したシステム及び方法のみでなく他のシステム及び方法に適用することができる。
上述した様々な実施形態の要素及び行為を組み合わせてさらなる実施形態を提供することができる。これらの実施形態及び他の変形を、上記の詳細な説明に鑑みて対話システムに対し行うことができる。
概して、添付の特許請求の範囲では、使用する用語は、対話システムを、明細書及び特許請求の範囲で開示する特定の実施形態に限定するように解釈されるべきではなく、特許請求の範囲に基づいて動作するすべてのシステムを包含するように解釈されるべきである。したがって、対話システムは、本開示によって限定されず、対話システムの範囲は、特許請求の範囲によって完全に確定されるものである。
対話システムのいくつかの態様を、いくつかの請求項の形式で提示するが、本発明者らは、任意の数の請求項形式で対話システムの様々な態様を企図する。したがって、本発明者らは、対話システムの他の態様に対するこうした追加の請求形式を求めるために、本出願の提出後にさらなる請求項を追加する権利を留保する。
一実施形態に基づく、本明細書で説明する最適選択又は判断戦略を使用するように構成される音声対話システム100のブロック図である。 一実施形態に基づく、適応対話システム(ADS)のブロック図である。 一実施形態に基づく、発話を分類するフローチャートである。 一実施形態に基づく、対話システムを訓練するフローチャートである。 一実施形態に基づく、ADSの一例に適用されるように能動学習において識別されるデータセット間の関係のブロック図である。 一実施形態に基づく、累積確率曲線を示す図である。 一実施形態に基づく、所与の入力文又は発話に対しADS分類器が返す分布の一例を示す図である。 一実施形態に基づく、1178点の第1のデータセットにおけるn及びnのヒストグラムを示す図である。 一実施形態に基づく、471点の第2のデータセットにおけるn及びnのヒストグラムを示す図である。 学習した分類器の累積確率分布Pを示す図である。 確信度が低いものとしてマークされたデータ点のセットSとnの値との関係を示す図である。 一実施形態に基づく、ADSの性能評価のために使用されるROC曲線の図である。 一実施形態に基づく、ケース1の訓練データ例を使用してnベスト選択の下で得られるROC曲線を示す図である。 一実施形態に基づく、ケース2の訓練データ例を使用してnベスト選択の下で得られるROC曲線を示す図である。 一実施形態に基づく、ケース1の訓練データ例を使用してnベスト選択(nはn=0として表す)下で得られるROC AUCの大きさを示す図である。 一実施形態に基づく、ケース2の訓練データ例を使用してnベスト選択(nはn=0として表す)下で得られるROC AUCの大きさを示す図である。

Claims (23)

  1. プロセッサに結合され、入力で受け取られる発話に対応する対話行為に対し複数の予測を生成するように構成される分類器と、
    前記プロセッサに結合され、それぞれが予測に対応する複数の確率を生成し、該複数の予測から予測のセットを動的に選択すると共に、該予測のセットの累積確率に従って前記発話を分類するように構成される判断コンポーネントと、
    を具備する、対話システム。
  2. 前記判断コンポーネントは、前記予測のセットの前記累積確率が閾値以上である場合に、前記発話を理解されたか又は誤解されたものとして分類するように構成される、請求項1に記載の対話システム。
  3. 前記判断コンポーネントは、前記予測のセットの前記累積確率が閾値を下回る場合に、前記発話を理解されなかったものとして分類するように構成される、請求項1に記載の対話システム。
  4. 前記判断コンポーネントは、前記予測のセットを動的に選択するように構成され、該選択することは前記複数の予測を降順の確率に従って順序付けることによって、ランク付けされた予測を生成することを含む、請求項1に記載の対話システム。
  5. 前記判断コンポーネントは、前記ランク付けされた予測における予測の連続した対であって、該対間の対応する確率の差が他のいかなる予測の連続した対に対しても最大である、対を確定することによって、前記予測のセットを動的に選択するように構成され、該予測の連続した対は、第1の予測及び第2の予測を含み、該第1の予測は、該第2の予測より高い確率を有する、請求項4に記載の対話システム。
  6. 前記判断コンポーネントは、最高にランク付けされた予測と前記第1の予測とによって境界が画されるグループ内に自身の予測を含む該予測のセットを識別することによって、予測のセットを動的に選択するように構成される、請求項5に記載の対話システム。
  7. 前記判断コンポーネントに結合されたデータベースを具備し、該判断コンポーネントは、理解されなかったものとして分類された発話を前記データベースに転送するように構成され、該データベースは、理解されなかったものとして分類された前記発話を格納するように構成される、請求項1に記載の対話システム。
  8. 前記分類器及び前記データベースに結合された再訓練モジュールを具備し、該再訓練モジュールは、別の複数の予測の前に、理解されなかった発話を使用して前記分類器を動的に再訓練するように構成される、請求項7に記載の対話システム。
  9. 前記データベースに結合されたグラフィカルユーザインタフェース(GUI)を具備し、該GUIは、理解されなかった発話に対しラベルを与えることによってラベル付き発話を生成するように構成される、請求項7に記載の対話システム。
  10. 発話を分類する方法であって、
    前記発話を受け取ること、
    前記発話に対応する対話行為に対する複数の予測を生成すること、
    それぞれが予測に対応する複数の確率を生成すること、
    前記複数の予測から予測のセットを動的に選択すること、及び
    前記予測のセットの累積確率に従って前記発話を分類すること、
    を含む、方法。
  11. 前記分類することは、前記予測のセットの前記累積確率が閾値以上である場合に、前記発話を理解されたか又は誤解されたものとして分類することを含む、請求項10に記載の方法。
  12. 前記分類することは、前記予測のセットの前記累積確率が閾値を下回る場合に、前記発話を理解されなかったものとして分類することを含む、請求項10に記載の方法。
  13. 前記予測のセットにおける予測の数は前記発話に対応する、請求項10に記載の方法。
  14. 前記予測のセットを動的に選択することは、前記複数の予測を降順の確率に従って順序付けることによって、ランク付けされた予測を生成することを含む、請求項10に記載の方法。
  15. 前記予測のセットを動的に選択することは、前記ランク付けされた予測における予測の連続した対であって、該対間の対応する確率の差が他のいかなる予測の連続した対に対しても最大である、対を確定することを含み、前記予測の連続した対は、第1の予測及び第2の予測を含み、該第1の予測は、該第2の予測より高い確率を有する、請求項14に記載の方法。
  16. 前記予測のセットを動的に選択することは、最高にランク付けされた予測と前記第1の予測とによって境界が画されるグループ内に自身の予測を含む該予測のセットを識別することを含む、請求項15に記載の方法。
  17. 第2の発話に対応する第2の対話行為に対し第2の複数の予測を生成することを含み、該第2の複数の予測を生成することは、理解されなかったものとして分類された少なくとも1つの発話のデータを動的に使用する、請求項10に記載の方法。
  18. 理解されなかったものとして分類される任意の発話を格納すること、及び
    前記格納された発話にラベル付けすることによってラベル付けされた発話を生成すること、
    を含む、請求項10に記載の方法。
  19. 訓練データを使用して分類器を訓練することであって、該分類器は前記複数の予測を生成する、訓練すること、及び
    前記ラベル付けされた発話を使用して前記分類器を動的に再訓練することであって、該再訓練は、第2の複数の予測を生成する前に発生する、再訓練すること、
    を含む、請求項18に記載の方法。
  20. 処理システムで実行されると、発話を、
    前記発話に対応する対話行為に対する複数の予測を生成すること、
    それぞれが予測に対応する複数の確率を生成すること、
    前記複数の予測から予測のセットを動的に選択すること、及び
    前記予測のセットの累積確率に従って前記発話を分類すること、
    によって分類する、実行可能命令を含む、コンピュータ可読媒体。
  21. 前記命令の実行は、前記予測のセットの前記累積確率が閾値以上である場合に、前記発話を理解されたか又は誤解されたものとして分類し、該命令の実行は、前記予測のセットの前記累積確率が閾値を下回る場合に、前記発話を理解されなかったものとして分類する、請求項20に記載のコンピュータ可読媒体。
  22. 命令の実行は、前記予測のセットを動的に選択し、該選択することは前記複数の予測を降順の確率に従って順序付けることによって、ランク付けされた予測を生成することを含む、請求項20にコンピュータ可読媒体。
  23. 命令の実行は、前記ランク付けされた予測における予測の連続した対であって、該対間の対応する確率の差が他のいかなる予測の連続した対に対しても最大である、対を確定することによって、前記予測のセットを動的に選択し、該予測の連続した対は、第1の予測及び第2の予測を含み、該第1の予測は、該第2の予測より高い確率を有する、請求項22に記載のコンピュータ可読媒体。
JP2008213621A 2007-08-24 2008-08-22 対話システムにおける統計的分類のための最適な選択戦略の方法及びシステム Active JP5241379B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/845,013 2007-08-24
US11/845,013 US8050929B2 (en) 2007-08-24 2007-08-24 Method and system of optimal selection strategy for statistical classifications in dialog systems

Publications (2)

Publication Number Publication Date
JP2009110503A true JP2009110503A (ja) 2009-05-21
JP5241379B2 JP5241379B2 (ja) 2013-07-17

Family

ID=39938276

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008213621A Active JP5241379B2 (ja) 2007-08-24 2008-08-22 対話システムにおける統計的分類のための最適な選択戦略の方法及びシステム

Country Status (4)

Country Link
US (1) US8050929B2 (ja)
EP (1) EP2028645B1 (ja)
JP (1) JP5241379B2 (ja)
DE (1) DE602008001690D1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012133226A (ja) * 2010-12-22 2012-07-12 Sogo Keibi Hosho Co Ltd 音認識装置および音認識方法
JP2014006757A (ja) * 2012-06-26 2014-01-16 Yahoo Japan Corp コンテンツ配信装置
KR20170026593A (ko) * 2014-07-03 2017-03-08 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 소셜 대화형 입력들에 대한 컴퓨터 응답 생성
US10460720B2 (en) 2015-01-03 2019-10-29 Microsoft Technology Licensing, Llc. Generation of language understanding systems and methods

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9361637B2 (en) * 2010-03-05 2016-06-07 Sears Brands, L.L.C. System and method for providing diagnostic services
CN102237082B (zh) * 2010-05-05 2015-04-01 三星电子株式会社 语音识别系统的自适应方法
US8768686B2 (en) 2010-05-13 2014-07-01 International Business Machines Corporation Machine translation with side information
CN102280106A (zh) * 2010-06-12 2011-12-14 三星电子株式会社 用于移动通信终端的语音网络搜索方法及其装置
US8645136B2 (en) * 2010-07-20 2014-02-04 Intellisist, Inc. System and method for efficiently reducing transcription error using hybrid voice transcription
WO2012094014A1 (en) * 2011-01-07 2012-07-12 Nuance Communications, Inc. Automatic updating of confidence scoring functionality for speech recognition systems
US10185477B1 (en) 2013-03-15 2019-01-22 Narrative Science Inc. Method and system for configuring automatic generation of narratives from data
US8838434B1 (en) * 2011-07-29 2014-09-16 Nuance Communications, Inc. Bootstrap call router to other languages using selected N-best translations
US10192166B2 (en) * 2013-04-27 2019-01-29 Sas Institute Inc. Computation of receiver operating characteristic curves
US9764477B2 (en) 2014-12-01 2017-09-19 At&T Intellectual Property I, L.P. System and method for semantic processing of natural language commands
US10755053B1 (en) 2017-02-17 2020-08-25 Narrative Science Inc. Applied artificial intelligence technology for story outline formation using composable communication goals to support natural language generation (NLG)
US10943069B1 (en) 2017-02-17 2021-03-09 Narrative Science Inc. Applied artificial intelligence technology for narrative generation based on a conditional outcome framework
US11954445B2 (en) 2017-02-17 2024-04-09 Narrative Science Llc Applied artificial intelligence technology for narrative generation based on explanation communication goals
US11042709B1 (en) 2018-01-02 2021-06-22 Narrative Science Inc. Context saliency-based deictic parser for natural language processing
US11023689B1 (en) 2018-01-17 2021-06-01 Narrative Science Inc. Applied artificial intelligence technology for narrative generation using an invocable analysis service with analysis libraries
US10706236B1 (en) 2018-06-28 2020-07-07 Narrative Science Inc. Applied artificial intelligence technology for using natural language processing and concept expression templates to train a natural language generation system
US11094317B2 (en) * 2018-07-31 2021-08-17 Samsung Electronics Co., Ltd. System and method for personalized natural language understanding
US20210173837A1 (en) * 2019-12-06 2021-06-10 Nec Laboratories America, Inc. Generating followup questions for interpretable recursive multi-hop question answering

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04307664A (ja) * 1991-04-05 1992-10-29 Nec Corp 音声理解方式
JP2002525664A (ja) * 1998-09-11 2002-08-13 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 仮定の制限された組の確実性を評価することによってユーザ表現を認識する方法および装置におけるエラー復旧方法
JP2005164836A (ja) * 2003-12-01 2005-06-23 Advanced Telecommunication Research Institute International ドメイン検証器のトレーニング装置、入力データのドメイン検証装置、及びコンピュータプログラム
JP2006072477A (ja) * 2004-08-31 2006-03-16 Nippon Telegr & Teleph Corp <Ntt> 対話戦略学習方法、対話戦略学習プログラム、記憶媒体、および、対話戦略学習装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69322894T2 (de) * 1992-03-02 1999-07-29 At & T Corp., New York, N.Y. Lernverfahren und Gerät zur Spracherkennung
US5519809A (en) * 1992-10-27 1996-05-21 Technology International Incorporated System and method for displaying geographical information
JP2001005488A (ja) * 1999-06-18 2001-01-12 Mitsubishi Electric Corp 音声対話システム
US7216079B1 (en) 1999-11-02 2007-05-08 Speechworks International, Inc. Method and apparatus for discriminative training of acoustic models of a speech recognition system
US6615172B1 (en) * 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7054810B2 (en) * 2000-10-06 2006-05-30 International Business Machines Corporation Feature vector-based apparatus and method for robust pattern recognition
GB2376335B (en) * 2001-06-28 2003-07-23 Vox Generation Ltd Address recognition using an automatic speech recogniser
US20030055644A1 (en) * 2001-08-17 2003-03-20 At&T Corp. Systems and methods for aggregating related inputs using finite-state devices and extracting meaning from multimodal inputs using aggregation
AU2003280474A1 (en) * 2002-06-28 2004-01-19 Conceptual Speech, Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
US7257575B1 (en) * 2002-10-24 2007-08-14 At&T Corp. Systems and methods for generating markup-language based expressions from multi-modal and unimodal inputs
US20040148169A1 (en) * 2003-01-23 2004-07-29 Aurilab, Llc Speech recognition with shadow modeling
US20040158468A1 (en) * 2003-02-12 2004-08-12 Aurilab, Llc Speech recognition with soft pruning
US8249871B2 (en) * 2005-11-18 2012-08-21 Microsoft Corporation Word clustering for input data
US8244545B2 (en) * 2006-03-30 2012-08-14 Microsoft Corporation Dialog repair based on discrepancies between user model predictions and speech recognition results
US7831427B2 (en) * 2007-06-20 2010-11-09 Microsoft Corporation Concept monitoring in spoken-word audio

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04307664A (ja) * 1991-04-05 1992-10-29 Nec Corp 音声理解方式
JP2002525664A (ja) * 1998-09-11 2002-08-13 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 仮定の制限された組の確実性を評価することによってユーザ表現を認識する方法および装置におけるエラー復旧方法
JP2005164836A (ja) * 2003-12-01 2005-06-23 Advanced Telecommunication Research Institute International ドメイン検証器のトレーニング装置、入力データのドメイン検証装置、及びコンピュータプログラム
JP2006072477A (ja) * 2004-08-31 2006-03-16 Nippon Telegr & Teleph Corp <Ntt> 対話戦略学習方法、対話戦略学習プログラム、記憶媒体、および、対話戦略学習装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG199800757035; 佐瀬 幹哉 外2名: '遺伝的アルゴリズムによるニューラルネットの問合せ学習' 電子情報通信学会論文誌 (79-D-II) 第5号 第J79-D-II巻第5号, 19960525, p.960-968, 社団法人電子情報通信学会 *
CSNG200401965001; 木川 泰 外3名: 'SVMを用いたホルター心電図ノイズ判別' 電子情報通信学会技術研究報告 第103巻第489号, 20031201, p.1-6, 社団法人電子情報通信学会 *
JPN6012027855; 佐瀬 幹哉 外2名: '遺伝的アルゴリズムによるニューラルネットの問合せ学習' 電子情報通信学会論文誌 (79-D-II) 第5号 第J79-D-II巻第5号, 19960525, p.960-968, 社団法人電子情報通信学会 *
JPN6012027857; 木川 泰 外3名: 'SVMを用いたホルター心電図ノイズ判別' 電子情報通信学会技術研究報告 第103巻第489号, 20031201, p.1-6, 社団法人電子情報通信学会 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012133226A (ja) * 2010-12-22 2012-07-12 Sogo Keibi Hosho Co Ltd 音認識装置および音認識方法
JP2014006757A (ja) * 2012-06-26 2014-01-16 Yahoo Japan Corp コンテンツ配信装置
KR20170026593A (ko) * 2014-07-03 2017-03-08 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 소셜 대화형 입력들에 대한 컴퓨터 응답 생성
CN106663426A (zh) * 2014-07-03 2017-05-10 微软技术许可有限责任公司 生成对社交会话输入的计算机响应
JP2017527926A (ja) * 2014-07-03 2017-09-21 マイクロソフト テクノロジー ライセンシング,エルエルシー 社交的会話入力に対するコンピュータレスポンスの生成
KR102333505B1 (ko) 2014-07-03 2021-12-01 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 소셜 대화형 입력들에 대한 컴퓨터 응답 생성
US10460720B2 (en) 2015-01-03 2019-10-29 Microsoft Technology Licensing, Llc. Generation of language understanding systems and methods

Also Published As

Publication number Publication date
US8050929B2 (en) 2011-11-01
EP2028645A1 (en) 2009-02-25
US20090055164A1 (en) 2009-02-26
JP5241379B2 (ja) 2013-07-17
DE602008001690D1 (de) 2010-08-19
EP2028645B1 (en) 2010-07-07

Similar Documents

Publication Publication Date Title
JP5241379B2 (ja) 対話システムにおける統計的分類のための最適な選択戦略の方法及びシステム
EP2191460B1 (en) Method and system of optimal selection strategy for statistical classifications
Kim et al. Two-stage multi-intent detection for spoken language understanding
US11545157B2 (en) Speaker diartzation using an end-to-end model
CN113272894A (zh) 完全监督的说话者日志化
US8290968B2 (en) Hint services for feature/entity extraction and classification
KR20170088164A (ko) 점증적 대화지식 자가학습 기반 대화장치 및 그 방법
WO2003050799A1 (en) Method and system for non-intrusive speaker verification using behavior models
US7809564B2 (en) Voice based keyword search algorithm
JP2012118977A (ja) 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム
CN112673421A (zh) 训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言
US10152298B1 (en) Confidence estimation based on frequency
US11526512B1 (en) Rewriting queries
CN111428042A (zh) 对话服务中的实体级澄清
JP7058574B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US11289075B1 (en) Routing of natural language inputs to speech processing applications
US20230072171A1 (en) System and method for training and refining machine learning models
JP6370962B1 (ja) 生成装置、生成方法および生成プログラム
JPWO2007138875A1 (ja) 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
JP2004198597A5 (ja)
JP7096199B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Chen et al. Active learning for domain classification in a commercial spoken personal assistant
KR102280439B1 (ko) 질의의도를 분석하기 위한 장치 및 방법
EP1470549A1 (en) Method and system for non-intrusive speaker verification using behavior models
US11645468B2 (en) User data processing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090812

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120814

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130402

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5241379

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250