JP5142720B2 - デバイスの認知的に過負荷なユーザのインタラクティブ会話型対話 - Google Patents

デバイスの認知的に過負荷なユーザのインタラクティブ会話型対話 Download PDF

Info

Publication number
JP5142720B2
JP5142720B2 JP2007533468A JP2007533468A JP5142720B2 JP 5142720 B2 JP5142720 B2 JP 5142720B2 JP 2007533468 A JP2007533468 A JP 2007533468A JP 2007533468 A JP2007533468 A JP 2007533468A JP 5142720 B2 JP5142720 B2 JP 5142720B2
Authority
JP
Japan
Prior art keywords
management module
speech
context
module
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007533468A
Other languages
English (en)
Other versions
JP2008514983A (ja
Inventor
ウェン,フリアン
ケイブドン,ローレンス
ラグフナサン,バドリ
ミルコヴィッチ,ダニーロ
ハイアット,ローラ
シュミット,ホーク
グルエンステイン,アレクサンダー
ピーターズ,スタンリー
Original Assignee
ロバート ボッシュ コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ロバート ボッシュ コーポレーション filed Critical ロバート ボッシュ コーポレーション
Publication of JP2008514983A publication Critical patent/JP2008514983A/ja
Application granted granted Critical
Publication of JP5142720B2 publication Critical patent/JP5142720B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Description

[発明の分野]
本発明は、デバイスの認知的に過負荷なユーザのインタラクティブ会話型対話のための方法及びシステムに関する。
[背景情報]
音声対話インターフェースを有するシステムは、広範な用途でますます多く受け入れられてきている。しかしながら、音声対話インターフェースシステムは、限られた言語及びスクリプトによる対話のやりとりを使用することがある。詳細には、音声言語対話システムは、狭く的を絞った言語理解、及び対話のやりとりの簡単なモデルを伴うことがある。しかしながら、実際の人間の対話は、高い文脈依存性及び高い状況依存性を有し、形を成していない発話及び文の断片で満ち、高度にインタラクティブ且つ協調的である場合がある。たとえば、話者は互いに割り込み合って、互いの文に磨きをかけ、共有された文脈に共同で貢献する場合がある。
言語を理解すること及び自然な対話をモデリングすることは、使いやすい音声言語インターフェースの構築に重要な場合があり、ユーザがヘリコプタの操縦又は車の運転等の外部の仕事に集中している環境では非常に重要となる場合がある。このようなシナリオでは、ユーザは、前もって自身の発話を計画することも、適切な時刻まで「その考えを保っておく」こともできない場合がある。その代わり、ユーザは対話システムに割り込んで、文脈及び状況をもとにした命令を発行できることが必要な場合がある。逆に、対話システムは、文脈におけるこれらの貢献を解釈しなければならず、適切な場合に(たとえば、重要な状況等において)のみユーザに割り込むべきであり、システムからのどの質問も、できるだけ的を絞ったものとすべきである。したがって、高いストレスのかかったドメイン又は認知的に過負荷なドメイン、すなわち、ユーザが他の仕事に集中することを伴うドメインにおける音声インターフェースは、ロバストで広い適用範囲の言語理解を有する、より柔軟な対話を必要とする場合がある。
たとえば、自動車産業では、対話システムは、デバイスのコマンド及び制御を提供することができる。しかしながら、これらのシステムは、言語理解及び対話管理についてキーワードスポッティング(key word spotting)技法及び有限状態技法に依拠している場合がある。これらのシステムは、新しいデータベースの更新又は新しいデバイス/アプリケーションへの移植に関連する困難に遭遇する場合もある。したがって、これらのシステムによって使用される技術の限界のために、制限された音声言語表現しか扱うことができない。さらに、たとえば代名詞、あいまいさ、及び修正等のより頻繁に発生する言語現象を適切に処理することができない。
[発明の概要]
本発明の一例示の実施の形態及び/又は一例示の方法は、柔軟性を有し、ユーザがさまざまなデバイスと口頭でやりとりすることを可能にし、完全な音声言語理解、マルチスレッド化された対話管理、情報の動的更新、部分的な固有名詞の認識による豊かな対話を可能にすると共に簡単且つ効率的なプラグアンドプレイのドメイン移植を可能にする、一例示の対話システム及び/又は方法を提供する。
この点に関して、本発明による例示の対話システム及び/又は例示の方法は、人間の対話に広く行き渡っている可能性があるが既存の技術では容易にハンドリングできない一定の言語現象を理解する。詳細には、本発明による例示の対話システムは、この例示のシステムが「a」、「the」、「this」、「that」、「other」等の内容のない単語の微細な区別を理解する、完全な言語解析を提供することができる。その上、一例示の対話システムは、ユーザの発話の状況に依存した解釈及び文脈に依存した解釈も提供することができる。
本発明の一例示の実施の形態及び/又は一例示の方法は、デバイス及び情報の内容を動的に追加又は拡張できるように、動的な更新を提供することができる。この点に関して、本発明は、新しい内容の動的な更新及び新しいドメインへの高速適合を可能にする一組の技術を使用することができる。本発明の例示の実施の形態及び/又は例示の方法は、爆発的な量の内容を管理する点において、ユーザに対する使いやすさを増加させることができ、その結果、それらの技術の市場の受け入れを高速化することができる。本発明の例示の実施の形態及び/又は例示の方法は、多数のアプリケーションを可能にし、企業が、たとえば、自動車、ハンドヘルドデバイス、携帯電話等の業界で市場シェアを得ることができるように、新しいアプリケーションを迅速に追加することを可能にする。本発明の例示の実施の形態及び/又は例示の方法は、動的な内容更新を可能にすると共にユーザの好みの内容の細目(item)を管理する際により多くの便宜をユーザに提供する、新しい一組の技術を使用する。また、これらの新しい技術は、開発者/企業が、より迅速且つ費用効果のある方法で新しいアプリケーションを考え出すことも可能にすることができる。
本発明の例示の実施の形態及び/又は例示の方法は、ロバストで完全な文解析を提供する統計的自然言語理解(NLU)モジュール、及び、文脈依存解釈をサポートし且つユーザとシステムとのやりとりを管理する対話マネージャ(DM)を含むことができる。本発明の一例示のシステム及び/又は一例示の方法は、たとえば、部分的な固有名詞への不完全な参照を伴った入力を含む、音声認識(SR)モジュール及び人間のユーザからの不完全な入力に直面した際にロバスト性を提供することができる。
本発明の一例示の対話システム及び/又は一例示の方法は、MP3音楽プレイヤ(固有名詞を取り扱う際の課題を有するドメイン)、携帯電話、ナビゲーションシステム、及び/又は他のポイントオブインタレスト(POI)サービスの制御を伴う対話をサポートすることができる。
[詳細な説明]
図1は、複数のデバイス151とのユーザのやりとりのためのエンドツーエンド音声言語処理を提供する一例示の会話型対話システム100を示している。この例示のシステム100は、音声強調器モジュール101、音声認識モジュール102、自然言語理解(NLU)モジュール103、対話管理モジュール104、応答生成モジュール105、音声合成モジュール106、知識ベースモジュール107、知識管理モジュール108、韻律検出モジュール109、及びデバイス/アプリケーションマネージャ110を含む。
音声強調器モジュール101は、この例示の対話システム100によって受信された音声を強調する。詳細には、強調器モジュール101は、たとえば、雑音低減及び/又はエコーキャンセルを提供することができる。
音声認識モジュール102は、音響信号を受け取り、たとえば信頼スコア等の追加ラベルを有する単語シーケンス又は単語ラティス(lattice)を出力する。この点に関して、音声認識モジュール102は、クラスベースのnグラム(class-based n-gram)及び動的文法(dynamic grammar)を有するNuance(ニュアンス)音声認識エンジンを含むことができる。nグラムは、確率に基づいて単語及びクラスを関係付ける統計アルゴリズムに関するものである。自然言語理解モジュール103は、信頼スコアが付随した単語シーケンス又は単語ラティスを受け取り、ドメイン内言語データ(in-domain linguistic data)に基づいてトレーニングされた統計モデルに基づく構造化された意味表現を出力する。この点に関して、自然言語理解モジュール103は、柔軟且つロバストな音声言語能力を提供することを目的としている。
対話管理モジュール104は、構造化意味表現を取り込み、会話の文脈及び知識ベース107から得られた知識に基づいて他のモジュールへ適切な命令を発行する。
知識ベース107は、たとえば、ユーザ、デバイス、外部環境、及び現在の文脈状況に関する知識を記憶する。知識ベース107は、たとえば、リレーショナルデータベース及びオントロジーデータベース(ontological database)の双方を含む1つ又は複数のデータベースを含むことができる。詳細には、知識ベース107は、たとえば、曲、ジャンル、アーティスト、及び他の属性の間のオントロジー関係のデータベースを含むことができる。また、知識ベース107は、たとえば、ナビゲーションタスク及びポイントオブインタレスト(POI)サービスのオントロジー関係のデータベースも含むことができる。この点に関して、知識ベース107は、言語理解で使用される統計モデルをトレーニングするためのドメインデータ/知識を獲得することができる。ドメインデータ/知識は、たとえば、ユーザの振る舞いをプロファイルして予測するための統計値を含むことができる。また、知識ベース107は、たとえば、あいまい表現を解決するための言語知識も含むことができる。この点に関して、この言語知識は、たとえば、Longman Publishing社によって出版されている「Longman Dictionary of Contemporary English (LDOCE)」又は、プリンストン大学のGeorge Miller教授及び彼の仲間によって提供されている(認知科学グループの下のプリンストン大学ウェブサイトを参照されたい)オープンリソースであるWordnetを含む、一般に利用可能な辞書及び他のソースから構築することができる。
知識管理モジュール108は、知識ベース107、一般的なオントロジー、ドメイン特有のオントロジー、及び任意のアクティブなドメインの任意のデータベースを管理する。また、知識管理モジュール108は、異なるモジュール間の現在の知識ベース107を更新すると共に同期させる。
応答生成モジュール105は、対話管理モジュール104からの内容を取り込み、この文脈の関連のある部分を選択し、それらの関連のある部分を簡潔且つ文法的に正しい様式で編成し、音声合成モジュール106へ入力する。この点に関して、内容選択方法を使用することができる。この内容選択方法は、たとえば、2004年8月20日に出願された「METHOD AND SYSTEM FOR ADAPTIVE NAVIGATION USING A DRIVER'S ROUTE KNOWLEDGE」と題する米国特許出願第10/923,590号(この米国特許出願の全開示は、参照により本明細書に援用される)に記載されている。
音声合成モジュール106は、タグ付けされた特徴を有する単語シーケンスを取り入れ、音声波形を生成する。詳細には、音声合成モジュール106は、たとえば、Nuance Vocalizer(ニュアンスボーカライザ)を使用して実施されるテキスト/音声変換(text-to-speech)(TTS)エンジンを含むことができる。
韻律検出モジュール109は、たとえば、抑揚、休止、及び継続期間の検出等の追加機能を提供して、例示のシステム100のいくつかのモジュールの性能を改善する。このいくつかのモジュールには、たとえば、音声認識モジュール102、自然言語理解モジュール103、及び対話マネージャモジュール104が含まれる。この点に関して、Venkataraman他著「Training a prosody-based dialog act tagger from unlabeled data」(IEEE Intl. Conf. on Acoustics, Speech and Signal Processing, 2003)に記載された技法を使用することができる。
例示のシステム対話システム100は、非集中的な方法で実施することができる。たとえば、Seneff他著「Galaxy-II: A Reference Architecture for Conversational System Development」(Proc. ICLSP '98, 1998)に記載されたような他のシステムによって使用されるハブアーキテクチャではなく、たとえば、イベントベースのメッセージ指向ミドルウェアを有する分散された方法で例示のシステム100を構成して、たとえば、新しいモジュール及び/又はデバイス151の動的な登録を可能にすることができる。
例示の対話システム100は、既成のコンポーネントを使用することができる。詳細には、例示の対話システム100の構成部分は、Microsoft Visual C++6.0、Nuance Vocalizer4.0、及びNuance Recognizer8.5を使用して実施することができる。例示の対話システム100は、たとえば、任意の適した処理設備を含むことができ、たとえば、Intelベースのマイクロプロセッサを有するパーソナルコンピュータ等を含むことができる。この適した処理設備は、たとえば、Microsoft Windowsバージョン2000又はLinuxベースの環境を含む多種多様な動作環境及び/又はアプリケーション開発環境によってサポートすることができる。例示の対話システム100のモジュール101〜109は、共通のプラットフォーム上の同じ位置に配置してもよく、又は別法では、これらのモジュールの一部若しくは全部は別々に存在することもできることが十分理解されよう。
NLUモジュール
図1Bは、柔軟且つロバストな音声言語能力を提供する一例示の自然言語理解モジュール103を示している。この例示の自然言語理解モジュール103は、統計タガー(tagger)103a、統計依存パーサ(parser)103b、特徴マッパ(mapper)103c、及び意味分類器103dの4つのサブモジュールを含む。
統計タガー103aは、隠れマルコフモデル(HMM)を使用して、履歴に基づき品詞(POS)タグを予測する際の確率を表す。このモデルは、たとえば、依存テキストデータ及び/又は注釈付きテキストデータからトレーニングを受けることができる。この点に関して、統計タガー103aは、たとえば、Dermataso及びKokkinakis著「Automatic Stochastic Tagging of Natural Language Texts」(Computational Linguistics, Volume 21, No. 2, 1995)に記載されているような技法を使用して実施することができ、また、ビタビアルゴリズムを使用して、適したタグシーケンスを見つけることができる。
統計依存パーサ103bは、統計タガー103aによって表された統計確率を使用して、条件付き確率成分及び相互情報量成分を含む言語モデルを構築する。条件付き確率成分は、2つの主要部の2つの対応する部分木が与えられると、それらの2つの主要部の文法関係の確率を見積もる。これは、たとえば、2003年7月3日に出願された「A FAST FEATURE SELECTION METHOD AND SYSTEM FOR MAXIMUM ENTROPY MODELING」と題する米国特許出願第10/613、366号(この米国特許出願の全開示は、参照により本明細書に援用される)に記載されているような条件付き最大エントロピーモデリングのための選択的利得計算(selective gain computation)(SGC)方法を使用して計算することができる。
最大エントロピー(ME)モデリングは、言語モデリング及び自然言語処理において、情報を提供するさまざまな一定の特徴を組み込むことによって言語行動を予測するのに適用することができる一般的な統計モデリングパラダイムである。各特徴は、データのコーパスからの或る言語的な統計イベントを条件付きモデルの共通のフレームワークに符号化する。この点に関して、この条件付き最大エントロピーモデルは、
Figure 0005142720
の形を取ることができる。ここで、yは文法関係であり、xは、主要語、タグ、及び文法関係を含む10次元配列によって定義される左部分木及び右部分木を表し、f(x,y)、λ、及びZ(x)は、それぞれ特徴、重み、及び正規化因子である。
相互情報量成分は、左部分木の代表と右部分木の代表との間の冗長性を特徴付け、主要部タグの因子分解及びタグを与えられた単語の条件付き相互情報成分を通じて計算されることができる。
特徴マッパ103cは、統計依存パーサ103bからの依存関係を取り込み、f−構造体と類似した特徴構造体の拡張可能マークアップ言語(XML)表現を生成する。この表現では、主要語、述語、さまざまな修飾語、並びに叙法、相及び時制等の文の特徴が明示的にリストアップされる。このマッピングは、主要部及び修飾語の一組のパターンに基づいている。これらのパターンは、単語、タグ、又は文法関係を含むことができる。
従来の他の対話システムと異なり、自然言語理解モジュール103は、入力文のロバストな完全解析を提供する。従来認識されていた内容のある単語が抽出されるだけでなく、他のさまざまな単語の微妙な意味も抽出される。たとえば、冠詞「a」、「the」、「this」、「that」、及び「other」は、自然言語モジュール103によって区別され、対話管理モジュール104によって適切に解釈される。たとえば、Jackson他著「A Template Matcher for Robust Natural Language Interpretation」(Darpa Speech and Natural Language Workshop, 1991)、又は「Method And System For Building and Running Natural Language Understanding Systems」と題する米国特許第6,292,767号に記載されたものを含む、従来の他のシステムのテンプレート照合器は、このような冠詞を無視すると考えられる。
自然言語理解モジュール103は、知識ベース107の動的な更新をサポートする。依存パーサ103bは、テンプレートデータに基づいてトレーニングされる。たとえば、MP3のドメインでは、トレーニングデータは、具体的な曲名は何ら含まないが、songnameと呼ばれる汎用クラス名を含む。これは、他のクラスにも同様に当てはまり得る。構文解析中、新しい曲データベースが供給又は更新される。入力文が完全な曲名を含む場合、その名前は、最初に識別されて、そのクラス名songnameが、代替パスとして既存の単語シーケンスに追加される。より難しいケースは、曲名が不完全な場合に起こり得る(注意散漫なユーザによくあるケース)。
たとえば曲名等の名前クラスを、曲名の集合のみに基づいてトレーニングされた別のnグラムモデルにより定義できるクラスベースの文法(統計的又は非統計的)と、トレーニングされたnグラムモデルとを有する音声認識器が、クラスベースの文法に動的又は静的に挿入される。この点に関して、たとえば、2004年7月15日に出願された「A METHOD AND APPARATUS FOR PROPER AND PARTIAL PROPER NAME RECOGNITION」と題する米国特許出願第10/892,724号(この米国特許出願の全開示は、参照により本明細書に援用される)に記載されたような曲名データベースの場合に、90%を超える正確度で対応する単語サブシーケンスをラベル付けする、部分的な固有名詞の認識器を設けることができる。固有名詞を有する変更された入力ラティスは、次に、解析のためにパーサに与えられる。この点に関して、本発明の例示の実施の形態及び/又は例示の方法は、たとえば、Weng他著「Parsing a Lattice with Multiple Grammers」(6th International Workshop on Parsing Technologies, ACL/SIGPARSE, Trento, 2000)に記載されているいくつかの技法を使用することができる。
意味的話題(semantic topic)分類器103dは、統計タガー103a及び統計依存パーサ103bからの入力に基づいて話題を識別する。意味的話題分類器103dは、条件付き最大エントロピーモデリング、メモリベースのモデリング、及び/又は他の方法等の技法を使用して、入力文を意味カテゴリーに分類することができる。意味的話題分類器103dで使用されるこれらのモデルは、ラベル付けされたデータを使用してトレーニングすることができる。
対話管理モジュール
図1Cは、例示のシステム101のモジュールのやりとりを管理すると共に調停する一例示の対話管理モジュール104を示している。この点に関して、この例示の対話管理モジュール104は、たとえば、スタンフォード大学言語情報インターラクション研究センター(CSLI(Center for Study of Language and Information Interaction))から入手可能な対話管理アプリケーションを使用して実施することができる。この対話管理アプリケーションは、時に、「CLSI対話マネージャ」又は簡単に「CDM」と呼ばれることがある。CDMは、たとえば、Larsson及びTraum著「Information state and dialogue management in the TRINDI dialogue move engine toolkit」(Natural Language Engineering, No. 6(3-4) 2000)に記載されている対話移動(dialogue-move)手法を使用して、その後に入力される発話(断片及び修正を含む)の解釈、NPの分解、顕著な応答(salient response)の組み立て、発行の追跡等に使用される対話の文脈を維持する。対話の状態は、音声認識予想にバイアスをかけて、音声認識性能を改善するのに使用することもできる。CDMのより詳細な説明は、たとえば、Lemon他著「Collaborative activities and multi-tasking in dialogue systems」(Traitement Automatique des Langues (TAL), No. 43(2), 2002)に見出すことができる。
マルチドメイン設計
対話管理モジュール104はマルチドメイン環境をサポートし、たとえば、知的デバイスの制御及び個別指導を含む幅広い用途に対話管理モジュール104を適用することができる。種々の用途のドメインは、表層レベル生成(surface-level generation)の異なる文法及びデバイス特有のアクティビティモデル(AM)を指定することを伴う場合がある。アクティビティモデルは、タスクが対話管理モジュール104によって管理されていること及びそれらのタスクのステータスを表し、タスクへの明示的な参照を提供できるようにしている(たとえば「cancel that(それをキャンセルする)」)。アクティビティモデルは、対話管理モジュール104がインターフェースするエージェント又はデバイスの能力の宣言的仕様であり、動詞及びそれらの動詞の項(argument)からデバイス動作へのマッピング等の言語情報を含む。これについては、たとえば図3を参照されたい。図3は、一例示のアクティビティモデル及び言語マッピングの実施態様の例示の擬似コードを示している。「required(必要とされる)」としてマーキングされた項は、項が欠けたユーザコマンドが与えられている場合にサブ対話を生成することができる。この点に関して、例示の対話システムが新しいドメインに適用される場合に、対話管理モジュール104全体を取り替える必要がないように、アクティビティモデル手法は、「プラグアンドプレイ」機能を達成することを可能にする。
対話管理モジュール104は意味解析器コンポーネント104aを含む。この意味解析器コンポーネント104aは、自然言語理解モジュール103からの擬似f−構造体から意味論理形式(semantic logical form)を組み立てて、文脈情報を必要とする対話移動タイプを取得する。たとえば、対話管理モジュール104が、自然言語理解モジュール103から発話を受け付ける時、現在の文脈を使用して意味論的な意味を抽出することができ、「顕著リスト(salience list)」を使用して指示対象を満たすことができる。この顕著リストは、会話に持ち込まれている名詞句(NP)及び目的語の表現を保持する。対話移動のタイプに応じて、新しいコマンドをアクティビティモデル(AM)に追加することもできるし、入力された発話が質問であった場合には、知識管理モジュール108を調べることができ、その結果の回答を自然言語理解モジュール103へ送ることができる。内部の対話管理モジュール104のコンポーネントのいくつかは、ドメイン依存プロセス及びドメイン独立プロセスを混合したものを許容することができる。ドメイン依存プロセス及びドメイン独立プロセスを混合したものでは、デフォルトプロシージャが、特定のドメインから独立に実施されるが、それらのサブプロセスのいくつかは、ドメイン依存情報を利用するように容易に構成することができる。同様に、新しいアプリケーションの場合、現在の実施態様は、コアのCDM実施態様を混乱させることなく、論理形式又は対話移動演算子の拡張も許容することができる。
マルチスレッド化された文脈管理
対話管理モジュール104は、マルチスレッド化された複数の話題の会話を管理するように構成される。これは、車内の状況では特に重要となり得る。この車内の状況では、ドライバは、インターリーブされる可能性のある複数のデバイスとやりとりする。たとえば、レストランを選んで予約するやりとりは、携帯電話の要求によって中断される場合がある。この点に関して、ユーザは、複数のデバイスとやりとりする時、各デバイスと個々にやりとりするのではなく、中央コントローラとやりとりしたい場合があることに留意されたい。
マルチスレッド化された会話をサポートするための対話管理モジュール104のコンポーネントには、対話移動木104b及びアクティビティ木104cが含まれる。これらは、たとえば、会話の小休止後におけるタスク報告の作成及びユーザに基礎を教えること(ground)(たとえば「What were we talking about?(我々は何について話していたのか?)」)等、他の対話文脈機能のフレームワークとして機能する。
対話移動木104bは、対話の履歴文脈を表す。入力された発話は、対話移動として分類され、それ自体を、対話移動木の適切なアクティブノードにアタッチすることにより文脈において解釈される。たとえば、回答は、対応するアクティブな質問ノードにアタッチすることができる。新しい会話の話題は、新しい枝を発生させ、それ自体を最も近時のアクティブノードにアタッチすることができない対話移動は、別の枝のアクティブノードにアタッチすることができる。この別の枝は、再開された会話に対応する。
アクティビティ木104cは、現在の対話に関連のあるアクティビティを管理する。ユーザがコマンドを発行すると、この結果、新しいアクティビティが作成されて、アクティビティ木104cに追加され得る。アクティビティが実行のため実際にデバイスへ送信可能となる前に、例示のシステム100は、たとえば、すべての名詞句(NP)を分解しようとする試み、又は、さらなる情報を引き出すサブ対話を発生させることを含めて、そのアクティビティを十分に分解しようと試みる。修正及び訂正(たとえば、「I meant/said …(つまり)」)は、既存のアクティビティ表現を編集することを伴う場合がある。アクティビティ実行は、アクティビティ木104c上で監視され、変化の結果、たとえば失敗した完了時又は成功した完了時に出力が生成され得る。
対話移動木104b及びアクティビティ木104cは、たとえば、会話の小休止後におけるタスク報告の生成及びユーザに基礎を教えること等、他の対話文脈機能のフレームワークとして機能する(たとえば、例示のシステム100は、「What were we talking about?」のプロンプトでユーザに指示することができる)。また、対話移動木104bは、参照解決等のタスクの暗黙的な開示構造も提供する。
知識管理モジュール
知識マネージャ(KM)108は、知識ベースソース(ドメインに一般的な知識及びデバイス情報等)へのアクセス及びそれらのソースの更新を制御する。ドメイン知識は、ドメインに依存したオントロジーに従って構造化される。知識管理モジュール108は、たとえば、スタンフォード大学から入手可能なドメイン独立オントロジーツールであるProtegeを使用して実施することができる。Protegeに関するさらに詳細な内容は、たとえば、「protege.stanford.edu」のウェブサイトアドレスにおいて入手可能である。
知識管理モジュール108には、対話管理モジュールが、コマンド又はクエリーから組み立てられた意味記述と一致するインスタンスの問い合わせを行うことができる。たとえば、MP3ドメインでは、「play some rock music by Cher(Cherによるロック音楽の再生)」のコマンドの結果、genre=rock(ジャンル=ロック)及びartist=Cher(アーティスト=Cher)を有するクラスsong(曲)のオブジェクトのクエリーが生成され得る。ここで、genre及びrockは、クラスsongの(継承された)プロパティである。多数の結果が、ユーザからの制約条件を満たす場合、対話管理モジュール104は、オントロジー階層を使用して、それらの結果を分類し、簡潔な方法でそれらの結果を出力して、ユーザの認知的負荷を低減することができる。上述したように、知識ベースモジュール107は、どの時点においても新しいインスタンスによって動的に更新することができる。
加えて、知識管理モジュール108は、アクティビティモデル(AM)等のデバイス情報のレポジトリとしての機能も果たす。或いは、アクティビティモデル(AM)は、デバイス/アプリケーションマネージャ110内に存在することもできる。新しいデバイスが利用可能になると、その新しいデバイスは、自身の情報を知識管理モジュール108に登録する。知識管理モジュール108は、次に、そのデバイスをCDM104に利用可能にする。
デバイス/アプリケーションマネージャ
デバイス/アプリケーションマネージャ110は、ファクタに基づいて所与の発話(たとえば、コマンド又は質問)をハンドリングするのにどのデバイスが最も適しているかを判断する。このファクタは、たとえば、文脈における現在のデバイス、文脈の変化を示す言語的手掛かり、明示的なアドレス指定、及び/又は、特定のデバイスのアクティビティモデルに関連する言語テンプレートとのその発話の最も良い一致等である。この点に関して、デバイス/アプリケーションマネージャ110は、プラグアンドプレイ能力を提供するために、デバイス及び/又はアプリケーションに依存する情報を一般対話管理モジュール104から分離することができる。デバイス/アプリケーション管理モジュール110は状態情報を含む。この状態情報は、一定のデバイス又はアプリケーションのさまざまな可能な状態、及び、それらの状態の可能な一組の値を記述する。デバイス/アプリケーションに適用可能なアクティビティ、そこから提供される機能、又は特定のアクティビティ又は機能に使用される可能な言語表現は、デバイス/アプリケーションマネージャ110が保持して調整することができる。この点に関して、デバイス/アプリケーション特有のアイテムをドメインモデルにカプセル化することができる。ドメインモデルは、アプリケーションが最初に使用される時に公開することができる。詳細には、言語表現は、「タグ」モジュールである自然言語理解モジュール103に関連する統計モデルを介して、又は、他の形式を介して獲得することができる。
図4Aは、デバイスの認知的に過負荷なユーザとインタラクティブに会話する一例示の方法400を示している。ステップS401において、この例示のシステム100は、デバイス及びドメインに関する情報の知識ベースを保持する。ステップS402において、例示のシステム100は、リレーショナル形式及び/又はオントロジー形式で情報を編成する。ステップS403において、例示のシステム100は、ユーザから音声を受け取る。ステップS404において、例示のシステム100は、受け取った音声の雑音を低減し、エコーをキャンセルする。ステップS405において、例示のシステム100は、受け取った音声において、休止、口ごもり、及び/又は持続時間を識別する。ステップS406において、例示のシステム100は、音声を単語シーケンスに変換し、その単語シーケンスにおいて部分的な固有名詞を認識する。ステップS407において、例示のシステム100は、部分的な固有名詞の境界を調整して、意味構造の正確度を高める。ステップS408において、例示のシステム100は、ドメイン情報のモデルを使用して単語シーケンスから意味構造を識別する。ステップS409において、例示のシステム100は、知識ベースを使用して、認知的に過負荷なユーザとの会話の文脈において意味構造を解釈する。ステップS410において、例示のシステム100は、現在の文脈及び意味構造の解釈に基づき、デバイスに関連して実行されるオペレーションを決定する。ステップS411において、例示のシステム100は、デバイスオペレーションを実行する。ステップS412において、例示のシステム100は、認知的に過負荷なユーザに対する応答の内容を選択する。ステップS413において、例示のシステム100は、選択された内容、会話の文脈、及び文法規則に基づいて応答を生成する。ステップS414において、例示のシステム100は、応答の音声波形を合成する。
図4Bは、認知的に過負荷なデバイスユーザから受け取った音声から変換された単語シーケンスにおいて意味構造を識別する一例示の方法450を示している。ステップS415において、例示のシステムは、単語シーケンスの各単語の品詞タグを識別する。ステップS416において、例示のシステム100は、単語シーケンスから依存構造を導出して、ドメイン情報のモデルを動的に適合させる。ステップS417において、例示のシステム100は、依存構造を特徴構造に変換する。ステップS418において、例示のシステム100は、品詞タグ及び特徴構造を単語シーケンスの意味的話題に関連付ける。
図5は、例示のシステム100のユーザ151と複数のデバイスエージェント160a、160b、及び160cとの間の一例示の統合インターフェースを示している。この例示の実施の形態では、ユーザ151には、複数のデバイスエージェント160a、160b、及び160cとやりとりする共通インターフェースが提供される。この点に関して、対話管理モジュール104の単一のインスタンスが、ユーザ151とデバイスエージェント160a、160b、及び160cとの間の通信を容易にすることができる。デバイス管理モジュール110は、各デバイスの経過を追跡でき、対話管理モジュール104と個々のエージェント160a、160b、及び160cとの間のバッファとして機能することができる。したがって、デバイス管理モジュール110は、それ自体、ユーザ151が通信していると考えることができる統合されたエージェントとすることができる。
一方、デバイスの自律性を維持するには、各デバイスエージェント160a、160b、及び160cが、自身に適用されたコマンドを独立して処理すること、それ自身のタスクを管理すること、及び、より上首尾で且つ自然なタスク対話及び実行を行うことができるようにデバイス特有の発話を対話管理モジュール104に追加することが必要とされる場合がある。
対話管理モジュール104は、CSLI対話マネージャ(CDM)からの適合(adaptation)を使用して実施することができる。CDMは、対話マネージャ、対話移動木、タスク木、及びシミュレーションタスク木を使用して対話管理及びタスク実行をハンドリングする単一デバイスシステムを提供する。
本発明の一例示の実施の形態によれば、例示のシステム100は、複数のデバイスをサポートするにもかかわらず、ユーザ151とデバイスエージェント160a、160b、及び160cとの間のすべての言語通信をハンドリングする1つの対話管理モジュール104のみで構成することができる。この点に関して、ユーザは、あたかも単一のエージェント/デバイスのみをアドレス指定しているように感じることができる。これは、より有効なユーザインターフェースになることが明らかにされている。したがって、ユーザ151は、たとえば「drive to the restaurant(レストランへ車で行く)」又は「turn up the volume(音量を上げる)」等のコマンドを単に発行することができ、GPSシステム及びラジオにそれぞれ話しかけるのではなく、単一のエージェントに話しかけているように感じることができる。
例示のシステム100が単一の対話管理モジュール104で構成される場合、この対話管理モジュール104は、タスク指向型手法を使用して、発話を正しいエージェントへルーティングする。たとえば、ユーザ151が発話を行うと、対話管理モジュール104は、その発話を取り込み、単一デバイス対話システムで行うように、その発話を対話移動木に配置する。その発話が前のどの発話にも関係しない場合(たとえば、デバイスの1つに対するコマンド)、対話管理モジュール104は、デバイス管理モジュール110と通信して、どのデバイスがこの発話を受け取るべきかを調べることができる。この例では、デバイス管理モジュール110は、その発話をハンドリングする適切なデバイスを識別でき、それに従って動作することができる。一方、発話が、すでに存在する会話スレッドに応答したものである場合、その発話の影響は、適切なデバイスへ自動的にルーティングすることができる。
文脈デバイス
対話管理モジュール104は、加えて、現在の言語文脈においてデバイスの経過を追跡することができる。デバイスが明示的にアドレス指定されるごとに、又は、一定のデバイスに対応するコマンドを行うことができるごとに、そのデバイスは、文脈における現在のデバイスとなる。また、デバイスは、それ自身が発話を行うことによって現在の文脈デバイスになることもできる。これは、たとえば、デバイス文脈管理モジュール111によって保持することができる。デバイス文脈管理モジュール111は、文脈におけるデバイスが、リセット前の論理的な時間の間、文脈に留まるのみであることを確実にする。換言すれば、或るデバイスが文脈におけるデバイスになると、そのデバイスが文脈にあり続ける期間を記録するタイマが始動される。一定の期間の終了時に、文脈におけるデバイスは、ヌルにリセットされる。タイマは、そのデバイス又は異なるデバイスがアドレス指定されるごとに、又は、発話するごとに再始動する。したがって、デバイス文脈管理モジュール111は、持ち回りを調整及び/又は規制することができる。この点に関して、文脈におけるデバイスは、MultideviceApp又はNISTプロジェクト(NIST project)のCarAppを実行する時に現れる「CAR」のメインパネルに出現する場合がある。
タスクに関係する対話
ユーザ151とデバイスとの間のタスクに関係する通信を容易にするために、統合されたTaskTree(タスク木)を対話管理モジュール104は保持することができる。この統合されたTaskTreeは、各エージェントがハンドリングしてきたすべてのタスクを表す。このTaskTreeは、後述するように、対話管理モジュール104が、ありとあらゆるエージェントに属するタスクの進行、成功、及び失敗についてのフィードバックをユーザに提供できるように、それらのエージェントのSimTaskTreeにおける各エージェントのタスク実行管理と同期させることができる。したがって、タスクのステータス、完了、失敗等についての報告は、TaskTreeが依然として生成することができる。
或いは、各デバイスが、デバイス特有のタスク指向型対話を担当することもできる。たとえば、あいまいなコマンドが与えられると、そのあいまいさを解決してタスクの実行を続けることをそのデバイスの担当とすることができる。これらの発話及びクエリーは、たとえば、単一デバイス対話システムにおける同様のクエリーと同じ方法でハンドリングすることができる。このようなデバイス生成クエリーを伴うサンプル対話を図6に示す。
分散タスク管理
本発明の一例示の実施の形態及び/又は例示の方法によれば、タスク管理は、各デバイス及び/又は各デバイスエージェントが自律的且つ別個に自身のタスクを管理することを必要とすることを伴うことができる。この点に関して、デバイス管理モジュール110は、対話管理104によってユーザコマンドが最初に与えられると、クラスMultiDeviceTaskProperties(マルチデバイスタスクプロパティ)を使用して、一組の汎用タスクプロパティを構築することができる。これらのプロパティは、ユーザコマンドに対応するタスクの基本的なドメイン独立アイデア(domain-independent idea)を表す。これらのプロパティのスロットは、「command(コマンド)」、「direct_object(直接目的語)」、「adjectives(形容詞)」等の通常のNLスロットである。これらのプロパティが構築されると、デバイス管理モジュール110は、これらのプロパティのコピーをデバイスへ送信し、デバイスは、それぞれ、コマンドを確実にハンドリングすることができるのか、場合によってはコマンドをハンドリングすることができるのか、又は、コマンドを確実にハンドリングすることができないのかを返答する。文脈における現在のデバイスは、そのデバイスがハンドリングすることができることを告げる最初の機会を与えられ、そのデバイスがコマンドを確実にハンドリングできることを返すと、そのデバイスにタスクが自動的に与えられる。それ以外の場合には、すべてのデバイスからの回答が編集されて、あいまいさが存在する(すなわち、2つのデバイスがタスクを「確実に」ハンドリングすることができる)場合、どのデバイスに発話をハンドリングさせたいかをユーザに尋ねるクエリーが生成される。適切なデバイスが見つかった場合、そのコマンドはそのデバイスに割り当てられ、適切なノードがTaskTree及びそのデバイスのSimTaskTreeに追加され、デバイスは、それ自身でタスクの実行及び通信の残りをハンドリングする。
デバイス登録
デバイスが統合システム100に参加するには、デバイスは、たとえば、識別、タスク機能、及びシステム特有の機能に関係する要件を含むいくつかの要件を満たすことを必要とされる場合がある。
識別に関係する要件に関して、デバイスは、デバイス管理モジュール110が各デバイスの経過を追跡できるように、一意の識別文字列を有することを必要とされる場合がある。各デバイスは、DeviceType(デバイスタイプ)(すなわち、UAV)及び一意のDeviceName(デバイス名)(すなわち、UAV1)を有することができる。lfs、タスク管理等のあらゆるものが、識別タグとしてDeviceNameを使用することができる。
タスク機能に関係する要件に関して、デバイスは、汎用タスク記述が与えられると、デバイスが上述しようにそのタスクをハンドリングして実行する能力を有するか否かを判定する能力を有することを必要とされる場合がある。この機能は、単一デバイスタスク及び単一エージェントタスクの双方で使用できるだけでなく、マルチデバイスタスクでも使用することができる。この機能は、デバイスのコードに見られる一連のデバイス特有の機能が実施することができる。それらの一連のデバイス特有の機能は、それらのプロパティをMultiDeviceTaskProperties(マルチデバイスタスクプロパティ)又はGenericSlotSet(汎用スロットセット)に取り込み、それらのプロパティを使用して、プロパティにより記述されたタスクを実行できるように感じるか否かを判断する。
システム特有の機能に関係する要件に関して、例示のシステム100と互換性を有するために、デバイスは、他のシステム特有のクラス及び機能を供給することを必要とされる場合がある。これは、たとえば、TaskLFParser(タスクLFパーサ)を含むことができる。このTaskLFParserは、汎用タスクプロパティを取り込み、それらの汎用タスクプロパティから、デバイス特有のタスクプロパティ、デバイスのアクティビティモデル、NPResolver(NP分解器)等を構築する。これらのクラスのすべて(実施しなければならないものの一例のRestaurantDevice(レストランデバイス)を見る)は、デバイス特有のタスク及び対話のハンドリングを提供するのに利用することができる。各デバイス自身のDeviceStarter(デバイススタータ)クラスも、このカテゴリーに入ることができる。
タスク割り当て
タスクをデバイスに割り当てる信頼性を最大にするか又は少なくとも改善するために、デバイス管理モジュール110は、タスクをハンドリングするデバイスを選ぶ時に、いくつかのファクタを考慮することができる。デバイス管理モジュール110は、文脈における現在のデバイスに第1の優先順位を与えることができる。そのデバイスがユーザコマンドをハンドリングできる場合に、そのユーザコマンドは自動的にそのデバイスに割り当てられ、続いて、タスクの実行が行われる。そうでない場合、デバイス管理モジュール110は、各デバイスがこのタスクをハンドリングする能力を有するか否かを各デバイスに尋ねることができ、肯定応答をしたデバイスのリストを編集する。2つの以上のデバイスが、一定のタスクをハンドリングできると考えている場合、ユーザが使用したいデバイスをより具体的に指定するようにユーザに要求するクエリーを生成することができる。サンプル対話を図6に示す。このクエリーが回答されると、選ばれたデバイスは、コマンドのハンドリングを開始できるように、通知を受ける。タスク割り当ての一例示の実施態様の例示の擬似コードを図7に提供する。
タスクのハンドリング及び実行
前述したように、各タスクは、それ自身のタスクを実行して保持する役割を有することができる。各タスクは、それ自身のSimTaskTreeを保持することによってこれを行うことができる。これらのSimTaskTreeは、前述したように、対話管理モジュールの単一のTaskTreeとの同期を維持して、タスクに関係する対話、すなわち更新及び報告を容易にする。このように、各デバイスは、その実行がどのように進行しているか(すなわち、タスクが現在行われているのか、完了したのか、又は失敗したのか)に応じて、自身のSimTaskTreeにおいて連続的にタスクを更新することができ、これらの更新は、その後、TaskTreeが自身を最新に維持するためにピックアップすることもできる。前述したように、これによって、対話管理モジュール104が、すべてのタスクの進行についてのフィードバックをユーザに提供することが可能になり得る。換言すれば、TaskTreeは、それぞれの個々のデバイスのSimTaskTreeを合成したものと考えることができる。個々のデバイスは、後述するチームタスクに関するほんのわずかな場合を除いて、自身のSimTaskTreeにのみ、自身で実行している(又は実行していた等)タスクを有する。一方、TaskTreeは、すべてのデバイスからのすべてのタスクの組み合わせを有し、したがって、或る意味で、それぞれの個々のSimTaskTreeの寄せ集めであり、システムで起こっているあらゆるものを表現したものである。
対話例
図2は、MP3音楽プレイヤの制御を伴う、ユーザと図1Aの例示のシステム100との間の一例示の対話200を示している。例示の対話200は、たとえば、文脈及び外部状況に基づく広範囲にわたる名詞句(NP)の分解、動的な内容更新、あいまいさ解消、マルチスレッド化された会話、及び複雑な固有名詞を含む、例示のシステム100がハンドリングすることができる一定の機能及びやりとりを示している。
主要な機能は、MP3音楽プレイヤを制御するための実際のサンプル対話を介して示されている。
データ収集
例示のシステム100の性能の改善及び評価を行うために、特定のタスクの対話データを収集することができる。この点に関して、「オズの魔法使い」(WOZ)手法を使用することができる。この手法では、実験の被験者が、スマートマシンのふりをする別の部屋の人間に話し掛ける。この設定は、タスク指向型のやりとりにおける人間の振る舞いをシミュレーションする高品質対話システムの設計に必要とされる場合がある。これは、部分的には、WOZ手法が、言語の複雑さの点で会話中にユーザに対する正しい予想を設定できるからである。その結果、WOZ手法は、人対人の会話を理解するという困難な問題によってトラップされることを回避することができる。これは、最新のNLP技法の能力を超えることができる。
認知的に過負荷なシナリオをシミュレーションするために、運転シミュレータを占有タスクとして使用することができる。シミュレータの一部として、Midtown Madness1(ミッドタウンマッドネス1)と呼ばれるビデオゲームを使用することができる。このビデオゲームは、シカゴの中心街を舞台としている。フォースフィードバックを有するステアリングホイールが、ゲームディスプレイの前面に設置される。被験者及び魔法使いが互いを見ないように、2つの分割された部屋(被験者部屋及び魔法使い部屋と呼ばれる)を設定することができる。魔法使いは、「ディール(deal)」対話システムとして機能し、被験者は、魔法使いを知ることも見ることもなく魔法使いとやりとりする。魔法使いは、運転シーンにおける被験者の現在の状況を知るように、ビデオスプリッタを通じてゲームスクリーンを見ることができる。被験者は、ナビゲーション又は娯楽情報を必要とする時、ホイールのプッシュトゥトーク(PTT)ボタンを押して、ヘッドマウントマイクに話し掛ける。魔法使いには、PTTが押された時にのみ、被験者の音声が聞こえる。
被験者及び魔法使いの双方からの音声は、録音ソフトウェアによってハードディスクに録音される。MP3プレイヤを動作させるための或るシナリオを組み立てることができる。このシナリオでは、被験者は、街を運転して回っている間、2つの曲リストを作成するように要求される。曲リストを作成するために、被験者は、自身のコレクションの曲について問い合わせを行い、曲を聴いて、そのリストに曲を追加するか又はそのリストから曲を削除することができる。このシナリオは、マルチスレッド化された対話を提供する。
本発明による一例示の対話システムを示す図である。 一例示の自然言語理解モジュールを示す図である。 一例示の対話管理モジュールを示す図である。 MP3音楽プレイヤの制御を伴う、ユーザと図1Aの例示のシステムとの間の簡単な対話を示す図である。 一例示のアクティビティモデル及び言語マッピングの実施態様の例示の擬似コードを示す図である。 デバイスの認知的に過負荷なユーザとインタラクティブに会話する一例示の方法を示す図である。 認知的に過負荷なデバイスユーザから受け取った音声から変換された単語シーケンスにおいて意味構造を識別する一例示の方法を示す図である。 図1の例示のシステムのユーザに提供される、複数のデバイスを統合する一例示のインターフェースを示す図である。 図1の例示のシステムとこの例示のシステムのユーザとの間の一例示の対話を示す図である。 図1の例示のシステムによって実行される一例示のタスク割り当てプロシージャの一例示の擬似コードを示す図である。

Claims (19)

  1. 複数のデバイス及び対応するドメインに関するデバイス情報を記憶すると共にリレーショナル形式及びオントロジー形式の少なくとも一方で該デバイス情報を分類する知識ベースと、
    (a)現在の会話の文脈で用いられるデバイスと、(b)特定のデバイスのアクティビティモデルに関連する言語表現との音声の一致とのうちの少なくとも1つに基づいて、複数のデバイスのなかから音声の内容に適した1つのデバイスを選択するとともに、
    前記対応するドメインのプラグアンドプレイのために、前記知識ベース中のデバイスに依存しない情報および前記知識ベース中の他のデバイス情報から分離されている、前記知識ベース中の前記複数のデバイスの各デバイスについてそれぞれのデバイス情報を対応するドメイン内言語表現としてカプセル化する、
    デバイス/アプリケーションマネージャと、
    ユーザからの音声を受け取り、該音声を単語シーケンスに変換し、完全な固有名詞及び部分的な固有名詞の少なくとも一方を認識し、かつ前記部分的な固有名詞の境界を調整する音声認識モジュールと
    前記複数のデバイスのなかから選択されたひとつのデバイスに対応する1つのドメインのドメイン内言語表現に基づいてトレーニングされた統計的依存モデルを使用し、部分的な固有名詞の境界が調整された前記単語シーケンスから得られる意味構造を出力する自然言語理解モジュールと、
    前記意味構造を取り込み、会話の文脈及び前記対応するドメインに関連する前記知識ベース中の前記デバイス情報を使用して、前記意味構造を解釈すると共に応答の内容を組み立てる対話管理モジュールと、
    前記対話管理モジュールからの内容を取り込み、前記文脈の関連のある部分を選択し、前記関連のある部分を文法的に正しい様式で編成して、前記応答を生成する応答生成モジュールと、
    該応答の音声波形を合成する音声合成モジュールと、
    を備える、対話システム。
  2. 前記デバイスは、移動電話、ナビゲーションシステム、ポイントオブインタレストサービス、オーディオデバイス、車内デバイス、及びMP3プレイヤの少なくとも1つを含む、請求項1に記載の対話システム。
  3. 前記受け取った音声の雑音低減及びエコーキャンセルを提供する音声強調器をさらに備える、請求項1に記載の対話システム。
  4. 前記音声認識モジュール、前記自然言語理解モジュール、および、前記対話管理モジュールのうちの少なくとも1つのモジュールの性能を向上させるために、前記受け取った音声の抑揚、休止、及び継続期間の少なくとも1つを検出する韻律検出モジュールをさらに備える、請求項1に記載の対話システム。
  5. 新しいモジュール及び新しいデバイスの少なくとも一方の動的な登録を可能にする、請求項1に記載の対話システム。
  6. 前記自然言語理解モジュールは、前記単語シーケンスに品詞タグを割り当てる統計タガーと、条件付き確率及び相互情報量を使用して依存関係を形成する統計依存パーサと、前記依存関係を使用する、前記単語シーケンスの拡張可能マークアップ言語表現への特徴マッパとを含む、請求項1に記載の対話システム。
  7. 前記対話管理モジュールは、マルチドメイン環境をサポートする、請求項1に記載の対話システム。
  8. 前記対話管理モジュールは、マルチスレッド会話を管理する、請求項1に記載の対話システム。
  9. 前記対話管理モジュールは、デバイス特有のアクティビティモデルをサポートする、請求項1に記載の対話システム。
  10. 前記対話管理モジュールは意味解析器を含む、請求項1に記載の対話システム。
  11. 前記対話管理モジュールは、対話移動木をサポートする、請求項1に記載の対話システム。
  12. 前記対話管理モジュールは、複数の話題の会話をサポートする、請求項1に記載の対話システム。
  13. デバイスの認知的に過負荷なユーザとインタラクティブに会話する方法であって、
    複数のデバイス及び対応するドメインに関するデバイス情報の知識ベースを保持すること、
    リレーショナル形式及びオントロジー形式の少なくとも一方で前記デバイス情報を編成すること、
    前記ユーザからの音声を受け取ること、
    該音声を単語シーケンスに変換すること、
    該単語シーケンスにおいて、完全な固有名詞及び部分的な固有名詞の少なくとも一方を認識すること、
    前記部分的な固有名詞の境界調整すること、
    (a)現在の会話の文脈で用いられるデバイスと、(b)特定のデバイスのアクティビティモデルに関連する言語表現との音声の一致とのうちの少なくとも1つに基づいて、複数のデバイスのなかから音声の内容に適した1つのデバイスを選択すること、
    前記複数のデバイスのなかから選択されたひとつのデバイスに対応する1つのドメインのドメイン内言語表現に基づいてトレーニングされた統計的依存モデルを使用し、部分的な固有名詞の境界が調整された前記単語シーケンスから意味構造を得ること、
    前記知識ベースを使用して、前記認知的に過負荷なユーザとの前記会話の文脈において前記意味構造を解釈するとともに前記認知的に過負荷なユーザへの応答の内容を選択すること、
    該選択された内容、前記会話の前記文脈、及び文法規則に基づいて前記応答を生成すること、並びに、
    前記応答の音声波形を合成すること、
    を含む、デバイスの認知的に過負荷なユーザとインタラクティブに会話する方法。
  14. 前記受け取った音声の雑音を低減すること、及び
    前記受け取った音声のエコーをキャンセルすること、
    の少なくとも一方をさらに含む、請求項13に記載の方法。
  15. 前記デバイスを登録することであって、それによって、該デバイスの能力を言語的意味論形式で広告する、登録すること、及び
    すべてのタイプのユーザ要求について、言語的意味論形式による前記デバイスの前記能力及び前記会話の前記文脈の少なくとも一方に基づいて前記デバイスを選択すること、
    をさらに含む、請求項13に記載の方法。
  16. 前記音声認識モジュール、前記自然言語理解モジュール、および、前記対話管理モジュールのうちの少なくとも1つのモジュールの性能を向上させるために、前記受け取った音声の休止、口ごもり、及び継続期間の少なくとも1つを識別することをさらに含む、請求項13に記載の方法。
  17. nグラムモデルを名前付きセットのみに基づいてトレーニングすることにより、クラスベースの文法で固有名詞クラスを形成すること、及び
    前記トレーニングされたnグラムモデルを前記固有名詞クラスとして前記クラスベースの文法に動的に挿入すること、
    をさらに含む、請求項13に記載の方法。
  18. 前記意味構造を得ることは、
    前記単語シーケンスの各単語の品詞タグを識別すること、
    前記単語シーケンスから依存構造を導出することであって、それによって、前記ドメイン情報の前記モデルを動的に適合させる、導出すること、
    前記依存構造を特徴構造に変換すること、及び
    前記品詞タグ及び特徴構造を前記単語シーケンスの意味的話題に関連付けること、
    をさらに含む、請求項13に記載の方法。
  19. プロセッサによって実行可能な命令のセットを記録した記憶媒体であって、該命令は以下の:
    複数のデバイス及び対応するドメインに関するデバイス情報の知識ベースを保持すること、
    リレーショナル形式及びオントロジー形式の少なくとも一方で前記デバイス情報を編成すること、
    前記デバイスのユーザからの音声を受け取ること、
    該音声を単語シーケンスに変換すること、
    該単語シーケンスにおいて部分的な固有名詞を認識すること、
    前記部分的な固有名詞の境界調整すること、
    (a)現在の会話の文脈で用いられるデバイスと、(b)特定のデバイスのアクティビティモデルに関連する言語表現との音声の一致とのうちの少なくとも1つに基づいて、複数のデバイスのなかから音声の内容に適した1つのデバイスを選択すること、
    前記複数のデバイスのなかから選択されたひとつのデバイスに対応する1つのドメインのドメイン内言語表現に基づいてトレーニングされた統計的依存モデルを使用し、部分的な固有名詞の境界が調整された前記単語シーケンスから意味構造を得ること、
    前記知識ベースを使用して、前記認知的に過負荷なユーザとの前記会話の文脈において前記意味構造を解釈するとともに前記認知的に過負荷なユーザへの応答の内容を選択すること、
    該選択された内容、前記会話の前記文脈、及び文法規則に基づいて前記応答を生成すること、並びに、
    前記応答の音声波形を合成すること、
    を実行するようにさせる、プロセッサによって実行可能な命令のセットを記録した記憶媒体
JP2007533468A 2004-09-27 2005-08-10 デバイスの認知的に過負荷なユーザのインタラクティブ会話型対話 Active JP5142720B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/952,069 2004-09-27
US10/952,069 US7716056B2 (en) 2004-09-27 2004-09-27 Method and system for interactive conversational dialogue for cognitively overloaded device users
PCT/US2005/028749 WO2006036328A1 (en) 2004-09-27 2005-08-10 Interactive conversational dialogue for cognitively overloaded device users

Publications (2)

Publication Number Publication Date
JP2008514983A JP2008514983A (ja) 2008-05-08
JP5142720B2 true JP5142720B2 (ja) 2013-02-13

Family

ID=35395833

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007533468A Active JP5142720B2 (ja) 2004-09-27 2005-08-10 デバイスの認知的に過負荷なユーザのインタラクティブ会話型対話

Country Status (5)

Country Link
US (1) US7716056B2 (ja)
EP (2) EP1794747B1 (ja)
JP (1) JP5142720B2 (ja)
CN (2) CN102298928B (ja)
WO (1) WO2006036328A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device

Families Citing this family (355)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6630800A (en) 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7324927B2 (en) * 2003-07-03 2008-01-29 Robert Bosch Gmbh Fast feature selection method and system for maximum entropy modeling
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
TWI293753B (en) * 2004-12-31 2008-02-21 Delta Electronics Inc Method and apparatus of speech pattern selection for speech recognition
EP1851755A4 (en) * 2005-02-15 2010-01-20 Celf Corp USER DIALOGUE CONNECTION
US20060271520A1 (en) * 2005-05-27 2006-11-30 Ragan Gene Z Content-based implicit search query
US8041570B2 (en) * 2005-05-31 2011-10-18 Robert Bosch Corporation Dialogue management using scripts
US7904300B2 (en) * 2005-08-10 2011-03-08 Nuance Communications, Inc. Supporting multiple speech enabled user interface consoles within a motor vehicle
US8924212B1 (en) * 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US8700403B2 (en) * 2005-11-03 2014-04-15 Robert Bosch Gmbh Unified treatment of data-sparseness and data-overfitting in maximum entropy modeling
US8027457B1 (en) * 2005-12-01 2011-09-27 Cordell Coy Process for automated deployment of natural language
JP5248867B2 (ja) * 2006-01-31 2013-07-31 本田技研工業株式会社 会話システムおよび会話ソフトウェア
KR100760301B1 (ko) * 2006-02-23 2007-09-19 삼성전자주식회사 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치
US9620117B1 (en) * 2006-06-27 2017-04-11 At&T Intellectual Property Ii, L.P. Learning from interactions for a spoken dialog system
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US9082406B2 (en) 2006-11-30 2015-07-14 Robert Bosch Llc Method and system for extending dialog systems to process complex activities for applications
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101075301A (zh) 2007-06-28 2007-11-21 腾讯科技(深圳)有限公司 虚拟宠物系统和虚拟宠物聊天方法、装置
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US8639509B2 (en) * 2007-07-27 2014-01-28 Robert Bosch Gmbh Method and system for computing or determining confidence scores for parse trees at all levels
CN101122972A (zh) * 2007-09-01 2008-02-13 腾讯科技(深圳)有限公司 一种虚拟宠物聊天系统、方法及虚拟宠物问答服务器
CN101119209A (zh) 2007-09-19 2008-02-06 腾讯科技(深圳)有限公司 虚拟宠物系统和虚拟宠物聊天方法、装置
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
WO2009047858A1 (ja) * 2007-10-12 2009-04-16 Fujitsu Limited エコー抑圧システム、エコー抑圧方法、エコー抑圧プログラム、エコー抑圧装置、音出力装置、オーディオシステム、ナビゲーションシステム及び移動体
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US7996214B2 (en) * 2007-11-01 2011-08-09 At&T Intellectual Property I, L.P. System and method of exploiting prosodic features for dialog act tagging in a discriminative modeling framework
US8155959B2 (en) * 2007-11-07 2012-04-10 Robert Bosch Gmbh Dialog system for human agent to correct abnormal output
US20090125813A1 (en) * 2007-11-09 2009-05-14 Zhongnan Shen Method and system for processing multiple dialog sessions in parallel
US8620662B2 (en) * 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8355919B2 (en) 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8583418B2 (en) * 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10481878B2 (en) * 2008-10-09 2019-11-19 Objectstore, Inc. User interface apparatus and methods
US9978365B2 (en) 2008-10-31 2018-05-22 Nokia Technologies Oy Method and system for providing a voice interface
US9129601B2 (en) * 2008-11-26 2015-09-08 At&T Intellectual Property I, L.P. System and method for dialog modeling
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8326637B2 (en) * 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US8442826B2 (en) 2009-06-10 2013-05-14 Microsoft Corporation Application-dependent information for recognition processing
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US8682669B2 (en) * 2009-08-21 2014-03-25 Synchronoss Technologies, Inc. System and method for building optimal state-dependent statistical utterance classifiers in spoken dialog systems
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US20110110534A1 (en) * 2009-11-12 2011-05-12 Apple Inc. Adjustable voice output based on device status
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US20110307250A1 (en) * 2010-06-10 2011-12-15 Gm Global Technology Operations, Inc. Modular Speech Recognition Architecture
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
KR101699720B1 (ko) * 2010-08-03 2017-01-26 삼성전자주식회사 음성명령 인식 장치 및 음성명령 인식 방법
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8769009B2 (en) 2011-02-18 2014-07-01 International Business Machines Corporation Virtual communication techniques
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9298287B2 (en) 2011-03-31 2016-03-29 Microsoft Technology Licensing, Llc Combined activation for natural user interface systems
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9454962B2 (en) * 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9495331B2 (en) 2011-09-19 2016-11-15 Personetics Technologies Ltd. Advanced system and method for automated-context-aware-dialog with human users
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US8595016B2 (en) * 2011-12-23 2013-11-26 Angle, Llc Accessing content using a source-specific content-adaptable dialogue
CN103187060A (zh) * 2011-12-28 2013-07-03 上海博泰悦臻电子设备制造有限公司 车载语音处理装置
CN103187058A (zh) * 2011-12-28 2013-07-03 上海博泰悦臻电子设备制造有限公司 车内语音对话系统
CN103187051A (zh) * 2011-12-28 2013-07-03 上海博泰悦臻电子设备制造有限公司 车载互动装置
US8825533B2 (en) 2012-02-01 2014-09-02 International Business Machines Corporation Intelligent dialogue amongst competitive user applications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
CN103366732A (zh) * 2012-04-06 2013-10-23 上海博泰悦臻电子设备制造有限公司 语音播报方法及装置、车载系统
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
DE102013209780B4 (de) 2012-05-29 2022-03-31 GM Global Technology Operations, LLC (n.d. Ges. d. Staates Delaware) Verfahren und Dialogsystem zum Verbessern der Fahrzeugsicherheit mittels Abschätzen einer kognitiven Belastung von auf das Fahren bezogenen Aktivitäten durch eine Mensch-Maschine-Schnittstelle
US20130325482A1 (en) * 2012-05-29 2013-12-05 GM Global Technology Operations LLC Estimating congnitive-load in human-machine interaction
US9009027B2 (en) * 2012-05-30 2015-04-14 Sas Institute Inc. Computer-implemented systems and methods for mood state determination
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
CN103514875A (zh) * 2012-06-29 2014-01-15 联想(北京)有限公司 语音数据的匹配方法和电子设备
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9667742B2 (en) 2012-07-12 2017-05-30 Robert Bosch Gmbh System and method of conversational assistance in an interactive information system
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US8700396B1 (en) * 2012-09-11 2014-04-15 Google Inc. Generating speech data collection prompts
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9619459B2 (en) * 2012-10-01 2017-04-11 Nuance Communications, Inc. Situation aware NLU/NLP
WO2014070872A2 (en) 2012-10-30 2014-05-08 Robert Bosch Gmbh System and method for multimodal interaction with reduced distraction in operating vehicles
US10282419B2 (en) 2012-12-12 2019-05-07 Nuance Communications, Inc. Multi-domain natural language processing architecture
US9607046B2 (en) 2012-12-14 2017-03-28 Microsoft Technology Licensing, Llc Probability-based state modification for query dialogues
CN103049532A (zh) * 2012-12-21 2013-04-17 东莞中国科学院云计算产业技术创新与育成中心 基于突发事件应急管理的知识库引擎构建及其查询方法
KR20140089871A (ko) * 2013-01-07 2014-07-16 삼성전자주식회사 대화형 서버, 그 제어 방법 및 대화형 시스템
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9378741B2 (en) 2013-03-12 2016-06-28 Microsoft Technology Licensing, Llc Search results using intonation nuances
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN110096712B (zh) 2013-03-15 2023-06-20 苹果公司 通过智能数字助理的用户培训
US10303762B2 (en) * 2013-03-15 2019-05-28 Disney Enterprises, Inc. Comprehensive safety schema for ensuring appropriateness of language in online chat
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
CN105144133B (zh) 2013-03-15 2020-11-20 苹果公司 对中断进行上下文相关处理
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US9263032B2 (en) 2013-10-24 2016-02-16 Honeywell International Inc. Voice-responsive building management system
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10209853B2 (en) 2013-12-20 2019-02-19 Robert Bosch Gmbh System and method for dialog-enabled context-dependent and user-centric content presentation
DE102014002543A1 (de) * 2014-02-22 2015-08-27 Audi Ag Verfahren zur Erfassung wenigstens zweier zu erfassender Informationen mit zu verknüpfendem Informationsgehalt durch eine Sprachdialogeinrichtung, Sprachdialogeinrichtung und Kraftfahrzeug
CN103942056B (zh) * 2014-05-05 2017-07-28 北京京东尚科信息技术有限公司 一种基于场景的人机交互方法和装置
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10726831B2 (en) * 2014-05-20 2020-07-28 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9547471B2 (en) * 2014-07-03 2017-01-17 Microsoft Technology Licensing, Llc Generating computer responses to social conversational inputs
US9390725B2 (en) 2014-08-26 2016-07-12 ClearOne Inc. Systems and methods for noise reduction using speech recognition and speech synthesis
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US9690776B2 (en) 2014-12-01 2017-06-27 Microsoft Technology Licensing, Llc Contextual language understanding for multi-turn language tasks
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10460720B2 (en) 2015-01-03 2019-10-29 Microsoft Technology Licensing, Llc. Generation of language understanding systems and methods
US10713005B2 (en) 2015-01-05 2020-07-14 Google Llc Multimodal state circulation
US10572810B2 (en) 2015-01-07 2020-02-25 Microsoft Technology Licensing, Llc Managing user interaction for input understanding determinations
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10109214B2 (en) 2015-03-06 2018-10-23 International Business Machines Corporation Cognitive bias determination and modeling
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10091140B2 (en) * 2015-05-31 2018-10-02 Microsoft Technology Licensing, Llc Context-sensitive generation of conversational responses
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10249297B2 (en) 2015-07-13 2019-04-02 Microsoft Technology Licensing, Llc Propagating conversational alternatives using delayed hypothesis binding
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
WO2017083504A1 (en) * 2015-11-12 2017-05-18 Semantic Machines, Inc. Interaction assistant
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10896681B2 (en) 2015-12-29 2021-01-19 Google Llc Speech recognition with selective use of dynamic language models
US9922647B2 (en) * 2016-01-29 2018-03-20 International Business Machines Corporation Approach to reducing the response time of a speech interface
US10229687B2 (en) * 2016-03-10 2019-03-12 Microsoft Technology Licensing, Llc Scalable endpoint-dependent natural language understanding
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9996531B1 (en) * 2016-03-29 2018-06-12 Facebook, Inc. Conversational understanding
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10606952B2 (en) * 2016-06-24 2020-03-31 Elemental Cognition Llc Architecture and processes for computer learning and understanding
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10446137B2 (en) 2016-09-07 2019-10-15 Microsoft Technology Licensing, Llc Ambiguity resolving conversational understanding system
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10366160B2 (en) 2016-09-30 2019-07-30 International Business Machines Corporation Automatic generation and display of context, missing attributes and suggestions for context dependent questions in response to a mouse hover on a displayed term
US10268679B2 (en) 2016-12-02 2019-04-23 Microsoft Technology Licensing, Llc Joint language understanding and dialogue management using binary classification based on forward and backward recurrent neural network
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10268680B2 (en) 2016-12-30 2019-04-23 Google Llc Context-aware human-to-computer dialog
US10235990B2 (en) 2017-01-04 2019-03-19 International Business Machines Corporation System and method for cognitive intervention on human interactions
US10373515B2 (en) 2017-01-04 2019-08-06 International Business Machines Corporation System and method for cognitive intervention on human interactions
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10318639B2 (en) 2017-02-03 2019-06-11 International Business Machines Corporation Intelligent action recommendation
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
CN107093425A (zh) * 2017-03-30 2017-08-25 安徽继远软件有限公司 电力系统的语音导航系统、语音识别方法和语音交互方法
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
KR101945190B1 (ko) * 2017-05-11 2019-02-07 미디어젠(주) 음성인식 작동 시스템 및 방법
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
WO2019032996A1 (en) * 2017-08-10 2019-02-14 Facet Labs, Llc ORAL COMMUNICATION DEVICE AND COMPUTER ARCHITECTURE FOR PROCESSING DATA AND DELIVERING USER FEEDBACK OUTPUT, AND ASSOCIATED METHODS
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10504513B1 (en) 2017-09-26 2019-12-10 Amazon Technologies, Inc. Natural language understanding with affiliated devices
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US11360736B1 (en) * 2017-11-03 2022-06-14 Amazon Technologies, Inc. System command processing
EP3483748A1 (en) * 2017-11-14 2019-05-15 Atos Information Technology GmbH Assistant bot for controlling a domain specific target system
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10579739B2 (en) * 2018-01-23 2020-03-03 Wipro Limited Method and system for identifying places of interest in a natural language input
US10991369B1 (en) * 2018-01-31 2021-04-27 Progress Software Corporation Cognitive flow
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
CN108877811B (zh) * 2018-04-24 2022-05-06 中国地质大学(武汉) 一种基于声纹选择词汇的方法、设备及存储设备
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10559308B2 (en) * 2018-06-18 2020-02-11 Sas Institute Inc. System for determining user intent from text
US10803251B2 (en) * 2018-06-30 2020-10-13 Wipro Limited Method and device for extracting action of interest from natural language sentences
US10803253B2 (en) * 2018-06-30 2020-10-13 Wipro Limited Method and device for extracting point of interest from natural language sentences
US10803252B2 (en) * 2018-06-30 2020-10-13 Wipro Limited Method and device for extracting attributes associated with centre of interest from natural language sentences
JP7068962B2 (ja) * 2018-08-13 2022-05-17 株式会社日立製作所 対話方法、対話システム及びプログラム
TWI683226B (zh) * 2018-08-28 2020-01-21 宏碁股份有限公司 多媒體處理電路及電子系統
US10971132B2 (en) 2018-08-28 2021-04-06 Acer Incorporated Multimedia processing method and electronic system
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11238750B2 (en) * 2018-10-23 2022-02-01 International Business Machines Corporation Evaluation of tutoring content for conversational tutor
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
KR20200085143A (ko) * 2019-01-04 2020-07-14 삼성전자주식회사 외부 장치를 등록하는 대화형 제어 시스템 및 방법
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN111723566B (zh) * 2019-03-21 2024-01-23 阿里巴巴集团控股有限公司 产品信息的重构方法和装置
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
JP2022531645A (ja) * 2019-05-09 2022-07-08 エスアールアイ インターナショナル 人間会話キューを理解および生成する方法、システム、および装置
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US10868778B1 (en) * 2019-05-30 2020-12-15 Microsoft Technology Licensing, Llc Contextual feedback, with expiration indicator, to a natural understanding system in a chat bot
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110223679A (zh) * 2019-06-14 2019-09-10 南京机电职业技术学院 一种语音识别输入装置
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
DE102019127075A1 (de) * 2019-10-09 2021-04-15 Bayerische Motoren Werke Aktiengesellschaft Computerimplementiertes verfahren und datenverarbeitungssystem für einen intelligenten persönlichen assistenten sowie computerimplementiertes verfahren und datenverarbeitungssystem zum erstellen eines dendrogramms
CN110782871B (zh) 2019-10-30 2020-10-30 百度在线网络技术(北京)有限公司 一种韵律停顿预测方法、装置以及电子设备
US11416556B2 (en) * 2019-12-19 2022-08-16 Accenture Global Solutions Limited Natural language dialogue system perturbation testing
CN113050787B (zh) * 2019-12-26 2022-08-05 上海智臻智能网络科技股份有限公司 一种人机对话模型的训练方法及人机对话方法
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11829720B2 (en) 2020-09-01 2023-11-28 Apple Inc. Analysis and validation of language models
GB2601542B (en) * 2020-12-04 2023-07-19 Rolls Royce Plc System for reply generation
US12021806B1 (en) 2021-09-21 2024-06-25 Apple Inc. Intelligent message delivery
CN114898751B (zh) * 2022-06-15 2024-04-23 中国电信股份有限公司 自动化配置方法及系统、存储介质和电子设备

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4706212A (en) * 1971-08-31 1987-11-10 Toma Peter P Method using a programmed digital computer system for translation between natural languages
US5267323A (en) 1989-12-29 1993-11-30 Pioneer Electronic Corporation Voice-operated remote control system
US5887120A (en) * 1995-05-31 1999-03-23 Oracle Corporation Method and apparatus for determining theme for discourse
ZA965340B (en) * 1995-06-30 1997-01-27 Interdigital Tech Corp Code division multiple access (cdma) communication system
US6292767B1 (en) 1995-07-18 2001-09-18 Nuance Communications Method and system for building and running natural language understanding systems
US5828710A (en) * 1995-12-11 1998-10-27 Delco Electronics Corporation AFC frequency synchronization network
US6505057B1 (en) * 1998-01-23 2003-01-07 Digisonix Llc Integrated vehicle voice enhancement system and hands-free cellular telephone system
US6292718B2 (en) * 1999-01-28 2001-09-18 International Business Machines Corp. Electronic control system
WO2000062193A1 (en) * 1999-04-08 2000-10-19 Kent Ridge Digital Labs System for chinese tokenization and named entity recognition
US6553345B1 (en) 1999-08-26 2003-04-22 Matsushita Electric Industrial Co., Ltd. Universal remote control allowing natural language modality for television and multimedia searches and requests
JP3994368B2 (ja) * 2000-01-25 2007-10-17 ソニー株式会社 情報処理装置および情報処理方法、並びに記録媒体
JP2001306199A (ja) * 2000-04-17 2001-11-02 Sharp Corp ネットワーク機器制御装置
EP1162803A1 (en) * 2000-06-05 2001-12-12 Telefonaktiebolaget L M Ericsson (Publ) Frequency tracking device and method for a receiver of a multi-carrier communication system
US7346490B2 (en) * 2000-09-29 2008-03-18 Axonwave Software Inc. Method and system for describing and identifying concepts in natural language text for information retrieval and processing
US7023928B2 (en) * 2001-08-06 2006-04-04 Lucent Technologies Inc. Synchronization of a pilot assisted channel estimation orthogonal frequency division multiplexing system
US20030061029A1 (en) 2001-08-29 2003-03-27 Efraim Shaket Device for conducting expectation based mixed initiative natural language dialogs
US7103116B2 (en) * 2001-09-24 2006-09-05 Atheros Communications, Inc. Detection of a false detection of a communication packet
US7403890B2 (en) * 2002-05-13 2008-07-22 Roushar Joseph C Multi-dimensional method and apparatus for automated language interpretation
US8931010B2 (en) * 2002-11-04 2015-01-06 Rovi Solutions Corporation Methods and apparatus for client aggregation of media in a networked media system
JP2004198597A (ja) * 2002-12-17 2004-07-15 Advanced Telecommunication Research Institute International 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体
US7324927B2 (en) 2003-07-03 2008-01-29 Robert Bosch Gmbh Fast feature selection method and system for maximum entropy modeling
US7865356B2 (en) 2004-07-15 2011-01-04 Robert Bosch Gmbh Method and apparatus for providing proper or partial proper name recognition
US7424363B2 (en) 2004-08-20 2008-09-09 Robert Bosch Corporation Method and system for adaptive navigation using a driver's route knowledge

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device

Also Published As

Publication number Publication date
CN101189659A (zh) 2008-05-28
EP1794747A1 (en) 2007-06-13
CN102298928B (zh) 2015-07-01
WO2006036328A1 (en) 2006-04-06
JP2008514983A (ja) 2008-05-08
CN101189659B (zh) 2011-11-16
CN102298928A (zh) 2011-12-28
EP1794747B1 (en) 2019-07-10
US20060074670A1 (en) 2006-04-06
US7716056B2 (en) 2010-05-11
EP2296141A1 (en) 2011-03-16

Similar Documents

Publication Publication Date Title
JP5142720B2 (ja) デバイスの認知的に過負荷なユーザのインタラクティブ会話型対話
CN111033492B (zh) 为自动化助手提供命令束建议
US11016968B1 (en) Mutation architecture for contextual data aggregator
AU2022221524B2 (en) Tailoring an interactive dialog application based on creator provided content
US7627466B2 (en) Natural language interface for driving adaptive scenarios
US9201923B2 (en) Method and apparatus for organizing and optimizing content in dialog systems
US20080059195A1 (en) Automatic pruning of grammars in a multi-application speech recognition interface
US20020077823A1 (en) Software development systems and methods
KR20030078388A (ko) 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법
CN111324626B (zh) 基于语音识别的搜索方法、装置、计算机设备及存储介质
Ion et al. A dialog manager for micro-worlds
JP2007065029A (ja) 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム
Dahl Natural language processing: past, present and future
Potamianos et al. Design principles and tools for multimodal dialog systems
Kawahara New perspectives on spoken language understanding: Does machine need to fully understand speech?
Flippo A natural human-computer interface for controlling wheeled robotic vehicles
JP4056298B2 (ja) 言語コンピュータ、言語処理方法、ならびに、プログラム
Cavedon et al. Developing a conversational in-car dialog system
Pan et al. Type-II dialogue systems for information access from unstructured knowledge sources
Raghunathan et al. A Conversational Dialogue System for Cognitively Overloaded Users
Bernsen et al. Building Usable Spoken Dialogue Systems. Some Approaches
CN112102820A (zh) 交互方法、交互装置、电子设备和介质
White et al. Honda Next Generation Speech User Interface
Normand et al. of Deliverable: Multimodal interaction techniques
Tomko Improving User Interaction with Spoken Dialog Systems Through Shaping and Adaptivity

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101216

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110315

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110316

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110323

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110704

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110912

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110926

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111026

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120405

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121102

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121120

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5142720

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250