JP2008529101A - 移動通信装置の音声語彙を自動的に拡張するための方法及び装置 - Google Patents

移動通信装置の音声語彙を自動的に拡張するための方法及び装置 Download PDF

Info

Publication number
JP2008529101A
JP2008529101A JP2007554247A JP2007554247A JP2008529101A JP 2008529101 A JP2008529101 A JP 2008529101A JP 2007554247 A JP2007554247 A JP 2007554247A JP 2007554247 A JP2007554247 A JP 2007554247A JP 2008529101 A JP2008529101 A JP 2008529101A
Authority
JP
Japan
Prior art keywords
words
glossary
speech recognition
recognition device
mobile device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007554247A
Other languages
English (en)
Inventor
エル. ロス、ダニエル
コーエン、ジョーダン
ピー. ベーラキス、エラス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Voice Signal Technologies Inc
Original Assignee
Voice Signal Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Voice Signal Technologies Inc filed Critical Voice Signal Technologies Inc
Publication of JP2008529101A publication Critical patent/JP2008529101A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

音声認識装置の性能を改善する方法。本方法は、音声認識装置用の用語集を提供すること、ネットワークを用いたユーザの対話を監視すること、監視された対話に関連する複数の語にアクセスすること、それら複数の語を用語集に含ませることを含む。

Description

本発明は、音声認識機能を有する移動通信装置に関する。
最近の移動通信装置(MCD)は、従来の単一用途移動音声電話より多くの機能を提供する。これらの装置には、住所録、カレンダ、ウェブブラウザ、デジタル音楽プレーヤ、電子メーラー、テキストメッセージャ、ワードプロセッサ、カメラ、及び他のアプリケーションを含み得る。ユーザ専用のテキストデータ集は、通常、これら各アプリケーションに関連付けられる。例えば、住所録は、通常、ユーザの連絡先の固有名を含み、また、デジタル音楽プレーヤは、アーティスト名及び曲名等、ユーザの音楽集の音楽記述子を含む。移動通信装置に常駐するアプリケーションの数が増えるにつれて、これらのテキストデータ集が表し得るユーザの一連の個人的情報の規模が一層増大する。
音声認識能力は、装置の指令制御のため、及び、1つ又は複数のアプリケーション用の入力形態として、これらの装置に含まれるという場合が多い。近年、ある移動装置では、大規模語彙(約30,000語)話者独立音声認識装置を含み、ユーザは、音声からテキストへのメッセージ伝達を実施できる。しかしながら、そのような音声認識装置の語彙は予め決められており、移動装置に常駐し得るユーザの個人的情報集を有効利用しない。
概して一態様において、本発明は、音声認識装置の性能を改善する方法を特徴とする。本方法は、音声認識装置用の用語集を提供すること、ネットワークを用いたユーザの対話を監視すること、監視された対話に関連する複数の語にアクセスすること、複数の語の少なくとも1つに基づいて用語集を修正して音声認識装置の性能を改善する段階と、が含まれる。
他の態様は、以下の特徴の1つ又は複数を含む。音声認識装置は、移動装置上で動作する。複数の語にアクセスすることは、サーバから移動装置に複数の語をダウンロードすることを含む。音声認識装置は、ネットワークに接続された装置上に置かれる。ネットワークは、インターネット等のデータネットワーク又は電話ネットワークである。ネットワークがインターネットである場合、ネットワークを用いたユーザの対話を監視することは、ウェブブラウザを用いたユーザの対話を監視すること、該ウェブブラウザを用いたユーザの対話に関連付けられた複数の語にアクセスすること、を含む。アクセスされた複数の語は、問い合わせ、検索結果、及びウェブブラウザを用いたユーザの対話の結果としてアクセスされたウェブページのうちの少なくとも1つから得られる。ユーザが電話ネットワークを用いて対話する場合、装置は、電話ネットワークを介した1人又は複数の他の当事者とのユーザの音声通信を監視して、電話ネットワークを介した1人又は複数の他の当事者とのユーザの音声通信に関連付けられた複数の語にアクセスする。複数の語は、動的にアクセスされるか、ユーザからの入力の受信時にアクセスされるか、定期的な間隔でアクセスされるか、又はイベントの発生時にアクセスされる。装置は、監視された対話においてアクセスされた複数の語の発生頻度に基づくように音声認識装置を傾向付ける。更に監視することは、複数の語の各々の分類を記録すること、複数の語の各々の分類に基づくように音声認識装置を傾向付けること、を含む。更に監視することは、複数の語の各々の使用文脈を記録すること、複数の語の各々に関連する使用文脈に基づくように音声認識装置を傾向付けること、を含む。
概して他の態様において、本発明は、移動装置で実現される方法を特徴とする。本方法は、音声認識装置用の用語集を提供すること、ネットワークを用いたユーザの対話を監視すること、監視された対話に関連する複数の語を取り込むこと、取り込まれた複数の語を用語集に追加すること、を含む。
他の態様は、以下の特徴の1つ又は複数を含む。ネットワークを用いたユーザの対話を監視することは、ウェブブラウザを用いたユーザの対話を監視すること、ウェブブラウザを用いたユーザの対話に関連付けられた複数の語を取り込むこと、を含む。
概して更に他の態様において、本発明は、音声認識装置を有する移動装置上の音声語彙を拡張する方法を特徴とする。本方法は、移動装置に音声認識装置用の用語集を記憶すること、移動装置に複数の語を記憶することであって、当該複数の語は移動装置に常駐するウェッブブラウザを用いた移動装置ユーザの対話に関連付けられること、複数の語を用語集にインポートすること、を含む。他の態様において、複数の語は、移動装置ユーザによってブラウザに入力された検索語、及びその検索語を用いて行われた検索によって返された結果に含まれる語、を含む。
概して更に他の態様において、本発明は、音声認識装置を有する移動装置上の音声語彙を拡張する方法を特徴とする。本方法は、第1の複数の語を含む音声認識装置用の用語集を移動装置に記憶すること、音声認識装置以外のアプリケーションに関連付けられた第2の複数の語を移動装置に記憶するとともに、第2の複数の語の各々に対してその語に関連する使用文脈を記憶すること、第2の複数の語及びそれらに関連する使用文脈を用語集にインポートすること、を含む。
他の態様は、以下の特徴の1つ又は複数を含む。第2の複数の語の少なくとも1つは、固有名の使用文脈に関連付けられている。音声認識装置は、音声認識装置によって認識される語の前記使用文脈に対応する使用文脈を有する前記用語集からの候補語を選択するように傾向付けられている。
概して追加の態様においては、本発明は、音声認識装置を有する移動装置上の音声語彙を拡張する方法を特徴とする。本方法は、複数の語を含む音声認識装置用の用語集を移動装置に記憶すること、第2の複数の語を移動装置に記憶することであって、当該第2の組のテキスト語は音声認識装置以外のアプリケーションに関連付けられていること、第2の複数の語の各々に対してその語の使用頻度を記録すること、記憶されたテキスト語の組から、第2の複数の語及びそれらに関連付けられた使用頻度を用語集にインポートすること、を含む。他の態様において、音声認識装置は、少なくとも部分的に、候補語の使用頻度に基づいて用語集から候補語を選択する。
音声認識機能を備えた多機能MCD100の選択された構成要素を図1に示す。本装置はアプリケーション102,104を含み、その各々により、本装置は、特定の機能、例えばテキストメッセージ伝達や電話帳の連絡先照合を実行し得る。テキスト集103,105は、各アプリケーションに関連付けられている。テキスト集は、テキストファイル等のような、それに関連するアプリケーションによるアクセスに適合する形態で記憶されるか、又はデータベースに記憶される。特定のアプリケーションは、動作時、それに関連するテキスト集内の語又は句を利用する。テキスト集は、通常、MCDの所有者にとって私的なテキストを含む。例えば、住所録に関連するテキスト集は、ユーザの連絡先名及び他の連絡先情報を含む。他の例を以下に示す。
更に、MCD100は、音声認識装置106を含む。音声認識装置106は、音声入力を受信し、音声対テキスト用語集108に記憶された登録項目に話し言葉を突き合わせることによって、それらの認識を試みる。用語集は一連の語を含み、各語は、テキスト表現並びに対応する発音を有する。話し言葉が認識されると、音声認識装置は、その入力を要求したアプリケーションに、認識された語を渡す。語は、アプリケーションに対する命令又はアプリケーション内における情報の入力項目を表し得る。
MCD100は、アプリケーション102,104にそれぞれ関連するテキスト集103,105から語をインポートすることによって動作する音声対テキスト用語集108のコンテンツを拡大するためのメカニズムを含む。これらの語は、一旦、用語集に組み込まれると、音声認識装置106の語彙を拡張する。追加された語彙は、ユーザが他のアプリケーションに関連して用いるために選択した語を含み、従って、ユーザの私的な言語空間の一部を形成することから、ユーザにとって特別な価値がある可能性がある。語彙拡張の恩恵により、ユーザがある語に関連する元のアプリケーションを使用しているか又はMCD上の他のいずれかのアプリケーションを用いているかにかかわらず、音声認識装置は、これらアプリケーションのいずれか1つに最初に関連付けられた語を認識し得る。更に、ユーザは、用語集に語を手動で入力又はダウンロードすることなく語彙拡張を得ることができる。
図2は、語彙拡張時のMCD100内における情報の流れを示す。矢印203,205によって図示するように、MCDは、テキスト集103,105を音声対テキスト用語集108にインポートする。図3は、このプロセスを更に示す。MCD100は、その常駐テキスト集を識別する(ステップ302)。MCD100は、製造業者供給アプリケーションを既に認識しており、各アプリケーションにより提供される、テキスト集を特定するポインタを用いる。MCD100は、装置が出荷された後で、ダウンロードされたアプリケーションを認識する。製造業者供給アプリケーションと同様に、ダウンロードされた各アプリケーションは、その関連するテキスト集へのポインタを有する。ステップ304において、MCD100は、どのテキスト集を音声対テキスト用語集へのテキストのインポートに用いるべきか決定する。なお、本ユニットは、自動及び手動の2つのモードを有する。自動モードでは、ユーザは、指定されたテキスト集だけを参照するように装置を設定する。また、ユーザは、どのような頻度でユニットが拡張動作を実施するかを指定する。例えば、ユーザは、テキスト集103だけを参照するように装置を設定したり、ユーザがテキスト集に1つ又は複数の語を追加した時だけテキスト集103を参照するように装置を設定したりする。他の選択肢として、ユーザは、日毎又は週毎等、拡張を実施するための具体的な時間間隔を設定し得る。手動モードでは、ユーザは、各語彙拡張動作を要求し、どのテキスト集を用いるかを選択する。ステップ306において、システムは、ステップ304で各々選択されたテキスト集からどのテキストをインポートするかを選択する。ステップ304に関して、装置は、自動及び手動モードを有する。自動モードでは、ユーザは、インポートする語を選択するための規則を指定する。例えば、ユーザは、システムが固有名だけをインポートするように指定する。手動モードでは、装置は、用語集に追加するための候補である各語を選択又は拒否するようにユーザを促す。自動及び手動モードの双方において、ユニットは、各選択された語を、内部に搭載するルックアップ機能を用いてチェックして、それが既に用語集に存在するかどうかを判断する。ユニットは、その語を見つけると、その語を無視する。ユニットは、その語がない場合、インポートされる語のリストにその語を追加する。システムは、ローカルデータ構造を維持して、既に用語集にある語、又は他の何らかの理由で、拡張処理が拒否された語を常時監視する。これによって、システムは、後続の語彙拡張動作時に、不要な語を飛ばして進むことが可能になり、テキスト選択が更に効率的になる。
1つ又は複数の語が用語集へのインポートのために選択された場合、装置は各語の発音を生成し、それらを音声表現として記憶する(ステップ308)。テキスト語からの発音の生成は当該分野で公知である。装置は、選択されたテキスト語を、それらの発音とともに用語集に追加する(ステップ310)。単純明快な規則が発音を支配する言語の場合、音声認識装置は、テキストから発音を生成するためのアルゴリズムを含んでおり、用語集は発音の完全なリストを記憶せず、むしろシステムは必要に応じてその時々で発音を生成する。
認識装置は、音声入力を用語集の語の音表現に突き合わせることによって、音声の認識を試みる。従って、ユニットが音声を認識し得る前に、認識装置は用語集の語の音表現を必要とする。認識装置は、発音を音表現に変換する音モデルによって、要求された音表現を得る。
用語集にテキスト及び発音を追加することに加えて、システムは、音声認識装置の速さ及び/又は精度を改善する他のアクションを実施し得る(ステップ312)。例えば、音声ツリーが音声認識装置の検索を切り詰めるために用いられている場合、システムは、新たにインポートされた発音をツリーに追加する。意味情報がその語に利用可能であり、また、音声認識装置が意味情報を用い得る場合、システムは、音声認識装置の速さ及び精度を改善するために、その情報を認識装置に追加する。
例えばクラス言語モデルにおいて、認識装置は、音声入力語がどのクラスに属するかを文脈を用いて予測し、その用語集検索をその分類(class )のメンバに有利なように傾向付ける。例えば電子メールアプリケーションのアドレスフィールドに入力する場合、電子メールアドレスは名前よりも見込みがあり、他方、ニックネームは語“親愛なる”に続く文書において予想し得る。確率モデルでは、認識装置は、句又は文中の語がその句又は文の直前にある1つ又は複数の語の分類に基づき特定の分類に属する確率を記憶する。次に、認識装置は、先行する語の分類に基づき、予想された分類に属する語に対するその検索を優先する。従って、クラス言語モデルが音声認識装置に用いられている場合、インポートされた語の分類は認識装置にインポートされる。分類の例は、固有名、ニックネーム、及び電子メールアドレスである。インポートされたテキスト語のインポート元はその分類を示し得る。例えば、装置の住所録の“名字”フィールドからインポートされた語は、おそらく固有名の分類に属し、他方、電子メーラー中の“電子メールアドレス”フィールドからの語は、おそらく電子メールアドレスの分類に属する。
また、本アルゴリズムは、用語集語彙を拡張してMCD上の1つ又は複数のアプリケーションによって認識された命令を含み得る。テキスト集のように、アルゴリズムは、各アプリケーション内におけるポインタを介してこれらの命令を特定する。そのような命令は、通常、テキストファイル等のデータ構造に記憶される。場合によっては、システムは、アプリケーションコード内における非暗号化テキスト文字列を検索することによって命令を識別する。命令は、移動体ネットワークプロバイダによって提供される特別な機能を表す電気通信事業者専用の追加事項を含む場合もある。システムは、標準命令を特定するのと同様に、これらを特定する。
ある装置では、音声対テキスト用語集は、大規模語彙認識装置をサポートし、用語集は3万もの数の語を有する。初期状態での用語集の語彙は、装置製造業者によって選択され、通常、特定のユーザに特有の語彙を含まない。そのようなシステムが、標準の話し言葉の語彙を認識する可能性が充分にあったとしても、用語集は、ユーザのテキスト集103,105の一部又は全てを含まない。従って、上述の語彙拡張は、大規模語彙音声認識装置を備えた装置においてさえ、音声認識機能をカスタマイズし、強化するように機能する。
図1は、2つのアプリケーションを示すが、充分なメモリ及び演算能力があれば、任意の数のアプリケーションが各々のテキスト集を備えてMCDに存在し得る。MCDアプリケーションを用いる場合、通常、これらのテキスト集には、ユーザが入力する個人的情報が含まれる。それらには更に、アプリケーションに関連して、ユーザによってダウンロードされる単語リストが含まれる。ユーザは、これらを、標準の携帯電話インターフェイスを用いた無線か、ウェブを介してか、ブルートゥース又はWi−Fi等の短距離無線システムを介してか、又は外部演算装置へのケーブル接続によって、装置にインポートする。そのようなデータは、スペルチェック、テキスト入力時の語の自動完成、及び他の目的に用い得るトピック専用の用語集であってよい。トピックは、職業上の又は私的な関心事に関係し得る。例えば、医師は一連の医学用語をダウンロードし得る。スポーツファンは、好みのチームに関する一連の語を有し得る。
MCDは、各々が自分自身のテキスト集を有する複数のユーザを有し得る。各ユーザは語彙拡張プロセスを独立に実施する。図4は、2人のユーザA,Bに適するシステム400を示す。用語集402は、汎用構成要素404及びユーザ専用拡張部406,408に細分化される。ユーザAは、アプリケーション102,104にそれぞれ関連するテキスト集410,412を有する。矢印414,416で示すように、ユーザAは、ユーザAに関連付けられたユーザ専用用語集拡張部406にユーザAのテキスト集から語をインポートすることによって語彙を拡張する。同様に、矢印422,424で示すように、ユーザBは、ユーザBのテキスト集418,420からユーザBの用語集拡張部408にインポートすることによって用語集を拡張する。後続の音声認識中、音声認識装置106は、ユーザAが装置を用いている場合には拡張部406で汎用用語集404を拡張し、また、ユーザBがユーザである場合には拡張部408で拡張する。この構成により、ユーザA,Bの両者は個別の語彙拡張から恩典を受けることが可能になる。2ユーザシステムについて上述したが、装置は、装置の処理及び記憶容量の限度内において個々のテキスト集及びそれらの関連語彙拡張部で任意の数のユーザをサポートし得る。
関連するテキスト集を有するアプリケーションの例には以下のものが含まれる。即ち、関連する固有名、ニックネーム、職場、アドレス、電子メールアドレス、及び他の連絡先情報を備えた住所録;関連する人や場所の名前、及び他のカレンダ入力情報を備えたカレンダ;関連する好みのウェブアドレスのリスト、標準ウェブサイト、ユーザが訪れたサイト、ユーザが入力した検索語、及びウェブ検索結果を備えたウェブブラウザ;関連する音楽ジャンル、曲名、アーティスト名、アルバム名、及び他の音楽関連情報を備えたデジタル音楽プレーヤ;関連する電子メールアドレス、受信済み、送信済み、及び下書き電子メール文書、並びに電子メール添付ファイルを備えた電子メーラー;関連する送信済み及び受信済みテキストメッセージ文書を備えたテキストメッセージャ;関連する送信済み及び受信済みテキスト、並びに画面名を備えたインスタンメッセージャ;ワードプロセッサによって生成又は編集された関連する文書を備えたワードプロセッサ;画像キャプションを備えたカメラ;関連するタイトル及びコメントを備えたビデオクリッププレーヤ;町、通り、山、川、及び湖の名前等の地理的名称が含まれる関連するマップを備えた地理特定アプリケーションが含まれる。更にテキスト集は、移動装置によって送受信された音声通信の監視から引き出された情報及び語を含む。MCDが、音声ダイヤル装置又は他の特定のアプリケーションに関連するより単純な他の音声認識装置を有する場合、より単純な認識装置の用語集の語も、大規模語彙用語集にインポートし得る。
上記手法は、図5に示すように、無線又は有線接続のいずれかによってネットワークに接続される非移動装置並びに移動装置に適用される。同図は、有線又は無線ネットワーク接続504を介してネットワーク502に接続された通信装置500を示す。ネットワーク502は、電話ネットワーク、又はインターネット等のデータネットワークであってよい。通信装置500は、移動通信装置100に関連して上述したように、用語集108及び音声認識装置106を含むソフトウェアモジュール506を含む。
上述した手法は、用語集に追加される語が移動装置にはまだ記憶されていないが、その語がネットワークを用いたユーザの対話から取り込まれる場合にも用い得る。この場合、ソフトウェアモジュール506は、ネットワーク502を用いたユーザの対話を監視するための命令を含む。ネットワーク502がインターネットである場合、モジュール506は、ユーザによって送信又は受信されるテキストを監視する。通常の状況では、ユーザはウェブブラウザを用いてインターネットで対話し、モジュール506は、ユーザの検索語、検索結果、及びその検索の結果アクセスされたウェブページを監視する。
ネットワーク502は、従来の電話ネットワーク、デジタル音声ネットワーク、又は2G/3G無線接続ネットワーク等、音声を搬送するネットワークであってよい。この場合、用語集に追加される語は、装置へ及び装置から電話ネットワーク上で搬送される発話内に含まれる。通常、発話は、移動装置上又はネットワークに接続された他の装置上に配置されたメモリにバッファ処理される。装置上でローカルに動作する、又はネットワークに接続された他の装置上で動作する音声認識装置は、記憶された音声を監視し、特定の語を識別する。モジュール506は、認識された語を、自動的に又はユーザがそれらを調べて誤認識された語を選別した後、用語集に追加する。
ソフトウェアモジュール506は、監視されたネットワーク対話からの語にアクセスしてそれを取り込み、いくつか又は全ての語を用語集108に追加する。このプロセスは、ユーザのネットワーク対話の間、ソフトウェアモジュール506が連続的に更新するように動的に生じる。他の応用例では、ソフトウェアモジュール506は、定期的な間隔で、又はユーザから命令を受信した時に、語にアクセスする。更に他の応用例では、ユーザのネットワーク対話の終了又は通信装置の電源断等のイベント発生時に、語がアクセスされる。
上述した語彙拡張プロセスは、数多くの方法で変更し得る。例えば、装置は、図3に示すステップの1つ又は複数を省略したり、又はステップを異なる順番で実施したりすることができる。1つの変形例では、規則を用いて発音がテキストから容易に引き出される言語の場合について上述したように、システムは、ステップ308を省略し、発音を生成しない。
移動通信装置を実装し得る代表的なプラットホームを、上位ブロック図600として図6に示す。本装置は、その中核に、例えば、音声帯域及びチャネル符号化機能を含むセル方式通信機能を取り扱うための基底帯域デジタル信号プロセッサ(DSP)602と、Microsoft PocketPC(商標)等のオペレーティング・システムが動作するIntel StrongArm(商標) SA−1110等のアプリケーションプロセッサ604と、を含む。電話は、GSM音声通話、SMS(短メッセージ伝達サービス)テキストメッセージ伝達、インスタントメッセージ伝達、無線電子メール、住所録、カレンダ、及び警報クロック等の従来のPDA特徴に加えてデスクトップのようなウェブ閲覧をサポートする。また、プロセッサは、デジタル音楽プレーヤ、ワードプロセッサ、デジタルカメラ、及びGPS等の地理特定アプリケーション、等の追加のアプリケーションを動作させることができる。
送信及び受信機能は、RF合成器606、RF無線送受信機608、及びアンテナ612を介して最終段RF送信動作を取り扱う後続の電力増幅モジュール610によって実現される。インターフェイスASIC614及び音声コーデック616は、スピーカ、マイクロホン、及び命令や情報を入力するために電話に設けられた数字又は英数字キーパッド(図示せず)等の他の入出力装置へのインターフェイスを提供する。DSP602はコード記憶にフラッシュメモリ618を用いる。Liイオン(リチウムイオン)バッテリ620は電話に電力を供給し、DSP602に結合された電力管理モジュール622は装置内の消費電力を管理する。装置は、特定の機能をサポートする追加のハードウェア構成要素(図示せず)を有する。例えば、画像プロセッサ及びCCDセンサは、デジタルカメラをサポートし、GPS受信機は、地理特定アプリケーションをサポートする。
アプリケーションプロセッサ614用の揮発性及び不揮発性メモリは、それぞれ、SDRAM624及びフラッシュメモリ626の形態で提供される。この構成のメモリを用いて、オペレーティング・システム用のコード、装置を動作するため及びその種々の機能をサポートするための全ての適切なコード、更には、上述した音声認識システム用及び装置に含まれる任意のアプリケーションソフトウェア用のコードを保持し得る。また、メモリは、用語集、並びにアプリケーションに関連するテキスト集を記憶する。
本装置用の視覚表示装置には、LCD表示装置630を駆動するLCDドライバチップ628が含まれる。また、電話内の他の装置にクロック信号を提供し、リアルタイムの標識を提供するクロックモジュール632がある。上述した全ての構成要素は、適切に設計されたハウジング634内にパッケージ化される。
上述した装置は、多数の種々市販されている装置の一般的な内部構造を表す。それらの装置の内部回路設計は、当業者には広く知られている。従って、図6に示す構成要素及びそれらの動作に関する更なる詳細は呈示しておらず、また、本発明を理解する上で必要ではない。
上述した実施形態は、本発明の原理を適用し得る多種多様な実施形態に鑑みて例示したものであり、本発明の範囲を限定するものと解釈すべきでないことを理解し得る。例えばフロー図のステップは記述したもの以外の順番で実施してよく、また、図中に用いる要素は、より多くても少なくてもよい。また、実施形態の種々の要素についてソフトウェアで実現されるものとして述べたが、ハードウェア又はファームウェア実装における他の実施形態を他の選択肢として用いてもよく、逆の場合も同様である。他の実施形態は、添付の特許請求の範囲内に含まれる。
音声認識機能を有する移動通信装置のブロック図。 音声語彙が拡張される場合の情報の流れを示す移動通信装置のブロック図。 音声認識語彙拡張プロセスのステップを示すフロー図。 音声語彙が拡張される場合の情報の流れを示すマルチユーザ移動通信装置のブロック図。 ネットワークに接続された通信装置のブロック図。 音声認識機能を備えた移動通信装置用のハードウェアプラットホームを示す上位ブロック図。

Claims (25)

  1. 音声認識装置の性能を改善する方法であって、
    前記音声認識装置用の用語集を提供すること、
    ネットワークを用いたユーザの対話を監視すること、
    前記監視された対話に関連する複数の語にアクセスすること、
    前記複数の語の少なくとも1つに基づき前記用語集を修正して前記音声認識装置の性能を改善すること、
    を備える方法。
  2. 請求項1に記載の方法において、
    前記音声認識装置は移動装置上に存在する、方法。
  3. 請求項2に記載の方法において、
    前記アクセスすることは、サーバから前記移動装置に前記複数の語をダウンロードすることを含む、方法。
  4. 請求項1に記載の方法において、
    前記音声認識装置はネットワークに接続された装置上に置かれている、方法。
  5. 請求項4に記載の方法において、
    前記ネットワークはインターネットである、方法。
  6. 請求項4に記載の方法において、
    前記ネットワークは電話ネットワークである、方法。
  7. 請求項1に記載の方法において、
    前記ネットワークを用いたユーザの対話を監視することは、ウェブブラウザを用いたユーザの対話を監視することを含み、前記アクセスされた複数の語は、前記ウェブブラウザを用いたユーザの対話に関連付けられる、方法。
  8. 請求項7に記載の方法において、
    前記複数の語は、問い合わせ、検索結果、及び、前記ウェブブラウザを用いたユーザの対話の結果としてアクセスされたウェブページのうちの少なくとも1つから取得される、方法。
  9. 請求項1に記載の方法において、
    前記ネットワークを用いたユーザの対話を監視することは、電話ネットワークを介した1人又は複数の他の当事者との前記ユーザの音声通信を監視することを含み、前記アクセスされた複数の語は、前記電話ネットワークを介した前記1人又は複数の他の当事者との前記ユーザの音声通信に関連付けられる、方法。
  10. 請求項1に記載の方法において、
    前記アクセスすることは、前記複数の語に動的にアクセスすることを含む、方法。
  11. 請求項1に記載の方法において、
    前記アクセスすることは、前記複数の語に定期的な間隔でアクセスすることを含む、方法。
  12. 請求項1に記載の方法において、
    前記アクセスすることは、前記ユーザからの入力の受信時に前記複数の語にアクセスすることを含む、方法。
  13. 請求項1に記載の方法において、
    前記アクセスすることは、イベントの発生時に前記複数の語にアクセスすることを含む、方法。
  14. 請求項1に記載の方法において、
    前記音声認識装置は、前記複数の語の中で前記監視された対話の語の発生頻度に基づくように傾向付けられている、方法。
  15. 請求項1に記載の方法において、
    前記監視することは更に、前記複数の語の各々の分類を記録することを含み、前記音声認識装置は、前記複数の語の各々の分類に基づくように傾向付けられている、方法。
  16. 請求項1に記載の方法において、
    前記監視することは更に、前記複数の語の各々の使用文脈を記録することを含み、前記音声認識装置は、前記複数の語の各々に関連する前記使用文脈に基づくように傾向付けられている、方法。
  17. 移動装置上で実現される方法であって、
    音声認識装置用の用語集を提供すること、
    ネットワークを用いたユーザの対話を監視すること、
    前記監視された対話に関連する複数の語を取り込むこと、
    前記取り込まれた複数の語を前記用語集に追加すること、
    を備える方法。
  18. 請求項17に記載の方法において、
    前記ネットワークを用いたユーザの対話を監視することは、ウェブブラウザを用いたユーザの対話を監視することを含み、前記取り込まれた複数の語は、前記ウェブブラウザを用いたユーザの対話に関連付けられる、方法。
  19. 音声認識装置を有する移動装置上の音声語彙を拡張する方法であって、
    前記移動装置に前記音声認識装置用の用語集を記憶すること、
    前記移動装置に複数の語を記憶することであって、前記複数の語は前記移動装置に常駐するウェブブラウザを用いた移動装置ユーザの対話に関連付けられている、前記移動装置に複数の語を記憶すること、
    前記複数の語を前記用語集にインポートすること、
    を備える方法。
  20. 請求項19に記載の方法において、
    前記複数の語は、前記移動体ユーザによって前記ブラウザに入力された検索語と、前記検索語を用いて行われた検索によって返された結果に含まれる語とを含む、方法。
  21. 音声認識装置を有する移動装置上の音声語彙を拡張する方法であって、
    第1の複数の語を含む前記音声認識装置用の用語集を前記移動装置に記憶すること、
    前記音声認識装置以外のアプリケーションに関連付けられた第2の複数の語を前記移動装置に記憶するとともに、前記第2の複数の語の各々に対してその語に関連する使用文脈を記憶すること、
    前記第2の複数の語及びそれらに関連する使用文脈を前記用語集にインポートすること、
    を備える方法。
  22. 請求項21に記載の方法において、
    前記第2の複数の語の少なくとも1つは固有名の使用文脈に関連付けられている、方法。
  23. 請求項21に記載の方法において、
    前記音声認識装置は、前記音声認識装置によって認識される語の前記使用文脈に対応する使用文脈を有する前記用語集からの候補語を選択するように傾向付けられている、方法。
  24. 音声認識装置を有する移動装置上の音声語彙を拡張する方法であって、
    複数の語を含む前記音声認識装置用の用語集を前記移動装置に記憶すること、
    第2の複数の語を前記移動装置に記憶することであって、当該第2の組によるテキスト語は前記音声認識装置以外のアプリケーションに関連付けられている、第2の複数の語を前記移動装置に記憶すること、
    前記第2の複数の語の各々に対してその語の使用頻度を記録すること、
    前記記憶されたテキスト語の組から前記用語集に前記第2の複数の語及びそれらに関連付けられた使用頻度をインポートすること、
    を備える方法。
  25. 請求項24に記載の方法において、
    前記音声認識装置は、少なくとも部分的に、候補語の使用頻度に基づいて前記用語集から候補語を選択する、方法。
JP2007554247A 2005-02-03 2006-02-03 移動通信装置の音声語彙を自動的に拡張するための方法及び装置 Pending JP2008529101A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US64980605P 2005-02-03 2005-02-03
PCT/US2006/003864 WO2006084144A2 (en) 2005-02-03 2006-02-03 Methods and apparatus for automatically extending the voice-recognizer vocabulary of mobile communications devices

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2012208205A Division JP2013047809A (ja) 2005-02-03 2012-09-21 移動通信装置の音声語彙を自動的に拡張するための方法及び装置

Publications (1)

Publication Number Publication Date
JP2008529101A true JP2008529101A (ja) 2008-07-31

Family

ID=36581544

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2007554247A Pending JP2008529101A (ja) 2005-02-03 2006-02-03 移動通信装置の音声語彙を自動的に拡張するための方法及び装置
JP2012208205A Pending JP2013047809A (ja) 2005-02-03 2012-09-21 移動通信装置の音声語彙を自動的に拡張するための方法及び装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2012208205A Pending JP2013047809A (ja) 2005-02-03 2012-09-21 移動通信装置の音声語彙を自動的に拡張するための方法及び装置

Country Status (6)

Country Link
US (1) US8160884B2 (ja)
EP (1) EP1844464B1 (ja)
JP (2) JP2008529101A (ja)
KR (1) KR101221172B1 (ja)
CN (1) CN101164102B (ja)
WO (1) WO2006084144A2 (ja)

Families Citing this family (142)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20080031475A1 (en) * 2006-07-08 2008-02-07 Personics Holdings Inc. Personal audio assistant device and method
US7689417B2 (en) * 2006-09-04 2010-03-30 Fortemedia, Inc. Method, system and apparatus for improved voice recognition
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080154608A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. On a mobile device tracking use of search results delivered to the mobile device
US20080154870A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Collection and use of side information in voice-mediated mobile search
US20080153465A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Voice search-enabled mobile device
US20080154612A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Local storage and use of search results for voice-enabled mobile communications devices
US8949130B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US20080221884A1 (en) 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8886540B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20080275701A1 (en) * 2007-04-25 2008-11-06 Xiaotao Wu System and method for retrieving data based on topics of conversation
CN101803353B (zh) * 2007-09-20 2013-12-25 西门子企业通讯有限责任两合公司 用于运行通信连接的方法和通信装置
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9202460B2 (en) 2008-05-14 2015-12-01 At&T Intellectual Property I, Lp Methods and apparatus to generate a speech recognition library
WO2009150591A1 (en) * 2008-06-11 2009-12-17 Koninklijke Philips Electronics N.V. Method and device for the generation of a topic-specific vocabulary and computer program product
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
KR100998566B1 (ko) * 2008-08-11 2010-12-07 엘지전자 주식회사 음성인식을 이용한 언어 번역 방법 및 장치
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
KR20110006004A (ko) * 2009-07-13 2011-01-20 삼성전자주식회사 결합인식단위 최적화 장치 및 그 방법
US20110035210A1 (en) * 2009-08-10 2011-02-10 Benjamin Rosenfeld Conditional random fields (crf)-based relation extraction system
US20130191857A1 (en) * 2009-10-02 2013-07-25 R. Edward Guinn Method and System for a Vote Based Media System
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20110231189A1 (en) * 2010-03-19 2011-09-22 Nuance Communications, Inc. Methods and apparatus for extracting alternate media titles to facilitate speech recognition
US20130332170A1 (en) * 2010-12-30 2013-12-12 Gal Melamed Method and system for processing content
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9785628B2 (en) * 2011-09-29 2017-10-10 Microsoft Technology Licensing, Llc System, method and computer-readable storage device for providing cloud-based shared vocabulary/typing history for efficient social communication
US9564131B2 (en) 2011-12-07 2017-02-07 Qualcomm Incorporated Low power integrated circuit to analyze a digitized audio stream
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) * 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9715879B2 (en) * 2012-07-02 2017-07-25 Salesforce.Com, Inc. Computer implemented methods and apparatus for selectively interacting with a server to build a local database for speech recognition at a device
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN102915730B (zh) * 2012-10-19 2015-04-08 东莞宇龙通信科技有限公司 语音处理方法及系统
US9058805B2 (en) * 2013-05-13 2015-06-16 Google Inc. Multiple recognizer speech recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
US9997160B2 (en) * 2013-07-01 2018-06-12 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for dynamic download of embedded voice components
US9786296B2 (en) * 2013-07-08 2017-10-10 Qualcomm Incorporated Method and apparatus for assigning keyword model to voice operated function
CN103825952B (zh) * 2014-03-04 2017-07-04 百度在线网络技术(北京)有限公司 细胞词库推送方法和服务器
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9773499B2 (en) * 2014-06-18 2017-09-26 Google Inc. Entity name recognition based on entity type
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
JP5692734B1 (ja) * 2014-09-08 2015-04-01 株式会社ゆうインタークロス 検索支援装置、検索支援システム、検索支援方法及びプログラム
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9696904B1 (en) * 2014-10-30 2017-07-04 Allscripts Software, Llc Facilitating text entry for mobile healthcare application
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
CN104538031B (zh) * 2014-12-15 2017-09-01 北京云知声信息技术有限公司 智能语音服务开发云平台及方法
US9922643B2 (en) * 2014-12-23 2018-03-20 Nice Ltd. User-aided adaptation of a phonetic dictionary
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10565981B2 (en) * 2017-09-26 2020-02-18 Microsoft Technology Licensing, Llc Computer-assisted conversation using addressible conversation segments
KR20190113693A (ko) * 2019-09-18 2019-10-08 엘지전자 주식회사 단어 사용 빈도를 고려하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
KR20210052958A (ko) * 2019-11-01 2021-05-11 엘지전자 주식회사 인공 지능 서버
US20210312901A1 (en) * 2020-04-02 2021-10-07 Soundhound, Inc. Automatic learning of entities, words, pronunciations, and parts of speech

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014693A (ja) * 2000-06-30 2002-01-18 Mitsubishi Electric Corp 音声認識システム用辞書提供方法、および音声認識インタフェース
JP2002091477A (ja) * 2000-09-14 2002-03-27 Mitsubishi Electric Corp 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002341892A (ja) * 2001-05-16 2002-11-29 Matsushita Electric Ind Co Ltd 音声認識装置
JP2003219038A (ja) * 2001-10-22 2003-07-31 Ntt Comware Corp 顧客情報と連携させたコールセンタシステム装置及び顧客情報と連携させたコール方法
JP2004219714A (ja) * 2003-01-15 2004-08-05 Will Being:Kk 人間からの指示に基づいてそれぞれ予め定めた特定のシーンに属する対話のシーンを識別し、シーンに即した自然対話を構成する応答文を作成して、それを音声合成することにより、音声対話を行うコンピュータによる音声対話方法及び音声対話システム
JP2005055606A (ja) * 2003-08-01 2005-03-03 Toyota Motor Corp サーバ、情報処理端末、音声認識システム

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5613036A (en) * 1992-12-31 1997-03-18 Apple Computer, Inc. Dynamic categories for a speech recognition system
US5819220A (en) 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web
US6167117A (en) 1996-10-07 2000-12-26 Nortel Networks Limited Voice-dialing system using model of calling behavior
US6154526A (en) 1996-12-04 2000-11-28 Intellivoice Communications, Inc. Data acquisition and error correcting speech recognition system
US6188985B1 (en) * 1997-01-06 2001-02-13 Texas Instruments Incorporated Wireless voice-activated device for control of a processor-based host system
JPH10198680A (ja) * 1997-01-07 1998-07-31 Hitachi Ltd 分散辞書管理方法及びそれを用いた機械翻訳方法
US6490557B1 (en) * 1998-03-05 2002-12-03 John C. Jeppesen Method and apparatus for training an ultra-large vocabulary, continuous speech, speaker independent, automatic speech recognition system and consequential database
US6195641B1 (en) 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
DE69937176T2 (de) * 1998-08-28 2008-07-10 International Business Machines Corp. Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
US6684185B1 (en) * 1998-09-04 2004-01-27 Matsushita Electric Industrial Co., Ltd. Small footprint language and vocabulary independent word recognizer using registration by word spelling
CN1126052C (zh) * 1998-09-29 2003-10-29 松下电器产业株式会社 采用多个文法网络的语音识别的方法
EP1055227B1 (en) * 1998-12-21 2004-09-01 Koninklijke Philips Electronics N.V. Language model based on the speech recognition history
US6463413B1 (en) * 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
US6640249B1 (en) * 1999-08-31 2003-10-28 Accenture Llp Presentation services patterns in a netcentric environment
JP4200607B2 (ja) * 1999-09-03 2008-12-24 ソニー株式会社 情報処理装置および方法、並びにプログラム格納媒体
JP2002175175A (ja) * 2000-12-07 2002-06-21 Sumitomo Electric Ind Ltd 音声駆動可能なユーザインターフェイス
JP2002183127A (ja) * 2000-12-18 2002-06-28 Sentan Kagaku Gijutsu Incubation Center:Kk ユーザ辞書生成登録システム、辞書サーバ、端末、ユーザ辞書生成方法、ユーザ辞書登録方法、ならびに、情報記録媒体
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
US6937986B2 (en) * 2000-12-28 2005-08-30 Comverse, Inc. Automatic dynamic speech recognition vocabulary based on external sources of information
US20020087315A1 (en) 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented multi-scanning language method and system
US7027987B1 (en) * 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US7216073B2 (en) * 2001-03-13 2007-05-08 Intelligate, Ltd. Dynamic natural language understanding
US20030078777A1 (en) 2001-08-22 2003-04-24 Shyue-Chin Shiau Speech recognition system for mobile Internet/Intranet communication
US20030191639A1 (en) 2002-04-05 2003-10-09 Sam Mazza Dynamic and adaptive selection of vocabulary and acoustic models based on a call context for speech recognition
US7668885B2 (en) * 2002-09-25 2010-02-23 MindAgent, LLC System for timely delivery of personalized aggregations of, including currently-generated, knowledge
US7584102B2 (en) * 2002-11-15 2009-09-01 Scansoft, Inc. Language model for use in speech recognition
US7603267B2 (en) * 2003-05-01 2009-10-13 Microsoft Corporation Rules-based grammar for slots and statistical model for preterminals in natural language understanding system
US7292978B2 (en) * 2003-12-04 2007-11-06 Toyota Infotechnology Center Co., Ltd. Shortcut names for use in a speech recognition system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014693A (ja) * 2000-06-30 2002-01-18 Mitsubishi Electric Corp 音声認識システム用辞書提供方法、および音声認識インタフェース
JP2002091477A (ja) * 2000-09-14 2002-03-27 Mitsubishi Electric Corp 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002341892A (ja) * 2001-05-16 2002-11-29 Matsushita Electric Ind Co Ltd 音声認識装置
JP2003219038A (ja) * 2001-10-22 2003-07-31 Ntt Comware Corp 顧客情報と連携させたコールセンタシステム装置及び顧客情報と連携させたコール方法
JP2004219714A (ja) * 2003-01-15 2004-08-05 Will Being:Kk 人間からの指示に基づいてそれぞれ予め定めた特定のシーンに属する対話のシーンを識別し、シーンに即した自然対話を構成する応答文を作成して、それを音声合成することにより、音声対話を行うコンピュータによる音声対話方法及び音声対話システム
JP2005055606A (ja) * 2003-08-01 2005-03-03 Toyota Motor Corp サーバ、情報処理端末、音声認識システム

Also Published As

Publication number Publication date
KR101221172B1 (ko) 2013-01-11
JP2013047809A (ja) 2013-03-07
CN101164102B (zh) 2012-06-20
WO2006084144A2 (en) 2006-08-10
US8160884B2 (en) 2012-04-17
US20060173683A1 (en) 2006-08-03
KR20070100837A (ko) 2007-10-11
EP1844464A2 (en) 2007-10-17
WO2006084144A3 (en) 2006-11-30
EP1844464B1 (en) 2013-06-26
CN101164102A (zh) 2008-04-16

Similar Documents

Publication Publication Date Title
JP2008529101A (ja) 移動通信装置の音声語彙を自動的に拡張するための方法及び装置
US7957972B2 (en) Voice recognition system and method thereof
US8290775B2 (en) Pronunciation correction of text-to-speech systems between different spoken languages
US7689417B2 (en) Method, system and apparatus for improved voice recognition
US20080130699A1 (en) Content selection using speech recognition
US20060143007A1 (en) User interaction with voice information services
US20080153465A1 (en) Voice search-enabled mobile device
US20020103644A1 (en) Speech auto-completion for portable devices
US20050149327A1 (en) Text messaging via phrase recognition
KR100339587B1 (ko) Mp3 플레이어 겸용 휴대폰에서 음성 인식에 의한 선곡방법
WO2008083173A2 (en) Local storage and use of search results for voice-enabled mobile communications devices
US20080154608A1 (en) On a mobile device tracking use of search results delivered to the mobile device
WO2008083171A2 (en) Collection and use of side information in a mobile communication device with voice-mediated search
KR100883105B1 (ko) 휴대단말기에서 음성인식을 이용한 다이얼링 방법 및 장치
EP1687961A2 (en) Installing language modules in a mobile communication device
US20070033036A1 (en) Automatic detection and research of novel words or phrases by a mobile terminal
KR100380829B1 (ko) 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 및방법과 그 프로그램 소스를 기록한 기록 매체
EP2130359A2 (en) Integrated voice search commands for mobile communications devices
JP2008139438A (ja) 音声処理装置、端末装置、音声情報管理装置、および、プログラム
KR100620001B1 (ko) 이동 통신 단말기에서 주소록 관리 장치 및 방법
JP2006339965A (ja) 携帯端末装置及び音声合成方法
JP2010211075A (ja) 携帯情報端末、情報処理方法及び情報処理プログラム
JP2004234095A (ja) 携帯端末装置及び情報検索提供方法
CN1726531A (zh) 用于生成语音的设备,可连接到或含有该设备的装置以及相关的计算机程序产品

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110712

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111007

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120522

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120921

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20120921

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20120921

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121002

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20121025

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20130111