JP2008529101A

JP2008529101A - 移動通信装置の音声語彙を自動的に拡張するための方法及び装置

Info

Publication number: JP2008529101A
Application number: JP2007554247A
Authority: JP
Inventors: エル．ロス、ダニエル; コーエン、ジョーダン; ピー．ベーラキス、エラス
Original assignee: Voice Signal Technologies Inc
Current assignee: Voice Signal Technologies Inc
Priority date: 2005-02-03
Filing date: 2006-02-03
Publication date: 2008-07-31
Also published as: KR101221172B1; JP2013047809A; CN101164102B; WO2006084144A2; US8160884B2; US20060173683A1; KR20070100837A; EP1844464A2; WO2006084144A3; EP1844464B1; CN101164102A

Abstract

音声認識装置の性能を改善する方法。本方法は、音声認識装置用の用語集を提供すること、ネットワークを用いたユーザの対話を監視すること、監視された対話に関連する複数の語にアクセスすること、それら複数の語を用語集に含ませることを含む。

Description

本発明は、音声認識機能を有する移動通信装置に関する。

最近の移動通信装置（ＭＣＤ）は、従来の単一用途移動音声電話より多くの機能を提供する。これらの装置には、住所録、カレンダ、ウェブブラウザ、デジタル音楽プレーヤ、電子メーラー、テキストメッセージャ、ワードプロセッサ、カメラ、及び他のアプリケーションを含み得る。ユーザ専用のテキストデータ集は、通常、これら各アプリケーションに関連付けられる。例えば、住所録は、通常、ユーザの連絡先の固有名を含み、また、デジタル音楽プレーヤは、アーティスト名及び曲名等、ユーザの音楽集の音楽記述子を含む。移動通信装置に常駐するアプリケーションの数が増えるにつれて、これらのテキストデータ集が表し得るユーザの一連の個人的情報の規模が一層増大する。

音声認識能力は、装置の指令制御のため、及び、１つ又は複数のアプリケーション用の入力形態として、これらの装置に含まれるという場合が多い。近年、ある移動装置では、大規模語彙（約３０，０００語）話者独立音声認識装置を含み、ユーザは、音声からテキストへのメッセージ伝達を実施できる。しかしながら、そのような音声認識装置の語彙は予め決められており、移動装置に常駐し得るユーザの個人的情報集を有効利用しない。

概して一態様において、本発明は、音声認識装置の性能を改善する方法を特徴とする。本方法は、音声認識装置用の用語集を提供すること、ネットワークを用いたユーザの対話を監視すること、監視された対話に関連する複数の語にアクセスすること、複数の語の少なくとも１つに基づいて用語集を修正して音声認識装置の性能を改善する段階と、が含まれる。

他の態様は、以下の特徴の１つ又は複数を含む。音声認識装置は、移動装置上で動作する。複数の語にアクセスすることは、サーバから移動装置に複数の語をダウンロードすることを含む。音声認識装置は、ネットワークに接続された装置上に置かれる。ネットワークは、インターネット等のデータネットワーク又は電話ネットワークである。ネットワークがインターネットである場合、ネットワークを用いたユーザの対話を監視することは、ウェブブラウザを用いたユーザの対話を監視すること、該ウェブブラウザを用いたユーザの対話に関連付けられた複数の語にアクセスすること、を含む。アクセスされた複数の語は、問い合わせ、検索結果、及びウェブブラウザを用いたユーザの対話の結果としてアクセスされたウェブページのうちの少なくとも１つから得られる。ユーザが電話ネットワークを用いて対話する場合、装置は、電話ネットワークを介した１人又は複数の他の当事者とのユーザの音声通信を監視して、電話ネットワークを介した１人又は複数の他の当事者とのユーザの音声通信に関連付けられた複数の語にアクセスする。複数の語は、動的にアクセスされるか、ユーザからの入力の受信時にアクセスされるか、定期的な間隔でアクセスされるか、又はイベントの発生時にアクセスされる。装置は、監視された対話においてアクセスされた複数の語の発生頻度に基づくように音声認識装置を傾向付ける。更に監視することは、複数の語の各々の分類を記録すること、複数の語の各々の分類に基づくように音声認識装置を傾向付けること、を含む。更に監視することは、複数の語の各々の使用文脈を記録すること、複数の語の各々に関連する使用文脈に基づくように音声認識装置を傾向付けること、を含む。

概して他の態様において、本発明は、移動装置で実現される方法を特徴とする。本方法は、音声認識装置用の用語集を提供すること、ネットワークを用いたユーザの対話を監視すること、監視された対話に関連する複数の語を取り込むこと、取り込まれた複数の語を用語集に追加すること、を含む。

他の態様は、以下の特徴の１つ又は複数を含む。ネットワークを用いたユーザの対話を監視することは、ウェブブラウザを用いたユーザの対話を監視すること、ウェブブラウザを用いたユーザの対話に関連付けられた複数の語を取り込むこと、を含む。

概して更に他の態様において、本発明は、音声認識装置を有する移動装置上の音声語彙を拡張する方法を特徴とする。本方法は、移動装置に音声認識装置用の用語集を記憶すること、移動装置に複数の語を記憶することであって、当該複数の語は移動装置に常駐するウェッブブラウザを用いた移動装置ユーザの対話に関連付けられること、複数の語を用語集にインポートすること、を含む。他の態様において、複数の語は、移動装置ユーザによってブラウザに入力された検索語、及びその検索語を用いて行われた検索によって返された結果に含まれる語、を含む。

概して更に他の態様において、本発明は、音声認識装置を有する移動装置上の音声語彙を拡張する方法を特徴とする。本方法は、第１の複数の語を含む音声認識装置用の用語集を移動装置に記憶すること、音声認識装置以外のアプリケーションに関連付けられた第２の複数の語を移動装置に記憶するとともに、第２の複数の語の各々に対してその語に関連する使用文脈を記憶すること、第２の複数の語及びそれらに関連する使用文脈を用語集にインポートすること、を含む。

他の態様は、以下の特徴の１つ又は複数を含む。第２の複数の語の少なくとも１つは、固有名の使用文脈に関連付けられている。音声認識装置は、音声認識装置によって認識される語の前記使用文脈に対応する使用文脈を有する前記用語集からの候補語を選択するように傾向付けられている。

概して追加の態様においては、本発明は、音声認識装置を有する移動装置上の音声語彙を拡張する方法を特徴とする。本方法は、複数の語を含む音声認識装置用の用語集を移動装置に記憶すること、第２の複数の語を移動装置に記憶することであって、当該第２の組のテキスト語は音声認識装置以外のアプリケーションに関連付けられていること、第２の複数の語の各々に対してその語の使用頻度を記録すること、記憶されたテキスト語の組から、第２の複数の語及びそれらに関連付けられた使用頻度を用語集にインポートすること、を含む。他の態様において、音声認識装置は、少なくとも部分的に、候補語の使用頻度に基づいて用語集から候補語を選択する。

音声認識機能を備えた多機能ＭＣＤ１００の選択された構成要素を図１に示す。本装置はアプリケーション１０２，１０４を含み、その各々により、本装置は、特定の機能、例えばテキストメッセージ伝達や電話帳の連絡先照合を実行し得る。テキスト集１０３，１０５は、各アプリケーションに関連付けられている。テキスト集は、テキストファイル等のような、それに関連するアプリケーションによるアクセスに適合する形態で記憶されるか、又はデータベースに記憶される。特定のアプリケーションは、動作時、それに関連するテキスト集内の語又は句を利用する。テキスト集は、通常、ＭＣＤの所有者にとって私的なテキストを含む。例えば、住所録に関連するテキスト集は、ユーザの連絡先名及び他の連絡先情報を含む。他の例を以下に示す。

更に、ＭＣＤ１００は、音声認識装置１０６を含む。音声認識装置１０６は、音声入力を受信し、音声対テキスト用語集１０８に記憶された登録項目に話し言葉を突き合わせることによって、それらの認識を試みる。用語集は一連の語を含み、各語は、テキスト表現並びに対応する発音を有する。話し言葉が認識されると、音声認識装置は、その入力を要求したアプリケーションに、認識された語を渡す。語は、アプリケーションに対する命令又はアプリケーション内における情報の入力項目を表し得る。

ＭＣＤ１００は、アプリケーション１０２，１０４にそれぞれ関連するテキスト集１０３，１０５から語をインポートすることによって動作する音声対テキスト用語集１０８のコンテンツを拡大するためのメカニズムを含む。これらの語は、一旦、用語集に組み込まれると、音声認識装置１０６の語彙を拡張する。追加された語彙は、ユーザが他のアプリケーションに関連して用いるために選択した語を含み、従って、ユーザの私的な言語空間の一部を形成することから、ユーザにとって特別な価値がある可能性がある。語彙拡張の恩恵により、ユーザがある語に関連する元のアプリケーションを使用しているか又はＭＣＤ上の他のいずれかのアプリケーションを用いているかにかかわらず、音声認識装置は、これらアプリケーションのいずれか１つに最初に関連付けられた語を認識し得る。更に、ユーザは、用語集に語を手動で入力又はダウンロードすることなく語彙拡張を得ることができる。

図２は、語彙拡張時のＭＣＤ１００内における情報の流れを示す。矢印２０３，２０５によって図示するように、ＭＣＤは、テキスト集１０３，１０５を音声対テキスト用語集１０８にインポートする。図３は、このプロセスを更に示す。ＭＣＤ１００は、その常駐テキスト集を識別する（ステップ３０２）。ＭＣＤ１００は、製造業者供給アプリケーションを既に認識しており、各アプリケーションにより提供される、テキスト集を特定するポインタを用いる。ＭＣＤ１００は、装置が出荷された後で、ダウンロードされたアプリケーションを認識する。製造業者供給アプリケーションと同様に、ダウンロードされた各アプリケーションは、その関連するテキスト集へのポインタを有する。ステップ３０４において、ＭＣＤ１００は、どのテキスト集を音声対テキスト用語集へのテキストのインポートに用いるべきか決定する。なお、本ユニットは、自動及び手動の２つのモードを有する。自動モードでは、ユーザは、指定されたテキスト集だけを参照するように装置を設定する。また、ユーザは、どのような頻度でユニットが拡張動作を実施するかを指定する。例えば、ユーザは、テキスト集１０３だけを参照するように装置を設定したり、ユーザがテキスト集に１つ又は複数の語を追加した時だけテキスト集１０３を参照するように装置を設定したりする。他の選択肢として、ユーザは、日毎又は週毎等、拡張を実施するための具体的な時間間隔を設定し得る。手動モードでは、ユーザは、各語彙拡張動作を要求し、どのテキスト集を用いるかを選択する。ステップ３０６において、システムは、ステップ３０４で各々選択されたテキスト集からどのテキストをインポートするかを選択する。ステップ３０４に関して、装置は、自動及び手動モードを有する。自動モードでは、ユーザは、インポートする語を選択するための規則を指定する。例えば、ユーザは、システムが固有名だけをインポートするように指定する。手動モードでは、装置は、用語集に追加するための候補である各語を選択又は拒否するようにユーザを促す。自動及び手動モードの双方において、ユニットは、各選択された語を、内部に搭載するルックアップ機能を用いてチェックして、それが既に用語集に存在するかどうかを判断する。ユニットは、その語を見つけると、その語を無視する。ユニットは、その語がない場合、インポートされる語のリストにその語を追加する。システムは、ローカルデータ構造を維持して、既に用語集にある語、又は他の何らかの理由で、拡張処理が拒否された語を常時監視する。これによって、システムは、後続の語彙拡張動作時に、不要な語を飛ばして進むことが可能になり、テキスト選択が更に効率的になる。

１つ又は複数の語が用語集へのインポートのために選択された場合、装置は各語の発音を生成し、それらを音声表現として記憶する（ステップ３０８）。テキスト語からの発音の生成は当該分野で公知である。装置は、選択されたテキスト語を、それらの発音とともに用語集に追加する（ステップ３１０）。単純明快な規則が発音を支配する言語の場合、音声認識装置は、テキストから発音を生成するためのアルゴリズムを含んでおり、用語集は発音の完全なリストを記憶せず、むしろシステムは必要に応じてその時々で発音を生成する。

認識装置は、音声入力を用語集の語の音表現に突き合わせることによって、音声の認識を試みる。従って、ユニットが音声を認識し得る前に、認識装置は用語集の語の音表現を必要とする。認識装置は、発音を音表現に変換する音モデルによって、要求された音表現を得る。

用語集にテキスト及び発音を追加することに加えて、システムは、音声認識装置の速さ及び／又は精度を改善する他のアクションを実施し得る（ステップ３１２）。例えば、音声ツリーが音声認識装置の検索を切り詰めるために用いられている場合、システムは、新たにインポートされた発音をツリーに追加する。意味情報がその語に利用可能であり、また、音声認識装置が意味情報を用い得る場合、システムは、音声認識装置の速さ及び精度を改善するために、その情報を認識装置に追加する。

例えばクラス言語モデルにおいて、認識装置は、音声入力語がどのクラスに属するかを文脈を用いて予測し、その用語集検索をその分類（class ）のメンバに有利なように傾向付ける。例えば電子メールアプリケーションのアドレスフィールドに入力する場合、電子メールアドレスは名前よりも見込みがあり、他方、ニックネームは語“親愛なる”に続く文書において予想し得る。確率モデルでは、認識装置は、句又は文中の語がその句又は文の直前にある１つ又は複数の語の分類に基づき特定の分類に属する確率を記憶する。次に、認識装置は、先行する語の分類に基づき、予想された分類に属する語に対するその検索を優先する。従って、クラス言語モデルが音声認識装置に用いられている場合、インポートされた語の分類は認識装置にインポートされる。分類の例は、固有名、ニックネーム、及び電子メールアドレスである。インポートされたテキスト語のインポート元はその分類を示し得る。例えば、装置の住所録の“名字”フィールドからインポートされた語は、おそらく固有名の分類に属し、他方、電子メーラー中の“電子メールアドレス”フィールドからの語は、おそらく電子メールアドレスの分類に属する。

また、本アルゴリズムは、用語集語彙を拡張してＭＣＤ上の１つ又は複数のアプリケーションによって認識された命令を含み得る。テキスト集のように、アルゴリズムは、各アプリケーション内におけるポインタを介してこれらの命令を特定する。そのような命令は、通常、テキストファイル等のデータ構造に記憶される。場合によっては、システムは、アプリケーションコード内における非暗号化テキスト文字列を検索することによって命令を識別する。命令は、移動体ネットワークプロバイダによって提供される特別な機能を表す電気通信事業者専用の追加事項を含む場合もある。システムは、標準命令を特定するのと同様に、これらを特定する。

ある装置では、音声対テキスト用語集は、大規模語彙認識装置をサポートし、用語集は３万もの数の語を有する。初期状態での用語集の語彙は、装置製造業者によって選択され、通常、特定のユーザに特有の語彙を含まない。そのようなシステムが、標準の話し言葉の語彙を認識する可能性が充分にあったとしても、用語集は、ユーザのテキスト集１０３，１０５の一部又は全てを含まない。従って、上述の語彙拡張は、大規模語彙音声認識装置を備えた装置においてさえ、音声認識機能をカスタマイズし、強化するように機能する。

図１は、２つのアプリケーションを示すが、充分なメモリ及び演算能力があれば、任意の数のアプリケーションが各々のテキスト集を備えてＭＣＤに存在し得る。ＭＣＤアプリケーションを用いる場合、通常、これらのテキスト集には、ユーザが入力する個人的情報が含まれる。それらには更に、アプリケーションに関連して、ユーザによってダウンロードされる単語リストが含まれる。ユーザは、これらを、標準の携帯電話インターフェイスを用いた無線か、ウェブを介してか、ブルートゥース又はＷｉ−Ｆｉ等の短距離無線システムを介してか、又は外部演算装置へのケーブル接続によって、装置にインポートする。そのようなデータは、スペルチェック、テキスト入力時の語の自動完成、及び他の目的に用い得るトピック専用の用語集であってよい。トピックは、職業上の又は私的な関心事に関係し得る。例えば、医師は一連の医学用語をダウンロードし得る。スポーツファンは、好みのチームに関する一連の語を有し得る。

ＭＣＤは、各々が自分自身のテキスト集を有する複数のユーザを有し得る。各ユーザは語彙拡張プロセスを独立に実施する。図４は、２人のユーザＡ，Ｂに適するシステム４００を示す。用語集４０２は、汎用構成要素４０４及びユーザ専用拡張部４０６，４０８に細分化される。ユーザＡは、アプリケーション１０２，１０４にそれぞれ関連するテキスト集４１０，４１２を有する。矢印４１４，４１６で示すように、ユーザＡは、ユーザＡに関連付けられたユーザ専用用語集拡張部４０６にユーザＡのテキスト集から語をインポートすることによって語彙を拡張する。同様に、矢印４２２，４２４で示すように、ユーザＢは、ユーザＢのテキスト集４１８，４２０からユーザＢの用語集拡張部４０８にインポートすることによって用語集を拡張する。後続の音声認識中、音声認識装置１０６は、ユーザＡが装置を用いている場合には拡張部４０６で汎用用語集４０４を拡張し、また、ユーザＢがユーザである場合には拡張部４０８で拡張する。この構成により、ユーザＡ，Ｂの両者は個別の語彙拡張から恩典を受けることが可能になる。２ユーザシステムについて上述したが、装置は、装置の処理及び記憶容量の限度内において個々のテキスト集及びそれらの関連語彙拡張部で任意の数のユーザをサポートし得る。

関連するテキスト集を有するアプリケーションの例には以下のものが含まれる。即ち、関連する固有名、ニックネーム、職場、アドレス、電子メールアドレス、及び他の連絡先情報を備えた住所録；関連する人や場所の名前、及び他のカレンダ入力情報を備えたカレンダ；関連する好みのウェブアドレスのリスト、標準ウェブサイト、ユーザが訪れたサイト、ユーザが入力した検索語、及びウェブ検索結果を備えたウェブブラウザ；関連する音楽ジャンル、曲名、アーティスト名、アルバム名、及び他の音楽関連情報を備えたデジタル音楽プレーヤ；関連する電子メールアドレス、受信済み、送信済み、及び下書き電子メール文書、並びに電子メール添付ファイルを備えた電子メーラー；関連する送信済み及び受信済みテキストメッセージ文書を備えたテキストメッセージャ；関連する送信済み及び受信済みテキスト、並びに画面名を備えたインスタンメッセージャ；ワードプロセッサによって生成又は編集された関連する文書を備えたワードプロセッサ；画像キャプションを備えたカメラ；関連するタイトル及びコメントを備えたビデオクリッププレーヤ；町、通り、山、川、及び湖の名前等の地理的名称が含まれる関連するマップを備えた地理特定アプリケーションが含まれる。更にテキスト集は、移動装置によって送受信された音声通信の監視から引き出された情報及び語を含む。ＭＣＤが、音声ダイヤル装置又は他の特定のアプリケーションに関連するより単純な他の音声認識装置を有する場合、より単純な認識装置の用語集の語も、大規模語彙用語集にインポートし得る。

上記手法は、図５に示すように、無線又は有線接続のいずれかによってネットワークに接続される非移動装置並びに移動装置に適用される。同図は、有線又は無線ネットワーク接続５０４を介してネットワーク５０２に接続された通信装置５００を示す。ネットワーク５０２は、電話ネットワーク、又はインターネット等のデータネットワークであってよい。通信装置５００は、移動通信装置１００に関連して上述したように、用語集１０８及び音声認識装置１０６を含むソフトウェアモジュール５０６を含む。

上述した手法は、用語集に追加される語が移動装置にはまだ記憶されていないが、その語がネットワークを用いたユーザの対話から取り込まれる場合にも用い得る。この場合、ソフトウェアモジュール５０６は、ネットワーク５０２を用いたユーザの対話を監視するための命令を含む。ネットワーク５０２がインターネットである場合、モジュール５０６は、ユーザによって送信又は受信されるテキストを監視する。通常の状況では、ユーザはウェブブラウザを用いてインターネットで対話し、モジュール５０６は、ユーザの検索語、検索結果、及びその検索の結果アクセスされたウェブページを監視する。

ネットワーク５０２は、従来の電話ネットワーク、デジタル音声ネットワーク、又は２Ｇ／３Ｇ無線接続ネットワーク等、音声を搬送するネットワークであってよい。この場合、用語集に追加される語は、装置へ及び装置から電話ネットワーク上で搬送される発話内に含まれる。通常、発話は、移動装置上又はネットワークに接続された他の装置上に配置されたメモリにバッファ処理される。装置上でローカルに動作する、又はネットワークに接続された他の装置上で動作する音声認識装置は、記憶された音声を監視し、特定の語を識別する。モジュール５０６は、認識された語を、自動的に又はユーザがそれらを調べて誤認識された語を選別した後、用語集に追加する。

ソフトウェアモジュール５０６は、監視されたネットワーク対話からの語にアクセスしてそれを取り込み、いくつか又は全ての語を用語集１０８に追加する。このプロセスは、ユーザのネットワーク対話の間、ソフトウェアモジュール５０６が連続的に更新するように動的に生じる。他の応用例では、ソフトウェアモジュール５０６は、定期的な間隔で、又はユーザから命令を受信した時に、語にアクセスする。更に他の応用例では、ユーザのネットワーク対話の終了又は通信装置の電源断等のイベント発生時に、語がアクセスされる。

上述した語彙拡張プロセスは、数多くの方法で変更し得る。例えば、装置は、図３に示すステップの１つ又は複数を省略したり、又はステップを異なる順番で実施したりすることができる。１つの変形例では、規則を用いて発音がテキストから容易に引き出される言語の場合について上述したように、システムは、ステップ３０８を省略し、発音を生成しない。

移動通信装置を実装し得る代表的なプラットホームを、上位ブロック図６００として図６に示す。本装置は、その中核に、例えば、音声帯域及びチャネル符号化機能を含むセル方式通信機能を取り扱うための基底帯域デジタル信号プロセッサ（ＤＳＰ）６０２と、ＭｉｃｒｏｓｏｆｔＰｏｃｋｅｔＰＣ（商標）等のオペレーティング・システムが動作するＩｎｔｅｌＳｔｒｏｎｇＡｒｍ（商標）ＳＡ−１１１０等のアプリケーションプロセッサ６０４と、を含む。電話は、ＧＳＭ音声通話、ＳＭＳ（短メッセージ伝達サービス）テキストメッセージ伝達、インスタントメッセージ伝達、無線電子メール、住所録、カレンダ、及び警報クロック等の従来のＰＤＡ特徴に加えてデスクトップのようなウェブ閲覧をサポートする。また、プロセッサは、デジタル音楽プレーヤ、ワードプロセッサ、デジタルカメラ、及びＧＰＳ等の地理特定アプリケーション、等の追加のアプリケーションを動作させることができる。

送信及び受信機能は、ＲＦ合成器６０６、ＲＦ無線送受信機６０８、及びアンテナ６１２を介して最終段ＲＦ送信動作を取り扱う後続の電力増幅モジュール６１０によって実現される。インターフェイスＡＳＩＣ６１４及び音声コーデック６１６は、スピーカ、マイクロホン、及び命令や情報を入力するために電話に設けられた数字又は英数字キーパッド（図示せず）等の他の入出力装置へのインターフェイスを提供する。ＤＳＰ６０２はコード記憶にフラッシュメモリ６１８を用いる。Ｌｉイオン（リチウムイオン）バッテリ６２０は電話に電力を供給し、ＤＳＰ６０２に結合された電力管理モジュール６２２は装置内の消費電力を管理する。装置は、特定の機能をサポートする追加のハードウェア構成要素（図示せず）を有する。例えば、画像プロセッサ及びＣＣＤセンサは、デジタルカメラをサポートし、ＧＰＳ受信機は、地理特定アプリケーションをサポートする。

アプリケーションプロセッサ６１４用の揮発性及び不揮発性メモリは、それぞれ、ＳＤＲＡＭ６２４及びフラッシュメモリ６２６の形態で提供される。この構成のメモリを用いて、オペレーティング・システム用のコード、装置を動作するため及びその種々の機能をサポートするための全ての適切なコード、更には、上述した音声認識システム用及び装置に含まれる任意のアプリケーションソフトウェア用のコードを保持し得る。また、メモリは、用語集、並びにアプリケーションに関連するテキスト集を記憶する。

本装置用の視覚表示装置には、ＬＣＤ表示装置６３０を駆動するＬＣＤドライバチップ６２８が含まれる。また、電話内の他の装置にクロック信号を提供し、リアルタイムの標識を提供するクロックモジュール６３２がある。上述した全ての構成要素は、適切に設計されたハウジング６３４内にパッケージ化される。

上述した装置は、多数の種々市販されている装置の一般的な内部構造を表す。それらの装置の内部回路設計は、当業者には広く知られている。従って、図６に示す構成要素及びそれらの動作に関する更なる詳細は呈示しておらず、また、本発明を理解する上で必要ではない。

上述した実施形態は、本発明の原理を適用し得る多種多様な実施形態に鑑みて例示したものであり、本発明の範囲を限定するものと解釈すべきでないことを理解し得る。例えばフロー図のステップは記述したもの以外の順番で実施してよく、また、図中に用いる要素は、より多くても少なくてもよい。また、実施形態の種々の要素についてソフトウェアで実現されるものとして述べたが、ハードウェア又はファームウェア実装における他の実施形態を他の選択肢として用いてもよく、逆の場合も同様である。他の実施形態は、添付の特許請求の範囲内に含まれる。

音声認識機能を有する移動通信装置のブロック図。音声語彙が拡張される場合の情報の流れを示す移動通信装置のブロック図。音声認識語彙拡張プロセスのステップを示すフロー図。音声語彙が拡張される場合の情報の流れを示すマルチユーザ移動通信装置のブロック図。ネットワークに接続された通信装置のブロック図。音声認識機能を備えた移動通信装置用のハードウェアプラットホームを示す上位ブロック図。

Claims

音声認識装置の性能を改善する方法であって、
前記音声認識装置用の用語集を提供すること、
ネットワークを用いたユーザの対話を監視すること、
前記監視された対話に関連する複数の語にアクセスすること、
前記複数の語の少なくとも１つに基づき前記用語集を修正して前記音声認識装置の性能を改善すること、
を備える方法。
請求項１に記載の方法において、
前記音声認識装置は移動装置上に存在する、方法。
請求項２に記載の方法において、
前記アクセスすることは、サーバから前記移動装置に前記複数の語をダウンロードすることを含む、方法。
請求項１に記載の方法において、
前記音声認識装置はネットワークに接続された装置上に置かれている、方法。
請求項４に記載の方法において、
前記ネットワークはインターネットである、方法。
請求項４に記載の方法において、
前記ネットワークは電話ネットワークである、方法。
請求項１に記載の方法において、
前記ネットワークを用いたユーザの対話を監視することは、ウェブブラウザを用いたユーザの対話を監視することを含み、前記アクセスされた複数の語は、前記ウェブブラウザを用いたユーザの対話に関連付けられる、方法。
請求項７に記載の方法において、
前記複数の語は、問い合わせ、検索結果、及び、前記ウェブブラウザを用いたユーザの対話の結果としてアクセスされたウェブページのうちの少なくとも１つから取得される、方法。
請求項１に記載の方法において、
前記ネットワークを用いたユーザの対話を監視することは、電話ネットワークを介した１人又は複数の他の当事者との前記ユーザの音声通信を監視することを含み、前記アクセスされた複数の語は、前記電話ネットワークを介した前記１人又は複数の他の当事者との前記ユーザの音声通信に関連付けられる、方法。
請求項１に記載の方法において、
前記アクセスすることは、前記複数の語に動的にアクセスすることを含む、方法。
請求項１に記載の方法において、
前記アクセスすることは、前記複数の語に定期的な間隔でアクセスすることを含む、方法。
請求項１に記載の方法において、
前記アクセスすることは、前記ユーザからの入力の受信時に前記複数の語にアクセスすることを含む、方法。
請求項１に記載の方法において、
前記アクセスすることは、イベントの発生時に前記複数の語にアクセスすることを含む、方法。
請求項１に記載の方法において、
前記音声認識装置は、前記複数の語の中で前記監視された対話の語の発生頻度に基づくように傾向付けられている、方法。
請求項１に記載の方法において、
前記監視することは更に、前記複数の語の各々の分類を記録することを含み、前記音声認識装置は、前記複数の語の各々の分類に基づくように傾向付けられている、方法。
請求項１に記載の方法において、
前記監視することは更に、前記複数の語の各々の使用文脈を記録することを含み、前記音声認識装置は、前記複数の語の各々に関連する前記使用文脈に基づくように傾向付けられている、方法。
移動装置上で実現される方法であって、
音声認識装置用の用語集を提供すること、
ネットワークを用いたユーザの対話を監視すること、
前記監視された対話に関連する複数の語を取り込むこと、
前記取り込まれた複数の語を前記用語集に追加すること、
を備える方法。
請求項１７に記載の方法において、
前記ネットワークを用いたユーザの対話を監視することは、ウェブブラウザを用いたユーザの対話を監視することを含み、前記取り込まれた複数の語は、前記ウェブブラウザを用いたユーザの対話に関連付けられる、方法。
音声認識装置を有する移動装置上の音声語彙を拡張する方法であって、
前記移動装置に前記音声認識装置用の用語集を記憶すること、
前記移動装置に複数の語を記憶することであって、前記複数の語は前記移動装置に常駐するウェブブラウザを用いた移動装置ユーザの対話に関連付けられている、前記移動装置に複数の語を記憶すること、
前記複数の語を前記用語集にインポートすること、
を備える方法。
請求項１９に記載の方法において、
前記複数の語は、前記移動体ユーザによって前記ブラウザに入力された検索語と、前記検索語を用いて行われた検索によって返された結果に含まれる語とを含む、方法。
音声認識装置を有する移動装置上の音声語彙を拡張する方法であって、
第１の複数の語を含む前記音声認識装置用の用語集を前記移動装置に記憶すること、
前記音声認識装置以外のアプリケーションに関連付けられた第２の複数の語を前記移動装置に記憶するとともに、前記第２の複数の語の各々に対してその語に関連する使用文脈を記憶すること、
前記第２の複数の語及びそれらに関連する使用文脈を前記用語集にインポートすること、
を備える方法。
請求項２１に記載の方法において、
前記第２の複数の語の少なくとも１つは固有名の使用文脈に関連付けられている、方法。
請求項２１に記載の方法において、
前記音声認識装置は、前記音声認識装置によって認識される語の前記使用文脈に対応する使用文脈を有する前記用語集からの候補語を選択するように傾向付けられている、方法。
音声認識装置を有する移動装置上の音声語彙を拡張する方法であって、
複数の語を含む前記音声認識装置用の用語集を前記移動装置に記憶すること、
第２の複数の語を前記移動装置に記憶することであって、当該第２の組によるテキスト語は前記音声認識装置以外のアプリケーションに関連付けられている、第２の複数の語を前記移動装置に記憶すること、
前記第２の複数の語の各々に対してその語の使用頻度を記録すること、
前記記憶されたテキスト語の組から前記用語集に前記第２の複数の語及びそれらに関連付けられた使用頻度をインポートすること、
を備える方法。
請求項２４に記載の方法において、
前記音声認識装置は、少なくとも部分的に、候補語の使用頻度に基づいて前記用語集から候補語を選択する、方法。