JP2001222294A

JP2001222294A - 無線通信装置のためのユーザインターフェースに基づく音声認識

Info

Publication number: JP2001222294A
Application number: JP2000356405A
Authority: JP
Inventors: Peter F King; エフキングピーター
Original assignee: PHONE COM JAPAN KK; Phonecom Japan Kk
Current assignee: PHONE COM JAPAN KK; Phonecom Japan Kk
Priority date: 1999-11-24
Filing date: 2000-11-22
Publication date: 2001-08-17
Also published as: CN1298249A; EP1104155A3; US6532446B1; EP1104155A2; KR20010051903A

Abstract

(57)【要約】【課題】本発明の目的は、音声認識処理をローカルに
行う資源又はソフトウェアを有さない移動装置に対する
音声認識サービスを得るための方法を提供することであ
る。【解決手段】サービスを受ける移動装置から受信され
た音声入力を、移動装置により処理可能な記号的データ
ファイル（例えば、英数字又は制御文字）に翻訳する遠
隔音声認識サーバシステムを使用する、無線通信システ
ムである。翻訳処理は、移動装置と音声認識サーバ間の
音声通信を確立することにより開始する。そして、移動
装置のユーザは、音声認識サーバシステムにより検出さ
れうるように話し始める。ユーザのスピーチの検出に際
し、音声認識サーバシステムはスピーチを記号的データ
ファイルへ翻訳し、そして、記号データファイルは、別
のデータ通信チャネルを介してユーザへ送られる。ユー
ザは、移動装置で記号的データファイルを受信すると、
再見しそして、記号的データファイルの内容を編集し、
そして、更にファイルを望むように使用する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般的には、デー
タ通信に関し、特にローカルユーザインターフェースを
増加するための音声認識資源に基づくネットワークを使
用する２方向無線通信システムに関する。

【０００２】

【従来の技術】無線通信システムの領域には、ハイパー
テキストに基づく技術の使用が広がっている。ここでは
移動装置としても記載されているが、２方向無線通信装
置と無線ネットワークプロトコルは、インターネット及
び、プライベートネットワークのような種々の無線及び
有線ネットワークを介して、遠隔情報サービス（多と商
用データベース、電子メール、オンラインショッピン
グ）へのインターラクティブアクセスを許すように設計
されている。

【０００３】多くの移動装置（例えば、セルラ電話）
は、量販向きの装置である。それらのユーザインターフ
ェースは、装置の機能を制限せずに、単純で簡単に使用
できるべきである。現在、多くの移動装置のデータ入力
の主な方法は、長い英数字文字列を入力するのに使用す
るには、比較的効率の悪い、キーパッドである。サイズ
の制約とコストの考慮により、これらの移動装置のキー
パッドは、実質的なユーザ入力を要するメッセージ（例
えば、電子メール）を作るためには、特にユーザフレン
ドリーなインターフェースではない。この種のキーパッ
ドは、通常は１２又は、２４キーを有し、数字入力に対
しては十分であるが、しかし、ネットワークができる装
置に対して要求される英数字データ入力を扱うには非常
に効率が悪い。

【０００４】インターネットから情報を要求するユーザ
は、一般的には、ブラウザを使用してワールドワイドウ
ェブを操作する。例えば、サーチエンジンとして、Ｉｎ
ｆｏｓｅｅｋ^ＴＭを使用して、スタンフォード大学の情
報を要求するユーザは、以下の文字列”ｈｔｔｐ：／／
ｗｗｗ．ｉｎｆｏｓｅｅｋ．ｃｏｍ．”と続いて”Ｓｔ
ａｎｆｏｒｄＵｎｉｖｅｒｓｉｔｙ” を入力する必
要がある。

【０００５】上述の検索文字列は４０文字以上である。
ユーザは、標準的なデスクトップコンピュータキーボー
ドとブラウザ（例えば、ネットスケープ又はエクスプロ
−ラ）を使用してこの種の文字列を入力するのは問題が
ない。しかし、同じユーザが同じ文字列を入力するのに
移動装置のキーパッドを操作すると、小さいキーボード
とキー間の間隔が近いために非常に自由な動きが妨げら
れる。

【０００６】インターネットの共通の使用の１つは電子
メールである。上述のパラグラフのサイズを有する電子
メールメッセージを送りたいユーザは、４０文字以上を
入力しなければならない。デスクトップコンピュータの
標準キーボードを使用して、ユーザは、（ユーザが平均
的なタイプの能力を有すれば、）２分以下でその数の文
字を入力することができるであろう。移動装置のキーパ
ッド上で同数のキーストロークを入力するのは非常に時
間がかかり、そして、非常に単調で退屈であり、誤りや
すくなる。

【０００７】音声認識（ＶＲ）技術の近年の進歩と、ハ
ードウェア能力の向上は、デスクトップシステムに関す
る音声認識に基づくユーザインターフェースの開発を商
業的に可能としている。ＶＲ技術は、話された単語をと
り、それを、ディジタルシステムにより簡単に操作され
且つ表示されることができるフォーマットに翻訳する。
ＶＲ技術を小型移動装置に装備する努力が行われている
が、しかし、これらの努力は一般的には、余分な部品
や、処理及び蓄積能力の増加のような、（例えば、ＤＳ
Ｐチップのような）コストのかかる装置の変更を必要と
する。典型的なセルラ電話は、典型的なデスクトップ又
は携帯コンピュータに設けられている1パーセント以下
の計算資源を有する。規模の小さいＶＲアプリケーショ
ンを実行するこの種の電話は装置の部品を変更すること
なしに、予め定義された小さなグループの話された言葉
のみを認識できる。

【０００８】デスクトップ及びラップトップコンピュー
タで利用できる（例えば、ドラゴンシステム社のナチャ
ラリースピーキング、アップルコンピュータからのＰｌ
ａｉｎＴａｌｋ^ＴＭ、ＩＢＭからのＶｉａＶｏｉｃｅ９
８^ＴＭ、及び、フィリップストークからのＦｒｅｅＳｐ
ｅｅｃｈ９８^ＴＭのような）音声認識ソフトウェアは、
ライセンス当り３９．００ドルから数１００ドルであ
る。これは、比較できるソフトウェアアプリケーション
を備えた移動装置のコストの大きな部分を表す。

【０００９】音声認識ソフトウェアを各移動装置に配置
しそして、アプリケーションが実行できるようにハード
ウェア部品を変更することは、ＶＲ特徴をその装置に組
み込む電話製造者の、財政的な意欲をくじく。これらの
変更は移動装置の最終価格に大きなコストを加え、価格
は、通常に、量販移動装置（例えば、セルラ電話）に占
められている目標価格（例えば、１５０ドル）の範囲外
となろう。

【００１０】ハードウェア資源に関しては、これらのア
プリケーションは各言語をサポートするのに６０メガバ
イトまでののメモリを要する。更に、多くの商用の音声
認識ソフトウェアアプリケーションは、比較的高速なプ
ロセッサ（例えば、１３３ＭＨｚペンティアム（登録商
標）プロセッサ）を有するシステムで動作するように設
計されている。

【００１１】

【発明が解決しようとする課題】移動装置が、ディジタ
ルネットワークと更に効率的な方法で、対話できること
を可能とする装置と方法への要求が大きい。ハードウェ
ア資源とコストを大きく変更せずに標準の移動装置のユ
ーザインターフェエース（例えば、電話キーパッド）と
共に音声認識サービスを利用することができる能力は、
制限された資源を有するネットワークのできる移動装置
の利用性と商業的な可能性を劇的に改善する。

【００１２】

【課題を解決するための手段】本発明は、移動装置から
受信された音声入力を、移動装置により処理可能な記号
的データファイル（例えば、英数字又は制御文字）に翻
訳する遠隔音声認識サーバシステムを使用する、無線通
信システムに関する。翻訳処理は、移動装置と音声認識
サーバ間の音声通信を確立することにより開始する。そ
して、移動装置のユーザは、音声認識サーバシステムに
より検出されうるように話し始める。ユーザのスピーチ
の検出に際し、音声認識サーバシステムはスピーチを記
号的データファイルへ翻訳し、そして、記号データファ
イルは、別のデータ通信チャネルを介してユーザへ送ら
れる。ユーザは、移動装置で記号的データファイルを受
信すると、再見しそして、記号的データファイルの内容
を編集し、そして、更にファイルを望むように使用す
る。例えば、ユーザは、記号的データファイルを、電子
メール又は、ブラウザ要求フィールドをうめるのに使用
する。

【００１３】本発明は、方法、装置又は、素子、ユーザ
インターフェース、コンピュータ読出し可能なメモリ及
び、システムを含む、多くの方法で使用できる。本発明
の幾つかの実施例を以下に示す。

【００１４】1つの実施例によれば、本発明は、音声認
識処理をローカルに行う資源又はソフトウェアを有さな
い移動装置に対する音声認識サービスを得るための方法
である。方法は、対象の移動装置と音声認識アプリケー
ション（ここでは、音声認識サーバシステムと呼ぶ）を
実行する遠隔サーバ間で音声チャネルを確立し互いに作
用する移動装置内にあるローカルアプリケーションを使
用することを含む。

【００１５】音声チャネルの確立に際し、対象の移動装
置のユーザは、移動装置（例えば、セルラ電話）のマイ
クロフォンに向かって話し始めるのを待たされる。この
対話の結果音声認識サーバシステムで受信された音声入
力は、記号的データファイルに変換される。この処理
は、以前に蓄積されたユーザに特定のデータファイルに
より援助され得る。記号的データファイルは、元の移動
装置又は指定された第三者の装置へ別に確立され相互に
作用するデータ通信チャネルを介して元に転送される。
記号的データファイルは、移動装置上のローカルアプリ
ケーションと対話する又は、ネットワーク資源（例え
ば、インターネット又は、プライベートネットワーク上
のサーバ）と対話するのに使用される。

【００１６】前述の説明と共に、他の目的及び、優位点
は、図を参照して以下の説明により得られる。

【００１７】

【発明の実施の形態】本発明は、図を参照して以下の詳
細な説明により容易に理解される。

【００１８】以下の本発明の詳細な説明では、本発明の
完全な理解のために多くの特定の詳細が説明される。し
かし、当業者には、本発明はこれらの特定の詳細が無く
とも実行できることは明らかである。既知の方法、手
続、構成要素及び、回路は、本発明の特徴を扶養に曖昧
にするのを避けるために詳細には説明しない。以下の本
発明の詳細な説明は主に、手続、ステップ、論理ブロッ
ク、処理及び、ネットワークに接続されたデータ処理装
置に似た他の記号的な表現により示される。これらの処
理記述と表現は当業者に最も効率的に仕事の実体を示す
手段である。

【００１９】本発明は、システム及び、方法に関し、移
動装置が、ネットワーク化された音声認識サーバシステ
ムからの音声認識サービスへアクセスすることを可能と
する。本発明の１つの実施例によれば、音声認識サービ
スは、音声認識サービスを望んでいる移動装置のユーザ
とネットワーク化された音声認識サーバシステム間の音
声チャネルを確立することによりアクセスされる。

【００２０】一旦音声チャネルが確立されると、移動装
置のユーザには、音声認識システムがスピーチ信号を受
信することの準備が完了すると、話し始めることの待ち
が与えられる。受信されたスピーチ信号は、従来技術で
既知の音声認識技術（例えば、テンプレートマッチン
グ、フーリエ変換又は、線形予測符号化（ＬＰＣ）））
を使用して音声認識サーバシステムにより処理され、記
号的データファイルが発生される。

【００２１】記号データファイルは複数の文字、音素、
単語、図、オブジェクト、コントロール文字又は、オブ
ジェクトを指定する他の従来のマーク、量、動作、機
能、音素、単語、フレーズ又は、受信された音声スピー
チ信号と関連を有するそのどのような組合せを有する、
音声認識システムにより翻訳されたファイルである。音
声認識システムは、一般的には、音声テンプレート、フ
ーリエ変換符号化又は、線形予測符号化機構を使用し
て、音声入力成分を予め蓄積された記号的基礎単位へマ
ップする。記号的データブロックの例はＡＳＣＩＩファ
イルと２値データファイルを含む。

【００２２】本発明の説明を容易にするために、本発明
が実行され得る通信システムの特徴を列挙するのが有益
である。図１から４は、原理的なシステム構成要素の概
略である。

【００２３】図1は、本発明の実施例に従った、典型的
な通信システムのブロック図を示す。移動装置１０２と
１０３は、音声通信チャネルを通して通話を受信し且
つ、ハイパーメディア情報（例えば、ハイパーテキスト
マークアップ言語（ＨＴＭＬ）書類、コンパクトハイパ
ーテキストマークアップ言語（ｃＨＴＭＬ）書類、拡張
可能なマークアップ言語（ＸＭＬ）書類、携帯装置マー
クアップ言語（ＨＤＭＬ）書類、無線マークアップ言語
（ＷＭＬ）書類又は、同様なデータ形式）を遠隔サーバ
装置から、リンクサーバ装置１０６とショートメッセー
ジサービスセンタ（ＳＭＳＣ）１０７を有し得る広帯域
及び狭帯域（例えば、ＳＭＳ）データ通信チャネルを通
して受信する。

【００２４】移動装置１０２と１０３の各々はディスプ
レイとユーザインターフェースを有する。更に移動装置
１０２と１０３は、ローカルメモリ（クライアントモジ
ュールと称す）に蓄積された、装置がハイパーメディア
情報を処理することを可能とする遠隔サーバから受信さ
れたマイクロブラウザ（例えば、９４０６３ＣＡ、レ
ッドウッドシティ、チェサピークドライブ８００のＰ
ｈｏｎｅ．ｃｏｍ社からのマイクロブラウザ）を有し得
る。

【００２５】図１に示すように、移動装置１０２と１０
３は、無線キャリアネットワーク１０４（ここでは無線
ネットワークと呼ぶ）を介してリンクサーバ１０６と接
続される。移動装置１０２と１０３は、移動電話、手の
ひらサイズの計算装置及び、音声送信及び／又は受信能
力を有する個人ディジタルアシスタントを含むグループ
に含まれる。音声能力は、ユーザが遠隔の行き先（例え
ば、他のユーザ又は、装置）と、音声に基づく情報を通
信できる移動装置内に装備された能力として定義され
る。

【００２６】音声通信チャネルへのアクセスは一般的に
は、ユーザ及び／又は装置が、無線キャリアネットワー
ク１０４により認識されることを要する。ネットワーク
認識は、対象の移動装置と無線キャリアネットワーク１
０４間での識別情報の交換に関連する。一般的には、ユ
ーザ及び／又は対象の移動装置の識別情報は、装置のメ
モリに蓄積され、そして、ユーザがネットワークにアク
セスしようとしたときに自動的に伝送される。

【００２７】無線キャリアネットワーク１０４は、どの
ような既知の無線通信ネットワーク（例えば、セルラデ
ィジタルパケットデータ（ＣＤＰＤ）ネットワーク、移
動通信のためのグローバルシステム（ＧＳＭ）ネットワ
ーク、符号分割多重（ＣＤＭＡ）ネットワーク、パーソ
ナルハンディフォンシステム（ＰＨＳ）及び時分割多重
アクセス（ＴＤＭＡ）ネットワーク）でも良い。リンク
サーバ１０６は、更に、音声認識サーバシステム１０９
とネットワークサーバ１１３により表される複数のネッ
トワーク化されたサーバが接続された有線ネットワーク
１０８接続される。

【００２８】音声認識サーバシステム１０９は、サーバ
装置１１０と、他のものの間にキャリア事業者による複
数のユーザのサービスに関連するユーザに特定のファイ
ルを蓄積できる蓄積装置１１２を有する。ユーザに特定
のファイルは、音声認識処理と共に使用され、そして１
つの実施例は本発明の一部である。

【００２９】ユーザに特定のファイルの例は、ユーザに
特定のスピーチテンプレート、１つ又はそれ以上のユー
ザに特定の言語辞書（例えば、フランス語、英語、ドイ
ツ語又は、広東語）及び、１つ又はそれ以上のユーザに
特定の辞書又は、個々のユーザの頻繁に使用する単語の
リストを含み得る。これらのファイルは、アップロード
され、そして、ネットワークマルチメディアコンピュー
タ（例えば、マルチメディアコンピュータ１４０）又
は、サービスされている移動装置のユーザインターフェ
ースを使用して管理される。例えば、音声テンプレート
は、ユーザに予め定められた原稿を音声可能な装置へ読
ませることにより発生される。ユーザの嗜好（例えば、
選択の言語）は、移動装置のディスプレイ上でユーザに
提示されるメニュー選択スクリーン又は有線ネットワー
クを介して音声認識サーバシステムに接続されている他
の装置を使用して入される。

【００３０】簡単のために、アンテナ１２１は、一般的
に基地局と操作及び維持センタを有する無線キャリア通
信設備を表す。基地局は、移動装置１０２と１０３との
無線又は通信接続を制御する。操作及び維持センタは、
移動装置と他の固定又は移動ネットワークユーザの間の
通話を切り替える移動切り替えセンタを含む。さらに、
操作及び維持センタは、認証のような移動口座サービス
を管理し、無線ネットワークの適切な動作と設定を統括
する。キャリア通信設備１２１内の各々のハードウェア
構成要素と処理は、当業者には既知であり、そして、本
発明の特徴を不要に曖昧にするのを避けるためにここで
は、説明しない。

【００３１】無線ネットワーク１０４により使用される
通信プロトコルは、例えば、無線アクセスプロトコル
（ＷＡＰ）又は、携帯装置転送プロトコル（ＨＤＴＰ）
である。有線ネットワーク１０８は、インターネット、
プライベートネットワーク又は、任意のネットワークの
データネットワークである地上ベースのネットワークで
ある。典型的には、地上ネット１１８をサポートする通
信プロトコルは、転送制御プロトコル／インターネット
プロトコル（ＴＣＰ／ＩＰ）、ハイパーテキスト転送プ
ロトコル（ＨＴＴＰ）又は、安全ハイパーテキスト転送
プロトコル（ｓＨＴＴＰ）である。

【００３２】リンクサーバ１０６とネットワークサーバ
１１３は典型的には、例えば、ネットワークライブラリ
とインターネットの接続性を伴なう、サンマイクロシス
テムズ社（ｈｔｔｐ：／／ｗｗｗ．ｓｕｎ．ｃｏｍ）の
ＳＰＡＲＫステーションのようなコンピュータワークス
テーションである。ネットワークサーバ１１３は、有線
ネットワーク１０８に接続された複数のネットワークサ
ーバで表され、移動装置１０２と１０３にたいする情報
を含むハイパーメディア情報へアクセスを提供できる。

【００３３】リンクサーバ装置１０６は、単独の装置と
して表され、それゆえ、しばしば、ネットワークゲート
ウェイ又は、無線データサーバと呼ばれる。リンクサー
バ１０６は、無線キャリアネットワーク１０４と有線ネ
ットワーク１０８の間のブリッジとして動作するように
なされることができる。リンクサーバ装置１０６の機能
は、無線キャリアネットワーク１０４と有線ネットワー
ク１０８の間の接続を提供する既知のハードウェアを伴
なう有線ネットワーク１０８に接続された他のサーバ装
置により行いうることを指摘すべきである。

【００３４】前述の音声通信チャネルは、一般的には、
音声チャネル１２６により表される。この通信チャネル
は、一般的には、通信設備と、通話を設定するための技
術で知られている手続を使用して確立され作用する。

【００３５】一般的には、移動装置１０２と１０３にサ
ービスを提供する、２つの形式のデータ通信チャネルが
ある。データ通信チャネル１２８は、広帯域通信チャネ
ルを表す。データ通信チャネル１３０は、例えば、（シ
ョートメッセージ通信（ＳＭＳ）サービスチャネル）の
ような狭帯域通信チャネルを表す。これらのデータ通信
経路のいずれかは、移動装置１０２と１０３とデータを
送受信するのに使用される。

【００３６】本発明の好適な実施例によれば、音声認識
サーバシステム１０９からの音声認識サービスを望む移
動装置は（例えば、移動装置１０２と１０３）、最初に
一般的には、音声チャネル１２６により表される音声チ
ャネルを確立する。音声認識サーバシステム１０９にた
いする交信情報（例えば、電話番号又は、ユニフォーム
リソース識別子（ＵＲＩ））は、移動装置にロードされ
る、リンクサーバ１０６から取り出され又は、直接ユー
ザから入力されたソフトウェアに埋め込まれる。

【００３７】一旦音声チャネルが要求する移動装置と音
声認識サーバシステム１０９の間で確立されると、ユー
ザ情報は音声認識サーバシステムへ転送される。これ
は、要求する移動装置に対し手前に蓄積されたユーザに
特定のファイルをアクセスし、利用することを可能とす
る。ユーザ情報は、別のデータ通信チャネル（例えば、
データ通信チャネル１２８又は、１３０）で伝送される
か又は、ユーザにより入力される。ユーザに特定のファ
イルは、一般的には、特定のユーザ口座に特定の特徴を
提供する。例えば、ユーザは、音声認識処理の１つ又は
それ以上の言語を規定する。

【００３８】一旦、対象の移動装置／ユーザのユーザに
特定のファイルが取り出されると、ユーザは音声入力を
することを促される（例えば、話はじめる）。この点
で、ユーザは音声認識サービスを利用している間は移動
装置のユーザインターフェース（例えば、電話キーパッ
ド）を使用し得る点に注意することが重要である。ユー
ザが移動装置と入力動作（音声及び、物理的入力）を完
了したとき、ユーザから入力セッションが終了したとの
指示が（音声又は、キー入力）で与えられる。音声認識
サーバシステム１０９は、音声入力を記号的データファ
イルへ変換し、リンクサーバ１０６を介して要求する移
動装置へ送られる。

【００３９】前述のように、記号データファイルは複数
の文字、音素、単語、図、オブジェクト、機能、コント
ロール文字又は、オブジェクトを指定する他の従来のマ
ーク、量、動作、機能、音素、単語、フレーズ又は、受
信された音声スピーチ信号と関連を有するそのどのよう
な組合せを有する、音声認識システムにより翻訳された
ファイルである。音声認識システムは、一般的には、音
声テンプレート、フーリエ変換符号化又は、線形予測符
号化機構を使用して、音声入力成分を予め蓄積された記
号的基礎単位へマップする。記号的データブロックの例
はＡＳＣＩＩファイルと２値データファイルを含む。

【００４０】記号的データファイルは、最初にリンクサ
ーバ１０６へ送られ、記号的データファイルが広帯域チ
ャネル１２８と狭帯域チャネル１３０を介して要求する
移動装置へ送られる前に、更に処理される。移動装置の
ユーザは、受信した記号的データファイルを再見し、そ
してそれを望むように利用する。

【００４１】音声認識サーバシステム１０９により使用
される音声認識アプリケーションの正確さは、使用され
る変換方法と、サイズと言語辞書の言語に依存する。一
般的には、方法（例えば、テンプレートマッチング）に
依存する話者は、９８パーセントの正確さであり、話者
に独立の方法（例えば、フーリエ変換及び、線形予測符
号化（ＬＰＣ））は９０から９５パーセントの正確さを
有する（ｗｗｗ．ｈｉｔｌ．ｗａｓｈｉｎｇｔｏｎ．ｅ
ｄｕ−ＶｏｉｃｅＲｅｃｏｇｎｉｔｉｏｎ，Ｊｉｍ
Ｂａｕｍａｎｎ）。

【００４２】本発明の原理に従って、（例えば、移動装
置１０２と１０３）の移動装置のユーザは、音声認識ア
プリケーションが装置により実行されるなら必要な大き
なハードウェアとソフトウェアの変更なしにこれらの移
動装置で音声認識サービスにアクセスする。更に、音声
認識処理を実行するソフトウェアは、（移動装置と比較
して）非常に高い処理速度のアクセス可能な且つ大蓄積
容量の遠隔サーバ上にあるので、装置のユーザには、完
全な特徴の音声認識アプリケーションに関連する機能と
資源が与えられる。例えば、音声認識アプリケーション
は、大きな言語辞書、多言語の選択的な言語辞書とユー
ザに特定のファイル（音声テンプレート及び、ユーザに
特化した辞書とリスト）へアクセスし得る。

【００４３】図２Ａは、例示の移動装置２００を示し、
図１の移動装置１０２と１０３の１つに対応する。移動
装置２００は表示スクリーン２０４、拡張電話形式キー
パッド２１０、カーソルナビゲーションキー２２２と２
２４、ソフトキーの組２０８Ａと２０８Ｂ、イアホン２
１２Ａ、マイクロフォン２１２Ｂを有する。表示スクリ
ーン２０４は典型的には、テキスト情報とグラフィック
情報を表示できる液晶ディスプレイ（ＬＣＤ）スクリー
ンである。拡張電話キーパッド２１０は、好ましくは、
追加の文字（例えば、スペース）と機能（例えば、戻り
及び、クリア）を提供する追加のキーを有する正規の電
話キーパ−ッどである。

【００４４】カーソルナビゲーションキー２２２と２２
４で、ユーザは、例えば、２０４上に表示されたアプリ
ケーションの１つを活性化するために、カーソルと要素
インジケータ２１６の位置を変えることができる。一般
キー２０８Ａと２０８Ｂは、典型的には、ソフトキー機
能識別子２１４と２１５で示されるアプリケーションに
特定の機能を実行するのに使用される。当業者には、正
規の電話キーパッドは、本発明の実行するのに必須では
ないことは理解されるべきである。入力機構としてソフ
トキー又は、アイコンを使用する手のひらサイズの計算
装置のようなある移動装置は、しばしば、物理的キーを
全く持たない。

【００４５】リンクサーバ装置（例えば図１に示すリン
クサーバ１０６）と通信セッションを確立するに際し、
移動装置２００は、典型的には、装置と対話するユーザ
を援助するために、１つ又はそれ以上のマークアップ言
語カードデッキを受信する。実行の選択により、スクリ
ーン記述命令ファイルとも呼ばれるマークアップ言語カ
ードデッキは、限定されないがしかし、携帯装置マーク
アップ言語（ＨＤＭＬ）、ハイパーテキストマークアッ
プ言語（ＨＴＭＬ）、コンパクトハイパーテキストマー
クアップ言語（ｃＨＴＭＬ）、無線マークアップ言語
（ＷＭＬ）、標準一般化マークアップ言語（ＳＧＭＬ）
及び拡張可能なマークアップ言語（ＸＭＬ）を含むマー
クアップ言語ファイルである。代わりに、データファイ
ルは、切り取られ、圧縮され、コンパイルされ又は、対
応するマークアップファイルのバージョンに変換され
る。

【００４６】図２ＡのＬＣＤスクリーン２０４上に現れ
るテキストは例示の表示スクリーンのようである。この
例では、ユーザは以下の選択ができる。１）ブックマーク２）検索３）電子メール４）ニュース各選択は、典型的には、ネットワーク上の資源又は、ロ
ーカルソフトウェアアプリケーションにリンクしてい
る。ユーザは上述のメニューからナビゲーションキー２
２２と２２４を使用して要素指示子２１６によりユーザ
の選択で、選択する。この同じ方法は、ユーザに遠隔サ
ーバ（例えば、図１の音声認識サーバシステム１０９）
との対話を促すのに使用され得る。

【００４７】図２Ｂは、図１の移動装置１０２と１０３
と図２Ａの移動装置２００の移動装置２５０の更に詳細
な説明を示す。移動装置２５０は、入出信号を受ける無
線キャリアネットワーク１０４に接続された無線制御プ
ロトコル（ＷＣＰ）インターフェース２５２を有する。
装置識別子（ＩＤ）蓄積装置２５４は、移動装置２５０
を外部装置（例えば、図１のリンクサーバ１０６）に認
識させるために、装置ＩＤを蓄積し且つＷＣＰインター
フェース２５２へ供給する。装置ＩＤは、移動装置２５
０に関連する特定のコードであり、（例えば、図１の１
０６）のリンクサーバ装置に関連して典型的には、設け
られるユーザ口座に関連する装置ＩＤに直接対応する。

【００４８】移動装置２５０はプロセッサ２６８、エン
コーダ／デコーダ２６４、ワークメモリ２５８及び、ク
ライアントモジュール２５６を有する。クライアントモ
ジュール２５６は、ロードされ又は、装置メモリに蓄積
されたソフトウェア構成要素を表し、移動装置２５０に
より行われる、無線キャリアネットワーク１０４を介し
てのリンクサーバとの通信セッションの確立、ローカル
アプリケーションの動作と操作、移動装置２５０の表示
スクリーン２６０への情報の表示、キーパッド２６２か
らのユーザ入力の受信を含む、多くの処理タスクを行
う。クライアントモジュール２５６は、計算装置にソフ
トウェアがロードされるのと同じように、移動装置２５
０のメモリにロードされる。

【００４９】更に、移動装置２５０は、音声をディジタ
ル及びアナログ通信システムで送受信される電気的イン
パルスへ変換するための、音声回路２６６を含む。これ
らの構成要素とその機能は、当業者に既知であり以後説
明しない。

【００５０】本発明の原理に従って、移動装置２００に
ロードされるソフトウェアは、音声認識アプリケーショ
ンを実行するサーバ装置と対話するのに関するユーザの
援助を提供する構成要素を含む。この援助を提供するソ
フトウェアは、マイクロブラウザ又は、他のアプリケー
ション又は、独立のアプリケーションの一部としてロー
ドされうる。このアプリケーションは、サービス、受信
された記号的データファイルの管理及び、ユーザ選択の
入力／変更を提供するサーバ装置の交信情報を取り出し
蓄積するタスクを担う。ユーザ援助は、例えば、スクリ
ーン表示情報、音声又は、触覚のプロンプト及び／又は
機能のマップされたソフトウェアキーである。

【００５１】例えば、アプリケーション（例えば、電子
メールメッセージ）と共に音声認識サービスを使用した
いユーザは、対象のアプリケーションにアクセスし、且
つ音声認識サービスにアクセスする為にソフトキーを活
性化する。ソフトキーに関連する機能は、既に蓄積され
ておらず、以下のように処理が進むなら音声認識アプリ
ケーションを実行するサーバ装置に関する交信情報を取
り出す。この例は、説明のために提示され、本発明の範
囲を限定するように解すべきではない。

【００５２】図３は、図１のリンクサーバ１０６に対応
するリンクサーバ３４０の原理的構成要素の概略を示
す。リンクサーバ３４０は、有線ネットワーク３００と
無線ネットワーク３２０の間のネットワークゲートウェ
イとして働くサーバコンピュータである。本発明の特徴
を曖昧にするのを避けるために、リンクサーバ３４０内
の既知の方法、手続、構成要素を及び、回路はは詳細に
は説明しない。

【００５３】リンクサーバ３４０は、有線ネットワーク
３００に接続されたランドコントロールプロトコル（Ｌ
ＣＰ）インターフェース３５８と、無線ネットワーク３
２０に接続された無線制御プロトコル（ＷＣＰ）インタ
ーフェース３４１を含む。サーバモジュール３１０は、
ＬＣＰインターフェース３５８とＷＣＰインターフェー
ス３４１の間に接続されている。

【００５４】サーバモジュール３１０は、１つの通信プ
ロトコルから他の通信プロトコルへのプロトコル変換と
従来のサーバ処理を実行する。メッセージプロセッサ３
１６は、プロトコル変換と関連するタスクを実行する構
成要素である。プロトコル変換（例えば、ＨＤＴＰとＨ
ＴＴＰの間）の場合には、変換は一般的には、データマ
ッピング処理である。当業者には、ＷＣＰインターフェ
ース３４１は、使用される無線ネットワークとプロトコ
ルに依存して他のインターフェースモジュールにより交
換できることは理解されよう。有線ネットワークとプト
トコルの形式が変わる場合には、ＬＣＰインターフェー
ス３５８についても同様である。

【００５５】サーバモジュール３１０は、口座マネージ
ャ３１２と口座インターフェース３１４をも有する。口
座マネージャ３１２は、典型的には、リンクサーバ装置
３４０によりサービスを受ける各々の移動装置に対して
の複数のユーザ口座を管理する。ユーザ口座情報は、リ
ンクサーバ装置３４０に接続された他のネットワークサ
ーバに蓄積されうることに注意すべきである。言い換え
ると、ユーザ口座を、ネットワークを介してリンクサー
バ装置３４０と接続されたどの計算装置内に物理的に配
置されるデータベース内に保持できる。

【００５６】リンクサーバ装置３４０によりサービスを
受ける各々の移動装置は、識別（ＩＤ）又は、装置ＩＤ
が割り当てられる。装置ＩＤは、装置の電話番号又は、
ＩＰアドレスとポート番号の組合せであり、例えば、Ｉ
Ｐアドレスが２０４．１６３．１６５．１３２で、ポー
ト番号が０１９０５の場合には、２０４．１６３．１６
５．１３２：０１９０５である。装置ＩＤは更に、移動
装置の加入者口座を活性化する手続の一部として、リン
クサーバ装置３４０を制御するキャリアにより生成され
管理される加入者ＩＤに更に関連する。

【００５７】加入者ＩＤは、特定のユーザ又は、装置に
関連する（例えば、図１の１１２のような）ユーザに特
定のファイルに関連しアクセスするのに使用され得る。

【００５８】加入者ＩＤは、例えば、ＡＴ＆Ｔ無線サー
ビスによる８６１２３４５６７−１０９００＿ｐｎ．ｍ
ｏｂｉｌｅ．ａｔｔ．ｎｅｔの形式を取り、且つ位相装
置に唯一の識別である。口座マネージャ３１２は、リン
クサーバ装置３４０との安全な通信を可能とする移動装
置に関するユーザ口座を生成する。この場合、口座マネ
ージャ３１２は、サービスを受ける移動装置がリンクサ
ーバ装置３４０により提供されるサービスに、適切なレ
ベルの安全なアクセスを保証する。

【００５９】リンクサーバ装置３４０は、主なハードウ
ェア部品として、プロセッサ３１８と蓄積資源３２０も
有する。プロセッサ３１８は、サーバモジュール３１０
の制御のもとで動作を行う。当業者は、リンクサーバ装
置３４０は、１つ又はそれ以上のプロセッサ（例えば、
プロセッサ３１８）、ワークメモリ（例えば、ワークメ
モリ３２０）、バスインターフェース、及び、他の構成
要素を含んでもよく、また、サーバモジュール３１０は
指定された機能を実行するためにリンクサーバ装置３４
０のワークメモリにロードされた１つ又はそれ以上ソフ
トウェアモジュールを示すことは理解されよう。同じ区
別が対象の移動装置のクライアントモジュール及び、ハ
ードウェア構成要素に等しく適用可能である。

【００６０】典型的には、地上ネット３００によりサポ
ートされている地上ネット通信プロトコル（ＬＰＣ）
は、転送制御プロトコル（ＴＣＰ）、ハイパーテキスト
転送プロトコル（ＨＴＴＰ）、安全ハイパーテキスト転
送プロトコル（ＨＴＴＰＳ）を含み、且つ、無線制御プ
ロトコル（ＷＣＰ）は、（ＴＣＰ）、（ＨＴＴＰ）、
（ＨＴＴＰＳ）、携帯装置転送プロトコル（ＨＤＴ
Ｐ）、又は、無線セッションプロトコル（ＷＳＰ）を含
む。ＬＰＣがＷＣＰと異なる場合には、サーバモジュー
ル３１０は、１つのプロトコルから他のプロトコルへマ
ッピングを行うマッピングモジュール（即ち、マッパ
ー）を含み、それにより、無線ネットワーク３２０に接
続された移動装置は、有線ネットワーク３００に接続さ
れた装置と通信できる。

【００６１】受信されたスピーチ信号が音声認識システ
ム（図示していない）により処理されると、記号的デー
タファイルが発生されリンクサーバ装置３４０へ送られ
る。記号的データファイルは、メッセージプロセッサ３
１６により、ＬＣＰインターフェース３５８を介して受
信される。メッセージプロセッサ３１６は、記号的デー
タファイルを、無線ネットワーク３２０で（無線ネット
ワークのプロトコル要求と要求する移動装置の装置特性
に関して）最適に搬送され得るデータフォーマットに変
換する。記号的データファイルは、音声認識システムか
ら受信されたときに、例えば、マークアップ言語（例え
ば、ＨＴＭＬ）又は、テキストファイル（例えば、ＡＳ
ＣＩＩ）の、メッセージプロセッサ３１６により理解さ
れるフォーマットである。処理された記号的データファ
イルは、要求する移動装置に更に互換性のあるように再
フォーマットされ得るが、要求する移動装置又は、指定
の第三者の装置に転送される。

【００６２】図４は、以下の処理１）音声検出、２）音
声分析、３）パターンマッチング、４）記号的ファイル
発生、を行う例示の音声認識サーバシステム４６０の
（図１の音声認識サーバシステム１０９に対応する）機
能モジュールを示す。音声検出４６２中に、音声認識サ
ーバシステム４６０は、入力でスピーチ信号の存在を検
出する。検出時に、受信されたスピーチ信号は、音声分
析処理４６４へ送られ、ここで、パターンマッチングに
適する計量可能な指数に減少される。パターンマッチン
グ段階４６６中は、計量可能な指数は、種々の言語辞書
と複数のユーザに特定のファイルを含み得る蓄積装置４
８０に蓄積された（テンプレートに基づくシステムな
ら）ユーザ音声テンプレートと比較される。記号的デー
タファイルは、前述のように有線ネットワーク３００
（図３）を介してリンクサーバ装置３４０へ転送され
る。当業者には、本発明の範囲を超えること無く他の音
声認識システム（例えば、フーリエ変換又は、線形予測
符号化（ＬＰＣ））が使用できることは理解されよう。
当業者は、リンクサーバ装置（例えば、図１の１０６）
は、音声認識サーバシステム（例えば、図１の１０９）
の機能を行うことができることは理解されよう。

【００６３】図５は、音声認識サービスを要求する移動
装置と音声認識サーバシステムとの対話に関する例示の
表示スクリーンを示す。最初のスクリーン表示５００
は、ユーザがマニュアル入力５０４とＶＲ（音声認識）
援助入力５０８の選択を可能とする。ユーザ選択は選択
指示子５１２により示される。この例では、ＶＲ援助入
力５１２は、ソフトキー識別子５１６に関連するソフト
キーを活性化することにより、選択される。この選択
は、サービスを提供する音声認識サーバシステムの交信
情報を取り出す。この例では、交信情報は電話番号（例
えば、６５０−５５５−７２７２）よりなる。当業者
は、交信情報は、ユニフォームリソース識別子（ＵＲ
Ｉ）又は、同様な唯一の識別子よりなることも理解され
よう。ユーザの特定のファイルにアクセスするのに使用
される、関連するユーザ及び／又は装置識別情報は、バ
ックグランド（例えば、データ通信チャネル又は、音声
通信チャネル）又は、ユーザにより入力で伝送され得
る。

【００６４】音声認識サーバシステムの交信情報５２２
の取り出しに際し、スクリーン表示５２０に示すよう
に、音声チャネルは、ソフトキー機能識別子５２４（”
ＯＫ”）に関連するソフトキーを活性化することにより
確立される。スクリーン表示５３０は、情報の形式を示
し、要求する移動装置のユーザへ提供される。文字列５
３２は、ユーザにサービスを提供する音声認識サーバシ
ステムを提供する。文字列５３４は、ユーザ要求を処理
するのに使用される設定に関する情報をユーザに供給す
る。これは、単純な文字列（例えば、”初期化デフォル
ト設定”）又は、ユーザが入力選択（例えば、言語選
択）が可能な、複数の対話及びひ対話的表示よりなる。
サービスする音声認識サーバシステムが、入力を受ける
準備ができたときには、ユーザにプロンプト５３６（”
話しを開始”）が提示される。ユーザはソフトキー機能
識別子５３８に関連するソフトキーを活性化することに
より入力セッションを終了する。

【００６５】音声認識サービスは、要求する移動装置内
にある特定のアプリケーションと対話するように成され
る。例えば、処理された記号的データは、電子メールの
ようなアプリケーションの特定のフィールドの入力とし
て使用するように発生される。更に、一旦アクティブ音
声チャネルが、音声認識サービスに確立されると、ユー
ザは音声通信チャネルを安全にし活再確立すること無し
にサービスを使用してアプリケーションを変更し得る。
例えば、ユーザは電子メールプログラムと個人オルガナ
イザの間で切り替えできる。この特徴は、ユーザのコス
トとネットワークの混雑を減少する。

【００６６】図６と図７は、それぞれ、本発明の実施例
に従った移動装置と音声認識サーバの動作を示す処理フ
ローチャートである。図６と図７は図１と共に理解され
るべきである。

【００６７】本発明の好適な実施例に従って、音声認識
サービスを望むユーサ゛は、ローカルユーザインターフェー
ス（例えば、キーを押す）を使用してサービスの要求を
開始する。一般的には、ユーザは、（例えば、電子メー
ル又は、ウェブブラウザのような）存在するアプリケー
ションを使用して行われる望むタスクと共に行う。要求
の結果として移動装置に戻る情報は、行われているタス
クに関連する文書内に統合される。

【００６８】要求処理は、サービスを要求する移動装置
と、サービスを提供する音声認識サーバシステムの間で
音声チャネルを確立する。一旦音声チャネルが確立され
そして、ユーザは話しの開始を待たされ、ユーザは、音
声入力に加えて（例えば、電話キーパッドの）ローカル
ユーザインターフェースを使用した物理的入力を含む、
移動装置と入力動作を開始する。移動装置との初期入力
動作が完了すると、ユーザは、音声チャネルのオープン
状態をオープンに維持することを選択しそして、他のタ
スクを実行し又は、音声チャネルを終了する。

【００６９】図６は、移動装置の観点からの、遠隔音声
認識サーバシステム（例えば、音声認識サーバシステム
１０９）と対話する（例えば、移動装置１０２と１０３
の）移動装置により利用される処理６００を示す。６０
４では、対象の移動装置と、サービスを提供する音声認
識サーバシステムの間のアクティブな音声チャネルはあ
るか否かが決定される。この処理は、ソフトウェア制御
の下でバックグランドで起こる。

【００７０】アクティブな音声チャネルがあると、ユー
ザは６０８で、ユーザはアクティブな音声チャネルを不
能にしたいか否かを示す入力を提供することが促され
る。これは、移動装置との予定している入力動作にＶＲ
サービスを要しない場合である。

【００７１】ユーザが音声チャネルを不能にしようと決
定した場合には、６１２で不能にされる。そして、ユー
ザは装置のユーザインターフェース（例えば、キーパッ
ド）を使用して物理的入力６２８へ進む。６２２で、ユ
ーザ入力（例えば、物理的入力６２８）が登録されたか
否かに関して決定される。ユーザ入力が登録されたな
ら、６３２へ進み、ユーザは、６３６で入力セッション
を継続するか終わらせるかについてを示す入力を供給す
るように促される。ユーザが終了を選択した場合には、
６４０で、確立された音声チャネル／回路の状態（即
ち、音声チャネル／回路活性化）に関する決定が成され
る。上述のシーケンスでは、アクティブな音声チャネル
はないので処理は終了する。

【００７２】６０８では、ユーザが音声認識サービスを
移動装置入力動作に使用するとして、ユーザが音声チャ
ネルを不能にしないと決定したときには、ユーザは音声
入力６２４と物理入力６２８を供給し、そして、６２２
で、ユーザ入力が登録されたか否かに関する決定が成さ
れる。ユーザ入力が登録された場合には、６３２で処理
され、ユーザは、６３６で、入力セッションを継続する
か終わらせるかについてを示す入力を供給するように促
される。ユーザが終了を選択した場合には、６４０で、
確立された音声チャネル／回路の状態に関する決定が成
される。終了に際し、アクティブな音声チャネル／回路
は安全にされる。処理は終了する。

【００７３】ユーザが６３６で入力セッションを終わら
せないと決定したときには、処理は処理６００の先頭に
戻る。

【００７４】６０４で、アクティブ音声チャネルがない
と決定された場合には、ユーザは、６１４で、ユーザは
アクティブな音声チャネルを確立したいか否かの指示の
入力を促される。これは、ユーザが移動装置との入力動
作で音声認識サービスを要求する場合である。

【００７５】６１４で、ユーザが入力対話動作に音声チ
ャネルを要求する場合には、６１８で音声チャネルは、
確立される。ユーザは、音声入力６２４と物理入力６２
８を供給し、ユーザの入力が登録されたかに関する決定
が成される。ユーザ入力が登録された場合には、６３２
で処理され、そして、ユーザは６３６で、入力セッショ
ンを継続するか終わらせるかについてを示す入力を供給
するように促される。ユーザが終了を選択した場合に
は、上述のように、６４０で、確立された音声チャネル
／回路の状態に関する決定が成される。終了に際し、ア
クティブな音声チャネル／回路は安全にされる。処理は
終了する。

【００７６】６１４で、ユーザが音声認識サービスを要
求しない場合として、ユーザが妨げる入力動作を音声チ
ャネルに要求しない場合には、ユーザは、移動装置ユー
ザインターフェース（例えば、キーパッド）を使用し
て、物理入力６２８とともに進む。６２２で、ユーザの
入力（例えば、物理入力６２８）が登録されたかに関す
る決定が成される。ユーザ入力が登録された場合には、
６３２で処理され、そして、６３６で、入力セッション
が継続されるべきか終了すべきかに関する決定が成され
る。そして、終了する。

【００７７】ユーザが６３６で、入力セッションを終了
しないと決定したなら、処理は処理６００の先頭に戻
る。

【００７８】上述のこれらの例示的な相互動作で、ユー
ザ入力が６２２で登録されない場合には、ユーザは６３
６で音声認識サーバシステムと共にセッションを終了し
たいか否かについて指示を供給することを促される。

【００７９】一旦、サービスを提供する音声認識システ
ムと、サービスを要求する移動装置の間の音声チャネル
が確立されると、音声認識サーバシステムは移動装置の
使用に関連するユーザの特定のファイル（例えば、言語
選択、テンプレートファイル等）を取り出し、そして、
入力音声入力を処理するのにこれらを使用する。音声認
識サーバシステムはサービスの要求に関連する入力する
音声信号を検出し、処理する。入力音声信号はテンプレ
ートマッチング処理、フーリエ変換法、線形予測符号化
機構又は、好適な音声認識符号化機構を使用して、記号
的データファイルに変換され、そして、中間サーバ装置
（例えば、図１のリンクサーバ１０６のような）データ
通信チャネルを使用して、要求する移動装置（又は、指
定の第三者装置）へ送られる。

【００８０】記号データファイルは、要求する移動装置
による処理に適するフォーマット（例えば、ｃＨＴＭ
Ｌ、ＷＭＬ又は、ＨＴＭＬ）又は、中間サーバ装置よる
処理に適するフォーマット（例えば、ＨＴＭＬ，ＷＭ
Ｌ、ＸＭＬ、ＡＳＣＩＩ等）であろう。後者の場合は、
中間サーバ装置は必要ならばどのような変換処理も行な
える。

【００８１】本発明の原理に従って、移動装置と対話す
るユーザは、音声認識アプリケーションを実行するサー
バ装置に基づく（例えば、音声認識サーバシステム）遠
隔で利用可能な音声認識サービスにアクセスできる。電
話に蓄積されたソフトウェア（例えば、マイクロブラウ
ザ）は、サーバ装置の交信情報を取り出し且つ管理する
ことにより及び、プロンプトを提供し、且つ音声認識サ
ーバシステムと対話するのに関する機能を行うことによ
り、ユーザを援助する。このシステムと方法を使用し
て、制限された処理及び蓄積能力を有する移動装置は、
能力のあるコンピュータワークステーション上で実行さ
れる完全な機能の音声認識アプリケーションにアクセス
できる。

【００８２】図７は、それぞれの音声認識サーバシステ
ムから（例えば、移動装置１０２の）移動装置と対話す
るのに（例えば、音声認識サーバシステム１０９の）音
声認識サーバシステムにより利用される、処理７００を
示すフロー図を示す。７０４で、（例えば、音声認識サ
ーバシステム１０９の）音声認識サーバシステムと（例
えば、移動装置１０２の）移動装置との間に、音声回路
／チャネルが確立されたか否かが、（即ち、ソフトウェ
ア処理により）決定される。

【００８３】７０４で、サービスを要求する移動装置と
音声回路／チャネルが確立された場合には、スピーチ信
号が検出されたかに関する決定が７０８で成される。７
０８で、スピーチ信号が検出された場合には、受信され
たスピーチ入力７１６は、７１２で、記号データファイ
ルを発生するのに使用される。

【００８４】前述のように、記号データファイルは複数
の文字、音素、単語、図、オブジェクト、コントロール
文字又は、オブジェクトを指定する他の従来のマーク、
量、動作、機能、音素、単語、フレーズ又は、受信され
た音声スピーチ信号と関連を有するそのどのような組合
せを有する、音声認識システムにより翻訳されたファイ
ルである。音声認識システムは、一般的には、音声テン
プレート、フーリエ変換符号化又は、線形予測符号化機
構を使用して、音声入力成分を予め蓄積された記号的基
礎単位へマップする。記号的データブロックの例はＡＳ
ＣＩＩファイルと２値データファイルを含む。

【００８５】記号データファイルは、７２０で、要求す
る移動装置（又は、指定された第三者の装置）へ転送さ
れる。７２４で、要求する移動装置から終了命令が送ら
れたかが決定される。終了命令が受信されると処理は終
了する。終了命令が受信されないときには、処理は７０
８で入力するスピーチ信号を捜して継続する。７０８
で、スピーチ信号が所定の時間期間内に受信されない場
合には、７２８で、終了命令が送られたかが決定され
る。終了命令が受信されると処理は終了する。終了命令
が受信されなくとも、システムは、処理を終了すること
になる所定のタイムアウト又は、サイクルリミットを有
する。

【００８６】７０４で、サービスを要求する移動装置と
音声回路／チャネルが確立された場合には、音声認識サ
ーバシステムは音声人子Ｋサービスを望む移動装置との
アクティブ音声チャネルの確立を待つ。

【００８７】本発明の原理により、音声認識サーバシス
テムは、移動装置のユーサ゛インターフェースの拡張として
機能する。例えば、ユーザは、通常の状況ではローカル
ユーザインターフェースを使用して入力するにはかなり
の時間のかかる長い対話動作に音声認識システムを使用
することを選択できる。

【００８８】

【発明の効果】本発明の優位点は多い。異なる実施は、
以下の１つ又はそれ以上の優位点を有する。本発明の１
つの優位点は、特定の移動装置（例えば、処理及び、蓄
積能力が制限されている装置）のユーザは、標準装置の
ユーザインターフェースを増加する遠隔サーバ装置上で
実行される完全機能の音声認識アプリケーションを使用
できる。

【００８９】本発明の他の優位点は、使用される音声認
識アプリケーションは移動装置の処理及び蓄積の制限に
により制限されず、ユーザは、更に能力のあるコンピュ
ータ上で実行される完全機能の音声認識アプリケーショ
ンを使用できる。この機能に関連する優位点は、多量の
語彙を有する辞書及び、個人化された辞書をユーザに供
給できる。更に、音声認識アプリケーションは、移動装
置上に蓄積されていないので、移動装置当りのコストに
衝撃を与えない。更に本発明の他の優位点は、このサー
ビスを提供するキャリアは、アクセスするユーザに低額
のサービス料を要求することができる。

【００９０】さらに本発明の他の優位点は、ユーザは、
音声認識サービスとローカルユーザインターフェース
（例えば、電話キーパッド）を同時に利用でき、これに
より、ユーザは最大の柔軟性を得る。例えば、ユーザ
は、音声信号とローカルユーザインターフェースからの
混ぜ合わされた記号を入力できる。

【００９１】本発明の多くの特徴と優位点が以上の説明
から明らかであり、請求項は本発明の全ての特徴と優位
点をカバーする。更に、多くの変形及び、変更は当業者
には容易くでき、本発明は、上述の説明の同一の構成と
動作には制限されない。従って、全ての好適な変形と等
価なものは本発明の範囲内である。

【図面の簡単な説明】

【図１】本発明が実行される概略のコンフィグレーショ
ンを示す図である。

【図２Ａ】典型的な音声を利用できる移動装置のディス
プレイとユーザインターフェースを示す図である。

【図２Ｂ】例示的な音声を利用できる移動装置の機能ブ
ロック図である。

【図３】本発明の好適な実施例に従ったリンクサーバ装
置の機能ブロック図である。

【図４】本発明の例示の実施例に従った音声認識サーバ
の例示の処理段階を示す概略図である。

【図５】移動装置と音声認識サーバシステムの相互作用
に関する動作を示す、代表的なスクリーン表示を示す図
である。

【図６】本発明の好適な実施例に従った移動装置の観点
からの処理フローチャートである。

【図７】本発明の好適な実施例に従った音声認識サーバ
の観点からの処理フローチャートである。

【符号の説明】

１０２、１０３移動装置１０４無線キャリアネットワーク１０６リンクサーバ１０８有線ネットワーク１０９音声認識サーバシステム１１０サーバ装置１１２蓄積装置１１３ネットワークサーバ１１８地上ネット１２１キャリア通信設備１２６音声チャネル１２８広帯域チャネル１３０狭帯域チャネル１４０マルチメディアコンピュータ２００移動装置２０４表示スクリーン２０８Ａ、２０８Ｂソフトキーの組２１０拡張電話形式キーパッド２１２Ｂマイクロフォン２１２Ａイアホン２１６要素指示子２２２、２２４カーソルナビゲーションキー２４０リンクサーバ２５０移動装置２５２ＷＣＰインターフェース２５６クライアントモジュール２５８ワークメモリ２６４エンコーダ／デコーダ２６６音声回路２６８プロセッサ３００有線ネットワーク３１０サーバモジュール３１２口座マネージャ３１４口座インターフェース３１６メッセージプロセッサ３１８プロセッサ３２０無線ネットワーク３４０リンクサーバ装置３４１ＷＣＰインターフェース３５８ＬＣＰインターフェース４６０音声認識サーバシステム５２２音声認識サーバシステムの交信情報

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｍ 11/00 ３０２Ｇ１０Ｌ 3/00 ５５１ＡＨ０４Ｑ 7/38 Ｈ０４Ｑ 7/04 Ｄ

Claims

【特許請求の範囲】

【請求項１】表示スクリーンとユーザインターフェー
スを有する無線通信装置へ、音声認識サービスを提供す
る方法であって、音声認識アプリケーションを実行しているサーバ装置で
音声認識サービスのために、無線通信装置から要求を受
信するステップと、第１の通信経路から要求に関連する音声入力信号を取り
出すステップと、音声認識アプリケーションを使用して、音声入力信号
を、記号的なデータファイルへ変換するステップと、第２の通信経路を使用して、記号的データファイルを無
線通信装置へ送るステップとを有する方法。
【請求項２】第１の通信経路は、無線通信ネットワー
ク上で確立される請求項１記載の方法。
【請求項３】無線通信ネットワークは、セルラディジ
タルパケットデータ（ＣＤＰＤ）ネットワーク、移動通
信のためのグローバルシステム（ＧＳＭ）ネットワー
ク、符号分割多重（ＣＤＭＡ）ネットワーク、パーソナ
ルハンディフォンシステム（ＰＨＳ）及び時分割多重ア
クセス（ＴＤＭＡ）ネットワークよりなるグループから
選択される請求項２記載の方法。
【請求項４】記号的データファイルはマークアップ言
語ファイルである請求項１記載の方法。
【請求項５】マークアップ言語ファイルは、携帯装置
マークアップ言語（ＨＤＭＬ）、ハイパーテキストマー
クアップ言語（ＨＴＭＬ）、コンパクトハイパーテキス
トマークアップ言語（ｃＨＴＭＬ）、無線マークアップ
言語（ＷＭＬ）、標準一般化マークアップ言語（ＳＧＭ
Ｌ）及び拡張可能なマークアップ言語（ＸＭＬ）よりな
るグループから選択される請求項４記載の方法。
【請求項６】記号的データファイルはバイナリーデー
タファイルである請求項１記載の方法。
【請求項７】記号的データファイルはＡＳＣＩＩフォ
ーマットのデータファイルである請求項１記載の方法。
【請求項８】第２の通信経路は、第１の通信プロトコ
ルを使用する有線ネットワークにより音声認識アプリケ
ーションを実行しているサーバ装置と、第２の通信プロ
トコルを使用して無線ネットワークにより無線通信装置
に接続されたリンクサーバ装置を有する請求項１記載の
方法。
【請求項９】第１の通信プロトコルは、転送制御プロ
トコル/インターネットプロトコル（ＴＣＰ／ＩＰ）、
ハイパーテキスト転送プロトコル（ＨＴＴＰ）、安全ハ
イパーテキスト転送プロトコル（sＨＴＴＰ）よりなる
グループから選択される請求項８記載の方法。
【請求項１０】第２の通信プロトコルは、無線通信プ
ロトコルである請求項８記載の方法。
【請求項１１】無線通信プロトコルは、無線アクセス
プロトコル（ＷＡＰ）及び、携帯装置転送プロトコル
（ＨＤＴＰ）よりなるグループから選択される請求項１
０記載の方法。
【請求項１２】無線通信装置から受信された要求は、
ユーザに特定の識別情報を有する請求項１記載の方法。
【請求項１３】ユーザに特定の識別情報は、音声認識
サービスのための要求を処理するために、ユーザに特定
のファイルを取り出すために使用される請求項１２記載
の方法。
【請求項１４】無線通信装置から受信された要求は、
装置に特定の識別情報を有する請求項１記載の方法。
【請求項１５】装置に特定の識別情報は、音声認識サ
ービスのための要求を処理するために、ユーザに特定の
ファイルを取り出すために使用される請求項１４記載の
方法。
【請求項１６】装置に特定の識別情報は、電話番号及
び、ユニフォームリソース識別子（ＵＲＩ）よりなるグ
ループから選択される請求項１４記載の方法。
【請求項１７】無線通信装置は移動電話である請求項
１記載の方法。
【請求項１８】移動電話は、マイクロプロセッサとソ
フトウェアの蓄積領域を有する請求項１７記載の方法。
【請求項１９】マイクロプロセッサは、電話機能とロ
ーカルアプリケーションを制御するために蓄積領域に蓄
積されたソフトウェアを使用する請求項１８記載の方
法。
【請求項２０】ローカルアプリケーションは、音声認
識サービスを得るのに関連する機能を提供する請求項１
９記載の方法。
【請求項２１】表示スクリーンとユーザインターフェ
ースを有する無線通信装置へ、音声認識サービスを提供
する方法であって、音声認識アプリケーションを実行しているサーバ装置に
関する交信情報を取り出すステップと、取り出された交信情報に関連するサーバ装置から音声認
識サービスに関する要求を発生するステップと、取り出された交信情報に関連するサーバ装置へ、音声認
識サービスに関する要求を送るステップと、無線通信装置と取り出された交信情報に関連するサーバ
装置との間で音声通信チャネルを確立するステップと、無線通信装置を使用しているユーザから、入力の少なく
とも一部が音声成分を含む入力を受信するステップと、音声認識アプリケーションにより処理するために、ユー
ザ入力をサーバ装置へ伝送するステップとを有する方
法。
【請求項２２】交信情報は、電話番号及び、ユニフォ
ームリソース識別子（ＵＲＩ）よりなるグループから選
択される請求項２１記載の方法。
【請求項２３】音声通信チャネルは、無線ネットワー
ク上で確立される請求項２１記載の方法。
【請求項２４】無線通信ネットワークは、セルラデ
ィジタルパケットデータ（ＣＤＰＤ）ネットワーク、移
動通信のためのグローバルシステム（ＧＳＭ）ネットワ
ーク、符号分割多重（ＣＤＭＡ）ネットワーク、パーソ
ナルハンディフォンシステム（ＰＨＳ）及び時分割多重
アクセス（ＴＤＭＡ）ネットワークよりなるグループか
ら選択される請求項２３記載の方法。
【請求項２５】取り出された交信情報に関連するサー
バ装置から、サーバ装置によりユーザ入力の音声認識処
理の処理された出力を有する、記号的データファイルを
受信ステップと、受信された記号的データファイルを、無線通信装置のロ
ーカル資源を使用して処理するステップと、処理された記号的データファイルの少なくとも一部を、
再見と変更のためにユーザへ表示するステップとを更に
有する請求項２１記載の方法。
【請求項２６】受信された記号的データファイルは、
マークアップ言語ファイルである請求項２５記載の方
法。
【請求項２７】マークアップ言語ファイルは、携帯装
置マークアップ言語（ＨＤＭＬ）、ハイパーテキストマ
ークアップ言語（ＨＴＭＬ）、コンパクトハイパーテキ
ストマークアップ言語（ｃＨＴＭＬ）、無線マークアッ
プ言語（ＷＭＬ）、標準一般化マークアップ言語（ＳＧ
ＭＬ）及び拡張可能なマークアップ言語（ＸＭＬ）より
なるグループから選択される請求項２６記載の方法。
【請求項２８】記号的データファイルはバイナリーデ
ータファイルである請求項２５記載の方法。
【請求項２９】記号的データファイルはＡＳＣＩＩフ
ォーマットのデータファイルである請求項２５記載の方
法。
【請求項３０】無線通信装置のための音声認識サービ
スのための要求を発生するコンピュータプログラムコー
ドがその上に符号化されたコンピュータ読出し可能な媒
体であって、音声認識サービスを提供するサーバ装置に関する交信情
報を取り出すコンピュータプログラムコードと、取り出された交信情報に関連するサーバ装置から音声認
識サービスに関する要求を発生するコンピュータプログ
ラムコードと、無線通信装置のユーザから、音声認識サービスのための
要求に関連している音声入力を受信するコンピュータプ
ログラムコードと、無線通信装置と、音声信号を音声認識処理のためのサー
バ装置へ伝送する目的のサーバ装置との間で音声通信セ
ッションを確立するコンピュータプログラムコードとを
有するコンピュータ読出し可能な媒体。
【請求項３１】交信情報は、電話番号及び、ユニフォ
ームリソース識別子（ＵＲＩ）よりなるグループから選
択される請求項３０記載のコンピュータ読出し可能な媒
体。
【請求項３２】無線通信装置へ音声認識サービスを提
供するコンピュータプログラムコードがその上に符号化
されたコンピュータ読出し可能な媒体であって、移動装置から受信した音声認識サービスのための要求を
処理するためのコンピュータプログラムコードと、音声認識サービスのための要求に関連する音声認識を受
信するためのコンピュータプログラムコードと、受信された音声入力を記号的データファイルへ変換する
ためのコンピュータプログラムコードと、記号的データファイルを、要求を発した移動装置へ送る
ためのコンピュータプログラムコードとを有するコンピ
ュータ読出し可能な媒体。
【請求項３３】記号的データファイルはマークアップ
言語ファイルである請求項３２記載のコンピュータ読出
し可能な媒体。
【請求項３４】マークアップ言語ファイルは、携帯装
置マークアップ言語（ＨＤＭＬ）、ハイパーテキストマ
ークアップ言語（ＨＴＭＬ）、コンパクトハイパーテキ
ストマークアップ言語（ｃＨＴＭＬ）、無線マークアッ
プ言語（ＷＭＬ）、標準一般化マークアップ言語（ＳＧ
ＭＬ）及び拡張可能なマークアップ言語（ＸＭＬ）より
なるグループから選択される請求項３３記載のコンピュ
ータ読出し可能な媒体。
【請求項３５】要求に関連するユーザに特定のファイ
ルを取り出すためのコンピュータプログラムコードと、音声入力を記号的データファイルへ変換する変換処理中
に、ユーザに特定のファイルを利用するコンピュータプ
ログラムコードとを更に有する請求項３２記載のコンピ
ュータ読出し可能な媒体。
【請求項３６】ユーザに特定のファイルはユーザの嗜
好を含む請求項３５記載のコンピュータ読出し可能な媒
体。
【請求項３７】ユーザに特定のファイルはユーザの音
声テンプレートを含む請求項３５記載のコンピュータ読
出し可能な媒体。
【請求項３８】音声認識サービスを提供する無線通信
システムであって、第１の通信経路で音声認識処理のための音声入力を提供
し且つ、第２の通信経路で処理された音声入力を表す記
号的データファイルを受信する無線通信装置と、第１の通信経路で無線通信装置からの音声入力信号受信
し、受信した音声入力信号を、記号的なデータファイル
へ変換し、第２の通信経路を使用して、記号的データフ
ァイルを無線通信装置へ送る音声認識アプリケーション
を実行しているサーバ装置を有するシステム。
【請求項３９】第１の通信経路は、無線通信ネットワ
ーク上で確立される請求項３８記載の無線通信システ
ム。
【請求項４０】無線通信ネットワークは、セルラディ
ジタルパケットデータ（ＣＤＰＤ）ネットワーク、移動
通信のためのグローバルシステム（ＧＳＭ）ネットワー
ク、符号分割多重（ＣＤＭＡ）ネットワーク、パーソナ
ルハンディフォンシステム（ＰＨＳ）及び時分割多重ア
クセス（ＴＤＭＡ）ネットワークよりなるグループから
選択される請求項３９記載の無線通信システム。
【請求項４１】第２の通信経路は、第１の通信プロト
コルを使用する有線ネットワークにより音声認識アプリ
ケーションを実行しているサーバ装置と、第２の通信プ
ロトコルを使用して無線ネットワークにより無線通信装
置に接続されたリンクサーバ装置を有する請求項４０記
載の無線通信システム。
【請求項４２】第１の通信プロトコルは、転送制御プ
ロトコル/インターネットプロトコル（ＴＣＰ／Ｉ
Ｐ）、ハイパーテキスト転送プロトコル（ＨＴＴＰ）、
安全ハイパーテキスト転送プロトコル（sＨＴＴＰ）よ
りなるグループから選択される請求項４１記載の無線通
信システム。
【請求項４３】第２の通信プロトコルは、無線通信プ
ロトコルである請求項４１記載の無線通信システム。
【請求項４４】無線通信プロトコルは、無線アクセス
プロトコル（ＷＡＰ）及び、携帯装置転送プロトコル
（ＨＤＴＰ）よりなるグループから選択される請求項４
３記載の無線通信システム。
【請求項４５】無線通信装置は移動電話である請求項
３８記載の無線通信システム。
【請求項４６】移動電話は、マイクロプロセッサとソ
フトウェアの蓄積領域を有する請求項４５記載の無線通
信システム。
【請求項４７】マイクロプロセッサは、電話機能とロ
ーカルアプリケーションを制御するために蓄積領域に蓄
積されたソフトウェアを使用する請求項４６記載の無線
通信システム。
【請求項４８】ローカルアプリケーションは、音声認
識サービスを得るのに関連する機能を提供する請求項４
７記載の無線通信システム。