JP2006053906A

JP2006053906A - コンピューティングデバイスへの入力を提供するための効率的なマルチモーダル方法

Info

Publication number: JP2006053906A
Application number: JP2005204325A
Authority: JP
Inventors: Eric I-Chao Chang; イ−チャオチャンエリック
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-07-13
Filing date: 2005-07-13
Publication date: 2006-02-23
Also published as: US20060036438A1; CN1758211A; EP1617409B1; DE602005027522D1; KR20060050139A; EP1617409A1; ATE506674T1; KR101183340B1

Abstract

【課題】ユーザから受け取った入力音声を含む入力をコンピュータへ提供する方法およびシステムを実現する。
【解決手段】ユーザから入力音声を受け取り、入力音声に対応するデータを提供する。このデータを用いて句（フレイズ）のコレクションを検索し、そのコレクションからデータと関係を有する１つ以上の句を識別（特定）する。その１つ以上の句は、ユーザに視覚的に提示される。ユーザからこれら句のうちの１つを選択したことの指示を受け取り、選択された句をコンピューティングデバイス上で動作するアプリケーションに提供する。
【選択図】図４

Description

本発明は、コンピューティングデバイスへの入力を提供することに関する。より詳細には、本発明は、効率を改善するために代替セットからの所望の入力の音声認識と識別を含む入力を提供するマルチモーダル方法に関する。

パーソナル情報管理（ＰＩＭ）デバイスや携帯電話のような小型のコンピューティングデバイスが、人々によって日々の活動においてますます高い頻度で用いられている。これらのデバイスを動作させるために用いられるマイクロプロセッサにとって現在利用可能な処理能力が向上するとともに、これらのデバイスの機能も向上し、場合によっては融合している。例えば、多くの携帯電話は現在、インターネットにアクセスして住所（アドレス）、電話番号等の個人情報をブラウズする（目を通す）ために使用可能であるとともに、記憶するためにも使用可能である。

したがって、これらのコンピューティングデバイスがますます多くの作業に用いられていることに鑑みると、コンピューティングデバイスに容易かつ効率的に情報を入力することが必要となる。残念ながら、これらのデバイスを携帯しやすくするためにできるだけ小さくしておきたいという要求から、コンピューティングデバイスのハウジング上で利用可能な表面積が制限されているので、すべての英字と独立のボタンを供えた従来型のキーボードは通常不可能である。同様に、手書き認識には文字入力に都合のよいエリアを有するパッドあるいはディスプレイが必要であるが、これがコンピューティングデバイスの全体的サイズを増大させることがある。それにまた、手書き認識は一般的に遅い入力方法である。

したがって、データ、コマンド等をコンピューティングデバイスに入力する方法を改善することが必要とされている。このような改善は、ＰＩＭ、電話機等の小型コンピューティングデバイスのための便利なデータ入力を可能にし、さらに、パーソナルコンピュータ、テレビ等のような他のコンピューティングデバイスにおいても有益となり得る。

コンピュータへの入力を提供する方法およびシステムは、ユーザから入力音声を受け取り、入力音声に対応するデータを提供することを含む。このデータを用いて句（ｐｈｒａｓｅ;フレイズ）のコレクション（収集）を検索し、そのコレクションからデータと関係を有する１つ以上の句を識別する。その１つ以上の句は、ユーザに視覚的に提示される。ユーザから句のうちの１つを選択したことの指示を受け取り、選択された句をコンピューティングデバイス上で動作するアプリケーションに提供する。

音声入力と、視覚的に提示された句候補の選択とを組み合わせて使用することにより、特に手操作入力デバイスの実装が困難なモバイルコンピューティングデバイス上で、ユーザが情報にアクセスするための効率的方法が提供される。ユーザに音響的な検索クエリを提供できるようにすることにより、ユーザは検索タームを迅速に提供でき、この検索タームを用いて、ユーザは入力したい句候補の包括的コレクションを検索できる。さらに、ユーザは視覚的に提示された句候補のリストに容易に目を通すことができるので、所望の句をすぐに見つけることができ、例えばポインティングデバイスを用いて句を選択できる。その句が、コンピューティングデバイス上で実行されるアプリケーションのための入力として用いられる。

本発明の諸態様を説明する前に、それらの諸態様を組み込んで活用することができるコンピューティングデバイスについて概説するのが有益であろう。図１を参照すると、データ管理デバイス（ＰＩＭ、ＰＤＡ等）の例示的形態が３０に示されている。しかし、本発明は、以下で説明する他のコンピューティングデバイス、特に、入力ボタン等のための表面積が制限されたコンピューティングデバイスを用いても実施可能であると考えられる。例えば、電話機やデータ管理デバイスもまた本発明から利益を受けるであろう。このようなデバイスは、従来のポータブルパーソナル情報管理デバイスやその他のポータブル電子デバイスと比べて実用性が高く、このようなデバイスの機能と、そのサイズが小型であることから、ユーザはますますデバイスを常に携帯したくなるであろう。したがって、本明細書に記載される本発明の諸態様は、本明細書で説明される例示的なデータ管理デバイスやＰＩＭデバイス、電話機あるいはコンピュータの開示によって限定されるという意図はない。

データ管理モバイルデバイス３０の例示的形態が図１に示されている。モバイルデバイス３０は、ハウジング３２を含むとともに、ユーザインタフェースを有する。ユーザインタフェースは、ディスプレイ３４を含み、スタイラス３３とともに接触感知式ディスプレイ画面を使用する。スタイラス３３は、指定の座標でディスプレイ３４を押し、あるいはそれに触れることで、フィールドを選択し、カーソルの開始位置を選択的に移動し、あるいはその他、ジェスチャ（意思表示、合図）や手書き等を通じてコマンド情報を提供するために用いられる。別法として、またはこれに加えて、ナビゲーション用に１つまたは複数のボタン３５をデバイス３０に含めることができる。さらに、回転ホイール、ローラ等のような他の入力メカニズムも提供できる。しかし、本発明は入力メカニズムのこれらの形態によって限定されることを意図していないことに留意されたい。例えば、他の形態の入力として、コンピュータビジョン等による視覚的入力が挙げられる。

次に図２を参照すると、モバイルデバイス３０を構成する機能コンポーネントをブロック図で示している。中央処理ユニット（ＣＰＵ）５０がソフトウェア制御機能を実施する。ＣＰＵ５０はディスプレイ３４に接続され、制御ソフトウェアによって生成されるテキストおよびグラフィックアイコンがディスプレイ３４に現れるようにしている。スピーカ４３が、音響出力を提供するために、通常はディジタル−アナログコンバータ５９を用いてＣＰＵ５０に接続され得る。ユーザによってモバイルデバイス３０にダウンロードあるいは入力されるデータは、ＣＰＵ５０に双方向接続された不揮発性読み書きランダムアクセスメモリ記憶部５４に記憶される。ランダムアクセスメモリ（ＲＡＭ）５４は、ＣＰＵ５０によって実行される命令のための揮発性ストレージと、レジスタ値のような一時データのためのストレージを提供する。設定オプションおよびその他の変数のためのデフォルト値が、読み出し専用メモリ（ＲＯＭ）５８に記憶される。ＲＯＭ５８は、モバイルデバイス３０の基本機能およびその他のオペレーティングシステムカーネル機能（例えばＲＡＭ５４へのソフトウェアコンポーネントのロード）を制御する、デバイスのためのオペレーティングシステムソフトウェアを記憶するためにも用いることができる。

ＲＡＭ５４は、アプリケーションプログラムを記憶するために用いられるＰＣ上のハードドライブの機能に類似した方法で、コードのためのストレージとしても作用する。なお、コードを記憶するために不揮発性メモリが用いられているが、別法として、コードの実行のために使用されない揮発性メモリにも記憶できることに留意されたい。

無線信号が、ＣＰＵ５０に接続された無線トランシーバ５２を通じてモバイルデバイスによって送受信されることが可能である。必要であれば、コンピュータ（例えばデスクトップコンピュータ）から、または有線ネットワークから直接にデータをダウンロードするために、任意選択の通信インタフェース６０を提供することも可能である。それに応じて、インタフェース６０は、例えば赤外線リンク、モデム、ネットワークカード等の種々の形態の通信デバイスを含み得る。

モバイルデバイス３０は、マイクロフォン２９、およびアナログ−ディジタル（Ａ／Ｄ）コンバータ３７、ならびに記憶部５４に記憶される任意選択の認識プログラム（音声、ＤＴＭＦ、手書き、ジェスチャまたはコンピュータビジョン）を含む。例として、デバイス３０のユーザからの音響情報、命令またはコマンドに応答して、マイクロフォン２９は音声信号を提供し、これがＡ／Ｄコンバータ３７によってディジタル化される。音声認識プログラムは、ディジタル化された音声信号に対して正規化および／または特徴抽出機能を実行することにより、中間的な音声認識結果を得ることができる。音声認識は、モバイルデバイス３０上で、および／または無線トランシーバ５２あるいは通信インタフェース６０を用いて実行でき、音声データは、図４に示すようにインターネット等のローカルエリアネットワークまたは広域ネットワークを通じてリモート認識サーバ２００に送信されることが可能である。

本発明は、上記のポータブルまたはモバイルコンピューティングデバイスに加えて、一般的なデスクトップコンピュータのような数多くの他のコンピューティングデバイスで使用可能であることも理解されたい。例えば、本発明によれば、身体能力に制約のあるユーザが、英数字フルキーボードのような他の従来の入力デバイスではあまりに困難で操作できない場合に、コンピュータやその他のコンピューティングデバイスにテキストを入力することができる。

本発明は、数多くの他の汎用または専用のコンピューティングシステム、環境または構成でも動作する。本発明とともに使用するのに好適であり得る周知のコンピューティングシステム、環境、および／または構成の例として、以下のものに限定されないが、通常の（画面なしの）電話機、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサ方式のシステム、セットトップボックス、プログラム可能型の消費者電子機器、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、上記のシステムまたはデバイスの任意のものを含む分散コンピューティング環境等がある。

以下で、図３に示す汎用コンピュータ１２０を簡単に説明する。しかし、コンピュータ１２０もまた、好適なコンピューティング環境の単なる一例に過ぎず、本発明の利用または機能の範囲に関するいかなる限定を示唆することも意図していない。また、コンピュータ１２０は、そこに示されるいかなるコンポーネントまたはその組合せに関するいかなる従属性または要件を有するとも解釈されてはならない。

本発明は、コンピュータによって実行されるプログラムモジュール等のコンピュータ実行可能命令との一般的関連で記述できる。一般的に、プログラムモジュールは、特定のタスクを実行し、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を含む。また、本発明は、通信ネットワークを通じてリンクされたリモート処理デバイスによってタスクが実行されるような分散コンピューティング環境において実施してもよい。分散コンピューティング環境では、プログラムモジュールはメモリ記憶デバイスを含むローカルおよびリモートの両方のコンピュータ記憶媒体に配置されてもよい。プログラムおよびモジュールによって実行されるタスクについて、以下で図面を参照して説明する。当業者は、本明細書に提供される説明および図面を、プロセッサで実行可能な命令として実装することができる。それらの命令は、任意の形態のコンピュータ可読媒体に書き込むことができる。

図３を参照すると、コンピュータ１２０のコンポーネントとしては、処理ユニット１４０、システムメモリ１５０、およびシステムメモリを含む種々のシステムコンポーネントを処理ユニット１４０に接続するシステムバス１４１が挙げられるが、これらには限定されない。システムバス１４１は、さまざまなバスアーキテクチャの任意のものを使用するメモリバスまたはメモリコントローラ、ペリフェラル（周辺機器の）バス、およびローカルバスを含む、いくつかのタイプのバス構造のいずれでもよい。例として、限定ではないが、このようなアーキテクチャとしては、Industry Standard Architecture（ＩＳＡ）バス、ユニバーサルシリアルバス（ＵＳＢ）、Micro Channel Architecture（ＭＣＡ）バス、Enhanced ISA（ＥＩＳＡ）バス、Video Electronics Standards Association（ＶＥＳＡ）ローカルバス、およびMezzanineバスとも呼ばれるPeripheral Component Interconnect（ＰＣＩ）バスがある。コンピュータ１２０は通常、さまざまなコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ１２０がアクセスできるいかなる利用可能な媒体であってもよく、揮発性および不揮発性媒体、リムーバブル（取り外し可能）および非リムーバブル（取り外し不能）媒体の両方がある。例として、限定ではないが、コンピュータ可読媒体としては、コンピュータ記憶媒体および通信媒体が挙げられる。コンピュータ記憶媒体としては、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータのような情報の記憶のための任意の方法または技術で実現された揮発性および不揮発性、リムーバブルおよび非リムーバブルの両方の媒体がある。コンピュータ記憶媒体としては、以下のものに限定されないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ等のメモリ技術、ＣＤ−ＲＯＭ、ディジタル多用途ディスク（ＤＶＤ）等の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ等の磁気記憶デバイス、または所望の情報を記憶するために使用可能でありコンピュータ１２０によりアクセス可能な任意の他の媒体がある。

通信媒体は通常、キャリア波（搬送波）等の変調データ信号または他のトランスポートメカニズム（搬送機構）で、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータを具現化した、いかなる情報配信媒体も含む。「変調データ信号」という用語は、信号中に情報を符号化するように１つまたは複数の信号の特性が設定または変更された信号を意味する。例として、限定ではないが、通信媒体としては、有線ネットワークまたは直接有線コネクションのような有線媒体、および音響、ＲＦ（無線周波数）、赤外線等の無線媒体のようなワイヤレス媒体がある。上記の任意のものの組合せもまた、コンピュータ可読媒体の範囲内に含まれるべきである。

システムメモリ１５０は、読み出し専用メモリ（ＲＯＭ）１５１およびランダムアクセスメモリ（ＲＡＭ）１５２のような揮発性および／または不揮発性メモリの形態のコンピュータ記憶媒体を含む。起動中等にコンピュータ１２０内の要素間で情報を転送するのに役立つ基本ルーチンを含む基本入出力システム１５３（ＢＩＯＳ）が通常ＲＯＭ１５１に記憶される。ＲＡＭ１５２は通常、処理ユニット１４０から直ちにアクセス可能な、および／または処理ユニット１４０が現在作用しているデータおよび／またはプログラムモジュールを含む。例として、限定ではないが、図３は、オペレーティングシステム１５４、アプリケーションプログラム１５５、他のプログラムモジュール１５６、およびプログラムデータ１５７を示している。

また、コンピュータ１２０は、他のリムーバブル／非リムーバブル、揮発性／不揮発性のコンピュータ記憶媒体を含んでもよい。単なる例として、図３は、非リムーバブル不揮発性磁気媒体の読み書きを行うハードディスクドライブ（駆動部）１６１、リムーバブル不揮発性磁気ディスク１７２の読み書きを行う磁気ディスクドライブ１７１、およびＣＤ−ＲＯＭ等の光媒体のようなリムーバブル不揮発性光ディスク１７６の読み書きを行う光ディスクドライブ１７５を示している。例示したオペレーティング環境で使用可能な他のリムーバブル／非リムーバブル、揮発性／不揮発性のコンピュータ記憶媒体としては、以下のものに限定されないが、磁気テープカセット、フラッシュメモリカード、ディジタル多用途ディスク、ディジタルビデオテープ、固体ＲＡＭ、固体ＲＯＭ等がある。ハードディスクドライブ１６１は通常、インタフェース１６０のような非リムーバブルメモリインタフェースを通じてシステムバス１４１に接続され、磁気ディスクドライブ１７１および光ディスクドライブ１７５は通常、インタフェース１７０のようなリムーバブルメモリインタフェースによりシステムバス１４１に接続される。

前述し図３に示したドライブおよびそれらに関連するコンピュータ記憶媒体は、コンピュータ１２０のためのコンピュータ可読命令、データ構造、プログラムモジュールおよび他のデータのストレージを提供する。例えば図３において、ハードディスクドライブ１６１は、オペレーティングシステム１６４、アプリケーションプログラム１６５、他のプログラムモジュール１６６、およびプログラムデータ１６７を記憶するように示されている。なお、これらのコンポーネントは、オペレーティングシステム１５４、アプリケーションプログラム１５５、他のプログラムモジュール１５６、およびプログラムデータ１５７と同じでも異なってもよいことに留意されたい。オペレーティングシステム１６４、アプリケーションプログラム１６５、他のプログラムモジュール１６６、およびプログラムデータ１６７は、少なくともそれらが別のコピーであることを示すためにここでは異なる番号が与えられている。

ユーザは、キーボード１８２、マイクロフォン１８３、およびマウス、トラックボールまたはタッチパッド等のポインティングデバイス１８１のような入力デバイスを通じてコンピュータ１２０にコマンドおよび情報を入力することができる。他の入力デバイス（図示せず）としては、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナ等が挙げられる。これらおよび他の入力デバイスは、システムバスに結合したユーザ入力インタフェース１８０を通じて処理ユニット１４０に接続されることが多いが、パラレルポート、ゲームポートまたはユニバーサルシリアルバス（ＵＳＢ）等の他のインタフェースおよびバス構造により接続されてもよい。モニタ１８４または他のタイプのディスプレイデバイスもまた、ビデオインタフェース１８５のようなインタフェース経由でシステムバス１４１に接続される。モニタに加えて、コンピュータはスピーカ１８７やプリンタ１８６のような他の周辺出力デバイスを含んでもよく、これらは出力周辺インタフェース１８８を通じて接続され得る。

コンピュータ１２０は、リモートコンピュータ１９４のような１つまたは複数のリモートコンピュータへの論理コネクションを用いたネットワーク環境で動作し得る。リモートコンピュータ１９４は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークＰＣ、ピアデバイスまたは他の一般的なネットワークノードであってよく、通常、コンピュータ１２０に関して前述した要素の多くまたはすべてを含む。図３に示す論理コネクションは、ローカルエリアネットワーク（ＬＡＮ）１９１および広域ネットワーク（ＷＡＮ）１９３を含むが、他のネットワークを含んでもよい。このようなネットワーキング環境は、オフィス、企業規模のコンピュータネットワーク、イントラネットおよびインターネットで一般的である。

ＬＡＮネットワーキング環境で使用される場合、コンピュータ１２０はネットワークインタフェースすなわちアダプタ１９０を通じてＬＡＮ１９１に接続される。ＷＡＮネットワーキング環境で使用される場合、コンピュータ１２０は通常、インターネットのようなＷＡＮ１９３を通じて通信を確立するためのモデム１９２等の手段を含む。モデム１９２は、内蔵でも外付けでもよいが、ユーザ入力インタフェース１８０等の適当なメカニズムを通じてシステムバス１４１に接続され得る。ネットワーク環境では、コンピュータ１２０に関して図示したプログラムモジュールまたはその部分は、リモートメモリ記憶デバイスに記憶されてもよい。例として、限定ではないが、図３は、リモートアプリケーションプログラム１９５がリモートコンピュータ１９４上に存在するように示している。理解されるように、図示したネットワークコネクションは例示であり、コンピュータ間に通信リンクを確立する他の手段を使用してもよい。

図４は、本発明の諸態様を実施するのに好適なコンポーネントまたはモジュールの概略図である。モバイルデバイス３０上で、例として、マイクロフォン２９によってキャプチャされオーディオキャプチャモジュール２０４によって好適に処理された音声入力が音声検索サーバ２０６に提供される。例えば、データはＰＣＭフォーマットで音声検索サーバ２０６に送信することができる。音声検索サーバ２０６は、受信した音声サンプルをローカル（近くの）音声認識モジュール２０８および／またはリモート（遠隔地の）音声認識サーバ２００に送る。豊富な語彙の音声認識および／または特定用途向け音声認識が使用可能である。同様に、音声認識は、単音レベル、単語フラグメント（断片）レベルまたは単語レベルでの音認識を使用可能である。認識結果は音声検索サーバ２０６に返される。そして音声検索サーバ２０６でその認識結果を用いて情報検索技法に係わるデータクエリ（データ検索要求）（例えばパターン）を作成する。この情報検索技法が、コンピューティングデバイス上に存在することが知られている情報に基づいて、関連性のある項目（例えばテキスト句）のランク付きリストを順々に提供する。

多くの既知の情報検索技法が使用可能である。一実施形態では、検索プロセスを高速化するため、探索、そしておそらくは検索の対象となる情報のインデックス２２０を作成する。例えば、インデックス２２０は、コンピューティングデバイス上で利用可能なコンテンツ２２２（例えば、アドレス、面会の約束、電子メールメッセージ等）や、それ以外にコンピューティングデバイス（ここではモバイルデバイス３０）に手入力した入力２２４とに基づくことができる。同図では、インデックス２２０がコンテンツ２２２および入力２２４の両方に対して作用するように示されているが、必要であれば別々にインデックスを提供できることは言うまでもない。カテゴリに基づいて情報を参照するように適合した別個のインデックスまたは１つのインデックス２２０の使用により、ユーザは、必要に応じてある特定の情報カテゴリのみで検索を指定することができる。

インデックス２２０は、多くの形式をとり得る。好ましい一実施形態では、インデックス２２０は、コンテンツ２２２および／または入力２２４内の単語の予測（pre-computed）音声ラティス（束）（phonetic lattice）を含む。コンテンツ２２２および入力２２４内の単語を音声ラティスに変換することは、成分音素および音声フラグメントを識別するために辞書を参照すれば比較的簡単である。単語の発音選択肢を対応するラティスに含めることができる。例えば、単語「ｅｉｔｈｅｒ」において、ラティスの１つのノードは語頭の「ｅｉ」の発音が（「ｌｉｋｅ」における）「ｉ」で始まり、別のノードは語頭の「ｅｉ」の別発音が（「ｑｕｅｅｎ」における）「ｅｅ」で始まり、両方とも「ｔｈｅｒ」が続く。もう１つの例として、単語「ｐｒｉｍｅｒ」では、「ｐｒｉｍ−ｅｒ」の「ｐｒｉｍ」が「ｈｉｍ」と同様に発音されるものと、「ｐｒｉ−ｍｅｒ」の「ｐｒｉ」が「ｈｉｇｈ」と同様に発音されるものという発音選択肢がある。

音声検索サーバ２０６はラティス生成モジュール２４０を含む。ラティス生成モジュール２４０は、音声認識器２００および／または２０８から結果を受け取り、辞書に従って音素および音声フラグメントを識別する。ラティス生成モジュール２４０は、音声認識器２００，２０８からの出力を用いて、音声仮説（phonetic hypotheses）のラティスを構築する。ここで、各仮説は、関連する時間境界および精度スコアを含む。

必要であれば、検索の精度および効率を上げるために、ラティスを変更する手法を用いることができる。例えば、ラティスは、音声フラグメント間のクロスオーバを許容するように変更できる。また、ペナルティ付きバックオフパスを追加することで、ラティスにおいて不一致パスを有する仮説間の遷移（transition）を許容できる。したがって、出力スコアは不整合な（矛盾した一貫性のない）仮説を含むことができる。ラティスのサイズを縮小するために、仮説同士を併合して音素の連結性を増大させ、ラティス内に収容されるオーディオデータ量を削減することができる。

音声認識器２００、２０８は、音声単語フラグメントの辞書に基づいて動作する。一実施形態では、フラグメントは、隣接するユニットｖおよびｗ（これらは、音素であっても、音素の組合せであってもよい）の相互情報量の計算に基づいて決定される。相互情報量ＭＩは次のように定義できる。

特定のしきい値よりも高いＭＩを有する任意のペア（ｖ，ｗ）を、辞書に対して選択されるべきフラグメントの候補として使用できる。ユニットのペアは、構成ユニットの一方または両方が、より高いＭＩ値を有するペアの一部である場合に、候補リストから除去できる。単語の境界（語境界）にまたがるペアもリストから除去される。残りの候補ペアｖ、ｗは、トレーニングコーパス（文例を集めたデータベース）において、単一のユニットｖ−ｗで置き換えられる。候補ペアを決定するプロセスは、所望の個数のフラグメントが得られるまで繰り返すことができる。上記の相互情報量プロセスによって生成されるフラグメントの例としては、／−ｋ−ｉｈ−ｎｇ／（音節「−ｋｉｎｇ」）、／ｉｈ−ｎ−ｔ−ａｘ−ｒ／（音節「ｉｎｔｅｒ−」）、／ｉｈ−ｚ／（単語「ｉｓ」）および／ａｅ−ｋ−ｃｈ−ｕｗ−ａｘ−ｌ−ｉｙ／（単語「ａｃｔｕａｌｌｙ」）がある。

音声検索エンジン２０６は、音声入力がコンテンツ２２２および／または２２４内にマッチするもの（match：適合するもの）を含むかどうかを判定するために、インデックス２２０にアクセスする。音声入力に基づいて音声検索エンジン２０６によって生成されるラティスは、音声列であっても、候補列の文法(grammar)であってもよい。マッチング中に、音声入力に一致するか、あるいは良く対応するラティスパスが特定され、関連するラティスにおける認識スコアに基づいて確率が計算される。そして、特定された仮説が、可能性のあるマッチとして、音声検索エンジン２０６によって出力される。

上記のように、音声入力は、複数の音声的可能性を定義する候補に対応する文法（grammar）であってもよい。一実施形態では、文法クエリを、重み付き有限状態(finite-state)ネットワークとして表現できる。文法は、例えば文脈自由文法、統一言語モデル、Ｎ−グラムモデルおよび／またはプレフィクスツリーで表現してもよい。

これらのそれぞれの状況で、ノードは、音声単語フラグメント間の可能な遷移を表し、ノード間のパスは音声単語フラグメントを表すことができる。別法として、ノードが音声単語フラグメント自体を表すこともできる。また、電話番号や日付のような複雑な表現を、これらの表現を定義する入力文法に基づいて検索できる。文法をクエリとして用いて、他の選択肢を検索することもできる。例えば、「Ｐａｕｌ’ｓａｄｄｒｅｓｓ」で始まる音声入力に対して、選択肢を括弧に入れて「Ｐａｕｌ’ｓ（ａｄｄｒｅｓｓ｜ｎｕｍｂｅｒ）」とする。

別の実施形態では、検索を実行する前に音声入力にフィルタリングを適用することにより、コマンド情報を除去できる。その場合、例えば、「ｆｉｎｄＰａｕｌ’ｓａｄｄｒｅｓｓ」、「ｓｈｏｗｍｅＰａｕｌ’ｓａｄｄｒｅｓｓ」、または「ｓｅａｒｃｈＰａｕｌ’ｓａｄｄｒｅｓｓ」を含む音声入力からそれぞれ同一のクエリ「Ｐａｕｌ’ｓａｄｄｒｅｓｓ」が得られ、「ｆｉｎｄ」、「ｓｈｏｗｍｅ」および「ｓｅａｒｃｈ」はパターンマッチングにおいて使用されない。このようなフィルタリングは、音声認識器２００、２０８から受け取った結果とともに含まれる意味情報に基づくことができる。

なお、検索のためのハイブリッド手法も使用可能であることも注意に値する。ハイブリッド手法では、多数の単音、例えば７個以上の単音を有するクエリに対して音声フラグメント検索を用いることができる。短い単音群に対しては、単語ベースの検索を用いることができる。

図５は、ノードｐ〜ｕおよびノード間のパスを有する例示的なラティス２５０を示している。各ノードは、タイムライン(時系列)２６０に関する対応する時間値すなわちスパンを有する。あるノードから隣接ノードへの各パスは、音声単語フラグメント（ｐ_ｎで表す）を表し、対応するオーディオセグメントが与えられた場合のそのパスの仮説の尤度を表す関連するスコア（ｓ_ｎで表す）を含む。音素仮説のコレクションが音声単語フラグメントを形成し、あるフラグメントの音素仮説から別のフラグメントの音素仮説へのパスがラティスにおいて提供され、あるフラグメントから別のフラグメントへの遷移を形成する。

例えば、ノードｐからノードｑへのパスのスコアはｓ_１で表される。クエリがノードｒにマッチする場合、スコアｓ_７およびｓ_８に関連するパスをノードｔへとたどり、いずれかのパスがマッチするかどうかを調べる。次に、スコアｓ_１０およびｓ_１１に関連するパスをノードｕへとたどる。パスがクエリの終端に達したら、マッチを判定する。そして、パスに沿った関連するスコアを加算することにより仮説スコアを計算する。検索プロセスを高速化するため、マッチが同一またはほぼ同一の時間境界を共有する場合、パスをたどる必要はない。

検索オペレーションの結果は、ｔ_ｓからｔ_ｅまでの時間範囲におけるクエリ文字列Ｗにマッチする仮説のリスト（Ｗ，ｔ_ｓ，ｔ_ｅ，Ｐ（Ｗｔ_ｓｔ_ｅ｜Ｏ））である。確率Ｐ（Ｗｔ_ｓｔ_ｅ｜Ｏ）は、「事後確率」として知られ、マッチの近さの尺度である。Ｗは音素列で表され、Ｏは特徴ベクトルｏｔの系列（sequence）として表現された音響観測量を表す。ｔ_ｓからｔ_ｅまでのクエリストリングＷを含むすべてのパスの確率の和をとることにより次式が得られる。

ここで、Ｗ₋およびＷ_＋はそれぞれｔ_ｓの前およびｔ_ｅの後の任意の単語列を表し、Ｗ′は任意の単語列である。さらに、値ｐ（Ｏｔ_ｓｔ_ｅ｜Ｗ₋ＷＷ_＋）は次のように表される。

音声入力を用いて選択肢の視覚的提示とともにクエリを作成し、そこから選択を行うことは、背景技術のセクションで述べた理由により、任意のコンピューティングデバイス、特にモバイルデバイスについて、所望のデータを入力するための非常に容易で効率的な手段を提供する。図６は、本発明のもう１つの態様を形成する、コンピュータへの入力を提供する方法４００を示している。この方法４００は、ステップ４０２で、ユーザから入力音声を受け取り、入力音声に対応するパターンを提供する。ステップ４０４で、そのパターンを用いてテキスト句（フレイズ）のコレクションを検索する（各句は１つ以上の文字である）ことにより、コレクションから、パターンと関係を有する１つ以上のテキスト句を識別する。

ステップ４０６で、上記１つ以上のテキスト句をユーザに対して視覚的に提示する。図１は、ユーザに対して提示された、選択肢リスト４５２を有する例示的なユーザインタフェース４５０を示している。（この例でユーザは、会議のスケジュールを設定するために、人名に対応する音声入力を提供している。検索は、モバイルデバイス３０上に記憶されている「連絡先」データベースを通じて行われた。）ステップ４０８で、提示されたテキスト句の１つに関する指示をユーザから受け取る。この指示は、いかなる形態の入力デバイスから提供することも可能であるが、一般的には、スタイラス、マウス、ジョイスティック等のようなポインティングデバイスによる。ただし、ステップ４０６が所望のテキスト句の音響指示も含むことを理解されたい。例えば、提示されるテキスト句のリストは、各テキスト句に対する識別子を含むことができる。識別子を音響的に指示することにより、所望のテキスト句を識別することができる。

ステップ４０８でどのテキスト句を所望するかを指示した後、ステップ４１０で、所望のテキスト句の挿入を行い、これをさらなる処理のためにアプリケーションに提供できる。これは通常、コンピューティングデバイス上に視覚的にレンダリングされているフォームのフィールドに、選択された句を挿入することを含む。図１の例では、選択された名前が「Ａｔｔｅｎｄｅｅｓ」（出席者）フィールドに挿入される。

音声入力と、視覚的に提示された選択肢の選択とを組み合わせて使用することは、ユーザが情報にアクセスするための効率的方法を提供する。というのは、ユーザが、語の正確な順序や句の文法的正しさを気にせずに、単一の文または句として音響的に意味のあるクエリをユーザが提供できるからである。音声入力は、単にテキスト変換されモバイルデバイス上で実行中のアプリケーションによって使用されるだけでなく、むしろ、当該の語や類似の語を有する既知のコンテンツをモバイルデバイス上で検索するためのクエリを作成するために用いられる。この場合、検索されるコンテンツは、そのすべてをユーザに対して提示する必要はないので、そのコンテンツの総量をはるかに包括的にすることができる。むしろ、音声入力に関連性があることが確認されたコンテンツが、視覚的媒体を通じて、選択肢のリストとして提示される。ユーザは、容易に選択肢のリストに目を通し、最も適切な選択肢を選択することができる。

以上、好ましい実施形態に関して本発明を説明したが、当業者には認識されるように、本発明の技術思想および範囲から逸脱することなく、形態および細部において変更を行うことが可能である。

コンピューティングデバイスのオペレーティング環境の第１実施形態の平面図である。図１のコンピューティングデバイスのブロック図である。汎用コンピュータのブロック図である。データ入力システムのブロック図である。ラティスの表現の図である。コンピュータシステムにおいて入力を提供する方法の流れ図である。

符号の説明

２９マイクロフォン
３０データ管理モバイルデバイス
３２ハウジング
３３スタイラス
３４ディスプレイ
３５ボタン
３７アナログ−ディジタル（Ａ／Ｄ）コンバータ
４３スピーカ
５０中央処理ユニット（ＣＰＵ）
５２無線トランシーバ
５４ランダムアクセスメモリ（ＲＡＭ）
５８読み出し専用メモリ（ＲＯＭ）
５９ディジタル−アナログコンバータ
６０通信インタフェース
１２０汎用コンピュータ
１４０処理ユニット
１４１システムバス
１５０システムメモリ
１５１読み出し専用メモリ（ＲＯＭ）
１５２ランダムアクセスメモリ（ＲＡＭ）
１５３基本入出力システム（ＢＩＯＳ）
１５４オペレーティングシステム
１５５アプリケーションプログラム
１５６他のプログラムモジュール
１５７プログラムデータ
１６０非リムーバブルメモリインタフェース
１６１ハードディスクドライブ
１６４オペレーティングシステム
１６５アプリケーションプログラム
１６６他のプログラムモジュール
１６７プログラムデータ
１７０リムーバブルメモリインタフェース
１７１磁気ディスクドライブ
１７２磁気ディスク
１７５光ディスクドライブ
１７６光ディスク
１８０ユーザ入力インタフェース
１８１ポインティングデバイス
１８２キーボード
１８３マイクロフォン
１８４モニタ
１８５ビデオインタフェース
１８６プリンタ
１８７スピーカ
１８８出力周辺インタフェース
１９０ネットワークインタフェース
１９１ローカルエリアネットワーク（ＬＡＮ）
１９２モデム
１９３広域ネットワーク（ＷＡＮ）
１９４リモートコンピュータ
１９５リモートアプリケーションプログラム
２００リモート認識サーバ（リモート音声認識器）
２０４オーディオキャプチャモジュール
２０６音声検索サーバ
２０８ローカル音声認識モジュール（ローカル音声認識器）
２２０インデックス
２２２コンテンツ
２２４入力
２４０ラティス生成モジュール
２５０ラティス
２６０タイムライン
４５０ユーザインタフェース
４５２選択肢リスト

Claims

コンピュータへの入力データを提供するコンピュータ実行可能命令を有するコンピュータ可読媒体において、前記命令が、
入力音声を示すデータを提供するように適合したオーディオキャプチャモジュールと、
前記オーディオキャプチャモジュールから前記データを受け取るように適合した音声検索サーバであって、前記データを用いて句のコレクションを検索し、該コレクションから前記データと関係を有する１つ以上の句を識別する音声検索サーバと、
前記１つ以上の句を前記コンピュータ上に視覚的に提示し選択された句の指示をユーザから受け取るモジュールと
を含むことを特徴とするコンピュータ可読媒体。
前記音声検索サーバが、前記データをフィルタリングすることにより前記コレクション内で検索されない少なくとも１つの単語を除去するように適合していることを特徴とする請求項１に記載のコンピュータ可読媒体。
前記音声検索サーバが、コマンドを示す少なくとも１つの単語を除去するように適合していることを特徴とする請求項２に記載のコンピュータ可読媒体。
前記音声検索サーバが、前記データ内の少なくとも１つの単語に対する選択肢を追加するように適合していることを特徴とする請求項１に記載のコンピュータ可読媒体。
前記音声検索サーバが、前記入力音声に対する音声ラティスを形成するように適合したラティス生成器を含み、前記入力音声に対する音声ラティスを前記コレクションに対する音声ラティスと比較することによって、前記データを用いて前記コレクションを検索するように適合していることを特徴とする請求項１に記載のコンピュータ可読媒体。
コンピュータへの入力を提供する方法において、
ユーザから入力音声を受け取り、該入力音声に対応するデータを提供し、
前記データを用いて句のコレクションを検索し、該コレクションから前記データと関係を有する１つ以上の句を識別し、
前記１つ以上の句を前記ユーザに視覚的に提示し、
前記ユーザから前記句のうちの１つの選択の指示を受け取り、
アプリケーションに、選択された句を提供する
ことを特徴とするコンピュータへの入力を提供する方法。
前記指示を受け取ることが、ポインティングデバイスの操作を含むことを特徴とする請求項６に記載の方法。
前記指示を受け取ることが、可聴指示を受け取ることを含むことを特徴とする請求項６に記載の方法。
前記選択された句を提供することが、前記コンピュータ上に提示されたフォームのフィールドに前記選択された句を挿入することを含むことを特徴とする請求項６に記載の方法。
前記データをフィルタリングすることにより前記コレクション内で検索されない少なくとも１つの単語を除去することをさらに含むことを特徴とする請求項６に記載の方法。
前記フィルタリングすることが、コマンドを示す少なくとも１つの単語を除去することを含むことを特徴とする請求項１０に記載の方法。
前記データ内の少なくとも１つの単語に対する選択肢を追加することをさらに含むことを特徴とする請求項６に記載の方法。
前記データを提供することが、前記入力音声に対する音声ラティスを形成することを含み、前記データを用いてコレクションを検索することが、前記入力音声に対する音声ラティスを前記コレクションに対する音声ラティスと比較することを含むことを特徴とする請求項６に記載の方法。
モバイルコンピューティングデバイスにおいて、
句のコレクションを記憶する記憶部と、
入力音声を示すデータを提供するように適合したオーディオキャプチャモジュールと、
前記オーディオキャプチャモジュールから前記データを受け取るように適合した音声検索サーバであって、前記データを用いて前記句のコレクションを検索し、前記コレクションから前記データと関係を有する１つ以上の句を識別する音声検索サーバと、
前記１つ以上の句を前記コンピュータ上に視覚的に提示し選択された句の指示をユーザから受け取る表示／入力モジュールと
を備えたことを特徴とするモバイルコンピューティングデバイス。
前記音声検索サーバが、前記データをフィルタリングすることにより前記コレクション内で検索されない少なくとも１つの単語を除去するように適合していることを特徴とする請求項１４に記載のモバイルコンピューティングデバイス。
前記音声検索サーバが、コマンドを示す少なくとも１つの単語を除去するように適合していることを特徴とする請求項１５に記載のモバイルコンピューティングデバイス。
前記音声検索サーバが、前記データ内の少なくとも１つの単語に対する選択肢を追加するように適合していることを特徴とする請求項１４に記載のモバイルコンピューティングデバイス。
前記音声検索サーバが、前記入力音声に対する音声ラティスを形成するように適合したラティス生成器を含み、前記入力音声に対する音声ラティスを前記コレクションに対する音声ラティスと比較することによって前記データを用いて前記コレクションを検索するように適合していることを特徴とする請求項１４に記載のモバイルコンピューティングデバイス。