JP2006053906A - コンピューティングデバイスへの入力を提供するための効率的なマルチモーダル方法 - Google Patents

コンピューティングデバイスへの入力を提供するための効率的なマルチモーダル方法 Download PDF

Info

Publication number
JP2006053906A
JP2006053906A JP2005204325A JP2005204325A JP2006053906A JP 2006053906 A JP2006053906 A JP 2006053906A JP 2005204325 A JP2005204325 A JP 2005204325A JP 2005204325 A JP2005204325 A JP 2005204325A JP 2006053906 A JP2006053906 A JP 2006053906A
Authority
JP
Japan
Prior art keywords
data
computer
speech
collection
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005204325A
Other languages
English (en)
Other versions
JP2006053906A5 (ja
Inventor
Eric I-Chao Chang
イ−チャオ チャン エリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2006053906A publication Critical patent/JP2006053906A/ja
Publication of JP2006053906A5 publication Critical patent/JP2006053906A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Communication Control (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 ユーザから受け取った入力音声を含む入力をコンピュータへ提供する方法およびシステムを実現する。
【解決手段】ユーザから入力音声を受け取り、入力音声に対応するデータを提供する。このデータを用いて句(フレイズ)のコレクションを検索し、そのコレクションからデータと関係を有する1つ以上の句を識別(特定)する。その1つ以上の句は、ユーザに視覚的に提示される。ユーザからこれら句のうちの1つを選択したことの指示を受け取り、選択された句をコンピューティングデバイス上で動作するアプリケーションに提供する。
【選択図】 図4

Description

本発明は、コンピューティングデバイスへの入力を提供することに関する。より詳細には、本発明は、効率を改善するために代替セットからの所望の入力の音声認識と識別を含む入力を提供するマルチモーダル方法に関する。
パーソナル情報管理(PIM)デバイスや携帯電話のような小型のコンピューティングデバイスが、人々によって日々の活動においてますます高い頻度で用いられている。これらのデバイスを動作させるために用いられるマイクロプロセッサにとって現在利用可能な処理能力が向上するとともに、これらのデバイスの機能も向上し、場合によっては融合している。例えば、多くの携帯電話は現在、インターネットにアクセスして住所(アドレス)、電話番号等の個人情報をブラウズする(目を通す)ために使用可能であるとともに、記憶するためにも使用可能である。
したがって、これらのコンピューティングデバイスがますます多くの作業に用いられていることに鑑みると、コンピューティングデバイスに容易かつ効率的に情報を入力することが必要となる。残念ながら、これらのデバイスを携帯しやすくするためにできるだけ小さくしておきたいという要求から、コンピューティングデバイスのハウジング上で利用可能な表面積が制限されているので、すべての英字と独立のボタンを供えた従来型のキーボードは通常不可能である。同様に、手書き認識には文字入力に都合のよいエリアを有するパッドあるいはディスプレイが必要であるが、これがコンピューティングデバイスの全体的サイズを増大させることがある。それにまた、手書き認識は一般的に遅い入力方法である。
したがって、データ、コマンド等をコンピューティングデバイスに入力する方法を改善することが必要とされている。このような改善は、PIM、電話機等の小型コンピューティングデバイスのための便利なデータ入力を可能にし、さらに、パーソナルコンピュータ、テレビ等のような他のコンピューティングデバイスにおいても有益となり得る。
コンピュータへの入力を提供する方法およびシステムは、ユーザから入力音声を受け取り、入力音声に対応するデータを提供することを含む。このデータを用いて句(phrase;フレイズ)のコレクション(収集)を検索し、そのコレクションからデータと関係を有する1つ以上の句を識別する。その1つ以上の句は、ユーザに視覚的に提示される。ユーザから句のうちの1つを選択したことの指示を受け取り、選択された句をコンピューティングデバイス上で動作するアプリケーションに提供する。
音声入力と、視覚的に提示された句候補の選択とを組み合わせて使用することにより、特に手操作入力デバイスの実装が困難なモバイルコンピューティングデバイス上で、ユーザが情報にアクセスするための効率的方法が提供される。ユーザに音響的な検索クエリを提供できるようにすることにより、ユーザは検索タームを迅速に提供でき、この検索タームを用いて、ユーザは入力したい句候補の包括的コレクションを検索できる。さらに、ユーザは視覚的に提示された句候補のリストに容易に目を通すことができるので、所望の句をすぐに見つけることができ、例えばポインティングデバイスを用いて句を選択できる。その句が、コンピューティングデバイス上で実行されるアプリケーションのための入力として用いられる。
本発明の諸態様を説明する前に、それらの諸態様を組み込んで活用することができるコンピューティングデバイスについて概説するのが有益であろう。図1を参照すると、データ管理デバイス(PIM、PDA等)の例示的形態が30に示されている。しかし、本発明は、以下で説明する他のコンピューティングデバイス、特に、入力ボタン等のための表面積が制限されたコンピューティングデバイスを用いても実施可能であると考えられる。例えば、電話機やデータ管理デバイスもまた本発明から利益を受けるであろう。このようなデバイスは、従来のポータブルパーソナル情報管理デバイスやその他のポータブル電子デバイスと比べて実用性が高く、このようなデバイスの機能と、そのサイズが小型であることから、ユーザはますますデバイスを常に携帯したくなるであろう。したがって、本明細書に記載される本発明の諸態様は、本明細書で説明される例示的なデータ管理デバイスやPIMデバイス、電話機あるいはコンピュータの開示によって限定されるという意図はない。
データ管理モバイルデバイス30の例示的形態が図1に示されている。モバイルデバイス30は、ハウジング32を含むとともに、ユーザインタフェースを有する。ユーザインタフェースは、ディスプレイ34を含み、スタイラス33とともに接触感知式ディスプレイ画面を使用する。スタイラス33は、指定の座標でディスプレイ34を押し、あるいはそれに触れることで、フィールドを選択し、カーソルの開始位置を選択的に移動し、あるいはその他、ジェスチャ(意思表示、合図)や手書き等を通じてコマンド情報を提供するために用いられる。別法として、またはこれに加えて、ナビゲーション用に1つまたは複数のボタン35をデバイス30に含めることができる。さらに、回転ホイール、ローラ等のような他の入力メカニズムも提供できる。しかし、本発明は入力メカニズムのこれらの形態によって限定されることを意図していないことに留意されたい。例えば、他の形態の入力として、コンピュータビジョン等による視覚的入力が挙げられる。
次に図2を参照すると、モバイルデバイス30を構成する機能コンポーネントをブロック図で示している。中央処理ユニット(CPU)50がソフトウェア制御機能を実施する。CPU50はディスプレイ34に接続され、制御ソフトウェアによって生成されるテキストおよびグラフィックアイコンがディスプレイ34に現れるようにしている。スピーカ43が、音響出力を提供するために、通常はディジタル−アナログコンバータ59を用いてCPU50に接続され得る。ユーザによってモバイルデバイス30にダウンロードあるいは入力されるデータは、CPU50に双方向接続された不揮発性読み書きランダムアクセスメモリ記憶部54に記憶される。ランダムアクセスメモリ(RAM)54は、CPU50によって実行される命令のための揮発性ストレージと、レジスタ値のような一時データのためのストレージを提供する。設定オプションおよびその他の変数のためのデフォルト値が、読み出し専用メモリ(ROM)58に記憶される。ROM58は、モバイルデバイス30の基本機能およびその他のオペレーティングシステムカーネル機能(例えばRAM54へのソフトウェアコンポーネントのロード)を制御する、デバイスのためのオペレーティングシステムソフトウェアを記憶するためにも用いることができる。
RAM54は、アプリケーションプログラムを記憶するために用いられるPC上のハードドライブの機能に類似した方法で、コードのためのストレージとしても作用する。なお、コードを記憶するために不揮発性メモリが用いられているが、別法として、コードの実行のために使用されない揮発性メモリにも記憶できることに留意されたい。
無線信号が、CPU50に接続された無線トランシーバ52を通じてモバイルデバイスによって送受信されることが可能である。必要であれば、コンピュータ(例えばデスクトップコンピュータ)から、または有線ネットワークから直接にデータをダウンロードするために、任意選択の通信インタフェース60を提供することも可能である。それに応じて、インタフェース60は、例えば赤外線リンク、モデム、ネットワークカード等の種々の形態の通信デバイスを含み得る。
モバイルデバイス30は、マイクロフォン29、およびアナログ−ディジタル(A/D)コンバータ37、ならびに記憶部54に記憶される任意選択の認識プログラム(音声、DTMF、手書き、ジェスチャまたはコンピュータビジョン)を含む。例として、デバイス30のユーザからの音響情報、命令またはコマンドに応答して、マイクロフォン29は音声信号を提供し、これがA/Dコンバータ37によってディジタル化される。音声認識プログラムは、ディジタル化された音声信号に対して正規化および/または特徴抽出機能を実行することにより、中間的な音声認識結果を得ることができる。音声認識は、モバイルデバイス30上で、および/または無線トランシーバ52あるいは通信インタフェース60を用いて実行でき、音声データは、図4に示すようにインターネット等のローカルエリアネットワークまたは広域ネットワークを通じてリモート認識サーバ200に送信されることが可能である。
本発明は、上記のポータブルまたはモバイルコンピューティングデバイスに加えて、一般的なデスクトップコンピュータのような数多くの他のコンピューティングデバイスで使用可能であることも理解されたい。例えば、本発明によれば、身体能力に制約のあるユーザが、英数字フルキーボードのような他の従来の入力デバイスではあまりに困難で操作できない場合に、コンピュータやその他のコンピューティングデバイスにテキストを入力することができる。
本発明は、数多くの他の汎用または専用のコンピューティングシステム、環境または構成でも動作する。本発明とともに使用するのに好適であり得る周知のコンピューティングシステム、環境、および/または構成の例として、以下のものに限定されないが、通常の(画面なしの)電話機、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサ方式のシステム、セットトップボックス、プログラム可能型の消費者電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記のシステムまたはデバイスの任意のものを含む分散コンピューティング環境等がある。
以下で、図3に示す汎用コンピュータ120を簡単に説明する。しかし、コンピュータ120もまた、好適なコンピューティング環境の単なる一例に過ぎず、本発明の利用または機能の範囲に関するいかなる限定を示唆することも意図していない。また、コンピュータ120は、そこに示されるいかなるコンポーネントまたはその組合せに関するいかなる従属性または要件を有するとも解釈されてはならない。
本発明は、コンピュータによって実行されるプログラムモジュール等のコンピュータ実行可能命令との一般的関連で記述できる。一般的に、プログラムモジュールは、特定のタスクを実行し、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を含む。また、本発明は、通信ネットワークを通じてリンクされたリモート処理デバイスによってタスクが実行されるような分散コンピューティング環境において実施してもよい。分散コンピューティング環境では、プログラムモジュールはメモリ記憶デバイスを含むローカルおよびリモートの両方のコンピュータ記憶媒体に配置されてもよい。プログラムおよびモジュールによって実行されるタスクについて、以下で図面を参照して説明する。当業者は、本明細書に提供される説明および図面を、プロセッサで実行可能な命令として実装することができる。それらの命令は、任意の形態のコンピュータ可読媒体に書き込むことができる。
図3を参照すると、コンピュータ120のコンポーネントとしては、処理ユニット140、システムメモリ150、およびシステムメモリを含む種々のシステムコンポーネントを処理ユニット140に接続するシステムバス141が挙げられるが、これらには限定されない。システムバス141は、さまざまなバスアーキテクチャの任意のものを使用するメモリバスまたはメモリコントローラ、ペリフェラル(周辺機器の)バス、およびローカルバスを含む、いくつかのタイプのバス構造のいずれでもよい。例として、限定ではないが、このようなアーキテクチャとしては、Industry Standard Architecture(ISA)バス、ユニバーサルシリアルバス(USB)、Micro Channel Architecture(MCA)バス、Enhanced ISA(EISA)バス、Video Electronics Standards Association(VESA)ローカルバス、およびMezzanineバスとも呼ばれるPeripheral Component Interconnect(PCI)バスがある。コンピュータ120は通常、さまざまなコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ120がアクセスできるいかなる利用可能な媒体であってもよく、揮発性および不揮発性媒体、リムーバブル(取り外し可能)および非リムーバブル(取り外し不能)媒体の両方がある。例として、限定ではないが、コンピュータ可読媒体としては、コンピュータ記憶媒体および通信媒体が挙げられる。コンピュータ記憶媒体としては、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータのような情報の記憶のための任意の方法または技術で実現された揮発性および不揮発性、リムーバブルおよび非リムーバブルの両方の媒体がある。コンピュータ記憶媒体としては、以下のものに限定されないが、RAM、ROM、EEPROM、フラッシュメモリ等のメモリ技術、CD−ROM、ディジタル多用途ディスク(DVD)等の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ等の磁気記憶デバイス、または所望の情報を記憶するために使用可能でありコンピュータ120によりアクセス可能な任意の他の媒体がある。
通信媒体は通常、キャリア波(搬送波)等の変調データ信号または他のトランスポートメカニズム(搬送機構)で、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータを具現化した、いかなる情報配信媒体も含む。「変調データ信号」という用語は、信号中に情報を符号化するように1つまたは複数の信号の特性が設定または変更された信号を意味する。例として、限定ではないが、通信媒体としては、有線ネットワークまたは直接有線コネクションのような有線媒体、および音響、RF(無線周波数)、赤外線等の無線媒体のようなワイヤレス媒体がある。上記の任意のものの組合せもまた、コンピュータ可読媒体の範囲内に含まれるべきである。
システムメモリ150は、読み出し専用メモリ(ROM)151およびランダムアクセスメモリ(RAM)152のような揮発性および/または不揮発性メモリの形態のコンピュータ記憶媒体を含む。起動中等にコンピュータ120内の要素間で情報を転送するのに役立つ基本ルーチンを含む基本入出力システム153(BIOS)が通常ROM151に記憶される。RAM152は通常、処理ユニット140から直ちにアクセス可能な、および/または処理ユニット140が現在作用しているデータおよび/またはプログラムモジュールを含む。例として、限定ではないが、図3は、オペレーティングシステム154、アプリケーションプログラム155、他のプログラムモジュール156、およびプログラムデータ157を示している。
また、コンピュータ120は、他のリムーバブル/非リムーバブル、揮発性/不揮発性のコンピュータ記憶媒体を含んでもよい。単なる例として、図3は、非リムーバブル不揮発性磁気媒体の読み書きを行うハードディスクドライブ(駆動部)161、リムーバブル不揮発性磁気ディスク172の読み書きを行う磁気ディスクドライブ171、およびCD−ROM等の光媒体のようなリムーバブル不揮発性光ディスク176の読み書きを行う光ディスクドライブ175を示している。例示したオペレーティング環境で使用可能な他のリムーバブル/非リムーバブル、揮発性/不揮発性のコンピュータ記憶媒体としては、以下のものに限定されないが、磁気テープカセット、フラッシュメモリカード、ディジタル多用途ディスク、ディジタルビデオテープ、固体RAM、固体ROM等がある。ハードディスクドライブ161は通常、インタフェース160のような非リムーバブルメモリインタフェースを通じてシステムバス141に接続され、磁気ディスクドライブ171および光ディスクドライブ175は通常、インタフェース170のようなリムーバブルメモリインタフェースによりシステムバス141に接続される。
前述し図3に示したドライブおよびそれらに関連するコンピュータ記憶媒体は、コンピュータ120のためのコンピュータ可読命令、データ構造、プログラムモジュールおよび他のデータのストレージを提供する。例えば図3において、ハードディスクドライブ161は、オペレーティングシステム164、アプリケーションプログラム165、他のプログラムモジュール166、およびプログラムデータ167を記憶するように示されている。なお、これらのコンポーネントは、オペレーティングシステム154、アプリケーションプログラム155、他のプログラムモジュール156、およびプログラムデータ157と同じでも異なってもよいことに留意されたい。オペレーティングシステム164、アプリケーションプログラム165、他のプログラムモジュール166、およびプログラムデータ167は、少なくともそれらが別のコピーであることを示すためにここでは異なる番号が与えられている。
ユーザは、キーボード182、マイクロフォン183、およびマウス、トラックボールまたはタッチパッド等のポインティングデバイス181のような入力デバイスを通じてコンピュータ120にコマンドおよび情報を入力することができる。他の入力デバイス(図示せず)としては、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナ等が挙げられる。これらおよび他の入力デバイスは、システムバスに結合したユーザ入力インタフェース180を通じて処理ユニット140に接続されることが多いが、パラレルポート、ゲームポートまたはユニバーサルシリアルバス(USB)等の他のインタフェースおよびバス構造により接続されてもよい。モニタ184または他のタイプのディスプレイデバイスもまた、ビデオインタフェース185のようなインタフェース経由でシステムバス141に接続される。モニタに加えて、コンピュータはスピーカ187やプリンタ186のような他の周辺出力デバイスを含んでもよく、これらは出力周辺インタフェース188を通じて接続され得る。
コンピュータ120は、リモートコンピュータ194のような1つまたは複数のリモートコンピュータへの論理コネクションを用いたネットワーク環境で動作し得る。リモートコンピュータ194は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイスまたは他の一般的なネットワークノードであってよく、通常、コンピュータ120に関して前述した要素の多くまたはすべてを含む。図3に示す論理コネクションは、ローカルエリアネットワーク(LAN)191および広域ネットワーク(WAN)193を含むが、他のネットワークを含んでもよい。このようなネットワーキング環境は、オフィス、企業規模のコンピュータネットワーク、イントラネットおよびインターネットで一般的である。
LANネットワーキング環境で使用される場合、コンピュータ120はネットワークインタフェースすなわちアダプタ190を通じてLAN191に接続される。WANネットワーキング環境で使用される場合、コンピュータ120は通常、インターネットのようなWAN193を通じて通信を確立するためのモデム192等の手段を含む。モデム192は、内蔵でも外付けでもよいが、ユーザ入力インタフェース180等の適当なメカニズムを通じてシステムバス141に接続され得る。ネットワーク環境では、コンピュータ120に関して図示したプログラムモジュールまたはその部分は、リモートメモリ記憶デバイスに記憶されてもよい。例として、限定ではないが、図3は、リモートアプリケーションプログラム195がリモートコンピュータ194上に存在するように示している。理解されるように、図示したネットワークコネクションは例示であり、コンピュータ間に通信リンクを確立する他の手段を使用してもよい。
図4は、本発明の諸態様を実施するのに好適なコンポーネントまたはモジュールの概略図である。モバイルデバイス30上で、例として、マイクロフォン29によってキャプチャされオーディオキャプチャモジュール204によって好適に処理された音声入力が音声検索サーバ206に提供される。例えば、データはPCMフォーマットで音声検索サーバ206に送信することができる。音声検索サーバ206は、受信した音声サンプルをローカル(近くの)音声認識モジュール208および/またはリモート(遠隔地の)音声認識サーバ200に送る。豊富な語彙の音声認識および/または特定用途向け音声認識が使用可能である。同様に、音声認識は、単音レベル、単語フラグメント(断片)レベルまたは単語レベルでの音認識を使用可能である。認識結果は音声検索サーバ206に返される。そして音声検索サーバ206でその認識結果を用いて情報検索技法に係わるデータクエリ(データ検索要求)(例えばパターン)を作成する。この情報検索技法が、コンピューティングデバイス上に存在することが知られている情報に基づいて、関連性のある項目(例えばテキスト句)のランク付きリストを順々に提供する。
多くの既知の情報検索技法が使用可能である。一実施形態では、検索プロセスを高速化するため、探索、そしておそらくは検索の対象となる情報のインデックス220を作成する。例えば、インデックス220は、コンピューティングデバイス上で利用可能なコンテンツ222(例えば、アドレス、面会の約束、電子メールメッセージ等)や、それ以外にコンピューティングデバイス(ここではモバイルデバイス30)に手入力した入力224とに基づくことができる。同図では、インデックス220がコンテンツ222および入力224の両方に対して作用するように示されているが、必要であれば別々にインデックスを提供できることは言うまでもない。カテゴリに基づいて情報を参照するように適合した別個のインデックスまたは1つのインデックス220の使用により、ユーザは、必要に応じてある特定の情報カテゴリのみで検索を指定することができる。
インデックス220は、多くの形式をとり得る。好ましい一実施形態では、インデックス220は、コンテンツ222および/または入力224内の単語の予測(pre-computed)音声ラティス(束)(phonetic lattice)を含む。コンテンツ222および入力224内の単語を音声ラティスに変換することは、成分音素および音声フラグメントを識別するために辞書を参照すれば比較的簡単である。単語の発音選択肢を対応するラティスに含めることができる。例えば、単語「either」において、ラティスの1つのノードは語頭の「ei」の発音が(「like」における)「i」で始まり、別のノードは語頭の「ei」の別発音が(「queen」における)「ee」で始まり、両方とも「ther」が続く。もう1つの例として、単語「primer」では、「prim−er」の「prim」が「him」と同様に発音されるものと、「pri−mer」の「pri」が「high」と同様に発音されるものという発音選択肢がある。
音声検索サーバ206はラティス生成モジュール240を含む。ラティス生成モジュール240は、音声認識器200および/または208から結果を受け取り、辞書に従って音素および音声フラグメントを識別する。ラティス生成モジュール240は、音声認識器200,208からの出力を用いて、音声仮説(phonetic hypotheses)のラティスを構築する。ここで、各仮説は、関連する時間境界および精度スコアを含む。
必要であれば、検索の精度および効率を上げるために、ラティスを変更する手法を用いることができる。例えば、ラティスは、音声フラグメント間のクロスオーバを許容するように変更できる。また、ペナルティ付きバックオフパスを追加することで、ラティスにおいて不一致パスを有する仮説間の遷移(transition)を許容できる。したがって、出力スコアは不整合な(矛盾した一貫性のない)仮説を含むことができる。ラティスのサイズを縮小するために、仮説同士を併合して音素の連結性を増大させ、ラティス内に収容されるオーディオデータ量を削減することができる。
音声認識器200、208は、音声単語フラグメントの辞書に基づいて動作する。一実施形態では、フラグメントは、隣接するユニットvおよびw(これらは、音素であっても、音素の組合せであってもよい)の相互情報量の計算に基づいて決定される。相互情報量MIは次のように定義できる。
Figure 2006053906
特定のしきい値よりも高いMIを有する任意のペア(v,w)を、辞書に対して選択されるべきフラグメントの候補として使用できる。ユニットのペアは、構成ユニットの一方または両方が、より高いMI値を有するペアの一部である場合に、候補リストから除去できる。単語の境界(語境界)にまたがるペアもリストから除去される。残りの候補ペアv、wは、トレーニングコーパス(文例を集めたデータベース)において、単一のユニットv−wで置き換えられる。候補ペアを決定するプロセスは、所望の個数のフラグメントが得られるまで繰り返すことができる。上記の相互情報量プロセスによって生成されるフラグメントの例としては、/−k−ih−ng/(音節「−king」)、/ih−n−t−ax−r/(音節「inter−」)、/ih−z/(単語「is」)および/ae−k−ch−uw−ax−l−iy/(単語「actually」)がある。
音声検索エンジン206は、音声入力がコンテンツ222および/または224内にマッチするもの(match:適合するもの)を含むかどうかを判定するために、インデックス220にアクセスする。音声入力に基づいて音声検索エンジン206によって生成されるラティスは、音声列であっても、候補列の文法(grammar)であってもよい。マッチング中に、音声入力に一致するか、あるいは良く対応するラティスパスが特定され、関連するラティスにおける認識スコアに基づいて確率が計算される。そして、特定された仮説が、可能性のあるマッチとして、音声検索エンジン206によって出力される。
上記のように、音声入力は、複数の音声的可能性を定義する候補に対応する文法(grammar)であってもよい。一実施形態では、文法クエリを、重み付き有限状態(finite-state)ネットワークとして表現できる。文法は、例えば文脈自由文法、統一言語モデル、N−グラムモデルおよび/またはプレフィクスツリーで表現してもよい。
これらのそれぞれの状況で、ノードは、音声単語フラグメント間の可能な遷移を表し、ノード間のパスは音声単語フラグメントを表すことができる。別法として、ノードが音声単語フラグメント自体を表すこともできる。また、電話番号や日付のような複雑な表現を、これらの表現を定義する入力文法に基づいて検索できる。文法をクエリとして用いて、他の選択肢を検索することもできる。例えば、「Paul’s address」で始まる音声入力に対して、選択肢を括弧に入れて「Paul’s (address | number)」とする。
別の実施形態では、検索を実行する前に音声入力にフィルタリングを適用することにより、コマンド情報を除去できる。その場合、例えば、「find Paul’s address」、「show me Paul’s address」、または「search Paul’s address」を含む音声入力からそれぞれ同一のクエリ「Paul’s address」が得られ、「find」、「show me」および「search」はパターンマッチングにおいて使用されない。このようなフィルタリングは、音声認識器200、208から受け取った結果とともに含まれる意味情報に基づくことができる。
なお、検索のためのハイブリッド手法も使用可能であることも注意に値する。ハイブリッド手法では、多数の単音、例えば7個以上の単音を有するクエリに対して音声フラグメント検索を用いることができる。短い単音群に対しては、単語ベースの検索を用いることができる。
図5は、ノードp〜uおよびノード間のパスを有する例示的なラティス250を示している。各ノードは、タイムライン(時系列)260に関する対応する時間値すなわちスパンを有する。あるノードから隣接ノードへの各パスは、音声単語フラグメント(pで表す)を表し、対応するオーディオセグメントが与えられた場合のそのパスの仮説の尤度を表す関連するスコア(sで表す)を含む。音素仮説のコレクションが音声単語フラグメントを形成し、あるフラグメントの音素仮説から別のフラグメントの音素仮説へのパスがラティスにおいて提供され、あるフラグメントから別のフラグメントへの遷移を形成する。
例えば、ノードpからノードqへのパスのスコアはsで表される。クエリがノードrにマッチする場合、スコアsおよびsに関連するパスをノードtへとたどり、いずれかのパスがマッチするかどうかを調べる。次に、スコアs10およびs11に関連するパスをノードuへとたどる。パスがクエリの終端に達したら、マッチを判定する。そして、パスに沿った関連するスコアを加算することにより仮説スコアを計算する。検索プロセスを高速化するため、マッチが同一またはほぼ同一の時間境界を共有する場合、パスをたどる必要はない。
検索オペレーションの結果は、tからtまでの時間範囲におけるクエリ文字列Wにマッチする仮説のリスト(W,t,t,P(W t|O))である。確率P(W t|O)は、「事後確率」として知られ、マッチの近さの尺度である。Wは音素列で表され、Oは特徴ベクトルotの系列(sequence)として表現された音響観測量を表す。tからtまでのクエリストリングWを含むすべてのパスの確率の和をとることにより次式が得られる。
Figure 2006053906
ここで、WおよびWはそれぞれtの前およびtの後の任意の単語列を表し、W′は任意の単語列である。さらに、値p(Ot|WWW)は次のように表される。
Figure 2006053906
音声入力を用いて選択肢の視覚的提示とともにクエリを作成し、そこから選択を行うことは、背景技術のセクションで述べた理由により、任意のコンピューティングデバイス、特にモバイルデバイスについて、所望のデータを入力するための非常に容易で効率的な手段を提供する。図6は、本発明のもう1つの態様を形成する、コンピュータへの入力を提供する方法400を示している。この方法400は、ステップ402で、ユーザから入力音声を受け取り、入力音声に対応するパターンを提供する。ステップ404で、そのパターンを用いてテキスト句(フレイズ)のコレクションを検索する(各句は1つ以上の文字である)ことにより、コレクションから、パターンと関係を有する1つ以上のテキスト句を識別する。
ステップ406で、上記1つ以上のテキスト句をユーザに対して視覚的に提示する。図1は、ユーザに対して提示された、選択肢リスト452を有する例示的なユーザインタフェース450を示している。(この例でユーザは、会議のスケジュールを設定するために、人名に対応する音声入力を提供している。検索は、モバイルデバイス30上に記憶されている「連絡先」データベースを通じて行われた。)ステップ408で、提示されたテキスト句の1つに関する指示をユーザから受け取る。この指示は、いかなる形態の入力デバイスから提供することも可能であるが、一般的には、スタイラス、マウス、ジョイスティック等のようなポインティングデバイスによる。ただし、ステップ406が所望のテキスト句の音響指示も含むことを理解されたい。例えば、提示されるテキスト句のリストは、各テキスト句に対する識別子を含むことができる。識別子を音響的に指示することにより、所望のテキスト句を識別することができる。
ステップ408でどのテキスト句を所望するかを指示した後、ステップ410で、所望のテキスト句の挿入を行い、これをさらなる処理のためにアプリケーションに提供できる。これは通常、コンピューティングデバイス上に視覚的にレンダリングされているフォームのフィールドに、選択された句を挿入することを含む。図1の例では、選択された名前が「Attendees」(出席者)フィールドに挿入される。
音声入力と、視覚的に提示された選択肢の選択とを組み合わせて使用することは、ユーザが情報にアクセスするための効率的方法を提供する。というのは、ユーザが、語の正確な順序や句の文法的正しさを気にせずに、単一の文または句として音響的に意味のあるクエリをユーザが提供できるからである。音声入力は、単にテキスト変換されモバイルデバイス上で実行中のアプリケーションによって使用されるだけでなく、むしろ、当該の語や類似の語を有する既知のコンテンツをモバイルデバイス上で検索するためのクエリを作成するために用いられる。この場合、検索されるコンテンツは、そのすべてをユーザに対して提示する必要はないので、そのコンテンツの総量をはるかに包括的にすることができる。むしろ、音声入力に関連性があることが確認されたコンテンツが、視覚的媒体を通じて、選択肢のリストとして提示される。ユーザは、容易に選択肢のリストに目を通し、最も適切な選択肢を選択することができる。
以上、好ましい実施形態に関して本発明を説明したが、当業者には認識されるように、本発明の技術思想および範囲から逸脱することなく、形態および細部において変更を行うことが可能である。
コンピューティングデバイスのオペレーティング環境の第1実施形態の平面図である。 図1のコンピューティングデバイスのブロック図である。 汎用コンピュータのブロック図である。 データ入力システムのブロック図である。 ラティスの表現の図である。 コンピュータシステムにおいて入力を提供する方法の流れ図である。
符号の説明
29 マイクロフォン
30 データ管理モバイルデバイス
32 ハウジング
33 スタイラス
34 ディスプレイ
35 ボタン
37 アナログ−ディジタル(A/D)コンバータ
43 スピーカ
50 中央処理ユニット(CPU)
52 無線トランシーバ
54 ランダムアクセスメモリ(RAM)
58 読み出し専用メモリ(ROM)
59 ディジタル−アナログコンバータ
60 通信インタフェース
120 汎用コンピュータ
140 処理ユニット
141 システムバス
150 システムメモリ
151 読み出し専用メモリ(ROM)
152 ランダムアクセスメモリ(RAM)
153 基本入出力システム(BIOS)
154 オペレーティングシステム
155 アプリケーションプログラム
156 他のプログラムモジュール
157 プログラムデータ
160 非リムーバブルメモリインタフェース
161 ハードディスクドライブ
164 オペレーティングシステム
165 アプリケーションプログラム
166 他のプログラムモジュール
167 プログラムデータ
170 リムーバブルメモリインタフェース
171 磁気ディスクドライブ
172 磁気ディスク
175 光ディスクドライブ
176 光ディスク
180 ユーザ入力インタフェース
181 ポインティングデバイス
182 キーボード
183 マイクロフォン
184 モニタ
185 ビデオインタフェース
186 プリンタ
187 スピーカ
188 出力周辺インタフェース
190 ネットワークインタフェース
191 ローカルエリアネットワーク(LAN)
192 モデム
193 広域ネットワーク(WAN)
194 リモートコンピュータ
195 リモートアプリケーションプログラム
200 リモート認識サーバ(リモート音声認識器)
204 オーディオキャプチャモジュール
206 音声検索サーバ
208 ローカル音声認識モジュール(ローカル音声認識器)
220 インデックス
222 コンテンツ
224 入力
240 ラティス生成モジュール
250 ラティス
260 タイムライン
450 ユーザインタフェース
452 選択肢リスト

Claims (18)

  1. コンピュータへの入力データを提供するコンピュータ実行可能命令を有するコンピュータ可読媒体において、前記命令が、
    入力音声を示すデータを提供するように適合したオーディオキャプチャモジュールと、
    前記オーディオキャプチャモジュールから前記データを受け取るように適合した音声検索サーバであって、前記データを用いて句のコレクションを検索し、該コレクションから前記データと関係を有する1つ以上の句を識別する音声検索サーバと、
    前記1つ以上の句を前記コンピュータ上に視覚的に提示し選択された句の指示をユーザから受け取るモジュールと
    を含むことを特徴とするコンピュータ可読媒体。
  2. 前記音声検索サーバが、前記データをフィルタリングすることにより前記コレクション内で検索されない少なくとも1つの単語を除去するように適合していることを特徴とする請求項1に記載のコンピュータ可読媒体。
  3. 前記音声検索サーバが、コマンドを示す少なくとも1つの単語を除去するように適合していることを特徴とする請求項2に記載のコンピュータ可読媒体。
  4. 前記音声検索サーバが、前記データ内の少なくとも1つの単語に対する選択肢を追加するように適合していることを特徴とする請求項1に記載のコンピュータ可読媒体。
  5. 前記音声検索サーバが、前記入力音声に対する音声ラティスを形成するように適合したラティス生成器を含み、前記入力音声に対する音声ラティスを前記コレクションに対する音声ラティスと比較することによって、前記データを用いて前記コレクションを検索するように適合していることを特徴とする請求項1に記載のコンピュータ可読媒体。
  6. コンピュータへの入力を提供する方法において、
    ユーザから入力音声を受け取り、該入力音声に対応するデータを提供し、
    前記データを用いて句のコレクションを検索し、該コレクションから前記データと関係を有する1つ以上の句を識別し、
    前記1つ以上の句を前記ユーザに視覚的に提示し、
    前記ユーザから前記句のうちの1つの選択の指示を受け取り、
    アプリケーションに、選択された句を提供する
    ことを特徴とするコンピュータへの入力を提供する方法。
  7. 前記指示を受け取ることが、ポインティングデバイスの操作を含むことを特徴とする請求項6に記載の方法。
  8. 前記指示を受け取ることが、可聴指示を受け取ることを含むことを特徴とする請求項6に記載の方法。
  9. 前記選択された句を提供することが、前記コンピュータ上に提示されたフォームのフィールドに前記選択された句を挿入することを含むことを特徴とする請求項6に記載の方法。
  10. 前記データをフィルタリングすることにより前記コレクション内で検索されない少なくとも1つの単語を除去することをさらに含むことを特徴とする請求項6に記載の方法。
  11. 前記フィルタリングすることが、コマンドを示す少なくとも1つの単語を除去することを含むことを特徴とする請求項10に記載の方法。
  12. 前記データ内の少なくとも1つの単語に対する選択肢を追加することをさらに含むことを特徴とする請求項6に記載の方法。
  13. 前記データを提供することが、前記入力音声に対する音声ラティスを形成することを含み、前記データを用いてコレクションを検索することが、前記入力音声に対する音声ラティスを前記コレクションに対する音声ラティスと比較することを含むことを特徴とする請求項6に記載の方法。
  14. モバイルコンピューティングデバイスにおいて、
    句のコレクションを記憶する記憶部と、
    入力音声を示すデータを提供するように適合したオーディオキャプチャモジュールと、
    前記オーディオキャプチャモジュールから前記データを受け取るように適合した音声検索サーバであって、前記データを用いて前記句のコレクションを検索し、前記コレクションから前記データと関係を有する1つ以上の句を識別する音声検索サーバと、
    前記1つ以上の句を前記コンピュータ上に視覚的に提示し選択された句の指示をユーザから受け取る表示/入力モジュールと
    を備えたことを特徴とするモバイルコンピューティングデバイス。
  15. 前記音声検索サーバが、前記データをフィルタリングすることにより前記コレクション内で検索されない少なくとも1つの単語を除去するように適合していることを特徴とする請求項14に記載のモバイルコンピューティングデバイス。
  16. 前記音声検索サーバが、コマンドを示す少なくとも1つの単語を除去するように適合していることを特徴とする請求項15に記載のモバイルコンピューティングデバイス。
  17. 前記音声検索サーバが、前記データ内の少なくとも1つの単語に対する選択肢を追加するように適合していることを特徴とする請求項14に記載のモバイルコンピューティングデバイス。
  18. 前記音声検索サーバが、前記入力音声に対する音声ラティスを形成するように適合したラティス生成器を含み、前記入力音声に対する音声ラティスを前記コレクションに対する音声ラティスと比較することによって前記データを用いて前記コレクションを検索するように適合していることを特徴とする請求項14に記載のモバイルコンピューティングデバイス。
JP2005204325A 2004-07-13 2005-07-13 コンピューティングデバイスへの入力を提供するための効率的なマルチモーダル方法 Pending JP2006053906A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/889,822 US20060036438A1 (en) 2004-07-13 2004-07-13 Efficient multimodal method to provide input to a computing device

Publications (2)

Publication Number Publication Date
JP2006053906A true JP2006053906A (ja) 2006-02-23
JP2006053906A5 JP2006053906A5 (ja) 2008-08-28

Family

ID=35094176

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005204325A Pending JP2006053906A (ja) 2004-07-13 2005-07-13 コンピューティングデバイスへの入力を提供するための効率的なマルチモーダル方法

Country Status (7)

Country Link
US (1) US20060036438A1 (ja)
EP (1) EP1617409B1 (ja)
JP (1) JP2006053906A (ja)
KR (1) KR101183340B1 (ja)
CN (1) CN1758211A (ja)
AT (1) ATE506674T1 (ja)
DE (1) DE602005027522D1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7912699B1 (en) * 2004-08-23 2011-03-22 At&T Intellectual Property Ii, L.P. System and method of lattice-based search for spoken utterance retrieval
US8065316B1 (en) * 2004-09-30 2011-11-22 Google Inc. Systems and methods for providing search query refinements
US8942985B2 (en) 2004-11-16 2015-01-27 Microsoft Corporation Centralized method and system for clarifying voice commands
US7902447B1 (en) * 2006-10-03 2011-03-08 Sony Computer Entertainment Inc. Automatic composition of sound sequences using finite state automata
US8615388B2 (en) * 2008-03-28 2013-12-24 Microsoft Corporation Intra-language statistical machine translation
WO2010014093A1 (en) * 2008-07-31 2010-02-04 Hewlett-Packard Development Company, L.P. Capturing internet content
US8589157B2 (en) * 2008-12-05 2013-11-19 Microsoft Corporation Replying to text messages via automated voice search techniques
US20100153112A1 (en) * 2008-12-16 2010-06-17 Motorola, Inc. Progressively refining a speech-based search
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US8660847B2 (en) 2011-09-02 2014-02-25 Microsoft Corporation Integrated local and cloud based speech recognition
US8972263B2 (en) * 2011-11-18 2015-03-03 Soundhound, Inc. System and method for performing dual mode speech recognition
US9330659B2 (en) 2013-02-25 2016-05-03 Microsoft Technology Licensing, Llc Facilitating development of a spoken natural language interface
DE102013007964B4 (de) 2013-05-10 2022-08-18 Audi Ag Kraftfahrzeug-Eingabevorrichtung mit Zeichenerkennung
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US10410635B2 (en) 2017-06-09 2019-09-10 Soundhound, Inc. Dual mode speech recognition

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04364523A (ja) * 1991-06-11 1992-12-16 Brother Ind Ltd 音声認識結果表示装置
JPH11272662A (ja) * 1998-03-20 1999-10-08 Sharp Corp 音声情報処理装置及び方法並びにその制御プログラムを記憶した媒体
WO2003042975A1 (en) * 2001-11-16 2003-05-22 Koninklijke Philips Electronics N.V. Device to edit a text in predefined windows
JP2003202886A (ja) * 2001-12-28 2003-07-18 Toshiba Corp テキスト入力処理装置及び方法並びにプログラム

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5632002A (en) * 1992-12-28 1997-05-20 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
US6125347A (en) * 1993-09-29 2000-09-26 L&H Applications Usa, Inc. System for controlling multiple user application programs by spoken input
WO1995025326A1 (en) * 1994-03-17 1995-09-21 Voice Powered Technology International, Inc. Voice/pointer operated system
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
CA2220004A1 (en) * 1995-05-26 1996-11-28 John N. Nguyen Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
US5852801A (en) * 1995-10-04 1998-12-22 Apple Computer, Inc. Method and apparatus for automatically invoking a new word module for unrecognized user input
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5995921A (en) * 1996-04-23 1999-11-30 International Business Machines Corporation Natural language help interface
US6311182B1 (en) * 1997-11-17 2001-10-30 Genuity Inc. Voice activated web browser
US6078914A (en) * 1996-12-09 2000-06-20 Open Text Corporation Natural language meta-search system and method
US6085159A (en) * 1998-03-26 2000-07-04 International Business Machines Corporation Displaying voice commands with multiple variables
US7720682B2 (en) * 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
US7206747B1 (en) * 1998-12-16 2007-04-17 International Business Machines Corporation Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands
US6192343B1 (en) * 1998-12-17 2001-02-20 International Business Machines Corporation Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms
KR100310339B1 (ko) * 1998-12-30 2002-01-17 윤종용 이동전화 단말기의 음성인식 다이얼링 방법
EP1045374B1 (en) * 1999-04-13 2010-08-11 Sony Deutschland GmbH Merging of speech interfaces for concurrent use of devices and applications
US6591236B2 (en) * 1999-04-13 2003-07-08 International Business Machines Corporation Method and system for determining available and alternative speech commands
US7069220B2 (en) * 1999-08-13 2006-06-27 International Business Machines Corporation Method for determining and maintaining dialog focus in a conversational speech system
EP1158799A1 (en) * 2000-05-18 2001-11-28 Deutsche Thomson-Brandt Gmbh Method and receiver for providing subtitle data in several languages on demand
GB0015233D0 (en) * 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
US7130790B1 (en) * 2000-10-24 2006-10-31 Global Translations, Inc. System and method for closed caption data translation
US20020094512A1 (en) * 2000-11-29 2002-07-18 International Business Machines Corporation Computer controlled speech word recognition display dictionary providing user selection to clarify indefinite detection of speech words
EP1215661A1 (en) * 2000-12-14 2002-06-19 TELEFONAKTIEBOLAGET L M ERICSSON (publ) Mobile terminal controllable by spoken utterances
US7085723B2 (en) * 2001-01-12 2006-08-01 International Business Machines Corporation System and method for determining utterance context in a multi-context speech application
US7174294B2 (en) * 2002-06-21 2007-02-06 Microsoft Corporation Speech platform architecture
US7197494B2 (en) * 2002-10-15 2007-03-27 Microsoft Corporation Method and architecture for consolidated database search for input recognition systems
JP4107093B2 (ja) * 2003-01-30 2008-06-25 株式会社日立製作所 対話型端末装置及び対話アプリケーション提供方法
US20040243415A1 (en) * 2003-06-02 2004-12-02 International Business Machines Corporation Architecture for a speech input method editor for handheld portable devices
US20050027539A1 (en) * 2003-07-30 2005-02-03 Weber Dean C. Media center controller system and method
US20050075857A1 (en) * 2003-10-02 2005-04-07 Elcock Albert F. Method and system for dynamically translating closed captions
US20050108026A1 (en) * 2003-11-14 2005-05-19 Arnaud Brierre Personalized subtitle system
CN1697515A (zh) * 2004-05-14 2005-11-16 创新科技有限公司 字幕翻译引擎
US20060136195A1 (en) * 2004-12-22 2006-06-22 International Business Machines Corporation Text grouping for disambiguation in a speech application

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04364523A (ja) * 1991-06-11 1992-12-16 Brother Ind Ltd 音声認識結果表示装置
JPH11272662A (ja) * 1998-03-20 1999-10-08 Sharp Corp 音声情報処理装置及び方法並びにその制御プログラムを記憶した媒体
WO2003042975A1 (en) * 2001-11-16 2003-05-22 Koninklijke Philips Electronics N.V. Device to edit a text in predefined windows
JP2003202886A (ja) * 2001-12-28 2003-07-18 Toshiba Corp テキスト入力処理装置及び方法並びにプログラム

Also Published As

Publication number Publication date
US20060036438A1 (en) 2006-02-16
CN1758211A (zh) 2006-04-12
EP1617409B1 (en) 2011-04-20
DE602005027522D1 (de) 2011-06-01
KR20060050139A (ko) 2006-05-19
EP1617409A1 (en) 2006-01-18
ATE506674T1 (de) 2011-05-15
KR101183340B1 (ko) 2012-09-14

Similar Documents

Publication Publication Date Title
JP2006053906A (ja) コンピューティングデバイスへの入力を提供するための効率的なマルチモーダル方法
US10909969B2 (en) Generation of language understanding systems and methods
US11016968B1 (en) Mutation architecture for contextual data aggregator
CN108847241B (zh) 将会议语音识别为文本的方法、电子设备及存储介质
US10037758B2 (en) Device and method for understanding user intent
CN111710333B (zh) 用于生成语音转录的方法和系统
TWI437449B (zh) 多重模式輸入方法及輸入方法編輯器系統
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
TWI266280B (en) Multimodal disambiguation of speech recognition
US7912700B2 (en) Context based word prediction
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US7860707B2 (en) Compound word splitting for directory assistance services
CN105931644A (zh) 一种语音识别方法及移动终端
TW200538969A (en) Handwriting and voice input with automatic correction
JP5703491B2 (ja) 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
TW201606750A (zh) 使用外國字文法的語音辨識
JP2008287210A (ja) 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
WO2019169722A1 (zh) 快捷键识别方法、装置、设备以及计算机可读存储介质
JP5231484B2 (ja) 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
JP4653598B2 (ja) 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム
CN112149403A (zh) 一种确定涉密文本的方法和装置
JP4839291B2 (ja) 音声認識装置およびコンピュータプログラム
JP5293607B2 (ja) 略語生成装置およびプログラム、並びに、略語生成方法
CN1965349A (zh) 多形式的非歧意性语音识别

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080714

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110819

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111118

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120106