JP4249538B2

JP4249538B2 - 表意文字言語のマルチモーダル入力

Info

Publication number: JP4249538B2
Application number: JP2003130775A
Authority: JP
Inventors: ユンチェンジュ; シャオフェンホン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2002-05-08
Filing date: 2003-05-08
Publication date: 2009-04-02
Anticipated expiration: 2023-05-08
Also published as: CN1457002A; CN100568223C; US7174288B2; HK1060418A1; JP2004046807A; US20030212563A1

Description

【０００１】
【発明の属する技術分野】
本発明は、データ処理システムに関する。より詳細には、本発明は、中国語および日本語など、表意文字を有する文字言語（ｗｒｉｔｔｅｎｌａｎｇｕａｇｅ）をコンピュータシステムに入力することに関する。
【０００２】
【従来の技術】
表意文字を有する非音声または非アルファベット言語をコンピュータシステムに入力することは、時間がかかり、煩わしいことになる可能性がある。（知られているように、および本明細書で使用するように、「表意文字」は「表語文字」（ｌｏｇｏｇｒａｍｓ）または「表語文字の」（ｌｏｇｏｇｒａｐｈｉｃ）としても知られており、文字言語における語を表現する記号であり、これは音素または音節を使用してそれらの成分音から語を構築することとは対照的である。）ある一般に使用されているシステムはしばしばＩＭＥ（入力方式エディタ）と呼ばれており、これはワシントン州レドモンドのＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎによって販売されている。このシステムでは、音声記号がコンピュータに、標準のキーボードを使用して提供される。コンピュータは、音声記号を選択言語に変換するコンバータモジュールを含む。例えば、日本語テキストをコンピュータシステムにおいて、音声文字を英語またはラテン語キーボードから入力することによって形成することは一般的である。ラテンアルファベットの文字を使用して日本語音声文字を入力することは、「ローマ字」と呼ばれる。コンピュータシステムは、各ローマ字文字を、格納された辞書と比較し、「かな」シーケンス（かな文字列）を生成する。かなは、日本語の音節記号であり、日本語の音を表現するものである。次いで、ＩＭＥコンバータは形成されたかなを、正式な日本語の文字言語（ｗｒｉｔｔｅｎｌａｎｇｕａｇｅ）である「漢字」形態に、高度な言語解析を通じて変換する（正式な日本語の書記体系は実際には漢字およびかなの混合からなり、漢字は内容情報の大部分を表現し、発音についての指示情報を有していない）。
【０００３】
しかし、上述のＩＭＥシステムなど、日本語のワードプロセッサにおいて使用される従来のテキスト処理システムでは、かなシーケンスに相当する適切な漢字をしばしば、いわゆる候補表示および選択方法を使用して選択あるいは修正しなければならない。具体的には、いくつかの漢字候補がかなのシーケンスについて表示され、そのため、ユーザは適切なものを選択できる。この表示および選択方法は必要であり、これは、日本語がいくつかの同音異義語を含み、明示的な語境界を含んでおらず、これにより、必然的にかなから漢字への変換エラーが引き起こされるからである。漢字候補を表示することによって、ユーザは可能な候補を閲覧し、適切な漢字表現を選択することができる。
【０００４】
【発明が解決しようとする課題】
同様に、中国語のワードプロセッサまたは他の中国語処理システムにおいて使用されるテキスト編集モジュールもＩＭＥ変換を必要としており、これは音声記号（ピンイン）から文字のＨａｎｚｉ表現に変換する。ピンインＩＭＥは、最も普及している音声中国語ＩＭＥであり、上述の日本語のかなＩＭＥに類似の方法で動作する。一般に、音声ピンイン文字列情報がＨａｎｚｉに、ピンイン辞書および言語モデルの使用を通じて変換される。ピンインＩＭＥにおける音調記号（ｔｏｎｅｍａｒｋｓ）の欠如により、日本語のかなＩＭＥよりもはるかに多くの同音異義語が生じる可能性がある。しばしば、いくつかのピンインシーケンスについての同音異義語のリストはあまりにも長過ぎて、視覚的ディスプレイの画面全体上に適合しない可能性がある。
【０００５】
最近では、音声認識がこれらのシステムにおいて使用されるようになってきた。これは、先にキーボードを通じて入力された音声情報を自然に提供するものである。しかし、上述の同音異義語の問題はなお存在する。加えて、音声認識エラーが会話中に起こる可能性があり、これには、正しい表意文字を得るために候補表示および選択方法をさらに多く使用することが必要となるかもしれない。
【０００６】
したがって、表意文字を有する中国語および日本語などの言語のための、文字の記号を得るためのシステムを、より効果的かつ効率的に実施する必要性が続いている。
【０００７】
【課題を解決するための手段】
表意文字をコンピュータシステムに入力するための方法は、入力される所望の表意文字に関係付けられた音声情報を受信すること、および、受信された音声情報に応じて可能な表意文字の候補リストを形成することを含む。ストローク情報が、候補リストから所望の表意文字を得るために受信される。ストローク情報は、所望の表意文字における１つまたは複数のストロークを含む。所望の表意文字を得るこの方法は「マルチモーダル」であり、２つの異なる、実質的に相互関係のないタイプの情報（音声およびストローク）が、所望の表意文字または記号を位置付けるために使用される。
【０００８】
この方法で表意文字を入力することは、音声情報が音声認識器によって提供される、テキスト編集システムまたはワードプロセッシングシステムによって自動的に選択された表意文字を訂正することが必要であるとき、特に有用である。一般に、システムによって自動的に選択された表意文字は、候補リストにおいて最高の確率を有する表意文字である。ユーザが指示しているストロークを有していない表意文字が所望の表意文字または記号において存在するとき、ストローク情報を使用して、候補リストから表意文字を除去する。所望の表意文字のストロークにおける繰り返し入力により、候補リストを減らすことができる。この方法では、ユーザは所望の表意文字のためのストロークをすべて入力する必要はなく、むしろ、所望の表意文字を候補リストから識別するために十分な、いくつかのストロークのみを入力すればよい。
【０００９】
ユーザが所望の表意文字または記号を位置付けることなく、初期の候補リストがゼロに減らされた場合、これまでに受信されたストローク情報の役割に応じて、追加の表意文字または記号を候補リストに追加することができる。これは本発明のもう１つの態様である。この方法では、ユーザは所望の表意文字を発見するためにストローク情報を再入力する必要がなく、これにより、音声情報に基づいた表意文字または記号から、ストローク情報にのみ基づいた表意文字および記号へのスムーズな移行が得られる。
【００１０】
【発明の実施の形態】
図１を参照すると、本発明の一態様が、コンピュータシステムにおいて表意文字を入力する方法１０である。方法１０は、表意文字の音声情報を、通常は音声認識システムを通じてユーザから受信するステップ１２、および、ステップ１４で、受信された音声情報に対応する可能性のある表意文字の候補リストを形成するステップを含む。ディスプレイ上でユーザにレンダリングされた候補リストの一実施例を図９の１７に示す。一般に、最高の優先順位を有する表意文字が自動的に選択され、保存される。しかし、エラーが自動選択において起こっている場合、次いでステップ１６で、ユーザが、正しい表意文字を形成する少なくとも１つのストロークの「ストローク」情報を提供することができる。ステップ１８で、ストローク情報がコンピュータシステムによって使用されて、所望の表意文字が候補リストから得られる。
【００１１】
図２を参照すると、ストローク情報を提供すること、および所望の表意文字を得ることは、ステップ１９から２２を繰り返すことを含むことができる。ステップ１９は、ストローク情報（すなわち、所望の表意文字に含まれた１つまたは複数のストローク）をユーザから得ることを含む。ステップ１９から得られたストローク情報（および、ステップ１９の以前の実行からのいずれかの追加のストローク情報）により、ステップ２０で候補リストが狭められて、ユーザから得られたストローク情報を有する表意文字のみを含むようにされる。ステップ２１で、狭められた候補リストがユーザにレンダリングされる。ステップ２２でユーザが所望の表意文字を識別した場合、選択された表意文字が保存され、そうでない場合、ステップ１９で、ユーザが追加のストローク情報を提供し、プロセスを繰り返すことができる。
【００１２】
ストローク情報が一般には音声情報に対して相互関係がなく、それにより候補リストを容易に再検討して（例えば、減らして）所望の表意文字を得ることができることに留意されたい。語を得るために所望の語の文字が入力されるシステムでは、文字と、語における文字によって作成される発音の間に強い相互関係が存在する。したがって、所望の語を識別するために語の候補リストを減らすために、文字のすべてではないとしても、多数の文字を入力する必要がある。対照的に、一般に表意文字の音声体系への強い相互関係を有していないストローク情報を使用することによって、所望の表意文字を、類似に聞こえる候補表意文字のリストから高速に識別することができる。
【００１３】
上に記載した方法１０をいずれかのテキスト編集モジュールにおいて実施することができ、これは多数の形態を取ることができる。例えば、テキスト編集モジュールを、上の背景のセクションで記載したようなＩＭＥシステムにすることができ、これは音声を通じて音声情報を受信し、音声情報を、日本語、中国語などの文字言語に変換するものである。加えて、テキスト編集モジュールをワードプロセッシングアプリケーションにすることができ、あるいはこれは、入力音声をユーザから、マイクロフォンを通じて受信し、および入力音声をテキストに変換する口述システムの一部を形成することができる。
【００１４】
本発明をさらに詳細に考察する前に、オペレーティング環境の概観が有用である可能性がある。図３は、本発明を実施することができる適切なコンピューティングシステム環境５０の一実施例を示す。コンピューティングシステム環境５０は適切なコンピューティング環境の一実施例でしかなく、本発明の使用または機能性の範囲についてのいかなる限定をも示唆するように意図されるものではない。コンピューティング環境５０は、例示的オペレーティング環境５０において例示したコンポーネントのいずれか１つまたは組み合わせに関係するいかなる依存性も要件も有するものとして解釈されるべきではない。
【００１５】
本発明は、多数の他の汎用または専用コンピューティングシステム環境または構成と共に動作可能である。本発明と共に使用するために適切である可能性のある周知のコンピューティングシステム、環境および／または構成の例には、それだけに限定されるものではないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブルなコンシューマエレクトロニクス、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、上のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれる。
【００１６】
本発明を一般に、プログラムモジュールなど、コンピュータによって実行されるコンピュータ実行可能命令に関連して記載することができる。一般に、プログラムモジュールには、特定のタスクを実行するか、あるいは特定の抽象データ型を実施するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明をまた分散コンピューティング環境において実施することもでき、ここでは、通信ネットワークを通じてリンクされるリモート処理デバイスによってタスクが実行される。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含む、ローカルおよびリモートのコンピュータ記憶媒体に位置することができる。プログラムおよびモジュールによって実行されるタスクを以下で、図を用いて記載する。当業者は、記載および図を、コンピュータ可読媒体のいずれかの形態において書くことができるプロセッサ実行可能命令として実施することができる。
【００１７】
図３を参照すると、本発明を実施するための例示的システムは、汎用コンピューティングデバイスをコンピュータ６０の形態において含む。コンピュータ６０のコンポーネントには、それだけに限定されるものではないが、処理装置７０、システムメモリ８０、および、システムメモリを含む様々なシステムコンポーネントを処理装置７０に結合するシステムバス７１を含むことができる。システムバス７１は、いくつかのタイプのバス構造のいずれかにすることができ、これには、様々なバスアーキテクチャのいずれかを使用する、メモリバスまたはメモリコントローラ、周辺バスおよびローカルバスが含まれる。例として、限定ではなく、このようなアーキテクチャには、業界標準アーキテクチャ（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭＣＡ）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ（ＶＥＳＡ）ローカルバス、およびメザニンバスとしても知られる周辺装置相互接続（ＰＣＩ）バスが含まれる。
【００１８】
コンピュータ６０は通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ５０によってアクセスすることができる、いかなる使用可能な媒体にすることもでき、揮発性および不揮発性媒体、リムーバブルおよび非リムーバブル媒体が含まれる。例として、限定ではなく、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体には、揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体が含まれ、これは、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータなど、情報の格納のためのいずれかの方法または技術において実施される。コンピュータ記憶媒体には、それだけに限定されるものではないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）または他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶デバイス、または所望の情報を格納するために使用することができ、およびコンピュータ５０によってアクセスすることができる他のいずれかの媒体が含まれる。
【００１９】
通信媒体は通常、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータを、搬送波または他の移送メカニズムなどの変調データ信号において実施し、いずれかの情報配信媒体を含む。「変調データ信号」という用語は、その特性のうち１つまたは複数が、情報を信号においてエンコードするような方法で設定あるいは変更されている信号を意味する。例として、限定ではなく、通信媒体には、ワイヤードネットワークまたは直接ワイヤード接続などのワイヤード媒体、および、音響、ＦＲ、赤外線および他のワイヤレス媒体などのワイヤレス媒体が含まれる。上のいずれかの組み合わせもまた、コンピュータ可読媒体の範囲内に含まれるべきである。
【００２０】
システムメモリ８０は、読み取り専用メモリ（ＲＯＭ）８１およびランダムアクセスメモリ（ＲＡＭ）８２など、揮発性および／または不揮発性メモリの形態におけるコンピュータ記憶媒体を含む。基本入力／出力システム８３（ＢＩＯＳ）は、起動中など、コンピュータ６０内の複数の要素の間で情報を転送する助けとなる基本ルーチンを含み、これが通常ＲＯＭ８１に格納される。ＲＡＭ８２は通常、処理装置７０によって即時アクセス可能、および／または現在動作中であるデータおよび／またはプログラムモジュールを含む。例として、限定ではなく、図３はオペレーティングシステム８４、アプリケーションプログラム８５、他のプログラムモジュール８６およびプログラムデータ８７を示す。
【００２１】
コンピュータ６０はまた、他のリムーバブル／非リムーバブル、揮発性／不揮発性のコンピュータ記憶媒体も含むことができる。例としてのみ、図３は、非リムーバブルの不揮発性磁気媒体との読み書きを行うハードディスクドライブ９１、リムーバブルの不揮発性磁気ディスク１０２との読み書きを行う磁気ディスクドライブ１０１、および、ＣＤ−ＲＯＭまたは他の光媒体など、リムーバブルの不揮発性光ディスク１０６との読み書きを行う光ディスクドライブ１０５を示す。例示的オペレーティング環境において使用することができる他のリムーバブル／非リムーバブル、揮発性／不揮発性のコンピュータ記憶媒体には、それだけに限定されるものではなく、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートＲＡＭ、ソリッドステートＲＯＭなどが含まれる。ハードディスクドライブ９１が一般にシステムバス７１に、インターフェイス９０などの非リムーバブルメモリインターフェイスを通じて接続され、磁気ディスクドライブ１０１および光ディスクドライブ１０５が一般にシステムバス７１に、インターフェイス１００などのリムーバブルメモリインターフェイスによって接続される。
【００２２】
上述の、および図３で例示したドライブおよびそれらの関連付けられたコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、および、コンピュータ６０のための他のデータを提供する。図３では、例えば、ハードディスクドライブ９１が、オペレーティングシステム９４、アプリケーションプログラム９５、他のプログラムモジュール９６およびプログラムデータ９７を格納するものとして例示される。これらのコンポーネントを、オペレーティングシステム８４、アプリケーションプログラム８５、他のプログラムモジュール８６およびプログラムデータ８７と同じものにすることも、異なるものにすることもできることに留意されたい。オペレーティングシステム８４、アプリケーションプログラム８５、他のプログラムモジュール８６およびプログラムデータ８７には、ここでは異なる数字が与えられて、少なくともこれらが異なるコピーであることが例示される。
【００２３】
ユーザはコマンドおよび情報をコンピュータ６０へ、入力デバイスを通じて入力することができ、これはキーボード１１２、マイクロフォン１１３、手書きタブレット１１４、および、マウス、トラックボールまたはタッチパッドなどのポインティングデバイス１１１などである。他の入力デバイス（図示せず）には、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、スキャナなどが含まれる可能性がある。これらおよび他の入力デバイスがしばしば処理装置７０へ、システムバスに結合されるユーザ入力インターフェイス１１０を通じて接続されるが、これらを、パラレルポート、ゲームポートまたはユニバーサルシリアルバス（ＵＳＢ）など、他のインターフェイスおよびバス構造によって接続することができる。モニタ１４１または他のタイプの表示デバイスもまたシステムバス７１へ、ビデオインターフェイス１４０などのインターフェイスを介して接続される。モニタに加えて、コンピュータはまた、スピーカ１４７およびプリンタ１４６など、出力周辺装置インターフェイス１４５を通じて接続することができる他の周辺出力デバイスをも含むことができる。
【００２４】
コンピュータ６０はネットワーク化環境において、リモートコンピュータ１３０など、１つまたは複数のリモートコンピュータへの論理接続を使用して動作することができる。リモートコンピュータ１３０を、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークＰＣ、ピアデバイスまたは他の共通ネットワークノードにすることができ、これは通常、コンピュータ６０に関して上に記載した要素の多数またはすべてを含む。図３に示す論理接続は、ローカルエリアネットワーク（ＬＡＮ）１２１および広域ネットワーク（ＷＡＮ）１２３を含むが、他のネットワークも含むことができる。このようなネットワーキング環境は、オフィス、企業全体のコンピュータネットワーク、イントラネットおよびインターネットにおいて一般的である。
【００２５】
ＬＡＮネットワーキング環境において使用されるとき、コンピュータ６０がＬＡＮ１２１に、ネットワークインターフェイスまたはアダプタ１２０を通じて接続される。ＷＡＮネットワーキング環境において使用されるとき、コンピュータ６０は通常、モデム１２２、または、インターネットなどのＷＡＮ１２３を介して通信を確立するための他の手段を含む。モデム１２２は内部または外部にすることができ、これをシステムバス７１へ、ユーザ入力インターフェイス１１０または他の適切なメカニズムを介して接続することができる。ネットワーク化環境において、コンピュータ６０に関して示したプログラムモジュールまたはその一部を、リモートのメモリ記憶装置に格納することができる。例として、限定ではなく、図３は、リモートアプリケーションプログラム１３５がリモートコンピュータ１３０上に存在するものとして示す。図示のネットワーク接続は例示的であり、通信リンクを複数のコンピュータの間で確立する他の手段を使用できることは理解されよう。
【００２６】
ステップ１２で得られた音声情報が一般に音声認識システムによって提供され、その例示的実施形態を図４の１６０に示す。一般に、音声認識システム１６０は入力音声をユーザから受信し、入力音声をテキストに変換する。一般に、この方法で使用される音声認識システムは「口述システム」と呼ばれる。音声認識システム１６０はワードプロセッシングアプリケーションまたはテキスト編集モジュールの一部を形成することができるが、本発明はまた、テキストファイルのみを出力として提供する口述システムも含むことを理解されたい。すなわち、口述システムの１つの形態では、上述したような表意文字の訂正以外にテキストファイルを修正するための機能を含まなくてもよい。
【００２７】
例示的実施形態では、音声認識システム１６０は、マイクロフォン９２、アナログ−デジタル（Ａ／Ｄ）コンバータ１６４、トレーニングモジュール１６５、特徴抽出モジュール１６６、レキシコン格納モジュール１７０、セノネツリー（ｓｅｎｏｎｅｔｒｅｅｓ）を有する音響モデル１７２、ツリーサーチエンジン１７４および言語モデル１７５を含む。システム１６０の全体、または音声認識システム１６０の一部を、図３に例示した環境において実施することができることに留意されたい。例えば、マイクロフォン９２を好ましくは入力デバイスとしてコンピュータ５０に、適切なインターフェイスを通じて、およびＡ／Ｄコンバータ１６４を通じて設けることができる。トレーニングモジュール１６５および特徴抽出モジュール１６６を、コンピュータ５０におけるハードウェアモジュール、または、図３において開示した情報格納デバイスのいずれかに格納され、および処理装置７０または別の適切なプロセッサによってアクセス可能なソフトウェアモジュールにすることができる。加えて、レキシコン格納モジュール１７０、音響モデル１７２および言語モデル１７５が図３のメモリデバイスのいずれかに格納されることも好ましい。さらに、ツリーサーチエンジン１７４が（１つまたは複数のプロセッサを含むことができる）処理装置７０において実施され、あるいはこれを、パーソナルコンピュータ５０によって使用された専用音声認識プロセッサによって実行することができる。
【００２８】
例示した実施形態では、音声認識中に、ユーザによって音声が入力として、マイクロフォン９２へのユーザによる可聴音声（信号）の形態でシステム１６０に与えられる。マイクロフォン９２は可聴音声（信号）をアナログ電子信号に変換し、これがＡ／Ｄコンバータ１６４に提供される。Ａ／Ｄコンバータ１６４はアナログ音声信号を一連のデジタル信号に変換し、これが特徴抽出モジュール１６６に提供される。一実施形態では、特徴抽出モジュール１６６は従来のアレイプロセッサであり、これはデジタル信号においてスペクトル分析を実行し、周波数スペクトルの各周波数帯域についての振幅値を計算する。これらの信号が、１つの例示的実施形態では、特徴抽出モジュール１６６にＡ／Ｄコンバータ１６４によって、約１６ｋＨｚのサンプルレートで提供される。
【００２９】
特徴抽出モジュール１６６は、Ａ／Ｄコンバータ１６４から受信されたデジタル信号を、複数のデジタルサンプルを含むフレームに分割する。各フレームは約１０ミリ秒の持続時間である。次いで、フレームが特徴抽出モジュール１６６によって特徴ベクトルにエンコードされ、これは、複数の周波数帯域についてのスペクトル特性を反映する。離散的かつ半連続的な隠れマルコフモデリングの場合、特徴抽出モジュール１６６はまた特徴ベクトルを１つまたは複数のコードワードに、ベクトル量子化技術、および、トレーニングデータから導出されたコードブックを使用してエンコードする。したがって、特徴抽出モジュール１６６は、その出力で、各発話の音声についての特徴ベクトル（またはコードワード）を提供する。特徴抽出モジュール１６６は特徴ベクトル（またはコードワード）を、約１０ミリ秒毎に１つの特徴ベクトル（またはコードワード）のレートで提供する。
【００３０】
次いで、出力確率分布が隠れマルコフモデルに対して、解析中の特定のフレームの特徴ベクトル（またはコードワード）を使用して計算される。これらの確率分布が後に、ビタビまたは類似のタイプの処理技術の実行において使用される。
【００３１】
コードワードを特徴抽出モジュール１６６から受信すると、ツリーサーチエンジン１７４は、音響モデル１７２に格納された情報にアクセスする。モデル１７２は、隠れマルコフモデルなどの音響モデルを格納し、これは、音声認識システム１６０によって検出される音声単位を表現する。一実施形態では、音響モデル１７２は、隠れマルコフモデルにおける各マルコフ状態に関連付けられたセノネツリーを含む。隠れマルコフモデルは、１つの例示的実施形態では、音素を表現する。音響モデル１７２におけるセノネ（ｓｅｎｏｎｅ）に基づいて、ツリーサーチエンジン１７４は、特徴抽出モジュール１６６から受信された特徴ベクトル（またはコードワード）によって表現され、および、よって、システムのユーザから受信された発声を表す、最も可能性の高い音素を決定する。
【００３２】
ツリーサーチエンジン１７４はまた、モジュール１７０に格納されたレキシコンにもアクセスする。ツリーサーチエンジン１７４によって、その音響モデル１７２のアクセスに基づいて受信された情報が、レキシコン格納モジュール１７０のサーチにおいて使用されて、特徴抽出モジュール１６６から受信されたコードワードまたは特徴ベクトルを最も表現する可能性の高い記号または表意文字が決定される。また、サーチエンジン１７４は言語モデル１７５にもアクセスする。言語モデル１７５も、入力音声によって表現された最も可能性の高い記号または表意文字の識別において使用される。可能性のある記号または表意文字を、候補リストにおいて編成することができる。候補リストからの最も可能性の高い記号または表意文字が出力テキストとして提供される。トレーニングモジュール１６５およびキーボード７０が使用されて、音声認識システム１６０がトレーニングされる。
【００３３】
音声認識システム１６０がＨＭＭモデリングおよびセノネツリーを使用する場合を本明細書に記載したが、音声認識システム１６０はハードウェアおよびソフトウェアモジュールの多数の形態を取ることができ、必要とされることは、それが出力としてテキストを、好ましくは候補リストの使用を通じて提供することのみであることを理解されたい。
【００３４】
ステップ１６で得られたストローク情報が一般に、手書き認識モジュールまたはシステムによって提供され、その例示的実施形態を図５の１８１に示す。手書き認識モジュール１８１は入力をユーザから、手書きタブレット１１４を通じて受信する。
【００３５】
手書き認識システムは一般的によく知られている。本発明において動作するように修正された１つの例示的実施形態を図５に例示する。これは開示されており、本発明と同じ譲受人に譲渡されている（例えば、米国特許５７２９６２９号を参照）。簡単に述べると、手書き認識システム１８５は、手書きタブレット１１４に結合された手書き認識モジュール１８１を含み、これはユーザからの手書き入力記号を受信し、および手書き認識モジュール１８１によって、手書きされた記号に対応するように決定された参照記号を表示する。手書き認識モジュール１８１がメモリユニット１８９に結合され、これは一時的に、手書きタブレット１１４から受信された入力ストロークの特徴を表現する座標情報を格納する。手書き認識モジュール１８１はストロークアナライザ１９１を含む。ストロークアナライザ１９１は座標情報をメモリユニット１８９から取得し、書かれた（文字の）各特徴についての座標情報を、メモリユニット１８９に格納された所定の数の特徴モデルのうち１つを表現する特徴コードに変換する。本発明の目的では、手書き認識モジュール１８１は、表意文字または記号全体を認識する必要はなく、むしろ表意文字または記号に含まれた１つまたは複数の個々のストロークを認識する必要があり、このストローク情報が、ストロークを有する表意文字または記号を、ストロークを有していないものから分離するために使用される。
【００３６】
個々のストローク特徴評価がラベルコンパレータ１９３によって実施され、これは、入力されたストロークについての特徴コードを、メモリユニット１８９に格納された参照ストロークの特徴コードと比較し、入力ストロークの特徴コードに最も厳密に合致する特徴コードを有する参照ストロークを識別する。ラベルコンパレータ１９３によって決定されたような、手書き入力ストロークに最も厳密に合致する参照ストロークが使用されて、図１のステップ１８でストローク情報に応じて所望の表意文字が選択され、または、図２を参照すると、ステップ２０で候補リストが減らされる。
【００３７】
手書き認識システム１８５を、上述のコンピュータ５０上で実施することができる。メモリユニット１８９は、ＲＡＭ８２、ハードディスクドライブ９１、リムーバブル磁気ディスク１０２、または、光ディスクドライブ１０５用のＣＤなど、上述のメモリデバイスのいずれかを含むことができ、あるいは、これにリモートコンピュータ１３０を通じてアクセスすることができる。ストロークアナライザ１９１、ラベルコンパレータ１９３をハードワイヤード回路またはモジュールにすることができるが、通常はソフトウェアプログラムまたはモジュールである。手書きタブレット１１４は入力デバイスを含み、これは従来のデジタイザタブレットおよびペンまたは電子スキャナなどである。一般に、入力デバイスは一連のＸ−Ｙ座標点を提供して、デジタイジングタブレット上のペンの、あるいは電子スキャナによって検出されたような記号のパターンの連続した動きに対応するストロークのセグメントを定義する。手書きタブレット１１４は座標点をメモリユニット１８９に送信し、そこで、ストロークが認識されている間に座標点が格納される。また、本発明の態様から逸脱することなく、手書き認識システム１８５の形態を、入力ストロークを認識するための他の技術を使用して変更できることにも留意されたい。ストローク情報を獲得し、可能性のある表意文字のリストを減らすための別の適切なシステムまたはモジュールが、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎによるＩＭＥＰＡＤにおいて見られる。
【００３８】
図２のステップ２０で、ストローク情報を様々な方法で使用して候補リストを減らすことができる。例えば、図６を参照すると、中央またはメインデータベース１７０を、ある言語において使用される表意文字または記号のすべてを示すデータを有するコンピュータ可読媒体において維持することができ、このデータは詳細には、各表意文字または記号において存在するストロークを示すデータである。１７１で示す、候補リストの表意文字または記号を示すデータが処理モジュール１７３に提供され、これは、対応する表意文字または記号、または、少なくとも候補リスト１７１の表意文字または記号におけるストロークを、データベース１７０を使用して識別する。ストローク情報がユーザから受信されるとき、処理モジュール１７３は、候補リスト１７１の表意文字に対応するストローク情報にアクセスし、これは、候補リスト１７１のうちユーザによって識別されたストロークを含まない表意文字または記号を除くためである。候補リスト１７１の表意文字または記号が通常はユーザに、適切なレンダリングモジュール１７７を通じてレンダリングされ（例えば、図９に図示されるように）、これは、ストローク情報が使用されて記号の数が減らされるときであり、ユーザによる所望の表意文字または記号の認識において、ユーザは高速に所望の表意文字または記号を選択できるようになる。この方法では、ユーザは通常、所望の記号を識別するために、所望の記号のストロークのすべてを入力しなくてもよくなる。
【００３９】
いくつかの状況では、ユーザによって提供されたストローク情報は、候補リスト１７１の表意文字または記号のいずれにも対応せず、これにより、上に記載した技術を使用して、最終的に、ユーザに対して選択のために表意文字または記号が提示されないようになる。本発明の別の態様として、ユーザに、手動で所望の表意文字または記号を描画するように、あるいはストローク情報を再入力してこれをデータベース１７０に含まれたストローク情報のすべてと比較することによって最初から開始するように求めるのではなく、処理モジュール１７３は、すでにユーザによって提供されたすべてのストローク情報を保持し、これを使用して、これまでに入力されたストロークを有する少なくとも１つの、通常は複数の表意文字または記号を識別することができる。識別された表意文字または記号は実質的に、新しい候補リスト１７１を形成することができ、これが再度、さらにユーザによって提供されたストローク情報により、所望の表意文字または記号が選択されるまで、さらに減らされる。
【００４０】
この態様を、図７に例示した方法２４０の使用を通じて達成することができる。方法２４０は例示的に、図２に記載した方法と同様に動作し、類似の要素が同様に付番される。この方法では、ステップ２４２がステップ２０の後に追加されて、候補リストが空であるかどうかがチェックされる。候補リストにエントリがあった場合、この方法が、先に記載したようにステップ２１に進行する。候補リストが空であった場合、方法２４０がステップ２４４に進行する。ステップ２４４で、ユーザによって先に入力されたストローク情報が表意文字の完全リストに加えられる。類似のストローク情報を有する表意文字は、新しい候補リスト１７１の一部を形成する。次いでステップ２１で、このリストがユーザにレンダリングされ、この方法が、図２に関して記載したように進行する。ユーザが追加のストローク情報を求められるこの方法をさらに繰り返すことを使用して、望むなら、新しい候補リスト１７１をさらに減らすことができる。
【００４１】
ユーザの観点からは、最初に音声情報から識別された候補リストから、ストローク情報のみに基づいた候補リストへの移行はスムーズであるが、通常は目立つものであり、これは、ストローク情報が入力されるときに候補リスト１７１の数が減るように見え、次いで、最初のリストの候補のすべてが除かれてしまうときには突然拡大するように見えるからである。この技術のさらなる利点により、認識エラー（候補リストの最初の表意文字または記号のいずれもが正しくない）の訂正が容易にできるようになり、これは、データベース１７０のすべての表意文字または記号に、必要な場合、ストローク情報に基づいてアクセスすることができるからである。
【００４２】
図８は、日本語ＩＭＥシステムにおいて使用される例示的処理システムまたはテキスト編集システム２２０を示すブロック図である。システム２２０は、上で記載した、音声情報を入力するための音声認識システム１６０などの音声認識システム、および、上述の手書き認識システム１８５など、ストローク情報を入力するためのシステムを含む。
【００４３】
音声認識システム１６０によって提供された音声情報が入力メモリ２２２に格納され、入力メモリ２２２から変換コントローラ２２４に転送される。ローマ字音声記号が音声認識システム１６０によって提供された場合、記号が最初に、変換プロセッサ２２６を使用して処理されて、ローマ字音声記号がかな文字に変換される。変換プロセッサ２２６は、メモリ２２８に格納された辞書データにアクセスし、ローマ字音声記号をかな文字に変換する。
【００４４】
次いで、かなデータが所定の処理単位に、例えば、語または節の単位に、変換プロセッサ２２６のコントロール下で区分化される。次いで、区分化されたデータが、かな−漢字変換処理を受ける。変換プロセッサ２２６は、同じくメモリ２２８に格納された辞書データを、かな−漢字変換のために使用する。複数の漢字形態が１つのかな記号のシーケンスに対応する場合、変換プロセッサ２２６は最も可能性の高いものを候補リストから、メモリ２３０に格納された言語モデルによって決定された変換結果として選択することができる（言語モデルは通常、図４に例示した音声認識システムの例示的実施形態における３つの語の組み合わせ（ｔｒｉｇｒａｍ）言語モデル１７５と同様に、Ｎグラム言語モデルによって実施される）。選択された記号が、ユーザによって正しくないと決定された場合、上述のように手書き認識システム１８５を使用してストローク情報を入力して、最終的に正しい表意文字または記号を選択することができ、ＩＭＥコントローラ２２４は処理モジュール１７２として機能し、出力メモリ２３２および出力デバイス７７が使用されて候補リスト１７１がレンダリングされる。
【００４５】
ストローク情報を、手書き認識システム１８５以外の他のデバイスを通じて入力することもできることにも留意されたい。例えば、表意文字において存在するすべてのストロークを指示するキーを有するキーボードも使用することができる。このタイプのシステムは有益である可能性があり、これは、特定のストロークを表すキーを動かすことにより、ユーザが書くものに基づいてストロークを認識する必要がなくなるからである。このタイプの入力が中国語ＩＭＥシステムにおいて使用され、ここではＷｕ−Ｂｉがストローク情報であり、音声情報がピンイン記号を含む。
【００４６】
本発明を、好適実施形態を参照して説明したが、本発明の精神および範囲から逸脱することなく形態および詳細を変更できることは、当業者には理解されよう。
【図面の簡単な説明】
【図１】本発明の一態様を示す流れ図である。
【図２】本発明によるオペレーションの方法を示す流れ図である。
【図３】本発明を実施するための例示的環境のブロック図である。
【図４】音声認識システムのブロック図である。
【図５】手書き認識システムのブロック図である。
【図６】ストローク情報に応じて候補リストを減らし、およびレンダリングするために使用されるモジュールのブロック図である。
【図７】本発明の代替実施形態によるオペレーションの方法を示す流れ図である。
【図８】例示的処理システムのブロック図である。
【図９】例示的候補リストの図である。
【符号の説明】
７７出力デバイス
１６０音声認識システム
１７０データベース
１７１候補リスト
１７７レンダリングモジュール
１７３処理モジュール
１８５手書き認識システム
２２０例示的処理システムまたはテキスト編集システム
２２２入力メモリ
２２４ＩＭＥコントローラ
２２６変換プロセッサ
２２８、２３０メモリ
２３２出力メモリ

Claims

コンピュータを有するワードプロセッサにおいて表意文字を前記ワードプロセッサに入力するための方法であって、前記コンピュータは、
入力される所望の表意文字に関係付けられた音声情報を受信する手段と、
前記受信された音声情報に応じて可能な表意文字の候補リストを形成する手段と、
前記所望の表意文字に関係付けられたストローク情報を受信する手段であって、前記ストローク情報は、前記所望の表意文字において存在する少なくとも１つのストロークを含み、手書き入力からストローク情報を受け取る手段を有する、前記ストローク情報を受信する手段と、
前記ストローク情報を使用して、前記所望の表意文字を前記候補リストから得る手段であって、前記ストローク情報に対応するストロークを有しない表意文字を前記候補リストから取り除く手段を有する、前記ストロークを使用する手段と、
前記候補リストの表意文字をユーザにレンダリングさせるための手段と、
前記レンダリングされた表意文字に応じて前記候補リストから選択の表意文字に関連する入力を受け取る手段と、
前記ストローク情報を受信する手段の処理、前記ストローク情報に対応するストロークを有しない表意文字を前記候補リストから取り除く手段の処理および前記ユーザにレンダリングさせるための手段の処理のシーケンスを選択の表意文字に関連する入力を受信するまで繰り返し実行し、前記シーケンスの実行により前記候補リストの候補の数がゼロに減らされた場合、１つの新しい表意文字として受信のストロークのすべてにより示される表意文字を前記候補リストに追加する手段
として機能することを特徴とする方法。
コンピュータを有する文字処理装置において表意文字を文字処理装置システムに入力するための方法であって、前記コンピュータは、
入力される所望の表意文字に関係付けられた音声情報を受信する手段と、
前記受信された音声情報に応じて可能な表意文字の候補リストを形成する手段と、
前記所望の表意文字に関係付けられたストローク情報を受信する手段であって、前記ストローク情報は、前記所望の表意文字において存在する少なくとも１つのストロークを含み、手書き入力からストローク情報を受け取る手段を有する、前記ストローク情報を受信する手段と、
前記ストローク情報を使用して、前記所望の表意文字を前記候補リストから得る手段であって、前記ストローク情報に対応するストロークを有しない表意文字を前記候補リストから取り除く手段を有する、前記ストロークを使用する手段と、
前記候補リストの表意文字をユーザにレンダリングさせるための手段と、
前記レンダリングされた表意文字に応じて前記候補リストから選択の表意文字に関連する入力を受け取る手段と、
前記ストローク情報を受信する手段の処理、前記ストローク情報に対応するストロークを有しない表意文字を前記候補リストから取り除く手段の処理および前記ユーザにレンダリングさせるための手段の処理のシーケンスを選択の表意文字に関連する入力を受信するまで繰り返し実行し、前記シーケンスの実行により前記候補リストの候補の数がゼロに減らされた場合、１つの新しい表意文字として受信のストロークのすべてにより示される表意文字を前記候補リストに追加する手段
として機能することを特徴とする方法。
前記音声情報を受信する手段は、前記ユーザの可聴音声を認識する手段を含むことを特徴とする請求項２に記載の方法。
前記ストローク情報を受信する手段は、前記ユーザによって手書きされた個々のストロークを認識する手段を含むことを特徴とする請求項３に記載の方法。