JP2004046807A - 表意文字言語のマルチモーダル入力 - Google Patents

表意文字言語のマルチモーダル入力 Download PDF

Info

Publication number
JP2004046807A
JP2004046807A JP2003130775A JP2003130775A JP2004046807A JP 2004046807 A JP2004046807 A JP 2004046807A JP 2003130775 A JP2003130775 A JP 2003130775A JP 2003130775 A JP2003130775 A JP 2003130775A JP 2004046807 A JP2004046807 A JP 2004046807A
Authority
JP
Japan
Prior art keywords
computer
candidate list
stroke
candidates
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003130775A
Other languages
English (en)
Other versions
JP4249538B2 (ja
Inventor
Yun-Cheng Ju
ジュ ユンチェン
Hsiao-Wuen Hon
ホン シャオフェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2004046807A publication Critical patent/JP2004046807A/ja
Application granted granted Critical
Publication of JP4249538B2 publication Critical patent/JP4249538B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0236Character input methods using selection techniques to select from displayed items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/018Input/output arrangements for oriental characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】正しい表意文字を得るために候補表示および選択の回数を減らす。
【解決手段】所望の表意文字に関係付けられた音声情報を受信すること、および、受信された音声情報に応じて可能な表意文字の候補リストを形成することを含む。ユーザが指示しているストロークを有していない表意文字が所望の表意文字または記号において存在するとき、ストローク情報を使用して、候補リストから表意文字を除去する。所望の表意文字を得るこの方法は「マルチモーダル」であり、2つの異なる、実質的に相互関係のないタイプの情報(音声およびストローク)が、所望の表意文字または記号を位置づけるために使用される。
【選択図】    図2

Description

【0001】
【発明の属する技術分野】
本発明は、データ処理システムに関する。より詳細には、本発明は、中国語および日本語など、表意文字を有する文字言語(written langage)をコンピュータシステムに入力することに関する。
【0002】
【従来の技術】
表意文字を有する非音声または非アルファベット言語をコンピュータシステムに入力することは、時間がかかり、煩わしいことになる可能性がある。(知られているように、および本明細書で使用するように、「表意文字」は「表語文字」(logograms)または「表語文字の」(logographic)としても知られており、文字言語における語を表現する記号であり、これは音素または音節を使用してそれらの成分音から語を構築することとは対照的である。)ある一般に使用されているシステムはしばしばIME(入力方式エディタ)と呼ばれており、これはワシントン州レドモンドのMicrosoft Corporationによって販売されている。このシステムでは、音声記号がコンピュータに、標準のキーボードを使用して提供される。コンピュータは、音声記号を選択言語に変換するコンバータモジュールを含む。例えば、日本語テキストをコンピュータシステムにおいて、音声文字を英語またはラテン語キーボードから入力することによって形成することは一般的である。ラテンアルファベットの文字を使用して日本語音声文字を入力することは、「ローマ字」と呼ばれる。コンピュータシステムは、各ローマ字文字を、格納された辞書と比較し、「かな」シーケンス(かな文字列)を生成する。かなは、日本語の音節記号であり、日本語の音を表現するものである。次いで、IMEコンバータは形成されたかなを、正式な日本語の文字言語(written language)である「漢字」形態に、高度な言語解析を通じて変換する(正式な日本語の書記体系は実際には漢字およびかなの混合からなり、漢字は内容情報の大部分を表現し、発音についての指示情報を有していない)。
【0003】
しかし、上述のIMEシステムなど、日本語のワードプロセッサにおいて使用される従来のテキスト処理システムでは、かなシーケンスに相当する適切な漢字をしばしば、いわゆる候補表示および選択方法を使用して選択あるいは修正しなければならない。具体的には、いくつかの漢字候補がかなのシーケンスについて表示され、そのため、ユーザは適切なものを選択できる。この表示および選択方法は必要であり、これは、日本語がいくつかの同音異義語を含み、明示的な語境界を含んでおらず、これにより、必然的にかなから漢字への変換エラーが引き起こされるからである。漢字候補を表示することによって、ユーザは可能な候補を閲覧し、適切な漢字表現を選択することができる。
【0004】
【発明が解決しようとする課題】
同様に、中国語のワードプロセッサまたは他の中国語処理システムにおいて使用されるテキスト編集モジュールもIME変換を必要としており、これは音声記号(ピンイン)から文字のHanzi表現に変換する。ピンインIMEは、最も普及している音声中国語IMEであり、上述の日本語のかなIMEに類似の方法で動作する。一般に、音声ピンイン文字列情報がHanziに、ピンイン辞書および言語モデルの使用を通じて変換される。ピンインIMEにおける音調記号(tone marks)の欠如により、日本語のかなIMEよりもはるかに多くの同音異義語が生じる可能性がある。しばしば、いくつかのピンインシーケンスについての同音異義語のリストはあまりにも長過ぎて、視覚的ディスプレイの画面全体上に適合しない可能性がある。
【0005】
最近では、音声認識がこれらのシステムにおいて使用されるようになってきた。これは、先にキーボードを通じて入力された音声情報を自然に提供するものである。しかし、上述の同音異義語の問題はなお存在する。加えて、音声認識エラーが会話中に起こる可能性があり、これには、正しい表意文字を得るために候補表示および選択方法をさらに多く使用することが必要となるかもしれない。
【0006】
したがって、表意文字を有する中国語および日本語などの言語のための、文字の記号を得るためのシステムを、より効果的かつ効率的に実施する必要性が続いている。
【0007】
【課題を解決するための手段】
表意文字をコンピュータシステムに入力するための方法は、入力される所望の表意文字に関係付けられた音声情報を受信すること、および、受信された音声情報に応じて可能な表意文字の候補リストを形成することを含む。ストローク情報が、候補リストから所望の表意文字を得るために受信される。ストローク情報は、所望の表意文字における1つまたは複数のストロークを含む。所望の表意文字を得るこの方法は「マルチモーダル」であり、2つの異なる、実質的に相互関係のないタイプの情報(音声およびストローク)が、所望の表意文字または記号を位置付けるために使用される。
【0008】
この方法で表意文字を入力することは、音声情報が音声認識器によって提供される、テキスト編集システムまたはワードプロセッシングシステムによって自動的に選択された表意文字を訂正することが必要であるとき、特に有用である。一般に、システムによって自動的に選択された表意文字は、候補リストにおいて最高の確率を有する表意文字である。ユーザが指示しているストロークを有していない表意文字が所望の表意文字または記号において存在するとき、ストローク情報を使用して、候補リストから表意文字を除去する。所望の表意文字のストロークにおける繰り返し入力により、候補リストを減らすことができる。この方法では、ユーザは所望の表意文字のためのストロークをすべて入力する必要はなく、むしろ、所望の表意文字を候補リストから識別するために十分な、いくつかのストロークのみを入力すればよい。
【0009】
ユーザが所望の表意文字または記号を位置付けることなく、初期の候補リストがゼロに減らされた場合、これまでに受信されたストローク情報の役割に応じて、追加の表意文字または記号を候補リストに追加することができる。これは本発明のもう1つの態様である。この方法では、ユーザは所望の表意文字を発見するためにストローク情報を再入力する必要がなく、これにより、音声情報に基づいた表意文字または記号から、ストローク情報にのみ基づいた表意文字および記号へのスムーズな移行が得られる。
【0010】
【発明の実施の形態】
図1を参照すると、本発明の一態様が、コンピュータシステムにおいて表意文字を入力する方法10である。方法10は、表意文字の音声情報を、通常は音声認識システムを通じてユーザから受信するステップ12、および、ステップ14で、受信された音声情報に対応する可能性のある表意文字の候補リストを形成するステップを含む。ディスプレイ上でユーザにレンダリングされた候補リストの一実施例を図9の17に示す。一般に、最高の優先順位を有する表意文字が自動的に選択され、保存される。しかし、エラーが自動選択において起こっている場合、次いでステップ16で、ユーザが、正しい表意文字を形成する少なくとも1つのストロークの「ストローク」情報を提供することができる。ステップ18で、ストローク情報がコンピュータシステムによって使用されて、所望の表意文字が候補リストから得られる。
【0011】
図2を参照すると、ストローク情報を提供すること、および所望の表意文字を得ることは、ステップ19から22を繰り返すことを含むことができる。ステップ19は、ストローク情報(すなわち、所望の表意文字に含まれた1つまたは複数のストローク)をユーザから得ることを含む。ステップ19から得られたストローク情報(および、ステップ19の以前の実行からのいずれかの追加のストローク情報)により、ステップ20で候補リストが狭められて、ユーザから得られたストローク情報を有する表意文字のみを含むようにされる。ステップ21で、狭められた候補リストがユーザにレンダリングされる。ステップ22でユーザが所望の表意文字を識別した場合、選択された表意文字が保存され、そうでない場合、ステップ19で、ユーザが追加のストローク情報を提供し、プロセスを繰り返すことができる。
【0012】
ストローク情報が一般には音声情報に対して相互関係がなく、それにより候補リストを容易に再検討して(例えば、減らして)所望の表意文字を得ることができることに留意されたい。語を得るために所望の語の文字が入力されるシステムでは、文字と、語における文字によって作成される発音の間に強い相互関係が存在する。したがって、所望の語を識別するために語の候補リストを減らすために、文字のすべてではないとしても、多数の文字を入力する必要がある。対照的に、一般に表意文字の音声体系への強い相互関係を有していないストローク情報を使用することによって、所望の表意文字を、類似に聞こえる候補表意文字のリストから高速に識別することができる。
【0013】
上に記載した方法10をいずれかのテキスト編集モジュールにおいて実施することができ、これは多数の形態を取ることができる。例えば、テキスト編集モジュールを、上の背景のセクションで記載したようなIMEシステムにすることができ、これは音声を通じて音声情報を受信し、音声情報を、日本語、中国語などの文字言語に変換するものである。加えて、テキスト編集モジュールをワードプロセッシングアプリケーションにすることができ、あるいはこれは、入力音声をユーザから、マイクロフォンを通じて受信し、および入力音声をテキストに変換する口述システムの一部を形成することができる。
【0014】
本発明をさらに詳細に考察する前に、オペレーティング環境の概観が有用である可能性がある。図3は、本発明を実施することができる適切なコンピューティングシステム環境50の一実施例を示す。コンピューティングシステム環境50は適切なコンピューティング環境の一実施例でしかなく、本発明の使用または機能性の範囲についてのいかなる限定をも示唆するように意図されるものではない。コンピューティング環境50は、例示的オペレーティング環境50において例示したコンポーネントのいずれか1つまたは組み合わせに関係するいかなる依存性も要件も有するものとして解釈されるべきではない。
【0015】
本発明は、多数の他の汎用または専用コンピューティングシステム環境または構成と共に動作可能である。本発明と共に使用するために適切である可能性のある周知のコンピューティングシステム、環境および/または構成の例には、それだけに限定されるものではないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブルなコンシューマエレクトロニクス、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれる。
【0016】
本発明を一般に、プログラムモジュールなど、コンピュータによって実行されるコンピュータ実行可能命令に関連して記載することができる。一般に、プログラムモジュールには、特定のタスクを実行するか、あるいは特定の抽象データ型を実施するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明をまた分散コンピューティング環境において実施することもでき、ここでは、通信ネットワークを通じてリンクされるリモート処理デバイスによってタスクが実行される。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含む、ローカルおよびリモートのコンピュータ記憶媒体に位置することができる。プログラムおよびモジュールによって実行されるタスクを以下で、図を用いて記載する。当業者は、記載および図を、コンピュータ可読媒体のいずれかの形態において書くことができるプロセッサ実行可能命令として実施することができる。
【0017】
図3を参照すると、本発明を実施するための例示的システムは、汎用コンピューティングデバイスをコンピュータ60の形態において含む。コンピュータ60のコンポーネントには、それだけに限定されるものではないが、処理装置70、システムメモリ80、および、システムメモリを含む様々なシステムコンポーネントを処理装置70に結合するシステムバス71を含むことができる。システムバス71は、いくつかのタイプのバス構造のいずれかにすることができ、これには、様々なバスアーキテクチャのいずれかを使用する、メモリバスまたはメモリコントローラ、周辺バスおよびローカルバスが含まれる。例として、限定ではなく、このようなアーキテクチャには、業界標準アーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、拡張ISA(EISA)バス、Video Electronics Standards Association(VESA)ローカルバス、およびメザニンバスとしても知られる周辺装置相互接続(PCI)バスが含まれる。
【0018】
コンピュータ60は通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ50によってアクセスすることができる、いかなる使用可能な媒体にすることもでき、揮発性および不揮発性媒体、リムーバブルおよび非リムーバブル媒体が含まれる。例として、限定ではなく、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体には、揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体が含まれ、これは、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータなど、情報の格納のためのいずれかの方法または技術において実施される。コンピュータ記憶媒体には、それだけに限定されるものではないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)または他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶デバイス、または所望の情報を格納するために使用することができ、およびコンピュータ50によってアクセスすることができる他のいずれかの媒体が含まれる。
【0019】
通信媒体は通常、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータを、搬送波または他の移送メカニズムなどの変調データ信号において実施し、いずれかの情報配信媒体を含む。「変調データ信号」という用語は、その特性のうち1つまたは複数が、情報を信号においてエンコードするような方法で設定あるいは変更されている信号を意味する。例として、限定ではなく、通信媒体には、ワイヤードネットワークまたは直接ワイヤード接続などのワイヤード媒体、および、音響、FR、赤外線および他のワイヤレス媒体などのワイヤレス媒体が含まれる。上のいずれかの組み合わせもまた、コンピュータ可読媒体の範囲内に含まれるべきである。
【0020】
システムメモリ80は、読み取り専用メモリ(ROM)81およびランダムアクセスメモリ(RAM)82など、揮発性および/または不揮発性メモリの形態におけるコンピュータ記憶媒体を含む。基本入力/出力システム83(BIOS)は、起動中など、コンピュータ60内の複数の要素の間で情報を転送する助けとなる基本ルーチンを含み、これが通常ROM81に格納される。RAM82は通常、処理装置70によって即時アクセス可能、および/または現在動作中であるデータおよび/またはプログラムモジュールを含む。例として、限定ではなく、図3はオペレーティングシステム84、アプリケーションプログラム85、他のプログラムモジュール86およびプログラムデータ87を示す。
【0021】
コンピュータ60はまた、他のリムーバブル/非リムーバブル、揮発性/不揮発性のコンピュータ記憶媒体も含むことができる。例としてのみ、図3は、非リムーバブルの不揮発性磁気媒体との読み書きを行うハードディスクドライブ91、リムーバブルの不揮発性磁気ディスク102との読み書きを行う磁気ディスクドライブ101、および、CD−ROMまたは他の光媒体など、リムーバブルの不揮発性光ディスク106との読み書きを行う光ディスクドライブ105を示す。例示的オペレーティング環境において使用することができる他のリムーバブル/非リムーバブル、揮発性/不揮発性のコンピュータ記憶媒体には、それだけに限定されるものではなく、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどが含まれる。ハードディスクドライブ91が一般にシステムバス71に、インターフェイス90などの非リムーバブルメモリインターフェイスを通じて接続され、磁気ディスクドライブ101および光ディスクドライブ105が一般にシステムバス71に、インターフェイス100などのリムーバブルメモリインターフェイスによって接続される。
【0022】
上述の、および図3で例示したドライブおよびそれらの関連付けられたコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、および、コンピュータ60のための他のデータを提供する。図3では、例えば、ハードディスクドライブ91が、オペレーティングシステム94、アプリケーションプログラム95、他のプログラムモジュール96およびプログラムデータ97を格納するものとして例示される。これらのコンポーネントを、オペレーティングシステム84、アプリケーションプログラム85、他のプログラムモジュール86およびプログラムデータ87と同じものにすることも、異なるものにすることもできることに留意されたい。オペレーティングシステム84、アプリケーションプログラム85、他のプログラムモジュール86およびプログラムデータ87には、ここでは異なる数字が与えられて、少なくともこれらが異なるコピーであることが例示される。
【0023】
ユーザはコマンドおよび情報をコンピュータ60へ、入力デバイスを通じて入力することができ、これはキーボード112、マイクロフォン113、手書きタブレット114、および、マウス、トラックボールまたはタッチパッドなどのポインティングデバイス111などである。他の入力デバイス(図示せず)には、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、スキャナなどが含まれる可能性がある。これらおよび他の入力デバイスがしばしば処理装置70へ、システムバスに結合されるユーザ入力インターフェイス110を通じて接続されるが、これらを、パラレルポート、ゲームポートまたはユニバーサルシリアルバス(USB)など、他のインターフェイスおよびバス構造によって接続することができる。モニタ141または他のタイプの表示デバイスもまたシステムバス71へ、ビデオインターフェイス140などのインターフェイスを介して接続される。モニタに加えて、コンピュータはまた、スピーカ147およびプリンタ146など、出力周辺装置インターフェイス145を通じて接続することができる他の周辺出力デバイスをも含むことができる。
【0024】
コンピュータ60はネットワーク化環境において、リモートコンピュータ130など、1つまたは複数のリモートコンピュータへの論理接続を使用して動作することができる。リモートコンピュータ130を、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイスまたは他の共通ネットワークノードにすることができ、これは通常、コンピュータ60に関して上に記載した要素の多数またはすべてを含む。図3に示す論理接続は、ローカルエリアネットワーク(LAN)121および広域ネットワーク(WAN)123を含むが、他のネットワークも含むことができる。このようなネットワーキング環境は、オフィス、企業全体のコンピュータネットワーク、イントラネットおよびインターネットにおいて一般的である。
【0025】
LANネットワーキング環境において使用されるとき、コンピュータ60がLAN121に、ネットワークインターフェイスまたはアダプタ120を通じて接続される。WANネットワーキング環境において使用されるとき、コンピュータ60は通常、モデム122、または、インターネットなどのWAN123を介して通信を確立するための他の手段を含む。モデム122は内部または外部にすることができ、これをシステムバス71へ、ユーザ入力インターフェイス110または他の適切なメカニズムを介して接続することができる。ネットワーク化環境において、コンピュータ60に関して示したプログラムモジュールまたはその一部を、リモートのメモリ記憶装置に格納することができる。例として、限定ではなく、図3は、リモートアプリケーションプログラム135がリモートコンピュータ130上に存在するものとして示す。図示のネットワーク接続は例示的であり、通信リンクを複数のコンピュータの間で確立する他の手段を使用できることは理解されよう。
【0026】
ステップ12で得られた音声情報が一般に音声認識システムによって提供され、その例示的実施形態を図4の160に示す。一般に、音声認識システム160は入力音声をユーザから受信し、入力音声をテキストに変換する。一般に、この方法で使用される音声認識システムは「口述システム」と呼ばれる。音声認識システム160はワードプロセッシングアプリケーションまたはテキスト編集モジュールの一部を形成することができるが、本発明はまた、テキストファイルのみを出力として提供する口述システムも含むことを理解されたい。すなわち、口述システムの1つの形態では、上述したような表意文字の訂正以外にテキストファイルを修正するための機能を含まなくてもよい。
【0027】
例示的実施形態では、音声認識システム160は、マイクロフォン92、アナログ−デジタル(A/D)コンバータ164、トレーニングモジュール165、特徴抽出モジュール166、レキシコン格納モジュール170、セノネツリー(senone trees)を有する音響モデル172、ツリーサーチエンジン174および言語モデル175を含む。システム160の全体、または音声認識システム160の一部を、図3に例示した環境において実施することができることに留意されたい。例えば、マイクロフォン92を好ましくは入力デバイスとしてコンピュータ50に、適切なインターフェイスを通じて、およびA/Dコンバータ164を通じて設けることができる。トレーニングモジュール165および特徴抽出モジュール166を、コンピュータ50におけるハードウェアモジュール、または、図3において開示した情報格納デバイスのいずれかに格納され、および処理装置70または別の適切なプロセッサによってアクセス可能なソフトウェアモジュールにすることができる。加えて、レキシコン格納モジュール170、音響モデル172および言語モデル175が図3のメモリデバイスのいずれかに格納されることも好ましい。さらに、ツリーサーチエンジン174が(1つまたは複数のプロセッサを含むことができる)処理装置70において実施され、あるいはこれを、パーソナルコンピュータ50によって使用された専用音声認識プロセッサによって実行することができる。
【0028】
例示した実施形態では、音声認識中に、ユーザによって音声が入力として、マイクロフォン92へのユーザによる可聴音声(信号)の形態でシステム160に与えられる。マイクロフォン92は可聴音声(信号)をアナログ電子信号に変換し、これがA/Dコンバータ164に提供される。A/Dコンバータ164はアナログ音声信号を一連のデジタル信号に変換し、これが特徴抽出モジュール166に提供される。一実施形態では、特徴抽出モジュール166は従来のアレイプロセッサであり、これはデジタル信号においてスペクトル分析を実行し、周波数スペクトルの各周波数帯域についての振幅値を計算する。これらの信号が、1つの例示的実施形態では、特徴抽出モジュール166にA/Dコンバータ164によって、約16kHzのサンプルレートで提供される。
【0029】
特徴抽出モジュール166は、A/Dコンバータ164から受信されたデジタル信号を、複数のデジタルサンプルを含むフレームに分割する。各フレームは約10ミリ秒の持続時間である。次いで、フレームが特徴抽出モジュール166によって特徴ベクトルにエンコードされ、これは、複数の周波数帯域についてのスペクトル特性を反映する。離散的かつ半連続的な隠れマルコフモデリングの場合、特徴抽出モジュール166はまた特徴ベクトルを1つまたは複数のコードワードに、ベクトル量子化技術、および、トレーニングデータから導出されたコードブックを使用してエンコードする。したがって、特徴抽出モジュール166は、その出力で、各発話の音声についての特徴ベクトル(またはコードワード)を提供する。特徴抽出モジュール166は特徴ベクトル(またはコードワード)を、約10ミリ秒毎に1つの特徴ベクトル(またはコードワード)のレートで提供する。
【0030】
次いで、出力確率分布が隠れマルコフモデルに対して、解析中の特定のフレームの特徴ベクトル(またはコードワード)を使用して計算される。これらの確率分布が後に、ビタビまたは類似のタイプの処理技術の実行において使用される。
【0031】
コードワードを特徴抽出モジュール166から受信すると、ツリーサーチエンジン174は、音響モデル172に格納された情報にアクセスする。モデル172は、隠れマルコフモデルなどの音響モデルを格納し、これは、音声認識システム160によって検出される音声単位を表現する。一実施形態では、音響モデル172は、隠れマルコフモデルにおける各マルコフ状態に関連付けられたセノネツリーを含む。隠れマルコフモデルは、1つの例示的実施形態では、音素を表現する。音響モデル172におけるセノネ(senone)に基づいて、ツリーサーチエンジン174は、特徴抽出モジュール166から受信された特徴ベクトル(またはコードワード)によって表現され、および、よって、システムのユーザから受信された発声を表す、最も可能性の高い音素を決定する。
【0032】
ツリーサーチエンジン174はまた、モジュール170に格納されたレキシコンにもアクセスする。ツリーサーチエンジン174によって、その音響モデル172のアクセスに基づいて受信された情報が、レキシコン格納モジュール170のサーチにおいて使用されて、特徴抽出モジュール166から受信されたコードワードまたは特徴ベクトルを最も表現する可能性の高い記号または表意文字が決定される。また、サーチエンジン174は言語モデル175にもアクセスする。言語モデル175も、入力音声によって表現された最も可能性の高い記号または表意文字の識別において使用される。可能性のある記号または表意文字を、候補リストにおいて編成することができる。候補リストからの最も可能性の高い記号または表意文字が出力テキストとして提供される。トレーニングモジュール165およびキーボード70が使用されて、音声認識システム160がトレーニングされる。
【0033】
音声認識システム160がHMMモデリングおよびセノネツリーを使用する場合を本明細書に記載したが、音声認識システム160はハードウェアおよびソフトウェアモジュールの多数の形態を取ることができ、必要とされることは、それが出力としてテキストを、好ましくは候補リストの使用を通じて提供することのみであることを理解されたい。
【0034】
ステップ16で得られたストローク情報が一般に、手書き認識モジュールまたはシステムによって提供され、その例示的実施形態を図5の181に示す。手書き認識モジュール181は入力をユーザから、手書きタブレット114を通じて受信する。
【0035】
手書き認識システムは一般的によく知られている。本発明において動作するように修正された1つの例示的実施形態を図5に例示する。これは開示されており、本発明と同じ譲受人に譲渡されている(例えば、米国特許5729629号を参照)。簡単に述べると、手書き認識システム185は、手書きタブレット114に結合された手書き認識モジュール181を含み、これはユーザからの手書き入力記号を受信し、および手書き認識モジュール181によって、手書きされた記号に対応するように決定された参照記号を表示する。手書き認識モジュール181がメモリユニット189に結合され、これは一時的に、手書きタブレット114から受信された入力ストロークの特徴を表現する座標情報を格納する。手書き認識モジュール181はストロークアナライザ191を含む。ストロークアナライザ191は座標情報をメモリユニット189から取得し、書かれた(文字の)各特徴についての座標情報を、メモリユニット189に格納された所定の数の特徴モデルのうち1つを表現する特徴コードに変換する。本発明の目的では、手書き認識モジュール181は、表意文字または記号全体を認識する必要はなく、むしろ表意文字または記号に含まれた1つまたは複数の個々のストロークを認識する必要があり、このストローク情報が、ストロークを有する表意文字または記号を、ストロークを有していないものから分離するために使用される。
【0036】
個々のストローク特徴評価がラベルコンパレータ193によって実施され、これは、入力されたストロークについての特徴コードを、メモリユニット189に格納された参照ストロークの特徴コードと比較し、入力ストロークの特徴コードに最も厳密に合致する特徴コードを有する参照ストロークを識別する。ラベルコンパレータ193によって決定されたような、手書き入力ストロークに最も厳密に合致する参照ストロークが使用されて、図1のステップ18でストローク情報に応じて所望の表意文字が選択され、または、図2を参照すると、ステップ20で候補リストが減らされる。
【0037】
手書き認識システム185を、上述のコンピュータ50上で実施することができる。メモリユニット189は、RAM82、ハードディスクドライブ91、リムーバブル磁気ディスク102、または、光ディスクドライブ105用のCDなど、上述のメモリデバイスのいずれかを含むことができ、あるいは、これにリモートコンピュータ130を通じてアクセスすることができる。ストロークアナライザ191、ラベルコンパレータ193をハードワイヤード回路またはモジュールにすることができるが、通常はソフトウェアプログラムまたはモジュールである。手書きタブレット114は入力デバイスを含み、これは従来のデジタイザタブレットおよびペンまたは電子スキャナなどである。一般に、入力デバイスは一連のX−Y座標点を提供して、デジタイジングタブレット上のペンの、あるいは電子スキャナによって検出されたような記号のパターンの連続した動きに対応するストロークのセグメントを定義する。手書きタブレット114は座標点をメモリユニット189に送信し、そこで、ストロークが認識されている間に座標点が格納される。また、本発明の態様から逸脱することなく、手書き認識システム185の形態を、入力ストロークを認識するための他の技術を使用して変更できることにも留意されたい。ストローク情報を獲得し、可能性のある表意文字のリストを減らすための別の適切なシステムまたはモジュールが、Microsoft
CorporationによるIMEPADにおいて見られる。
【0038】
図2のステップ20で、ストローク情報を様々な方法で使用して候補リストを減らすことができる。例えば、図6を参照すると、中央またはメインデータベース170を、ある言語において使用される表意文字または記号のすべてを示すデータを有するコンピュータ可読媒体において維持することができ、このデータは詳細には、各表意文字または記号において存在するストロークを示すデータである。171で示す、候補リストの表意文字または記号を示すデータが処理モジュール173に提供され、これは、対応する表意文字または記号、または、少なくとも候補リスト171の表意文字または記号におけるストロークを、データベース170を使用して識別する。ストローク情報がユーザから受信されるとき、処理モジュール173は、候補リスト171の表意文字に対応するストローク情報にアクセスし、これは、候補リスト171のうちユーザによって識別されたストロークを含まない表意文字または記号を除くためである。候補リスト171の表意文字または記号が通常はユーザに、適切なレンダリングモジュール177を通じてレンダリングされ(例えば、図9に図示されるように)、これは、ストローク情報が使用されて記号の数が減らされるときであり、ユーザによる所望の表意文字または記号の認識において、ユーザは高速に所望の表意文字または記号を選択できるようになる。この方法では、ユーザは通常、所望の記号を識別するために、所望の記号のストロークのすべてを入力しなくてもよくなる。
【0039】
いくつかの状況では、ユーザによって提供されたストローク情報は、候補リスト171の表意文字または記号のいずれにも対応せず、これにより、上に記載した技術を使用して、最終的に、ユーザに対して選択のために表意文字または記号が提示されないようになる。本発明の別の態様として、ユーザに、手動で所望の表意文字または記号を描画するように、あるいはストローク情報を再入力してこれをデータベース170に含まれたストローク情報のすべてと比較することによって最初から開始するように求めるのではなく、処理モジュール173は、すでにユーザによって提供されたすべてのストローク情報を保持し、これを使用して、これまでに入力されたストロークを有する少なくとも1つの、通常は複数の表意文字または記号を識別することができる。識別された表意文字または記号は実質的に、新しい候補リスト171を形成することができ、これが再度、さらにユーザによって提供されたストローク情報により、所望の表意文字または記号が選択されるまで、さらに減らされる。
【0040】
この態様を、図7に例示した方法240の使用を通じて達成することができる。方法240は例示的に、図2に記載した方法と同様に動作し、類似の要素が同様に付番される。この方法では、ステップ242がステップ20の後に追加されて、候補リストが空であるかどうかがチェックされる。候補リストにエントリがあった場合、この方法が、先に記載したようにステップ21に進行する。候補リストが空であった場合、方法240がステップ244に進行する。ステップ244で、ユーザによって先に入力されたストローク情報が表意文字の完全リストに加えられる。類似のストローク情報を有する表意文字は、新しい候補リスト171の一部を形成する。次いでステップ21で、このリストがユーザにレンダリングされ、この方法が、図2に関して記載したように進行する。ユーザが追加のストローク情報を求められるこの方法をさらに繰り返すことを使用して、望むなら、新しい候補リスト171をさらに減らすことができる。
【0041】
ユーザの観点からは、最初に音声情報から識別された候補リストから、ストローク情報のみに基づいた候補リストへの移行はスムーズであるが、通常は目立つものであり、これは、ストローク情報が入力されるときに候補リスト171の数が減るように見え、次いで、最初のリストの候補のすべてが除かれてしまうときには突然拡大するように見えるからである。この技術のさらなる利点により、認識エラー(候補リストの最初の表意文字または記号のいずれもが正しくない)の訂正が容易にできるようになり、これは、データベース170のすべての表意文字または記号に、必要な場合、ストローク情報に基づいてアクセスすることができるからである。
【0042】
図8は、日本語IMEシステムにおいて使用される例示的処理システムまたはテキスト編集システム220を示すブロック図である。システム220は、上で記載した、音声情報を入力するための音声認識システム160などの音声認識システム、および、上述の手書き認識システム185など、ストローク情報を入力するためのシステムを含む。
【0043】
音声認識システム160によって提供された音声情報が入力メモリ222に格納され、入力メモリ222から変換コントローラ224に転送される。ローマ字音声記号が音声認識システム160によって提供された場合、記号が最初に、変換プロセッサ226を使用して処理されて、ローマ字音声記号がかな文字に変換される。変換プロセッサ226は、メモリ228に格納された辞書データにアクセスし、ローマ字音声記号をかな文字に変換する。
【0044】
次いで、かなデータが所定の処理単位に、例えば、語または節の単位に、変換プロセッサ226のコントロール下で区分化される。次いで、区分化されたデータが、かな−漢字変換処理を受ける。変換プロセッサ226は、同じくメモリ228に格納された辞書データを、かな−漢字変換のために使用する。複数の漢字形態が1つのかな記号のシーケンスに対応する場合、変換プロセッサ226は最も可能性の高いものを候補リストから、メモリ230に格納された言語モデルによって決定された変換結果として選択することができる(言語モデルは通常、図4に例示した音声認識システムの例示的実施形態における3つの語の組み合わせ(trigram)言語モデル175と同様に、Nグラム言語モデルによって実施される)。選択された記号が、ユーザによって正しくないと決定された場合、上述のように手書き認識システム185を使用してストローク情報を入力して、最終的に正しい表意文字または記号を選択することができ、IMEコントローラ224は処理モジュール172として機能し、出力メモリ232および出力デバイス77が使用されて候補リスト171がレンダリングされる。
【0045】
ストローク情報を、手書き認識システム185以外の他のデバイスを通じて入力することもできることにも留意されたい。例えば、表意文字において存在するすべてのストロークを指示するキーを有するキーボードも使用することができる。このタイプのシステムは有益である可能性があり、これは、特定のストロークを表すキーを動かすことにより、ユーザが書くものに基づいてストロークを認識する必要がなくなるからである。このタイプの入力が中国語IMEシステムにおいて使用され、ここではWu−Biがストローク情報であり、音声情報がピンイン記号を含む。
【0046】
本発明を、好適実施形態を参照して説明したが、本発明の精神および範囲から逸脱することなく形態および詳細を変更できることは、当業者には理解されよう。
【図面の簡単な説明】
【図1】本発明の一態様を示す流れ図である。
【図2】本発明によるオペレーションの方法を示す流れ図である。
【図3】本発明を実施するための例示的環境のブロック図である。
【図4】音声認識システムのブロック図である。
【図5】手書き認識システムのブロック図である。
【図6】ストローク情報に応じて候補リストを減らし、およびレンダリングするために使用されるモジュールのブロック図である。
【図7】本発明の代替実施形態によるオペレーションの方法を示す流れ図である。
【図8】例示的処理システムのブロック図である。
【図9】例示的候補リストの図である。
【符号の説明】
77 出力デバイス
160 音声認識システム
170 データベース
171 候補リスト
177 レンダリングモジュール
173 処理モジュール
185 手書き認識システム
220 例示的処理システムまたはテキスト編集システム
222 入力メモリ
224 IMEコントローラ
226 変換プロセッサ
228、230 メモリ
232 出力メモリ

Claims (21)

  1. 表意文字をコンピュータシステムに入力するためのコンピュータ実施方法であって、
    入力される所望の表意文字に関係付けられた音声情報を受信するステップと、前記受信された音声情報に応じて可能な表意文字の候補リストを形成するステップと、
    前記所望の表意文字に関係付けられたストローク情報を受信するステップであって、前記ストローク情報は、前記所望の表意文字において存在する少なくとも1つのストロークを含むステップと、
    前記ストローク情報を使用して、前記所望の表意文字を前記候補リストから得るステップと
    を含むことを特徴とするコンピュータ実施方法。
  2. 前記ストローク情報を使用するステップは、前記候補リストから、前記ストローク情報に対応するストロークを有していない表意文字を除去するステップを含むことを特徴とする請求項1に記載のコンピュータ実施方法。
  3. 前記候補リストの前記表意文字を前記ユーザにレンダリングするステップをさらに含むことを特徴とする請求項1または2に記載のコンピュータ実施方法。
  4. 前記レンダリングされた表意文字に応じて、前記候補リストから選択された表意文字に関係付けられた入力を受信するステップをさらに含むことを特徴とする請求項1または3に記載のコンピュータ実施方法。
  5. 前記所望の表意文字に関係付けられたストローク情報を受信するステップ、前記候補リストから、前記ストローク情報に対応するストロークを有していない表意文字を除去するステップ、および、前記候補リストの前記表意文字を前記ユーザにレンダリングするステップのシーケンスが、前記選択された表意文字に関係付けられた前記入力が受信されるまで繰り返されることを特徴とする請求項2または4に記載のコンピュータ実施方法。
  6. 前記ステップのシーケンスを繰り返して実行することによって、前記候補リストにおける候補の数がゼロに減らされた場合、少なくとも1つの新しい表意文字候補を前記候補リストに追加するステップをさらに含み、前記少なくとも1つの新しい表意文字候補が前記音声情報に応じて得られないことを特徴とする請求項2または5に記載のコンピュータ実施方法。
  7. 少なくとも1つの新しい表意文字候補を前記候補リストに追加するステップは、少なくとも1つの新しい表意文字候補を前記候補リストに、前記ストローク情報に応じて追加するステップを含むことを特徴とする請求項6に記載のコンピュータ実施方法。
  8. 前記ステップのシーケンスを繰り返して実行することによって、前記候補リストにおける候補の数がゼロに減らされた場合、複数の新しい表意文字候補を前記候補リストに追加するステップをさらに含み、各前記新しい表意文字候補が前記音声情報に応じて得られないことを特徴とする請求項2または5に記載のコンピュータ実施方法。
  9. 前記複数の表意文字候補を前記候補リストに追加するステップは、各前記表意文字候補を前記候補リストに、前記ストローク情報に応じて追加するステップを含むことを特徴とする請求項8に記載のコンピュータ実施方法。
  10. 前記音声情報を受信するステップは、前記ユーザの可聴音声を認識するステップを含むことを特徴とする請求項1ないし9のいずれかに記載のコンピュータ実施方法。
  11. 前記ストローク情報を受信するステップは、前記ユーザによって行われた個々のストロークを認識するステップを含むことを特徴とする請求項1ないし10のいずれかに記載のコンピュータ実施方法。
  12. 前記ストローク情報を受信するステップは、キーボードにおいて動かされたキーを指示する信号を受信するステップを含み、前記キーは、表意文字において使用されたストロークを指示することを特徴とする請求項1ないし10のいずれかに記載のコンピュータ実施方法。
  13. コンピュータによって実行される場合、音声情報に応じて、表意文字に関係付けられた候補の候補リストを形成するステップと、
    ストローク情報に応じて、候補が選択されるまで前記候補リストにおける候補の数を減らすステップと、
    前記候補リストがゼロに減らされた場合、複数の新しい候補を前記候補リストに追加するステップであって、前記複数の新しい候補のうち各候補が、前記ストローク情報に応じて選択されるステップと
    を、前記コンピュータに実行させる命令を有することを特徴とするコンピュータ可読媒体。
  14. コンピュータによって実行される場合、前記候補リストの候補を前記ユーザにレンダリングするステップを前記コンピュータに実行させる命令をさらに含むことを特徴とする請求項13に記載のコンピュータ可読媒体。
  15. 前記候補リストにおける候補の前記数を減らすステップは、前記候補リストから、前記ストローク情報に対応するストロークを有していない表意文字の候補を除去するステップを含むことを特徴とする請求項13または14に記載のコンピュータ可読媒体。
  16. コンピュータによって実行される場合、入力音声を受信し、および入力される所望の表意文字に関係付けられた音声情報を提供するための音声認識モジュールであって、前記音声情報が、複数の候補の候補リストを形成するために使用され、各候補は前記音声情報に対応する可能な表意文字である、音声認識モジュールと、
    前記所望の表意文字に含まれたストロークを指示するストローク情報を受信する処理モジュールであって、前記ストローク情報を使用して、前記候補リストにおける候補の数を減らす処理モジュールと、
    前記候補リストにおける前記候補に対応する表意文字をレンダリングし、前記候補リストから選択された候補に対応する入力を受信するためのレンダリングモジュールと
    を含む命令を有することを特徴とするコンピュータ可読媒体。
  17. 前記処理モジュールは、前記候補リストから、前記ストローク情報に対応するストロークを有していない表意文字に対応する候補を除去することを特徴とする請求項16に記載のコンピュータ可読媒体。
  18. 前記個々のストロークが受信されたとき、前記処理モジュールは、前記候補リストから、前記ストローク情報に対応する個々のストロークを有していない表意文字に対応する候補を、繰り返して除去することを特徴とする請求項16または17に記載のコンピュータ可読媒体。
  19. 前記処理モジュールは、前記候補リストがゼロに減らされた場合、複数の新しい候補を前記候補リストに追加し、前記複数の新しい候補のうち各候補が、前記ストローク情報に応じて選択されることを特徴とする請求項16ないし18のいずれかに記載のコンピュータ可読媒体。
  20. 前記コンピュータによって実行されるとき、前記ユーザによって手で作成されたストロークを認識するための手書き認識モジュールを含む命令をさらに含むことを特徴とする請求項16ないし18のいずれかに記載のコンピュータ可読媒体。
  21. 前記コンピュータによって実行されるとき、表意文字におけるストロークに対応するキーの動きを指示するデータを受信することを含む命令をさらに含むことを特徴とする請求項16ないし18に記載のコンピュータ可読媒体。
JP2003130775A 2002-05-08 2003-05-08 表意文字言語のマルチモーダル入力 Expired - Fee Related JP4249538B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/142,572 US7174288B2 (en) 2002-05-08 2002-05-08 Multi-modal entry of ideogrammatic languages

Publications (2)

Publication Number Publication Date
JP2004046807A true JP2004046807A (ja) 2004-02-12
JP4249538B2 JP4249538B2 (ja) 2009-04-02

Family

ID=29399930

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003130775A Expired - Fee Related JP4249538B2 (ja) 2002-05-08 2003-05-08 表意文字言語のマルチモーダル入力

Country Status (4)

Country Link
US (1) US7174288B2 (ja)
JP (1) JP4249538B2 (ja)
CN (1) CN100568223C (ja)
HK (1) HK1060418A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005196140A (ja) * 2003-12-30 2005-07-21 Microsoft Corp テキストを入力するための方法
JP2007080242A (ja) * 2005-08-15 2007-03-29 Kobe Steel Ltd 情報処理装置及びそのプログラム
JP2010524135A (ja) * 2007-04-09 2010-07-15 グーグル・インコーポレーテッド クライアントの入力メソッド
CN111785276A (zh) * 2020-06-30 2020-10-16 安徽芯智科技有限公司 智能语音互联车联系统

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7712053B2 (en) 1998-12-04 2010-05-04 Tegic Communications, Inc. Explicit character filtering of ambiguous text entry
US8938688B2 (en) 1998-12-04 2015-01-20 Nuance Communications, Inc. Contextual prediction of user words and user actions
US20100122164A1 (en) * 1999-12-03 2010-05-13 Tegic Communications, Inc. Contextual prediction of user words and user actions
WO2005122401A2 (en) * 2004-06-04 2005-12-22 Keyless Systems Ltd Systems to enhance data entry in mobile and fixed environment
JP4369245B2 (ja) * 2002-03-22 2009-11-18 ソニー エリクソン モバイル コミュニケーションズ, エービー 携帯電話装置及びテキストを入力する方法
US8583440B2 (en) 2002-06-20 2013-11-12 Tegic Communications, Inc. Apparatus and method for providing visual indication of character ambiguity during text entry
US8095364B2 (en) 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US7836044B2 (en) 2004-06-22 2010-11-16 Google Inc. Anticipated query generation and processing in a search engine
US7487145B1 (en) 2004-06-22 2009-02-03 Google Inc. Method and system for autocompletion using ranked results
US7499940B1 (en) * 2004-11-11 2009-03-03 Google Inc. Method and system for URL autocompletion using ranked results
US20060106769A1 (en) 2004-11-12 2006-05-18 Gibbs Kevin A Method and system for autocompletion for languages having ideographs and phonetic characters
CN100394363C (zh) * 2004-11-30 2008-06-11 摩托罗拉公司 执行表意字符输入的方法和装置
JP4769031B2 (ja) * 2005-06-24 2011-09-07 マイクロソフト コーポレーション 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体
AU2006318417B2 (en) * 2005-11-23 2012-01-19 Dun And Bradstreet Corporation System and method for searching and matching data having ideogrammatic content
US8010523B2 (en) 2005-12-30 2011-08-30 Google Inc. Dynamic search box for web browser
US20090110284A1 (en) * 2006-05-23 2009-04-30 Siemens Aktiengesellschaft System and Method for Sorting Objects Using OCR and Speech Recognition Techniques
JP2008152670A (ja) * 2006-12-19 2008-07-03 Fujitsu Ltd 翻訳文入力支援プログラム、該プログラムを記録した記憶媒体、翻訳文入力支援装置、および翻訳文入力支援方法
US8028230B2 (en) * 2007-02-12 2011-09-27 Google Inc. Contextual input method
CN105204617B (zh) * 2007-04-11 2018-12-14 谷歌有限责任公司 用于输入法编辑器集成的方法和系统
US8103506B1 (en) * 2007-09-20 2012-01-24 United Services Automobile Association Free text matching system and method
US9349367B2 (en) * 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
US20100121870A1 (en) * 2008-07-03 2010-05-13 Erland Unruh Methods and systems for processing complex language text, such as japanese text, on a mobile device
US8312032B2 (en) 2008-07-10 2012-11-13 Google Inc. Dictionary suggestions for partial user entries
WO2010139277A1 (en) 2009-06-03 2010-12-09 Google Inc. Autocompletion for partially entered query
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP3091535B1 (en) 2009-12-23 2023-10-11 Google LLC Multi-modal input on an electronic device
US9086735B2 (en) * 2010-04-12 2015-07-21 Google Inc. Extension framework for input method editor
US9104306B2 (en) * 2010-10-29 2015-08-11 Avago Technologies General Ip (Singapore) Pte. Ltd. Translation of directional input to gesture
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US8612418B2 (en) * 2011-07-14 2013-12-17 Google Inc. Mobile web browser for pre-loading web pages
US9274609B2 (en) 2012-07-23 2016-03-01 Mingyan Xie Inputting radical on touch screen device
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
CN104063427A (zh) * 2014-06-06 2014-09-24 北京搜狗科技发展有限公司 一种基于语义理解的表情输入方法和装置
JP5839642B1 (ja) * 2014-06-17 2016-01-06 楽天株式会社 情報処理システム及び情報処理方法
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9460344B2 (en) * 2014-10-13 2016-10-04 Lenovo (Singapore) Pte. Ltd. Generating multi-logogram phrases from logogram radicals
US9740684B2 (en) * 2015-02-18 2017-08-22 Lenovo (Singapore) Pte. Ltd. Determining homonyms of logogram input
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9886433B2 (en) * 2015-10-13 2018-02-06 Lenovo (Singapore) Pte. Ltd. Detecting logograms using multiple inputs
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
JP2019066917A (ja) * 2017-09-28 2019-04-25 京セラドキュメントソリューションズ株式会社 電子機器、及び翻訳支援方法
JP7520483B2 (ja) * 2018-12-27 2024-07-23 キヤノン株式会社 情報処理システム、情報処理装置、制御方法、プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4679951A (en) * 1979-11-06 1987-07-14 Cornell Research Foundation, Inc. Electronic keyboard system and method for reproducing selected symbolic language characters
US4498143A (en) * 1981-11-12 1985-02-05 Stanislaus Strzelecki Method of and apparatus for forming ideograms
US5164900A (en) * 1983-11-14 1992-11-17 Colman Bernath Method and device for phonetically encoding Chinese textual data for data processing entry
US5380428A (en) 1992-04-22 1995-01-10 Product Research & Development Pump for reverse osmosis system
US5787230A (en) * 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US5952942A (en) * 1996-11-21 1999-09-14 Motorola, Inc. Method and device for input of text messages from a keypad
US6104317A (en) * 1998-02-27 2000-08-15 Motorola, Inc. Data entry device and method
US6362752B1 (en) * 1998-12-23 2002-03-26 Motorola, Inc. Keypad with strokes assigned to key for ideographic text input
US20020069058A1 (en) * 1999-07-06 2002-06-06 Guo Jin Multimodal data input device
FI112978B (fi) * 1999-09-17 2004-02-13 Nokia Corp Symbolien syöttö
CN1277375A (zh) 2000-07-19 2000-12-20 孙万勋 语音输入结合新首识别的汉字一键输入法及其键盘

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005196140A (ja) * 2003-12-30 2005-07-21 Microsoft Corp テキストを入力するための方法
JP2007080242A (ja) * 2005-08-15 2007-03-29 Kobe Steel Ltd 情報処理装置及びそのプログラム
JP2010524135A (ja) * 2007-04-09 2010-07-15 グーグル・インコーポレーテッド クライアントの入力メソッド
CN111785276A (zh) * 2020-06-30 2020-10-16 安徽芯智科技有限公司 智能语音互联车联系统
CN111785276B (zh) * 2020-06-30 2023-08-15 安徽芯智科技有限公司 智能语音互联车联系统

Also Published As

Publication number Publication date
CN1457002A (zh) 2003-11-19
HK1060418A1 (en) 2004-08-06
CN100568223C (zh) 2009-12-09
JP4249538B2 (ja) 2009-04-02
US7174288B2 (en) 2007-02-06
US20030212563A1 (en) 2003-11-13

Similar Documents

Publication Publication Date Title
JP4249538B2 (ja) 表意文字言語のマルチモーダル入力
US6490563B2 (en) Proofreading with text to speech feedback
US7251600B2 (en) Disambiguation language model
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
KR100656736B1 (ko) 표음 입력 모호성 제거 시스템 및 방법
JP6245846B2 (ja) 音声認識における読み精度を改善するシステム、方法、およびプログラム
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
CA2523933C (en) Generic spelling mnemonics
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP2005208652A (ja) 声調言語用分節声調モデリング
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
US8219386B2 (en) Arabic poetry meter identification system and method
Thangthai et al. Automatic syllable-pattern induction in statistical Thai text-to-phone transcription.
JP3762300B2 (ja) テキスト入力処理装置及び方法並びにプログラム
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
JP2005534968A (ja) 漢字語の読みの決定
Hsu et al. Spoken correction for chinese text entry
JPH05232990A (ja) 日本語音声認識方法
JPH09160750A (ja) フロント・エンド・プロセッサ、情報処理装置及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060508

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080718

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080819

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081219

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090115

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120123

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130123

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees