JP2006216044A - 辞書学習方法、その利用する装置、及び入力方法とその方法を利用するユーザ端末装置 - Google Patents

辞書学習方法、その利用する装置、及び入力方法とその方法を利用するユーザ端末装置 Download PDF

Info

Publication number
JP2006216044A
JP2006216044A JP2006023912A JP2006023912A JP2006216044A JP 2006216044 A JP2006216044 A JP 2006216044A JP 2006023912 A JP2006023912 A JP 2006023912A JP 2006023912 A JP2006023912 A JP 2006023912A JP 2006216044 A JP2006216044 A JP 2006216044A
Authority
JP
Japan
Prior art keywords
word
dictionary
glossary
input
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006023912A
Other languages
English (en)
Inventor
Liqin Xu
キュ リキン
Min-Yu Hsueh
シュエ ミンユ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Publication of JP2006216044A publication Critical patent/JP2006216044A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65GTRANSPORT OR STORAGE DEVICES, e.g. CONVEYORS FOR LOADING OR TIPPING, SHOP CONVEYOR SYSTEMS OR PNEUMATIC TUBE CONVEYORS
    • B65G45/00Lubricating, cleaning, or clearing devices
    • B65G45/10Cleaning devices
    • B65G45/12Cleaning devices comprising scrapers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B08CLEANING
    • B08BCLEANING IN GENERAL; PREVENTION OF FOULING IN GENERAL
    • B08B1/00Cleaning by methods involving the use of tools
    • B08B1/10Cleaning by methods involving the use of tools characterised by the type of cleaning tool
    • B08B1/16Rigid blades, e.g. scrapers; Flexible blades, e.g. wipers
    • B08B1/165Scrapers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B08CLEANING
    • B08BCLEANING IN GENERAL; PREVENTION OF FOULING IN GENERAL
    • B08B1/00Cleaning by methods involving the use of tools
    • B08B1/20Cleaning of moving articles, e.g. of moving webs or of objects on a conveyor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65GTRANSPORT OR STORAGE DEVICES, e.g. CONVEYORS FOR LOADING OR TIPPING, SHOP CONVEYOR SYSTEMS OR PNEUMATIC TUBE CONVEYORS
    • B65G2812/00Indexing codes relating to the kind or type of conveyors
    • B65G2812/02Belt or chain conveyors
    • B65G2812/02128Belt conveyors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】 本発明は、辞書学習方法、品詞情報と品詞バイグラムが追加された辞書を使用するユーザ端末装置の入力方法を提供する。
【解決手段】 本発明の辞書学習方法は、タグ無しのコーパスから用語集および統計的言語モデルを学習するステップ、用語集、統計的言語モードおよび補助的な単語符号化情報を小型サイズの辞書に統合するステップを有する。ユーザ端末装置によって、文レベル予測および単語レベル予測が得られ、辞書インデックスのパトリシア・ツリー・インデックスによって検索される辞書を使用することで入力が高速化される。
【選択図】 図4

Description

本発明は、自然言語処理に関し、特に、辞書学習方法及びその方法を利用する装置、またユーザ入力処理のための入力方法及びその方法を利用するユーザ端末装置に関する。
中国におけるコンピューター、PDA及び携帯電話機の幅広い展開に伴い、ユーザに中国語の入力を可能にすることがそれらの機器にとって重要な機能となっている。中国の現在の携帯端末市場では、数字キーボードを利用する入力方式(IM)がほとんどすべての携帯電話において採用されている。「T9」と「iTap」は現在最も広く用いられている入力方式である。この種の入力方式では、ユーザは、テンキーボードでピンインあるいは漢字の字画を入力することが可能である。図10と図11は、ピンインと字画入力のキーボードの例を示す。この入力方式は、ユーザが打ち込むボタンの順序に従って予測可能な文字を提示する。一般的なピンイン入力においては、図10に示すように、各ボタンがそれぞれアルファベットの3〜4個の文字を表している。ユーザが各文字用のピンインを入力する場合、最も典型的な入力方式で要求される正しい文字を入力するために、ユーザは1つのボタンを3、4回もクリックする必要がない。ユーザがその文字のピンインに従う順序でボタンをクリックすると、IMが、候補リストに正しいピンイン及び正しい文字を予想して提示する。例えば、ユーザが、ピンイン「jin」である「今」を入力したい場合、ボタン「5」(「jkl」を表わす)を1回タップして「j」を入力し、ボタン「4」(「ghi」を表わす)を3回タップして「i」を入力し、そしてボタン「6」(「mno」を表わす)を2回タップして「n」を入力する必要はない。単に「546」とタップすると、IMが予測可能なピンイン「jin」と、対応する予測可能な文字候補
Figure 2006216044
を提示する。最も典型的な入力方式で漢字の「今」を入力する場合の「T9」の入力シーケンスを図14に示す。
現在の携帯端末では、ユーザは1文字ずつ漢字を入力しなければならない。ある入力方式はそれらがユーザの入力から予測できる結果を与えるかもしれないが、それらは実際には1文字ずつ予測を与える。各文字毎に、ユーザは、ボタンを数クリックする必要があるし、かつ少なくとも1回の視覚的な確認を行う必要がある。ここで、本発明は、文レベル及び単語レベルの予想結果を得ることができる方法とその方法を用いる装置を提案するものである。
上述したように、T9とiTapは、現在、携帯端末上の最も広く用いられている入力方式である。しかしながら、これらの入力方式の速度は、多くのユーザを到底満足させるものではない。一文字を入力するのにも、数多いクリックや、数多くの対話処理(より重大な要因)が必要だからである。
それらの問題の主要な理由は、中国語の入力方式に適用されている現在のディジタル・キーボードが単に文字ベースであることである(U. S. Patent 20030027601:特許文献1)。中国語においては、単語間に明確な境界がなく、かつ単語の明瞭な定義がないためである。従って、それらの入力方式は、英語版に対応する「単語」として一文字を取り扱うように決められている。しかしながら、これは、必然的に、1文字のディジタル・シーケンスによって膨大な数の余剰の文字が生じる結果となり、それは著しく速度を低下させる。さらに、単に1文字によって予測が実行されるので、文字ベースの入力方式は、単語予測の効果を非常に制限する。それは、携帯用ハンドセットの現在の入力方式が、ユーザ入力のディジタル・シーケンスを単に文字候補のリストへ転送することを意味する。さらに、ユーザは候補リストから正しい文字を選択しなければならない。ユーザは単語あるいは文を連続的に入力することができない。
例えば、ユーザが単語「今天」を入力するものとする。第1に、ユーザは、文字「今」のピンイン「jin」を意味するディジタル・キーボードに、文字「今」のピンイン「jin」を意味する「546」を入力する。そのとき、候補リスト
Figure 2006216044
がユーザに提示される。第2に、ユーザはそのリストから正しい文字「今」を選ばなければならない。第3に、文字「今」に続いて候補リスト「天日年・・・」がユーザに表示される。ユーザはそのリストから正しい文字「天」を選ばなければならない。中国語の単語「今天」の入力に関するT9の入力シーケンスは、図15に示すとおりである。
U. S. Patent 20030027601
PCプラットフォームにおいては、マイクロソフト・ピンイン、
Figure 2006216044
および
Figure 2006216044
等のようなPCキーボードになどに基づいた多くの高度で迅速な入力方式がある。それらの方式のうちの幾つかは、文レベル予測を提供すると共に、全ての方式が単語レベル予測を提供している。例えば、文レベル予測を提供するものを除き、その辞書サイズは必要に大きくなる。例えば、マイクロソフト・ピンインは、20 ~ 70 MB の辞書サイズを必要とし、Zhineng KuangPinは、100MBまで必要とする。それらはすべて、予測可能な文を提供する単語ベースのSLM(典型的な単語バイグラム・モデル(Word Bi-gram model)或いは単語トリグラム・モデル(Word Tri-gram model))を形成する統計的言語モデル技術を採用する。この種のSLMは、定義済みの用語集を使用し、辞書に多数の単語バイグラム或いは単語トリグラムのエントリを格納するが、辞書のサイズが必然的に大きくなるので、携帯端末には設けることができない。また、携帯端末プラットフォームにおいては、予測速度が非常に遅くなる。
他の欠点は、ほとんど全ての入力方式が、用語集を備えていないか、或いは定義済みの用語集しか備えていないことである。このため、ある言語で頻繁に使用される重要な単語や句(例えば、「今天下午」など)を連続的に入力することができない可能性がある。
本発明は上記の問題を鑑みてなされたのであり、辞書学習方法、その辞書学習方法を使用する装置を提供することを目的とする。
さらに、本発明は、入力方法と、その入力方法を使用するユーザ端末装置を提供することを目的とする。
本発明の辞書学習装置は、コーパスから辞書を学習する。学習された辞書は、コーパスから学習された多くの重要な単語および句からなる洗練された用語集を備える。辞書は後述する入力方式に適用される一方、それはさらに品詞情報および品詞バイグラム・モデルを含む。ユーザ端末装置は、辞書を探索するためにパトリシア・ツリー(一種のツリーのようなデータ構造)インデックスを使用する。そして、ユーザ端末装置は、ユーザ入力を受け取り、辞書検索結果に基づいて文および単語予測を与える。上記単語予測は、現在の単語候補リストおよび予測可能な単語候補リストからなる。全ての結果がユーザに対して表示される。それは、単語または文に対応するディジタル・シーケンスを連続的に入力することにより、ユーザが単語あるいは文を入力することができることを意味する。ユーザは、文字毎にディジタル・シーケンスを入力する必要がないし、候補リストから正しい文字を選択する必要もない。これにより、入力速度が大幅に改善される。
本発明による辞書学習方法は、タグ無しのコーパスから用語集及び統計言語モデルを学習するステップと、前記用語集、前記統計言語モデル及び補助的な単語符号化情報を、辞書に統合するステップを有する。
本発明の辞書学習方法は、品詞タグ付きのコーパスから、前記用語集の各単語の品詞情報と品詞バイグラム・モデルを取得するステップと、前記品詞情報及び前記品詞バイグラム・モデルを、前記辞書に追加するステップをさらに有する
本発明の辞書学習装置は、辞書を学習する辞書学習処理モジュールと、タグ無しのコーパスを格納する記憶ユニットと、装置の各部を制御する制御ユニットを備え、前記辞書学習処理モジュールが、前記タブ無しのコーパスから用語集と統計的言語モデルを学習する用語集/統計的言語モデル学習ユニットと、辞書へ、用語集、統計的言語モデル及び補助的な単語符号化情報を統合する辞書統合ユニットを備える。
本発明の辞書学習装置では、前記記憶ユニットが、さらに品詞タグ付きのコーパスを格納し、前記辞書学習処理モジュールが、さらに、前記品詞タグ付きのコーパスから、前記用語集の各単語の品詞情報と、品詞バイグラム・モデルを取得する品詞学習ユニットと、前記辞書に、前記品詞情報及び前記品詞バイグラム・モデルを加える辞書統合ユニットを備える。
本発明のユーザ入力を処理するための入力方法は、ユーザ入力を受け付ける受け付けステップと、ユーザ入力を、辞書に基づいて予め取得されている辞書中の各単語の前記符号化情報またはユーザ・アクションへ翻訳する翻訳ステップと、前記符号化情報または前記ユーザ・アクションを受け取った場合に、辞書中の統計的言語モデルと品詞バイグラム・モデルで基づき、辞書インデックスのパトリシア・ツリー・インデックスを使用して、文と単語の予測を与え、前記ユーザ・アクションに従って文と単語予測を調節するユーザ入力予測/調整ステップと、文および単語予測の結果を表示装置に表示するステップを有する。
本発明のユーザ入力を処理するユーザ端末装置は、ユーザ入力を受け付けるユーザ入力部と、パトリシア・ツリー・インデックスを有する辞書および辞書インデックスを格納する記憶ユニットと、ユーザ入力に基づいて文および単語予測を与える入力処理ユニットと、文および単語予測の結果を表示する表示装置を備え、前記入力処理ユニットは、ユーザ入力を、辞書に基づいて予め取得されている辞書中の各単語の前記符号化情報またはユーザ・アクションに翻訳する入力符号化インタプリタと、辞書中の統計前記符号化情報または前記ユーザ・アクションを受け取った場合に、辞書中の統計的言語モデルと品詞バイグラム・モデルで基づき、辞書インデックスのパトリシア・ツリー・インデックスを使用して、文と単語の予測を与え、前記ユーザ・アクションに従って文と単語予測を調節するユーザ入力予測/調整モジュールとを備える。
本発明によれば、小型サイズの学習された辞書を使用することにより、文レベル予測及び単語レベル予測を提供することができる。
辞書は、本発明による辞書学習装置によって学習される。辞書学習装置は、コーパスから多くの重要な情報を抽出し、小型サイズに格納できる特別のコンテンツおよび構造でそれらを保持する。携帯用ハンドセット上の従来の入力方法と異なり、本発明の基本入力単位は「単語」である。ここで、「単語」は、さらにコーパスから学習される「句」を含んでいる。コンテンツ及び辞書の構成で基づいて、入力方式は文レベル及び単語レベル予測を提供できる。従って、T9とiTapのような従来の入力方法と比較して、入力速度が向上する。
マイクロソフト・ピンイン(それは文および単語予測を与えることができるが、膨大な単語バイグラム・エントリあるいは単語・トリグラム・エントリに対応し、予め定義された用語集を格納するために大型の辞書を使用する)のようなPCベースの入力方式と比較して、本発明は、最適化された用語集と対応する単語ユニグラムに、抽出された重要な言語情報をだけを格納してなる辞書を学習する。したがって、辞書中の情報はすべて言語処理のために必須の情報であり、非常に少ない記憶領域の消費で済む。
本発明によって得られる効果は以下の通りである。
1.洗練された用語集を備える辞書を学習することができる。この洗練された用語集は、コーパスから学習された多くの重要な単語及び句を含んでいる。
2.学習された辞書は洗練された用語集及び品詞情報を含んでいる。文予測および単語予測を支援するこの辞書は、携帯用ハンドセット上に搭載できるほど十分に小さくすることができる。
3.辞書にパトリシア・ツリー・インデックスを利用してインデックスが付けられる。このことは、単語を迅速に検索するのに非常に有効である。これにより、文予測および単語予測が、簡単かつ高速に達成される。また、上に記述された利点のために、それは入力を促進することができる。
本発明の上記特徴及び他の特徴及び効果は、添附の図面に関連する詳細で好適な実施例によって当業者によってより明らかになるだろう。
(構成)
本発明による辞書学習装置とユーザ端末装置の関係を図1のブロック図を参照して説明する。辞書学習装置1は、コンピュータ読取り可能な辞書2の学習を実行する。ユーザ端末装置3は、ユーザによるテキスト入力を支援するために辞書2を使用する。辞書学習装置1及びユーザ端末装置3は、ある意味において互いに独立している。辞書学習装置1によって学習された辞書2についても、他のアプリケーションにおいて使用することが可能である。辞書学習装置1は、ユーザに対して迅速な入力を提供することができる小さなサイズの辞書を構築するために独自の辞書学習方法及び独自の辞書構造を使用する。
図2は、辞書学習装置1によって学習された辞書構造の例を示す。この例においては、辞書2は、多数の単語エントリ(部分21)を有する。前記単語エントリは、「単語」
Figure 2006216044
用だけでなく、「句」
Figure 2006216044
用に設けられている。前記「句」は、実際には合成語である(一連の単語からなる)。以下の説明においては、便宜上、用語「単語」は、従来における「単語」と「句」の両方を指すものとする。他のいくつかの単語の例には、「今天」、「今天下午」、「今天下午八点」が示されている。部分21は、単語の見出し語(部分211)、単語の出現確率(単語ユニグラム(Word Unigram):部分212)、その単語の幾つかの品詞(部分213)、さらにそれらの品詞毎の対応する出現確率(部分214)、幾つかの補助的な単語符号化情報(部分215)を含む。部分215は、ピンイン(中国語の発音)符号化情報、字画符号化情報、あるいは他の単語符号化情報の何れでもよい。どのような種類の部分215が部分21に加えられるかはアプリケーションに依存する。後で示される幾つかの例においては、部分21は部分215を含まない可能性がある。最後に、この例では、部分22(品詞について他の単語と関連して出現する確率(バイグラム:Part-of-Speech Bi-gram Model))が含まれている。なお、この部分22はアプリケーションに依存しており、他の例に含まれていない可能性もある。当業者にとって明らかなように、辞書2は中国語に限定されず、中国語辞書以外の他の種類の辞書でもよい。日本語辞書の場合、補助的な単語符号化情報(部分215)がピンイン符号化情報の代わりに平仮名符号化情報になるという点を除いて、その他の全ての部分は中国語辞書の場合と同じである。例えば、単語「今晩」については、平仮名符号化情報が「こんばん」となる。英語辞書の場合、英単語の符号化情報が単にその単語の文字列となるので、補助的な単語符号化情報(部分215)が省略されるという点を除いて、その他の全ての部分が中国語辞書の場合と同じである。韓国語にとって、補助的な単語符号化情報(部分215)がピンイン符号化情報の代わりに韓国の字画符号化情報になるという点を除いて、その他の全ての部分は中国語辞書の場合と同じである。例えば、単語
Figure 2006216044
については、韓国語の字画符号化情報は
Figure 2006216044
となる。この辞書2は、後述する図5において例示される装置によって学習される。
図3は、辞書学習装置1によって学習された辞書構造の他の例を示す。図2に示された例と比較して、この例においては、この単語の品詞(部分213)、品詞毎の対応する出現確率(部分214)及び品詞について他の単語と関連する出現確率(Part-of-Speech Bi-gram Model)(部分22)が省略されている。この辞書は、最初の例よりも幅広く利用することが可能である。それは、アプリケーションと関連付けられた手書きや音声認識処理、入力方式及び他の多くの言語に利用することができる。この辞書は、後述する図6において例示される装置によって学習される。
ここで、辞書を学習する辞書学習装置1について、図4及び図5を参照して説明する。図4及び図5に示すように、辞書学習装置1は、内部バス103によって接続されるCPU101、コンピュータアクセサリ102、メモリ104及びハードディスク105を備える。メモリ104は、オペレーティング・システム1041、辞書学習処理モジュール1042及び他のアプリケーション1043を格納している。ハードディスク105は、コーパス1051(言語学的分析のために収集された一群のデータ)、辞書学習ファイル1052及びその他のファイル(図示せず)を格納する。この装置によって学習された辞書2も、ハードディスク105上に格納される。コーパス1051は、例えば、タグ無しのコーパス12や品詞タグ付きのコーパス13を備える。辞書学習ファイル1052は、用語集11及び統計的言語モデル14を備える。辞書学習処理モジュール1042は、用語集及び統計的言語モデル学習ユニット15、品詞学習ユニット16及び辞書統合ユニット17を備える。
最終辞書2は、辞書学習処理モジュール1042によってトレーニングされることになる。辞書学習処理モジュール1042は、コーパス1051を読み込み、ハードディスク105上の用語集11及び統計的言語モデル14に書き込み、最後にハードディスク105上に辞書2を出力する。
用語集11は、単語の見出し語の収集から成る。初期段階において、言語における標準的な従来の単語からなる用語集が、用語集11として使用される。用語集及び統計的言語モデル学習部15は、最終的な用語集及び統計的言語モデルを学習し、用語集11はこのようなプロセスを通じて精緻なものとなる。幾つかの重要でない単語は用語集11から削除され、幾つかの重要な単語及び句が用語集11に加えられる。タグ無しのコーパス12は、単語の並びに分けられていないが多くの文を形成する多数のテキストを持つコーパスである。(英語の場合、スペースなどの幾つかの「トークン」(記号)によって文を「単語」の並びに分割することができる。しかし、単語の並びにおけるこれらの単語は、従来の「単語」だけであり、この明細書で「単語」と称する従来の「句」を含んでいない。)用語集及び統計的言語モデル学習ユニット15は、用語集11及びタグ無しのコーパス12を処理し、それにより統計的言語モデル14(初期段階には存在しない)が生成される。統計的言語モデル14は、単語トリグラム・モデル(word Tri-gram Model)141及び単語ユニグラム・モデル(word Uni-gram Model)142を備える。そして、用語集及び統計的言語モデル学習ユニット15は、用語集11を精緻なものとするために統計的言語モデル14中の情報を使用する。用語集及び統計的言語モデル学習ユニット15は、そのプロセスを繰り返し、最終的な用語集11及び最終的な単語ユニグラム・モデル142を作成する。
品詞タグ付きのコーパス13は、対応する品詞によってタグ付けがなされた一連の単語を備えたコーパスである。一般的には、それらは手作業で構築され、サイズは制限されている。品詞学習ユニット16が、品詞タグ付きのコーパス13内の単語列を走査する。用語集11に基づいて、品詞学習ユニット16は、用語集の中の各単語毎に品詞情報についての統計データを作成する。単語の全ての品詞(辞書2における部分213)及びそれらの対応する出現確率(辞書2における部分214)がカウントされる。単語の並びに現れない用語集11中の単語については、手作業によって品詞及び対応出現確率「1」が付与される。品詞バイグラム・モデル(辞書2における部分22)も、共通のバイグラム・モデル計算方法を使用するプロセスにおいて生成される。
品詞学習ユニット16から与えられた単語ユニグラム・モデル142、用語集11及び幾つかの情報を使用することにより、辞書統合ユニット17は、上述したデータを全て統合し、あるアプリケーションに必要とされる補助的な単語符号化情報(辞書2における部分215)を追加し、これにより、図2に示されるような最終的な辞書2が生成される。
辞書を学習する辞書学習装置1の他の例を、図4及び図6を参照して説明する。図4及び図5に示される例と比較して、コーパス1051は、タグ無しのコーパス12だけを備える。辞書学習処理モジュール1042は、品詞学習ユニット16を含んでいない。従って、この例においては、品詞関連情報が考慮されない。辞書統合ユニット17は、単語トリグラム・モデル141、用語集11及びあるアプリケーションに必要とされる補助的な単語符号化情報(辞書2における部分215)を、図3に示すように最終的な辞書2へ統合する。
(動作)
図7は、用語集及び統計的言語モデル学習ユニット15によって実現される用語集及び統計的な言語モデルを学習する処理を説明するフローチャートである。最初に、ステップ151で、タグ無しのコーパス12が単語列に分割される。この分割ステップとしてはいくつかの異なる方法がある。最初の例は、用語集に基づいた最大マッチングを利用することによりコーパス12を分割する方法である。第2の例は、単語ユニグラム・モデル142が存在する場合、単語ユニグラム・モデル142で基づいた最尤推定の使用により、コーパス12を分割し、単語ユニグラム・モデル142が存在しない場合には、用語集による最大マッチングを使用してコーパス12を分割する方法である。最尤推定は、標準的な分割方法であり、式(1)で示される。
Figure 2006216044
式(1)において、
Figure 2006216044
は、単語列
Figure 2006216044
Figure 2006216044
は、単語列の見込みの確率を表している。
Figure 2006216044
は、最適化された単語列である。
ステップ152で、分割された単語列が受け取られ、単語トリグラム・モデル141及び単語ユニグラム・モデル142を含む統計言語モデル14が、従来のSLM生成方法による単語列に基づいて生成される。
ステップ153で、ステップ152で作成された単語トリグラム・モデルは、ステップ151で作成された単語列のパープレキシティを評価するために使用される。これがパープレキシティを計算する最初である場合、直接ステップ154の処理へ進む。そうでなければ、新しく得られたパープレキシティが、以前のものと比較される。パープレキシティが予め定義された閾値以上に減少した場合、処理工程はステップ154へ移行し、そうでなければ、プロセスはステップ155へ進む。
ステップ154で、コーパス12は、新しく作成された単語トリグラム・モデル141によって最尤推定を使用する単語列へ再度分割され、ステップ152が実行される。
ステップ155で、いくつかの新語は用語集に加えられ、用語集の中のいくつかの重要でない単語は、統計言語モデルの中のある情報に基づいて用語集から取り除かれる。これにより、用語集が洗練される。用語集の洗練化を行う方法について以下の段落で説明する。新しい単語は、一般的に、単語トリグラム・モデル141中のトリグラム・エントリあるいはバイグラム・エントリの単語列からなる単語である。例えば、「今天」、「下午」及び「八点」がすべて現在の用語集の中の単語である場合、バイグラム・エントリの「今天下午」あるいはトリグラム・エントリの「今天下午八点」が洗練された用語集の新たな単語である可能性がある。それらが両方とも追加されると、洗練された用語集は単語「今天下午」及び「今天下午八点」の両方を含んでいるはずである。
ステップ156で、その用語集が評価される用語集がステップ155で変更されない(新たな単語が追加されず、かつ重要でない単語が削除されない)場合、用語集及び統計的言語モデル学習ユニット15は処理を終了する。そうでない場合、ステップ157の処理へ進む。
ステップ157で、それらが新しく作成された用語集に対応していないので、その時点で単語トリグラム・モデル141及び単語ユニグラムモデル142は有効ではない。ここで、単語ユニグラムモデルは、新しい用語集によって更新される。たな単語の単語ユニグラム(出現確率)は、単語トリグラム・モデルから得られる。また、削除すべき単語ユニグラムエントリは削除される。最後に、単語トリグラム・モデル141が削除され、ステップ151の処理が繰り返される。
図8は、本発明による用語集洗練化のフローチャートを示す。用語集洗練化が開始する場合、進むための2つの処理経路がある一方はステップ1551に進む処理経路であり、他方はステップ1554に進む処理経路である。最初に何れの処理経路に進むかを選択することが可能である。
まず第一に、トリグラム・エントリ(例えば「今天 下午 八点」)及びバイグラム・エントリ(例えば「今天 下午」)は全て、ステップ1551で発生計算しきい値によってフィルタリングされ、例えば、コーパスに100回以上出現したエントリは全て、新語候補リストへ選択される。このようにして、新語候補リストが作成される。ステップ1552で、全ての単語候補が相互情報量閾値によってフィルタリングされる。相互情報量は、次のように定義される:
Figure 2006216044
ここで、f(w,w・・・w)は、単語列(w,w・・・w)の出現確率を表す。ここで、(w,w・・・w)は新語候補であり、「n」は「2」または「3」である。
例えば、w「今天」、w「下午」及びw「八点」については、候補「今天 下午 八点」の相互情報量は、次のようになる。
Figure 2006216044
相互情報量が閾値より小さい候補は全て、候補リストから取り除かれる。
ステップ1553で、新語候補リスト中の各候補の相対エントロピーが計算される。相対エントロピーは次のように定義される:
Figure 2006216044
ここで、P(w,w2,・・・,w)は、現在の単語トリグラム・モデルから得られる単語列(w,w・・・w)の見込みの確率である。その後、ステップ1553で、全ての候補が相対エントロピーの降順にソートされる。
ステップ1557に進む前に、まず、右側の処理工程(ステップ1554〜1556)が実行される。右側の工程では、いくつかの重要でない単語
Figure 2006216044
及びいくつかの「偽の単語」が削除される。単語列が新語として追加される場合、それは「偽の単語」(例えば「今天下」)かもしれない。従って、幾つかの用語集エントリを削除することが必要となる。
用語集中の全ての単語は、ステップ1554で出現回数の閾値によってフィルタリングされ、例えば、用語集において出現回数が100回未満の単語は全て削除され、削除単語候補リストへ選択される。削除単語候補リストはそのとき作成される。
ステップ1555で、削除単語候補リスト中の単語は、それぞれ一連の他の単語に分割される。例えば、
Figure 2006216044
は、「革命」と、
Figure 2006216044
に分割される。この分割方法は、ステップ152あるいはステップ154で説明した方法と同様である。これら2つのステップのうちのどちらの方法でも使用することができる。
ステップ1553と同様、各候補の相対エントロピーがステップ1556で計算される。その後、全ての候補は相対エントロピーの昇順にソートされる。
ステップ1557で、新しい単語と削除対象の単語の2つの単語候補リストに基づいて、新しい単語(新単語候補リストの単語)を幾つ追加するか、削除対象の単語(削除単語候補リストの単語)を幾つ取り除くかを決定するための方策が実行される。
この方策は、1つのルール又は複数のルールに従っている。例えば、相対エントロピーの閾値を使用するルール、用語集の単語の合計数を基準として使用するルール、それら2つのルールを使用するルールに従う。最後に、用語集が更新される。
用語集洗練化を行うことは非常に重要である。この用語集洗練処理において、もともと単に幾つかの単語列である幾つかの重要な語句が新しい単語として用語集に追加される。これにより、元の単語ユニグラム・モデルに存在しないある重要な言語情報が、最終的な単語ユニグラム・モデルに抽出される。さらに、幾つかの重要でない言語情報はオリジナルの単語ユニグラムモデルから削除される。従って、最終的な単語ユニグラム・モデルは、小さなサイズを維持することができるだけでなく、言語予測においてより優れた性能を提供する。従って、小さなサイズの辞書が得られると共に、本発明では、小型サイズの辞書を使用して、単語及び文予測において優れた性能を提供する。
図9は、本発明の第1の実施例によるユーザ端末装置のブロック図である。図9に示すように、プロセッサ31、ユーザ入力部32、表示装置33、RAM35及びROM(フラッシュ)36が、バス34によって接続され相互に作用する。入力符号化インタプリタ362、辞書インデックス・モジュール363、ユーザ入力予測/調整モジュール364が、入力処理ユニット3601を構成する。入力処理ユニット3601、辞書2、辞書インデックス366、オペレーティング・システム361及び他のアプリケーション365は、ROM36内に搭載される。
図10〜図13は、それぞれユーザ端末装置の従来のキーボードの4種類の構成を示すブロックであり、これらは本発明によって利用される。ユーザ入力部32は、任意のタイプのユーザ入力装置で実現できる。図10に示されるように、ユーザ入力部32の1つの例は、ディジタル・ボタンがそれぞれいくつかのピンインコードを表わすディジタル・キーボードである。ボタン321は、ピンイン文字「g」あるいは「h」あるいは「i」を表す数字「4」のボタンである。ボタン322は「関数」ボタンであり、ユーザは、いくつかのアクションをするためにこの種のボタンを使用することができる。例えば、候補リストから正しい候補を選択するためにこのボタンを数回クリックする。ユーザ入力部のこの例は、英語の入力においても適用することができる。したがって、各ディジタル・ボタンはそれぞれ幾つかのアルファベット文字を表わす。ユーザ入力部32の他の例は、図11に示されるように、各ディジタル・ボタンがそれぞれ幾つかの字画コードを表わすディジタル・キーボードである。図11において、字画「、」を表わすボタン321は数字「4」のボタンである。ユーザ入力部32の3番目の例は、日本語の入力方式において使用されるディジタル・キーボードである。この例における各ディジタル・ボタンは、それぞれ幾つかの平仮名を表わす。図12において、ボタン321は、平仮名「た」、「ち」、「つ」、「て」、「と」の何れかを表わす数字「4」のボタンである。ユーザ入力部32の4番目の例は、韓国語の入力方式において使用されるディジタル・キーボードである。この例における各ディジタル・ボタンは、それぞれ幾つかの韓国語の字画を表わす。図13において、ボタン321は、韓国語
Figure 2006216044
あるいは
Figure 2006216044
あるいは
Figure 2006216044
を表す数字「4」のボタンである。ユーザ入力部32の5番目の例は、ペン軌跡を記録することができるタッチパッドである。スクリーン上へのペンの接触によって幾つかのユーザ・アクションを記録することができる。
図16は、図9に示したユーザ端末装置における入力処理ユニットの各構成部分の接続構成を示すブロック図である。ユーザ入力予測/調整モジュール364が動作する前に、辞書インデックス・モジュール363が、辞書2を読み込み、ROM36へ辞書インデックス366を追加する。辞書インデックス366は、対応する単語符号化情報に基づいた辞書2中の全単語エントリのためのインデックスである。ユーザ入力部32の第1の例においては、単語のための符号化情報はディジタル・シーケンスである。例えば、単語「今天」のピンインは「jintian」であり、したがって、符号化情報は「5468426」となる。ユーザ入力部32の第2の例においては、単語のための符号化情報はディジタル・シーケンスである。例えば、単語「今天」の字画は、
Figure 2006216044
であり、従って、符号化情報は「34451134」となる。ユーザ入力部32の3番目の例においては、単語のための符号化情報はディジタル・シーケンスである。例えば、単語「今晩」の平仮名は「こんばん」であり、従って、符号化情報は「205#0」となる。ユーザ入力部32の4番目の例においては、単語のための符号化情報はディジタル・シーケンスである。例えば、単語
Figure 2006216044
の韓国語の字画は、
Figure 2006216044
であり、従って、符号化情報は「832261217235」となる。ユーザ入力部32の5番目の例においては、単語のための符号化情報はUnicodeシーケンスである。例えば、単語「今天」のためのUnicodeは、「(4ECA) (5929)」であり、従って、符号化情報は「(4ECA) (5929)」となる。
ユーザ入力部32は、ユーザ入力を受け取り、それをバス34を介して入力符号化インタプリタ362に送る。入力符号化インタプリタ362は、ユーザ入力を符号化情報またはユーザ・アクションへ解釈し、それをユーザ入力予測/調整モジュール364に転送する。この符号化情報は、一定の情報あるいは確率的な情報である。ユーザ入力部32の第1の例においては、入力符号化インタプリタ362は、各ボタン・クリックを、ピンインの各文字「a」〜「z」の幾つかの可能性を表わす一定の数字コード「0」〜「9」へ解釈する。ユーザ入力部32の第2の例においては、入力符号化インタプリタ362は、各ボタン・クリックを、字画
Figure 2006216044
の文字を表わす一定の数字コード「0」〜「9」へ解釈する。ユーザ入力部32の3番目の例においては、入力符号化インタプリタ362は、各ボタン・クリックを、個々の平仮名のいくつかの可能性を表わす一定の数字コード「0」〜「9」又は「#」に翻訳する。ユーザ入力端子32の4番目の例においては、入力符号化インタプリタ362は、各ボタン・クリックを、個々の韓国語の字画の幾つかの可能性を表わす一定の数字コード「0」〜「9」へ翻訳する。ユーザ入力端子32の5番目の例においては、入力符号化インタプリタ362は、各ペンの軌跡を、幾つかの可能なUnicode及び対応する確率を表わす確率変数へ翻訳する。(この入力符号化インタプリタ362は、ペンの軌跡を、文字候補と対応する確率のセットとして認識する手書き認識エンジンによって実現することができる。)
ユーザ入力予測/調整モジュール364は、入力符号化インタプリタ362によって送られた翻訳された符号化情報あるいはユーザ・アクションを受け取る。辞書2及び辞書インデックス366に基づいて、ユーザ入力の結果が生成され、その結果がバス34を介して表示装置33に送られる。表示装置33は、ユーザに対して、入力の結果と入力方法に関連する他の情報を提示する装置である。図17は、ユーザ端末装置の表示装置33のユーザ・インタフェースの例を示す。
この表示装置の例では、入力ステータス情報エリア331及び入力結果エリア332を備える。エリア331には、ユーザ入力の数字列3311及び入力方式ステータス3312が表示される。エリア3311は、ユーザによって既に入力された現在のディジタル・シーケンスを示す。エリア3312は、現在の入力方式がピンインによるディジタル・キーボード入力方式であることを示している。エリア332には、ユーザ入力予測/調整モジュール364から与えられる幾つかの結果が表示される。文予測3321は、入力されたディジタル・シーケンス3311に従いユーザ入力予測/調整モジュール364によって予測された文である。現在の単語候補3322は、入力ディジタル・シーケンス3311の陰付きの部分(現在の単語部分)に従ってユーザ入力予測/調整モジュール364によって得られる、現在の単語候補全てのリストである。このリストの候補は全て、同じ単語符号化情報(すなわち、「24832」のディジタル・シーケンス)を有している。現在の予測可能な単語候補3323は、入力ディジタル・シーケンス3311の陰付きの部分(現在の単語部分)に従ってユーザ入力予測/調整モジュール364によって得られる、予測可能な現在の単語候補全てのリストである。このリスト中の全ての候補の単語符号化情報の最初の5つの数字は、同じ数字列「24832」を有する。
Figure 2006216044
Figure 2006216044
Figure 2006216044
表示装置33のレイアウトは変更することができ、その構成部分は、全て削除又は変更可能である。
図18は、辞書インデックス・モジュール363によって実行されるパトリシア・ツリー・インデックスの構築を説明するフローチャートである。ステップ3631で、辞書インデックス・モジュール363は辞書2を読み込む。特定のユーザ入力部32によって、各単語の符号化情報が与えられる。その後、ステップ3632で、まず初めに、単語エントリがそれらの符号化情報によってソートされる。2つの単語エントリの符号化情報が同一である場合、第2に、それらは単語ユニグラム(出現確率)によってソートされる。そのソート結果に基づいて、辞書のためのパトリシア・ツリー・インデックスが構築される。パトリシア・ツリー・インデックスは、多数のレコードを格納し、レコードの高速な連続検索を提供する。最後に、パトリシア・ツリー・インデックスが辞書インデックスに書き込まれる。
図19は、本発明によるソート結果とパトリシア・ツリー・インデックスの例を示す。上記パトリシア・ツリー・インデックスを有する辞書インデックス366を使用することにより、追加のユーザ入力アクションが受け取られと、ユーザ入力予測/調整モジュール364が迅速な単語検索を実行する。例えば、初めの「2」が入力されると、ユーザ入力予測/調整モジュール364は、1ステップで迅速にノード「2」を検索し、メモリにこのノードを記録することが可能となる。次のステップで、「3」が入力されると、ユーザ入力予測/調整モジュール364は、たった1ステップでノード「2」からノード「23」まで検索する。各ノードにおいて、対応する単語候補および予測可能な候補を計算するための情報は、容易に取得することが可能である。
図20は、ユーザ端末装置1のユーザ入力予測/調整モジュール364によって実行されるユーザ入力予測および調整工程のフローチャートである。ステップ3641で、ユーザ入力情報を入力符号化インタプリタ362から受信し、ユーザ入力予測/調整モジュール364は、受信した入力情報がユーザ・アクションか符号化情報であるかを決定する。それがユーザ・アクションであれば、ステップ3648が実行される。そうでなければ、ステップ3642が実行される。
ステップ3642で、この入力符号化情報が使用され、工程は、辞書インデックス366中のパトリシア・ツリー・インデックスに沿って1ステップ先へ進む。それは、ユーザ入力予測/調整モジュール364が、現在のパトリシア・ツリー・ノード(Patricia tree node)のリストを格納することを意味する。追加の符号化情報が加えられる場合、開始点としてこのリストのノードを使用することによって、新たなパトリシア・ツリー・ノードを探索するために、ステップ3642はパトリシア・ツリー・インデックスに沿って1ステップ先へ進む。追加の符号化情報が追加された最初の符号化情報である場合、ステップ3642はパトリシア・ツリーのルートから開始する。すなわち、図19のパトリシア・ツリーの例においては、「2」が最初の符号化情報として加えられ、ステップ3642でルートからパトリシア・ツリーにおける新たなノード「2」を検索する。2回目に、「2」およびルート・ノードが現在のパトリシア・ツリー・ノードとしてセットされる。「3」が第2の符号化情報として追加されると、ステップ3642で、新しいノード「23」が現在のノード「2」から検索され、また、新しいノード「3」が現在のノードのルート・ノードから検索される。3回目に、ノード「23」、ノード「3」及びルート・ノードが、現在のノードとしてセットされる。
ステップ3643で、新しいノードが探索されない場合、プロセスはステップ3644へ進む。それは、その符号化情報が無効であることを意味する。そうでなければ、プロセスはステップ3645へ進む。
ステップ3644で、その符号化情報は無視され、この符号化情報が追加される前に、結果及びステータスはすべてそれらの前の値に戻される。その後、次のユーザ入力情報を待つために、プロセスはステップ3641へ戻る。
ステップ3645で、新しいパトリシア・ツリー・ノードが受け取られ、それらは現在のパトリシア・ツリー・ノードとしてセットされる。現在のノードはそれぞれ、すべての入力符号化情報で可能な現在の単語の集合を表わす。その後、文予測が、最も確率の高い単語列は何かを決定するこのステップにおいて実行される。この最も確率の高い単語列が最終的な文予測となる。例えば、「2」及び「3」は、最初と第2回目のユーザ入力符号化情報としてそれぞれ追加される。現在のノードは「23」、「3」そしてルート・ノードである。符号化情報「23」を有するすべての単語は、ただ1つの単語を有する単語列である。これは一種の可能な文である(
Figure 2006216044
は確率の高い文である)。符号化情報「3」を有するすべての単語は、符号化情報「2」を有する単語に続き、2つの単語列「2」、「3」を形成する。これは、別の種類の可能な文である(
Figure 2006216044
は確率の高い文であり、かつ
Figure 2006216044
も確率の高い文である。)。最も確からしい文を決定する方法は、符号化Iの単語列が与えられたとき、符号化Iに対応する最も確からしい単語列
Figure 2006216044
を見出すことと表現することができる。この課題に対する1つの解法は式(4)に示される。
Figure 2006216044

Figure 2006216044
は単語wが有している全ての品詞の集合である。
Figure 2006216044
は単語wの品詞うちの1つである。この課題は、P(S)を最大にすることである。式(5)を導き出すことができる。
Figure 2006216044
Figure 2006216044

Figure 2006216044
は、それぞれ品詞ユニグラムと品詞バイグラムである。それらは、品詞バイグラム・モデル(図2に示される辞書における部分22)に含まれている。P(w)は、単語ユニグラム(図2に示される辞書における部分212)である。
Figure 2006216044
は、単語による品詞の出現確率(辞書の構造における部分214)である。
ステップ3646で、文予測中の現在の単語が決定される。現在の単語候補及び予測可能な現在の単語候補は、この単語のパトリシア・ツリー・ノードから導き出される。例えば、文予測が
Figure 2006216044
であると仮定すると、現在の単語は
Figure 2006216044
となる。そのとき、現在の単語のパトリシア・ツリー・ノードはノード「3」である。このため、現在の単語候補リストは1単語
Figure 2006216044
だけを有し、予測可能な現在の単語候補リストは単語を有してない。
最後に、表示すべき結果がステップ3647で出力され、処理工程は、他のユーザ入力情報を待ってステップ3641へ進む。
ユーザ入力情報がユーザアクションである場合、ステップ3648は結果に基づいていくらかの対応する調節を行う。例えば、ユーザが現在の単語候補リストから第2の単語を選択すると、文予測の現在の単語が、選択された単語に基づいてこの新しい現在の単語に変更される。例えば、ユーザが文予測結果に関して「F2」(OKを意味する)をクリックすれば、図17が示すように、文予測3321が、ユーザアプリケーションとディジタル・シーケンス331に送られ、エリア332内の結果が全てリセットされる。
図21は、図10において示されたキーボードを使用するユーザ端末装置3の入力列の例を示す。この図では、ユーザは、ユーザ入力部32の第1の例のピンインを使用して、中国語「今天下午」を入力する。
図22は、本発明の第2の実施例によるユーザ端末装置のブロック図を示す。この実施例は、2つの部分、すなわち携帯端末とコンピュータを示している。図9に示した第1の実施例は単に1つの携帯端末を備える。これらの2つの実施例間の違いは、この実施例がコンピュータに辞書インデックス・モジュール363を配置している点である。辞書インデックス・モジュール363は、辞書2を処理し、コンピュータのディスク内に辞書インデックスクス366を出力する。その後、辞書2及び辞書インデックス366は、携帯端末のROM(フラッシュ)へ転送される。携帯端末プロバイダによって提供されるツールによって転送処理を実行することも可能である。その後、ユーザ入力予測/調整モジュール364が、第1の実施例のように動作する。
本発明は、その思想あるいは本質的特徴から外れない範囲で、他の特定の態様において具体化されることも可能である。また、本実施例は、全ての点において具体的な例として考慮され、限定的に考慮されるものではない。また、本発明の範囲は、実施例の記載ではなく請求の範囲によって示される。さらにクレームと同等の意味及び範囲内に含まれる全ての変形例は本発明に包含される。
図1は、本発明による、辞書学習装置とユーザ端末装置の関係を示すブロック図である。 図2は、辞書学習装置によって学習された辞書の構造例を示す図である。 図3は、辞書学習装置によって学習された辞書の他の構造別を示す図である。 図4は、本発明による辞書学習装置の構成を示すブロック図である。 図5は、辞書学習装置の辞書学習処理モジュールの構成例を示す詳細なブロック図である。 図6は、辞書学習装置の辞書学習処理モジュールの他の構成例を示す詳細なブロック図である。 図7は、本発明による辞書学習処理モジュールの用語集及び統計的言語モデル学習ユニットによって実行された辞書及び統計言語モデルを学習する手順について説明するためのフローチャートである。 図8は、本発明による用語集の洗練化のフローチャートである。 図9は、本発明の第1の実施例によるユーザ端末装置のブロック図である。 図10は、ユーザ端末装置の従来のキーボードの例を示す図である。 図11は、ユーザ端末装置の従来のキーボードの他の例を示す図である。 図12は、ユーザ端末装置の従来のキーボードの他の例を示す図である。 図13は、ユーザ端末装置の従来のキーボードの他の例を示す図である。 図14は、最も一般的な入力方式を使用して、漢字の「今」を入力する場合のT9による入力シーケンスを示す図である。 図15は、最も一般的な入力方式を使用して、中国語「今天」を入力する場合のT9による入力シーケンスを示す図である。 図16は、本発明のユーザ端末装置における入力処理ユニットの各構成要素の接続関係を示すブロック図である。 図17は、本発明のユーザ端末装置の表示装置のユーザ・インタフェースの例を示す図である。 図18は、本発明のユーザ端末装置の辞書インデックス・モジュールによって実行されるパトリシア・ツリー・インデックス(Patricia Tree index)を構築する処理を説明するフローチャートである。 図19は、本発明によるソート結果及びパトリシア・トリー・インデックスの例を示す図である。 図20は、本発明のユーザ端末装置におけるユーザ入力予測/調節モジュールによって実行されるユーザ入力の予測及び調整処理を説明するフローチャートである。 図21は、ユーザ端末装置による入力シーケンスの例を示す図である。 図22は、本発明の第2の実施例によるユーザ端末装置のブロック図である。
符号の説明
1:辞書学習装置
101:CPU
102:コンピュータアクセサリ
103:内部バス
104:メモリ
1041:オペレーティング・システム
1042:辞書学習処理モジュール
1043:他のアプリケーション
105:ハードディスク
1051:コーパス
1052:辞書学習ファイル
11:用語集
12:タグ無しのコーパス
13:品詞タグ付きのコーパス
14:統計的言語モデル
141:単語鳥グラム・モデル
142:単語ユニグラム・モデル
15:用語集及び統計的言語モデル学習ユニット
16:品詞学習ユニット
17:辞書統合ユニット
2:辞書
3:ユーザ端末装置
31:プロセッサ
32:ユーザ入力部
33:表示装置
34:バス
35:RAM
36:ROM(フラッシュ)
361:オペレーティング・システム
362:入力符号化インタプリタ
363:辞書インデックス・モジュール
364:ユーザ入力予測/調整モジュール
365:他のアプリケーション
366:辞書インデックス

Claims (33)

  1. タグ無しのコーパスから用語集及び統計言語モデルを学習するステップと、
    前記用語集、前記統計言語モデル及び補助的な単語符号化情報を、辞書に統合するステップと
    を有することを特徴とする辞書学習方法。
  2. 品詞タグ付きのコーパスから、前記用語集の各単語の品詞情報と品詞バイグラム・モデルを取得するステップと、
    前記品詞情報及び前記品詞バイグラム・モデルを、前記辞書に追加するステップをさらに有することを特徴とする請求項1に記載の辞書学習方法。
  3. 前記補助的な単語符号化情報が、中国語符号化情報であることを特徴とする請求項1または請求項2に記載の辞書学習方法。
  4. 前記補助的な単語符号化情報が、中国語以外の符号化情報であることを特徴とする請求項1または請求項2に記載の辞書学習方法。
  5. 前記補助的な単語符号化情報が、中国語以外の符号化情報であることを特徴とする請求項3に記載の辞書学習方法。
  6. タグ無しのコーパスから用語集及び統計言語モデルを学習するステップが、
    a)前記タグ無しのコーパスを単語シーケンスに分割するステップと、
    b)前記単語シーケンスを使用して、単語ユニグラム・モデルおよび単語トリグラム・モデルからなる統計言語モデルを作成するステップと、
    c)パープレキシティを計算し、前記パープレキシティの計算が最初であるか、あるいは前記パープレキシティが第1の閾値以上に減少しているかどうかを判定するステップと、
    d)ステップc)の結果が肯定的な場合に、単語トリグラム・モデルによって前記コーパスを単語列へ再分割し、ステップb)を実行するステップと、
    e)ステップc)の結果が否定的である場合に、前記統計言語モデルに基づいて前記用語集を洗練化し、新たな単語を追加し、重要でない単語を取り除くステップと、
    f)前記単語ユニグラム・モデルを更新し、無効な前記単語トリグラムを削除し、前記用語集がそれ以上変化しなくなるまでステップa)を実行するステップを
    含むことを特徴とする請求項1または請求項2に記載の辞書学習方法。
  7. 前記ステップa)が、以下の式に基づいて前記タグ無しのコーパスを分割し、
    Figure 2006216044
    ここで、
    Figure 2006216044
    は、単語シーケンス
    Figure 2006216044
    を表し、
    Figure 2006216044
    は、単語シーケンスの見込みの出現確率を表し、
    Figure 2006216044
    は最適化された単語シーケンスである
    ことを特徴とする請求項6に記載の辞書学習方法。
  8. 前記ステップb)は、前記用語集に基づいた最大マッチングを利用して前記コーパスを再分割するステップを含むことを特徴とする請求項7に記載の辞書学習方法。
  9. 前記ステップa)は、前記用語集に基づいた最大マッチングを利用して前記コーパスを分割するステップを含むことを特徴とする請求項6に記載の辞書学習方法。
  10. 前記ステップd)は、前記用語集に基づいた最大マッチングを利用して前記コーパスを再分割するステップを含むことを特徴とする請求項9に記載の辞書学習方法。
  11. 前記ステップe)が、
    e1) 新たらしい単語の語候補リストを形成するためにトリグラム・エントリ及びバイグラムのエントリの全てを第1の出現計数の閾値によってフィルタリングするステップと、
    e2) 第1の候補として、相互情報量の閾値によって前記新単語候補リストからの候補を全てフィルタリングするステップと、
    e3)前記新単語候補リストの前記第1の候補の全ての相対エントロピーを計算し、相対エントロピーの降順に前記第1の候補をソートするステップと、
    e4)削除単語候補リストを形成するために、第2の出現計数の閾値によって前記用語集の単語を全てフィルタリングするステップと、
    e5)前記削除単語候補リストの各単語を、第2の候補として、前記用語集の一連の他の単語へ分割するステップと、
    e6)前記削除単語候補リストの前記第2の候補の全てについて相対エントロピーを計算し、相対エントロピーの昇順に前記第2の候補をソートするステップと、
    e7)追加すべき前記第1の候補の数と、取り除くべき前記第2の候補の数を決定し、前記用語集を更新するステップと
    を含むことを特徴とする請求項6に記載の辞書学習方法。
  12. 前記ステップe)が、以下の式に基づいて全ての候補について前記相互情報量を計算し、
    Figure 2006216044

    ここで、(w,w・・・w)は単語列を表し、f(w,w・・・w)は、単語列(w,w・・・w)の出現確率を表し、「n」は2または3である
    ことを特徴とする請求項11に記載の辞書学習方法。
  13. 辞書を学習する辞書学習処理モジュールと、
    タグ無しのコーパスを格納する記憶ユニットと、
    装置の各部を制御する制御ユニットを備え、
    前記辞書学習処理モジュールが、
    前記タブ無しのコーパスから用語集と統計的言語モデルを学習する用語集/統計的言語モデル学習ユニットと、
    辞書へ、用語集、統計的言語モデル及び補助的な単語符号化情報を統合する辞書統合ユニットを備える
    ことを特徴とする辞書学習装置。
  14. 前記記憶ユニットが、さらに品詞タグ付きのコーパスを格納し、
    前記辞書学習処理モジュールが、さらに、
    前記品詞タグ付きのコーパスから、前記用語集の各単語の品詞情報と、品詞バイグラム・モデルを取得する品詞学習ユニットと、
    前記辞書に、前記品詞情報及び前記品詞バイグラム・モデルを加える辞書統合ユニットを備えることを特徴とする請求項13に記載の辞書学習装置。
  15. 用語集/統計的言語モデル学習ユニットが、
    前記タグ無しのコーパスを単語列に分割し、
    前記単語列を使用する、単語ユニグラム・モデル及び単語トリグラム・モデルからなる前記統計的言語モデルを生成し、
    パープレキシティの計算が最初でなく、パープレキシティが第1の閾値以下の減少となるまで、単語トリグラム・モデルによる前記コーパスの単語列への再分割と、前記単語列を使用する前記統計的言語モデルの生成を繰り返し、
    統計的言語モデルに基づいて前記用語集を洗練し、新たな単語を追加し、重要でない単語を取り除き、
    前記単語ユニグラム・モデルを更新し、無効な前記単語トリグラムを削除し、前記用語集がそれ以上変化しなくなるまで前記タグ無しのコーパスを単語列に分割する処理を繰り返すことにより、
    前記タブ無しのコーパスから用語集と統計的言語モデルを学習することを特徴とする請求項13又は請求項14に記載の辞書学習装置。
  16. 前記用語集/統計的言語モデル学習ユニットは、
    新たらしい単語の語候補リストを形成するためにトリグラム・エントリ及びバイグラムのエントリの全てを第1の出現数閾値によってフィルタリングし、
    第1の候補として、相互情報量閾値によって前記新単語候補リストからの候補を全てフィルタリングし、
    前記新単語候補リストの前記第1の候補の全ての相対エントロピーを計算し、相対エントロピーの降順に前記第1の候補をソートし、
    削除単語候補リストを形成するために、第2の出現数閾値によって前記用語集の単語を全てフィルタリングし、
    前記削除単語候補リストの各単語を、第2の候補として、前記用語集の一連の他の単語へ分割し、
    前記削除単語候補リストの前記第2の候補の全てについて相対エントロピーを計算し、相対エントロピーの昇順に前記第2の候補をソートし、
    追加すべき前記第1の候補の数と、取り除くべき前記第2の候補の数を決定し、前記用語集を更新する
    ことにより、前記用語集を洗練することを特徴とする請求項15に記載の辞書学習装置。
  17. 前記補助的な単語符号化情報が、中国語符号化情報であることを特徴とする請求項13に記載の辞書学習装置。
  18. 前記補助的な単語符号化情報が、中国語以外の言語の符号化情報であることを特徴とする請求項13に記載の辞書学習装置。
  19. 前記中国語符号化情報が、ピンイン符号化情報と字画符号化情報の少なくとも1つからなることを特徴とする請求項17に記載の辞書学習装置。
  20. ユーザ入力を処理するための入力方法において、
    ユーザ入力を受け付ける受け付けステップと、
    ユーザ入力を、辞書に基づいて予め取得されている辞書中の各単語の前記符号化情報またはユーザ・アクションへ翻訳する翻訳ステップと、
    前記符号化情報または前記ユーザ・アクションを受け取った場合に、辞書中の統計的言語モデルと品詞バイグラム・モデルで基づき、辞書インデックスのパトリシア・ツリー・インデックスを使用して、文と単語の予測を与え、前記ユーザ・アクションに従って文と単語予測を調節するユーザ入力予測/調整ステップと、
    文および単語予測の結果を表示装置に表示するステップと
    を有することを特徴とする入力方法。
  21. 前記受け付けステップにおいて、中国語の入力を受け付けることを特徴とする請求項20に記載の入力方法。
  22. 前記受け付けステップにおいて、中国語以外の言語の入力を受け付けることを特徴とする請求項20に記載の入力方法。
  23. 前記中国語入力が、ピンイン入力、字画入力、ペン軌跡入力の何れかを含むことを特徴とする請求項21に記載の入力方法。
  24. 前記ユーザ入力予測/調整ステップが、
    a)翻訳された前記符号化情報又はユーザ・アクションを受け取り、
    b)ユーザーアクションである場合に、予想された結果を修正し、かつステップh)を実行し、
    c)前記符号化情報に基づいて、現在の全てのパトリシア・ツリー・ノードからパトリシア・ツリー・インデックスの新しいパトリシア・ツリー・ノードの全てを検索し、
    d)新しいパトリシア・ツリー・ノードが存在しない場合、前記符号化情報を無視し、全ての検索結果とステータスを復旧し、かつステップをa)を実行し、
    e)新しいパトリシア・ツリー・ノードが存在する場合、現在のパトリシア・ツリー・ノードとして当該新しいパトリシア・ツリー・ノードをセットし、
    f)現在のパトリシア・ツリー・ノードから可能性のある全ての単語を検索して文予測を与え、
    g)文予測の結果からの現在の単語を決定し、単語候補リストおよび予測可能な単語候補リストからなる単語予測を与え、
    h)予測結果を表示装置に出力し、ステップa)の実行に戻る
    ステップを有することを特徴とする請求項20に記載の入力方法。
  25. 前記ステップf)は、以下の式に基づいて最も確率の高い単語列を予想された文として決定することにより文予測を与え、
    Figure 2006216044
    Figure 2006216044
    ここで、
    Figure 2006216044
    は有している全ての品詞の集合であり、
    Figure 2006216044
    は単語の品詞うちの1つであり、
    Figure 2006216044

    Figure 2006216044
    は、それぞれ品詞ユニグラムと品詞バイグラムであり、
    P(w)は、単語ユニグラムであり、
    Figure 2006216044
    は、単語による品詞の出現確率である
    ことを特徴とする請求項24に記載の入力方法。
  26. ユーザ入力を処理するユーザ端末装置において、
    ユーザ入力を受け付けるユーザ入力部と、
    パトリシア・ツリー・インデックスを有する辞書および辞書インデックスを格納する記憶ユニットと、
    ユーザ入力に基づいて文および単語予測を与える入力処理ユニットと、
    文および単語予測の結果を表示する表示装置を備え、
    前記入力処理ユニットは、
    ユーザ入力を、辞書に基づいて予め取得されている辞書中の各単語の前記符号化情報またはユーザ・アクションに翻訳する入力符号化インタプリターと、
    辞書中の統計前記符号化情報または前記ユーザ・アクションを受け取った場合に、辞書中の統計的言語モデルと品詞バイグラム・モデルで基づき、辞書インデックスのパトリシア・ツリー・インデックスを使用して、文と単語の予測を与え、前記ユーザ・アクションに従って文と単語予測を調節するユーザ入力予測/調整モジュールとを備えることを特徴とするユーザ端末装置。
  27. 前記入力処理ユニットは、
    前記辞書の各単語エントリに符号化情報を付与し、前記符号化情報および単語ユニグラムによって全ての単語エントリをソートし、パトリシア・ツリー・インデックスを構築し、かつパトリシア・ツリー・インデックスを辞書インデックスに加える辞書インデックス・モジュールをさらに備えることを特徴とする請求項26に記載のユーザ端末装置。
  28. 前記ユーザ入力予測/調整モジュールは、
    翻訳された前記符号化情報又はユーザ・アクションを受け取り、
    ユーザー・アクションである場合に、予想された結果を修正し、かつその結果を表示装置に出力し、
    前記符号化情報を受け取った場合、現在の全てのパトリシア・ツリー・ノードからパトリシア・ツリー・インデックスの新しいパトリシア・ツリー・ノードの全てを検索し、
    新しいパトリシア・ツリー・ノードが存在しない場合、前記符号化情報を無視し、全ての検索結果とステータスを元に戻し、かつ翻訳された前記符号化情報又はユーザ・アクションの受信を繰り返し、
    新しいパトリシア・ツリー・ノードが存在する場合、現在のパトリシア・ツリー・ノードとして当該新しいパトリシア・ツリー・ノードをセットし、
    現在のパトリシア・ツリー・ノードから可能性のある全ての単語を検索して文予測を与え、
    文予測の結果からの現在の単語を決定し、単語候補リストおよび予測可能な単語候補リストからなる単語予測を与え、
    予測結果を表示装置に出力する
    ことにより、文と単語の予測を与え予測を調節することを特徴とする請求項26又は請求項27に記載のユーザ端末装置。
  29. 前記ユーザ入力部が、中国語の入力に使用されることを特徴とする請求項26に記載のユーザ端末装置。
  30. 前記ユーザ入力部が、中国語以外の入力に使用されることを特徴とする請求項26に記載のユーザ端末装置。
  31. 前記ユーザ入力部が、ディジタルボタンが幾つかのピンインコードを表すディジタル・キーボードであることを特徴とする請求項29に記載のユーザ端末装置。
  32. 前記ユーザ入力部が、ディジタルボタンが幾つかの字画コードを表すディジタル・キーボードであることを特徴とする請求項29に記載のユーザ端末装置。
  33. 前記ユーザ入力部が、タッチパネルであることを特徴とする請求項29に記載のユーザ端末装置。
JP2006023912A 2005-01-31 2006-01-31 辞書学習方法、その利用する装置、及び入力方法とその方法を利用するユーザ端末装置 Pending JP2006216044A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100067089A CN100530171C (zh) 2005-01-31 2005-01-31 字典学习方法和字典学习装置

Publications (1)

Publication Number Publication Date
JP2006216044A true JP2006216044A (ja) 2006-08-17

Family

ID=36384403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006023912A Pending JP2006216044A (ja) 2005-01-31 2006-01-31 辞書学習方法、その利用する装置、及び入力方法とその方法を利用するユーザ端末装置

Country Status (6)

Country Link
US (1) US20060206313A1 (ja)
EP (1) EP1686493A3 (ja)
JP (1) JP2006216044A (ja)
KR (1) KR100766169B1 (ja)
CN (1) CN100530171C (ja)
TW (1) TW200729001A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010531492A (ja) * 2007-06-25 2010-09-24 グーグル・インコーポレーテッド ワード確率決定
JP2013545160A (ja) * 2010-09-26 2013-12-19 アリババ・グループ・ホールディング・リミテッド 指定特性値を使用するターゲット単語の認識
JP2019008772A (ja) * 2017-06-28 2019-01-17 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 文字を入力する方法及び装置

Families Citing this family (97)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
MX2008010209A (es) * 2006-02-10 2008-10-17 Zi Corp Canada Inc Metodo y sistema para identificar un caracter ideografico.
US7646894B2 (en) * 2006-02-14 2010-01-12 Microsoft Corporation Bayesian competitive model integrated with a generative classifier for unspecific person verification
JP4156639B2 (ja) * 2006-08-14 2008-09-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声インターフェースの設計を支援するための装置、方法、プログラム
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7698326B2 (en) * 2006-11-27 2010-04-13 Sony Ericsson Mobile Communications Ab Word prediction
US9465791B2 (en) * 2007-02-09 2016-10-11 International Business Machines Corporation Method and apparatus for automatic detection of spelling errors in one or more documents
US20080249762A1 (en) * 2007-04-05 2008-10-09 Microsoft Corporation Categorization of documents using part-of-speech smoothing
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
DE602008005428D1 (de) * 2008-06-11 2011-04-21 Exb Asset Man Gmbh Vorrichtung und Verfahren mit verbessertem Texteingabemechanismus
US9411800B2 (en) * 2008-06-27 2016-08-09 Microsoft Technology Licensing, Llc Adaptive generation of out-of-dictionary personalized long words
US8484014B2 (en) * 2008-11-03 2013-07-09 Microsoft Corporation Retrieval using a generalized sentence collocation
CN101833547B (zh) * 2009-03-09 2015-08-05 三星电子(中国)研发中心 基于个人语料库进行短语级预测输入的方法
WO2010105428A1 (en) * 2009-03-19 2010-09-23 Google Inc. Input method editor
US8423353B2 (en) * 2009-03-25 2013-04-16 Microsoft Corporation Sharable distributed dictionary for applications
US9189472B2 (en) 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
GB0917753D0 (en) 2009-10-09 2009-11-25 Touchtype Ltd System and method for inputting text into electronic devices
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
EP2488963A1 (en) * 2009-10-15 2012-08-22 Rogers Communications Inc. System and method for phrase identification
KR101186166B1 (ko) 2009-12-17 2012-10-02 정철 휴대용 학습 단말기
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8838449B2 (en) * 2010-12-23 2014-09-16 Microsoft Corporation Word-dependent language model
JP5605288B2 (ja) * 2011-03-31 2014-10-15 富士通株式会社 出現マップ生成方法、ファイル抽出方法、出現マップ生成プログラム、ファイル抽出プログラム、出現マップ生成装置、およびファイル抽出装置
US8914275B2 (en) * 2011-04-06 2014-12-16 Microsoft Corporation Text prediction
US20120290291A1 (en) * 2011-05-13 2012-11-15 Gabriel Lee Gilbert Shelley Input processing for character matching and predicted word matching
CN102253929A (zh) * 2011-06-03 2011-11-23 北京搜狗科技发展有限公司 一种提示用户输入字符的方法和装置
CN103106214B (zh) * 2011-11-14 2016-02-24 索尼爱立信移动通讯有限公司 一种候选词组输出方法和电子设备
CN103608805B (zh) * 2012-02-28 2016-09-07 乐天株式会社 辞典产生装置及方法
US8818791B2 (en) 2012-04-30 2014-08-26 Google Inc. Techniques for assisting a user in the textual input of names of entities to a user device in multiple different languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9380009B2 (en) * 2012-07-12 2016-06-28 Yahoo! Inc. Response completion in social media
WO2014032266A1 (en) * 2012-08-31 2014-03-06 Microsoft Corporation Personal language model for input method editor
US20140078065A1 (en) * 2012-09-15 2014-03-20 Ahmet Akkok Predictive Keyboard With Suppressed Keys
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN103096154A (zh) * 2012-12-20 2013-05-08 四川长虹电器股份有限公司 基于传统遥控器的拼音输入方法
CN103077213A (zh) * 2012-12-28 2013-05-01 中山大学 一种应用于机顶盒的输入方法及其装置
US9047268B2 (en) * 2013-01-31 2015-06-02 Google Inc. Character and word level language models for out-of-vocabulary text input
US9454240B2 (en) 2013-02-05 2016-09-27 Google Inc. Gesture keyboard input of non-dictionary character strings
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
CN106030568B (zh) * 2014-04-29 2018-11-06 乐天株式会社 自然语言处理系统、自然语言处理方法、以及自然语言处理程序
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) * 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN104199541A (zh) * 2014-08-08 2014-12-10 乐视网信息技术(北京)股份有限公司 基于笔画输入进行搜索的方法及装置
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10776710B2 (en) 2015-03-24 2020-09-15 International Business Machines Corporation Multimodal data fusion by hierarchical multi-view dictionary learning
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
KR101960434B1 (ko) * 2016-12-27 2019-03-20 주식회사 와이즈넛 음성 파일에 태깅을 실행하는 기계학습용 태깅 방법
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10241716B2 (en) 2017-06-30 2019-03-26 Microsoft Technology Licensing, Llc Global occupancy aggregator for global garbage collection scheduling
US20200019641A1 (en) * 2018-07-10 2020-01-16 International Business Machines Corporation Responding to multi-intent user input to a dialog system
CN110908523B (zh) * 2018-09-14 2024-08-20 北京搜狗科技发展有限公司 一种输入方法及装置
CN113589946B (zh) * 2020-04-30 2024-07-26 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
KR20230007775A (ko) 2021-07-06 2023-01-13 국민대학교산학협력단 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법 및 장치
KR20230014034A (ko) 2021-07-20 2023-01-27 국민대학교산학협력단 분류 정확도 향상을 위한 선택적 마스킹 기반 추가 사전 학습 방법 및 장치
CN113609844B (zh) * 2021-07-30 2024-03-08 国网山西省电力公司晋城供电公司 一种基于混合模型和聚类算法的电力专业词库构建方法
CN113918030B (zh) * 2021-09-30 2024-10-15 北京搜狗科技发展有限公司 一种手写输入方法、装置和用于手写输入的装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5268840A (en) * 1992-04-30 1993-12-07 Industrial Technology Research Institute Method and system for morphologizing text
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
JP2001505330A (ja) * 1996-08-22 2001-04-17 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ テキストストリーム中の単語の切れ目を与える方法及び装置
US5952942A (en) * 1996-11-21 1999-09-14 Motorola, Inc. Method and device for input of text messages from a keypad
US5991712A (en) * 1996-12-05 1999-11-23 Sun Microsystems, Inc. Method, apparatus, and product for automatic generation of lexical features for speech recognition systems
US6021384A (en) * 1997-10-29 2000-02-01 At&T Corp. Automatic generation of superwords
US5901641A (en) * 1998-11-02 1999-05-11 Afc Enterprises, Inc. Baffle for deep fryer heat exchanger
JP4302326B2 (ja) * 1998-11-30 2009-07-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テキストの自動区分
DE60026637T2 (de) * 1999-06-30 2006-10-05 International Business Machines Corp. Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems
US6904402B1 (en) * 1999-11-05 2005-06-07 Microsoft Corporation System and iterative method for lexicon, segmentation and language model joint optimization
US7275029B1 (en) * 1999-11-05 2007-09-25 Microsoft Corporation System and method for joint optimization of language model performance and size
US6731802B1 (en) * 2000-01-14 2004-05-04 Microsoft Corporation Lattice and method for identifying and normalizing orthographic variations in Japanese text
US6782357B1 (en) * 2000-05-04 2004-08-24 Microsoft Corporation Cluster and pruning-based language model compression
US6879722B2 (en) * 2000-12-20 2005-04-12 International Business Machines Corporation Method and apparatus for statistical text filtering
US7418386B2 (en) * 2001-04-03 2008-08-26 Intel Corporation Method, apparatus and system for building a compact language model for large vocabulary continuous speech recognition (LVCSR) system
US6947771B2 (en) * 2001-08-06 2005-09-20 Motorola, Inc. User interface for a portable electronic device
US7124080B2 (en) * 2001-11-13 2006-10-17 Microsoft Corporation Method and apparatus for adapting a class entity dictionary used with language models
US6847311B2 (en) * 2002-03-28 2005-01-25 Motorola Inc. Method and apparatus for character entry in a wireless communication device
US7158930B2 (en) * 2002-08-15 2007-01-02 Microsoft Corporation Method and apparatus for expanding dictionaries during parsing
KR20040070523A (ko) * 2003-02-03 2004-08-11 남 영 김 온라인 3차원오목 게임
JP3768205B2 (ja) * 2003-05-30 2006-04-19 沖電気工業株式会社 形態素解析装置、形態素解析方法及び形態素解析プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010531492A (ja) * 2007-06-25 2010-09-24 グーグル・インコーポレーテッド ワード確率決定
JP2013545160A (ja) * 2010-09-26 2013-12-19 アリババ・グループ・ホールディング・リミテッド 指定特性値を使用するターゲット単語の認識
JP2019008772A (ja) * 2017-06-28 2019-01-17 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 文字を入力する方法及び装置

Also Published As

Publication number Publication date
EP1686493A2 (en) 2006-08-02
TW200729001A (en) 2007-08-01
KR100766169B1 (ko) 2007-10-10
EP1686493A3 (en) 2008-04-16
US20060206313A1 (en) 2006-09-14
CN1815467A (zh) 2006-08-09
KR20060088027A (ko) 2006-08-03
CN100530171C (zh) 2009-08-19

Similar Documents

Publication Publication Date Title
KR100766169B1 (ko) 컴퓨터-구현 사전 학습 방법 및 상기 방법을 사용하는 장치, 입력 방법 및 상기 입력 방법을 사용하는 사용자 단말기 장치
US11416679B2 (en) System and method for inputting text into electronic devices
US20210132792A1 (en) System and method for inputting text into electronic devices
US10402493B2 (en) System and method for inputting text into electronic devices
US7395203B2 (en) System and method for disambiguating phonetic input
KR100656736B1 (ko) 표음 입력 모호성 제거 시스템 및 방법
KR100891358B1 (ko) 사용자의 다음 문자열 입력을 예측하는 글자 입력 시스템및 그 글자 입력 방법
EP1724692A2 (en) Device incorporating improved text input mechanism using the context of the input
US20070074131A1 (en) Device incorporating improved text input mechanism
KR20160105400A (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
JP2009116900A (ja) 曖昧なテキスト入力の明確な文字フィルタリング
CN1271433A (zh) 简化键盘多义性消除系统
EP2024880A1 (en) Demographic based classification for local word wheeling/web search
Tanaka-Ishii Word-based predictive text entry using adaptive language models
JP3532780B2 (ja) 音声仮名文字の入力順序を生成するための入力システム
JP3492981B2 (ja) 音声仮名文字の入力順序を生成するための入力システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090218

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090706