JP4724357B2 - コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法 - Google Patents

コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法 Download PDF

Info

Publication number
JP4724357B2
JP4724357B2 JP2003125929A JP2003125929A JP4724357B2 JP 4724357 B2 JP4724357 B2 JP 4724357B2 JP 2003125929 A JP2003125929 A JP 2003125929A JP 2003125929 A JP2003125929 A JP 2003125929A JP 4724357 B2 JP4724357 B2 JP 4724357B2
Authority
JP
Japan
Prior art keywords
information
word
section
lexicon
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003125929A
Other languages
English (en)
Other versions
JP2003345796A5 (ja
JP2003345796A (ja
Inventor
ピー.フィニガン ジェームズ
イー.ハッテンハウアー カーティス
ダブリュ.ポッター ダグラス
アール.パウエル ケビン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2003345796A publication Critical patent/JP2003345796A/ja
Publication of JP2003345796A5 publication Critical patent/JP2003345796A5/ja
Application granted granted Critical
Publication of JP4724357B2 publication Critical patent/JP4724357B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法に関する。より詳細には、言語またはテキストの処理に関連し、レキシコン(lexicon)を格納するための改良されたデータ構造、及びそのデータ構造を使用する方法に係る、レキシコンを有するコンピュータ可読媒体、単語情報を得るコンピュータ実行方法、単語情報を格納する方法及びそれらの方法を実施する命令を有するコンピュータ可読媒体に関する。
【0002】
【従来の技術】
言語処理またはテキスト処理には多くのタイプのシステムが含まれる。例えば、パーサ、スペルチェッカ、文法チェッカ、ワードブレーカ、自然言語のプロセッサまたは理解システム、機械翻訳システムは、この広い範疇に該当するシステムのタイプのいくつかに過ぎない。
【0003】
多くの言語またはテキスト処理システムに共通する重要なコンポーネントがレキシコンである。一般に、レキシコンは単語についての情報を含むデータ構造である。例えば、レキシコンは構文的情報及び意味的情報の指示を格納することができる。この例には、その単語が名詞であるか、動詞、形容詞であるかなどが挙げられる。また、異なるタイプの言語情報もレキシコンに格納することができる。しばしば、構文解析の助けとなる単語についての情報を格納するなど、特定タイプの言語処理に有用な他の情報を格納しておくことも有用である。さらに他のレキシコンでは、その単語が固有名詞か、地理的な場所かなどについての指示が有用であることもある。
【0004】
動作の際は、単語の入力文字列を受け取ると、言語またはテキスト処理システムはレキシコンにアクセスして、各単語についての格納された情報を得る。入力文字列中の各単語についての情報を集めると、言語またはテキスト処理システムはその入力文字列を処理するが、これには存在する可能性のあるあいまい性をその単語の情報に基づいて解消することが含まれる場合がある。例えば、自然言語処理システムでは、レキシコンは入力文字列中の各単語に品詞を割り当てる。次いで構文パーサがどの品詞の割り当てが適切であるかを判断し、入力文字列から構造を構築し、それを解釈のために意味コンポーネントに渡すことができる。
【0005】
いくつかの文献に上述のような従来の技術に関連した技術内容が開示されている(例えば、非特許文献1参照)。
【0006】
【非特許文献1】
P.T.Sato著「A COMMON PARSING SCHEME FOR LEFG-AND RIGHT-BRANCHING LANGUAGES」Computational Linguistics、Vol1.14、No.1、1988年冬、p.20−30
【0007】
【発明が解決しようとする課題】
一般に、レキシコンの各項目は単一の大きなバイナリオブジェクトからなる。このフォーマットでは、情報へのアクセスは可能であるが、項目全体を読み込まずに、一般に使用される語彙情報への局所的なアクセスを容易には行うことができない。ある単語項目に関連するすべての情報をレキシコンから読み込まなければならない場合、特にその単語項目の情報のうちわずかな部分だけを必要とする場合には、より多くのメモリと処理時間が必要とされる。
【0008】
語彙情報の変更または追加も難しい。具体的には、レキシコンを修正する、あるいはさらに情報を追加するために、レキシコンの作成者は、非常に複雑なデータ構造の整合性と編成を保ちながら、各項目中のすべてのビット、属性またはその他の情報を複製してから、所望の情報を変更するか、あるいは情報を追加しなければならない。
【0009】
このため、上述の不都合点の1つ、一部、あるいはすべてに対処する改良したレキシコンデータ構造が必要とされる。
【0010】
本発明は、このような課題に鑑みてなされたもので、その目的とするところは、レキシコンを格納するための高い柔軟性と効率を有する改良されたデータ構造を提供しそのデータ構造を使用可能とする、コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法を提供することにある。
【0011】
【課題を解決するための手段】
本発明の一態様は、言語処理システムで使用するために適合された単語情報を有する、コンピュータ可読媒体に格納された単語レキシコンである。このレキシコンは、複数の単語を記憶する単語リストセクションと、それら複数の単語の単語情報を記憶する複数のデータセクションとを含む。複数のデータセクションは互いと単語リストセクションとから分離されている。単語情報にアクセスするために索引セクションが提供され、このセクションには複数のデータセクション中のデータをポイントするポインタが格納される。使用するポインタの識別は、単語リストセクション中の対応する単語に応じて決まる。
【0012】
この改良されたレキシコン構造は、これまで得ることのできなかった柔軟性と効率を提供する。索引セクションと複数のデータセクションは、利用可能なコンピュータリソースなど言語処理システムの必要性に合わせて、レキシコンを適合することを可能にする。さらなる実施形態では、このレキシコン構造は、分類に基づいて単語情報を分類またはグループ化することを可能にする。例えば、この分類は、その単語項目が名詞か、動詞か、形容詞かなど、単語項目の品詞に基づくことができる。これにより、分類に応じて単語情報に選択的にアクセスすることができる。例示的実施形態では、対応する単語情報の分類を示す表示がポインタ中に提供される。
【0013】
本発明の他の態様は、複数のデータセクションに単語情報を格納し、索引セクションにポインタ情報を格納し、単語リストセクションに単語リストを格納する、コンピュータによって実施される方法を含み、単語リストは、選択された単語に関連付けられた対応するポインタを識別する情報を有する。同様に、別の態様は、上述で提供されるレキシコンのデータ構造を使用して単語情報にアクセスすることである。
【0014】
上述のレキシコン構造は、いくつかのレキシコンから情報を得ることが望ましい場合に特に有用であり、これは本発明のさらに別の態様である。一般に、各レキシコンのデータセクションに選択的にアクセスすることにより、特定の単語項目についての複数のレキシコンのデータを必要に応じて組み合わせる、無視する、または選択することができる。
【0015】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を詳細に説明する。
【0016】
図1に、通例はテキスト文字列の形で言語入力12を受け取り、言語入力12を処理して、通例は同じくテキスト文字列の形で言語出力14を提供する言語またはテキスト処理システム10を概略的に表す。数例を挙げると、言語処理システム10は、例えばスペルチェッカ、文法チェッカ、あるいは自然言語プロセッサとして実施することができる。当業者には理解されるように、言語処理システム10は、スタンドアロンアプリケーション、または別のシステムからのアクセスが可能な、あるいは別のシステムに含まれるモジュールやコンポーネントとすることができる。
【0017】
一般に、言語処理システムはテキストアナライザ20及びレキシコン22を含む。テキストアナライザ20は、入力12を受け取り、レキシコン22にアクセスしてレキシコン22から情報を得、単語情報を処理して出力14を提供するコンポーネントまたはモジュールを図式的に表している。本発明の一態様は、その利用例によって必要とされる可能性のある必要な情報を効率的にテキストアナライザ20に提供するためのレキシコン22の改良されたデータ構造である。レキシコン22は、多くの言語処理システムと多くの形態のテキストアナライザに使用できる独立したコンポーネントであることを考慮して、テキストアナライザ20とレキシコン22の一般的な相互作用について説明するが、本発明の理解に必要でないため、各種形態のテキストアナライザに関する具体的な詳細については述べない。
【0018】
本発明のさらなる詳細な説明に入る前に、動作環境の概要を見ておくと有用であろう。図2は、本発明の実施が可能な適切なコンピューティングシステム環境50の一例である。コンピューティングシステム環境50は適切なコンピューティング環境の一例に過ぎず、本発明の使用または機能性の範囲について何らの制限を示唆するものではない。またコンピューティングシステム環境50は、その例示的動作環境に示す構成要素の任意の1つまたは組み合わせに関連する依存関係または必要性を有するものとも解釈すべきでない。
【0019】
本発明は、数多くの他の汎用または特殊目的のコンピューティングシステム環境または構成で動作することができる。本発明に使用するのに適している可能性があるよく知られるコンピューティングシステム、環境、及び/または構成の例には、これらに限定しないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家庭用電化製品、ネットワークPC(personal computer)、ミニコンピュータ、メインフレームコンピュータ、上述のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などがある。
【0020】
本発明は、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的な状況で説明することができる。一般に、プログラムモジュールには、特定タスクを行うか、あるいは特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、通信ネットワークを通じてリンクされたリモートの処理装置によってタスクを行う分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、メモリ記憶装置を含むローカル及びリモート両方のコンピュータ記憶媒体にプログラムモジュールを置くことができる。これらのプログラム及びモジュールによって行われるタスクについて、以下で図面を用いて説明する。当業者は、以下の説明及び図を、任意形態のコンピュータ可読媒体に書き込むことのできるプロセッサ実行可能命令として実行することができる。
【0021】
図2を参照すると、本発明を実施する例示的システムは、コンピュータ60の形態の汎用コンピューティングデバイスを含む。コンピュータ60の構成要素には、これらに限定しないが、プロセッサ70、システムメモリ80、及びシステムメモリを含む各種のシステムコンポーネントをプロセッサ70に結合するシステムバス71が含まれる。システムバス71は、各種のバスアーキテクチャの任意のものを使用したメモリバスまたはメモリコントローラ、ペリフェラルバス、及びローカルバスを含む数タイプのバス構造のいずれでもよい。例として、このようなアーキテクチャには、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)バス、及びメザニンバスとも称されるPCI(Peripheral Component Interconnects)バスが含まれるが、これらに限定しない。
【0022】
コンピュータ60は通例各種のコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ60がアクセスできる任意の利用可能媒体でよく、揮発性及び不揮発性の媒体、リムーバル及びノンリムーバル媒体が含まれる。これに限定しないが、例としてコンピュータ可読媒体は、コンピュータ記憶媒体及び通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータなどの情報を記憶するための任意の方法または技術で実現された不揮発性及び不揮発性の媒体、リムーバル及びノンリムーバルの媒体を含む。コンピュータ記憶媒体には、これらに限定しないが、RAM(random access memory)、ROM(read only memory)、EEPROM(electrically erasable PROM)、フラッシュメモリまたは他のメモリ技術、CD(compact disc [disk])−ROM、デジタル多用途ディスク(DVD)または他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気記憶装置、あるいは、所望の情報の記憶に用いることができ、コンピュータ60によるアクセスが可能な任意の他の媒体が含まれる。
【0023】
通信媒体は、通例、搬送波または他の搬送機構などの、変調データ信号にコンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを統合し、任意の情報伝達媒体を含む。用語「変調データ信号」とは、信号中に情報を符号化するような方式でその特性の1つまたは複数を設定または変化させた信号を意味する。例として、通信媒体には、有線ネットワークまたは直接配線接続などの有線媒体と、音響、RF(radio frequencies)、赤外線、及び他の無線媒体などの無線媒体が含まれるが、これらに限定しない。上記の媒体のいずれの組み合わせもコンピュータ可読媒体の範囲に含めるべきである。
【0024】
システムメモリ80には、ROM81及びRAM82など、揮発性及び/または不揮発性メモリの形態のコンピュータ記憶媒体が含まれる。起動時などにコンピュータ60内の要素間の情報転送を助ける基本ルーチンを含むBIOS(Basic Input/Output System)83は、通例ROM81に記憶される。RAM82は通例、プロセッサ70から即座にアクセス可能な、かつ/または現在プロセッサ70によって操作中のデータ及び/またはプログラムモジュールを含む。これらに限定しないが、例として、図2にはオペレーティングシステム84、アプリケーションプログラム85、他のプログラムモジュール86、及びプログラムデータ87を示している。
【0025】
コンピュータ60は、他のリムーバル/ノンリムーバル、揮発性/不揮発性のコンピュータ記憶媒体も含むことができる。単なる例として、図2には、ノンリムーバル、不揮発性の磁気媒体の読み取りまたは書き込みを行うハードディスクドライブ91、リムーバル、不揮発性の磁気ディスク102の読み取りまたは書き込みを行う磁気ディスクドライブ101、及びCD−ROMや他の光媒体などのリムーバル、不揮発性の光ディスク106の読み取りまたは書き込みを行う光ディスクドライブ105を示す。例示的動作環境で使用できるこの他のリムーバル/ノンリムーバル、揮発性/不揮発性のコンピュータ記憶媒体には、これらに限定しないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどが含まれる。ハードディスクドライブ91は通例、インタフェース90などのノンリムーバルのメモリインタフェースを通じてシステムバス71に接続され、磁気ディスクドライブ101及び光ディスクドライブ105は通例、インタフェース100などリムーバルなメモリインタフェースによってシステムバス71に接続される。
【0026】
上記で説明し、図2に示したドライブとそれに関連付けられたコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、及びコンピュータ60のその他のデータの記憶を提供する。例えば図2では、ハードディスクドライブ91にオペレーティングシステム94、アプリケーションプログラム95、他のプログラムモジュール96、及びプログラムデータ97を記憶している。これらのコンポーネントは、オペレーティングシステム84、アプリケーションプログラム85、他のプログラムモジュール86、及びプログラムデータ87と同じものでも、異なるものでもよいことに留意されたい。ここではオペレーティングシステム84、アプリケーションプログラム85、他のプログラムモジュール86、及びプログラムデータ87には、それらが少なくとも異なるコピーであることを表すために異なる参照符号をつけている。
【0027】
ユーザは、キーボード112、マイクロフォン113、手書きタブレット114、及びマウス、トラックボール、タッチパッドなどのポインティングデバイス111などの入力装置を通じてコンピュータ60にコマンドと情報を入力することができる。他の入力装置(図示せず)には、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、スキャナなどがある。これら及び他の入力装置は、システムバスに結合されたユーザ入力インタフェース110を通じてプロセッサ70に接続することが多いが、パラレルポート、ゲームポート、あるいはユニバーサルシリアルバス(USB)など他のインタフェース及びバス構造によって接続することも可能である。モニタ141または他タイプの表示装置も、ビデオインタフェース140などのインタフェースを介してシステムバス71に結合される。コンピュータは、モニタに加えて、スピーカ147やプリンタ146など他の周辺出力装置も含むことができ、それらは出力周辺インタフェース145を通じて接続することができる。
【0028】
コンピュータ60は、リモートコンピュータ130など1つまたは複数のリモートコンピュータへの論理接続を使用するネットワーク環境で動作することができる。リモートコンピュータ130はパーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、あるいはその他の一般的なネットワークノードでよく、通例はコンピュータ60との関連で上記で挙げた要素の多くまたはすべてを含む。図2に示す論理接続には、構内ネットワーク(LAN)121と広域ネットワーク(WAN)123が含まれるが、他のネットワークを含むことも可能である。このようなネットワーキング環境は、オフィス、企業内のコンピュータネットワーク、イントラネット、及びインターネットに一般的に見られる。
【0029】
LANネットワーキング環境で使用する場合、コンピュータ60はネットワークインタフェースまたはアダプタ120を通じてLAN121に接続される。WANネットワーキング環境で使用する場合、コンピュータ60は通例、インターネットなどのWAN123を通じて通信を確立するためのモデム122またはその他の手段を含む。モデム122は内蔵型でも外付け型でもよく、ユーザ入力インタフェース110または他の適切な機構を介してシステムバス71に接続することができる。ネットワーク環境では、コンピュータ60との関連で図示したプログラムモジュール、またはその一部はリモートのメモリ記憶装置に格納することができる。これに限定しないが、例として図2ではリモートアプリケーションプログラム135がリモートコンピュータ130に常駐している。図のネットワーク接続は例示的なものであり、コンピュータ間に通信リンクを確立する他の手段を使用できることは理解されよう。
【0030】
テキストアナライザ20は、コンピュータ60、またはリモートコンピュータ130などコンピュータ60と通信する任意のコンピュータに常駐できることを理解されたい。同様に、レキシコン22は、コンピュータ60の上述の記憶装置の任意のものに常駐するか、または適切な通信リンクを通じてアクセス可能にすることができる。
【0031】
図3は、レキシコン22の図式表現である。図の例示的実施形態では、レキシコン22は、ヘッダセクション160、単語リストセクション162、索引テーブルセクション164、索引セクション166、2つ以上のレキシコンデータセクション168(ここでは例として16個のセクション、168a、168b、168c、168d、168e、168f、168g、168h、168i、168j、168k、168l、168m、168n、168o、168p)、及び文字列ヒープセクション170を含む。
【0032】
ヘッダセクション160は一般に、レキシコン22の構造についての情報を格納する。ヘッダセクション160は、例えば、レキシコンの名前やバージョンについての情報を含むことができる。ヘッダセクション160はまた、メモリオフセット及び各セクション162、164、166、168a〜168p、及び170のサイズについての情報も含むことができる。セクション162は、レキシコン22の単語リストを含む。セクション162に単語リストを実施するには、任意の適切なフォーマットを用いることができる。特に有用なフォーマットの1つは、よく知られるデータ構造技術である「トライ(trie)」構造で単語リストを格納するものである。このフォーマットの利点としては、特定の接頭辞で始まる可能性のある単語がいくつあるかを容易に判定できることが挙げられ、これは例えば手書き認識や、ユーザが特定の文字を書いた可能性を確かめる必要がある際に有用である。このフォーマットではまた、トラバース(traversal)のパスを前方向と後ろ方向の両方で知ることができる。上記のように、セクション162には他の形態の単語リスティングを使用することができる。例えば単純なテーブルやリストを使用することができる。さらに別の実施形態では「差分」技術を使用して単語リストを格納することができ、この場合は連続した単語の記号または文字の違いを格納する。
【0033】
セクション164を説明する前に、セクション166と、複数のセクション168とのその関係を初めに説明しておくと有用であろう。「従来の技術」の項で述べたように、現在のレキシコンでは、必要とするのが情報の一部だけであっても、特定の単語項目に関連付けられたすべての情報を読み出すことが必要とされる。セクション168a〜168pは、レキシコン中の各単語項目のデータを所望の方式で編成することを可能にし、関連するレキシコン情報を概ねともにグループ化することができる。例えば、セクション168a〜168pの1つを使用してスペルチェックに関連する情報を格納し、別のセクションに標準的な言語分類に関連する情報を格納することができる。索引セクション166は一般に、単語リストセクション162の単語項目に応じて、セクション168a〜168pに格納されたデータへのポインタ(例えばセットとしてグループ化した)を提供する。すなわち、単語リストセクション162(例えばトライ構造)は、索引セクション166へのアクセスポイント(オフセット)を直接または間接的に決定する。一般に、単語情報を得るこの方法は、所与の単語に応じて単語リストセクションにアクセスして、索引セクションのポインタ識別を確定することを含む。このポインタ識別を使用して、索引セクションで単語のポインタを得る。次いでこのポインタを使用して複数のデータセクションのうちどのデータセクションに所与の単語についての情報があるか、そしてその情報がそのデータセクションのどこに位置するかを確定する。したがって、セクション162にある特定の単語項目に対して、索引セクション166を通じて、セクション168a〜168pに格納されたその単語の対応するレキシコンデータに選択的にアクセスすることができ、それにより所与の単語のすべての単語情報を処理するか、または少なくとも読み出す必要がない。
【0034】
特に有用な一実施形態では、セクション162にある各単語項目についてのセクション168a〜168pの索引セクション166中のポインタまたはポインタのセットを、その単語項目が名詞か、動詞か、形容詞かなど、その品詞(「POS(part of speech)」)によって分類する。したがって、ある単語項目のPOSについてのデータは、セクション168a〜168pのPOS情報への一連のポインタとなる。したがって、2つのPOSを持つ単語項目には、セクション166に2つの別個のポインタセットがある。セットの1つは、第1のPOS(例えばその項目の名詞形)についての情報の位置を示し、第2のポインタセットは、もう一方のPOS(例えばその項目の動詞形)についての情報の位置を示す。このように索引セクション166は、単語項目のPOSに基づいた、あるレベルのレキシコンデータ分類を提供する。ここで、レキシコン22が対象とする言語に応じて、POS以外の他の分類形態を使用できることを理解されたい。例えば日本語や中国語には、品詞の代わりに屈折または声調による分類を使用することができる。ここでは索引セクション166がPOS分類を提供するものと例示しているが、この機能は制限的あるいは必須とみなすべきでない。
【0035】
また、中国語や日本語のような言語で使用する際には、ここで用いる意味の単語「単語(word)」の使用には、記号、表意文字、語標(logogram)なども含まれることにも留意されたい。したがって、本発明の態様を使用してこれらの言語のレキシコンも構築することができ、そのレキシコンは特に断らない限りは特許請求の範囲に包含されるものとする。
【0036】
例示的実施形態では、各ポインタは、そのポインタがセクション168a〜168pのうちどれをポイントするのかに関する情報、POSの種類に関連付けられた情報、識別されたセクション168a〜168p中で関連するデータを見つけられるオフセット値を含む。セクション162の所与の単語項目に関連付けられたポインタは固定することができるが、例示的実施形態では、各単語項目のポインタ数は単語項目ごとに異なってよい。このようにして、本質的な制限が常に伴うことなく、索引セクション166をより小型かつ柔軟にすることができる。
【0037】
ある単語項目のセクション166の例示的ポインタの概略表現を次に示す。
:X:X:X
ここでXは単語項目のポインタセットの最後を示すフラグであり、Xはセクション168の1つを識別する情報であり、XはPOSまたは他の分類を識別する情報であり、Xは、Xによって識別されるレキシコンデータのオフセットを示す値である。このフォーマットを使用して、所与の単語についてのすべての情報のポインタを連続して格納することができ、単語リストセクションに応じて直接あるいは間接的に第1のポインタが識別され、最後のポインタのフラグXをセットして所与の単語のポインタリストの最後を示す。一実施形態では、索引セクション166は大きなDWORD配列(迅速なアクセスのために4バイトの量、4バイトワード配置)である。この実施形態では、1バイトの内訳は、ポインタセットの最後を示すXの1ビットフラグ、セクション168a〜168pを示す4ビットのX、及びPOSの種類を示す3ビットのXである。そしてXに3バイトを使用して、データがセクション168a〜168pのどこに格納されているかを示す24ビットのオフセット値を提供する。このフォーマットは一例に過ぎず、他のフォーマットも使用できることを理解されたい。同様に、この例は必須あるいは制限的と解釈すべきでない。一般に、索引セクション166のポインタのフォーマットは、複数のセクション168中のデータの位置、及び必要な場合は単語情報の1つまたは複数の分類を示すために選択される。
【0038】
ここで、セクション166のポインタ項目のオフセット部分に入るのに十分な小ささのデータは、別個のセクション168a〜168pではなく、直接索引セクション166に符号化できることにも留意されたい。この種のデータの例にはスペリング情報や単語項目の確率及び頻度データが含まれるが、これらはいずれも多くの場合はデータオフセット値に割り当てられたビットに容易に格納することができる。
【0039】
上記のように、索引セクション166へのエントリは、セクション162の単語項目に応じて決まる。セクション162と166間の移行には各種の技術を使用することができる。第1の実施形態では、セクション162の各単語項目は必要とされるセクション166へのオフセットを含むことができる。ただしセクション162がトライ構造を備える場合は、トライの葉ノード構造の修正が必要となる場合がある。あるいは、トライ構造中のノードのオフセットを索引セクション166へのオフセットとして使用することができる。例示的実施形態では、これは、ある単語項目についてのPOS索引のセットに40バイト(10個のPOSポインタ)を割り当てることを意味する。さらなる実施形態では、オフセット値をセクション166の単語項目の最後に付することができる。
【0040】
さらに別の実施形態では、索引テーブル164をレキシコン22の構造中に含める。索引テーブル164は単語項目とセクション166の索引とのマッピングを可能にし、これは、セクション166中のポインタの数が単語項目ごとに異なる可能性がある場合に特に有用である。ただし、関連付けられた単語項目ごとに、索引セクション166で固定サイズ数のポインタを使用することが可能である。この構造のセクション166を使用すると索引テーブルセクション164が不要になる。この代替実施形態では、セクション166の索引ポインタの固定数を超えるポインタを有する単語項目が許された場合は、オーバーフローテーブルを使用することができる。
【0041】
ここで、セクション162から索引セクション166へのオフセット、より具体的にはセクション168a〜168p中のデータをポイントするセクション166のポインタは、レキシコン22からデータを検索する際の効率と速度を提供するように編成することができることに留意されたい。例えば、頻繁に使用される単語の他の情報の隣にセクション168a〜168pのレキシコン情報を配置するようにオフセットポインタを編成することができ、あるいは、必要な場合は、セクション168a〜168p中の関連付けられた情報同士をより近くに編成して、ハードディスク、フロッピー(登録商標)などのコンピュータ記憶装置に格納された際に情報検索時間を短縮することができる。
【0042】
セクション168a〜168pのデータはその中に存在することができ、即ち、必要な場合は、同じセクション168a〜168pに含まれる参照データへの、他のセクション168a〜168pに含まれる参照データへの、セクション162のもとの単語項目へのポインタを提供でき、及び例証的実施形態ではまた文字列ヒープ170へのポインタを提供することができる。文字列ヒープ170は、そのデータをセクション168a〜168p中に複数の出現として格納する必要がある選択された文字列に単一の記憶位置を提供するために使用される。文字列ヒープ170は単一のセクションであるか、あるいはセクション168a〜168pと同様のサブセクションを含むことができる。セクション168中の情報の他の形態には、決定木中のブールフラグ、値、単語リストなどがある。
【0043】
複数のセクション168a〜168pを使用した単語項目データの編成により、それを実装するコンピュータのメモリを多量消費することなく、特定の用途の必要性を満たすようにレキシコン22を容易に適合することが可能になる。例えば、レキシコン22はRAMなどの高速アクセスメモリに読み込むことができるが、レキシコン中の特定タイプのデータが必要でない場合は、複数のセクション168a〜168pのうちそのセクションを省略することができる。索引セクション166のポインタは、存在するセクション168a〜168pだけを反映するように変更することができるが、さらなる実施形態では、セクション168a〜168pが存在すれば情報が得られ、一方セクションが存在しなければ情報が求められないので、変更は不必要である。エラーが生じないように、レキシコンに存在するセクションは例えばヘッダ160に記録することができる。
【0044】
ここに記載するレキシコン構造の際立った利点は、入力12(図1)が単語を含む場合にレキシコンのユーザまたは作成者が後の検索のためにその単語についてのどのようなタイプの情報でも入れることができる点である。さらに、ユーザによって定義された情報はレキシコンに含まれる他の情報と混在させる必要がなく、複数のセクション168a〜168pの専用のセクションに格納することができる。
【0045】
以下に挙げるのは、セクション168a〜168pに適したセクションに編成されたレキシコンデータのいくつかの例である。これらは単なる例に過ぎず、レキシコン22のデータは、利便性または理解のために任意の所望の方式で編成できることに留意されたい。ここで述べるセクションは特に有用であることが判明しているが、必須あるいは制限的なものと見なすべきではない。
【0046】
形態データセクション−このような情報は、発音ならびに様々な単語の時制についてのその単語の他の形を含むことができる。
【0047】
標準作成者データセクション−この情報には、その単語項目が単数形、複数形であるか否か、あるいはその単語が有生か無生かを示すデータを含むことができる。このセクションの単語項目に関連する情報は、一般にはその単語項目についてのよく知られた情報であり、素人でも作成することができる。このように、この情報はユーザの要件に合わせて用意に変更または修正することができる。
【0048】
標準言語データセクション−この情報には単語項目の言語学的情報が含まれる。このような情報は一般の素人にはあまり知られないが、言語学者はこの情報を容易に理解し、必要に応じて修正することができる。
【0049】
構文解析データセクション−この情報には、自然言語の構文解析に役立つ情報が含まれる。
【0050】
領域/主題データセクション−この情報は領域または主題のコードに関連する。例えば、この情報により、対応する単語が物理、数学、地理、食物などに関連するものであることを示すことができる。
【0051】
スペリングデータセクション−この情報はスペルチェック、例えば方言マーキング、制限マーキングなどに関連する。制限マーキングは、卑語、頭字語、古い語など許容されるがスペルチェックの際には提案されない単語を示す。
【0052】
複数語表現データセクション−この情報は、イディオム、固有名、本や映画の題名、オフィスの名称、地名など、複数の単語を単独に識別する必要がある際に有用である。通例、各単語項目について格納されるデータは、複数単語表現でその単語の前にくる、かつ/または後に来る単語である。
【0053】
例えば、複数のセクション168a〜168pの1つが、そのレキシコン項目の作成者のみによって見つけられる、任意の階層的な名前値の対を含むことができる。例えば、作成者が複数語表現(上記)についての固有表現(NE;Name Entity)情報を追加したい場合には、名前文字列に基づく値の対のセットをそのセクションに追加することができ、これをXML形式で表すと次のようになる。
Figure 0004724357
このように、このセクションは、任意の入れ子構造になった、文字列に基づく単純な値の名前の対を表すことができる。この形式はXMLのタグ属性をサポートせず、作成者がこのセクションの別個の下位要素としてその属性を符号化する。上の例では、映画の題名についてのデータは、必要な場合には格納することのできる利用例固有のデータの混合を含んでいる。
【0054】
このレキシコン22の構造は、レキシコンの各セクションはそのすぐ後のセクションと連続する必要がないという事実を利用することにより書き込み可能なレキシコンに対応する。すなわち、セクションは将来行われる拡張のために余分の未使用スペースを取っておくことができる。レキシコンへの更新操作は、該当する位置に新しい値を書き込むことによって行う。レキシコン22がDDL(ダイナミックリンクライブラリ)ベースのレキシコン、あるいは予備スペースを備えない事前にコンパイルされた(静的な)ファイルベースのレキシコンとして実施される場合は、単純なフリーリスト実装により、先頭一致(first−fit)アルゴリズムに基づいて空いている項目スペースを見つける。
【0055】
一般に、レキシコン22に単語情報を格納する方法は、複数のデータセクション168に単語情報を格納し、各データセクションは単語リスト中の単語について実質的に異なる選択された情報を格納することと、複数のデータセクション168と分離した索引セクション166にポインタ情報を格納し、各ポインタは複数のデータセクション168中の選択されたデータをポイントすることと、複数のデータセクション168及び索引セクション166と分離した単語リストセクション162に単語リストを格納し、単語リストは選択された単語に関連付けられた対応するポインタを識別する情報を有することとを含む。必要な場合は、識別値を索引テーブルセクション164に格納することができ、この場合には各識別値が単語リストセクション162の単語に対応し、索引セクション166のポインタと関連付けられる。同様に、ポインタに分類の表示を含めて単語情報を分類することもできる。
【0056】
このレキシコン22の構造は、いくつかのレキシコンから情報を得ることが望ましい場合に特に有用である。一般には、特定の単語項目についての複数のレキシコンの情報を必要に応じて組み合わせる、無視する、あるいは選択することができる。いくつかのレキシコンからのレキシコン情報を組み合わせる例は、核または基礎となるレキシコンに単語項目についての第1の量の情報が含まれ、第2のレキシコンに特定領域についての単語項目についての第2の量の情報が含まれ、第3のレキシコンにユーザが決定した単語項目についての第3の量の情報が含まれる実装に見られる。
【0057】
図4に、特定の単語項目についての情報を複数のレキシコンから得る方式を図式的に示している。図4で、レキシコン(データセクションだけによって表しているが、本来は図3に示すセクションの一部またはすべてを備える)は行に編成され、これを180、181、182、及び183で示す。図4では個々のデータセクション(168に対応する)を縦に表しており、この例証的実施形態では、4つのレキシコン180〜183を通じて最大6個のデータセクション190、191、192、193、194、及び195にアクセスすることができる。各レキシコン180〜183がデータセクション190〜195すべてを含むことは必須でなく、多くの実際の事例では、すべてのレキシコンのすべてのデータセクション間にそのような対応関係は存在しないことに留意されたい。
【0058】
図4では符号Xを使用してレキシコンセクションのデータを示しており、Xはデータセクション190〜195の1つを現し、Yはレキシコン180〜183を表す。例えばレキシコン180は、データセクション190180、193180、及び195180を備える。
【0059】
レキシコン180〜183のデータは同じタイプの内容を有するセクション190〜195に編成されているので、レキシコン180〜183にまたがって情報を容易に組み合わせる、あるいは選択することができる。所与の単語項目について、第1のレキシコン180の情報を調べ、次いで必要に応じて他のレキシコン181〜183の同じデータセクションに進むことにより情報を得ることができる。一実施形態では、検索するデータは、実行時に定義される所望のセクションタイプのセットによって制御する。1つの変数で、レキシコンのある項目のデータを読み出すか読み出さないかを決定する。第2の変数で、調べた他のレキシコンの対応するセクションから先に読み出された項目のデータと組み合わせる、あるいはそのデータに上書きするかどうかを決定する。概略的には、レキシコンは「スタック」されており、スタック中の最上位のレキシコンのデータセクション190〜195を読み取り、次いでスタックを順次下に進み、読み出すか読み出さないか、選択するか、無視するか、上書きするか、あるいは組み合わせるかについての規則に従うことによって情報を得ると考えることができる。図3に示すレキシコン構造は、実装者が、所与のセクションタイプのデータを他のレキシコンの同じセクション中のデータと組み合わせる、あるいは上書きする方式を選択することを可能にする。
【0060】
図4で、レキシコン180〜183から得た情報186は、セクション190180、191181、192 183 、193 180 、194183、及び195180+181+182に対応する情報を含む。この例では、セクション190、191、192、193、及び194のデータは、単にデータセクションの1つに停止インディケータが見つかるまで、レキシコン180〜183をセクションごとに順に調べることによって得る。例えば、レキシコン180及び183はともにセクション190に情報を有するが、停止インディケータがセクション190180で見つかるのでレキシコン180の情報だけが取り出される。実行時に、これによりセクション190183の情報が無視される。これに対してセクション195182を調べるまでに停止インディケータが見つからないので、セクション195180、195181、及び195182の情報は組み合わせて情報195180+181+182を形成する。必要な場合は、テキストアナライザ20、またはテキストアナライザ20の要求に基づいてレキシコン22にアクセスするインタフェースモジュール(図示せず)によって実施される規則に基づいて、すべてのレキシコンのセクションにわたる情報を組み合わせる、無視する、あるいはその他の形で選択することができる。そのような規則は、例えば、他のレキシコンの対応するセクションに情報があるかどうかに関係なく、特定のレキシコンの特定のセクションを常に使用することを指定することができる。これを図4に表しており、ここではレキシコン182のセクション192に情報があり、この情報はスタック中で上方にあるので少なくとも最初は調べられるが、レキシコン183のセクション192の情報が得られる。ただしデータの選択は、例えば上述の要領で停止ポインタを使用して単語項目ごとにしてもよい。
【0061】
要約すると、以前には得られなかった柔軟性と効率性を提供する改良したレキシコン構造について述べた。索引セクション及び複数のデータセクションにより、テキスト処理システム及び/または利用可能なコンピュータリソースの必要性に合わせてレキシコンを適合することが可能になる。この改良されたデータ構造により、複数のレキシコンのデータに選択的にアクセスし、かつ/または必要に応じて組み合わせることも可能になる。
【0062】
本発明について好適実施形態を参照して説明したが、当業者は、本発明の趣旨及び範囲から逸脱せずに形態及び詳細に変更を加えられることを認識されよう。
【0063】
【発明の効果】
以上説明したように本発明によれば、レキシコンを格納するための高い柔軟性と効率を有する改良されたデータ構造を提供しそのデータ構造を使用可能とすることができる。
【図面の簡単な説明】
【図1】本発明の実施形態の言語またはテキスト処理システムのブロック図である。
【図2】本発明の実施形態の例示的環境のブロック図である。
【図3】本発明の実施形態のレキシコンの図式表現の図である。
【図4】本発明の実施形態の複数のレキシコンにわたって情報を検索する、または情報にアクセスする図式表現の図である。
【符号の説明】
10 言語処理システム
12 入力
14 出力
20 テキストアナライザ
22 レキシコン
50 コンピューティングシステム環境
60、130 コンピュータ
70 プロセッサ
71 システムバス
80 システムメモリ
81 ROM
82 RAM
83 BIOS
84、94 オペレーティングシステム
85、95、135 アプリケーションプログラム
86、96 プログラムモジュール
87、97 プログラムデータ
90、100 インタフェース
91 ハードディスクドライブ
101 磁気ディスクドライブ
102 磁気ディスク
105、106 光ディスクドライブ
110 ユーザ入力インタフェース
111 ポインティングデバイス
112 キーボード
113 マイクロフォン
114 手書きタブレット
120 ネットワークインタフェース
121 LAN
122 モデム
123 WAN
140 ビデオインタフェース
141 モニタ
146 プリンタ
147 スピーカ
160、162、164、166、168、170
168a〜168p セクション
180、181、182、183 レキシコン
190、191、192、193、194、195 データセクション

Claims (7)

  1. テキストアナライザとして動作するコンピュータにより実行され、複数の異なる自然言語処理において使用される複数のレキシコンからまとめて単語情報を取得するコンピュータ実行方法であって、
    前記コンピュータは、
    コンピュータ記憶媒体と、
    プロセッサと、
    前記コンピュータ記憶媒体に格納され、前記プロセッサ上で実行可能なプログラムと
    を備え
    記プログラムは、複数の異なる自然言語処理を実行するために、前記プロセッサによりアクセス可能なコンピュータ記憶媒体に格納されたレキシコンから単語情報を取得する命令を含み、
    各レキシコンは、
    複数の単語を格納する単語リストセクションと、
    複数の組のデータセクションであって、各組のデータセクションは、前記単語リストセクションの各単語に対応し、各組のデータセクションの各データセクションは、前記各単語について選択された実質的に異なる情報を格納するデータセクションと、
    前記複数の組のデータセクションと分離した、前記単語リストセクションの各単語についての複数のポインタを格納する索引セクションであって、各複数のポインタは、ある自然言語処理に関連付けられた第1の組のポインタと、異なる自然言語処理に関連付けられた第2の組のポインタとを有し、前記第1の組のポインタは、前記第2の組のポインタと異なり、各ポインタは、前記複数の組のデータセクションのデータをポイントする索引セクションとを備え、
    前記プロセッサは、前記コンピュータ記憶媒体から前記プログラムを読み出し、前記プログラムを実行し、
    前記方法は、
    前記プロセッサが、類似した情報を有する前記各レキシコンの前記複数の組のデータセクションに選択的にアクセスするステップと、
    前記プロセッサが、実行される特定の自然言語処理に応じて前記第1または第2の組のポインタを使用し、アクセスしたデータセクションから情報を取得するステップと
    を含むことを特徴とするコンピュータ実行方法。
  2. 前記選択的にアクセスするステップは、類似する情報を有する前記各レキシコンの少なくとも2つのデータセクションの単語情報を組み合わせるステップを含むことを特徴とする請求項1に記載のコンピュータ実行方法。
  3. 前記選択的にアクセスするステップは、
    第1のレキシコンのデータセクションから単語情報を取得するステップと、
    第2のレキシコンのデータセクションから単語情報を取得するステップと、
    前記第2のレキシコンのデータセクションの情報だけを使用するステップと
    を含むことを特徴とする請求項1に記載のコンピュータ実行方法。
  4. 前記選択的にアクセスするステップは、停止インディケータが見つかるまで前記各レキシコンの類似するデータセクションから単語情報を取得するステップを含むことを特徴とする請求項1に記載のコンピュータ実行方法。
  5. 前記データセクションに選択的にアクセスするステップは、選択された順序で前記複数のレキシコンに順次アクセスするステップを含み、
    前記プログラムは、各レキシコンからの単語情報を読み出すか否かの第1の命令を備え、
    前記プログラムは、前記複数のレキシコンの2つ以上からの単語情報を組み合わせる第2の命令を備えることを特徴とする請求項1に記載のコンピュータ実行方法。
  6. 前記データセクションに選択的にアクセスするステップは、
    アクセスする各レキシコンについて、
    特定の自然言語処理に応じて、対応する索引セクションのポインタ識別を確定するために、所与の単語に応じて対応する単語リストセクションにアクセスするステップと、
    前記対応する索引セクションのポインタを得るために、前記ポインタ識別を使用するステップと、
    前記複数のデータセクションのうちのどの対応するデータセクションに前記単語についての情報があるか、及び前記情報が前記対応するデータセクションのどこに位置するかを確定するために、前記ポインタを使用するステップと
    を含むことを特徴とする請求項1に記載のコンピュータ実行方法。
  7. 前記選択的にアクセスするステップは、選択された順序で前記レキシコンに順次アクセスするステップを含むことを特徴とする請求項1に記載のコンピュータ実行方法。
JP2003125929A 2002-04-30 2003-04-30 コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法 Expired - Lifetime JP4724357B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/137,456 2002-04-30
US10/137,456 US7490034B2 (en) 2002-04-30 2002-04-30 Lexicon with sectionalized data and method of using the same

Publications (3)

Publication Number Publication Date
JP2003345796A JP2003345796A (ja) 2003-12-05
JP2003345796A5 JP2003345796A5 (ja) 2006-06-15
JP4724357B2 true JP4724357B2 (ja) 2011-07-13

Family

ID=29249733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003125929A Expired - Lifetime JP4724357B2 (ja) 2002-04-30 2003-04-30 コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法

Country Status (8)

Country Link
US (1) US7490034B2 (ja)
EP (1) EP1367501B1 (ja)
JP (1) JP4724357B2 (ja)
CY (1) CY1113100T1 (ja)
DK (1) DK1367501T3 (ja)
ES (1) ES2386631T3 (ja)
PT (1) PT1367501E (ja)
SI (1) SI1367501T1 (ja)

Families Citing this family (205)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7421386B2 (en) * 2003-10-23 2008-09-02 Microsoft Corporation Full-form lexicon with tagged data and methods of constructing and using the same
US7398210B2 (en) * 2003-10-23 2008-07-08 Microsoft Corporation System and method for performing analysis on word variants
US7447627B2 (en) * 2003-10-23 2008-11-04 Microsoft Corporation Compound word breaker and spell checker
US7548849B2 (en) * 2005-04-29 2009-06-16 Research In Motion Limited Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070078644A1 (en) * 2005-09-30 2007-04-05 Microsoft Corporation Detecting segmentation errors in an annotated corpus
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US9047275B2 (en) 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US20080086298A1 (en) * 2006-10-10 2008-04-10 Anisimovich Konstantin Method and system for translating sentences between langauges
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US8548795B2 (en) * 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US8214199B2 (en) * 2006-10-10 2012-07-03 Abbyy Software, Ltd. Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9984071B2 (en) 2006-10-10 2018-05-29 Abbyy Production Llc Language ambiguity detection of text
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US8074172B2 (en) 2007-01-05 2011-12-06 Apple Inc. Method, system, and graphical user interface for providing word recommendations
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
WO2008151466A1 (en) * 2007-06-14 2008-12-18 Google Inc. Dictionary word and phrase determination
US8812296B2 (en) 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8232973B2 (en) 2008-01-09 2012-07-31 Apple Inc. Method, device, and graphical user interface providing word recommendations for text input
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20100235780A1 (en) * 2009-03-16 2010-09-16 Westerman Wayne C System and Method for Identifying Words Based on a Sequence of Keyboard Events
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9606983B1 (en) * 2014-08-27 2017-03-28 Amazon Technologies, Inc. Human readable mechanism for communicating binary data
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10110385B1 (en) 2014-12-22 2018-10-23 Amazon Technologies, Inc. Duress signatures
US9866393B1 (en) 2014-12-22 2018-01-09 Amazon Technologies, Inc. Device for creating reliable trusted signatures
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US9819673B1 (en) 2015-06-24 2017-11-14 Amazon Technologies, Inc. Authentication and authorization of a privilege-constrained application
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11010553B2 (en) * 2018-04-18 2021-05-18 International Business Machines Corporation Recommending authors to expand personal lexicon
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN110795173A (zh) * 2019-10-30 2020-02-14 深圳市元征科技股份有限公司 一种数据处理方法、装置和电子设备及可读存储介质

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4384329A (en) * 1980-12-19 1983-05-17 International Business Machines Corporation Retrieval of related linked linguistic expressions including synonyms and antonyms
US4724523A (en) * 1985-07-01 1988-02-09 Houghton Mifflin Company Method and apparatus for the electronic storage and retrieval of expressions and linguistic information
JPS608980A (ja) * 1983-06-28 1985-01-17 Brother Ind Ltd 電子辞書
US4736296A (en) * 1983-12-26 1988-04-05 Hitachi, Ltd. Method and apparatus of intelligent guidance in natural language
JPS60245083A (ja) * 1984-05-18 1985-12-04 Brother Ind Ltd 電子辞書
JPS6126176A (ja) * 1984-07-17 1986-02-05 Nec Corp 言語処理用辞書
US4771385A (en) * 1984-11-21 1988-09-13 Nec Corporation Word recognition processing time reduction system using word length and hash technique involving head letters
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US5056021A (en) * 1989-06-08 1991-10-08 Carolyn Ausborn Method and apparatus for abstracting concepts from natural language
JPH03161727A (ja) * 1989-11-20 1991-07-11 Fuji Photo Film Co Ltd カメラの主要被写体検出装置
US5708829A (en) * 1991-02-01 1998-01-13 Wang Laboratories, Inc. Text indexing system
JP2875075B2 (ja) 1991-10-30 1999-03-24 シャープ株式会社 電子辞書
US5867812A (en) * 1992-08-14 1999-02-02 Fujitsu Limited Registration apparatus for compound-word dictionary
US6278967B1 (en) * 1992-08-31 2001-08-21 Logovista Corporation Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
US6760695B1 (en) * 1992-08-31 2004-07-06 Logovista Corporation Automated natural language processing
JPH0756957A (ja) * 1993-08-03 1995-03-03 Xerox Corp ユーザへの情報提供方法
US5611076A (en) * 1994-09-21 1997-03-11 Micro Data Base Systems, Inc. Multi-model database management system engine for databases having complex data models
US5715468A (en) * 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
JP3003915B2 (ja) * 1994-12-26 2000-01-31 シャープ株式会社 単語辞書検索装置
JPH08323842A (ja) * 1995-06-02 1996-12-10 Tsutsunaka Plast Ind Co Ltd シートブロー成形品と成形方法
US5864863A (en) * 1996-08-09 1999-01-26 Digital Equipment Corporation Method for parsing, indexing and searching world-wide-web pages
US6081774A (en) * 1997-08-22 2000-06-27 Novell, Inc. Natural language information retrieval system and method
US5995992A (en) * 1997-11-17 1999-11-30 Bull Hn Information Systems Inc. Conditional truncation indicator control for a decimal numeric processor employing result truncation
US6298321B1 (en) * 1998-11-23 2001-10-02 Microsoft Corporation Trie compression using substates and utilizing pointers to replace or merge identical, reordered states
US6675169B1 (en) * 1999-09-07 2004-01-06 Microsoft Corporation Method and system for attaching information to words of a trie
JP3717730B2 (ja) * 1999-11-02 2005-11-16 セイコーインスツル株式会社 電子辞書
US6792418B1 (en) * 2000-03-29 2004-09-14 International Business Machines Corporation File or database manager systems based on a fractal hierarchical index structure

Also Published As

Publication number Publication date
EP1367501B1 (en) 2012-06-13
CY1113100T1 (el) 2016-04-13
US20030204392A1 (en) 2003-10-30
DK1367501T3 (da) 2012-07-16
PT1367501E (pt) 2012-08-08
ES2386631T3 (es) 2012-08-24
SI1367501T1 (sl) 2012-09-28
EP1367501A3 (en) 2007-01-03
US7490034B2 (en) 2009-02-10
JP2003345796A (ja) 2003-12-05
EP1367501A2 (en) 2003-12-03

Similar Documents

Publication Publication Date Title
JP4724357B2 (ja) コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法
US6654731B1 (en) Automated integration of terminological information into a knowledge base
KR101204128B1 (ko) 고성능의 구조적 데이터 변환을 위한 하드웨어/소프트웨어파티션
US9495358B2 (en) Cross-language text clustering
KR101120798B1 (ko) 텍스트로부터 세만틱 구조들을 식별하기 위한 방법 및장치
US8041557B2 (en) Word translation device, translation method, and computer readable medium
JP3690938B2 (ja) インデックスの作成装置および作成方法、ならびに記憶媒体
US7024351B2 (en) Method and apparatus for robust efficient parsing
US8996593B2 (en) File management apparatus and file management method
US20070156404A1 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
JP2006178946A (ja) ワークブックを表現するためのファイルフォーマット、方法およびコンピュータプログラム製品
JP2007265458A (ja) 複数の圧縮オプションを生成する方法およびコンピュータ
JP2005251206A (ja) 単語分割で使用される新単語収集方法およびシステム
KR20060101493A (ko) 구조적 데이터 변환을 위한 장치
JP2006178944A (ja) 文書を表すファイル・フォーマット、その方法、およびコンピュータ・プログラム製品
EP1471440A2 (en) System and method for word analysis
JP4493397B2 (ja) テキスト圧縮装置
US20090132521A1 (en) Efficient Storage and Retrieval of Posting Lists
US11544304B2 (en) System and method for parsing user query
WO2020157887A1 (ja) 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
CN1627289B (zh) 用于分析汉语的装置和方法
Meyer On Sanskrit and information retrieval
JP2546245B2 (ja) 自然言語文生成方法
KR100371135B1 (ko) 용언 굴절사전을 이용한 용언 형태소 분석장치 및 방법
JP2001034630A (ja) 文書ベース検索システム、およびその方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060426

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070525

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070824

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070829

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070925

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070928

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20071025

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20071030

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071126

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071211

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080310

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20080311

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080311

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080423

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080627

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20100524

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100524

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110304

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110411

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140415

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250