JP4724357B2 - コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法 - Google Patents
コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法 Download PDFInfo
- Publication number
- JP4724357B2 JP4724357B2 JP2003125929A JP2003125929A JP4724357B2 JP 4724357 B2 JP4724357 B2 JP 4724357B2 JP 2003125929 A JP2003125929 A JP 2003125929A JP 2003125929 A JP2003125929 A JP 2003125929A JP 4724357 B2 JP4724357 B2 JP 4724357B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- word
- section
- lexicon
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法に関する。より詳細には、言語またはテキストの処理に関連し、レキシコン(lexicon)を格納するための改良されたデータ構造、及びそのデータ構造を使用する方法に係る、レキシコンを有するコンピュータ可読媒体、単語情報を得るコンピュータ実行方法、単語情報を格納する方法及びそれらの方法を実施する命令を有するコンピュータ可読媒体に関する。
【0002】
【従来の技術】
言語処理またはテキスト処理には多くのタイプのシステムが含まれる。例えば、パーサ、スペルチェッカ、文法チェッカ、ワードブレーカ、自然言語のプロセッサまたは理解システム、機械翻訳システムは、この広い範疇に該当するシステムのタイプのいくつかに過ぎない。
【0003】
多くの言語またはテキスト処理システムに共通する重要なコンポーネントがレキシコンである。一般に、レキシコンは単語についての情報を含むデータ構造である。例えば、レキシコンは構文的情報及び意味的情報の指示を格納することができる。この例には、その単語が名詞であるか、動詞、形容詞であるかなどが挙げられる。また、異なるタイプの言語情報もレキシコンに格納することができる。しばしば、構文解析の助けとなる単語についての情報を格納するなど、特定タイプの言語処理に有用な他の情報を格納しておくことも有用である。さらに他のレキシコンでは、その単語が固有名詞か、地理的な場所かなどについての指示が有用であることもある。
【0004】
動作の際は、単語の入力文字列を受け取ると、言語またはテキスト処理システムはレキシコンにアクセスして、各単語についての格納された情報を得る。入力文字列中の各単語についての情報を集めると、言語またはテキスト処理システムはその入力文字列を処理するが、これには存在する可能性のあるあいまい性をその単語の情報に基づいて解消することが含まれる場合がある。例えば、自然言語処理システムでは、レキシコンは入力文字列中の各単語に品詞を割り当てる。次いで構文パーサがどの品詞の割り当てが適切であるかを判断し、入力文字列から構造を構築し、それを解釈のために意味コンポーネントに渡すことができる。
【0005】
いくつかの文献に上述のような従来の技術に関連した技術内容が開示されている(例えば、非特許文献1参照)。
【0006】
【非特許文献1】
P.T.Sato著「A COMMON PARSING SCHEME FOR LEFG-AND RIGHT-BRANCHING LANGUAGES」Computational Linguistics、Vol1.14、No.1、1988年冬、p.20−30
【0007】
【発明が解決しようとする課題】
一般に、レキシコンの各項目は単一の大きなバイナリオブジェクトからなる。このフォーマットでは、情報へのアクセスは可能であるが、項目全体を読み込まずに、一般に使用される語彙情報への局所的なアクセスを容易には行うことができない。ある単語項目に関連するすべての情報をレキシコンから読み込まなければならない場合、特にその単語項目の情報のうちわずかな部分だけを必要とする場合には、より多くのメモリと処理時間が必要とされる。
【0008】
語彙情報の変更または追加も難しい。具体的には、レキシコンを修正する、あるいはさらに情報を追加するために、レキシコンの作成者は、非常に複雑なデータ構造の整合性と編成を保ちながら、各項目中のすべてのビット、属性またはその他の情報を複製してから、所望の情報を変更するか、あるいは情報を追加しなければならない。
【0009】
このため、上述の不都合点の1つ、一部、あるいはすべてに対処する改良したレキシコンデータ構造が必要とされる。
【0010】
本発明は、このような課題に鑑みてなされたもので、その目的とするところは、レキシコンを格納するための高い柔軟性と効率を有する改良されたデータ構造を提供しそのデータ構造を使用可能とする、コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法を提供することにある。
【0011】
【課題を解決するための手段】
本発明の一態様は、言語処理システムで使用するために適合された単語情報を有する、コンピュータ可読媒体に格納された単語レキシコンである。このレキシコンは、複数の単語を記憶する単語リストセクションと、それら複数の単語の単語情報を記憶する複数のデータセクションとを含む。複数のデータセクションは互いと単語リストセクションとから分離されている。単語情報にアクセスするために索引セクションが提供され、このセクションには複数のデータセクション中のデータをポイントするポインタが格納される。使用するポインタの識別は、単語リストセクション中の対応する単語に応じて決まる。
【0012】
この改良されたレキシコン構造は、これまで得ることのできなかった柔軟性と効率を提供する。索引セクションと複数のデータセクションは、利用可能なコンピュータリソースなど言語処理システムの必要性に合わせて、レキシコンを適合することを可能にする。さらなる実施形態では、このレキシコン構造は、分類に基づいて単語情報を分類またはグループ化することを可能にする。例えば、この分類は、その単語項目が名詞か、動詞か、形容詞かなど、単語項目の品詞に基づくことができる。これにより、分類に応じて単語情報に選択的にアクセスすることができる。例示的実施形態では、対応する単語情報の分類を示す表示がポインタ中に提供される。
【0013】
本発明の他の態様は、複数のデータセクションに単語情報を格納し、索引セクションにポインタ情報を格納し、単語リストセクションに単語リストを格納する、コンピュータによって実施される方法を含み、単語リストは、選択された単語に関連付けられた対応するポインタを識別する情報を有する。同様に、別の態様は、上述で提供されるレキシコンのデータ構造を使用して単語情報にアクセスすることである。
【0014】
上述のレキシコン構造は、いくつかのレキシコンから情報を得ることが望ましい場合に特に有用であり、これは本発明のさらに別の態様である。一般に、各レキシコンのデータセクションに選択的にアクセスすることにより、特定の単語項目についての複数のレキシコンのデータを必要に応じて組み合わせる、無視する、または選択することができる。
【0015】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を詳細に説明する。
【0016】
図1に、通例はテキスト文字列の形で言語入力12を受け取り、言語入力12を処理して、通例は同じくテキスト文字列の形で言語出力14を提供する言語またはテキスト処理システム10を概略的に表す。数例を挙げると、言語処理システム10は、例えばスペルチェッカ、文法チェッカ、あるいは自然言語プロセッサとして実施することができる。当業者には理解されるように、言語処理システム10は、スタンドアロンアプリケーション、または別のシステムからのアクセスが可能な、あるいは別のシステムに含まれるモジュールやコンポーネントとすることができる。
【0017】
一般に、言語処理システムはテキストアナライザ20及びレキシコン22を含む。テキストアナライザ20は、入力12を受け取り、レキシコン22にアクセスしてレキシコン22から情報を得、単語情報を処理して出力14を提供するコンポーネントまたはモジュールを図式的に表している。本発明の一態様は、その利用例によって必要とされる可能性のある必要な情報を効率的にテキストアナライザ20に提供するためのレキシコン22の改良されたデータ構造である。レキシコン22は、多くの言語処理システムと多くの形態のテキストアナライザに使用できる独立したコンポーネントであることを考慮して、テキストアナライザ20とレキシコン22の一般的な相互作用について説明するが、本発明の理解に必要でないため、各種形態のテキストアナライザに関する具体的な詳細については述べない。
【0018】
本発明のさらなる詳細な説明に入る前に、動作環境の概要を見ておくと有用であろう。図2は、本発明の実施が可能な適切なコンピューティングシステム環境50の一例である。コンピューティングシステム環境50は適切なコンピューティング環境の一例に過ぎず、本発明の使用または機能性の範囲について何らの制限を示唆するものではない。またコンピューティングシステム環境50は、その例示的動作環境に示す構成要素の任意の1つまたは組み合わせに関連する依存関係または必要性を有するものとも解釈すべきでない。
【0019】
本発明は、数多くの他の汎用または特殊目的のコンピューティングシステム環境または構成で動作することができる。本発明に使用するのに適している可能性があるよく知られるコンピューティングシステム、環境、及び/または構成の例には、これらに限定しないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家庭用電化製品、ネットワークPC(personal computer)、ミニコンピュータ、メインフレームコンピュータ、上述のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などがある。
【0020】
本発明は、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的な状況で説明することができる。一般に、プログラムモジュールには、特定タスクを行うか、あるいは特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、通信ネットワークを通じてリンクされたリモートの処理装置によってタスクを行う分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、メモリ記憶装置を含むローカル及びリモート両方のコンピュータ記憶媒体にプログラムモジュールを置くことができる。これらのプログラム及びモジュールによって行われるタスクについて、以下で図面を用いて説明する。当業者は、以下の説明及び図を、任意形態のコンピュータ可読媒体に書き込むことのできるプロセッサ実行可能命令として実行することができる。
【0021】
図2を参照すると、本発明を実施する例示的システムは、コンピュータ60の形態の汎用コンピューティングデバイスを含む。コンピュータ60の構成要素には、これらに限定しないが、プロセッサ70、システムメモリ80、及びシステムメモリを含む各種のシステムコンポーネントをプロセッサ70に結合するシステムバス71が含まれる。システムバス71は、各種のバスアーキテクチャの任意のものを使用したメモリバスまたはメモリコントローラ、ペリフェラルバス、及びローカルバスを含む数タイプのバス構造のいずれでもよい。例として、このようなアーキテクチャには、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)バス、及びメザニンバスとも称されるPCI(Peripheral Component Interconnects)バスが含まれるが、これらに限定しない。
【0022】
コンピュータ60は通例各種のコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ60がアクセスできる任意の利用可能媒体でよく、揮発性及び不揮発性の媒体、リムーバル及びノンリムーバル媒体が含まれる。これに限定しないが、例としてコンピュータ可読媒体は、コンピュータ記憶媒体及び通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータなどの情報を記憶するための任意の方法または技術で実現された不揮発性及び不揮発性の媒体、リムーバル及びノンリムーバルの媒体を含む。コンピュータ記憶媒体には、これらに限定しないが、RAM(random access memory)、ROM(read only memory)、EEPROM(electrically erasable PROM)、フラッシュメモリまたは他のメモリ技術、CD(compact disc [disk])−ROM、デジタル多用途ディスク(DVD)または他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気記憶装置、あるいは、所望の情報の記憶に用いることができ、コンピュータ60によるアクセスが可能な任意の他の媒体が含まれる。
【0023】
通信媒体は、通例、搬送波または他の搬送機構などの、変調データ信号にコンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを統合し、任意の情報伝達媒体を含む。用語「変調データ信号」とは、信号中に情報を符号化するような方式でその特性の1つまたは複数を設定または変化させた信号を意味する。例として、通信媒体には、有線ネットワークまたは直接配線接続などの有線媒体と、音響、RF(radio frequencies)、赤外線、及び他の無線媒体などの無線媒体が含まれるが、これらに限定しない。上記の媒体のいずれの組み合わせもコンピュータ可読媒体の範囲に含めるべきである。
【0024】
システムメモリ80には、ROM81及びRAM82など、揮発性及び/または不揮発性メモリの形態のコンピュータ記憶媒体が含まれる。起動時などにコンピュータ60内の要素間の情報転送を助ける基本ルーチンを含むBIOS(Basic Input/Output System)83は、通例ROM81に記憶される。RAM82は通例、プロセッサ70から即座にアクセス可能な、かつ/または現在プロセッサ70によって操作中のデータ及び/またはプログラムモジュールを含む。これらに限定しないが、例として、図2にはオペレーティングシステム84、アプリケーションプログラム85、他のプログラムモジュール86、及びプログラムデータ87を示している。
【0025】
コンピュータ60は、他のリムーバル/ノンリムーバル、揮発性/不揮発性のコンピュータ記憶媒体も含むことができる。単なる例として、図2には、ノンリムーバル、不揮発性の磁気媒体の読み取りまたは書き込みを行うハードディスクドライブ91、リムーバル、不揮発性の磁気ディスク102の読み取りまたは書き込みを行う磁気ディスクドライブ101、及びCD−ROMや他の光媒体などのリムーバル、不揮発性の光ディスク106の読み取りまたは書き込みを行う光ディスクドライブ105を示す。例示的動作環境で使用できるこの他のリムーバル/ノンリムーバル、揮発性/不揮発性のコンピュータ記憶媒体には、これらに限定しないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどが含まれる。ハードディスクドライブ91は通例、インタフェース90などのノンリムーバルのメモリインタフェースを通じてシステムバス71に接続され、磁気ディスクドライブ101及び光ディスクドライブ105は通例、インタフェース100などリムーバルなメモリインタフェースによってシステムバス71に接続される。
【0026】
上記で説明し、図2に示したドライブとそれに関連付けられたコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、及びコンピュータ60のその他のデータの記憶を提供する。例えば図2では、ハードディスクドライブ91にオペレーティングシステム94、アプリケーションプログラム95、他のプログラムモジュール96、及びプログラムデータ97を記憶している。これらのコンポーネントは、オペレーティングシステム84、アプリケーションプログラム85、他のプログラムモジュール86、及びプログラムデータ87と同じものでも、異なるものでもよいことに留意されたい。ここではオペレーティングシステム84、アプリケーションプログラム85、他のプログラムモジュール86、及びプログラムデータ87には、それらが少なくとも異なるコピーであることを表すために異なる参照符号をつけている。
【0027】
ユーザは、キーボード112、マイクロフォン113、手書きタブレット114、及びマウス、トラックボール、タッチパッドなどのポインティングデバイス111などの入力装置を通じてコンピュータ60にコマンドと情報を入力することができる。他の入力装置(図示せず)には、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、スキャナなどがある。これら及び他の入力装置は、システムバスに結合されたユーザ入力インタフェース110を通じてプロセッサ70に接続することが多いが、パラレルポート、ゲームポート、あるいはユニバーサルシリアルバス(USB)など他のインタフェース及びバス構造によって接続することも可能である。モニタ141または他タイプの表示装置も、ビデオインタフェース140などのインタフェースを介してシステムバス71に結合される。コンピュータは、モニタに加えて、スピーカ147やプリンタ146など他の周辺出力装置も含むことができ、それらは出力周辺インタフェース145を通じて接続することができる。
【0028】
コンピュータ60は、リモートコンピュータ130など1つまたは複数のリモートコンピュータへの論理接続を使用するネットワーク環境で動作することができる。リモートコンピュータ130はパーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、あるいはその他の一般的なネットワークノードでよく、通例はコンピュータ60との関連で上記で挙げた要素の多くまたはすべてを含む。図2に示す論理接続には、構内ネットワーク(LAN)121と広域ネットワーク(WAN)123が含まれるが、他のネットワークを含むことも可能である。このようなネットワーキング環境は、オフィス、企業内のコンピュータネットワーク、イントラネット、及びインターネットに一般的に見られる。
【0029】
LANネットワーキング環境で使用する場合、コンピュータ60はネットワークインタフェースまたはアダプタ120を通じてLAN121に接続される。WANネットワーキング環境で使用する場合、コンピュータ60は通例、インターネットなどのWAN123を通じて通信を確立するためのモデム122またはその他の手段を含む。モデム122は内蔵型でも外付け型でもよく、ユーザ入力インタフェース110または他の適切な機構を介してシステムバス71に接続することができる。ネットワーク環境では、コンピュータ60との関連で図示したプログラムモジュール、またはその一部はリモートのメモリ記憶装置に格納することができる。これに限定しないが、例として図2ではリモートアプリケーションプログラム135がリモートコンピュータ130に常駐している。図のネットワーク接続は例示的なものであり、コンピュータ間に通信リンクを確立する他の手段を使用できることは理解されよう。
【0030】
テキストアナライザ20は、コンピュータ60、またはリモートコンピュータ130などコンピュータ60と通信する任意のコンピュータに常駐できることを理解されたい。同様に、レキシコン22は、コンピュータ60の上述の記憶装置の任意のものに常駐するか、または適切な通信リンクを通じてアクセス可能にすることができる。
【0031】
図3は、レキシコン22の図式表現である。図の例示的実施形態では、レキシコン22は、ヘッダセクション160、単語リストセクション162、索引テーブルセクション164、索引セクション166、2つ以上のレキシコンデータセクション168(ここでは例として16個のセクション、168a、168b、168c、168d、168e、168f、168g、168h、168i、168j、168k、168l、168m、168n、168o、168p)、及び文字列ヒープセクション170を含む。
【0032】
ヘッダセクション160は一般に、レキシコン22の構造についての情報を格納する。ヘッダセクション160は、例えば、レキシコンの名前やバージョンについての情報を含むことができる。ヘッダセクション160はまた、メモリオフセット及び各セクション162、164、166、168a〜168p、及び170のサイズについての情報も含むことができる。セクション162は、レキシコン22の単語リストを含む。セクション162に単語リストを実施するには、任意の適切なフォーマットを用いることができる。特に有用なフォーマットの1つは、よく知られるデータ構造技術である「トライ(trie)」構造で単語リストを格納するものである。このフォーマットの利点としては、特定の接頭辞で始まる可能性のある単語がいくつあるかを容易に判定できることが挙げられ、これは例えば手書き認識や、ユーザが特定の文字を書いた可能性を確かめる必要がある際に有用である。このフォーマットではまた、トラバース(traversal)のパスを前方向と後ろ方向の両方で知ることができる。上記のように、セクション162には他の形態の単語リスティングを使用することができる。例えば単純なテーブルやリストを使用することができる。さらに別の実施形態では「差分」技術を使用して単語リストを格納することができ、この場合は連続した単語の記号または文字の違いを格納する。
【0033】
セクション164を説明する前に、セクション166と、複数のセクション168とのその関係を初めに説明しておくと有用であろう。「従来の技術」の項で述べたように、現在のレキシコンでは、必要とするのが情報の一部だけであっても、特定の単語項目に関連付けられたすべての情報を読み出すことが必要とされる。セクション168a〜168pは、レキシコン中の各単語項目のデータを所望の方式で編成することを可能にし、関連するレキシコン情報を概ねともにグループ化することができる。例えば、セクション168a〜168pの1つを使用してスペルチェックに関連する情報を格納し、別のセクションに標準的な言語分類に関連する情報を格納することができる。索引セクション166は一般に、単語リストセクション162の単語項目に応じて、セクション168a〜168pに格納されたデータへのポインタ(例えばセットとしてグループ化した)を提供する。すなわち、単語リストセクション162(例えばトライ構造)は、索引セクション166へのアクセスポイント(オフセット)を直接または間接的に決定する。一般に、単語情報を得るこの方法は、所与の単語に応じて単語リストセクションにアクセスして、索引セクションのポインタ識別を確定することを含む。このポインタ識別を使用して、索引セクションで単語のポインタを得る。次いでこのポインタを使用して複数のデータセクションのうちどのデータセクションに所与の単語についての情報があるか、そしてその情報がそのデータセクションのどこに位置するかを確定する。したがって、セクション162にある特定の単語項目に対して、索引セクション166を通じて、セクション168a〜168pに格納されたその単語の対応するレキシコンデータに選択的にアクセスすることができ、それにより所与の単語のすべての単語情報を処理するか、または少なくとも読み出す必要がない。
【0034】
特に有用な一実施形態では、セクション162にある各単語項目についてのセクション168a〜168pの索引セクション166中のポインタまたはポインタのセットを、その単語項目が名詞か、動詞か、形容詞かなど、その品詞(「POS(part of speech)」)によって分類する。したがって、ある単語項目のPOSについてのデータは、セクション168a〜168pのPOS情報への一連のポインタとなる。したがって、2つのPOSを持つ単語項目には、セクション166に2つの別個のポインタセットがある。セットの1つは、第1のPOS(例えばその項目の名詞形)についての情報の位置を示し、第2のポインタセットは、もう一方のPOS(例えばその項目の動詞形)についての情報の位置を示す。このように索引セクション166は、単語項目のPOSに基づいた、あるレベルのレキシコンデータ分類を提供する。ここで、レキシコン22が対象とする言語に応じて、POS以外の他の分類形態を使用できることを理解されたい。例えば日本語や中国語には、品詞の代わりに屈折または声調による分類を使用することができる。ここでは索引セクション166がPOS分類を提供するものと例示しているが、この機能は制限的あるいは必須とみなすべきでない。
【0035】
また、中国語や日本語のような言語で使用する際には、ここで用いる意味の単語「単語(word)」の使用には、記号、表意文字、語標(logogram)なども含まれることにも留意されたい。したがって、本発明の態様を使用してこれらの言語のレキシコンも構築することができ、そのレキシコンは特に断らない限りは特許請求の範囲に包含されるものとする。
【0036】
例示的実施形態では、各ポインタは、そのポインタがセクション168a〜168pのうちどれをポイントするのかに関する情報、POSの種類に関連付けられた情報、識別されたセクション168a〜168p中で関連するデータを見つけられるオフセット値を含む。セクション162の所与の単語項目に関連付けられたポインタは固定することができるが、例示的実施形態では、各単語項目のポインタ数は単語項目ごとに異なってよい。このようにして、本質的な制限が常に伴うことなく、索引セクション166をより小型かつ柔軟にすることができる。
【0037】
ある単語項目のセクション166の例示的ポインタの概略表現を次に示す。
X1:X2:X3:X4
ここでX1は単語項目のポインタセットの最後を示すフラグであり、X2はセクション168の1つを識別する情報であり、X3はPOSまたは他の分類を識別する情報であり、X4は、X2によって識別されるレキシコンデータのオフセットを示す値である。このフォーマットを使用して、所与の単語についてのすべての情報のポインタを連続して格納することができ、単語リストセクションに応じて直接あるいは間接的に第1のポインタが識別され、最後のポインタのフラグX1をセットして所与の単語のポインタリストの最後を示す。一実施形態では、索引セクション166は大きなDWORD配列(迅速なアクセスのために4バイトの量、4バイトワード配置)である。この実施形態では、1バイトの内訳は、ポインタセットの最後を示すX1の1ビットフラグ、セクション168a〜168pを示す4ビットのX2、及びPOSの種類を示す3ビットのX3である。そしてX4に3バイトを使用して、データがセクション168a〜168pのどこに格納されているかを示す24ビットのオフセット値を提供する。このフォーマットは一例に過ぎず、他のフォーマットも使用できることを理解されたい。同様に、この例は必須あるいは制限的と解釈すべきでない。一般に、索引セクション166のポインタのフォーマットは、複数のセクション168中のデータの位置、及び必要な場合は単語情報の1つまたは複数の分類を示すために選択される。
【0038】
ここで、セクション166のポインタ項目のオフセット部分に入るのに十分な小ささのデータは、別個のセクション168a〜168pではなく、直接索引セクション166に符号化できることにも留意されたい。この種のデータの例にはスペリング情報や単語項目の確率及び頻度データが含まれるが、これらはいずれも多くの場合はデータオフセット値に割り当てられたビットに容易に格納することができる。
【0039】
上記のように、索引セクション166へのエントリは、セクション162の単語項目に応じて決まる。セクション162と166間の移行には各種の技術を使用することができる。第1の実施形態では、セクション162の各単語項目は必要とされるセクション166へのオフセットを含むことができる。ただしセクション162がトライ構造を備える場合は、トライの葉ノード構造の修正が必要となる場合がある。あるいは、トライ構造中のノードのオフセットを索引セクション166へのオフセットとして使用することができる。例示的実施形態では、これは、ある単語項目についてのPOS索引のセットに40バイト(10個のPOSポインタ)を割り当てることを意味する。さらなる実施形態では、オフセット値をセクション166の単語項目の最後に付することができる。
【0040】
さらに別の実施形態では、索引テーブル164をレキシコン22の構造中に含める。索引テーブル164は単語項目とセクション166の索引とのマッピングを可能にし、これは、セクション166中のポインタの数が単語項目ごとに異なる可能性がある場合に特に有用である。ただし、関連付けられた単語項目ごとに、索引セクション166で固定サイズ数のポインタを使用することが可能である。この構造のセクション166を使用すると索引テーブルセクション164が不要になる。この代替実施形態では、セクション166の索引ポインタの固定数を超えるポインタを有する単語項目が許された場合は、オーバーフローテーブルを使用することができる。
【0041】
ここで、セクション162から索引セクション166へのオフセット、より具体的にはセクション168a〜168p中のデータをポイントするセクション166のポインタは、レキシコン22からデータを検索する際の効率と速度を提供するように編成することができることに留意されたい。例えば、頻繁に使用される単語の他の情報の隣にセクション168a〜168pのレキシコン情報を配置するようにオフセットポインタを編成することができ、あるいは、必要な場合は、セクション168a〜168p中の関連付けられた情報同士をより近くに編成して、ハードディスク、フロッピー(登録商標)などのコンピュータ記憶装置に格納された際に情報検索時間を短縮することができる。
【0042】
セクション168a〜168pのデータはその中に存在することができ、即ち、必要な場合は、同じセクション168a〜168pに含まれる参照データへの、他のセクション168a〜168pに含まれる参照データへの、セクション162のもとの単語項目へのポインタを提供でき、及び例証的実施形態ではまた文字列ヒープ170へのポインタを提供することができる。文字列ヒープ170は、そのデータをセクション168a〜168p中に複数の出現として格納する必要がある選択された文字列に単一の記憶位置を提供するために使用される。文字列ヒープ170は単一のセクションであるか、あるいはセクション168a〜168pと同様のサブセクションを含むことができる。セクション168中の情報の他の形態には、決定木中のブールフラグ、値、単語リストなどがある。
【0043】
複数のセクション168a〜168pを使用した単語項目データの編成により、それを実装するコンピュータのメモリを多量消費することなく、特定の用途の必要性を満たすようにレキシコン22を容易に適合することが可能になる。例えば、レキシコン22はRAMなどの高速アクセスメモリに読み込むことができるが、レキシコン中の特定タイプのデータが必要でない場合は、複数のセクション168a〜168pのうちそのセクションを省略することができる。索引セクション166のポインタは、存在するセクション168a〜168pだけを反映するように変更することができるが、さらなる実施形態では、セクション168a〜168pが存在すれば情報が得られ、一方セクションが存在しなければ情報が求められないので、変更は不必要である。エラーが生じないように、レキシコンに存在するセクションは例えばヘッダ160に記録することができる。
【0044】
ここに記載するレキシコン構造の際立った利点は、入力12(図1)が単語を含む場合にレキシコンのユーザまたは作成者が後の検索のためにその単語についてのどのようなタイプの情報でも入れることができる点である。さらに、ユーザによって定義された情報はレキシコンに含まれる他の情報と混在させる必要がなく、複数のセクション168a〜168pの専用のセクションに格納することができる。
【0045】
以下に挙げるのは、セクション168a〜168pに適したセクションに編成されたレキシコンデータのいくつかの例である。これらは単なる例に過ぎず、レキシコン22のデータは、利便性または理解のために任意の所望の方式で編成できることに留意されたい。ここで述べるセクションは特に有用であることが判明しているが、必須あるいは制限的なものと見なすべきではない。
【0046】
形態データセクション−このような情報は、発音ならびに様々な単語の時制についてのその単語の他の形を含むことができる。
【0047】
標準作成者データセクション−この情報には、その単語項目が単数形、複数形であるか否か、あるいはその単語が有生か無生かを示すデータを含むことができる。このセクションの単語項目に関連する情報は、一般にはその単語項目についてのよく知られた情報であり、素人でも作成することができる。このように、この情報はユーザの要件に合わせて用意に変更または修正することができる。
【0048】
標準言語データセクション−この情報には単語項目の言語学的情報が含まれる。このような情報は一般の素人にはあまり知られないが、言語学者はこの情報を容易に理解し、必要に応じて修正することができる。
【0049】
構文解析データセクション−この情報には、自然言語の構文解析に役立つ情報が含まれる。
【0050】
領域/主題データセクション−この情報は領域または主題のコードに関連する。例えば、この情報により、対応する単語が物理、数学、地理、食物などに関連するものであることを示すことができる。
【0051】
スペリングデータセクション−この情報はスペルチェック、例えば方言マーキング、制限マーキングなどに関連する。制限マーキングは、卑語、頭字語、古い語など許容されるがスペルチェックの際には提案されない単語を示す。
【0052】
複数語表現データセクション−この情報は、イディオム、固有名、本や映画の題名、オフィスの名称、地名など、複数の単語を単独に識別する必要がある際に有用である。通例、各単語項目について格納されるデータは、複数単語表現でその単語の前にくる、かつ/または後に来る単語である。
【0053】
例えば、複数のセクション168a〜168pの1つが、そのレキシコン項目の作成者のみによって見つけられる、任意の階層的な名前値の対を含むことができる。例えば、作成者が複数語表現(上記)についての固有表現(NE;Name Entity)情報を追加したい場合には、名前文字列に基づく値の対のセットをそのセクションに追加することができ、これをXML形式で表すと次のようになる。
このように、このセクションは、任意の入れ子構造になった、文字列に基づく単純な値の名前の対を表すことができる。この形式はXMLのタグ属性をサポートせず、作成者がこのセクションの別個の下位要素としてその属性を符号化する。上の例では、映画の題名についてのデータは、必要な場合には格納することのできる利用例固有のデータの混合を含んでいる。
【0054】
このレキシコン22の構造は、レキシコンの各セクションはそのすぐ後のセクションと連続する必要がないという事実を利用することにより書き込み可能なレキシコンに対応する。すなわち、セクションは将来行われる拡張のために余分の未使用スペースを取っておくことができる。レキシコンへの更新操作は、該当する位置に新しい値を書き込むことによって行う。レキシコン22がDDL(ダイナミックリンクライブラリ)ベースのレキシコン、あるいは予備スペースを備えない事前にコンパイルされた(静的な)ファイルベースのレキシコンとして実施される場合は、単純なフリーリスト実装により、先頭一致(first−fit)アルゴリズムに基づいて空いている項目スペースを見つける。
【0055】
一般に、レキシコン22に単語情報を格納する方法は、複数のデータセクション168に単語情報を格納し、各データセクションは単語リスト中の単語について実質的に異なる選択された情報を格納することと、複数のデータセクション168と分離した索引セクション166にポインタ情報を格納し、各ポインタは複数のデータセクション168中の選択されたデータをポイントすることと、複数のデータセクション168及び索引セクション166と分離した単語リストセクション162に単語リストを格納し、単語リストは選択された単語に関連付けられた対応するポインタを識別する情報を有することとを含む。必要な場合は、識別値を索引テーブルセクション164に格納することができ、この場合には各識別値が単語リストセクション162の単語に対応し、索引セクション166のポインタと関連付けられる。同様に、ポインタに分類の表示を含めて単語情報を分類することもできる。
【0056】
このレキシコン22の構造は、いくつかのレキシコンから情報を得ることが望ましい場合に特に有用である。一般には、特定の単語項目についての複数のレキシコンの情報を必要に応じて組み合わせる、無視する、あるいは選択することができる。いくつかのレキシコンからのレキシコン情報を組み合わせる例は、核または基礎となるレキシコンに単語項目についての第1の量の情報が含まれ、第2のレキシコンに特定領域についての単語項目についての第2の量の情報が含まれ、第3のレキシコンにユーザが決定した単語項目についての第3の量の情報が含まれる実装に見られる。
【0057】
図4に、特定の単語項目についての情報を複数のレキシコンから得る方式を図式的に示している。図4で、レキシコン(データセクションだけによって表しているが、本来は図3に示すセクションの一部またはすべてを備える)は行に編成され、これを180、181、182、及び183で示す。図4では個々のデータセクション(168に対応する)を縦に表しており、この例証的実施形態では、4つのレキシコン180〜183を通じて最大6個のデータセクション190、191、192、193、194、及び195にアクセスすることができる。各レキシコン180〜183がデータセクション190〜195すべてを含むことは必須でなく、多くの実際の事例では、すべてのレキシコンのすべてのデータセクション間にそのような対応関係は存在しないことに留意されたい。
【0058】
図4では符号Xyを使用してレキシコンセクションのデータを示しており、Xはデータセクション190〜195の1つを現し、Yはレキシコン180〜183を表す。例えばレキシコン180は、データセクション190180、193180、及び195180を備える。
【0059】
レキシコン180〜183のデータは同じタイプの内容を有するセクション190〜195に編成されているので、レキシコン180〜183にまたがって情報を容易に組み合わせる、あるいは選択することができる。所与の単語項目について、第1のレキシコン180の情報を調べ、次いで必要に応じて他のレキシコン181〜183の同じデータセクションに進むことにより情報を得ることができる。一実施形態では、検索するデータは、実行時に定義される所望のセクションタイプのセットによって制御する。1つの変数で、レキシコンのある項目のデータを読み出すか読み出さないかを決定する。第2の変数で、調べた他のレキシコンの対応するセクションから先に読み出された項目のデータと組み合わせる、あるいはそのデータに上書きするかどうかを決定する。概略的には、レキシコンは「スタック」されており、スタック中の最上位のレキシコンのデータセクション190〜195を読み取り、次いでスタックを順次下に進み、読み出すか読み出さないか、選択するか、無視するか、上書きするか、あるいは組み合わせるかについての規則に従うことによって情報を得ると考えることができる。図3に示すレキシコン構造は、実装者が、所与のセクションタイプのデータを他のレキシコンの同じセクション中のデータと組み合わせる、あるいは上書きする方式を選択することを可能にする。
【0060】
図4で、レキシコン180〜183から得た情報186は、セクション190180、191181、192 183 、193 180 、194183、及び195180+181+182に対応する情報を含む。この例では、セクション190、191、192、193、及び194のデータは、単にデータセクションの1つに停止インディケータが見つかるまで、レキシコン180〜183をセクションごとに順に調べることによって得る。例えば、レキシコン180及び183はともにセクション190に情報を有するが、停止インディケータがセクション190180で見つかるのでレキシコン180の情報だけが取り出される。実行時に、これによりセクション190183の情報が無視される。これに対してセクション195182を調べるまでに停止インディケータが見つからないので、セクション195180、195181、及び195182の情報は組み合わせて情報195180+181+182を形成する。必要な場合は、テキストアナライザ20、またはテキストアナライザ20の要求に基づいてレキシコン22にアクセスするインタフェースモジュール(図示せず)によって実施される規則に基づいて、すべてのレキシコンのセクションにわたる情報を組み合わせる、無視する、あるいはその他の形で選択することができる。そのような規則は、例えば、他のレキシコンの対応するセクションに情報があるかどうかに関係なく、特定のレキシコンの特定のセクションを常に使用することを指定することができる。これを図4に表しており、ここではレキシコン182のセクション192に情報があり、この情報はスタック中で上方にあるので少なくとも最初は調べられるが、レキシコン183のセクション192の情報が得られる。ただしデータの選択は、例えば上述の要領で停止ポインタを使用して単語項目ごとにしてもよい。
【0061】
要約すると、以前には得られなかった柔軟性と効率性を提供する改良したレキシコン構造について述べた。索引セクション及び複数のデータセクションにより、テキスト処理システム及び/または利用可能なコンピュータリソースの必要性に合わせてレキシコンを適合することが可能になる。この改良されたデータ構造により、複数のレキシコンのデータに選択的にアクセスし、かつ/または必要に応じて組み合わせることも可能になる。
【0062】
本発明について好適実施形態を参照して説明したが、当業者は、本発明の趣旨及び範囲から逸脱せずに形態及び詳細に変更を加えられることを認識されよう。
【0063】
【発明の効果】
以上説明したように本発明によれば、レキシコンを格納するための高い柔軟性と効率を有する改良されたデータ構造を提供しそのデータ構造を使用可能とすることができる。
【図面の簡単な説明】
【図1】本発明の実施形態の言語またはテキスト処理システムのブロック図である。
【図2】本発明の実施形態の例示的環境のブロック図である。
【図3】本発明の実施形態のレキシコンの図式表現の図である。
【図4】本発明の実施形態の複数のレキシコンにわたって情報を検索する、または情報にアクセスする図式表現の図である。
【符号の説明】
10 言語処理システム
12 入力
14 出力
20 テキストアナライザ
22 レキシコン
50 コンピューティングシステム環境
60、130 コンピュータ
70 プロセッサ
71 システムバス
80 システムメモリ
81 ROM
82 RAM
83 BIOS
84、94 オペレーティングシステム
85、95、135 アプリケーションプログラム
86、96 プログラムモジュール
87、97 プログラムデータ
90、100 インタフェース
91 ハードディスクドライブ
101 磁気ディスクドライブ
102 磁気ディスク
105、106 光ディスクドライブ
110 ユーザ入力インタフェース
111 ポインティングデバイス
112 キーボード
113 マイクロフォン
114 手書きタブレット
120 ネットワークインタフェース
121 LAN
122 モデム
123 WAN
140 ビデオインタフェース
141 モニタ
146 プリンタ
147 スピーカ
160、162、164、166、168、170
168a〜168p セクション
180、181、182、183 レキシコン
190、191、192、193、194、195 データセクション
Claims (7)
- テキストアナライザとして動作するコンピュータにより実行され、複数の異なる自然言語処理において使用される複数のレキシコンからまとめて単語情報を取得するコンピュータ実行方法であって、
前記コンピュータは、
コンピュータ記憶媒体と、
プロセッサと、
前記コンピュータ記憶媒体に格納され、前記プロセッサ上で実行可能なプログラムと
を備え、
前記プログラムは、複数の異なる自然言語処理を実行するために、前記プロセッサによりアクセス可能なコンピュータ記憶媒体に格納されたレキシコンから単語情報を取得する命令を含み、
各レキシコンは、
複数の単語を格納する単語リストセクションと、
複数の組のデータセクションであって、各組のデータセクションは、前記単語リストセクションの各単語に対応し、各組のデータセクションの各データセクションは、前記各単語について選択された実質的に異なる情報を格納するデータセクションと、
前記複数の組のデータセクションと分離した、前記単語リストセクションの各単語についての複数のポインタを格納する索引セクションであって、各複数のポインタは、ある自然言語処理に関連付けられた第1の組のポインタと、異なる自然言語処理に関連付けられた第2の組のポインタとを有し、前記第1の組のポインタは、前記第2の組のポインタと異なり、各ポインタは、前記複数の組のデータセクションのデータをポイントする索引セクションとを備え、
前記プロセッサは、前記コンピュータ記憶媒体から前記プログラムを読み出し、前記プログラムを実行し、
前記方法は、
前記プロセッサが、類似した情報を有する前記各レキシコンの前記複数の組のデータセクションに選択的にアクセスするステップと、
前記プロセッサが、実行される特定の自然言語処理に応じて前記第1または第2の組のポインタを使用し、アクセスしたデータセクションから情報を取得するステップと
を含むことを特徴とするコンピュータ実行方法。 - 前記選択的にアクセスするステップは、類似する情報を有する前記各レキシコンの少なくとも2つのデータセクションの単語情報を組み合わせるステップを含むことを特徴とする請求項1に記載のコンピュータ実行方法。
- 前記選択的にアクセスするステップは、
第1のレキシコンのデータセクションから単語情報を取得するステップと、
第2のレキシコンのデータセクションから単語情報を取得するステップと、
前記第2のレキシコンのデータセクションの情報だけを使用するステップと
を含むことを特徴とする請求項1に記載のコンピュータ実行方法。 - 前記選択的にアクセスするステップは、停止インディケータが見つかるまで前記各レキシコンの類似するデータセクションから単語情報を取得するステップを含むことを特徴とする請求項1に記載のコンピュータ実行方法。
- 前記データセクションに選択的にアクセスするステップは、選択された順序で前記複数のレキシコンに順次アクセスするステップを含み、
前記プログラムは、各レキシコンからの単語情報を読み出すか否かの第1の命令を備え、
前記プログラムは、前記複数のレキシコンの2つ以上からの単語情報を組み合わせる第2の命令を備えることを特徴とする請求項1に記載のコンピュータ実行方法。 - 前記データセクションに選択的にアクセスするステップは、
アクセスする各レキシコンについて、
特定の自然言語処理に応じて、対応する索引セクションのポインタ識別を確定するために、所与の単語に応じて対応する単語リストセクションにアクセスするステップと、
前記対応する索引セクションのポインタを得るために、前記ポインタ識別を使用するステップと、
前記複数のデータセクションのうちのどの対応するデータセクションに前記単語についての情報があるか、及び前記情報が前記対応するデータセクションのどこに位置するかを確定するために、前記ポインタを使用するステップと
を含むことを特徴とする請求項1に記載のコンピュータ実行方法。 - 前記選択的にアクセスするステップは、選択された順序で前記レキシコンに順次アクセスするステップを含むことを特徴とする請求項1に記載のコンピュータ実行方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/137,456 | 2002-04-30 | ||
US10/137,456 US7490034B2 (en) | 2002-04-30 | 2002-04-30 | Lexicon with sectionalized data and method of using the same |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003345796A JP2003345796A (ja) | 2003-12-05 |
JP2003345796A5 JP2003345796A5 (ja) | 2006-06-15 |
JP4724357B2 true JP4724357B2 (ja) | 2011-07-13 |
Family
ID=29249733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003125929A Expired - Lifetime JP4724357B2 (ja) | 2002-04-30 | 2003-04-30 | コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US7490034B2 (ja) |
EP (1) | EP1367501B1 (ja) |
JP (1) | JP4724357B2 (ja) |
CY (1) | CY1113100T1 (ja) |
DK (1) | DK1367501T3 (ja) |
ES (1) | ES2386631T3 (ja) |
PT (1) | PT1367501E (ja) |
SI (1) | SI1367501T1 (ja) |
Families Citing this family (205)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7421386B2 (en) * | 2003-10-23 | 2008-09-02 | Microsoft Corporation | Full-form lexicon with tagged data and methods of constructing and using the same |
US7398210B2 (en) * | 2003-10-23 | 2008-07-08 | Microsoft Corporation | System and method for performing analysis on word variants |
US7447627B2 (en) * | 2003-10-23 | 2008-11-04 | Microsoft Corporation | Compound word breaker and spell checker |
US7548849B2 (en) * | 2005-04-29 | 2009-06-16 | Research In Motion Limited | Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US20070078644A1 (en) * | 2005-09-30 | 2007-04-05 | Microsoft Corporation | Detecting segmentation errors in an annotated corpus |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US9047275B2 (en) | 2006-10-10 | 2015-06-02 | Abbyy Infopoisk Llc | Methods and systems for alignment of parallel text corpora |
US9645993B2 (en) | 2006-10-10 | 2017-05-09 | Abbyy Infopoisk Llc | Method and system for semantic searching |
US20080086298A1 (en) * | 2006-10-10 | 2008-04-10 | Anisimovich Konstantin | Method and system for translating sentences between langauges |
US8195447B2 (en) | 2006-10-10 | 2012-06-05 | Abbyy Software Ltd. | Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US9633005B2 (en) | 2006-10-10 | 2017-04-25 | Abbyy Infopoisk Llc | Exhaustive automatic processing of textual information |
US8548795B2 (en) * | 2006-10-10 | 2013-10-01 | Abbyy Software Ltd. | Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system |
US8214199B2 (en) * | 2006-10-10 | 2012-07-03 | Abbyy Software, Ltd. | Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US9984071B2 (en) | 2006-10-10 | 2018-05-29 | Abbyy Production Llc | Language ambiguity detection of text |
US8145473B2 (en) | 2006-10-10 | 2012-03-27 | Abbyy Software Ltd. | Deep model statistics method for machine translation |
US9235573B2 (en) | 2006-10-10 | 2016-01-12 | Abbyy Infopoisk Llc | Universal difference measure |
US8074172B2 (en) | 2007-01-05 | 2011-12-06 | Apple Inc. | Method, system, and graphical user interface for providing word recommendations |
US8959011B2 (en) | 2007-03-22 | 2015-02-17 | Abbyy Infopoisk Llc | Indicating and correcting errors in machine translation systems |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
WO2008151466A1 (en) * | 2007-06-14 | 2008-12-18 | Google Inc. | Dictionary word and phrase determination |
US8812296B2 (en) | 2007-06-27 | 2014-08-19 | Abbyy Infopoisk Llc | Method and system for natural language dictionary generation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8232973B2 (en) | 2008-01-09 | 2012-07-31 | Apple Inc. | Method, device, and graphical user interface providing word recommendations for text input |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9262409B2 (en) | 2008-08-06 | 2016-02-16 | Abbyy Infopoisk Llc | Translation of a selected text fragment of a screen |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US20100235780A1 (en) * | 2009-03-16 | 2010-09-16 | Westerman Wayne C | System and Method for Identifying Words Based on a Sequence of Keyboard Events |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US8989485B2 (en) | 2012-04-27 | 2015-03-24 | Abbyy Development Llc | Detecting a junction in a text line of CJK characters |
US8971630B2 (en) | 2012-04-27 | 2015-03-03 | Abbyy Development Llc | Fast CJK character recognition |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
RU2592395C2 (ru) | 2013-12-19 | 2016-07-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Разрешение семантической неоднозначности при помощи статистического анализа |
RU2586577C2 (ru) | 2014-01-15 | 2016-06-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Фильтрация дуг в синтаксическом графе |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9606983B1 (en) * | 2014-08-27 | 2017-03-28 | Amazon Technologies, Inc. | Human readable mechanism for communicating binary data |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
RU2596600C2 (ru) | 2014-09-02 | 2016-09-10 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы обработки изображений математических выражений |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9626358B2 (en) | 2014-11-26 | 2017-04-18 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US10110385B1 (en) | 2014-12-22 | 2018-10-23 | Amazon Technologies, Inc. | Duress signatures |
US9866393B1 (en) | 2014-12-22 | 2018-01-09 | Amazon Technologies, Inc. | Device for creating reliable trusted signatures |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US9819673B1 (en) | 2015-06-24 | 2017-11-14 | Amazon Technologies, Inc. | Authentication and authorization of a privilege-constrained application |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11010553B2 (en) * | 2018-04-18 | 2021-05-18 | International Business Machines Corporation | Recommending authors to expand personal lexicon |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
CN110795173A (zh) * | 2019-10-30 | 2020-02-14 | 深圳市元征科技股份有限公司 | 一种数据处理方法、装置和电子设备及可读存储介质 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4384329A (en) * | 1980-12-19 | 1983-05-17 | International Business Machines Corporation | Retrieval of related linked linguistic expressions including synonyms and antonyms |
US4724523A (en) * | 1985-07-01 | 1988-02-09 | Houghton Mifflin Company | Method and apparatus for the electronic storage and retrieval of expressions and linguistic information |
JPS608980A (ja) * | 1983-06-28 | 1985-01-17 | Brother Ind Ltd | 電子辞書 |
US4736296A (en) * | 1983-12-26 | 1988-04-05 | Hitachi, Ltd. | Method and apparatus of intelligent guidance in natural language |
JPS60245083A (ja) * | 1984-05-18 | 1985-12-04 | Brother Ind Ltd | 電子辞書 |
JPS6126176A (ja) * | 1984-07-17 | 1986-02-05 | Nec Corp | 言語処理用辞書 |
US4771385A (en) * | 1984-11-21 | 1988-09-13 | Nec Corporation | Word recognition processing time reduction system using word length and hash technique involving head letters |
US4868750A (en) * | 1987-10-07 | 1989-09-19 | Houghton Mifflin Company | Collocational grammar system |
US5056021A (en) * | 1989-06-08 | 1991-10-08 | Carolyn Ausborn | Method and apparatus for abstracting concepts from natural language |
JPH03161727A (ja) * | 1989-11-20 | 1991-07-11 | Fuji Photo Film Co Ltd | カメラの主要被写体検出装置 |
US5708829A (en) * | 1991-02-01 | 1998-01-13 | Wang Laboratories, Inc. | Text indexing system |
JP2875075B2 (ja) | 1991-10-30 | 1999-03-24 | シャープ株式会社 | 電子辞書 |
US5867812A (en) * | 1992-08-14 | 1999-02-02 | Fujitsu Limited | Registration apparatus for compound-word dictionary |
US6278967B1 (en) * | 1992-08-31 | 2001-08-21 | Logovista Corporation | Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis |
US6760695B1 (en) * | 1992-08-31 | 2004-07-06 | Logovista Corporation | Automated natural language processing |
JPH0756957A (ja) * | 1993-08-03 | 1995-03-03 | Xerox Corp | ユーザへの情報提供方法 |
US5611076A (en) * | 1994-09-21 | 1997-03-11 | Micro Data Base Systems, Inc. | Multi-model database management system engine for databases having complex data models |
US5715468A (en) * | 1994-09-30 | 1998-02-03 | Budzinski; Robert Lucius | Memory system for storing and retrieving experience and knowledge with natural language |
JP3003915B2 (ja) * | 1994-12-26 | 2000-01-31 | シャープ株式会社 | 単語辞書検索装置 |
JPH08323842A (ja) * | 1995-06-02 | 1996-12-10 | Tsutsunaka Plast Ind Co Ltd | シートブロー成形品と成形方法 |
US5864863A (en) * | 1996-08-09 | 1999-01-26 | Digital Equipment Corporation | Method for parsing, indexing and searching world-wide-web pages |
US6081774A (en) * | 1997-08-22 | 2000-06-27 | Novell, Inc. | Natural language information retrieval system and method |
US5995992A (en) * | 1997-11-17 | 1999-11-30 | Bull Hn Information Systems Inc. | Conditional truncation indicator control for a decimal numeric processor employing result truncation |
US6298321B1 (en) * | 1998-11-23 | 2001-10-02 | Microsoft Corporation | Trie compression using substates and utilizing pointers to replace or merge identical, reordered states |
US6675169B1 (en) * | 1999-09-07 | 2004-01-06 | Microsoft Corporation | Method and system for attaching information to words of a trie |
JP3717730B2 (ja) * | 1999-11-02 | 2005-11-16 | セイコーインスツル株式会社 | 電子辞書 |
US6792418B1 (en) * | 2000-03-29 | 2004-09-14 | International Business Machines Corporation | File or database manager systems based on a fractal hierarchical index structure |
-
2002
- 2002-04-30 US US10/137,456 patent/US7490034B2/en not_active Expired - Fee Related
-
2003
- 2003-04-23 SI SI200332181T patent/SI1367501T1/sl unknown
- 2003-04-23 ES ES03008804T patent/ES2386631T3/es not_active Expired - Lifetime
- 2003-04-23 PT PT03008804T patent/PT1367501E/pt unknown
- 2003-04-23 EP EP03008804A patent/EP1367501B1/en not_active Expired - Lifetime
- 2003-04-23 DK DK03008804.1T patent/DK1367501T3/da active
- 2003-04-30 JP JP2003125929A patent/JP4724357B2/ja not_active Expired - Lifetime
-
2012
- 2012-09-10 CY CY20121100816T patent/CY1113100T1/el unknown
Also Published As
Publication number | Publication date |
---|---|
EP1367501B1 (en) | 2012-06-13 |
CY1113100T1 (el) | 2016-04-13 |
US20030204392A1 (en) | 2003-10-30 |
DK1367501T3 (da) | 2012-07-16 |
PT1367501E (pt) | 2012-08-08 |
ES2386631T3 (es) | 2012-08-24 |
SI1367501T1 (sl) | 2012-09-28 |
EP1367501A3 (en) | 2007-01-03 |
US7490034B2 (en) | 2009-02-10 |
JP2003345796A (ja) | 2003-12-05 |
EP1367501A2 (en) | 2003-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4724357B2 (ja) | コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法 | |
US6654731B1 (en) | Automated integration of terminological information into a knowledge base | |
KR101204128B1 (ko) | 고성능의 구조적 데이터 변환을 위한 하드웨어/소프트웨어파티션 | |
US9495358B2 (en) | Cross-language text clustering | |
KR101120798B1 (ko) | 텍스트로부터 세만틱 구조들을 식별하기 위한 방법 및장치 | |
US8041557B2 (en) | Word translation device, translation method, and computer readable medium | |
JP3690938B2 (ja) | インデックスの作成装置および作成方法、ならびに記憶媒体 | |
US7024351B2 (en) | Method and apparatus for robust efficient parsing | |
US8996593B2 (en) | File management apparatus and file management method | |
US20070156404A1 (en) | String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method | |
JP2006178946A (ja) | ワークブックを表現するためのファイルフォーマット、方法およびコンピュータプログラム製品 | |
JP2007265458A (ja) | 複数の圧縮オプションを生成する方法およびコンピュータ | |
JP2005251206A (ja) | 単語分割で使用される新単語収集方法およびシステム | |
KR20060101493A (ko) | 구조적 데이터 변환을 위한 장치 | |
JP2006178944A (ja) | 文書を表すファイル・フォーマット、その方法、およびコンピュータ・プログラム製品 | |
EP1471440A2 (en) | System and method for word analysis | |
JP4493397B2 (ja) | テキスト圧縮装置 | |
US20090132521A1 (en) | Efficient Storage and Retrieval of Posting Lists | |
US11544304B2 (en) | System and method for parsing user query | |
WO2020157887A1 (ja) | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム | |
CN1627289B (zh) | 用于分析汉语的装置和方法 | |
Meyer | On Sanskrit and information retrieval | |
JP2546245B2 (ja) | 自然言語文生成方法 | |
KR100371135B1 (ko) | 용언 굴절사전을 이용한 용언 형태소 분석장치 및 방법 | |
JP2001034630A (ja) | 文書ベース検索システム、およびその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060426 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070525 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070824 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070829 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070925 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070928 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20071025 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20071030 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071126 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071211 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080310 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20080311 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20080311 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080423 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20080627 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20100524 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100524 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110304 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110411 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140415 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |