JP3196868B2 - テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ - Google Patents
テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサInfo
- Publication number
- JP3196868B2 JP3196868B2 JP15980493A JP15980493A JP3196868B2 JP 3196868 B2 JP3196868 B2 JP 3196868B2 JP 15980493 A JP15980493 A JP 15980493A JP 15980493 A JP15980493 A JP 15980493A JP 3196868 B2 JP3196868 B2 JP 3196868B2
- Authority
- JP
- Japan
- Prior art keywords
- fst
- word
- stem
- transducer
- pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90348—Query processing by searching ordered data, e.g. alpha-numerically ordered data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
スし検索するコンピュータ化された情報検索装置又はシ
ステム、このような情報検索装置に使用するデータベー
ス、及びこのようなデータベースを形成する方法に係
る。
に異なった形で現れるワードによって系統的に表される
べき意味の共通要素を考慮している。例えば、英語で、
「到着する(arrive)」の共通の意味は、感染的変化「到
着した(arrived) 」、「到着する(arrives) 」、「到着
しつつある(arriving)」(並びに「到着する(arrive)」
それ自体)と、派生的変化「到着(arrival) 」とによっ
て伝えられる。このような全ての変化についての意味の
共通要素を示す基本的なワードをしばしば語幹と称し、
そして変化形態から語幹を決定する言語形態学的な分析
プロセスをしばしば語幹決定と称する。語幹からそのあ
らゆる変化形態へ別の仕方で至るプロセスをしばしば合
成又は発生と称する。
ンデックス及び検索において重要な役割を果たすことが
できる。文書からテキスト文節をそれらの意味に基づい
てインデックスし検索することに主たる関心のあるユー
ザは、共通語幹の変化を区別するのを望まないことがあ
る。従って、ユーザが「到着しつつある(arriving)」の
ワードで質問に入る場合に、「到着する(arrive)」、
「到着する(arrives) 」等のいずれかを含むテキスト文
節に一致するものとして処理することができる。これ
は、精度を犠牲にすることなく呼び戻しを改善する重要
な効果を果たす。
び検索に関する語幹決定は、英語のような言語形態学的
に単純な言語でも実施がかなり困難であることが分かっ
ている。英語に関する従来の技術(例えば、1968年
3月のメカニカル・トランスレーション・アンド・コン
ピューテショナル・リングシテックス11の第22ない
し31頁に掲載されたJ.B.ルービンス著の「語幹決
定アルゴリズムの開発(Development of a Stemming Alg
orithm) 」; 及び1980年7月のプログラム14の第
3号、第130ないし137頁に掲載されたM.F.ポ
ーター著の「サフィックスストリッピンのためのアルゴ
リズム(An Algorithm for Suffix Stripping) 」)は、
ワードを語幹のようなキャノン的形態にマップさせるた
めに「テイル−クロッピング(尻尾切り)」アルゴリズ
ムを使用している。従って、系統的に変化するサフィッ
クス(接尾部)文字を剥がして各ワードを全ての変化に
共通の最も長いプレフィックス(接頭部)へとマップす
るルール即ちアルゴリズムが書かれる。例えば、「到着
する(arrive)」の全ての形態は、文字列「arriv 」("e"
をもたない)へと剥される。というのは、これが全ての
形態に共通する最も長い接頭部だからである(即ち、"
e" は"arriving"にも"arraival"にも現れないから) 。
例外を取り扱う特殊な機構をもたないと、このようなや
り方は、「泳ぐ(swim)」の全ての形態を「sw」に変換し
てしまう。というのは、これが変化しない最も長い接頭
部だからである。
多数の欠点がある。先ず、それにより得られる語幹の文
字列は、しばしば英語のワードにならない(sw,arriv)
。これらは、ユーザの質問が知覚し得る仕方で解読さ
れているかの確認を希望する純真なユーザに提示するこ
とができない。
び派生的変化を取り扱う特殊な機構を必要とする。通常
は、最も明らかで且つ共通のケース(例えば、聞く(hea
r)→聞いた(heard) 、良い(good)→より良い(better))
に対して例外辞書が設けられるが、この辞書の入力数
は、通常、得られるデータ構造が大きくなり過ぎないよ
うに制限される。例外的な変化を完全に処理しないと、
精度が悪化し、ある研究者は精度を実質的に下げずに語
幹の決定で呼び戻しを顕著に改善できないと結論する点
に至っている。
ち、ワードから語幹へマッピングするには良いが、所与
の語幹から全ての変形形態を発生することはできない。
又、語幹決定のアルゴリズムを質問のみに適用するだけ
でなく、インデックスを構成するためのサーチの前又は
サーチ中のいずれかに文書のテキスト自体にも適用し
て、語幹の付いたテキストワードに対して質問−語幹を
一致できる場合には適当なサーチ特性を発揮する。従っ
て、この解決策は、インデックス動作のための文書のデ
ータベースを予め処理できるか(これは語幹決定に対し
て改良を行うときに再実行しなければならない)或いは
サーチ中の語幹決定について時間的なペナルティが禁じ
られない場合のみに用途が限定される。
い。各々の自然言語ごとに全く異なるアルゴリズムを書
かねばならず、接頭部及び挿入部のある言語の特性を取
り扱うためには、このようなアルゴリズムの一般的な技
法すら変更しなければならない。
形式のシステムで、上記欠点の1つ以上を克服するよう
なシステムを提供することである。
キストをインデックス及び検索できるだけでなく、語幹
決定を用いてユーザの質問に対する応答性を著しく高め
ることのできるシステムを提供することである。
のデータベースで実施できて公知システムより短い応答
時間を与える上記形式のシステムを提供することであ
る。
テキスト処理に適用できるシステムを提供することであ
る。
テムに使用する改良されたデータベースと、このような
データベースを構成する改良された方法とを提供するこ
とである。
の全テキスト検索に語幹(ワードの意味のキャノン的指
示体)を用いる際の多数の問題を解決し、従って、精度
を犠牲にすることなく呼び戻しを改善することができ
る。
の感染的形態、いゆる変化を、同じキャノン的辞書の形
態即ち語句表示にマップできることが分かった。これ
は、規則的な形態及び不規則な形態の両方に適用され
る。
ンスジューサ(FST)によってマッピングが得られ
る。意外なことに、所望のマッピングを与えると共に、
適度なサイズであって、且つ質問に対して適度な応答時
間を与える単一の合体式限定状態トランスジューサを構
成できることが分かった。意外な点は、それ自身の一連
の状態を各々有する何百又は何千もの小さなFSTの組
み合わせを表すこの単一のFSTは、実際的でないかさ
もなくば使用が不可能であるような巨大なサイズのFS
Tになると予想されていたことである。
ズの単一のFSTは、言語の必要性を満たすために形成
される小さなFSTの合成及び交差の組み合わせにより
得られる。
多数の重要な効果が確保される。ここに述べる技術は、
世界中の言語に一般に適用でき、英語のような簡単な接
尾語言語のみに限定されるものではない。
の言語に適用できる非常に融通性のあるシステムを構成
するように多数の異なる仕方で形成することができる。
例えば、既存のデータベースを再構成又は変更する必要
なく不規則な形態を含むことができる。
限定されるものではない。所与のテキストワードから語
幹を計算できる一方、その所与のワードの語幹に対して
他の全ての変化形態を計算することもできる。これらの
変化を用いて質問を拡張し、適当な文書が見つかる確率
を高めることができる。
決定FSTと合成して、テキスト中の一連の句読点付き
文字をそれに対応する一連の語幹にマップする単一のト
ランスジューサを構成するようにも適用できる。
接辞及びスピーチ部分タグに関連させると共に語幹にも
関連させるように構成されたFST、ここでは言語形態
学的分析器と称する、が提供される。1つの実施例にお
いては、FSTは、ルックアップ及びルックダウン動作
を行うことのできる文字ベースのトランスジューサであ
る。このような分析器は、テキストの検索に有用である
だけでなく、他の形式の自動テキスト処理分野にも有用
である。
な説明から理解されよう。これは、本発明の好ましい実
施例を一例として示すもので、本発明をこれに限定する
ものではない。
ての語幹とその変化の関係を表すように限定状態トラン
スジューサより成る記憶されたデータベースを構成し、
そしてこれをテキストインデックス及び検索システムに
使用することである。より詳細には、本発明による限定
状態トランスジューサは、考えられる全てのテキスト形
態即ち表面形態の組を定め、そしてこの組をそれに対応
する語彙形態即ち語幹にマップすることである。
ストリングの順序付けされた対の組をエンコードするた
めの良く知られた装置である。例えば、1組の対{<ar
rivearrive >、<arrive arriving >、<arrive arri
ved>、<arrive arrives>、<arrive arrival>}
は、簡単なFSTにおいてエンコードできる。一般に、
FSTは、「規則的な関係」を表すのに使用することが
でき、これは、この例のような順序付けされたストリン
グ対の限定リストを含むだけでなく、順序付けされた対
の幾種類かの限定収集体も含む。順序付けされた対がF
STのデータ構造体としていったんエンコードされる
と、この構造体をコンピュータプロセッサにより使用し
て、所与の入力に関連した全ての項目を得ることができ
る。従って、語幹「arrive」が与えられると、全ての種
々の形態を得ることができ(発生)、又は変化形態の1
つ(arrival) が与えられると、その語幹(arrive)を得る
ことができる。所与のワードが2つ以上の語幹の形態で
ある(例えば、「found 」は、「find」の過去形か又は
「found 」の現在形である)場合には、2つの正しい語
幹が与えられる。
て感染型ワードをその語彙表示にマップするかを示して
いる。この場合は、語彙表示即ち語幹である「arrive」
を、表面レベルにおけるそのテキスト変化の1つである
「arriving」にマップする簡単なFSTが示されてい
る。
「s」で示されそして終了状態は二重の円で示されてい
る。終了点の記号εは、匹敵する文字が存在しなくても
FSTがプロセスを続けられるようにするゼロ(NULL)記
号として働くイプシロンである。従って、図2に示す簡
単な状態の場合に、ユーザが「arrive」を入力すると、
FSTは、ルックダウン(即ち発生的)動作で「arrivi
ng」を出力する。又、ユーザが「arriving」を入力する
と、FSTは、ルックアップ(確認又は語幹決定)動作
で「arrive」を出力する。このように、下部の表面レベ
ルワードと上部の語彙表示との間でマップするように単
一のFSTを容易に形成することができる。同様に、言
語ルールにより定められた変化への語幹のマッピングを
実行するように単一のFSTを容易に形成することもで
きる。語彙表示は、スピーチの部分、大文字小文字の
別、性、数及び変化形態の他の言語形態学的特性に関す
る情報を含むことができる。この情報は、通常の文字と
同様にトランスジューサにおいてアークラベルを形成す
る記号タグの形態の語彙表示でエンコードすることがで
きる。例えば、図2に示すように、「arriving」という
形態を語幹「arrive」のみにマップするのではなく、+P
resPart という形態学的タグで表示されたアークをトラ
ンスジューサに追加して、「arriving」は「arrive」の
現在分詞形であるという情報をエンコードすることがで
きる。これが図19に示されている。ワードを接辞及び
スピーチ部分タグ並びに語幹に関連付けるよう構成され
たトランスジューサを「言語形態学的分析トランスジュ
ーサ」又は「言語形態学的分析器」と称する。これらの
トランスジューサは、上部側のストリングに余計なタグ
情報が含まれたという点のみが通常の語幹決定トランス
ジューサとは異なり、これらは全く同じ技術及びアルゴ
リズムにより構成、操作、圧縮及び適用することができ
る。
印で表された発生(ルックダウン)モードで使用され
て、適当な形態「arriving」を導出すると共に、上向き
の矢印で表された確認(ルックアップ)モードで使用さ
れて、ワード「arriving」を、語幹「arrive」及び接尾
部「ing 」で表される形態学的特徴にマップすることが
できる。図19に示したアルファベットの形態学的タグ
を含む文字ベースのトランスジューサは、公知のトラン
スジューサよりも形態学的分析及び発生について非常に
コンパクトなツールである。公知のトランスジューサは
文字ではなくテストリングをアークラベルとして使用す
る。これは、文字ベースのトランスジューサに比してア
ルファベットのサイズを著しく増加し、対応するルック
アップ及びルックダウン動作において非常に複雑な一致
を必要とする。更に、文字ラベルの付いた遷移を用いる
本発明の技術では、標準的な決定及び最小化アルゴリズ
ムにより、言語の多数のワードが分担する最初と終わり
のサブストリングをつぶすことができる。この作用が図
20及び21に示されており、少数のワード(arrivin
g, arresting, arrogating )に対し、本発明の文字ベ
ースの表示で許される最初のサブストリングの分担(図
20)と、それに対応するストリングベースの表示(図
21)とが対比されている。図20と21とで、文字a
及びrの発生がどれほど少ないかに注目されたい。文字
ベースの分担は、全言語トランスジューサのサイズを著
しく減少することができる。両形式のトランスジューサ
は、形態学的情報を実際に状態についての注釈として表
しアークラベルとしては表さない形式のシステムよりは
分析についてより効率的である。
トの検索を行うのに有用であるだけでなく、他の形式の
自動テキスト処理分野にも有用である。例えば、人々が
参考として使用することのある動詞の連結及び切断を行
ったり、特に英語以上に浸透する言語を教えたりするた
めの装置に使用することができる。これらは、最初のル
ックアップ段階において、機械で別の目標言語に変換す
べきソース言語入力センテンスのワードを処理し、そし
て最後のルックダウン段階において、その変換プロセス
により得られた形態学的特性から目標言語の実際のワー
ドを形成するように使用できる。別の例としては、自然
言語のセンテンスをデータベース質問システムにおいて
分解する前にルックアップ段階で使用することもでき
る。
ことができる。例えば、言語を表す語彙集は、次のもの
を含むことができる。
にない場合には、これらを簡単にリストすることができ
る(図3)。このリストは、規則的及び不規則な語幹/
変化対を含む(図4)。2.系統的な伝染的及び派生的
代替物、例えば、語幹の規則的ワード変化は、言語学ル
ールシステム即ち文法によって表すことができ、多数の
種類のルール(例えば、2レベルのルール及び順序付け
された再書き込みシステム)をFSTコンパイル機能に
組み込むのが好ましい(図5)。3.上記2項のルール
システムを、限定リスト(図6)として簡単にリストで
きる未解決の不規則な形態と組み合わせる。
彙集は、各リストエレメント又はルールのマッピングを
行うようにFSTを形成して、リストで作り上げられる
か、ルールで作り上げられるか、或いはリスト及びルー
ルで作り上げられる。これらの全てを1つのグループと
して適切に解釈するシステムに匹敵するにはこのような
FSTが数百あり、そしてこのシステムを正しく且つ効
率的に実施することは困難である。しかしながら、これ
らは全て、その全部が一緒に動作するのと同じ作用をも
つ単一のFSTに合体することができ、単一のトランス
ジューサで発生及び確認を行うアルゴリズムは、簡単で
且つ効率的である。これが図7に示されている。
れる。図7の左側には、一連のFST10、11、1
2、13が直列関係で配列されており、その各々は文法
の特定のルール1、2、3...Nを実行する。これら
は、FSTの公知の合成アルゴリズムによりカスケード
状に合成されて単一のFST15に合体される。或いは
又、その右側に示したように、ルール1、2、3...
Nに対する個々のFST10’、11’、12’、1
3’を並列関係に配列し、公知の交差アルゴリズムによ
って単一の合体したFST15に合成することもでき
る。FSTがいかに形成されようと、FSTの計算法に
よりトランスジューサが合体されることが利点である。
特に、不規則な形態の限定リストに対応するトランスジ
ューサは、ルール(図6の組み合わせ)に対応するFS
Tと次の方法で合体することができる。不規則な対(例
えば、<hear heard>)限定リストから導出されたトラ
ンスジューサをIとしそして規則的なルール(誤って<
hear heard>を含む)から導出されたトランスジューサ
をRとすれば、2つの情報源を適切に合体することがで
きる。好ましい方法は次の通りである。関係Iのドメイ
ンの補数に対する同一トランスジューサを計算し、これ
とRを予め合成し、次いで、その結果をIと結合する。
これにより、Iの例外によって拒絶されない場合だけR
に定められた語幹−変化のマッピングが与えられる。一
般に、最終的なFSTは、多数の異なる技術によって定
められた部片から形成され、規則性を保持する非常に多
数の関連動作を用いて一緒に合成することができる。
が形成されると、公知の尻尾切りアルゴリズムを使用す
るときにこのFSTを直接使用して、一致の前に質問及
びテキストワードの両方の語幹を決定することができ
る。しかし、質問の変化形態を同じ語幹の他の全ての変
化の分離へと拡張する発生体として、これを逆の方法で
使用することもできる。従って、「arrive」を含む質問
は、可能性{arrive, arrival, arrives, arrived, arr
iving }の分離へと拡張され、この1組の語を語幹決定
されないテキストに一致させることができる。語幹決定
トランスジューサをその逆構成と合成するだけでこの機
能を正確に発揮する単一のFSTを容易に構成すること
ができる。FSTの逆構成は、各遷移ラベルの上部及び
下部記号を単に交換する公知の技術によって形成でき
る。これに対し、尻尾切りアルゴリズムの逆構成を計算
することは非常に困難であるか又は不可能である。
56,000の語幹と218,000の変化を含む英語
のデータベースの場合に、得られるFSTは巨大なサイ
ズとなって膨大な量の記憶メモリを必要とすると共に高
速アクセスのプロセッサでもかなりの時間を必要とする
ことが予想される。これは、より限定されたCPUとメ
モリリソースを有するPCを使用しているユーザのメイ
ンフレームにとってもその重要な区分にとっても問題で
ある。本発明の更に別の特徴によれば、限定されたRA
Mをもつ中程度の価格のPCでもこのようなFSTを情
報検索語幹決定に対して実用的なものにする多数の技術
が開示される。これらの技術は、次のものを含む。
状態マシン(FSM)にコンパイルしそして語幹−変化
対及びルールを限定状態トランスジューサにコンパイル
する方法;(2)同じ入力−出力特性を有する単一のF
STを他のFSTの全集合体として形成する方法;
(3)FSMデータ構造体においてFSTを表す方法;
そして(4)FSMを最小空間においてエンコードする
技術。
FSTを形成しそしてこれを単純なFSM(感染形態又
は語彙形態のみを含んでいて、2つの表示間のマッピン
グはもたない)より適度に大きいサイズのみに圧縮する
ことが望ましい。
憶装置に対してエンコードする種々の技術が別の関連特
許出願に述べられている。これらの技術は、FSMデー
タ構造体の情報を、状態自体ではなくて状態間の遷移に
結び付けることに基づいている。1テープFSMにおい
ては、遷移が単一文字で表示されるが、FSTでは、遷
移が文字対で表示される。図18に示す非常に簡単な変
換によりFSTをFSMに変換することができる。各々
のFST遷移は、一連の2つの遷移をもつ形式X:Yの
対ラベルと置き換えられ、Xと表示された方は、X:Y
遷移の元の状態(「1」と示す)から離れて新たな状態
(「NEW」と示す)へ通じており、そしてYと表示さ
れた方は、この新たな状態からX:Y遷移の行き先状態
(「2」と示す)へと通じている。このように全てのア
ークを置き換えた結果が、元のFST遷移の上側及び下
側が各々奇数及び偶数遷移で表された1テープFSMで
ある。このFSMは、次いで、標準技術により決定され
そして最小にされる。従って、本発明のFSTはそれに
等価なFSMに変換することができ、上記関連出願のコ
ンパクト化技術及びアルゴリズムをこれに適用すること
ができる。これは、本発明の解決策の重要な利点であ
る。又、上記関連出願の計算マシンは、本発明を実施す
るのに使用できるマシンと同じ種類のものであることに
注意されたい。これらマシンについてはここでは詳細に
述べない。しかし、図1に示すように、マシン30は単
純な汎用コンピュータであって、エンコードされたデー
タ構造体及びプログラムを通常の仕方で記憶する手段3
1(RAM、ROM、DISC、又はテープ)を備えて
おり、このデータ構造体及びプログラムは、CPU32
で実行されると、ユーザの質問33を受け取り、エンコ
ードされたメモリをサーチして(34)、ユーザが供給
した入力との一致を探し、そして例えば、モニタ36を
介してユーザに、その見つかった一致項目を出力する
か、それらが見つかった文書の識別を出力するか、又は
一致が見つからない指示を出力する、ということだけ述
べれば充分であろう。
又は語彙形態を発生するように形成されたFSTの例を
示している。ワードの2レベルルールの例としては、語
彙Nが表面mとして現れるというもので、但し、これは
その後に語彙側にpを伴う場合だけである(このp自身
がいかに現れるかに係わりなく)。この2レベルルール
は、式としては、N:m<=> pである。このルール
は、ワード「impractical 」及び「intractable 」が各
々語彙形態「iNpractical 」及び「iNtractable 」から
導出されたもので、これらは「not 」の意味の接頭部と
して同じ語彙表示(iN)を有している。図8に示す対
応するトランスジューサは、状態50、即ち開始及び終
了状態の両方である二重円を備えている。Nがmとして
現れる場合には、トランスジューサは、状態51、即ち
次の入力としてpを必要とする非最終状態へ移動する。
Nがnとして現れる場合には、トランスジューサは、p
の追従を許さない状態52へ移動する。従って、トラン
スジューサは、ルールでは明確に表されないという1つ
の追加事実をエンコードし、語彙Nは他の全ての場合に
nとして現れる。各ルールは、それら自身のFSTを図
7について述べたように単一のルールFSTに合成す
る。
態を最小にするためのアルゴリズムとしては多数のもの
が知られていることを理解されたい。得られるデータ構
造体のサイズを更に減少するためにもこれらを使用しな
ければならない。
が真の語幹であるかどうかに係わりなく又そうであった
としても、これら全てのストリングに文法の1組のルー
ルが適用される。これらルールは、特定の辞書もしくは
語彙集にリストされた項目のみに適用するように制約す
るのが望ましい。語彙集におけるワードのリストは、限
定状態マシンとして表すことができるので、この制約
は、FST合成演算子によって達成することができる。
語彙集の各ワードをそれ自身へとマップする同一トラン
スジューサが形成されるが、これは、例えば、FSMに
おける各遷移のラベルを、そのラベルの2つの場合を含
む対と置き換えることによって行うことができる。この
同一トランスジューサは、ルール及び不規則形態(図
6)を表すFSTと合成される。これにより得たFST
は、今度は、語彙集における形態のみに適用するように
限定される。この単一の合体されたFSTは特に重要で
ある。というのは、ソース語彙を任意の数のルールトラ
ンスジューサと合成すると、言語の充分に形成されてい
る全てのワード形態を系統的な仕方で列挙する簡単なル
ックダウンアルゴリズムを形成できるからである。ルー
ルに基づく列挙は、テキストの集合体から導出したワー
ドリストよりも完全であり、語幹決定のような用途では
重要である。
成すべき場合には、本来の動作順序は、ルールの交差に
対してFSTを形成し、そしてこれを語彙の同一トラン
スジューサと合成することである。このやり方が図9に
示されており、第1組のルールトランスジューサfst
1 ...fstn 61、62、63が記号&で示された
ように交差することが示されている。実際に、この交差
を行うには、強力なワークステーションにおいても多大
な時間を要し、それにより得られたトランスジューサは
かなり大きなものになることが分かった。多くの場合
に、この計算を行って完了させることはできない。とい
うのは、時間又はメモリに制約があるからである。しか
しながら、これを構成して(64)語彙集65と合成し
た(円記号で示す)ときには、最終的な結果66は、そ
のサイズがかなり扱い易いものとなることも分かった。
これは、FSTを語彙のワードの特定リストのみに適用
するときには交差における多くの状態及び遷移が決して
進められず、合成手順において除去されるからである。
て作用するFSTを形成するための本発明の好ましい方
法が図10に示されている。この方法は、扱い難い大き
な中間構造体64の計算を回避する一方、取り扱い易い
サイズの最終結果を生じるようにする。この例では、ル
ールトランスジューサ61...63の組が交差される
と同時に語彙形態65と合成されて、所望の語彙トラン
スジューサ70が形成される。この同時の交差及び合成
は、図9に64で示した大きな中間結果を回避する。こ
れにより得られる語彙トランスジューサ70は、所望の
合体したFST70であり、語彙をルールトランスジュ
ーサの交差と合成することにより論理的に定められたマ
ップである。
る新規な技術に関するものであることを理解されたい。
これはFSTの使用に基づいている。必要な記憶量を減
少すると共に速度を高めるためにコンパクトなFSTが
所望される。効率的なことから上記したようにあるコン
パクト化技術が好ましい−−そして本発明の重要な利点
はこのような好ましいコンパクト化構成を本発明の実施
に使用できることである−−が、本発明はこのような好
ましいコンパクト化構成の使用に限定されるものではな
く、本発明の原理から逸脱せずに実質上全てのコンパク
ト構成を組み込むことができる。
発明の情報検索における重要な利点は、公知の語幹決定
機構が典型的に表面形態から語幹への一方向にしか動作
しなかったのに対して、形成された単一の合体したFS
T80が両方向に動作できることである。これは、本発
明の融通性及び既存のデータベースへの利用性を著しく
高める。典型的な既存のデータベースは、ワードに対す
る文書の位置を指示する値のワードインデックスを有す
るものが多く、語幹インデックスを有するものではな
い。本発明は、次の2つの方法の1つで容易に追加する
ことができる。即ち、(1)合体したFSTを使用し
て、ワードインデックスの語幹を予め決定しそしてその
ワードインデックスからの対応する値にリンクされた語
幹のみの新たなインデックスを形成する。図11は、表
面形態の質問ワードが入力されたときに(81)、ルッ
クアップアルゴリズムを適用して(82)、質問ワード
からその語幹を形成することを示している。次いで、そ
の質問語幹にとの一致に対して新たな語幹インデックス
を走査することができる(83)。この一致がユーザへ
出力される(88)。(2)図12に示すように、ルッ
クアップアルゴリズムを適用することにより入力ワード
の語幹を予め決定し(82b)、次いで、FSTを使用
する(86)が、このときはルックダウンアルゴリズム
を用いてその語幹の全ての変化を発生する。その後、各
変化との一致を探して元のワードインデックスを走査す
る(83b)。(3)この第2のやり方に代わるものが
図13に示されている。この場合は、合体したFSTを
その逆構成のものと合成することにより形成した単一の
FSTにおいてルックアップアルゴリズムを実行するこ
とにより全ての語幹変化が形成される(82c)。この
別のやり方は、図12の方法よりも高速であるが、ある
場合には、合成されるトランスジューサが実施するには
大きくなり過ぎることがある。いずれの場合にも、語幹
及びその変化を対称的に取り扱うFSTの能力により、
関連ワードを含む文書の識別に著しい改善結果が得られ
る。従って、既存のデータベースは、それらのサーチ機
能を向上するのに特殊な処理を必要としない。更に別の
特別な利点として、FSTは優れた語幹決定機能を果た
し、形成される各語幹が完全な英語のワードであるよう
保証することができる。
ワードインデックスが存在しない文書データベースにも
適用できる。この状態においては、83b及び83cで
走査されるデータベースは、データベース内の文書の全
テキストである。従って、質問ワードは1組の全ての変
化にまで拡張され、これらはデータベース内の全てのワ
ードと分離的に比較され、一致が決定される。図11の
手順の変形態様を実施することもできる。即ち、質問ワ
ードに対する語幹がいったん計算され、そしてこれが文
書データベース内の各ワードの語幹(ルックアップアル
ゴリズムを用いて計算された)と比較される。これが図
14に示されている。図15は、トランスジューサを先
ず文書テキストのデータベースに適用して語幹インデッ
クスを構成し、次いで、その入力を特定の質問ワードの
語幹に対して一致させるやり方を示している。同様のブ
ロックは同じ参照番号で示してある。
与える多数の語幹を発生できるような例がある。例え
ば、表面形態が「DOES」の場合には、語幹は「DO」とな
り(ここでは「DOES」は動詞として扱われる)、或いは
語幹は「DOE 」となる(ここでは「DOES」は複数の「de
er」として扱われる)。この状態を解決するのに種々の
ルールを適用することができる。1つの簡単な解決策は
両方の語幹を形成し、その各々をそれがあたかも唯一の
語幹であるかのように処理することであるが、最悪の場
合、識別される文書の数を増加させる。ここで従うこと
のできる1つのルールは、常に最も短い語幹を選択する
ことである。上記例の場合では、「DO」を選択するが、
これはその感染的形態の中に「DOE 」及び「DOES」を含
む。しかしながら、トランスジューサが形態学的分析器
として動作して、接辞及びスピーチ部分タグと語幹を発
生するように構成される場合には、スピーチ部分のあい
まいさを解消するための多数の公知技術の1つを使用し
て、特定の文章構成内で適当な語幹を選択することがで
きる。
することにより使用される。その実行中に、FSTは、
前記のように語幹決定又は発生のために処理され即ち進
められる。
発明のトランスジューサ技術の更に別の利点は、次の通
りである。インデックスされるべき文書のテキストにお
けるワードは、種々の感染的形態で現れるのみならず、
種々の句読点文章、スペースやカンマやピリオド等に隣
接する大文字及び小文字、又は他のワードのアルファベ
ット文字にすぐ隣接したドイツ語やフィンランド語のよ
うな複合言語の形態でも現れる。インデックスされるべ
き個々のワードを作り上げている文字のまわりに特殊な
マーカを挿入し、全て小文字に変換し、そして他の全て
の余分な句読点マークを削除するだけでテキストを正規
化する限定状態トランスジューサを構成することができ
る。この正規化トランスジューサを語幹決定トランスジ
ューサと合成することにより、テキストの句読点付き文
字の流れをそれに対応する一連の語幹にマップするよう
な単一トランスジューサが形成される。
幹決定FST70といかに合成する(94)かについて
の本発明の更に別の特徴を示している。それにより、新
たな合体されたFST95が形成される。この新たな合
体されたFST95では、文書のテキストを表す文字の
流れを入力すると、1ステップ動作で対応する一連の語
幹へのマッピングが生じる(97)。
明したが、本発明の精神から逸脱せずに種々の変更や修
正が当業者に明らかであろう。従って、本発明は、上記
した構造の細部に限定されるものではなく、特許請求の
範囲のみによって規定されるものとする。
ック図である。
す例である。
ころを示す図である。
ある。
である。
ルゴリズムの図である。
ルゴリズムの図である。
ルゴリズムの図である。
ルゴリズムの図である。
ルゴリズムの図である。
Tを用いて文字の流れを処理するところを示した図であ
る。
Tを用いて文字の流れを処理するところを示した図であ
る。
である。
学的接辞タグとの間の簡単なFSTマッピングを示す図
である。
STより多くの初期サブストリング遷移をいかに分担で
きるかを示す図で、本発明の場合を示す図である。
STより多くの初期サブストリング遷移をいかに分担で
きるかを示す図で、公知技術の場合を示す図である。
Claims (10)
- 【請求項1】 コンピュータ化した情報検索装置におい
て、 (a)データベースを具備し、このデータベースは語幹
の変化関係を表すデータ構造体を備え、このデータ構造
体は、複数の分岐路に沿って上部及び下部ストリングの
順序付けされた対の組をエンコードするための限定状態
トランスジューサ(FST)を備えており、各対の上部
ストリングはワードの語幹でありそして各対の下部スト
リングはワードの変化であり、これにより、1つの対の
上部ストリングを経てFSTの分岐路を進むと、その対
の下部ストリングを検索することができ、或いは1つの
対の下部ストリングを経てFSTの分岐路を進むと、そ
の対の上部ストリングを検索することができ、そして (b)上記データベースに接続され、語幹又はその変化
を組み込んだワードを入力するユーザの質問に応答し
て、その質問ワードに一致する下部ストリングを有する
FST分岐路を経て完全な経路をサーチするようにデー
タ構造体のFSTを進ませるための処理手段を更に具備
し、該処理手段は、分岐路を通る完全な経路を見つける
のに応答して、第1の段階において、その分枝路により
表された上部ストリングの語幹であって上記質問ワード
又はそれを含む文書の識別に対応する上部ストリングの
語幹を出力し、第2の段階において、上記分岐路により
表された別のワード変化であって上記質問ワード又はこ
れを含む文書の識別と同じ語幹を有する別のワード変化
を出力するための手段を更に備えたことを特徴とする装
置。 - 【請求項2】 見つかった分岐路を通して、上記語幹が
ワード変化の別の語幹を識別し始めるところまで後方に
追跡する手段と、この同じ別の語幹を有するFSTの第
2の分岐路を通る完全な経路をサーチするようにデータ
構造体のFSTを進ませそしてこの第2の分岐路によっ
て表されたワード変化を出力するための手段とを更に備
えた請求項1に記載の装置。 - 【請求項3】 上記FSTは語幹/変化の対のみの分岐
路を備えている請求項1に記載の装置。 - 【請求項4】 上記FSTは言語学ルールによって表す
ことのできる系統的な感染的及び派生的なワード代替え
物を組み込んでおり、そして上記FSTは上記言語学ル
ールのコンパイルしたバージョンを組み込んでいる請求
項1に記載の装置。 - 【請求項5】 上記FSTは、不規則なワード対の限定
リストから導出した第1のトランスジューサと、規則的
な言語学ルール及び語幹から導出した第2トランスジュ
ーサとを、上記第1トランスジューサのドメインの補数
に対して同一トランスジューサを計算し、この同一トラ
ンスジューサを上記第2トランスジューサと予め合成
し、そしてその結果を第1トランスジューサと結合させ
ることにより合体したものを備えている請求項1に記載
の装置。 - 【請求項6】 メモリ手段を更に備え、上記データベー
スはこのメモリ手段に記憶される請求項1に記載の装
置。 - 【請求項7】 情報検索又はテキストインデックスのた
めのコンピュータに使用するデータベースを形成する方
法において、 (a)不規則なワード語幹と変化の対の第1リストを構
成する形態的語彙集を形成し、 (b)上記語幹の規則的なワード変化を形成するように
ワード語幹に接辞を追加するのを制御するための言語ル
ールの第2リストを形成し、 (c)上記形態的語彙集の第1リストから導出した第1
FSTを形成し、 (d)上記言語学ルールの第2リストから導出した第2
FSTを形成し、 (e)上記第1及び第2FSTの各々は、単一の開始状
態から一連の中間状態を通る遷移を経て異なる終了状態
へ至る複数のFST経路を画成する複数の分岐路を備
え、各分岐路は、ワード語幹を構成する上部ストリング
の1文字又はゼロ記号と、上記ワード語幹のワード変化
を構成する下部ストリングの1文字又はゼロ記号とで成
る順序付けされた対からの完全な経路を形成し、 (f)合成及び交差アルゴリズムを用いて上記第1及び
第2FSTをコンパイルしてこれらFSTを結合し、 (g)このコンパイルした第1及び第2のFSTを合体
して単一FSTを形成し、この単一FSTは、ワードが
形態的語彙集における不規則ワードであって第1FST
の内容によって拒絶される場合を除いて上記段階(b)
の言語学ルールに従うワードの語幹をその語幹の変化に
マップするものであり、そして (h)上記段階(g)で形成された単一FSTを所望の
データベースの一部として記憶する、 という段階を備えたことを特徴とする方法。 - 【請求項8】 コンピュータ化した情報検索又はテキス
トインデックス装置に使用されるものであって、 メモリ手段を具備し、 上記メモリ手段に記憶されるデータベースを具備し、こ
のデータベースは語幹とその変化の関係を表すためのデ
ータ構造体を備え、このデータ構造体は単一の結合され
た限定状態トランスジューサ(FST)を備えており、 上記FSTは、開始状態から一連の中間状態を通る遷移
を経て異なる終了状態へ至る複数のFST経路を画成す
る複数の分岐路を備え、各分岐路は、ストリングを表す
上記開始状態から終了状態までの完全な経路を形成し、
上記遷移の各々は、ワード語幹を構成する上部ストリン
グの1文字又はゼロ記号と、上記ワード語幹のワード変
化を構成する下部ストリングの1文字又はゼロ記号とで
成る順序付けされた対を表し、 上記単一のFSTは、形態的語彙集を形成する不規則な
ワード語幹と変化の対の第1リストから導出された第1
FSTと、上記語幹の規則的なワード変化を形成するよ
うにワード語幹に接辞を追加するのを制御するための言
語学ルールの第2リストから導出した第2FSTとを合
体したものを備えており、 上記単一FSTは、ワードが形態的語彙集における不規
則ワードであってこれによって拒絶される場合を除いて
上記言語学ルールに従うワードの語幹をその語幹の変化
にマップするものであり、 これにより、1つの対の上部ストリングを経てFSTの
分岐路を進むと、その対の下部ストリングを検索するこ
とができ、或いは1つの対の下部ストリングを経てFS
Tの分岐路を進むと、その対の上部ストリングを検索す
ることができることを特徴とする装置。 - 【請求項9】 上記単一FSTは、FSTを結合するた
めの合成及び交差アルゴリズムを用いてコンパイルする
ことによって形成されたものである請求項8に記載の装
置。 - 【請求項10】 上記の合体は、上記第1FSTのドメ
インの補数に対して同一トランスジューサを計算し、こ
の同一トランスジューサを上記第2FSTと予め合成
し、そしてその結果を第1FSTと結合させることによ
り行われる請求項8に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/916,576 US5625554A (en) | 1992-07-20 | 1992-07-20 | Finite-state transduction of related word forms for text indexing and retrieval |
US07/916576 | 1992-07-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0675992A JPH0675992A (ja) | 1994-03-18 |
JP3196868B2 true JP3196868B2 (ja) | 2001-08-06 |
Family
ID=25437499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15980493A Expired - Fee Related JP3196868B2 (ja) | 1992-07-20 | 1993-06-30 | テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ |
Country Status (5)
Country | Link |
---|---|
US (2) | US5625554A (ja) |
EP (1) | EP0583083B1 (ja) |
JP (1) | JP3196868B2 (ja) |
DE (1) | DE69331209T2 (ja) |
ES (1) | ES2168267T3 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7426158B2 (ja) | 2022-06-06 | 2024-02-01 | 株式会社ユニコム | 液体塗布容器および液体塗布容器の製造方法 |
Families Citing this family (212)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3722231B2 (ja) * | 1993-08-02 | 2005-11-30 | ゼロックス コーポレイション | コンパクトにエンコードされて記憶されたストリングの組を有する製品 |
US5680628A (en) * | 1995-07-19 | 1997-10-21 | Inso Corporation | Method and apparatus for automated search and retrieval process |
US5794177A (en) * | 1995-07-19 | 1998-08-11 | Inso Corporation | Method and apparatus for morphological analysis and generation of natural language text |
US5721939A (en) * | 1995-08-03 | 1998-02-24 | Xerox Corporation | Method and apparatus for tokenizing text |
GB9524136D0 (en) | 1995-11-23 | 1996-01-24 | Xerox Corp | Indexing a database by finite-state transducer |
US5828999A (en) * | 1996-05-06 | 1998-10-27 | Apple Computer, Inc. | Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems |
GB2314433A (en) * | 1996-06-22 | 1997-12-24 | Xerox Corp | Finding and modifying strings of a regular language in a text |
US5778375A (en) * | 1996-06-27 | 1998-07-07 | Microsoft Corporation | Database normalizing system |
US6498921B1 (en) * | 1999-09-01 | 2002-12-24 | Chi Fai Ho | Method and system to answer a natural-language question |
US5836771A (en) * | 1996-12-02 | 1998-11-17 | Ho; Chi Fai | Learning method and system based on questioning |
CA2226233C (en) * | 1997-01-21 | 2006-05-09 | At&T Corp. | Systems and methods for determinizing and minimizing a finite state transducer for speech recognition |
US5924105A (en) * | 1997-01-27 | 1999-07-13 | Michigan State University | Method and product for determining salient features for use in information searching |
GB9713019D0 (en) | 1997-06-20 | 1997-08-27 | Xerox Corp | Linguistic search system |
US6032111A (en) * | 1997-06-23 | 2000-02-29 | At&T Corp. | Method and apparatus for compiling context-dependent rewrite rules and input strings |
US6026398A (en) * | 1997-10-16 | 2000-02-15 | Imarket, Incorporated | System and methods for searching and matching databases |
GB9727322D0 (en) | 1997-12-29 | 1998-02-25 | Xerox Corp | Multilingual information retrieval |
US6424983B1 (en) * | 1998-05-26 | 2002-07-23 | Global Information Research And Technologies, Llc | Spelling and grammar checking system |
US6584479B2 (en) * | 1998-06-17 | 2003-06-24 | Xerox Corporation | Overlay presentation of textual and graphical annotations |
US6173441B1 (en) | 1998-10-16 | 2001-01-09 | Peter A. Klein | Method and system for compiling source code containing natural language instructions |
US6304878B1 (en) | 1998-11-23 | 2001-10-16 | Microsoft Corporation | Method and system for improved enumeration of tries |
US6298321B1 (en) * | 1998-11-23 | 2001-10-02 | Microsoft Corporation | Trie compression using substates and utilizing pointers to replace or merge identical, reordered states |
US6466901B1 (en) * | 1998-11-30 | 2002-10-15 | Apple Computer, Inc. | Multi-language document search and retrieval system |
US6430557B1 (en) | 1998-12-16 | 2002-08-06 | Xerox Corporation | Identifying a group of words using modified query words obtained from successive suffix relationships |
US6308149B1 (en) * | 1998-12-16 | 2001-10-23 | Xerox Corporation | Grouping words with equivalent substrings by automatic clustering based on suffix relationships |
US6434546B1 (en) * | 1998-12-22 | 2002-08-13 | Xerox Corporation | System and method for transferring attribute values between search queries in an information retrieval system |
US6381598B1 (en) * | 1998-12-22 | 2002-04-30 | Xerox Corporation | System for providing cross-lingual information retrieval |
AU777693B2 (en) | 1999-03-05 | 2004-10-28 | Canon Kabushiki Kaisha | Database annotation and retrieval |
US6742164B1 (en) * | 1999-09-01 | 2004-05-25 | International Business Machines Corporation | Method, system, and program for generating a deterministic table to determine boundaries between characters |
US6675169B1 (en) | 1999-09-07 | 2004-01-06 | Microsoft Corporation | Method and system for attaching information to words of a trie |
US6882970B1 (en) | 1999-10-28 | 2005-04-19 | Canon Kabushiki Kaisha | Language recognition using sequence frequency |
US7310600B1 (en) | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
DE60036486T2 (de) | 1999-10-28 | 2008-06-12 | Canon K.K. | Methode und apparat zum prüfen von musterübereinstimmungen |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US20020123994A1 (en) * | 2000-04-26 | 2002-09-05 | Yves Schabes | System for fulfilling an information need using extended matching techniques |
US7120627B1 (en) * | 2000-04-26 | 2006-10-10 | Global Information Research And Technologies, Llc | Method for detecting and fulfilling an information need corresponding to simple queries |
US6859800B1 (en) | 2000-04-26 | 2005-02-22 | Global Information Research And Technologies Llc | System for fulfilling an information need |
WO2001084376A2 (en) * | 2000-04-28 | 2001-11-08 | Global Information Research And Technologies Llc | System for answering natural language questions |
US6704728B1 (en) * | 2000-05-02 | 2004-03-09 | Iphase.Com, Inc. | Accessing information from a collection of data |
US6711561B1 (en) * | 2000-05-02 | 2004-03-23 | Iphrase.Com, Inc. | Prose feedback in information access system |
US8478732B1 (en) | 2000-05-02 | 2013-07-02 | International Business Machines Corporation | Database aliasing in information access system |
GB0011798D0 (en) * | 2000-05-16 | 2000-07-05 | Canon Kk | Database annotation and retrieval |
US7031908B1 (en) * | 2000-06-01 | 2006-04-18 | Microsoft Corporation | Creating a language model for a language processing system |
GB0015233D0 (en) | 2000-06-21 | 2000-08-16 | Canon Kk | Indexing method and apparatus |
US6408277B1 (en) | 2000-06-21 | 2002-06-18 | Banter Limited | System and method for automatic task prioritization |
US8290768B1 (en) | 2000-06-21 | 2012-10-16 | International Business Machines Corporation | System and method for determining a set of attributes based on content of communications |
US9699129B1 (en) | 2000-06-21 | 2017-07-04 | International Business Machines Corporation | System and method for increasing email productivity |
ES2329547T3 (es) * | 2000-06-30 | 2009-11-27 | Becton Dickinson And Company | Red de gestion de desenlaces sanitarios y de enfermedades para proporcionar mejor asistencia al paciente. |
US20020152202A1 (en) * | 2000-08-30 | 2002-10-17 | Perro David J. | Method and system for retrieving information using natural language queries |
GB0023930D0 (en) | 2000-09-29 | 2000-11-15 | Canon Kk | Database annotation and retrieval |
US7346490B2 (en) * | 2000-09-29 | 2008-03-18 | Axonwave Software Inc. | Method and system for describing and identifying concepts in natural language text for information retrieval and processing |
GB0027178D0 (en) | 2000-11-07 | 2000-12-27 | Canon Kk | Speech processing system |
US7010476B2 (en) * | 2000-12-18 | 2006-03-07 | Xerox Corporation | Method and apparatus for constructing finite-state networks modeling non-concatenative processes |
US7644057B2 (en) | 2001-01-03 | 2010-01-05 | International Business Machines Corporation | System and method for electronic communication management |
US6938046B2 (en) * | 2001-03-02 | 2005-08-30 | Dow Jones Reuters Business Interactive, Llp | Polyarchical data indexing and automatically generated hierarchical data indexing paths |
US7251625B2 (en) * | 2001-10-02 | 2007-07-31 | Best Buy Enterprise Services, Inc. | Customer identification system and method |
US6785643B2 (en) * | 2001-10-15 | 2004-08-31 | Motorola, Inc. | Chart parsing using compacted grammar representations |
US7181386B2 (en) * | 2001-11-15 | 2007-02-20 | At&T Corp. | Systems and methods for generating weighted finite-state automata representing grammars |
US7289948B1 (en) | 2002-01-07 | 2007-10-30 | At&T Corp. | Systems and methods for regularly approximating context-free grammars through transformation |
EP1331630A3 (en) | 2002-01-07 | 2006-12-20 | AT&T Corp. | Systems and methods for generating weighted finite-state automata representing grammars |
WO2003065180A2 (en) * | 2002-02-01 | 2003-08-07 | John Fairweather | System and method for creating a distributed network architecture |
US7343372B2 (en) * | 2002-02-22 | 2008-03-11 | International Business Machines Corporation | Direct navigation for information retrieval |
US7240004B1 (en) * | 2002-03-04 | 2007-07-03 | At&T Corp. | Systems and methods for determining the determinizability of finite-state automata and transducers |
GB0228942D0 (en) * | 2002-12-12 | 2003-01-15 | Ibm | Linguistic dictionary and method for production thereof |
US7552051B2 (en) * | 2002-12-13 | 2009-06-23 | Xerox Corporation | Method and apparatus for mapping multiword expressions to identifiers using finite-state networks |
US8495002B2 (en) * | 2003-05-06 | 2013-07-23 | International Business Machines Corporation | Software tool for training and testing a knowledge base |
US20050187913A1 (en) | 2003-05-06 | 2005-08-25 | Yoram Nelken | Web-based customer service interface |
JP3956368B2 (ja) * | 2003-10-16 | 2007-08-08 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 形態素解析システム |
US7617091B2 (en) * | 2003-11-14 | 2009-11-10 | Xerox Corporation | Method and apparatus for processing natural language using tape-intersection |
US6915300B1 (en) * | 2003-12-19 | 2005-07-05 | Xerox Corporation | Method and system for searching indexed string containing a search string |
US7194450B2 (en) * | 2003-12-19 | 2007-03-20 | Xerox Corporation | Systems and methods for indexing each level of the inner structure of a string over a language having a vocabulary and a grammar |
EP1677208A1 (en) * | 2004-12-30 | 2006-07-05 | Sap Ag | Method and system for searching for data objects |
US20060149767A1 (en) * | 2004-12-30 | 2006-07-06 | Uwe Kindsvogel | Searching for data objects |
US20060195313A1 (en) * | 2005-02-25 | 2006-08-31 | Microsoft Corporation | Method and system for selecting and conjugating a verb |
US7937396B1 (en) | 2005-03-23 | 2011-05-03 | Google Inc. | Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7937265B1 (en) | 2005-09-27 | 2011-05-03 | Google Inc. | Paraphrase acquisition |
RU2488735C2 (ru) * | 2006-08-21 | 2013-07-27 | Вестерн Пайпвей, Ллс | Системы и способ для восстановления трубопровода |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8798988B1 (en) * | 2006-10-24 | 2014-08-05 | Google Inc. | Identifying related terms in different languages |
US8041730B1 (en) | 2006-10-24 | 2011-10-18 | Google Inc. | Using geographic data to identify correlated geographic synonyms |
US7925498B1 (en) | 2006-12-29 | 2011-04-12 | Google Inc. | Identifying a synonym with N-gram agreement for a query phrase |
US8661012B1 (en) | 2006-12-29 | 2014-02-25 | Google Inc. | Ensuring that a synonym for a query phrase does not drop information present in the query phrase |
US7890521B1 (en) * | 2007-02-07 | 2011-02-15 | Google Inc. | Document-based synonym generation |
US20080208566A1 (en) * | 2007-02-23 | 2008-08-28 | Microsoft Corporation | Automated word-form transformation and part of speech tag assignment |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8001136B1 (en) | 2007-07-10 | 2011-08-16 | Google Inc. | Longest-common-subsequence detection for common synonyms |
US8037086B1 (en) | 2007-07-10 | 2011-10-11 | Google Inc. | Identifying common co-occurring elements in lists |
JP2010532897A (ja) * | 2007-07-10 | 2010-10-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 知的なテキスト注釈の方法、システム及びコンピュータ・プログラム |
US8122022B1 (en) | 2007-08-10 | 2012-02-21 | Google Inc. | Abbreviation detection for common synonym generation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8521516B2 (en) * | 2008-03-26 | 2013-08-27 | Google Inc. | Linguistic key normalization |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US9002899B2 (en) * | 2008-07-07 | 2015-04-07 | International Business Machines Corporation | Method of merging and incremental construction of minimal finite state machines |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8326785B2 (en) * | 2008-09-30 | 2012-12-04 | Microsoft Corporation | Joint ranking model for multilingual web search |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8224839B2 (en) * | 2009-04-07 | 2012-07-17 | Microsoft Corporation | Search query extension |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US9009163B2 (en) * | 2009-12-08 | 2015-04-14 | Intellectual Ventures Fund 83 Llc | Lazy evaluation of semantic indexing |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20110184959A1 (en) * | 2010-01-25 | 2011-07-28 | Palo Alto Research Center Incorporated | Summarizing medical content with iterative simplification rules |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
JP5819860B2 (ja) * | 2010-02-12 | 2015-11-24 | グーグル・インコーポレーテッド | 複合語分割 |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8543374B2 (en) * | 2010-08-12 | 2013-09-24 | Xerox Corporation | Translation system combining hierarchical and phrase-based models |
US8484010B2 (en) | 2010-11-17 | 2013-07-09 | Technology Innovations, Llc | Method for designing an aptamer |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9201946B2 (en) | 2012-04-26 | 2015-12-01 | Quixey, Inc. | Application representation for application editions |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9594744B2 (en) * | 2012-11-28 | 2017-03-14 | Google Inc. | Speech transcription including written text |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US20140337355A1 (en) * | 2013-05-13 | 2014-11-13 | Gnoetics, Inc. | Indexed Natural Language Processing |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US9836669B2 (en) | 2016-02-22 | 2017-12-05 | International Business Machines Corporation | Generating a reference digital image based on an indicated time frame and searching for other images using the reference digital image |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10417269B2 (en) * | 2017-03-13 | 2019-09-17 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for verbatim-text mining |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
JP6931442B2 (ja) * | 2017-05-16 | 2021-09-08 | 富士通株式会社 | 符号化プログラム、インデックス生成プログラム、検索プログラム、符号化装置、インデックス生成装置、検索装置、符号化方法、インデックス生成方法および検索方法 |
US10606895B2 (en) * | 2017-07-12 | 2020-03-31 | Microsoft Technology Licensing, Llc | Multiple entity aware typeahead in searches |
US11133090B2 (en) * | 2017-09-22 | 2021-09-28 | Cerner Innovation, Inc. | Semantic search for a health information exchange |
CN108984666B (zh) * | 2018-06-29 | 2022-05-13 | 阿里巴巴集团控股有限公司 | 数据处理方法、数据处理装置和服务器 |
US11145296B1 (en) * | 2019-03-25 | 2021-10-12 | Amazon Technologies, Inc. | Language and grammar model adaptation |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4672571A (en) * | 1984-10-24 | 1987-06-09 | International Business Machines Corporation | Compound word suitability for spelling verification |
US4701851A (en) * | 1984-10-24 | 1987-10-20 | International Business Machines Corporation | Compound word spelling verification |
JPH0625901B2 (ja) * | 1986-08-08 | 1994-04-06 | 三輪 博秀 | 電子単一言語辞典及び電子複数言語間辞典 |
US4777617A (en) * | 1987-03-12 | 1988-10-11 | International Business Machines Corporation | Method for verifying spelling of compound words |
US4873634A (en) * | 1987-03-27 | 1989-10-10 | International Business Machines Corporation | Spelling assistance method for compound words |
JP2702927B2 (ja) * | 1987-06-15 | 1998-01-26 | 株式会社日立製作所 | 文字列検索装置 |
DE69132182T2 (de) * | 1990-07-23 | 2000-11-23 | Hitachi Ltd | System und Verfahren zum Abruf von Zeichenreihen |
US5323316A (en) * | 1991-02-01 | 1994-06-21 | Wang Laboratories, Inc. | Morphological analyzer |
-
1992
- 1992-07-20 US US07/916,576 patent/US5625554A/en not_active Expired - Lifetime
-
1993
- 1993-06-30 JP JP15980493A patent/JP3196868B2/ja not_active Expired - Fee Related
- 1993-07-19 EP EP93305626A patent/EP0583083B1/en not_active Expired - Lifetime
- 1993-07-19 DE DE69331209T patent/DE69331209T2/de not_active Expired - Lifetime
- 1993-07-19 ES ES93305626T patent/ES2168267T3/es not_active Expired - Lifetime
-
1994
- 1994-06-08 US US08/255,504 patent/US5594641A/en not_active Expired - Lifetime
Non-Patent Citations (1)
Title |
---|
E.Tzoukermann & M.Y.Liberman"A FINITE−STATE MORPHOLOGICAL PROCESSOR FOR SPANISH",COLING−90,Papers presented to the 13th International Conference on Computational Linguistics,Vol.3,1990,pp.277−282 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7426158B2 (ja) | 2022-06-06 | 2024-02-01 | 株式会社ユニコム | 液体塗布容器および液体塗布容器の製造方法 |
Also Published As
Publication number | Publication date |
---|---|
EP0583083A2 (en) | 1994-02-16 |
EP0583083A3 (en) | 1994-09-07 |
DE69331209D1 (de) | 2002-01-10 |
DE69331209T2 (de) | 2002-05-23 |
US5625554A (en) | 1997-04-29 |
US5594641A (en) | 1997-01-14 |
JPH0675992A (ja) | 1994-03-18 |
ES2168267T3 (es) | 2002-06-16 |
EP0583083B1 (en) | 2001-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3196868B2 (ja) | テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ | |
JP3189186B2 (ja) | パターンに基づく翻訳装置 | |
US5724593A (en) | Machine assisted translation tools | |
US5895446A (en) | Pattern-based translation method and system | |
JPH0447364A (ja) | 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法 | |
JPH02308370A (ja) | 機械翻訳システム | |
JPH07200591A (ja) | 構文解析装置 | |
JPH03172966A (ja) | 類似文書検索装置 | |
JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
HIRPSSA et al. | POS Tagging for Amharic Text: A Machine Learning Approach. | |
JP2005025555A (ja) | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 | |
JPS63228326A (ja) | キ−ワ−ド自動抽出方式 | |
JP3285149B2 (ja) | 外国語電子辞書検索方法及び装置 | |
JP2959769B2 (ja) | 日本語文字列の形態素解析方法及び装置 | |
JP2821143B2 (ja) | 形態素分解装置 | |
Külekcý et al. | Turkish word segmentation using morphological analyzer | |
Kadam | Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs | |
Kefena et al. | POS Tagging for Amharic: A Machine Learning Approach | |
Nugues | Corpus Processing Tools | |
JP3847801B2 (ja) | 文字処理装置及びその処理方法 | |
JPH0320866A (ja) | テキストベース検索方式 | |
JPH03229367A (ja) | テキストベース検索方式 | |
JP2001051992A (ja) | 日本語統計データ作成装置および方法、並びにディクテーションシステム | |
JPS6389976A (ja) | 言語解析装置 | |
JPH03210659A (ja) | 複合語表現範囲決定方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20010507 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080608 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090608 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100608 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110608 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110608 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120608 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130608 Year of fee payment: 12 |
|
LAPS | Cancellation because of no payment of annual fees |