JPH05189487A - 対話式データベース探索方法および装置 - Google Patents
対話式データベース探索方法および装置Info
- Publication number
- JPH05189487A JPH05189487A JP4210248A JP21024892A JPH05189487A JP H05189487 A JPH05189487 A JP H05189487A JP 4210248 A JP4210248 A JP 4210248A JP 21024892 A JP21024892 A JP 21024892A JP H05189487 A JPH05189487 A JP H05189487A
- Authority
- JP
- Japan
- Prior art keywords
- word
- query
- search
- stop
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
するための句照会を形成する方法を提供する。 【構成】 オペレータは、1以上の照会語をデータ処理
装置に入力する。処理装置は、文書の言語資料を探索す
るための探索キーを決定し、探索キーと言語資料との間
で一致するものを、探索キーと一致する語データ、語デ
ータの次の隣接する非ストップ(内容)語、および語デ
ータと次の隣接する非ストップ語との間に介在するスト
ップ語を含む句として戻す。オペレータは、戻された1
以上の句を吟味したあと、次の隣接する非ストップ語を
新しい照会語として使用し、探索キーを再作成し、言語
資料について次の探索を実行する。この手続きを適切な
文書が見つかるまで繰り返して実行する。
Description
り詳細には、オペレータを助けて、文書ライブラリをく
まなく探索するための句照会(phrase query) を作成す
る方法および装置に関するものである。
的で自然言語の文章を処理する科学は、1960年代の
初期頃から研究が行われてきたが、非常に大規模なオン
ラインテキストコレクションの供給可能性およびアクセ
ス可能性がこれまでになく増してきたことにより、ここ
数年目立って注目を集めるようになった。多くのアプロ
ーチが試みられたが、それらはすべて、情報アクセスが
本質的に認識に関する仕事であることに起因する明らか
な困難に直面した。現在の技術は、はっきり言って、完
全な解決のために必要な自動言語認識の域に達していな
い。それと異なり、発見的探索手法は、明白に不完全な
照会記述と、テキストから抜き出した明白に不完全な一
組の特徴とを照合しようとするものである。従って、個
々の部分的に命令した要求と多量のテキスト(コンピュ
ータ処理上、一連の解釈されない単語に見える)とのギ
ャップをより有効に橋渡しする方法を開発することに関
心が集まっている。
づいており、同じ単語の反復出現を利用して、文書同士
の関係や、照会(query)と文書との関係を推論する。
(「文書」は特定の構成に一致している必要はなく、本
の章でもよいし、章の節でもよいし、あるいは個々の段
落でもよい。しかし、ここで定義するように、言語資料
(corpus)を構成する一組の文書は、その言語資料の網
羅的かつばらばらの区分である。)。たとえば、類似点
探索(similarity search)は、各文書と照会に共通な各
単語に指定された重要性ウエイト(importance weight)
の正規化された和で各文書に点数を付けることによっ
て、テキストコレクションに「関連性」順序付け(rele
vance ordering) を導入する。ここで、重要性ウエイト
は、文書およびコレクション(すなわち、言語資料)の
頻度によって決まる。より形式的なアプローチでは、単
語の出現は順序的に相関関係がないと仮定するテキスト
モデルを採用し、一組の既知の関連文書で訓練すること
によって、照会に対する関連性の推定確率で文書に点数
を付ける。対照的に、多義性(1つの単語が多くの意味
をもつこと)と単語の相関関係は、潜在的語義索引付け
(Latent Semantic Indexing) によって直接にアドレス
指定される。この潜在的語義索引付けは、単語共起マト
リックス(word co-occurence matrix) の特異値分解
(singular value decomposition) を通じて特性線型組
合せ(chracteristic linear combination)を求めこと
を試みている。文書間の類似点測度の入手可能性は、通
常の探索促進子(search accelerator) および照会拡張
ツールとして推進されたクラスタ分析を示唆している。
最後に、それ以前の照会に関連して、単語のオーバーラ
ップや単語の位置付けを含む、特徴の一致する訓練用セ
ットに基づいて文書を分類するため、線型判別式分析が
使用されている。
function) や統語的機能(syntactic function) で単語
に注釈を付けることによって、基本的特徴集合を豊かに
することを試みている。たとえば、コンピュータ言語学
に基づく迅速ルックアップアルゴリズムは、単語をそれ
らの語幹に変える(L. Karttunen et al,“A compiler
for two level phonological rules ”,Report CSLI-
87-108, Center for the Study of Language and Infom
ation, 1987 参照)。また、語彙が所与のものとして、
音声部分タグ(part-of-speech tag) を95%以上の正
確さで再び取り入れるため隠れマルコフモデル化が使用
され、成功している(J. Kupiec ,“Augmenting a hid
den markov model for phase-dependent word tagging
”, Proccdings of the DARPA Speech and National L
anguage workshop, Cape Cod, MA,October 1989 参
照) 。この手法の拡張(インサイド−アウトサイドアル
ゴリズムとして知られる)は、十分な訓練用テキストが
所与のものとして、確率的な文法を導く方法を約束して
いる(J. K. Baker,“Trainable Grammers for speech
recogniton”,Speech Communication Papers for the
97th Meeting of theAcoustical Society of America,
pages 547〜550 ,1979 ; T. Fujisake et al, “A pro
babilistic method for sentence disambiguation”,P
roccdings ofthe International Workshop on Parsing
Technologies, August 1989 参照) 。もっと簡単な方法
は、一連の音声部分タグが所与のものとして、名詞句を
おおざっぱに抜き出すことを意図している。また、語彙
があいまいの場合には、単語共起性関係を使用して、代
替語を得ている。また、印刷が不明確な場合には、非パ
ラメータ分類手法を使用して、文の境界を検出している
(M. Riley,“Some applications of tree-baced mode
ling to speech and language ”,Proccdings ofthe DA
RPA Speech and National Language workshop, Cape Co
d, MA, page 339〜352 ,October 1989 参照) 。
語で書かれたテキスト文書の言語資料と、情報要求をも
つユーザーが必要である。仕事は、通例、その言語資料
からユーザーの要求を満たす1以上の関連文書を手渡す
ことである。この仕事は、各文書から特徴集合を抜き出
して、ある決められたやり方でこれらの特徴を探索でき
るツールをユーザーに提供することによって達成され
る。たとえば、標準論理探索手法は、特徴集合が文書の
テキストから抜き出された1つ以上の単語であり、照会
言語はこれらの単語を含む論理式であると仮定する(IB
M Germany,“Storage and Information Retrieval Syst
em (SARIRS) ”,April 1972 参照) 。言語資料は非常
に膨大であることが予想されるので、各文書を予備処理
して特徴索引(feature index) を作ることが、標準的
な探索促進子である(G. Salton,“Automatic Text Pro
cessing ”Addison-Wesley, 1989参照) 。
化表(library automation paradigm) と呼ばれること
があるフレームワークの中に投じられる。照会を評価す
るコストはかなり高いと推定されるので、一回の反復
は、できるだけ高い品質および完全な応答を戻さなけれ
ばならない。これは、接続時間の代金を請求するオンラ
インシステムに調和しており、評価基準に反映されてい
る。この評価基準は、照会作成のコストを予め計算に入
れておき、潜在的に結果と考えられるランク付けられた
一組の文書について精度および再現度(recall) の各レ
ベルを評価する。これらの基準に関して、関連性フィー
ドバック(relevance feedback) と呼ばれる増分的照会
再作成手法(incremental query reformation techniqu
e)からデータに対する最善の改善が得られることは、皮
肉である(G. Salton et al 、“Improving Retrieval
Performance by Relevance Feedback ”, Journal of A
merican Sociaty for Information Science, 41(4): 28
8 〜 297 June 1990 参照)。
arch) は、情報検索における周知の探索手法である。基
本的には、最初に、より大きな言語資料の各文書の制限
のないテキストから一組の項(term) (一般に、個々の
単語(word) または語幹 (word stem) を抜き出す。次
に、これらのキーワードで論理式を作り、この論理式を
解き、その論理式を満足させる一組の文書を見つけ出
す。たとえば、典型的な照会は、2つの探索項の論理積
で構成することができる。そのあと、2つの項を任意の
順序および任意の位置に含む文書が戻される。論理和お
よび否定(頻繁ではない)も同様にサポートされそうで
ある。
search) は、文書を一組のキーワードとして表現し、順
序情報を無視する。近接探索語形変化表(proximity se
archparadigm)は、ほかの標準ブール照会に非ブール近
接制約条件を課すことによって、この表現を修正する。
2つの決められた探索項がある一定の距離(文字の数ま
たは単語の数として表される)内に基本論理積を満たす
順序で出現することを命令する近接演算子(proximity
operator) が導入されている。たとえば、2つの探索項
が任意の順序または決められた順序で相互に1つの単語
に現れることを要求することによって、上の照会見本を
しぼることができる。
が句状照会(phrase-like query)を作成すること、すな
わち、項の組合せを探索単位として扱うことを可能にす
る。照会が「情報要求」の表現であることをリコールす
る場合には、これは、相当な重要性を有する。この情報
要求に固有の概念は、1つの単語で表現できないことが
多い。それどころか、考えを完全に明確にするため、句
や完全文さえも使用しなければならない。論理積ブール
照会は、これらを組み合わせたタイプの表現を考慮に入
れているが、それらもまた明らかに過度に生じる。近接
制約条件(proximity constraints)を使用することによ
り、より高い精度を達成することができる。別の極端な
場合、項順序の完全な指定が有害なことがある。その理
由は、普通の自然言語(英語を含む)の性質として、意
味を変えずに、語句単位をいろいろなやり方で書き直す
ことができるからである。たとえば、“ dog's ankle”
と“ankle of a dog”は同じ概念を表す。従って、近接
制約条件の適用は、ばらばらの出現を除去する程度に強
力でなければならず、しかも些細な言語の相違を説明す
る程度に柔軟でなければならない。
的照会の洗練化と考えることができる。各段階は、照会
の指定(query specificaton)と、それに続く分解(reso
lution) を含む。もし照会の結果がユーザーの情報要求
を満たしていれば、処理は終了する。さもなければ、新
しい修正した、より適切な照会を作成して、処理を繰り
返さなければならない。前のステップの結果は、各段階
で照会の再作成に情報を提供する。
は、この再作成処理をほとんどサポートしない。これら
の伝統的な適用は、通例、探索基準を満たす一組の候補
文書を生成するだけである。そのあと、ユーザーは、こ
れらの文書を吟味することによって照会の有効性を判断
しなければならない。これは、特に関係のないヒットと
関係のあるヒットとを明確にするのに文書の題名だけで
は不十分の場合には、もしかすると時間のかかる操作で
ある。実際に、論理探索は2つのクラス、すなわち結果
セットがほんの少しのヒットを含むクラス(狭い照会)
と、非常に多いヒットを含むクラス(広い照会)になる
ことは経験的に実証されている。ほんの少しのヒットの
場合には、ユーザーは、何かを見逃したかも知れないと
いう不満足な感情が残って、既存の照会を広げたいとい
う気持ちになる。具体的な代案は探索結果自体によって
提示されないので、照会が適切に広がったかどうかがわ
かりにくい。もし照会を広げ過ぎれば、ユーザーに提供
されるヒットが多すぎて、大量の文書から関係のある文
書を選り分ける仕事にがっくりすることになる。
ーザーにほとんどもしくは全く支援が与えられないこと
である。 H. P. Frei et al, “Caliban: Its user-in
terface and retrieval algorism”,Technical Report
62, Institut fur Informatik, ETH,Zurich, April 19
85 は、オンライン領域特定類語辞書(シソーラス)の
ほかに、代りの用語の探索を助けることができる入手可
能な探索項の辞書を開示している。しかし、再作成され
た望ましい照会を得るには、高度に訓練された媒介者た
とえば研究図書館員の助けが必要であることが多い。
を迅速に決定することができ、必ずしもテキスト全体を
走査せずに、関連性の判断および照会の再作成に達する
ことができるように、各ヒットに関する十分な情報を提
供することである。ペーパーベース文脈付きキーワード
索引(paper based keyword-in-context indices;並べ
換え索引と呼ばれることもある)は、単項照会の場合に
解決策を与える。ユーザーは、単項(問題の単語)で索
引に入り、各行の中心に縦に配列された探索項で、その
項の各例について、アルファベット順に配列された一行
の文脈を見つけ出す(H. P. Luhn, “Keyword-in-Conte
xt for Technical Literature ”,ASDDReport RC-127,
IBM Corporation, Yorktown Height, N.Y., August 195
9 参照) 。句を決める単語は、一般に、行の先頭でな
く、探索キーのまわりに置かれるであろうから、探索キ
ーを含む関連句を探索している場合には、文脈の行に関
するアルファベット分類キーの選択は最適と言えないこ
とがある。また、統計および確率で題名の索引を作成す
るのに、直観に基づく別の分類キーが使用され、成功し
ている(I. C. Ross and J. W. Tukey, “Index to Sta
tistics and Probability : Permuted Titles ”, Volu
mes 3 and 4 of the Information Access Series, R &
D Press, Los Altos, CA., 1975 参照) 。この種の索引
のコンピュータ化バージョンは、異なるさまざまの形式
があり、数は少ないが、基本的な照会および表示の戦略
を精密なものにしている。
の言語資料に関する情報をほとんど有していないとき、
探索照会を作成する際にオペレータを助ける探索ツール
が要望されている。
y words)の列の内容が一致する文書を文書ライブラリか
ら検索し、検索した各文書に関連性ファクタ(relevanc
e factor) を割り当てる方法を開示している。この方法
は、各照会語ごとに一組の同意義語(equivalent word)
を定義し、各同意義語に対し対応する語同意義値(word
equivalence value) を割当てるステップ、目標の各単
語列のそれぞれに関する類似点値(similiarity value)
を、そこに含まれている単語の対応する同意義値の関数
として評価する一組の一致基準に従って、照会語の列が
一致するライブラリ文書内の目標単語列を探し出すステ
ップ、およびその目標単語列の類似点値に基づいて、ラ
イブラリ文書に関する関連性ファクタを得るステップか
ら成っている。
情報検索/分析システムを開示している。このシステム
においては、特定の探索要求に応じて、ある程度似た図
形フォーマットで標準アウトラインとして編成された
「目次」が動的に生成される。探索要求を満たす文書
は、その中に予め定義されたキーワードが存在するかど
うかに基づいて分類される。目次は、キーワードカテゴ
リー、サブカテゴリー、サブサブカテゴリー、等に編成
される。目次の特定のカテゴリーまたはサブカテゴリー
について、分析処理を繰り返すことにより、よりぴった
りした、限定された新しい目次を得ることができる。
は、探索キー(照会)の作成の際にオペレータを助ける
情報検索装置および方法を提供することである。
出現したとき一組の関連のありそうな句によってオペレ
ータをガイドして、照会の作成の際にオペレータを助け
るため、情報検索装置および方法を提供することであ
る。
から成る文の変形をオペレータにさらして、これらのう
ちどの句が要求された情報を最もよくとらえているかを
判断する情報検索装置および方法を提供することであ
る。
中に出現するテキストの断片(入力探索キー(照会)よ
りも具体的であり、それ以後の探索キー形成の際にオペ
レータを助けるやり方で提供される)を識別する情報検
索装置および方法を提供することである。
の他の諸目的を達成し、上に述べた短所を克服するた
め、以下の特徴を有する情報検索装置および方法を提供
する。オペレータは1つ以上の照会語(query word) を
入力する。この照会語は、文書の言語資料をくまなく探
索するための探索キーを決定するために使用される。照
会語は、探索キーと文書の言語資料との間のすべての一
致するものを、探索キーと一致する語データ、一致する
語データの次の隣接する非ストップ(内容)語、および
一致する語データと次の隣接する非ストップ語の間に介
在するすべてのストップ語を含む句として戻す。オペレ
ータは、戻された1以上の句を吟味したあと、次の隣接
する1つ以上の非ストップ語を新しい照会語として使用
して、探索キーを再形成し、文書の言語資料について次
の探索を実行する。適切な文書が見つかるまで、この処
理を繰り返して実行することができる。
非ストップ語(探索キーのすぐそばに位置する)を、各
句の照会語と共に戻す。新しい内容の語を容易に調べる
ことができるように、各句からの追加の非ストップ語を
互いに整列させる(たとえば、縦に並べることにより)
ことが好ましい。戻された語データの新しい特徴(古い
特徴ではない)を強調するため、整列させた追加の非ス
トップ語を弁別できる形で表示する(たとえば、強調表
示する)ことができる。
側の非ストップ語を表示するため、個別句を戻すことが
できる。もしオペレータが戻された句に関係のある追加
テキスト(語データ)を見たければ、表示された追加非
ストップ語から次の隣接する非ストップ語へ句を拡張す
る「拡張(extend) 」命令を与える。上記の代わりに、
「忘却(forget) 」命令を与えることによって、関連の
ない句を表示画面から除去することができる。縦配列や
強調表示の特徴によって次の隣接する非ストップ語にオ
ペレータの注意を集中させると同時に、最大量の文脈を
提供するため、各句の長さを表示画面の行の全長まで拡
張することができる。
いう近接制約条件(1の近接制約条件)で、照会語同士
のブール論理積として探索キーを形成する。そのあと、
追加の非ストップ語をすべての探索キー相手の片側また
は両側に戻す。もし多数の照会語が入力され、かつ探索
キー相手が非ストップ語で隔てられた照会語を持ってい
れば、その非ストップ語を新しい(強調表示される)内
容語として戻す。
は異なる言語の文書の言語資料を探索するのに使用する
ことができる。
明する。諸図面を通して、同じ構成要素には同じ参照番
号が付してある。
タフェースを使用できるので、それに合わせて情報検索
装置の従来モデルを調整すべきである。本発明は、高度
対話式ユーザーインタフェースを使用して、ユーザーと
部分的探索結果や照会文分解の明示構成要素との間で対
話をさせることにより、ユーザーをループに取り込む。
ユーザーは能動的フィルタ処理および照会再作成の主体
者として用いられる。これがうまくいくのは、ユーザー
の介在に対し迅速な応答が見込まれる場合だけである。
本発明は、近接によって導かれる論理探索の一形態であ
り、そして上記の原理を実証し、照会作成の際にオペレ
ータを助けるのに適したフォーマットで大量の情報をオ
ペレータへ提供する検索ツールである。
を使用する。根底をなす基本的な仮定は、わずかな探索
項から成る短い照会がもともと根本的に不完全であると
いうことである。したがって、ユーザーの対話や繰返し
による照会の補修や推敲は、十分な再現度(recall;文
書検索においてある主題に関係する文書の総数と、それ
に関連して検索された文書との割合)を達成するのに不
可欠である。これは、容易に理解されるやり方で結果を
素早くユーザーへ提供する高度対話インタフェースを通
じて、望ましい結果を得るのに次のどのステップが最も
効果的であるかに関する情報を与える、操作が直観的な
探索方法をユーザーに提供することによって達成するこ
とができる。
た句のスペースをユーザーが直かに検査することを許す
ことにより、それらの送出をアドレス指定する。その意
図は、目標言語資料内の変形(variation)の範囲をユー
ザーにさらすことによって照会の再作成を助けることに
ある。たとえば、本発明によってただ1つの項「情報」
を手掛かりとして実行される探索は、目標言語資料に出
現することが保証されている他のものから、とりわけ
「情報の記憶と検索」、「情報検索における進歩」、
「知覚情報」、「遺伝子情報」などの句を表示するであ
ろう。オペレータは、この追加情報を使用して、次の照
会を作成することができる。
に類似している。すなわち、探索キーは、句の構成要素
(照会語)として扱われ、これらの構成要素と新しい構
成要素を含む完全なものが戻され、新しいもの(古いも
のではなく)であることを強調するやり方で構成され
る。探索キー作成は、最初に、ほとんどもしくは全く照
会構文を必要としないやり方で1以上の「構成要素」
(照会語)を指定する。次に、発見的方法(構成要素を
近接制約条件をもつ論理積と解釈する)を用いて、これ
らの構成要素を言語資料と突き合わせる。次に、標準論
理探索のように一致する文書を戻し、探索があたかも終
了したかのように取り扱うのでなく、本発明は、周囲の
テキスト文脈の中に埋もれている一致するもの(match)
を含む句を戻す。これらの句は、語法を明確にする程度
の文脈を含むように計画されているが、読取り装置を混
乱させたり、表示画面をごちゃごちゃにするほどの大き
さではない。
取り囲んでいるテキストのほかに、1つの別の重要な語
を戻す。「重要度」は、使用上、非主題関係語(non-to
picbearing words)の予め定められた一定のリスト(ス
トップリスト)上に存在しないことによって定義され
る。隣接する文脈語(照会語に隣接する次の非ストップ
語)は、明確化用の文脈を与えるものであり、ユーザー
の注意を、入力されたもの(照会語)ではなく、新しい
ものへ引き付けるために表示画面に強調表示することが
できる。そのほかに、表示された非ストップ語の間に介
在するすべてのストップ語(すなわち、照会語と次の重
要語)も表示される。もし文脈が語法を明確にするのに
不十分であれば、ユーザーにさらに質問するよう勧める
(「拡張(extend) 」操作と呼ばれる)。もし、文脈が
先験的に無関係である語の組合せを示していれば、同様
な語構造を有するすべての句を削除することができる
(「忘却(forget) 」操作と呼ばれる)。「忘却」操作
は、事実上、実例による論理否定(boolen negation)で
ある。
ことが可能であるので、それによる総合的効果は、その
ような句が問題の言語資料の中に現れたとき、その出現
に基づいて増分的照会再作成を勧めることである。戻さ
れた句がまさに関係があることを、文脈が十分に指示し
ている場合には、ユーザーは対応する文書へ直ちに進む
ことができる。
置において具体化することができる。情報検索装置は、
1つ以上のプログラムに従って、装置のさまざまな他の
構成部品から信号を受け取ったり、それらの構成部品へ
信号を出力する中央処理装置(マイクロプロセッサ)1
0を備えている。また、装置は、操作プログラムを格納
するための読出し専用メモリ(ROM)14と、いろい
ろな操作プログラムを実行するためのランダムアクセス
メモリ(RAM)18を備えている。さらに、探索操作
を実行するとき、本発明によって使用される索引付きテ
キストの格納およびオーバフローのための特別ファイル
22を準備することができる。
4から問題のテキスト言語資料が入力され、索引付けエ
ンジン28によって処理され、言語資料の各文書内の文
脈語が抜き出される(ストップリスト上の語は無視され
る)。索引付けエンジン28は、随意に、たとえば「語
幹化(stemming) 」操作によって文脈語を正規化するこ
とができる。多数の語幹化アルゴリズムが知られてい
る。語幹化は、たとえば、辞書ベース厳密語尾変化形態
構造アナライザ(dictionary-based exact inflectiona
l morphology analyzer : 音声部分を変えない語尾、
たとえば“s”や“ed”を取り除くだけのアルゴリズ
ム)を使用して実行することができる。上記の代わり
に、語尾切取りアルゴリズム(語でないものを生成する
ことがある)を使用することができる。これらのアルゴ
リズムは、さらに、語尾変化形態構造(inflectional m
orphology ) ばかりでなく、派生語形態構造(derivati
onal morphology : 音声部分を変える語尾、たとえば
“ly”や“tion”)を考慮に入れているものが多い。さ
らに、たとえばシソーラスクラス(thesaurus classes)
による語の置換、それらの音声部分をもつ語のタグ付
け、あるいはそれらの文章構成上の規則や語義上の規則
による語の注釈など、特別な正規化を想定することもで
きる。
ザーが操作プログラムにインタフェースできるようにす
るためのモニター36を備えている。装置は、さらに、
たとえばマウス、キーボード、タッチ画面またはそれら
の組合せなど、オペレータが命令を入力するためのユー
ザー入力装置32と、文書のハードコピーを印刷するた
めのプリンタ40を備えている。
語の文書言語資料をくまなく探索できるように、オンラ
イン複数言語辞書44を備えることができる。
表す高レベルフローチャートである。ステップ110に
おいて、オペレータは1以上の照会語(query word) を
入力する。これらの照会語は、通常のやり方で、たとえ
ばキーボードを使用して表示画面に適切な語をタイプす
ることによって入力できる。ステップ120において、
探索キーを作成する。本発明の場合、探索キーは、1の
近接制約条件をもつすべての照会項 (query item) の論
理積である。照会項は、オペレータが入力した照会語の
論理和セットである。たとえば、もしオペレータが照会
語A,Bを入力すれば、AとBは共に照会項として扱わ
れるであろう。上記の代わりに、もしオペレータが照会
語Aと(BまたはC)を入力すれば、Aはただ1つの照
会項として扱われ、そして(BまたはC)はただ1つの
照会項として扱われるであろう。オペレータが“and ”
結合子を入力する必要がないように、装置は自動的に各
入力照会語を照会項として扱うことができる。たとえ
ば、“A B”は自動的に“A and B ”と解釈される。
る。探索は、各照会項を含み、照会項+1つの追加非ス
トップ語の数に等しい長さをもつ(1の近接制約条件の
ため)、言語資料内のすべての句を戻す。この1つの追
加非ストップ語は、その突合せにおける探索項の使用法
に関する新しい情報をオペレータに提供する。ステップ
140において、戻された句を表示する。文書の言語資
料と探索キーとの一致は、照会語、次に隣接する1つの
追加非ストップ語、およびすべての介在するテキスト
(ストップ語、スペース、および句読点)を含む句とし
て表示する。従って、オペレータには、一致に関する追
加情報(従って、一致に関係がある文書)を提供する1
以上の句が提供される。表示された次の隣接する非スト
ップ語を新しい照会語として選択し、連続して探索キー
を再決定し、探索を実行することにより、オペレータの
情報要求にますます近づいた句を戻す。
るため、各相手が表示画面上で多くても1行を占め、か
つ各句からの次の隣接する非ストップ語が互いに共通の
縦列に整列した状態で、複数の相手を表示画面に同時に
表示することが望ましい(これは、ガターリング(gutt
ering)と呼ばれる)。新しい情報を古い情報よりさらに
強調表示するため、追加の非ストップ語を、区別される
形で(たとえば、強調表示された句の他の語データとは
異なる強調表示で)表示することが好ましい。また、照
会語は、区別できるように、イタリック体で表示するこ
とも考えられる。
と、言語資料から適当な1つまたは複数の文書を選択す
ることができるが、オペレータの情報要求を満足させる
には、おそらく追加の操作が必要であろう。従って、ス
テップ150において、オペレータは、表示画面上で選
択した句を拡張することができる。ステップ155に示
すように、句を拡張したとき、選択した句内の次の隣接
する非ストップ語を共通縦列から除去し、直ちに次の隣
接する非ストップ語を共通縦列に入れて強調表示する。
たとえば、最初に強調表示した非ストップ語がほとんど
もしくは全く内容情報をオペレータに提供しないとき、
「拡張」操作を実行する。つまり、次の非ストップ語へ
動かし続けることによって句内の追加テキストを提供す
る。句が表示画面上のテキストの全長を占めるまで、句
を複数回拡張することができる。一般に、表示画面に照
会語を保持しておくほうが好ましい。また、「拡張」操
作は、単一文の範囲に制限することが望ましい(その理
由は、通例、語が置かれている文から語の内容を決定で
きるからである)。同じ次の非ストップ語を含むすべて
の句は拡張する。
操作を実行する。ステップ165に示すように、「忘
却」操作により、表示画面から選択した句を削除する。
また、同じ非ストップ語を含むすべての句を戻された句
のリストから削除する。
て、オペレータは照会語を変更することもできる。これ
には、通例、前に探索した照会語のリストへ1以上の照
会語を追加する必要がある。そのあと、操作はステップ
120へ戻り、オペレータはステップ180で探索を終
了させ、たとえば、所望の文書を吟味し、そして可能で
あれば、印刷するまで、探索操作と表示操作を繰り返
す。
複数言語辞書を備えることにより、オペレータが知らな
い言語で書かれた文書の言語資料を探索できるように拡
張することが可能である。知らない言語の文書を探索す
る場合、問題点が2つある。第1は照会の作成であり、
第2は結果の理解である。後者は、仮に機械翻訳の助け
が得られても、特に、文書の翻訳は高価であり、しかも
時間のかかる仕事であるからやっかいである。本発明
は、通例、照会の長さが短い(1語程度)ことと、各一
致ごとに戻される追加文脈語の数を1語程度に少なくす
ることができるので、これら2つの問題の解決に役に立
つ。
って、フランス語の文書の言語資料に照会することを希
望していると仮定する。ユーザーは一対の英語の単語A
とBを与え、そしてフランス語の文書の言語資料を指定
する。英仏辞典と仏英辞典も必要である。探索は以下の
ように進行する。最初に、辞書を用いて英語の単語Aを
一組の対応するフランス語の単語A1,A2,A
3...へ翻訳し、英語の単語Bを一組の対応するフラ
ンス語の単語B1,B2,B3...へ翻訳する。次
に、それらの対のあらゆる組合せに基づいて、すべての
句を見つける(すなわち、1の近接制約条件で、(A1
またはA2またはA3または...)と(B1またはB
2またはB3または...)を探索する)。それらの対
の多くは実際にはグループをなさないが、ほとんどの対
は簡単には見つからないので、文書の言語資料自体によ
って誤りが訂正されるであろう。次に、この探索によっ
て戻された各句ごとに、A、B、および翻訳された対の
AとBに近いとわかったフランス語の文脈語Cの考えら
れる一組の翻訳(C1,C2,C3...)によって作
られた英語の句と、フランス語の句の両方を表示する。
が短いので、局部的翻訳手法(さらに幾つかの慣用句辞
書を使用する)が役に立つであろう。急ぎの際でも必要
な翻訳は行うことができる。詳しく述べると、文書は、
前もって完全に翻訳する必要はない。正確さはある程度
低いけれども、再現度が高く、また本発明の対話の性質
上、正確さは実用的なものになるはずである。もし有望
と思われる文書が見つかれば、より複雑な時間のかかる
装置を使用して、単語より大きな文書単位の翻訳を試み
ることができる。特定の言語を、基礎言語として推測的
に翻訳する必要はない。異なる言語の話者は、かれらの
言語へ(から)辞書を使用できさえすれば、同時に文書
言語資料を使用することができる。
識別することができさえすれば、ユーザーは探索した文
書言語資料にどの言語が使用されているかを知る必要が
ない。詳しく述べると、探索した言語資料は1以上の言
語で書かれた多言語であってもよい。たとえば、言語資
料は最新のフランス、ドイツ、および日本の特許明細書
でもよいし、単語を翻訳するために適当な数の二言語辞
書を備えることもできる。
ジョン(上に略述した計画を改良したもの)を実施し
た。詳しく述べると、本発明は、テキストデータベース
アーキテクチャ(TDB)によってサポートされる探索
手法の1つである(D.R. Cutting, J. Pederson, and
P.K. Halvorson, “An object-oriented architecture
for text retrieval”, in Conference Proceedings o
f RIAO 1991, Intelligent Text and Image Handling,B
arcelona, Spain, pages 285 〜 298,April 1991 参
照) 。TDBは、コモン LISP (G.L. Steele, Jr.
“CommonLisp, the Language ”, Digital Press, seco
nd edition, 1990) で実施され、検索装置の高速プロ
トタイプ化を目指すソフトウェアアーチファクトであ
る。TDBに対するユーザーインタフェース(テキスト
走査検索装置(text browser) として知られる)は、In
terlisp-D (Xerox Corp., Interlisp-D Reference Manu
al, Xerox AIS, 1987 ) ウィンドウシステムを使用する
複数語形変化表テキスト探索/検索ツール300(図3
〜5参照)を備えている。最近は、同じ言語資料に、2
つの探索手法(すなわち、類似点探索と、本発明の語句
向き手法)が使用される。最初の2つの画面枠310,
330は、それぞれ、本発明の語句向き手法の照会仕様
と結果提示に関係がある。第3の画面枠350は、文書
をスクロール可能に表示するためのものである。最後の
2つの画面枠360,380は、類似点探索と関係があ
るが、本発明の一部を構成するものではない。本発明の
語句向き手法は、正しく方向付けられた照会に最も有用
であり、その結果を、あとで走査検索方法たとえば類似
点探索の種にすることができると予想されるが、順序付
けは特に重要ではない。
“Abort ”、および“Sort”の表示が付けられた3つの
ボックスがあり、それらのボックスの上にカーソルを置
いて作動させ、命令(以下説明する)を入力することが
できる。オペレータは、ボックス315に照会語を入れ
ることができる(タイプして)。さらに、“Yes ”また
は“No”ボックスの上でマウスカーソルのボタンを押す
ことにより、“Same Sentence ”機能を作動させたり、
停止させたりすることができる。作動させたとき、“Sa
me Sentence ”機能は、戻された句を単一文内に出現す
るように制限する。また、“Query Interaction ”バー
には、“Forget”、“Extend”、“Step”、および“Vi
ew”の各ボックスがある。“Forget”ボックスと“Exte
nd”ボックスは、カーソルを該当するボックスの上に置
きボタンを押すことにより、上記の操作を、選択した句
に対し実施する。“Step”ボックスは、作動させると、
語句セレクタ332を増分的に移動させる。語句セレク
タ332が表示画面枠330の下部にあるとき、“Ste
p”ボックスを作動させると、表示された語句がスクロ
ールされる。“View”ボックスは、選択した語句に関連
のある文書をビュー画面枠350に見えるようにする。
辞典内の項目)の内容語(ストップリスト上の語を無視
する)を抜き出し、語尾変化形態(inflectonal morpho
logy) を除くことにより、それらを正規化し、次に、そ
れらの逐次オフセットを b-ツリー(b-tree) ベース逆
索引に記録する索引付けエンジンにより、目標のテキス
ト言語資料(この実例では、グロリヤ社の百科辞典、AS
CII テキストの 64 メガバイト) を処理した(たとえ
ば、D.R. Cutting and J.O. Pederson, “Optimization
s for dynamic inverted index maintenance”, Procee
dings of SIGIR 1990, September 1990 参照) 。
す一組の単語の指定へ進む(図6参照)。照会語を表示
画面上の区域(すなわち、ボックス315)にタイプす
る。照会に納得したら、オペレータは“query ”ボック
スのボタンを押して探索を開始させる。“Abort ”ボッ
クスのボタンを押せば、いつでも探索を取り消すことが
できる。この実例の場合、ユーザーは単語“movie ”(
または、その語尾変化形態を含む句に関心がある。イン
タフェースは探索項の限界頻度と現在見つかっているヒ
ットの数を報告することに注目されたい。近接制約条件
(この実例では、1の近接制約条件)をもつブール論理
積と解釈して、照会を分解する。もしすべての照会語
が、それらの間のただ1つの内容語ギャップをもって出
現すれば、一致が生じる。この実例の場合、照会語はた
だ1つであるから、“movie ”のすべての例は一致す
る。
7参照)を満たす一組のテキストの句である。この実例
の場合、“movie ”の各例は、照会語の各側に追加の内
容語について1つ、2つの重複する句を生成する(総計
263の場合)。文制限(sentence limitation) が働
くので、幾つかの照会語の出現によって、1つの句が生
成されるだけである。これらの照会語は、ユーザーの吟
味を助けるために様式化した形で与えられる。ディスプ
レイ発見的手法は、照会項、1つの追加の非ストップ
語、およびスペース、句読点、およびストップ語を含む
すべての介在する(索引のない)テキストを提供する。
追加の非ストップ語を含むことは、文脈を明確にすると
思われる。たま、介在するテキストの内容は、有用な統
語(syntactic)情報、特に機能語(冠詞、前置詞、接続
詞など)を与える。各句ごとに最大でテキストの行全部
を戻すことができ、次の隣接する非ストップ語だけが強
調表示される。これにより、次の隣接する非ストップ語
を整列用に使用しているにもかかわらず、オペレータに
最大量の情報が提供される。
め、句が形式化され、容易に認識できる場所に追加の非
ストップ語が置かれる。この結果、白色スペースの縦帯
(ガター(gutter) と呼ばれる)の次に、これらの文脈
が縦に並べられる。ガター語はボールド体で強調表示さ
れ、照会語は強調表示されないが、イタリック体で区別
される。最終的な表示は、文脈付きキーワード索引をし
のばせるものであるが、重要な相違点は、各ガター語が
新しい情報であり(一致基準の一部分ではない)、複数
項照会の結果であるかも知れないことである。
に、句の個々の順序付けは、照会分解メカニズムによっ
て必要条件として含まれない。実際には、個々の文書に
関連があるすべての句が出現順に現れるように、句を構
成すると都合がよい。もし文書をたぶんアルファベット
順の題名によって(これは、逆索引による特有の走査順
序に相当する)一定の順序で自然に記憶させれば、すべ
ての照会が終了する前に、部分的結果を戻すことができ
る。これは、探索が終わるのを待たずに、ユーザーは部
分的結果の吟味を始めることができるので、ヒット数が
多い照会の場合に特に有用である。その他の提示順序付
けも有用である。詳しく述べると、ガター語によって、
または内容語の列からソートキーを抜き出す計画に従っ
て、句を分類することができる。これは、増分的に、ま
たは探索の終了後に、どちらで実施することができるで
あろう。この実例の場合、画面枠310の“Sort”ボッ
クスのボタンを押すと、ガター語によりアルファベット
順に句が表示される。このやり方で表示する場合、各句
が置かれている文書の題名はその句の左に表示されな
い。
て、“silent movie”、“movie theater ”、“movie
industry”、等の多くの句に“movie ”が現れているこ
とを容易に見ることができる。この段階で、ユーザーは
“query ”画面枠の“forget”のボタンを押して、現在
の選択された句に類似する(同じガター語を有するとい
う意味で)句を消去することを選べば、スクロールしな
いでより多くの句を調べることができる。上記の代わり
に、ユーザーは完全な状態のものを1つ選んで照会をし
ぼり、さらに学習することができる。もしユーザーが
“industry”を追加語として加えた照会を再評価すれば
(図8参照)、12のヒットが戻される(図9参照)。
同様に、たとえば、“Rome”の題名のついた記事は、検
査によって、イタリヤ映画産業に関係があることが容易
にわかる。句“movie industry operated ”は特に現れ
ていないが、ユーザーは“extend”のボタンを押すこと
により、調べた文脈を拡大することができる(図10参
照)。図10に示すように、“extend”を選択すると、
前のガター語(“ operated ”)は強調表示されず、次
の非ストップ語(“code”)がガターに並べられる。句
の任意の1つを選択して、“query ”画面枠の“view”
のボタンを押すことにより、関係がある文書(強調表示
された句を有する)を調べることができる。
milarity search) を行うことができる。類似点探索は
周知であり、本発明の一部ではなく、公知の手法によっ
て実施される。類似点探索ユーザーインタフェース画面
枠は、4つの選択ボックス、すなわち“Selection ”、
“Feedback”、“Abort ”、および“View”ボックスを
オペレータに提示する。“Selection ”は“View”画面
枠350内に強調表示された段落について類似点探索を
実行させる。“Feedback”は表示画面内の文書全体につ
いて類似点探索を実行させる。“Abort ”と“View”は
前に述べたように機能する。
明を実施するアルゴリズムを説明する。このアルゴリズ
ムは、語の列として表現された目標言語資料から可能性
のある探索可能な句を抜き出すことができる。
される語の列である。 d={w1 d , w2 d , ...wnd d } 上式において、ndは文書d内の語の例の数である。以
下、各語の出現を長さ1の語間隔(word interval)とみ
なすと都合がよい。すなわち、 (d,s,e)={ws d , ws+1 d , ...we d } とすると、 d={(d,1,1),(d,2,2),...(d,nd,nd)} になる。長さ1の語間隔の場合には、 (d,s)=(d,s,s) とする。
とができる。この対応表は、各語を含む長さ1の語間隔
をもつ各語を識別する。 I(w)= {( d1 w , s1,1 w ),(d1 w ,s1,2 w ),.. (d1 w ,s1,n1 w ), {( d2 w , s2,1 w ),(d2 w ,s2,2 w ),..(d2 w ,s2,n2 w ), {( dnw w , snw,1 w),(dnw w ,snw,2 w),..(dnw w ,snw,ndw w ), 上式において、di w はwの例を含むi番目の文書であ
り、si,j w はdi w 内のwのj番目の例の語オフセッ
ト(word offset)であり、ndwはd内のwの例の数で
あり、nwはwが出現する文書の数である。もし文書に
ついて順序付けが存在すれば(そのような順序付けはい
つでも作ることができる)、 I(w)を以下のように順序
付けする必要がある。
算(merge operation)と定義するのが自然である。すな
わち、論理和の照会q={w1 q ,w2 q ,...wnq
q }の結果は、次式で定義される。
N項マージ演算(n-arymerge operation)であり、優先
待ち行列によって(log nq )Σi=1 q |I(w i q )
|に比例する時間内に実施することができる(D. Knut
h, “The Art of Computer Progamming”Vol. 3 : Sort
ing and Searching, Addison Wesley, 1973参照) 。
たマージ演算と見ることができる。もしどの語wi q も
語の列に少なくとも一度は出現し、かつ列の全長が|q
|+p(p≧0は近接パラメータ)にすぎなければ、q
はその語の列によって満足されると仮定する。Ii =I
(wi q )とし、fj i をIi のj番目の間隔であると
定義する。すべてのiについてci =1にセットし、最
初にIi の第1の間隔をfi =fci i とする。fi を考
慮に入れてIi を順序付けする。すなわち、 もしfi <fj ならば、 di w <dj w 、 (di ,si )はfi を言うものとして、以下のアルゴ
リズムを検討する。
nq-1 si+1 +si ≦pならば、結果に(d1 ,s1 ,
snq)を加える。
さもなければ1へ行く。
すべての間隔が必ずしも戻されるわけではない。すなわ
ち、2つの候補間隔が左縁を共用している場合には、短
いほうだけが選ばれるであろう。たとえば、照会のパタ
ーンが“xy”であり、p=1であると仮定すると、2
つの候補間隔を見つけることができるが、列“xyy”
はただ1つの結果間隔を生じさせるであろう。後戻り
(backtracking) を追加することにより、このアルゴリ
ズムを完全に正しいものに修正することができる。
はnq log nq に比例する、したがってこのアルゴリズ
ムの総合的な時間複雑性(time complexity)は(nq lo
g n q )Σi=1 q |I(wi q ) |に比例するけれども、
このアルゴリズムの内部ループを Σi=1 q |I
(wi q ) |回実行する。
1のとき、q+1)の句を戻すであろう。長さqの句
は、左または右に語を加えることによってq+1へ拡張
することができる。従って、ただ1つの照会語が入力さ
れ、文の境界を考慮に入れないときはいつでも、記憶さ
れた索引付きテキスト内の照会語の各出現は、2つの句
を戻すことができる。最初の句は、照会語の一の側(た
とえば、左側)に次の隣接する非ストップ語を含むであ
ろう。第2の句は照会語の他の側(たとえば、右側)に
次の隣接する非ストップ語を含むであろう。もし各句が
テキストの行全体として表示されれば、各突合せごとに
戻された2つの句の間にかなりの重複が生じるであろ
う。従って、特にテキストの行全体を表示する場合に
は、各突合せごとにただ1つの句を表示することが望ま
しい。
句は照会語の数(p=1のときは、+1)に等しい多数
の非ストップ語を含むであろう。もし照会語のすべてが
互いに隣接していれば、上に述べたように各突合せごと
に2つの句が戻されることがあろう。しかし、もし突合
せの中に1つの語スペースが存在すれば、そのスペース
の中に非ストップ語(ガター語)が置かれ、結果的に、
その突合せのときただ1つの句が戻されるであろう。
ペレータが句を拡張することを決定したとき、その句の
ガター語をストップリストに加え、戻された句リストを
修正する(すなわち、再評価する)。この操作は、増え
たストップリストで、文書の全言語資料について探索を
やり直すよりもかなり速い。従って、ユーザーに再評価
された句リストを迅速に表示することができる。さら
に、もしストップリストに加えられたガター語で、文書
の全言語資料を再探索すれば、前に戻されなかった句を
戻すことができるであろう。
のすべての拡張は無視される。しかし、文書の全言語資
料にわたるすべての将来の探索において、前の非ストッ
プ語を拡張された句からストップリストへ加えることは
可能である。
するという点で、「拡張」操作と似た働きをするが、
「忘却」操作では、無視された句のガター語は、表示さ
れた句に対するブール否定として扱われる。しかし、無
視された語を除く文書の全言語資料の再探索は、いかな
る新しい結果も戻さないことに注目されたい(しかし、
再探索は再評価よりも長い時間がかかるであろう)。
言語資料について実施され、照会形成操作の結果であ
る。「忘却」操作および「拡張」操作の結果をオペレー
タへ迅速に提示するため、「忘却」と「拡張」は探索と
して扱われず、再評価として扱われ、一組の戻された句
(全言語資料ではない)について実施される。 C.考えられる拡張 本発明は、いろいろなやり方で拡張することができる。
最初に、隣接する候補語のリストのあり得るトピック決
定値(likely topic determining value) を統計的に評
価することによって、隣接する明確化用の内容語を選ぶ
現在の発見的手法を改良することができるであろう。こ
れは、重要ウエイトを検討するか(類似点探索によって
定義されるように)、または言語資料のクラスタ分析に
基づいてばらつき量を計算することによって、達成する
ことができるであろう。
グ付け装置(stochastic part-of-speech tagger) を少
なくとも2つのやり方で使用することができるであろ
う。音声部分タグ付けは、意味を明確にすることができ
るので(たとえば、名詞としての“package ”は動詞と
しての“package ”と全く違う意味をもつ)、戻された
句を、照会語の推論された音声部分に基づいて区別する
(すなわち、分類する)ことが戦略になるであろう。も
う1つの使用法は、拡張されたタグ付き文脈を名詞句認
識装置へ送って、統語的に緊密に結びついたサブセット
を選び出して表示することである。
て、候補句を生成するのに最も役に立つ。この場合、網
羅的な一覧表を作成することは必要ないかも知れない。
上記の代わりに、外観同形句(homomorphic phrase)を1
つの語形変化表(paradigm) として表すことができるで
あろう。この等価クラス(equivalence class)への転化
により、言語資料内に存在する変形が、同じ(または、
類似の)句の反復例のリスト作成よりも容易にさらされ
るであろう。
る。ヒットがほんの少ししか見つからない場合には、一
定形式の自動拡張が適当であるかも知れない。これは、
極端の場合、論理積でなく論理和になるまで一致基準を
選択的に緩めることによって達成できるであろう。この
戦略は、一致の度合いに基づいて戻された句に弁別的に
重みを加え、それに応じてそれらの句を分類する。
が、この特定実施例は発明を明らかにするためのもので
あり、発明を限定するものではない。そのほかにも、特
許請求の範囲に記載した発明の精神および発明の範囲の
中で、さまざまな修正をなすことができる。
素のブロック図である。
トである。
上部部分の図である。
中間部分の図である。
下部部分の図である。
ある。
の図である。
面枠の図である。
一部を示す図である。
Claims (3)
- 【請求項1】 ストップ語および非ストップ語として記
憶された語データの列から成る文書の言語資料がメモリ
内に入っている自動化データベースをデータ処理装置で
選択的に探索する方法であって、 (a) 前記データ処理装置に少なくとも1つの照会語
を入力すること、 (b) 前記少なくとも1つの照会語に基づいて、語デ
ータ探索キーを決定すること、 (c) 前記言語資料を探索して、前記探索キーと前記
言語資料の語データとの間のすべての一致するものを識
別すること、 (d) 各一致するものを、前記探索キーと一致する語
データ、前記一致する語データの次の隣接する非ストッ
プ語、および前記一致する語データと前記次の隣接する
非ストップ語の間に介在するすべてのストップ語を含む
句として表示すること、および (e) 前記次の隣接する非ストップ語の1つを、新し
い照会語として選択し、選択した新しい照会語を使用し
てステップ(a)〜(d)を繰り返すことにより、前記
言語資料から問題の文書を探し出すこと、の諸ステップ
から成ることを特徴とする方法。 - 【請求項2】 ストップ語および非ストップ語として記
憶された語データの列から成る文書の言語資料がメモリ
内に入っている自動化データベースをデータ処理装置で
選択的に探索する方法であって、 (a) 前記データ処理装置に少なくとも1つの照会語
を入力すること、 (b) 前記少なくとも1つの照会語に基づいて、語デ
ータ探索キーを決定すること、 (c) 前記言語資料を探索して、前記探索キーと前記
言語資料の語データとの間のすべての一致するものを識
別すること、および (d) 各共通する物を、前記探索キーと一致する語デ
ータ、前記一致する語データの次の隣接するただ1つの
非ストップ語、および前記一致する語データと前記次の
隣接するただ1つの非ストップ語の間に介在するすべて
のストップ語を含む句として表示すること、の諸ステッ
プから成ることを特徴とする方法。 - 【請求項3】 ストップ語および非ストップ語として記
憶された語データの列から成る文書の言語資料をメモリ
内に記憶している文書検索装置において、前記言語資料
をくまなく選択的に探索する装置であって、 文書検索装置のオペレータが入力した少なくとも1つの
照会語を受け取る手段、 前記言語資料をくまなく探索し、前記少なくとも1つの
照会語に基づいて決定された探索キーと前記言語資料の
語データとの間のすべての一致するものを識別する手
段、および各一致するものを、前記探索キーと一致する
語データ、前記一致する語データの次の隣接するただ1
つの非ストップ語、および前記一致する語データと前記
ただ1つの非ストップ語との間に介在するすべてのスト
ップ語を含む句として表示する手段、を備えていること
を特徴とする探索装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/745794 | 1991-08-16 | ||
US07/745,794 US5278980A (en) | 1991-08-16 | 1991-08-16 | Iterative technique for phrase query formation and an information retrieval system employing same |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05189487A true JPH05189487A (ja) | 1993-07-30 |
JP3027052B2 JP3027052B2 (ja) | 2000-03-27 |
Family
ID=24998285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4210248A Expired - Lifetime JP3027052B2 (ja) | 1991-08-16 | 1992-08-06 | 文書検索システム |
Country Status (4)
Country | Link |
---|---|
US (1) | US5278980A (ja) |
EP (1) | EP0530993B1 (ja) |
JP (1) | JP3027052B2 (ja) |
DE (1) | DE69229204T2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0944523A (ja) * | 1995-07-27 | 1997-02-14 | Fuji Xerox Co Ltd | 関連語提示装置 |
JPH10334114A (ja) * | 1997-06-04 | 1998-12-18 | Fuji Xerox Co Ltd | 文書検索装置及び文書検索プログラムを記録した記憶媒体 |
JPH10334115A (ja) * | 1997-06-04 | 1998-12-18 | Fuji Xerox Co Ltd | 検索式作成装置 |
WO2002091234A1 (fr) * | 2001-04-24 | 2002-11-14 | Takahiro Nakamura | Dispositif de recuperation destine a une base de donnees de textes joints contenant des informations secondaires |
JP2008165563A (ja) * | 2006-12-28 | 2008-07-17 | Fujitsu Ltd | 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法 |
Families Citing this family (431)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR950008022B1 (ko) * | 1991-06-19 | 1995-07-24 | 가부시끼가이샤 히다찌세이사꾸쇼 | 문자처리방법 및 장치와 문자입력방법 및 장치 |
JP2710188B2 (ja) * | 1991-10-03 | 1998-02-10 | インターナショナル・ビジネス・マシーンズ・コーポレイション | データ処理システムとユーザの間で対話を生成する方法およびデータ処理装置 |
US5488725A (en) * | 1991-10-08 | 1996-01-30 | West Publishing Company | System of document representation retrieval by successive iterated probability sampling |
US5418943A (en) * | 1991-10-23 | 1995-05-23 | At&T Corp. | Information system with knowledge base and data base |
US5483650A (en) * | 1991-11-12 | 1996-01-09 | Xerox Corporation | Method of constant interaction-time clustering applied to document browsing |
US5442778A (en) * | 1991-11-12 | 1995-08-15 | Xerox Corporation | Scatter-gather: a cluster-based method and apparatus for browsing large document collections |
US5404507A (en) * | 1992-03-02 | 1995-04-04 | At&T Corp. | Apparatus and method for finding records in a database by formulating a query using equivalent terms which correspond to terms in the input query |
US5434777A (en) * | 1992-05-27 | 1995-07-18 | Apple Computer, Inc. | Method and apparatus for processing natural language |
KR100291372B1 (ko) * | 1992-05-29 | 2001-06-01 | 이데이 노부유끼 | 전자 사전 장치 |
EP0607615B1 (en) * | 1992-12-28 | 1999-09-15 | Kabushiki Kaisha Toshiba | Speech recognition interface system suitable for window systems and speech mail systems |
US5630121A (en) * | 1993-02-02 | 1997-05-13 | International Business Machines Corporation | Archiving and retrieving multimedia objects using structured indexes |
US5369704A (en) * | 1993-03-24 | 1994-11-29 | Engate Incorporated | Down-line transcription system for manipulating real-time testimony |
US7249026B1 (en) * | 1993-03-24 | 2007-07-24 | Engate Llc | Attorney terminal having outline preparation capabilities for managing trial proceedings |
US7631343B1 (en) * | 1993-03-24 | 2009-12-08 | Endgate LLC | Down-line transcription system using automatic tracking and revenue collection |
US6055531A (en) * | 1993-03-24 | 2000-04-25 | Engate Incorporated | Down-line transcription system having context sensitive searching capability |
US5519608A (en) * | 1993-06-24 | 1996-05-21 | Xerox Corporation | Method for extracting from a text corpus answers to questions stated in natural language by using linguistic analysis and hypothesis generation |
JPH0756933A (ja) * | 1993-06-24 | 1995-03-03 | Xerox Corp | 文書検索方法 |
EP0645757B1 (en) * | 1993-09-23 | 2000-04-05 | Xerox Corporation | Semantic co-occurrence filtering for speech recognition and signal transcription applications |
US5576954A (en) * | 1993-11-05 | 1996-11-19 | University Of Central Florida | Process for determination of text relevancy |
US5692176A (en) * | 1993-11-22 | 1997-11-25 | Reed Elsevier Inc. | Associative text search and retrieval system |
US5454063A (en) * | 1993-11-29 | 1995-09-26 | Rossides; Michael T. | Voice input system for data retrieval |
CN1136356A (zh) * | 1993-11-29 | 1996-11-20 | 迈克尔·T·罗西德斯 | 用于文本检索的输入系统 |
US5761496A (en) * | 1993-12-14 | 1998-06-02 | Kabushiki Kaisha Toshiba | Similar information retrieval system and its method |
US5748841A (en) * | 1994-02-25 | 1998-05-05 | Morin; Philippe | Supervised contextual language acquisition system |
US5499360A (en) * | 1994-02-28 | 1996-03-12 | Panasonic Technolgies, Inc. | Method for proximity searching with range testing and range adjustment |
US6081804A (en) * | 1994-03-09 | 2000-06-27 | Novell, Inc. | Method and apparatus for performing rapid and multi-dimensional word searches |
CA2120447C (en) * | 1994-03-31 | 1998-08-25 | Robert Lizee | Automatically relaxable query for information retrieval |
US5553139A (en) * | 1994-04-04 | 1996-09-03 | Novell, Inc. | Method and apparatus for electronic license distribution |
JPH0844719A (ja) * | 1994-06-01 | 1996-02-16 | Mitsubishi Electric Corp | 辞書アクセスシステム |
JP3016691B2 (ja) * | 1994-06-29 | 2000-03-06 | 富士通株式会社 | データ検索条件設定方法 |
JP2687882B2 (ja) * | 1994-07-05 | 1997-12-08 | 日本電気株式会社 | 検索条件統合装置 |
US5799268A (en) * | 1994-09-28 | 1998-08-25 | Apple Computer, Inc. | Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like |
US5838906A (en) * | 1994-10-17 | 1998-11-17 | The Regents Of The University Of California | Distributed hypermedia method for automatically invoking external application providing interaction and display of embedded objects within a hypermedia document |
US5671411A (en) * | 1994-11-10 | 1997-09-23 | Intel Corporation | Method of searching an audio/visual programming database using selected criterion having implicit logical operation |
US5870552A (en) * | 1995-03-28 | 1999-02-09 | America Online, Inc. | Method and apparatus for publishing hypermedia documents over wide area networks |
US5794177A (en) * | 1995-07-19 | 1998-08-11 | Inso Corporation | Method and apparatus for morphological analysis and generation of natural language text |
US5717914A (en) * | 1995-09-15 | 1998-02-10 | Infonautics Corporation | Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query |
WO1997010554A1 (en) * | 1995-09-15 | 1997-03-20 | Infonautics Corporation | Architecture for processing search queries, retrieving documents identified thereby, and method for using same |
WO1997012334A1 (en) * | 1995-09-25 | 1997-04-03 | International Compu Research, Inc. | Matching and ranking legal citations |
US5867164A (en) * | 1995-09-29 | 1999-02-02 | Apple Computer, Inc. | Interactive document summarization |
US5838323A (en) * | 1995-09-29 | 1998-11-17 | Apple Computer, Inc. | Document summary computer system user interface |
US5701498A (en) * | 1995-11-17 | 1997-12-23 | International Business Machines Corporation | Method and apparatus for a structured ASCII browser for online publications formatted in a bookmaster format |
US5918234A (en) * | 1995-11-22 | 1999-06-29 | F.M.E. Corporation | Method and apparatus for redundant postage accounting data files |
US5842203A (en) * | 1995-12-01 | 1998-11-24 | International Business Machines Corporation | Method and system for performing non-boolean search queries in a graphical user interface |
US5911140A (en) * | 1995-12-14 | 1999-06-08 | Xerox Corporation | Method of ordering document clusters given some knowledge of user interests |
IE950967A1 (en) * | 1995-12-21 | 1997-07-02 | Praglia Limited | A method for controlling a computer for searching and a¹computer controlled by the method. |
US5905860A (en) * | 1996-03-15 | 1999-05-18 | Novell, Inc. | Fault tolerant electronic licensing system |
US5758069A (en) * | 1996-03-15 | 1998-05-26 | Novell, Inc. | Electronic licensing system |
US5913215A (en) * | 1996-04-09 | 1999-06-15 | Seymour I. Rubinstein | Browse by prompted keyword phrases with an improved method for obtaining an initial document set |
US5794233A (en) * | 1996-04-09 | 1998-08-11 | Rubinstein; Seymour I. | Browse by prompted keyword phrases |
US5721897A (en) * | 1996-04-09 | 1998-02-24 | Rubinstein; Seymour I. | Browse by prompted keyword phrases with an improved user interface |
US6418432B1 (en) * | 1996-04-10 | 2002-07-09 | At&T Corporation | System and method for finding information in a distributed information system using query learning and meta search |
US5995921A (en) * | 1996-04-23 | 1999-11-30 | International Business Machines Corporation | Natural language help interface |
US5778378A (en) * | 1996-04-30 | 1998-07-07 | International Business Machines Corporation | Object oriented information retrieval framework mechanism |
US5933841A (en) * | 1996-05-17 | 1999-08-03 | Ameritech Corporation | Structured document browser |
US5778362A (en) * | 1996-06-21 | 1998-07-07 | Kdl Technologies Limted | Method and system for revealing information structures in collections of data items |
US6745194B2 (en) | 2000-08-07 | 2004-06-01 | Alta Vista Company | Technique for deleting duplicate records referenced in an index of a database |
US5745890A (en) * | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Sequential searching of a database index using constraints on word-location pairs |
US6119114A (en) * | 1996-09-17 | 2000-09-12 | Smadja; Frank | Method and apparatus for dynamic relevance ranking |
US6173298B1 (en) | 1996-09-17 | 2001-01-09 | Asap, Ltd. | Method and apparatus for implementing a dynamic collocation dictionary |
US6012073A (en) * | 1996-10-21 | 2000-01-04 | Corbis Corporation | Method and system for displaying original documents and translations thereof |
US5956740A (en) * | 1996-10-23 | 1999-09-21 | Iti, Inc. | Document searching system for multilingual documents |
US6498921B1 (en) * | 1999-09-01 | 2002-12-24 | Chi Fai Ho | Method and system to answer a natural-language question |
US5836771A (en) * | 1996-12-02 | 1998-11-17 | Ho; Chi Fai | Learning method and system based on questioning |
US6078914A (en) * | 1996-12-09 | 2000-06-20 | Open Text Corporation | Natural language meta-search system and method |
US5924105A (en) * | 1997-01-27 | 1999-07-13 | Michigan State University | Method and product for determining salient features for use in information searching |
US6076051A (en) | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
US6044376A (en) * | 1997-04-24 | 2000-03-28 | Imgis, Inc. | Content stream analysis |
US6185559B1 (en) | 1997-05-09 | 2001-02-06 | Hitachi America, Ltd. | Method and apparatus for dynamically counting large itemsets |
US5940821A (en) * | 1997-05-21 | 1999-08-17 | Oracle Corporation | Information presentation in a knowledge base search and retrieval system |
GB9713019D0 (en) * | 1997-06-20 | 1997-08-27 | Xerox Corp | Linguistic search system |
US6470307B1 (en) * | 1997-06-23 | 2002-10-22 | National Research Council Of Canada | Method and apparatus for automatically identifying keywords within a document |
JP3607462B2 (ja) * | 1997-07-02 | 2005-01-05 | 松下電器産業株式会社 | 関連キーワード自動抽出装置及びこれを用いた文書検索システム |
US5933822A (en) * | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
US6055528A (en) * | 1997-07-25 | 2000-04-25 | Claritech Corporation | Method for cross-linguistic document retrieval |
US6078878A (en) * | 1997-07-31 | 2000-06-20 | Microsoft Corporation | Bootstrapping sense characterizations of occurrences of polysemous words |
US6078916A (en) * | 1997-08-01 | 2000-06-20 | Culliss; Gary | Method for organizing information |
US6182068B1 (en) * | 1997-08-01 | 2001-01-30 | Ask Jeeves, Inc. | Personalized search methods |
US6014665A (en) * | 1997-08-01 | 2000-01-11 | Culliss; Gary | Method for organizing information |
JP2965010B2 (ja) * | 1997-08-30 | 1999-10-18 | 日本電気株式会社 | 関連情報検索方法及び装置並びにプログラムを記録した機械読み取り可能な記録媒体 |
US6052657A (en) * | 1997-09-09 | 2000-04-18 | Dragon Systems, Inc. | Text segmentation and identification of topic using language models |
JP2001507482A (ja) * | 1997-10-08 | 2001-06-05 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 語彙及び/又は言語モデルのトレーニング |
JP3181548B2 (ja) * | 1998-02-03 | 2001-07-03 | 富士通株式会社 | 情報検索装置及び情報検索方法 |
JP3666005B2 (ja) * | 1998-03-03 | 2005-06-29 | マツダ株式会社 | 特許情報検索システム、特許情報検索装置、情報検索中継装置並びに特許情報検索方法 |
JP3601653B2 (ja) * | 1998-03-18 | 2004-12-15 | 富士通株式会社 | 情報検索装置および方法 |
US6112172A (en) * | 1998-03-31 | 2000-08-29 | Dragon Systems, Inc. | Interactive searching |
US6006225A (en) * | 1998-06-15 | 1999-12-21 | Amazon.Com | Refining search queries by the suggestion of correlated terms from prior searches |
US6321226B1 (en) * | 1998-06-30 | 2001-11-20 | Microsoft Corporation | Flexible keyboard searching |
JP3114703B2 (ja) * | 1998-07-02 | 2000-12-04 | 富士ゼロックス株式会社 | 対訳文検索装置 |
US7197451B1 (en) | 1998-07-02 | 2007-03-27 | Novell, Inc. | Method and mechanism for the creation, maintenance, and comparison of semantic abstracts |
US7152031B1 (en) * | 2000-02-25 | 2006-12-19 | Novell, Inc. | Construction, manipulation, and comparison of a multi-dimensional semantic space |
US6144958A (en) * | 1998-07-15 | 2000-11-07 | Amazon.Com, Inc. | System and method for correcting spelling errors in search queries |
US6363377B1 (en) * | 1998-07-30 | 2002-03-26 | Sarnoff Corporation | Search data processor |
US6336116B1 (en) | 1998-08-06 | 2002-01-01 | Ryan Brown | Search and index hosting system |
US6665837B1 (en) * | 1998-08-10 | 2003-12-16 | Overture Services, Inc. | Method for identifying related pages in a hyperlinked database |
IL126373A (en) * | 1998-09-27 | 2003-06-24 | Haim Zvi Melman | Apparatus and method for search and retrieval of documents |
US6453312B1 (en) * | 1998-10-14 | 2002-09-17 | Unisys Corporation | System and method for developing a selectably-expandable concept-based search |
US6480843B2 (en) * | 1998-11-03 | 2002-11-12 | Nec Usa, Inc. | Supporting web-query expansion efficiently using multi-granularity indexing and query processing |
US6327593B1 (en) * | 1998-12-23 | 2001-12-04 | Unisys Corporation | Automated system and method for capturing and managing user knowledge within a search system |
JP2000196672A (ja) | 1998-12-28 | 2000-07-14 | Toshiba Corp | ネットワ―ク間中継装置 |
GB9904662D0 (en) | 1999-03-01 | 1999-04-21 | Canon Kk | Natural language search method and apparatus |
AU5451800A (en) * | 1999-05-28 | 2000-12-18 | Sehda, Inc. | Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces |
US20020032564A1 (en) | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
WO2000079426A1 (en) * | 1999-06-18 | 2000-12-28 | The Trustees Of Columbia University In The City Of New York | System and method for detecting text similarity over short passages |
US7797730B2 (en) * | 1999-06-24 | 2010-09-14 | Engate Llc | Downline transcription system using automatic tracking and revenue collection |
JP3788111B2 (ja) | 1999-06-30 | 2006-06-21 | 株式会社デンソー | 情報サービスシステム |
US20040230566A1 (en) * | 1999-08-20 | 2004-11-18 | Srinivas Balijepalli | Web-based customized information retrieval and delivery method and system |
US6862713B1 (en) * | 1999-08-31 | 2005-03-01 | International Business Machines Corporation | Interactive process for recognition and evaluation of a partial search query and display of interactive results |
US6601026B2 (en) | 1999-09-17 | 2003-07-29 | Discern Communications, Inc. | Information retrieval by natural language querying |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7392185B2 (en) * | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US6772150B1 (en) * | 1999-12-10 | 2004-08-03 | Amazon.Com, Inc. | Search query refinement using related search phrases |
US7421432B1 (en) * | 1999-12-15 | 2008-09-02 | Google Inc. | Hypertext browser assistant |
DE60005293T2 (de) * | 2000-02-23 | 2004-07-01 | Ser Solutions Inc. | Methode und Vorrichtung zur Verarbeitung elektronischer Dokumente |
US6785669B1 (en) * | 2000-03-08 | 2004-08-31 | International Business Machines Corporation | Methods and apparatus for flexible indexing of text for use in similarity searches |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6728932B1 (en) | 2000-03-22 | 2004-04-27 | Hewlett-Packard Development Company, L.P. | Document clustering method and system |
US7120627B1 (en) * | 2000-04-26 | 2006-10-10 | Global Information Research And Technologies, Llc | Method for detecting and fulfilling an information need corresponding to simple queries |
AU2000252256A1 (en) * | 2000-05-23 | 2001-12-03 | Daniel Vinsonneau | Automatic and secure data search method using a data transmission network |
US6968332B1 (en) * | 2000-05-25 | 2005-11-22 | Microsoft Corporation | Facility for highlighting documents accessed through search or browsing |
US7747611B1 (en) | 2000-05-25 | 2010-06-29 | Microsoft Corporation | Systems and methods for enhancing search query results |
JP2001337980A (ja) * | 2000-05-29 | 2001-12-07 | Sony Corp | 電子番組ガイド検索方法及び電子番組ガイド検索装置 |
AU2001268333A1 (en) * | 2000-06-09 | 2001-12-24 | William N. Morris | Method and apparatus for data collection and knowledge management |
US7672952B2 (en) * | 2000-07-13 | 2010-03-02 | Novell, Inc. | System and method of semantic correlation of rich content |
US7653530B2 (en) * | 2000-07-13 | 2010-01-26 | Novell, Inc. | Method and mechanism for the creation, maintenance, and comparison of semantic abstracts |
US7286977B1 (en) | 2000-09-05 | 2007-10-23 | Novell, Inc. | Intentional-stance characterization of a general content stream or repository |
US7389225B1 (en) | 2000-10-18 | 2008-06-17 | Novell, Inc. | Method and mechanism for superpositioning state vectors in a semantic abstract |
US6687696B2 (en) * | 2000-07-26 | 2004-02-03 | Recommind Inc. | System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models |
US9177828B2 (en) | 2011-02-10 | 2015-11-03 | Micron Technology, Inc. | External gettering method and device |
WO2002017128A1 (en) * | 2000-08-24 | 2002-02-28 | Science Applications International Corporation | Word sense disambiguation |
US6615208B1 (en) | 2000-09-01 | 2003-09-02 | Telcordia Technologies, Inc. | Automatic recommendation of products using latent semantic indexing of content |
WO2002021335A1 (en) * | 2000-09-01 | 2002-03-14 | Telcordia Technologies, Inc. | Automatic recommendation of products using latent semantic indexing of content |
US20090234718A1 (en) * | 2000-09-05 | 2009-09-17 | Novell, Inc. | Predictive service systems using emotion detection |
US7177922B1 (en) | 2000-09-05 | 2007-02-13 | Novell, Inc. | Policy enforcement using the semantic characterization of traffic |
US20100122312A1 (en) * | 2008-11-07 | 2010-05-13 | Novell, Inc. | Predictive service systems |
US7249121B1 (en) * | 2000-10-04 | 2007-07-24 | Google Inc. | Identification of semantic units from within a search query |
US7346491B2 (en) | 2001-01-04 | 2008-03-18 | Agency For Science, Technology And Research | Method of text similarity measurement |
WO2002065326A2 (en) * | 2001-02-15 | 2002-08-22 | Hedson B.V. | Method and system for job mediation |
US6721728B2 (en) * | 2001-03-02 | 2004-04-13 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | System, method and apparatus for discovering phrases in a database |
US7711547B2 (en) * | 2001-03-16 | 2010-05-04 | Meaningful Machines, L.L.C. | Word association method and apparatus |
US20030093261A1 (en) * | 2001-03-16 | 2003-05-15 | Eli Abir | Multilingual database creation system and method |
US8744835B2 (en) * | 2001-03-16 | 2014-06-03 | Meaningful Machines Llc | Content conversion method and apparatus |
US20030083860A1 (en) * | 2001-03-16 | 2003-05-01 | Eli Abir | Content conversion method and apparatus |
US8874431B2 (en) * | 2001-03-16 | 2014-10-28 | Meaningful Machines Llc | Knowledge system method and apparatus |
US7860706B2 (en) | 2001-03-16 | 2010-12-28 | Eli Abir | Knowledge system method and appparatus |
US7627588B1 (en) | 2001-05-07 | 2009-12-01 | Ixreveal, Inc. | System and method for concept based analysis of unstructured data |
US7194483B1 (en) | 2001-05-07 | 2007-03-20 | Intelligenxia, Inc. | Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information |
USRE46973E1 (en) | 2001-05-07 | 2018-07-31 | Ureveal, Inc. | Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information |
US6970881B1 (en) * | 2001-05-07 | 2005-11-29 | Intelligenxia, Inc. | Concept-based method and system for dynamically analyzing unstructured information |
US7536413B1 (en) | 2001-05-07 | 2009-05-19 | Ixreveal, Inc. | Concept-based categorization of unstructured objects |
US7269546B2 (en) * | 2001-05-09 | 2007-09-11 | International Business Machines Corporation | System and method of finding documents related to other documents and of finding related words in response to a query to refine a search |
US7734459B2 (en) * | 2001-06-01 | 2010-06-08 | Microsoft Corporation | Automatic extraction of transfer mappings from bilingual corpora |
US7050964B2 (en) * | 2001-06-01 | 2006-05-23 | Microsoft Corporation | Scaleable machine translation system |
JP2004534324A (ja) * | 2001-07-04 | 2004-11-11 | コギズム・インターメディア・アーゲー | 索引付きの拡張可能な対話的文書検索システム |
US8301503B2 (en) * | 2001-07-17 | 2012-10-30 | Incucomm, Inc. | System and method for providing requested information to thin clients |
EP1288792B1 (en) * | 2001-08-27 | 2011-12-14 | BDGB Enterprise Software Sàrl | A method for automatically indexing documents |
US6778995B1 (en) | 2001-08-31 | 2004-08-17 | Attenex Corporation | System and method for efficiently generating cluster groupings in a multi-dimensional concept space |
US6978274B1 (en) | 2001-08-31 | 2005-12-20 | Attenex Corporation | System and method for dynamically evaluating latent concepts in unstructured documents |
US6888548B1 (en) * | 2001-08-31 | 2005-05-03 | Attenex Corporation | System and method for generating a visualized data representation preserving independent variable geometric relationships |
US6847964B2 (en) * | 2001-09-24 | 2005-01-25 | Edward A. Hayduk, Jr. | Method of using a computer to facilitate decision making |
US6826566B2 (en) | 2002-01-14 | 2004-11-30 | Speedtrack, Inc. | Identifier vocabulary data access method and system |
US7565367B2 (en) | 2002-01-15 | 2009-07-21 | Iac Search & Media, Inc. | Enhanced popularity ranking |
US20030157470A1 (en) * | 2002-02-11 | 2003-08-21 | Michael Altenhofen | E-learning station and interface |
US7228507B2 (en) | 2002-02-21 | 2007-06-05 | Xerox Corporation | Methods and systems for navigating a workspace |
US7487462B2 (en) | 2002-02-21 | 2009-02-03 | Xerox Corporation | Methods and systems for indicating invisible contents of workspace |
US7650562B2 (en) * | 2002-02-21 | 2010-01-19 | Xerox Corporation | Methods and systems for incrementally changing text representation |
US8370761B2 (en) * | 2002-02-21 | 2013-02-05 | Xerox Corporation | Methods and systems for interactive classification of objects |
US7549114B2 (en) | 2002-02-21 | 2009-06-16 | Xerox Corporation | Methods and systems for incrementally changing text representation |
US7271804B2 (en) * | 2002-02-25 | 2007-09-18 | Attenex Corporation | System and method for arranging concept clusters in thematic relationships in a two-dimensional visual display area |
US7716207B2 (en) * | 2002-02-26 | 2010-05-11 | Odom Paul S | Search engine methods and systems for displaying relevant topics |
US8589413B1 (en) | 2002-03-01 | 2013-11-19 | Ixreveal, Inc. | Concept-based method and system for dynamically analyzing results from search engines |
DE10213348A1 (de) * | 2002-03-26 | 2003-10-09 | Abb Research Ltd | System und Verfahren zur Informationssuche in multilingualen Wissensdatenbanken unter Verwendung eines multilingualen Fachvokabulars |
DE10213468A1 (de) * | 2002-03-26 | 2003-10-09 | Abb Research Ltd | Verfahren und System zur Informationssuche in multilingualen Wissensdatenbanken mit automatischer Übersetzung der Suchergebnisse |
US7089188B2 (en) * | 2002-03-27 | 2006-08-08 | Hewlett-Packard Development Company, L.P. | Method to expand inputs for word or document searching |
US7167871B2 (en) * | 2002-05-17 | 2007-01-23 | Xerox Corporation | Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections |
US20030221166A1 (en) * | 2002-05-17 | 2003-11-27 | Xerox Corporation | Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections |
US7188117B2 (en) * | 2002-05-17 | 2007-03-06 | Xerox Corporation | Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections |
US20040034625A1 (en) * | 2002-08-19 | 2004-02-19 | Kris Reddy | Method and system for complex boolean queries using a simple and intuitive graphical user interface search bar |
US7801909B2 (en) * | 2002-10-17 | 2010-09-21 | Poltorak Alexander I | Apparatus and method for identifying and/or for analyzing potential patent infringement |
US7743061B2 (en) * | 2002-11-12 | 2010-06-22 | Proximate Technologies, Llc | Document search method with interactively employed distance graphics display |
US20050171948A1 (en) * | 2002-12-11 | 2005-08-04 | Knight William C. | System and method for identifying critical features in an ordered scale space within a multi-dimensional feature space |
US8943024B1 (en) | 2003-01-17 | 2015-01-27 | Daniel John Gardner | System and method for data de-duplication |
US8375008B1 (en) | 2003-01-17 | 2013-02-12 | Robert Gomes | Method and system for enterprise-wide retention of digital or electronic data |
US6947930B2 (en) * | 2003-03-21 | 2005-09-20 | Overture Services, Inc. | Systems and methods for interactive search query refinement |
GB0306877D0 (en) * | 2003-03-25 | 2003-04-30 | British Telecomm | Information retrieval |
JP4139253B2 (ja) * | 2003-03-26 | 2008-08-27 | 富士通株式会社 | ストリーミング配信方法 |
US7734627B1 (en) * | 2003-06-17 | 2010-06-08 | Google Inc. | Document similarity detection |
US7610313B2 (en) * | 2003-07-25 | 2009-10-27 | Attenex Corporation | System and method for performing efficient document scoring and clustering |
US7383246B2 (en) * | 2003-10-31 | 2008-06-03 | International Business Machines Corporation | System, method, and computer program product for progressive query processing |
US20050120011A1 (en) * | 2003-11-26 | 2005-06-02 | Word Data Corp. | Code, method, and system for manipulating texts |
US7890526B1 (en) | 2003-12-30 | 2011-02-15 | Microsoft Corporation | Incremental query refinement |
US20050187920A1 (en) * | 2004-01-23 | 2005-08-25 | Porto Ranelli, Sa | Contextual searching |
US7191175B2 (en) | 2004-02-13 | 2007-03-13 | Attenex Corporation | System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space |
GB0407389D0 (en) * | 2004-03-31 | 2004-05-05 | British Telecomm | Information retrieval |
US20050256904A1 (en) * | 2004-05-07 | 2005-11-17 | Aurobinda Pradhan | Reading data from physical items |
US7702618B1 (en) | 2004-07-26 | 2010-04-20 | Google Inc. | Information retrieval system for archiving multiple document versions |
US7567959B2 (en) | 2004-07-26 | 2009-07-28 | Google Inc. | Multiple index based information retrieval system |
US7711679B2 (en) | 2004-07-26 | 2010-05-04 | Google Inc. | Phrase-based detection of duplicate documents in an information retrieval system |
US7580921B2 (en) * | 2004-07-26 | 2009-08-25 | Google Inc. | Phrase identification in an information retrieval system |
EP1836555A4 (en) * | 2004-08-02 | 2009-04-22 | Scientigo Inc | SEARCH ENGINEERING AND SYSTEMS FOR GENERATING RELEVANT SEARCH RESULTS AND ADVERTISING |
US7412442B1 (en) * | 2004-10-15 | 2008-08-12 | Amazon Technologies, Inc. | Augmenting search query results with behaviorally related items |
GB0423879D0 (en) | 2004-10-28 | 2004-12-01 | Koninkl Philips Electronics Nv | Data processing system and method |
US7783633B2 (en) * | 2004-11-19 | 2010-08-24 | International Business Machines Corporation | Display of results of cross language search |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US20060129531A1 (en) * | 2004-12-09 | 2006-06-15 | International Business Machines Corporation | Method and system for suggesting search engine keywords |
US7356777B2 (en) * | 2005-01-26 | 2008-04-08 | Attenex Corporation | System and method for providing a dynamic user interface for a dense three-dimensional scene |
US7404151B2 (en) * | 2005-01-26 | 2008-07-22 | Attenex Corporation | System and method for providing a dynamic user interface for a dense three-dimensional scene |
WO2006086179A2 (en) * | 2005-01-31 | 2006-08-17 | Textdigger, Inc. | Method and system for semantic search and retrieval of electronic documents |
US8527468B1 (en) | 2005-02-08 | 2013-09-03 | Renew Data Corp. | System and method for management of retention periods for content in a computing system |
US20060212422A1 (en) * | 2005-03-21 | 2006-09-21 | Anil Khilani | Efficiently executing commands against a large set of servers with near real time feedback of execution and presentation of the output of the commands |
WO2006110684A2 (en) | 2005-04-11 | 2006-10-19 | Textdigger, Inc. | System and method for searching for a query |
EP1889181A4 (en) * | 2005-05-16 | 2009-12-02 | Ebay Inc | METHOD AND SYSTEM FOR SEARCHING SEARCH |
US8046348B1 (en) | 2005-06-10 | 2011-10-25 | NetBase Solutions, Inc. | Method and apparatus for concept-based searching of natural language discourse |
US8312034B2 (en) * | 2005-06-24 | 2012-11-13 | Purediscovery Corporation | Concept bridge and method of operating the same |
US7734635B2 (en) * | 2005-06-30 | 2010-06-08 | Microsoft Corporation | Indexed views |
US7844599B2 (en) * | 2005-08-24 | 2010-11-30 | Yahoo! Inc. | Biasing queries to determine suggested queries |
US7672932B2 (en) * | 2005-08-24 | 2010-03-02 | Yahoo! Inc. | Speculative search result based on a not-yet-submitted search query |
US7516124B2 (en) * | 2005-12-20 | 2009-04-07 | Yahoo! Inc. | Interactive search engine |
US7747639B2 (en) * | 2005-08-24 | 2010-06-29 | Yahoo! Inc. | Alternative search query prediction |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8984033B2 (en) * | 2005-09-23 | 2015-03-17 | Chicago Mercantile Exchange, Inc. | Non-indexed in-memory data storage and retrieval |
EP1952280B8 (en) * | 2005-10-11 | 2016-11-30 | Ureveal, Inc. | System, method&computer program product for concept based searching&analysis |
US9165039B2 (en) * | 2005-11-29 | 2015-10-20 | Kang Jo Mgmt, Limited Liability Company | Methods and systems for providing personalized contextual search results |
US20070143307A1 (en) * | 2005-12-15 | 2007-06-21 | Bowers Matthew N | Communication system employing a context engine |
WO2007081681A2 (en) | 2006-01-03 | 2007-07-19 | Textdigger, Inc. | Search system with query refinement and search method |
US7676485B2 (en) * | 2006-01-20 | 2010-03-09 | Ixreveal, Inc. | Method and computer program product for converting ontologies into concept semantic networks |
US20070179940A1 (en) * | 2006-01-27 | 2007-08-02 | Robinson Eric M | System and method for formulating data search queries |
US8037003B2 (en) * | 2006-01-30 | 2011-10-11 | Xerox Corporation | Solution recommendation based on incomplete data sets |
US7415449B2 (en) * | 2006-01-30 | 2008-08-19 | Xerox Corporation | Solution recommendation based on incomplete data sets |
AU2007215162A1 (en) | 2006-02-10 | 2007-08-23 | Nokia Corporation | Systems and methods for spatial thumbnails and companion maps for media objects |
US7953740B1 (en) | 2006-02-13 | 2011-05-31 | Amazon Technologies, Inc. | Detection of behavior-based associations between search strings and items |
US8195683B2 (en) | 2006-02-28 | 2012-06-05 | Ebay Inc. | Expansion of database search queries |
US9767184B2 (en) * | 2006-03-14 | 2017-09-19 | Robert D. Fish | Methods and apparatus for facilitating context searching |
US8862573B2 (en) | 2006-04-04 | 2014-10-14 | Textdigger, Inc. | Search system and method with text function tagging |
US20100198802A1 (en) * | 2006-06-07 | 2010-08-05 | Renew Data Corp. | System and method for optimizing search objects submitted to a data resource |
US20080189273A1 (en) * | 2006-06-07 | 2008-08-07 | Digital Mandate, Llc | System and method for utilizing advanced search and highlighting techniques for isolating subsets of relevant content data |
US9721157B2 (en) * | 2006-08-04 | 2017-08-01 | Nokia Technologies Oy | Systems and methods for obtaining and using information from map images |
US9286404B2 (en) | 2006-06-28 | 2016-03-15 | Nokia Technologies Oy | Methods of systems using geographic meta-metadata in information retrieval and document displays |
US20080065685A1 (en) * | 2006-08-04 | 2008-03-13 | Metacarta, Inc. | Systems and methods for presenting results of geographic text searches |
US8301616B2 (en) | 2006-07-14 | 2012-10-30 | Yahoo! Inc. | Search equalizer |
US7664744B2 (en) * | 2006-07-14 | 2010-02-16 | Yahoo! Inc. | Query categorizer |
WO2008019348A2 (en) * | 2006-08-04 | 2008-02-14 | Metacarta, Inc. | Systems and methods for presenting results of geographic text searches |
US7739255B2 (en) * | 2006-09-01 | 2010-06-15 | Ma Capital Lllp | System for and method of visual representation and review of media files |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7761805B2 (en) | 2006-09-11 | 2010-07-20 | Yahoo! Inc. | Displaying items using a reduced presentation |
US20080109305A1 (en) * | 2006-11-08 | 2008-05-08 | Ma Capital Lllp | Using internet advertising as a test bed for radio advertisements |
US20080109409A1 (en) * | 2006-11-08 | 2008-05-08 | Ma Capital Lllp | Brokering keywords in radio broadcasts |
US20080109845A1 (en) * | 2006-11-08 | 2008-05-08 | Ma Capital Lllp | System and method for generating advertisements for use in broadcast media |
US20080113801A1 (en) * | 2006-11-13 | 2008-05-15 | Roland Moreno | Game based on combinations of words and implemented by computer means |
US7630970B2 (en) | 2006-11-28 | 2009-12-08 | Yahoo! Inc. | Wait timer for partially formed query |
US8065307B2 (en) * | 2006-12-20 | 2011-11-22 | Microsoft Corporation | Parsing, analysis and scoring of document content |
US7739260B1 (en) * | 2006-12-28 | 2010-06-15 | Scientific Components Corporation | Database search system using interpolated data with defined resolution |
US8417502B1 (en) | 2006-12-28 | 2013-04-09 | Scientific Components Corporation | Mixer harmonics calculator |
US8498980B2 (en) * | 2007-02-06 | 2013-07-30 | Nancy P. Cochran | Cherry picking search terms |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US7809714B1 (en) | 2007-04-30 | 2010-10-05 | Lawrence Richard Smith | Process for enhancing queries for information retrieval |
US20100257127A1 (en) * | 2007-08-27 | 2010-10-07 | Stephen Patrick Owens | Modular, folder based approach for semi-automated document classification |
US8117223B2 (en) * | 2007-09-07 | 2012-02-14 | Google Inc. | Integrating external related phrase information into a phrase-based indexing information retrieval system |
US8135715B2 (en) * | 2007-12-14 | 2012-03-13 | Yahoo! Inc. | Method and apparatus for discovering and classifying polysemous word instances in web documents |
US7957957B2 (en) * | 2007-12-14 | 2011-06-07 | Yahoo! Inc. | Method and apparatus for discovering and classifying polysemous word instances in web documents |
US7917496B2 (en) * | 2007-12-14 | 2011-03-29 | Yahoo! Inc. | Method and apparatus for discovering and classifying polysemous word instances in web documents |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US10176827B2 (en) * | 2008-01-15 | 2019-01-08 | Verint Americas Inc. | Active lab |
US8615490B1 (en) | 2008-01-31 | 2013-12-24 | Renew Data Corp. | Method and system for restoring information from backup storage media |
US8229729B2 (en) * | 2008-03-25 | 2012-07-24 | International Business Machines Corporation | Machine translation in continuous space |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8145654B2 (en) * | 2008-06-20 | 2012-03-27 | Lexisnexis Group | Systems and methods for document searching |
US11048765B1 (en) | 2008-06-25 | 2021-06-29 | Richard Paiz | Search engine optimizer |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US20100088299A1 (en) * | 2008-10-06 | 2010-04-08 | O'sullivan Patrick J | Autonomic summarization of content |
EP2368201A4 (en) * | 2008-12-09 | 2013-08-07 | Univ Houston System | DISAMBIGUIATION OF SENSE OF A WORD |
US9489217B2 (en) * | 2008-12-09 | 2016-11-08 | Oracle America, Inc. | Dynamic software documentation |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US10489434B2 (en) * | 2008-12-12 | 2019-11-26 | Verint Americas Inc. | Leveraging concepts with information retrieval techniques and knowledge bases |
US8301622B2 (en) * | 2008-12-30 | 2012-10-30 | Novell, Inc. | Identity analysis and correlation |
US8296297B2 (en) * | 2008-12-30 | 2012-10-23 | Novell, Inc. | Content analysis and correlation |
US8386475B2 (en) * | 2008-12-30 | 2013-02-26 | Novell, Inc. | Attribution analysis and correlation |
US8494857B2 (en) * | 2009-01-06 | 2013-07-23 | Regents Of The University Of Minnesota | Automatic measurement of speech fluency |
US8332205B2 (en) * | 2009-01-09 | 2012-12-11 | Microsoft Corporation | Mining transliterations for out-of-vocabulary query terms |
JP4697355B2 (ja) * | 2009-01-23 | 2011-06-08 | 日本電気株式会社 | データ検索装置 |
US8458171B2 (en) * | 2009-01-30 | 2013-06-04 | Google Inc. | Identifying query aspects |
US8341167B1 (en) * | 2009-01-30 | 2012-12-25 | Intuit Inc. | Context based interactive search |
US8949265B2 (en) * | 2009-03-05 | 2015-02-03 | Ebay Inc. | System and method to provide query linguistic service |
US20100250479A1 (en) * | 2009-03-31 | 2010-09-30 | Novell, Inc. | Intellectual property discovery and mapping systems and methods |
US9245243B2 (en) * | 2009-04-14 | 2016-01-26 | Ureveal, Inc. | Concept-based analysis of structured and unstructured data using concept inheritance |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US20100313239A1 (en) * | 2009-06-09 | 2010-12-09 | International Business Machines Corporation | Automated access control for rendered output |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8572084B2 (en) * | 2009-07-28 | 2013-10-29 | Fti Consulting, Inc. | System and method for displaying relationships between electronically stored information to provide classification suggestions via nearest neighbor |
CA3026879A1 (en) | 2009-08-24 | 2011-03-10 | Nuix North America, Inc. | Generating a reference set for use during document review |
US8943094B2 (en) | 2009-09-22 | 2015-01-27 | Next It Corporation | Apparatus, system, and method for natural language processing |
US9158833B2 (en) * | 2009-11-02 | 2015-10-13 | Harry Urbschat | System and method for obtaining document information |
US9152883B2 (en) * | 2009-11-02 | 2015-10-06 | Harry Urbschat | System and method for increasing the accuracy of optical character recognition (OCR) |
US9213756B2 (en) | 2009-11-02 | 2015-12-15 | Harry Urbschat | System and method of using dynamic variance networks |
US20110099164A1 (en) * | 2009-10-23 | 2011-04-28 | Haim Zvi Melman | Apparatus and method for search and retrieval of documents and advertising targeting |
WO2011061556A1 (en) * | 2009-11-20 | 2011-05-26 | Kim Mo | Intelligent search system |
WO2011061631A1 (en) * | 2009-11-20 | 2011-05-26 | Kim Mo | Intelligent search system |
WO2011072172A1 (en) * | 2009-12-09 | 2011-06-16 | Renew Data Corp. | System and method for quickly determining a subset of irrelevant data from large data content |
WO2011075610A1 (en) | 2009-12-16 | 2011-06-23 | Renew Data Corp. | System and method for creating a de-duplicated data set |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9069843B2 (en) | 2010-09-30 | 2015-06-30 | International Business Machines Corporation | Iterative refinement of search results based on user feedback |
US9122744B2 (en) | 2010-10-11 | 2015-09-01 | Next It Corporation | System and method for providing distributed intelligent assistance |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US20120215533A1 (en) * | 2011-01-26 | 2012-08-23 | Veveo, Inc. | Method of and System for Error Correction in Multiple Input Modality Search Engines |
US20120209606A1 (en) * | 2011-02-14 | 2012-08-16 | Nice Systems Ltd. | Method and apparatus for information extraction from interactions |
US8688453B1 (en) * | 2011-02-28 | 2014-04-01 | Nuance Communications, Inc. | Intent mining via analysis of utterances |
US10534931B2 (en) | 2011-03-17 | 2020-01-14 | Attachmate Corporation | Systems, devices and methods for automatic detection and masking of private data |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US9633012B1 (en) | 2011-08-25 | 2017-04-25 | Infotech International Llc | Construction permit processing system and method |
US9785638B1 (en) | 2011-08-25 | 2017-10-10 | Infotech International Llc | Document display system and method |
US9116895B1 (en) | 2011-08-25 | 2015-08-25 | Infotech International Llc | Document processing system and method |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US9223769B2 (en) | 2011-09-21 | 2015-12-29 | Roman Tsibulevskiy | Data processing systems, devices, and methods for content analysis |
US9836177B2 (en) | 2011-12-30 | 2017-12-05 | Next IT Innovation Labs, LLC | Providing variable responses in a virtual-assistant environment |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
WO2013138633A1 (en) | 2012-03-15 | 2013-09-19 | Regents Of The University Of Minnesota | Automated verbal fluency assessment |
US9223537B2 (en) | 2012-04-18 | 2015-12-29 | Next It Corporation | Conversation user interface |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9536049B2 (en) | 2012-09-07 | 2017-01-03 | Next It Corporation | Conversational virtual healthcare assistant |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US11809506B1 (en) | 2013-02-26 | 2023-11-07 | Richard Paiz | Multivariant analyzing replicating intelligent ambience evolving system |
US11741090B1 (en) | 2013-02-26 | 2023-08-29 | Richard Paiz | Site rank codex search patterns |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
USD788115S1 (en) | 2013-03-15 | 2017-05-30 | H2 & Wf3 Research, Llc. | Display screen with graphical user interface for a document management system |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
USD772898S1 (en) | 2013-03-15 | 2016-11-29 | H2 & Wf3 Research, Llc | Display screen with graphical user interface for a document management system |
US10445115B2 (en) | 2013-04-18 | 2019-10-15 | Verint Americas Inc. | Virtual assistant focused user interfaces |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2014200731A1 (en) | 2013-06-13 | 2014-12-18 | Apple Inc. | System and method for emergency calls initiated by voice command |
KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
CN103593340B (zh) * | 2013-10-28 | 2017-08-29 | 余自立 | 自然表达信息处理方法、处理及回应方法、设备及系统 |
US9823811B2 (en) | 2013-12-31 | 2017-11-21 | Next It Corporation | Virtual assistant team identification |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US20160071517A1 (en) | 2014-09-09 | 2016-03-10 | Next It Corporation | Evaluating Conversation Data based on Risk Factors |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US10242106B2 (en) * | 2014-12-17 | 2019-03-26 | Excalibur Ip, Llc | Enhance search assist system's freshness by extracting phrases from news articles |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
CN105528430B (zh) * | 2015-12-10 | 2019-05-31 | 北京奇虎科技有限公司 | 一种确定搜索项的权重的方法和装置 |
CN105488209B (zh) * | 2015-12-11 | 2019-06-07 | 北京奇虎科技有限公司 | 一种词权重的分析方法及装置 |
US10552539B2 (en) * | 2015-12-17 | 2020-02-04 | Sap Se | Dynamic highlighting of text in electronic documents |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
AU2017274558B2 (en) | 2016-06-02 | 2021-11-11 | Nuix North America Inc. | Analyzing clusters of coded documents |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US11954612B2 (en) * | 2017-09-05 | 2024-04-09 | International Business Machines Corporation | Cognitive moderator for cognitive instances |
US11232264B2 (en) | 2018-10-19 | 2022-01-25 | Verint Americas Inc. | Natural language processing with non-ontological hierarchy models |
US11196863B2 (en) | 2018-10-24 | 2021-12-07 | Verint Americas Inc. | Method and system for virtual assistant conversations |
NL2032245B1 (en) * | 2022-06-22 | 2024-01-08 | Xinjiang Inst Eco & Geo Cas | Self-retrieval service system for English academic journal thesis |
CN117851340A (zh) * | 2024-03-08 | 2024-04-09 | 湖南云档信息科技有限公司 | 一种基于关键词的档案形成方法、系统、终端及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5206949A (en) * | 1986-09-19 | 1993-04-27 | Nancy P. Cochran | Database search and record retrieval system which continuously displays category names during scrolling and selection of individually displayed search terms |
US4972349A (en) * | 1986-12-04 | 1990-11-20 | Kleinberger Paul J | Information retrieval system and method |
JPS63292495A (ja) * | 1987-05-25 | 1988-11-29 | Agency Of Ind Science & Technol | 光−電気ハイブリット型連想記憶装置 |
US4823306A (en) * | 1987-08-14 | 1989-04-18 | International Business Machines Corporation | Text search system |
US5117349A (en) * | 1990-03-27 | 1992-05-26 | Sun Microsystems, Inc. | User extensible, language sensitive database system |
-
1991
- 1991-08-16 US US07/745,794 patent/US5278980A/en not_active Expired - Lifetime
-
1992
- 1992-08-06 JP JP4210248A patent/JP3027052B2/ja not_active Expired - Lifetime
- 1992-08-12 EP EP92307372A patent/EP0530993B1/en not_active Expired - Lifetime
- 1992-08-12 DE DE69229204T patent/DE69229204T2/de not_active Expired - Lifetime
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0944523A (ja) * | 1995-07-27 | 1997-02-14 | Fuji Xerox Co Ltd | 関連語提示装置 |
JPH10334114A (ja) * | 1997-06-04 | 1998-12-18 | Fuji Xerox Co Ltd | 文書検索装置及び文書検索プログラムを記録した記憶媒体 |
JPH10334115A (ja) * | 1997-06-04 | 1998-12-18 | Fuji Xerox Co Ltd | 検索式作成装置 |
WO2002091234A1 (fr) * | 2001-04-24 | 2002-11-14 | Takahiro Nakamura | Dispositif de recuperation destine a une base de donnees de textes joints contenant des informations secondaires |
JP2008165563A (ja) * | 2006-12-28 | 2008-07-17 | Fujitsu Ltd | 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法 |
Also Published As
Publication number | Publication date |
---|---|
JP3027052B2 (ja) | 2000-03-27 |
DE69229204D1 (de) | 1999-06-24 |
EP0530993A2 (en) | 1993-03-10 |
EP0530993A3 (en) | 1993-12-08 |
US5278980A (en) | 1994-01-11 |
EP0530993B1 (en) | 1999-05-19 |
DE69229204T2 (de) | 1999-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3027052B2 (ja) | 文書検索システム | |
JP4306894B2 (ja) | 自然言語処理装置及びその方法、及び自然言語認識装置 | |
Ratnaparkhi | A linear observed time statistical parser based on maximum entropy models | |
US5937422A (en) | Automatically generating a topic description for text and searching and sorting text by topic using the same | |
JP3266246B2 (ja) | 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法 | |
US6269189B1 (en) | Finding selected character strings in text and providing information relating to the selected character strings | |
US5890103A (en) | Method and apparatus for improved tokenization of natural language text | |
EP0597630B1 (en) | Method for resolution of natural-language queries against full-text databases | |
US6876998B2 (en) | Method for cross-linguistic document retrieval | |
US20070073678A1 (en) | Semantic document profiling | |
US20040117352A1 (en) | System for answering natural language questions | |
US20040054530A1 (en) | Generating speech recognition grammars from a large corpus of data | |
WO2005020091A1 (en) | System and method for processing text utilizing a suite of disambiguation techniques | |
JP2000315216A (ja) | 自然言語検索方法および装置 | |
CN111680509A (zh) | 基于共现语言网络的文本关键词自动抽取方法和装置 | |
JP2572314B2 (ja) | キーワード抽出装置 | |
Galvez et al. | Term conflation methods in information retrieval: Non‐linguistic and linguistic approaches | |
Pedersen et al. | Snippet search: A single phrase approach to text access | |
KR100498574B1 (ko) | 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템 | |
Márquez | Part-of-speech Tagging: A Machine Learning Approach based on Decision Trees | |
Hodges et al. | An automated system that assists in the generation of document indexes | |
US20050256698A1 (en) | Method and arrangement for translating data | |
KR100376931B1 (ko) | 정보 검색 기술을 이용한 한영번역 데이터베이스 시스템 구축 방법 | |
JP3856388B2 (ja) | 類義性計算方法、類義性計算プログラム、類義性計算プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
Mili et al. | Automating the Indexing and Retrieval of Reusable Software Components. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19991220 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080128 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090128 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090128 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100128 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110128 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110128 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120128 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130128 Year of fee payment: 13 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130128 Year of fee payment: 13 |