JP2001511565A - 自然言語処理技法を用いたテキスト入力処理システム - Google Patents

自然言語処理技法を用いたテキスト入力処理システム

Info

Publication number
JP2001511565A
JP2001511565A JP2000504528A JP2000504528A JP2001511565A JP 2001511565 A JP2001511565 A JP 2001511565A JP 2000504528 A JP2000504528 A JP 2000504528A JP 2000504528 A JP2000504528 A JP 2000504528A JP 2001511565 A JP2001511565 A JP 2001511565A
Authority
JP
Japan
Prior art keywords
document
logical
obtaining
query
logical forms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000504528A
Other languages
English (en)
Other versions
JP2001511565A5 (ja
JP4892130B2 (ja
Inventor
コーストン,サイモン・エイチ
ドーラン,ウィリアム・ビー
ヴァンダーウェンデ,ルーシー・エイチ
ブラデン−ハーダー,リサ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Priority claimed from PCT/US1998/014883 external-priority patent/WO1999005621A1/en
Publication of JP2001511565A publication Critical patent/JP2001511565A/ja
Publication of JP2001511565A5 publication Critical patent/JP2001511565A5/ja
Application granted granted Critical
Publication of JP4892130B2 publication Critical patent/JP4892130B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 システム(1480)は、クエリに応答して文書記憶装置から検索した文書集合内にある文書を濾過する。システム(1480)は、クエリおよび文書集合内の文書の内選択した1つに基づいて、第1論理形態集合を得る(1830)。システム(1480)は、クエリおよび文書集合内の文書の別の1つに基づいて、第2論理形態集合を得る。次に、システム(1480)は、自然言語処理技法を用いて、第1論理形態を変更し(1832,1834)、変更論理形態集合を得る。システム(1480)は、変更論理形態集合と第2論理形態集合との間の所定の関係に基づいて、文書集合内の文書を濾過する(1836)。

Description

【発明の詳細な説明】
【0001】 (発明の背景) 本発明は、テキスト入力の処理を扱うものである。更に特定すれば、本発明は
、テキスト入力の類似性を判定するための自然言語処理技法の使用に関する。本
発明は、情報検索、機械翻訳、自然言語理解、文書類似性/クラスタリング等の
ような、広範囲に及ぶ様々な用途において有用である。しかしながら、例示の目
的のみのために、主に、情報検索の関連において本発明の説明を行なう。
【0002】 一般に、情報検索とは、ユーザが大量の記憶情報からユーザに関連のある情報
を発見し検索するプロセスのことを言う。情報検索を実行する際、ユーザが必要
な情報全てを検索することが重要であり(即ち、完全であることが重要である)
、しかも同時に検索した無関係な情報をユーザに対して制限することも重要であ
る(即ち、選択的であることが重要である)。これらのディメンション(dimens
ion)は、回収率(完全性)および正確性(選択性)という用語で表わすことが 多い。多くの情報検索システムでは、回収率および正確性双方のディメンション
にわたって優れた性能を発揮することが重要である。
【0003】 現在の検索システムの中には、膨大な情報量に対して問い合わせおよび探索す
ることができるものがある。例えば、インターネット、ディジタル・ビデオ・デ
ィスク、およびその他の一般的なコンピュータ・データ・ベース上で情報を探索
するように設定する情報検索システムもある。典型的に、情報検索システムは、
例えば、インターネット・サーチ・エンジン、およびライブラリ・カタログ・サ
ーチ・エンジンとして、具体化する。更に、従来のデスクトップ・コンピュータ
のオペレーティング・システム内部にもある種の情報検索機構を備えている。例
えば、オペレーティング・システムには、ユーザが入力したある用語に基づいて
、所与のデータベース上またはコンピュータ・システム上にある全てのファイル
を、ユーザが検索できるようにするツールを備えたものもある。
【0004】 公知の情報検索技法は数多くある。このような技法におけるユーザ入力クエリ
は、典型的に、明示的なユーザ発生クエリ、または、既存の文書集合と類似の文
書をユーザが要求する場合のような、暗示的なクエリとして提示する。典型的な
情報検索システムは、単一の単語レベルまたは用語レベルのいずれかで、大容量
のデータ記憶装置において文書を検索する。文書の各々には関連性(類似性)ス
コアを割り当て、情報検索システムは、探索した文書の内ある部分集合をユーザ
に提示する。典型的に、この部分集合は、所与のスレシホルドを上回る関連性ス
コアを有するものである。
【0005】 従来の統計的サーチ・エンジンがどちらかと言うと正確性に乏しいのは、単語
を独立した変数である、即ち、あらゆるテキストの一節にある単語は互いに独立
して発生すると仮定していることに起因する。この文脈における独立とは、ある
文書内に現れるあらゆる単語の条件的確率(conditional probability)を意味 し、その中の他の単語の存在を常にゼロとする。即ち、文書は、単に、単語の非
構造化集合を含むに過ぎず、あるいは単に「単語の袋」を備えるに過ぎない。容
易に認められようが、この仮定は、あらゆる言語に関して、大きな誤りである。
英語は、他の言語と同様、豊富で複雑な文法および語彙−意味構造を有し、単語
の意味は、それらが用いられてる特定の言語学的な文脈に基づいて、多くの場合
広範囲に変化し、文脈は、あらゆる場合においても、単語の所与の意味、および
どのような単語(複数の単語)が続いて現れるのかを決定する。したがって、テ
キストの一節に現れる単語は、単純に互いに独立しているのではなく、むしろこ
れらの相互依存性は非常に高い。キーワードに基づくサーチ・エンジンは、この
微粒子的な言語構造(fine-grained linguistic structure)を完全に無視して いる。例えば、”How many hearts does an octopus have?”(蛸には心臓が幾 つあるか)という自然言語で表現した例示のクエリについて検討する。含有単語
(content word)「心臓」および「蛸」、またはその形態学的語根について処理
する統計的サーチ・エンジンの場合、記憶してある文書で、”artichoke hearts
,squid,onions and octopus”( アーティチョーク・ハート、いか、たまねぎ、
および蛸)という単語、したがってその含有単語をその材料に有する調理法を含
むものをユーザに返す即ち差し向ける(direct)可能性が高い。このエンジンは
、2つの含有単語「蛸」および「心臓」の一致が得られたので、例えば、近接性
(proxiimity)および論理演算子を含む統計的尺度に基づいて、この文書は一致
度が高いと判定するであろう。実際には、この文書は実際にはクエリには全く無
関係である。
【0006】 この技術分野には、構文上の句の要素を、無分類関係(unlabelled relation )の主要部−修飾語対として抽出するための様々な手法が教示されている。これ
らの要素は、次に従来の統計的ベクトル−空間モデルにおいて用語(通常、内部
構造を含まない)としてインデックス化する。
【0007】 このような手法の一例が、J.L.Fagan(J.L.フェイガン)の”Experiments
in Automatic Phrase Indexing for Document Retrieval:A Comparison of Syn
tactic and Non-Syntactic Methods”(文書検索のための自動的句インデックス
化における実験:構文的および非構文的方法の比較)(コーネル大学、博士論文
、1988年、i−261ページ)に教示されている。具体的には、この手法は
、自然言語処理を用いて英語の文章を分析し、構文的句構成要素を抽出する。こ
こでは、これらの句構成要素を用語として扱い、統計的ベクトル−空間モデルを
用いてインデックスにおいてインデックス化する。検索の間、ユーザは自然言語
のクエリを入力する。この手法の下では、分析のために自然言語の自然言語処理
を行ない、インデックス内に格納してある要素と類似した構文的句構成要素を抽
出する。その後、クエリからの構文的句構成要素の、インデックスに格納してあ
る要素との照合を試みる。著者は、この純粋的に構文的な手法を、確率的方法を
用いて構文的句内の要素を識別する統計的手法と比較している。著者は、自然言
語処理は、確率的手法に対して著しい改善を得ることができず、自然言語処理が
時として生成するわずかな正確性の改善では、自然言語処理に伴う多額の処理コ
ストは正当化されないと結論付けている。
【0008】 このような構文に基づく別の手法が、T.Strzalkowski (T.ストルザルコウスキ
)の”Natural Language Information Retrieval: TIPSTER-2 Final Report”( 自然言語情報検索:TIPSTER−2最終報告)(Proceedings of Advances in Text Processing: TipsterProgram Phase 2 ,DARPA,1996年5月6〜8日、Tysons
Corner,Virginia,143〜148ページ(以降「DARPA論文」と呼ぶ)、およびT.
Strzalkowski (T.ストルザルコウスキ)の”Natural Language Information
Retrieval”(自然言語情報検索)(Information Processing and Management,V
ol.31,No.3,1995年、397〜417ページ)に、探索クエリ内に含ませるために適切な
用語を選択する最に自然言語処理を用いるという文脈において記載されている。
この手法は理論的な見込み(promise)を提供するが、DARPA論文の147 〜8ページにおいて、著者は、基盤となる自然言語技法を実施するために必要な
精巧な処理のために、この手法は現在では非実用的であると結論付けている。
【0009】 「...我々の要件を満たす(また少なくともこれらの要件に近いと考えられ
る)NLP(自然言語処理)技法は、その自然言語テキストを扱う能力において
、未だ全く洗練されていないことを覚えておくのは重要である。特に、概念的構
造化、論理形態等に関与する高等処理は、計算的に手の届かないところにある。
これらの高等技法は、表現レベルの限界という問題に対処するので、より一層効
果的であることが立証されると仮定することも可能である。しかしながら、実験
による証拠は希薄であり、どちらかと言えば小規模な検査に必然的に限定される
。」 この主の更に別の確率に基づく手法が、B.Katz(B.カッツ)の”Annotating
the World Wide Web using Natural Language”(自然言語を用いたワールド・
ワイド・ウェブの注釈)(Conference Proceedings of RIAO97、 Computer-Assis ted Information Searching in Internet、 McGill University、Quebec、カナダ 、1997年6月25〜27日 、Vol.1、136〜155ページ(以後「カッツの発表」
と呼ぶ)に記載されている。カッツの発表に記載されているように、インターネ
ット構造を保存しつつ主語−動詞−目的語という表現を作成することにより、検
索の間細かな構文上の変形(alternation)に対応することができる。
【0010】 これら構文的手法は、たいした改善をもたらさなかった。即ち、当時使用可能
であった自然言語処理システムを改善する見込みがなかったため、この分野は、
クエリの初期結果の正確性および回収率を直接改善する試みから、ユーザ・イン
ターフェースの改良に移行した。即ち、具体的には、検索結果に対してユーザに
「近いものを選ばせる」応答によるといったような、ユーザとの双方向処理に基
づいてクエリを絞って行く(refine)方法、および適切なクラスタで結果を表示
することを含む、クエリ結果の視覚化方法によるユーザ・インターフェースの改
良である。
【0011】 これらの改良は、それら自体は有用であるが、これらの改良によって達成可能
な正確性の向上は未だにがっかりさせる程に低く、キーワード・サーチに特有な
ユーザのいらいらを徹底的に解消するには明らかに不十分である。即ち、ユーザ
は、関連する応答がまばらにしかない、比較的大きな文書集合を手作業でふるい
にかけることを要求されているのである。 (発明の概要) 代表的な実施形態の1つによれば、本発明は、テキスト入力間の類似性を判定
する方法および装置を提供する。第1テキスト入力に対して、第1論理形態集合
を得て、更に第2テキスト入力に対して、第2論理形態集合を得る。第1および
第2論理形態集合を比較し、この比較に基づいて第1および第2テキスト入力間
の類似性を判定する。
【0012】 広義に言えば、この処理は、第1および第2テキスト入力にそれぞれ関連する
一致論理形態の生成、比較、および任意の重み付けを伴う。論理形態とは、任意
サイズのテキストを表わす単語を、分類関係(labelled relation)によってリ ンクした、有向グラフ(directed graph)である。即ち、論理形態は、入力スト
リング内にある重要な単語間の構造的関係(即ち、構文的および意味的関係)、
特に趣旨および/または付加詞の関係を描写する。この描写は、論理形態グラフ
またはそのいずれかのサブグラフというような、様々な特定の形態を取ることが
でき、後者は、例えば、論理形態三連体のリストを含み、三連体の各々は、例示
として、「単語_関係_単語」という形式であり、これらの形式のいずれもが本
発明と共に使用可能である。
【0013】 本発明の一態様によれば、例示として形態学、構文および意味に関して各テキ
スト入力に自然言語処理を行ない、最終的に各テキスト入力における文章毎に適
切な論理形態を生成する。次に、第1テキスト入力に対する論理形態集合を、第
2テキスト入力に関連する論理形態集合と比較し、論理形態間の一致を確かめる
【0014】 類似性とは、ここで用いる場合、2つのテキスト入力が、意味的および構文的
構造または語彙的意味のいずれか、あるいは双方に関して、どれ位近いかに対す
るある尺度を得ることを意味する。
【0015】 例示的な用途の1つによれば、情報検索システムは、部分的に自然言語処理を
基本とする。意味情報を用いて、探索対象文書またはクエリのいずれか、または
双方についての情報をより多く取り込み、高性能化または高精度化を図る。一般
に、このようなシステムは、自然言語処理技法を用いて、第1テキスト入力(ク
エリのような)の意味内容を第2テキスト入力(探索対象の文書のような)のそ
れと照合しようとする。このようなシステムは、当技術分野において、特に情報
検索処理における正確性向上を得ることに関して、著しい前進を表わす。
【0016】 具体的には、入力クエリを1つ以上の論理形態に変換し、サーチ・エンジンに
よって検索した文書も論理形態に変換する。クエリに対する論理形態を、文書に
対する論理形態と比較する。文書の論理形態がクエリに対応する論理形態と正確
に一致する場合、その文書をランク付けして、ユーザに提示する。
【0017】 本発明の別の態様によれば、前述の照合プロセスに関連する厳格性を、言い換
え論理形態を用いることによって緩和する。例えば、情報検索の用途において、
濾過プロセスにおける厳格性を緩和し、関連文書の破棄を防止する必要がある場
合もある。例えば、時として、回収集合内にクエリ(またはキーワード・サーチ
)が正しく含む文書が、誤って破棄されることがある。これが発生する可能性が
あるのは、クエリからのキーワードが文書内にあるが、クエリに対して発生した
論理形態が必要とする正確な構文的/意味的関係にはないという場合である。こ
のように誤って破棄される文書は、以下の例によって例示することができる。こ
の例は論理形態三連体について論ずるが、論理形態の他のサブグラフも同様に使
用可能であることを注記しておく。クエリを以下のようなものと仮定する。 How do spiders eat their victims? (蜘蛛はどのようにその獲物を食べるのか) このクエリに対して発生する論理形態三連体は、 eat;Dsub;spider eat;Dobj;victim となる。
【0018】 関連文書には、”Many spiders consume their victims ...”(多くの蜘蛛は
その獲物を食べ尽くす...)という文章を含むものもあり得る。この文章に対
して発生する論理形態は、以下のようになる。 consume;Dsub;spider consume;Dobj;victim この文書に対応する論理形態三連体には、クエリに対応する論理形態三連体の
いずれとも正確に一致するものがないので、非常に関連性が高い場合であっても
、この文書を破棄する。
【0019】 加えて、破棄しなければユーザに提示されてしまう、無関連文書を破棄する必
要がある場合もある。例えば、あるクラスの論理形態は、探索対象の大型データ
記憶装置にある文書に高い頻度で現れる場合がある。このような論理形態は、ク
エリの主題には無関係に、クエリ内に共通して存在する可能性もある。例えば、
クエリが、 Tell me about dogs. (犬について私に教えて下さい) であると仮定する。
【0020】 このクエリに対して発生する1つの論理形態三連体は、 tell;Dobj;me となる。
【0021】 これは、犬とは関係ない多くの文書にも当然現れ得る。したがって、このよう
な無関連文書がユーザに提示されてしまう。 つまり、本発明の一態様によれば、論理形態集合の言い換えを行なうか、ある
いはある論理形態を抑制することによって、一方または双方の論理形態集合(一
方または双方のテキスト入力に対する)を変更する。一方または双方の変更論理
形態集合を照合プロセスにおいて用いる。
【0022】 例示としての情報検索システムでは、システムは、クエリに応答して、文書記
憶装置から検索した文書集合内の文書を濾過する。システムは、クエリおよび文
書集合内の文書から選択した1つに基づいて、第1論理形態集合を得る。システ
ムは、クエリおよび文書集合内の文書の別の1つに基づいて、第2論理形態集合
を得る。次に、システムは、自然言語処理技法を用いて、第1論理形態を変更し
、変更論理形態集合を得る。システムは、変更論理形態集合と第2論理形態集合
との間の所定関係に基づいて、文書集合内の文書を濾過する。
【0023】 本発明の一態様によれば、自然言語処理技法を用いて、第1論理形態集合の言
い換えを示す第1言い換え論理形態集合を得る。本発明の別の態様によれば、自
然言語処理技法は、第1所定クラスの論理形態を抑制し、第1抑制論理形態集合
を得る。次に、言い換え論理形態集合および/または抑制論理形態集合に基づい
て、濾過を行なう。
【0024】 一実施形態では、クエリを受信し、このクエリに基づいてクエリ論理形態を計
算する。クエリを実行し、このクエリに基づいて文書を検索する。論理形態は、
計算するか、あるいは検索した各文書毎に、データ記憶装置から検索する。高頻
度クエリ論理形態を抑制し、クエリ論理形態に基づいて、言い換え論理形態を計
算する。言い換えクエリ論理形態を、文書論理形態と照合する。 (好適な実施形態の詳細な説明) (概要) 本発明は、自然言語処理技法を利用し、第1テキスト入力および第2テキスト
入力に対応する論理形態集合を作成する。本発明は、この論理形態集合の比較に
基づいて、第1および第2テキスト入力間の類似性を判定する。本発明の別の態
様によれば、論理形態集合の一方または双方を、言い換えを得るまたはある論理
形態を抑制することによる等で変更する。本発明は、広範囲に及ぶ様々な用途に
おける使用を想定するが、ここでは、例示のみの目的のために情報検索という面
において主に説明する。
【0025】 情報検索の実施形態では、本発明は、入力したクエリに対応する論理形態集合
、および入力クエリに応答して戻される文書集合に対応する論理形態集合を作成
する。また、本発明は自然言語処理技法を利用し、クエリまたは文書集合のいず
れか、または双方に対応する論理形態を変更する。一実施形態では、変更した論
理形態を拡大し、言い換え(paraphrase)を含ませる。別の実施形態では、変更
した論理形態を処理して、種々の文書間の判別には有用でないことが分かった、
所定のクラスの論理形態を抑制する。このように論理形態を変更することによっ
て、本発明は照合技法に伴う厳重さを軽減し、こうして情報検索プロセスにおけ
る正確性および回収率双方を向上させることとした。
【0026】 注記すべきは、本論述は、部分的に、単語が示す形態、構文的または意味的関
係、および他の単語を有する論理形態三連体(logical form triple)を参照し ながら進めることである。しかしながら、本発明は、他のサブグラフ(subgraph
)の論理形態も同様に使用可能であることも想定しており、ここでは全てを総称
して論理形態と呼ぶことにする。
【0027】 以下の説明を検討した後には、多くの用途および殆どあらゆる情報検索システ
ムにおいて我々の本発明の教示を容易に利用し、そこで用いるサーチ・エンジン
が従来の統計的エンジンか否かには無関係に、当該エンジンの正確性向上が可能
であることを、当業者は明白に認めよう。更に、我々の発明は、殆どあらゆる形
態の大容量データ記憶装置、例えば、磁気、光学(例えば、CD−ROM)また
はその他の媒体のいずれに格納してあっても、更にテキスト情報が存在するあら
ゆる特定の言語、例えば、英語、スペイン語、ドイツ語等にも無関係に、データ
ベースからテキスト情報を検索する際に、正確性を向上させるために利用可能で
ある。
【0028】 このことを念頭に入れておき、図1は、我々の発明を利用する情報検索システ
ム5の最上位のブロック図を示す。システム5は、従来の検索エンジン20、例
えば、キーワードに基づく統計的検索エンジン20、およびそれに続くプロセッ
サ30で形成してある。プロセッサ30は、以下に述べるように、我々の発明の
自然言語処理技法を利用し、エンジン20が生成した文書の濾過および再ランク
付けを行ない、ユーザが供給したクエリに対して、その他の場合に得られるより
も関連性が高い検索文書集合を順序付けて生成する。
【0029】 具体的には、動作において、ユーザが探索クエリをシステム5に供給する。ク
エリは、フル・テキスト(一般に「リテラル」(literal:文字通り)と呼んで いる)形態とし、自然言語処理によってその意味的内容を最大限利用し、それに
よってエンジン20だけで得られるものに対して正確性の向上を図るようにすべ
きである。システム5は、このクエリをエンジン20およびプロセッサ30双方
に適用する。クエリに応答して、エンジン20は、格納してある文書のデータセ
ット10全体を探索し、そこから検索文書集合を生成する。次に、この文書集合
(ここでは、「出力文書集合」とも呼ぶ)を、ライン25でシンボル化するよう
に、プロセッサ30への入力として適用する。プロセッサ30内部では、以下で
詳細に論ずるように、集合内の文書の各々に、例示的に、形態学的、意味的およ
び論理的形態の自然言語処理を施し、当該文書内の各文章毎に論理形態を生成す
る。文章に対するこのような論理形態の各々は、当該文章内の言語的句における
単語間の、例えば、意味的関係、即ち、趣旨(argument)および付加詞(adjunc
t)構造をエンコードする。プロセッサ30は、同様にクエリを分析し、それに 対応する論理形態集合を生成する。次に、プロセッサ30はクエリに対する形態
集合を、当該集合内の文書の各々に関連する論理形態集合と比較し、クエリ集合
内の論理形態と各文書毎の論理形態との間のあらゆる一致を確かめる。一致が得
られない文書は、今後の検討から排除する。クエリ論理形態と一致する少なくと
も1つの論理形態を含む各残留文書を保持し、プロセッサ30によって経験的に
スコアを決定する。以下で論ずるが、異なる各関係種別、即ち、論理形態三連体
内に発生し得る、深い主語(deep subject)、深い目的語(deep object)、機 能語等に、既定の重みを割り当てる。このような文書各々の全重み(即ち、スコ
ア)は、例えば、それぞれ1つずつの一致した三連体全ての重みの総和である。
即ち、一致する同じ三連体を無視する。最終的に、プロセッサ30は、保持して
ある文書を、そのスコアに基づいてランク順に整列しユーザに提示する。典型的
に、最も高いスコアを有する文書から始めて、例えば5または10のような所定
数毎に集合化する。
【0030】 システム5は非常に汎用的であり、かつ広範囲に及ぶ異なる用途に適合化する
ことができるので、以下の論述を簡略化するために、1つの例示的な状況におけ
る我々の発明の使用について論ずることにする。その状況とは、従来のキーワー
ドに基づく統計的インターネット・サーチ・エンジンを採用し、ワールド・ワイ
ド・ウェブからのデータセット内にインデックス化されている英語文書の格納レ
コードを検索する情報検索システムである。一般的に、このようなレコードは各
々、以下に明記するように、対応する文書に対して既定の情報を含む。他のサー
チ・エンジンでは、レコードが文書自体全体を含む場合もある。以下の論述は、
対応する文書に関するある情報を収容し、当該文書を発見することができるウェ
ブ・アドレスを含むレコードを検索する従来からのインターネット・サーチ・エ
ンジンと共に用いるという状況における本発明を対象とするが、総括的に言えば
、そのエンジンが検索する最終的な項目は、実際には文書である。しかしながら
、一般的に、実際にウェブから文書にアクセスするには、当該アドレスを用いた
中間プロセスを用いる。以下の説明を検討した後には、他のあらゆる情報検索用
途における使用にも本発明がいかに簡単に適合化できるのかということを、当業
者は容易に認めるであろう。
【0031】 図2は、インターネット・サーチ・エンジンとの関連で用いる我々の発明の特
定実施形態の上位ブロック図である。我々の発明は、主に、この特定実施形態の
関連において詳しく論ずることにする。図示のように、システム200は、ネッ
トワーク接続部205を介して、ネットワーク210(ここでは、インターネッ
トであるが、例えば、イントラネットのような他のあらゆるこのようなネットワ
ークも代わりに使用可能である)、およびネットワーク接続部215を通じてサ
ーバ220に接続してある、クライアント・パーソナル・コンピュータ(PC)
のような、コンピュータ・システム300を含む。サーバは、典型的に、コンピ
ュータ222を含む。コンピュータ222は、例えば、ALTA VISTAサーチ・エン
ジンに代表されるインターネット・サーチ・エンジンを運営(host)し(ALTA V
ISTAは、マサチューセッツ州MaynardのDigital Equipment Corporation(ディジ
タル・エクイップメント社)の登録商標である)、典型的に、サーチ・エンジン
によってインデックスしインターネット上でワールド・ワイド・ウェブを通じて
アクセス可能な文書レコードのデータセットである、大容量データ記憶装置22
7に接続してある。このようなレコードの各々は、典型的に、(a)ウェブ・ブ
ラウザによって対応する文書にアクセス可能な、(一般にユニフォーム・リソー
ス・ロケータ−−URLと呼ぶ)ウェブ・アドレス、(b)当該文書に現れる、
既定の含有単語であって、ある種のエンジンでは、当該文書内の他の含有単語に
対するこのような各単語の相対アドレスを伴う既定の含有単語、(c)多くの場
合文書のほんの数行の短い概要または文書の最初の数行、および恐らく(d)そ
のハイパーテキスト・マークアップ言語(HTML)記述フィールド内に与えら
れている、文書の記述を含む。
【0032】 コンピュータ・システム300に対峙するユーザが、例えば、このシステム上
で実行中の連動するウェブ・ブラウザ(Microsoft Corporation(マイクロソフ ト社)から入手可能であり、我々の発明の教示を含ませるために適切に変更した
、”Internet Explorer”バージョン4.0ブラウザに基づくようなもの)を通 じて、サーバ220そして特定すると、そこで実行するサーチ・エンジン222
へのインターネット接続を確立する。その後、ユーザは、ここではライン201
でシンボル化するように、クエリをブラウザに入力する。一方、ブラウザは、シ
ステムを介し、更にサーバ220へのインターネット接続を通じて、サーチ・エ
ンジン225にクエリを送る。すると、サーチ・エンジンは、データセット22
7内に格納してある文書レコードに対してクエリを処理し、エンジンがクエリに
関連あると判定した文書に対して検索したレコード集合を生成する。エンジン2
25が実際に文書をインデックス化し文書レコードを形成してデータ記憶装置2
27に格納する方法、およびエンジンがこのような格納してある文書レコードの
いずれかを選択するために行なう実際の分析は、双方とも本発明には無関係であ
るので、これ以上これらの態様のいずれについても論じないことにする。クエリ
に応答して、エンジン225はインターネット接続部を介してウェブ・ブラウザ
420に、検索文書レコード集合を返送すると言えば十分である。ブラウザ42
0は、エンジン225が文書を検索している間、同時に、および/またはそれに
続いて、クエリを分析し、その対応する論理形態三連体集合を生成する。一旦サ
ーチ・エンジンがその探索を完了し、文書レコード集合を検索し、当該集合をブ
ラウザに供給し終えたなら、対応する文書(即ち、出力文書集合を形成する)自
体に、関連するウェブ・サーバからブラウザによってアクセスする(それと関連
し、格納文書の「レポジトリ」を集合的に形成するデータセット。このようなレ
ポジトリは、例えば、自己充足型のCD−ROMに基づくデータ検索アプリケー
ションにおけるように、単体のデータ集合とすることも可能である)。一方、ブ
ラウザは、次に、アクセスした文書の各々(即ち、出力文書集合における)を分
析し、このような各文書毎に、論理形態三連体の対応する集合を形成する。その
後、以下で詳しく論ずるが、ブラウザ420は、クエリと検索した文書との間で
一致する論理形態三連体に基づいて、このような一致を有する各文書のスコアを
決め、ライン203でシンボル化するように、これらの文書をユーザに提示する
。文書は、典型的に、最も高いランキングを有する、既定の少数の文書群として
、スコアの降順でランク付けする。次いで、ユーザがブラウザを通じて選択した
場合、次のこのような群が続き、こうして提示した文書をユーザが十分な数だけ
検査し終えるまで、同様に続ける。図2は、例示として、ネットワーク接続を利
用して文書レコードおよび文書をリモート・サーバから得るものとして、我々の
発明を図示するが、我々の発明はそのように限定される訳ではない。図9Aと関
連付けて以下で詳しく論ずるが、検索アプリケーションおよび我々の発明双方を
共通のコンピュータ、即ちローカルPC上で実行し、添付データセットも、例え
ば、CD−ROMまたはその他の適した媒体に格納してあり、そこでアクセス可
能である場合には、このようなネットワーク状接続は不要である。
【0033】 図3および関連する論述は、本発明を実施可能な適切な計算機環境について、
端的な概略的説明を行なうことを意図したものである。本発明の説明は、パーソ
ナル・コンピュータによって実行するプログラム・モジュールのような、コンピ
ュータ実行可能命令の一般的な状況で、少なくとも部分的に行なうが、これは必
須ではない。一般に、プログラム・モジュールは、ルーチン・プログラム、オブ
ジェクト、コンポーネント、データ構造等を含み、特定のタスクを実行するか、
あるいは特定の抽象的データ型を実装する。更に、ハンド・ヘルド・デバイス、
マルチプロセッサ・システム、マイクロプロセッサに基づくまたはプログラマブ
ルな消費者電子機器、ネットワークPC、ミニコンピュータ、メインフレーム・
コンピュータ等を含む、他のコンピュータ・システム・コンフィギュレーション
を用いても本発明は実施可能であることを当業者は認めよう。また、本発明は、
通信ネットワークを通じてリンクしたリモート処理デバイスがタスクを実行する
分散型計算機環境においても実施可能である。分散型計算機環境では、プログラ
ム・モジュールは、ローカルおよびリモート・メモリ記憶装置双方に配置するこ
とができる。
【0034】 図3を参照すると、本発明を実施する例示のシステムは、演算装置321(1
つ以上のプロセッサを含む場合がある)を含む、従来のパーソナル・コンピュー
タ320の形態の汎用計算機デバイス、システム・メモリ322、およびシステ
ム・メモリを含む種々のシステム・コンポーネントを演算装置321に結合する
システム・バス323を含む。システム・バス323は、メモリ・バスまたはメ
モリ・コントローラ、周辺バス、および種々のバス・アーキテクチャのいずれか
を用いるローカル・バスを含む、数種類のバス構造のいずれでもよい。システム
・メモリは、リード・オンリ・メモリ(ROM)324、ランダム・アクセス・
メモリ(RAM)325を含む。起動中等にパーソナル・コンピュータ320内
部のエレメント間で情報を転送するのを助ける基本的なルーチンを含む基本入出
力326(BIOS)を、ROM324に格納してある。更に、パーソナル・コ
ンピュータ320は、ハード・ディスク(図示せず)との読み出しおよび書き込
みを行なうハード・ディスク・ドライブ327、リムーバブル磁気ディスク32
9との読み出しまたは書き込みを行なう磁気ディスク・ドライブ328、および
CD ROMまたはその他の光学的媒体のようなリムーバル光ディスク331と
の読み出しまたは書き込みを行なう光ディスク・ドライブ330も含む。ハード
・ディスク・ドライブ327、磁気ディスク・ドライブ328、および光ディス
ク・ドライブ330は、それぞれ、ハード・ディスク・ドライブ・インターフェ
ース332、磁気ディスク・ドライブ・インターフェース333、および光ドラ
イブ・インターフェース334によって、システム・バス323に接続してある
。これらのドライブおよび関連するコンピュータ読み取り可能媒体は、コンピュ
ータ読み取り可能命令、データ構造、プログラム・モジュール、およびパーソナ
ル・コンピュータ320のためのその他のデータの不揮発性格納を可能にする。
ここに記載する例示の環境では、ハード・ディスク、リムーバル磁気ディスク3
29およびリムーバブル光ディスク331を採用するが、磁気カセット、フラッ
シュ・メモリ・カード、ディジタル・ビデオ・ディスク、ベルヌーイ・カートリ
ッジ、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(RO
M)等のような、コンピュータによるアクセスが可能なデータを格納可能な、そ
の他の種類のコンピュータ読み取り可能媒体も、例示の動作環境において使用可
能であることは、当業者には認められよう。
【0035】 ハード・ディスク、磁気ディスク329、光ディスク311,ROM324ま
たはRAM325上には、多数のプログラム・モジュールを格納することができ
、オペレーティング・システム335、1つ以上のアプリケーション・プログラ
ム336、その他のプログラム・モジュール337、およびプログラム・データ
338を含む。ユーザは、キーボード340やポインティング・デバイス342
のような入力デバイスを通じて、パーソナル・コンピュータ320にコマンドお
よび情報を入力することができる。他の入力デバイス(図示せず)には、マイク
ロフォン、ジョイスティック、ゲーム・パッド、衛星放物面反射器(satellite
dish)、スキャナ等も含むことができる。これらおよびその他の入力デバイスは
、多くの場合、シリアル・ポート・インターフェース346を介して、演算装置
321に接続する。シリアル・ポート・インターフェース346は、システム・
バスに結合するが、パラレル・ポート、ゲーム・ポートまたはユニバーサル・シ
リアル・バス(USB:universal serial bus)のようなその他のインターフェース
にも接続可能である。モニタ347またはその他の種類の表示装置も、ビデオ・
アダプタ348のようなインターフェースを介して、システム・バス323に接
続してある。モニタ347に加えて、パーソナル・コンピュータは、典型的に、
スピーカやプリンタのようなその他の周辺出力デバイス(図示せず)を含むこと
も可能である。
【0036】 パーソナル・コンピュータ320は、リモート・コンピュータ349のような
1つ以上のリモート・コンピュータへの論理接続を用いたネットワーク環境にお
いて動作することも可能である。リモート・コンピュータ349は、その他のパ
ーソナル・コンピュータ、サーバ、ルータ、ネットワークPC、ピア・デバイス
またはその他のノードとしてもよく、典型的に、パーソナル・コンピュータ32
0に関して先に述べたエレメントの多くまたは全てを含むことができるが、図1
にはメモリ記憶装置350のみを示した。図1に示す論理接続は、ローカル・エ
リア・ネットワーク(LAN)351、およびワイド・エリア・ネットワーク(
WAN)352を含む。このようなネットワーク処理環境は、オフィス、企業全
体に及ぶコンピュータ・ネットワーク・イントラネット、およびインターネット
には共通である。
【0037】 LANネットワーク処理環境において用いる場合、パーソナル・コンピュータ
320はネットワーク・インターフェースまたはアダプタ353を介して、ロー
カル・エリア・ネットワーク351に接続する。WANネットワーク処理環境に
おいて用いる場合、パーソナル・コンピュータ320は典型的に、モデム354
またはインターネットのようなワイド・エリア・ネットワーク352を通じて通
信を確立するためのその他の手段を含む。モデム354は内蔵型でも外付け型で
もよいが、シリアル・ポート・インターフェース346を介してシステム・バス
323に接続する。ネットワーク環境では、パーソナル・コンピュータ320に
関して示したプログラム・モジュール、またはその部分をリモート・メモリ記憶
装置に格納することができる。図示したネットワーク接続は例示であり、コンピ
ュータ間に通信リンクを確立する別の手段を用いてもよいことは認められよう。
【0038】 図4は、図3に示すコンピュータ300内部で実行するアプリケーション・プ
ログラム400の最上位ブロック図を示す。これらのプログラムは、本発明に関
連する範囲では、図4に示すように、我々の本発明を実施するために、検索プロ
セス600(以下で図6Aおよび図6Bに関連付けて詳細に論ずる)を備えた、
ウェブ・ブラウザ420を含む。ウェブ・ブラウザと、例えば、ALTA VI
STAサーチ・エンジンのような、ユーザが選択した統計的サーチ・エンジンと
の間にインターネット接続が確立していると仮定すると、次にユーザは、図4に
示すライン422でシンボル化するように、プロセス600にフル・テキスト(
「リテラル」)サーチ・クエリを供給する。このプロセスは、ライン426でシ
ンボル化するように、クエリをウェブ・ブラウザを通じてサーチ・エンジンに転
送する。加えて、具体的には示さないが、プロセス600は内部的にもクエリを
分析し、それに対応する論理形態三連体を生成し、次いでコンピュータ300内
部にローカルに格納する。クエリに応答して、サーチ・エンジンは、ライン43
2でシンボル化するように、統計的に検索した文書レコード集合をプロセス60
0に供給する。これらレコードの各々は、先に注記したように、当該文書にアク
セスすることができウェブ・アドレス、即ち、URLと、その文書が位置するリ
モート・ウェブ・サーバが、インターネットを通じて、その文書を含むコンピュ
ータ・ファイルを十分にダウンロードするのに必要とする適切なコマンド(複数
のコマンド)とを含む。一旦プロセス600が全てのレコードを受信したなら、
次にこのプロセスは、ウェブ・ブラウザ420を介して、そしてライン436で
シンボル化するように、適切なコマンドを送り、レコードが指定する全ての文書
にアクセスしダウンロードする(即ち、出力文書集合を形成する)。次に、対応
するウェブ・サーバからこれらの文書に順次アクセスし、ライン442でシンボ
ル化するように、ウェブ・ブラウザ420、具体的にはプロセス600にダウン
ロードする。一旦これらの文書をダウンロードしたなら、プロセス600はこの
ような文書を各々分析し、その論理形態三連体を生成し、ローカルに格納する。
その後、クエリに対する論理形態三連体を各文書毎の論理形態三連体と比較する
ことによって、プロセス600は少なくとも1つの一致する論理形態三連体を含
む各文書のスコアを決定し、それらのスコアに基づいてこれら個々の文書をラン
ク付けし、最後に、ライン446でシンボル化するように、群毎に文書スコアを
降順に並べることによって、これらの個々の文書をランク順にユーザに提示する
ようにウェブ・ブラウザ400に命令する。ブラウザ400は、ディスプレイ3
800(図3参照)の画面上に適切な選択ボタンを発生し、ユーザはこれを通じ
て、彼(彼女)のマウスを用いてその上で適切に「クリック」することによって
選択し、所望通りに、連続する各文書群を表示することができる。
【0039】 この時点において意味情報を判定し、保存しエンコードする際における論理形
態の有用性を最大限認識するために、我々の発明を実施する処理を論ずることか
ら逸れて、本発明において用いる論理形態および論理形態三連体を、関連のある
範囲で、図示しかつ説明し、更にこれらを生成する方法の端的な概要を示すこと
にする。
【0040】 広義に言えば、論理形態とは、いずれかの任意のサイズのテキストを表わす単
語を、分類関係でリンクした、有向グラフ(directed graph)である。論理形態
は、句内にある重要な単語間の意味的関係を描写し、その上位語(nypernym)お
よび/または同義語を含む場合もある。図5Aないし図5Dにおいて論じかつ示
すように、論理形態は、多数の異なる形態のいずれか1つ、例えば、論理形態グ
ラフ、または例えば論理形態三連体のリストのような、あらゆるサブグラフを利
用することができる。三連体の各々は、例示として、「単語−関係−単語」とい
う形式とする。我々の本発明は、特定して具体化すると、論理形態三連体を発生
し比較するものであるが、我々の発明は、先に注記したような、単語間の意味的
な関係の描写が可能な他のあらゆる形式も容易に利用することができる。ここで
用いる場合、その全てが論理形態という用語に含まれることとする。
【0041】 論理形態三連体およびそれらの構造は、一連の徐々に複雑化する文章の例を通
じて最良に理解することができるので、最初に図5Aについて検討する。この図
は、例示の入力ストリング510、具体的には、”The octopus has three hear
ts.”(蛸には心臓が3つある)という文章について、論理形態グラフ515お よび論理形態三連体525を示す。
【0042】 一般に、例示としての一実施形態では、例示の入力ストリング、例えば、入力
ストリング510に論理形態三連体を発生するためには、当該ストリングを最初
に解析し、その構成単語に分解する。その後、このような各単語毎に、格納して
ある語彙の中にある、既定のレコードを用いて(サーチ・エンジンが用いる文書
レコードと混同しないように)、既定の文法規則によって、これらの構成単語に
対応するレコード自体を、より大きな構造または分析に組み込み、次いで、再度
既定の文法規則によって順に結合し、構文的解析ツリーのような、更に大きな構
造を形成する。次いで、解析ツリーから、論理形態グラフを構築する。個々の規
則が個々の構成集合に適用可能か否かは、部分的に、ある種の対応する属性の有
無および単語レコードにおけるそれらの値によって支配(govern)される。次に
、論理形態グラフを一連の論理形態三連体に変換する。例示として、我々の発明
は、約165,000個の主要部単語見出し(head word entry)を有するよう な語彙を用いる。この語彙は、例えば、代名詞、接続詞、動詞、名詞、機能語、
および数量詞というような様々なクラスの単語を含み、これらが入力ストリング
内の単語に固有な構文的および意味的特性を規定し、入力ストリングの解析ツリ
ーを構築できるようにする。明らかに、論理形態(また、更に言えば、意味的関
係を描写可能な論理形態内の論理形態三連体または論理形態グラフのような、別
の何らかの表現)は、予め計算することができる。一方、対応する文書は、イン
デックス化し、例えば、当該文書に対するレコード内に記録しておき、一旦当該
文書を検索したなら、後に計算せずに、続いてアクセスし使用できるようにして
おく。図10ないし図13Bに関連付けて以下で詳細に論ずる我々の発明の別の
実施形態において行なうように、このような事前計算および格納を用いると、我
々の発明にしたがって検索したあらゆる文書を処理するために必要な自然言語処
理量、したがってそれに伴う実行時間が劇的に減少するという利点がある。
【0043】 即ち、例示としての一実施形態では、図5Aに示す文章510のような入力ス
トリングについて、その各構成単語毎に語彙の中で予め規定してあるレコードを
用いて、最初に形態学的に分析し、いわゆる「語幹」(または「ベース」)形態
をそのために発生する。語幹形状(stem form)を順番に用い、異なる単語形状 、例えば、動詞の時制および名詞の単数複数の変化を、パーザが使用するための
共通な形態学的形状に正規化する。一旦語幹形状を生成したなら、文法規則およ
び構成単語のレコード内にある属性を用いて、パーザによって入力ストリングを
構文的に分析し、構文的解析ツリーをそのために生成する。このツリーは、入力
ストリングの構造、即ち、入力ストリングにおける各単語または句、例えば、名
詞句”The octopus”(蛸)、その対応する文法機能のカテゴリ、例えば、名詞 句についてはNP、およびその中の構文的に関係する各単語または句へのリンク
(複数のリンク)を描写する。例示の文章510については、その関連する構文
的解析ツリーは次のようになる。
【0044】
【表1】
【0045】 ツリーの左上側角に位置する開始ノードが、解析する入力ストリングの型を定
義する。文章型は、平叙文には(ここでは)”DECL”、命令文には”IMP
R”、および疑問文には”QUES”を含む。右側に垂直にかつ開始ノードの下
に表示するのは、第1レベルの分析である。この分析は、アステリスクで示すヘ
ッド・ノードを有する。これは、典型的に、主動詞(ここでは、単語”has”) 、前修飾語(premodifier)(ここでは、名詞句”The octopus”)であり、それ
に続いて後修飾語(postmodifier)(名詞句”three hearts”)が続く。ツリー
の各リーフは、語彙用語(lexical term)または句読点を含む。ここでは、ラベ
ルとして、”NP”は名詞句を指定し、”CHAR”は句読点を示す。
【0046】 次に、異なる1組の規則を用いて構文的解析ツリーを更に処理し、入力ストリ
ング510に対するグラフ515のような、論理形態グラフを生成する。論理形
態グラフを生成するプロセスは、入力ストリングの構文的分析から、基礎構造を
抽出することを伴う。論理形態グラフは、それらの間の意味的関係、および当該
関係の機能的性質を有するものとして規定した単語を含む。異なる意味的関係を
類別するために用いる「深い」ケース(deep case)および機能的役割は、次の ものを含む。
【0047】
【表2】 Dsub−−深い主語 Dind−−深い間接目的語 Dobj−−深い目的語 Dnom−−深い叙述主格語 Dcmp−−深い目的補語 表2 入力ストリングにおける全ての意味的関係を識別するために、当該ストリング
の構文的解析ツリーにおける各ノードを試験する。前述の関係に加えて、例えば
、以下のような他の意味的役割も用いる。
【0048】
【表3】 PRED −−述語 PTCL −−二部分動詞における不変化詞 Ops −−機能語、例えば、数詞 Nadj −−名詞を修飾する形容詞 Dadj −−叙述形容詞 PROPS−−節である、その他の未指定修飾語 MODS −−節でない、その他の未指定修飾語 表3 追加の意味的ラベルも同様に定義する。例えば、
【0049】
【表4】 TmeAt−−時点 LocAt−−場所 表4 いずれにしても、入力ストリング510に対するこのような分析の結果は、論
理形態グラフ515となる。入力ストリング内において意味的関係(例えば“Oc
topus”および“Have”)を相互に示す単語は、互いに連結して示し、それらの 間の関係をリンク属性(例えば、Dsub)として指定する。このグラフは、入
力ストリング510に対するグラフ515で代表するが、各入力ストリング毎に
、論拠(argument)および付加語の構造を捕らえる。とりわけ、論理形態分析は
、前置詞や冠詞のような機能的単語を、当該グラフ内で描写した特色(feature )および構造的関係にマップする。また、一実施形態では、論理形態分析は前方
照応(anaphora)の解明も行なう。即ち、例えば代名詞と相互に関係のある名詞
句との間の正しい先行詞の関係を定義し、省略に対する適正な機能的関係を検出
し描写する。曖昧さおよび/または他の言語学的特異性に対処する試みにおいて
、論理形態分析中に追加の処理が行われることも当然あり得る。その場合、論理
形態グラフから従来のように対応する論理形態三連体を単に読み出し、1つの集
合として格納する。各三連体は、2つのノード単語を含み、それらの間の意味的
関係でリンクしたグラフとして描写する。例示の入力ストリング510では、論
理形態三連体525は、処理グラフ515から得られた。ここでは、論理形態三
連体525は3つの個々の三連体を含み、入力ストリング510に固有な意味情
報を共同して伝達(convey)する。
【0050】 同様に、図5Bないし図5Dに示すように、入力ストリング530,550お
よび570では、具体的な例としての文章”The octopus has three hearts and
two lungs.”(蛸には心臓が3つおよび肺が2つある。)、”The octopus has
three hearts and it can swim.”(蛸には心臓が3つあり、泳ぐことができる
)、および”I like shark fin soup bowls.”(私はフカヒレ・スープが好きだ
)に対して、論理形態グラフ535,555および575ならびに論理形態三連
体540,560および580がそれぞれ得られる。
【0051】 従来の方法とは別に、論理形態三連体全てを正確に生成するために追加の自然
言語処理に必要な論理形態構造が3つあり、その中に、論理形態グラフから論理
形態三連体を作成する、従来の「グラフ・ウオーク」(graph walk)を含む。”
The octopus has three hearts and two lungs”という文章例、即ち、入力スト
リング530におけるように、調整(coordination)の場合、単語、その意味的
関係、および調整する対象の構成要素の値の各々について、論理形態三連体を作
成する。「特殊な」グラフ・ウオークによれば、図540において、2つの論理
形態三連体”have-Dobj-heart”および”have-Dobj-lung”があるのがわかる。 従来のグラフ・ウオークのみを用いた場合、一方の論理形態三連体”have-Dobj-
and”しか得られない。同様に、”The octopus has three hearts and it can s
wim”という文章例、即ち、入力ストリング550におけるように、関係項(ref
erent)(Refs)を有する構成要素の場合、従来のグラフ・ウオークが発生 する三連体に加えて、単語、その意味的関係、およびRef属性の値の各々につ
いて、論理形態三連体を作成する。この特殊なグラフ・ウオークによれば、三連
体560において、従来の論理形態三連体”swim-Dsub-it”に加えて、論理形態
三連体”swim-Dsub-octopus”があるのがわかる。最後に、”I like shark fin
soup bowls”という文章例、即ち、入力ストリング570におけるように、名詞
修飾語を有する構成要素の場合、名詞複合体の可能な内部構造を表わすために、
追加の論理形態三連体を作成する。従来のグラフ・ウオークは、論理形態三連体
”bowl-Mods-shark”、”bowl-Mods-fin”および”bowl-Mods-soup”を作成し、
可能な内部構造[[shark][fin][soup]bowl]を反映した
。特殊グラフ・ウオークでは、以下の可能な内部構造[[shark fin]
[soup]bowl]、および[[shark][fin soup]bow
l]、および[[shark [fin]soup]bowl]をそれぞれ反映
するために、次の追加の論理形態三連体”fin-Mods-shark”、”soup-Mods-fin ”、および”soup-Mods-shark”を作成する。
【0052】 形態学的、構文的、および論理的な形式処理の具体的な詳細は本発明には関連
がないので、それらに関する更なる詳細は全て省略する。しかしながら、この点
に関する更なる詳細については、1996年6月28日に出願し、連番第08/
674,610号を付与された”Method and System for Computing Semantic L
ogical Forms from Syntax Trees”(構文ツリーから意味的論理形態を計算する
方法およびシステム”、および特に1997年3月7日に出願し連番第08/8
86,814号を付与された”Information Retrieval Utilizaing Sematnic Re
presentation of Text”(テキストの意味的表現を利用した情報検索)と題する
同時係属中の米国特許出を読者に引用しておく。これらは双方とも本願の譲受人
に譲渡されており、この言及により本願にも含まれるものとする。
【0053】 この論理形態およびその構造の概要を念頭に入れておき、これより我々の本発
明を実施する処理の論述に戻ることにする。図2、図3および図4に示した我々
の発明の具体的な実施形態において用いるような、検索プロセス600において
利用する我々の発明のフローチャートを、ひとまとめにして図6Aおよび図6B
に示す。これらの図に対する図面の正しい位置合わせを図6に示す。破線のブロ
ック225に示す動作を例外として、これらの図に示す残りの動作は、コンピュ
ータ・システム、例えば、クライアントPC300(図2および図3参照)、お
よび具体的にはウェブ・ブラウザ420内部で実行する。理解を簡単にするため
に、読者は、以下の論述を通じて図2、図3、図6Aおよび図6Bも同時に参照
するとよい。
【0054】 プロセス600を開始すると、実行は最初にブロック605に進む。このブロ
ックを実行すると、ユーザにウェブ・ブラウザ420を通じてフル・テキスト(
リテラル)クエリを入力するように促す。クエリは、単一の質問(例えば、「バ
リにはエアコン付きのホテルはあるか」)または単一の文章(例えば、7月中に
シアトルで開催される全花火大会についての問い合わせ情報を私に下さい)、ま
たは文章の一部(例えば、「エクアドルにおける衣類」)の形式とすることがで
きる。一旦このクエリを得たなら、実行は、経路607を通ってブロック610
に、そして経路643を通って経路645にと分割して進めていく。ブロック6
45を実行すると、NLPルーチン700を呼び出し、クエリを分析して、その
対応する論理形態三連体集合を構築し、ローカルに格納する。ブロック610を
実行すると、破線615でシンボル化するように、フル・テキスト・クエリをウ
ェブ・ブラウザ420から、インターネット接続を介して、サーバ220上に位
置するエンジン225のような、リモート・サーチ・エンジンに送信する。この
時点で、サーチ・エンジンによってブロック625を実行し、クエリに応答して
文書レコード集合を検索する。一旦この集合を形成したなら、破線630でシン
ボル化するように、リモート・サーバからコンピュータ・システム300に、そ
して具体的にはそこで実行中のウェブ・ブラウザ420にこの集合を返送する。
その後、ブロック635を実行してレコード集合を受信し、各レコード毎に当該
レコードからURLを抽出し、そのURLにあるウェブ・サイトにアクセスし、
そのレコードに対応する文書を含む関連ファイルをそこからダウンロードする。
一旦文書全てをダウンロードしたなら、ブロック640を実行する。このような
各文書毎に、このブロックはまず当該文書から全てのテキストを抽出する。テキ
ストには、当該文書に関連付けられているHTMLタグ内に位置するあらゆるテ
キストが含まれる。その後、一度に1つの文書のみに動作する自然言語処理を簡
便化するために、従来の文書分解部(document breaker)によって各文書のテキ
ストをテキスト・ファイルに分解する。この場合、各文章(または質問)は、フ
ァイル上の別個のラインを占める。その後、ブロック640が当該文書内のテキ
ストの各ライン毎に繰り返しNLPルーチン700(図7に関連付けて以下で詳
細に論ずる)を呼び出し、これら文書の各々を分析し、当該文書内のテキストの
各ライン毎に対応する論理形態三連体集合を構築し、ローカルに格納する。ブロ
ック645における動作は、本質的にブロック610,635および640にお
ける動作と並行して行なうものとして論じたが、実際の実施態様の考慮に基づい
て、形成部ブロックにおける動作は、ブロック610,635および640内の
動作の前または後のいずれかに連続的に実行することも可能である。あるいは、
図10ないし図13Bに関連付けて以下で論ずる我々の発明の別の実施形態の場
合におけるように、各文書毎の論理形態三連体を予め計算し、後のアクセスおよ
び使用のために、文書検索中に格納しておくことも可能である。その場合、これ
らの三連体は、文書検索中に計算せずに、単純にアクセスすることが可能である
。この場合、三連体は、何らかの方法で、その格納してある文書の特性として、
または、例えば、当該文書のレコードまたは当該文書を含むデータセットのいず
れかに別個のエントリとして格納しておくことも可能である。
【0055】 いずれにしろ、図6Aおよび図6Bに示すプロセス600に戻り、一旦論理形
態三連体集合を構築し、クエリに対し、および出力文書集合内の検索文書の各々
に対して完全に格納した後、ブロック650を実行する。このブロックは、クエ
リ内の論理形態三連体の各々を、検索文書の各々に対する論理形態三連体の各々
と比較し、クエリ内のいずれかの三連体と文書のいずれかにおけるいずれかの三
連体との間の一致を突き止める。一致の例示形態は、ノード・ワードに関して、
およびこれらの三連体における関係における、2つの三連体間の完全一致(iden
tical match)として定義する。即ち、例示としての論理形態三連体の対、wordl
a-relation1-word2aおよびword1b-relation2-word2bでは、ノード単語word1aお よびword 1bが互いに同一であり、ノード語word2aおよびword2bが互いに同一で あり、relation1およびrelation2が同一である場合にのみ、一致が生ずる。1つ
の三連体の3エレメント全てが、別の三連体の対応するエレメントと完全に一致
しなければ、これら2つの三連体は一致しない。一旦ブロック650が完了した
なら、ブロック655を実行して、一致する三連体を示さない検索文書、即ち、
クエリ内の三連体のいずれにも一致する三連体がない検索文書全てを破棄する。
その後、ブロック660を実行する。ブロック660によって、残っている文書
全てに対し、これらの文書の各々について存在する、一致した三連体の関連型(
複数の型)およびその重みに基づいて、スコアを割り当てる。即ち、論理形態三
連体内に発生し得る異なる関係型毎に、図8Aのテーブル800に示すような、
対応する重みを割り当てる。例えば、図示のように、例示の関係Dobj,Ds
ub,OpsおよびNadjには、所定の固定数値重み100,75,10およ
び10をそれぞれ割り当てるとよい。重みは、クエリと文書との間の正確な意味
的一致を示す際に、当該関係に帰せられる相対的重要度を反映する。これらの重
みの実際の数値は、通常経験に基づいて定義する。以下で図8Bに関連付けて詳
細に説明するが、残りの各文書に対するスコアは、それぞれ1つずつの一致三連
体(全ての重複する一致三連体は無視する)についての重みの既定の関数であり
、例示として、ここでは、数値合計(numeric sum)とする。一旦文書にこのよ うに重み付けをしたなら、ブロック665を実行して、スコアの降順で文書をラ
ンク順に並び替える。最後に、ブロック670を実行して、最も高いスコアを示
す、典型的に5つまたは10個の小さな既定の文書群に関して、典型的に、ラン
ク順で文書を表示する。その後、ユーザは、例えば、適切に彼(彼女)のマウス
を、ウェブ・ブラウザ420が表示する対応するボタン上で「クリック」するこ
とによって、コンピュータ・システム(クライアントPC)300に、ランク付
けした文書の次の群を表示させ、ランク付けした文書全てを連続してユーザが十
分に試験し終えるまで、このように続ける。試験し終えた時点で、プロセス60
0は完了する。
【0056】 図7は、NLDルーチン700のフローチャートを示す。このルーチンは、入
力テキストの一ラインが与えられると、それがクエリであれ、文書内の文章であ
れ、またはテキストの断片であれ、それに対して対応する論理形態三連体を構築
する。
【0057】 即ち、ルーチン700に入ると、最初にブロック710を実行し、入力テキス
トのラインを処理し、図5Aに示した例示のグラフ515のような、論理形態グ
ラフを生成する。この処理は、例示として、形態学的および意味的処理を含み、
構文解析ツリーを生成し、次いでこれから論理形態グラフを計算する。その後、
図7に示すように、ブロック720を実行し、グラフから対応する論理形態三連
体集合を抽出する(読み出す)。一旦これを行なったなら、ブロック730を実
行し、このような論理形態三連体の各々を、別個で異なるフォーマットのテキス
ト・ストリングとして発生する。最後に、ブロック740を実行し、入力テキス
トのライン、および一連のフォーマットしたテキスト・ストリングとして、当該
ラインに対する論理形態三連体集合を、データセット(またはデータベース)に
格納する。一旦この集合を完全に格納したなら、実行はブロック700から出る
。あるいは、論理形態三連体の代わりに、異なる表現、例えば、論理形態に関連
する論理形態グラフを、我々の発明と共に用いる。そうする場合、その特定の形
態を、フォーマットしたストリングとして発生するようにブロック720および
730を変更するのは容易であり、ブロック740では、論理形態三連体の代わ
りに、その形態をデータセットに格納する。
【0058】 我々の発明が例示として、一致する論理形態三連体を比較し重み付けし、更に
対応する文書をランク付けする方法を完全に理解するために、図8Bを検討する
。この図は、我々の発明の教示による、論理形態三連体の比較、文書のスコア決
定、ランク付け、および選択プロセスを図式的に示す。これらのプロセスは、例
示のクエリおよび例示の3つの検索文書集合に対して、全て図6Aおよび図6B
に示す、ブロック650,660,665および670内で行われる。例示の目
的上、ユーザがフル・テキスト・クエリ810を我々の発明の検索システムに供
給し、そのクエリが”How many hearts does an octopus have?”(蛸には心臓 がいくつあるか)であると仮定する。また、このクエリに応答して、統計的サー
チ・エンジンによって、3つの文書820を最終的に検索したと仮定する。これ
らの文書の内、第1の文書(文書1と名付ける)は、アーティチョークの芯(ar
tichoke heart)および蛸を含む調理法である。第2の文書(文書2と名付ける )は、蛸に関する論文である。第3の文書(文書3と名付ける)は、鹿に関する
論文である。これら3つの文書およびクエリをその構成論理形態三連体に変換す
る。そのためのプロセスを総括的に「NLP」(自然言語処理)で表わす。クエ
リおよび文書1、文書2および文書3に対して得られた論理形態三連体は、ブロ
ック830,840,850および860においてそれぞれ与えられる。
【0059】 一旦これらの三連体をこのように定義したなら、次に、破線845,855,
および865でシンボル化するように、クエリに対する論理形態三連体を、順次
、文書1、文書2および文書3に対する論理形態三連体とそれぞれ比較し、いず
れかの文書が、クエリ内のいずれかの論理形態三連体と一致するいずれかの三連
体を含むか否かについて確かめる。文書1の場合のように、このような一致する
三連体を含まない文書を破棄し、したがってこれ以上考慮しない。一方、文書2
および文書3は、一致する三連体を含む。即ち、文書2は、このような三連体を
3つ、例示として1つの文章に関連する”HAVE-Dsub-OCTOPUS”、”HAVE-Dsub-H
EART”および例示として別の文章に関連する”HAVE-Dsub-OCTOPUS”を含む(こ れらの文章は、具体的に示していない)。これらの三連体の内、2つは同一であ
る。即ち、”HAVE-Dsub-OCTOPUS”は同一である。例示として、この文書に対す るスコアは、当該文書内において全ての一致する三連体1つずつの重みの数値合
計である。いずれの文書についても、重複して一致する三連体は全て無視する。
三連体内に発生し得る異なる型の関係の相対的な重み付けを、その最大重みから
最小重みまで降順でランク付けした例は、最初に、動詞−目的語の組み合わせ(
Dobj)、動詞−主語の組み合わせ(Dsub)、前置詞および機能語(例え
ば、Ops)、そして最後に修飾語(例えば、Nadj)となる。このような重
み付け方式を、図8Aに示す例示の三連体重み付け表800に示す。この図を簡
略化するために、表800は、論理形態三連体内に発生し得る異なる関係の全て
は含まず、図8Bに示す三連体に関連のあるものだけを含む。このメトリックで
は、各文書においてそのスコアに寄与する個々の三連体をチェック(「レ」)マ
ークで示す。勿論、先に選択したもの以外に、文書にスコアを付けるために別の
メトリックを予め決めておき、用いてもよい。例えば、重みを加算する代わりに
乗算して文書選択性(判別)を高めたり、同じ型の多数の一致を含む、および/
または先に注記したもの以外の三連体の重みを除外するというような、異なる方
法を予め規定しておき、重みを加算する。加えて、いずれの文書についても、ス
コアは、何らかの方法で、当該文書内の三連体自体におけるノード語、あるいは
当該文書におけるこれらのノード語の頻度または意味的内容、当該文書内の特定
のノード語の頻度または意味的内容、あるいは特定の論理形態(またはその言い
換え)および/または当該文書内の特定の論理形態三連体全体としての頻度、な
らびに当該文書の長さを考慮に入れることも可能である。
【0060】 したがって、前述した例示のスコア決定メトリック、および図8Aの表800
に掲示した重みを仮定すると、文書2に対するスコアは175となる。これは、
文書内の最初の文章に関連し、ブロック850に示した最初の2つの三連体に対
する重み、即ち、100および75を組み合わせることによって形成したもので
ある。この文書の3番目の三連体は、その2番目の文章に関連があり、このブロ
ックに掲示してあり、既に、文書内に存在する他の三連体の1つと一致するので
、無視する。同様に、文書3に対するスコアは100である。この特定の文書で
は、ブロック860に掲示するように、唯一の一致する三連体に対する重み、こ
こでは100で形成する。これらのスコアに基づいて、文書2を文書3よりも高
くランク付けし、これらの文書をこの順序でユーザに提示する。ここでは発生し
ないが、いずれか2つの文書が同じスコアを有する場合、これらの文書は、従来
の統計的サーチ・エンジンが与える同じ順序でランク付けし、その順序でユーザ
に提示する。
【0061】 明らかに、我々の発明を実施するために用いる処理の種々の部分は、単一のコ
ンピュータ内に位置することも、あるいは集合的に情報検索システムを形成する
異なるコンピュータ間で分散することも可能であることは、当業者は容易に認め
よう。これに関して、図9Aないし図9Cは、それぞれ、我々の本発明の教示を
組み込んだ情報検索システムの異なる実施形態を3つそれぞれ示す。
【0062】 このような代替実施形態の1つを図9Aに示す。ここでは、全ての処理はPC
のような単一のローカル・コンピュータ910内に位置する。この場合、コンピ
ュータ910は、サーチ・エンジンを運営し、そのエンジンを通じて、入力文書
をインデックス化し、ユーザが供給するフル・テキスト・クエリに応答して、デ
ータセット(CD−ROMまたはその他の記憶媒体のようにそこにローカルに位
置するもの、またはそのコンピュータにアクセス可能なもの)を探索し、最終的
に出力文書集合を形成する検索文書集合を生成する。また、このコンピュータは
、我々の発明の処理も担当し、クエリおよびこのような各文書双方を分析してそ
の対応する論理形態三連体集合を生成し、次いで三連体集合を比較し、先に論じ
たように文書を選択し、スコアを決め、ランク付けし、最終的に結果を、例えば
、そこにいるまたはそれにアクセス可能なローカル・ユーザに提示する。
【0063】 別の代替実施形態を図9Bに示す。これは、図2に示した具体的な内容を含み
、リモート・サーバにネットワークを通じて接続したクライアントPCで、検索
システムを形成する。ここでは、ネットワーク接続925を介してリモート・コ
ンピュータ(サーバ)930にクライアントPC920を接続する。クライアン
トPC920に位置するユーザがフル・テキスト・クエリを入力し、一方PCは
ネットワーク接続を介してこのフル・テキスト・クエリをリモート・サーバに送
信する。また、クライアントPCは、クエリを分析し、その対応する論理形態三
連体集合を生成する。サーバは、例えば、従来の統計的サーチ・エンジンを運営
し、したがって、クエリに応答して統計的検索を引き受け、文書レコード集合を
生成する。次に、サーバはレコード集合を返送し、最終的に、クライアントの命
令によって、またはサーチ・エンジンまたは連動するソフトウエアの機能に基づ
いて自律的に、出力文書集合内の各文書をクライアントPCに返送する。次に、
クライアントPCは、出力文書集合内の対応する文書の各々を分析し、それに対
する論理形態三連体集合を生成するために受信する。次に、クライアントPCは
、適切に三連体集合を比較し、先に論じたように文書の選択、スコア決定、およ
びランク付けを行ない、最終的に結果をローカル・ユーザに提示することによっ
て、その処理を完了する。
【0064】 更に別の実施形態を図9Cに示す。この実施形態は、図9Bにおけると同一の
物理的ハードウエアおよびネットワーク接続を採用するが、クライアントPC9
20はローカル・ユーザからフル・テキスト・クエリを受け入れ、ネットワーク
接続925を介してそのクエリを更にリモート・コンピュータ(サーバ)930
に送信する。このサーバは、単に従来のサーチ・エンジンを運営する代わりに、
我々の発明による自然言語処理も行なう。この場合、クライアントPCではなく
、サーバがクエリを適切に分析し、それに対して対応する論理形態三連体集合を
生成する。また、サーバは、必要であれば、出力文書集合内の各検索文書をダウ
ンロードし、次いでこのような各文書を分析し、それに対して対応する論理形態
三連体集合を生成する。その後、サーバはクエリおよび文書に対する三連体集合
を適切に比較し、先に論じたように、文書の選択、スコア決定およびランク付け
を行なう。一旦このランク付けを行なったなら、次にサーバ930は残っている
検索文書をランク順に、ネットワーク接続925を介して、クライアントPC9
20に送信し、そこで表示する。サーバは、これらの文書を、先に明記したよう
にユーザに命令されて、群毎に送信するか、あるいは全てを順次送信しそれらの
間で群毎に選択してクライアントPCにおいて表示することも可能である。
【0065】 更に、リモート・コンピュータ(サーバ)930は、先に記した従来の検索、
自然言語、および関連する処理全てを行なう単一のコンピュータだけによって実
施する必要はなく、図9Dに示すような分散型処理システムとすることも可能で
ある。この場合、このサーバが引き受ける処理は、その中の個々のサーバ間で分
配する。ここでは、サーバ930をフロント・エンド・プロセッサ940で形成
し、接続950を介してメッセージを一連のサーバ960(サーバ1,サーバ2
,...,サーバnを含む)に分散する。これらのサーバの各々は、我々の発明
プロセスの特定部分を実施する。この点に関して、サーバ1は、入力文書を、大
容量データ記憶装置上のデータセットにインデックス化し、後に検索可能にする
ために用いることができる。サーバ2は、従来の統計的エンジンのようなサーチ
・エンジンを実装し、ユーザが供給しこれに送出されたクエリに応答して、フロ
ント・エンド・プロセッサ940によって、大容量データ記憶装置から文書レコ
ード集合を検索することができる。対応するウェブ・サイトまたはデータベース
から、出力文書集合内の対応する各文書をダウンロードするというような、後の
処理のために、これらのレコードは、サーバ2から、フロント・エンド・プロセ
ッサ940を介して、例えば、サーバnに送出する。また、フロント・エンド・
プロセッサ940は、クエリをサーバnに送出する。すると、サーバnはクエリ
および各文書を適切に分析し、対応する論理形態三連体集合を生成し、次いで三
連体集合を適切に比較し、先に論じたように文書の選択、スコア決定、およびラ
ンク付けを行ない、ランク付けした文書を、フロント・エンド・プロセッサ94
0を介して、クライアントPC920に返送し、ランク順でここに表示する。勿
論、我々の発明処理において用いる種々の動作は、多くの別の方法のいずれの1
つでも、スタティックであってもダイナミックであっても、ランタイムおよび/
またはそこで生じるその他の状態にしたがって、サーバ960間で分散すること
も可能である。更に、サーバ930は、例示として、公知のシスプレクス・コン
フィギュレーション(sysplex configuration)によって実施し、その中の全て のプロセッサ(あるいは他の同様な分散型マルチ処理環境)によってアクセス可
能な共用直接アクセス記憶装置(DASD:direct access storage device)を備え 、例えば、自然言語処理のために用い双方ともその上に格納してある従来のサー
チ・エンジンおよび語彙のためのデータベースを有することも可能である。
【0066】 これまで、検索した各文書レコードに応答して文書をダウンロードし、次いで
例えばクライアントPCによってローカルにその文書を分析してその対応する論
理形態三連体を生成するものとして、本発明を説明してきたが、これらの三連体
は、代わりに、サーチ・エンジンによって文書をインデックス化している間に、
発生することも可能である。この点に関して、サーチ・エンジンが新たな各文書
を突き止め、例えば、ウェブ・クローラ(web crawler)の使用によってインデ ックス化しながら、エンジンは当該文書に対する完全なファイルをダウンロード
し、次いでその後直ちにまたは後に、バッチ・プロセスによって、当該文書を分
析し、その論理形態三連体を生成することによって、文書を予備処理することが
できる。予備処理を完了するために、サーチ・エンジンは次にこれらの三連体を
、当該文書に対するインデックス化レコードの一部として、そのデータベースに
格納する。続いて、サーチ・クエリに応答してというように、その文書レコード
を検索するときはいつでも、それに対する三連体を、文書レコードの一部として
、比較等の目的のためにクライアントPCに返送する。サーチ・エンジンにおい
て文書を予備処理することによって、クライアントPCにおける処理時間量の大
部分を削減し、これによってクライアント・スループットを向上させることがで
きるという利点がある。
【0067】 更に、インターネットに基づくサーチ・エンジンと共に用いるという特定の状
況において我々の発明について論じて来たが、我々の発明は、(a)インターネ
ットに基づくか基づかないかには係わらず、専用ネットワーク設備またはその他
によってアクセス可能な、あらゆるネットワーク・アクセス可能なサーチ・エン
ジン、(b)百科事典、年鑑またはその他の自己充足型単体データセットによっ
て代表される、CD−ROMに基づくデータ検索用途のように、それ自身に格納
したデータセットと共に動作する、個人用サーチ・エンジン(localized search
enjine)、および/または(c)そのあらゆる組み合わせと共に用いるために 等しく適用可能である。本発明は、その他の適切な用途であればいずれにおいて
も同様に使用可能である。
【0068】 以上のことを念頭に入れておき、図10Aおよび図10Bは本発明の更に別の
実施形態をひとまとめにして示す。これは、文書の予備処理によって論理形態三
連体を発生し、得られた三連体、文書レコードおよび文書自体を自己充足型単体
データセットとして、1つ以上のCD−ROMまたはその他の運搬可能な大容量
媒体(リムーバブル・ハード・ディスク、テープ、あるいは光磁気または大容量
磁気または電子記憶装置によって代表される)のような共通の記憶媒体上に集合
的に格納し、エンド・ユーザに容易に分配可能としたものである。これらの図に
対する図面用紙の正しい図示を図10に示す。共通媒体上に、検索アプリケーシ
ョン自体および検索対象である添付データセットを集合的に配することにより、
単体のデータ検索アプリケーションが得られ、したがって、文書を検索するため
にリモート・サーバにネットワーク接続する必要性を解消する。
【0069】 図示のように、この実施形態は、本質的に3つのコンポーネントから成る。文
書インデックス化コンポーネント10051、複製コンポーネント10052、お
よびユーザ・コンポーネント10053である。コンポーネント10051は、文
書を集め、データセット、例示としてデータセット1030内にインデックス化
する。一方、データセット1030は、例えば、百科事典、年鑑、特殊ライブラ
リ(判決報告書のような)、定期刊行物の収集等のような、自己充足型文書検索
用途のために文書レポジトリを形成する。CD−ROMおよび大量の記憶容量を
有するその他の形態の媒体の複製によるコスト激減により、この実施形態は、広
範なユーザ共同体に向けた、精度高い収集探索機能を備えた、費用効率的な大量
流通文書収集には特に魅力的である。
【0070】 いずれにしても、入来しデータセット内にインデックス化する文書を、あらゆ
る数の多種多様のソースから集め、順次コンピュータ1010に供給する。この
コンピュータは、メモリ1015内に格納してある適切なソフトウエアによって
、文書インデックス化エンジンを実現する。このエンジンは、このような各文書
毎にデータセット1030内部にレコードを確立し、当該文書に対するレコード
に情報を格納すると共に、データセット内に適切に格納し、文書自体のコピーを
含むエントリを確立する。エンジン1015は、三連体発生プロセス1100を
実行する。このプロセスは、図11に関連付けて以下で詳細に説明するが、イン
デックス化する文書毎に別個に実行する。要するに、このプロセスは、図6Aお
よび図6Bに示したブロック640について先に論じたのと本質的に同様に、文
書内の原文句(textual phrase)を分析し、そうすることによって、対応する論
理形態三連体集合を当該文書に対して構築し、データセット1030内に格納す
る。図10Aおよび図10Bに示す、文書をインデックス化するためのインデッ
クス化エンジン100が実行する、適切なレコードの発生を含む、他のプロセス
全ては、本発明には無関係であるので、それらについて詳細に対応しないことに
する。一旦三連体集合をプロセス1100によって発生したなら、エンジン10
15はこの集合を、文書自体のコピー、およびそのために作成した文書レコード
と共に、データセット1030上に格納することを言えば十分であろう。したが
って、データセット1030は、全てのインデックス化動作の終了時には、その
中にインデックス化したあらゆる文書の完全なコピー、およびそれに対するレコ
ードを格納するだけでなく、当該文書に対する論理形態三連体集合も格納する。
【0071】 一旦所望の文書全てを適切にインデックス化したなら、次に複製コンポーネン
ト10052によって、「マスタ・データセット」として見なすデータセット1 030自体の複製を作成する。コンポーネント10052内部では、従来の媒体 複製システム1040が、ライン1035を通じて供給されるマスタ・データセ
ットの内容のコピーを、ライン1043を通じて供給される検索プロセスおよび
ユーザ・インストール・プログラムを含む検索ソフトウエアの適切なファイルの
コピーと共に、1つ以上のCD−ROMのような共通記憶媒体上に繰り返し書き
込み、集合的に単体文書検索アプリケーションを形成する。システム1040に
よって、個々の複製10501,10502,...1050nを有する一連10 50の媒体複製1050を生成する。具体的に複製10501に示すように、全 ての複製は同一であり、ライン1043を通じて供給される文書検索アプリケー
ション・ファイルのコピー、およびライン1035を通じて供給されるデータセ
ット1030のコピーを含む。データセットのサイズおよび編成にしたがって、
各複製は、1枚以上の別個の媒体、例えば、別個のCD−ROMに跨がる場合も
ある。続いて、破線1055でシンボル化するように、典型的には使用権の販売
によって、ユーザ共同体全体に複製を分配する。ユーザ・コンポーネント100
3に示すように、一旦ユーザ、例えば、UserjがCD−ROMj(CD−R OM1060としても示す)のような複製を入手したなら、ユーザは、我々の本
発明を含む文書検索アプリケーションを、コンピュータ・システム1070(同
じアーキテクチャでないにしても、実質的に図3に示したクライアントPC30
0と同じアーキテクチャを有するPC等)によって、CD−ROMjに格納して あるデータセットに対して実行し、所望の文書をそこから検索することができる
。即ち、ユーザがCD−ROMjを得た後、ユーザはCD−ROMをPC107 0内に装入し、CD−ROM上に格納してあるインストール・プログラムの実行
に進み、文書検索アプリケーション・ファイルのコピーを作成し、PCのメモリ
1075内、通常はハード・ディスク内の既定のディレクトリにインストールす
ることによって、PC上に文書検索アプリケーション1085を定着させる。こ
のアプリケーションは、サーチ・エンジン1090および検索プロセス1200
を含む。一旦インストールが完了し、アプリケーション1085を呼び出したな
ら、ユーザは次に適切なフル・テキスト・クエリをアプリケーションに供給する
ことによって、CD−ROMj上のデータセットを通じて探索を行なうことがで きる。クエリに応答して、サーチ・エンジンは、データセットから、当該文書に
対するレコード、およびこのような各文書に対して格納してある論理形態三連体
を含む文書集合を検索する。また、クエリは検索プロセス1200にも供給する
。このプロセスは、図6Aおよび図6Bに関連付けて先に論じた検索プロセス6
00のそれと非常に類似しており、クエリを分析し、それに対する論理形態三連
体を構築する。その後、図10Aおよび図10Bに示すプロセス1200は、集
合内の検索した文書の各々、具体的にはそのレコードに対する論理形態三連体を
、クエリに対する三連体と比較する。それらの間で一致した三連体の発生および
その重みに基づいて、プロセス1200は次に、先に詳細に述べた方法で、少な
くとも1つの一致した三連体を有する文書の各々についてスコアを決定し、降順
のスコアでこれらの文書をランク付けし、最終的に、最も高いランキングを有す
る、典型的に5ないし20以下の小さな文書レコード群を、ユーザに視覚的に提
示する。ユーザは、これらのレコードを検討し、次に、興味があると思えるあら
ゆる関連文書のコピー全体を検索し、表示するように文書検索アプリケーション
に命令することができる。一旦ユーザが第1検索文書群に対する第1文書レコー
ド群を検討したなら、次にユーザは、次に高いランキングを有する次の文書レコ
ード群を要求し、このようにして検索した文書レコード全てを検討し終えるまで
、続けることができる。アプリケーション1085は初期においてクエリに応答
してランク付けした文書記録を返すが、このアプリケーションは、代わりに、ク
エリに応答して文書自体のランク付けコピーを戻すことも可能である。
【0072】 図11は、図10Aおよび図10Bに示した文書インデックス化エンジン10
15が実行する、三連体発生プロセス1100を示す。先に論じたように、プロ
セス1100は、文書中の原文句を分析し、そうすることによって当該文書に対
して対応する論理形態三連体集合を構築し、データセット1030に格納するこ
とによって、このインデックス化すべき文書を予備処理する。即ち、プロセス1
100に入ると、ブロック1110を実行する。このブロックは最初に、当該文
書に関連付けてあるHTMLタグ内に位置するあらゆるテキストを含む、当該文
書からのテキストを全て抽出する。その後、一度に1文章だけに動作する自然言
語処理を簡便化するために、各文書毎のテキストを、従来の文章分解部によって
、テキスト・ファイルに分解する。ここで、各文章(または質問)は、ファイル
内の別個のラインを示す。その後、ブロック1110は、当該文書内のテキスト
の各ライン毎に別個にNLPルーチン1300(図13Aに関連付けて以下で詳
細に論ずる)を呼び出し、この文書を分析し、そのラインに対応する論理形態三
連体を構築し、データベース1030内にローカルに格納する。一旦これらの動
作を完了したなら、実行はブロック1110およびプロセス1100から出る。
【0073】 図10Aおよび図10Bに示した我々の発明の具体的な実施形態において用い
る、我々の発明の検索プロセス1200のフローチャートを、ひとまとめにして
図12Aおよび図12Bに示す。これらの図に対する図面用紙の正しい位置合わ
せを図12に示す。検索プロセス600(図6Aおよび図6Bに示し、先に詳細
に論じた)とは対照的に、図12Aおよび図12Bに示す動作は全て、共通のコ
ンピュータ・システム、ここではPC1070(図10Aおよび図10B参照)
上で実行する。理解を簡単にするために、読者は、以下の論述全体にわたって、
図10Aおよび図10Bも同時に参照するとよい。
【0074】 プロセス1200に入ると、実行はまずブロック1205に進む。このブロッ
クを実行すると、ユーザにフル・テキスト・クエリを入力するように促す。一旦
このクエリを得たなら、実行は、経路1207を通ってブロック1210に、そ
して経路1243を通って経路1245に分割して進んで行く。ブロック124
5を実行すると、NLPルーチン1350を呼び出し、クエリを分析して、それ
に対応する論理形態三連体を構築し、メモリ1075内にローカルに格納する。
ブロック1210を実行すると、破線1215でシンボル化するように、フル・
テキスト・クエリをサーチ・エンジン1090に送信する。この時点において、
サーチ・エンジンはブロック1220を実行し、クエリに応答した文書レコード
集合、およびこのような各レコードに関連する関連論理形態三連体双方を検索す
る。一旦この集合および関連する論理形態三連体を検索したなら、破線1230
でシンボル化するように、双方をプロセス1200に、そして具体的にはその中
のブロック1240に返送する。ブロック1240は、単にサーチ・エンジン1
090からこの情報を受信し、後の使用のためにこれをメモリ1075に格納す
るだけである。ブロック1245における動作は、ブロック1210,1090
および1220における動作と本質的に並行して実行するように論じたが、ブロ
ック1245における動作は、実際の実施態様の考慮に基づいて、ブロック12
10,1090または1220内の動作の前または後のいずれかに連続的に実行
することも可能である。
【0075】 一旦クエリおよび検索した文書レコードの各々に対する論理形態三連体集合を
メモリ1075に格納したなら、ブロック1250を実行する。このブロックは
、先に詳細に説明したように、クエリ内の論理形態三連体の各々を、検索した文
書レコードの各々に対する論理形態三連体の各々と比較し、クエリ内のいずれか
の三連体と、対応する文書のいずれかにおけるいずれかの三連体との間の一致を
突き止める。一旦ブロック1250を完了したなら、ブロック1255を実行し
、一致した三連体を有さない文書、即ち、クエリ内のいずれの三連体とも一致す
る三連体を有さない文書に対する検索レコードを全て破棄する。その後、ブロッ
ク1260を実行する。ブロック1260によって、残りの文書レコード全てに
、先に規定したように、そして一致した三連体の関係型(複数の型)および、対
応する文書の各々について存在する、その重みに基づいて、スコアを割り当てる
。一旦文書レコードにこのように重み付けをしたなら、ブロック1265を実行
し、スコアの降順でレコードをランク付ける。最後に、ブロック1270を実行
して、最も高いスコアを示す典型的に5つまたは10個の小さな既定の文書群に
関して、典型的に、ランク順でレコードを表示する。その後、ユーザは、例えば
、適切に彼(彼女)のマウスを、コンピュータ・システム1070が表示する対
応するボタン上で「クリック」することによって、当該システムに、次のランク
付け文書レコード群を表示させ、ランク付けした文書レコード全てを連続してユ
ーザが十分に試験し(更にその中にある対象のあらゆる文書にアクセスし試験し
)終えるまで、このように続ける。試験し終えた時点で、プロセス1200は実
行を完了し、そこから出る。
【0076】 図13Aは、図11に示した三連体発生プロセス1100内で実行するNLP
ルーチン1300のフローチャートを示す。先に述べたように、NLPルーチン
1300は、入来しインデックス化する文書、具体的には、それに対するテキス
トの単一ラインを分析し、当該文書に対して対応する論理形態三連体集合を構築
し、図10Aおよび図10Bに示したデータセット1030内にローカルに格納
する。ルーチン1300は、図7に示し先に詳細に論じたNLPルーチン700
と本質的に同様に動作する。
【0077】 即ち、ルーチン1300に入ると、ブロック1310を最初に実行し、入力テ
キストのラインを処理して、図5Aに示す例示のグラフ515のような、論理形
態グラフを生成する。その後、図13Aに示すように、ブロック1320を実行
し、グラフから対応する論理形態三連体集合を抽出する(読み出す)。一旦これ
を行なったなら、ブロック1330を実行し、このような論理形態三連体の各々
を、別個で異なるフォーマットのテキスト・ストリングとして発生する。最後に
、ブロック1340を実行し、入力テキストのライン、および一連のフォーマッ
トしたテキスト・ストリングとして、当該ラインに対する論理形態三連体集合を
データセット1030に格納する。一旦この集合を完全に格納したなら、実行は
ブロック1300から出る。あるいは、論理形態三連体の代わりに、異なる表現
、例えば、論理形態に関連する論理形態グラフまたはサブグラフを、我々の発明
と共に用いる。そうする場合、その特定の形態を、フォーマットしたストリング
として発生するように、ブロック1320および1330を変更するのは容易で
あり、ブロック1340は、論理形態三連体の代わりに、その形態をデータセッ
トに格納する。
【0078】 図13Bは、検索プロセス1200内部で実行するNLPルーチン1350の
フローチャートを示す。前述のように、NLPルーチン1350は、ユーザUs
erjが文書検索アプリケーション1085(図10Aおよび図10Bに示す) に供給するクエリを分析し、それに対して対応する論理形態三連体集合を構築し
、メモリ1075内にローカルに格納する。ルーチン1350と図13Aに関連
付けて先に詳細に論じたルーチン1300との間における唯一の動作上の相違は
、対応する三連体を格納する場所にある。即ち、NLPルーチン1300ではブ
ロック1340の実行によってデータセット1030に、そしてNLPルーチン
1350ではブロック1390の実行によってメモリ1075に格納する。ルー
チン1350のその他のブロックが実行する動作、即ち、ブロック1360,1
370および1380は、ルーチン1300におけるブロック1310,132
0および1330とそれぞれ実質的に同一であるので、前者のブロックを詳細に
論ずることはいずれも省略する。
【0079】 図1に関連付けて先に概略的に説明した、我々の発明の検索プロセスの性能を
実験的に検査するために、ALTA VISTAサーチ・エンジンを我々の検索システムに
おけるサーチ・エンジンとして用いた。このエンジンはインターネット上で公に
アクセス可能であり、31,000,000ものウェブ・ページをインデックス
化してあることを誇り、広く用いられている(現在毎日約28,000,000
ヒット程度である)、従来からの統計サーチ・エンジンである。ディレクトリ・
ファイルを含む、種々の自然言語処理コンポーネントを用いて、MICROSOFT OFFI
CE97プログラム・スイート(program suite)の一部を形成する文法チェッカ内 に内蔵してある、標準的なPentium90MHzPC上に、我々の発明の検索プロセ ス600を実装した(”OFFICE”および”OFFICE97”はワシントン州RedmondのM
icrosoft Corporation(マイクロソフト社)の商標である)。オン・ライン・パ
イプライン型処理モデルを用いた。即ち、ユーザが次の結果を待っている間、文
書を集め、パイプライン状にオンラインで処理した。この特定のPCによって、
各文章毎に論理形態三連体を発生するには、約1/3ないし1/2秒を要した。
【0080】 サーチ・エンジンに提示するためにフル・テキスト・クエリを発生するように
、ボランティアに要請した。合計121個の広範囲にわたるクエリを発生した。
以下に挙げるのはその代表である。”Why was the Celtic civilization so eas
ily conquered by the Romans?”(何故ケルト文明はそう簡単にローマ人によっ
て征服されたのか)、”Why do antibiotics work on colds but not on viruse
s?”(何故、抗生物質は風邪には効くのに、ビールスには効かないのか)、”Wh
o is the governor of Washington?”(ワシントン州知事は誰か)、”Where do
es the Nile cross the equator?”(ナイル川はどこで赤道と交差するか)、 および”When did they start vaccinating for small pox?”(種痘の注射を開
始したのはいつか)。これら121個のクエリの各々をALTA VISTAサーチ・エン
ジンに提示し、文書を得ることができた場合に、各クエリに応答して戻ってきた
上位30の文書を獲得した。クエリの一部について30未満の文書が戻ってきた
状況では、戻ってきた文書全てを用いた。121個のクエリ全てについて累積す
ると、3361の文書(即ち、「生の」文書)を得た。
【0081】 3361の文書および121個のクエリの各々を、我々の発明プロセスによっ
て分析し、対応する論理形態三連体集合を生成した。その集合を適切に比較し、
先に論じたように、得られた文書を選択し、スコアを決定し、ランク付けした。
【0082】 3361の文書全てを検索するための対応するクエリとの関連性について、手
作業でかつ別個にこれらの文書をお評価した。関連性を評価するために、我々の
具体的な実験目標を知らない評価要員を利用し、これら3361文書の各々を、
その対応するクエリとの関連性について、「最適」、「関連あり」または「関連
なし」として、手作業でかつ主観的にランク付けした。最適な文書は、対応する
クエリに対して明示的な答えを含むものとした。関連のある文書は、クエリに対
する明示的な答えを含まないが、しかしながらそれに関連するものとした。関連
のない文書は、クエリに対して有用な応答ではないものとした。例えば、英語以
外の言語でクエリには関連のなかった文書、またはALTA VISTAエンジンが提供す
る対応のURL(即ち、「コブウェブ」リンク)から検索できなかった文書があ
った。評価の精度を高めるために、第2の評価要員がこれら3361の文書の部
分集合を検査した。即ち、対応するクエリにおける論理形態三連体と一致する少
なくとも1つの論理形態三連体を有した文書(3361文書の内431)、およ
び以前に関連ありまたは最適としてランク付けしたが、一致する論理形態三連体
を全く有さなかった文書(3361文書の内102)である。文書に対するこれ
らのランキングにおいて不一致があった場合には、全て、「タイ・ブレーカ」と
しての役割を担う第3評価要員が再検討した。
【0083】 この実験の結果、関与した全ての文書にわたって、我々の発明の検索システム
では、ALTA VISTAサーチ・エンジンが戻した生の文書に対して、全体的な(即ち
、選択した文書全ての)正確性において、約16%ないし約47%から約200
%程の改善が得られ、上位5件の文書では、約26%ないし約51%から、約1
00%の改善が得られた。加えて、我々の発明システムの使用により、最適とし
て戻ってきた最初の文書は、生の文書に対するそれに対して、約17%ないし約
35%から約113%の正確性向上を得た。
【0084】 以上統計的サーチ・エンジンとの使用という状況において我々の発明を具体的
に説明したが、我々の発明はこれに限定される訳ではない。その点について、情
報検索用途では、我々の発明を用いると、実質的にあらゆる形式のサーチ・エン
ジンによって得られた検索文書でも処理し、当該エンジンの正確性を改善するこ
とができる。
【0085】 論理形態三連体における異なる属性毎に固定の重みを用いるのではなく、これ
らの重みを動的に変化させることも可能であり、実際には適応型とすることがで
きる。これを達成するために、例えば、ベイジアン(Bayesian)またはニューラ
ル・ネットワークのような学習機構を、我々の発明プロセスに組み込み、異なる
各論理形態三連体に対する数値重みを、学習経験に基づく最適値に変化させるこ
とも可能である。
【0086】 我々の発明プロセスは、1つの例示としての実施形態において先に論じたよう
に、正確に照合するために論理形態三連体を必要としたが、十分に類似する意味
的内容を三連体間で識別する目的のために、一致を判定する基準を緩め、言い換
えを一致として含ませることも可能である。言い換えは、語彙上または構造上の
いずれでもよく、あるいは以下に述べるように、抽象的論理形態の発生を含むこ
とも可能である。語彙上の言い換えの一例は、上位語または同義語のいずれかで
あろう。構造上の言い換えは、名詞相当語(noun appositive)または関係節い ずれかの使用によって例示する。例えば、”the president, Bill Clinton”( 大統領ビル・クリントン)というような名詞相当語の構造は、”Bill Clinton,
who is president”(大統領であるビル・クリントン)のような、一致する関係
節構造として見なして当然であろう。意味上のレベルでは、2つの単語が互いに
どのように意味的に類似しているかについて、微粒な判定(fine_grained judg
ment)を行なうことによって、クエリ”Where is coffee grown?”(どこでコー
ヒーは栽培されているか)と、”Coffee is frequently farmed in tropical mo
untainous regions.”(コーヒーは熱帯山脈地帯で栽培されることが多い)とい
うようなコーパス(corpus)における文章との間の一致を確認することができる
。加えて、一致が存在するか否かについて判定を行なう手順は、質問されるクエ
リの形式に応じて変更することも可能である。例えば、あるクエリが、何かがど
こにあるか尋ねる場合、この手順は、クエリに対して一致すると見なされるため
には、検査対象の文章に関連するいずれの三連体にも「場所」属性が、存在する
ことを主張すべきである。したがって、論理形態三連体の「一致」は、総括的に
、完全な一致だけでなく、緩和した一致条件、判断による一致条件、および変更
した一致条件から得られるものも含むように定義する。
【0087】 更に、我々の発明は、例えば、グラフィックス、表、ビデオまたはその他とい
った非テキスト情報の検索を中心とするその他の処理技法と容易に組み合わせて
も、全体的な正確性を向上させることができる。概して言えば、文書中の非テキ
スト・コンテンツは、当該文書内において、例えば、図の凡例または短い説明と
いうような言語的(テキスト)記述を頻繁に伴う。したがって、我々の発明プロ
セスの使用、即ち、その自然言語コンポーネントを用いて、非テキスト・コンテ
ンツにしばしば付随する言語的記述を分析し処理することができる。最初に我々
の発明の自然言語処理技法を用いて文書を検索し、クエリに意味的に関連する言
語的コンテンツを有する文書集合を突き止め、次いでこの文書集合をその非テキ
スト・コンテンツに関して処理し、関連するテキストおよび非テキスト・コンテ
ンツを有する文書(複数の文書)を突き止めることができる。あるいは、最初に
非テキスト・コンテンツに関して文書検索を行ない、文書集合を検索し、次いで
我々の発明技法によってその文書集合をその言語的コンテンツに関して処理し、
関連する文書(複数の文書)を突き止めることも可能である。
【0088】 図14は、本発明の一態様による情報検索システム1480の簡略化した機能
図である。システム1480は、検索エンジン1482、サーチ・エンジン14
84、および統計的データ記憶装置1486を含む。システム1480全体、ま
たはシステム1480の一部は、図3に示した環境に実装可能であることを注記
しておく。例えば、検索エンジン1482およびサーチ・エンジン1484は、
単純に、メモリ322に格納するコンピュータ読み取り可能命令として実装し、
CPU321によって実行し、所望の機能を実行することができる。あるいは、
検索エンジン1482およびサーチ・エンジン1484は、図3に関して説明し
たような、あらゆる種類のコンピュータ読み取り可能媒体上に設けることも可能
である。加えて、検索エンジン1482およびサーチ・エンジン1484は、分
散型処理環境に設け、別個のプロセッサにおいて実行することも可能である。更
に、統計的データ記憶装置1486は、図3に関して論じたメモリ・コンポーネ
ントに格納することも可能であり、ワイド・エリア・ネットワーク352内に位
置するメモリ上に格納することも可能であり、また、例えば、ローカル・エリア
・ネットワーク351を通じてアクセス可能なメモリ350に格納することも可
能である。別の例示としての実施形態では、記憶装置1486をメモリ322の
一部に配置し、コンピュータ320内のオペレーティング・システムによってア
クセスすることができる。
【0089】 いずれの場合でも、キーボード340、マウス342等のようないずれかの適
切な入力機構を通じて、テキスト入力(即ち、クエリ)を検索エンジン1482
に供給する。検索エンジン1482は、クエリに基づいて多数の機能を実行する
。好適な一実施形態では、検索エンジン1482は、テキスト入力に基づいて、
ブール・クエリ(Boolean query)を定式化し、このブール・クエリをサーチ・ エンジン1484に供給する。
【0090】 サーチ・エンジン1484は、例示としての一実施形態では、MA、MaynardのDi
gital Equipment Corporation(ディジタル・エクイップメント社)が商用名称 (commercial designation)Alta Vistaとして提供するサーチ・エンジンである
。Alta Vistaサーチ・エンジンは、従来からのインターネット検索エンジンであ
る。このような実施形態では、検索エンジン1482は、適切なインターネット
接続によって、サーチ・エンジン1484に接続する。勿論、他のサーチ・エン
ジンも同様に使用可能である。
【0091】 例示としての実施形態では、サーチ・エンジン1484は、統計的データ規則
部1484にアクセス可能な統計的サーチ・エンジンである。このようなサーチ
・エンジンは、典型的に、データ記憶装置1486を探索するために用いる探索
方法論に統計処理を組み込んでいる。
【0092】 データ記憶装置1486は、典型的に、サーチ・エンジン1484によってイ
ンデックス化した文書レコードのデータ集合を含むことが多い。このような各レ
コードは、例えば、対応する文書にウェブ・ブラウザによってアクセス可能なウ
ェブ・アドレス、恐らく文書の短い概要であり当該文書に現れる既定の含有単語
、およびハイパーテキスト・マークアップ言語(HTML)記述フィールド内に
与える場合の当該文書の記述を含む。加えて、統計的データ記憶装置1486は
、内部にインデックス化してある文書に対して計算した論理形態を示すデータも
含むことができる。例示としての一実施形態では、インデックスの見出しに関連
付けた論理形態は、インデックス化した文書に元来用いられている言語に対応す
る。別の例示としての実施形態では、以下で更に詳しく説明するが、論理形態は
、言い換えの論理形態を含み、高頻度の論理形態を抑制するように変更する。
【0093】 統計的サーチ・エンジン1484は、典型的に、統計的データ記憶装置148
6から検索した各文書レコード毎に、数値尺度を算出する。この数値尺度は、サ
ーチ・エンジン1484に与えたクエリに基づく。このような数値尺度は、例え
ば、用語頻度*逆文書頻度(inverse document frequency)(tf*idf)を含む場
合がある。
【0094】 いずれの場合でも、サーチ・エンジン1484は、検索エンジン1482に、
特定した文書レコードまたは文書自体のいずれかを、各文書レコードについて算
出した統計的尺度の順にランク付けして戻す。例示としての一実施形態では、検
索エンジン1482は、返ってきた文書またはレコードに追加の自然言語処理を
施し、文書またはレコードのランキングに絞りをかける。次に、文書またはレコ
ードを、絞りをかけたランキングにしたがって、出力文書集合としてユーザに提
示する。
【0095】 図15は、サーチ・エンジン1484の更に詳細な機能ブロック図であり、統
計的データ記憶装置1486をどのようにして本発明の例示としての一実施形態
にしたがって作成するのかについて示す。図15は、いずれかの適した記憶装置
上に格納してある文書1588を示す。このような記憶装置は、分散型計算機環
境におけるコンピュータ、コンピュータ320内のオペレーティング・システム
がアクセスするストレージ、ワイド・エリア・ネットワーク(インターネットの
ような)を通じてアクセス可能なコンピュータ、ライブラリ・データベース、ま
たは文書を格納してあるその他のいずれかの適した場所とすることができる。文
書1588は、典型的に、ここでは文書インデックサ1590と呼ぶウェブ・ク
ローラ・コンポーネントを通じて、サーチ・エンジン1484によってアクセス
可能である。文書インデックサ1590は、文書1588にアクセスし、公知の
方法でこれらをインデックス化し、アクセスした文書の各々に関連するレコード
を発生する。
【0096】 また、サーチ・エンジン1484は、論理形態発生部1592、および論理形
態変更部1594も含む。論理形態発生部1592も文書にアクセスし、アクセ
スした文書の各々に対応する論理形態を作成する。
【0097】 論理形態発生部1592は、入力テキストに基づいて、論理形態を発生する。
端的に言うと、意味分析によって、テキスト入力の意味を記述する論理形態グラ
フを発生する。論理形態グラフは、ノードおよびリンクを含み、リンクには、ノ
ード対間の関係を示すラベルを付ける。論理形態グラフは、例えば、構文解析ツ
リーよりも一層抽象的なレベルの分析を表わす。何故なら、この分析は多くの構
文的または形態学的ばらつきを正規化するからである。
【0098】 論理形態変更部1594は、論理形態発生部1592が発生した論理形態を受
け取り、この論理形態を変更する。変更部1594は、例示として、元の論理形
態に基づいて、言い換えた論理形態集合(paraphrased logical form)を作成し
、種々の文書間の区別に役立たない、所定のクラスの論理形態(高頻度論理形態
のような)を抑制する。
【0099】 文書インデックサ1590が作成したレコードは、変更論理形態集合と共に、
例示として、統計的データ記憶装置1486に供給し、検索エンジン1482を
通じて供給されるクエリに応答してのサーチ・エンジン1484による後のアク
セスのために格納しておく。論理形態変更部1494については、以下で更に詳
しく説明する。
【0100】 図16は、検索エンジン1482の更に詳細なブロック図である。例示として
の実施形態では、検索エンジン1482は、入力論理形態発生部1696、論理
形態変更部1698、ブール・クエリ発生部1600、およびフィルタ1602
を含む。一方、フィルタ1602は、論理形態比較部1604および文書ランク
発生部1606を含む。
【0101】 ユーザが入力したクエリは、ブール・クエリ発生部1600に供給する。ブー
ル・クエリ発生部1600は、従来の情報検索システムにおけると同様に、ユー
ザ入力クエリに基づいてブール・クエリを発生する。ブール・クエリをサーチ・
エンジン1484に供給し、サーチ・エンジン1484は統計的データ記憶装置
1486に対してクエリを実行する。これに応答して、統計的データ記憶装置1
486は、文書レコード(変更した論理形態集合を含む)をサーチ・エンジン1
484に戻し、次いでサーチ・エンジン1484はこれらを検索エンジン148
2内のフィルタ1602に供給する。
【0102】 また、クエリは入力論理形態発生部1596にも供給する。発生部1596は
クエリ内にある元の単語に基づいて、1つ以上の論理形態、およびそれらの互い
に対する関係を発生する。論理形態の発生は、図15の論理形態発生部1592
に関して説明したのと同様に行なう。
【0103】 元の論理形態は、論理形態変更部1698に供給し、これらの論理形態を変更
して、例示として、言い換え論理形態集合を含ませ、高頻度論理形態を抑制する
。更に、この変更論理形態集合をフィルタ1602内の論理形態比較部1604
に供給する。
【0104】 論理形態比較部1604は、クエリに基づいた変更論理形態集合を、データ記
憶装置1486から検索した文書に基づいた変更論理形態集合と比較する。クエ
リに基づいた変更論理形態集合のいずれかが、文書に基づいたものと一致した場
合、論理形態比較部1604は、一致した論理形態を含む特定の文書に重みを割
り当てる。この重みは、各文書に関連する一致の数および種類に基づいている。
全く一致を含まない文書は、いずれも破棄してユーザには提示しないか、または
当該文書はクエリに関連する可能性は低いと思われるという指示と共にユーザに
提示することができる。
【0105】 一致を含む文書のレコードは、論理形態比較部1604が割り当てた重みと共
に、文書ランク発生部1606に供給する。文書ランク発生部1606は、論理
形態比較部1604が割り当てた重みに基づいて、文書にランク付けを行ない、
ランク付け出力を、出力文書集合としてユーザに提示する。
【0106】 図17は、図16に示したシステムの動作を、更に詳しく示すフロー図である
。最初に、統計的データ記憶装置1486に対して入力クエリを実行し、文書レ
コードおよびこれらの文書レコードに関連する変更論理形態をフィルタ1602
に供給する。これをブロック1708および1710で示す。発生部1696は
、次に、クエリの元のコンテンツに基づいて論理形態を発生する。これをブロッ
ク1712で示す。次に、クエリに基づいた論理形態を、論理形態変更部169
8によって変更する。これをブロック1714で示す。
【0107】 フィルタ1602は、次に、クエリに応答して、サーチ・エンジン1484が
供給した文書レコードの内第1のものを選択する。これをブロック1716で示
す。論理形態比較部1604は、変更クエリ論理形態のいずれかが、変更文書論
理形態に対応するか否かについて判定を行なう。対応しない場合、この文書には
ゼロ・スコアを割り当て、フィルタ1602は、比較する必要のある追加の文書
が他にあるか否かについて判定を行なう。これをブロック1718,1720お
よび1722で示す。
【0108】 しかしながら、変更クエリ論理形態のいずれかが、変更文書論理形態のいずれ
かと一致した場合、論理形態比較部1604が分析対象の文書に重みを割り当て
る。これをブロック1724で示す。再び、フィルタ1602は、ブロック17
22で示すように、比較する必要のある追加の文書が他にあるか否かについて判
定を行なう。
【0109】 比較する必要のある文書がそれ以上ない場合、文書ランク発生部1606は、
論理形態発生部1604が割り当てた重みにしたがって、文書をランク付けする
。次いで、ランクした出力をユーザに提示する。これをブロック1726および
1728で示す。
【0110】 図18は、図15に示した論理形態変更部1594および図16に示した論理
形態変更部1698の動作を示すフロー図である。本発明は、クエリ側またはデ
ータ側のいずれか、または双方において、以下で更に詳しく論ずるような、変更
論理形態の使用も想定していることは理解されよう。この論述の目的上、クエリ
側およびデータ側双方に論理形態変更部を示す。
【0111】 いずれの場合でも、論理形態変更部は、最初に、クエリまたは分析対象文書の
いずれかに基づいて発生した、元の論理形態を受け取る。これをブロック183
0で示す。次に、論理形態変更部は、元の論理形態の言い換えを発生する。この
言い換えは、多数の方法のいずれでも形成することができる。そのいくつかにつ
いて以下で説明する。言い換え論理形態の発生をブロック1832で示す。
【0112】 次に、論理形態変更部は、所定のクラスの論理形態(多種多様の論理形態とす
ることも可能である)を抑制する。その数については以下で論ずる。この抑制を
ブロック1834で示す。言い換え論理形態は、抑制を受けた後、フィルタ10
2に供給され、抑制後に残っている論理形態に基づいて文書を濾過する。これを
ブロック1836で示す。 (変更論理形態の発生) 図19は、言い換え論理形態の発生、および論理形態の抑制をより良く示すフ
ロー図である。 (意味上または語彙上の言い換え) 論理形態変更部の1つが、元の論理形態を受け取る。次に、論理形態変更部は
、最初に、元の論理形態内にある単語の意味的拡大を実行することによって、語
彙上の言い換え論理形態を形成する。これをブロック1938で示す。次に、意
味的に拡大した単語に基づいて、そして元の論理形態における元の構造的接続を
用いて、語彙上の言い換え論理形態を発生する。これをブロック1940で示す
【0113】 例示としての一実施形態では、意味的拡大を実行するには、元の論理形態にお
ける各含有単語を試験し、同義語、上位語、下位語、または元の含有単語に意味
的な関係を有するその他の単語を含むように、その単語を拡大する。例えば、論
理形態変更部94および98には、一実施形態では、シソーラスのような参照コ
ルプス、辞書、あるいはWordNetまたはMindNet語彙のような計算
による語彙(computational lexicon)へのアクセスを与え、単語間の同義語、 上位語、下位語、またはその他の意味的関係を識別し、クエリと文書との間に可
能な語彙上の言い換え関係を特定することができる。
【0114】 したがって、例えば、入力クエリが、 How do spiders eat their victims? (蜘蛛はその獲物をどのようにして食べるのか) である場合、このクエリに基づいて発生される元の論理形態は、次の通りである
。 eat;Dsub;spider eat;Dobj;victim 単語”eat”(食べる)の語彙上または意味上の拡大によって、”consume”(
消費する)が得られる。また、単語”spider”(蜘蛛)の語彙上または意味上の
拡大によって、”arachnid”(蛛形)および”wolf spider”(ウルフ・スパイ ダ)が得られる。一方、これらの拡大は、以下のように、eat;Dsub;spiderに対 する追加の言い換え論理形態に至る。 consume;Dsub;spider eat;Dsub;arachnid consume;Dsub;arachnid eat;Dsub;wolf_spider consume;Dsub;wolf_spider 同様に、”victim”の語彙上または意味上の拡大によって、”prey”(祈り)
が得られる。したがって、論理形態eat;Dobj;victimに基づく言い換え論理形態 は、次のようになる。 consume;Dobj;victim eat;Dobj;prey この技法は、クエリに基づいて戻される、関連文書を保持する傾向がある。し
たがって、この技法は、正確性を低下させることなく、この文書集合内における
回収率を高める。 (構造上の言い換え) 元の論理形態を語彙に関して拡大した後、これらを構造的に拡大し、追加の言
い換え論理形態を得る。サーチ・エンジンが戻した関連文書は、先に言及して本
願にも含まれるものとした引例に記載されている一層厳格な技法を用いると、ク
エリ内にある含有単語が文書中の単一の文章の中にあっても、破棄される場合が
ある。これが発生するのは、典型的に、クエリと文書の文章との間に構文上また
は意味上の言い換え関係が存在するが、クエリに基づいた論理形態および文書に
基づいた論理形態は正確には一致しない場合である。
【0115】 これらの基準を満たす文書を正しく保持するために、論理形態変更部に構造的
言い換え規則を実装し、元の論理形態に基づく追加の論理形態を発生する。この
追加の論理形態は、通常の構文上/意味上の言い換え関係を取り込み、ユーザが
クエリをどのように表現したかと、関連文書は同様の概念をどのように表現する
かとの間の相違を正規化することを意図するものである。これを行なうために、
論理形態変更部は、元の入力テキストに基づいて発生した基本論理形態を増強す
る。
【0116】 例えば、元のクエリが、 How many moons does Jupiter have? (木星には月がいくつあるか) とすると、このクエリに基づく元の論理形態三連体は、 have;Dsub;Jupiter have;Dobj;moon moon;Ops;many となる。
【0117】 ここで、Opsは機能語関係である。 本発明の一態様による構造的言い換え規則を実装することによって、論理形態
変更部は、次のような追加の論理形態を発生する。 moon;PossBy;Jupiter 含有単語は、元の論理形態と同一であるが、構造的接続が異なるものの関係の
ある構造的接続であることがわかる。これによって、同じ論理形態を含むインデ
ックス化文書に対する照合が可能となる。
【0118】 構造的言い換え規則の他の例では、一層の複雑化が可能である。例えば、入力
クエリが、Find me information on the crystallization of viruses.(ビール
スの結晶化に関する情報を私に見つけて下さい)とする。これは、以下のような
、計算論理形態三連体を生成する。 crystallization;of;virus どのように”viruses crystallize”(ビールスが結晶化する)かを記述する 文章を含む関連文献とクエリを照合するには、考慮すべきいくつかの情報片が必
要となる可能性がある。このような情報は以下のものを含む。
【0119】 1.Dsub/verbとある種の英語の名詞化との間に、規則的な言い換え関係が存 在する。 2.名詞”crystallization”は、既定の辞書において、動詞基体”crystalli
ze”を有するとして、特定されている。
【0120】 3.”virus”は、辞書では有生として類別されている。 合わせて、これらの情報片により、追加の構造的言い換え論理形態を、クエリ
に対して仮説として取り上げ、照合のために生成することが可能となる。 crystallize;Dsub;virus ”virus”の有生性(animacy)は、この言い換えを主語または目的語関係のど
ちらとして表現すべきか予測するために用いる。相互言語学的には(cross_lin
guistically)、有生物は、無生物よりも、動詞の主語(動作主)となる可能性 が高い。したがって、クエリが”crystallization of sugar”について尋ねた場
合、追加の言い換え論理形態 crystallize;Dobj;sugar を生成するであろう。
【0121】 種々の論理形態言い換え規則を実施して、多数の構文的言い換え関係を正規化
した。その中には、次の事項を含む。 1.所有構文、 2.名詞化/動詞 目的語 および主語、名詞 複合体/動詞 目的語(”pr
ogram computers”および”computer program”等)。
【0122】 3.名詞修飾語(”King of Spain”および”Spanish King”等)。 4.相互関係構文(”John kissed Mary”および”Mary kissed John”等)。 5.属詞/叙述形容詞(”That woman is tall”および”That tall woman” 等)。
【0123】 6.軽い動詞構文/動詞(”The president made a decision”および”The P
resident decided”等)。 補足資料Appendix Aは、前述の規則の実施形態の例を示すコードを含む。各場
合において、これらの規則は、照合プロセスをなおも厳格に制限しつつ、一層関
連の深い文書の保持を可能にする。元の構造関係の構造的拡大または構造的言い
換えの実行を、図19のブロック1942で示す。先に論じた言い換え規則、お
よびその他のこのような規則は、経験的に、または他のいずれかの適切な手段に
よって得ることができる。
【0124】 構造的言い換えは、情報検索システムのインデックス化側、およびクエリ側の
双方に実施可能であるが、インデックス化側に実装する場合、インデックスのサ
イズが大型化する可能性があり望ましくない。したがって、例示としての一実施
形態では、構造的言い換えは、情報検索システムのクエリ側にのみ実施する。
【0125】 また、構造的言い換えは、ブロック138および140で示す意味上の言い換
えの前または後のいずれでも実行可能であることも注記しておく。加えて、構造
的言い換えは、意味の拡大中に発生した追加の論理形態に基づいて行なうことが
できる。これをブロック1944および1946で示す。 (メタ構造言い換え) 論理形態変更部によって発生することができる追加の言い換え論理形態集合は
、抽象的論理形態の発生を含む。例えば、ユーザに自然言語クエリをサーチ・エ
ンジンに入力するように促す場合でも、多くのユーザは未だ多数の含有単語を用
いて関心のある構文/意味的関係で明確に形成したクエリを与えられない。むし
ろ、多くのクエリは、ここでは「キーワード・クエリ」と呼ぶカテゴリになって
しまう。このようなキーワード・クエリは、”dog”(犬)、”gardening”(園
芸)”The Renaissance”(ルネッサンス)、”Buffalo Bill”(バッファロー ・ビル)のような、真のキーワード・クエリを含む。また、キーワード・クエリ
は、紋切り型の「フレーム」文章におけるキーワードの形態となる可能性もあり
、”Tell me about dogs”(犬について教えて下さい)、”I want information
on gardening”(園芸に関する情報が欲しい)、および”What do you have on
dinosaurs?”(ディノザウルスについてどう思うか)のように、有用な言語学 的な文脈を与えないものである。このようなクエリはよくあるので、本発明は、
これらのクエリに対処する照合技法を含む。
【0126】 最初に、図19のブロック1948で示すように、クエリをその構造に基づい
てキーワード・クエリとして識別する。クエリが1つの含有単語のみから成る場
合(または、多単語表現としても知られている、複合含有単語として扱う含有単
語のシーケンス)、または明示的に識別した共通クエリ構造内において発生する
1つ以上の含有単語を含むので、クエリをキーワード・クエリとして識別する。
多単語表現の一例は、”Buffalo Bill”(バッファロー・ビル)である。これは
、内部構造を有する単一単語として扱う。
【0127】 以下の規則は、”Who was Buffalo Bill”(バッファロー・ビルは誰だったの
か)という形態のキーワード・クエリを識別するために用いる構造を記述する一
例を与える。 動詞が”be”であり、 Dnom(深い主格)が”who”であり、または Dsubが構文的に変更されていない場合、直前の決定詞または前置詞句を除いて
、 照合の目的のためにDsubをキーワードとして扱う。 一旦クエリをキーワード・クエリとして特定したなら、照合の目的のために、
種々の抽象的論理形態を発生する。クエリが”Who was Buffalo Bill?”である 前述の例では、以下の抽象的論理形態を発生する。 heading_OR_title;Dsub;Buffalo_Bill Dsub_of_be;Dsub;Buffalo_Bill Dsub_of_verb;Dsub;Buffalo_Bill これらの抽象的論理形態は、クエリに基づいて発生した元の論理形態に含まれ
るいずれとも直接的には対応しない。しかしながら、これらは、潜在的に、文書
をインデックス化し統計的データ記憶装置1486に格納するときに文書レコー
ド内に作成した、対応する論理形態に対して一致する。例えば、”Buffalo Bill
”という題の文書を処理する際、図15に示す論理形態変更部1594は、以下
の抽象的論理形態を発生し、構造的データ記憶装置1596内のインデックスに
これを追加する。 heading_or_title;Dsub;Buffalo_Bill また、文書のインデックス化中に、動詞”be”およびDsubを含むいずれの
論理形態も、以下のような特殊な論理形態を生成する。 Dsub_of_be;Dsub;WORD (例えば、Dsub_of_be;Dsub;Buffalo_Bill) 加えて、論理形態がDsubおよび”be”以外の動詞を含む場合、以下のよう
に追加の抽象的論理形態を作成する。 Dsub_of_verb;Dsub;WORD (例えば、Dsub_of_verb;Dsub:Buffalo_Bill) このように、インデックス化時点およびクエリの時点でキーワード・クエリに
対して作成した抽象的論理形態は、情報検索システムが、データ側の言語学的構
造を利用して、キーワード・クエリ内に含まれるキーワードに主に関係する可能
性が高い文書を識別することを可能にする(例えば、データ側の抽象的論理形態
は、キーワード・クエリと一致させることができる文書のメタ構造を表わす)。
【0128】 加えて、文書がキーワードを含む題を有していなくても、文書内の文章を分析
し、その文書のメタ構造を判定することができる。例えば、文章の主語は、特に
、主動詞が”be”である文章の主語は、当該文章の主題即ち題目(topic)
である場合が多い。キーワード・クエリを、当該キーワードに関する文章を含む
文書と優先的に照合することによって、キーワード・クエリに対してでさえも、
正確性を向上させることができる。例えば、クエリが”Buffalo Bill”(バッフ
ァロー・ビル)であり、第1の文書が、 Buffalo Bill was a showman, usually acting as the part of himself in o
ne of Buntline’s melodrams. (バッファロー・ビルは、バントラインのメロドラマの1つにおいて常に彼自
身の役を演じたショーマンであった) という文章を含み、 第2の文書が、 One of the most active performers in American cinema,Keitel Demonstrat
ed his versatile talents in the 1970’s in drama, Alice Doesn’t Live He
re Anymore (1974); an artfull western Buffalo Bill and the Indians, or S
itting Bulls history lesson (1976);and a black comedy, Mother, Jugs, and
Speed(1976). アメリカ映画において最も活動的な俳優の一人、ケイテルは1970年代のド
ラマ、アリスはもうここには住んでいない(1974)、芸術的なウェスタン、
バッファロー・ビルとインディアン、またはシッティング・ブルス歴史の授業(
1976)、およびブラック・コメディ、母、刑務所、および覚せい剤(197
6)において、彼の多彩な才能を発揮した。 という文章を含む場合、 その文書に対してインデックス化の時点で発生する抽象的論理形態、およびク
エリの時点でキーワード・クエリに対して発生する抽象的論理形態は、キーワー
ド・クエリを、第2の文書ではなく、第1の文書に対して優先的に照合させる。
これは、第1の文書が文章の主語としてキーワード・クエリを含むのに対して、
第2の文書はそうでないからである。
【0129】 抽象的論理形態の追加の例には、定義付け文章に基づいて作成するものがある
。定義付け文章の一例には、以下のようなものがある。 Lava, molten rock which flows from volcanoes (溶岩、活火山から流出する溶けた岩) この種の定義付け文章は、言語学的構造およびフォーマット構造を含むキュー
(cue)を試験することによって特定することができる。最も頻繁なのは、こ
のような文章を、単一の名詞または多単語表現を含む名詞句、それに続くカンマ
、それに続く同格の名詞句として解析することである。これは、 article_title_or_heading;Dsub;lava という形態の抽象的論理形態を発生する。
【0130】 これは、文書のメタ構造(または全体的な内容)を示し、このような文章を要
求するキーワード・クエリと照合するために用いることができる。 文書のメタ構造を示す抽象的論理形態を得ること、およびキーワード・クエリ
に対する抽象的論理形態を得ることは、図19のブロック1950および195
2で示す。 (ある論理形態の抑制) 本発明の別の態様による論理形態変更部1594および1698は、あるクラ
スの論理形態の抑制も行なう。例えば、ある論理形態は、関連文書の良好な判別
子(discriminator)とはならず、偽りの肯定的な一致を生成する。典型的に、 このような論理形態は、”be;Locn;there”のような高頻度論理形態に対応する 。このクラスの論理形態は、ブール検索システムにおいて見られる”stopw
ord”の構文的/意味的類同語として考えることができる。このクラスの論理
形態の追加の例には、以下のようなものがある。 ある動詞/不変化詞:come(来る);Ptcl;to(へ)(I came to a decision,J
ohn came to a stop.)(私は決定に至った、ジョンは停留所に来た) 高頻度動詞:be;Dsub:John(John is tired, John is the largest elephant
in the world)(ジョンは疲れている。ジョンは世界で最も大きな象である) 代名詞:eat(食べる);Dsub;he(彼) (he ate at home)(彼は家で食べた) 共通の論理形態:tell(言う);Dobj;me(tell me about dogs)(犬について 私に教えて下さい) これらおよびその他のこのような論理形態は、経験的に、またはその他の適切
な手段によって、識別し構築することができるが、典型的に、正しくない一致を
招く論理形態に対応する。本発明の一態様によれば、このクラスの論理形態は、
クエリまたは文書レコードのいずれか、または双方において識別し、抑制する。
これは、図19のブロック1954および1956で示す。
【0131】 加えて、このような論理形態の一部は、クエリに基づく論理形態の生成中に抑
制することができる。例えば、”give(与える);Dobj;information(情報)” という形式の論理形態は、文書のインデックス化中には抑制しなければ、”what databases give information on cancer?”(どのデータベースが癌に関する情
報を与えるか)というようなクエリに対する照合において有用な場合もある。そ
の場合、ユーザは、ある特定のデータベースのアイデンティティを要求し、その
クエリは非常に特定的となる。一方、”give(与える);Dobj;information(情 報)”という形式の論理形態は、”give me information on X”という形式のク
エリの処理中に抑制する。このクエリをキーワード・クエリとして識別し、識別
した論理形態を抑制する。
【0132】 語彙上および意味上の言い換え、構造的言い換え、抽象的論理形態の発生、お
よび論理形態の抑制に基づいて、論理形態および変更論理形態の全てを得た後、
変更論理形態集合をフィルタ1602に供給し、更に処理を行なう。これを図1
9のブロック1958で示す。先に論じたように、フィルタ1602は、クエリ
に基づいた変更論理形態と文書に基づいたそれらとの間で一致を探す。 (結論) このように、本発明は2つ以上のテキスト入力間の類似性を判定するシステム
を提供することがわかる。更に、本発明の一態様は、サーチ・エンジンが戻す文
書集合において、以前の技法よりも関連が深い文書を識別することにより、情報
検索用途において正確性を格段に向上させるのに適している。また、本発明は、
濾過処理の間に破棄する関連文書数を減少させることによって、回収率を高める
【0133】 本発明の一態様は、例示として、2つのテキスト入力に基づいて、論理形態を
作成しかつ比較し、元の単語を語彙的または意味的に拡大することによって、元
の構造接続を構造的に拡大することによって、および/またはテキスト入力のい
ずれかまたは双方(例えば、文書またはクエリ、あるいは双方)のメタ構造を示
す抽象的論理形態を作成することによって、言い換え論理形態を作成する。また
、本発明は、例示として、ある論理形態を抑制する。勿論、言い換えおよび抑制
は、論理形態集合双方に対して同一である必要はなく、それぞれに異なることも
可能である。
【0134】 また、現在ハッシング技法を採用して統計的データ記憶装置86内に含まれる
インデックスをより小さなサイズに切り刻んでいることも注記しておく。勿論、
適切なハッシング技法であれば、いずれでも使用可能である。本発明は、インデ
ックスのハッシュ表現とでも、またはインデックスの完全な表現とでも同等に利
用することができる。
【0135】 以上好適な実施形態を参照しながら本発明について説明したが、本発明の精神
および範囲から逸脱することなく、形態および詳細において変更が可能であるこ
とを、当業者は認めよう。
【0136】
【表5】
【0137】
【0138】
【0139】
【0140】
【図面の簡単な説明】
【図1】 我々の本発明による情報検索システム5の最上位ブロック図を示す。
【図2】 我々の本発明の教示を利用した、図1に示す形式の情報検索システム200の
上位実施形態を示す。
【図3】 図2に示すシステム200内部に収容したコンピュータ・システム300、具
体的にはクライアント・パーソナル・コンピュータのブロック図を示す。
【図4】 図3に示すコンピュータ300内部で実行するアプリケーション・プログラム
400の最上位ブロック図を示す。
【図5A】 英語文章の変化する複雑性および対応するその論理形態要素の異なる対応する
例を示す。
【図5B】 英語文章の変化する複雑性および対応するその論理形態要素の異なる対応する
例を示す。
【図5C】 英語文章の変化する複雑性および対応するその論理形態要素の異なる対応する
例を示す。
【図5D】 英語文章の変化する複雑性および対応するその論理形態要素の異なる対応する
例を示す。
【図6】 図6Aおよび図6Bの図面用紙の正しい位置合わせを示す。
【図6A】 我々の発明の検索プロセス600のフローチャートを示す。
【図6B】 我々の発明の検索プロセス600のフローチャートを示す。
【図7】 プロセス600内で実行するNLPルーチン700のフローチャートを示す。
【図8A】 例示としての照合論理形態三連体重み付けテーブル800を示す。
【図8B】 図6Aおよび図6Bに全て示すブロック650,660,665および670
において行われる、例示としてのクエリおよび例示としての3つの統計的に検索
した文書集合についての、我々の発明の教示による論理形態三連体の比較、なら
びに文書スコア決定、ランク付けおよび選択プロセスを図表で示す。
【図9A】 我々の本発明の教示を組み込んだ、情報検索システムの3つの異なる実施形態
を示す。
【図9B】 我々の本発明の教示を組み込んだ、情報検索システムの3つの異なる実施形態
を示す。
【図9C】 我々の本発明の教示を組み込んだ、情報検索システムの3つの異なる実施形態
を示す。
【図9D】 我々の本発明の別の異なる実施形態を実施する際に用いる、図9Cに示すリモ
ート・コンピュータ(サーバ)930の代替実施形態を示す。
【図10】 図10Aおよび図10Bの図面用紙の正確な位置合わせを示す。
【図10A】 各文書毎の論理形態三連体を予め計算し、その文書レコードと共に格納し、後
の文書検索処理の間にアクセスする、我々の本発明の更に別の実施形態を示す。
【図10B】 各文書毎の論理形態三連体を予め計算し、その文書レコードと共に格納し、後
の文書検索処理の間にアクセスする、我々の本発明の更に別の実施形態を示す。
【図11】 図10Aおよび図10Bに示す文書インデックス化エンジン1015が実行す
る三連体発生プロセス1100を示す。
【図12】 図12Aおよび図12Bの図面用紙の正確な位置合わせを示す。
【図12A】 図10Aおよび図10Bに示す、コンピュータ・システム300内で実行す
る我々の発明の検索プロセス1200のフローチャートを示す。
【図12B】 図10Aおよび図10Bに示す、コンピュータ・システム300内で実行す
る我々の発明の検索プロセス1200のフローチャートを示す。
【図13A】 三連体発生プロセス1100内部で実行するNLPルーチン1300のフロー
チャートを示す。
【図13B】 検索プロセス1200内部で実行するNLPルーチン1350のフローチャー
トを示す。
【図14】 本発明の一実施形態を示す機能ブロック図である。
【図15】 本発明の一態様による文書のインデックス化を示す機能ブロック図である。
【図16】 本発明の一態様による検索エンジンを一層詳細化したブロック図である。
【図17】 図16に示すシステムの処理を示すフロー図である。
【図18】 本発明の一態様による、自然言語プロセッサの論理形態変更を示すフロー図で
ある。
【図19】 本発明の一態様による、自然言語プロセッサの論理形態変更を示す、より詳細
なブロック図である。
【手続補正書】
【提出日】平成12年3月10日(2000.3.10)
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】全図
【補正方法】変更
【補正内容】
【手続補正書】
【提出日】平成12年10月27日(2000.10.27)
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】全図
【補正方法】変更
【補正内容】
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),CN,JP (72)発明者 ドーラン,ウィリアム・ビー アメリカ合衆国ワシントン州98052,レッ ドモンド,ワンハンドレッドフィフティサ ード・コート・ノース・イースト 7412 (72)発明者 ヴァンダーウェンデ,ルーシー・エイチ アメリカ合衆国ワシントン州98008,ベル ビュー,ノース・イースト・サーティー ス・ストリート 16415 (72)発明者 ブラデン−ハーダー,リサ アメリカ合衆国ヴァージニア州20194,レ ストン,クリークベンド・ドライブ 12003 Fターム(参考) 5B075 ND03 NR12 PQ74 PR04 PR06 QM05 QP03 5B091 AA11 AA15 AB17 BA03

Claims (44)

    【特許請求の範囲】
  1. 【請求項1】 第1および第2テキスト入力間の類似性を判定する方法であ
    って、 前記第1テキスト入力に基づいて、第1論理形態集合を得るステップと、 前記第2テキスト入力に基づいて、第2論理形態集合を得るステップと、 前記第1および第2論理形態集合を比較するステップと、 前記比較するステップに基づいて、前記第1および第2テキスト入力間の類似
    性を判定するステップと、 から成ることを特徴とする方法。
  2. 【請求項2】 請求項1記載の方法において、比較するステップが、 前記第1集合におけるいずれかの論理形態が前記第2集合におけるいずれかの
    論理形態と一致するか否かについて判定するステップから成ることを特徴とする
    方法。
  3. 【請求項3】 請求項2記載の方法において、類似性を判定するステップが
    、 前記第1および第2論理形態集合間の一致に基づいて、前記第1および第2テ
    キスト入力間の類似の度合いを反映するスコアを割り当てるステップから成るこ
    とを特徴とする方法。
  4. 【請求項4】 請求項1記載の方法であって、更に、 前記第1論理形態集合に基づいて、第1言い換え論理形態集合を得るステップ
    を含むことを特徴とする方法。
  5. 【請求項5】 請求項4記載の方法において、前記比較するステップが、 前記第1言い換え論理形態集合を前記第2論理形態集合と比較するステップと
    、 前記第1言い換え論理形態集合内のいずれかの言い換え論理形態が、前記第2
    論理形態集合内のいずれかの論理形態と一致するか否かについて判定を行なうス
    テップと、 から成ることを特徴とする方法。
  6. 【請求項6】 請求項5記載の方法であって、更に、 前記第2論理形態集合に基づいて、第2言い換え論理形態集合を得るステップ
    を含むことを特徴とする方法。
  7. 【請求項7】 請求項6記載の方法において、前記比較するステップが、更
    に、 前記第1言い換え論理形態集合を前記第2言い換え論理形態集合と比較するス
    テップと、 前記第1言い換え論理形態集合内のいずれかの言い換え論理形態が、前記第2
    言い換え論理形態集合内のいずれかの言い換え論理形態と一致するか否かについ
    て判定を行なうステップと、 を含むことを特徴とする方法。
  8. 【請求項8】 請求項1記載の方法において、前記第1テキスト入力が、情
    報検索クエリから成り、前記第2テキスト入力が、前記クエリに基づいて検索し
    た少なくとも1つの文書から成ることを特徴とする方法。
  9. 【請求項9】 請求項1記載の方法において、前記第2テキスト入力が、情
    報検索クエリから成り、前記第1テキスト入力が前記クエリに基づいて検索した
    少なくとも1つの文書から成ることを特徴とする方法。
  10. 【請求項10】 請求項5記載の方法において、前記第1論理形態集合を得
    るステップが、 前記第1テキスト入力に基づいて、原型単語と、該原型単語間の原型構造的関
    係を得るステップから成ることを特徴とする方法。
  11. 【請求項11】 請求項10記載の方法において、前記原型構造関係が、前
    記原型単語間の原型構造関係から成り、第1言い換え論理形態集合を得るステッ
    プが、 前記原型単語に意味的に関係があり、前記原型構造関係で接続されている、拡
    大単語を含む、追加の論理形態を得るステップから成る、 ことを特徴とする方法。
  12. 【請求項12】 請求項11記載の方法において、前記原型単語が、前記原
    型構造関係によって接続されている、第1原型単語および第2原型単語を含み、
    追加の論理形態を得るステップが、 前記第1原型単語を語彙に関して拡大し、前記第1原型単語に意味的に関係す
    る第1関係単語を含ませるステップ、 前記第2原型単語を語彙に関して拡大し、前記第2原型単語に意味的に関係す
    る第2関係単語を含ませるステップ、 前記原型構造関係によって前記第1および第2関係単語の異なるものを互いに
    接続し、前記追加の論理形態を得るステップ、 の内少なくとも1つから成ることを特徴とする方法。
  13. 【請求項13】 請求項12記載の方法において、前記第1原型単語を語彙
    に関して拡大するステップ、または前記第2原型単語を語彙に関して拡大するス
    テップが、 前記第1および第2原型単語に対する同義語を得るステップから成ることを特
    徴とする方法。
  14. 【請求項14】 請求項12記載の方法において、前記第1原型単語を語彙
    に関して拡大するステップ、または前記第2原型単語を語彙に関して拡大するス
    テップが、 前記第1および第2原型単語に対する上位語を得るステップから成ることを特
    徴とする方法。
  15. 【請求項15】 請求項12記載の方法において、前記第1原型単語を語彙
    に関して拡大するステップ、または前記第2原型単語を語彙に関して拡大するス
    テップが、 前記第1および第2原型単語に対する下位語を得るステップから成ることを特
    徴とする方法。
  16. 【請求項16】 請求項10記載の方法において、第1言い換え論理形態集
    合を得るステップが、 前記原型構造関係に関係する拡大構造関係を得るステップと、 前記原型単語を前記拡大構造関係と接続し、前記言い換え論理形態を得るステ
    ップと、 から成ることを特徴とする方法。
  17. 【請求項17】 請求項16記載の方法において、第1論理形態集合を得る
    ステップが、更に、 前記原型単語に意味的に関係する拡大単語を得るステップと、 前記拡大単語を前記原型構造関係と接続するステップと、 を含むことを特徴とする方法。
  18. 【請求項18】 請求項17記載の方法において、前記第1言い換え論理形
    態集合を得るステップが、更に、 前記拡大単語を前記拡大論理関係と接続するステップを含むことを特徴とする
    方法。
  19. 【請求項19】 請求項10記載の方法において、前記第1論理形態集合が
    、少なくとも1つの含有単語を含み、第1言い換え論理形態集合を得るステップ
    が、 前記含有単語に基づいて、第1抽象的論理形態集合を得るステップから成るこ
    とを特徴とする方法。
  20. 【請求項20】 請求項19記載の方法において、前記第1テキスト入力が
    、文書検索クエリから成り、第1抽象的論理形態集合を得るステップが、 前記第1抽象的論理形態集合を発生するのに先立ち、前記クエリをキーワード
    ・クエリとして識別するステップを含み、該クエリの構造に基づいて、前記含有
    単語を他の含有単語によって変更させないことを特徴とする方法。
  21. 【請求項21】 請求項10記載の方法において、前記第2テキスト入力が
    文書から成り、更に、 前記第2論理形態集合に基づいて、第2言い換え論理形態集合を得るステップ
    を含むことを特徴とする方法。
  22. 【請求項22】 請求項21記載の方法において、前記第2論理形態集合を
    得るステップが、 前記文書のメタ構造を示す抽象的論理形態集合を得るステップから成ることを
    特徴とする方法。
  23. 【請求項23】 請求項22記載の方法において、前記文書のメタ構造が、
    前記文書の全体的主題を示すことを特徴とする方法。
  24. 【請求項24】 請求項23記載の方法において、前記文書のメタ構造を示
    す前記抽象的論理形態集合を得るステップが、 前記文書に対応するフォーマット情報に基づいて、前記抽象的論理形態集合を
    得るステップから成ることを特徴とする方法。
  25. 【請求項25】 請求項23記載の方法において、前記文書のメタ構造を示
    す前記抽象的論理形態集合を得るステップが、 前記文書内の文章の題目に基づいて、前記抽象的論理形態集合を得るステップ
    から成ることを特徴とする方法。
  26. 【請求項26】 請求項23記載の方法において、前記文書のメタ構造を示
    す前記抽象的論理形態集合を得るステップが、 前記文書内の文章の主語に基づいて、前記抽象的論理形態集合を得るステップ
    から成ることを特徴とする方法。
  27. 【請求項27】 請求項21記載の方法であって、更に、前記含有単語に基
    づいて、前記第1および第2言い換え論理形態集合以外の、他の論理形態を抑制
    するステップを含むことを特徴とする方法。
  28. 【請求項28】 クエリに応答して文書記憶装置から検索した文書集合内の
    文章を濾過する方法であって、 前記クエリおよび前記文書集合内の文書から選択した1つに基づいて、第1論
    理形態集合を得るステップと、 前記クエリおよび前記文書集合内の文書の別の1つに基づいて、第2論理形態
    集合を得るステップと、 少なくとも前記第1論理形態集合の言い換えを示す、第1言い換え論理形態集
    合を得るステップと、 前記第1言い換え論理形態集合と前記第2論理形態集合との間の所定の関係に
    基づいて、前記文書集合内の文書を濾過するステップと、 から成ることを特徴とする方法。
  29. 【請求項29】 請求項28記載の方法において、前記濾過するステップが
    、 前記所定の関係に基づいて、前記文書集合内の前記文書のランク付け順序を示
    す出力を与えるステップを含むことを特徴とする方法。
  30. 【請求項30】 クエリに応答して文書ストレージから検索した文書集合内
    の文章を濾過する方法であって、 前記クエリおよび前記文書集合から選択した1つに基づいて、第1論理形態集
    合を得るステップと、 前記クエリと前記文書集合の他の1つに基づいて、第2論理形態集合を得るス
    テップと、 少なくとも前記第1論理形態集合内にある第1所定クラスの論理形態を抑制し
    、第1抑制論理形態集合を得るステップと、 前記第1抑制論理形態集合と前記第2論理形態集合との間の所定関係に基づい
    て、前記文書集合内の前記文書を濾過するステップと、 から成ることを特徴とする方法。
  31. 【請求項31】 請求項30記載の方法において、抑制するステップが、 所定の構造を有する論理形態を抑制するステップから成ることを特徴とする方
    法。
  32. 【請求項32】 請求項30記載の方法において、抑制するステップが、 スレシホルド頻度レベルを上回る頻度で発生する論理形態を抑制するステップ
    をから成ることを特徴とする方法。
  33. 【請求項33】 請求項30記載の方法であって、更に、 前記第2論理形態集合内にある第2所定クラスの論理形態を抑制するステップ
    を含み、該第2所定クラスが、前記第1所定クラスとは異なることを特徴とする
    方法。
  34. 【請求項34】 請求項30記載の方法において、前記第1論理形態集合を
    得るステップの前に、抑制するステップを実行することを特徴とする方法。
  35. 【請求項35】 請求項30記載の方法において、前記第1論理形態集合を
    得るステップと実質的に同時に、抑制するステップを実行することを特徴とする
    方法。
  36. 【請求項36】 請求項30記載の法において、前記第1論理形態集合を得
    るステップの後に、抑制するステップを実行することを特徴とする方法。
  37. 【請求項37】 コンピュータ読み取り可能媒体であって、その上に格納し
    てあるコンピュータ読み取り可能データを含み、該コンピュータ読み取り可能デ
    ータが、 文書集合内の文書の内容を示すインデックス・データと、 前記文書集合内の前記文書の各々のメタ構造を示す抽象的論理形態集合と、 を含むことを特徴とするコンピュータ読み取り可能媒体。
  38. 【請求項38】 請求項37記載のコンピュータ読み取り可能媒体において
    、各文書の前記メタ構造が、前記文書の全体的な主題を示すことを特徴とするコ
    ンピュータ読み取り可能媒体。
  39. 【請求項39】 請求項38記載のコンピュータ読み取り可能媒体において
    、前記抽象的論理形態集合が、各文書に対応するフォーマット情報に基づくこと
    を特徴とするコンピュータ読み取り可能媒体。
  40. 【請求項40】 請求項38記載のコンピュータ読み取り可能媒体において
    、前記抽象的論理形態集合が、各文書内の文章の題目に基づくことを特徴とする
    コンピュータ読み取り可能媒体。
  41. 【請求項41】 請求項38記載のコンピュータ読み取り可能媒体において
    、前記抽象的論理形態集合が、各文書内の文章の主語に基づくことを特徴とする
    コンピュータ読み取り可能媒体。
  42. 【請求項42】 コンピュータ読み取り可能媒体であって、その上に格納し
    てあるコンピュータ読み取り可能データを含み、該コンピュータ読み取り可能デ
    ータをコンピュータが実行した場合、以下のステップ、即ち、 前記クエリおよび前記文書集合の文書から選択した1つに基づいて、第1論理
    形態集合を得るステップと、 前記クエリと前記文書集合の文書の他の1つに基づいて、第2論理形態集合を
    得るステップと、 自然言語処理を用いて少なくとも前記第1論理形態集合を変更し、第1変更論
    理形態集合を得るステップと、 前記第1変更論理形態集合と前記第2論理形態集合との間の所定の関係に基づ
    いて、前記文書集合内の文書を濾過するステップと、 を実行することによって、クエリに応答して文書記憶装置からの文書集合内にあ
    る文書を前記コンピュータに濾過させることを特徴とするコンピュータ読み取り
    可能媒体。
  43. 【請求項43】 第1および第2テキスト入力間の類似性を判断する方法で
    あって、 前記第1テキスト入力に基づいて第1論理形態集合を得るステップと、 前記第2テキスト入力に基づいて第2論理形態集合を得るステップと、 少なくとも前記第1論理形態集合内の第1所定クラスの論理形態を抑制し、第
    1抑制論理形態集合を得るステップと、 前記第1抑制論理形態集合と前記第2論理形態集合とを比較することによって
    、前記第1および第2テキスト入力間の類似性を判定するステップと、 から成ることを特徴とする方法。
  44. 【請求項44】 請求項6記載の方法において、前記第1言い換え論理形態
    集合を得るステップは、第1言い換え技法を用いて実行し、前記第2言い換え論
    理形態集合を得るステップは、前記第1言い換え技法とは異なる第2言い換え技
    法を用いて実行することを特徴とする方法。
JP2000504528A 1997-07-22 1998-07-17 自然言語処理技法を用いたテキスト入力処理システム Expired - Lifetime JP4892130B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US08/898,652 US5933822A (en) 1997-07-22 1997-07-22 Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US08/898,652 1997-07-22
US09/097,979 1998-06-16
US09/097,979 US6901399B1 (en) 1997-07-22 1998-06-16 System for processing textual inputs using natural language processing techniques
PCT/US1998/014883 WO1999005621A1 (en) 1997-07-22 1998-07-17 System for processing textual inputs using natural language processing techniques

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009252231A Division JP4738523B2 (ja) 1997-07-22 2009-11-02 自然言語処理技法を用いたテキスト入力処理システム

Publications (3)

Publication Number Publication Date
JP2001511565A true JP2001511565A (ja) 2001-08-14
JP2001511565A5 JP2001511565A5 (ja) 2006-02-09
JP4892130B2 JP4892130B2 (ja) 2012-03-07

Family

ID=25409820

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2000504525A Pending JP2001511564A (ja) 1997-07-22 1998-05-13 全体の精度を高めるためにサーチ結果の自然言語処理を用いる情報検索システムのための装置および方法
JP2000504528A Expired - Lifetime JP4892130B2 (ja) 1997-07-22 1998-07-17 自然言語処理技法を用いたテキスト入力処理システム
JP2009252231A Expired - Fee Related JP4738523B2 (ja) 1997-07-22 2009-11-02 自然言語処理技法を用いたテキスト入力処理システム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2000504525A Pending JP2001511564A (ja) 1997-07-22 1998-05-13 全体の精度を高めるためにサーチ結果の自然言語処理を用いる情報検索システムのための装置および方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2009252231A Expired - Fee Related JP4738523B2 (ja) 1997-07-22 2009-11-02 自然言語処理技法を用いたテキスト入力処理システム

Country Status (5)

Country Link
US (2) US5933822A (ja)
EP (1) EP0996899B8 (ja)
JP (3) JP2001511564A (ja)
CN (1) CN1165858C (ja)
WO (1) WO1999005618A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012181685A (ja) * 2011-03-01 2012-09-20 Toshiba Corp 代表文抽出装置およびプログラム
KR101201093B1 (ko) 2004-03-02 2012-11-13 마이크로소프트 코포레이션 그래프-기반 랭킹을 사용하여 텍스트의 단어와 개념을 랭킹하는 방법 및 시스템
JP2017162190A (ja) * 2016-03-09 2017-09-14 富士通株式会社 類似文書検索プログラム、類似文書検索装置、及び類似文書検索方法

Families Citing this family (748)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6067552A (en) * 1995-08-21 2000-05-23 Cnet, Inc. User interface system and method for browsing a hypertext database
US20030212996A1 (en) * 1996-02-08 2003-11-13 Wolzien Thomas R. System for interconnection of audio program data transmitted by radio to remote vehicle or individual with GPS location
US5995921A (en) * 1996-04-23 1999-11-30 International Business Machines Corporation Natural language help interface
US6457004B1 (en) 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
US6249252B1 (en) 1996-09-09 2001-06-19 Tracbeam Llc Wireless location using multiple location estimators
US7714778B2 (en) 1997-08-20 2010-05-11 Tracbeam Llc Wireless location gateway and applications therefor
US7903029B2 (en) 1996-09-09 2011-03-08 Tracbeam Llc Wireless location routing applications and architecture therefor
WO1998010307A1 (en) 1996-09-09 1998-03-12 Dennis Jay Dupray Location of a mobile station
US9134398B2 (en) 1996-09-09 2015-09-15 Tracbeam Llc Wireless location using network centric location estimators
US6236365B1 (en) 1996-09-09 2001-05-22 Tracbeam, Llc Location of a mobile station using a plurality of commercial wireless infrastructures
GB2331166B (en) * 1997-11-06 2002-09-11 Ibm Database search engine
US5836771A (en) 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US6498921B1 (en) 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
JP3270351B2 (ja) 1997-01-31 2002-04-02 株式会社東芝 電子化文書処理装置
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6453334B1 (en) 1997-06-16 2002-09-17 Streamtheory, Inc. Method and apparatus to allow remotely located computer programs and/or data to be accessed on a local computer in a secure, time-limited manner, with persistent caching
US5926808A (en) * 1997-07-25 1999-07-20 Claritech Corporation Displaying portions of text from multiple documents over multiple databases related to a search query in a computer network
US6070134A (en) * 1997-07-31 2000-05-30 Microsoft Corporation Identifying salient semantic relation paths between two words
US6138085A (en) * 1997-07-31 2000-10-24 Microsoft Corporation Inferring semantic relations
DE69809263T2 (de) * 1997-09-04 2003-07-10 British Telecomm Methoden ud system zur wahl von datensets
WO1999017224A1 (en) * 1997-09-29 1999-04-08 Fujun Bi A multi-element confidence matching system and the method therefor
WO1999018556A2 (en) * 1997-10-08 1999-04-15 Koninklijke Philips Electronics N.V. Vocabulary and/or language model training
US6708203B1 (en) * 1997-10-20 2004-03-16 The Delfin Project, Inc. Method and system for filtering messages based on a user profile and an informational processing system event
US6311223B1 (en) * 1997-11-03 2001-10-30 International Business Machines Corporation Effective transmission of documents in hypertext markup language (HTML)
US6711568B1 (en) 1997-11-25 2004-03-23 Krishna Asur Bharat Method for estimating coverage of web search engines
US6145003A (en) * 1997-12-17 2000-11-07 Microsoft Corporation Method of web crawling utilizing address mapping
US6021411A (en) * 1997-12-30 2000-02-01 International Business Machines Corporation Case-based reasoning system and method for scoring cases in a case database
US6260047B1 (en) * 1998-01-02 2001-07-10 Maxagrid International, Inc. Inventory management system
US20020002039A1 (en) 1998-06-12 2002-01-03 Safi Qureshey Network-enabled audio device
IL123129A (en) * 1998-01-30 2010-12-30 Aviv Refuah Www addressing
JP3664874B2 (ja) * 1998-03-28 2005-06-29 松下電器産業株式会社 文書検索装置
US6253208B1 (en) * 1998-03-31 2001-06-26 British Telecommunications Public Limited Company Information access
US6175829B1 (en) * 1998-04-22 2001-01-16 Nec Usa, Inc. Method and apparatus for facilitating query reformulation
US6401118B1 (en) * 1998-06-30 2002-06-04 Online Monitoring Services Method and computer program product for an online monitoring search engine
US6199081B1 (en) * 1998-06-30 2001-03-06 Microsoft Corporation Automatic tagging of documents and exclusion by content
US6253187B1 (en) 1998-08-31 2001-06-26 Maxagrid International, Inc. Integrated inventory management system
JP3309077B2 (ja) * 1998-08-31 2002-07-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 構文情報を用いた検索方法およびシステム
US6243670B1 (en) * 1998-09-02 2001-06-05 Nippon Telegraph And Telephone Corporation Method, apparatus, and computer readable medium for performing semantic analysis and generating a semantic structure having linked frames
US6167370A (en) * 1998-09-09 2000-12-26 Invention Machine Corporation Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
AU5910699A (en) * 1998-09-18 2000-04-10 Tacit Knowledge Systems Method of constructing and displaying an entity profile constructed utilizing input from entities other than the owner
IL126373A (en) * 1998-09-27 2003-06-24 Haim Zvi Melman Apparatus and method for search and retrieval of documents
GB9821969D0 (en) * 1998-10-08 1998-12-02 Canon Kk Apparatus and method for processing natural language
US6370532B1 (en) * 1998-11-09 2002-04-09 Unisys Corporation Cool ICE batch interface
US8135413B2 (en) 1998-11-24 2012-03-13 Tracbeam Llc Platform and applications for wireless location and other complex services
US6920464B2 (en) * 1998-12-03 2005-07-19 Grantley Patent Holdings, Ltd. System for generating an advertising revenue projection
US6523028B1 (en) * 1998-12-03 2003-02-18 Lockhead Martin Corporation Method and system for universal querying of distributed databases
US7062707B1 (en) * 1998-12-08 2006-06-13 Inceptor, Inc. System and method of providing multiple items of index information for a single data object
US7493553B1 (en) 1998-12-29 2009-02-17 Intel Corporation Structured web advertising
US6553347B1 (en) * 1999-01-25 2003-04-22 Active Point Ltd. Automatic virtual negotiations
GB9904662D0 (en) * 1999-03-01 1999-04-21 Canon Kk Natural language search method and apparatus
US8275661B1 (en) 1999-03-31 2012-09-25 Verizon Corporate Services Group Inc. Targeted banner advertisements
WO2000058863A1 (en) 1999-03-31 2000-10-05 Verizon Laboratories Inc. Techniques for performing a data query in a computer system
US8572069B2 (en) 1999-03-31 2013-10-29 Apple Inc. Semi-automatic index term augmentation in document retrieval
WO2000060446A2 (de) * 1999-04-01 2000-10-12 OCé PRINTING SYSTEMS GMBH Vorrichtung und verfahren zum verarbeiten und drucken von informationen
US6591261B1 (en) * 1999-06-21 2003-07-08 Zerx, Llc Network search engine and navigation tool and method of determining search results in accordance with search criteria and/or associated sites
AU776059B2 (en) * 1999-07-02 2004-08-26 Telstra Corporation Limited Search system
AUPQ138199A0 (en) * 1999-07-02 1999-07-29 Telstra R & D Management Pty Ltd A search system
US6718363B1 (en) * 1999-07-30 2004-04-06 Verizon Laboratories, Inc. Page aggregation for web sites
US6430558B1 (en) * 1999-08-02 2002-08-06 Zen Tech, Inc. Apparatus and methods for collaboratively searching knowledge databases
JP2001052014A (ja) * 1999-08-09 2001-02-23 Just Syst Corp 自然文検索可能装置およびこれを実現するプログラムを記憶した記憶媒体
JP3702414B2 (ja) * 1999-08-11 2005-10-05 株式会社日立製作所 情報検索支援方法、コンピュータ読み取り可能な記憶媒体および情報検索装置
US6845354B1 (en) * 1999-09-09 2005-01-18 Institute For Information Industry Information retrieval system with a neuro-fuzzy structure
US8914361B2 (en) * 1999-09-22 2014-12-16 Google Inc. Methods and systems for determining a meaning of a document to match the document to content
US8051104B2 (en) 1999-09-22 2011-11-01 Google Inc. Editing a network of interconnected concepts
US6816857B1 (en) 1999-11-01 2004-11-09 Applied Semantics, Inc. Meaning-based advertising and document relevance determination
US7925610B2 (en) * 1999-09-22 2011-04-12 Google Inc. Determining a meaning of a knowledge item using document-based information
WO2002000316A1 (en) 1999-09-24 2002-01-03 Goldberg Sheldon F Geographically constrained network services
US7949722B1 (en) * 1999-09-29 2011-05-24 Actv Inc. Enhanced video programming system and method utilizing user-profile information
AU7840300A (en) * 1999-09-30 2001-04-30 Hnc Software, Inc. Webstation: configurable web-based workstation for reason driven data analysis
US7418431B1 (en) 1999-09-30 2008-08-26 Fair Isaac Corporation Webstation: configurable web-based workstation for reason driven data analysis
WO2001027712A2 (en) * 1999-10-12 2001-04-19 The Shopper Inc. A method and system for automatically structuring content from universal marked-up documents
US8311946B1 (en) 1999-10-15 2012-11-13 Ebrary Method and apparatus for improved information transactions
US7536561B2 (en) 1999-10-15 2009-05-19 Ebrary, Inc. Method and apparatus for improved information transactions
WO2001031479A1 (en) * 1999-10-27 2001-05-03 Zapper Technologies Inc. Context-driven information retrieval
US6493707B1 (en) 1999-10-29 2002-12-10 Verizon Laboratories Inc. Hypervideo: information retrieval using realtime buffers
US6996775B1 (en) 1999-10-29 2006-02-07 Verizon Laboratories Inc. Hypervideo: information retrieval using time-related multimedia:
US6569206B1 (en) * 1999-10-29 2003-05-27 Verizon Laboratories Inc. Facilitation of hypervideo by automatic IR techniques in response to user requests
US6757866B1 (en) 1999-10-29 2004-06-29 Verizon Laboratories Inc. Hyper video: information retrieval using text from multimedia
US6490580B1 (en) 1999-10-29 2002-12-03 Verizon Laboratories Inc. Hypervideo information retrieval usingmultimedia
JP2001134606A (ja) * 1999-11-09 2001-05-18 Ricoh Co Ltd 文書リンク記述方法、文書リンク生成装置および記憶媒体
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6651058B1 (en) * 1999-11-15 2003-11-18 International Business Machines Corporation System and method of automatic discovery of terms in a document that are relevant to a given target topic
AU7339700A (en) 1999-11-16 2001-05-30 Searchcraft Corporation Method for searching from a plurality of data sources
US7249315B2 (en) 1999-11-23 2007-07-24 John Brent Moetteli System and method of creating and following URL tours
AU2212801A (en) * 1999-12-07 2001-06-18 Qjunction Technology, Inc. Natural english language search and retrieval system and method
US6850906B1 (en) 1999-12-15 2005-02-01 Traderbot, Inc. Real-time financial search engine and method
JP2003517686A (ja) * 1999-12-17 2003-05-27 キム、シハン 情報コード化および検索システムとその方法
US20010032112A1 (en) * 1999-12-30 2001-10-18 Linz Aaron M. Method and system for improved matching and scheduling
US20010053968A1 (en) * 2000-01-10 2001-12-20 Iaskweb, Inc. System, method, and computer program product for responding to natural language queries
US7849117B2 (en) * 2000-01-12 2010-12-07 Knowledge Sphere, Inc. Multi-term frequency analysis
KR20000024179A (ko) * 2000-01-26 2000-05-06 조민형 한국어 인터넷 자연어 질의 응답형 정보 검색 엔진 구축방법.
US6571240B1 (en) * 2000-02-02 2003-05-27 Chi Fai Ho Information processing for searching categorizing information in a document based on a categorization hierarchy and extracted phrases
CA2401653A1 (en) * 2000-02-24 2001-08-30 Findbase, L.L.C. Method and system for extracting, analyzing, storing, comparing and reporting on data stored in web and/or other network repositories and apparatus to detect, prevent and obfuscate information removal from information servers
US6564209B1 (en) * 2000-03-08 2003-05-13 Accenture Llp Knowledge management tool for providing abstracts of information
US7099925B1 (en) * 2000-03-15 2006-08-29 Drugstore.Com Electronic commerce session management
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
GB0006721D0 (en) * 2000-03-20 2000-05-10 Mitchell Thomas A Assessment methods and systems
US7428500B1 (en) * 2000-03-30 2008-09-23 Amazon. Com, Inc. Automatically identifying similar purchasing opportunities
JP4961575B2 (ja) * 2000-03-31 2012-06-27 オープンティービー、インコーポレイテッド 地域メタデータ挿入のシステム及び方法
US7120574B2 (en) 2000-04-03 2006-10-10 Invention Machine Corporation Synonym extension of search queries with validation
US20010039490A1 (en) * 2000-04-03 2001-11-08 Mikhail Verbitsky System and method of analyzing and comparing entity documents
US7177798B2 (en) * 2000-04-07 2007-02-13 Rensselaer Polytechnic Institute Natural language interface using constrained intermediate dictionary of results
US7730072B2 (en) * 2000-04-14 2010-06-01 Rightnow Technologies, Inc. Automated adaptive classification system for knowledge networks
US7356604B1 (en) * 2000-04-18 2008-04-08 Claritech Corporation Method and apparatus for comparing scores in a vector space retrieval process
US20020010574A1 (en) * 2000-04-20 2002-01-24 Valery Tsourikov Natural language processing and query driven information retrieval
US7962326B2 (en) * 2000-04-20 2011-06-14 Invention Machine Corporation Semantic answering system and method
US7030837B1 (en) * 2000-04-24 2006-04-18 Microsoft Corporation Auxiliary display unit for a computer system
US7227511B2 (en) * 2000-04-24 2007-06-05 Microsoft Corporation Method for activating an application in context on a remote input/output device
US6917373B2 (en) * 2000-12-28 2005-07-12 Microsoft Corporation Context sensitive labels for an electronic device
US20020123994A1 (en) * 2000-04-26 2002-09-05 Yves Schabes System for fulfilling an information need using extended matching techniques
US7120627B1 (en) * 2000-04-26 2006-10-10 Global Information Research And Technologies, Llc Method for detecting and fulfilling an information need corresponding to simple queries
US6859800B1 (en) 2000-04-26 2005-02-22 Global Information Research And Technologies Llc System for fulfilling an information need
WO2001084376A2 (en) * 2000-04-28 2001-11-08 Global Information Research And Technologies Llc System for answering natural language questions
US7127450B1 (en) 2000-05-02 2006-10-24 International Business Machines Corporation Intelligent discard in information access system
US6711561B1 (en) * 2000-05-02 2004-03-23 Iphrase.Com, Inc. Prose feedback in information access system
US8478732B1 (en) * 2000-05-02 2013-07-02 International Business Machines Corporation Database aliasing in information access system
US6745181B1 (en) 2000-05-02 2004-06-01 Iphrase.Com, Inc. Information access method
US6704728B1 (en) * 2000-05-02 2004-03-09 Iphase.Com, Inc. Accessing information from a collection of data
US6912525B1 (en) * 2000-05-08 2005-06-28 Verizon Laboratories, Inc. Techniques for web site integration
US6789076B1 (en) 2000-05-11 2004-09-07 International Business Machines Corp. System, method and program for augmenting information retrieval in a client/server network using client-side searching
GB2362238A (en) 2000-05-12 2001-11-14 Applied Psychology Res Ltd Automatic text classification
US20020099730A1 (en) * 2000-05-12 2002-07-25 Applied Psychology Research Limited Automatic text classification system
US6876997B1 (en) * 2000-05-22 2005-04-05 Overture Services, Inc. Method and apparatus for indentifying related searches in a database search system
US6983320B1 (en) * 2000-05-23 2006-01-03 Cyveillance, Inc. System, method and computer program product for analyzing e-commerce competition of an entity by utilizing predetermined entity-specific metrics and analyzed statistics from web pages
US7013323B1 (en) * 2000-05-23 2006-03-14 Cyveillance, Inc. System and method for developing and interpreting e-commerce metrics by utilizing a list of rules wherein each rule contain at least one of entity-specific criteria
US6636848B1 (en) * 2000-05-31 2003-10-21 International Business Machines Corporation Information search using knowledge agents
US9875492B2 (en) 2001-05-22 2018-01-23 Dennis J. Dupray Real estate transaction system
US10641861B2 (en) 2000-06-02 2020-05-05 Dennis J. Dupray Services and applications for a communications network
US10684350B2 (en) 2000-06-02 2020-06-16 Tracbeam Llc Services and applications for a communications network
US6965857B1 (en) * 2000-06-02 2005-11-15 Cogilex Recherches & Developpement Inc. Method and apparatus for deriving information from written text
US7496502B2 (en) * 2000-06-16 2009-02-24 Semiconductor Energy Laboratory Co., Ltd. Information providing system and method therefor
US8290768B1 (en) 2000-06-21 2012-10-16 International Business Machines Corporation System and method for determining a set of attributes based on content of communications
US9699129B1 (en) 2000-06-21 2017-07-04 International Business Machines Corporation System and method for increasing email productivity
US6408277B1 (en) 2000-06-21 2002-06-18 Banter Limited System and method for automatic task prioritization
SE517496C2 (sv) 2000-06-22 2002-06-11 Hapax Information Systems Ab Metod och system för informationsextrahering
US20020091836A1 (en) * 2000-06-24 2002-07-11 Moetteli John Brent Browsing method for focusing research
US7003513B2 (en) * 2000-07-04 2006-02-21 International Business Machines Corporation Method and system of weighted context feedback for result improvement in information retrieval
CN100495391C (zh) * 2000-07-06 2009-06-03 金时焕 信息查询系统及其方法
US6463430B1 (en) 2000-07-10 2002-10-08 Mohomine, Inc. Devices and methods for generating and managing a database
US6675159B1 (en) * 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
US6915294B1 (en) * 2000-08-18 2005-07-05 Firstrain, Inc. Method and apparatus for searching network resources
AU2000268162A1 (en) * 2000-08-23 2002-04-08 Intel Corporation A method and apparatus for concept-based searching across a network
US6766320B1 (en) * 2000-08-24 2004-07-20 Microsoft Corporation Search engine with natural language-based robust parsing for user query and relevance feedback learning
US7236932B1 (en) * 2000-09-12 2007-06-26 Avaya Technology Corp. Method of and apparatus for improving productivity of human reviewers of automatically transcribed documents generated by media conversion systems
US20020120651A1 (en) * 2000-09-12 2002-08-29 Lingomotors, Inc. Natural language search method and system for electronic books
US20040107173A1 (en) * 2000-09-25 2004-06-03 E-Chain Cheng Operating system using artificial intelligence processing
US20020147578A1 (en) * 2000-09-29 2002-10-10 Lingomotors, Inc. Method and system for query reformulation for searching of information
US20020040311A1 (en) * 2000-10-04 2002-04-04 John Douglass Web browser page rating system
US20020040384A1 (en) * 2000-10-04 2002-04-04 John Moetteli Communication method using customisable banners
AU2002213279A1 (en) * 2000-10-16 2002-04-29 Text Analysis International, Inc. Method for analyzing text and method for builing text analyzers
US7027974B1 (en) 2000-10-27 2006-04-11 Science Applications International Corporation Ontology-based parser for natural language processing
US8060816B1 (en) * 2000-10-31 2011-11-15 International Business Machines Corporation Methods and apparatus for intelligent crawling on the world wide web
US6668251B1 (en) * 2000-11-01 2003-12-23 Tacit Knowledge Systems, Inc. Rendering discriminator members from an initial set of result data
US8831995B2 (en) 2000-11-06 2014-09-09 Numecent Holdings, Inc. Optimized server for streamed applications
US7062567B2 (en) 2000-11-06 2006-06-13 Endeavors Technology, Inc. Intelligent network streaming and execution system for conventionally coded applications
US20020083183A1 (en) * 2000-11-06 2002-06-27 Sanjay Pujare Conventionally coded application conversion system for streamed delivery and execution
US7308445B2 (en) * 2000-11-08 2007-12-11 Overture Services, Inc. Method for estimating coverage of web search engines
US8340955B2 (en) * 2000-11-15 2012-12-25 International Business Machines Corporation System and method for finding the most likely answer to a natural language question
US6735592B1 (en) 2000-11-16 2004-05-11 Discern Communications System, method, and computer program product for a network-based content exchange system
US7451196B1 (en) 2000-12-15 2008-11-11 Stream Theory, Inc. Method and system for executing a software application in a virtual environment
US7165023B2 (en) * 2000-12-15 2007-01-16 Arizona Board Of Regents Method for mining, mapping and managing organizational knowledge from text and conversation
US6983240B2 (en) * 2000-12-18 2006-01-03 Xerox Corporation Method and apparatus for generating normalized representations of strings
US6678677B2 (en) * 2000-12-19 2004-01-13 Xerox Corporation Apparatus and method for information retrieval using self-appending semantic lattice
US7644057B2 (en) 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
US7346491B2 (en) * 2001-01-04 2008-03-18 Agency For Science, Technology And Research Method of text similarity measurement
US7356530B2 (en) * 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
EP1225517B1 (en) * 2001-01-17 2006-05-17 International Business Machines Corporation System and methods for computer based searching for relevant texts
US6766316B2 (en) 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US7027987B1 (en) 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US6741984B2 (en) 2001-02-23 2004-05-25 General Electric Company Method, system and storage medium for arranging a database
US6823333B2 (en) 2001-03-02 2004-11-23 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for conducting a keyterm search
US6697793B2 (en) 2001-03-02 2004-02-24 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for generating phrases from a database
US6741981B2 (en) 2001-03-02 2004-05-25 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration (Nasa) System, method and apparatus for conducting a phrase search
US6721728B2 (en) 2001-03-02 2004-04-13 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for discovering phrases in a database
US7076485B2 (en) * 2001-03-07 2006-07-11 The Mitre Corporation Method and system for finding similar records in mixed free-text and structured data
US7711547B2 (en) * 2001-03-16 2010-05-04 Meaningful Machines, L.L.C. Word association method and apparatus
US8874431B2 (en) * 2001-03-16 2014-10-28 Meaningful Machines Llc Knowledge system method and apparatus
US20030093261A1 (en) * 2001-03-16 2003-05-15 Eli Abir Multilingual database creation system and method
US7860706B2 (en) 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
US20030083860A1 (en) * 2001-03-16 2003-05-01 Eli Abir Content conversion method and apparatus
US8744835B2 (en) * 2001-03-16 2014-06-03 Meaningful Machines Llc Content conversion method and apparatus
JP2002283301A (ja) * 2001-03-26 2002-10-03 Makita Corp 際切りマルノコ
SE0101127D0 (sv) * 2001-03-30 2001-03-30 Hapax Information Systems Ab Method of finding answers to questions
US6721737B2 (en) * 2001-04-04 2004-04-13 International Business Machines Corporation Method of ranking items using efficient queries
US7197506B2 (en) * 2001-04-06 2007-03-27 Renar Company, Llc Collection management system
US7136846B2 (en) 2001-04-06 2006-11-14 2005 Keel Company, Inc. Wireless information retrieval
US6904428B2 (en) 2001-04-18 2005-06-07 Illinois Institute Of Technology Intranet mediator
US20020194166A1 (en) * 2001-05-01 2002-12-19 Fowler Abraham Michael Mechanism to sift through search results using keywords from the results
US7099871B2 (en) * 2001-05-04 2006-08-29 Sun Microsystems, Inc. System and method for distributed real-time search
US6961723B2 (en) * 2001-05-04 2005-11-01 Sun Microsystems, Inc. System and method for determining relevancy of query responses in a distributed network search mechanism
US7171415B2 (en) * 2001-05-04 2007-01-30 Sun Microsystems, Inc. Distributed information discovery through searching selected registered information providers
US6950821B2 (en) * 2001-05-04 2005-09-27 Sun Microsystems, Inc. System and method for resolving distributed network search queries to information providers
US6934702B2 (en) * 2001-05-04 2005-08-23 Sun Microsystems, Inc. Method and system of routing messages in a distributed search network
US7013303B2 (en) * 2001-05-04 2006-03-14 Sun Microsystems, Inc. System and method for multiple data sources to plug into a standardized interface for distributed deep search
US7194483B1 (en) 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US7536413B1 (en) 2001-05-07 2009-05-19 Ixreveal, Inc. Concept-based categorization of unstructured objects
US7627588B1 (en) 2001-05-07 2009-12-01 Ixreveal, Inc. System and method for concept based analysis of unstructured data
USRE46973E1 (en) 2001-05-07 2018-07-31 Ureveal, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US6970881B1 (en) 2001-05-07 2005-11-29 Intelligenxia, Inc. Concept-based method and system for dynamically analyzing unstructured information
WO2002091355A1 (en) * 2001-05-08 2002-11-14 Intel Corporation High-order entropy error functions for neural classifiers
US6925457B2 (en) * 2001-07-27 2005-08-02 Metatomix, Inc. Methods and apparatus for querying a relational data store using schema-less queries
US7822621B1 (en) 2001-05-16 2010-10-26 Perot Systems Corporation Method of and system for populating knowledge bases using rule based systems and object-oriented software
US7831442B1 (en) * 2001-05-16 2010-11-09 Perot Systems Corporation System and method for minimizing edits for medical insurance claims processing
US8082096B2 (en) 2001-05-22 2011-12-20 Tracbeam Llc Wireless location routing applications and architecture therefor
US6829605B2 (en) * 2001-05-24 2004-12-07 Microsoft Corporation Method and apparatus for deriving logical relations from linguistic relations with multiple relevance ranking strategies for information retrieval
AU2002321795A1 (en) * 2001-07-27 2003-02-17 Quigo Technologies Inc. System and method for automated tracking and analysis of document usage
US7130841B1 (en) * 2001-07-31 2006-10-31 America Online, Inc. Enabling a search for both local and remote electronic content
US9009590B2 (en) * 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
US8249885B2 (en) * 2001-08-08 2012-08-21 Gary Charles Berkowitz Knowledge-based e-catalog procurement system and method
US6609124B2 (en) * 2001-08-13 2003-08-19 International Business Machines Corporation Hub for strategic intelligence
US7283951B2 (en) * 2001-08-14 2007-10-16 Insightful Corporation Method and system for enhanced data searching
US7526425B2 (en) * 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
AU2002326118A1 (en) * 2001-08-14 2003-03-03 Quigo Technologies, Inc. System and method for extracting content for submission to a search engine
US7398201B2 (en) * 2001-08-14 2008-07-08 Evri Inc. Method and system for enhanced data searching
US7403938B2 (en) * 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing
US6918097B2 (en) * 2001-10-09 2005-07-12 Xerox Corporation Method and apparatus for displaying literary and linguistic information about words
JP4065936B2 (ja) * 2001-10-09 2008-03-26 独立行政法人情報通信研究機構 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
US7315848B2 (en) 2001-12-12 2008-01-01 Aaron Pearse Web snippets capture, storage and retrieval system and method
US7206778B2 (en) * 2001-12-17 2007-04-17 Knova Software Inc. Text search ordered along one or more dimensions
US7225183B2 (en) * 2002-01-28 2007-05-29 Ipxl, Inc. Ontology-based information management system and method
US6952691B2 (en) 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
US20030154071A1 (en) * 2002-02-11 2003-08-14 Shreve Gregory M. Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents
US7343372B2 (en) * 2002-02-22 2008-03-11 International Business Machines Corporation Direct navigation for information retrieval
US8589413B1 (en) 2002-03-01 2013-11-19 Ixreveal, Inc. Concept-based method and system for dynamically analyzing results from search engines
US20030220917A1 (en) * 2002-04-03 2003-11-27 Max Copperman Contextual search
US8380491B2 (en) * 2002-04-19 2013-02-19 Educational Testing Service System for rating constructed responses based on concepts and a model answer
US7403890B2 (en) * 2002-05-13 2008-07-22 Roushar Joseph C Multi-dimensional method and apparatus for automated language interpretation
JP2005525659A (ja) * 2002-05-14 2005-08-25 ベリティ・インコーポレイテッド 構造化コンテンツ、準構造化コンテンツ、および非構造化コンテンツを検索する装置および方法
US7024404B1 (en) * 2002-05-28 2006-04-04 The State University Rutgers Retrieval and display of data objects using a cross-group ranking metric
US7328146B1 (en) * 2002-05-31 2008-02-05 At&T Corp. Spoken language understanding that incorporates prior knowledge into boosting
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US6892198B2 (en) * 2002-06-14 2005-05-10 Entopia, Inc. System and method for personalized information retrieval based on user expertise
AU2003253663A1 (en) * 2002-06-17 2003-12-31 Beingmeta, Inc. Para-linguistic expansion
AU2003243635A1 (en) * 2002-06-17 2003-12-31 Beingmeta, Inc. Systems and methods for processing queries
US20040039562A1 (en) * 2002-06-17 2004-02-26 Kenneth Haase Para-linguistic expansion
US20040002849A1 (en) * 2002-06-28 2004-01-01 Ming Zhou System and method for automatic retrieval of example sentences based upon weighted editing distance
US7493253B1 (en) * 2002-07-12 2009-02-17 Language And Computing, Inc. Conceptual world representation natural language understanding system and method
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
ATE492853T1 (de) * 2002-07-23 2011-01-15 Quigo Technologies Inc System und verfahren zur automatisierten abbildung von schlüsselwörtern und schlüsselphrasen auf dokumenten
US20040019478A1 (en) * 2002-07-29 2004-01-29 Electronic Data Systems Corporation Interactive natural language query processing system and method
US20040034635A1 (en) * 2002-08-15 2004-02-19 Czarnecki David Anthony Method and system for identifying and matching companies to business event information
JP2004110161A (ja) 2002-09-13 2004-04-08 Fuji Xerox Co Ltd テキスト文比較装置
US7567902B2 (en) * 2002-09-18 2009-07-28 Nuance Communications, Inc. Generating speech recognition grammars from a large corpus of data
US7171351B2 (en) * 2002-09-19 2007-01-30 Microsoft Corporation Method and system for retrieving hint sentences using expanded queries
US7194455B2 (en) 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
US7293015B2 (en) * 2002-09-19 2007-11-06 Microsoft Corporation Method and system for detecting user intentions in retrieval of hint sentences
US20040098250A1 (en) * 2002-11-19 2004-05-20 Gur Kimchi Semantic search system and method
US7039625B2 (en) * 2002-11-22 2006-05-02 International Business Machines Corporation International information search and delivery system providing search results personalized to a particular natural language
EP2544101A1 (en) 2002-11-28 2013-01-09 Nuance Communications Austria GmbH Method to assign word class information
EP1460562A1 (en) * 2002-12-23 2004-09-22 Definiens AG Computerized method and system for searching for text passages from text documents
US8155946B2 (en) * 2002-12-23 2012-04-10 Definiens Ag Computerized method and system for searching for text passages in text documents
US20040186828A1 (en) * 2002-12-24 2004-09-23 Prem Yadav Systems and methods for enabling a user to find information of interest to the user
US7930716B2 (en) 2002-12-31 2011-04-19 Actv Inc. Techniques for reinsertion of local market advertising in digital video from a bypass source
US7111000B2 (en) * 2003-01-06 2006-09-19 Microsoft Corporation Retrieval of structured documents
US20040153305A1 (en) * 2003-02-03 2004-08-05 Enescu Mircea Gabriel Method and system for automated matching of text based electronic messages
US6947930B2 (en) * 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
GB0306877D0 (en) * 2003-03-25 2003-04-30 British Telecomm Information retrieval
KR100515641B1 (ko) * 2003-04-24 2005-09-22 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
US8495002B2 (en) 2003-05-06 2013-07-23 International Business Machines Corporation Software tool for training and testing a knowledge base
US20050187913A1 (en) 2003-05-06 2005-08-25 Yoram Nelken Web-based customer service interface
US7403939B1 (en) 2003-05-30 2008-07-22 Aol Llc Resolving queries based on automatic determination of requestor geographic location
US7146361B2 (en) * 2003-05-30 2006-12-05 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND)
US20040249796A1 (en) * 2003-06-06 2004-12-09 Microsoft Corporation Query classification
US7854009B2 (en) 2003-06-12 2010-12-14 International Business Machines Corporation Method of securing access to IP LANs
US8666983B2 (en) * 2003-06-13 2014-03-04 Microsoft Corporation Architecture for generating responses to search engine queries
US7051014B2 (en) * 2003-06-18 2006-05-23 Microsoft Corporation Utilizing information redundancy to improve text searches
US7324648B1 (en) * 2003-07-08 2008-01-29 Copyright Clearance Center, Inc. Method and apparatus for secure key delivery for decrypting bulk digital content files at an unsecure site
US8006307B1 (en) * 2003-07-09 2011-08-23 Imophaze Research Co., L.L.C. Method and apparatus for distributing secure digital content that can be indexed by third party search engines
US7296027B2 (en) 2003-08-06 2007-11-13 Sbc Knowledge Ventures, L.P. Rhetorical content management with tone and audience profiles
US8600963B2 (en) * 2003-08-14 2013-12-03 Google Inc. System and method for presenting multiple sets of search results for a single query
US8548995B1 (en) * 2003-09-10 2013-10-01 Google Inc. Ranking of documents based on analysis of related documents
US20050065774A1 (en) * 2003-09-20 2005-03-24 International Business Machines Corporation Method of self enhancement of search results through analysis of system logs
US8014997B2 (en) * 2003-09-20 2011-09-06 International Business Machines Corporation Method of search content enhancement
US7610190B2 (en) * 2003-10-15 2009-10-27 Fuji Xerox Co., Ltd. Systems and methods for hybrid text summarization
US20050108316A1 (en) * 2003-11-18 2005-05-19 Sbc Knowledge Ventures, L.P. Methods and systems for organizing related communications
US20050131892A1 (en) * 2003-12-10 2005-06-16 Sbc Knowledge Ventures, L.P. Natural language web site interface
US7689536B1 (en) 2003-12-18 2010-03-30 Google Inc. Methods and systems for detecting and extracting information
US7287012B2 (en) * 2004-01-09 2007-10-23 Microsoft Corporation Machine-learned approach to determining document relevance for search over large electronic collections of documents
FR2865055A1 (fr) * 2004-01-12 2005-07-15 Thomson Licensing Sa Base de connaissance ontologique et procede d'extraction d'informations a partir d'une requete en langage naturel.
US7499913B2 (en) * 2004-01-26 2009-03-03 International Business Machines Corporation Method for handling anchor text
US7293005B2 (en) * 2004-01-26 2007-11-06 International Business Machines Corporation Pipelined architecture for global analysis and index building
US8296304B2 (en) * 2004-01-26 2012-10-23 International Business Machines Corporation Method, system, and program for handling redirects in a search engine
US7424467B2 (en) * 2004-01-26 2008-09-09 International Business Machines Corporation Architecture for an indexer with fixed width sort and variable width sort
US7415106B2 (en) * 2004-03-09 2008-08-19 Sbc Knowledge Ventures, Lp Network-based voice activated auto-attendant service with B2B connectors
GB0407389D0 (en) * 2004-03-31 2004-05-05 British Telecomm Information retrieval
US8612208B2 (en) 2004-04-07 2013-12-17 Oracle Otc Subsidiary Llc Ontology for use with a system, method, and computer readable medium for retrieving information and response to a query
US7747601B2 (en) * 2006-08-14 2010-06-29 Inquira, Inc. Method and apparatus for identifying and classifying query intent
US8082264B2 (en) 2004-04-07 2011-12-20 Inquira, Inc. Automated scheme for identifying user intent in real-time
US20050262063A1 (en) * 2004-04-26 2005-11-24 Watchfire Corporation Method and system for website analysis
US20050241727A1 (en) * 2004-04-29 2005-11-03 Kosmyna Michael J Vented Funnel
US8028038B2 (en) 2004-05-05 2011-09-27 Dryden Enterprises, Llc Obtaining a playlist based on user profile matching
US8028323B2 (en) 2004-05-05 2011-09-27 Dryden Enterprises, Llc Method and system for employing a first device to direct a networked audio device to obtain a media item
US7257577B2 (en) * 2004-05-07 2007-08-14 International Business Machines Corporation System, method and service for ranking search results using a modular scoring system
US20050256700A1 (en) * 2004-05-11 2005-11-17 Moldovan Dan I Natural language question answering system and method utilizing a logic prover
US20060053000A1 (en) * 2004-05-11 2006-03-09 Moldovan Dan I Natural language question answering system and method utilizing multi-modal logic
AU2005243114B2 (en) * 2004-05-13 2011-02-24 Robert John Rogers A system and method for retrieving information and a system and method for storing information
WO2005121944A2 (en) * 2004-05-28 2005-12-22 Lamont Headd Travis Internet based resource retrieval system
US20050267872A1 (en) * 2004-06-01 2005-12-01 Yaron Galai System and method for automated mapping of items to documents
US7562069B1 (en) * 2004-07-01 2009-07-14 Aol Llc Query disambiguation
US20060020448A1 (en) * 2004-07-21 2006-01-26 Microsoft Corporation Method and apparatus for capitalizing text using maximum entropy
US7860314B2 (en) * 2004-07-21 2010-12-28 Microsoft Corporation Adaptation of exponential models
US20060023920A1 (en) * 2004-07-29 2006-02-02 Gary Buslik Method and apparatus for matching individuals based on their mental connection
US7552116B2 (en) * 2004-08-06 2009-06-23 The Board Of Trustees Of The University Of Illinois Method and system for extracting web query interfaces
US20060048136A1 (en) * 2004-08-25 2006-03-02 Vries Jeff D Interception-based resource detection system
US20060047691A1 (en) * 2004-08-31 2006-03-02 Microsoft Corporation Creating a document index from a flex- and Yacc-generated named entity recognizer
US20060047690A1 (en) * 2004-08-31 2006-03-02 Microsoft Corporation Integration of Flex and Yacc into a linguistic services platform for named entity recognition
US20060053156A1 (en) * 2004-09-03 2006-03-09 Howard Kaushansky Systems and methods for developing intelligence from information existing on a network
US7461064B2 (en) 2004-09-24 2008-12-02 International Buiness Machines Corporation Method for searching documents for ranges of numeric values
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US20060074980A1 (en) * 2004-09-29 2006-04-06 Sarkar Pte. Ltd. System for semantically disambiguating text information
US8799107B1 (en) * 2004-09-30 2014-08-05 Google Inc. Systems and methods for scoring documents
US7680648B2 (en) 2004-09-30 2010-03-16 Google Inc. Methods and systems for improving text segmentation
US8051096B1 (en) 2004-09-30 2011-11-01 Google Inc. Methods and systems for augmenting a token lexicon
US7996208B2 (en) * 2004-09-30 2011-08-09 Google Inc. Methods and systems for selecting a language for text segmentation
US7240162B2 (en) 2004-10-22 2007-07-03 Stream Theory, Inc. System and method for predictive streaming
WO2006055445A2 (en) 2004-11-13 2006-05-26 Stream Theory, Inc. Hybrid local/remote streaming
US7783633B2 (en) * 2004-11-19 2010-08-24 International Business Machines Corporation Display of results of cross language search
ES2308091T3 (es) 2004-11-26 2008-12-01 BA*RO GMBH & CO. KG Lampara de esterilizacion.
US7921091B2 (en) 2004-12-16 2011-04-05 At&T Intellectual Property Ii, L.P. System and method for providing a natural language interface to a database
US7272597B2 (en) 2004-12-29 2007-09-18 Aol Llc Domain expert search
US7349896B2 (en) * 2004-12-29 2008-03-25 Aol Llc Query routing
US7818314B2 (en) * 2004-12-29 2010-10-19 Aol Inc. Search fusion
US7571157B2 (en) * 2004-12-29 2009-08-04 Aol Llc Filtering search results
US8843536B1 (en) 2004-12-31 2014-09-23 Google Inc. Methods and systems for providing relevant advertisements or other content for inactive uniform resource locators using search queries
US20060161537A1 (en) * 2005-01-19 2006-07-20 International Business Machines Corporation Detecting content-rich text
US7792811B2 (en) * 2005-02-16 2010-09-07 Transaxtions Llc Intelligent search with guiding info
US7840564B2 (en) 2005-02-16 2010-11-23 Ebrary System and method for automatic anthology creation using document aspects
JP4185500B2 (ja) * 2005-03-14 2008-11-26 株式会社東芝 文書検索システム、文書検索方法及びプログラム
US8719244B1 (en) * 2005-03-23 2014-05-06 Google Inc. Methods and systems for retrieval of information items and associated sentence fragments
US8024523B2 (en) 2007-11-07 2011-09-20 Endeavors Technologies, Inc. Opportunistic block transmission with time constraints
US20060218165A1 (en) * 2005-03-23 2006-09-28 Vries Jeffrey De Explicit overlay integration rules
EP1875364A2 (en) 2005-03-23 2008-01-09 Stream Theory, Inc. System and method for tracking changes to files in streaming applications
US20060224569A1 (en) * 2005-03-31 2006-10-05 Desanto John A Natural language based search engine and methods of use therefor
US7555475B2 (en) * 2005-03-31 2009-06-30 Jiles, Inc. Natural language based search engine for handling pronouns and methods of use therefor
US7447683B2 (en) * 2005-03-31 2008-11-04 Jiles, Inc. Natural language based search engine and methods of use therefor
US20060224566A1 (en) * 2005-03-31 2006-10-05 Flowers John S Natural language based search engine and methods of use therefor
US8280882B2 (en) * 2005-04-21 2012-10-02 Case Western Reserve University Automatic expert identification, ranking and literature search based on authorship in large document collections
US20060259494A1 (en) * 2005-05-13 2006-11-16 Microsoft Corporation System and method for simultaneous search service and email search
US7774383B2 (en) * 2005-05-24 2010-08-10 International Business Machines Corporation Displaying facet tree elements and logging facet element item counts to a sequence document
US7502810B2 (en) * 2005-05-24 2009-03-10 International Business Machines Corporation Tagging of facet elements in a facet tree
US7562085B2 (en) * 2005-05-24 2009-07-14 Palo Alto Research Center Incorporated Systems and methods for displaying linked information in a sorted context
US7552398B2 (en) * 2005-05-24 2009-06-23 Palo Alto Research Center Incorporated Systems and methods for semantically zooming information
JP4654780B2 (ja) * 2005-06-10 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US7702665B2 (en) * 2005-06-14 2010-04-20 Colloquis, Inc. Methods and apparatus for evaluating semantic proximity
US7433869B2 (en) 2005-07-01 2008-10-07 Ebrary, Inc. Method and apparatus for document clustering and document sketching
US7809551B2 (en) * 2005-07-01 2010-10-05 Xerox Corporation Concept matching system
US7487150B2 (en) * 2005-07-02 2009-02-03 International Business Machines Corporation Method for matching pattern-based data
US8417693B2 (en) * 2005-07-14 2013-04-09 International Business Machines Corporation Enforcing native access control to indexed documents
WO2007010836A1 (ja) * 2005-07-15 2007-01-25 Hewlett-Packard Development Company, L.P. コミュニティ特有表現検出装置及び方法
US8756245B2 (en) * 2005-07-25 2014-06-17 Iac Search & Media, Inc. Systems and methods for answering user questions
US7657524B1 (en) * 2005-07-28 2010-02-02 Adobe Systems Incorporated System and/or method for comment migration
US8775158B2 (en) * 2005-08-04 2014-07-08 Nec Corporation Data processing device, data processing method, and data processing program
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
EP1934971A4 (en) 2005-08-31 2010-10-27 Voicebox Technologies Inc DYNAMIC LANGUAGE SCRIPTURE
US20070055653A1 (en) * 2005-09-02 2007-03-08 Guerra Currie Anne-Marie P System and method of generating automated document analysis tools
JPWO2007029348A1 (ja) 2005-09-06 2009-03-12 コミュニティーエンジン株式会社 データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070073533A1 (en) * 2005-09-23 2007-03-29 Fuji Xerox Co., Ltd. Systems and methods for structural indexing of natural language text
US8688673B2 (en) * 2005-09-27 2014-04-01 Sarkar Pte Ltd System for communication and collaboration
US7328199B2 (en) * 2005-10-07 2008-02-05 Microsoft Corporation Componentized slot-filling architecture
US7788251B2 (en) * 2005-10-11 2010-08-31 Ixreveal, Inc. System, method and computer program product for concept-based searching and analysis
US7672831B2 (en) * 2005-10-24 2010-03-02 Invention Machine Corporation System and method for cross-language knowledge searching
US7822699B2 (en) * 2005-11-30 2010-10-26 Microsoft Corporation Adaptive semantic reasoning engine
US7606700B2 (en) * 2005-11-09 2009-10-20 Microsoft Corporation Adaptive task framework
US20070106496A1 (en) * 2005-11-09 2007-05-10 Microsoft Corporation Adaptive task framework
US7805455B2 (en) * 2005-11-14 2010-09-28 Invention Machine Corporation System and method for problem analysis
EP1949273A1 (en) * 2005-11-16 2008-07-30 Evri Inc. Extending keyword searching to syntactically and semantically annotated data
US7933914B2 (en) 2005-12-05 2011-04-26 Microsoft Corporation Automatic task creation and execution using browser helper objects
US7831585B2 (en) * 2005-12-05 2010-11-09 Microsoft Corporation Employment of task framework for advertising
US20070130134A1 (en) * 2005-12-05 2007-06-07 Microsoft Corporation Natural-language enabling arbitrary web forms
US7676485B2 (en) * 2006-01-20 2010-03-09 Ixreveal, Inc. Method and computer program product for converting ontologies into concept semantic networks
CN1858737B (zh) * 2006-01-25 2010-06-02 华为技术有限公司 一种数据搜索的方法和系统
US8060357B2 (en) 2006-01-27 2011-11-15 Xerox Corporation Linguistic user interface
US7610279B2 (en) * 2006-01-31 2009-10-27 Perfect Market, Inc. Filtering context-sensitive search results
US20070203865A1 (en) * 2006-02-09 2007-08-30 Hirsch Martin C Apparatus and methods for an item retrieval system
US7797303B2 (en) 2006-02-15 2010-09-14 Xerox Corporation Natural language processing for developing queries
US20070198250A1 (en) * 2006-02-21 2007-08-23 Michael Mardini Information retrieval and reporting method system
US20070203869A1 (en) * 2006-02-28 2007-08-30 Microsoft Corporation Adaptive semantic platform architecture
US7996783B2 (en) * 2006-03-02 2011-08-09 Microsoft Corporation Widget searching utilizing task framework
WO2007108788A2 (en) * 2006-03-13 2007-09-27 Answers Corporation Method and system for answer extraction
US7921099B2 (en) * 2006-05-10 2011-04-05 Inquira, Inc. Guided navigation system
US20070265824A1 (en) * 2006-05-15 2007-11-15 Michel David Paradis Diversified semantic mapping engine (DSME)
US7814112B2 (en) 2006-06-09 2010-10-12 Ebay Inc. Determining relevancy and desirability of terms
US10796390B2 (en) * 2006-07-03 2020-10-06 3M Innovative Properties Company System and method for medical coding of vascular interventional radiology procedures
US7698328B2 (en) * 2006-08-11 2010-04-13 Apple Inc. User-directed search refinement
US8781813B2 (en) 2006-08-14 2014-07-15 Oracle Otc Subsidiary Llc Intent management tool for identifying concepts associated with a plurality of users' queries
WO2008024799A2 (en) * 2006-08-21 2008-02-28 Western Slope Utilities, Inc. Systems and methods for liner tensioning in pipeline rehabilitation
US8589869B2 (en) * 2006-09-07 2013-11-19 Wolfram Alpha Llc Methods and systems for determining a formula
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
FR2906049A1 (fr) * 2006-09-19 2008-03-21 Alcatel Sa Procede, mis en oeuvre par ordinateur, de developpement d'une ontologie a partir d'un texte en langage naturel
CN100416570C (zh) * 2006-09-22 2008-09-03 浙江大学 一种基于问答库的中文自然语言问答方法
JP4274221B2 (ja) * 2006-10-02 2009-06-03 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
US7774198B2 (en) * 2006-10-06 2010-08-10 Xerox Corporation Navigation system for text
US8548795B2 (en) * 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US9047275B2 (en) 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US8214199B2 (en) * 2006-10-10 2012-07-03 Abbyy Software, Ltd. Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8145473B2 (en) * 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US9645993B2 (en) * 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US9984071B2 (en) 2006-10-10 2018-05-29 Abbyy Production Llc Language ambiguity detection of text
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US8397157B2 (en) * 2006-10-20 2013-03-12 Adobe Systems Incorporated Context-free grammar
US8261345B2 (en) 2006-10-23 2012-09-04 Endeavors Technologies, Inc. Rule-based application access management
US8095476B2 (en) * 2006-11-27 2012-01-10 Inquira, Inc. Automated support scheme for electronic forms
US20080177588A1 (en) * 2007-01-23 2008-07-24 Quigo Technologies, Inc. Systems and methods for selecting aesthetic settings for use in displaying advertisements over a network
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US9449322B2 (en) 2007-02-28 2016-09-20 Ebay Inc. Method and system of suggesting information used with items offered for sale in a network-based marketplace
US20080215607A1 (en) * 2007-03-02 2008-09-04 Umbria, Inc. Tribe or group-based analysis of social media including generating intelligence from a tribe's weblogs or blogs
US8392454B2 (en) * 2007-03-08 2013-03-05 Xerox Corporation Concordance searching systems and methods
WO2008113045A1 (en) 2007-03-14 2008-09-18 Evri Inc. Query templates and labeled search tip system, methods, and techniques
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8001138B2 (en) * 2007-04-11 2011-08-16 Microsoft Corporation Word relationship driven search
US8631440B2 (en) 2007-04-30 2014-01-14 Google Inc. Program guide user interface
US8484192B1 (en) * 2007-04-30 2013-07-09 Google Inc. Media search broadening
US20080270119A1 (en) * 2007-04-30 2008-10-30 Microsoft Corporation Generating sentence variations for automatic summarization
US7890318B2 (en) 2007-05-23 2011-02-15 Xerox Corporation Informing troubleshooting sessions with device data
US8051040B2 (en) 2007-06-08 2011-11-01 Ebay Inc. Electronic publication system
CN101690119B (zh) * 2007-06-25 2013-11-27 西门子公司 用于在分散式数据网络中转发数据的方法
US20090006179A1 (en) 2007-06-26 2009-01-01 Ebay Inc. Economic optimization for product search relevancy
US8812296B2 (en) 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
US20090055242A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content identification and classification apparatus, systems, and methods
US8463593B2 (en) 2007-08-31 2013-06-11 Microsoft Corporation Natural language hypernym weighting for word sense disambiguation
US8229970B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Efficient storage and retrieval of posting lists
US8229730B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Indexing role hierarchies for words in a search index
US8280721B2 (en) * 2007-08-31 2012-10-02 Microsoft Corporation Efficiently representing word sense probabilities
US8041697B2 (en) * 2007-08-31 2011-10-18 Microsoft Corporation Semi-automatic example-based induction of semantic translation rules to support natural language search
US8209321B2 (en) * 2007-08-31 2012-06-26 Microsoft Corporation Emphasizing search results according to conceptual meaning
US7984032B2 (en) * 2007-08-31 2011-07-19 Microsoft Corporation Iterators for applying term occurrence-level constraints in natural language searching
US8712758B2 (en) * 2007-08-31 2014-04-29 Microsoft Corporation Coreference resolution in an ambiguity-sensitive natural language processing system
US8316036B2 (en) 2007-08-31 2012-11-20 Microsoft Corporation Checkpointing iterators during search
US8346756B2 (en) * 2007-08-31 2013-01-01 Microsoft Corporation Calculating valence of expressions within documents for searching a document index
US20090070322A1 (en) * 2007-08-31 2009-03-12 Powerset, Inc. Browsing knowledge on the basis of semantic relations
US8868562B2 (en) * 2007-08-31 2014-10-21 Microsoft Corporation Identification of semantic relationships within reported speech
US20090077180A1 (en) * 2007-09-14 2009-03-19 Flowers John S Novel systems and methods for transmitting syntactically accurate messages over a network
US7716228B2 (en) * 2007-09-25 2010-05-11 Firstrain, Inc. Content quality apparatus, systems, and methods
JP2009080576A (ja) * 2007-09-25 2009-04-16 Toshiba Corp 検索装置、方法及びプログラム
US8024177B2 (en) * 2007-09-28 2011-09-20 Cycorp, Inc. Method of transforming natural language expression into formal language representation
US8301633B2 (en) * 2007-10-01 2012-10-30 Palo Alto Research Center Incorporated System and method for semantic search
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US7877344B2 (en) * 2007-10-10 2011-01-25 Northern Light Group, Llc Method and apparatus for extracting meaning from documents using a meaning taxonomy comprising syntactic structures
US8594996B2 (en) 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
WO2009052308A1 (en) 2007-10-17 2009-04-23 Roseman Neil S Nlp-based content recommender
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US9754022B2 (en) * 2007-10-30 2017-09-05 At&T Intellectual Property I, L.P. System and method for language sensitive contextual searching
US20090119584A1 (en) * 2007-11-02 2009-05-07 Steve Herbst Software Tool for Creating Outlines and Mind Maps that Generates Subtopics Automatically
US8892738B2 (en) 2007-11-07 2014-11-18 Numecent Holdings, Inc. Deriving component statistics for a stream enabled application
DE102007056140A1 (de) 2007-11-19 2009-05-20 Deutsche Telekom Ag Verfahren und System zur Informationssuche
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996994B2 (en) * 2008-01-16 2015-03-31 Microsoft Technology Licensing, Llc Multi-lingual word hyphenation using inductive machine learning on training data
US20090198488A1 (en) * 2008-02-05 2009-08-06 Eric Arno Vigen System and method for analyzing communications using multi-placement hierarchical structures
US8412571B2 (en) * 2008-02-11 2013-04-02 Advertising.Com Llc Systems and methods for selling and displaying advertisements over a network
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US20090228427A1 (en) * 2008-03-06 2009-09-10 Microsoft Corporation Managing document work sets
US20090234803A1 (en) * 2008-03-11 2009-09-17 Continental Electrical Construction Company, Llc Keyword search of business information system
EP2105847A1 (en) * 2008-03-27 2009-09-30 Alcatel Lucent Device and method for automatically generating ontologies from term definitions contained into a dictionary
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20090255118A1 (en) * 2008-04-11 2009-10-15 General Electric Company Method of manufacturing mixers
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US8726146B2 (en) * 2008-04-11 2014-05-13 Advertising.Com Llc Systems and methods for video content association
KR101475339B1 (ko) 2008-04-14 2014-12-23 삼성전자주식회사 통신 단말기 및 그의 통합 자연어 인터페이스 방법
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
JP5316158B2 (ja) * 2008-05-28 2013-10-16 株式会社リコー 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
US8473279B2 (en) * 2008-05-30 2013-06-25 Eiman Al-Shammari Lemmatizing, stemming, and query expansion method and system
US8074171B2 (en) * 2008-06-06 2011-12-06 International Business Machines Corporation System and method to provide warnings associated with natural language searches to determine intended actions and accidental omissions
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US9323832B2 (en) * 2008-06-18 2016-04-26 Ebay Inc. Determining desirability value using sale format of item listing
US8135712B1 (en) 2008-06-27 2012-03-13 Google Inc. Posting questions from search queries
US20100017392A1 (en) * 2008-07-18 2010-01-21 Jianwei Dian Intent match search engine
US9047285B1 (en) 2008-07-21 2015-06-02 NetBase Solutions, Inc. Method and apparatus for frame-based search
WO2010013472A1 (ja) * 2008-07-30 2010-02-04 日本電気株式会社 データ分類システム、データ分類方法、及びデータ分類プログラム
JP5423676B2 (ja) * 2008-07-30 2014-02-19 日本電気株式会社 データ分類システム、データ分類方法、及びデータ分類プログラム
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9519636B2 (en) * 2008-10-15 2016-12-13 Business Objects S.A. Deduction of analytic context based on text and semantic layer
US20100138402A1 (en) * 2008-12-02 2010-06-03 Chacha Search, Inc. Method and system for improving utilization of human searchers
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US9519712B2 (en) * 2009-01-06 2016-12-13 At&T Intellectual Property I, L.P. Systems and methods to evaluate search qualities
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
WO2010105214A2 (en) * 2009-03-13 2010-09-16 Invention Machine Corporation Question-answering system and method based on semantic labeling of text documents and user questions
US8843476B1 (en) * 2009-03-16 2014-09-23 Guangsheng Zhang System and methods for automated document topic discovery, browsable search and document categorization
US9245243B2 (en) 2009-04-14 2016-01-26 Ureveal, Inc. Concept-based analysis of structured and unstructured data using concept inheritance
WO2010120699A2 (en) * 2009-04-16 2010-10-21 Evri Inc. Enhanced advertisement targeting
CN101872349B (zh) * 2009-04-23 2013-06-19 国际商业机器公司 处理自然语言问题的方法和装置
US8601015B1 (en) 2009-05-15 2013-12-03 Wolfram Alpha Llc Dynamic example generation for queries
US8788524B1 (en) 2009-05-15 2014-07-22 Wolfram Alpha Llc Method and system for responding to queries in an imprecise syntax
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20130219333A1 (en) * 2009-06-12 2013-08-22 Adobe Systems Incorporated Extensible Framework for Facilitating Interaction with Devices
CN101930438B (zh) * 2009-06-19 2016-08-31 阿里巴巴集团控股有限公司 一种搜索结果生成方法及信息搜索系统
JP4768882B2 (ja) * 2009-06-26 2011-09-07 楽天株式会社 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US20110055268A1 (en) * 2009-08-27 2011-03-03 Chen-Yu Sheu Search system based on structured natural languages
US20110099052A1 (en) * 2009-10-28 2011-04-28 Xerox Corporation Automatic checking of expectation-fulfillment schemes
US20110106617A1 (en) * 2009-10-29 2011-05-05 Chacha Search, Inc. Method and system of processing a query using human assistants
CA2779208C (en) * 2009-10-30 2016-03-22 Evri, Inc. Improving keyword-based search engine results using enhanced query strategies
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
WO2011059997A1 (en) 2009-11-10 2011-05-19 Voicebox Technologies, Inc. System and method for providing a natural language content dedication service
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US20110123967A1 (en) * 2009-11-24 2011-05-26 Xerox Corporation Dialog system for comprehension evaluation
CN102083043B (zh) * 2009-11-27 2013-07-24 中国移动通信集团山东有限公司 确定向用户提供的资费优惠方案的方法及相关装置
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US9201905B1 (en) * 2010-01-14 2015-12-01 The Boeing Company Semantically mediated access to knowledge
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9710556B2 (en) * 2010-03-01 2017-07-18 Vcvc Iii Llc Content recommendation based on collections of entities
US8339094B2 (en) * 2010-03-11 2012-12-25 GM Global Technology Operations LLC Methods, systems and apparatus for overmodulation of a five-phase machine
US8805840B1 (en) * 2010-03-23 2014-08-12 Firstrain, Inc. Classification of documents
US11367295B1 (en) 2010-03-23 2022-06-21 Aurea Software, Inc. Graphical user interface for presentation of events
US10643227B1 (en) 2010-03-23 2020-05-05 Aurea Software, Inc. Business lines
US10546311B1 (en) 2010-03-23 2020-01-28 Aurea Software, Inc. Identifying competitors of companies
US8645125B2 (en) 2010-03-30 2014-02-04 Evri, Inc. NLP-based systems and methods for providing quotations
JP2011227758A (ja) * 2010-04-21 2011-11-10 Sony Corp 情報処理装置、情報処理方法及びプログラム
US8161073B2 (en) 2010-05-05 2012-04-17 Holovisions, LLC Context-driven search
US8484015B1 (en) * 2010-05-14 2013-07-09 Wolfram Alpha Llc Entity pages
US8484016B2 (en) 2010-05-28 2013-07-09 Microsoft Corporation Locating paraphrases through utilization of a multipartite graph
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8812298B1 (en) 2010-07-28 2014-08-19 Wolfram Alpha Llc Macro replacement of natural language input
US8838633B2 (en) 2010-08-11 2014-09-16 Vcvc Iii Llc NLP-based sentiment analysis
US9538493B2 (en) 2010-08-23 2017-01-03 Finetrak, Llc Locating a mobile station and applications therefor
US8527513B2 (en) 2010-08-26 2013-09-03 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for lexicon generation
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US9405848B2 (en) 2010-09-15 2016-08-02 Vcvc Iii Llc Recommending mobile device activities
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US8725739B2 (en) 2010-11-01 2014-05-13 Evri, Inc. Category-based content recommendation
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9116995B2 (en) 2011-03-30 2015-08-25 Vcvc Iii Llc Cluster-based identification of news stories
JP5699789B2 (ja) 2011-05-10 2015-04-15 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び情報処理システム
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US9069814B2 (en) 2011-07-27 2015-06-30 Wolfram Alpha Llc Method and system for using natural language to generate widgets
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9734252B2 (en) 2011-09-08 2017-08-15 Wolfram Alpha Llc Method and system for analyzing data using a query answering system
US20130066862A1 (en) * 2011-09-12 2013-03-14 Microsoft Corporation Multi-factor correlation of internet content resources
US8914279B1 (en) * 2011-09-23 2014-12-16 Google Inc. Efficient parsing with structured prediction cascades
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US8782042B1 (en) 2011-10-14 2014-07-15 Firstrain, Inc. Method and system for identifying entities
TWM423854U (en) * 2011-10-20 2012-03-01 Ipxnase Technology Ltd Document analyzing apparatus
US9851950B2 (en) 2011-11-15 2017-12-26 Wolfram Alpha Llc Programming in a precise syntax using natural language
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US8977613B1 (en) 2012-06-12 2015-03-10 Firstrain, Inc. Generation of recurring searches
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US20140046976A1 (en) * 2012-08-11 2014-02-13 Guangsheng Zhang Systems, methods, and user interface for effectively presenting information
US10817787B1 (en) 2012-08-11 2020-10-27 Guangsheng Zhang Methods for building an intelligent computing device based on linguistic analysis
US9405424B2 (en) 2012-08-29 2016-08-02 Wolfram Alpha, Llc Method and system for distributing and displaying graphical items
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
WO2014040263A1 (en) * 2012-09-14 2014-03-20 Microsoft Corporation Semantic ranking using a forward index
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9710545B2 (en) * 2012-12-20 2017-07-18 Intel Corporation Method and apparatus for conducting context sensitive search with intelligent user interaction from within a media experience
US10592480B1 (en) 2012-12-30 2020-03-17 Aurea Software, Inc. Affinity scoring
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
CN110096712B (zh) 2013-03-15 2023-06-20 苹果公司 通过智能数字助理的用户培训
US9201865B2 (en) * 2013-03-15 2015-12-01 Bao Tran Automated assistance for user request that determines semantics by domain, task, and parameter
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
AU2014251347B2 (en) 2013-03-15 2017-05-18 Apple Inc. Context-sensitive handling of interruptions
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9870422B2 (en) 2013-04-19 2018-01-16 Dropbox, Inc. Natural language search
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
GB2517477A (en) * 2013-08-22 2015-02-25 Deep Secure Ltd A method of transmitting data structures from one computer to another computer
JP6176017B2 (ja) * 2013-09-17 2017-08-09 富士通株式会社 検索装置、検索方法、およびプログラム
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
CN103677852A (zh) * 2013-12-30 2014-03-26 山东舜德数据管理软件工程有限公司 一种可扩充的类自然语言公式编辑器的设计方法
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
IN2014MU00789A (ja) 2014-03-07 2015-09-25 Tata Consultancy Services Ltd
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
CN104021075A (zh) * 2014-05-22 2014-09-03 小米科技有限责任公司 用于程序代码的评估方法和装置
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
JP5716223B1 (ja) * 2014-07-14 2015-05-13 株式会社think−plus 思考支援辞書、思考支援辞書システム、思考支援システム、思考支援方法、思考支援プログラム、思考支援プログラム記憶媒体、および思考支援データ記憶媒体
CN104123394B (zh) * 2014-08-13 2018-05-15 中国银行股份有限公司 用于数据库的报表文件的加工方法
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9575961B2 (en) 2014-08-28 2017-02-21 Northern Light Group, Llc Systems and methods for analyzing document coverage
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
JP6173990B2 (ja) 2014-09-16 2017-08-02 株式会社東芝 検索支援装置、方法およびプログラム
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
US9836529B2 (en) * 2014-09-22 2017-12-05 Oracle International Corporation Semantic text search
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的系统和方法
US9613093B2 (en) 2014-10-16 2017-04-04 International Business Machines Corporation Using question answering (QA) systems to identify answers and evidence of different medium types
US10229156B2 (en) 2014-11-03 2019-03-12 International Business Machines Corporation Using priority scores for iterative precision reduction in structured lookups for questions
US10095736B2 (en) * 2014-11-03 2018-10-09 International Business Machines Corporation Using synthetic events to identify complex relation lookups
US11100557B2 (en) 2014-11-04 2021-08-24 International Business Machines Corporation Travel itinerary recommendation engine using inferred interests and sentiments
KR102033395B1 (ko) * 2014-11-20 2019-10-18 한국전자통신연구원 심층 자연어 질문 분석 기반 구조화된 지식베이스 질의응답 시스템 및 그 방법
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
CN105718434A (zh) * 2014-12-23 2016-06-29 远光软件股份有限公司 一种自然语言公式编辑方法和系统
WO2016127338A1 (en) * 2015-02-11 2016-08-18 Yahoo! Inc. Method and system for online user profiling
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US11544306B2 (en) 2015-09-22 2023-01-03 Northern Light Group, Llc System and method for concept-based search summaries
US11886477B2 (en) 2015-09-22 2024-01-30 Northern Light Group, Llc System and method for quote-based search summaries
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US20170116194A1 (en) 2015-10-23 2017-04-27 International Business Machines Corporation Ingestion planning for complex tables
AU2016346341B2 (en) * 2015-10-26 2019-08-08 [24]7.ai, Inc. Method and apparatus for facilitating customer intent prediction
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10936675B2 (en) 2015-12-17 2021-03-02 Walmart Apollo, Llc Developing an item data model for an item
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10459883B1 (en) 2015-12-30 2019-10-29 EMC IP Holding Company LLC Retention policies for unscheduled replicas in backup, snapshots, and remote replication
US10496672B2 (en) * 2015-12-30 2019-12-03 EMC IP Holding Company LLC Creating replicas at user-defined points in time
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US11226946B2 (en) 2016-04-13 2022-01-18 Northern Light Group, Llc Systems and methods for automatically determining a performance index
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
MX2019001576A (es) 2016-08-09 2019-09-18 Ripcord Inc Sistemas y metodos para la recuperacion contextual de registros electronicos.
US20180052838A1 (en) * 2016-08-22 2018-02-22 International Business Machines Corporation System, method and computer program for a cognitive media story extractor and video composer
US9953027B2 (en) * 2016-09-15 2018-04-24 International Business Machines Corporation System and method for automatic, unsupervised paraphrase generation using a novel framework that learns syntactic construct while retaining semantic meaning
US9984063B2 (en) 2016-09-15 2018-05-29 International Business Machines Corporation System and method for automatic, unsupervised paraphrase generation using a novel framework that learns syntactic construct while retaining semantic meaning
US10754969B2 (en) 2016-09-22 2020-08-25 International Business Machines Corporation Method to allow for question and answer system to dynamically return different responses based on roles
US10382440B2 (en) * 2016-09-22 2019-08-13 International Business Machines Corporation Method to allow for question and answer system to dynamically return different responses based on roles
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
WO2018096514A1 (en) * 2016-11-28 2018-05-31 Thomson Reuters Global Resources System and method for finding similar documents based on semantic factual similarity
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10956469B2 (en) * 2017-01-06 2021-03-23 International Business Machines Corporation System and method for metadata correlation using natural language processing
JP6870421B2 (ja) * 2017-03-28 2021-05-12 富士通株式会社 判定プログラム、判定装置および判定方法
US11276011B2 (en) * 2017-04-10 2022-03-15 International Business Machines Corporation Self-managed adaptable models for prediction systems
CN107122438A (zh) * 2017-04-21 2017-09-01 安徽富驰信息技术有限公司 一种司法案件检索方法及系统
US10872080B2 (en) * 2017-04-24 2020-12-22 Oath Inc. Reducing query ambiguity using graph matching
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11176470B2 (en) 2017-07-07 2021-11-16 Accenture Global Solutions Limited Artificial intelligence based solution generator
US11158311B1 (en) 2017-08-14 2021-10-26 Guangsheng Zhang System and methods for machine understanding of human intentions
US10719507B2 (en) 2017-09-21 2020-07-21 SayMosaic Inc. System and method for natural language processing
US11106872B2 (en) * 2018-01-09 2021-08-31 Jyu-Fang Yu System and method for improving sentence diagram construction and analysis by enabling a user positioning sentence construction components and words on a diagramming interface
JP7088490B2 (ja) * 2018-05-21 2022-06-21 日本電信電話株式会社 文比較装置、方法、及びプログラム
US11360969B2 (en) * 2019-03-20 2022-06-14 Promethium, Inc. Natural language based processing of data stored across heterogeneous data sources
US11250128B2 (en) 2020-02-18 2022-02-15 Bank Of America Corporation System and method for detecting source code anomalies
US11176329B2 (en) 2020-02-18 2021-11-16 Bank Of America Corporation Source code compiler using natural language input
US11914561B2 (en) 2020-03-03 2024-02-27 Rovi Guides, Inc. Systems and methods for interpreting natural language search queries using training data
US11594213B2 (en) 2020-03-03 2023-02-28 Rovi Guides, Inc. Systems and methods for interpreting natural language search queries
US11449407B2 (en) 2020-05-28 2022-09-20 Bank Of America Corporation System and method for monitoring computing platform parameters and dynamically generating and deploying monitoring packages
US11507572B2 (en) * 2020-09-30 2022-11-22 Rovi Guides, Inc. Systems and methods for interpreting natural language search queries
JP2023039785A (ja) * 2021-09-09 2023-03-22 富士通株式会社 出力プログラム、出力方法、および出力装置
US11977852B2 (en) 2022-01-12 2024-05-07 Bank Of America Corporation Anaphoric reference resolution using natural language processing and machine learning

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8900587A (nl) 1989-03-10 1990-10-01 Bso Buro Voor Systeemontwikkel Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst.
JP2742115B2 (ja) * 1989-12-01 1998-04-22 日本電信電話株式会社 類似文書検索装置
US5321833A (en) 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
JPH04182871A (ja) * 1990-11-19 1992-06-30 Mitsubishi Electric Corp 類似文書検索装置
US5278980A (en) * 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
JP3270783B2 (ja) * 1992-09-29 2002-04-02 ゼロックス・コーポレーション 複数の文書検索方法
JP3363501B2 (ja) * 1993-01-18 2003-01-08 三洋電機株式会社 テキスト検索装置
US5576954A (en) * 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
CA2120447C (en) * 1994-03-31 1998-08-25 Robert Lizee Automatically relaxable query for information retrieval
US5724567A (en) * 1994-04-25 1998-03-03 Apple Computer, Inc. System for directing relevance-ranked data objects to computer users
US5706497A (en) * 1994-08-15 1998-01-06 Nec Research Institute, Inc. Document retrieval using fuzzy-logic inference
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5794050A (en) * 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
EP0953920A3 (en) * 1995-01-23 2005-06-29 BRITISH TELECOMMUNICATIONS public limited company Method and/or systems for accessing information
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
AU6849196A (en) * 1995-08-16 1997-03-19 Syracuse University Multilingual document retrieval system and method using semantic vector matching
JP3040945B2 (ja) * 1995-11-29 2000-05-15 松下電器産業株式会社 文書検索装置
US5995922A (en) * 1996-05-02 1999-11-30 Microsoft Corporation Identifying information related to an input word in an electronic dictionary
US5826261A (en) * 1996-05-10 1998-10-20 Spencer; Graham System and method for querying multiple, distributed databases by selective sharing of local relative significance information for terms related to the query
US5864846A (en) * 1996-06-28 1999-01-26 Siemens Corporate Research, Inc. Method for facilitating world wide web searches utilizing a document distribution fusion strategy
US5966686A (en) * 1996-06-28 1999-10-12 Microsoft Corporation Method and system for computing semantic logical forms from syntax trees
US5813002A (en) * 1996-07-31 1998-09-22 International Business Machines Corporation Method and system for linearly detecting data deviations in a large database
US5870740A (en) * 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US5987446A (en) * 1996-11-12 1999-11-16 U.S. West, Inc. Searching large collections of text using multiple search engines concurrently
JP2948159B2 (ja) * 1996-12-06 1999-09-13 株式会社日立製作所 データベース装置
US5809496A (en) * 1997-02-20 1998-09-15 International Business Machines Corporation Hybrid search
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US5907840A (en) * 1997-07-25 1999-05-25 Claritech Corporation Overlapping subdocuments in a vector space search process
US5983216A (en) * 1997-09-12 1999-11-09 Infoseek Corporation Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections
US5987457A (en) * 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101201093B1 (ko) 2004-03-02 2012-11-13 마이크로소프트 코포레이션 그래프-기반 랭킹을 사용하여 텍스트의 단어와 개념을 랭킹하는 방법 및 시스템
JP2012181685A (ja) * 2011-03-01 2012-09-20 Toshiba Corp 代表文抽出装置およびプログラム
JP2017162190A (ja) * 2016-03-09 2017-09-14 富士通株式会社 類似文書検索プログラム、類似文書検索装置、及び類似文書検索方法

Also Published As

Publication number Publication date
JP4738523B2 (ja) 2011-08-03
JP4892130B2 (ja) 2012-03-07
EP0996899A1 (en) 2000-05-03
US5933822A (en) 1999-08-03
JP2001511564A (ja) 2001-08-14
JP2010079915A (ja) 2010-04-08
WO1999005618A1 (en) 1999-02-04
EP0996899B8 (en) 2015-05-20
CN1302412A (zh) 2001-07-04
EP0996899B1 (en) 2015-02-25
CN1165858C (zh) 2004-09-08
US6901399B1 (en) 2005-05-31

Similar Documents

Publication Publication Date Title
JP4892130B2 (ja) 自然言語処理技法を用いたテキスト入力処理システム
US10496722B2 (en) Knowledge correlation search engine
Carpineto et al. A survey of automatic query expansion in information retrieval
Agichtein et al. Snowball: Extracting relations from large plain-text collections
Delort et al. Enhanced web document summarization using hyperlinks
US7526425B2 (en) Method and system for extending keyword searching to syntactically and semantically annotated data
US8140559B2 (en) Knowledge correlation search engine
WO2009052277A1 (en) Nlp-based entity recognition and disambiguation
JP2011118689A (ja) 検索方法及びシステム
US11216520B2 (en) Knowledge correlation search engine
WO1999005621A1 (en) System for processing textual inputs using natural language processing techniques
JP4864095B2 (ja) 知識相関サーチエンジン
Anick The automatic construction of faceted terminological feedback for interactive document retrieval
Osipov et al. Application of linguistic knowledge to search precision improvement
Zheng et al. An improved focused crawler based on text keyword extraction
Ykhlef et al. Query paraphrasing using genetic approach for intelligent information retrieval
Klyuev An approach to implementing an intelligent web search
Legotina et al. Natural language processing tool to support web search
Laranjeira On the application of focused crawling for statistical machine translation domain adaptation
Peters et al. Within-Language Information Retrieval
Haddad et al. ASHG: Automatic Semantic Header Generator
Ramanand et al. Data Engineering
Talati et al. Ontology Based Search of Document Repositories-Correction of Terms and Ontology Learning-A keyword Based Approach
Derczynski Machine learning techniques for document selection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081015

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090115

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090414

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091102

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20091119

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20100305

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110909

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111031

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111219

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141222

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term