JP2007517338A - サーチ品質の改善システムおよび改善方法 - Google Patents
サーチ品質の改善システムおよび改善方法 Download PDFInfo
- Publication number
- JP2007517338A JP2007517338A JP2006547562A JP2006547562A JP2007517338A JP 2007517338 A JP2007517338 A JP 2007517338A JP 2006547562 A JP2006547562 A JP 2006547562A JP 2006547562 A JP2006547562 A JP 2006547562A JP 2007517338 A JP2007517338 A JP 2007517338A
- Authority
- JP
- Japan
- Prior art keywords
- query
- word
- document
- hyphen
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
サーチの品質を改善するためのシステムおよび方法が開示される。サーチクエリは、様々な言語学的技術を用いて、拡張される。例えば、クエリにある単語は、複合語(ハイフンの有無など)、屈折形(動詞変化、複数形など)および/または綴り字異形(「ph」と「f」の相互互換性など)のデータベースから得られる関連語で補充され得る。拡張クエリは、反応する文書のサーチを実行するために用いられ得る。文書インデックスは、同様の技術を用いて、拡張され得る。
Description
(発明の分野)
本発明は、一般に情報サーチと検索に関する。より特定的には、サーチ品質を改善するためのシステムおよび方法が開示される。
本発明は、一般に情報サーチと検索に関する。より特定的には、サーチ品質を改善するためのシステムおよび方法が開示される。
(関連技術の記載)
情報検索システムにおいて、ユーザは一般的に、クエリを入れて、クエリ単語を含む文書のリストを受け取る。クエリ単語を含まない文書は無視される。したがって、このようなシステムは、正しいクエリ形式にプレミアムを付けている。
情報検索システムにおいて、ユーザは一般的に、クエリを入れて、クエリ単語を含む文書のリストを受け取る。クエリ単語を含まない文書は無視される。したがって、このようなシステムは、正しいクエリ形式にプレミアムを付けている。
必要とされているのは、使いやすいサーチ結果を得る可能性が高くなるように、クエリを改善するためのシステムと方法である。
(発明の概要)
サーチの品質を改善するためのシステムおよび方法が開示される。本発明は、プロセス、機器、システム、デバイス、方法、または、コンピュータ読み込み可能な記憶媒体などのコンピュータ読み込み可能媒体、あるいは、プログラム命令が光学通信回線または電気通信回線で送られるコンピュータネットワークなどを含む数々の方法によって、実施され得ることは理解されるべきである。本発明の幾つかの進歩性ある実施形態が、以下に述べられる。
サーチの品質を改善するためのシステムおよび方法が開示される。本発明は、プロセス、機器、システム、デバイス、方法、または、コンピュータ読み込み可能な記憶媒体などのコンピュータ読み込み可能媒体、あるいは、プログラム命令が光学通信回線または電気通信回線で送られるコンピュータネットワークなどを含む数々の方法によって、実施され得ることは理解されるべきである。本発明の幾つかの進歩性ある実施形態が、以下に述べられる。
一つの実施形態において、一般に、方法は、少なくとも一つのクエリ単語を含むクエリを受け取ることと、クエリが複合クエリ単語、屈折形セットに含まれるクエリ単語および/または綴り字異形セットに含まれるクエリ単語を含むか否かを判断することと、そして、もし含む場合は、その複合クエリ単語の代替的表現、その屈折形セットから対応する屈折形、および/またはその綴り字異形セットから対応する綴り字異形を含むクエリに自動的に拡張することと、拡張クエリを用いてデータベースをサーチすることと、結果をユーザに返すこととを含み得る。
また、別の実施形態において、一般に、方法は、文書と関連付けた単語セットを識別することと、1つ以上の綴り字異形、その単語セットの少なくとも1つの単語の更なる屈折形および/またはその単語セットの少なくとも1つの複合語の1つ以上の代替的表現をさらに文書と関連付けて、この単語セットを拡張することと、この拡張された単語セットを用いて文書をインデックス化することとを含み得る。
さらに、別の実施形態において、一般に、方法は、ハイフン連結語を第一の文書セットからサーチすることと、そのハイフン連結語に対応するハイフンなし語をその第一の文書から探すことと、ハイフン連結語と対応するハイフンなし語の間で関連セットを生成することを含む。一つの実施例において、この方法は、ユーザからの第一のクエリ単語を含むクエリを受け取ることと、ハイフン連結語と対応するハイフンなし語の間での関連セットに第一のクエリ単語を位置づけることと、ハイフン連結語と対応するハイフンなし語の間での関連セットに第一のクエリ単語と関連する第二のクエリ単語を含むクエリに拡張することとをさらに含み得る。
さらに、別の実施形態に従うと、コンピュータ読み込み可能媒体に組み込まれたコンピュータプログラムパッケージである。このコンピュータプログラムパッケージは、プロセッサによって実行されたとき、例えば、少なくとも1つのクエリ単語の1つ以上の綴り字異形を含むことで、ユーザから受け取ったクエリを拡張すること、少なくとも1つの複合クエリ単語の1つ以上の代替的表現で、クエリを拡張すること、および/または、少なくとも1つのクエリ単語の1つ以上の屈折形で、クエリを拡張することなどのアクションをプロセッサに実行させる命令を含む。
更なる実施形態に従うと、情報検索システムは、一般に、文書グループを含む文書データベース、および、クエリを受け取り、1つ以上の言語学的技術の利用でクエリを拡張し、クエリに反応する情報を文書データベースの文書からサーチするように動作可能なクエリ処理ロジックを含む。この言語学的技術は、複合語拡張、屈折形セット拡張、および/または、綴り字拡張を含み得る。
本発明のこれら特徴や利点などが、本発明の原理を一例として示す以下の詳細な記述と添付図面によって、さらに詳細に紹介される。
本発明は、以下の詳細な記述と添付図面を結びつけることで、容易に理解される。図面において、同じ参照番号は、同じ構造要素を示す。
(特定の実施形態の説明)
サーチの品質を改善するための方法およびシステムが開示される。以下の記述による紹介によって、任意の当業者によって本発明の実行および使用が可能となる。特定の実施形態およびアプリケーションの記載は、実施例としてのみ、提供される。様々な変更も可能であることは、当業者には容易に明らかである。例えば、幾つかの実施例が、ドイツ語サーチエンジンのコンテキストの中で提供されるが、本明細書に記載される一般的な原則は、本発明の精神と範囲から逸脱することなく、他の言語、実施形態およびアプリケーションにも適用され得ることは理解される。同様に、以下に示される実施例の多くは、サーチする文書として、インターネットのウェブページを用いて記載されているが、電子的形態に読み込まれた本、新聞、雑誌など紙による文書のオフライン文書もサーチされ得ることは、理解されるべきである。このように、本発明は、本明細書に開示される原則と特徴との一致を有する多数の代替、変更および同等物を含む最も広い範囲に適応される。明確にする目的で、本発明に関する分野で知られている技術的マテリアルに関する詳細は、詳しく記述されていない。これは、本発明を不必要に曖昧にしないためである。
サーチの品質を改善するための方法およびシステムが開示される。以下の記述による紹介によって、任意の当業者によって本発明の実行および使用が可能となる。特定の実施形態およびアプリケーションの記載は、実施例としてのみ、提供される。様々な変更も可能であることは、当業者には容易に明らかである。例えば、幾つかの実施例が、ドイツ語サーチエンジンのコンテキストの中で提供されるが、本明細書に記載される一般的な原則は、本発明の精神と範囲から逸脱することなく、他の言語、実施形態およびアプリケーションにも適用され得ることは理解される。同様に、以下に示される実施例の多くは、サーチする文書として、インターネットのウェブページを用いて記載されているが、電子的形態に読み込まれた本、新聞、雑誌など紙による文書のオフライン文書もサーチされ得ることは、理解されるべきである。このように、本発明は、本明細書に開示される原則と特徴との一致を有する多数の代替、変更および同等物を含む最も広い範囲に適応される。明確にする目的で、本発明に関する分野で知られている技術的マテリアルに関する詳細は、詳しく記述されていない。これは、本発明を不必要に曖昧にしないためである。
情報検索システムにおいて、ユーザは典型的には、反応する文書を見つけるために、検索インターフェースを介して、クエリを入れる。その返答される結果は、一般的に、何らかの方法で、クエリに見合う文書に限定される。1つ以上の言語学的技術を適用し、ユーザのクエリを増やすシステムと方法とが記載される。一つの実施形態において、ユーザの当初のクエリは、複合語、屈折形、および/または、綴り字異形のデータベースを用いて拡張される。こうして、拡張クエリは、反応する文書のサーチを実行するために使われる。
図1は、本発明と整合した方法および装置がの実現され得るシステム100を示す。システム100は、ネットワーク106を介して、多数のサーバ104、105に接続された多数のクライアントデバイス102を含み得る。クライアントデバイス102は、ユーザ入力を受け入れるため、そして、ネットワーク106上の他のシステム102、104、105から受け取った情報を表示するためのブラウザ110を含み得る。サーバ104、105はネットワーク106上を伝わるユーザクエリを受け入れ、文書のデータベースをサーチし、ユーザにその結果を返答するサーチエンジン112を含み得る。ネットワーク106は、局所域ネットワーク(LAN)、広域ネットワーク(WAN)、仮想私設ネットワーク(VPN)、公衆交換電話ネットワーク(PSTN)などの電話ネットワーク、イントラネット、インターネット、あるいは、ネットワークの組合せを備え得る。図1は、図示の目的で、ネットワーク106に接続された3つのクライアントデバイス102と2つのサーバ104、105を示している。しかしながら、実際には、クライアントデバイス、サーバおよび/またはネットワークがこれより多いことも少ないことあり得ること、また、幾つかのクライアントデバイスはサーバ機能をも実行し得ること、および、幾つかのサーバはクライアント機能を実行し得ることは、理解されるべきである。
図2は、より詳細な実施例で、例えば、図1に示されるクライアント102またはサーバ104、105などからなるシステム200を示す。一つの実施形態において、システム200は、例えば、パソコン、ラップトップ、メインフレーム、携帯用個人端末、携帯電話および/またはその他同種のものを備える。システム200は、典型的には、プロセッサ202、メモリ204、ユーザインターフェース206、取り外し可能な格納媒体208を受け入れる入出力ポート207、ネットワークインターフェース210、および、前述の回路素子を接続するバス212を含む。
システム200の作動は、典型的には、メモリ204に格納されたプログラムの命令の下に作動するプロセッサ202で制御される。メモリ204は、一般的に、高速ランダムアクセスメモリ(RAM)や不揮発性メモリ(例えば、読み出し専用メモリ(ROM))などのコンピュータ読み込み可能媒体、磁気ディスク、ディスクアレイおよび/またはテープアレイの組み合わせを含む。ポート207は、フロッピー(登録商標)ディスク、CD−ROM、DVD、メモリカード、磁気テープなどのコンピュータ読み込み可能媒体を受け入れるディスクドライブまたはメモリスロットを備え得る。ユーザインターフェース206は、例えば、情報入力のためのキーボード、マウス、ペンまたは音声認識機構、および、ユーザに情報を提示するためのディスプレイ、プリンタ、スピーカおよび/またはその他同種のもののような一つ以上の機構を備え得る。ネットワークインターフェース210は、典型的には、有線、無線、光学および/またはその他による接続を介して、システム200と他のシステム(および/またはネットワーク220)の接続を提供するように作動可能である。
以下に詳細に記載されるように、システム200は、様々なサーチや検索操作を実行し得る。これらの操作は、典型的には、メモリ204などのコンピュータ読み込み可能媒体に含まれるソフトウェア命令を実行するプロセッサ202に応答して、実行される。ソフトウェア命令は、データ格納媒体208など他のコンピュータ読み込み可能媒体から、あるいは、通信インターフェース210またはI/Oポート207を介した他のデバイスから、メモリ204に読み込まれ得る。図2に示すように、メモリ204は、以下に詳細に記載されるシステム200の操作制御およびサーチや検索技術実行のために、様々なプログラムまたはモジュールを含み得る。例えば、システム200が、図1に示されるサーバ105のようなサーバであれば、メモリ204は、文書データベース229および対応するインデックスを含み得る。メモリ204は、ユーザインターフェース206から受信したクエリおよび/またはネットワーク220上のユーザから遠隔受信したクエリを用いて、データベース229をサーチするためのサーチエンジン230をさらに含み得る。図2に示すように、メモリ204は、以下に詳細に記載される技術を用いるクエリおよび/または文書を拡張する1つ以上のプログラム、ならびに、ユーザインターフェース206の操作および/またはネットワーク220上のユーザと遠隔操作するインターフェースウェブページ提供のためのユーザインターフェースアプリケーション232とをさらに含み得る。図2は、主にソフトウェアベースのシステムを示しているが、他の実施形態において、特別目的の回路が、本発明と整合性あるプロセスを実行するソフトウェア命令の代わりに、または、組み合わせて、使われ得ることは、理解されるべきである。このように、本発明は、ハードウェアとソフトウェアとの任意の特定の組合せに限られない。
本発明のシステムと方法は、図1と図2に示される構成要素の幾つかを欠いたデバイスおよび/または構造、ならびに/もしくは、図示されていない他の構成要素を有するデバイスおよび/または構造で実行され得ることは、理解されるべきである。このように、図1と図2は、例示目的で提供されるものであって、本発明の範囲を限定するために、提供されるものでないことは、理解されるべきである。例えば、システム200は、図示の目的で、パソコンまたはネットワークサーバのような単一で汎用の計算デバイスとして描かれているが、他の実施形態のシステム200においては、分散コンピュータ技術を用いて同時に操作する1つ以上のこのようなシステムを備え得ることは、理解されるべきである。このような実施形態において、図2に示された構成要素および機能の幾つかまたは全ては、多数の場所にある多数のシステムに拡がり得るし、かつ/もしくは、多数の当事者によって操作され得る。例えば、クエリ拡張アプリケーション231は、文書データベース229がホストされているシステムから離れたシステムで実行され得る(例えば、クエリ拡張は幾つかの実施形態で、サーバでなくクライアントで実行され得る)。同様の多数のバリエーションが、本発明の原則から逸脱しない範囲で、図1と図2に示す図から導かれ得ることは、容易に明らかである。
既に述べたように、図1と図2に示すシステムは、ユーザのクエリに対応する文書(例えば、ウェブページ)の検索を容易にするために用いられ得る。図3は、サーチが実行され得るようなドイツ語文書セット302、304、306、308を示す。例えば、文書302、304、306、308は、図1に示されるような1つ以上のサーバ104、105に格納され得る。図3に示すように、第一の文書302は、単語「abendzeitung」、「autotelefon」、「abirrungen」および「betttuch」を含む。第二の文書304は、単語「abend−zeitung」、「abirrung」、「autotelephon」および「abisolieren」を含む。第三の文書306は、単語「bettuch」、「bahnwagon」、「abisolierten」および「abendzeitung」を含む。そして、第四の文書308は、単語「autotelefon」、「bahnwaggon」、「abisolierte」および「abirrung」を含む。文書302、304、306、308は、他の文書との1つ以上のリンク(または、関連)310をも含み得る。図示のために、図3はドイツ語で書かれた文書を示しているが、文書は任意の言語または言語の組合せでも書かれ得ることは、理解される。
図4は、図3で示される文書に基づくインデックス400を示す。インデックスの第一列は、単語のリストを含み、第二の列はその単語に対応する文書のリストを含む。単語の中には、例えば、「bahnwaggon」のように、(例えば、現れるのが)1つの文書のみ(すなわち、文書308)にしか対応しないものが幾つかある。その他の単語には、例えば、「autotelefon」のように、多数の文書(すなわち、文書302と308)に対応するものも幾つかある。
図5は、図1のサーチエンジン112のようなサーチエンジンが、クエリに応答してサーチ結果を提供するために、図4に示すインデックス400を使うようなプロセス500を示す。サーチエンジン112は、クエリ(ブロック502)を受け取り、どの文書がそのクエリに対応するかを判断するために、インデックス400のようなインデックスを用いる(ブロック504)。例えば、ブール論理がクエリと文書との照合のために使われ得る。あるいは、各文書にある単語と組み合わされたクエリにある単語とともに、情報検索スコアに基づく単語頻度−文書頻度逆数(tf−idf)が使われ得る。このように、例えば、クエリが「abendzeitung」であれば、サーチエンジン112が、インデックス400を用いることができ、文書302と306に「abendzeitung」が現れることを判断する。これら文書、および/または、これら文書リファレンスは、こうして、ユーザに戻される(ブロック506)。
以下の実施例で示されるように、サーチは、クエリ単語と完全一致を含まない文書の識別を誤り得る。例えば、図5と関連して述べる実施例において、クエリ「abendzeitung」は、単語「abend−zeitung」を含む文書304を位置付けすることに失敗した。
サーチ結果を改善する一つの方法は、クエリをクエリ単語の考えられる変化形を含むものにまで拡張することである。こうして、これらの変化形を含む対応する文書も漏れなく、確実なものとできる。好ましい実施形態において、複合語、屈折形、綴り字異形(スペルなど)といった様々な言語学的特徴は、この目的のために使われる。
(複合語)
多くの言語において、ある種の単語のペアは、複合語として書く場合に、分離して書くことも、または、ハイフン挿入して書くこともできる。例えば、ドイツ語において、名詞の多くは連結することができ、より長い複合名詞を形成する。多くの場合、これらの語(直接連結、ハイフン連結、分離)の標準的な書き方はない。このように、文書が異なれば、異なる形式が使われ得る。例えば、単語「fernsehprogramm」(テレビ番組の意味)は、「fernsehprogramm」とも、「fernseh−programm」とも書ける。このように、この単語の一形式を使い、他の形式を使わないクエリは、この対応する文書の位置づけに失敗し得る。
多くの言語において、ある種の単語のペアは、複合語として書く場合に、分離して書くことも、または、ハイフン挿入して書くこともできる。例えば、ドイツ語において、名詞の多くは連結することができ、より長い複合名詞を形成する。多くの場合、これらの語(直接連結、ハイフン連結、分離)の標準的な書き方はない。このように、文書が異なれば、異なる形式が使われ得る。例えば、単語「fernsehprogramm」(テレビ番組の意味)は、「fernsehprogramm」とも、「fernseh−programm」とも書ける。このように、この単語の一形式を使い、他の形式を使わないクエリは、この対応する文書の位置づけに失敗し得る。
一つの実施形態として、潜在的な複合語のリストを作成し、このリストを使い、このリストから1つ以上の複合語を含むクエリに拡張することで、この問題は解決または改善され得る。単語のペア(または、三つ組など)は様々な方法で作成され得る。例えば、このリストは、辞書を用いることで、あるいは、文書(例えば、インターネットウェブページ)のコーパスにわたって動的サーチを行い、複合語のリストを作成することで、形成され得る。
図6Aは、このような方法600の実施例を示す。図6Aに示すように、潜在的な単語ペアのリストは、ハイフン連結である単語について、文書セットをサーチし(ブロック602)、次いで、各単語のハイフン連結でない対応語を文書からサーチする(ブロック604)ことで、形成される。こうして、リストが識別された各単語のペア(例えば、「ABまたはA−B」)について、形成され得る(ブロック606)。幾つかの実施形態において、この結果得られたリストは、文書セットにおいて、頻度が比較的少ないものを単語のペアから取り除いて、短くされ得る(ブロック608)。例えば、コーパスに現れる「AB」の回数、「A−B」が現れる回数、および/または、その他同種のものの現れる回数などの調査が行われ得る。図6Aに示される基本プロセスについて、多数のバリエーションも可能であることは、理解されるべきである。例えば、幾つかの実施形態において、文書セットは、例えば、「複合」語が、分離したハイフン連結でない単語のペア(または、三つ組など)(例えば、「A B」)として、サーチされ得る。
図6Bに示すように、この結果得られた複合語のリストは、次いで、リストの1つ以上の単語を含むクエリを拡張するために使われ得る。例えば、クエリを受け取ったとき(ブロック652)、そのクエリが単語ペアのリスト内の単語を含むか否かを判断するために、調査され得る。そのクエリが、複合ペアの一方をなす単語を含めば、クエリはペアの他方を含むように補充され得る(ブロック654)。例えば、単語が、その単語の両形式の分離によって置換され得る。例えば、「AB」は、「ABまたはA−B」によって置換され得るし、「A−B」は、「A−BまたはAB」によって置換され得るなどである。このようにして、例えば、図5と関連して上述した「abendzeitung」のクエリは、「abendzeitungまたはabend−zeitung」と拡張され、インデックスによるクエリに比較すると、(単に文書302および306だけでなく)文書302、304および306を抽出する。
幾つかの実施形態において、上述の複合語のリストは、他の方法においても、サーチ結果を改善するために使われ得る。例えば、Postscript(PS)またはAdobeのPortable Document Format(PDF)のような形式で書かれた文書は、行の終わりで、単語を分綴し、ハイフン挿入を含むことが多い。これらの語は、ハイフン連結語として、不適切にインデックスされ得る。このように、一つの実施形態において、上述した複合語のリストは、文書をインデックス化(または、構文解析)する間に使われ得る。ハイフン連結語に出会ったとき、この複合語リストと比較され、ハイフン連結語が位置付けされなければ、その語がインデックス化されたときに、ハイフンは取り除かれ得る。
(屈折形)
同様に、多くの単語は、格、性、数、人称、時制あるいは叙法などの文法的関係を表すために、様々な屈折形を有する。英語の屈折形の例としては、名詞に「s」を付加しての複数形成、あるいは、動詞に「ed」を付加しての過去形表現などが挙げられる。他の屈折形としては、基礎語自身を変化させ、「speak」、「spoke」および「spoken」の屈折形セットで示されるものも含む。
同様に、多くの単語は、格、性、数、人称、時制あるいは叙法などの文法的関係を表すために、様々な屈折形を有する。英語の屈折形の例としては、名詞に「s」を付加しての複数形成、あるいは、動詞に「ed」を付加しての過去形表現などが挙げられる。他の屈折形としては、基礎語自身を変化させ、「speak」、「spoke」および「spoken」の屈折形セットで示されるものも含む。
ドイツ語も、同様に、様々な屈折形を有する。例えば、「abirrung」および「abirrungen」は同じ語幹の異なる屈折形であり、「spiel」、「spiele」、「spielen」、「spieles」および「spiels」も同様である。このように、一つの屈折形を使うが、他の屈折形を使わないクエリでは、クエリを作成したユーザが関心を抱くであろう文書を識別するのに失敗し得る。
このように、一つの実施形態において、屈折形セットは集められ、そして、クエリ拡張に使われ得る。屈折形セットは、辞書を引くこと、あるいは、自動ツールを使うことなど様々な方法で取得され得る。例えば、ドイツ語がクエリ言語であれば、比較的大きな語彙集を有する言語分析ツールまたは言語生成ツールを用いて、例えば、任意の適切な単語形態分析装置などを用いて、屈折形セットは、作成され得る。
図7Aに示すように、一つの実施形態において、屈折形セットは、文書のコーパス(例えば、ウェブページ)から単語のセットを収集することで、作成され得る(ブロック702)。次に、単語形態分析装置は、この単語セットに対して適用され得ることで、屈折語と語幹の間でマッピングセットを抽出する(ブロック704)。幾つかの実施形態において、マッピングセットは、ある程度の適切な回数または比率で文書の中に現れる単語(例えば、少なくとも100の文書に現れる単語)のみを用いることで、フィルターされ得る(ブロック706)。次いで、表は反転され得、その結果、語幹と屈折形の間でのマッピングセットが得られる(ブロック708)。
図7Bは、図7Aに示されるような方法を用いて作成された屈折形セットを用いるクエリ拡張の実行方法を示す。図7Bに示されるように、クエリが屈折形セットの一つの構成材となるクエリを含む場合(ブロック752)、クエリは屈折形セット(あるいは、適切なサブセット)にある全構成材の分離形を含むことで増大する(ブロック754)。例えば、クエリ「auto spiel」は、「(autoまたはautos)(spielまたはspieleまたはspielまたはspieleまたはspielenまたはspielesまたはspiels)」となり得る。拡張クエリは、次いで、文書データベースのサーチ実行に利用され(例えば、データベースのインデックスによるサーチとの比較によって)(ブロック756)、そのサーチ結果がユーザに示される(ブロック758)。このように、例えば、ユーザが「abisolieren」という語を含むクエリを入力したら、「abisolierenまたはabisoliertenまたはabisolierte」に拡張され得る。こうして、図3に示される文書のサーチが可能となり、文書304の識別に加え、文書306と308も識別する。
図7Aと図7Bに示される基本概念から、多数のバリエーションが実行され得ることは、理解される。例えば、クエリ単語の語幹の他の変化形も拡張に含まれ得る。この場合、これらの変化形が厳密な意味で、クエリ単語の屈折形であるか否かに依存しない。他の例として、幾つかの実施形態において、クエリ拡張を実行するために使われる屈折形セットは、図7Aと関連して述べた方式で単語形態分析装置の適用によってではなく、むしろ、辞書などのソースを引くことによって生成され得る。
(綴り字異形)
多くの言語は、異なるスペルで綴られ得る単語を数多く含む。例えば、ドイツ語の単語には、綴り字異形が多数ある。これは、方言による(dialectical)バリエーションおよび/または近年の綴り字改革によるものである。ドイツ語の一般的なスペルのバリエーションの例としては、「ph」と「f」(例えば、「telefon」または「telephon」)および「β」と「ss」(例えば、「maβe」または「masse」)の相互互換性、様々な連続する文字列の相互互換性(例えば、「wagon」または「waggon」、「bettuch」または「betttuch」など)、および、アポストロフィーの有無「kantsch」または「kant’sch」が挙げられる。
多くの言語は、異なるスペルで綴られ得る単語を数多く含む。例えば、ドイツ語の単語には、綴り字異形が多数ある。これは、方言による(dialectical)バリエーションおよび/または近年の綴り字改革によるものである。ドイツ語の一般的なスペルのバリエーションの例としては、「ph」と「f」(例えば、「telefon」または「telephon」)および「β」と「ss」(例えば、「maβe」または「masse」)の相互互換性、様々な連続する文字列の相互互換性(例えば、「wagon」または「waggon」、「bettuch」または「betttuch」など)、および、アポストロフィーの有無「kantsch」または「kant’sch」が挙げられる。
このように、一つの実施形態として、綴り方のバリエーションに対して、表が作成される。これは、例えば、辞書などのソースを引くことで、達成され得る。例えば、ドイツ語の綴り方のバリエーションは、ドイツ語綴り字改革(例えば、任意の適切な単語形態分析装置を用いて)と関連付けてデータ調査すること、および/または、その他同類の調査をすることで取得され得る。一つの実施例として、ドイツ語綴り字改革に関する情報は、ドイツ語に関する幅広い情報を公開してきた財団であるInstitut fuer Deutsche Sprache(ドイツ言語研究所)によって、http://www.ids−mannheim.de/org/で提供される。図8に示すように、本表は、ユーザクエリを拡張して、使われ得る(ブロック802〜804)。次いで、反応する文書のサーチにも使われ得る(ブロック806〜808)。
このように、サーチ結果を改善するために、様々な技術が記載されてきた。これら技術は、単独で、互いに組み合せて、ならびに/もしくは、他の技術と組み合わせて、適用され得るということは、理解される。図9は、文書のインデックスまたはデータベースのサーチを実行するために、上述したような言語学的技術を適用する一般的プロセスを示す。図9に示すように、クエリがユーザから受け取られたとき(ブロック902)、上述の1つ以上の技術を適用して、クエリは拡張される(ブロック904)。次いで、拡張クエリは、反応する文書を位置づけるために、データベースインデックスと比較される(ブロック906)。次いで、これら反応する文書は、ユーザに返却または識別される(ブロック908)。
様々な変更が、本発明の実施形態に従って、上述のシステムや方法でなされ得ることは、理解される。例えば、サーチ結果をさらに強化するために、上述の技術は、スペル修正、同意語および/または関連語への拡張、言語翻訳、スパム削除、ならびに/もしくは、その他など他の技術と組み合わせて、適用され得る。他の例として、幾つかの実施形態において、多数のサーチが、ユーザのクエリに応答して実行され得る。例えば、サーチは、最初に、ユーザの当初のクエリを用いて実行され、引き続き、そのクエリの拡張または再書き込みバージョンを用いて、1つ以上のサーチが実行され得る。これらサーチの結果は評価され得(例えば、ユーザの優先度やサーチ履歴を考慮した情報を用いて)、最も有用でありそうと判断された結果が返却され得る。例えば、当初のクエリから最も高品質な結果は、拡張クエリからの結果によって補われ得る。これは、拡張クエリからの結果の方が、より高品質または匹敵する品質であると判断された場合においてである。代替的に、あるいは、追加的に、拡張クエリにある単語は、その重み付けが異なる場合もあり得る。例えば、当初のクエリ単語に高い重み付けを、拡張によって追加された単語には低い重み付けが割り当てられ得る。
さらに、上述の実施例は、ユーザのクエリを拡張することを含むが、他の実施形態において、文書インデックス自身も、その代わりに(あるいは、追加として)、拡張され得る。図10は、図3に示される文書におけるこのような拡張インデックスの実施例を示す。図10に示されるように、様々な複合語、屈折形セットおよび綴り字異形が、インデックスの左側の列に一緒になってグループ化されている。また、そのグループにある任意の単語を含む文書は、右側の列にリスト化して示されている。図11に示されるように、拡張インデックスが一度作成されたら(ブロック1102)、ユーザのクエリ(ブロック1104)は、クエリ拡張することなしに、インデックスと直接比較され得る(ブロック1106)。代替的に、インデックス拡張とクエリ拡張との幾つかの組合せも、使われ得る。
さらに、上記で提供された実施例の多くは、ドイツ語のコンテキストの中で行われてきたが、上述の技術は、他の言語においても同様に、容易に適用可能であることは、理解される。各言語には、サーチにおいて問題となる各言語学的特徴セットがある。このように、任意の言語に対するサーチエンジンおよび/または汎用サーチエンジンを設計するため、これらの問題を識別し、解決すべく、努力がなされ得る。例えば、ランダムサーチは、どのサーチ単語が問題を生じるかを調べるために実行され得る。次いで、そのサーチ単語を変化させることで、改善がなされ得たかどうかを確認し得る。ユーザのセッションも、ユーザのサーチ挙動のパターンを見出すために分析され得る。例えば、ユーザは、言語の問題ある側面を補償するために、何らかの細工をし得る。一度、問題エリアのセットが特定されたら、作業は解決策を生み出すため行われ得る。潜在的解決策がテストまたはシミュレーションされ得ることで、その有効性と、その実行に必要な労力が判断される。
本発明の好ましい実施形態が、本明細書に記載され、図示されてきたが、上述は単なる例示であって、本発明の精神と範囲から逸脱することなく、変更がこれら実施形態になされ得ることは理解される。このように、本発明は、以下の特許請求の範囲によってのみ、定義されることを意図している。
Claims (23)
- 少なくとも1つのクエリ単語を含むクエリを受け取ることと、
(A)該クエリが1つ以上の複合クエリ単語を含むか否かを判断し、含む場合は、該1つ以上の複合クエリ単語の1つ以上の代替的表現を含むように該クエリを自動的に拡張することと、
(B)1つ以上のクエリ単語が屈折形セットに含まれるか否かを判断し、含まれる場合は、該屈折形セットから1つ以上の対応する屈折形を含むように該クエリを自動的に拡張することと、
(C)1つ以上のクエリ単語が綴り字異形セットに含まれるか否かを判断し、含まれる場合は、該綴り字異形セットから1つ以上の対応する綴り字異形を含むように該クエリを自動的に拡張すること
の少なくとも1つを実行することと、
該拡張クエリを用いてデータベースをサーチすることと、
結果をユーザに返すことと
を包含する、方法。 - 前記クエリが1つ以上の複合クエリ単語を含むか否かを判断し、含む場合は、該1つ以上の複合クエリ単語の1つ以上の代替的表現を含むように該クエリを自動的に拡張することを包含する、請求項1に記載の方法。
- 1つ以上のクエリ単語が屈折形セットに含まれるか否かを判断し、含まれる場合は、該屈折形セットから1つ以上の対応する屈折形を含むように前記クエリを自動的に拡張することを包含する、請求項1に記載の方法。
- 1つ以上のクエリ単語が綴り字異形セットに含まれるか否かを判断し、含まれる場合は、該綴り字異形セットから1つ以上の対応する綴り字異形を含むように前記クエリを自動的に拡張することを包含する、請求項1に記載の方法。
- 前記(B)を実行することをさらに包含し、
前記綴り字異形セットから1つ以上の対応する綴り字異形を含むように前記クエリを自動的に拡張することは、前記屈折形セットから1つ以上の対応する屈折形を含むように該クエリを自動的に拡張することの前に実行される、請求項4に記載の方法。 - 前記(A)、(B)および(C)の少なくとも2つを実行することを包含する、請求項1に記載の方法。
- 前記クエリが1つ以上の複合クエリ単語を含むか否かの判断が、クエリ単語と複合語のリストとを比較することを包含する、請求項1に記載の方法。
- 前記1つ以上の複合クエリ単語の前記1つ以上の代替的表現が、前記複合語のリストから取得される、請求項7に記載の方法。
- 前記クエリがドイツ語で書かれている、請求項1に記載の方法。
- アクションが記載順に実行される、請求項1に記載の方法。
- 文書と関連付けた単語セットを識別することと、
該文書と関連付けた該単語セットの中の少なくとも1つの単語の1つ以上の綴り字異形と、
該文書と関連付けた該単語セットの中の少なくとも1つの複合語の1つ以上の代替的表現と、
該文書と関連付けた該単語セットの中の少なくとも1つの単語の1つ以上の更なる屈折形と、
のうちの1つ以上と該文書をさらに関連付けることによって、該文書と関連付けた該単語セットを拡張することと、
該拡張単語セットを用いて該文書をインデックス化することと
を包含する、方法。 - ユーザから、前記綴り字異形、代替的表現または屈折形のうちの一つ以上を含むクエリを受け取ることと、
前記文書を該クエリに反応するものとして、該ユーザに識別することと
をさらに包含する、請求項11に記載の方法。 - 前記文書が、ウェブページを含む、請求項11に記載の方法。
- ハイフン連結語を第一の文書セットからサーチすることと、
該ハイフン連結語に対応するハイフンなし語を該第一の文書セットからサーチすることと、
該ハイフン連結語と該対応するハイフンなし語との間の関連セットを生成することと
を包含する、方法。 - 前記第一の文書セットから、前記ハイフンなし語と対応するハイフン連結語とに対応する分離した語のペアをサーチすることと、
該分離した語のペアを、該ハイフン連結語と該対応するハイフンなし語との間の前記関連セットとさらに関連づけることと
をさらに包含する、請求項14に記載の方法。 - 第一のクエリ単語を含むクエリをユーザから受け取ることと、
該第一のクエリ単語を、前記ハイフン連結語と対応するハイフンなし語との間の関連セットの中に位置づけることと、
該クエリを、該ハイフン連結語と対応するハイフンなし語との間の関連セットの中の該第一のクエリ単語と関連する第二のクエリ単語を含むように拡張することと
をさらに包含する、請求項14に記載の方法。 - 前記拡張クエリを使って、サーチを実行することと、
前記クエリに反応する1つ以上の文書のリストを前記ユーザに送ることと
をさらに包含する、請求項16に記載の方法。 - ハイフン連結語を文書に位置づけることと、
該ハイフン連結語と対応するハイフンなし語との間の関連セットの中から、該ハイフン連結語をサーチすることと、
該ハイフン連結語が、該ハイフン連結語と対応するハイフンなし語との間の関連セットの中に見つからない場合、ハイフン連結語からハイフンを除去することと、
該ハイフン除去語を用いて、該文書をインデックス化することと
をさらに包含する、請求項14に記載の方法。 - コンピュータ読み込み可能媒体に組み込まれたコンピュータプログラムパッケージであって、
プロセッサによって実行されたときにおいて、
少なくとも1つのクエリ単語の1つ以上の綴り字異形を含むことで、ユーザから受け取ったクエリを拡張することと、
少なくとも1つの複合クエリ単語の1つ以上の代替的表現で、該クエリを拡張することと、
少なくとも1つのクエリ単語の1つ以上の屈折形で、該クエリを拡張することと
からなる群から選択された1つのアクションをプロセッサが実行させる命令を含む、コンピュータプログラムパッケージ。 - プロセッサによって実行されたときにおいて、
前記拡張クエリを用いて、文書のデータベースをサーチすることと、
該拡張クエリに反応する1つ以上の文書を識別することと、
前記ユーザに送信するために、該1つ以上の文書のリストを準備することと
を包含するアクションをプロセッサに実行させる命令をさらに含む、請求項19に記載のコンピュータプログラムパッケージ。 - プロセッサによって実行されたときにおいて、
前記拡張クエリを他のコンピュータシステムに送ることと、
該他のコンピュータシステムから、該拡張クエリに反応する1つ以上の文書のリストを受け取ることと
を包含するアクションをプロセッサに実行させる命令をさらに含む、請求項19に記載のコンピュータプログラムパッケージ。 - 文書グループを含む文書データベースと、
クエリを受け取り、1つ以上の言語学的技術の利用で該クエリを拡張し、該クエリに反応する情報を該文書データベースの文書からサーチするように動作可能なクエリ処理ロジックと
を含む、情報検索システム。 - 前記1つ以上の言語学的技術が、複合語拡張、屈折形セット拡張、または、綴り字拡張のうちの一つ以上を含む、請求項22に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/749,730 US20050149499A1 (en) | 2003-12-30 | 2003-12-30 | Systems and methods for improving search quality |
PCT/US2004/043918 WO2005066847A2 (en) | 2003-12-30 | 2004-12-29 | Systems and methods for improving search quality |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007517338A true JP2007517338A (ja) | 2007-06-28 |
JP2007517338A5 JP2007517338A5 (ja) | 2008-02-21 |
Family
ID=34711122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006547562A Withdrawn JP2007517338A (ja) | 2003-12-30 | 2004-12-29 | サーチ品質の改善システムおよび改善方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20050149499A1 (ja) |
EP (1) | EP1704495A2 (ja) |
JP (1) | JP2007517338A (ja) |
CN (1) | CN1898670A (ja) |
BR (1) | BRPI0418230A (ja) |
WO (1) | WO2005066847A2 (ja) |
Families Citing this family (76)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7027987B1 (en) | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
WO2003012576A2 (en) * | 2001-07-27 | 2003-02-13 | Quigo Technologies Inc. | System and method for automated tracking and analysis of document usage |
AU2002326118A1 (en) | 2001-08-14 | 2003-03-03 | Quigo Technologies, Inc. | System and method for extracting content for submission to a search engine |
US9946788B2 (en) * | 2002-07-23 | 2018-04-17 | Oath Inc. | System and method for automated mapping of keywords and key phrases to documents |
US7440941B1 (en) | 2002-09-17 | 2008-10-21 | Yahoo! Inc. | Suggesting an alternative to the spelling of a search query |
CA2468481A1 (en) * | 2003-05-26 | 2004-11-26 | John T. Forbis | Multi-position rail for a barrier |
US7617205B2 (en) | 2005-03-30 | 2009-11-10 | Google Inc. | Estimating confidence for query revision models |
US7293005B2 (en) | 2004-01-26 | 2007-11-06 | International Business Machines Corporation | Pipelined architecture for global analysis and index building |
US8296304B2 (en) | 2004-01-26 | 2012-10-23 | International Business Machines Corporation | Method, system, and program for handling redirects in a search engine |
US7499913B2 (en) | 2004-01-26 | 2009-03-03 | International Business Machines Corporation | Method for handling anchor text |
US7424467B2 (en) * | 2004-01-26 | 2008-09-09 | International Business Machines Corporation | Architecture for an indexer with fixed width sort and variable width sort |
US7672927B1 (en) * | 2004-02-27 | 2010-03-02 | Yahoo! Inc. | Suggesting an alternative to the spelling of a search query |
US20050267872A1 (en) * | 2004-06-01 | 2005-12-01 | Yaron Galai | System and method for automated mapping of items to documents |
US9223868B2 (en) | 2004-06-28 | 2015-12-29 | Google Inc. | Deriving and using interaction profiles |
US7752203B2 (en) * | 2004-08-26 | 2010-07-06 | International Business Machines Corporation | System and method for look ahead caching of personalized web content for portals |
US7461064B2 (en) | 2004-09-24 | 2008-12-02 | International Buiness Machines Corporation | Method for searching documents for ranges of numeric values |
US7865495B1 (en) * | 2004-10-06 | 2011-01-04 | Shopzilla, Inc. | Word deletion for searches |
US20070189544A1 (en) | 2005-01-15 | 2007-08-16 | Outland Research, Llc | Ambient sound responsive media player |
US20060195361A1 (en) * | 2005-10-01 | 2006-08-31 | Outland Research | Location-based demographic profiling system and method of use |
US20060173828A1 (en) * | 2005-02-01 | 2006-08-03 | Outland Research, Llc | Methods and apparatus for using personal background data to improve the organization of documents retrieved in response to a search query |
US9092523B2 (en) * | 2005-02-28 | 2015-07-28 | Search Engine Technologies, Llc | Methods of and systems for searching by incorporating user-entered information |
KR101532715B1 (ko) | 2005-03-18 | 2015-07-02 | 써치 엔진 테크놀로지스, 엘엘씨 | 서치 결과를 향상시키기 위해 사용자로부터의 피드백을 적용하는 서치 엔진 |
US7937396B1 (en) | 2005-03-23 | 2011-05-03 | Google Inc. | Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments |
US7870147B2 (en) * | 2005-03-29 | 2011-01-11 | Google Inc. | Query revision using known highly-ranked queries |
US7565345B2 (en) * | 2005-03-29 | 2009-07-21 | Google Inc. | Integration of multiple query revision models |
US20060230005A1 (en) * | 2005-03-30 | 2006-10-12 | Bailey David R | Empirical validation of suggested alternative queries |
US7636714B1 (en) * | 2005-03-31 | 2009-12-22 | Google Inc. | Determining query term synonyms within query context |
US20060223635A1 (en) * | 2005-04-04 | 2006-10-05 | Outland Research | method and apparatus for an on-screen/off-screen first person gaming experience |
US20060186197A1 (en) * | 2005-06-16 | 2006-08-24 | Outland Research | Method and apparatus for wireless customer interaction with the attendants working in a restaurant |
US8417693B2 (en) | 2005-07-14 | 2013-04-09 | International Business Machines Corporation | Enforcing native access control to indexed documents |
US9715542B2 (en) | 2005-08-03 | 2017-07-25 | Search Engine Technologies, Llc | Systems for and methods of finding relevant documents by analyzing tags |
US7321892B2 (en) * | 2005-08-11 | 2008-01-22 | Amazon Technologies, Inc. | Identifying alternative spellings of search strings by analyzing self-corrective searching behaviors of users |
US8176101B2 (en) | 2006-02-07 | 2012-05-08 | Google Inc. | Collaborative rejection of media for physical establishments |
US7937265B1 (en) | 2005-09-27 | 2011-05-03 | Google Inc. | Paraphrase acquisition |
WO2007038713A2 (en) * | 2005-09-28 | 2007-04-05 | Epacris Inc. | Search engine determining results based on probabilistic scoring of relevance |
US20070083323A1 (en) * | 2005-10-07 | 2007-04-12 | Outland Research | Personal cuing for spatially associated information |
US7627548B2 (en) * | 2005-11-22 | 2009-12-01 | Google Inc. | Inferring search category synonyms from user logs |
US7895223B2 (en) | 2005-11-29 | 2011-02-22 | Cisco Technology, Inc. | Generating search results based on determined relationships between data objects and user connections to identified destinations |
US7756859B2 (en) * | 2005-12-19 | 2010-07-13 | Intentional Software Corporation | Multi-segment string search |
US7809605B2 (en) * | 2005-12-22 | 2010-10-05 | Aol Inc. | Altering keyword-based requests for content |
US20070150342A1 (en) * | 2005-12-22 | 2007-06-28 | Law Justin M | Dynamic selection of blended content from multiple media sources |
US7813959B2 (en) * | 2005-12-22 | 2010-10-12 | Aol Inc. | Altering keyword-based requests for content |
US20070150341A1 (en) * | 2005-12-22 | 2007-06-28 | Aftab Zia | Advertising content timeout methods in multiple-source advertising systems |
US20070150343A1 (en) * | 2005-12-22 | 2007-06-28 | Kannapell John E Ii | Dynamically altering requests to increase user response to advertisements |
US20070150346A1 (en) * | 2005-12-22 | 2007-06-28 | Sobotka David C | Dynamic rotation of multiple keyphrases for advertising content supplier |
US7849144B2 (en) | 2006-01-13 | 2010-12-07 | Cisco Technology, Inc. | Server-initiated language translation of an instant message based on identifying language attributes of sending and receiving users |
WO2007106148A2 (en) * | 2006-02-24 | 2007-09-20 | Vogel Robert B | Internet guide link matching system |
US8195683B2 (en) * | 2006-02-28 | 2012-06-05 | Ebay Inc. | Expansion of database search queries |
US8732314B2 (en) * | 2006-08-21 | 2014-05-20 | Cisco Technology, Inc. | Generation of contact information based on associating browsed content to user actions |
US7831472B2 (en) | 2006-08-22 | 2010-11-09 | Yufik Yan M | Methods and system for search engine revenue maximization in internet advertising |
US8087019B1 (en) | 2006-10-31 | 2011-12-27 | Aol Inc. | Systems and methods for performing machine-implemented tasks |
US7630978B2 (en) * | 2006-12-14 | 2009-12-08 | Yahoo! Inc. | Query rewriting with spell correction suggestions using a generated set of query features |
US9002869B2 (en) * | 2007-06-22 | 2015-04-07 | Google Inc. | Machine translation for query expansion |
US8099401B1 (en) | 2007-07-18 | 2012-01-17 | Emc Corporation | Efficiently indexing and searching similar data |
US8903792B2 (en) * | 2007-08-14 | 2014-12-02 | Yahoo! Inc. | Method and system for intent queries and results |
RU2480822C2 (ru) * | 2007-08-31 | 2013-04-27 | Майкрософт Корпорейшн | Разрешение кореференции в чувствительной к неоднозначности системе обработки естественного языка |
CN101131706B (zh) * | 2007-09-28 | 2010-10-13 | 北京金山软件有限公司 | 一种查询修正方法及系统 |
US8412571B2 (en) | 2008-02-11 | 2013-04-02 | Advertising.Com Llc | Systems and methods for selling and displaying advertisements over a network |
US8726146B2 (en) | 2008-04-11 | 2014-05-13 | Advertising.Com Llc | Systems and methods for video content association |
US7890516B2 (en) * | 2008-05-30 | 2011-02-15 | Microsoft Corporation | Recommending queries when searching against keywords |
CN101599065A (zh) * | 2008-06-05 | 2009-12-09 | 日电(中国)有限公司 | 相关查询组织系统和方法 |
KR101040119B1 (ko) * | 2008-10-14 | 2011-06-09 | 한국전자통신연구원 | 콘텐츠 검색 장치 및 방법 |
US8504582B2 (en) * | 2008-12-31 | 2013-08-06 | Ebay, Inc. | System and methods for unit of measurement conversion and search query expansion |
US8392440B1 (en) | 2009-08-15 | 2013-03-05 | Google Inc. | Online de-compounding of query terms |
US8543381B2 (en) * | 2010-01-25 | 2013-09-24 | Holovisions LLC | Morphing text by splicing end-compatible segments |
US8560519B2 (en) * | 2010-03-19 | 2013-10-15 | Microsoft Corporation | Indexing and searching employing virtual documents |
US20150248698A1 (en) * | 2010-06-23 | 2015-09-03 | Google Inc. | Distributing content items |
US8375042B1 (en) | 2010-11-09 | 2013-02-12 | Google Inc. | Index-side synonym generation |
US11423029B1 (en) | 2010-11-09 | 2022-08-23 | Google Llc | Index-side stem-based variant generation |
US9235654B1 (en) * | 2012-02-06 | 2016-01-12 | Google Inc. | Query rewrites for generating auto-complete suggestions |
US9037591B1 (en) * | 2012-04-30 | 2015-05-19 | Google Inc. | Storing term substitution information in an index |
US8661049B2 (en) | 2012-07-09 | 2014-02-25 | ZenDesk, Inc. | Weight-based stemming for improving search quality |
CN103577416B (zh) | 2012-07-20 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 扩展查询方法及系统 |
US9245428B2 (en) | 2012-08-02 | 2016-01-26 | Immersion Corporation | Systems and methods for haptic remote control gaming |
US9292621B1 (en) | 2012-09-12 | 2016-03-22 | Amazon Technologies, Inc. | Managing autocorrect actions |
US11914664B2 (en) | 2022-02-08 | 2024-02-27 | International Business Machines Corporation | Accessing content on a web page |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0756933A (ja) * | 1993-06-24 | 1995-03-03 | Xerox Corp | 文書検索方法 |
US5694559A (en) * | 1995-03-07 | 1997-12-02 | Microsoft Corporation | On-line help method and system utilizing free text query |
US6424983B1 (en) * | 1998-05-26 | 2002-07-23 | Global Information Research And Technologies, Llc | Spelling and grammar checking system |
US6101492A (en) * | 1998-07-02 | 2000-08-08 | Lucent Technologies Inc. | Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis |
US6501855B1 (en) * | 1999-07-20 | 2002-12-31 | Parascript, Llc | Manual-search restriction on documents not having an ASCII index |
US20020123994A1 (en) * | 2000-04-26 | 2002-09-05 | Yves Schabes | System for fulfilling an information need using extended matching techniques |
US20030217052A1 (en) * | 2000-08-24 | 2003-11-20 | Celebros Ltd. | Search engine method and apparatus |
US6721728B2 (en) * | 2001-03-02 | 2004-04-13 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | System, method and apparatus for discovering phrases in a database |
US6741981B2 (en) * | 2001-03-02 | 2004-05-25 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration (Nasa) | System, method and apparatus for conducting a phrase search |
US6697793B2 (en) * | 2001-03-02 | 2004-02-24 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | System, method and apparatus for generating phrases from a database |
US6823333B2 (en) * | 2001-03-02 | 2004-11-23 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | System, method and apparatus for conducting a keyterm search |
US7209915B1 (en) * | 2002-06-28 | 2007-04-24 | Microsoft Corporation | Method, system and apparatus for routing a query to one or more providers |
US8856163B2 (en) * | 2003-07-28 | 2014-10-07 | Google Inc. | System and method for providing a user interface with search query broadening |
US20050131872A1 (en) * | 2003-12-16 | 2005-06-16 | Microsoft Corporation | Query recognizer |
-
2003
- 2003-12-30 US US10/749,730 patent/US20050149499A1/en not_active Abandoned
-
2004
- 2004-12-29 JP JP2006547562A patent/JP2007517338A/ja not_active Withdrawn
- 2004-12-29 CN CNA2004800388187A patent/CN1898670A/zh active Pending
- 2004-12-29 WO PCT/US2004/043918 patent/WO2005066847A2/en not_active Application Discontinuation
- 2004-12-29 BR BRPI0418230-8A patent/BRPI0418230A/pt not_active IP Right Cessation
- 2004-12-29 EP EP04815908A patent/EP1704495A2/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
CN1898670A (zh) | 2007-01-17 |
WO2005066847A3 (en) | 2005-10-06 |
US20050149499A1 (en) | 2005-07-07 |
EP1704495A2 (en) | 2006-09-27 |
BRPI0418230A (pt) | 2007-04-27 |
WO2005066847A2 (en) | 2005-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007517338A (ja) | サーチ品質の改善システムおよび改善方法 | |
US8612206B2 (en) | Transliterating semitic languages including diacritics | |
KR101004515B1 (ko) | 문장 데이터베이스로부터 문장들을 사용자에게 제공하는 컴퓨터 구현 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어가 저장되어 있는 유형의 컴퓨터 판독가능 기록 매체, 문장 데이터베이스로부터 확인 문장들을 검색하는 시스템이 저장되어 있는 컴퓨터 판독가능 기록 매체 | |
JP3820242B2 (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
JP5241828B2 (ja) | 辞書の単語及び熟語の判定 | |
JP2006252382A (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
KR20100022467A (ko) | 교차 언어 정보 검색 | |
KR101544690B1 (ko) | 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램 | |
US20090083026A1 (en) | Summarizing document with marked points | |
JP2006073012A (ja) | 予め定められた個数の予め定義された質問に応答することによって情報を管理するシステムおよび方法 | |
US10606903B2 (en) | Multi-dimensional query based extraction of polarity-aware content | |
US11238074B2 (en) | Efficient grammatical property alignment for a question answering system | |
JP5204244B2 (ja) | 誤訳の検出を支援する装置及び方法 | |
JP2021022211A (ja) | 問合せ対応支援装置、問合せ対応支援方法、プログラム及び記録媒体 | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
JP2007207127A (ja) | 質問応答システム、質問応答処理方法及び質問応答プログラム | |
JP2022055305A (ja) | テキスト要約を生成するテキスト処理方法、装置、デバイス及び記憶媒体 | |
JP4065346B2 (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US20220121694A1 (en) | Semantic search and response | |
JP5285491B2 (ja) | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 | |
JP2008204133A (ja) | 回答検索装置及びコンピュータプログラム | |
KR100452024B1 (ko) | 자연어 질의 응답 검색 엔진 및 검색 방법 | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP2008276561A (ja) | 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体 | |
JP2010040020A (ja) | キーワード抽出装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071226 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071226 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20080526 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20080616 |