JP5638616B2 - 情報検索方法およびシステム - Google Patents

情報検索方法およびシステム Download PDF

Info

Publication number
JP5638616B2
JP5638616B2 JP2012530900A JP2012530900A JP5638616B2 JP 5638616 B2 JP5638616 B2 JP 5638616B2 JP 2012530900 A JP2012530900 A JP 2012530900A JP 2012530900 A JP2012530900 A JP 2012530900A JP 5638616 B2 JP5638616 B2 JP 5638616B2
Authority
JP
Japan
Prior art keywords
word
search
document
documents
index data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012530900A
Other languages
English (en)
Other versions
JP2013505514A (ja
Inventor
イ ルオ
イ ルオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2013505514A publication Critical patent/JP2013505514A/ja
Application granted granted Critical
Publication of JP5638616B2 publication Critical patent/JP5638616B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

関連出願の相互参照
本出願は、「INFORMATION SEARCH METHOD AND SYSTEM」という名称の、2009年9月23日に出願された中国特許出願第200910174208.4号の優先権を主張し、その全体が参照によって本明細書に組み込まれる。
本開示は、通信分野におけるフルテキスト・データ検索技術に関し、特に情報検索方法および情報検索システムに関する。
インターネット検索エンジン技術およびインターネット検索企業の急速な開発で、情報検索システム(または検索エンジン)は、ますます増加するインターネットのユーザに対して必要なツールとなった。
人が検索エンジンを使用するとき、一般的なシナリオは、人が検索ワードを入力するか、または用語を検索し、検索エンジンのバックエンド・オペレーションを介して検索結果を獲得するものである。通常の検索結果を構成する3つの要素は、タイトル、要約、およびURL(または一般に、title(タイトル)、abstract(要約)、およびURLの3語の頭文字からなる頭字語であるTAUと呼ばれる)を含む。この3要素の内の要約は、情報量の観点から最も多い量の情報、ウェブページ表示効果の観点から最も大きい表示領域を概して含み、検索結果はユーザが求めているものであるかどうかを、要約内に含まれた情報に従って、ユーザが判定することができるように、検索結果がエンドユーザ経験の観点から正しいかどうかを主として判定する。したがって、高性能であり、柔軟であり、特注であり、優れたヒューマンマシン・ユーザ・インターフェースを有する要約生成システムは、検索エンジン(または情報検索システム)の必要不可欠な重要な構成要素である。
従来の要約生成方法は、ユーザの検索ワードに基づいてフルテキスト・データをリアルタイムで検索し、またフルテキスト検索の結果に基づいて、検索ワードと最もよく一致するパラグラフを要約として抽出するものである。これは、通常テキスト照合および加重アルゴリズムによって、ワードの頻度、ワード距離、および他のパラメータの計算を通じて行われる。最終的に、従来の要約生成方法は、タイトル、要約、およびURLを含む検索結果を最終表示としてユーザに提示する。
情報検索については、従来の検索エンジンは、フルテキスト・データにおいて一致検索を実施する必要がある。要約生成はまた、フルテキスト・データに基づく。フルテキスト・データの情報量が大きいときは、結果として長い検索時間、および低い検索効果を生じる傾向がある。
本開示は、既存の情報検索技術によって被る低い検索効果の問題を解決する情報検索方法およびシステムを提供する。
一態様では、本開示によって提供された情報検索方法は、各文書が対応する正引きインデックス・データを有する情報検索システムに適用可能である。各文書の正引きインデックス・データは、それぞれの文書内の各ワードをインデックスとして使用し、それぞれの文書内の各ワード位置を記録する。その方法は、以下に説明されるように多くのステップを含み得る。
・検索ワードを受信すること、および分割によって検索ワード内に含まれたキーワードを獲得すること
・情報検索システムの反転インデックス・データを介して、文書に対応するキーワードおよび正引きインデックス・データと一致する文書を検索すること
・文書の正引きインデックス・データに従って文書要約を決定すること、ならびに文書要約および情報を検索結果として出力すること
別の態様では、本開示によって提供された情報検索システムは、システムの反転インデックス・データおよび各文書の対応する正引きインデックス・データを記憶する記憶モジュールを含む。各文書の正引きインデックス・データは、それぞれの文書内の各ワードをインデックスとして使用し、それぞれの文書内の各ワード位置を記録する。そのシステムもまた、以下に説明されるように多くの他の構成要素を含み得る。
・システムの中に入力された検索ワードを受信するように構成された入力モジュール
・分割によって検索ワードに含まれたキーワードを獲得し、反転インデックス・データを介して文書に対応するキーワードおよび正引きインデックス・データに一致する文書を検索し、文書の正引きインデックス・データに従った文書要約を決定するように構成された検索モジュール
・文書要約および情報を検索結果として出力するように構成された出力モジュール
本開示の上記の実施形態は、検索を実施するために反転インデックス・データを使用し、検索ワードに一致する文書を獲得後、文書要約を生成するために文書の正引きインデックス・データを使用する。したがって、該技法は、フルテキスト・データより少ないデータ量を有する文書の正引きインデックス・データの特性を十分に活用するが、コンテンツの記述は依然として一定の正確さを保持する。検索結果を獲得するためにフルテキスト検索を使用する従来の情報システムと比較すると、本開示の実施形態は、検索ワードを使用することにより一致検索の効率を高め、要約生成の効率を高め、検索結果および生成された要約の正確さをある程度保証することが可能である。
本開示による情報検索の例示的流れ図である。 本開示による情報検索システムの例示的な図である。 本開示による情報検索システムの検索モジュールの例示的工程の流れ図である。 本開示による情報検索システムの検索モジュールの例示的工程の流れ図である。
本開示の実施形態は、図を参照して以下で詳細に説明される。
本開示の情報検索方法は、情報検索システムに適用可能である。情報検索システムは、文書(またはフルテキスト・データ)セットの反転インデックス・データを記憶するだけでなく、各文書に対応する独立した正引きインデックス・データを提供する。既存の汎用の情報検索システムは、概して文書セットの反転インデックス・データを含み、また各文書に対応する独立した正引きインデックス・データ(オープンソースのフルテキスト検索システムである、PostgreSQLなど)も含む。各文書に対応する独立した正引きインデックス・データを当面は有さない情報検索システムについては、様々な技法を使用して、文書セット全体の反転インデックス・データから各文書に対応する独立した正引きインデックス・データを獲得することが可能である。こうした工程は、オフライン状態で完了されることが可能であり、情報検索システムのオンライン検索性能に影響を及ぼすことはない。
文書セットの反転インデックス・データは、ワードに基づいて確立された文書インデックスである。たとえば、各ワードは、データベース内の記録であり、各ワードは、文書識別、位置などと続くキーワードである。3つの文書、ファイル1、ファイル2、およびファイル3が存在すると仮定する。文書のコンテンツは、以下に記載されている。
ファイル1(ワード1,ワード2,ワード3,ワード4,)
ファイル2(ワードa,ワードb,ワードc,ワードd,ワードa,ワードc,ワードd,)
ファイル3(ワード1,ワードa,ワード3,ワードd,)
上記の3つの文書からなる文書セットの反転インデックス・データは、次の通りである。ワード1(ファイル1,ファイル3)、ワード2(ファイル1)、ワード3(ファイル1,ファイル3)、ワードa(ファイル2,ファイル3)、など
文書の正引きインデックス・データは、文書内に含まれたワードに従った文書内のワード位置のインデックスである。たとえば、上記のファイル2に対して、ファイル2内に含まれた異なるワード位置がpos1、pos2などとして記録される場合は、正引きインデックス・データは次のように記載される。ファイル2(ワードa:pos1,pos5;ワードb:pos2;ワードc:pos3,pos6;ワードd:pos4,pos7,)
したがって、各文書の正引きインデックス・データは、文書および反転インデックス・データに従って獲得されることが可能である。
データの維持管理の便宜上、文書セットおよびその反転インデックス・データ、ならびに各文書の独立した正引きインデックス・データは、データベース形式に編成されることが可能である。ファイル形式などの他の形式も使用できる。簡略にするため、本開示の実施形態は、データベース形式に編成された文書セットおよび各文書の独立した正引きインデックス・データを使用して説明される。したがって本開示の範囲は、データベース形式に編成されることに限定されないことが理解される。
図1は、本開示の一実施形態に従って、情報検索サービスをユーザに提供する情報検索システムの例示的流れ図を示す。情報検索システムは、文書のフルテキスト・データを記憶するフルテキスト・データベース、反転インデックス・データを記憶する反転インデックス・データベース、および各文書の対応する正引きインデックス・データを記憶する正引きインデックス・データベースを含む。フルテキスト・データベース、正引きインデックス・データベース、ならびにフルテキスト・データベースおよび反転インデックス・データベースは、各文書の正引きインデックスがそれぞれの文書に一つずつ対応するように、定義されたインデックス(文書識別など)により相互に関連付けられる。
上記の情報検索システムに基づく情報検索の工程をここで説明する。
101では、情報システムが、ユーザによって提示された検索ワードを受信する。
情報検索システムは、情報検索インターフェースをユーザに提供することが可能である。このようなインターフェースは、検索ワードを入力し、検索ワードを情報検索システムに提示するために、ユーザに操作指示を提供することが可能である。ユーザによって入力された検索ワードは、ワード、複数のワードからなる位相、または関係演算子(ワード「and」「or」など)によって結合された複数のワード(または位相)であることが可能である。
102では、情報検索システムは、検索ワード内に含まれた1つまたは複数のキーワードを獲得するために、ユーザによって提示された検索ワードを分割し、次いで反転インデックス・データベース内の反転インデックス・データに従って、1つまたは複数のキーワードに一致する1つまたは複数の文書を発見し、発見された文書に従って、正引きインデックス・データベースから1つまたは複数の文書のそれぞれに対応する正引きインデックス・データを発見し、各文書の正引きインデックス・データに従って各文書要約を生成し、生成された要約および対応する文書のタイトル、URL、および他の情報を検索結果として使用する。
このステップでは、1つまたは複数のキーワードに一致する文書を判定後、情報システムは、このような文書(複数可)に対応する正引きインデックス・データを獲得することが可能である。情報検索システムによって発見された複数の文書が存在する可能性があるので、発見された情報検索結果およびユーザ経験の有効性を高めるために、情報システムは、発見された文書を、文書識別の対応する列を獲得するために、それぞれの文書と1つまたは複数のキーワードの一致する程度に従って高から低までにランク付けすることが可能である。
103では、情報検索システムは、生成された検索結果および文書識別の列に従って検索結果を出力する。検索結果は、検索結果のインターフェースで提示されることが可能である。検索結果は、1つまたは複数の文書のタイトル、URL、および要約を含む。要約は、概してキーワードを含む。要約は、1つまたは複数のキーワードに高度に一致する文書の一部であることが好ましい。
このステップでは、情報検索システムは、対応する文書のタイトル、URL、および要約を、先行ステップからの文書識別の列に従ったフルテキスト・データベースから獲得することが可能である。(概して、フルテキスト・データベースは、文書識別、タイトル、またはURLを、文書のフルテキストのインデックス・データとして使用することが可能である。)確実に正引きインデックス・データベースも文書のタイトルおよびURLを含む場合は、このような情報は、正引きインデックス・データベースから直接獲得することが可能であり、次いで文書識別の列の順番に従って出力または表示されることが可能である。情報検索システムはまた、出力検索結果の書式および文書要約の長さの制限を調整することも可能である。
一実施形態では、図2に示されたように、前述の情報検索システムは、以下の機能モジュール、入力モジュール21、検索モジュール22、および出力モジュール23を含む。該情報検索システムはまた、フルテキスト・データベース24、反転インデックス・データベース25、および正引きインデックス・データベース26も含むことが可能である。フルテキスト・データベース24は、様々な文書のフルテキスト・データを記憶し、文書のフルテキスト・データを記憶するために、文書識別、タイトル、またはURLをインデックスとして使用することが可能である。反転インデックス・データベース25は、各文書に対応する反転インデックス・データを記憶する。正引きインデックス・データベース26は、各文書に対応する正引きインデックス・データを記憶する。各モジュールによって実現された機能は、図1を参照して上述の流れ工程のステップに対応することが可能である。検索モジュール22は、さらに検索サブモジュール221、要約生成サブモジュール222、および結果提示サブモジュール223を含み得る。
図2は、以下に詳述されたように、情報検索の例示的工程を示す。
入力モジュール21は、ユーザによって提示された検索ワードを受信し、次いで検索ワードを検索モジュール22に提示する。検索モジュール22は、1つまたは複数のキーワードを獲得するために検索ワードを分割し、1つまたは複数のキーワードに従って、反転インデックス・データベース25内の1つまたは複数のキーワードに一致する1つまたは複数の文書を発見し、正引きインデックス・データベース26内の対応する文書の正引きインデックス・データに従って、1つまたは複数の文書のそれぞれの要約を生成し、次いで1つまたは複数の文書要約のそれぞれを含む検索結果を出力モジュール23に出力する。それぞれの文書のタイトルおよびURLが出力されることを必要とする場合、文書のタイトルおよびURLはさらに、フルテキスト・データベース24または反転インデックス・データベース25から獲得されることが可能である。検索結果を受信後、出力モジュール23は検索結果を出力する。
1つまたは複数のキーワードに対応する各文書に対して、検索モジュール22は、すべてのワードの正引き列および1つまたは複数のキーワードのみを含む正引きインデックス列を確立するために、正引きインデックス・データベース26で、その対応する正引きインデックス・データ内の各ワードを走査することが可能である。検索モジュール22は、これらの2つの列に従って、文書要約を獲得するために、正引き列またはフルテキスト・データ内の要約の開始点および終了点を決定する。検索モジュール22の情報検索機能の詳細の実施は、発見された文書の識別を記憶する文書識別、および発見された文書内に含まれたすべてのワードの正引き列を記憶するArray_A配列を含む一部の変数を必要とする。
正引き列は、文書のフルテキスト内の各ワードおよびそのアピアランスの位置を順に記録し、以下のようなワード文書と位置のリンクによって提示されることが可能である。
・Array_Aは、記録(pos1:ワード1,pos2:ワード2,pos3:ワード3,pos4:ワード4)を含む。ただし、「pos」はフルテキスト・データ内のそれぞれのワードの先頭文字の位置を表し、「ワード」はワードテキストを表す。換言すると、Array_Aは、各ワードテキストを記録するために、それぞれのワードの位置をインデックスとして使用する。
・検索ワードの分割後に獲得された各キーワードの正引きインデックス列を記憶するMap_A配列。このような正引きインデックス列は、各キーワード位置を対応する文書内に記録し、赤黒木構造を使用することが可能である。(赤黒木は、二分木の特別な型であり、データ構造は、データブロックなどのデータを編成するためにコンピュータ科学に使用される。すべてのデータブロックは、ノードで記憶される。)赤黒木を使用して、キーワードのテキストおよび位置のリンクを編成し記憶することが可能である。たとえば、上記のArray_A内のワード1およびワード2がキーワードである場合、次のようになる。
・Map_A記録(ワード1:pos1,pos4;ワード2:pos2 ...)。ただし、posはフルテキスト・データ内のそれぞれのワードの先頭文字の位置を表し、キーワードはそれぞれのキーワードのテキストを表す。換言すると、Map_Aは、それぞれのワード位置を記録するために、ワードテキスト(このワードはキーワードに一致するワードである)をインデックスとして使用する。
・要約の開始位置および終了位置のそれぞれを記憶するRes_BegおよびRes_End。
・要約の開始位置および終了位置のパラメータを含む最良の要約パスを記憶するBest_Path。そのパラメータを使用して、正引きインデックス・データまたはフルテキスト・データ内のテキストの対応する部分を定義することが可能である。テキストの一部と最良の要約パスによって定義されたキーワードの一致する程度は、他の部分より高い。
・RLは、要約の長さの割り当てられた値を表し、これは通常数字で表わされる。その値は、システムの起動時に割り当てられることが可能である。
検索モジュール22の情報検索行程は、2段階に分割することが可能である。(1)1つまたは複数のキーワード(キーワードを含む文書またはキーワードと同等のワードを含む文書など)に一致する1つまたは複数の文書を検索する文書検索段階、ならびに(2)発見された文書のそれぞれに対して対応する要約を生成するための要約生成段階。
文書検索段階で、検索サブモジュール221は、ユーザによって提示された検索ワードを分割して検索ワード内に含まれた1つまたは複数のキーワードを獲得し、キーワードに一致する文書識別を発見するために反転インデックス・データ25内で一致を発見し、識別を一致の程度に従って高から低までにランク付けし、ランク付けされた識別を文書識別の列として記憶する。この段階の分割は、既存の中国の分割技法などの複数の技法によって実現可能である。反転インデックス・データベース24内の一致を発見するための操作は、既存のフルテキスト検索技法を使用できる。この実施形態で使用された分割およびフルテキスト検索技法は、本開示の範囲を限定しないことが理解できる。
要約生成段階で、要約生成サブモジュール222は、文書識別の列内の文書識別に従って、正引きインデックス・データベース26内の各文書の文書識別に対応する正引きインデックス・データをトラバースする。要約生成サブモジュール222は、トラバースされたワードのそれぞれの位置およびテキストを記録し、配列Array_A(概して配列データ構造の中に記録させる)内にそれらを置く。それぞれのワードがキーワードの1つに一致する場合、セットMap_A内のそれぞれのワードの位置およびテキストが記録される。文書の正引きインデックス・データのトラバース完了後、Array_A内のすべてのワードテキストの全長がRLより短い場合は、最良の要約パスは、Array_A内の最初のワード位置から最後のワード位置までである。そうでない場合は、要約生成サブモジュール222は、要求を満たす最短のテキスト・パラグラフの開始ワードならびに終了ワードに対応するRes_BegおよびRes_Endを発見するために、Map_A内のワードテキストおよび位置リンクテーブルをトラバースする。このような場合は、Array_A内のRes_BegからRes_Endまでのパスが、最良の要約パスである。最良の要約パスを決定後、要約生成サブモジュール222は、決定された最良の要約パスに従って、正引きインデックス・データまたはフルテキスト・データから関連する部分を要約として決定し、それを結果提示サブモジュール223に提示する。
最良の要約パスの状態は、以下を含むことがある。(1)Res_BegからRes_Endまでのテキスト・パラグラフの長さは、RL以下である、(2)Res_BegからRes_Endまでの最多数のキーワードが存在する。
上記2つの状態を満たす複数の要約パスが存在する場合は、要約パスによって定義された要約から、一実施形態では、反復キーワードの最多数を有する要約パスが最良の要約パスである。
結果提示サブモジュール223は、対応する文書のタイトル、URLおよび他の情報を文書識別の列内に記録された各文書識別に従って、フルテキスト・データベース24または反転インデックス・データベース25から発見し、それらを要約とともに出力モジュール23に提示する。
出力モジュール23は、要約書式引数パラメータFmt_Arg(書式引数の英語の要約)を含んでもよい。出力モジュール23は、パラメータFmt_Argに従って要約テキスト、文書のタイトル、URL、および他の情報を初期化し、文書識別の列内のランク付けした文書識別の列に従って、対応する文書(タイトル、URL、および要約など)の関連情報をプリセット・フォーマットの形式で表示する。その結果は、ユーザがより良いユーザ経験を有することができるように、顕著で識別が容易な検索結果を提供するために、ワールド・ワイド・ウェブに広く使用されているHTML(HyperText Markup Language(ハイパーテキスト・マークアップ言語))などのウェブ・マーキング言語によって表示されることが好ましい。
文書の正引きインデックス・データをトラバースする、要約生成サブモジュール222の例示的流れ工程が、図3Aに示されている。トラバースの完了後、最良の要約パスを生成する例示的流れ工程が、図3Bに示されている。
要約生成サブモジュール222は、文書識別それぞれの列内の各文書の文書識別の正引きインデックス・データをトラバースする。図3Aに示されたように、要約生成サブモジュール222が文書識別を文書識別の列から獲得した後、要約生成サブモジュール222は、対応する正引きインデックス・データを正引きインデックス・データベース26から発見し、以下に記載されたように多くのステップを実施する。
301では、正引きインデックス・データ内のワードがワード毎にトラバースされる。
302では、工程は、ワードがトラバースされたかどうかを判定し、肯定の場合は303に進み、そうでない場合は、工程は306に進む。
このステップでは、ワードがトラバースされることが不可能な2つの状況が存在する。一つは、トラバースが、正引きインデックス・データの最後まで通過してしまった場合である。換言すると、現在の正引きインデックス・データのトラバースが終わったということである。他方の状況は、現在の正引きインデックス・データが空である場合である。
303では、正引きインデックス・データ内のワードテキストおよびワード位置が、Array_Aの中に記録される。ワードの開始位置および終了位置のそれぞれは、Array_A内の記録から決定されることが可能である。中国語のワード
Figure 0005638616
(この直訳は英語で「computing counting machine」である)の例として、開始位置は中国語文字
Figure 0005638616
(英語で「computing」)の位置であり、終了位置は中国語文字「机」(英語で「machine」)の位置である。ワードスペースを含む英語または他の言語については、ワードの開始位置および終了位置は、ワードスペースによって決定されることが可能である。
304では、工程は、ワードがキーワードと同じであるかどうかを判定し、肯定の場合は305に進み、そうでない場合は301に進み、関係ワードの後に他のワードを引き続きトラバースする。
305では、ワードテキストおよびワード位置が、Map_A内の正引きインデックス・データ内に記録される。
要約生成サブモジュール222が正引きインデックス・データをトラバースした後、要約生成サブモジュール222は、トラバースによって獲得されたArray_AおよびMap_Aに従って最良の要約パスを決定し、最良の要約パスのパラメータ値をBest_Pathに割り当てることが可能である。例示的工程は、図3Bに示されており、以下に記載された多くのステップを含む。
310では、工程は、0を変数Nに割り当て、ヌルをBest_Pathに割り当てる。
311では、工程は、ワード位置値をMap_AからRes_Begまでに割り当て、Res_Begから決定された位置値までに定義されたRLの長さを有するテキスト・パラグラフがキーワードを含むように、ワード位置値をRLに従ってArray_Aから決定する。このような位置値が獲得可能な場合は、工程は312に進み、そうでない場合は、工程は316に進む。
312では、工程は、Res_BegからRes_Endまでのテキストの長さがRLを超えないように、決定された位置値をRes_Endに割り当てる。好ましくは、Array_A内の記録に従って、Res_Begは、Array_A内のワードの開始位置(またはワードの最初の文字の位置)に対応し、Res_Endは、Res_BegからRes_Endまでのテキスト・パラグラフのコンテンツが明確に完了するように、Array_A内のワードの終了位置(またはワードの最後の文字の位置)に対応する。
313では、工程は、Map_Aに従って、Res_BegからRes_Endまでのテキスト・パラグラフ内の多くのキーワードを決定し、その数を変数nに割り当てる。
314では、工程は、nがNより大きいかどうかを判定し、肯定の場合は315に進み、そうでない場合は、工程は次の異なるRes_Begを決定するために311に戻る。
315では、工程は、nの値をNに割り当て、ゼロはnを除去し、現在のRes_BegおよびRes_EndをBest_Path内に記録し、次の異なるRes_Endを決定するために311に戻る。
316では、工程は、Best_Pathの現在の値が最良の要約パスであることを判定し、Best_Pathを出力する。
図3Bに工程によって示されたように、要約生成サブモジュール222は、複数の循環操作を通して、異なる位置値をRes_Begに毎回割り当てることによって、Res_BegおよびRes_Endによって定義されたテキスト・パラグラフ内の最多数のキーワードが存在する場合は、Res_BegからRes_Endに存在するので、Best_Pathを記録する。したがって、Best_Path内に記録されたRes_BegおよびRes_Endによって定義されたテキスト・パラグラフ内に最多数のキーワードが存在し、最良の要約パスが獲得される。
最良の要約パスを決定する工程の間に、正引きインデックス・データの最良の要約パスは、各正引きインデックス・データのトラバース後、トラバースの結果によって即座に決定されることが可能であることに留意されたい。あるいは、最良の要約パスは、すべての正引きインデックス・データのトラバース後、各正引きインデックス・データの結果をトラバースすることによって決定されることが可能である。
以下の説明は、実施工程を示すためにインターネットに適用可能な情報検索システムの例を使用する。
インターネットに公開された新しいウェブページがあると、ウェブページ・コンテンツの正引きインデックス・データは、情報検索システムの正引きインデックス・データベースの中に記憶され、対応するウェブページとの関係が確立される。この実施形態では、新しく公開されたウェブページおよびその対応する正引きインデックス・データは以下の通りである。
ウェブページ文書1:識別=100、タイトル「secured technology applicable to computer(コンピュータに適用可能な安全な技術)」
対応する正引きインデックス・データは、100字の長さを有する(computer:2,50,90;security:25, ...)である。これは、ワード「computer」は、ウェブページ文書1のフルテキスト文書の2番目、50番目、および90番目の文字の位置に現れ、ワード「security」は、25番目の文字の位置に現れることを表す。
ウェブページ文書2:識別=200、タイトル「how to increase security of the computer(コンピュータの安全を高める方法)」
対応する正引きインデックス・データは、100字の長さを有する(computer:10,70;security:15, ...)である。これは、ワード「computer」は、ウェブページ文書2のフルテキスト文書の10番目および70番目の文字の位置に現れ、ワード「security」は、15番目の文字の位置に現れることを表す。
反転インデックス・データは、computer(識別100,200)、security(識別100,識別200),などを含む。
情報検索システムの検索結果のデータ書式はHTMLであり、要約テキストの長さは50文字を超えない。
システムがユーザによって提示された検索ワード「computer security」を受信すると、システムは、分割後キーワード「computer」および「security」を獲得する。システムは、反転インデックス・データ内で一致検索を行い、2つのキーワードを含むウェブページが、識別=100を有するウェブページおよび識別=200を有するウェブページを含むことを発見する。次いでシステムは、ウェブページに従って、対応する正引きインデックス・データを決定する。キーワードは、識別=100を有するウェブページ内に4回、識別=200を有するウェブページ内に3回現れるので、システムは、前者がより高度の一致を有すると見なし、次いでその2つの正引きインデックス・データをそれぞれトラバースする。
文書識別=100を有するウェブページの正引きインデックス・データをトラバースした後、以下が獲得できる。
Array_A:(...2: computer; ...25: security; ... 50: computer; ... 90: computer; ...);および
Map_A:(computer:2,50,90;security:25)
獲得されたArray_AおよびMap_Aに従って、開始位置2から終了位置52までテキスト・パラグラフ内に3つのキーワードが存在し、その数は、長さ50を有する他のあらゆるテキスト・パラグラフ内のキーワードの数より多いことがさらに獲得されることが可能である。したがって、開始位置および終了位置[2,52]は、最良の要約パスを提供する。
同じ理由から、識別=200を有するウェブページの正引きインデックス・データのトラバース結果を通じて、最良の要約パスは[1,50]であると決定される。
次に、システムは、決定された最良の要約パスに従って要約を生成し、識別=100を有するウェブページならびに識別=200を有するウェブページのタイトル、URL、および要約を、文書と検索ワードとの一致の程度に従った検索結果としてユーザにHTML書式で表示する。
本開示はまた、上述の技法に対する代替手段も提供する。要約の生成中、要約パスは、正引きインデックス・データのトラバースによって獲得されないが、フルテキスト・データのトラバースによって獲得され、要約テキストは、獲得された要約パスに従って、フルテキストから対応して獲得される。要約パスのトラバース工程および決定方法の詳細は、上述のそれらの詳細と同様であり、詳細は、簡略にするために提供されない。
従来の情報検索技法に比較すると、本開示によって提供された技法は、検索ワードの分割のみを必要とする。対照的に、従来の情報検索技法は、検索ワードおよびフルテキスト・データの両方の分割を必要とする。したがって、本開示によって提供された技法の検索効率は、従来の技法より高い。また、本開示によって提供された技法は、文書要約を生成するために、文書の正引きインデックス・データも使用する。対照的に、従来の技法は、文書要約を生成するために、文書のフルテキスト・データを使用する。一方、文書の正引きインデックス・データは、同じ文書のフルテキスト・データよりデータ量が少なく、それによって効率が高まる。他方では、ワードの頻度および回数を計算するために文書の正引きインデックス・データを使用することは比較的容易であり、それによって文書要約を好都合に正確に決定し、かつフルテキスト・データに対応するコンテンツを包括的に集約する。したがって、要約を生成するために文書の正引きインデックス・データを使用することにより、ある程度検索結果の合理性および正確さを保証することが可能である。
一般に、本開示の実施形態は、情報検索システムの既存のフルテキスト・インデックス構造を十分に利用し、検索結果の既存の表示書式を十分に考慮し、それによってより正確で適切なデータが利用できるので、アブストラクトを生成するとき、生成効率および最終結果を持つユーザ満足度が高まる。本開示によって提供された情報検索システムは、高い凝集力および低い結合特性を有するので、様々な既存の検索システムと統合させることが容易である。さらに、本開示によって提供された情報検索システムはまた、高性能、柔軟性、およびカスタマイズが容易な特性も有する。
本開示は、本開示の方法、装置(システム)、ならびにコンピュータ・ソフトウェアの流れ図および/または図を参照として説明されている。コンピュータ・ソフトウェア命令は、各流れ図および/もしくは図、または流れ図の図式および/もしくは図の図式の流れ図および図の組合せを実施することが可能である。このようなコンピュータ・ソフトウェア命令は、流れ図の図式の1つもしくは複数の流れ工程および/または図の図式の1つもしくは複数の図によって表された機能を実現するために、コンピュータまたは他のプログラム可能なデータ・プロセッシング・デバイスによって実行される命令を使用可能な機械を実装するために、汎用コンピュータ、特殊用途のコンピュータ、組込型デバイスあるいは他のあらゆるプログラム可能なデータ・プロセッシング・デバイスに組み込まれることが可能である。
また、このようなコンピュータ・プログラム命令は、タンジブルで持続性コンピュータ可読記憶媒体に記憶されることができ、特殊な方法で機能でき、コンピュータ、またはコンピュータ可読記憶媒体に記憶された命令が、命令装置としての機能を実施できるような、他のあらゆるプログラム可能なデータ・プロセッシング・デバイスを起動できる。命令装置は、流れ図の図式の1つもしくは複数の流れ工程および/または図の図式の1つもしくは複数の図によって表された機能を実現することが可能である。
また、このようなコンピュータ・プログラム命令は、コンピュータまたはプログラム可能なデータ・プロセッシング・デバイスが、コンピュータの操作により機能を実現するために、複数の操作ステップを実行できるように、コンピュータまたは他のあらゆるプログラム可能なデータ・プロセッシング・デバイスにロードされてもよい。したがって、コンピュータまたは他のあらゆるプログラム可能なデータ・プロセッシング・デバイスで実行される命令は、流れ図の図式の1つもしくは複数の流れ工程および/または図の図式の1つもしくは複数の図によって表された機能を実行する。
当業者は、本開示の様々な変形形態および修正形態を本開示の精神および範囲から逸脱することなく行うことができる。したがって、本開示のこのような変形形態および修正形態が、本開示の特許請求の範囲またはその等価物の網羅する範囲内であるなら、本開示はまた、このような変形形態および修正形態も包含する。

Claims (6)

  1. 情報検索システムに適用可能な情報検索方法であって、
    検索ワードをユーザから受信することと、
    前記検索ワードを1つまたは複数のキーワードに分割することと、
    前記1つまたは複数のキーワードに一致する1つまたは複数の文書を検索することと、
    前記情報検索システムの反転インデックス・データに基づいて、前記1つまたは複数の文書に対応する正引きインデックス・データを検索することであって、各文書は、前記それぞれの文書内の少なくとも1つのワードをインデックスとして使用し、前記それぞれの文書内の前記少なくとも1つのワードの位置を記録する前記正引きインデックス・データを有する、検索することと、
    前記それぞれの文書に対応する前記正引きインデックス・データに従って、前記1つまたは複数の文書の少なくとも1つの要約を決定することであって、前記要約は、前記正引きインデックス・データに基づいた長さ制限の範囲内のテキスト・パラグラフ中の前記1つまたは複数のキーワードの最多数を含むテキスト・パラグラフを含むことと、
    前記1つまたは複数の文書に関連する前記要約および情報を検索結果として出力することと、を含み、
    前記それぞれの文書に対応する前記正引きインデックス・データに従って前記文書要約を決定することは、前記1つまたは複数の文書の少なくとも1つに対して、
    前記それぞれの文書の正引きインデックス・データ内の少なくとも1つのワードをトラバースすることと、
    トラバースされたワードが前記1つまたは複数のキーワードに一致する場合、前記それぞれのワードの位置をインデックスとして使用することにより、第1のデータ構造内に少なくとも1つのトラバースされたワードを記録することと、
    前記それぞれのワードをインデックスとして使用することにより、第2のデータ構造内に前記それぞれのワードの位置を記録することと、
    前記第2のデータ構造内の記録に従って前記要約の開始位置を決定することと、
    前記長さ制限および前記第1のデータ構造内の記録に従って前記要約の終了位置を決定することと、
    前記決定された開始位置および終了位置ならびに前記正引きインデックス・データに従って前記要約を生成することと、を含む情報検索方法。
  2. 前記長さ制限内の範囲内の1つまたは複数のキーワードの前記最多数を含む複数のテキスト・パラグラフが存在する場合、前記要約は、前記1つまたは複数のキーワードの最多反復を有する前記複数のテキスト・パラグラフの1つを含む、請求項に記載の情報検索方法。
  3. 前記1つまたは複数の文書の前記要約および情報を前記検索結果として出力することは、
    前記1つまたは複数の文書のそれぞれの文書と前記1つまたは複数のキーワードとの一致の程度に従って、前記1つまたは複数の文書の少なくとも1つの前記要約および文書情報を含む前記検索結果を高から低までにランク付けすることと、
    所定のデータ書式に従って前記ランク付けされた検索結果を出力することと、をさらに含む、請求項1に記載の情報検索方法。
  4. 情報検索システムであって、前記情報検索システムの反転インデックス・データ、および、1つまたは複数の文書に対応する正引きインデックス・データを記憶する記憶モジュールを含み前記正引きインデックス・データは、前記それぞれの文書内の少なくとも1つのワードをインデックスとして使用し、前記それぞれの文書内の前記少なくとも1つのワードの位置を記録前記情報検索システム
    前記情報検索システムに入力された検索ワードを受信する入力モジュールと、
    分割によって前記検索ワード内に含まれた1つまたは複数のキーワードを獲得し、前記反転インデックス・データを介して、前記1つまたは複数のキーワードおよび前記1つまたは複数の文書の対応する正引きインデックス・データに一致する1つまたは複数の文書を検索し、前記それぞれの文書の対応する正引きインデックス・データに従って、前記1つまたは複数の文書の少なくとも1つのそれぞれの要約を決定し、前記要約として、前記正引きインデックス・データによって決定された長さ制限範囲内の1つまたは複数のテキスト・パラグラフ中の前記1つまたは複数のキーワードの最多数を含むテキスト・パラグラフを決定する、検索モジュールと、
    前記1つまたは複数の文書の少なくとも1つに関連する前記要約および情報を検索結果として出力する出力モジュールと、を備え
    前記検索モジュールは、
    前記検索ワードの分割後、前記検索ワード内に含まれた前記1つまたは複数のキーワードを獲得し、前記要約反転インデックス・データを介して前記1つまたは複数のキーワードおよび前記1つまたは複数の文書の正引きインデックス・データと一致する前記1つまたは複数の文書を発見する、検索サブモジュールと、
    前記1つまたは複数の文書の少なくとも1つの前記正引きインデックス・データに対して、前記それぞれの文書の正引きインデックス・データ内の少なくとも1つのワードをトラバースし、トラバースされたワードが、前記1つまたは複数のキーワードに一致する場合、インデックスとして、前記それぞれのワードの位置を使用することにより、第1のデータ構造内に前記少なくとも1つのトラバースされたワードを記録し、インデックスとして、前記それぞれのワードを使用することによって第2のデータ構造内に前記それぞれのワードの位置を記録し、前記第2のデータ構造内の記録に従って前記要約の開始位置を決定し、前記長さ制限および前記第1のデータ構造内の記録に従って前記要約の終了位置を決定し、前記決定された開始位置および終了位置ならびに前記正引きインデックス・データに従って前記要約を生成する、要約生成サブモジュールと、
    前記1つまたは複数の文書に関連する前記生成された要約および文書情報を前記出力モジュールに提示する提示サブモジュールと、を含む情報検索システム。
  5. 前記検索モジュールが、前記長さ制限範囲内の前記1つまたは複数のキーワードの前記最多数を含む複数のテキスト・パラグラフが存在すると判定する場合、前記要約は、前記1つまたは複数のキーワードの最多反復を有する前記複数のテキスト・パラグラフの1つである、請求項に記載の情報検索システム。
  6. 前記出力モジュールは、前記1つまたは複数の文書のそれぞれの文書と前記1つまたは複数のキーワードとの一致の程度に従って各前記1つまたは複数の文書の前記要約および文書情報を含む前記検索結果を、高から低までにランク付けし、前記出力モジュールは、所定のデータ書式に従って前記ランク付けされた検索結果を出力する、請求項に記載の情報検索システム。
JP2012530900A 2009-09-23 2010-08-27 情報検索方法およびシステム Active JP5638616B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200910174208.4 2009-09-23
CN200910174208A CN102023989B (zh) 2009-09-23 2009-09-23 一种信息检索方法及其系统
PCT/US2010/047036 WO2011037721A1 (en) 2009-09-23 2010-08-27 Information search method and system

Publications (2)

Publication Number Publication Date
JP2013505514A JP2013505514A (ja) 2013-02-14
JP5638616B2 true JP5638616B2 (ja) 2014-12-10

Family

ID=43796148

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012530900A Active JP5638616B2 (ja) 2009-09-23 2010-08-27 情報検索方法およびシステム

Country Status (6)

Country Link
US (2) US9367605B2 (ja)
EP (1) EP2480996A4 (ja)
JP (1) JP5638616B2 (ja)
CN (1) CN102023989B (ja)
HK (1) HK1154093A1 (ja)
WO (1) WO2011037721A1 (ja)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130024459A1 (en) * 2011-07-20 2013-01-24 Microsoft Corporation Combining Full-Text Search and Queryable Fields in the Same Data Structure
CN102364469B (zh) * 2011-10-09 2016-08-03 北京百度网讯科技有限公司 一种对例句检索结果进行排序的方法及装置
CN103198079B (zh) * 2012-01-06 2016-04-20 北大方正集团有限公司 相关搜索的实现方法和装置
CN102955849A (zh) * 2012-10-29 2013-03-06 新浪技术(中国)有限公司 基于标签推荐文档的方法及文档推荐装置
CN103838735A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种提高检索效率和质量的数据检索方法
US9069857B2 (en) 2012-11-28 2015-06-30 Microsoft Technology Licensing, Llc Per-document index for semantic searching
CN103177117B (zh) * 2013-04-08 2016-06-01 北京奇虎科技有限公司 信息索引系统及信息索引的更新方法
CN103530415A (zh) * 2013-10-29 2014-01-22 谭永 一种兼容关键词搜索的自然语言搜索方法及系统
CN103559264B (zh) * 2013-11-04 2017-02-08 北京中搜网络技术股份有限公司 一种微件数据及时更新的方法和装置
CN103699574B (zh) * 2013-11-28 2017-01-11 科大讯飞股份有限公司 一种对复杂检索式进行检索优化的方法及系统
CN105005562B (zh) * 2014-04-15 2018-09-21 索意互动(北京)信息技术有限公司 检索结果的显示处理方法及装置
CN104376112B (zh) * 2014-11-27 2018-09-14 苏州大学 一种路网上空间关键字检索的方法
CN104572879A (zh) * 2014-12-19 2015-04-29 乐视网信息技术(北京)股份有限公司 更新索引表的方法及装置、基于索引表检索的方法及装置
CN104572871A (zh) * 2014-12-19 2015-04-29 乐视网信息技术(北京)股份有限公司 基于索引表检索的方法及装置
CN105488087A (zh) * 2014-12-31 2016-04-13 哈尔滨安天科技股份有限公司 基于Postgresql的大字段特值索引系统与方法
CN104573015B (zh) * 2015-01-12 2018-06-05 百度在线网络技术(北京)有限公司 信息检索方法和装置
CN104715068B (zh) * 2015-03-31 2017-04-12 北京奇元科技有限公司 一种生成文档索引的方法和装置以及一种搜索方法和装置
US10733164B2 (en) 2015-06-23 2020-08-04 Microsoft Technology Licensing, Llc Updating a bit vector search index
US11392568B2 (en) 2015-06-23 2022-07-19 Microsoft Technology Licensing, Llc Reducing matching documents for a search query
US10467215B2 (en) 2015-06-23 2019-11-05 Microsoft Technology Licensing, Llc Matching documents using a bit vector search index
US10565198B2 (en) 2015-06-23 2020-02-18 Microsoft Technology Licensing, Llc Bit vector search index using shards
US10242071B2 (en) 2015-06-23 2019-03-26 Microsoft Technology Licensing, Llc Preliminary ranker for scoring matching documents
US10229143B2 (en) 2015-06-23 2019-03-12 Microsoft Technology Licensing, Llc Storage and retrieval of data from a bit vector search index
US11281639B2 (en) 2015-06-23 2022-03-22 Microsoft Technology Licensing, Llc Match fix-up to remove matching documents
CN105022794A (zh) * 2015-06-26 2015-11-04 广州时韵信息科技有限公司 一种快速搜索所需文章内容的方法及装置
CN105528411B (zh) * 2015-12-03 2019-08-20 中国人民解放军海军工程大学 船舶装备交互式电子技术手册全文检索装置及方法
CN107844497A (zh) * 2016-09-20 2018-03-27 天脉聚源(北京)科技有限公司 一种数据库检索的方法和系统
CN106776810B (zh) * 2016-11-24 2020-10-16 广东数果科技有限公司 一种大数据的数据处理系统及方法
CN108241713B (zh) * 2016-12-27 2021-12-28 南京烽火星空通信发展有限公司 一种基于多元切分的倒排索引检索方法
US10699062B2 (en) * 2017-08-01 2020-06-30 Samsung Electronics Co., Ltd. Apparatus and method for providing summarized information using an artificial intelligence model
CN110019644B (zh) * 2017-09-06 2022-10-14 腾讯科技(深圳)有限公司 对话实现中的搜索方法、装置和计算机可读存储介质
CN108038096A (zh) * 2017-11-10 2018-05-15 平安科技(深圳)有限公司 知识库文档快速检索方法、应用服务器计算机可读存储介质
CN109981529B (zh) * 2017-12-27 2021-11-12 西门子(中国)有限公司 报文获取方法、装置、系统及计算机存储介质
CN108595489A (zh) * 2018-03-15 2018-09-28 北京雷石天地电子技术有限公司 一种数据检索方法及装置
CN108427759A (zh) * 2018-03-19 2018-08-21 四川意高汇智科技有限公司 用于海量数据处理的实时数据计算方法
CN108932294B (zh) * 2018-05-31 2024-01-09 平安科技(深圳)有限公司 基于索引的简历数据处理方法、装置、设备及存储介质
US11086914B2 (en) * 2018-10-08 2021-08-10 International Business Machines Corporation Archiving of topmost ranked answers of a cognitive search
CN111309856B (zh) * 2019-04-19 2023-06-13 北京戴纳实验科技有限公司 一种用于实验室工程设计的信息检索系统
CN110196901B (zh) * 2019-06-28 2022-02-11 北京百度网讯科技有限公司 对话系统的构建方法、装置、计算机设备和存储介质
CN110489543B (zh) * 2019-08-14 2020-09-15 北京金堤科技有限公司 一种新闻摘要的提取方法及装置
CN112395411A (zh) * 2019-08-15 2021-02-23 阿里巴巴集团控股有限公司 一种文档摘要的生成方法、装置及设备
CN113536156B (zh) * 2020-04-13 2024-05-28 百度在线网络技术(北京)有限公司 搜索结果排序方法、模型构建方法、装置、设备和介质
CN112001161B (zh) * 2020-08-25 2024-01-19 上海新炬网络信息技术股份有限公司 一种文本查重方法
CN112765433B (zh) * 2021-01-12 2024-04-26 深圳市房多多网络科技有限公司 文本关键词扫描方法、装置、设备及计算机可读存储介质
CN113326706A (zh) * 2021-06-29 2021-08-31 北京搜狗科技发展有限公司 一种跨语言检索方法、装置和电子设备
CN113553392A (zh) * 2021-07-20 2021-10-26 北京爱奇艺科技有限公司 数据内容索引方法、装置及电子设备
CN114996441B (zh) * 2022-04-27 2024-01-12 京东科技信息技术有限公司 文档处理方法、装置、电子设备和存储介质
CN114707007B (zh) * 2022-06-07 2022-08-30 苏州大学 一种图像文本检索方法、装置及计算机存储介质

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3383049B2 (ja) 1993-09-13 2003-03-04 株式会社東芝 文書検索装置
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US5913215A (en) * 1996-04-09 1999-06-15 Seymour I. Rubinstein Browse by prompted keyword phrases with an improved method for obtaining an initial document set
US5721897A (en) * 1996-04-09 1998-02-24 Rubinstein; Seymour I. Browse by prompted keyword phrases with an improved user interface
US5915249A (en) 1996-06-14 1999-06-22 Excite, Inc. System and method for accelerated query evaluation of very large full-text databases
US5920859A (en) 1997-02-05 1999-07-06 Idd Enterprises, L.P. Hypertext document retrieval system and method
US6163782A (en) 1997-11-19 2000-12-19 At&T Corp. Efficient and effective distributed information management
KR100285265B1 (ko) 1998-02-25 2001-04-02 윤덕용 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조
US7257767B1 (en) * 1999-02-09 2007-08-14 Carden Jr William T System and method for publishing documents
US6473730B1 (en) * 1999-04-12 2002-10-29 The Trustees Of Columbia University In The City Of New York Method and system for topical segmentation, segment significance and segment function
US20030050927A1 (en) * 2001-09-07 2003-03-13 Araha, Inc. System and method for location, understanding and assimilation of digital documents through abstract indicia
US7016914B2 (en) 2002-06-05 2006-03-21 Microsoft Corporation Performant and scalable merge strategy for text indexing
US7406458B1 (en) * 2002-09-17 2008-07-29 Yahoo! Inc. Generating descriptions of matching resources based on the kind, quality, and relevance of available sources of information about the matching resources
JP4135467B2 (ja) 2002-10-28 2008-08-20 富士ゼロックス株式会社 情報処理装置、システムおよびプログラム
US7146361B2 (en) 2003-05-30 2006-12-05 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND)
US7630963B2 (en) 2003-06-30 2009-12-08 Microsoft Corporation Fast ranked full-text searching
US7620624B2 (en) * 2003-10-17 2009-11-17 Yahoo! Inc. Systems and methods for indexing content for fast and scalable retrieval
US7849063B2 (en) 2003-10-17 2010-12-07 Yahoo! Inc. Systems and methods for indexing content for fast and scalable retrieval
JP2005208852A (ja) 2004-01-21 2005-08-04 Fuji Xerox Co Ltd 要約登録装置、要約登録方法、プログラム
JP2005234635A (ja) 2004-02-17 2005-09-02 Fuji Xerox Co Ltd 文書要約装置および方法
US7739277B2 (en) 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
EP1825395A4 (en) * 2004-10-25 2010-07-07 Yuanhua Tang FULL TEXT INTERROGATION AND RESEARCH SYSTEMS AND METHODS OF USE
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
CN1694092B (zh) * 2005-05-31 2012-10-03 王绯 对含四字节字符的文本进行全文检索的方法
US20070192293A1 (en) * 2006-02-13 2007-08-16 Bing Swen Method for presenting search results
CN100437585C (zh) * 2006-09-04 2008-11-26 北京航空航天大学 基于倒排表进行检索提示的方法
US7496568B2 (en) 2006-11-30 2009-02-24 International Business Machines Corporation Efficient multifaceted search in information retrieval systems
US20080313130A1 (en) * 2007-06-14 2008-12-18 Northwestern University Method and System for Retrieving, Selecting, and Presenting Compelling Stories form Online Sources
CN101196898A (zh) * 2007-08-21 2008-06-11 新百丽鞋业(深圳)有限公司 将词组索引技术应用在互联网搜索引擎中的方法
JP2009157865A (ja) 2007-12-28 2009-07-16 Nifty Corp 情報検索装置,情報検索プログラム及び情報検索方法
EP2128774A1 (en) * 2008-05-29 2009-12-02 Accenture Global Services GmbH Techniques for computing similarity measurements between segments representative of documents
US8892574B2 (en) * 2008-11-26 2014-11-18 Nec Corporation Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset
US8620900B2 (en) * 2009-02-09 2013-12-31 The Hong Kong Polytechnic University Method for using dual indices to support query expansion, relevance/non-relevance models, blind/relevance feedback and an intelligent search interface
US8650182B2 (en) 2009-02-24 2014-02-11 Oracle International Corporation Mechanism for efficiently searching XML document collections

Also Published As

Publication number Publication date
JP2013505514A (ja) 2013-02-14
US20160210352A1 (en) 2016-07-21
CN102023989A (zh) 2011-04-20
CN102023989B (zh) 2012-10-10
EP2480996A4 (en) 2013-05-22
WO2011037721A1 (en) 2011-03-31
US20110218989A1 (en) 2011-09-08
EP2480996A1 (en) 2012-08-01
US9367605B2 (en) 2016-06-14
HK1154093A1 (en) 2012-04-20

Similar Documents

Publication Publication Date Title
JP5638616B2 (ja) 情報検索方法およびシステム
JP4953468B2 (ja) オントロジーデータのインポート/エクスポートのための方法および装置
JP6014725B2 (ja) 単文/複文構造の自然言語クエリに対する検索および情報提供方法並びにシステム
JP6461980B2 (ja) 検索結果におけるコヒーレントな質問回答
CN111417940B (zh) 用于生成问题答案的方法、系统和介质
US8655648B2 (en) Identifying topically-related phrases in a browsing sequence
JP2019507417A (ja) 多変数検索のためのユーザインターフェース
CN103530415A (zh) 一种兼容关键词搜索的自然语言搜索方法及系统
US9165058B2 (en) Apparatus and method for searching for personalized content based on user's comment
JP2012146097A (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
US8700624B1 (en) Collaborative search apps platform for web search
KR101267038B1 (ko) 벡터 공간 모델을 이용한 rdf 트리플 선택 방법, 장치, 및 그 방법을 실행하기 위한 프로그램 기록매체
JP6399514B2 (ja) ブロック・レベル索引を使用し及び構築して検索クエリを実行するための方法及びシステム
KR20120070713A (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
KR20110125184A (ko) 파일 리스트를 추출하여 클라이언트에 표시하는 파일 서버, 클라이언트에 표시하는 방법 및 파일 서버에서 실행가능한 컴퓨터 프로그램
JP5450135B2 (ja) 関連度辞書を用いた検索モデリングシステムおよび方法
JP5613536B2 (ja) 利用者の要求に応じて動的にもっとも適したイメージを抽出して提供するための方法、システム及びコンピューター判読可能な記録媒体
WO2017056164A1 (ja) 情報提示システム、及び情報提示方法
JP5544003B2 (ja) 情報検索装置、情報検索システム、及び情報検索方法
RU2688260C1 (ru) Способ поиска полупроводниковых деталей с использованием алгоритма удаления последнних букв
JP5589009B2 (ja) 推薦クエリ抽出装置及び方法及びプログラム
US9405849B1 (en) Inducing command inputs from property sequences
TWI485570B (zh) Information retrieval method and its system
KR100914647B1 (ko) 추천 검색어 생성 방법 및 장치
JP2013191119A (ja) 検索式生成のためのプログラム、情報処理方法及び情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130730

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141022

R150 Certificate of patent or registration of utility model

Ref document number: 5638616

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250