JP5638616B2 - 情報検索方法およびシステム - Google Patents
情報検索方法およびシステム Download PDFInfo
- Publication number
- JP5638616B2 JP5638616B2 JP2012530900A JP2012530900A JP5638616B2 JP 5638616 B2 JP5638616 B2 JP 5638616B2 JP 2012530900 A JP2012530900 A JP 2012530900A JP 2012530900 A JP2012530900 A JP 2012530900A JP 5638616 B2 JP5638616 B2 JP 5638616B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- search
- document
- documents
- index data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 54
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013549 information retrieval technique Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本出願は、「INFORMATION SEARCH METHOD AND SYSTEM」という名称の、2009年9月23日に出願された中国特許出願第200910174208.4号の優先権を主張し、その全体が参照によって本明細書に組み込まれる。
・検索ワードを受信すること、および分割によって検索ワード内に含まれたキーワードを獲得すること
・情報検索システムの反転インデックス・データを介して、文書に対応するキーワードおよび正引きインデックス・データと一致する文書を検索すること
・文書の正引きインデックス・データに従って文書要約を決定すること、ならびに文書要約および情報を検索結果として出力すること
・システムの中に入力された検索ワードを受信するように構成された入力モジュール
・分割によって検索ワードに含まれたキーワードを獲得し、反転インデックス・データを介して文書に対応するキーワードおよび正引きインデックス・データに一致する文書を検索し、文書の正引きインデックス・データに従った文書要約を決定するように構成された検索モジュール
・文書要約および情報を検索結果として出力するように構成された出力モジュール
本開示の上記の実施形態は、検索を実施するために反転インデックス・データを使用し、検索ワードに一致する文書を獲得後、文書要約を生成するために文書の正引きインデックス・データを使用する。したがって、該技法は、フルテキスト・データより少ないデータ量を有する文書の正引きインデックス・データの特性を十分に活用するが、コンテンツの記述は依然として一定の正確さを保持する。検索結果を獲得するためにフルテキスト検索を使用する従来の情報システムと比較すると、本開示の実施形態は、検索ワードを使用することにより一致検索の効率を高め、要約生成の効率を高め、検索結果および生成された要約の正確さをある程度保証することが可能である。
ファイル1(ワード1,ワード2,ワード3,ワード4,)
ファイル2(ワードa,ワードb,ワードc,ワードd,ワードa,ワードc,ワードd,)
ファイル3(ワード1,ワードa,ワード3,ワードd,)
上記の3つの文書からなる文書セットの反転インデックス・データは、次の通りである。ワード1(ファイル1,ファイル3)、ワード2(ファイル1)、ワード3(ファイル1,ファイル3)、ワードa(ファイル2,ファイル3)、など
・Array_Aは、記録(pos1:ワード1,pos2:ワード2,pos3:ワード3,pos4:ワード4)を含む。ただし、「pos」はフルテキスト・データ内のそれぞれのワードの先頭文字の位置を表し、「ワード」はワードテキストを表す。換言すると、Array_Aは、各ワードテキストを記録するために、それぞれのワードの位置をインデックスとして使用する。
・検索ワードの分割後に獲得された各キーワードの正引きインデックス列を記憶するMap_A配列。このような正引きインデックス列は、各キーワード位置を対応する文書内に記録し、赤黒木構造を使用することが可能である。(赤黒木は、二分木の特別な型であり、データ構造は、データブロックなどのデータを編成するためにコンピュータ科学に使用される。すべてのデータブロックは、ノードで記憶される。)赤黒木を使用して、キーワードのテキストおよび位置のリンクを編成し記憶することが可能である。たとえば、上記のArray_A内のワード1およびワード2がキーワードである場合、次のようになる。
・Map_A記録(ワード1:pos1,pos4;ワード2:pos2 ...)。ただし、posはフルテキスト・データ内のそれぞれのワードの先頭文字の位置を表し、キーワードはそれぞれのキーワードのテキストを表す。換言すると、Map_Aは、それぞれのワード位置を記録するために、ワードテキスト(このワードはキーワードに一致するワードである)をインデックスとして使用する。
・要約の開始位置および終了位置のそれぞれを記憶するRes_BegおよびRes_End。
・要約の開始位置および終了位置のパラメータを含む最良の要約パスを記憶するBest_Path。そのパラメータを使用して、正引きインデックス・データまたはフルテキスト・データ内のテキストの対応する部分を定義することが可能である。テキストの一部と最良の要約パスによって定義されたキーワードの一致する程度は、他の部分より高い。
・RLは、要約の長さの割り当てられた値を表し、これは通常数字で表わされる。その値は、システムの起動時に割り当てられることが可能である。
対応する正引きインデックス・データは、100字の長さを有する(computer:2,50,90;security:25, ...)である。これは、ワード「computer」は、ウェブページ文書1のフルテキスト文書の2番目、50番目、および90番目の文字の位置に現れ、ワード「security」は、25番目の文字の位置に現れることを表す。
対応する正引きインデックス・データは、100字の長さを有する(computer:10,70;security:15, ...)である。これは、ワード「computer」は、ウェブページ文書2のフルテキスト文書の10番目および70番目の文字の位置に現れ、ワード「security」は、15番目の文字の位置に現れることを表す。
Array_A:(...2: computer; ...25: security; ... 50: computer; ... 90: computer; ...);および
Map_A:(computer:2,50,90;security:25)
獲得されたArray_AおよびMap_Aに従って、開始位置2から終了位置52までテキスト・パラグラフ内に3つのキーワードが存在し、その数は、長さ50を有する他のあらゆるテキスト・パラグラフ内のキーワードの数より多いことがさらに獲得されることが可能である。したがって、開始位置および終了位置[2,52]は、最良の要約パスを提供する。
Claims (6)
- 情報検索システムに適用可能な情報検索方法であって、
検索ワードをユーザから受信することと、
前記検索ワードを1つまたは複数のキーワードに分割することと、
前記1つまたは複数のキーワードに一致する1つまたは複数の文書を検索することと、
前記情報検索システムの反転インデックス・データに基づいて、前記1つまたは複数の文書に対応する正引きインデックス・データを検索することであって、各文書は、前記それぞれの文書内の少なくとも1つのワードをインデックスとして使用し、前記それぞれの文書内の前記少なくとも1つのワードの位置を記録する前記正引きインデックス・データを有する、検索することと、
前記それぞれの文書に対応する前記正引きインデックス・データに従って、前記1つまたは複数の文書の少なくとも1つの要約を決定することであって、前記要約は、前記正引きインデックス・データに基づいた長さ制限の範囲内のテキスト・パラグラフ中の前記1つまたは複数のキーワードの最多数を含むテキスト・パラグラフを含むことと、
前記1つまたは複数の文書に関連する前記要約および情報を検索結果として出力することと、を含み、
前記それぞれの文書に対応する前記正引きインデックス・データに従って前記文書要約を決定することは、前記1つまたは複数の文書の少なくとも1つに対して、
前記それぞれの文書の正引きインデックス・データ内の少なくとも1つのワードをトラバースすることと、
トラバースされたワードが前記1つまたは複数のキーワードに一致する場合、前記それぞれのワードの位置をインデックスとして使用することにより、第1のデータ構造内に少なくとも1つのトラバースされたワードを記録することと、
前記それぞれのワードをインデックスとして使用することにより、第2のデータ構造内に前記それぞれのワードの位置を記録することと、
前記第2のデータ構造内の記録に従って前記要約の開始位置を決定することと、
前記長さ制限および前記第1のデータ構造内の記録に従って前記要約の終了位置を決定することと、
前記決定された開始位置および終了位置ならびに前記正引きインデックス・データに従って前記要約を生成することと、を含む情報検索方法。 - 前記長さ制限内の範囲内の1つまたは複数のキーワードの前記最多数を含む複数のテキスト・パラグラフが存在する場合、前記要約は、前記1つまたは複数のキーワードの最多反復を有する前記複数のテキスト・パラグラフの1つを含む、請求項1に記載の情報検索方法。
- 前記1つまたは複数の文書の前記要約および情報を前記検索結果として出力することは、
前記1つまたは複数の文書のそれぞれの文書と前記1つまたは複数のキーワードとの一致の程度に従って、前記1つまたは複数の文書の少なくとも1つの前記要約および文書情報を含む前記検索結果を高から低までにランク付けすることと、
所定のデータ書式に従って前記ランク付けされた検索結果を出力することと、をさらに含む、請求項1に記載の情報検索方法。 - 情報検索システムであって、前記情報検索システムの反転インデックス・データ、および、1つまたは複数の文書に対応する正引きインデックス・データを記憶する記憶モジュールを含み、前記正引きインデックス・データは、前記それぞれの文書内の少なくとも1つのワードをインデックスとして使用し、前記それぞれの文書内の前記少なくとも1つのワードの位置を記録し、前記情報検索システムは、
前記情報検索システムに入力された検索ワードを受信する入力モジュールと、
分割によって前記検索ワード内に含まれた1つまたは複数のキーワードを獲得し、前記反転インデックス・データを介して、前記1つまたは複数のキーワードおよび前記1つまたは複数の文書の対応する正引きインデックス・データに一致する1つまたは複数の文書を検索し、前記それぞれの文書の対応する正引きインデックス・データに従って、前記1つまたは複数の文書の少なくとも1つのそれぞれの要約を決定し、前記要約として、前記正引きインデックス・データによって決定された長さ制限範囲内の1つまたは複数のテキスト・パラグラフ中の前記1つまたは複数のキーワードの最多数を含むテキスト・パラグラフを決定する、検索モジュールと、
前記1つまたは複数の文書の少なくとも1つに関連する前記要約および情報を検索結果として出力する出力モジュールと、を備え、
前記検索モジュールは、
前記検索ワードの分割後、前記検索ワード内に含まれた前記1つまたは複数のキーワードを獲得し、前記要約反転インデックス・データを介して前記1つまたは複数のキーワードおよび前記1つまたは複数の文書の正引きインデックス・データと一致する前記1つまたは複数の文書を発見する、検索サブモジュールと、
前記1つまたは複数の文書の少なくとも1つの前記正引きインデックス・データに対して、前記それぞれの文書の正引きインデックス・データ内の少なくとも1つのワードをトラバースし、トラバースされたワードが、前記1つまたは複数のキーワードに一致する場合、インデックスとして、前記それぞれのワードの位置を使用することにより、第1のデータ構造内に前記少なくとも1つのトラバースされたワードを記録し、インデックスとして、前記それぞれのワードを使用することによって第2のデータ構造内に前記それぞれのワードの位置を記録し、前記第2のデータ構造内の記録に従って前記要約の開始位置を決定し、前記長さ制限および前記第1のデータ構造内の記録に従って前記要約の終了位置を決定し、前記決定された開始位置および終了位置ならびに前記正引きインデックス・データに従って前記要約を生成する、要約生成サブモジュールと、
前記1つまたは複数の文書に関連する前記生成された要約および文書情報を前記出力モジュールに提示する提示サブモジュールと、を含む情報検索システム。 - 前記検索モジュールが、前記長さ制限範囲内の前記1つまたは複数のキーワードの前記最多数を含む複数のテキスト・パラグラフが存在すると判定する場合、前記要約は、前記1つまたは複数のキーワードの最多反復を有する前記複数のテキスト・パラグラフの1つである、請求項4に記載の情報検索システム。
- 前記出力モジュールは、前記1つまたは複数の文書のそれぞれの文書と前記1つまたは複数のキーワードとの一致の程度に従って各前記1つまたは複数の文書の前記要約および文書情報を含む前記検索結果を、高から低までにランク付けし、前記出力モジュールは、所定のデータ書式に従って前記ランク付けされた検索結果を出力する、請求項4に記載の情報検索システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910174208.4 | 2009-09-23 | ||
CN200910174208A CN102023989B (zh) | 2009-09-23 | 2009-09-23 | 一种信息检索方法及其系统 |
PCT/US2010/047036 WO2011037721A1 (en) | 2009-09-23 | 2010-08-27 | Information search method and system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013505514A JP2013505514A (ja) | 2013-02-14 |
JP5638616B2 true JP5638616B2 (ja) | 2014-12-10 |
Family
ID=43796148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012530900A Active JP5638616B2 (ja) | 2009-09-23 | 2010-08-27 | 情報検索方法およびシステム |
Country Status (6)
Country | Link |
---|---|
US (2) | US9367605B2 (ja) |
EP (1) | EP2480996A4 (ja) |
JP (1) | JP5638616B2 (ja) |
CN (1) | CN102023989B (ja) |
HK (1) | HK1154093A1 (ja) |
WO (1) | WO2011037721A1 (ja) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130024459A1 (en) * | 2011-07-20 | 2013-01-24 | Microsoft Corporation | Combining Full-Text Search and Queryable Fields in the Same Data Structure |
CN102364469B (zh) * | 2011-10-09 | 2016-08-03 | 北京百度网讯科技有限公司 | 一种对例句检索结果进行排序的方法及装置 |
CN103198079B (zh) * | 2012-01-06 | 2016-04-20 | 北大方正集团有限公司 | 相关搜索的实现方法和装置 |
CN102955849A (zh) * | 2012-10-29 | 2013-03-06 | 新浪技术(中国)有限公司 | 基于标签推荐文档的方法及文档推荐装置 |
CN103838735A (zh) * | 2012-11-21 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种提高检索效率和质量的数据检索方法 |
US9069857B2 (en) | 2012-11-28 | 2015-06-30 | Microsoft Technology Licensing, Llc | Per-document index for semantic searching |
CN103177117B (zh) * | 2013-04-08 | 2016-06-01 | 北京奇虎科技有限公司 | 信息索引系统及信息索引的更新方法 |
CN103530415A (zh) * | 2013-10-29 | 2014-01-22 | 谭永 | 一种兼容关键词搜索的自然语言搜索方法及系统 |
CN103559264B (zh) * | 2013-11-04 | 2017-02-08 | 北京中搜网络技术股份有限公司 | 一种微件数据及时更新的方法和装置 |
CN103699574B (zh) * | 2013-11-28 | 2017-01-11 | 科大讯飞股份有限公司 | 一种对复杂检索式进行检索优化的方法及系统 |
CN105005562B (zh) * | 2014-04-15 | 2018-09-21 | 索意互动(北京)信息技术有限公司 | 检索结果的显示处理方法及装置 |
CN104376112B (zh) * | 2014-11-27 | 2018-09-14 | 苏州大学 | 一种路网上空间关键字检索的方法 |
CN104572879A (zh) * | 2014-12-19 | 2015-04-29 | 乐视网信息技术(北京)股份有限公司 | 更新索引表的方法及装置、基于索引表检索的方法及装置 |
CN104572871A (zh) * | 2014-12-19 | 2015-04-29 | 乐视网信息技术(北京)股份有限公司 | 基于索引表检索的方法及装置 |
CN105488087A (zh) * | 2014-12-31 | 2016-04-13 | 哈尔滨安天科技股份有限公司 | 基于Postgresql的大字段特值索引系统与方法 |
CN104573015B (zh) * | 2015-01-12 | 2018-06-05 | 百度在线网络技术(北京)有限公司 | 信息检索方法和装置 |
CN104715068B (zh) * | 2015-03-31 | 2017-04-12 | 北京奇元科技有限公司 | 一种生成文档索引的方法和装置以及一种搜索方法和装置 |
US10733164B2 (en) | 2015-06-23 | 2020-08-04 | Microsoft Technology Licensing, Llc | Updating a bit vector search index |
US11392568B2 (en) | 2015-06-23 | 2022-07-19 | Microsoft Technology Licensing, Llc | Reducing matching documents for a search query |
US10467215B2 (en) | 2015-06-23 | 2019-11-05 | Microsoft Technology Licensing, Llc | Matching documents using a bit vector search index |
US10565198B2 (en) | 2015-06-23 | 2020-02-18 | Microsoft Technology Licensing, Llc | Bit vector search index using shards |
US10242071B2 (en) | 2015-06-23 | 2019-03-26 | Microsoft Technology Licensing, Llc | Preliminary ranker for scoring matching documents |
US10229143B2 (en) | 2015-06-23 | 2019-03-12 | Microsoft Technology Licensing, Llc | Storage and retrieval of data from a bit vector search index |
US11281639B2 (en) | 2015-06-23 | 2022-03-22 | Microsoft Technology Licensing, Llc | Match fix-up to remove matching documents |
CN105022794A (zh) * | 2015-06-26 | 2015-11-04 | 广州时韵信息科技有限公司 | 一种快速搜索所需文章内容的方法及装置 |
CN105528411B (zh) * | 2015-12-03 | 2019-08-20 | 中国人民解放军海军工程大学 | 船舶装备交互式电子技术手册全文检索装置及方法 |
CN107844497A (zh) * | 2016-09-20 | 2018-03-27 | 天脉聚源(北京)科技有限公司 | 一种数据库检索的方法和系统 |
CN106776810B (zh) * | 2016-11-24 | 2020-10-16 | 广东数果科技有限公司 | 一种大数据的数据处理系统及方法 |
CN108241713B (zh) * | 2016-12-27 | 2021-12-28 | 南京烽火星空通信发展有限公司 | 一种基于多元切分的倒排索引检索方法 |
US10699062B2 (en) * | 2017-08-01 | 2020-06-30 | Samsung Electronics Co., Ltd. | Apparatus and method for providing summarized information using an artificial intelligence model |
CN110019644B (zh) * | 2017-09-06 | 2022-10-14 | 腾讯科技(深圳)有限公司 | 对话实现中的搜索方法、装置和计算机可读存储介质 |
CN108038096A (zh) * | 2017-11-10 | 2018-05-15 | 平安科技(深圳)有限公司 | 知识库文档快速检索方法、应用服务器计算机可读存储介质 |
CN109981529B (zh) * | 2017-12-27 | 2021-11-12 | 西门子(中国)有限公司 | 报文获取方法、装置、系统及计算机存储介质 |
CN108595489A (zh) * | 2018-03-15 | 2018-09-28 | 北京雷石天地电子技术有限公司 | 一种数据检索方法及装置 |
CN108427759A (zh) * | 2018-03-19 | 2018-08-21 | 四川意高汇智科技有限公司 | 用于海量数据处理的实时数据计算方法 |
CN108932294B (zh) * | 2018-05-31 | 2024-01-09 | 平安科技(深圳)有限公司 | 基于索引的简历数据处理方法、装置、设备及存储介质 |
US11086914B2 (en) * | 2018-10-08 | 2021-08-10 | International Business Machines Corporation | Archiving of topmost ranked answers of a cognitive search |
CN111309856B (zh) * | 2019-04-19 | 2023-06-13 | 北京戴纳实验科技有限公司 | 一种用于实验室工程设计的信息检索系统 |
CN110196901B (zh) * | 2019-06-28 | 2022-02-11 | 北京百度网讯科技有限公司 | 对话系统的构建方法、装置、计算机设备和存储介质 |
CN110489543B (zh) * | 2019-08-14 | 2020-09-15 | 北京金堤科技有限公司 | 一种新闻摘要的提取方法及装置 |
CN112395411A (zh) * | 2019-08-15 | 2021-02-23 | 阿里巴巴集团控股有限公司 | 一种文档摘要的生成方法、装置及设备 |
CN113536156B (zh) * | 2020-04-13 | 2024-05-28 | 百度在线网络技术(北京)有限公司 | 搜索结果排序方法、模型构建方法、装置、设备和介质 |
CN112001161B (zh) * | 2020-08-25 | 2024-01-19 | 上海新炬网络信息技术股份有限公司 | 一种文本查重方法 |
CN112765433B (zh) * | 2021-01-12 | 2024-04-26 | 深圳市房多多网络科技有限公司 | 文本关键词扫描方法、装置、设备及计算机可读存储介质 |
CN113326706A (zh) * | 2021-06-29 | 2021-08-31 | 北京搜狗科技发展有限公司 | 一种跨语言检索方法、装置和电子设备 |
CN113553392A (zh) * | 2021-07-20 | 2021-10-26 | 北京爱奇艺科技有限公司 | 数据内容索引方法、装置及电子设备 |
CN114996441B (zh) * | 2022-04-27 | 2024-01-12 | 京东科技信息技术有限公司 | 文档处理方法、装置、电子设备和存储介质 |
CN114707007B (zh) * | 2022-06-07 | 2022-08-30 | 苏州大学 | 一种图像文本检索方法、装置及计算机存储介质 |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3383049B2 (ja) | 1993-09-13 | 2003-03-04 | 株式会社東芝 | 文書検索装置 |
US5918240A (en) * | 1995-06-28 | 1999-06-29 | Xerox Corporation | Automatic method of extracting summarization using feature probabilities |
US5724571A (en) * | 1995-07-07 | 1998-03-03 | Sun Microsystems, Inc. | Method and apparatus for generating query responses in a computer-based document retrieval system |
US5913215A (en) * | 1996-04-09 | 1999-06-15 | Seymour I. Rubinstein | Browse by prompted keyword phrases with an improved method for obtaining an initial document set |
US5721897A (en) * | 1996-04-09 | 1998-02-24 | Rubinstein; Seymour I. | Browse by prompted keyword phrases with an improved user interface |
US5915249A (en) | 1996-06-14 | 1999-06-22 | Excite, Inc. | System and method for accelerated query evaluation of very large full-text databases |
US5920859A (en) | 1997-02-05 | 1999-07-06 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
US6163782A (en) | 1997-11-19 | 2000-12-19 | At&T Corp. | Efficient and effective distributed information management |
KR100285265B1 (ko) | 1998-02-25 | 2001-04-02 | 윤덕용 | 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조 |
US7257767B1 (en) * | 1999-02-09 | 2007-08-14 | Carden Jr William T | System and method for publishing documents |
US6473730B1 (en) * | 1999-04-12 | 2002-10-29 | The Trustees Of Columbia University In The City Of New York | Method and system for topical segmentation, segment significance and segment function |
US20030050927A1 (en) * | 2001-09-07 | 2003-03-13 | Araha, Inc. | System and method for location, understanding and assimilation of digital documents through abstract indicia |
US7016914B2 (en) | 2002-06-05 | 2006-03-21 | Microsoft Corporation | Performant and scalable merge strategy for text indexing |
US7406458B1 (en) * | 2002-09-17 | 2008-07-29 | Yahoo! Inc. | Generating descriptions of matching resources based on the kind, quality, and relevance of available sources of information about the matching resources |
JP4135467B2 (ja) | 2002-10-28 | 2008-08-20 | 富士ゼロックス株式会社 | 情報処理装置、システムおよびプログラム |
US7146361B2 (en) | 2003-05-30 | 2006-12-05 | International Business Machines Corporation | System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND) |
US7630963B2 (en) | 2003-06-30 | 2009-12-08 | Microsoft Corporation | Fast ranked full-text searching |
US7620624B2 (en) * | 2003-10-17 | 2009-11-17 | Yahoo! Inc. | Systems and methods for indexing content for fast and scalable retrieval |
US7849063B2 (en) | 2003-10-17 | 2010-12-07 | Yahoo! Inc. | Systems and methods for indexing content for fast and scalable retrieval |
JP2005208852A (ja) | 2004-01-21 | 2005-08-04 | Fuji Xerox Co Ltd | 要約登録装置、要約登録方法、プログラム |
JP2005234635A (ja) | 2004-02-17 | 2005-09-02 | Fuji Xerox Co Ltd | 文書要約装置および方法 |
US7739277B2 (en) | 2004-09-30 | 2010-06-15 | Microsoft Corporation | System and method for incorporating anchor text into ranking search results |
EP1825395A4 (en) * | 2004-10-25 | 2010-07-07 | Yuanhua Tang | FULL TEXT INTERROGATION AND RESEARCH SYSTEMS AND METHODS OF USE |
US20080077570A1 (en) * | 2004-10-25 | 2008-03-27 | Infovell, Inc. | Full Text Query and Search Systems and Method of Use |
CN1694092B (zh) * | 2005-05-31 | 2012-10-03 | 王绯 | 对含四字节字符的文本进行全文检索的方法 |
US20070192293A1 (en) * | 2006-02-13 | 2007-08-16 | Bing Swen | Method for presenting search results |
CN100437585C (zh) * | 2006-09-04 | 2008-11-26 | 北京航空航天大学 | 基于倒排表进行检索提示的方法 |
US7496568B2 (en) | 2006-11-30 | 2009-02-24 | International Business Machines Corporation | Efficient multifaceted search in information retrieval systems |
US20080313130A1 (en) * | 2007-06-14 | 2008-12-18 | Northwestern University | Method and System for Retrieving, Selecting, and Presenting Compelling Stories form Online Sources |
CN101196898A (zh) * | 2007-08-21 | 2008-06-11 | 新百丽鞋业(深圳)有限公司 | 将词组索引技术应用在互联网搜索引擎中的方法 |
JP2009157865A (ja) | 2007-12-28 | 2009-07-16 | Nifty Corp | 情報検索装置,情報検索プログラム及び情報検索方法 |
EP2128774A1 (en) * | 2008-05-29 | 2009-12-02 | Accenture Global Services GmbH | Techniques for computing similarity measurements between segments representative of documents |
US8892574B2 (en) * | 2008-11-26 | 2014-11-18 | Nec Corporation | Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset |
US8620900B2 (en) * | 2009-02-09 | 2013-12-31 | The Hong Kong Polytechnic University | Method for using dual indices to support query expansion, relevance/non-relevance models, blind/relevance feedback and an intelligent search interface |
US8650182B2 (en) | 2009-02-24 | 2014-02-11 | Oracle International Corporation | Mechanism for efficiently searching XML document collections |
-
2009
- 2009-09-23 CN CN200910174208A patent/CN102023989B/zh active Active
-
2010
- 2010-08-27 WO PCT/US2010/047036 patent/WO2011037721A1/en active Application Filing
- 2010-08-27 EP EP10819213.9A patent/EP2480996A4/en not_active Withdrawn
- 2010-08-27 JP JP2012530900A patent/JP5638616B2/ja active Active
- 2010-08-27 US US12/937,562 patent/US9367605B2/en active Active
-
2011
- 2011-08-09 HK HK11108353.1A patent/HK1154093A1/xx unknown
-
2016
- 2016-03-25 US US15/081,663 patent/US20160210352A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2013505514A (ja) | 2013-02-14 |
US20160210352A1 (en) | 2016-07-21 |
CN102023989A (zh) | 2011-04-20 |
CN102023989B (zh) | 2012-10-10 |
EP2480996A4 (en) | 2013-05-22 |
WO2011037721A1 (en) | 2011-03-31 |
US20110218989A1 (en) | 2011-09-08 |
EP2480996A1 (en) | 2012-08-01 |
US9367605B2 (en) | 2016-06-14 |
HK1154093A1 (en) | 2012-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5638616B2 (ja) | 情報検索方法およびシステム | |
JP4953468B2 (ja) | オントロジーデータのインポート/エクスポートのための方法および装置 | |
JP6014725B2 (ja) | 単文/複文構造の自然言語クエリに対する検索および情報提供方法並びにシステム | |
JP6461980B2 (ja) | 検索結果におけるコヒーレントな質問回答 | |
CN111417940B (zh) | 用于生成问题答案的方法、系统和介质 | |
US8655648B2 (en) | Identifying topically-related phrases in a browsing sequence | |
JP2019507417A (ja) | 多変数検索のためのユーザインターフェース | |
CN103530415A (zh) | 一种兼容关键词搜索的自然语言搜索方法及系统 | |
US9165058B2 (en) | Apparatus and method for searching for personalized content based on user's comment | |
JP2012146097A (ja) | 文書検索装置、文書検索方法、及び文書検索プログラム | |
US8700624B1 (en) | Collaborative search apps platform for web search | |
KR101267038B1 (ko) | 벡터 공간 모델을 이용한 rdf 트리플 선택 방법, 장치, 및 그 방법을 실행하기 위한 프로그램 기록매체 | |
JP6399514B2 (ja) | ブロック・レベル索引を使用し及び構築して検索クエリを実行するための方法及びシステム | |
KR20120070713A (ko) | 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 | |
KR20110125184A (ko) | 파일 리스트를 추출하여 클라이언트에 표시하는 파일 서버, 클라이언트에 표시하는 방법 및 파일 서버에서 실행가능한 컴퓨터 프로그램 | |
JP5450135B2 (ja) | 関連度辞書を用いた検索モデリングシステムおよび方法 | |
JP5613536B2 (ja) | 利用者の要求に応じて動的にもっとも適したイメージを抽出して提供するための方法、システム及びコンピューター判読可能な記録媒体 | |
WO2017056164A1 (ja) | 情報提示システム、及び情報提示方法 | |
JP5544003B2 (ja) | 情報検索装置、情報検索システム、及び情報検索方法 | |
RU2688260C1 (ru) | Способ поиска полупроводниковых деталей с использованием алгоритма удаления последнних букв | |
JP5589009B2 (ja) | 推薦クエリ抽出装置及び方法及びプログラム | |
US9405849B1 (en) | Inducing command inputs from property sequences | |
TWI485570B (zh) | Information retrieval method and its system | |
KR100914647B1 (ko) | 추천 검색어 생성 방법 및 장치 | |
JP2013191119A (ja) | 検索式生成のためのプログラム、情報処理方法及び情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130730 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140418 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140924 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141022 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5638616 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |