JP2012533819A - 文書インデックス化およびデータクエリングのための方法およびシステム - Google Patents
文書インデックス化およびデータクエリングのための方法およびシステム Download PDFInfo
- Publication number
- JP2012533819A JP2012533819A JP2012521619A JP2012521619A JP2012533819A JP 2012533819 A JP2012533819 A JP 2012533819A JP 2012521619 A JP2012521619 A JP 2012521619A JP 2012521619 A JP2012521619 A JP 2012521619A JP 2012533819 A JP2012533819 A JP 2012533819A
- Authority
- JP
- Japan
- Prior art keywords
- component partition
- partition
- component
- document
- forming
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 60
- 238000005192 partition Methods 0.000 claims abstract description 371
- 230000015654 memory Effects 0.000 claims description 15
- 238000003860 storage Methods 0.000 description 28
- 238000010586 diagram Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 239000004557 technical material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2379—Updates performed during online database operations; commit processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3337—Translation of the query language, e.g. Chinese to English
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【選択図】図2
Description
本願は、すべての目的のために参照により本明細書に組み込まれる、2009年7月23日出願の発明の名称を「DOCUMENT INDEXING METHOD, DATA QUERY METHOD AND SERVER FOR SEARCH ENGINE(検索エンジンのための文書インデックス化方法およびデータクエリ方法並びにサーバ)」とする中国特許出願第200910151487.2号に基づく優先権を主張する。
Token token=getCurrentToken(); //現在のパーティションを取得する
If(isFreqWord(token)) //現在のパーティションが高頻度単語である場合
{
Token token2=mergeToken(prevToken,token);//前のパーティションと共に新しい単語を形成する
indexToken(token2);//インデックスを構築する
Token token3=mergeToken(nextToken,token);//次のパーティションと共に新しい単語を形成する
indexToken(token3); //インデックスを構築する
}
else
indexToken(token); //高頻度単語でない場合にインデックスを直接構築する
Token token=getCurrentToken(); //現在のパーティションを取得する
If(isFreqWord(token)) //現在のパーティションが高頻度フィルタ文字である場合
{
Token token2;
If(isFirstWord(token))
token2=mergeToken(nextToken,token);//トークンが文章の始めにあれば後方と結びつける
else
token2=mergeToken(prevToken,token);//トークンが文章の始めになければ前方と結びつける
doTokenSearch(token2); //新たに結びつけられたパーティションをクエリする
}
else
doTokenSearch(token); //高頻度フィルタ文字でない場合に直接クエリを行う
Claims (20)
- 文書インデックスを生成するための方法であって、
インデックス化される文書を取得し、
前記文書に対して単成分分割動作を実行して、複数の単成分パーティションを取得し、
前記複数の単成分パーティションの各単成分パーティションに対して、
前記各単成分パーティションがフィルタ文字であるか否かを判定し、
前記各単成分パーティションがフィルタ文字である場合に、前記単成分パーティションを前記単成分パーティションに隣接する少なくとも1つの他の単成分パーティションと結びつけることによって多成分パーティションを形成し、前記多成分パーティションをインデックス化し、
前記単成分パーティションがフィルタ文字ではない場合に、前記単成分パーティションをインデックス化すること、
を備える、方法。 - 請求項1に記載の方法であって、さらに、複数の文書内の文字の出現頻度に従って、フィルタ文字リストを予め設定することを備える、方法。
- 請求項2に記載の方法であって、単成分パーティションがフィルタ文字であるか否かの判定は、前記単成分パーティションを前記予め設定されたフィルタ文字リストと比較することを含む、方法。
- 請求項1に記載の方法であって、多成分パーティションの形成は、前記単成分パーティションを前記単成分パーティションに隣接する少なくとも1つの他の単成分パーティションと結びつけることによって、二成分パーティションを形成することを含む、方法。
- 請求項4に記載の方法であって、二成分パーティションの形成は、さらに、
前記単成分パーティションが前記文書内の最初の単成分パーティションである場合に、前記単成分パーティションを次の単成分パーティションと結びつけることによって、二成分パーティションを形成し、
前記単成分パーティションが前記文書内の最後の単成分パーティションである場合に、前記単成分パーティションを前の単成分パーティションと結びつけることによって、二成分パーティションを形成し、
前記単成分パーティションが前記文書内の最初の単成分パーティションでも最後の単成分パーティションでもない場合に、前記単成分パーティションを前の単成分パーティションと結びつけることによって第1の二成分パーティションを形成し、前記単成分パーティションを後の単成分パーティションと結びつけることによって第2の二成分パーティションを形成すること、
を含む、方法。 - データをクエリングするための方法であって、
データクエリを受信し、
前記データクエリに対して単成分分割動作を実行して、複数の単成分パーティションを取得し、
前記複数の単成分パーティションの各単成分パーティションに対して、
前記各単成分パーティションがフィルタ文字であるか否かを判定し、
前記単成分パーティションがフィルタ文字である場合に、前記単成分パーティションを前記単成分パーティションに隣接する少なくとも1つの単成分パーティションと結びつけることによって多成分パーティションを形成し、前記多成分パーティションを用いて、予め設定されたインデックスを検索して、前記多成分パーティションに対応する検索結果を取得し、
前記単成分パーティションがフィルタ文字ではない場合に、前記単成分パーティションを用いて、前記予め設定されたインデックスを検索して、前記単成分パーティションに対応する検索結果を取得し、
前記検索結果を結びつけて、最終的なクエリ検索結果を形成すること、
を備える、方法。 - 請求項6に記載の方法であって、前記予め設定されたインデックスは、
インデックス化される文書を取得し、
前記文書に対してインデックス化単成分分割動作を実行して、第2の複数の単成分パーティションを取得し、
前記第2の複数の単成分パーティションの各単成分パーティションに対して、
前記各単成分パーティションがフィルタ文字であるか否かを判定し、
前記各単成分パーティションがフィルタ文字である場合に、前記各単成分パーティションを前記単成分パーティションに隣接する少なくとも1つの他の単成分パーティションと結びつけることによって第2の多成分パーティションを形成し、前記第2の多成分パーティションをインデックス化し、
前記各単成分パーティションがフィルタ文字ではない場合に、前記各単成分パーティションをインデックス化することによって構築される、方法。 - 請求項6に記載の方法であって、前記単成分パーティションがフィルタ文字であるか否かの判定は、前記単成分パーティションを予め設定されたフィルタ文字リストと比較することを含む、方法。
- 請求項6に記載の方法であって、前記多成分パーティションの形成は、前記単成分パーティションを前記単成分パーティションに隣接する単成分パーティションと結びつけることによって、二成分パーティションを形成することを含む、方法。
- 請求項9に記載の方法であって、二成分パーティションの形成は、さらに、
前記単成分パーティションが前記文書内の最初の単成分パーティションである場合に、前記単成分パーティションと次の単成分パーティションとを結びつけることによって、二成分パーティションを形成し、
前記単成分パーティションが前記文書内の最後の単成分パーティションである場合に、前記単成分パーティションと前の単成分パーティションとを結びつけることによって、二成分パーティションを形成し、
前記単成分パーティションが前記文書内の最初の単成分パーティションでも最後の単成分パーティションでもない場合に、前記単成分パーティションを前の単成分パーティションと結びつけることによって第1の二成分パーティションを形成し、前記単成分パーティションを後の単成分パーティションと結びつけることによって第2の二成分パーティションを形成すること、を含む、方法。 - 文書インデックス化システムであって、
インターフェースに接続されている1または複数のプロセッサであって、
インデックス化される文書を取得し、
前記文書に対して単成分分割動作を実行して、複数の単成分パーティションを取得し、
前記複数の単成分パーティションの各単成分パーティションに対して、
前記各単成分パーティションがフィルタ文字であるか否かを判定し、
前記各単成分パーティションがフィルタ文字である場合に、前記単成分パーティションを前記単成分パーティションに隣接する少なくとも1つの他の単成分パーティションと結びつけることによって多成分パーティションを形成し、前記多成分パーティションをインデックス化し、
前記単成分パーティションがフィルタ文字ではない場合に、前記単成分パーティションをインデックス化することを実行するよう構成されている1または複数のプロセッサと、
前記1または複数のプロセッサに接続され、前記プロセッサに命令を提供するよう構成されている1または複数のメモリと、
を備える、システム。 - 請求項11に記載のシステムであって、前記1または複数のプロセッサは、さらに、複数の文書内の文字の出現頻度に従って、フィルタ文字リストを予め設定するよう構成されている、システム。
- 請求項12に記載のシステムであって、単成分パーティションがフィルタ文字であるか否かの判定は、前記単成分パーティションを前記予め設定されたフィルタ文字リストと比較することを含む、システム。
- 請求項11に記載のシステムであって、多成分パーティションの形成は、前記単成分パーティションを前記単成分パーティションに隣接する少なくとも1つの他の単成分パーティションと結びつけることによって、二成分パーティションを形成することを含む、システム。
- 請求項14に記載のシステムであって、二成分パーティションの形成は、さらに、
前記単成分パーティションが前記文書内の最初の単成分パーティションである場合に、前記単成分パーティションを次の単成分パーティションと結びつけることによって、二成分パーティションを形成し、
前記単成分パーティションが前記文書内の最後の単成分パーティションである場合に、前記単成分パーティションを前の単成分パーティションと結びつけることによって、二成分パーティションを形成し、
前記単成分パーティションが前記文書内の最初の単成分パーティションでも最後の単成分パーティションでもない場合に、前記単成分パーティションを前の単成分パーティションと結びつけることによって第1の二成分パーティションを形成し、前記単成分パーティションを後の単成分パーティションと結びつけることによって第2の二成分パーティションを形成すること、
を含む、システム。 - データクエリシステムであって、
インターフェースに接続されている1または複数のプロセッサであって、
前記データクエリに対して単成分分割動作を実行して、複数の単成分パーティションを取得し、
前記複数の単成分パーティションの各単成分パーティションに対して、
前記各単成分パーティションがフィルタ文字であるか否かを判定し、
前記単成分パーティションがフィルタ文字である場合に、前記単成分パーティションを前記単成分パーティションに隣接する少なくとも1つの単成分パーティションと結びつけることによって多成分パーティションを形成し、前記多成分パーティションを用いて、予め設定されたインデックスを検索して、前記多成分パーティションに対応する検索結果を取得し、
前記単成分パーティションがフィルタ文字ではない場合に、前記単成分パーティションを用いて、前記予め設定されたインデックスを検索して、前記単成分パーティションに対応する検索結果を取得し、
前記検索結果を結びつけて、最終的なクエリ検索結果を形成することを実行するよう構成されている1または複数のプロセッサと、
前記1または複数のプロセッサに接続され、前記プロセッサに命令を提供するよう構成されている1または複数のメモリと、
を備える、システム。 - 請求項16に記載のシステムであって、前記予め設定されたインデックスは、
インデックス化される文書を取得し、
前記文書に対してインデックス化単成分分割動作を実行して、第2の複数の単成分パーティションを取得し、
前記第2の複数の単成分パーティションの各単成分パーティションに対して、
前記各単成分パーティションがフィルタ文字であるか否かを判定し、
前記各単成分パーティションがフィルタ文字である場合に、前記各単成分パーティションを前記単成分パーティションに隣接する少なくとも1つの他の単成分パーティションと結びつけることによって第2の多成分パーティションを形成し、前記第2の多成分パーティションをインデックス化し、
前記各単成分パーティションがフィルタ文字ではない場合に、前記各単成分パーティションをインデックス化することによって構築される、システム。 - 請求項16に記載のシステムであって、前記単成分パーティションがフィルタ文字であるか否かの判定は、前記単成分パーティションを前記予め設定されたフィルタ文字リストと比較することを含む、システム。
- 請求項16に記載の方法であって、前記多成分パーティションの形成は、前記単成分パーティションを前記単成分パーティションに隣接する単成分パーティションと結びつけることによって、二成分パーティションを形成することを含む、方法。
- 請求項19に記載の方法であって、二成分パーティションの形成は、さらに、
前記単成分パーティションが前記文書内の最初の単成分パーティションである場合に、前記単成分パーティションと次の単成分パーティションとを結びつけることによって、二成分パーティションを形成し、
前記単成分パーティションが前記文書内の最後の単成分パーティションである場合に、前記単成分パーティションと前の単成分パーティションとを結びつけることによって、二成分パーティションを形成し、
前記単成分パーティションが前記文書内の最初の単成分パーティションでも最後の単成分パーティションでもない場合に、前記単成分パーティションを前の単成分パーティションと結びつけることによって第1の二成分パーティションを形成し、前記単成分パーティションを後の単成分パーティションと結びつけることによって第2の二成分パーティションを形成すること、
を含む、方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101514872A CN101963965B (zh) | 2009-07-23 | 2009-07-23 | 基于搜索引擎的文档索引方法、数据查询方法及服务器 |
CN200910151487.2 | 2009-07-23 | ||
US12/804,441 US9275128B2 (en) | 2009-07-23 | 2010-07-20 | Method and system for document indexing and data querying |
US12/804,441 | 2010-07-20 | ||
PCT/US2010/002047 WO2011011063A2 (en) | 2009-07-23 | 2010-07-21 | Method and system for document indexing and data querying |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2012533819A true JP2012533819A (ja) | 2012-12-27 |
JP2012533819A5 JP2012533819A5 (ja) | 2013-08-29 |
JP5616444B2 JP5616444B2 (ja) | 2014-10-29 |
Family
ID=43498187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012521619A Expired - Fee Related JP5616444B2 (ja) | 2009-07-23 | 2010-07-21 | 文書インデックス化およびデータクエリングのための方法およびシステム |
Country Status (6)
Country | Link |
---|---|
US (2) | US9275128B2 (ja) |
EP (1) | EP2457185A4 (ja) |
JP (1) | JP5616444B2 (ja) |
CN (1) | CN101963965B (ja) |
HK (1) | HK1150081A1 (ja) |
WO (1) | WO2011011063A2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10311105B2 (en) * | 2010-12-28 | 2019-06-04 | Microsoft Technology Licensing, Llc | Filtering queried data on data stores |
US9129010B2 (en) * | 2011-05-16 | 2015-09-08 | Argo Data Resource Corporation | System and method of partitioned lexicographic search |
CN103064840A (zh) * | 2011-10-20 | 2013-04-24 | 北京中搜网络技术股份有限公司 | 索引装置、索引方法、检索装置、检索方法和检索系统 |
US9536105B2 (en) | 2012-01-26 | 2017-01-03 | Nokia Technologies Oy | Method and apparatus for providing data access via multi-user views |
US8972715B2 (en) * | 2012-07-13 | 2015-03-03 | Securerf Corporation | Cryptographic hash function |
US9087055B2 (en) | 2013-01-28 | 2015-07-21 | International Business Machines Corporation | Segmenting documents within a full text index |
CN104376014B (zh) * | 2013-08-15 | 2018-03-23 | 中国科学院声学研究所 | 一种结构化p2p网络中的资源发布及查询方法 |
US9715515B2 (en) * | 2014-01-31 | 2017-07-25 | Microsoft Technology Licensing, Llc | External data access with split index |
US10095807B2 (en) * | 2015-04-28 | 2018-10-09 | Microsoft Technology Licensing, Llc | Linked data processor for database storage |
CN106844638B (zh) * | 2017-01-19 | 2020-11-03 | 杭州汇数智通科技有限公司 | 信息检索方法、装置及电子设备 |
CN107451122B (zh) * | 2017-08-09 | 2020-11-13 | 南京华飞数据技术有限公司 | 一种基于Lucene的动态n元分词方法 |
CN110516141B (zh) * | 2019-07-22 | 2022-08-30 | 视联动力信息技术股份有限公司 | 数据查询方法、装置、电子设备以及可读存储介质 |
US20240020330A1 (en) * | 2022-07-18 | 2024-01-18 | Providence St. Joseph Health | Searching against attribute values of documents that are explicitly specified as part of the process of publishing the documents |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07105237A (ja) * | 1993-10-08 | 1995-04-21 | Matsushita Electric Ind Co Ltd | 索引作成方法およびその装置と文書検索装置 |
JPH10312395A (ja) * | 1997-03-10 | 1998-11-24 | Toshiba Corp | 全文検索システム及び全文検索方法並びに全文検索プログラムを記録した記録媒体 |
JP2001109754A (ja) * | 1999-09-30 | 2001-04-20 | Internatl Business Mach Corp <Ibm> | 索引ファイルを使用した検索方法及びそれに用いる装置 |
JP2003208433A (ja) * | 2002-01-10 | 2003-07-25 | Mitsubishi Electric Corp | 電子ファイリングシステム及びその検索インデックス作成方法 |
JP2009104669A (ja) * | 2009-02-12 | 2009-05-14 | Toshiba Corp | 文書検索方法、システム及びプログラム |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5235654A (en) | 1992-04-30 | 1993-08-10 | International Business Machines Corporation | Advanced data capture architecture data processing system and method for scanned images of document forms |
US6076088A (en) * | 1996-02-09 | 2000-06-13 | Paik; Woojin | Information extraction system and method using concept relation concept (CRC) triples |
WO1998016889A1 (fr) * | 1996-10-16 | 1998-04-23 | Sharp Kabushiki Kaisha | Appareil d'entree de caracteres et support de donnees dans lequel le programme d'entree de caracteres est mis en memoire |
US6128613A (en) | 1997-06-26 | 2000-10-03 | The Chinese University Of Hong Kong | Method and apparatus for establishing topic word classes based on an entropy cost function to retrieve documents represented by the topic words |
US7039637B2 (en) * | 1998-12-31 | 2006-05-02 | International Business Machines Corporation | System and method for evaluating characters in an inputted search string against a character table bank comprising a predetermined number of columns that correspond to a plurality of pre-determined candidate character sets in order to provide enhanced full text search |
JP3696745B2 (ja) * | 1999-02-09 | 2005-09-21 | 株式会社日立製作所 | 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US6631373B1 (en) | 1999-03-02 | 2003-10-07 | Canon Kabushiki Kaisha | Segmented document indexing and search |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US20020022953A1 (en) * | 2000-05-24 | 2002-02-21 | Bertolus Phillip Andre | Indexing and searching ideographic characters on the internet |
US6941513B2 (en) | 2000-06-15 | 2005-09-06 | Cognisphere, Inc. | System and method for text structuring and text generation |
US6687687B1 (en) | 2000-07-26 | 2004-02-03 | Zix Scm, Inc. | Dynamic indexing information retrieval or filtering system |
US6697801B1 (en) * | 2000-08-31 | 2004-02-24 | Novell, Inc. | Methods of hierarchically parsing and indexing text |
US7254269B2 (en) * | 2000-08-31 | 2007-08-07 | Hewlett-Packard Development Company, L.P. | Character recognition system |
CN1253815C (zh) * | 2000-09-08 | 2006-04-26 | 百度在线网络技术(北京)有限公司 | 计算机在中文数据中识别中文姓名的方法 |
US7860706B2 (en) * | 2001-03-16 | 2010-12-28 | Eli Abir | Knowledge system method and appparatus |
EP1417824A4 (en) * | 2001-07-18 | 2006-09-13 | Min-Kyum Kim | DEVICE AND METHOD FOR ENTERING ALPHABETIC CHARACTERS |
US7814043B2 (en) * | 2001-11-26 | 2010-10-12 | Fujitsu Limited | Content information analyzing method and apparatus |
CA2475319A1 (en) * | 2002-02-04 | 2003-08-14 | Cataphora, Inc. | A method and apparatus to visually present discussions for data mining purposes |
CA2501114A1 (en) * | 2002-04-12 | 2003-10-23 | Metainformatics | System and method for semantics driven data processing |
US7254580B1 (en) | 2003-07-31 | 2007-08-07 | Google Inc. | System and method for selectively searching partitions of a database |
US7617249B2 (en) | 2003-09-06 | 2009-11-10 | Oracle International Corporation | Method and system of handling document operation requests on documents having large collections with constrained memory |
US7493322B2 (en) * | 2003-10-15 | 2009-02-17 | Xerox Corporation | System and method for computing a measure of similarity between documents |
US7458022B2 (en) | 2003-10-22 | 2008-11-25 | Intel Corporation | Hardware/software partition for high performance structured data transformation |
GB2417103A (en) * | 2004-08-11 | 2006-02-15 | Sdl Plc | Natural language translation system |
US7487138B2 (en) | 2004-08-25 | 2009-02-03 | Symantec Operating Corporation | System and method for chunk-based indexing of file system content |
US20080077570A1 (en) | 2004-10-25 | 2008-03-27 | Infovell, Inc. | Full Text Query and Search Systems and Method of Use |
US7516125B2 (en) | 2005-08-01 | 2009-04-07 | Business Objects Americas | Processor for fast contextual searching |
US20080155239A1 (en) * | 2006-10-10 | 2008-06-26 | Honeywell International Inc. | Automata based storage and execution of application logic in smart card like devices |
CN101149739A (zh) * | 2007-08-24 | 2008-03-26 | 中国科学院计算技术研究所 | 一种面向互联网的有意义串的挖掘方法和系统 |
US9218166B2 (en) * | 2008-02-20 | 2015-12-22 | Embarcadero Technologies, Inc. | Development system with improved methodology for creation and reuse of software assets |
JP5408128B2 (ja) * | 2008-05-15 | 2014-02-05 | 株式会社ニコン | 画像処理装置、画像処理方法、処理装置、およびプログラム |
KR20120009446A (ko) * | 2009-03-13 | 2012-01-31 | 인벤션 머신 코포레이션 | 자연 언어 텍스트의 자동화 의미적 라벨링 시스템 및 방법 |
-
2009
- 2009-07-23 CN CN2009101514872A patent/CN101963965B/zh not_active Expired - Fee Related
-
2010
- 2010-07-20 US US12/804,441 patent/US9275128B2/en not_active Expired - Fee Related
- 2010-07-21 EP EP10802552.9A patent/EP2457185A4/en not_active Withdrawn
- 2010-07-21 WO PCT/US2010/002047 patent/WO2011011063A2/en active Application Filing
- 2010-07-21 JP JP2012521619A patent/JP5616444B2/ja not_active Expired - Fee Related
-
2011
- 2011-04-18 HK HK11103854.6A patent/HK1150081A1/xx not_active IP Right Cessation
-
2015
- 2015-12-17 US US14/973,395 patent/US9946753B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07105237A (ja) * | 1993-10-08 | 1995-04-21 | Matsushita Electric Ind Co Ltd | 索引作成方法およびその装置と文書検索装置 |
JPH10312395A (ja) * | 1997-03-10 | 1998-11-24 | Toshiba Corp | 全文検索システム及び全文検索方法並びに全文検索プログラムを記録した記録媒体 |
JP2001109754A (ja) * | 1999-09-30 | 2001-04-20 | Internatl Business Mach Corp <Ibm> | 索引ファイルを使用した検索方法及びそれに用いる装置 |
JP2003208433A (ja) * | 2002-01-10 | 2003-07-25 | Mitsubishi Electric Corp | 電子ファイリングシステム及びその検索インデックス作成方法 |
JP2009104669A (ja) * | 2009-02-12 | 2009-05-14 | Toshiba Corp | 文書検索方法、システム及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2011011063A2 (en) | 2011-01-27 |
WO2011011063A3 (en) | 2014-03-13 |
US9275128B2 (en) | 2016-03-01 |
CN101963965A (zh) | 2011-02-02 |
US20160171052A1 (en) | 2016-06-16 |
EP2457185A2 (en) | 2012-05-30 |
JP5616444B2 (ja) | 2014-10-29 |
US9946753B2 (en) | 2018-04-17 |
HK1150081A1 (en) | 2011-10-28 |
EP2457185A4 (en) | 2015-04-08 |
CN101963965B (zh) | 2013-03-20 |
US20110022596A1 (en) | 2011-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5616444B2 (ja) | 文書インデックス化およびデータクエリングのための方法およびシステム | |
US10289700B2 (en) | Method for dynamically matching images with content items based on keywords in response to search queries | |
JP6266080B2 (ja) | 類似性スコアに基づきコンテンツアイテムと画像とのマッチングを評価する方法、およびシステム | |
CN107103016B (zh) | 基于关键词表示使图像与内容匹配的方法 | |
CN107463591B (zh) | 响应于搜索查询对待与内容匹配的图像动态排序的方法和系统 | |
US10140368B2 (en) | Method and apparatus for generating a recommendation page | |
US8983947B2 (en) | Augmenting search with association information | |
JP6165955B1 (ja) | 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム | |
US10275472B2 (en) | Method for categorizing images to be associated with content items based on keywords of search queries | |
JP6363682B2 (ja) | 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法 | |
CN103226601A (zh) | 一种图片搜索的方法和装置 | |
CN114020867A (zh) | 一种搜索词的扩展方法、装置、设备及介质 | |
JP5589009B2 (ja) | 推薦クエリ抽出装置及び方法及びプログラム | |
CN111782958A (zh) | 推荐词确定方法、装置、电子装置及存储介质 | |
CN105808607A (zh) | 一种文档索引的生成方法和装置 | |
CN115496065A (zh) | 识别复合词的方法、装置、设备及存储介质 | |
TWI647578B (zh) | Search engine based document indexing method, data query method and server | |
Kumar et al. | Enhancing the Search Results through Web Structure Mining Using Frequent Pattern Analysis and Linear Correlation Method | |
US20150081682A1 (en) | Method and System for Filtering Search Results |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130708 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130708 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140819 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140911 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5616444 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |