JP5128101B2 - 大規模フルテキスト・インデックスでタキソノミーにインデックスを付け、探索することをサポートする方法、装置およびシステム - Google Patents
大規模フルテキスト・インデックスでタキソノミーにインデックスを付け、探索することをサポートする方法、装置およびシステム Download PDFInfo
- Publication number
- JP5128101B2 JP5128101B2 JP2006269937A JP2006269937A JP5128101B2 JP 5128101 B2 JP5128101 B2 JP 5128101B2 JP 2006269937 A JP2006269937 A JP 2006269937A JP 2006269937 A JP2006269937 A JP 2006269937A JP 5128101 B2 JP5128101 B2 JP 5128101B2
- Authority
- JP
- Japan
- Prior art keywords
- entities
- indexing
- entity
- group
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Description
Claims (11)
- 複数のエンティティに索引付けする方法であって、前記複数のエンティティのそれぞれはディレクトリー構造的に配置された1又は複数の語を含み、前記複数のエンティティはグループ化されることができ、コンピュータが、
前記1又は複数の語を受け取るようになされた索引付け構造で前記1又は複数の語を受け取るステップと、
前記語の位置と当該語に関連付けられたデータを記録するためのポスティングリストを前記複数のエンティティのそれぞれにおいて構築するステップと、
前記語を含むエンティティが属するグループの位置と当該グループに関連付けられたデータを記録するためのポスティングリストを前記グループのそれぞれにおいて構築するステップと、
前記エンティティが属する前記グループの名前に索引付けするステップと
を実行することを含む、前記方法。 - 前記コンピュータが、
前記エンティティごとに構築された前記ポスティングリスト中に、前記エンティティの位置と当該エンティティに関連付けられたデータを記憶するステップをさらに実行することを含む、請求項1に記載の方法。 - 前記コンピュータが、逆リスト索引付けを使用して、データを索引付けタームの各発生に関連付けるステップを実行することをさらに含む、請求項1に記載の方法。
- 前記コンピュータが、前記逆リスト索引付けを検索して、1セットのドキュメントヒットにわたって個々のエンティティがドキュメントセットに存在することを示すステップを実行することをさらに含む、請求項3に記載の方法。
- 前記コンピュータが、インデクサによって発見された各ドキュメントでタームのすべての発生のデータフィールドを抽出するステップを実行することをさらに含む、請求項1に記載の方法。
- 複数のエンティティに索引付けするシステムであって、前記複数のエンティティのそれぞれはディレクトリー構造的に配置された1又は複数の語を含み、前記複数のエンティティはグループ化されることができ、
前記1又は複数の語を受け取るようになされた索引付け構造と、
前記語の位置と当該語に関連付けられたデータを記録するための複数のポスティングリストであって、前記複数のエンティティのそれぞれにおいて構築される前記ポスティングリストと、
前記語を含むエンティティが属するグループの位置と当該グループに関連付けられたデータを記録するためのポスティングリストであって、前記グループのそれぞれにおいて構築される前記ポスティングリストと、
を含み、
前記エンティティが属する前記グループの名前に索引付がされている、前記システム。 - 前記エンティティごとに構築された前記ポスティングリスト中に、前記エンティティの位置と当該エンティティに関連付けられたデータを記憶するようになされている、請求項6に記載のシステム。
- データを索引付けタームの各発生に関連付けるようになされた逆リスト索引付け構造をさらに含む、請求項6のシステム。
- 前記逆リスト索引付けを検索して、1セットのドキュメントヒットにわたって個々のエンティティがドキュメントセットに存在することを示すクエリ・メカニズムをさらに含む、請求項8に記載のシステム。
- インデクサによって発見された各ドキュメントでタームのすべての発生のデータフィールドを抽出するステップをさらに含む、請求項6に記載のシステム。
- 複数のエンティティに索引付けするためのコンピュータ・プログラムであって、前記複数のエンティティのそれぞれはディレクトリー構造的に配置された1又は複数の語を含み、前記複数のエンティティはグループ化されることができ、コンピュータに、請求項1〜5のいずれか一項に記載の方法の各ステップを実行させる前記コンピュータ・プログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/241687 | 2005-09-30 | ||
US11/241,687 US8600997B2 (en) | 2005-09-30 | 2005-09-30 | Method and framework to support indexing and searching taxonomies in large scale full text indexes |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007102786A JP2007102786A (ja) | 2007-04-19 |
JP5128101B2 true JP5128101B2 (ja) | 2013-01-23 |
Family
ID=37903089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006269937A Active JP5128101B2 (ja) | 2005-09-30 | 2006-09-29 | 大規模フルテキスト・インデックスでタキソノミーにインデックスを付け、探索することをサポートする方法、装置およびシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8600997B2 (ja) |
JP (1) | JP5128101B2 (ja) |
CN (1) | CN100423005C (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8705742B2 (en) | 2006-12-26 | 2014-04-22 | Fujitsu Limited | Data compression apparatus and data decompression apparatus |
KR101757124B1 (ko) | 2016-09-01 | 2017-07-26 | 인하대학교 산학협력단 | 시공간 키워드 질의를 위한 셀 기반 역리스트 인덱싱 기법 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080072134A1 (en) * | 2006-09-19 | 2008-03-20 | Sreeram Viswanath Balakrishnan | Annotating token sequences within documents |
US7974976B2 (en) * | 2006-11-09 | 2011-07-05 | Yahoo! Inc. | Deriving user intent from a user query |
US8108390B2 (en) * | 2006-12-21 | 2012-01-31 | Yahoo! Inc. | System for targeting data to sites referenced on a page |
US7720837B2 (en) * | 2007-03-15 | 2010-05-18 | International Business Machines Corporation | System and method for multi-dimensional aggregation over large text corpora |
US20080270228A1 (en) * | 2007-04-24 | 2008-10-30 | Yahoo! Inc. | System for displaying advertisements associated with search results |
US9396261B2 (en) * | 2007-04-25 | 2016-07-19 | Yahoo! Inc. | System for serving data that matches content related to a search results page |
US8099401B1 (en) | 2007-07-18 | 2012-01-17 | Emc Corporation | Efficiently indexing and searching similar data |
US8782061B2 (en) * | 2008-06-24 | 2014-07-15 | Microsoft Corporation | Scalable lookup-driven entity extraction from indexed document collections |
JP2011065546A (ja) * | 2009-09-18 | 2011-03-31 | Hitachi Solutions Ltd | ファイル検索システム及びプログラム |
EA026653B1 (ru) | 2010-03-25 | 2017-05-31 | Дзе Юниверсити Оф Манчестер | Способ охлаждения |
CN102262632B (zh) * | 2010-05-28 | 2014-03-19 | 国际商业机器公司 | 进行文本处理的方法和系统 |
US10089390B2 (en) | 2010-09-24 | 2018-10-02 | International Business Machines Corporation | System and method to extract models from semi-structured documents |
WO2012049883A1 (ja) * | 2010-10-15 | 2012-04-19 | 日本電気株式会社 | データ構造、インデックス作成装置、データ検索装置、インデックス作成方法、データ検索方法およびコンピュータ読み取り可能な記録媒体 |
CN102780652B (zh) * | 2012-07-23 | 2018-04-20 | 上海量明科技发展有限公司 | 即时通信中对信息进行归类采集的方法及系统 |
US9576007B1 (en) * | 2012-12-21 | 2017-02-21 | Google Inc. | Index and query serving for low latency search of large graphs |
US20150379016A1 (en) * | 2013-03-07 | 2015-12-31 | Brian Charles ERIKSSON | Top-k search using randomly obtained pairwise comparisons |
WO2015104061A1 (en) * | 2014-01-13 | 2015-07-16 | Huawei Technologies Co., Ltd. | Method and apparatus for generating a plurality of indexed data fields |
CN106156294B (zh) * | 2016-06-29 | 2019-11-08 | 中电福富信息科技有限公司 | 一种快速查找关联数据的方法 |
US11921767B1 (en) * | 2018-09-14 | 2024-03-05 | Palantir Technologies Inc. | Efficient access marking approach for efficient retrieval of document access data |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4606002A (en) | 1983-05-02 | 1986-08-12 | Wang Laboratories, Inc. | B-tree structured data base using sparse array bit maps to store inverted lists |
JPH07249045A (ja) | 1994-03-08 | 1995-09-26 | Oki Electric Ind Co Ltd | 情報検索方法および情報検索装置 |
JPH08115340A (ja) | 1994-10-19 | 1996-05-07 | Fuji Xerox Co Ltd | 文書検索装置およびそれに用いるインデックスファイルの作成装置 |
JP2929963B2 (ja) | 1995-03-15 | 1999-08-03 | 松下電器産業株式会社 | 文書検索装置および単語索引作成方法および文書検索方法 |
US5701469A (en) * | 1995-06-07 | 1997-12-23 | Microsoft Corporation | Method and system for generating accurate search results using a content-index |
US5778378A (en) | 1996-04-30 | 1998-07-07 | International Business Machines Corporation | Object oriented information retrieval framework mechanism |
US5832500A (en) * | 1996-08-09 | 1998-11-03 | Digital Equipment Corporation | Method for searching an index |
US5893094A (en) | 1997-07-25 | 1999-04-06 | Claritech Corporation | Method and apparatus using run length encoding to evaluate a database |
US5848410A (en) | 1997-10-08 | 1998-12-08 | Hewlett Packard Company | System and method for selective and continuous index generation |
KR100285265B1 (ko) * | 1998-02-25 | 2001-04-02 | 윤덕용 | 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조 |
US6732087B1 (en) | 1999-10-01 | 2004-05-04 | Trialsmith, Inc. | Information storage, retrieval and delivery system and method operable with a computer network |
US6192374B1 (en) | 1998-10-10 | 2001-02-20 | Lawrence Technologies, Llc | Efficient implementations of constructs such as feature tables |
JP2001043236A (ja) | 1999-07-30 | 2001-02-16 | Matsushita Electric Ind Co Ltd | 類似語抽出方法、文書検索方法及びこれらに用いる装置 |
JP4080878B2 (ja) * | 2000-12-29 | 2008-04-23 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 有損失インデックス圧縮装置 |
US6643639B2 (en) | 2001-02-07 | 2003-11-04 | International Business Machines Corporation | Customer self service subsystem for adaptive indexing of resource solutions and resource lookup |
US7243092B2 (en) * | 2001-12-28 | 2007-07-10 | Sap Ag | Taxonomy generation for electronic documents |
US6947924B2 (en) | 2002-01-07 | 2005-09-20 | International Business Machines Corporation | Group based search engine generating search results ranking based on at least one nomination previously made by member of the user group where nomination system is independent from visitation system |
KR20040039691A (ko) * | 2002-11-04 | 2004-05-12 | 엘지전자 주식회사 | 정보 검색 시스템의 인덱싱 방법 |
CN1292371C (zh) * | 2003-04-11 | 2006-12-27 | 国际商业机器公司 | 倒排索引存储方法、倒排索引机制以及在线更新的方法 |
US7149748B1 (en) * | 2003-05-06 | 2006-12-12 | Sap Ag | Expanded inverted index |
US20040243560A1 (en) * | 2003-05-30 | 2004-12-02 | International Business Machines Corporation | System, method and computer program product for performing unstructured information management and automatic text analysis, including an annotation inverted file system facilitating indexing and searching |
US7630963B2 (en) | 2003-06-30 | 2009-12-08 | Microsoft Corporation | Fast ranked full-text searching |
US20050055364A1 (en) * | 2003-08-01 | 2005-03-10 | Ophir Frieder | Hardware assisted pruned inverted index component |
US7337165B2 (en) * | 2003-12-29 | 2008-02-26 | International Business Machines Corporation | Method and system for processing a text search query in a collection of documents |
US7370037B2 (en) * | 2003-12-29 | 2008-05-06 | International Business Machines Corporation | Methods for processing a text search query in a collection of documents |
US7266548B2 (en) * | 2004-06-30 | 2007-09-04 | Microsoft Corporation | Automated taxonomy generation |
-
2005
- 2005-09-30 US US11/241,687 patent/US8600997B2/en active Active
-
2006
- 2006-09-29 JP JP2006269937A patent/JP5128101B2/ja active Active
- 2006-09-29 CN CNB2006101413420A patent/CN100423005C/zh active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8705742B2 (en) | 2006-12-26 | 2014-04-22 | Fujitsu Limited | Data compression apparatus and data decompression apparatus |
KR101757124B1 (ko) | 2016-09-01 | 2017-07-26 | 인하대학교 산학협력단 | 시공간 키워드 질의를 위한 셀 기반 역리스트 인덱싱 기법 |
Also Published As
Publication number | Publication date |
---|---|
CN1940930A (zh) | 2007-04-04 |
JP2007102786A (ja) | 2007-04-19 |
CN100423005C (zh) | 2008-10-01 |
US20070078880A1 (en) | 2007-04-05 |
US8600997B2 (en) | 2013-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5128101B2 (ja) | 大規模フルテキスト・インデックスでタキソノミーにインデックスを付け、探索することをサポートする方法、装置およびシステム | |
Dong et al. | Indexing dataspaces | |
US7899843B2 (en) | Expanding the scope of an annotation to an entity level | |
US7788253B2 (en) | Global anchor text processing | |
US8280878B2 (en) | Method and apparatus for real time text analysis and text navigation | |
US7720837B2 (en) | System and method for multi-dimensional aggregation over large text corpora | |
US8266150B1 (en) | Scalable document signature search engine | |
EP1716511A1 (en) | Intelligent search and retrieval system and method | |
US20030088715A1 (en) | System for keyword based searching over relational databases | |
US20080147642A1 (en) | System for discovering data artifacts in an on-line data object | |
JP2006048684A (ja) | 情報検索システムにおけるフレーズに基づく検索方法 | |
US9043330B2 (en) | Normalized search | |
Can et al. | Efficiency and effectiveness of query processing in cluster-based retrieval | |
CN111400323A (zh) | 数据检索方法、系统、设备及存储介质 | |
US8001138B2 (en) | Word relationship driven search | |
US20060248037A1 (en) | Annotation of inverted list text indexes using search queries | |
KR20110133909A (ko) | 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치 | |
JP2011133928A (ja) | 記憶装置に記憶してある文書ファイルを検索する検索装置、検索システム、検索方法及びコンピュータプログラム | |
Krishnan et al. | Generation of synthetic query auto completion logs | |
Voit et al. | TagTree: Storing and re-finding files using tags | |
KR100493399B1 (ko) | 정보검색 관리시스템 및 그 방법 | |
Aleman-Meza | Searching and ranking documents based on semantic relationships | |
JP3202341B2 (ja) | データベースシステム | |
Zabback et al. | Office documents on a database kernel—filing, retrieval, and archiving | |
Kathuria et al. | Context indexing in search engine using binary search tree |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090629 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110421 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110426 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110523 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110523 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20110523 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120224 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120411 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20120411 |
|
TRDD | Decision of grant or rejection written | ||
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20121012 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20121012 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121012 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121031 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5128101 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151109 Year of fee payment: 3 |