JP2012221489A - 効率的にクエリを処理する方法及び装置 - Google Patents
効率的にクエリを処理する方法及び装置 Download PDFInfo
- Publication number
- JP2012221489A JP2012221489A JP2012031022A JP2012031022A JP2012221489A JP 2012221489 A JP2012221489 A JP 2012221489A JP 2012031022 A JP2012031022 A JP 2012031022A JP 2012031022 A JP2012031022 A JP 2012031022A JP 2012221489 A JP2012221489 A JP 2012221489A
- Authority
- JP
- Japan
- Prior art keywords
- string
- subset
- candidate set
- query processing
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000003672 processing method Methods 0.000 claims abstract description 21
- 238000010586 diagram Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000000926 separation method Methods 0.000 description 5
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24535—Query rewriting; Transformation of sub-queries or views
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/156—Query results presentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
Abstract
【解決手段】 効率的なクエリ処理方法及びその装置に係り、該クエリ処理方法は、N−gramを利用してクエリストリングから、長さの異なる複数個の部分ストリングから構成された有効ストリングセットを生成し、アクセスコストに基づいて、有効ストリングセットのサブセットのうちいずれか1つのサブセットを候補セットとして決定し、候補セットを利用し、前記クエリストリングが存在する文書を検索する。
【選択図】 図2
Description
105 ユーザ・インターフェース
110 ストリングセット生成部
120 候補セット決定部
130 文書検索部
135 プロセッサ
140 索引語DB
150 逆索引DB
160 文書DB
165 ストレージ
310 N−gram分離部
330 ストリング選択部
610 サブセット選択部
630 候補セット予想部
Claims (22)
- クエリストリングから、長さの異なる複数個の部分ストリングから構成された有効ストリングセットを生成する段階と、
多数の文書の情報が保存されたデータベースに対する前記有効ストリングセットのサブセットのアクセスコストに基づいて、前記サブセットのうちいずれか一つを候補セットとして決定する段階と、
前記候補セットを利用し、前記データベースに保存された情報から、前記クエリストリングが存在する文書を検索する段階と、を含むクエリ処理方法。 - 前記候補セットは、
アクセスコストが基準値以下を有するサブセットであることを特徴とする請求項1に記載のクエリ処理方法。 - 前記基準値は、
前記有効ストリングセットのサブセットに係わるアクセスコストの算出時、既算出のアクセスコストのうち最小値であることを特徴とする請求項1に記載のクエリ処理方法。 - 前記アクセスコストは、
前記データベースで、前記サブセットに含まれた部分ストリングそれぞれのポスティングリストをアクセスして読み取るのにかかるコストの和と、前記データベースで、前記サブセットに含まれた有効ストリングのポスティングリストに共通して含まれた文書の識別情報にアクセスして読み取るのにかかるコストとのうち、少なくとも一つであることを特徴とする請求項1に記載のクエリ処理方法。 - 前記有効ストリングセットの部分ストリングのうち、少なくとも2つの部分ストリングの長さは、互いに異なることを特徴とする請求項1に記載のクエリ処理方法。
- 前記有効ストリングセットの部分ストリングは、前記有効ストリングセットの他の部分ストリングに含まれないことを特徴とする請求項1に記載のクエリ処理方法。
- 前記有効ストリングセットを生成する段階は、
前記クエリストリングを長さの異なる複数個のN−gramに分離し、
前記複数のN−gramにおいて、前記データベースの索引語に含まれるN−gramを選択し、
前記選択されたN−gramにおいて、他のN−gramに含まれないN−gramセットを、前記有効ストリングセットとして決定することを含むことを特徴とする請求項1に記載のクエリ処理方法。 - 前記候補セットは、
前記有効ストリングセットのサブセットのうち、前記アクセスコストが最小であるサブセットとして決定されることを特徴とする請求項1に記載のクエリ処理方法。 - 前記候補セットは、
前記有効ストリングセットのサブセットのうち、部分ストリングが追加されるときのアクセスコストより、アクセスコストの小さいサブセットでもって決定されることを特徴とする請求項1に記載のクエリ処理方法。 - 前記候補セットとして決定する段階は、
前記有効ストリングセットのサブセットをツリー構造に整列し、
深さ優先探索方法で前記ツリー構造でのサブセットを選択し、
前記選択されたサブセットのアクセスコストを算出し、
最小のアクセスコストを有するサブセットを候補セットとして決定することを含むことを特徴とする請求項1に記載のクエリ処理方法。 - 前記候補セットとして決定する段階は、
前記有効ストリングセットのサブセットのうち、部分ストリングの個数が同一である第1サブセットを選択し、
前記第1サブセットそれぞれに係わるアクセスコストを算出し、
最小のアクセスコストを有するサブセットを候補セットとして予想し、
前記有効ストリングセットのサブセットのうち、前記予想された候補セットに部分ストリングが追加された第2サブセットを選択し、
前記第2サブセットそれぞれに係わるアクセスコストが、前記予想された候補セットのアクセスコストより大きければ、前記予想された候補セットを候補セットとして決定することを含むことを特徴とする請求項1に記載のクエリ処理方法。 - 前記データベースは、
索引ツリー及びポスティングリストを含む逆索引データベースと、
識別情報を有する多数の文書が保存された文書データベースと、を含むことを特徴とする請求項1に記載のクエリ処理方法。 - 前記文書を決定する段階は、
前記逆索引データベースで、前記候補セットの部分ストリングいずれもとマッチングしていいる文書の識別情報を検索し、
前記文書データベースで、前記文書の識別情報を有する文書を検索することを含むことを特徴とする請求項12に記載のクエリ処理方法。 - 請求項1ないし請求項13のうち、いずれか一項に記載の方法を遂行するためのプログラムが記録されるコンピュータで読み取り可能な記録媒体。
- クエリストリングが入力され、前記クエリストリングが存在する文書が出力されるユーザ・インターフェースと、
多数の文書に係わる情報が保存されたデータベースと、
前記クエリストリングから、長さの異なる複数個の部分ストリングから構成された有効ストリングセットを生成し、前記データベースに対する前記有効ストリングセットのサブセットのアクセスコストに基づいて、前記サブセットのうちいずれか一つを候補セットとして決定し、前記候補セットを利用し、前記データベースに保存された情報から、前記クエリストリングが存在する文書を検索するプロセッサと、を含むクエリ処理装置。 - 前記アクセスコストは、
前記データベースで、前記サブセットに含まれた部分ストリングそれぞれのポスティングリストにアクセスして読み取るのにかかるコストの和と、前記データベースで、前記サブセットに含まれた有効ストリングのポスティングリストに共通して含まれた文書の識別情報にアクセスして読み取るのにかかるコストと、のうち少なくとも一つであることを特徴とする請求項15に記載のクエリ処理装置。 - 前記有効ストリングセットの部分ストリングのうち、少なくとも2つの部分ストリングの長さは、互いに異なることを特徴とする請求項15に記載のクエリ処理装置。
- 前記有効ストリングセットの部分ストリングは、前記有効ストリングセットの他の部分ストリングに含まれないことを特徴とする請求項15に記載のクエリ処理装置。
- 前記候補セットは、
前記有効ストリングセットのサブセットのうち、前記アクセスコストが最小であるサブセットでもって決定されることを特徴とする請求項15に記載のクエリ処理装置。 - 前記候補セットは、
前記有効ストリングセットのサブセットのうち、部分ストリングが追加されるときのアクセスコストより、アクセスコストの小さいサブセットとして決定されることを特徴とする請求項15に記載のクエリ処理装置。 - 前記データベースは、
索引ツリー及びポスティングリストを含む逆索引データベースと、
識別情報を有する多数の文書が保存された文書データベースと、を含むことを特徴とする請求項15に記載のクエリ処理装置。 - 前記プロセッサは、
前記逆索引データベースで、前記候補セットの部分ストリングいずれともマッチングしている前記文書の識別情報を検索し、
前記文書データベースで、前記文書の識別情報を有する文書を検索することを含むことを特徴とする請求項21に記載のクエリ処理装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110032898A KR101793578B1 (ko) | 2011-04-08 | 2011-04-08 | 효율적으로 질의를 처리하는 방법 및 장치 |
KR10-2011-0032898 | 2011-04-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012221489A true JP2012221489A (ja) | 2012-11-12 |
JP5980520B2 JP5980520B2 (ja) | 2016-08-31 |
Family
ID=46966910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012031022A Active JP5980520B2 (ja) | 2011-04-08 | 2012-02-15 | 効率的にクエリを処理する方法及び装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9110973B2 (ja) |
JP (1) | JP5980520B2 (ja) |
KR (1) | KR101793578B1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101341507B1 (ko) * | 2012-04-13 | 2013-12-13 | 연세대학교 산학협력단 | 수정된 b+트리 노드 검색 방법 및 장치 |
CN103793440B (zh) * | 2012-11-02 | 2018-03-27 | 阿里巴巴集团控股有限公司 | 信息显示方法和装置 |
US9208254B2 (en) * | 2012-12-10 | 2015-12-08 | Microsoft Technology Licensing, Llc | Query and index over documents |
CN107436911A (zh) * | 2017-05-24 | 2017-12-05 | 阿里巴巴集团控股有限公司 | 模糊查询方法、装置及查询系统 |
US11645273B2 (en) * | 2021-05-28 | 2023-05-09 | Ocient Holdings LLC | Query execution utilizing probabilistic indexing |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08194718A (ja) * | 1995-01-12 | 1996-07-30 | Hitachi Ltd | 文書検索方法および装置 |
US20100241622A1 (en) * | 2009-03-20 | 2010-09-23 | Jin Hee Gyu | Method and apparatus for query processing |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990084950A (ko) | 1998-05-12 | 1999-12-06 | 이계철 | 역화일을 이용한 데이터 부분검색 장치 및 그 방법 |
KR100725664B1 (ko) | 2005-08-26 | 2007-06-08 | 한국과학기술원 | 2단계 n-gram 역색인 구조 및 그 구성 방법과 질의처리 방법 및 그 색인 도출 방법 |
JP2007286742A (ja) | 2006-04-13 | 2007-11-01 | Ricoh Co Ltd | 文書検索装置 |
JP4439496B2 (ja) | 2006-07-18 | 2010-03-24 | 株式会社東芝 | 検索処理装置及びプログラム |
US7996369B2 (en) * | 2008-11-14 | 2011-08-09 | The Regents Of The University Of California | Method and apparatus for improving performance of approximate string queries using variable length high-quality grams |
JP2009104669A (ja) | 2009-02-12 | 2009-05-14 | Toshiba Corp | 文書検索方法、システム及びプログラム |
-
2011
- 2011-04-08 KR KR1020110032898A patent/KR101793578B1/ko not_active Application Discontinuation
- 2011-10-14 US US13/273,569 patent/US9110973B2/en active Active
-
2012
- 2012-02-15 JP JP2012031022A patent/JP5980520B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08194718A (ja) * | 1995-01-12 | 1996-07-30 | Hitachi Ltd | 文書検索方法および装置 |
US20100241622A1 (en) * | 2009-03-20 | 2010-09-23 | Jin Hee Gyu | Method and apparatus for query processing |
Also Published As
Publication number | Publication date |
---|---|
US9110973B2 (en) | 2015-08-18 |
KR20120115005A (ko) | 2012-10-17 |
JP5980520B2 (ja) | 2016-08-31 |
KR101793578B1 (ko) | 2017-11-20 |
US20120259862A1 (en) | 2012-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3724785B1 (en) | Fast indexing with graphs and compact regression codes on online social networks | |
US10725836B2 (en) | Intent-based organisation of APIs | |
US10310812B2 (en) | Matrix ordering for cache efficiency in performing large sparse matrix operations | |
EP2909740B1 (en) | Ranking for inductive synthesis of string transformations | |
CN103026356B (zh) | 语义内容搜索 | |
US20160306805A1 (en) | Tag refinement strategies for social tagging systems | |
US8001106B2 (en) | Systems and methods for tokenizing and interpreting uniform resource locators | |
JP6047550B2 (ja) | 検索方法、クライアント及びサーバ | |
JP2009238007A (ja) | 情報検索装置及びプログラム | |
US20180232351A1 (en) | Joining web data with spreadsheet data using examples | |
WJ Anderson et al. | Evolving stochastic context-free grammars for RNA secondary structure prediction | |
JP2015225371A (ja) | 関連ノードを探索する方法、並びに、そのコンピュータ、及びコンピュータ・プログラム | |
JP5980520B2 (ja) | 効率的にクエリを処理する方法及び装置 | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
JP2022024102A (ja) | 検索モデルのトレーニング方法、目標対象の検索方法及びその装置 | |
CN104067273A (zh) | 将搜索结果分组为简档页面 | |
JP5497105B2 (ja) | 文書検索装置および方法 | |
CN112000495B (zh) | 用于兴趣点信息管理的方法、电子设备和存储介质 | |
JP5757551B2 (ja) | 意味分類付与装置、意味分類付与方法、意味分類付与プログラム | |
KR101615164B1 (ko) | 엔-그램 기반의 질의 처리 장치 및 그 방법 | |
EP4433912A1 (en) | Classifying parts of a markup language document, and applications thereof | |
Kyriakakis et al. | Enabling ontology-based search: a case study in the bioinformatics domain | |
KR101349969B1 (ko) | 추천 질의어 제공 시스템 및 방법 | |
CN110209829B (zh) | 信息处理方法和装置 | |
CN112860940B (zh) | 基于描述逻辑知识库上有序概念空间的音乐资源检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160531 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160705 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160727 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5980520 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |