JP6751064B2 - データ検索システム、データ検索方法、及びプログラム - Google Patents
データ検索システム、データ検索方法、及びプログラム Download PDFInfo
- Publication number
- JP6751064B2 JP6751064B2 JP2017180534A JP2017180534A JP6751064B2 JP 6751064 B2 JP6751064 B2 JP 6751064B2 JP 2017180534 A JP2017180534 A JP 2017180534A JP 2017180534 A JP2017180534 A JP 2017180534A JP 6751064 B2 JP6751064 B2 JP 6751064B2
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- data
- column
- data set
- search condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、第1の実施形態の第1の例に係るデータ検索システム1のハードウェア構成例を示す図である。本例に係るデータ検索システム1は、情報処理端末11、サーバ12、及びネットワーク13を含む。情報処理端末11は、ユーザが使用するPC(Personal Computer)(タブレット端末、スマートフォン等を含む)等であり得る。サーバ12は、データ検索システム1の管理者が管理するサーバコンピュータ等であり得る。情報処理端末11とサーバ12とは、インターネット、LAN(Local Area Network)等のネットワーク13を介して接続されている。なお、同図においては、情報処理端末11及びサーバ12がそれぞれ1つずつ記載されているが、それらの両方又は一方が複数存在してもよい。
図23は、第2の実施形態に係る第3のデータセット301のデータ構造例を示す図である。第3のデータセット301は、図7に示す第2のデータセット122と同様に、第2のカラム142を基準カラムとするが、第3のデータセット301の最下部のレコードクラスタ311に含まれるクラスタ311A〜311Cは、第2のデータセット122の最下部のレコードクラスタ163とは異なり、第2のカラム142に基づくソートがなされていない。
本実施形態においては、予め複数のデータセットを生成しておくのではなく、既に存在しているデータセットの基準カラム(例えば、第1のデータセット121の第1のカラム)が検索条件に対応していない場合に、検索条件に対応するカラムを基準カラムとする新たなデータセットを生成する。
11,21 情報処理端末
12 サーバ
13 ネットワーク
15 データベース
25 制御演算装置
26 ユーザI/F
31 CPU
32 ROM
33 RAM
34 ストレージ
35 入力デバイス
36 出力デバイス
37 通信I/F
38 バス
101 記憶部
102 入力部
103 データセット生成部
104 インデックス情報生成部
105 クラスタ読出部
106 データ抽出部
107 出力部
115 レコード
121 第1のデータセット
122 第2のデータセット
131 第1のクラスタ群
132 第2のクラスタ群
141〜143 カラム
151〜153,161〜163,311 レコードクラスタ
151A〜151C,152A〜152C,153A〜153C,161A〜161C,162A〜162C,163A〜163C,311A〜311C クラスタ
171〜173 インデックス情報
201,221 検索条件
211,231 抽出データ
241〜244 SSD
301 第3のデータセット
Claims (8)
- 複数のレコードを含み、第1のカラムをソートの基準となる基準カラムとし、前記複数のレコードを構成するデータが前記第1のカラムの所定範囲毎にクラスタリングされた第1のデータセットと、前記複数のレコードを含み、第2のカラムを前記基準カラムとし、前記複数のレコードを構成するデータが前記第2のカラムの所定範囲毎にクラスタリングされた第2のデータセットを生成するデータセット生成部と、
前記クラスタリングにより生成されたクラスタを記憶装置に記憶させる記憶部と、
前記基準カラムを示す情報と、前記所定範囲を示す情報と、前記クラスタの記憶領域とが対応付けられたインデックス情報を生成するインデックス情報生成部と、
前記インデックス情報に基づいて、前記基準カラムが検索条件に対応し且つ前記所定範囲が前記検索条件を含む前記クラスタを前記記憶装置から読み出すクラスタ読出部と、
読み出された前記クラスタから前記検索条件に合致したデータを抽出するデータ抽出部と、
を備えるデータ検索システム。 - 前記第2のデータセットを構成する複数の前記クラスタのうちの少なくとも1つの前記クラスタは、当該クラスタ内で前記第2のカラムを基準としたソートがなされていない、
請求項1に記載のデータ検索システム。 - 前記第2のデータセットは、前記第1のカラムが前記検索条件に対応していない場合に、前記検索条件に対応するカラムを前記基準カラムとして生成される、
請求項1又は2に記載のデータ検索システム。 - 複数の前記クラスタは、複数の前記記憶装置に分散して記憶される、
請求項1〜3のいずれか1項に記載のデータ検索システム。 - 同一のカラムのデータを有する第1のクラスタと第2のクラスタとが、それぞれ異なる前記記憶装置に記憶される、
請求項4に記載のデータ検索システム。 - 前記記憶装置は、SSDである、
請求項4又は5に記載のデータ検索システム。 - 複数のレコードを含み、第1のカラムをソートの基準となる基準カラムとし、前記複数のレコードを構成するデータが前記第1のカラムの所定範囲毎にクラスタリングされた第1のデータセットと、前記複数のレコードを含み、第2のカラムを前記基準カラムとし、前記複数のレコードを構成するデータが前記第2のカラムの所定範囲毎にクラスタリングされた第2のデータセットを生成するステップと、
前記クラスタリングにより生成されたクラスタを記憶装置に記憶させるステップと、
前記基準カラムを示す情報と、前記所定範囲を示す情報と、前記クラスタの記憶領域とが対応付けられたインデックス情報を生成するステップと、
前記インデックス情報に基づいて、前記基準カラムが検索条件に対応し且つ前記所定範囲が前記検索条件を含む前記クラスタを前記記憶装置から読み出すステップと、
読み出された前記クラスタから前記検索条件に合致したデータを抽出するステップと、
を含むデータ検索方法。 - コンピュータに、
複数のレコードを含み、第1のカラムをソートの基準となる基準カラムとし、前記複数のレコードを構成するデータが前記第1のカラムの所定範囲毎にクラスタリングされた第1のデータセットと、前記複数のレコードを含み、第2のカラムを前記基準カラムとし、前記複数のレコードを構成するデータが前記第2のカラムの所定範囲毎にクラスタリングされた第2のデータセットを生成する処理と、
前記クラスタリングにより生成されたクラスタを記憶装置に記憶させる処理と、
前記基準カラムを示す情報と、前記所定範囲を示す情報と、前記クラスタの記憶領域とが対応付けられたインデックス情報を生成する処理と、
前記インデックス情報に基づいて、前記基準カラムが検索条件に対応し且つ前記所定範囲が前記検索条件を含む前記クラスタを前記記憶装置から読み出す処理と、
読み出された前記クラスタから前記検索条件に合致したデータを抽出する処理と、
を実行させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017180534A JP6751064B2 (ja) | 2017-09-20 | 2017-09-20 | データ検索システム、データ検索方法、及びプログラム |
US15/903,736 US10579616B2 (en) | 2017-09-20 | 2018-02-23 | Data search system, data search method, and program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017180534A JP6751064B2 (ja) | 2017-09-20 | 2017-09-20 | データ検索システム、データ検索方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019057082A JP2019057082A (ja) | 2019-04-11 |
JP6751064B2 true JP6751064B2 (ja) | 2020-09-02 |
Family
ID=65720436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017180534A Active JP6751064B2 (ja) | 2017-09-20 | 2017-09-20 | データ検索システム、データ検索方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10579616B2 (ja) |
JP (1) | JP6751064B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6751064B2 (ja) * | 2017-09-20 | 2020-09-02 | 株式会社東芝 | データ検索システム、データ検索方法、及びプログラム |
CN110737727B (zh) * | 2018-07-19 | 2023-09-29 | 华为云计算技术有限公司 | 一种数据处理的方法及系统 |
KR102233944B1 (ko) * | 2019-04-05 | 2021-03-30 | 주식회사 티맥스티베로 | 데이터베이스 관리를 위한 컴퓨터 프로그램 |
CN110188119A (zh) * | 2019-06-10 | 2019-08-30 | 北京百度网讯科技有限公司 | 用于获取数据的方法和装置 |
CN113419795B (zh) * | 2021-07-21 | 2022-05-03 | 网易(杭州)网络有限公司 | 调用关系的展示方法、装置、计算机设备及存储介质 |
WO2023152965A1 (ja) * | 2022-02-14 | 2023-08-17 | 晋二 古庄 | データ提供装置、データ提供方法及びプログラム |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6999957B1 (en) * | 2000-01-11 | 2006-02-14 | The Relegence Corporation | System and method for real-time searching |
JP2002132644A (ja) | 2000-10-24 | 2002-05-10 | Asahi Glass Co Ltd | 時系列データベースシステム |
US7383258B2 (en) * | 2002-10-03 | 2008-06-03 | Google, Inc. | Method and apparatus for characterizing documents based on clusters of related words |
US20050246324A1 (en) * | 2004-04-30 | 2005-11-03 | Nokia Inc. | System and associated device, method, and computer program product for performing metadata-based searches |
KR101358750B1 (ko) | 2007-01-22 | 2014-02-06 | 삼성전자주식회사 | 관계형 데이터베이스를 이용한 프로그램 트레이스 방법 |
US8725739B2 (en) * | 2010-11-01 | 2014-05-13 | Evri, Inc. | Category-based content recommendation |
US9116995B2 (en) * | 2011-03-30 | 2015-08-25 | Vcvc Iii Llc | Cluster-based identification of news stories |
US9286366B2 (en) * | 2013-12-02 | 2016-03-15 | International Business Machines Corporation | Time-delayed replication for data archives |
WO2016006276A1 (ja) * | 2014-07-10 | 2016-01-14 | 日本電気株式会社 | インデックス生成装置及びインデックス生成方法 |
US9658801B2 (en) * | 2015-09-15 | 2017-05-23 | Salesforce.Com, Inc. | System having in-memory buffer service, temporary events file storage system and backup events file uploader service |
US10242258B2 (en) * | 2015-09-30 | 2019-03-26 | Microsoft Technology Licensing, Llc | Organizational data enrichment |
US11216491B2 (en) * | 2016-03-31 | 2022-01-04 | Splunk Inc. | Field extraction rules from clustered data samples |
US11249710B2 (en) * | 2016-03-31 | 2022-02-15 | Splunk Inc. | Technology add-on control console |
US20180081780A1 (en) | 2016-09-21 | 2018-03-22 | Kabushiki Kaisha Toshiba | Trace-information management system, trace-information management method, and trace-information management program product |
JP2018055667A (ja) | 2016-09-21 | 2018-04-05 | 株式会社東芝 | トレース情報管理システム、方法、及びプログラム |
US10942960B2 (en) * | 2016-09-26 | 2021-03-09 | Splunk Inc. | Automatic triage model execution in machine data driven monitoring automation apparatus with visualization |
US10942946B2 (en) * | 2016-09-26 | 2021-03-09 | Splunk, Inc. | Automatic triage model execution in machine data driven monitoring automation apparatus |
JP6751064B2 (ja) * | 2017-09-20 | 2020-09-02 | 株式会社東芝 | データ検索システム、データ検索方法、及びプログラム |
-
2017
- 2017-09-20 JP JP2017180534A patent/JP6751064B2/ja active Active
-
2018
- 2018-02-23 US US15/903,736 patent/US10579616B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019057082A (ja) | 2019-04-11 |
US20190087453A1 (en) | 2019-03-21 |
US10579616B2 (en) | 2020-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6751064B2 (ja) | データ検索システム、データ検索方法、及びプログラム | |
US20200356901A1 (en) | Target variable distribution-based acceptance of machine learning test data sets | |
US10817258B2 (en) | Clustering storage method and apparatus | |
JP5241370B2 (ja) | テーブル分類装置、テーブル分類方法及びテーブル分類プログラム | |
Yagoubi et al. | Massively distributed time series indexing and querying | |
JP4848317B2 (ja) | データベースのインデックス作成システム、方法及びプログラム | |
US11080234B2 (en) | Computer readable recording medium for index generation | |
CN111258966A (zh) | 一种数据去重方法、装置、设备及存储介质 | |
CN108205571B (zh) | 键值数据表的连接方法及装置 | |
CN111914020A (zh) | 数据同步方法及装置、数据查询方法及装置 | |
JP5686893B2 (ja) | データベース管理システム、装置及び方法 | |
US10303655B1 (en) | Storage array compression based on the structure of the data being compressed | |
JP2009169689A (ja) | データ分類方法およびデータ処理装置 | |
KR101035037B1 (ko) | 동적 임계값이 적용된 유사문서 분류화 장치 및 방법 | |
US10268644B2 (en) | Information processing apparatus, computer-readable recording medium having stored therein data conversion program, and data conversion method | |
CN115328950A (zh) | 一种基于二级索引的hbase查询方法、终端设备及存储介质 | |
KR102062139B1 (ko) | 지능형 자료구조 기반의 데이터 처리 방법 및 그를 위한 장치 | |
JP6666312B2 (ja) | 多次元データ管理システム及び多次元データ管理方法 | |
JPWO2014168199A1 (ja) | 論理演算方法および情報処理装置 | |
JP6455087B2 (ja) | 帳票情報処理プログラム、帳票情報処理装置、および帳票情報処理方法 | |
JP6361472B2 (ja) | 対応情報生成プログラム、対応情報生成装置及び対応情報生成方法 | |
JP2020030634A (ja) | 検索装置、検索方法及び検索プログラム | |
JP2021067962A (ja) | 情報処理システム及び情報処理方法 | |
JP2018181121A (ja) | 分析装置、分析プログラム及び分析方法 | |
JP2019028788A (ja) | 機密語特定装置、機密語特定方法及び機密語特定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190813 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200612 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200714 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200813 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6751064 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |