JP2020514899A - 最適化したビットマップ表現を用いる大規模の関連付けセットの管理 - Google Patents
最適化したビットマップ表現を用いる大規模の関連付けセットの管理 Download PDFInfo
- Publication number
- JP2020514899A JP2020514899A JP2019548553A JP2019548553A JP2020514899A JP 2020514899 A JP2020514899 A JP 2020514899A JP 2019548553 A JP2019548553 A JP 2019548553A JP 2019548553 A JP2019548553 A JP 2019548553A JP 2020514899 A JP2020514899 A JP 2020514899A
- Authority
- JP
- Japan
- Prior art keywords
- entities
- entity
- segment
- segments
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2237—Vectors, bitmaps or matrices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
12:CPU又はプロセッサ
14:ネットワーク・インターフェース又は通信デバイス
16:メモリ
17:データベース
18:データベース管理モジュール
20:クライアント・システム
22:データベース・クエリ・モジュール
30:ネットワーク
100、600:関連付けセット
110、120、130、610、620、630、640、650、660:セグメント
140:セグメント・ヘッダ・テーブル
150:セグメント・データ・テーブル
400:バックグラウンド併合器プロセス
500:クエリ・プロセス
612、622、632、642、652、662:セグメント・ヘッダ情報
614、624、634、644、654、664:セグメント・データ情報
670:出力
Claims (24)
- データのセットに対するデータベース・クエリを処理する方法であって、
整数空間からの一意の識別子をデータ内の各エンティティに割り当て、各々が前記データ内の対応するエンティティに関係するエンティティの1つ又は複数のセットを作成することと、
エンティティの各セットについてディスク上に表現を生成することであって、各表現は、対応するセット内のエンティティの前記一意の識別子の範囲を含みかつそれに適しており、その対応するセット内のエンティティの存在を示す、生成することと、
前記クエリを満足するデータを取り出すために、エンティティの各セットについての前記表現に基づいてクエリを処理することであって、前記表現は、クエリ時における削除されたエンティティ及び重複するエンティティの遅延した併合及び自動フィルタリングを伴う追記のみの動作である関連付け及び解除動作を定数時間で提供する、処理することと、
を含む方法。 - エンティティの少なくとも1つのセットは、特定のエンティティと関連付けられたエンティティを含む、請求項1に記載の方法。
- エンティティの少なくとも1つのセットは、特定のエンティティと解除されたエンティティを含む、請求項1に記載の方法。
- エンティティは、人、文書、イベント及びオブジェクトの群からの1つ又は複数のインスタンスを表す、請求項1に記載の方法。
- 前記エンティティのセットの各々は、エンティティ識別子の複数のセグメントにパーティション化され、エンティティのセットのセグメントのエンティティ識別子についてのメタデータは、ペイロードとして前記セグメントにインラインで格納される、請求項1に記載の方法。
- エンティティ識別子により表されるエンティティのセットを複数のセグメントにパーティション化することであって、各セグメントについてのコンテンツ及び各セグメントについてのメタデータは、別個のデータ・オブジェクト内に格納され、各セグメントは、関連付けを示すためのinsert(挿入)タイプ及び解除を示すためのdelete(削除)タイプのうちの一方であり、セグメント・サイズは、要求サイズ、圧縮タイプ、及び実行時最適化に基づき、前記複数のセグメントは、時間順に順序付けられ、セグメントを併合、挿入及び削除することにより、前記エンティティのセットのコンテンツを生成するために用いられる、パーティション化することと、
前記複数のセグメントに対する動作を同時に実行することと、
をさらに含む、請求項1に記載の方法。 - 前記クエリを処理することは、
前記複数のセグメントに対する前記クエリを評価し、前記評価したセグメントの各々からの結果を結合することをさらに含む、請求項6に記載の方法。 - エンティティのセットは、前記エンティティのセットの物理的表現で保存される重複するエンティティ識別子を有する非一意のエンティティを含むマルチセットを含み、前記クエリは、前記セット又はマルチセットの表現を要求する、請求項1に記載の方法。
- データのセットに対するデータベース・クエリを処理するためのシステムであって、
整数空間からの一意の識別子をデータ内の各エンティティに割り当て、各々が前記データ内の対応するエンティティに関係するエンティティの1つ又は複数のセットを作成することと、
エンティティの各セットについてディスク上に表現を生成することであって、各表現は、対応するセット内のエンティティの前記一意の識別子の範囲を含みかつそれに適しており、その対応するセット内のエンティティの存在を示す、生成することと、
前記クエリを満足するデータを取り出すために、エンティティの各セットについての前記表現に基づいてクエリを処理することであって、前記表現は、クエリ時における削除されたエンティティ及び重複するエンティティの遅延した併合及び自動フィルタリングを伴う追記のみの動作である関連付け及び解除動作を定数時間で提供する、処理することと、
を行うように構成されたプロセッサを含む、システム。 - エンティティの少なくとも1つのセットは、特定のエンティティと関連付けられたエンティティを含む、請求項9に記載のシステム。
- エンティティの少なくとも1つのセットは、特定のエンティティと解除されたエンティティを含む、請求項9に記載のシステム。
- エンティティは、人、文書、イベント及びオブジェクトの群からの1つ又は複数のインスタンスを表す、請求項9に記載のシステム。
- 前記エンティティのセットの各々は、エンティティ識別子の複数のセグメントにパーティション化され、エンティティのセットのセグメントのエンティティ識別子についてのメタデータは、ペイロードとして前記セグメントにインラインで格納される、請求項9に記載のシステム。
- 前記プロセッサは、
エンティティ識別子により表されるエンティティのセットを複数のセグメントにパーティション化することであって、各セグメントについてのコンテンツ及び各セグメントについてのメタデータは、別個のデータ・オブジェクト内に格納され、各セグメントは、関連付けを示すためのinsertタイプ及び解除を示すためのdeleteタイプのうちの一方であり、セグメント・サイズは、要求サイズ、圧縮タイプ、及び実行時最適化に基づき、前記複数のセグメントは、時間順に順序付けられ、セグメントを併合、挿入及び削除することにより、前記エンティティのセットのコンテンツを生成するために用いられる、パーティション化することと、
前記複数のセグメントに対する動作を同時に実行することと、
を行うようにさらに構成される、請求項9に記載のシステム。 - 前記クエリを処理することは、
前記複数のセグメントに対する前記クエリを評価し、前記評価したセグメントの各々からの結果を結合することをさらに含む、請求項14に記載のシステム。 - エンティティのセットは、前記エンティティのセットの物理的表現で保存される重複するエンティティ識別子を有する非一意のエンティティを含むマルチセットを含み、前記クエリは、前記セット又はマルチセットの表現を要求する、請求項9に記載のシステム。
- データのセットに関するデータベース・クエリを処理するためのコンピュータ・プログラムであって、前記コンピュータ・プログラムはプログラム命令を有し、前記プログラム命令は、プロセッサにより実行可能であり、前記プロセッサに、
整数空間からの一意の識別子をデータ内の各エンティティに割り当て、各々が前記データ内の対応するエンティティに関係するエンティティの1つ又は複数のセットを作成することと、
エンティティの各セットについてディスク上に表現を生成することであって、各表現は、対応するセット内のエンティティの前記一意の識別子の範囲を含みかつそれに適しており、その対応するセット内のエンティティの存在を示す、生成することと、
前記クエリを満足するデータを取り出すために、エンティティの各セットについての前記表現に基づいてクエリを処理することであって、前記表現は、クエリ時における削除されたエンティティ及び重複するエンティティの遅延した併合及び自動フィルタリングを伴う追記のみの動作である関連付け及び解除動作を定数時間で提供する、処理することと、
を行わせる、コンピュータ・プログラム。 - エンティティの少なくとも1つのセットは、特定のエンティティと関連付けられたエンティティを含む、請求項17に記載のコンピュータ・プログラム。
- エンティティの少なくとも1つのセットは、特定のエンティティと解除されたエンティティを含む、請求項17に記載のコンピュータ・プログラム。
- エンティティは、人、文書、イベント及びオブジェクトの群からの1つ又は複数のインスタンスを表す、請求項17に記載のコンピュータ・プログラム。
- 前記エンティティのセットの各々は、エンティティ識別子の複数のセグメントにパーティション化され、エンティティのセットのセグメントのエンティティ識別子についてのメタデータは、ペイロードとして前記セグメントにインラインで格納される、請求項17に記載のコンピュータ・プログラム。
- エンティティ識別子により表されるエンティティのセットを複数のセグメントにパーティション化することであって、各セグメントについてのコンテンツ及び各セグメントについてのメタデータは、別個のデータ・オブジェクト内に格納され、各セグメントは、関連付けを示すためのinsertタイプ及び解除を示すためのdeleteタイプのうちの一方であり、セグメント・サイズは、要求サイズ、圧縮タイプ、及び実行時最適化に基づき、前記複数のセグメントは、時間順に順序付けられ、セグメントを併合、挿入及び削除することにより、前記エンティティのセットのコンテンツを生成するために用いられる、パーティション化することと、
前記複数のセグメントに対する動作を同時に実行することと、
をさらに含む、請求項17に記載のコンピュータ・プログラム。 - 前記クエリを処理することは、
前記複数のセグメントに対する前記クエリを評価し、前記評価したセグメントの各々からの結果を結合することをさらに含む、請求項22に記載のコンピュータ・プログラム。 - エンティティのセットは、前記エンティティのセットの物理的表現で保存される重複するエンティティ識別子を有する非一意のエンティティを含むマルチセットを含み、前記クエリは、前記セット又はマルチセットの表現を要求する、請求項17に記載のコンピュータ・プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/459,372 US10452631B2 (en) | 2017-03-15 | 2017-03-15 | Managing large scale association sets using optimized bit map representations |
US15/459,372 | 2017-03-15 | ||
PCT/IB2018/051028 WO2018167584A1 (en) | 2017-03-15 | 2018-02-20 | Managing large scale association sets using optimized bit map representations |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020514899A true JP2020514899A (ja) | 2020-05-21 |
JP7030831B2 JP7030831B2 (ja) | 2022-03-07 |
Family
ID=63519295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019548553A Active JP7030831B2 (ja) | 2017-03-15 | 2018-02-20 | 最適化したビットマップ表現を用いる大規模の関連付けセットの管理 |
Country Status (6)
Country | Link |
---|---|
US (2) | US10452631B2 (ja) |
JP (1) | JP7030831B2 (ja) |
CN (1) | CN110178128B (ja) |
DE (1) | DE112018000456T5 (ja) |
GB (1) | GB2574537A (ja) |
WO (1) | WO2018167584A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10452631B2 (en) | 2017-03-15 | 2019-10-22 | International Business Machines Corporation | Managing large scale association sets using optimized bit map representations |
US11050766B2 (en) * | 2018-10-31 | 2021-06-29 | EMC IP Holding Company LLC | Generating unique virtual process identifiers for use in network security mechanisms |
CN111488340B (zh) * | 2019-01-29 | 2023-09-12 | 菜鸟智能物流控股有限公司 | 数据处理方法、装置及电子设备 |
CN110162543A (zh) * | 2019-05-29 | 2019-08-23 | 北京奇艺世纪科技有限公司 | 一种信息查询方法及装置 |
US11429611B2 (en) * | 2019-09-24 | 2022-08-30 | International Business Machines Corporation | Processing data of a database system |
KR102177064B1 (ko) * | 2019-11-18 | 2020-11-10 | 재단법인대구경북과학기술원 | 다항 조인 연산자를 이용한 쿼리 처리 방법 및 그 장치 |
US20230196882A1 (en) * | 2021-12-17 | 2023-06-22 | Amtote International, Inc. | Virtual sports league |
CN115062075A (zh) * | 2022-06-21 | 2022-09-16 | 成都秦川物联网科技股份有限公司 | 基于时序数据处理的工业物联网及其控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002157227A (ja) * | 2000-11-20 | 2002-05-31 | Sony Corp | 情報処理装置、コンテンツ情報更新方法、およびコンテンツ情報更新プログラムを記録した記録媒体 |
JP2002528821A (ja) * | 1998-08-04 | 2002-09-03 | エンフィッシュ テクノロジー, インコーポレイテッド | 共用ファイル環境用の改良された情報格納および検索システムを有する物理格納アーキテクチャのための方法および装置 |
WO2009144941A1 (ja) * | 2008-05-30 | 2009-12-03 | 日本電気株式会社 | データベースシステム、データベース管理方法、データベース構造およびコンピュータプログラム |
WO2013157099A1 (ja) * | 2012-04-18 | 2013-10-24 | 株式会社Murakumo | データベースの管理方法、データベースシステム、及び、プログラム |
US20160321376A1 (en) * | 2015-04-28 | 2016-11-03 | Microsoft Technology Licensing, Llc | Linked data processor for database storage |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5790848A (en) * | 1995-02-03 | 1998-08-04 | Dex Information Systems, Inc. | Method and apparatus for data access and update in a shared file environment |
EP1349081A1 (en) * | 2002-03-28 | 2003-10-01 | LION Bioscience AG | Method and apparatus for querying relational databases |
US8577908B2 (en) | 2003-03-20 | 2013-11-05 | International Business Machines Corporation | Automatic lock management in an abstract database |
US20070150489A1 (en) | 2005-12-22 | 2007-06-28 | International Business Machines Corporation | Method of representing continuum of data as a rolling column within a relational model |
US9275129B2 (en) | 2006-01-23 | 2016-03-01 | Symantec Corporation | Methods and systems to efficiently find similar and near-duplicate emails and files |
US7840575B2 (en) * | 2006-05-19 | 2010-11-23 | Oracle International Corporation | Evaluating event-generated data using append-only tables |
US7765215B2 (en) * | 2006-08-22 | 2010-07-27 | International Business Machines Corporation | System and method for providing a trustworthy inverted index to enable searching of records |
US8396838B2 (en) | 2007-10-17 | 2013-03-12 | Commvault Systems, Inc. | Legal compliance, electronic discovery and electronic document handling of online and offline copies of data |
US8484211B2 (en) | 2008-07-02 | 2013-07-09 | Lexisnexis Risk Solutions Fl Inc. | Batch entity representation identification using field match templates |
US8762333B2 (en) * | 2009-07-08 | 2014-06-24 | Pivotal Software, Inc. | Apparatus and method for read optimized bulk data storage |
CN103229167A (zh) | 2010-10-06 | 2013-07-31 | 星汇数据解决方案公司 | 用于为电子发现数据编索引的系统和方法 |
US9189549B2 (en) * | 2010-11-08 | 2015-11-17 | Microsoft Technology Licensing, Llc | Presenting actions and providers associated with entities |
US9244977B2 (en) * | 2012-12-31 | 2016-01-26 | Google Inc. | Using content identification as context for search |
US10621388B2 (en) * | 2016-07-20 | 2020-04-14 | Sap Se | Automatic delta query support for backend databases |
US10452631B2 (en) | 2017-03-15 | 2019-10-22 | International Business Machines Corporation | Managing large scale association sets using optimized bit map representations |
-
2017
- 2017-03-15 US US15/459,372 patent/US10452631B2/en not_active Expired - Fee Related
-
2018
- 2018-02-20 WO PCT/IB2018/051028 patent/WO2018167584A1/en active Application Filing
- 2018-02-20 GB GB1913189.5A patent/GB2574537A/en not_active Withdrawn
- 2018-02-20 CN CN201880006890.3A patent/CN110178128B/zh active Active
- 2018-02-20 DE DE112018000456.2T patent/DE112018000456T5/de active Pending
- 2018-02-20 JP JP2019548553A patent/JP7030831B2/ja active Active
-
2019
- 2019-07-29 US US16/524,309 patent/US11372831B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002528821A (ja) * | 1998-08-04 | 2002-09-03 | エンフィッシュ テクノロジー, インコーポレイテッド | 共用ファイル環境用の改良された情報格納および検索システムを有する物理格納アーキテクチャのための方法および装置 |
JP2002157227A (ja) * | 2000-11-20 | 2002-05-31 | Sony Corp | 情報処理装置、コンテンツ情報更新方法、およびコンテンツ情報更新プログラムを記録した記録媒体 |
WO2009144941A1 (ja) * | 2008-05-30 | 2009-12-03 | 日本電気株式会社 | データベースシステム、データベース管理方法、データベース構造およびコンピュータプログラム |
WO2013157099A1 (ja) * | 2012-04-18 | 2013-10-24 | 株式会社Murakumo | データベースの管理方法、データベースシステム、及び、プログラム |
US20160321376A1 (en) * | 2015-04-28 | 2016-11-03 | Microsoft Technology Licensing, Llc | Linked data processor for database storage |
Also Published As
Publication number | Publication date |
---|---|
US10452631B2 (en) | 2019-10-22 |
US20190354514A1 (en) | 2019-11-21 |
GB201913189D0 (en) | 2019-10-30 |
CN110178128B (zh) | 2023-05-12 |
JP7030831B2 (ja) | 2022-03-07 |
DE112018000456T5 (de) | 2019-10-02 |
WO2018167584A1 (en) | 2018-09-20 |
US20180268009A1 (en) | 2018-09-20 |
GB2574537A (en) | 2019-12-11 |
CN110178128A (zh) | 2019-08-27 |
US11372831B2 (en) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7030831B2 (ja) | 最適化したビットマップ表現を用いる大規模の関連付けセットの管理 | |
US20220277028A1 (en) | Data relationships storage platform | |
US20190266195A1 (en) | Filtering queried data on data stores | |
US9922114B2 (en) | Systems and methods for distributing indexer configurations | |
US10417265B2 (en) | High performance parallel indexing for forensics and electronic discovery | |
US8150876B2 (en) | Simplifying determination of the groups to which users belong when using dynamic groups | |
US20140012867A1 (en) | Method And Process For Enabling Distributing Cache Data Sources For Query Processing And Distributed Disk Caching Of Large Data And Analysis Requests | |
US20130332421A1 (en) | Defining Content Retention Rules Using a Domain-Specific Language | |
US9965524B2 (en) | Systems and methods for identifying anomalous data in large structured data sets and querying the data sets | |
WO2014163624A1 (en) | Query integration across databases and file systems | |
US20150095340A1 (en) | Information Sets for Data Management | |
WO2020192663A1 (zh) | 一种数据管理方法及相关设备 | |
Pandagale et al. | Hadoop-HBase for finding association rules using Apriori MapReduce algorithm | |
US11481399B1 (en) | Nested discovery and deletion of resources | |
Keswani et al. | Enhanced approach to attain competent Big Data pre-processing | |
CA2918472C (en) | A method and process for enabling distributing cache data sources for query processing and distributed disk caching of large data and analysis requests | |
Pereira et al. | Mediator framework for inserting xDRs into Hadoop | |
Yang et al. | PBI: A path-based bitmap index for efficient process analysis in cloud computing environment | |
Arora et al. | Hadoop as a Service On premise Vs over Cloud | |
Jones et al. | Data aware caching using MapReduce framework | |
Sachdev et al. | Khanan: Performance Comparison and Programming α-Miner Algorithm in Column-Oriented and Relational Database Query Languages | |
US9582563B1 (en) | Generation of a dimensional data structure | |
Rajadnye | Is Datawarehouse Relevant in the Era of Big Data? | |
Ivalo | Data Lakehouse Architecture for Big Data with Apache Hudi |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191112 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200826 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210714 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210720 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211008 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220215 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220222 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7030831 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |