JP7120439B2 - データ一般化装置、データ一般化方法、プログラム - Google Patents
データ一般化装置、データ一般化方法、プログラム Download PDFInfo
- Publication number
- JP7120439B2 JP7120439B2 JP2021504880A JP2021504880A JP7120439B2 JP 7120439 B2 JP7120439 B2 JP 7120439B2 JP 2021504880 A JP2021504880 A JP 2021504880A JP 2021504880 A JP2021504880 A JP 2021504880A JP 7120439 B2 JP7120439 B2 JP 7120439B2
- Authority
- JP
- Japan
- Prior art keywords
- storage device
- generalization
- generalized
- hierarchy
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
以下の実施例では、大規模データを小容量の主記憶装置で高速に一般化処理できるデータ一般化装置、データ一般化方法、プログラムを開示する。実施例1のデータ一般化装置、データ一般化方法、プログラムは、補助記憶装置(例えばHDD)の、ランダムアクセスと比較してシーケンシャルアクセス(連続アクセス)のほうが速いという特徴、補助記憶装置(例えばHDD)が主記憶装置(例えばメモリ)と比較して遅いという特徴、補助記憶装置(例えばHDD)が主記憶装置(例えばメモリ)と比べて記憶容量が大きいという特徴を考慮して、アルゴリズムとデータ構造を工夫することで、高速な処理を実現した。
一般化の対象となるデータベースの属性を補助記憶装置上に配置する。また一般化階層も同様に補助記憶装置上に配置する。属性の各値は、値が連続となるように補助記憶装置上に配置する。ここで、「連続…に配置」とは他のデータを挟まないようにデータを連続に配置することを意味する。属性の各値を参照する際は、シーケンシャルアクセスされることを想定し、補助記憶装置から主記憶装置にデータを読み出す際は、先読み処理を行うようにする。
対象属性を外部ソートで並び替える。
対象属性の各属性値をシーケンシャルに参照していき、各値ごとに該当する一般化階層の集合のうちの一部の一般化階層を取得し、一般化処理を行う。
一般化処理済みの属性値を元の順序に戻す。
並び替え部11は、補助記憶装置10B上の一般化階層における属性値の並び順に従って、補助記憶装置10B上の属性値を並び替える(S11)。「一般化階層における属性値の並び順」とは、例えば一般化階層を表す木構造の末端のリーフの並び順を意味する。図1の例では、木構造の末端のリーフは13,18,23,34,…の順序で並んでいる。
属性値取得部12は、並び替えた属性値の一部を補助記憶装置10Bから主記憶装置10A上に取得する(S12)。本実施例では、属性値取得部12は、並び替えた属性値の一部を、主記憶装置10A上に予め用意したベクトルc^(後述)に格納するものとする。
一般化階層取得部13は、一般化階層の集合のうちの一部の一般化階層であって、主記憶装置10A上に取得した属性値のうち、処理対象の属性値に対応する一般化階層を補助記憶装置10Bから主記憶装置10A上に取得する(S13)。一般化階層取得部13は、一般化階層の集合内の全ての一般化階層ではなく、処理対象の属性値に対応する一部の一般化階層を補助記憶装置10Bから主記憶装置10A上に取得することに注意する。
一般化処理部14は、主記憶装置10A上に取得した属性値と、主記憶装置10A上に取得した一般化階層に基づいて、一般化処理を実行する(S14)。
再並び替え部15は、一般化処理後の属性値を補助記憶装置10Bに移動して、元の順序に並び替える(S15)。
Input:レコード数N、一般化の対象となる属性a^、属性に対応する一般化階層X^、階層上昇数j、主記憶装置10A上で用いる要素数M
Output:一般化された属性b^
[1]:対象属性a^を値が連続になるように補助記憶装置10B上に配置する。ここで、「値が連続になるように…配置」とは他のデータを挟まないようにデータを連続に配置することを意味する。一般化階層X^を補助記憶装置10B上に配置する。主記憶装置10A上に要素数Mのベクトルc^、d^を用意する。なお、c^は属性用、d^は一般化階層用の主記憶装置10A上のベクトルである。
[2]:対象属性a^を外部ソートで並び替える。外部ソートとして、例えばマージソート等がある(図4、S11相当)。
[3]:for i = 1 to N do
[4]:i番目の属性の値aiをアルゴリズム2で取得する(図4、S12相当)。
[5]:aiに対応する一般化階層の値
[6]:i番目の属性の値
[7]:end for
[8]:一般化された属性b^をa^の元の並びに変える(図4、S15相当)。
[9]:return b^
Input:補助記憶装置10B上に配置された属性a^、参照したい要素の位置i、主記憶装置10A上のベクトルc^
Output:値ai
[1]:if i番目の要素がc^に存在しない場合 then
[2]:i番目からi + |c^| -1番目の要素を補助記憶装置10Bから取得し、c^に格納する。
[3]:end if
[4]:return c^内のai
Input:補助記憶装置10B上に配置された一般化階層X^、参照したい一般化階層の位置を表す属性の値aiおよび階層上昇数j、主記憶装置10A上のベクトルd^
Output:
[2]: if d^が一杯の場合 then
[3]:d^の中から最も利用されていない要素と
[4]:else
[5]:d^に、aiとそれに対応する一般化階層の値
[6]:end if
[7]:end if
[8]:return d^ 内の
データの一般化においては、補助記憶装置から主記憶装置にデータを移動させ、主記憶装置上で計算をしたのち、主記憶装置から補助記憶装置にデータを再び移動させるのが一般的であるが、補助記憶装置はその性質上、主記憶装置に比べ動作が遅いため、できる限りアクセスしないことが重要である。また補助記憶装置にアクセスする場合、ランダムアクセスではなくシーケンシャルアクセスにして、処理効率を落とさないことが高速化のために重要である。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (4)
- 属性値を一般化するデータ一般化装置であって、
補助記憶装置上の一般化階層における前記属性値の並び順に従って、前記補助記憶装置上の前記属性値を並び替える並び替え部と、
並び替えた前記属性値の一部を前記補助記憶装置から主記憶装置上に取得する属性値取得部と、
前記一般化階層の集合のうちの一部の一般化階層であって、前記主記憶装置上に取得した前記属性値のうち、処理対象の前記属性値に対応する一般化階層を前記補助記憶装置から前記主記憶装置上に取得する一般化階層取得部と、
前記主記憶装置上に取得した前記属性値と、前記主記憶装置上に取得した前記一般化階層に基づいて、一般化処理を実行する一般化処理部と、
一般化処理後の前記属性値を前記補助記憶装置に移動して、元の順序に並び替える再並び替え部を含む
データ一般化装置。 - 請求項1に記載のデータ一般化装置であって、
前記一般化階層取得部は、
前記主記憶装置上の前記一般化階層をLRUアルゴリズムに基づいて更新する
データ一般化装置。 - 属性値を一般化するデータ一般化方法であって、
補助記憶装置上の一般化階層における前記属性値の並び順に従って、前記補助記憶装置上の前記属性値を並び替える並び替えステップと、
並び替えた前記属性値の一部を前記補助記憶装置から主記憶装置上に取得する属性値取得ステップと、
前記一般化階層の集合のうちの一部の一般化階層であって、前記主記憶装置上に取得した前記属性値のうち、処理対象の前記属性値に対応する一般化階層を前記補助記憶装置から前記主記憶装置上に取得する一般化階層取得ステップと、
前記主記憶装置上に取得した前記属性値と、前記主記憶装置上に取得した前記一般化階層に基づいて、一般化処理を実行する一般化処理ステップと、
一般化処理後の前記属性値を前記補助記憶装置に移動して、元の順序に並び替える再並び替えステップを含む
データ一般化方法。 - コンピュータを請求項1または2に記載のデータ一般化装置として機能させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019043664 | 2019-03-11 | ||
JP2019043664 | 2019-03-11 | ||
PCT/JP2020/006711 WO2020184127A1 (ja) | 2019-03-11 | 2020-02-20 | データ一般化装置、データ一般化方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020184127A1 JPWO2020184127A1 (ja) | 2021-12-16 |
JP7120439B2 true JP7120439B2 (ja) | 2022-08-17 |
Family
ID=72427335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021504880A Active JP7120439B2 (ja) | 2019-03-11 | 2020-02-20 | データ一般化装置、データ一般化方法、プログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11914740B2 (ja) |
EP (1) | EP3940572B1 (ja) |
JP (1) | JP7120439B2 (ja) |
CN (1) | CN113544683B (ja) |
WO (1) | WO2020184127A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221034A (zh) * | 2021-05-06 | 2021-08-06 | 北京百度网讯科技有限公司 | 数据泛化方法、装置、电子设备和存储介质 |
CN116342332B (zh) * | 2023-05-31 | 2023-08-01 | 合肥工业大学 | 基于互联网的辅助审判方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140189858A1 (en) | 2012-12-27 | 2014-07-03 | Industrial Technology Research Institute | Generation Method and Device for generating anonymous dataset, and method and device for risk evaluation |
JP2017041048A (ja) | 2015-08-19 | 2017-02-23 | Kddi株式会社 | プライバシ保護装置、方法及びプログラム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8566607B2 (en) * | 2005-08-26 | 2013-10-22 | International Business Machines Corporation | Cryptography methods and apparatus used with a processor |
CA2801659A1 (en) * | 2012-01-09 | 2013-07-09 | Ezshield, Inc. | Identity management system and method including architecture for the same |
JP6078437B2 (ja) * | 2013-08-28 | 2017-02-08 | 株式会社日立ソリューションズ | パーソナル情報匿名化システム |
ES2704467T3 (es) * | 2013-10-24 | 2019-03-18 | Telefonica Germany Gmbh & Co Ohg | Un método para anonimizar los datos recopilados dentro de una red de comunicación móvil |
JP6301767B2 (ja) * | 2014-07-28 | 2018-03-28 | 株式会社日立ソリューションズ | パーソナル情報匿名化装置 |
CN104408054B (zh) * | 2014-10-29 | 2017-10-31 | 深圳市金证科技股份有限公司 | 一种数据库管理系统 |
JP6174002B2 (ja) * | 2014-12-05 | 2017-08-02 | 株式会社東芝 | 匿名化装置、及びプログラム |
US11121868B2 (en) * | 2016-07-06 | 2021-09-14 | Nippon Telegraph And Telephone Corporation | Secure computation system, secure computation device, secure computation method, and program |
US10353601B2 (en) * | 2016-11-28 | 2019-07-16 | Arm Limited | Data movement engine |
CN107194278B (zh) * | 2017-05-15 | 2019-11-22 | 华中科技大学 | 一种基于Skyline的数据泛化方法 |
CN107301353B (zh) * | 2017-06-27 | 2020-06-09 | 徐萍 | 一种流式密集型数据脱敏方法及其数据脱敏设备 |
CN107704321A (zh) * | 2017-09-30 | 2018-02-16 | 北京元心科技有限公司 | 内存分配的方法、装置及终端设备 |
CN107766741A (zh) * | 2017-10-23 | 2018-03-06 | 中恒华瑞(北京)信息技术有限公司 | 数据脱敏系统和方法 |
US10977446B1 (en) * | 2018-02-23 | 2021-04-13 | Lang Artificial Intelligence Inc. | Unsupervised language agnostic intent induction and related systems and methods |
CN108595979A (zh) * | 2018-04-13 | 2018-09-28 | 中国民航信息网络股份有限公司 | 动态脱敏方法和装置 |
-
2020
- 2020-02-20 WO PCT/JP2020/006711 patent/WO2020184127A1/ja unknown
- 2020-02-20 CN CN202080019664.6A patent/CN113544683B/zh active Active
- 2020-02-20 EP EP20769499.3A patent/EP3940572B1/en active Active
- 2020-02-20 US US17/434,761 patent/US11914740B2/en active Active
- 2020-02-20 JP JP2021504880A patent/JP7120439B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140189858A1 (en) | 2012-12-27 | 2014-07-03 | Industrial Technology Research Institute | Generation Method and Device for generating anonymous dataset, and method and device for risk evaluation |
JP2017041048A (ja) | 2015-08-19 | 2017-02-23 | Kddi株式会社 | プライバシ保護装置、方法及びプログラム |
Non-Patent Citations (1)
Title |
---|
長谷川 聡,大規模データを実用的な速度で処理可能な匿名化ライブラリの設計と実装評価,CSS2017 コンピュータセキュリティシンポジウム2017 論文集,日本,一般社団法人情報処理学会,2017年10月16日,Vol.2017, No2,pp.1342-pp.1349 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2020184127A1 (ja) | 2021-12-16 |
CN113544683B (zh) | 2023-09-29 |
WO2020184127A1 (ja) | 2020-09-17 |
EP3940572B1 (en) | 2023-07-26 |
EP3940572A1 (en) | 2022-01-19 |
US11914740B2 (en) | 2024-02-27 |
US20220171872A1 (en) | 2022-06-02 |
EP3940572A4 (en) | 2022-12-07 |
CN113544683A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220350819A1 (en) | System and method for improved performance in a multidimensional database environment | |
US9767174B2 (en) | Efficient query processing using histograms in a columnar database | |
Plattner | The impact of columnar in-memory databases on enterprise systems: implications of eliminating transaction-maintained aggregates | |
US9367574B2 (en) | Efficient query processing in columnar databases using bloom filters | |
CN103262066B (zh) | 有效存储分层 | |
US8396862B2 (en) | Product join dynamic partition elimination for multilevel partitioning | |
US11249980B2 (en) | Updating of in-memory synopsis metadata for inserts in database table | |
US9916211B2 (en) | Relational database recovery | |
CN105408857A (zh) | 通过针对选择性交织数据位生成用于关系数据库的多列索引 | |
US5999936A (en) | Method and apparatus for compressing and decompressing sequential records in a computer system | |
US11232099B2 (en) | Automatically aggregating data in database tables | |
JP7120439B2 (ja) | データ一般化装置、データ一般化方法、プログラム | |
CN110096509A (zh) | 大数据环境下实现历史数据拉链表存储建模处理的系统及方法 | |
JP6006740B2 (ja) | インデックス管理装置 | |
JP7173282B2 (ja) | データ置換装置、データ置換方法、プログラム | |
Pollack | Delete and Update Operations | |
Pollack | Columnstore Index Architecture | |
CN115794960A (zh) | 关系型数据库的管理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210816 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210816 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220705 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220718 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7120439 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |