CN113544684A

CN113544684A - 数据置换装置、数据置换方法、程序

Info

Publication number: CN113544684A
Application number: CN202080019714.0A
Authority: CN
Inventors: 长谷川聪
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-03-11
Filing date: 2020-02-20
Publication date: 2021-10-22
Also published as: JP7173282B2; EP3940571A4; EP3940571A1; WO2020184126A1; JPWO2020184126A1; US20220138338A1

Abstract

提供只使用小容量的主存储装置便能够高速地微聚集大规模数据的数据置换装置。按每个组将属性值置换为代表值的数据置换装置包括：属性值集合取得部，在被分组的属性值集合的尺寸为预定的尺寸以下的情况下，在主存储装置上取得被分组的属性值集合，在被分组的属性值集合的尺寸比预定的尺寸大的情况下，在辅助存储装置上取得被分组的属性值集合；中值计算部，计算在主存储装置上或者辅助存储装置上被分组的属性值集合的中值；以及分割判定部，在基于中值将被分组的属性值集合二分割的情况下，当分割后的属性值集合各自的尺寸成为规定的阈值以上时，将分割后的两个属性值集合分别作为新的组。

Description

数据置换装置、数据置换方法、程序

技术领域

本发明涉及隐匿数据库上的个别数据的技术，涉及数据置换装置、数据置换方法、程序。

背景技术

作为通过确定的方法来隐匿数据库的个别数据的技术，存在非专利文献1。在非专利文献1的隐匿处理中，通过将数据库的各值分组并置换为代表值，来进行数据库的隐匿处理。该隐匿处理称为微聚集。

现有技术文献

非专利文献

非专利文献1：Kristen LeFevre,David J DeWitt,and Raghu Ramakrishnan,"Mondrian multidimensional k-anonymity"In Proceedings of the 22ndInternational Conference on Data Engineering,pp.25-25,2006.

发明内容

发明所要解决的课题

但是在将该隐匿处理在个人计算机等的计算机中实现的情况下，前提是在主存储装置上保持全数据的基础之上进行处理。也就是说，对于无法收纳在主存储装置上的大规模数据而无法执行微聚集。

因此，在本发明中，其目的在于提供只使用小容量的主存储装置便能够高速地微聚集大规模数据的数据置换装置。

用于解决课题的手段

本发明的数据置换装置是将属性值按每个组置换为代表值的数据置换装置，包括属性值集合取得部、中值计算部以及分割判定部。

属性值集合取得部在被分组的属性值集合的尺寸为预定的尺寸以下的情况下，在主存储装置上取得被分组的属性值集合，在被分组的属性值集合的尺寸比预定的尺寸大的情况下，在辅助存储装置上取得被分组的属性值集合。中值计算部计算在主存储装置上或者辅助存储装置上被分组的属性值集合的中值。分割判定部在基于中值将被分组的属性值集合二分割的情况下，当分割后的属性值集合各自的尺寸成为规定的阈值以上时，将分割后的两个属性值集合分别作为新的组。

发明效果

根据本发明的数据置换装置，只使用小容量的主存储装置便能够高速地微聚集大规模数据。

附图说明

图1是表示实施例1的数据置换装置的结构的框图。

图2是表示实施例1的数据置换装置的组生成动作的流程图。

图3是表示实施例1的数据置换装置的数据置换动作的流程图。

图4是例示并说明实施例1的数据置换装置的排序部的动作的图。

图5是例示预测处理(lookahead processing)的图。

具体实施方式

以下，针对本发明的实施方式，进行详细的说明。另外，具有相同功能的结构部中附加相同的序号，省略重复说明。

＜处理的概要＞

在以下的实施例中，公开了将大规模数据通过小容量的主存储装置来高速地微聚集的数据置换装置、数据置换方法、程序。在实施例1的数据置换装置、数据置换方法、程序中考虑如下的特征并在算法与数据结构上下功夫而实现高速的处理：与辅助存储装置(例如HDD)的随机存取相比连续存取(sequential access、顺序存取)更快这样的特征；辅助存储装置(例如HDD)与主存储装置(例如存储器)相比更慢这样的特征；辅助存储装置(例如HDD)与主存储装置(例如存储器)相比存储容量更大这样的特征。

在以下的实施例中，作为创建用于微聚集的组的方法，使用Mondrian算法(非专利文献1)作为基础。Mondrian算法通过按各属性进行数据的分割来进行分组，重复分割数据直到该组的尺寸达到指定的阈值，创建组。分组后，通过将组内的属性值置换为对应的代表值，完成隐匿处理。

在只使用小容量的主存储装置执行Mondrian算法时，使用2个途径。一个是设想在重复数据的分割时配置在辅助存储装置上的数据被局部参考，通过LRU算法进行向主存储装置的数据配置的途径。另一个是进行排序(sort)处理并实施用于将属性值按连续地读出的处理的探讨，以使在分组后在向代表值的置换的时不进行随机存取。

另外，将各值作为标量标记，并通过像a这样的小写或者大写的字母标记。将属性作为向量标记，并在像a^这样的字符的后附加“^”。另外，这是由于文档创建软件的原因产生的表现，例如表现为a^的情况，意味着在粗体(bold)附加扬抑符(circumflex)的

[数1]

另外将向量的第i个元素标记为a_i。此外，将向量a^的元素数标记为|a^|。此外，仅限于在向量r^＝(r₁,r₂,...,r_|r|)的各值是正整数的情况下，设为

[数2]

将矩阵大写，并且在字符后附加“^”来表现。另外，这是由于文档创建软件的原因产生的表现，例如表现为X^的情况，意味着在粗体附加扬抑符的

[数3]

数据能够通过矩阵表现，将属性作为列，将记录作为行。例如将数据标记为X^，将第l个属性标记为x^_l，将某属性l的第i个记录的值标记为をx^(l) _i。

[实施例1]

以下，参考图1对实施例1的数据置换装置的结构进行说明。如同图所示，本实施例的数据置换装置1包括主存储装置10A、辅助存储装置10B、属性值集合取得部11、中值计算部12、分割判定部13、结合集合生成部14、排序部15、代表值置换部16、再排序部17。以下，参考图2、图3，对各结构要件的动作进行说明。

＜属性值集合取得部11＞

在该过程中，属性值集合取得部11取得被分组的属性值集合。在此，被分组的属性值集合是指通过后述的分割判定部13的动作被分割且被分组的属性值集合。此外，在分割判定部13的动作为未执行(即初始状态)的情况下，设将属性值集合的数据全体视作一个组，处理属性值集合的数据全体作为被分组的属性值进行处理。

属性值集合取得部11在被分组的属性值集合的尺寸在预定的尺寸以下情况(图2，条件分支：尺寸？→小)下，在主存储装置10A上取得被分组的属性值集合(S11a)，在被分组的属性值集合的尺寸比预定的尺寸大的情况(图2，条件分支：尺寸？→大)下，在辅助存储装置10B上取得被分组的属性值集合(S11b)。

另外，如前所述，属性值集合取得部11优选基于LRU算法更新在主存储装置10A上取得的被分组的属性值集合。

＜中值计算部12＞

中值计算部12计算在主存储装置10A上或者辅助存储装置10B上被分组的属性值集合的中值(S12a，S12b)。

＜分割判定部13＞

在基于中值将被分组的属性值集合二分割的情况下，在分割后的属性值集合各自的尺寸成为规定的阈值以上的情况(图2，条件分支：阈值？→阈值以上)下，分割判定部13将分割后的两个属性值集合分别设为新的组(S13a，S13b)。另外，在分割后的属性值集合的任一个的尺寸小于规定的阈值的情况(图2，条件分支：阈值？→小于阈值)下，从步骤S11～S13的循环处理退出，对于分割前的属性值集合继续执行步骤S14及S14以后的处理。

重复执行属性值集合取得部11、中值计算部12、分割判定部13的处理(S11～S13)直到组收敛。

＜结合集合生成部14＞

如图3所示，结合集合生成部14生成结合集合(S14)，该结合集合是通过排列与属性值相关联的记录序号而形成，以使通过重复执行属性值集合取得部11、中值计算部12、分割判定部13的处理(S11～S13)而收敛的组内的属性值连续。例如在组P中有属性值p1,p2,…,p|P|、组Q中有属性值q1,q2,…,q|Q|的情况下，“以使组内的属性值连续”意味着像p1,p2,…,p|P|,q1,q2,…,q|Q|或者q1,q2,…,q|Q|,p1,p2,…,p|P|这样的，某组内的属性值不与其他组内的属性值混杂而排列，结合集合生成部14排列与属性值相关联的记录序号，生成结合集合，以使上述的“组内的属性值连续”的排列能够再现。

＜排序部15＞

排序部15基于结合集合对辅助存储装置10B上的属性值进行排序(S15)。

＜代表值置换部16＞

代表值置换部16连续地执行将排序后的属性值的一部分从辅助存储装置10B取得到主存储装置10A上的处理，将在主存储装置10A上被取得的属性值置换为代表值(S16)。

如上所述，辅助存储装置10B上的属性值集合被进行排序，以使组内的属性值连续，因此在置换为代表值时，能够从辅助存储装置10B连续地读入属性值，处理速度得以提高。

＜再排序部17＞

再排序部17将代表值移动到辅助存储装置10B，排序为原来的顺序(S17)。

以下，公开具体的算法的例，针对上述的步骤进一步地进行说明。

《算法1：大规模数据分组算法GROUP》

Input：记录数N、属性数M、储存在辅助存储装置10B上的数据D^、阈值k、记录序号集合r^、在主存储装置10A上使用的M个属性向量集合A^＝a^₁,...,a^_M(分别对应于M种类的属性)

Output：每个组的记录序号集合R^'＝(r^₁,...,r^_|R^'|)

[1]：决定分割对象的属性l。

[2]：if|r^|≦|a^l|then(图2，相当于条件分支：尺寸？→小)

[3]：将分割对象的属性l中的、与记录序号集合r^相当的属性值集合d^^(l) _r通过算法4(后述)，取得到主存储装置10A上的向量a^_l中(相当于S11a)。

[4]：计算d^^(l) _r的中值m(从a^l计算，相当于S12a)。

[5]：将d^^(l) _r的小于m的记录序号集合作为lr^，将m以上的记录序号集合作为rr^(相当于S13a)。

[6]：else(图2，相当于条件分支：尺寸？→大)

[7]：将分割对象的属性l中的、与记录序号集合r^相当的属性值集合d^^(l) _r连续地配置于辅助存储装置10B(相当于S11b)。在此，“连续地配置”意味着连续地配置数据，以使其他数据不被插入。

[8]：计算d^^(l) _r的中值m(相当于S12b)。此时，向各值的存取通过算法5(后述)进行。另外，进行中值的计算，以使将向量进行外部排序(例如合并排序)，将向量的中间的值计算为中值。

[9]：将d^^(l) _r的小于m的记录序号集合作为lr^，将m以上的记录序号集合作为rr^(相当于S13b)。

[10]：end if

[11]：if|lr^|<k OR|rr^|<k then(图2，相当于条件分支：阈值？→小于阈值)

[12]：return r(图2，相当于小于阈值→＊)

[13]：else(图2，相当于条件分支：阈值？→阈值以上)

[14]：return GROUP(D^,k,lr^,A^)∪GROUP(D^,k,rr^,A^)(图2，相当于返回开始和循环的处理)

[15]：end if

《算法2：代表值置换算法》

Input：每个组的记录集合R^'、储存在辅助存储装置10B的数据D^

Output：置换为代表值的D^'

[1]：将每个组的记录序号集合R^'＝{r^'₁,r^'₂,...}按顺序排列并结合的集合(结合集合)作为s^(相当于S14)。

[2]：根据算法3(后述)按结合集合s^的顺序排序数据D^(相当于S15)。

[3]：j＝1

[4]：for r^'_i in R^'do

[5]：从储存在辅助存储装置10B的D^将第j个到第j+|r^'_i|-1个记录储存在主存储装置10A上，置换为代表值(例如平均值、中值、利用者指定的值等)，并依次储存为D^'(相当于S16)。

[6]：j＝j+|r^'_i|

[7]：end for

[8]：将D^'按原来的顺序排序(相当于S17)。

[9]：return D^'

《算法3：改变排列顺序的算法》

Input：在辅助存储装置10B上配置的向量a^、想排列的序列s^

Output：被排序的a^'

[1]：准备b^＝1,2,...,|a^|(参考图4C)。

[2]：使用s^作为键对b^进行排序(参考图4D)。

[3]：使用b^作为键对a^进行排序(参考图4E)。

[4]：return a^'＝a^

《算法4：通过LRU算法取得值》

Input：在辅助存储装置10B上配置的数据D^、参考属性l、记录序号r_i、主存储装置10A上的向量t^

Output：

[数4]

[1]：if t^中有空白的情况then

[2]：将从辅助存储装置10B符合的值

[数5]

储存到t^。

[3]：else

[4]：if

[数6]

不存在于d^的情况下，then

[5]：将d^中最未被利用的元素与

[数7]

交换。

[6]：end if

[7]：end if

[8]：return t^内的

[数8]

《算法5：通过预测算法取得值》

Input：在辅助存储装置10B上配置的向量a^、想参考的元素的位置i、主存储装置10A上的向量c^

Output：值a_i

[1]：if第i个元素不存在于c^的情况then

[2]：从辅助存储装置10B取得从第i个到第i+|c^|个元素并存储到c^。

[3]：end if

[4]：return c^内的a_i

在图5中表示了通过算法5执行的预测处理的例子。如同图所示，设想在将年龄＝18、23、34、13这样的属性值存储在辅助存储装置10B的情况下，将这些依次读出到主存储装置10A上。在同图的例中，设主存储装置10A能够保持多达两个元素。首先如图5A所示，当存取第0个index的值时，将第0个以及第1个的index的值转发到主存储装置10A，取得主存储装置10A的第0个index的值。接着，在存取第1个index的值的情况下，从主存储装置10A读取数据。之后，在存取第2个index的值的情况下，在主存储装置10A中不存在符合的数据，因此如图5B所示，将第2个以及第3个index的值从辅助存储装置10B转发到主存储装置10A，读出主存储装置10A中的第0个index的值(相当于辅助存储装置10B中的第2个)。设想像这样地连续存取，在从辅助存储装置10B读出数据时，执行预测处理。

<效果>

根据本实施例的数据置换装置、数据置换方法、程序，能够以良好的效率执行大规模的数据的微聚集。主存储装置以随机存取为前提被设计算法，因此，如果将主存储装置的算法直接移植到辅助存储装置的动作中，执行速度降低。因此在本实施例中，考虑在辅助存储装置10B上配置数据库，设计了算法，以使尽可能地连续地存取辅助存储装置10B，并且尽可能地减少向辅助存储装置10B的存取。例如在算法1中，通过在主存储装置10A的指定区域中能否收纳数据(属性值集合)，来改变处理来寻求高速化，以便在无法收纳的情况下连续地存取辅助存储装置10B。在算法2中，通过预先实施排序，从而能够向辅助存储装置10B连续地存取。

＜补充＞

本发明的装置例如作为单一的硬件实体，能连接键盘等的输入部、能连接液晶显示器等的输出部、能连接能与硬件实体的外部通信的通信装置(例如通信线缆)的通信部、CPU(中央处理单元(Central Processing Unit)，也可以具备高速缓存存储器或寄存器等)、作为存储器的RAM(随机存取存储器)或ROM(只读存储器)、作为硬盘的外部存储装置以及连接这些输入部、输出部、通信部、CPU、RAM、ROM、外部存储装置的总线，以使能在它们之间交互数据。此外，根据需要，也可以在硬件实体上设置能够读写CD-ROM等的记录介质的装置(驱动器)等。作为具备这样的硬件资源的物理实体，有通用计算机等。

在硬件实体的外部存储装置中存储有为了实现上述的功能所需的程序以及在该程序的处理中所需的数据等(不限于外部存储装置，例如也可以读出程序并存储在作为专用存储装置的ROM中)。此外，通过这些程序的处理得到的数据等也可以被适当地存储在RAM、外部存储装置等中。

在硬件实体中，存储在外部存储装置(或者ROM等)中的各程序与各程序的处理所需的数据根据需要被读入到存储器，由CPU适当地执行解释/处理。其结果，CPU实现规定的功能(表示上述…部、…单元等的各结构要件)。

本发明不限定与上述的实施方式，在不脱离本发明的宗旨的范围内能够适当地变更。此外，在上述实施方式中说明的处理不仅可以按照记载的顺序按时间顺序执行，也可以根据执行处理的装置的处理能力或者需要，并列地或者个别地执行。

如前所述，在通过计算机实现在上述实施方式中说明的硬件实体(本发明的装置)中的处理功能的情况下，硬件实体应具有的功能的处理内容由程序描述。而且，通过在计算机上执行该程序，从而上述硬件实体中的处理功能在计算机上被实现。

描述该处理内容的程序能够被记录在由计算机可读取的记录介质上。作为由计算机可读取的记录介质也可以是例如磁记录装置、光盘、光磁记录介质、半导体存储器等介质。具体地，例如作为磁记录装置能够使用硬盘装置、软磁盘、磁带等，作为光盘能够使用DVD(数字多功能盘(Digital Versatile Disc))、DVD-RAM(随机存取存储器(RandomAccess Memory))、CD-ROM(光盘只读存储器(Compact Disc Read Only Memory))、CD-R(可刻录(Recordable))/RW(可覆写(ReWritable))等，作为光磁记录介质能够使用MO(磁光盘(Magneto-Optical disc))等，作为半导体存储器能够使用EEP-ROM(电子可擦除可编程只读存储器(Electronically Erasable and Programmable-Read Only Memory))等。

此外，该程序的流通例如通过将记录了该程序的DVD、CD-ROM等可移动型记录介质销售、转让、借出等来进行。进而，也可以构成为：将该程序事先储存于服务器计算机的存储装置，经由网络从服务器计算机向其他计算机转发该程序，从而使该程序流通。

执行这样的程序的计算机例如首先将可移动型记录介质中记录的程序或从服务器计算机转发的程序暂时储存至自身的存储装置。然后，在执行处理时，该计算机读取自身的存储装置中储存的程序，并执行依照读取的程序的处理。此外，作为该程序的其他执行方式，也可以由计算机从可移动型记录介质直接读取程序，并执行依照该程序的处理，进而也可以在每次从服务器计算机向该计算机转发程序时，逐次执行依照所接受的程序的处理。此外，也可以构成为：不进行程序从服务器计算机向该计算机的转发，而利用仅通过其执行指示和结果取得来实现处理功能的所谓ASP(应用服务提供商(Application ServiceProvider))型的服务，来执行上述的处理。另外，在本方式的程序中，设为包含供电子计算机用于处理且基于程序的信息(虽然不是对于计算机的直接的指令，但是具有对计算机的处理进行规定的性质的数据等)。

此外，在该方式中，通过使规定的程序在计算机上执行来构成硬件实体，但这些处理内容的至少一部分也可以用硬件来实现。

Claims

1.一种数据置换装置，其按每个组将属性值置换为代表值，包括：

属性值集合取得部，在被分组的属性值集合的尺寸为预定的尺寸以下的情况下，在主存储装置上取得被分组的所述属性值集合，在被分组的所述属性值集合的尺寸比预定的尺寸大的情况下，在辅助存储装置上取得被分组的所述属性值集合；

中值计算部，计算在主存储装置上或者辅助存储装置上被分组的所述属性值集合的中值；以及

分割判定部，在基于所述中值将被分组的所述属性值集合二分割的情况下，当分割后的所述属性值集合各自的尺寸成为规定的阈值以上时，将分割后的两个所述属性值集合分别作为新的所述组。

2.根据权利要求1所述的数据置换装置，其中，

所述数据置换装置包括：

结合集合生成部，生成结合集合，该结合集合是通过排列与所述属性值相关联的记录序号而形成，以使通过重复执行所述属性值集合取得部、所述中值计算部、所述分割判定部的处理而收敛的所述组内的所述属性值连续；

排序部，基于所述结合集合对所述辅助存储装置上的所述属性值进行排序；

代表值置换部，连续地执行将排序后的所述属性值的一部分从所述辅助存储装置取得到所述主存储装置上的处理，将在所述主存储装置上被取得的所述属性值置换为所述代表值；以及

再排序部，将所述代表值移动到所述辅助存储装置，排序为原来的顺序。

3.根据权利要求1或2所述的数据置换装置，其中，

所述属性值集合取得部基于LRU算法，更新在所述主存储装置上取得到的被分组的所述属性值集合。

4.一种数据置换装置，其按每个组将属性值置换为代表值，包括：

结合集合生成部，生成结合集合，该结合集合是排列与所述属性值相关联的记录序号而形成，以使所述组内的所述属性值连续；

排序部，基于所述结合集合对辅助存储装置上的所述属性值进行排序；以及

代表值置换部，连续地执行将排序后的所述属性值的一部分从所述辅助存储装置取得到主存储装置上的处理，将在所述主存储装置上被取得的所述属性值置换为所述代表值。

5.一种数据置换方法，其按每个组将属性值置换为代表值，包括：

属性值集合取得步骤，在被分组的属性值集合的尺寸为预定的尺寸以下的情况下，在主存储装置上取得被分组的所述属性值集合，在被分组的所述属性值集合的尺寸比预定的尺寸大的情况下，在辅助存储装置上取得被分组的所述属性值集合；

中值计算步骤，计算在主存储装置上或者辅助存储装置上被分组的所述属性值集合的中值；以及

分割判定步骤，在基于所述中值将被分组的所述属性值集合二分割的情况下，当分割后的所述属性值集合各自的尺寸成为规定的阈值以上时，将分割后的两个所述属性值集合分别作为新的所述组。

6.一种数据置换方法，其按每个组将属性值置换为代表值，包括：

结合集合生成步骤，生成结合集合，该结合集合是排列与所述属性值相关联的记录序号而形成，以使所述的组内的所述属性值连续；

排序步骤，基于所述结合集合对辅助存储装置上的所述属性值进行排序；以及

代表值置换步骤，连续地执行将排序后的所述属性值的一部分从所述辅助存储装置取得到主存储装置上的处理，将在所述主存储装置上被取得的所述属性值置换为所述代表值。

7.一种程序，使计算机作为权利要求1至4中任一项所述的数据置换装置而发挥作用。