CN112106045A

CN112106045A - 信息处理装置、系统、信息处理方法以及程序

Info

Publication number: CN112106045A
Application number: CN201980031631.0A
Authority: CN
Inventors: 波多野卓磨; 大坪正典
Original assignee: NS Solutions Corp
Current assignee: NS Solutions Corp
Priority date: 2018-05-16
Filing date: 2019-05-14
Publication date: 2020-12-18
Anticipated expiration: 2039-05-14
Also published as: JP2019200605A; CN112106045B; JP7158175B2; WO2019221113A1

Abstract

本发明提供一种信息处理装置、系统、信息处理方法以及程序，将表示与多个项目的组合对应的预先决定的项目的值的多维数组状的信息设为第1对应信息，将通过将第1对应信息分解为多维数组状的多个信息的相乘而获得的多个信息中的与包含于多个信息的其他信息分别相乘的信息设为数组信息，取得修正数组信息，该修正数组信息是以针对元素的一部分将值减小的方式修正数组信息而得的信息，基于取得的修正数组信息生成第2对应信息，该第2对应信息是表示与多个项目的组合对应的预先决定的项目的值的多维数组状的信息。

Description

信息处理装置、系统、信息处理方法以及程序

技术领域

本发明涉及信息处理装置、系统、信息处理方法以及程序。

背景技术

存在以防止个人信息等流出等的安全性提高为目的，对数据实施加工的匿名化技术等技术。

非专利文献1公开了以具有相同属性值的数据存在k件以上的方式变换数据，由此对数据进行匿名化的方法即k－匿名化。

现有技术文献

非专利文献

非专利文献1：“k－匿名化技術と実用化に向けた取り組み”情報処理Vol.54No.11竹之内隆夫[平成30年3月22日检索]，因特网＜URL https：//ipsj.ixsq.nii.ac.jp/ej/index.php？active＿action＝repository＿view＿main＿item＿detail&page＿id＝13&block＿id＝8&item＿id＝95382&item＿no＝1＞

发明内容

发明要解决的课题

但是，有时通过对数据进行加工，数据的有效性降低。例如，在非专利文献1所公开的k－匿名化中，以具有相同属性的数据存在k件以上的方式加工数据。由此，安全性提高，但由于数据被加工，所以原始的数据具有的信息的一部分消失，数据的有效性降低。若以成为相同属性的方式被加工的数据是对特定的分析来说重要的信息，则数据的有效性因k－匿名化而显著地降低。

因此，本发明的目的在于，辅助抑制数据的有效性的降低，并且提高数据的安全性。

用于解决课题的手段

因此，本发明的信息处理装置具有：取得单元，其将表示与多个项目的组合对应的预先决定的项目的值的多维数组状的信息设为第1对应信息，将通过将上述第1对应信息分解为多维数组状的多个信息的相乘而获得的上述多个信息中的与包含于上述多个信息的其他信息分别相乘的信息设为数组信息，取得修正数组信息，该修正数组信息是以针对元素的一部分将值减小的方式修正上述数组信息而得的信息；以及第1生成单元，其基于由上述取得单元取得的上述修正数组信息，生成表示与上述多个项目的组合对应的上述预先决定的项目的值的多维数组状的信息亦即第2对应信息。

发明的效果

根据本发明，能够辅助抑制数据的有效性的降低，并且提高数据的安全性。

附图说明

图1是对信息处理装置的处理的一个例子的概要进行说明的图。

图2是对商品－用户矩阵的生成处理的一个例子进行说明的图。

图3是对相似度间矩阵的生成处理的一个例子进行说明的图。

图4是对预测评价值的决定处理的一个例子进行说明的图。

图5是表示信息处理装置的硬件结构的一个例子的图。

图6是表示信息处理装置的功能结构的一个例子的图。

图7是表示信息处理装置的处理的一个例子的流程图。

图8是对元素的替换处理的一个例子进行说明的图。

图9是对元素的替换处理的一个例子进行说明的图。

具体实施方式

以下，基于附图，对本发明的实施方式进行说明。

＜实施方式1＞

(本实施方式的处理的概要)

图1是对本实施方式的处理的一个例子的概要进行说明的图。本实施方式的处理的主体是在图5中后述的信息处理装置500。

在本实施方式中，预先准备针对多个用户的每一个用户的商品的购买履历的数据的集合亦即购买履历数据100。购买履历数据100例如是表示谁在何时购买了多少什么的数据的集合。以下，如购买履历数据100那样，将用于分析的被积蓄的数据的集合设为原始数据。购买履历数据100那样的原始数据是第1数据集合的一个例子。购买履历数据100是能够用于在图3、图4中后述的预测评价值的决定等的分析的数据，是对于特定的分析具有有效性的数据。但是，在购买履历数据100中包含有用户的信息，因此存在包含能够进行个人的识别的信息亦即个人信息、与个人有关的信息的情况。因此，若将购买履历数据100原样保持，则存在个人信息等有可能泄漏的问题。另外，存在若利用非专利文献1所记载的k－匿名化的技术对购买履历数据100进行匿名化，则导致购买履历数据100的有效性显著地降低的情况。

因此，在本实施方式中，信息处理装置500进行以防止购买履历数据100的有效性的降低，并且使购买履历数据100内的数据的个人确定变得困难的方式加工购买履历数据100的处理。

信息处理装置500首先汇总购买履历数据100内的数据，生成表示与商品和用户的组合对应的商品的购买数的矩阵状的信息亦即商品－用户(item－User)矩阵101。图2是对商品－用户矩阵101的生成处理的一个例子进行说明的图。在图2的例子中，在购买履历数据100内的数据中保存有45000个表示谁在何时购买了多少什么的数据。

信息处理装置500汇总该45000个数据，确定谁合计购买了几个哪个商品(项目)。在图2的例子中，用户存在500人，用户能够购买的商品存在3000种。因此，在图2的例子中，信息处理装置500作为商品－用户矩阵101，生成3000×500的矩阵。即，商品－用户矩阵101的各行分别与商品对应，商品－用户矩阵101的各列分别与用户对应。商品－用户矩阵101的第i行j列的元素的值表示与第j列对应的用户购买了与第i行对应的商品的购买数。

然后，信息处理装置500对商品－用户矩阵101进行奇异值分解。信息处理装置500修正以通过针对商品－用户矩阵101的奇异值分解而获得的奇异值作为分量的矩阵，以便减小该矩阵的元素中的、从绝对值小的元素选择的一部分元素的值。然后，信息处理装置500使用修正的矩阵对商品－用户矩阵101进行近似。更具体而言，信息处理装置500修正以通过针对商品－用户矩阵101的奇异值分解而获得的奇异值为分量的矩阵，以便将该矩阵的元素中的、从绝对值小的元素选择的一部分元素的值减小为0，代替各元素成为该矩阵的奇异值的矩阵而使用修正后的该矩阵，计算通过奇异值分解而获得的各矩阵的相乘的式子，由此对商品－用户矩阵101进行低秩近似。信息处理装置500这样对商品－用户矩阵101进行低秩近似，由此生成与商品－用户矩阵101近似的近似商品－用户矩阵102。以下，将如商品－用户矩阵101、近似商品－用户矩阵102那样表示与多个项目的组合对应的预先决定的项目的值的信息设为对应信息。商品－用户矩阵101是第1对应信息的一个例子。近似商品－用户矩阵102是第2对应信息的一个例子。

近似商品－用户矩阵102是商品－用户矩阵101的低秩近似，具有商品－用户矩阵101的特征分量，视为是除去了微小分量的矩阵。

例如，在某用户在某时刻购买了少量(例如1个、2个等)某商品的情况下，该用户的该商品的购买履历的信息存在由于购买的商品的数量为少量，所以视为对分析的影响为轻微的情况。另外，在某用户在某时刻购买了少量(例如1个、2个等)某商品的情况下，存在根据在该时刻购买了少量的该商品的信息，导致被第3者类推出是谁的购买履历的可能性。例如，存在知晓在该时刻购买了少量该商品的人物的第3者类推出该购买履历是该人物的信息的情况，从而有时导致特定用户的信息泄漏。这样，即便是对有效性不怎么有贡献的数据，也存在导致被利用于个人的确定的情况。

因此，信息处理装置500生成近似商品－用户矩阵102，由此从商品－用户矩阵101中残留特征分量，除去微小分量。

信息处理装置500基于生成的近似商品－用户矩阵102，例如进行与生成商品－用户矩阵101时的处理相反的处理，由此生成被匿名化的购买履历数据100亦即匿名化购买履历数据103。匿名化购买履历数据103是被匿名化的原始数据亦即匿名化数据的一个例子。

以上是本实施方式的信息处理装置500的处理的概要。

本实施方式的信息处理装置500的处理例如视为以下的处理。即，是将购买履历数据100变换为用于特定的分析的形式亦即商品－用户矩阵101，针对变换后的商品－用户矩阵101，残留特征分量，除去微小分量，由此生成近似商品－用户矩阵102，根据生成的近似商品－用户矩阵102生成与购买履历数据100近似的数据，由此生成被匿名化的购买履历数据100亦即匿名化购买履历数据103的处理。

(购买履历数据100的分析的一个例子)

使用图3、图4，作为使用了购买履历数据100的分析处理的一个例子，对在某用户购进某商品、购进评价的某商品时，预测该用户针对其他商品进行怎样程度的评价的处理进行说明。更具体而言，作为预测的结果，对求得表示预测的评价程度的指标亦即预测评价值的处理进行说明。

图3是对生成表示商品彼此的相似度的商品(item)间相似度矩阵104的处理的一个例子进行说明的图。信息处理装置500例如基于商品－用户矩阵101生成表示商品之间的相似度的商品间相似度矩阵104。商品－用户矩阵101的各行成为由表示各用户购买了多少对应的商品的元素构成的行。这里，将排列商品－用户矩阵101的i行的各元素的矢量设为Vi。Vi能够视为表示各用户购买了多少与第i行对应的商品的矢量。这里，将与第i行对应的商品和与第j行对应的商品的相似度定义为由以下的式1表示的Wij。

Wij＝Vi·Vj/(|Vi||Vj|) (式1)

信息处理装置500例如使用式1针对全部的i、j的组求得Wij。然后，信息处理装置500将Wij表示的矩阵决定为商品间相似度矩阵104。

图4是对预测评价值的决定处理的一个例子进行说明的图。

在图4的例子中，准备包含针对某用户的各商品的评价值的矢量亦即商品(item)评价矢量401。信息处理装置500例如针对该用户完成评价的商品，对商品间相似度矩阵104乘以商品评价矢量401，将获得的矢量的第i元素除以相似度矩阵的第i行的行绝对值和，由此生成包含该用户购买了某商品时的预测评价值的矢量亦即预测评价矢量402。在预测评价矢量402的各行储存有针对与该行对应的商品的该用户的评价值的预测值。若将与第j行对应的商品的用户u的评价值设为r_u,j，将用户u完成评价的项目的集合设为Yu，将与第y行对应的商品的用户u的评价值的预测值设为r’_u,y，则r’_u,y由以下的式2表示。

[数式1]

信息处理装置500例如确定预测评价矢量402的各行中的、预先决定的阈值以上的行，将与所确定的行对应的商品确定为该用户进一步进行评价的商品。然后，信息处理装置500例如也可以将所确定的商品作为对该用户推荐的商品，向该用户提示。

例如，通过以上的处理，购买履历数据100被使用于分析。

(信息处理装置500的硬件结构)

图5是表示信息处理装置500的硬件结构的一个例子的图。信息处理装置500例如是个人计算机(PC)、服务器装置、平板装置等。

信息处理装置500包含：CPU501、主存储装置502、辅助存储装置503、输入I/F504、输出I/F505、网络I/F506。各元素经由系统总线507连接为相互能够通信。

CPU501是控制信息处理装置500的中央运算装置。主存储装置502是作为CPU501的工作区域、数据的暂时存储区域发挥功能的随机存取存储器(RAM)等存储装置。主存储装置502是存储介质的一个例子。辅助存储装置503是存储各种程序、各种设定信息、购买履历数据100等原始数据、根据原始数据生成的各种信息等的存储装置。辅助存储装置503例如是只读存储器(ROM)、硬盘驱动器(HDD)、固态驱动器(SSD)等。辅助存储装置503是存储介质的一个例子。

输入I/F504是用于与鼠标、键盘、触摸面板等输入装置的连接的接口。CPU501经由输入I/F504接受来自输入装置的信息的输入。输出I/F505是用于与监视器、触摸面板的显示部、扬声器等输出装置的连接的接口。CPU501经由输出I/F505向输出装置输出信息。网络I/F506是用于经由网络的与外部装置之间的通信的接口。CPU501经由网络I/F506在外部的装置之间进行通信。

CPU501根据存储于辅助存储装置503等的程序执行处理，由此实现在图6中后述的信息处理装置500的功能、在图7中后述的流程图的处理等。

(信息处理装置500的功能结构)

图6是表示信息处理装置500的功能结构的一个例子的图。信息处理装置500包含数据取得部601、数据生成部602、判定部603、更新部604、输出部605。

数据取得部601从辅助存储装置503取得原始数据，基于取得的原始数据，取得表示与多个项目的组合对应的特定项目的值的多维数组状的信息亦即对应信息。

数据生成部602将由数据取得部601取得的对应信息分解为多个多维数组状的信息的相乘。然后，数据生成部602针对通过分解获得的信息中的、与其他信息分别相乘的信息，以减小所含的元素中的一部分元素的值的方式进行修正。以下，将通过对应信息的分解而获得的信息中的、与其他信息分别相乘的信息设为数组信息。另外，以下，以减小所含的元素中的一部分元素的值的方式被修正的数组信息设为修正数组信息。然后，数据生成部602基于修正后的修正数组信息，对对应信息进行近似，由此重新生成对应信息。以下，将基于修正数组信息而生成的对应信息设为近似对应信息。另外，数据生成部602基于生成的近似对应信息生成被匿名化的原始数据亦即匿名化数据。生成的匿名化数据是第2数据集合的一个例子。

判定部603判定是否将由数据生成部602生成的匿名化数据采用为最终的结果。

更新部604在通过判定部603判定为不采用由数据生成部602生成的匿名化数据的情况下，更新用于数据生成部602进行的近似对应信息的生成的参数的值。在更新部604的参数的更新后，数据生成部602重新基于被更新的参数，生成近似对应信息以及匿名化数据。

输出部605输出由数据生成部602生成的匿名化数据。

(信息处理装置500的处理)

图7是表示信息处理装置500的处理的一个例子的流程图。

在S701中，数据取得部601例如从辅助存储装置503取得原始数据。在图7的例子中，数据取得部601从辅助存储装置503取得购买履历数据100，作为原始数据。

在S702中，数据取得部601基于在S701中取得的原始数据，生成表示与预先指定的多个项目的组合对应的预先决定的项目的值的对应信息。在本实施方式中，作为该多个项目，预先指定用户的项目与商品的项目。另外，作为与该多个项目的组合对应的项目，指定商品的购买数。在图7的例子中，数据取得部601汇总原始数据内的数据，由此确定各用户购买了多少各商品，作为二维数组状的对应信息，生成商品－用户矩阵101。

在S703中，数据生成部602对在S702中取得的二维数组状的对应信息进行奇异值分解，由此取得对应信息的奇异值。这里，若预先将对应信息设为A，则通过对A进行奇异值分解，能够获得A＝UΣV。即，A由3个矩阵的相乘表示。矩阵Σ是将对角分量设为对应信息的奇异值的矩阵。数据生成部602例如取得矩阵Σ的对角分量的各元素的值，由此取得对应信息的奇异值。矩阵Σ与通过奇异值分解而获得的其他矩阵U、V分别相乘，因此成为数组信息的一个例子。矩阵U不与矩阵V相乘，矩阵V不与矩阵U相乘。因此，矩阵U、V不是数组信息。

数据生成部602从取得的奇异值中的值较小的奇异值中选择一部分。数据生成部602例如全部选择取得的奇异值中的、预先决定的阈值以下的奇异值。另外，数据生成部602也可以从取得的奇异值中的值较小的奇异值按顺序选择预先决定的个数的奇异值。另外，数据生成部602也可以以选择的奇异值的合计相对于全部奇异值的合计的比例成为预先决定的阈值以下的方式，从值较小的奇异值按顺序选择奇异值。

然后，数据生成部602针对矩阵Σ，以将对角分量中的与选择的奇异值对应的元素设为0的方式进行修正。将修正后的矩阵设为Σ’。Σ’是修正数组信息的一个例子。数据生成部602例如基于矩阵Σ’、矩阵U和矩阵V，求得UΣ’V，由此对对应信息进行低秩近似，生成近似对应信息。即，在本实施方式中，数据生成部602对作为对应信息的商品－用户矩阵101进行低秩近似，由此生成作为近似对应信息的近似商品－用户矩阵102。

另外，数据生成部602也可以针对生成的近似对应信息的各元素，对小数点以下进行四舍五入、舍去、进位等尾数处理，由此调整各元素的值。数据的尾数部分是精细的值，成为在数据的分析等处理时使计算处理的负担增大的原因。数据生成部602对生成的近似对应信息的各元素进行尾数处理，由此能够减少计算处理的负担的原因。

另外，在近似对应信息所示的某用户购买了某商品的个数是具有小数点以下的尾数的值的情况下，若基于该近似对应信息生成匿名化数据，则可能在匿名化数据中包含有该用户购进了具有小数点以下的尾数的值的个数(例如，0.5个)的该商品的数据。购买了商品的个数是整数，因此导致这样的匿名化数据成为不自然的数据。数据生成部602针对近似对应信息的各元素进行尾数处理，由此能够减少匿名化数据成为不自然的数据的可能性。

另外，数据生成部602也可以将生成的近似对应信息中的数组的元素矢量彼此替换。例如，数据生成部602也可以替换生成的近似对应信息中的第j1列的各元素、第j2列的各元素、第j3列的各元素(j1≠j2、j1≠j3、j2≠j3、)。例如，数据生成部602也可以将近似对应信息中的第j1列的各元素设为原始的第j3列的各元素，将第j2列的各元素设为原始的第j1列的各元素，将第j3列的各元素设为原始的第j2列的各元素。

另外，数据生成部602也可以将与生成的近似对应信息中的各列对应的用户彼此替换。例如，在近似对应信息中，第j1列与用户A对应，第j2列与用户B对应，第j3列与用户C对应。在该情况下，数据生成部602例如也可以将近似对应信息中的第j1列修正为与用户C对应的列，将第j2列修正为与用户A对应的列，将第j3列修正为与用户B对应的列。

由此，数据生成部602能够以难以确定近似对应信息所含的数据是怎样的数据的方式进行加工，结果，能够对在S704中生成的匿名化数据进一步进行匿名化。

在S704中，数据生成部602基于在S703中生成的近似对应信息，生成被匿名化的原始数据亦即匿名化数据。在本实施方式中，数据生成部602生成匿名化购买履历数据103。

在本实施方式中，对表示谁在何时购买了多少什么的数据的集合亦即原始数据内的数据进行汇总，由此生成表示谁购买了多少什么的对应信息。然后，对应信息进行低秩近似，由此获得了表示谁购买了多少什么的信息亦即近似对应信息。

对数据生成部602生成匿名化数据的处理的一个例子进行说明。数据生成部602对原始数据进行加工，由此生成匿名化数据。数据生成部602首先确定近似对应信息的各元素中的、与对应信息相同的元素、不同的元素。

数据生成部602确定对应于确定为与对应信息相同的元素的用户和商品。数据生成部602针对原始数据中的与确定的用户和商品对应的信息，决定不施加加工。

数据生成部602确定对应于确定为与对应信息不相同的元素的用户和商品。数据生成部602针对原始数据中的、与确定的用户和商品对应的数据，决定为加工的对象的数据。数据生成部602针对与决定为加工的对象的某用户和某商品对应的数据的每一个，以合计成为近似对应信息中的与该用户和该商品对应的元素的值的方式，调整对应的商品的购买数的项目的值。

例如，与原始数据所含的用户A和商品α对应的数据是表示“用户A在1月10日购买了a个商品α”的数据(1)、表示“用户A在1月20日购买了b个商品α”的数据(2)、表示“用户A在1月30日购买了c个商品α”的数据(3)。在该情况下，对应信息中的与用户A和商品α对应的元素的值成为a+b+c。另外，近似对应信息中的与用户A和商品α对应的元素的值成为a+b+c－1。在该情况下，数据生成部602针对数据(1)～(3)的每一个，以合计成为a+b+c－1的方式调整购买了商品的数量的部分。数据生成部602例如，针对数据(1)～(3)的任一个，以将购买的数量减小1的方式对数据进行加工。例如，在对数据(1)进行加工的情况下，数据生成部602将数据(1)加工为表示“用户A在1月10日购买了a－1个商品α”的数据。

数据生成部602针对决定为加工对象的数据的每一个，调整购买的数量的项目的值，由此生成匿名化数据。

另外，存在对应信息中的与某用户和某商品对应的元素的值为1以上，近似对应信息中的与该用户和该商品对应的元素的值为0的情况。即，是该用户购进了该商品的信息作为对有效性不怎么有贡献的信息被删除的情况。在这样的情况下，数据生成部602例如在生成匿名化数据时，删除原始数据中的与该商品和该用户对应的数据。

另外，数据生成部602例如也可以为了留下该用户购买了该商品的信息，而将原始数据中的与该用户和该商品对应的数据修正为表示“该用户在某时刻购买了0个该商品”的数据。

另外，在对于近似对应信息进行元素的替换的情况下，数据生成部602也可以进一步进行以下说明的处理。

假定对于近似对应信息进行替换与用户A、用户B、用户C对应的各个列(分别设为j1列、j2列、j3列)的处理。数据生成部602将近似对应信息中的第j1列的各元素设为原始的第j3列的各元素，将第j2列的各元素设为原始的第j1列的各元素，将第j3列的各元素设为原始的第j2列的各元素。

原始数据所含的与用户A对应的数据是表示“用户A在1月10日购买了a个商品α”的数据与表示“用户A在1月20日购买了b个商品β”的数据。另外，原始数据所含的与用户B对应的数据是表示“用户B在2月10日购买了c个商品β”的数据与表示“用户B在2月20日购买了d个商品γ”的数据。另外，原始数据所含的与用户C对应的数据是表示“用户C在3月10日购买了e个商品α”的数据与表示“用户C在3月20日购买了f个商品γ”的数据。

在该情况下，在对应信息中，与用户A和商品α对应的购买数成为a。另外，与用户A和商品β对应的购买数成为b。另外，与用户B和商品β对应的购买数成为c。另外，与用户B和商品γ对应的购买数成为d。另外，与用户C和商品α对应的购买数成为e。另外，与用户C和商品γ对应的购买数成为f。

在进行元素的替换前的近似对应信息中，这些值成为以下这样。与用户A和商品α对应的购买数成为a－1。另外，与用户A和商品β对应的购买数成为b。另外，与用户B和商品β对应的购买数成为c－1。另外，与用户B和商品γ对应的购买数成为d。另外，与用户C和商品α对应的购买数成为e－1。另外，与用户C和商品γ对应的购买数成为f。

而且，在进行元素的替换后的近似对应信息中，与用户A和商品α对应的购买数成为e－1。另外，与用户A和商品β对应的购买数成为0。另外，与用户A和商品γ对应的购买数成为f。另外，与用户B和商品α对应的购买数成为a－1。另外，与用户B和商品β对应的购买数成为b。另外，与用户B和商品γ对应的购买数成为0。另外，与用户C和商品α对应的购买数成为0。另外，与用户C和商品β对应的购买数成为c－1。另外，与用户C和商品γ对应的购买数成为d。

在该情况下，数据生成部602例如通过参照近似对应信息的第j1列的各元素，掌握用户A购买了e－1个商品α，购买了f个商品γ的情况。然后，数据生成部602以符合所掌握的内容的方式，调整原始数据中的与用户A对应的数据。

在近似对应信息中与用户A对应的列成为原本与用户C对应的列。这能够解释为在原始数据所含的各数据中产生了用户的替换。因此，数据生成部602以如下方式进行修正：将原始数据所含的与用户C对应的数据亦即表示“用户C在3月10日购买了e个商品α”的数据与表示“用户C在3月20日购买了f个商品γ”的数据中的用户C替换为用户A。由此，生成表示“用户A在3月10日购买了e个商品α”的数据与表示“用户A在3月20日购买了f个商品γ”的数据。在近似对应信息中示出了用户A购买了e－1个商品α，购买了f个商品γ的情况，因此数据生成部602以符合近似对应信息的方式修正生成的表示“用户A在3月10日购买了e个商品α”的数据中的购买数，生成表示“用户A在3月10日购买了e－1个商品α”的数据。

另外，数据生成部602也可以不修正原始数据所含的与各用户对应的数据中的用户，而修正与各用户对应的数据中的购买的数量。数据生成部602例如也可以针对表示“用户A在1月10日购买了a个商品α”的数据，修正购买的数量，而变更为表示“用户A在1月10日购买了e－1个商品α”的数据，针对表示“用户A在1月20日购买了b个商品β”的数据，修正购买的商品与购买的数量，而变更为表示“用户A在1月20日购买了f个商品γ”的数据。

数据生成部602例如通过参照近似对应信息的第j2列的各元素，掌握已变为用户B购买了a－1个商品α，购买了b个商品β。而且，数据生成部602以符合所掌握的内容方式调整原始数据中的与用户B对应的数据。

在近似对应信息中与用户B对应的列成为本来与用户A对应的列。因此，数据生成部602以将原始数据所含的与用户A对应的数据亦即表示“用户A在1月10日购买了a个商品α”的数据、表示“用户A在1月20日购买了b个商品β”的数据中的用户A替换为用户B的方式进行修正。由此，生成表示“用户B在1月10日购买了a个商品α”的数据与表示“用户B在1月20日购买了b个商品β”的数据。在近似对应信息中示出了用户B购买了a－1个商品α，购买了b个商品β的情况，因此数据生成部602以符合近似对应信息的方式修正所生成的表示“用户B在1月10日购买了a个商品α”的数据中的购买数，而生成表示“用户B在1月10日购买了a－1个商品α”的数据。

另外，数据生成部602也可以针对原始数据所含的与用户B对应的数据亦即表示“用户B在2月10日购买了c个商品β”的数据，修正购买的数量，而变更为表示“用户B在2月10日购买了b个商品β”的数据，针对表示“用户B在2月20日购买了d个商品γ”的数据，修正购买的商品与购买的数量，而变更为表示“用户B在2月20日购买了a－1个商品α”的数据。

数据生成部602例如通过参照近似对应信息的第j3列的各元素，掌握用户C购买了c－1个商品β，购买了d个商品γ的情况。而且，数据生成部602以符合所掌握的内容的方式调整原始数据中的与用户C对应的数据。

在近似对应信息中与用户C对应的列成为原本与用户B对应的列。因此，数据生成部602以将原始数据所含的与用户B对应的数据亦即表示“用户B在2月10日购买了c个商品β”的数据与表示“用户B在2月20日购买了d个商品γ”的数据中的用户B替换为用户C的方式进行修正。由此，生成表示“用户C在2月10日购买了c个商品β”的数据与表示“用户C在2月20日购买了d个商品γ”的数据。在近似对应信息中示出了用户C购买了c－1个商品β，购买了d个商品γ的情况，因此数据生成部602以符合近似对应信息的方式修正所生成的表示“用户C在2月10日购买了c个商品β”的数据中的购买数，生成表示“用户C在2月10日购买了c－1个商品β”的数据。

另外，数据生成部602也可以针对原始数据所含的与用户C对应的数据亦即表示“用户C在3月20日购买了f个商品γ”的数据，修正购买的数量，而变更为表示“用户C在3月20日购买了d个商品γ”的数据，针对表示“用户C在3月10日购买了e个商品α”的数据，修正购买的商品，而变更为表示“用户C在3月10日购买了c－1个商品β”的数据。

如以上那样，数据生成部602根据进行了元素的替换的近似对应信息，生成匿名化数据。

这样，信息处理装置500基于替换了元素的近似对应信息，生成匿名化数据，由此能够更加难以掌握各数据是与谁有关的数据，从而能够更加提高安全性。另外，在进行图3、图4中说明的分析时，购买了各商品的用户是谁不存在影响。因此，信息处理装置500即使进行这样的元素的替换，也能够维持数据对于特定的分析的有效性。

在S705中，判定部603判定是否将在S704中生成的匿名化数据采用为最终的结果。判定部603例如向评价针对数据集合的匿名化的程度、有效性的程度的评价应用程序输入在S704中生成的匿名化数据，基于获得的评价结果，判定是否采用为最终的结果。在判定部603判定为作为最终的结果而采用在S704中生成的匿名化数据的情况下，进入S706的处理，在判定为不采用为最终的结果的情况下，进入S707的处理。

另外，判定部603也可以在与输出I/F505连接的监视器显示匿名化数据，基于确认了所显示的匿名化数据的用户经由与输入I/F504连接的输入装置的指示，判定是否采用在S704中生成的匿名化数据作为最终的结果。

在S706中，输出部605例如将在S704中生成的匿名化数据存储于预先决定的存储目的地(例如，辅助存储装置503等)，由此进行输出。另外，输出部605也可以将在S704中生成的匿名化数据向外部的装置等预先决定的发送目的地发送，由此进行输出。另外，输出部605也可以将在S704中生成的匿名化数据显示于与输出I/F505连接的监视器等，由此进行输出。

在S707中，更新部604更新与匿名化数据的生成有关的参数(例如，数组信息的元素中的要选择的元素的数量、从数组信息的元素中选择元素时所使用的阈值等)。更新部604例如将该参数更新为由用户经由与输入I/F504连接的输入装置指定的值。之后，信息处理装置500使用更新后的参数，再次生成匿名化数据。

(效果)

以上，通过本实施方式的处理，信息处理装置500根据原始数据生成了匿名化数据。

所生成的匿名化数据从原始数据被加工，成为难以确定内部的各数据是与谁有关的数据的数据，安全性提高。另外，通过汇总匿名化数据，能够复原近似对应信息。近似对应信息，关于对与原始数据有关的特定的分析有效的对应信息，成为留下主要的分量不变地进行了近似的信息，对该特定的分析也有效。即，根据匿名化数据，能够生成对特定的分析有效的信息。因此，匿名化数据与原始数据相比，抑制了有效性的降低。

这样，信息处理装置500能够抑制原始数据的有效性的降低，并且提高原始数据的安全性。

另外，信息处理装置500进行到生成近似对应信息的处理为止，针对根据近似对应信息生成匿名化数据的处理，也可以由其他装置执行。另外，由人根据近似对应信息决定将匿名化数据形成为怎样，人也可以向信息处理装置500等输入所决定的匿名化数据的信息。

在该情况下，信息处理装置500生成近似对应信息，由此能够辅助抑制原始数据的有效性的降低，并且提高原始数据的安全性。

(变形例)

在本实施方式中，信息处理装置500针对数组信息，以将一部分元素的值设为0的方式进行修正，取得修正数组信息。但是，信息处理装置500也可以针对数组信息进行使一部分元素的值小于当前的值的其他修正，由此取得修正数组信息。例如，信息处理装置500也可以针对数组信息，以使一部分元素的值按当前的值的预先决定的比例(例如，10分之1、100分之1等)缩小的方式进行修正，由此取得修正数组信息。

另外，在本实施方式中，信息处理装置500针对数组信息，以减小从数组信息的元素中的较小的元素选择的一部分元素的值的方式进行了修正。这与信息处理装置500针对数组信息，以减小从数组信息的元素中的较大的元素选择的一部分元素以外的元素的值的方式进行修正是同义的。

另外，在本实施方式中，数据取得部601在S702中，基于原始数据生成表示与指定的2个项目的组合对应的预先决定的项目的值的二维数组状的对应信息。但是，数据取得部601也可以生成表示与指定的3个以上的项目的组合对应的预先决定的项目的值的三维以上的数组状的对应信息。

例如，数据取得部601也可以生成表示与指定的3个项目亦即用户的项目、商品的项目、购买月份的项目的组合对应的商品的购买数的项目的值的三维数组状的对应信息。在该情况下，对应信息的各元素表示与由对应于该元素的用户在对应于该元素的月份购进的该元素对应的商品的数量。

这里，对在通过数据取得部601生成了三维以上的数组状的对应信息的情况下，数据生成部602生成近似对应信息的处理进行说明。

在对应信息呈三维以上的数组状的情况下，对应信息能够表示为3阶以上的张量。数据生成部602例如通过对于对应信息实施Tucker分解等张量分解，能够将对应信息表示为多个多维数组状的信息的相乘。而且，数据生成部602从这些多维数组状的信息中的、与其他信息分别相乘的信息(数组信息)亦即核心张量的各元素中的值较小的元素中选择一部分。数据生成部602例如将取得的各元素中的预先决定的阈值以下的元素全部选择。另外，数据生成部602也可以从取得的各元素中的值较小的元素中按顺序选择预先决定的个数的元素。另外，数据生成部602也可以以所选择的元素的值的合计的相对于全部元素的值的合计的比例成为预先决定的阈值以下的方式，从值较小的元素按顺序选择元素。

而且，数据生成部602针对核心张量，以减小各元素中的选择出的元素的值(例如设为0，设为10分之1，设为100分之1等)的方式进行修正。数据生成部602例如使修正后的核心张量与通过针对对应信息的张量分解而获得的核心张量以外的多维数组状的信息相乘，由此对对应信息进行近似，生成近似对应信息。

另外，在本实施方式中，信息处理装置500针对近似对应信息，也可以进行元素的替换。在图7的例子中，替换近似对应信息中的元素的各用户进行的购买的次数均为2次。但是，存在每个用户进行的购买的数量不同的情况。存在期望欲预先保存用户进行购买的次数的情况。在这样的情况下，存在产生使用图8、图9说明的以下的问题的情况。

图8是表示近似对应信息所含的数据等的一个例子的图。在图8的例子中，近似对应信息中的与用户i和商品J3对应的元素成为20，表示“用户i购买了20个商品J3”。另外，在原始数据中包含有表示“用户j在5月25日购买了50个商品T－800”的数据、表示“用户j在10月30日购买了150个商品T－1000”的数据。这样，用户i购买的商品的种类的数量少于用户j进行的购买的次数。

在近似对应信息中的与用户i对应的元素被替换成与用户j对应的元素的情况下，数据生成部602如表示用户j购买了20个商品J3那样，修正表示“用户j在5月25日购买了50个商品T－800”的数据、表示“用户j在10月30日购买了150个商品T－1000”的数据。例如，数据生成部602将这些数据修正为表示“用户j在5月25日购买了5个商品J3”的数据、表示“用户j在10月30日购买了15个商品J3”的数据。这样，在用户i购买的商品的种类的数量少于用户j进行的购买的次数的情况下，数据生成部602能够将与用户i对应的数据替换为与用户j对应的数据，以便不与用户j进行2次购买的情况产生矛盾。

图9是表示近似对应信息所含的数据等的一个例子的图。在图9的例子中，近似对应信息中的与用户i和商品J1对应的元素成为1，与用户i和商品J2对应的元素成为5，与用户i和商品J3对应的元素成为25，表示“用户i购买了1个商品J1，购买了5个商品J2，购买了25个商品J3”。

另外，在原始数据中包含有表示“用户j在5月25日购买了50个商品T－800”的数据、表示“用户j在10月30日购买了150个商品T－1000”的数据。在图9的例子中，用户i购买的商品的种类的数量多于用户j进行的购买的次数。

这里，在将近似对应信息中的与用户i对应的元素替换为与用户j对应的元素的情况下，数据生成部602产生无法替换数据以便不与用户j进行2次购买的情况产生矛盾的问题。这是因为，用户i购买的商品的种类为3种，因此无法变换成2次购买的数据。此外，在本实施方式中，按商品单位生成购买履历，不存在在一个购买履历中包含多个商品的购买数据的情况。

因此，当在用户之间进行数据的替换的情况下，替换的组合越多，越能够对数据进行匿名化。因此，存在想要减少各用户购买的商品的种类的数量，使能够替换的组合增大的期望。

因此，信息处理装置500也可以如以下那样。信息处理装置500在S703中对对应信息进行分解，使用获得的参数(例如，奇异值)中的一部分参数，对对应信息进行近似。然后，信息处理装置500针对近似对应信息的各元素的值，进行舍去小数点以下的尾数处理，由此在近似对应信息中能够使值为0的元素增加。由此，信息处理装置500能够使近似对应信息所示的各用户购买的商品的种类减少。另外，信息处理装置500针对近似对应信息的各元素的值，也可以将预先决定的阈值以下的值的元素的值变更为0。

另外，在本实施方式中，信息处理装置500作为原始数据，将表示谁在何时购买了多少什么的数据的集合亦即购买履历数据100用作原始数据。本实施方式中的原始数据能够视为与对应于用户的购买的商品有关的信息。即，在用户与商品之间存在has－a(有-1个)关系。信息处理装置500即便原始数据是与本实施方式中说明的数据不同的数据，在原始数据是与具有has－a(有-1个)关系的多个数据有关的数据的情况下，也能够基于原始数据生成对应信息。在原始数据包含具有A has B(A有B)的关系的A与B的数据的情况下，信息处理装置500例如能够对A所含的B的个数、比例、频率等进行汇总、解析等，生成对应信息。

例如，信息处理装置500也可以将任务管理系统中的票证数据、上传于文本的上传应用的文本等的文本数据的集合等其他数据的集合用作原始数据。在该情况下，原始数据能够视为与文本数据对应的出现的单词的信息，在文本数据与单词之间存在has－a(有-1个)关系。在该情况下，信息处理装置500能够基于原始数据，生成表示各文本中的被指定的单词的出现频率的对应信息。在该情况下，例如对应信息中的各列表示各文本的识别信息，各行表示单词。对应信息的各元素成为表示与该元素对应的文本中的与该元素对应的单词的出现频率的信息。

然后，信息处理装置500通过与本实施方式中说明的处理相同的处理，根据对应信息生成近似对应信息，根据生成的近似对应信息来生成匿名化数据。

在本实施方式中，信息处理装置500是单体的信息处理装置。但是，信息处理装置500也可以构成为包含经由网络(LAN、因特网)以能够相互通信的方式连接的多个信息处理装置的系统。在该情况下，信息处理装置500所含的多个信息处理装置各自的CPU基于存储于各个信息处理装置的辅助存储装置的程序联合地执行处理，由此实现图6的功能以及图7的流程图的处理等。

以上，对本发明的优选的实施方式进行了详述，但本发明不限定于上述特定的实施方式。

例如，也可以将上述的信息处理装置500的功能结构的一部分或者全部作为硬件安装于信息处理装置500。

Claims

1.一种信息处理装置，其特征在于，具有：

取得单元，其将表示与多个项目的组合对应的预先决定的项目的值的多维数组状的信息设为第1对应信息，将通过将所述第1对应信息分解为多维数组状的多个信息的相乘而获得的所述多个信息中的与包含于所述多个信息的其他信息分别相乘的信息设为数组信息，取得修正数组信息，所述修正数组信息是以针对元素的一部分将值减小的方式修正所述数组信息而得的信息；以及

第1生成单元，其基于由所述取得单元取得的所述修正数组信息，生成表示与所述多个项目的组合对应的所述预先决定的项目的值的多维数组状的信息亦即第2对应信息。

2.根据权利要求1所述的信息处理装置，其特征在于，

所述取得单元取得所述修正数组信息，所述修正数组信息是以针对元素的一部分将值减小为0的方式被修正的所述数组信息。

3.根据权利要求1或2所述的信息处理装置，其特征在于，

所述取得单元取得所述修正数组信息，所述修正数组信息是以针对从所述数组信息的元素中的值小的元素中选择出的一部分元素将值减小的方式被修正的所述数组信息。

4.根据权利要求3所述的信息处理装置，其特征在于，

所述取得单元取得所述修正数组信息，所述修正数组信息是以针对所述数组信息的元素中的值为预先决定的阈值以下的元素将值减小的方式被修正的所述数组信息。

5.根据权利要求3所述的信息处理装置，其特征在于，

所述取得单元取得所述修正数组信息，所述修正数组信息是以针对从所述数组信息的元素中的值小的元素按顺序预先决定的个数的元素将值减小的方式被修正的所述数组信息。

6.根据权利要求1～5中任一项所述的信息处理装置，其特征在于，

所述取得单元取得所述修正数组信息，所述修正数组信息以针对元素的一部分将值减小的方式修正所述数组信息而得，所述数组信息是通过将二维数组状的信息亦即所述第1对应信息奇异值分解为二维数组状的多个信息的相乘而获得的各元素成为所述第1对应信息的奇异值的信息。

7.根据权利要求1～5中任一项所述的信息处理装置，其特征在于，

所述取得单元取得所述修正数组信息，所述修正数组信息是以针对元素的一部分将值减小的方式修正所述数组信息而得的信息，所述数组信息是通过将多维数组状的信息亦即所述第1对应信息张量分解为多维数组状的多个信息的相乘而获得的核心张量。

8.根据权利要求1～7中任一项所述的信息处理装置，其特征在于，

该信息处理装置进一步具有调整由所述第1生成单元生成的所述第2对应信息的各元素的值的调整单元。

9.根据权利要求8所述的信息处理装置，其特征在于，

所述调整单元针对由所述第1生成单元生成的所述第2对应信息的各元素进行尾数处理，由此调整所述第2对应信息的各元素的值。

10.根据权利要求1～9中任一项所述的信息处理装置，其特征在于，

该信息处理装置进一步具有在由所述第1生成单元生成的所述第2对应信息所含的多个元素之间进行替换处理的替换单元。

11.根据权利要求1～10中任一项所述的信息处理装置，其特征在于，

所述取得单元取得所述修正数组信息，所述修正数组信息是以针对元素的一部分将值减小的方式修正所述数组信息而得的信息，所述数组信息通过将基于第1数据集合生成的所述第1对应信息分解为多维数组状的多个信息的相乘而获得。

12.根据权利要求11所述的信息处理装置，其特征在于，

该信息处理装置进一步具有基于由所述第1生成单元生成的所述第2对应信息，生成与所述第1数据集合近似的第2数据集合的第2生成单元。

13.根据权利要求11或12所述的信息处理装置，其特征在于，

所述第1数据集合是针对多个用户的每一个用户的商品购买履历的数据的集合，

所述第1对应信息是表示与用户的项目和商品的项目的组合对应的商品的购买数的项目的值的二维数组状的信息。

14.一种系统，其特征在于，具有：

生成单元，其基于由所述取得单元取得的所述修正数组信息，生成表示与所述多个项目的组合对应的所述预先决定的项目的值的多维数组状的信息亦即第2对应信息。

15.一种由信息处理装置执行的信息处理方法，其特征在于，包含：

取得步骤，将表示与多个项目的组合对应的预先决定的项目的值的多维数组状的信息设为第1对应信息，将通过将所述第1对应信息分解为多维数组状的多个信息的相乘而获得的所述多个信息中的与包含于所述多个信息的其他信息分别相乘的信息设为数组信息，取得修正数组信息，所述修正数组信息是以针对元素的一部分将值减小的方式修正所述数组信息而得的信息；以及

生成步骤，基于由所述取得步骤取得的所述修正数组信息，生成表示与所述多个项目的组合对应的所述预先决定的项目的值的多维数组状的信息亦即第2对应信息。

16.一种由系统执行的信息处理方法，其特征在于，包含：

17.一种程序，其特征在于，

使计算机作为权利要求1～13中任一项所述的信息处理装置的各单元发挥功能。