JP7176625B2

JP7176625B2 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP7176625B2
Application number: JP2021519955A
Authority: JP
Inventors: 義行美原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2022-11-22
Anticipated expiration: 2039-05-21
Also published as: US20220222376A1; WO2020235019A1; JPWO2020235019A1; US11921897B2

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

近年、様々なデータ（例えば、購買データや宿泊データ、人流データ、医療データ、交通データ等）を収集及び分析して、事業活動や行政活動等に活用する取り組みが行われている。

これらのデータには、例えば、商品の購入者や宿泊者を特定可能な情報（個人情報）等が含まれる場合がある。このため、例えば、小売店やデパート等の商業施設が購買データをデータ収集・分析業者等に第三者提供したり、宿泊施設が宿泊データをデータ収集・分析業者等に第三者提供したりする際には、いわゆる個人情報保護法の規定を遵守する必要がある。個人情報保護法では、そのガイドラインにおいて、統計情報は特定の個人との対応関係が排斥されている限り、個人情報に該当しない旨を規定している。

また、個人の特定確率を１／ｋ以下にするデータ加工手法として、ｋ－匿名化と呼ばれる手法が知られている（例えば、非特許文献１参照）。

渡邉奈津美, 土井洋, 趙晋輝, 「k-匿名化手法の効率向上に関する一提案」, 情報処理学会第75回全国大会講演論文集, 2013(1), 519-520 (2013-03-06)

しかしながら、第三者提供の対象となるデータに対して統計加工を行って、個人の特定確率を１／ｋ以下にする場合、データ中のレコードのうち、個人の特定確率が１／ｋより大きくなるレコードは削除する必要がある。他方で、データ中のレコードの削除が多い場合（つまり、データの損失率が高い場合）、データ分析等の精度が低下する。

また、データを構成するレコード数が少ない場合には、レコードの削除数を減らして個人の特定確率が１／ｋ以下とするために、レコードに含まれる項目値の抽象化が必要なことがあるが、この場合にもデータ分析等の精度が低下する。このため、データ中のレコードの削除数を減らしつつ、項目値の抽象化も可能な限り抑えることが好ましい。

本発明は、上記の点に鑑みてなされたもので、データ分析の精度低下を防止することを目的とする。

上記目的を達成するため、本発明の実施の形態における情報処理装置は、１以上の項目が含まれるレコードで構成されるデータを統計加工によって匿名化する情報処理装置であって、前記項目のうち、マスキングの対象となる項目を示すマスキング対象項目と、前記マスキング対象項目毎に該項目値のカテゴリが木構造で表現された辞書と、前記マスキング対象項目毎に前記木構造で選択された階層を示す選択階層と、前記データに含まれるレコード数とに基づいて、前記データを構成する各レコードを１つ以上の集合に分類して、各集合のレコード数Ｎと、レコード数Ｎの集合に属するレコードの割合とを算出する算出手段と、前記レコード数Ｎの集合に属するレコードの割合が所定の条件を満たす場合に、前記データを１つ以上のデータに分割する分割手段と、を有することを特徴とする。

データ分析の精度低下を防止することができる。

本発明の実施の形態におけるデータ加工システムの全体構成の一例を示す図である。本発明の実施の形態におけるデータ提供端末及びデータ分析装置のハードウェア構成の一例を示す図である。対象データの一例を示す図である。分類辞書の一例を示す図である。分類辞書の一例を示す図である。データ加工の一例を説明するための図である。本発明の実施の形態におけるデータ加工処理部の機能構成の一例を示す図（実施例１）である。本発明の実施の形態におけるデータ加工処理の一例を示すフローチャート（実施例１）である。ユーザ提示画面における階層選択の一例を説明するための図である。ユーザ提示画面における階層選択の一例を説明するための図である。ユーザ提示画面における階層選択の一例を説明するための図である。ユーザ提示画面における階層選択の一例を説明するための図である。Ｎ毎のレコードの割合の他の表示例を示す図である。Ｎ毎のレコードの割合の他の表示例を示す図である。本発明の実施の形態におけるデータ加工処理部の機能構成の一例を示す図（実施例２）である。本発明の実施の形態におけるデータ加工処理の一例を示すフローチャート（実施例２）である。本発明の実施の形態におけるデータ加工処理部の機能構成の一例を示す図（実施例３）である。本発明の実施の形態におけるデータ加工処理の一例を示すフローチャート（実施例３）である。ユーザ提示画面の一例を示す図（実施例３）である。クロス率の算出の一例を説明するための図（その１）である。クロス率の算出の一例を説明するための図（その２）である。本発明の実施の形態におけるデータ加工処理部の機能構成の一例を示す図（実施例４）である。本発明の実施の形態におけるデータ加工処理の一例を示すフローチャート（実施例４）である。本発明の実施の形態におけるデータ加工処理部の機能構成の一例を示す図（実施例５）である。本発明の実施の形態におけるデータ加工処理の一例を示すフローチャート（実施例５）である。本発明の実施の形態における統計量の減算処理の一例を示すフローチャート（実施例５）である。本発明の実施の形態におけるデータ加工処理部の機能構成の一例を示す図（実施例６）である。本発明の実施の形態におけるデータ加工処理の一例を示すフローチャート（実施例６）である。マスキング対象項目の削除の一例を説明するための図である。本発明の実施の形態におけるデータ加工処理部の機能構成の一例を示す図（実施例７）である。分類辞書の修正の一例を説明するための図（その１）である。分類辞書の修正の一例を説明するための図（その１）である。分類辞書の修正の一例を説明するための図（その２）である。分類辞書の修正の一例を説明するための図（その２）である。本発明の実施の形態におけるデータ加工処理の一例を示すフローチャート（実施例７）である。ユーザ提示画面及び分類辞書修正画面の一例を示す図（実施例７）である。

以下、本発明の実施の形態について説明する。以降で説明する本発明の実施の形態では、第三者提供の対象となるデータを統計加工によって匿名化するデータ加工システム１について説明する。

なお、本発明の実施の形態では、第三者提供の対象となるデータには何等かの個人情報が含まれていることを想定するが、必ずしも個人情報が含まれていなくてもよい。また、第三者提供の対象となるデータは任意のデータとしてよいが、例えば、小売店やデパート等の商業施設における購買データ、宿泊施設における宿泊データ、飲食店における顧客データ等が挙げられる。これら以外にも、第三者提供の対象となるデータとしては、例えば、人口データ、人流データ、水道使用量データ、医療データ、交通データ等も挙げられる。

［全体構成］
まず、本発明の実施の形態におけるデータ加工システム１の全体構成について、図１を参照しながら説明する。図１は、本発明の実施の形態におけるデータ加工システム１の全体構成の一例を示す図である。

図１に示すように、本発明の実施の形態におけるデータ加工システム１には、１以上のデータ提供端末１０と、データ分析装置２０とが含まれる。各データ提供端末１０とデータ分析装置２０とは、例えばインターネット等の通信ネットワークＮを介して通信可能に接続されている。

データ提供端末１０は、データ提供者（例えば、商業施設等）が利用する情報処理装置（コンピュータ）である。データ提供端末１０は、データ提供者の操作に応じて、例えば購買データ等のデータをデータ分析装置２０に送信する。このとき、データ提供端末１０は、統計加工によってデータを匿名化した上で、この匿名化後のデータ（以降、「統計加工後データ」とも表す。）をデータ分析装置２０に送信する。

ここで、データ提供端末１０は、データ加工処理部１００と、分類辞書記憶部２００とを有する。データ加工処理部１００は、分類辞書記憶部２００に記憶されている分類辞書を参照して、統計加工によってデータを匿名化する処理（データ加工処理）を行う。分類辞書とは、各データ提供端末１０でデータを匿名化する際に用いられる木構造の辞書情報（つまり、階層構造を有する辞書情報）のことである。データを構成する各レコードを分類辞書によって１つ以上の集合に分類した上で、レコード数がｋ個未満の集合に属する各レコードを削除すると共に、レコード数がｋ個以上の集合に属する各レコードに対して統計加工を施すことで、当該データが匿名化される。なお、分類辞書の具体例については後述する。

データ提供端末１０としては、例えば、ＰＣ（パーソナルコンピュータ）やスマートフォン、タブレット端末等を用いることができる。なお、以降では、複数のデータ提供端末１０の各々を区別する場合は、「データ提供端末１０Ａ」、「データ提供端末１０Ｂ」等と表す。この場合、本発明の実施の形態では、データ提供端末１０Ａとデータ提供端末１０Ｂとは異なるデータ提供者が利用する端末であるものとする。例えば、データ提供端末１０ＡはデパートＡが利用する端末であり、データ提供端末１０ＢはデパートＢが利用する端末であるものとする。

データ分析装置２０は、データ収集・分析業者（例えば、データの収集及び分析を行う事業者や自治体等）が利用又は管理する情報処理装置（コンピュータ）又は情報処理システム（コンピュータシステム）である。データ分析装置２０は、各データ提供端末１０から収集したデータ（つまり、統計加工後データ）を所定の目的に応じて分析（例えば、事業活動や行政活動のための購買分析等）する。

ここで、データ分析装置２０は、データ分析処理部３００と、マスタデータ記憶部４００とを有する。データ分析処理部３００は、統計加工後データを受信すると、この統計加工後データをマスタデータとしてマスタデータ記憶部４００に記憶する。また、データ分析処理部３００は、マスタデータ記憶部４００に記憶されているマスタデータを所定の目的に応じて分析する。これにより、各データ提供端末１０から収集したデータが分析される。

なお、図１に示すデータ加工システム１の全体構成は一例であって、他の構成であってもよい。例えば、データ加工システム１には、データ分析装置２０での分析結果を閲覧可能な端末が含まれていてもよい。

［ハードウェア構成］
次に、本発明の実施の形態におけるデータ提供端末１０及びデータ分析装置２０のハードウェア構成について、図２を参照しながら説明する。図２は、本発明の実施の形態におけるデータ提供端末１０及びデータ分析装置２０のハードウェア構成の一例を示す図である。なお、データ提供端末１０及びデータ分析装置２０は同様のハードウェア構成で実現可能であるため、以降では、主に、データ提供端末１０のハードウェア構成について説明する。

図２に示すように、本発明の実施の形態におけるデータ提供端末１０は、ハードウェアとして、入力装置１１と、表示装置１２と、外部Ｉ／Ｆ１３と、ＲＡＭ（Random Access Memory）１４と、ＲＯＭ（Read Only Memory）１５と、プロセッサ１６と、通信Ｉ／Ｆ１７と、補助記憶装置１８とを有する。これら各ハードウェアは、それぞれがバス１９を介して通信可能に接続されている。

入力装置１１は、例えばキーボードやマウス、タッチパネル等であり、ユーザが各種の入力操作を行うのに用いられる。表示装置１２は、例えばディスプレイ等であり、データ提供端末１０の処理結果等を表示する。なお、データ分析装置２０は、入力装置１１及び表示装置１２の少なくとも一方を有していなくてもよい。

外部Ｉ／Ｆ１３は、外部装置とのインタフェースである。外部装置には、記録媒体１３ａ等がある。データ提供端末１０は、外部Ｉ／Ｆ１３を介して、記録媒体１３ａの読み取りや書き込み等を行うことができる。記録媒体１３ａには、例えば、データ加工処理部１００を実現する１以上のプログラムやデータ分析処理部３００を実現する１以上のプログラム等が記録されていてもよい。

記録媒体１３ａとしては、例えば、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

ＲＡＭ１４は、プログラムやデータを一時保持する揮発性の半導体メモリである。ＲＯＭ１５は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。ＲＯＭ１５には、例えば、ＯＳ（Operating System）に関する設定情報や通信ネットワークＮに関する設定情報等が格納されている。

プロセッサ１６は、例えばＣＰＵ（Central Processing Unit）等であり、ＲＯＭ１５や補助記憶装置１８等からプログラムやデータをＲＡＭ１４上に読み出して処理を実行する演算装置である。データ加工処理部１００は、ＲＯＭ１５や補助記憶装置１８等に格納されている１以上のプログラムをＲＡＭ１４上に読み出してプロセッサ１６が処理を実行することで実現される。同様に、データ分析処理部３００は、ＲＯＭ１５や補助記憶装置１８等に格納されている１以上のプログラムをＲＡＭ１４上に読み出してプロセッサ１６が処理を実行することで実現される。

通信Ｉ／Ｆ１７は、データ提供端末１０を通信ネットワークＮに接続するためのインタフェースである。データ加工処理部１００を実現する１以上のプログラムやデータ分析処理部３００を実現する１以上のプログラムは、通信Ｉ／Ｆ１７を介して、所定のサーバ装置等から取得（ダウンロード）されてもよい。

補助記憶装置１８は、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等であり、プログラムやデータを格納している不揮発性の記憶装置である。補助記憶装置１８に格納されているプログラムやデータには、例えば、ＯＳ、当該ＯＳ上で各種機能を実現するアプリケーションプログラム等がある。また、データ提供端末１０の補助記憶装置１８には、データ加工処理部１００を実現する１以上のプログラムが格納されている。同様に、データ分析装置２０の補助記憶装置１８には、データ分析処理部３００を実現する１以上のプログラムが格納されている。

また、分類辞書記憶部２００は、例えば、データ提供端末１０の補助記憶装置１８を用いて実現可能である。同様に、マスタデータ記憶部４００は、例えば、データ分析装置２０の補助記憶装置１８を用いて実現可能である。なお、分類辞書記憶部２００は、データ提供端末１０と通信ネットワークＮ等を介して接続される記憶装置等を用いて実現されていてもよい。同様に、マスタデータ記憶部４００は、データ分析装置２０と通信ネットワークＮ等を介して接続される記憶装置等を用いて実現されていてもよい。

本発明の実施の形態におけるデータ提供端末１０は、図２に示すハードウェア構成を有することにより、後述する各種処理を実現することができる。同様に、本発明の実施の形態におけるデータ分析装置２０は、図２に示すハードウェア構成を有することにより、後述する各種処理を実現することができる。

なお、図２に示す例では、本発明の実施の形態におけるデータ提供端末１０及びデータ分析装置２０がそれぞれ１台の装置（コンピュータ）で実現されている場合を示したが、これに限られない。本発明の実施の形態におけるデータ提供端末１０及びデータ分析装置２０の少なくとも一方が、複数台の装置（コンピュータ）で実現されていてもよい。また、１台の装置（コンピュータ）には、複数のプロセッサ１６や複数のメモリ（ＲＡＭ１４やＲＯＭ１５、補助記憶装置１８等）が含まれていてもよい。

［実施例１］
最初に、実施例１として、データ提供端末１０で対象データを統計加工によって匿名化する際に、ユーザによる適切な匿名化粒度の決定を支援するＵＩ（ユーザインタフェース）を提供する場合について説明する。対象データとは統計加工の対象となるデータのことであり、例えば、第三者提供の対象となるデータそのもの（つまり、生データ）であってもよいし、第三者提供の対象となるデータを構成する各レコードに対して所定の匿名加工を施したデータであってもよい。

ここで、匿名化の粒度が細かすぎると、対象データ中の多くのレコードが削除されることで、対象データ全体の情報の損失（つまり、レコード削除に伴う対象データ全体の情報量の損失）が大きくなる、一方で、匿名化の粒度が粗すぎると、対象データ中のレコードの削除は少なくなるものの、１レコードあたりの情報の損失（つまり、対象データを構成する各レコードの情報量の損失）が大きくなる。このため、ｋ－匿名性を満たしつつ、情報の損失をできるだけ抑えるためには、適切な匿名化粒度を決定する必要がある。

なお、匿名化の粒度が細かすぎて対象データ中の多くのレコードが削除されると、匿名化後の対象データを分析する際の精度（正確さ）に影響する。すなわち、レコードの削除数が多い場合、対象データ中のレコードの分布が歪み、分析結果が意味を持たなくなってしまう可能性がある。同様に、匿名化の粒度が粗すぎて１レコードあたりの情報量の損失が多い場合も、匿名化後の対象データを分析する際の精度（詳細さ）に影響する。すなわち、１レコードあたりの情報量の損失が大きい場合、大まかな分析しかできず、有用な情報（例えば、集団間の差異等）が発見できなくなる可能性がある。

匿名加工とは、第三者提供の対象となるデータを構成する各レコードに含まれる各項目（項目は「フィールド」又は「属性」等と称されてもよい。）のうち、個人を識別可能な情報が設定される項目を削除したり、置き換えたりする処理等のことである。具体的には、第三者提供の対象となるデータが免税店における購買データである場合、購買データを構成する各レコードから項目「パスポート番号」を削除する処理が挙げられる。同様に、例えば、第三者提供の対象となるデータが宿泊施設における宿泊データである場合、宿泊データを構成する各レコードから項目「宿泊者名」を削除したデータ等が挙げられる。

以降では、対象データは、第三者提供の対象となるデータを構成する各レコードに対して所定の匿名加工を施したデータであるものとする。

（対象データ）
まず、対象データの一例として、或る商業施設の購買データを構成する各レコードに対して匿名加工を施したデータついて、図３を参照しながら説明する。図３は、対象データの一例を示す図である。

図３に示すように、対象データは複数のレコードで構成されており、各レコードには、少なくとも当該対象データ中で各レコードを一意に識別可能な項目「レコードＩＤ」が含まれている。また、図３に示す例では、各レコードには、項目「住所」や項目「年代」、項目「性別」、項目「金額」が含まれている。例えば、レコードＩＤ「１」のレコードには、住所「東京都武蔵野市緑町３丁目」、年代「１０代」、性別「男」、金額「５００円」が含まれている。これは、例えば、東京都武蔵野市緑町３丁目の店舗（商業施設）にて、１０代の男が５００円分の商品を購入したことを表している。ただし、図３に示す対象データの各レコードには、これら以外にも、例えば、項目「商品名」や項目「購入個数」、項目「購入日時」、項目「業種」等が含まれていてもよい。

なお、対象データを構成する各レコードには少なくとも項目「レコードＩＤ」が含まれるが、項目「レコードＩＤ」以外にどのような項目が各レコードに含まれるかは、対象データの種類（又は対象データの基となったデータの種類）によっても異なり得るし、データ提供者によっても異なり得る。すなわち、例えば、購買データと宿泊データとでは各レコードに含まれる項目は異なり得るし、商業施設Ａの購買データと商業施設Ｂの購買データとでも各レコードに含まれる項目は異なり得る。

また、図３に示す例では対象データを構成するレコード数が５レコードであるが、これは一例であって、対象データを構成するレコード数は任意である。データ提供者の規模等によっても異なるが、例えば、データ収集・分析業者に対して月次で対象データを提供するような場合、一般には、数千や数万、数十万レコード等といったレコード数になることが想定される。

（分類辞書）
次に、データ提供端末１０の分類辞書記憶部２００に記憶されている分類辞書の一例として、図３に示す対象データを提供するデータ提供端末１０の分類辞書記憶部２００に記憶されている分類辞書について、図４を参照しながら説明する。図４は、分類辞書の一例を示す図である。分類辞書は、例えば、対象データを構成する各レコードに含まれる項目毎に、分類辞書記憶部２００に記憶されている。図４では、一例として、項目「住所」の分類辞書と、項目「年代」の分類辞書とを示す。

図４Ａは、項目「住所」の分類辞書の一例である。図４Ａに示すように、項目「住所」の分類辞書はカテゴリ（この例の場合、地域名を表すカテゴリ）の木構造（階層構造）になっており、階層が低いほどより詳細な情報（つまり、より詳細な住所）が表現できるようになっている。例えば、図４Ａに示す例では、「１丁目」、「２丁目」、「緑町」、「武蔵野市」、「三鷹市」、「東京都」等のそれぞれがカテゴリである。後述するように、ユーザによって階層が選択された場合、該当の項目において、この選択された階層未満の階層で表現される情報にマスキングされる。

例えば、或るレコードの住所が「東京都武蔵野市緑町３丁目」である場合に、ユーザによって第２階層が選択されると、当該住所が「東京都武蔵野市緑町」とマスキングされる。したがって、この場合、「３丁目」という情報が表現できなくなり、項目「住所」の情報が抽象化される。同様に、例えば、ユーザによって第３階層が選択されると、当該住所が「東京都武蔵野市」とマスキングされる（この場合、「緑町３丁目」という情報が表現できなくなる。）。また、同様に、例えば、ユーザによって第４階層が選択されると、当該住所が「東京都」とマスキングされる（この場合、「武蔵野市緑町３丁目」という情報が表現できなくなる。）。一方で、ユーザによって第１階層が選択された場合には、マスキング前後で当該住所は「東京都武蔵野市緑町３丁目」である。

図４Ｂは、項目「年代」の分類辞書の一例である。図４Ｂに示すように、項目「年代」の分類辞書はカテゴリ（この例の場合、年代の数値幅を表すカテゴリ）の木構造（階層構造）になっており、階層が低いほどより詳細な情報（つまり、より詳細な年代）が表現できるようになっている。例えば、図４Ｂに示す例では、「０代」、「１０代」、「２０代」、「３０代」、「０～１０代」、「２０～３０代」、「０～３０代」等のそれぞれがカテゴリである。後述するように、ユーザによって階層が選択された場合、該当の項目において、この選択された階層未満の階層で表現される情報にマスキングされる。例えば、或るレコードの年代が「１０代」である場合に、ユーザによって第２階層が選択されると、当該年代が「０～１０代」にマスキングされる。したがって、この場合、項目「年代」によって表現可能な年齢幅が広がるため、項目「年代」の情報が抽象化される。同様に、ユーザによって第３階層が選択されると、当該年代が「０～３０代」にマスキングされる。一方で、ユーザによって第１階層が選択された場合には、マスキング前後で年代は「１０代」である。

より高い階層でマスキングすることで該当の項目の情報を抽象化することができる。このため、これらの項目の情報が互いに一致するレコード同士を同一集合に分類した上で、レコード数がｋ個以上の集合に属する各レコードを集合毎に１つのレコードに集約する統計加工を行って、ｋ－匿名性を満たすようなレコードを作成することが可能となる。一方で、レコード数がｋ個未満の集合に属する各レコードによっては統計加工によりｋ－匿名性を満たすようなレコードを作成することはできないため、レコード数がｋ個未満の集合に属するレコードは削除する必要がある。

したがって、データ分析装置２０における分析精度を考慮すると、ユーザは、ｋ－匿名性を満たしつつ、削除されるレコード数を減らすように、該当の項目（この項目を以降では「マスキング対象項目」とも表す。）の階層を選択する必要がある。すなわち、ユーザは、ｋ－匿名性を満たしつつ、匿名化の粒度が可能な限り細かくなるように、マスキング対象項目の階層を選択する必要がある。

なお、どのような分類辞書が分類辞書記憶部２００に記憶されているかは、対象データの種類（又は対象データの基となったデータの種類）によっても異なり得るし、データ提供者によっても異なり得る。すなわち、例えば、購買データのマスキングに用いられる分類辞書と宿泊データのマスキングに用いられる分類辞書とは異なり得るし、商業施設Ａの購買データのマスキングに用いられる分類辞書と商業施設Ｂの購買データのマスキングに用いられる分類辞書とは異なり得る。

例えば、上述した項目「住所」や項目「年代」以外にも、項目「業種」の分類辞書が挙げられる。項目「業種」の分類辞書としては、例えば、第４階層として「小売り」や「飲食」、第４階層「小売り」の第３階層として「電気店」や「デパート」、第３階層「デパート」の第２階層として「デパートＡ」や「デパートＢ」、第２階層「デパートＡ」の第１階層として「○○店」や「××店」等とすればよい。

（データ加工の概略）
次に、マスキング対象項目を項目「住所」及び項目「年代」として、図４に示す分類辞書によって図３に示す対象データを統計加工して、匿名化（ｋ－匿名化）するデータ加工の概略について説明する。図５は、データ加工の一例を説明するための図である。なお、図５に示す例では、ｋ＝２であるものとして説明する。

Ｓｔｅｐ１）データ加工処理部１００は、対象データを構成する各レコードのマスキング対象項目を、選択された階層（以降、「選択階層」とも表す。）でマスキングする。ここで、一例として、項目「住所」の選択階層を第３階層、項目「年代」の選択階層を第３階層としてマスキングしたものとする。

Ｓｔｅｐ２）データ加工処理部１００は、マスキング後の対象データを構成する各レコードについて、各マスキング対象項目の情報（つまり、項目「住所」の項目値と項目「年代」の項目値。以降、項目の情報（又は項目に設定されている情報）を「項目値」とも表す。）が互いに一致するレコード同士で分類した上で、集合毎に、同一集合に属するレコードの数Ｎを算出する。そして、データ加工処理部１００は、Ｎ毎に、Ｎが同一であるレコードの割合を算出する。なお、割合とは、対象データを構成する全レコード数に対してＮが同一であるレコード数の割合のことであり、例えば、「比率」等と称されてもよい。

図５に示す例では、レコードＩＤ「１」～レコードＩＤ「３」の各レコードは、第３階層の項目「住所」の項目値と第３階層の項目「年代」の項目値とが一致している。このため、これらのレコードは同一集合に分類され、この集合に属するレコードのＮの値はＮ＝３となる。

一方で、レコードＩＤ「４」のレコード及びレコードＩＤ「５」のレコードは、第３階層の項目「住所」の項目値と第３階層の項目「年代」の項目値とが一致する他のレコードが存在しない。このため、レコードＩＤ「４」のレコードが分類される集合には、このレコードのみが属することにより、そのＮはＮ＝１となる。同様に、レコードＩＤ「５」のレコードのＮもＮ＝１となる。

また、Ｎ＝３であるレコードの割合は３／５×１００＝６０（％）となり、Ｎ＝１であるレコードの割合は２／５×１００＝４０（％）となる。なお、後述するように、Ｎ毎のレコードの割合は、例えば、ユーザに提示される。この割合を参照することで、ユーザは、マスキング対象項目に対する適切な階層を選択することができるようになる。なお、Ｎがｋ未満のレコードの割合の合計（つまり、Ｎ（＜ｋ）であるレコードが属する集合のレコード数の割合の合計）が、削除されるレコードの割合を表す。この割合がより小さくなるように、ユーザはＵＩを確認しながら選択階層を設定する。

Ｓｔｅｐ３）データ加工処理部１００は、対象データを構成する各レコードのうち、Ｎがｋ未満であるレコードを削除すると共に、Ｎがｋ以上である各レコードを同一集合内で統計加工する。

図５に示す例では、レコードＩＤ「１」～レコードＩＤ「３」のレコードの項目「性別」を削除した上で、人数（つまり、レコード数又はヒット数）をカウントして項目「人数」の項目値とすると共に、項目「金額」の項目値を合計する統計加工を行っている。これにより、ｋ－匿名性を満たすレコードが作成される。なお、この統計加工は一例であって、任意の統計加工（例えば、平均値の計算や中央値の計算等）を行ってもよい。

なお、上記の統計加工は、Ｎがｋ以上であるレコードが属する集合毎に行われる。例えば、Ｎがｋ以上であるレコードが属する集合として第１の集合と第２の集合とが存在する場合、第１の集合内で各レコードを統計加工すると共に、第２の集合内で各レコードを統計加工する。これにより、ｋ－匿名性を満たすレコードとして、第１の集合に対応するレコードと、第２の集合に対応するレコードとが作成する。

（データ加工処理部１００の機能構成）
まず、実施例１におけるデータ加工処理部１００の機能構成について、図６を参照しながら説明する。図６は、本発明の実施の形態におけるデータ加工処理部１００の機能構成の一例を示す図（実施例１）である。

図６に示すように、実施例１におけるデータ加工処理部１００には、算出部１０１と、ＵＩ提供部１０２と、データ加工部１０３とが含まれる。

算出部１０１は、予め設定されたマスキング対象項目と、分類辞書記憶部２００に記憶されている分類辞書と、各マスキング対象項目の階層と、対象データを構成するレコード数とに基づいて、対象データを構成する各レコードを分類して、これら各レコードが分類された集合毎に、同一集合に属するレコードの数Ｎを算出する。そして、算出部１０１は、Ｎ毎に、Ｎが同一であるレコードの割合を算出する。ここで、上述したように、算出部１０１は、該当の階層でマスキングされた各マスキング対象項目の項目値が互いに一致するレコード同士を同一集合に分類する。

ＵＩ提供部１０２は、算出部１０１により算出されたＮ毎のレコードの割合が含まれるユーザ提示画面を表示する。また、ＵＩ提供部１０２は、ユーザ提示画面におけるユーザの各種操作（例えば、階層の選択操作）を受け付ける。

データ加工部１０３は、ＵＩ提供部１０２により表示されたユーザ提示画面におけるユーザ操作に応じて、同一集合に属するレコード数Ｎがｋ未満のレコードを削除すると共に、Ｎがｋ以上である各レコードを同一集合内で統計加工する。

（データ加工処理）
次に、データ提供端末１０で対象データを統計加工して、匿名化（ｋ－匿名化）するデータ加工処理について、図７を参照しながら説明する。図７は、本発明の実施の形態におけるデータ加工処理の一例を示すフローチャート（実施例１）である。なお、対象データは、データ提供端末１０の補助記憶装置１８に記憶されていてもよいし、データ提供端末１０とローカルな通信ネットワーク（例えば、社内ネットワーク等）を介して接続される記憶装置等に記憶されていてもよい。また、以降では、ｋ＝５であるものとする。

まず、算出部１０１は、予め設定されたマスキング対象項目と、分類辞書記憶部２００に記憶されている分類辞書と、各マスキング対象項目の階層と、対象データを構成するレコード数とに基づいて、対象データを構成する各レコードを分類した場合に同一集合に属するレコードの数Ｎ（つまり、集合毎のレコード数Ｎ）と、Ｎ毎のレコードの割合とを算出する（ステップＳ１０１）。ここで、ステップＳ１０１では、算出部１０１は、各マスキング対象項目の選択階層が「第１階層」であるものとして、選択階層での集合毎のレコード数Ｎ及びＮ毎のレコードの割合と、１つのマスキング対象項目のみ階層を上げた場合における集合毎のレコード数Ｎ及びＮ毎のレコードの割合とを算出する。

例えば、マスキング対象項目を項目「住所」及び項目「年代」とした場合、算出部１０１は、以下の集合毎のレコード数Ｎ及びＮ毎のレコードの割合を算出する。

・項目「住所」の階層が「第１階層」、かつ、項目「年代」の階層が「第１階層」である場合における集合毎のレコード数Ｎ及びＮ毎のレコードの割合
・項目「住所」の階層が「第２階層」、かつ、項目「年代」の階層が「第１階層」である場合における集合毎のレコード数Ｎ及びＮ毎のレコードの割合
・項目「住所」の階層が「第３階層」、かつ、項目「年代」の階層が「第１階層」である場合における集合毎のレコード数Ｎ及びＮ毎のレコードの割合
・項目「住所」の階層が「第４階層」、かつ、項目「年代」の階層が「第１階層」である場合における集合毎のレコード数Ｎ及びＮ毎のレコードの割合
・項目「住所」の階層が「第１階層」、かつ、項目「年代」の階層が「第２階層」である場合における集合毎のレコード数Ｎ及びＮ毎のレコードの割合
・項目「住所」の階層が「第１階層」、かつ、項目「年代」の階層が「第３階層」である場合における集合毎のレコード数Ｎ及びＮ毎のレコードの割合
・項目「住所」の階層が「第１階層」、かつ、項目「年代」の階層が「第４階層」である場合における集合毎のレコード数Ｎ及びＮ毎のレコードの割合
このように、算出部１０１は、まず、各マスキング対象項目の選択階層が「第１階層」であるものとして、１つのマスキング対象項目のみ階層を上げた場合における集合毎のレコード数ＮとＮ毎のレコードの割合とをそれぞれ算出する。

ここで、上述したように、算出部１０１は、該当の階層でマスキングされた各マスキング対象項目の項目値が互いに一致するレコード同士を同一集合に分類する。例えば、項目「住所」の階層が「第１階層」、かつ、項目「年代」の階層が「第１階層」である場合、算出部１０１は、「第１階層」でマスキングされた項目「住所」の項目値と、「第１階層」でマスキングされた項目「年代」の項目値との両方が一致するレコード同士を同一集合に分類する。同様に、例えば、項目「住所」の階層が「第２階層」、かつ、項目「年代」の階層が「第１階層」である場合、算出部１０１は、「第２階層」でマスキングされた項目「住所」の項目値と、「第１階層」でマスキングされた項目「年代」の項目値との両方が一致するレコード同士を同一集合に分類する。同様に、例えば、項目「住所」の階層が「第３階層」、かつ、項目「年代」の階層が「第１階層」である場合、算出部１０１は、「第３階層」でマスキングされた項目「住所」の項目値と、「第１階層」でマスキングされた項目「年代」の項目値との両方が一致するレコード同士を同一集合に分類する。以降も同様である。

以降では、一例として、マスキング対象項目は項目「住所」及び項目「年代」であるものとして説明を続ける。なお、本実施例ではマスキング対象項目が予め設定されているものとするが、マスキング対象項目はユーザにより選択及び設定されてもよい。

次に、ＵＩ提供部１０２は、上記のステップＳ１０１で算出されたＮ毎のレコードの割合が含まれるユーザ提示画面を表示する（ステップＳ１０２）。すなわち、ＵＩ提供部１０２は、例えば、図８Ａに示すユーザ提示画面Ｇ１００を表示する。

図８Ａに示すユーザ提示画面Ｇ１００は、データ加工のための階層をユーザが選択する際に表示される初期画面であり、ユーザ提示情報表示欄Ｇ１１０と、決定ボタンＧ１２０とが含まれる。

図８Ａに示すユーザ提示画面Ｇ１００のユーザ提示情報表示欄Ｇ１１０では、選択階層が網掛けで表示されている。また、図８Ａに示すユーザ提示画面Ｇ１００のユーザ提示情報表示欄Ｇ１１０には、上記のステップＳ１０１で算出されたＮ毎のレコードの割合が、マスキング対象項目の階層を変化させた場合におけるＮ毎のレコードの割合として表示される。

図８Ａに示す例では、項目「住所」及び項目「年代」の選択階層は共に「第１階層」であり、この場合の各集合のレコード数はＮ＝１で、Ｎ＝１のレコードの割合は１００％（つまり、レコード数がＮ＝１の集合に属するレコードの割合は１００％）であることが表示されている。

また、このとき、項目「住所」のみを「第２階層」に上げた場合、レコード数がＮ＝２の集合に属するレコードの割合は４０％、レコード数がＮ＝１の集合に属するレコードの割合は６０％になることが表示されている。同様に、項目「住所」のみを「第３階層」に上げた場合、レコード数がＮ＝３の集合に属するレコードの割合は６０％、レコード数がＮ＝１の集合に属するレコードの割合は４０％になることが表示されている。同様に、項目「住所」のみを「第４階層」に上げた場合、レコード数がＮ＝３の集合に属するレコードの割合は６０％、レコード数がＮ＝１の集合に属するレコードの割合は４０％になることが表示されている。一方で、項目「年代」のみを「第２階層」以上に上げた場合、レコード数がＮ＝１の集合に属するレコードの割合は１００％のままであることが表示されている。

ユーザは、ユーザ提示情報表示欄Ｇ１１０に表示されているＮの値とその割合とを確認することで、どのマスキング対象項目の階層を上げればよいかを知ることができる。例えば、図８Ａに示す例の場合、項目「年代」の階層を上げてもＮの値とその割合とが変化しないため、匿名化の粒度を変化させることはできないと知ることができる。一方で、例えば、項目「住所」の階層を２つ上げることで、「Ｎ＝１：１００％」から「Ｎ＝３：６０％，Ｎ＝１：４０％」に変化させることができると知ることができる。なお、決定ボタンＧ１２０がユーザによって押下されることで、選択階層で対象データを構成する各レコードをデータ加工することができる。

以降では、ユーザは、項目「住所」の階層を「第３階層」にする選択操作を行ったものとして説明を続ける。なお、ユーザは、例えば、ユーザ提示情報表示欄Ｇ１１０において、所望のマスキング対象項目と所望の階層とが交差するセルを押下することで、所望のマスキング対象項目に対する階層の選択操作を行うことができる。

次に、ＵＩ提供部１０２は、マスキング対象項目に対する階層の選択操作を受け付ける（ステップＳ１０３）。上述したように、項目「住所」に対する「第３階層」の選択操作がユーザにより行われたものとして、ＵＩ提供部１０２は、この選択操作を受け付けたものとする。

次に、算出部１０１は、上記のステップＳ１０１と同様に、集合毎のレコード数Ｎと、Ｎ毎のレコードの割合とを算出する（ステップＳ１０４）。ここで、ステップＳ１０４では、算出部１０１は、各マスキング対象項目の選択階層での集合毎のレコード数Ｎ及びＮ毎のレコードの割合と、１つのマスキング対象項目のみ階層を上げた場合における集合毎のレコード数Ｎ及びＮ毎のレコードの割合とを算出する。

例えば、項目「住所」の階層として「第３階層」、項目「年代」の階層として「第１階層」が選択されている場合、算出部１０１は、以下の集合毎のレコード数Ｎ及びＮ毎のレコードの割合を算出する。

・項目「住所」の階層が「第３階層」、かつ、項目「年代」の階層が「第１階層」である場合における集合毎のレコード数Ｎ及びＮ毎のレコードの割合
・項目「住所」の階層が「第１階層」、かつ、項目「年代」の階層が「第１階層」である場合における集合毎のレコード数Ｎ及びＮ毎のレコードの割合
・項目「住所」の階層が「第２階層」、かつ、項目「年代」の階層が「第１階層」である場合における集合毎のレコード数Ｎ及びＮ毎のレコードの割合
・項目「住所」の階層が「第４階層」、かつ、項目「年代」の階層が「第１階層」である場合における集合毎のレコード数Ｎ及びＮ毎のレコードの割合
・項目「住所」の階層が「第３階層」、かつ、項目「年代」の階層が「第２階層」である場合における集合毎のレコード数Ｎ及びＮ毎のレコードの割合
・項目「住所」の階層が「第３階層」、かつ、項目「年代」の階層が「第３階層」である場合における集合毎のレコード数Ｎ及びＮ毎のレコードの割合
・項目「住所」の階層が「第３階層」、かつ、項目「年代」の階層が「第４階層」である場合における集合毎のレコード数Ｎ及びＮ毎のレコードの割合
このように、算出部１０１は、各マスキング対象項目のうちの１つのマスキング対象項目の階層のみを、選択階層から変化させた場合における集合毎のレコード数ＮとＮ毎のレコードの割合とをそれぞれ算出する。

次に、ＵＩ提供部１０２は、上記のステップＳ１０２で表示されたユーザ提示画面を更新して、上記のステップＳ１０４で算出されたＮ毎のレコードの割合が含まれるユーザ提示画面を表示する（ステップＳ１０５）。すなわち、ＵＩ提供部１０２は、例えば、図８Ａに示すユーザ提示画面Ｇ１００のユーザ提示情報表示欄Ｇ１１０を更新して、図８Ｂに示すユーザ提示画面Ｇ１００を表示する。

図８Ｂに示すユーザ提示画面Ｇ１００のユーザ提示情報表示欄Ｇ１１０では、選択階層が網掛けで表示されている。図８Ｂに示す例では、項目「住所」の選択階層は「第３階層」であり、項目「年代」の選択階層は「第１階層」である。

また、図８Ｂに示すユーザ提示画面Ｇ１００のユーザ提示情報表示欄Ｇ１１０には、上記のステップＳ１０４で算出されたＮ毎のレコードの割合が、マスキング対象項目の階層を変化させた場合におけるＮ毎のレコードの割合として表示される。

図８Ｂに示す例では、項目「住所」及び項目「年代」の選択階層において、レコード数がＮ＝３の集合に属するレコードの割合は６０％、レコード数がＮ＝１の集合に属するレコードの割合は４０％であることが表示されている。

また、このとき、項目「住所」のみを「第４階層」に上げた場合、レコード数がＮ＝３の集合に属するレコードの割合は６０％、レコード数がＮ＝１の集合に属するレコードの割合は４０％のままであることが表示されている。同様に、項目「住所」のみを「第２階層」に下げた場合、レコード数がＮ＝２の集合に属するレコードの割合は４０％、レコード数がＮ＝１の集合に属するレコードの割合は６０％になることが表示されている。同様に、項目「住所」のみを「第１階層」に上げた場合、レコード数がＮ＝１の集合に属するレコードの割合は１００％になることが表示されている。一方で、項目「年代」のみを「第２階層」以上に上げた場合、レコード数がＮ＝３の集合に属するレコードの割合は６０％、レコード数がＮ＝１の集合に属するレコードの割合は４０％のままであることが表示されている。

ユーザは、ユーザ提示情報表示欄Ｇ１１０に表示されているＮの値とその割合とを確認することで、どのマスキング対象項目の階層を上げればよいかを知ることができる。例えば、図８Ｂに示す例の場合、項目「年代」の階層を上げてもＮの値とその割合とが変化しないため、匿名化の粒度を変化させても、匿名化可能なレコード数を増やす（つまり、削除されるレコード数を減らす）ことはできないと知ることができる。したがって、図８Ｂに示す例の場合、ユーザは、項目「住所」の階層を１つ上げる操作を行うことが考えられる。

次に、ＵＩ提供部１０２は、マスキング対象項目の階層選択を終了するか否かを判定する（ステップＳ１０６）。ここで、ＵＩ提供部１０２は、例えば、ユーザによって決定ボタンＧ１２０が押下された場合に、マスキング対象項目の階層選択を終了すると判定すればよい。

ステップＳ１０６でマスキング対象項目の階層選択を終了すると判定されなかった場合、データ加工処理部１００は、ステップＳ１０３に戻る。これにより、マスキング対象項目の階層選択が終了するまで、上記のステップＳ１０３～ステップＳ１０５が繰り返し実行される。

例えば、図８Ｂに示すユーザ提示画面Ｇ１００において項目「住所」の階層として「第４階層」がユーザによって選択された場合、ＵＩ提供部１０２により、図８Ｃに示すユーザ提示画面Ｇ１００が表示される。図８Ｃに示すユーザ提示画面Ｇ１００では、項目「住所」の選択階層として「第４階層」が、項目「年代」の選択階層として「第１階層」が選択されている。ユーザは、図８Ｃに示すユーザ提示画面Ｇ１００のユーザ提示情報表示欄Ｇ１１０に表示されているＮの値とその割合とを確認することで、例えば、項目「年代」の階層を「第３階層」まで上げることで、ｋ－匿名性を確保しつつ（つまり、レコードの削除数を最低限に抑えたまま）、匿名化の粒度を最も細かくすることができると知ることができる。

例えば、図８Ｃに示すユーザ提示画面Ｇ１００において項目「年代」の階層として「第３階層」がユーザによって選択された場合、ＵＩ提供部１０２により、図８Ｄに示すユーザ提示画面Ｇ１００が表示される。図８Ｄに示すユーザ提示画面Ｇ１００では、項目「住所」の選択階層として「第４階層」が、項目「年代」の選択階層として「第３階層」が選択されている。ユーザは、図８Ｄに示すユーザ提示画面Ｇ１００のユーザ提示情報表示欄Ｇ１１０に表示されているＮの値とその割合とを確認することで、例えば、項目「住所」及び項目「年代」の選択階層にて、ｋ－匿名性を確保しつつ（つまり、レコードの削除数を最低限に抑えたまま）、匿名化の粒度を最も細かくすることができると知ることができる。

このように、ユーザは、ユーザ提示情報表示欄Ｇ１１０に表示されているＮの値とその割合とを確認することで、Ｎ毎のレコードの割合を確認することができるため、Ｎがｋ以上となるレコードの割合を知ることができる。これにより、ユーザは、例えば、各マスキング対象項目の階層をできるだけ低くしつつ、Ｎがｋ以上となるレコードの割合が高くなるようにすることで、ｋ－匿名性を確保しつつ、可能な限り細かい粒度で多くのレコードを匿名化することが可能となる。すなわち、ユーザは、Ｎの値とその割合とを確認することで、適切な匿名化粒度を決定することができるようになる。

一方、ステップＳ１０６でマスキング対象項目の階層選択を終了すると判定された場合、データ加工部１０３は、同一集合に属するレコード数Ｎがｋ未満のレコードを削除すると共に、Ｎがｋ以上である各レコードを同一集合内で統計加工する（ステップＳ１０７）。これにより、ｋ－匿名性を有するレコードが作成され、これらのレコードで構成される統計加工後データが得られる。なお、統計加工の処理内容については、対象データの種類（又は対象データの基となったデータの種類）によって異なる。例えば、対象データの基となったデータが購買データである場合、統計加工の処理としては、金額の合計の算出、購入個数の合計の算出、購入者数の合計の算出、不要な項目（例えば、性別等）の削除等が挙げられる。

上記のステップＳ１０７で作成された統計加工後データは、データ加工処理部１００により、データ分析装置２０に送信される。そして、データ分析装置２０のデータ分析処理部３００は、受信した統計加工後データをマスタデータ記憶部４００に記憶する。これにより、マスタデータ記憶部４００にはマスタデータが蓄積され、データ分析処理部３００は、これらのマスタデータを所定の目的に応じて分析することが可能となる。

なお、本実施例では、図８Ａ～図８Ｄに示すように、ユーザ提示画面Ｇ１００を遷移させたが、ユーザによる階層選択を戻す（取り消す）ことで、画面遷移を戻すことができてもよい。例えば、図８Ｂに示すユーザ提示画面Ｇ１００から図８Ａに示すユーザ提示画面Ｇ１００に戻ることができてもよい。この場合、例えば、画面遷移を戻るための「戻る」ボタンやリンク等がユーザ提示画面Ｇ１００に含まれており、ユーザが「戻る」ボタンやリンク等を押下することで、画面遷移を戻すことができてもよい。

また、画面遷移が戻った場合にはＮ毎のレコードの割合が算出部１０１によって再度算出されてもよいが、例えば、画面遷移を戻す場合のために補助記憶装置１８等に予め履歴としてＮ毎のレコードの割合を記憶させておき、画面遷移が戻った場合には、履歴として記憶されているＮ毎のレコードの割合を用いてもよい。同様に、例えば、過去に選択されたことがある階層が再度選択された場合にも、履歴として記憶されているＮ毎のレコードの割合が用いられてもよい。

適切な匿名化粒度を決定するために、ユーザは、ＵＩ上で選択階層を頻繁に変更しながら試行錯誤を行うことが予想される。このため、上記のように履歴として記憶されている情報を用いることで、選択階層の変更や画面遷移の際の処理時間を短縮させることが可能となる。このような処理時間の短縮は、対象データの規模が大きくなるほど（つまり、対象データを構成するレコード数が多くなるほど）顕著になる。

（ユーザ提示情報の他の表示例）
本実施例では、ユーザ提示情報表示欄Ｇ１１０にてＮ毎のレコードの割合を表示する例を示したが、これ以外にも種々の表示方法にてＮ毎のレコードの割合が表示されてもよい。

例えば、図９Ａに示すように、円グラフにてＮ毎のレコードの割合が表示されてもよい。図９Ａに示す例では、Ｎ＝１であるレコードの割合は６８％、Ｎ＝２であるレコードの割合は１４％、Ｎ＝３であるレコードの割合は６％、Ｎ＝４であるレコードの割合は３％、Ｎ＝５であるレコードの割合は２％等と円グラフで表示されている。また、図９Ａに示す例では、Ｎ＝１であるレコード数は１４３３４件、Ｎ＝２であるレコード数は２９５９件等と、Ｎ毎のレコード数も表示されている。

また、例えば、図９Ｂに示すように、棒グラフにてＮ毎のレコード数が表示されてもよい。図９Ｂに示す例では、Ｎ＝１であるレコード数は１４件、Ｎ＝２であるレコード数は９件、Ｎ＝３であるレコード数は４件、Ｎ＝４であるレコード数は３件、Ｎ≧５であるレコード数は２件と棒グラフで表示されている。

なお、上記の図９Ａ及び図９Ｂ以外にも、例えば、積み上げ棒グラフや折れ線グラフ等の種々のグラフにてＮ毎のレコードの割合（又はＮ毎のレコード数）が表示されてもよい。

また、Ｎ毎のレコードの割合が表示される代わりに、例えば、Ｎがｋ以上のレコードの割合と、Ｎがｋ未満のレコードの割合とが表示されてもよい。これにより、ユーザは、削除されるレコード（つまり、Ｎがｋ未満のレコード）の割合を容易に把握することができるようになる。

［実施例２］
次に、実施例２として、データ提供端末１０で対象データを統計加工によって匿名化する際に、自動的に適切な匿名化粒度を決定する場合について説明する。なお、実施例２では、実施例１と同一の構成要素についてはその説明を省略する。

（データ加工処理部１００の機能構成）
まず、実施例２におけるデータ加工処理部１００の機能構成について、図１０を参照しながら説明する。図１０は、本発明の実施の形態におけるデータ加工処理部１００の機能構成の一例を示す図（実施例２）である。

図１０に示すように、実施例２におけるデータ加工処理部１００には、算出部１０１と、データ加工部１０３と、選択部１０４と、終了条件判定部１０５とが含まれる。また、実施例２におけるデータ加工処理部１００には、ＵＩ提供部１０２が含まれていてもよいし、ＵＩ提供部１０２が含まれていなくてもよい。

選択部１０４は、算出部１０１による算出結果と、マスキング対象項目の優先度とに基づいて、各マスキング対象項目の階層を選択する。ここで、マスキング対象項目の優先度とは、階層を上げるマスキング対象項目を選択するための値である。選択部１０４は、例えば、優先度が低いマスキング対象項目の階層を上げるように、各マスキング対象項目の階層を選択する。なお、優先度としては、ユーザによって設定された数値等が用いられてもよいし、任意の方法によって算出された各種スコアが用いられてもよい。各種スコアとしては、例えば、後述するクロス率や損失率、集約率、分離率、カバー率等を用いることができる。また、複数のスコアを用いる場合には、スコア間の優先度が設定されてもよいし、スコアの和や重み付き和が用いられてもよい。

なお、スコアの種類によっては、スコアの値が高いほど良い場合とスコアの値が低いほど良い場合とがある。複数のスコアを用いる場合に、このようなスコアが混在している場合には、適宜、逆数をとったり、負数をとったりすればよい。

終了条件判定部１０５は、所定の終了条件を満たしたか否かを判定する。終了条件とは、算出部１０１による算出と、選択部１０４による階層選択との繰り返しを終了させるための条件のことである。したがって、この終了条件を満たすまで、算出部１０１による算出と、選択部１０４による階層選択とが繰り返し実行される。

（データ加工処理）
次に、データ提供端末１０で対象データを統計加工して、匿名化（ｋ－匿名化）するデータ加工処理について、図１１を参照しながら説明する。図１１は、本発明の実施の形態におけるデータ加工処理の一例を示すフローチャート（実施例２）である。

まず、算出部１０１は、図７のステップＳ１０１と同様に、予め設定されたマスキング対象項目と、分類辞書記憶部２００に記憶されている分類辞書と、各マスキング対象項目の階層と、対象データを構成するレコード数とに基づいて、対象データを構成する各レコードを分類した場合に、同一集合に属するレコードの数Ｎと、Ｎ毎のレコードの割合とを算出する（ステップＳ２０１）。なお、上述したように、算出部１０１は、各マスキング対象項目は「第１階層」が選択されているものとして、同一集合に属するレコードの数Ｎと、Ｎ毎のレコードの割合とを算出する。

次に、選択部１０４は、算出部１０１による算出結果と、マスキング対象項目の優先度とに基づいて、各マスキング対象項目の階層を選択する（ステップＳ２０２）。ここで、選択部１０４は、以下の（選択条件１）及び（選択条件２）により各マスキング対象項目の階層を選択する。

（選択条件１）階層を１つ上げることでＮがｋ以上のレコードの割合が向上するマスキング対象項目が存在する場合には、当該マスキング対象項目の１つ上の階層を選択する。ここで、Ｎ毎のレコードの割合が向上するとは、階層を１つ上げることで、Ｎの値が大きくなり、かつ、当該Ｎのレコードの割合が大きくなることを意味する。

（選択条件２）階層を１つ上げることでＮ毎のレコードの割合が向上するマスキング対象項目が存在しない場合には、最も優先度が低いマスキング対象項目の１つ上の階層を選択する。

なお、上記の（選択条件１）及び（選択条件２）は一例であって、選択部１０４は、他の方法により各マスキング対象項目の階層を選択してもよい。例えば、選択部１０４は、マスキング対象項目の階層を１つ上げることでＮ毎のレコードの割合が向上する度合いと、当該マスキング対象項目の優先度との和や積、重み付き積等により、どのマスキング対象項目の階層を１つ上げるかを選択してもよい。

次に、算出部１０１は、上記のステップＳ２０１と同様に、集合毎のレコード数Ｎと、Ｎ毎のレコードの割合とを算出する（ステップＳ２０３）。なお、上述したように、算出部１０１は、各マスキング対象項目の選択階層での集合毎のレコード数Ｎ及びＮ毎のレコードの割合と、１つのマスキング対象項目のみ階層を上げた場合における集合毎のレコード数Ｎ及びＮ毎のレコードの割合とを算出する。

次に、終了条件判定部１０５は、所定の終了条件を満たしたか否かを判定する（ステップＳ２０４）。ここで、終了条件としては、例えば、以下の（終了条件１）～（終了条件３）のいずれかが挙げられる。

（終了条件１）対象データを構成する全てのレコードのＮがｋ以上となる。

（終了条件２）後述するステップＳ２０５でデータ加工部１０３によって削除されるレコードが所定の割合（又は所定の件数）以下となる。これは、言い換えれば、Ｎがｋ未満であるレコードが所定の割合（又は所定の件数）以下であることを意味する。

（終了条件３）各マスキング対象項目の階層が、予め設定された上限の階層となる。例えば、項目「住所」の階層は上限が「第３階層」、項目「年代」の階層は上限が「第２階層」と設定されている場合に、項目「住所」の階層が「第３階層」となり、かつ、項目「年代」の階層が「第２階層」となったときである。

なお、上記以外にも、例えば、終了条件として、繰り返し回数が所定の回数に達したこと等が用いられてもよい。又は、例えば、ユーザによって設定された任意の終了条件が用いられてもよい。

ステップＳ２０４で終了条件を満たすと判定されなかった場合、データ加工処理部１００は、ステップＳ２０２に戻る。これにより、終了条件を満たすまで、上記のステップＳ２０２～ステップＳ２０３が繰り返し実行される。なお、例えば、ＵＩ提供部１０２は、適宜、ユーザ提示画面を表示して、マスキング対象項目の階層をユーザに選択させるようにしてもよい。

一方、ステップＳ２０４で終了条件を満たすと判定された場合、データ加工部１０３は、図７のステップＳ１０７と同様に、同一集合に属するレコード数Ｎがｋ未満のレコードを削除すると共に、Ｎがｋ以上である各レコードを同一集合内で統計加工する（ステップＳ２０５）。これにより、ｋ－匿名性を有するレコードが作成され、これらのレコードで構成される統計加工後データが得られる。

このように、実施例２では、各マスキング対象項目の階層が自動的に選択されることで、ｋ－匿名性を確保しつつ、可能な限り細かい粒度で多くのレコードを匿名化することが可能となる。しかも、実施例２では、ユーザは、マスキング対象項目の階層を選択する必要がないため、対象データを構成する各レコードの匿名化を容易に行うことが可能となる。

［実施例３］
次に、実施例３として、実施例１と同様のデータ加工を行う際に、指標値の１つであるクロス率を算出した上で、ユーザに提示する場合について説明する。クロス率とは、２以上のデータ集合間で、同一項目で同一情報（つまり、同一項目値）を有するデータ数を表す指標値のことであり、２つ以上の集合間の共通度を表す。本実施例では、対象データを構成する各レコード（第１のレコード集合）と、マスタデータ記憶部４００に記憶されているマスタデータを構成する各レコード（第２のレコード集合）との間で、同一項目で同一情報（つまり、同一項目値）を有するレコード数を表す指標値としてクロス率を定義する。クロス率をユーザに提示することで、例えば、当該ユーザは、統計加工後データ（マスタデータ）がクロス分析に用いられることも考慮して、マスキング対象項目の階層を選択することが可能となる。

ここで、クロス分析を行う際には、第１のレコード集合と第２のレコード集合との間で、分析対象項目における同一項目の項目値の粒度（つまり、当該項目の階層）を揃える必要がある。このため、例えば、対象データを匿名化する際にレコード数を犠牲にして細かい粒度で匿名化を行ったとしても、マスタデータを構成する各レコードの粒度が粗い場合には、匿名化後の対象データを構成する各レコードの粒度を、マスタデータを構成する各レコードの粒度に揃える必要がある。なお、分析対象項目とは、クロス分析で分析の対象とする項目のことである。

また、クロス分析の分析対象項目間で、同一項目で共通する項目値（後述する共通値）が或る程度存在していないと、有用なクロス分析を行うことができない。このため、或る程度の共通値が生じるように、粒度を調整する必要がある。例えば、或る２つの会社（Ａ社及びＢ社）間でチョコレートの購買金額比率を比較したい場合には、Ａ社の購買データと、Ｂ社の購買データとの間で、例えば、同一項目「商品種別」で共通する項目値「チョコレート」が含まれるレコードが存在する必要がある。

なお、実施例３では、実施例１と同一の構成要素についてはその説明を省略する。

（データ加工処理部１００の機能構成）
まず、実施例３におけるデータ加工処理部１００の機能構成について、図１２を参照しながら説明する。図１２は、本発明の実施の形態におけるデータ加工処理部１００の機能構成の一例を示す図（実施例３）である。

図１２に示すように、実施例３におけるデータ加工処理部１００には、算出部１０１と、ＵＩ提供部１０２と、データ加工部１０３と、マスタデータ取得部１０６とが含まれる。

マスタデータ取得部１０６は、データ分析装置２０のマスタデータ記憶部４００に記憶されているマスタデータを取得する。マスタデータ取得部１０６は、例えば、マスタデータの取得要求をデータ分析装置２０に送信して、この取得要求の応答として、マスタデータを取得することができる。

また、実施例３における算出部１０１は、更に、マスタデータ取得部１０６により取得されたマスタデータと、対象データとに基づいて、指標値の１つであるクロス率を算出する。

（データ加工処理）
次に、データ提供端末１０で対象データを統計加工して、匿名化（ｋ－匿名化）する際に、クロス率もユーザに提示する場合のデータ加工処理について、図１３を参照しながら説明する。図１３は、本発明の実施の形態におけるデータ加工処理の一例を示すフローチャート（実施例３）である。

まず、マスタデータ取得部１０６は、データ分析装置２０のマスタデータ記憶部４００に記憶されているマスタデータを取得する（ステップＳ３０１）。ここで、マスタデータ取得部１０６は、マスタデータを構成する全てのレコードを取得してもよいし、マスタデータを構成する各レコードのうち、所定の条件を満たすレコードのみを取得してもよい、所定の条件としては、例えば、「マスキング対象項目を全て含むレコード」等が挙げられる。

また、マスタデータ取得部１０６により取得されたマスタデータを構成する各レコードのうち、対象データを構成する各レコードとの間で共通の項目が１つも含まれないレコードは、当該マスタデータから削除される。このような削除は、マスタデータ取得部１０６によって行われてもよいし、算出部１０１によって行われてもよい。

次に、算出部１０１は、予め設定されたマスキング対象項目と、分類辞書記憶部２００に記憶されている分類辞書と、各マスキング対象項目の階層と、対象データを構成するレコード数とに基づいて、対象データを構成する各レコードを分類した場合に同一集合に属するレコードの数Ｎ（つまり、集合毎のレコード数Ｎ）と、Ｎ毎のレコードの割合と、クロス率とを算出する（ステップＳ３０２）。なお、集合毎のレコード数Ｎ及びＮ毎のレコードの割合は実施例１と同様である。また、クロス率についても、各マスキング対象項目は「第１階層」が選択されているものとして、クロス率を算出する。クロス率の算出方法については後述する。

次に、ＵＩ提供部１０２は、上記のステップＳ３０２で算出されたＮ毎のレコードの割合とクロス率とが含まれるユーザ提示画面を表示する（ステップＳ３０３）。すなわち、ＵＩ提供部１０２は、例えば、図１４に示すユーザ提示画面Ｇ１００を表示する。

図１４に示すユーザ提示画面Ｇ１００のユーザ提示情報表示欄Ｇ１１０には、Ｎ毎のレコードの割合に加えて、マスキング対象項目の階層を変化させた場合におけるクロス率が表示されている。ユーザは、ユーザ提示情報表示欄Ｇ１１０に表示されているクロス率も確認することで、クロス分析を考慮した場合に、どのマスキング対象項目の階層を上げればよいかを知ることもできる。

次に、ＵＩ提供部１０２は、マスキング対象項目に対する階層の選択操作を受け付ける（ステップＳ３０４）。

次に、算出部１０１は、上記のステップＳ３０２と同様に、集合毎のレコード数Ｎと、Ｎ毎のレコードの割合と、クロス率とを算出する（ステップＳ３０５）。ここで、ステップＳ３０５では、算出部１０１は、各マスキング対象項目の選択階層での集合毎のレコード数Ｎ、Ｎ毎のレコードの割合及びクロス率と、１つのマスキング対象項目のみ階層を上げた場合における集合毎のレコード数Ｎ、Ｎ毎のレコードの割合及びクロス率とを算出する。なお、クロス率の算出方法については後述する。

次に、ＵＩ提供部１０２は、ユーザ提示画面を更新して、上記のステップＳ３０５で算出されたＮ毎のレコードの割合とクロス率とが含まれるユーザ提示画面を表示する（ステップＳ３０６）。

次に、ＵＩ提供部１０２は、図７のステップＳ１０６と同様に、マスキング対象項目の階層選択を終了するか否かを判定する（ステップＳ３０７）。

ステップＳ３０７でマスキング対象項目の階層選択を終了すると判定されなかった場合、データ加工処理部１００は、ステップＳ３０４に戻る。これにより、マスキング対象項目の階層選択が終了するまで、上記のステップＳ３０４～ステップＳ３０６が繰り返し実行される。

一方、ステップＳ３０６でマスキング対象項目の階層選択を終了すると判定された場合、データ加工部１０３は、図７のステップＳ１０７と同様に、同一集合に属するレコード数Ｎがｋ未満のレコードを削除すると共に、Ｎがｋ以上である各レコードを同一集合内で統計加工する（ステップＳ３０８）。これにより、ｋ－匿名性を有するレコードが作成され、これらのレコードで構成される統計加工後データが得られる。

（クロス率の算出方法）
ここで、上記のステップＳ３０２及びステップＳ３０５におけるクロス率の算出方法について説明する。以降では、単に「マスタデータ」と記載した場合には、マスタデータ取得部１０６により取得されたマスタデータを構成する各レコードのうち、対象データを構成する各レコードとの間で共通の項目が１つも含まれないレコードを削除したデータを指すものとする。

なお、クロス分析では、２つの分析対象項目を設定する必要がある。例えば、分析対象項目を「業種」及び「商品種別」と設定する等である。この場合、クロス分析では、例えば、同じ商品種別の商品が、複数の業種の業者から購入されていることが確認可能となるまで分析対象項目の項目値が抽象化されている必要がある。このため、対象データをクロス分析に用いる場合には、対象データのマスクキング対象項目の階層が低い（つまり、中抽象度が低い）方が良いとは必ずしも限らず、クロス率が低い場合には階層を高く（つまり、抽象度を高く）した方が良いこともある。

一般に、クロス分析の分析対象項目の設定する際には、以下の２つのパターンが考えられる。

（パターン１）１つのデータ（対象データ、マスタデータ、又は対象データとマスタデータとを統合したデータ）内に分析対象項目が２つとも存在する場合
例えば、分析対象項目が「業種」及び「商品種別」であるとして、１つのデータを構成する各レコードには項目「業種」と項目「商品種別」とが含まれる場合である。

（パターン２）分析対象項目の１つがデータ（対象データ、マスタデータ）で決まる場合
例えば、分析対象項目が「業種」及び「商品種別」であるとして、対象データが「Ａ社の購買データ」、マスタデータが「Ｂ社の購買データ」であり、対象データ及びマスタデータをそれぞれ構成する各レコードには項目「商品種別」が含まれる場合である。なお、この場合は、例えば、対象データを構成する各レコードに対して項目「業種」及び項目値「Ａ社」を追加すると共に、マスタデータを構成する各レコードに対して項目「業種」及び項目値「Ｂ社」を追加することで、パターン１と同様に扱うことが可能となる。

・クロス率の算出方法（その１）
一例として、図１５に示す対象データ及びマスタデータを用いて、クロス率の算出方法（その１）を説明する。図１５に示す対象データ及びマスタデータをそれぞれ構成する各レコードには項目「商品種別」が共通に含まれており、この項目「商品種別」がマスキング対象項目であるものとする。すなわち、１つの分析対象項目が「商品種別」、もう１つの分析対象項目が対象データ及びマスタデータで決まる場合（上記のパターン２）のクロス率の算出方法を説明する。以降では、対象データを構成する各レコードと、マスタデータを構成する各レコードとの間で共通に含まれるマスキング対象項目を「共通項目」と表す。また、対象データを構成する各レコードと、マスタデータを構成する各レコードとの間で、共通項目中の同一情報（同一項目値）を「共通値」と表す。図１５に示す例では、共通項目「商品種別」中の共通項目値は、「チョコレート」及び「飴」である。

クロス率の算出方法（その１）では、以下の（式１）によりクロス率を算出する。

クロス率＝（該当の階層における共通値の個数）／（該当の階層における対象データの共通項目中で異なる情報（項目値）の個数）×１００・・・（式１）
例えば、図１５に示す対象データ及びマスタデータが既に該当の階層でマスキング済みであるとすれば、上記の（式１）に示す定義の分数部分の分子については、共通値は「チョコレート」及び「飴」であるため、「２」となる。一方で、分母については、対象データの共通項目中で異なる項目値は「チョコレート」、「飴」及び「扇風機」であるため、「３」となる。したがって、上記の（式１）に示す定義では、クロス率＝２／３×１００＝約６６（％）と算出される。

なお、上記の（式１）に示す定義の分数部分の分母は、「該当の階層におけるマスタデータの共通項目中で異なる情報（項目値）の個数」としてもよいし、「該当の階層における対象データ及びマスタデータの和集合で表されるデータの共通項目中で異なる情報（項目値）の個数」としてもよい。なお、該当の階層における対象データ及びマスタデータの和集合で表されるデータとは、該当の階層で、対象データ及びマスタデータをマージすることで得られるデータのことである。

また、上記の（式１）に示す定義の代わりに、以下の（式２）に示す定義によりクロス率が算出されてもよい。

クロス率＝（該当の階層における対象データで共通値を持つレコード数）／（対象データのレコード数）×１００・・・（式２）
この場合、上記の（式２）に示す定義の分数部分の分子については「３」、分母部分については「４」であるため、クロス率＝３／４×１００＝７５（％）と算出される。

更に、上記の（式２）に示す定義の代わりに、以下の（式３）又は（式４）を用いてクロス率が算出されてもよい。

クロス率＝（該当の階層におけるマスタデータで共通値を持つレコード数）／（マスタデータのレコード数）×１００・・・（式３）
この場合、上記の（式３）に示す定義の分数部分の分子については「３」、分母部分については「５」であるため、クロス率＝３／５×１００＝６０（％）と算出される。

クロス率＝（該当の階層における対象データ及びマスタデータの和集合で表されるデータで共通値を持つレコード数）／（該当の階層における対象データ及びマスタデータの和集合で表されるデータのレコード数）×１００・・・（式４）
この場合、上記の（式４）に示す定義の分数部分の分子については「７」、分母部分については「９」であるため、クロス率＝７／９×１００≒７７（％）と算出される。

・クロス率の算出方法（その２）
一例として、図１６に示す対象データ及びマスタデータを用いて、クロス率の算出方法（その２）を説明する。図１６に示す対象データ及びマスタデータをそれぞれ構成する各レコードには、共通項目「商品種別」と「業種」とが含まれている。すなわち、２つの分析対象項目「商品種別」及び「業種」が対象データ及びマスタデータに含まれる場合（上記のパターン１）のクロス率の算出方法を説明する。なお、これらの項目「商品種別」及び「業種」はマスキング対象項目である。

このとき、図１６に示すように、算出部１０１は、該当の階層において、対象データとマスタデータとを或る共通項目で集計処理して、集計データを作成する。図１６に示す例では、共通項目「商品種別」で集計処理して、集計データを作成した場合を示している。なお、ヒット数とは、対象データ及びマスタデータで、同一商品種別であるレコード数の合計である。

そして、クロス率の算出方法（その２）では、以下の（式５）又は（式６）によりクロス率を算出する。

クロス率＝（集計データにおいて、特定の項目の項目値が所定の値以上のレコード数）／（集計データを構成するレコード数）×１００・・・（式５）
クロス率＝（集計データにおいて、特定の項目の項目値が所定の値以上のヒット数の合計）／（集計データを構成する各レコードのヒット数の合計）×１００・・・（式６）
例えば、特定の項目を「業種数」、所定の値を「３」とした場合、上記の（式５）に示す定義では、クロス率＝１／３×１００≒３３（％）と算出される。一方で、上記の（式６）に示す定義では、クロス率＝４／８×１００＝５０（％）と算出される。なお、集計データを構成する各レコードの項目のうちのどの項目を特定の項目とするかは、例えば、ユーザ等によって予め設定される。同様に、所定の値についても、例えば、ユーザ等によって予め設定される。

（クロス率の他の算出方法）
ここで、統計加工によってＮがｋ未満のレコードは対象データから削除されるため、統計加工の前後でクロス率が変わる可能性がある。このため、統計加工後のクロス率（つまり、統計加工後データをデータ分析装置２０に送信（アップロード）した後のクロス率）を確認したい場合もある。

そこで、統計加工後のクロス率の算出方法として、以下の（式７）又は（式８）のいずれかが用いられてもよい。なお、以降では、該当の階層において、対象データを構成する各レコードのうち、Ｎがｋ以上のレコード（すなわち、Ｎがｋ未満のレコードを除外した対象データ）と、マスタデータを構成する各レコードとを或る共通項目で集計処理して作成された集計データを「除外集計データ」と表す。

クロス率＝（除外集計データにおいて、特定の項目の項目値が所定の値以上のレコード数）／（除外集計データを構成するレコード数）×１００・・・（式７）
クロス率＝（除外集計データにおいて、特定の項目の項目値が所定の値以上のレコードのヒット数）／（除外集計データを構成する各レコードのヒット数の合計）×１００・・・（式８）

また、マスタデータを考慮せずに、クロス率が算出されてもよい。この場合は、クロス率の他の算出方法として、以下の（式９）又は（式１０）のいずれかが用いられてもよい。

クロス率＝（該当の階層における対象データにおいて、特定の項目の項目値が所定の値以上のレコード数）／（該当の階層における対象データを構成するレコード数）×１００・・・（式９）
クロス率＝（該当の階層における対象データにおいて、特定の項目の項目値が所定の値以上の項目値の個数）／（該当の階層における対象データにおいて、特定の項目の項目値の個数）×１００・・・（式１０）

（他の指標値）
ここで、本実施例において、クロス率に代えて又はクロス率と共に、指標値の１つとして損失率が用いられてもよい。ユーザは、例えば、ユーザ提示画面に表示された損失率を確認することで、損失率も考慮して、マスキング対象項目の階層を選択することができるようになる。損失率とは、対象データとマスタデータとを統合した後に行う分析（例えば、クロス分析）において、削除されるレコード又はカテゴリの粒度が合わないために使用できないレコードの割合を表す指標値のことである。

・マスタデータの損失率
マスタデータの損失率とは、マスタデータを構成するレコードのうち、クロス率の算出に用いることができないレコードの割合のことである。マスタデータの損失率は、マスキング対象項目毎に、以下の（式１１）により算出される。

マスタデータの損失率＝（マスタデータを構成する各レコードのうち、対象データを構成する各レコードとの間で共通の項目値が１つも含まれないレコードの数）／（マスタデータを構成するレコード数）×１００・・・（式１１）

なお、前記した「クロス率の算出に用いることができないレコード」は、「マスタデータの項目値の粒度が対象データの項目値の粒度と合わないために、クロス分析に用いることができないレコード」でもある。例えば、マスタデータの項目「住所」が第３階層の粒度であるレコードが８０％、第４階層であるレコードが２０％であり、対象データの項目「住所」を第３階層で匿名化した上で、マスタデータと、匿名化後の対象データとを統合したデータを用いた分析（クロス分析等）を行う場合を考える。このとき、マスタデータに由来する２０％のレコードは第４階層の情報しか持たない。よって、統合後のデータの「住所」の第３階層の情報を用いた分析において、前記した２０％のレコードは分析に用いることができない。

・対象データの損失率
対象データの損失率とは、対象データを構成するレコードのうち、データ加工によって削除されるレコードの割合のことである。対象データの損失率は、以下の（式１２）又は（式１３）により算出される。

対象データの損失率＝（該当の階層において、対象データを構成する各レコードのうち、Ｎがｋ未満であるレコードの数）／（対象データを構成するレコード数）×１００・・・（式１２）
対象データの損失率＝（該当の階層において、対象データを構成する各レコードの該当のマスキング対象項目の項目値のうち、Ｎがｋ未満のレコードの当該項目値の個数）／（該当の階層において、対象データを構成する各レコードの該当のマスキング対象項目の項目値の個数）×１００・・・（式１３）

本実施例により指標値を算出することで、対象データだけではなく、統計加工後データをデータ分析装置２０に送信（アップロード）した後の分析も考慮した指標値をユーザに提示することが可能となる。これにより、ユーザは、例えば、最終的な分析（例えば、クロス分析）の際に使用することができないレコード数を最低限に抑えたり、階層を可能な限り低く保ったりしながら、対象データの匿名化を行うことが可能となる。

［実施例４］
次に、実施例４として、データ提供端末１０で対象データを統計加工によって匿名化する際に、指標値の１つであるクロス率を算出すると共に自動的に適切な匿名化粒度を決定する場合について説明する。なお、実施例４では、実施例２や実施例３と同一の構成要素についてはその説明を省略する。

（データ加工処理部１００の機能構成）
まず、実施例４におけるデータ加工処理部１００の機能構成について、図１７を参照しながら説明する。図１７は、本発明の実施の形態におけるデータ加工処理部１００の機能構成の一例を示す図（実施例４）である。

図１７に示すように、実施例４におけるデータ加工処理部１００には、算出部１０１と、データ加工部１０３と、選択部１０４と、終了条件判定部１０５と、マスタデータ取得部１０６とが含まれる。また、実施例４におけるデータ加工処理部１００には、ＵＩ提供部１０２が含まれていてもよいし、ＵＩ提供部１０２が含まれていなくてもよい。なお、これら各部の機能は実施例２や実施例３と同様であるため、その説明を省略する。ただし、実施例４における選択部は、更に、クロス率等の指標値にも基づいて、各マスキング対象項目の階層を選択する。

（データ加工処理）
次に、データ提供端末１０で対象データを統計加工して、匿名化（ｋ－匿名化）する際に、クロス率も算出するデータ加工処理について、図１８を参照しながら説明する。図１８は、本発明の実施の形態におけるデータ加工処理の一例を示すフローチャート（実施例４）である。

まず、マスタデータ取得部１０６は、図１３のステップＳ３０１と同様に、データ分析装置２０のマスタデータ記憶部４００に記憶されているマスタデータを取得する（ステップＳ４０１）。

次に、算出部１０１は、図１３のステップＳ３０２と同様に、予め設定されたマスキング対象項目と、分類辞書記憶部２００に記憶されている分類辞書と、各マスキング対象項目の階層と、対象データを構成するレコード数とに基づいて、対象データを構成する各レコードを分類した場合に同一集合に属するレコードの数Ｎ（つまり、集合毎のレコード数Ｎ）と、Ｎ毎のレコードの割合と、クロス率とを算出する（ステップＳ４０２）。

次に、選択部１０４は、算出部１０１による算出結果と、マスキング対象項目の優先度と、クロス率等の指標値とに基づいて、各マスキング対象項目の階層を選択する（ステップＳ４０３）。ここで、選択部１０４は、例えば、図１１のステップＳ２０２における（選択条件１）及び（選択条件２）に代えて、以下の（選択条件１´）及び（選択条件２´）により各マスキング対象項目の階層を選択すればよい。

（選択条件１´）階層を１つ上げることでＮ毎のレコードの割合が向上し、かつ、クロス率も高くなるマスキング対象項目が存在する場合には、当該マスキング対象項目の１つ上の階層を選択する。

（選択条件２´）階層を１つ上げることでＮ毎のレコードの割合が向上し、かつ、クロス率も高くなるマスキング対象項目が存在しない場合には、最も優先度が低いマスキング対象項目の１つ上の階層を選択する。

次に、算出部１０１は、図１３のステップＳ３０５と同様に、集合毎のレコード数Ｎと、Ｎ毎のレコードの割合と、クロス率とを算出する（ステップＳ４０４）。

次に、終了条件判定部１０５は、図１１のステップＳ２０４と同様に、所定の終了条件を満たしたか否かを判定する（ステップＳ４０５）。

ステップＳ４０５で終了条件を満たすと判定されなかった場合、データ加工処理部１００は、ステップＳ４０３に戻る。これにより、終了条件を満たすまで、上記のステップＳ４０３～ステップＳ４０４が繰り返し実行される。なお、例えば、ＵＩ提供部１０２は、適宜、ユーザ提示画面を表示して、マスキング対象項目の階層をユーザに選択させるようにしてもよい。

一方、ステップＳ４０５で終了条件を満たすと判定された場合、データ加工部１０３は、図１３のステップＳ３０８と同様に、同一集合に属するレコード数Ｎがｋ未満のレコードを削除すると共に、Ｎがｋ以上である各レコードを同一集合内で統計加工する（ステップＳ４０６）。これにより、ｋ－匿名性を有するレコードが作成され、これらのレコードで構成される統計加工後データが得られる。

なお、本実施例でも、実施例３と同様に、クロス率に代えて又はクロス率と共に、指標値の１つとして損失率が算出されてもよい。損失率が算出された場合には、上記のステップＳ４０３では、選択部１０４は、損失率にも基づいて、各マスキング対象項目の階層を選択する。

［実施例５］
次に、実施例５として、対象データとマスタデータの全部又は一部とをマージしたデータをデータ加工する場合について説明する。ここで、例えば、比較的小規模な小売店等の商業施設では十分なレコード数の対象データを準備することができない場合がある。レコード数が少ない場合には、マスキング対象項目の階層を高くしないとＮがｋ未満となるレコード数が多くなってしまう。したがって、マスキング対象項目の階層を比較的低くした場合には、対象データ中の多くのレコードが削除され、統計加工後データに含まれるレコードが少なくなってしまい、データ分析の精度（正確さ）が低下してしまう。一方で、マスキング対象項目の階層を比較的高くした場合には、統計加工後データには多くのレコードを残すことができるものの、マスキング対象項目の情報の抽象度が上がってしまい、データ分析の精度（詳細さ）が低下してしまう。

そこで、実施例５では、対象データとマスタデータの全部又は一部とをマージしたデータをデータ加工することで、対象データ中のレコード数が少ない場合であっても、削除されるレコード数を減らすことでデータ分析の精度（正確さ及び詳細さ）の低下を防止する。なお、実施例５では、実施例１や実施例３と同一の構成要素についてはその説明を省略する。

（データ加工処理部１００の機能構成）
まず、実施例５におけるデータ加工処理部１００の機能構成について、図１９を参照しながら説明する。図１９は、本発明の実施の形態におけるデータ加工処理部１００の機能構成の一例を示す図（実施例５）である。

図１９に示すように、実施例５におけるデータ加工処理部１００には、算出部１０１と、ＵＩ提供部１０２と、データ加工部１０３と、マスタデータ取得部１０６と、マージ部１０７とが含まれる。なお、実施例５におけるデータ加工処理部１００には、ＵＩ提供部１０２が含まれていなくてもよい。

マージ部１０７は、マスタデータ取得部１０６により取得されたマスタデータと、対象データとをマージしたデータを作成する。

また、実施例５における算出部１０１は、マージ部１０７により作成されたデータ（つまり、マスタデータと対象データとをマージしたデータ）を用いて、このデータを構成する各レコードを分類して、これら各レコードが分類された集合毎に、同一集合に属するレコードの数Ｎを算出する。そして、算出部１０１は、Ｎ毎に、Ｎが同一であるレコードの割合を算出する。言い換えれば、実施例５における算出部１０１は、実施例１の「対象データ」の代わりに、「マスタデータと対象データとをマージしたデータ」を用いて、Ｎ毎に、Ｎが同一であるレコードの割合を算出する。

（データ加工処理）
次に、マスタデータと対象データとをマージしたデータ（以降、「マージ対象データ」とも表す。）を作成した上で、データ提供端末１０でマージ対象データを統計加工して、匿名化（ｋ－匿名化）するデータ加工処理について、図２０を参照しながら説明する。図２０は、本発明の実施の形態におけるデータ加工処理の一例を示すフローチャート（実施例５）である。

まず、マスタデータ取得部１０６は、データ分析装置２０のマスタデータ記憶部４００に記憶されているマスタデータを取得する（ステップＳ５０１）。ここで、マスタデータ取得部１０６は、マスタデータ記憶部４００に記憶されているマスタデータを構成する各レコードの全部を取得してもよいし、一部のレコードのみを取得してもよい。なお、マスタデータの全レコードを取得する場合に、これらのレコードの中に不足する項目（つまり、対象データを構成するレコード中には含まれる一方で、マスタデータを構成するレコード中には含まれない項目）が存在するときには、当該項目に任意の値を代入してもよい。これは、後述する「統計量の減算処理」のステップＳ６０２において、当該項目の項目値が、統計加工後データを構成する各レコードの当該項目の統計量から減算されるため、最終的な統計量には影響を与えないためである。

一部のレコードのみを取得する場合は、マスタデータ取得部１０６は、例えば、取得条件を指定した取得要求をデータ分析装置２０に送信すればよい。これにより、例えば、データ分析処理部３００によってマスタデータ記憶部４００が検索され、取得条件を満たすレコードで構成されるマスタデータがデータ提供端末１０に返信される。

このような取得条件としては、例えば、マスキング対象項目の項目値を指定すればよい。例えば、マスキング対象項目が項目「住所」及び項目「年代」である場合、取得条件としては、『住所＝「東京都武蔵野市緑町」、かつ、年代＝「１０代」』等とすればよい。又は、例えば、マスキング対象項目が項目「住所」、項目「年代」及び項目「業種」である場合、取得条件としては、『住所＝「東京都武蔵野市緑町」、かつ、年代＝「１０代」、かつ、業種＝「電気店」』等とすればよい。これら以外にも、取得条件として、例えば、マスキング対象項目の項目名のみが指定されてもよい。このような取得条件は、例えば、マージ対象データの損失率（つまり、マージ対象データを構成するレコードのうち、データ加工によって削除されるレコードの割合）が所望の値よりも小さくなるようにユーザによって決定される。

次に、マージ部１０７は、上記のステップＳ５０１で取得されたマスタデータと、対象データとをマージしたマージ対象データを作成する（ステップＳ５０２）。

次に、データ加工処理部１００は、実施例１又は実施例２で「対象データ」の代わりに「マージ対象データ」を用いたデータ加工処理を行う（ステップＳ５０３）。これにより、マージ対象データから統計加工後データが作成され、データ分析装置２０に送信される。

（統計量の減算処理）
ここで、上記の統計加工後データを構成する各レコードの統計量（例えば、金額の合計や購入個数の合計、購入者数の合計等）の算出には、上記のステップＳ５０１で取得されたマスタデータに含まれるレコードの情報も用いられている。このため、統計加工後データをマスタデータ記憶部４００に記憶させる前に、当該統計加工後データを構成する各レコードの統計量を減算する必要がある。そこで、この統計量の減算処理について、図２１を参照しながら説明する。図２１は、本発明の実施の形態における統計量の減算処理の一例を示すフローチャート（実施例５）である。

まず、データ分析処理部３００は、データ提供端末１０から統計加工後データを受信する（ステップＳ６０１）。

次に、データ分析処理部３００は、当該統計加工後データを構成する各レコードの統計量から、当該データ提供端末１０に送信したマスタデータの該当のレコードの項目値を減算する（ステップＳ６０２）。

例えば、統計加工後データに含まれる或るレコードの統計量が合計金額であり、この合計金額が、対象データのレコードＡ、レコードＢ及びレコードＣと、マスタデータのレコードＤ及びレコードＥとで、項目「購入金額」の項目値を合計したものとする。この場合、当該合計金額から、レコードＤの項目「購入金額」の項目値と、レコードＥの項目「購入金額」の項目値とを減算する。これにより、統計加工後データを構成する各レコードの統計量を、対象データを構成する各レコードから算出される統計量と一致させることができる。

［実施例６］
次に、実施例６として、対象データを構成する各レコードのマスキング対象項目のうちの一部のマスキング対象項目を削除したデータをデータ加工する場合について説明する。実施例５と同様に、例えば、比較的小規模な小売店等の商業施設のように十分なレコード数の対象データを準備することができない場合に、一部のマスキング対象項目を削除することで、データ分析の精度（正確さ）の低下を防止することができる。なお、実施例６では、実施例１や実施例３と同一の構成要素についてはその説明を省略する。

（データ加工処理部１００の機能構成）
まず、実施例６におけるデータ加工処理部１００の機能構成について、図２２を参照しながら説明する。図２２は、本発明の実施の形態におけるデータ加工処理部１００の機能構成の一例を示す図（実施例６）である。

図２２に示すように、実施例６におけるデータ加工処理部１００には、算出部１０１と、ＵＩ提供部１０２と、データ加工部１０３と、項目削除部１０８とが含まれる。なお、実施例６におけるデータ加工処理部１００には、ＵＩ提供部１０２が含まれていなくてもよい。

項目削除部１０８は、対象データを構成する各レコードのマスキング対象項目のうち、一部のマスキング対象項目を削除したデータを作成する。

また、実施例６における算出部１０１は、項目削除部１０８により作成されたデータ（つまり、対象データを構成する各レコードのマスキング対象項目のうち、一部のマスキング対象項目を削除したデータ）を用いて、このデータを構成する各レコードを分類して、これら各レコードが分類された集合毎に、同一集合に属するレコードの数Ｎを算出する。そして、算出部１０１は、Ｎ毎に、Ｎが同一であるレコードの割合を算出する。言い換えれば、実施例６における算出部１０１は、実施例１の「対象データ」の代わりに、「対象データの一部のマスキング対象項目を削除したデータ」を用いて、Ｎ毎に、Ｎが同一であるレコードの割合を算出する。

（データ加工処理）
次に、対象データを構成する各レコードから一部のマスキング対象項目を削除したデータ（以降では、「項目削除後データ」とも表す。）を作成した上で、データ提供端末１０で項目削除後データを統計加工して、匿名化（ｋ－匿名化）するデータ加工処理について、図２３を参照しながら説明する。図２３は、本発明の実施の形態におけるデータ加工処理の一例を示すフローチャート（実施例６）である。なお、以降では、一例として、マスキング対象項目は「住所」及び「年代」であるものとする。

まず、項目削除部１０８は、対象データを構成する各レコードのマスキング対象項目のうち、一部のマスキング対象項目を削除して、項目削除後対象データを作成する（ステップＳ７０１）。例えば、図２４に示す対象データから一部のマスキング対象項目を削除する場合、項目削除部１０８は、図２４に示す対象データの項目「年代」を削除した年代削除後対象データを項目削除後対象データとして作成してもよいし、項目「住所」を削除した住所削除後対象データを項目削除後対象データとして作成してもよい。又は、項目削除部１０８は、年代削除後対象データと住所削除後対象データとの両方を項目削除後対象データとして作成してもよい（すなわち、項目削除部１０８は、複数の項目削除後対象データを作成してもよい。）。複数の項目削除後対象データを作成することを、「対象データを分割する」と称されてもよい。

次に、データ加工処理部１００は、実施例１又は実施例２で「対象データ」の代わりに「項目削除後対象データ」を用いたデータ加工処理を行う（ステップＳ７０２）。これにより、項目削除後対象データから統計加工後データが作成され、データ分析装置２０に送信される。なお、上記のステップＳ７０２で複数の項目削除後対象データが作成された場合には、各項目削除後対象データをそれぞれ用いて、実施例１又は実施例２のデータ加工処理を行えばよい。

なお、本実施例では、対象データを構成するレコード数が少ないことを前提として、対象データから項目削除後対象データを作成したが、対象データを構成するレコード数の多寡に限られず、項目削除後対象データを作成してもよい。例えば、ユーザ提示画面Ｇ１００上で、対象データから一部のマスキング対象項目を削除するか否かや対象データを分割するか否かをユーザに問い合わせた上で、この問い合わせに対して、削除操作や分割操作が行われた場合に項目削除後対象データを作成してもよい。特に、このような問い合せは、マスキング対象項目の階層を上げても、Ｎ毎のレコードの割合が向上したり、所定の指標値が向上したりしない場合に行われるようにしてもよい。

［実施例７］
次に、実施例７として、分類辞書記憶部２００に記憶されている分類辞書を修正する場合について説明する。ここで、上述したように、分類辞書は、対象データを構成するレコードのマスキング項目毎に、カテゴリの木構造で表現される。しかしながら、カテゴリの粒度が粗すぎたり、又はカテゴリの粒度が細かすぎたりする場合がある。このような場合、例えば、対象データ中の多くのレコードが削除されたり、マスキング対象項目の情報の抽象度が上がったりしてしまい、データ分析の精度（正確さ又は詳細さ）が低下してしまう。

そこで、実施例７では、分類辞書を修正可能とする場合について説明する。これにより、ユーザは、分類辞書を適切に修正することで、データ分析の精度（正確さ及び詳細さ）の低下を防止することができるようになる。なお、実施例５では、実施例１と同一の構成要素についてはその説明を省略する。

（データ加工処理部１００の機能構成）
まず、実施例７におけるデータ加工処理部１００の機能構成について、図２５を参照しながら説明する。図２５は、本発明の実施の形態におけるデータ加工処理部の機能構成の一例を示す図（実施例７）である。

図２５に示すように、実施例７におけるデータ加工処理部１００には、算出部１０１と、ＵＩ提供部１０２と、データ加工部１０３と、分類修正部１０９とが含まれる。

分類修正部１０９は、ユーザの操作に応じて、分類辞書記憶部２００に記憶されている分類辞書を修正する。ここで、分類辞書の修正とは、木構造で表現される分類辞書に対してカテゴリを追加したり、分類辞書からカテゴリを削除したり、分類辞書のカテゴリ自体を変更したりすることである。

また、実施例７における算出部１０１は、更に、分類辞書記憶部２００に記憶されている分類辞書と、マスキング対象項目と、対象データとに基づいて、指標値の１つである集約率を算出する。集約率とは、分類辞書によってマスキング対象項目の項目値をマスキングした場合に、同一集合に分類されるレコード数を表す指標値である。ユーザは、集約率を参考にして、分類辞書を修正するか否かやどのような修正を行ったらよいかを判断することができる。

ここで、低すぎる集約率は、カテゴリの粒度が細かすぎて、対象データ中のレコードがまとまっていない（つまり、各レコードがバラバラになっている）ことを表す。一方で、高すぎる集約率は、カテゴリの粒度が粗すぎて、対象データ中のレコードがまとまりすぎていることを表す。また、例えば、或る項目の分類辞書で階層毎に集約率を算出した場合、これらの集約率は、階層が上がるに従ってなだらかに上昇していくことが望ましい。例えば、或る階層で集約率が急激に上昇する場合や集約率の上昇がほとんど無い場合、集約率が最初から高い場合等は、当該項目の各階層のカテゴリ（の粒度）が適切でないことを表す。したがって、階層毎の集約率をＵＩ上に表示し、可視化することで、ユーザは、例えば、集約率の上昇度合い等を把握することができるようになる。また、このとき、集約率を参考にして分類辞書の修正を行ったり、修正後の分類辞書を用いた集約率を確認したりすることで、ユーザは、分類辞書の編集を容易に行うことが可能となる。

（集約率の算出方法）
集約率は以下の（式１４）により算出される。

集約率＝（該当の階層よりも１つ下の階層で対象データを構成する各レコードの該当の項目の項目値が属するカテゴリ数－該当の階層で対象データを構成する各レコードの該当の項目の項目値が属するカテゴリ数）／（該当の階層よりも１つ下の階層で対象データを構成する各レコードの該当の項目の項目値が属するカテゴリ数）×１００・・・（式１４）
上記の（式１４）の代わりに、以下の（式１５）により集約率が算出されてもよい。

集約率＝（該当の階層よりも１つ下の階層における該当の項目のカテゴリ数－該当の階層における該当の項目のカテゴリ数）／（該当の階層よりも１つ下の階層における該当の項目のカテゴリ数）×１００・・・（式１５）

（分類辞書の修正）
ここで、一例として、図２６Ａに示す対象データを用いて、図２６Ｂに示す分類辞書の修正を行う場合について説明する。

マスキング対象項目を、項目「レコードＩＤ」以外の全項目、ｋ＝１、集約率を算出する対象の階層を「第２階層」とした場合に、図２６Ａに示す対象データのマスキング対象項目「日時」の集約率を上記の（式１４）により算出すると、８０（％）となる。すなわち、図２６Ａに示す対象データを構成する各レコードは、マスキング対象項目「日時」の「第２階層」では１つのカテゴリ「１７日」に属する。一方で、「第１階層」では、レコードＩＤ「１」及び「２」がカテゴリ「８時」、レコードＩＤ「３」がカテゴリ「９時」、レコードＩＤ「４」がカテゴリ「１１時」、レコードＩＤ「５」がカテゴリ「１７時」、レコードＩＤ「６」が「２０時」の計５つのカテゴリにそれぞれ属する。したがって、集約率は、（５－１）／５×１００＝８０（％）と算出される。なお、上記の（式１５）により集約率を算出した場合、約９６（％）となる。

集約率が高い場合には対象データに含まれる多くのレコードを１つのレコードに集約して匿名化を図ることができる一方で、情報の損失が多くなる。例えば、図２６Ｂに示す分類辞書を用いて、図２６Ａに示す対象データのマスキング対象項目「日時」を「第２階層」とした場合、マスキング対象項目「日時」の項目値のうちの時刻情報（８時や９時、１１時、１７時、２０時等）が失われてしまう。

そこで、集約率が高すぎるような場合には、ユーザは、分類辞書に対して階層を追加することで、集約率を下げて、情報の損失を抑えることが可能となる。例えば、図２７Ａに示すように、図２７Ｂに示す分類辞書に対して、「第２階層」以上の階層を１つ上の階層とした上で、新たな「第２階層」としてカテゴリ「午前」、「午後」を追加することで、上記の（式１４）により算出されるマスキング対象項目「日時」の「第２階層」における集約率を６０（％）に下げることができる。すなわち、図２６Ａに示す対象データを構成する各レコードは、マスキング対象項目「日時」の「第２階層」では「午前」及び「午後」の２つのカテゴリに属する。一方で、「第１階層」では、レコードＩＤ「１」及び「２」がカテゴリ「８時」、レコードＩＤ「３」がカテゴリ「９時」、レコードＩＤ「４」がカテゴリ「１１時」、レコードＩＤ「５」がカテゴリ「１７時」、レコードＩＤ「６」が「２０時」の計５つのカテゴリにそれぞれ属する。したがって、集約率は、（５－２）／５×１００＝６０（％）と算出される。なお、上記の（式１５）により集約率を算出した場合、約９２（％）となる。

これにより、集約率を下げることができ、情報の損失を抑えることが可能となる。例えば、図２７Ｂに示す対象データでは、マスキング対象項目「日時」の時刻情報として、午前又は午後を残すことができる。したがって、データ分析装置２０におけるデータ分析の精度低下を抑えることが可能となる。

なお、上記では、集約率が高すぎる場合に分類辞書に階層を追加する場合を説明したが、例えば、集約率が低すぎるような場合には分類辞書から階層を削除してもよい。また、既存の階層にカテゴリを追加したり、既存の階層のカテゴリ自体を修正したりしてもよい。

（データ加工処理）
次に、データ提供端末１０で対象データを統計加工して、匿名化（ｋ－匿名化）する際に、集約率もユーザに提示し、必要に応じて分類辞書の修正が可能なデータ加工処理について、図２８を参照しながら説明する。図２８は、本発明の実施の形態におけるデータ加工処理の一例を示すフローチャート（実施例７）である。

まず、算出部１０１は、予め設定されたマスキング対象項目と、分類辞書記憶部２００に記憶されている分類辞書と、各マスキング対象項目の階層と、対象データを構成するレコード数とに基づいて、対象データを構成する各レコードを分類した場合に同一集合に属するレコードの数Ｎ（つまり、集合毎のレコード数Ｎ）と、Ｎ毎のレコードの割合と、集約率とを算出する（ステップＳ８０１）。なお、集合毎のレコード数Ｎ及びＮ毎のレコードの割合は実施例１と同様である。また、集約率についても、各マスキング対象項目は「第１階層」が選択されているものとして、上記の（式１４）又は（式１５）により集約率を算出する。なお、集約率の定義から、「第１階層」の集約率は算出されない。

次に、ＵＩ提供部１０２は、上記のステップＳ８０１で算出されたＮ毎のレコードの割合と集約率とが含まれるユーザ提示画面を表示する（ステップＳ８０２）。すなわち、ＵＩ提供部１０２は、例えば、図２９に示すユーザ提示画面Ｇ１００を表示する。

図２９に示すユーザ提示画面Ｇ１００のユーザ提示情報表示欄Ｇ１１０には、Ｎ毎のレコードの割合に加えて、マスキング対象項目の階層を変化させた場合における集約率が表示されている。ユーザは、ユーザ提示情報表示欄Ｇ１１０に表示されている集約率を確認することで、分類辞書の修正をするか否かを判断することができる。ここで、図２９に示すユーザ提示画面Ｇ１００には、「分類辞書を修正」ボタンＧ１３０が含まれる。ユーザは、分類辞書の修正が必要と判断した場合には「分類辞書を修正」ボタンＧ１３０を押下して分類辞書の修正開始操作を行うことで、図２９に示す分類辞書の修正画面Ｇ２００を表示させることができる。以降では、ユーザは、マスキング対象項目に対する階層の選択操作又は分類辞書の修正開始操作のいずれかを行ったものとして説明を続ける。

次に、ＵＩ提供部１０２は、階層の選択操作又は分類辞書の修正開始操作のいずれを受け付けたかを判定する（ステップＳ８０３）。

ステップＳ８０３で分類辞書の修正開始操作を受け付けたと判定した場合、ＵＩ提供部１０２は、例えば、図２９に示す分類辞書の修正画面Ｇ２００を表示する（ステップＳ８０４）。

図２９に示す分類辞書の修正画面Ｇ２００は、分類辞書を修正するための画面である。なお、図２９に示す分類辞書の修正画面Ｇ２００は、例えば、図２９に示すユーザ提示画面Ｇ１００から画面遷移により表示されてもよいし、ポップアップにより表示されてもよい。

図２９に示す分類辞書の修正画面Ｇ２００には、例えば、修正対象の分類辞書の項目を選択するためのマスキング対象項目選択欄Ｇ２１０と、修正方法（追加、削除、変更等）を選択するための修正方法選択欄Ｇ２２０と、修正対象の階層を選択するための階層選択欄Ｇ２３０とが含まれる。また、図２９に示す分類辞書の修正画面Ｇ２００には、現在の集約率（例えば、マスキング対象項目選択欄Ｇ２１０及び階層選択欄Ｇ２３０でそれぞれ選択されている項目及び階層の集約率）も表示される。更に、図２９に示す分類辞書の修正画面Ｇ２００には、修正方法が「追加」又は「変更」である場合に、追加されるカテゴリの内容や変更後のカテゴリの内容を入力するカテゴリ設定欄Ｇ２５０が含まれる。

加えて、図２９に示す分類辞書の修正画面Ｇ２００には、スコア再計算ボタンＧ２７０が含まれる。スコア再計算ボタンＧ２７０が押下されることで、分類辞書が修正された後における該当の項目及び階層のスコア（例えば、集約率）が計算される。

ユーザは、マスキング対象項目選択欄Ｇ２１０、修正方法選択欄Ｇ２２０及び階層選択欄Ｇ２３０から項目、修正方法及び階層をそれぞれ選択した上で、必要に応じてカテゴリ設定欄Ｇ２５０にカテゴリの内容を設定して、決定ボタンＧ２６０を押下することで、カテゴリ修正操作を行うことができる。カテゴリ修正操作が行われることで、分類修正部１０９により、当該修正操作で選択及び入力された内容で、分類辞書記憶部２００に記憶されている該当の分類辞書が修正される。

一方、ステップＳ８０３で階層の選択操作を受け付けたと判定した場合又は上記のステップＳ８０４に続いて、算出部１０１は、上記のステップＳ８０１と同様に、集合毎のレコード数Ｎと、Ｎ毎のレコードの割合と、集約率とを算出する（ステップＳ８０５）。ここで、ステップＳ８０３では、算出部１０１は、各マスキング対象項目の選択階層での集合毎のレコード数Ｎ、Ｎ毎のレコードの割合及び集約率と、１つのマスキング対象項目のみ階層を上げた場合における集合毎のレコード数Ｎ、Ｎ毎のレコードの割合及び集約率とを算出する。なお、このとき、上記のステップＳ８０４で分類辞書が修正された場合には、修正後の分類辞書を用いて、集合毎のレコード数Ｎと、Ｎ毎のレコードの割合と、集約率とを算出する。

次に、ＵＩ提供部１０２は、ユーザ提示画面を更新して、上記のステップＳ８０５で算出されたＮ毎のレコードの割合と集約率とが含まれるユーザ提示画面を表示する（ステップＳ８０６）。

次に、ＵＩ提供部１０２は、図７のステップＳ１０６と同様に、マスキング対象項目の階層選択を終了するか否かを判定する（ステップＳ８０７）。

ステップＳ８０７でマスキング対象項目の階層選択を終了すると判定されなかった場合、データ加工処理部１００は、ステップＳ８０３に戻る。これにより、マスキング対象項目の階層選択が終了するまで、上記のステップＳ８０３～ステップＳ８０６が繰り返し実行される。

一方、ステップＳ８０７でマスキング対象項目の階層選択を終了すると判定された場合、データ加工部１０３は、図７のステップＳ１０７と同様に、同一集合に属するレコード数Ｎがｋ未満のレコードを削除すると共に、Ｎがｋ以上である各レコードを同一集合内で統計加工する（ステップＳ８０８）。これにより、ｋ－匿名性を有するレコードが作成され、これらのレコードで構成される統計加工後データが得られる。

（他の指標値）
ここで、本実施例において、集約率に代えて又は集約率と共に、指標値の１つとして分離率やカバー率が用いられてもよい。ユーザは、例えば、ユーザ提示画面に表示された分離率やカバー率を確認することで、これらの指標値も考慮して、分類辞書を修正するか否かを判断することができるようになる。

・分離率
分離率とは、対象データを構成する各レコードのマスキング対象項目を分類辞書によってマスキングする際の細かさを表す指標値のことである。分離率が大きいほど、Ｎがｋ未満であるとしてデータ加工の際に削除され易くなる。分離率は以下の（式１６）により算出される。

分離率＝（該当の階層における対象データを構成する各レコードの各項目の項目値のうち、同一カテゴリに属する項目値の個数がＭ個以下の項目値の個数）／（該当の階層における対象データを構成する各レコードの各項目の項目値の個数）×１００・・・（式１６）
なお、Ｍとしては、例えば、Ｍ＝１やＭ＝２等とすることが考えられる。

・カバー率
カバー率とは、対象データを構成する各レコードのマスキング対象項目を分類辞書によってマスキングする際における項目値が属するカテゴリの分布を表す指標値である。カバー率が低いと、マスタデータを機械学習の学習データとして利用する場合等に誤った学習を引き起きやすくなる。カバー率は以下の（式１７）により算出される。

カバー率＝（該当の階層で、対象データを構成する各レコードの各項目の項目値が属するカテゴリ数）／（該当の階層における各項目のカテゴリ数）×１００・・・（式１７）

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。また、上記の各実施例は、適宜、組み合わせて適用することが可能である。例えば、実施例１や実施例３に対して、実施例５～実施例７のうちの少なくとも１つの実施例を組み合わせることが可能である。同様に、例えば、実施例２や実施例４に対して、実施例５～実施例７のうちの少なくとも１つの実施例を組み合わせることが可能である。

１データ加工システム
１０データ提供端末
２０データ分析装置
１００データ加工処理部
１０１算出部
１０２ＵＩ提供部
１０３データ加工部
１０４選択部
１０５終了条件判定部
１０６マスタデータ取得部
１０７マージ部
１０８項目削除部
１０９分類修正部
２００分類辞書記憶部
３００データ分析処理部
４００マスタデータ記憶部

Claims

１以上の項目が含まれるレコードで構成されるデータを統計加工によって匿名化する情報処理装置であって、
前記項目のうち、マスキングの対象となる項目を示すマスキング対象項目と、前記マスキング対象項目毎に該項目値のカテゴリが木構造で表現された辞書と、前記マスキング対象項目毎に前記木構造で選択された階層を示す選択階層と、前記データに含まれるレコード数とに基づいて、前記データを構成する各レコードを１つ以上の集合に分類して、各集合のレコード数Ｎと、レコード数Ｎの集合に属するレコードの割合とを算出する算出手段と、
前記レコード数Ｎの集合に属するレコードの割合が所定の条件を満たす場合に、前記データを１つ以上のデータに分割する分割手段と、
を有することを特徴とする情報処理装置。
前記レコード数Ｎの集合に属するレコードの割合と、予め設定された優先度とに基づいて、前記選択階層を変更する変更手段と、
所定の終了条件を満たすまで前記算出手段による算出と前記変更手段による変更とが繰り返し実行された後、同一の集合に属するレコードを統計加工した統計加工後レコードを作成する統計手段と、を有し、
前記算出手段は、
前記分割手段により前記データが１つ以上のデータに分割された場合、前記１つ以上のデータの各々を用いて、前記各集合のレコード数Ｎと、前記レコード数Ｎの集合に属するレコードの割合とを算出し、
前記変更手段は、
前記１つ以上のデータの各々を用いて、前記選択階層を変更し、
前記統計手段は、
前記１つ以上のデータの各々を用いて、前記統計加工後レコードを作成する、ことを特徴とする請求項１に記載の情報処理装置。
１以上の項目が含まれるレコードで構成されるデータを統計加工によって匿名化するコンピュータが、
前記項目のうち、マスキングの対象となる項目を示すマスキング対象項目と、前記マスキング対象項目毎に該項目値のカテゴリが木構造で表現された辞書と、前記マスキング対象項目毎に前記木構造で選択された階層を示す選択階層と、前記データに含まれるレコード数とに基づいて、前記データを構成する各レコードを１つ以上の集合に分類して、各集合のレコード数Ｎと、レコード数Ｎの集合に属するレコードの割合とを算出する算出手順と、
前記レコード数Ｎの集合に属するレコードの割合が所定の条件を満たす場合に、前記データを１つ以上のデータに分割する分割手順と、
を実行することを特徴とする情報処理方法。
コンピュータを、請求項１又は２に記載の情報処理装置における各手段として機能させるためのプログラム。