JP6829762B2

JP6829762B2 - ビッグデータの非識別化処理方法

Info

Publication number: JP6829762B2
Application number: JP2019517743A
Authority: JP
Inventors: ウォン・スク・イ
Original assignee: ボアラ・カンパニー・リミテッド
Priority date: 2016-06-09
Filing date: 2016-06-10
Publication date: 2021-02-10
Anticipated expiration: 2036-06-10
Also published as: JP2019523958A; KR101784265B1; WO2017213281A1

Description

本発明は、ビッグデータの非識別化処理方法に関し、より詳しくは、個人情報流出の恐れなく、外部システムに自由に流通することができ、別の環境で生成されたデータを連携して様々な用途に活用可能なビッグデータの非識別化処理方法に関する。

ビッグデータとは、従来の企業環境や公共機関で使われる構造化データはもちろん、電子商取引データ、メタデータ、ウェブログ、無線識別(RFID)データ、センサネットワークデータ、ソーシャルネットワークデータ、ソーシャルデータ、インターネットテキストと文書、インターネット検索インデクシングなど、従来では活用できなかった非構造化又は半構造化データをいずれも含むデータであって、このようなデータは、通常のソフトウェアツール及びコンピュータシステムでは取扱い難い水準のデータ量を有するという意味で、ビッグデータ(Big Data)と称している。

ビッグデータが様々な価値を作出し始めつつ、ビッグデータを原油に比喩し始めた。油がないと機器が作動しないように、ビッグデータなしに情報時代で生活することができないという意味である。米国の市場調査機関ガートナーは、データは未来競争力を左右する２１世紀原油であり、企業は、近づいてくるデータ経済時代を理解し、これに対比すべきであると強調した。２１世紀企業に最も重要な資産は、データであり、これを管理し、ここで価値を導出しないと、競争で生き延びることができないという意味である。

近年になって、企業だけでなく、政府でも、様々に収集されたビッグデータ情報、及びそれを活用した統計分析データを、意思決定と政策決定などに積極的に活用しようとする試みが続けており、ビッグデータを活用して、データ中心のコンピュータ環境を構築するためのビッグデータ処理技術が盛んに研究されている。

一方、ビッグデータは、該当資料が収集される組織内で分析して活用することになるが、資料を収集する組織によって、収集されるデータの属性に差があり、他の組織の資料を活用する必要が生じ、資料を収集する能力やシステムが揃えていない組織の場合も、他組織のビッグデータやそれらの組み合わせから、該当組織が独特に要する情報を分析して、意思決定に活用する必要性が台頭している。

しかし、ビッグデータの性格上、データの量が膨大であるだけでなく、大部分のビッグデータには、個人身元に関する情報が必然的に含まれるしかなく、個人身元情報の流出による法的紛争が生じる所持が多いため、ビッグデータの組織間の交流や流通には限界があり、これによって、ビッグデータの収集が可能な組織の立場では、個人身元情報の流出による法的紛争の発生を避けるために、ビッグデータ自体を事業的な目的に加工して流通するよりは、特定の目的に必要な情報のみを対象に、これを群集化(clustering)作業や統計分析作業を通じて統計的情報水準に加工して提供している実情であるので、ビッグデータの活用を要する組織の立場では、組織の独特な事業環境に必ず要する分析資料を獲得し難いという問題点があった。

一方、統計結果データではなく、統計分析用としてのビッグデータ自体を事業的な目的に加工して流通するために、マスキング、置換、半識別化、類型化などを通じて、個人属性を非識別化する方法が一角で適用されている。

マスキングは、対象情報をマスキング又は削除することであり(例;670101-10491910 → **************)、置換は、対象情報に対応して生成された情報に置換することであり(例;670101-10491910 → ID2311331)、半識別化は、対象情報の一部だけが示されるように半識別化することであり(例;670101-10491910 → 67-1)、類型化は、対象情報を類型化して区分する方式(例;670101-10491910 →男)である。

しかし、個人情報を、マスキング、置換、半識別化、類型化などによって非識別化するとしても、マッシュアップ(Mash-Up)や個人の特定情報及びその組み合わせを通じた逆追跡などにより、個人情報流出の危険が存在するという不都合があり、また、別の環境で独立して生成されたビッグデータの連携分析が難しいという問題点があった。

本発明は、このような問題点を解決するためになされたものであって、データの非識別化、すなわち、脱個人情報を完璧に行うことで、ビッグデータの流通に際して、特定個人が再識別化されることを根本的に防止し、敏感な個人情報に対して、個々人に対する許諾を受ける必要なく、安全に流通用として活用可能なビッグデータの非識別化処理方法を提供することにその目的がある。

本発明の他の目的は、個々の所要先で独特に要する分析用情報を適切に選別加工して提供可能なビッグデータの非識別化処理方法を提供することにある。

本発明の更に他の目的は、別の環境で独立して生成された２以上のビッグデータを、必要によって、様々に連携して分析に活用可能なビッグデータの非識別化処理方法を提供することにある。

本発明は、流通用に活用されるビッグデータは、個々人に対する特定情報の活用よりは統計分析用であり、データ全体に対する統計分析は、データの一部の統計分析をまず行った後、これを組合わせて分析するとしても、結果において、大きな差がないということに着眼してなされた発明である。

上記の目的を達成するための本発明によるビッグデータの非識別化処理方法は、通信部、処理部、及び格納部を備えるデータサーバで行なわれるビッグデータの非識別化処理方法であって、前記処理部が、有無線ネットワークを介して連結された端末から、前記通信部を介して収集されるデータを、前記データサーバの格納部に格納する段階と、前記処理部が、前記データを構成する原本レコードのうち、少なくとも２以上のレコードを組み合わせて、原本レコードとは異なるレコードを生成するデータ抽象化段階とを含み、前記データ抽象化段階は、前記データを構成する前記原本レコードのそれぞれのフィールドの少なくとも１以上のフィールドを、抽象化基準フィールドに設定し、前記抽象化基準フィールド以外のフィールドの少なくとも１以上のフィールドを、抽象化対象フィールドに設定する段階と、前記原本レコードのうち、前記抽象化基準フィールドの値が同一のレコードを少なくとも２以上選択する段階と、前記選択された複数のレコードを、前記抽象化基準フィールドと前記抽象化対象フィールドを含む１つの抽象化レコードに抽象化し、前記抽象化レコードの前記抽象化基準フィールドの値は、前記選択された複数レコードの共通する該当フィールド値に割り当て、前記抽象化レコードの前記抽象化対象フィールドの値は、前記選択された複数レコードの該当フィールド値を代表する代表値に変換した後、これを該当抽象化対象フィールドの値に割り当てる段階と、前記処理部が、前記抽象化レコードを、前記抽象化データのレコードとして前記格納部に格納する段階とを備えることを特徴とする。

本発明の上記のような特徴によると、ビッグデータを構成する複数のフィールドのうち、統計分析の基準となるフィールドと、統計分析の対象となるフィールドとを選択して流通用ビッグデータを生成し、複数の原本レコードを、原本レコードの値とは異なるフィールド値を有し、統計分析本来の意味を維持する１つの抽象画レコード(Abstracted Record)に抽象化(Abstracting)することで、統計分析の価値を有する新たな情報を得、且つ、個人の特定情報及びその組み合わせによる逆追跡を根本的に防止するビッグデータを提供することができる。

抽象化基準フィールドとは、データ抽象化を行う基準となるフィールドをいい、原本レコードの該当フィールドが連続数値データ型である場合、ヒストグラム、ピニング(Binning)、群集化方式などで前処理して、該当属性を不連続(Discrete)のカテゴリ型データに変換した後、抽象化基準フィールドを選択するのが望ましい。

抽象化対象フィールドは、統計値算定の対象となるフィールドであって、抽象化対象フィールドが数値データ型である場合、抽象化レコードの該当フィールド値である代表値は、一般的に平均値が適用されるが、フィールド値の内容によって、平均、メディアン、最大値、最頻値、サンプリングなどの集計関数を適用して算出することができ、数値データではなく場合、合集合、交集合、サンプリング、頻発行為元素、群集化、ヒストグラムなどの統合関数を適用して算出することができる。

１つの抽象化レコードに含まれる原本レコードは、それぞれの抽象化レコードに対して、一定数(Ｎ)として選択するのが望ましいが、それぞれの抽象化レコードに互いに異なる数の原本レコードが含まれるように選択してもよい。

本発明の更に他の特徴は、前記データ抽象化段階の前に、更に、前記処理部が、前記原本レコードを、前記抽象化基準フィールドの値を基準に整列する段階と、前記整列された原本レコードを基に、前記抽象化基準フィールドの値が同一のレコードのうち、抽象化対象フィールドの値が、他のレコードの該当抽象化対象フィールドの値と比較して、所定の基準以上の偏差があると判断される場合、該当レコードを、前記抽象化対象から除く段階とを備える。

本発明の上記のような特徴によると、複数の原本レコードを、１つの抽象化レコードに抽象化して、抽象化データを生成することにおいて、統計の正確度に悪影響を及ぼすレコードを、抽象化対象から除くことで、統計分析の正確度をより向上することができる。

本発明は、前記代表値を、該当抽象化対象フィールドの値に割り当てる前に、前記選択された原本レコードのうち、該当抽象化対象フィールドの値が、前記代表値と同一値を有するレコードがあるか否かを判断して、同一値を有するレコードがあると、前記選択された原本レコードの該当抽象化フィールドの値にはない他の値に該当代表値を補正して割り当てることに他の特徴がある。

本発明の前記のような特徴によると、抽象化レコードの抽象化対象フィールド値に、原本レコードと同一のフィールド値が代表値に割り当てられることを排除することで、個人の特定情報及び組み合わせによる逆追跡をより確実に防止することができる。

本発明の更に他の特徴は、前記選択される前記抽象化基準フィールド又は抽象化対象フィールドの値が、個人の識別に関わる内容である場合、該当フィールドの値を、該当フィールド値が１つの元素として含まれるグループ値に変換して、該当抽象化基準フィールド又は抽象化対象フィールドとして選択することにある。

「個人の識別に関わる内容を有するフィールド」とは、個人の住民録番号、年齢、居住地などのように、その自体として個人を識別するか、他のデータとの組み合わせによって、容易に個人を識別する内容をフィールド値として有するフィールドをいい、「該当フィールド値が１つの元素として含まれるグループ値」とは、住民登録番号又は年齢から抽出した年齢帯、居住地から抽出した洞や都市、距離などの情報などをいう。

あるフィールド値を前記のようにグループ値として抽出する技術自体は、前述したように、データの非識別化に通常適用されている技術であるが、本発明の前記のような特徴によると、データの抽象化と抽象化が共に行われることで、個人の特定情報及びその組み合わせによる逆追跡をより確実に防止することができる。

本発明の更に他の特徴は、前記抽象化レコードに含まれる複数の原本レコードの前記抽象化基準フィールドのフィールド値の分布情報をフィールド値として有する分布値フィールド、又は前記抽象化レコードに含まれる複数の原本レコードの前記抽象化対象フィールドのフィールド値の分布情報をフィールド値として有する分布値フィールドの少なくともいずれか１つを含む。

分布値フィールドのフィールド値は、通常の分布関数として算出することができ、代表的な類型は、平均、標準偏差、中間値(Median)、quartile-quartile distance(Q3-Q1)、最大値、|最大値−最小値|、又は互いに異なる属性値数などである。

例えば、抽象化基準フィールドとして、原本レコードの住民登録番号フィールドの生年月日情報から算出された年齢帯が選択され、いずれか１つの抽象化レコードの抽象化基準フィールドのフィールド値が４０代であり、この抽象化レコードに３つの原本レコードが含まれ、この原本レコードのそれぞれの年齢帯が４３歳、４７歳、４２歳と仮定し、抽象化レコードに含まれる分布値フィールドのフィールド値を、中間値に設定した。仮定すると、該当分布値フィールドのフィールド値は、４７となる。

本発明の前記のような特徴によると、前記分布値フィールドを媒介に、別の環境で独立して生成された２以上のビッグデータを、必要によって、多様に連携して分析に活用することができるようになり、統計データの信頼性をより向上することができる。

本発明は、選択される抽象化基準フィールド又は抽象化対象フィールドの値が、個人の識別に関わる内容である場合、該当フィールドの値をハッシュ関数に変換して、該当抽象化基準フィールド又は抽象化対象フィールドとして選択することに他の特徴がある。

本発明の前記のような特徴は、ハッシュ関数(Hash Function)が不可逆的な一方向関数であって、ハッシュ値で原データ値を再現することができないという特性を適用したことであって、例えば、該当フィールドの値を以下のように定義されるハッシュ関数ｇ(ｘ)に変換して、抽象化基準フィールド又は抽象化対象フィールドのフィールド値として選択することができる。

ｇ(ｘ)= ｆ(ｘ) mod m
ｆ(ｘ): 無作為関数、ハッシュドメイン: (０...ｍ−１)

本発明の前記のような特徴によると、ハッシュ関数によるフィールド値の非可逆暗号化とデータの抽象化が共に行われることで、個人の特定情報及びその組み合わせによる逆追跡をより確実に防止することができる。

本発明は、前記抽象化基準フィールド及び抽象化対象フィールド設定段階の以後に、前記原本レコードを、前記抽象化基準フィールドを基準に整列した後、前記整列順序に沿って、抽象化基準フィールドの値が同一の複数のレコードを選択し、前記データ抽象化段階を行って、前記抽象化データを生成し、前記抽象化基準フィールドのいずれか１つの整列方式に従う抽象化データ生成が完了した後、前記抽象化基準フィールドの他の整列方式を適用して、前記原本レコードを整列した後、該当整列順序に沿って、前記抽象化基準フィールドの値が同一の複数のレコードを選択して、前記データ抽象化段階を再び行うことに他の特徴がある。

本発明の前記のような特徴によると、いずれか１つの原本レコードが、複数の抽象化レコードに含まれるように抽象化される。

すなわち、同一の原本レコードが含まれた複数の抽象化レコードは、抽象化基準フィールドと抽象化対象フィールドに対応する分布値フィールドのフィールド値が様々に現れ、これによって、分布値フィールドを必要によって様々に連携して分析に活用することができ、統計データの信頼性をより向上することができる。

本発明の更に他の特徴は、前記原本データは、身元テーブルと、前記身元テーブルの各個人の行為に対するログテーブルとからなり、前記抽象化データは、抽象化身元テーブルと抽象化ログテーブルとからなり、前記データ抽象化段階において、前記身元テーブルの複数のログレコードを、１つの抽象化身元レコードに抽象化することで、前記抽象化身元テーブルを生成し、
前記テータ抽象化段階は、更に、前記抽象化身元テーブルに識別フィールドを付加する段階と、抽象化身元レコードの識別フィールドに識別値を割り当てる段階と、前記抽象化身元レコードに含まれる個人を特定するフィールドの値を前記識別値に対応させることで、該当識別値に該当する抽象化身元レコードに含まれた個人を特定する抽象化対象リストを生成する段階とを含み、前記テータ抽象化段階において、前記ログテーブルの複数のログレコードを、１つの抽象化ログレコードに抽象化することで、前記抽象化ログテーブルを生成し、
前記テータ抽象化段階は、前記抽象化ログテーブルに識別フィールドを付加する段階と、前記抽象化対象リストを参照して、前記ログテーブルのそれぞれのレコードのうち、前記抽象化身元レコードに含まれる複数の個人に対するログレコードを、１つの抽象化ログレコードに抽象化する段階と、該当抽象化身元レコードに割り当てられた識別値を含む識別値を、前記識別フィールドに割り当てる段階とを含むことにある。

本発明の前記のような特徴によると、原本データが身元テーブルとログテーブルに分離して形成されている場合にも、抽象化対象リストを通じて、それぞれの抽象化身元レコードに属する個人に対応する抽象化ログレコードを生成することができ、抽象化身元テーブル及び抽象化ログテーブルの識別フィールドによって、データの結合及び連携解析が可能となる。

本発明の更に他の特徴は、前記原本データは、身元テーブルと、前記身元テーブルの各個人の行為に対するログテーブルとからなり、前記抽象化データは、抽象化身元テーブルと抽象化ログテーブルとからなり、前記テータ抽象化段階において、前記ログテーブルの複数のログレコードを、１つの抽象化ログレコードに抽象化することで、前記抽象化ログテーブルを生成し、前記テータ抽象化段階は、更に、前記抽象化ログテーブルに識別フィールドを付加する段階と、抽象化ログレコードの識別フィールドに識別値を割り当てる段階と、前記抽象化ログレコードに含まれる個人を特定するフィールドの値を、前記識別値に対応させることで、該当識別値に該当する抽象化ログレコードに含まれた個人を特定する抽象化対象リストを生成する段階とを含み、前記テータ抽象化段階において、前記身元テーブルの複数の身元レコードを、１つの抽象化身元レコードに抽象化することで、前記抽象化身元テーブルを生成し、
前記テータ抽象化段階は、前記抽象化身元テーブルに識別フィールドを付加する段階と、前記抽象化対象リストを参照して、前記身元テーブルのそれぞれのレコードのうち、前記抽象化ログレコードに含まれる複数の個人に対する身元レコードを、１つの抽象化身元レコードに抽象化する段階と、該当抽象化ログレコードに割り当てられた識別値を含む識別値を、前記識別フィールドに割り当てる段階とを含むことにある。

本発明の前記のような特徴によると、原本データが、身元テーブルとログテーブルに分離して形成されている場合、抽象化対象リストから、それぞれの抽象化ログレコードに属する個人に対応する抽象化身元レコードを生成することができ、抽象化ログテーブル及び抽象化身元テーブルの識別フィールドから、データの結合及び連携解析が可能となる。

また、本発明は、通信部、処理部、及び格納部を備えるデータサーバで行なわれるビッグデータ処理方法であって、前記処理部が、有無線ネットワークを介して連結された端末から、前記通信部を介して収集されるデータを、前記データサーバの格納部に格納する段階と、前記処理部が、前記データを構成する原本レコードのうち、少なくとも２以上のレコードを組み合わせて、原本レコードとは異なるレコードを生成するデータ抽象化段階とを含み、前記データ抽象化段階は、前記データを構成する前記原本レコードのそれぞれのフィールドの少なくとも１以上のフィールドを抽象化基準フィールドに設定し、前記抽象化基準フィールド以外のフィールドのうち、数値データ型を有する少なくとも１以上のフィールドを、抽象化対象フィールドに設定する段階と、前記原本レコードの前記抽象化対象フィールドのフィールド値からなる補正リストを生成する段階と、前記補正リストから重複値を除いた後、フィールド値のサイズ順に整列する段階と、前記整列された補正リストのそれぞれのフィールド値に対して、該当フィールド値に近接した少なくとも１以上のフィールド値と、該当フィールド値の平均値を算出して、該当フィールド値に対応する抽象化値に対応させる段階と、前記抽象化基準フィールドと前記抽象化対象フィールドを含む抽象化レコードを生成し、前記抽象化レコードの前記抽象化基準フィールドのフィールド値は、前記原本レコードの該当フィールド値に割り当て、前記抽象化レコードの前記抽象化対象フィールドのフィールド値は、前記原本レコードの該当フィールド値に対応する前記抽象化値に割り当てる段階と、前記抽象化レコードを、前記抽象化データのレコードとして前記格納部に格納する段階とを備えるビッグデータの非識別化処理方法に特徴がある。

本発明の前記のような特徴は、原本レコードの特定フィールドのフィールド値を、該当フィールド値と、これに近接した他のフィールド値との平均値に変換して、元のフィールド値と異なる値に抽象化しても、データ全体に対する統計分析は、元のフィールド値とする場合と差がないということに着眼して行われている。

本発明の前記のような特徴によると、ビッグデータを構成する複数のフィールドのうち、統計分析の基準となるフィールドと、統計分析の対象となるフィールドとを選択して流通用ビッグデータを生成し、原本レコードの数値データ型フィールドを、原本レコードの値とは異なるフィールド値を有し、統計分析本来の意味を維持する抽象化値に対応させることで、統計分析の価値を有する新たな情報を得、且つ、個人の特定情報及びその組み合わせによる逆追跡を根本的に防止するビッグデータを提供することができる。

本発明は、前記整列された補正リストのそれぞれのフィールド値に対して、該当フィールド値に隣接したフィールド値との遊隙値を算出して、該当フィールド値に対応する遊隙リストを生成し、算出遊隙値が所定の臨界値をはずれる場合、該当遊隙値を前記臨界値に代置して、遊隙リストを生成する段階を備え、前記整列された補正リストのそれぞれのフィールド値に対する平均値の算出において、該当フィールド値に隣接したフィールド値は、該当フィールド値に前記遊隙リスト上の遊隙値を加減した値を適用して、平均値を算出することに他の特徴がある。

本発明の前記のような特徴によると、全体的な統計に悪影響を及ぼすフィールド値を臨界値に補正して適用することで、統計分析の精度を向上することができる。

本発明の更に他の特徴は、前記原本データは、身元データと、前記身元データの各個人の行為に対するログテーブルとからなり、前記身元データと前記ログテーブルお結合して、１つのテーブルに変換した後、前記変換されたテーブルのデータを対象に、前記データ抽象化段階が行われることにある。

本発明の前記のような特徴によると、原本データが身元テーブルとログテーブルに分離して形成されている場合にも、近接数値の平均による抽象化が可能となる。

本発明によると、ビッグデータを構成する複数のフィールドのうち、統計分析の基準となるフィールドと、統計分析の対象となるフィールドを選択して流通用ビッグデータを生成し、複数の原本レコードを、原本レコードの値とは異なるフィールド値を有し、且つ、統計分析本来の意味を維持する１つの抽象化レコードに抽象化することで、統計分析の価値を有する新たな情報を得、且つ、個人の特定情報及びその組み合わせによる逆追跡を根本的に防止するビッグデータを提供することができる。

また、原本レコードの数値データ型フィールドを、原本レコードの値とは異なるフィールド値を有し、且つ、統計分析本来の意味を維持する抽象化値に対応させることで、統計分析の価値を有する新たな情報を得、且つ、個人の特定情報及びその組み合わせによる逆追跡を根本的に防止するビッグデータを提供することができる。

更に、個々の所要先で独特に要する情報のみを適切に選別加工して提供することができる。

また、分布値フィールドを媒介に、別の環境で独立して生成された２以上のビッグデータを、必要によって、様々に連携して分析に活用可能となり、統計データの信頼性を向上することができる。

図１は、本発明のビッグデータ処理システムを形成するデータ中心のコンピュータ環境を説明する例示図である。図２は、図１におけるデータサーバの主要構成を示すブロック図である。図３は、本発明の一実施例によるデータ抽象化の基本的な段階を示すブロック図である。図４は、本発明の他の実施例によるデータ抽象化の基本的な段階を示すブロック図である。

図１を参照すると、本発明のビッグデータ処理システムを形成するデータ中心のコンピュータ環境は、データサーバ１１０と、データサーバと有無線ネットワークを介して連結される多数のユーザ端末１２０とで構築される。

データ中心のコンピュータ(data-centric computing)環境とは、多数のユーザ端末１２０でリアルタイムで生成されるデータを活用して、ソーシャルネットワークサービス(Social Network Service、SNS)、スマートグリッド(smart grid)、知能型家電、実時間ストリーミング、又はリアルタイム意思決定などの様々な応用プログラムを提供するビッグデータ処理に基づく技術を意味する。

本発明によるビッグデータ処理システム及び方法は、多数のユーザ端末１２０と連結されたデータサーバ１１０によって具現され、多数のユーザ端末１２０で生成されるデータを収集し、これを処理した後、格納し、格納されたデータを要するユーザ端末１２０に提供することで、データ中心のコンピュータ応用が行える環境が構築される。

ここで、ユーザ端末１２０は、データサーバ１１０と連結されるように通信装置を搭載し、ユーザ端末１２０の運用によってデータが生成されるように、情報処理機能を備えるコンピュータ、ノート型ＰＣのような情報処理端末、スマートフォン、タブレットＰＣ、ＰＤＡ(Personal Digital Assistant)などの移動通信端末、スマート家電機器、無線識別(RFID)データ、ブラックボックス、又はナビゲーションが運用される自動車、汽車、飛行機のような交通手段などを意味するが、これに限定されない。

図２に示しているように、データサーバ１１０は、通信部１１３を介して、多数のユーザ端末１２０と近距離無線通信、Wi-Fi、３Ｇ(３Generation)、LTE(Long Term Evolution)のような有無線ネットワークで連結されて、ユーザ端末１２０で生成されたデータを収集して格納部１１２に格納し、通常、複数のプロセッサからなる処理部１１１で収集されたデータを処理して格納するクラウドサーバ又はウェブサーバを意味するが、これに限定されない。

有無線ネットワークを介して連結された端末１２０から、通信部１１３を介して収集される原本データは、データサーバ１１０の格納部１１２に格納される。

近年になって、ネットワーク技術の発達及びスマートフォンの飛躍的な普及によって、企業及び機関で運営中のビッグデータ処理システムにおいて、１日生産されるログの量は、数十〜数百ギガバイトまで増加されており、原本ビッグデータのサイズは、ＴＢを超えて、Exaバイト又はzetaバイトの範囲を有することになった。

本発明による処理部１１１は、格納部１１２に格納されている大容量のビッグデータを適切に処理し、分析に必要なデータを選択して抽象化することで容量を減らすと共に、非識別化して、流通用の非識別ビッグデータに加工して、格納部１１２に格納することになり、格納部１１２に相対的に小容量で格納された流通用非識別ビッグデータは、サーバの通信部１１３及び通信網を介して、該当分析及び活用が必要な所要先に伝送される。

図３は、本発明の一実施例によるデータ抽象化の基本的な段階を示すブロック図であって、以下、図３を参照して、データサーバの処理部で行われるビッグデータの非識別化処理方法を具体的に説明する。

まず、格納部１１２に格納されたデータを構成する原本レコードのそれぞれのフィールドのうち、ビッグデータの所要先で独特に要するフィールド情報のみを適切に選別するようになるが、少なくとも１以上のフィールドを抽象化基準フィールドに設定し(Ｓ１０)、抽象化基準フィールド以外のフィールドの少なくとも１以上のフィールドを、抽象化対象フィールドに設定する(Ｓ２０)。

抽象化基準フィールドは、データ抽象化を行う基準となるフィールドをいい、原本レコードの該当フィールドが連続数値データ型である場合、ヒストグラム、ピニング(Binning)、群集化方式などで前処理して、該当属性を不連続(Discrete)のカテゴリ型データに変換した後、抽象化基準フィールドを選択するのが望ましい。

抽象化対象フィールドは、統計値算定の対象となるフィールドであって、抽象化対象フィールドが数値データ型である場合、抽象化レコードの該当フィールド値である代表値は、通常、平均値が適用されるが、フィールド値の内容によって、平均、メディアン、最大値、最頻値、サンプリングなどの集計関数を適用して算出してもよく、数値データではない場合、合集合、交集合、サンプリング、頻発行為元素、群集化、ヒストグラムなどの統合関数を適用して算出してもよい。

処理部１１１により、原本レコードのうち、抽象化基準フィールドの値が同一のレコードが少なくとも２以上選択され(Ｓ３０)、選択された複数のレコードが１つの抽象化レコードに抽象化される(Ｓ４０)。

前記選択段階(Ｓ３０)の前に、前記処理部により、前記データを前記抽象化基準フィールドの値を基準に整列する段階と、１つの抽象化レコードに含まれる原本レコードは、それぞれの抽象化レコードに対して、一定数(Ｎ)として選択するのが望ましいが、それぞれの抽象化レコードに互いに異なる数の原本レコードが含まれるように選択してもよい。

抽象化レコードは、抽象化基準フィールドと、前記抽象化対象フィールドとを含み、抽象化基準フィールドの値は、選択された複数レコードの共通する該当フィールド値に割当てられ(Ｓ４１)、抽象化対象フィールドの値は、選択された複数のレコードの該当フィールド値を代表する代表値に変換された後、抽象化対象フィールドの値に割り当てられる(Ｓ４２)。

抽象化対象フィールドが数値データ型である場合、抽象化レコードの該当フィールド値である代表値は、通常、平均値が適用されるが、フィールド値の内容によって、平均、メディアン、最大値、サンプリングなどの集計関数を適用して算出してもよい。

処理部１１１は、生成された抽象化レコードを格納部１１２に格納(Ｓ５０)し、原本データ全体に亘って、Ｓ４０〜Ｓ４０の過程を繰り返すことになり、原本データ全体に亘って、データ抽象化作業が完了すると(Ｓ６０)、作業を終了することになる(Ｓ７０)。

前記で言及したデータ抽象化過程を具体的に説明すると、以下の通りである。

表１は、データ抽象化の前の原本データの簡単な例であって、住民登録番号、年齢、姓名、住所、所得が、原本レコードの各フィールドとして含まれている。

選択される前記抽象化基準フィールド又は抽象化対象フィールドの値が、個人の識別に関わる内容である場合、該当フィールドの値を、該当フィールド値が１つの元素として含まれるグループ値に変換して、該当抽象化基準フィールド又は抽象化対象フィールドとして選択するのが望ましい。

表２は、データ抽象化のために、それぞれのフィールドを変換して、新たなフィールドに生成した例を示す。

表３は、前記のように変換されたデータを、年齢層、性別、都市を抽象化基準フィールドとして選択し、所得を抽象化対象フィールドとして選択して、抽象化基準フィールドが同一のレコードを３つ(Ｎ＝３)基本に選択し、選択された複数のレコードから、１つの抽象化レコードを生成した後、それぞれの抽象化レコードに対して、識別子(ID)を割り当てた例を示す。

抽象化基準フィールドである年齢層、性別、都市は、選択されたレコードに共通する値が割り当てられたことを示し、抽象化対象フィールドである所得フィールドの代表値として選択されたレコードの所得フィールド値の平均値を割り当てた例を示す。

識別子(ID)の値は、それぞれの抽象化レコードを唯一に区別するように生成される。

選択可能なレコードが１つだけ残るか、特定数の未満が残った場合、該当レコードは、抽象化対象から除くのが望ましい。

以上で説明したようなデータ抽象化過程で整列された原本データを基に、前記抽象化基準フィールドの値が同じレコードのうち、抽象化対象フィールドの値が、他のレコードの該当抽象化対象フィールドの値と比較して、所定の基準以上の偏差があると判断される場合、該当レコードを前記抽象化対象から除くのが望ましい。

これにより、統計の正確度に悪影響を及ぼすレコードを抽象化対象から除くことで、統計分析の正確度をより向上することができる。

また、表４に示しているように、代表値を、該当抽象化対象フィールドの値に割り当てる前に、選択された原本レコードのうち、該当抽象化対象フィールドの値が前記代表値と同じ値を有するレコードがあるか否かを判断して、同じ値を有するレコードがあると、前記選択された原本レコードの該当抽象化フィールドの値にはない他の値に該当代表値を補正して割り当てることを意味する。

補正値としては、抽象化レコードの該当属性値を、最大許容ノイズの臨界値以内の無作為値に変更した値を割り当てる。

これにより、抽象化レコードの抽象化対象フィールド値に、原本レコードと同一のフィールド値が代表値に割り当てられることを排除することで、個人の特定情報及びその組み合わせによる逆追跡をより確実に防止することができる。

一方、表２に示しているように、抽象化基準フィールド又は抽象化対象フィールドの値が個人の識別に関わる内容である場合、該当フィールドの値を、該当フィールド値が１つの元素として含まれるグループ値に変換して、該当抽象化基準フィールド又は抽象化対象フィールドとして選択するのが望ましい。

「個人の識別に関わる内容を有するフィールド」とは、個人の住民登録番号、年齢、居住地などのように、その自体で個人を識別するか、他のデータとの組み合わせによって容易に個人を識別する内容をフィールド値として有するフィールドをいい、「該当フィールド値が１つの元素として含まれるグループ値」とは、住民登録番号又は年齢から抽出した年齢帯、居住地から抽出した洞や都市、距離などの情報などをいう。

あるフィールド値を前記のようにグループ値として抽出する技術自体は、前述したように、データの非識別化に通常適用されている技術であるが、本発明によると、データの抽象化と抽象化が共に行われることで、個人の特定情報及びその組み合わせによる逆追跡をより確実に防止することができる。

一方、選択される抽象化基準フィールド又は抽象化対象フィールドの値が、個人の識別に関わる内容である場合、該当フィールドの値をハッシュ関数に変換して、該当抽象化基準フィールド又は抽象化対象フィールドとして選択することが可能である。

ハッシュ関数が不可逆的な一方向関数であり、ハッシュ値で円データ値を再現することはできないという特性を適用したものであって、例えば、該当フィールドの値をハッシュ関数ｇ(ｘ)に変換して、抽象化基準フィールド又は抽象化対象フィールドのフィールド値として選択することができる。

これにより、ハッシュ関数によるフィールド値の非可逆暗号化とデータの抽象化が共に行われることで、個人の特定情報及びその組み合わせによる逆追跡を、より確実に防止することができる。

一例として、変換関数ｇ(ｘ)をハッシュ関数と定義する場合、他の無作為関数ｆ(ｘ)に対して定められたハッシュドメイン(０..ｍ−１)に制限された値が出るように、ハッシュ関数ｇ(ｘ)を、下記のように定義する。

ｇ(ｘ)=ｆ(ｘ) ｍｏｄｍ

従って、個人署名値は、０からｍまでの値と決められる。ある抽象化フィールドに対して、互いに異なる個人が異なるフィールド値を有しても、同一の変換値を有することができるが、ｍの値を大きくするほど、互いに異なる個人が同一の変換値を有する確率が減少することになる。

ハッシュ関数の具体例として、抽象化基準フィールドが住民登録番号の場合を挙げると、ハッシュ関数は、次のように定義され、該当ハッシュ関数による変換値は、表５のようになる。

ｇ(住民番号)=(住民番号前後二桁) ｍｏｄ１０００

以上の説明によると、いずれか１つの原本レコードは、いずれか１つの抽象化レコードに含まれるように抽象化されるが、いずれか１つの原本レコードが、複数の抽象化レコードに含まれるように抽象化されてもよい。

すなわち、前記抽象化基準フィールド及び抽象化対象フィールド設定段階の後に、前記原本レコードを、前記抽象化基準フィールドを基準に整列した後、前記整列順序に沿って、抽象化基準フィールドの値が同一の複数のレコードを選択し、前記データ抽象化段階を行って、前記抽象化データを生成し、前記抽象化基準フィールドのいずれか１つの整列方式による抽象化データ生成が完了した後、前記抽象化基準フィールドの他の整列方式を適用して前記原本レコードを整列した後、該当整列順序に沿って、前記抽象化基準フィールドの値が同一の複数のレコードを選択して、前記データ抽象化段階を再び行うようになると、いずれか１つの原本レコードが複数の抽象化レコードに含まれるように抽象化される。

表９は、表６の原本レコードに対して、表７及び表８のように整列順序を異ならせて、データ抽象化段階を２回施した抽象化データの例を示す。

これによると、同一の原本レコードが含まれた複数の抽象化レコードは、抽象化基準フィールドと抽象化対象フィールドに対応する分布値フィールドのフィールド値が様々に現れられ、それによって、分布値フィールドを必要によって多様に連携して分析に活用できるようになり、統計データの信頼性を、更に向上することができる。

次に、原本データが、身元テーブルと、前記身元テーブルの各個人の行為に対するログテーブルとからなる場合の抽象化データ生成過程を具体的に説明する。

表１０は、ログテーブルの一例を示しており、ログテーブルは、サービスを活用して発生した個人のサービス要請/提供/使用内訳などから構成されるが、通常、半構造ログレコードは、個人の時空間的な行為状態変化を示すので、個人識別属性、時間属性、及び空間属性を基本的に有しており、該当時点に該当空間で該当個人が行った行為アイテムをフィールド値として半構造の形態で有している。

まず、抽象化身元レコード別に求めた抽象化対象リストにある全ての個人を対象として、ログレコードを抽出し、該当抽象化身元レコードのログレコードセットとして生成する。

表１１に示しているように、抽象化対象リストは、抽象化されたそれぞれの抽象化身元レコードに対して、該当抽象化身元レコードに含まれたそれぞれの個人を特定する属性(例：住民登録番号)を対応させることで生成される。

例えば、抽象化身元レコードid321の抽象化対象リストは、表１１の通りであり、これを対象とした抽象化身元レコードid321のログレコードセットは、表１２のように生成される。

このように、各抽象化身元レコードを対象に抽出されたログレコードを、１つの抽象化ログレコードに抽象化する。

それぞれの抽象化身元レコード別に抽出されたログレコードを、１つの抽象化ログレコードに抽象化するに際して、時間や空間条件を制約条件として、近接した空間や時間別に抽象化対象を選定することができる。

選定された統合対象であるログレコードは、様々な統合関数を適用して、１つの抽象化ログレコードに抽象化する。

統合関数としては、合集合、交集合、サンプリング、頻発行為元素、群集化、ヒストグラムなどが挙げられる。

例えば、表１１の抽象化身元レコードid321のログレコードセット(表１２)に、各種の統合関数を適用する場合に生成される抽象化ログレコードは、以下の通りである。

抽象化対象を全体として、合集合で抽象化する場合、

抽象化対象を全体として、交集合で抽象化する場合、

時間又は空間条件を制約条件として、選択的に抽象化する例であって、７分以内個人行為の合集合、

同一行政区別の個人行為の合集合。

このように生成されるそれぞれの抽象化身元レコードと抽象化ログレコードは、格納部１１２にテーブル形態に順次格納されて、流通用ビッグデータを形成し、各テーブルの抽象化身元レコードと抽象化ログレコードとをマッチングすることで、個々の抽象化レコードとして形成される。

抽象化レコードへのマッチング・統合は、流通用ビッグデータを提供するサーバで行われてもよく、ビッグデータ使用先のサーバで行われてもよい。

以上で説明したように、本発明により生成されるビッグデータによると、抽象化データの抽象化基準フィールドは、同一の抽象化基準フィールドに抽象化された他の流通用の個人身元データと結合して連携分析することに活用される。

すなわち、本発明により、別の環境で独立して生成された２以上の流通用ビッグデータの連携活用が可能となる。

一方、データの連携分析に際して、類似した特性の抽象化レコードが連携されるようにすることで、連携の正確度を向上するために、抽象化基準フィールド又は抽象化対象フィールドの分布値が連携分析に活用することができる。

抽象化基準フィールド又は抽象化対象フィールドの分布値は、抽象化レコードに含まれる複数の原本レコードの抽象化基準フィールドのフィールド値の分布情報を意味し、該当分布情報をフィールド値として有する分布値フィールドが抽象化レコードに更に含まれる。

分布値フィールドのフィールド値は、通常の分布関数として算出されるが、代表的な類型は、平均、標準偏差、中間値(Median)、quartile-quartile distance(Ｑ３−Ｑ１)、最大値、|最大値-最小値|、又は互いに異なる属性値数などである。

例えば、抽象化基準フィールドとして、原本レコードの住民登録番号フィールドの生年月日情報から算出された年齢帯が選択され、いずれか１つの抽象化レコードの抽象化基準フィールドのフィールド値が４０代であり、この抽象化レコードに、３つの原本レコードが含まれ、この原本レコードのそれぞれの年齢帯が４３歳、４７歳、４２と仮定し、抽象化レコードに含まれる分布値フィールドのフィールド値を中間値に設定したと仮定すると、該当分布値フィールドのフィールド値は、４７となる。

以下、具体例として、抽象化基準フィールド分布値フィールドと、抽象化分布値フィールドとを用いて、互いに独立して加工されたデータセットを連結する方法を、身元テーブルとログテーブルとからなる抽象化データを挙げて説明することにする。

まず、平均所得情報を込めている身元レコードＡと、平均流動資産情報を込めている身元レコードＢとがいずれも、同一の抽象化基準フィールドである年齢フィールドと性別属性に各々、別に本発明の抽象化方式で変換されていると仮定する。

また、Ａには、各グループの所得最大値を抽象化分布値フィールドとして、Ｂには、流動資産の最大値を抽象化分布値フィールドとして追加していると仮定する。

抽象化基準フィールドの分布値フィールドである年齢分布値フィールドは、中間年齢であるメディアン(Median)値と同様に定義すると、表１３に示しているように、ＡとＢの各抽象化レコードに対して、分布値フィールドが更に生成される。

各々変換された抽象化データセットＡとＢを、抽象化基準フィールドである年齢帯と性別に結合して、２データセットの抽象化基準フィールド分布値フィールドである、年齢分布値フィールド値の差が各々２以内である条件を満たす抽象化レコードだけを連結すると、表１４のように、所得と流動資産抽象化のレコードが連結された２つの連結した抽象化身元レコードが生成される。

このように、本発明によって形成される抽象化された非識別化ビッグデータは、別の環境で独立して生成された２つ以上のビッグデータの連携活用が可能となり、その過程は、以下の通りである。

２つの互いに異なるビッグデータＡ(抽象化身元レコードセットＡＳ、抽象化ログレコードセットＡＬ)と、Ｂ(抽象化身元レコードセットＢＳ、抽象化ログレコードセットＢＬ)が与えられた時、Ａの抽象化身元レコードセットＡＳと、Ｂの抽象化身元レコードセットＢＳが、前記表１３、表１４で説明しているように連結される。

この結果を基に、Ａの抽象化ログレコードセットＡＬと、Ｂの抽象化ログレコードセットＢＬ中に、同一の抽象化身元レコード別に結合して、ＡとＢが統合した抽象化ログレコードを新たに生成して、２つの原始データに対するビッグデータ連携分析を行う。

抽象化身元レコードｘ∈ＡＳと抽象化身元レコードｙ∈ＢＳが前述しているように結合されていると、ｘの抽象化ログレコードv∈ＡＬとｙの抽象化ログレコードw∈ＢＬは、同一の個人の行為内訳と見なされ、２つのビッグデータＡとＢを連携分析するとき、２つの抽象化ログレコード＜v、w＞が意味的に連結されていると仮定し、統合ビッグデータ(ＡＬＢＬ)に対する行為分析を行うことになる。

図４は、本発明の他の実施例によるデータ抽象化の基本的な段階を示すブロック図であって、以下、図４を参照して、データサーバの処理部で行われるビッグデータの非識別化処理方法を具体的に説明することにする。

まず、格納部１１２に格納されたデータを構成する原本レコードのそれぞれのフィールドのうち、ビッグデータの所要先で独特に要するフィールド情報のみを適切に選別するようになるが、少なくとも１以上のフィールドを抽象化基準フィールドに設定し(Ｂ１０)、抽象化基準フィールド以外のフィールドのうち、数値データ型を有する少なくとも１つ以上のフィールドを、抽象化対象フィールドに設定する(Ｂ２０)。

原本レコードの抽象化対象フィールドのフィールド値からなる補正リストを生成する(Ｂ３０)。

前記補正リストから重複値を除去した後、フィールド値のサイズ順に整列する(Ｂ４０)。

整列された補正リストのそれぞれのフィールド値に対して、該当フィールド値に近接した少なくとも１以上のフィールド値と該当フィールド値の平均値を算出して、該当フィールド値に対応する抽象化値に対応させる(Ｂ５０)。

前記抽象化基準フィールドと前記抽象化対象フィールドとを含む抽象化レコードを生成し、前記抽象化レコードの前記抽象化基準フィールドのフィールド値は、前記原本レコードの該当フィールド値に割り当て、前記抽象化レコードの前記抽象化対象フィールドのフィールド値は、前記原本レコードの該当フィールド値に対応する前記抽象化値に割り当てる(Ｂ６０)。

処理部１１１は、生成された抽象化レコードを格納部１１２に格納(Ｂ７０)し、原本データの全体に亘って、Ｂ５０、Ｂ６０の過程を繰り返すことになり、原本データの全体に亘って、データ抽象化作業が完了すると(Ｂ７０)、作業を終了することになる。

一方、近接フィールド値との平均値を算出することにおいて、他のフィールド値に比べて確実に大きいフィールド値が存在すると、全体的な統計に悪影響を及ぼすことになり、このようなフィールド値は、近接フィールド値との差が少ないように代置して平均値を算出することが、統計分析の精密度向上に役に立つ。

このために、次のように、遊隙値検査を施して、遊隙値が臨界値をずれる場合、これを他の値に代置して平均値を求めるのが望ましい。

すなわち、整列された補正リストのそれぞれのフィールド値に対して、該当フィールド値に隣接したフィールド値との遊隙値を算出して、該当フィールド値に対応する遊隙値リストを生成し、算出された遊隙値が所定の臨界値をずれる場合、該当遊隙値を前記臨界値に代置して、遊隙値リストを生成し、整列された補正リストそれぞれのフィールド値に対する平均値の算出に際して、該当フィールド値に隣接したフィールド値は、該当フィールド値に、前記遊隙値リスト上の遊隙値を加減した値を適用して、平均値を算出することになる。

前記で言及したデータ抽象化過程を具体例と共に説明すると、以下の通りである。

以下の表１５は、データの抽象化が行われる前の原本レコードを示しており、抽象化基準フィールドは、年齢フィールドから変換される年齢帯フィールド、住民登録番号から生成される性別フィールド及び住所フィールドであり、抽象化基準フィールドとして、所得フィールドが選択される。

抽象化基準フィールドである所得フィールド値を抽出して、補正リストを生成し(表１６左)、重複値を除去した後、フィールド値のサイズ順に整列して、補正リストを生成する(表１６右)。

臨界値は、データの性格によって、様々な方法で設定することができる。

例えば、臨界値を、全体の遊隙値の平均に標準偏差の１.５倍(平均＋１.５×偏差)に設定することができる。

表１７の例は、臨界値を８７０に設定して遊隙リストを作成したものであって、臨界値を超える９００を、臨界値である８７０を代置した例を示す。

次に、表１８は、整列された補正リストそれぞれのフィールド値に対する平均値の算出時、該当フィールド値に隣接したフィールド値は、該当フィールド値に、前記遊隙リスト上の遊隙値を加減した値を適用して、平均値を算出することを示す。

補正リストには、重複値が除去されているので、補正リストのそれぞれのフィールド値には、１つの平均値が対応され、このように、それぞれのフィールド値に対応する平均値を、抽象化対象フィールドの抽象化値に割り当てることになり、抽象化基準フィールドのフィールド値は、前記原本レコードの該当フィールド値に割り当てる。

前述したように、本例では、抽象化基準フィールドのフィールド値が個人の識別に関わる内容であるので、該当フィールド値が１つの元素として含まれるグループ値などに変換して割り当てられる。

表１９は、このように変換されたフィールドが含まれた原本レコードを示し、表２０は、抽象化が完了したレコードを示している。

本実施例によると、ビッグデータを構成する様々なフィールドのうち、統計分析の基準となるフィールドと、統計分析の対象となるフィールドとを選択して、非識別化ビッグデータを生成し、原本レコードの数値データ型フィールドを、原本レコードの値とは異なるフィールド値を有し、統計分析本来の意味を維持する抽象化値、すなわち、隣接値との平均値に対応させることで、統計分析の価値を有する新たな情報を得、且つ、個人の特定情報及びその組み合わせによる逆追跡を根本的に防止するビッグデータを提供することができるようになる。

前記原本データが、身元テーブルとログテーブルとからなる場合にも、本実施例を適用することができ、身元テーブルとログテーブルとを結合して、１つのテーブルに変換した後、前記変換されたテーブルのデータを対象に、本実施例のデータ抽象化段階が行われる。

１１０データサーバ
１１１処理部
１１２格納部
１１３通信部
１２０ユーザ端末

Claims

通信部、処理部、及び格納部を備えるデータサーバで行なわれるビッグデータの非識別化処理方法であって、
前記処理部が、有無線ネットワークを介して連結された端末から、前記通信部を介して収集されるデータを、前記データサーバの格納部に格納する段階と、
前記処理部が、前記格納部に格納された原本データを構成する原本レコードのうち、少なくとも２以上のレコードを組み合わせて、前記原本レコードとは異なるレコードを生成して抽象化データを生成するデータ抽象化段階とを含み、
前記データ抽象化段階は、
前記原本データを構成する前記原本レコードのそれぞれのフィールドの少なくとも１以上のフィールドを、抽象化基準フィールドに設定し、前記抽象化基準フィールド以外のフィールドの少なくとも１以上のフィールドを、抽象化対象フィールドに設定する段階と、
前記原本レコードのうち、前記抽象化基準フィールドの値が同一のレコードを少なくとも２以上選択する段階と、
前記選択された複数のレコードを、前記抽象化基準フィールドと前記抽象化対象フィールドを含む１つの抽象化レコードに抽象化し、前記抽象化レコードの前記抽象化基準フィールドの値は、前記選択された複数レコードの共通する該当フィールド値に割り当て、前記抽象化レコードの前記抽象化対象フィールドの値は、前記選択された複数レコードの該当フィールド値を代表する代表値に変換した後、これを該当抽象化対象フィールドの値に割り当てる段階と、
前記処理部が、前記抽象化レコードを、前記抽象化データのレコードとして前記格納部に格納する段階とを備え、
前記代表値を、該当抽象化対象フィールドの値に割り当てる前に、前記選択された原本レコードのうち、該当抽象化対象フィールドの値が、前記代表値と同一値を有するレコードがあるか否かを判断して、同一値を有するレコードがあると、前記選択された原本レコードの該当抽象化対象フィールドの値にはない他の値に該当代表値を補正して割り当てることを特徴とするビッグデータの非識別化処理方法。
前記データ抽象化段階の前に、更に、
前記処理部が、前記原本レコードを、前記抽象化基準フィールドの値を基準に整列する段階と、
前記整列された原本レコードを基に、前記抽象化基準フィールドの値が同一のレコードのうち、抽象化対象フィールドの値が、他のレコードの該当抽象化対象フィールドの値と比較して、所定の基準以上の偏差があると判断される場合、該当レコードを、抽象化対象から除く段階とを、備えることを特徴とする請求項１に記載のビッグデータの非識別化処理方法。
前記抽象化レコードは、更に、前記抽象化レコードに含まれる複数の原本レコードの前記抽象化基準フィールドのフィールド値の分布情報をフィールド値として有する分布値フィールド、又は前記抽象化レコードに含まれる複数の原本レコードの前記抽象化対象フィールドのフィールド値の分布情報をフィールド値として有する分布値フィールドの少なくともいずれか１つを含むことを特徴とする請求項１に記載のビッグデータの非識別化処理方法。
前記抽象化基準フィールド及び抽象化対象フィールド設定段階の以後に、前記原本レコードを、前記抽象化基準フィールドを基準に整列した後、整列順序に沿って、抽象化基準フィールドの値が同一の複数のレコードを選択し、前記データ抽象化段階を行って、前記抽象化データを生成し、
前記抽象化基準フィールドのいずれか１つの整列方式に従う抽象化データ生成が完了した後、前記抽象化基準フィールドの他の整列方式を適用して、前記原本レコードを整列した後、該当整列順序に沿って、前記抽象化基準フィールドの値が同一の複数のレコードを選択して、前記データ抽象化段階を再び行うことで、いずれか１つの原本レコードが、複数の抽象化レコードに含まれるように抽象化されることを特徴とする請求項１に記載のビッグデータの非識別化処理方法。