JP6829762B2 - ビッグデータの非識別化処理方法 - Google Patents

ビッグデータの非識別化処理方法 Download PDF

Info

Publication number
JP6829762B2
JP6829762B2 JP2019517743A JP2019517743A JP6829762B2 JP 6829762 B2 JP6829762 B2 JP 6829762B2 JP 2019517743 A JP2019517743 A JP 2019517743A JP 2019517743 A JP2019517743 A JP 2019517743A JP 6829762 B2 JP6829762 B2 JP 6829762B2
Authority
JP
Japan
Prior art keywords
abstraction
value
field
data
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019517743A
Other languages
English (en)
Other versions
JP2019523958A (ja
Inventor
ウォン・スク・イ
Original Assignee
ボアラ・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ボアラ・カンパニー・リミテッド filed Critical ボアラ・カンパニー・リミテッド
Publication of JP2019523958A publication Critical patent/JP2019523958A/ja
Application granted granted Critical
Publication of JP6829762B2 publication Critical patent/JP6829762B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Description

本発明は、ビッグデータの非識別化処理方法に関し、より詳しくは、個人情報流出の恐れなく、外部システムに自由に流通することができ、別の環境で生成されたデータを連携して様々な用途に活用可能なビッグデータの非識別化処理方法に関する。
ビッグデータとは、従来の企業環境や公共機関で使われる構造化データはもちろん、電子商取引データ、メタデータ、ウェブログ、無線識別(RFID)データ、センサネットワークデータ、ソーシャルネットワークデータ、ソーシャルデータ、インターネットテキストと文書、インターネット検索インデクシングなど、従来では活用できなかった非構造化又は半構造化データをいずれも含むデータであって、このようなデータは、通常のソフトウェアツール及びコンピュータシステムでは取扱い難い水準のデータ量を有するという意味で、ビッグデータ(Big Data)と称している。
ビッグデータが様々な価値を作出し始めつつ、ビッグデータを原油に比喩し始めた。油がないと機器が作動しないように、ビッグデータなしに情報時代で生活することができないという意味である。米国の市場調査機関ガートナーは、データは未来競争力を左右する21世紀原油であり、企業は、近づいてくるデータ経済時代を理解し、これに対比すべきであると強調した。21世紀企業に最も重要な資産は、データであり、これを管理し、ここで価値を導出しないと、競争で生き延びることができないという意味である。
近年になって、企業だけでなく、政府でも、様々に収集されたビッグデータ情報、及びそれを活用した統計分析データを、意思決定と政策決定などに積極的に活用しようとする試みが続けており、ビッグデータを活用して、データ中心のコンピュータ環境を構築するためのビッグデータ処理技術が盛んに研究されている。
一方、ビッグデータは、該当資料が収集される組織内で分析して活用することになるが、資料を収集する組織によって、収集されるデータの属性に差があり、他の組織の資料を活用する必要が生じ、資料を収集する能力やシステムが揃えていない組織の場合も、他組織のビッグデータやそれらの組み合わせから、該当組織が独特に要する情報を分析して、意思決定に活用する必要性が台頭している。
しかし、ビッグデータの性格上、データの量が膨大であるだけでなく、大部分のビッグデータには、個人身元に関する情報が必然的に含まれるしかなく、個人身元情報の流出による法的紛争が生じる所持が多いため、ビッグデータの組織間の交流や流通には限界があり、これによって、ビッグデータの収集が可能な組織の立場では、個人身元情報の流出による法的紛争の発生を避けるために、ビッグデータ自体を事業的な目的に加工して流通するよりは、特定の目的に必要な情報のみを対象に、これを群集化(clustering)作業や統計分析作業を通じて統計的情報水準に加工して提供している実情であるので、ビッグデータの活用を要する組織の立場では、組織の独特な事業環境に必ず要する分析資料を獲得し難いという問題点があった。
一方、統計結果データではなく、統計分析用としてのビッグデータ自体を事業的な目的に加工して流通するために、マスキング、置換、半識別化、類型化などを通じて、個人属性を非識別化する方法が一角で適用されている。
マスキングは、対象情報をマスキング又は削除することであり(例;670101-10491910 → **************)、置換は、対象情報に対応して生成された情報に置換することであり(例;670101-10491910 → ID2311331)、半識別化は、対象情報の一部だけが示されるように半識別化することであり(例;670101-10491910 → 67-1)、類型化は、対象情報を類型化して区分する方式(例;670101-10491910 →男)である。
しかし、個人情報を、マスキング、置換、半識別化、類型化などによって非識別化するとしても、マッシュアップ(Mash-Up)や個人の特定情報及びその組み合わせを通じた逆追跡などにより、個人情報流出の危険が存在するという不都合があり、また、別の環境で独立して生成されたビッグデータの連携分析が難しいという問題点があった。
本発明は、このような問題点を解決するためになされたものであって、データの非識別化、すなわち、脱個人情報を完璧に行うことで、ビッグデータの流通に際して、特定個人が再識別化されることを根本的に防止し、敏感な個人情報に対して、個々人に対する許諾を受ける必要なく、安全に流通用として活用可能なビッグデータの非識別化処理方法を提供することにその目的がある。
本発明の他の目的は、個々の所要先で独特に要する分析用情報を適切に選別加工して提供可能なビッグデータの非識別化処理方法を提供することにある。
本発明の更に他の目的は、別の環境で独立して生成された2以上のビッグデータを、必要によって、様々に連携して分析に活用可能なビッグデータの非識別化処理方法を提供することにある。
本発明は、流通用に活用されるビッグデータは、個々人に対する特定情報の活用よりは統計分析用であり、データ全体に対する統計分析は、データの一部の統計分析をまず行った後、これを組合わせて分析するとしても、結果において、大きな差がないということに着眼してなされた発明である。
上記の目的を達成するための本発明によるビッグデータの非識別化処理方法は、通信部、処理部、及び格納部を備えるデータサーバで行なわれるビッグデータの非識別化処理方法であって、前記処理部が、有無線ネットワークを介して連結された端末から、前記通信部を介して収集されるデータを、前記データサーバの格納部に格納する段階と、前記処理部が、前記データを構成する原本レコードのうち、少なくとも2以上のレコードを組み合わせて、原本レコードとは異なるレコードを生成するデータ抽象化段階とを含み、前記データ抽象化段階は、前記データを構成する前記原本レコードのそれぞれのフィールドの少なくとも1以上のフィールドを、抽象化基準フィールドに設定し、前記抽象化基準フィールド以外のフィールドの少なくとも1以上のフィールドを、抽象化対象フィールドに設定する段階と、前記原本レコードのうち、前記抽象化基準フィールドの値が同一のレコードを少なくとも2以上選択する段階と、前記選択された複数のレコードを、前記抽象化基準フィールドと前記抽象化対象フィールドを含む1つの抽象化レコードに抽象化し、前記抽象化レコードの前記抽象化基準フィールドの値は、前記選択された複数レコードの共通する該当フィールド値に割り当て、前記抽象化レコードの前記抽象化対象フィールドの値は、前記選択された複数レコードの該当フィールド値を代表する代表値に変換した後、これを該当抽象化対象フィールドの値に割り当てる段階と、前記処理部が、前記抽象化レコードを、前記抽象化データのレコードとして前記格納部に格納する段階とを備えることを特徴とする。
本発明の上記のような特徴によると、ビッグデータを構成する複数のフィールドのうち、統計分析の基準となるフィールドと、統計分析の対象となるフィールドとを選択して流通用ビッグデータを生成し、複数の原本レコードを、原本レコードの値とは異なるフィールド値を有し、統計分析本来の意味を維持する1つの抽象画レコード(Abstracted Record)に抽象化(Abstracting)することで、統計分析の価値を有する新たな情報を得、且つ、個人の特定情報及びその組み合わせによる逆追跡を根本的に防止するビッグデータを提供することができる。
抽象化基準フィールドとは、データ抽象化を行う基準となるフィールドをいい、原本レコードの該当フィールドが連続数値データ型である場合、ヒストグラム、ピニング(Binning)、群集化方式などで前処理して、該当属性を不連続(Discrete)のカテゴリ型データに変換した後、抽象化基準フィールドを選択するのが望ましい。
抽象化対象フィールドは、統計値算定の対象となるフィールドであって、抽象化対象フィールドが数値データ型である場合、抽象化レコードの該当フィールド値である代表値は、一般的に平均値が適用されるが、フィールド値の内容によって、平均、メディアン、最大値、最頻値、サンプリングなどの集計関数を適用して算出することができ、数値データではなく場合、合集合、交集合、サンプリング、頻発行為元素、群集化、ヒストグラムなどの統合関数を適用して算出することができる。
1つの抽象化レコードに含まれる原本レコードは、それぞれの抽象化レコードに対して、一定数(N)として選択するのが望ましいが、それぞれの抽象化レコードに互いに異なる数の原本レコードが含まれるように選択してもよい。
本発明の更に他の特徴は、前記データ抽象化段階の前に、更に、前記処理部が、前記原本レコードを、前記抽象化基準フィールドの値を基準に整列する段階と、前記整列された原本レコードを基に、前記抽象化基準フィールドの値が同一のレコードのうち、抽象化対象フィールドの値が、他のレコードの該当抽象化対象フィールドの値と比較して、所定の基準以上の偏差があると判断される場合、該当レコードを、前記抽象化対象から除く段階とを備える。
本発明の上記のような特徴によると、複数の原本レコードを、1つの抽象化レコードに抽象化して、抽象化データを生成することにおいて、統計の正確度に悪影響を及ぼすレコードを、抽象化対象から除くことで、統計分析の正確度をより向上することができる。
本発明は、前記代表値を、該当抽象化対象フィールドの値に割り当てる前に、前記選択された原本レコードのうち、該当抽象化対象フィールドの値が、前記代表値と同一値を有するレコードがあるか否かを判断して、同一値を有するレコードがあると、前記選択された原本レコードの該当抽象化フィールドの値にはない他の値に該当代表値を補正して割り当てることに他の特徴がある。
本発明の前記のような特徴によると、抽象化レコードの抽象化対象フィールド値に、原本レコードと同一のフィールド値が代表値に割り当てられることを排除することで、個人の特定情報及び組み合わせによる逆追跡をより確実に防止することができる。
本発明の更に他の特徴は、前記選択される前記抽象化基準フィールド又は抽象化対象フィールドの値が、個人の識別に関わる内容である場合、該当フィールドの値を、該当フィールド値が1つの元素として含まれるグループ値に変換して、該当抽象化基準フィールド又は抽象化対象フィールドとして選択することにある。
「個人の識別に関わる内容を有するフィールド」とは、個人の住民録番号、年齢、居住地などのように、その自体として個人を識別するか、他のデータとの組み合わせによって、容易に個人を識別する内容をフィールド値として有するフィールドをいい、「該当フィールド値が1つの元素として含まれるグループ値」とは、住民登録番号又は年齢から抽出した年齢帯、居住地から抽出した洞や都市、距離などの情報などをいう。
あるフィールド値を前記のようにグループ値として抽出する技術自体は、前述したように、データの非識別化に通常適用されている技術であるが、本発明の前記のような特徴によると、データの抽象化と抽象化が共に行われることで、個人の特定情報及びその組み合わせによる逆追跡をより確実に防止することができる。
本発明の更に他の特徴は、 前記抽象化レコードに含まれる複数の原本レコードの前記抽象化基準フィールドのフィールド値の分布情報をフィールド値として有する分布値フィールド、又は前記抽象化レコードに含まれる複数の原本レコードの前記抽象化対象フィールドのフィールド値の分布情報をフィールド値として有する分布値フィールドの少なくともいずれか1つを含む。
分布値フィールドのフィールド値は、通常の分布関数として算出することができ、代表的な類型は、平均、標準偏差、中間値(Median)、quartile-quartile distance(Q3-Q1)、最大値、|最大値−最小値|、又は互いに異なる属性値数などである。
例えば、抽象化基準フィールドとして、原本レコードの住民登録番号フィールドの生年月日情報から算出された年齢帯が選択され、いずれか1つの抽象化レコードの抽象化基準フィールドのフィールド値が40代であり、この抽象化レコードに3つの原本レコードが含まれ、この原本レコードのそれぞれの年齢帯が43歳、47歳、42歳と仮定し、抽象化レコードに含まれる分布値フィールドのフィールド値を、中間値に設定した。仮定すると、該当分布値フィールドのフィールド値は、47となる。
本発明の前記のような特徴によると、前記分布値フィールドを媒介に、別の環境で独立して生成された2以上のビッグデータを、必要によって、多様に連携して分析に活用することができるようになり、統計データの信頼性をより向上することができる。
本発明は、選択される抽象化基準フィールド又は抽象化対象フィールドの値が、個人の識別に関わる内容である場合、該当フィールドの値をハッシュ関数に変換して、該当抽象化基準フィールド又は抽象化対象フィールドとして選択することに他の特徴がある。
本発明の前記のような特徴は、ハッシュ関数(Hash Function)が不可逆的な一方向関数であって、ハッシュ値で原データ値を再現することができないという特性を適用したことであって、例えば、該当フィールドの値を以下のように定義されるハッシュ関数g(x)に変換して、抽象化基準フィールド又は抽象化対象フィールドのフィールド値として選択することができる。
g(x)= f(x) mod m
f(x): 無作為関数、ハッシュドメイン: (0...m−1)
本発明の前記のような特徴によると、ハッシュ関数によるフィールド値の非可逆暗号化とデータの抽象化が共に行われることで、個人の特定情報及びその組み合わせによる逆追跡をより確実に防止することができる。
本発明は、前記抽象化基準フィールド及び抽象化対象フィールド設定段階の以後に、前記原本レコードを、前記抽象化基準フィールドを基準に整列した後、前記整列順序に沿って、抽象化基準フィールドの値が同一の複数のレコードを選択し、前記データ抽象化段階を行って、前記抽象化データを生成し、前記抽象化基準フィールドのいずれか1つの整列方式に従う抽象化データ生成が完了した後、前記抽象化基準フィールドの他の整列方式を適用して、前記原本レコードを整列した後、該当整列順序に沿って、前記抽象化基準フィールドの値が同一の複数のレコードを選択して、前記データ抽象化段階を再び行うことに他の特徴がある。
本発明の前記のような特徴によると、いずれか1つの原本レコードが、複数の抽象化レコードに含まれるように抽象化される。
すなわち、同一の原本レコードが含まれた複数の抽象化レコードは、抽象化基準フィールドと抽象化対象フィールドに対応する分布値フィールドのフィールド値が様々に現れ、これによって、分布値フィールドを必要によって様々に連携して分析に活用することができ、統計データの信頼性をより向上することができる。
本発明の更に他の特徴は、前記原本データは、身元テーブルと、前記身元テーブルの各個人の行為に対するログテーブルとからなり、前記抽象化データは、抽象化身元テーブルと抽象化ログテーブルとからなり、前記データ抽象化段階において、前記身元テーブルの複数のログレコードを、1つの抽象化身元レコードに抽象化することで、前記抽象化身元テーブルを生成し、
前記テータ抽象化段階は、更に、前記抽象化身元テーブルに識別フィールドを付加する段階と、抽象化身元レコードの識別フィールドに識別値を割り当てる段階と、前記抽象化身元レコードに含まれる個人を特定するフィールドの値を前記識別値に対応させることで、該当識別値に該当する抽象化身元レコードに含まれた個人を特定する抽象化対象リストを生成する段階とを含み、前記テータ抽象化段階において、前記ログテーブルの複数のログレコードを、1つの抽象化ログレコードに抽象化することで、前記抽象化ログテーブルを生成し、
前記テータ抽象化段階は、前記抽象化ログテーブルに識別フィールドを付加する段階と、前記抽象化対象リストを参照して、前記ログテーブルのそれぞれのレコードのうち、前記抽象化身元レコードに含まれる複数の個人に対するログレコードを、1つの抽象化ログレコードに抽象化する段階と、該当抽象化身元レコードに割り当てられた識別値を含む識別値を、前記識別フィールドに割り当てる段階とを含むことにある。
本発明の前記のような特徴によると、原本データが身元テーブルとログテーブルに分離して形成されている場合にも、抽象化対象リストを通じて、それぞれの抽象化身元レコードに属する個人に対応する抽象化ログレコードを生成することができ、抽象化身元テーブル及び抽象化ログテーブルの識別フィールドによって、データの結合及び連携解析が可能となる。
本発明の更に他の特徴は、前記原本データは、身元テーブルと、前記身元テーブルの各個人の行為に対するログテーブルとからなり、前記抽象化データは、抽象化身元テーブルと抽象化ログテーブルとからなり、前記テータ抽象化段階において、前記ログテーブルの複数のログレコードを、1つの抽象化ログレコードに抽象化することで、前記抽象化ログテーブルを生成し、前記テータ抽象化段階は、更に、前記抽象化ログテーブルに識別フィールドを付加する段階と、抽象化ログレコードの識別フィールドに識別値を割り当てる段階と、前記抽象化ログレコードに含まれる個人を特定するフィールドの値を、前記識別値に対応させることで、該当識別値に該当する抽象化ログレコードに含まれた個人を特定する抽象化対象リストを生成する段階とを含み、前記テータ抽象化段階において、前記身元テーブルの複数の身元レコードを、1つの抽象化身元レコードに抽象化することで、前記抽象化身元テーブルを生成し、
前記テータ抽象化段階は、前記抽象化身元テーブルに識別フィールドを付加する段階と、前記抽象化対象リストを参照して、前記身元テーブルのそれぞれのレコードのうち、前記抽象化ログレコードに含まれる複数の個人に対する身元レコードを、1つの抽象化身元レコードに抽象化する段階と、該当抽象化ログレコードに割り当てられた識別値を含む識別値を、前記識別フィールドに割り当てる段階とを含むことにある。
本発明の前記のような特徴によると、原本データが、身元テーブルとログテーブルに分離して形成されている場合、抽象化対象リストから、それぞれの抽象化ログレコードに属する個人に対応する抽象化身元レコードを生成することができ、抽象化ログテーブル及び抽象化身元テーブルの識別フィールドから、データの結合及び連携解析が可能となる。
また、本発明は、通信部、処理部、及び格納部を備えるデータサーバで行なわれるビッグデータ処理方法であって、前記処理部が、有無線ネットワークを介して連結された端末から、前記通信部を介して収集されるデータを、前記データサーバの格納部に格納する段階と、前記処理部が、前記データを構成する原本レコードのうち、少なくとも2以上のレコードを組み合わせて、原本レコードとは異なるレコードを生成するデータ抽象化段階とを含み、前記データ抽象化段階は、前記データを構成する前記原本レコードのそれぞれのフィールドの少なくとも1以上のフィールドを抽象化基準フィールドに設定し、前記抽象化基準フィールド以外のフィールドのうち、数値データ型を有する少なくとも1以上のフィールドを、抽象化対象フィールドに設定する段階と、前記原本レコードの前記抽象化対象フィールドのフィールド値からなる補正リストを生成する段階と、前記補正リストから重複値を除いた後、フィールド値のサイズ順に整列する段階と、前記整列された補正リストのそれぞれのフィールド値に対して、該当フィールド値に近接した少なくとも1以上のフィールド値と、該当フィールド値の平均値を算出して、該当フィールド値に対応する抽象化値に対応させる段階と、前記抽象化基準フィールドと前記抽象化対象フィールドを含む抽象化レコードを生成し、前記抽象化レコードの前記抽象化基準フィールドのフィールド値は、前記原本レコードの該当フィールド値に割り当て、前記抽象化レコードの前記抽象化対象フィールドのフィールド値は、前記原本レコードの該当フィールド値に対応する前記抽象化値に割り当てる段階と、前記抽象化レコードを、前記抽象化データのレコードとして前記格納部に格納する段階とを備えるビッグデータの非識別化処理方法に特徴がある。
本発明の前記のような特徴は、原本レコードの特定フィールドのフィールド値を、該当フィールド値と、これに近接した他のフィールド値との平均値に変換して、元のフィールド値と異なる値に抽象化しても、データ全体に対する統計分析は、元のフィールド値とする場合と差がないということに着眼して行われている。
本発明の前記のような特徴によると、ビッグデータを構成する複数のフィールドのうち、統計分析の基準となるフィールドと、統計分析の対象となるフィールドとを選択して流通用ビッグデータを生成し、原本レコードの数値データ型フィールドを、原本レコードの値とは異なるフィールド値を有し、統計分析本来の意味を維持する抽象化値に対応させることで、統計分析の価値を有する新たな情報を得、且つ、個人の特定情報及びその組み合わせによる逆追跡を根本的に防止するビッグデータを提供することができる。
本発明は、前記整列された補正リストのそれぞれのフィールド値に対して、該当フィールド値に隣接したフィールド値との遊隙値を算出して、該当フィールド値に対応する遊隙リストを生成し、算出遊隙値が所定の臨界値をはずれる場合、該当遊隙値を前記臨界値に代置して、遊隙リストを生成する段階を備え、前記整列された補正リストのそれぞれのフィールド値に対する平均値の算出において、該当フィールド値に隣接したフィールド値は、該当フィールド値に前記遊隙リスト上の遊隙値を加減した値を適用して、平均値を算出することに他の特徴がある。
本発明の前記のような特徴によると、全体的な統計に悪影響を及ぼすフィールド値を臨界値に補正して適用することで、統計分析の精度を向上することができる。
本発明の更に他の特徴は、前記原本データは、身元データと、前記身元データの各個人の行為に対するログテーブルとからなり、前記身元データと前記ログテーブルお結合して、1つのテーブルに変換した後、前記変換されたテーブルのデータを対象に、前記データ抽象化段階が行われることにある。
本発明の前記のような特徴によると、原本データが身元テーブルとログテーブルに分離して形成されている場合にも、近接数値の平均による抽象化が可能となる。
本発明によると、ビッグデータを構成する複数のフィールドのうち、統計分析の基準となるフィールドと、統計分析の対象となるフィールドを選択して流通用ビッグデータを生成し、複数の原本レコードを、原本レコードの値とは異なるフィールド値を有し、且つ、統計分析本来の意味を維持する1つの抽象化レコードに抽象化することで、統計分析の価値を有する新たな情報を得、且つ、個人の特定情報及びその組み合わせによる逆追跡を根本的に防止するビッグデータを提供することができる。
また、原本レコードの数値データ型フィールドを、原本レコードの値とは異なるフィールド値を有し、且つ、統計分析本来の意味を維持する抽象化値に対応させることで、統計分析の価値を有する新たな情報を得、且つ、個人の特定情報及びその組み合わせによる逆追跡を根本的に防止するビッグデータを提供することができる。
更に、個々の所要先で独特に要する情報のみを適切に選別加工して提供することができる。
また、分布値フィールドを媒介に、別の環境で独立して生成された2以上のビッグデータを、必要によって、様々に連携して分析に活用可能となり、統計データの信頼性を向上することができる。
図1は、本発明のビッグデータ処理システムを形成するデータ中心のコンピュータ環境を説明する例示図である。 図2は、図1におけるデータサーバの主要構成を示すブロック図である。 図3は、本発明の一実施例によるデータ抽象化の基本的な段階を示すブロック図である。 図4は、本発明の他の実施例によるデータ抽象化の基本的な段階を示すブロック図である。
図1を参照すると、本発明のビッグデータ処理システムを形成するデータ中心のコンピュータ環境は、データサーバ110と、データサーバと有無線ネットワークを介して連結される多数のユーザ端末120とで構築される。
データ中心のコンピュータ(data-centric computing)環境とは、多数のユーザ端末120でリアルタイムで生成されるデータを活用して、ソーシャルネットワークサービス(Social Network Service、SNS)、スマートグリッド(smart grid)、知能型家電、実時間ストリーミング、又はリアルタイム意思決定などの様々な応用プログラムを提供するビッグデータ処理に基づく技術を意味する。
本発明によるビッグデータ処理システム及び方法は、多数のユーザ端末120と連結されたデータサーバ110によって具現され、多数のユーザ端末120で生成されるデータを収集し、これを処理した後、格納し、格納されたデータを要するユーザ端末120に提供することで、データ中心のコンピュータ応用が行える環境が構築される。
ここで、ユーザ端末120は、データサーバ110と連結されるように通信装置を搭載し、ユーザ端末120の運用によってデータが生成されるように、情報処理機能を備えるコンピュータ、ノート型PCのような情報処理端末、スマートフォン、タブレットPC、PDA(Personal Digital Assistant)などの移動通信端末、スマート家電機器、無線識別(RFID)データ、ブラックボックス、又はナビゲーションが運用される自動車、汽車、飛行機のような交通手段などを意味するが、これに限定されない。
図2に示しているように、データサーバ110は、通信部113を介して、多数のユーザ端末120と近距離無線通信、Wi-Fi、3G(3Generation)、LTE(Long Term Evolution)のような有無線ネットワークで連結されて、ユーザ端末120で生成されたデータを収集して格納部112に格納し、通常、複数のプロセッサからなる処理部111で収集されたデータを処理して格納するクラウドサーバ又はウェブサーバを意味するが、これに限定されない。
有無線ネットワークを介して連結された端末120から、通信部113を介して収集される原本データは、データサーバ110の格納部112に格納される。
近年になって、ネットワーク技術の発達及びスマートフォンの飛躍的な普及によって、企業及び機関で運営中のビッグデータ処理システムにおいて、1日生産されるログの量は、数十〜数百ギガバイトまで増加されており、原本ビッグデータのサイズは、TBを超えて、Exaバイト又はzetaバイトの範囲を有することになった。
本発明による処理部111は、格納部112に格納されている大容量のビッグデータを適切に処理し、分析に必要なデータを選択して抽象化することで容量を減らすと共に、非識別化して、流通用の非識別ビッグデータに加工して、格納部112に格納することになり、格納部112に相対的に小容量で格納された流通用非識別ビッグデータは、サーバの通信部113及び通信網を介して、該当分析及び活用が必要な所要先に伝送される。
図3は、本発明の一実施例によるデータ抽象化の基本的な段階を示すブロック図であって、以下、図3を参照して、データサーバの処理部で行われるビッグデータの非識別化処理方法を具体的に説明する。
まず、格納部112に格納されたデータを構成する原本レコードのそれぞれのフィールドのうち、ビッグデータの所要先で独特に要するフィールド情報のみを適切に選別するようになるが、少なくとも1以上のフィールドを抽象化基準フィールドに設定し(S10)、抽象化基準フィールド以外のフィールドの少なくとも1以上のフィールドを、抽象化対象フィールドに設定する(S20)。
抽象化基準フィールドは、データ抽象化を行う基準となるフィールドをいい、原本レコードの該当フィールドが連続数値データ型である場合、ヒストグラム、ピニング(Binning)、群集化方式などで前処理して、該当属性を不連続(Discrete)のカテゴリ型データに変換した後、抽象化基準フィールドを選択するのが望ましい。
抽象化対象フィールドは、統計値算定の対象となるフィールドであって、抽象化対象フィールドが数値データ型である場合、抽象化レコードの該当フィールド値である代表値は、通常、平均値が適用されるが、フィールド値の内容によって、平均、メディアン、最大値、最頻値、サンプリングなどの集計関数を適用して算出してもよく、数値データではない場合、合集合、交集合、サンプリング、頻発行為元素、群集化、ヒストグラムなどの統合関数を適用して算出してもよい。
処理部111により、原本レコードのうち、抽象化基準フィールドの値が同一のレコードが少なくとも2以上選択され(S30)、選択された複数のレコードが1つの抽象化レコードに抽象化される(S40)。
前記選択段階(S30)の前に、前記処理部により、前記データを前記抽象化基準フィールドの値を基準に整列する段階と、1つの抽象化レコードに含まれる原本レコードは、それぞれの抽象化レコードに対して、一定数(N)として選択するのが望ましいが、それぞれの抽象化レコードに互いに異なる数の原本レコードが含まれるように選択してもよい。
抽象化レコードは、抽象化基準フィールドと、前記抽象化対象フィールドとを含み、抽象化基準フィールドの値は、選択された複数レコードの共通する該当フィールド値に割当てられ(S41)、抽象化対象フィールドの値は、選択された複数のレコードの該当フィールド値を代表する代表値に変換された後、抽象化対象フィールドの値に割り当てられる(S42)。
抽象化対象フィールドが数値データ型である場合、抽象化レコードの該当フィールド値である代表値は、通常、平均値が適用されるが、フィールド値の内容によって、平均、メディアン、最大値、サンプリングなどの集計関数を適用して算出してもよい。
処理部111は、生成された抽象化レコードを格納部112に格納(S50)し、原本データ全体に亘って、S40〜S40の過程を繰り返すことになり、原本データ全体に亘って、データ抽象化作業が完了すると(S60)、作業を終了することになる(S70)。
前記で言及したデータ抽象化過程を具体的に説明すると、以下の通りである。
表1は、データ抽象化の前の原本データの簡単な例であって、住民登録番号、年齢、姓名、住所、所得が、原本レコードの各フィールドとして含まれている。
Figure 0006829762
選択される前記抽象化基準フィールド又は抽象化対象フィールドの値が、個人の識別に関わる内容である場合、該当フィールドの値を、該当フィールド値が1つの元素として含まれるグループ値に変換して、該当抽象化基準フィールド又は抽象化対象フィールドとして選択するのが望ましい。
表2は、データ抽象化のために、それぞれのフィールドを変換して、新たなフィールドに生成した例を示す。
Figure 0006829762
表3は、前記のように変換されたデータを、年齢層、性別、都市を抽象化基準フィールドとして選択し、所得を抽象化対象フィールドとして選択して、抽象化基準フィールドが同一のレコードを3つ(N=3)基本に選択し、選択された複数のレコードから、1つの抽象化レコードを生成した後、それぞれの抽象化レコードに対して、識別子(ID)を割り当てた例を示す。
抽象化基準フィールドである年齢層、性別、都市は、選択されたレコードに共通する値が割り当てられたことを示し、抽象化対象フィールドである所得フィールドの代表値として選択されたレコードの所得フィールド値の平均値を割り当てた例を示す。
識別子(ID)の値は、それぞれの抽象化レコードを唯一に区別するように生成される。
選択可能なレコードが1つだけ残るか、特定数の未満が残った場合、該当レコードは、抽象化対象から除くのが望ましい。
Figure 0006829762
以上で説明したようなデータ抽象化過程で整列された原本データを基に、前記抽象化基準フィールドの値が同じレコードのうち、抽象化対象フィールドの値が、他のレコードの該当抽象化対象フィールドの値と比較して、所定の基準以上の偏差があると判断される場合、該当レコードを前記抽象化対象から除くのが望ましい。
これにより、統計の正確度に悪影響を及ぼすレコードを抽象化対象から除くことで、統計分析の正確度をより向上することができる。
また、表4に示しているように、代表値を、該当抽象化対象フィールドの値に割り当てる前に、選択された原本レコードのうち、該当抽象化対象フィールドの値が前記代表値と同じ値を有するレコードがあるか否かを判断して、同じ値を有するレコードがあると、前記選択された原本レコードの該当抽象化フィールドの値にはない他の値に該当代表値を補正して割り当てることを意味する。
Figure 0006829762
補正値としては、抽象化レコードの該当属性値を、最大許容ノイズの臨界値以内の無作為値に変更した値を割り当てる。
これにより、抽象化レコードの抽象化対象フィールド値に、原本レコードと同一のフィールド値が代表値に割り当てられることを排除することで、個人の特定情報及びその組み合わせによる逆追跡をより確実に防止することができる。
一方、表2に示しているように、抽象化基準フィールド又は抽象化対象フィールドの値が個人の識別に関わる内容である場合、該当フィールドの値を、該当フィールド値が1つの元素として含まれるグループ値に変換して、該当抽象化基準フィールド又は抽象化対象フィールドとして選択するのが望ましい。
「個人の識別に関わる内容を有するフィールド」とは、個人の住民登録番号、年齢、居住地などのように、その自体で個人を識別するか、他のデータとの組み合わせによって容易に個人を識別する内容をフィールド値として有するフィールドをいい、「該当フィールド値が1つの元素として含まれるグループ値」とは、住民登録番号又は年齢から抽出した年齢帯、居住地から抽出した洞や都市、距離などの情報などをいう。
あるフィールド値を前記のようにグループ値として抽出する技術自体は、前述したように、データの非識別化に通常適用されている技術であるが、本発明によると、データの抽象化と抽象化が共に行われることで、個人の特定情報及びその組み合わせによる逆追跡をより確実に防止することができる。
一方、選択される抽象化基準フィールド又は抽象化対象フィールドの値が、個人の識別に関わる内容である場合、該当フィールドの値をハッシュ関数に変換して、該当抽象化基準フィールド又は抽象化対象フィールドとして選択することが可能である。
ハッシュ関数が不可逆的な一方向関数であり、ハッシュ値で円データ値を再現することはできないという特性を適用したものであって、例えば、該当フィールドの値をハッシュ関数g(x)に変換して、抽象化基準フィールド又は抽象化対象フィールドのフィールド値として選択することができる。
これにより、ハッシュ関数によるフィールド値の非可逆暗号化とデータの抽象化が共に行われることで、個人の特定情報及びその組み合わせによる逆追跡を、より確実に防止することができる。
一例として、変換関数g(x)をハッシュ関数と定義する場合、他の無作為関数f(x)に対して定められたハッシュドメイン(0..m−1)に制限された値が出るように、ハッシュ関数g(x)を、下記のように定義する。
g(x)=f(x) mod m
従って、個人署名値は、0からmまでの値と決められる。ある抽象化フィールドに対して、互いに異なる個人が異なるフィールド値を有しても、同一の変換値を有することができるが、mの値を大きくするほど、互いに異なる個人が同一の変換値を有する確率が減少することになる。
ハッシュ関数の具体例として、抽象化基準フィールドが住民登録番号の場合を挙げると、ハッシュ関数は、次のように定義され、該当ハッシュ関数による変換値は、表5のようになる。
g(住民番号)=(住民番号前後二桁) mod 1000
Figure 0006829762
以上の説明によると、いずれか1つの原本レコードは、いずれか1つの抽象化レコードに含まれるように抽象化されるが、いずれか1つの原本レコードが、複数の抽象化レコードに含まれるように抽象化されてもよい。
すなわち、前記抽象化基準フィールド及び抽象化対象フィールド設定段階の後に、前記原本レコードを、前記抽象化基準フィールドを基準に整列した後、前記整列順序に沿って、抽象化基準フィールドの値が同一の複数のレコードを選択し、前記データ抽象化段階を行って、前記抽象化データを生成し、前記抽象化基準フィールドのいずれか1つの整列方式による抽象化データ生成が完了した後、前記抽象化基準フィールドの他の整列方式を適用して前記原本レコードを整列した後、該当整列順序に沿って、前記抽象化基準フィールドの値が同一の複数のレコードを選択して、前記データ抽象化段階を再び行うようになると、いずれか1つの原本レコードが複数の抽象化レコードに含まれるように抽象化される。
表9は、表6の原本レコードに対して、表7及び表8のように整列順序を異ならせて、データ抽象化段階を2回施した抽象化データの例を示す。
Figure 0006829762
Figure 0006829762
Figure 0006829762
Figure 0006829762
これによると、同一の原本レコードが含まれた複数の抽象化レコードは、抽象化基準フィールドと抽象化対象フィールドに対応する分布値フィールドのフィールド値が様々に現れられ、それによって、分布値フィールドを必要によって多様に連携して分析に活用できるようになり、統計データの信頼性を、更に向上することができる。
次に、原本データが、身元テーブルと、前記身元テーブルの各個人の行為に対するログテーブルとからなる場合の抽象化データ生成過程を具体的に説明する。
表10は、ログテーブルの一例を示しており、ログテーブルは、サービスを活用して発生した個人のサービス要請/提供/使用内訳などから構成されるが、通常、半構造ログレコードは、個人の時空間的な行為状態変化を示すので、個人識別属性、時間属性、及び空間属性を基本的に有しており、該当時点に該当空間で該当個人が行った行為アイテムをフィールド値として半構造の形態で有している。
Figure 0006829762
まず、抽象化身元レコード別に求めた抽象化対象リストにある全ての個人を対象として、ログレコードを抽出し、該当抽象化身元レコードのログレコードセットとして生成する。
表11に示しているように、抽象化対象リストは、抽象化されたそれぞれの抽象化身元レコードに対して、該当抽象化身元レコードに含まれたそれぞれの個人を特定する属性(例:住民登録番号)を対応させることで生成される。
例えば、抽象化身元レコードid321の抽象化対象リストは、表11の通りであり、これを対象とした抽象化身元レコードid321のログレコードセットは、表12のように生成される。
Figure 0006829762
Figure 0006829762
このように、各抽象化身元レコードを対象に抽出されたログレコードを、1つの抽象化ログレコードに抽象化する。
それぞれの抽象化身元レコード別に抽出されたログレコードを、1つの抽象化ログレコードに抽象化するに際して、時間や空間条件を制約条件として、近接した空間や時間別に抽象化対象を選定することができる。
選定された統合対象であるログレコードは、様々な統合関数を適用して、1つの抽象化ログレコードに抽象化する。
統合関数としては、合集合、交集合、サンプリング、頻発 行為元素、群集化、ヒストグラムなどが挙げられる。
例えば、表11の抽象化身元レコードid321のログレコードセット(表12)に、各種の統合関数を適用する場合に生成される抽象化ログレコードは、以下の通りである。
抽象化対象を全体として、合集合で抽象化する場合、
Figure 0006829762
抽象化対象を全体として、交集合で抽象化する場合、
Figure 0006829762
時間又は空間条件を制約条件として、選択的に抽象化する例であって、7分以内個人行為の合集合、
Figure 0006829762
同一行政区別の個人行為の合集合。
Figure 0006829762
このように生成されるそれぞれの抽象化身元レコードと抽象化ログレコードは、格納部112にテーブル形態に順次格納されて、流通用ビッグデータを形成し、各テーブルの抽象化身元レコードと抽象化ログレコードとをマッチングすることで、個々の抽象化レコードとして形成される。
抽象化レコードへのマッチング・統合は、流通用ビッグデータを提供するサーバで行われてもよく、ビッグデータ使用先のサーバで行われてもよい。
以上で説明したように、本発明により生成されるビッグデータによると、抽象化データの抽象化基準フィールドは、同一の抽象化基準フィールドに抽象化された他の流通用の個人身元データと結合して連携分析することに活用される。
すなわち、本発明により、別の環境で独立して生成された2以上の流通用ビッグデータの連携活用が可能となる。
一方、データの連携分析に際して、類似した特性の抽象化レコードが連携されるようにすることで、連携の正確度を向上するために、抽象化基準フィールド又は抽象化対象フィールドの分布値が連携分析に活用することができる。
抽象化基準フィールド又は抽象化対象フィールドの分布値は、抽象化レコードに含まれる複数の原本レコードの抽象化基準フィールドのフィールド値の分布情報を意味し、該当分布情報をフィールド値として有する分布値フィールドが抽象化レコードに更に含まれる。
分布値フィールドのフィールド値は、通常の分布関数として算出されるが、代表的な類型は、平均、標準偏差、中間値(Median)、quartile-quartile distance(Q3−Q1)、最大値、|最大値-最小値|、又は互いに異なる属性値数などである。
例えば、抽象化基準フィールドとして、原本レコードの住民登録番号フィールドの生年月日情報から算出された年齢帯が選択され、いずれか1つの抽象化レコードの抽象化基準フィールドのフィールド値が40代であり、この抽象化レコードに、3つの原本レコードが含まれ、この原本レコードのそれぞれの年齢帯が43歳、47歳、42と仮定し、抽象化レコードに含まれる分布値フィールドのフィールド値を中間値に設定したと仮定すると、該当分布値フィールドのフィールド値は、47となる。
以下、具体例として、抽象化基準フィールド分布値フィールドと、抽象化分布値フィールドとを用いて、互いに独立して加工されたデータセットを連結する方法を、身元テーブルとログテーブルとからなる抽象化データを挙げて説明することにする。
まず、平均所得情報を込めている身元レコードAと、平均流動資産情報を込めている身元レコードBとがいずれも、同一の抽象化基準フィールドである年齢フィールドと性別属性に各々、別に本発明の抽象化方式で変換されていると仮定する。
また、Aには、各グループの所得最大値を抽象化分布値フィールドとして、Bには、流動資産の最大値を抽象化分布値フィールドとして追加していると仮定する。
抽象化基準フィールドの分布値フィールドである年齢分布値フィールドは、中間年齢であるメディアン(Median)値と同様に定義すると、表13に示しているように、AとBの各抽象化レコードに対して、分布値フィールドが更に生成される。
Figure 0006829762
各々変換された抽象化データセットAとBを、抽象化基準フィールドである年齢帯と性別に結合して、2データセットの抽象化基準フィールド分布値フィールドである、年齢分布値フィールド値の差が各々2以内である条件を満たす抽象化レコードだけを連結すると、表14のように、所得と流動資産抽象化のレコードが連結された2つの連結した抽象化身元レコードが生成される。
Figure 0006829762
このように、本発明によって形成される抽象化された非識別化ビッグデータは、別の環境で独立して生成された2つ以上のビッグデータの連携活用が可能となり、その過程は、以下の通りである。
2つの互いに異なるビッグデータA(抽象化身元レコードセットAS、抽象化ログレコードセットAL)と、B(抽象化身元レコードセットBS、抽象化ログレコードセットBL)が与えられた時、Aの抽象化身元レコードセットASと、Bの抽象化身元レコードセットBSが、前記表13、 表14で説明しているように連結される。
この結果を基に、Aの抽象化ログレコードセットALと、Bの抽象化ログレコードセットBL中に、同一の抽象化身元レコード別に結合して、AとBが統合した抽象化ログレコードを新たに生成して、2つの原始データに対するビッグデータ連携分析を行う。
抽象化身元レコードx∈ASと抽象化身元レコードy∈BSが前述しているように結合されていると、xの抽象化ログレコードv∈ALとyの抽象化ログレコードw∈BLは、同一の個人の行為内訳と見なされ、2つのビッグデータAとBを連携分析するとき、2つの抽象化ログレコード<v、w>が意味的に連結されていると仮定し、統合ビッグデータ(AL BL)に対する行為分析を行うことになる。
図4は、本発明の他の実施例によるデータ抽象化の基本的な段階を示すブロック図であって、以下、図4を参照して、データサーバの処理部で行われるビッグデータの非識別化処理方法を具体的に説明することにする。
まず、格納部112に格納されたデータを構成する原本レコードのそれぞれのフィールドのうち、ビッグデータの所要先で独特に要するフィールド情報のみを適切に選別するようになるが、少なくとも1以上のフィールドを抽象化基準フィールドに設定し(B10)、抽象化基準フィールド以外のフィールドのうち、数値データ型を有する少なくとも1つ以上のフィールドを、抽象化対象フィールドに設定する(B20)。
原本レコードの抽象化対象フィールドのフィールド値からなる補正リストを生成する(B30)。
前記補正リストから重複値を除去した後、フィールド値のサイズ順に整列する(B40)。
整列された補正リストのそれぞれのフィールド値に対して、該当フィールド値に近接した少なくとも1以上のフィールド値と該当フィールド値の平均値を算出して、該当フィールド値に対応する抽象化値に対応させる(B50)。
前記抽象化基準フィールドと前記抽象化対象フィールドとを含む抽象化レコードを生成し、前記抽象化レコードの前記抽象化基準フィールドのフィールド値は、前記原本レコードの該当フィールド値に割り当て、前記抽象化レコードの前記抽象化対象フィールドのフィールド値は、前記原本レコードの該当フィールド値に対応する前記抽象化値に割り当てる(B60)。
処理部111は、生成された抽象化レコードを格納部112に格納(B70)し、原本データの全体に亘って、B50、B60の過程を繰り返すことになり、原本データの全体に亘って、データ抽象化作業が完了すると(B70)、作業を終了することになる。
一方、近接フィールド値との平均値を算出することにおいて、他のフィールド値に比べて確実に大きいフィールド値が存在すると、全体的な統計に悪影響を及ぼすことになり、このようなフィールド値は、近接フィールド値との差が少ないように代置して平均値を算出することが、統計分析の精密度向上に役に立つ。
このために、次のように、遊隙値検査を施して、遊隙値が臨界値をずれる場合、これを他の値に代置して平均値を求めるのが望ましい。
すなわち、整列された補正リストのそれぞれのフィールド値に対して、該当フィールド値に隣接したフィールド値との遊隙値を算出して、該当フィールド値に対応する遊隙値リストを生成し、算出された遊隙値が所定の臨界値をずれる場合、該当遊隙値を前記臨界値に代置して、遊隙値リストを生成し、整列された補正リストそれぞれのフィールド値に対する平均値の算出に際して、該当フィールド値に隣接したフィールド値は、該当フィールド値に、前記遊隙値リスト上の遊隙値を加減した値を適用して、平均値を算出することになる。
前記で言及したデータ抽象化過程を具体例と共に説明すると、以下の通りである。
以下の表15は、データの抽象化が行われる前の原本レコードを示しており、抽象化基準フィールドは、年齢フィールドから変換される年齢帯フィールド、住民登録番号から生成される性別フィールド及び住所フィールドであり、抽象化基準フィールドとして、所得フィールドが選択される。
Figure 0006829762
抽象化基準フィールドである所得フィールド値を抽出して、補正リストを生成し(表16左)、重複値を除去した後、フィールド値のサイズ順に整列して、補正リストを生成する(表16右)。
Figure 0006829762
Figure 0006829762
臨界値は、データの性格によって、様々な方法で設定することができる。
例えば、臨界値を、全体の遊隙値の平均に標準偏差の1.5倍(平均+1.5×偏差)に設定することができる。
表17の例は、臨界値を870に設定して遊隙リストを作成したものであって、臨界値を超える900を、臨界値である870を代置した例を示す。
次に、表18は、整列された補正リストそれぞれのフィールド値に対する平均値の算出時、該当フィールド値に隣接したフィールド値は、該当フィールド値に、前記遊隙リスト上の遊隙値を加減した値を適用して、平均値を算出することを示す。
Figure 0006829762
補正リストには、重複値が除去されているので、補正リストのそれぞれのフィールド値には、1つの平均値が対応され、このように、それぞれのフィールド値に対応する平均値を、抽象化対象フィールドの抽象化値に割り当てることになり、抽象化基準フィールドのフィールド値は、前記原本レコードの該当フィールド値に割り当てる。
前述したように、本例では、抽象化基準フィールドのフィールド値が個人の識別に関わる内容であるので、該当フィールド値が1つの元素として含まれるグループ値などに変換して割り当てられる。
表19は、このように変換されたフィールドが含まれた原本レコードを示し、表20は、抽象化が完了したレコードを示している。
Figure 0006829762
Figure 0006829762
本実施例によると、ビッグデータを構成する様々なフィールドのうち、統計分析の基準となるフィールドと、統計分析の対象となるフィールドとを選択して、非識別化ビッグデータを生成し、原本レコードの数値データ型フィールドを、原本レコードの値とは異なるフィールド値を有し、統計分析本来の意味を維持する抽象化値、すなわち、隣接値との平均値に対応させることで、統計分析の価値を有する新たな情報を得、且つ、個人の特定情報及びその組み合わせによる逆追跡を根本的に防止するビッグデータを提供することができるようになる。
前記原本データが、身元テーブルとログテーブルとからなる場合にも、本実施例を適用することができ、身元テーブルとログテーブルとを結合して、1つのテーブルに変換した後、前記変換されたテーブルのデータを対象に、本実施例のデータ抽象化段階が行われる。
110 データサーバ
111 処理部
112 格納部
113 通信部
120 ユーザ端末

Claims (4)

  1. 通信部、処理部、及び格納部を備えるデータサーバで行なわれるビッグデータの非識別化処理方法であって、
    前記処理部が、有無線ネットワークを介して連結された端末から、前記通信部を介して収集されるデータを、前記データサーバの格納部に格納する段階と、
    前記処理部が、前記格納部に格納された原本データを構成する原本レコードのうち、少なくとも2以上のレコードを組み合わせて、前記原本レコードとは異なるレコードを生成して抽象化データを生成するデータ抽象化段階とを含み、
    前記データ抽象化段階は、
    前記原本データを構成する前記原本レコードのそれぞれのフィールドの少なくとも1以上のフィールドを、抽象化基準フィールドに設定し、前記抽象化基準フィールド以外のフィールドの少なくとも1以上のフィールドを、抽象化対象フィールドに設定する段階と、
    前記原本レコードのうち、前記抽象化基準フィールドの値が同一のレコードを少なくとも2以上選択する段階と、
    前記選択された複数のレコードを、前記抽象化基準フィールドと前記抽象化対象フィールドを含む1つの抽象化レコードに抽象化し、前記抽象化レコードの前記抽象化基準フィールドの値は、前記選択された複数レコードの共通する該当フィールド値に割り当て、前記抽象化レコードの前記抽象化対象フィールドの値は、前記選択された複数レコードの該当フィールド値を代表する代表値に変換した後、これを該当抽象化対象フィールドの値に割り当てる段階と、
    前記処理部が、前記抽象化レコードを、前記抽象化データのレコードとして前記格納部に格納する段階とを備え、
    前記代表値を、該当抽象化対象フィールドの値に割り当てる前に、前記選択された原本レコードのうち、該当抽象化対象フィールドの値が、前記代表値と同一値を有するレコードがあるか否かを判断して、同一値を有するレコードがあると、前記選択された原本レコードの該当抽象化対象フィールドの値にはない他の値に該当代表値を補正して割り当てることを特徴とするビッグデータの非識別化処理方法。
  2. 前記データ抽象化段階の前に、更に、
    前記処理部が、前記原本レコードを、前記抽象化基準フィールドの値を基準に整列する段階と、
    前記整列された原本レコードを基に、前記抽象化基準フィールドの値が同一のレコードのうち、抽象化対象フィールドの値が、他のレコードの該当抽象化対象フィールドの値と比較して、所定の基準以上の偏差があると判断される場合、該当レコードを、抽象化対象から除く段階とを、備えることを特徴とする請求項1に記載のビッグデータの非識別化処理方法。
  3. 前記抽象化レコードは、更に、前記抽象化レコードに含まれる複数の原本レコードの前記抽象化基準フィールドのフィールド値の分布情報をフィールド値として有する分布値フィールド、又は前記抽象化レコードに含まれる複数の原本レコードの前記抽象化対象フィールドのフィールド値の分布情報をフィールド値として有する分布値フィールドの少なくともいずれか1つを含むことを特徴とする請求項1に記載のビッグデータの非識別化処理方法。
  4. 前記抽象化基準フィールド及び抽象化対象フィールド設定段階の以後に、前記原本レコードを、前記抽象化基準フィールドを基準に整列した後、整列順序に沿って、抽象化基準フィールドの値が同一の複数のレコードを選択し、前記データ抽象化段階を行って、前記抽象化データを生成し、
    前記抽象化基準フィールドのいずれか1つの整列方式に従う抽象化データ生成が完了した後、前記抽象化基準フィールドの他の整列方式を適用して、前記原本レコードを整列した後、該当整列順序に沿って、前記抽象化基準フィールドの値が同一の複数のレコードを選択して、前記データ抽象化段階を再び行うことで、いずれか1つの原本レコードが、複数の抽象化レコードに含まれるように抽象化されることを特徴とする請求項1に記載のビッグデータの非識別化処理方法。
JP2019517743A 2016-06-09 2016-06-10 ビッグデータの非識別化処理方法 Active JP6829762B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2016-0071747 2016-06-09
KR1020160071747A KR101784265B1 (ko) 2016-06-09 2016-06-09 빅데이터의 비식별화 처리 방법
PCT/KR2016/006206 WO2017213281A1 (ko) 2016-06-09 2016-06-10 빅데이터의 비식별화 처리 방법

Publications (2)

Publication Number Publication Date
JP2019523958A JP2019523958A (ja) 2019-08-29
JP6829762B2 true JP6829762B2 (ja) 2021-02-10

Family

ID=60141322

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019517743A Active JP6829762B2 (ja) 2016-06-09 2016-06-10 ビッグデータの非識別化処理方法

Country Status (3)

Country Link
JP (1) JP6829762B2 (ja)
KR (1) KR101784265B1 (ja)
WO (1) WO2017213281A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019189969A1 (ko) * 2018-03-30 2019-10-03 주식회사 그리즐리 빅데이터 개인정보 익명화 및 익명 데이터 결합 방법
KR102035796B1 (ko) * 2018-07-26 2019-10-24 주식회사 딥핑소스 데이터를 비식별 처리하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
US11941153B2 (en) * 2019-05-31 2024-03-26 Boala Co., Ltd. De-identification method for big data
KR102260039B1 (ko) * 2019-08-13 2021-06-03 주식회사 딥핑소스 개인 정보 보호를 위하여 원본 데이터를 컨실링 처리하는 변조 네트워크를 학습하는 방법 및 테스트하는 방법, 그리고, 이를 이용한 학습 장치 및 테스트 장치
US10621378B1 (en) * 2019-10-24 2020-04-14 Deeping Source Inc. Method for learning and testing user learning network to be used for recognizing obfuscated data created by concealing original data to protect personal information and learning device and testing device using the same
US10621379B1 (en) * 2019-10-24 2020-04-14 Deeping Source Inc. Method for training and testing adaption network corresponding to obfuscation network capable of processing data to be concealed for privacy, and training device and testing device using the same
CN111182488B (zh) * 2019-12-05 2022-09-16 诺得物流股份有限公司 一种基于时间信道的溯源数据节能传输方法
CN111382952B (zh) * 2020-03-23 2022-06-28 福建省特种设备检验研究院 一种基于全面覆盖原则的电梯质量检查抽取方法
KR20220013314A (ko) 2020-07-24 2022-02-04 (주)이노코어 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템 및 방법
US11023777B1 (en) * 2020-09-25 2021-06-01 Deeping Source Inc. Methods for training and testing obfuscation network capable of performing distinct concealing processes for distinct regions of original image and learning and testing devices using the same
US11244248B1 (en) * 2020-10-21 2022-02-08 Deeping Source Inc. Method for training and testing user learning network to be used for recognizing obfuscated data created by obfuscating original data to protect personal information and user learning device and testing device using the same
US11200342B1 (en) * 2020-10-21 2021-12-14 Deeping Source Inc. Method for training and testing obfuscation network capable of processing data to be obfuscated for privacy, and training device and testing device using the same
KR102504531B1 (ko) * 2020-11-20 2023-02-28 (주)디지탈쉽 데이터 통합 분석을 위한 데이터 수집 처리 장치 및 방법
CN115118458B (zh) * 2022-05-31 2024-04-19 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4146634B2 (ja) * 2001-11-21 2008-09-10 エヌ・シー・エル・コミュニケーション株式会社 2次情報利用システム
JP3660667B2 (ja) * 2003-07-29 2005-06-15 株式会社東芝 データ処理装置、データ処理方法およびプログラム
JP5048417B2 (ja) * 2007-08-07 2012-10-17 株式会社富士通ビー・エス・シー データベース管理プログラム及びデータベース管理装置
KR101021763B1 (ko) * 2008-01-11 2011-03-15 주식회사 케이티 Ims 기반의 유무선 복합망에서의 지능형 개인화 정보 생성 장치, 시스템 및 방법
JP2010086179A (ja) * 2008-09-30 2010-04-15 Oki Electric Ind Co Ltd 情報処理装置、コンピュータプログラムおよび記録媒体
WO2010134440A1 (ja) * 2009-05-19 2010-11-25 株式会社エヌ・ティ・ティ・ドコモ データ結合システム及びデータ結合方法
WO2014050027A1 (ja) * 2012-09-28 2014-04-03 パナソニック株式会社 情報管理方法および情報管理システム
KR101463974B1 (ko) * 2014-05-26 2014-11-26 (주)시엠아이코리아 마케팅을 위한 빅데이터 분석 시스템 및 방법

Also Published As

Publication number Publication date
JP2019523958A (ja) 2019-08-29
KR101784265B1 (ko) 2017-10-12
WO2017213281A1 (ko) 2017-12-14

Similar Documents

Publication Publication Date Title
JP6829762B2 (ja) ビッグデータの非識別化処理方法
KR101630752B1 (ko) 유통용 비식별 빅데이터 처리 방법
Zimmer et al. A topology of Twitter research: disciplines, methods, and ethics
US20200005327A1 (en) Email communication analysis
US20170330197A1 (en) Methods and systems for managing compliance plans
US8819212B1 (en) Delegation of data classification using common language
US20140006332A1 (en) Scientometric Methods for Identifying Emerging Technologies
Mansouri et al. IoT data quality issues and potential solutions: a literature review
CN115687787A (zh) 产业政策目标群画像构建方法、系统及存储介质
US8396877B2 (en) Method and apparatus for generating a fused view of one or more people
CN105893212A (zh) 审计数据安全管控及展示系统
Fountzoula et al. Decision‐Making Methods in the Public Sector during 2010–2020: A Systematic Review
KR101959213B1 (ko) 침해 사고 예측 방법 및 그 장치
Borradaile et al. Whose tweets are surveilled for the police: an audit of a social-media monitoring tool via log files
McClure et al. Conservation Letter: Monitoring Raptor Populations–A Call for Increased Global Collaboration and Survey Standardization
US11196751B2 (en) System and method for controlling security access
Baumann et al. Who Runs the Internet?-Classifying Autonomous Systems into Industries.
Li et al. Quality factory and quality notification service in data warehouse
Shepherd et al. Are ISO 15489‐1: 2001 and ISAD (G) compatible? Part 1
KR102640123B1 (ko) 빅데이터의 비식별화 처리방법
KR101752259B1 (ko) 고부가 가치화 콘텐츠 관리 장치 및 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램
Shrestha et al. High-performance classification of phishing URLs using a multi-modal approach with MapReduce
CN112966024A (zh) 一种基于大数据的金融风控数据分析系统
CN109726178B (zh) 非结构化文件的交互应用方法、装置、计算机设备和存储介质
US20150324813A1 (en) System and method for determining by an external entity the human hierarchial structure of an rganization, using public social networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200114

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20200121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200923

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210122

R150 Certificate of patent or registration of utility model

Ref document number: 6829762

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250