JP2019512128A - データの秘匿性−実用性間のトレードオフを算出するためのシステムおよび方法 - Google Patents

データの秘匿性−実用性間のトレードオフを算出するためのシステムおよび方法 Download PDF

Info

Publication number
JP2019512128A
JP2019512128A JP2018544339A JP2018544339A JP2019512128A JP 2019512128 A JP2019512128 A JP 2019512128A JP 2018544339 A JP2018544339 A JP 2018544339A JP 2018544339 A JP2018544339 A JP 2018544339A JP 2019512128 A JP2019512128 A JP 2019512128A
Authority
JP
Japan
Prior art keywords
data
buckets
confidentiality
attribute
bucket
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018544339A
Other languages
English (en)
Other versions
JP6892454B2 (ja
Inventor
ディリーズ トーマス,
ディリーズ トーマス,
サチン プレムスク ロダ,
サチン プレムスク ロダ,
ヴィジェイアナンド マハデオ バナハッティ,
ヴィジェイアナンド マハデオ バナハッティ,
キショール パドマナブハン,
キショール パドマナブハン,
カリヤニ マシワル,
カリヤニ マシワル,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of JP2019512128A publication Critical patent/JP2019512128A/ja
Application granted granted Critical
Publication of JP6892454B2 publication Critical patent/JP6892454B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K1/00Secret communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0407Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the identity of one or more communicating identities is hidden
    • H04L63/0421Anonymous communication, i.e. the party's identifiers are hidden from the other party or parties, e.g. using an anonymizer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/02Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/04Masking or blinding
    • H04L2209/046Masking or blinding of operations, operands or results of the operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/42Anonymization, e.g. involving pseudonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)
  • Cephalosporin Compounds (AREA)

Abstract

データの秘匿性−実用性間のトレードオフを算出するための方法およびシステムが開示される。データマーケットプレイスのような大規模なデータハブは、データの買い手にとって実用的となり得るデータソースである。しかしながら、データの売り手に提供される出力データは、データの売り手の秘匿性要件を満たす必要があり、同時に、データの買い手にとってのある程度の実用性レベルを維持する必要がある。データ秘匿性を達成する従来既知の方法は、データのコンポーネントを圧縮する傾向にあるが、これは、データの実用性を減少させることに繋がる。本発明のシステムおよび方法は、このトレードオフを算出し、データがデータの売り手と共有化される際の共有前のデータ変換の必要性を立証するものである。【選択図】図2

Description

関連出願への相互参照および優先権
本出願は、2016年2月22日付けで出願されたインド国仮特許出願第201621006136号に基づく優先権を主張し、該出願の開示の全てが、参照によりここに援用される。
本発明は、一般に、情報セキュリティに関し、より具体的には、データの秘匿性(privacy)と実用性(utility)との間のトレードオフを評価するためのシステムおよび方法に関する。
一般的に、秘匿性(プライバシー)は、公に公開されない状態、または、他の人によって観測または阻害されない状態を指す。分散された情報源の機密データが互いにリンクされる場合、秘匿性に対する脅威を考慮せざるを得なくなる。グローバル化の時代において、各組織は、競争力を維持するために、ビジネス上の関係者に対してマイクロデータ(micro-data)を公開する必要が出てくるであろう。このことは、個人のプライバシーをリスクに曝すことに繋がる。また、今日において、スマートフォンおよびタブレットに対する人々の依存は非常に大きなものとなっている。これらデバイスは、人々が実行可能な膨大な数の操作によって、大量の個人情報を保持している。人々は、自身の銀行口座にアクセスし、買い物を実行し、支払いを実行する。そのため、このようなデバイスが、サイバー犯罪の潜在的な標的となる。行動学的な側面もまた、プライバシーリスクを高める。人々は、だれが自分たちを追跡しているか、追跡情報がどのように用いられるかについて、いつも承知しているわけではない。そのため、身元情報(アイデンティティ)の窃盗を防止することは、健康業界、金融業、政府、製造業、銀行、小売りビジネス、保険業、外注業を含む大部分の分野において最も優先度の高い事項の1つである。
プライバシーリスクを克服するために、従来、名前、社会保障番号(SSN)、運転免許証番号等のような個人を明確に特定可能な属性を除去または乱数値によって抑制(suppressed)することが一般的に行われている。例えば、医療データベースの一部分である以下の表を検討する。表(a)はマイクロデータに関するものであり、表(b)は公開データまたは投票登録データである。
テーブル(a):医療データ(マイクロデータ)
Figure 2019512128
テーブル(b):投票登録データ(公開)
Figure 2019512128

表(a)の属性「病気」は、機密属性である。個人が属性の開示を希望しない場合、または、敵対者がその属性の値を発見することを認めてはならない場合に、属性が機密と呼ばれる。属性{性別、生年月日、郵便番号}の集合は、準識別子(QI:Quasi Identifier)属性と呼ばれる。上の2つの表のQI属性をリンクさせることによって、敵対者は、投票登録データから、属性「氏名」を特定することができてしまう。機密属性は、彼ら/彼女ら自身にとっては機密ではないが、特定の値またはそれらの組み合わせが外部の情報にリンクされ、個人の機密情報が間接的に暴露されてしまう可能性がある。そのため、準識別子は、組み合わされたとき、個人を特定する情報となり得る。準識別子は、公表されたデータに対するいくつかの攻撃の土台となってきている。したがって、準識別子を認識し、さらに、それらに適切な保護尺度を適用し、身元情報の公開リスクを低減させることは、非常に重要である。
抑制された医療データを有する表(c)と上記の表(b)とが自然結合されると、以下に説明するように、準識別子の助けによって、個人を容易に再特定することが可能となる。
表(c):抑制された医療データ(マイクロデータ)
Figure 2019512128

表(d):抑制された表(c)と表(b)の結合:表(c)からの氏名、性別、生年月日、郵便番号、病気を、表(b)に自然結合させる。
Figure 2019512128
データの秘匿性は、データ取引において非常に重要な役目を果たす。秘匿性を維持するためのデータ変換を実行するよう構成されたデータ公開技術が複数存在している。しかしながら、データの特定のコンポーネントの一般性と抑制は、消費者によって導出され得るデータの値およびデータの実用性に影響を与え得ることに留意すべきである。秘匿性と実用性との間のトレードオフを定量化することは、データの売り手およびデータの買い手が詳細な情報を得た上での決定を実行するために、対応が必要とされる課題である。
本発明の実施形態は、本発明者によって認識された従来のシステムにおける1つ以上の上述の技術的問題に対する解決法として、技術的改善を提供する。
1つの態様において、方法が提供される。該方法は、データ接続器(data connector)によって、1人以上のデータの買い手によるデータ消費を可能とするために、1つ以上のデータソースからデータを受信する工程と、流入データ分析器(inflow data analyzer)によって、受信されたデータを分析し、受信されたデータのメタデータを抽出および処理する工程と、流入データ分析器によって、データに関連付けられた事前定義された知識ベースに基づいて、処理されたメタデータから少なくとも1つの機密属性を含む検索空間を特定する工程と、敵対者モデル生成器(adversary model generator)によって、検索空間を、関連付けられた秘匿性データを有する少なくとも1つの機密属性にそれぞれ対応する複数のバケットの複数のセットに区分化することにより、敵対者モデルを生成する工程と、敵対者モデル生成器によって、複数のバケットの複数のセットのそれぞれのバケット数を算出し、さらに、複数のバケットの複数のセットから、複数のバケットの複数のバケット組み合わせを生成する工程と、敵対者モデル生成器によって、少なくとも1つの機密属性のそれぞれに関連付けられた秘匿性データを、複数のバケットから得られるマスキングバケット(masking bucket)に置き換える工程と、敵対者モデル生成器によって、秘匿性データに割り当てられたマスキングバケットに基づいて、複数のバケット組み合わせのそれぞれのエンティティー数(entity count)を算出する工程と、敵対者モデル生成器によって、算出されたエンティティー数および事前定義された秘匿性しきい値に基づいて、匿名性インデックス(anonymity index)を算出する工程と、データマスキングモジュールによって、算出された匿名性インデックスに基づいて、秘匿性データをサニタイズすることにより(sanitize:秘密にするべき情報を除去すること)、出力データを生成する工程と、を含む。
異なる1つの態様において、システムが提供される。該システムは、1つ以上のプロセッサーと、1つ以上のプロセッサーに動作可能に接続され、1つ以上のプロセッサーによって実行可能に構成された複数の命令を保存している1つ以上の内部データ記憶デバイスと、を含み、複数の命令は、1人以上のデータの買い手によるデータ消費を可能とするために、1つ以上のデータソースからデータを受信するよう構成されたデータ接続器と、受信されたデータを分析し、受信されたデータのメタデータを抽出および処理し、さらに、データに関連付けられた事前定義された知識ベースに基づいて、処理されたメタデータから少なくとも1つの機密属性を含む検索空間を特定するよう構成された流入データ分析器と、検索空間を、関連付けられた秘匿性データを有する少なくとも1つの機密属性にそれぞれ対応する複数のバケットの複数のセットに区分化することにより、敵対者モデルを生成し、複数のバケットの複数のセットのそれぞれのバケット数を算出し、さらに、複数のバケットの複数のセットから、複数のバケットの複数のバケット組み合わせを生成し、少なくとも1つの機密属性のそれぞれに関連付けられた秘匿性データを、複数のバケットから得られるマスキングバケットに置き換え、秘匿性データに割り当てられたマスキングバケットに基づいて、複数のバケット組み合わせのそれぞれのエンティティー数を算出し、算出されたエンティティー数および事前定義された秘匿性しきい値に基づいて、匿名性インデックスを算出し、受信されたデータに基づいて敵対者モデルを継続的に学習および更新するよう構成された敵対者モデル生成器と、算出された匿名性インデックスに基づいて、秘匿性データをサニタイズすることにより、出力データを生成するよう構成されたデータマスキングモジュールと、受信されたデータに基づいて、データの売り手に対する推奨を提供する決定支援モジュールと、1人以上のデータの買い手の要求にマッチングする出力データを評価するよう構成された流出データ分析器(outflow data analyzer)と、決定支援モジュールによる推奨に基づいて、公開計画を決定するよう構成されたデータ公開管理モジュールと、出力データに基づいて、評価報告および警告を生成するよう構成された報告および警告管理モジュールと、出力データに関連付けられたイベントを記録するよう構成されたイベント記録モジュールと、を含む。
1つの実施形態において、本発明のシステムは、さらに、秘匿性データとバランスされたバケットの中間点(mid-point)に基づいて、実用性インデックス(utility index)を算出し、複数のバケットと複数のバランスされたバケットとの間の変動の数に基づいて、属性変動を算出するよう構成されたデータ秘匿性−実用性トレードオフ計算器(data privacy-utility tradeoff calculator)を含む。
異なる1つの実施形態において、コンピュータープログラム製品が提供される。該コンピュータープログラム製品は、内部において具体化(embodied)されたコンピューター可読プログラムを有する非一時的コンピューター可読媒体(non-transitory computer readable medium)を含み、該コンピューター可読プログラムは、演算デバイスにおいて実行されたとき、演算デバイスに、1人以上のデータの買い手によるデータ消費を可能とするために、1つ以上のデータソースからデータを受信し、受信されたデータを分析し、受信されたデータのメタデータを抽出および処理し、データに関連付けられた事前定義された知識ベースに基づいて、処理されたメタデータから少なくとも1つの機密属性を含む検索空間を特定し、検索空間を、関連付けられた秘匿性データを有する少なくとも1つの機密属性にそれぞれ対応する複数のバケットの複数のセットに区分化することにより、敵対者モデルを生成し、複数のバケットの複数のセットのそれぞれのバケット数を算出し、さらに、複数のバケットの複数のセットから、複数のバケットの複数のバケット組み合わせを生成し、少なくとも1つの機密属性のそれぞれに関連付けられた秘匿性データを、複数のバケットから得られるマスキングバケットに置き換え、秘匿性データに割り当てられたマスキングバケットに基づいて、バケット組み合わせのそれぞれのエンティティー数を算出し、算出されたエンティティー数および事前定義された秘匿性しきい値に基づいて、匿名性インデックスを算出し、算出された匿名性インデックスに基づいて、秘匿性データをサニタイズすることにより、出力データを生成することを実行させる。
本発明の1つの実施形態において、少なくとも1つの機密属性は、2値データ、カテゴリーデータ、数値データ、および説明テキストの少なくとも1つを含む。
本発明の1つの実施形態において、敵対者モデル生成器は、(a)値の事前定義された範囲と、(b)事前定義された知識ベースに基づく少なくとも1つの機密属性のそれぞれ用の事前定義された上限および下限とのいずれか一方に基づいて、複数のバケットの複数のセットを生成するようさらに構成されている。
本発明の1つの実施形態において、値の事前定義された範囲、並びに、上限および下限は、少なくとも1つの機密属性に基づいて、流入データ分析器によって算出されている。
本発明の1つの実施形態において、データマスキングモジュールは、(i)階層マスキング技術(hierarchy masking techniques)、(ii)バケットマスキング技術、(iii)クラスタリング技術、または(iv)シャッフリング技術(shuffling technique)の1つによって、秘匿性データをサニタイズするよう構成されている。
本発明の1つの実施形態において、シャッフリング技術は、複数のバランスされたバケットを得るために実行され、複数のバケット組み合わせのそれぞれは、バランスされたエンティティー数を有する。
本明細書に記載の実施形態は、図面を参照し、以下の詳細な説明からより良く理解されるであろう。
図1は、本発明の実施形態に係る、データの秘匿性−実用性間のトレードオフを算出するためのシステムの例示的なブロック図を示している。
図2は、図1のシステムを含む機能モジュールの例示的な図である。
図3は、本発明の実施形態に係る、データの秘匿性−実用性間のトレードオフを算出するためのコンピューター実施方法を示す例示的なフロー図である。
図4は、本発明に係る、データの例示的なセットの正規化された匿名性インデックスvs秘匿性しきい値の画像表示である。
図5は、属性「ワーククラス」の例示的な値の一般化階層(value generalization hierarchy)の概念的表示である。
図6は、本発明に係る、例示的なデータセットの正規化された属性変動vs秘匿性しきい値の画像表示である。
図7は、本発明に係る、データの例示的なセットの正規化された匿名性インデックスおよび正規化された属性変動vs秘匿性しきい値の画像表示である。
図8は、本発明に係る、曲線フィッティングを用いたデータの例示的なセットの前方シフト(forward shifting)属性変動グラフの画像表示である。
図9は、本発明に係る、曲線フィッティングを用いたデータの例示的なセットの後方シフト(backward shifting)属性変動グラフの画像表示である。
本分野における当業者であれば、図面の任意のブロック図が、本発明の内容の原理を具体化する図示されたシステムの概念を表していることを正確に理解できるであろう。同様に、任意のフローチャート、フロー図、状態遷移図、疑似コード等が、コンピューター可読媒体において実質的に表され、さらに、明示的に示された/明示的に示されない演算デバイスまたはプロセッサーによって実行される様々なプロセスを表すことを正確に理解できるであろう。
本発明の複数の実施形態、並びに、それらの様々な特徴および利点が、添付の図面に示され、さらに、以下の記述において詳細に述べられている非限定的な実施形態を参照して、より十分に説明される。本明細書で用いられている実施例は、本明細書中の実施形態を実施可能とし、さらに、本分野における当業者が、本明細書中の実施形態を実施可能となるような理解を容易にするためだけの意図で提供される。したがって、実施例は、本発明の実施形態の範囲の限定を構成するものではない。
用語「含む(comprising)」、「有する(having)」、「含む/含有する(containing)」、「備える(including)」、およびこれらの他の形式は、同等の意味を表すものであり、これらの任意の1つの用語に続く1つまたは複数の項目が含まれるオープンエンドなリストを意味し、これらの1つまたは複数の項目の排他的なリストを意味するものではなく、リストされた1つまたは複数の項目にのみ限定されるという意味ではない。
本明細書および添付の特許請求の範囲において用いられる単数形「a」、「an」、および「the」は、文脈が明示的に示していない限り、複数への参照を含むことに留意すべきである。ここに記述されるものと同様または同等の任意のシステムおよび方法は、本発明の実施形態の実施またはテストにおいて使用可能であるが、好適なシステムおよび方法が、以下に記述される。
本発明の全ての特徴を示す、本発明のいくつかの実施形態は詳細には述べられない。開示の実施形態は、本発明の例示に過ぎず、様々な形態において実施可能である。以下の詳細な説明を述べる前に、以下の議論の全ては、記述される特定の実施とは無関係に、本質的に例示であり、限定ではない。
データの交換または取引、特に、データマケートプレイスのようなデータハブにおけるデータの交換または取引は、データの秘匿性とデータの実用性との間の予測されるトレードオフを考慮しなければならないという課題を有している。本発明のシステムおよび方法は、本課題を解決し、さらに、このトレードオフの算出を容易にし、データの買い手とデータの売り手が有意な取引を行えるようなデータ変換の必要性を立証(establish)するものである。
図面、特に図1から9を参照すると、各図面を通して、対応する特徴には同じ参照番号が一貫して付されている。複数の好適な実施形態が示され、これら実施形態が、以下の例示的なシステムおよび方法の文脈において記述される。
本開示の文脈における「データソース(data source)」との表現は、(i)データ集積(data enrichments)および分析ソリューション(analytics solutions)を含むソリューションおよび製品をリスト化することによって、データを収益化することを希望する1つ以上のエンティティーまたはベンダー、(ii)指し値(bid)およびオファーを介して、サービスを受けたいという意思(intent of service)に応答する1つ以上のエンティティーまたはベンダー、(iii)APIを介して、施設(premise)からデータボルト(data vault)へデータをプッシュする1つ以上のエンティティーまたはベンダー、(iv)1つ以上のデータ仲介者を介して個人データを販売するエンティティーの少なくとも1つを指す。
本開示の文脈における「出力データ」との表現は、以下に述べるように、匿名性インデックスに基づいて選択的に変換され得るデータまたはデータソースから受信される形式でデータの買い手に提供されるデータを指す。
本開示の文脈における「データ攻撃者(data attacker)」との表現は、悪意を有するエンティティーを指す。
図1は、本発明の実施形態に係る、データの秘匿性−実用性間のトレードオフを算出するためのシステム100のブロック図を示している。図2は、本発明の実施形態に係る、システム100を含む機能モジュールを例示的な図である。
1つの実施形態において、システム100は、1つ以上のプロセッサー102と、通信インターフェースデバイスまたは入力/出力(I/O)インターフェース104と、1つ以上のプロセッサー102に動作可能に接続され、1つ以上のモジュール108を含む1つ以上のデータ記憶デバイスまたはメモリー106と、を備えている。1つ以上のプロセッサーは、1つ以上のマイクロプロセッサー、マイクロコンピューター、マイクロコントローラー、デジタル信号プロセッサー、中央処理ユニット(CPU)、状態機械、論理回路、および/または、動作命令に基づいて信号を操作する任意のデバイスとして実施可能なハードウェアプロセッサーである。機能の中でも特に、プロセッサーは、メモリー内に保存されているコンピューター可読命令をフェッチおよび実行するよう構成されている。1つの実施形態において、システム100は、ラップトップコンピューター、デスクトップコンピューター、ノートパソコン、ワークステーション、メインフレームコンピューター、サーバー、ネットワークサーバー、クラウド、携帯デバイス、ウェアラブルデバイス等のような1つ以上の演算システム内において実施することができる。
I/Oインターフェースデバイス104は、例えば、ウェブインターフェース、グラフィカルユーザーインターフェース、IOTインターフェース等の様々なソフトウェアおよびハードウェアインターフェースを含み得、さらに、有線ネットワーク(例えば、LAN、ケーブル等)および無線ネットワーク(WLAN、セルラー、衛星等)を含む広範な種類のネットワークおよびプロトコルタイプにおける相互通信を容易にすることができる。1つの実施形態において、I/Oインターフェースデバイス104は、多数のデバイスを互いに接続、または、他のサーバーに接続するための1つ以上のポートを含み得る。
メモリー106は、例えば、揮発性メモリー(静的ランダムアクセスメモリー(SRAM)および動的ランダムアクセスメモリー(DRAM)等)および/または非揮発性メモリー(リードオンリーメモリー(ROM)、消去可能プログラム可能ROM、フラッシュメモリー、ハードディスク、光学ディスク、磁気テープ等)のような本分野において既知の任意のコンピューター可読媒体を含む。1つの実施形態において、図示のように、(図2の)システム100の様々なモジュール108A〜108Jをメモリー106内に保存することができる。
図3は、本発明の実施形態に係る、データの秘匿性−実用性間のトレードオフを算出するためのコンピューター実施方法200を示す例示的なフロー図である。コンピューター実施方法200の工程が、図1および図2に示されているようなシステム100のコンポーネントを参照して、以下に説明される。1つの実施形態において、工程202において、システム100は、データ接続器108Aを介して、1つ以上のデータソース(データソース1、データソース2、...、データソースn)から取得または生成されたデータを受信し、データを1人以上のデータ買い手によって消費可能とするよう構成されている。また、1つの実施形態において、データ接続器108Aは、データと共に、クエリー(query)および他のパラメーターを受信するよう構成されていてもよい。例えば、クエリーは、40〜50歳の年齢グループに属し、さらに、病気に苦しんでいる人、または、心臓疾患等を有する特定の領域に属する人に関するデータ等のためのリクエストの形式であってもよい。ここで、クエリーのパラメーターは、年齢、性別、居住地等を含んでいてもよい。本発明よれば、受信されたデータが分析または処理され、データに関連付けられた秘匿性を維持するプロセスにおいてデータの実用性を失うことなく、データが1人以上のデータの買い手への配布のために適したものとなる。1つの実施形態において、データ接続器108Aは、1つ以上のデータソースに接続し、大規模フォーマット(bulk format)またはストリーミングコンテンツフォーマットで、取得または生成されたデータを受信する。大規模フォーマットのデータは、データの売り手によって、所定の間隔またはランダムでアップロードされ得る。ストリーミングコンテンツフォーマットのデータは、Fitbit(商標)デバイス、加速度計デバイス、温度計デバイス、および電力消費デバイスのような1つ以上のデータソースとの接続によって、リアルタイムで提供されるデータであってもよい。
工程204において、流入データ分析器108Bは、データ接続器108Aによって受信されたデータを分析し、受信されたデータのメタデータを抽出および処理するよう構成されている。1つの実施形態において、工程206において、流入データ分析器108Bは、メタデータを処理し、プラットフォームの事前定義された知識ベースに基づいて、少なくとも1つの機密属性を含む検索空間を特定する。1つの実施形態において、事前定義された知識ベースは、ドメイン知識(domain knowledge)であってもよい。1つの実施形態において、知識ベースは、HIPAA(医療保険の携行性(相互運用性)と責任に関する法律)のような法令/現行法のコンプライアンス要求に基づくものであってもよく、または、他の公的に利用可能なデータセットであってもよい。本発明によれば、機密属性は、1つ以上の2値データ、カテゴリーデータ、数値データ、および説明テキストの1つ以上を含む。例えば、機密属性は、本会計年度の税金支払い、心拍数、位置情報等や、名前、住所、SSN(社会保障番号)、銀行口座番号、パスポート情報、ヘルスケア関連情報、クレジットおよびデビットカード番号、運転免許証および州発行の身分証明書情報、医療保険情報、学生情報等のような個人の情報を特定するものを含み得る。そのような機密属性を含むデータは、データの元々の形式で広まった場合、データ秘匿性侵害に繋がり得る。
工程208において、敵対者モデル生成器108Cは、検索空間を、複数のバケットの複数のセットに区分けするよう構成されている。各セットは、関連付けられた秘匿性データを有する機密属性に対応している。例えば、バケットセットは、年齢に関連し、バケット[0−9]、バケット[10−19]等を含んでいてもよい。別のバケットセットは、病気に関連し、[糖尿病]、[心臓病]、[肺病]等を含んでいてもよい。データの機密属性は、開示の2つの種類、すなわち、アイデンティティ開示(identity disclosure)および値開示(value disclosure)に関連付け可能である。アイデンティティ開示は、データ攻撃者がそのデータに関するデータ主体(data subject)を特定することが可能であることを意味する。さらに、データ攻撃者は、データ主体のPIIを学習し、不正事項、なりすまし等を実行するにために利用することができる。値開示は、データ攻撃者が、利用可能なデータを用いて、機密属性の値を推定するものである。よって、アイデンティティまたは値開示に繋がり得る機密属性を保護することは必須事項である。
1つの実施形態において、敵対者モデル生成器108Cは、1つ以上のデータソースから、パブリックドメイン(public domain)において利用可能な、機密属性に関連する情報を特定するよう構成されている。1つの実施形態において、敵対者モデル生成器108Cは、ソーシャルメディア、協調フィルタリング(collaborative filtering)、クラウドソーシング、人口調査や病院データのような公衆衛生データ等を含む、全世界の公に利用可能なリソースの1つ以上、および、データの売り手によって提供されたデータから、継続的に学習を実行するよう構成されている。1つの実施形態において、敵対者モデル生成器108Cは、選択および編集するための1つ以上のデータソースに対する適切な初期設定テンプレート(default template)を学習および提供するよう構成されている。
Figure 2019512128
プライバシー侵害を防止するためのデータ変換は、敵対者が検討中のデータの知識を持っている場合にのみ必要とされる。例示的なケースにおいて、敵対者の力量は、敵対者がどれだけの数の電子メールを同時に送信可能であるか、敵対者がどれだけの回数電子メールを送信可能であるか、敵対者がどれだけの量の背景知識を有しているか等のパラメーターに依存する。敵対者が同時に送信可能な電子メールの数が「k」であり、敵対者が電子メールを送信可能な回数がデータベースのバケット数または区分け(partitions)数に相当する場合、敵対者は、自身が送信可能な数と同数のデータベース内の区分けを形成することになる。
本発明によれば、バケット技術(bucketing technique)は、事前定義された知識ベースに基づく機密属性のそれぞれ用に事前定義された上限および下限に基づく。代替的に、1つの実施形態において、機密データのそれぞれに関連付けられた秘匿性データは、流入データ分析器108Bによってスキャンされ、上限および下限が取得される。数値の属性用に、所定の間隔を入力した後に、複数のバケットが生成されてもよい。例えば、属性「年齢」の場合、下限が「4」であり、上限が「87」であり、入力された間隔が「40」である場合、属性用のバケットは、[4,44]、[45,85]、[86,126]となる。
属性「結婚ステータス」のようなカテゴリー属性用に、バケットは、[既婚]、[未婚]、[離婚済み]、[別居]、[死別]であってもよい。
本発明によれば、値の事前定義された範囲に基づく異なるバケット技術は、敵対者が0〜60歳の範囲の年齢グループに属する人々に興味を示している例示的なケースを用いて説明される。r kiが列iにおける各属性に沿ったバケットを示しているとする。ここで「k」は、i番目の列内のバケットの数を示している。各r kiは、index(r ki)=j(ここで、1≦j≦k)となるよう、整数jに関連付けられており、index(.)は、i番目の次元におけるエンティティーのバケット番号である。例えば、属性「年齢」、「性別」、および「郵便番号」の3次元テーブルが存在すると仮定する。属性「年齢」の場合、敵対者が、特定の人が「0−10」、[10−20]、[20−30]、[30−40]、[40−50]、または[50−60]の年齢グループに属しているとの知識を有し得る。そのため、属性「年齢」用のkが6となり、それぞれをr 年齢、r 年齢、...、r 年齢のように表すことができる。属性「性別」の場合、敵対者は、特定の人が男性または女性のいずれかであるかとの知識を有し得る。そのため、属性「性別」用のkが2となり、それぞれをr 性別、 性別(男性=「1」、女性=「2」とする)のように表すことができる。属性「郵便番号」の場合、範囲が1〜約10なので、敵対者は、最大1000バケットの知識を有し得る。単純化のため、10が1000個のバケットに分割され、そのため、バケットは、[0−1000]、[1000−2000]、...、[99900−100000]となる。属性「郵便番号」用のkは100であり、それぞれをr 郵便番号、r 郵便番号、...、r100 郵便番号のように表すことができる。各エンティティー用に、「年齢」が1番目の次元であり、「性別」が2番目の次元であり、郵便番号が3番目の次元であるとする。そのため、rkiの添え字において、「年齢」、「性別」、「郵便番号」を用いる代わりに、r ki(ここで、i=1,2,3)のような次元を使用可能である。1つの実施形態において、上述のバケット技術は、敵対者の知識が階層的である、または、敵対者が属性の特定の値に興味を示していることを考慮して、より複雑に構成されていてもよい。
異なる1つの例示的なケースにおいて、敵対者が、年齢が20〜30歳、性別が女性、および郵便番号が7000〜8000の間(この郵便番号の全ては、ニューヨーク市に属するものとする)という情報を有する人に興味を持っているとする。n個の点の全てがd次元空間にプロットされる。その後、敵対者は、上述の範囲の情報によって形成されたd次元の矩形の条件を満たす全ての人を検索するであろう。敵対者がこの矩形内に要素を見つけられなかった場合には、彼/彼女は何も見つけられない。また、敵対者がこの矩形内に1人だけ対象者を発見した場合には、彼/彼女は特定の人を取得する。また、敵対者がこの矩形内に1人以上の対象者を発見した場合には、それらの人の全てが同様に等しいことになり、敵対者は混乱させられ、特定の人を特定することが困難になる。上述の例示的なケースにおいて、「年齢」、「性別」、「郵便番号」のindex(r ki)は、それぞれ「3」、「2」、「8」である。これは、1番目の次元で3番目のバケット、2番目の次元で2番目のバケット、3番目の次元で8番目のバケットであることを示す。そのため、その人のアイデンティティを、多次元の検索空間の単一次元表現であるインデックスフォーマット(index format)の形式で表すことができる。kが所与のデータベースにおいて一定であると仮定すると、O(d)回(ここで、回数は、次元の数に比例する)、同じ検索空間を用いることにより、個人のインデックスフォーマットが発見可能となっている。本発明によれば、区別可能なバケットの総数は、B=Π i=1である。ここで、各バケットは、d次元の矩形であり、DR(ここで、1≦i≦B)であるとする。サイズBのアレイAに関し、アレイの各エントリーは、整数pを含み、pは各バケットDR内のエンティティーの数を示す。
本発明によれば、エンティティーのインデックスフォーマットが既知の場合、以下の式が、エンティティーを、アレイ位置の正確な位置に配置する。アレイインデックスρは、以下の式から得られる。
Figure 2019512128
本発明によれば、アレイAがゼロから初期化される。アレイAは、ブラケットDRの全数を保持する。ここで、エンティティーの数は、各ブラケットDRのi番目の位置に対応する。本実施例においては、DRは、以下の表(f)において定義された180個のバケット組み合わせを含む。エンティティー用のインデックスフォーマットが算出される。エンティティーのアレイインデックスρが、上述の式(1)を用いて算出され、アレイインデックスρのために、A[ρ]がA[ρ]+=1のように、1だけ更新される。
本発明によれば、各バケットDR内のエンティティーの数を算出するための技術において、エンティティーの数を、データベースを介した1つのパスおよびアレイA内の1つのパスを用いるだけで特定することができる。また、各ブラケットDR内において算出される要素pの数が適切であるか否かは、異なるインデックスフォーマットのエンティティーが異なるバケット内に入ることを、上述の式が示しているという事実によって検証される。
1つの実施形態において、工程210において、敵対者モデル生成器108Cは、複数のバケットの複数のセットのそれぞれのバケット数を算出し、さらに、複数のバケットの複数のセットから、複数のバケットの複数のバケット組み合わせを生成するよう構成されている。例えば、以下の表(e)に示されているように、属性「年齢」、「性別」、「結婚ステータス」、「給料」、および「郵便番号」の5次元の表が存在し、300人分の秘匿性データが利用可能となっている場合を想定する。
表(e):
Figure 2019512128

(特に)以下の表(f)に示されているように、本発明によれば、複数のバケット組み合わせが生成される。
表(f):
Figure 2019512128
1つの実施形態において、工程212において、敵対者モデル生成器108Cは、少なくとも1つの機密属性のそれぞれに関連付けられた秘匿性データを、複数のバケットから得られるマスキングバケットに置き換える。そのため、少なくとも1つの機密属性のそれぞれに関連付けられた秘匿性データは、表(e)において生成され、マスキングバケットとして機能するバケットに置き換えられる。例えば、利用可能な秘匿性データは、(特に)以下の表(g)に示されているようなものである。
表(g):
Figure 2019512128
表(g)の秘匿性データは、(特に)以下の表(h)によって示されているようなマスキングバケットによって置き換えられることになる。

表(h):
Figure 2019512128
1つの実施形態において、工程214において、敵対者モデル生成器108Cは、以下の表(i)に示されているように、表(h)内の秘匿性データに割り当てられたマスキングバケットに基づいて、表(f)の複数のバケット組み合わせのそれぞれのエンティティー数を算出するよう構成されている。
表(i):
Figure 2019512128

表(f)内の1つ以上の行の比較が同じ場合、エンティティー数が1つインクリメントされる。例えば、表(i)は、年齢の範囲が4〜44内にあり、性別が男性であり、結婚ステータスが既婚であり、給料が5000〜105000の間にあり、郵便番号が7000〜507000の範囲にある6人の人が存在することを示している。
データベースの秘匿性は、以下の原則に従う。
・エンティティーを包含する母集団が増加したときには、その特定のエンティティーの秘匿性が増加する。
・敵対者の力量が増加したときには、秘匿性が減少する。
・敵対者の知識の次元が増加したときには、秘匿性が減少する。
・母集団の合計が増加したときには、全体の秘匿性が増加する。
1つの実施形態において、秘匿性は、K−匿名性または集合の混合(K-anonymity or blending in a crowd)に基づく。
1つの実施形態において、工程216において、敵対者モデル生成器108Cは、受信されたデータに関連付けられた各エンティティーの匿名性インデックスを測定するよう構成されている。匿名性インデックスは、算出されたエンティティー数(表(i))および事前定義された秘匿性しきい値に基づいて算出される。敵対者は、バケットのみに対する知識を有している。同じブラケット内に並ぶ複数の要素は、敵対者にとって等しいものとなる。匿名性インデックスが高ければ高いほど、関連付けられた秘匿性が高いことを示す。よって、本発明によれば、匿名性インデックスは、データベースの秘匿性の尺度となる。
匿名性インデックスは、敵対者に対して受信されたデータがどの程度安全であるかを示している。匿名性インデックスを算出するために、最初に、事前定義された秘匿性しきい値が設定される。本明細書において提供される例示的なケースにおいて、事前定義された秘匿性しきい値は、混合される集合のサイズである。秘匿性に関する法律が、事前に規定された秘匿性のしきい値に適用される。例えば、HIPAA(医療保険の携行性(相互運用性)と責任に関する法律)の秘匿性ルールは、しきい値が20,000であるべきことを述べており、FERPA(家族の教育権およびプライバシーに関する法律)は、しきい値が5であるべきことを述べている。
本発明によれば、
エンティティー数<秘匿性しきい値であれば、
Figure 2019512128
その他の場合、匿名性インデックス=1
したがって、秘匿性しきい値=10であり、表(i)のエンティティー数が5の場合、エンティティー数<事前定義された秘匿性しきい値なので、匿名性インデックス=5/10=0.5となる。
秘匿性しきい値=10であり、表(i)のエンティティー数=15の場合、エンティティー数≧事前定義された秘匿性しきい値なので、匿名性インデックス=15/10=1.5≒1となる(1.0以上は切り捨て、したがって、1.0より高くはならない)。
したがって、秘匿性しきい値=10であれば、(特に)以下の表(j)に示されているような検討中の300人の秘匿性データの匿名性インデックスが算出される。
表(j):
Figure 2019512128
本発明によれば、匿名性インデックス<1の場合、複数のエンティティーが別のバケットの組み合わせに移動させられる。正規化された匿名性インデックスと秘匿性しきい値の間の匿名性グラフの描画を容易にするために、データが正規化される。データの正規化は、匿名性インデックスの値を共通尺度に変換し、2つ以上の曲線の形状または位置の比較を容易にするために必要である。したがって、さらに、匿名性インデックスと属性変動の比較が、以下に説明するように実行される。
Figure 2019512128
人の総数=20、秘匿性しきい値=10、および2つのバケット組み合わせのエンティティー数=5および15、これらのエンティティー数の匿名性インデックスが、それぞれ、0.5および1である場合、以下のようになる。
Figure 2019512128
図4は、本発明に係る、300人の秘匿性データの例示的なセットの正規化された匿名性インデックスvs秘匿性しきい値の画像表示である。図4の匿名性グラフから分かるように、秘匿性しきい値が増加する限り、匿名性インデックスは減少し続けている。匿名性インデックスが秘匿性よりも高いことがあり得る。図4の水平ハッチパターンによって表されている2つの列は、正規化された匿名性インデックスの値が特定の限界を超えていることを示しており、これにより、秘匿性データの特定の例示的なセットのデータサニタイズが必要であることを示している。
1つの実施形態において、工程218において、データマスキングモジュール108Dは、算出された匿名性インデックスに基づいて、秘匿性データをサニタイズし、出力データを生成するよう構成されている。1つの実施形態において、データマスキングまたはデータサニタイズは、(i)階層マスキング技術、(ii)バケットマスキング技術、(iii)クラスタリング技術、および(iv)シャッフリング技術の1つ以上によって実行され得る。1つの実施形態において、複数のバランスされたバケット(balanced buckets)を取得するためにシャッフリング技術が実行される。ここで、各バケット組み合わせは、バランスされたエンティティー数を有している。本発明によれば、データマスキングモジュール108Dは、有意な取引のためにマスクされたデータの実用性が確保されるよう、データをサニタイズする。実用性は、データの歪みの尺度である。ランダム化技術は、データを変化させすぎてしまい、さらに、元々に近いデータを生成することにもなる。
1つの実施形態において、階層/バケットマスキング技術は、秘匿性を維持すると同時に、ユーザーが、必要とされるデータ変換の量を制御することを可能とする。図5は、属性「ワーククラス」用の例示的な値の一般化階層の概念的な図である。ワーククラス階層の例示的な実施形態において、レベル0のルートノード(root node)は、ワーククラスを示し、レベル1の複数のノードは、ワーククラス、すなわち、自営業、政府、民間、非雇用を示し、レベル2の複数のノードは、自営業クラス用に、法人化されているか、法人化されていないかを示し、政府クラス用に、連邦、州、または地方を示し、非雇用クラス用に、無報酬または働いたことがない(never worked)というクラスを示している。1つの実施形態において、階層/バケットマスキング技術への入力は、上述のワーククラスの例において説明されたような一般化階層(generalized hierarchy)と、各クラス用の事前定義されたマスキングレベルと、隣接するバケット(隣接フラグ)の合併または分離とを含み得る。この技術は、レベル2のリーフノード(葉節点)の兄弟を合併した後に、人々の数が秘匿性しきい値を満たすか否かを特定するよう構成されている。人々の数が秘匿性しきい値を満たさない場合、レベル2のリーフノードが、レベル1のノードと合併されることになる。この合併は、レベル0において要求が満たされるまで続けられることになる。
本発明によれば、実用性インデックスは、各個人データ点に追加される歪みの合計の負数(negative)である。1つの実施形態において、データマスキングモジュール108Dは、さらに、クラスタリングベースのサニタイズ技術(clustering based sanitization technique)を用いて、データ点の最大歪みを最小化させるよう構成されている。本発明によれば、データが変換されたとき、変換されたデータは、事前定義された秘匿性しきい値τに基づく秘匿性要件を維持しなければならない。所与の秘匿性しきい値τおよびデータベースDBにおいて、データは、各バケットがデータの断片を含むか、バケットが空となるように、DBからDBに変換されなければならない。本発明によれば、DTからDBへの変換の際に満たされるべき別の制約は、事前定義されたメトリックに対するデータ歪みが可能な限り最小化されなければならないということである。1つの実施形態において、データベース内のエンティティーを実空間R内の点と見なす場合、ユークリッドメトリックが検討される。
1つの実施形態において、データ点の最大歪みを最小化するためのクラスタリングベースのサニタイズ技術は、非常に強い敵対者に対する定数近似(constant factor approximation)を提供する。本分野において知られているようなr−収集用の2要素近似アルゴリズム(2-factor approximation algorithm for r-gathering)を用いて、クラスターC(C,C,...,C)が、各クラスターCが少なくともr個のデータベース点を含み、さらに、クラスターの半径が最小化されるように、特定される。データサニタイズのコンセプトと同様に、バランスされたバケットのそれぞれは、秘匿性しきい値以上の値を含む。続いて、各クラスターCの複数のバケットが特定される。DR ,DR ,...,DR がC内のバケットだとすると、Cに属するデータ点の全てが、Cの中心cを含むバケットDR にプッシュされる。
1つの実施形態において、クラスタリングベースのサニタイズ技術は、実際の値を重心に置き換えるためのK−平均クラスタリング(K-Means clustering)であってもよい。重心を算出するためにユークリッド距離が用いられ、マンハッタン距離(Manhattan distance)を用いて、クラスターを評価する。したがって、非同次データセット用のK−メドイドクラスタリングアルゴリズム(K-medoid clustering algorithm for heterogeneous datasets)が用いられてもよい。カテゴリーデータセット用に、このアルゴリズムは、共起性ベースのアプローチ(co-occurrence based approach)を用いる。数値データセット用に、K−メドイドは、マンハッタン距離を用いる。2値データセット用に、K−メドイドは、ハミング距離(0|1)を用いる。
1つの実施形態において、データマスキングモジュール108Dは、さらに、k−匿名性を生成するための発見的技術(heuristic technique)を提供し、さらに、それを単純な技術と比較することにより、データ点の最大歪みを最小化させるよう構成されている。1つの実施形態において、単純な技術は、第1のk個のエンティティーの全ての属性を、第1のエンティティーによって置き換える工程を含む。その後、次のk個のエンティティーが、(k+1)番目のエンティティーによって置き換えられ、同様の処理が続けられる。1つの実施形態において、発見的技術は、エンティティー数pと共にアレイAを入力する工程と、バケットDRのエンティティー数(p=0)または(p≧k)と共にアレイAを出力する工程とを含む。
1つの実施形態において、シャッフリングベースのサニタイズ技術は、エンティティーを、前方または後方の最も近い位置に移動させる工程を含む。
前方シフトの例:バケットDRのエンティティー数A(i)のアレイAを考える。
A={1,2,3,4,5,7,8}
秘匿性しきい値=10であり、秘匿性しきい値以上となるように、要素が前方の第1の位置から移動させられる。エンティティー数がバランスされると、要素のシフトが次の位置から再開する。
Figure 2019512128
前方シフトは、バランスされた値の全てが取得されるまで続けられる。

後方シフトの例:秘匿性しきい値以上となるまで、要素が最後の位置から移動させられる。前方シフトと同様に、後方シフトは、バランスされた値の全てが取得されるまで続けられる。
Figure 2019512128

以下の表(k)は、(特に)秘匿性しきい値=10の場合の300人の秘匿性データのバランスされたエンティティー数を示している。
表(k):
Figure 2019512128

各要素間の最小シャッフリングのため、バケット値の順番が、属性に基づいてソートまたは変更されてもよい。例えば、順番を属性「年齢」によってソートしてもよく、順番を属性「性別」によってソートしてもよく、順番を属性「結婚ステータス」によってソートしてもよく、順番を属性「給料」によってソートしてもよく、順番を属性「郵便番号」によってソートしてもよい。属性「年齢」によってソートされた順番は、以下の表(l)に示されているようなものであり得る。
表(l):
Figure 2019512128
バケット値の順番の同じようなソートが、提供された例示的な実施形態の属性「性別」、「結婚ステータス」、「給料」、および「郵便番号」に基づいて実行されてもよい。
属性の順番を変更した後、上述したような前方シフトおよび後方シフトが適用され、いくつかの特定の属性のデータに対する圧力(stress)の低減という結果をもたらす。よって、属性変動の前方シフトおよび後方シフトのために曲線フィッティングが実行されると、その後、Rの2乗(R squared)が1に近い値を有することになる。ここで、Rの2乗は、回帰直線近似が実際のデータ点にどの程度適合しているかを示す決定係数である。Rの2乗が1に近ければ、曲線フィッティングが、最良の曲線フィッティングであるとみなされる。
1つの実施形態において、実用性インデックスは、値が元々の位置からバランスされたポジションまで、どの程度移動されたかを提供する。1つの例として、ある人がニューヨークに属しており、別の人がワシントンに属している場合を考える。所望の量の秘匿性を取得するため、ニューヨークに属している人がワシントンに移動されると、ニューヨークとワシントンとの間の距離が、実用性インデックスを表す。
本発明によれば、工程220において、データ秘匿性−実用性間トレードオフ算出器108Eは、数値属性の実用性インデックスを算出するよう構成されている。
実用性インデックス=バランスされたバケットの中間点−秘匿性データ(元々のバケットの最初の値)
例えば、属性「郵便番号」のバケット[6999,507000]が、元々の位置から、バランスされた位置であるバケット[507001,1007002]に移動されたものとする。
また、[6999,507000]の最初の値が50001であり、[507001,1007002]の中間点が757001((507001+1007002)/2)であるとすると、以下のようになる。
郵便番号の実用性インデックス=757011−50001=707000
カテゴリー属性の場合、実用性インデックス=1である。例えば、属性「結婚ステータス」の[既婚]が[未婚]に変更された場合、実用性インデックス=1となる。
さらに、値の最大歪みを最小化するために、実用性インデックスが、以下のように正規化される。
Figure 2019512128
例えば、数値属性の場合、属性「郵便番号」の実用性インデックスの既存の値=707000であり、最大値および最小値が、それぞれ、264254および722978であるとすると、以下のようになる。
Figure 2019512128

カテゴリー属性に関し、正規化された実用性損失[0,1]=1.000000である。
以下の表(m)は、(特に)秘匿性しきい値=10の場合の300人の秘匿性データの実用性インデックスを示している。
表(m):
Figure 2019512128
1つの実施形態において、工程222において、データ秘匿性−実用性トレードオフ算出器108Eは、複数のバケット(元々のバケット)と複数のバランスされたバケットとの間の変動の数に基づいて、属性変動を算出するよう構成されている。例えば、属性の1つの組み合わせの値が、[年齢−性別−結婚ステータス−給料−郵便番号]であり、[3,44]−[男性]−[既婚]−[105001,205002]−[507001,1007002]から、[3,44]−[男性]−[未婚]−[4999,105000]−[6999,507000]に移動させられた場合を考えると、属性移動の総数=3となる。
表(n)は、秘匿性しきい値=10の場合の、(特に)300人のプラバシーデータの属性変動を示している。
表(n):
Figure 2019512128
さらに、全ての変数を互いに比例するものとするために、正規化された属性の移動は、以下のように行われる。
Figure 2019512128
例えば、バケットの4つの組み合わせの属性移動が1、0、0、3であり、人の総数が20であり、属性移動の最小値が1であり、属性移動の最大値が3である場合、以下のようになる。
Figure 2019512128

図6は、本発明に係る、300人のデータの例示的なセットの正規化された属性変動vs秘匿性しきい値の画像表示である。図6の属性変動グラフから、秘匿性しきい値が増加する限り、属性変動も増加し続けることがわかる。したがって、属性移動がより小さければ、データの変更もより少なくなるので、実用性損失が最小化される。
本発明によれば、データ秘匿性−実用性トレードオフ算出器108Eによる属性変動および匿名性インデックスの比較は、データの秘匿性−実用性間のトレードオフを提供する。本発明によれば、データの秘匿性−実用性間のトレードオフは、データの買い手が、出力データの実用性を判断することを容易にする。例えば、このトレードオフは、いくつかの特定の属性の一般化の詳細であり得る(例えば、郵便番号の最初の2桁のみが利用可能とされるか、SSNの最後の4桁のみが利用可能とされるか等である)。1つの実施形態において、データ秘匿性−実用性トレードオフ算出器108Eは、表(m)に示されているように、実用性インデックスおよび実用性損失を算出可能である。
図7は、本発明に係る、データの例示的なセットの正規化された匿名性インデックスおよび正規化された属性変動vs秘匿性しきい値の画像表示である。図7の比較図から分かるように、秘匿性しきい値が増加する限り、匿名性インデックスが減少し続け、属性変動は増加し続ける。
Figure 2019512128
図8は、本発明に係る、曲線フィッティングを用いた300人のデータの例示的なセットの前方シフト属性変動グラフの画像表示である。図9は、本発明に係る、曲線フィッティングを用いた300人のデータの例示的なセットの後方シフト属性変動グラフの画像表示である。属性移動の後方シフトのR(この決定係数は、回帰直線近似が実際のデータ点にどの程度適合しているかを示す統計尺度である)が0.94であり、属性移動の前方シフトの0.91よりも高いことが図から分かるであろう。そのため、上述の結果に基づいて、図示の例示的なデータセットに関し、後方シフトが前方シフトよりも優れていることがわかる。属性変動の前方シフトおよび後方シフトは、完全に、データの構造に依存する。
1つの実施形態において、工程224において、敵対者モデル生成器108Cは、受信されたデータに基づいて、学習および自身の更新を継続して実行する。1つの実施形態において、情報収集は、複数のウェブクローラー(web crawlers)によって実行されてもよい。そのため、これらウェブクローラーは、人々に関する利用可能とされた任意の新たな情報のためにパブリックドメインを継続してモニタリングし、これにより、敵対者モデル生成器108Cを改良する。
1つの実施形態において、上述の方法200は、さらに、工程226を含み、決定支援モジュール108Fは、受信されたデータに基づいて、データの売り手へ、推奨を提供するよう構成されている。推奨は、年齢、人口統計学データ、データの種類等の受信されたデータと同様のデータ用のデータの売り手の選好セットから算出されてもよい。1つの実施形態において、推奨は、地域および/または国の規則に応じたものであってもよい。例えば、米国のHIPAA(医療保険の携行性(相互運用性)と責任に関する法律)は、秘匿性しきい値が最小で20,000であることを提唱している。そのため、決定支援モジュール108Fは、選択肢を提案する前に、これらの事項を考慮してもよい。
1つの実施形態において、上述の方法200は、さらに、工程228を含み、流出データ分析器108Gは、出力データの質と信頼性を評価するよう構成されている。公開される前に、出力データが、データの買い手が求めているメタデータが、データの売り手が提供しているものなのか否かがチェックされる。
1つの実施形態において、上述の方法200は、さらに、工程230を含み、データ公開管理モジュール108Hは、データの所持者/売り手によって設定されたリスクと褒賞に基づいて、公開プランを決定するよう構成されている。1つの実施形態において、データ公開管理モジュール108Hは、決定支援モジュール108Fと相談し、エンドユーザーに、手動での公開のための最終決定を与えてもよい。
工程232において、報告および警告管理モジュール108Iは、出力データに基づいて、報告および警告を生成するよう構成されている。
工程234において、イベント記録モジュール108Jは、モニタリングおよび証拠保持目的のため、全てのイベントを、出力データに関連付けられたログファイル内に記録するよう構成されている。
よって、算出されたデータの秘匿性−実用性間のトレードオフに基づくデータの変換は、データの売り手およびデータの買い手の双方が、有意な取引を実行するのに役に立つ。
記載された記述は、本発明を記述し、本分野における当業者が、本発明の実施形態を実施および使用することを可能とする。ここに規定される本発明の実施形態の範囲は、本分野における当業者が想到可能な他の変形を含んでいてもよい。このような他の変形は、特許請求の範囲の文言と異ならない同様の要素を有している、または、特許請求の範囲の文言とは非実質的に異なる同等の要素を含んでいたとしても、本発明の範囲に含まれるものである。
しかしながら、保護の範囲は、内部にメッセージを保持するコンピューター可読手段に加えて、プログラムにまで及ぶことは理解されるべきである。そのようなコンピューター可読保存手段は、プログラムが、サーバー、携帯デバイス、または任意の好適なプログラム可能デバイス上で実行されたときに、本方法の1つ以上の工程を実行するためのプログラムコード手段を含む。ハードウェアデバイスは、例えば、サーバー、パーソナルコンピューターのような任意の種類のコンピューター、および、これらの任意の組み合わせを含む任意の好適なプログラム可能デバイスである。また、デバイスは、ハードウェア手段(例えば、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA))、ハードウェア手段とソフトウェア手段の組み合わせ(例えば、ASICとFPGA)、少なくとも1つのマイクロプロセッサー、内部にソフトウェアモジュールを有する少なくとも1つのメモリーを含む手段であってもよい。よって、手段は、ハードウェア手段とソフトウェア手段の双方を含む。本明細書において記述された方法の実施形態は、ハードウェアおよびソフトウェアにおいて実施することができる。また、デバイスは、ソフトウェア手段を含む。代替的に、本発明は、例えば、複数のCPUを用いて、複数の異なるハードウェアデバイス上において実施されていてもよい。
ここで記述された実施形態は、ハードウェア要素とソフトウェア要素を含み得る。ソフトウェアにおいて実施される実施形態は、これに限定されるものではないが、ファームウェア、常駐ソフトウェア、マイクロコード等を含む。本明細書で記述され、本発明のシステムを含む様々なモジュールによって実行される機能は、他のモジュールまたは他のモジュールの組み合わせにおいて実施されてもよい。記述の目的のため、コンピューター使用可能またはコンピューター可読媒体は、使用のために、命令実行システム、装置、またはデバイスと共に用いられ、または、接続され、プログラムを、含有、保存、通信、伝搬、または送信することができる任意の装置であってもよい。ここで記述された様々なモジュールは、ソフトウェアおよび/またはハードウェアモジュールとして実施されてもよく、任意の非一時的コンピューター可読媒体または他の記憶デバイスの任意の種類のものに保存されてもよい。非一時的コンピューター可読媒体の非限定的な例としては、CD、DVD、ブルーレイディスク、フラッシュメモリー、ハードディスクドライブ等が挙げられる。
プログラムコードを保存および/または実行するために適したデータ処理システムは、システムバスを介してメモリー要素に直接または間接に接続された少なくとも1つのプロセッサーを備える。メモリー要素は、プログラムコードが実際に実行されている間に用いられるローカルメモリー、大容量記憶装置、および実行中に大容量記憶装置から読み出されなければならないコードの読み出し数を減少させるために少なくともいくつかのプログラムコードの一時保存を提供するキャッシュメモリーを含み得る。
さらに、プロセスの工程、方法の工程、技術等が一連の順番で記述されるが、そのようなプロセス、方法、および技術は、代替的な順番で動作するよう構成されていてもよい。換言すれば、記述された工程の任意の手順または順番は、各工程がその順番で実行されなければならないという要件を必ずしも示すものではない。ここに開示されたプロセスの工程は、任意の順番の実施で実行されてもよい。さらに、いくつかの工程は、同時に実行されてもよい。
以上の記述が、様々な実施形態を参照して提供された。本出願が属する分野および本分野における当業者であれば、本発明の原理、考え方、および範囲から有意に逸脱することなく、記述された構成および動作の方法における変形や変更が可能であることを理解できるであろう。
関連出願への相互参照および優先権
本出願は、2016年2月22日付けで出願されたインド国特許出願第201621006136号に基づく優先権を主張する2017年2月20日付けで出願された国際出願第PCT/IB2017/050950号の日本国内移行出願であり、インド特許出願の開示の全てが、参照によりここに援用される。

図3Aおよび図3Bは、本発明の実施形態に係る、データの秘匿性−実用性間のトレードオフを算出するためのコンピューター実施方法を示す例示的なフロー図を示している
図3Aおよび図3Bは、本発明の実施形態に係る、データの秘匿性−実用性間のトレードオフを算出するためのコンピューター実施方法200を示す例示的なフロー図を示している。コンピューター実施方法200の工程が、図1および図2に示されているようなシステム100のコンポーネントを参照して、以下に説明される。1つの実施形態において、工程202において、システム100は、データ接続器108Aを介して、1つ以上のデータソース(データソース1、データソース2、...、データソースn)から取得または生成されたデータを受信し、データを1人以上のデータ買い手によって消費可能とするよう構成されている。また、1つの実施形態において、データ接続器108Aは、データと共に、クエリー(query)および他のパラメーターを受信するよう構成されていてもよい。例えば、クエリーは、40〜50歳の年齢グループに属し、さらに、病気に苦しんでいる人、または、心臓疾患等を有する特定の領域に属する人に関するデータ等のためのリクエストの形式であってもよい。ここで、クエリーのパラメーターは、年齢、性別、居住地等を含んでいてもよい。本発明よれば、受信されたデータが分析または処理され、データに関連付けられた秘匿性を維持するプロセスにおいてデータの実用性を失うことなく、データが1人以上のデータの買い手への配布のために適したものとなる。1つの実施形態において、データ接続器108Aは、1つ以上のデータソースに接続し、大規模フォーマット(bulk format)またはストリーミングコンテンツフォーマットで、取得または生成されたデータを受信する。大規模フォーマットのデータは、データの売り手によって、所定の間隔またはランダムでアップロードされ得る。ストリーミングコンテンツフォーマットのデータは、Fitbit(商標)デバイス、加速度計デバイス、温度計デバイス、および電力消費デバイスのような1つ以上のデータソースとの接続によって、リアルタイムで提供されるデータであってもよい。

Claims (17)

  1. プロセッサー実施方法(200)であって、
    データ接続器によって、1人以上のデータの買い手によるデータ消費を可能とするために、1つ以上のデータソースからデータを受信する工程(202)と、
    流入データ分析器によって、前記受信されたデータを分析し、前記受信されたデータのメタデータを抽出および処理する工程(204)と、
    前記流入データ分析器によって、前記データに関連付けられた事前定義された知識ベースに基づいて、前記処理されたメタデータから少なくとも1つの機密属性を含む検索空間を特定する工程(206)と、
    敵対者モデル生成器によって、前記検索空間を、関連付けられた秘匿性データを有する前記少なくとも1つの機密属性にそれぞれ対応する複数のバケットの複数のセットに区分化することにより、敵対者モデルを生成する工程(208)と、
    前記敵対者モデル生成器によって、前記複数のバケットの前記複数のセットのそれぞれのバケット数を算出し、さらに、前記複数のバケットの前記複数のセットから、前記複数のバケットの複数のバケット組み合わせを生成する工程(210)と、
    前記敵対者モデル生成器によって、前記少なくとも1つの機密属性のそれぞれに関連付けられた前記秘匿性データを、前記複数のバケットから得られるマスキングバケットに置き換える工程(212)と、
    前記敵対者モデル生成器によって、前記秘匿性データに割り当てられた前記マスキングバケットに基づいて、前記複数のバケット組み合わせのそれぞれのエンティティー数を算出する工程(214)と、
    前記敵対者モデル生成器によって、前記算出されたエンティティー数および事前定義された秘匿性しきい値に基づいて、匿名性インデックスを算出する工程(216)と、
    データマスキングモジュールによって、前記算出された匿名性インデックスに基づいて、前記秘匿性データをサニタイズすることにより、出力データを生成する工程(218)と、を含むことを特徴とするプロセッサー実施方法。
  2. 前記少なくとも1つの機密属性は、2値データ、カテゴリーデータ、数値データ、および説明テキストの1つ以上を含む請求項1に記載のプロセッサー実施方法。
  3. 前記敵対者モデルを生成する前記工程は、(a)値の事前定義された範囲と、(b)前記事前定義された知識ベースに基づく前記少なくとも1つの機密属性のそれぞれ用の事前定義された上限および下限とのいずれか一方に基づいて、前記複数のバケットの前記複数のセットを生成する工程を含む請求項1に記載のプロセッサー実施方法。
  4. 前記値の事前定義された範囲、並びに、前記上限および前記下限は、前記少なくとも1つの機密属性に基づいて、前記流入データ分析器によって算出されている請求項3に記載のプロセッサー実施方法。
  5. 前記秘匿性データをサニタイズする前記工程は、(i)階層マスキング技術、(ii)バケットマスキング技術、(iii)クラスタリング技術、または(iv)シャッフリング技術の1つによって、前記秘匿性データをサニタイズする工程を含む請求項1に記載のプロセッサー実施方法。
  6. 前記シャッフリング技術は、複数のバランスされたバケットを得るために実行され、
    前記複数のバケット組み合わせのそれぞれは、バランスされたエンティティー数を有する請求項5に記載のプロセッサー実施方法。
  7. データ秘匿性−実用性トレードオフ算出器によって、前記秘匿性データと前記バランスされたバケットの中間点に基づいて、実用性インデックスを算出する工程(220)をさらに含む請求項6に記載のプロセッサー実施方法。
  8. 前記データ秘匿性−実用性トレードオフ算出器によって、前記複数のバケットと、前記複数のバランスされたバケットとの間の変動の数に基づいて、属性変動を算出する工程(222)をさらに含む請求項7に記載のプロセッサー実施方法。
  9. 前記受信されたデータに基づいて、前記敵対者モデルを継続して学習および更新する工程(224)をさらに含む請求項1に記載のプロセッサー実施方法。
  10. 決定支援モジュールによって、前記受信されたデータに基づいて、データの売り手に推奨を提供する工程(226)、
    流出データ分析器によって、前記1人以上のデータの買い手の要求にマッチングする前記出力データを評価する工程(228)、
    データ公開管理モジュールによって、前記決定支援モジュールによる前記推奨に基づいて、公開計画を決定する工程(230)、
    報告および警告管理モジュールによって、前記出力データに基づいて、評価報告および警告を生成する工程(232)、および
    イベント記録モジュールによって、前記出力データに関連付けられたイベントを記録する工程(234)の1つ以上をさらに含む請求項9に記載のプロセッサー実施方法。
  11. システム(100)であって、
    1つ以上のプロセッサー(102)と、
    前記1つ以上のプロセッサー(102)に動作可能に接続され、前記1つ以上のプロセッサー(102)によって実行可能に構成された複数の命令を保存している1つ以上の内部データ記憶デバイスと、を含み、
    前記複数の命令は、
    1人以上のデータの買い手によるデータ消費を可能とするために、1つ以上のデータソースからデータを受信するよう構成されたデータ接続器(108A)と、
    流入データ分析器(108B)であって、
    前記受信されたデータを分析し、前記受信されたデータのメタデータを抽出および処理し、
    前記データに関連付けられた事前定義された知識ベースに基づいて、前記処理されたメタデータから少なくとも1つの機密属性を含む検索空間を特定するよう構成された前記流入データ分析器(108B)と、
    敵対者モデル生成器(108C)であって、
    前記検索空間を、関連付けられた秘匿性データを有する前記少なくとも1つの機密属性にそれぞれ対応する複数のバケットの複数のセットに区分化することにより、敵対者モデルを生成し、
    前記複数のバケットの前記複数のセットのそれぞれのバケット数を算出し、さらに、前記複数のバケットの前記複数のセットから、前記複数のバケットの複数のバケット組み合わせを生成し、
    前記少なくとも1つの機密属性のそれぞれに関連付けられた前記秘匿性データを、前記複数のバケットから得られるマスキングバケットに置き換え、
    前記秘匿性データに割り当てられた前記マスキングバケットに基づいて、前記複数のバケット組み合わせのそれぞれのエンティティー数を算出し、
    前記算出されたエンティティー数および事前定義された秘匿性しきい値に基づいて、匿名性インデックスを算出し、
    前記受信されたデータに基づいて、前記敵対者モデルを継続して学習および更新するよう構成された前記敵対者モデル生成器(108C)と、
    前記算出された匿名性インデックスに基づいて、前記秘匿性データをサニタイズすることにより、出力データを生成するよう構成されたデータマスキングモジュール(108D)と、
    前記受信されたデータに基づいて、データの売り手に推奨を提供するよう構成された決定支援モジュール(108F)と、
    前記1人以上のデータの買い手の要求にマッチングする前記出力データを評価するよう構成された流出データ分析器(108G)と、
    前記決定支援モジュールによる前記推奨に基づいて、公開計画を決定するよう構成されたデータ公開管理モジュール(108H)と、
    前記出力データに基づいて、評価報告および警告を生成するよう構成された報告および警告管理モジュール(108I)と、
    前記出力データに関連付けられたイベントを記録するよう構成されたイベント記録モジュール(108J)と、を含むことを特徴とするシステム。
  12. 前記少なくとも1つの機密属性は、2値データ、カテゴリーデータ、数値データ、および説明テキストの1つ以上を含む請求項11に記載のシステム。
  13. 前記敵対者モデル生成器(108C)は、(a)値の事前定義された範囲と、(b)前記事前定義された知識ベースに基づく前記少なくとも1つの機密属性のそれぞれ用の事前定義された上限および下限とのいずれか一方に基づいて、前記複数のバケットの前記複数のセットを生成するようさらに構成されている請求項11に記載のシステム。
  14. 前記値の事前定義された範囲、並びに、前記上限および前記下限は、前記少なくとも1つの機密属性に基づいて、前記流入データ分析器(108B)によって算出されている請求項13に記載のシステム。
  15. 前記データマスキングモジュール(108D)は、(i)階層マスキング技術、(ii)バケットマスキング技術、(iii)クラスタリング技術、または(iv)シャッフリング技術の1つによって、前記秘匿性データをサニタイズするようさらに構成されている請求項11に記載のシステム。
  16. 前記シャッフリング技術は、複数のバランスされたバケットを得るために実行され、
    前記複数のバケット組み合わせのそれぞれは、バランスされたエンティティー数を有する請求項15に記載のシステム。
  17. 前記秘匿性データと前記バランスされたバケットの中間点に基づいて、実用性インデックスを算出し、さらに、前記複数のバケットと、前記複数のバランスされたバケットとの間の変動の数に基づいて、属性変動を算出するよう構成されたデータ秘匿性−実用性トレードオフ算出器(108E)をさらに含む請求項16に記載のシステム。
JP2018544339A 2016-02-22 2017-02-20 データの秘匿性−実用性間のトレードオフを算出するためのシステムおよび方法 Active JP6892454B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN201621006136 2016-02-22
IN201621006136 2016-02-22
PCT/IB2017/050950 WO2017145038A1 (en) 2016-02-22 2017-02-20 Systems and methods for computing data privacy-utility tradeoff

Publications (2)

Publication Number Publication Date
JP2019512128A true JP2019512128A (ja) 2019-05-09
JP6892454B2 JP6892454B2 (ja) 2021-06-23

Family

ID=59684816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018544339A Active JP6892454B2 (ja) 2016-02-22 2017-02-20 データの秘匿性−実用性間のトレードオフを算出するためのシステムおよび方法

Country Status (10)

Country Link
US (1) US11182502B2 (ja)
EP (1) EP3420475B1 (ja)
JP (1) JP6892454B2 (ja)
CN (1) CN108885673B (ja)
AU (2) AU2017222475A1 (ja)
BR (1) BR112018017269A2 (ja)
CA (1) CA3015447C (ja)
MX (1) MX2018010114A (ja)
SG (1) SG11201807132WA (ja)
WO (1) WO2017145038A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022041957A (ja) * 2020-08-31 2022-03-11 株式会社日立製作所 データ解析システムのプライバシー保護データを生成する方法及びデバイス

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10565398B2 (en) * 2017-10-26 2020-02-18 Sap Se K-anonymity and L-diversity data anonymization in an in-memory database
US11132453B2 (en) * 2017-12-18 2021-09-28 Mitsubishi Electric Research Laboratories, Inc. Data-driven privacy-preserving communication
US11036884B2 (en) * 2018-02-26 2021-06-15 International Business Machines Corporation Iterative execution of data de-identification processes
US11520923B2 (en) * 2018-11-07 2022-12-06 Nec Corporation Privacy-preserving visual recognition via adversarial learning
CN109753820B (zh) * 2019-01-10 2023-01-03 贵州财经大学 数据开放共享的方法、装置及系统
EP4024312A4 (en) * 2019-08-29 2022-08-10 Fujitsu Limited SAMPLE EXTRACTION PROGRAM, DEVICE AND METHOD

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03191442A (ja) * 1989-12-21 1991-08-21 Nec Corp 関係型データベース管理システム
JP2005346248A (ja) * 2004-06-01 2005-12-15 Mpo:Kk 情報仲介方法及び装置
WO2011145401A1 (ja) * 2010-05-19 2011-11-24 株式会社日立製作所 個人情報匿名化装置
JP2014106691A (ja) * 2012-11-27 2014-06-09 Fujitsu Ltd 匿名化処理方法及び装置
WO2014181541A1 (ja) * 2013-05-09 2014-11-13 日本電気株式会社 匿名性を検証する情報処理装置及び匿名性検証方法
JP2014229039A (ja) * 2013-05-22 2014-12-08 株式会社日立製作所 プライバシ保護型データ提供システム
JP2015153106A (ja) * 2014-02-13 2015-08-24 株式会社東芝 匿名化指標算出システム
US20150269391A1 (en) * 2012-09-27 2015-09-24 Tata Consultancy Services Limited Privacy utility trade off tool

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7426752B2 (en) * 2004-01-05 2008-09-16 International Business Machines Corporation System and method for order-preserving encryption for numeric data
EP1757006A2 (en) * 2004-06-01 2007-02-28 Ben-Gurion University of the Negev Research and Development Authority Structure preserving database encryption method and system
WO2007044970A2 (en) * 2005-10-12 2007-04-19 Business Objects, S.A. Apparatus and method for generating reports with masked confidential data
US8112422B2 (en) 2008-10-27 2012-02-07 At&T Intellectual Property I, L.P. Computer systems, methods and computer program products for data anonymization for aggregate query answering
US8627483B2 (en) 2008-12-18 2014-01-07 Accenture Global Services Limited Data anonymization based on guessing anonymity
US8458451B2 (en) * 2009-01-20 2013-06-04 New York University Database outsourcing with access privacy
US20140046777A1 (en) * 2009-08-14 2014-02-13 Dataxu, Inc. Methods and systems for using consumer aliases and identifiers
US20120070045A1 (en) * 2009-12-17 2012-03-22 Gregory Vesper Global medical imaging repository
CN101840439A (zh) * 2010-05-25 2010-09-22 天津大学 基于应急事件和应急预案的应急情景推荐方法
US9298878B2 (en) * 2010-07-29 2016-03-29 Oracle International Corporation System and method for real-time transactional data obfuscation
WO2012100331A1 (en) 2011-01-25 2012-08-02 Vezina Gregory An internet search and security system that uses balanced logic
US8695101B2 (en) * 2012-04-09 2014-04-08 International Business Machines Corporation Data privacy engine
US9361481B2 (en) * 2013-11-01 2016-06-07 Anonos Inc. Systems and methods for contextualized data protection
US10325099B2 (en) * 2013-12-08 2019-06-18 Microsoft Technology Licensing, Llc Managing sensitive production data
US9230132B2 (en) 2013-12-18 2016-01-05 International Business Machines Corporation Anonymization for data having a relational part and sequential part
US20150220625A1 (en) * 2014-02-03 2015-08-06 Interdigital Patent Holdings, Inc. Methods and apparatus for conveying surveillance targets using bloom filters
US20160078365A1 (en) 2014-03-21 2016-03-17 Philippe Baumard Autonomous detection of incongruous behaviors
US10339341B2 (en) * 2014-05-07 2019-07-02 Hush Hush Methods and systems for obfuscating sensitive information in computer systems
CN104216994B (zh) * 2014-09-10 2017-06-20 华中科技大学 一种列联表数据发布的隐私保护方法
US10108817B2 (en) * 2014-09-26 2018-10-23 Microsoft Technology Licensing, Llc Privacy-preserving cookies for personalization without user tracking
US9490976B2 (en) * 2014-09-29 2016-11-08 Wipro Limited Systems and methods for providing recommendations to obfuscate an entity context
US9609025B1 (en) * 2015-11-24 2017-03-28 International Business Machines Corporation Protection of sensitive data from unauthorized access

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03191442A (ja) * 1989-12-21 1991-08-21 Nec Corp 関係型データベース管理システム
JP2005346248A (ja) * 2004-06-01 2005-12-15 Mpo:Kk 情報仲介方法及び装置
WO2011145401A1 (ja) * 2010-05-19 2011-11-24 株式会社日立製作所 個人情報匿名化装置
US20150269391A1 (en) * 2012-09-27 2015-09-24 Tata Consultancy Services Limited Privacy utility trade off tool
JP2014106691A (ja) * 2012-11-27 2014-06-09 Fujitsu Ltd 匿名化処理方法及び装置
WO2014181541A1 (ja) * 2013-05-09 2014-11-13 日本電気株式会社 匿名性を検証する情報処理装置及び匿名性検証方法
JP2014229039A (ja) * 2013-05-22 2014-12-08 株式会社日立製作所 プライバシ保護型データ提供システム
JP2015153106A (ja) * 2014-02-13 2015-08-24 株式会社東芝 匿名化指標算出システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022041957A (ja) * 2020-08-31 2022-03-11 株式会社日立製作所 データ解析システムのプライバシー保護データを生成する方法及びデバイス
JP7165795B2 (ja) 2020-08-31 2022-11-04 株式会社日立製作所 データ解析システムのプライバシー保護データを生成する方法及びデバイス

Also Published As

Publication number Publication date
SG11201807132WA (en) 2018-09-27
AU2017222475A1 (en) 2018-10-04
CA3015447A1 (en) 2017-08-31
EP3420475B1 (en) 2020-11-18
JP6892454B2 (ja) 2021-06-23
BR112018017269A2 (pt) 2019-01-15
AU2020202889B2 (en) 2021-04-22
CA3015447C (en) 2021-09-14
AU2020202889A1 (en) 2020-05-21
MX2018010114A (es) 2019-07-04
US11182502B2 (en) 2021-11-23
CN108885673A (zh) 2018-11-23
EP3420475A1 (en) 2019-01-02
WO2017145038A1 (en) 2017-08-31
CN108885673B (zh) 2022-06-07
EP3420475A4 (en) 2019-09-11
US20190057225A1 (en) 2019-02-21

Similar Documents

Publication Publication Date Title
CN109716345B (zh) 计算机实现的隐私工程系统和方法
JP6892454B2 (ja) データの秘匿性−実用性間のトレードオフを算出するためのシステムおよび方法
US10762561B2 (en) Systems and methods for improving computation efficiency in the detection of fraud indicators for loans
Han et al. Artificial intelligence for anti-money laundering: a review and extension
Bharati et al. Federated learning: Applications, challenges and future directions
US20150242856A1 (en) System and Method for Identifying Procurement Fraud/Risk
WO2020053854A1 (en) Systems and methods for secure prediction using an encrypted query executed based on encrypted data
US20160086262A1 (en) Systems and methods for increasing efficiency in the detection of identity-based fraud indicators
US20210112101A1 (en) Data set and algorithm validation, bias characterization, and valuation
Pramanik et al. Privacy preserving big data analytics: A critical analysis of state‐of‐the‐art
US11100600B2 (en) Systems and methods for entity network analytics using geometric growth rate analysis
Slepchuk et al. Overcoming privacy concerns in consumers’ use of health information technologies: A justice framework
Brohi et al. Identifying and analyzing the transient and permanent barriers for big data
Jayagopal et al. Data management and big data analytics: Data management in digital economy
Böhmecke-Schwafert et al. Exploring blockchain-based innovations for economic and sustainable development in the global south: A mixed-method approach based on web mining and topic modeling
Śmietanka et al. Federated learning for privacy-preserving data access
Navdeep et al. Role of big data analytics in analyzing e-Governance projects
Zhang et al. Differential privacy medical data publishing method based on attribute correlation
Santhana Marichamy et al. Efficient big data security analysis on HDFS based on combination of clustering and data perturbation algorithm using health care database
US20190197585A1 (en) Systems and methods for data storage and retrieval with access control
Barzinpour et al. Clustering networks’ heterogeneous data in defining a comprehensive closeness centrality index
Staab et al. Social informatics
Aruchsamy et al. Modern Approach in Pattern Recognition Using Circular Fermatean Fuzzy Similarity Measure for Decision Making with Practical Applications
Yange et al. A Schematic View of the Application of Big Data Analytics in Healthcare Crime Investigation
Isie Application of Blockchain Technology and Integration of Differential Privacy: Issues in E-Health Domains

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181017

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181017

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191001

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200728

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210427

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210527

R150 Certificate of patent or registration of utility model

Ref document number: 6892454

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250