JP2017091515A - 匿名化のために属性を自動的に識別するコンピュータ実装システムおよび方法 - Google Patents

匿名化のために属性を自動的に識別するコンピュータ実装システムおよび方法 Download PDF

Info

Publication number
JP2017091515A
JP2017091515A JP2016206362A JP2016206362A JP2017091515A JP 2017091515 A JP2017091515 A JP 2017091515A JP 2016206362 A JP2016206362 A JP 2016206362A JP 2016206362 A JP2016206362 A JP 2016206362A JP 2017091515 A JP2017091515 A JP 2017091515A
Authority
JP
Japan
Prior art keywords
attributes
attribute
anonymization
level
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016206362A
Other languages
English (en)
Other versions
JP6814017B2 (ja
Inventor
ジュリアン・フロイトガー
Freudiger Julien
シャンタヌ・レイン
Rane Shantanu
アレハンドロ・イー・ブリト
E Brito Alejandro
アーシン・ウズン
Uzun Ersin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Original Assignee
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc filed Critical Palo Alto Research Center Inc
Publication of JP2017091515A publication Critical patent/JP2017091515A/ja
Application granted granted Critical
Publication of JP6814017B2 publication Critical patent/JP6814017B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/105Multiple levels of security

Abstract

【課題】匿名化のために属性を自動的に識別するコンピュータ実装システムおよび方法を提供する。
【解決手段】属性のデータセットがアクセスされ、データセットにおける各属性は、複数の値に関連付けられている。データセットの値が暗号化され、属性は、属性のそれぞれに対して機密レベルを割り当てられ、属性の内の1つ以上は、割り当てられた機密レベルに基づいて、匿名化のデータセットから選択される。
【選択図】図2

Description

本特許出願は、一般に、データを匿名化することに関し、特に、匿名化のため属性を自動的に識別するコンピュータ実装システムおよび方法に関する。
事業の通常の過程において、企業は、大量のデータを蓄積する。近年、いくつかの企業は、広告主、研究者または共同パートナーなどの第三者とそれらのデータを共有することによってこのデータを収益化し始めている。第三者は、一定の金銭料金を支払い、これと引き換えに、データ所有者から関連データを受信する。そして、第三者は、広告をターゲッティングするかまたは研究を行うためにデータを使用することができる。しかしながら、第三者によって要求されるデータは、大抵の場合、データが収集される1人以上の個人にとってプライベートな情報を含む。
データが収集された個人のプライバシーを保護するために、データの匿名化が第三者に提供される前に生じることができる。データ匿名化は、機密情報を保護しながら要求した第三者がデータを使用するのを可能とする機能を維持するためにデータの改変を含む。データの改変は、ノイズを付加すること、データの精度を低下させること、または、データ自体の一部を除去することを含むことができる。一般に、データ所有者は、匿名化に関する十分な知識を有さず、それゆえに、匿名化のために機密情報を識別するためにならびに第三者にデータを提供する前にそれらのデータを匿名化するために第三者をあてにする。
匿名化するための1つのアプローチは、データ匿名化を支援するように個々の個人を提供する匿名化サービスプロバイダに接触することを含む。匿名化に割り当てられた個人は、信頼できない第三者であるにもかかわらず、データへのアクセスを有する。現在、多くの企業は、データが匿名化される前後においてデータを保護するための覚書または機密保持契約などの秘密保持契約に署名するために匿名化サービスを依頼する。さらなるアプローチは、匿名化のためのソフトウェアアプリケーションをあてにすることを含む。しかしながら、ソフトウェアは、一般に、データに対するフルアクセスを与えられなければならず、セキュリティ上の懸念がなおも発生する。さらに、ほとんどのソフトウェアは、通常、どのデータ属性を匿名化するかを識別するためにおよび匿名化パラメータを識別するためにデータ所有者を必要とする。残念ながら、ほとんどのデータ所有者は、どの属性が匿名化を必要とするかおよび個人の身元が開示されるのを防止するために必要な匿名化レベルを正確に識別するための知識および見解を欠いている。それゆえに、データが匿名化される必要があるかどうかを判定する前に匿名化のために分析されるべきデータが個人またはソフトウェアのいずれかに開示されなければならず、機密情報が信頼できない者によって発見されるのを可能とすることに技術的課題が存在する。
したがって、データの開示または違反を防止してデータ保護を確実にするために、匿名化のために特定のデータ属性を識別することを含むデータ匿名化を自動化するためにアプローチする必要性がある。
情報の開示を防止しながら匿名化のために機密情報を識別する際に企業を支援するために、アノニマイザは、データをブラインドで分析し、どのデータ項目が匿名化されるべきかを識別することができる。具体的には、分析のためのデータセットは、暗号化されることができ、処理のためにデータ所有者からアノニマイザに提供されることができる。アノニマイザは、データセット内のどの属性が匿名化されるべきかおよび必要とされる匿名化レベルを判定することができる。そして、識別された属性は、属性の確認のためにデータ所有者に提供されることができる。データ所有者によって承認されると、アノニマイザは、属性のそれぞれについてのデータ値を匿名化する。
実施形態は、匿名化のために属性を自動的に識別するコンピュータ実装システムおよび方法を提供する。属性のデータセットがアクセスされる。データセットにおける各属性は、複数の値に関連付けられている。データセットの値は暗号化され、属性は、属性のそれぞれに対して機密レベルを割り当てることによって処理される。属性のうちの1つ以上は、割り当てられた機密レベルに基づいて匿名化のためのデータセットから選択される。
本発明のさらに他の実施形態は、以下の詳細な説明から当業者にとって容易に明らかになるものであり、本発明を実施するための最良の形態を例示することよって本発明の実施形態について記載される。実現されるように、本発明は、他のおよび異なる実施形態が可能であり、そのいくつかの詳細は、全て本発明の精神および範囲から逸脱することなく、様々な明白な点において変更が可能である。したがって、図面および詳細な説明は、限定ではなく本質的に例示としてみなされるべきである。
図1は、1つの実施形態にかかる匿名化のために属性を自動的に識別するコンピュータ実装システムを示すブロック図である。 図2は、1つの実施形態にかかる匿名化のために属性を識別するコンピュータ実装方法を示すフロー図である。 図3は、一例として、規則ベース分類についてのプロセスを示すフロー図である。 図4は、一例として、統計ベース分類についてのプロセスを示すフロー図である。 図5は、一例として、郵便番号の分布についてのグラフを示すブロック図である。 図6は、一例として、データセット内の郵便番号の分布についてのグラフを示すブロック図である。 図7は、一例として、データセット内の郵便番号の異なる分布についてのグラフを示すブロック図である。 図8は、一例として、平文サンプリングについてのプロセスを示すフロー図である。
ビジネスの通常の過程において大量のデータを収集する企業および機関は、現在、データを匿名化し、市場調査または医学研究などの研究のために他の企業および機関にデータを提供することによってそれらのデータを収益化することができる。しかしながら、データの一部は、機密であると考えることができるかまたはデータが保護されかつデータの参照先である個人の身元が秘密のままであるのを確実にするために連邦政府によって規制される。機密情報を含むかまたは連邦政府によって規制されるデータ収集は、データへのアクセスを防止するために匿名化されなければならない。現在、多くの企業は、どのデータが匿名化される必要がありかつ第三者がデータに関連付けられている個人を特定するのを防止するためにどのくらいの匿名化が必要であるかの識別において経験または見解を有しない。機密情報を保護しかつデータの開示を防止するために、情報は、暗号化されることができ、匿名化の自動判定が行われることができる。
自動匿名化は、暗号化されたデータをブラインドに処理するアノニマイザを介して行うことができる。図1は、1つの実施形態にかかる匿名化のために属性を自動的に識別するコンピュータ実装システムを示すブロック図である。データ所有者は、時間をかけて収集されたデータ25を大量に保持する。データ25は、ビジネスのデータ所有者の場所またはリモートに位置する信頼できるサーバ21に相互接続されたデータベース24に記憶されることができる。あるいは、データ25は、複数のサーバ上のプールに含めてクラウド内に記憶されることができる。データ所有者は、デスクトップ11Aもしくはラップトップ11Bのコンピュータを介してまたはモバイルコンピューティングデバイス(図示しない)などの他の種類のコンピューティングデバイスを介してデータ25にアクセスすることができる。記憶されたデータ25は、複数の属性にそれぞれ関連付けられた1つ以上のデータセット25を含むことができる。さらに、各属性は、個人群についてのデータ値に関連付けられている。
信頼できるサーバ21は、暗号化部22と、送信部23とを含む。金銭と引き換えるものなどのデータ所有者が第三者に提供したいデータ25は、暗号化部22を介して暗号化されることができ、送信部23は、アノニマイザ13に暗号化されたデータ26を送信することができる。アノニマイザ13は、信頼できるかまたは信頼できず、インターネットまたは専用ネットワークなどの相互ネットワーク12を介して信頼できるデータサーバ21に相互接続されることができる。アノニマイザ13は、比較部14と、選択部15と、機密割り当てモジュール16と、検証部28と、匿名化モジュール17とを含むことができる。
アノニマイザによるデータセットの処理中において、比較部14は、擬似識別子を指す関連付けられた文字列のアレイについての辞書19、分配モデル20または正規表現29のいずれかとデータセットの属性を比較する。比較中において、機密モジュール16は、各属性に対して機密値を割り当て、割り当てられた機密値に基づいて機密として1つ以上の属性を識別することができる。機密値は、データが対応する個人の識別を防止するために強く十分にマスクされるのに確実にするのに必要な匿名化量を反映する。例えば、より機密性がある属性は、機密性が少ない属性よりも強く匿名化されなければならない。匿名化は、ノイズを付加すること、データの精度を低下させること、または、データの一部を除去することなどによって機密情報を保護するためにデータを変更する。その後、匿名化モジュール17は、機密レベルに基づいて機密属性を匿名化する。そして、匿名化データ27は、第三者に提供するためにデータ所有者に返送される。
コンピューティングデバイスおよびサーバは、それぞれ、中央処理装置、ランダムアクセスメモリ(RAM)、入力/出力ポート、ハードドライブまたはCD−ROMドライブなどの不揮発性二次記憶装置、ネットワークインターフェース、キーボードおよびディスプレイなどのユーザインターフェース手段を含む周辺装置、ならびに、本願明細書に開示された実施形態を実行するための1つ以上のモジュールを含むことができる。ソフトウェアプログラムを含むプログラムコード、およびデータは、CPUによって実行および処理するためにRAMにロードされ、その結果は、表示、出力、伝送または記憶のために生成される。
モジュールは、従来のプログラミング言語のソースコードとして書かれたコンピュータプログラムまたはプロシージャとして実装されることができ、オブジェクトまたはバイトコードとして中央処理装置による実行のために提示される。あるいは、モジュールはまた、集積回路としてハードウェアで実装されるかまたは読み出し専用メモリ要素に焼き付けられることができ、コンピューティングデバイスおよびサーバのそれぞれは、専用コンピュータとして機能することができる。例えば、モジュールがハードウェアとして実装されている場合、その特定のハードウェアは、メッセージ優先順位付けを行うように特化され、他のコンピュータを使用することができない。さらに、モジュールが読み出し専用メモリ要素に焼き付けられた場合、読み出し専用メモリを記憶するコンピューティングデバイスまたはサーバは、他のコンピュータができないメッセージ優先順位付けを行うように特化されることになる。他の種類の専用コンピュータが可能である。さらに、管理システムは、クライアントを特定しかつ管理システムが実装されるハードウェアを特定するように制限されることができるとともに、クライアントをサブスクライブするのみであるサブスクリプションサービスによって制限される。ソースコードおよびオブジェクトおよびバイトコードの様々な実装は、フロッピーディスク、ハードドライブ、ディジタルビデオディスク(DVD)、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)および同様の記憶媒体などのコンピュータ読み取り可能な記憶媒体上に保持されることができる。他の種類のモジュールおよびモジュール機能が可能であるとともに、他の物理的ハードウェア要素も可能である。
各属性についての機密レベルを判定することは、アノニマイザが匿名化および必要な匿名化レベルのために1つ以上の属性を識別するのを可能とする。図2は、1つの実施形態にかかる匿名化のために属性を自動的に識別するコンピュータ実装方法を示すフロー図である。データ所有者は、潜在的な匿名化のためのデータセットを識別する。データセットは、1人以上の個人についての名称、社会保障番号、住所、電話番号、病状および口座番号などの属性と、各属性についてのデータ値とを含むことができる。例えば、郵便番号についての属性は、シアトル北部に位置する第1の個人についての98125という値と、シアトルのダウンタウンに位置する第2の個人についての98101という値とを含むことができる。他の属性およびデータ値が可能である。
データ値は、属性のそれぞれについて暗号化されることができ(ブロック31)、そして、暗号化されたデータ値は、処理のためにアノニマイザに送信される(ブロック32)。さらなる実施形態において、属性自体もまた暗号化される。暗号化は、CBCモードにおける高度暗号化標準(AES)などの決定論的対称鍵暗号化方式を使用してまたは順序保存暗号化を使用して行うことができる。順序保存暗号化の際に、データ値は、非暗号化データ値の順序を維持しながら、各データ値に暗号化された値を割り当てる擬似乱数発生器を介して実行される。AESなどのほとんどの暗号化アルゴリズムとは異なり、順序保存暗号化は、それらの暗号化された形式で平文データの順序を維持する。
例えば、データ値の平文バージョンは、番号0〜5を含む。平文データ値の順序は、順序付けられた暗号文データ値を生成するために順序保存暗号化の際に維持される。具体的には、擬似乱数発生器は、暗号文値としての暗号値を順序維持するように平文値の擬似ランダムマッピングを行う。暗号化を順序維持するための唯一の基準は、平文値および暗号文値の順序が保存されるということである。1つの例において、番号0は457にマッピングされるとともに、1は473にマッピングされ、2は510にマッピングされ、3は625にマッピングされ、4は635にマッピングされ、5は1001にマッピングされる。ゼロは、最小平文データ値であり、ゼロの暗号化された値である457は、データセットの最小の暗号文値である。さらに、平文値5は最大であるとともに、5についての暗号化された値1001もまた最大である。暗号化された値の順序を保存することは、暗号化されているにもかかわらず、データが制限された量の処理および推論のためになおも有用であるのを確実にするのに役立つ。
暗号化されたデータセットの処理中において、データ値は、割り当てられた機密値に基づいて匿名化のために1つ以上の属性を選択するために(ブロック33)、規則ベース分類、統計ベース分類または平文サンプリングを使用して分析されることができる。規則ベース分類に基づいて、暗号化されたデータ値の属性は、それぞれ機密値に関連付けられている様々な辞書文字列と比較される。所定の閾値を超える機密値を有するそれらの属性は、機密性として識別されて匿名化のために選択されることができる。規則ベース分類を介して機密属性を識別することは、図3を参照して以下にさらに特定される。統計ベース分類に関しては、各属性のデータ値はモデル化され、アノニマイザに既に知られている属性の分布と比較される。その後、既知の分布とアノニマイザによって観察された分布との間の相違の尺度が判定され、1つ以上の機密属性を識別して各属性についての機密レベルを判定するために所定の閾値と比較される。統計ベース判定は、規則ベース分類の結果を確認するためにまたは属性値自体が暗号化されている場合などに属性を識別するために使用されることができる。統計ベース判定は、図4を参照してさらに記載される。
最後に、平文サンプリングに基づいて、データセットの一部は、暗号化前にアノニマイザに提供される。アノニマイザは、暗号化されていないデータに基づいて1つ以上の属性についての表現のセットを生成する。その後、データセットの残りが暗号化され、特定の属性およびそれらの機密性を識別するように表現と比較される。平文サンプリングは、図8を参照して以下にさらに説明されるように、属性および属性についての機密値を識別するために使用されることができる。
選択されると、属性は、その後、再検討および検証のためにデータ所有者に必要に応じて提供されることができる(ブロック34)。選択された属性を再検討することにより、データ所有者は、匿名化のために選択された属性のうちの1つ以上を除去すること、1つ以上の属性を付加することまたは選択された属性を検証することを含むフィードバックを提供することができる(ブロック35)。そして、アノニマイザは、割り当てられた機密レベルに応じて選択された属性のデータ値を匿名化する(ブロック36)。1つの実施形態において、匿名化は、2015年11月3日に出願された代理人整理番号022.1455.US.UTLの「暗号化されたデータを匿名化するためのコンピュータ実装システムおよび方法」と題された米国特許出願第14/931,774号に記載されたように行うことができる。匿名化するための他の方法が可能である。
匿名化のために属性を自動的に識別するために、アノニマイザは、過去の経験に基づいてデータセットを処理する。図3は、一例として、規則ベース分類についてのプロセスを示すフロー図である。アノニマイザは、1つの実施形態において、暗号化されていない属性および暗号化されたデータ値を含めることができるデータ所有者から暗号化されたデータセットを受信し、既知の属性などの擬似識別子および機密値を指す文字列の辞書にアクセスする(ブロック41)。アノニマイザは、属性を分析する以前の経験に基づいて文字列の辞書をコンパイルすることができる。例えば、非常に高い機密性に関連付けられているとしてアノニマイザが社会保障番号を以前に識別した場合、辞書における機密値もまた高い値を反映し、または、年齢などの属性が一般に低い機密性に関連付けられている場合、機密値は、それに応じて設定される。
各機密値は、文字列がその属性についてのデータ値に関連付けられた個人を識別するために使用することができる擬似識別子または属性をおそらく含む程度を表す。1つの例において、機密値は、より高い尤度を表すより高い値を有する0から1の範囲とすることができ、擬似識別子データ値は、個人に関連付けることができる。例えば、辞書は、社会保障、位置、名称および心拍数モニタによるものなどのセンサ読取値を含む擬似識別子についての文字列を含むことができる。社会保障データ値は、その特定の社会保障番号に関連付けられた個人の身元を開示することから、社会保障は、1.0の重みに関連付けられる。対照的に、位置は、0.6の重みに関連付けられ、フルネームは、1の重みに関連付けられ、センサ読取値は、0.01の重みに関連付けられる。
0から100または−1から1などの他の重みとともに、病状、クレジットカード番号および等級などの他の擬似識別子が可能である。さらなる実施形態において、機密値は、辞書内の全ての文字列の両端値が1の合計を有し、各機密値がゼロ以上であるように構成可能であることができる。さらに他の実施形態において、機密値は、匿名化される可能性が高い属性を表す辞書内の文字列が匿名化されにくい属性に関連付けられた文字列よりも高い機密値に関連付けられるように確率として解釈されることができる。他の種類の機密値が可能である。
そして、データセットにおける属性のそれぞれは、辞書と比較され(ブロック42)、1つ以上の一致が各属性のそれぞれについて識別されることができる(ブロック43)。一致は、文字列部分一致または類似度メトリックに基づくものを含む複数の方法で判定することができる。文字列一致は、辞書文字列エントリのそれぞれと属性を比較することと、属性または属性内に含まれている1つ以上のエントリを識別することとを含む。例えば、属性「電話番号」は、辞書エントリと比較されることができ、「電話番号(telephone number)」、「電話番号(telephone no.)」および「電話番号(phone no)」についての1つ以上のエントリは、エントリのそれぞれが用語「電話(phone)」を含むことから、一致として識別されることができる。文字列一致は、Naiveの文字列検索アルゴリズムまたは他の種類のパターンアルゴリズムを介して行うことができる。用語「番号(number)」の類似度に起因して「社会保障番号」についての辞書エントリと一致した「電話番号(phone number)」についての属性などの誤った一致を防止するために、アルゴリズムは、異なるフレーズを分離するためにトレーニングされることができる。あるいは、各属性についての規則が適用されることができる。例えば、社会保障番号の規則は、3つの数字の後にダッシュが続き、その後に2つの数字が続き、その後にダッシュが続き、その後に4つの数字が続くものを含むことができる。対照的に、電話番号の規則は、3つの数字の後にダッシュが続き、その後に3つの数字が続き、その後にダッシュが続き、その後に4つの数字が続くものを含むことができる。
さらに、類似度メトリックを介した属性の比較は、各属性と各辞書文字列との間の類似度を計算することを含む。類似度閾値が定義され、属性に最も類似している辞書文字列を判定するために各類似度に適用される。類似度は、コサイン類似度、相互相関または対数表現ならびに他の類似度メトリックを使用して判定されることができる。例えば、コサイン類似度が使用される場合、辞書内の各文字列および各属性についてベクトルが生成され、属性および各文字列についてのベクトル間で類似度が算出される。各ベクトルは、対応する属性の名称から判定される。例えば、候補属性「年齢」についてのベクトルは、[「a」、「g」、「e」]を含む。判定されると、ベクトルは、匿名化されるべきデータベース内の他の属性についてのベクトルとどの程度密接に一致するかを判定するために編集距離計算に使用されることができる。そして、類似度は、どの辞書文字列が属性に一致または最も密接に一致するかを識別するために使用される。具体的には、属性に一致するとして識別される閾値を超える類似度に関連付けられた属性および辞書文字列についての各類似度に閾値が適用される。
一致する文字列が識別されると、その文字列に関連付けられた重みは、属性に割り当てられ、機密値に所定の閾値が適用される(ブロック45)。機密値が閾値を超えた場合、属性は、識別された機密性に基づいて匿名化するために推薦される(ブロック46)。しかしながら、機密値が閾値を超えていない場合、匿名化の推薦は提供されない(ブロック47)。また、一致が識別されない場合、データセット内の全ての属性が処理されるまで他の属性が選択される(図示しない)。
あるいは、匿名化の必要性および匿名化レベルは、単に単一の閾値よりもむしろ機密値の範囲に基づいて判定されることができる。例えば、0から0.2の機密値を有する属性は、匿名化される必要はなく、0.3から0.5の重みを有する属性は、低レベルの匿名化を必要とし、0.6から0.7の重みを有する属性は、中間の匿名化を必要とし、0.8から1の重みを有する属性は、最高レベルの匿名化を必要とする。
規則ベース分類のさらなる実施形態において、データ所有者は、機密値を判定するためにアノニマイザを要求するよりもむしろ属性のリストおよび関連する機密値を有するアノニマイザを提供することができる。受信すると、アノニマイザは、匿名化レベルを判定するために機密値を利用し、判定された匿名化レベルに応じて各属性についてのデータ値を匿名化する。具体的には、アノニマイザは、以前の匿名化経験に基づいてまたは閾値を介して匿名化レベルを判定することができる。例えば、1つの例において、アノニマイザは、それらの属性の過去の匿名化に基づいて匿名化されるべき属性のリストを保持することができる。その後、リストに含まれるデータ所有者の属性は匿名化されることができる。あるいは、属性の匿名化が必要であるかどうかを判定するために閾値が使用されることができる。例えば、0.7を超える機密値を有する全ての属性は匿名化されなければならない。また、単一の閾値の代わりに、機密値の範囲は、上述したように、匿名化が必要であるかどうかおよび行うべき匿名化レベルを判定するために使用されることができる。
匿名化のために属性を識別すると、属性のリストが生成されることができ、再検討のためにデータ所有者に提供されることができる。1つの実施形態において、機密レベルおよび対応する匿名化レベルはまた提供されることができる。受信すると、データ所有者は、リスト上の属性を確認し、拒否し、付加しまたは削除することができるとともに、他の種類のフィードバックを提供することができる。データ所有者のフィードバックに応じて、アノニマイザは、統計ベース分類を使用して匿名化のための属性のリストを修正することができる。しかしながら、さらなる実施形態において、統計ベース分類は、例えば属性自体が暗号化されている場合または属性が暗号化されていない場合であっても、匿名化のための属性を識別するために規則ベース分類の代わりに使用されることができる。図4は、一例として、統計ベース分類についてのプロセス50を示すフロー図である。アノニマイザは、各属性についてのデータ値の既知の分布をそれぞれ表しかつ与えられた値を表す特定のデータ値の尤度を記載する確率密度関数(PDF)にアクセスする(ブロック51)。各PDFは、その属性についてのデータ値に関連付けられた個人の識別を防止するために必要な匿名化レベルを示す機密値に関連付けることができる。
例えば、米国内の全ての郵便番号および米国内の1つ以上の州についての全ての郵便番号の分布を含む1つ以上のPDFが郵便番号のために提供されることができる。図5は、一例として、米国内の全ての郵便番号の分布についてのグラフ60を示すブロック図である。グラフのx軸61は、連続した米国内の全ての郵便番号を表すとともに、y軸62は、各郵便番号の人口を表している。郵便番号分布についての関数63は、軸内にマッピングされる。最も多い人口の郵便番号は、東海岸の一部、具体的には、ニューヨーク市をカバーするおよそ10000範囲、カリフォルニアのほとんどをカバーする90000範囲、および、太平洋岸北西部をカバーする95000範囲であると表示される。一方、最も少ない人口の郵便番号は、中西部に表示される。一般に、少ない人口の郵便番号は、より多くの人々が同じ郵便番号を共有しているため、より多い人口の郵便番号よりも個人に関する情報を開示する可能性が高くなる。他の属性およびグラフが可能である。例えば、姓または名は、名称の人気に基づいてマッピングされることができ、給与は、年齢または場所に基づいてマッピングされることができ、口座番号は、地理的地域によってマッピングされることができ、電話番号は、エリアコードに関連付けられた場所に基づくことができる。
図4に関する説明に戻ると、アノニマイザは、その後、データセット内の各属性についてのデータ値の分布をマッピングする(ブロック52)。暗号化されているにもかかわらず、データ値は、順序保存暗号化が使用される場合、データの順序が維持されることから、それらの暗号化された値に基づいてマッピングされることができる。データセットについての各属性分布が既知の各PDFと比較される(ブロック53)。PDFのいずれかがそのデータセットの属性についての分布と一致するかどうかを判定するためにデータセットの属性と既知の各PDFとの間の発散が測定される(ブロック54)。発散は、既知のPDFの分布とデータセットの属性の分布との間の距離を測定するためにカルバック−ライブラー発散、ジェンセン−シャノン発散または変分距離を使用して測定されることができる。しかしながら、他の発散測定が可能である。
その後、所定の閾値が発散測定に適用されることができる。発散の尺度が閾値未満である場合(ブロック55)、類似性の高い測定値が存在し、分布が一致すると考えられる。そして、一致するPDFの属性は、暗号化された属性に割り当てられる(ブロック56)。さらに、一致するPDFに関連付けられた機密値はまた、暗号化された属性に割り当てられることができ(ブロック56)、暗号化された属性のデータ値についての匿名化レベルを判定するために使用されることができる。しかしながら、発散の尺度が閾値を超えた場合、非類似性の高い測定値が存在するため、分布間の一致は識別されない(ブロック57)。データセット内の各属性は、データセットの属性を特定して匿名化されるべき属性を判定するための試みにおいて既知のPDFの全てと比較される。
1つの例において、統計に基づく分類を使用して、暗号化された属性は、マッピングおよびPDFとの比較のためにデータセットから選択される。図6は、一例として、データセット内の郵便番号の分布についてのグラフ70を示すブロック図である。グラフのx軸71は、データ所有者からのデータセットに含まれる郵便番号を表すとともに、y軸72は、各郵便番号の頻度を表している。具体的には、頻度は、1つの郵便番号を表すデータセット内のデータ値の数に基づいて判定される。データセットの郵便番号分布についての関数73は、軸内にマッピングされる。関数73は、およそ10000郵便番号範囲、およそ90000範囲およびおよそ95000範囲の山を含む。さらに、関数は、およそ50000および60000郵便番号範囲にトラフを含む。そして、分布は、既知のPDFのそれぞれと比較され、発散尺度が判定される。閾値は、発散の尺度のそれぞれに適用され、閾値は、閾値を満たす発散尺度で既知のPDFを判定するために適用される。そして、暗号化された属性は、既知のPDFの属性として識別され、既知のPDFに関連付けられている機密レベルは、識別された属性に割り当てられる。
あるいは、属性が既に既知の場合、比較は、その属性のデータ値についての匿名化レベルを判定するために使用されることができる。例えば、図7は、一例として、データセット内の郵便番号の異なる分布についてのグラフ80を示すブロック図である。グラフのx軸81は、データ所有者からのデータセットに含まれる郵便番号を表すとともに、y軸82は、各郵便番号の頻度を表している。頻度は、1つのそのような郵便番号を表すデータセット内のデータ値の数に基づいて判定される。データセットの郵便番号分布についての関数83は、軸内にマッピングされる。具体的には、この場合、データセットは、主に、およそ90000郵便番号から始まる曲線の成長によって表されるように、西海岸に沿った郵便番号を含む。それゆえに、データセットは、データセット内の郵便番号についての属性値の異なる表現によって示されるPDFによって表される郵便番号の一部のみを含む。
表現の比較に基づいて、アノニマイザは、匿名化レベルを判定することができる。例えば、この例において、郵便番号についての既知のPDFは、低レベルの匿名化が必要であることを示す0.4という機密値に関連付けられることができる。しかしながら、データセットは、西海岸に集中している郵便番号属性値の小さい集合を表していることから、郵便番号についての既知のPDFによって示されるものなど、データが国全体に対して全てが西海岸に沿って存在する個人の小さいグループに関する情報を明らかにしているので、より高い匿名化レベルが必要とされることができる。機密レベルは、アノニマイザの以前の経験に基づいてまたは郵便番号の範囲に基づいて割り当てられることができる。例えば、アノニマイザは、西海岸に焦点をあてた郵便番号が以前に匿名化されているかどうか、その場合にはどの匿名化レベルかを判定することによって郵便番号を匿名化する際に以前の経験を使用することができる。そして、匿名化レベルは、データセットの郵便番号属性に割り当てられることができる。
あるいは、郵便番号の範囲は、機密値、それゆえに匿名化レベルを判定するために使用されることができる。1つの実施形態において、範囲は、郵便番号の数に基づいている。例えば、データセット内で提供される1〜25個の異なる郵便番号は、個人の身元の判定が国全体の中よりも特定のエリア内で容易であることから、高い機密値と関連付けられることができる。さらに、26〜100個の異なる郵便番号は、中間の機密レベルに関連付けられることができ、100個以上の異なる郵便番号は、低い機密レベルまたはその属性についてのPDFに関連付けられた機密レベルに関連付けられることができる。
さらに、2つ以上の属性は、共同分布とともにマッピングされることができる。例えば、年齢および医学的状態がデータセットにマッピングされることができる。共同分布についての既知のPDFは、利用可能な場合、アクセスされることができ、データセットからマッピングされた分布と比較されることができる。分布の差異が識別されることができ、値がPDFとは異なるデータセットのマッピングされた分布を形成しているデータセットに固有の特性が存在することを示唆する。差異は、図7に関して記載された例において提供されるように、特定の地理的位置、人口統計学グループまたは年齢グループに制限されているデータセットの値に起因して発生することがある。そして、機密レベルおよび対応する匿名化レベルは、差異に基づいて判定される。例えば、機密の平均レベルよりも高いレベルは、データ値がそれらの値に関連付けられた個人の開示を防止するために制限される属性に割り当てられることができる。
さらに、データセットの属性のマッピングされた表現は、非常に相関がある属性のうちの他の1つについての機密レベルを判定するために使用されることができる。例えば、データセットからの第1の属性は、既に機密値に関連付けられている。第1の属性のマッピングは、第1の属性および相関がある属性のデータ値が同様に匿名化されるべきであるとデータセット内の他の属性が、非常に密接に相関があるかどうかを判定するためにデータセット内の他の属性のマッピングと比較される。具体的には、属性の分布が比較され、発散尺度が判定される。所定の閾値が適用され、発散尺度が閾値未満である場合、データセットからの2つの属性が一致するように判定され、既知の機密レベルは、一致する属性に割り当てられる。2つの非常に相関がある属性の例は、国や郵便番号を含むことができる。
属性が識別されて機密レベルが割り当てられると、匿名化のために選択された属性は、再検討および確認のためにデータ所有者に機密レベルまたは匿名化レベルを提供することができる。しかしながら、データ所有者からのフィードバックの前後において、匿名化のための属性は、平文サンプリングを使用して検証されることができる。さらに、平文サンプリングはまた、規則ベース分類または統計ベース分類の代わりに匿名化のための属性の識別に使用されることもできる。
平文サンプリングは、分析されるべきデータセットからの既知のサンプルを利用することを含む。図8は、一例として、平文サンプリングについてのプロセス90を示すフロー図である。アノニマイザは、分析されるべきデータセットの平文サンプルについての要求をデータ所有者に送信する(ブロック91)。サンプルは、データセット内のデータ値の一部を含むことができる。1つの実施形態において、各属性についての所定数のデータ値は、サンプルとして提供されることができる。あるいは、所定数のデータ値または1%などのデータ値の所定部分は、データセットからランダムに提供されることができる。さらにまた、データ所有者は、サンプルのサイズおよびサンプルとして提供するためにデータ値を判定することができる。
要求に応じて、データ所有者は、サンプルとともにアノニマイザを提供する(ブロック92)。1つの実施形態において、暗号化された形式の完全なデータセットはまた、平文サンプルとともに提供されることができる。サンプルの受信前に、同時にまたは後において、アノニマイザは、表現のリストにアクセスすることができる(ブロック93)。表現リストは、各属性の少なくとも1つのパターンと、各パターンに関連付けられた機密値とを含むことができる。例えば、社会保障番号についての表現は、3つのスペースの後にダッシュが続き、その後に2つのスペースが続き、その後に他のダッシュが続き、その後に4つのスペースが続くものを含むことができる。スペースは、ゼロから9までの数値をそれぞれ表すことができる。一方、年齢についてのパターンは、1つから3つのスペースの範囲を含むことができ、車両のナンバープレートについてのパターンは、数字および文字の特定のシリーズを含むことができる。例えば、古いワシントン州のナンバープレートは、3つの数字の後にダッシュが続き、その後に3つの文字が続く一方で、新たなナンバープレートは、数字で始まる7文字と、その後に続く1文字と、その後に続く2つの数字と、その後に続く3文字とを含む。さらに他の例において、2つの大文字についての表現は、州を表すことができる。表現は、属性データ値を識別して分類する際のアノニマイザの以前の経験に基づいてアノニマイザによって生成されることができる。
平文サンプルにおける各データ値は表現と比較され(ブロック94)、そのデータ値が表現のいずれかと一致するかどうかに関して判定が行われる(ブロック95)。平文サンプリングが、統計ベース分類が行われた後などに属性を検証するために使用される場合、識別された一致は、属性の以前の分類を裏付けるかまたは矛盾することができる。例えば、データ値98125についての属性は、統計ベース分類を使用して郵便番号として識別されている。そして、データ値は、平文サンプルの一部として提供され、表現のリストと比較される。郵便番号についての表現は、ゼロから9の間の5つの数字を含むことができ、98125というデータ値に一致すると判定される。一致に基づいて、データ値は、統計ベース分類を使用した郵便番号としての属性の以前の割り当てに一致する郵便番号の属性に属すると考えられる(ブロック96)。さらに、表現に関連付けられた機密値は、データ値に割り当てられることができる。機密値は、統計ベース分類時に割り当てられた機密値と同じかまたは異なることができる。しかしながら、一致がなされない場合、データ値は、比較された表現についての属性に属するとして識別または分類されない。さらに、一致がなされない場合、データ値は、機密性がないと考えることができる。
そして、処理されたサンプルは、データセットの暗号化されたデータ値をさらに処理するために使用されることができる。具体的には、処理されたデータ値のいずれかは、サンプルから選択され、処理されたデータ値が属するデータセットのグループまたは属性が識別される。そして、平文データ値に割り当てられた属性および関連する機密値は、匿名化のための対応するデータ値および匿名化レベルを含むそれらの属性を識別するためにデータセットについての同じグループまたは属性におけるデータ値のそれぞれに割り当てられる。
さらなる実施形態において、平文サンプリングが匿名化のための属性を識別するために使用される場合、規則ベース分類および統計ベース分類の代わりに、平文データ値と表現との一致は、平文データ値の属性を分類するために使用されることができる。例えば、平文データ値は、ナンバープレートについての表現と一致し、それゆえに、データ値が属する属性は、ナンバープレートとして識別される。さらに、属性に関連付けられた全ての暗号化されたデータ値はまた、ナンバープレート番号として識別されることができる。ナンバープレートに関連付けられた機密値は、データ値に割り当てられ、上述したように、データ値が匿名化されるべきかどうか、そうである場合にはどのレベルかを判定するために使用されることができる。しかしながら、表現がデータ値に一致するように判定されない場合、データ値は、機密ではないとして分類されることができ、それゆえに、いかなる匿名化も不要である。
上述したように、サンプルは、処理されると、データ値が匿名化されるべきかを判定するためにデータセットからの暗号化されたデータ値に機密値を割り当てるために使用される。例えば、処理されたデータ値のいずれかがサンプルから選択され、処理されたデータ値が属するデータセットのグループまたは属性が識別される。そして、処理された平文データ値に割り当てられた属性および関連する機密値は、匿名化するために対応するデータ値および匿名化レベルを含むそれらの属性を識別するためにデータセットについての同じグループまたは属性のデータ値のそれぞれに割り当てられる。

Claims (10)

  1. 匿名化のために属性を自動的に識別するコンピュータ実装システムであって、
    各属性が複数の値に関連付けられた属性のデータセットを記憶するデータベースと、
    前記データセットの値を暗号化する暗号化モジュールと、
    前記属性のそれぞれに対して機密レベルを割り当てることによって前記属性を処理する処理モジュールと、
    前記割り当てられた機密レベルに基づいて、匿名化のために前記データセットから前記属性のうちの1つ以上を選択する選択モジュールと、
    前記モジュールを実行するプロセッサと
    を備える、コンピュータ実装システム。
  2. 各属性の機密レベルに対して所定の閾値を適用することによっておよび匿名化のために前記選択された属性として前記所定の閾値を満たす機密レベルを有するそれらの属性を指定することによって匿名化のために前記選択された属性を識別する識別モジュール
    をさらに備える、請求項1に記載のシステム。
  3. 前記割り当てられた機密レベルに基づいて、前記属性のそれぞれについての匿名化レベルを判定する判定モジュール
    をさらに備える、請求項1に記載のシステム。
  4. 前記匿名化レベルが判定され、
    機密レベルのうちの2つ以上の範囲であって前記範囲のそれぞれが匿名化レベルに関連付けられた範囲に各属性の機密レベルを適用するアプリケーションモジュールと、
    各データセット属性について、前記機密レベルが含まれる範囲を識別する識別モジュールと、
    そのデータセット属性に対して前記識別された範囲について匿名化レベルを割り当てる割り当てモジュールと
    を備える、請求項3に記載のシステム。
  5. 前記機密レベルを判定する判定モジュールを備え、前記判定モジュールが、
    機密レベルにそれぞれ関連付けられた既知の属性の辞書と前記属性を比較する比較モジュールと、
    前記属性のうちの少なくとも1つについての前記辞書における既知の属性の一致を識別する識別モジュールと、
    少なくとも1つの属性に対する既知の属性の一致の前記機密レベルを指定する指定モジュールと
    をさらに備える、請求項1に記載のシステム。
  6. 匿名化のために属性を自動的に識別するコンピュータ実装方法であって、
    各属性が複数の値に関連付けられた属性のデータセットにアクセスすることと、
    前記データセットの値を暗号化することと、
    属性のそれぞれに対して機密レベルを割り当てることによって前記属性を処理することと、
    前記割り当てられた機密レベルに基づいて、匿名化のために前記データセットから前記属性のうちの1つ以上を選択することと
    を備える、方法。
  7. 匿名化のためにそれらの属性を識別すること
    をさらに備え、
    識別することが、
    各属性の前記機密レベルに所定の閾値を適用することと、
    匿名化のために前記選択された属性として前記所定の閾値を満たす機密レベルを有するそれらの属性を指定することと
    を備える、請求項6に記載の方法。
  8. 前記割り当てられた機密レベルに基づいて、属性のそれぞれについての匿名化レベルを判定すること
    をさらに備える、請求項6に記載の方法。
  9. 前記匿名化レベルが判定され、
    機密レベルの2つ以上の範囲であって範囲のそれぞれが匿名化レベルに関連付けられた範囲に各属性の機密レベルを適用することと、
    各データセット属性について前記機密レベルが含まれる範囲を識別することと、
    そのデータセット属性に対して識別された範囲について匿名化レベルを割り当てることと
    を備える、請求項8に記載の方法。
  10. 前記機密レベルを判定すること
    をさらに備え、
    前記機密レベルを判定することが、
    機密レベルにそれぞれ関連付けられた既知の属性の辞書と前記属性を比較することと、
    前記属性のうちの少なくとも1つについての前記辞書における既知の属性の一致を識別することと、
    前記少なくとも1つの属性に一致する既知の属性の前記機密レベルを指定することと
    を備える、請求項6に記載の方法。
JP2016206362A 2015-11-03 2016-10-20 匿名化のために属性を自動的に識別するコンピュータ実装システムおよび方法 Active JP6814017B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/931,802 US9858426B2 (en) 2015-11-03 2015-11-03 Computer-implemented system and method for automatically identifying attributes for anonymization
US14/931,802 2015-11-03

Publications (2)

Publication Number Publication Date
JP2017091515A true JP2017091515A (ja) 2017-05-25
JP6814017B2 JP6814017B2 (ja) 2021-01-13

Family

ID=57178367

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016206362A Active JP6814017B2 (ja) 2015-11-03 2016-10-20 匿名化のために属性を自動的に識別するコンピュータ実装システムおよび方法

Country Status (4)

Country Link
US (1) US9858426B2 (ja)
EP (1) EP3166053A1 (ja)
JP (1) JP6814017B2 (ja)
KR (1) KR102430649B1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102058030B1 (ko) * 2017-09-20 2019-12-20 주식회사 티지360테크놀로지스 익명성 유지 시스템 및 그 방법
JP2020042723A (ja) * 2018-09-13 2020-03-19 日本電気株式会社 匿名加工装置、情報匿名化方法、およびプログラム
US11429747B2 (en) 2018-09-19 2022-08-30 Fujitsu Limited Data management level determining method

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11120163B2 (en) * 2014-11-14 2021-09-14 Oracle International Corporation Associating anonymous information with personally identifiable information in a non-identifiable manner
US10192278B2 (en) * 2016-03-16 2019-01-29 Institute For Information Industry Traceable data audit apparatus, method, and non-transitory computer readable storage medium thereof
US11157520B2 (en) * 2016-03-28 2021-10-26 DataSpark, Pte Ltd. Uniqueness level for anonymized datasets
US10360372B1 (en) * 2016-07-29 2019-07-23 Microsoft Technology Licensing, Llc Preventing timestamp-based inference attacks
US10713382B1 (en) * 2017-01-09 2020-07-14 Microsoft Technology Licensing, Llc Ensuring consistency between confidential data value types
US11316831B2 (en) 2017-02-28 2022-04-26 Telefonaktiebolaget Lm Ericsson (Publ) Partition-based prefix preserving anonymization approach for network traces containing IP addresses
US11663358B2 (en) * 2017-05-08 2023-05-30 Autodesk, Inc. Perturbation-based techniques for anonymizing datasets
JP2018198038A (ja) * 2017-05-25 2018-12-13 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
US10554669B2 (en) * 2017-05-31 2020-02-04 International Business Machines Corporation Graphical user interface privacy, security and anonymization
US10831927B2 (en) * 2017-11-22 2020-11-10 International Business Machines Corporation Noise propagation-based data anonymization
EP3724804B1 (en) * 2017-12-12 2022-07-13 Telefonaktiebolaget LM Ericsson (publ) Privacy-preserving data verification
KR102097857B1 (ko) * 2017-12-27 2020-04-06 펜타시스템테크놀러지 주식회사 프라이버시 보호를 위한 데이터의 비식별화 방법 및 장치
FR3077894B1 (fr) * 2018-02-13 2021-10-29 Digital & Ethics Procede de traitement automatique pour l’anonymisation d’un jeu de donnees numeriques
US11106820B2 (en) 2018-03-19 2021-08-31 International Business Machines Corporation Data anonymization
US11301230B2 (en) * 2018-04-13 2022-04-12 Kyndryl, Inc. Machine learning multimedia conversion assignment
US11316662B2 (en) * 2018-07-30 2022-04-26 Koninklijke Philips N.V. Method and apparatus for policy hiding on ciphertext-policy attribute-based encryption
US20200074104A1 (en) * 2018-08-28 2020-03-05 Ca, Inc. Controlling access to data in a database based on density of sensitive data in the database
CN109815715A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 一种数据加密方法和相关装置
EP3937048B1 (en) * 2019-03-05 2023-10-11 Nippon Telegraph And Telephone Corporation Generalization hierarchy set generation apparatus, generalization hierarchy set generation method, and program
US11340863B2 (en) * 2019-03-29 2022-05-24 Tata Consultancy Services Limited Systems and methods for muting audio information in multimedia files and retrieval thereof
WO2020235019A1 (ja) * 2019-05-21 2020-11-26 日本電信電話株式会社 情報処理装置、情報処理方法及びプログラム
US11675976B2 (en) * 2019-07-07 2023-06-13 International Business Machines Corporation Exploitation of domain restrictions for data classification
US11431682B2 (en) 2019-09-24 2022-08-30 International Business Machines Corporation Anonymizing a network using network attributes and entity based access rights
CN111079186B (zh) * 2019-12-20 2022-05-03 百度在线网络技术(北京)有限公司 数据分析的方法、装置、设备和存储介质
US11216589B2 (en) * 2020-03-11 2022-01-04 International Business Machines Corporation Dataset origin anonymization and filtration
TR202018785A1 (tr) * 2020-11-23 2022-06-21 Aselsan Elektroni̇k Sanayi̇ Ve Ti̇caret Anoni̇m Şi̇rketi̇ Veri̇ anoni̇mleşti̇rme yöntemi̇
US11816068B2 (en) 2021-05-12 2023-11-14 Pure Storage, Inc. Compliance monitoring for datasets stored at rest
US11789651B2 (en) 2021-05-12 2023-10-17 Pure Storage, Inc. Compliance monitoring event-based driving of an orchestrator by a storage system
US11888835B2 (en) 2021-06-01 2024-01-30 Pure Storage, Inc. Authentication of a node added to a cluster of a container system

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006185311A (ja) * 2004-12-28 2006-07-13 Nec Corp 文書匿名化装置、文書管理装置、文書匿名化方法及び文書匿名化プログラム
JP2013084027A (ja) * 2011-10-06 2013-05-09 Kddi Corp 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
JP2013200659A (ja) * 2012-03-23 2013-10-03 Nippon Telegraph & Telephone West Corp 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム
JP2014109934A (ja) * 2012-12-03 2014-06-12 Fujitsu Ltd 匿名化データ生成方法、装置及びプログラム
JP2014211607A (ja) * 2013-04-04 2014-11-13 キヤノン株式会社 情報処理装置およびその方法
US20150007249A1 (en) * 2013-06-26 2015-01-01 Sap Ag Method and system for on-the-fly anonymization on in-memory databases
JP2015138277A (ja) * 2014-01-20 2015-07-30 日本電気株式会社 情報処理装置及びデータ処理方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY131509A (en) * 1999-03-15 2007-08-30 Sony Corp Data processing method, apparatus and system for encrypted- data transfer
US6963980B1 (en) * 2000-11-16 2005-11-08 Protegrity Corporation Combined hardware and software based encryption of databases
US7418600B2 (en) * 2003-03-13 2008-08-26 International Business Machines Corporation Secure database access through partial encryption
US8682910B2 (en) * 2010-08-03 2014-03-25 Accenture Global Services Limited Database anonymization for use in testing database-centric applications
CN103563325B (zh) * 2011-01-27 2017-04-26 安全第一公司 用于保护数据的系统和方法
US9665722B2 (en) * 2012-08-10 2017-05-30 Visa International Service Association Privacy firewall
EP2731040B1 (en) * 2012-11-08 2017-04-19 CompuGroup Medical SE Computer system for storing and retrieval of encrypted data items, client computer, computer program product and computer-implemented method
US9276963B2 (en) * 2012-12-28 2016-03-01 Intel Corporation Policy-based secure containers for multiple enterprise applications
US9087215B2 (en) * 2013-11-01 2015-07-21 Anonos Inc. Dynamic de-identification and anonymity
US9230132B2 (en) * 2013-12-18 2016-01-05 International Business Machines Corporation Anonymization for data having a relational part and sequential part

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006185311A (ja) * 2004-12-28 2006-07-13 Nec Corp 文書匿名化装置、文書管理装置、文書匿名化方法及び文書匿名化プログラム
JP2013084027A (ja) * 2011-10-06 2013-05-09 Kddi Corp 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
JP2013200659A (ja) * 2012-03-23 2013-10-03 Nippon Telegraph & Telephone West Corp 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム
JP2014109934A (ja) * 2012-12-03 2014-06-12 Fujitsu Ltd 匿名化データ生成方法、装置及びプログラム
JP2014211607A (ja) * 2013-04-04 2014-11-13 キヤノン株式会社 情報処理装置およびその方法
US20150007249A1 (en) * 2013-06-26 2015-01-01 Sap Ag Method and system for on-the-fly anonymization on in-memory databases
JP2015138277A (ja) * 2014-01-20 2015-07-30 日本電気株式会社 情報処理装置及びデータ処理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102058030B1 (ko) * 2017-09-20 2019-12-20 주식회사 티지360테크놀로지스 익명성 유지 시스템 및 그 방법
JP2020042723A (ja) * 2018-09-13 2020-03-19 日本電気株式会社 匿名加工装置、情報匿名化方法、およびプログラム
JP7143696B2 (ja) 2018-09-13 2022-09-29 日本電気株式会社 匿名加工装置、匿名加工システム、匿名加工方法、およびプログラム
US11429747B2 (en) 2018-09-19 2022-08-30 Fujitsu Limited Data management level determining method

Also Published As

Publication number Publication date
JP6814017B2 (ja) 2021-01-13
US9858426B2 (en) 2018-01-02
EP3166053A1 (en) 2017-05-10
KR20170052464A (ko) 2017-05-12
US20170124336A1 (en) 2017-05-04
KR102430649B1 (ko) 2022-08-09

Similar Documents

Publication Publication Date Title
JP6814017B2 (ja) 匿名化のために属性を自動的に識別するコンピュータ実装システムおよび方法
EP3166042B1 (en) Computer-implemented system and method for anonymizing encrypted data
US11704438B2 (en) Systems and method of contextual data masking for private and secure data linkage
US20220100899A1 (en) Protecting sensitive data in documents
Javadi et al. Monitoring misuse for accountable'artificial intelligence as a service'
JP2016511891A (ja) 大規模データへの妨害攻撃に対するプライバシー
CN114186275A (zh) 隐私保护方法、装置、计算机设备及存储介质
Thorleuchter et al. Improved multilevel security with latent semantic indexing
US11714919B2 (en) Methods and systems for managing third-party data risk
Tachepun et al. A Data masking guideline for optimizing insights and privacy under GDPR compliance
US20200293590A1 (en) Computer-implemented Method and System for Age Classification of First Names
Chen et al. Dynamic and semantic-aware access-control model for privacy preservation in multiple data center environments
US11647004B2 (en) Learning to transform sensitive data with variable distribution preservation
Bogdanov et al. K-Anonymity Versus PSI3 for Depersonalization and Security Assessment of Large Data Structures
Chakraborty Data Security and Privacy of Individuals in Data Mining: A Critical Analysis of Data Mining in India
JP7219726B2 (ja) リスク評価装置、リスク評価方法及びリスク評価プログラム
Jones Big Data Analytics: Privacy Concerns
Chang et al. An identity asset sensitivity model in self-sovereign identities
Larson Data Types Requiring Access Control
Chetty Privacy preserving data anonymisation: an experimental examination of customer data for POPI compliance in South Africa
Castro A New Approach for Dynamic and Risk-Based Data Anonymization
CN117421753A (zh) 动态数据脱敏方法、装置、电子设备及计算机存储介质
Rahman et al. Enhancement of an Optimized Key for Database Sanitization to Ensure the Security and Privacy of an Autism Dataset. Symmetry 2021, 13, 1912
Zielinski et al. How Appropriate is K-Anonymity for Addressing the Conflict Between Privacy and Information Utility in Microdata ASnonymisation.
Alwabel Privacy Issues in Big Data

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20161031

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20161102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191016

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201218

R150 Certificate of patent or registration of utility model

Ref document number: 6814017

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250