JP2021516811A - データ匿名化 - Google Patents

データ匿名化 Download PDF

Info

Publication number
JP2021516811A
JP2021516811A JP2020545618A JP2020545618A JP2021516811A JP 2021516811 A JP2021516811 A JP 2021516811A JP 2020545618 A JP2020545618 A JP 2020545618A JP 2020545618 A JP2020545618 A JP 2020545618A JP 2021516811 A JP2021516811 A JP 2021516811A
Authority
JP
Japan
Prior art keywords
data set
dataset
datasets
relationship
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020545618A
Other languages
English (en)
Other versions
JP7266354B2 (ja
Inventor
オベルホファー、マルティン
マイアー、アルベルト
サイエ、ヤニック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2021516811A publication Critical patent/JP2021516811A/ja
Application granted granted Critical
Publication of JP7266354B2 publication Critical patent/JP7266354B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本開示は、データベース・システムのデータ匿名化のための方法に関する。方法は、データベース・システムの第1のデータセットと第2のデータセットとが、2つのデータセットにおける値を有するエンティティを示す関係を有するかどうかを判断することを含む。第1のデータセット及び第2のデータセットの少なくとも一方に対する要求を、ユーザから受け取ることができる。第1のデータセットと第2のデータセットとが関係を有する場合、ユーザがエンティティの表示にアクセスできないように、第1のデータセット及び第2のデータセットの少なくとも一方を修正することができる。そして、要求されたデータセットを提供することができる。【選択図】 図2

Description

本発明は、デジタル・コンピュータ・システムの分野に関し、より具体的には、データ匿名化(data anonymization)のための方法に関する。
プライバシー規則は、特定の種類の分析のために個人のデータを使用することを、その個人たちがそうした使用への同意を明示的に宣言したのでない限り許可しない。一方、データが匿名化される限り、個人データを収集及び格納し、それを分析で使用することは容認し得る。例えば、コントローラにより処理されるデータが、コントローラに個人を特定させないものである場合には、データを分析することは可能である。しかしながら、これは、匿名化を正しくかつ十分に適用して、プライベート・データと関連付けられたエンティティの特定を防止することを必要とする。
種々の実施形態が、独立請求項の主題により説明されるデータ匿名化のための方法、コンピュータ・システム、及びコンピュータ・プログラム製品を提供する。従属請求項において、有利な実施形態が説明される。本発明の実施形態は、それらが相互排他的でない場合、互いに自由に組み合わせることができる。
1つの態様において、本発明は、データベース・システムのデータ匿名化のための方法に関する。この方法は、
(a)データベース・システムの第1のデータセットと第2のデータセットとが、2つのデータセットにおける値(例えば、属性値)を有するエンティティを示す関係を有するかどうかを判断することと、
(b)第1のデータセット及び第2のデータセットの少なくとも一方に対する要求を、ユーザから受け取ることと、
(c)第1のデータセットと第2のデータセットとが上記関係を有する場合、ユーザがエンティティを示すものにアクセスできないように、第1のデータセット及び第2のデータセットの少なくとも一方を修正することと、
(d)要求されたデータセットを提供することと、
を含む。
別の態様において、本発明は、前述の実施形態による方法のステップの全てを実施するように構成されたコンピュータ可読プログラム・コードが具体化されたコンピュータ可読ストレージ媒体を含むコンピュータ・プログラム製品に関する。
別の態様において、本発明は、データベース・システムのデータ匿名化のためのコンピュータ・システムに関する。コンピュータ・システムは、
(a)データベース・システムの第1のデータセットと第2のデータセットとが、2つのデータセットにおける値を有するエンティティを示す関係を有するかどうかを判断することと、
(b)第1のデータセット及び第2のデータセットの少なくとも一方に対する要求を、ユーザから受け取ることと、
(c)第1のデータセットと第2のデータセットとが上記関係を有する場合、ユーザがエンティティを示すものにアクセスできないように、第1のデータセット及び第2のデータセットの少なくとも一方を修正することと、
(d)要求されたデータセットを提供することと、
を行うように構成される。
以下に、本発明の実施形態が、図面を参照して、単なる例としてより詳細に説明される。
本開示による、ストレージ・システムのブロック図を示す。 データベース・システムのデータのデータ匿名化のための方法のフローチャートである。 本発明の実施形態による、クラウド・コンピューティング環境を示す。 本発明の実施形態による、抽象化モデル層を示す。
本発明の種々の実施形態の説明は、例証の目的のために提示されるが、これらは、網羅的であること、又は開示された実施形態に限定することを意図するものではない。当業者には、説明される実施形態の範囲及び趣旨から逸脱することなく、多くの修正及び変形が明らかであろう。本明細書で用いられる用語は、実施形態の原理、実際の適用、又は市場に見られる技術に優る技術的改善を最もよく説明するため、又は、当業者が、本明細書に開示される実施形態を理解するのを可能にするために選択された。
「データセット」又は「情報アセット(information asset)」という用語は、1以上のデータ要素の集合である。データ要素は、例えば、文書、データ値、又はデータ・レコードとすることができる。例えば、データセットは、ファイル内に含まれる関連するレコードの集合の形態で提供することができ、例えば、データセットは、クラス内の全ての学生のレコードを含むファイルとすることができる。レコードは、関連データ項目、例えば、学生のロール番号、生年月日、クラスの集合である。レコードはエンティティを表し、そこで、エンティティは、例えば1人の学生のような異なる別個の存在を有する。データセットは、例えば、データベースのテーブル又はHadoopファイル・システムのファイル等とすることができる。別の例において、データセットは、HTMLページ又は他の文書の種類などの文書を含むことができる。文書は、例えば、患者のデータを含むことができる。
例えば、2つのデータセットにおける値(values)を有するエンティティは、例えば、第1のデータセット及び第2のデータセットの少なくとも一方における少なくとも1つのレコードを有するエンティティであり得る。例えば、関係は、第1のデータセット内のレコードを有する患者Xが、第2のデータセット内の別の関連するレコードも有する(例えば、患者Xの2つのレコードは、そのアドレスによりリンクされることができ、そこで、第1のレコードはフルネームを有さないが、第2のレコードは患者Xのフルネームを含む)ことを示し得る。従って、患者Xは、第1のデータセットと第2のデータセットとの間の上記関係により指し示されるエンティティである。
2つのデータセット間の上記関係は、データセットの1以上のカラム(column)/属性と他のデータセットの他の1以上のカラムとの間のリンクとすることができる。例えば、上記関係は、主キー・外部キー(PK−FK)関係とすることができる。別の例において、上記関係は、同じエンティティに関するより多い情報を含む別の文書を指し示すXML文書からのリンク、又は関連情報を含む非構造化文書からのリンクなどの、1つの文書から別の文書へのリンクを含むことができる。データがトリプルストア内のトリプレット(例えば、RDFデータ)として格納されるか、又はデータがグラフDB内に格納される場合、上記関係は、1つのエンティティと別のエンティティとの間のリンクとすることができる。上記関係は、例えば、第1のデータセットと第2のデータセットを結合するのを可能にできるので、同じエンティティを表す第1のデータセットのレコードと第2のデータセットのレコードは、同じエンティティについての2つのデータセット内に含まれる組み合わせられた情報を表す結合されたデータセットの新しい単一のレコード内に併合される。2つのデータセットはそれぞれ匿名化されているが、組み合わせられた情報は、そのエンティティの秘密(confidential)のデータを明らかにし得る。
「ユーザ」という用語は、エンティティ、例えば、個人、コンピュータ、又はコンピュータ、コンテナ、ファイル・システム、ディレクトリ上で実行されているアプリケーションなどを指す。ユーザは、例えば、ユーザのグループを表すことができる。データベース・システムは、データセットを格納するための1以上のストレージを含むことができる。データベース・システムは、例えば、文書ストア、トリプルストア、グラフDB、及びリレーショナル・データベースの少なくとも1つを含むことができる。第1のデータセット及び第2のデータセットは、データベース・システムの同じ又は異なるストレージ上に格納され得る。
処理のために情報アセットにアクセスするとき、例えば、チェックを行って、アセットが機密(sensitive)情報を含み、匿名化を必要とするかどうかを確かめることがある。必要である場合、所定のデータ・マスキング技術を用いる適切な匿名化方策が適用される。組み合わせられた使用のために2以上の情報アセットがマーク付けされる場合、それが匿名化の潜在的な違反をもたらすかどうかのチェックが行われる。違反をもたらす場合、所定のマスキング技術を用いる適切な匿名化方策が適用される。チェックは、情報アセットのために確立され、情報ガバナンスカタログ(information governance catalog)内に登録された技術メタデータに対して実施され得る。
本方法は、それぞれ個別に十分に匿名化された2以上の情報アセットが集められるが、一緒に用いられる情報アセットによりデータ匿名化が破られた場合に、データ匿名化の喪失を防止することができる。本方法は、データレイク内の大規模Hadoopクラスタのような単一のシステムが、データ・サイエンティストが使用可能な共に分析されるべき、および事前に作成することができない多くの組み合わせを有する何万もの情報アセットを格納する場合に、特に、ビッグデータ及び大規模データレイク・アーキテクチャの場合において、特に有利であり得る。こうしたシステムのために、本方法は、1度のデータ分析において、情報アセットを一緒に用い得るかを予想する手法を提供することができる。例えば、本本法は、匿名化の違反を回避することができ、そこで、匿名化の違反は、以下の特性を有し得る。2以上の情報アセットにわたり、1以上の属性を結合することができる。2以上の情報アセットにわたり、1つの情報アセットにおいて、情報ガバナンス・ポリシーに従って、特定のエンティティ又は属性グループ又は属性をマスキングする必要があった。また、2以上の情報アセットにわたり、少なくとも1つの情報アセットにおいて、他のアセットの1つにおいて保護されるドメインがマスキングされず、ひとたび結合されると匿名化に違反することが可能になる。
別の利点は、本発明が、必要なところのデータ匿名化を保証し、事前対応の(pro-active)自動化されたデータ保護方策を可能にでき、データ保護とデータ有用性との間の最適なバランスを提供することであり得る。例えば、2つのデータセットは、それぞれ匿名化することができ、各々が互いに独立してアクセスされた場合にはいずれの機密情報のソースともすることができない。しかしながら、ユーザは、第1のデータセット及び第2のデータセットを組み合わせてエンティティにアクセスできるので、本方法は、2つのデータセットの1つの要求の受け取り時に既に修正を行うことによって、事後に(a posteriori)動作し、それにより、ユーザが後の段階において第2のデータセットを別個に要求できる場合に備える。言い換えれば、これは、データ・サイエンティストが匿名化されたデータセットを取得し、各データセットがガバナンス・ポリシーに適合するが、複数のポリシー適合データセットを一緒に結合し、もはやポリシーに適合しない結果とし得られるデータセットを取得することにより、匿名化に対処できてしまう場合を防止することができる。
本方法はさらに、信用の喪失もしくは罰金又はその両方をもたらす恐れがある意図的でないデータ漏洩を防止することができる。
別の利点は、本方法は、プロセスを、完全なデータ系列及び他の監査証跡(audit trail)を含む情報ガバナンスカタログに基づくメタデータ駆動とすることができるので、監査が容易な改善された規則適合性を提供する。1つの実施形態によると、第1のデータセット及び第2のデータセットは、各々がそれぞれのエンティティの属性値の組み合わせであるレコードを含み、関係により指し示されるエンティティは、第1のデータセットもしくは第2のデータセット又はその両方の少なくとも1つのレコードのエンティティである。例えば、データベース・システムのデータ匿名化のための例示的方法を提供することができる。例示的方法は、データベース・システムの第1のデータセットと第2のデータセットとが、2つのデータセットの少なくとも一方のレコードのエンティティを示す関係を有するかどうかを判断することと、第1のデータセット及び第2のデータセットの少なくとも一方に対する要求を、ユーザから受け取ることと、第1のデータセットと第2のデータセットとが上記関係を有する場合、ユーザがエンティティを示すものにアクセスできないように、第1のデータセット及び第2のデータセットの少なくとも一方を修正することと、要求されたデータセットを提供することとを含む。
1つの実施形態によると、方法は、データベース・システムの全てのデータセットの間の関係を判断することと、判断した上記関係に関する情報を含むメタデータ構造を提供することとをさらに含み、第1のデータセットと第2のデータセットが上記関係を有するかどうかを判断することは、メタデータ構造を用いて実行される。このように、方法は、上記関係の判断に対する明白なオンデマンドの必要性なしに、自動的に実行することができる。このことは、単位時間毎に多くのデータ要求を受け取る大規模なシステムにおいて特に有利であり得る。メタデータ構造が今回に限り作成され、各々の受け取った要求について再処理されないので、これは処理時間の節約になり得る。
1つの実施形態によると、方法は、データベース・システムにおける変更に応答して、データベース・システムのデータセット間の上記関係を再判断することと、これに応じてメタデータ構造を更新することとをさらに含む。このことは、最新の情報ソースを提供することができ、従って、正確な匿名化を実行することにより、データへのアクセスをさらにセキュア保護することができる。
例えば、所定の関数(例えば、PK−FK関係発見アルゴリズム)を用いて、データベース・システム内の全てのデータセット間の全ての可能な上記関係(例えば、PK−FK関係)を判断し、全てのこれらの判断した上記関係をメタデータ構造に格納することができる。新しいデータセットが付加されるときには、上記関係の少なくとも一方の側が新しいデータセット内にある場合の上記関係の識別に焦点を合わせて、同じ関数を再実行することができる。それに応じて、メタデータ構造を更新することができる。データセットが除去されるときには、除去されたデータセットに関わる可能な上記関係又は全ての上記関係をリストから除去することができる。この実施形態は、バックグラウンドにおいて連続的に実行して、データベース・システムにおいて利用可能なデータベースのリストにおける変更を検出することができ、PK−FK関係発見アルゴリズムをトリガして、変更が検出されるや否や、上記関係のリストを更新することができる。
1つの実施形態によると、修正は、ユーザによるエンティティへのアクセスが所定の統治(governing)ポリシー(又は規則)に違反するとの判断に応答して行われる。これは、データへの選択的アクセスを可能にし、従って、データ・アクセスの最適な制御を可能にする。
一例として、統治ポリシーは、「ユーザがロールAを持ち、データセットが、機密の個人を特定できる情報(personally identifiable information)であるとしてカタログ内にフラグが立てられたカラムを含み、データセットは、識別子又は準識別子としてフラグが立てられたカラムも含む場合、データセットを匿名化する必要がある」と指定することができる。例えば、所与の(特権をもつ)ユーザについては、修正が行われなくてもよく、修正なしにデータを提供することができる。しかしながら、他の(信頼できない)ユーザについては、修正が行われる。この場合、統治ポリシーは、エンティティ(例えば、個人のフルネーム)が、他のタイプのユーザによってではなく、所与のタイプのユーザによってアクセスされることを求める。
1つの実施形態によると、上記関係がエンティティを示すかどうかを判断することは、第2のデータセットのそれぞれのターゲット・カラムを参照する第1のデータセットの1以上のソース・カラムを識別することと、ソース・カラム及びターゲット・カラムを組み合わせることと、組み合わせ結果に基づいて、上記関係がエンティティを示すか又は示さないかを判断することとを含む。1つの実施形態によると、組み合わせは、1以上のSQL結合(join)演算を用いて行われる。これは、これらの実施形態と、こうしたシステム内のデータへのアクセスをセキュア保護するための既存のデータベース・システムとのシームレスな統合を可能にすることができる。
1つの実施形態によると、判断される上記関係は、主キー・外部キー関係である。PK−FK関係は、カラムの対又はカラムのグループの対で構成され、それらの間に包含従属性が存在する。付加的に、主キーを形成するカラム及びカラムのグループは一意であり得る。データセットのグループにおける包含従属性の検索は、例えば、それらをMinHash又はドメイン署名技術と組み合わせ、カラムの濃度を用いて、上記関係の一方の側が一意又はほぼ一意である場合の組み合わせに検索を制限することにより実行することができる。これは、完全に自動的な方法で、妥当な期間に、データセットのグループの全ての可能なPK−FK関係、従って、データセットのグループ内のデータを結合する全ての可能な方法を判断するのを可能にする機構を可能にし得る。
1つの実施形態によると、方法は、要求を受信することと、第1のデータセット及び第2のデータセットがユーザによりアクセス可能であると判断することとに応答して、第1のデータセットと第2のデータセットとが上記関係を有するかどうかの判断を行うことをさらに含む。これは、特定の条件下でのみ、データセットの判断が行われる要求ごとの手法を可能にし得る。これは、データの一部のみが使用される場合、全てのデータについての上記関係を自動的に判断する必要がないので、データへのアクセス頻度が低いシステムの場合、特に有利であり得る。これは、処理リソースを節約することができる。
1つの実施形態によると、第1のデータセットもしくは第2のデータセット又はその両方は、要求されたデータセットの1以上のカラムをマスキングすることを含む。第1のデータセットもしくは第2のデータセット又はその両方の修正は、匿名化アルゴリズムを用いて行われる。匿名化アルゴリズムは、以下の、一般化(generalization)、黒塗り(redaction)、抑制、サンプリング、ランダム化、データ・スワッピング、マスキング、列挙(enumeration)のうちの少なくとも1つである。
この実施形態は、関心あるデータセット内の個人を特定できる情報を、例えば単一の人を特定できる情報を省略し、同時に、分析に有用な情報を保持できるような方法で修正することができるという利点を有することができる。
1つの実施形態によると、上記関係の判断は、自動的に行われる。例えば、上記関係の判断は、ある期間ごとに行うことができる。
1つの実施形態によると、上記関係の判断は、データベース・システムにおける変更の検出に応答して自動的に行われる。例えば、データベース・システムにおける変更は、データベース・システムへの第1のデータセットもしくは第2のデータセット又はその両方の少なくとも1つの付加、又は第1のデータセットもしくは第2のデータセット又はその両方における変更を含むことができる。
図1は、本開示に含まれる方法ステップを実施するのに適した一般的なコンピュータ化されたシステム100を表す。
本明細書で説明される方法は、少なくとも部分的に非対話型であり、サーバ又は組み込みシステムなどのコンピュータ化されたシステムによって自動化されることが理解されるであろう。しかしながら、例示的実施形態においては、本明細書で説明される方法は、(部分的に)対話型システムで実施することができる。これらの方法はさらに、ソフトウェア112、122(ファームウェア122を含む)、ハードウェア(プロセッサ)105、又はその組み合わせで実施してもよい。例示的実施形態において、本明細書で説明される方法は、実行可能プログラムとしてソフトウェアで実施され、パーソナル・コンピュータ、ワークステーション、ミニコンピュータ、又はメインフレーム・コンピュータなどの専用又は汎用デジタル・コンピュータにより実行される。従って、最も一般的なシステム100は、汎用コンピュータ101を含む。
例示的実施形態において、ハードウェア・アーキテクチャの点で、図1に示されるように、コンピュータ101は、プロセッサ105、メモリ・コントローラ115に結合されたメモリ(主メモリ)110、及びローカル入力/出力コントローラ135を介して通信可能に結合された1以上の入力もしくは出力又はその両方の(I/O)デバイス(又は機器)20、145を含む。入力/出力コントローラ135は、これらに限定されるものではないが、当技術分野で知られるような、1以上のバス、又は他の有線もしくは無線接続とすることができる。入力/出力コントローラ135は、通信を可能にするための、コントローラ、バッファ(キャッシュ)、ドライバ、中継器、及び受信機などの付加的な要素を有し得るが、それらは簡単にするために省略される。さらに、ローカル・インターフェースは、上述のコンポーネント間での適切な通信を可能にするために、アドレス、制御もしくはデータ接続又はそれらの組み合わせを含むことができる。本明細書で説明されるように、I/Oデバイス20、145は、一般に、当技術分野で知られている任意の一般化された暗号カード又はスマートカードを含むことができる。
プロセッサ105は、特にメモリ110内に格納されるソフトウェアを実行するためのハードウェア・デバイスである。プロセッサ105は、任意の特注又は市販のプロセッサ、中央処理ユニット(CPU)、コンピュータ101と関連付けられた幾つかのプロセッサの中の補助プロセッサ、半導体ベースのマイクロプロセッサ(マイクロチップ又はチップセットの形態の)、マクロプロセッサ、又は一般的にソフトウェア命令を実行するための任意のデバイスとすることができる。
メモリ110は、揮発性メモリ素子(例えば、ランダム・アクセス・メモリ(DRAM、SRAM、SDRAM等のようなRAM))及び不揮発性メモリ素子(例えば、ROM、消去可能プログラム可能読み出し専用メモリ(EPROM)、電子的消去可能プログラム可能読み取り専用メモリ(EEPROM)、プログラム可能読み取り専用メモリ(PROM))のいずれか1つ又はそれらの組み合わせを含むことができる。メモリ110は、分散アーキテクチャを有することができ、種々のコンポーネントが、互いから遠隔に位置するが、プロセッサ105によりアクセスできることに留意されたい。
メモリ110内のソフトウェアは、1以上の別個のプログラムを含むことができ、その各々は、論理関数、とりわけ本発明の実施形態に含まれる関数を実施するための実行可能命令の順序付きリストを含む。図1の例において、メモリ110内のソフトウェアは、例えば、データベース管理システムなどのデータベースを管理するための命令などの命令112を含む。
メモリ110内のソフトウェアは、典型的には、適切なオペレーティング・システム(OS)111も含むことになる。OS111は、本明細書で説明される方法を実施するための潜在的なソフトウェア112など、他のコンピュータ・プログラムの実行を本質的に制御する。
本明細書で説明される方法は、ソースプログラム112、実行可能プログラム112(オブジェクト・コード)、スクリプト、又は実行される命令112のセットを含む任意の他のエンティティの形とすることができる。ソースプログラムの場合、プログラムは、OS111と関連して適切に動作するように、メモリ110中に含まれていても又は含まれていなくてもよいコンパイラ、アセンブラ、インタープリタ等を介して変換する必要がある。さらに、方法は、データ及び方法のクラスを有するオブジェクト指向プログラミング言語、又はルーチン、サブルーチン、もしくは関数又はそれらの組み合わせを有する手続き型プログラミング言語として記述することができる。
例示的実施形態において、従来型のキーボード150及びマウス155を入力/出力コントローラ135に結合することができる。I/Oデバイス145など、他の出力デバイスは、例えば、これらに限定されるものではないが、プリンタ、スキャナ、マイクロホン等などの入力デバイスを含むことができる。最後に、I/Oデバイス20、145は、入力及び出力の両方を通信するデバイス、例えば、これらに限定されるものではないが、(他のファイル、デバイス、システム、又はネットワークにアクセスするための)ネットワーク・インターフェース・カード(NIC)又は変調器/復調器、無線周波数(RF)、又は他の送受信機、電話インターフェース、ブリッジ、ルータ等をさらに含むことができる。I/Oデバイス20、145は、当技術分野で知られている任意の一般的な暗号カード又はスマートカードとすることができる。システム100は、ディスプレイ130に結合されたディスプレイ・コントローラ125をさらに含むことができる。例示的実施形態において、システム100は、ネットワーク165に結合するためのネットワーク・インターフェースをさらに含むことができる。ネットワーク165は、コンピュータ101と任意の外部サーバ、クライアント等との間の広帯域接続を介した通信のためのIPベースのネットワークとすることができる。ネットワーク165は、コンピュータ101と外部システム30との間でデータを送信及び受信し、これら外部システムは、本明細書で説明される方法のステップの一部又は全てを実行することに関与することが可能である。例示的実施形態において、ネットワーク165は、サービス・プロバイダによって管理される管理(managed)IPネットワークとすることができる。ネットワーク165は、例えば、WiFi、WiMaxなどの無線プロトコル及び技術を用いて、無線方式で実施することが可能である。また、ネットワーク165は、ローカル・エリア・ネットワーク、広域ネットワーク、メトロポリタン・エリア・ネットワーク、インターネット・ネットワーク、又は他の類似のタイプのネットワーク環境など、パケット交換網ネットワークとすることもできる。ネットワーク165は、固定無線ネットワーク、無線ローカル・エリア・ネットワーク(LAN)、無線広域ネットワーク(WAN)、パーソナル・エリア・ネットワーク(PAN)、仮想私設ネットワーク(VPN)、イントラネット、又は他の好適なネットワーク・システムとすることができ、信号を受信及び送信するための機器を含む。
コンピュータ101がPC、ワークステーション、インテリジェント・デバイス等である場合には、メモリ110内のソフトウェアは、基本入力出力システム(BIOS)122をさらに含むことができる。BIOSは、立ち上げ時にハードウェアを初期化及びテストし、OS111を開始し、ハードウェア・デバイスの中にあるデータの転送をサポートする基本的なソフトウェア・ルーチンのセットである。BIOSは、コンピュータ101が起動されたときにBIOSが実行できるように、ROMの中に格納される。
コンピュータ101が動作しているとき、プロセッサ105は、メモリ110内に格納されたソフトウェア112を実行し、メモリ110との間でデータを通信し、ソフトウェアに従ってコンピュータ101の動作を全般的に制御するように構成される。本明細書で説明される方法及びOS111は、全体的に又は部分的にだが一般的には後者で、プロセッサ105によって読み取られ、恐らくはプロセッサ105内にバッファされ、次いで実行される。
図1に示されるように、本明細書で説明されるシステム及び方法がソフトウェア112に実装される場合、これら方法は、何らかのコンピュータ関連システム又は方法によって、又はこれと関連させて使用するために、ストレージ120など、任意のコンピュータ可読媒体上に格納することができる。ストレージ120は、HDDストレージなどディスク・ストレージを含むことができる。
システム100は、データベース・システム150をさらに含む。データベース・システム150は、151.1〜151.Nを含む。メタデータ記述又はデータセット151.1〜Nを示すものは、カタログ153に格納することができる。カタログ153は、例えば、データセット151.1〜Nのデータ・プロファイルを含むことができる。データ・プロファイルは、どの意味領域内に、特定の属性又は属性のグループが属するかを指し示すことができる。カタログ153は、データセット151.1〜Nに関する分類情報をさらに含むことができる。例えば、所定のデータ分類分析関数は、データセット151.1〜Nの各カラムをカテゴリに割り当てることができ、例えば、各カテゴリを分類識別子により識別することができる。カタログ153は、例えば、各々の分類識別子及び関連したカラムを格納することができる。カタログ153は、ガバナンス・ポリシーをさらに含むことができる。ガバナンス・ポリシーは、例えば、どの属性が匿名化による保護を必要とするか(例えば、クレジットカード番号、個人の名前及びアドレス等)、並びにどの匿名化アルゴリズムを使用するかを指し示すことができる。カタログ153は、データモデルをさらに含むことができ、データモデルは、データがどのように構造化され、マッピングされ、リンクされるかについての詳細を提供する。データベース・システム150は、単に例示のために単一のコンポーネントとして示される。しかしながら、データベース・システムの他の例を用いることもできる。例えば、データベース・システム150は、複数のストレージを含むことができる。複数のストレージは、互いに接続されていても又は接続されていなくてもよい。
図2は、データベース・システム150のデータのデータ匿名化のための方法のフローチャートである。
ステップ201において、データベース・システム150の、例えば151.2などの第1のデータセットと、例えば151.4などの少なくとも1つの第2のデータセットとが、2つのデータセットの少なくとも1つのレコードのエンティティを示す(又は、2つのデータセットの少なくとも1つにおける値を有するエンティティを示す)関係を有するかどうかを判断することができる。エンティティを示すもの(例えば、個人のフルネームなど)は、ガバナンス・ポリシーを満たさず、従って、匿名化を必要とし得る。データベース・システムが複数のストレージを含む場合には、第1のデータセット及び第2のデータセットを同じ又は異なるストレージ上に格納することができる。上記関係は、例えば、第1のデータセット及び第2のデータセットにおける属性値を結合することを可能にし、結合結果が同じエンティティを表すようにできる(例えば、以下に説明される通話詳細レコードの例を参照されたい)。結合した属性値は、両方のデータセット内の示されるエンティティに属すること又は2つのデータセットの一方における示されるエンティティに属することができ、他のデータセットは、例えば示されるエンティティに関連する別のエンティティの属性値を含むことができる。例えば、第1のデータセットは、所与のアドレスを有する患者Xの属性値を含む患者のカルテであり、第2のデータセット(例えば、ソーシャルメディア・プロファイル)は、ファーストネーム及び同じ所与のアドレスと関連付けられた患者Xの親類の属性値を含むことがある。2つのデータセットの組み合わせは、患者Xのファーストネームを明らかにすることがある。この例において、示されるエンティティは患者Xであり、他のエンティティは親類である。
例えば、ステップ201の判断は、例えばステップ203の要求の受信時にオンデマンドで、2つのデータセット151.2及び152.4に対して行うことができる。別の例において、ステップ201の判断は、データベース・システム150の全てのデータセット151.1〜Nの上記関係の全体の判断の一部として行うことができる。これは、データベース・システム150の2つのデータセット151.2及び152.4、並びに他のデータセットに対して自動的に行うことができる。例えば、ステップ201の自動実行は、例えば毎日など時間で、又は例えばデータセットが変更され、新しいデータセットが付加されるなど、データベース・システム150における変更の検出時に行うことができる。
例えば、ステップ201は、最初に、第1のデータセット151.2及び第2のデータセット151.4の少なくとも一方だけを匿名化方式で使用できるかどうかをチェックすることにより、行うことができる。このチェックは、所定の統治ポリシーもしくはカタログ153のデータモデル又はその両方に対して行うことができる。第1のデータセット151.2及び第2のデータセット151.4のいずれも匿名化方式で使用可能でない場合には、方法は停止する。
1つの例において、ステップ201の判断は、匿名化されていない第1のデータセット151.2又は第2のデータセット151.4の少なくとも一方の属性が、意味的に同じ企業体(business entity)又は属性グループ又は属性を表すかどうかをチェックすることにより、行うことができ、それを用いて、2つのデータセット151.2及び151.4にわたって個々のレコードを結合することができる。これは、例えばデータセットにわたるカタログ153のデータ用語分類情報を用いて、同じ用語分類器がデータセットにわたって使用されるかどうかを判断すること、もしくはデータセット151.2及び151.4にわたるデータ・プロファイリングの結果を用いて、データセットの間にPK/FK制約(例えば、包含従属性)が見られるかどうかを判断すること、又はその両方によって、行うことができる。これは、特定の属性についての情報アセット間の結合動作を実行するために特定の属性を用いることができることを示唆し得る。
別の例において、ステップ201の判断は、データセット151.2及び151.4にわたって、それらのいずれかが、匿名化方式のみでの使用が許可される1以上の領域を有する少なくとも1つの情報アセットと同じビジネス上の意味を有するデータを含むかどうかをチェックすることにより、行うことができる。これは、カタログ153の分類情報を用いて、行うことができる。
ステップ201の判断は、例えば、BINDERアルゴリズム又はMinhash技術を用いて、行うことができる。
ステップ203において、第1のデータセット及び第2のデータセットの少なくとも一方に対する要求を、ユーザから受け取ることができる。要求は、ステップ201の前に又は後に受け取ることができる。
ステップ205において、ユーザがエンティティを示すものにアクセスできないように、第1のデータセットもしくは第2のデータセット又はその両方の少なくとも一部を修正することができる。例えば、2つのデータセットの一方がデータ・マスキング要件を有し、他方のデータセットがデータ・マスキング要件を有さない場合には、他方のデータセットを、それが要求されるものではなかったとしても、修正することができる。
ステップ207において、要求されたデータセットをユーザに提供することができる。要求されたデータセットは、ステップ205の修正されたものであることも又は修正されたものでないこともある。
PK−FK関係の場合、例示的方法を次のように行うことができる。データ・サイエンティストが1つのデータセット又はデータセットのグループと連携したいと望むとき、本方法は、これらのデータセットと、同じデータ・サイエンティストに利用可能な他のデータセットとの間の全ての可能なPK−FK関係の事前計算されたリストをチェックすることができる。前のステップで取得された全ての可能な上記関係のリストは、要求されたデータセットとデータ・サイエンティストに利用可能な他のデータセットとの間にこれらの上記関係を有するように構築することができる全ての可能な結合により取得することができる、全ての結果セットのメタデータを得るために用いられる。例えば、結果セットは、同じ要求されたデータセットから構築することができる最大結合組み合わせをシミュレートすることにより、最悪の場合のシナリオに従って生成され得る。カタログのガバナンス・ポリシーとのこれらの可能な結合により取得することができる可能な結果セットの適合性のチェックが行われる。前のチェックの結果に基づいて、データ・サイエンティストは、それらがガバナンス・ポリシーに適合するように(例えば、最悪の場合のシナリオ結合結果でさえ、ガバナンス・ポリシーに適合するように)匿名化された要求されたデータセットを受け取ることができるか、又はデータ・サイエンティストは、新しい要求されたデータセットをより低レベルの匿名化でロードできる前に、同じく利用可能な何らかのデータセットが除去されるべきであるとの示唆を受け取ることができる。
以下は、本方法の利点を示す例である。
例えば、ガバナンス・ポリシーは、通話詳細レコード(CDR:Call Detail Record)の匿名化された詳細のみを格納するよう要求する。例えば、第1のデータセットは、例えば、属性顧客名、顧客アドレス及び顧客電話の値のマスキングなど、修正により匿名化される以下のCDRを含む。
(a)顧客ID:1122334455
(b)顧客名:abc7878df343
(c)顧客アドレス:fgh7878er90
(d)顧客電話:iop7878tz11
(e)デバイス:IDxyzを有するApple iPhone6
(f)通話開始:2016年10月25日午後2時40分
(g)通話終了:2016年10月25日午後2時50分
(h)持続時間:10分間
(i)通話した電話:0049−(0)7031−888−9911
(j)通話中に使用したアンテナ:52.5200°N、13.4050°E
また、第2のデータセットは、以下の属性値を有するプラットフォーム(例えば、Twitter、Facebook、LinkedIn)上に投稿されるソーシャルメディア投稿を含む。:
(a)投稿時間:2016年10月25日午後2時39分
(b)位置:52.5200°N、13.4050°E
(c)デバイス:IDxyzを有するApple iPhone6
(d)投稿のID:John Smith
(e)コンテンツ:「〜についてのこの格好いいものをチェックしてみて」
単に通話の位置(アンテナ位置)及びタイミングと組み合わせられる、投稿タイミング、位置等を有するソーシャルメディア投稿におけるメタデータのCDRの匿名化バージョンとの重ね合わせにより、多くの場合、CDRの80%又はそれより多くの匿名化解除(de-anonymize)が可能になり、匿名化CDRを、識別を可能にするソーシャルメディア・プロファイルに結合することにより、CDRの背後の個人を知ることができるようになることが、研究により示されている。
従って、各々がそれ自体では損害を与えない2つのデータセットが与えられるものの、それらを一緒にすることで、2つのデータセットの一方の匿名化の努力が破られる。本方法により、第1のデータセットが要求される場合に、単独で得られるその第1のデータセットは発呼側の識別を含むことがなくても、デバイスや通話の時間を識別するカラムをマスキング又は一般化して、ユーザの特定を可能にする付加的な情報を与えることになってしまう第1のデータセットと第2のデータセットの結合のためにもはや使用できないようにすることができる。
一例において、別の例示的方法が提供される。方法は、データセットのグループの1つのデータセットに対する要求を、ユーザから受け取ることと、どの更なるデータセットがユーザに利用可能かを判断することと、(i)データセット又はデータセットのグループと(ii)使用するユーザに利用可能な更なるデータセットの組み合わせについての全ての可能な主キー/外部キー関係を判断することと、全ての可能な主キー/外部キー関係についての結合の可能な結果セットのメタデータを判断することと、可能な結果セットの、ガバナンス・ポリシーとの適合性をチェックすることと、適切な場合は、要求されたデータセット又はデータセットのグループへのアクセスを提供する前に、ガバナンス・ポリシーと適合するように、要求されたデータの一部を匿名化することとを含む。全ての考えられる主キー/外部キー関係の判断は、例えば、以下のように実行することができる。すなわちデータセットのグループにおける全ての可能な単一カラム及びマルチカラムの包含従属性を判断すること(例えば、BINDERアルゴリズムを用いて)、可能な対を決定してカラム値(the column values)に基づいて計算された特性(シグネチャー)を用いてキー関係を構築すること、カラムの濃度に基づいて、全ての可能な主キー/外部キー関係をもたらす、1つのカラムは一意であるか又はほぼ一意である(つまり、全てのその値が異なる)カラムの対を識別すること、を実行することができる。
種々の実施形態が、以下の番号付き箇条において特定される。
1.データベース・システムのデータ匿名化のための方法であって、
データベース・システムの第1のデータセットと第2のデータセットとが、2つのデータセットにおける値(values)を有するエンティティを示す関係を有するかどうかを判断することと、
第1のデータセット及び第2のデータセットの少なくとも一方に対する要求を、ユーザから受け取ることと、
第1のデータセットと第2のデータセットが上記関係を有する場合、ユーザがエンティティを示すものにアクセスできないように、第1のデータセット及び第2のデータセットの少なくとも一方を修正することと、
要求されたデータセットを提供することと、
を含む、方法。
2.第1のデータセット及び第2のデータセットはレコードを含み、各レコードはそれぞれのエンティティの属性値の組み合わせであり、上記関係により示されるエンティティは、第1のデータセットもしくは第2のデータセット又はその両方の少なくとも1つのレコードのエンティティである、箇条1に記載の方法。
3.データベース・システムの全てのデータセットの間の上記関係を判断することと、判断した上記関係についての情報を含むメタデータ構造を提供することとをさらに含み、第1のデータセットと第2のデータセットとが上記関係を有するかどうかを判断することは、メタデータ構造を用いて行われる、上述の箇条のいずれかに記載の方法。
4.データベース・システムにおける変更に応答して、データベース・システムのデータセット間の上記関係を再判断することと、それに応じてメタデータ構造を更新することとをさらに含む、箇条3に記載の方法。
5.修正を行うことは、ユーザによるエンティティへのアクセスが所定の統治ポリシーに違反するとの判断に応答して行われる、上述の箇条のいずれかに記載の方法。
6.上記関係がエンティティを示すかどうかを判断することは、第2のデータセットのそれぞれのターゲット・カラムを参照する第1のデータセットの1以上のソース・カラムを識別することと、ソース・カラムとターゲット・カラムを組み合わせることと、組み合わせ結果に基づいて、上記関係がエンティティを示すか又は示さないかを判断することとを含む、上述の箇条のいずれかに記載の方法。
7.組み合わせは、SQL結合演算を用いて行われる、箇条6に記載の方法。
8.判断した上記関係は、主キー・外部キー関係である、上述の箇条のいずれかに記載の方法。
9.要求を受け取ったこと、並びに第1のデータセット及び第2のデータセットがユーザによりアクセス可能であるとの判断に応答して、第1のデータセットと第2のデータセットとが上記関係を有するかどうかの判断を行うことをさらに含む、上述の箇条のいずれかに記載の方法。
10.要求されたデータセットの修正は、要求されたデータセットの1以上のカラムをマスキングすることを含む、上述の箇条のいずれかに記載の方法。
11.上記関係の判断は、自動的に行われる、上述の箇条のいずれかに記載の方法。
12.上記関係の判断は、データベース・システムにおける変更の検出に応答して自動的に行われる、箇条11に記載の方法。
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図もしくはブロック図又はその両方を参照して説明される。フローチャート図もしくはブロック図又はその両方の各ブロック、並びにフローチャート図もしくはブロック図又はその両方におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。
本発明は、システム、方法、もしくはコンピュータ・プログラム製品又はその組み合わせとすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体(単数又は複数)を含むことができる。
コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子記憶装置、磁気記憶装置、光学記憶装置、電磁気記憶装置、半導体記憶装置、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの:すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラム可能読み出し専用メモリ(EPROM又はフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー・ディスク、命令がそこに記録された機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管若しくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスに、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、もしくは無線ネットワーク又はその組み合わせなどのネットワークを介して外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバ又はその組み合わせを含むことができる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体に格納する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Smalltalk、C++などのオブジェクト指向プログラミング言語、及び、「C」プログラミング言語若しくは類似のプログラミング言語などの従来の手続き型プログラミング言語を含む1以上のプログラミング言語の任意の組み合わせで記述されるソース・コード又はオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。最後のシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)若しくは広域ネットワーク(WAN)を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある(例えば、インターネットサービスプロバイダを用いたインターネットを通じて)。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、又はプログラム可能論理アレイ(PLA)を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行して、電子回路を個別化することができる。
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図もしくはブロック図又はその両方を参照して説明される。フローチャート図もしくはブロック図又はその両方の各ブロック、並びにフローチャート図もしくはブロック図又はその両方におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。
これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えて機械を製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャートもしくはブロック図又はその両方の1以上のブロック内で指定された機能/動作を実施するための手段を作り出すようにすることができる。これらのコンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、もしくは他のデバイス又はその組み合わせを特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、そのコンピュータ可読媒体内に格納された命令が、フローチャートもしくはブロック図又はその両方の1以上のブロックにおいて指定された機能/動作の態様を実施する命令を含む製品を含むようにすることもできる。
コンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実施のプロセスを生産し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャートもしくはブロック図又はその両方の1以上のブロックにおいて指定された機能/動作を実行するためのプロセスを提供するようにすることもできる。
図面内のフローチャート及びブロック図は、本発明の様々な実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート内の各ブロックは、指定された論理機能を実装するための1以上の実行可能命令を含む、モジュール、セグメント、又はコードの一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、連続して示される2つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図もしくはフローチャート図又はその両方の各ブロック、及びブロック図もしくはフローチャート図又はその両方におけるブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。
本開示はクラウド・コンピューティングについての詳細な説明を含むが、本明細書に記載される教示の実装は、クラウド・コンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在既知の又は後で開発される他のいずれかのタイプのコンピューティング環境と共に実施することができる。
クラウド・コンピューティングは、最小限の管理労力又はサービス・プロバイダとの対話で迅速にプロビジョニング及び解放することができる構成可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、及びサービス)の共有プールへの、便利なオンデマンドのネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも5つの特徴、少なくとも3つのサービス・モデル、及び少なくとも4つのデプロイメント・モデルを含むことができる。
特徴は、以下の通りである。
オンデマンド・セルフサービス:クラウド・コンシューマは、必要に応じて、サーバ時間及びネットワーク・ストレージ等のコンピューティング機能を、人間がサービスのプロバイダと対話する必要なく自動的に、一方的にプロビジョニングすることができる。
広範なネットワーク・アクセス:機能は、ネットワーク上で利用可能であり、異種のシン又はシック・クライアント・プラットフォーム(例えば、携帯電話、ラップトップ、及びPDA)による使用を促進する標準的な機構を通じてアクセスされる。
リソース・プール化:プロバイダのコンピューティング・リソースは、マルチ・テナント・モデルを用いて、異なる物理及び仮想リソースを要求に応じて動的に割り当て及び再割り当てすることにより、複数のコンシューマにサービスを提供するためにプールされる。コンシューマは、一般に、提供されるリソースの正確な位置についての制御又は知識を持たないという点で、位置とは独立しているといえるが、より抽象化レベルの高い位置(例えば、国、州、又はデータセンタ)を特定できる場合がある。
迅速な弾力性:機能は、迅速かつ弾力的に、場合によっては自動的に、プロビジョニングして素早くスケール・アウトし、迅速にリリースして素早くスケール・インさせることができる。コンシューマにとって、プロビジョニングに利用可能なこれらの機能は、多くの場合、無制限であり、いつでもどんな量でも購入できるように見える。
計測されるサービス:クラウド・システムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、及びアクティブなユーザ・アカウント)に適した何らかの抽象化レベルでの計量機能を用いることによって、リソースの使用を自動的に制御及び最適化する。リソース使用を監視し、制御し、報告し、利用されるサービスのプロバイダとコンシューマの両方に対して透明性をもたらすことができる。
サービス・モデルは以下の通りである。
Software as a Service(SaaS):クラウド・インフラストラクチャ上で動作しているプロバイダのアプリケーションを使用するために、コンシューマに提供される機能である。これらのアプリケーションは、ウェブ・ブラウザ(例えば、ウェブ・ベースの電子メール)などのシン・クライアント・インターフェースを通じて、種々のクライアント・デバイスからアクセス可能である。コンシューマは、限定されたユーザ固有のアプリケーション構成設定の考え得る例外として、ネットワーク、サーバ、オペレーティング・システム、ストレージ、又は個々のアプリケーション機能をも含めて、基礎をなすクラウド・インフラストラクチャを管理又は制御しない。
Platform as a Service(PaaS):プロバイダによってサポートされるプログラミング言語及びツールを用いて生成された、コンシューマが生成した又は取得したアプリケーションを、クラウド・インフラストラクチャ上にデプロイするために、コンシューマに提供される機能である。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、又はストレージなどの基礎をなすクラウド・インフラストラクチャを管理又は制御しないが、配備されたアプリケーション、及び場合によってはアプリケーション・ホスティング環境構成に対して制御を有する。
Infrastructure as a Service(IaaS):コンシューマが、オペレーティング・システム及びアプリケーションを含み得る任意のソフトウェアを配備及び動作させることができる、処理、ストレージ、ネットワーク、及び他の基本的なコンピューティング・リソースをプロビジョニンングするために、コンシューマに提供される機能である。コンシューマは、基礎をなすクラウド・インフラストラクチャを管理又は制御しないが、オペレーティング・システム、ストレージ、配備されたアプリケーションに対する制御、及び場合によってはネットワーク・コンポーネント(例えば、ホストのファイアウォール)選択の限定された制御を有する。
デプロイメント・モデルは以下の通りである。
プライベート・クラウド:クラウド・インフラストラクチャは、ある組織のためだけに運営される。このクラウド・インフラストラクチャは、その組織又は第三者によって管理することができ、オンプレミス又はオフプレミスに存在することができる。
コミュニティ・クラウド:クラウド・インフラストラクチャは、幾つかの組織によって共有され、共通の関心事項(例えば、任務、セキュリティ要件、ポリシー、及びコンプライアンス上の考慮事項)を有する特定のコミュニティをサポートする。クラウド・インフラストラクチャは、その組織又は第三者によって管理することができ、オンプレミス又はオフプレミスに存在することができる。
パブリック・クラウド:クラウド・インフラストラクチャは、一般公衆又は大規模な業界グループに利用可能であり、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、固有のエンティティのままであるが、データ及びアプリケーションの移行性を可能にする標準化された又は専用の技術(例えば、クラウド間の負荷分散のためのクラウド・バースティング)によって結び付けられる2つ以上のクラウド(プライベート、コミュニティ、又はパブリック)の混成物である。
クラウド・コンピューティング環境は、ステートレス性、低結合性、モジュール性、及びセマンティック相互運用性に焦点を置くことを指向するサービスである。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラストラクチャである。
ここで図3を参照すると、例証的クラウド・コンピューティング環境50が示される。示されるように、クラウド・コンピューティング環境50は、例えば、携帯情報端末(PDA)又は携帯電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54C、もしくは自動車コンピュータ・システム54N又はその組み合わせ等といった、クラウド・コンシューマによって用いられるローカル・コンピューティング・デバイスと通信できる1以上のクラウド・コンピューティング・ノード100を含む。ノード100は、互いに通信することができる。これらのノードは、プライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、若しくはハイブリッド・クラウド、又はこれらの組み合わせなど、1以上のネットワークにおいて物理的又は仮想的にグループ化することができる(図示せず)。これにより、クラウド・コンピューティング環境50が、クラウド・コンシューマがローカル・コンピューティング・デバイス上にリソースを保持する必要のないサービスとして、インフラストラクチャ、プラットフォーム、及び/又はソフトウェアを提供することが可能になる。図3に示されるコンピューティング・デバイス54A〜Nのタイプは単に例示であることを意図し、コンピューティング・ノード100及びクラウド・コンピューティング環境50は、任意のタイプのネットワーク及び/又はネットワーク・アドレス指定可能な接続上で(例えば、ウェブ・ブラウザを用いて)、任意のタイプのコンピュータ化されたデバイスと通信できることを理解されたい。
ここで図4を参照すると、クラウド・コンピューティング環境50によって提供される機能抽象化層400のセットが示される。図4に示されるコンポーネント、層、及び機能は単に例示であることを意図し、本発明の実施形態はそれらに限定されないことを予め理解されたい。示されるように、以下の層及び対応する機能が提供される。
ハードウェア及びソフトウェア層60は、ハードウェア及びソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例として、メインフレーム61と、RISC(Reduced Instruction Set Computer、縮小命令セット・コンピュータ)アーキテクチャ・ベースのサーバ62と、サーバ63と、ブレードサーバ64と、ストレージ・デバイス65と、ネットワーク及びネットワーク・コンポーネント66と、が含まれる。幾つかの実施形態において、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア67と、データベース・ソフトウェア68とが含まれる。
仮想化層70は、抽象化層を提供し、この層により、仮想エンティティの以下の例、すなわち、仮想サーバ71、仮想ストレージ72、仮想プライベート・ネットワークを含む仮想ネットワーク73、仮想アプリケーション及びオペレーティング・システム74、並びに仮想クライアント75を提供することができる。
一例において、管理層80は、以下で説明される機能を提供することができる。リソース・プロビジョニング81は、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソース及び他のリソースの動的な調達を提供する。計量及び価格決定82は、クラウド・コンピューティング環境内でリソースが利用される際のコスト追跡と、これらのリソースの消費に対する課金又は請求とを提供する。一例においては、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含むことができる。セキュリティは、クラウド・コンシューマ及びタスクに対する識別情報の検証と、データ及び他のリソースに対する保護とを提供する。ユーザ・ポータル83は、コンシューマ及びシステム管理者のために、クラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理84は、要求されるサービス・レベルが満たされるように、クラウド・コンピューティング・リソースの割り当て及び管理を提供する。サービス・レベル・アグリーメント(Service Level Agreement、SLA)の計画及び履行85は、SLAに従って将来の要件が予測されるクラウド・コンピューティング・リソースの事前配置及び調達を提供する。
ワークロード層90は、クラウド・コンピューティング環境を利用することができる機能の例を提供する。この層から提供することができるワークロード及び機能の例として、マッピング及びナビゲーション91、ソフトウェア開発及びライフサイクル管理92、仮想教室教育配信93、データ分析処理94、トランザクション処理95、及びデータ匿名化処理96が挙げられる。データ匿名化処理96は、データベース・システムの全てのデータセットの間の上記関係を判断し、判断した上記関係についての情報を含むメタデータ構造を提供することによる、データベース・システムのデータ匿名化に関することができ、判断は、メタデータ構造を用いて行われる。データベース・システムにおける変更に応答して、データ匿名化処理96は、データベース・システムのデータセット間の上記関係を再判断し、それに応じてメタデータ構造を更新する。
本発明の種々の実施形態の説明は、例証の目的のために提示されたが、これらは、網羅的であること、又は本発明を開示した実施形態に限定することを意図するものではない。当業者には、説明される実施形態の範囲及び趣旨から逸脱することなく、多くの修正及び変形が明らかであろう。本明細書で用いられる用語は、実施形態の原理、実際の適用、又は市場に見られる技術に優る技術的改善を最もよく説明するため、又は、当業者が、本明細書に開示される実施形態を理解するのを可能にするために選択された。
20、145:入力/出力(I/O)デバイス
30:外部システム
100:システム
101:コンピュータ
105:プロセッサ
110:メモリ
111:OS
112:ソフトウェア
115:メモリ・コントローラ
120:ストレージ
122:基本入力出力システム(BIOS)
125:ディスプレイ・コントローラ
130:ディスプレイ
135:入力/出力コントローラ
150:キーボード
150:データベース・システム
151.1〜151.N:データセット
153:カタログ
155:マウス
165:ネットワーク

Claims (15)

  1. データベース・システムのデータ匿名化のための方法であって、
    前記データベース・システムの第1のデータセットと第2のデータセットとが、前記第1のデータセット及び前記第2のデータセットの両方における値を有するエンティティを示す関係を有するかどうかを判断することと、
    前記第1のデータセット及び前記第2のデータセットの少なくとも一方に対する要求を、ユーザから受け取ることと、
    前記第1のデータセットと前記第2のデータセットとが前記関係を有する場合、前記ユーザが前記エンティティにアクセスできないように、前記第1のデータセット及び前記第2のデータセットの少なくとも一方を修正することによって、要求されたデータセットを作成することと、
    前記要求されたデータセットを提供することと、
    を含む、方法。
  2. 前記第1のデータセット及び前記第2のデータセットはレコードを含み、各レコードはそれぞれのエンティティの属性値の組み合わせであり、前記それぞれのエンティティは、前記第1のデータセット及び前記第2のデータセットの少なくとも一方のレコードの前記エンティティを示す前記関係を有する、請求項1に記載の方法。
  3. 前記データベース・システムの全てのデータセットの間の関係を判断することと、判断した前記関係についての情報を含むメタデータ構造を提供することとをさらに含み、前記第1のデータセットと前記第2のデータセットとが前記関係を有するかどうかを判断することは、前記メタデータ構造を用いて行われる、前記請求項のいずれかに記載の方法。
  4. 前記データベース・システムにおける変更に応答して、前記データベース・システムの前記第1のデータセットと前記第2のデータセットとの間の前記関係を再判断することと、それに応じて前記メタデータ構造を更新することとをさらに含む、請求項3に記載の方法。
  5. 前記第1のデータセット及び前記第2のデータセットの少なくとも一方の修正を行うことは、前記ユーザによる前記エンティティへのアクセスが所定の統治ポリシーに違反するとの判断に応答して行われる、前記請求項のいずれかに記載の方法。
  6. 前記関係が前記エンティティを示すかどうかを判断することは、
    前記第2のデータセットのそれぞれのターゲット・カラムを参照する前記第1のデータセットの1以上のソース・カラムを識別することと、
    前記ソース・カラムと前記ターゲット・カラムを組み合わせることと、
    前記ソース・カラムと前記ターゲット・カラムを組み合わせることに基づいて、前記関係は前記エンティティを示すか又は示さないかを判断することと、
    を含む、前記請求項のいずれかに記載の方法。
  7. 前記ソース・カラムと前記ターゲット・カラムを組み合わせることは、SQL結合演算を用いて行われる、請求項6に記載の方法。
  8. 判断される前記関係は、主キー・外部キー関係である、前記請求項のいずれかに記載の方法。
  9. 前記要求を受け取ったこと、並びに前記第1のデータセット及び前記第2のデータセットが前記ユーザによりアクセス可能であるとの判断に応答して、前記第1のデータセットと前記第2のデータセットとが前記関係を有するかどうかの判断を行うことをさらに含む、前記請求項のいずれかに記載の方法。
  10. 前記要求されたデータセットを前記修正することは、前記要求されたデータセットの1以上のカラムをマスキングすることを含む、前記請求項のいずれかに記載の方法。
  11. 前記関係の前記判断は、自動的に行われる、前記請求項のいずれかに記載の方法。
  12. 前記関係の前記判断は、前記データベース・システムにおける変更の検出に応答して自動的に行われる、請求項11に記載の方法。
  13. 方法のステップの全てを実施するように構成されたコンピュータ可読プログラム・コードが具体化されたコンピュータ可読ストレージ媒体を含むコンピュータ・プログラム製品であって、前記方法は、
    前記データベース・システムの第1のデータセットと第2のデータセットとが、前記第1のデータセット及び前記第2のデータセットの両方における値を有するエンティティを示す関係を有するかどうかを判断することと、
    前記第1のデータセット及び前記第2のデータセットの少なくとも一方に対する要求を、ユーザから受け取ることと、
    前記第1のデータセットと前記第2のデータセットとが前記関係を有する場合、前記ユーザが前記エンティティにアクセスできないように、前記第1のデータセット及び前記第2のデータセットの少なくとも一方を修正することによって、要求されたデータセットを作成することと、
    前記要求されたデータセットを提供することと、
    を含む、コンピュータ・プログラム製品。
  14. データベース・システムのデータのデータ匿名化のためのシステムであって、
    前記データベース・システムの第1のデータセットと第2のデータセットとが、前記第1のデータセット及び前記第2のデータセットの両方における値を有するエンティティを示す関係を有するかどうかを判断することと、
    前記第1のデータセット及び前記第2のデータセットの少なくとも一方に対する要求を、ユーザから受け取ることと、
    前記第1のデータセットと前記第2のデータセットが前記関係を有する場合、前記ユーザが前記エンティティにアクセスできないように、前記第1のデータセット及び前記第2のデータセットの少なくとも一方を修正することによって、要求されたデータセットを作成することと、
    前記要求されたデータセットを提供することと、
    を行うように構成された、システム。
  15. データベース・システムのデータ匿名化のための方法であって、
    前記データベース・システムの第1のデータセットに対する要求を、ユーザから受け取ることと、
    前記データベース・システムの前記第1のデータセットと、第2のデータセットからの少なくとも1つのエンティティとが、前記第1のデータセット及び前記第2のデータセットの両方の少なくとも1つのレコードのエンティティを示す関係を有するかどうかを判断することと、
    前記第1のデータセットと、前記第2のデータセットからの前記少なくとも1つのエンティティとが前記関係を有する場合、前記ユーザが前記エンティティにアクセスできないように、前記第1のデータセット及び前記第2のデータセットの前記少なくとも1つのエンティティを修正することにより、要求されたデータセットを作成することと、
    前記要求されたデータセットを提供することと、
    を含む、方法。
JP2020545618A 2018-03-19 2019-03-19 データ匿名化 Active JP7266354B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/924,345 US11106820B2 (en) 2018-03-19 2018-03-19 Data anonymization
US15/924,345 2018-03-19
PCT/IB2019/052201 WO2019180599A1 (en) 2018-03-19 2019-03-19 Data anonymization

Publications (2)

Publication Number Publication Date
JP2021516811A true JP2021516811A (ja) 2021-07-08
JP7266354B2 JP7266354B2 (ja) 2023-04-28

Family

ID=67905697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020545618A Active JP7266354B2 (ja) 2018-03-19 2019-03-19 データ匿名化

Country Status (6)

Country Link
US (1) US11106820B2 (ja)
JP (1) JP7266354B2 (ja)
CN (1) CN111868727B (ja)
DE (1) DE112019001433T5 (ja)
GB (1) GB2586716B (ja)
WO (1) WO2019180599A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7164333B2 (ja) * 2018-06-27 2022-11-01 株式会社日立製作所 個人情報分析システム
US11113417B2 (en) * 2018-07-10 2021-09-07 Sap Se Dynamic data anonymization using taint tracking
EP3850559A4 (en) * 2018-09-20 2021-11-10 Huawei Technologies Co., Ltd. SYSTEMS AND METHODS FOR GRAPH-BASED QUERY ANALYSIS
US20220100899A1 (en) * 2020-09-25 2022-03-31 International Business Machines Corporation Protecting sensitive data in documents
US20220245125A1 (en) * 2021-01-31 2022-08-04 Ab Initio Technology Llc Dataset multiplexer for data processing system
JP2022121227A (ja) * 2021-02-08 2022-08-19 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11941151B2 (en) * 2021-07-16 2024-03-26 International Business Machines Corporation Dynamic data masking for immutable datastores
CN117171261B (zh) * 2023-07-31 2024-05-03 蒲惠智造科技股份有限公司 面向多数据库单元的弹性扩展智能调用方法和系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318391A (ja) * 2003-04-15 2004-11-11 Mitsubishi Electric Corp 情報提供装置及び情報提供システム及び分散データベースシステム
JP2006189926A (ja) * 2004-12-28 2006-07-20 Toshiba Corp 個人情報分離装置および個人情報分離プログラム
JP2008140202A (ja) * 2006-12-04 2008-06-19 Hitachi Ltd 情報提供制御装置、情報提供制御方法、及び、プログラム
US20090100527A1 (en) * 2007-10-10 2009-04-16 Adrian Michael Booth Real-time enterprise data masking
WO2012165518A1 (ja) * 2011-06-02 2012-12-06 日本電気株式会社 分散匿名化システム、分散匿名化装置及び分散匿名化方法
JP2013143114A (ja) * 2012-01-13 2013-07-22 Fujitsu Frontech Ltd プログラム、情報処理装置およびアクセス支援方法
WO2013121738A1 (ja) * 2012-02-17 2013-08-22 日本電気株式会社 分散匿名化装置及び分散匿名化方法
JP2013246547A (ja) * 2012-05-24 2013-12-09 Nomura Research Institute Ltd データ変換装置
JP2014500544A (ja) * 2010-11-02 2014-01-09 マイクロソフト コーポレーション オブジェクトモデルとkey−valueモデル間のマッピング
US20140013065A1 (en) * 2012-07-05 2014-01-09 Fujitsu Limited Computer-readable recording medium, information processing device, and system

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7203315B1 (en) * 2000-02-22 2007-04-10 Paul Owen Livesay Methods and apparatus for providing user anonymity in online transactions
US20030140043A1 (en) * 2002-01-23 2003-07-24 New York Society For The Relief Of The Ruptured & Cripple Maintaining The Hosp For Special Surgery Clinical research data management system and method
US7814119B2 (en) * 2004-03-19 2010-10-12 Hitachi, Ltd. Control of data linkability
US7680767B2 (en) * 2006-03-23 2010-03-16 Microsoft Corporation Mapping architecture with incremental view maintenance
US8606626B1 (en) * 2007-01-31 2013-12-10 Experian Information Solutions, Inc. Systems and methods for providing a direct marketing campaign planning environment
US7979410B2 (en) * 2008-07-30 2011-07-12 Oracle International Corp. Maintaining referential integrity while masking
WO2010028395A1 (en) * 2008-09-08 2010-03-11 Credit Suisse Securities (Usa) Llc Apparatuses, methods and systems for providing a virtual development and deployment environment including real and synthetic data
US10348693B2 (en) * 2009-12-15 2019-07-09 Microsoft Technology Licensing, Llc Trustworthy extensible markup language for trustworthy computing and data services
US8666998B2 (en) 2010-09-14 2014-03-04 International Business Machines Corporation Handling data sets
EP2689353B1 (en) * 2011-03-22 2019-11-06 Informatica LLC System and method for data masking
EP2653984A1 (en) * 2012-04-18 2013-10-23 Software AG Method and system for anonymizing data during export
CN102867022B (zh) 2012-08-10 2015-01-14 上海交通大学 通过部分删除某些项目达到对集合型数据匿名化的系统
WO2014080297A2 (en) * 2012-11-12 2014-05-30 EPI-USE Systems, Ltd. Secure data copying
US9747456B2 (en) * 2013-03-15 2017-08-29 Microsoft Technology Licensing, Llc Secure query processing over encrypted data
WO2015066523A2 (en) 2013-11-01 2015-05-07 Anonos Inc. Dynamic de-identification and anonymity
US9230132B2 (en) 2013-12-18 2016-01-05 International Business Machines Corporation Anonymization for data having a relational part and sequential part
CN103853818B (zh) * 2014-02-12 2017-04-12 博易智软(北京)技术股份有限公司 多维数据的处理方法和装置
US9491192B2 (en) * 2014-07-08 2016-11-08 Marcio Veloso Antunes Universal relationships, system and method to build and operate a repository to manage and share trusted information of entities and their relationships
US8978153B1 (en) * 2014-08-01 2015-03-10 Datalogix, Inc. Apparatus and method for data matching and anonymization
US9798895B2 (en) * 2014-09-25 2017-10-24 Mcafee, Inc. Platform identity architecture with a temporary pseudonymous identity
US20180293283A1 (en) 2014-11-14 2018-10-11 Marin Litoiu Systems and methods of controlled sharing of big data
US20160140544A1 (en) 2014-11-17 2016-05-19 Mastercard International Incorporated Systems and methods for effectively anonymizing consumer transaction data
US10324914B2 (en) * 2015-05-20 2019-06-18 Commvalut Systems, Inc. Handling user queries against production and archive storage systems, such as for enterprise customers having large and/or numerous files
US10089489B2 (en) * 2015-06-02 2018-10-02 ALTR Solutions, Inc. Transparent client application to arbitrate data storage between mutable and immutable data repositories
US20170104756A1 (en) 2015-10-13 2017-04-13 Secupi Security Solutions Ltd Detection, protection and transparent encryption/tokenization/masking/redaction/blocking of sensitive data and transactions in web and enterprise applications
US9858426B2 (en) 2015-11-03 2018-01-02 Palo Alto Research Center Incorporated Computer-implemented system and method for automatically identifying attributes for anonymization
US20180129712A1 (en) * 2016-11-09 2018-05-10 Ca, Inc. Data provenance and data pedigree tracking
US10540153B2 (en) * 2016-12-03 2020-01-21 Thomas STACHURA Spreadsheet-based software application development
US10713384B2 (en) * 2016-12-09 2020-07-14 Massachusetts Institute Of Technology Methods and apparatus for transforming and statistically modeling relational databases to synthesize privacy-protected anonymized data
US10769295B2 (en) * 2018-01-18 2020-09-08 Sap Se Join operations on encrypted database tables

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318391A (ja) * 2003-04-15 2004-11-11 Mitsubishi Electric Corp 情報提供装置及び情報提供システム及び分散データベースシステム
JP2006189926A (ja) * 2004-12-28 2006-07-20 Toshiba Corp 個人情報分離装置および個人情報分離プログラム
JP2008140202A (ja) * 2006-12-04 2008-06-19 Hitachi Ltd 情報提供制御装置、情報提供制御方法、及び、プログラム
US20090100527A1 (en) * 2007-10-10 2009-04-16 Adrian Michael Booth Real-time enterprise data masking
JP2014500544A (ja) * 2010-11-02 2014-01-09 マイクロソフト コーポレーション オブジェクトモデルとkey−valueモデル間のマッピング
WO2012165518A1 (ja) * 2011-06-02 2012-12-06 日本電気株式会社 分散匿名化システム、分散匿名化装置及び分散匿名化方法
JP2013143114A (ja) * 2012-01-13 2013-07-22 Fujitsu Frontech Ltd プログラム、情報処理装置およびアクセス支援方法
WO2013121738A1 (ja) * 2012-02-17 2013-08-22 日本電気株式会社 分散匿名化装置及び分散匿名化方法
JP2013246547A (ja) * 2012-05-24 2013-12-09 Nomura Research Institute Ltd データ変換装置
US20140013065A1 (en) * 2012-07-05 2014-01-09 Fujitsu Limited Computer-readable recording medium, information processing device, and system
JP2014016675A (ja) * 2012-07-05 2014-01-30 Fujitsu Ltd 制御プログラム、情報処理装置およびシステム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
伊奈 優樹: "同一個人データの存在する水平分割データベースのダミー値追加による匿名化", マルチメディア,分散,協調とモバイル(DICOMO2017)シンポジウム論文集 情報処理学会シンポジ, vol. 第2017巻, JPN6022032474, 21 June 2017 (2017-06-21), JP, pages 661 - 668, ISSN: 0004840793 *

Also Published As

Publication number Publication date
CN111868727A (zh) 2020-10-30
GB2586716A (en) 2021-03-03
DE112019001433T5 (de) 2020-12-10
WO2019180599A1 (en) 2019-09-26
GB2586716B (en) 2022-10-12
JP7266354B2 (ja) 2023-04-28
GB202015103D0 (en) 2020-11-11
US20190286849A1 (en) 2019-09-19
CN111868727B (zh) 2023-07-21
US11106820B2 (en) 2021-08-31

Similar Documents

Publication Publication Date Title
JP7266354B2 (ja) データ匿名化
US9253055B2 (en) Transparently enforcing policies in hadoop-style processing infrastructures
US10223329B2 (en) Policy based data collection, processing, and negotiation for analytics
US9967363B2 (en) Activity analysis for monitoring and updating a personal profile
US9830469B1 (en) Automated mechanism to secure customer data
US11093645B2 (en) Coordinated de-identification of a dataset across a network
US20210297451A1 (en) Policy rule enforcement decision evaluation with conflict resolution
US11868310B2 (en) Composite storage of objects in multi-tenant devices
JP6616404B2 (ja) クラウド仮想マシンに対する脅威の検出への自動応答
US20170116256A1 (en) Reliance measurement technique in master data management (mdm) repositories and mdm repositories on clouded federated databases with linkages
US11620353B2 (en) Hyperlink visual indicator
US10067849B2 (en) Determining dynamic statistics based on key value patterns
US11012462B2 (en) Security management for data systems
US11113418B2 (en) De-identification of electronic medical records for continuous data development
US11734586B2 (en) Detecting and improving content relevancy in large content management systems
US20170329665A1 (en) Community content identification
US20230259406A1 (en) Workflow Data Redistribution in Hybrid Public/Private Computing Environments
US20230153450A1 (en) Privacy data management in distributed computing systems
US20230153457A1 (en) Privacy data management in distributed computing systems
US11947558B2 (en) Built-in analytics for database management
US11954231B2 (en) Recursively adapting a sensitive content masking technique
US20230222240A1 (en) Governed database connectivity (gdbc) through and around data catalog to registered data sources
US20220050912A1 (en) Security semantics for database queries

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210204

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210816

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220502

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220802

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230322

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20230322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230412

R150 Certificate of patent or registration of utility model

Ref document number: 7266354

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150