JP7121460B2 - データ匿名化のためのコンピュータ実施方法、コンピュータ・プログラム製品、およびシステム - Google Patents

データ匿名化のためのコンピュータ実施方法、コンピュータ・プログラム製品、およびシステム Download PDF

Info

Publication number
JP7121460B2
JP7121460B2 JP2020524737A JP2020524737A JP7121460B2 JP 7121460 B2 JP7121460 B2 JP 7121460B2 JP 2020524737 A JP2020524737 A JP 2020524737A JP 2020524737 A JP2020524737 A JP 2020524737A JP 7121460 B2 JP7121460 B2 JP 7121460B2
Authority
JP
Japan
Prior art keywords
data
anonymization
user
usage scenario
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020524737A
Other languages
English (en)
Other versions
JP2021503648A (ja
Inventor
マイヤー、アルバート
オーバーホッファー、マーティン
セレ、ヤニック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2021503648A publication Critical patent/JP2021503648A/ja
Application granted granted Critical
Publication of JP7121460B2 publication Critical patent/JP7121460B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2113Multi-level security, e.g. mandatory access control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Description

本発明は、データ匿名化の分野に関し、より詳細には、情報ガバナンスおよびデータ・プライバシ保護の方法、コンピュータ・プログラム製品、およびシステムに関する。
GDPR(http://www.eugdpr.org/)のようなプライバシ規則は、個人を、個人のデータの或る用法から保護することに焦点を合わせる。個人のデータを或る種の分析のために使用することは、それらの個人がその使用に対するそれらの個人の同意を明示的に言明しているのでない限り、法と合致しない。他方、データが「十分に匿名化」される限り、個人データを収集して、記憶することは容認できる可能性があり、個人データを分析において使用することが容認できる可能性もあり、例えば、GDPRは、「管理者によって処理されるデータが、その管理者に人物を識別することを許さない場合、それらは、この規則を遵守する目的でさらなる情報を得ることを要求されない」と表現する。
例として、データ・サイエンティストが、地域と或る種の疾病の間の新たな関係を見出すべく、医学研究の結果を有する表を調査することを所望するものと想定されてよい。無論、データ・サイエンティストは、具体的な個人を識別することも、個人の慎重な扱いを要する個人情報を見ることも許されるべきではない。幸運なことに、この例において、「名前」のような識別列は、調査のために必要なく、あるいは「趣味」のような準識別列は、調査を妨げることなしにマスクされることが可能であるものと見込まれる。したがって、これらの列は、扱うのが容易である。
これに対して、住所または疾病情報のような他の準識別列が完全に暗号化された、またはマスクされた、または編集されたとした場合、調査は、不可能であることになる。他方、そのような列を匿名化しないことは、あまりにも独特である疾病または住所、あるいはその両方が存在する可能性があるので、通常、個人の容易な識別につながる。そのような事例に関して、一般化によって匿名化すること、例えば、具体的な住所を都市に一般化すること、または「アジアかぜ」のような非常に詳細な疾病情報を「インフルエンザ」のような、より一般的な情報に一般化することが、役立つ可能性がある。そのような一般化は、しばしば、調査を損なうのではなく、個人が追跡され得ないようにデータを十分に匿名化するのに役立つことが可能である。
GDPR(http://www.eugdpr.org/)
様々な実施形態が、独立請求項においてデータ匿名化のためのコンピュータによって実施される方法、データ匿名化のためのコンピュータ・プログラム製品、およびデータ匿名化のためのシステムを提供する。有利な実施形態が、従属請求項に記載される。本発明の実施形態は、それらの実施形態が相互に排他的ではない場合、互いに自由に組み合わされることが可能である。
一態様において、本発明は、データに対する要求を受信することであって、要求が、取り出されるべきデータの少なくとも1つのフィールド記述子と、要求されるデータに関するユーザの使用シナリオとを備える、受信すること、使用シナリオに基づいて、フィールド記述子によって参照されるデータに適用されるべき匿名化アルゴリズムを決定すること、フィールド記述子によって参照されるデータに、決定された匿名化アルゴリズムを適用すること、匿名化の度合が使用シナリオと関係する要件を満たすかどうかを試験すること、要件が満たされる場合、匿名化されたデータに対するアクセスを提供することを備える、データ匿名化のためのコンピュータによって実施される方法に関する。
別の態様において、本発明は、データを匿名化するためのコンピュータ・プログラム製品に関し、コンピュータ・プログラム製品は、コンピュータ使用可能コードを具現化しているコンピュータ可読記憶媒体を備え、コンピュータ可読記憶媒体が、一過性の信号そのものではなく、コンピュータ使用可能プログラム・コードは、データに対する要求を受信するために構成されたコンピュータ使用可能コードであって、要求が、取り出されるべきデータの少なくとも1つのフィールド記述子と、要求されるデータに関するユーザの使用シナリオとを備える、コンピュータ使用可能コードと、使用シナリオに基づいて、フィールド記述子によって参照されるデータに適用されるべき匿名化アルゴリズムを決定するために構成されたコンピュータ使用可能コードと、フィールド記述子によって参照されるデータに、決定された匿名化アルゴリズムを適用するために構成されたコンピュータ使用可能コードと、匿名化の度合が使用シナリオと関係する要件を満たすかどうかを試験するために構成されたコンピュータ使用可能コードと、要件が満たされる場合、匿名化されたデータに対するアクセスを提供するために構成されたコンピュータ使用可能コードとを備える。
別の態様において、本発明は、データを匿名化するためのシステムに関し、システムは、ユーザと通信するように構成された通信構成要素と、通信構成要素に通信可能に結合された匿名化エンジンとを備え、匿名化エンジンは、データに対する要求を受信するための手段であって、要求が、取り出されるべきデータの少なくとも1つのフィールド記述子と、要求されるデータに関するユーザの使用シナリオとを備える、受信するための手段と、使用シナリオに基づいて、フィールド記述子によって参照されるデータに適用されるべき匿名化アルゴリズムを決定するための手段と、フィールド記述子によって参照されるデータに、決定された匿名化アルゴリズムを適用するための手段と、匿名化の度合が使用シナリオと関係する要件を満たすかどうかを試験するための手段と、要件が満たされる場合、匿名化されたデータに対するアクセスを提供するための手段とを備える。
例示的なコンピュータ処理システムを示す図である。 協働する構成要素のアーキテクチャを示す図である。 本明細書で説明される方法を示すフローチャートである。 匿名化されるべき表を例示する図である。 匿名化されるべき表の匿名化を例示する図である。
本発明の様々な実施形態の説明は、例示の目的で提示されてきたが、網羅的であることも、開示される実施形態に限定されることも意図していない。多くの変形形態および変更形態が、説明される実施形態の範囲および思想を逸脱することなく、当業者に明白となろう。本明細書において使用される術語は、実施形態の原理、実際的な応用、または市場において見られる技術に優る技術的向上を最もよく説明するように、あるいは本明細書において開示される実施形態を他の当業者が理解することを可能にするように、選択された。
後段で説明される本方法は、データ・プライバシ保護の目的で特定のデータ匿名化においてデータ匿名化を提供することが可能である。このことでは、関心対象のデータ・セット内の個人的に識別可能な情報が、単一の人物を識別することができる情報が省略される一方で、同時に、分析に役立つ情報が保持され得るように、変形されてよいという利益を有することが可能である。
方法は、データに対する要求を受信することであって、要求が、取り出されるべきデータの少なくとも1つのフィールド記述子と、要求されるデータに関するユーザの使用シナリオとを備える、受信することをさらに含んでよい。受信するステップは、アプリケーションから受信することを示すことが可能であり、アプリケーションが、ユーザに対するインターフェース、例えば、グラフィカル・ユーザ・インターフェースを備えていてよいことが当業者には理解されよう。本明細書において使用される「フィールド記述子」は、具体的には、取り出されるべきデータの列名を意味してよい。例えば、フィールド記述子は、「名前」または「疾病」であってよい。使用シナリオが、要求が発行される状況を指定してよい。例えば、使用シナリオは、例えば、医学研究評価などの、要求が発行された、「意図」としても表される、目的を含んでよい。さらに、使用シナリオは、例えば、データ・アナリストまたはエンド・ユーザなどの、ユーザの役割を含んでよい。データ・アナリストは、例えば、特定のティーチインによって機械学習を直接に支援する拡張された権利を有することが可能である。
データは、プライバシの様々な等級の要件を有してよいことに留意されたい。例えば、「名前」というデータベース列に関連付けられた名前が、人物を直接に識別することができ、それ故、「名前」という列は、「識別列」として表される一方で、例えば、「趣味」という列は、他の情報と一緒である限りで、人物が識別可能であり得るため、「準識別」であるに過ぎないことが可能である。最後に、「疾病」というデータ列などの情報は、「慎重な扱いを要する」として表されることが可能である。
方法は、使用シナリオに基づいて、フィールド記述子によって参照されるデータに適用されるべき匿名化アルゴリズムを決定することをさらに含んでよい。詳細には、複数の列によって指定されたデータが要求される事例において、識別列のデータ、および準識別列のデータが匿名化されなければならない。例えば、医学研究において、人物を識別することができる列は、完全に匿名化される一方で、準識別情報は、完全に匿名化されてよく、もしくは高い度合で少なくとも一般化されてよく、最後に、例えば、医学研究の事例における疾病などの、真に興味深い情報は、匿名化されない、もしくは軽度に一般化されることが望ましい。このことは、探索結果がユーザに提示されてよく、探索結果が、探索の意図に関して高い有用性のものとなるように調整される一方で、同時に、データ・プライバシに関する法律に従うという利点を有することが可能である。
方法は、要求されるデータに関する使用シナリオと、要求されるデータのフィールド記述子と関係する保護レベルとを関係付けることをさらに含んでよい。このことは、使用シナリオにより、異なるデータ列のフィールドが、プライバシに関する要件に依然として従いながら、異なる匿名化アルゴリズムを実行することによって匿名化されることが可能であるという利点を有することが可能である。
例えば、疾病が場所と互いに関連付けられるべき場合、名前、趣味、および性別が完全に抑制されることが可能である。他方、意図が、疾病と趣味の間の相互関係に向けられた質問を含む場合、疾病および趣味の列のデータだけを変えずに残して、住所列は、完全に圧縮されることが可能であり、または最大限、軽度に一般化されることが可能である。この脈絡において、「軽度に一般化される」とは、例えば、任意の種類のインフルエンザ、例えば、「アジアかぜ」または「ウイルス性胃腸炎」が、「インフルエンザ」と呼ばれること、および、例えば、任意の種類のがんが、「がん」とだけ表示されるように匿名化されることを意味する。より重度に一般化されると、「疾病」という列におけるすべてのデータ値は、例えば、「病気」または「病気でない」の2つの値のうちのいずれかだけであるように変形されることが可能である。
方法は、使用シナリオおよび保護レベルに基づいて、フィールド記述子のそれぞれに関する匿名化アルゴリズムを決定することをさらに含んでよい。このことは、データ・プライバシ法律に従いながら、分析のための役立つ、豊かなデータを最適に提供するという利点を有することが可能である。
方法は、フィールド記述子によって参照されるデータに、決定された匿名化アルゴリズムを適用することをさらに含んでよい。このことは、ユーザ、データ・サイエンティスト、またはエンド・ユーザが、ユーザ、データ・サイエンティスト、またはエンド・ユーザが見ることを許され、場合により、発表することを許されることが可能なデータだけを受信するという利点を有することが可能である。匿名化は、元のデータに適用されないが、好ましくは、データのコピーに適用されることが、当業者には理解されよう。それ故、元のデータは、要求されるデータ・フィールドのそれぞれに関して異なる匿名化アルゴリズムを要求する異なる意図の下における後の探索のために保持されてよい。
方法は、匿名化の度合が使用シナリオと関係する要件を満たすかどうかを試験することをさらに含んでよい。このことは、ユーザに提示される結果が、データ・プライバシ法律を常に遵守するという利点を有することが可能である。
方法は、要件が満たされる場合、匿名化されたデータに対するアクセスを提供することをさらに含んでよい。言い換えると、探索結果がデータ・プライバシ法律を遵守しない場合、探索結果は、ユーザに提示されない。ユーザは、ユーザの意図そのもの、ユーザの役割、および考慮される匿名化アルゴリズム、または選択された匿名化アルゴリズム、あるいはその両方を考慮に入れることを受けて、データ・プライバシ法律に従わず、それ故、示すことができない結果が得られる、という情報のみ獲得する。
実際の要件のために匿名化されなかった探索結果をもたらしたパラメータは、記憶されて、全体的なアルゴリズムの働きを向上させるべく機械学習のためのフィードバックとして使用されてよい。例えば、ユーザが次回に類似した探索要求を発行するとき、成功した戦略が高く格付けされた位置でユーザに提示され、示唆される一方で、データ・プライバシ法律のために提示されることが許容不可である探索結果をもたらした戦略は、示唆されない、または低く格付けされた位置でのみ示唆されるように、データ・プライバシ・ガバナンスを考慮して、例えば、意図、ユーザ役割、選択された匿名化アルゴリズムなどのパラメータが、フィードバックされることが可能である。
本明細書で意図される「データ・プライバシ法律」という術語は、データ・プライバシ法律とともに、任意のデータ・プライバシ・ガバナンスまたは任意のデータ・プライバシ・ポリシも表すものとする。
方法は、使用シナリオに基づいて、要求されるデータのフィールド記述子と関係する保護レベルを決定することをさらに含んでよい。例えば、医学的分析と関係する使用シナリオにおいて、「名前」というフィールド記述子もしくは列が、この列が識別データを担持するため、または識別列と呼ばれてよいため、可能な最高の保護レベルと関係する可能性がある一方で、「趣味」という列は、低い保護レベルと関係することが可能である。高い保護レベルまたは高いプライバシ・レベルは、データ・プライバシ・ガバナンス規則のセットにおいて指定されてよいことが、当業者には理解されよう。このことは、ユーザによって開始された対話プロセス中、保護レベル内で、データ・プライバシ法律に同時に従いながら、最適で、豊かな情報コンテンツを有する結果を最終的に受信するために、いくつかの匿名化アルゴリズムが柔軟に試験されることが可能であるという利点を有することが可能である。
一実施形態によれば、方法は、使用シナリオが、データを要求するユーザの意図と、ユーザの役割とを含むことを含んでよい。このことは、役立つデータ・コンテンツを有し、提示されることが法的に許されるデータだけを有する結果を柔軟に実現するために、探索または分析の状況のうちのいくつかが考慮に入れられてよいという点で利点を有することが可能である。
一実施形態によれば、方法は、少なくとも1つの保護レベルがフィールド記述子に関連付けられることを含んでよい。言い換えると、フィールド記述子は、複数の保護レベルに関連付けられてよい。それ故、匿名化アルゴリズムを関連付けるさらにより柔軟な様態が実現されることが可能である。
一実施形態によれば、方法は、適用されるべき匿名化アルゴリズムが使用シナリオおよび保護レベルに基づいて選択されることを含んでよい。
一実施形態によれば、方法は、匿名化アルゴリズムが、以下、すなわち、一般化、編集、抑制、サンプリング、ランダム化、データ・スワッピング、マスキング、列挙のうちの少なくとも1つであることを含んでよい。基本的に、匿名化アルゴリズムは、当技術分野において知られている。例えば、一般化は、例えば、ビジネス用語とデータ列名の関係を備えるカタログと人工知能プログラムの協働によって実現されてよいことを理解されたい。匿名化アルゴリズムのリストは、ユーザによって拡張されてよい。
一実施形態によれば、方法は、ユーザからフィードバックを受信することであって、フィードバックが、機械学習の支援を形成する、受信することを含んでよい。ユーザからのフィードバックは、例えば、「私は結果に満足しています」または「私は結果に満足していません」という意味を有する情報を含むことが可能である。結果がデータ・プライバシ法律に従って提示されているものの、ユーザが結果に満足していない事例において、学習アルゴリズムは、この評価を「データ・コンテンツ不十分」として記憶して、それほど制限的でない匿名化アルゴリズムを見出そうと試み、さらに、ユーザが次回に類似した意図を有する類似した要求を発行するとき、これらのそれほど制限的でない匿名化アルゴリズムを適用することが可能である。このことは、満足のいく探索結果が実現されるまでの方法の実行が、より短い時間で完了され得るという利点を有することが可能である。
一実施形態によれば、方法は、使用シナリオと関係する要件が、k-匿名性であることを含んでよい。データが使用シナリオにより提示される人物のうちのいずれを識別することも可能でないように探索結果が十分に匿名化されているかどうかを確認するための基準が必要であることが、当業者には理解されよう。このことは、データが、データ・プライバシ法律に従うために、匿名性に関する要件を満たすことが確実にされるという利点を有することが可能である。本明細書において使用される「k-匿名性」とは、個人を表す各記録に関して、情報がやはり表に出現して、データが区別できない少なくともさらなるk-1の個人が存在する場合、表がk-匿名化されていること、すなわち、ガバナンス規則が、個人を識別するのに使用されることが可能な列に関して1個人当たり少なくとも1つ重複を要求することを意味することが可能である。
一実施形態によれば、方法は、データが、ユーザに対するデータ表の利用可能性と、これらのデータ表が有するフィールド記述子とを含む情報アセット・メタデータと関係することを含んでよい。
一実施形態によれば、方法は、ユーザによって使用されるべきキーワードを形成するビジネス用語が提供されることを含んでよく、ビジネス用語と情報アセット・メタデータの間の関係を表す分類情報が提供される。
分類情報は、情報アセットとビジネス用語の間の関係を介して表されてよく、例えば、「医学調査研究1」という表が、「生年月日」というビジネス用語を用いて分類された「DOB」という列を有することが可能である。他の分類例は、「日付」という列が、「契約日」として分類されることが可能であること、または「リスク」という列が、「関与する関係者のリスク・エクスポージャ」として分類されることが可能であることである。基本的に、分類は、データの意味上の性質、すなわち、「ビジネス上の意味」を記述することができることが可能である。本開示を説明する目的で、情報アセットごとに厳密に1つの分類を有するものと考えられる。分類が行われないことが可能なシステム、または複数の分類が行われることが可能なシステム、またはその組合せが可能なシステムに方法を拡張することは、単純明快である。
一実施形態によれば、方法は、一般化アルゴリズムが実行されることを可能にするための一般化階層が設けられることを含んでよい。このことは、そうすることが、例えば、いずれの都市がいずれの郡に一般化され得るか、いずれの郡がいずれの州に一般化され得るか、いずれの州がいずれの国に一般化され得るかという類の情報、あるいは「アジアかぜ」が、「インフルエンザ」に一般化されることが可能であり、「インフルエンザ」が「感染症」に一般化されることが可能であるという情報へのアクセスを可能にし得るという点で利点を有することが可能である。
一実施形態によれば、方法は、データ・プライバシ・ガバナンス規則、および試験のための対応する試験アルゴリズムが、取り出されるべきデータ、およびユーザ・シナリオに基づいて、匿名化後の取り出されたデータが、匿名化の要求される度合に対応するまで、方法が実行されるように制御するために指定されることを含んでよい。試験の範囲は、匿名化の度合が、使用シナリオと関係する要件を満たすかどうかの判定に関連付けられてよいものと理解されたい。
例として、規則は、「ユーザが、役割Aを有し、かつ表が、慎重な扱いを要する個人的に識別可能な情報としてカタログにおいて目印が付けられた列を包含し、かつ表が、識別子または準識別子として目印が付けられた列も包含する場合、データは、k>=10でk-匿名化される必要がある」ことを指定することが可能である。データが10-匿名化されているかどうかを確認する対応するアルゴリズムは、単純明快であり、当業者に知られている。
一実施形態によれば、方法は、モデルが提供されることを含んでよく、モデルが、匿名化アルゴリズム、ユーザ・シナリオ、およびデータの分類の間の関係を指定する。
一実施形態によれば、方法は、モデルが機械学習によって構築されることを含んでよい。
そのようなモデルは、いずれの匿名化アルゴリズムが、分析意図とデータのタイプのいずれの組合せのために提案されてよいかを指定することができることが可能であり、例えば、データのタイプは、データの分類、すなわち、データのビジネス上の意味、または関連する意味規則を介して指定されてよい。モデルは、機械学習、例えば、監督された学習を介して構築されてよく、いずれの組合せがエンド・ユーザによって使用されたかについての知識に基づいて、継続的に改良される。当業者には認められるとおり、それぞれがその特性を有する、考慮される様々な代替が存在する。
一実施形態によれば、方法は、モデルが、モデルの使用中、機械学習によって適応させられ、または改良され、あるいはその両方をされることを含んでよい。利点は、さらなるユーザが、システムに教える、またはシステムに教えることを少なくとも支援する現在のユーザの数回の実行の後、データ・プライバシ法律に従う非常に迅速で、満足のいく応答を認識するということであってよい。
一実施形態において、この列挙リストは、システムのエンド・ユーザによって拡張されることが可能である。このことは、意図が、ユーザによって容易に指定されること、および方法によって容易に特定されることが可能であるという利点を有することが可能である。
一実施形態によれば、方法は、カタログが使用されることを含んでよく、カタログが、ビジネス用語と、情報アセット・メタデータと、分類情報と、一般化階層と、データ・プライバシ・ガバナンス規則および対応する試験アルゴリズムと、使用シナリオを指定する列挙とを備える。
一実施形態によれば、方法は、ユーザが、機械学習を使用して、方法によって実行される匿名化のプロセスを修正することが可能であるように、ユーザとの対話が受け付けられることを含んでよい。
一実施形態によれば、方法は、ユーザに、候補匿名化アルゴリズムを示唆することを含んでよい。このことは、特に、全体的なアルゴリズムが行き詰った状況にある状況において、反復がより対話的に、かつより柔軟に実行されることが可能であるという利点を有することが可能である。
一実施形態によれば、方法は、ユーザから、候補匿名化アルゴリズムについての確認を受信することを含んでよい。
一実施形態によれば、方法は、要求されるデータに対して、確認された匿名化アルゴリズムを適用することを含んでよい。候補匿名化アルゴリズムを対話的に示唆することと、選択されたときにそのアルゴリズムを適用することは、一緒にされて、データ・プライバシ法律に従う豊かなデータ・コンテンツを有する探索結果を得る反復的プロセスを加速させることが可能である。
或る態様によれば、データを匿名化するためのコンピュータ・プログラム製品が示唆される。
或る実施形態において、コンピュータ・プログラムは、コンピュータ使用可能コードを具現化しているコンピュータ可読記憶媒体を含んでよく、コンピュータ可読記憶媒体が、一過性の信号そのものではなく、コンピュータ使用可能プログラム・コードが、利点および説明が前段で既に与えられていて、後段で説明されるいくつかの構成要素を備える。
或る実施形態において、コンピュータ使用可能プログラム・コードは、例えば、アプリケーションから、データに対する要求を受信するために構成されたコンピュータ使用可能コードを含んでよく、要求が、取り出されるべきデータの少なくとも1つのフィールド記述子、例えば、列名と、要求されるデータに関するユーザの、意図を含んでよい使用シナリオとを備える。
或る実施形態において、コンピュータ使用可能プログラム・コードは、使用シナリオ、および、場合により、保護レベルに基づいて、フィールド記述子によって参照されるデータ、またはデータのそれぞれに適用されるべき匿名化アルゴリズムを決定するために構成されたコンピュータ使用可能コードを含んでよい。
或る実施形態において、コンピュータ使用可能プログラム・コードは、フィールド記述子によって参照されるデータに、決定された匿名化アルゴリズムを適用するために構成されたコンピュータ使用可能コードを含んでよく、匿名化は、元のデータには適用されず、データのコピーに適用されるに過ぎないものと理解されたい。
或る実施形態において、コンピュータ使用可能プログラム・コードは、匿名化の度合が使用シナリオと関係する要件を満たすかどうかを試験するために構成されたコンピュータ使用可能コードを含んでよい。
或る実施形態において、コンピュータ使用可能プログラム・コードは、要件が満たされる場合、匿名化されたデータに対するアクセスを提供するために構成されたコンピュータ使用可能コードを含んでよい。
或る態様によれば、データを匿名化するためのシステムが、示唆され、システムが、利点および説明が前段で既に与えられている、特徴を備える。
或る実施形態において、システムは、ユーザと通信するように構成された通信構成要素を含んでよい。
或る実施形態において、システムは、通信構成要素に通信可能に結合された匿名化エンジンを含んでよい。
或る実施形態において、システムは、データに対する要求を受信するための手段を含んでよく、要求が、取り出されるべきデータの少なくとも1つのフィールド記述子または列名と、要求されるデータに関するユーザの使用シナリオまたは意図とを備える。
手段は、コンピュータ使用可能プログラム・コードを担持する任意の構成要素であること、またはプロセッサに対するコンピュータ使用可能プログラム・コードであることさえ可能であることが当業者には理解されよう。
或る実施形態において、システムは、使用シナリオまたは保護レベル、あるいはその両方に基づいて、フィールド記述子によって参照されるデータ、またはデータのそれぞれに適用されるべき匿名化アルゴリズムを決定するための手段を含んでよい。
或る実施形態において、システムは、フィールド記述子によって参照されるデータに、決定された匿名化アルゴリズムを適用するための手段を含んでよく、例えば、匿名化は、元のデータに適用されないことが可能であるが、匿名化は、データのコピーに適用される。
或る実施形態において、システムは、匿名化の度合が使用シナリオと関係する要件を満たすかどうかを試験するための手段を含んでよい。
或る実施形態において、システムは、要件が満たされる場合、匿名化されたデータに対するアクセスを提供するための手段を含んでよい。
要約すると、本発明は、利用可能なデータに対して実行されることが可能な合法的な分析の範囲を拡張することを目指すことが可能である。本明細書において説明される方法、コンピュータ・プログラム製品、およびシステムは、ユーザの分析の意図、データの意味的分類、および既存のデータ・プライバシ・ガバナンス規則を考慮に入れるデータの匿名化を提案する。提案は、時とともに、例えば、機械学習を通じて改良されてよい。対話的提案変更を通じたユーザからの明示的なフィードバック、ならびに提案を受け入れることを通じた暗黙のフィードバックが、基礎をなす分析モデルを改良すべく考慮に入れられてよい。
言い換えると、1つの基本的な着想は、分析ユーザがユーザの分析の意図を指定することを可能にするシステムおよび方法を実施することである。分析ユーザがデータにアクセスするたびに毎回、「最低限の匿名化アドバイザ」が、このデータが匿名化される必要があるかどうかを確認し、その必要がある場合、アドバイザが、そのような分析の意図に関して、かつ類似したように分類されたデータに関して過去に役立つことが判明している匿名化を提案する。対話的プロセスにおいて、分析ユーザは、匿名化が、プライバシ・ガバナンス規則に違反することなしに分析の意図によりよく適合するように、匿名化に影響を与えること、および匿名化を調整することが可能である。このフィードバックは、時とともに提案を改良すべく使用される。システム、方法、およびコンピュータ・プログラム製品について、次のセクションにおいてより詳細に説明される。
本発明は、いくつかの利益を実現することを目指し、例えば、本発明の重要な利益は、とりわけ、提案される匿名化が、ユーザが実行することを所望する分析の必要性に適合する見込みが高いことである。提案は、時とともに改良される。このことは、匿名化専門家でないセルフ・サービス・ユーザにそのようなシステムを提供することを可能にする。専門家ユーザは、適合しない匿名化提案を、可能な場合、専門家ユーザの必要性に対話的に、うまく適合させることが可能である。専門家ユーザは、合法であることの限度内で、匿名化に対する完全なコントロールを有する。システムは、十分な匿名化を常に実施し、このことが、監査役に証明されることが可能である。
言い換えると、前段の開示は、利用可能なデータに対して実行されることが可能な合法的な分析の範囲を拡張することを目指す。示唆される方法は、ユーザの分析の意図、データの意味的分類、および既存のデータ・プライバシ・ガバナンス規則を考慮に入れることが可能なデータの匿名化を提案することを含む。提案は、時とともに機械学習を通じて改良されてよい。対話的提案変更を通じたユーザからの明示的なフィードバック、ならびに提案を受け入れることを通じた暗黙のフィードバックが、基礎をなす分析モデルを改良すべく考慮に入れられてよい。
本発明の態様について、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャートまたはブロック図、あるいはその両方を参照して本明細書において説明される。フローチャート、またはブロック図、あるいはその両方の各ブロック、ならびにフローチャート、またはブロック図、あるいは両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実装されることが可能であることが理解されよう。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されてマシンを作り出すものであってよい。コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令は、フローチャートまたはブロック図、あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作を実施するための手段を作り出す。また、これらのコンピュータ可読プログラム命令は、コンピュータ、プログラマブル・データ処理装置、または他のデバイス、あるいはその組合せに特定の様態で機能するように指示することができるコンピュータ可読記憶媒体に記憶されてよい。命令を記憶したコンピュータ可読記憶媒体は、フローチャートまたはブロック図、あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作の態様を実施する命令を含む製品を含む。
また、コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされて、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させ、コンピュータによって実行されるプロセスを作り出すものであってもよい。コンピュータ、他のプログラマブル装置、または他のデバイス上で実行される命令は、フローチャートまたはブロック図、あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作を実施する。
図におけるフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示す。これに関して、フローチャートまたはブロック図における各ブロックは、指定された論理機能を実施するための1つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の部分を表すことが可能である。一部の代替の実装形態において、ブロックに記載される機能は、図に記載される順序を外れて生じてよい。例えば、連続して示される2つのブロックが、実際には、実質的に同時に実行されてよく、またはそれらのブロックが、関与する機能に依存して、ときとして、逆の順序で実行されてよい。また、フローチャートまたはブロック図、あるいはその両方の各ブロック、ならびにフローチャートまたはブロック図、あるいはその両方におけるブロックの組合せは、指定された機能もしくは動作を実行する、または専用ハードウェア命令とコンピュータ命令の組合せを実行する専用ハードウェア・ベースのシステムによって実装されることが可能であることにも留意されたい。
本発明の方法を実施するように適応させられた例示的なコンピュータ処理システムを例示するブロック図が、図1に示される。全体的に1として参照されるコンピュータ・システムが、デジタル・シグナル・プロセッサ(DSP)、中央処理装置(CPU)、マイクロコントローラ、マイクロプロセッサ、マイクロコンピュータ、ASIC、またはFPGAコアを含んでよいプロセッサ2を含む。また、システムは、スタティック読取り専用メモリ7と、ダイナミック・メイン・メモリ6とを含みもし、フラッシュ・メモリ5を含んでもよい。プロセッサ2は、バス3を介して、それらのメモリ・デバイスのいずれとも通信状態にあるとともに、ディスプレイ・デバイス10、キーボード9、例えば、マウスなどのポインティング・デバイス8、またはタブレットなどの周辺デバイスとも通信状態にある。
コンピュータ・システムは、1つまたは複数のデータI/O通信インターフェース11、例えば、ネットワーク・インターフェース11を介してシステムに接続された通信線を介してLANまたはWANまたはSAN12などの1つまたは複数の外部ネットワークに接続される。システムに結合されたネットワーク・アダプタ11は、データ処理システムが、介在するパブリック・ネットワークまたはプライベート・ネットワークを通じて他のデータ処理システムまたは遠隔プリンタもしくは遠隔ストレージ・デバイスに結合されるようになることを可能にする。モデム、ケーブル・モデム、およびイーサネット(R)・カードは、現在、利用可能なタイプのネットワーク・アダプタのいくつかに過ぎない。また、システムは、アプリケーション・プログラムおよびデータを記憶するための磁気ベースまたは半導体ベースのデータ・ストレージまたはストレージ・デバイス4、または13、あるいはその両方も含む。システムは、磁気ストレージ、光ストレージ、半導体揮発性メモリもしくは半導体不揮発性メモリ、または他の任意のメモリ・ストレージ・デバイスを含むが、以上には限定されない任意の適切なメモリ手段を含んでよいコンピュータ可読記憶媒体を含む。
例示的な実施形態において、ユーザが、本発明の方法を実行するコンピュータ・システムと通信するのに使用するコンピュータ・システムは、前述したクライアント・コンピュータ・システムである。別の例示的な実施例において、本発明の方法を実行するコンピュータ・システムは、基本的に同等に構造化されるが、詳細において、後段に例示されるとおりに構造化されることが想定される。
以下の図において、システム・アーキテクチャについて説明される。このシステム・アーキテクチャを背景として使用して、図4および図5からの例示的な表、ならびに後段でリストアップされるカタログに関する例示的なコンテンツを使用して、図3に示されるとおりの方法を実行して、データ・サイエンティストが、データ・サイエンティストが実行することを所望する種類の分析のために適切な匿名化を見出すのを助ける方法が、以下に開示される。
図2は、本明細書において説明される方法を実施するのに使用されてよい協働する構成要素のアーキテクチャ100の図である。参照符号101が、匿名化アドバイザ103を備えたデータ・サイエンティスト・アプリケーションを示す。匿名化アドバイザは、匿名化提案の対話的適応を実行して、127を介して、匿名化マネージャ123と通信するように構成される。
データ・サイエンティスト・アプリケーションを動作させているユーザは、例えば、ユーザ・インターフェースを介して、105を介してコネクタ108に向かうデータの要求が発行されることをもたらしてよい。後段で説明されるステップのすべてが終わると、コネクタ109は、匿名化されたデータを戻して(107)よい。コネクタ109は、111を介して、匿名化されていないデータ・セットを有するデータ・レイク113からの匿名化されていないデータを要求してよい。データ・レイク113は、114a、...、114nを介して、匿名化されていないデータベース115a、...、115nに結合されることが可能であると考えられる。
コネクタは、匿名化の必要性を確認するために匿名化マネージャと通信状態(121)にあってよい。117を介するコネクタ109と、125を介する匿名化マネージャ123の両方が、匿名化サービス119を使用してよい。匿名化サービス119は、115を介して、カタログ143から、匿名化を適用するために妥当なメタデータを取り出してよい。
カタログ143は、分類メタデータ145、分析の意図149、一般化階層147、プライバシ規則151、および関連付けられたプライバシ規則試験153のデータ・コレクションを含んでよい。データ・コレクションは、記憶され、リスト、表として編成されてよいこと、およびそこに記憶されたデータは、日付、文字列、文字型、関数に対するポインタ、その他を含んでよいことが当業者には認識される。
匿名化マネージャ123は、匿名化モデル139を備えていてよく、匿名化マネージャの中核の作業を支援する、または制御する。
匿名化マネージャ123は、匿名化使用についての情報を収集するために匿名化知識ベース131とさらに通信状態(129)にあってよい。匿名化ベース131は、モデル訓練構成要素135と通信状態(133)にあってよく、匿名化モデルを作成するように、または修正するように(137)構成されてよい。
図3は、いくつかの実施形態を説明する本明細書に記載される方法200のフローチャートを示す。方法200は、最初、201において開始する。図示されないユーザが、ユーザ・インターフェースを介して通信してよく、データ・サイエンティスト・アプリケーション203を使用してよい。線205を介して、アプリケーションが、207においてセッションを開始してよい。この図において、入力-出力動作は、通常、記号207と形状が合致する記号を介して明示され、入力-出力は、いくらかの理解しやすさを保つために破線として示される。
言い換えると、方法は、205を介して、207において、データに対する要求を受信してよい。データに対する要求は、取り出されるべきデータの少なくとも1つのフィールド記述子または列名と、要求されるデータに関するユーザの使用シナリオまたは意図とを含んでよい。
209において、匿名化アルゴリズムが、使用シナリオに基づいて決定されてよく、匿名化アルゴリズムは、フィールド記述子によって参照されるデータに適用されるべきである。実施形態において、複数のデータ列を要求することが想定されてよい。211において、ユーザは、213を介して、要求される列がさらに存在する場合、決定された1つまたは複数の匿名化アルゴリズムを受け入れるかどうかについて促されてよい。ユーザによって、215を介して返答が行われると、方法は、217に進んでよい。
217において、データ・レイク221から、別の図において、コンピュータ・システム1として示されるシステム100のメモリに向けて、例えば、RAM6もしくはデータ・ストレージ4に向けて、要求されるデータをコピーすることとして実施されることが可能な、方法に向けての匿名化されていないデータの配信のために、交換219を介してデータ・レイク221に接触が行われることが可能である。
方法は、223において続き、211、213、215において合意されていることが可能な匿名化アルゴリズムを適応してよい。詳細には、決定された匿名化アルゴリズムが、フィールド記述子によって参照されるデータに適用されてよいものと考えられる。その後、225において、匿名化の度合が使用シナリオと関係する要件を満たすかどうかについて試験されてよい。要件は、匿名性の度合に関する要件として理解されるべきであることが当業者には理解されよう。
判定キャレット227において、要求される匿名性が達せられる、または満たされる、すなわち、データ・プライバシ法律に従うことが行われる事例において、方法は、229を介して239において続いてよい。入出力モジュール239が、匿名化モデル139の機械学習が支援され得るように、要求される匿名性の達成について匿名化知識ベース131および237に知らせてよい。
要求される匿名性が達せられない事例において、方法は、231を介して、入出力モジュール233に向かって続いてよく、機械学習が支援されるように、235を介して、この状況について匿名化知識ベース237に知らせる。この事例において、匿名性要件は満たされないので、方法は、209において再開し、異なる匿名化戦略を用いるためにユーザに知らせる。
要求される匿名性等級が達せられたとき、方法は、245において続くことが可能であり、247を介してユーザに結果を提示して、そのデータが、ユーザがユーザの作業を続けるのに十分であるかどうか問う。
この事例において、データが十分であるかどうかについて、このことが、249を介して、入出力モジュール245に向けて送信される。
判定キャレット250において、方法の分岐が、評価に関してデータが十分であったかどうか、またはあまりにも高い度合で匿名化されすぎているかどうかに依存して、制御されてよい。
データが十分であると見なされる場合、方法は、253において続いてよく、255を介して、匿名化知識ベース237に向けてのさらなる学習フィードバックとしてこのフィードバックを使用する。次に、方法の実行は、259で終わってよい。
この事例において、データは、十分ではないと見なされ、方法は、251において続いてよく、257を介して、匿名化知識ベース237に向けてのさらなる学習フィードバックとしてこのフィードバックを使用する。次に、方法の実行は、209において続いてよい。
学習フィードバックが、ユーザの役割に依存するようにされてよい可能性が、当業者にはよく認識される。例えば、経験豊かなデータ・サイエンティストが要求を発行する事例において、フィードバック学習が、オンに切り換えられること、またはより高い重みを受け取ることが可能である一方で、経験の浅いユーザが要求を発行する事例において、フィードバック学習が、オフに切り換えられること、またはより低い学習重みを受け取ることが可能である。
図4は、匿名化されるべき表を例示する。「名前」という列は、カタログの分類部分によって、ビジネス用語において「フルネーム」301であるように分類されてよい。「フルネーム」というビジネス用語301は、人物を識別することができる識別子315として使用されてよい。
「日付」という列は、カタログの分類部分によって、ビジネス用語において「生年月日」305であるように分類されてよい。「生年月日」というビジネス用語305は、識別子の役割をすることができないが、その人物に関連する他のデータと組み合わされたとき、準識別子317として使用されることが可能である。
「性別」という列が、やはり準識別子319に過ぎないことが可能である、「性」307というビジネス用語に関連付けられるように分類されてよい。「国籍」という列が、「国籍」というビジネス用語309に関連付けられて、準識別子321であってよい。「住所」という列が、やはり準識別子323に過ぎないことが可能である、郵便番号というビジネス用語311に関連付けられてよく、「疾病」という列が、慎重な扱いを要するデータであるように分類されてよい、「疾病」というビジネス用語313に関連付けられるように分類されてよい。
このため、ビジネス用語の概念を介して、単なるデータ列名またはデータ・ヘッダに、システムのさらなる構成要素において適切に処理されることが可能な意味が与えられる。
図5は、匿名化されることになった図4の表の匿名化を例示する。
理解され得るとおり、「名前」という列は、完全に省かれている。「生年月日」という意味を有する「日付」という列は、期間関連の情報だけをもたらすように修正されている。「国籍」という列は、列挙される値に変換されている。住所は、郵便番号が属する都市の名前を含むように集約され、または一般化され、疾病もまた、一般化されている。
その結果、いずれの人物も一意に識別することが可能でない。
或る実施形態において、前述した方法は、以下のとおり説明されてよい。
カタログは、以下の情報を含むことが可能であるものと想定されてよい。
「フルネーム」が識別子であり、「疾病」が慎重な扱いを要するデータであり、以上にリストアップされるその他の用語が準識別子であるという定義を含む、「フルネーム」、「生年月日」、「性」、「国籍」、「郵便番号」、「疾病」などのビジネス用語に関する定義。
カタログは、研究_結果という表についてのメタデータを、この表における列についての技術的メタデータを含め、記憶してよい。
カタログは、分類情報、特に、名前という列が「フルネーム」値を包含すること、日付という列が「生年月日」であること、性別という列が「性」であること、国籍という列が「国籍」であること、住所という列が「郵便番号」であること、および疾病という列が「疾病」であるという分類情報を記憶してよい。そのような情報は、通常、表がカタログに登録される時点でキュレータによって指定されてよい。
カタログは、A型肝炎およびB型肝炎が肝炎に一般化されることが可能であり、アジアかぜおよびソ連かぜがインフルエンザに一般化されることが可能であるという情報を記憶してよい。また、カタログは、72070、72072、72074が都市、チュービンゲンの郵便番号であり、70173および70176が、都市、シュトゥットガルトの郵便番号であることを知っていることも可能である。また、カタログは、具体的な「生年月日」が、それを年に縮減することによって一般化され、年の期間を構築することによってさらに一般化されることが可能であることを知っていることも可能である。
カタログは、この表が少なくとも2-匿名化される場合、データ・サイエンティストが、慎重な扱いを要する情報を有する表からデータだけを見ることができることを指定する「慎重な扱いを要するデータに関する2-匿名性」というプライバシ・ガバナンス規則を有してよい。表は、個人を表す各記録に関して、情報がやはり表に出現して、データが区別できない少なくともさらなるk-1の個人が存在する場合、k-匿名化されている、すなわち、ガバナンス規則が、個人を識別するのに使用されることが可能な列に関して1個人当たり少なくとも1つ重複を要求する。
さらに、カタログは、この事例において異なるすべての「分析の意図」値、{「医学研究評価」、「顧客離れ分析」、「詐欺検出」}を知ることが可能である。
さらに、システムは、「匿名化サービス」の以下のリスト、すなわち、一般化、編集、シーケンシャル_ファンクション_による_マスキングをサポートしてよいこと、および分析の意図が「医学研究評価」である事例において、「フルネーム」として分類されたデータに関して「編集」を、「生年月日」、「住所」、「郵便番号」、および「疾病」に関して一般化を、「国籍」に関して「シーケンシャル・ファンクションによるマスキング」を使用するように提案する推奨モデルにつながるデータでシステムが訓練されていることが想定されてよい。
これらは、データ・サイエンティストが、「医学研究評価」を実行すべくデータ・レイクからのデータを要求したときに実行されるステップである。この例示的な事例において、データ・サイエンティストは、研究_結果という表に関してデータを要求することが可能である。

Claims (18)

  1. データ匿名化のためのコンピュータによって実施される方法であって、
    データに対する要求を受信することであって、前記要求が、取り出されるべきデータの少なくとも1つのフィールド記述子と、前記要求されるデータに関するユーザの使用シナリオとを備え、前記使用シナリオが、前記データを要求する前記ユーザの意図を備える、前記受信すること、
    匿名化アルゴリズム、使用シナリオ、および前記データの分類の間の関係を指定し、機械学習によって構築されるモデルが提供されること、
    前記使用シナリオに基づいて、前記フィールド記述子によって参照される前記データに適用されるべき匿名化アルゴリズムであって、前記モデルが指定でき、前記意図と前記分類の組合せのために提案されてよい匿名化アルゴリズムを決定すること、
    前記フィールド記述子によって参照される前記データに、前記決定された匿名化アルゴリズムを適用すること、
    匿名化の度合が前記使用シナリオと関係する要件を満たすかどうかを試験すること、
    前記要件が満たされるという判定に基づいて、前記匿名化されたデータに対するアクセスを提供すること
    を備える方法。
  2. 前記使用シナリオは、前記ユーザの役割をさらに備える、請求項1に記載の方法。
  3. 少なくとも1つの保護レベルが、前記フィールド記述子に関連付けられる、請求項1または2に記載の方法。
  4. 適用されるべき前記匿名化アルゴリズムが、前記使用シナリオおよび前記保護レベルに基づいて選択される、請求項3に記載の方法。
  5. 前記匿名化アルゴリズムが、次の、一般化、編集、抑制、サンプリング、ランダム化、データ・スワッピング、マスキング、列挙のうちの少なくとも1つである、請求項1から4のいずれかに記載の方法。
  6. ユーザからフィードバックを受信することであって、前記フィードバックが、機械学習の支援を形成する、前記受信することを備える請求項1から5のいずれかに記載の方法。
  7. 前記使用シナリオと関係する前記要件が、k-匿名性である、請求項1から6のいずれかに記載の方法。
  8. 前記データが、前記ユーザに対するデータ表の利用可能性と、これらのデータ表が有する前記フィールド記述子とを備える情報アセット・メタデータと関係する、請求項1から7のいずれかに記載の方法。
  9. 前記ユーザによって使用されるべきキーワードを形成するビジネス用語が提供され、ビジネス用語と情報アセット・メタデータの間の関係を表す分類情報が提供される、請求項1から8のいずれかに記載の方法。
  10. 一般化アルゴリズムが実行されることを可能にするための一般化階層が提供される、請求項1から9のいずれかに記載の方法。
  11. データ・プライバシ・ガバナンス規則、および試験のための対応する試験アルゴリズムが、取り出されるべき前記データ、および前記使用シナリオに基づいて、匿名化後の前記取り出されたデータが、匿名化の前記度合に対応するまで、方法が実行されるように制御するために指定される、請求項1から10のいずれかに記載の方法。
  12. 前記モデルが、前記モデルの使用中に機械学習によって適応させられる、請求項1から11のいずれかに記載の方法。
  13. 前記使用シナリオの指定のための列挙が、提供される、請求項1から12のいずれかに記載の方法。
  14. 前記列挙が、医学研究評価、顧客離れ分析、および詐欺検出のうちの少なくとも1つを指定することが可能である、請求項13に記載の方法。
  15. ビジネス用語と、情報アセット・メタデータと、分類情報と、一般化階層と、データ・プライバシ・ガバナンス規則および対応する試験アルゴリズムと、前記使用シナリオを指定する列挙とを備えるカタログを備える、請求項1から14のいずれかに記載の方法。
  16. 前記ユーザが、機械学習を使用して、匿名化の方法を修正することが可能であるように前記ユーザとの対話が受け付けられる、請求項1から15のいずれかに記載の方法。
  17. データを匿名化するためのコンピュータ・プログラムであって、
    コンピュータに、
    データに対する要求を受信することであって、前記要求が、取り出されるべきデータの少なくとも1つのフィールド記述子と、前記要求されるデータに関するユーザの使用シナリオとを備え、前記使用シナリオが、前記データを要求する前記ユーザの意図を備える、前記受信すること、
    匿名化アルゴリズム、使用シナリオ、および前記データの分類の間の関係を指定し、機械学習によって構築されるモデルが提供されること、
    前記使用シナリオに基づいて、前記フィールド記述子によって参照される前記データに適用されるべき匿名化アルゴリズムであって、前記モデルが指定でき、前記意図と前記分類の組合せのために提案されてよい匿名化アルゴリズムを決定すること、
    前記フィールド記述子によって参照される前記データに、前記決定された匿名化アルゴリズムを適用すること、
    匿名化の度合が前記使用シナリオと関係する要件を満たすかどうかを試験するためこと、
    前記要件が満たされるという判定に基づいて、前記匿名化されたデータに対するアクセスを提供すること、
    を実行させる、コンピュータ・プログラム。
  18. データを匿名化するためのシステムであって、
    ユーザと通信するように構成された通信構成要素と、
    前記通信構成要素に通信可能に結合された匿名化エンジンとを備え、
    前記匿名化エンジンは、
    データに対する要求を受信するための手段であって、前記要求が、取り出されるべきデータの少なくとも1つのフィールド記述子と、前記要求されるデータに関するユーザの使用シナリオとを備え、前記使用シナリオが、前記データを要求する前記ユーザの意図を備える、前記受信するための手段と、
    匿名化アルゴリズム、使用シナリオ、および前記データの分類の間の関係を指定し、機械学習によって構築されるモデルが提供されること、
    前記使用シナリオに基づいて、前記フィールド記述子によって参照される前記データに適用されるべき匿名化アルゴリズムであって、前記モデルが指定でき、前記意図と前記分類の組合せのために提案されてよい匿名化アルゴリズムを決定するための手段と、
    前記フィールド記述子によって参照される前記データに、前記決定された匿名化アルゴリズムを適用するための手段と、
    匿名化の度合が前記使用シナリオと関係する要件を満たすかどうかを試験するための手段と、
    前記要件が満たされるという判定に基づいて、前記匿名化されたデータに対するアクセスを提供するための手段と
    を備える、システム。
JP2020524737A 2017-11-17 2018-10-23 データ匿名化のためのコンピュータ実施方法、コンピュータ・プログラム製品、およびシステム Active JP7121460B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/815,743 2017-11-17
US15/815,743 US10740488B2 (en) 2017-11-17 2017-11-17 Cognitive data anonymization
PCT/IB2018/058229 WO2019097327A1 (en) 2017-11-17 2018-10-23 Cognitive data anonymization

Publications (2)

Publication Number Publication Date
JP2021503648A JP2021503648A (ja) 2021-02-12
JP7121460B2 true JP7121460B2 (ja) 2022-08-18

Family

ID=66533131

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020524737A Active JP7121460B2 (ja) 2017-11-17 2018-10-23 データ匿名化のためのコンピュータ実施方法、コンピュータ・プログラム製品、およびシステム

Country Status (6)

Country Link
US (2) US10740488B2 (ja)
JP (1) JP7121460B2 (ja)
CN (1) CN111316273B (ja)
DE (1) DE112018004946B4 (ja)
GB (1) GB2582506B (ja)
WO (1) WO2019097327A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562143B2 (en) 2017-06-30 2023-01-24 Accenture Global Solutions Limited Artificial intelligence (AI) based document processor
US11003796B2 (en) * 2017-06-30 2021-05-11 Accenture Global Solutions Limited Artificial intelligence based document processor
US10521608B2 (en) * 2018-01-09 2019-12-31 Accenture Global Solutions Limited Automated secure identification of personal information
US11074238B2 (en) * 2018-05-14 2021-07-27 Sap Se Real-time anonymization
JP7121276B2 (ja) * 2018-09-19 2022-08-18 富士通株式会社 データ管理レベル判定プログラム、およびデータ管理レベル判定方法
US11270025B2 (en) 2019-07-16 2022-03-08 Liveramp, Inc. Anonymized global opt-out
US20210057060A1 (en) * 2019-08-09 2021-02-25 Universal Research Solutions, Llc Systems and methods for using databases, data structures, and data protocols to execute a transaction in a data marketplace
EP3817002A1 (en) 2019-10-30 2021-05-05 Gotthardt Healthgroup AG System for anonymizing patient data
CN114586033A (zh) * 2019-10-31 2022-06-03 美国西门子医学诊断股份有限公司 用于在自动化诊断分析系统中对患者进行表征期间保护患者信息的方法和装置
US11960623B2 (en) * 2020-03-27 2024-04-16 EMC IP Holding Company LLC Intelligent and reversible data masking of computing environment information shared with external systems
JP7445135B2 (ja) 2020-08-27 2024-03-07 富士通株式会社 通信プログラム、通信装置、通信方法、及び通信システム
JP7510822B2 (ja) * 2020-09-01 2024-07-04 キヤノンメディカルシステムズ株式会社 医用画像ファイル処理装置及び医用画像ファイル処理方法
US20220084124A1 (en) * 2020-09-15 2022-03-17 Jpmorgan Chase Bank, N.A. Systems and methods for anonymously tracking and comparing portfolios across the similar investment profiles
US20220100899A1 (en) * 2020-09-25 2022-03-31 International Business Machines Corporation Protecting sensitive data in documents
US11630853B2 (en) * 2021-01-29 2023-04-18 Snowflake Inc. Metadata classification
JP2022121227A (ja) * 2021-02-08 2022-08-19 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US12038833B2 (en) * 2021-11-23 2024-07-16 The Toronto-Dominion Bank Test and validation of privacy protection quality of anonymization solutions
JP7453707B2 (ja) 2022-07-27 2024-03-21 Aicro株式会社 個人情報匿名化システム
JP7250390B1 (ja) 2022-09-27 2023-04-03 Eaglys株式会社 データ共有システム、データ共有方法、およびデータ共有プログラム
WO2024112234A1 (en) * 2022-11-23 2024-05-30 Telefonaktiebolaget Lm Ericsson (Publ) Supporting anonymization of a data set

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011145401A1 (ja) 2010-05-19 2011-11-24 株式会社日立製作所 個人情報匿名化装置
JP2013080375A (ja) 2011-10-04 2013-05-02 Hitachi Ltd 個人情報匿名化装置及び方法
US20150186674A1 (en) 2014-01-02 2015-07-02 Alcatel-Lucent Role-based Anonymization
JP2016002086A (ja) 2014-06-13 2016-01-12 パナソニックIpマネジメント株式会社 自動製パン器
JP2016031567A (ja) 2014-07-28 2016-03-07 株式会社日立ソリューションズ パーソナル情報匿名化装置
JP2016139261A (ja) 2015-01-27 2016-08-04 株式会社エヌ・ティ・ティ ピー・シー コミュニケーションズ 匿名化処理装置、匿名化処理方法及びプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US233129A (en) * 1880-10-12 Stock-car
US5881225A (en) * 1997-04-14 1999-03-09 Araxsys, Inc. Security monitor for controlling functional access to a computer system
WO2000051365A2 (en) 1999-02-26 2000-08-31 Telefonaktiebolaget Lm Ericsson (Publ) Geographical information for location-based services
AU2002254564A1 (en) 2001-04-10 2002-10-28 Latanya Sweeney Systems and methods for deidentifying entries in a data source
IL197579A0 (en) 2009-03-12 2009-12-24 Univ Ben Gurion Efficient multi-dimensional suppression for k-anonymity
US8463752B2 (en) 2011-03-07 2013-06-11 Sap Ag Rule-based anonymizer for business data
US8930381B2 (en) 2011-04-07 2015-01-06 Infosys Limited Methods and systems for runtime data anonymization
US20130111545A1 (en) 2011-11-02 2013-05-02 Alcatel-Lucent Usa Inc. Privacy Management for Subscriber Data
US9782075B2 (en) 2013-03-15 2017-10-10 I2Dx, Inc. Electronic delivery of information in personalized medicine
CN104080081B (zh) 2014-06-16 2018-01-05 北京大学 一种适用于移动端位置隐私保护的空间匿名化方法
JP6263620B2 (ja) * 2014-07-04 2018-01-17 株式会社日立製作所 匿名化データ提供装置及び方法
US8978153B1 (en) * 2014-08-01 2015-03-10 Datalogix, Inc. Apparatus and method for data matching and anonymization
US9703984B2 (en) 2014-10-06 2017-07-11 Mari Llc One way and two way data flow systems and methods
US9842215B2 (en) 2015-11-03 2017-12-12 Palo Alto Research Center Incorporated Computer-implemented system and method for anonymizing encrypted data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011145401A1 (ja) 2010-05-19 2011-11-24 株式会社日立製作所 個人情報匿名化装置
JP2013080375A (ja) 2011-10-04 2013-05-02 Hitachi Ltd 個人情報匿名化装置及び方法
US20150186674A1 (en) 2014-01-02 2015-07-02 Alcatel-Lucent Role-based Anonymization
JP2016002086A (ja) 2014-06-13 2016-01-12 パナソニックIpマネジメント株式会社 自動製パン器
JP2016031567A (ja) 2014-07-28 2016-03-07 株式会社日立ソリューションズ パーソナル情報匿名化装置
JP2016139261A (ja) 2015-01-27 2016-08-04 株式会社エヌ・ティ・ティ ピー・シー コミュニケーションズ 匿名化処理装置、匿名化処理方法及びプログラム

Also Published As

Publication number Publication date
US10740488B2 (en) 2020-08-11
JP2021503648A (ja) 2021-02-12
CN111316273A (zh) 2020-06-19
DE112018004946B4 (de) 2022-06-15
DE112018004946T5 (de) 2020-07-23
GB2582506A (en) 2020-09-23
US20190156060A1 (en) 2019-05-23
CN111316273B (zh) 2024-01-26
GB202008689D0 (en) 2020-07-22
US10719627B2 (en) 2020-07-21
US20190251290A1 (en) 2019-08-15
WO2019097327A1 (en) 2019-05-23
GB2582506B (en) 2022-09-28

Similar Documents

Publication Publication Date Title
JP7121460B2 (ja) データ匿名化のためのコンピュータ実施方法、コンピュータ・プログラム製品、およびシステム
Hu et al. New doctors ranking system based on VIKOR method
US11853329B2 (en) Metadata classification
US11847113B2 (en) Method and system for supporting inductive reasoning queries over multi-modal data from relational databases
Kim et al. Provenance trails in the wings/pegasus system
US20160283473A1 (en) Method and Computer Program Product for Implementing an Identity Control System
US11347891B2 (en) Detecting and obfuscating sensitive data in unstructured text
JP6073802B2 (ja) 消費者のプライバシープリファレンスに基づくアクセスコントロールポリシーの創出
JP2023542632A (ja) 文書内の機密データの保護
JP2010505205A5 (ja)
US12086287B2 (en) Horizontally-scalable data de-identification
Dharmawan et al. Book recommendation using Neo4j graph database in BibTeX book metadata
US20170277904A1 (en) System, method, and recording medium for preventing back propogation of data protection
Maté et al. Improving security in NoSQL document databases through model-driven modernization
Asprino et al. A large visual question answering dataset for cultural heritage
WO2021028776A1 (en) Query relaxation using external domain knowledge for query answering
Blohm et al. Towards a Privacy Compliant Cloud Architecture for Natural Language Processing Platforms.
Stoilos et al. Enabling data integration using mipmap
Vosough Tehrani Integration of Differential Privacy Mechanism to Map-Reduce Platform for Preserving Privacy in Cloud Environments
Tehrani Integration of Differential Privacy Mechanism to Map-Reduce Platform for Preserving Privacy in Cloud Environments
Bhattacharyya et al. SNOMED CT Expressions
Huang et al. CafeLLM: Context-Aware Fine-Grained Semantic Clustering Using Large Language Models
Zhurong et al. Context Search Based on Inconsistent Ontology Reasoning
Deneke et al. State Driven Semantic Modeling of Operators in ETL Workflow
Liu et al. Address and Participant Entity-Resolution in a Large, Cohort Observational Study Utilizing an Open-source Entity Resolution Tool (OYSTER)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211228

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20220126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220328

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220502

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220726

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20220726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220803

R150 Certificate of patent or registration of utility model

Ref document number: 7121460

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150