JP7288903B2 - データ匿名化のためコンピュータが実行する方法、システム、コンピュータ・プログラム、コンピュータ・プログラム、および記憶媒体 - Google Patents
データ匿名化のためコンピュータが実行する方法、システム、コンピュータ・プログラム、コンピュータ・プログラム、および記憶媒体 Download PDFInfo
- Publication number
- JP7288903B2 JP7288903B2 JP2020528039A JP2020528039A JP7288903B2 JP 7288903 B2 JP7288903 B2 JP 7288903B2 JP 2020528039 A JP2020528039 A JP 2020528039A JP 2020528039 A JP2020528039 A JP 2020528039A JP 7288903 B2 JP7288903 B2 JP 7288903B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- representation
- values
- quasi
- identifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0407—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the identity of one or more communicating identities is hidden
- H04L63/0421—Anonymous communication, i.e. the party's identifiers are hidden from the other party or parties, e.g. using an anonymizer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
オンデマンドのセルフ・サービス:クラウドの利用者は、サーバの時間、ネットワーク・ストレージなどの計算能力を一方的に、サービス・プロバイダとの人間的なやりとりを必要とせず、必要に応じて自動的にプロビジョニングすることができる。
幅広いネットワーク・アクセス:クラウドの能力は、ネットワークを経由して利用可能であり、標準的なメカニズムを使用してアクセスできるため、異種のシン・クライアントまたはシック・クライアント・プラットフォーム(例えば、携帯電話、ラップトップ、およびPDA)による利用を促進する。
リソース・プール:プロバイダの計算リソースは、プールされ、マルチテナント・モデルを使用して複数の利用者に提供される。さまざまな物理的および仮想的リソースが、要求に従って動的に割り当ておよび再割り当てされる。場所に依存しないという感覚があり、利用者は通常、提供されるリソースの正確な場所に関して管理することも知ることもないが、さらに高い抽象レベルでは、場所(例えば、国、州、またはデータセンター)を指定できる場合がある。
迅速な順応性:クラウドの能力は、迅速かつ柔軟に、場合によっては自動的にプロビジョニングされ、素早くスケールアウトし、迅速に解放されて素早くスケールインすることができる。プロビジョニングに使用できる能力は、利用者には、多くの場合、任意の量をいつでも無制限に購入できるように見える。
測定されるサービス:クラウド・システムは、計測機能を活用することによって、サービスの種類(例えば、ストレージ、処理、帯域幅、およびアクティブなユーザのアカウント)に適した抽象レベルで、リソースの使用を自動的に制御および最適化する。リソースの使用量は監視、制御、および報告することができ、利用されるサービスのプロバイダと利用者の両方に透明性が提供される。
SaaS(Software as a Service):利用者に提供される能力は、クラウド・インフラストラクチャ上で稼働しているプロバイダのアプリケーションの利用である。それらのアプリケーションは、Webブラウザ(例えば、Webベースの電子メール)などのシン・クライアント・インターフェイスを介して、さまざまなクライアント・デバイスからアクセスできる。利用者は、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション機能を含む基盤になるクラウド・インフラストラクチャを、限定的なユーザ固有のアプリケーション構成設定を行う可能性を除き、管理することも制御することもない。
PaaS(Platform as a Service):利用者に提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、利用者が作成または取得したアプリケーションをクラウド・インフラストラクチャにデプロイすることである。利用者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基盤になるクラウド・インフラストラクチャを管理することも制御することもないが、デプロイされたアプリケーション、および場合によってはアプリケーション・ホスティング環境の構成を制御することができる。
IaaS(Infrastructure as a Service):利用者に提供される能力は、処理、ストレージ、ネットワーク、およびその他の基本的な計算リソースのプロビジョニングであり、利用者は、オペレーティング・システムおよびアプリケーションを含むことができる任意のソフトウェアをデプロイして実行できる。利用者は、基盤になるクラウド・インフラストラクチャを管理することも制御することもないが、オペレーティング・システム、ストレージ、およびデプロイされたアプリケーションを制御することができ、場合によっては、選択されたネットワーク・コンポーネント(例えば、ホスト・ファイアウォール)を限定的に制御できる。
プライベート・クラウド:このクラウド・インフラストラクチャは、ある組織のためにのみ運用される。この組織またはサード・パーティによって管理することができ、オンプレミスまたはオフプレミスに存在することができる。
コミュニティ・クラウド:このクラウド・インフラストラクチャは、複数の組織によって共有され、関心事(例えば、任務、セキュリティ要件、ポリシー、およびコンプライアンスに関する考慮事項)を共有している特定のコミュニティをサポートする。これらの組織またはサード・パーティによって管理することができ、オンプレミスまたはオフプレミスに存在することができる。
パブリック・クラウド:このクラウド・インフラストラクチャは、一般ユーザまたは大規模な業界団体が使用できるようになっており、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:このクラウド・インフラストラクチャは、データとアプリケーションの移植を可能にする標準化された技術または独自の技術(例えば、クラウド間の負荷バランスを調整するためのクラウド・バースト)によって固有の実体を残したまま互いに結合された2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の複合である。
「または~あるいはその組み合わせ(and/or)」は、包含的離接であり、論理離接とも呼ばれ、一般に「包含的論理和」と呼ばれる。例えば、「A、B、またはC、あるいはその組み合わせ」という語句は、AまたはBまたはCのうちの少なくとも1つが真であるということを意味しており、「A、B、またはC、あるいはその組み合わせ」は、AおよびBおよびCの各々が偽である場合にのみ、偽になる。
項目「のセット」は、1つまたは複数の項目が存在しており、少なくとも1つの項目が存在しなければならないが、2つ、3つ、またはそれ以上の項目が存在する可能性もあるということを意味する。項目「のサブセット」は、共通の特徴を含んでいる項目のグループ内に1つまたは複数の項目が存在するということを意味する。
「含む(includes)」およびその変形(例えば、含んでいる(including)、含む(include)など)は、特に明示的に示されない限り、「~を含むが、必ずしもそれに限定されない」ということを意味する。
「ユーザ」または「サブスクライバ」は、(i)1人の個人、(ii)1人の個人または2人以上の人間の代わりに行動するための十分な知能を有する人工知能の実体、(iii)1人の個人または2人以上の人間によって活動が行われている企業実体、または(iv)1つの「ユーザ」または「サブスクライバ」として行動している任意の1つまたは複数の関連する「ユーザ」または「サブスクライバ」の組み合わせ、あるいはその組み合わせを含むが、必ずしもこれらに限定されない。
「受信する」、「提供する」、「送信する」、「入力する」、「出力する」、および「報告する」という用語は、特に明示的に指定されない限り、(i)物体と対象の間の関係に関する直接性の特定の程度、または(ii)物体と対象の間に挿入された中間的なコンポーネント、中間的な動作、もしくは物、またはその組み合わせのセットの存在もしくは不在、あるいはその両方を示しているか、または暗示していると受け取られるべきではない。
「モジュール」は、ハードウェア、ファームウェア、またはソフトウェア、あるいはその組み合わせの任意のセットであり、モジュールが次のいずれの状態であるかに関わらず、機能を実行するように動作可能である。(i)1つにまとまって局所的に近接している、(ii)広い領域にわたって分散している、(iii)大きい一群のソフトウェア・コード内で1つにまとまって近接している、(iv)一群のソフトウェア・コード内に存在する、(v)1つのストレージ・デバイス、メモリ、または媒体内に存在する、(vi)機械的に接続されている、(vii)電気的に接続されている、または(viii)データ通信で接続されている、あるいはその組み合わせの状態にある。「サブモジュール」は、「モジュール」内の「モジュール」である。
本明細書において説明されているように、「データ・ストア」は、データを格納するため、または管理するため、あるいはその両方を行うための、任意の種類の保存場所である。例えば、データ・ストアは、1つまたは複数の、データベース、ファイル(例えば、非構造化データのファイル)、コーパス、デジタル文書などであるか、またはこれらを含むことができる。
「引き起こしている」または「引き起こす」という用語は、1つまたは複数のシステム(例えば、コンピューティング・デバイス)またはコンポーネント(例えば、プロセッサ)あるいはその両方が、他のシステムまたはコンポーネントあるいはその両方から孤立して、またはそれらと組み合わせられて、特定の結果または効果をもたらすか、またはもたらすことに役立ってよいということを意味する。例えば、サーバ・コンピューティング・デバイスが、(例えば、メッセージをユーザ・デバイスに送信することによって)メッセージがユーザ・デバイスに表示されることを「引き起こし」てよく、または同じユーザ・デバイスが、(例えば、ユーザ・デバイスの表示メモリ内の命令およびデータを実行するプロセッサを介して)同じメッセージが表示されることを「引き起こし」てよく、あるいはその両方が行われてよい。したがって、1つまたは両方のシステムが、孤立して、または一緒に、メッセージを表示する効果を「引き起こし」てよい。
「コンピューティング・システム」または「デバイス」という用語は、単一のコンピューティング・デバイス(例えば、モバイル・デバイス)または複数のコンピューティング・デバイス(例えば、複数のクラウド・コンピューティング・ノード)あるいはその両方を意味する。
第1(例えば、第1のキャッシュ)、第2(例えば、第2のキャッシュ)などの用語は、明示的に述べられない限り、順序または時系列を示しているとして、または暗示しているとして解釈されるべきではない。むしろこれらの用語は、2つ以上の要素を区別していると解釈されるべきである。一部の実施形態では、2つ以上の要素が、区別可能であるが、同じ構成を有する。例えば、第1のメモリおよび第2のメモリは、実際に2つの別々のメモリであるが、両方とも、同じ記憶容量(例えば、4GB)を有するRAMデバイスであってよい。
Claims (20)
- コンピュータが実行する方法であって、
1つまたは複数のデータ・ストアに関連付けられた第1のデータのセットを受信することと、前記1つまたは複数のデータ・ストアが1つまたは複数のリレーショナル・データベースを含んでおり、前記第1のデータのセットが、前記1つまたは複数のリレーショナル・データベース内の複数のデータベース・レコードに含まれており、
前記データベース・レコードの各々から、1つまたは複数の実数を最初に抽出することであって、前記第1のデータのセットの1つまたは複数の文字列が最初に抽出されない、前記抽出することと、
前記1つまたは複数の実数の各々を正規化することと、
前記1つまたは複数の実数を1つまたは複数のテンソル値として表すことと、
前記1つまたは複数の文字列を少なくとも1つの単語埋め込みベクトル・モデルに通すことであって、前記1つまたは複数の文字列の少なくとも1つの表現がベクトル空間内でマッピングされることを引き起こすことを含んでいる、前記通すことと、
前記1つまたは複数の文字列を前記少なくとも1つの単語埋め込みベクトル・モデルに前記通すことに少なくとも基づいて前記第1のデータのセットを匿名化することであって、前記匿名化することが、第1の属性の1つまたは複数の値を抑制すること、および第2の属性の1つまたは複数の特定の値を抑制しないことを含んでいる、前記匿名化することとを含んでいる、コンピュータ実装方法。 - 前記ベクトル空間が、前記1つまたは複数の文字列を通す前に存在していた複数の単語表現を含んでおり、前記方法が、
前記1つまたは複数の文字列をデータ・レコードから抽出することと、
前記少なくとも1つの表現を前記ベクトル空間内でプロットすることと、
前記少なくとも1つの表現の最も近い近隣を前記ベクトル空間内で決定することであって、前記最も近い近隣が、前記複数の単語表現のうちの1つである、前記決定することと、
前記最も近い近隣を、前記1つまたは複数の文字列を表すための値として利用することであって、照会要求に応答して、前記1つまたは複数の文字列の代わりに、前記最も近い近隣が表示において表示される、前記利用することとをさらに含んでいる、請求項1に記載の方法。 - 前記第1のデータのセットの各明示的識別子の値を抑制することであって、前記明示的識別子の値が個人を直接識別する、前記抑制することと、
前記第1のデータのセットの準識別子の値のセットおよび機密識別子の値のセットを識別することであって、前記準識別子の値のセットが、特定の個人を間接的に識別する可能性がある値のセットに対応し、前記機密識別子の値のセットが、個人の秘密である値のセットに対応する、前記識別することとをさらに含んでいる、請求項1に記載の方法。 - 前記明示的識別子の値、前記準識別子の値のセット、および前記機密識別子の値のセットが、1つまたは複数のデータベース・テーブル内の各属性に関連付けられており、前記方法が、
前記準識別子の値のセットを複数のデータベース・レコードから抽出することと、
前記準識別子の値のサブセットを前記少なくとも1つの単語埋め込みベクトル・モデルに通すことであって、前記明示的識別子の値が、前記少なくとも1つの単語埋め込みベクトル・モデルを通過しない、前記通すことと、
照会に対して前記各属性を匿名化されたデータとして提示することであって、前記明示的識別子の値がいずれも表示可能でなく、前記機密識別子の値の各々が表示可能である、前記提示することとさらに含んでいる、請求項3に記載の方法。 - 前記少なくとも1つの単語埋め込みベクトル・モデルが最初に事前にトレーニングされており、前記方法が、
前記ベクトル空間内の前記1つまたは複数の文字列の前記少なくとも1つの表現から複数の他の表現までの距離を決定することと、
ポリシーに基づいて、前記少なくとも1つの表現を匿名化の出力候補として選択することと、
前記表現の前記選択が前記ポリシーと一致していないということを決定することと、
前記表現の前記選択が前記ポリシーと一致していないということの前記決定に応答して、前記単語埋め込みベクトル・モデルを再トレーニングすることとさらに含んでいる、請求項1に記載の方法。 - 前記少なくとも1つの単語埋め込みベクトル・モデルが1つまたは複数のword2vec 2層ニューラル・ネットワーク・モデルを含んでおり、前記少なくとも1つの表現が、他の表現との意味論的意味の類似性に従ってベクトル空間内でマッピングされた1つまたは複数の数値表現であり、前記他の表現のうちの第2の表現が、照会要求に応答した表示時に前記少なくとも1つの表現を表すように選択される、請求項1に記載の方法。
- 少なくとも1つのプロセッサを含んでいる少なくとも1つのコンピューティング・デバイスと、
プログラム命令が具現化されている少なくとも1つのコンピュータ可読記憶媒体とを備えているシステムであって、前記少なくとも1つのプロセッサによって読み取り可能または実行可能な前記プログラム命令が、前記システムに、
1つまたは複数のデータ・ストアに関連付けられた第1のデータのセットを受信することと、前記1つまたは複数のデータ・ストアが1つまたは複数のリレーショナル・データベースを含んでおり、前記第1のデータのセットが、前記1つまたは複数のリレーショナル・データベース内の複数のデータベース・レコードに含まれており、
前記データベース・レコードの各々から、1つまたは複数の実数を最初に抽出することであって、前記第1のデータのセットの1つまたは複数の文字列が最初に抽出されない、前記抽出することと、
前記1つまたは複数の実数の各々を正規化することと、
前記1つまたは複数の実数を1つまたは複数のテンソル値として表すことと、
前記第1のデータのセットをノイズ伝搬モジュールに通すことであって、前記通すことが、ノイズを前記第1のデータのセットに追加することを含んでおり、前記ノイズの前記追加が、前記第1のデータのセットの少なくともサブセットが一緒にグループ化され、特定の属性の単一の値として表されることを引き起こすことを含んでいる、前記通すことと、
前記第1のデータのセットを前記ノイズ伝搬モジュールに前記通すことに少なくとも基づいて前記第1のデータのセットを匿名化することであって、前記匿名化することが、第1の属性の1つまたは複数の値を抑制すること、および第2の属性の各特定の値を抑制しないことを含んでいる、前記匿名化することとを実行させる、システム。 - 前記少なくとも1つのプロセッサによって読み取り可能または実行可能な前記プログラム命令が、前記システムに、
前記第1のデータのセットを表す第1のテンソルのセットを、入力層の第1の表現から隠れ層内の第2の表現にエンコードすることと、
ポリシーに従って匿名化されている1つまたは複数の準識別子の値を識別することとを
さらに実行させる、請求項7に記載のシステム。 - 前記少なくとも1つのプロセッサによって読み取り可能または実行可能な前記プログラム命令が、前記システムに、前記第1のデータのセットの第3の表現を、前記隠れ層および匿名化された層から出力層にデコードすることをさらに実行させ、前記デコードすることが、前記第1の表現の代わりに前記1つまたは複数の匿名化された準識別子の値の表示可能なバージョンが表示されることを引き起こす、請求項8に記載のシステム。
- 前記少なくとも1つのプロセッサによって読み取り可能または実行可能な前記プログラム命令が、前記システムに、
前記1つまたは複数の準識別子の値の第3の表現を生成することと、
前記第3の表現を前記生成することに応答して、前記第2の表現を前記隠れ層からアノニマイザ層の前記第3の表現にマッピングすることとをさらに実行させる、請求項8に記載のシステム。 - 前記少なくとも1つのプロセッサによって読み取り可能または実行可能な前記プログラム命令が、前記システムに、
前記第1のデータのセットの各明示的識別子の値を抑制することであって、前記明示的識別子の値が個人を直接識別する、前記抑制することと、
前記第1のデータのセットの準識別子の値のセットおよび機密識別子の値のセットを識別することであって、前記準識別子の値のセットが、特定の個人を間接的に識別する可能性がある値のセットに対応し、前記機密識別子の値のセットが、個人の秘密である値のセットに対応する、前記識別することと、
前記準識別子の値のセットを前記識別することに応答して、ノイズを前記準識別子の値のセットのみに追加して、前記準識別子のセットの値を、前記準識別子の値のセットと意味的に一致している別の値のセットに置き換えることであって、前記ノイズが前記明示的識別子の値および前記機密識別子の値に追加されない、前記置き換えることとをさらに実行させる、請求項7に記載のシステム。 - 前記第1のデータのセットが1つまたは複数の単語に対応し、前記ノイズ伝搬モジュールがエンコーダ、デコーダ、および前記エンコーダと前記デコーダの間に位置するアノニマイザを含んでおり、最初に前記エンコーダによって前記第1のデータのセットをエンコードし、次に、前記エンコーダからアノニマイザに前記第1のデータのセットを渡し、前記1つまたは複数の単語を、前記1つまたは複数の単語にコンテキスト的に類似している第2の単語のセットとして表し、その後、前記1つまたは複数の単語の代わりに前記第2の単語のセットを表示するために、前記第2の単語のセットが前記アノニマイザからの前記第2の単語のセットをデコードすることによって、前記ノイズ伝搬モジュールを通じて前記第1のデータのセットを実行する、請求項7に記載のシステム。
- 前記少なくとも1つのプロセッサによって読み取り可能または実行可能な前記プログラム命令が、前記システムに、前記第1のデータのセットを前記ノイズ伝搬モジュールに前記通す前に、前記第1のデータのセットを前記匿名化するために、前記第1のデータのサブセットを1つまたは複数の単語埋め込みベクトル・モデルに通して、1つまたは複数の属性値を変更することをさらに実行させる、請求項7に記載のシステム。
- コンピューティング・デバイスによって読み取り可能または実行可能なプログラム命令が具現化されているコンピュータ可読記憶媒体を備えているコンピュータ・プログラムであって、前記コンピュータ・プログラムは、前記コンピューティング・デバイスに、
1つまたは複数のデータ・ストアに関連付けられた第1のデータのセットを受信することと、前記1つまたは複数のデータ・ストアが1つまたは複数のリレーショナル・データベースを含んでおり、前記第1のデータのセットが、前記1つまたは複数のリレーショナル・データベース内の複数のデータベース・レコードに含まれており、
前記データベース・レコードの各々から、1つまたは複数の実数を最初に抽出することであって、前記第1のデータのセットの1つまたは複数の文字列が最初に抽出されない、前記抽出することと、
前記1つまたは複数の実数の各々を正規化することと、
前記1つまたは複数の実数を1つまたは複数のテンソル値として表すことと
ベクトル空間内の前記第1のデータのセットのサブセットの表現から、少なくとも別のデータのセットの第2の表現までの距離を識別することと、
前記距離を前記識別することに応答して、前記第1のデータのセットを匿名化することであって、ノイズを前記第1のデータのセットの少なくとも一部に追加することを含んでいる、前記匿名化することとを実行させる、コンピュータ・プログラム。 - 前記匿名化が、少なくとも第1の値を抑制することと、1つまたは複数の等価クラスを生成することと、属性の各値をより広い値に変更するように、前記属性を一般化することとを含んでおり、前記より広い値が前記別のデータのセットの前記第2の表現を含んでいる、請求項14に記載のコンピュータ・プログラム。
- 前記第1のデータのセットが1つまたは複数のデータベース・テーブル内に論理的に配置され、コンピューティング・デバイスによって読み取り可能または実行可能な前記プログラム命令が、前記コンピューティング・デバイスに、
1つまたは複数の準識別子の文字列表現を1つまたは複数のデータベース・レコードから抽出し、前記文字列表現を1つまたは複数の単語埋め込みベクトル・モデルに通すことと、
1つまたは複数の準識別子の実数を前記1つまたは複数のデータベース・レコードから抽出することと、
ノイズを前記1つまたは複数の準識別子の文字列表現および前記1つまたは複数の準識別子の実数の両方に追加することとをさらに実行させ、データベース表示が、前記1つまたは複数の準識別子の文字列表現ではなく前記第2の表現を表示するように、前記ノイズの前記追加が、前記ベクトル空間内の前記第2の表現を出力として使用して、前記データベース・テーブル内の前記1つまたは複数の準識別子の文字列表現の各々を置き換えることを含んでいる、請求項14に記載のコンピュータ・プログラム。 - 前記ノイズの前記追加が、修正されたオートエンコーダによって実行され、前記修正されたオートエンコーダが、エンコーダ、デコーダ、および前記エンコーダと前記デコーダの間にあるアノニマイザ・モジュールを含んでいる、請求項14に記載のコンピュータ・プログラム。
- コンピューティング・デバイスによって読み取り可能または実行可能な前記プログラム命令が、前記コンピューティング・デバイスに、
複数の私的データベースを集中的な私的データベースに集約することと、
前記複数の私的データベースの前記集約に応答して、前記集中的な私的データベースを匿名化することであって、前記集中的な私的データベースが、前記匿名化された第1のデータのセットを含んでいる、前記匿名化することと、
前記集中的な私的データベースの前記匿名化に応答して、前記第1のデータのセットに対する照会要求を受信することとをさらに実行させる、請求項14に記載のコンピュータ・プログラム。 - コンピューティング・デバイスによって読み取り可能または実行可能な前記プログラム命令が、前記コンピューティング・デバイスに、
第2のデータのセットの各明示的識別子の値を抑制することと、
第3のデータのセットの各機密の値を変更されない状態に保つことと、
複数の等価クラスを生成することと、
前記第1のデータのセットの各準識別子の値を一般化することとをさらに実行させ、前記一般化することが、前記第1のデータのセットの前記サブセットを前記第2の表現に変更することを含んでおり、データベース・テーブルの照会要求に応答して、前記サブセットの代わりに前記第2の表現が前記データベース・テーブル内で表示可能であり、前記第1のデータのセットおよび前記第3のデータのセットが前記データベース・テーブル内にある、請求項14に記載のコンピュータ・プログラム。 - コンピュータ・システムに読み込まれて実行された場合に、前記コンピュータ・システムに、請求項1ないし6のいずれかに従って方法のすべてのステップを実行させるために、コンピュータ可読媒体に格納されたコンピュータ・プログラム・コードを含んでいる、コンピュータ可読な記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/820,790 US10831927B2 (en) | 2017-11-22 | 2017-11-22 | Noise propagation-based data anonymization |
US15/820,790 | 2017-11-22 | ||
PCT/IB2018/058803 WO2019102291A1 (en) | 2017-11-22 | 2018-11-09 | Data anonymization |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021504798A JP2021504798A (ja) | 2021-02-15 |
JP7288903B2 true JP7288903B2 (ja) | 2023-06-08 |
Family
ID=66533135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020528039A Active JP7288903B2 (ja) | 2017-11-22 | 2018-11-09 | データ匿名化のためコンピュータが実行する方法、システム、コンピュータ・プログラム、コンピュータ・プログラム、および記憶媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10831927B2 (ja) |
JP (1) | JP7288903B2 (ja) |
CN (1) | CN111316274B (ja) |
DE (1) | DE112018005459T5 (ja) |
GB (1) | GB2581457A (ja) |
WO (1) | WO2019102291A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10531286B2 (en) * | 2016-10-24 | 2020-01-07 | Facebook, Inc. | Methods and systems for auto-completion of anonymized strings |
US10999256B2 (en) * | 2018-01-29 | 2021-05-04 | Sap Se | Method and system for automated text anonymization |
SG11202100165PA (en) * | 2018-07-11 | 2021-02-25 | Visa Int Service Ass | Privacy-preserving graph compression with automated fuzzy variable detection |
US10637826B1 (en) * | 2018-08-06 | 2020-04-28 | Facebook, Inc. | Policy compliance verification using semantic distance and nearest neighbor search of labeled content |
FR3091602A1 (fr) * | 2019-01-07 | 2020-07-10 | Big Data Sante | Procédé de création d’avatars pour protéger des données sensibles |
EP3709309A1 (en) * | 2019-03-11 | 2020-09-16 | Koninklijke Philips N.V. | Medical data collection for machine learning |
US11032062B2 (en) * | 2019-09-17 | 2021-06-08 | Switchbit, Inc. | Data processing permits system with keys |
JP7377664B2 (ja) * | 2019-10-01 | 2023-11-10 | 株式会社日立製作所 | データベース管理システム、および、データベース処理方法 |
US11902259B2 (en) * | 2020-02-05 | 2024-02-13 | Google Llc | Pure differentially private algorithms for summation in the shuffled model |
US20210286851A1 (en) * | 2020-03-11 | 2021-09-16 | Microsoft Technology Licensing, Llc | Guided query recommendations |
DE102020205776A1 (de) * | 2020-05-07 | 2021-11-11 | Robert Bosch Gesellschaft mit beschränkter Haftung | Computerimplementiertes Verfahren zur Konzeptextraktion |
US11301639B2 (en) * | 2020-06-26 | 2022-04-12 | Huawei Technologies Co., Ltd. | Methods and systems for generating a reference data structure for anonymization of text data |
US11782928B2 (en) * | 2020-06-30 | 2023-10-10 | Microsoft Technology Licensing, Llc | Computerized information extraction from tables |
CN115146589B (zh) * | 2021-03-29 | 2024-05-28 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、介质以及电子设备 |
US11501021B1 (en) * | 2021-04-26 | 2022-11-15 | Snowflake Inc. | Horizontally-scalable data de-identification |
CN112985582B (zh) * | 2021-04-29 | 2022-09-13 | 四川虹美智能科技有限公司 | 冰箱噪音检测方法及装置 |
US11640446B2 (en) * | 2021-08-19 | 2023-05-02 | Medidata Solutions, Inc. | System and method for generating a synthetic dataset from an original dataset |
WO2024117821A1 (ko) * | 2022-11-30 | 2024-06-06 | 삼성전자 주식회사 | 전자 장치 및 데이터 압축 및 분석 방법 |
US11977550B1 (en) | 2023-04-12 | 2024-05-07 | Medidata Solutions, Inc. | System and method for generating a synthetic longitudinal dataset from an original dataset |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170308613A1 (en) | 2016-04-26 | 2017-10-26 | Baidu Usa Llc | Method and system of determining categories associated with keywords using a trained model |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8244689B2 (en) | 2006-02-17 | 2012-08-14 | Google Inc. | Attribute entropy as a signal in object normalization |
US8700568B2 (en) | 2006-02-17 | 2014-04-15 | Google Inc. | Entity normalization via name normalization |
US8627483B2 (en) | 2008-12-18 | 2014-01-07 | Accenture Global Services Limited | Data anonymization based on guessing anonymity |
JP5858292B2 (ja) * | 2010-11-09 | 2016-02-10 | 日本電気株式会社 | 匿名化装置及び匿名化方法 |
US20190139092A1 (en) * | 2011-04-19 | 2019-05-09 | Jagadeshwar Nomula | Advanced techniques to improve content presentation experiences for businesses and users |
US9135320B2 (en) * | 2012-06-13 | 2015-09-15 | Opera Solutions, Llc | System and method for data anonymization using hierarchical data clustering and perturbation |
KR101479498B1 (ko) * | 2013-02-13 | 2015-01-09 | 아주대학교산학협력단 | 도로 네트워크에서 움직이는 k-최근접 질의를 위한 안전한 모니터링 기법 |
US9230132B2 (en) * | 2013-12-18 | 2016-01-05 | International Business Machines Corporation | Anonymization for data having a relational part and sequential part |
JP6450098B2 (ja) | 2014-06-20 | 2019-01-09 | Kddi株式会社 | 匿名化装置、匿名化方法及び匿名化プログラム |
JP6412767B2 (ja) | 2014-10-14 | 2018-10-24 | 株式会社エヌ・ティ・ティ・データ | 雑音発生装置、雑音発生方法及びプログラム |
US10509800B2 (en) * | 2015-01-23 | 2019-12-17 | Hewlett-Packard Development Company, L.P. | Visually interactive identification of a cohort of data objects similar to a query based on domain knowledge |
EP3128439A1 (en) | 2015-08-07 | 2017-02-08 | Google, Inc. | Text classification and transformation based on author |
US9569696B1 (en) * | 2015-08-12 | 2017-02-14 | Yahoo! Inc. | Media content analysis system and method |
US10516906B2 (en) | 2015-09-18 | 2019-12-24 | Spotify Ab | Systems, methods, and computer products for recommending media suitable for a designated style of use |
US9858426B2 (en) * | 2015-11-03 | 2018-01-02 | Palo Alto Research Center Incorporated | Computer-implemented system and method for automatically identifying attributes for anonymization |
US20180131740A1 (en) * | 2016-11-04 | 2018-05-10 | General Motors Llc | Anonymizing streaming data |
-
2017
- 2017-11-22 US US15/820,790 patent/US10831927B2/en active Active
-
2018
- 2018-11-09 DE DE112018005459.4T patent/DE112018005459T5/de not_active Ceased
- 2018-11-09 WO PCT/IB2018/058803 patent/WO2019102291A1/en active Application Filing
- 2018-11-09 CN CN201880070891.4A patent/CN111316274B/zh active Active
- 2018-11-09 GB GB2008680.7A patent/GB2581457A/en not_active Withdrawn
- 2018-11-09 JP JP2020528039A patent/JP7288903B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170308613A1 (en) | 2016-04-26 | 2017-10-26 | Baidu Usa Llc | Method and system of determining categories associated with keywords using a trained model |
Non-Patent Citations (1)
Title |
---|
長谷川聡ほか,行列分解を利用した確率的k-匿名性を満たす高次元データ公開法,コンピュータセキュリティシンポジウム2016 論文集,日本,一般社団法人情報処理学会,2016年10月04日,Vol.2016, No.2,pp.936-942,情報処理学会シンポジウムシリーズ |
Also Published As
Publication number | Publication date |
---|---|
US20190156061A1 (en) | 2019-05-23 |
DE112018005459T5 (de) | 2020-07-09 |
GB202008680D0 (en) | 2020-07-22 |
CN111316274A (zh) | 2020-06-19 |
GB2581457A (en) | 2020-08-19 |
WO2019102291A1 (en) | 2019-05-31 |
CN111316274B (zh) | 2024-03-08 |
US10831927B2 (en) | 2020-11-10 |
JP2021504798A (ja) | 2021-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7288903B2 (ja) | データ匿名化のためコンピュータが実行する方法、システム、コンピュータ・プログラム、コンピュータ・プログラム、および記憶媒体 | |
US11847113B2 (en) | Method and system for supporting inductive reasoning queries over multi-modal data from relational databases | |
US20210374525A1 (en) | Method and system for processing data records | |
JP2023541649A (ja) | 連合学習システムにおけるセマンティック学習 | |
US20200125648A1 (en) | Using machine learning to determine electronic document similarity | |
US20190087604A1 (en) | Applying a differential privacy operation on a cluster of data | |
US11681817B2 (en) | System and method for implementing attribute classification for PII data | |
US11573994B2 (en) | Encoding entity representations for cross-document coreference | |
US11030402B2 (en) | Dictionary expansion using neural language models | |
US11120215B2 (en) | Identifying spans using visual recognition | |
CN116762069A (zh) | 元数据分类 | |
US20220179833A1 (en) | Metadata based mapping assist | |
US10892042B2 (en) | Augmenting datasets using de-identified data and selected authorized records | |
US11841977B2 (en) | Training anonymized machine learning models via generalized data generated using received trained machine learning models | |
US11823775B2 (en) | Hashing electronic records | |
JP2023517518A (ja) | ヌル値又は同等の値を有するリレーショナル・テーブルのためのベクトル埋込モデル | |
Quddus | Machine Learning with Apache Spark Quick Start Guide: Uncover patterns, derive actionable insights, and learn from big data using MLlib | |
JP2024513293A (ja) | トランスフォーマベースのモデルナレッジグラフリンク予測 | |
US11928107B2 (en) | Similarity-based value-to-column classification | |
JP2022079430A (ja) | 方法、システムおよびコンピュータ・プログラム | |
JP2024502081A (ja) | 重み付き知識移転装置、方法、及びシステム | |
Zhang et al. | Distributed identification of heterogeneous treatment effects | |
US11556591B2 (en) | Tenant-isolated custom annotations for search within a public corpus | |
US11429579B2 (en) | Building a word embedding model to capture relational data semantics | |
Komnios | User Requirements and Data Management Plan |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200618 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20200930 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210423 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220216 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20220222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20220222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220408 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220419 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220714 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221115 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230529 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7288903 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |