JP7165795B2 - データ解析システムのプライバシー保護データを生成する方法及びデバイス - Google Patents
データ解析システムのプライバシー保護データを生成する方法及びデバイス Download PDFInfo
- Publication number
- JP7165795B2 JP7165795B2 JP2021138542A JP2021138542A JP7165795B2 JP 7165795 B2 JP7165795 B2 JP 7165795B2 JP 2021138542 A JP2021138542 A JP 2021138542A JP 2021138542 A JP2021138542 A JP 2021138542A JP 7165795 B2 JP7165795 B2 JP 7165795B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- sensitive
- data
- privacy
- pseudo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
1)顧客ID.<直接の識別子:ドロップ>
2)顧客名.<直接の識別子:ドロップ>
3)年齢.<擬似識別子:機密:高>
4)性別.<0/1にマップされる:擬似識別子:機密:高>
5)住所.<緯度/経度にマップされる:擬似識別子:機密:高>
6)クレジット/デビットカード.<直接の識別子:ドロップ>
7)新/旧顧客.<0/1にマップされる:非擬似機密識別子:機密:中>
8)購入された医薬品.<医薬品IDにマップされる:非擬似機密識別子:機密:重大>
9)医薬品の量.<非擬似機密識別子:機密:重大>
10)日時.<数値にマップされる:非擬似機密識別子:機密:中>
11)支払額.<非機密特徴>
12)選択されたEMIサービス.<非機密特徴>
13)メディクレーム(Mediclaim)保険の登録.<非機密特徴>
14)請求された電子商取引バウチャー.<非機密特徴>
15)電子商取引サービスのフィードバック.<10のスケール:非機密特徴>
食料品電子商取引リポジトリの場合:<ドメインレベル機密:低>
1)顧客ID.<直接の識別子:ドロップ>
2)顧客名.<直接の識別子:ドロップ>
3)年齢.<擬似識別子:機密:高>
4)性別.<0/1にマップされる:擬似識別子:機密:高>
5)住所.<緯度/経度にマップされる:擬似識別子:機密:高>
6)クレジット/デビットカード.<直接の識別子:ドロップ>
7)食料品品目1.<非機密特徴>
8)品目1の量.<非機密特徴>
9)食料品品目2.<非機密特徴>
10)品目2の量.<非機密特徴>
11)食料品品目3.<非機密特徴>
12)品目3の量.<非機密特徴>
13)請求された電子商取引バウチャー.<非機密特徴>
14)電子商取引サービスのフィードバック.<10のスケール:非機密特徴>
旅行予約リポジトリの場合:<ドメインレベル機密:高>;
百貨店からの医薬品在庫の場合.<ドメインレベル機密:重大>;
百貨店からの家庭用品の場合.<ドメインレベル機密:低>.
擬似識別子<QC/QH/QM/QL>:重大/高/中/低;
非擬似機密識別子<NQC/NQH/NQM/NQL>:重大/高/中/低;
非機密特徴:NSF;及び
表の各行は、ユーザレコードであり、表の各列は、特徴である。
M:非機密特徴の数
F:特徴(機密+非機密)の総数:N+M
Va,b:a番目のユーザレコードのbth特徴の値である。
クラスタC1<C11,C12,C13,.....,C1N>.....(1)
クラスタC2<C21,C22,C23,.....,C2N>.....(2)
クラスタC3<C31,C32,C33,.....,C3N>.....(3)
Vi,jを、Ct,j<Vi,jは重心Ctに属する>+Ni,j<i,jにおけるノイズ値>で置換し、
ここで、Ni,j=ガウス分布から選択されたランダムに生成された値である
一実施形態において、ガウス分布スケール=f(選択された差分プライバシーアルゴリズムのパラメータ{イプシロンε,デルタδ,差分直径R}及びプライバシー要件{クラスタサイズ,ドメイン機密,特徴機密})である。機密レベルが高いほど、ノイズスケールが高い。
Vi,jを、Vi,j<i,jにおける値>+Ni,j<i,jにおけるノイズ値>で置換し、
ここで、Ni,j=ガウス分布から選択されたランダムに生成された値である
一実施形態において、ガウス分布スケール=f(選択された差分プライバシーアルゴリズムのパラメータ{イプシロンε,デルタδ,差分直径R}及びプライバシー要件{クラスタサイズ,ドメイン機密,特徴機密})である。機密レベルが高いほど、ノイズスケールが高い。
前:<U1,U2,U3,U4,U5,U6,U7,U8,U9,U10>
後:<U7,U2,U5,U1,U3,U7,U6,U10,U9,U8>、U4は選択されず、U7は2回選択されるようになっている。
図5は、本開示に従う実施形態を実装するための典型的なコンピュータシステム500のブロック図を例示するものである。一実施形態において、コンピュータシステム500は、1つ以上のプライバシー保護デバイス101であり得る。コンピュータシステム500は、中央処理装置(「CPU」または「プロセッサ」)502を含み得る。プロセッサ502は、データ解析システムのプライバシー保護データを生成する少なくなくとも1つのデータプロセッサを含み得る。プロセッサ502は、集積システム(バス)コントローラ、メモリ管理制御装置、浮動小数点ユニット、グラフィック処理装置、デジタル信号処理装置などといった専用処理装置を含み得る。
Claims (11)
- データ解析システムのプライバシー保護データを生成する方法であって、
1つ以上のプライバシー保護デバイス(101)によって、1つ以上のソース(105)から受信された複数のユーザの各々と関連付けられたユーザレコードから、機密特徴及び非機密特徴を判定することと、
前記1つ以上のプライバシー保護デバイス(101)によって、擬似識別子及び非擬似機密識別子を含む前記機密特徴により、前記ユーザレコードを、あらかじめ定義されたクラスタリング手法を使用して複数のクラスタにクラスタ化することと、
前記1つ以上のプライバシー保護デバイス(101)によって、前記複数のクラスタの各クラスタにおける各擬似識別子を、それぞれのクラスタの計算された重心と、ランダムに生成された値とを用いて、マップし、各非擬似機密識別子を、対応するマップされた値と、ランダムに生成された値とを用いて、マップすることであって、前記マップされた擬似識別子、前記マップされた非擬似機密識別子、及び前記非機密特徴を使用して、ユーザプライバシー保護レコードを生成する、マップすることと、
前記1つ以上のプライバシー保護デバイス(101)の各々によって、一様にサンプルされたユーザプライバシー保護レコードを、1つ以上のデータモデルを生成するために、対応する1つ以上の機械学習モデルに供給することと、を含む、方法。 - 前記1つ以上のソース(105)が、パブリックプラットフォーム及びプライベートプラットフォーム、IOTゲートウェイデバイス、ならびにリポジトリを含む、請求項1に記載の方法。
- 前記機密特徴が、前記ユーザレコードからユーザを特定することを可能にする直接の識別子を含み、前記直接の識別子が、前記ユーザレコードに前記クラスタリング手法を施す前に消去される、請求項1に記載の方法。
- 前記ランダムに生成された値が、クラスタサイズ、リポジトリドメインの機密のレベル、及び前記ユーザレコードにおける特徴の機密度に基づいて決定される、請求項1に記載の方法。
- 前記ユーザプライバシー保護レコードが、あらかじめ定義されたアグリゲーション手法を使用して均一にサンプルされる、請求項1に記載の方法。
- データ解析システムのプライバシー保護データを生成する方法であって、
1つ以上の解析モデル(106)によって、対応する1つ以上のプライバシー保護デバイス(101)から、均一にサンプルされたユーザプライバシー保護レコードを受信することであって、前記均一にサンプルされたユーザプライバシー保護レコードが、請求項1のステップを使用して、受信されたユーザレコードから生成される、受信することと、
前記1つ以上の解析モデル(106)の各々によって、関連付けられた均一にサンプルされたユーザプライバシー保護レコードを処理して、データモデルを生成することと、
前記1つ以上の解析モデル(106)の各々によって、生成された前記データモデルをサーバ(115)に送信することであって、前記サーバ(115)が、前記1つ以上の解析モデル(106)の各々から受信された前記データモデルを組み合わせて、機械学習の予測及びレコメンデーションのうちの1つに使用される最終的なデータモデルを生成する、送信することと、を含む、方法。 - データ解析システムにおいてプライバシー保護データを生成するプライバシー保護デバイス(101)であって、
プロセッサ(113)と、
前記プロセッサ(113)に通信可能に結合されたメモリ(111)とを含み、前記メモリ(111)がプロセッサ命令を記憶しており、前記プロセッサ命令が、実行時に、前記プロセッサ(113)に、
1つ以上のソース(105)からの複数のユーザの各々と関連付けられた受信されたユーザレコードから、機密特徴及び非機密特徴を判定することと、
擬似識別子及び非擬似機密識別子を含む前記機密特徴により、前記ユーザレコードを、あらかじめ定義されたクラスタリング手法を使用して複数のクラスタにクラスタ化することと、
前記複数のクラスタの各クラスタにおける各擬似識別子を、それぞれのクラスタの計算された重心と、ランダムに生成された値とを用いて、マップし、各非擬似機密識別子を、対応するマップされた値と、ランダムに生成された値とを用いて、マップすることであって、前記マップされた擬似識別子、前記マップされた非擬似機密識別子、及び前記非機密特徴を使用して、ユーザプライバシー保護レコードを生成する、マップすることと、
一様にサンプルされたユーザプライバシー保護レコードを、1つ以上のデータモデルを生成する対応する1つ以上の機械学習モデルに供給することと、を行わせる、プライバシー保護デバイス(101)。 - 前記1つ以上のソース(105)が、パブリックプラットフォーム及びプライベートプラットフォーム、IOTゲートウェイデバイス、ならびにリポジトリを含む、請求項7に記載のプライバシー保護デバイス(101)。
- 前記機密特徴が、前記ユーザレコードからユーザを特定することを可能にする直接の識別子を含み、前記プロセッサが、前記ユーザレコードに前記クラスタリング手法を施す前に前記直接の識別子を消去する、請求項7に記載のプライバシー保護デバイス(101)。
- 前記プロセッサ(113)が、クラスタサイズ、リポジトリドメインの機密のレベル、及び前記ユーザレコードにおける特徴の機密度に基づいて、前記ランダムに生成された値を決定する、請求項7に記載のプライバシー保護デバイス(101)。
- 前記プロセッサ(113)が、あらかじめ定義されたアグリゲーション手法を使用して、前記ユーザプライバシー保護レコードを均一にサンプルする、請求項7に記載のプライバシー保護デバイス(101)。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN202041037547 | 2020-08-31 | ||
IN202041037547 | 2020-08-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022041957A JP2022041957A (ja) | 2022-03-11 |
JP7165795B2 true JP7165795B2 (ja) | 2022-11-04 |
Family
ID=80500084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021138542A Active JP7165795B2 (ja) | 2020-08-31 | 2021-08-27 | データ解析システムのプライバシー保護データを生成する方法及びデバイス |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7165795B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688420B (zh) * | 2021-07-30 | 2024-04-30 | 国电南瑞南京控制系统有限公司 | 一种基于聚类的差分隐私用电采集数据隐私保护方法及装置 |
KR102648905B1 (ko) * | 2023-02-21 | 2024-03-18 | (주)이지서티 | 프라이버시 보호 수준을 설정할 수 있는 데이터 변조 방법 및 장치 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007304782A (ja) | 2006-05-10 | 2007-11-22 | Nec Corp | データセット選択装置および実験計画システム |
WO2013080365A1 (ja) | 2011-12-01 | 2013-06-06 | 株式会社日立製作所 | 秘匿検索方法および秘匿検索装置 |
JP2015041121A (ja) | 2013-08-20 | 2015-03-02 | 株式会社日立製作所 | 販売予測システム及び販売予測方法 |
JP2016018379A (ja) | 2014-07-08 | 2016-02-01 | Kddi株式会社 | プライバシー保護装置、方法及びプログラム |
US20160036860A1 (en) | 2013-03-15 | 2016-02-04 | Telefonaktiebolaget L M Ericsson (Publ) | Policy based data processing |
JP2016091306A (ja) | 2014-11-05 | 2016-05-23 | 株式会社東芝 | 予測モデル作成方法 |
US20180181878A1 (en) | 2016-12-28 | 2018-06-28 | Samsung Electronics Co., Ltd. | Privacy-preserving transformation of continuous data |
JP2018533087A (ja) | 2016-09-22 | 2018-11-08 | 三菱電機株式会社 | データ撹乱装置およびデータ撹乱システム |
WO2019012343A1 (en) | 2017-07-12 | 2019-01-17 | International Business Machines Corporation | ANONYMOUS ENCOUNTERED DATA |
JP2019512128A (ja) | 2016-02-22 | 2019-05-09 | タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited | データの秘匿性−実用性間のトレードオフを算出するためのシステムおよび方法 |
CN111079174A (zh) | 2019-11-21 | 2020-04-28 | 中国电力科学研究院有限公司 | 基于匿名化及差分隐私技术的用电数据脱敏方法及系统 |
JP2020109592A (ja) | 2019-01-07 | 2020-07-16 | 株式会社東芝 | 情報処理システム、情報処理装置、情報処理方法およびプログラム |
JP2020115311A (ja) | 2019-01-18 | 2020-07-30 | オムロン株式会社 | モデル統合装置、モデル統合方法、モデル統合プログラム、推論システム、検査システム、及び制御システム |
-
2021
- 2021-08-27 JP JP2021138542A patent/JP7165795B2/ja active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007304782A (ja) | 2006-05-10 | 2007-11-22 | Nec Corp | データセット選択装置および実験計画システム |
WO2013080365A1 (ja) | 2011-12-01 | 2013-06-06 | 株式会社日立製作所 | 秘匿検索方法および秘匿検索装置 |
US20160036860A1 (en) | 2013-03-15 | 2016-02-04 | Telefonaktiebolaget L M Ericsson (Publ) | Policy based data processing |
JP2015041121A (ja) | 2013-08-20 | 2015-03-02 | 株式会社日立製作所 | 販売予測システム及び販売予測方法 |
JP2016018379A (ja) | 2014-07-08 | 2016-02-01 | Kddi株式会社 | プライバシー保護装置、方法及びプログラム |
JP2016091306A (ja) | 2014-11-05 | 2016-05-23 | 株式会社東芝 | 予測モデル作成方法 |
JP2019512128A (ja) | 2016-02-22 | 2019-05-09 | タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited | データの秘匿性−実用性間のトレードオフを算出するためのシステムおよび方法 |
JP2018533087A (ja) | 2016-09-22 | 2018-11-08 | 三菱電機株式会社 | データ撹乱装置およびデータ撹乱システム |
US20180181878A1 (en) | 2016-12-28 | 2018-06-28 | Samsung Electronics Co., Ltd. | Privacy-preserving transformation of continuous data |
WO2019012343A1 (en) | 2017-07-12 | 2019-01-17 | International Business Machines Corporation | ANONYMOUS ENCOUNTERED DATA |
JP2020109592A (ja) | 2019-01-07 | 2020-07-16 | 株式会社東芝 | 情報処理システム、情報処理装置、情報処理方法およびプログラム |
JP2020115311A (ja) | 2019-01-18 | 2020-07-30 | オムロン株式会社 | モデル統合装置、モデル統合方法、モデル統合プログラム、推論システム、検査システム、及び制御システム |
CN111079174A (zh) | 2019-11-21 | 2020-04-28 | 中国电力科学研究院有限公司 | 基于匿名化及差分隐私技术的用电数据脱敏方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP2022041957A (ja) | 2022-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230237106A1 (en) | Systems and methods for discovering social accounts | |
US11580680B2 (en) | Systems and interactive user interfaces for dynamic retrieval, analysis, and triage of data items | |
US10692141B2 (en) | Multi-layer machine learning classifier with correlative score | |
US20230127891A1 (en) | Systems and methods of managing data rights and selective data sharing | |
US10147041B2 (en) | Compatibility prediction based on object attributes | |
US9619661B1 (en) | Personal information data manager | |
US10866849B2 (en) | System and method for automated computer system diagnosis and repair | |
US20200082112A1 (en) | Systems and methods for secure prediction using an encrypted query executed based on encrypted data | |
JP7165795B2 (ja) | データ解析システムのプライバシー保護データを生成する方法及びデバイス | |
US10318546B2 (en) | System and method for test data management | |
US10892042B2 (en) | Augmenting datasets using de-identified data and selected authorized records | |
US20170177682A1 (en) | System and method for translating versioned data service requests and responses | |
JP2019512128A (ja) | データの秘匿性−実用性間のトレードオフを算出するためのシステムおよび方法 | |
US11531656B1 (en) | Duplicate determination in a graph | |
US20230127625A1 (en) | Anonymization system and method | |
US10116627B2 (en) | Methods and systems for identifying targeted content item for user | |
WO2022108947A1 (en) | Memory-free anomaly detection for risk management systems | |
US11295326B2 (en) | Insights on a data platform | |
US20180181610A1 (en) | Systems and methods for processing data service requests | |
US11741257B2 (en) | Systems and methods for obtaining anonymized information derived from data obtained from external data providers | |
US20190197585A1 (en) | Systems and methods for data storage and retrieval with access control | |
WO2021226875A1 (en) | Customized data scanning in heterogeneous data storage environment | |
JP2023533476A (ja) | ノイズの多いデータセットのマスタ企業特性データベースへの集約 | |
US10795892B1 (en) | Evaluating colliding data records | |
US20180210945A1 (en) | System and method for performing data mining by parallel data clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210827 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220711 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221018 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221024 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7165795 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |