JP7179795B2 - Anonymization device, anonymization method and anonymization program - Google Patents
Anonymization device, anonymization method and anonymization program Download PDFInfo
- Publication number
- JP7179795B2 JP7179795B2 JP2020047509A JP2020047509A JP7179795B2 JP 7179795 B2 JP7179795 B2 JP 7179795B2 JP 2020047509 A JP2020047509 A JP 2020047509A JP 2020047509 A JP2020047509 A JP 2020047509A JP 7179795 B2 JP7179795 B2 JP 7179795B2
- Authority
- JP
- Japan
- Prior art keywords
- anonymization
- records
- code
- data set
- codes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、データセットを匿名化するための装置、方法及びプログラムに関する。 The present invention relates to a device, method and program for anonymizing datasets.
従来、データセットのレコードから個人を特定されないために、例えば非特許文献1~5のように、プライバシ保護の観点からデータを匿名化するための様々な技術が提案されている。
Conventionally, various techniques for anonymizing data from the viewpoint of privacy protection have been proposed, such as
ところで、従来の匿名化手法において、匿名化対象のデータは、全ての属性が一致している必要があった。しかし、実際のデータには、例えばレセプトデータのように、ペイロードが異なるものが存在している。この場合、従来の匿名化手法では対応できなかった。 By the way, in the conventional anonymization method, all the attributes of the data to be anonymized had to match. However, some actual data, such as receipt data, have different payloads. In this case, the conventional anonymization method could not cope.
本発明は、ペイロードが異なるデータを匿名化できる匿名化装置、匿名化方法及び匿名化プログラムを提供することを目的とする。 An object of the present invention is to provide an anonymization device, an anonymization method, and an anonymization program capable of anonymizing data with different payloads.
本発明に係る匿名化装置は、ペイロードの属性が当該ペイロードに含まれるコードにより特定可能なレコードからなるデータセットの入力を受け付ける入力部と、前記レコードの順序を記憶する記憶部と、前記コード、又は前記コードの組み合わせ毎に前記データセットの一部のレコードを抽出し、共通の属性に対して匿名化処理を行う匿名化処理部と、匿名化された前記一部のレコードを、前記順序に従って統合し、匿名化されたデータセットを再構成する統合部と、を備える。 An anonymization device according to the present invention includes an input unit that receives an input of a data set consisting of records whose payload attributes can be specified by a code included in the payload, a storage unit that stores the order of the records, the code, Alternatively, an anonymization processing unit that extracts a partial record of the data set for each combination of the codes and performs anonymization processing on a common attribute, and the anonymized partial record according to the order an amalgamator for amalgamating and reconstructing the anonymized dataset.
前記匿名化処理部は、共通の属性を持つ複数のコードを、同一の汎化されたコードに加工し、当該汎化されたコード毎に前記一部のレコードを抽出してもよい。 The anonymization processing unit may process a plurality of codes having a common attribute into the same generalized code, and extract the partial records for each generalized code.
前記匿名化処理部は、前記汎化されたコード毎に前記匿名化処理を行った後、詳細化したコード毎に前記匿名化処理を行ってもよい。 The anonymization processing unit may perform the anonymization processing for each detailed code after performing the anonymization processing for each generalized code.
本発明に係る匿名化方法は、ペイロードの属性が当該ペイロードに含まれるコードにより特定可能なレコードからなるデータセットの入力を受け付ける入力ステップと、前記レコードの順序を記憶する記憶ステップと、前記コード、又は前記コードの組み合わせ毎に前記データセットの一部のレコードを抽出し、共通の属性に対して匿名化処理を行う匿名化処理ステップと、匿名化された前記一部のレコードを、前記順序に従って統合し、匿名化されたデータセットを再構成する統合ステップと、をコンピュータが実行する。 An anonymization method according to the present invention includes an input step of accepting an input of a data set consisting of records whose payload attributes can be specified by a code included in the payload, a storage step of storing the order of the records, the code, Alternatively, an anonymization processing step of extracting partial records of the data set for each combination of the codes and performing anonymization processing on common attributes, and anonymizing the partial records in accordance with the order and an aggregating step of aggregating and reconstructing the anonymized data set.
本発明に係る匿名化プログラムは、前記匿名化装置としてコンピュータを機能させるためのものである。 An anonymization program according to the present invention is for causing a computer to function as the anonymization device.
本発明によれば、ペイロードが異なるデータを匿名化できる。 According to the present invention, data with different payloads can be anonymized.
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態における匿名化装置1の機能構成を示す図である。
匿名化装置1は、サーバ又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
An example of an embodiment of the present invention will be described below.
FIG. 1 is a diagram showing the functional configuration of an
The
制御部10は、匿名化装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部10は、CPUであってよい。
The
記憶部20は、ハードウェア群を匿名化装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスク(HDD)等であってよい。具体的には、記憶部20は、本実施形態の各機能を制御部10に実行させるためのプログラム(匿名化プログラム)の他、匿名化対象のデータセット、及びデータセットのペイロードに格納されるデータの属性を定義したコード等を記憶する。
The
制御部10は、入力部11と、匿名化処理部12と、統合部13とを備える。制御部10は、これらの機能部により、ペイロードの属性が異なるデータセットを匿名化して出力する。
The
ここで、データセットの各レコードは、共通部と、ペイロード(コード、ペイロード属性1、2、…)とに分けられる。共通部は、全てのレコードに共通の属性(例えば、年齢、住所等)からなり、ペイロードは、データセット内で共通ではなく、コードによって各レコードに含まれるペイロード属性が特定される。
コードとペイロード属性との対応関係は、記憶部20の所定のデータベースに格納され、適宜参照される。
Here, each record of the data set is divided into a common part and a payload (code,
Correspondences between codes and payload attributes are stored in a predetermined database in the
図2は、本実施形態におけるコードとペイロード属性との関係を例示する図である。
例えば、コード00が付与されたペイロードには、「入院日」、「退院日」、「病名」が格納される。同様に、コード01、10、11に対して、ペイロード属性が定義される。
FIG. 2 is a diagram illustrating the relationship between codes and payload attributes in this embodiment.
For example, the payload with
入力部11は、ペイロード属性がペイロードに含まれるコードにより特定可能なレコードからなるデータセットの入力を受け付ける。
また、入力部11は、受け付けたデータセットの各レコードの順序を、記憶部20に記憶しておく。
The
Also, the
匿名化処理部12は、コード、又はコードの組み合わせ毎に、データセットの一部のレコードを抽出し、抽出したレコードに共通の属性に対して匿名化処理を行う。なお、匿名化の手法は限定されず、各種の既存の手法が適用可能である。
The
このとき、匿名化処理部12は、共通の属性を持つ複数のコードを、同一の汎化されたコードに加工し、この汎化されたコード毎に一部のレコードを抽出してもよい。
例えば、コードを構成する文字列とペイロード属性の共通性とに関連がある場合、この関連性に基づいてコードが加工される。図2の例では、コード00及び01は、属性PL1及びPL2が共通しているので、共に「0*」と汎化することで該当のレコードが同時に抽出される。同様に、コード10及び11は、属性PL1が共通しているので、共に「1*」と汎化される。
At this time, the
For example, if there is a relationship between the character strings that make up the code and the commonality of payload attributes, the code is processed based on this relationship. In the example of FIG. 2,
また、匿名化処理部12は、汎化されたコード(例えば、「0*」、「1*」)毎に匿名化処理を行った後、詳細化した元のコード(例えば、00、01、10、11)毎に匿名化処理を行ってもよい。
Further, the
統合部13は、匿名化された一部のレコードを、記憶しておいた順序に従って統合し、匿名化されたデータセットを再構成して出力する。
The
図3は、本実施形態における匿名化方法の概要を示す図である。
匿名化装置1は、まず、整形用の順序データが付与されたデータセット(A)から、属性の共通部とコードとを抽出し、匿名化処理を行う。このとき、コード(00、01、10、11)は、「0*」又は「1*」に汎化される。
FIG. 3 is a diagram showing an outline of an anonymization method according to this embodiment.
The
匿名化装置1は、汎化されたコードそれぞれをキーにデータセットの一部を抽出すると、各グループ(B、C)内で共通の属性(太枠)に対して匿名化処理を行う。
そして、匿名化装置1は、それぞれ匿名化された複数のグループを順序データに基づいて統合して出力する(D)。
When the
Then, the
図4は、本実施形態における匿名化方法の流れを例示するフローチャートである。
この例では、ペイロードのコードに汎化のレベルが複数存在し、各レベルにおいて匿名化処理が実施される。
例えば、コード012が「01*」、「0**」のように階層的に汎化される。
FIG. 4 is a flowchart illustrating the flow of the anonymization method in this embodiment.
In this example, the payload code has multiple levels of generalization, and anonymization processing is performed at each level.
For example, code 012 is hierarchically generalized as "01*" and "0**".
ステップS1において、入力部11は、ペイロード部が異なるデータセットの入力を受け付ける。このとき、データセット内の各属性は、ペイロードのコードも含めて既知とする。
In step S1, the
ステップS2において、入力部11は、匿名化の結果出力時のために、各レコードの順序データを記憶部20に記憶する。
In step S2, the
ステップS3において、匿名化処理部12は、データセット内の共通部と、ペイロードのコードとを切り出し、匿名化を実施する。
このとき、匿名化処理部12は、コードをその定義(例えば、一般化階層木)に応じて、最も汎化されたコードに加工する。
In step S3, the
At this time, the
ステップS4において、匿名化処理部12は、コードが一致するレコードを抽出し、抽出したグループ内で共通の属性に対して匿名化を実施する。
In step S4, the
ステップS5において、匿名化処理部12は、全ての属性について匿名化を実施したか否かを判定する。この判定がYESの場合、処理はステップS8に移り、判定がNOの場合、処理はステップS6に移る。
In step S5, the
ステップS6において、匿名化処理部12は、ステップS4で用いたコードが汎化前の元のコードであるか否かを判定する。この判定がYESの場合、処理はステップS8に移り、判定がNOの場合、処理はステップS7に移る。
In step S6, the
ステップS7において、匿名化処理部12は、コードを1レベル詳細化する。その後、処理はステップS4に戻る。
In step S7, the
ステップS8において、統合部13は、ステップS4において匿名化されたグループを統合し、予め記憶された順序データに基づいて、加工後のレコードを入力されたデータセットと同じ順序に並び替えて出力する。
In step S8, the
以上のように、本実施形態によれば、匿名化装置1は、ペイロードの属性がコードにより特定可能なレコードからなるデータセットの入力を受け付け、レコードの順序を記憶すると、コード、又はコードの組み合わせ毎にデータセットの一部のレコードを抽出し、共通の属性に対して匿名化処理を行う。これにより、匿名化装置1は、匿名化された一部のレコードを、記憶した順序に従って統合し、匿名化されたデータセットを再構成する。
したがって、匿名化装置1は、従来、全てのレコードが同一の属性を持つ必要があったのに対して、ペイロードの属性が異なるデータセットを匿名化できる。
As described above, according to the present embodiment, the
Therefore, the
このとき、匿名化装置1は、共通の属性を持つ複数のコードを、同一の汎化されたコードに加工し、この汎化されたコード毎に一部のレコードを抽出する。
したがって、匿名化装置1は、コードと属性の共通性とが関連する場合に、汎化されたコードによってグループ化するので、属性が一致している部分を効率的に抽出して匿名化処理を繰り返すことにより、データセット全体を適切に匿名化できる。
At this time, the
Therefore, the
また、匿名化装置1は、汎化されたコード毎に匿名化処理を行った後、詳細化したコード毎に匿名化処理を行う。
したがって、匿名化装置1は、コードの汎化のレベル毎に共通する属性を効率的に抽出して、データセット全体を適切に匿名化できる。
Further, the
Therefore, the
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。 Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments. Moreover, the effects described in the above-described embodiments are merely enumerations of the most suitable effects resulting from the present invention, and the effects of the present invention are not limited to those described in the embodiments.
前述の実施形態では、コードの文字列の並びにより属性の共通性が判断できる場合を示したが、これには限られない。
例えば、匿名化装置1は、コードとペイロード属性との対応関係を示すデータベースから、ペイロード属性の少なくとも一部が共通するコードの組み合わせを抽出し、この組み合わせで一部のレコードを抽出してもよい。
In the above-described embodiment, the case where the commonality of attributes can be determined from the arrangement of the character strings of the code was shown, but the present invention is not limited to this.
For example, the
匿名化装置1による匿名化方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD-ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
The anonymization method by the
1 匿名化装置
10 制御部
11 入力部
12 匿名化処理部
13 統合部
20 記憶部
1
Claims (5)
前記レコードの順序を記憶する記憶部と、
前記コード、又は前記コードの組み合わせ毎に前記データセットの一部のレコードを抽出し、共通の属性に対して匿名化処理を行う匿名化処理部と、
匿名化された前記一部のレコードを、前記順序に従って統合し、匿名化されたデータセットを再構成する統合部と、を備える匿名化装置。 an input unit that receives an input of a data set consisting of records whose payload attributes can be specified by a code included in the payload;
a storage unit that stores the order of the records;
an anonymization processing unit that extracts a partial record of the data set for each of the codes or combinations of the codes and performs anonymization processing on common attributes;
An anonymization device comprising an integration unit that integrates the partial anonymized records according to the order and reconstructs an anonymized data set.
前記レコードの順序を記憶する記憶ステップと、
前記コード、又は前記コードの組み合わせ毎に前記データセットの一部のレコードを抽出し、共通の属性に対して匿名化処理を行う匿名化処理ステップと、
匿名化された前記一部のレコードを、前記順序に従って統合し、匿名化されたデータセットを再構成する統合ステップと、をコンピュータが実行する匿名化方法。 an input step of accepting input of a data set consisting of records whose payload attributes are identifiable by a code contained in the payload;
a storage step of storing the order of said records;
an anonymization processing step of extracting partial records of the data set for each of the codes or combinations of the codes and performing anonymization processing on common attributes;
An anonymization method executed by a computer, and an integration step of integrating the partial anonymized records according to the order to reconstruct an anonymized data set.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020047509A JP7179795B2 (en) | 2020-03-18 | 2020-03-18 | Anonymization device, anonymization method and anonymization program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020047509A JP7179795B2 (en) | 2020-03-18 | 2020-03-18 | Anonymization device, anonymization method and anonymization program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021149398A JP2021149398A (en) | 2021-09-27 |
JP7179795B2 true JP7179795B2 (en) | 2022-11-29 |
Family
ID=77848859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020047509A Active JP7179795B2 (en) | 2020-03-18 | 2020-03-18 | Anonymization device, anonymization method and anonymization program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7179795B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013080375A (en) | 2011-10-04 | 2013-05-02 | Hitachi Ltd | Personal information anonymizing device and method |
JP2020009105A (en) | 2018-07-06 | 2020-01-16 | キヤノンメディカルシステムズ株式会社 | Medical information processing device, medical information processing system, and medical information processing program |
-
2020
- 2020-03-18 JP JP2020047509A patent/JP7179795B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013080375A (en) | 2011-10-04 | 2013-05-02 | Hitachi Ltd | Personal information anonymizing device and method |
JP2020009105A (en) | 2018-07-06 | 2020-01-16 | キヤノンメディカルシステムズ株式会社 | Medical information processing device, medical information processing system, and medical information processing program |
Also Published As
Publication number | Publication date |
---|---|
JP2021149398A (en) | 2021-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276002B (en) | Search application data processing method and device, computer equipment and storage medium | |
US10424406B2 (en) | Methods and systems for watermarking of anonymized datasets | |
US11853329B2 (en) | Metadata classification | |
JP6398724B2 (en) | Information processing apparatus and information processing method | |
CN112912870A (en) | Tenant identifier conversion | |
Chandrakar et al. | Improved technique for preserving privacy while mining real time big data | |
Sharma et al. | A sanitization approach for big data with improved data utility | |
JP2017215868A (en) | Anonymization processor, anonymization processing method, and program | |
US11556429B2 (en) | Multiple data labels within a backup system | |
Nayahi et al. | An efficient clustering for anonymizing data and protecting sensitive labels | |
JP7179795B2 (en) | Anonymization device, anonymization method and anonymization program | |
Qu et al. | Privacy preserving in big data sets through multiple shuffle | |
Prakash et al. | Haphazard, enhanced haphazard and personalised anonymisation for privacy preserving data mining on sensitive data sources | |
JP6588880B2 (en) | Anonymization device, anonymization method, and program | |
Raj et al. | Big data anonymization in cloud using k-anonymity algorithm using map reduce framework | |
CN112800033B (en) | Data operation request processing method and device, computer equipment and storage medium | |
JP6779854B2 (en) | Anonymization device, anonymization method and anonymization program | |
JP6883508B2 (en) | Anonymization device, anonymization method and anonymization program | |
Miller et al. | Constrained k-anonymity: Privacy with generalization boundaries | |
Kumar et al. | Privacy-preservation of vertically partitioned electronic health record using perturbation methods | |
JP7175255B2 (en) | Anonymization device, anonymization method and anonymization program | |
JP7219726B2 (en) | Risk assessment device, risk assessment method and risk assessment program | |
Santos et al. | SMDAnonymizer: a web tool for data anonymization | |
Priyadarsini et al. | Feature creation based slicing for privacy preserving data mining | |
Ranganathan et al. | A Tool for Database Masking and Anonymization of PostgreSQL |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220208 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221026 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221101 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7179795 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |