JP2021033382A5 - - Google Patents

Download PDF

Info

Publication number
JP2021033382A5
JP2021033382A5 JP2019149284A JP2019149284A JP2021033382A5 JP 2021033382 A5 JP2021033382 A5 JP 2021033382A5 JP 2019149284 A JP2019149284 A JP 2019149284A JP 2019149284 A JP2019149284 A JP 2019149284A JP 2021033382 A5 JP2021033382 A5 JP 2021033382A5
Authority
JP
Japan
Prior art keywords
program
frequency
attribute
frequency table
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019149284A
Other languages
Japanese (ja)
Other versions
JP2021033382A (en
JP7442995B2 (en
Filing date
Publication date
Application filed filed Critical
Priority to JP2019149284A priority Critical patent/JP7442995B2/en
Priority claimed from JP2019149284A external-priority patent/JP7442995B2/en
Publication of JP2021033382A publication Critical patent/JP2021033382A/en
Publication of JP2021033382A5 publication Critical patent/JP2021033382A5/ja
Application granted granted Critical
Publication of JP7442995B2 publication Critical patent/JP7442995B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

6.匿名化処理プログラム
個票データの秘匿処理を行うための匿名化処理プログラムは、(1)多次元度数表集計処理部、及び(2)秘匿変換処理部を構成する各プログラムにより構成する(図2)。
多次元度数表集計処理部は、個票データを入力データとし、(1)多次元クロス度数表集計プログラムにより構成する(図3)。秘匿変換処理部は、多次元クロス度数表を入力データとし、(2)消去秘匿、(3)丸め秘匿、(4)差分計算、及び(5)個票形式変換の各プログラムにより構成する(図4)。
(1)多次元度数表集計処理部については、個票データを入力データとして用いて多次元度数表を集計することから、外部アクセスから遮断された閉鎖環境で利用することを想定している。(2)秘匿変換処理部については秘匿処理を行う機能と度数表を個票形式に変換する機能を有しており、多次元度数表の秘匿処理については閉鎖環境で行う必要がある。ただし、秘匿処理後の秘匿度数表を入力データとして個票データ形式に変換する場合は、外部アクセスが可能な解放環境で利用する可能性を視野に入れた設計としている。プログラム作成については、どのようなプログラミング言語を用いてもよい。
6. Anonymization processing program The anonymization processing program for anonymizing individual data consists of programs that make up (1) the multidimensional frequency table aggregation processing unit and (2) the anonymization conversion processing unit (Fig. 2 ).
The multidimensional frequency table tabulation processing unit uses individual data as input data, and consists of (1) a multidimensional cross frequency table tabulation program ( Fig. 3 ). The ciphering conversion processing unit uses the multidimensional cross frequency table as input data, and consists of programs for (2) erasing ciphering, (3) rounding ciphering, (4) difference calculation, and (5) individual form format conversion ( Fig. 4 ).
(1) The multi-dimensional frequency table tabulation processing part uses individual data as input data to tabulate the multi-dimensional frequency table, so it is assumed that it will be used in a closed environment that is blocked from external access. (2) The ciphering conversion processing unit has functions for ciphering and converting frequency tables into individual tables, and ciphering of multidimensional frequency tables must be performed in a closed environment. However, when the confidentiality frequency table after confidentiality processing is converted into individual data format as input data, it is designed with the possibility of using it in an open environment where external access is possible. Any programming language may be used for programming.

6.1多次元クロス度数表集計プログラム
多次元クロス度数表集計プログラムは、属性フィールドの全ての組合わせごとに内訳合計の計算処理を行う。計算方法としては、合計キーを付与したデータを基データに結合し、属性キーで並び替えを行った上で、同一属性ごとに度数及び加重度数の合算を行う方法を用いて、再帰計算により全組合わせ別の合計計算処理を行う(図5)。
(1) 前処理
下記の前処理を行う。
・処理対象とする属性項目フィールドを選択
・不要なフィールドを除去
・フィールドに加重度数(Weight)が無い場合は加重度数(Weight)フィールドを追加し、各レコードの値を1にセット
・度数(Freauency)フィールドを追加して、各レコードの値を1にセット
(2) フィールド番号j = 0
指定したフィールドについて、カウンターjの初期化を行う。
(3) 処理フィールドj = j+1
処理対象となる指定フィールドをカウンターjによりカウントする。
(4) 全レコードコピーD1
入力ファイルの全レコードをコピーしてファイルD1として出力する。
(5) レコード番号i = 0
入力レコードのカウンターiについて初期化を行う。
(6) レコード読込
個票データのレコード読込を行う。
(7) i = i + 1
処理対象となるレコードをカウンターiによりカウントする。
(8) 属性j番目分類=”~”
処理対象となるレコードについて、属性j番目の属性を合計符号”~”に置き換える。
(9) 最終レコード?
全レコードについて処理が完了したか判定を行う。
Yes ⇒処理(6)
No ⇒処理(10)
(10) 結合D1+全レコード
属性i番目について処理済の全レコードをファイルD1に結合する。
(11) クロス属性並び替え
結合ファイルについて、属性別に並び替えを行う。
(12) 属性別度数合算
属性項目の同一組合せごとに度数(Frequency)の合算処理を行う。
(13) 属性別加重度数合算
属性項目の同一組合せごとに加重度数(Weight)の合算処理を行う。
(14) 処理対象データ置換
再帰計算を行うために、処理対象データを処理済データに置き換える。
(15) 最終フィールド?
全フィールドについて処理が完了したか判定を行う。
Yes ⇒終了
No ⇒処理(3)
6.1 Multidimensional Cross Frequency Table Aggregation Program The multidimensional cross frequency table aggregation program performs a breakdown total calculation process for each combination of attribute fields. As a calculation method, the data to which the total key is assigned is combined with the base data, sorted by the attribute key, and then summed up the frequency and weighted frequency for each same attribute. Total calculation processing for each combination is performed ( Fig. 5 ).
(1) Pretreatment Perform the following pretreatment.
・Select the attribute item field to be processed ・Remove unnecessary fields ・If the field does not have a weighted frequency (Weight), add a weighted frequency (Weight) field and set the value of each record to 1 ・Freauency ) field and set the value to 1 for each record
(2) field number j = 0
Initialize the counter j for the specified field.
(3) processing field j = j+1
The specified fields to be processed are counted by the counter j.
(4) Copy all records D1
Copy all records of the input file and output as file D1.
(5) record number i = 0
Initialize the input record counter i.
(6) Read record Read record of individual data.
(7) i = i + 1
A counter i counts records to be processed.
(8) Attribute j-th classification = “~”
For the record to be processed, the j-th attribute is replaced with the total sign "~".
(9) Last record?
Determine whether the processing has been completed for all records.
Yes ⇒ Process (6)
No ⇒ Process (10)
(10) Combine D1 + all records Combine all processed records for attribute i to file D1.
(11) Cross-attribute sorting Sorts the combined files by attribute.
(12) Addition of frequencies by attribute The frequencies are added up for each identical combination of attribute items.
(13) Addition of weighted frequencies by attribute The weighted frequencies (Weight) are added up for each identical combination of attribute items.
(14) Replacing data to be processed To perform recursive calculation, replace the data to be processed with the processed data.
(15) Last field?
Determine whether processing has been completed for all fields.
Yes ⇒ end
No ⇒ Process (3)

6.2消去秘匿プログラム
消去秘匿プログラムは、属性項目の組合わせごとに分類符号を付与して分類符号ごとの最小度数の検査を行い、最小度数が安全基準Kに満たない場合は、その属性項目組合わせのレコードについて内訳をゼロ値に置き換えることで多次元クロス度数表の消去秘匿処理を行う(図6、図7、図8)。
6.2 Erasure concealment program The erasure concealment program assigns a classification code to each combination of attribute items and checks the minimum frequency for each classification code. Erasure and concealment processing of the multidimensional cross frequency table is performed by replacing the details of the combination record with zero values ( FIGS. 6, 7, and 8 ).

6.3丸め秘匿プログラム
丸め秘匿プログラムは、消去秘匿処理済みの多次元クロス度数表について、丸め基数Bで除算して小数点以下を四捨五入することにより度数及び加重度数の丸め処理を行い、度数表の秘匿を補強する(図9)。
6.3 Rounding concealment program The rounding concealment program divides the erased concealed multi-dimensional cross frequency table by the rounding radix B and rounds off the decimals to round off the frequencies and weighted frequencies. Reinforce confidentiality ( Fig. 9 ).

6.4差分計算プログラム
差分計算プログラムは、内訳合計と総数の差分計算を行う。差分計算は、度数表集計の逆処理を行う方法で計算し、属性項目の組合わせごとの内訳について正負の符号を反転させて合計と合算していくことで、全ての属性項目の組合わせごとの差分計算を再帰計算により行う。正負を反転させた内訳は、属性フィールドを合計符号“~”に置き換えて、基の度数表データと結合し、属性項目別に並び替えを行った上で、同一属性キーごとに度数及び加重度数の合算を行うことで差分を計算する(図10)。
6.4 Difference Calculation Program The difference calculation program calculates the difference between the breakdown total and the total number. The difference calculation is calculated by the method of performing the reverse processing of the frequency table aggregation, and by reversing the positive and negative signs of the breakdown for each combination of attribute items and adding them to the total, all combinations of attribute items is calculated by recursive calculation. The positive/negative breakdown is replaced with the total sign “~” in the attribute field, combined with the original frequency table data, sorted by attribute item, and then the frequency and weighted frequency for each same attribute key The difference is calculated by summation ( Fig. 10 ).

6.5個票形式変換プログラム
個票形式変換プログラムは、差分計算を行った度数表の内訳と差分について、縮尺Rで度数または加重度数を除算して整数化した値を出力レコード数とし、度数または加重度数を出力レコード数で除算した値をウェイトとして、属性ごとにレコード出力を行う(図11)。
6.5 Individual form format conversion program The individual form format conversion program divides the frequency or weighted frequency by the scale R and converts the difference and the breakdown of the frequency table for which the difference calculation was performed into an integer, and outputs the number of output records. Alternatively, a value obtained by dividing the weighted frequency by the number of output records is used as a weight, and records are output for each attribute ( Fig. 11 ).

(図1)匿名化装置の機器構成図 秘匿装置は、市販のパーソナルコンピュータ(PC)にプログラムをインストールし、入出力データと中間データを保存する記憶装置を接続して構成する。(Fig. 1) Equipment configuration diagram of anonymization device An anonymization device is configured by installing a program in a commercially available personal computer (PC) and connecting a storage device for storing input/output data and intermediate data. (図2)匿名化処理プログラムの流れ図(全体) 個票データの匿名化処理プログラムは、多次元度数表集計処理部と秘匿変換処理部により構成する。(Fig. 2) Flowchart of anonymization processing program (overall) The anonymization processing program for individual data consists of a multidimensional frequency table tabulation processing unit and an anonymization processing unit. (図3)多次元度数表集計処理部のブロック図 多次元度数表集計処理部は、個票データを読み込んで集計処理を行い、後段の秘匿変換処理において入力に用いる多次元クロス度数表を作成する。 (Fig. 3) Block diagram of multi-dimensional frequency table aggregation processing unit The multi-dimensional frequency table aggregation processing unit reads individual data, performs aggregation processing, and creates a multi-dimensional cross frequency table to be used as input in the confidential conversion processing at the later stage. do. (図4)秘匿変換処理部のブロック図 秘匿変換処理部は、多次元クロス度数表を読み込んで消去秘匿、丸め秘匿、差分計算及び個票データ形式変換を行い、個票データから作成した多次元クロス度数表の秘匿処理を行って、個票データ形式に変換する。 (Fig. 4) Block diagram of the ciphering conversion processing unit The ciphering conversion processing unit reads the multidimensional cross frequency table, performs erasure ciphering , rounding ciphering, difference calculation, and individual data format conversion, and creates multidimensional data from the individual data. Confidential processing is performed on the cross frequency table to convert it into individual data format. (図5)多次元クロス度数集計プログラムの流れ図 多次元クロス度数集計プログラムは、個票データを入力して多次元クロス度数表を集計する。 (Fig. 5) Flow chart of multidimensional cross frequency tabulation program The multidimensional cross frequency tabulation program inputs individual data and tabulates a multidimensional cross frequency table. (図6)消去秘匿プログラム処理2A(属性組合わせ符号付与)の流れ図 消去秘匿プログラムは、多次元クロス度数表について度数チェックを行い、安全基準を満たさない属性項目の組合せについて、内訳をゼロ値に置き換えることで消去秘匿を行う。 (Fig. 6) Flowchart of erasure concealment program processing 2A (attribute combination code assignment) The erasure concealment program performs a frequency check on the multidimensional cross frequency table, and sets the breakdown to zero for combinations of attribute items that do not meet the safety standards. Erasure concealment is performed by replacing. (図7)消去秘匿プログラム処理2B(組合わせ別最小度数検査)の流れ図 消去秘匿プログラムは、多次元クロス度数表について度数チェックを行い、安全基準を満たさない属性項目の組合せについて、内訳をゼロ値に置き換えることで消去秘匿を行う。 (Fig. 7) Flowchart of Erasure Concealment Program Processing 2B (Minimum Frequency Test by Combination) The erasure concealment program performs a frequency check on the multidimensional cross frequency table, and for combinations of attribute items that do not satisfy the safety standards, the details are set to zero values. Erasure secrecy is performed by replacing with (図8)消去秘匿プログラム処理2C(リスク表内訳消去)の流れ図 消去秘匿プログラムは、多次元クロス度数表について度数チェックを行い、安全基準を満たさない属性項目の組合せについて、内訳をゼロ値に置き換えることで消去秘匿を行う。 (Fig. 8) Flowchart of erase concealment program processing 2C (delete risk table breakdown) The erase concealment program performs a frequency check on the multidimensional cross frequency table, and replaces the breakdown with a zero value for combinations of attribute items that do not meet the safety standards. Erasure secrecy is achieved by (図9)丸め秘匿プログラムの流れ図 丸め秘匿プログラムは、多次元クロス度数表について度数の丸め処理を行い、丸め秘匿により度数表の秘匿強度を補強する。 (FIG. 9) Flow Chart of Rounding-Encryption Program The rounding-encryption program rounds the frequencies of the multi-dimensional cross frequency table, and reinforces the encryption strength of the frequency table by round-encryption. (図10)差分計算プログラムの流れ図 差分計算プログラムは、属性の全ての組合せについて、内訳合計と総数の差分計算を行う。 (FIG. 10) Flowchart of Difference Calculation Program The difference calculation program performs difference calculation of the breakdown total and the total for all combinations of attributes. (図11)個票形式変換プログラムの流れ図 個票形式変換プログラムは、属性組合せごとの内訳度数と差分度数を用いて、度数表を個票形式データに変換する。 (FIG. 11) Flowchart of Individual-format Format Conversion Program The individual-format format conversion program converts the frequency table into individual-format format data using the breakdown frequency and difference frequency for each attribute combination.

JP2019149284A 2019-08-16 2019-08-16 Anonymization device for individual data using secret conversion processing of multidimensional cross frequency table Active JP7442995B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019149284A JP7442995B2 (en) 2019-08-16 2019-08-16 Anonymization device for individual data using secret conversion processing of multidimensional cross frequency table

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019149284A JP7442995B2 (en) 2019-08-16 2019-08-16 Anonymization device for individual data using secret conversion processing of multidimensional cross frequency table

Publications (3)

Publication Number Publication Date
JP2021033382A JP2021033382A (en) 2021-03-01
JP2021033382A5 true JP2021033382A5 (en) 2022-08-29
JP7442995B2 JP7442995B2 (en) 2024-03-05

Family

ID=74676517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019149284A Active JP7442995B2 (en) 2019-08-16 2019-08-16 Anonymization device for individual data using secret conversion processing of multidimensional cross frequency table

Country Status (1)

Country Link
JP (1) JP7442995B2 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017126112A (en) 2016-01-12 2017-07-20 株式会社リコー Server, distributed server system, and information processing method
JP6711689B2 (en) 2016-05-12 2020-06-17 株式会社Nttドコモ Privacy protector

Similar Documents

Publication Publication Date Title
US11978057B2 (en) Single instance storage of metadata and extracted text
Noblett et al. Recovering and examining computer forensic evidence
US20100205020A1 (en) System and method for establishing, managing, and controlling the time, cost, and quality of information retrieval and production in electronic discovery
US20080270370A1 (en) Desensitizing database information
US8782734B2 (en) Semantic controls on data storage and access
Breitinger et al. On the database lookup problem of approximate matching
US20180137149A1 (en) De-identification data generation apparatus, method, and non-transitory computer readable storage medium thereof
Bogachev Unified derivation of the limit shape for multiplicative ensembles of random integer partitions with equiweighted parts
Prajapati et al. Performance comparison of different sorting algorithms
Alshugran et al. Extracting and modeling the privacy requirements from HIPAA for healthcare applications
JP2021033382A5 (en)
JP2019067096A (en) Recording medium recording code-code classification and search software
US8307001B2 (en) Auditing of curation information
Chen et al. Email visualization correlation analysis forensics research
Wang et al. A detection model of malicious Android applications based on Naive Bayes
JP7442995B2 (en) Anonymization device for individual data using secret conversion processing of multidimensional cross frequency table
Das et al. Decision support grievance redressal system using sentence sentiment analysis
Sadreddin Exploring Digitalization in New Venture Ecosystems–Three Essays
Kuo et al. The study of plagiarism detection for object-oriented programming
Lim et al. A digital media similarity measure for triage of digital forensic evidence
Paul Entropy-based file type identification and partitioning
Silva et al. Evaluating the impact of anonymization on large interaction network datasets
JP6251437B1 (en) Recording medium recording classification code generation software
Ranbaduge A scalable blocking framework for multidatabase privacy-preserving record linkage
O’keefe Privacy and confidentiality in service science and big data analytics