JP5860116B2 - Reduction coefficient calculation device, anonymous processing device, method and program using the same - Google Patents

Reduction coefficient calculation device, anonymous processing device, method and program using the same Download PDF

Info

Publication number
JP5860116B2
JP5860116B2 JP2014202232A JP2014202232A JP5860116B2 JP 5860116 B2 JP5860116 B2 JP 5860116B2 JP 2014202232 A JP2014202232 A JP 2014202232A JP 2014202232 A JP2014202232 A JP 2014202232A JP 5860116 B2 JP5860116 B2 JP 5860116B2
Authority
JP
Japan
Prior art keywords
divisions
anonymous
personal information
obtaining
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014202232A
Other languages
Japanese (ja)
Other versions
JP2016015110A (en
Inventor
秀暢 小栗
秀暢 小栗
Original Assignee
ニフティ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ニフティ株式会社 filed Critical ニフティ株式会社
Priority to JP2014202232A priority Critical patent/JP5860116B2/en
Publication of JP2016015110A publication Critical patent/JP2016015110A/en
Application granted granted Critical
Publication of JP5860116B2 publication Critical patent/JP5860116B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、個人情報を匿名化又は多様化するための情報処理技術に関する。   The present invention relates to information processing technology for anonymizing or diversifying personal information.

情報処理技術の発展に伴い、日常の多くの場面で情報が収集され、この収集された情報を用いた処理が行われている。例えば、消費者が店舗の会員となって商品を購入する場合、会員登録時に消費者の氏名、年齢、性別、住所、メールアドレス等を登録することが多い。そして、消費者が商品を購入すると、店舗側のシステムが、この消費者と購入した商品の情報を対応付けて記録する。このように購入した商品の情報を蓄積して分析すると、当該消費者の嗜好が推定でき、この消費者が好む新商品が発売されたような場合にダイレクトメールを発送するといったサービスを行うことができる。更に、多くの消費者の情報について分析することで、20代女性の好む商品や関東エリアで好まれる商品といった情報を導くことができ、マーケティング等に利用される。   With the development of information processing technology, information is collected in many everyday situations, and processing using the collected information is performed. For example, when a consumer purchases a product as a member of a store, the consumer's name, age, gender, address, e-mail address, etc. are often registered at the time of membership registration. When a consumer purchases a product, the store-side system records the consumer and the purchased product information in association with each other. By accumulating and analyzing information on purchased products in this way, it is possible to estimate the consumer's preferences and perform a service such as sending a direct mail when a new product preferred by the consumer is released. it can. Furthermore, by analyzing information of many consumers, information such as products preferred by women in their 20s and products preferred in the Kanto area can be derived and used for marketing and the like.

また、これらの情報は、当該店舗だけでなく、商品を製造するメーカや、他の企業にとっても新商品の開発や安全性の向上などに用いることができ、価値を有することがある。   In addition, the information can be used not only for the store but also for the manufacturer of the product and other companies for the development of new products and the improvement of safety, and may have value.

しかし、店舗が有する消費者の個人情報を各消費者の許諾を得ずに、他者へ提供することはできない。このため、上記消費者に関する情報を他者へ提供する場合には、個人を特定できないように、匿名化する必要がある。   However, the consumer's personal information in the store cannot be provided to others without obtaining the consent of each consumer. For this reason, when providing information related to the consumer to others, it is necessary to anonymize so that individuals cannot be identified.

例えば、年齢が記載されている会員リストに25歳の人が一人だけであると、25歳の知人がその会員であることを知った時点で、その人を特定できることになる。即ち、25歳の会員という属性を持つ人が一人だけであると、他の情報と照らし合わせることで、個人を特定できる可能性が高い。   For example, if there is only one person 25 years old in the member list in which the age is described, the person can be identified when he / she knows that the 25-year-old acquaintance is the member. That is, if there is only one person with the attribute of a 25-year-old member, there is a high possibility that an individual can be specified by comparing with other information.

そこで、会員リストの年齢の記載を10歳区切りに抽象化し、20代が3人のように同じ属性を持つ人が複数人となるようにすれば、3人のうちの誰であるかを特定できなくなる。このように同じ属性を持つ人がk人以上いる状態を、「k−匿名性」を満たすと称し、そのようにデータを加工することを「k-匿名化」と称する。   Therefore, if the age description in the member list is abstracted into 10-year breaks, and there are multiple people with the same attribute, such as three in their 20s, who of the three is identified become unable. A state in which there are k or more people having the same attribute in this way is referred to as “k-anonymity” and processing such data is referred to as “k-anonymization”.

また、匿名化の基準や手法としては、種々のものが提案されており、例えば、l−多様性、Pk匿名化、t-closeness(非特許文献1参照)が知られている。   Various anonymization standards and methods have been proposed. For example, l-diversity, Pk anonymization, and t-closeness (see Non-Patent Document 1) are known.

特開2012−133451号公報JP 2012-133451 A 特開2011−108195号公報JP 2011-108195 A 特開2011−128862号公報JP 2011-128862 A 特開2012−78932号公報JP 2012-78932 A 特開2014−102643号公報JP 2014-102643 A

中川裕志著、“プライバシ保護データマイニング”、[平成26年5月23日検索]、インターネット〈URL:http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/labintro/2010PPDM-summary.pdf〉Yuji Nakagawa, “Privacy Protection Data Mining”, [Search May 23, 2014], Internet <URL: http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/labintro /2010PPDM-summary.pdf>

22は、ユーザがICカードを用いて駅の自動改札を出入りし、乗車料金を決済した場合に、管理サーバ側に記録される履歴データ(フローデータ)の一例を示す図である。図22の履歴データ91は、ユーザIDや、利用日時、利用駅、利用内容、料金等が対応付けられている。この履歴データ91は、ユーザIDとユーザの姓、年齢、性別を対応付けたユーザ情報92を参照することで、履歴データの各ユーザが識別できる。 FIG. 22 is a diagram illustrating an example of history data (flow data) recorded on the management server side when a user enters and exits an automatic ticket gate of a station using an IC card and settles a boarding fee. The history data 91 in FIG. 22 is associated with a user ID, use date and time, use station, use contents, fee, and the like. The history data 91 can identify each user of the history data by referring to the user information 92 in which the user ID is associated with the user's last name, age, and gender.

この履歴データ91を他の事業者へ提供する場合、ユーザIDとユーザの姓等とを対応付けるユーザ情報92を削除する、或は参照できないように管理することで、ユーザIDから個人を識別できないようにすること(仮名化状態とすること)が考えられる。   When this history data 91 is provided to other business operators, the user information 92 that associates the user ID with the user's last name is deleted or managed so that it cannot be referred to, so that the individual cannot be identified from the user ID. It can be considered to be in a pseudonymized state.

しかし、仮名化状態の場合、ユーザIDから氏名が特定できないとしても、ユーザIDと対応付けられた利用駅等の情報が一個人に限定されている場合、即ち、他に利用駅等の情報が一致するユーザがいない場合、利用駅等の情報から再識別できる可能性がある。例えば、ID=A001のユーザが新宿駅、秋葉原駅、人形町を利用していた場合に、同じように駅を利用した人が他にいなければ、ID=A001のユーザの行動を知る人であれば、この履歴データからID=A001のユーザを再識別できる。   However, in the kana conversion state, even if the name cannot be specified from the user ID, if the information such as the use station associated with the user ID is limited to one individual, that is, the other information such as the use station is the same If there is no user to do, there is a possibility that it can be re-identified from information such as the station used. For example, when a user with ID = A001 uses Shinjuku Station, Akihabara Station, and Ningyocho, if there is no other person who uses the station in the same way, a person who knows the behavior of the user with ID = A001. If there is, the user with ID = A001 can be re-identified from the history data.

例えば、n=4247万人のユーザが、m=9262の駅を一様分布で選択した場合に、再識別できる駅の数を式1によって求めると、
mS=n ・・・(式1)
S=2.237となり、履歴データに3駅記録されていれば、再識別できることが分かる。
For example, when n = 4,247,000 users select m = 9262 stations in a uniform distribution, the number of stations that can be re-identified is calculated by Equation 1,
mS = n (Formula 1)
It becomes S = 2.237, and it can be understood that re-identification is possible if three stations are recorded in the history data.

このようにデータの項目が駅で、選択肢数(属性種)が9262駅と非常に大きい場合、利用履歴に3駅含まれていただけ、即ちデータの項目数(属性数)が3つあるだけで、母数が4247万人と非常に大きいデータであっても匿名化できなくなってしまう。   In this way, if the data item is a station and the number of options (attribute type) is very large as 9262 stations, the usage history can include 3 stations, that is, there are only 3 data items (attributes). , Even if the parameter is very large with 42.47 million people, it becomes impossible to anonymize.

また、ICカードの履歴データには、この他にもショッピングの情報が含まれることがあり、購入した商品名や店舗名等の多大な選択肢数となる情報が更に含まれた場合、再識別の可能性が更に高くなる。   In addition, the history data of the IC card may include other shopping information. If the information including a large number of choices such as purchased product names and store names is further included, re-identification may be performed. The possibility is even higher.

このため、各項目の値を抽象化して、各項目の値の組み合わせが一個人に限定されないように匿名化することが考えられるが、行動履歴のようなデータは、データ量が非常に多くなり易く、例えば10万人を超えるような所謂ビッグデータの場合、抽象化を人手で行うのは現実的ではない。   For this reason, it is conceivable that the values of each item are abstracted and anonymized so that the combination of the values of each item is not limited to one individual, but data such as action history tends to be very large in data amount. For example, in the case of so-called big data that exceeds 100,000 people, it is not realistic to perform abstraction manually.

また、機械的に抽象化を行うことも考えられるが、機械的に抽象化を行うと、抽象化した結果が例え匿名性を満たしたとしても、有用なデータになるとは限らない。例えば項目の値の組み合わせが一個人に限定されなくなるまで抽象化した結果、利用価値が無くなるほど抽象的な項目の値(語)になってしまった場合、匿名性を満たしても意味が無い。このため機械的に抽象化を行う場合でも抽象化の結果を人が確認し、有用なデータになっていなければ、抽象化する項目を変える等の設定を変更して抽象化の処理をやり直すといった試行の繰り返しになる。   Although abstraction can be performed mechanically, if abstraction is performed mechanically, even if the abstracted result satisfies anonymity, it is not always useful data. For example, if the combination of item values is abstracted until it is not limited to one individual, and the value (word) of the item is so abstract that there is no use value, it does not make sense to satisfy anonymity. For this reason, even when performing abstraction mechanically, the result of the abstraction is confirmed by a person, and if it is not useful data, the setting of changing items to be abstracted is changed and the abstraction process is restarted. Repeated trials.

しかし、単に試行を繰り返すのは非効率であり、特にビッグデータの場合、抽象化の処理や匿名性を検定する処理に多大な時間がかかってしまうため、充分に試行を行うことが困難であった。   However, simply repeating trials is inefficient, especially in the case of big data, it takes a lot of time to process abstraction and anonymity, making it difficult to perform trials sufficiently. It was.

そこで本発明は、減少係数に基づき、匿名性を満たす可能性が高い区分数で匿名化処理を実行することで、匿名化処理の効率の向上を可能にさせる技術を提供する。   Then, this invention provides the technique which makes it possible to improve the efficiency of anonymization processing by performing anonymization processing with the number of divisions with high possibility of satisfy | filling anonymity based on a reduction coefficient.

本発明に係る減少係数算出装置は、
個人情報を匿名化した匿名情報を取得する匿名情報取得部と、
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、各語の最少出現数を求める出現数取得部と、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求める係数算出部と、を備えた。
The reduction coefficient calculation apparatus according to the present invention is:
Anonymous information acquisition unit that acquires anonymous information obtained by anonymizing personal information;
The number of occurrences for obtaining the number of divisions for each type of words that can be attributed to the anonymous information, obtaining the minimum number of occurrences of each word, and
A coefficient calculation unit for obtaining a reduction coefficient indicating a decrease amount of the minimum occurrence number when the number of divisions is increased based on a combination of the plurality of division numbers and the minimum occurrence number different from each other. It was.

前記減少係数算出装置は、前記減少係数を直線近似式、多項式近似式、指数近似式、又は累乗近似式として求めても良い。   The reduction coefficient calculation device may obtain the reduction coefficient as a linear approximation formula, a polynomial approximation formula, an exponential approximation formula, or a power approximation formula.

本発明に係る匿名処理装置は、
匿名化対象の個人情報を匿名化する際の区分数を取得する区分数取得部と、
前記減少係数算出装置によって算出された減少係数を取得する係数取得部と、
前記減少係数と前記区分数に基づいて、前記個人情報を前記区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性を判定する可能性判定部と、
前記可能性が高い場合に前記個人情報の匿名化を行い、前記可能性が低い場合に前記個人情報の匿名化を中止する匿名化部と、
を備えた。
The anonymous processing device according to the present invention is:
A number-of-sections acquisition unit that acquires the number of sections when anonymizing personal information to be anonymized,
A coefficient acquisition unit for acquiring a reduction coefficient calculated by the reduction coefficient calculation device;
Based on the reduction coefficient and the number of categories, a possibility determination unit that determines the possibility that the amount of decrease in the minimum number of appearances when the personal information is anonymized by the number of categories exceeds a predetermined reference value;
Anonymizing the personal information when the possibility is high, and anonymizing the anonymization of the personal information when the possibility is low,
Equipped with.

本発明に係る匿名処理装置は、
匿名化対象の個人情報を受け付ける受付部と、
前記減少係数算出装置によって算出された減少係数を取得する係数取得部と、
前記減少係数と前記個人情報の全体数に基づいて、前記個人情報を匿名化した場合の最少出現数の減少量が所定の基準値を超えない区分数を求める区分数算出部と、
前記区分数で前記個人情報の匿名化を行う匿名化部と、
を備えた。
The anonymous processing device according to the present invention is:
A reception unit that accepts personal information to be anonymized;
A coefficient acquisition unit for acquiring a reduction coefficient calculated by the reduction coefficient calculation device;
Based on the reduction coefficient and the total number of personal information, the number-of-segments calculation unit for obtaining the number of categories in which the amount of decrease in the minimum number of appearances when the personal information is anonymized does not exceed a predetermined reference value;
An anonymization unit that anonymizes the personal information by the number of divisions;
Equipped with.

本発明に係る減少係数算出方法は、
個人情報を匿名化した匿名情報を取得するステップと、
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、各語の最少出現数を求めるステップと、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求めるステップと、
をコンピュータが実行する。
The reduction coefficient calculation method according to the present invention is:
Acquiring anonymous information obtained by anonymizing personal information;
A step of obtaining the number of divisions for each type of words that can be attributed to the anonymous information, and obtaining the minimum number of occurrences of each word;
Obtaining a reduction coefficient indicating a decrease amount of the minimum number of occurrences when the number of divisions is increased based on a combination of a plurality of the number of divisions and the minimum number of occurrences of which the number of divisions is different;
Is executed by the computer.

本発明に係る匿名処理方法は、
匿名化対象の個人情報を匿名化する際の区分数を取得するステップと、
前記減少係数算出装置によって算出された減少係数を取得するステップと、
前記減少係数と前記区分数に基づいて、前記個人情報を前記区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性を判定するステップと、
前記可能性が高い場合に前記個人情報の匿名化を行い、前記可能性が低い場合に前記個人情報の匿名化を中止するステップと、
をコンピュータが実行する。
The anonymous processing method according to the present invention is:
Obtaining the number of sections when anonymizing personal information to be anonymized,
Obtaining a reduction coefficient calculated by the reduction coefficient calculation device;
Determining the possibility that the amount of decrease in the minimum number of occurrences when the personal information is anonymized by the number of categories based on the decrease coefficient and the number of categories exceeds a predetermined reference value;
Performing anonymization of the personal information when the possibility is high, and stopping anonymization of the personal information when the possibility is low;
Is executed by the computer.

本発明に係る匿名処理方法は、
匿名化対象の個人情報を受け付けるステップと、
前記減少係数算出装置によって算出された減少係数を取得するステップと、
前記減少係数と前記個人情報の全体数に基づいて、前記個人情報を匿名化した場合の最少出現数の減少量が所定の基準値を超えない区分数を求めるステップと、
前記区分数で前記個人情報の匿名化を行うステップと、
をコンピュータが実行する。
The anonymous processing method according to the present invention is:
Receiving personal information to be anonymized;
Obtaining a reduction coefficient calculated by the reduction coefficient calculation device;
Based on the reduction coefficient and the total number of personal information, obtaining a number of divisions in which the amount of decrease in the minimum number of appearances when anonymizing the personal information does not exceed a predetermined reference value;
Anonymizing the personal information by the number of sections;
Is executed by the computer.

また、本発明は、上記方法をコンピュータに実行させるためのプログラムであっても良い。更に、前記プログラムは、コンピュータが読み取り可能な記録媒体に記録されていても良い。 The present invention may be a program for causing a computer to execute the above method. Furthermore, before Kipu program, the computer may be recorded in a recording medium readable.

ここで、コンピュータが読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータから読み取ることができる記録媒体をいう。このような記録媒体の内コンピュータから取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、CD-ROM、CD-R/W、DVD、DAT、8mmテープ、メモリカード等がある。   Here, the computer-readable recording medium refers to a recording medium that accumulates information such as data and programs by electrical, magnetic, optical, mechanical, or chemical action and can be read from the computer. . Examples of such a recording medium that can be removed from the computer include a flexible disk, a magneto-optical disk, a CD-ROM, a CD-R / W, a DVD, a DAT, an 8 mm tape, and a memory card.

また、コンピュータに固定された記録媒体としてハードディスクやROM(リードオンリーメモリ)等がある。   Further, there are a hard disk, a ROM (read only memory), and the like as a recording medium fixed to the computer.

本発明は、減少係数に基づき、匿名性を満たす可能性が高い区分数で匿名化処理を実行することで、匿名化処理の効率の向上を可能にさせる技術を提供できる。   This invention can provide the technique which makes it possible to improve the efficiency of anonymization processing by performing anonymization processing by the number of divisions with high possibility of satisfy | filling anonymity based on a reduction coefficient.

図1は、匿名化処理の説明図である。FIG. 1 is an explanatory diagram of anonymization processing. 図2は、多様化処理の説明図である。FIG. 2 is an explanatory diagram of the diversification process. 図3は、実施形態における匿名化システムの概略構成図である。FIG. 3 is a schematic configuration diagram of an anonymization system according to the embodiment. 図4Aは、個人情報の一例を示す図である。FIG. 4A is a diagram illustrating an example of personal information. 図4Bは、匿名情報の一例を示す図である。FIG. 4B is a diagram illustrating an example of anonymous information. 図5は、区分の説明図である。FIG. 5 is an explanatory diagram of classification. 図6は、匿名結果DBに記憶される匿名データの一例を示す図である。FIG. 6 is a diagram illustrating an example of anonymous data stored in the anonymous result DB. 図7は、匿名処理装置及び減少係数算出装置のハードウェア構成を示す図である。FIG. 7 is a diagram illustrating a hardware configuration of the anonymous processing device and the reduction coefficient calculating device. 図8は、匿名化処理の説明図である。FIG. 8 is an explanatory diagram of the anonymization process. 図9は、出現数を取得する処理の説明図である。FIG. 9 is an explanatory diagram of a process for acquiring the number of appearances. 図10は、属性パターンの一例を示す図である。FIG. 10 is a diagram illustrating an example of an attribute pattern. 図11は、減少係数算出の処理の説明図である。FIG. 11 is an explanatory diagram of the reduction coefficient calculation process. 図12は、減少係数算出の処理の説明図である。FIG. 12 is an explanatory diagram of the reduction coefficient calculation process. 図13は、出現頻度を求める処理の説明図である。FIG. 13 is an explanatory diagram of processing for obtaining the appearance frequency. 図14は、減少係数を用いた匿名化処理の説明図である。FIG. 14 is an explanatory diagram of anonymization processing using a reduction coefficient. 図15は、減少係数を用いた匿名化処理の説明図である。FIG. 15 is an explanatory diagram of anonymization processing using a reduction coefficient. 図16は、図14の匿名化処理の変形例を示す図である。FIG. 16 is a diagram illustrating a modification of the anonymization process of FIG. 図17は、減少係数算出の処理の説明図である。FIG. 17 is an explanatory diagram of the reduction coefficient calculation process. 図18は、累乗近似式によって近似した例の説明図である。FIG. 18 is an explanatory diagram of an example approximated by a power approximation formula. 図19は、減少係数を用いた匿名化処理の説明図である。FIG. 19 is an explanatory diagram of anonymization processing using a reduction coefficient. 図20は、減少係数を用いた匿名化処理の説明図である。FIG. 20 is an explanatory diagram of anonymization processing using a reduction coefficient. 図21は、減少係数算出の処理の説明図である。FIG. 21 is an explanatory diagram of the reduction coefficient calculation process. 図22は、ユーザの行動履歴の一例を示す図である。FIG. 22 is a diagram illustrating an example of a user's behavior history.

以下、図面を参照して本発明を実施するための形態について説明する。以下の実施の形態の構成は例示であり、本発明は実施の形態の構成に限定されない。   Hereinafter, embodiments for carrying out the present invention will be described with reference to the drawings. The configuration of the following embodiment is an exemplification, and the present invention is not limited to the configuration of the embodiment.

〈実施形態1〉
図1は匿名化処理の説明図、図2は多様化処理の説明図である。図1(A)は、姓、年齢、性別の項目を含む会員情報から姓の項目を削除した例を示す。図1(A)に示すように年齢が記載されている会員情報に16歳の女性が一人だけであると、16歳の女性が、この会員であることが分かった時点で、その人を特定できる。即ち、16歳・女性という属性を持つ人が一人だけであると、他の情報と照らし合わせることで、個人を特定できる可能性がある。
<Embodiment 1>
FIG. 1 is an explanatory diagram of anonymization processing, and FIG. 2 is an explanatory diagram of diversification processing. FIG. 1A shows an example in which the last name item is deleted from the member information including the last name, age, and gender items. As shown in Fig. 1 (A), if there is only one 16-year-old woman in the member information in which the age is described, when the 16-year-old woman is found to be this member, the person is identified. it can. That is, if there is only one person with the attribute of 16 years old and female, there is a possibility that an individual can be identified by comparing with other information.

図1(B)では、会員リストの年齢の記載を抽象化し、0代(10歳未満)、10代、20代のように年代別とした。しかし、この場合でも10代女性は一人だけであり、図1(A)と同様に個人が特定できてしまい匿名化としては不十分である。   In FIG. 1 (B), the description of the age in the member list is abstracted and classified by age, such as 0's (under 10 years), 10's, and 20's. However, even in this case, there is only one female teenager, and an individual can be identified as in FIG. 1A, which is insufficient for anonymization.

そこで、図1(C)では、更に抽象化し、10代以下(19歳以下)と20代のように年代の区切りを変更した。図1(C)の場合、10代以下の女性が2人であり、[10代以下]及び[女性]という属性が単一では無くなる。このため前述のように16歳の女性が、この会員であることが分かったとしても、どちらが当該16歳女性のデータであるかは特定できない。このように同じ属性を持つ人がk人以上いる状態を、「k-匿名性」を満たすと称し、そのようにデータを加工することを「k-匿名化」と称する。   Therefore, in FIG. 1 (C), it was further abstracted and the age divisions were changed to those in their teens (under 19 years old) and those in their 20s. In the case of FIG. 1C, there are two women in their teens or less, and the attributes of “10 or less” and [female] are not single. For this reason, even if it turns out that a 16-year-old woman is this member as mentioned above, it cannot be specified which is the data of the 16-year-old woman. A state in which there are k or more people having the same attribute in this way is referred to as “k-anonymity” and processing such data is referred to as “k-anonymization”.

図2は、ユーザ毎の利用駅のデータを抽象化し、ユーザ毎の利用駅が属する区のデータとした例を示す。抽象化前のデータでは、駅が特定されているために、住居が新宿駅付近で勤務地が東京駅付近といったデータと照らし合わせることでユーザを特定できる可能性がある。このため利用駅を抽象化して、利用駅が属する区とすることで、新宿区内の駅と千代田区内の駅を利用するユーザが複数となり、利用者が特定されなくなる。このように「新宿区内の駅と千代田区内の駅を利用する」のように属性値がl種類の可能性を持つよう抽象化することをl−多様化と称する。   FIG. 2 shows an example in which the data of the use stations for each user is abstracted and used as data for the ward to which the use station for each user belongs. In the pre-abstraction data, since the station is specified, there is a possibility that the user can be specified by comparing the data such as the residence near Shinjuku Station and the work place near Tokyo Station. For this reason, by abstracting the use station and making it a ward to which the use station belongs, there are a plurality of users who use stations in Shinjuku ward and stations in Chiyoda ward, and the user is not specified. The abstraction that attribute values have l types of possibilities, such as “use stations in Shinjuku ward and stations in Chiyoda ward” is called l-diversification.

図3は、本実施形態における匿名化システム10の概略構成図である。匿名化システム10は、図1に示すように、匿名処理装置1と減少係数算出装置2を有している。   FIG. 3 is a schematic configuration diagram of the anonymization system 10 in the present embodiment. As shown in FIG. 1, the anonymization system 10 includes an anonymization processing device 1 and a reduction coefficient calculation device 2.

匿名処理装置1は、データ受付部11や、区分数取得部12、係数取得部13、可能性判定部14、匿名化部15、検定部16、縦列登録部17、データ出力部18、匿名結果DB(データベース)31、匿名情報縦列DB32を備えている。   The anonymity processing device 1 includes a data reception unit 11, a classification number acquisition unit 12, a coefficient acquisition unit 13, a possibility determination unit 14, an anonymization unit 15, a test unit 16, a column registration unit 17, a data output unit 18, and an anonymous result. A DB (database) 31 and an anonymous information column DB 32 are provided.

データ受付部11は、個人と対応付けられた複数の項目を含む対象データ(個人情報)や、匿名化の条件、匿名化に係る命令等を受け付ける。なお、個人情報や匿名化の条件等の受付は、インターネット等のネットワークを介して受信するものや、記憶媒体から読み出されるもの、キーボード等の入力手段から入力されるものであっても良い。図4は個人情報の一例を示す図である。図4に示す例では、ユーザ毎のIDや姓、年齢、性別、購入商品、購入場所等の情報を有している。   The data reception unit 11 receives target data (personal information) including a plurality of items associated with an individual, anonymization conditions, an anonymization command, and the like. The reception of personal information and anonymization conditions may be received via a network such as the Internet, read from a storage medium, or input from an input means such as a keyboard. FIG. 4 is a diagram showing an example of personal information. The example shown in FIG. 4 has information such as ID, last name, age, sex, purchased product, and purchase place for each user.

区分数取得部12は、匿名化対象の個人情報を匿名化する際の区分数を取得する。区分数は、匿名情報に含まれる属性が取り得る属性値(語)の種類の数、換言すると属性値を同一の属性値毎に区分した場合の区分の数である。図5は、区分の説明図である。例えば、属性が性別の場合に、属性値を男性と女性の2区分とする。また、属性が年齢の場合に
、属性値を未成年、成人、老人の3区分や、20代以下、30代、40代、50代、60代以上の5区分、更に0代、10代、20代、30代、40代、50代、60代、70代、80代以上の9区分とする。また、属性が住所や購入場所等の地域の場合に、属性値を西日本と東日本の2区分や、北海道、東北、関東、中部、近畿、中国、四国、九州、沖縄の9区分、北海道、青森県、岩手県・・・東京都・・・大阪府といった都道府県の47区分とする。
The number-of-sections acquisition unit 12 acquires the number of sections when anonymizing personal information to be anonymized. The number of divisions is the number of types of attribute values (words) that can be taken by the attributes included in the anonymous information, in other words, the number of divisions when the attribute values are divided for the same attribute values. FIG. 5 is an explanatory diagram of classification. For example, when the attribute is sex, the attribute value is divided into two categories, male and female. In addition, when the attribute is age, the attribute value is classified into 3 categories of minors, adults, and elderly people, 5 categories of 20s or less, 30s, 40s, 50s, 60s or more, 0s, 10s, There are 9 categories, 20s, 30s, 40s, 50s, 60s, 70s, 80s and over. In addition, when the attribute is an area such as an address or purchase location, the attribute value is divided into two categories: West Japan and East Japan, Hokkaido, Tohoku, Kanto, Chubu, Kinki, China, Shikoku, Kyushu, Okinawa, 9 categories, Hokkaido, Aomori 47 prefectures such as prefecture, Iwate prefecture ... Tokyo ... Osaka prefecture.

区分数取得部12は、例えば、匿名化の処理を指示するオペレータによる入力、過去の履歴から読み出し、対象データの属性を抽象化する語(属性値)として匿名化辞書に登録されている語の計数により区分数を取得する。   The number-of-sections acquisition unit 12 reads, for example, the words registered in the anonymization dictionary as words (attribute values) that are input by an operator instructing anonymization processing, read from past history, and abstract the attributes of the target data. Get the number of categories by counting.

係数取得部13は、減少係数算出装置2によって算出された減少係数を取得する。減少係数は、例えば、対象データを匿名化する際、区分数を増加させた場合の最少出現数の減少数又は前記減少数の全体数に対する割合である。   The coefficient acquisition unit 13 acquires the decrease coefficient calculated by the decrease coefficient calculation device 2. The decrease coefficient is, for example, a decrease number of the minimum number of appearances when the number of classifications is increased when anonymizing target data, or a ratio of the decrease number to the total number.

可能性判定部14は、前記減少係数と前記区分数に基づいて、前記個人情報を前記区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性を判定する。   The possibility determination unit 14 determines, based on the decrease coefficient and the number of sections, the possibility that the amount of decrease in the minimum number of appearances when the personal information is anonymized by the number of sections exceeds a predetermined reference value.

匿名化部15は、対象データを匿名化或いは多様化する際に、対象データ中の項目の値であるワード(語)を抽象化したワードに替えることで匿名化を行い、対象データを匿名候補データとする。本実施形態においてワード(語)は、単語や句など、一まとまりの言葉であり、位置情報や電話番号等の数値、メールアドレスやIPアドレス等の識別情報、言葉と同様の意味を持つ記号等を含んでも良い。本実施形態の匿名化部15は、前記可能性判定部14で匿名性を満たす可能性が高いと判定した場合に前記対象データの匿名化を行い、匿名性を満たす可能性が低いと判定した場合には前記対象データの匿名化を中止する。   When the anonymization unit 15 anonymizes or diversifies the target data, the anonymization unit 15 performs anonymization by replacing the word (word) that is the value of the item in the target data with an abstracted word, and the target data is anonymized candidates Data. In this embodiment, a word (word) is a group of words such as a word or a phrase, a numerical value such as location information or a telephone number, identification information such as an e-mail address or an IP address, a symbol having the same meaning as the word, or the like. May be included. The anonymization unit 15 of the present embodiment performs anonymization of the target data when the possibility determination unit 14 determines that the possibility of satisfying anonymity is high, and determines that the possibility of satisfying anonymity is low. In this case, the anonymization of the target data is stopped.

検定部16は、匿名候補データの一個人と対応する項目の値の組み合わせが、当該匿名候補データ中で単一でないことを条件として検定する。例えば検定部16は、匿名候補データがk−匿名性を満たしているか、l−多様性を満たしているかを検定する。即ち、検定部16は、匿名候補データのk値(最少出現数)が基準値以上で、k−匿名性を満たしているか、匿名候補データのl値が基準値以上で、l−多様性を満たしているかを検定する。検定部16は、この検定の結果、匿名性を満たした匿名候補データを匿名情報として匿名結果DB31に記憶させる。   The test | inspection part 16 tests on condition that the combination of the value of the item corresponding to one individual of anonymous candidate data is not single in the said anonymous candidate data. For example, the test unit 16 tests whether the anonymous candidate data satisfies k-anonymity or l-diversity. That is, the test unit 16 determines that the k value (minimum number of occurrences) of the anonymous candidate data is equal to or greater than the reference value and satisfies k-anonymity, or the l value of the anonymous candidate data is equal to or greater than the reference value and the l-diversity is determined. Test whether it meets. The test | inspection part 16 memorize | stores the anonymous candidate data which satisfy | filled anonymity as a result of this test in anonymous result DB31 as anonymous information.

図4Aは、対象データの一例を示す図、図4Bは、匿名結果DB31に記憶される匿名データの一例を示す図である。図4Bに示す匿名データは、図4Aに示す対象データのうち、ユーザ毎のIDを匿名情報用のIDに変更し、姓を削除し、年齢、購入商品、購入場所の情報を抽象化している。なお、匿名情報用のIDは、対象データのIDとは別のIDを付しているので、匿名情報用のIDから個人を特定できるものでは無い。また、この匿名情報用のIDと対象データのIDとの対応テーブルを対象データと共に記憶しておき、匿名情報と対象データの対応付けを可能としても良い。   FIG. 4A is a diagram illustrating an example of target data, and FIG. 4B is a diagram illustrating an example of anonymous data stored in the anonymous result DB 31. The anonymous data shown in FIG. 4B is obtained by changing the ID for each user to the ID for anonymous information in the target data shown in FIG. 4A, deleting the last name, and abstracting information on age, purchased product, and purchase place. . In addition, since ID for anonymous information has attached | subjected ID different from ID of object data, it cannot identify an individual from ID for anonymous information. In addition, a correspondence table between the ID for anonymous information and the ID of the target data may be stored together with the target data so that the anonymous information and the target data can be associated with each other.

縦列登録部17は、匿名情報を属性毎に分割して、匿名情報縦列DB32へ縦列に登録する。図4Bの匿名結果DB31では、年齢、性別、購入商品、購入場所といったユーザ毎の属性を行方向に連ねて登録しているのに対し、図6の匿名情報縦列DB32では、これらの属性を属性毎、及びこれらの属性の組み合わせ毎に別のレコードとして分割し、縦列に登録している。例えば、図4Aの匿名結果DB31では、IDがXのレコードに「17才」「男」「新宿」「ラーメン」といった属性が登録されているのに対し、図6の匿名情報縦列DB32では、IDがZ001のレコードに「17才」、IDがZ004のレコ
ードに「男」、IDがX001のレコードに「新宿」、IDがY001のレコードに「ラーメン」、IDがY008のレコードに「17才−男」、IDがV003のレコードに「新宿−ラーメン」等のように、それぞれ別のレコードに登録されている。
The column registration unit 17 divides anonymous information for each attribute and registers the anonymous information in the column in the anonymous information column DB 32. In the anonymous result DB 31 of FIG. 4B, attributes for each user such as age, sex, purchased product, and purchase place are registered in the row direction, whereas in the anonymous information column DB 32 of FIG. Each record and a combination of these attributes are divided as separate records and registered in columns. For example, in the anonymous result DB 31 in FIG. 4A, attributes such as “17 years old”, “male”, “Shinjuku”, and “ramen” are registered in the record with ID X, whereas in the anonymous information column DB 32 in FIG. Is “17 years old” in the record with Z001, “male” in the record with ID Z004, “Shinjuku” in the record with ID X001, “ramen” in the record with ID Y001, and “17 years old in the record with ID Y008” Each record is registered in a separate record, such as “Shinjuku-Ramen”, etc.

データ出力部18は、匿名情報縦列DB32から匿名化情報を読み出して出力する。ここで、匿名化情報の出力とは、例えば、表示装置による表示出力や、プリンタによる印刷出力、他のコンピュータへの送信、記憶媒体への書き込み等である。   The data output unit 18 reads out the anonymized information from the anonymous information column DB 32 and outputs it. Here, the output of anonymization information includes, for example, display output by a display device, print output by a printer, transmission to another computer, writing to a storage medium, and the like.

区分数算出部19は、減少係数と個人情報の全体数に基づいて、個人情報を匿名化した場合の最少出現数の減少量が所定の基準値を超えない区分数を求める。   Based on the reduction coefficient and the total number of personal information, the number-of-segments calculation unit 19 obtains the number of categories in which the amount of decrease in the minimum number of appearances when the personal information is anonymized does not exceed a predetermined reference value.

また、減少係数算出装置2は、匿名情報取得部21や、出現数取得部22、係数算出部23、頻出パターンDB33、減少係数DB34を備えている。   The reduction coefficient calculation device 2 includes an anonymous information acquisition unit 21, an appearance number acquisition unit 22, a coefficient calculation unit 23, a frequent pattern DB 33, and a reduction coefficient DB 34.

匿名情報取得部21は、個人情報を匿名化した匿名情報縦列DB32から匿名情報を取得する。   The anonymous information acquisition unit 21 acquires anonymous information from the anonymous information column DB 32 in which personal information is anonymized.

出現数取得部22は、匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、各語の最少出現数を求める、例えば、匿名情報に含まれる語を同一の語毎に区分して区分数を求め、各区分における語の最少出現数を求める。   The number-of-appearance acquisition unit 22 obtains the number of divisions by classifying each type of words that can be attributed to the anonymous information, and obtains the minimum number of occurrences of each word. For example, the words included in the anonymous information are the same words. The number of divisions is obtained for each division, and the minimum number of words in each division is obtained.

係数算出部23は、区分数の異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の最少出現数の減少数又は前記減少数の全体数に対する割合を減少係数として求め、減少係数DB34に記憶する。   The coefficient calculation unit 23 may reduce the minimum number of occurrences or the ratio of the reduction number to the total number when the number of divisions is increased based on a combination of the plurality of divisions and the minimum number of appearances having different numbers of divisions. Is obtained as a reduction coefficient and stored in the reduction coefficient DB 34.

図7は匿名処理装置1及び減少係数算出装置2のハードウェア構成を示す図である。匿名処理装置1及び減少係数算出装置2は、CPU101、メモリ102、通信制御部103、記憶装置104、入出力インタフェース105を有する所謂コンピュータである。   FIG. 7 is a diagram illustrating a hardware configuration of the anonymous processing device 1 and the reduction coefficient calculation device 2. The anonymous processing device 1 and the reduction coefficient calculation device 2 are so-called computers having a CPU 101, a memory 102, a communication control unit 103, a storage device 104, and an input / output interface 105.

CPU101は、メモリ102に実行可能に展開されたプログラムを実行する。これにより、匿名処理装置1のCPU101は、前述のデータ受付部11や、区分数取得部12、係数取得部13、可能性判定部14、匿名化部15、検定部16、縦列登録部17、データ出力部18の機能を提供する。また、減少係数算出装置2のCPU101は、前述の匿名情報取得部21や、出現数取得部22、係数算出部23の機能を提供する。   The CPU 101 executes a program that is loaded in the memory 102 so as to be executable. Thereby, CPU101 of the anonymous processing apparatus 1 is the above-mentioned data reception part 11, the classification number acquisition part 12, the coefficient acquisition part 13, the possibility determination part 14, the anonymization part 15, the test | inspection part 16, the column registration part 17, The function of the data output unit 18 is provided. Further, the CPU 101 of the reduction coefficient calculation device 2 provides the functions of the above-described anonymous information acquisition unit 21, appearance number acquisition unit 22, and coefficient calculation unit 23.

メモリ102は、主記憶装置ということもできる。メモリ102は、例えば、CPU101が実行するプログラムや、通信制御部103を介して受信したデータ、記憶装置104から読み出したデータ、その他のデータ等を記憶する。   The memory 102 can also be called a main storage device. The memory 102 stores, for example, a program executed by the CPU 101, data received via the communication control unit 103, data read from the storage device 104, other data, and the like.

通信制御部103は、ネットワークを介して他の装置と接続し、当該装置との通信を制御する。入出力インタフェース105は、表示装置やプリンタ等の出力手段や、キーボードやポインティングデバイス等の入力手段、ドライブ装置等の入出力手段が適宜接続される。ドライブ装置は、着脱可能な記憶媒体の読み書き装置であり、例えば、フラッシュメモリカードの入出力装置、USBメモリを接続するUSBのアダプタ等である。また、着脱可能な記憶媒体は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、ブルーレイディスク(Blu-ray(登録商標) Disc)等のディスク媒体であってもよい。ドライブ装置は、着脱可能な記憶媒体からプログラムを読み出し、記憶装置104に格納する。   The communication control unit 103 is connected to another device via a network and controls communication with the device. The input / output interface 105 is appropriately connected to output means such as a display device and a printer, input means such as a keyboard and pointing device, and input / output means such as a drive device. The drive device is a removable storage medium read / write device, such as an input / output device for a flash memory card, a USB adapter for connecting a USB memory, or the like. The removable storage medium may be a disk medium such as a CD (Compact Disc), a DVD (Digital Versatile Disk), or a Blu-ray (registered trademark) disc. The drive device reads the program from the removable storage medium and stores it in the storage device 104.

記憶装置104は、外部記憶装置ということもできる。記憶装置104としては、SS
D(Solid State Drive)やHDD等であってもよい。記憶装置104は、ドライブ装置
との間で、データを授受する。例えば、記憶装置104は、ドライブ装置からインストールされる情報処理プログラム等を記憶する。また、記憶装置104は、プログラムを読み出し、メモリ102に引き渡す。本実施形態では、匿名処理装置1の記憶装置104が前述の匿名結果DB31、匿名情報縦列DB32を格納している。また、減少係数算出装置2の記憶装置104が、頻出パターンDB33、減少係数DB34を格納している。
The storage device 104 can also be called an external storage device. As the storage device 104, SS
D (Solid State Drive), HDD, etc. may be sufficient. The storage device 104 exchanges data with the drive device. For example, the storage device 104 stores an information processing program installed from the drive device. Further, the storage device 104 reads the program and delivers it to the memory 102. In the present embodiment, the storage device 104 of the anonymous processing device 1 stores the anonymous result DB 31 and the anonymous information column DB 32 described above. Further, the storage device 104 of the reduction coefficient calculation device 2 stores a frequent pattern DB 33 and a reduction coefficient DB 34.

次に本実施形態における匿名化システム10の匿名処理装置1及び減少係数算出装置2がプログラムに従って実行する匿名処理方法及び減少係数算出方法について説明する。図8は、匿名化処理の説明図である。匿名処理装置1は、先ず他のコンピュータ或いは記憶装置から対象データを受け付ける(ステップS10)。本実施形態の匿名処理装置1は、複数の匿名化アルゴリズムを有し、オペレータが任意に選択できるようにしている。複数の匿名化アルゴリズムとしては、例えば、医療情報の匿名化に特化したアルゴリズムや、購買履歴等のフローデータの匿名化に特化したアルゴリズム、ファッションや教育、外食産業等の特定の業種に特化したアルゴリズムが挙げられる。また、このアルゴリズムは、匿名化手法だけでなく、匿名化辞書や、前処理手法、フィルタリング手法などを選択可能としても良い。即ち、オペレータは、匿名化の対象データ共に、これらのアルゴリズムを選択する情報を入力する。   Next, the anonymous processing method and the reduction coefficient calculation method which the anonymous processing apparatus 1 and the reduction coefficient calculation apparatus 2 of the anonymization system 10 in this embodiment perform according to a program are demonstrated. FIG. 8 is an explanatory diagram of the anonymization process. The anonymous processing device 1 first receives target data from another computer or storage device (step S10). The anonymity processing device 1 of the present embodiment has a plurality of anonymization algorithms so that an operator can arbitrarily select them. The multiple anonymization algorithms include, for example, algorithms specialized for anonymization of medical information, algorithms specialized for anonymization of flow data such as purchase history, and specific industries such as fashion, education, and the restaurant industry. Algorithm. In addition, this algorithm may select not only an anonymization method but also an anonymization dictionary, a preprocessing method, a filtering method, and the like. That is, the operator inputs information for selecting these algorithms together with the anonymization target data.

次に、匿名処理装置1は、選択されたアルゴリズムで対象データを匿名化し(ステップS20)、最少出現数が基準値を超えているか否かによって匿名性の検定を行う(ステッ
プS30)。
Next, the anonymous processing device 1 anonymizes the target data with the selected algorithm (step S20), and performs anonymity test depending on whether the minimum number of appearances exceeds the reference value (step S30).

検定後、匿名処理装置1は、匿名情報を匿名結果DB31に蓄積する(ステップS40)。図8において、データパターンAは、対象データの年齢を5区分で匿名化処理した匿名情報の例であり、検定の結果、16才、17才、18才、20才の4区分は基準値10人を超えて匿名性を満たし(図中、○で示す)、15才以下の1区分は基準値10人を下回り匿名性を満たしていない(図中、×で示す)。同様に、データパターンBは、対象データの年齢を3区分で匿名化処理した匿名情報の例であり、データパターンCは、対象データの年齢を2区分で匿名化処理した匿名情報の例である。   After the test, the anonymous processing device 1 accumulates anonymous information in the anonymous result DB 31 (step S40). In FIG. 8, data pattern A is an example of anonymized information obtained by anonymizing the age of the target data in 5 categories. As a result of the test, 4 categories of 16, 17, 18, and 20 are the reference value 10. Anonymity is satisfied beyond people (indicated by a circle in the figure), and one category of 15 years or younger is below the reference value of 10 and does not satisfy anonymity (indicated by x in the figure). Similarly, the data pattern B is an example of anonymous information obtained by anonymizing the age of the target data in three categories, and the data pattern C is an example of anonymous information obtained by anonymizing the age of the target data in two categories. .

そして、匿名処理装置1は、定期的に匿名結果DB31から匿名情報を読み取り、匿名情報縦列DB32へ縦列に登録する (ステップS50)。図8において、縦列匿名情報8
1は、匿名情報縦列DB32に登録される匿名情報の一例を示す図であり、データパターンや、データパターン毎の行番号、属性、存在数、匿名の基準値を対応付けて記憶している。(ステップS60)
And the anonymous processing apparatus 1 reads anonymous information periodically from the anonymous result DB31, and registers it in the anonymous information column DB32 in a column (step S50). In FIG. 8, column anonymous information 8
1 is a diagram illustrating an example of anonymous information registered in the anonymous information column DB 32, and stores a data pattern, a row number, an attribute, an existence number, and an anonymous reference value for each data pattern in association with each other. (Step S60)

図9は、出現数を取得する処理の説明図である。減少係数算出装置2は、図9に示すように、先ず匿名情報縦列DB32からデータパターン毎に匿名データを取得する(ステッ
プS110)。
FIG. 9 is an explanatory diagram of a process for acquiring the number of appearances. As shown in FIG. 9, the reduction coefficient calculation device 2 first acquires anonymous data for each data pattern from the anonymous information column DB 32 (step S110).

次に、減少係数算出装置2は、データパターン毎の区分数や存在数を取得し(ステップ
S120)、存在数が所定値以上の属性値を頻出パターン82として頻出パターンDB3
3に登録し、属性毎の区分数と最少出現数を属性パターン83として減少係数DB34に登録する(ステップS130)。なお、属性パターン83は、図10に示すように、日時や企業名、利用回数等の情報を更に付加しても良い。
Next, the reduction coefficient calculation device 2 acquires the number of divisions and the number of existence for each data pattern (step S120), and sets the attribute value having the existence number equal to or greater than a predetermined value as the frequent pattern 82.
3 and the number of divisions and the minimum number of appearances for each attribute are registered in the reduction coefficient DB 34 as the attribute pattern 83 (step S130). As shown in FIG. 10, the attribute pattern 83 may further include information such as date and time, company name, and number of uses.

そして、減少係数算出装置2は、次のデータパターンがあるか否かを判定し、次のデータパターンがあればステップS110に戻り、次のデータパターンがなければ終了する(
ステップS140)。
Then, the reduction coefficient calculation device 2 determines whether or not there is a next data pattern. If there is a next data pattern, the process returns to step S110, and if there is no next data pattern, the process ends.
Step S140).

図11は、減少係数算出の処理の説明図である。減少係数算出装置2は、図10に示すように、先ず減少係数DB34から属性パターン83を取得する(ステップS150)。   FIG. 11 is an explanatory diagram of the reduction coefficient calculation process. As shown in FIG. 10, the reduction coefficient calculation device 2 first acquires the attribute pattern 83 from the reduction coefficient DB 34 (step S150).

次に減少係数算出装置2は、取得した属性パターン83のうち、各属性について、区分数の異なる複数の区分数及び最少出現数の組み合わせに基づいて、区分数を増加させた場合の最少出現数の減少数や前記減少数の全体数に対する割合を減少係数として求め (ステップS160)、この属性毎の減少係数84を減少係数DB34に記憶させる。   Next, the reduction coefficient calculation apparatus 2 uses the minimum number of occurrences when the number of divisions is increased based on a combination of a plurality of division numbers having different division numbers and the minimum number of appearances for each attribute in the acquired attribute pattern 83. The reduction number or the ratio of the reduction number to the total number is obtained as a reduction coefficient (step S160), and the reduction coefficient 84 for each attribute is stored in the reduction coefficient DB 34.

図12に示されるように、全体数が20000、区分数2のときの最少出現数が10000、区分数7のときの最少出現数が1000、区分数11のときの最少出現数が500・・・といった区分数及び最少出現数の組み合わせ85であるとき、この回帰直線86を求めると、y=−95.905x+8727.9となる。この回帰直線の傾きから区分数が1増加すると、最少出現数が約95減少することがわかる。即ち減少定数が95.905である。ここで、全体数が20000であるので、減少定率は95.905/20000≒0.47%である。   As shown in FIG. 12, when the total number is 20000 and the number of sections is 2, the minimum number of appearances is 10000, when the number of sections is 7, the minimum number of appearances is 1000, and when the number of sections is 11, the minimum number of appearances is 500. When the regression line 86 is obtained for the combination 85 of the number of divisions and the minimum number of occurrences, y = −95.905x + 877.9. From the slope of the regression line, it can be seen that when the number of segments increases by 1, the minimum number of appearances decreases by about 95. That is, the reduction constant is 95.905. Here, since the total number is 20000, the rate of decrease is 95.905 / 20000≈0.47%.

なお、本実施形態では、属性毎に減少係数を求めたが、これに限らず複数の属性を併合して減少係数を求めても良い。例えば、区分数(属性種)が2の属性と区分数が3の属性とを併合して区分数6として減少係数の算出に用いても良い。また、同一の属性の抽象度を変えて異なる複数の区分数の属性として減少係数の算出に用いても良い。更に、類似した属性に基づいて減少係数を求めた方が精度が高いため、匿名化の際に用いる属性に優先度を付けておき、優先度の高いものから順に所定数の属性を用いて減少係数を求めても良い。また、属性を所定のジャンル(例えば、地域、時期、音楽、ファッション等)に分類しておき、同じジャンルに分類される属性を用いて減少係数を算出しても良い。更に、A社の年齢、A社の購入場所等のように企業名毎のデータに基づいて減少係数を求めても良い。   In the present embodiment, the reduction coefficient is obtained for each attribute. However, the present invention is not limited to this, and a reduction coefficient may be obtained by merging a plurality of attributes. For example, an attribute with 2 divisions (attribute type) and an attribute with 3 divisions may be merged and used as 6 divisions to calculate the reduction coefficient. Also, the abstraction level of the same attribute may be changed and used for calculating the reduction coefficient as a plurality of different attributes. Furthermore, since it is more accurate to calculate the reduction factor based on similar attributes, prioritize the attributes used for anonymization, and use a predetermined number of attributes in descending order of priority. A coefficient may be obtained. Further, the attribute may be classified into a predetermined genre (for example, region, time, music, fashion, etc.), and the reduction coefficient may be calculated using the attribute classified into the same genre. Further, the reduction coefficient may be obtained based on data for each company name such as the age of company A, the purchase location of company A, and the like.

そして、減少係数算出装置2は、次のデータがあるか否かを判定し、次のデータがあればステップS150に戻り、次のデータがなければ終了する(ステップS180)。   Then, the reduction coefficient calculation device 2 determines whether or not there is next data. If there is next data, the process returns to step S150, and if there is no next data, the process ends (step S180).

図13は、出現頻度を求める処理の説明図である。減少係数算出装置2は、図13に示すように、先ず頻出パターンDB33から頻出パターン82を取得する(ステップS21
0)。減少係数算出装置2は、この頻出パターン82から、属性値毎の存在数の平均や、
全体数に対する存在数の割合(出現率)を統計情報として求め(ステップS220)、頻出パターンDB33に登録する(ステップS230)。
FIG. 13 is an explanatory diagram of processing for obtaining the appearance frequency. As shown in FIG. 13, the reduction coefficient calculation apparatus 2 first acquires the frequent pattern 82 from the frequent pattern DB 33 (step S21).
0). The reduction coefficient calculation device 2 calculates the average number of existence for each attribute value from the frequent pattern 82,
The ratio (appearance rate) of the existence number to the total number is obtained as statistical information (step S220), and is registered in the frequent pattern DB 33 (step S230).

そして、減少係数算出装置2は、次のデータがあるか否かを判定し、次のデータがあればステップS210に戻り、次のデータがなければ終了する(ステップS240)。   Then, the reduction coefficient calculation device 2 determines whether or not there is next data. If there is next data, the process returns to step S210, and if there is no next data, the process ends (step S240).

図14は、減少係数を用いた匿名化処理の説明図である。匿名処理装置1は、先ず他のコンピュータから対象データと共に匿名化のリクエストを受け付ける(ステップS310)。このとき例えば男女2区分×年代8区分=16区分等のように、オペレータが指定した区分数のリクエストを受ける。なお、図14には省略したが、前述の図8と同様に匿名処理装置1は、複数の匿名化アルゴリズムを有し、オペレータが任意に選択できる。   FIG. 14 is an explanatory diagram of anonymization processing using a reduction coefficient. The anonymity processing device 1 first receives an anonymization request together with target data from another computer (step S310). At this time, for example, a request for the number of categories designated by the operator is received, such as 2 categories of men and women × 8 categories of age = 16 categories. Although omitted in FIG. 14, the anonymous processing device 1 has a plurality of anonymization algorithms and can be arbitrarily selected by the operator, as in FIG. 8 described above.

次に匿名処理装置1は、匿名化する対象データの各属性について減少係数を減少係数DB34から取得する(ステップS320)。なお、減少係数が、企業名と対応付けて記憶されている場合には、この企業名の一致する減少係数を取得する。即ち、当該企業が過去に用いた匿名データから求めた減少係数を取得する。   Next, the anonymous processing device 1 acquires a reduction coefficient for each attribute of the target data to be anonymized from the reduction coefficient DB 34 (step S320). When the reduction coefficient is stored in association with the company name, the reduction coefficient that matches the company name is acquired. That is, the reduction coefficient calculated | required from the anonymous data which the said company used in the past is acquired.

そして、匿名処理装置1は、取得した減少係数と区分数に基づいて、対象データを前記区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性が高いか否かを判定する(ステップS330)。例えば、減少定率が10%で、区分数が16区分であると、16区分×10%=160%となり、100%(基準値)を超えるので、匿名性を満たす可能性が低いと判定する。一方、区分数が8区分であると、8区分×10%=80%となり、100%(基準値)を超えないので、匿名性を満たす可能性が高いと判定する。また、減少定数が8で、区分数が16区分であると、16区分×8=128となり、全体数100(基準値)を超えるので、匿名性を満たす可能性が低いと判定する。一方、区分数が8区分であると、8区分×8=64となり、100(基準値)を超えないので、匿名性を満たす可能性が高いと判定する。   And the anonymous processing apparatus 1 is based on the acquired reduction coefficient and the number of divisions, and when there is a high possibility that the amount of decrease in the minimum number of appearances when the target data is anonymized by the number of divisions exceeds a predetermined reference value Is determined (step S330). For example, if the rate of decrease is 10% and the number of categories is 16, it is 16 categories × 10% = 160%, which exceeds 100% (reference value), so it is determined that the possibility of satisfying anonymity is low. On the other hand, if the number of sections is 8, it is 8 sections × 10% = 80%, and does not exceed 100% (reference value), so it is determined that there is a high possibility of satisfying anonymity. Further, if the reduction constant is 8 and the number of sections is 16, the number of sections is 16 × 8 = 128, which exceeds the total number 100 (reference value), so it is determined that the possibility of satisfying anonymity is low. On the other hand, if the number of sections is 8, it is 8 sections × 8 = 64 and does not exceed 100 (reference value), so it is determined that there is a high possibility of satisfying anonymity.

匿名性を満たす可能性が高いと判定した場合、匿名処理装置1は、選択されたアルゴリズムで対象データを匿名化し(ステップS340)、最少出現数が基準値を超えているか否かによって匿名性の検定を行う(ステップS350)。また、検定後、匿名処理装置1は、匿名情報を匿名結果DB31に蓄積する(ステップS360)。   If it is determined that there is a high possibility of satisfying the anonymity, the anonymous processing device 1 anonymizes the target data with the selected algorithm (step S340), and the anonymity depends on whether the minimum number of appearances exceeds the reference value. A test is performed (step S350). Moreover, after the test, the anonymous processing device 1 accumulates anonymous information in the anonymous result DB 31 (step S360).

一方、ステップS330で、匿名性を満たす可能性が低いと判定した場合、匿名処理装置1は、匿名化処理を中止し、処理を終了する(ステップS370)。   On the other hand, if it is determined in step S330 that the possibility of satisfying anonymity is low, the anonymous processing device 1 stops the anonymization process and ends the process (step S370).

このように図14の処理によれば、匿名性を満たす可能性が低ければ、匿名化処理を行わないので、無駄に匿名化処理を試行することが無くなり、匿名化処理の効率化が図れる。   As described above, according to the process of FIG. 14, if the possibility of satisfying anonymity is low, the anonymization process is not performed. Therefore, the anonymization process is not tried unnecessarily, and the efficiency of the anonymization process can be improved.

図15は、減少係数を用いた匿名化処理の説明図である。匿名処理装置1は、先ず他のコンピュータから対象データを受け付ける(ステップS410)。なお、図15には省略したが、前述の図8と同様に匿名処理装置1は、複数の匿名化アルゴリズムを有し、オペレータが任意に選択できる。   FIG. 15 is an explanatory diagram of anonymization processing using a reduction coefficient. The anonymous processing device 1 first receives target data from another computer (step S410). Although omitted in FIG. 15, the anonymous processing device 1 has a plurality of anonymization algorithms and can be arbitrarily selected by the operator as in FIG. 8 described above.

次に匿名処理装置1は、匿名化する対象データの各属性について減少係数を減少係数DB34から取得する(ステップS420)。また、匿名処理装置1は、匿名化する対象データの各属性について頻出パターンを頻出パターンDB33から取得する(ステップS43
0)。なお、減少係数や頻出パターンが、企業名と対応付けて記憶されている場合には、
この企業名の一致する減少係数や頻出パターンを取得する。即ち、当該企業が過去に用いた匿名データから求めた減少係数や頻出パターンを取得する。
Next, the anonymous processing device 1 acquires a reduction coefficient for each attribute of the target data to be anonymized from the reduction coefficient DB 34 (step S420). Further, the anonymous processing device 1 acquires a frequent pattern for each attribute of the target data to be anonymized from the frequent pattern DB 33 (step S43).
0). In addition, when the decrease coefficient and the frequent pattern are stored in association with the company name,
A reduction coefficient and a frequent pattern with the same company name are acquired. That is, the reduction coefficient and the frequent pattern obtained from the anonymous data used by the company in the past are acquired.

また、匿名処理装置1は、取得した減少係数と対象データの全体数に基づいて、対象データを匿名化した場合に匿名性を満たす可能性が高い区分数を求める(ステップS440)。例えば、減少定率が10%で、全体数が100である場合、100×10%=10区分のように区分数を求める。一方、減少定数が12で、全体数が100である場合、100/12≒8.3となるので、8区分とする。   Moreover, the anonymous processing apparatus 1 calculates | requires the number of divisions with high possibility of satisfy | filling anonymity, when object data is anonymized based on the acquired reduction coefficient and the whole number of object data (step S440). For example, when the decrement rate is 10% and the total number is 100, the number of divisions is obtained as 100 × 10% = 10 divisions. On the other hand, when the reduction constant is 12 and the total number is 100, 100 / 12≈8.3, so 8 divisions are set.

そして、匿名処理装置1は、ステップS430で取得した頻出パターンに含まれる区分を用い、且つステップS440で算出した区分数以下で匿名化の処理を行い(ステップS450)、最少出現数が基準値を超えているか否かによって匿名性の検定を行う(ステッ
プS460)。また、検定後、匿名処理装置1は、匿名情報を匿名結果DB31に蓄積す
る(ステップS470)。
And the anonymous processing apparatus 1 performs the anonymization process using the classification included in the frequent pattern acquired at step S430 and the number of classifications calculated at step S440 (step S450), and the minimum number of appearances is the reference value. Anonymity is tested depending on whether or not it exceeds (step S460). Moreover, after the test, the anonymous processing device 1 accumulates anonymous information in the anonymous result DB 31 (step S470).

このように図15の処理によれば、減少係数と対象データの全体数に基づき、匿名化を行った時の減少量が、全体数を超えないように区分数を定めたことにより、無駄に匿名化
処理を試行することが無くなり、匿名化処理の効率化が図れる。また、頻出パターンに基づき、頻出する区分を用いて匿名化を行うことで、匿名化処理を行った時の最少出現数が小さくなりすぎて、匿名性を満たさなくなることが避けられるので、匿名化処理の効率化が図れる。
As described above, according to the processing of FIG. 15, the number of divisions is determined based on the reduction coefficient and the total number of target data so that the reduction amount when anonymization is performed does not exceed the total number. The anonymization process is not tried and the anonymization process can be made more efficient. In addition, anonymization is performed based on frequent patterns, and anonymization is avoided because the minimum number of appearances when anonymization processing is performed becomes too small and anonymity is not satisfied. Processing efficiency can be improved.

<変形例>
図16は、図14の匿名化処理の変形例を示す図である。図14の処理では、ステップS330で、匿名性を満たす可能性が低いと判定された場合に、処理を中断したが、図16の処理では、ステップS330で、匿名性を満たす可能性が低いと判定された場合に、図15の処理を実行し(ステップS390)、減少係数と全体数に基づいた区分数で匿名化を行うものである。なお、その他の構成は、同じであるため、再度の説明は省略する。
<Modification>
FIG. 16 is a diagram illustrating a modification of the anonymization process of FIG. In the process of FIG. 14, when it is determined in step S330 that the possibility of satisfying anonymity is low, the process is interrupted. However, in the process of FIG. 16, in step S330, the possibility of satisfying anonymity is low. If it is determined, the process of FIG. 15 is executed (step S390), and anonymization is performed with the number of sections based on the reduction coefficient and the total number. Since other configurations are the same, the description thereof will be omitted.

このように本変形例によれば、ステップS310でリクエストされた区分数で匿名性を満たす可能性が低い場合でも、減少係数と全体数に基づき匿名性を満たす可能性の高い区分数で匿名化を行うことができるため、匿名化処理の更なる効率化を図ることができる。   As described above, according to the present modification, anonymization is performed with the number of divisions that are highly likely to satisfy anonymity based on the decrease coefficient and the total number even when the number of divisions requested in step S310 is low. Therefore, the efficiency of the anonymization process can be further improved.

〈実施形態2〉
前述の実施形態1では、減少係数として直線近似式によって求めた減少定数や減少率を用いたが、これに限定されるものではなく、実施形態2では、減少係数として累乗近似式を用いた例を示す。本実施形態2は、前述の実施形態1と比べて、累乗近似式を用いた構成が異なり、他の構成は同じであるため、同一の要素は同符号を付す等して再度の説明を省略する。
<Embodiment 2>
In the above-described first embodiment, the reduction constant and the reduction rate obtained by the linear approximation formula are used as the reduction coefficient. However, the present invention is not limited to this, and the second embodiment uses a power approximation formula as the reduction coefficient. Indicates. The second embodiment is different from the first embodiment in the configuration using the power approximation formula, and the other configurations are the same. Therefore, the same elements are denoted by the same reference numerals and the description thereof is omitted. To do.

本実施形態2において、減少係数算出装置2の係数算出部23は、区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数として、累乗近似式を求める。
例えば、係数算出部23は、区分数を増加させた場合の最少出現数に基づいて、下記の累乗近似式1を求める。なお、累乗近似式1において、yは匿名レベル(k値)、xは区分数を示す。

Figure 0005860116
In the second embodiment, the coefficient calculation unit 23 of the reduction coefficient calculation device 2 performs the minimum occurrence when the number of divisions is increased based on a combination of the plurality of divisions and the minimum number of appearances having different numbers of divisions. A power approximation formula is obtained as a reduction coefficient indicating the amount of reduction of the number.
For example, the coefficient calculation unit 23 obtains the following power approximation equation 1 based on the minimum number of appearances when the number of categories is increased. In the power approximation equation 1, y indicates an anonymous level (k value), and x indicates the number of sections.
Figure 0005860116

そして、本実施形態2における匿名処理装置1の可能性判定部14は、累乗近似式1と匿名化を行う区分数に基づいて、個人情報を前記区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性を判定する。
例えば、可能性判定部14は、累乗近似式1を以下の式2のように展開して最少出現数を推定し、この最少出現数の推定値xが基準値を超えるか否かで可能性を判定する。なお、次の式では、匿名レベルyをkとしている。

Figure 0005860116
And the possibility determination part 14 of the anonymous processing apparatus 1 in this Embodiment 2 is the minimum appearance number at the time of anonymizing personal information with the said division number based on the power approximation formula 1 and the division number which anonymizes. The possibility that the decrease amount exceeds a predetermined reference value is determined.
For example, the possibility determination unit 14 expands the power approximation expression 1 as the following expression 2 to estimate the minimum number of appearances, and determines whether the estimated value x of the minimum number of appearances exceeds the reference value. Determine. In the following expression, the anonymous level y is k.
Figure 0005860116

なお、k値は0に収束するものではないため、式1に1を加えて式3とし、式3を展開して式4として用いても良い

Figure 0005860116
Since the k value does not converge to 0, 1 may be added to Equation 1 to obtain Equation 3, and Equation 3 may be expanded and used as Equation 4.
Figure 0005860116

図17は、減少係数算出の処理の説明図である。減少係数算出装置2は、図10に示すように、先ず減少係数DB34から属性パターン83を取得する(ステップS150)。   FIG. 17 is an explanatory diagram of the reduction coefficient calculation process. As shown in FIG. 10, the reduction coefficient calculation device 2 first acquires the attribute pattern 83 from the reduction coefficient DB 34 (step S150).

次に減少係数算出装置2は、取得した属性パターン83のうち、各属性について、区分数の異なる複数の区分数及び最少出現数の組み合わせを求め(ステップS160A)、これらの区分数及び最少出現数に基づいて累乗近似式1を減少係数として求めて、この減少係数を減少係数DB34に記憶させる(ステップS170A)。   Next, the reduction coefficient calculation device 2 obtains a combination of a plurality of division numbers and minimum appearance numbers having different numbers for each attribute in the acquired attribute pattern 83 (step S160A), and the division number and the minimum appearance number. Based on the above, the power approximation formula 1 is obtained as a reduction coefficient, and this reduction coefficient is stored in the reduction coefficient DB 34 (step S170A).

図18に示されるように、全体数が20000、区分数2のときの最少出現数が10000、区分数7のときの最少出現数が1000、区分数11のときの最少出現数が500・・・といった区分数及び最少出現数の組み合わせ85であるとき、累乗近似式1を求めると、y=114659x−1.414となる。この累乗近似式1から各区分の区分数が1増加した場合の最少出現数の減少数がわかる。例えば、この減少数が95.905である場合、全体数が20000であるので、減少率は95.905/20000≒0.47%である。 As shown in FIG. 18, when the total number is 20000 and the number of sections is 2, the minimum number of appearances is 10000, when the number of sections is 7, the minimum number of appearances is 1000, and when the number of sections is 11, the minimum number of appearances is 500. In the case of the combination 85 of the number of divisions and the minimum number of appearances, when the power approximation expression 1 is obtained, y = 114659x− 1.414 . From this power approximation formula 1, it is possible to know the decrease in the minimum number of appearances when the number of sections in each section increases by one. For example, when this reduction number is 95.905, the total number is 20000, and the reduction rate is 95.905 / 20000≈0.47%.

そして、減少係数算出装置2は、次のデータがあるか否かを判定し、次のデータがあればステップS150に戻り、次のデータがなければ終了する(ステップS180)。   Then, the reduction coefficient calculation device 2 determines whether or not there is next data. If there is next data, the process returns to step S150, and if there is no next data, the process ends (step S180).

図19は、減少係数を用いた匿名化処理の説明図である。匿名処理装置1は、先ず他のコンピュータから対象データと共に匿名化のリクエストを受け付ける(ステップS310)。このとき例えば男女2区分×年代8区分=16区分等のように、オペレータが指定し
た区分数のリクエストを受ける。なお、図19には省略したが、前述の図8と同様に匿名処理装置1は、複数の匿名化アルゴリズムを有し、オペレータが任意に選択できる。
FIG. 19 is an explanatory diagram of anonymization processing using a reduction coefficient. The anonymity processing device 1 first receives an anonymization request together with target data from another computer (step S310). At this time, for example, a request for the number of categories designated by the operator is received, such as 2 categories of men and women × 8 categories of age = 16 categories. Although omitted in FIG. 19, the anonymous processing device 1 has a plurality of anonymization algorithms and can be arbitrarily selected by the operator as in FIG. 8 described above.

次に匿名処理装置1は、匿名化する対象データの各属性について減少係数(累乗近似式1)を減少係数DB34から取得する(ステップS320)。なお、減少係数が、企業名と対応付けて記憶されている場合には、この企業名の一致する減少係数を取得する。即ち、当該企業が過去に用いた匿名データから求めた減少係数を取得する。   Next, the anonymous processing device 1 acquires a reduction coefficient (power approximation formula 1) from the reduction coefficient DB 34 for each attribute of the target data to be anonymized (step S320). When the reduction coefficient is stored in association with the company name, the reduction coefficient that matches the company name is acquired. That is, the reduction coefficient calculated | required from the anonymous data which the said company used in the past is acquired.

そして、匿名処理装置1は、取得した減少係数を式2のように展開し、区分数に基づいて、対象データを前記区分数で匿名化した場合の最少出現数の減少量が所定の基準値(k値)を超える可能性が高いか否かを判定する(ステップS330A)。   And the anonymous processing apparatus 1 expand | deploys the acquired reduction coefficient like Formula 2, and based on the number of divisions, the amount of reduction | decrease of the minimum appearance number at the time of anonymizing object data by the said number of divisions is a predetermined reference value. It is determined whether or not there is a high possibility of exceeding (k value) (step S330A).

匿名性を満たす可能性が高いと判定した場合、匿名処理装置1は、選択されたアルゴリズムで対象データを匿名化し(ステップS340)、最少出現数が基準値を超えているか否かによって匿名性の検定を行う(ステップS350)。また、検定後、匿名処理装置1は、匿名情報を匿名結果DB31に蓄積する(ステップS360)。   If it is determined that there is a high possibility of satisfying the anonymity, the anonymous processing device 1 anonymizes the target data with the selected algorithm (step S340), and the anonymity depends on whether the minimum number of appearances exceeds the reference value. A test is performed (step S350). Moreover, after the test, the anonymous processing device 1 accumulates anonymous information in the anonymous result DB 31 (step S360).

一方、ステップS330で、匿名性を満たす可能性が低いと判定した場合、匿名処理装置1は、匿名化処理を中止し、処理を終了する(ステップS370)。   On the other hand, if it is determined in step S330 that the possibility of satisfying anonymity is low, the anonymous processing device 1 stops the anonymization process and ends the process (step S370).

このように図19の処理によれば、匿名性を満たす可能性が低ければ、匿名化処理を行わないので、無駄に匿名化処理を試行することが無くなり、匿名化処理の効率化が図れる。   As described above, according to the process of FIG. 19, if there is a low possibility of satisfying the anonymity, the anonymization process is not performed. Therefore, the anonymization process is not used unnecessarily, and the efficiency of the anonymization process can be improved.

図20は、減少係数を用いた匿名化処理の説明図である。匿名処理装置1は、先ず他のコンピュータから対象データを受け付ける(ステップS410)。なお、図20には省略したが、前述の図8と同様に匿名処理装置1は、複数の匿名化アルゴリズムを有し、オペレータが任意に選択できる。   FIG. 20 is an explanatory diagram of anonymization processing using a reduction coefficient. The anonymous processing device 1 first receives target data from another computer (step S410). Although omitted in FIG. 20, the anonymous processing device 1 has a plurality of anonymization algorithms and can be arbitrarily selected by the operator, as in FIG.

次に匿名処理装置1は、匿名化する対象データの各属性について減少係数(累乗近似式1)を減少係数DB34から取得する(ステップS420)。また、匿名処理装置1は、匿名化する対象データの各属性について頻出パターンを頻出パターンDB33から取得する(ステップS430)。なお、減少係数や頻出パターンが、企業名と対応付けて記憶されている場合には、この企業名の一致する減少係数や頻出パターンを取得する。即ち、当該企業が過去に用いた匿名データから求めた減少係数や頻出パターンを取得する。   Next, the anonymous processing device 1 acquires a reduction coefficient (power approximation formula 1) for each attribute of the target data to be anonymized from the reduction coefficient DB 34 (step S420). Further, the anonymous processing device 1 acquires a frequent pattern for each attribute of the target data to be anonymized from the frequent pattern DB 33 (step S430). If a decrease coefficient or a frequent pattern is stored in association with a company name, a decrease coefficient or a frequent pattern that matches the company name is acquired. That is, the reduction coefficient and the frequent pattern obtained from the anonymous data used by the company in the past are acquired.

また、匿名処理装置1は、取得した減少係数と対象データの全体数に基づいて、対象データを匿名化した場合に匿名性を満たす可能性が高い区分数を求める(ステップS440
A)。
Moreover, the anonymous processing apparatus 1 calculates | requires the number of divisions with high possibility of satisfy | filling anonymity, when object data is anonymized based on the acquired reduction coefficient and the whole number of object data (step S440).
A).

そして、匿名処理装置1は、ステップS430で取得した頻出パターンに含まれる区分を用い、且つステップS440で算出した区分数以下で匿名化の処理を行い(ステップS450)、最少出現数が基準値を超えているか否かによって匿名性の検定を行う(ステッ
プS460)。また、検定後、匿名処理装置1は、匿名情報を匿名結果DB31に蓄積す
る(ステップS470)。
And the anonymous processing apparatus 1 performs the anonymization process using the classification included in the frequent pattern acquired at step S430 and the number of classifications calculated at step S440 (step S450), and the minimum number of appearances is the reference value. Anonymity is tested depending on whether or not it exceeds (step S460). Moreover, after the test, the anonymous processing device 1 accumulates anonymous information in the anonymous result DB 31 (step S470).

このように図20の処理によれば、減少係数と対象データの全体数に基づき、匿名化を行った時の減少量が、全体数を超えないように区分数を定めたことにより、無駄に匿名化処理を試行することが無くなり、匿名化処理の効率化が図れる。また、頻出パターンに基づき、頻出する区分を用いて匿名化を行うことで、匿名化処理を行った時の最少出現数が
小さくなりすぎて、匿名性を満たさなくなることが避けられるので、匿名化処理の効率化が図れる。
As described above, according to the processing of FIG. 20, the number of categories is determined based on the reduction coefficient and the total number of target data so that the amount of reduction when anonymization is performed does not exceed the total number. The anonymization process is not tried and the anonymization process can be made more efficient. In addition, anonymization is performed based on frequent patterns, and anonymization is avoided because the minimum number of appearances when anonymization processing is performed becomes too small and anonymity is not satisfied. Processing efficiency can be improved.

〈実施形態3〉
本実施形態3では、複数の事業者間で匿名情報を比較するために統一した区分数で匿名化を行う例を示している。実施形態3は、前述の実施形態2と比べて、統一した区分数で匿名化を行うための構成が異なり、他の構成は同じであるため、同一の要素は同符号を付す等して再度の説明を省略する。
複数の事業者間でデータを比較する場合、同じ属性で匿名化しなければならないが、互いが所有している個人情報がどのようなものかが分らないため、どの程度の区分数であれば共通の属性で匿名化できるのかが互いに分らなかった。このため無駄に試行を繰り返すことになり、匿名化処理の効率が悪かった。そこで、本実施形態3の減少係数算出装置2は、複数事業者からの匿名情報に基づいて、共通の属性で匿名化が行える可能性が高い区分数を推定して各事業者に通知する。
<Embodiment 3>
In the third embodiment, an example is shown in which anonymization is performed with a uniform number of divisions in order to compare anonymous information among a plurality of business operators. The third embodiment is different from the second embodiment in the configuration for anonymization with a uniform number of divisions, and the other configurations are the same. The description of is omitted.
When comparing data between multiple operators, it must be anonymized with the same attributes, but since it does not know what personal information each other owns, how many divisions are common I didn't know if it was possible to anonymize with the attributes. For this reason, trials were repeated unnecessarily, and the efficiency of the anonymization process was poor. Therefore, the reduction coefficient calculation apparatus 2 according to the third embodiment estimates the number of divisions that are likely to be anonymized with a common attribute based on anonymous information from a plurality of operators and notifies each operator.

図21は、減少係数算出の処理の説明図である。減少係数算出装置2は、先ず複数の事業者から匿名情報を取得する(ステップS150B)。   FIG. 21 is an explanatory diagram of the reduction coefficient calculation process. The reduction coefficient calculation device 2 first acquires anonymous information from a plurality of business operators (step S150B).

次に減少係数算出装置2は、取得した属性パターン83のうち、各属性について、区分数の異なる複数の区分数及び最少出現数の組み合わせを求め(ステップS160B)、これらの区分数及び最少出現数に基づいて累乗近似式1を減少係数として求め、この累乗近似式1に基づいて、最少出現数が基準値以上となる区分数の下限値を求めて減少係数DB34に記憶させる(ステップS170B)。   Next, the reduction coefficient calculation apparatus 2 obtains a combination of a plurality of division numbers and minimum appearance numbers having different numbers for each attribute in the acquired attribute pattern 83 (step S160B), and the division number and the minimum appearance number. Based on this, the power approximation formula 1 is obtained as a reduction coefficient, and based on this power approximation formula 1, the lower limit value of the number of divisions whose minimum occurrence number is equal to or greater than the reference value is obtained and stored in the reduction coefficient DB 34 (step S170B).

また、減少係数算出装置2は、次のデータがあるか否かを判定し(ステップS180)、次のデータがあればステップS150Bに戻り、次のデータがなければ、各事業者における区分数の下限値のうち、最も小さい区分数を共通の区分数、即ち共通の属性で匿名化が行える可能性が高い区分数とし(ステップS190B)、各事業者の端末に通知する(ステ
ップS200B)。
Further, the reduction coefficient calculation device 2 determines whether or not there is the next data (step S180 ) . If there is the next data, the process returns to step S150B. Among the lower limit values, the smallest division number is set to the common division number, that is, the division number that is highly likely to be anonymized with a common attribute (step S190B), and is notified to the terminal of each operator (step S200B).

そして、各事業者が、通知された区分数で前述の匿名化を行うことで、無駄に試行を繰り返すことなく匿名化を行うことができる。
このように本実施形態3によれば、複数事業者からの匿名情報に基づいて、効率良く共通の属性で匿名化を行うことができる。
And each provider can perform anonymization without repeating trials unnecessarily by performing the above-mentioned anonymization with the notified number of divisions.
Thus, according to the third embodiment, anonymization can be efficiently performed with a common attribute based on anonymous information from a plurality of business operators.

〈その他〉
本発明は、上述の図示例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。例えば、前記実施形態2,3では、減少係数として累乗近似式を用いたが、これに代えて多項近似式や指数近似式等の近似式を用いても良い。
<Others>
The present invention is not limited to the illustrated examples described above, and various modifications can be made without departing from the scope of the present invention. For example, in the second and third embodiments, the power approximation formula is used as the reduction coefficient, but an approximation formula such as a polynomial approximation formula or an exponential approximation formula may be used instead.

1 匿名処理装置
2 減少係数算出装置
10 匿名化システム
11 データ受付部
12 区分数取得部
13 係数取得部
14 可能性判定部
15 匿名化部
16 検定部
17 縦列登録部
18 データ出力部
21 匿名情報取得部
22 出現数取得部
23 係数算出部
31 匿名結果DB
32 匿名情報縦列DB
33 頻出パターンDB
34 減少係数DB
DESCRIPTION OF SYMBOLS 1 Anonymous processing apparatus 2 Decrease coefficient calculation apparatus 10 Anonymization system 11 Data reception part 12 Division number acquisition part 13 Coefficient acquisition part 14 Possibility determination part 15 Anonymization part 16 Test part 17 Column registration part 18 Data output part 21 Anonymity information acquisition Unit 22 Appearance count acquisition unit 23 Coefficient calculation unit 31 Anonymous result DB
32 Anonymous Information Column DB
33 Frequent pattern DB
34 Reduction factor DB

Claims (9)

個人情報を匿名化した匿名情報を取得する匿名情報取得部と、
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、前記区分数が異なる複数の前記区分数について前記語の最少出現数を求める出現数取得部と、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求める係数算出部と、
匿名化対象の個人情報を匿名化する際の区分数を取得する区分数取得部と
前記減少係数と前記匿名化する際の区分数に基づいて、前記個人情報を前記匿名化する際の区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性を判定する可能性判定部と、
前記可能性が高い場合に前記個人情報の匿名化を行い、前記可能性が低い場合に前記個人情報の匿名化を中止する匿名化部と、
を備える匿名処理装置。
Anonymous information acquisition unit that acquires anonymous information obtained by anonymizing personal information;
The number of occurrences for obtaining the minimum number of occurrences of the word for a plurality of the number of divisions different from the number of divisions, for each of the types of words that can be attributed to the attribute constituting anonymous information
A coefficient calculation unit for obtaining a reduction coefficient indicating a reduction amount of the minimum occurrence number when the number of divisions is increased based on a combination of the plurality of division numbers and the minimum occurrence number different from each other;
A number-of-sections acquisition unit that acquires the number of sections when anonymizing personal information to be anonymized ,
Based on the reduction coefficient and the number of classifications when anonymizing, there is a possibility that the amount of decrease in the minimum number of appearances when anonymizing the personal information with the number of classifications when anonymizing exceeds a predetermined reference value. A possibility determination unit;
Anonymizing the personal information when the possibility is high, and anonymizing the anonymization of the personal information when the possibility is low,
An anonymous processing device comprising:
個人情報を匿名化した匿名情報を取得する匿名情報取得部と、
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、前記区分数が異なる複数の前記区分数について前記語の最少出現数を求める出現数取得部と、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求める係数算出部と、
匿名化対象の個人情報を受け付ける受付部と、
前記減少係数と前記個人情報の全体数に基づいて、前記個人情報を匿名化した場合の最少出現数の減少量が所定の基準値を超えない区分数を求める区分数算出部と、
前記区分数で前記個人情報の匿名化を行う匿名化部と、
を備える匿名処理装置。
Anonymous information acquisition unit that acquires anonymous information obtained by anonymizing personal information;
The number of occurrences for obtaining the minimum number of occurrences of the word for a plurality of the number of divisions different from the number of divisions, for each of the types of words that can be attributed to the attribute constituting anonymous information
A coefficient calculation unit for obtaining a reduction coefficient indicating a reduction amount of the minimum occurrence number when the number of divisions is increased based on a combination of the plurality of division numbers and the minimum occurrence number different from each other;
A reception unit that accepts personal information to be anonymized;
Based on the reduction coefficient and the total number of personal information, the number-of-segments calculation unit for obtaining the number of categories in which the amount of decrease in the minimum number of appearances when the personal information is anonymized does not exceed a predetermined reference value;
An anonymization unit that anonymizes the personal information by the number of divisions;
An anonymous processing device comprising:
前記減少係数を直線近似式、多項式近似式、指数近似式、又は累乗近似式として求めた請求項1又は2に記載の匿名処理装置。The anonymous processing apparatus according to claim 1, wherein the reduction coefficient is obtained as a linear approximation formula, a polynomial approximation formula, an exponential approximation formula, or a power approximation formula. 個人情報を匿名化した匿名情報を取得するステップと、
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、各語の最少出現数を求めるステップと、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求めて記憶手段に記憶するステップと、
匿名化対象の個人情報を匿名化する際の区分数を取得するステップと、
前記記憶手段に記憶された減少係数と前記匿名化する際の区分数に基づいて、前記個人情報を前記匿名化する際の区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性を判定するステップと、
前記可能性が高い場合に前記個人情報の匿名化を行い、前記可能性が低い場合に前記個人情報の匿名化を中止するステップと、
をコンピュータが実行する匿名処理方法。
Acquiring anonymous information obtained by anonymizing personal information;
A step of obtaining the number of divisions for each type of words that can be attributed to the anonymous information, and obtaining the minimum number of occurrences of each word;
A step of obtaining a reduction coefficient indicating a decrease amount of the minimum number of occurrences when the number of divisions is increased based on a combination of a plurality of the number of divisions and the minimum number of occurrences having different numbers of the divisions and storing them in a storage unit When,
Obtaining the number of sections when anonymizing personal information to be anonymized,
Based on the decrease coefficient stored in the storage means and the number of sections when the anonymization is performed, the amount of decrease in the minimum number of appearances when the personal information is anonymized by the number of sections when anonymized is a predetermined reference Determining the possibility of exceeding the value;
Performing anonymization of the personal information when the possibility is high, and stopping anonymization of the personal information when the possibility is low;
Anonymous processing method that the computer executes.
個人情報を匿名化した匿名情報を取得するステップと、
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、各語の最少出現数を求めるステップと、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求めて記憶手段に記憶するステップと、
匿名化対象の個人情報を受け付けるステップと、
前記記憶手段に記憶された減少係数と前記個人情報の全体数に基づいて、前記個人情報を匿名化した場合の最少出現数の減少量が所定の基準値を超えない区分数を求めるステップと、
前記区分数で前記個人情報の匿名化を行うステップと、
をコンピュータが実行する匿名処理方法。
Acquiring anonymous information obtained by anonymizing personal information;
A step of obtaining the number of divisions for each type of words that can be attributed to the anonymous information, and obtaining the minimum number of occurrences of each word;
A step of obtaining a reduction coefficient indicating a decrease amount of the minimum number of occurrences when the number of divisions is increased based on a combination of a plurality of the number of divisions and the minimum number of occurrences having different numbers of the divisions and storing them in a storage unit When,
Receiving personal information to be anonymized;
Based on the reduction coefficient stored in the storage means and the total number of the personal information, obtaining the number of divisions in which the reduction amount of the minimum number of appearances when the personal information is anonymized does not exceed a predetermined reference value;
Anonymizing the personal information by the number of sections;
Anonymous processing method that the computer executes.
前記減少係数を直線近似式、多項式近似式、指数近似式、又は累乗近似式として求めた請求項4又は5に記載の匿名処理方法。The anonymous processing method according to claim 4 or 5, wherein the reduction coefficient is obtained as a linear approximation formula, a polynomial approximation formula, an exponential approximation formula, or a power approximation formula. 個人情報を匿名化した匿名情報を取得するステップと、
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、各語の最少出現数を求めるステップと、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求めて記憶手段に記憶するステップと、
匿名化対象の個人情報を匿名化する際の区分数を取得するステップと、
前記記憶手段に記憶された減少係数と前記匿名化する際の区分数に基づいて、前記個人情報を前記匿名化する際の区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性を判定するステップと、
前記可能性が高い場合に前記個人情報の匿名化を行い、前記可能性が低い場合に前記個人情報の匿名化を中止するステップと、
をコンピュータに実行させるための匿名処理プログラム。
Acquiring anonymous information obtained by anonymizing personal information;
A step of obtaining the number of divisions for each type of words that can be attributed to the anonymous information, and obtaining the minimum number of occurrences of each word;
A step of obtaining a reduction coefficient indicating a decrease amount of the minimum number of occurrences when the number of divisions is increased based on a combination of a plurality of the number of divisions and the minimum number of occurrences having different numbers of the divisions and storing them in a storage unit When,
Obtaining the number of sections when anonymizing personal information to be anonymized,
Based on the decrease coefficient stored in the storage means and the number of sections when the anonymization is performed, the amount of decrease in the minimum number of appearances when the personal information is anonymized by the number of sections when anonymized is a predetermined reference Determining the possibility of exceeding the value;
Performing anonymization of the personal information when the possibility is high, and stopping anonymization of the personal information when the possibility is low;
Anonymity processing program to make computer execute.
個人情報を匿名化した匿名情報を取得するステップと、
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、各語の最少出現数を求めるステップと、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求めて記憶手段に記憶するステップと、
匿名化対象の個人情報を受け付けるステップと、
前記記憶手段に記憶された減少係数と前記個人情報の全体数に基づいて、前記個人情報を匿名化した場合の最少出現数の減少量が所定の基準値を超えない区分数を求めるステップと、
前記区分数で前記個人情報の匿名化を行うステップと、
をコンピュータに実行させるための匿名処理プログラム。
Acquiring anonymous information obtained by anonymizing personal information;
A step of obtaining the number of divisions for each type of words that can be attributed to the anonymous information, and obtaining the minimum number of occurrences of each word;
A step of obtaining a reduction coefficient indicating a decrease amount of the minimum number of occurrences when the number of divisions is increased based on a combination of a plurality of the number of divisions and the minimum number of occurrences having different numbers of the divisions and storing them in a storage unit When,
Receiving personal information to be anonymized;
Based on the reduction coefficient stored in the storage means and the total number of the personal information, obtaining the number of divisions in which the reduction amount of the minimum number of appearances when the personal information is anonymized does not exceed a predetermined reference value;
Anonymizing the personal information by the number of sections;
Anonymity processing program to make computer execute.
前記減少係数を直線近似式、多項式近似式、指数近似式、又は累乗近似式として求めた請求項7又は8に記載の匿名処理プログラム。The anonymous processing program according to claim 7 or 8, wherein the reduction coefficient is obtained as a linear approximation formula, a polynomial approximation formula, an exponential approximation formula, or a power approximation formula.
JP2014202232A 2014-06-13 2014-09-30 Reduction coefficient calculation device, anonymous processing device, method and program using the same Active JP5860116B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014202232A JP5860116B2 (en) 2014-06-13 2014-09-30 Reduction coefficient calculation device, anonymous processing device, method and program using the same

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014122899 2014-06-13
JP2014122899 2014-06-13
JP2014202232A JP5860116B2 (en) 2014-06-13 2014-09-30 Reduction coefficient calculation device, anonymous processing device, method and program using the same

Publications (2)

Publication Number Publication Date
JP2016015110A JP2016015110A (en) 2016-01-28
JP5860116B2 true JP5860116B2 (en) 2016-02-16

Family

ID=55231228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014202232A Active JP5860116B2 (en) 2014-06-13 2014-09-30 Reduction coefficient calculation device, anonymous processing device, method and program using the same

Country Status (1)

Country Link
JP (1) JP5860116B2 (en)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5611852B2 (en) * 2011-01-31 2014-10-22 Kddi株式会社 Public information privacy protection device, public information privacy protection method and program
EP2761511B1 (en) * 2011-09-28 2017-01-18 Tata Consultancy Services Ltd. System and method for database privacy protection
JP6214150B2 (en) * 2012-11-19 2017-10-18 富士通クラウドテクノロジーズ株式会社 Information processing apparatus, information processing method, and information processing program

Also Published As

Publication number Publication date
JP2016015110A (en) 2016-01-28

Similar Documents

Publication Publication Date Title
US8838629B2 (en) Anonymous information exchange
US20160364490A1 (en) Method, system and computer readable medium for creating a profile of a user based on user behavior
JP6015959B2 (en) Information processing apparatus, information processing method, and program
US20140317756A1 (en) Anonymization apparatus, anonymization method, and computer program
JP5615857B2 (en) Analysis apparatus, analysis method, and analysis program
JP2015060598A (en) Mobile application daily user engagement scores and user profiles
KR101870353B1 (en) Proposing system for search advertising using issue keyword and associated keyword
CN110334356A (en) Article matter method for determination of amount, article screening technique and corresponding device
JP5723067B1 (en) Data analysis system, data analysis method, and data analysis program
JP6214150B2 (en) Information processing apparatus, information processing method, and information processing program
JP2019029037A (en) Purchase information utilizing system, purchase information utilizing method, and program
JP2018081550A (en) Business activity support device, business activity support method and business activity support program
JP6104674B2 (en) Anonymous information distribution system, anonymous information distribution method, and anonymous information distribution program
JP7278100B2 (en) Post evaluation system and method
JP5860116B2 (en) Reduction coefficient calculation device, anonymous processing device, method and program using the same
WO2014050837A1 (en) Determination device, determination method, and computer-readable recording medium
JP6339403B2 (en) Information processing apparatus, information processing method, and information processing program
JP6124936B2 (en) Data analysis system, data analysis method, and data analysis program
KR20180099073A (en) Apparatus and Method for Recommending User Oriented Application
CN109727056B (en) Financial institution recommendation method, device, storage medium and device
JP6375107B2 (en) Anonymization device, anonymization method, and anonymization program
JP2012014352A (en) Demand prediction device and demand prediction method
JP2015125646A (en) Anonymization system
JP6459937B2 (en) Data analysis apparatus, data analysis method, data analysis processing program
KR20180099067A (en) Apparatus and Method for Analyzing Data using Java Association Rule and collaborative filtering

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151217

R150 Certificate of patent or registration of utility model

Ref document number: 5860116

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350