JP5860116B2 - Reduction coefficient calculation device, anonymous processing device, method and program using the same - Google Patents
Reduction coefficient calculation device, anonymous processing device, method and program using the same Download PDFInfo
- Publication number
- JP5860116B2 JP5860116B2 JP2014202232A JP2014202232A JP5860116B2 JP 5860116 B2 JP5860116 B2 JP 5860116B2 JP 2014202232 A JP2014202232 A JP 2014202232A JP 2014202232 A JP2014202232 A JP 2014202232A JP 5860116 B2 JP5860116 B2 JP 5860116B2
- Authority
- JP
- Japan
- Prior art keywords
- divisions
- anonymous
- personal information
- obtaining
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、個人情報を匿名化又は多様化するための情報処理技術に関する。 The present invention relates to information processing technology for anonymizing or diversifying personal information.
情報処理技術の発展に伴い、日常の多くの場面で情報が収集され、この収集された情報を用いた処理が行われている。例えば、消費者が店舗の会員となって商品を購入する場合、会員登録時に消費者の氏名、年齢、性別、住所、メールアドレス等を登録することが多い。そして、消費者が商品を購入すると、店舗側のシステムが、この消費者と購入した商品の情報を対応付けて記録する。このように購入した商品の情報を蓄積して分析すると、当該消費者の嗜好が推定でき、この消費者が好む新商品が発売されたような場合にダイレクトメールを発送するといったサービスを行うことができる。更に、多くの消費者の情報について分析することで、20代女性の好む商品や関東エリアで好まれる商品といった情報を導くことができ、マーケティング等に利用される。 With the development of information processing technology, information is collected in many everyday situations, and processing using the collected information is performed. For example, when a consumer purchases a product as a member of a store, the consumer's name, age, gender, address, e-mail address, etc. are often registered at the time of membership registration. When a consumer purchases a product, the store-side system records the consumer and the purchased product information in association with each other. By accumulating and analyzing information on purchased products in this way, it is possible to estimate the consumer's preferences and perform a service such as sending a direct mail when a new product preferred by the consumer is released. it can. Furthermore, by analyzing information of many consumers, information such as products preferred by women in their 20s and products preferred in the Kanto area can be derived and used for marketing and the like.
また、これらの情報は、当該店舗だけでなく、商品を製造するメーカや、他の企業にとっても新商品の開発や安全性の向上などに用いることができ、価値を有することがある。 In addition, the information can be used not only for the store but also for the manufacturer of the product and other companies for the development of new products and the improvement of safety, and may have value.
しかし、店舗が有する消費者の個人情報を各消費者の許諾を得ずに、他者へ提供することはできない。このため、上記消費者に関する情報を他者へ提供する場合には、個人を特定できないように、匿名化する必要がある。 However, the consumer's personal information in the store cannot be provided to others without obtaining the consent of each consumer. For this reason, when providing information related to the consumer to others, it is necessary to anonymize so that individuals cannot be identified.
例えば、年齢が記載されている会員リストに25歳の人が一人だけであると、25歳の知人がその会員であることを知った時点で、その人を特定できることになる。即ち、25歳の会員という属性を持つ人が一人だけであると、他の情報と照らし合わせることで、個人を特定できる可能性が高い。 For example, if there is only one person 25 years old in the member list in which the age is described, the person can be identified when he / she knows that the 25-year-old acquaintance is the member. That is, if there is only one person with the attribute of a 25-year-old member, there is a high possibility that an individual can be specified by comparing with other information.
そこで、会員リストの年齢の記載を10歳区切りに抽象化し、20代が3人のように同じ属性を持つ人が複数人となるようにすれば、3人のうちの誰であるかを特定できなくなる。このように同じ属性を持つ人がk人以上いる状態を、「k−匿名性」を満たすと称し、そのようにデータを加工することを「k-匿名化」と称する。 Therefore, if the age description in the member list is abstracted into 10-year breaks, and there are multiple people with the same attribute, such as three in their 20s, who of the three is identified become unable. A state in which there are k or more people having the same attribute in this way is referred to as “k-anonymity” and processing such data is referred to as “k-anonymization”.
また、匿名化の基準や手法としては、種々のものが提案されており、例えば、l−多様性、Pk匿名化、t-closeness(非特許文献1参照)が知られている。 Various anonymization standards and methods have been proposed. For example, l-diversity, Pk anonymization, and t-closeness (see Non-Patent Document 1) are known.
図22は、ユーザがICカードを用いて駅の自動改札を出入りし、乗車料金を決済した場合に、管理サーバ側に記録される履歴データ(フローデータ)の一例を示す図である。図22の履歴データ91は、ユーザIDや、利用日時、利用駅、利用内容、料金等が対応付けられている。この履歴データ91は、ユーザIDとユーザの姓、年齢、性別を対応付けたユーザ情報92を参照することで、履歴データの各ユーザが識別できる。
FIG. 22 is a diagram illustrating an example of history data (flow data) recorded on the management server side when a user enters and exits an automatic ticket gate of a station using an IC card and settles a boarding fee. The
この履歴データ91を他の事業者へ提供する場合、ユーザIDとユーザの姓等とを対応付けるユーザ情報92を削除する、或は参照できないように管理することで、ユーザIDから個人を識別できないようにすること(仮名化状態とすること)が考えられる。
When this
しかし、仮名化状態の場合、ユーザIDから氏名が特定できないとしても、ユーザIDと対応付けられた利用駅等の情報が一個人に限定されている場合、即ち、他に利用駅等の情報が一致するユーザがいない場合、利用駅等の情報から再識別できる可能性がある。例えば、ID=A001のユーザが新宿駅、秋葉原駅、人形町を利用していた場合に、同じように駅を利用した人が他にいなければ、ID=A001のユーザの行動を知る人であれば、この履歴データからID=A001のユーザを再識別できる。 However, in the kana conversion state, even if the name cannot be specified from the user ID, if the information such as the use station associated with the user ID is limited to one individual, that is, the other information such as the use station is the same If there is no user to do, there is a possibility that it can be re-identified from information such as the station used. For example, when a user with ID = A001 uses Shinjuku Station, Akihabara Station, and Ningyocho, if there is no other person who uses the station in the same way, a person who knows the behavior of the user with ID = A001. If there is, the user with ID = A001 can be re-identified from the history data.
例えば、n=4247万人のユーザが、m=9262の駅を一様分布で選択した場合に、再識別できる駅の数を式1によって求めると、
mS=n ・・・(式1)
S=2.237となり、履歴データに3駅記録されていれば、再識別できることが分かる。
For example, when n = 4,247,000 users select m = 9262 stations in a uniform distribution, the number of stations that can be re-identified is calculated by
mS = n (Formula 1)
It becomes S = 2.237, and it can be understood that re-identification is possible if three stations are recorded in the history data.
このようにデータの項目が駅で、選択肢数(属性種)が9262駅と非常に大きい場合、利用履歴に3駅含まれていただけ、即ちデータの項目数(属性数)が3つあるだけで、母数が4247万人と非常に大きいデータであっても匿名化できなくなってしまう。 In this way, if the data item is a station and the number of options (attribute type) is very large as 9262 stations, the usage history can include 3 stations, that is, there are only 3 data items (attributes). , Even if the parameter is very large with 42.47 million people, it becomes impossible to anonymize.
また、ICカードの履歴データには、この他にもショッピングの情報が含まれることがあり、購入した商品名や店舗名等の多大な選択肢数となる情報が更に含まれた場合、再識別の可能性が更に高くなる。 In addition, the history data of the IC card may include other shopping information. If the information including a large number of choices such as purchased product names and store names is further included, re-identification may be performed. The possibility is even higher.
このため、各項目の値を抽象化して、各項目の値の組み合わせが一個人に限定されないように匿名化することが考えられるが、行動履歴のようなデータは、データ量が非常に多くなり易く、例えば10万人を超えるような所謂ビッグデータの場合、抽象化を人手で行うのは現実的ではない。 For this reason, it is conceivable that the values of each item are abstracted and anonymized so that the combination of the values of each item is not limited to one individual, but data such as action history tends to be very large in data amount. For example, in the case of so-called big data that exceeds 100,000 people, it is not realistic to perform abstraction manually.
また、機械的に抽象化を行うことも考えられるが、機械的に抽象化を行うと、抽象化した結果が例え匿名性を満たしたとしても、有用なデータになるとは限らない。例えば項目の値の組み合わせが一個人に限定されなくなるまで抽象化した結果、利用価値が無くなるほど抽象的な項目の値(語)になってしまった場合、匿名性を満たしても意味が無い。このため機械的に抽象化を行う場合でも抽象化の結果を人が確認し、有用なデータになっていなければ、抽象化する項目を変える等の設定を変更して抽象化の処理をやり直すといった試行の繰り返しになる。 Although abstraction can be performed mechanically, if abstraction is performed mechanically, even if the abstracted result satisfies anonymity, it is not always useful data. For example, if the combination of item values is abstracted until it is not limited to one individual, and the value (word) of the item is so abstract that there is no use value, it does not make sense to satisfy anonymity. For this reason, even when performing abstraction mechanically, the result of the abstraction is confirmed by a person, and if it is not useful data, the setting of changing items to be abstracted is changed and the abstraction process is restarted. Repeated trials.
しかし、単に試行を繰り返すのは非効率であり、特にビッグデータの場合、抽象化の処理や匿名性を検定する処理に多大な時間がかかってしまうため、充分に試行を行うことが困難であった。 However, simply repeating trials is inefficient, especially in the case of big data, it takes a lot of time to process abstraction and anonymity, making it difficult to perform trials sufficiently. It was.
そこで本発明は、減少係数に基づき、匿名性を満たす可能性が高い区分数で匿名化処理を実行することで、匿名化処理の効率の向上を可能にさせる技術を提供する。 Then, this invention provides the technique which makes it possible to improve the efficiency of anonymization processing by performing anonymization processing with the number of divisions with high possibility of satisfy | filling anonymity based on a reduction coefficient.
本発明に係る減少係数算出装置は、
個人情報を匿名化した匿名情報を取得する匿名情報取得部と、
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、各語の最少出現数を求める出現数取得部と、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求める係数算出部と、を備えた。
The reduction coefficient calculation apparatus according to the present invention is:
Anonymous information acquisition unit that acquires anonymous information obtained by anonymizing personal information;
The number of occurrences for obtaining the number of divisions for each type of words that can be attributed to the anonymous information, obtaining the minimum number of occurrences of each word, and
A coefficient calculation unit for obtaining a reduction coefficient indicating a decrease amount of the minimum occurrence number when the number of divisions is increased based on a combination of the plurality of division numbers and the minimum occurrence number different from each other. It was.
前記減少係数算出装置は、前記減少係数を直線近似式、多項式近似式、指数近似式、又は累乗近似式として求めても良い。 The reduction coefficient calculation device may obtain the reduction coefficient as a linear approximation formula, a polynomial approximation formula, an exponential approximation formula, or a power approximation formula.
本発明に係る匿名処理装置は、
匿名化対象の個人情報を匿名化する際の区分数を取得する区分数取得部と、
前記減少係数算出装置によって算出された減少係数を取得する係数取得部と、
前記減少係数と前記区分数に基づいて、前記個人情報を前記区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性を判定する可能性判定部と、
前記可能性が高い場合に前記個人情報の匿名化を行い、前記可能性が低い場合に前記個人情報の匿名化を中止する匿名化部と、
を備えた。
The anonymous processing device according to the present invention is:
A number-of-sections acquisition unit that acquires the number of sections when anonymizing personal information to be anonymized,
A coefficient acquisition unit for acquiring a reduction coefficient calculated by the reduction coefficient calculation device;
Based on the reduction coefficient and the number of categories, a possibility determination unit that determines the possibility that the amount of decrease in the minimum number of appearances when the personal information is anonymized by the number of categories exceeds a predetermined reference value;
Anonymizing the personal information when the possibility is high, and anonymizing the anonymization of the personal information when the possibility is low,
Equipped with.
本発明に係る匿名処理装置は、
匿名化対象の個人情報を受け付ける受付部と、
前記減少係数算出装置によって算出された減少係数を取得する係数取得部と、
前記減少係数と前記個人情報の全体数に基づいて、前記個人情報を匿名化した場合の最少出現数の減少量が所定の基準値を超えない区分数を求める区分数算出部と、
前記区分数で前記個人情報の匿名化を行う匿名化部と、
を備えた。
The anonymous processing device according to the present invention is:
A reception unit that accepts personal information to be anonymized;
A coefficient acquisition unit for acquiring a reduction coefficient calculated by the reduction coefficient calculation device;
Based on the reduction coefficient and the total number of personal information, the number-of-segments calculation unit for obtaining the number of categories in which the amount of decrease in the minimum number of appearances when the personal information is anonymized does not exceed a predetermined reference value;
An anonymization unit that anonymizes the personal information by the number of divisions;
Equipped with.
本発明に係る減少係数算出方法は、
個人情報を匿名化した匿名情報を取得するステップと、
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、各語の最少出現数を求めるステップと、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求めるステップと、
をコンピュータが実行する。
The reduction coefficient calculation method according to the present invention is:
Acquiring anonymous information obtained by anonymizing personal information;
A step of obtaining the number of divisions for each type of words that can be attributed to the anonymous information, and obtaining the minimum number of occurrences of each word;
Obtaining a reduction coefficient indicating a decrease amount of the minimum number of occurrences when the number of divisions is increased based on a combination of a plurality of the number of divisions and the minimum number of occurrences of which the number of divisions is different;
Is executed by the computer.
本発明に係る匿名処理方法は、
匿名化対象の個人情報を匿名化する際の区分数を取得するステップと、
前記減少係数算出装置によって算出された減少係数を取得するステップと、
前記減少係数と前記区分数に基づいて、前記個人情報を前記区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性を判定するステップと、
前記可能性が高い場合に前記個人情報の匿名化を行い、前記可能性が低い場合に前記個人情報の匿名化を中止するステップと、
をコンピュータが実行する。
The anonymous processing method according to the present invention is:
Obtaining the number of sections when anonymizing personal information to be anonymized,
Obtaining a reduction coefficient calculated by the reduction coefficient calculation device;
Determining the possibility that the amount of decrease in the minimum number of occurrences when the personal information is anonymized by the number of categories based on the decrease coefficient and the number of categories exceeds a predetermined reference value;
Performing anonymization of the personal information when the possibility is high, and stopping anonymization of the personal information when the possibility is low;
Is executed by the computer.
本発明に係る匿名処理方法は、
匿名化対象の個人情報を受け付けるステップと、
前記減少係数算出装置によって算出された減少係数を取得するステップと、
前記減少係数と前記個人情報の全体数に基づいて、前記個人情報を匿名化した場合の最少出現数の減少量が所定の基準値を超えない区分数を求めるステップと、
前記区分数で前記個人情報の匿名化を行うステップと、
をコンピュータが実行する。
The anonymous processing method according to the present invention is:
Receiving personal information to be anonymized;
Obtaining a reduction coefficient calculated by the reduction coefficient calculation device;
Based on the reduction coefficient and the total number of personal information, obtaining a number of divisions in which the amount of decrease in the minimum number of appearances when anonymizing the personal information does not exceed a predetermined reference value;
Anonymizing the personal information by the number of sections;
Is executed by the computer.
また、本発明は、上記方法をコンピュータに実行させるためのプログラムであっても良い。更に、前記プログラムは、コンピュータが読み取り可能な記録媒体に記録されていても良い。 The present invention may be a program for causing a computer to execute the above method. Furthermore, before Kipu program, the computer may be recorded in a recording medium readable.
ここで、コンピュータが読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータから読み取ることができる記録媒体をいう。このような記録媒体の内コンピュータから取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、CD-ROM、CD-R/W、DVD、DAT、8mmテープ、メモリカード等がある。 Here, the computer-readable recording medium refers to a recording medium that accumulates information such as data and programs by electrical, magnetic, optical, mechanical, or chemical action and can be read from the computer. . Examples of such a recording medium that can be removed from the computer include a flexible disk, a magneto-optical disk, a CD-ROM, a CD-R / W, a DVD, a DAT, an 8 mm tape, and a memory card.
また、コンピュータに固定された記録媒体としてハードディスクやROM(リードオンリーメモリ)等がある。 Further, there are a hard disk, a ROM (read only memory), and the like as a recording medium fixed to the computer.
本発明は、減少係数に基づき、匿名性を満たす可能性が高い区分数で匿名化処理を実行することで、匿名化処理の効率の向上を可能にさせる技術を提供できる。 This invention can provide the technique which makes it possible to improve the efficiency of anonymization processing by performing anonymization processing by the number of divisions with high possibility of satisfy | filling anonymity based on a reduction coefficient.
以下、図面を参照して本発明を実施するための形態について説明する。以下の実施の形態の構成は例示であり、本発明は実施の形態の構成に限定されない。 Hereinafter, embodiments for carrying out the present invention will be described with reference to the drawings. The configuration of the following embodiment is an exemplification, and the present invention is not limited to the configuration of the embodiment.
〈実施形態1〉
図1は匿名化処理の説明図、図2は多様化処理の説明図である。図1(A)は、姓、年齢、性別の項目を含む会員情報から姓の項目を削除した例を示す。図1(A)に示すように年齢が記載されている会員情報に16歳の女性が一人だけであると、16歳の女性が、この会員であることが分かった時点で、その人を特定できる。即ち、16歳・女性という属性を持つ人が一人だけであると、他の情報と照らし合わせることで、個人を特定できる可能性がある。
<
FIG. 1 is an explanatory diagram of anonymization processing, and FIG. 2 is an explanatory diagram of diversification processing. FIG. 1A shows an example in which the last name item is deleted from the member information including the last name, age, and gender items. As shown in Fig. 1 (A), if there is only one 16-year-old woman in the member information in which the age is described, when the 16-year-old woman is found to be this member, the person is identified. it can. That is, if there is only one person with the attribute of 16 years old and female, there is a possibility that an individual can be identified by comparing with other information.
図1(B)では、会員リストの年齢の記載を抽象化し、0代(10歳未満)、10代、20代のように年代別とした。しかし、この場合でも10代女性は一人だけであり、図1(A)と同様に個人が特定できてしまい匿名化としては不十分である。 In FIG. 1 (B), the description of the age in the member list is abstracted and classified by age, such as 0's (under 10 years), 10's, and 20's. However, even in this case, there is only one female teenager, and an individual can be identified as in FIG. 1A, which is insufficient for anonymization.
そこで、図1(C)では、更に抽象化し、10代以下(19歳以下)と20代のように年代の区切りを変更した。図1(C)の場合、10代以下の女性が2人であり、[10代以下]及び[女性]という属性が単一では無くなる。このため前述のように16歳の女性が、この会員であることが分かったとしても、どちらが当該16歳女性のデータであるかは特定できない。このように同じ属性を持つ人がk人以上いる状態を、「k-匿名性」を満たすと称し、そのようにデータを加工することを「k-匿名化」と称する。 Therefore, in FIG. 1 (C), it was further abstracted and the age divisions were changed to those in their teens (under 19 years old) and those in their 20s. In the case of FIG. 1C, there are two women in their teens or less, and the attributes of “10 or less” and [female] are not single. For this reason, even if it turns out that a 16-year-old woman is this member as mentioned above, it cannot be specified which is the data of the 16-year-old woman. A state in which there are k or more people having the same attribute in this way is referred to as “k-anonymity” and processing such data is referred to as “k-anonymization”.
図2は、ユーザ毎の利用駅のデータを抽象化し、ユーザ毎の利用駅が属する区のデータとした例を示す。抽象化前のデータでは、駅が特定されているために、住居が新宿駅付近で勤務地が東京駅付近といったデータと照らし合わせることでユーザを特定できる可能性がある。このため利用駅を抽象化して、利用駅が属する区とすることで、新宿区内の駅と千代田区内の駅を利用するユーザが複数となり、利用者が特定されなくなる。このように「新宿区内の駅と千代田区内の駅を利用する」のように属性値がl種類の可能性を持つよう抽象化することをl−多様化と称する。 FIG. 2 shows an example in which the data of the use stations for each user is abstracted and used as data for the ward to which the use station for each user belongs. In the pre-abstraction data, since the station is specified, there is a possibility that the user can be specified by comparing the data such as the residence near Shinjuku Station and the work place near Tokyo Station. For this reason, by abstracting the use station and making it a ward to which the use station belongs, there are a plurality of users who use stations in Shinjuku ward and stations in Chiyoda ward, and the user is not specified. The abstraction that attribute values have l types of possibilities, such as “use stations in Shinjuku ward and stations in Chiyoda ward” is called l-diversification.
図3は、本実施形態における匿名化システム10の概略構成図である。匿名化システム10は、図1に示すように、匿名処理装置1と減少係数算出装置2を有している。
FIG. 3 is a schematic configuration diagram of the
匿名処理装置1は、データ受付部11や、区分数取得部12、係数取得部13、可能性判定部14、匿名化部15、検定部16、縦列登録部17、データ出力部18、匿名結果DB(データベース)31、匿名情報縦列DB32を備えている。
The
データ受付部11は、個人と対応付けられた複数の項目を含む対象データ(個人情報)や、匿名化の条件、匿名化に係る命令等を受け付ける。なお、個人情報や匿名化の条件等の受付は、インターネット等のネットワークを介して受信するものや、記憶媒体から読み出されるもの、キーボード等の入力手段から入力されるものであっても良い。図4は個人情報の一例を示す図である。図4に示す例では、ユーザ毎のIDや姓、年齢、性別、購入商品、購入場所等の情報を有している。
The
区分数取得部12は、匿名化対象の個人情報を匿名化する際の区分数を取得する。区分数は、匿名情報に含まれる属性が取り得る属性値(語)の種類の数、換言すると属性値を同一の属性値毎に区分した場合の区分の数である。図5は、区分の説明図である。例えば、属性が性別の場合に、属性値を男性と女性の2区分とする。また、属性が年齢の場合に
、属性値を未成年、成人、老人の3区分や、20代以下、30代、40代、50代、60代以上の5区分、更に0代、10代、20代、30代、40代、50代、60代、70代、80代以上の9区分とする。また、属性が住所や購入場所等の地域の場合に、属性値を西日本と東日本の2区分や、北海道、東北、関東、中部、近畿、中国、四国、九州、沖縄の9区分、北海道、青森県、岩手県・・・東京都・・・大阪府といった都道府県の47区分とする。
The number-of-
区分数取得部12は、例えば、匿名化の処理を指示するオペレータによる入力、過去の履歴から読み出し、対象データの属性を抽象化する語(属性値)として匿名化辞書に登録されている語の計数により区分数を取得する。
The number-of-
係数取得部13は、減少係数算出装置2によって算出された減少係数を取得する。減少係数は、例えば、対象データを匿名化する際、区分数を増加させた場合の最少出現数の減少数又は前記減少数の全体数に対する割合である。
The
可能性判定部14は、前記減少係数と前記区分数に基づいて、前記個人情報を前記区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性を判定する。
The
匿名化部15は、対象データを匿名化或いは多様化する際に、対象データ中の項目の値であるワード(語)を抽象化したワードに替えることで匿名化を行い、対象データを匿名候補データとする。本実施形態においてワード(語)は、単語や句など、一まとまりの言葉であり、位置情報や電話番号等の数値、メールアドレスやIPアドレス等の識別情報、言葉と同様の意味を持つ記号等を含んでも良い。本実施形態の匿名化部15は、前記可能性判定部14で匿名性を満たす可能性が高いと判定した場合に前記対象データの匿名化を行い、匿名性を満たす可能性が低いと判定した場合には前記対象データの匿名化を中止する。
When the
検定部16は、匿名候補データの一個人と対応する項目の値の組み合わせが、当該匿名候補データ中で単一でないことを条件として検定する。例えば検定部16は、匿名候補データがk−匿名性を満たしているか、l−多様性を満たしているかを検定する。即ち、検定部16は、匿名候補データのk値(最少出現数)が基準値以上で、k−匿名性を満たしているか、匿名候補データのl値が基準値以上で、l−多様性を満たしているかを検定する。検定部16は、この検定の結果、匿名性を満たした匿名候補データを匿名情報として匿名結果DB31に記憶させる。
The test |
図4Aは、対象データの一例を示す図、図4Bは、匿名結果DB31に記憶される匿名データの一例を示す図である。図4Bに示す匿名データは、図4Aに示す対象データのうち、ユーザ毎のIDを匿名情報用のIDに変更し、姓を削除し、年齢、購入商品、購入場所の情報を抽象化している。なお、匿名情報用のIDは、対象データのIDとは別のIDを付しているので、匿名情報用のIDから個人を特定できるものでは無い。また、この匿名情報用のIDと対象データのIDとの対応テーブルを対象データと共に記憶しておき、匿名情報と対象データの対応付けを可能としても良い。
FIG. 4A is a diagram illustrating an example of target data, and FIG. 4B is a diagram illustrating an example of anonymous data stored in the
縦列登録部17は、匿名情報を属性毎に分割して、匿名情報縦列DB32へ縦列に登録する。図4Bの匿名結果DB31では、年齢、性別、購入商品、購入場所といったユーザ毎の属性を行方向に連ねて登録しているのに対し、図6の匿名情報縦列DB32では、これらの属性を属性毎、及びこれらの属性の組み合わせ毎に別のレコードとして分割し、縦列に登録している。例えば、図4Aの匿名結果DB31では、IDがXのレコードに「17才」「男」「新宿」「ラーメン」といった属性が登録されているのに対し、図6の匿名情報縦列DB32では、IDがZ001のレコードに「17才」、IDがZ004のレコ
ードに「男」、IDがX001のレコードに「新宿」、IDがY001のレコードに「ラーメン」、IDがY008のレコードに「17才−男」、IDがV003のレコードに「新宿−ラーメン」等のように、それぞれ別のレコードに登録されている。
The
データ出力部18は、匿名情報縦列DB32から匿名化情報を読み出して出力する。ここで、匿名化情報の出力とは、例えば、表示装置による表示出力や、プリンタによる印刷出力、他のコンピュータへの送信、記憶媒体への書き込み等である。
The
区分数算出部19は、減少係数と個人情報の全体数に基づいて、個人情報を匿名化した場合の最少出現数の減少量が所定の基準値を超えない区分数を求める。
Based on the reduction coefficient and the total number of personal information, the number-of-
また、減少係数算出装置2は、匿名情報取得部21や、出現数取得部22、係数算出部23、頻出パターンDB33、減少係数DB34を備えている。
The reduction
匿名情報取得部21は、個人情報を匿名化した匿名情報縦列DB32から匿名情報を取得する。
The anonymous
出現数取得部22は、匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、各語の最少出現数を求める、例えば、匿名情報に含まれる語を同一の語毎に区分して区分数を求め、各区分における語の最少出現数を求める。
The number-of-
係数算出部23は、区分数の異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の最少出現数の減少数又は前記減少数の全体数に対する割合を減少係数として求め、減少係数DB34に記憶する。
The
図7は匿名処理装置1及び減少係数算出装置2のハードウェア構成を示す図である。匿名処理装置1及び減少係数算出装置2は、CPU101、メモリ102、通信制御部103、記憶装置104、入出力インタフェース105を有する所謂コンピュータである。
FIG. 7 is a diagram illustrating a hardware configuration of the
CPU101は、メモリ102に実行可能に展開されたプログラムを実行する。これにより、匿名処理装置1のCPU101は、前述のデータ受付部11や、区分数取得部12、係数取得部13、可能性判定部14、匿名化部15、検定部16、縦列登録部17、データ出力部18の機能を提供する。また、減少係数算出装置2のCPU101は、前述の匿名情報取得部21や、出現数取得部22、係数算出部23の機能を提供する。
The
メモリ102は、主記憶装置ということもできる。メモリ102は、例えば、CPU101が実行するプログラムや、通信制御部103を介して受信したデータ、記憶装置104から読み出したデータ、その他のデータ等を記憶する。
The
通信制御部103は、ネットワークを介して他の装置と接続し、当該装置との通信を制御する。入出力インタフェース105は、表示装置やプリンタ等の出力手段や、キーボードやポインティングデバイス等の入力手段、ドライブ装置等の入出力手段が適宜接続される。ドライブ装置は、着脱可能な記憶媒体の読み書き装置であり、例えば、フラッシュメモリカードの入出力装置、USBメモリを接続するUSBのアダプタ等である。また、着脱可能な記憶媒体は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、ブルーレイディスク(Blu-ray(登録商標) Disc)等のディスク媒体であってもよい。ドライブ装置は、着脱可能な記憶媒体からプログラムを読み出し、記憶装置104に格納する。
The
記憶装置104は、外部記憶装置ということもできる。記憶装置104としては、SS
D(Solid State Drive)やHDD等であってもよい。記憶装置104は、ドライブ装置
との間で、データを授受する。例えば、記憶装置104は、ドライブ装置からインストールされる情報処理プログラム等を記憶する。また、記憶装置104は、プログラムを読み出し、メモリ102に引き渡す。本実施形態では、匿名処理装置1の記憶装置104が前述の匿名結果DB31、匿名情報縦列DB32を格納している。また、減少係数算出装置2の記憶装置104が、頻出パターンDB33、減少係数DB34を格納している。
The
D (Solid State Drive), HDD, etc. may be sufficient. The
次に本実施形態における匿名化システム10の匿名処理装置1及び減少係数算出装置2がプログラムに従って実行する匿名処理方法及び減少係数算出方法について説明する。図8は、匿名化処理の説明図である。匿名処理装置1は、先ず他のコンピュータ或いは記憶装置から対象データを受け付ける(ステップS10)。本実施形態の匿名処理装置1は、複数の匿名化アルゴリズムを有し、オペレータが任意に選択できるようにしている。複数の匿名化アルゴリズムとしては、例えば、医療情報の匿名化に特化したアルゴリズムや、購買履歴等のフローデータの匿名化に特化したアルゴリズム、ファッションや教育、外食産業等の特定の業種に特化したアルゴリズムが挙げられる。また、このアルゴリズムは、匿名化手法だけでなく、匿名化辞書や、前処理手法、フィルタリング手法などを選択可能としても良い。即ち、オペレータは、匿名化の対象データ共に、これらのアルゴリズムを選択する情報を入力する。
Next, the anonymous processing method and the reduction coefficient calculation method which the
次に、匿名処理装置1は、選択されたアルゴリズムで対象データを匿名化し(ステップS20)、最少出現数が基準値を超えているか否かによって匿名性の検定を行う(ステッ
プS30)。
Next, the
検定後、匿名処理装置1は、匿名情報を匿名結果DB31に蓄積する(ステップS40)。図8において、データパターンAは、対象データの年齢を5区分で匿名化処理した匿名情報の例であり、検定の結果、16才、17才、18才、20才の4区分は基準値10人を超えて匿名性を満たし(図中、○で示す)、15才以下の1区分は基準値10人を下回り匿名性を満たしていない(図中、×で示す)。同様に、データパターンBは、対象データの年齢を3区分で匿名化処理した匿名情報の例であり、データパターンCは、対象データの年齢を2区分で匿名化処理した匿名情報の例である。
After the test, the
そして、匿名処理装置1は、定期的に匿名結果DB31から匿名情報を読み取り、匿名情報縦列DB32へ縦列に登録する (ステップS50)。図8において、縦列匿名情報8
1は、匿名情報縦列DB32に登録される匿名情報の一例を示す図であり、データパターンや、データパターン毎の行番号、属性、存在数、匿名の基準値を対応付けて記憶している。(ステップS60)
And the
1 is a diagram illustrating an example of anonymous information registered in the anonymous
図9は、出現数を取得する処理の説明図である。減少係数算出装置2は、図9に示すように、先ず匿名情報縦列DB32からデータパターン毎に匿名データを取得する(ステッ
プS110)。
FIG. 9 is an explanatory diagram of a process for acquiring the number of appearances. As shown in FIG. 9, the reduction
次に、減少係数算出装置2は、データパターン毎の区分数や存在数を取得し(ステップ
S120)、存在数が所定値以上の属性値を頻出パターン82として頻出パターンDB3
3に登録し、属性毎の区分数と最少出現数を属性パターン83として減少係数DB34に登録する(ステップS130)。なお、属性パターン83は、図10に示すように、日時や企業名、利用回数等の情報を更に付加しても良い。
Next, the reduction
3 and the number of divisions and the minimum number of appearances for each attribute are registered in the
そして、減少係数算出装置2は、次のデータパターンがあるか否かを判定し、次のデータパターンがあればステップS110に戻り、次のデータパターンがなければ終了する(
ステップS140)。
Then, the reduction
Step S140).
図11は、減少係数算出の処理の説明図である。減少係数算出装置2は、図10に示すように、先ず減少係数DB34から属性パターン83を取得する(ステップS150)。
FIG. 11 is an explanatory diagram of the reduction coefficient calculation process. As shown in FIG. 10, the reduction
次に減少係数算出装置2は、取得した属性パターン83のうち、各属性について、区分数の異なる複数の区分数及び最少出現数の組み合わせに基づいて、区分数を増加させた場合の最少出現数の減少数や前記減少数の全体数に対する割合を減少係数として求め (ステップS160)、この属性毎の減少係数84を減少係数DB34に記憶させる。
Next, the reduction
図12に示されるように、全体数が20000、区分数2のときの最少出現数が10000、区分数7のときの最少出現数が1000、区分数11のときの最少出現数が500・・・といった区分数及び最少出現数の組み合わせ85であるとき、この回帰直線86を求めると、y=−95.905x+8727.9となる。この回帰直線の傾きから区分数が1増加すると、最少出現数が約95減少することがわかる。即ち減少定数が95.905である。ここで、全体数が20000であるので、減少定率は95.905/20000≒0.47%である。
As shown in FIG. 12, when the total number is 20000 and the number of sections is 2, the minimum number of appearances is 10000, when the number of sections is 7, the minimum number of appearances is 1000, and when the number of sections is 11, the minimum number of appearances is 500. When the regression line 86 is obtained for the
なお、本実施形態では、属性毎に減少係数を求めたが、これに限らず複数の属性を併合して減少係数を求めても良い。例えば、区分数(属性種)が2の属性と区分数が3の属性とを併合して区分数6として減少係数の算出に用いても良い。また、同一の属性の抽象度を変えて異なる複数の区分数の属性として減少係数の算出に用いても良い。更に、類似した属性に基づいて減少係数を求めた方が精度が高いため、匿名化の際に用いる属性に優先度を付けておき、優先度の高いものから順に所定数の属性を用いて減少係数を求めても良い。また、属性を所定のジャンル(例えば、地域、時期、音楽、ファッション等)に分類しておき、同じジャンルに分類される属性を用いて減少係数を算出しても良い。更に、A社の年齢、A社の購入場所等のように企業名毎のデータに基づいて減少係数を求めても良い。 In the present embodiment, the reduction coefficient is obtained for each attribute. However, the present invention is not limited to this, and a reduction coefficient may be obtained by merging a plurality of attributes. For example, an attribute with 2 divisions (attribute type) and an attribute with 3 divisions may be merged and used as 6 divisions to calculate the reduction coefficient. Also, the abstraction level of the same attribute may be changed and used for calculating the reduction coefficient as a plurality of different attributes. Furthermore, since it is more accurate to calculate the reduction factor based on similar attributes, prioritize the attributes used for anonymization, and use a predetermined number of attributes in descending order of priority. A coefficient may be obtained. Further, the attribute may be classified into a predetermined genre (for example, region, time, music, fashion, etc.), and the reduction coefficient may be calculated using the attribute classified into the same genre. Further, the reduction coefficient may be obtained based on data for each company name such as the age of company A, the purchase location of company A, and the like.
そして、減少係数算出装置2は、次のデータがあるか否かを判定し、次のデータがあればステップS150に戻り、次のデータがなければ終了する(ステップS180)。
Then, the reduction
図13は、出現頻度を求める処理の説明図である。減少係数算出装置2は、図13に示すように、先ず頻出パターンDB33から頻出パターン82を取得する(ステップS21
0)。減少係数算出装置2は、この頻出パターン82から、属性値毎の存在数の平均や、
全体数に対する存在数の割合(出現率)を統計情報として求め(ステップS220)、頻出パターンDB33に登録する(ステップS230)。
FIG. 13 is an explanatory diagram of processing for obtaining the appearance frequency. As shown in FIG. 13, the reduction
0). The reduction
The ratio (appearance rate) of the existence number to the total number is obtained as statistical information (step S220), and is registered in the frequent pattern DB 33 (step S230).
そして、減少係数算出装置2は、次のデータがあるか否かを判定し、次のデータがあればステップS210に戻り、次のデータがなければ終了する(ステップS240)。
Then, the reduction
図14は、減少係数を用いた匿名化処理の説明図である。匿名処理装置1は、先ず他のコンピュータから対象データと共に匿名化のリクエストを受け付ける(ステップS310)。このとき例えば男女2区分×年代8区分=16区分等のように、オペレータが指定した区分数のリクエストを受ける。なお、図14には省略したが、前述の図8と同様に匿名処理装置1は、複数の匿名化アルゴリズムを有し、オペレータが任意に選択できる。
FIG. 14 is an explanatory diagram of anonymization processing using a reduction coefficient. The
次に匿名処理装置1は、匿名化する対象データの各属性について減少係数を減少係数DB34から取得する(ステップS320)。なお、減少係数が、企業名と対応付けて記憶されている場合には、この企業名の一致する減少係数を取得する。即ち、当該企業が過去に用いた匿名データから求めた減少係数を取得する。
Next, the
そして、匿名処理装置1は、取得した減少係数と区分数に基づいて、対象データを前記区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性が高いか否かを判定する(ステップS330)。例えば、減少定率が10%で、区分数が16区分であると、16区分×10%=160%となり、100%(基準値)を超えるので、匿名性を満たす可能性が低いと判定する。一方、区分数が8区分であると、8区分×10%=80%となり、100%(基準値)を超えないので、匿名性を満たす可能性が高いと判定する。また、減少定数が8で、区分数が16区分であると、16区分×8=128となり、全体数100(基準値)を超えるので、匿名性を満たす可能性が低いと判定する。一方、区分数が8区分であると、8区分×8=64となり、100(基準値)を超えないので、匿名性を満たす可能性が高いと判定する。
And the
匿名性を満たす可能性が高いと判定した場合、匿名処理装置1は、選択されたアルゴリズムで対象データを匿名化し(ステップS340)、最少出現数が基準値を超えているか否かによって匿名性の検定を行う(ステップS350)。また、検定後、匿名処理装置1は、匿名情報を匿名結果DB31に蓄積する(ステップS360)。
If it is determined that there is a high possibility of satisfying the anonymity, the
一方、ステップS330で、匿名性を満たす可能性が低いと判定した場合、匿名処理装置1は、匿名化処理を中止し、処理を終了する(ステップS370)。
On the other hand, if it is determined in step S330 that the possibility of satisfying anonymity is low, the
このように図14の処理によれば、匿名性を満たす可能性が低ければ、匿名化処理を行わないので、無駄に匿名化処理を試行することが無くなり、匿名化処理の効率化が図れる。 As described above, according to the process of FIG. 14, if the possibility of satisfying anonymity is low, the anonymization process is not performed. Therefore, the anonymization process is not tried unnecessarily, and the efficiency of the anonymization process can be improved.
図15は、減少係数を用いた匿名化処理の説明図である。匿名処理装置1は、先ず他のコンピュータから対象データを受け付ける(ステップS410)。なお、図15には省略したが、前述の図8と同様に匿名処理装置1は、複数の匿名化アルゴリズムを有し、オペレータが任意に選択できる。
FIG. 15 is an explanatory diagram of anonymization processing using a reduction coefficient. The
次に匿名処理装置1は、匿名化する対象データの各属性について減少係数を減少係数DB34から取得する(ステップS420)。また、匿名処理装置1は、匿名化する対象データの各属性について頻出パターンを頻出パターンDB33から取得する(ステップS43
0)。なお、減少係数や頻出パターンが、企業名と対応付けて記憶されている場合には、
この企業名の一致する減少係数や頻出パターンを取得する。即ち、当該企業が過去に用いた匿名データから求めた減少係数や頻出パターンを取得する。
Next, the
0). In addition, when the decrease coefficient and the frequent pattern are stored in association with the company name,
A reduction coefficient and a frequent pattern with the same company name are acquired. That is, the reduction coefficient and the frequent pattern obtained from the anonymous data used by the company in the past are acquired.
また、匿名処理装置1は、取得した減少係数と対象データの全体数に基づいて、対象データを匿名化した場合に匿名性を満たす可能性が高い区分数を求める(ステップS440)。例えば、減少定率が10%で、全体数が100である場合、100×10%=10区分のように区分数を求める。一方、減少定数が12で、全体数が100である場合、100/12≒8.3となるので、8区分とする。
Moreover, the
そして、匿名処理装置1は、ステップS430で取得した頻出パターンに含まれる区分を用い、且つステップS440で算出した区分数以下で匿名化の処理を行い(ステップS450)、最少出現数が基準値を超えているか否かによって匿名性の検定を行う(ステッ
プS460)。また、検定後、匿名処理装置1は、匿名情報を匿名結果DB31に蓄積す
る(ステップS470)。
And the
このように図15の処理によれば、減少係数と対象データの全体数に基づき、匿名化を行った時の減少量が、全体数を超えないように区分数を定めたことにより、無駄に匿名化
処理を試行することが無くなり、匿名化処理の効率化が図れる。また、頻出パターンに基づき、頻出する区分を用いて匿名化を行うことで、匿名化処理を行った時の最少出現数が小さくなりすぎて、匿名性を満たさなくなることが避けられるので、匿名化処理の効率化が図れる。
As described above, according to the processing of FIG. 15, the number of divisions is determined based on the reduction coefficient and the total number of target data so that the reduction amount when anonymization is performed does not exceed the total number. The anonymization process is not tried and the anonymization process can be made more efficient. In addition, anonymization is performed based on frequent patterns, and anonymization is avoided because the minimum number of appearances when anonymization processing is performed becomes too small and anonymity is not satisfied. Processing efficiency can be improved.
<変形例>
図16は、図14の匿名化処理の変形例を示す図である。図14の処理では、ステップS330で、匿名性を満たす可能性が低いと判定された場合に、処理を中断したが、図16の処理では、ステップS330で、匿名性を満たす可能性が低いと判定された場合に、図15の処理を実行し(ステップS390)、減少係数と全体数に基づいた区分数で匿名化を行うものである。なお、その他の構成は、同じであるため、再度の説明は省略する。
<Modification>
FIG. 16 is a diagram illustrating a modification of the anonymization process of FIG. In the process of FIG. 14, when it is determined in step S330 that the possibility of satisfying anonymity is low, the process is interrupted. However, in the process of FIG. 16, in step S330, the possibility of satisfying anonymity is low. If it is determined, the process of FIG. 15 is executed (step S390), and anonymization is performed with the number of sections based on the reduction coefficient and the total number. Since other configurations are the same, the description thereof will be omitted.
このように本変形例によれば、ステップS310でリクエストされた区分数で匿名性を満たす可能性が低い場合でも、減少係数と全体数に基づき匿名性を満たす可能性の高い区分数で匿名化を行うことができるため、匿名化処理の更なる効率化を図ることができる。 As described above, according to the present modification, anonymization is performed with the number of divisions that are highly likely to satisfy anonymity based on the decrease coefficient and the total number even when the number of divisions requested in step S310 is low. Therefore, the efficiency of the anonymization process can be further improved.
〈実施形態2〉
前述の実施形態1では、減少係数として直線近似式によって求めた減少定数や減少率を用いたが、これに限定されるものではなく、実施形態2では、減少係数として累乗近似式を用いた例を示す。本実施形態2は、前述の実施形態1と比べて、累乗近似式を用いた構成が異なり、他の構成は同じであるため、同一の要素は同符号を付す等して再度の説明を省略する。
<
In the above-described first embodiment, the reduction constant and the reduction rate obtained by the linear approximation formula are used as the reduction coefficient. However, the present invention is not limited to this, and the second embodiment uses a power approximation formula as the reduction coefficient. Indicates. The second embodiment is different from the first embodiment in the configuration using the power approximation formula, and the other configurations are the same. Therefore, the same elements are denoted by the same reference numerals and the description thereof is omitted. To do.
本実施形態2において、減少係数算出装置2の係数算出部23は、区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数として、累乗近似式を求める。
例えば、係数算出部23は、区分数を増加させた場合の最少出現数に基づいて、下記の累乗近似式1を求める。なお、累乗近似式1において、yは匿名レベル(k値)、xは区分数を示す。
For example, the
そして、本実施形態2における匿名処理装置1の可能性判定部14は、累乗近似式1と匿名化を行う区分数に基づいて、個人情報を前記区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性を判定する。
例えば、可能性判定部14は、累乗近似式1を以下の式2のように展開して最少出現数を推定し、この最少出現数の推定値xが基準値を超えるか否かで可能性を判定する。なお、次の式では、匿名レベルyをkとしている。
For example, the
なお、k値は0に収束するものではないため、式1に1を加えて式3とし、式3を展開して式4として用いても良い
図17は、減少係数算出の処理の説明図である。減少係数算出装置2は、図10に示すように、先ず減少係数DB34から属性パターン83を取得する(ステップS150)。
FIG. 17 is an explanatory diagram of the reduction coefficient calculation process. As shown in FIG. 10, the reduction
次に減少係数算出装置2は、取得した属性パターン83のうち、各属性について、区分数の異なる複数の区分数及び最少出現数の組み合わせを求め(ステップS160A)、これらの区分数及び最少出現数に基づいて累乗近似式1を減少係数として求めて、この減少係数を減少係数DB34に記憶させる(ステップS170A)。
Next, the reduction
図18に示されるように、全体数が20000、区分数2のときの最少出現数が10000、区分数7のときの最少出現数が1000、区分数11のときの最少出現数が500・・・といった区分数及び最少出現数の組み合わせ85であるとき、累乗近似式1を求めると、y=114659x−1.414となる。この累乗近似式1から各区分の区分数が1増加した場合の最少出現数の減少数がわかる。例えば、この減少数が95.905である場合、全体数が20000であるので、減少率は95.905/20000≒0.47%である。
As shown in FIG. 18, when the total number is 20000 and the number of sections is 2, the minimum number of appearances is 10000, when the number of sections is 7, the minimum number of appearances is 1000, and when the number of sections is 11, the minimum number of appearances is 500. In the case of the
そして、減少係数算出装置2は、次のデータがあるか否かを判定し、次のデータがあればステップS150に戻り、次のデータがなければ終了する(ステップS180)。
Then, the reduction
図19は、減少係数を用いた匿名化処理の説明図である。匿名処理装置1は、先ず他のコンピュータから対象データと共に匿名化のリクエストを受け付ける(ステップS310)。このとき例えば男女2区分×年代8区分=16区分等のように、オペレータが指定し
た区分数のリクエストを受ける。なお、図19には省略したが、前述の図8と同様に匿名処理装置1は、複数の匿名化アルゴリズムを有し、オペレータが任意に選択できる。
FIG. 19 is an explanatory diagram of anonymization processing using a reduction coefficient. The
次に匿名処理装置1は、匿名化する対象データの各属性について減少係数(累乗近似式1)を減少係数DB34から取得する(ステップS320)。なお、減少係数が、企業名と対応付けて記憶されている場合には、この企業名の一致する減少係数を取得する。即ち、当該企業が過去に用いた匿名データから求めた減少係数を取得する。
Next, the
そして、匿名処理装置1は、取得した減少係数を式2のように展開し、区分数に基づいて、対象データを前記区分数で匿名化した場合の最少出現数の減少量が所定の基準値(k値)を超える可能性が高いか否かを判定する(ステップS330A)。
And the
匿名性を満たす可能性が高いと判定した場合、匿名処理装置1は、選択されたアルゴリズムで対象データを匿名化し(ステップS340)、最少出現数が基準値を超えているか否かによって匿名性の検定を行う(ステップS350)。また、検定後、匿名処理装置1は、匿名情報を匿名結果DB31に蓄積する(ステップS360)。
If it is determined that there is a high possibility of satisfying the anonymity, the
一方、ステップS330で、匿名性を満たす可能性が低いと判定した場合、匿名処理装置1は、匿名化処理を中止し、処理を終了する(ステップS370)。
On the other hand, if it is determined in step S330 that the possibility of satisfying anonymity is low, the
このように図19の処理によれば、匿名性を満たす可能性が低ければ、匿名化処理を行わないので、無駄に匿名化処理を試行することが無くなり、匿名化処理の効率化が図れる。 As described above, according to the process of FIG. 19, if there is a low possibility of satisfying the anonymity, the anonymization process is not performed. Therefore, the anonymization process is not used unnecessarily, and the efficiency of the anonymization process can be improved.
図20は、減少係数を用いた匿名化処理の説明図である。匿名処理装置1は、先ず他のコンピュータから対象データを受け付ける(ステップS410)。なお、図20には省略したが、前述の図8と同様に匿名処理装置1は、複数の匿名化アルゴリズムを有し、オペレータが任意に選択できる。
FIG. 20 is an explanatory diagram of anonymization processing using a reduction coefficient. The
次に匿名処理装置1は、匿名化する対象データの各属性について減少係数(累乗近似式1)を減少係数DB34から取得する(ステップS420)。また、匿名処理装置1は、匿名化する対象データの各属性について頻出パターンを頻出パターンDB33から取得する(ステップS430)。なお、減少係数や頻出パターンが、企業名と対応付けて記憶されている場合には、この企業名の一致する減少係数や頻出パターンを取得する。即ち、当該企業が過去に用いた匿名データから求めた減少係数や頻出パターンを取得する。
Next, the
また、匿名処理装置1は、取得した減少係数と対象データの全体数に基づいて、対象データを匿名化した場合に匿名性を満たす可能性が高い区分数を求める(ステップS440
A)。
Moreover, the
A).
そして、匿名処理装置1は、ステップS430で取得した頻出パターンに含まれる区分を用い、且つステップS440で算出した区分数以下で匿名化の処理を行い(ステップS450)、最少出現数が基準値を超えているか否かによって匿名性の検定を行う(ステッ
プS460)。また、検定後、匿名処理装置1は、匿名情報を匿名結果DB31に蓄積す
る(ステップS470)。
And the
このように図20の処理によれば、減少係数と対象データの全体数に基づき、匿名化を行った時の減少量が、全体数を超えないように区分数を定めたことにより、無駄に匿名化処理を試行することが無くなり、匿名化処理の効率化が図れる。また、頻出パターンに基づき、頻出する区分を用いて匿名化を行うことで、匿名化処理を行った時の最少出現数が
小さくなりすぎて、匿名性を満たさなくなることが避けられるので、匿名化処理の効率化が図れる。
As described above, according to the processing of FIG. 20, the number of categories is determined based on the reduction coefficient and the total number of target data so that the amount of reduction when anonymization is performed does not exceed the total number. The anonymization process is not tried and the anonymization process can be made more efficient. In addition, anonymization is performed based on frequent patterns, and anonymization is avoided because the minimum number of appearances when anonymization processing is performed becomes too small and anonymity is not satisfied. Processing efficiency can be improved.
〈実施形態3〉
本実施形態3では、複数の事業者間で匿名情報を比較するために統一した区分数で匿名化を行う例を示している。実施形態3は、前述の実施形態2と比べて、統一した区分数で匿名化を行うための構成が異なり、他の構成は同じであるため、同一の要素は同符号を付す等して再度の説明を省略する。
複数の事業者間でデータを比較する場合、同じ属性で匿名化しなければならないが、互いが所有している個人情報がどのようなものかが分らないため、どの程度の区分数であれば共通の属性で匿名化できるのかが互いに分らなかった。このため無駄に試行を繰り返すことになり、匿名化処理の効率が悪かった。そこで、本実施形態3の減少係数算出装置2は、複数事業者からの匿名情報に基づいて、共通の属性で匿名化が行える可能性が高い区分数を推定して各事業者に通知する。
<
In the third embodiment, an example is shown in which anonymization is performed with a uniform number of divisions in order to compare anonymous information among a plurality of business operators. The third embodiment is different from the second embodiment in the configuration for anonymization with a uniform number of divisions, and the other configurations are the same. The description of is omitted.
When comparing data between multiple operators, it must be anonymized with the same attributes, but since it does not know what personal information each other owns, how many divisions are common I didn't know if it was possible to anonymize with the attributes. For this reason, trials were repeated unnecessarily, and the efficiency of the anonymization process was poor. Therefore, the reduction
図21は、減少係数算出の処理の説明図である。減少係数算出装置2は、先ず複数の事業者から匿名情報を取得する(ステップS150B)。
FIG. 21 is an explanatory diagram of the reduction coefficient calculation process. The reduction
次に減少係数算出装置2は、取得した属性パターン83のうち、各属性について、区分数の異なる複数の区分数及び最少出現数の組み合わせを求め(ステップS160B)、これらの区分数及び最少出現数に基づいて累乗近似式1を減少係数として求め、この累乗近似式1に基づいて、最少出現数が基準値以上となる区分数の下限値を求めて減少係数DB34に記憶させる(ステップS170B)。
Next, the reduction
また、減少係数算出装置2は、次のデータがあるか否かを判定し(ステップS180)、次のデータがあればステップS150Bに戻り、次のデータがなければ、各事業者における区分数の下限値のうち、最も小さい区分数を共通の区分数、即ち共通の属性で匿名化が行える可能性が高い区分数とし(ステップS190B)、各事業者の端末に通知する(ステ
ップS200B)。
Further, the reduction
そして、各事業者が、通知された区分数で前述の匿名化を行うことで、無駄に試行を繰り返すことなく匿名化を行うことができる。
このように本実施形態3によれば、複数事業者からの匿名情報に基づいて、効率良く共通の属性で匿名化を行うことができる。
And each provider can perform anonymization without repeating trials unnecessarily by performing the above-mentioned anonymization with the notified number of divisions.
Thus, according to the third embodiment, anonymization can be efficiently performed with a common attribute based on anonymous information from a plurality of business operators.
〈その他〉
本発明は、上述の図示例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。例えば、前記実施形態2,3では、減少係数として累乗近似式を用いたが、これに代えて多項近似式や指数近似式等の近似式を用いても良い。
<Others>
The present invention is not limited to the illustrated examples described above, and various modifications can be made without departing from the scope of the present invention. For example, in the second and third embodiments, the power approximation formula is used as the reduction coefficient, but an approximation formula such as a polynomial approximation formula or an exponential approximation formula may be used instead.
1 匿名処理装置
2 減少係数算出装置
10 匿名化システム
11 データ受付部
12 区分数取得部
13 係数取得部
14 可能性判定部
15 匿名化部
16 検定部
17 縦列登録部
18 データ出力部
21 匿名情報取得部
22 出現数取得部
23 係数算出部
31 匿名結果DB
32 匿名情報縦列DB
33 頻出パターンDB
34 減少係数DB
DESCRIPTION OF
32 Anonymous Information Column DB
33 Frequent pattern DB
34 Reduction factor DB
Claims (9)
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、前記区分数が異なる複数の前記区分数について前記語の最少出現数を求める出現数取得部と、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求める係数算出部と、
匿名化対象の個人情報を匿名化する際の区分数を取得する区分数取得部と、
前記減少係数と前記匿名化する際の区分数に基づいて、前記個人情報を前記匿名化する際の区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性を判定する可能性判定部と、
前記可能性が高い場合に前記個人情報の匿名化を行い、前記可能性が低い場合に前記個人情報の匿名化を中止する匿名化部と、
を備える匿名処理装置。 Anonymous information acquisition unit that acquires anonymous information obtained by anonymizing personal information;
The number of occurrences for obtaining the minimum number of occurrences of the word for a plurality of the number of divisions different from the number of divisions, for each of the types of words that can be attributed to the attribute constituting anonymous information
A coefficient calculation unit for obtaining a reduction coefficient indicating a reduction amount of the minimum occurrence number when the number of divisions is increased based on a combination of the plurality of division numbers and the minimum occurrence number different from each other;
A number-of-sections acquisition unit that acquires the number of sections when anonymizing personal information to be anonymized ,
Based on the reduction coefficient and the number of classifications when anonymizing, there is a possibility that the amount of decrease in the minimum number of appearances when anonymizing the personal information with the number of classifications when anonymizing exceeds a predetermined reference value. A possibility determination unit;
Anonymizing the personal information when the possibility is high, and anonymizing the anonymization of the personal information when the possibility is low,
An anonymous processing device comprising:
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、前記区分数が異なる複数の前記区分数について前記語の最少出現数を求める出現数取得部と、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求める係数算出部と、
匿名化対象の個人情報を受け付ける受付部と、
前記減少係数と前記個人情報の全体数に基づいて、前記個人情報を匿名化した場合の最少出現数の減少量が所定の基準値を超えない区分数を求める区分数算出部と、
前記区分数で前記個人情報の匿名化を行う匿名化部と、
を備える匿名処理装置。 Anonymous information acquisition unit that acquires anonymous information obtained by anonymizing personal information;
The number of occurrences for obtaining the minimum number of occurrences of the word for a plurality of the number of divisions different from the number of divisions, for each of the types of words that can be attributed to the attribute constituting anonymous information
A coefficient calculation unit for obtaining a reduction coefficient indicating a reduction amount of the minimum occurrence number when the number of divisions is increased based on a combination of the plurality of division numbers and the minimum occurrence number different from each other;
A reception unit that accepts personal information to be anonymized;
Based on the reduction coefficient and the total number of personal information, the number-of-segments calculation unit for obtaining the number of categories in which the amount of decrease in the minimum number of appearances when the personal information is anonymized does not exceed a predetermined reference value;
An anonymization unit that anonymizes the personal information by the number of divisions;
An anonymous processing device comprising:
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、各語の最少出現数を求めるステップと、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求めて記憶手段に記憶するステップと、
匿名化対象の個人情報を匿名化する際の区分数を取得するステップと、
前記記憶手段に記憶された減少係数と前記匿名化する際の区分数に基づいて、前記個人情報を前記匿名化する際の区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性を判定するステップと、
前記可能性が高い場合に前記個人情報の匿名化を行い、前記可能性が低い場合に前記個人情報の匿名化を中止するステップと、
をコンピュータが実行する匿名処理方法。 Acquiring anonymous information obtained by anonymizing personal information;
A step of obtaining the number of divisions for each type of words that can be attributed to the anonymous information, and obtaining the minimum number of occurrences of each word;
A step of obtaining a reduction coefficient indicating a decrease amount of the minimum number of occurrences when the number of divisions is increased based on a combination of a plurality of the number of divisions and the minimum number of occurrences having different numbers of the divisions and storing them in a storage unit When,
Obtaining the number of sections when anonymizing personal information to be anonymized,
Based on the decrease coefficient stored in the storage means and the number of sections when the anonymization is performed, the amount of decrease in the minimum number of appearances when the personal information is anonymized by the number of sections when anonymized is a predetermined reference Determining the possibility of exceeding the value;
Performing anonymization of the personal information when the possibility is high, and stopping anonymization of the personal information when the possibility is low;
Anonymous processing method that the computer executes.
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、各語の最少出現数を求めるステップと、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求めて記憶手段に記憶するステップと、
匿名化対象の個人情報を受け付けるステップと、
前記記憶手段に記憶された減少係数と前記個人情報の全体数に基づいて、前記個人情報を匿名化した場合の最少出現数の減少量が所定の基準値を超えない区分数を求めるステップと、
前記区分数で前記個人情報の匿名化を行うステップと、
をコンピュータが実行する匿名処理方法。 Acquiring anonymous information obtained by anonymizing personal information;
A step of obtaining the number of divisions for each type of words that can be attributed to the anonymous information, and obtaining the minimum number of occurrences of each word;
A step of obtaining a reduction coefficient indicating a decrease amount of the minimum number of occurrences when the number of divisions is increased based on a combination of a plurality of the number of divisions and the minimum number of occurrences having different numbers of the divisions and storing them in a storage unit When,
Receiving personal information to be anonymized;
Based on the reduction coefficient stored in the storage means and the total number of the personal information, obtaining the number of divisions in which the reduction amount of the minimum number of appearances when the personal information is anonymized does not exceed a predetermined reference value;
Anonymizing the personal information by the number of sections;
Anonymous processing method that the computer executes.
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、各語の最少出現数を求めるステップと、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求めて記憶手段に記憶するステップと、
匿名化対象の個人情報を匿名化する際の区分数を取得するステップと、
前記記憶手段に記憶された減少係数と前記匿名化する際の区分数に基づいて、前記個人情報を前記匿名化する際の区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性を判定するステップと、
前記可能性が高い場合に前記個人情報の匿名化を行い、前記可能性が低い場合に前記個人情報の匿名化を中止するステップと、
をコンピュータに実行させるための匿名処理プログラム。 Acquiring anonymous information obtained by anonymizing personal information;
A step of obtaining the number of divisions for each type of words that can be attributed to the anonymous information, and obtaining the minimum number of occurrences of each word;
A step of obtaining a reduction coefficient indicating a decrease amount of the minimum number of occurrences when the number of divisions is increased based on a combination of a plurality of the number of divisions and the minimum number of occurrences having different numbers of the divisions and storing them in a storage unit When,
Obtaining the number of sections when anonymizing personal information to be anonymized,
Based on the decrease coefficient stored in the storage means and the number of sections when the anonymization is performed, the amount of decrease in the minimum number of appearances when the personal information is anonymized by the number of sections when anonymized is a predetermined reference Determining the possibility of exceeding the value;
Performing anonymization of the personal information when the possibility is high, and stopping anonymization of the personal information when the possibility is low;
Anonymity processing program to make computer execute.
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、各語の最少出現数を求めるステップと、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求めて記憶手段に記憶するステップと、
匿名化対象の個人情報を受け付けるステップと、
前記記憶手段に記憶された減少係数と前記個人情報の全体数に基づいて、前記個人情報を匿名化した場合の最少出現数の減少量が所定の基準値を超えない区分数を求めるステップと、
前記区分数で前記個人情報の匿名化を行うステップと、
をコンピュータに実行させるための匿名処理プログラム。 Acquiring anonymous information obtained by anonymizing personal information;
A step of obtaining the number of divisions for each type of words that can be attributed to the anonymous information, and obtaining the minimum number of occurrences of each word;
A step of obtaining a reduction coefficient indicating a decrease amount of the minimum number of occurrences when the number of divisions is increased based on a combination of a plurality of the number of divisions and the minimum number of occurrences having different numbers of the divisions and storing them in a storage unit When,
Receiving personal information to be anonymized;
Based on the reduction coefficient stored in the storage means and the total number of the personal information, obtaining the number of divisions in which the reduction amount of the minimum number of appearances when the personal information is anonymized does not exceed a predetermined reference value;
Anonymizing the personal information by the number of sections;
Anonymity processing program to make computer execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014202232A JP5860116B2 (en) | 2014-06-13 | 2014-09-30 | Reduction coefficient calculation device, anonymous processing device, method and program using the same |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014122899 | 2014-06-13 | ||
JP2014122899 | 2014-06-13 | ||
JP2014202232A JP5860116B2 (en) | 2014-06-13 | 2014-09-30 | Reduction coefficient calculation device, anonymous processing device, method and program using the same |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016015110A JP2016015110A (en) | 2016-01-28 |
JP5860116B2 true JP5860116B2 (en) | 2016-02-16 |
Family
ID=55231228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014202232A Active JP5860116B2 (en) | 2014-06-13 | 2014-09-30 | Reduction coefficient calculation device, anonymous processing device, method and program using the same |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5860116B2 (en) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5611852B2 (en) * | 2011-01-31 | 2014-10-22 | Kddi株式会社 | Public information privacy protection device, public information privacy protection method and program |
EP2761511B1 (en) * | 2011-09-28 | 2017-01-18 | Tata Consultancy Services Ltd. | System and method for database privacy protection |
JP6214150B2 (en) * | 2012-11-19 | 2017-10-18 | 富士通クラウドテクノロジーズ株式会社 | Information processing apparatus, information processing method, and information processing program |
-
2014
- 2014-09-30 JP JP2014202232A patent/JP5860116B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016015110A (en) | 2016-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8838629B2 (en) | Anonymous information exchange | |
US20160364490A1 (en) | Method, system and computer readable medium for creating a profile of a user based on user behavior | |
JP6015959B2 (en) | Information processing apparatus, information processing method, and program | |
US20140317756A1 (en) | Anonymization apparatus, anonymization method, and computer program | |
JP5615857B2 (en) | Analysis apparatus, analysis method, and analysis program | |
JP2015060598A (en) | Mobile application daily user engagement scores and user profiles | |
KR101870353B1 (en) | Proposing system for search advertising using issue keyword and associated keyword | |
CN110334356A (en) | Article matter method for determination of amount, article screening technique and corresponding device | |
JP5723067B1 (en) | Data analysis system, data analysis method, and data analysis program | |
JP6214150B2 (en) | Information processing apparatus, information processing method, and information processing program | |
JP2019029037A (en) | Purchase information utilizing system, purchase information utilizing method, and program | |
JP2018081550A (en) | Business activity support device, business activity support method and business activity support program | |
JP6104674B2 (en) | Anonymous information distribution system, anonymous information distribution method, and anonymous information distribution program | |
JP7278100B2 (en) | Post evaluation system and method | |
JP5860116B2 (en) | Reduction coefficient calculation device, anonymous processing device, method and program using the same | |
WO2014050837A1 (en) | Determination device, determination method, and computer-readable recording medium | |
JP6339403B2 (en) | Information processing apparatus, information processing method, and information processing program | |
JP6124936B2 (en) | Data analysis system, data analysis method, and data analysis program | |
KR20180099073A (en) | Apparatus and Method for Recommending User Oriented Application | |
CN109727056B (en) | Financial institution recommendation method, device, storage medium and device | |
JP6375107B2 (en) | Anonymization device, anonymization method, and anonymization program | |
JP2012014352A (en) | Demand prediction device and demand prediction method | |
JP2015125646A (en) | Anonymization system | |
JP6459937B2 (en) | Data analysis apparatus, data analysis method, data analysis processing program | |
KR20180099067A (en) | Apparatus and Method for Analyzing Data using Java Association Rule and collaborative filtering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5860116 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |