JP2013125374A - Information processing method, device, and program - Google Patents
Information processing method, device, and program Download PDFInfo
- Publication number
- JP2013125374A JP2013125374A JP2011273037A JP2011273037A JP2013125374A JP 2013125374 A JP2013125374 A JP 2013125374A JP 2011273037 A JP2011273037 A JP 2011273037A JP 2011273037 A JP2011273037 A JP 2011273037A JP 2013125374 A JP2013125374 A JP 2013125374A
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- records
- data
- attribute value
- data storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本技術は、データを匿名化する技術に関する。 The present technology relates to a technology for anonymizing data.
プライバシーに関わるデータの統計値を開示するとき、データの分布によってはプライバシーが侵害される場合がある。たとえば、4人の従業員に対しアンケート調査をおこない、その統計結果を従業員に開示することを考える。 When disclosing statistical values of data related to privacy, privacy may be infringed depending on the distribution of data. For example, consider conducting a questionnaire survey of four employees and disclosing the statistical results to the employees.
図1に、アンケート結果例を示す。3つの質問に対し、それぞれ4人が回答し、その統計結果が示されている。ここで、それぞれの回答はプライバシー情報であるものとする。すなわち、それぞれの質問につき、各従業員は自分が何と回答したか他の従業員に知られたくないと考えているものとする。また、各従業員は誰がこのアンケートに回答したか知っているものとする。 FIG. 1 shows an example of a questionnaire result. Four people answered each of the three questions, and the statistical results are shown. Here, it is assumed that each answer is privacy information. That is, for each question, each employee thinks that he / she does not want other employees to know what he / she answered. Each employee also knows who answered this questionnaire.
このとき、質問1の回答は、全員が「不満」であるため、各従業員が何と回答したか他の従業員に知られてしまうという問題がある。また、質問2の回答は、1人以外の全員が「不満」であるため、どの従業員が「不満」と回答したか、その1人に知られてしまうという問題がある。なお、質問3の回答は偏りが小さく、結託をしない限り、どの従業員にも他の従業員の回答を一意に知ることができない。
At this time, since all of the answers to
ところで、k−匿名化技術という匿名化技術が知られている。k−匿名化技術とは、例えば表データについて、プライバシー上あまり問題とならない属性の値が全て同じレコードが k個以上となるようにデータを変更する技術である。 By the way, the anonymization technique called k-anonymization technique is known. The k-anonymization technique is a technique for changing data so that, for example, table data has k or more records having the same attribute values that do not cause much privacy.
たとえば、部署や年齢とともに、従業員8人に対し図1のような質問についてアンケート調査を行うことを考える。 For example, consider a questionnaire survey on questions such as those shown in FIG.
図2に、このアンケート回答例を示す。各レコード(すなわち行)が各従業員の回答内容である。各属性(すなわち列)は調査項目で、「部署」及び「年齢」はプライバシー上あまり問題とならない属性とし、「回答」内容はプライバシー情報であるものとする。また、前と同様に、各従業員は誰がこのアンケートに回答したかを知っているものとする。 FIG. 2 shows an example of this questionnaire response. Each record (that is, a row) is the response content of each employee. Each attribute (that is, column) is a survey item, “Department” and “Age” are attributes that do not cause much privacy, and “Reply” content is privacy information. Also, as before, each employee knows who answered this questionnaire.
さらに、今度は、アンケート結果を開示する際に、全体の統計値だけでなく、できるだけ詳細な統計値も開示したいとする。それにより、例えば「開発部」は不満率が高いとか、「若い者」は不満率が高いといった、多くの情報を提供できる可能性がある。 Furthermore, this time, when disclosing the questionnaire results, it is assumed that not only the overall statistical values but also the statistical values as detailed as possible are disclosed. As a result, for example, the “development department” may be able to provide a lot of information, such as a high dissatisfaction rate, or a “young person” having a high dissatisfaction rate.
但し、図2のデータをそのまま開示することはプライバシー上問題がある。そのまま開示すると、例えば企画部26歳の太郎さんが「回答」したことを知っている者には、最初のレコードが太郎さんだということが分かるので、太郎さんが不満を抱いていることが分かってしまう。 However, disclosing the data of FIG. 2 as it is has a privacy problem. If it is disclosed as it is, for example, those who know that Taro, 26-year-old Planning Department answered, will know that the first record is Taro, so I know that Taro is dissatisfied End up.
そこで、k-匿名化技術により変更したデータを開示することが考えられる。k-匿名化技術を使うと、プライバシー上あまり問題とならない属性である、「部署」及び「年齢」の値が変更対象となる。 Therefore, it is conceivable to disclose data changed by the k-anonymization technique. When k-anonymization technology is used, the values of “department” and “age”, which are attributes that do not cause much privacy problems, are changed.
図3に、k−匿名化技術(k=4)を適用し、データを変更した例を示す。この表を見ても、企画部26歳の太郎さんのレコードは最初の1乃至4番目のどれかということまでしかわからない。一方、企画部/開発部は不満率が高い傾向があるという情報が得られる。 FIG. 3 shows an example in which data is changed by applying the k-anonymization technique (k = 4). Even if you look at this chart, you can only tell if the record of Taro, 26 years old, is one of the first to fourth. On the other hand, information that the planning department / development department tends to have a high dissatisfaction rate is obtained.
このように、ある程度情報を残しつつ、任意の個人(一般的には人に限らない)のレコードがどれか少なくともkレコードまでしか絞れないようにするのが、k−匿名化技術の効果である。 As described above, it is an effect of the k-anonymization technology that allows any individual (generally not limited to) records to be limited to at least k records while leaving some information. .
しかし、k−匿名化技術を適用したからといって、開示してもプライバシー問題がない表に変更されるとは限らない。 However, just because the k-anonymization technology is applied does not necessarily change to a table that does not have a privacy problem even if disclosed.
上で述べた例では、例えば企画部42歳で「普通」と回答した次郎さんが図3のデータを見た場合、自分のレコードは2番目であるから企画部26歳の太郎さんのレコードは1番目か3番目か4番目であることが分かる。そうすると、太郎さんが不満と回答していることが分かってしまう。これは、(部署, 年齢)=(企画部/開発部,25/26/28/42)であるグループにおける回答の統計値{不満:3,普通:1}の偏りが大きいことによる。
In the example described above, for example, when Jiro who answered “normal” at the
このように、k−匿名化技術を適用した表を開示することは、少ないレコード数での統計値を複数開示することに相当し、偏りの大きい統計値が生じやすい。 Thus, disclosing a table to which the k-anonymization technique is applied corresponds to disclosing a plurality of statistical values with a small number of records, and a statistical value with a large bias tends to occur.
また、プライバシー情報となる属性の値の偏りを小さくするk−匿名化技術として、l−多様性を満たすk−匿名化技術がある。 Moreover, there is a k-anonymization technique that satisfies l-diversity as a k-anonymization technique that reduces the bias of attribute values that serve as privacy information.
l−多様性とは、k−匿名化により作られる各グループ(プライバシー上あまり問題とならない属性の値が全て同じレコード群)のプライバシー情報となる属性の統計に、l種類以上の属性値が含まれる性質である。例えば、図3のデータは2−多様性を満たす。なぜなら、(部署,年齢)=(企画部/開発部,25/26/28/42)であるグループの回答は不満と普通の2種類があり、(部署,年齢)=(管理部/営業部,24/35/36/44)であるグループの回答は不満と普通と満足の3種類があり、他にグループはないからである。 l-diversity is an attribute statistic that is privacy information for each group created by k-anonymization (records with the same attribute values that do not cause much privacy). It is a property. For example, the data in FIG. 3 satisfies 2-diversity. Because there are two types of responses, dissatisfied and normal, (Department, Age) = (Management Department / Sales Department), (Department, Age) = (Planning Department / Development Department, 25/26/28/42) , 24/35/36/44), there are three types of responses, dissatisfied, normal and satisfied, and there are no other groups.
図3のデータは2−多様性を満たすが、上で述べたようにプライバシー保護が不十分である。よって、一般的に 2−多様性を満たすだけではプライバシー保護が不十分であるといえる。 The data in FIG. 3 satisfies 2-diversity, but as mentioned above, privacy protection is insufficient. Therefore, it can be said that privacy protection is generally insufficient simply by satisfying 2-diversity.
そこでl≧3とすることが考えられるが、lを大きくすると開示できる情報が少なくなるという問題がある。 Therefore, it is conceivable that l ≧ 3. However, there is a problem that if l is increased, less information can be disclosed.
図4は図2に示すデータに対してl−多様性(l=3)を満たすk−匿名化技術(k=4)を適用し、データを変更した例である。この表を開示しても、自身の回答以外は、誰がどんな回答をしたのか誰にも一意に決められない。 FIG. 4 shows an example in which the data shown in FIG. 2 is changed by applying k-anonymization technology (k = 4) that satisfies l-diversity (l = 3). Even if this table is disclosed, no one can uniquely determine who made what other than his own.
しかし、図4の表からは、もはや全体の統計値以上に意味がありそうな情報を得るのが難しい。たとえば、開発部は(平均より)不満率が高いとか、若い者は不満率が高いといった情報は得られない。 However, from the table in FIG. 4, it is difficult to obtain information that seems to be more meaningful than the overall statistics. For example, the development department cannot get information that the dissatisfaction rate is higher (than the average) or that young people have a high dissatisfaction rate.
このように、l−多様性を満たすk−匿名化技術は、得られる情報を多くするには l を小さくしたいが、l≦2にするとプライバシー保護が不十分の場合があるという問題がある。 As described above, the k-anonymization technique satisfying l-diversity has a problem that privacy protection may be insufficient when l ≦ 2 although it is desired to reduce l in order to increase the obtained information.
また、別の技術として、従来から、プライバシー上あまり問題とならない属性の値を確率的に変更することで、開示してもプライバシー上あまり問題とならない表にする、撹乱技術がある。しかしながら、このような技術を用いると、誰がどんな回答をしたのか推定するのは難しいが、もはや全体の統計値以上に意味がありそうな情報を得るのが難しい。すなわち、開発部は不満率が高いとか、若い者は不満率が高いといった情報は得られない。確率的な情報を得ることができるはずだが、その確率を計算するのは難しく、計算できたとしても多くの情報は望めないと考えられる。 As another technique, conventionally, there is a disturbance technique in which the value of an attribute that does not cause much privacy is probabilistically changed to a table that does not cause much privacy even if disclosed. However, using such a technique, it is difficult to estimate who answered what, but it is difficult to obtain information that is more meaningful than the overall statistics. In other words, there is no information that the development department has a high dissatisfaction rate or that young people have a high dissatisfaction rate. Although probabilistic information should be obtained, it is difficult to calculate the probability, and even if it can be calculated, it is thought that a lot of information cannot be expected.
従って、本技術の目的は、一側面によれば、元の値の出現分布の傾向を残しつつプライバシー保護を行う技術を提供することである。 Accordingly, an object of the present technology is, according to one aspect, to provide a technology that protects privacy while leaving a tendency of an appearance distribution of original values.
本技術に係る情報処理方法は、(A)複数のレコードに含まれ且つ曖昧化対象と指定されている第1の属性の属性値の種類毎に複数のレコードのうち当該第1の属性の属性値が出現するレコードの数が格納されているデータ格納部に格納されているデータから、レコードの数の分布が、偏りが大きいことを表す条件を満たしているか判断するステップと、(B)レコードの数の分布が、偏りが大きいことを表す条件を満たしている場合には、複数のレコードのうち少なくとも1のレコードにおける第1の属性の属性値を、曖昧化データに置換し、データ格納部に格納するステップとを含む。 The information processing method according to the present technology includes (A) the attribute of the first attribute among the plurality of records for each type of attribute value of the first attribute that is included in the plurality of records and designated as the object to be obfuscated. A step of determining whether or not the distribution of the number of records satisfies a condition indicating that the deviation is large from data stored in the data storage unit in which the number of records in which the value appears is stored; If the distribution of the number satisfies the condition indicating that the bias is large, the attribute value of the first attribute in at least one of the plurality of records is replaced with the ambiguous data, and the data storage unit And storing in the.
元の値の出現分布の傾向を残しつつプライバシー保護を行うことができる。 Privacy protection can be performed while leaving the trend of the appearance distribution of the original values.
[実施の形態1]
本実施の形態に係る情報処理装置の構成例を図5に示す。図5に示すように、情報処理装置100は、第1データ格納部110と、判断部120と、曖昧化処理部130と、第2データ格納部140とを有する。
[Embodiment 1]
FIG. 5 shows a configuration example of the information processing apparatus according to this embodiment. As illustrated in FIG. 5, the
第1データ格納部110は、例えば図6に示すように、あるレコード群についてプライバシー情報となるため曖昧化対象の属性について、当該レコード群において出現する属性値毎にその出現頻度が格納されている。図6の例では、値「不満」の出現頻度が「3」であり、値「普通」の出現頻度が「1」である。このようなデータを、頻度表と呼ぶことにする。また、第1データ格納部110は、属性値として取り得る値の種類mの値についても格納する。
For example, as shown in FIG. 6, the first
判断部120は、第1データ格納部110に格納されている頻度表を基に、出現頻度の分布に偏りが発生しているか判断する。判断部120が偏り発生を検出すると、曖昧化処理部130に処理を指示する。曖昧化処理部130は、判断部120からの指示に応じて、第2データ格納部140に格納されているレコード群(第1データ格納部110に格納されているデータの元データ)の少なくとも1つのレコードにおける曖昧化対象の属性の属性値を、曖昧化データで置換し、置換結果を第2データ格納部140に格納する。
Based on the frequency table stored in the first
次に、本実施の形態に係る情報処理装置100の処理内容について、図7を用いて説明する。まず、判断部120は、第1データ格納部110から処理対象のレコードについての頻度表を読み出す(ステップS1)。そして、判断部120は、頻度表から、出現頻度の分布に偏りが大きいか判断する(ステップS3)。
Next, processing contents of the
例えば、頻度表において2種類しか属性値が出現しておらず且つ出現頻度が少ない方の属性値の出現頻度が1又は2となっている場合、又は1種類しか属性値が出現していない場合には、出現頻度の分布に偏りが大きいと判断する。回答者自身が結果を見る場合には、他の回答者の回答を一意に識別できないようにするためには、このような条件を採用する。また、この場合には、ステップS5では、多くとも2つのレコードの属性値を曖昧化する。 For example, when only two types of attribute values appear in the frequency table and the appearance frequency of the attribute value with the lower appearance frequency is 1 or 2, or when only one type of attribute value appears Therefore, it is determined that the distribution of the appearance frequency is largely biased. When the respondent himself / herself sees the result, such a condition is adopted in order to make it impossible to uniquely identify the answers of other respondents. In this case, in step S5, attribute values of at most two records are obscured.
また、回答した人が結果を見ないという前提がある場合には、例えば、頻度表において2種類しか属性値が出現しておらず且つ出現頻度が少ない方の属性値の出現頻度が1となっている場合、又は1種類しか属性値が出現していない場合に、出現頻度の分布に偏りが大きいと判断する。このような場合には、ステップS5では、多くとも1つのレコードの属性値を曖昧化する。 If there is a premise that the responding person does not see the result, for example, only two types of attribute values appear in the frequency table, and the appearance frequency of the attribute value with the lower appearance frequency is 1. If only one type of attribute value appears, it is determined that the distribution of the appearance frequency is largely biased. In such a case, in step S5, the attribute value of at most one record is obscured.
このほかにも予め基準を設定しておき、出現頻度の偏りを表す指標値が、予め設定されている基準以上であれば、出現頻度の偏りが大きいと判断する。 In addition to this, a reference is set in advance, and if the index value representing the appearance frequency deviation is equal to or greater than the preset reference, it is determined that the appearance frequency deviation is large.
出現頻度の分布に偏りが大きいと判断されなかった場合には処理を終了する。一方、出現頻度の分布に偏りが大きいと判断された場合には、判断部120は、曖昧化処理部130に処理を指示する。曖昧化処理部130は、判断部120からの指示に応じて、出現頻度の偏りに応じて頻度表における1以上の属性値を確率的に曖昧化する(ステップS5)。曖昧化処理部130は、変更後の頻度表を、第1データ格納部110に格納する。
If it is not determined that the appearance frequency distribution is largely biased, the process ends. On the other hand, when it is determined that the distribution of appearance frequencies is largely biased, the
例えば、本実施の形態では、例えば出現頻度の偏り(例えば2種類しか属性値が出現しておらず且つ出現頻度が少ない方の属性値の出現頻度が1である場合、2である場合)及びnに応じて複数の曖昧化態様が用意されている。そして、各曖昧化態様においては、例えばmと出現頻度の総和nの値とに応じて決定される確率に応じて、1又は2の属性値を曖昧化データに置換する複数のパターンのいずれかを選択する。なお、1種類しか属性値が出現しない場合には出現頻度の分布に偏りが大きいと言えるが、曖昧化できるのはその1種類の属性値しかないので、そのままその属性値を曖昧化することになる。 For example, in the present embodiment, for example, the appearance frequency is biased (for example, when only two types of attribute values appear and the appearance frequency of the attribute value with the lower appearance frequency is 1, the case is 2) and A plurality of obscuring modes are prepared according to n. And in each obfuscation mode, for example, one of a plurality of patterns that replace the attribute value of 1 or 2 with the obfuscation data according to the probability determined according to the value of m and the sum n of the appearance frequencies. Select. If only one type of attribute value appears, it can be said that the distribution of the appearance frequency is largely biased. However, since only one type of attribute value can be obscured, the attribute value is obscured as it is. Become.
例えば、図6に示すように出現している属性値が不満と普通の2種類で、出現頻度が少ない方である普通の出現頻度が1である場合、m=3でn=4であれば、1つの曖昧化態様として、以下のような曖昧化パターンを規定しておく。
A:確率11%で、不満1レコードと普通1レコードを曖昧化
B:それ以外(89%)で、不満1レコードを曖昧化
For example, as shown in FIG. 6, when there are two types of attribute values that appear, dissatisfied and normal, and the normal appearance frequency that is the lower appearance frequency is 1, if m = 3 and n = 4 The following obscuration pattern is defined as one obscuration mode.
A: Ambiguity of 1 record of dissatisfaction and 1 record of ordinary with 11% probability B: Disambiguation of 1 record of dissatisfaction with other (89%)
従って、曖昧化処理部130は、乱数を発生させて、パターンA又はBを選択して、頻度表を変更する。例えば、パターンBが選択された場合には、頻度表は図8に示すように変更される。図8の例では、曖昧化データとして「?」が用いられている。このように、どのような属性値かを特定できないようなデータに置換する。但し、「?」だけではなく、元の値の確率分布情報を含むようにしても良い。具体的には、この例では(不満=57%,普通=43%)というデータをも含むようにしても良い。
Therefore, the
その後、曖昧化処理部130は、第2データ格納部140に格納されているレコード群の一部のレコードを、変更後の頻度表に従って変更し、変更後のレコードを第2データ格納部140に格納する(ステップS7)。図8に示すような頻度表に変更する場合には、属性値「不満」のレコードを1つ選択して曖昧化データに置換する。上で述べた例では、図3の1行目から4行目についての頻度表を処理していたので、図3の1行目から4行目が変更対象であり、その中で曖昧化対象の属性「回答」の属性値「不満」の3レコードのいずれかをランダムに選択して、曖昧化データに置換する。例えば、図9に示すようなデータに変更される。図9の例では、上で述べたように、図3の1行目から4行目のうち3行目のレコードの属性「回答」の属性値「不満」が「?(不満=57%,普通=43%)」に置換されている。
Thereafter, the
このようにすれば、回答者が図9の結果を見たとしても、他の回答者がどのように回答したかを一意に特定できない。一方、「企画部/開発部」は不満の数又は割合が高い傾向があることも把握できる。すなわち、出現頻度に偏りが大きい場合であっても、元の値の出現頻度の傾向を保持しつつプライバシー保護が図られるようになる。 In this way, even if the respondent sees the result of FIG. 9, it is not possible to uniquely identify how other respondents answered. On the other hand, the “planning department / development department” can also grasp that the number or ratio of dissatisfaction tends to be high. That is, even when the appearance frequency is largely biased, privacy protection can be achieved while maintaining the tendency of the appearance frequency of the original value.
なお、頻度表を変更することなく、ステップS7でいずれの属性値を曖昧化データに置換するかを決定できれば、直接レコードにおける曖昧化対象の属性の属性値を曖昧化データに置換しても良い。 It should be noted that the attribute value of the attribute to be obfuscated in the direct record may be replaced with the ambiguous data as long as it can be determined in step S7 which attribute value is to be replaced with the ambiguous data without changing the frequency table. .
[実施の形態2]
本実施の形態に係る情報処理装置の構成例を、図10に示す。図10に示すように、情報処理装置200は、第1データ格納部210と、k−匿名化処理部220と、グループ化処理部230と、出力部240と、入力部250と、曖昧化処理部260と、第2データ格納部270とを有する。
[Embodiment 2]
FIG. 10 shows a configuration example of the information processing apparatus according to this embodiment. As illustrated in FIG. 10, the
第1データ格納部210には、処理の対象となるレコード群が格納されている。k−匿名化処理部220は、第1データ格納部210に格納されているレコード群について、よく知られたk−匿名化処理を実施する。
The first
入力部250は、プライバシー保護上あまり問題とならない属性と、ユーザから曖昧化対象の属性及びその属性の取り得る属性値の種類数mの組み合わせの入力を受け付け、第1データ格納部210に格納する。
The
グループ化処理部230は、k−匿名化処理後のレコード群について、プライバシー保護の上であまり問題のない属性の属性値が同じレコードをグループ化する。グループ化処理部230は、グループ化についてのデータを第1データ格納部210に格納する。
The
曖昧化処理部260は、各グループについて、曖昧化処理を実施し、曖昧化の処理結果を第1データ格納部210に格納する。なお、曖昧化処理部260は、頻度表などの処理途中のデータについては第2データ格納部270に格納する。出力部240は、第1データ格納部210に格納されているデータを、出力装置(表示装置や印刷装置など)に出力する。
The obscuring
次に、図11乃至図21を用いて、情報処理装置200の処理内容を説明する。既に、入力部250は、ユーザから、第1データ格納部210に格納されているレコード群における曖昧化対象の属性及びその属性の取り得る属性値の種類数mの組み合わせの入力を受け付け、第1データ格納部210に格納しているものとする。例えば、レコード群において部署、年齢、アンケートの回答1及び回答2が属性となっており、部署及び年齢が、プライバシー保護をあまり問題としない属性として指定されているものとする。そして、プライバシー情報である曖昧化対象属性は回答1及び回答2とする。そして、回答1については、属性値「不満」、「普通」及び「満足」という3種類の取り得る属性値が存在しており、{回答1:3}というような入力がなされる。すなわち、回答1についてはm=3である。また、回答2についても、属性値「不満」、「普通」及び「満足」という3種類の取り得る属性値が存在しており、{回答2:3}というような入力がなされる。すなわち、回答2についても、m=3である。
Next, processing contents of the
そして、k−匿名化処理部220は、第1データ格納部210に格納されているレコード群に対して、よく知られたk−匿名化処理を実施することで、プライバシー保護上あまり問題とならない属性の属性値がkレコード以上同じになるようにその属性値を変更し、変更後のデータを第1データ格納部210に格納する(図11:ステップS11)。本実施の形態では、この段階で図12に示すようなデータが第1データ格納部210に格納されているものとする。図12の例では、k=4であり、部署「製造部門」及び年齢「25−42」というレコードが4レコードになるように、そして部署「営業部門」及び年齢「24−44」というレコードが4レコードになるように、年齢属性の属性値が変更されている。
Then, the k-
その後、グループ化処理部230は、第1データ格納部210に格納されているk−匿名化処理後のレコード群について、曖昧化対象属性以外の属性の属性値に基づき、レコードをグループ化する(ステップS13)。図12の例では、部署及び年齢の属性値が同じレコード同士を同じグループに分類する。上でも述べたように、部署「製造部門」及び年齢「25−42」という4レコードと、部署「営業部門」及び年齢「24−44」という4レコードとがグループとして特定され、グループ分けのデータが第1データ格納部210に格納される。例えば、レコード1乃至4が第1のグループであり、レコード5乃至8が第2のグループであることを表すデータが格納される。
Thereafter, the
その後、曖昧化処理部260は、第1データ格納部210に格納されているグループ分けのデータに基づき、未処理のグループを1つ特定する(ステップS15)。さらに、曖昧化処理部260は、未処理の曖昧化対象属性を1つ特定する(ステップS16)。そして、曖昧化処理部260は、特定されたグループ及び曖昧化対象属性について、頻度表を生成し、第2データ格納部270に格納する(ステップS17)。例えば、レコード1乃至4のグループの属性「回答1」について頻度表を生成すると、図13に示すような頻度表が得られる。
Thereafter, the
そして、曖昧化処理部260は、曖昧化処理を実施する(ステップS19)。曖昧化処理については、図14乃至図21を用いて説明する。
Then, the obscuring
曖昧化処理部260は、第2データ格納部270から頻度表を読み出し、第1データ格納部210から、特定されたグループ及び曖昧化対象属性についての取り得る属性値の種類数mを読み出す(図14:ステップS31)。また、曖昧化処理部260は、変数nに頻度表における総頻度(出現頻度の総和)を設定する(ステップS33)。そして、曖昧化処理部260は、nが3以上であるか判断する(ステップS35)。nが3未満、すなわち1又は2の場合には、曖昧化処理部260は、頻度表において全ての要素を曖昧化する(ステップS37)。そのまま公開するには総頻度が低すぎてプライバシー保護が図れないため、いずれの属性値についても曖昧化データに置換する。例えば「?」に置換する。なお、確率分布情報を付加するようにしても良い。この場合には、各属性値について確率1/mずつというようなデータを付加する。処理は端子Bを介して図16のステップS65に移行する。
The
一方、nが3以上であれば、曖昧化処理部260は、頻度表のレコード数が2であるか判断する(ステップS39)。頻度表のレコード数が2以外であれば、曖昧化処理部260は、頻度表のレコード数が1であるか判断する(ステップS41)。頻度表のレコード数が1以外、すなわち3以上である場合には、曖昧化データに置換しなくてもプライバシー保護上あまり問題とならないので、何もせず端子Cを介して、呼び出し元の処理に戻る。
On the other hand, if n is 3 or more, the
一方、頻度表のレコード数が1であれば、曖昧化処理部260は、頻度表における唯一のレコードの出現頻度nのうち2つを曖昧化する(ステップS43)。このように取り得る属性値の種類がmであるにも拘わらず、1種類しか出現していない場合には、出現頻度に偏りが大きいと判断して、出現頻度nのうち2つを曖昧化データで置換する。そうすると、元々ある属性値の出現頻度がn−2となり、曖昧化データの出現頻度が2となる。曖昧化データは、例えば「?(a=確率P,a以外=(1−P)/(m−1)ずつ)」とする。aは、曖昧化データで置換した属性値であり、Pはn=4の場合には4/7、それ以外の場合には2/(n+1)である。これについては詳しくは以下で述べる。その後処理は端子Bを介して図16のステップS65に移行する。
On the other hand, if the number of records in the frequency table is 1, the
また、頻度表のレコード数が2であれば、曖昧化処理部260は、頻度表においてレコードを出現頻度順に並べ替え、多い方をa、少ない方をbと設定する(ステップS45)。そして、曖昧化処理部260は、bの出現頻度は2以下であるか判断する(ステップS47)。bの出現頻度は3以上であれば、曖昧化データに置換しなくてもプライバシ保護上あまり問題とならないので、何もせず端子Cを介して、呼び出し元の処理に戻る。
If the number of records in the frequency table is 2, the
一方、bの出現頻度が2であれば、曖昧化処理部260は、確率算出処理を実施する(ステップS49)。確率算出処理では、m及びnから、確率x及びpが算出される。処理は端子Aを介して図16のステップS51に移行する。
On the other hand, if the appearance frequency of b is 2, the
確率算出処理について、図15を用いて説明する。但し、具体的な処理を説明する前に、n≧3の場合の考え方について説明する。 The probability calculation process will be described with reference to FIG. However, the concept in the case of n ≧ 3 will be described before describing specific processing.
まず、頻度表が{a:n}(属性値aの出現頻度がn)のとき、特定の人がaであることを他者に一意に決められないようにするには、少なくとも2個を曖昧化すると、プライバシー保護上問題が無くなる。一方、多くの情報を提示するため曖昧化は最小限にしたいので、{a:n−2,?:2}と曖昧化すべきである。「?」は曖昧化データである。 First, when the frequency table is {a: n} (the appearance frequency of the attribute value a is n), in order to prevent a specific person from uniquely determining that a specific person is a, at least two are used. If it becomes ambiguous, there will be no problem in privacy protection. On the other hand, since a lot of information is presented, we want to minimize ambiguity, so {a: n-2,? : 2} should be obscured. “?” Is obfuscated data.
{a:n−2,?:2}の元の頻度表が {a:n}であると決められないようにするために、確率x,y,p,qを次のように定める。
頻度表が{a:n−1,b:1}のとき、{a:n−2,?:2}とする確率をxとする。
頻度表が{a:n−1,b:1}のとき、{a:n−2,b:1,?:1}とする確率をyとする。
頻度表が{a:n−2,b:2}のとき、{a:n−2,?:2}とする確率をpとする。
頻度表が{a:n−2,b:2}のとき、{a:n−2,b:1,?:1}とする確率をqとする。
ここで、0≦x,0≦y,0≦p,0≦q,x+y≦1,p+q≦1である。
{A: n-2,? : 2} In order to prevent the original frequency table of {2: n} from being determined to be {a: n}, the probabilities x, y, p, and q are determined as follows.
When the frequency table is {a: n-1, b: 1}, {a: n-2,? : 2} is assumed to be x.
When the frequency table is {a: n-1, b: 1}, {a: n-2, b: 1,? : 1} is y.
When the frequency table is {a: n-2, b: 2}, {a: n-2 ,? : 2} is assumed to be p.
When the frequency table is {a: n-2, b: 2}, {a: n-2, b: 1,? : 1} is assumed to be q.
Here, 0 ≦ x, 0 ≦ y, 0 ≦ p, 0 ≦ q, x + y ≦ 1, and p + q ≦ 1.
このとき、取り得る属性値(a及びbなど)の出現確率を全て等しいとすると、{a:n−2,?:2}の元の頻度表が{a:n}である確率をA、bの人から見た時{a:n−2,?:2}の元の頻度表が{a:n−1,b:1}である確率をB、bの人から見た時{a:n−2,b:1,?:1}の頻度表が{a:n−1,b:1}である確率をCとすると、A,B及びCは、以下の式で表される。なお、v=m−1である。 At this time, if the appearance probabilities of possible attribute values (such as a and b) are all equal, {a: n−2,? : 2} When the probability that the original frequency table of {a: n} is {a: n-2 ,? : 2} when the probability that the original frequency table of {a: n-1, b: 1} is viewed from the persons B and b {a: n-2, b: 1 ,? : 1}, where C is the probability that the frequency table is {a: n−1, b: 1}, A, B and C are expressed by the following equations. Note that v = m−1.
このとき、{a:n−2,?:2}の元の頻度表で2つの?に対応するaの個数の期待値をE、{a:n−2,b:1,?:1}の元の頻度表で?がaである確率をPとすると、それらは次の式となる。 At this time, {a: n-2,? : 2} in the original frequency table? The expected value of the number of a corresponding to E, {a: n-2, b: 1,? : 1} in the original frequency table? If the probability that A is a is P, they are as follows.
プライバシー保護を最大限にするため、A=B=C且つその値が最小となるx,y,p,qを求めることを考える。なお、A,B,Cのいずれかが1になると、特定の人がaであることが他者に一意に決められてしまう。 In order to maximize privacy protection, consider obtaining x, y, p, and q where A = B = C and the value is minimized. When any one of A, B, and C is 1, it is uniquely determined by the other person that the specific person is a.
A=B=Cより、pは次の式によりxで表される。 From A = B = C, p is represented by x by the following equation.
ここで、n≧5の場合、x+y=p+q=1のときA,B,Cは最小になり、x,A,P,Eは次の式になる。 Here, when n ≧ 5, when x + y = p + q = 1, A, B, and C are minimum, and x, A, P, and E are as follows.
n=4の場合、{a:2,b:2}を曖昧化する際、{a:2,?:2}と{b:2,?:2}、{a:2,b:1,?:1}と{a:1,b:2,?:1}の確率をそれぞれ等しくしたいため、x+y=1,p+q=1/2の時、A,B,Cは最小になり、x,
A,P,Eは次の式になる。
When n = 4, when obscuring {a: 2, b: 2}, {a: 2,? : 2} and {b: 2 ,? : 2}, {a: 2, b: 1,? : 1} and {a: 1, b: 2,? : 1} to equalize, respectively, when x + y = 1 and p + q = 1/2, A, B, and C are minimized, and x,
A, P, and E are as follows.
n=3の場合、n=4の場合と同じように対称性を考え、x+y+p=1,q=yとし、x,A,P,Eは次の式になる。 In the case of n = 3, symmetry is considered in the same manner as in the case of n = 4, x + y + p = 1, q = y, and x, A, P, E are as follows.
以上のような考え方からすると、図15に示すような処理を実施する。すなわち、曖昧化処理部260は、v=m−1と設定する(ステップS61)。そして、曖昧化処理部260は、n=4であるか判断する(ステップS63)。n=4であれば、上で述べたように、曖昧化処理部260は、x=3/14v及びP=4/7を算出する(ステップS67)。処理はステップS69に移行する。一方、n=4以外であれば、上で述べたように、曖昧化処理部260は、x=2(n−1)/(vn(n+1))及びP=2/(n+1)を算出する(ステップS65)。そして処理はステップS69に移行する。
From the above view, the processing as shown in FIG. 15 is performed. That is, the
そして、曖昧化処理部260は、p=2vnx2/((n−1)(2−vnx))を算出する(ステップS69)。そして呼び出し元の処理に戻る。
Then, the
なお、図14の処理では、総頻度nが2以下というように少ない場合、nは3以上でも出現する属性値の数が1である場合に、プライバシー保護を図るために画一的に曖昧化する曖昧化態様を示している。 In the process of FIG. 14, when the total frequency n is as small as 2 or less, even when n is 3 or more and the number of appearing attribute values is 1, it is uniformly obscured to protect privacy. The obscuration mode is shown.
次に、図16を用いて端子A以降の処理を説明する。図16では、最も少ない出現頻度の属性値の出現頻度が1の場合と2の場合といった出現頻度の偏りとnに従って、複数の曖昧化態様のいずれかを選択するようになっており、各曖昧化態様では、図15で算出した確率x及びpに従って確率的に複数の曖昧化パターンのうちいずれかを選択するようになっている。 Next, the processing after the terminal A will be described with reference to FIG. In FIG. 16, one of a plurality of ambiguities is selected according to the appearance frequency bias and n when the appearance frequency of the attribute value having the lowest appearance frequency is 1 and 2. In the conversion mode, one of a plurality of obscuring patterns is selected stochastically according to the probabilities x and p calculated in FIG.
すなわち、曖昧化処理部260は、bの出現頻度が2であるか判断する(ステップS51)。bの出現頻度が2ではない、すなわち1であれば、曖昧化処理部260は、n=3であるか判断する(ステップS53)。n=3であれば、曖昧化処理部260は、乱数により、以下の曖昧化パターンのいずれかを選択して、実行する(ステップS57)。すなわち、(1)確率xで、a1個と、b1個を曖昧化する。この場合、bの出現頻度は1であるが、このbも曖昧化されて{a:1,?:2}となるので、確率分布情報については、「a=確率1/2(=2/(3+1))、a以外=確率(1−1/2)/vずつ」という情報となる。(2)確率pで、a2個を曖昧化する。この場合、{b:1,?:2}となるので、確率分布情報については、「b=確率1/2、b以外=確率(1−1/2)/vずつ」という情報となる。(3)それ以外で、a1個を曖昧化する。この場合、{a:1,b:1,?:1}となるので、「a=確率1/2、b=確率1/2(=1−1/2)」という情報となる。そして処理はステップS65に移行する。
That is, the
一方、n=3以外の場合(n=4以上)には、曖昧化処理部260は、乱数により、以下の曖昧化パターンのいずれかを選択し、実行する(ステップS55)。すなわち、(1)確率xで、a1個とb1個を曖昧化する。この場合、bの出現頻度は1であるが、このbも曖昧化されて{a:n−2,?:2}となるので、確率分布情報については、m=5以上であれば「a=確率2/(n+2)、a以外=確率(1−2/(n+2))/vずつ」という情報となる。m=4であれば「a=確率4/7、a以外=確率(1−4/7)/vずつ」という情報になる。(2)それ以外で、a1個を曖昧化する。この場合、{a:n−2,b:1,?:1}となるので、確率分布情報については、「a=確率1/2、b=確率1/2(=1−1/2)」という情報となる。そして処理はステップS65に移行する。
On the other hand, when n is not 3 (n = 4 or more), the
また、bの出現頻度が2であれば、曖昧化処理部260は、n=4であるか判断する(ステップS59)。n=4であれば、曖昧化処理部260は、乱数により、以下の曖昧化パターンのいずれかを選択し、実行する(ステップS63)。すなわち、(1)確率pで、a2個を曖昧化する。この場合、{b:2,?:2}となるので、確率分布情報については、「b=確率4/7、b以外=確率(1−4/7)/vずつ」という情報となる。(2)確率pで、b2個を曖昧化する。この場合、{a:n−2,?:2}となるので、確率分布情報については、「a=確率4/7、a以外=確率(1−4/7)/vずつ」という情報となる。(3)確率0.5−pで、a1個を曖昧化する。この場合、{a:1,b:2,?:1}となるので、確率分布情報については、「b=確率4/7、a=確率3/7(=1−4/7)」という情報となる。(4)それ以外で、b1個を曖昧化する。この場合、{a:2,b:1,?:1}となるので、確率分布情報については、「a=確率4/7、b=確率3/7(=1−4/7)」という情報となる。そして処理はステップS65に移行する。
If the appearance frequency of b is 2, the
一方、n=4以外の場合(n=5以上)、曖昧化処理部260は、乱数により、以下の曖昧化パターンのいずれかを選択し、実行する(ステップS61)。すなわち、(1)確率pで、b2個を曖昧化する。この場合、{a:n−2,?:2}となるので、確率分布情報については、「a=確率2/(n+1)、a以外=確率(1−2/(n+1))/vずつ」という情報となる。(2)それ以外で、b1個を曖昧化する。この場合、{a:n−2,b:1,?:1}となるので、確率分布情報については、「a=確率2/(n+1)、b=確率1−2(n+1)」という情報になる。そして処理はステップS65に移行する。
On the other hand, when other than n = 4 (n = 5 or more), the
その後、曖昧化処理部260は、変更後の頻度表を、第2データ格納部270に格納する(ステップS65)。そして、呼び出し元の処理に戻る。
Thereafter, the
図11の処理の説明に戻って、曖昧化処理部260は、第2データ格納部270に変更後の頻度表が格納されている場合には、変更前の頻度表との差を、第1データ格納部210に格納されており且つステップS15で特定されたグループに属するレコード群の属性値を変更する(ステップS21)。そして、曖昧化処理部260は、未処理の曖昧化対象属性が存在するか判断する(ステップS22)。未処理の曖昧化対象属性が存在する場合には、ステップS16に戻る。一方、未処理の曖昧化対象属性が存在しない場合には、曖昧化処理部260は、未処理のグループが存在するか判断する(ステップS23)。未処理のグループが存在する場合には、ステップS15に戻る。一方、未処理のグループが存在しない場合には、出力部240は、第1データ格納部210に格納されている修正後の元データを、出力装置(例えば表示装置、印刷装置、又はネットワークで接続されている他のコンピュータなど)に出力する(ステップS25)。
Returning to the description of the processing in FIG. 11, when the frequency table after the change is stored in the second
例えば、図12の例でグループが部署「製造部門」且つ年齢「25−42」で、曖昧化対象属性「回答1」を処理対象とする場合、図13に示すような頻度表が得られる。このような場合、bの出力頻度は「1」で、n=4であるからステップS55の曖昧化態様が選択される。また、図15の処理フローからすると、x=3/28、p=3/56となる。そうすると、確率xで、a1個とb1個を曖昧化するか、それ以外でa1個を曖昧化する。後者が選択されると、図17に示すように頻度表が変更される。aは「不満」であるから、「不満」の出現頻度が1減少し、その分「?(不満=57%、普通=43%)」が追加される。このような変更後の頻度表によれば、図12の元データの関連部分は、図18に示すようになる。図18の例では、aである「不満」が回答1となっているレコードをランダムに1つ選択して、「?(不満=57%、普通=43%)」に変更する。
For example, in the example of FIG. 12, when the group is the department “manufacturing department” and the age is “25-42” and the ambiguity target attribute “
一方、前者が選択されると、図19に示すように頻度表が変更される。この場合、「不満」の出現頻度が1減少し、「普通」の出現頻度は1だったのでレコード自体が消去される。このような変更後の頻度表によれば、図12の元データの関連部分は、図20に示すようになる。回答1が「普通」のレコードは1つだけなのでそのレコードの属性値を「?(不満=57%、不満以外=21%ずつ)」に変更する。さらに、回答1が「不満」のレコードは3つあるのでランダムに1つ選択して「?(不満=57%、不満以外=21%ずつ)」に変更する。
On the other hand, when the former is selected, the frequency table is changed as shown in FIG. In this case, the appearance frequency of “unsatisfied” is decreased by 1, and the appearance frequency of “normal” is 1, so the record itself is deleted. According to the frequency table after such change, the relevant portion of the original data in FIG. 12 is as shown in FIG. Since there is only one record whose
なお、図12の元データ全体については、例えば図21に示すようなデータに変換され、ステップS25で出力される。部署「営業部門」且つ年齢「24−44」というグループの回答1という曖昧化対象属性については、3種類の属性値が出現するので曖昧化することなく、そのまま出力することになる。また、部署「営業部門」且つ年齢「24−44」というグループの回答2という曖昧化対象属性については、属性値「普通」が1種類しか出現していないので、ランダムに2つのレコードを選択して曖昧化データで置換している。その他のグループ及び曖昧化対象属性については、確率的にいずれかの曖昧化パターンが選択される。
Note that the entire original data in FIG. 12 is converted into data as shown in FIG. 21, for example, and output in step S25. As for the obfuscation target attribute of the answer “1” of the group “sales department” and age “24-44”, since three types of attribute values appear, they are output without being obfuscated. Also, for the obfuscation target attribute “
[実施の形態3]
第2の実施の形態では、回答者が変更後の元データを見たとしても、他の回答者の回答を一意に特定できないようにしていたが、回答者が曖昧化後のデータを見ることがないということであれば、図14及び図16の曖昧化処理については、図22に示すような曖昧化処理を行えばよい。
[Embodiment 3]
In the second embodiment, even if the respondent sees the original data after the change, the answer of other respondents cannot be specified uniquely, but the respondent sees the data after ambiguity. If there is no ambiguity, the obscuring process of FIGS. 14 and 16 may be performed as shown in FIG.
但し、nが3以上の場合には、以下のように考える。すなわち、頻度表が{a:n}(頻度が多い方の属性値aの出現頻度が総頻度と同じnである)である場合、特定の人がaであることを頻度表と無関係な他者に一意に決められないようにするには、少なくとも1個を曖昧化することになる。一方、曖昧化は最小限にしたいため、{a:n−1,?:1}と曖昧化すべきである。 However, when n is 3 or more, it is considered as follows. In other words, if the frequency table is {a: n} (the appearance frequency of the attribute value a having the higher frequency is n, which is the same as the total frequency), the fact that the specific person is a is not related to the frequency table. In order not to be uniquely determined by a person, at least one is obfuscated. On the other hand, because we want to minimize ambiguity, {a: n-1 ,? : 1} should be obscured.
{a:n−1,?:1}の元の頻度表が{a:n}であると決められないようにするために、確率xを次のように定める。 {A: n-1,? In order to prevent the original frequency table of 1: 1 from being determined to be {a: n}, the probability x is determined as follows.
すなわち、頻度表が{a:n−1,b:1}のとき、{a:n−1,?:1}とする確率をxとする。ここで0≦x≦1である。 That is, when the frequency table is {a: n-1, b: 1}, {a: n-1,? : 1} is assumed to be x. Here, 0 ≦ x ≦ 1.
このとき、取り得る属性値(a及びbなど)の出現確率を全て等しいとすると、{a:n−1,?:1}の元の頻度表が{a:n}である確率をPとすると、これは次の式となる。 At this time, if the appearance probabilities of possible attribute values (such as a and b) are all equal, {a: n−1,? : 1}, where P is the probability that the original frequency table is {a: n}, this is
プライバシー保護を最大限にするため、Pが最小となるxを求めることを考える。なお、Pが1になると、特定の人がaであることが頻度表と無関係な他者にも一意に決められてしまう。 In order to maximize privacy protection, consider finding x that minimizes P. In addition, when P becomes 1, it is uniquely determined by other persons unrelated to the frequency table that the specific person is a.
従って、n≧3の場合、x=1のときPは最小になり、Pは次の式になる。 Therefore, when n ≧ 3, when x = 1, P is minimum, and P is given by
また、n=2の場合、{a:1,b:1}を曖昧化する際、{a:1,?:1}と{b:1,?:1}の確率を等しくしたいため、x=1/2のときPは最小になり、Pは次の式になる。 In addition, when n = 2, when {a: 1, b: 1} is obscured, {a: 1,? : 1} and {b: 1,? : 1} to equalize the probability, P is minimum when x = 1/2, and P is given by the following equation.
以上のような考え方に基づき、以下のような処理を実施する。 Based on the above concept, the following processing is implemented.
まず、曖昧化処理部260は、第2データ格納部270から頻度表を読み出す(図22:ステップS101)。また、曖昧化処理部260は、nに総頻度(出現頻度の総和)を設定する(ステップS103)。
First, the
そして、曖昧化処理部260は、頻度表のレコード数が2であるか判断する(ステップS105)。頻度表のレコード数が2以外である場合(1又は3以上の場合)、曖昧化処理部260は、頻度表のレコード数が1であるか判断する(ステップS119)。頻度表のレコード数が1ではない、即ち3以上である場合には曖昧化することなく呼び出し元の処理に戻る。
Then, the
一方、頻度表のレコード数が1である場合には、曖昧化処理部260は、唯一のレコードの出現頻度のうち1つを曖昧化する(ステップS121)。ステップS43と同趣旨である。上で述べたように、nが3以上であれば、確率分布情報については、「?(a=確率P、a以外=確率(1−P)/v)ずつ」という情報になる。m=3及びn=4であれば、P=1/(vn+1)=1/((3−1)*4+1)=11%となる。そして処理はステップS117に移行する。
On the other hand, when the number of records in the frequency table is 1, the
また、頻度表のレコード数が2である場合には、曖昧化処理部260は、頻度表においてレコードを頻度順に並べ替え、多い方をa、少ない方をbに設定する(ステップS107)。そして、曖昧化処理部260は、bの頻度は1であるか判断する(ステップS109)。bの頻度が2以上であれば、上記の前提の下では問題がないので、曖昧化することなく呼び出し元の処理に戻る。
If the number of records in the frequency table is 2, the
一方、bの頻度が1である場合には、曖昧化処理部260は、n=2であるか判断する(ステップS111)。nが2以外の場合には、曖昧化処理部260は、b1個を曖昧化する(ステップS115)。この場合、{a:n−1,?:1}であるから、確率分布情報については、nが3以上であれば「a=確率P(=1/(vn+1))、a以外の属性値=確率((1−P)/v)ずつ」となる。そして処理はステップS117に移行する。
On the other hand, when the frequency of b is 1, the
また、n=2である場合には、曖昧化処理部260は、乱数により、次のいずれかの曖昧化パターンのうちいずれかを選択して、実行する(ステップS113)。すなわち、(1)確率1/2で、a1個を曖昧化する。この場合、確率分布情報については、{b:1,?:1}であるから、「?(b=確率1/(v+1),b以外=確率(1−1/(v+1))/vずつ)」という情報である。(2)それ以外で、b1個を曖昧化する。この場合、確率分布情報については、{a:1,?:1}であるから、「?(a=確率1/(v+1),a以外=確率(1−1/(v+1))/vずつ)」という情報である。そして、ステップS117に移行する。
If n = 2, the obscuring
その後、曖昧化処理部260は、変更後の頻度表を第2データ格納部270に格納する(ステップS117)。
Thereafter, the
例えば図12に示した例を図22の処理フローで処理すると、図23のようなデータが得られる。すなわち、部署「製造部門」且つ年齢「25−42」というグループの曖昧化対象属性「回答2」については、第2の実施の形態では曖昧化されていたが、本実施の形態では曖昧化されない。また、部署「製造部門」且つ年齢「25−42」というグループの曖昧化対象属性「回答1」については、ステップS115において、回答1が「普通」であるレコードの属性値が「?(不満=11%、不満以外=44%ずつ)」という曖昧化データに置換される。また、部署「営業部門」且つ年齢「24−44」というグループの曖昧化対象属性「回答1」を処理する場合には、曖昧化されない。部署「営業部門」且つ年齢「24−44」というグループの曖昧化対象属性「回答2」を処理する場合に、ステップS121で曖昧化データに置換される。すなわち、「?(不満=11%、不満以外=44%ずつ」)となる。
For example, when the example shown in FIG. 12 is processed by the processing flow of FIG. 22, data as shown in FIG. 23 is obtained. In other words, the obfuscation target attribute “
以上本技術の実施の形態を説明したが、本技術はこれに限定されるものではない。機能ブロック構成については、一例であって、必ずしも実際のプログラムモジュール構成と一致しない場合もある。また、処理フローについても、処理結果が変わらない限り、処理順番を入れ替えたり、複数のステップを並列実行しても良い。 Although the embodiment of the present technology has been described above, the present technology is not limited to this. The functional block configuration is an example, and may not necessarily match the actual program module configuration. As for the processing flow, as long as the processing result does not change, the processing order may be changed or a plurality of steps may be executed in parallel.
また、上で述べた実施の形態では、全ての属性値を平等に扱ったが、属性値によってはプライバシー上あまり問題にならないような値を特別扱いするなどしても良い。たとえば、各人について「回答」が普通であることは開示して問題ない場合は、[普通, 普通, 普通, 普通] や [普通, 普通, 満足, 普通] などは、偏りが大きいと判定される場合においても曖昧化しない、といったアルゴリズムにしても良い。 In the embodiment described above, all attribute values are treated equally. However, depending on the attribute value, a value that does not cause much privacy may be treated specially. For example, if there is no problem in disclosing that “answer” is normal for each person, [normal, normal, normal, normal] and [normal, normal, satisfied, normal] etc. are judged to have a large bias. In such a case, an algorithm that does not obfuscate the case may be used.
なお、上で述べた情報処理装置100及び200は、コンピュータ装置であって、図24に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
The
以上述べた本実施の形態をまとめると、以下のようになる。 The above-described embodiment can be summarized as follows.
本実施の形態に係る情報処理方法は、(A)複数のレコードに含まれ且つ曖昧化対象と指定されている第1の属性の属性値の種類毎に複数のレコードのうち当該第1の属性の属性値が出現するレコードの数が格納されているデータ格納部に格納されているデータから、レコードの数の分布が、偏りが大きいことを表す条件を満たしているか判断するステップと、(B)レコードの数の分布が偏りが大きいことを表す条件を満たしている場合には、複数のレコードのうち少なくとも1のレコードにおける第1の属性の属性値を、曖昧化データに置換し、データ格納部に格納するステップとを含む。 In the information processing method according to the present embodiment, (A) the first attribute of the plurality of records is included for each type of attribute value of the first attribute that is included in the plurality of records and designated as the object to be obfuscated. Determining whether the distribution of the number of records satisfies a condition indicating that the deviation is large, from data stored in a data storage unit in which the number of records in which the attribute value appears is stored (B ) When the condition indicating that the distribution of the number of records has a large deviation is satisfied, the attribute value of the first attribute in at least one of the plurality of records is replaced with the ambiguous data, and the data is stored. Storing in the section.
このように曖昧化対象の第1の属性の属性値を曖昧化データと置換することで、元の値の出現分布の傾向を残しつつプライバシー保護を図ることができるようになる。 Thus, by replacing the attribute value of the first attribute to be obfuscated with the ambiguous data, privacy protection can be achieved while leaving the tendency of the appearance distribution of the original value.
また、本実施の形態に係る情報処理方法が、(C)データ格納部に格納されているレコードを、第1の属性とは異なる第2の属性(又は第2の属性群)の属性値が同じレコードにグループ化することで、複数のレコードを抽出する抽出ステップと、(D)複数のレコードにおける第1の属性の属性値毎に、当該第1の属性の属性値を含むレコードの数を計数し、データ格納部に格納するステップとをさらに含むようにしても良い。このように、曖昧化対象属性の属性値毎に、レコード数を算出するようにしても良い。 Further, in the information processing method according to the present embodiment, (C) a record stored in the data storage unit has an attribute value of a second attribute (or second attribute group) different from the first attribute. The extraction step of extracting a plurality of records by grouping into the same record, and (D) the number of records including the attribute value of the first attribute for each attribute value of the first attribute in the plurality of records And counting and storing in the data storage unit. In this way, the number of records may be calculated for each attribute value of the obfuscation target attribute.
さらに、上で述べた曖昧化データが、少なくとも第1の属性の属性値のうち頻度が最も多い属性値である確率のデータを含むようにしても良い。このような確率のデータが提示されれば、より元の値の傾向を把握することが容易になる。 Further, the obscuration data described above may include data having a probability that the attribute value has the highest frequency among the attribute values of the first attribute. If such probability data is presented, it becomes easier to grasp the tendency of the original value.
また、上で述べた抽出ステップが、第2の属性(又は第2の属性群)の属性値が、k個以上同じ値となるように匿名化する処理を行った後に実施される場合もある。すなわちk−匿名化処理を実施すれば、基礎的なプライバシー保護を実現できるようになる。 In addition, the extraction step described above may be performed after performing anonymization processing so that the attribute value of the second attribute (or the second attribute group) is equal to k or more. . That is, if the k-anonymization process is performed, basic privacy protection can be realized.
さらに、上で述べた偏りが大きいことを表す条件が、第1の属性の属性値が2種類しか出現しておらず頻度が少ない方の属性値の頻度が1又は2であるという条件と、第1の属性の属性値が1種類しか存在しないという条件とのいずれかを満たすという判断条件である場合もある。回答者自身が処理結果を見ても他の回答者の回答内容を一意に識別できないようにしつつ、曖昧化するデータを最小限に抑えるには、このような条件を採用する。なお、この場合、曖昧化データと置換するレコードの数は多くとも2となる。 Further, the above-described condition indicating that the bias is large is that the attribute value of the first attribute appears only in two types and the frequency of the attribute value with the lower frequency is 1 or 2, In some cases, the determination condition satisfies either one of the conditions that the attribute value of the first attribute has only one type. Such a condition is adopted in order to minimize the data to be obscured while making it impossible for the respondent himself / herself to uniquely identify the reply contents of other respondents even when viewing the processing result. In this case, the number of records to be replaced with the ambiguous data is at most two.
また、複数のレコードのレコード数が2以下である場合に、曖昧化ステップを実施するようにしても良い。このように、元々の回答者の数が少ない場合には曖昧化を行ってプライバシー保護を図る。 Further, when the number of records of the plurality of records is 2 or less, the ambiguity step may be performed. Thus, when the number of original respondents is small, obfuscation is performed to protect privacy.
また、上で述べた曖昧化ステップが、複数のレコードのレコード数と第1の属性の属性値の取り得る種類の数とに応じて算出される確率に従い、複数のレコードのうち1又は2のレコードにおける第1の属性の属性値を曖昧化する複数の曖昧化パターンのうちいずれかを特定するステップと、特定された曖昧化パターンに従って、第1の属性の属性値を曖昧化データで置換するステップとを含むようにしても良い。このような処理を行うと効果的にプライバシー保護が図られる。 In addition, the ambiguity step described above may include one or two of the plurality of records according to the probability calculated according to the number of records of the plurality of records and the number of types that the attribute value of the first attribute can take. The step of identifying any one of a plurality of obfuscation patterns for obfuscating the attribute value of the first attribute in the record, and replacing the attribute value of the first attribute with the obfuscation data according to the identified obfuscation pattern Steps may be included. When such processing is performed, privacy protection is effectively achieved.
さらに、上で述べた偏りが大きいことを表す条件が、第1の属性の属性値が2種類しか出現しておらず且つ頻度が少ない方の属性の頻度が1であるという条件と、第1の属性の属性値が1種類しか存在しないという条件とのいずれかを満たすという判断条件である場合もある。例えば、回答者自身が処理結果を見ることがない場合には、このような条件でもプライバシー保護が図られる。この場合、曖昧化データと置換されるレコードの数は1となる。 Further, the above-described condition indicating that the bias is large includes the condition that only two types of attribute values of the first attribute appear and the frequency of the attribute with the lower frequency is 1, In some cases, the determination condition satisfies one of the conditions that only one type of attribute value exists. For example, when the respondent himself does not see the processing result, privacy protection can be achieved even under such conditions. In this case, the number of records replaced with the ambiguous data is 1.
さらに、複数のレコードにおける第1の属性の属性値が、第1の属性値と当該第1の属性値より頻度が低い第2の属性値とを含み、複数のレコードのレコード数をnとする場合、例えば以下のようにして上で述べた確率を算出するようにしても良い。すなわち、第1の属性値が(n−2)個出現し、2レコード分前記曖昧化データに置換されたことを表す情報が生成されている場合において実際には第1の属性値がn個出現していた場合の確率Aと、第2の属性値に該当する人から見て第1の属性値が(n−2)個出現し、2レコード分曖昧化データに置換されたことを表す情報が生成されている場合において実際には第1の属性値が(n−1)個出現しており且つ第2の属性が1つ出現していた場合の確率Bと、第2の属性値に該当する人から見て第1の属性値が(n−2)個出現し、第2の属性値が1個出現し、1レコード分曖昧化データに置換されたことを表す情報が生成されている場合において実際には第1の属性値が(n−1)個出現しており且つ第2の属性が1つ出現していた場合の確率Cと、が等しく且つ最小になるという条件を満たすように、上で述べた確率が算出されるようにしても良い。適切な確率を算出できる。 Furthermore, the attribute value of the first attribute in the plurality of records includes the first attribute value and the second attribute value having a lower frequency than the first attribute value, and the number of records of the plurality of records is n. In this case, for example, the probability described above may be calculated as follows. That is, when (n−2) first attribute values appear and information indicating that two records have been replaced with the obfuscation data is generated, the first attribute value is actually n first. The probability A when it appears, and the fact that (n-2) first attribute values appear from the viewpoint of the person corresponding to the second attribute value, and that two records have been replaced with obfuscation data When information is generated, the probability B in the case where (n−1) first attribute values actually appear and one second attribute appears, and the second attribute value Information indicating that (n-2) first attribute values appear, one second attribute value appears, and one record has been replaced with obfuscation data as viewed from the person corresponding to In practice, (n-1) first attribute values appear and one second attribute appears. Probability C of cases, to satisfy the condition that is equal and minimum, may be the probability mentioned above is calculated. An appropriate probability can be calculated.
なお、上で述べたような処理をコンピュータに実施させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブル・ディスク、CD−ROMなどの光ディスク、光磁気ディスク、半導体メモリ(例えばROM)、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。 It is possible to create a program for causing a computer to carry out the processing described above, such as a flexible disk, an optical disk such as a CD-ROM, a magneto-optical disk, and a semiconductor memory (for example, ROM). Or a computer-readable storage medium such as a hard disk or a storage device.
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。 The following supplementary notes are further disclosed with respect to the embodiments including the above examples.
(付記1)
複数のレコードに含まれ且つ曖昧化対象と指定されている第1の属性の属性値の種類毎に前記複数のレコードのうち当該第1の属性の属性値が出現するレコードの数が格納されているデータ格納部に格納されているデータから、前記レコードの数の分布に、偏りが大きいことを表す条件を満たしているか判断するステップと、
前記レコードの数の分布に、前記偏りが大きいことを表す条件を満たしている場合には、前記複数のレコードのうち少なくとも1のレコードにおける前記第1の属性の属性値を、曖昧化データに置換し、前記データ格納部に格納するステップと、
を含み、コンピュータにより実行される情報処理方法。
(Appendix 1)
The number of records in which the attribute value of the first attribute appears among the plurality of records is stored for each type of attribute value of the first attribute that is included in the plurality of records and designated as the object to be obfuscated. Determining whether or not a condition indicating a large deviation is satisfied in the distribution of the number of records from the data stored in the data storage unit,
When the condition indicating that the deviation is large is satisfied in the distribution of the number of records, the attribute value of the first attribute in at least one of the plurality of records is replaced with ambiguous data And storing in the data storage unit;
An information processing method executed by a computer.
(付記2)
前記データ格納部に格納されているレコードを、前記第1の属性とは異なる第2の属性の属性値が同じレコードにグループ化することで、前記複数のレコードを抽出する抽出ステップと、
前記複数のレコードにおける前記第1の属性の属性値毎に、当該第1の属性の属性値を含むレコードの数を計数し、前記データ格納部に格納するステップと、
をさらに含む付記1記載の情報処理方法。
(Appendix 2)
An extraction step of extracting the plurality of records by grouping records stored in the data storage unit into records having the same attribute value of a second attribute different from the first attribute;
For each attribute value of the first attribute in the plurality of records, counting the number of records including the attribute value of the first attribute, and storing in the data storage unit;
The information processing method according to
(付記3)
前記曖昧化データが、少なくとも前記第1の属性の属性値のうち頻度が最も多い属性値である確率のデータを含む
付記1又は2記載の情報処理方法。
(Appendix 3)
The information processing method according to
(付記4)
前記抽出ステップが、前記第2の属性の属性値が、k個以上同じ値となるように匿名化する処理を行った後に実施される
付記1又は2記載の情報処理方法。
(Appendix 4)
The information processing method according to
(付記5)
前記偏りが大きいことを表す条件が、前記第1の属性の属性値が2種類しか出現しておらず且つ頻度が少ない方の属性値の頻度が1又は2であるという条件と、前記第1の属性の属性値が1種類しか存在しないという条件とのいずれかを満たすという判断条件である
付記1乃至4のいずれか1つ記載の情報処理方法。
(Appendix 5)
The condition indicating that the bias is large includes a condition that only two types of attribute values of the first attribute appear and the frequency of the attribute value having a lower frequency is 1 or 2, and the first The information processing method according to any one of
(付記6)
前記複数のレコードのレコード数が2以下である場合に、前記曖昧化ステップを実施する
付記5記載の情報処理方法。
(Appendix 6)
The information processing method according to claim 5, wherein the obfuscation step is performed when the number of records of the plurality of records is 2 or less.
(付記7)
前記曖昧化ステップが、
前記複数のレコードのレコード数と前記第1の属性の属性値の取り得る種類の数とに応じて算出される確率に従い、前記複数のレコードのうち1又は2のレコードにおける第1の属性の属性値を曖昧化する複数の曖昧化パターンのうちいずれかを特定するステップと、
特定された前記曖昧化パターンに従って、前記第1の属性の属性値を前記曖昧化データで置換するステップと、
を含む付記1乃至6のいずれか記載の情報処理方法。
(Appendix 7)
The obscuring step comprises:
The attribute of the first attribute in one or two of the plurality of records according to the probability calculated according to the number of records of the plurality of records and the number of types of attribute values of the first attribute Identifying any one of a plurality of obfuscation patterns that obfuscate values;
Replacing the attribute value of the first attribute with the obfuscation data according to the identified obfuscation pattern;
The information processing method according to any one of
(付記8)
前記偏りが大きいことを表す条件が、前記第1の属性の属性値が2種類しか出現しておらず且つ頻度が少ない方の属性の頻度が1であるという条件と、前記第1の属性の属性値が1種類しか存在しないという条件とのいずれかを満たすという判断条件である
付記1乃至4記載のいずれか1つ記載の情報処理方法。
(Appendix 8)
The condition indicating that the bias is large includes a condition that only two types of attribute values of the first attribute appear and the frequency of the attribute with the lower frequency is 1, and the first attribute The information processing method according to any one of
(付記9)
前記複数のレコードにおける前記第1の属性の属性値が、第1の属性値と当該第1の属性値より頻度が低い前記第2の属性値とを含み、
前記複数のレコードのレコード数をnとし、
前記第1の属性値が(n−2)個出現し、2レコード分前記曖昧化データに置換されたことを表す情報が生成されている場合において実際には前記第1の属性値がn個出現していた場合の確率Aと、前記第2の属性値に該当する人から見て前記第1の属性値が(n−2)個出現し、2レコード分前記曖昧化データに置換されたことを表す情報が生成されている場合において実際には前記第1の属性値が(n−1)個出現しており且つ前記第2の属性が1つ出現していた場合の確率Bと、前記第2の属性値に該当する人から見て前記第1の属性値が(n−2)個出現し、前記第2の属性値が1個出現し、1レコード分前記曖昧化データに置換されたことを表す情報が生成されている場合において実際には前記第1の属性値が(n−1)個出現しており且つ前記第2の属性が1つ出現していた場合の確率Cと、が等しく且つ最小になるという条件を満たすように、前記確率が算出される
付記7記載の情報処理方法。
(Appendix 9)
The attribute value of the first attribute in the plurality of records includes a first attribute value and the second attribute value having a frequency lower than that of the first attribute value,
The number of records of the plurality of records is n,
In the case where (n-2) first attribute values appear and information indicating that two records have been replaced with the obfuscation data is generated, the first attribute value is actually n. (N−2) first attribute values appearing from the viewpoint of the person corresponding to the second attribute value and the probability A in the case of appearing, two records were replaced with the obfuscation data. In the case where information indicating that is generated, the probability B in the case where (n−1) first attribute values actually appear and one second attribute appears, From the viewpoint of the person corresponding to the second attribute value, (n−2) first attribute values appear, one second attribute value appears, and one record is replaced with the ambiguous data. In the case where the information indicating that it has been generated is actually generated, (n-1) first attribute values appear. Cage and the probability C of when the second attribute that has emerged one so as to satisfy the condition that is equal and minimum, the information processing method according to Note 7, wherein the probability is calculated.
(付記10)
複数のレコードに含まれ且つ曖昧化対象と指定されている第1の属性の属性値の種類毎に前記複数のレコードのうち当該第1の属性の属性値が出現するレコードの数が格納されているデータ格納部に格納されているデータから、前記レコードの数の分布に、偏りが大きいことを表す条件を満たしているか判断するステップと、
前記レコードの数の分布に、前記偏りが大きいことを表す条件を満たしている場合には、前記複数のレコードのうち少なくとも1のレコードにおける前記第1の属性の属性値を、曖昧化データに置換し、前記データ格納部に格納するステップと、
を、コンピュータに実行させるプログラム。
(Appendix 10)
The number of records in which the attribute value of the first attribute appears among the plurality of records is stored for each type of attribute value of the first attribute that is included in the plurality of records and designated as the object to be obfuscated. Determining whether or not a condition indicating a large deviation is satisfied in the distribution of the number of records from the data stored in the data storage unit,
When the condition indicating that the deviation is large is satisfied in the distribution of the number of records, the attribute value of the first attribute in at least one of the plurality of records is replaced with ambiguous data And storing in the data storage unit;
A program that causes a computer to execute.
(付記11)
複数のレコードに含まれ且つ曖昧化対象と指定されている第1の属性の属性値の種類毎に前記複数のレコードのうち当該第1の属性の属性値が出現するレコードの数が格納されているデータ格納部に格納されているデータから、前記レコードの数の分布に、偏りが大きいことを表す条件を満たしているか判断する判断部と、
前記レコードの数の分布に、前記偏りが大きいことを表す条件を満たしている場合には、前記複数のレコードのうち少なくとも1のレコードにおける前記第1の属性の属性値を、曖昧化データに置換し、前記データ格納部に格納する曖昧化処理部と、
を有する情報処理装置。
(Appendix 11)
The number of records in which the attribute value of the first attribute appears among the plurality of records is stored for each type of attribute value of the first attribute that is included in the plurality of records and designated as the object to be obfuscated. A determination unit that determines whether or not a condition indicating a large deviation is satisfied in the distribution of the number of records from data stored in a data storage unit;
When the condition indicating that the deviation is large is satisfied in the distribution of the number of records, the attribute value of the first attribute in at least one of the plurality of records is replaced with ambiguous data And an ambiguity processing unit stored in the data storage unit,
An information processing apparatus.
100,200 情報処理装置
110 第1データ格納部
120 判断部
130 曖昧化処理部
140 第2データ格納部
210 第1データ格納部
220 k−匿名化処理部
230 グループ化処理部
240 出力部
250 入力部
260 曖昧化処理部
270 第2データ格納部
100, 200
Claims (9)
前記レコードの数の分布に、前記偏りが大きいことを表す条件を満たしている場合には、前記複数のレコードのうち少なくとも1のレコードにおける前記第1の属性の属性値を、曖昧化データに置換し、前記データ格納部に格納するステップと、
を含み、コンピュータに実行される情報処理方法。 The number of records in which the attribute value of the first attribute appears among the plurality of records is stored for each type of attribute value of the first attribute that is included in the plurality of records and designated as the object to be obfuscated. Determining whether or not a condition indicating a large deviation is satisfied in the distribution of the number of records from the data stored in the data storage unit,
When the condition indicating that the deviation is large is satisfied in the distribution of the number of records, the attribute value of the first attribute in at least one of the plurality of records is replaced with ambiguous data And storing in the data storage unit;
An information processing method executed on a computer.
前記複数のレコードにおける前記第1の属性の属性値毎に、当該第1の属性の属性値を含むレコードの数を計数し、前記データ格納部に格納するステップと、
をさらに含む請求項1記載の情報処理方法。 An extraction step of extracting the plurality of records by grouping records stored in the data storage unit into records having the same attribute value of a second attribute different from the first attribute;
For each attribute value of the first attribute in the plurality of records, counting the number of records including the attribute value of the first attribute, and storing in the data storage unit;
The information processing method according to claim 1, further comprising:
請求項1又は2記載の情報処理方法。 The information processing method according to claim 1, wherein the obfuscation data includes data having a probability that the attribute value has the highest frequency among the attribute values of the first attribute.
請求項1又は2記載の情報処理方法。 The information processing method according to claim 1 or 2, wherein the extraction step is performed after performing anonymization processing so that attribute values of the second attributes are equal to k or more.
請求項1乃至4のいずれか1つ記載の情報処理方法。 The condition indicating that the bias is large includes a condition that only two types of attribute values of the first attribute appear and the frequency of the attribute value having a lower frequency is 1 or 2, and the first The information processing method according to any one of claims 1 to 4, wherein the determination condition satisfies any one of a condition that only one type of attribute value of the attribute exists.
前記複数のレコードのレコード数と前記第1の属性の属性値の取り得る種類の数とに応じて算出される確率に従い、前記複数のレコードのうち1又は2のレコードにおける第1の属性の属性値を曖昧化する複数の曖昧化パターンのうちいずれかを特定するステップと、
特定された前記曖昧化パターンに従って、前記第1の属性の属性値を前記曖昧化データで置換するステップと、
を含む請求項1乃至5のいずれか記載の情報処理方法。 The obscuring step comprises:
The attribute of the first attribute in one or two of the plurality of records according to the probability calculated according to the number of records of the plurality of records and the number of types of attribute values of the first attribute Identifying any one of a plurality of obfuscation patterns that obfuscate values;
Replacing the attribute value of the first attribute with the obfuscation data according to the identified obfuscation pattern;
The information processing method according to claim 1, comprising:
請求項1乃至4記載のいずれか1つ記載の情報処理方法。 The condition indicating that the bias is large includes a condition that only two types of attribute values of the first attribute appear and the frequency of the attribute with the lower frequency is 1, and the first attribute The information processing method according to any one of claims 1 to 4, wherein the determination condition satisfies any one of a condition that only one kind of attribute value exists.
前記レコードの数の分布に、前記偏りが大きいことを表す条件を満たしている場合には、前記複数のレコードのうち少なくとも1のレコードにおける前記第1の属性の属性値を、曖昧化データに置換し、前記データ格納部に格納するステップと、
を、コンピュータに実行させるプログラム。 The number of records in which the attribute value of the first attribute appears among the plurality of records is stored for each type of attribute value of the first attribute that is included in the plurality of records and designated as the object to be obfuscated. Determining whether or not a condition indicating a large deviation is satisfied in the distribution of the number of records from the data stored in the data storage unit,
When the condition indicating that the deviation is large is satisfied in the distribution of the number of records, the attribute value of the first attribute in at least one of the plurality of records is replaced with ambiguous data And storing in the data storage unit;
A program that causes a computer to execute.
前記レコードの数の分布に、前記偏りが大きいことを表す条件を満たしている場合には、前記複数のレコードのうち少なくとも1のレコードにおける前記第1の属性の属性値を、曖昧化データに置換し、前記データ格納部に格納する曖昧化処理部と、
を有する情報処理装置。 The number of records in which the attribute value of the first attribute appears among the plurality of records is stored for each type of attribute value of the first attribute that is included in the plurality of records and designated as the object to be obfuscated. A determination unit that determines whether or not a condition indicating a large deviation is satisfied in the distribution of the number of records from data stored in a data storage unit;
When the condition indicating that the deviation is large is satisfied in the distribution of the number of records, the attribute value of the first attribute in at least one of the plurality of records is replaced with ambiguous data And an ambiguity processing unit stored in the data storage unit,
An information processing apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011273037A JP5772563B2 (en) | 2011-12-14 | 2011-12-14 | Information processing method, apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011273037A JP5772563B2 (en) | 2011-12-14 | 2011-12-14 | Information processing method, apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013125374A true JP2013125374A (en) | 2013-06-24 |
JP5772563B2 JP5772563B2 (en) | 2015-09-02 |
Family
ID=48776579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011273037A Expired - Fee Related JP5772563B2 (en) | 2011-12-14 | 2011-12-14 | Information processing method, apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5772563B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015114807A (en) * | 2013-12-11 | 2015-06-22 | 株式会社日立システムズ | Data classification device, data classification method, and data classification program |
WO2016092830A1 (en) * | 2014-12-09 | 2016-06-16 | 日本電気株式会社 | Information processing device, information processing method, and recording medium |
JP2016126579A (en) * | 2015-01-05 | 2016-07-11 | 富士通株式会社 | Data secrecy device, data secrecy program and data secrecy method |
JP2017073022A (en) * | 2015-10-08 | 2017-04-13 | 日本電信電話株式会社 | Anonymization device, anonymization method, and program |
CN107426441A (en) * | 2017-08-31 | 2017-12-01 | 努比亚技术有限公司 | A kind of displaying method of terminal, terminal and computer-readable recording medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020169793A1 (en) * | 2001-04-10 | 2002-11-14 | Latanya Sweeney | Systems and methods for deidentifying entries in a data source |
JP2008217425A (en) * | 2007-03-05 | 2008-09-18 | Hitachi Ltd | Information output device, information output method, and information output program |
JP2011100116A (en) * | 2009-10-07 | 2011-05-19 | Nippon Telegr & Teleph Corp <Ntt> | Disturbance device, disturbance method, and program therefor |
JPWO2011142327A1 (en) * | 2010-05-10 | 2013-07-22 | 日本電気株式会社 | Information processing apparatus, control method, and program |
-
2011
- 2011-12-14 JP JP2011273037A patent/JP5772563B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020169793A1 (en) * | 2001-04-10 | 2002-11-14 | Latanya Sweeney | Systems and methods for deidentifying entries in a data source |
JP2008217425A (en) * | 2007-03-05 | 2008-09-18 | Hitachi Ltd | Information output device, information output method, and information output program |
JP2011100116A (en) * | 2009-10-07 | 2011-05-19 | Nippon Telegr & Teleph Corp <Ntt> | Disturbance device, disturbance method, and program therefor |
JPWO2011142327A1 (en) * | 2010-05-10 | 2013-07-22 | 日本電気株式会社 | Information processing apparatus, control method, and program |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015114807A (en) * | 2013-12-11 | 2015-06-22 | 株式会社日立システムズ | Data classification device, data classification method, and data classification program |
WO2016092830A1 (en) * | 2014-12-09 | 2016-06-16 | 日本電気株式会社 | Information processing device, information processing method, and recording medium |
JP2016126579A (en) * | 2015-01-05 | 2016-07-11 | 富士通株式会社 | Data secrecy device, data secrecy program and data secrecy method |
JP2017073022A (en) * | 2015-10-08 | 2017-04-13 | 日本電信電話株式会社 | Anonymization device, anonymization method, and program |
CN107426441A (en) * | 2017-08-31 | 2017-12-01 | 努比亚技术有限公司 | A kind of displaying method of terminal, terminal and computer-readable recording medium |
Also Published As
Publication number | Publication date |
---|---|
JP5772563B2 (en) | 2015-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Verykios et al. | Association rule hiding | |
US10467433B2 (en) | Event processing system | |
Xu et al. | Anonymizing transaction databases for publication | |
Tai et al. | Privacy-preserving social network publication against friendship attacks | |
US20220398338A1 (en) | Data privacy pipeline providing collaborative intelligence and constraint computing | |
JP5772563B2 (en) | Information processing method, apparatus and program | |
Taha et al. | SIIMCO: A forensic investigation tool for identifying the influential members of a criminal organization | |
WO2012127572A1 (en) | Secret data processing method, program and device | |
CA3069908A1 (en) | Differentially private query budget refunding | |
Yao et al. | Sensitive label privacy preservation with anatomization for data publishing | |
Li et al. | A top-down approach for approximate data anonymisation | |
Chicha et al. | A user-centric mechanism for sequentially releasing graph datasets under blowfish privacy | |
US10817479B2 (en) | Recommending data providers' datasets based on database value densities | |
CN110929172B (en) | Information selection method and device, electronic equipment and readable storage medium | |
Tai et al. | Structural diversity for resisting community identification in published social networks | |
Xie et al. | Auditing the sensitivity of graph-based ranking with visual analytics | |
Mohsen et al. | Countering intrusiveness using new security-centric ranking algorithm built on top of elasticsearch | |
Zhang et al. | A crowd wisdom management framework for crowdsourcing systems | |
Riboni et al. | Incremental release of differentially-private check-in data | |
CN116166820A (en) | Visualized knowledge graph generation method and device based on provider data | |
Dai et al. | Privacy-preserving assessment of social network data trustworthiness | |
Mohsen et al. | Security‐centric ranking algorithm and two privacy scores to mitigate intrusive apps | |
Sathiya Devi et al. | A study on privacy-preserving approaches in online social network for data publishing | |
US20100036865A1 (en) | Method For Generating Score-Optimal R-Trees | |
Liao et al. | Uncovering multiple diffusion networks using the first-hand sharing pattern |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140805 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150324 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150430 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150615 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5772563 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |